CN114519406B

CN114519406B - 工业数据的分类方法及其模型训练方法、装置

Info

Publication number: CN114519406B
Application number: CN202210418078.XA
Authority: CN
Inventors: 张坤宇; 刘明伟; 詹威威; 崔志群; 杜志彪
Original assignee: Tianjin Troila Technology Development Co ltd
Current assignee: Tianjin Troila Technology Development Co ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-16
Anticipated expiration: 2042-04-21
Also published as: CN114519406A

Abstract

本发明提供了一种工业数据的分类方法及其模型训练方法、装置，涉及数据分类技术领域，该模型训练过程中该模型在训练过程中通过利用预设选样策略对扩展集中的工业数据进行筛选，并利用扩展集的筛选结果更新训练集中的工业数据，实现了将主动学习融入至模型训练过程中，能够减少模型训练过程中人工标注样本的数据量，减少了模型训练过程的复杂性，降低了人力成本；同时有利于提升模型的整体性能，从而提高工业数据分类的效果。

Description

工业数据的分类方法及其模型训练方法、装置

技术领域

本发明涉及数据分类技术领域，尤其是涉及一种工业数据的分类方法及其模型训练方法、装置。

背景技术

工业数据分类分级能够促进工业数据的使用、流动与共享，释放数据潜在价值。工业数据主要是文本形式存在于各个生命周期中，如何精准的对工业数据进行分类，已成为提高工业数据的分析汇总结果的重要手段。

现有技术中对于工业数据的分类主要采用人工分析手段，依赖操作人员的经验，容易受到主观认知的制约，效率较低；虽然现有技术中已使用一些模型进行工业数据的分析，但模型训练过程中需要大量标注数据进行训练，而这些标注数据也需要消耗较多的人力成本和时间成本。

综上所示，现有技术中在对工业数据进行分类的过程中还存在着相关模型训练过程复杂、人力成本较高的问题。

发明内容

有鉴于此，本发明的目的在于提供一种工业数据的分类方法及其模型训练方法、装置，该模型在训练过程中通过利用预设选样策略对扩展集中的工业数据进行筛选，并利用扩展集的筛选结果更新训练集中的工业数据，实现了将主动学习融入至模型训练过程中，能够减少模型训练过程中人工标注样本的数据量，减少了模型训练过程的复杂性，降低了人力成本；同时有利于提升模型的整体性能，从而提高工业数据分类的效果。

第一方面，本发明实施例提供了一种用于工业数据分类的模型训练方法，该方法包括以下步骤：

获取包含工业数据的多个数据集；其中，数据集至少包括：训练集、测试集以及扩展集；

将数据集输入至预先构建的初始工业数据分类模型中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果；

利用扩展集的筛选结果更新训练集中的工业数据，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果；

利用测试集对训练集的分类分级结果进行性能评估，得到初始工业数据分类模型的性能评估结果；

当性能评估结果满足预设阈值条件时，停止模型的训练，得到用于工业数据分类的模型。

在一些实施方式中，当性能评估结果不满足预设阈值条件时，方法还包括：

根据初始工业数据分类模型的性能评估结果，利用预设选样策略对扩展集中的工业数据进行二次筛选，得到扩展集的二次筛选结果；

将扩展集的二次筛选结果进行分类分级标注后，添加至训练集中。

在一些实施方式中，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果的过程，包括：

对训练集中的工业数据进行分词处理，确定训练集中工业数据对应的词向量；

将词向量输入至已初始化的LSTM网络中进行特征提取，并将LSTM网络输出的特征提取结果进行合并；

将已合并的特征提取结果输入至已初始化的分级分类网络中，并将分级分类网络确定的概率值最大的级别和类别确定为训练集的分类分级结果。

在一些实施方式中，将已合并的特征提取结果输入至已初始化的分级分类网络中，并将分级分类网络确定的概率值最大的级别和类别确定为训练集的分类分级结果，包括：

将已合并的特征提取结果分别输入至已初始化的DNN网络以及CNN网络中；其中，DNN网络用于确定训练集的分类结果；CNN网络用于确定训练集的分级结果；

利用Sortmax函数分别确定DNN网络输出的分类概率值以及CNN网络输出的级别概率值；

将分类概率值中最大值对应的类别以及级别概率值中最大值对应的级别确定为训练集的分类分级结果。

在一些实施方式中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果，包括：

计算扩展集中的工业数据的信息熵以及相似度结果，并根据信息熵以及相似度结果从预设选样策略中确定选样算法；其中，选样算法至少包括：不确定性选样算法和多样性选样算法；

利用已确定的选样算法对扩展集中的工业数据进行选样得到选样结果；

获取选样结果的安全等级，并根据安全等级对工业数据进行筛选，得到扩展集的筛选结果。

在一些实施方式中，若选样算法为不确定性选样算法，则利用已确定的选样算法对扩展集中的工业数据进行选样得到选样结果的步骤，包括：

根据工业数据的信息熵，确定扩展集中待标注的工业数据；

利用不确定性选样算法对扩展集中待标注的工业数据进行标注，得到选样结果；其中，不确定性选样算法为：

；

其中，

为需标注的工业数据；

为待标注的工业数据；

为待标注的扩展集；

为标注规则对应的标签数量；

为分类分级标注标签；

为待标注的工业数据对应不同标签标注的概率。

在一些实施方式中，若选样算法为多样性选样算法，则利用已确定的选样算法对扩展集中的工业数据进行选样得到选样结果的步骤，包括：

根据工业数据的相似度结果，确定扩展集中待标注的工业数据；

利用多样性选样算法对扩展集中待标注的工业数据进行标注，得到选样结果；其中，多样性选样算法为：

；

其中，

为需标注的工业数据；

为训练集的工业数据样本；

为扩展集的工业数据样本；

为样本

的向量；

为样本

的向量；

为已标注的训练集；

为未标注的扩展集。

第二方面，本发明实施例提供了一种工业数据的分类方法，该方法包括以下步骤：

获取待分类的工业文本数据；

将工业文本数据输入至预先完成训练的工业数据分类模型中，实时获取工业数据分类模型的输出结果；其中，工业数据分类模型的输出结果至少包括一类工业文本数据的分类分级结果；工业数据分类模型通过第一方面提到的用于工业数据分类的模型训练方法训练得到；

对工业数据分类模型的输出结果中工业文本数据的分级分类结果进行汇总，确定工业文本数据的分类结果。

第三方面，本发明实施例提供了一种用于工业数据分类的模型训练装置，该装置包括：

数据集初始化模块，用于获取包含工业数据的多个数据集；其中，数据集至少包括：训练集、测试集以及扩展集；

数据筛选模块，用于将数据集输入至预先构建的初始工业数据分类模型中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果；

分类分级训练模块，用于利用扩展集的筛选结果更新训练集中的工业数据，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果；

性能评估模块，用于利用测试集对训练集的分类分级结果进行性能评估，得到初始工业数据分类模型的性能评估结果；

模型获取模块，用于当性能评估结果满足预设阈值条件时，停止模型的训练，得到用于工业数据分类的模型。

第四方面，本发明实施例提供了一种工业数据的分类装置，该装置包括：

工业文本数据获取模块，用于获取待分类的工业文本数据；

分类结果输出模块，用于将工业文本数据输入至预先完成训练的工业数据分类模型中，实时获取工业数据分类模型的输出结果；其中，工业数据分类模型的输出结果至少包括一类工业文本数据的分类分级结果；工业数据分类模型通过上述第一方面提到的用于工业数据分类的模型训练方法训练得到；

分类结果确定模块，用于对工业数据分类模型的输出结果中工业文本数据的分级分类结果进行汇总，确定工业文本数据的分类结果。

本发明实施例带来了以下有益效果：本发明实施例提供了一种工业数据的分类方法及其模型训练方法、装置，在用于工业数据分类的模型训练过程中，首先获取包含工业数据的多个数据集；其中，数据集至少包括：训练集、测试集以及扩展集；再将数据集输入至预先构建的初始工业数据分类模型中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果；然后利用扩展集的筛选结果更新训练集中的工业数据，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果；再利用测试集对训练集的分类分级结果进行性能评估，得到初始工业数据分类模型的性能评估结果；当性能评估结果满足预设阈值条件时，停止模型的训练，得到用于工业数据分类的模型。利用该模型用于工业数据的分类方法时，首先获取待分类的工业文本数据，然后将工业文本数据输入至预先完成训练的工业数据分类模型中，实时获取工业数据分类模型的输出结果；其中，工业数据分类模型的输出结果至少包括一类工业文本数据的分类分级结果；最后对工业数据分类模型的输出结果中工业文本数据的分级分类结果进行汇总，确定工业文本数据的分类结果。该模型在训练过程中通过利用预设选样策略对扩展集中的工业数据进行筛选，并利用扩展集的筛选结果更新训练集中的工业数据，实现了将主动学习融入至模型训练过程中，能够减少模型训练过程中人工标注样本的数据量，减少了模型训练过程的复杂性，降低了人力成本；同时有利于提升模型的整体性能，从而提高工业数据分类的效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于工业数据分类的模型训练方法的流程图；

图2为本发明实施例提供的一种用于工业数据分类的模型训练方法中，当性能评估结果不满足预设阈值条件时的流程图；

图3为本发明实施例提供的另一种用于工业数据分类的模型训练方法的流程图；

图4为本发明实施例提供的一种用于工业数据分类的模型训练方法中采用的工业数据分类目录树的结构示意图；

图5为本发明实施例提供的一种用于工业数据分类的模型训练方法中对工业数据进行分级标注的流程图；

图6为本发明实施例提供的一种用于工业数据分类的模型训练方法中，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果的流程图；

图7为本发明实施例提供的一种用于工业数据分类的模型训练方法中步骤S603的流程图；

图8为本发明实施例提供的一种用于工业数据分类的模型训练方法中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果的流程图；

图9为本发明实施例提供的一种用于工业数据分类的模型训练方法中步骤S802的流程图；

图10为本发明实施例提供的另一种用于工业数据分类的模型训练方法中步骤S802的流程图；

图11为本发明实施例提供的用于工业数据分类的模型训练方法得到的模型性能示意图；

图12为本发明实施例提供的一种工业数据的分类方法的流程图；

图13为本发明实施例提供的一种用于工业数据分类的模型训练装置的结构示意图；

图14为本发明实施例提供的一种工业数据的分类装置的结构示意图；

图15为本发明实施例提供的一种电子设备的结构示意图。

图标：

1310-数据集初始化模块；1320-数据筛选模块；1330-分类分级训练模块；1340-性能评估模块；1350-模型获取模块；

1410-工业文本数据获取模块；1420-分类结果输出模块；1430-分类结果确定模块；

101-处理器；102-存储器；103-总线；104-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

数据分类分级是对数据资源按照内容属性、价值层次和重要性进行级别和类型的确定，旨在明确各类数据的使用范围与方式，并依据各类信息的价值和安全风险实施不同程度的管理和保护。工业数据的分类分级能够促进工业数据的使用、流动与共享，释放数据潜在价值。

工业数据生命周期可分为6个阶段，包括数据采集、数据存储、数据存储、数据处理、数据交换以及数据销毁。同时每个数据生命周期又定义了若干关键过程域用于数据安全保护，而数据分类分级是首要的关键过程域。工业数据主要是文本形式存在于各个生命周期中，如何精准的对工业数据进行分类，已成为提高工业数据的分析汇总结果的重要手段。

当前工业领域文本数据分类分级存在的问题主要包括：人工分析效率不高，传统的工业数据分类、分级管理主要以人工分析为主，采用不定时随机抽查的方式，效率低、耗时长，主要依赖经验，受主观认知制约，存在一定的局限性；通过算法模型识别工业数据类别、级别需要大量标注数据做训练，运用机器学习算法训练分类、分级模型，提高模型的泛化能力离不开大量标注的数据，标注数据增加了人力成本和时间成本；目前解决工业数据的分类、分级问题时大都将工业数据分类、分级作为两个完全独立的过程，效率较低。

综上所述，现有技术中对于工业数据的分类主要采用人工分析手段，依赖操作人员的经验，容易受到主观认知的制约，效率较低；虽然现有技术中已使用一些模型进行工业数据的分析，但模型训练过程中需要大量标注数据进行训练，而这些标注数据也需要消耗较多的人力成本和时间成本。因此现有技术中在对工业数据进行分类的过程中还存在着相关模型训练过程复杂、人力成本较高的问题。

针对上述问题，本发明提出一种工业数据的分类方法及其模型训练方法、装置，该模型在训练过程中通过利用预设选样策略对扩展集中的工业数据进行筛选，并利用扩展集的筛选结果更新训练集中的工业数据，实现了将主动学习融入至模型训练过程中，能够减少模型训练过程中人工标注样本的数据量，减少了模型训练过程的复杂性，降低了人力成本；同时有利于提升模型的整体性能，从而提高工业数据分类的效果。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种用于工业数据分类的模型训练方法进行详细介绍，该方法的流程图如图1所示，包括：

步骤S101，获取包含工业数据的多个数据集；其中，数据集至少包括：训练集、测试集以及扩展集。

工业数据的分类可通过标注的方式实现，即对工业数据所属的种类进行标注，具体可通过工业数据分类的相关目录进行标注。模型训练开始时，需要对模型的结构以及数据集进行初始化。实际场景中可使用少量标注的数据集作为初始化训练集进行模型训练，具体的说，训练集适用于提供模型训练的基础数据；测试集用于对模型训练过程的性能进行测试；扩展集用于对模型训练过程中进行性能提升时所用的数据集。

步骤S102，将数据集输入至预先构建的初始工业数据分类模型中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果。

将数据集输入至预先构建的初始工业数据分类模型之后，可对扩展集中的工业数据进行筛选并用于更新训练集。筛选过程中对扩展集中的工业数据进行了标注，从而得到更有价值的工业数据，以此实现了扩展集的优化。

步骤S103，利用扩展集的筛选结果更新训练集中的工业数据，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果。

扩展集的筛选结果中包含了已标注的工业数据，将这些已标注的数据更新到训练集中从而实现了对训练集的扩展，同时可将扩展集中的该标注数据进行删除，从而对扩展集进行了精简，进而利用训练集以及相关扩展集进行分类分级迭代训练，训练过程中实时获取训练集输出的分类分级结果。

步骤S104，利用测试集对训练集的分类分级结果进行性能评估，得到初始工业数据分类模型的性能评估结果。

训练过程实时产生的分类分级结果可利用测试集对其进行模型性能的评估，产生的性能评估结果直接决定模型的训练过程。性能评估结果可以为模型中相应损失函数的结果；也可以为模型性能评估值来进行表征。测试集可理解为已知的期望结果，根据测试集来对实时产生的分类分级结果进行对比，可通过对比结果确定相关正确率、错误率等评估数值，以此来决定最终的性能评估结果。

步骤S105，当性能评估结果满足预设阈值条件时，停止模型的训练，得到用于工业数据分类的模型。

性能评估结果满足预设阈值条件时，表示该模型的性能已达到预设要求，此时可停止模型训练，进而得到用于工业数据分类的模型。实际场景中可也利用扩展集的相关属性值作为阈值条件，例如模型训练过程中当扩展集为空时，表明模型训练过程中已无需进行相应扩展，因此可停止模型的迭代训练，从而得到用于工业数据分类的模型。

在一些实施方式中，当性能评估结果不满足预设阈值条件时，如图2所示，该方法还包括：

步骤S201，根据初始工业数据分类模型的性能评估结果，利用预设选样策略对扩展集中的工业数据进行二次筛选，得到扩展集的二次筛选结果。

当性能评估结果不满足预设阈值条件时，可继续对扩展集中的工业数据进行筛选，利用预设选样策略对扩展集中的工业数据进行二次筛选后得到扩展集的二次筛选结果。二次筛选后的扩展集中工业数据的标注更加精准，有利于后续模型的训练。

步骤S202，将扩展集的二次筛选结果进行分类分级标注后，添加至训练集中。

上述模型训练的过程可参考图3中另一种模型训练的流程图所示，模型训练过程中首先以少量标注样本作为初始化训练集进行模型训练，训练后的模型经过测试集进行评估，评估结果可利用精准率、召回率、F值等相关数值进行表征。若模型性能评估未达到终止条件或扩展集不为空时，选定主动学习选样策略对扩展集进行样本筛选，通过专家标注选取最有价值的数据，标注完成后将其更新到训练集中，同时扩展集也进行更新，将筛选样本从扩展集中删除，进入新一轮的模型迭代训练，直到模型性能评估达到终止条件或扩展集为空时停止模型迭代训练，保存并输出模型。分类分级模型训练采用混合神经网络结构，其他类似算法也能替换该网络结构做模型训练，比如朴素贝叶斯、支持向量机、多层感知器、随机森林、AdaBoost、TextCNN、BERT等。

具体的说，专家标注过程可参考相关工业数据分类目录树，如图4所示，工业文本数据包括多级子类，每一类级别的类别分别包含多个子类。实际场景中，工业企业结合生产制造模式、平台企业结合服务运营模式来分析梳理业务流程和系统设备，考虑行业要求、业务规模、数据复杂程度等实际情况，对工业数据进行分类梳理和标识，形成企业工业数据分类清单。具体的说，工业企业工业数据分类维度包括但不限于：研发数据域、生产数据域、运维数据域、管理数据域以及外部数据域。其中，研发数据域包括：研发设计数据、开发测试数据等；生产数据域包括：控制信息、工况状态、工艺参数、系统日志等；运维数据域包括：物流数据、产品售后服务数据等；管理数据域包括：系统设备资产信息、客户与产品信息、产品供应链数据、业务统计数据等；外部数据域包括：与其他主体共享的数据等。平台企业工业数据分类维度包括但不限于平台运营数据域和企业管理数据域，其中平台运营数据域包括：物联采集数据、知识库模型库数据、研发数据等；企业管理数据域包括：客户数据、业务合作数据、人事财务数据等。

具体对工业数据进行分级标注的过程如图5所示，首先确定分级对象，然后根据分级对象的结果判断数据破坏对社会造成的影响，以及数据破坏对企业领域造成的影响，还考虑数据破坏对用户利益造成的影响；最后通过综合评定对客体的侵害程度确定数据对象的安全等级。

在一些实施方式中，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果的过程，如图6所示，包括：

步骤S601，对训练集中的工业数据进行分词处理，确定训练集中工业数据对应的词向量。

训练集中的工业数据主要以文本的形式进行存储和使用，对于文本诗句可通过相关分词工具进行分词处理，分词工具为使用jieba、pynlpir、SnowNLP、THULAC、NLPIR、HanLP等各类工具，从而获得工业数据包含的句子及词语。获得这些句子和词语后，对句子中的每个词使用word2vec模型转化为词向量，最终用于后续的特征提取过程。

步骤S602，将词向量输入至已初始化的LSTM网络中进行特征提取，并将LSTM网络输出的特征提取结果进行合并。

词向量获取后，将其输入至已初始化的LSTM网络中。值得说明的是该步骤中的词向量是分别输入至双向LSTM网络的两路中，即前向LSTM和后向LSTM。两路LSTM网络的输出结果中包含了对词向量的特征提取结果，因此将前向LSTM和后向LSTM提取的特征合并后作为分类分级任务的输入。

步骤S603，将已合并的特征提取结果输入至已初始化的分级分类网络中，并将分级分类网络确定的概率值最大的级别和类别确定为训练集的分类分级结果。

分级分类网络中包含两路网络，分别对应着分类和分级。在一些实施方式中，这两路网络分别为DNN网络和CNN网络，其中DNN网络用于确定训练集的分类结果；CNN网络用于确定训练集的分级结果。在此基础上，该步骤如图7所示，包括：

步骤S701，将已合并的特征提取结果分别输入至已初始化的DNN网络以及CNN网络中。

此时的分级分类网络结构图可使用图3中所示的网络结构，输入句子通过向量转换，得到对应的词向量，并将词向量分别输入至前向LSTM和后向LSTM后进行相应的文本特征提取，特征提取结果进行合并后形成合并层，并通过合并层分别输入至DNN网络以及CNN网络。

步骤S702，利用Sortmax函数分别确定DNN网络输出的分类概率值以及CNN网络输出的级别概率值。

步骤S703，将分类概率值中最大值对应的类别以及级别概率值中最大值对应的级别确定为训练集的分类分级结果。

具体的说，分类任务选取DNN网络训练，通过Sortmax函数选定概率最大的类别作为分类结果；分级任务选取CNN网络训练，通过Sortmax函数选定概率最大的级别作为分级结果。

在一些实施方式中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果的过程如图8所示，包括：

步骤S801，计算扩展集中的工业数据的信息熵以及相似度结果，并根据信息熵以及相似度结果从预设选样策略中确定选样算法；其中，选样算法至少包括：不确定性选样算法和多样性选样算法。

此时的扩展集中的工业数据是上一轮训练模型对扩展集进行分类、分级预测后得到的。通过计算扩展集中的工业数据的信息熵以及相似度结果，从预设选样策略中确定选样算法，通过选样算法计算关联数值，最终用于扩展集的筛选。

步骤S802，利用已确定的选样算法对扩展集中的工业数据进行选样得到选样结果。

利用选样算法对扩展集样本进行相关数值计算，并根据选样策略对相关数值进行排序，筛选出相关数值符合条件的一批样本认定为待标注有价值的样本，并作为选样结果。

步骤S803，获取选样结果的安全等级，并根据安全等级对工业数据进行筛选，得到扩展集的筛选结果。

实际场景中，可将将筛选出的待标注有价值样本交由专家进行人工标注，专家标注时参考工业数据分类目录树和分级标注流程，给定样本确定的类别和级别。

在一些实施方式中，若选样算法为不确定性选样算法，则利用已确定的选样算法对扩展集中的工业数据进行选样得到选样结果的步骤S802，如图9所示，包括：

步骤S901，根据工业数据的信息熵，确定扩展集中待标注的工业数据。

步骤S902，利用不确定性选样算法对扩展集中待标注的工业数据进行标注，得到选样结果。

其中，不确定性选样算法为：

；

其中，

为需标注的工业数据；

为待标注的工业数据；

为待标注的扩展集；

为标注规则对应的标签数量；

为分类分级标注标签；

为待标注的工业数据对应不同标签标注的概率。

基于不确定性的选样算法主要是从未标注样本集中选择模型预测的信息熵较大样本，通过比较模型预测标签序列结果中的各样本的信息熵值大小，判断各待选样本能给算法模型带来的信息含量，从未标注样本集中选择能带来较大信息量的样本，具体到分类分级任务中，使用分类分级模型对未标注工业文本样本进行预测时，可以得到该样本对应不同标签标注的概率

，

。从利用样本的所有预测结果以及对应的概率计算样本价值的角度考虑, 通过引入信息熵的方法，对样本的所有预测结果计算信息熵，显然信息熵较大的样本能给实体识别模型带来更多信息量上的改变，因此应当优先选择信息熵大的样本进行标注。

在一些实施方式中，若选样算法为多样性选样算法，则利用已确定的选样算法对扩展集中的工业数据进行选样得到选样结果的步骤S802，如图10所示，包括：

步骤S1001，根据工业数据的相似度结果，确定扩展集中待标注的工业数据；

步骤S1002，利用多样性选样算法对扩展集中待标注的工业数据进行标注，得到选样结果。

其中，多样性选样算法为：

；

其中，

为需标注的工业数据；

为训练集的工业数据样本；

为扩展集的工业数据样本；

为样本

的向量；

为样本

的向量；

为已标注的训练集；

为未标注的扩展集。

基于多样性的选样算法考虑了样本选择的信息冗余问题。若一个未标注样本与已标注样本中的样本内容过于接近，那么说明它与其接近的那些已标注样本具有很多相似信息，则该未标注样本的标注价值较低。因此，基于多样性的选样方法是优先考虑那些与已标注样本最不相似的未标注样本，将其人工标注加入到训练集中会使得该集合中样本的分布尽可能分散，实体类别样本句子更加丰富。针对工业文本数据分类分级任务，从文本语义出发，对样本进行分词处理，通过word2vec模型获取对应词向量，然后对样本包含的词向量求平均得到样本向量，两个样本句子之间的相似度用两个句向量的余弦相似度衡量。

实际在对模型训练过程中，从未标注样本集中随机选择400个样本进行人工标注，构建初始化训练样本集，6000个作为扩展集，1600个作为测试集。每次迭代根据结合不确定性或多样性的样本选择策略从扩展集中选择最符合的200个，由专家标注后加入训练集迭代训练模型，共迭代30次。为避免实验的随机性，实验5次求指标F值平均值，结果如图11所示。其中的“diversity”代表多样性选样算法与混合神经网络联合训练分类分级模型，训练集样本数量扩展达到3000以后，模型训练预测效果基本变化不大，即标注3000个样本即可实现模型的训练，相对于完全标注6400个样本，减少了56.67%数据标注工作量；“uncertainty”代表不确定性选样算法与混合神经网络联合训练分类分级模型，训练集样本数量扩展达到3600以后，模型训练预测效果基本变化不大，即标注3600个样本即可实现模型的训练，同样相对减少了43.75%数据标注工作量。

通过上述实施例提到的用于工业数据分类的模型训练方法可知，该模型在训练过程中通过利用预设选样策略对扩展集中的工业数据进行筛选，并利用扩展集的筛选结果更新训练集中的工业数据，实现了将主动学习融入至模型训练过程，并实现了少量标注样本训练出工业文本分类分级模型，降低了工业文本数据标注成本，实现了分类、分级两个任务训练时的联系，也提高了模型的泛化能力。同时减少模型训练过程中人工标注样本的数据量，减少了模型训练过程的复杂性，降低了人力成本，有利于提升模型的整体性能，从而提高工业数据分类的效果。

本实施例还提供一种工业数据的分类方法，如图12所示，该方法包括以下步骤：

步骤S1201，获取待分类的工业文本数据。

该工业文本数据作为待分类的数据，一般不用于后续模型的训练。工业文本数据的获取过程可通过相关工业系统的数据接口直接调用得到，也可根据相关日志文件获取得到。

步骤S1202，将工业文本数据输入至预先完成训练的工业数据分类模型中，实时获取工业数据分类模型的输出结果。

具体的说，工业数据分类模型的输出结果至少包括一类工业文本数据的分类分级结果；工业数据分类模型通过上述实施例中提到的用于工业数据分类的模型训练方法训练得到。

步骤S1203，对工业数据分类模型的输出结果中工业文本数据的分级分类结果进行汇总，确定工业文本数据的分类结果。

本发明实施例所提供的工业数据分类模型，其实现原理及产生的技术效果和前述用于工业数据分类的模型训练方法训练得到的模型是相同的，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

通过上述实施例提到的工业数据的分类方法可知，该方法中使用已完成训练的工业数据分类模型实现数据的分类，由于模型训练过程中大大减少了人工标注样本的数据量，降低了模型训练过程的复杂性，提升了模型的整体性能，从而提高工业数据分类的效果。

对应于上述用于工业数据分类的模型训练方法的实施例，本实施例还提供一种用于工业数据分类的模型训练装置，如图13所示，该装置包括以下模块：

数据集初始化模块1310，用于获取包含工业数据的多个数据集；其中，数据集至少包括：训练集、测试集以及扩展集；

数据筛选模块1320，用于将数据集输入至预先构建的初始工业数据分类模型中，利用预设选样策略对扩展集中的工业数据进行筛选，得到扩展集的筛选结果；

分类分级训练模块1330，用于利用扩展集的筛选结果更新训练集中的工业数据，对已完成更新的训练集进行分类分级训练，实时获取训练集的分类分级结果；

性能评估模块1340，用于利用测试集对训练集的分类分级结果进行性能评估，得到初始工业数据分类模型的性能评估结果；

模型获取模块1350，用于当性能评估结果满足预设阈值条件时，停止模型的训练，得到用于工业数据分类的模型。

本发明实施例所提供的用于工业数据分类的模型训练装置，其实现原理及产生的技术效果和前述用于工业数据分类的模型训练方法的实施例相同，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

对应于上述工业数据的分类方法的实施例，本实施例还提供一种工业数据的分类装置，如图14所示，该装置包括以下模块：

工业文本数据获取模块1410，用于获取待分类的工业文本数据；

分类结果输出模块1420，用于将工业文本数据输入至预先完成训练的工业数据分类模型中，实时获取工业数据分类模型的输出结果；其中，工业数据分类模型的输出结果至少包括一类工业文本数据的分类分级结果；工业数据分类模型通过上述第一方面提到的用于工业数据分类的模型训练方法训练得到；

分类结果确定模块1430，用于对工业数据分类模型的输出结果中工业文本数据的分级分类结果进行汇总，确定工业文本数据的分类结果。

本发明实施例所提供的工业数据的分类装置，其实现原理及产生的技术效果和前述工业数据的分类方法的实施例相同，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

本实施例还提供一种电子设备，为该电子设备的结构示意图如图15所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述用于工业数据分类的模型训练方法以及工业数据的分类方法。

图15所示的服务器还包括总线103和通信接口104，处理器101、通信接口104和存储器102通过总线103连接。

其中，存储器102可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图15中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述实施例的方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于工业数据分类的模型训练方法，其特征在于，所述方法包括：

获取包含工业数据的多个数据集；其中，所述数据集至少包括：训练集、测试集以及扩展集；

将所述数据集输入至预先构建的初始工业数据分类模型中，利用预设选样策略对所述扩展集中的所述工业数据进行筛选，得到所述扩展集的筛选结果；

利用所述扩展集的筛选结果更新所述训练集中的工业数据，对已完成更新的所述训练集进行分类分级训练，实时获取所述训练集的分类分级结果；

利用所述测试集对所述训练集的分类分级结果进行性能评估，得到所述初始工业数据分类模型的性能评估结果；

当所述性能评估结果满足预设阈值条件时，停止所述模型的训练，得到用于工业数据分类的模型；

利用预设选样策略对所述扩展集中的所述工业数据进行筛选，得到所述扩展集的筛选结果，包括：

计算所述扩展集中的所述工业数据的信息熵以及相似度结果，并根据所述信息熵以及相似度结果从预设选样策略中确定选样算法；其中，所述选样算法至少包括：不确定性选样算法和多样性选样算法；

利用已确定的所述选样算法对所述扩展集中的所述工业数据进行选样得到选样结果；

获取所述选样结果的安全等级，并根据所述安全等级对所述工业数据进行筛选，得到所述扩展集的筛选结果；

当所述性能评估结果不满足预设阈值条件时，所述方法还包括：

根据所述初始工业数据分类模型的性能评估结果，利用预设选样策略对所述扩展集中的所述工业数据进行二次筛选，得到所述扩展集的二次筛选结果；

将所述扩展集的二次筛选结果进行分类分级标注后，添加至所述训练集中。

2.根据权利要求1所述的用于工业数据分类的模型训练方法，其特征在于，对已完成更新的所述训练集进行分类分级训练，实时获取所述训练集的分类分级结果的过程，包括：

对所述训练集中的工业数据进行分词处理，确定所述训练集中所述工业数据对应的词向量；

将所述词向量输入至已初始化的LSTM网络中进行特征提取，并将所述LSTM网络输出的特征提取结果进行合并；

将已合并的所述特征提取结果输入至已初始化的分级分类网络中，并将所述分级分类网络确定的概率值最大的级别和类别确定为所述训练集的分类分级结果。

3.根据权利要求2所述的用于工业数据分类的模型训练方法，其特征在于，将已合并的所述特征提取结果输入至已初始化的分级分类网络中，并将所述分级分类网络确定的概率值最大的级别和类别确定为所述训练集的分类分级结果，包括：

将已合并的所述特征提取结果分别输入至已初始化的DNN网络以及CNN网络中；其中，所述DNN网络用于确定所述训练集的分类结果；所述CNN网络用于确定所述训练集的分级结果；

利用Sortmax函数分别确定所述DNN网络输出的分类概率值以及所述CNN网络输出的级别概率值；

将所述分类概率值中最大值对应的类别以及所述级别概率值中最大值对应的级别确定为所述训练集的分类分级结果。

4.根据权利要求1所述的用于工业数据分类的模型训练方法，其特征在于，若所述选样算法为不确定性选样算法，则利用已确定的所述选样算法对所述扩展集中的所述工业数据进行选样得到选样结果的步骤，包括：

根据所述工业数据的信息熵，确定所述扩展集中待标注的工业数据；

利用不确定性选样算法对所述扩展集中待标注的工业数据进行标注，得到选样结果；其中，所述不确定性选样算法为：

；

其中，

为需标注的工业数据；

为待标注的工业数据；

为待标注的扩展集；m为标注规则对应的标签数量；

为分类分级标注标签；

为待标注的工业数据对应不同标签标注的概率。

5.根据权利要求1所述的用于工业数据分类的模型训练方法，其特征在于，若所述选样算法为多样性选样算法，则利用已确定的所述选样算法对所述扩展集中的所述工业数据进行选样得到选样结果的步骤，包括：

根据所述工业数据的相似度结果，确定所述扩展集中待标注的工业数据；

利用多样性选样算法对所述扩展集中待标注的工业数据进行标注，得到选样结果；其中，所述多样性选样算法为：

；

其中，

为需标注的工业数据；

为训练集的工业数据样本；

为扩展集的工业数据样本；

为样本

的向量；

为样本

的向量；

为已标注的训练集；

为未标注的扩展集。

6.一种工业数据的分类方法，其特征在于，所述方法包括：

获取待分类的工业文本数据；

将所述工业文本数据输入至预先完成训练的工业数据分类模型中，实时获取所述工业数据分类模型的输出结果；其中，所述工业数据分类模型的输出结果至少包括一类所述工业文本数据的分类分级结果；所述工业数据分类模型通过权利要求1-5任一项所述的用于工业数据分类的模型训练方法训练得到；

对所述工业数据分类模型的输出结果中所述工业文本数据的分级分类结果进行汇总，确定所述工业文本数据的分类结果。

7.一种用于工业数据分类的模型训练装置，其特征在于，所述装置包括：

数据集初始化模块，用于获取包含工业数据的多个数据集；其中，所述数据集至少包括：训练集、测试集以及扩展集；

数据筛选模块，用于将所述数据集输入至预先构建的初始工业数据分类模型中，利用预设选样策略对所述扩展集中的所述工业数据进行筛选，得到所述扩展集的筛选结果；

分类分级训练模块，用于利用所述扩展集的筛选结果更新所述训练集中的工业数据，对已完成更新的所述训练集进行分类分级训练，实时获取所述训练集的分类分级结果；

性能评估模块，用于利用所述测试集对所述训练集的分类分级结果进行性能评估，得到所述初始工业数据分类模型的性能评估结果；

模型获取模块，用于当所述性能评估结果满足预设阈值条件时，停止所述模型的训练，得到用于工业数据分类的模型；

所述数据筛选模块，还用于：计算所述扩展集中的所述工业数据的信息熵以及相似度结果，并根据所述信息熵以及相似度结果从预设选样策略中确定选样算法；其中，所述选样算法至少包括：不确定性选样算法和多样性选样算法；利用已确定的所述选样算法对所述扩展集中的所述工业数据进行选样得到选样结果；获取所述选样结果的安全等级，并根据所述安全等级对所述工业数据进行筛选，得到所述扩展集的筛选结果；

还包括：训练集更新模块；当所述性能评估结果不满足预设阈值条件时，所述训练集更新模块还用于：根据所述初始工业数据分类模型的性能评估结果，利用预设选样策略对所述扩展集中的所述工业数据进行二次筛选，得到所述扩展集的二次筛选结果；将所述扩展集的二次筛选结果进行分类分级标注后，添加至所述训练集中。

8.一种工业数据的分类装置，其特征在于，所述装置包括：

工业文本数据获取模块，用于获取待分类的工业文本数据；

分类结果输出模块，用于将所述工业文本数据输入至预先完成训练的工业数据分类模型中，实时获取所述工业数据分类模型的输出结果；其中，所述工业数据分类模型的输出结果至少包括一类所述工业文本数据的分类分级结果；所述工业数据分类模型通过权利要求1-5任一项所述的用于工业数据分类的模型训练方法训练得到；

分类结果确定模块，用于对所述工业数据分类模型的输出结果中所述工业文本数据的分级分类结果进行汇总，确定所述工业文本数据的分类结果。