CN116089610A

CN116089610A - 一种基于行业知识的标签识别方法及装置

Info

Publication number: CN116089610A
Application number: CN202310043528.6A
Authority: CN
Inventors: 赵群; 苏萌; 刘译璟; 苏海波; 杜晓梦
Original assignee: Beijing Percent Technology Group Co ltd
Current assignee: Beijing Percent Technology Group Co ltd
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-05-09

Abstract

本发明涉及计算机领域，提供了一种基于行业知识的标签识别方法及装置。主旨在于在于通过本技术来解决标准标签识别问题。主要方案包对原始数据进行采样，获取业务系统中数据，并依据标准对标准标签构建层级关系，获得数据以及标准库中数据对应的标准标签；数据预处理，对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签；对数据向量化，将给定的数据经过预训练模型训练后获取向量化表示；对向量进行特征向量提取，使用深度神经网络，通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量，全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类，将得到的标准类别标签。

Description

一种基于行业知识的标签识别方法及装置

技术领域

本发明涉及计算机领域，一种基于行业知识的标签识别方法及装置。

背景技术

随着互联网和人工智能的兴起和快速发展，文本数据发生了爆炸式的增长，行业内各企业在对文档设定标签时，会按照各自企业的资料进行自定义设计，但在行业大领域内，随着人工智能的落地，都已经设定好各自行业的标准标签，迫切需要一项高效的技术将各企业自定义的标签与行业内规定的标准标签进行匹配，从而帮助各企业或组织快速获取标准有用的信息。

标签识别技术是指利用自然语言处理算法自动识别数据单元所属的标准标签，与行业规定的标准标签进行匹配。这样，人们就可以通过标签来理解标签数据的真实标准含义，为我们理解文本数据的语义信息提供了很大便利。

本提案要解决的技术问题：

对于数据库中的数据，在垂直行业中，省、部这一级的系统相对规范，标签比较准确；在市、区、县一级的系统中，标签相对不规范，标签可能存在着拼音规则、首字母等问题；在单实际业务系统中，甚至还存在着空标签的问题，通过本技术来解决标准标签识别问题。

目前为了确定待匹配的实体名称所对应的实体标准名称，需要人工预先观察一些不标准的实体名称与实体标准名称所构成的样本数据的特点，并总结出一些规则逻辑，然后依据这些规则逻辑确定自定义标签所对应的标准标签。然而，人工观察的样本数据较为有限，因此，基于人工观察所制定的规则逻辑并不能覆盖所有情况，从而导致一些不标准的自定义标签无法匹配到相应的标准标签。而且，通过人工观察样本数据总结规则逻辑的方式也对于人工的经验要求较高，且需要耗费较多的人力资源。

虽然还未有机器学习方法应用，但机器学习的方法无法捕获到文本中隐藏的深层语义信息。

发明内容

本发明的目的在于解决对于数据库中的数据，在垂直行业中，省、部这一级的系统相对规范，标签比较准确；在市、区、县一级的系统中，标签相对不规范，标签可能存在着拼音规则、首字母等问题；在单实际业务系统中，甚至还存在着空标签的问题，通过本技术来解决标准标签识别问题。

一种基于行业知识的标签识别方法，包括以下步骤：

步骤1：对原始数据进行采样，获取业务系统中数据，并依据标准对标准标签构建层级关系，获得一组或多组业务系统中的数据以及标准库中数据对应的标准标签；

步骤2：数据预处理，对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签；

步骤3：对步骤2处理后的数据向量化，将给定的数据经过预训练模型训练后获取向量化表示；

步骤4：对步骤3的向量进行特征向量提取，使用深度神经网络，通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量，全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类；

步骤5：将步骤4得到的标准类别标签与数据归档处理。

上述技术方案中，步骤1具体包括以下步骤：

步骤1.1：获取业务系统中的数据；

步骤1.2：获取行业标准中的标准标签；

步骤1.3：依据行业标准中的规范构建标准标签层级关系。

上述技术方案中，步骤2具体包括以下步骤：

步骤2.1：所述业务系统中数据单元包括数据表、字段、以及存储在对应字段下的样例数据中的任意一种或多种；

步骤2.2：为所述业务系统中的样例数据附加上标准标签类型。

上述技术方案中，步骤3具体包括以下步骤：

步骤3.1：对于经过步骤2处理后的数据,使用预训练模型将其转化成向量表示，再将所有向量拼接在一起形成向量矩阵，作为后续深度神经网络模型的输入；

上述技术方案中，步骤4具体包括以下步骤：

步骤4.1：对步骤3的向量矩阵使用深度神经网络TextCNN进行特征向量提取，步骤可分为卷积层、池化层、融合层和全连接层；

步骤4.2：卷积层负责提取文本的内在特征，TextCNN通过采用多个不同大小的卷积核，得到不同特征的表达，卷积核以滑动窗口的形式对句子中窗口大小范围内的词进行过滤并提取特征，再将得到的特征进行拼接，得到整体的特征向量；

步骤4.3：池化层中采用最大池化技术，即从步骤4.2每一个滑动窗口产生的特征向量中筛选出最大值，之后将这些最大值进行拼接，构成特征向量表示；

步骤4.4：融合层将步骤4.3池化层所得的特征进行拼接,融合成一个对文本向量来说更具有代表性的向量。

步骤4.5：全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对步骤4.4得到的向量进行分类。

上述技术方案中，上述步骤5具体包括以下步骤：

步骤5.1：取步骤4经过函数处理后概率最大的标准标签为最终标签。

步骤5.2：利用训练后的模型即可对待分类原始数据单元进行分类识别，完成标签化后归档；

步骤5.3：若字段属于某一级标签下的二级标签，它同样属于该一级标签。

本发明还提供了一种基于行业知识的标签识别装置，包括以下模块：

标准标签模块：对原始数据进行采样，获取业务系统中数据，并依据标准对标准标签构建层级关系，获得一组或多组业务系统中的数据以及标准库中数据对应的标准标签；

数据预处理模块：数据预处理，对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签；

向量化模块：对数据预处理模块处理后的数据向量化，将给定的数据经过预训练模型训练后获取向量化表示，得到向量矩阵；

分类模块：对向量化模块的向量进行特征向量提取，使用深度神经网络，通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量，全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类；

归档模块：将分类模块得到的标准类别标签与数据归档处理。

上述装置中，标准标签模块实现具体包括以下步骤：

步骤1.1：获取业务系统中的数据；

步骤1.2：获取行业标准中的标准标签；

步骤1.3：依据行业标准中的规范构建标准标签层级关系。

上述装置中，数据预处理模块具体包括以下步骤：

上述装置中，向量化模块具体包括以下步骤：

分类模块具体包括以下步骤：

步骤4.4：融合层将步骤4.3池化层所得的特征向量表示进行拼接,融合成一个对文本向量来说更具有代表性的向量；

步骤4.5：全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对步骤4.4得到的向量进行分类；

归档模块具体包括以下步骤：

因为本发明采用以上技术手段因此具备以下有益效果：

1.结合预训练模型进行大规模语料预训练,获得完备的数据特征，将学习到的表示特征应用于下游任务使其效果大幅提高。

2.深度神经网络模型对于特征的提取不仅要求更低，不需要专家的参与，而且少了人为的干预，对于特征本身的提取也更加全面。

3.标签匹配对应于自定义标签与标准标签的映射关系，可以使各企业的信息更加规范化，更便于行业内的交流。

4.当前的技术融合了预训练模型与深度神经网络模型，以结合预训练模型进行大规模语料预训练,获得完备的特征和深度神经网络模型特征提取的优势，这种隐藏特征能够反应出每一级标签携带的信息。此外，预训练模型的全局学习能力以及深度神经网络的局部特征提取能力的二阶段式的标准标签识别，并非仅是对预训练模型与深度神经网络模型的取长补短。

附图说明

图1为模型分类流程图。

图2为TextCNN模型图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

一种基于行业知识的标签识别方法，包括以下步骤：

步骤1：获取数据，对原始数据进行采样，包括结构化或非结构化数据、文档数据以及互联网数据，并依据标准对标准标签构建层级关系，获得一组或多组业务系统中的数据以及标准库中数据对应的标准标签。

步骤2：数据预处理，对采集到的字段、表，包括中文字符、数字、英文字符、样例数据等附加上对应的标准标签。

步骤3：数据向量化，将给定的数据经过预训练模型BERT训练后获取向量化表示。

步骤4：特征向量提取，使用深度神经网络TextCNN，通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量，全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类。

步骤5：数据标签化并归档。

上述步骤1具体包括以下步骤：

步骤1.1：获取业务系统中的数据，包括结构化或非结构化数据、文档数据以及互联网数据；

步骤1.2：获取行业标准中的标准标签；

步骤1.3：依据行业标准中的规范构建标准标签层级关系，如政务数据标签中，一级标签有数、企、人等，在企标签下，有属性类、特征类，属性类标签下企业性质、行业分类、是否集团企业等。

上述步骤2具体包括以下步骤：

步骤2.1：所述业务系统中数据单元包括数据表、字段、样例数据等中的任意一种或多种；

步骤2.2：为所述业务系统中的数据附加上标准标签类型，如“37岁”，对应一级标签“人”，二级标签“特征”，三级标签“青年：18岁-40岁”。

上述步骤3具体包括以下步骤：

步骤3.1：对于给定的数据,使用预训练模型BERT将其转化成向量表示，再将所有向量拼接在一起形成向量矩阵作为后续深度神经网络模型的输入。

上述步骤4具体包括以下步骤：

步骤4.1：使用深度神经网络TextCNN，步骤可分为卷积层、池化层、融合层和全连接层；

步骤4.2：卷积层负责提取文本的内在特征。TextCNN通过采用多个不同大小的卷积核，得到不同特征的表达。卷积核以滑动窗口的形式对句子中窗口大小范围内的词进行过滤并提取特征，再将得到的特征进行拼接，得到整体的特征向量。这里TextCNN模型包含卷积核大小为2、3、4的3个过滤器,这些过滤器将大小为3×3×1的节点矩阵转化为单位节点矩阵。假设以wi_x,y表示输出单位节点矩阵中的第i个节点,过滤器输入节点(x,y)的权重,使用b_i表示第i个输出节点的偏置项参数,那么单位矩阵中第i个节点的取值a(i)为；

公式(1)中,c_x,y为过滤器中节点(x,y)的取值,f为激活函数。所有a(i)组成的单位向量就是卷积层提取到的特征图,记作A,作为池化层的输入。

步骤4.3：池化层中采用最大池化技术，即从每一个滑动窗口产生的特征向量中筛选出最大值，之后将这些最大值进行拼接，构成向量表示。池化操作有效的降低了网络中的参数，加快了计算过程，同时也降低了过拟合的风险；

步骤4.4：融合层将池化层所得的特征进行拼接,融合成一个对文本向量来说更具有代表性的向量。

步骤4.5：全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对向量进行分类。利用Softmax函数获取各类别的概率,该函数可将模型学习到的各个类别标签的分值映射到0～1之间,并且所有类别标签的分数和为1。预测时,取Softmax函数处理后分值最大的标签,其计算公式为：

其中，i为第i个节点的输出值，n为输出节点的个数，即分类的类别个数。通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布。

上述步骤5具体包括以下步骤：

步骤5.1：取经过Softmax函数处理后概率最大的标准标签为最终标签；

最为本发明构思的另外一个实施例，本发明还提供了本发明还提供了一种基于行业知识的标签识别装置，包括以下模块：

上述装置中，标准标签模块实现具体包括以下步骤：

步骤1.1：获取业务系统中的数据；

步骤1.2：获取行业标准中的标准标签；

步骤1.3：依据行业标准中的规范构建标准标签层级关系。

上述装置中，数据预处理模块具体包括以下步骤：

上述装置中，向量化模块具体包括以下步骤：

分类模块具体包括以下步骤：

归档模块具体包括以下步骤：

Claims

1.一种基于行业知识的标签识别方法，其特征在于，包括以下步骤：

步骤3：对步骤2处理后的数据向量化，将给定的数据经过预训练模型训练后获取向量化表示，得到向量矩阵；

步骤5：将步骤4得到的标准类别标签与数据归档处理。

2.根据权利要求1所述的一种基于行业知识的标签识别方法，其特征在于，步骤1具体包括以下步骤：

步骤1.1：获取业务系统中的数据；

步骤1.2：获取行业标准中的标准标签；

步骤1.3：依据行业标准中的规范构建标准标签层级关系。

3.根据权利要求1所述的一种基于行业知识的标签识别方法，其特征在于，步骤2具体包括以下步骤：

4.根据权利要求1所述的一种基于行业知识的标签识别方法，其特征在于，步骤3具体包括以下步骤：

步骤3.1：对于经过步骤2处理后的数据,使用预训练模型将其转化成向量表示，再将所有向量拼接在一起形成向量矩阵，作为后续深度神经网络模型的输入。

5.根据权利要求1所述的一种基于行业知识的标签识别方法，其特征在于，步骤4具体包括以下步骤：

6.根据权利要求1所述的一种基于行业知识的标签识别方法，其特征在于，上述步骤5具体包括以下步骤：

7.一种基于行业知识的标签识别装置，其特征在于，包括以下模块：

8.根据权利要求7所述的一种基于行业知识的标签识别装置，其特征在于，标准标签模块实现具体包括以下步骤：

步骤1.1：获取业务系统中的数据；

步骤1.2：获取行业标准中的标准标签；

步骤1.3：依据行业标准中的规范构建标准标签层级关系。

9.根据权利要求7所述的一种基于行业知识的标签识别装置，其特征在于，数据预处理模块具体包括以下步骤：

10.根据权利要求7所述的一种基于行业知识的标签识别装置，其特征在于，向量化模块具体包括以下步骤：

步骤3.1：对于经过数据预处理模块处理后的数据,使用预训练模型将其转化成向量表示，再将所有向量拼接在一起形成向量矩阵，作为后续深度神经网络模型的输入。