CN114722196A

CN114722196A - 基于注意力机制的企业文本多标签标注方法及系统

Info

Publication number: CN114722196A
Application number: CN202210319228.1A
Authority: CN
Inventors: 刘祥志; 于洋; 吴晓明; 石金泽; 薛许强; 张鹏; 汪付强; 张建强; 郝秋赟; 马晓凤; 满佳政; 孙丰收; 乔友为
Original assignee: Shandong Shanke Intelligent Technology Co ltd; Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Shanke Intelligent Technology Co ltd; Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-07-08

Abstract

本发明公开了基于注意力机制的企业文本多标签标注方法及系统；其中所述方法，包括：获取数据对象需求者的基本属性信息；对获取的信息进行预处理；对预处理后的数据，采用训练后的企业文本多标签标注模型进行标注，得到多个标注标签；其中，所述企业文本多标签标注模型，采用注意力机制层进行文本句法和语义特征提取。本发明的企业文本标签标注方法与系统能够自动的对企业文本和标签进行标注、分类和储存，既方便用户准确查询企业经营内容，也方便相关人员实时掌握本区企业的行业分布动态，整个过程无需人工干预，由系统自动完成。

Description

基于注意力机制的企业文本多标签标注方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及基于注意力机制的企业文本多标签标注方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

目前，企业的行业标注和分类方案大部分是依靠人工进行数据的标注和分类，因此在分类上会掺入个人主观因素，随着企业日益增多，还将存在标注成本大、覆盖面不全面等问题。现阶段有部分使用传统的机器学习方法，但传统的分类方法，效果不理想，且泛化能力不强。还有小部分人使用深度学习分类方法，但只针对企业的经营范围，导致无法全面的反映企业的真实状态和公司行业分类不准确。

发明内容

为了解决现有技术的不足，本发明提供了基于注意力机制的企业文本多标签标注方法及系统；本发明的企业文本标签标注方法与系统能够自动的对企业文本和标签进行标注、分类和储存，既方便用户准确查询企业经营内容，也方便政府相关人员实时掌握本区企业的行业分布动态，整个过程无需人工干预，由系统自动完成。

第一方面，本发明提供了基于注意力机制的企业文本多标签标注方法；

基于注意力机制的企业文本多标签标注方法，包括：

获取数据对象需求者的基本属性信息；

对获取的信息进行预处理；

对预处理后的数据，采用训练后的企业文本多标签标注模型进行标注，得到多个标注标签；

其中，所述企业文本多标签标注模型，采用注意力机制层进行文本句法和语义特征提取。

第二方面，本发明提供了基于注意力机制的企业文本多标签标注系统；

基于注意力机制的企业文本多标签标注系统，包括：

获取模块，其被配置为：获取数据对象需求者的基本属性信息；

预处理模块，其被配置为：对获取的信息进行预处理；

标注模块，其被配置为：对预处理后的数据，采用训练后的企业文本多标签标注模型进行标注，得到多个标注标签；

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

与现有技术相比，首先本发明提供的企业文本标签标注方法及系统能够自动、快速以及准确的标注企业文本的所属行业，高效的标签标注过程，利用廉价的计算资源，减少大量人工成本；相较于人工，实现更加精准的标签标注，不会因为企业文本信息量的长短而产生标签标注的错漏。及时性快速的进行所需企业文本的标签标注。减少了主观差异性，不会因为不同的工人的主观判断不同而造成大量的标注标签的差异性。

预训练模型通过BERT结构进行语义的向量化表达，之后分别通过BiLSTM 和CNN获取到的特征向量融合到一起来进一步提取特征，比起常用的神经网络，在进行特征提取时，挖掘到的企业文本数据更加全面。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一模型方法的流程图；

图2为本发明实施例一的模型结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于注意力机制的企业文本多标签标注方法；

如图1所示，基于注意力机制的企业文本多标签标注方法，包括：

S101：获取数据对象需求者的基本属性信息；

S102：对获取的信息进行预处理；

S103：对预处理后的数据，采用训练后的企业文本多标签标注模型进行标注，得到多个标注标签；

其中，数据对象需求者是指企业；数据对象是指企业文本的多个标签。多个标签，例如：采矿业、制造业、电力、建筑、批发零售、交通运输、住宿餐饮、信息传输、金融、房地产、教育等标签。

进一步地，所述S101：获取数据对象需求者的基本属性信息；包括：

从企业信息库中，读取预先存储的目标企业的基本属性信息；

和/或

向企业侧提供信息输入操作接口，获得企业侧利用该接口输入的基本属性信息。

示例性地，通过政府数据公开平台中提供的API接口获取企业文本信息，通过互联网获取的形式采集企业的企业简介信息。

企业名称、企业法人、企业经营范围或者企业地址。

进一步地，所述S102：对获取的信息进行预处理；包括：

对获取的信息进行噪声去除处理；其中，噪声是指与企业经营状况行为无关的内容；

对获取的信息进行数据清洗处理；

以及对获取的信息进行冗余数据剔除处理。

示例性地，所述与企业经营状况行为无关的内容，如“年年平安互联网医疗管理有限公司”经营范围包含“(依法须经批准的项目，经相关部门批准后方可开展经营活动，具体经营项目以相关部门批准文件或许可证件为准)”，文本不能反映该企业的经营活动。

进一步地，所述对获取的信息进行数据清洗处理；是指去除与企业活动信息无关的数据。比如企业名称为“于清”并不能反映该企业的经营活动内容。

进一步地，所述数据清洗，还包括：去除低频词汇，去除停用词汇，去除噪声词汇。

进一步地，所述对获取的信息进行冗余数据剔除处理；是指：

标注指定名词的替换词，以防止企业文本地域性歧视。

标注指定名词的替换词，使用指定名词将企业的名称中直接包含省级市级县级的名称更换为“省级”、“市级”、“县级”。例如“山东省特种设备检验研究院鲁特检验检测有限公司”更换为“省级特种设备检验研究院鲁特检验检测有限公司”，防止企业文本地域性歧视，进而提高企业文本质量。

进一步地，所述企业文本多标签标注模型，网络结构包括：BERT词嵌入层；

所述BERT词嵌入层的输入端用于输入预处理后的企业文本数据；

所述BERT词嵌入层的输出端输出企业文本数据的词向量矩阵；

将企业文本数据的词向量矩阵，分别输入BiLSTM神经网络及CNN神经网络；

BiLSTM神经网络，提取出第一特征向量；

CNN神经网络，提取出第二特征向量；

第一特征向量和第二特征向量拼接融合后，输入到注意力机制层，输出文本句法和语义特征；

将文本句法和语义特征输入到全连接层中，进行分类，得到标签分类结果。

应理解地，本发明使用BERT词嵌入层代替常用word2vec算法进行预训练过程，BERT模型作为双向深层系统，能够捕捉到企业文本的上下文信息。

应理解地，本发明采用BiLSTM取代LSTM，BiLSTM具有强大的捕获输入序列相关性的能力，可以全面地词语地上下文信息。

应理解地，本发明采用CNN作为BiLSTM的一个有用补充，有助于根据当前企业文本上下文捕获结构信息，这样可以更好地提取企业文本的语义信息。

应理解地，本发明采用注意机制层，关注句子中与目标实体相关的重要词语以及不同词语之间的交互信息。

模型通过BERT结构进行语义的向量化表达，之后分别通过BiLSTM和CNN 获取到的特征向量融合到一起来进一步提取特征，比起常用的神经网络，在进行特征提取时，挖掘到的数据更加全面。

将数据清洗后的企业文本信息经过词嵌入层得到等长的向量化表示，即将原始输入进行Token嵌入、字符嵌入和位置嵌入的表示后，输入至BERT并生成词向量矩阵E∈R^n*d，其中n为输入长度，d为词向量维度(d＝768)。令x_i∈R^d表示输入中第i个词的词向量，则长度为n的输入X可以表示为:X＝[X₁,X₂,..,X_N]。

根据图2可以看出，对BERT层的输出矩阵分别被送到BiLSTM和CNN中， BiLSTM具有强大的捕获输入序列相关性的能力，采用BiLSTM取代LSTM，可以全面地词语地上下文信息。CNN是BiLSTM的一个有用补充，有助于根据当前企业文本上下文捕获结构信息，这样可以更好地提取企业文本的语义信息。

BiLSTM层其具体实现方法为：

顶部使用两层BiLSTM，两层BiLSTM模块的输出可以学习到更多的语义信息，将BERT的输出矩阵，输入到两层BiLSTM的第一层后，BiLSTM单元将生成前向网络输出隐藏向量矩阵

和后向网络隐藏向量矩阵

通过连接两个隐藏状态，BiLSTM的第一层输出中间结果为

是第二层的输入，第二层与第一层操作过程相同，产生第二层输出为

最后得到 BiLSTM网络层地隐藏向量矩阵为H＝{h₁,…,h_m},

d_h代表隐藏层的数量。使用CNN层可以根据当前上下文捕捉结构信息，CNN层其具体实现方法为：我们使用卷积核大小为p×q的k个卷积核，对BERT输入的词向量矩阵执行卷积运算，并获得特征映射。通过校正线性单元(ReLU)激活功能操作特征映射，一个特征映射的每个元素都被输入到ReLU中，以生成一个新的特征映射。经过池化层进行最大池化运算，针对卷积运算得到的每个特征取其中最大的值，保留最重要的特征信息，剔除了企业多余的信息,进一步提高企业标签输出的准确度，获得新的特征向量Cⁱ∈R^m，i∈{1，2,…,k}，最后将k个特征向量叠加在一起，获得叠加后每个对应的输出向量为

最后得到 CNN层的特征向量为{h′₁，h′₂，…，h′_m}，d_cnn的大小等于k。

将BiLSTM的输出向量h_t和CNN的输出向量h′_t拼接起来，作为下一层的输入， g_t＝[h_t；h′_t],t∈{1，2,…,m}，下一层的输入为G＝{g₁,…,g_m}，其中

注意力层：为进一步提高模型的拟合能力，引入Attention机制对特征矩阵进行参数优化，抽取企业文本句中单词之间的句法和语义特征，自我注意机制可以捕获标记和上下文信息之间的长期依赖关系。它选择性地对一些重要信息给予更多关注，并赋予它们更高的权重，而对其他信息给予较低的权重。

定义Q＝G^TW^Q,K＝G^TW^K,V＝G^T,其中

为需要训练的参数，自我注意力机制为α＝softmax(QK^T),使用注意权重α在特征向量提取层的所有输出向量创建一个加权和用于注意向量

H^a＝Attention(Q,K,V)＝Αv,

其中，

是H^a组成，并且

作为位置i的注意力载体，α_ij表示在位置j受到的关注程度。

为注意向量表示矩阵，捕捉企业文本中整个句子的历史信息。

分类层：经过Attention机制得到了文本向量作为分类层全连接网络的输入，输出维度设定为标签的总数，对每个维度的输出值通过sigmoid函数将其限制在 0-1的范围内，超过设定阈值就把最终对应标签的数值输出为1，反之设置为0，来表示对文本向量的多标签标注结果，最终实现企业文本的标签标注。

进一步地，所述训练后的企业文本多标签标注模型；训练过程包括：

构建训练集和测试集；所述训练集和测试集均为已知标签的企业文本信息；

将训练集输入到企业文本多标签标注模型中，对模型进行训练，当模型的损失函数达到最小值时，停止训练；

采用测试集对企业文本多标签标注模型进行测试；

如果测试的准确率超过设定阈值，则得到训练后的企业文本多标签标注模型；如果测试的准确率低于设定阈值，则更换训练集，再次对模型进行训练。

进一步地，所述构建训练集；具体过程包括：

对收集好的企业文本数据，按照国民经济行业分类的20个门类类别，进行企业文本信息人工标注，然后将企业文本信息划分为训练集、测试集、验证集保存在文本文件中。

应理解地，将企业信息和网页平台采集的数据文本进行标注，从而实现企业文本信息的自动、高效、精确的标签标注并显示标注结果。该方案相比人工分类的标注方法，工作量小，且分类效率和准确率高。

实施例二

本实施例提供了基于注意力机制的企业文本多标签标注系统；

基于注意力机制的企业文本多标签标注系统，包括：

预处理模块，其被配置为：对获取的信息进行预处理；

此处需要说明的是，上述获取模块、预处理模块和标注模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于注意力机制的企业文本多标签标注方法，其特征是，包括：

获取数据对象需求者的基本属性信息；

对获取的信息进行预处理；

2.如权利要求1所述的基于注意力机制的企业文本多标签标注方法，其特征是，获取数据对象需求者的基本属性信息；包括：

和/或

3.如权利要求1所述的基于注意力机制的企业文本多标签标注方法，其特征是，对获取的信息进行预处理；包括：

对获取的信息进行数据清洗处理；

以及对获取的信息进行冗余数据剔除处理；

所述对获取的信息进行数据清洗处理；是指去除与企业活动信息无关的数据；

所述数据清洗，还包括：去除低频词汇，去除停用词汇，去除噪声词汇；

所述对获取的信息进行冗余数据剔除处理；是指：标注指定名词的替换词，以防止企业文本地域性歧视。

4.如权利要求1所述的基于注意力机制的企业文本多标签标注方法，其特征是，所述企业文本多标签标注模型，网络结构包括：BERT词嵌入层；

所述BERT词嵌入层的输出端输出企业文本数据的词向量矩阵；

BiLSTM神经网络，提取出第一特征向量；

CNN神经网络，提取出第二特征向量；

5.如权利要求1所述的基于注意力机制的企业文本多标签标注方法，其特征是，所述训练后的企业文本多标签标注模型；训练过程包括：

采用测试集对企业文本多标签标注模型进行测试；

6.如权利要求5所述的基于注意力机制的企业文本多标签标注方法，其特征是，所述构建训练集；具体过程包括：

7.如权利要求1所述的基于注意力机制的企业文本多标签标注方法，其特征是，获取数据对象需求者的基本属性信息；包括：企业名称、企业法人、企业经营范围或者企业地址。

8.基于注意力机制的企业文本多标签标注系统，其特征是，包括：

预处理模块，其被配置为：对获取的信息进行预处理；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。