CN113342982B

CN113342982B - 融合RoBERTa和外部知识库的企业行业分类方法

Info

Publication number: CN113342982B
Application number: CN202110742262.5A
Authority: CN
Inventors: 陈钢; 佘祥荣; 水新莹
Original assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Current assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-07-25
Anticipated expiration: 2041-06-24
Also published as: CN113342982A

Abstract

本发明公开了一种融合RoBERTa和外部知识库的企业行业分类方法，包括：步骤1、基于预训练语言模型的语义表征编码；步骤2、基于GRU的候选集生成网络；步骤3、额外知识嵌入；步骤4、行业类别预测。该企业行业分类方法不仅能够使用预训练语言模型提取企业经营范围特征，而且还可以通过外部知识库和类别语义信息增强行业分类的准确性。

Description

融合RoBERTa和外部知识库的企业行业分类方法

技术领域

本发明涉及一种融合RoBERTa和外部知识库的企业行业分类方法。

背景技术

目前，现有的企业数量已有数千万家，并且每年都有大量新企业设立，如何准确、快速地对构建企业的行业标签是目前亟待解决的问题。

现有的解决办法通常会借助机器学习的手段进行数据挖掘自动完成企业行业分类。其中，主流的方法有两种：一种是使用传统的机器学习方法，首先人工提取特征，再利用经典的分类算法(如朴素贝叶斯)等分类器完成行业分类；另一种是利用深度学习技术(如循环神经网络)完成自动的特征提取和分类任务。相比一级行业分类，二级行业分类在经营范围的描述上不同行业之间存在更多相似性，这导致利用常规方法很难发现这种微小的差异，进而较难作出正确的判断。

现有一些公开的相关发明专利使用词向量表示可以作为初始的词向量嵌入到神经网络模型中，从而使神经网络模型可以获取更多更精确的语义信息以提升分类的准确率。然而，这些模型往往无法结合上下文信息获得更为全面的语义信息。

因此，急需要提供一种融合RoBERTa和外部知识库的企业行业分类方法来解决上述技术问题。

发明内容

本发明的目的是提供一种融合RoBERTa和外部知识库的企业行业分类方法，该企业行业分类方法不仅能够使用预训练语言模型提取企业经营范围特征，而且还可以通过外部知识库和类别语义信息增强行业分类的准确性。

为了实现上述目的，本发明提供了一种融合RoBERTa和外部知识库的企业行业分类方法，包括：

步骤1、基于预训练语言模型的语义表征编码；

步骤2、基于GRU的候选集生成网络；

步骤3、额外知识嵌入；

步骤4、行业类别预测。

优选地，步骤1中包括：将经过预处理后的企业经营范围文本序列输入预训练模型，并将输出的特征向量作为输入到下一层网络的语义表征向量。

优选地，步骤2中的候选集为对企业类别可能判断的候选选项的集合，并且，在步骤2中使用GRU网络作为候选集的生成网络。

优选地，步骤2包括：

步骤2a、经过预训练模型编码后的语义向量结果x_t构成集合X＝{x_t|t＝1,2,…,n}，将X与类别语义信息作为模块的输入；

步骤2b、输入向量x_t与上一步隐藏状态h_t-1线性组合并经过sigmod激活函数非线性化处理后得到更新门z_t和重置门r_t；

步骤2c、由重置门r_t与隐藏状态h_t-1的哈达玛积和输入向量x_t线性组合后经过tanh激活函数非线性化处理得到候选状态

步骤2d、由更新门z_t、隐藏状态h_t-1和候选状态共同计算得到新的隐藏状态h_t，计算公式为：/>

步骤2e、将不同时间节点隐藏状态h_t构成集合H＝{h_t|t＝1,2,…,n,n+1,…,n+m}经由全连接层以及softmax函数后得到候选集C＝{c_i|i＝1,2,…,m}；

步骤2f、对候选集使用全连接层进行维度转换，输出与预训练语言模型同维度的结果

步骤2g、在候选集生成网络中添加跳层连接，用于防止训练过程中网络层数加深后可能存在的信息丢失和网络退化；通过将网络的输入部分与输出结果使用门控机制进行相加，得到最终网络输出结果V_out，其中，

V_out＝f(X)+X

其中f是主干网络，由多个网络层组成的非线性变换。

优选地，步骤3中包括：构建一个基于企业描述信息的Query-Tag预测模型，使用BiGRU网络作为信息提取网络，为输出层提供输入序列中每一个点的完整上下文信息；同时，引入注意力机制增强补充额外知识后的预测效果。

优选地，步骤3包括：

步骤3a、将企业其他信息作为外部知识信息引入Query-Tag预测模型，以键值对的形式构建出结构化的外部知识；输入到模型中的结构化知识库表示为一个键值对列表

L＝[(s₁,v₁),(s₂,v₂),…,(s_n,v_n)]

其中，si表示企业额外信息对应类型，vi表示对应企业额外信息的具体内容；

步骤3b、将结构化知识库L＝[(s₁,v₁),(s₂,v₂),…,(s_n,v_n)]经过嵌入得到向量L＝[I₁,I₂,…,I_n]；

步骤3c、将向量L中的元素Ii分别输入前向GRU和反向GRU得到前向隐藏状态和反向隐藏状态/>拼接前向和反向隐藏状态得到BiGRU的隐藏状态/>

步骤3d、对BiGRU的隐藏状态h_i应用注意力机制，并引入知识库上下文向量u来衡量知识的重要性，得到有助于增强行业分类的额外知识向量V；

步骤3e、通过全连接网络将额外知识向量V的维度转换为与主干网络相同维度的结果向量

优选地，步骤4中包括将额外知识特征与经营范围特征V_out进行拼接得到V_concat，将V_concat输入分类器中实现行业预测：

p＝softmax(WV_concat+b)

同时，使用正确类别的负对数似然作为训练的损失函数：

其中，j是企业E的分类类别。

根据上述技术方案，本发明为了使RoBERTa模型适用于中文环境下的企业行业分类任务，使用哈工大讯飞联合实验室发布的RoBERTa-wwm-ext作为文本特征提取模型。处理后的文本表征向量被输入到候选集生成网络，产生包含类别候选集的特征向量，额外知识作为补充信息在使用BiGRU向量化后与特征向量进行拼接得到融合的特征向量，融合后的特征向量最终输入到分类器进行类别预测，以实现行业类别预测。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明中企业行业分类模型结构图；

图2是本发明中基于GRU的候选集生成网络结构图；

图3是本发明中额外知识嵌入模块的结构示意图；

图4是本发明中RoBERTa-GRU-EKB模型的测试结果混淆矩阵热力图；

图5是部分类别对应不同模型的预测准确率的比较图；

图6是本发明提供的一种融合RoBERTa和外部知识库的企业行业分类方法的流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本发明中，在未作相反说明的情况下，包含在术语中的方位词仅代表该术语在常规使用状态下的方位，或为本领域技术人员理解的俗称，而不应视为对该术语的限制。

参见图6，本发明提供一种融合RoBERTa和外部知识库的企业行业分类方法，包括：

步骤1、基于预训练语言模型的语义表征编码；

步骤2、基于GRU的候选集生成网络；

步骤3、额外知识嵌入；

步骤4、行业类别预测。

为了使RoBERTa模型适用于中文环境下的企业行业分类任务，本发明使用哈工大讯飞联合实验室发布的RoBERTa-wwm-ext作为文本特征提取模型。处理后的文本表征向量被输入到候选集生成网络，产生包含类别候选集的特征向量，额外知识作为补充信息在使用BiGRU向量化后与特征向量进行拼接得到融合的特征向量，融合后的特征向量最终输入到分类器进行类别预测，以实现行业类别预测。其中提出的企业行业分类模型结构如图1所示。

具体的，步骤1中包括将经过预处理后的企业经营范围文本序列输入预训练模型，并将输出的(特征)向量作为输入到下一层网络的语义表征向量。

步骤2中的候选集为对企业类别可能判断的候选选项的集合，并且，如图2所示，在步骤2中使用GRU网络作为候选集的生成网络。

具体的，步骤2包括：

V_out＝f(X)+X

其中f是主干网络，由多个网络层组成的非线性变换。

在步骤3中，通过引入企业其他外部知识可以有效提高模型的理解层次，提升行业预测准确性。为此，构建一个基于企业描述信息的Query-Tag预测模型，使用BiGRU网络作为信息提取网络，为输出层提供输入序列中每一个点的完整上下文信息；同时，引入注意力机制增强补充额外知识后的预测效果。

具体的，步骤3包括：

L＝[(s₁,v₁),(s₂,v₂),…,(s_n,v_n)]

上式中，si表示企业额外信息对应类型，vi表示对应企业额外信息的具体内容；

其中，额外知识嵌入模块分为BiGRU部分和attention部分，具体结构如图3所示。

步骤4中包括将额外知识特征与经营范围特征V_out进行拼接得到V_concat，将V_concat输入分类器中实现行业预测：

p＝softmax(WV_concat+b)

同时，使用正确类别的负对数似然作为训练的损失函数：

其中，j是企业E的分类类别。

在以往的行业划分规范中，企业所属行业由企业的经营范围描述而得。然而，由于企业的经营范围描述往往涉及到多个行业的描述，人工分类的工作存在着更多的困难。企业行业预测算法的一般过程是从企业的经营范围文本中提取特征，然后使用分类器实现分类预测。在现如今庞大的行业规模下，人工分类存在效率低下、可靠性不高等问题。随着大规模数据集的出现，机器学习特征工程的难度越来越大，而深度学习模型可以从数据本身学习数据的内在特征。

针对此，本发明使用RoBERTa对企业经营范围中对行业分类重要的特征进行提取，通过基于GRU的候选集生成网络生成相关类别候选集，同时通过外部知识库嵌入补充额外信息，最后将外部知识库特征与经营范围特征进行融合，完成对企业行业类别的预测。同时，利用目前最先进的预训练语言模型RoBERTa代替传统的TFIDF、word2vec等模型，使模型能有效的提取文本的上下文语义信息。而且，本发明使用了一种结合双向门限循环神经网络(BiGRU)和注意力(Attention)机制的额外知识嵌入模块，该模块通过引入企业其他外部知识，可以有效提高模型的理解层次，提升行业预测的准确性。还进一步地提出了一种基于GRU的候选集生成网络，该网络通过GRU生成分类候选集用于增强本文算法的分类能力，并在此基础上引入跳层连接机制以解决深度网络训练中的信息丢失和网络退化问题。

由此可见，本发明利用深度学习模型和外部知识库提供一种分类识别速度快、准确率高的企业行业分类方法，对于市场监管、产业经济等需要企业准确行业类别的领域应用具有重要意义。

进一步的，为了更加直观有效地展示本发明模型的效果，图4中给出了提出的RoBERTa-GRU-EKB模型的测试结果的混淆矩阵热力图，并给出了部分类别预测准确率各模型对比直方图。从图4可知对角线上的方格颜色较深，这表明本发明提出模型在每个类别上的预测性能均较好。

此外，图5中列举了部分类别对应不同模型的预测准确率。从图5中可知本发明提出的模型均优于其他模型的分类准确率，进一步证明了本发明模型的优越性。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种融合RoBERTa和外部知识库的企业行业分类方法，其特征在于，包括：

步骤1、基于预训练语言模型的语义表征编码；

步骤2、基于GRU的候选集生成网络；

步骤3、额外知识嵌入；

步骤4、行业类别预测；其中，

步骤2中的候选集为对企业类别可能判断的候选选项的集合，并且，在步骤2中使用GRU网络作为候选集的生成网络；

步骤2包括：

步骤2a、经过预训练模型编码后的语义向量结果x_t构成集合X＝{x_t|t＝1,2,…,n}，将X与类别语义信息作为模块的输入；其中，i为行业类别文字中的第i个字，m为行业类别文字总字数，s为用作区分的标号；

步骤2e、将不同时间节点隐藏状态h_t构成集合H＝{h_t|t＝1,2,…,n,n+1,…,n+m}经由全连接层以及softmax函数后得到候选集C＝{c_i|i＝1,2,…,m}；其中，n为预训练模型的输出向量数量，m为候选集数量；

步骤2f、对候选集使用全连接层进行维度转换，输出与预训练语言模型同维度的结果其中，t为某个时间步，n为总时间步，C为类别候选集；

V_out＝f(X)+X

其中，f是主干网络，由多个网络层组成的非线性变换；

步骤3中包括：构建一个基于企业描述信息的Query-Tag预测模型，使用BiGRU网络作为信息提取网络，为输出层提供输入序列中每一个点的完整上下文信息；同时，引入注意力机制增强补充额外知识后的预测效果；

步骤3包括：

L＝[(s₁,v₁),(s₂,v₂),…,(s_n,v_n)]

其中，s_i表示企业额外信息对应类型，v_i表示对应企业额外信息的具体内容；

步骤3c、将向量L中的元素I_i分别输入前向GRU和反向GRU得到前向隐藏状态和反向隐藏状态/>拼接前向和反向隐藏状态得到BiGRU的隐藏状态/>

p＝softmax(WV_concat+b)

其中，W为可学习矩阵，V为输出向量，b为可学习参数；

同时，使用正确类别的负对数似然作为训练的损失函数：

其中，j是企业E的分类类别。

2.根据权利要求1所述的融合RoBERTa和外部知识库的企业行业分类方法，其特征在于，步骤1中包括：将经过预处理后的企业经营范围文本序列输入预训练模型，并将输出的特征向量作为输入到下一层网络的语义表征向量。