CN113590827B

CN113590827B - 一种基于多角度的科研项目文本分类装置和方法

Info

Publication number: CN113590827B
Application number: CN202110923095.4A
Authority: CN
Inventors: 朱华; 尹春林; 苏蒙; 潘侃; 杨政; 杨莉
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-08-01
Anticipated expiration: 2041-08-12
Also published as: CN113590827A

Abstract

本申请涉及文本分类技术领域，提供一种基于多角度的科研项目文本分类装置和方法。所述科研项目文本分类装置包括预处理模块、特征编码器、交叉注意力机制模块、残差模块和分类器。本申请针对结构化的科研项目文本，提出了基于交叉注意力机制的多视图项目文本分类模型，该模型基于项目文本的一个主要视图(项目摘要)和两个辅助视图(项目研究内容、项目的目的和意义)，通过交叉注意力机制融合多个视图信息，能够有效地提取出语义信息更加丰富的全文本特征，从而提高科研项目文本分类的效率和准确率，加快科研项目文本的自动化管理进程，进而提升科研项目管理的有效性。

Description

一种基于多角度的科研项目文本分类装置和方法

技术领域

本申请涉及文本分类技术领域，尤其涉及一种基于多角度的科研项目文本分类装置和方法。

背景技术

文本分类是指机器学习算法根据文本内容将文本划分为预先定义好的类别，其在信息检索和信息存储上发挥着重要的作用。电网作为信息资源密集型企业，积累了大量来源可靠且具有较高参考价值的科研项目文本数据，这些科研项目文本数据为文本分类提供了新的应用平台。

文本分类一般包含分词、特征提取和分类器构建三个阶段，其中，特征提取阶段是文本处理最为关键的环节。目前，常见的特征提取方法有TF-IDF模型、word2vector模型和BERT模型。其中，BERT模型是Google于2018年提出的，是一种基于Transformer模型建立的预训练模型，该模型的实质是采用自监督方法在海量语料库的基础上学习语义特征表示。BERT模型被认定为目前最有效的语义特征提取方法，是由于该模型在自然语言任务中表现良好，其性能优异的原因主要表现在以下两点：其一，采用Transformer Encoder网络结构；其二，结合MLM&NSP策略在超大规模数据集进行预训练。

针对结构化的长文本，目前通常先采用BERT模型提取大量带有时序特征的语义向量，然后采用LSTM、TextCNN和HAN等模型对上述语义向量加以处理，提取出全文本的语义特征。TextCNN模型主要通过使用卷积网络来提取项目文本的语义特征，此模型能捕捉到相邻语句的上下文关系；LSTM模型主要通过链式连接的网络结构以及三种门控系统对信息的控制，可以有效地获取文本上下文之间的依赖关系；HAN模型则主要通过采用单词级别和句子级别的注意力机制，能够实现与LSTM类似的效果。但是，当文本的长度较长时，尤其是电网科研项目文本，一般包括6个章节，且每个章节都是一个长文本，若仅仅采用上述方法进行特征提取，则会由于上述方法固有的缺陷，无法有效地提取出全文本的语义特征。

发明内容

为了克服现有技术的不足，本申请旨在提供一种基于多角度的科研项目文本分类装置和方法，以解决现有技术无法有效地提取出全文本的语义特征的问题。

为了实现上述目的，一方面，本申请提供一种基于多角度的科研项目文本分类装置，具体包括：预处理模块、特征编码器、交叉注意力机制模块、残差模块和分类器。

所述预处理模块，用于对科研项目文本进行预处理，获得预处理文本，所述预处理文本包括主视图和辅助视图。

所述特征编码器，用于提取所述主视图和所述辅助视图文本字符串的语义特征，以及用于将提取出的所述主视图和所述辅助视图文本字符串的语义特征转化成特征向量，获得主视图特征和辅助视图特征。

所述交叉注意力机制模块，通过将交叉注意力机制用于所述主视图特征和所述辅助视图特征，获得交叉注意力特征。

所述残差模块，用于融合所述交叉注意力特征和所述主视图特征，获得交叉特征。

所述分类器，用于根据预设的项目类别，对所述交叉特征进行分类识别，获得分类结果，所述分类结果为所述科研项目文本属于所述预设的项目类别的概率值。

进一步的，所述交叉注意力机制模块根据所述主视图特征获得Query，根据所述辅助视图特征获得Key和Value，再利用所述放缩点积注意力机制获得交叉注意力特征，所述交叉注意力机制模块的具体计算方法为：

Q＝main view query＝(main view feature)W^Q

K＝side view key＝(side view feature)W^K

V＝side view value＝(side view feature)W^V

式中，main view feature为主视图特征，side view feature为辅助视图特征，Cross view attention为交叉注意力特征，W^Q、W^K、W^V为参数矩阵，d_K为Q、K的列数。

进一步的，所述分类器包括第一全连接层和第二全连接层，所述第一全连接层使用ReLU激活函数，所述第二全连接层使用Sigmoid的激活函数。

进一步的，所述辅助视图的数量大于或者等于1。

进一步的，当所述辅助视图的数量为1时，所述分类器的具体计算方法为：

Classifier(cross feature)＝Activation(max(0，(cross feature)W₁+b₁)W₂+b₂)

式中，cross feature为交叉特征，W₁和W₂为待学习的参数矩阵；b₁和b₂为偏置项。

进一步的，当所述辅助视图的数量大于1时，所述分类器的具体计算方法为：

Classifier(cross feature1，cross feature2)＝Sigmoid(max(0，(crossfeature1+cross feature2)W₁+b₁)W₂+b₂)

式中，cross feature1为第一交叉特征，cross feature2为第二交叉特征，W₁和W₂为待学习的参数矩阵，b₁和b₂为偏置项。

进一步的，通过计算损失函数，获得分类结果，所述计算损失函数的具体方法为：

式中，表示第i个真实分类标签向量中第j个标签的值，/>表示第i个预测分类标签向量中第j个标签的值，N表示样本的数量，K表示每个样本标签向量的维度。

进一步的，所述主视图包括项目文本摘要，所述辅助视图包括项目研究内容和项目目的与意义。

第二方面，本申请还提供一种基于多角度的科研项目文本分类方法，所述一种基于多角度的科研项目文本分类方法用于指导操作本申请第一方面提供的一种基于多角度的科研项目文本分类装置，具体包括：

利用预处理模块对科研项目文本进行预处理，获得预处理文本，所述预处理文本包括主视图和辅助视图。

利用特征编码器对所述主视图和所述辅助视图进行语义特征提取，获得主视图特征和辅助视图特征。

利用交叉注意力机制模块对所述主视图特征和所述辅助视图特征进行处理，获得交叉注意力特征。

利用残差模块融合所述交叉注意力特征和所述主视图特征，获得交叉特征。

根据预设的项目类别，利用分类器对所述交叉特征进行分类识别，获得分类结果，所述分类结果为所述科研项目文本属于所述预设的项目类别的概率值。

本申请提供一种基于多角度的科研项目文本分类装置和方法，针对结构化的科研项目文本，提出了基于交叉注意力机制的多视图项目文本分类模型，该模型基于项目文本的一个主要视图(项目摘要)和两个辅助视图(项目研究内容、项目的目的和意义)，通过交叉注意力机制融合多个视图信息，能够有效地提取出语义信息更加丰富的全文本特征，从而提高科研项目文本分类的效率和准确率，并加快科研项目文本的自动化管理进程，进而提升科研项目管理的有效性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的TVCA模型结构示意图；

图2为本申请实施例提供的MVCA模型结构示意图；

图3为本申请实施例提供的一种基于多角度的科研项目文本分类方法流程示意图；

图4为本申请实施例提供的不同方法在测试集上的micro F1 score变化曲线示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行完整、清楚的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例第一方面提供一种基于多角度的科研项目文本分类装置，具体包括：预处理模块、特征编码器、交叉注意力机制模块、残差模块和分类器。

进一步的，所述辅助视图的数量大于或者等于1。

进一步的，所述主视图包括项目文本摘要，所述辅助视图包括项目研究内容和项目目的与意义。具体的，主视图是指项目文本中最重要的部分，而项目文本摘要包含了项目核心的内容和关键词，因此将项目文本摘要作为主视图；辅助视图，即用于辅助文本分类的部分，例如项目内容或项目的目的和意义。

具体的，当辅助视图的数量为1时，本申请实施例基于项目文本中的主视图和一个辅助视图，提出基于交叉注意力机制的两视图项目文本分类(Two View Cross Attention，TVCA)模型。假设文本训练集为其中y_i∈{0，1}^K是文本的标签，K为每个样本标签向量的维度，/>为项目文本的两个视图：/>表示第i个项目文本的主视图，/>表示第i个项目文本的辅助视图。参见图1，为本申请实施例提供的TVCA模型结构示意图。从图1可以看出，TVCA模型由一个预处理模块、一个特征编码器、一个交叉注意力机制模块、一个残差模块和一个分类器构成。

具体的，特征编码器由BERT模型或其他预训练模型组成，用以提取主视图和辅助视图的文本字符串的语义特征，并用向量表示主视图特征和辅助视图特征。特征编码器在处理长文本的时候，将长文本以句号划分，对划分后的语句进行特征提取，所以主视图特征和辅助视图特征的维数分别为n_m×d和n_s×d，其中，n_m和n_s分别为主视图和辅助视图中文本字符串的语句数，d为预训练模型提取的特征的维数。

Q＝main view query＝(main view feature)W^Q

K＝side view key＝(side view feature)W^K

V＝side view value＝(side view feature)W^V

具体的，交叉注意力机制模块是本申请实施例所述项目文本分类装置的主要部分。这个模块通过主视图特征生成Query，通过辅助视图特征生成Key和Value，然后借助放缩点积注意力机制得到交叉注意力特征，再将交叉注意力特征与主视图特征共同输入到残差模块中。

具体的，分类器是由两个全连接层组成，第一个全连接层使用ReLU激活函数；第二个全连接层根据分类问题确定激活函数，如果是多分类问题，则使用Softmax激活函数，如果是多标签分类问题，则使用Sigmoid的激活函数。由于科研文本分类大多是多标签分类问题，所以本申请实施例使用Sigmoid激活函数作为分类器中的激活函数。

进一步的，通过计算损失函数，获得分类结果，计算损失函数的具体方法为：

为了进一步提高分类的精度，本申请实施例在TVCA模型基础上，进一步提出基于交叉注意力机制的多视图文本分类(Multi-View Cross Attention，MVCA)模型。

具体的，本申请实施例以辅助视图的数量为2为例，对MVCA模型进行详细描述。当辅助视图的数量大于1时，MVCA模型通过两个交叉注意力机制进一步融合项目文本的主视图和两个辅助视图。设项目文本的训练集为其中y_i∈{0，1}^K，/>为第i个项目文本的三个视图：/>是主视图，/>是两个辅助视图。

参见图2，为本申请实施例提供的MVCA模型结构示意图。由图2可以看出，MVCA模型由一个预处理模块、一个特征编码器、两个交叉注意力机制模块、两个残差模块和一个分类器构成。MVCA模型的预处理模块、特征编码器、交叉注意力机制模块、残差模块、分类器的结构与TVCA模型的结构完全相同。不同的的是，MVCA模型通过两个交叉注意力机制模块将主视图特征、第一辅助视图特征和第二辅助视图特征分别融合为第一交叉特征和第二交叉特征；继而由分类器先将第一交叉特征和第二交叉特征进行加和，然后经过两个全连接层进行分类，其中第一个全连接层使用ReLU激活函数，第二个全连接层使用Sigmoid激活函数，具体计算方法如下：

Classifier(cross feature1，cross feature2) ＝Sigmoid(max(0，(crossfeature1+cross feature2)W₁+b₁)W₂+b₂)

参见图3，为本申请实施例提供的一种基于多角度的科研项目文本分类方法流程示意图。本申请实施例第二方面提供一种基于多角度的科研项目文本分类方法，用于指导操作本申请实施例第一方面提供的一种基于多角度的科研项目文本分类装置，对于本申请实施例第二方面提供的一种基于多角度的科研项目文本分类方法中未公开的细节，请参见本申请实施例第一方面提供的一种基于多角度的科研项目文本分类装置。

所述一种基于多角度的科研项目文本分类方法，具体包括：

步骤S101：利用预处理模块对科研项目文本进行预处理，获得预处理文本，所述预处理文本包括主视图和辅助视图。

步骤S102：利用特征编码器对所述主视图和所述辅助视图进行语义特征提取，获得主视图特征和辅助视图特征。

步骤S103：利用交叉注意力机制模块对所述主视图特征和所述辅助视图特征进行处理，获得交叉注意力特征。

步骤S104：利用残差模块融合所述交叉注意力特征和所述主视图特征，获得交叉特征。

步骤S105：根据预设的项目类别，利用分类器对所述交叉特征进行分类识别，获得分类结果，所述分类结果为所述科研项目文本属于所述预设的项目类别的概率值。

下面将通过具体实施例，对本申请实施例所提供的一种基于多角度的科研项目文本分类装置和方法进行详细阐述。

本申请具体实施例使用2082篇南方电网电力科技项目文本数据验证本申请所述的一种基于多角度的科研项目文本分类装置和方法。上述项目文本数据集包含发电技术、配电技术、输电技术等共计12类文本，每类文本数量为100-200篇。由于一个电力科技项目可以研究多项技术，电力科技项目文本的分类属于多标签分类问题，故本申请具体实施例将数据集分割为70％的训练集和30％的测试集，并分别从项目摘要、目的和意义以及研究内容三个视角来刻画项目文本，将项目摘要作为主视图，其余两个章节作为第一辅助视图和第二辅助视图，网络训练采用Adam优化器，学习率为5*10-4。

机器学习中的多标签分类问题一般使用精确率(precision)、召回率(recall)和F1 socre进行评价。一个多标签分类问题可以看作是多个二分类问题的组合。二分类问题的精确率(precision)，召回率(recall)和F1 score用如下公式计算：

式中，TP表示实际类别为正的样本被预测为正的样本的数量，FP表示实际类别为负的样本被预测为正的样本的数量，FN表示实际类别为正的样本被预测为负的样本的数量。

在多标签分类问题中，根据三个指标计算方法的不同，可以分为宏平均(macro)和微平均(micro)两种形式。宏平均是先计算出每个类别的精确率(precision)、召回率(Recall)、F1score，之后作平均得到宏平均精确率(macro precision)，宏平均召回率(macro recall)，宏平均F1 score(macro F1 score)。微平均是先将所有的TP、FN、FP作平均得到之后利用/>计算得到微平均精确率(micro precision)，微平均召回率(micro recall)，微平均F1 score(micro F1 score)。由于每个标签的类别比较均衡时，宏平均与微平均的计算结果相差不大，所以本申请具体实施例使用微平均的指标来进行评价，计算公式如下：

除微平均精确率(micro precision)、微平均召回率(micro recall)和micro F1score指标之外，本申请具体实施例还引入了Hamming Loss来对本申请所述科研项目文本分类装置和方法进行评价，Hamming Loss用来确认分类结果中错误分类的标签的比例。错误分类的标签包括实际类别为负的样本预测为正的样本和实际类别为正的样本预测为负的样本两类。计算公式如下所示：

式中，N表示样本的数量，K表示分类中标签的数量，Y_i，j表示第i个真实分类标签向量中第j个标签的值，P_i，j表示第i个预测分类标签向量中第j个标签的值，XOR是抑或的表示，即XOR(0，0)＝XOR(1，1)＝1，XOR(1，0)＝XOR(0，1)＝1。

将本申请具体实施例与神经网络(NN)、预训练模型的微调(Bert Fine Training，BFT)、长短期记忆网络(LSTM)、文本分类的卷积神经网络(TextCNN)、分层注意网络(HAN)、对抗样本增强的长短期记忆网络(Adversarial LSTM，ALSTM)、自注意力机制的长短期记忆网络(SelfAttention LSTM，SALSTM)模型进行比较，其中LSTM模型相当于TVCA模型和MVCA模型的消融实验，即为在TVCA模型和MVCA模型中去掉交叉注意力机制的单角度方法。

具体的，NN模型对项目文本语义特征进行变换，没有考虑特征向量之间的时序关系；BFT模型处理文本语义特征时，由于其输入长度受到严格的限制(最长长度为512字符)，会大概率造成信息提取的缺失；TextCNN模型使用Conv2d-ReLu-MaxPooled结构来处理项目文本语义特征，其只考虑相邻语句的上下文关系，没有考虑文本长距离的依赖关系；LSTM模型和HAN模型相对于TextCNN模型，能捕捉到长距离依赖关系，更加符合客观情况；SALSTM模型首先通过自注意力机制捕捉上下文关系，而后采用LSTM模型压缩特征向量；尽管LSTM模型和HAN模型能比较好处理文本上下文信息，但其无法很好的融合多个视图信息，而MVCA模型和TVCA模型在LSTM模型基础上加入交叉注意力机制，能更加准确提取文本语义特征。

本申请具体实施例中，在南方电网科研项目文本数据基础上，将使用项目摘要和项目研究内容两个视图的TVCA模型(项目摘要为主视图)和使用项目摘要、项目研究内容和目的与意义三个视图的MVCA模型(项目摘要为主视图)进行比较，最终得到的实验结果如表1所示。从表1的实验结果可以看出，在综合评价指标F1上，LSTM模型优于BFT模型和TextCNN模型，原因在于BFT模型会造成信息缺失，NN模型和Text CNN模型没有充分考虑上下文信息。MVCA模型和TVCA模型不仅在F1指标上明显优于LSTM模型和HAN模型，而且精确率和召回率都有很大的提升，MVCA模型相对于LSTM模型，精确率提升7.1％，召回率提升5.4％；TVCA模型相对于LSTM模型，精确率提升6.5％，召回率提升4.3％。本申请具体实施例中的TVCA模型和MVCA模型，在Hamming Loss指标上都优于其它模型。实验结果表明不同的视图通常包含不同的信息，多视图信息融合有助于提取到更丰富的语义特征。

表1电网科研项目文本多标签分类实验结果

Method	micro F1 score	micro precision	micro recall	Hamming Loss
					NN	0.547	0.698	0.450	0.074
BFT	0.593	0.706	0.525	0.070
					LSTM	0.621	0.695	0.568	0.068
TextCNN	0.517	0.702	0.420	0.076
					ALSTM	0.644	0.718	0.585	0.064
SALSTM	0.602	0.714	0.547	0.070
					HAN	0.622	0.703	0.558	0.067
TVCA	0.669	0.740	0.611	0.059
					MVCA	0.677	0.744	0.622	0.057

为了进一步理解基于交叉注意力机制的MVCA模型在训练过程中的变化趋势，本申请具体实施例在测试集上绘制了随着迭代步数的增加，micro F1 score的变化曲线，具体如图4所示。从图4可以看出，MVCA模型和TVCA模型的收敛速度要远快于LSTM的收敛速度，这说明不同视图之间的互补信息的融合会提高算法的学习效率，加快收敛速度。

本申请提供一种基于多角度的科研项目文本分类装置，具体包括：预处理模块、特征编码器、交叉注意力机制模块、残差模块和分类器。

由上述技术方案可知，本申请提供一种基于多角度的科研项目文本分类装置和方法，针对结构化的科研项目文本，提出了基于交叉注意力机制的多视图项目文本分类模型，该模型基于项目文本的一个主要视图(项目摘要)和两个辅助视图(项目研究内容、项目的目的和意义)，通过交叉注意力机制融合多个视图信息，能够有效地提取出语义信息更加丰富的全文本特征，从而提高科研项目文本分类的效率和准确率，并加快科研项目文本的自动化管理进程，进而提升科研项目管理的有效性。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于多角度的科研项目文本分类装置，其特征在于，包括：预处理模块、特征编码器、交叉注意力机制模块、残差模块和分类器；

所述预处理模块，用于对科研项目文本进行预处理，获得预处理文本，所述预处理文本包括主视图和辅助视图；

所述特征编码器，用于提取所述主视图和所述辅助视图文本字符串的语义特征，以及用于将提取出的所述主视图和所述辅助视图文本字符串的语义特征转化成特征向量，获得主视图特征和辅助视图特征；

所述交叉注意力机制模块，通过将交叉注意力机制用于所述主视图特征和所述辅助视图特征，获得交叉注意力特征；

所述残差模块，用于融合所述交叉注意力特征和所述主视图特征，获得交叉特征；

2.根据权利要求1所述的一种基于多角度的科研项目文本分类装置，其特征在于，所述交叉注意力机制模块根据所述主视图特征获得Query，根据所述辅助视图特征获得Key和Value，再利用放缩点积注意力机制获得交叉注意力特征，所述交叉注意力机制模块的具体计算方法为：

Q＝main view query＝(main view feature)W^Q

K＝side view key＝(side view feature)W^K

V＝side view value＝(side view feature)W^V

式中，main view feature为主视图特征，side view feature为辅助视图特征，Crossview attention为交叉注意力特征，W^Q、W^K、W^V为参数矩阵，d_K为Q、K的列数。

3.根据权利要求1所述的一种基于多角度的科研项目文本分类装置，其特征在于，所述分类器包括第一全连接层和第二全连接层，所述第一全连接层使用ReLU激活函数，所述第二全连接层使用Sigmoid的激活函数。

4.根据权利要求3所述的一种基于多角度的科研项目文本分类装置，其特征在于，所述辅助视图的数量大于或者等于1。

5.根据权利要求4所述的一种基于多角度的科研项目文本分类装置，其特征在于，当所述辅助视图的数量为1时，所述分类器的具体计算方法为：

Classifier(cross feature)＝Activation(max(0,(cross feature)W₁+b₁)W₂+b₂)

6.根据权利要求4所述的一种基于多角度的科研项目文本分类装置，其特征在于，当所述辅助视图的数量大于1时，所述分类器的具体计算方法为：

Classifier(cross feature1,cross feature2)＝Sigmoid(max(0,(cross feature1+cross feature2)W₁+b₁)W₂+b₂)

7.根据权利要求5或6所述的一种基于多角度的科研项目文本分类装置，其特征在于，通过计算损失函数，获得分类结果，所述计算损失函数的具体方法为：

8.根据权利要求1-6任一项所述的一种基于多角度的科研项目文本分类装置，其特征在于，所述主视图包括项目文本摘要，所述辅助视图包括项目研究内容和项目目的与意义。

9.一种基于多角度的科研项目文本分类方法，其特征在于，所述基于多角度的科研项目文本分类装置用于指导操作权利要求1-8任一项所述的基于多角度的科研项目文本分类装置，包括：

利用预处理模块对科研项目文本进行预处理，获得预处理文本，所述预处理文本包括主视图和辅助视图；

利用特征编码器对所述主视图和所述辅助视图进行语义特征提取，获得主视图特征和辅助视图特征；

利用交叉注意力机制模块对所述主视图特征和所述辅助视图特征进行处理，获得交叉注意力特征；

利用残差模块融合所述交叉注意力特征和所述主视图特征，获得交叉特征；