CN113569014A

CN113569014A - 基于多粒度文本语义信息的运维项目管理方法

Info

Publication number: CN113569014A
Application number: CN202110919406.XA
Authority: CN
Inventors: 王文娟; 吕乐宾; 戴诚; 赵伟; 胥钟予; 刘倩雯; 胡洛娜; 谭涵丹
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-10-29
Anticipated expiration: 2041-08-11
Also published as: CN113569014B

Abstract

本发明公开了一种基于多粒度文本语义信息的运维项目管理方法，包括步骤：S1.构建多粒度文本语义匹配模型；S2.得到项目信息摘要；S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练，使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值；S4.得到待测项目信息摘要；S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度；S6.判断项目信息相似度是否大于设定的阈值，若是，则待测运维项目为相似项目；若否，则待测运维项目为正常项目。本发明能够对相似的运维项目进行筛选，从而避免相似项目的重复申报，缩短了项目申报周期，降低了申报人力成本。

Description

基于多粒度文本语义信息的运维项目管理方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于多粒度文本语义信息的运维项目管理方法。

背景技术

深度学习中，文本匹配研究主要目的是判断两段文本的相似度关系，所以很多任务在一定程度上都可以抽象成文本匹配的问题，例如：信息搜索、自动问答、机器翻译、对话系统、复述识别等等。

Huang等人提出的DSSM(Deep Structured Semantic Models)模型最早将神经网络应用到文本匹配任务当中。该模型首先利用深度神经网络把Query和Document的词袋模型生成的向量表示为低维度的语义向量，然后通过余弦公式来计算两个向量的相似度。由于词袋模型生成的向量在进行表示的时候会丢失来自文本的上下文结构信息，因此，Shen等人利用卷积神经网络代替DSSM模型当中的多层感知机得到CDSSM模型。它采用单词序列作为模型的输入，通过词的n-gram和卷积池化操作来捕获上下文关系。与DSSM相比，CDSSM的匹配精度得到了进一步的提高。为了能使模型记住长距离上的句子特征，Wan等人提出了一种基于双向长短时记忆网络(Bidirecti-onal Long Short-Term Memory，Bi-LSTM)的多语义模型MV_LSTM。Hu等人提出的ARC-II模型，首先对两段文本分别利用一维卷积来关注相邻的单词向量，然后将两个卷积后得到的张量进行结合，以便获得描述两个句子之间关联的抽象表示。最后使用多层感知机(MLP)将抽象化的表示转换为匹配分数输出，与之前的DSSM和CDSSM模型相比，ARC-II表现出了更好的结果。Pang等人提出了MatchPyramid模型，该模型直接对查询和文档的单词向量进行点积运算构建交互特征，再通过卷积池化进行特征提取，最后利用全连接网络得出匹配分数。Xiong等人提出的K-NRM模型对两段文本作词嵌入之后，通过计算两段文本的余弦相似度来得到相似性矩阵，然后利用径向基函数核(Radial Basis Function，RBF kernel)对得到的相似性矩阵进行池化，最后利用全连接层来得到最终的匹配分数。

上述模型可以大致分为两类：捕获局部的词语相似度信息以及捕获全局的语义信息。仅仅捕获词组相似度可能会局限于局部信息，模型会判断两个存在多个相同词组的不同语义句子的相似度过高，而捕获全局的语义信息又会受到网路表达能力和稀有词组的限制，使网络不能完全捕获到整体语句的信息。

发明内容

有鉴于此，本发明的目的是克服现有技术中的缺陷，提供基于多粒度文本语义信息的运维项目管理方法，能够对相似的运维项目进行筛选，从而避免相似项目的重复申报，优化了项目申报过程，缩短了项目申报周期，降低了申报人力成本，提高了生产效率。

本发明的基于多粒度文本语义信息的运维项目管理方法，包括如下步骤：

S1.构建多粒度文本语义匹配模型；

S2.采集运维项目信息并对运维项目信息进行摘要抽取，得到项目信息摘要；

S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练，使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值；

S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取，得到待测项目信息摘要；

S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度；

S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值，若是，则待测运维项目为相似项目，并进行提示；若否，则待测运维项目为正常项目。

进一步，对运维项目信息进行摘要抽取前，对运维项目信息进行清洗处理，具体包括：剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。

进一步，所述步骤S3，具体包括：

S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理，得到处理后的摘要数据；所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要；

S32.对处理后的摘要数据进行目标粒度下的相似度特征提取，得到若干相似度特征张量；

S33.对若干相似度特征张量进行结合，并对结合后的相似度特征张量进行加权处理，得到加权后的相似度特征张量；

S34.计算加权后的相似度特征张量的项目信息相似度，使得所述项目信息相似度达到目标值。

进一步，步骤S31中，所述字嵌入处理采用Bert字嵌入。

进一步，步骤S32，具体包括：

S321.对处理后的摘要数据进行字粒度下的相似度特征提取，得到字相似度特征张量；

S322.对处理后的摘要数据进行词粒度下的相似度特征提取，得到词相似度特征张量；

S323.对处理后的摘要数据进行句粒度下的相似度特征提取，得到句相似度特征张量。

进一步，所述步骤S321，具体包括：

计算处理后的摘要数据的相似度，得到字相似度矩阵；

提取字相似度矩阵中的相似度信息，得到字相似度特征张量。

进一步，所述步骤S322，具体包括：

分别对处理后的项目信息摘要以及处理后的待匹配项目信息摘要进行特征组合，得到新的摘要数据；所述新的摘要数据包括新的项目信息摘要以及新的待匹配项目信息摘要；

计算新的摘要数据的相似度，得到词相似度矩阵；

提取词相似度矩阵中的相似度信息，得到词相似度特征张量。

进一步，所述步骤S323，具体包括：

分别提取处理后的项目信息摘要以及处理后的待匹配项目信息摘要中的全局语义信息，得到全局摘要数据；所述全局摘要数据包括全局项目信息摘要以及全局待匹配项目信息摘要；

对全局项目信息摘要以及全局待匹配项目信息摘要进行结合，并计算结合后的信息摘要的相似度特征，得到句相似度特征张量。

进一步，所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数；

所述交叉熵为：

其中，p(x_i)表示真实数据x_i的真实概率分布；q(x_i)表示多粒度文本语义匹配模型预测的概率分布；H(p,q)为计算的真实概率分布p(x_i)和预测的概率分布q(x_i)之间的交叉熵。

本发明的有益效果是：本发明公开的一种基于多粒度文本语义信息的运维项目管理方法，通过摘要抽取，预训练模型词嵌入，多粒度语义匹配，匹配信息融合，计算相似度，从而对申报项目进行相似度计算，对相似的申报项目进行智能提示，从而避免相似项目重复申报的问题，优化了项目申报过程，缩短了项目申报周期，降低了申报人力成本，提高了生产效率。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的多粒度文本语义匹配模型的结构示意图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明，如图所示：

S1.构建多粒度文本语义匹配模型；

S2.采集运维项目信息并对运维项目信息进行摘要抽取，得到项目信息摘要；其中，所述运维项目信息为电力运维项目信息；通过国网公司内部多年的项目申报积累，获取电力运维领域的历年项目申报书，所述电力运维项目信息包括项目申报书；所述项目申报书包括结构化的数值指标和非结构化的文字信息；利用Textrank算法进行摘要抽取，通过挑选审批通过的项目申报书，并对每个项目申报书进行摘要抽取，获取排名前l个句子作为原始文章的摘要句，所述Textrank算法采用现有技术，在此不再赘述；

S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练，使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值；其中，所述待匹配项目信息摘要为数据库中的项目申报书摘要；用同一个项目生成的多个摘要作为正例，不同申报项目生成的文本摘要作为负例，用这些数据进行相似申报文档的匹配训练；所述目标值可根据模型训练时的实际工况进行设置；

S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取，得到待测项目信息摘要；其中，待测运维项目信息为待测电力运维项目信息；采集待测运维项目信息时，同样要进行清洗处理；所述摘要抽取与步骤S2中的摘要抽取原理相同，在此不再赘述；

S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值，若是，则待测运维项目为相似项目，并进行提示；若否，则待测运维项目为正常项目，表示通过判断验证。其中，根据经验，所述阈值可以设置为0.5，后期可以根据实际情况进行修改；判断为相似项目，表示待测运维项目与数据库中已有的项目类似，此时就可以向工作人员发出提醒，进而实现公司运维服务的智能化管理。

本发明旨在利用深度学习技术，对运维项目申报过程中的填报、修改、导出等各阶段信息进行文本匹配，自动识别重复的申报项目，实现公司运维服务的智能化管理，重点加强在项目计划端管控力度，实现项目立项有据可依，降低项目申报耗费成本，节省人力物力。

本实施例中，对运维项目信息进行摘要抽取前，对运维项目信息进行清洗处理，具体包括：剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。

本实施例中，所述步骤S3，具体包括：

S33.对若干相似度特征张量进行结合，并对结合后的相似度特征张量进行加权处理，得到加权后的相似度特征张量；其中，所述结合采用现有技术，所述加权采用Attention机制进行加权处理，所述Attention机制可以在训练中对重要的信息赋予更大的权重，对不重要的信息可以赋予更小的权重来限制信息的通过，使得神经网络可以在预测的时候自动选择重要的信息进行参考利用，作出更精确的决策。

S34.计算加权后的相似度特征张量的项目信息相似度，使得所述项目信息相似度达到目标值。其中，通过将加权后的相似度特征张量输入多层感知机，得到最终的匹配得分，并将所述匹配得分作为项目信息相似度；所述项目信息相似度可以用来判断项目信息摘要以及待匹配项目信息摘要是否相似。

本实施例中，步骤S31中，所述字嵌入处理采用Bert字嵌入。其中，Bert模型使用大型句子语料库进行训练，采用掩码的方式，让模型预测那些被掩码的单词，随着模型的预测训练，能够生成一个强大的单词内部表示，即字嵌入；所述Bert字嵌入不用对原始的中文数据集进行分词处理，这样就大大降低了分词时所带来的误差，特别是在电力运维领域，通用的分词工具很难对一些专有名词进行正确的划分，这样就会加大后续任务的难度。一般地，项目申报书中包含很多国网内部的专有名词，利用普通的分词技术可能会给后期的处理增加负担，所以采用Bert字嵌入的方式对摘要文本进行字嵌入处理。

本实施例中，步骤S32，具体包括：

神经网络在捕获全局语义的时候存在一定的缺陷，特别是摘要文本的内容比较精炼，不利于神经网络对整体语义的学习，而且考虑到一些领域专有的字和词对原始文本的相似度计算会有很大帮助，所以本发明采用多粒度的相似度计算的方式，即分别从字、词、句的不同维度计算项目申报书摘要的相似度信息。

本实施例中，所述步骤S321，具体包括：

利用余弦相似度计算处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中每个字之间相似度信息，得到相似矩阵Matrix_1；

然后利用二维卷积神经网络提取相似矩阵Matrix_1中重要的相似度信息(此处二维卷积的窗口大小设置为3×3)，得到最终的字相似度特征张量Z₁。

公式表示如下：

Matrix_1＝cosine(Q,D)

Z₁＝Conv2(Matrix_1)；

本实施例中，所述步骤S322，具体包括：

利用一维卷积神经网络(此处一位卷积神经网络设置的窗口大小为3)，将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中当前字与其前后的字进行特征组合，得到新的项目信息摘要Q_new和新的待匹配项目信息摘要D_new；

然后利用余弦相似度计算Q_new和D_new的相似度信息，得到相似度矩阵Matrix_2；

然后利用二维卷积神经网络进行相似度特征抽取，得到最终的词相似度特征张量Z₂。

公式表示如下：

Q_new＝Conv1(Q)

D_new＝Conv1(D)

Matrix_2＝cosine(Q_new,D_new)；

Z₂＝Conv2(Matrix_2)

本实施例中，所述步骤S323，具体包括：

将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D分别输入双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-Lstm)来捕获句子的全局意义信息，得到全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all；

然后将全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all进行结合，并将结合后的信息摘要Q_D输入多层感知机来计算相似度特征，得到最终的句相似度特征张量Z₃。

公式表示如下：

Q_all＝Bi-Lstm(Q)

D_all＝Bi-Lstm(D)

Q_D＝concat(Q_all,D_all)；

Z₃＝MLP(Q_D)

本实施例中，本发明的多粒度文本语义匹配模型的训练与普通神经网络训练相同，本发明的匹配模型可采用各种编程语言实现，并可选择利用CPU或GPU计算进行训练，所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数；

所述交叉熵为：

其中，p(x_i)表示真实数据x_i的真实概率分布，所述真实数据x_i为项目信息摘要，i为真实数据的编号，n为真实数据的总数；q(x_i)表示非真实概率分布，本实施例中，q(x_i)表示多粒度文本语义匹配模型预测的概率分布；H(p,q)为计算的真实概率分布p(x_i)和预测的概率分布q(x_i)之间的交叉熵。交叉熵(Cross Entropy)，表示两个概率分布之间的距离。交叉熵越大，两个概率分布距离越远，两个概率分布越相异，也就是表示模型预测数据的概率分布与真实数据的概率分布相差越大；交叉熵越小，两个概率分布距离越近，两个概率分布越相似，也就是表示模型预测数据的概率分布与真实数据的概率分布相差越小。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多粒度文本语义信息的运维项目管理方法，其特征在于：包括如下步骤：

S1.构建多粒度文本语义匹配模型；

2.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：对运维项目信息进行摘要抽取前，对运维项目信息进行清洗处理，具体包括：剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。

3.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：所述步骤S3，具体包括：

4.根据权利要求3所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：步骤S31中，所述字嵌入处理采用Bert字嵌入。

5.根据权利要求3所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：步骤S32，具体包括：

6.根据权利要求5所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：所述步骤S321，具体包括：

计算处理后的摘要数据的相似度，得到字相似度矩阵；

7.根据权利要求5所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：所述步骤S322，具体包括：

计算新的摘要数据的相似度，得到词相似度矩阵；

8.根据权利要求5所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：所述步骤S323，具体包括：

9.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法，其特征在于：所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数；

所述交叉熵为：