CN110852089B

CN110852089B - 基于智能分词与深度学习的运维项目管理方法

Info

Publication number: CN110852089B
Application number: CN201911025651.5A
Authority: CN
Inventors: 王文娟; 戴诚; 卓灵; 王吉哲; 龚黎慧倩; 彭云竹; 赵中璇; 陈聿
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2023-01-20
Anticipated expiration: 2039-10-25
Also published as: CN110852089A

Abstract

本发明公开了一种基于智能分词与深度学习的运维项目管理方法，该方法通过根据领域语料库biLSTM‑CRF模型对项目申报书中的申报书文本和申报指南文本进行智能分词，然后构建项目申报书空间向量和项目申报指南空间向量，并通过注意力机制加强的卷积神经网络计算项目申报书空间向量和项目申报指南空间向量的相似度值，最后通过相似度值判断项目申报书是否通过自动评审，可优化项目申报过程、缩短项目申报周期，同时还可降低申报人力成本，提高生产效率。

Description

基于智能分词与深度学习的运维项目管理方法

技术领域

本发明涉及一种基于智能分词与深度学习的运维项目管理方法。

背景技术

在2006年Hinton等提出深度学习以后，人工神经网络在自然语言处理领域开始逐渐受到重视，当前结合深度学习模型开展自然语言处理相关应用已经取得一定成果。

语言模型是最早采用神经网络开展研究的自然语言处理问题。在2003年， Bengio等提出词向量(Word embedding)方法，可将词映射转换到一个独立的向量空间；进一步结合非线性神经网络提出N-Gram模型；受此启发，Collobert 等基于词向量方法及多层一维卷积神经网络(Convolutional neural network， CNN)，实现了一个同时处理词性标注、语块切分、命名实体识别、语义角色注四个典型自然语言处理任务的SENNA(Semanticextraction usinga neural network architecture)系统，取得了与当时业界最好性能相当接近的效果。类似的模型也被Schwenk等用在统计机器翻译任务上，其性能采用BLEU(Bilingual evaluation understudy)评分机制评判，提高了将近2个百分点。递归自动编码器(Recursive auto-encoders)模型在句段检测(Sentence paraphrase detection)任务中大大提高了F1值。此外，基于深度模型的特征学习还在词义消歧、情感分析等自然语言处理任务中均超越了当时最优系统，取得不俗表现。

事实上，面向自然语言处理的深度学习研究，主要考虑两个普适问题：① 应用领域的原始特征表示；②选择合适的深度学习算法。前者是数据的表示问题，后者代表深度学习结构问题，即深度学习模型。对于问题①，典型的有基于词向量空间、词袋模型(Bag-of-words，BOW)、向量空间模型(Vector space model，VSM)等的表示方式；对于问题②，目前普遍认可的是，需要根据自然语言的特点，来选择合适的深度学习模型。人类自然语言具有递归特性。比如，自然语言中的句子，事实上是由词、短语递归组合而成。因此，递归特性是自然语言的重要特征。考虑自然语言递归特性的深度学习模型有循环神经网络(Recurrentneural network，RNN)、递归神经网络、卷积神经网络及其系列改进模型。

基于上述两个问题的讨论，相应地，在自然语言处理中深度学习的方式主要有两类：①在深度学习模型中，直接使用原始特征，构建一类端到端 (End-to-end)系统，完成处理任务；②在现有模型中，将训练后的原始特征作为辅助特征扩充使用。第①种方式典型的工作如SENNA系统，基于词向量方法及多层一维卷积神经网络完成了词性标注、语块切分、命名实体识别等系列任务；类似的工作还有如Socher基于递归神经网络实现情感分析、句法分析等多项任务。第②种方式典型的工作如Turian等将词向量作为额外的特征加入到现有最优系统中，进一步提高了命名实体识别和短语识别的效果。

在分词和词性标注方面，结合深度学习开展相关研究最有影响力的是 Collobert等的研究工作，他们基于词向量方法及多层一维卷积神经网络，实现一个同时处理词性标注、语块切分、命名实体识别、语义角色标注四个典型自然语言处理任务的SENNA系统，取得与当时业界最好性能相当接近的效果。在中文分词和词性标注方面，Zheng等分析了利用深度学习来进行上述两项工作的可行性，主要集中在特征发现、数据表示和模型算法三方面取得了较大的进展。

在句法分析方面，Henderson提出一种Left-corner句法分析，首次将神经网络成功应用于大规模句法分析中；随后，Henderson又基于同步网络训练句法分析器；Titov等使用SVM改进一种生成型法分析器用于不同领域的句法分析任务；他们还在特征学习基础上寻求进一步改进系统的方法。Collobert基于深度循环图转移网络提出一种应用于自然语言句法分析的快速判别算法。该方法使用较少的文本特征，所取得的性能指标与当时最好的判别式分析器和基准分析器相当，而在计算速度上具有较大优势。与此同时，Costa等也尝试采用递归神经网络模型，用于解决增量式句法分析器中侯选附加短语的排序问题。Menchetti等在使用Collins分析器生成侯选句法树的基础上，利用递归神经网络模型实现再排序。和他们的工作类似，Socher等提出了一种 CVG(Compositional vectorgrammar)模型用于句法结构预测，该模型将 PCFG(Probabilistic contextfreegrammars)与递归神经网络模型相结合，充分利用短语的语法和语义信息。Legrand等基于简单神经网络模型，提出一种自底向上的句法分析方法。其主要优势在于结构简单，计算开销少，分析速度快，且性能接近当前最好系统。

在语义学习方面，Huang等在Collobert和Weston的基础上，提出一种新的深度神经网络模型用于词义学习。该模型通过综合本地和全局文本上下文信息，学习能够更好表达词义的隐藏词；通过学习每个词的多义词表示来解释同名歧义；进一步，在基于多个词向量表示词的多义性基础上，通过对模型的改进，使得词向量包含更丰富的语义信息。该模型给句法树上的每个结点都分配一个向量和矩阵；向量获取元素的本体语义；矩阵捕获邻近单词和短语的变化信息。

虽然分词技术已经发展到了一个相当水平；但是现有技术，如 CN201810762395.7中，提出了一种电力信息运维知识模型构建方法，其采用长短时记忆神经网络LSTM模型进行训练，但LSTM模型运行比较复杂，另外其没有办法关注于对模型更为重要的东西，导致电力运维系统中的项目申报等仍然出现各部门人员语义表达不统一，不能对申报项目内容进行智能推荐或者智能提示等问题。

在文本相似度检测方面，近年来最重要的进展是Google公司推出的BERT 系统，可以大幅度提高句对之间相似度计算的效果。但是BERT系统在本发明的应用场景下有两个明显的不足。其一：BERT系统以字为单位构建向量，无法充分利用智能分词的结果；其二：BERT系统对于短句的匹配比较有效，但是对于项目申请这种篇幅较长，同时还夹杂有更多数值型(如公司产值、项目预算等)，标称型(如公司类型、公司所属行业等)等特征的应用场景，则没有办法直接处理。

发明内容

本发明的目的是提供一种基于智能分词与深度学习的运维项目管理方法，该可以优化项目申报过程、缩短项目申报周期，并且通过对管理创新，可降低申报人力成本，提高生产效率。

为解决上述技术问题，本发明提供一种基于智能分词与深度学习的运维项目管理方法，包括以下步骤：

S1：获取电力运维领域的专用词汇，根据电力运维领域的专用词汇构建电力运维领域的领域语料库；根据所述领域语料库并结合biLSTM-CRF模型构建适用于电力运维领域的分词器；

S2：利用所述分词器对项目申报书中的申报书文本进行智能分词，并根据领域语料库中的基因规则提取所述申报书文本的项目申报基因特征，然后根据经分词后的项目申报文本以及提取出的项目申报基因特征构建项目申报书空间向量；

S3：利用所述分词器对项目申报指南中的申报指南文本进行智能分词，并根据领域语料库中的基因规则提取所述申报指南文本的项目指南基因特征；然后根据经分词后的项目指南文本以及提取出的项目指南基因特征构建项目申报指南空间向量；

S4：采用注意力机制加强的卷积神经网络计算项目申报书空间向量和项目申报指南空间向量的相似度值；并对根据所述相似度值判断项目申报书是否通过自动评审。

进一步地，定义biLSTM-CRF模型的预测得分s(X,y)为)：

其中，A_yi,yi+1为从yi到yi+1的转移概率；P_i,yi为第i个位置输出为yi的概率，P_i,yi的计算公式如下：

其中，i,i+1为相邻的两个字符；Dict为领域语料库；f为相邻的字符i,i+1 在领域语料库中的频率的对数值；k为控制因子，控制领域语料库对最终结果的影响程度，通过交叉验证获取最佳值。

进一步地，所述项目申报书空间向量为多维度向量，所述项目申报书空间向量的维度包括申报书标题文本向量v_title、申报书摘要文本向量v_abstract、申报书章节目录标题向量v_subsection、申报书内容标题向量v_content、申报公司特征向量v_company、申报单位股权关系向量v_{comp_rel}和申报单位主要人物关系向量 v_{people_reltitle}；所述项目申报书空间向量V(doc)表示为：

进一步地，所述申报公司特征向量包括数值型信息和标称型信息，所述标称型信息通过ONE-HOT编码方式进行数值化。

进一步地，所述项目申报指南空间向量为多维度向量，所述项目申报指南空间向量的维度包括申报指南标题文本向量v_title、申报指南摘要文本向量 v_abstract、申报指南章节目录标题向量v_subsection和申报指南内容标题向量 v_content；所述项目申报指南空间向量V(guide)表示为：

进一步地，所述卷积神经网络包括注意力层、卷积层、池化层和输出层；所述注意力层的输入为项目申报书空间向量和项目申报指南空间向量，所述卷积层的输入层为注意力层，对注意力层的输出进行二维卷积，所述池化层为卷积层的池化，所述输出层采用softmax函数产生分类概率。

进一步地，所述注意力层的计算公式为：

其中，Q为项目申报指南空间向量V(guide)中的某一个分量；K为项目申报书空间向量V(doc)中的某一个分量；V为目标向量；

故所述注意力层的可表示为：

其中，

为张量拼接运算；i为Vguide中分量的序号；j为Vdoc_j中分量的序号。

进一步地，所述卷积层的计算公式为：

V_{conv_i}＝w_i*V_att+b_i (7)

其中，V_att为注意力层的输出；w和b为卷积滤波器的参数,滤波器的参数包括窗口大小，数量以及移动间隔；i为滤波器编号。

进一步地，所述池化层采用最大池化，池化层的计算公式为：

V_{pooling_i}＝max(V_{conv_i}) (8)

其中，i为滤波器编号。

进一步地，所述输出层采用sigmoid函数，输出层计算公式为：

本发明的有益效果为：通过根据领域语料库biLSTM-CRF模型对项目申报书中的申报书文本和申报指南文本进行智能分词，然后构建项目申报书空间向量和项目申报指南空间向量，并通过注意力机制加强的卷积神经网络计算项目申报书空间向量和项目申报指南空间向量的相似度值，最后通过相似度值判断项目申报书是否通过自动评审，可优化项目申报过程、缩短项目申报周期，同时还可降低申报人力成本，提高生产效率。并且本发明中的申报指南和申报书的空间向量融合了多个维度的特征，涵盖了文本，公司资产，公司类型等多个方面的特征，创新的神经网络结构可以自动发现申报指南与申报书中的重要关联部分，并将其输入到后续的卷积，池化层最终作为判断申报书是否合规的依据。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明一个实施例的流程图；

图2为本发明一个实施例的卷积神经网络结构图。

具体实施方式

如图1所示的基于智能分词与深度学习的运维项目管理方法，该方法包括以下步骤：

S2：利用所述分词器对项目申报书中的申报书文本进行智能分词，并根据领域语料库中的基因规则提取所述申报书文本的项目申报基因特征，然后根据经分词后的项目申报文本以及提取出的项目申报基因特征构建项目申报书空间向量；其中，公司基因是指能体现出公司创新水平，产品概要，股权关系等关键因素。基因规则是指利用领域专家知识对这些基因进行定义，然后进行自动抽取的方法。如：创新水平中，可以定义“专利数”，“近5年专利数”，“软著数”，“近五年软著数”，“是否双创企业”等基因规则；产品概要中，可以定义 “产品数”，“产品销量”，“产品销量领域排行”，“是否高新技术产品”，“产品细分领域”等基因规则；股权关系中，可以定义“持股人数”，“风投轮次”，“风投金额”等基因规则。

根据申请的一个实施例，现有分词算法主要使用CRF或者biLSTM-CRF，但由于可公开获取的中文语料资源中包含电力运维领域的语料较少，无法训练有效的电力运维领域的分词器。因此本申请对biLSTM-CRF模型进行改进，在测试阶段其CRF层计算序列概率的时候进行调整，训练阶段仍然由正常的 biLSTM-CRF在公开可获取的中文分词语料资源中完成。

具体来说，目前biLSTM-CRF模型预测过程中定义预测的得分s(X,y)为)：

其中，A_yi,yi+1为从yi到yi+1的转移概率；P_i,yi为第i个位置输出为yi的概率，在现有技术中，P_i,yi通过公开获取的语料通过模型计算得到，而本申请中采用领域语料库对预测过程的P_i,yi进行调整，P_i,yi的计算公式如下：

其中，i,i+1为相邻的两个字符；Dict为领域语料库；f为相邻的字符i,i+1 在领域语料库中的频率的对数值；k为控制因子，控制领域语料库对最终结果的影响程度，通过交叉验证获取最佳值。通过该优化模型在于可以在通用的中文分词语料资源上，利用领域语料库对P_i,yi进行调整，得到适用于电力运维领域的分词器。

根据申请的一个实施例，上述项目申报书空间向量为多维度向量，所述项目申报书空间向量的维度包括但不限于：申报书标题文本向量v_title、申报书摘要文本向量v_abstract、申报书章节目录标题向量v_subsection、申报书内容标题向量v_content、申报公司特征向量v_company、申报单位股权关系向量v_{comp_rel}和申报单位主要人物关系向量v_{people_reltitle}；所述项目申报书空间向量V(doc)表示为：

其中项目申报书文本内容的向量通过加权词向量得到，也可以通过词向量拼接得到。权值可以选择词频逆文档频，也可以选择分词后词性标注加权的词频逆文档频。词向量采用Glove算法。加权词向量可以节省一定的计算量，拼接方式的词向量可以使用注意力机制，提升匹配准确率。

根据本申请的一个实施例，上述申报公司特征向量包括数值型信息和标称型信息，所述标称型信息通过ONE-HOT编码方式进行数值化。其中，数值型信息包括但不限于公司资产、公司负债、公司股票价格等，标称型信息包括但不限于公司类型。

根据本申请的一个实施例，上述申报单位股权关系向量通过对公司股权关系图采用TransE算法进行图网络嵌入分析得到，将每个关联公司表示为TransE 算法中的向量，并进行加权求和。权值由控股关系和控股比例计算得到。

根据本申请的一个实施例，上述项目申报指南空间向量为多维度向量，所述项目申报指南空间向量的维度包括但不限于：申报指南标题文本向量v_title、申报指南摘要文本向量v_abstract、申报指南章节目录标题向量v_subsection和申报指南内容标题向量v_content；所述项目申报指南空间向量V(guide)表示为：

同理，其中项目申报指南文本内容的向量通过加权词向量得到，也可以通过词向量拼接得到。权值可以选择词频逆文档频，也可以选择分词后词性标注加权的词频逆文档频。词向量可以选择Word2Vec，Glove等词向量标识方法。

根据本申请的一个实施例，如图2所示，所述卷积神经网络包括注意力层、卷积层、池化层和输出层。其中，所述注意力层的输入为项目申报书空间向量和项目申报指南空间向量，注意力层每一个神经元方格的值代表输入的申报书空间向量对应分量和申报指南空间向量对应分量的注意力值，颜色越深代表关系越密切。所述卷积层的输入层为注意力层，对注意力层的输出进行二维卷积，卷积过滤器的大小以及数量根据情况调整。所述池化层为卷积层的池化，池化层可以采用最大池化，最小池化，平均池化等，所述输出层采用softmax函数产生分类概率，分别对应申报书通过自动评审和未通过自动评审。

根据本申请的一个实施例，上述注意力层的计算公式为：

其中，Q为项目申报指南空间向量V(guide)中的某一个分量；K为项目申报书空间向量V(doc)中的某一个分量；V为目标向量，在本发明中为对应的V(guide)和V(doc)的拼接；d为调节因子。

因此注意力层的还可表示为：

其中，

为张量拼接运算；i为,V_guide中分量的序号；j为V_{doc_j}中分量的序号。该注意力层可针对不同的分量进行注意力计算，而非针对不同的值间注意力计算，有利于不同分量之间进行注意力交互，同时可以减少注意力层的参数，避免过拟合。

根据本申请的一个实施例，上述卷积层的计算公式为：

V_{conv_i}＝w_i*V_att+b_i (7)

其中，V_att为注意力层的输出；w和b为卷积滤波器的参数，滤波器的参数包括窗口大小，数量以及移动间隔；i为滤波器编号。典型的参数取值为窗口大小取3，4，5，数量取20，移动间隔取1。在训练过程中，可根据LOSS的变化趋势选择不同的参数取值。

根据本申请的一个实施例，上述池化层采用最大池化，池化层的计算公式为：

V_{pooling_i}＝mia(V_{conv_i}) (8)

其中，i为滤波器编号。由于滤波器数量由滤波器参数决定，与输入文本长短无关，因此V_{pooling_i}长度固定。

根据本申请的一个实施例，所述输出层采用sigmoid函数，输出层计算公式为：

采用交叉熵作为LOSS函数，其公式为：

其中，y为样本的正确标签。

最后，根据卷积神经网络中进行计算得到的V_output预测为针对新的项目申报书是否合规合规预测的过程，若V_output>thd，表示申报书为正例，通过自动评审；否则为负例，未通过自动评审。其中，Thd为0-1之间的一个阈值，根据专业人员经验确定，经典设置为0.5。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于智能分词与深度学习的运维项目管理方法，其特征在于，包括以下步骤：

S2：利用所述分词器对项目申报书中的申报书文本进行智能分词，并根据领域语料库中的基因规则提取所述申报书文本的项目申报基因特征(补充本申请中所采用的具体提取方法)，然后根据经分词后的项目申报文本以及提取出的项目申报基因特征构建项目申报书空间向量；

S3：利用所述分词器对项目申报指南中的申报指南文本进行智能分词，并根据领域语料库中的基因规则提取所述申报指南文本的项目指南基因特征(补充本申请中所采用的具体提取方法)；然后根据经分词后的项目指南文本以及提取出的项目指南基因特征构建项目申报指南空间向量；

2.根据权利要求1所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，定义biLSTM-CRF模型的预测得分s(X,y)为)：

其中，i,i+1为相邻的两个字符；Dict为领域语料库；f为相邻的字符i,i+1在领域语料库中的频率的对数值；k为控制因子，控制领域语料库对最终结果的影响程度，通过交叉验证获取最佳值。

3.根据权利要求2所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述项目申报书空间向量为多维度向量，所述项目申报书空间向量的维度包括申报书标题文本向量v_title、申报书摘要文本向量v_abstract、申报书章节目录标题向量v_subsection、申报书内容标题向量v_content、申报公司特征向量v_company、申报单位股权关系向量v_{comp_rel}和申报单位主要人物关系向量v_{people_reltitle}；所述项目申报书空间向量V(doc)表示为：

4.根据权利要求3所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述申报公司特征向量包括数值型信息和标称型信息，所述标称型信息通过ONE-HOT编码方式进行数值化。

5.根据权利要求3所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述项目申报指南空间向量为多维度向量，所述项目申报指南空间向量的维度包括申报指南标题文本向量v_title、申报指南摘要文本向量v_abstract、申报指南章节目录标题向量v_subsection和申报指南内容标题向量v_content；所述项目申报指南空间向量V(guide)表示为：

6.根据权利要求1所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述卷积神经网络包括注意力层、卷积层、池化层和输出层；所述注意力层的输入为项目申报书空间向量和项目申报指南空间向量，所述卷积层的输入层为注意力层，对注意力层的输出进行二维卷积，所述池化层为卷积层的池化，所述输出层采用softmax函数产生分类概率。

7.根据权利要求6所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述注意力层的计算公式为：

故所述注意力层的可表示为：

其中，

为张量拼接运算；i为V_guide中分量的序号；j为V_{doc_j}中分量的序号。

8.根据权利要求7所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述卷积层的计算公式为：

V_{conv_i}＝w_i*V_att+b_i (7)

9.根据权利要求8所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述池化层采用最大池化，池化层的计算公式为：

V_{pooling_i}＝max(V_{conv_i}) (8)

其中，i为滤波器编号。

10.根据权利要求9所述的基于智能分词与深度学习的运维项目管理方法，其特征在于，所述输出层采用sigmoid函数，输出层计算公式为：