CN110852089B - 基于智能分词与深度学习的运维项目管理方法 - Google Patents

基于智能分词与深度学习的运维项目管理方法 Download PDF

Info

Publication number
CN110852089B
CN110852089B CN201911025651.5A CN201911025651A CN110852089B CN 110852089 B CN110852089 B CN 110852089B CN 201911025651 A CN201911025651 A CN 201911025651A CN 110852089 B CN110852089 B CN 110852089B
Authority
CN
China
Prior art keywords
declaration
project
vector
guide
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911025651.5A
Other languages
English (en)
Other versions
CN110852089A (zh
Inventor
王文娟
戴诚
卓灵
王吉哲
龚黎慧倩
彭云竹
赵中璇
陈聿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911025651.5A priority Critical patent/CN110852089B/zh
Publication of CN110852089A publication Critical patent/CN110852089A/zh
Application granted granted Critical
Publication of CN110852089B publication Critical patent/CN110852089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于智能分词与深度学习的运维项目管理方法,该方法通过根据领域语料库biLSTM‑CRF模型对项目申报书中的申报书文本和申报指南文本进行智能分词,然后构建项目申报书空间向量和项目申报指南空间向量,并通过注意力机制加强的卷积神经网络计算项目申报书空间向量和项目申报指南空间向量的相似度值,最后通过相似度值判断项目申报书是否通过自动评审,可优化项目申报过程、缩短项目申报周期,同时还可降低申报人力成本,提高生产效率。

Description

基于智能分词与深度学习的运维项目管理方法
技术领域
本发明涉及一种基于智能分词与深度学习的运维项目管理方法。
背景技术
在2006年Hinton等提出深度学习以后,人工神经网络在自然语言处理领 域开始逐渐受到重视,当前结合深度学习模型开展自然语言处理相关应用已经 取得一定成果。
语言模型是最早采用神经网络开展研究的自然语言处理问题。在2003年, Bengio等提出词向量(Word embedding)方法,可将词映射转换到一个独立的向 量空间;进一步结合非线性神经网络提出N-Gram模型;受此启发,Collobert 等基于词向量方法及多层一维卷积神经网络(Convolutional neural network, CNN),实现了一个同时处理词性标注、语块切分、命名实体识别、语义角色注 四个典型自然语言处理任务的SENNA(Semanticextraction usinga neural network architecture)系统,取得了与当时业界最好性能相当接近的效果。类似的模型也 被Schwenk等用在统计机器翻译任务上,其性能采用BLEU(Bilingual evaluation understudy)评分机制评判,提高了将近2个百分点。递归自动编码器(Recursive auto-encoders)模型在句段检测(Sentence paraphrase detection)任务中大大提高 了F1值。此外,基于深度模型的特征学习还在词义消歧、情感分析等自然语言处理任务中均超越了当时最优系统,取得不俗表现。
事实上,面向自然语言处理的深度学习研究,主要考虑两个普适问题:① 应用领域的原始特征表示;②选择合适的深度学习算法。前者是数据的表示问 题,后者代表深度学习结构问题,即深度学习模型。对于问题①,典型的有基 于词向量空间、词袋模型(Bag-of-words,BOW)、向量空间模型(Vector space model,VSM)等的表示方式;对于问题②,目前普遍认可的是,需要根据自然 语言的特点,来选择合适的深度学习模型。人类自然语言具有递归特性。比如, 自然语言中的句子,事实上是由词、短语递归组合而成。因此,递归特性是自 然语言的重要特征。考虑自然语言递归特性的深度学习模型有循环神经网络(Recurrentneural network,RNN)、递归神经网络、卷积神经网络及其系列改进 模型。
基于上述两个问题的讨论,相应地,在自然语言处理中深度学习的方式主 要有两类:①在深度学习模型中,直接使用原始特征,构建一类端到端 (End-to-end)系统,完成处理任务;②在现有模型中,将训练后的原始特征作为 辅助特征扩充使用。第①种方式典型的工作如SENNA系统,基于词向量方法 及多层一维卷积神经网络完成了词性标注、语块切分、命名实体识别等系列任 务;类似的工作还有如Socher基于递归神经网络实现情感分析、句法分析等多 项任务。第②种方式典型的工作如Turian等将词向量作为额外的特征加入到现 有最优系统中,进一步提高了命名实体识别和短语识别的效果。
在分词和词性标注方面,结合深度学习开展相关研究最有影响力的是 Collobert等的研究工作,他们基于词向量方法及多层一维卷积神经网络,实现 一个同时处理词性标注、语块切分、命名实体识别、语义角色标注四个典型自 然语言处理任务的SENNA系统,取得与当时业界最好性能相当接近的效果。 在中文分词和词性标注方面,Zheng等分析了利用深度学习来进行上述两项工 作的可行性,主要集中在特征发现、数据表示和模型算法三方面取得了较大的 进展。
在句法分析方面,Henderson提出一种Left-corner句法分析,首次将神经 网络成功应用于大规模句法分析中;随后,Henderson又基于同步网络训练句法 分析器;Titov等使用SVM改进一种生成型法分析器用于不同领域的句法分析 任务;他们还在特征学习基础上寻求进一步改进系统的方法。Collobert基于深 度循环图转移网络提出一种应用于自然语言句法分析的快速判别算法。该方法 使用较少的文本特征,所取得的性能指标与当时最好的判别式分析器和基准分 析器相当,而在计算速度上具有较大优势。与此同时,Costa等也尝试采用递归 神经网络模型,用于解决增量式句法分析器中侯选附加短语的排序问题。Menchetti等在使用Collins分析器生成侯选句法树的基础上,利用递归神经网 络模型实现再排序。和他们的工作类似,Socher等提出了一种 CVG(Compositional vectorgrammar)模型用于句法结构预测,该模型将 PCFG(Probabilistic contextfreegrammars)与递归神经网络模型相结合,充分利用 短语的语法和语义信息。Legrand等基于简单神经网络模型,提出一种自底向 上的句法分析方法。其主要优势在于结构简单,计算开销少,分析速度快,且 性能接近当前最好系统。
在语义学习方面,Huang等在Collobert和Weston的基础上,提出一种新 的深度神经网络模型用于词义学习。该模型通过综合本地和全局文本上下文信 息,学习能够更好表达词义的隐藏词;通过学习每个词的多义词表示来解释同 名歧义;进一步,在基于多个词向量表示词的多义性基础上,通过对模型的改 进,使得词向量包含更丰富的语义信息。该模型给句法树上的每个结点都分配 一个向量和矩阵;向量获取元素的本体语义;矩阵捕获邻近单词和短语的变化 信息。
虽然分词技术已经发展到了一个相当水平;但是现有技术,如 CN201810762395.7中,提出了一种电力信息运维知识模型构建方法,其采用长 短时记忆神经网络LSTM模型进行训练,但LSTM模型运行比较复杂,另外其 没有办法关注于对模型更为重要的东西,导致电力运维系统中的项目申报等仍 然出现各部门人员语义表达不统一,不能对申报项目内容进行智能推荐或者智 能提示等问题。
在文本相似度检测方面,近年来最重要的进展是Google公司推出的BERT 系统,可以大幅度提高句对之间相似度计算的效果。但是BERT系统在本发明 的应用场景下有两个明显的不足。其一:BERT系统以字为单位构建向量,无 法充分利用智能分词的结果;其二:BERT系统对于短句的匹配比较有效,但 是对于项目申请这种篇幅较长,同时还夹杂有更多数值型(如公司产值、项目 预算等),标称型(如公司类型、公司所属行业等)等特征的应用场景,则没有 办法直接处理。
发明内容
本发明的目的是提供一种基于智能分词与深度学习的运维项目管理方法, 该可以优化项目申报过程、缩短项目申报周期,并且通过对管理创新,可降低 申报人力成本,提高生产效率。
为解决上述技术问题,本发明提供一种基于智能分词与深度学习的运维项 目管理方法,包括以下步骤:
S1:获取电力运维领域的专用词汇,根据电力运维领域的专用词汇构建电 力运维领域的领域语料库;根据所述领域语料库并结合biLSTM-CRF模型构建 适用于电力运维领域的分词器;
S2:利用所述分词器对项目申报书中的申报书文本进行智能分词,并根据 领域语料库中的基因规则提取所述申报书文本的项目申报基因特征,然后根据 经分词后的项目申报文本以及提取出的项目申报基因特征构建项目申报书空间 向量;
S3:利用所述分词器对项目申报指南中的申报指南文本进行智能分词,并 根据领域语料库中的基因规则提取所述申报指南文本的项目指南基因特征;然 后根据经分词后的项目指南文本以及提取出的项目指南基因特征构建项目申报 指南空间向量;
S4:采用注意力机制加强的卷积神经网络计算项目申报书空间向量和项目 申报指南空间向量的相似度值;并对根据所述相似度值判断项目申报书是否通 过自动评审。
进一步地,定义biLSTM-CRF模型的预测得分s(X,y)为):
Figure BDA0002248549370000051
其中,Ayi,yi+1为从yi到yi+1的转移概率;Pi,yi为第i个位置输出为yi的概 率,Pi,yi的计算公式如下:
Figure BDA0002248549370000052
其中,i,i+1为相邻的两个字符;Dict为领域语料库;f为相邻的字符i,i+1 在领域语料库中的频率的对数值;k为控制因子,控制领域语料库对最终结果 的影响程度,通过交叉验证获取最佳值。
进一步地,所述项目申报书空间向量为多维度向量,所述项目申报书空间 向量的维度包括申报书标题文本向量vtitle、申报书摘要文本向量vabstract、申 报书章节目录标题向量vsubsection、申报书内容标题向量vcontent、申报公司特 征向量vcompany、申报单位股权关系向量vcomp_rel和申报单位主要人物关系向量 vpeople_reltitle;所述项目申报书空间向量V(doc)表示为:
Figure BDA0002248549370000053
进一步地,所述申报公司特征向量包括数值型信息和标称型信息,所述标 称型信息通过ONE-HOT编码方式进行数值化。
进一步地,所述项目申报指南空间向量为多维度向量,所述项目申报指南 空间向量的维度包括申报指南标题文本向量vtitle、申报指南摘要文本向量 vabstract、申报指南章节目录标题向量vsubsection和申报指南内容标题向量 vcontent;所述项目申报指南空间向量V(guide)表示为:
Figure BDA0002248549370000054
进一步地,所述卷积神经网络包括注意力层、卷积层、池化层和输出层; 所述注意力层的输入为项目申报书空间向量和项目申报指南空间向量,所述卷 积层的输入层为注意力层,对注意力层的输出进行二维卷积,所述池化层为卷 积层的池化,所述输出层采用softmax函数产生分类概率。
进一步地,所述注意力层的计算公式为:
Figure BDA0002248549370000061
其中,Q为项目申报指南空间向量V(guide)中的某一个分量;K为项目 申报书空间向量V(doc)中的某一个分量;V为目标向量;
故所述注意力层的可表示为:
Figure BDA0002248549370000062
其中,
Figure BDA0002248549370000063
为张量拼接运算;i为Vguide中分量的序号;j为Vdoc_j中分量的序 号。
进一步地,所述卷积层的计算公式为:
Vconv_i=wi*Vatt+bi (7)
其中,Vatt为注意力层的输出;w和b为卷积滤波器的参数,滤波器的参数 包括窗口大小,数量以及移动间隔;i为滤波器编号。
进一步地,所述池化层采用最大池化,池化层的计算公式为:
Vpooling_i=max(Vconv_i) (8)
其中,i为滤波器编号。
进一步地,所述输出层采用sigmoid函数,输出层计算公式为:
Figure BDA0002248549370000065
本发明的有益效果为:通过根据领域语料库biLSTM-CRF模型对项目申报 书中的申报书文本和申报指南文本进行智能分词,然后构建项目申报书空间向 量和项目申报指南空间向量,并通过注意力机制加强的卷积神经网络计算项目 申报书空间向量和项目申报指南空间向量的相似度值,最后通过相似度值判断 项目申报书是否通过自动评审,可优化项目申报过程、缩短项目申报周期,同 时还可降低申报人力成本,提高生产效率。并且本发明中的申报指南和申报书 的空间向量融合了多个维度的特征,涵盖了文本,公司资产,公司类型等多个 方面的特征,创新的神经网络结构可以自动发现申报指南与申报书中的重要关 联部分,并将其输入到后续的卷积,池化层最终作为判断申报书是否合规的依 据。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性 实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明一个实施例的流程图;
图2为本发明一个实施例的卷积神经网络结构图。
具体实施方式
如图1所示的基于智能分词与深度学习的运维项目管理方法,该方法包括 以下步骤:
S1:获取电力运维领域的专用词汇,根据电力运维领域的专用词汇构建电 力运维领域的领域语料库;根据所述领域语料库并结合biLSTM-CRF模型构建 适用于电力运维领域的分词器;
S2:利用所述分词器对项目申报书中的申报书文本进行智能分词,并根据 领域语料库中的基因规则提取所述申报书文本的项目申报基因特征,然后根据 经分词后的项目申报文本以及提取出的项目申报基因特征构建项目申报书空间 向量;其中,公司基因是指能体现出公司创新水平,产品概要,股权关系等关 键因素。基因规则是指利用领域专家知识对这些基因进行定义,然后进行自动 抽取的方法。如:创新水平中,可以定义“专利数”,“近5年专利数”,“软著 数”,“近五年软著数”,“是否双创企业”等基因规则;产品概要中,可以定义 “产品数”,“产品销量”,“产品销量领域排行”,“是否高新技术产品”,“产品 细分领域”等基因规则;股权关系中,可以定义“持股人数”,“风投轮次”,“风 投金额”等基因规则。
S3:利用所述分词器对项目申报指南中的申报指南文本进行智能分词,并 根据领域语料库中的基因规则提取所述申报指南文本的项目指南基因特征;然 后根据经分词后的项目指南文本以及提取出的项目指南基因特征构建项目申报 指南空间向量;
S4:采用注意力机制加强的卷积神经网络计算项目申报书空间向量和项目 申报指南空间向量的相似度值;并对根据所述相似度值判断项目申报书是否通 过自动评审。
根据申请的一个实施例,现有分词算法主要使用CRF或者biLSTM-CRF, 但由于可公开获取的中文语料资源中包含电力运维领域的语料较少,无法训练 有效的电力运维领域的分词器。因此本申请对biLSTM-CRF模型进行改进,在 测试阶段其CRF层计算序列概率的时候进行调整,训练阶段仍然由正常的 biLSTM-CRF在公开可获取的中文分词语料资源中完成。
具体来说,目前biLSTM-CRF模型预测过程中定义预测的得分s(X,y)为):
Figure BDA0002248549370000081
其中,Ayi,yi+1为从yi到yi+1的转移概率;Pi,yi为第i个位置输出为yi的概 率,在现有技术中,Pi,yi通过公开获取的语料通过模型计算得到,而本申请中 采用领域语料库对预测过程的Pi,yi进行调整,Pi,yi的计算公式如下:
Figure BDA0002248549370000091
其中,i,i+1为相邻的两个字符;Dict为领域语料库;f为相邻的字符i,i+1 在领域语料库中的频率的对数值;k为控制因子,控制领域语料库对最终结果 的影响程度,通过交叉验证获取最佳值。通过该优化模型在于可以在通用的中 文分词语料资源上,利用领域语料库对Pi,yi进行调整,得到适用于电力运维领 域的分词器。
根据申请的一个实施例,上述项目申报书空间向量为多维度向量,所述项 目申报书空间向量的维度包括但不限于:申报书标题文本向量vtitle、申报书摘 要文本向量vabstract、申报书章节目录标题向量vsubsection、申报书内容标题向 量vcontent、申报公司特征向量vcompany、申报单位股权关系向量vcomp_rel和申 报单位主要人物关系向量vpeople_reltitle;所述项目申报书空间向量V(doc)表示 为:
Figure BDA0002248549370000092
其中项目申报书文本内容的向量通过加权词向量得到,也可以通过词向量 拼接得到。权值可以选择词频逆文档频,也可以选择分词后词性标注加权的词 频逆文档频。词向量采用Glove算法。加权词向量可以节省一定的计算量,拼 接方式的词向量可以使用注意力机制,提升匹配准确率。
根据本申请的一个实施例,上述申报公司特征向量包括数值型信息和标称 型信息,所述标称型信息通过ONE-HOT编码方式进行数值化。其中,数值型 信息包括但不限于公司资产、公司负债、公司股票价格等,标称型信息包括但 不限于公司类型。
根据本申请的一个实施例,上述申报单位股权关系向量通过对公司股权关 系图采用TransE算法进行图网络嵌入分析得到,将每个关联公司表示为TransE 算法中的向量,并进行加权求和。权值由控股关系和控股比例计算得到。
根据本申请的一个实施例,上述项目申报指南空间向量为多维度向量,所 述项目申报指南空间向量的维度包括但不限于:申报指南标题文本向量vtitle、 申报指南摘要文本向量vabstract、申报指南章节目录标题向量vsubsection和申报 指南内容标题向量vcontent;所述项目申报指南空间向量V(guide)表示为:
Figure BDA0002248549370000101
同理,其中项目申报指南文本内容的向量通过加权词向量得到,也可以通 过词向量拼接得到。权值可以选择词频逆文档频,也可以选择分词后词性标注 加权的词频逆文档频。词向量可以选择Word2Vec,Glove等词向量标识方法。
根据本申请的一个实施例,如图2所示,所述卷积神经网络包括注意力层、 卷积层、池化层和输出层。其中,所述注意力层的输入为项目申报书空间向量 和项目申报指南空间向量,注意力层每一个神经元方格的值代表输入的申报书 空间向量对应分量和申报指南空间向量对应分量的注意力值,颜色越深代表关 系越密切。所述卷积层的输入层为注意力层,对注意力层的输出进行二维卷积, 卷积过滤器的大小以及数量根据情况调整。所述池化层为卷积层的池化,池化 层可以采用最大池化,最小池化,平均池化等,所述输出层采用softmax函数 产生分类概率,分别对应申报书通过自动评审和未通过自动评审。
根据本申请的一个实施例,上述注意力层的计算公式为:
Figure BDA0002248549370000102
其中,Q为项目申报指南空间向量V(guide)中的某一个分量;K为项目 申报书空间向量V(doc)中的某一个分量;V为目标向量,在本发明中为对应 的V(guide)和V(doc)的拼接;d为调节因子。
因此注意力层的还可表示为:
Figure BDA0002248549370000103
其中,
Figure BDA0002248549370000104
为张量拼接运算;i为,Vguide中分量的序号;j为Vdoc_j中分量的 序号。该注意力层可针对不同的分量进行注意力计算,而非针对不同的值间注 意力计算,有利于不同分量之间进行注意力交互,同时可以减少注意力层的参 数,避免过拟合。
根据本申请的一个实施例,上述卷积层的计算公式为:
Vconv_i=wi*Vatt+bi (7)
其中,Vatt为注意力层的输出;w和b为卷积滤波器的参数,滤波器的参 数包括窗口大小,数量以及移动间隔;i为滤波器编号。典型的参数取值为窗口 大小取3,4,5,数量取20,移动间隔取1。在训练过程中,可根据LOSS的 变化趋势选择不同的参数取值。
根据本申请的一个实施例,上述池化层采用最大池化,池化层的计算公式 为:
Vpooling_i=mia(Vconv_i) (8)
其中,i为滤波器编号。由于滤波器数量由滤波器参数决定,与输入文本长 短无关,因此Vpooling_i长度固定。
根据本申请的一个实施例,所述输出层采用sigmoid函数,输出层计算公 式为:
Figure BDA0002248549370000112
采用交叉熵作为LOSS函数,其公式为:
Figure RE-GDA0002361653210000112
其中,y为样本的正确标签。
最后,根据卷积神经网络中进行计算得到的Voutput预测为针对新的项目申 报书是否合规合规预测的过程,若Voutput>thd,表示申报书为正例,通过自动 评审;否则为负例,未通过自动评审。其中,Thd为0-1之间的一个阈值,根 据专业人员经验确定,经典设置为0.5。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管 参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解, 可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的 宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于智能分词与深度学习的运维项目管理方法,其特征在于,包括以下步骤:
S1:获取电力运维领域的专用词汇,根据电力运维领域的专用词汇构建电力运维领域的领域语料库;根据所述领域语料库并结合biLSTM-CRF模型构建适用于电力运维领域的分词器;
S2:利用所述分词器对项目申报书中的申报书文本进行智能分词,并根据领域语料库中的基因规则提取所述申报书文本的项目申报基因特征(补充本申请中所采用的具体提取方法),然后根据经分词后的项目申报文本以及提取出的项目申报基因特征构建项目申报书空间向量;
S3:利用所述分词器对项目申报指南中的申报指南文本进行智能分词,并根据领域语料库中的基因规则提取所述申报指南文本的项目指南基因特征(补充本申请中所采用的具体提取方法);然后根据经分词后的项目指南文本以及提取出的项目指南基因特征构建项目申报指南空间向量;
S4:采用注意力机制加强的卷积神经网络计算项目申报书空间向量和项目申报指南空间向量的相似度值;并对根据所述相似度值判断项目申报书是否通过自动评审。
2.根据权利要求1所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,定义biLSTM-CRF模型的预测得分s(X,y)为):
Figure FDA0002248549360000011
其中,Ayi,yi+1为从yi到yi+1的转移概率;Pi,yi为第i个位置输出为yi的概率,Pi,yi的计算公式如下:
Figure FDA0002248549360000012
其中,i,i+1为相邻的两个字符;Dict为领域语料库;f为相邻的字符i,i+1在领域语料库中的频率的对数值;k为控制因子,控制领域语料库对最终结果的影响程度,通过交叉验证获取最佳值。
3.根据权利要求2所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述项目申报书空间向量为多维度向量,所述项目申报书空间向量的维度包括申报书标题文本向量vtitle、申报书摘要文本向量vabstract、申报书章节目录标题向量vsubsection、申报书内容标题向量vcontent、申报公司特征向量vcompany、申报单位股权关系向量vcomp_rel和申报单位主要人物关系向量vpeople_reltitle;所述项目申报书空间向量V(doc)表示为:
Figure FDA0002248549360000021
4.根据权利要求3所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述申报公司特征向量包括数值型信息和标称型信息,所述标称型信息通过ONE-HOT编码方式进行数值化。
5.根据权利要求3所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述项目申报指南空间向量为多维度向量,所述项目申报指南空间向量的维度包括申报指南标题文本向量vtitle、申报指南摘要文本向量vabstract、申报指南章节目录标题向量vsubsection和申报指南内容标题向量vcontent;所述项目申报指南空间向量V(guide)表示为:
Figure FDA0002248549360000022
6.根据权利要求1所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述卷积神经网络包括注意力层、卷积层、池化层和输出层;所述注意力层的输入为项目申报书空间向量和项目申报指南空间向量,所述卷积层的输入层为注意力层,对注意力层的输出进行二维卷积,所述池化层为卷积层的池化,所述输出层采用softmax函数产生分类概率。
7.根据权利要求6所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述注意力层的计算公式为:
Figure FDA0002248549360000031
其中,Q为项目申报指南空间向量V(guide)中的某一个分量;K为项目申报书空间向量V(doc)中的某一个分量;V为目标向量;
故所述注意力层的可表示为:
Figure FDA0002248549360000032
其中,
Figure FDA0002248549360000033
为张量拼接运算;i为Vguide中分量的序号;j为Vdoc_j中分量的序号。
8.根据权利要求7所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述卷积层的计算公式为:
Vconv_i=wi*Vatt+bi (7)
其中,Vatt为注意力层的输出;w和b为卷积滤波器的参数,滤波器的参数包括窗口大小,数量以及移动间隔;i为滤波器编号。
9.根据权利要求8所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述池化层采用最大池化,池化层的计算公式为:
Vpooling_i=max(Vconv_i) (8)
其中,i为滤波器编号。
10.根据权利要求9所述的基于智能分词与深度学习的运维项目管理方法,其特征在于,所述输出层采用sigmoid函数,输出层计算公式为:
Figure FDA0002248549360000035
CN201911025651.5A 2019-10-25 2019-10-25 基于智能分词与深度学习的运维项目管理方法 Active CN110852089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911025651.5A CN110852089B (zh) 2019-10-25 2019-10-25 基于智能分词与深度学习的运维项目管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911025651.5A CN110852089B (zh) 2019-10-25 2019-10-25 基于智能分词与深度学习的运维项目管理方法

Publications (2)

Publication Number Publication Date
CN110852089A CN110852089A (zh) 2020-02-28
CN110852089B true CN110852089B (zh) 2023-01-20

Family

ID=69598206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911025651.5A Active CN110852089B (zh) 2019-10-25 2019-10-25 基于智能分词与深度学习的运维项目管理方法

Country Status (1)

Country Link
CN (1) CN110852089B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309871B (zh) * 2020-03-26 2024-01-30 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
CN112349168A (zh) * 2020-11-10 2021-02-09 国网天津静海供电有限公司 电力调控员沟通协调仿真培训系统及方法
CN113962565B (zh) * 2021-10-26 2024-05-21 广东省技术经济研究发展中心 一种基于大数据的项目评分方法、系统和可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122340B (zh) * 2017-03-30 2018-11-06 浙江省科技信息研究院 一种基于同义词分析的科技项目申报书的相似度检测方法
CN109165383B (zh) * 2018-08-09 2022-07-12 四川政资汇智能科技有限公司 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法

Also Published As

Publication number Publication date
CN110852089A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
Torfi et al. Natural language processing advancements by deep learning: A survey
CN108733792B (zh) 一种实体关系抽取方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
Gasmi et al. LSTM recurrent neural networks for cybersecurity named entity recognition
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
Shuang et al. AELA-DLSTMs: attention-enabled and location-aware double LSTMs for aspect-level sentiment classification
CN110765240A (zh) 多相关句子对的语义匹配评估方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113901191A (zh) 问答模型的训练方法及装置
CN113220865B (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
Liu et al. A parallel computing-based deep attention model for named entity recognition
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
CN113792144B (zh) 基于半监督的图卷积神经网络的文本分类方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant