CN113569014A - 基于多粒度文本语义信息的运维项目管理方法 - Google Patents

基于多粒度文本语义信息的运维项目管理方法 Download PDF

Info

Publication number
CN113569014A
CN113569014A CN202110919406.XA CN202110919406A CN113569014A CN 113569014 A CN113569014 A CN 113569014A CN 202110919406 A CN202110919406 A CN 202110919406A CN 113569014 A CN113569014 A CN 113569014A
Authority
CN
China
Prior art keywords
information
abstract
similarity
project
maintenance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110919406.XA
Other languages
English (en)
Other versions
CN113569014B (zh
Inventor
王文娟
吕乐宾
戴诚
赵伟
胥钟予
刘倩雯
胡洛娜
谭涵丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110919406.XA priority Critical patent/CN113569014B/zh
Publication of CN113569014A publication Critical patent/CN113569014A/zh
Application granted granted Critical
Publication of CN113569014B publication Critical patent/CN113569014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多粒度文本语义信息的运维项目管理方法,包括步骤:S1.构建多粒度文本语义匹配模型;S2.得到项目信息摘要;S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;S4.得到待测项目信息摘要;S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;S6.判断项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目;若否,则待测运维项目为正常项目。本发明能够对相似的运维项目进行筛选,从而避免相似项目的重复申报,缩短了项目申报周期,降低了申报人力成本。

Description

基于多粒度文本语义信息的运维项目管理方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于多粒度文本语义信息的运维项目管理方法。
背景技术
深度学习中,文本匹配研究主要目的是判断两段文本的相似度关系,所以很多任务在一定程度上都可以抽象成文本匹配的问题,例如:信息搜索、自动问答、机器翻译、对话系统、复述识别等等。
Huang等人提出的DSSM(Deep Structured Semantic Models)模型最早将神经网络应用到文本匹配任务当中。该模型首先利用深度神经网络把Query和Document的词袋模型生成的向量表示为低维度的语义向量,然后通过余弦公式来计算两个向量的相似度。由于词袋模型生成的向量在进行表示的时候会丢失来自文本的上下文结构信息,因此,Shen等人利用卷积神经网络代替DSSM模型当中的多层感知机得到CDSSM模型。它采用单词序列作为模型的输入,通过词的n-gram和卷积池化操作来捕获上下文关系。与DSSM相比,CDSSM的匹配精度得到了进一步的提高。为了能使模型记住长距离上的句子特征,Wan等人提出了一种基于双向长短时记忆网络(Bidirecti-onal Long Short-Term Memory,Bi-LSTM)的多语义模型MV_LSTM。Hu等人提出的ARC-II模型,首先对两段文本分别利用一维卷积来关注相邻的单词向量,然后将两个卷积后得到的张量进行结合,以便获得描述两个句子之间关联的抽象表示。最后使用多层感知机(MLP)将抽象化的表示转换为匹配分数输出,与之前的DSSM和CDSSM模型相比,ARC-II表现出了更好的结果。Pang等人提出了MatchPyramid模型,该模型直接对查询和文档的单词向量进行点积运算构建交互特征,再通过卷积池化进行特征提取,最后利用全连接网络得出匹配分数。Xiong等人提出的K-NRM模型对两段文本作词嵌入之后,通过计算两段文本的余弦相似度来得到相似性矩阵,然后利用径向基函数核(Radial Basis Function,RBF kernel)对得到的相似性矩阵进行池化,最后利用全连接层来得到最终的匹配分数。
上述模型可以大致分为两类:捕获局部的词语相似度信息以及捕获全局的语义信息。仅仅捕获词组相似度可能会局限于局部信息,模型会判断两个存在多个相同词组的不同语义句子的相似度过高,而捕获全局的语义信息又会受到网路表达能力和稀有词组的限制,使网络不能完全捕获到整体语句的信息。
发明内容
有鉴于此,本发明的目的是克服现有技术中的缺陷,提供基于多粒度文本语义信息的运维项目管理方法,能够对相似的运维项目进行筛选,从而避免相似项目的重复申报,优化了项目申报过程,缩短了项目申报周期,降低了申报人力成本,提高了生产效率。
本发明的基于多粒度文本语义信息的运维项目管理方法,包括如下步骤:
S1.构建多粒度文本语义匹配模型;
S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;
S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;
S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;
S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;
S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目。
进一步,对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。
进一步,所述步骤S3,具体包括:
S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;
S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;
S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;
S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值。
进一步,步骤S31中,所述字嵌入处理采用Bert字嵌入。
进一步,步骤S32,具体包括:
S321.对处理后的摘要数据进行字粒度下的相似度特征提取,得到字相似度特征张量;
S322.对处理后的摘要数据进行词粒度下的相似度特征提取,得到词相似度特征张量;
S323.对处理后的摘要数据进行句粒度下的相似度特征提取,得到句相似度特征张量。
进一步,所述步骤S321,具体包括:
计算处理后的摘要数据的相似度,得到字相似度矩阵;
提取字相似度矩阵中的相似度信息,得到字相似度特征张量。
进一步,所述步骤S322,具体包括:
分别对处理后的项目信息摘要以及处理后的待匹配项目信息摘要进行特征组合,得到新的摘要数据;所述新的摘要数据包括新的项目信息摘要以及新的待匹配项目信息摘要;
计算新的摘要数据的相似度,得到词相似度矩阵;
提取词相似度矩阵中的相似度信息,得到词相似度特征张量。
进一步,所述步骤S323,具体包括:
分别提取处理后的项目信息摘要以及处理后的待匹配项目信息摘要中的全局语义信息,得到全局摘要数据;所述全局摘要数据包括全局项目信息摘要以及全局待匹配项目信息摘要;
对全局项目信息摘要以及全局待匹配项目信息摘要进行结合,并计算结合后的信息摘要的相似度特征,得到句相似度特征张量。
进一步,所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数;
所述交叉熵为:
Figure BDA0003206828380000041
其中,p(xi)表示真实数据xi的真实概率分布;q(xi)表示多粒度文本语义匹配模型预测的概率分布;H(p,q)为计算的真实概率分布p(xi)和预测的概率分布q(xi)之间的交叉熵。
本发明的有益效果是:本发明公开的一种基于多粒度文本语义信息的运维项目管理方法,通过摘要抽取,预训练模型词嵌入,多粒度语义匹配,匹配信息融合,计算相似度,从而对申报项目进行相似度计算,对相似的申报项目进行智能提示,从而避免相似项目重复申报的问题,优化了项目申报过程,缩短了项目申报周期,降低了申报人力成本,提高了生产效率。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的多粒度文本语义匹配模型的结构示意图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明,如图所示:
本发明的基于多粒度文本语义信息的运维项目管理方法,包括如下步骤:
S1.构建多粒度文本语义匹配模型;
S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;其中,所述运维项目信息为电力运维项目信息;通过国网公司内部多年的项目申报积累,获取电力运维领域的历年项目申报书,所述电力运维项目信息包括项目申报书;所述项目申报书包括结构化的数值指标和非结构化的文字信息;利用Textrank算法进行摘要抽取,通过挑选审批通过的项目申报书,并对每个项目申报书进行摘要抽取,获取排名前l个句子作为原始文章的摘要句,所述Textrank算法采用现有技术,在此不再赘述;
S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;其中,所述待匹配项目信息摘要为数据库中的项目申报书摘要;用同一个项目生成的多个摘要作为正例,不同申报项目生成的文本摘要作为负例,用这些数据进行相似申报文档的匹配训练;所述目标值可根据模型训练时的实际工况进行设置;
S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;其中,待测运维项目信息为待测电力运维项目信息;采集待测运维项目信息时,同样要进行清洗处理;所述摘要抽取与步骤S2中的摘要抽取原理相同,在此不再赘述;
S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;
S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目,表示通过判断验证。其中,根据经验,所述阈值可以设置为0.5,后期可以根据实际情况进行修改;判断为相似项目,表示待测运维项目与数据库中已有的项目类似,此时就可以向工作人员发出提醒,进而实现公司运维服务的智能化管理。
本发明旨在利用深度学习技术,对运维项目申报过程中的填报、修改、导出等各阶段信息进行文本匹配,自动识别重复的申报项目,实现公司运维服务的智能化管理,重点加强在项目计划端管控力度,实现项目立项有据可依,降低项目申报耗费成本,节省人力物力。
本实施例中,对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。
本实施例中,所述步骤S3,具体包括:
S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;
S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;
S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;其中,所述结合采用现有技术,所述加权采用Attention机制进行加权处理,所述Attention机制可以在训练中对重要的信息赋予更大的权重,对不重要的信息可以赋予更小的权重来限制信息的通过,使得神经网络可以在预测的时候自动选择重要的信息进行参考利用,作出更精确的决策。
S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值。其中,通过将加权后的相似度特征张量输入多层感知机,得到最终的匹配得分,并将所述匹配得分作为项目信息相似度;所述项目信息相似度可以用来判断项目信息摘要以及待匹配项目信息摘要是否相似。
本实施例中,步骤S31中,所述字嵌入处理采用Bert字嵌入。其中,Bert模型使用大型句子语料库进行训练,采用掩码的方式,让模型预测那些被掩码的单词,随着模型的预测训练,能够生成一个强大的单词内部表示,即字嵌入;所述Bert字嵌入不用对原始的中文数据集进行分词处理,这样就大大降低了分词时所带来的误差,特别是在电力运维领域,通用的分词工具很难对一些专有名词进行正确的划分,这样就会加大后续任务的难度。一般地,项目申报书中包含很多国网内部的专有名词,利用普通的分词技术可能会给后期的处理增加负担,所以采用Bert字嵌入的方式对摘要文本进行字嵌入处理。
本实施例中,步骤S32,具体包括:
S321.对处理后的摘要数据进行字粒度下的相似度特征提取,得到字相似度特征张量;
S322.对处理后的摘要数据进行词粒度下的相似度特征提取,得到词相似度特征张量;
S323.对处理后的摘要数据进行句粒度下的相似度特征提取,得到句相似度特征张量。
神经网络在捕获全局语义的时候存在一定的缺陷,特别是摘要文本的内容比较精炼,不利于神经网络对整体语义的学习,而且考虑到一些领域专有的字和词对原始文本的相似度计算会有很大帮助,所以本发明采用多粒度的相似度计算的方式,即分别从字、词、句的不同维度计算项目申报书摘要的相似度信息。
本实施例中,所述步骤S321,具体包括:
利用余弦相似度计算处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中每个字之间相似度信息,得到相似矩阵Matrix_1;
然后利用二维卷积神经网络提取相似矩阵Matrix_1中重要的相似度信息(此处二维卷积的窗口大小设置为3×3),得到最终的字相似度特征张量Z1
公式表示如下:
Matrix_1=cosine(Q,D)
Z1=Conv2(Matrix_1);
本实施例中,所述步骤S322,具体包括:
利用一维卷积神经网络(此处一位卷积神经网络设置的窗口大小为3),将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中当前字与其前后的字进行特征组合,得到新的项目信息摘要Q_new和新的待匹配项目信息摘要D_new;
然后利用余弦相似度计算Q_new和D_new的相似度信息,得到相似度矩阵Matrix_2;
然后利用二维卷积神经网络进行相似度特征抽取,得到最终的词相似度特征张量Z2
公式表示如下:
Q_new=Conv1(Q)
D_new=Conv1(D)
Matrix_2=cosine(Q_new,D_new);
Z2=Conv2(Matrix_2)
本实施例中,所述步骤S323,具体包括:
将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D分别输入双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-Lstm)来捕获句子的全局意义信息,得到全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all;
然后将全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all进行结合,并将结合后的信息摘要Q_D输入多层感知机来计算相似度特征,得到最终的句相似度特征张量Z3
公式表示如下:
Q_all=Bi-Lstm(Q)
D_all=Bi-Lstm(D)
Q_D=concat(Q_all,D_all);
Z3=MLP(Q_D)
本实施例中,本发明的多粒度文本语义匹配模型的训练与普通神经网络训练相同,本发明的匹配模型可采用各种编程语言实现,并可选择利用CPU或GPU计算进行训练,所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数;
所述交叉熵为:
Figure BDA0003206828380000081
其中,p(xi)表示真实数据xi的真实概率分布,所述真实数据xi为项目信息摘要,i为真实数据的编号,n为真实数据的总数;q(xi)表示非真实概率分布,本实施例中,q(xi)表示多粒度文本语义匹配模型预测的概率分布;H(p,q)为计算的真实概率分布p(xi)和预测的概率分布q(xi)之间的交叉熵。交叉熵(Cross Entropy),表示两个概率分布之间的距离。交叉熵越大,两个概率分布距离越远,两个概率分布越相异,也就是表示模型预测数据的概率分布与真实数据的概率分布相差越大;交叉熵越小,两个概率分布距离越近,两个概率分布越相似,也就是表示模型预测数据的概率分布与真实数据的概率分布相差越小。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于多粒度文本语义信息的运维项目管理方法,其特征在于:包括如下步骤:
S1.构建多粒度文本语义匹配模型;
S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;
S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;
S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;
S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;
S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目。
2.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。
3.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:所述步骤S3,具体包括:
S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;
S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;
S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;
S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值。
4.根据权利要求3所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:步骤S31中,所述字嵌入处理采用Bert字嵌入。
5.根据权利要求3所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:步骤S32,具体包括:
S321.对处理后的摘要数据进行字粒度下的相似度特征提取,得到字相似度特征张量;
S322.对处理后的摘要数据进行词粒度下的相似度特征提取,得到词相似度特征张量;
S323.对处理后的摘要数据进行句粒度下的相似度特征提取,得到句相似度特征张量。
6.根据权利要求5所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:所述步骤S321,具体包括:
计算处理后的摘要数据的相似度,得到字相似度矩阵;
提取字相似度矩阵中的相似度信息,得到字相似度特征张量。
7.根据权利要求5所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:所述步骤S322,具体包括:
分别对处理后的项目信息摘要以及处理后的待匹配项目信息摘要进行特征组合,得到新的摘要数据;所述新的摘要数据包括新的项目信息摘要以及新的待匹配项目信息摘要;
计算新的摘要数据的相似度,得到词相似度矩阵;
提取词相似度矩阵中的相似度信息,得到词相似度特征张量。
8.根据权利要求5所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:所述步骤S323,具体包括:
分别提取处理后的项目信息摘要以及处理后的待匹配项目信息摘要中的全局语义信息,得到全局摘要数据;所述全局摘要数据包括全局项目信息摘要以及全局待匹配项目信息摘要;
对全局项目信息摘要以及全局待匹配项目信息摘要进行结合,并计算结合后的信息摘要的相似度特征,得到句相似度特征张量。
9.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数;
所述交叉熵为:
Figure FDA0003206828370000031
其中,p(xi)表示真实数据xi的真实概率分布;q(xi)表示多粒度文本语义匹配模型预测的概率分布;H(p,q)为计算的真实概率分布p(xi)和预测的概率分布q(xi)之间的交叉熵。
CN202110919406.XA 2021-08-11 2021-08-11 基于多粒度文本语义信息的运维项目管理方法 Active CN113569014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110919406.XA CN113569014B (zh) 2021-08-11 2021-08-11 基于多粒度文本语义信息的运维项目管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110919406.XA CN113569014B (zh) 2021-08-11 2021-08-11 基于多粒度文本语义信息的运维项目管理方法

Publications (2)

Publication Number Publication Date
CN113569014A true CN113569014A (zh) 2021-10-29
CN113569014B CN113569014B (zh) 2024-03-19

Family

ID=78171352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110919406.XA Active CN113569014B (zh) 2021-08-11 2021-08-11 基于多粒度文本语义信息的运维项目管理方法

Country Status (1)

Country Link
CN (1) CN113569014B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN106528581A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 文本检测方法及装置
CN111310438A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112052622A (zh) * 2020-08-11 2020-12-08 国网河北省电力有限公司 一种云平台下深度多视图语义文档表示的缺陷处置方法
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN112434514A (zh) * 2020-11-25 2021-03-02 重庆邮电大学 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN113065358A (zh) * 2021-04-07 2021-07-02 齐鲁工业大学 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN106528581A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 文本检测方法及装置
CN111310438A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112052622A (zh) * 2020-08-11 2020-12-08 国网河北省电力有限公司 一种云平台下深度多视图语义文档表示的缺陷处置方法
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN112434514A (zh) * 2020-11-25 2021-03-02 重庆邮电大学 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN113065358A (zh) * 2021-04-07 2021-07-02 齐鲁工业大学 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法

Also Published As

Publication number Publication date
CN113569014B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN111738004B (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN112148832B (zh) 一种基于标签感知的双重自注意力网络的事件检测方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
WO2023241272A1 (zh) 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN111241303A (zh) 一种大规模非结构化文本数据的远程监督关系抽取方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN113590827A (zh) 一种基于多角度的科研项目文本分类装置和方法
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant