CN113569014B - 基于多粒度文本语义信息的运维项目管理方法 - Google Patents
基于多粒度文本语义信息的运维项目管理方法 Download PDFInfo
- Publication number
- CN113569014B CN113569014B CN202110919406.XA CN202110919406A CN113569014B CN 113569014 B CN113569014 B CN 113569014B CN 202110919406 A CN202110919406 A CN 202110919406A CN 113569014 B CN113569014 B CN 113569014B
- Authority
- CN
- China
- Prior art keywords
- information
- similarity
- abstract
- item
- maintenance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 65
- 238000007726 management method Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000009826 distribution Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 238000004904 shortening Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多粒度文本语义信息的运维项目管理方法,包括步骤:S1.构建多粒度文本语义匹配模型;S2.得到项目信息摘要;S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;S4.得到待测项目信息摘要;S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;S6.判断项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目;若否,则待测运维项目为正常项目。本发明能够对相似的运维项目进行筛选,从而避免相似项目的重复申报,缩短了项目申报周期,降低了申报人力成本。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于多粒度文本语义信息的运维项目管理方法。
背景技术
深度学习中,文本匹配研究主要目的是判断两段文本的相似度关系,所以很多任务在一定程度上都可以抽象成文本匹配的问题,例如:信息搜索、自动问答、机器翻译、对话系统、复述识别等等。
Huang等人提出的DSSM(Deep Structured Semantic Models)模型最早将神经网络应用到文本匹配任务当中。该模型首先利用深度神经网络把Query和Document的词袋模型生成的向量表示为低维度的语义向量,然后通过余弦公式来计算两个向量的相似度。由于词袋模型生成的向量在进行表示的时候会丢失来自文本的上下文结构信息,因此,Shen等人利用卷积神经网络代替DSSM模型当中的多层感知机得到CDSSM模型。它采用单词序列作为模型的输入,通过词的n-gram和卷积池化操作来捕获上下文关系。与DSSM相比,CDSSM的匹配精度得到了进一步的提高。为了能使模型记住长距离上的句子特征,Wan等人提出了一种基于双向长短时记忆网络(Bidirecti-onal Long Short-Term Memory,Bi-LSTM)的多语义模型MV_LSTM。Hu等人提出的ARC-II模型,首先对两段文本分别利用一维卷积来关注相邻的单词向量,然后将两个卷积后得到的张量进行结合,以便获得描述两个句子之间关联的抽象表示。最后使用多层感知机(MLP)将抽象化的表示转换为匹配分数输出,与之前的DSSM和CDSSM模型相比,ARC-II表现出了更好的结果。Pang等人提出了MatchPyramid模型,该模型直接对查询和文档的单词向量进行点积运算构建交互特征,再通过卷积池化进行特征提取,最后利用全连接网络得出匹配分数。Xiong等人提出的K-NRM模型对两段文本作词嵌入之后,通过计算两段文本的余弦相似度来得到相似性矩阵,然后利用径向基函数核(Radial Basis Function,RBF kernel)对得到的相似性矩阵进行池化,最后利用全连接层来得到最终的匹配分数。
上述模型可以大致分为两类:捕获局部的词语相似度信息以及捕获全局的语义信息。仅仅捕获词组相似度可能会局限于局部信息,模型会判断两个存在多个相同词组的不同语义句子的相似度过高,而捕获全局的语义信息又会受到网路表达能力和稀有词组的限制,使网络不能完全捕获到整体语句的信息。
发明内容
有鉴于此,本发明的目的是克服现有技术中的缺陷,提供基于多粒度文本语义信息的运维项目管理方法,能够对相似的运维项目进行筛选,从而避免相似项目的重复申报,优化了项目申报过程,缩短了项目申报周期,降低了申报人力成本,提高了生产效率。
本发明的基于多粒度文本语义信息的运维项目管理方法,包括如下步骤:
S1.构建多粒度文本语义匹配模型;
S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;
S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;
S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;
S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;
S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目。
进一步,对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。
进一步,所述步骤S3,具体包括:
S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;
S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;
S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;
S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值。
进一步,步骤S31中,所述字嵌入处理采用Bert字嵌入。
进一步,步骤S32,具体包括:
S321.对处理后的摘要数据进行字粒度下的相似度特征提取,得到字相似度特征张量;
S322.对处理后的摘要数据进行词粒度下的相似度特征提取,得到词相似度特征张量;
S323.对处理后的摘要数据进行句粒度下的相似度特征提取,得到句相似度特征张量。
进一步,所述步骤S321,具体包括:
计算处理后的摘要数据的相似度,得到字相似度矩阵;
提取字相似度矩阵中的相似度信息,得到字相似度特征张量。
进一步,所述步骤S322,具体包括:
分别对处理后的项目信息摘要以及处理后的待匹配项目信息摘要进行特征组合,得到新的摘要数据;所述新的摘要数据包括新的项目信息摘要以及新的待匹配项目信息摘要;
计算新的摘要数据的相似度,得到词相似度矩阵;
提取词相似度矩阵中的相似度信息,得到词相似度特征张量。
进一步,所述步骤S323,具体包括:
分别提取处理后的项目信息摘要以及处理后的待匹配项目信息摘要中的全局语义信息,得到全局摘要数据;所述全局摘要数据包括全局项目信息摘要以及全局待匹配项目信息摘要;
对全局项目信息摘要以及全局待匹配项目信息摘要进行结合,并计算结合后的信息摘要的相似度特征,得到句相似度特征张量。
进一步,所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数;
所述交叉熵为:
其中,p(xi)表示真实数据xi的真实概率分布;q(xi)表示多粒度文本语义匹配模型预测的概率分布;H(p,q)为计算的真实概率分布p(xi)和预测的概率分布q(xi)之间的交叉熵。
本发明的有益效果是:本发明公开的一种基于多粒度文本语义信息的运维项目管理方法,通过摘要抽取,预训练模型词嵌入,多粒度语义匹配,匹配信息融合,计算相似度,从而对申报项目进行相似度计算,对相似的申报项目进行智能提示,从而避免相似项目重复申报的问题,优化了项目申报过程,缩短了项目申报周期,降低了申报人力成本,提高了生产效率。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的多粒度文本语义匹配模型的结构示意图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明,如图所示:
本发明的基于多粒度文本语义信息的运维项目管理方法,包括如下步骤:
S1.构建多粒度文本语义匹配模型;
S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;其中,所述运维项目信息为电力运维项目信息;通过国网公司内部多年的项目申报积累,获取电力运维领域的历年项目申报书,所述电力运维项目信息包括项目申报书;所述项目申报书包括结构化的数值指标和非结构化的文字信息;利用Textrank算法进行摘要抽取,通过挑选审批通过的项目申报书,并对每个项目申报书进行摘要抽取,获取排名前l个句子作为原始文章的摘要句,所述Textrank算法采用现有技术,在此不再赘述;
S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;其中,所述待匹配项目信息摘要为数据库中的项目申报书摘要;用同一个项目生成的多个摘要作为正例,不同申报项目生成的文本摘要作为负例,用这些数据进行相似申报文档的匹配训练;所述目标值可根据模型训练时的实际工况进行设置;
S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;其中,待测运维项目信息为待测电力运维项目信息;采集待测运维项目信息时,同样要进行清洗处理;所述摘要抽取与步骤S2中的摘要抽取原理相同,在此不再赘述;
S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;
S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目,表示通过判断验证。其中,根据经验,所述阈值可以设置为0.5,后期可以根据实际情况进行修改;判断为相似项目,表示待测运维项目与数据库中已有的项目类似,此时就可以向工作人员发出提醒,进而实现公司运维服务的智能化管理。
本发明旨在利用深度学习技术,对运维项目申报过程中的填报、修改、导出等各阶段信息进行文本匹配,自动识别重复的申报项目,实现公司运维服务的智能化管理,重点加强在项目计划端管控力度,实现项目立项有据可依,降低项目申报耗费成本,节省人力物力。
本实施例中,对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。
本实施例中,所述步骤S3,具体包括:
S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;
S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;
S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;其中,所述结合采用现有技术,所述加权采用Attention机制进行加权处理,所述Attention机制可以在训练中对重要的信息赋予更大的权重,对不重要的信息可以赋予更小的权重来限制信息的通过,使得神经网络可以在预测的时候自动选择重要的信息进行参考利用,作出更精确的决策。
S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值。其中,通过将加权后的相似度特征张量输入多层感知机,得到最终的匹配得分,并将所述匹配得分作为项目信息相似度;所述项目信息相似度可以用来判断项目信息摘要以及待匹配项目信息摘要是否相似。
本实施例中,步骤S31中,所述字嵌入处理采用Bert字嵌入。其中,Bert模型使用大型句子语料库进行训练,采用掩码的方式,让模型预测那些被掩码的单词,随着模型的预测训练,能够生成一个强大的单词内部表示,即字嵌入;所述Bert字嵌入不用对原始的中文数据集进行分词处理,这样就大大降低了分词时所带来的误差,特别是在电力运维领域,通用的分词工具很难对一些专有名词进行正确的划分,这样就会加大后续任务的难度。一般地,项目申报书中包含很多国网内部的专有名词,利用普通的分词技术可能会给后期的处理增加负担,所以采用Bert字嵌入的方式对摘要文本进行字嵌入处理。
本实施例中,步骤S32,具体包括:
S321.对处理后的摘要数据进行字粒度下的相似度特征提取,得到字相似度特征张量;
S322.对处理后的摘要数据进行词粒度下的相似度特征提取,得到词相似度特征张量;
S323.对处理后的摘要数据进行句粒度下的相似度特征提取,得到句相似度特征张量。
神经网络在捕获全局语义的时候存在一定的缺陷,特别是摘要文本的内容比较精炼,不利于神经网络对整体语义的学习,而且考虑到一些领域专有的字和词对原始文本的相似度计算会有很大帮助,所以本发明采用多粒度的相似度计算的方式,即分别从字、词、句的不同维度计算项目申报书摘要的相似度信息。
本实施例中,所述步骤S321,具体包括:
利用余弦相似度计算处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中每个字之间相似度信息,得到相似矩阵Matrix_1;
然后利用二维卷积神经网络提取相似矩阵Matrix_1中重要的相似度信息(此处二维卷积的窗口大小设置为3×3),得到最终的字相似度特征张量Z1。
公式表示如下:
Matrix_1=cosine(Q,D)
Z1=Conv2(Matrix_1);
本实施例中,所述步骤S322,具体包括:
利用一维卷积神经网络(此处一位卷积神经网络设置的窗口大小为3),将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中当前字与其前后的字进行特征组合,得到新的项目信息摘要Q_new和新的待匹配项目信息摘要D_new;
然后利用余弦相似度计算Q_new和D_new的相似度信息,得到相似度矩阵Matrix_2;
然后利用二维卷积神经网络进行相似度特征抽取,得到最终的词相似度特征张量Z2。
公式表示如下:
Q_new=Conv1(Q)
D_new=Conv1(D)
Matrix_2=cosine(Q_new,D_new);
Z2=Conv2(Matrix_2)
本实施例中,所述步骤S323,具体包括:
将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D分别输入双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-Lstm)来捕获句子的全局意义信息,得到全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all;
然后将全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all进行结合,并将结合后的信息摘要Q_D输入多层感知机来计算相似度特征,得到最终的句相似度特征张量Z3。
公式表示如下:
Q_all=Bi-Lstm(Q)
D_all=Bi-Lstm(D)
Q_D=concat(Q_all,D_all);
Z3=MLP(Q_D)
本实施例中,本发明的多粒度文本语义匹配模型的训练与普通神经网络训练相同,本发明的匹配模型可采用各种编程语言实现,并可选择利用CPU或GPU计算进行训练,所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数;
所述交叉熵为:
其中,p(xi)表示真实数据xi的真实概率分布,所述真实数据xi为项目信息摘要,i为真实数据的编号,n为真实数据的总数;q(xi)表示非真实概率分布,本实施例中,q(xi)表示多粒度文本语义匹配模型预测的概率分布;H(p,q)为计算的真实概率分布p(xi)和预测的概率分布q(xi)之间的交叉熵。交叉熵(Cross Entropy),表示两个概率分布之间的距离。交叉熵越大,两个概率分布距离越远,两个概率分布越相异,也就是表示模型预测数据的概率分布与真实数据的概率分布相差越大;交叉熵越小,两个概率分布距离越近,两个概率分布越相似,也就是表示模型预测数据的概率分布与真实数据的概率分布相差越小。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于多粒度文本语义信息的运维项目管理方法,其特征在于:包括如下步骤:
S1.构建多粒度文本语义匹配模型;
S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;
S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;
所述步骤S3,具体包括:
S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;
S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;
步骤S32,具体包括:
利用余弦相似度计算处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中每个字之间相似度信息,得到相似矩阵Matrix_1;
然后利用二维卷积神经网络提取相似矩阵Matrix_1中的相似度信息,得到最终的字相似度特征张量Z1;
利用一维卷积神经网络将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D中当前字与其前后的字进行特征组合,得到新的项目信息摘要Q_new和新的待匹配项目信息摘要D_new;
然后利用余弦相似度计算Q_new和D_new的相似度信息,得到相似度矩阵Matrix_2;
然后利用二维卷积神经网络进行相似度特征抽取,得到最终的词相似度特征张量Z2;
将处理后的项目信息摘要Q和处理后的待匹配项目信息摘要D分别输入双向长短时记忆网络来捕获句子的全局意义信息,得到全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all;
然后将全局项目信息摘要Q_all以及全局待匹配项目信息摘要D_all进行结合,并将结合后的信息摘要Q_D输入多层感知机来计算相似度特征,得到最终的句相似度特征张量Z3;
S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;
S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值;其中,通过将加权后的相似度特征张量输入多层感知机,得到最终的匹配得分,并将所述匹配得分作为项目信息相似度;
S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;
S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;
S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目。
2.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。
3.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:步骤S31中,所述字嵌入处理采用Bert字嵌入。
4.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数;
所述交叉熵为:
其中,p(xi)表示真实数据xi的真实概率分布;q(xi)表示多粒度文本语义匹配模型预测的概率分布;H(p,q)为计算的真实概率分布p(xi)和预测的概率分布q(xi)之间的交叉熵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110919406.XA CN113569014B (zh) | 2021-08-11 | 2021-08-11 | 基于多粒度文本语义信息的运维项目管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110919406.XA CN113569014B (zh) | 2021-08-11 | 2021-08-11 | 基于多粒度文本语义信息的运维项目管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569014A CN113569014A (zh) | 2021-10-29 |
CN113569014B true CN113569014B (zh) | 2024-03-19 |
Family
ID=78171352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110919406.XA Active CN113569014B (zh) | 2021-08-11 | 2021-08-11 | 基于多粒度文本语义信息的运维项目管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569014B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631858A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种科技项目相似度计算方法 |
CN106528581A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 文本检测方法及装置 |
CN111310438A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN112052622A (zh) * | 2020-08-11 | 2020-12-08 | 国网河北省电力有限公司 | 一种云平台下深度多视图语义文档表示的缺陷处置方法 |
CN112131348A (zh) * | 2020-09-29 | 2020-12-25 | 四川财经职业学院 | 基于文本和图像相似度防止项目重复申报的方法 |
CN112434514A (zh) * | 2020-11-25 | 2021-03-02 | 重庆邮电大学 | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 |
CN113065358A (zh) * | 2021-04-07 | 2021-07-02 | 齐鲁工业大学 | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 |
-
2021
- 2021-08-11 CN CN202110919406.XA patent/CN113569014B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631858A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种科技项目相似度计算方法 |
CN106528581A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 文本检测方法及装置 |
CN111310438A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN112052622A (zh) * | 2020-08-11 | 2020-12-08 | 国网河北省电力有限公司 | 一种云平台下深度多视图语义文档表示的缺陷处置方法 |
CN112131348A (zh) * | 2020-09-29 | 2020-12-25 | 四川财经职业学院 | 基于文本和图像相似度防止项目重复申报的方法 |
CN112434514A (zh) * | 2020-11-25 | 2021-03-02 | 重庆邮电大学 | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 |
CN113065358A (zh) * | 2021-04-07 | 2021-07-02 | 齐鲁工业大学 | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113569014A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110598005A (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN112148832B (zh) | 一种基于标签感知的双重自注意力网络的事件检测方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113590827B (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN115935959A (zh) | 一种低资源黏着语序列标注的方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN117271701A (zh) | 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN112989803A (zh) | 一种基于主题向量学习的实体链接模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |