CN111930931B - 一种摘要评价方法及装置 - Google Patents
一种摘要评价方法及装置 Download PDFInfo
- Publication number
- CN111930931B CN111930931B CN202010697992.3A CN202010697992A CN111930931B CN 111930931 B CN111930931 B CN 111930931B CN 202010697992 A CN202010697992 A CN 202010697992A CN 111930931 B CN111930931 B CN 111930931B
- Authority
- CN
- China
- Prior art keywords
- score
- fusion
- information
- formula
- semantic similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 73
- 230000004927 fusion Effects 0.000 claims abstract description 124
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 28
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims abstract 14
- 239000011159 matrix material Substances 0.000 claims description 71
- 239000013598 vector Substances 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 238000007476 Maximum Likelihood Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种摘要评价方法及装置,方法包括:录入摘要信息和原文信息,将摘要信息和原文信息作为待评价语句信息;将所述待评价语句信息输入预先构建的语义相似模型中的语义相似度处理得到语义相似度得分;对所述待评价语句信息的评价得分处理得到ROUGE得分;根据语义相似度得分对ROUGE得分的最优融合分析得到最优融合组;对最优融合组的融合分数计算得到最优融合分数,并通过最优融合分数得到摘要评价分数。本发明实现了既计算了待评价语句的共现信息又计算了待评价语句的深层语义信息,提高了对摘要的客观评分能力,也避免评价分数受参考摘要主观性的影响。
Description
技术领域
本发明主要涉及语言处理技术领域,具体涉及一种摘要评价方法及装置。
背景技术
在自然语言处理中,文本摘要是该领域中的热点研究方向,文本摘要包括抽取式和生成式摘要,抽取式摘要通过抽取算法在原文中抽取重要的语句组成摘要,而生成式摘要则通过大量的预料来训练模型使得模型具有生成摘要的能力。
近年来摘要已经取得了不错的发展,但摘要的评价标准却发展缓慢,摘要的评价标准包括内部评价和外部评价,外部评价是利用提取的摘要参与一些任务例如文档检索等进而判断摘要的优劣;而内部评价是判断系统摘要与参考摘要之间的信息重合度判断摘要的质量。例如ROUGE评价和BLUE评价都是内部评价,这种评价方法的优点是稳定性和健壮性,但这种评价方法的缺点是未考虑到待评价语句的深层语义,当待评价句子之间的共现信息较少时而句子内部的深层语义相同时,这种评价方法不合理。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种摘要评价方法及装置。
本发明解决上述技术问题的技术方案如下:一种摘要评价方法,包括如下步骤:
录入摘要信息和原文信息,将所述摘要信息和原文信息作为待评价语句信息;
将所述待评价语句信息输入预先构建的语义相似模型中进行语义相似度处理,得到语义相似度得分;
对所述待评价语句信息进行评价得分处理,得到ROUGE得分;
根据所述语义相似度得分对所述ROUGE得分进行最优融合分析,得到最优融合组;
对所述最优融合组进行融合分数计算,得到最优融合分数,并通过所述最优融合分数得到摘要评价分数。
本发明解决上述技术问题的另一技术方案如下:一种摘要评价装置,包括:
语句信息获得模块,用于录入摘要信息和原文信息,将所述摘要信息和原文信息作为待评价语句信息;
语义相似处理模块,用于将所述待评价语句信息输入预先构建的语义相似模型中进行语义相似度处理,得到语义相似度得分;
ROUGE得分处理模块,用于对所述待评价语句信息进行评价得分处理,得到ROUGE得分;
最优融合分析模块,用于根据所述语义相似度得分对所述ROUGE得分进行最优融合分析,得到最优融合组;
摘要评价分数获得模块,用于对所述最优融合组进行融合分数计算,得到最优融合分数,并通过所述最优融合分数得到摘要评价分数。
本发明的有益效果是:通过将待评价语句信息输入预先构建的语义相似模型中的语义相似度处理得到语义相似度得分,并对待评价语句信息的评价得分处理得到ROUGE得分,根据语义相似度得分对ROUGE得分的最优融合分析得到最优融合组,对最优融合组的融合分数计算得到最优融合分数,并通过最优融合分数得到摘要评价分数,实现了既计算了待评价语句的共现信息又计算了待评价语句的深层语义信息,提高了对摘要的客观评分能力,也避免评价分数受参考摘要主观性的影响。
附图说明
图1为本发明一实施例提供的摘要评价方法的流程示意图;
图2为本发明一实施例提供的摘要评价装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明一实施例提供的摘要评价方法的流程示意图。
如图1所示,一种摘要评价方法,包括如下步骤:
录入摘要信息和原文信息,将所述摘要信息和原文信息作为待评价语句信息;
将所述待评价语句信息输入预先构建的语义相似模型中进行语义相似度处理,得到语义相似度得分;
对所述待评价语句信息进行评价得分处理,得到ROUGE得分;
根据所述语义相似度得分对所述ROUGE得分进行最优融合分析,得到最优融合组;
对所述最优融合组进行融合分数计算,得到最优融合分数,并通过所述最优融合分数得到摘要评价分数。
上述实施例中,将待评价语句信息输入预先构建的语义相似模型中的语义相似度处理得到语义相似度得分,并对待评价语句信息的评价得分处理得到ROUGE得分,根据语义相似度得分对ROUGE得分的最优融合分析得到最优融合组,对最优融合组的融合分数计算得到最优融合分数,并通过最优融合分数得到摘要评价分数,实现了既计算了待评价语句的共现信息又计算了待评价语句的深层语义信息,提高了对摘要的客观评分能力,也避免评价分数受参考摘要主观性的影响。
可选地,作为本发明的一个实施例,所述得到语义相似度得分的过程包括:
构建LSTM长短时记忆网络,并根据所述LSTM长短时记忆网络对所述待评价语句信息进行编码,得到编码信息;
对所述编码信息进行选择门挑选计算,得到关键信息向量;
将所述关键信息向量输入至所述语义相似模型的匹配层进行信息匹配处理,得到两个匹配向量;
将两个所述匹配向量一并输入至所述语义相似模型的融合层进行融合处理,得到融合向量;
将所述融合向量输入至所述语义相似模型的预测层进行预测处理,得到得到语义相似度得分。
应理解地,所述匹配层、所述融合层和所述预测层都为现有技术。
应理解地,将所述待评价语句信息在所述语义相似模型中进行编码,编码完成后求出所述待评价语句信息的隐藏层向量,即LSTM长短时记忆网络,再有选择门提取所述待评价语句信息的所述关键信息向量,再通过匹配层、融合层和预测层计算得到语义相似度得分。
具体地,所述LSTM长短时记忆网络的表达式为第三方程组,所述第三方程组为:
ft=σ(Wfwt+Ufht-1+bf),
it=σ(Wiwt+Uiht-1+bi),
ot=σ(Wowt+Uoht-1+bo),
ct=ft⊙ct-1+it⊙ct1,
ht=ottanh(ct),
其中,ft为遗忘门输出,it为输入门输出,ot为输出门输出,Wf为遗忘门权重矩阵,Wi为输入门权重矩阵,Wo为输出门权重矩阵,Wc为选择门权重矩阵,bf为遗忘门偏置向量,bi为输入门偏置向量,bo为输出门偏置向量,bc为选择门偏置向量,为新的记忆信息,ct为更新的网络单元的记忆内容,σ为sigmoid激活函数,⊙为元素乘积,ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息。
具体地,所述关键信息向量依次输入至所述语义相似模型的匹配层,其表达式为第四方程组,所述第四方程组为:
其中,W1、W2、W3、W4、W5和W6均为权重矩阵,fm(.)为余弦函数,为前向词嵌入向量,/>为反向词嵌入向量,/>为前向注意力权重,/>为反向注意力权重。
上述实施例中,根据所述LSTM长短时记忆网络对所述待评价语句信息的编码得到编码信息;对所述待评价语句编码信息的选择门挑选计算得到关键信息向量;将所述关键信息向量依次输入至所述语义相似模型的匹配层、融合层和预测层中得到语义相似度得分,实现了自动获得语义相似度得分,提高了对摘要的客观评分能力,避免了评价分数受参考摘要主观性的影响。
可选地,作为本发明的一个实施例,所述得到关键信息向量的过程包括:
通过第一方程组对所述编码信息进行选择门挑选计算,得到关键信息向量,所述第一方程组为:
s=hn,
sGatei=σ(Wshi+Uss+b),
其中,s为句向量,hn为隐藏层中第n个向量,n为隐藏层中向量数,hi为隐藏层中第i个向量,sGatei为选择系数,h'i为关键信息向量,Ws为权重矩阵,Us为偏置向量,b为任意一个句子上下文向量,σ为sigmoid激活函数,为元素之间的点乘。
上述实施例中,通过第一方程组对所述待评价语句编码信息的选择门挑选计算得到关键信息向量,提高了对摘要的客观评分能力,避免了评价分数受参考摘要主观性的影响。
可选地,作为本发明的一个实施例,所述得到ROUGE得分的过程包括:
利用ROUGE算法对所述待评价语句信息进行评价得分处理,得到ROUGE得分。
应理解地,所述ROUGE算法指的是ROUGE(Recall-Oriented Understudy forGisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,现被广泛应用于DUC(Document Understanding Conference)的摘要评测任务中;ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法;基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量,通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性,该方法现已成为摘要评价技术的通用标注之一;ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N=1、2、3、4,分别代表基于1元词到4元词的模型),ROUGE-L,ROUGE-S,ROUGE-W,ROUGE-SU等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的ROUGE方法。
上述实施例中,利用ROUGE算法对所述待评价语句信息的评价得分处理得到ROUGE得分,提高了对摘要的客观评分能力,避免了评价分数受参考摘要主观性的影响。
可选地,作为本发明的一个实施例,所述得到最优融合组的过程包括:
根据所述语义相似度得分对所述ROUGE得分进行置信距离计算,得到置信距离矩阵;
对所述置信距离矩阵进行关系矩阵计算,得到关系矩阵,所述关系矩阵包括多个1和多个0;
对所述多个1的数量进行统计,得到关系矩阵1的数量,根据统计出的所述关系矩阵1的数量得到关系矩阵第一数量;
对所述多个0的数量进行统计,得到关系矩阵0的数量,根据统计出的所述关系矩阵0的数量得到关系矩阵第二数量;
当所述关系矩阵第一数量大于等于所述关系矩阵第二数量时,则得到最优融合组。
应理解地,将所述ROUGE得分与所述语义相似度得分输入特征得分融合算法中计算得到所述置信距离矩阵和所述关系矩阵,并使用所述置信距离矩阵和所述关系矩阵寻找最优融合组。
上述实施例中,根据所述语义相似度得分对所述ROUGE得分的置信距离计算得到置信距离矩阵;对所述置信距离矩阵的关系矩阵计算得到关系矩阵,所述关系矩阵包括多个1和多个0;对所述多个1的数量的统计得到关系矩阵1的数量,根据统计出的所述关系矩阵1的数量得到关系矩阵第一数量;对所述多个0的数量的统计得到关系矩阵0的数量,根据统计出的所述关系矩阵0的数量得到关系矩阵第二数量;当所述关系矩阵第一数量大于等于所述关系矩阵第二数量时,则得到最优融合组,实现了既计算了待评价语句的共现信息又计算了待评价语句的深层语义信息,提高了对摘要的客观评分能力,也避免评价分数受参考摘要主观性的影响。
可选地,作为本发明的一个实施例,所述根据所述语义相似度得分对所述ROUGE得分进行置信距离计算,得到置信距离矩阵的过程包括:
通过第一式对所述语义相似度得分和所述ROUGE得分进行置信距离计算,得到置信距离矩阵,所述第一式为:
其中,
其中,D2为置信距离矩阵,xi为ROUGE得分,xj为语义相似度得分,σi为xi的标准差,σj为xj的标准差,dij和dji均为置信距离测度。
上述实施例中,通过第一式对所述语义相似度得分和所述ROUGE得分的置信距离计算得到置信距离矩阵,为之后的计算提供数据支撑,提高了对摘要的客观评分能力,也避免评价分数受参考摘要主观性的影响。
可选地,作为本发明的一个实施例,所述对所述置信距离矩阵进行关系矩阵计算,得到关系矩阵的过程包括:
通过第二式对所述置信距离矩阵进行关系矩阵计算,得到关系矩阵,所述第二式为:
其中,
其中,R2为关系矩阵,rij为关系系数,βij为界限值。
上述实施例中,通过第二式对所述置信距离矩阵的关系矩阵计算得到关系矩阵。
可选地,作为本发明的一个实施例,所述对所述最优融合组进行融合分数计算,得到最优融合分数的过程包括:
利用极大似然估计法对所述最优融合组进行融合分数计算,得到最优融合分数,具体为:
通过第二方程组对所述最优融合组进行融合分数计算,得到最优融合分数,所述第二方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过所述第一式得到条件概率,所述第一式为:
通过所述第二式、第三式和第四式得到极大似然估计对数,所述第二式为:
所述第三式为:
所述第四式为:
通过所述第五式得到极大似然估计导数,所述第五式为:
通过所述第六式得到最优融合分数,所述第六式为:
其中,为极大似然函数,/>为最优融合分数,xi为最优融合组,pi(xi|θ)为条件概率,σi为标准差,/>为条件概率的连乘,为最优融合数,θ为条件概率,/>为偏导数符号,xl为评价分数。
上述实施例中,利用极大似然估计法对所述最优融合组的融合分数计算得到最优融合分数,实现了既计算了待评价语句的共现信息又计算了待评价语句的深层语义信息,提高了对摘要的客观评分能力,也避免评价分数受参考摘要主观性的影响。
图2为本发明一实施例提供的摘要评价装置的模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种摘要评价装置,包括:
语句信息获得模块,用于录入摘要信息和原文信息,将所述摘要信息和原文信息作为待评价语句信息;
语义相似处理模块,用于将所述待评价语句信息输入预先构建的语义相似模型中进行语义相似度处理,得到语义相似度得分;
ROUGE得分处理模块,用于对所述待评价语句信息进行评价得分处理,得到ROUGE得分;
最优融合分析模块,用于根据所述语义相似度得分对所述ROUGE得分进行最优融合分析,得到最优融合组;
摘要评价分数获得模块,用于对所述最优融合组进行融合分数计算,得到最优融合分数,并通过所述最优融合分数得到摘要评价分数。
可选地,作为本发明的一个实施例,所述语义相似处理模块具体用于:
构建LSTM长短时记忆网络,并根据所述LSTM长短时记忆网络对所述待评价语句信息进行编码,得到编码信息;
对所述编码信息进行选择门挑选计算,得到关键信息向量;
将所述关键信息向量输入至所述语义相似模型的匹配层进行信息匹配处理,得到两个匹配向量;
将两个所述匹配向量一并输入至所述语义相似模型的融合层进行融合处理,得到融合向量;
将所述融合向量输入至所述语义相似模型的预测层进行预测处理,得到得到语义相似度得分。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。用于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种摘要评价方法,其特征在于,包括如下步骤:
录入摘要信息和原文信息,将所述摘要信息和原文信息作为待评价语句信息;
将所述待评价语句信息输入预先构建的语义相似模型中进行语义相似度处理,得到语义相似度得分;
对所述待评价语句信息进行评价得分处理,得到ROUGE得分;
根据所述语义相似度得分对所述ROUGE得分进行最优融合分析,得到最优融合组;
对所述最优融合组进行融合分数计算,得到最优融合分数,并通过所述最优融合分数得到摘要评价分数;
所述对所述最优融合组进行融合分数计算,得到最优融合分数的过程包括:
利用极大似然估计法对所述最优融合组进行融合分数计算,得到最优融合分数,具体为:
通过第二方程组对所述最优融合组进行融合分数计算,得到最优融合分数,所述第二方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过所述第一式得到条件概率,所述第一式为:
通过所述第二式、第三式和第四式得到极大似然估计对数,所述第二式为:
所述第三式为:
所述第四式为:
通过所述第五式得到极大似然估计导数,所述第五式为:
通过所述第六式得到最优融合分数,所述第六式为:
其中,为极大似然函数,/>为最优融合分数,xi为最优融合组,pi(xi|θ)为条件概率,σi为标准差,/>为条件概率的连乘,为最优融合数,θ为条件概率,/>为偏导数符号,xl为评价分数。
2.根据权利要求1所述的摘要评价方法,其特征在于,所述得到语义相似度得分的过程包括:
构建LSTM长短时记忆网络,并根据所述LSTM长短时记忆网络对所述待评价语句信息进行编码,得到编码信息;
对所述编码信息进行选择门挑选计算,得到关键信息向量;
将所述关键信息向量输入至所述语义相似模型的匹配层进行信息匹配处理,得到两个匹配向量;
将两个所述匹配向量一并输入至所述语义相似模型的融合层进行融合处理,得到融合向量;
将所述融合向量输入至所述语义相似模型的预测层进行预测处理,得到得到语义相似度得分。
3.根据权利要求2所述的摘要评价方法,其特征在于,所述得到关键信息向量的过程包括:
通过第一方程组对所述编码信息进行选择门挑选计算,得到关键信息向量,所述第一方程组为:
s=hn,
sGatei=σ(Wshi+Uss+b),
其中,s为句向量,hn为隐藏层中第n个向量,n为隐藏层中向量数,hi为隐藏层中第i个向量,sGatei为选择系数,h' i为关键信息向量,Ws为权重矩阵,Us为偏置向量,b为任意一个句子上下文向量,σ为sigmoid激活函数,为元素之间的点乘。
4.根据权利要求1所述的摘要评价方法,其特征在于,所述得到ROUGE得分的过程包括:
利用ROUGE算法对所述待评价语句信息进行评价得分处理,得到ROUGE得分。
5.根据权利要求4所述的摘要评价方法,其特征在于,所述得到最优融合组的过程包括:
根据所述语义相似度得分对所述ROUGE得分进行置信距离计算,得到置信距离矩阵;
对所述置信距离矩阵进行关系矩阵计算,得到关系矩阵,所述关系矩阵包括多个1和多个0;
对所述多个1的数量进行统计,得到关系矩阵1的数量,根据统计出的所述关系矩阵1的数量得到关系矩阵第一数量;
对所述多个0的数量进行统计,得到关系矩阵0的数量,根据统计出的所述关系矩阵0的数量得到关系矩阵第二数量;
当所述关系矩阵第一数量大于等于所述关系矩阵第二数量时,则得到最优融合组。
6.根据权利要求5所述的摘要评价方法,其特征在于,所述根据所述语义相似度得分对所述ROUGE得分进行置信距离计算,得到置信距离矩阵的过程包括:
通过第一式对所述语义相似度得分和所述ROUGE得分进行置信距离计算,得到置信距离矩阵,所述第一式为:
其中,
其中,D2为置信距离矩阵,xi为ROUGE得分,xj为语义相似度得分,σi为xi的标准差,σj为xj的标准差,dij和dji均为置信距离测度。
7.根据权利要求6所述的摘要评价方法,其特征在于,所述对所述置信距离矩阵进行关系矩阵计算,得到关系矩阵的过程包括:
通过第二式对所述置信距离矩阵进行关系矩阵计算,得到关系矩阵,所述第二式为:
其中,
其中,R2为关系矩阵,rij为关系系数,βij为界限值。
8.一种摘要评价装置,其特征在于,包括:
语句信息获得模块,用于录入摘要信息和原文信息,将所述摘要信息和原文信息作为待评价语句信息;
语义相似处理模块,用于将所述待评价语句信息输入预先构建的语义相似模型中进行语义相似度处理,得到语义相似度得分;
ROUGE得分处理模块,用于对所述待评价语句信息进行评价得分处理,得到ROUGE得分;
最优融合分析模块,用于根据所述语义相似度得分对所述ROUGE得分进行最优融合分析,得到最优融合组;
摘要评价分数获得模块,用于对所述最优融合组进行融合分数计算,得到最优融合分数,并通过所述最优融合分数得到摘要评价分数;
所述对所述最优融合组进行融合分数计算,得到最优融合分数的过程包括:
利用极大似然估计法对所述最优融合组进行融合分数计算,得到最优融合分数,具体为:
通过第二方程组对所述最优融合组进行融合分数计算,得到最优融合分数,所述第二方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过所述第一式得到条件概率,所述第一式为:
通过所述第二式、第三式和第四式得到极大似然估计对数,所述第二式为:
所述第三式为:
所述第四式为:
通过所述第五式得到极大似然估计导数,所述第五式为:
通过所述第六式得到最优融合分数,所述第六式为:
其中,为极大似然函数,/>为最优融合分数,xi为最优融合组,pi(xi|θ)为条件概率,σi为标准差,/>为条件概率的连乘,为最优融合数,θ为条件概率,/>为偏导数符号,xl为评价分数。
9.根据权利要求8所述的摘要评价装置,其特征在于,所述语义相似处理模块具体用于:
构建LSTM长短时记忆网络,并根据所述LSTM长短时记忆网络对所述待评价语句信息进行编码,得到编码信息;
对所述编码信息进行选择门挑选计算,得到关键信息向量;
将所述关键信息向量输入至所述语义相似模型的匹配层进行信息匹配处理,得到两个匹配向量;
将两个所述匹配向量一并输入至所述语义相似模型的融合层进行融合处理,得到融合向量;
将所述融合向量输入至所述语义相似模型的预测层进行预测处理,得到得到语义相似度得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697992.3A CN111930931B (zh) | 2020-07-20 | 2020-07-20 | 一种摘要评价方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697992.3A CN111930931B (zh) | 2020-07-20 | 2020-07-20 | 一种摘要评价方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930931A CN111930931A (zh) | 2020-11-13 |
CN111930931B true CN111930931B (zh) | 2024-05-24 |
Family
ID=73312919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010697992.3A Active CN111930931B (zh) | 2020-07-20 | 2020-07-20 | 一种摘要评价方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930931B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033174B (zh) * | 2021-03-23 | 2022-06-10 | 哈尔滨工业大学 | 一种基于输出型相似门的案件分类方法、装置及存储介质 |
CN113032569A (zh) * | 2021-04-09 | 2021-06-25 | 中南大学 | 一种基于语义相似度的中文自动文本摘要评价方法 |
CN115221863B (zh) * | 2022-07-18 | 2023-08-04 | 桂林电子科技大学 | 一种文本摘要评价方法、装置以及存储介质 |
CN115329883B (zh) * | 2022-08-22 | 2023-05-09 | 桂林电子科技大学 | 一种语义相似度处理方法、装置、系统以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150515A (ja) * | 2010-01-21 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN111291558A (zh) * | 2020-01-17 | 2020-06-16 | 合肥工业大学 | 一种基于非成对学习的图像描述自动评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291871B (zh) * | 2017-06-15 | 2021-02-19 | 北京百度网讯科技有限公司 | 基于人工智能的多域信息的匹配度评估方法、设备及介质 |
-
2020
- 2020-07-20 CN CN202010697992.3A patent/CN111930931B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150515A (ja) * | 2010-01-21 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN111291558A (zh) * | 2020-01-17 | 2020-06-16 | 合肥工业大学 | 一种基于非成对学习的图像描述自动评价方法 |
Non-Patent Citations (1)
Title |
---|
面向查询的观点摘要模型研究:以Debatepedia为数据源;余传明;郑智梁;朱星宇;安璐;;情报学报(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111930931A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930931B (zh) | 一种摘要评价方法及装置 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN111930895B (zh) | 基于mrc的文档数据检索方法、装置、设备及存储介质 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN106202065B (zh) | 一种跨语言话题检测方法及系统 | |
CN111966810B (zh) | 一种用于问答系统的问答对排序方法 | |
CN111651589A (zh) | 一种针对长文档的两阶段文本摘要生成方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN111737453A (zh) | 一种基于无监督的多模型融合抽取式文本摘要方法 | |
CN113360646A (zh) | 基于动态权重的文本生成方法、设备及存储介质 | |
CN117236410A (zh) | 一种可信的电子文件大语言模型训练、推理方法和装置 | |
CN117094291A (zh) | 基于智能写作的自动新闻生成系统 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
CN109918484B (zh) | 对话生成方法和装置 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN113822018B (zh) | 实体关系联合抽取方法 | |
CN112632287B (zh) | 电力知识图谱构建方法和装置 | |
Abdeljaber et al. | [Retracted] XAI‐Based Reinforcement Learning Approach for Text Summarization of Social IoT‐Based Content | |
CN113111257A (zh) | 一种基于协同过滤的融合多源异构信息的推荐方法 | |
CN108733824B (zh) | 考虑专家知识的交互式主题建模方法及装置 | |
CN117874175B (zh) | 一种基于信息瓶颈的信息检索方法和系统 | |
CN113626582B (zh) | 基于内容选择和融合的两阶段摘要生成方法及系统 | |
CN115271816B (zh) | 一种基于情绪指数的大宗商品价格预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |