CN106874362A - 多语言自动文摘方法 - Google Patents
多语言自动文摘方法 Download PDFInfo
- Publication number
- CN106874362A CN106874362A CN201611253245.0A CN201611253245A CN106874362A CN 106874362 A CN106874362 A CN 106874362A CN 201611253245 A CN201611253245 A CN 201611253245A CN 106874362 A CN106874362 A CN 106874362A
- Authority
- CN
- China
- Prior art keywords
- predicate
- argument
- similarity
- multilingual
- automaticabstracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 8
- 238000011524 similarity measure Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 3
- 230000006641 stabilisation Effects 0.000 claims description 3
- 238000011105 stabilization Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 description 63
- 239000003795 chemical substances by application Substances 0.000 description 20
- 238000000034 method Methods 0.000 description 14
- 238000002372 labelling Methods 0.000 description 8
- 102100021723 Arginase-1 Human genes 0.000 description 7
- 101000752037 Homo sapiens Arginase-1 Proteins 0.000 description 7
- 101000800287 Homo sapiens Tubulointerstitial nephritis antigen-like Proteins 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 102100030356 Arginase-2, mitochondrial Human genes 0.000 description 2
- 101000792835 Homo sapiens Arginase-2, mitochondrial Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- -1 ARG3 Proteins 0.000 description 1
- 101150005709 ARG4 gene Proteins 0.000 description 1
- 101100166068 Schizosaccharomyces pombe (strain 972 / ATCC 24843) arg5 gene Proteins 0.000 description 1
- 101100004044 Vigna radiata var. radiata AUX22B gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种多语言自动文摘方法。
背景技术
随着大数据时代到来,多语言信息,例如多语言新闻文档随处可见。有效地分析多语言文档集合,获取其中的重要信息,并按照用户需求的语言呈现给用户,可以帮助用户快速、便利地理解该文档集合的主体信息。以中文、英文文档集合生成中文摘要为例,最简单的做法是首先将英文文档通过机器翻译翻译为中文,然后将其与中文文档一起,通过传统的多文档自动摘要方法,生成中文摘要。然而,机器翻译的效果往往不能令人满意,存在很多错误,使得机器翻译译文的可读性较差。多语言自动文摘评测会议(MSE)在2005年进行了多语言自动文摘评测,Daume III和Marcu获得了评测的冠军,并和其他队伍得出类似的结论:当不使用机器翻译译文文档集合时,摘要的ROUGE得分(一种评价生成摘要和参考摘要重合度的指标)最高。一方面,机器翻译译文存在很多错误,使用机器翻译译文会引入很多噪音,降低可读性;另一方面,机器翻译译文文档中的信息不会被非译文文档完全覆盖,即机器翻译译文文档仍然会给我们提供很多有价值的信息,我们还是需要利用机器翻译译文增强摘要的信息量。多语言自动文摘方法需要平衡可读性和信息量。
发明内容
为了解决现有技术中的上述问题,即为了实现如何获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。基于此,本发明提供了一种多语言自动文摘方法,包括以下步骤:
步骤1,获取多个目标语言文档中的多个谓词论元结构;
步骤2,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;
步骤3,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。
优选地,对所述谓多个词论元结构中的每一个谓词论元进行重要性打分,包括如下步骤:
步骤21,计算组成所述谓词论元的词向量的加权平均数,得到所述谓词论元的短语向量;
步骤22,根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度;
步骤23,利用所述相似度获取语义相同的谓词论元;
步骤24,根据所述相似度计算谓词论元的重要性得分。
优选地,所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度,具体包括:
在每一目标语言文档中分别任选一个谓词论元,每两个谓词论元根据各自的短语向量计算该两个间的相似度,直至所有目标语言文档中的所有个谓词论元均任意两个匹配计算完相似度为止。
优选地,所述利用所述相似度获取语义相同的谓词论元,具体包括:
当所述相似度大于预设阈值时,确认所述相似度所属的谓词论元语义相同。
优选地,在根据所述相似度计算谓词论元的重要性得分时,通过如下计算公式:
利用上述两个公式分别进行迭代计算,直到迭代计算结果稳定时得到各谓词论元的重要性得分;
其中,ci和cj为任意两个谓词论元,u(ci)为ci的重要性得分,u(cj)为cj的重要性得分,μ是平滑因子,Mij表示ci与cj的相似度,N为谓词论元总数。
优选地,所述根据所述每一个谓词论元的重要性得分,生成目标语言摘要,具体包括:
根据每一个谓词论元的重要性得分、谓词论元生成目标语言摘要的目标函数以及约束集合,选取符合的谓词论元集合;
将所述谓词论元集合中的各个谓词论元构成所述目标语言摘要。
优选地,所述步骤1之前还包括:
对多个请求语言文档进行翻译,得到多个统一为目标语言的目标语言文档。
与现有技术相比,本发明至少具有以下优点:
通过本发明中的多语言自动文摘设计,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。
附图说明
图1是本发明提出的多语言自动文摘方法的流程示意图;
图2是本发明提供的语义角色标注的实例示意图;
图3是本发明提出的是通过融合谓词论元结构生成摘要的示意图;其中,(a)、(b)和(c)来自输入文档;(d)是(c)的机器翻译译文;(e)是最终生成的摘要。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明中,提供了一种多语言自动文摘方法,该多语言包含了目标语言和非目标语言,如图1所示,具体包括如下步骤:
步骤101,获取多个目标语言文档中的多个谓词论元结构。
在本步骤之前,还包括:
对多个请求语言文档进行翻译,得到多个统一为目标语言的目标语言文档;即将非目标语言文档全部翻译为目标语言文档。其中,该翻译可以是通过机器翻译,可以使用本地机器翻译系统,或者在线机器翻译,例如百度翻译,但并不仅局限于该种翻译方式。
本步骤中,在获取谓词论元结构时,依据语义角色标注处理,将原句划分为多个谓词、论元,利用重要谓词和论元构成摘要。语义角色标注是一种自然语言处理领域的浅层语义分析技术。它以句子为单位,分析句子中的谓词与其相关成分之间的语义关系,进而获取句子所表达语义的浅层表示。由于语义角色标注可以提供较为简洁、准确、有益的分析结果,因此近年来受到了学术界的普遍重视,并已经成功地应用到信息抽取、自动问答、机器翻译等任务中。
语义角色标注以句子中的谓词为核心,分析句子中的其相关成分与谓词之间的相互关系,因此谓词在句子的语义表达中处于核心的支配地位,其它成分均为谓词服务。一个谓词代表了一个事件,而与谓词相关的句子成分通常代表与事件相关的成分,比如该事件的施事者、受事者,以及事件发生的时间、地点、方式、原因等。在语义角色标注任务中,上述与事件相关的成分被称为谓词的一个论元,而且每个论元都有一个相对于谓词的语义角色,比如施事者、受事者。下面是一个语义角色标注的例子:
[警方]Agent[正在]Time[详细]Adverbial[调查]Pred[事故原因]Patient
其中“调查”是谓词,代表了一个事件,“警方”是施事者,“事故原因”是受事者,“正在”是事件发生的时间,“详细”是事件的修饰语。由此可见,语义角色标注能够抽取出一个句子表达的事件的全部重要信息。
命题库(Proposition Bank,Prop Bank)是受到语义角色与句法信息的研究启发而建立的。命题库把语义角色分为两大类。第一类语义角色是与具体谓词直接相关的,这些角色用ARG0,ARG2,ARG3,ARG4,ARG5表示,比如ARG0通常表示动作的施事,ARG1通常表示动作的影响等,ARG2-ARG5对于不同的谓语动词会有不同的语义含义;第二类语义角色是起修饰作用的辅助性角色,其角色标签都以ARGM开头,常见的有表示时间的角色ARGM-TMP,表示地理位置的角色ARGM-LOC,表示一般性修饰成分的角色ARGM-ADV等。如图2所示,是三个标注实例。对于每一个至少包含一个ARG0和一个ARG1的谓词论元结构,我们提取其谓词,ARG0,ARG1,ARGM-LOC和ARGM-TMP作为谓词和重要论元,用于构建摘要。其他论元,比如ARG3-5,ARGM-MOD和ARGM-ADV等被认为是次要论元,不参与摘要构建。
步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分。
在该步骤中,具体包括:
步骤201,计算组成所述谓词论元的词向量的加权平均数,得到所述谓词论元的短语向量;其中,利用Word2Vec工具在大规模中文单语语料上训练300维的词向量;对于每一个谓词论元,我们将组成其谓词或论元的词的向量相加,取平均,作为该谓词论元的短语向量;
步骤202,根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度;其中,例如用余弦相似度计算论元和谓词的之间的相似度;所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度,具体包括:
在所有的目标语言文档中分别任选一个谓词论元,根据各自的短语向量计算这两个谓词论元的语义相似度,直至所有目标语言文档中的所有谓词论元均任意两个计算完相似度为止。
步骤203,利用所述相似度获取来自不同语言的语义相同的谓词论元;
该步骤具体包括:
当所述来自不同目标语言文档的两个谓词论元之间的相似度大于预设阈值时,确认所述相似度所属的来自不同目标语言文档的谓词论元语义相同。
进一步地,对于所有的跨语言的(谓词,谓词)、(论元,论元)、(谓词,论元)对,如果其相似度大于某阈值,我们认为其是语义相同的。该阈值可以通过在MSR语料测试获得。MSR语料是一个释义句语料库,一共含有5801个句对,其中3900个句对是语义相同的。
步骤204,根据所述相似度计算谓词论元的重要性得分。
本步骤中,利用改进的PageRank算法进行重要性得分计算;
PageRank算法通过迭代递归计算来更新每个谓词论元的重要性得分,直到得分稳定为止。具体的计算公式如下:
其中,ci和cj为任意谓词论元,u(ci)为ci的重要性得分,u(cj)为cj的重要性得分,μ是平滑因子,Mij表示ci与cj的相似度,N为谓词论元总数。当来自目标语言文档的谓词论元ci和非目标语言的谓词论元cj语义相同时,Mij被置零。
利用上述公式,可以分别计算每一个谓词论元ci的得分,通过迭代计算,直到迭代计算结果稳定时得到各谓词论元的最终的重要性得分。
为了提高摘要的可读性,对于在那些能够在非译文文档中找到语义对应的译文论元,本发明倾向于选择非译文论元(指的该语言文档的语言为目标语言),而那些无法在非译文文档找到语义对应的译文论元的不受影响。图3是一个实例,其中(a)(b)来自中文文档,(c)来自英文文档,(d)是(c)的机器翻译译文,不难发现,(d)的翻译存在错误,例如将“Turkey would not apologize over the downing of the plane.”翻译为“土耳其不会对飞机倒塌表示歉意”(准确的译文应该是“土耳其不会对飞机坠落道歉”)。(a)中的ARG1——“土耳其拒绝为击落俄罗斯战机事件道歉”表达了相同的含义。在给论元打分时,我们倾向于给(a)的ARG1更高的得分,而(d)的ARG1较低得分。
为了实现该目的,本发明对传统的PageRank算法提出以下修改:将不同语言之间的、语义相同的谓词或论元之间连接权重改为单向,即将该权重由译文一侧指向非译文一侧,从而鼓励非译文谓词或论元获得更高的得分,同时,那些无法在非译文文档找到语义对应的重要的译文论元的得分不受影响。
为了实现这一目标,我们提出一种引导排序的策略,修改跨语言谓词或论元之间的相似度矩阵。对于Mij,我们可以理解为cj传递给ci的得分权重,当ci来自译文文档,而cj来自于非译文文档,并且cj和ci语义相同时,相比于ci,cj应该具有更高的得分,即ci应该把权重传递给cj,cj不应该把权重传递给ci,即,Mij=0(语义相同),Mji保持不变。而对于那些在非译文文档中找不到语义相同的译文谓词或论元,其与非译文谓词和论元的相似度矩阵不变。
步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。
本步骤具体包括:
根据每一个谓词论元的重要性得分、谓词论元生成目标语言摘要的目标函数以及约束集合,选取符合的谓词论元集合;
将所述谓词论元集合中的各个谓词论元构成所述目标语言摘要。
在本步骤中,还利用了整数线性规划。我们将ARG0记做AG(Agent,实施者),将谓词+ARG1(+ARG2)记做CF(Core Fact,核心事实),将ARGM-TMP和ARGM-LOC记做AF(AuxiliaryFact,辅助事实),利用步骤3获得的谓词和论元,通过整数线性规划生成摘要该过程,即是选取重要并且冗余度低的AG、CF和AF集合,利用这些选中的AG、CF和AF组成新句子的过程。该过程分为4个子步骤,分别是:
(1)定义抽取用于生成摘要的论元和谓词的目标函数;
(2)定义语法约束、共现约束和长度约束;
(3)通过整数线性规划,选取最大化目标函数且满足约束的论元和谓词集合;
(4)将选中的论元和谓词组成合法的句子。
对于子步骤(1),该目标函数对论元或谓词的重要性得分进行奖励,同时,对被选中的谓词和论元相似度进行惩罚。具体如下式:
上式中,和分别表示AGi、CFi和AFi的重要性得分;αi、βi和γi分别表示AGi、CFi和AFi是否被选中;αij表示AGi和AGj是否被同时选中,βij表示CFi和CFj是否被同时选中,γij表示AFi和AFj是否被同时选中;和表示AG,CF和AF间的余弦相似度;λ是对冗余性的惩罚因子,取0.01。
对于子步骤(2),语法约束如下:
为了使得选中的谓词和论元能够构成合法的句子,即AG,CF和AF集合能构成合法的句子,被选中的AG,CF和AF必须满足语法约束,即:
每个被选中的AG必须都能在原文档中找到搭配过的CF;
每个被选中的CF必须都能在原文档中找到搭配过的AG;
每个被选中的AF必须都能在原文档中找到搭配过的CF;
只有满足以上三个条件,被选中的AG,CF和AF最终才能构成形如“AGiCFjAFk”的摘要句子。
共现约束如下:
当αij=1时,αi和αj必须同时为1;当αi和αj其中至少有一个不为1时,αij必须为0。
同理,当βij=1时,βi和βj必须同时为1;当βi和βj其中至少有一个不为1时,βij必须为0。当γij=1时,γi和γj必须同时为1;当γi和γj其中至少有一个不为1时,γij必须为0。
长度约束如下:
为了公平的评价不同的生成摘要方法,最终生成的摘要必须满足长度限制,如本实验定义的400个汉字。
对于子步骤(3),通过以上两个子步骤定义的目标函数和约束条件,我们可以利用整数线性规划选取重要且冗余性低的AG,CF和AF集合。我们使用lp_solve工具包解决整数线性规划问题。
对于子步骤(4),按照原文档中出现过的谓词和论元的搭配,将这些论元和谓词融合为新句子作为摘要。对于那些出现在不同原文档中摘要句子,按照原文档的日期先后排序;对于那些出现在相同原文档中摘要句子,按照其出现在原文档中的先后排序。
5.实验设置
5.1.实验数据集
在实验中我们利用自己标注的多语言自动文摘数据集验证本发明的可行性。本数据集含有15个文档集合,每个集合对应一个2015年的热门新闻话题,每个集合包含20篇中文新闻和20篇英文新闻,平均每个集合含有447个中文句子,513个英文句子。平均每个中文文档含有556个词语,每个英文文档含有590个单词。一共有九个标注者参与了数据集的标注,即生成人工摘要。对于每个集合,三个标注者分别生成一份400个字左右的中文摘要。
5.2.对比实验
我们设计了以下三种对比的基线系统,这些对比实验均没有采用引导排序的策略。
(1)中文基线系统:该基线系统只使用中文文档生成中文摘要。
(2)英文基线系统:该基线系统只使用英文译文文档生成中文摘要。
(3)中、英文基线系统:该基线系统使用中文和英文译文文档生成中文摘要。
5.3.评价指标
通过计算生成摘要与参考摘要(人工生成摘要)的内容的重合度,自动评价生成摘要的质量。Lin对摘要自动评测做了大量工作,他参考机器翻译中BLEU方法的提出ROUGE。Lin的评测方法里使用最广的是ROUGE的各种变体,如ROUGE-N(N取1-5),ROUGE-L,以及ROUGE-SU4。本实验中,采用了使用较为广泛的ROUGE-1,ROUGE-2和ROUGE-SU4等指标对生成摘要进行评测。
5.4.实验结果
附表1给出了不同系统的多语言自动摘要的ROUGE得分。我们可以看到在三个基线系统中,英文基线系统表现最差,中文基线系统表现最好,中、英文基线系统介于两者之间。虽然中、英文基线系统输入的信息量最大,但是英文译文翻译错误影响了可读性。本发明提出的方法,平衡了信息量和可读性,取得了优于所有基线系统的结果。
表1多语言自动文摘结果
本发明的积极效果:
针对多语言的文档集合,本发明可以帮助用户获取该多种语言中的指定语言的摘要。由于机器翻译的译文可读性较差,直接将机器翻译译文和非译文文档合并到一起做摘要,会影响其可读性。如果不使用机器翻译译文,虽然可读性会得到保证,译文文档的信息量却会损失。本发明通过检测语义相同的不同语言的文本片段,指导论元的打分,使得那些能够在非译文文档中找到语义对应的译文论元的权重倾向于积累到其对应的非译文论元,而那些无法在非译文文档找到语义对应的译文论元的权重不受影响,仍然有机会被选中为重要论元,最终参与生成摘要。本发明能够在利用译文文档保证信息量的同时,提高可读性。在我们自己标注的中英多语言自动文摘数据集上的实验结果显示,本发明超越了其他方法,证明了基于本发明的有效性和优越性。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (7)
1.一种多语言自动文摘方法,其特征在于,包括以下步骤:
步骤101,获取多个目标语言文档中的多个谓词论元结构;
步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;
步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。
2.根据权利要求1所述的多语言自动文摘方法,其特征在于,对所述谓多个词论元结构中的每一个谓词论元进行重要性打分,包括如下步骤:
步骤201,计算组成所述谓词论元的词向量的加权平均数,得到所述谓词论元的短语向量;
步骤202,根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度;
步骤203,利用所述相似度获取语义相同的谓词论元;
步骤204,根据所述相似度计算谓词论元的重要性得分。
3.根据权利要求2所述的多语言自动文摘方法,其特征在于,所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度,具体包括:
在每一目标语言文档中分别任选一个谓词论元,每两个谓词论元根据各自的短语向量计算该两个间的相似度,直至所有目标语言文档中的所有个谓词论元均任意两个匹配计算完相似度为止。
4.根据权利要求2或3所述的多语言自动文摘方法,其特征在于,所述利用所述相似度获取语义相同的谓词论元,具体包括:
当所述相似度大于预设阈值时,确认所述相似度所属的谓词论元语义相同。
5.根据权利要求2所述的多语言自动文摘方法,其特征在于,在根据所述相似度计算谓词论元的重要性得分时,通过如下计算公式:
利用上述两个公式分别进行迭代计算,直到迭代计算结果稳定时得到各谓词论元的重要性得分;
其中,ci和cj为任意两个谓词论元,u(ci)为ci的重要性得分,u(cj)为cj的重要性得分,μ是平滑因子,Mij表示ci与cj的相似度,N为谓词论元总数。
6.根据权利要求1所述的多语言自动文摘方法,其特征在于,所述根据所述每一个谓词论元的重要性得分,生成目标语言摘要,具体包括:
根据每一个谓词论元的重要性得分、谓词论元生成目标语言摘要的目标函数以及约束集合,选取符合的谓词论元集合;
将所述谓词论元集合中的各个谓词论元构成所述目标语言摘要。
7.根据权利要求1所述的多语言自动文摘方法,其特征在于,所述步骤101之前还包括:
对多个请求语言文档进行翻译,得到多个统一为目标语言的目标语言文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611253245.0A CN106874362B (zh) | 2016-12-30 | 2016-12-30 | 多语言自动文摘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611253245.0A CN106874362B (zh) | 2016-12-30 | 2016-12-30 | 多语言自动文摘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106874362A true CN106874362A (zh) | 2017-06-20 |
CN106874362B CN106874362B (zh) | 2020-01-10 |
Family
ID=59164918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611253245.0A Active CN106874362B (zh) | 2016-12-30 | 2016-12-30 | 多语言自动文摘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106874362B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN108446276A (zh) * | 2018-03-21 | 2018-08-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
CN108664598A (zh) * | 2018-05-09 | 2018-10-16 | 北京理工大学 | 一种具有综合优势的基于整数线性规划的抽取式文摘方法 |
CN111400454A (zh) * | 2020-03-17 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN114996438A (zh) * | 2022-05-20 | 2022-09-02 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080221878A1 (en) * | 2007-03-08 | 2008-09-11 | Nec Laboratories America, Inc. | Fast semantic extraction using a neural network architecture |
CN101908042A (zh) * | 2010-08-09 | 2010-12-08 | 中国科学院自动化研究所 | 一种双语联合语义角色的标注方法 |
CN102254011A (zh) * | 2011-07-18 | 2011-11-23 | 哈尔滨工业大学 | 一种动态多文档文摘建模方法 |
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN102955853A (zh) * | 2012-11-02 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种跨语言文摘的生成方法及装置 |
CN103838870A (zh) * | 2014-03-21 | 2014-06-04 | 武汉科技大学 | 基于信息单元融合的新闻原子事件抽取方法 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
-
2016
- 2016-12-30 CN CN201611253245.0A patent/CN106874362B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080221878A1 (en) * | 2007-03-08 | 2008-09-11 | Nec Laboratories America, Inc. | Fast semantic extraction using a neural network architecture |
CN101908042A (zh) * | 2010-08-09 | 2010-12-08 | 中国科学院自动化研究所 | 一种双语联合语义角色的标注方法 |
CN102254011A (zh) * | 2011-07-18 | 2011-11-23 | 哈尔滨工业大学 | 一种动态多文档文摘建模方法 |
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN102955853A (zh) * | 2012-11-02 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种跨语言文摘的生成方法及装置 |
CN103838870A (zh) * | 2014-03-21 | 2014-06-04 | 武汉科技大学 | 基于信息单元融合的新闻原子事件抽取方法 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
Non-Patent Citations (1)
Title |
---|
付小茗: "基于谓词_论元结构的新闻文本事件链构建技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN107741928B (zh) * | 2017-10-13 | 2021-01-26 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN108446276A (zh) * | 2018-03-21 | 2018-08-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
CN108446276B (zh) * | 2018-03-21 | 2022-02-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌单关键词的方法和装置 |
CN108664598A (zh) * | 2018-05-09 | 2018-10-16 | 北京理工大学 | 一种具有综合优势的基于整数线性规划的抽取式文摘方法 |
CN108664598B (zh) * | 2018-05-09 | 2019-04-02 | 北京理工大学 | 一种具有综合优势的基于整数线性规划的抽取式文摘方法 |
CN111400454A (zh) * | 2020-03-17 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN114996438A (zh) * | 2022-05-20 | 2022-09-02 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
CN114996438B (zh) * | 2022-05-20 | 2024-05-28 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106874362B (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cho et al. | On measuring gender bias in translation of gender-neutral pronouns | |
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
Rychalska et al. | Samsung Poland NLP Team at SemEval-2016 Task 1: Necessity for diversity; combining recursive autoencoders, WordNet and ensemble methods to measure semantic similarity. | |
KR101968102B1 (ko) | 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램 | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
CN106874362A (zh) | 多语言自动文摘方法 | |
Sabra et al. | Sentiment analysis: Arabic sentiment lexicons | |
Pasini et al. | Train-o-matic: Supervised word sense disambiguation with no (manual) effort | |
Fetahu et al. | Multiconer v2: a large multilingual dataset for fine-grained and noisy named entity recognition | |
Ng et al. | Exploiting category-specific information for multi-document summarization | |
Gupta et al. | Automatic text summarization system for Punjabi language | |
Xiong et al. | Extended HMM and ranking models for Chinese spelling correction | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
Dien | Vietnamese-English cross-lingual paraphrase identification using siamese recurrent architectures | |
Darwish et al. | Adapting morphology for arabic information retrieval | |
Formiga Fanals et al. | Improving English to Spanish out-of-domain translations by morphology generalization and generation | |
Priyadarshani et al. | Statistical machine learning for transliteration: Transliterating names between sinhala, tamil and english | |
Stodden et al. | A multi-lingual and cross-domain analysis of features for text simplification | |
Abdelmegied et al. | A modified version of alquans: An arabic language question answering system | |
Jacquet et al. | Cross-lingual linking of multi-word entities and language-dependent learning of multi-word entity patterns | |
Frunza et al. | Semi-supervised learning of partial cognates using bilingual bootstrapping | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
Mori et al. | Answering any class of Japanese non-factoid question by using the Web and example Q&A pairs from a social Q&A website | |
JP3752535B2 (ja) | 訳語選択装置、及び翻訳装置 | |
JP3996886B2 (ja) | 対訳対抽出装置及びそのためのコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |