CN106874362A

CN106874362A - 多语言自动文摘方法

Info

Publication number: CN106874362A
Application number: CN201611253245.0A
Authority: CN
Inventors: 张家俊; 李浩然; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-06-20
Anticipated expiration: 2036-12-30
Also published as: CN106874362B

Abstract

本发明涉及一种多语言自动文摘方法，包括以下步骤：步骤101，获取多个目标语言文档中的多个谓词论元结构；步骤102，对所述多个谓词论元结构中的每一个谓词论元进行重要性打分；步骤103，根据所述每一个谓词论元的重要性得分，生成目标语言摘要。本发明中，实现了获取指定语言的摘要，且在保证该摘要含有更多的重要信息的信息量时，提高可读性。

Description

多语言自动文摘方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种多语言自动文摘方法。

背景技术

随着大数据时代到来，多语言信息，例如多语言新闻文档随处可见。有效地分析多语言文档集合，获取其中的重要信息，并按照用户需求的语言呈现给用户，可以帮助用户快速、便利地理解该文档集合的主体信息。以中文、英文文档集合生成中文摘要为例，最简单的做法是首先将英文文档通过机器翻译翻译为中文，然后将其与中文文档一起，通过传统的多文档自动摘要方法，生成中文摘要。然而，机器翻译的效果往往不能令人满意，存在很多错误，使得机器翻译译文的可读性较差。多语言自动文摘评测会议(MSE)在2005年进行了多语言自动文摘评测，Daume III和Marcu获得了评测的冠军，并和其他队伍得出类似的结论：当不使用机器翻译译文文档集合时，摘要的ROUGE得分(一种评价生成摘要和参考摘要重合度的指标)最高。一方面，机器翻译译文存在很多错误，使用机器翻译译文会引入很多噪音，降低可读性；另一方面，机器翻译译文文档中的信息不会被非译文文档完全覆盖，即机器翻译译文文档仍然会给我们提供很多有价值的信息，我们还是需要利用机器翻译译文增强摘要的信息量。多语言自动文摘方法需要平衡可读性和信息量。

发明内容

为了解决现有技术中的上述问题，即为了实现如何获取指定语言的摘要，且在保证该摘要含有更多的重要信息的信息量时，提高可读性。基于此，本发明提供了一种多语言自动文摘方法，包括以下步骤：

步骤1，获取多个目标语言文档中的多个谓词论元结构；

步骤2，对所述多个谓词论元结构中的每一个谓词论元进行重要性打分；

步骤3，根据所述每一个谓词论元的重要性得分，生成目标语言摘要。

优选地，对所述谓多个词论元结构中的每一个谓词论元进行重要性打分，包括如下步骤：

步骤21，计算组成所述谓词论元的词向量的加权平均数，得到所述谓词论元的短语向量；

步骤22，根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度；

步骤23，利用所述相似度获取语义相同的谓词论元；

步骤24，根据所述相似度计算谓词论元的重要性得分。

优选地，所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度，具体包括：

在每一目标语言文档中分别任选一个谓词论元，每两个谓词论元根据各自的短语向量计算该两个间的相似度，直至所有目标语言文档中的所有个谓词论元均任意两个匹配计算完相似度为止。

优选地，所述利用所述相似度获取语义相同的谓词论元，具体包括：

当所述相似度大于预设阈值时，确认所述相似度所属的谓词论元语义相同。

优选地，在根据所述相似度计算谓词论元的重要性得分时，通过如下计算公式：

利用上述两个公式分别进行迭代计算，直到迭代计算结果稳定时得到各谓词论元的重要性得分；

其中，c_i和c_j为任意两个谓词论元，u(c_i)为c_i的重要性得分，u(c_j)为c_j的重要性得分，μ是平滑因子，M_ij表示c_i与c_j的相似度，N为谓词论元总数。

优选地，所述根据所述每一个谓词论元的重要性得分，生成目标语言摘要，具体包括：

根据每一个谓词论元的重要性得分、谓词论元生成目标语言摘要的目标函数以及约束集合，选取符合的谓词论元集合；

将所述谓词论元集合中的各个谓词论元构成所述目标语言摘要。

优选地，所述步骤1之前还包括：

对多个请求语言文档进行翻译，得到多个统一为目标语言的目标语言文档。

与现有技术相比，本发明至少具有以下优点：

通过本发明中的多语言自动文摘设计，实现了获取指定语言的摘要，且在保证该摘要含有更多的重要信息的信息量时，提高可读性。

附图说明

图1是本发明提出的多语言自动文摘方法的流程示意图；

图2是本发明提供的语义角色标注的实例示意图；

图3是本发明提出的是通过融合谓词论元结构生成摘要的示意图；其中，(a)、(b)和(c)来自输入文档；(d)是(c)的机器翻译译文；(e)是最终生成的摘要。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明中，提供了一种多语言自动文摘方法，该多语言包含了目标语言和非目标语言，如图1所示，具体包括如下步骤：

步骤101，获取多个目标语言文档中的多个谓词论元结构。

在本步骤之前，还包括：

对多个请求语言文档进行翻译，得到多个统一为目标语言的目标语言文档；即将非目标语言文档全部翻译为目标语言文档。其中，该翻译可以是通过机器翻译，可以使用本地机器翻译系统，或者在线机器翻译，例如百度翻译，但并不仅局限于该种翻译方式。

本步骤中，在获取谓词论元结构时，依据语义角色标注处理，将原句划分为多个谓词、论元，利用重要谓词和论元构成摘要。语义角色标注是一种自然语言处理领域的浅层语义分析技术。它以句子为单位，分析句子中的谓词与其相关成分之间的语义关系，进而获取句子所表达语义的浅层表示。由于语义角色标注可以提供较为简洁、准确、有益的分析结果，因此近年来受到了学术界的普遍重视，并已经成功地应用到信息抽取、自动问答、机器翻译等任务中。

语义角色标注以句子中的谓词为核心，分析句子中的其相关成分与谓词之间的相互关系，因此谓词在句子的语义表达中处于核心的支配地位，其它成分均为谓词服务。一个谓词代表了一个事件，而与谓词相关的句子成分通常代表与事件相关的成分，比如该事件的施事者、受事者，以及事件发生的时间、地点、方式、原因等。在语义角色标注任务中，上述与事件相关的成分被称为谓词的一个论元，而且每个论元都有一个相对于谓词的语义角色，比如施事者、受事者。下面是一个语义角色标注的例子：

[警方]Agent[正在]Time[详细]Adverbial[调查]Pred[事故原因]Patient

其中“调查”是谓词，代表了一个事件，“警方”是施事者，“事故原因”是受事者，“正在”是事件发生的时间，“详细”是事件的修饰语。由此可见，语义角色标注能够抽取出一个句子表达的事件的全部重要信息。

命题库(Proposition Bank,Prop Bank)是受到语义角色与句法信息的研究启发而建立的。命题库把语义角色分为两大类。第一类语义角色是与具体谓词直接相关的，这些角色用ARG0，ARG2，ARG3，ARG4，ARG5表示，比如ARG0通常表示动作的施事，ARG1通常表示动作的影响等，ARG2-ARG5对于不同的谓语动词会有不同的语义含义；第二类语义角色是起修饰作用的辅助性角色，其角色标签都以ARGM开头，常见的有表示时间的角色ARGM-TMP，表示地理位置的角色ARGM-LOC，表示一般性修饰成分的角色ARGM-ADV等。如图2所示，是三个标注实例。对于每一个至少包含一个ARG0和一个ARG1的谓词论元结构，我们提取其谓词，ARG0，ARG1，ARGM-LOC和ARGM-TMP作为谓词和重要论元，用于构建摘要。其他论元，比如ARG3-5，ARGM-MOD和ARGM-ADV等被认为是次要论元，不参与摘要构建。

步骤102，对所述多个谓词论元结构中的每一个谓词论元进行重要性打分。

在该步骤中，具体包括：

步骤201，计算组成所述谓词论元的词向量的加权平均数，得到所述谓词论元的短语向量；其中，利用Word2Vec工具在大规模中文单语语料上训练300维的词向量；对于每一个谓词论元，我们将组成其谓词或论元的词的向量相加，取平均，作为该谓词论元的短语向量；

步骤202，根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度；其中，例如用余弦相似度计算论元和谓词的之间的相似度；所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度，具体包括：

在所有的目标语言文档中分别任选一个谓词论元，根据各自的短语向量计算这两个谓词论元的语义相似度，直至所有目标语言文档中的所有谓词论元均任意两个计算完相似度为止。

步骤203，利用所述相似度获取来自不同语言的语义相同的谓词论元；

该步骤具体包括：

当所述来自不同目标语言文档的两个谓词论元之间的相似度大于预设阈值时，确认所述相似度所属的来自不同目标语言文档的谓词论元语义相同。

进一步地，对于所有的跨语言的(谓词，谓词)、(论元，论元)、(谓词，论元)对，如果其相似度大于某阈值，我们认为其是语义相同的。该阈值可以通过在MSR语料测试获得。MSR语料是一个释义句语料库，一共含有5801个句对，其中3900个句对是语义相同的。

步骤204，根据所述相似度计算谓词论元的重要性得分。

本步骤中，利用改进的PageRank算法进行重要性得分计算；

PageRank算法通过迭代递归计算来更新每个谓词论元的重要性得分，直到得分稳定为止。具体的计算公式如下：

其中，c_i和c_j为任意谓词论元，u(c_i)为c_i的重要性得分，u(c_j)为c_j的重要性得分，μ是平滑因子，M_ij表示c_i与c_j的相似度，N为谓词论元总数。当来自目标语言文档的谓词论元c_i和非目标语言的谓词论元c_j语义相同时，M_ij被置零。

利用上述公式，可以分别计算每一个谓词论元c_i的得分，通过迭代计算，直到迭代计算结果稳定时得到各谓词论元的最终的重要性得分。

为了提高摘要的可读性，对于在那些能够在非译文文档中找到语义对应的译文论元，本发明倾向于选择非译文论元(指的该语言文档的语言为目标语言)，而那些无法在非译文文档找到语义对应的译文论元的不受影响。图3是一个实例，其中(a)(b)来自中文文档，(c)来自英文文档，(d)是(c)的机器翻译译文，不难发现，(d)的翻译存在错误，例如将“Turkey would not apologize over the downing of the plane.”翻译为“土耳其不会对飞机倒塌表示歉意”(准确的译文应该是“土耳其不会对飞机坠落道歉”)。(a)中的ARG1——“土耳其拒绝为击落俄罗斯战机事件道歉”表达了相同的含义。在给论元打分时，我们倾向于给(a)的ARG1更高的得分，而(d)的ARG1较低得分。

为了实现该目的，本发明对传统的PageRank算法提出以下修改：将不同语言之间的、语义相同的谓词或论元之间连接权重改为单向，即将该权重由译文一侧指向非译文一侧，从而鼓励非译文谓词或论元获得更高的得分，同时，那些无法在非译文文档找到语义对应的重要的译文论元的得分不受影响。

为了实现这一目标，我们提出一种引导排序的策略，修改跨语言谓词或论元之间的相似度矩阵。对于M_ij，我们可以理解为c_j传递给c_i的得分权重，当c_i来自译文文档，而c_j来自于非译文文档，并且c_j和c_i语义相同时，相比于c_i，c_j应该具有更高的得分，即c_i应该把权重传递给c_j,c_j不应该把权重传递给c_i，即，M_ij＝0(语义相同)，M_ji保持不变。而对于那些在非译文文档中找不到语义相同的译文谓词或论元，其与非译文谓词和论元的相似度矩阵不变。

步骤103，根据所述每一个谓词论元的重要性得分，生成目标语言摘要。

本步骤具体包括：

在本步骤中，还利用了整数线性规划。我们将ARG0记做AG(Agent，实施者)，将谓词+ARG1(+ARG2)记做CF(Core Fact，核心事实)，将ARGM-TMP和ARGM-LOC记做AF(AuxiliaryFact，辅助事实)，利用步骤3获得的谓词和论元，通过整数线性规划生成摘要该过程，即是选取重要并且冗余度低的AG、CF和AF集合，利用这些选中的AG、CF和AF组成新句子的过程。该过程分为4个子步骤,分别是：

(1)定义抽取用于生成摘要的论元和谓词的目标函数；

(2)定义语法约束、共现约束和长度约束；

(3)通过整数线性规划，选取最大化目标函数且满足约束的论元和谓词集合；

(4)将选中的论元和谓词组成合法的句子。

对于子步骤(1)，该目标函数对论元或谓词的重要性得分进行奖励，同时，对被选中的谓词和论元相似度进行惩罚。具体如下式：

上式中，和分别表示AG_i、CF_i和AF_i的重要性得分；α_i、β_i和γ_i分别表示AG_i、CF_i和AF_i是否被选中；α_ij表示AG_i和AG_j是否被同时选中，β_ij表示CF_i和CF_j是否被同时选中，γ_ij表示AF_i和AF_j是否被同时选中；和表示AG,CF和AF间的余弦相似度；λ是对冗余性的惩罚因子，取0.01。

对于子步骤(2)，语法约束如下：

为了使得选中的谓词和论元能够构成合法的句子，即AG,CF和AF集合能构成合法的句子，被选中的AG,CF和AF必须满足语法约束，即：

每个被选中的AG必须都能在原文档中找到搭配过的CF；

每个被选中的CF必须都能在原文档中找到搭配过的AG；

每个被选中的AF必须都能在原文档中找到搭配过的CF；

只有满足以上三个条件，被选中的AG,CF和AF最终才能构成形如“AG_iCF_jAF_k”的摘要句子。

共现约束如下：

当α_ij＝1时，α_i和α_j必须同时为1；当α_i和α_j其中至少有一个不为1时，α_ij必须为0。

同理，当β_ij＝1时，β_i和β_j必须同时为1；当β_i和β_j其中至少有一个不为1时，β_ij必须为0。当γ_ij＝1时，γ_i和γ_j必须同时为1；当γ_i和γ_j其中至少有一个不为1时，γ_ij必须为0。

长度约束如下：

为了公平的评价不同的生成摘要方法，最终生成的摘要必须满足长度限制，如本实验定义的400个汉字。

对于子步骤(3)，通过以上两个子步骤定义的目标函数和约束条件，我们可以利用整数线性规划选取重要且冗余性低的AG,CF和AF集合。我们使用lp_solve工具包解决整数线性规划问题。

对于子步骤(4)，按照原文档中出现过的谓词和论元的搭配，将这些论元和谓词融合为新句子作为摘要。对于那些出现在不同原文档中摘要句子，按照原文档的日期先后排序；对于那些出现在相同原文档中摘要句子，按照其出现在原文档中的先后排序。

5.实验设置

5.1.实验数据集

在实验中我们利用自己标注的多语言自动文摘数据集验证本发明的可行性。本数据集含有15个文档集合，每个集合对应一个2015年的热门新闻话题，每个集合包含20篇中文新闻和20篇英文新闻，平均每个集合含有447个中文句子，513个英文句子。平均每个中文文档含有556个词语，每个英文文档含有590个单词。一共有九个标注者参与了数据集的标注，即生成人工摘要。对于每个集合，三个标注者分别生成一份400个字左右的中文摘要。

5.2.对比实验

我们设计了以下三种对比的基线系统，这些对比实验均没有采用引导排序的策略。

(1)中文基线系统：该基线系统只使用中文文档生成中文摘要。

(2)英文基线系统：该基线系统只使用英文译文文档生成中文摘要。

(3)中、英文基线系统：该基线系统使用中文和英文译文文档生成中文摘要。

5.3.评价指标

通过计算生成摘要与参考摘要(人工生成摘要)的内容的重合度，自动评价生成摘要的质量。Lin对摘要自动评测做了大量工作，他参考机器翻译中BLEU方法的提出ROUGE。Lin的评测方法里使用最广的是ROUGE的各种变体，如ROUGE-N(N取1-5)，ROUGE-L，以及ROUGE-SU4。本实验中，采用了使用较为广泛的ROUGE-1，ROUGE-2和ROUGE-SU4等指标对生成摘要进行评测。

5.4.实验结果

附表1给出了不同系统的多语言自动摘要的ROUGE得分。我们可以看到在三个基线系统中，英文基线系统表现最差，中文基线系统表现最好，中、英文基线系统介于两者之间。虽然中、英文基线系统输入的信息量最大，但是英文译文翻译错误影响了可读性。本发明提出的方法，平衡了信息量和可读性，取得了优于所有基线系统的结果。

表1多语言自动文摘结果

本发明的积极效果：

针对多语言的文档集合，本发明可以帮助用户获取该多种语言中的指定语言的摘要。由于机器翻译的译文可读性较差，直接将机器翻译译文和非译文文档合并到一起做摘要，会影响其可读性。如果不使用机器翻译译文，虽然可读性会得到保证，译文文档的信息量却会损失。本发明通过检测语义相同的不同语言的文本片段，指导论元的打分，使得那些能够在非译文文档中找到语义对应的译文论元的权重倾向于积累到其对应的非译文论元，而那些无法在非译文文档找到语义对应的译文论元的权重不受影响，仍然有机会被选中为重要论元，最终参与生成摘要。本发明能够在利用译文文档保证信息量的同时，提高可读性。在我们自己标注的中英多语言自动文摘数据集上的实验结果显示，本发明超越了其他方法，证明了基于本发明的有效性和优越性。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种多语言自动文摘方法，其特征在于，包括以下步骤：

步骤101，获取多个目标语言文档中的多个谓词论元结构；

步骤102，对所述多个谓词论元结构中的每一个谓词论元进行重要性打分；

2.根据权利要求1所述的多语言自动文摘方法，其特征在于，对所述谓多个词论元结构中的每一个谓词论元进行重要性打分，包括如下步骤：

步骤201，计算组成所述谓词论元的词向量的加权平均数，得到所述谓词论元的短语向量；

步骤202，根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度；

步骤203，利用所述相似度获取语义相同的谓词论元；

步骤204，根据所述相似度计算谓词论元的重要性得分。

3.根据权利要求2所述的多语言自动文摘方法，其特征在于，所述根据所述谓词论元的短语向量计算所述谓词论元结构中谓词论元的相似度，具体包括：

4.根据权利要求2或3所述的多语言自动文摘方法，其特征在于，所述利用所述相似度获取语义相同的谓词论元，具体包括：

5.根据权利要求2所述的多语言自动文摘方法，其特征在于，在根据所述相似度计算谓词论元的重要性得分时，通过如下计算公式：

u (c_{i}) = μ \underset{j}{Σ} u (c_{j}) \cdot M_{i j} + \frac{1 - μ}{N}

6.根据权利要求1所述的多语言自动文摘方法，其特征在于，所述根据所述每一个谓词论元的重要性得分，生成目标语言摘要，具体包括：

7.根据权利要求1所述的多语言自动文摘方法，其特征在于，所述步骤101之前还包括：