CN104536950A

CN104536950A - 生成文本摘要的方法及装置

Info

Publication number: CN104536950A
Application number: CN201410759529.1A
Authority: CN
Inventors: 王丽杰; 吴先超; 刘占一
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2015-04-22
Anticipated expiration: 2034-12-11
Also published as: CN104536950B

Abstract

本发明实施例提供了一种生成文本摘要的方法及装置，所述方法包括：获取内容文本；对所述内容文本进行分句以及词法句法分析，获取多个句子的句法结构；从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络；根据所述知识网络生成文本摘要。通过本发明实施例的生成文本摘要的方法及装置，能够为用户提供代表核心主题的简短的文本摘要，从而方便用户对长篇文本所表达内容进行了解。

Description

生成文本摘要的方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种生成文本摘要的方法及装置。

背景技术

新闻报道的第一段或学术论文中的摘要通常应包含所述新闻报道或学术论文的核心知识，而针对长篇文本进行核心知识提取，一直是自然语言处理的重点任务。该任务有助于用户对长篇文本的内容进行简单的了解，还可以帮助用户确认该长篇文本是否符合其需求，同时节省了阅读时间。

例如，在搜索引擎中，输入搜索词“王菲个人资料”，依照目前的摘要自动生成技术得到的摘要如图1所示，其中仅包含了搜索词中的关键字，并没有给出用户需求的一些资料，从而使得用户无法通过该摘要对长篇文本所表达内容进行了解。

发明内容

本发明实施例的目的在于，提供一种生成文本摘要的方法及装置，能够为用户提供代表核心主题的简短的文本摘要，从而方便用户对长篇文本所表达内容进行了解。

为实现上述发明目的，本发明的实施例提供了一种生成文本摘要的方法，包括：获取内容文本；对所述内容文本进行分句以及词法句法分析，获取多个句子的句法结构；从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络；根据所述知识网络生成文本摘要。

本发明的实施例还提供了一种生成文本摘要的装置，包括：内容文本获取模块，用于获取内容文本；句法结构获取模块，用于对所述内容文本进行分句以及词法句法分析，获取多个句子的句法结构；知识网络生成模块，用于从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络；文本摘要生成模块，用于根据所述知识网络生成文本摘要。

本发明实施例提供的生成文本摘要的方法及装置，通过对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构，从该句法结构中提取知识点，并将知识点进行合并得到知识网络，再根据知识网络最终生成文本摘要，生成的文本摘要可提供代表核心主题的简要介绍，从而使得用户可通过简短的文本摘要对长篇文本所表达内容进行了解。

附图说明

图1是示出现有技术摘要生成技术生成的摘要的示意图；

图2是示出本发明实施例一的生成文本摘要的方法的流程图；

图3是示出本发明实施例一的句子“冰雨是刘德华演唱的歌曲”为例的句法结构示意图；

图4是示出本发明实施例一的句子“冰雨是刘德华演唱的歌曲”为例的知识网络示意图；

图5是示出本发明实施例一的百度词条“王菲”中“个人生活”为例的知识网络示意图；

图6是示出本发明实施例一的百度词条“王菲”中“个人生活”为例生成的文本摘要示意图；

图7是示出本发明实施例二的生成文本摘要的装置的逻辑框图。

具体实施方式

本发明的基本构思是，通过对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构，从该句法结构中提取知识点，并将知识点进行合并得到知识网络，再根据知识网络生成文本摘要，从而方便用户对长篇文本所表达内容进行了解。

下面结合附图对本发明实施例一种生成文本摘要的方法及装置进行详细描述。

实施例一

图2为本发明实施例一的生成文本摘要的方法的流程图。可在例如搜索引擎服务器上执行所述方法。所述生成文本摘要的方法包括如下步骤：

步骤101：获取内容文本。例如，内容文本可以是用户根据搜索词获取的任一搜索结果条目的内容文本。

步骤102：对所述内容文本进行分句以及词法句法分析，获取多个句子的句法结构。

如前所述，根据本发明的示例性实施例，可以对内容文本进行语料处理得到处理后的多个句子，然后对每个句子进行词法句法分析得到句法结构。具体的，可以按照代表句子结束的标点符号，例如“！”、“。”、“？”，对内容文本进行分句得到多个句子，并依据语序对多个句子进行过滤得到过滤后的多个句子，过滤步骤的目的是去除杂乱无章的句子，再对过滤后的多个句子分别进行指代消解得到语料处理后的多个句子。

优选地，针对每个句子，可以进行如下词法句法分析处理：对所述句子进行分词得到多个分词；从所述多个分词中识别出实体词；对所述多个分词进行词性标注，并根据标注的词性对所述实体词和多个分词进行依存分析得到句法结构。例如，如图3所示，其示出了句子“冰雨是刘德华演唱的歌曲”进行词法句法分析后获得的句法结构。

步骤103：从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络。

在步骤102获取多个句子的句法结构之后，根据本发明的示例性实施例，可以从句法结构中提取多个子树，从子树提取多个知识点，再对提取的知识点进行合并，最终生成知识网络。

优选地，从子树提取多个知识点的处理，可以包括：识别每个子树的语序，如果所述子树的语序为正常语句，则直接从所述子树提取知识点，如果所述子树的语序为非正常语句，则将所述子树的语序由非正常语句转换成正常语句，并从转换语序后的子树中提取知识点，这里，需要说明的是，非正常语句为非主谓宾语序的语句，所述非主谓宾语序的语句可包括，但不限于，被字句、动词修饰名词的逆序结构等。

图4是示出本发明实施例一的句子“冰雨是刘德华演唱的歌曲”为例的知识网络示意图，以下结合图4及具体的处理示例，对步骤203进行进一步详细说明。

首先，进行子树提取，子树1的根节点为“是”，对应的子节点为“冰雨”、“歌曲”，子树2的根节点为“歌曲”，对应的子节点为“演唱”；其次，识别每个子树的语序，识别子树1为正常语句，子树2为动词修饰名词的逆序结构，因子树1是正常语句，可直接从子树1提取知识点，因子树2为非正常语句，即动词修饰名词的逆序结构，则需转成正常语句，再从转换语序后的子树2中提取知识点，具体的，可将根节点改为“演唱”，“歌曲”作为其子节点，此处完成了子树提取多个知识点的步骤，最后对提取的知识点进行合并，最终生成知识网络，可以通过子树1得知“冰雨”等价于歌曲(关系词为“是”，表示等价)，则将子树2中的“歌曲”替换成“冰雨”，进行两个子树的合并，最终得到“刘德华演唱冰雨”。

优选地，所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络的处理，还可以包括：根据知识点所来源的网站质量和网站数量对合并后的知识点进行校验。具体的，通过知识点来源的网站质量，例如新闻网站的质量就高于贴吧等论坛网站的质量，以及网站的数量等确定知识点的可信性。

步骤104：根据所述知识网络生成文本摘要。根据本发明的示例性实施例，获取所述内容文本的标题，过滤所述知识网络中与所述标题不相关的知识点，按照预定规则对过滤后的知识网络中的知识点进行摘要组织，生成文本摘要。

具体的，为了获得简短并包含核心主题的摘要，可仅保留与内容文本的标题相关的知识点，过滤掉一些关于背景描述或无实际知识的信息等知识点，然后按照预定规则对过滤后的知识网络中的知识点进行摘要组织，其中，预定规则可以是按照知识网络中的知识点所在句子的顺序进行组织，或是按照知识点的类型进行组织。

以百科词条“王菲”中“个人生活”的前三大段内容为例，内容文本具体如下：1969年王菲生于北京，曾用名王靖雯，王菲的爸爸是煤炭工程师，他的工作岗位在煤矿。妈妈是煤矿文工团的女高音，往往是一个演出刚刚结束，行李放在家里尚没有打开，新的演出任务又来了，不得不又匆匆登车而去。王菲虽然出身知识分子家庭，但是童年却并不快乐。1996年7月，王菲和窦唯结婚。1997年1月，王菲在北京协和医院产下窦靖童。1999年，王菲和窦唯婚变。1999年8月，窦唯与王菲正式离婚。2000年6月，梁朝伟在铜锣湾的Stone Grill酒吧搞派对，庆祝凭《花样年华》获戛纳影帝，谢霆锋、王菲同时出席。两人恋情公开。2002年3月28日谢霆锋接受电台访问时，暗示他已与王菲分手。2002年7月，张柏芝与谢霆锋分手。2003年6月与王菲与谢霆锋复合。9月王菲、谢霆锋买戒指；11月两人又分手了。

图5是示出本发明实施例一的百度词条“王菲”中“个人生活”为例的知识网络示意图，如图5所示，该知识网络图主要是针对实体“王菲”进行展开的，其中也含有其他相关人物的事件活动，如“谢霆锋与张柏芝”、“梁朝伟搞派对”等事件。其中椭圆框中标记的是实体，曾用名、爸爸、妈妈这三个方表示静态属性，生于、产下、结婚、离婚、获、搞、恋情公开、分手、复合以及买戒指表示动态事件，剩余的方框表示关系发生的条件等元素信息(例如如王菲与窦唯结婚事件中，“1996年7月”表示结婚这一事件发生的时间条件)。将上述知识网络中的知识点的类型进行组织，具体的，将知识点分成静态知识和动态知识，静态知识表示实体的某些属性(如人物的出生年月、父母、子女、作品等)，动态知识表示发生在实体上的事件(如结婚、离婚、毕业、工作等信息)；对于动态知识，可按照事件发生的时间进行排序(若无时间表示，则按照其在文本中出现的句子进行排序)，如图6所示，最终生成文本摘要。

通过该生成文本摘要的方法，可以对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构，从该句法结构中提取知识点，并将知识点进行合并得到知识网络，再根据知识网络生成文本摘要，该方法能够为用户提供代表核心主题的简短的文本摘要，从而方便用户对长篇文本所表达内容进行了解。

实施例二

图7是本发明实施例二的生成文本摘要的装置的逻辑框图。参照图7，所述生成文本摘要的装置包括内容文本获取模块201、句法结构获取模块202、知识网络生成模块203和文本摘要生成模块204。

内容文本获取模块201用于获取内容文本。

句法结构获取模块202用于对内容文本进行分句以及词法句法分析，获取多个句子的句法结构。

知识网络生成模块203用于从句法结构中提取知识点，并将知识点进行合并得到知识网络。

文本摘要生成模块204用于根据知识网络生成文本摘要。

优选地，知识网络生成模块203包括：子树提取单元，用于从句法结构中提取多个子树；知识点提取单元，用于从子树提取多个知识点；知识点合并单元，用于对提取的知识点进行合并，生成知识网络。

优选地，知识网络生成模块203还包括：知识点校验单元，用于根据知识点所来源的网站质量和网站数量对合并后的知识点进行校验。

优选地，知识点提取单元用于识别每个子树的语序，如果所述子树的语序为正常语句，则直接从子树提取知识点，如果子树的语序为非正常语句，则将子树的语序由非正常语句转换成正常语句，并从转换语序后的子树中提取知识点，这里，需要说明的是，非正常语句为非主谓宾语序的语句。

优选地，文本摘要生成模块204用于获取内容文本的标题；过滤知识网络中与标题不相关的知识点；按照预定规则对过滤后的知识网络中的知识点进行摘要组织，生成文本摘要。

优选地，句法结构获取模块202包括：语料处理单元，用于对内容文本进行语料处理得到处理后的多个句子。

词法句法分析单元，用于对每个句子进行词法句法分析得到句法结构。

优选地，语料处理单元用于对内容文本进行分句得到多个句子，并依据语序对多个句子进行过滤得到过滤后的多个句子，对过滤后的多个句子分别进行指代消解得到语料处理后的多个句子。

优选地，词法句法分析单元用于对句子进行分词得到多个分词，从多个分词中识别出实体词，对多个分词进行词性标注，并根据标注的词性对实体词和多个分词进行依存分析得到句法结构。

通过该生成文本摘要的装置，可以对获取的内容文本进行分句以及词法句法分析得到多个句子的句法结构，从该句法结构中提取知识点，并将知识点进行合并得到知识网络，再根据知识网络生成文本摘要，该方法能够为用户提供代表核心主题的简短的文本摘要，从而方便用户对长篇文本所表达内容进行了解。

在本发明所提供的几个实施例中，应该理解到，所公开的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种生成文本摘要的方法，其特征在于，所述方法包括：

获取内容文本；

对所述内容文本进行分句以及词法句法分析，获取多个句子的句法结构；

从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络；

根据所述知识网络生成文本摘要。

2.根据权利要求1所述的方法，其特征在于，所述从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络的处理包括：

从所述句法结构中提取多个子树，

从所述子树提取多个知识点，

对所述提取的知识点进行合并，生成知识网络。

3.根据权利要求2所述的方法，其特征在于，所述从所述子树提取多个知识点的处理包括：

识别每个子树的语序，

如果所述子树的语序为正常语句，则直接从所述子树提取知识点，

如果所述子树的语序为非正常语句，则将所述子树的语序由非正常语句转换成正常语句，并从转换语序后的子树中提取知识点，所述非正常语句为非主谓宾语序的语句。

4.根据权利要求3所述的方法，其特征在于，所述根据所述知识网络生成文本摘要的处理包括：

获取所述内容文本的标题，

过滤所述知识网络中与所述标题不相关的知识点，

按照预定规则对过滤后的知识网络中的知识点进行摘要组织，生成文本摘要。

5.根据权利要求1～4中任一项所述的方法，其特征在于，所述对所述内容文本进行分句以及词法句法分析，获取多个句子的句法结构的处理包括：

对所述内容文本进行语料处理得到处理后的多个句子，

对每个句子进行词法句法分析得到句法结构。

6.根据权利要求5所述的方法，其特征在于，所述对所述内容文本进行语料处理得到处理后的多个句子的处理包括：

对所述内容文本进行分句得到多个句子，并依据语序对所述多个句子进行过滤得到过滤后的多个句子，

对所述过滤后的多个句子分别进行指代消解得到语料处理后的多个句子。

7.根据权利要求6所述的方法，其特征在于，所述对每个句子进行词法句法分析得到句法结构的处理包括：

对所述句子进行分词得到多个分词，

从所述多个分词中识别出实体词，

对所述多个分词进行词性标注，并根据标注的词性对所述实体词和多个分词进行依存分析得到句法结构。

8.根据权利要求2所述的方法，其特征在于，所述从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络的处理，还包括：根据知识点所来源的网站质量和网站数量对合并后的知识点进行校验。

9.一种生成文本摘要的装置，其特征在于，所述装置包括：

内容文本获取模块，用于获取内容文本；

句法结构获取模块，用于对所述内容文本进行分句以及词法句法分析，获取多个句子的句法结构；

知识网络生成模块，用于从所述句法结构中提取知识点，并将所述知识点进行合并得到知识网络；

文本摘要生成模块，用于根据所述知识网络生成文本摘要。

10.根据权利要求9所述的装置，其特征在于，所述知识网络生成模块包括：

子树提取单元，用于从所述句法结构中提取多个子树；

知识点提取单元，用于从所述子树提取多个知识点；

知识点合并单元，用于对所述提取的知识点进行合并，生成知识网络。

11.根据权利要求10所述的装置，其特征在于，所述知识点提取单元用于识别每个子树的语序，如果所述子树的语序为正常语句，则所述知识点提取单元直接从所述子树提取知识点，如果所述子树的语序为非正常语句，则所述知识点提取单元将所述子树的语序由非正常语句转换成正常语句，并从转换语序后的子树中提取知识点，所述非正常语句为非主谓宾语序的语句。

12.根据权利要求11所述的装置，其特征在于，所述文本摘要生成模块用于获取所述内容文本的标题，过滤所述知识网络中与所述标题不相关的知识点，并且按照预定规则对过滤后的知识网络中的知识点进行摘要组织，生成文本摘要。

13.根据权利要求9～12中任意一项所述的装置，其特征在于，所述句法结构获取模块包括：

语料处理单元，用于对所述内容文本进行语料处理得到处理后的多个句子；

14.根据权利要求13所述的装置，其特征在于，所述语料处理单元用于对所述内容文本进行分句得到多个句子，依据语序对所述多个句子进行过滤得到过滤后的多个句子，并且对所述过滤后的多个句子分别进行指代消解得到语料处理后的多个句子。

15.根据权利要求14所述的装置，其特征在于，所述词法句法分析单元用于对所述句子进行分词得到多个分词，从所述多个分词中识别出实体词，对所述多个分词进行词性标注，并根据标注的词性对所述实体词和多个分词进行依存分析得到句法结构。

16.根据权利要求10所述的装置，其特征在于，所述知识网络生成模块还包括：

知识点校验单元，用于根据知识点所来源的网站质量和网站数量对合并后的知识点进行校验。