CN106777080A

CN106777080A - 短摘要生成方法、数据库建立方法及人机对话方法

Info

Publication number: CN106777080A
Application number: CN201611146025.8A
Authority: CN
Inventors: 简仁贤; 产文; 陈思聪; 贾陆华; 叶俊杰; 董彦均
Original assignee: Intelligent Technology (shanghai) Co Ltd
Current assignee: Intelligent Technology (shanghai) Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-05-31
Anticipated expiration: 2036-12-13
Also published as: CN106777080B

Abstract

本发明属于人工智能技术领域，提供了一种短摘要生成方法、数据库建立方法及人机对话方法。本发明提供的基于实体分类的短摘要生成方法，包括：获取实体，对所述实体进行分类；根据所述实体的类别选取合适的摘要内容；选用与所述摘要内容对应的摘要算法，从所述实体的百科页面中提取摘要信息；拼接所述摘要信息得到短摘要。本发明提供的基于实体分类的短摘要生成方法，在人机对话过程中，可以提高回答涉及百科知识性问题的简洁度和概括度。

Description

短摘要生成方法、数据库建立方法及人机对话方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于实体分类的短摘要生成方法、一种基于短摘要的数据库建立方法及一种人机对话方法。

背景技术

在现有的人工智能对话系统中，大部分直接使用百科实体的人工介绍作为答案，但是这种直接从网络百科中获取的答案往往非常冗长，对于机器人特别是语音机器人非常不方便。目前解决的方法有：一，摘取前几句介绍作为答案，二，使用一些社区问答上的回复直接作为答案；第一种方法的弊端是用户从回答中不能得到足够有用的信息量，第二种方法的弊端是答案往往显得不够权威。

发明内容

针对现有技术中的缺陷，本发明提供的一种基于实体分类的短摘要生成方法、一种基于短摘要的数据库建立方法及一种人机对话方法，在人机对话过程中，可以提高回答涉及百科知识性问题的简洁度和概括度。

第一方面，本发明提供的一种基于实体分类的短摘要生成方法，包括：获取实体，对所述实体进行分类；根据所述实体的类别选取合适的摘要内容；选用与所述摘要内容对应的摘要算法，从所述实体的百科页面中提取摘要信息；拼接所述摘要信息得到短摘要。

本发明提供的基于实体分类的短摘要生成方法，能够针对不同的实体类别，生成简洁概括的短摘要，在人机对话过程中作为针对实体的答案，提高了机器人对话的效率。

优选地，所述对所述实体进行分类，包括：获取所述实体的百科页面；在所述百科页面中提取特征值；将所述特征值输入层次分类器，得到所述实体的类别。

优选地，所述在所述百科页面中提取特征值，包括：在所述百科页面中提取词条标签、属性特征和词条主要介绍中的词。

优选地，所述选用与所述摘要内容对应的摘要算法，从所述实体的百科页面中提取摘要信息，包括：若所述摘要内容中包含属性，则使用HTML解析器在所述实体的百科页面中提取属性信息，作为所述属性对应的摘要信息；若所述摘要内容中包含主要故事梗概，则在所述实体的百科页面中检索故事梗概关键词，将包含故事梗概关键词的语句，作为主要故事梗概对应的摘要信息；若所述摘要内容中包含评论，则在所述实体的百科页面中检索评论关键词，从包含关键词的段落中抽取评论内容，作为评论对应的摘要信息；若所述实体的类别为人物，则在所述实体的百科页面中检索时间关键词，若检索到的时间关键词为近期的时间，则判定所述人物为热门人物，检索所述热门人物的新闻信息，作为热门人物对应的摘要信息。

优选地，所述使用HTML解析器在所述实体的百科页面中提取属性信息，包括：使用HTML解析器在所述实体的百科页面中提取属性信息，若没有提取到属性信息，则选取所述属性的同义词，根据所述同义词使用HTML解析器在所述实体的百科页面中提取属性信息。

优选地，所述使用HTML解析器在所述实体的百科页面中提取属性信息，包括：使用HTML解析器在所述实体的百科页面中提取属性信息，对所述属性信息进行正则化。

优选地，所述在所述实体的百科页面中检索评论关键词，从包含评论关键词的段落中抽取评论内容，包括：在所述实体的百科页面中检索评论关键词，从包含评论关键词的段落中抽取评论内容，所述包含评论关键词的段落以所述评论关键词出现一级标题为起点，以下一个一级标题为结束。

优选地，所述拼接所述摘要信息得到短摘要，包括：对所述摘要信息做预处理；根据所述实体的类别，按一定顺序拼接预处理后的摘要信息得到短摘要。

第二方面，本发明提供的一种基于短摘要的数据库建立方法，包括：在数据库中建立实体的索引；根据第一方面所述的方法生成所述实体的短摘要；根据所述实体的索引将所述短摘要作为所述实体的属性存入所述数据库中。

本发明提供的基于短摘要的数据库建立方法，将实体分类生成的短摘要存储到数据库中相应的实体中，将该短摘要也作为实体的一个属性，以便同其它属性一样能被检索和查询，提高了机器人回答涉及百科知识性问题的简洁度和概括度。本实施例优选使用图形数据库作为存储实体属性和关系的数据库。

第三方方面，本发明提供的一种人机对话方法，包括：根据用户输入的文本信息判断查询的属性是否为短摘要；若查询的属性是短摘要，则获取所述文本信息中的实体；从数据库中查找所述实体的短摘要，作为回答，其中，所述数据库通过第二方面所述的方法建立。

本发明提供的人机对话方法，从数据库中获取实体的短摘要，作为机器人的回答，提高了机器人回答涉及百科知识性问题的简洁度和概括度，针对不同的实体类别，采用不同的模式进行回答，提高了聊天机器人回答的灵活性和趣味性。

附图说明

图1为本发明实施例所提供的一种基于实体分类的短摘要生成方法的流程图；

图2为本发明实施例所提供的一种基于短摘要的数据库建立方法的流程图；

图3为本发明实施例提供的一种人机对话方法的流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，本实施例提供的一种基于实体分类的短摘要生成方法，包括：

步骤S1，获取实体，对实体进行分类。

其中，实体是指客观存在的人或物，如：人物、电影、小说、动物、植物、物品等等。根据实体不同的性质，实体的类别已经预先做好分类。

步骤S2，根据实体的类别选取合适的摘要内容。

步骤S3，选用与摘要内容对应的摘要算法，从实体的百科页面中提取摘要信息。

其中，百科页面是指将实体作为关键词，通过百度百科等方式获取到的解释实体相关属性的网页。

步骤S4，拼接摘要信息得到短摘要。

本实施例提供的基于实体分类的短摘要生成方法，能够针对不同的实体类别，生成简洁概括的短摘要，在人机对话过程中作为针对实体的答案，提高了机器人对话的效率。

步骤S1的具体实现方式包括：

步骤S11，获取实体的百科页面。

步骤S12，在百科页面中提取特征值。

步骤S13，将特征值输入层次分类器，得到实体的类别。

其中，特征值包括词条标签、属性特征和词条主要介绍中的词。

在百科页面中，实体的词条往往提供了人工给定的词条标签，比如，知名人物姚明的词条标签为“运动员，话题人物，篮球运动员，体育人物”。这些词条标签往往给的比较随意，导致通过百科页面获取的实体存在几万个不同的标签。但是其语义往往只有数百个，比如：姚明的标签中往往只有“体育人物”比较有用，而“篮球人物”比较具体，可能不需要划分的这么细，然后由“体育人物”我们可以抽象一个“人物”类，这样该词条就被很好的组织了起来，其它体育人物就可以在没有明显人工标签“体育人物”的基础上被自动分类到该类别中来。本发明对后台用户常聊的实体进行总结，设计了20多个大类和100多个小类，来组织实体，比如：体育人物类、娱乐人物类、电影类、电视剧类和小说类等。一个实体的词条标签很容易获取，而且与实体类别的相关性很大，因此，选取词条标签作为层次分类器的特征值，有助于提高分类器的准确度。

相同类别往往存在相似的属性，比如，电视剧和电影都有主演这个属性，而小说类往往都存在作者这个属性，人物类基本上都有国籍等属性。因此，选取属性特征作为层次分类器的特征值，有助于提高分类器的准确度。

词条的主要介绍则包含了丰富的文本信息，根据相关研究，长文本分类往往比短词语文本分类更准确，主要是长文本往往包含更丰富的语义信息和具有区分度的特征词。

因此，本实施例采用词条标签、属性特征和词条主要介绍中的词这三类特征值训练层次分类器，在目前的超过100万的百科实体上取得了90％以上的准确度。

一般的层次分类模型均可以用来实现本实施例中的层次分类器，在特征值抽取合适的情况下各层次分类模型的效果相差不大，因此不对采用的层次分类模型做进一步限定。

步骤S2中，摘要内容包括但不限于以下内容：属性、主要故事梗概、评论等。属性包括但不限于以下内容：人物属性、主演属性、类型属性等。不同的类别选取不同的摘要内容。比如，实体的类别为体育明星和娱乐明星，则摘要内容可以选取人物属性和人物评论，采取人物属性中的常问属性进行基本解答，然后辅之以一两句经典人物评论为润色，可以达到鲜活明快的对话效果，避免了机械式背书回答；对电影和电视剧类别，主演和类型往往是大众感兴趣的属性，而一句话的主要故事梗概则往往必不可少，所以就采取这种主演加情节的方式，对应的摘要内容可以选取主演属性、类型属性、主要故事梗概；对于小说类，除了本身的主要故事梗概吸引人的眼球之外，还需要整理一些主要人物之间的关系，特别是很纠结的情感关系，这样容易打动读者，则摘要内容可以选取作者属性、类型属性、主要故事梗概、小说评价。上述例子只是为了说明摘要内容的确定方式，不是对摘要内容的具体限定，实际确定摘要内容方式为：根据后台的搜索量来分析设计不同类别的摘要内容。

本实施例对不同的摘要内容设计了不同的摘要算法，以完成不同摘要信息的提取，以下面几种算法为例进行说明。

(1)提取属性的摘要算法

识别百科页面中涉及摘要内容的属性相对简单，具体实现步骤为：使用HTML解析器在百科页面中根据不同的属性对应的特征词选取即可，例如：主演，体裁或类型等。

百科页面中的属性并不是很规范，会存在多个相同语义的同义词作为属性名，为了解决上述问题，提取属性的摘要算法中会考虑采用同义词进行提取，具体实现步骤为：使用HTML解析器在实体的百科页面中提取属性信息，若没有提取到属性信息，则选取属性的同义词，根据同义词使用HTML解析器在实体的百科页面中提取属性信息。

另外，提取的属性信息可能存在不规范的情况，例如，有些属性后面会包含“[4]”这种超链接，需要小心地去除掉。解决上述问题的方法为对提取的属性信息进行正则化，具体实现步骤为：使用HTML解析器在实体的百科页面中提取属性信息，对属性信息进行正则化。

针对属性是“主要演员”的情况，如果有超过3个以上的主要演员，需要对其进行抽取前三名的操作，因为用户往往对排名靠后的非著名影星不感兴趣。

其中，HTML解析器的功能是用于解析HTML文本内容，可以使用DOM或CSS选择器来查找、取出、操作数据；也可以操作HTML元素、属性、文本。

提取属性的摘要算法可用来提取百科页面中的结构化属性，如人物属性、主演属性、类型属性等。

(2)提取主要故事梗概的摘要算法

识别主要故事梗概的算法稍复杂一些，因为主要故事梗概含在整个词条的介绍正文中。但是，比较幸运的是，人们在生成这些内容介绍时使用了一些很有归纳性的特征用语，例如：“讲述、叙述、描写、概括、为背景、为脉络、为主线”等等，这些都是主要故事梗概出现的标识，本实施例一共总结了58个故事梗概关键词作为判断故事梗概的特征，在百科页面中提取主要故事梗概时，取得了很好的效果。结果表明，无论主要故事梗概出现在第一段，还是第二段，还是在某段中间，通过归纳得到的故事梗概关键词都能精准地定位主要故事梗概，找出来作为摘要信息。因此，提取主要故事梗概的具体实现步骤为：在实体的百科页面中检索故事梗概关键词，将包含故事梗概关键词的语句，作为主要故事梗概对应的摘要信息。

(3)提取评论的摘要算法

识别人物类评论或影视评论也相对简单，只需要找到其中的评论关键词，如“评论、点评、述评”等。但是需要注意的是，与评论有关的内容使用HTML解析器是找不到的，因为与评论有关的内容在百科页面中的组织方式不是层次而是平铺的，也就是说这些内容没有深度结构关系，而是需要找到其开始和结束标志。我们在百科中以上述评论的关键词出现(出现在一级标题)为起点，然后以下一个一级标题为结束，来抽取其中的评论内容。

提取评论的具体实现方法为：在实体的百科页面中检索评论关键词，从包含关键词的段落中抽取评论内容，作为评论对应的摘要信息。

进一步地，提取评论的具体实现方法包括：在实体的百科页面中检索评论关键词，从包含评论关键词的段落中抽取评论内容，包含评论关键词的段落以评论关键词出现一级标题为起点，以下一个一级标题为结束。

对于热门人物，人们往往还比较关心其近期的新闻热点，因此，步骤S3中还包括识别热门人物的步骤，并追踪其新闻事件。识别人物是否是热门人物主要根据该人物近期的新闻，如果某人物在最近一个月或数个月有活动，则认为他是热门人物。这样也是比较合理的，因为只有当该人物的新闻足够有影响力时，才会被编辑到百科词条中。因此，步骤S3中的识别热门人物的步骤具体包括：若实体的类别为人物，则在实体的百科页面中检索时间关键词，若检索到的时间关键词为近期的时间，则判定人物为热门人物，检索热门人物的新闻信息，作为热门人物对应的摘要信息。

步骤S4的具体实现方式包括：

步骤S41，对摘要信息做预处理。

其中，对摘要信息做预处理包括：删除摘要信息中的一些内容，将代词转换成相应的实体名等。一般人物类介绍在前两句去除一些不经常被问的属性，如，祖籍和出生日期等，留下来的基本还保持完整。评论的语句中，经常有些人称代词，需要转换成相应的实体名。

步骤S42，根据实体的类别，按一定顺序拼接预处理后的摘要信息得到短摘要。

在拼接过程中，需保证拼接内容通顺，且拼接的内容不致于太短或太长。保证拼接内容通顺的做法则是尽量要保证选取完整的句子，并且取段首的句子。有时候，一句完整的句子包含的信息量很大并且很长，则需要看看其中有无分句(根据分号来判断)，如果有分句取第一个分句内容往往比较精炼。最后，这几部分的摘要信息拼接起来后总长度如果超出一定字数，则需要决定需要更换或删除那部分的内容，一般按照先主观后客观、先整句后拼接短语的顺序，即当评论内容有时删除客观介绍，有客观介绍时删除属性。

基于上述方法生成的短摘要，本实施例还提供了一种基于短摘要的数据库建立方法，如图2所示，包括：

步骤S101，在数据库中建立实体的索引。

步骤S102，根据基于实体分类的短摘要生成方法生成实体的短摘要。

步骤S103，根据实体的索引将短摘要作为实体的属性存入数据库中。

本实施例提供的基于短摘要的数据库建立方法，将实体分类生成的短摘要存储到数据库中相应的实体中，将该短摘要也作为实体的一个属性，以便同其它属性一样能被检索和查询，提高了机器人回答涉及百科知识性问题的简洁度和概括度。本实施例优选使用图形数据库作为存储实体属性和关系的数据库。

基于上述方法构建的数据库，本实施例还提供了一种人机对话方法，如图3所示，包括：

步骤S201，根据用户输入的文本信息判断查询的属性是否为短摘要。

步骤S202，若查询的属性是短摘要，则获取文本信息中的实体。

步骤S203，从数据库中查找实体的短摘要，作为回答。

在线问答或对话时，一般用户不会直接问：“姚明的摘要是什么”，而是需要判断用户哪些类型的问法会触及摘要。具体地，可以使用模板匹配或深度学习的方法实现步骤S201。

本实施例提供的人机对话方法，从数据库中获取实体的短摘要，作为机器人的回答，提高了机器人回答涉及百科知识性问题的简洁度和概括度，针对不同的实体类别，采用不同的模式进行回答，提高了聊天机器人回答的灵活性和趣味性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于实体分类的短摘要生成方法，其特征在于，包括：

获取实体，对所述实体进行分类；

根据所述实体的类别选取合适的摘要内容；

选用与所述摘要内容对应的摘要算法，从所述实体的百科页面中提取摘要信息；

拼接所述摘要信息得到短摘要。

2.根据权利要求1所述的方法，其特征在于，所述对所述实体进行分类，包括：

获取所述实体的百科页面；

在所述百科页面中提取特征值；

将所述特征值输入层次分类器，得到所述实体的类别。

3.根据权利要求2所述的方法，其特征在于，所述在所述百科页面中提取特征值，包括：在所述百科页面中提取词条标签、属性特征和词条主要介绍中的词。

4.根据权利要求1所述的方法，其特征在于，所述选用与所述摘要内容对应的摘要算法，从所述实体的百科页面中提取摘要信息，包括：

若所述摘要内容中包含属性，则使用HTML解析器在所述实体的百科页面中提取属性信息，作为所述属性对应的摘要信息；

若所述摘要内容中包含主要故事梗概，则在所述实体的百科页面中检索故事梗概关键词，将包含故事梗概关键词的语句，作为主要故事梗概对应的摘要信息；

若所述摘要内容中包含评论，则在所述实体的百科页面中检索评论关键词，从包含关键词的段落中抽取评论内容，作为评论对应的摘要信息；

若所述实体的类别为人物，则在所述实体的百科页面中检索时间关键词，若检索到的时间关键词为近期的时间，则判定所述人物为热门人物，检索所述热门人物的新闻信息，作为热门人物对应的摘要信息。

5.根据权利要求4所述的方法，其特征在于，所述使用HTML解析器在所述实体的百科页面中提取属性信息，包括：使用HTML解析器在所述实体的百科页面中提取属性信息，若没有提取到属性信息，则选取所述属性的同义词，根据所述同义词使用HTML解析器在所述实体的百科页面中提取属性信息。

6.根据权利要求4所述的方法，其特征在于，所述使用HTML解析器在所述实体的百科页面中提取属性信息，包括：使用HTML解析器在所述实体的百科页面中提取属性信息，对所述属性信息进行正则化。

7.根据权利要求4所述的方法，其特征在于，所述在所述实体的百科页面中检索评论关键词，从包含评论关键词的段落中抽取评论内容，包括：在所述实体的百科页面中检索评论关键词，从包含评论关键词的段落中抽取评论内容，所述包含评论关键词的段落以所述评论关键词出现一级标题为起点，以下一个一级标题为结束。

8.根据权利要求1所述的方法，其特征在于，所述拼接所述摘要信息得到短摘要，包括：

对所述摘要信息做预处理；

根据所述实体的类别，按一定顺序拼接预处理后的摘要信息得到短摘要。

9.一种基于短摘要的数据库建立方法，其特征在于，包括：

在数据库中建立实体的索引；

根据权利要求1～5中任一项所述的方法生成所述实体的短摘要；

根据所述实体的索引将所述短摘要作为所述实体的属性存入所述数据库中。

10.一种人机对话方法，其特征在于，包括：

根据用户输入的文本信息判断查询的属性是否为短摘要；

若查询的属性是短摘要，则获取所述文本信息中的实体；

从数据库中查找所述实体的短摘要，作为回答，其中，所述数据库通过权利要求9所述的方法建立。