CN110321420A

CN110321420A - 基于问句生成的智能问答系统

Info

Publication number: CN110321420A
Application number: CN201910598454.6A
Authority: CN
Inventors: 张祖希; 王彬; 杨道涵; 孙宁
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-11
Anticipated expiration: 2039-07-04
Also published as: CN110321420B

Abstract

本发明提供了一种基于问句生成的智能问答系统，该系统包括：问答对生成系统、用户问答系统、管理员后台管理系统；所述问答对生成系统提供了一种基于问句生成的问答对生成算法；所述用户问答系统提供了用户提问回答等功能；所述管理员管理系统提供了问答对管理、用户特征探索等功能。整个系统完整的实现了一个智能问答系统，可以满足用户的问答功能；该系统也提供了用于问答的基于问句生成的问答对生成算法。

Description

基于问句生成的智能问答系统

技术领域

本发明涉及自然语言处理领域，尤其是一种基于问句生成的智能问答系统。

背景技术

在越来越多的高科技产品涌入我们生活的背景下，晦涩难懂而又冗长的产品手册、案例文档、用户指南等往往会给我们对其的使用产生障碍。因此，我们对智能问答系统的需求日益增长。

目前大部分的智能问答系统是检索式智能问答系统，即用户提出问题，系统对问句进行分析，然后从文档中进行检索，获取答案。而另外一种形式的问答系统，即生成式的问答系统还比较匮乏，生成式问答系统首先会对录入的文档进行解析，抽取出其中的知识，构建知识库，然后系统对于用户的提问将基于知识库中已有的知识进行回复。

而目前业界大部分智能问答系统的知识库（QA 对/问答对）构建都是通过人工构建，一个完善的知识库构建，需要耗费大量的人力。因此我们急需一个系统能够基于给定文档，提取知识并对其进行处理，自动生成问答知识库。

发明内容

本发明提供了一种基于问句生成的智能问答系统，包括问答对生成系统、用户问答系统、管理员后台管理系统这三个子系统；其中问答对生成系统主要用于读取输入的文件，从文件中生成相应的问答对，存入知识库中；用户问答系统用于用户用来进行提问，获取答案；管理员后台管理系统用于管理员上传需要进行问答生成的文件，对知识库进行管理，查看用户使用情况。

问答对生成系统提供了一种基于问句生成的问答对生成的计算方法，该问答对生成方法从提供的文档中抽取出知识，构建问答对，存入知识库中。

所述的问答对生成算法，包括如下步骤：

（1）收集并整理常用的问句类别以及每种类别所需的疑问词和连词；

（2）上传文本数据，对文本进行预处理，将文本中的段落和单句分割出来；

（3）根据不同格式的文本进行问句生成，包括段落级别的问句生成和句子级别的问句生成；

（4）在生成问句的同时，找出该问句对应的答案；

（5）对已经生成好的问句进行复述语句生成，生成语义相同而句式不同的句子；

（6）对所有生成的问句进行句法打分，将合格的问句与问句相对应的答案保留；

（7）对所有生成的问答对进行去重判断，将不重复的问答对保存进知识库中。

上述步骤（3）中的段落级别的问句生成步骤如下：

（3-1）查看该段落是否已经有段落标题；如果有，则跳转到步骤（3-2）；如果没有；则跳转步骤（3-7）；

（3-2）查看标题是一个完整的句子还是一个短语或词语；如果是一个句子，则跳转步骤（3-3）；如果是短语词语，则跳转步骤（3-6）；

（3-3）使用问句判断方法判断句子是问句还是陈述句；如果是陈述句，则跳转步骤（3-4）；如果是疑问句，则跳转步骤（3-5）；

（3-4）段落标题是陈述句，使用句子级别的问句生成，将生成的问句作为问答对的问句，该标题对应的段落内容作为问答对的答案；

（3-5）段落标题为疑问句，该疑问句作为问答对的问句，该标题对应的段落内容作为问答对的答案；

（3-6）段落标题是短语词语，系统对短语进行分词，判断词性，根据不同的词性，系统选择不同的连接词与疑问词，将短语拼接成问句，该问句作为问答对的问句，将该标题对应的段落内容作为问答对的答案；

（3-7）系统使用提取段落关键词和段落关键句的方法，如textrank算法，提取出该段落内容的关键词语或语句，然后再使用上述已有段落标题的问句生成方法生成问答对。

上述步骤（3）中的句子级别的问句生成步骤如下：

（4-1）系统预先根据人工制定的问句种类，制定了不同类别的问句生成策略；

（4-2）系统将句子进行分词，词性标注；

（4-3）系统使用依存句法分析、语义角色标注、依存语义分析等分析手段，分析句子中的每个词的语义成分，也就是每个词在句子中起到的作用；

（4-4）系统获取句子的分析结果，当检测到某语义成分属于某一问句类别时，使用该类别的问句生成策略，进行问句生成。

上述步骤（5）中的问句复述生成，包括如下步骤：

（5-1）制作问句复述模板库；

（5-2）从模板库中选取与原问句相似度高的问句模版；

（5-3）使用选出的问句模板进行问句生成。

所述步骤（5-1）中制作问句复述模版库，包括如下步骤：

（5-1-1）系统预先通过网络爬虫从网络中获取问句数据，将获取到的问句归类到不同问句类别中；

（5-1-2）对这些问句进行分词，词性标注，句法分析等操作；

（5-1-3）对问句进行压缩处理，除去句子中作用重复的词语，以保证问句模板的精简性；

（5-1-4）对问句模板进行去重操作，将不重复的模板存入模板库中。

上述步骤（5-2）中从模板库中选取与原问句相似度高的问句模版，包括如下步骤：

（5-2-1）将原问句进行分词，使用Word2Vec将原问句与问句模板库中的问句模板分别计算出各自的词向量；

（5-2-2）使用余弦相似度计算两个句子之间的相似度；

（5-2-3）将相似度最高的十条问句模板作为原问句的复述模板。

上述步骤（5-3）中使用选出的问句模版进行问句生成，包括如下步骤：

（5-3-1）将原问句和复述模版制作成句法树；

（5-3-2）将两个树进行对比，找出其中可以替代的部分，将原问句句法树中可以替换的子树替换到复述模板句法树上；

（5-3-3）获取新生成的句法树的叶子节点，拼接成问句。

其中将原问句和复述模版制作成句法树，将原问句和复述模版问句进行分词，词性分析，然后分析了语义依存关系，将语义依存关系制作成树形结构。

最后将所有生成的问句进行句法打分，将合格的问句与问句相对应的答案保留，系统使用获取到的网络中的问句数据，将数据输入双向的LSTM神经网络，最后构建了神经语言模型，通过语言模型对所有的问句进行打分，将分值高过一定阈值的问句保留，存入知识库中；该阈值是通过人工设置的。

用户问答系统为用户提供了提问回答等功能，系统运行过程如下：

（6-1）用户在系统输入页面输入问句；

（6-2）系统将输入的问句进行分词，词性标注等处理；

（6-3）使用基于Okapi BM25算法的打分排序，寻找出最相似的问句；

（6-4）返回这个问句的答案。

用户问答系统包括了如下的功能：基于LUIS意图识别API的意图识别功能，可以分辨出用户的“闲聊”还是“提问”需求；基于seq2seq神经网络的对话生成功能，该神经网络可以用于生成“闲聊”语句；问题补完功能，在用户输入问题时，可以展示问题的补全选项，帮助用户提问；基于Okapi BM25算法的打分排序功能，在用户搜索问题时，使用算法进行对问答对知识库中的问题进行检索，返回一个最佳问题或者五个备选问题供用户选择；兴趣推荐功能，系统根据用户的提问信息，向用户提供用户可能感兴趣的问题；系统会保存用户的提问状态与提问记录；用户可以查看已问过的所有问题，并可以对感兴趣的问题进行收藏。

管理员后台管理系统帮助管理员进行整个系统的管理，包括如下的功能：数据挖掘功能，企业可获取用户最关心的问题、主题，生成用户画像，并以此对用户的需求进行分析，实行靶向营销；数据可视化功能，系统使用了KIBANA 插件，将用户数据进行可视化展示，生成用户级别的行为分析和企业级的热点问题分析图；问答对知识库操作功能，对知识库中的问答对进行增删改查的操作。

附图说明

图1是智能问答系统组成模块图；

图2是问答对生成流程图；

图3是问句复述生成流程图；

图4是用户问答系统流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，智能问答系统由三部分组成，问答对生成系统，用户问答系统，管理员后台管理系统。

问答对生成系统提供了一种问答对生成的计算方法，该问答对生成方法从提供的文档中抽取出知识，构建问答对，存入知识库中。

如图2所示的问答对生成算法，包括如下步骤：

（4）在生成问句的同时，找出该问句对应的答案；

上述步骤（1）中预先准备问句生成需要的问句类别、以及每种类别所需的疑问词和连词。本发明预先定义了问句分类的类别，包括：人物类，地点类，时间类，原因类，数量类，方式类，定义类，描述类，列表类，是否类等十类的问句类别。本发明根据不同的问句类别，制订了该问句类别的疑问词，如表示人物类的疑问词：谁，什么人，哪些人；表示原因类的疑问词：为什么，为何等。连词如，有，则，却等。

上述步骤（3）中段落级别的问句生成步骤如下：

上述步骤（3）中的句子级别的问句生成步骤如下：

（4-2）系统将句子进行分词，词性标注；

（4-4系统获取句子的分析结果，当检测到某语义成分属于某一问句类别时，使用该类别的问句生成策略，进行问句生成。

例如：原有的陈述句为“他在昨天上午离开了上海。”，在经过分词，词性标注，语义角色标注，句子中的“昨天上午”被分隔出，并被标记为时间属性，本系统将时间对应到时间类的提问规则中，时间类的疑问词为“什么时候”、“何时”等。于是，该陈述句产生的疑问句就是“他在什么时候离开了上海”。同样的该问句也可以产生疑问句“他在昨天上午离开了哪里”。

如图3所示的问句复述生成，包括如下步骤：

（5-1）制作问句复述模板库；

（5-2）从模板库中选取与原问句相似度高的问句模版；

（5-3）使用选出的问句模板进行问句生成。

所述步骤（5-1）中制作问句复述模版库，包括如下步骤：

其中对问句进行压缩处理，除去句子中作用重复的词语，系统使用预先定义好的简化模版，将一些重复的形容词，副词等没有对句子成分起到必要作用的词或者作用重复的词删除，以简化模版，使得将来能更好的进行模版匹配选取。

（5-2-2）使用余弦相似度计算两个句子之间的相似度；

（5-3-1）将原问句和复述模版制作成句法树；

（5-3-3）获取新生成的句法树的叶子节点，拼接成问句。

如图4所示的用户问答系统，包括如下步骤：

（6-1）用户在系统输入页面输入问句；

（6-2）系统将输入的问句进行分词，词性标注等处理；

（6-4）返回这个问句的答案。

管理员后台管理系统包括如下的功能：数据挖掘功能，企业可获取用户最关心的问题、主题，生成用户画像，并以此对用户的需求进行分析，实行靶向营销；数据可视化功能，系统使用了KIBANA 插件，将用户数据进行可视化展示，生成用户级别的行为分析和企业级的热点问题分析图；问答对知识库操作功能，对知识库中的问答对进行增删改查的操作。

Claims

1.一种基于问句生成的智能问答系统，其特征在于，包括：问答对生成系统、用户问答系统和管理员后台管理系统；所述问答对生成系统读取文本内容，对文本进行处理，提取出其中的有效信息，生成问答对，存入知识库中；所述用户问答系统用于用户用来进行提问，获取答案；管理员后台管理系统用于管理员上传需要进行问答生成的文件，对知识库进行管理，查看用户使用情况。

2.根据权利要求1所述的基于问句生成的智能问答系统，其特征在于：所述问答对生成系统提供了一种基于问句生成的问答对生成的计算方法，该问答对生成方法从提供的文档中抽取出知识，构建问答对，存入知识库中，计算方法的步骤如下：

（4）在生成问句的同时，标注出该问句对应的答案；

（5）对已经生成好的问句进行语句复述，生成语义相同而句式不同的句子；

3.根据权利要求2中所述的基于问句生成的智能问答系统，其特征在于：所述步骤（3）中段落级别的问句生成的步骤如下：

（3-7）系统使用提取段落关键词和段落关键句的方法，提取出能表示该段落内容的概要词语或者句子，然后再使用上述已有段落标题的问句生成方法生成问答对。

4.根据权利要求2中所述的基于问句生成的智能问答系统，其特征在于：所述步骤（3）中句子级别的问句生成的步骤如下：

（4-1）系统将句子进行分词，词性标注；

（4-2）系统使用依存句法分析、语义角色标注、依存语义分析等分析手段，分析句子中的每个词的语义成分，也就是每个词在句子中起到的作用；

（4-3）系统预先根据人工制定的问句种类，制定了不同类别的问句生成策略；系统获取句子的分析结果，当检测到某语义成分属于某一问句类别时，使用该类别的问句生成策略，进行问句生成。

5.根据权利要求2中所述的基于问句生成的智能问答系统，其特征在于：所述步骤（5）中对已经生成好的问句进行复述，生成语义相同而句式不同的句子的步骤如下：

（5-1）制作问句复述模板库；

（5-2）从模板库中选取与原问句相似度高的问句模版；

（5-3）使用选出的问句模板进行问句生成。

6.根据权利要求5中所述的基于问句生成的智能问答系统，其特征在于：所述步骤（5-1）中制作问句复述模板库的步骤如下：

（6-1）系统预先通过网络爬虫从网络中获取问句数据，将获取到的问句归类到不同问句类别中；

（6-2）对这些问句进行分词，词性标注，句法分析等操作；

（6-3）对问句进行压缩处理，除去句子中作用重复的词语，以保证问句模板的精简性；

（6-4）对问句模板进行去重操作，将不重复的模板存入模板库中。

7.根据权利要求5中所述的基于问句生成的智能问答系统，其特征在于：所述步骤（5-2）中从模板库中选取与原问句相似度高的问句模版的步骤如下：

（7-1）将原问句进行分词，使用Word2Vec将原问句与问句模板库中的问句模板分别计算出各自的词向量；

（7-2）使用余弦相似度计算两个句子之间的相似度；

（7-3）将相似度最高的十条问句模板作为原问句的复述模板。

8.根据权利要求5中所述的基于问句生成的智能问答系统，其特征在于：所述步骤（5-3）中使用选出的问句模板进行问句生成的步骤如下：

（8-1）将原问句和复述模版制作成句法树；

（8-2）将两个树进行对比，找出其中可以替代的部分，将原问句句法树中可以替换的子树替换到复述模板句法树上；

（8-3）获取新生成的句法树的叶子节点，拼接成问句。

9.根据权利要求2中所述的基于问句生成的智能问答系统，其特征在于：所述步骤（6）中对所有生成的问句进行句法打分，将合格的问句与问句相对应的答案保留，其特征在于：系统使用获取到的网络中的问句数据，通过神经网络训练神经语言模型，通过语言模型对所有的问句进行打分，将分值高过一定阈值的问句保留，存入知识库中；该阈值是通过人工设置的。

10.根据权利要求1所述的基于问句生成的智能问答系统，其特征在于：用户问答系统为用户提供了提问回答等功能，系统运行过程如下：

（10-1）用户在系统输入页面输入问句；

（10-2）系统将输入的问句进行分词，词性标注等处理；

（10-3）使用基于Okapi BM25算法的打分排序，寻找出最相似的问句；

（10-4）返回这个问句的答案。