CN110188174B

CN110188174B - 一种基于专业词汇挖掘的专业领域faq智能问答方法

Info

Publication number: CN110188174B
Application number: CN201910316908.6A
Authority: CN
Inventors: 吕明琪; 张�浩; 朱康钧; 黄超; 陈铁明
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2021-10-29
Anticipated expiration: 2039-04-19
Also published as: CN110188174A

Abstract

一种基于专业词汇挖掘的专业领域FAQ智能问答方法，包括以下步骤：(1)频繁词挖掘与归并：基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词，并对同频候选频繁词进行归并，最终得到频繁词集；(2)频繁词过滤与验证：采用词法规则对频繁词进行过滤，采用互联网知识对频繁词进行验证，最终得到专业词汇集；(3)问题检索与答案返回：借助专业词汇集抽取实时问题关键词，在此基础上对历史问题进行全文检索和匹配度计算，最终返回匹配度最高的历史问题对应的答案。本发明提供了一种提高专业领域FAQ智能问答系统的服务质量的基于专业词汇挖掘的专业领域FAQ智能问答方法。

Description

一种基于专业词汇挖掘的专业领域FAQ智能问答方法

技术领域

本发明涉及数据挖掘和自然语言处理技术，具体涉及一种智能问答方法。

背景技术

智能问答系统可根据用户以自然语言形式输入的问句，返回最符合用户意图的文本信息。根据实现方式的不同，智能问答系统大致可分为基于信息检索的智能问答系统、基于阅读理解的智能问答系统、基于知识图谱的智能问答系统等。其中，基于信息检索的智能问答系统即FAQ智能问答系统，指在历史问答数据中检索得到最符合用户当前问题的答案。由于历史问答数据通常由领域专家提供，因此FAQ智能问答系统给出的答案质量较高，这种特性使得其较为适合面向专业领域的智能问答系统。

现有FAQ智能问答系统的主流实现技术为关键词检索，其主要流程如下：首先，从用户问题中抽取关键词。然后，基于关键词对历史问题进行全文检索。最后，对检索结果进行评分并返回评分最高的历史问题对应的答案。然而，现有方法没有充分考虑专业领域问答的特点。对于专业领域问题，其中包含的专业词汇对理解该问题具有关键的意义，但现有方法难以有效处理，主要表现在：首先，大多专业词汇不包含在通用词库里，因此分词算法难以正确的对包含专业词汇的问句进行分词，无法抽取高质量的专业领域关键词。其次，即使分词算法能够对专业词汇进行正确分割，系统也只是将专业词汇和普通词汇同等对待，无法体现专业词汇在结果评分中的重要性。因此，若能够有效的对专业词汇进行挖掘和抽取，可极大程度提高专业领域FAQ智能问答系统的服务质量。

发明内容

为了克服已有FAQ智能问答系统的服务质量较低的不足，本发明提供了一种提高专业领域FAQ智能问答系统的服务质量的基于专业词汇挖掘的专业领域FAQ智能问答方法。

本发明解决其技术问题所采用的技术方案是：

一种基于专业词汇挖掘的专业领域FAQ智能问答方法，包括以下步骤：

(1)频繁词挖掘与归并：基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词，并对同频候选频繁词进行归并，最终得到频繁词集；

(2)频繁词过滤与验证：采用词法规则对频繁词进行过滤，采用互联网知识对频繁词进行验证，最终得到专业词汇集；

(3)问题检索与答案返回：借助专业词汇集抽取实时问题关键词，在此基础上对历史问题进行全文检索和匹配度计算，最终返回匹配度最高的历史问题对应的答案。

进一步，所述步骤(1)中，给定专业领域文档集S，频繁词挖掘与归并的步骤如下：

(1-1)初始化：扫描S，寻找所有出现频次大于等于指定阈值min_sup的字，并以其中每个字作为根节点构造一颗树，初始化n＝2；

(1-2)候选频繁词挖掘：基于N-Gram模型扫描S，寻找所有出现频次大于等于min_sup的长度为n的候选频繁词，得到候选频繁词集CWS；

(1-3)候选频繁词索引：若

则对其中每个候选频繁词cw，基于深度优先搜索在所有树中寻找路径对应cw[0:n-1]的一条分支，将字cw[n-1]插入该分支，并设置插入边的权重为cw的出现频次，然后n＝n+1，转向步骤(1-2)；反之，则转向步骤(1-4)；

(1-4)候选频繁词归并：对每颗树进行深度优先搜索，若当前边的权重小于上一条边的权重，则输出根节点到当前边父节点构成的路径所对应的候选频繁词作为频繁词；若当前边的子节点为叶子节点，则输出整条路径对应的候选频繁词作为频繁词。

再进一步，所述步骤(2)中，设步骤(1)中最终得到的频繁词集为WS，频繁词过滤与验证的步骤如下：

(2-1)词性规则过滤：首先，对专业领域文档集S中的每个句子进行词性标注，然后，对WS中每个频繁词w，若S中所有出现的w均不是名词性短语，则从WS中删除w；

(2-2)词频规则过滤：首先，构造一个非本专业领域的一般性文档集NS，然后，对WS中每个频繁词w，计算w在NS中的出现频次，若该出现频次大于指定阈值，则从WS中删除w；

(2-3)互联网知识验证：对WS中每个频繁词w，在百度百科、CN-Probase等互联网知识库上进行检索，若任一互联网知识库中包含w，则保留w为专业词汇。

更进一步，所述步骤(3)中，设步骤(2)中最终得到的专业词汇集为TS，给定实时问题Q，问题检索与答案返回的步骤如下：

(3-1)实时问题预处理：首先，将TS加入分词词库，然后，对Q进行分词和去停用词处理；

(3-2)专业关键词抽取：首先，基于TextRank算法计算Q中每个词的重要度权值。然后，若Q中包含的专业词汇数量大于等于指定关键词数量k，则保留重要度权值最高的k个专业词汇，构造专业关键词集KT(Q)，转向步骤(3-4)；反之，则保留所有专业词汇，构造专业关键词集KT(Q)，转向步骤(3-3)；

(3-3)普通关键词抽取：从Q中包含的KT(Q)之外的词中挑选重要度权值最高的k-|KT(Q)|个词汇，构造普通关键词集KW(Q)；

(3-4)全文检索：Q的最终关键词集K(Q)＝KT(Q)∪KW(Q)，基于Lucene全文检索引擎从历史问题库中检索至少包含K(Q)中一个词的所有历史问题，形成候选问题列表CQ(Q)；

(3-5)匹配度计算：对CQ(Q)中每个候选问题CQ，计算其包含KT(Q)中词的数量n(CQ)和包含KW(Q)中词的数量m(CQ)，然后对n(CQ)和m(CQ)进行加权求和，计算Q和CQ的匹配度，最终，返回匹配度最高的候选问题对应的答案。

优选的，所述(3-5)中，Q和CQ的匹配度由下述公式计算得到：

其中，α为专业关键词权重，β为普通关键词权重，β<α。

本发明的有益效果主要表现在：(1)基于子串挖掘和互联网知识对专业词汇进行挖掘，使得系统可更准确的理解问句。(2)利用专业词汇进行问题评分，使得系统可更有效的定位答案。

附图说明

图1为一种基于专业词汇挖掘的专业领域FAQ问答方法的流程图；

图2为频繁词挖掘与归并实施例图；

图3为问题检索与答案返回流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1`图3，一种基于专业词汇挖掘的专业领域FAQ问答方法，包括以下步骤：

(1)频繁词挖掘与归并：基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词，并对同频候选频繁词进行归并，最终得到频繁词集。

(2)频繁词过滤与验证：采用词法规则对频繁词进行过滤，采用互联网知识对频繁词进行验证，最终得到专业词汇集。

参照图2，所述步骤(1)中，给定具体实施例(专业领域文档集S＝{"ABCBC","ABCB","ACAC"}，频繁词支持度阈值min_sup＝2)，频繁词挖掘与归并的步骤如下：

(1-1)初始化：扫描S，寻找所有出现频次大于等于min_sup的字，并以其中每个字作为根节点构造一颗树，初始化n＝2；

(1-3)候选频繁词索引：若

所述步骤(2)中，设步骤(1)中最终得到的频繁词集为WS，频繁词过滤与验证的步骤如下：

所述步骤(3)中，设步骤(2)中最终得到的专业词汇集为TS，给定实时问题Q，问题检索与答案返回的步骤如下：

(3-1)实时问题预处理：首先，将TS加入分词词库。然后，对Q进行分词和去停用词处理；

(3-2)专业关键词抽取：首先，基于TextRank算法计算Q中每个词的重要度权值；然后，若Q中包含的专业词汇数量大于等于指定关键词数量k，则保留重要度权值最高的k个专业词汇，构造专业关键词集KT(Q)，转向步骤(3-4)；反之，则保留所有专业词汇，构造专业关键词集KT(Q)，转向步骤(3-3)；

(3-5)匹配度计算：对CQ(Q)中每个候选问题CQ，计算其包含KT(Q)中词的数量n(CQ)和包含KW(Q)中词的数量m(CQ)，则Q和CQ的匹配度由下述公式计算得到

其中，α为专业关键词权重，β为普通关键词权重，β<α；

最终，返回匹配度最高的候选问题对应的答案。

Claims

1.一种基于专业词汇挖掘的专业领域FAQ智能问答方法，其特征在于，所述方法包括以下步骤：

(3)问题检索与答案返回：借助专业词汇集抽取实时问题关键词，在此基础上对历史问题进行全文检索和匹配度计算，最终返回匹配度最高的历史问题对应的答案；

所述步骤(1)中，给定专业领域文档集S，频繁词挖掘与归并的步骤如下：

(1-3)候选频繁词索引：若

(1-4)候选频繁词归并：对每颗树进行深度优先搜索，若当前边的权重小于上一条边的权重，则输出根节点到当前边父节点构成的路径所对应的候选频繁词作为频繁词；若当前边的子节点为叶子节点，则输出整条路径对应的候选频繁词作为频繁词；

(2-3)互联网知识验证：对WS中每个频繁词w，在互联网知识库上进行检索，若任一互联网知识库中包含w，则保留w为专业词汇。

2.如权利要求1所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法，其特征在于，所述步骤(3)中，设步骤(2)中最终得到的专业词汇集为TS，给定实时问题Q，问题检索与答案返回的步骤如下：

(3-2)专业关键词抽取：首先，基于TextRank算法计算Q中每个词的重要度权值，然后，若Q中包含的专业词汇数量大于等于指定关键词数量k，则保留重要度权值最高的k个专业词汇，构造专业关键词集KT(Q)，转向步骤(3-4)；反之，则保留所有专业词汇，构造专业关键词集KT(Q)，转向步骤(3-3)；

3.如权利要求2所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法，其特征在于，所述(3-5)中，Q和CQ的匹配度由下述公式计算得到：

其中，α为专业关键词权重，β为普通关键词权重，β<α。