CN105740310B

CN105740310B - 一种用于问答系统中的自动答案摘要方法及系统

Info

Publication number: CN105740310B
Application number: CN201510963623.3A
Authority: CN
Inventors: 刘秉权; 游世学; 孙承杰; 成昊
Original assignee: Beijing Zhongke Huilian Technology Co Ltd; Harbin Institute of Technology
Current assignee: Beijing Zhongke Huilian Technology Co Ltd; Harbin Institute of Technology
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2019-08-02
Anticipated expiration: 2035-12-21
Also published as: CN105740310A

Abstract

本发明提供一种用于问答系统中的自动答案摘要方法及系统，其包括：获得用户查询问题与问答系统返回的候选答案集；从问题中提取概念，将概念与问题建立映射，得到问题概念集，从候选答案句子中提取概念，将概念与句子建立映射，得到句子概念集，对所有句子的概念集取并集得到答案概念集；对问题概念集进行概念扩展、概念约减，得到问题扩展概念集，问题扩展概念集与答案概念集取交集获得命中概念集；对命中概念集中包含的概念进行句子质量计算，得到答案摘要。本发明利用概念网络中各个概念的关系，构建句子等权重，克服句子可能与问题无关的问题，然后通过整数规划的方法，选出答案中和问题最为相关的句子，构成最终的答案摘要。

Description

一种用于问答系统中的自动答案摘要方法及系统

技术领域

本发明涉及计算机信息检索及自然语言处理领域，尤其是一种用于问答系统中的，基于概念网络与整数规划的自动答案摘要方法及系统。

背景技术

随着互联网的普及，人们越来越多地在互联网上寻求帮助，面对不断丰富的海量互联网知识，以百度知道为首的各种问答系统为其在网上寻求信息提供了极大的便利。但是以百度知道为例，其答案长度都较短，口语化等噪声比较严重，由此造成了答案可能包含的信息不全，甚至答非所问。答案摘要技术是解决上述问题的一种有效技术手段，将候选答案中的信息进行聚合、去冗余等，从而得到精练而全面的答案信息，从而辅助用户快速理解。

目前已有的答案摘要方法大多是沿用多文档摘要方法：基于图的方法，如TextRank、Lexrank，这类方法将句子视作节点，不光考虑了句子节点自身的权重，也将各个句子间的关系(边)作为考虑因素，缺点是对于较长答案摘要构建图时间较长，摘要冗余度较高。基于有监督学习的方法，该类方法利用如SVM等机器学习方法，对数据进行训练，学习答案句子和问题间的相关程度，从而对句子进行排序的方式进行摘要，缺点则是需要进行大量的标注，容易过拟合同时对数据要求较高，不适应实际的问答检索系统的场景。

基于整数规划的方法，全局寻找质量最高的句子组成摘要，但是没有考虑答案句子和问题间的联系，虽然减少了冗余但是选出的句子会与问题无关。因此，传统的文档摘要技术难以很好的应用到实际的问答系统场景中。

因此，有必要提出一种新的测试方案。

发明内容

为克服现有问答系统针对用户查询返回的结果存在的信息不全、噪声较多的问题，本发明提供一种用于问答系统中的自动答案摘要方法，其从问题和答案中的概念角度出发，利用概念网络中各个概念在现实世界中的实际关系，构建句子等权重，克服句子可能与问题无关的问题，然后通过整数规划的方法，选出答案中和问题最为相关的句子，构成最终的答案摘要。

本发明提供一种用于问答系统中的自动答案摘要方法，其包括如下步骤：

S1、获得用户查询问题与问答系统返回的候选答案集；

S2、从问题中提取概念，将提取的概念与问题建立映射关系，得到问题概念集，从候选答案的句子中提取概念，将提取的概念与句子建立映射关系，得到句子概念集，对所有句子的概念集取并集得到答案概念集，并获得答案概念集中的概念与答案中句子的共现矩阵；

S3、对问题概念集进行概念扩展、概念约减，得到问题扩展概念集，所述问题扩展概念集与答案概念集取交集获得命中概念集；

S4、根据命中概念集中包含的概念进行句子质量计算，建立优化函数，利用整数规划方法得到答案摘要。

进一步的，所述步骤S2中概念映射方法包括：利用词性标注结果，抽取出对于问题和答案具有表义信息的概念，具体包括如下步骤：

S21、输入候选答案集中的句子，通过分词、词性标注、去停用词，得到词序列；

S22、若所述词序列中的任一词在概念网络中，则将该词加入概念集中；

S23、根据词序列产生二元词序列，对于任一二元词，词3＝词1+词2，若词3在概念网络中，且词1和词2的词性为名词或动词，则将词3加入概念集中，否则跳过词3，继续循环，直至二元词序列中所有二元词被遍历，返回概念集；

S24、重复上述步骤，处理所有候选答案集中的句子，得到答案中每个句子的概念集，对每个句子的概念集取并集得到答案概念集，并获得答案概念集中的概念与答案中句子的共现矩阵。

进一步的，对于问题和答案具有表义信息的概念包括名词、动词、名词短语、动词短语。

进一步的，步骤S3中，概念扩展包括同义层扩展和关联层扩展，

所述概念扩展的方法包括：利用概念网络中的概念间的同义关系对概念先进行同义层扩展，再利用概念网络中的概念间的关联关系对概念进一步扩展，得到概念扩展后的扩展概念集；

概念约减方法包括：

对于同义层扩展结果，利用PageRank算法得到同义层概念权重，其中，PageRank算法的阻尼系数d＝0.85；

对于关联层扩展结果，采用启发式概念权重计算方法得到关联层概念权重，其中，启发式概念权重计算公式如下：

w_c＝(count(R)+1)²×∑_s∈SynCSW_s×E(s,c)

其中SynC表示经过同义层约减后的概念集合，count(R)表示概念c和SynC中概念在概念网络中的连接数，SW表示概念经过PageRank后得到的权重，E是查找边权重的函数，如果c和s间有连接则是边的权重，否则为0。

进一步的，步骤S4中句子质量计算方法包括如下步骤：

S41、在步骤S3中概念约减得到的权重基础上，增加概念在答案中的频次权重，定义概念c权重w_c如下：

其中ow_c为概念约减后的权重，freq为概念在答案中出现的频次，α,β为常量系数；

S42、定义句子质量t_j：

其中a_j为句子s_j的概念列表，count(x)返回集合x中元素个数，w_c表示概念c的权重，b_i是加权系数。

根据本发明的另一方面，本发明还提供一种自动答案摘要系统，其包括：输入模块、输出模块、概念映射模块、概念扩展及约减模块、句子质量计算模块及整体规划答案摘要模块，

所述输入模块，用于接受问答系统输出的问题和候选答案集；

所述概念映射模块，用于从问题中提取概念，将提取的概念与问题建立映射关系，得到问题概念集，从候选答案的句子中提取概念，将提取的概念与句子建立映射关系，得到句子概念集，对所有句子的概念集取并集得到答案概念集；

所述概念扩展及约减模块，用于对问题概念集进行概念扩展、概念约减，得到问题扩展概念集，所述问题扩展概念集与答案概念集取交集获得命中概念集；

所述句子质量计算模块，用于对命中概念集中包含的概念进行句子质量计算；

所述整体规划答案摘要模块，利用整数规划方法得到答案摘要；

所述输出模块，用于将得到的答案摘要返回给用户。

进一步的，所述概念映射模块进行概念映射的方法包括如下步骤：

步骤一、输入候选答案集中的句子，通过分词、词性标注、去停用词，得到词序列；

步骤二、若所述词序列中的任一词在概念网络中，则将该词加入概念集中；

步骤三、根据词序列产生二元词序列，对于任一二元词，词3＝词1+词2，若词3在概念网络中，且词1和词2的词性为名词或动词，则将词3加入概念集中，否则跳过词3，继续循环，直至二元词序列中所有二元词被遍历，返回概念集；

步骤四、重复上述步骤，处理所有候选答案集中的句子，得到答案中每个句子的概念集，对所有句子的概念集取并集得到答案概念集，并获得答案概念集中的概念与答案中句子的共现矩阵。

进一步的，采用所述概念扩展及约减模块对问题概念集进行概念扩展、概念约减的方法包括：

概念扩展方法包括：采用概念扩展算法对概念先进行同义层扩展，然后利用关联关系进一步扩展，得到概念扩展后的概念集；

概念约减方法包括：对于同义层扩展的结果利用PageRank算法得到同义层概念权重，其中，PageRank算法的阻尼系数d＝0.85；

对于关联层扩展结果，采用启发式概念权重计算方法得到关联层概念权重其中，启发式概念权重计算公式如下：

w_c＝(count(R)+1)²×∑_s∈SynCSW_s×E(s,c)

进一步的，采用所述句子质量计算模块进行句子质量计算的方法包括：

步骤(一)、在概念约减得到的权重基础上，增加概念在答案中的频次权重，定义概念c权重w_c如下：

步骤(二)、定义句子质量t_j：

进一步的，采用所述整体规划答案摘要模块获得答案摘要的方法如下：建立如下优化函数，通过整数规划的求解选择符合问题的句子集合作为摘要，具体如下：

其中，s_j是答案句子集合第j个句子，其长度为l_j，c_i是命中的第i个概念，权重为w_i，假设生成摘要为S，x_i，y_j分别表明概念c_i和句子s_j是否会出现在S中，x是自然数，当x为0时，表示概念c_i不会出现在S中，其他则表示概念c_i在S中出现的次数，y_j为0表明句子s_j不会出现在S中，否则表明句子s_j在S中出现一次，OCC是二维矩阵，表明c_i是否在s_j中。

有益效果：本发明的用于问答系统中的自动答案摘要方法及系统，其具有如下优点：

(1)本发明用于问答系统中的自动答案摘要方法，全程无监督自动化完成，使用者只需离线维护、扩充概念网络中的关系，即可提升方法的适应性及整体效果。

(2)本发明可以作为一个独立的模块嵌入一般的问答系统中，以原有的问题及候选答案集作为输入，经过摘要处理，最终得到较为全面且简练的摘要返回给用户，方便用户快速、准确的获得相关信息，提升问答系统的用户体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其为本发明方法的流程示意图。如图1所示，本发明一种用于问答系统中的自动答案摘要方法，包括以下步骤：

S1、获得用户查询问题与原系统返回的候选答案集

S2、利用概念网络对问题进行概念映射，得到问题的概念集QC(Query_Concept)。对候选答案集中的句子进行概念映射，得到答案中每个句子的概念集SC(Sentece_Concept)，对所有句子的概念集取并集得到答案概念集，并获得答案概念集中的概念与答案中句子的共现矩阵OCC。其中，对问题进行概念映射是从问题中提取概念，将提取的概念与问题建立映射关系，得到问题概念集。对候选答案集进行映射是从候选答案的句子中提取概念，将提取的概念与句子建立映射关系，得到句子概念集。在该步骤中，概念映射方法包括：利用词性标注的结果，尽可能多的抽取出名词、动词、名词短语、动词短语这些对于问题和答案具有较强表义信息的概念，其中，对于问题和答案具有表义信息的概念包括名词、动词、名词短语、动词短语。本发明概念映射方法具体包括如下步骤：

S24、重复上述步骤，处理所有候选答案集中的句子，得到答案中每个句子的概念集，对所有句子的概念集取并集得到答案概念集，即可获得答案概念集中的概念与答案中句子的共现矩阵。

S3、利用概念网络对问题概念集QC进行概念扩展、概念约减，得到问题扩展概念集QEC(Query_Expand_Concept)，所述问题扩展概念集与答案概念集AC取交集获得命中概念集HC(Hit_Concept)AC。在概念网络中概念间存在多种关系，在步骤S3中，所述概念扩展的方法包括：利用其中的同义关系与关联关系作为扩展依据，先进行同义层扩展，尽可能多地获得同义概念，然后利用关联关系进一步扩展，加深语义表达，得到概念扩展后的扩展概念集。如概念“污染”同义层扩展得到的是诸如“污染物”等概念，而关联层扩展则是找到“尾气”、“垃圾”等概念。

针对概念扩展后的扩展概念集可能包含过多概念，本发明利用PageRank算法及启发式权重计算方法获得概念的权重，并以此选取前K个权重较大的概念作为约减后的概念扩展结果。具体的概念约减方法包括：

对于同义层扩展的结果，利用PageRank算法(阻尼系数d＝0.85)迭代收敛后选取前M个概念作为约减后的同义层扩展概念集SynC，同义层概念权重为收敛时对应节点的权重，它主要取决于同义层各概念间的连接强度。

对于关联层扩展结果，由于该层扩展出概念数目较多，PageRank算法效率低下，本发明定义了启发式概念权重计算方法，根据计算所得权重选取较关键的K个概念作为关联层扩展的最终结果，其中，K为整数。具体公式如下：

w_c＝(count(R)+1)²×∑_s∈SynCSW_s×E(s,c)

S4、根据命中概念集中包含的概念集AC中包含的概念计算句子质量计算，本发明将句子表示成一系列带有权重的概念，句子质量主要由答案句子中的概念数和句子中概念的权重决定。更好地表达概念和问题、答案的关系，在步骤S3所得扩展权重基础上，增加了概念在答案中的频次信息，构成完整的概念权重，并在此基础上定义了答案句子质量的计算方法。定义概念c权重w_c如下：

定义句子质量t_j：

S5、定义全局优化函数，利用整数规划方法，得到最终的答案摘要。

本发明还提供一种自动答案摘要系统，所述系统包括：输入模块、输出模块、概念映射模块、概念扩展及约减模块、句子质量计算模块及整体规划答案摘要模块，

所述输入模块，用于接受问答系统输出的问题和候选答案集。所述输出模块，用于将得到的答案摘要返回给用户。所述输入模块和输出模块可以作为附加模块嵌入到一般的问答检索系统中，输入模块接受原系统输出的问题和候选答案集，经过一系列处理后，将原问题与得到的答案摘要作为输出返回。

所述概念映射模块，用于从问题中提取概念，将提取的概念与问题建立映射关系，得到问题概念集，从候选答案的句子中提取概念，将提取的概念与句子建立映射关系，得到句子概念集，对所有句子的概念集取并集得到答案概念集，并获得答案概念集中的概念与答案中句子的共现矩阵。利用词性标注结果，尽可能多的抽取出名词、动词、名词短语、动词短语这些对于问题和答案具有表义信息的概念。具体步骤如下：

步骤一、输入句子，分词、词性标注、去停，得到词序列pos。

步骤二、对于pos中的任一词，若该词在概念网络中，将其加入概念集Concept_Set中。

步骤三、根据pos产生的二元词序列bigram_pos，对于任一二元词，词3＝词1+词2，若词3在概念网络中，且词1词2的词性为名词或动词，则将词3加入概念集Concept_Set中，否则跳过词3，继续循环，直到bigram_pos中所有二元词被遍历。

步骤四、返回由此得到的概念集Concept_Set。由此处理所有答案中句子，即可获得每个答案句子与其中包含的概念的共现矩阵OCC。

所述概念扩展及约减模块，用于对问题概念集进行概念扩展、概念约减，得到问题扩展概念集QEC(Query_Expand_Concept)，所述问题扩展概念集与答案概念集AC取交集获得命中概念集HC(Hit_Concept)。如表1，其为概念网络中概念间关系举例。概念网络中的概念间存在多种关系，我们利用其中的同义关系与关联关系作为扩展依据，先进行同义层扩展，尽可能多地获得同义概念，然后利用关联关系进一步扩展，加深语义表达。如概念“电脑”同义层扩展得到的是“笔记本”等概念，而关联层扩展则是找到“计算”等概念。针对概念扩展后的概念集可能包含过多概念，对于同义层扩展的结果，利用PageRank算法(d＝0.85)迭代收敛后选取前M个概念作为约减后的同义层扩展概念集SynC，同义层概念权重为收敛时对应节点的权重，它主要取决于同义层各概念间的连接强度。对于关联层扩展结果，由于该层扩展出概念数目较多，PageRank效率低下，本发明定义了启发式概念权重计算方法，根据计算所得权重选取较关键的K个概念作为关联层扩展的最终结果。具体公式如下：

w_c＝(count(R)+1)²×∑_s∈SynCSW_s×E(s,c)

所述句子质量计算模块，用于对答案概念集中包含的概念进行句子质量计算。本发明将句子表示成一系列带有权重的概念，句子质量主要由答案句子中的概念数和句子中概念的权重决定，具体步骤是：

步骤(一)、为更好的表达概念和问题、答案的关系，在概念约减得到的权重基础上，增加概念在答案中的频次权重，定义概念c权重w_c如下：

其中ow_c为概念约减后的权重，freq为概念在答案中出现的频次，α,β为常量系数。

步骤(二)、定义句子质量t_j

所述整体规划答案摘要模块，利用整数规划方法得到答案摘要。所述整体规划答案摘要模块主要工作在如何选择符合问句要求的句子来组成摘要，即要找到一个句子子集，满足以下两个条件：长度限制和摘要权重最大化。本发明利用概念权重与句子质量，建立最优化函数，通过整数规划的求解选择最优的句子集合作为摘要。具体如下：

其中，s_j是答案句子集合第j个句子，其长度为l_j，c_i是命中的第i个概念，权重为w_i。假设生成摘要为S，x_i，y_j分别表明概念c_i和句子s_j是否会出现在S中。x是自然数，当为0时，表示概念c_i不会出现在S中，其他则表示其在S中出现的次数。y_j为0表明句子s_j不会出现在S中，否则表明其在S中出现一次，OCC是二维矩阵，表明c_i是否在s_j中。

本发明提出了一种基于概念网络和整数规划的自动答案摘要方法，可以作为独立的模块嵌入到一般的问答检索系统中，以用户查询与原系统输出的候选答案集作为输入，返回一定长度的答案摘要，能够帮助用户快速获得与查询最相关且全面的答案信息。

本发明的用于问答系统中的自动答案摘要方法及系统，其具有如下优点：

以上所揭露的仅为本发明的几种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种用于问答系统中的自动答案摘要方法，其特征在于：其包括如下步骤：

S1、获得用户查询问题与问答系统返回的候选答案集；

S4、根据命中概念集中包含的概念进行句子质量计算，建立优化函数，利用整数规划方法得到答案摘要；

其中，步骤S4中句子质量计算方法包括如下步骤：

其中ow_c为概念约减后的权重，freq为概念在答案中出现的频次，α和β为常量系数，D为答案句子总数；

S42、定义句子质量t_j：

其中a_j为句子s_j的概念列表，count(x)返回集合x中元素个数，w_c表示概念c的权重，b₁和b₂是加权系数。

2.根据权利要求1所述的用于问答系统中的自动答案摘要方法，其特征在于：所述步骤S2中概念映射方法包括：利用词性标注结果，抽取出对于问题和答案具有表义信息的概念，具体包括如下步骤：

S24、重复上述步骤，处理所有候选答案集中的句子，得到答案中每个句子的概念集，对所有句子的概念集取并集得到答案概念集，并获得答案概念集中的概念与答案中句子的共现矩阵。

3.根据权利要求2所述的用于问答系统中的自动答案摘要方法，其特征在于：对于问题和答案具有表义信息的概念包括名词、动词、名词短语、动词短语。

4.根据权利要求3所述的用于问答系统中的自动答案摘要方法，其特征在于：步骤S3中，概念扩展包括同义层扩展和关联层扩展，所述概念扩展的方法包括：利用概念网络中的概念间的同义关系对概念先进行同义层扩展，再利用概念网络中的概念间的关联关系对概念进一步扩展，得到概念扩展后的扩展概念集；

概念约减方法包括：对于同义层扩展结果，利用PageRank算法得到同义层概念权重，其中，PageRank算法的阻尼系数d＝0.85；

w_c＝(count(R)+1)²×∑_s∈SynCSW_s×E(s,c)

其中SynC表示经过同义层约减后的概念集合，count(R)表示概念c和SynC中概念在概念网络中的连接数，SW表示概念经过PageR ank后得到的权重，E是查找边权重的函数，如果c和s间有连接则是边的权重，否则为0。

5.一种自动答案摘要系统，其特征在于：其包括：输入模块、输出模块、概念映射模块、概念扩展及约减模块、句子质量计算模块及整体规划答案摘要模块，

所述输出模块，用于将得到的答案摘要返回给用户；

其中，采用所述句子质量计算模块进行句子质量计算的方法包括：

步骤(二)、定义句子质量t_j：

6.根据权利要求5所述的自动答案摘要系统，其特征在于：所述概念映射模块进行概念映射的方法包括如下步骤：

步骤四、重复上述步骤，处理所有候选答案集中的句子，得到答案中每个句子的概念集，对每个句子的概念集取并集得到答案概念集，并获得答案概念集中的概念与答案中句子的共现矩阵。

7.根据权利要求5所述的自动答案摘要系统，其特征在于：采用所述概念扩展及约减模块对问题概念集进行概念扩展、概念约减的方法包括：

w_c＝(count(R)+1)²×∑_s∈SynCSW_s×E(s,c)

8.根据权利要求7所述的自动答案摘要系统，其特征在于：采用所述整体规划答案摘要模块获得答案摘要的方法如下：建立如下优化函数，通过整数规划的求解选择符合问题的句子集合作为摘要，具体如下：