CN108595413A

CN108595413A - 一种基于语义依存树的答案抽取方法

Info

Publication number: CN108595413A
Application number: CN201810239159.7A
Authority: CN
Inventors: 周蕾; 史维峰
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-09-28
Anticipated expiration: 2038-03-22
Also published as: CN108595413B

Abstract

本发明公开了一种基于语义依存树的答案抽取方法，该方法在考虑问句和候选答案句之间的语义关系的基础上，综合考虑向量相似度、词形相似度和依存路径长度相似度，在候选答案句中选取最佳答案，相比于其他算法在选择最佳答案句的准确率上有较大提升。

Description

一种基于语义依存树的答案抽取方法

技术领域

本发明属于自动问答(QA)领域，涉及一种基于语义依存树的答案抽取方法。

背景技术

自动问答系统作为一种新型的搜索引擎，为用户返回精确、简洁的答案，其处理流程为三个模块：问题解析，信息检索，答案抽取。其中，答案抽取算法是答案抽取模块的核心研究问题，算法性能会最直接的影响问答系统用户体验。

答案抽取算法的基本流程是将信息检索模块的结果——排序的段落，作为输入，通过计算分析，选择一个计算权重最高的、与用户问题最相关的、准确、简洁的答案，返回给用户，而不仅仅满足于提供一个含有答案的网页链接。因此，答案抽取模块的本质即为计算候选答案句和查询句的相似度。

常见的答案抽取算法主要有三种：基于模式匹配的算法，该算法的实现无需关心句子的语法语义信息，通过预先定义的答案和问句之间的模式，匹配问句的答案。其模式可以通过手工编辑或机器学习自动生成的方式实现，通过人工总结模式匹配的方式需要耗费大量的精力和时间，需手工编辑抽取规则，总结存在的模式，但准确率要更高。通过机器学习进行模式匹配的方式，依赖于标注语料，通过语料总结问句和答案的共现短语或结构，自动学习，进行结构提取得到模式，进行模式匹配。基于向量空间模型的算法，该算法框架清晰，实现简单且效果较好，被广泛的应用在文本检索领域中的相似度计算排序的实现。在答案抽取中，通过VSM计算各个候选答案和问句之间的相似度，对候选答案进行排序，得到最可能的答案。向量空间模型的计算，假设各个特征词相互独立，虽然在一定程度上简化了计算量，但忽略了特征词之间的语义相关性。基于语法结构的算法通过提取问句和答案句的语法结构和语义信息，进行相似度的计算，将相似度作为句法匹配度，对候选答案排序，并返回匹配度最高的答案。

基于语法结构的算法相比于其他算法，通过语义依存分析来进行语义深层理解，算法性能更好，其中效果较好的算法是基于语义依存树的算法。现有的基于语义依存树的算法中，虽然得到了更全面的语义信息，但计算异常复杂，没有考虑词频、句法结构、关键词之间的关联等特征，往往不能取得良好的效果。

发明内容

基于上述现有技术中存在的问题，本发明的目的在于，提供一种基于语义依存树的答案抽取方法，该方法能够大大降低计算复杂度的同时，且提高选取问句的最佳答案的准确率。

为了实现上述目的，本发明采用如下技术方案：

一种基于语义依存树的答案抽取方法，包括以下步骤：

步骤1，利用语义技术平台对问句和多个候选答案句分别进行依存句法分析，得到问句的语义分析结果和每个候选答案句的语义分析结果；语义分析结果包括语义依存图和语义依存树；

步骤2，选取多个候选答案句中的一个候选答案句，计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Sim_tree；

步骤3，计算问句和步骤2中选取的候选答案句的词形相似度Sim_word，采用的公式如下：

其中，w_i为对问句进行问题解析得到的关键词列表中的第i个关键词，m为对问句进行问题解析得到的关键词列表中关键词的总数，pl为问句的长度，sl为候选答案句的长度；

步骤4，计算问句和步骤2中选取的候选答案句的依存路径长度相似度，具体方法如下：

步骤4.1，对候选答案句采用jieba分词工具包进行分词，得到多个词项；

步骤4.2，在多个词项中找到与问句对应的关键词相同的词项，作为匹配词项；

步骤4.3，采用如下公式计算问句和候选答案句的依存路径长度相似度Sim_path：

其中，w_i,w_j分别表示匹配词项中的第i个匹配词项和第j个匹配词项，a表示匹配词项的个数；path_len(w_i,w_j)表示匹配词项w_i和匹配词项w_j的依存路径长度；

步骤5，根据向量相似度Sim_tree、词形相似度Sim_word和依存路径长度相似度Sim_path，计算得到整体相似度Sim，采用如下公式计算：

Sim＝α·Sim_tree+β·Sim_word+γ·Sim_path

其中，α,β和γ均为调权参数；

步骤6，返回步骤2，在多个候选答案句中重新选取一个候选答案句，得到所有候选答案句对应的整体相似度；选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。

可选地，所述步骤2中的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Sim_tree，采用的方法如下：

步骤2.1：找到问句的语义依存树T₁的所有子树以及候选答案句的语义依存树T₂的所有子树，所有子树形成子树序列t₁,...,t_k,...t_n，子树序列中的任意两个子树不相同，其中，t_k表示子树序列中的第k个子树，n表示子树序列中子树的个数；

步骤2.2：计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Sim_tree，采用的公式如下：

其中，T₁为问句的语义依存树，T₂为候选答案句的语义依存树，h_k(T₁)为子树序列中的第k个子树在问句的语义依存树T₁中出现的次数，h_k(T₂)为子树序列中的第k个子树在候选答案句的语义依存树T₂中出现的次数。

与现有技术相比，本发明具有以下技术效果：本发明在考虑问句和候选答案句之间的语义关系的基础上，综合考虑向量相似度、词形相似度和依存路径长度相似度，在候选答案句中选取最佳答案，相比于其他算法在选择最佳答案句的准确率上有较大提升。

下面结合附图和具体实施方式对本发明的方案作进一步详细地解释和说明。

附图说明

图1是本发明的流程图；

图2是问句的依存关系图和依存关系树；其中，(a)表示问句的依存关系图，(b)表示问句的依存关系树；

图3是候选答案句的依存关系图和依存关系树；其中，(a)表示候选答案句的依存关系图，(b)表示候选答案句的依存关系树；

具体实施方式

本发明提供一种基于语义依存树的答案抽取方法，参见图1，该方法用于在多个候选答案句中选择出问句的最佳答案句，其特征在于，包括以下步骤：

步骤1，利用哈尔滨工业大学社会计算与信息检索研究中心的语言技术平台(LTP)对问句和多个候选答案句分别进行依存句法分析，得到问句的语义分析结果和每个候选答案句的语义分析结果；语义分析结果包括语义依存图和语义依存树。如图2中的(a)和(b)分别为问句“陕西的省会是哪里”的语义依存图和语义依存树，图3(a)和(b)分别为候选答案句“西安是陕西的省会”的语义依存图和语义依存树。

步骤2，选取多个候选答案句中的一个候选答案句，计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Sim_tree；具体方法如下：

步骤2.1：找到问句的语义依存树T₁的所有子树以及候选答案句的语义依存树T₂的所有子树，所有子树形成子树序列t₁,...,t_k,...t_n，其中，t_k表示子树序列中的第k个子树，n表示子树序列中子树的个数，子树序列中不存在相同子树；

其中，w_i为对问句进行问题解析得到的关键词列表中的第i个关键词，m为对问句进行问题解析得到的关键词列表中关键词的总数，pl为问句的长度，sl为候选答案句的长度。

步骤4.2，在多个词项中找到与问句对应的关键词相同的词项，作为匹配词项；问句对应的关键词指的是对问句进行问题解析得到的关键词列表中的关键词。

其中，w_i,w_j分别表示匹配词项中的第i个匹配词项和第j个匹配词项，a表示匹配词项的个数；path_len(w_i,w_j)表示匹配词项w_i和匹配词项w_j的依存路径长度，该依存路径长度通过候选答案句的依存关系图即可得到。如图3中的(a)中词项“陕西”和“首都”的依存路径长度为1，“西安”和“陕西”的依存路径长度为3。

步骤5，根据向量相似度、词形相似度和依存路径长度相似度，计算得到整体相似度Sim，采用如下公式计算：

Sim＝α·Sim_tree+β·Sim_word+γ·Sim_path

其中，α,β和γ均为调权参数，在本实施例中，α＝0.7,β＝0.1，γ＝0.1。

实施例：

本实施例使用了从百度知道中爬取并选择了5340个问句，一个问句对应多个答案，将每个问句的答案打破原有顺序重新混合，利用本发明的基于语义依存树的改进算法，获取问句的最佳答案句。

利用准确率和MRR(平均排序倒数)值衡量方法性能，并将本发明的方法与基于向量空间模型的算法和原始基于语义依存树的算法对比，其结果如表1所示，从表1可知，本发明的方法综合考虑向量相似度、词形相似度和依存路径长度相似度，相比于其他算法在选择最佳答案句的准确率上有较大提升。

表1

Claims

1.一种基于语义依存树的答案抽取方法，其特征在于，包括以下步骤：

步骤4.1，对候选答案句采用j ieba分词工具包进行分词，得到多个词项；

其中，w_i,w_j分别表示匹配词项中的第i个匹配词项和第j个匹配词项，a表示匹配词项的个数；path-len(w_i,w_j)表示匹配词项w_i和匹配词项w_j的依存路径长度；

Sim＝α·Sim_tree+β·Sim_word+γ·Sim_path

其中，α,β和γ均为调权参数；

2.如权利要求1所述的基于语义依存树的答案抽取方法，其特征在于，所述步骤2中的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Sim_tree，采用的方法如下：