CN102637192A

CN102637192A - 一种自然语言问答的方法

Info

Publication number: CN102637192A
Application number: CN2012100387566A
Authority: CN
Inventors: 郝宇; 黄民烈; 朱小燕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2012-08-15

Abstract

公开了一种及时有效地回答用户问题的自然语言问答的方法，包括以下步骤：(1)对于用户输入的问题进行问题分析；(2)利用问题分析的结果以及社区问答的语料对问题作答；(3)利用问题分析的结果以及百科语料对问题作答；(4)对于从步骤(2)、(3)返回的答案，进行答案验证及选择，并最终返回最佳答案给用户。

Description

一种自然语言问答的方法

技术领域

本发明涉及人工智能的技术领域，具体地涉及一种自然语言问答的方法。

背景技术

随着互联网信息爆炸式增长，用户有了更多获取信息的途径。但也对用户检索信息的能力提出了更多的挑战。关键词检索技术为众多搜索引擎所采用，并在许多领域都取得了不错的效果，在工业界获得了巨大的成功。然而，随着信息的增加，这种信息获取的方式逐渐无法满足用户的需求。这种基于关键词检索方式的信息获取方法主要有以下2个不足：(1)返回过多信息，用户需要进一步点击返回的链接才可以获得自己所需要的信息；(2)简单的若干个关键词有时无法明确地表达用户的需求，从而导致无法检索得到需要的结果。

与之相反，问答方式允许用户以自然语言形式提问，并返回简洁明了的结果，这恰恰是用户所需要的。

问答系统也是人工智能领域比较火热的研究课题之一。不过由于问答系统的复杂性，目前并没有太多相关的商用系统。IBM Watson(沃森)是比较出名的问答系统。不过该系统主要是处理事实类型的问题，并且只能回答答案是简单名词短语的问题。这类事实型问题虽然很重要，但用户有更多更复杂的问题希望能得到解决，例如寻找原因、寻找解决方案的问题。社区问答的出现就是希望依靠用户的力量帮助用户解决这些复杂问题，例如搜搜问问，百度知道等。但这类问答社区由于依赖其他用户作答，因此很难及时有效地回答用户的问题，尤其是与搜索引擎返回结果的速度相比就更难做到及时有效了。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种及时有效地回答用户问题的自然语言问答的方法。

本发明的技术方案是：这种自然语言问答的方法，包括以下步骤：

(1)对于用户输入的问题进行问题分析；

(2)利用问题分析的结果以及社区问答的语料对问题作答；

(3)利用问题分析的结果以及百科语料对问题作答；

(4)对于从步骤(2)、(3)返回的答案，进行答案验证及选择，并最终返回最佳答案给用户。

由于利用了社区问答以及百科数据回答用户自然语言问题，并进行答案验证及选择，所以能够及时有效地回答用户问题。

附图说明

图1是根据本发明的自然语言问答的方法的流程图；

图2是步骤(1)的流程图；

图3是步骤(2)的流程图；

图4是步骤(3)的流程图。

具体实施方式

下面对本发明的技术方案做进一步的详细描述。

如图1所示，这种自然语言问答的方法，包括以下步骤：

(1)对于用户输入的问题进行问题分析；

(2)利用问题分析的结果以及社区问答的语料对问题作答；

(3)利用问题分析的结果以及百科语料对问题作答；

优选地，如图2所示，步骤(1)包括以下分步骤：

(1.1)利用中文分词工具对于问题进行分词以及词性标注；

(1.2)抽取问题中的核心概念，采用的方法是：利用词性标注结果，认为名词即重要概念；或者利用词性信息的同时还利用词频信息，计算每个词出现的文档集合的大小，滤去高于指定阈值的词；

(1.3)进行问题分类，问题分类的标准是根据问题的需求进行：分为事实型问题，列表型问题，原因型问题，方法型问题，定义型问题以及导航型问题(如表1所示)。

表1

更进一步地，步骤(1.3)中采用根据马尔可夫逻辑网的方法进行分类：

定义如下几种谓词：

Type(q，t)：如果问题q具有问题类型t则值为1，否则为0。

MatchP(q，p)：问题q可以匹配上strict pattern p的值为1，否则为0。

MatchC(q，p)：问题q匹配上soft pattern p的匹配度(0，1之间)。

谓词之间的关系由如下两类formulas来约束。

strict pattern主要表示的是一个问题的虚词所具有的特征。具体做法是先讲一个问题中的实意词替换为通配符，之后从中抽取由虚词和通配符组成n-gram。一个strict pattern可以被看成是一个正则表达式，question匹配strict pattern就可以看成question匹配这个正则表达式。下面是strict pattern的一个例子(如表2所示)。

表2

根据下面的公式计算问题q属于某个类别t的概率：

p (t | q) &Proportional; \exp (\underset{i &Element; F_{q, t}}{Σ} w_{i} * n_{i} (q, t))

其中，F_qt是问题q和类别t能够触发的模板集合，即问题q符合该模板，且该模板在训练集合中命中过类别t的问题；n₁(q，t)是问题q符合的strict pattern的数量，或者是soft pattern的匹配程度，其中strict pattern是一个问题的虚词所具有的特征，soft pattern是一个问题的实意词所具有的特征；利用L1-正规化方法，在训练集合上学习得到权重系数w_i。

soft pattern主要表示的是一个问题的实意词所具有的特征。一个Soft pattern是一个在bigram空间上的向量。我首先将训练集的每个问题的实意词部分表示为bigram向量，接着将其进行聚类。聚类之后的每个类别的中心即为一个soft pattern。在使用的时候，如果给定问题和某个softpattern的cosine similarity大于某个阈值，则把cosine similarity作为匹配度，否则匹配度为0。

优选地，如图3所示，步骤(2)包括以下分步骤：

(2.1)根据问题分析的结果，检索相似问题；

(2.2)对检索得到的相似问题的答案集合进行处理，得到答案。

更进一步地，步骤(2.2)中计算问题与返回相似问题的相似度的方法如下：

两个问题之间的总相似度是以下六项相似度的加权，分别是

1.两个问题在词上的余弦相似度，权值为1；

2.两个问题在词上的最大重叠相似度，权值为1；

3.两个问题在重要词上的余弦相似度，权值为0.5；

4.两个问题在重要词上的最大重叠相似度，权值为0.5；

5.两个问题在字上的最长公共子序列相似度，权值为0.5；

6.两个问题在字上的连续最长公共子序列相似度，权值为0.5；

其中

余弦相似度的定义为：

CS (A, B) = \frac{A \cdot B}{| | A | | \cdot | | B | |}

其中A、B表示给定的两个词汇袋的向量；

最大重叠相似度的定义为：

MO (A, B) = \frac{Σ_{m &Element; A, m &Element; B} (A (m) + B (m))}{Σ_{a &Element; A} A (a) + Σ_{b &Element; B} B (b)}

其中A、B表示给定的两个词汇袋的向量，A(a)指的是A中词a的权值，B(b)指的是B中词b的权值；

最长公共子序列相似度的定义为：

LCSsim (s_{1}, s_{2}) = \frac{length (LCS (s_{1}, s_{2}))}{\max (length (s_{1}), length (s_{2}))}

其中s₁和s₂是给定的两个字符串，LCS(s₁，s₂)是s₁和s₂的最长公共子序列，length函数是指序列的长度；

最长连续公共子序列相似度的定义为：

LCCSsim (s_{1}, s_{2}) = \frac{length (LCCS (s_{1}, s_{2}))}{\max (length (s_{1}), length (s_{2}))}

其中s₁和s₂是给定的两个字符串，length函数是指序列的长度其中LCCS(s₁，s₂)是s₁和s₂的最长公共相邻子序列。

优选地，步骤(4)在检索得到相似问题后，按照以下处理：

(4.1)如果问题类型是方法型或列表型，将最相似问题的答案中的列表形式的文本作为答案返回给用户；

(4.2)如果返回的相似问题的相似度高，则利用网页排名pagerank算法，计算每个答案的pagerank得分；计算时，将每个答案视为图上的节点，答案与答案之间边的权重正比于答案与答案之间的相似度；答案的相似度计算是利用余弦距离公式计算；每个答案的分数＝(最佳答案得分+pagerank分数)×相似问题相似度；选择得分最高的答案返回给用户；

(4.3)如果返回相似问题的相似度低，则采用文档摘要的方法，对相似问题的答案进行摘要抽取。

更进一步地，步骤(4.3)的摘要抽取基于信息距离理论，对于给定的需要进行摘要的答案A＝(A₁，A₂，...，A_n}，最终生成的摘要S*定义为：

S^{*} = {\arg \max}_{S} \underset{i}{Σ} D_{\max} (A_{i}, S)

其中，D_max(A_i，S)是答案A_i和摘要S间的信息距离，物体M和物体N之间的信息距离定义为：

D_max(M，N)＝max{K(M|N)，K(N|M)}

其中K(X|Y)是物体X基于物体Y的Kolmogorov(柯氏)复杂度，K(X|Y)是指根据Y生成X的最短图灵机程序的长度，利用下面的公式进行近似计算：

K (M | N) \approx K (\underset{i}{\cup} W_{M_{i}} \ \underset{i}{\cup} W_{N_{j}})

其中，E(W)＝∑_w∈WK(w)，K(w)是元素w的权重，w即为词或名词实体，而K(w)即为词的权重，定义为-log(Pr(w))，Pr(w)是w出现的概率，通过在一个大规模的语料集合上统计得到，令答案M＝{M₁，M₂，...}，答案N＝[N₁，N₂，...}分别是2个句子的集合，每个句子s有对应的元素集合

优选地，如图2所示，步骤(3)包括以下分步骤：

(3.1)为百科中的每个分类提取其对应的属性词集合，抽取每个类别的文章中出现的高频词汇，并去除其中的停用词集合，剩下的词集就是这个类别对应的属性词集合；

(3.2)为每个类别、属性训练相应混合语言模型；

(3.3)对于每一个输入的“概念-属性”问题，转化为“概念属性对”输入后，查询其对应的混合语言模型；

(3.4)利用查询得到的混合语言模型，对页面中的文本片段进行相关性计算以及排序，并最终输出最相关文本片段作为答案。

更进一步地，步骤(3.4)中的混合语言模型是STLM(Surrounding text language model，周边文字语言模型)和CLM(category language model，类别语言模型)这两个语言模型的集合，都是通过在对应类别下包含属性词的文本上训练得到的；对于给定的文本p，假设其单词集合为{t_f}，类别词集合为

其在类别c、属性a下由STLM和CLM生成的概率分别是：

P (p | {STLM}_{c, a}) = \underset{t &Element; p}{Π} P (t | {STLM}_{c, a}) = \underset{t &Element; p}{Π} (α \frac{tf (t, c)}{tf (*, c)} + (1 - α) \frac{tf (t, *)}{tf (*, *)})

P (p | {CLM}_{c, a}) = \underset{c^{'} &Element; p}{Π} P (c^{'} | {CLM}_{c, a}) = \underset{c^{'} &Element; p}{Π} (β \frac{tf (c^{'}, c)}{tf (*, c)} + (1 - β) \frac{tf (c^{'}, *)}{tf (*, *)})

其中，tf是指词频，tf(t，c)是指单词t在类别c的所有文章中出现的频率，tf(t，r)和tf(r，c)分别指t在所有文章中的频率，以及类别c中所有单词的频率和；c’相关的tf函数解释类似；

文本p根据混合语言模型MLM_c，m生成的概率是：

P(p|MLM_c，m)＝λP(p|STLM_c，m)+(1-λ)P(p|CLM_c，m)

对于输入的概念属性对(e，a)，查询概念e对应的所有类别c_e下对应属性a的混合语言模型，给定文本p，与(e，a)的相关性能分计算公式为：

score (p | (e, a)) = \underset{c &Element; C_{e}}{Σ} P (p | {MLM}_{c, a}) * p (a | c) = \underset{c &Element; C_{e}}{Σ} P (p | {MLM}_{c, a}) * \frac{df (a, c)}{| c |}

其中df(a，c)是指类别c下包含属性词a的文章数量，|c|是指类别c下的文章总数量，最终依照score(p|(e，a))对文本片段进行排序，并选择最佳的文本返回给用户作为答案。

优选地，步骤(4)利用排序学习算法，对答案进行排序，对于每个答案A，其对应的特征集合为

其中QT是问题的类别集合，AS是答案质量的打分方式，对应于步骤(2)和(3)中的所有答案抽取方式，如果答案A不是由AS中的某种方式s抽取得到，则对任意的t，

否则

其中P(t|q)由步骤(1)给出，sccre(A|s)则由对应的s方法给出。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种自然语言问答的方法，其特征在于：包括以下步骤：

(1)对于用户输入的问题进行问题分析；

(2)利用问题分析的结果以及社区问答的语料对问题作答；

(3)利用问题分析的结果以及百科语料对问题作答；

2.根据权利要求1所述的自然语言问答的方法，其特征在于：步骤(1)包括以下分步骤：

(1.1)利用中文分词工具对于问题进行分词以及词性标注；

(1.3)进行问题分类，问题分类的标准是根据问题的需求进行：分为事实型问题，列表型问题，原因型问题，方法型问题，定义型问题以及导航型问题。

3.根据权利要求2所述的自然语言问答的方法，其特征在于：步骤(1.3)中采用根据马尔可夫逻辑网的方法进行分类：

根据下面的公式计算问题q属于某个类别t的概率：

其中，F_qt是问题q和类别t能够触发的模板集合，即问题q符合该模板，且该模板在训练集合中命中过类别t的问题；n_i(q，t)是问题q符合的strict pattern的数量，或者是soft pattern的匹配程度，其中strictpattern是一个问题的虚词所具有的特征，soft pattern是一个问题的实意词所具有的特征；利用L1-正规化方法，在训练集合上学习得到权重系数w_i。

4.根据权利要求1所述的自然语言问答的方法，其特征在于：步骤(2)包括以下分步骤：

(2.1)根据问题分析的结果，检索相似问题；

5.根据权利要求4所述的自然语言问答的方法，其特征在于：步骤(2.2)中计算问题与返回相似问题的相似度的方法如下：

两个问题之间的总相似度是以下六项相似度的加权，分别是

（1）两个问题在词上的余弦相似度，权值为1；

（2）两个问题在词上的最大重叠相似度，权值为1；

（3）两个问题在重要词上的余弦相似度，权值为0.5；

（4）两个问题在重要词上的最大重叠相似度，权值为0.5；

（5）两个问题在字上的最长公共子序列相似度，权值为0.5；

（6）两个问题在字上的连续最长公共子序列相似度，权值为0.5；

其中

余弦相似度的定义为：

其中A、B表示给定的两个词汇袋的向量；

最大重叠相似度的定义为：

最长公共子序列相似度的定义为：

最长连续公共子序列相似度的定义为：

6.根据权利要求5所述的自然语言问答的方法，其特征在于：步骤(4)在检索得到相似问题后，按照以下处理：

7.根据权利要求6所述的自然语言问答的方法，其特征在于：步骤(4.3)的摘要抽取基于信息距离理论，对于给定的需要进行摘要的答案A＝[A₁，A₂，...，A_n}，最终生成的摘要S*定义为：

D_max(M，n)＝max{K(M|N)，K(N|M)}

其中K(X|Y)是物体X基于物体Y的柯氏Kolmogorov复杂度，K(X|Y)是指根据Y生成X的最短图灵机程序的长度，利用下面的公式进行近似计算：

其中，E(W)＝∑_w∈WK(w)，K(w)是元素w的权重，w即为词或名词实体，而K(w)即为词的权重，定义为-log(Pr(w))，Pr(w)是w出现的概率，通过在一个大规模的语料集合上统计得到，令答案M＝{M₁，M₂，...}，答案N＝{M₁，M₂，...}分别是2个句子的集合，每个句子s有对应的元素集合W_s={w₁ ^s,w₂ ^s,…}。

8.根据权利要求1所述的自然语言问答的方法，其特征在于：步骤(3)包括以下分步骤：

(3.2)为每个类别、属性训练相应混合语言模型；

9.根据权利要求8所述的自然语言问答的方法，其特征在于：步骤(3.4)中的混合语言模型是周边文字语言模型STLM和类别语言模型CLM这两个语言模型的集合，都是通过在对应类别下包含属性词的文本上训练得到的；对于给定的文本p，假设其单词集合为{t_f}，类别词集合为

其在类别c、属性a下由STLM和CLM生成的概率分别是：

文本p根据混合语言模型MLM_c，m生成的概率是：

P(p|MLM_c，m)＝λP(p|STLM_c，m)+(1-λ)P(p|CLM_c，m)

其中df(a，c)是指类别c下包含属性词a的文章数量，|c|是指类别c下的文章总数量，最终依照score(p(e，a))对文本片段进行排序，并选择最佳的文本返回给用户作为答案。

10.根据权利要求1所述的自然语言问答的方法，其特征在于：步骤(4)

利用排序学习算法，对答案进行排序，对于每个答案A，其对应的特征集合为

否则

其中P(t|q)由步骤(1)给出，sccre(A|s)则由对应的s方法给出。