CN102622413A

CN102622413A - 一种回答自然语言问题的方法与装置

Info

Publication number: CN102622413A
Application number: CN2012100380783A
Authority: CN
Inventors: 郝宇; 黄民烈; 朱小燕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2012-08-01

Abstract

公开了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法，包括以下步骤：(1)生成实体-属性模型，进行实体-属性对集合的收集及特征提取；(2)执行用户查询分析，当用户输入查询内容时，将该查询内容映射到它对应的用户需求的实体-属性对，其中查询内容即自然语言问题。还提供了一种回答自然语言问题的装置。

Description

一种回答自然语言问题的方法与装置

技术领域

本发明涉及搜索引擎的技术领域，具体地涉及一种回答自然语言问题的方法，该提供了使用该方法的装置。

背景技术

伴随互联网上的信息资源的多样化趋势，网络上不断涌现出大量的具有一定组织结构的信息资源载体。当前主要基于关键字匹配的搜索引擎技术虽然在文档检索中有着较好的搜索效果，然而却并不能满足结构化信息源对检索精确性的要求。另一方面，虽然现有的数据库检索技术能够实现精确检索，然而由于它完全基于特定的数据库查询语言，因此无法实现面向广大普通用户的商用服务。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法。

本发明的技术方案是：这种回答自然语言问题的方法，包括以下步骤：

(1)生成实体-属性模型，进行实体-属性对集合的收集及特征提取；

(2)执行用户查询分析，当用户输入查询内容时，将该查询内容映射到它对应的用户需求的实体-属性对，其中查询内容即自然语言问题。

还提供了一种回答自然语言问题的装置，包括：

(1)实体-属性模型，其进行实体-属性对集合的收集及特征提取；

(2)用户查询分析模型，当用户输入查询内容时，利用用户查询分析模型将该查询内容映射到它对应的用户需求的实体-属性对，其中查询内容即自然语言问题。

由于采用了实体-属性对的模式对用户查询的需求进行建模，经过建模，每一个用户查询将对应于一个实体-属性对，而该实体-属性对可以对大部分现有的结构化或半结构化信息资源进行索引，所以满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求。

附图说明

图1是根据本发明的回答自然语言问题的方法的流程图；

图2是步骤(1)的流程图；

图3是步骤(1.3)的流程图；

图4是步骤(2)的流程图；

图5是步骤(2.4)的流程图；

图6是步骤(2.4.2)的流程图。

具体实施方式

下面对本发明的技术方案做进一步的详细描述。

如图1所示，这种回答自然语言问题的方法，包括以下步骤：

优选地，如图2所示，步骤(1)包括以下分步骤：

(1.1)实体抽取：从在线的开放百科档案中获取实体名；

(1.2)属性抽取：从用户的查询内容中抽取出每一类实体的属性名；

(1.3)属性特征生成：从用户的查询内容中抽取每一属性相关的问题的最佳答案文本作为该属性的特征；

(1.4)实体-属性对模型生成：将每一个实体名和该实体所具有的属性名组成实体-属性对，并结合该实体-属性对的属性特征生成实体-属性模型。

更进一步地，如图3所示，步骤(1.3)包括以下分步骤：

(1.3.1)检索出问题文本中包含该属性名的所有问答数据；

(1.3.2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据；

(1.3.3)以BM25算法对检索出的问题依据它与属性名的相似程度排序；

(1.3.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征，k为正整数。

优选地，如图4所示，步骤(2)包括以下分步骤：

(2.1)查询预处理：检测并回退无法从结构化或半结构化信息源中检索出答案的用户的查询；

(2.2)用户查询分析：将用户的查询内容分拆为实体相关和属性相关两部分内容；

(2.3)用户查询所关注的实体的提取：使用关键词匹配技术从实体相关的查询内容中提取出用户关注的实体名；

(2.4)用户查询所关注的属性的提取：使用基于语言模型和作者-话题模型的混合模型根据属性相关的查询内容预测用户关注的属性名；

(2.5)分析结果后处理：将所提取的用户关注的实体名和属性名组合成实体-属性对，输出该实体-属性对。

更进一步地，如图5所示，步骤(2.4)包括以下分步骤：

(2.4.1)生成候选属性名列表：根据已经提取出的实体名，得到它所具有的全部属性作为候选属性；

(2.4.2)属性相关的查询内容的特征生成：从问答数据中抽取该内容文本相关的问题的最佳答案文本作为该查询内容的特征；

(2.4.3)计算属性相关的查询内容的特征与各候选属性特征的语义关联：使用如下公式计算该语义关联的数值：

rel(phr，att)＝μ·rel_sim(phr，att)+(1-μ)·rel_int(phr，att)

其中，phr表示查询内容，att表示候选属性，且有，

{rel}_{sim} (phr, att) = sim (F_{phr}, F_{att}) = \frac{F_{phr} \cdot F_{att}}{| F_{phr} | | F_{att} |}

rel_int(phr，att)＝p(a＝att|F_phr)

其中，F_*表示提取出的特征文档，sim(·，·)为文档间的相似度计算，在实际应用中可以采用余弦距离(如上式)或其他具体的度量方法；p(a＝·|·)表示作者-话题模型中的作者对给定文本的后验概率；

(2.4.4)结果输出：选择与查询的语义关联数值最大的一个或多个属性名，输出该一个或多个属性名。

更进一步地，如图6所示，步骤(2.4.2)包括以下分步骤：

(2.4.2.1)检索出问题文本中匹配该内容文本的所有问答数据；

(2.4.2.2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据；

(2.4.2.3)以BM25算法对检索出的问题依据它与属性名的相似程度排序；

(2.4.2.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征，k为正整数。

还提供了一种回答自然语言问题的装置，包括：

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种回答自然语言问题的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的回答自然语言问题的方法，其特征在于：步骤(1)包括以下分步骤：

(1.1)实体抽取：从在线的开放百科档案中获取实体名；

3.根据权利要求2所述的回答自然语言问题的方法，其特征在于：步骤(1.3)包括以下分步骤：

(1.3.1)检索出问题文本中包含该属性名的所有问答数据；

4.根据权利要求1所述的回答自然语言问题的方法，其特征在于：步骤(2)包括以下分步骤：

5.根据权利要求4所述的回答自然语言问题的方法，其特征在于：步骤(2.4)包括以下分步骤：

rel(phr，att)＝μ·rel_sim(phr，att)+(1-μ)·rel_int(phr，att)

其中，phr表示查询内容，att表示候选属性，且有，

{rel}_{sim} (phr, att) = sim (F_{phr}, F_{att}) = \frac{F_{phr} \cdot F_{att}}{| F_{phr} | | F_{att} |}

rel_int(phr，att)＝p(a＝att|F_phr)

其中，F_*表示提取出的特征，p(a＝·|·)表示作者-话题模型中的作者对给定文本的后验概率；

6.根据权利要求5所述的回答自然语言问题的方法，其特征在于：步骤(2.4.2)包括以下分步骤：

(2.4.2.1)检索出问题文本中匹配该内容文本的所有问答数据；

7.一种回答自然语言问题的装置，其特征在于：包括：