CN101377777A

CN101377777A - 一种自动问答方法和系统

Info

Publication number: CN101377777A
Application number: CNA2007101213058A
Authority: CN
Inventors: 刘文印
Original assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Current assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority date: 2007-09-03
Filing date: 2007-09-03
Publication date: 2009-03-04

Abstract

本发明公开了一种自动问答方法和系统。该方法包括下列步骤：步骤A，通过问题分析获取问题的信息；步骤B，根据问题分析的结果，生成查询条件，在知识源中以搜索引擎进行检索，检索出与查询条件相关的文档集，并将文档集划分为段落集；步骤C，根据文档检索的结果，以段落检索方法从段落集中检索出与查询条件相关的段落集合，并从段落集合中返回问题的答案。其提高答案的准确性，提高返回正确结果的精确度。

Description

一种自动问答方法和系统

技术领域

本发明涉及知识工程领域、自然语言处理领域、以及计算机网络信息技术领域，特别是涉及一种基于文档的自动问答方法和系统。

背景技术

目前的网络包含了数量越来越大的信息，人们可以从网络中得到大量问题的答案，通常地，网络由大量超文本(网页)组成。但是，在网络中用户快速定位所需要的信息非常困难。现有技术中解决这一问题的一种重要方法是利用搜索引擎，通过关键字匹配搜索到所需的问题答案。

但是，这种方法通常会得到大量包含搜索关键字但内容与答案无关的网页，用户通常还需要在搜索结果中手动或者进一步搜索到相关的网页，进而获取想要的信息，实践证明，现有基于关键字的搜索引擎的信息定位效率是比较低的。

随着计算机技术的发展，人们通过自动问答(QA)系统试图解决这一问题。

自动问答(QA)系统，也叫问题回答系统，是基于一个大语料库(如维基百科，或整个国际互联网)，自动查找并回答用户用自由文本方式的提问的计算机处理系统。

现有的自动问答系统通常利用一个大的文档集作为知识源，从文档集中查找用户问题的答案。其中，国际互联网是一个理想的自动问答系统的知识源，与静态的文档集相比，国际互联网有两方面的优势，一方面国际互联网上的信息更新迅速，这能够保证系统能找到比较精确的答案，特别是对于一些时效性较强的问题；另一方面，国际互联网上的信息的冗余性，可以用来进行自动问答系统的答案验证，以判断答案的有效性，返回更加确切的答案。

专利申请号为200510130778.5的中国专利公开了一种网上用户交互问答方法及其系统，其中，所述的系统，包括：一模板数据库，用于存储供选择使用的问题模板和/或答案模板；一提问模块，用于供用户选择问题模板进行提问；一回答模块，用于供用户使用答案模板进行回答；所述答案模板为用户手动选择或手动创建的、或为由所述回答模块根据当前问题，从所述模板数据库中自动查找出的与所述问题模板相对应的答案模板。该发明的方法及其系统可提高用户提问和回答的效率，同时提高计算机处理问题和答案的准确性并积累知识。

然而，现有系统还存在很大的缺陷，往往难以回答一些问题，特别是动态的和时间敏感性的问题。

发明内容

本发明的目的在于提供一种自动问答方法和系统，以提高答案的准确性，提高返回正确结果的精确度。

为实现本发明目的而提供的一种自动问答方法，包括下列步骤：

步骤A，通过问题分析获取问题的信息；

步骤B，根据问题分析的结果，生成查询条件，在知识源中以搜索引擎进行检索，检索出与查询条件相关的文档集，并将文档集划分为段落集；

步骤C，根据文档检索的结果，以段落检索方法从段落集中检索出与查询条件相关的段落集合，并从段落集合中返回问题的答案。

所述步骤C中，从段落集合中返回问题的答案，具体包括下列步骤：

从段落集合中抽取答案段落，作为问题的答案返回。

所述步骤C中，从段落集合中返回问题的答案，也可以具体包括下列步骤：

从所获取段落集合中抽取作为答案的句子或词，作为问题的精确答案返回。

所述信息为结构信息，包括词汇特征和句法特征。

所述信息为语义信息，包括问题目标、问题类型、问题内的约束关系。

所述获取问题的语义信息，包括下列步骤：

应用语义模板来描述问题，使用语义模板匹配的方法来分析问题，获取问题的语义信息。

所述语义模板匹配的方法，包括如下步骤：

步骤A1，用词性标注器和命名实体识别器对问题做预处理，产生一个初步的词汇-句法模板；

步骤A2，从模板库搜索与问题满足初步条件的问题模板；

步骤A3，把词汇-句法模板和问题模板进行匹配；

步骤A4，如果匹配成功，则获得问题类型、问题目标以及问题内的约束关系；否则，返回步骤A2重新进行搜索。

所述步骤B还包括下列步骤：

判断段落集是否满足设定的条件，如果没有满足，则重写查询条件，重新进行检索。

所述步骤B具体包括下列步骤：

步骤B1，根据问题分析的结果，从问题中去掉所有停用词，生成一个初始查询条件；

步骤B2，用所获得的查询条件递交到搜索引擎，从知识源中检索与问题相关的文档，然后返回文档集；

步骤B3，将文档集划分形成段落集；

步骤B4，判断段落集的数量和质量，以及循环次数是否符合要求，如果段落的数量和质量不符合要求并且循环次数少于设定的值，则转到步骤B5；否则返回结果，结束检索过程；

步骤B5，根据初始查询条件的一些关键字，用该关键字的上义词或下义词、同义词代替得到新的关键字，利用新的关键字组成新的查询条件，返回步骤B2，重新进行搜索引擎检索。

所述知识源为国际互联网；所述文档为Web文档。

所述步骤B1中，生成初始查询条件，具体包括如下步骤：

用启发式方法和局部文本分析方法来做查询扩展，生成查询条件。

所述步骤B3中，将web文档集划分形成段落集，具体包括如下步骤：

用HTML文档解析器解析返回的Web文档，抽取文档中的明文；对明文文档进行提取词干，去停用词处理后，把文档集划分为段落集。

所述步骤B5中，所述利用新的关键字组成新的查询条件，包括下列步骤：

利用新的关键字，以具有匹配关系和约束关系的词汇单元为基础，结合词汇之间的关系，计算段落与问题的相关度，得到新的查询条件。

所述步骤B5中，关键字的上义词或下义词、同义词，是利用WordNet或其他同义词林根据关键字获取的。

所述步骤C中，所述段落是由相邻的句子构成，且句子数目不大于一特定数值或总长度不大于一特定比特字节。

所述步骤C中，所述段落检索方法包括下列步骤：

结合tf-idf的统计词频特征以及查询和段落之间的语义相关性，计算段落的得分，然后根据各个段落的得分以降序排序，如果大于一特定阈值，则该段落被列为候选答案段落。

所述tf-idf词频分数如下式所示：

{score}_{1} (p, q) = \underset{t &Element; p \cap q}{Σ} \frac{1 + \ln (1 + \ln (tf (t, p))}{(1 - s) + s \frac{| p |}{avgpl}} \times \ln \frac{N + 1}{df (t)}

其中，

p表示段落；

q表示查询；

tf(t，p)表示词t在段落p中出现的频率；

s表示用来平衡段落长度的参数；

|p|表示段落p的长度；

N表示查询q的候选段落的数目；

df(t)表示包含词t的段落的数目；

avgpl表示段落的平均长度。

所述语义相关性用下式计算：

{score}_{2} (p, q) = \underset{t &Element; p}{Σ} δ (t)

δ(t)表示如果词t在查询q里有一个语义相关词，值为1，否则为0。

所述段落的得分用下式计算：

score(p，q)＝score₁(p，q)+α×score₂(p，q)

α表示score1和score2的平衡因子。

所述步骤C还包括下列步骤：

采用基于重叠的窗口的方法去划分段落，使得描述同一主题的相邻句子不会被划分到不同的段落中去。

所述步骤C中，抽取作为答案的句子或词，可以是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子或词。

所述步骤C中，抽取作为答案的句子或词，也可以是采用语义模板进行匹配来获取作为答案的句子。

所述步骤C中，抽取作为答案的句子或词，还可以是采用语义模板进行匹配来获得答案的实体类型，再利用答案的实体类型在答案的句子中匹配到具体的词，把该词作为精确答案。

为实现本发明的目的还提供一种自动问答系统，包括问题分析模块，文档检索模块，段落检索模块，其中：

所述问题分析模块，用于通过问题分析获取问题的信息；

所述文档检索模块，用于根据问题分析模块对问题分析的结果，生成查询条件，在知识源中，以搜索引擎进行检索，检索出与查询条件相关的文档集，并将文档集划分为段落集；

所述段落检索模块，用于根据文档检索模块检索的结果，以段落检索方法从段落集中检索出与查询条件相关的段落集合，从段落集合中返回问题的答案。

所述的自动问答系统，还包括答案抽取模块，用于根据段落检索获得的与查询条件相关的段落集合，从所获取段落集合中抽取作为答案的句子或词返回。

所述信息为结构信息，包括词汇特征和句法特征。

所述获取问题的语义信息，为：

所述文档检索模块还用于判断段落集是否满足设定的条件，如果没有满足，则重写查询条件，重新进行检索。

所述知识源为国际互联网；所述文档为Web文档。

所述段落是由相邻的句子构成，且句子数目不大于一特定数值或总长度不大于一特定比特字节。

所述段落检索方法为：

所述tf-idf词频分数如下式所示：

{score}_{1} (p, q) = \underset{t &Element; p \cap q}{Σ} \frac{1 + \ln (1 + \ln (tf (t, p))}{(1 - s) + s \frac{| p |}{avgpl}} \times \ln \frac{N + 1}{df (t)}

其中，

p表示段落；

q表示查询；

tf(t，p)表示词t在段落p中出现的频率；

s表示用来平衡段落长度的参数；

|p|表示段落p的长度；

N表示查询q的候选段落的数目；

df(t)表示包含词t的段落的数目；

avgpl表示段落的平均长度。

所述语义相关性用下式计算：

{score}_{2} (p, q) = \underset{t &Element; p}{Σ} δ (t)

所述段落的得分用下式计算：

score(p，q)＝score₁(p，q)+α×score₂(p，q)

α表示score1和score2的平衡因子。

所述抽取作为答案的句子或词，是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子或词。

所述抽取作为答案的句子或词，也可以是采用语义模板进行匹配来获取作为答案的句子。

本发明的有益效果是：本发明的自动问答方法和系统，在现有的自动问答系统中，增加段落(Passage)检索，减少待处理的文档大小，使得系统更有效率，提高答案的准确性，提高返回正确答案的精确度；同时，通过利用语义模板等来分析问题，从而获得更多的信息，并利用这些信息来辅助检索，在段落中更加精确地定位到包含精确答案的句子，甚至精确答案的词或短语，从而进一步提高自动答案的质量和准确性。

附图说明

图1是本发明自动问答方法流程图；

图2是本发明实施例中语义模板匹配方法流程图；

图3是本发明实施例中文档检索过程流程图；

图4是本发明自动问答系统示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种自动问答方法和系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例以国际互联网为知识源，用Google搜索引擎系统从互联网上搜索相关Web文档为例，说明本发明的一种自动问答方法和系统，但应当说明的是，这并不是对本发明应用范围的限定，本发明同样可以适用于其他知识源(如维基百科或一些本地语料库等)，通过其他搜索方法(或系统，如百度，雅虎或一些本地搜索引擎等)从文档中检索出问题的答案的自动问答方法和系统。

本发明实施例的一种基于Web文档的自动问答方法和系统，采用基于语义模板等的问题分析技术分析问题，然后用Google搜索引擎系统从国际互联网上检索相关Web文档，利用问题中的关键字之间的关系来生成高质量的查询关键字，通过查询关键字，利用段落(Passage)检索的方法，从相关文档中快速检索，返回高质量的答案段落，进一步从答案段落中得到问题的精确答案。

下面详细说明本发明的一种自动问答方法，如图1所示，包括下列步骤：

步骤S100，问题分析。通过问题分析获取问题的信息，包括结构和语义信息。

其中，结构信息包括词汇特征和句法特征，语义信息包括问题目标、问题类型、问题内的约束关系等。

较佳地，在本发明实施例中，应用语义模板(Pattern)来描述问题，使得能够为用户提供接口来提交问题。同时，使用语义模板匹配的方法来分析问题，获取问题的语义信息。

所述语义模板匹配的方法，如图2所示，具体包括如下步骤：

步骤S110，用词性标注器(Part-of-Speech Tagger，POS Tagger)和命名实体识别器(Name Entity Recognizer)对问题做预处理，产生一个初步的词汇-句法模板(SLP)；

步骤S120，从现有的模板库搜索与问题满足初步条件(如包含相同问题类型及关键字)的问题模板(QP)；

所述步骤S120中，模板库即存储问题模板的数据库，其一实施例与专利申请号为200510130778.5的中国专利公开的一种网上用户交互问答方法及其系统中的模板数据库相同。其中，所述问题模板由问题类型、和/或关键字、和/或可填充部分组成。

例如，问题“去英国留学需要哪些条件？”，其对应问题模板为“[描述/行为]需要<Q>哪些</Q>条件？”其中，“哪些”即问题类型，“需要”、“条件”即关键字，“[描述/行为]”即可填充部分，“<Q>、</Q>”即问题类型标识符。

问题模板也可以有其他的定义形式，如只包含结构的而不包含语义的模板，或可填充部分的语义标签可以包含多层次的，用户可选的概念分类。

步骤S130，把词汇-句法模板和问题模板进行匹配；

步骤S140，如果匹配成功，则获得问题类型、问题目标以及问题内的约束关系；否则，返回步骤S120重新进行搜索。

步骤S200，文档检索。根据问题分析的结果，生成初始的查询条件，在国际互联网等知识源中，以搜索引擎进行检索，检索出与查询条件相关的文档集，并将文档集划分为段落集；并在判断没有段落集满足设定的条件时，重写查询条件，重新进行检索。

作为本发明可实施的一种方式，本发明实施例利用Google搜索引擎作为文档的搜索引擎，从Google搜索引擎中搜索与问题相关的Web文档，组成文档集，然后对返回的Web文档集进行处理，以获得文档中的明文。

所述检索过程是一个循环过程，如图3所示，包括以下步骤：

步骤S210，根据问题分析的结果，从问题中去掉所有停用词，生成一个初始查询条件；

查询条件由多个关键字构成，查询条件的生成基于问题分析的结果。但是，如何生成最适合的查询条件仍然是一个困难的问题。原因在于：1)查询往往包含不足够的，同时在查询关键字和段落里出现的词，导致无法返回最相关的段落；2)一些包含足够共同出现的词的查询，词语之间缺乏关系，因此会返回一些不相关的段落。

例如，给定一个问题:“Where is Beijing？”，生成的查询是“Beijing”，用这个查询去检索回相关的段落(passage)：

A)Beijing City is an independently administered municipal district.Theclimate in Beijing is of the continental type，with cold and dry winters and hotsummers.

B)Beijing is one of the Four Great Ancient Capitals of China.It will host the2008 Summer Olympics.

C)The population of Beijing Municipality，defined as the total number ofpeople who reside in Beijing for more per year，was 15.38 million in 2005.

不难看出，上述的几个段落没一个是和给定的问题相关的。对于这种查询，需要用一些相关的词做查询扩展。作为一种可实施的方式，较佳地，本发明用启发式方法和经典的局部文本分析(local context analysis，LCA)方法来做查询扩展，生成查询条件。

步骤S220，将获得的查询条件递交到Google搜索引擎，从国际互联网中检索与问题相关的Web文档，然后返回Web文档集。

步骤S230，将Web文档集划分形成段落(Passage)集。

作为一种可实施的方式，本发明用HTML文档解析器解析返回的Web文档，抽取文档中的明文。对明文文档进行提取词干，去停用词等处理后，把文档集划分为段落集。

作为一种可实施的方式，采用基于重叠的窗口的方法。该方法在文献“Callan J P.Passage-level Evidence in Document Retrieval[C].Proc.of the 17thACM-SIGIR conference(SIGIR 1994)，New York，USA:ACM Press，1994:302-310.”中已阐述，这里不做详细说明。窗口大小实际上就是段落(Passage)的长度。为了不包括过多的冗余信息，设置窗口大小为250byte，且移动步长为50byte。例如给定某一段落，其第一个窗口即前250byte，第二个窗口为51～300byte，依此类推。也可以按照句子数目设置窗口大小，假设每3个句子为一个窗口。例如某一段落由N个句子组成s1...sn，其第一个窗口即s1 s2 s3，第二个窗口为s2 s3 s4，依此类推。

步骤S240，判断段落集的数量和质量，以及循环次数是否符合要求，如果段落的数量和质量不符合要求并且循环次数少于设定的值(如循环5次)，则转到步骤S250；否则返回结果，结束检索过程。

步骤S250，重写查询条件。根据初始查询条件的一些关键字，用该关键字的上义词或下义词、同义词代替得到新的关键字，利用新的关键字组成新的查询条件，返回步骤S220，重新进行Google搜索引擎检索。

作为一种可实施的方式，利用新的关键字，以具有匹配关系和约束关系的词汇单元为基础，结合词汇之间的关系，计算段落与问题的相关度，得到新的查询条件。

作为一种可实施方式，利用WordNet或其他同义词林获取关键字的上义词、下义词或同义词。

为了减少关键字之间的错误匹配，语义相关的词作为一个整体来考虑，用启发式方法来重写查询条件，如：

A)当关键词是名词时，它的直接修饰词和它一起作为一个关键字。例如，问题“what is the longest river in china？”，“longest river”被作为一个关键字考虑。

B)当关键字是形容词或者副词时，并且跟在疑问词“how”后面时，此关键字和“how”一起被转换成与问题语义分类相关的词。例如，对于问题“howfar is it from Earth to Mars？”，其问题类型是Distance，所以把“how far”转换成“distance”。

C)当关键字是名词时，并且跟在疑问词“what”之后，此关键字会在查询中删掉。以问题“What country is Aswan High Dam located in？”为例，词“country”从查询中去掉。

D)对于一些固定搭配中的词，其与构成搭配的词作为整体构成一个关键字。例如问题“What are pennies made of？”，“made of”作为一个关键字加到查询中。

一些关键字以多形态存在，例如名词单复数、动词时态等；可以用词干分析器(如Porter′s stemmer)把这些词转换成其词根形式。

通过新的关键字，组成新的查询条件，重新进行查询，返回步骤S220，重新进行Google搜索引擎检索和段落检索。

步骤S300，段落检索。根据文档检索的结果，以段落检索方法从段落集中检索出与查询条件相关的段落集合，并从段落集合中抽取答案段落返回。

段落检索将从返回的Web文档集中找出若干个最相关的段落(Passage)。

段落是长度有限的、由一个或几个句子组成的一段文本。

较佳地，因为过长的段落会包含过多的冗余信息，增加分析的难度和返回错误信息的概率，本发明实施例的段落(Passage)，由相邻的句子构成，并且长度不大于250比特字节(byte)。

段落检索将从返回的文档集中找出若干个最相关的段落。把待处理的文档集的大小减少为有限数目的段落(Passage)集。

段落检索的基本方法是比较查询条件和候选段落以决定哪个段落与查询条件相关，典型的查询是一个词向量，词之间的关系是布尔关系，不管是基于词频还是基于语言模型的检索都极大的依赖于查询的质量。

较佳地，为克服现有基于词频和语言模型的段落检索中，经常会返回一些不相关的段落的缺陷，因此，本发明实施例的段落检索，结合tf-idf的统计词频特征以及查询和段落之间的语义相关性，计算段落的得分，包括两部分：tf-idf词频分数、与段落的语义相关度，然后根据各个段落的得分对它们排序(如降序排序)，若大于一定阈值(例如0.3)，则作为候选答案段落(passage)。

在本发明实施例中，段落与查询的相关度由其与查询的匹配程度决定。即：

对于一个查询，其最后得分包括两部分:第一个是tf-idf词频分数；第二个是与段落(passage)的语义相关度。tf-idf词频分数正如公式(1)所示，是一个向量空间模型，同时考虑关键字在查询和段落(passage)中出现的频率。语义相关性用公式(2)计算，统计查询和段落(passage)里的语义相关词的数目。段落(passage)的最终得分用公式(3)计算：

{score}_{1} (p, q) = \underset{t &Element; p \cap q}{Σ} \frac{1 + \ln (1 + \ln (tf (t, p))}{(1 - s) + s \frac{| p |}{avgpl}} \times \ln \frac{N + 1}{df (t)} - - - (1)

{score}_{2} (p, q) = \underset{t &Element; p}{Σ} δ (t) - - - (2)

score(p，q)＝score₁(p，q)+α×score₂(p，q) (3)

式中符号含义如下：

p:段落(passage)；

q:查询；

tf(t，p):词t在段落p中出现的频率；

s:用来平衡段落长度的参数；

|p|:段落p的长度；

N:查询q的候选段落的数目；

df(t):包含词t的段落的数目；

avgpl:段落的平均长度；

δ(t):如果词t在查询q里有一个语义相关词，值为1，否则为0；

α:score1和score2的平衡因子。

其中，语义相关的定义为，对词w1和词w2，如果w1在WordNet或其他同义词林中是w2的上义词、下义词或同义词，则两者语义相关。

同时，为了保持语义信息的完整性，作为本发明的一种可实施方式，采用基于重叠的窗口的方法去划分段落(Passage)，使得描述同一主题的相邻句子不会被划分到不同的段落中去。

从所获得的段落集中选取作为答案的段落(答案段落)，当作答案返回。答案段落可以作为答案直接返回给用户。

步骤S400，精确答案抽取。从所获取答案段落中抽取作为答案的句子或词，作为问题的精确答案返回。

自动问答系统中的精确答案(Exact Answer)抽取一般有两种方法：利用模板匹配方法或者实体识别方法进行抽取作为答案的句子或词。

1)模板匹配方法

对于问题，其答案形式往往是一种或者是几种固定的模式，这些模式可以用来帮助系统查找描述答案的小段落。

如:When was B born？

它的答案模式往往是:

B was born in<ANSWER>.

In<ANSWER>，B was born in Shanghai.

这里<ANSWER>表示精确答案所在的位置。

如果它的答案段落是：“B is good at math.In 1981，B was born in Shanghai.He graduated from the Shanghai No.1 primary school.”这个段落的第二句与上面的第二个模板匹配，可以作为答案句子返回，甚至，其中的“1981”与模板里的<ANSWER>相对应，因此可以作为精确答案返回。

作为另一种可实施的方式，也可以用正则表达式来实现模板匹配。例如：判断一个字符串是不是整数，或者判断它是不是一个电话号码，判断是不是一个email地址等。

2)实体识别方法

实体识别的方法是在答案段落中，找出与问题目标(question target)对应的实体词作为答案返回。

如：When was B born？它的问题目标是TIME。

它的答案段落(Answer Passage)是：“In1981，B was born in Shanghai.”这个段落里“1981”是一个TIME实体，因此直接把它作为精确答案返回。

较佳地，考虑到模板匹配的方法只考虑答案的位置，而没考虑所返回的答案的类型是否匹配。而实体识别方法只考虑类型匹配，而没有考虑答案的位置的缺陷，在本发明实施例中，作为一种可实施的方式，采用一种更加灵活实用的模板匹配方法，采用语义模板进行匹配，其中的可变化部分的语义标注是一种实体标签，进行实体类型匹配，同时考虑答案的位置，又考虑所返回的答案的类型是否匹配，抽取作为答案的句子或词。

本发明实施例中采用语义模板，以语义标注进行实体类型匹配的模板匹配方法，在本申请人申请的申请号为200510130778.5，名称为：一种网上用户交互问答方法及其系统，的发明专利申请中予以详细的说明，本发明实施例中全文引用，不再一一详细描述。

对应于本发明的一种自动问答方法，本发明还提供一种自动问答系统，如图4所示，其包括四个模块：问题分析模块51，文档检索模块52，段落检索模块55，以及答案抽取模块56。

所述问题分析模块51，用于通过问题分析获取问题的信息，包括结构和语义信息；

所述文档检索模块52，用于根据问题分析模块51对问题分析的结果，生成初始的查询条件，在国际互联网等知识源中，以搜索引擎进行检索，检索出与查询条件相关的文档集53，并将文档集53划分为段落集54；并在判断段落集54不满足设定的条件时，重写查询条件，重新进行检索；

所述段落检索模块55，用于根据文档检索模块52检索的结果，以段落检索方法从段落集54中检索出与查询条件相关的段落集合，并从段落集合中选取最相关的段落作为答案段落返回。

所述答案抽取模块56，用于根据段落检索获得的与查询条件相关的段落集合，从所获取段落集合中抽取作为答案的句子或词返回。

首先，问题分析模块51对用户问题进行分析，以获得问题的信息，包括句法结构和语义信息；

然后，文档检索模块52，根据问题的信息，生成初始查询条件，在国际互联网等知识源中，以Google搜索引擎进行搜索，检索出与查询条件相关的Web文档集53，并将文档集53划分为段落集54；并在判断段落集54不满足设定的条件时，重写查询条件，重新进行检索；

其后，段落检索模块55从段落集中检索出与查询条件相关的段落，并从段落集合中选取最相关的段落作为答案段落返回；

最后，答案抽取模块56从检索出的与查询条件相关的答案段落集合中抽取作为答案的句子或词。

本发明的自动问答系统以与自动问答方法相应的过程进行工作，本领域技术人员根据本发明实施例的描述，可以实现本发明的自动问答系统，因此，在本发明实施例中，不再一一详细描述。

下面通过实验来描述本发明自动问答方法和系统对问题返回正确结果的精确度。

选择TREC-12(2003)的事实性的(factoid)问题作为测试集。

根据问题类型，把问题分为四类。如本发明实施例所提到的，用Google搜索引擎系统作为文档的搜索引擎，每个问题返回不多于40篇文档，每篇文档被划分为段落(passage)。

每个问题的候选段落(passage)由文档数和文档长度决定，本实验中，每个问题平均有400个候选段落(passage)，所有的候选段落(passage)被打分并且排序，最后，每个问题返回五个得分最高的段落(passage)。

为了比较，在Google搜索引擎上也做了同样的实验，测试集的问题被直接递交到Google返回相关文档，搜索结果包括URL、标题和摘要。通过人工去检查返回的前五个结果，然后评估并记录下结果。

为了评估结果，利用平均倒排序(Mean Reciprocal rank，MRR)计算出没有答案段落的问题比例进行评估。

答案段落是包含了问题精确答案的段落。

对每个问题，系统最多返回五个答案段落。每个段落被独立评估成正确(correct)，相关(relevant)，和不正确(incorrect)。

如果段落中包含了明确的正确的答案，它被评估成正确(correct)；如果段落中不包含明确的正确的答案，但是包含了正确答案的重要信息，它被评估成相关(relevant)；否则，其被评估成不正确(incorrect)。

问题q的倒排序(Reciprocal Rank，RR)被定义成公式(4)，

RR (q) = \frac{1}{rank (first_correct_passage)} - - - (4)

其中rank(first_correct_passage)表示第一个正确(correct)段落在返回的段落列表中排的次序。

利用MRR评估如公式(5)所示。

MRR是所有问题的倒排序的平均值。

MRR = \frac{1}{N} Σ_{i = 1}^{N} RR (q_{i}) - - - (5)

没有返回答案段落的问题的比例用公式(6)计算：

Percentage (Q_set) = \frac{n_{1}}{N} - - - (6)

式中符号含义如下：

Q_set:问题集；

n₁:有至少一个正确(correct)或者相关(relevant)段落的问题的数目；

N:所有问题的数目。

另外，对于每个问题，如果其返回的结果中至少有一个正确(correct)段落或者相关(relevant)段落，最好的段落在结果中的排序位置(Rank)将被记录下来。对于一些问题，其结果中不存在正确(correct)段落或者相关(relevant)段落，则结果记录为NIL。

本发明自动问答方法和系统实验结果如表1所示：本发明的自动问答方法和系统为59‘what’类型(what-type)的问题返回正确(correct)或者相关(relevant)段落，对其余的65what-type问题则返回NIL。

表1.返回答案段落(passage)的问题数目和排序以及MRR

Rank	1	2	3	4	5	NIL	MRR
Rank	1	2	3	4	5	NIL	MRR	what	28	11	7	9	4	65	0.314
How	5	3	10	16	10	12	0.283	what	28	11	7	9	4	65	0.314
How	5	3	10	16	10	12	0.283	when	2	2	4	2	0	10	0.242

what-type问题的MRR值是0.314。what-type问题的MRR值比how-type(‘how’类型)和when-type(‘when’类型)问题要高，两者的MRR值分别是0.283和0.242。

31.5％(即：(rank1+rank2)/total＝(28+11)/(59+65))的what-type问题至少有一个正确(correct)或相关(relevant)段落排在结果的top-2位置。对于how-type和when-type问题，这个百分比则分别是14.3％((表1:rank1+rank2)/total＝(5+3)/56)和20％((表1:rank1+rank2)/total＝(2+2)/20)。

对这三种类型问题，返回结果中不含正确(correct)段落或者相关(relevant)段落的比例分别是52.4％(即：Rank NIL(65)/total(124))、21.4％(即：Rank NIL(12)/total(56))、和50％(即：Rank NIL(10)/total(20))。结果表明，本发明的自动问答系统对于what-type问题，结果优于其他两种类型的问题。原因在于，跟另两种问题相比，what-type问题目标明确、陈述清晰，搜索引擎能够为该类问题返回更加准确的文档。所有问题的总体MRR值是29.8％，没有返回答案段落(passage)的问题比例则是43.5％。

表2显示的是在Google上手工实验的实验结果。when-type问题的MRR值是0.225。how-type和when-type问题的MRR值分别是0.298和0.254。

表2.返回答案段落(passage)的问题数目和排序以及MRR

Rank	1	2	3	4	5	NIL	MRR
Rank	1	2	3	4	5	NIL	MRR	what	20	6	6	7	6	79	0.225
How	6	8	13	3	8	18	0.298	what	20	6	6	7	6	79	0.225
How	6	8	13	3	8	18	0.298	when	2	1	4	5	0	8	0.254

对于所有的问题，Google的MRR值是24.8％。

结果表明，本发明的自动问答方法和系统优于Google。在表2中，105个问题返回NIL，而在表1中这个数字是87。实验结果表明，本发明的自动问答方法和系统可以从排序较低的文档里找到正确的答案段落(passage)并提升它的排序。

通过以上结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

Claims

1、一种自动问答方法，其特征在于，包括下列步骤：

步骤A，通过问题分析获取问题的信息；

2、根据权利要求1所述自动问答方法，其特征在于，所述步骤C中，从段落集合中返回问题的答案，具体包括下列步骤：

从段落集合中抽取答案段落，作为问题的答案返回。

3、根据权利要求1所述的自动问答方法，其特征在于，所述步骤C中，从段落集合中返回问题的答案，具体包括下列步骤：

从所获取段落集合中抽取作为答案的句子或词，作为问题的精确答案返同。

4、根据权利要求1至3任一项所述的自动问答方法，其特征在于，所述信息为结构信息，包括词汇特征和句法特征。

5、根据权利要求1至3任一项所述的自动问答方法，其特征在于，所述信息为语义信息，包括问题目标、问题类型、问题内的约束关系。

6、根据权利要求5所述的自动问答方法，其特征在于，所述获取问题的语义信息，包括下列步骤：

7、根据权利要求6所述的自动问答方法，其特征在于，所述语义模板匹配的方法，包括如下步骤：

步骤A2，从模板库搜索与问题满足初步条件的问题模板；

步骤A3，把词汇-句法模板和问题模板进行匹配；

8、根据权利要求1至3任一项所述的自动问答方法，其特征在于，所述步骤B还包括下列步骤：

9、根据权利要求8所述的自动问答方法，其特征在于，所述步骤B包括下列步骤：

步骤B3，将文档集划分形成段落集；

10、根据权利要求9所述的自动问答方法，其特征在于，所述知识源为国际互联网；所述文档为Web文档。

11、根据权利要求9所述的自动问答方法，其特征在于，所述步骤B1中，生成初始查询条件，具体包括如下步骤：

12、根据权利要求10所述的自动问答方法，其特征在于，所述步骤B3中，将web文档集划分形成段落集，具体包括如下步骤：

13、根据权利要求9所述的自动问答方法，其特征在于，所述步骤B5中，所述利用新的关键字组成新的查询条件，包括下列步骤：

14、根据权利要求9所述的自动问答方法，其特征在于，所述步骤B5中，关键字的上义词或下义词、同义词，是利用WordNet根据关键字获取的。

15、根据权利要求1至3任一项所述的自动问答方法，其特征在于，所述步骤C中，所述段落是由相邻的句子构成，且句子数目不大于一特定数值或总长度不大于一特定比特字节。

16、根据权利要求1至3任一项所述的自动问答方法，其特征在于，所述步骤C中，所述段落检索方法包括下列步骤：

17、根据权利要求16所述的自动问答方法，其特征在于，所述tf-idf词频分数如下式所示：

{score}_{1} (p, q) = \underset{t &Element; p \cap q}{Σ} \frac{1 + \ln (1 + \ln (tf (t, p))}{(1 - s) + s \frac{| p |}{avgpl}} \times \ln \frac{N + 1}{df (t)}

其中，

p表示段落；

q表示查询；

tf(t，p)表示词t在段落p中出现的频率；

s表示用来平衡段落长度的参数；

|p|表示段落p的长度；

N表示查询q的候选段落的数目；

df(t)表示包含词t的段落的数目；

avgpl表示段落的平均长度；

所述语义相关性用下式计算：

{score}_{2} (p, q) = \underset{t &Element; p}{Σ} δ (t)

δ(t)表示如果词t在查询q里有一个语义相关词，值为1，否则为0；

所述段落的得分用下式计算：

score(p，q)＝score₁(p，q)+α×score₂(p，q)

α表示score1和score2的平衡因子。

18、根据权利要求16所述的自动问答方法，其特征在于，所述步骤C还包括下列步骤：

19、根据权利要求3所述的自动问答方法，其特征在于，所述步骤C中，抽取作为答案的句子或词，是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子。

20、根据权利要求3所述的自动问答方法，其特征在于，所述步骤C中，抽取作为答案的句子或词，是采用语义模板进行匹配来获取作为答案的句子。

21、根据权利要求3所述的自动问答方法，其特征在于，所述步骤C中，抽取作为答案的句子或词，是采用语义模板进行匹配来获得答案的实体类型，再利用答案的实体类型在答案的句子中匹配到具体的词，把该词作为精确答案。

22、一种自动问答系统，其特征在于，包括问题分析模块，文档检索模块，段落检索模块，其中：

所述问题分析模块，用于通过问题分析获取问题的信息；

23、根据权利要求22所述的自动问答系统，其特征在于，还包括答案抽取模块，用于根据段落检索获得的与查询条件相关的段落集合，从所获取段落集合中抽取作为答案的句子或词返回。

24、根据权利要求22或23所述的自动问答系统，其特征在于，所述信息为结构信息，包括词汇特征和句法特征。

25、根据权利要求22或23所述的自动问答系统，其特征在于，所述信息为语义信息，包括问题目标、问题类型、问题内的约束关系。

26、根据权利要求22或23所述的自动问答系统，其特征在于，所述获取问题的语义信息，为：

27、根据权利要求22或23所述的自动问答系统，其特征在于，所述文档检索模块还用于判断段落集是否满足设定的条件，如果没有满足，则重写查询条件，重新进行检索。

28、根据权利要求27所述的自动问答系统，其特征在于，所述知识源为国际互联网；所述文档为Web文档。

29、根据权利要求22或23所述的自动问答系统，其特征在于，所述段落是由相邻的句子构成，且句子数目不大于一特定数值或总长度不大于一特定比特字节。

30、根据权利要求22或23所述的自动问答系统，其特征在于，所述段落检索方法为：

31、根据权利要求30所述的自动问答系统，其特征在于，所述tf-idf词频分数如下式所示：

{score}_{1} (p, q) = \underset{t &Element; p \cap q}{Σ} \frac{1 + \ln (1 + \ln (tf (t, p))}{(1 - s) + s \frac{| p |}{avgpl}} \times \ln \frac{N + 1}{df (t)}

其中，

p表示段落；

q表示查询；

tf(t，p)表示词t在段落p中出现的频率；

s表示用来平衡段落长度的参数；

|p|表示段落p的长度；

N表示查询q的候选段落的数目；

df(t)表示包含词t的段落的数目；

avgpl表示段落的平均长度；

所述语义相关性用下式计算：

{score}_{2} (p, q) = \underset{t &Element; p}{Σ} δ (t)

所述段落的得分用下式计算：

score(p，q)＝score₁(p，q)+α×score₂(p，q)

α表示score1和score2的平衡因子。

32、根据权利要求23所述的自动问答系统，其特征在于，所述抽取作为答案的句子或词，是采用模板匹配方法和/或实体识别方法进行抽取作为答案的句子。

33、根据权利要求23所述的自动问答系统，其特征在于，所述抽取作为答案的句子或词，是采用语义模板进行匹配来获取作为答案的句子。

34、根据权利要求23所述的自动问答方法，其特征在于，所述步骤C中，抽取作为答案的句子或词，是采用语义模板进行匹配来获得答案的实体类型，再利用答案的实体类型在答案的句子中匹配到具体的词，把该词作为精确答案。