CN103810218B

CN103810218B - 一种基于问题簇的自动问答方法和装置

Info

Publication number: CN103810218B
Application number: CN201210459020.6A
Authority: CN
Inventors: 方高林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2018-06-08
Anticipated expiration: 2032-11-14
Also published as: CN103810218A

Abstract

本发明提供了一种基于问题簇的自动问答方法和装置，包括：预先对问答数据库中的问题进行基于语义相似度的聚类得到一个以上的问题簇，从问题簇内问题的答案中确定出问题簇对应的优质答案，从而建立簇形式的问答数据库；当获取到用户输入的问题时，确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇，将该问题簇对应的优质答案返回给用户。本发明能够针对用户问题实现高效准确的自动问答，更好地满足用户的需求。

Description

一种基于问题簇的自动问答方法和装置

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种基于问题簇的自动问答方法和装置。

【背景技术】

随着网络技术的快速发展，网络特别是搜索引擎已经成为人们获取信息的重要手段，用户通过在搜索引擎输入query来获取搜索引擎返回的搜索结果，并从中找到自己需要的信息。在很多情况下，用户输入的query可能是一个问题，由于搜索引擎返回的搜索结果包含的是与query相似度满足一定要求的页面，因此，由于用户表述多种多样的问题，在搜索结果中往往不能很好的满足用户的需求，用户需要从数以百计或千记的结果中查找想要的信息，而输入问题query的用户想要的仅是一个答案。

除了搜索引擎之外，问答平台也是目前用户经常使用的信息获取方式，用户登录问答平台在问答平台上发布问题，然后由其他用户针对该问题进行回答，或者将问答数据库中已经存在的该问题对应的答案自动提供给用户。但实际使用时，在问答数据库中即便已经存在语义上实质相同的问题对应的答案，但由于用户表述多种多样的问题，无法自动提供给用户答案，仍需要等待其他用户针对该问题的回答。

显然，如何针对用户问题实现高效准确的自动问答是一个亟待解决的问题。

【发明内容】

有鉴于此，本发明提供了一种基于问题簇的自动问答方法和装置，以便于针对用户问题实现高效准确的自动问答。

具体技术方案如下：

一种基于问题簇的自动问答方法，该方法包括：

预先对问答数据库中的问题进行基于语义相似度的聚类得到一个以上的问题簇，从问题簇内问题的答案中确定出问题簇对应的优质答案，从而建立簇形式的问答数据库；

当获取到用户输入的问题时，确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇，将该问题簇对应的优质答案返回给用户。

根据本发明一优选实施例，所述从问题簇内问题的答案中确定出问题簇对应的优质答案具体包括：

确定问题簇内问题的答案的主题中心，确定问题簇内各答案与主题中心的距离，将距离主题中心最近的答案作为问题簇的优质答案；或者，

依据问题簇内各答案对预设格式的满足状况、答案的长度特征、视觉特征、答案和问题的匹配程度、用户评价得分、回答者的级别中的一种因素或任意组合，对答案进行打分，将依据各因素对答案的打分进行融合得到各答案的单个问题得分，将单个问题得分最高的答案确定为问题簇的优质答案；或者，

依据所述问题簇内各答案与主题中心的距离确定各答案的问题间评价得分，将答案的问题间得分与答案的所述单个问题得分进行融合，得到答案的总得分，将总得分最高的答案作为问题簇的优质答案。

根据本发明一优选实施例，所述确定问题簇内问题的答案的主题中心为：

将问题簇内各问题进行分词和去除停用词后，将每一个问题作为一个文档统计各词语的文档频率，将文档频率达到预设主题中心文档频率的词语确定为主题中心。

根据本发明一优选实施例，所述用户输入的问题为：用户输入搜索引擎的query经识别后确认是问题类型的query；

将所述问题簇对应的优质答案包含在所述query的搜索结果中返回给用户。

根据本发明一优选实施例，确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇具体为：

计算用户输入的问题与所述簇形式的问答数据库中各问题的语义相似度，确定与所述用户输入的问题之间语义相似度最高的问题所在的问题簇。

根据本发明一优选实施例，在计算两问题之间的语义相似度时，具体包括：

将两问题分别进行分词后去除停用词；

将两问题中存在同义映射的词语映射为同义词向量，同义词向量中包含问题中的词语和该词语的同义词；

计算映射后得到的两问题之间的余弦距离，或者将余弦距离进一步结合两问题的问句类型匹配状况或否定结构匹配状况中的至少一种，得到两问题之间的语义相似度。

根据本发明一优选实施例，在确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇的同时，还包括：

对所述用户输入的问题进行结构化分析，判断所述用户输入的问题是否为实体词和属性词组合的表达方式，如果是，查找实体属性值数据库确定所述实体词和属性词组合对应的属性值，将该属性值包含在所述搜索结果中返回给用户。

根据本发明一优选实施例，在确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇之前还包括：

对所述用户输入的问题进行结构化分析，判断所述用户输入的问题是否为实体词和属性词组合的表达方式，如果是，查找实体属性值数据库确定所述实体词和属性词组合对应的属性值，将该属性值包含在所述搜索结果中返回给用户，结束流程；否则，继续执行所述确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇。

根据本发明一优选实施例，在构建所述实体属性值库时采用将实体词和属性词同义映射为统一表述的方式来建立索引；

在对用户输入的问题进行结构化分析时，将所述用户输入的问题中的实体词和属性词同义映射为统一表述，得到所述实体词和属性词组合。

一种基于问题簇的自动问答装置，该装置包括：

数据库建立单元，用于预先对问答数据库中的问题进行基于语义相似度的聚类得到一个以上的问题簇，从问题簇内问题的答案中确定出问题簇对应的优质答案，从而建立簇形式的问答数据库；

自动问答单元，用于当获取到用户输入的问题时，确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇，将该问题簇对应的优质答案返回给用户。

根据本发明一优选实施例，所述数据库建立单元在从问题簇内问题的答案中确定出问题簇对应的优质答案时具体执行：

依据问题簇内各答案对预设格式的满足状况、答案的长度特征、视觉特征、答案和问题的匹配程度、用户评价得分、回答者的级别中的一种因素或任意组合，对答案进行打分，将依据各因素对答案的打分进行融合得到各答案的单个问题评价得分，将单个问题评价得分最高的答案确定为问题簇的优质答案；或者，

依据所述问题簇内各答案与主题中心的距离确定各答案的问题间评价得分，将答案的问题间评价得分与答案的所述单个问题评价得分进行融合，得到答案的总得分，将总得分最高的答案作为问题簇的优质答案。

根据本发明一优选实施例，所述数据库建立单元在确定问题簇内问题的答案的主题中心时，具体执行：将问题簇内各问题进行分词和去除停用词后，将每一个问题作为一个文档统计各词语的文档频率，将文档频率达到预设主题中心文档频率的词语确定为主题中心。

根据本发明一优选实施例，所述自动问答单元包括：问题获取子单元，用于获取用户输入搜索引擎的query，如果识别出是问题类型的query，则将该query作为所述用户输入的问题；

所述自动问答单元还包括：

结果返回子单元，用于将所述问题簇对应的优质答案包含在所述query的搜索结果中返回给用户。

根据本发明一优选实施例，所述自动问答单元包括：问题簇确定子单元，用于确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇，具体为：计算用户输入的问题与所述簇形式的问答数据库中各问题的语义相似度，确定与所述用户输入的问题之间语义相似度最高的问题所在的问题簇。

根据本发明一优选实施例，所述数据库建立单元和所述问题簇确定子单元在计算两问题之间的语义相似度时，具体执行：

将两问题分别进行分词后去除停用词；

根据本发明一优选实施例，所述自动问答单元还包括：

结构化分析子单元，用于对所述用户输入的问题进行结构化分析，判断所述用户输入的问题是否为实体词和属性词组合的表达方式，如果是，触发属性值确定子单元；

属性值确定子单元，用于受到触发后，查找实体属性值数据库确定所述实体词和属性词组合对应的属性值；

所述结果返回子单元，还用于将所述属性值包含在所述搜索结果中。

根据本发明一优选实施例，所述自动问答单元还包括：

结构化分析子单元，用于对所述用户输入的问题进行结构化分析，判断所述用户输入的问题是否为实体词和属性词组合的表达方式，如果是，触发属性值确定子单元；否则，触发问题簇确定子单元；

问题簇确定子单元，用于受到触发后，执行确定所述簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇的操作；

所述结果返回子单元还用于将所述属性值包含在搜索结果中返回给用户。

根据本发明一优选实施例，所述实体属性值库采用将实体词和属性词同义映射为统一表述的方式建立索引；

所述结构化分析子单元在对用户输入的问题进行结构化分析时，将所述用户输入的问题中的实体词和属性词同义映射为统一表述，得到所述实体词和属性词组合。

由以上技术方案可以看出，本发明通过预先对问答数据库中的问题进行基于语义相似度的聚类形成问题簇，并确定问题簇对应的优质答案，当获取到用户输入的问题时，能够将与该问题的语义相似度最高的问题簇，并将问题簇对应的优质答案返回给用户。这样，只要问答数据库中已经存在与用户输入问题相同语义的问题，就能够将对应的优质答案返回给用户，从而高效准确地实现自动问答，更好地满足用户的需求。

【附图说明】

图1为本发明实施例一提供的建立簇形式的问答数据库的方法流程图；

图2为本发明实施例二提供的应用于搜索引擎的一种自动问答方法流程图；

图3为本发明实施例二提供的应用于搜索引擎的第二种自动问答方法流程图；

图4为本发明实施例二提供的应用于搜索引擎的第三种自动问答方法流程图；

图5为本发明实施例三提供的自动问答装置的结构图；

图6为本发明实施例三提供的应用于搜索引擎的一种自动问答装置的结构图；

图7为本发明实施例三提供的应用于搜索引擎的另一种自动问答装置的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明的核心思想为：预先建立簇形式的问答数据库，即对问答数据库中的问题进行基于语义的聚类得到一个以上的问题簇，从问题簇内问题的答案中确定出问题簇对应的优质答案；当获取到用户输入的问题时，确定簇形式的问答数据库中与该用户输入的问题语义相似度最高的问题簇，将该问题簇对应的优质答案返回给用户。

下面首先通过实施例一对簇形式的问答数据库建立方法进行详细描述。

实施例一、

图1为本发明实施例一提供的建立簇形式的问答数据库的方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：对问答数据库中的所有问题进行基于语义的聚类得到一个以上的问题簇。

在已有的问答数据库中，通常是一个问题对应一个以上的答案或者也存在一个问题尚没有对应答案的情况，该问答数据库是问答平台已有的数据库。通过对问答数据库中所有问题进行语义相似度的计算，基于语义相似度进行问题的聚类，最终得到每个问题簇包含语义相同或相似的问题。例如，下面的问题聚类成一个问题簇：

喝牛奶有益身体健康

喝牛奶有益身体

喝牛奶对身体有什么益处

喝牛奶对身体有什么帮助

喝牛奶对身体有什么好处

喝牛奶对人身体有什么益处

步骤102：从问题簇内问题的答案中确定出问题簇对应的优质答案。

本步骤实际上是对问题簇内问题的答案进行质量评价，这里的质量评价可以采用问题间质量评价和单个问题的质量评价这两种方式中的一种或组合。优选地，可以主要采用问题间质量评价，再进一步结合单个问题的质量评价方式。

问题间评价指的是依据问题簇内问题的答案间的主题中心重复度以及不同答案间的分散度来进行的。主题中心重复度指的是在问题簇内问题的答案中，每个答案包含的共有主题词越多越可能成为优质答案。不同答案间的分散度指的是，如果包含的共有主题词类似，某答案与其他答案之间的距离越小，说明该答案与其他答案之间的分散度越小，越可能成为优质答案。

具体在进行评价时，首先确定问题簇内问题的答案的主题中心，具体地，可以对各问题进行分词和去除停用词后，将每一个问题作为一个文档统计各词语的文档频率（DF），将文档频率达到预设主题中心文档频率的词语作为主题中心，这里主题中心可以是一个词语，也可以是词语的组合，同样这里的词语是广义的词语，可以是词或者短语。

然后计算各答案与该主题中心的距离，可以采用诸如余弦距离的方式，将距离主题中心最近的答案作为该问题簇的优质答案。这里各答案与主题中心的距离即体现了主题中心重复度，又体现了不同答案间的分散度。距离主题中心越近说明该答案与主题中心的重复度越高，与其他答案的分散度越小，越可能成为优质答案。

例如在语义为“中国有哪些民族”的问题簇中存在以下答案：

答案1：56个，汉族、回族、壮族、维吾尔族…

答案2：汉族、回族、壮族、维吾尔族…

答案3:56个民族

答案4：汉族，汉族人口众多民族，分布众多；回族，分布在宁夏地区…

经过主题中心重复度计算，主题中心为“56个，汉族、回族、壮族、维吾尔族…”，答案1距离主题中心的预先距离最近，则选择答案1作为优质答案。

对单个问题的评价，依据答案对预设格式的满足状况、答案的长度特征、答案的视觉特征、答案和问题的匹配程度、用户评价得分、回答者的级别等中的一种或任意组合的方式来对答案进行评价。例如采用上述因素对答案分别进行打分，再进行加权求和等融合方式得到各答案的单个问题评价得分，得分越高的越优质。

如果融合问题间评价和单个问题的质量评价方式，则可以依据各答案与主题中心的距离得到各答案的问题间评价得分，再将问题间评价得分和单个问题评价得分进行融合，例如进行加权求和、加权平均等方式，得到各答案的总得分，将总得分最高的答案作为问题簇的优质答案。

经过上述流程就形成了包含问题簇以及问题簇对应的优质答案的簇形式的问答数据库。

本发明提供的自动问答方法既能够应用于问答平台，也能够应用于搜索引擎。下面在实施例二中以应用于搜索引擎为例对该方法进行详细描述。

实施例二、

图2为本发明实施例二提供的应用于搜索引擎的自动问答方法流程图，如图2所示，该方法可以包括以下步骤：

步骤201：对用户输入搜索引擎的query进行识别，如果识别出是问题类型的query，则继续执行步骤202。

在对query进行是否是问题类型的识别时，可以通过预先建立的分类器来实现。该分类器的训练过程简单描述为：首先对疑问词以及具有疑问意图的需求词为中心进行扩展，得到一元、二元、三元等组合特征，通过统计在问题类型中的频率信息与在其他句子类型中的频率信息的比值来提取问题类型对应的特征。这种分类器不仅能够识别出包含疑问词的问题类型，也能够够识别出具有疑问意图的需求词的问题类型。由于该部分内容可以采用现有技术，在此不再赘述。

步骤202：确定簇形式问答数据库中与用户输入的query之间语义相似度最高的问题簇。

在本步骤中可以计算用户输入的query与簇形式问答数据库中各问题的语义相似度，确定与用户输入的query之间语义相似度最高的问题所在的问题簇。

无论在实施例一的步骤101中对问题进行聚类还是本步骤都涉及到计算了两个问题之间的语义相似度，可以采用现有技术中常用的语义相似度计算方式，但为了提高相似度的准确性，在此本发明实施例还提供了一种优选的语义相似度计算方式：

首先将两问题进行分词后去除停用词。优选地，可以进一步进行结构分析后对于语义冗余的词语进行动态权重调整，该部分内容为已有技术不再赘述。

然后将问题中存在同义映射的词语（这里的词语是广义的词语，包括词和短语等单元）映射为同义词向量，该同义词向量中包含该词语和该词语的同义词。这样做的目的是为了召回词语的不同表达形式，例如某问题中的词语“哈尔滨工程大学”可以映射为由“哈尔滨工程大学”、“哈工大”、“哈军工”、“哈尔滨工程学院”、“哈船院”、“哈船舶”等构成的同义词向量。经本步骤的处理后，问题就由同义词向量构成，或者有词语和同义词向量构成，或者仍由词语构成（任何词语都不存在同义词的情况下）。

计算映射后得到的两问题之间的余弦距离，得到两问题之间的语义相似度。

例如，两个问题S₁和S₂经过分词和停用词过滤后为：

经过上述同义词映射后分别表示成：

其语义相似度Sim(S₁，S₂)可以采用如下公式：

其中Wgt(w)表示词语w的权重，可以TF-IDF进行衡量。

优选地，在采用余弦距离的基础上，还可以进一步结合两问题的问句类型匹配状况、否定结构匹配状况等进行语义相似度的计算。例如，当结合问句类型时，其语义相似度Sim(S₁，S₂)可以采用如下公式：

其中，SentType(S₁，S₂)为体现两问题的问句类型匹配状况的权重系数，例如两问题的问句类型一致，SentType(S₁，S₂)的值为1，如果两问题的问句类型不一致，则SentType(S₁，S₂)的值为0.8。

步骤203：将相似度最高的问题簇对应的优质答案包含在搜索结果中。

举个例子，假设用户输入的query为“中国有哪几大淡水湖”，识别出其是问题类型的query后，确定出簇形式问答数据库中与用户输入的query之间语义相似度最高的问题簇为：1、中国几大淡水湖，2、中国哪几大淡水湖，3、中国的四大淡水湖是哪几个湖，4、中国哪几个淡水湖，5、太湖是中国第几大淡水湖？6、五大淡水湖有哪几个。该问题簇对应的优质答案是：“中国有五大淡水湖：鄱阳湖、洞庭湖、太湖、洪泽湖、巢湖”，将该优质答案包含在搜索结果中返回给用户。

搜索结果中除了该优质答案之外，还可以包含其他搜索结果，优选地，可以将该优质答案在搜索结果中进行突出展示，例如展示在突出位置（搜索结果的前端等）或者以特殊形式进行展示（在特定文本框内等）。

另外，还存在一种问题是采用实体属性表达方式，例如“姚明的身高”，其目的是为了获取实体的属性值。对于这种情况，还可以进一步通过查找实体属性值库，在搜索结果中返回对应的属性值。

即在上述实施例中执行步骤202的同时，如图3所示，执行步骤301，对用户输入的query进行结构化分析，判断用户输入的query是否为实体词和属性词组合的表达方式，如果是，则执行步骤302查找实体属性值库确定该query的实体词和属性词组合对应的属性值，将该属性值包含在搜索结果中返回给用户。

或者，在上述实施例中执行步骤202之前，如图4所示，执行步骤401，对用户输入的query进行结构化分析，判断用户输入的query是否为实体词和属性词组合的表达方式，如果是，则执行步骤402查找实体属性值库确定该query的实体词和属性词组合对应的属性值，将该属性值包含在搜索结果中返回给用户；否则，执行步骤202。

其中对用户输入的query进行结构化分析的过程可以为：对用户输入的query进行分词并去除停用词后，对句子结构进行解析得到实体词+属性词的形式，该部分为现有技术不再赘述。但为了适应多种用户表述，可以采用同义映射的方式，将同义词构成的向量统一映射为统一的表述，在构建实体属性值库时采用实体词和属性词同义映射到的统一表述来建立索引，在对用户输入的query进行结构化分析时，也将解析得到的实体词和属性词同义映射到统一表述上再查找实体属性值库。

例如，预先将“身高”、“多高”、“高度”、“真实身高”等同义映射为统一的表述“身高”，从而建立实体属性值库，当用户输入query“姚明的真实身高”时，进行分词和去除停用词后，又将“真实身高”同义映射为“身高”，得到实体词+属性词的组合为“姚明身高”，再去查询实体属性值库。

为了实现同义映射，需要预先挖掘同义表述，如果两个词语的上下文特征相似度大于预设的阈值，则认为两个词语是同义词。另外也可以采用但不限于以下挖掘策略：

搜索日志中同一用户相邻两次搜索的query为同义表述，从中提取同义词，例如某一用户相邻两次搜索“nike运动鞋”和“耐克运动鞋”；

利用同义词模板提取同义词，例如“简称是”、“全称是”、“即”等前后两词语为同义词；

从搜索日志中点击同一网页对应的query中提取同义词；

从搜索日志中query对应的被点击网页的title、anchor等中提取同义词，例如用户输入“北大医院”的query后点击了title“北京大学医院”，则可以提取出“北大医院”和“北京大学医院”为同义词。

对于实体属性库中实体词、属性词和属性值的三元组挖掘则可以从百科等结构化网页或半结构网页中进行提取。结构化网页中的提取方式比较简单，可以从特定位置结合特定模板的方式提取出三元组。从半结构化网页中提取时，可以预先从一个种子集合开始，通过置信度扩展的方式产生一个属性描述句子候选集合，得到属性与属性值的模板，利用这些模板进行迭代产生新的属性和属性值，并进一步迭代出新的模板，最终得到大量结构化的三元组。该部分内容可以采用现有的三元组挖掘方式，不再具体赘述。

以上是对本发明所提供的方法进行的详细描述，下面通过实施例三对本发明提供的装置进行详细描述。

实施例三、

图5为本发明实施例三提供的自动问答装置的结构图，如图5所示，该装置包括：数据库建立单元500和自动问答单元510。

数据库建立单元500预先对问答数据库中的问题进行基于语义相似度的聚类得到一个以上的问题簇，从问题簇内问题的答案中确定出问题簇对应的优质答案，从而建立簇形式的问答数据库。

其中在从问题簇内问题的答案中确定出问题簇对应的优质答案时可以采用问题间质量评价和单个问题的质量评价这两种方式中的一种或组合。

问题间质量评价的方式为：确定问题簇内问题的答案的主题中心，确定问题簇内各答案与主题中心的距离，将距离主题中心最近的答案作为问题簇的优质答案。这种方式综合体现了各答案的主题中心重复度和不同答案间的分散度，距离主题中心越近说明该答案与主题中心的重复度越高，与其他答案的分散度越小，越可能成为优质答案。

其中在确定问题簇内问题的答案的主题中心时，可以将问题簇内各问题进行分词和去除停用词后，将每一个问题作为一个文档统计各词语的文档频率，将文档频率达到预设主题中心文档频率的词语确定为主题中心。在确定问题簇内各答案与主题中心的距离时，可以采用余弦距离的计算方法。

单个问题质量评价的方式为：依据问题簇内各答案对预设格式的满足状况、答案的长度特征、视觉特征、答案和问题的匹配程度、用户评价得分、回答者的级别中的一种因素或任意组合，对答案进行打分，将依据各因素对答案的打分进行融合得到各答案的单个问题评价得分，将单个问题评价得分最高的答案确定为问题簇的优质答案。

如果采用以上两种方式的结合，可以依据问题簇内各答案与主题中心的距离确定各答案的问题间评价得分，将答案的问题间评价得分与答案的单个问题评价得分进行融合，得到答案的总得分，将总得分最高的答案作为问题簇的优质答案。

当获取到用户输入的问题时，自动问答单元510确定簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇，将该问题簇对应的优质答案返回给用户。

上述自动问答装置既能够应用于问答平台，也能够应用于搜索引擎。当应用于搜索引擎时，自动问答单元510可以包括：问题获取子单元511，用于获取用户输入搜索引擎的query，如果识别出是问题类型的query，则将该query作为用户输入的问题；否则，作为普通query返回搜索结果。

此时，自动问答单元还包括：结果返回子单元512，用于将问题簇对应的优质答案包含在query的搜索结果中返回给用户。搜索结果中除了该优质答案之外，还可以包含其他搜索结果，优选地，可以将该优质答案在搜索结果中进行突出展示，例如展示在突出位置（搜索结果的前端等）或者以特殊形式进行展示（在特定文本框内等）。

具体地，为了实现自动问答，自动问答单元510包括：问题簇确定子单元513，用于确定簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇，具体为：计算用户输入的问题与簇形式的问答数据库中各问题的语义相似度，确定与用户输入的问题之间语义相似度最高的问题所在的问题簇。另外，还会进一步确定该问题簇对应的优质答案。

其中，上述数据库建立单元500和问题簇确定子单元513在计算两问题之间的语义相似度时，具体执行以下操作：

将两问题分别进行分词后去除停用词；

计算映射后得到的两问题之间的余弦距离，或者将余弦距离进一步结合两问题的问句类型匹配状况或否定结构匹配状况中的至少一种，得到两问题之间的语义相似度。具体计算方法参见实施例二中步骤202的描述。

另外，还存在一种问题是采用实体属性表达方式，对于这种情况还可以进一步通过查找实体属性值库，在搜索结果中返回对应的属性值。对于这种情况的实现方式可以存在以下两种：

第一种：如图6所示，自动问答单元510还包括：结构化分析子单元614和属性值确定子单元615。

结构化分析子单元614对用户输入的问题进行结构化分析，判断用户输入的问题是否为实体词和属性词组合的表达方式，如果是，触发属性值确定子单元615。

属性值确定子单元615受到触发后，查找实体属性值数据库确定实体词和属性词组合对应的属性值。

结果返回子单元512还用于将属性值包含在搜索结果中，对于这种情况，如果用户输入的query是问题类型的query，且该query为实体词和属性词组合的表达方式，则返回的搜索结果中可以既包含通过查找簇形式的问答数据库得到的优质答案，又包含通过查找实体属性值数据库得到的属性值。

第二种：如图7所示，自动问答单元510还包括：结构化分析子单元714和属性值确定子单元715。

结构化分析子单元714对用户输入的问题进行结构化分析，判断用户输入的问题是否为实体词和属性词组合的表达方式，如果是，触发属性值确定子单元715；否则，触发问题簇确定子单元513。

属性值确定子单元715受到触发后，查找实体属性值数据库确定实体词和属性词组合对应的属性值。

问题簇确定子单元513受到触发后，执行确定簇形式的问答数据库中与用户输入的问题语义相似度最高的问题簇的操作。

结果返回子单元512还用于将属性值包含在搜索结果中返回给用户。对于这种情况，如果用户输入的query是问题类型的query，则若该query为实体词和属性词组合的表达方式，则返回的搜索结果中包含通过查找实体属性值数据库得到的属性值，若该query不是实体词和属性词组合的表达方式，则返回的搜索结果中包含通过查找簇形式的问答数据库得到的优质答案。

为了适应多种用户表述，结构化分析子单元714在对用户输入的问题进行结构化分析时，将用户输入的问题中的实体词和属性词同义映射为统一表述，得到实体词和属性词组合。对应地，在构建实体属性值库时采用将实体词和属性词同义映射为统一表述的方式建立索引。

从搜索日志中点击同一网页对应的query中提取同义词；

通过本发明提供的方法和装置，只要问答数据库中已经存在与用户输入问题相同语义的问题，就能够将对应的优质答案返回给用户，从而高效准确地实现自动问答，更好地满足用户的需求。适用于问答平台，当用户输入不同表述的问题时，无需等待其他用户针对该问题的回答，可以及时获取到优质答案。另外还适用于搜索引擎，能够将优质答案包含在搜索结果中返回给用户，用户无需从海量的搜索结果中找寻答案，帮助用户高效准确地获取到想要的答案。更进一步地，还可以针对实体属性表述的query实现结构化搜索，在搜索结果中返回对应属性值，更好地满足用户的搜索需求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于问题簇的自动问答方法，其特征在于，该方法包括：

对用户输入搜索引擎的query进行识别；

如果识别出是问题类型的query，则确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇，将该问题簇对应的优质答案包含在搜索结果中返回给用户，其中优质答案在搜索结果中突出展示。

2.根据权利要求1所述的方法，其特征在于，所述从问题簇内问题的答案中确定出问题簇对应的优质答案具体包括：

3.根据权利要求2所述的方法，其特征在于，所述确定问题簇内问题的答案的主题中心为：

4.根据权利要求1所述的方法，其特征在于，确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇具体为：

计算用户输入的query与所述簇形式的问答数据库中各问题的语义相似度，确定与所述用户输入的query之间语义相似度最高的问题所在的问题簇。

5.根据权利要求1或4所述的方法，其特征在于，在计算query与问题之间的语义相似度时，具体包括：

将query和问题分别进行分词后去除停用词；

将query和问题中存在同义映射的词语映射为同义词向量，同义词向量中包含问题中的词语和该词语的同义词；

计算映射后得到的query和问题之间的余弦距离，或者将余弦距离进一步结合query和问题的问句类型匹配状况或否定结构匹配状况中的至少一种，得到query和问题之间的语义相似度。

6.根据权利要求1所述的方法，其特征在于，在确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇的同时，还包括：

对所述用户输入的query进行结构化分析，判断所述用户输入的query是否为实体词和属性词组合的表达方式，如果是，查找实体属性值数据库确定所述实体词和属性词组合对应的属性值，将该属性值包含在所述搜索结果中返回给用户。

7.根据权利要求1所述的方法，其特征在于，在确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇之前还包括：

对所述用户输入的query进行结构化分析，判断所述用户输入的query是否为实体词和属性词组合的表达方式，如果是，查找实体属性值数据库确定所述实体词和属性词组合对应的属性值，将该属性值包含在所述搜索结果中返回给用户，结束流程；否则，继续执行所述确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇。

8.根据权利要求6或7所述的方法，其特征在于，在构建所述实体属性值库时采用将实体词和属性词同义映射为统一表述的方式来建立索引；

在对用户输入的query进行结构化分析时，将所述用户输入的query中的实体词和属性词同义映射为统一表述，得到所述实体词和属性词组合。

9.一种基于问题簇的自动问答装置，其特征在于，该装置包括：

自动问答单元，用于对用户输入搜索引擎的query进行识别；如果识别出是问题类型的query，则确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇，将该问题簇对应的优质答案包含在搜索结果中返回给用户，其中优质答案在搜索结果中突出展示。

10.根据权利要求9所述的装置，其特征在于，所述数据库建立单元在从问题簇内问题的答案中确定出问题簇对应的优质答案时具体执行：

11.根据权利要求10所述的装置，其特征在于，所述数据库建立单元在确定问题簇内问题的答案的主题中心时，具体执行：将问题簇内各问题进行分词和去除停用词后，将每一个问题作为一个文档统计各词语的文档频率，将文档频率达到预设主题中心文档频率的词语确定为主题中心。

12.根据权利要求9所述的装置，其特征在于，所述自动问答单元包括：问题簇确定子单元，用于确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇，具体为：计算用户输入的query与所述簇形式的问答数据库中各问题的语义相似度，确定与所述用户输入的query之间语义相似度最高的问题所在的问题簇。

13.根据权利要求9或12所述的装置，其特征在于，所述数据库建立单元和所述问题簇确定子单元在计算query和问题之间的语义相似度时，具体执行：

将query和问题分别进行分词后去除停用词；

14.根据权利要求9所述的装置，其特征在于，所述自动问答单元还包括：

结构化分析子单元，用于对所述用户输入的query进行结构化分析，判断所述用户输入的query是否为实体词和属性词组合的表达方式，如果是，触发属性值确定子单元；

15.根据权利要求9所述的装置，其特征在于，所述自动问答单元还包括：

结构化分析子单元，用于对所述用户输入的query进行结构化分析，判断所述用户输入的query是否为实体词和属性词组合的表达方式，如果是，触发属性值确定子单元；否则，触发问题簇确定子单元；

问题簇确定子单元，用于受到触发后，执行确定所述簇形式的问答数据库中与用户输入的query语义相似度最高的问题簇的操作；

16.根据权利要求14或15所述的装置，其特征在于，所述实体属性值库采用将实体词和属性词同义映射为统一表述的方式建立索引；

所述结构化分析子单元在对用户输入的query进行结构化分析时，将所述用户输入的query中的实体词和属性词同义映射为统一表述，得到所述实体词和属性词组合。