CN104008097A

CN104008097A - 实现查询理解的方法及装置

Info

Publication number: CN104008097A
Application number: CN201310055515.7A
Authority: CN
Inventors: 刘春辰; 李建强; 刘博�
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2013-02-21
Filing date: 2013-02-21
Publication date: 2014-08-27
Anticipated expiration: 2033-02-21
Also published as: CN104008097B

Abstract

本发明公开了一种实现查询理解的方法及装置，属于信息检索领域。所述方法包括：获取至少一个查询关键词，并获取每个查询关键词的同义词；在领域本体中查找与每个查询关键词及其同义词组成的词集中的每个词相匹配的概念，得到每个查询关键词对应的匹配概念集；将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到匹配概念组合；根据得到的匹配概念组合从领域本体中获取对应的查询语义图，并根据获取到的查询语义图确定查询理解的结果。本发明通过在领域本体中查找与查询关键词及其同义词中每个词相匹配的概念，从而降低了对查询关键词的要求，增强了查询理解的能力，提高查询理解的鲁棒性和准确性。

Description

实现查询理解的方法及装置

技术领域

本发明涉及信息检索领域，特别涉及一种实现查询理解的方法及装置。

背景技术

随着互联网数据、企业数据等各种数据的爆炸性增长，信息检索成为了人们从大量的数据中获取目的信息的重要手段。在信息检索的过程中，为了能够向用户返回满足其真实需求的信息，需要应用查询理解技术对用户输入的查询关键词进行理解并识别用户的查询意图，从而能够根据查询理解的结果进行更准确的信息检索。

现有技术在实现查询理解时，通常采用以下三种方法：

方法一：在公开号为US7840538B2的专利文献《Discovering query intentfrom search queries and concept networks》中提供的一种实现查询理解的方法，包括：预先对查询日志数据进行统计分析或机器学习；根据用户输入的查询关键词在统计分析的结果或机器学习的结果中获取查询理解的结果。

方法二：在ESWC（European Semantic Web Conference，欧洲语义网会议）上公开的文献《Lightweight Keyword Interface to Semantic Search》中提供的一种实现查询理解的方法，包括：在RDF（Resource Description Framework，资源描述框架）图包含的资源中查找查询关键词对应的资源，根据查找到的资源得到与查询关键词对应的查询语句，从而根据构造的查询语句得到查询理解的结果。其中，RDF图中包含多个资源描述，且每个资源描述是由多个语句构成，一个语句表示资源具有的一个属性，由资源、属性类型、属性值构成。

方法三：在WISE（Web Information System Engineering，网页信息系统工程）国际会议上公布的文献《Effective and Efficient Keyword Query InterpretationUsing a Hybrid Graph》中提供了一种实现查询理解的方法，该方法包括：预先存储领域本体，该领域本体中包含特定领域的概念以及概念之间的语义路径；在领域本体包含的概念中查找与查询关键词相匹配的概念，得到每个查询关键词对应的匹配概念集，每个匹配概念集中包含有每个查询关键词相匹配的概念；将每个查询关键词对应的匹配概念集中包含的概念进行组合，得到匹配概念组合；根据得到的匹配概念组合从领域本体中获取对应的查询语义图，每个查询语义图中包含有每个匹配概念组合中的概念及概念之间的语义路径；将获取到的查询语义图作为查询理解的结果。例如，以获取到的查询关键词为flash和USA为例。在领域本体包含的概念中查找得到flash对应的匹配概念集{flash flood、flash lamp}和USA对应的匹配概念集{USA}；将flash对应的匹配概念集和USA对应的匹配概念集中的概念进行组合后得到匹配概念组合{flash flood、USA}、{flash lamp、USA}；根据匹配概念组合分别从领域本体中获取查询语义图{flashflood→USA}和{flash lamp→camera→USA}；将获取到的查询语义图作为查询理解的结果。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

方法一在实现查询理解时是基于查询日志实现的，由于查询日志数据没有具体分类，在一些特定领域如企业、学科等领域的信息检索中，查询日志并不是一种可靠的数据源，从而导致最终得到的查询理解的结果不准确。方法二在实现查询理解时，都需要在查询关键词与RDF中的资源相匹配才能进一步得到查询理解的结果；而方法三在实现查询理解时也需要查询关键词与领域本体包含的概念相匹配才能进一步得到查询理解的结果，从而方法二和方法三对于用户输入的查询关键词要求较高。例如，当用户输入的查询关键词为“USA”时，如果RDF图包含的资源中或领域本体包含的概念中没有“USA”，只有“America”或者“Unite States”的话，则无法得到相匹配的资源或概念。因此，上述实现查询理解的方法对用户的查询意图的理解能力较弱，导致查询理解的鲁棒性和准确性较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种实现查询理解的方法及装置。所述技术方案如下：

一方面，提供了一种实现查询理解的方法，所述方法包括：

获取至少一个查询关键词，并获取每个查询关键词的同义词；

在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念，得到所述每个查询关键词对应的匹配概念集；

将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合；

根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图，并根据获取到的查询语义图确定查询理解的结果。

优选地，所述将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合之前，还包括：

获取所述每个查询关键词的上位词集、下位词集、兄弟词集，并获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集；

根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分；

将所述匹配得分与预设阈值进行比较，并根据比较结果对所述每个概念进行筛选；

所述将每个查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合，包括：

将每个查询关键词对应的匹配概念集中筛选后的概念进行组合，得到至少一个匹配概念组合。

优选地，所述根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分，包括：

根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分：

Score_match(c_j,k_i)=αsim((c_j)_f,(k_i)_f)+βsim((c_j)_s,(k_i)_s)+γsim((c_j)_b,(k_i)_b)；

其中，α+β+λ＝1，所述k_i为m个查询关键词中第i个查询关键词，所述c_j为k_i对应的匹配概念集C_i中的第j个概念，所述(c_j)_f为c_j的上位词集，所述(k_i)_f为k_i的上位词集，所述(c_j)_s为c_j的下位词集，所述(k_i)_s为k_i的下位词集，所述(c_j)_b为c_j的兄弟词集，所述(k_i)_b为k_i的兄弟词集，所述sim()用于计算相似程度值。

优选地，所述领域本体的个数为多个，所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图；

所述根据获取到的查询语义图确定查询理解的结果，包括：

根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图；

根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序，并将排序后的查询语义图作为查询理解的结果。

优选地，所述根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图，包括：

根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序，并根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图：

Σ_{k = 1}^{n} {top - s}_{k} = a,

所述

s_{k} = a \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

其中，所述a为第一预设数量，所述n为领域本体的个数，所述n为大于1的整数，所述top-s_k为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前s_k的查询语义图的个数，所述ω_k为预先分配的第k个领域本体的权重，所述ω_i为预先分配的第i个领域本体的权重。

所述根据获取到的查询语义图确定查询理解的结果，包括：

对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类，得到至少一个聚类簇，每个聚类簇至少包含一个查询语义图；

将每个聚类簇包含的查询语义图进行合并，得到所述每个聚类簇对应的聚类查询语义图；

根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述每个聚类簇对应的聚类查询语义图的权重；

根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图；

根据选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序，并将排序后的聚类查询语义图作为查询理解的结果。

优选地，所述根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图，包括：

根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序，并根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图：

Σ_{k = 1}^{n} {top - s}_{k}' = a',

所述

s_{k}' = a' \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

其中，所述a'为第二预设数量，所述n为领域本体的个数，所述n为大于1的整数，所述top-s_k'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前s_k'的聚类查询语义图的个数，所述ω_k为预先分配的第k个领域本体的权重，所述ω_i为预先分配的第i个领域本体的权重。

另一方面，提供了一种实现查询理解的装置，所述装置包括：

第一获取模块，用于获取至少一个查询关键词；

第二获取模块，用于获取所述第一获取模块获取到的每个查询关键词的同义词；

第一查找模块，用于在预先存储的至少一个领域本体中查找与所述第一获取模块及所述第二获取模块获取到的每个查询关键词及其同义词组成的词集中的每个词相匹配的概念，得到所述每个查询关键词对应的匹配概念集；

组合模块，用于将所述第一查找模块查找到的每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合；

第三获取模块，用于根据所述组合模块组合得到的至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图；

确定模块，用于根据所述第三获取模块获取到的查询语义图确定查询理解的结果。

优选地，所述装置，还包括：

第四获取模块，用于获取所述每个查询关键词的上位词集、下位词集、兄弟词集；

第五获取模块，用于获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集；

计算模块，用于根据所述第四获取模块获取到的每个查询关键词的上位词集、下位词集、兄弟词集和所述第五获取模块获取到的每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分；

比较模块，用于将所述计算模块计算得到的匹配得分与预设阈值比较；

筛选模块，用于根据所述比较模块比较得到的比较结果对所述每个概念进行筛选；

所述组合模块，用于将所述筛选模块筛选得到的每个查询关键词对应的匹配概念集中筛选后的概念进行组合，得到至少一个匹配概念组合。

优选地，所述计算模块，用于根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分：

所述确定模块，包括：

选取子模块，用于根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图；

排序子模块，用于根据所述选取子模块选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序，并将排序后的查询语义图作为查询理解的结果。

优选地，所述选取子模块，包括：

排序单元，用于根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序；

选取单元，用于根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图：

Σ_{k = 1}^{n} top - s_{k} = a,

所述

s_{k} = a \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

所述确定模块，包括：

聚类子模块，用于对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类，得到至少一个聚类簇，每个聚类簇至少包含一个查询语义图；

合并子模块，用于将所述聚类子模块聚类得到的每个聚类簇包含的查询语义图进行合并，得到所述每个聚类簇对应的聚类查询语义图；

确定子模块，用于根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述合并子模块合并得到的每个聚类簇对应的聚类查询语义图的权重；

选取子模块，用于根据所述确定子模块确定的每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图；

排序子模块，用于根据所述选取子模块选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序，并将排序后的聚类查询语义图作为查询理解的结果。

优选地，所述选取子模块，包括：

排序单元，用于根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序；

选取单元，用于根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图：

Σ_{k = 1}^{n} top - s_{k}' = a',

所述

s_{k}' = a' \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

本发明实施例提供的技术方案带来的有益效果是：

通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念，从而在查询关键词与领域本体中的概念不完全匹配时，仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念，以获取查询理解的结果，进而降低了对查询关键词的要求。另外，通过根据查询关键词的同义词查找到的概念来获取查询理解的结果，可以增强查询理解的能力，进一步提高查询理解的鲁棒性和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种实现查询理解的方法流程图；

图2是本发明实施例二提供的一种实现查询理解的方法流程图；

图3是本发明实施例二提供的一种查询语义图的示意图；

图4是本发明实施例三提供的一种实现查询理解的装置结构示意图；

图5是本发明实施例三提供的另一种查询理解的装置结构示意图；

图6是本发明实施例三提供的一种确定模块的结构示意图；

图7是本发明实施例三提供的一种确定模块的选取子模块的结构示意图；

图8是本发明实施例三提供的另一种确定模块的结构示意图；

图9是本发明实施例三提供的另一种确定模块的选取子模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种实现查询理解的方法，参见图1，方法流程包括：

101：获取至少一个查询关键词，并获取每个查询关键词的同义词。

102：在预先存储的至少一个领域本体中查找与每个查询关键词及其同义词组成的词集中的每个词相匹配的概念，得到每个查询关键词对应的匹配概念集。

103：将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合。

104：根据至少一个匹配概念组合从至少一个领域本体中获取对应的至少一个查询语义图，并根据获取到的查询语义图确定查询理解的结果。

综上所述，本发明实施例提供的方法，通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念，从而在查询关键词与领域本体中的概念不完全匹配时，仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念，以获取查询理解的结果，进而降低了对查询关键词的要求。另外，通过根据查询关键词的同义词查找到的概念来获取查询理解的结果，可以增强查询理解的能力，进一步提高查询理解的鲁棒性和准确性。

实施例二

由于领域数据的大量增长，用户为了从海量数据中获取到期望的信息，通常会根据自己的查询意图输入一个或多个查询关键词进行信息检索。如果直接将用户输入的查询关键词用于信息检索，由于用户输入的查询关键词与用户期望的信息之间的关系不紧密，最终得到的检索结果往往不能表达出用户的查询意图。因此，在进行信息检索之前，还需要对用户输入的查询关键词进行查询理解，以便于更准确地识别用户的查询意图，从而进行更准确的信息检索。本发明实施例提供了一种实现查询理解的方法。结合上述实施例一的内容，参见图2，本发明实施例提供的方法流程包括：

201：获取至少一个查询关键词，并获取每个查询关键词的同义词。

针对该步骤，获取到的查询关键词是用户为了检索目的信息而输入的，查询关键词的个数可以为1个或多个，本发明实施例在此不对查询关键词的个数进行具体限定。通常，当用户期望检索出的信息满足多个限制条件时，就会输入多个查询关键词。例如，用户期望得到与美国的数字动画相关的信息，通常会输入两个查询关键词“flash USA”。

同时，为了更好地识别用户的查询意图，还可以获取每个查询关键词的同义词，以对用户的查询关键词进行扩展。其中，每个查询关键词的同义词是指与每个查询关键词的释义相同或者相近的词，每个查询关键词的同义词的个数可以为一个或者多个，本发明实施例在此同样不对每个查询关键词的同义词个数进行具体限定。

优选地，获取每个查询关键词的同义词的方式包括但不限于从第三方词典中获取每个查询关键词的同义词。其中，第三方词典可以为wordnet（词网）等词汇工具。此外，还可以通过其他能够提供词语及其同义词的索引的工具中获取查询关键词的同义词。对于具体采用哪种方式获取查询关键词的至少一个同义词，本发明实施例在此不进行具体限定。

例如，获取用户输入的两个查询关键词k₁=flash、k₂=USA，并从第三方词典wordnet中获取查询关键词k₁=flash的同义词为photoflash、flash lamp，获取查询关键词k₂=USA的同义词为America。

202：在预先存储的至少一个领域本体中查找与每个查询关键词及其同义词组成的词集中的每个词相匹配的概念，得到每个查询关键词对应的匹配概念集。

其中，预先存储的领域本体至少为一个。领域本体是共享概念的明确的规范的形式化表示，其包含了特定领域中的各个概念及各个概念之间的语义路径。在预先存储的领域本体中查找到的相匹配的概念可以是与查询关键词相匹配的概念，或者是与该查询关键词的同义词中一至多个词相匹配的概念，还可以是与该查询关键词和该查询关键词的同义词中至少一个词均匹配的概念。

举例来说，以领域本体分别为ontology₁、ontology₂和ontology₃为例。通过上述步骤201分别获取到查询关键词为k₁=flash、k₂=USA以及查询关键词k₁=flash的同义词photoflash、flash lamp和查询关键词k₂=USA的同义词America后，对于查询关键词k₁=flash，在预先存储的领域本体ontology₁中查找与k₁=flash相匹配的概念、与k₁=flash的同义词photoflash、flash lamp中一个或两个词相匹配的概念、以及与k₁=flash和k₁=flash的同义词photoflash、flash lamp中一至多个词均相匹配的概念。以查找到的相匹配的概念为flash flood、flashboard为例，得到k₁=flash对应的匹配概念集C₁₁={flash flood，flashboard}。同样地，在预先存储的领域本体ontology₂和ontology₃中分别查找得到k₁=flash对应的匹配概念集C₁₂={flash lamp，flashgun，flash cube}、C₁₃={Adobe flash player，flash memory}。

对于查询关键词k₂=USA，在预先存储的领域本体ontology₁中查找与k₂=USA相匹配的概念、与k₂=USA的同义词America相匹配的概念、以及与k₁=flash和k₁=flash的同义词America均相匹配的概念。以查找到的相匹配的概念为US、USA为例，得到k₂=USA对应的匹配概念集C₂₁={US，USA}。同样地，在预先存储的领域本体ontology₂和ontology₃中分别查找得到k₂=USA对应的匹配概念集C₂₂={America，American}，C₂₃={USA}。

203：将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合。

其中，将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合的方式包括但不限于：

根据m个查询关键词k₁，k₂，...，k_m对应的m个匹配概念集C₁，C₂，...，C_m确定至少一个匹配概念组合S(Q)={(c₁，c₂，...，c_m)|c₁∈C₁&&c₂∈C₂&&...c_m∈C_m}，其中，m为大于等于1的整数，S(Q)的个数为个，p_i为第i个匹配概念集C_i中包含的概念的个数。

例如，对于领域本体ontology₁，将查询关键词k₁=flash对应的匹配概念集C₁₁={flash flood，flashboard}中的概念与查询关键词k₂=USA对应的匹配概念集C₂₁={US，USA}中的概念进行组合，得到匹配概念组合S₁₁(Q)={flash flood，US}，S₁₂(Q)={flash flood，USA}，S₁₃(Q)={flashboard，US}，S₁₄(Q)={flashboard，USA}。

对于领域本体ontology₂，将查询关键词k₁=flash对应的匹配概念集C₁₂={flash lamp，flashgun，flash cube}中的概念与查询关键词k₂=USA对应的匹配概念集C₂₂={America，American}中的概念进行组合，得到匹配概念组合S₂₁(Q)={flash lamp，America}，S₂₂(Q)={flash lamp，American}，S₂₃(Q)={flashgun，America}，S₂₄(Q)={flashgun，American}。

对于领域本体ontology₃，将查询关键词k₁=flash对应的匹配概念集C₁₃={Adobe flash player，flash memory}中的概念与查询关键词k₂=USA对应的匹配概念集C₂₃={USA}中的概念进行组合，得到匹配概念组合S₃₁(Q)={Adobe flashplayer，USA}，S₃₂(Q)={flash memory，USA}。

进一步地，为了提高查询理解的结果的准确性，在将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合之前，还可以对每个查询关键词对应的匹配概念集中的概念进行筛选，以剔除与查询关键词的匹配程度不符合标准的概念，从而进一步保证查询理解的结果的准确性。对每个查询关键词对应的匹配概念集中的概念进行筛选的方式包括但不限于：

获取每个查询关键词的上位词集、下位词集、兄弟词集，并获取每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集；根据每个查询关键词的上位词集、下位词集、兄弟词集和每个概念的上位词集、下位词集、兄弟词集计算每个概念与每个查询关键词之间的匹配得分；将匹配得分与预设阈值进行比较，并根据比较结果对每个概念进行筛选。

其中，每个查询关键词的上位词集、下位词集、兄弟词集和每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集都可以从第三方词典或对应的领域本体中获取到。除此之外，还可以采用其他方式获取每个查询关键词的上位词集、下位词集、兄弟词集和每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集，本发明实施例对此不进行具体限定。

具体地，根据每个查询关键词的上位词集、下位词集、兄弟词集和每个概念的上位词集、下位词集、兄弟词集计算每个概念与每个查询关键词之间的匹配得分，包括但不限于：

根据以下公式计算每个概念与每个查询关键词之间的匹配得分：

其中，α+β+λ＝1，α、β和λ的取值可以按照c_j和k_i的上位词集的相似度、c_j和k_i下位词集的相似度、c_j和k_i兄弟词集的相似度在最终的匹配得分中所占的比重进行具体分配，取值可以完全相等或者不完全相等；k_i为m个查询关键词中第i个查询关键词；c_j为k_i对应的匹配概念集C_i中的第j个概念；(c_j)_f为c_j的上位词集；，(k_i)_f为k_i的上位词集，(c_j)_s为c_j的下位词集；(k_i)_s为k_i的下位词集；(c_j)_b为c_j的兄弟词集；(k_i)_b为k_i的兄弟词集。sim()用于计算相似程度值，sim()的具体计算公式可以为：

(a, b) = \frac{| syn (a) \cap syn (b) |}{| syn (a) \cap syn (b) | + λ | syn (a) - syn (b) | + (1 - λ) | syn (b) - syn (a) |};

其中，syn(a)∩syn(b)表示词a和词b中相同词形的部分的分值；syn(a)-syn(b)表示词a去掉词b后不同词形的部分的分值；syn(b)-syn(a)表示词b去掉词a后不同词形的部分的分值；0≤λ≤1。

例如，flash和flashgun中相同词形的部分为flash，则分值为5，flash去掉flashgun后不同词形的部分为-gun，分值为-3，flashgun去掉flash后不同词形的部分为gun，分值为3，则

sim (flash, flashgun) = \frac{5}{5 + 0.5 \times 3 + 0.5 \times 3} = 0.625 .

此外，根据比较结果对每个概念进行筛选时，可以在匹配得分小于预设阈值时，将匹配得分对应的概念进行删除，或者在匹配得分大于预设阈值时，将匹配得分对应的概念进行保留。其中，预设阈值可以根据实际情况自行设定。例如预设阈值可以设定为0.3或0.5，还可以设定为其他值，本发明实施例在此不对根据比较结果对每个概念进行筛选的方式和预设阈值的取值进行具体限定。

除了上述对每个查询关键词对应的匹配概念集中的概念进行筛选的方式之外，还可以采用其他方式对每个查询关键词对应的匹配概念集中的概念进行筛选。例如，直接根据每个查询关键词和每个关键词对应的匹配概念集中每个概念的相似程度值该任一概念进行筛选。对于具体采用哪种方式对每个查询关键词对应的匹配概念集中的概念进行筛选，本发明实施例在此不进行具体限定。

在完成上述筛选后，将每个查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合，具体包括：将每个查询关键词对应的匹配概念集中筛选后的概念进行组合，得到至少一个匹配概念组合。

举例来说，以获取查询关键词k₁=flash的上位词集(k₁)_f、下位词集(k₁)_s、兄弟词集(k₁)_b，获取匹配概念集中C₁₁={flash flood，flashboard}中概念c₁₁₁=flashflood的上位词集(c₁₁₁)_f、下位词集(c₁₁₁)_s、兄弟词集(c₁₁₁)_b为例，根据公式Score_match(flash flood,flash)=αsim((c₁₁₁)_f,(k₁)_f)+βsim((c₁₁₁)_s,(k₁)_s)+γsim((c₁₁₁)_b,(k₁)_b)计算得到c₁₁₁=flash flood和k₁=flash的匹配得分Score_match=(flash flood,flash)=0.4。同样地，得到其他概念和k₁=flash的匹配得分Score_match=(flashboard,flash)=0.2，Score_match=(flash lamp,flash)=0.6，Score_match=(flashgun,flash)=0.6，Score_match=(flashcube,flash)=0.3，Score_match=(Adobe flash player,flash)=0.5，Score_match=(flashmemory,flash)=0.3。对于查询关键词k₂=USA，同样可以计算得到Score_match=(US,USA)=0.9，Score_match=(USA,USA)=1，Score_match=(America,USA)=0.9，Score_match=(American,USA)=0.7，Score_match=(USA,USA)=1。

如果预设阈值为0.35，将每个匹配得分与预设阈值进行比较。由于Score_match=(flashboard,flash)=0.2<0.35，Score_match=(flash cube,flash)=0.3<0.35，Score_match=(flash memory,flash)=0.3<0.35，因此，将概念flashboard，flash cube，flash memory从对应的匹配概念集中删除。筛选完成后，得到查询关键词k₁=flash对应的筛选后的匹配概念集C’₁₁={flash flood}，C’₁₂={flash lamp，flashgun}，C’₁₃={Adobe flash player}，以及查询关键词k₂=USA对应的筛选后的匹配概念集C’₂₁={US，USA}，C’₂₂={America，American}，C’₂₃={USA}。

在领域本体ontology₁中，根据查询关键词k₁=flash和k₂=USA对应的匹配概念集中筛选后的概念确定匹配概念组合S₁₁(Q)={flash flood，US}，S₁₂(Q)={flashflood，USA}。

在领域本体ontology₂中，根据查询关键词k₁=flash和k₂=USA对应的匹配概念集中筛选后的概念确定匹配概念组合S₂₁(Q)={flash lamp，America}，S₂₂(Q)={flash lamp，American}，S₂₃(Q)={flashgun，America}，S₂₄(Q)={flashgun，American}。

在领域本体ontology₃中，根据查询关键词k₁=flash和k₂=USA对应的匹配概念集中筛选后的概念确定匹配概念组合S₃₁(Q)={Adobe flash player，USA}。

204：根据至少一个匹配概念组合从至少一个领域本体中获取对应的至少一个查询语义图。

在该步骤中，针对任一匹配概念组合，该任一匹配概念组合对应的查询语义图包含了该任一匹配概念组合中的各个概念及各个概念之间的语义路径的语义图。各个概念之间的语义路径又代表了各个概念之间的语义关系，如上位词关系、下位词关系、兄弟词关系等等。以图3所示的查询语义图为例，图中的节点1至7表示匹配概念组合中的各个概念，连接节点1至7的各个有向路径表示各个概念之间的语义路径。由于领域本体中包含了特定领域中的各个概念及各个概念之间的语义路径，因此可以直接根据每个匹配概念组合从任一领域本体中获取每个匹配概念组合对应的查询语义图。

优选地，每个匹配概念组合对应的查询语义图可以为每个匹配概念组合对应的所有查询语义图中的最小查询语义图，该最小查询语义图中各个概念之间的语义路径的边数最少。根据每个匹配概念组合从领域本体中获取对应的最小查询语义图的方式包括：从每个匹配概念组合中任意选取一个概念作为起点，查找该起点到每个匹配概念组合中其余任一概念的至少一个语义路径，选择其中边数最少的语义路径；将选取的概念和查找到的任一概念再次作为起点，重复执行上述操作，直至得到包含每个匹配概念组合中各个概念和各个概念之间边数最少的语义路径的最小查询语义图。例如，以图3中所示的匹配概念组合为{2，6}为例，以概念2为起点，查找到该起点到匹配概念组合中概念6的语义路径为2→5→6和2→6。由于2→6的边数最少，因此匹配概念组合{2，6}对应的最小语义图为{2→6}。根据每个匹配概念组合从每个领域本体中获取对应的最小查询语义图的方式具体可以参见申请号为201210080590.4的专利文献，在此不再赘述。

举例来说，仍以上述步骤203中获取到的匹配概念组合为例进行说明。根据匹配概念组合S₁₁(Q)={flash flood，US}，S₁₂(Q)={flash flood，USA}在领域本体ontology₁中获取查询语义图，G₁₁={flash flood→US}，G₁₂={flash flood→USA}。根据匹配概念组合S₂₁(Q)={flash lamp，America}，S₂₂(Q)={flash lamp，American}，S₂₃(Q)={flashgun，America}，S₂₄(Q)={flashgun，American}在领域本体ontology₂中获取查询语义图G₂₁={flash lamp→camera→America}，G₂₂={flashlamp→photo→American}，G₂₃={flashgun→camera→America}，G₂₄={flashgun→photo→American}。根据匹配概念组合S₃₁(Q)={Adobe flash player，USA}在领域本体ontology₂中获取查询语义图G₃₁={Adobe flash player→USA}。

205：根据获取到的查询语义图确定查询理解的结果。

针对该步骤，可以采用以下方式根据获取到的查询语义图确定查询理解的结果：

根据获取到的查询语义图中每个查询语义图的权重对获取到的查询语义图进行排序，从排序后的查询语义图中选择排序为前预设数量的查询语义图作为查询理解的结果。

其中，预设数量可以为3或者5，还可以为其他值，本发明实施例在此不对预设数量进行具体限定。每个查询语义图可以表示查询关键词的一种查询意图，将排序后的查询语义图作为查询理解的结果是指根据排序后查询语义图的顺序能够从不同方面反映出查询关键词的查询意图，且排序最靠前的查询语义图与查询关键词的查询意图最接近。

需要说明的是，当领域本体的个数为多个时，获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图。在上述根据获取到的查询语义图确定查询理解的结果的方式中，根据获取到的查询语义图的权重进行排序，考虑了各个查询语义图与查询理解的结果之间的相关度，忽略了从各个领域本体中分别获取到的查询语义图和查询理解的结果之间的新鲜度。因此，会出现从某个领域本体中获取到的多个查询语义图的权重都较高，排序较靠前，则都被作为最终查询理解的结果的情况。而该情况将使得最终查询理解的结果中包含从同一个领域本体中获取到的查询语义图较多，导致查询理解的新鲜度较低。

优选地，当领域本体的个数为多个时，在根据获取到的查询语义图确定查询理解的结果时，为了既考虑到查询语义图和查询理解的结果之间的相关度，也考虑查询语义图与查询理解的结果之间的新鲜度，可以采用以下两种方式之一来根据获取到的查询语义图确定查询理解的结果：

方式一：根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图；根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序，并将排序后的查询语义图作为查询理解的结果。

具体地，根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图，包括但不限于：根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序，并根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图：

Σ_{k = 1}^{n} top - s_{k} = a,

s_{k} = a \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

其中，a为第一预设数量，n为领域本体的个数，n为大于1的整数，top-s_k为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前s_k的查询语义图的个数，ω_k为预先分配的第k个领域本体的权重，ω_i为预先分配的第i个领域本体的权重。

针对上述方式一，每个查询语义图的权重可以根据以下公式计算得到：

Σ_{i = 1}^{m} {Score}_{match}^{i} / m \times (| E | + 1) .

其中，为每个查询语义图中包含的m个概念中第i个概念和m个查询关键词中第i个查询关键词的匹配得分；|E|为每个查询语义图的边数。预先分配的每个领域本体的权重可以是根据每个领域本体在查询理解的结果中所占的比重预先分配的，例如可以为每个领域本体分配相同的权重，或者为每个领域本体分配不同的权重等。除此之外，还可以采用其他方法确定每个查询语义图的权重和每个领域本体的权重的取值。对于具体采用哪种方法确定每个查询语义图的权重和每个领域本体的权重的取值，本发明实施例在此不对每个查询语义图的权重和每个领域本体的权重进行具体限定。

举例来说，对于领域本体ontology₁，计算从领域本体ontology₁中获取到查询语义图G₁₁的权重v₁₁=(0.4+0.9)/{2×(1+1)}=0.325。同样地，得到查询语义图G₁₂的权重v₁₂=0.35。根据v₁₁和v₁₂对从领域本体ontology₁中获取到的查询语义图G₁₁和G₁₂进行排序，得到排序结果为G₁₂>G₁₁。对于领域本体ontology₂，采用相同的方法计算得到查询语义图G₂₁、G₂₃、G₂₂、G₂₄的权重分别为v₂₁=0.25、v₂₂=0.217、v₂₃=0.25、v₂₄=0.217。根据v₂₁、v₂₂、v₂₃和v₂₄对查询语义图G₂₁、G₂₃、G₂₂、G₂₄进行排序，得到排序结果为G₂₁=G₂₃>G₂₂=G₂₄。对于领域本体ontology₃，采用相同的方法计算得到查询语义图G₃₁的权重v₃₁＝0.375。由于仅有一个查询语义图，则无需排序。

如果第一预设数量为3，预先分配的领域本体ontology₁、ontology₂和ontology₃的权重都为1/3，则从领域本体ontology₁中选取的查询语义图的个数为个。因而，可以从领域本体ontology₁中选取排序前1个的查询语义G₁₂。同样地，从领域本体ontology₂中选取排序前1个的查询语义。由于G₂₁和G₂₃的排序相同，可以从中随机选择一个，以选取G₂₁为例。从领域本体ontology₃中选取排序前1个的查询语义G₃₁。

根据选取的3个查询语义图G₁₂、G₂₁和G₃₁的权重v₁₂、v₂₁、和v₃₁对这3个查询语义图进行排序，得到排序后的查询语义图G₃₁>G₁₂>G₂₁，将排序后的查询语义图G₃₁>G₁₂>G₂₁作为查询理解的结果。

在上述方式一的方法中，首先根据各个领域本体的权重从各个领域本体获取到的查询语义图中选取第一预设数量的查询语义图，之后再对选取的第一预设数量的查询语义图进行排序，使得排序后的查询语义图作为查询理解的结果涉及各个领域本体，因此，提高了查询理解的新鲜度。

方式二：对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类，得到至少一个聚类簇，每个聚类簇至少包含一个查询语义图；将每个聚类簇包含的查询语义图进行合并，得到每个聚类簇对应的聚类查询语义图；根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定每个聚类簇对应的聚类查询语义图的权重；根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图；根据选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序，并将排序后的聚类查询语义图作为查询理解的结果。

针对上述方式二，对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类的方法可以为k-means算法或k-medoids算法。除此之外，还可以采用其他聚类算法，如Clara算法或Clarans算法等。对于具体采用哪种聚类算法，本发明实施例在此不进行具体限定。在聚类后，将每个聚类簇包含的查询语义图进行合并是指将每个聚类簇中包含的查询语义图中相同的概念和概念之间的语义路径进行合并，不同的相同的概念和概念之间的语义路径则保留。

此外，每个聚类簇包含的查询语义图中每个查询语义图的权重的计算方法与上述方式一中每个查询语义图的权重的计算方法相同，每个领域本体的权重的取值方法也与上述方式一相同，具体详见上述方式一中的描述，在此不再赘述。根据每个聚类簇包含的查询语义图中每个查询语义图的权重确定每个聚类簇对应的聚类查询语义图的权重，包括：从每个聚类簇包含的查询语义图中每个查询语义图的权重中选择最大的权重确定为每个聚类簇对应的聚类查询语义图的权重。

具体地，根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图，包括但不限于：

Σ_{k = 1}^{n} top - s_{k}' = a',

s_{k}' = a' \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

其中，a'为第二预设数量，n为领域本体的个数，n为大于1的整数，top-s_k'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前s_k′的聚类查询语义图的个数，q_k为预先分配的第k个领域本体的权重，ω_i为预先分配的第i个领域本体的权重。

举例来说，对于领域本体ontology₁，对从领域本体ontology₁获取到的查询语义图G₁₁和G₁₂进行聚类，得到两个聚类簇。第一个聚类簇中包含G₁₁，第二个聚类簇中包含G₁₂，则无需对聚类簇中的查询语义图进行合并，直接得到第一聚类簇对应的聚类查询语义图G’₁₁={G₁₁}和第二聚类簇对应的聚类查询语义图G’₁₂={G₁₂}。G’₁₁的权重和G₁₁的权重相同，即v’₁₁=v₁₁=0.325，G’₁₂的权重和G₁₂的权重相同，即v’₁₂=v₁₂=0.35。其中，G₁₁的权重v₁₁和G₁₂的权重v₁₂的计算方法详见上述方式一，在此不再赘述。

同样地，对于领域本体ontology₂，对从领域本体ontology₂获取到的查询语义图G₂₁、G₂₂、G₂₃和G₂₄进行聚类，得到两个聚类簇。第一个聚类簇中包含G₂₁和G₂₃，第二个聚类簇中包含G₂₂和G₂₄。对第一聚类簇中包含的G₂₁和G₂₃进行合并，得到第一个聚类簇对应的聚类查询语义图G’₂₁={G₂₁∪G₂₃}。由于G₂₁的权重v₂₁=0.25与G₂₃的权重v₂₃=0.25相同，所以G’₂₁的权重为v’₂₁=0.25。对第二聚类簇中包含的G₂₂和G₂₄进行合并，得到第二个聚类簇对应的聚类查询语义图G’₂₂={G₂₂∪G₂₄}。由于G₂₂的权重v₂₁=0.217与G₂₃的权重v₂₃=0.217相同，所以G’₂₁的权重为v’₂₁=0.217。

同样地，对于领域本体ontology₃，对从领域本体ontology₃获取到的查询语义图G₃₁，得到一个聚类簇，其中包含G₃₁。因此，得到聚类查询语义图G’₃₁={G₃₁}，G’₃₁的权重v’₃₁与G₃₁的权重v₃₁的权重相同，即v’₃₁=v₃₁=0.375。

对于领域本体ontology₁，根据聚类查询语义图G’₁₁的权重和G’₁₂的权重对G’₁₁和G’₁₂进行排序，得到G’₁₂>G’₁₁。同样地，对于领域本体ontology₁，排序得到G’₂₁={G₂₁UG₂₃}>G’₂₂={G₂₂UG₂₄}；对于ontology₃，排序得到G’₃₁={G₃₁}。

以第二预设数量为3，领域本体ontology₁、ontology₂和ontology₃的权重都为1/3为例，从领域本体ontology₁中选取的查询语义图的个数为个，因此，可以从领域本体ontology₁中选取排序前1个的查询语义G’₁₂。同样地，从领域本体ontology₂中选取排序前1个的查询语义G’₂₁={G₂₁∪G₂₃}，从领域本体ontology₃中选取排序前1个的查询语义G’₃₁。

根据选取到的3个查询语义图G’₁₂、G’₂₁={G₂₁∪G₂₃}和G’₃₁的权重对这3个查询语义图进行排序，得到排序后的查询语义图G’₃₁>G’₁₂={G₂₁∪G₂₃}>G’₂₁，将排序后的查询语义图G’₃₁>G’₁₂={G₂₁∪G₂₃}>G’₂₁作为查询理解的结果。

相较于上述方式一来说，由于上述方式二对每个领域本体获取到的查询语义图采取了聚类的方式，使得聚类后得到的聚类查询语义图中的概念之间联系更加紧密。因此，采用上述方式二得到的查询理解的结果不仅考虑了查询语义图和查询理解的结果之间的新鲜度和相关度，而且更进一步度提高了查询理解的准确性。

需要说明的是，除了将采用本发明实施例提供的方法获取到的查询语义图应用于上述方式一和方式二，能够提高查询理解的结果之间的新鲜度和相关度，且应用上述方式二能够提高查询理解的准确性之外，将采用其他方式获取到的查询语义图应用于上述方式一和方式二之后，同样可以提高查询理解的结果之间的新鲜度和相关度，并且应用上述方式二同样也能够达到提高查询理解的准确性的效果。

进一步地，按照上述步骤201至步骤205获取到查询理解的结果后，可继续根据查询理解的结果进行信息检索。相较于直接将各个查询关键词作为检索词分别进行检索预测从而得到信息检索的结果的方式，在根据查询理解的结果进行信息检索的方式中，将查询理解的结果作为检索词进行信息检索。由于查询结果的查询语义图能够体现与查询关键词相匹配的各个概念以及各个概念之间的语义关系，该语义关系又可以体现各个查询关键词之间的相关性，因而根据查询理解的结果进行信息检索时，可以提高信息检索的准确性，进而提升用户对信息检索的满意度。

具体实施时，可以从查询理解的结果中选取一个或者多个查询语义图作为检索词进行信息检索，也可以将所有查询理解的结果均作为检索词进行信息检索，使得信息检索的结果更全面。例如，根据获取到的查询理解的结果G₃₁>G₁₂>G₂₁中选取查询语义图G₃₁={Adobe flash player→USA}、G₁₂={flash flood→USA}和G₂₁={flash lamp→camera→America}作为检索词进行信息检索，得到分别与Adobe flash player→USA、flash flood→USA和flash lamp→camera→America相匹配的信息。相较于直接将查询关键词flash、USA作为检索词进行信息检索来说，上述根据查询理解的结果进行信息检索得到的信息与用户的查询意图更接近。当然，查询理解的结果除了可以应用于信息检索的应用场景外，还可以应用于其他场景，本实施例不对查询理解的具体应用场景进行限定。

综上所述，本发明实施例提供的方法，通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念，从而在查询关键词与领域本体中的概念不完全匹配时，仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念，以获取查询理解的结果，进而降低了对查询关键词的要求。另外，通过根据查询关键词的同义词查找到的概念来获取查询理解的结果，可以增强查询理解的能力，进一步提高查询理解的鲁棒性和准确性。进一步地，在确定查询理解的结果时，通过从每个领域本体中选取一定数量的查询语义图，再对选取的查询语义图进行排序，兼顾了查询语义图和查询理解的结果之间的相关度和新鲜度，使得查询理解的结果更合理。

实施例三

本发明实施例提供了一种实现查询理解的装置，该装置用于执行上述实施例一或实施例二提供的实现查询理解的方法。参见图4，该装置包括：

第一获取模块401，用于获取至少一个查询关键词；

第二获取模块402，用于获取第一获取模块401获取到的每个查询关键词的同义词；

第一查找模块403，用于在预先存储的至少一个领域本体中查找与第一获取模块401及第二获取模块402获取到的每个查询关键词及其同义词组成的词集中的每个词相匹配的概念，得到每个查询关键词对应的匹配概念集；

组合模块404，用于将第一查找模块403查找到的每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合；

第三获取模块405，用于根据组合模块404组合得到的至少一个匹配概念组合从至少一个领域本体中获取对应的至少一个查询语义图；

确定模块406，用于根据第三获取模块405获取到的查询语义图确定查询理解的结果。

优选地，参见图5，上述装置，还包括：

第四获取模块407，用于获取每个查询关键词的上位词集、下位词集、兄弟词集；

第五获取模块408，用于获取每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集；

计算模块409，用于根据第四获取模块407获取到的每个查询关键词的上位词集、下位词集、兄弟词集和第五获取模块408获取到的每个概念的上位词集、下位词集、兄弟词集计算每个概念与每个查询关键词之间的匹配得分；

比较模块410，用于将计算模块409计算得到的匹配得分与预设阈值比较；

筛选模块411，用于根据比较模块410比较得到的比较结果对每个概念进行筛选；

组合模块404，用于将筛选模块411筛选得到的每个查询关键词对应的匹配概念集中筛选后的概念进行组合，得到至少一个匹配概念组合。

优选地，计算模块409，用于根据以下公式计算每个概念与每个查询关键词之间的匹配得分：

其中，α+β+λ＝1，k_i为m个查询关键词中第i个查询关键词，c_j为k_i对应的匹配概念集C_i中的第j个概念，(c_j)_f为c_j的上位词集，(k_i)_f为k_i的上位词集，(c_j)_s为c_j的下位词集，(k_i)_s为k_i的下位词集，(c_j)_b为c_j的兄弟词集，(k_i)_b为k_i的兄弟词集，sim()用于计算相似程度值。

优选地，参见图6，领域本体的个数为多个，获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图；确定模块406，包括：

选取子模块4061，用于根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图；

排序子模块4062，用于根据选取子模块4061选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序，并将排序后的查询语义图作为查询理解的结果。

优选地，参见图7，选取子模块4061，包括：

排序单元4061a，用于根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序；

选取单元4061b，用于根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图：

Σ_{k = 1}^{n} top - s_{k} = a,

s_{k} = a \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

优选地，参见图8，领域本体的个数为多个，获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图；确定模块406，包括：

聚类子模块4063，用于对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类，得到至少一个聚类簇，每个聚类簇至少包含一个查询语义图；

合并子模块4064，用于将聚类子模块4063聚类得到的每个聚类簇包含的查询语义图进行合并，得到每个聚类簇对应的聚类查询语义图；

确定子模块4065，用于根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定合并子模块4064合并得到的每个聚类簇对应的聚类查询语义图的权重；

选取子模块4066，用于根据确定子模块4065确定的每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图；

排序子模块4067，用于根据选取子模块4066选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序，并将排序后的聚类查询语义图作为查询理解的结果。

优选地，参见图9，选取子模块4066，包括：

排序单元4066a，用于根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序；

选取单元4066b，用于根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图：

Σ_{k = 1}^{n} {top - s}_{k}' = a',

s_{k}' = a' \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

其中，a'为第二预设数量，n为领域本体的个数，n为大于1的整数，top-s_k′为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前s_k'的聚类查询语义图的个数，q_k为预先分配的第k个领域本体的权重，ω_i为预先分配的第i个领域本体的权重。

综上所述，本发明实施例提供的装置，通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念，从而在查询关键词与领域本体中的概念不完全匹配时，仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念，以获取查询理解的结果，进而降低了对查询关键词的要求。另外，通过根据查询关键词的同义词查找到的概念来获取查询理解的结果，可以增强查询理解的能力，进一步提高查询理解的鲁棒性和准确性。进一步地，在确定查询理解的结果时，通过从每个领域本体中选取一定数量的查询语义图，再对选取的查询语义图进行排序，兼顾了查询语义图和查询理解的结果之间的相关度和新鲜度，使得查询理解的结果更合理。

需要说明的是：上述实施例提供的实现查询理解的装置在实现查询理解时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将实现查询理解的装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的实现查询理解的装置与实现查询理解的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实现查询理解的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合，得到至少一个匹配概念组合之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分，包括：

4.根据权利要求1至3任一权利要求所述的方法，其特征在于，所述领域本体的个数为多个，所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图；

所述根据获取到的查询语义图确定查询理解的结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图，包括：

Σ_{k = 1}^{n} top - s_{k} = a,

所述

s_{k} = a \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

其中，所述a为第一预设数量，所述n为领域本体的个数，所述n为大于1的整数，所述top-s_k为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前s_k的查询语义图的个数，所述ω_k为预先分配的第k个领域本体的权重，所述ω_i为预先分配的第i个领域本的权重。

6.根据权利要求1至3任一权利要求所述的方法，其特征在于，所述领域本体的个数为多个，所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图；

所述根据获取到的查询语义图确定查询理解的结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图，包括：

Σ_{k = 1}^{n} {top - s}_{k}' = a',

所述

s_{k}' = a' \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

8.一种实现查询理解的装置，其特征在于，所述装置包括：

第一获取模块，用于获取至少一个查询关键词；

9.根据权利要求8所述的装置，其特征在于，所述装置，还包括：

10.根据权利要求9所述的装置，其特征在于，所述计算模块，用于根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分：

11.根据权利要求8至10任一权利要求所述的装置，其特征在于，所述领域本体的个数为多个，所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图；

所述确定模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述选取子模块，包括：

Σ_{k = 1}^{n} {top - s}_{k} = a,

所述

s_{k} = a \times ω_{k} / Σ_{i = 1}^{n} ω_{i};

13.根据权利要求8至10任一权利要求所述的装置，其特征在于，所述领域本体的个数为多个，所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图；

所述确定模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述选取子模块，包括：

Σ_{k = 1}^{n} {top - s}_{k}' = a',

所述

s_{k}' = a' \times ω_{k} / Σ_{i = 1}^{n} ω_{i};