CN104008097A - 实现查询理解的方法及装置 - Google Patents

实现查询理解的方法及装置 Download PDF

Info

Publication number
CN104008097A
CN104008097A CN201310055515.7A CN201310055515A CN104008097A CN 104008097 A CN104008097 A CN 104008097A CN 201310055515 A CN201310055515 A CN 201310055515A CN 104008097 A CN104008097 A CN 104008097A
Authority
CN
China
Prior art keywords
query semantics
concept
cluster
domain body
word set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310055515.7A
Other languages
English (en)
Other versions
CN104008097B (zh
Inventor
刘春辰
李建强
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201310055515.7A priority Critical patent/CN104008097B/zh
Publication of CN104008097A publication Critical patent/CN104008097A/zh
Application granted granted Critical
Publication of CN104008097B publication Critical patent/CN104008097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现查询理解的方法及装置,属于信息检索领域。所述方法包括:获取至少一个查询关键词,并获取每个查询关键词的同义词;在领域本体中查找与每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到每个查询关键词对应的匹配概念集;将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到匹配概念组合;根据得到的匹配概念组合从领域本体中获取对应的查询语义图,并根据获取到的查询语义图确定查询理解的结果。本发明通过在领域本体中查找与查询关键词及其同义词中每个词相匹配的概念,从而降低了对查询关键词的要求,增强了查询理解的能力,提高查询理解的鲁棒性和准确性。

Description

实现查询理解的方法及装置
技术领域
本发明涉及信息检索领域,特别涉及一种实现查询理解的方法及装置。
背景技术
随着互联网数据、企业数据等各种数据的爆炸性增长,信息检索成为了人们从大量的数据中获取目的信息的重要手段。在信息检索的过程中,为了能够向用户返回满足其真实需求的信息,需要应用查询理解技术对用户输入的查询关键词进行理解并识别用户的查询意图,从而能够根据查询理解的结果进行更准确的信息检索。
现有技术在实现查询理解时,通常采用以下三种方法:
方法一:在公开号为US7840538B2的专利文献《Discovering query intentfrom search queries and concept networks》中提供的一种实现查询理解的方法,包括:预先对查询日志数据进行统计分析或机器学习;根据用户输入的查询关键词在统计分析的结果或机器学习的结果中获取查询理解的结果。
方法二:在ESWC(European Semantic Web Conference,欧洲语义网会议)上公开的文献《Lightweight Keyword Interface to Semantic Search》中提供的一种实现查询理解的方法,包括:在RDF(Resource Description Framework,资源描述框架)图包含的资源中查找查询关键词对应的资源,根据查找到的资源得到与查询关键词对应的查询语句,从而根据构造的查询语句得到查询理解的结果。其中,RDF图中包含多个资源描述,且每个资源描述是由多个语句构成,一个语句表示资源具有的一个属性,由资源、属性类型、属性值构成。
方法三:在WISE(Web Information System Engineering,网页信息系统工程)国际会议上公布的文献《Effective and Efficient Keyword Query InterpretationUsing a Hybrid Graph》中提供了一种实现查询理解的方法,该方法包括:预先存储领域本体,该领域本体中包含特定领域的概念以及概念之间的语义路径;在领域本体包含的概念中查找与查询关键词相匹配的概念,得到每个查询关键词对应的匹配概念集,每个匹配概念集中包含有每个查询关键词相匹配的概念;将每个查询关键词对应的匹配概念集中包含的概念进行组合,得到匹配概念组合;根据得到的匹配概念组合从领域本体中获取对应的查询语义图,每个查询语义图中包含有每个匹配概念组合中的概念及概念之间的语义路径;将获取到的查询语义图作为查询理解的结果。例如,以获取到的查询关键词为flash和USA为例。在领域本体包含的概念中查找得到flash对应的匹配概念集{flash flood、flash lamp}和USA对应的匹配概念集{USA};将flash对应的匹配概念集和USA对应的匹配概念集中的概念进行组合后得到匹配概念组合{flash flood、USA}、{flash lamp、USA};根据匹配概念组合分别从领域本体中获取查询语义图{flashflood→USA}和{flash lamp→camera→USA};将获取到的查询语义图作为查询理解的结果。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
方法一在实现查询理解时是基于查询日志实现的,由于查询日志数据没有具体分类,在一些特定领域如企业、学科等领域的信息检索中,查询日志并不是一种可靠的数据源,从而导致最终得到的查询理解的结果不准确。方法二在实现查询理解时,都需要在查询关键词与RDF中的资源相匹配才能进一步得到查询理解的结果;而方法三在实现查询理解时也需要查询关键词与领域本体包含的概念相匹配才能进一步得到查询理解的结果,从而方法二和方法三对于用户输入的查询关键词要求较高。例如,当用户输入的查询关键词为“USA”时,如果RDF图包含的资源中或领域本体包含的概念中没有“USA”,只有“America”或者“Unite States”的话,则无法得到相匹配的资源或概念。因此,上述实现查询理解的方法对用户的查询意图的理解能力较弱,导致查询理解的鲁棒性和准确性较低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种实现查询理解的方法及装置。所述技术方案如下:
一方面,提供了一种实现查询理解的方法,所述方法包括:
获取至少一个查询关键词,并获取每个查询关键词的同义词;
在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;
将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;
根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。
优选地,所述将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合之前,还包括:
获取所述每个查询关键词的上位词集、下位词集、兄弟词集,并获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;
根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分;
将所述匹配得分与预设阈值进行比较,并根据比较结果对所述每个概念进行筛选;
所述将每个查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合,包括:
将每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合。
优选地,所述根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分,包括:
根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分:
Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);
其中,α+β+λ=1,所述ki为m个查询关键词中第i个查询关键词,所述cj为ki对应的匹配概念集Ci中的第j个概念,所述(cj)f为cj的上位词集,所述(ki)f为ki的上位词集,所述(cj)s为cj的下位词集,所述(ki)s为ki的下位词集,所述(cj)b为cj的兄弟词集,所述(ki)b为ki的兄弟词集,所述sim()用于计算相似程度值。
优选地,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述根据获取到的查询语义图确定查询理解的结果,包括:
根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;
根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。
优选地,所述根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图,包括:
根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序,并根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:
Σ k = 1 n top - s k = a , 所述 s k = a × ω k / Σ i = 1 n ω i ;
其中,所述a为第一预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。
优选地,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述根据获取到的查询语义图确定查询理解的结果,包括:
对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;
将每个聚类簇包含的查询语义图进行合并,得到所述每个聚类簇对应的聚类查询语义图;
根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述每个聚类簇对应的聚类查询语义图的权重;
根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;
根据选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。
优选地,所述根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图,包括:
根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序,并根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:
Σ k = 1 n top - s k ' = a ' , 所述 s k ' = a ' × ω k / Σ i = 1 n ω i ;
其中,所述a'为第二预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk'的聚类查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。
另一方面,提供了一种实现查询理解的装置,所述装置包括:
第一获取模块,用于获取至少一个查询关键词;
第二获取模块,用于获取所述第一获取模块获取到的每个查询关键词的同义词;
第一查找模块,用于在预先存储的至少一个领域本体中查找与所述第一获取模块及所述第二获取模块获取到的每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;
组合模块,用于将所述第一查找模块查找到的每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;
第三获取模块,用于根据所述组合模块组合得到的至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图;
确定模块,用于根据所述第三获取模块获取到的查询语义图确定查询理解的结果。
优选地,所述装置,还包括:
第四获取模块,用于获取所述每个查询关键词的上位词集、下位词集、兄弟词集;
第五获取模块,用于获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;
计算模块,用于根据所述第四获取模块获取到的每个查询关键词的上位词集、下位词集、兄弟词集和所述第五获取模块获取到的每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分;
比较模块,用于将所述计算模块计算得到的匹配得分与预设阈值比较;
筛选模块,用于根据所述比较模块比较得到的比较结果对所述每个概念进行筛选;
所述组合模块,用于将所述筛选模块筛选得到的每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合。
优选地,所述计算模块,用于根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分:
Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);
其中,α+β+λ=1,所述ki为m个查询关键词中第i个查询关键词,所述cj为ki对应的匹配概念集Ci中的第j个概念,所述(cj)f为cj的上位词集,所述(ki)f为ki的上位词集,所述(cj)s为cj的下位词集,所述(ki)s为ki的下位词集,所述(cj)b为cj的兄弟词集,所述(ki)b为ki的兄弟词集,所述sim()用于计算相似程度值。
优选地,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述确定模块,包括:
选取子模块,用于根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;
排序子模块,用于根据所述选取子模块选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。
优选地,所述选取子模块,包括:
排序单元,用于根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序;
选取单元,用于根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:
Σ k = 1 n top - s k = a , 所述 s k = a × ω k / Σ i = 1 n ω i ;
其中,所述a为第一预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。
优选地,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述确定模块,包括:
聚类子模块,用于对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;
合并子模块,用于将所述聚类子模块聚类得到的每个聚类簇包含的查询语义图进行合并,得到所述每个聚类簇对应的聚类查询语义图;
确定子模块,用于根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述合并子模块合并得到的每个聚类簇对应的聚类查询语义图的权重;
选取子模块,用于根据所述确定子模块确定的每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;
排序子模块,用于根据所述选取子模块选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。
优选地,所述选取子模块,包括:
排序单元,用于根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序;
选取单元,用于根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:
Σ k = 1 n top - s k ' = a ' , 所述 s k ' = a ' × ω k / Σ i = 1 n ω i ;
其中,所述a'为第二预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk'的聚类查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。
本发明实施例提供的技术方案带来的有益效果是:
通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念,从而在查询关键词与领域本体中的概念不完全匹配时,仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念,以获取查询理解的结果,进而降低了对查询关键词的要求。另外,通过根据查询关键词的同义词查找到的概念来获取查询理解的结果,可以增强查询理解的能力,进一步提高查询理解的鲁棒性和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种实现查询理解的方法流程图;
图2是本发明实施例二提供的一种实现查询理解的方法流程图;
图3是本发明实施例二提供的一种查询语义图的示意图;
图4是本发明实施例三提供的一种实现查询理解的装置结构示意图;
图5是本发明实施例三提供的另一种查询理解的装置结构示意图;
图6是本发明实施例三提供的一种确定模块的结构示意图;
图7是本发明实施例三提供的一种确定模块的选取子模块的结构示意图;
图8是本发明实施例三提供的另一种确定模块的结构示意图;
图9是本发明实施例三提供的另一种确定模块的选取子模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种实现查询理解的方法,参见图1,方法流程包括:
101:获取至少一个查询关键词,并获取每个查询关键词的同义词。
102:在预先存储的至少一个领域本体中查找与每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到每个查询关键词对应的匹配概念集。
103:将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合。
104:根据至少一个匹配概念组合从至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。
综上所述,本发明实施例提供的方法,通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念,从而在查询关键词与领域本体中的概念不完全匹配时,仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念,以获取查询理解的结果,进而降低了对查询关键词的要求。另外,通过根据查询关键词的同义词查找到的概念来获取查询理解的结果,可以增强查询理解的能力,进一步提高查询理解的鲁棒性和准确性。
实施例二
由于领域数据的大量增长,用户为了从海量数据中获取到期望的信息,通常会根据自己的查询意图输入一个或多个查询关键词进行信息检索。如果直接将用户输入的查询关键词用于信息检索,由于用户输入的查询关键词与用户期望的信息之间的关系不紧密,最终得到的检索结果往往不能表达出用户的查询意图。因此,在进行信息检索之前,还需要对用户输入的查询关键词进行查询理解,以便于更准确地识别用户的查询意图,从而进行更准确的信息检索。本发明实施例提供了一种实现查询理解的方法。结合上述实施例一的内容,参见图2,本发明实施例提供的方法流程包括:
201:获取至少一个查询关键词,并获取每个查询关键词的同义词。
针对该步骤,获取到的查询关键词是用户为了检索目的信息而输入的,查询关键词的个数可以为1个或多个,本发明实施例在此不对查询关键词的个数进行具体限定。通常,当用户期望检索出的信息满足多个限制条件时,就会输入多个查询关键词。例如,用户期望得到与美国的数字动画相关的信息,通常会输入两个查询关键词“flash USA”。
同时,为了更好地识别用户的查询意图,还可以获取每个查询关键词的同义词,以对用户的查询关键词进行扩展。其中,每个查询关键词的同义词是指与每个查询关键词的释义相同或者相近的词,每个查询关键词的同义词的个数可以为一个或者多个,本发明实施例在此同样不对每个查询关键词的同义词个数进行具体限定。
优选地,获取每个查询关键词的同义词的方式包括但不限于从第三方词典中获取每个查询关键词的同义词。其中,第三方词典可以为wordnet(词网)等词汇工具。此外,还可以通过其他能够提供词语及其同义词的索引的工具中获取查询关键词的同义词。对于具体采用哪种方式获取查询关键词的至少一个同义词,本发明实施例在此不进行具体限定。
例如,获取用户输入的两个查询关键词k1=flash、k2=USA,并从第三方词典wordnet中获取查询关键词k1=flash的同义词为photoflash、flash lamp,获取查询关键词k2=USA的同义词为America。
202:在预先存储的至少一个领域本体中查找与每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到每个查询关键词对应的匹配概念集。
其中,预先存储的领域本体至少为一个。领域本体是共享概念的明确的规范的形式化表示,其包含了特定领域中的各个概念及各个概念之间的语义路径。在预先存储的领域本体中查找到的相匹配的概念可以是与查询关键词相匹配的概念,或者是与该查询关键词的同义词中一至多个词相匹配的概念,还可以是与该查询关键词和该查询关键词的同义词中至少一个词均匹配的概念。
举例来说,以领域本体分别为ontology1、ontology2和ontology3为例。通过上述步骤201分别获取到查询关键词为k1=flash、k2=USA以及查询关键词k1=flash的同义词photoflash、flash lamp和查询关键词k2=USA的同义词America后,对于查询关键词k1=flash,在预先存储的领域本体ontology1中查找与k1=flash相匹配的概念、与k1=flash的同义词photoflash、flash lamp中一个或两个词相匹配的概念、以及与k1=flash和k1=flash的同义词photoflash、flash lamp中一至多个词均相匹配的概念。以查找到的相匹配的概念为flash flood、flashboard为例,得到k1=flash对应的匹配概念集C11={flash flood,flashboard}。同样地,在预先存储的领域本体ontology2和ontology3中分别查找得到k1=flash对应的匹配概念集C12={flash lamp,flashgun,flash cube}、C13={Adobe flash player,flash memory}。
对于查询关键词k2=USA,在预先存储的领域本体ontology1中查找与k2=USA相匹配的概念、与k2=USA的同义词America相匹配的概念、以及与k1=flash和k1=flash的同义词America均相匹配的概念。以查找到的相匹配的概念为US、USA为例,得到k2=USA对应的匹配概念集C21={US,USA}。同样地,在预先存储的领域本体ontology2和ontology3中分别查找得到k2=USA对应的匹配概念集C22={America,American},C23={USA}。
203:将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合。
其中,将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合的方式包括但不限于:
根据m个查询关键词k1,k2,...,km对应的m个匹配概念集C1,C2,...,Cm确定至少一个匹配概念组合S(Q)={(c1,c2,...,cm)|c1∈C1&&c2∈C2&&...cm∈Cm},其中,m为大于等于1的整数,S(Q)的个数为个,pi为第i个匹配概念集Ci中包含的概念的个数。
例如,对于领域本体ontology1,将查询关键词k1=flash对应的匹配概念集C11={flash flood,flashboard}中的概念与查询关键词k2=USA对应的匹配概念集C21={US,USA}中的概念进行组合,得到匹配概念组合S11(Q)={flash flood,US},S12(Q)={flash flood,USA},S13(Q)={flashboard,US},S14(Q)={flashboard,USA}。
对于领域本体ontology2,将查询关键词k1=flash对应的匹配概念集C12={flash lamp,flashgun,flash cube}中的概念与查询关键词k2=USA对应的匹配概念集C22={America,American}中的概念进行组合,得到匹配概念组合S21(Q)={flash lamp,America},S22(Q)={flash lamp,American},S23(Q)={flashgun,America},S24(Q)={flashgun,American}。
对于领域本体ontology3,将查询关键词k1=flash对应的匹配概念集C13={Adobe flash player,flash memory}中的概念与查询关键词k2=USA对应的匹配概念集C23={USA}中的概念进行组合,得到匹配概念组合S31(Q)={Adobe flashplayer,USA},S32(Q)={flash memory,USA}。
进一步地,为了提高查询理解的结果的准确性,在将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合之前,还可以对每个查询关键词对应的匹配概念集中的概念进行筛选,以剔除与查询关键词的匹配程度不符合标准的概念,从而进一步保证查询理解的结果的准确性。对每个查询关键词对应的匹配概念集中的概念进行筛选的方式包括但不限于:
获取每个查询关键词的上位词集、下位词集、兄弟词集,并获取每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;根据每个查询关键词的上位词集、下位词集、兄弟词集和每个概念的上位词集、下位词集、兄弟词集计算每个概念与每个查询关键词之间的匹配得分;将匹配得分与预设阈值进行比较,并根据比较结果对每个概念进行筛选。
其中,每个查询关键词的上位词集、下位词集、兄弟词集和每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集都可以从第三方词典或对应的领域本体中获取到。除此之外,还可以采用其他方式获取每个查询关键词的上位词集、下位词集、兄弟词集和每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集,本发明实施例对此不进行具体限定。
具体地,根据每个查询关键词的上位词集、下位词集、兄弟词集和每个概念的上位词集、下位词集、兄弟词集计算每个概念与每个查询关键词之间的匹配得分,包括但不限于:
根据以下公式计算每个概念与每个查询关键词之间的匹配得分:
Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);
其中,α+β+λ=1,α、β和λ的取值可以按照cj和ki的上位词集的相似度、cj和ki下位词集的相似度、cj和ki兄弟词集的相似度在最终的匹配得分中所占的比重进行具体分配,取值可以完全相等或者不完全相等;ki为m个查询关键词中第i个查询关键词;cj为ki对应的匹配概念集Ci中的第j个概念;(cj)f为cj的上位词集;,(ki)f为ki的上位词集,(cj)s为cj的下位词集;(ki)s为ki的下位词集;(cj)b为cj的兄弟词集;(ki)b为ki的兄弟词集。sim()用于计算相似程度值,sim()的具体计算公式可以为:
( a , b ) = | syn ( a ) ∩ syn ( b ) | | syn ( a ) ∩ syn ( b ) | + λ | syn ( a ) - syn ( b ) | + ( 1 - λ ) | syn ( b ) - syn ( a ) | ;
其中,syn(a)∩syn(b)表示词a和词b中相同词形的部分的分值;syn(a)-syn(b)表示词a去掉词b后不同词形的部分的分值;syn(b)-syn(a)表示词b去掉词a后不同词形的部分的分值;0≤λ≤1。
例如,flash和flashgun中相同词形的部分为flash,则分值为5,flash去掉flashgun后不同词形的部分为-gun,分值为-3,flashgun去掉flash后不同词形的部分为gun,分值为3,则 sim ( flash , flashgun ) = 5 5 + 0.5 × 3 + 0.5 × 3 = 0.625 .
此外,根据比较结果对每个概念进行筛选时,可以在匹配得分小于预设阈值时,将匹配得分对应的概念进行删除,或者在匹配得分大于预设阈值时,将匹配得分对应的概念进行保留。其中,预设阈值可以根据实际情况自行设定。例如预设阈值可以设定为0.3或0.5,还可以设定为其他值,本发明实施例在此不对根据比较结果对每个概念进行筛选的方式和预设阈值的取值进行具体限定。
除了上述对每个查询关键词对应的匹配概念集中的概念进行筛选的方式之外,还可以采用其他方式对每个查询关键词对应的匹配概念集中的概念进行筛选。例如,直接根据每个查询关键词和每个关键词对应的匹配概念集中每个概念的相似程度值该任一概念进行筛选。对于具体采用哪种方式对每个查询关键词对应的匹配概念集中的概念进行筛选,本发明实施例在此不进行具体限定。
在完成上述筛选后,将每个查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合,具体包括:将每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合。
举例来说,以获取查询关键词k1=flash的上位词集(k1)f、下位词集(k1)s、兄弟词集(k1)b,获取匹配概念集中C11={flash flood,flashboard}中概念c111=flashflood的上位词集(c111)f、下位词集(c111)s、兄弟词集(c111)b为例,根据公式Scorematch(flash flood,flash)=αsim((c111)f,(k1)f)+βsim((c111)s,(k1)s)+γsim((c111)b,(k1)b)计算得到c111=flash flood和k1=flash的匹配得分Scorematch=(flash flood,flash)=0.4。同样地,得到其他概念和k1=flash的匹配得分Scorematch=(flashboard,flash)=0.2,Scorematch=(flash lamp,flash)=0.6,Scorematch=(flashgun,flash)=0.6,Scorematch=(flashcube,flash)=0.3,Scorematch=(Adobe flash player,flash)=0.5,Scorematch=(flashmemory,flash)=0.3。对于查询关键词k2=USA,同样可以计算得到Scorematch=(US,USA)=0.9,Scorematch=(USA,USA)=1,Scorematch=(America,USA)=0.9,Scorematch=(American,USA)=0.7,Scorematch=(USA,USA)=1。
如果预设阈值为0.35,将每个匹配得分与预设阈值进行比较。由于Scorematch=(flashboard,flash)=0.2<0.35,Scorematch=(flash cube,flash)=0.3<0.35,Scorematch=(flash memory,flash)=0.3<0.35,因此,将概念flashboard,flash cube,flash memory从对应的匹配概念集中删除。筛选完成后,得到查询关键词k1=flash对应的筛选后的匹配概念集C’11={flash flood},C’12={flash lamp,flashgun},C’13={Adobe flash player},以及查询关键词k2=USA对应的筛选后的匹配概念集C’21={US,USA},C’22={America,American},C’23={USA}。
在领域本体ontology1中,根据查询关键词k1=flash和k2=USA对应的匹配概念集中筛选后的概念确定匹配概念组合S11(Q)={flash flood,US},S12(Q)={flashflood,USA}。
在领域本体ontology2中,根据查询关键词k1=flash和k2=USA对应的匹配概念集中筛选后的概念确定匹配概念组合S21(Q)={flash lamp,America},S22(Q)={flash lamp,American},S23(Q)={flashgun,America},S24(Q)={flashgun,American}。
在领域本体ontology3中,根据查询关键词k1=flash和k2=USA对应的匹配概念集中筛选后的概念确定匹配概念组合S31(Q)={Adobe flash player,USA}。
204:根据至少一个匹配概念组合从至少一个领域本体中获取对应的至少一个查询语义图。
在该步骤中,针对任一匹配概念组合,该任一匹配概念组合对应的查询语义图包含了该任一匹配概念组合中的各个概念及各个概念之间的语义路径的语义图。各个概念之间的语义路径又代表了各个概念之间的语义关系,如上位词关系、下位词关系、兄弟词关系等等。以图3所示的查询语义图为例,图中的节点1至7表示匹配概念组合中的各个概念,连接节点1至7的各个有向路径表示各个概念之间的语义路径。由于领域本体中包含了特定领域中的各个概念及各个概念之间的语义路径,因此可以直接根据每个匹配概念组合从任一领域本体中获取每个匹配概念组合对应的查询语义图。
优选地,每个匹配概念组合对应的查询语义图可以为每个匹配概念组合对应的所有查询语义图中的最小查询语义图,该最小查询语义图中各个概念之间的语义路径的边数最少。根据每个匹配概念组合从领域本体中获取对应的最小查询语义图的方式包括:从每个匹配概念组合中任意选取一个概念作为起点,查找该起点到每个匹配概念组合中其余任一概念的至少一个语义路径,选择其中边数最少的语义路径;将选取的概念和查找到的任一概念再次作为起点,重复执行上述操作,直至得到包含每个匹配概念组合中各个概念和各个概念之间边数最少的语义路径的最小查询语义图。例如,以图3中所示的匹配概念组合为{2,6}为例,以概念2为起点,查找到该起点到匹配概念组合中概念6的语义路径为2→5→6和2→6。由于2→6的边数最少,因此匹配概念组合{2,6}对应的最小语义图为{2→6}。根据每个匹配概念组合从每个领域本体中获取对应的最小查询语义图的方式具体可以参见申请号为201210080590.4的专利文献,在此不再赘述。
举例来说,仍以上述步骤203中获取到的匹配概念组合为例进行说明。根据匹配概念组合S11(Q)={flash flood,US},S12(Q)={flash flood,USA}在领域本体ontology1中获取查询语义图,G11={flash flood→US},G12={flash flood→USA}。根据匹配概念组合S21(Q)={flash lamp,America},S22(Q)={flash lamp,American},S23(Q)={flashgun,America},S24(Q)={flashgun,American}在领域本体ontology2中获取查询语义图G21={flash lamp→camera→America},G22={flashlamp→photo→American},G23={flashgun→camera→America},G24={flashgun→photo→American}。根据匹配概念组合S31(Q)={Adobe flash player,USA}在领域本体ontology2中获取查询语义图G31={Adobe flash player→USA}。
205:根据获取到的查询语义图确定查询理解的结果。
针对该步骤,可以采用以下方式根据获取到的查询语义图确定查询理解的结果:
根据获取到的查询语义图中每个查询语义图的权重对获取到的查询语义图进行排序,从排序后的查询语义图中选择排序为前预设数量的查询语义图作为查询理解的结果。
其中,预设数量可以为3或者5,还可以为其他值,本发明实施例在此不对预设数量进行具体限定。每个查询语义图可以表示查询关键词的一种查询意图,将排序后的查询语义图作为查询理解的结果是指根据排序后查询语义图的顺序能够从不同方面反映出查询关键词的查询意图,且排序最靠前的查询语义图与查询关键词的查询意图最接近。
需要说明的是,当领域本体的个数为多个时,获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图。在上述根据获取到的查询语义图确定查询理解的结果的方式中,根据获取到的查询语义图的权重进行排序,考虑了各个查询语义图与查询理解的结果之间的相关度,忽略了从各个领域本体中分别获取到的查询语义图和查询理解的结果之间的新鲜度。因此,会出现从某个领域本体中获取到的多个查询语义图的权重都较高,排序较靠前,则都被作为最终查询理解的结果的情况。而该情况将使得最终查询理解的结果中包含从同一个领域本体中获取到的查询语义图较多,导致查询理解的新鲜度较低。
优选地,当领域本体的个数为多个时,在根据获取到的查询语义图确定查询理解的结果时,为了既考虑到查询语义图和查询理解的结果之间的相关度,也考虑查询语义图与查询理解的结果之间的新鲜度,可以采用以下两种方式之一来根据获取到的查询语义图确定查询理解的结果:
方式一:根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。
具体地,根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图,包括但不限于:根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序,并根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:
&Sigma; k = 1 n top - s k = a , s k = a &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,a为第一预设数量,n为领域本体的个数,n为大于1的整数,top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,ωk为预先分配的第k个领域本体的权重,ωi为预先分配的第i个领域本体的权重。
针对上述方式一,每个查询语义图的权重可以根据以下公式计算得到:
&Sigma; i = 1 m Score match i / m &times; ( | E | + 1 ) .
其中,为每个查询语义图中包含的m个概念中第i个概念和m个查询关键词中第i个查询关键词的匹配得分;|E|为每个查询语义图的边数。预先分配的每个领域本体的权重可以是根据每个领域本体在查询理解的结果中所占的比重预先分配的,例如可以为每个领域本体分配相同的权重,或者为每个领域本体分配不同的权重等。除此之外,还可以采用其他方法确定每个查询语义图的权重和每个领域本体的权重的取值。对于具体采用哪种方法确定每个查询语义图的权重和每个领域本体的权重的取值,本发明实施例在此不对每个查询语义图的权重和每个领域本体的权重进行具体限定。
举例来说,对于领域本体ontology1,计算从领域本体ontology1中获取到查询语义图G11的权重v11=(0.4+0.9)/{2×(1+1)}=0.325。同样地,得到查询语义图G12的权重v12=0.35。根据v11和v12对从领域本体ontology1中获取到的查询语义图G11和G12进行排序,得到排序结果为G12>G11。对于领域本体ontology2,采用相同的方法计算得到查询语义图G21、G23、G22、G24的权重分别为v21=0.25、v22=0.217、v23=0.25、v24=0.217。根据v21、v22、v23和v24对查询语义图G21、G23、G22、G24进行排序,得到排序结果为G21=G23>G22=G24。对于领域本体ontology3,采用相同的方法计算得到查询语义图G31的权重v31=0.375。由于仅有一个查询语义图,则无需排序。
如果第一预设数量为3,预先分配的领域本体ontology1、ontology2和ontology3的权重都为1/3,则从领域本体ontology1中选取的查询语义图的个数为个。因而,可以从领域本体ontology1中选取排序前1个的查询语义G12。同样地,从领域本体ontology2中选取排序前1个的查询语义。由于G21和G23的排序相同,可以从中随机选择一个,以选取G21为例。从领域本体ontology3中选取排序前1个的查询语义G31
根据选取的3个查询语义图G12、G21和G31的权重v12、v21、和v31对这3个查询语义图进行排序,得到排序后的查询语义图G31>G12>G21,将排序后的查询语义图G31>G12>G21作为查询理解的结果。
在上述方式一的方法中,首先根据各个领域本体的权重从各个领域本体获取到的查询语义图中选取第一预设数量的查询语义图,之后再对选取的第一预设数量的查询语义图进行排序,使得排序后的查询语义图作为查询理解的结果涉及各个领域本体,因此,提高了查询理解的新鲜度。
方式二:对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;将每个聚类簇包含的查询语义图进行合并,得到每个聚类簇对应的聚类查询语义图;根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定每个聚类簇对应的聚类查询语义图的权重;根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;根据选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。
针对上述方式二,对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类的方法可以为k-means算法或k-medoids算法。除此之外,还可以采用其他聚类算法,如Clara算法或Clarans算法等。对于具体采用哪种聚类算法,本发明实施例在此不进行具体限定。在聚类后,将每个聚类簇包含的查询语义图进行合并是指将每个聚类簇中包含的查询语义图中相同的概念和概念之间的语义路径进行合并,不同的相同的概念和概念之间的语义路径则保留。
此外,每个聚类簇包含的查询语义图中每个查询语义图的权重的计算方法与上述方式一中每个查询语义图的权重的计算方法相同,每个领域本体的权重的取值方法也与上述方式一相同,具体详见上述方式一中的描述,在此不再赘述。根据每个聚类簇包含的查询语义图中每个查询语义图的权重确定每个聚类簇对应的聚类查询语义图的权重,包括:从每个聚类簇包含的查询语义图中每个查询语义图的权重中选择最大的权重确定为每个聚类簇对应的聚类查询语义图的权重。
具体地,根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图,包括但不限于:
根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序,并根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:
&Sigma; k = 1 n top - s k ' = a ' , s k ' = a ' &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,a'为第二预设数量,n为领域本体的个数,n为大于1的整数,top-sk'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk′的聚类查询语义图的个数,qk为预先分配的第k个领域本体的权重,ωi为预先分配的第i个领域本体的权重。
举例来说,对于领域本体ontology1,对从领域本体ontology1获取到的查询语义图G11和G12进行聚类,得到两个聚类簇。第一个聚类簇中包含G11,第二个聚类簇中包含G12,则无需对聚类簇中的查询语义图进行合并,直接得到第一聚类簇对应的聚类查询语义图G’11={G11}和第二聚类簇对应的聚类查询语义图G’12={G12}。G’11的权重和G11的权重相同,即v’11=v11=0.325,G’12的权重和G12的权重相同,即v’12=v12=0.35。其中,G11的权重v11和G12的权重v12的计算方法详见上述方式一,在此不再赘述。
同样地,对于领域本体ontology2,对从领域本体ontology2获取到的查询语义图G21、G22、G23和G24进行聚类,得到两个聚类簇。第一个聚类簇中包含G21和G23,第二个聚类簇中包含G22和G24。对第一聚类簇中包含的G21和G23进行合并,得到第一个聚类簇对应的聚类查询语义图G’21={G21∪G23}。由于G21的权重v21=0.25与G23的权重v23=0.25相同,所以G’21的权重为v’21=0.25。对第二聚类簇中包含的G22和G24进行合并,得到第二个聚类簇对应的聚类查询语义图G’22={G22∪G24}。由于G22的权重v21=0.217与G23的权重v23=0.217相同,所以G’21的权重为v’21=0.217。
同样地,对于领域本体ontology3,对从领域本体ontology3获取到的查询语义图G31,得到一个聚类簇,其中包含G31。因此,得到聚类查询语义图G’31={G31},G’31的权重v’31与G31的权重v31的权重相同,即v’31=v31=0.375。
对于领域本体ontology1,根据聚类查询语义图G’11的权重和G’12的权重对G’11和G’12进行排序,得到G’12>G’11。同样地,对于领域本体ontology1,排序得到G’21={G21UG23}>G’22={G22UG24};对于ontology3,排序得到G’31={G31}。
以第二预设数量为3,领域本体ontology1、ontology2和ontology3的权重都为1/3为例,从领域本体ontology1中选取的查询语义图的个数为个,因此,可以从领域本体ontology1中选取排序前1个的查询语义G’12。同样地,从领域本体ontology2中选取排序前1个的查询语义G’21={G21∪G23},从领域本体ontology3中选取排序前1个的查询语义G’31
根据选取到的3个查询语义图G’12、G’21={G21∪G23}和G’31的权重对这3个查询语义图进行排序,得到排序后的查询语义图G’31>G’12={G21∪G23}>G’21,将排序后的查询语义图G’31>G’12={G21∪G23}>G’21作为查询理解的结果。
相较于上述方式一来说,由于上述方式二对每个领域本体获取到的查询语义图采取了聚类的方式,使得聚类后得到的聚类查询语义图中的概念之间联系更加紧密。因此,采用上述方式二得到的查询理解的结果不仅考虑了查询语义图和查询理解的结果之间的新鲜度和相关度,而且更进一步度提高了查询理解的准确性。
需要说明的是,除了将采用本发明实施例提供的方法获取到的查询语义图应用于上述方式一和方式二,能够提高查询理解的结果之间的新鲜度和相关度,且应用上述方式二能够提高查询理解的准确性之外,将采用其他方式获取到的查询语义图应用于上述方式一和方式二之后,同样可以提高查询理解的结果之间的新鲜度和相关度,并且应用上述方式二同样也能够达到提高查询理解的准确性的效果。
进一步地,按照上述步骤201至步骤205获取到查询理解的结果后,可继续根据查询理解的结果进行信息检索。相较于直接将各个查询关键词作为检索词分别进行检索预测从而得到信息检索的结果的方式,在根据查询理解的结果进行信息检索的方式中,将查询理解的结果作为检索词进行信息检索。由于查询结果的查询语义图能够体现与查询关键词相匹配的各个概念以及各个概念之间的语义关系,该语义关系又可以体现各个查询关键词之间的相关性,因而根据查询理解的结果进行信息检索时,可以提高信息检索的准确性,进而提升用户对信息检索的满意度。
具体实施时,可以从查询理解的结果中选取一个或者多个查询语义图作为检索词进行信息检索,也可以将所有查询理解的结果均作为检索词进行信息检索,使得信息检索的结果更全面。例如,根据获取到的查询理解的结果G31>G12>G21中选取查询语义图G31={Adobe flash player→USA}、G12={flash flood→USA}和G21={flash lamp→camera→America}作为检索词进行信息检索,得到分别与Adobe flash player→USA、flash flood→USA和flash lamp→camera→America相匹配的信息。相较于直接将查询关键词flash、USA作为检索词进行信息检索来说,上述根据查询理解的结果进行信息检索得到的信息与用户的查询意图更接近。当然,查询理解的结果除了可以应用于信息检索的应用场景外,还可以应用于其他场景,本实施例不对查询理解的具体应用场景进行限定。
综上所述,本发明实施例提供的方法,通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念,从而在查询关键词与领域本体中的概念不完全匹配时,仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念,以获取查询理解的结果,进而降低了对查询关键词的要求。另外,通过根据查询关键词的同义词查找到的概念来获取查询理解的结果,可以增强查询理解的能力,进一步提高查询理解的鲁棒性和准确性。进一步地,在确定查询理解的结果时,通过从每个领域本体中选取一定数量的查询语义图,再对选取的查询语义图进行排序,兼顾了查询语义图和查询理解的结果之间的相关度和新鲜度,使得查询理解的结果更合理。
实施例三
本发明实施例提供了一种实现查询理解的装置,该装置用于执行上述实施例一或实施例二提供的实现查询理解的方法。参见图4,该装置包括:
第一获取模块401,用于获取至少一个查询关键词;
第二获取模块402,用于获取第一获取模块401获取到的每个查询关键词的同义词;
第一查找模块403,用于在预先存储的至少一个领域本体中查找与第一获取模块401及第二获取模块402获取到的每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到每个查询关键词对应的匹配概念集;
组合模块404,用于将第一查找模块403查找到的每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;
第三获取模块405,用于根据组合模块404组合得到的至少一个匹配概念组合从至少一个领域本体中获取对应的至少一个查询语义图;
确定模块406,用于根据第三获取模块405获取到的查询语义图确定查询理解的结果。
优选地,参见图5,上述装置,还包括:
第四获取模块407,用于获取每个查询关键词的上位词集、下位词集、兄弟词集;
第五获取模块408,用于获取每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;
计算模块409,用于根据第四获取模块407获取到的每个查询关键词的上位词集、下位词集、兄弟词集和第五获取模块408获取到的每个概念的上位词集、下位词集、兄弟词集计算每个概念与每个查询关键词之间的匹配得分;
比较模块410,用于将计算模块409计算得到的匹配得分与预设阈值比较;
筛选模块411,用于根据比较模块410比较得到的比较结果对每个概念进行筛选;
组合模块404,用于将筛选模块411筛选得到的每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合。
优选地,计算模块409,用于根据以下公式计算每个概念与每个查询关键词之间的匹配得分:
Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);
其中,α+β+λ=1,ki为m个查询关键词中第i个查询关键词,cj为ki对应的匹配概念集Ci中的第j个概念,(cj)f为cj的上位词集,(ki)f为ki的上位词集,(cj)s为cj的下位词集,(ki)s为ki的下位词集,(cj)b为cj的兄弟词集,(ki)b为ki的兄弟词集,sim()用于计算相似程度值。
优选地,参见图6,领域本体的个数为多个,获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;确定模块406,包括:
选取子模块4061,用于根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;
排序子模块4062,用于根据选取子模块4061选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。
优选地,参见图7,选取子模块4061,包括:
排序单元4061a,用于根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序;
选取单元4061b,用于根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:
&Sigma; k = 1 n top - s k = a , s k = a &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,a为第一预设数量,n为领域本体的个数,n为大于1的整数,top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,ωk为预先分配的第k个领域本体的权重,ωi为预先分配的第i个领域本体的权重。
优选地,参见图8,领域本体的个数为多个,获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;确定模块406,包括:
聚类子模块4063,用于对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;
合并子模块4064,用于将聚类子模块4063聚类得到的每个聚类簇包含的查询语义图进行合并,得到每个聚类簇对应的聚类查询语义图;
确定子模块4065,用于根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定合并子模块4064合并得到的每个聚类簇对应的聚类查询语义图的权重;
选取子模块4066,用于根据确定子模块4065确定的每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;
排序子模块4067,用于根据选取子模块4066选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。
优选地,参见图9,选取子模块4066,包括:
排序单元4066a,用于根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序;
选取单元4066b,用于根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:
&Sigma; k = 1 n top - s k ' = a ' , s k ' = a ' &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,a'为第二预设数量,n为领域本体的个数,n为大于1的整数,top-sk′为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk'的聚类查询语义图的个数,qk为预先分配的第k个领域本体的权重,ωi为预先分配的第i个领域本体的权重。
综上所述,本发明实施例提供的装置,通过在预先存储的领域本体中查找与获取到的查询关键词及其同义词组成的词集中的每个词相匹配的概念,从而在查询关键词与领域本体中的概念不完全匹配时,仍可以通过查询关键词的同义词在领域本体中查找到相匹配的概念,以获取查询理解的结果,进而降低了对查询关键词的要求。另外,通过根据查询关键词的同义词查找到的概念来获取查询理解的结果,可以增强查询理解的能力,进一步提高查询理解的鲁棒性和准确性。进一步地,在确定查询理解的结果时,通过从每个领域本体中选取一定数量的查询语义图,再对选取的查询语义图进行排序,兼顾了查询语义图和查询理解的结果之间的相关度和新鲜度,使得查询理解的结果更合理。
需要说明的是:上述实施例提供的实现查询理解的装置在实现查询理解时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将实现查询理解的装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的实现查询理解的装置与实现查询理解的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种实现查询理解的方法,其特征在于,所述方法包括:
获取至少一个查询关键词,并获取每个查询关键词的同义词;
在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;
将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;
根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。
2.根据权利要求1所述的方法,其特征在于,所述将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合之前,还包括:
获取所述每个查询关键词的上位词集、下位词集、兄弟词集,并获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;
根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分;
将所述匹配得分与预设阈值进行比较,并根据比较结果对所述每个概念进行筛选;
所述将每个查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合,包括:
将每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分,包括:
根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分:
Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);
其中,α+β+λ=1,所述ki为m个查询关键词中第i个查询关键词,所述cj为ki对应的匹配概念集Ci中的第j个概念,所述(cj)f为cj的上位词集,所述(ki)f为ki的上位词集,所述(cj)s为cj的下位词集,所述(ki)s为ki的下位词集,所述(cj)b为cj的兄弟词集,所述(ki)b为ki的兄弟词集,所述sim()用于计算相似程度值。
4.根据权利要求1至3任一权利要求所述的方法,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述根据获取到的查询语义图确定查询理解的结果,包括:
根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;
根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。
5.根据权利要求4所述的方法,其特征在于,所述根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图,包括:
根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序,并根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:
&Sigma; k = 1 n top - s k = a , 所述 s k = a &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,所述a为第一预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本的权重。
6.根据权利要求1至3任一权利要求所述的方法,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述根据获取到的查询语义图确定查询理解的结果,包括:
对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;
将每个聚类簇包含的查询语义图进行合并,得到所述每个聚类簇对应的聚类查询语义图;
根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述每个聚类簇对应的聚类查询语义图的权重;
根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;
根据选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。
7.根据权利要求6所述的方法,其特征在于,所述根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图,包括:
根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序,并根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:
&Sigma; k = 1 n top - s k ' = a ' , 所述 s k ' = a ' &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,所述a'为第二预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk'的聚类查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。
8.一种实现查询理解的装置,其特征在于,所述装置包括:
第一获取模块,用于获取至少一个查询关键词;
第二获取模块,用于获取所述第一获取模块获取到的每个查询关键词的同义词;
第一查找模块,用于在预先存储的至少一个领域本体中查找与所述第一获取模块及所述第二获取模块获取到的每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;
组合模块,用于将所述第一查找模块查找到的每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;
第三获取模块,用于根据所述组合模块组合得到的至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图;
确定模块,用于根据所述第三获取模块获取到的查询语义图确定查询理解的结果。
9.根据权利要求8所述的装置,其特征在于,所述装置,还包括:
第四获取模块,用于获取所述每个查询关键词的上位词集、下位词集、兄弟词集;
第五获取模块,用于获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;
计算模块,用于根据所述第四获取模块获取到的每个查询关键词的上位词集、下位词集、兄弟词集和所述第五获取模块获取到的每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分;
比较模块,用于将所述计算模块计算得到的匹配得分与预设阈值比较;
筛选模块,用于根据所述比较模块比较得到的比较结果对所述每个概念进行筛选;
所述组合模块,用于将所述筛选模块筛选得到的每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合。
10.根据权利要求9所述的装置,其特征在于,所述计算模块,用于根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分:
Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);
其中,α+β+λ=1,所述ki为m个查询关键词中第i个查询关键词,所述cj为ki对应的匹配概念集Ci中的第j个概念,所述(cj)f为cj的上位词集,所述(ki)f为ki的上位词集,所述(cj)s为cj的下位词集,所述(ki)s为ki的下位词集,所述(cj)b为cj的兄弟词集,所述(ki)b为ki的兄弟词集,所述sim()用于计算相似程度值。
11.根据权利要求8至10任一权利要求所述的装置,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述确定模块,包括:
选取子模块,用于根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;
排序子模块,用于根据所述选取子模块选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。
12.根据权利要求11所述的装置,其特征在于,所述选取子模块,包括:
排序单元,用于根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序;
选取单元,用于根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:
&Sigma; k = 1 n top - s k = a , 所述 s k = a &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,所述a为第一预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。
13.根据权利要求8至10任一权利要求所述的装置,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;
所述确定模块,包括:
聚类子模块,用于对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;
合并子模块,用于将所述聚类子模块聚类得到的每个聚类簇包含的查询语义图进行合并,得到所述每个聚类簇对应的聚类查询语义图;
确定子模块,用于根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述合并子模块合并得到的每个聚类簇对应的聚类查询语义图的权重;
选取子模块,用于根据所述确定子模块确定的每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;
排序子模块,用于根据所述选取子模块选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。
14.根据权利要求13所述的装置,其特征在于,所述选取子模块,包括:
排序单元,用于根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序;
选取单元,用于根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:
&Sigma; k = 1 n top - s k ' = a ' , 所述 s k ' = a ' &times; &omega; k / &Sigma; i = 1 n &omega; i ;
其中,所述a'为第二预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk'的聚类查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。
CN201310055515.7A 2013-02-21 2013-02-21 实现查询理解的方法及装置 Active CN104008097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310055515.7A CN104008097B (zh) 2013-02-21 2013-02-21 实现查询理解的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310055515.7A CN104008097B (zh) 2013-02-21 2013-02-21 实现查询理解的方法及装置

Publications (2)

Publication Number Publication Date
CN104008097A true CN104008097A (zh) 2014-08-27
CN104008097B CN104008097B (zh) 2018-01-12

Family

ID=51368756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310055515.7A Active CN104008097B (zh) 2013-02-21 2013-02-21 实现查询理解的方法及装置

Country Status (1)

Country Link
CN (1) CN104008097B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653673A (zh) * 2015-12-29 2016-06-08 小米科技有限责任公司 信息搜索方法及装置
CN105912606A (zh) * 2016-04-05 2016-08-31 湖南人文科技学院 基于同义词扩展的关系数据库关键词搜索方法
CN106126588A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 提供相关词的方法和装置
CN107145512A (zh) * 2017-03-31 2017-09-08 北京大学 数据查询的方法和装置
CN109241332A (zh) * 2018-10-19 2019-01-18 广东小天才科技有限公司 一种通过语音确定语义的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566988A (zh) * 2008-04-24 2009-10-28 华为技术有限公司 一种模糊语义搜索方法、系统及设备
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN102081688A (zh) * 2010-12-24 2011-06-01 燕山大学 基于环路理论的闭环运动链拓扑胚图的自动综合方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
US20120215709A1 (en) * 2011-02-22 2012-08-23 Intuit Inc. Methods and systems for computerized employment recruiting
CN102663122A (zh) * 2012-04-20 2012-09-12 北京邮电大学 基于突发事件本体的语义查询扩展算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566988A (zh) * 2008-04-24 2009-10-28 华为技术有限公司 一种模糊语义搜索方法、系统及设备
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN102081688A (zh) * 2010-12-24 2011-06-01 燕山大学 基于环路理论的闭环运动链拓扑胚图的自动综合方法
US20120215709A1 (en) * 2011-02-22 2012-08-23 Intuit Inc. Methods and systems for computerized employment recruiting
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN102663122A (zh) * 2012-04-20 2012-09-12 北京邮电大学 基于突发事件本体的语义查询扩展算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨清琳等: "基于领域本体知识库的语义查询扩展", 《计算机工程与设计》 *
胡川洌: "基于领域本体的语义查询扩展", 《计算机系统应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653673A (zh) * 2015-12-29 2016-06-08 小米科技有限责任公司 信息搜索方法及装置
CN105653673B (zh) * 2015-12-29 2019-05-28 小米科技有限责任公司 信息搜索方法及装置
CN105912606A (zh) * 2016-04-05 2016-08-31 湖南人文科技学院 基于同义词扩展的关系数据库关键词搜索方法
CN106126588A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 提供相关词的方法和装置
WO2017215244A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 提供相关词的方法和装置
CN106126588B (zh) * 2016-06-17 2019-09-20 广州视源电子科技股份有限公司 提供相关词的方法和装置
CN107145512A (zh) * 2017-03-31 2017-09-08 北京大学 数据查询的方法和装置
CN107145512B (zh) * 2017-03-31 2019-10-18 北京大学 数据查询的方法和装置
CN109241332A (zh) * 2018-10-19 2019-01-18 广东小天才科技有限公司 一种通过语音确定语义的方法及系统
CN109241332B (zh) * 2018-10-19 2021-09-24 广东小天才科技有限公司 一种通过语音确定语义的方法及系统

Also Published As

Publication number Publication date
CN104008097B (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
Pham et al. S3g2: A scalable structure-correlated social graph generator
US9208223B1 (en) Method and apparatus for indexing and querying knowledge models
US20110016113A1 (en) Method for re-ranking documents retrieved from a document database
CN105659225A (zh) 使用路径受约束的随机游走的查询扩展和查询-文档匹配
US20160217189A1 (en) Augmenting queries when searching a semantic database
WO2013170587A1 (zh) 一种多媒体问答系统及方法
CN104008097A (zh) 实现查询理解的方法及装置
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
Todorov et al. Fuzzy ontology alignment using background knowledge
Kempe Structure and dynamics of information in networks
WO2015053607A1 (en) System and method for semantic-level sentiment analysis of text
Lu et al. Inferring user image-search goals under the implicit guidance of users
Budíková et al. DISA at ImageCLEF 2014: The Search-based Solution for Scalable Image Annotation.
Kwapong et al. A knowledge graph approach to mashup tag recommendation
Vicente-López et al. Personalization of Parliamentary Document Retrieval Using Different User Profiles.
Gaur et al. Review of ontology based focused crawling approaches
Goyal et al. Concept based query recommendation
CN110232088B (zh) 分类合并的方法及装置、存储介质
Sabetghadam et al. A hybrid approach for multi-faceted IR in multimodal domain
Sabetghadam et al. A combined approach of structured and non-structured IR in multimodal domain
Ventresque et al. Improving interoperability using query interpretation in semantic vector spaces
Sabetghadam et al. Reachability analysis of graph modelled collections
Billerbeck et al. Ranking entities using web search query logs
CN112749246B (zh) 搜索短语的评估方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant