CN103678466A - 排列对于概念查询的回答的系统和方法 - Google Patents

排列对于概念查询的回答的系统和方法 Download PDF

Info

Publication number
CN103678466A
CN103678466A CN201310426029.1A CN201310426029A CN103678466A CN 103678466 A CN103678466 A CN 103678466A CN 201310426029 A CN201310426029 A CN 201310426029A CN 103678466 A CN103678466 A CN 103678466A
Authority
CN
China
Prior art keywords
concept
group
semantic
mode
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310426029.1A
Other languages
English (en)
Other versions
CN103678466B (zh
Inventor
F·罗格
T·O·罗杰恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qindarui Co.
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103678466A publication Critical patent/CN103678466A/zh
Application granted granted Critical
Publication of CN103678466B publication Critical patent/CN103678466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及排列对概念查询的回答的系统和方法。一种排列由概念搜索引擎响应作为概念查询提交的一组被查询概念而取回的回答集的元素的方法、处理和相关系统。计算机系统的处理器通过首先把取回的模式中的每个概念的权重识别为所述模式中的各个概念之间的关系的函数,随后把取回的模式中的每个被查询概念的语义值识别为权重的函数,最后把所述模式中的查询的语义值识别为所有被查询概念的语义值的函数,按相关性对构成取回的回答集的语义模式排序。每个模式的相对相关性随后可被识别为该模式中的查询的语义值的函数。

Description

排列对于概念查询的回答的系统和方法
技术领域
本发明涉及排列响应概念查询由搜索引擎返回的结果。
背景技术
识别输入查询中的概念的计算机化搜索引擎可更智能地分析查询的预定含意,从而产生更相关的搜索结果。
发明内容
本发明的第一实施例提供一种排列对于概念查询的回答的方法,所述方法包括:
计算机系统的处理器接收概念查询,其中所述查询包括一组一般概念中的一组被查询概念;
所述处理器接收一组语义模式,其中所述一组语义模式包括所述一组被查询概念中的接收的概念子集以及还包括多个关系,其中所述多个关系中的一个关系使所述一组一般概念中的两个或者更多的概念相关,其中所述一组语义模式中的第一模式包含所述接收的概念子集中的第一概念子集、所述一组一般概念中的第二概念、所述一组一般概念中的第三概念、和所述多个关系中的第一组关系,其中所述第一概念子集包括所述接收的概念子集中的第一概念,其中所述第一组关系中的第一关系使所述第一概念与所述第二概念相关,其中所述第一关系与多个关系强度中的第一关系强度相关联,其中所述第一概念与一组概念权重中的所述概念查询内的第一概念权重相关联,其中所述第二概念与一组概念强度中的第二概念强度相关联,以及其中所述第二概念与一组语义权重中的所述第一模式中的第二语义权重相关联;
作为所述第一概念子集的函数以及所述第一组关系的另一个函数,所述处理器识别所述第一模式对于所述查询的第一语义值;
作为所述第一模式对于所述查询的所述第一语义值的函数,所述处理器识别所述第一模式对于所述查询的第一相对相关性;和
作为所述第一相对相关性的函数,所述处理器排列所述一组语义模式之中的所述第一模式。
本发明的第二实施例提供一种计算机程序产品,所述计算机程序产品包括其中保存有计算机可读程序代码的计算机可读硬件存储设备,所述程序代码被配置成由计算机系统的处理器执行,以实现排列对于概念查询的回答的方法,所述方法包括:
计算机系统的所述处理器接收概念查询,其中所述查询包括一组一般概念中的一组被查询概念;
所述处理器接收一组语义模式,其中所述一组语义模式包括所述一组被查询概念中的接收的概念子集以及还包括多个关系,其中所述多个关系中的一个关系使所述一组一般概念中的两个或者更多的概念相关,其中所述一组语义模式中的第一模式包含所述接收的概念子集中的第一概念子集、所述一组一般概念中的第二概念、所述一组一般概念中的第三概念、和所述多个关系中的第一组关系,其中所述第一概念子集包括所述接收的概念子集中的第一概念,其中所述第一组关系中的第一关系使所述第一概念与所述第二概念相关,其中所述第一关系与多个关系强度中的第一关系强度相关联,其中所述第一概念与一组概念权重中的所述概念查询内的第一概念权重相关联,其中所述第二概念与一组概念强度中的第二概念强度相关联,以及其中所述第二概念与一组语义权重中的所述第一模式中的第二语义权重相关联;
作为所述第一概念子集的函数以及所述第一组关系的另一个函数,所述处理器识别所述第一模式对于所述查询的第一语义值;
作为所述第一模式对于所述查询的所述第一语义值的函数,所述处理器识别所述第一模式对于所述查询的第一相对相关性;和
作为所述第一相对相关性的函数,所述处理器排列所述一组语义模式之中的所述第一模式。
本发明的第三实施例提供一种计算机系统,所述计算机系统包括处理器、与所述处理器耦接的存储器、和与所述处理器耦接的计算机可读硬件存储设备,所述存储设备包含程序代码,所述程序代码被配置成由所述处理器借助存储器运行,以实现排列对于概念查询的回答的方法,所述方法包括:
计算机系统的所述处理器接收概念查询,其中所述查询包括一组一般概念中的一组被查询概念;
所述处理器接收一组语义模式,其中所述一组语义模式包括所述一组被查询概念中的接收的概念子集以及还包括多个关系,其中所述多个关系中的一个关系使所述一组一般概念中的两个或者更多的概念相关,其中所述一组语义模式中的第一模式包含所述接收的概念子集中的第一概念子集、所述一组一般概念中的第二概念、所述一组一般概念中的第三概念、和所述多个关系中的第一组关系,其中所述第一概念子集包括所述接收的概念子集中的第一概念,其中所述第一组关系中的第一关系使所述第一概念与所述第二概念相关,其中所述第一关系与多个关系强度中的第一关系强度相关联,其中所述第一概念与一组概念权重中的所述概念查询内的第一概念权重相关联,其中所述第二概念与一组概念强度中的第二概念强度相关联,以及其中所述第二概念与一组语义权重中的所述第一模式中的第二语义权重相关联;
作为所述第一概念子集的函数以及所述第一组关系的另一个函数,所述处理器识别所述第一模式对于所述查询的第一语义值;
作为所述第一模式对于所述查询的所述第一语义值的函数,所述处理器识别所述第一模式对于所述查询的第一相对相关性;和
作为所述第一相对相关性的函数,所述处理器排列所述一组语义模式之中的所述第一模式。
本发明的第四实施例提供一种支持计算机基础结构的处理,所述处理包括:对于把计算机可读程序代码创建、集成、托管、保持和/或部署到计算机系统中的至少一种提供至少一种支持服务,其中与所述计算机系统结合的程序代码被配置成实现排列对于概念查询的回答的方法,所述方法包括:
计算机系统的处理器接收概念查询,其中所述查询包括一组一般概念中的一组被查询概念;
所述处理器接收一组语义模式,其中所述一组语义模式包括所述一组被查询概念中的接收的概念子集以及还包括多个关系,其中所述多个关系中的一个关系使所述一组一般概念中的两个或者更多的概念相关,其中所述一组语义模式中的第一模式包含所述接收的概念子集中的第一概念子集、所述一组一般概念中的第二概念、所述一组一般概念中的第三概念、和所述多个关系中的第一组关系,其中所述第一概念子集包括所述接收的概念子集中的第一概念,其中所述第一组关系中的第一关系使所述第一概念与所述第二概念相关,其中所述第一关系与多个关系强度中的第一关系强度相关联,其中所述第一概念与一组概念权重中的所述概念查询内的第一概念权重相关联,其中所述第二概念与一组概念强度中的第二概念强度相关联,以及其中所述第二概念与一组语义权重中的所述第一模式中的第二语义权重相关联;
作为所述第一概念子集的函数以及所述第一组关系的另一个函数,所述处理器识别所述第一模式对于所述查询的第一语义值;
作为所述第一模式对于所述查询的所述第一语义值的函数,所述处理器识别所述第一模式对于所述查询的第一相对相关性;和
作为所述第一相对相关性的函数,所述处理器排列所述一组语义模式之中的所述第一模式。
附图说明
图1表示可用于实现按照本发明的实施例的排列对于概念查询的回答的方法的计算机系统和计算机程序代码的结构。
图2是概述按照这里介绍的本发明的实施例,排列对于概念查询的回答的方法的流程图。
图3是介绍按照这里记载的本发明的实施例,图2的步骤205的识别语义模式对于概念查询的语义值的过程的更多细节的流程图。
图4是图解说明按照本发明的实施例,用于识别语义模式内的被查询概念的语义值的图3的步骤313的过程的细节的流程图。
图5是图解说明按照本发明的实施例,识别语义模式对于概念查询的相对相对性,并通过在p维坐标系中表示所述模式和查询的方法的示图。
具体实施方式
本发明提供一种使搜索引擎可以有效地排列响应用户查询而由搜索引擎取回的概念模式的方法、计算机系统、计算机程序产品和服务,其中排列的模式是按每个排列的模式对于用户查询所包含的一个或多个概念的相对相关性排序的。
这里,概念模式包含一组概念和这些概念之间的一组关系,其中所述概念和关系是在信息域内定义的。概念模式可以与一个或多个信息承载实体相关联,或者可以描述一个或多个信息承载实体,其中所述实体可包含但不限于网页、网站、数据库、文档或它们的组合。
计算机化搜索引擎可以响应用户提交的查询,识别信息承载内容,其中所述查询可由字符串(或者“关键字”)构成。所述识别的信息承载内容可包括但不限于网页、网站、数据库、文档或者它们的组合,并且可由搜索引擎识别,因为它包含在用户查询中提交的关键字。网站、网页和其它类型的可视内容不必为了包含关键字而显示所述关键字。例如,如果关键字作为不可见的“元数据”被嵌入网页的源代码中,那么搜索引擎可把该网页识别成包含所述关键字。
在这种过程的普通实现中,搜索引擎用户通过向搜索引擎提交搜索查询来搜索内容,其中所述查询包含用户感兴趣的一个或多个关键字。搜索引擎用取回的网页、文档、数据库条目、或者信息承载内容的其它实例的回答集,来响应所述查询。所述回答集可包含许多取回的结果,从而搜索引擎会尝试按照近似每个结果对于所述查询或者对于所述查询包含的关键字的相对相关性的顺序,排列和显示这些取回的结果。能够识别和排列这些相关性的搜索引擎可产生更有用和更易于理解的结果。
搜索引擎可通过考虑标准来识别回答集中的取回结果的相关性,所述标准包括但不限于包含在取回结果中的被查询关键字的数目,包含在取回结果中的一个或多个被查询关键字的实例的数目,或者回答集中的其它取回结果超链接到或者引用该取回结果的次数。
在本发明的实施例中,如果搜索引擎理解查询所包含的关键字的预定含意,那么搜索引擎可更准确地识别取回的结果对于用户提交的查询的相关性。所述理解可包括把用户提交解释成“概念查询”。代替仅仅把被查询关键字解释成待匹配的字符模式(character pattern),搜索引擎可把概念查询中的被查询关键字解释成使关键字和语义上相关的含意相关联的“概念”的实例。在一些实施例中,概念可以与许多语义上相关的关键字(或者概念的“实例”)相关联,以及关键字可以与不止一个概念相关联。
在一个例子中,名为“America”的概念可以与一组语义上相关的实例{“United States”,“USA”,“US”,“U.S.A.”,“U.S.”}相关联。如果用户提交概念查询“population USA”,那么搜索引擎可把被查询关键字“USA”识别成概念“America”的实例。这种识别可允许搜索引擎向取回结果网页赋予较高的相关性,而不管取回结果是否包含被查询的字符串“USA”,如果取回结果包含概念“America”的更大量实例,在与取回结果相关联的模式中包含语义上和概念“America”相关的大量字符串,或者在与取回结果相关联的模式中包含语义上和概念“America”相关的其它概念的更大量实例的话。
在非概念查询中,搜索引擎可能不使被查询的概念关键字“USA”与概念“America”的其它实例相关,从而未能识别给予取回结果的相关性,如果该结果包含字符串“United States”、“US”、“U.S.A.”或“U.S”的实例的话。在非概念查询中,搜索引擎可能不使被查询的概念关键字“USA”与语义上和概念“America”相关的另一个概念的实例相关,从而未能识别赋予包含与“America”相关的概念的实例的取回结果的相关性,其中所述相关的概念可能包括“nation(国家)”或者“continent(洲)”。
当信息承载实体与“概念模式”相关联时,可以增进概念查询的有用性,所述“概念模式”是把信息承载实体中的信息表示成一组概念和这些概念之间的一组关系的结构框架。在一些实施例中,这样的概念模式可被称为“语义”模式,因为它包含与概念的语义含意有关的信息。特定概念模式内的概念的含意可以是特别针对该模式的上下文(称为模式的“域”)而言的。在一些情况下,特定模式内的概念的含意是所述模式的域的函数。
从而,第一概念可以与多个概念模式中的相同语义含意相关联,但是另一个概念可以与分别使该概念与不同的含意相关联的一组概念模式相关联。于是,即使每个概念模式使被查询关键字与命名相同的概念相关联,一组概念模式也可分别使所述查询关键字与不同的语义含意相关联。
当查询包含作为概念模式所包含的概念的实例的关键字时,该概念可具有对于所述查询的特定于模式的“模式内的相关性”,该相关性与该概念对于所述查询的其它模式内的相关性不同。类似地,包含与被查询关键字相关联的概念的概念模式本身可具有对于包含该关键字的查询的模式特有相关性。
于是,概念模式对于包含该模式所包含的概念的关键字实例的查询的相关性,以及与该模式相关联的搜索引擎取回结果对于所述查询的相关性随模式的选择而变。在一个例子中,考虑都包含名为“America”的概念的两种模式。该概念在第一种模式的域内,可以与涉及国家“America”的含意相关联,但是在第二种模式的域内,可以与涉及洲“America”的不同含意相关联。在这个例子中,如果查询包含关键字“USA”,其中“USA”仅仅是第一种模式中的概念“America”的实例,那么第一种模式内的概念“America”对于所述查询的相关性大于第二种模式内的概念“America”的相关性。因而,与和第二种模式相关联的第二信息承载实体(比如第二网页)相比,和第一种模式相关联的第一信息承载实体(比如第一网页)可能具有对于所述查询的更大相关性。
从而,实现本发明的实施例的概念搜索引擎可通过排列每个取回的成员的相关联模式对于查询的相对相关性,排列响应所述查询而取回的回答集的各个成员。
在一个例子中,如果用户提交包含关键字“body”的搜索引擎查询,那么搜索引擎可答复包含一组概念模式的回答集。每个候选模式可在该模式的域的上下文内,解释被查询的关键字“body”,可能解释成该模式所包含的概念的实例,并且这些解释的每一种解释都可使该模式与对于所述查询的不同相关度相关联。
例如,特定于汽车业领域的概念模式可以与汽车制造厂的网站相关联。这样的模式可包含名为“bodywork”的汽车特有概念。通过逻辑上相关联概念“bodywork”与被查询关键字“body”,这种模式可以使被查询关键字与和汽车车体相关的含意相关联,从而向查询增加语义含意,并且帮助搜索引擎向针对汽车业的文档赋予相关性。
不过,与航空业网站相关联的第二种模式可包含一组不同的语义含意,和使被查询关键字“body”与名为“fuselage”的概念相关联的关系。从而,逻辑地使关键字“fuselage”与查询相关可使与航空业相关的文档的检索更容易,并且字符串“fuselage”在航空业网站中的出现可增大第二种模式以及该航空业网站对于所述查询的相关性。
通过取回包含都与概念模式相关联的大量的信息承载实体的回答集,概念搜索引擎可响应万维网、语义Web、内部网、外部网、数据库或者其它大型信息储存库的查询。本发明的实施例提供一种方法,借助所述方法,概念搜索引擎可有效地识别并按对于查询的相关性的顺序,排列所述回答集的成员,从而使搜索引擎能够首先显示更相关的取回项目。
这种识别和排列需要一种表述和量化模式的相关性的方式。在本发明的实施例中,可以概念、模式、查询或其它实体的“语义值”的函数的形式,实现所述表述和量化。
如果模式S包含概念C,而查询Q包含与概念C相关联或者是概念C的实例的关键字字符串,那么模式S对于查询Q的相关性可被表述成以下的函数:
i)模式S带给概念C的语义值;
ii)概念C在模式S内的语义值;或者
iii)概念C对模式S的语义值的贡献。
如果搜索引擎响应查询Q,取回一组概念模式,其中Q包含概念C,那么如果:1)与其它模式带给C的语义值相比,S带给C更大的语义值;ii)与在其它模式内相比,C在S内具有更大的语义值;或者iii)与对不同模式的语义值的贡献相比,C对S的语义值作出更大的贡献,那么本发明从而可在所述一组取回的模式内,使取回的模式S排名更高。
这种排列方法需要一种量化与模式、概念或查询相关联的“语义值”的方式。通过向模式内的概念赋予“权重”值,可以进行所述量化,其中模式内的概念的权重可以是模式内的该概念相对于模式内的其它概念的关系的函数。在一些实施例中,模式内的概念的权重可被称为模式内的概念的强度。
模式中的一对概念之间的关系可以包含连接所述一对概念的链接链。链是一系列的链接,其中每个链接连接两个概念,每个链接是链的特殊情况。例如,概念C1和C2可通过表示成(C1,C2),或者在一些实施例中,表示成lnk(C1,C2)的单链接被连接。不过,如果概念C1和C4是通过2个中间概念C2和C3连接的,那么连接C1和C4的链可被表示成3链接链(3个链接的有序序列)
ch(C1,C4)=(C1,C2)(C2,C3)(C3,C4).
默认地,单链接具有为1的“长度”,不过,特殊的链接可被赋予任意值,以对利用该链接连接的概念的相关性加权,或者更好地表示利用该链接连接的概念之间的关系。两个等同概念之间的链接可例如被赋予为0的默认长度,而两个密切相关的概念之间的链接可被赋予小于1的非零长度。在其它实施例中,链接可被赋予可变长度,所述可变长度是查询或模式的特性的函数,比如查询中的各个关键字的某种模式的存在。链的长度可以是构成该链的各个链接的长度之和。模式中的概念总是相当于该模式中的它自己。
链的“强度”可以是链的长度的反函数。从而,较短的链可以识别端接于该链的一对概念之间的更强的关系。
在这里说明的实施例中,如果概念C1和C2在模式内,由不止一个链连接,那么C1和C2之间的关系的强度可以是C1和C2之间的最强链的强度。在其它实施例中,可以不同地定义两个概念之间的链的强度,或者两个概念之间的关系的强度。
假定链接lnki,和链ch={lnk1,lnk2,…lnkk},我们定义:
L(lnki)=链接lnki的长度
L(ch)=Σi=1..k L(lnki)=链ch的长度
Str(lnki)=链接lnki的强度
Str(ch)=链ch的强度
一个或多个取决于实现的函数可被用于量化链接的强度或者链的强度。在适应零长度的最简单例子中,链或链接的强度可被定义成1加上链或链接的长度之和的倒数:
Str(lnk)=1/(1+L(lnk))
Str(ch)=1/(1+L(ch))
类似的强度参数Str(C,S)也可以与模式S内的概念C相关联,其中Str(C,S)可以与S内的C的相关性成比例,其中Str(C,S)可以随模式S的选择而变。在一个例子中,与它在不太相关的“naturaldisaster”领域内定义的模式内相比,概念“fuel efficiency”在更密切相关的“auto industry”领域内定义的模式内具有更高的相关性(从而具有更高的强度)。
Str强度和L长度算子可以是在其中定义链接、链、概念或其它实体的模式的函数。在一些实施例中,例如,模式S1中的概念C1和C2之间的链接的强度可能不匹配模式S2中的C1和C2之间的链接的强度。为了简化这里介绍的例子中的符号,我们可从Str和L算子的一些定义中的参数列表中,省略模式。不过,这不应被解释成意味这些算子不是模式选择的函数。
概念在包含该概念的多个实例的模式或域内,还可具有更大的强度。例如,在反复提到IT供应商“IBM”、“HP”和“Oracle”(其中“IBM”、“HP”和“Oracle”是概念“computer manufacturer(计算机制造商)”的实例)的网站的领域内定义的模式中,概念“computer manufacturer”可能较强。
在这里说明的实施例中,概念可具有为1的默认强度,不过在其它实施例中,概念的强度可被赋予不同的默认值,或者可被赋予为其它参数的函数的默认值。
模式S内的概念C的“语义权重”SW(C,S)(其中C由S内的一组n个链接{lnk(C,C1)...lnk(C,Cn)}直接链接到S内的n个概念{C1...Cn})可以是模式S内的C的强度Str(C,S),以及所述一组n个链接中的每个链接的强度的函数。
一个这样的函数可以识别如下的S内的C的语义权重:
SW(C,S)=Str(C,S)*Σi:1..n Str(lnk(C,Ci))或者
=Str(C,S)*Σi:1..n Str((C,Ci))[简化的备用符号]
例如,如果在模式S中,概念C被直接链接到概念C1、C2和C3,并且:
Str(C,S)=1.1
Str((C,C1))=1.5
Str((C,C2))=0
Str((C,C3))=2
那么,模式S内的C的语义权重等于:
SW(C,S)=Str(C,S)*Σi:1..3Str((C,Ci))
=1.1*[Str((C,C1))+Str((C,C2))+Str((C,C3))]
=1.1*[1.5+0+2]
=1.1*3.5
=3.85
通过识别与结果相关联的模式的“语义值”,本发明的实施例可识别和排列取回结果对于查询的相关性。模式S的语义值可以是S内的概念的一组语义值的函数。在一个例子中,模式S对于查询Q(其中查询Q包含概念C1、C2和C3)的语义值可以与S内的C1的语义值、S内的C2的语义值和S内的C3的语义值之和成比例。
概念的语义值可以是概念和包含该概念的模式两者的函数。换句话说,模式S1和S2两者都包含的概念C在S1内可具有与C在S2中的语义值不同的语义值。
模式S内的概念C的语义值SV(C,S)可被识别成S内的一组其它概念{C1...Cn}的一组语义权重,和把C连接到所述一组其它概念{C1...Cn}中的某个概念的每个链的一组链强度的函数。
由较短的链(即,具有较少的链接或者较小的长度值的链)隔开的两个概念可具有值较接近的语义值。等同的两个概念可由长度为0的链连接,并且可以具有相同的语义值。
在以这里说明的实施例为基础的例子中,模式S可包含概念C,一组概念{C1...Cn},和一组链{ch(C,C1)...ch(C,Cn)},其中所述一组链中的第i个链ch(C,Ci)连接概念C和所述一组概念中的第i个概念Ci。在这个例子中,模式S中的概念C的语义值SV(C,S)可以是利用概念Ci的语义权重加权的链ch(C,Ci)的强度的函数。在类似的例子中,SV(C,S)可以是所有链{ch(C,C1)...ch(C,Cn)}在S中的强度之和或乘积的函数,其中这些链之一(C,Ci)在S中的强度利用概念Ci在S中的对应语义权重加权。其它实施例可把语义值识别成不同的可能特定于的实现的函数。
在这里说明的实施例中,模式S中的概念C(其中C分别借助S中的链{ch(C,C1)...ch(C,Cn)},与S中的概念{C1...Cn}相关)的语义值从而可以等于:
SV(C,S)=Σi:1..n[SW(Ci,S)*Str(ch(C,Ci))]
在另一个例子中,查询Q包含一个概念C,模式S包含概念C、C1和C2,以及链ch(C,C1)和ch(C,C1),其中ch(C,C1)是S内使C与C1相关的最强链,ch(C,C2)是S内使C与C2相关的最强链。在这个例子中,如果我们把S内的语义权重分配给概念C1和C2,把S内的强度分配给链ch(C,C1)和ch(C,C2):
SW(C1,S)=1.1
SW(C2,S)=1.2
Str(ch(C,C1))=1.4
Str(ch(C,C2))=1.0
那么模式S内的概念C的语义值等于:
SV(C,S)=Σi:1..2[SW(Ci,S)*Str(ch(C,Ci))]
=[SW(C1,S)*Str(ch(C,C1))]+[SW(C2,S)*Str(ch(C,C2))]
=[1.1*1.4]+[1.2*1.0]
=1.54+1.2
=2.74
如上所述,如果搜索引擎通过取回包含多个模式的回答集,来响应包含单个概念C的查询Q,其中每个模式都包含概念C,那么取回的模式S中的C的语义值可识别S在所述一组取回的模式内的相对排名(ranking)。所述排名可用于按照对于查询Q的相关性的顺序,对回答集的成员分类。
搜索引擎可通过取回包含多个模式的回答集,来响应包含多个概念{C1…Cn}的查询Q,其中回答集的每个模式包含Q所包含的多个概念{C1…Cn}中的概念Ci。在其中Q包含不止一个概念的情况下,本发明的一些实施例可把可等同地表示成模式S对于查询Q的语义值或者表示成查询Q对于模式S的语义值的语义值SV(Q,S)识别成:
SV(Q,S)=Σi:1..n[SV(Ci,S)]
在一些实施例中,如果查询Q包含概念Ci,但是取回的模式S不包含Ci,那么SV(Ci,S),S内的Ci的语义值可以等于0。
在一些实施例中,可对概念C应用加权,其中C为查询Q或者为模式S所包含。可以选择这样的加权,以便更准确地表示该概念在所述查询或模式内的相对重要性。
查询Q的语义值可以是查询Q所包含的一组概念中的每个概念的语义值的简单累加。不过,当Q所包含的一组概念中的某个概念被加权时,Q所包含的每个概念的语义值的简单累加可能不能准确地识别所述查询的语义值,或者模式S内的所述查询的语义值。
在其中Ci是查询Q所包含的多个概念{C1...Cn}的加权概念的情况下,模式S内的查询Q的加权语义值可以是wt(Ci,Q)(Q内的概念Ci的权重)的函数,并且还可以是SV(Ci,S)(模式S内的概念Ci的语义值)的另一个函数。
在这里说明的实施例中,可以下式识别这里表示成SV(Q,S)的模式S内的查询Q的这种加权语义值:
SV(Q,S)=Σi:1..n[SV(Ci,S)*wt(Ci,Q)]
在一个例子中,查询Q包含一组的3个概念{C1,C2,C3},其中C1、C2和C3具有为(C1,Q)=1.0、(C2,Q)=2.0和(C3,Q)=3.0的相应加权。这些加权可把C2识别成具有2倍于C1的相关性,可把C3识别成具有3倍于C1的相关性。
如果本例中的搜索引擎通过取回包含候选模式S1和S2的回答集来响应查询Q,那么每个概念Ci可具有模式S1内的第一语义值SV(Ci,S1)和模式S2内的第二语义值SV(Ci,S2)。在这个例子中,我们假定S1中的概念C1、C2和C3的相应语义值为SV(C1,S1)=3、SV(C2,S1)=1和SV(C3,S1)=0,并且假定S2中的C1、C2和C3的相应语义值为SV(C1,S2)=0、SV(C2,S2)=1和SV(C3,S2)=2。
总之:
wt(C1,Q)=1.0    wt(C2,Q)=2.0    wt(C3,Q)=3.0
SV(C1,S1)=3     SV(C2,S1)=1     SV(C3,S1)=0
SV(C1,S2)=0     SV(C2,S2)=1     SV(C3,S2)=2
这里,原始的未加权的等式会识别比模式S2内的查询Q的未加权语义值SV(Q,S2)大的模式S1内的查询Q的未加权语义值SV(Q,S1):
SV(Q,S1)=Σi:1..3[SV(Ci,S1)]
=SV(C1,S1)+SV(C2,S1)+SV(C3,S1)
=3+1+0
=4
SV(Q,S2)=Σi:1..3[SV(Ci,S2)]
=SV(C1,S2)+SV(C2,S2)+SV(C3,S2)
=0+1+2
=3
不过,考虑到概念加权的备选方法,返回把模式S2识别成与查询Q更相关的更准确结果:
SV(Q,S1)=Σi:1..3[SV(Ci,S1)*wt(Ci,Q)]
=3*1.0+1*2.0+0*3.0
=3+2+0
=5
SV(Q,S2)=Σi:1..3[SV(Ci,S2)*wt(Ci,Q)]
=0*1.0+1*2.0+2*3.0
=0+2+6
=8
这些例子举例说明本发明的把模式所包含的更重要、权重更大的概念的语义值的变化识别为对该模式的相关性影响更大。在可以包括但不限于其中查询或模式包含主要的关键概念和不太重要的概念的情况在内的各种情况下,会发生这种事。在这样的情况下,如果查询或模式的主要的关键概念的语义值增大一定大小,那么与查询或模式的不太重要的概念的语义值增大相同大小的情况相比,所述查询或模式将获得更大的相关性。
在加权如何可被用于调整概念搜索引擎结果的另一个例示中,考虑寻找包含至少一个被查询概念的结果,但是不会向包含另一个概念的结果赋予更大的相关性的“或”类型查询。
本发明的实施例可在不实现概念加权的情况下,实现这种要求。如果搜索引擎通过取回模式S1和S2(其中S1不包含C1或C2),来响应包含未加权的概念C1、C2和C3的查询,那么作为结果的语义值可能是:SV(C1,S1)=SV(C2,S1)=0,和SV(C3,S1)=100;以及SV(C1,S2)=SV(C2,S2)=SV(C3,S2)=10。在这个未加权的例子中,语义值SV(Q,S1)=100会大于SV(Q,S2)=30,并且这两种模式的相对相关性会是每个模式所包含的所有被查询概念的累积语义值的函数。
不过在另一种情况下,查询可能只寻找包含Q所包括的所有概念CQ={C1...Cp}的模式。在这样的模式中,每个概念Ci∈CQ会具有模式内的非零语义值。这里,通过把查询Q表示成p维张量Tp(Q),可获得更准确的结果,其中可以集合CQ的概念Ci的权重的大小为单位对所述p维空间的第i轴定标。从而,Tp(Q)可包含p元组,其中所述p元组的第i坐标是Q中的对应概念Ci的加权值的函数。
在本实施例和类似的实施例中,包含p个概念的查询Q可被表示成p维张量,所述p维张量从p维坐标系的原点拉到该张量的另一个端点,其中所述另一个端点的坐标是Q所包含的p个概念之一的加权或未加权语义值的函数。在这样的表示中,查询Q所包含的概念Ci的权重可被表示成Q中的Ci的语义值。从而,表示所述查询的p维张量是该查询相对于它所包含的概念的固有语义值的表示,其中该查询的该固有语义值与任何模式无关,或者与任何模式的语义值无关。
类似地,包含一组p个概念的模式可在p维空间中被表示成p维张量,所述p维张量从p维坐标系的原点拉到该张量的另一个端点,其中所述另一个端点的坐标是该模式所包含的p个概念之一的加权或未加权语义值的函数。如果模式和查询包含相同的一组p个概念,那么所述模式和查询可被表示成相同的p空间中的张量。在这种表示中,代表模式的p维张量可被识别成所述模式相对于所述查询所包含的p个概念的语义值的表示。
在本发明的包含这种表示的实施例中,查询Q可被表示成第一p元组,或者被表示成p维坐标系的原点与利用第一p元组在概念p空间中识别的第一点之间的第一p维张量。类似地,在这样的表示中,响应查询而取回的模式S的语义值可被表示成第二p元组,或者表示成p维坐标系的原点与利用第二p元组在概念p空间中识别的第二点之间的第二p维张量。
通过把S对于Q的相关性定义成识别p维语义查询Q的第一p元组与识别模式S的p维语义值的第二p元组之间的距离大小的函数,这种表示可被用于排列取回的各个模式的相对相关性。在这样的实施例中,由于概念p空间中的一对点之间的较短距离可能意味该对点的语义值在数值上的大小更接近,从而利用p空间中隔开较小距离的点表示的模式和查询彼此具有更大的相关性。
在一些实施例中,一对p元组(其中所述一对p元组中的一个p元组代表p空间中的查询Q,该对中的另一个p元组代表p空间中的模式S的语义值)之间的距离不能准确地代表模式S对于查询Q的相对相关性。
在这种情况下,与具有比第一模式高的加权语义值的第二模式相比,在多维概念空间中更靠近查询的第一模式可被赋予对于所述查询的更大相关性。
通过选择为解析几何学、矢量分析学或者搜索引擎设计领域的技术人员众所周知的备选的取决于实现的方法,本发明的实施例可解决这些问题,所述方法在p维概念空间中识别和量化模式对于查询的相关性。所述方法可以包括但不限于把相关性识别为代表查询Q的第一张量和代表模式S的第二张量的标量积的函数。其它实施例可包含公知的矢量方法,所述矢量方法包括但不限于三角函数、函数加权算法、和的平方根法或者加权坐标比较函数。
图5及附随的说明证明备选的方法如何产生不同的结果。
总之,查询Q和模式S两者所包含的概念C可以与查询Q内的等于Q中的C的权重的语义值相关联。
概念C还可与模式S内的等于Σi:1..p[SW(Ci,S)*Str(ch(C,Ci))]的语义值SV(C,S)相关联,其中{C1...Cn}是模式S所包含的一组n个概念。如果C是Q所包含的唯一概念,那么一组语义值SV(C,Si)可被用于对搜索引擎响应查询Q而取回的对应一组模式Si排列和排序,其中与使C和S2内的较小语义值SV(C,S2)相关联的模式S2相比,使C与S1内的较大语义值SV(C,S1)相关联的模式S1将具有对于查询Q的更大相关性。
包含p个加权概念的集合CQ={C1...Cp}的查询Qp可被表示成p维坐标系中的点或张量,其中Qp在p维坐标系的第i轴上的坐标等于对应概念Ci∈CQ的权重。
类似地,包含相同的p个加权概念的集合CQ={C1...Cp}的模式S可被表示成p维坐标系中的点或张量,其中Sp在p维坐标系的第i轴上的坐标等于SV(Ci,S),对应概念Ci∈CQ在S内的语义值。
模式S内的集合CQ的查询Q的语义值被表示成SV(Q,S),可以等于Σi:1..p[SV(Ci,S)*wt(Ci,Q)],其中SV(Ci,S)是模式S内的概念Ci∈CQ的语义值,而wt(Ci,Q)是查询Q内的概念Ci的权重。
另一方面,模式S内的查询Q的语义值可被识别为由Q所包括的集合CQ={C1...Cp}所包括的概念定义的p维空间中代表查询Q的点与由集合CQ所包括的概念定义的p维空间中代表模式S的点之间的p维距离。
模式S内的查询Q的语义值也可被计算成由集合CQ所包括的各个概念定义的p维空间中代表Q的张量和由集合CQ所包括的各个概念定义的p维空间中代表S的张量之间的标量积。
在本发明的实施例中,这些概念使通过取回n个信息承载实体和n个对应的取回模式{S1...Sn}的回答集,其中所述n个取回实体的集合中的第i个取回实体与所述对应的n个取回模式的集合{S1...Sn}中的第i个模式相关联,响应查询Q的搜索引擎可以通过对取回实体的对应模式的语义值排列和排序,按n个取回实体对于查询Q的相对相关性,来对所述n个取回实体排列和排序。
包含一组n个概念{C1...Cn}(其中每个概念Ci∈{C1...Cn}可被赋予用SV(Ci,S)表示的S内的语义值)的模式S本身可被赋予语义值SV(S),其中SV(S)是S所包括的n个概念的n个语义值SV(Ci,S)的函数。S的语义值可被识别成:
SV(S)=Σi:1..n[SV(Ci,S)]
这里,SV(S)是模式S本身的语义值,与查询的语义值无关,或者与模式对于查询的相对相关性无关。一组模式的一组语义值可被用于量化和比较所述一组模式的相对丰富度,并利用该信息排列各个模式,而不管各个模式相对于特定查询的关系。在一些实施例中,模式的丰富度可以是该模式所包括的概念的范围宽度的函数,或者可以是该模式所包括的相对普通或者相对有用的概念的多个实例的函数。
上面说明的本发明的实施例可在比如语义万维网或语义数据库之类的环境中最好地工作,其中这样的环境可包括使关键字和符号与概念含意相关的概念数据模型和语义信息。
图1表示可用于实现按照本发明的实施例的排列对于概念查询的回答的方法的计算机系统和计算机程序代码的结构。图1涉及对象101-115。
本发明的各个方面可以采取纯硬件实施例、纯软件实施例(包括固件、驻留软件、微代码等),或者结合硬件和软件方面的实施例的形式,这里可以统称为“电路”、“模块”或“系统”。此外,在一个实施例中,本发明可以采取计算机程序产品的形式,所述计算机程序产品包含其中保存有计算机可读程序代码的一个或多个物理有形的(例如,硬件)计算机可读介质或设备,所述程序代码被配置成由计算机系统的处理器执行,以便实现本发明的方法。在一个实施例中,保存实现本发明的方法的所述程序代码的物理有形的计算机可读介质和/或设备(例如,硬件介质和/或设备)一般不包括信号,或者尤其不包括瞬息信号。
可以采用一个或多个计算机可读介质或设备的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体系统、设备或器件,或者以上的任意适当组合。计算机可读存储介质或设备的更具体例子(非穷举列表)可包括:电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、射频识别标签、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意适当组合。在本文的上下文中,计算机可读存储介质可以是任何能够包含或存储程序的任何物理有形的介质或硬件设备,所述程序可供指令执行系统、设备或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括其中嵌入计算机可读程序代码的传播数据信号,例如,通过以太网电缆传播的广播无线电信号或者数字数据。这种传播的信号可以采取任意各种形式,包括但不限于电磁信号、光脉冲、载波信号的调制或上述的任意组合。
包含在计算机可读介质上的程序代码可以用任何适当的介质传输,包括但不限于无线通信介质、光缆、导电电缆、射频或者红外电磁传输等等,或者上述的任意合适的组合。
可以用一种或多种程序设计语言,包括但不限于诸如Java、Smalltalk和C++之类的程序设计语言,和一种或多种脚本语言,包括但不限于诸如JavaScript、Perl和PHP之类的脚本语言的任意组合编写用于执行本发明的各个方面的操作的计算机程序代码。程序代码可以完全在用户计算机上执行、部分在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一情形下,远程计算机可以通过任意类型的网络,包括局域网(LAN)、广域网(WAN)、内部网、外部网、或者可包含LAN、WAN、内部网和外部网的组合的企业网,连接到用户计算机,或者可以连接到外部计算机,(例如利用因特网服务提供商(ISP)通过因特网连接)。
上面和下面参考按照本发明的实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图,说明本发明的各个方面。要理解图1-4的流程图,方框图的每个方框,以及流程图和/或方框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器,从而产生一种机器,使得借助计算机或其它可编程数据处理设备的处理器执行的这些计算机程序指令产生实现流程图和/或方框图的一个或多个方框中规定的功能/动作的装置。
这些计算机程序指令也可被保存在计算机可读介质中,所述计算机可读介质可指令计算机、其它可编程数据处理设备或其它设备按特定方式工作,以致保存在计算机可读介质中的指令产生制品,所述制品包括实现在流程图和/或方框图的一个或多个方框中规定的功能/动作的指令。
也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上,使得在计算机、其它可编程数据处理设备或其它装置上执行一系列操作步骤,以产生计算机实现的处理,以致在计算机或其它可编程设备上执行的指令提供实现在流程图和/或方框图的一个或多个方框中规定的功能/操作的处理。
图1-4的流程图和/或方框图图解说明按照本发明的各个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或方框图中的每个方框可代表模块、程序段或者代码的一部分,其中所述模块、程序段或代码的一部分包含用于实现一个或多个规定的逻辑功能的一个或多个可执行指令。还应当注意,在一些备选实现中,方框中标注的功能也可以以不同于附图中所标注的顺序发生。例如,连续表示的两个方框实际上可以大体并行地执行,或者它们有时也可以按相反的顺序执行,取决于所涉及的功能。还要注意的是,方框图和/或流程图的每个方框、以及方框图和/或流程图中的各个方框的组合可以用执行规定功能或动作的基于专用硬件的系统实现,或者可以用专用硬件与计算机指令的组合实现。
在图1中,计算机系统101包括处理器103,处理器103通过一个或多个I/O接口109耦接到一个或多个硬件数据存储设备111和一个或多个I/O设备113和115。
硬件数据存储设备111可包括但不限于磁带驱动器、固定或者可拆卸硬盘、光盘、配备存储器的移动设备、和固态随机存取或只读存储设备。I/O设备可包括但不限于:输入设备113,比如键盘、扫描仪、手持电信设备、触敏显示器、平板电脑、生物特征读取设备、控制杆、跟踪球或计算机鼠标;和输出设备115,它可包括但不限于打印机、绘图仪、平板电脑、移动电话、显示器或发声设备。数据存储设备111、输入设备113和输出设备115可以位于本地,或者位于远程地点,从所述远程地点,它们通过网络接口连接到I/O接口109。
处理器103也可连接到一个或多个存储设备105,所述存储设备105可包括但不限于动态RAM(DRAM)、静态RAM(SRAM)、可编程只读存储器(PROM)、现场可编程门阵列(FPGA)、安全数字存储卡、SIM卡、或者其它类型的存储设备。
至少一个存储设备105包含保存的计算机程序代码107,计算机程序代码107是包含计算机可执行指令的计算机程序。保存的计算机程序代码包括实现按照本发明的实施例的有效地选择可编程搜索的运行时规则的方法的程序,并且可以实现本说明书中描述的其它实施例,包括在图1-4中图解所示的方法。数据存储设备111可保存计算机程序代码107。保存在存储设备111中的计算机程序代码107被配置成由处理器103借助存储设备105执行。处理器103执行保存的计算机程序代码107。
从而,本发明公开一种支持计算机基础结构,把计算机可读代码集成、托管、保持和部署在计算机系统101中的处理,其中与计算机系统101结合的所述代码能够实现有效地选择可编程搜索的运行时规则的方法。
本发明的任意组件可以由试图使有效地选择可编程搜索的运行时间规则的方法更容易的服务提供商创建、集成、托管、保持、部署、管理、服务、支持等等。从而,本发明公开一种部署或集成计算基础结构,包括把计算机可读代码集成到计算机系统101中的处理,其中与计算机系统101结合的所述代码能够执行有效地选择可编程搜索的运行时规则的方法。
一个或多个数据存储单元111(或者图1中未示出的一个或多个附加存储设备)可用作其中包含计算机可读程序和/或其中保存有其它数据的计算机可读硬件存储设备,其中计算机可读程序包括保存的计算机程序代码107。通常,计算机系统101的计算机程序产品(或者另一方面,制品)可包含所述计算机可读硬件存储设备。
图2是概述按照这里介绍的本发明的实施例,排列对概念查询的回答的方法的流程图。图2包括步骤201-209。
在步骤201,概念搜索引擎接收包含一组被查询概念C(Q)的概念查询Q。查询Q可接收自想要与被查询概念在所述查询的上下文内的语义含意相关的一组回答的查询实体。在一些实施例中,查询将包含可由概念搜索引擎解释成概念或者解释成概念的实例的一组字符串或者关键字。
在步骤203,搜索引擎通过为搜索引擎设计领域的技术人员众所周知的方法,取回信息承载实体的回答集,其中每个取回的实体可包含所述查询所包括的概念,或者与所述概念相关。每个取回的实体可与包含所述一组被查询概念C(Q)的子集的语义模式相关联,并且可进一步与被查询概念的子集的概念之间的一组关系相关联。在一些实施例中,取回的回答集可包含一组取回的语义模式,其中所述一组取回的语义模式中的模式与回答集所包括的取回的信息承载实体相关联。在一些实施例中,图2的方法可忽略取回的回答集所包括的信息承载实体,如果该实体与取回的回答集所包括的取回的语义模式不相关联的话。
步骤205对回答集中的每个语义模式,进行一次图3的方法,其中回答集中的所述每个语义模式已在步骤203中取回,并且其中所述每个语义模式包括所述一组概念C(Q)中的被查询概念。步骤205和图3可识别回答集所包括的每个这样的取回的语义模式内的概念查询Q的语义值。
步骤207以在步骤205中识别的模式语义值的函数的形式,对回答集所包括的语义模式排列和排序,其中每个模式语义值识别语义值,并使该语义值与排列和排序的语义模式之一相关联。在这里说明的实施例中,所述排列和排序是通过按模式的递减顺序的相关联的语义值,对模式分类来实现的。在其它实施例中,可利用基于在步骤205中识别的这些相关联的语义值的函数的备选或者类似的过程,实现所述排列和排序。在一些实施例中,默认的过程可以使默认的排列和排序与利用步骤203的过程取回的信息承载实体相关联,其中所述信息承载实体不与取回的语义模式相关联。
步骤209按回答集所包括的取回的信息承载实体对于概念查询的相对相关性,来对所述取回的信息承载实体排列和排序。可根据所述一组语义模式的在步骤207中识别的排序顺序,实现所述排列和排序,其中取回的信息承载实体的相对相关性是与取回的信息承载实体相关联的语义模式的语义值的相对语义值的函数。
在这里说明的实施例中,取回的信息承载实体从而按其对于查询Q的递减的相对相关性被排序,其中实体的对于查询Q的相对相关性是与该实体相关联的语义模式的相对语义值的函数,以及其中相关联的语义模式是在步骤203中取回的。
在这里说明的实施例中,步骤209的排序产生信息承载实体的分类顺序,该分类顺序和与实体相关联的一组模式的步骤207的分类顺序类似。在其它实施例中,可以基于在步骤205中识别的语义值的函数的备选或类似过程,执行步骤209的排序。
图3是介绍按照这里描述的本发明的实施例,图2的步骤205的识别语义模式对于概念查询的语义值的过程的更多细节的流程图。图3包括步骤301-315。
在步骤301,本发明的实施例可选择一组函数,所述一组函数可包括按照这里说明的本发明的实施例,识别语义模式中的被查询概念的语义值的方法的各个组件。
在一些实施例中,这些函数的选择可以取决于实现,或者可以取决于概念搜索引擎的系统要求或者设计目标,或者可以取决于概念搜索引擎所包含的,或者概念搜索引擎运行于其上的平台所包含的资源的可用性。
在一些实施例中,这些函数可以选自知识库,或者可被选择为概念查询的特性的函数,概念查询所包含的概念的特性的函数,搜索引擎响应所述概念查询而识别或取回的信息承载实体的特性的函数,响应概念查询而取回的语义模式的特性的函数,如在步骤203中所述,或者它们的某种组合的函数。在一些实施例中,这些函数可以明确地或者隐含地由查询实体或者搜索引擎用户识别,或者可以是查询实体或者搜索引擎用户的某种明确或者隐含指定的函数。
由步骤301选择的一组函数的子集可用SV(Q,S)形式的命名表示,其中所述子集可用于识别在语义模式S中的概念查询Q的语义值,SV(Q,S)表示在模式S中的查询Q的语义值。
函数SV(Q,S)可包含函数SV(C(i),S),它表示模式S内的概念C(i)的语义值,其中概念查询Q可包含被查询概念的n元集合C(Q)={C(1)...C(n)},其中C(Q)又包含概念C(i)。
函数SV(Q,S)的选择可以取决于实现,或者取决于实施例,SV(Q,S)可以是概念查询Q和语义模式S的满足这里说明的标准的任意函数。在一些实施例中,函数SV(Q,S)为搜索引擎设计领域的技术人员众所周知。
SV(Q,S)函数的例子包括但不限于:
i)以下形式的函数:
SV(Q,S)=Σi:1..m[SV(C(i),S)*wt(C(i),Q)]
其中概念查询Q包含一组m个概念C(Q),以及其中wt(C(i),Q)是C(Q)中的概念C(i)的权重。如在这里及在图5的说明中所述,概念可以与权重相关联,以便确保准确地表示其对于概念查询的相对重要性。
ii)p维空间中代表概念查询Q的点和p维空间中代表模式S的点之间在p维坐标系中的距离的函数,其中以查询Q所包含的一组概念C(Q)中的概念C(i)为单位,对所述p维坐标系的第i轴定标,其中查询Q在第i轴上的坐标等于wt(C(i),Q)(所述一组概念C(Q)中的概念C(i)的权重),以及其中模式S在第i轴上的坐标等于SV(C(i),S)(模式S中的概念C(i)的语义值);或者
iii)p维坐标系中代表查询Q的张量与p维坐标系中代表模式S的张量的标量积的函数,其中以查询Q所包含的一组概念C(Q)中的概念C(i)为单位,对p维坐标系的第i轴定标,其中查询Q在第i轴上的坐标等于wt(C(i),Q)(所述一组概念C(Q)中的概念C(i)的权重),以及其中模式S在第i轴上的坐标等于SV(C(i),S)(模式S中的概念C(i)的语义值)。
在步骤301中可选择其它类型的语义值函数,所述其它类型的语义值函数可识别其它类型的实体在其它上下文中的语义值。所述其它类型的实体可包括但不限于查询或模式。所述其它类型的上下文可包括但不限于模式。
由步骤301选择的一组函数的另一个子集可包含一个或多个长度函数,所述一个或多个长度函数可包括但不限于识别链ch的长度的L(ch)函数,和识别链接lnk的长度的L(lnk)函数。
长度函数的例子可包括但不限于:
i)把链接的长度识别成为1的默认长度,或者识别成某个其它定值的默认函数;
ii)特性与i)相同的长度函数,该长度函数识别每个概念由默认长度等于0、空值或者其它无效值的链接,默认地链接到所述概念本身;
iii)基于链接长度的一个或多个特性的相对值,识别大于或小于包含该链接的语义模式,或者所述语义模式中利用该链接相关联的各个概念的默认值的链接长度;
iv)特性与ii)相同的长度函数,该长度函数明确地把视为等同的两个概念之间的链接的长度识别为等于0、空值或者其它无效值。
由步骤301选择的一组函数的另一个子集可包含一个或多个强度函数,所述强度函数可包括但不限于识别概念C的强度的Str(C)函数,识别模式S内的概念C的强度的Str(C,S)函数,识别模式S内的链接lnk的强度的Str(lnk,S)函数,识别模式S内的链ch的强度的Str(ch,S)函数,当在模式S中C(i)和C(j)之间存在不止一个链或链接时,识别模式S内,概念C(i)和概念C(j)之间的联络的强度的联络强度LStr(C(i),C(j),S)函数,和识别概念查询Q内的概念C的强度的Str(C,Q)函数。在一些实施例中,在步骤301中可以选择识别在另一种上下文中的另一种类型实体的强度的其它各种强度函数。
强度函数的例子包括但不限于:
i)向概念赋予默认强度1(或者某个其它定值)的默认概念强度函数;
ii)识别链接的强度(该链接的长度的反函数)的链接强度函数。这种函数的对于长度为零的链接,返回有限强度值的一个例子是:Str(lnk)=1/(1+L(lnk));或者
iii)识别链的强度(该链的长度的反函数)的链强度函数。这种函数的对于长度为零的链,返回有限强度值的一个例子是:Str(ch)=1/(1+L(ch)),其中L(ch)(链ch的长度)等于该链所包含的所有链接的长度之和;
iv)识别语义模式S内的概念C(x)和语义模式S中的概念C(y)之间的链的最大强度的联络强度函数LStr(C(x),C(y),S),其中C(x)和C(y)可由S中的不止一个路径,或者由S中的不止一个链连接。这种函数的一个简单例子是返回C(x)和C(y)之间的某个链的强度值的函数,所述某个链的强度值大于或等于C(x)和C(y)之间的任何其它链的强度值--换句话说,返回C(x)和C(y)之间的“最强”链的强度值的函数;或者
v)基于概念、链接、链或者其它实体的一个或多个特性的一组相对值,识别大于或者小于默认值或者其它计算值的强度的强度赋值(strength assignment)。
由步骤301选择的一组函数的其它子集可包括语义权重函数,如在图4中所述,或者本发明的实施例为了识别或计算语义值而需要的其它各种函数,这里可说明它们的例子。
步骤303开始迭代过程,所述迭代过程包括步骤303-315并且对于在步骤203中取回的语义模式的回答集中的每个语义模式S(n)进行一次迭代。当对回答集中的所有语义模式,完成了该迭代过程时,图3的方法终止,本发明的实施例继续进行图2的步骤207。
步骤305采用在步骤301中选择的一个或多个长度函数来识别模式S(n)所包括的一组所有链接中的每个链接的长度,其中所述每个链接识别模式S(n)所包括的一对概念之间的关系。在一些实施例中,如果一对概念中的任何一个概念未被查询Q所包括,那么步骤305可不识别对该对概念之间的关系进行识别的链接的长度。
步骤307开始迭代过程,所述迭代过程包括步骤307-309并且对于模式S(n)所包括的每个概念C(j)进行一次迭代。在一些实施例中,可不对未被查询Q包含的概念进行步骤307-309的迭代。当对满足这些各组标准之一,或者满足类似的由实现决定的各组标准的所有概念C(j),完成了步骤307-309的迭代过程时,步骤307-309的迭代过程终止,以及图3的方法继续进行步骤311。
步骤309采用在步骤301中选择的一个或多个强度函数来识别Str(C(j),S(n)),模式S(n)中的概念C(j)的强度。当对于由步骤307识别的满足所述一组标准的S(n)中的所有概念C(j),完成了步骤307-309的迭代过程时,本发明的方法将已识别了每个这种概念C(j)的强度Str(C(j),S(n)),步骤307-309的迭代过程将结束,以及图3的方法将继续步骤311。
步骤311开始迭代过程,所述迭代过程包括步骤311-313并且对于每个被查询概念C(i)∈C(Q)进行一次迭代,其中步骤201的概念查询Q包括一组被查询概念C(Q)。在一些实施例中,只有当C(Q)和语义模式S(n)两者都包含被查询概念C(i)时,才对被查询概念C(i)进行步骤311-313的迭代。当对于满足这些各组标准之一或者满足类似的取决于实现的各组标准的所有被查询概念C(i),完成了步骤311-313的迭代过程时,步骤311-313的迭代过程结束,以及图3的方法继续进行步骤315。
步骤313采用在步骤301中选择的一个或多个语义值函数来识别SV(C(i),S(n)),模式S(n)中的被查询概念C(i)的语义值。在一些实施例中,如果S(n)不包含C(i),那么SV(C(i),S(n))会返回空值或者其它无效值或者定值。
图4中更详细地说明了步骤313。
当对于满足由步骤311识别的一组标准的所有被查询概念C(i),完成了步骤311-313的迭代过程时,图3的方法将已识别了每个所述概念C(i)的语义值SV(C(i),S(n)),步骤311-313的迭代过程将结束,以及图3的方法将继续进行步骤315。
步骤315识别SV(Q,S(n))的值(模式S(n)内的步骤201的概念查询Q的语义值)。步骤301中的语义值函数的选择可取决于本发明的特定实施例的实现细节,不过选择的语义值函数必须包括由步骤311-313的迭代过程返回的SV(C(i),S(n))形式的一组语义值的函数,其中每个语义值SV(C(i),S(n))是模式S(n)内的被查询概念C(i)的语义值。
例如,如果本发明的实施例通过作为语义值函数的第一例子,在步骤301中选择的函数SV(Q,S),实现步骤315,那么模式S(n)内的概念查询Q的语义值会为:
SV(Q,S(n))=Σi:1..m[SV(C(i),S(n))*wt(C(i),Q)]
其中查询Q包含一组m个概念C(Q)={C(1)...C(m)},wt(C(i),Q)是被查询概念C(i)∈C(Q)的权重,以及SV(C(i),S(n))是模式S(n)内的概念C(i)∈C(Q)的语义值。在本例中,模式S(n)内的查询Q的语义值等于一组乘积之和,其中所述一组乘积中的每个乘积包括S(n)内的概念C(i)的语义值乘以Q内的概念C(i)的权重。如在步骤301中所述,其它实施例可包含表示模式和查询中的概念的相对重要性或加权的不同语义值函数。
当步骤315完成时,如果还未对所有语义模式S(n)进行步骤303-315的迭代过程,那么图3的方法将返回步骤303,以对下一个语义模式S(n),开始步骤303-315的迭代过程的下一次迭代。如果对所有语义模式S(n)都进行了步骤303-315的迭代过程,那么本发明的方法将继续进行图2的步骤207,从而返回由步骤203取回的每个模式S(n)内的查询Q的语义值。
图4是图解说明用于识别语义模式S(n)内的被查询概念C(i)的语义值的图3的步骤313的过程的细节的流程图。其中C(i)由一组被查询概念C(Q)包含,所述一组被查询概念C(Q)又由概念查询Q包含,以及其中响应查询Q,搜索引擎在步骤203取回S(n)。在一些实施例中,可对查询Q所包含的每个被查询概念C(i),进行一次图4的方法。在其它实施例中,可对C(Q)和语义模式S(n)两者所包含的每个被查询概念C(i),进行一次图4的方法。图4包括步骤401-411。
步骤401开始迭代过程,所述迭代过程包括步骤401-409并且对模式S(n)所包括的每个概念C(j)进行。当对所有概念C(j),完成了该迭代过程时,步骤401-409的迭代过程终止,以及图4的方法继续进行步骤411。
步骤403开始迭代处理,所述迭代处理包括步骤403-405并且对模式S(n)所包括的每个概念C(x)进行一次,其中C(x)由单个直接链接连接到概念C(j)。在一些实施例中,概念C(j)可被认为由单个直接链接连接到它自己。在一些实施例中,这种到它自己的单个直接链接可被认为具有等于0、空值或者某个其它无效值的默认长度。当对于所有概念C(x),完成步骤403-405的所述迭代处理时,步骤403-405的迭代处理终止,以及图4的方法继续进行步骤407。
步骤405识别Str(lnk(C(j),C(x)),S(n))(模式S(n)内的直接链接lnk(C(j),C(x))的强度,其中所述直接链接lnk(C(j),C(x))直接连接模式S(n)内的概念C(j)和模式S(n)内的概念C(x)。在一些实施例中,概念C(j)可被认为由单个直接链接lnk连接到它自己,这种链接可被认为具有等于0、空值或者某个其它无效值的默认长度。
如在步骤301的说明中进一步解释的那样,链接lnk(C(j),C(x))的这种强度可用链接强度函数Str(lnk)来识别。在这里说明的实施例中,链接lnk的强度Str(lnk)可以是L(lnk)(链接lnk的长度)的反函数。在一个例子中,可用以下函数识别链接lnk的强度:
Str(lnk)=1/(1+L(lnk))
在其中在步骤405中,概念C(j)并不与概念C(x)不同的实施例中,C(j)可具有到它自己的直接链接,其中到它自己的直接链接可被认为具有等于0、空值或者某个其它无效值的默认长度。在这种实施例中,概念C(j)和C(x)之间的直接链接的强度为:
Str(lnk)=1/(1+L(lnk))=1/(1+0)=1
将在步骤405中应用的强度函数的选择可以是随实现而定的,以及在步骤301中选择在本发明的特定实施例中将使用哪个函数。步骤301的描述还提供链长度函数、链接长度函数和可包括链强度或联络强度函数的链接强度函数的例子。一些或者所有这些函数可以是取决于实现的,或者取决于实施例的,不过每种函数的例子为搜索引擎设计领域的技术人员众所周知。
当步骤405完成时,步骤403-405的迭代处理对于概念C(x)的下一个实例开始其下一次迭代。当对于模式S(n)中直接链接到概念C(j)的所有概念C(x)都完成了步骤403-405的迭代处理时,步骤403-405的迭代处理结束,以及图4的方法继续进行步骤407。
步骤407利用步骤405和309的结果,识别模式S(n)中的概念C(j)的语义权重。将在步骤407中使用的语义权重函数的识别可以是取决于实现的,以及在步骤301中,可以识别在本发明的特定实施例中要使用哪个语义权重函数。
在图4的实施例中,例如,语义权重函数SW(C(j),S(n))可被定义成乘积之和,其中所述乘积是通过把概念C(j)的强度乘以S(n)中的概念C(j)与S(n)中的概念C(x)之间的链接的强度计算的:
SW(C(j),S(n))=Str(C(j))*Σx:1..mStr(lnk(C(j),C(x),S(n))
其中Str(C(j))是概念C(j)的强度,Str(C(j),C(x),S(n))是模式S(n)内的C(j)和S(n)内的C(x)之间的直接链接的强度。
步骤409识别LStr(C(i),C(j),S(n)),模式S(n)内的C(i)和C(j)之间的联络强度,其中C(i)是在图3的步骤311-313中识别的S(n)中的概念,而C(j)是在图4的步骤402中识别的S(n)中的概念。
如在步骤301的说明中所述,在其中模式S(n)内的多个链沿着不同的路径连接S(n)中的概念C(i)和S(n)中的概念C(j)的实施例中,C(i)和C(j)之间的“联络强度”可被识别为S(n)中的C(i)和C(j)之间的“最强”链的强度,其中S(n)中的C(i)和C(j)之间的最强链是不小于和连接S(n)中的C(i)和C(j)的任何其它链相关联的强度值的强度值相关联的链。在本发明的其它实施例中,步骤409可以应用其它函数来识别S(n)中的C(i)和C(j)之间的链强度、联络强度、或者最强链(当C(i)和C(j)由多个链或路径连接时)。
在一些实施例中,概念C(i)可以与到它自己的默认直接链接相关联,其中所述默认直接链接的默认长度等于0、空值、或者无效值。在这样的实施例中,概念C(i)和它自己之间的联络的强度可被识别为:
LStr(C(i),C(i),S(n))=1/(1+L((C(i),C(i)))=1/(1+0)=1
当步骤409完成时,对S(n)内的概念C(j)的下一个实例,从步骤401开始步骤401-409的迭代处理的下一次迭代。当对于S(n)内的所有概念C(j),都完成了步骤401-409的迭代处理时,步骤401-409的迭代处理结束,以及图4的方法继续进行步骤411。
步骤411利用步骤407和409的结果来识别语义模式S(n)内的被查询概念C(i)的语义值。可通过应用识别模式内的概念的语义值的一个或多个语义值函数,进行步骤411,以及其中所述一个或多个语义值函数可以是在步骤407中识别的SW(C(j),S(n))的值的函数,其中SW(C(j),S(n))的实例可识别概念C(j)∈S(n)在S(n)内的语义权重,并且可以是在步骤409中识别的LStr(C(j),C(x),S(n))的另外的函数,其中LStr(C(i),C(j),S(n))的实例可识别S(n)中的被查询概念C(i)与S(n)中的概念C(j)之间的联络强度。在其它实施例中,可通过应用一个或多个其它函数或方法,进行步骤411,所述一个或多个其它函数或方法可包括但不限于在步骤301中描述的函数或例子。
当模式S(n)包含m个概念{C(1)...C(m)}时,这样的语义值函数可以是以下形式:
SV(C(i),S(n))=Σj:1..m[SW(C(j),S(n))*LStr(C(i),C(j),S(n))]
在本例中,模式S(n)内的概念C(i)的语义值是乘积之和,其中每个乘积是把S(n)中的概念C(j)的语义权重乘以概念C(i)和概念C(j)∈S(n)之间的联络强度的结果。本例中的语义值从而是S(n)中的所有m个概念C(j)的这种乘积之和。在其它实施例中,可在步骤301中识别其它语义值函数,并在步骤407中应用这些函数。
在一些实施例中,概念C(i)与到它自己的默认直接链接相关联,其中所述默认直接链接的默认长度等于0、空值、或者无效值。在这种实施例中,概念C(i)和它自己之间的联络强度可被识别为:
LStr(C(i),C(i),S(n))=1/(1+L((C(i),C(i)))=1/(1+0)=1
在这样的实施例中,概念C(i)对它自己的语义值产生影响,而S(n)内的C(i)的语义权重SW(Ci,S(n))对SV(C(i),S(n))(S(n)中的C(i)的语义值)产生影响。
在一些实施例中,如果模式S(n)中的概念C(k)和模式S(n)中的概念C(l)被认为在S(n)内等同,那么S(n)中的C(k)和S(n)中的C(l)之间的链接或链的长度可以与等于0、空值、或者无效值的默认长度相关联。在这样的实施例中,C(k)和C(l)之间的S(n)中的链接lnk的强度等于:
Str(lnk,S(n))=1/(1+0)=1,
并且C(k)和C(l)之间的S(n)中的联络的强度等于:
LStr(C(k),C(l),S(n))=1/(1+0)=1
在一些实施例中,这两种特性可被组合,以致:
i)S(n)中的概念C(k)可以与S(n)内到它自己的默认链接相关联,其中到它自己的默认链接的默认长度等于0、空值或者无效值;和
ii)S(n)中的概念C(k)和S(n)中的等同概念C(l)可以与S(n)内的C(k)和C(l)之间的默认链接相关联,其中C(k)和C(l)之间的默认链接的默认长度等于0、空值或者无效值。
在这样的实施例中,如果S(n)中的C(k)和S(n)中的C(l)这两个等同概念,其中C(k)和C(l)在S(n)中由长度等于0、空值或者另一个无效值的链接或链所链接,那么C(k)和C(l)具有S(n)内的相同语义值,该语义值等于:
SV(C(k),S(n))=SV(C(l),S(n))
当步骤411完成时,图4的方法结束,以及本发明的实施例继续进行图3的步骤311和313的迭代过程的下一次迭代。如果如在步骤311-313的说明中定义的那样,对所有被查询概念都进行了步骤311和313的迭代过程,那么本发明的实施例继续进行图3的步骤315。
图5是图解说明按照本发明的实施例,识别语义模式对于概念查询的相对相对性,并通过在p维坐标系中表示所述模式和查询的方法的示图。图5包含附图标记501-513。
在本例中,概念搜索引擎通过在步骤203中取回3个语义模式S1、S2和S3,来响应在步骤201中接收的概念查询Q,其中查询Q和这3个模式都包含2个加权的概念C1和C2。在其它例子中,概念查询可包含不同数目的被查询概念,以及语义模式可包含一组被查询概念的不同子集。
图5图解说明概念查询和概念搜索引擎响应概念查询而取回的一组语义模式可如何被表示成p维空间(或者“p空间”)中的p元组,其中p是所述查询所包含的概念的数目,以及在一些实施例中,p可被所有取回的语义模式所包含。在这个简单的二维例子中,p等于2,因为查询Q包含两个概念C1和C2。所有这3个模式S1、S2和S3都包含两个被查询概念,不过在其它例子中,即使语义模式不包含C1和C2两者,也可响应查询Q而取回该语义模式。在所述二维概念空间中,纵轴501是以概念C1的权重或语义值为单位定标的,而横轴503是以概念C2的权重或语义值为单位定标的。
在图5中,查询Q及模式S1、S2和S3在二维概念空间中都被表示成利用一对有序坐标描述的点。这些点中的每一个点还都可被等同地表示成从二维坐标系的原点507到该点的矢量(或者,在更高维度的坐标系中,表示成张量)。在这个例子中,
-查询Q用在坐标(C1=2.0,C2=0.4)的点509表示,意味C1在Q中具有2.0的权重,而C2在Q中具有0.4的权重;
-模式S1用在坐标(C1=1.2,C2=0.8)的点513表示,意味C1在S1中具有1.2的语义值,而C2在S1中具有0.8的语义值;
-模式S2用在坐标(C1=1.5,C2=0.5)的点511表示,意味C1在S2中具有1.5的语义值,而C2在S2中具有0.5的语义值;
-模式S3用在坐标(C1=4.0,C2=0.8)的点505表示,意味C1在S3中具有4.0的语义值,而C2在S3中具有0.8的语义值。
在本例中,概念C1和C2都被赋予权重,其中概念的权重可以是该概念对于查询Q的相对重要性的函数。这里,C1与2.0的权重相关联,而被认为相对于C1对查询Q的重要性为40%的C2与0.80的权重相关联。在其它实施例和本实施例的其它例子中,可以采用选择权重值的不同方法,并且每个权重的值可意味不同的含意。例如,两个概念的两个相对重要性之间的比率可以是分别与这两个概念之一相关联的一对权重之间的比率的非平凡函数(nontrivial function)。
在确定语义模式对于概念查询的相对相关性的所述方法的一个实施例中(其中所述模式和查询都被表示成p空间中的一个点),所述方法可把模式的相对相关性识别成p空间中代表所述模式的第一点和代表所述查询的第二点之间的距离的函数。
在图5中,与代表S3的点505和代表查询Q的点509之间的较大距离相比,代表模式S1的点513和代表模式S2的点511都相对更靠近代表查询Q的点509。把相关性识别为查询和模式之间的p空间距离的反函数的方法从而可识别比S1513或者S2511对于Q509的相关性低的S3505对于Q509的相关性,因为代表S3505的坐标位于与代表S1513的坐标或者代表S2511的坐标相比,在二维空间中离代表Q509的坐标的距离更大之处。
在本例中,把取回模式的相关性或语义值识别为p空间中的两点之间的距离的函数的方法,通过首先使代表取回模式的矢量或张量归一化,可产生更准确的结果。在这样的实施例中,未能归一化会导致使错误地较低的相对相关性与取回的位于离查询点Q过远之处的回答相关联,即使取回的回答与被查询概念的否则较高的语义值相关联。这种归一化方法可包括通过把每个矢量或张量的长度除以取回的回答集的最长矢量或张量的长度,变换一组取回的矢量或张量中的每个矢量或张量的长度,所述一组取回的矢量或张量都代表取回的回答集中的一个取回的回答。其它实施例可包括为三角学领域的技术人员众所周知的不同的归一化方法。
不过,另一个实施例可以采用把p空间中语义模式对于查询的相对相关性识别为从p维坐标系的原点507到代表所述模式的坐标的第一张量或矢量,和从原点507到代表所述查询的坐标的第二张量或矢量的标量积的函数的第二种方法。
利用为线性代数或线性规划领域的技术人员众所周知的矩阵计算,所述第二种方法可在图5中,把从原点507到S3505的矢量和从原点507到Q509的矢量的标量积识别为大于从原点507到S1513的矢量和从原点507到Q509的矢量的标量积,类似地,识别为大于从原点507到S2511的矢量和从原点507到Q509的矢量的标量积。
从原点507到S3505的矢量和从原点507到Q509的矢量的标量积具有这3个标量积中的最大大小,因为构成该标量积的两个矢量在二维空间中具有相同的斜率和原点,并且因为从原点507到坐标S3505的矢量的长度大于从原点507到点S1513的矢量的长度,或者大于从原点507到点S2511的矢量的长度。
通过应用为线性代数领域的技术人员众所周知的普通矢量运算,易于得到这些结论。
所述第二种方法于是把语义模式S3505识别为对于查询Q509具有较大相关性,因为从原点507到Q509的矢量和从原点到S3的矢量的标量积大于与分别连接原点508和S1513及S2511的矢量相关联的前述标量积任意之一。
上面在步骤315的讨论中说明的第三种方法可把模式S中的查询Q的语义值识别成模式S内的每个被查询概念的语义值和查询Q内的每个概念的语义权重的函数:
SV(Q,S)=Σi:1..m[SV(C(i),S)*wt(C(i),Q)],
得到以下结果:
SV(Q,S1)=(1.2*2.0)+(0.8*0.4)=2.4+0.32=2.72
SV(Q,S2)=(1.5*2.0)+(0.5*0.4)=3.0+0.2=3.2
SV(Q,S1)=(4.0*2.0)+(0.8*0.4)=8+0.32=8.32
这3个例子和图5图解说明对应于本发明的三类实施例,并且可按照本发明的实施例用于识别和排列模式对于查询的相对相关性的三种数学途径。在其它实施例中,基于本发明的特定实施例的取决于实现的细节,可以代替为诸如线性代数或线性规划之类领域的技术人员众所周知的其它多维或图形数学函数和技术,以识别并按相关性排列模式。

Claims (18)

1.一种排列对于概念查询的回答的方法,所述方法包括:
计算机系统的处理器接收概念查询,其中所述查询包括一组一般概念中的一组被查询概念;
所述处理器接收一组语义模式,其中所述一组语义模式包括所述一组被查询概念中的接收的概念子集以及还包括多个关系,其中所述多个关系中的一个关系使所述一组一般概念中的两个或者更多的概念相关,其中所述一组语义模式中的第一模式包含所述接收的概念子集中的第一概念子集、所述一组一般概念中的第二概念、所述一组一般概念中的第三概念、和所述多个关系中的第一组关系,其中所述第一概念子集包括所述接收的概念子集中的第一概念,其中所述第一组关系中的第一关系使所述第一概念与所述第二概念相关,其中所述第一关系与多个关系强度中的第一关系强度相关联,其中所述第一概念与一组概念权重中的所述概念查询内的第一概念权重相关联,其中所述第二概念与一组概念强度中的第二概念强度相关联,以及其中所述第二概念与一组语义权重中在所述第一模式中的第二语义权重相关联;
作为所述第一概念子集的函数以及所述第一组关系的另一个函数,所述处理器识别所述第一模式对于所述查询的第一语义值;
作为所述第一模式对于所述查询的所述第一语义值的函数,所述处理器识别所述第一模式对于所述查询的第一相对相关性;和
作为所述第一相对相关性的函数,所述处理器排列所述一组语义模式之中的所述第一模式。
2.按照权利要求1所述的方法,其中所述识别所述第一模式对于所述查询的第一语义值是多组概念语义值的在所述第一模式内的第一组概念语义值的另一个函数,以及其中所述第一概念与所述第一组概念语义值的在所述第一模式中的第一概念语义值相关联,以及其中所述识别所述第一模式对于所述查询的第一语义值是所述多个关系强度的在所述第一模式内的第一组关系强度的另一个函数,以及其中所述第一关系与所述第一组关系强度中的第一关系强度相关联。
3.按照权利要求2所述的方法,其中所述第一模式中的所述第一概念语义值是所述第一关系强度的函数,并且是所述第一模式中的所述第二语义权重的另一个函数,其中所述第二语义权重是所述第二概念强度的函数,其中所述第二语义权重是所述多个关系强度中的一组第二概念关系强度的另一个函数,以及其中所述一组第二概念强度中的关系强度与所述第二概念和所述第三概念之间的关系相关联。
4.按照权利要求1所述的方法,其中所述多个关系中的第一链关系使所述第一概念与所述第二概念相关,其中所述第一链关系包括所述多个关系的第一组链接关系,其中所述第一组链接关系与多个关系长度中的第一组链接关系长度相关联,其中所述第一组链接关系中的第一链接关系与所述第一组链接关系长度中的第一链接关系长度相关联,以及其中所述多个关系强度中的第一链关系强度是所述第一组链接关系长度的反函数。
5.按照权利要求4所述的方法,其中所述多个关系中使所述一组一般概念中的一对等同概念相关的关系与所述多个关系长度中的零长度或零关系长度相关联。
6.按照权利要求1所述的方法,其中所述识别所述第一模式的第一相对相关性包括以下步骤:
所述处理器把所述概念查询标示成p维坐标系中的第一点,另外把所述第一模式标示成所述p维坐标系中的第二点,其中所述p维坐标系的一个轴与所述一组被查询概念中的一个概念相关联;
所述处理器生成从p维坐标系的原点到所述第一点的第一p维张量;
所述处理器生成从p维坐标系的原点到所述第二点的第二p维张量;和
作为从以下一组中选择的参数的函数,所述处理器识别所述第一模式的所述第一相对相关性:所述第一点和所述第二点之间的p维距离,所述概念查询内的所述第一概念语义值和所述第一概念权重的乘积,和所述第一p维张量和所述第二p维张量的标量积,其中所述第一概念语义值与所述第一概念相关联。
7.一种计算机系统,所述计算机系统包括处理器、与所述处理器耦接的存储器、和与所述处理器耦接的计算机可读硬件存储设备,所述存储设备包含程序代码,所述程序代码被配置成由所述处理器借助存储器运行,以实现排列对于概念查询的回答的方法,所述方法包括:
计算机系统的所述处理器接收概念查询,其中所述查询包括一组一般概念中的一组被查询概念;
所述处理器接收一组语义模式,其中所述一组语义模式包括所述一组被查询概念中的接收的概念子集以及还包括多个关系,其中所述多个关系中的一个关系使所述一组一般概念中的两个或者更多的概念相关,其中所述一组语义模式中的第一模式包含所述接收的概念子集中的第一概念子集、所述一组一般概念中的第二概念、所述一组一般概念中的第三概念、和所述多个关系中的第一组关系,其中所述第一概念子集包括所述接收的概念子集中的第一概念,其中所述第一组关系中的第一关系使所述第一概念与所述第二概念相关,其中所述第一关系与多个关系强度中的第一关系强度相关联,其中所述第一概念与一组概念权重中的所述概念查询内的第一概念权重相关联,其中所述第二概念与一组概念强度中的第二概念强度相关联,以及其中所述第二概念与一组语义权重中的所述第一模式中的第二语义权重相关联;
作为所述第一概念子集的函数以及所述第一组关系的另一个函数,所述处理器识别所述第一模式对于所述查询的第一语义值;
作为所述第一模式对于所述查询的所述第一语义值的函数,所述处理器识别所述第一模式对于所述查询的第一相对相关性;和
作为所述第一相对相关性的函数,所述处理器排列所述一组语义模式之中的所述第一模式。
8.按照权利要求7所述的系统,其中所述识别所述第一模式对于所述查询的第一语义值是多组概念语义值的在所述第一模式内的第一组概念语义值的另一个函数,以及其中所述第一概念与所述第一组概念语义值的在所述第一模式中的第一概念语义值相关联,以及其中所述识别所述第一模式对于所述查询的第一语义值是所述多个关系强度的在所述第一模式内的第一组关系强度的另一个函数,以及其中所述第一关系与所述第一组关系强度中的第一关系强度相关联。
9.按照权利要求8所述的系统,其中所述第一模式中的所述第一概念语义值是所述第一关系强度的函数,并且是所述第一模式中的所述第二语义权重的另一个函数,其中所述第二语义权重是所述第二概念强度的函数,其中所述第二语义权重是所述多个关系强度中的一组第二概念关系强度的另一个函数,以及其中所述一组第二概念强度中的关系强度与所述第二概念和所述第三概念之间的关系相关联。
10.按照权利要求7所述的系统,其中所述多个关系中的第一链关系使所述第一概念与所述第二概念相关,其中所述第一链关系包括所述多个关系的第一组链接关系,其中所述第一组链接关系与多个关系长度中的第一组链接关系长度相关联,其中所述第一组链接关系中的第一链接关系与所述第一组链接关系长度中的第一链接关系长度相关联,以及其中所述多个关系强度中的第一链关系强度是所述第一组链接关系长度的反函数。
11.按照权利要求10所述的系统,其中所述多个关系中使所述一组一般概念中的一对等同概念相关的关系与所述多个关系长度中的零长度或零关系长度相关联。
12.按照权利要求7所述的系统,其中所述识别所述第一模式的第一相对相关性包括:
所述处理器把所述概念查询标示成p维坐标系中的第一点,另外把所述第一模式标示成所述p维坐标系中的第二点,其中所述p维坐标系的一个轴与所述一组被查询概念中的一个概念相关联;
所述处理器生成从p维坐标系的原点到所述第一点的第一p维张量;
所述处理器生成从p维坐标系的原点到所述第二点的第二p维张量;和
作为从以下一组中选择的参数的函数,所述处理器识别所述第一模式的所述第一相对相关性:所述第一点和所述第二点之间的p维距离,所述概念查询内的所述第一概念语义值和所述第一概念权重的乘积,和所述第一p维张量和所述第二p维张量的标量积,其中所述第一概念语义值与所述第一概念相关联。
13.一种支持计算机基础结构的方法,所述方法包括对于把计算机可读程序代码创建、集成、托管、保持和/或部署到计算机系统中的至少一种提供至少一种支持服务,其中与所述计算机系统结合的程序代码被配置成实现排列对于概念查询的回答的方法,所述方法包括:
计算机系统的处理器接收概念查询,其中所述查询包括一组一般概念中的一组被查询概念;
所述处理器接收一组语义模式,其中所述一组语义模式包括所述一组被查询概念中的接收的概念子集以及还包括多个关系,其中所述多个关系中的一个关系使所述一组一般概念中的两个或者更多的概念相关,其中所述一组语义模式中的第一模式包含所述接收的概念子集中的第一概念子集、所述一组一般概念中的第二概念、所述一组一般概念中的第三概念、和所述多个关系中的第一组关系,其中所述第一概念子集包括所述接收的概念子集中的第一概念,其中所述第一组关系中的第一关系使所述第一概念与所述第二概念相关,其中所述第一关系与多个关系强度中的第一关系强度相关联,其中所述第一概念与一组概念权重中的所述概念查询内的第一概念权重相关联,其中所述第二概念与一组概念强度中的第二概念强度相关联,以及其中所述第二概念与一组语义权重中的所述第一模式中的第二语义权重相关联;
作为所述第一概念子集的函数以及所述第一组关系的另一个函数,所述处理器识别所述第一模式对于所述查询的第一语义值;
作为所述第一模式对于所述查询的所述第一语义值的函数,所述处理器识别所述第一模式对于所述查询的第一相对相关性;和
作为所述第一相对相关性的函数,所述处理器排列所述一组语义模式之中的所述第一模式。
14.按照权利要求13所述的方法,其中所述识别所述第一模式对于所述查询的第一语义值是多组概念语义值的在所述第一模式内的第一组概念语义值的另一个函数,以及其中所述第一概念与所述第一组概念语义值的在所述第一模式中的第一概念语义值相关联,以及其中所述识别所述第一模式对于所述查询的第一语义值是所述多个关系强度的在所述第一模式内的第一组关系强度的另一个函数,以及其中所述第一关系与所述第一组关系强度中的第一关系强度相关联。
15.按照权利要求14所述的方法,其中所述第一模式中的所述第一概念语义值是所述第一关系强度的函数,并且是所述第一模式中的所述第二语义权重的另一个函数,其中所述第二语义权重是所述第二概念强度的函数,其中所述第二语义权重是所述多个关系强度中的一组第二概念关系强度的另一个函数,以及其中所述一组第二概念强度中的关系强度与所述第二概念和所述第三概念之间的关系相关联。
16.按照权利要求13所述的方法,其中所述多个关系中的第一链关系使所述第一概念与所述第二概念相关,其中所述第一链关系包括所述多个关系的第一组链接关系,其中所述第一组链接关系与多个关系长度中的第一组链接关系长度相关联,其中所述第一组链接关系中的第一链接关系与所述第一组链接关系长度中的第一链接关系长度相关联,以及其中所述多个关系强度中的第一链关系强度是所述第一组链接关系长度的反函数。
17.按照权利要求16所述的方法,其中所述多个关系中使所述一组一般概念中的一对等同概念相关的关系与所述多个关系长度中的零长度或零关系长度相关联。
18.按照权利要求13所述的方法,其中所述识别所述第一模式的第一相对相关性包括以下步骤:
所述处理器把所述概念查询标示成p维坐标系中的第一点,另外把所述第一模式标示成所述p维坐标系中的第二点,其中所述p维坐标系的一个轴与所述一组被查询概念中的一个概念相关联;
所述处理器生成从p维坐标系的原点到所述第一点的第一p维张量;
所述处理器生成从p维坐标系的原点到所述第二点的第二p维张量;和
作为从以下一组中选择的参数的函数,所述处理器识别所述第一模式的所述第一相对相关性:所述第一点和所述第二点之间的p维距离,所述概念查询内的所述第一概念语义值和所述第一概念权重的乘积,和所述第一p维张量和所述第二p维张量的标量积,其中所述第一概念语义值与所述第一概念相关联。
CN201310426029.1A 2012-09-19 2013-09-18 排列对于概念查询的回答的系统和方法 Active CN103678466B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/622,439 US8898154B2 (en) 2012-09-19 2012-09-19 Ranking answers to a conceptual query
US13/622,439 2012-09-19

Publications (2)

Publication Number Publication Date
CN103678466A true CN103678466A (zh) 2014-03-26
CN103678466B CN103678466B (zh) 2017-03-01

Family

ID=50275537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310426029.1A Active CN103678466B (zh) 2012-09-19 2013-09-18 排列对于概念查询的回答的系统和方法

Country Status (2)

Country Link
US (2) US8898154B2 (zh)
CN (1) CN103678466B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885635A (zh) * 2016-04-28 2018-11-23 微软技术许可有限责任公司 分层声明式转换的分布式执行
CN111949779A (zh) * 2020-07-29 2020-11-17 交控科技股份有限公司 基于知识图谱的轨道交通智能应答方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201929B1 (en) * 2013-08-09 2015-12-01 Google, Inc. Ranking a search result document based on data usage to load the search result document
US9836528B1 (en) * 2015-07-20 2017-12-05 Google Inc. Data constrained resource access
CN118013026B (zh) * 2024-04-10 2024-06-11 深圳希施玛数据科技有限公司 查询结果显示方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236987B1 (en) * 1998-04-03 2001-05-22 Damon Horowitz Dynamic content organization in information retrieval systems
US20080046422A1 (en) * 2005-01-18 2008-02-21 International Business Machines Corporation System and Method for Planning and Generating Queries for Multi-Dimensional Analysis using Domain Models and Data Federation
CN101136028A (zh) * 2006-07-10 2008-03-05 日电(中国)有限公司 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN101482875A (zh) * 2008-12-24 2009-07-15 中国移动通信集团北京有限公司 信息查询方法及其装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US20090254510A1 (en) * 2006-07-27 2009-10-08 Nosa Omoigui Information nervous system
JP3882048B2 (ja) * 2003-10-17 2007-02-14 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
US7716216B1 (en) 2004-03-31 2010-05-11 Google Inc. Document ranking based on semantic distance between terms in a document
US7328209B2 (en) 2004-08-11 2008-02-05 Oracle International Corporation System for ontology-based semantic matching in a relational database system
US7516123B2 (en) 2005-04-14 2009-04-07 International Business Machines Corporation Page rank for the semantic web query
EP1758026A1 (en) 2005-08-25 2007-02-28 Siemens Aktiengesellschaft Computer-based method of mesuring the usability of a web site
US7555472B2 (en) 2005-09-02 2009-06-30 The Board Of Trustees Of The University Of Illinois Identifying conceptual gaps in a knowledge base
WO2007038713A2 (en) 2005-09-28 2007-04-05 Epacris Inc. Search engine determining results based on probabilistic scoring of relevance
US7836050B2 (en) 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US8463810B1 (en) * 2006-06-01 2013-06-11 Monster Worldwide, Inc. Scoring concepts for contextual personalized information retrieval
NZ578672A (en) * 2006-12-29 2012-08-31 Thomson Reuters Glo Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
US8122016B1 (en) * 2007-04-24 2012-02-21 Wal-Mart Stores, Inc. Determining concepts associated with a query
US7974974B2 (en) 2008-03-20 2011-07-05 Microsoft Corporation Techniques to perform relative ranking for search results
KR100963623B1 (ko) 2008-04-23 2010-06-15 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
US20100114878A1 (en) 2008-10-22 2010-05-06 Yumao Lu Selective term weighting for web search based on automatic semantic parsing
US8156142B2 (en) 2008-12-22 2012-04-10 Sap Ag Semantically weighted searching in a governed corpus of terms
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8402018B2 (en) 2010-02-12 2013-03-19 Korea Advanced Institute Of Science And Technology Semantic search system using semantic ranking scheme
US20110295847A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Concept interface for search engines
US8775442B2 (en) * 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236987B1 (en) * 1998-04-03 2001-05-22 Damon Horowitz Dynamic content organization in information retrieval systems
US20080046422A1 (en) * 2005-01-18 2008-02-21 International Business Machines Corporation System and Method for Planning and Generating Queries for Multi-Dimensional Analysis using Domain Models and Data Federation
CN101136028A (zh) * 2006-07-10 2008-03-05 日电(中国)有限公司 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN101482875A (zh) * 2008-12-24 2009-07-15 中国移动通信集团北京有限公司 信息查询方法及其装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885635A (zh) * 2016-04-28 2018-11-23 微软技术许可有限责任公司 分层声明式转换的分布式执行
CN111949779A (zh) * 2020-07-29 2020-11-17 交控科技股份有限公司 基于知识图谱的轨道交通智能应答方法及系统

Also Published As

Publication number Publication date
US20140081958A1 (en) 2014-03-20
CN103678466B (zh) 2017-03-01
US8892548B2 (en) 2014-11-18
US8898154B2 (en) 2014-11-25
US20140214787A1 (en) 2014-07-31

Similar Documents

Publication Publication Date Title
US7974974B2 (en) Techniques to perform relative ranking for search results
US20110282861A1 (en) Extracting higher-order knowledge from structured data
US8255391B2 (en) System and method for generating an approximation of a search engine ranking algorithm
CN101681377B (zh) 用于搜索的用户定义的相关性排序
CN102053983B (zh) 一种垂直搜索的查询方法、系统和装置
AU2015246095B2 (en) Combinatorial business intelligence
CN103678466A (zh) 排列对于概念查询的回答的系统和方法
CN102597991A (zh) 文档分析与关联系统及方法
WO2001037134A1 (en) Method for searching from a plurality of data sources
CN101887436A (zh) 一种检索方法、装置和系统
US20090240670A1 (en) Uniform resource identifier alignment
US20120143792A1 (en) Page selection for indexing
US10558707B2 (en) Method for discovering relevant concepts in a semantic graph of concepts
CN107861981A (zh) 一种数据处理方法及装置
CN102486781A (zh) 一种搜索排序方法和装置
CN105069077A (zh) 搜索方法及装置
CN110738049A (zh) 相似文本的处理方法、装置及计算机可读存储介质
CN115640458A (zh) 一种遥感卫星资讯推荐方法、系统及设备
CA3051919C (en) Machine learning (ml) based expansion of a data set
CN104778233A (zh) 一种基于点击量的搜索方法和装置
CN105468680A (zh) 一种数据检索方法和装置
CN115080616A (zh) 字典数据获取方法、装置、存储介质及电子设备
Horiuchi et al. JupySim: Jupyter Notebook Similarity Search System.
Milenkovic et al. Enabling knowledge management in complex industrial processes using semantic web technology
Radio et al. Manifestations of metadata structures in research datasets and their ontic implications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211209

Address after: USA New York

Patentee after: Qindarui Co.

Address before: USA New York

Patentee before: International Business Machines Corp.

TR01 Transfer of patent right