CN102439592A - 利用本体按照相关度对记录排序 - Google Patents

利用本体按照相关度对记录排序 Download PDF

Info

Publication number
CN102439592A
CN102439592A CN2010800145922A CN201080014592A CN102439592A CN 102439592 A CN102439592 A CN 102439592A CN 2010800145922 A CN2010800145922 A CN 2010800145922A CN 201080014592 A CN201080014592 A CN 201080014592A CN 102439592 A CN102439592 A CN 102439592A
Authority
CN
China
Prior art keywords
phrase
result
group
given
search inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800145922A
Other languages
English (en)
Inventor
S.查克拉巴蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN102439592A publication Critical patent/CN102439592A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于预定的领域本体并按相关度的次序检索记录的方法。在预定的领域本体的基础上,确定所执行搜索的各结果的相关度。本发明的方法包括:获得包含一个或多个短语的搜索查询,作为来自用户的输入。然后,基于输入的搜索查询,从给定的一组记录检索出一组结果。本发明的方法还包括:基于领域本体,计算并赋予与所述一组结果的各结果相对应的紧密度参数。最后,通过按升序对所述一组结果中存在的各记录的紧密度参数进行排序,而按相关度的次序显示所述一组结果。

Description

利用本体按照相关度对记录排序
技术领域
本发明总体上涉及一种用于搜索记录的方法,更具体地,本发明涉及一种利用搜索查询(search query)来搜索数据库中的一组结果并且利用预定的领域本体(domain ontology)按相关度的次序显示所述结果的方法。
背景技术
信息是任何大或小的组织的最重要的财产。对存储的信息进行管理是全世界各组织正面临的最大挑战之一。辛苦地读完庞大的数据库并获取与用户查询最相关的记录的问题,具有很大的优先级。在汽车工业中这个问题具有同等的相关度(relevance)。在汽车工业中,作为高效的数据检索系统,搜索引擎几乎已变得必不可少。目前可利用的搜索引擎大部分是匹配引擎(matching engine),匹配引擎将用户搜索查询的词与数据库中可利用的数据进行匹配并在此匹配的基础上获取记录。然而,仅有少数的使用用于数据挖掘的其它逻辑的搜索引擎。此外,目前搜索引擎中的一些搜索引擎,甚至不能按记录与查询中键入内容之间的相关度的次序来显示检索出的记录。这有时会导致用户漏掉最相关的记录中的一些记录,因为任何用户的注意广度是有限的。因此,需要开发出用于数据检索系统的更好的策略,所述数据检索系统基于检索记录与键入的查询内容之间的相关度来显示检索记录,因为这样节省用户的时间和工作量。
搜索引擎通常使用基于词或基于字符的搜索。然而,在检索并显示搜索查询的结果时,搜索引擎仅偏向于查询内容在文献中出现的数量,但却不偏向于领域或者查询内容与该领域的紧密度。
在其它现有的用于特定领域(如汽车)的搜索策略或搜索引擎中,采用基于非本体的方法。在这种方法中,搜索查询的结果的相关度受到它与用户感兴趣领域的紧密度的影响,但该紧密度只是在结果中所包含文本的基础上而不是在结果中所包含概念的基础上所决定的。
发明内容
根据本发明的教导,公开了一种基于领域本体来检索搜索查询的结果的方法,该方法在按相关度的次序显示一组结果中具有特定应用,其中根据领域本体来决定各结果的相关度。在此方法中,要被显示的一组结果是在搜索查询的基础上而获得的。搜索查询是由用户输入并且包含一个或多个短语(phrase),其中各短语是由至少一个词所组成。该方法包括从搜索查询的一个或多个短语中选择第一组短语,使得第一组短语的各短语存在于预定的领域本体中。该方法还包括从给定的一组记录中检索出要被显示的一组结果,使得搜索查询的至少一个短语存在于各结果中。此外,获得与所述一组结果的各结果相对应的第二组短语,使得第二组短语的各短语存在于预定的领域本体以及所述一组结果的各结果中。然后,在与所述一组结果的各结果相对应的第二组短语的各短语和所述一组短语的各短语之间的预定关系的基础上,获得与所述一组结果的各结果相对应的紧密度参数,其中所述预定关系是基于预定的领域本体。最后,按相关度的次序显示所述一组结果,其中所述一组结果的各结果的相关度是基于所述一组结果的各结果的紧密度参数。
根据下面的描述和所附权利要求并结合附图,本发明的其它特征将变得显而易见。
附图说明
图1是显示按照利用本体所确定的相关度的次序来显示搜索查询的结果的方法的流程图。
图2是显示用于确定图1中所示流程图中的记录等级的过程的流程图。
图3示出领域本体的实例并且显示拓扑的一部分。
图4是说明利用本体来应对搜索查询的系统的方框图。
具体实施方式
以下对涉及基于领域本体并按相关度次序来检索记录的方法的本发明实施例的描述,在本质上仅仅是示例性的,而绝不是意图限制本发明或者其应用或用途。例如,本发明的基于领域本体并按相关度的次序检索记录的方法,在客户友好型保证数据库(warranty database)中或者在包含制造单元中出现的事件的历史的数据库中具有特定应用。然而,正如本领域技术人员将会理解的,基于领域本体并按相关度的次序检索记录的方法可具有其它应用。
图1是说明利用本体来决定搜索查询的结果相关度的方法的流程图10。该方法始于椭圆形框12。在方框14,将来自用户的搜索查询、领域本体以及一组记录或数据库(在下文中可互换地使用)输入从而执行搜索。本体通常表示在某一领域内的一组概念以及这些概念之间的关系。领域本体使特定领域模型化,并且解释当术语应用于该领域时该术语的含义。所述领域可以从一个或多个领域(如汽车、计算机、嵌入式系统和机械电子学)中选择,但并不局限于这些单独的领域。特定领域的主题专家通常是领域本体的设计者。本体的设计包括建立存在于该领域中的各种概念之间的关系。在所考虑的本体中,对于各关系,主题专家还规定显示关系紧密度的正整数值(值越小,关系越紧密)。通常,创建本体的任务包括从该领域中取出相关的元素或短语并通过给两个短语赋值而建立这两个短语之间的关系。
领域专家继续取出短语并利用这些短语的紧密度来建立短语之间关系的此过程,由此将所有短语相互连接而形成拓扑并因此形成本体。拓扑可以呈现多种形式,最常见的是清楚表示各元素(亦即各短语)之间关系的树形结构。此外,每当新短语出现时,可以对本体进行更新也可以进行扩展。因此证明,如果将本体的这些特征整合入搜索算法则是有益的。在方框14由用户所给予的搜索查询中包含一个或多个短语。
在决定菱形框16,算法确定查询是否不包含来自本体的短语,如果结果为肯定,那么在方框18算法进行检索并显示记录。如果在决定菱形框16确定查询确实包含来自本体的短语,那么在方框20算法检索记录然后在决定菱形框22确定记录是否再次不包含来自本体的短语。如果在决定菱形框22确定记录不包含来自本体的短语,那么在方框24算法将记录放置于集合SO中,否则在方框26算法将记录放置于集合S1中。然后,在决定菱形框28算法确定是否存在任何更多的记录,如果存在,那么算法返回至方框20以检索更多的记录。否则,在决定菱形框30算法确定集合S1是否为空,如果集合S1不是空的,那么在方框32算法确定记录的等级。
图2是显示在方框32确定记录等级的过程的流程图34,该过程始于椭圆形框36并在方框38设定变量D=0。然后,在方框40算法获取一对短语p1和p2,其中p1属于查询而p2属于记录。然后,在方框42算法基于本体而找到短语p1与p2之间的距离,在方框44设定D=D+短语p1与p2之间的距离。然后,在决定菱形框46算法确定算法是否已到达短语对的结束,如果结果为否,那么算法返回至方框40以获取下一对短语p1和p2。如果在决定菱形框46算法确定短语对已结束,那么在方框48算法将“短语对的数量”的等级确定为“D/短语对的数量”。
返回至图1,在方框32的算法确定记录的等级之后,在方框50算法利用等级对集合S1进行排序并且在方框52显示集合S1。如果在决定菱形框30集合S1是空的并且在显示集合S1之后,在方框54显示集合S0。
图3是属于汽车领域的本体的小区段60,小区段60显示词“门”与其它短语或与“门”相关的词之间的拓扑互连。区段60显示了一个示例性场景,其中,用户输入由包含单个词“门”的短语所组成的搜索查询从而在属于汽车领域的一组记录中搜索。首先,从所述一组记录中检索出包含词“门”的结果并将该结果放置于结果集中。现在,在领域本体中搜索词“门”。图中显示词“门”与两个术语即“间隙”和“支柱”共享预定的关系。“间隙”和“支柱”在拓扑中则转而连接到“A-间隙”和“A-支柱”。如此创建的结果集中包含两个结果:其中存在有短语“A-间隙”的结果1、和其中存在有短语“A-支柱”的结果2。第二组短语是由结果1和结果2而获得,并且这些短语应当存在于领域本体中。由结果1获得的短语将是“A-间隙”,由结果2获得的短语将是“A-支柱”。
将在最终结果集中显示这些记录所遵循的相关度次序,取决于赋予给这些记录的紧密度参数。按图1中所示方式,计算紧密度参数。计算出的“门”与“A-间隙”(第1对)以及“门”与“A-支柱”(第2对)之间的最短距离分别为3和5。在这种情况下,紧密度参数等于最短距离,因为搜索查询是由包含单个词的一个短语所组成而不是由多个短语所组成。现在,按结果的紧密度参数的升序对这两个结果进行排序,并且将所述两个结果显示给用户。可以看出,包含短语“A-间隙”的结果的相关度更大,并且将包含短语“A-间隙”的结果列在包含短语“A-支柱”的结果的前面。
图4是说明利用本体来应对搜索查询的系统70的方框图。图中显示系统70包括用于接收搜索查询的用户界面72。搜索查询如图1中所示。然后,将搜索查询输入搜索模块74。搜索模块74进一步连接到数据库76,数据库76包含属于系统70所应用领域的一组记录。搜索模块74接收来自用户界面72的搜索查询,并从数据库76中所包含记录中选择出一组结果。利用图1中所示过程对结果进行选择。搜索模块74进一步基于各结果的紧密度参数并按相关度的次序对所选择结果进行排序。对结果进行排序的过程如图1中所示。在一个实施例中,搜索模块74用于利用图1中所示过程来计算各结果的紧密度参数。最后,经用户界面72按相关度的次序显示所述一组结果。
本发明的各种实施例提供一个或多个优点。本发明提供一种利用本体来搜索结果并按相关度的次序显示这些结果的方法。该方法采用独特的搜索策略进行搜索并在相关度较低的记录前面列出相关度较高的记录,并且确保不会由于用户有限的注意广度而漏掉相关的结果。
前面的描述仅仅公开并描述了本发明的示例性实施例。根据上述描述以及附图和权利要求,本领域技术人员将容易地认识到,在不脱离所附权利要求中所限定本发明精神和范围的前提下可以在其中做出各种变化、修改和变型。

Claims (20)

1.一种按相关度的次序显示搜索查询的一组结果的方法,其中,所述一组结果选自给定的一组记录,其中,所述给定的一组记录属于一个领域,其中,所述领域具有预定的领域本体,其中,所述搜索查询以一个或多个短语的形式而被输入,其中,所述一个或多个短语的各短语由至少一个词所组成,所述方法包括:
从所述搜索查询的一个或多个短语中选择第一组短语,其中,所述第一组短语的各短语存在于所述预定的领域本体中;
从所述给定的一组记录中检索出所述一组结果,其中,所述搜索查询的一个或多个短语的至少一个短语存在于所述一组结果的各结果中;
获得与所述一组结果的各结果相对应的第二组短语,其中,所述第二组短语的各短语存在于所述预定的领域本体以及所述一组结果的各结果中;
获得与所述一组结果的各结果相对应的紧密度参数,其中,在与所述一组结果的各结果相对应的第二组短语的各短语和所述第一组短语的各短语之间的预定关系的基础上,获得所述紧密度参数,其中,所述预定关系是基于所述预定的领域本体;以及
按照相关度的次序显示所述一组结果,其中,所述相关度的次序是基于所述一组结果的各结果的紧密度参数。
2.如权利要求1所述的方法,其中,所述领域能够从包括但不限于汽车、计算机、嵌入式系统和机械电子学的组中选择。
3.如权利要求1所述的方法,其中,在给定的拓扑中将所述领域本体的所有短语彼此相互连接,其中,在各预定关系的基础上建立所述拓扑。
4.如权利要求3所述的方法,其中,在所述拓扑中相互连接的给定的一对短语之间的预定关系由正整数表示,其中,所述正整数由领域专家赋予。
5.如权利要求3所述的方法,其中,较小的正整数表示在所述给定的一对短语之间的更紧密关系。
6.如权利要求3所述的方法,其中,所述拓扑能够采用树的形式。
7.如权利要求4所述的方法,其中,从所述给定的一对短语的第一短语穿到第二短语时发现的所有正整数的总和,被认为是所述给定的一对短语之间的最短距离。
8.如权利要求1所述的方法,其中,与所述一组结果的各结果相对应的紧密度参数是各对短语之间的最短距离的平均值,所述各对短语是通过从所述第一组短语中取出一个短语并从与所述一组结果的各结果相对应的所述第二组短语中取出另一个短语而形成的。
9.如权利要求1所述的方法,其中,通过按所述紧密度参数的升序对所述一组结果进行排序,而按照相关度的次序显示所述一组结果。
10.如权利要求1所述的方法,其中,所述给定的一组记录是数据库。
11.一种应对搜索查询的系统,所述系统能够用于一个领域中,所述领域具有预定的领域本体,其中,所述搜索查询包含一个或多个短语,所述一个或多个短语的各短语由至少一个词所组成,所述系统包括:
用于获得所述搜索查询的用户界面;
包含属于所述领域的一组记录的数据库;以及
搜索模块,用来基于所述搜索查询从所述数据库所包含的所述一组记录中检索出一组结果,其中,所述搜索模块按相关度的次序对结果进行排序,所述相关度的次序是基于与所述一组结果的各结果相对应的紧密度参数,其中,与结果相对应的紧密度参数基于所述预定的领域本体而计算出,其中,经所述用户界面按相关度的次序显示所述一组结果。
12.如权利要求11所述的系统,其中,所述领域本体包含在给定的拓扑中彼此相互连接的短语,其中,根据各预定关系建立所述拓扑。
13.如权利要求12所述的系统,其中,在所述拓扑中相互连接的给定的一对短语之间的预定关系由领域专家赋予,其中,所述预定关系由正整数表示。
14.如权利要求12所述的系统,其中,较小的正整数表示在所述给定的一对短语之间的更紧密关系。
15.如权利要求12所述的系统,其中,所述拓扑能够采用树的形式。
16.如权利要求15所述的系统,其中,从所述给定的一对短语的第一短语穿到第二短语时所发现的所有正整数的总和,被认为是所述给定的一对短语之间的最短距离。
17.如权利要求15所述的系统,其中,与所述一组结果的各结果相对应的紧密度参数是各对短语之间的最短距离的平均值,所述各对短语是通过从所述搜索查询所包含的第一组短语中取出一个短语并从与所述一组结果的各结果相对应的第二组短语中取出另一个短语而形成的。
18.如权利要求11所述的系统,其中,通过按升序对所述一组结果中所包含结果的紧密度参数进行排列,而对所述一组结果进行排序。
19.如权利要求11所述的系统,其中,所述紧密度参数由所述搜索模块计算出。
20.一种应对搜索查询的方法,所述方法能够用于一个领域中,所述领域具有预定的领域本体,其中,所述搜索查询包含一个或多个短语,所述一个或多个短语的各短语由至少一个词所组成,所述方法包括:
从所述搜索查询的所述一个或多个短语中选择第一组短语,其中,所述第一组短语的各短语存在于所述预定的领域本体中;
从数据库中检索出所述一组结果,其中,所述搜索查询的所述一个或多个短语中的至少一个短语存在于所述一组结果的各结果中;
获得与所述一组结果的各结果相对应的第二组短语,其中,所述第二组短语的各短语存在于所述预定的领域本体以及所述一组结果的各结果中;
获得与所述一组结果的各结果相对应的紧密度参数,其中,在与所述一组结果的各结果相对应的第二组短语的各短语和所述第一组短语的各短语之间预定关系的基础上获得所述紧密度参数,其中,所述预定关系是基于所述预定的领域本体;以及
按照所述相关度的次序显示所述一组结果,其中,所述相关度的次序是基于所述一组结果的各结果的紧密度参数。
CN2010800145922A 2009-03-30 2010-03-23 利用本体按照相关度对记录排序 Pending CN102439592A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/414,399 US20100250522A1 (en) 2009-03-30 2009-03-30 Using ontology to order records by relevance
US12/414399 2009-03-30
PCT/US2010/028294 WO2010117617A2 (en) 2009-03-30 2010-03-23 Using ontology to order records by relevance

Publications (1)

Publication Number Publication Date
CN102439592A true CN102439592A (zh) 2012-05-02

Family

ID=42785497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800145922A Pending CN102439592A (zh) 2009-03-30 2010-03-23 利用本体按照相关度对记录排序

Country Status (4)

Country Link
US (1) US20100250522A1 (zh)
CN (1) CN102439592A (zh)
DE (1) DE112010002620T5 (zh)
WO (1) WO2010117617A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903179A (zh) * 2012-12-27 2014-07-02 冲电气工业株式会社 汇兑系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429179B1 (en) 2009-12-16 2013-04-23 Board Of Regents, The University Of Texas System Method and system for ontology driven data collection and processing
KR20120052636A (ko) * 2010-11-16 2012-05-24 한국전자통신연구원 온톨로지 기반의 품목분류코드 추천 시스템 및 방법
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
US9898447B2 (en) * 2015-06-22 2018-02-20 International Business Machines Corporation Domain specific representation of document text for accelerated natural language processing
US20180137424A1 (en) * 2016-11-17 2018-05-17 General Electric Company Methods and systems for identifying gaps in predictive model ontology
US10325021B2 (en) 2017-06-19 2019-06-18 GM Global Technology Operations LLC Phrase extraction text analysis method and system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047632A1 (en) * 2004-08-12 2006-03-02 Guoming Zhang Method using ontology and user query processing to solve inventor problems and user problems
WO2007113546A1 (en) * 2006-04-03 2007-10-11 British Telecommunications Public Limited Company Ranking of entities associated with stored content
CN101128818A (zh) * 2004-12-29 2008-02-20 奥尔有限公司 向信息源路由查询以及对查询结果进行分类和筛选
US20080091633A1 (en) * 2004-11-03 2008-04-17 Microsoft Corporation Domain knowledge-assisted information processing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6789758B2 (en) * 2001-09-07 2004-09-14 Web Industries, Inc. Step-wound package of tape
CA2592577A1 (en) * 2004-12-29 2006-07-06 America Online, Inc. Routing queries to information sources and sorting and filtering query results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047632A1 (en) * 2004-08-12 2006-03-02 Guoming Zhang Method using ontology and user query processing to solve inventor problems and user problems
US20080091633A1 (en) * 2004-11-03 2008-04-17 Microsoft Corporation Domain knowledge-assisted information processing
CN101128818A (zh) * 2004-12-29 2008-02-20 奥尔有限公司 向信息源路由查询以及对查询结果进行分类和筛选
WO2007113546A1 (en) * 2006-04-03 2007-10-11 British Telecommunications Public Limited Company Ranking of entities associated with stored content

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903179A (zh) * 2012-12-27 2014-07-02 冲电气工业株式会社 汇兑系统

Also Published As

Publication number Publication date
US20100250522A1 (en) 2010-09-30
WO2010117617A2 (en) 2010-10-14
WO2010117617A3 (en) 2011-02-03
DE112010002620T5 (de) 2012-08-23

Similar Documents

Publication Publication Date Title
CN102439592A (zh) 利用本体按照相关度对记录排序
CN102402605B (zh) 用于搜索引擎索引的混合分布模型
US7243092B2 (en) Taxonomy generation for electronic documents
US8706748B2 (en) Methods for enhancing digital search query techniques based on task-oriented user activity
US8117198B2 (en) Methods for generating search engine index enhanced with task-related metadata
CN108520002A (zh) 数据处理方法、服务器及计算机存储介质
US20120084291A1 (en) Applying search queries to content sets
US20090157653A1 (en) Methods for enhancing digital search results based on task-oriented user activity
EP2172853B1 (en) Database index and database for indexing text documents
García-Hernández et al. A new algorithm for fast discovery of maximal sequential patterns in a document collection
CN106777343A (zh) 增量分布式索引系统和方法
WO2015044223A1 (en) Methods and systems for data management and analysis
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
CN102314464B (zh) 歌词搜索方法及搜索引擎
CN103186650A (zh) 一种搜索方法和装置
CN103034709B (zh) 检索结果重排序系统及其方法
CN109670102B (zh) 基于词表模型的用户检索意图判断方法
WO2007120781A2 (en) Systems and methods for performing searches within vertical domains
JP3370787B2 (ja) 文字配列検索方法
WO2010089403A4 (en) Two-valued logic database management system with support for missing information
CN113254600A (zh) 一种数据库检索式自动转换策略
CN110019993B (zh) 一种基于海量标准文献数据的排序优化算法技术实现方法
CN116089599B (zh) 信息查询方法、系统以及存储介质
CN112559517B (zh) 一种内存中关联数据的存取方法与终端
KR100440906B1 (ko) 문서 색인 시스템 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120502