CN103136262A - 信息检索方法及装置 - Google Patents

信息检索方法及装置 Download PDF

Info

Publication number
CN103136262A
CN103136262A CN2011103918647A CN201110391864A CN103136262A CN 103136262 A CN103136262 A CN 103136262A CN 2011103918647 A CN2011103918647 A CN 2011103918647A CN 201110391864 A CN201110391864 A CN 201110391864A CN 103136262 A CN103136262 A CN 103136262A
Authority
CN
China
Prior art keywords
synonym
word
spectrum
attribute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103918647A
Other languages
English (en)
Other versions
CN103136262B (zh
Inventor
申月
金凯民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110391864.7A priority Critical patent/CN103136262B/zh
Priority to TW101103773A priority patent/TWI547815B/zh
Priority to US13/691,268 priority patent/US20130138429A1/en
Priority to PCT/US2012/067411 priority patent/WO2013082506A1/en
Priority to JP2014544948A priority patent/JP6124917B2/ja
Priority to EP12808973.7A priority patent/EP2786275A1/en
Publication of CN103136262A publication Critical patent/CN103136262A/zh
Application granted granted Critical
Publication of CN103136262B publication Critical patent/CN103136262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息检索方法及装置,该方法包括:获取选定类目下的展示信息,从所述展示信息中挖掘同义词对;确定所述同义词对中包含的词的语境谱和属性谱;其中,所述语境谱包括包含的词与其同义词的相关度;所述属性谱包括包含的词的属性以及每个所述属性的属性权重;针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引;当获取到的用户的搜索信息中包含所述同义词对中的词时,使用所述同义词对的共用检索索引进行检索。该方法能够更有效的挖掘到可用的同义词对,提高搜索引擎的检索效率。

Description

信息检索方法及装置
技术领域
本申请涉及网络技术领域,尤指一种信息检索方法及装置。
背景技术
关键词检索是目前大多数搜索引擎主要的检索手段,由于多数搜索引擎对检索时使用的关键词不加控制,导致检索效率非常低。同义词作为关键词中的重要的一类,可以通过挖掘同义词来优化搜索引擎的检索效率。
传统的同义词挖掘采用的是文本挖掘或者模式匹配的方式。文本挖掘采用文本相似性算法,例如编辑距离等,并结合丰富的同义词词典进行筛选和匹配;模式匹配利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法识别和挖掘同义词。这两种方法能够挖掘出全局意义下的同义词,例如:可以挖掘出诺基亚与Nokia是同义词;但是,却不能挖掘出特定意义下的同义词,例如:Nokia手机的三个型号5800、5230和5233在全局意义上不是同义词,但在现实生活中,这三款型号的手机套是可以通用;又例如:苹果是一种水果,iphone是一个手机品牌,两者毫无关联,若限定在手机类目下,苹果与iphone均为手机的一个品牌,是一对同义词。
因此,现有技术的同义词挖掘方法仅仅能够挖掘出全局意义下的同义词,无法挖掘出特定语境下的同义词;而且现有的同义词挖掘方法所考虑的因素较少,挖掘的同义词不能结合上下文语境很好的反映用户搜索意图,导致挖掘的同义词存在歧义或不能有效的挖掘到可共用的同义词,这都会影响搜索引擎的检索效率。
发明内容
本申请实施例提供一种信息检索方法及装置,用以解决现有技术中存在的由于不能挖掘出在特定语境下的同义词或挖掘的同义词存在歧义不具有可用性,影响搜索引擎的检索效率的问题。
一种信息检索方法,包括:
获取选定类目下的展示信息,从所述展示信息中挖掘同义词对;
确定所述同义词对中包含的词的语境谱和属性谱;其中,所述语境谱包括包含的词与其同义词的相关度;所述属性谱包括包含的词的属性以及每个所述属性的属性权重;
针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引;
当获取到的用户的搜索信息中包含所述同义词对中的词时,使用所述同义词对的共用检索索引进行检索。
一种信息检索装置,包括:
同义词对获取单元,用于获取选定类目下的展示信息,从所述展示信息中挖掘同义词对;
语境谱获取单元,用于确定所述同义词对中包含的词的语境谱;所述语境谱包括包含的词与其同义词的相关度;
属性谱获取单元,用于确定所述同义词对中包含的词的属性谱;所述属性谱包括包含的词的属性以及每个所述属性的属性权重;
索引建立单元,用于针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引;
检索单元,用于当获取到的用户的搜索信息中包含所述同义词对中的词时,使用所述同义词对的共用检索索引进行检索。
本申请有益效果如下:
本申请实施例提供的信息检索方法及装置,该方案通过在选定类目下挖掘同义词对,根据挖掘的同义词对的语境谱和属性谱计算同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引,当用户的检索信息中包含同义词对中的词时,使用共用检索索引进行检索。由于是在选定类目下挖掘同义词对,就为挖掘出的同义词对是特定语境下的同义词对提供了前提;通过包括包含的词与其同义词的相关度的语境谱和包括包含的词的属性以及每个所述属性的属性权重的属性谱,计算同义词对的综合相关度,能够进一步精确考虑同义词对的相关度;根据实际的需要设定条件,来为满足条件的同义词对设定共用检索索引,这也就避免了现有技术中仅仅能够挖掘出全局意义下的同义词对,而不能挖掘出更多的在特定语境下的同义词对的问题,且通过考虑语境谱和属性谱等各种可能的因素,使挖掘到的同义词对能更好地结合上下文语境反映用户的搜索意图,减少挖掘出的同义词发生歧义的可能性,能够更有效的挖掘到可用的同义词对,提高搜索引擎的检索效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中信息检索系统的结构示意图;
图2为本申请实施例中信息检索方法的流程图;
图3为本申请实施例中使用信息检索方法得到的数据图;
图4为本申请实施例中信息检索装置的结构示意图。
具体实施方式
为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决现有技术中存在的由于不能挖掘出在特定语境下的同义词或挖掘的同义词存在歧义不具有可用性,影响搜索引擎的检索效率的问题,本申请实施例提供的一种信息检索方法,通过如图1所示的信息检索系统实现,该信息检索系统包括信息检索服务器1和客户端2。其中:
客户端2,用于将获得的用户输入的搜索信息提供给信息检索服务器1,以及将信息检索服务器1检索的展示信息展示给用户。
信息检索服务器1获取选定类目下的展示信息,从展示信息中挖掘同义词对;确定挖掘出的同义词对中包含的词的语境谱和属性谱;针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引。当获取到的用户的搜索信息中包含同义词对中的词时,使用同义词对的共用检索索引进行检索。
当信息检索服务器1用于电子商务网站时,展示信息为卖家发布的商品广告信息。
上述信息检索方法的流程如图2所示,包括如下步骤:
S11:获取选定类目下的展示信息,从获取的展示信息中挖掘同义词对。
在现有技术中,仅仅能够挖掘出在全局意义下的同义词对,不能挖掘出特定意义下的同义词对,例如:在全局意义上讲,Nokia手机的两个型号5800和5230并不是同义词;但在实际生活中,这两款型号的手机套是可以共用的;所以在手机套这个特定的语境下,5800和5230应该是同义词。本申请要解决的就是挖掘出特定意义下的同义词对,而获取特定意义下的同义词对,在这里特定语境指的就是选定类目,也就是获取选定类目下的展示信息,是挖掘特定意义下的同义词对的前提条件。类目包括一级类目、叶子类目等等多种。当然也可以选定其他的特定语境,在这里不再赘述。
S12:确定挖掘出的同义词对中包含的词的语境谱和属性谱;其中,语境谱包括包含的词与其同义词的相关度;属性谱包括包含的词的属性以及每个属性的属性权重。
针对挖掘出的选定类目下的展示信息中的同义词对,需要进一步确定这些同义词对中包含的词的语境谱和属性谱,其中,语境谱中包含同义词对中包含的词及其同义词的相关度,例如:在手机这个类目下,展示信息的特征信息中包含Nokia,经过统计与其共同出现的词有手机、诺基亚、n73,那么这三个词及对应的相关度则称为Nokia的语境谱;属性谱中包含同义词对中包含的词的属性以及每个属性的属性权重,例如:在手机这个类目下,展示信息中包含的词为Nokia n73,该词对应的一个属性为品牌:Nokia;另一个属性为型号:n73;那么品牌和型号这两个属性及其属性权重则称为Nokia n73的属性谱。
S13:针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引。
针对挖掘出的每个同义词对,根据同义词对中包含的词的语境谱和属性谱,计算出该同义词对的综合相关度,表征该同义词对的相关程度,也就是同义程度。如图3所示为在选定类目下的同义词对,及其综合相关度的效果图,该图是以手机类目下的同义词对为例进行说明的。其中,第一栏为手机类目下的叶子类目的代号,第二栏和第三栏为同义词对,第四栏为同义词对的综合相关度。
可以根据实际需求和需要设定条件,并为满足条件的同义词对建立一个共用检索索引。设定的条件可以是相关度阈值,将得到的同义词对的综合相关度与相关度阈值进行比较,当同义词对的综合相关度越大,表征同义词对中的两个词同义程度越高时,确定同义词对的综合相关度不小于设定的相关度阈值时,为同义词对建立一个共用检索索引;当同义词对的综合相关度越小,表征同义词对中的两个词同义程度越高时,确定同义词对的综合相关度不大于设定的相关度阈值时,为同义词对建立一个共用检索索引。当然也可以选取其他的设定条件,在这里不再赘述。
S14:当获取到的用户的搜索信息中包含建立了共用检索索引的同义词对中的词时,使用该同义词对的共用检索索引进行检索。
如果用现有的文本挖掘技术来判定,苹果是一种水果,iphone是一个手机品牌,两者毫无关联。也就是说在全局意义上讲,苹果与iphone不能为同义词。若限定在手机类目下,毫无疑问,苹果与iphone均为手机的一个品牌,是一对同义词。而采用S11-S13后,就可以得出手机类目下的苹果与iphone为同义词,搜索引擎可以为手机类目下的苹果和iphone建立一个共用检索索引,当用户通过客户端搜索苹果或者iphone时,只需要检索一个索引,不用再像现有技术一样需要分别对苹果和iphone进行检索。又如:在全局意义上讲,Nokia手机的两个型号5800和5230不是同义词,但在实际生活中,这两款型号的手机套是可以共用的,所以在手机套这个类目下,5800和5230应该是同义词,搜索引擎可以为手机套类目下的5800和5230建立一个共用检索索引,当用户通过客户端搜索5800或者5230时,只需要检索一个索引,不用再像现有技术一样需要分别对5800和5230进行检索。通过上述两个例子可以看出,使用共同检索索引进行检索,能够大大提高检索速度。
本申请所采用的信息检索方法,由于是在选定类目下挖掘同义词对,这就为挖掘出的同义词对是特定语境下的同义词对提供了前提;通过包括包含的词与其同义词的相关度的语境谱和包括包含的词的属性以及每个所述属性的属性权重的属性谱,计算同义词对的综合相关度,能够进一步精确考虑同义词对的相关度;根据实际的需要设定条件,来为满足条件的同义词对设定共用检索索引,这也就避免了现有技术中仅仅能够挖掘出全局意义下的同义词对,而不能挖掘出更多的在特定语境下的同义词对的问题,且通过考虑语境谱和属性谱等各种可能的因素,使挖掘到的同义词对能更好地反应用户的搜索意图及上下文语境,减少挖掘的同义词发生歧义的可能性,能够更有效的挖掘到可用的同义词对,提高搜索引擎的检索效率。
下面进一步详细描述上述个步骤。
具体的,上述S11中的从所述展示信息中挖掘同义词对的方法,可以有以下两种方式,下面分别进行说明:
第一种,对获取的选定类目下的展示信息的特征信息以词为单位进行切分;记录切分后的展示信息的特征信息的共现词对及其出现的次数;当切分后的展示信息的特征信息的共现词对出现的次数大于第一设定阈值时,确定切分后的展示信息的特征信息的共现词对为同义词对。
获取选定类目下的展示信息的特征信息可以是标题、价格、描述信息等等,下面以获取选定类目下的展示信息的标题为例进行说明。一个展示信息的标题中包含了对展示的物品的简要明了的描述,标题中常常会有共同出现的词,例如一个标题为“红色雪纺 2011新款 超范吊带裙 吊带连衣裙”,通过切分后得到“吊带裙”与“吊带连衣裙”为同一语义词的重复表示,并分析出标题中的共同出现的词,即共现词,以及这些共现词出现的次数。但是一个标题中的共现词可能是同义词对,也可能是搭配词对,所以可以选取第一设定阈值,当共现词出现的次数不小于第一设定阈值时,确定该共现词为同义词对。
第一设定阈值可以依据实际需要进行选取,如果对同义词对的同义程度要求比较高,可以选取较大的第一设定阈值;反之,可以选取较小的第一设定阈值。
第二种,获取选定类目下的历史搜索信息,对获取的选定类目下的展示信息的特征信息和历史搜索信息以词为单位进行切分;记录切分后的展示信息的特征信息的共现词对及其出现的次数,以及切分后的历史搜索信息的共现词对及其出现的次数;当切分后的展示信息的特征信息的共现词对出现的次数不小于第一设定设定阈值,并且在历史搜索信息中出现的次数不大于第二设定阈值时,确定切分后的展示信息的特征信息的共现词对为同义词对。
在这种方法中,可以通过历史搜索信息来过滤共现词中的搭配词对,得到同义词对。因为展示信息的标题一般是卖家提供的,卖家通常会用很多重复的词语来修饰和描述商品,所以展示信息的标题中的共现词,可能是搭配词对,也可能是同义词对。但是,对于通过客户端进行搜索的用户来说,一般会有明确的意向,因此,用户提供的搜索信息一般简短而明确,不会有冗余信息。用户在检索时,一般不会重复输入表示同样意义的词语。例如,用户在检索雪纺裙的时候,可能会输入“红色雪纺裙”,而不会输入“红色雪纺裙 裙子”。
因此,在展示信息的标题中出现次数较多的共现词,如果在用户的搜索信息中也经常共现,那基本上不会是同义词,因此可挖掘这样的词对:在展示信息的标题中出现很多次,而在用户的搜索信息中出现次数很少的共现词,这就是需要挖掘的同义词对。
基于以上分析,在获取展示信息的标题的同时,可获取用户的历史搜索信息,对获取的选定类目下的展示信息的标题和历史搜索信息以词为单位进行切分;记录切分后的展示信息的标题中的共现词对及其出现的次数,以及切分后的历史搜索信息的共现词对及其出现的次数;当切分后的展示信息的标题的共现词对出现的次数不小于第一设定设定阈值,并且在历史搜索信息中出现的次数不大于第二设定阈值时,确定切分后的展示信息的标题中的共现词对为同义词对。
其中,第一设定阈值的选取与第一种方法中的选取规则是类似的。第二设定阈值可以依据实际需要和需求进行选取,如果对同义词对的同义程度要求比较高,可以选取较小的第二设定阈值;反之,可以选取较大的第二设定阈值。
通过将共现词出现的次数同时与第一设定阈值和第二设定阈值进行比较,就可以过滤出存在搭配关系的共现词对,从而得到同义词对。
上面介绍了从得到的共现词中过滤搭配词对,得到同义词对的两种方法,下面进一步介绍从这些过滤出的同义词对中确定需要的同义词对的方法。
具体的,上述S12中的确定同义词对中的包含的词的语境谱的过程,具体包括:针对挖掘出的每个同义词对中的包含的词,确定包含的词所在的同义词对及所在的同义词出现的次数;根据包含的词所在的每个同义词对出现的次数和从展示信息中挖掘出的同义词对的总数,确定包含的词与所在的同义词对中的同义词的相关度;根据确定的同义词对中的包含的词与所在的同义词对中的同义词的相关度,确定同义词对中的包含的词的语境谱。
找到包含有同一个词的所有同义词对,并确定这些同义词对出现的次数和从展示信息中挖掘出的同义词对的总数,将一个同义词对出现的次数除以从展示信息中挖掘出的同义词对的总数,得到的商值就是该同义词对中的两个词的相关度;进而就可以得到所有同义词对中的两个词的相关度;由于这些同义词对中都包含有一个相同的词,那么就得到了该词与其所有的同义词的相关度,也就得到了该词的语境谱。此处是将一个同义词对出现的次数除以从展示信息中挖掘出的同义词对的总数得到的商值,作为这个同义词对中的两个词的相关度的;当然也可以采用其他的方法得到同义词对中的两个词的相关度,在这里不再赘述。
具体的,得到一个词的属性谱的过程,具体包括:确定同义词对中的一个词的所有属性特征,根据该词的属性特征的个数确定每个属性特征的属性权重,该词的属性特征及其属性权重得到该词的属性谱。例如,对于Nokia n73这个词,一个属性特征为品牌,一个属性特征为型号,一共有两个属性特征;那么品牌、型号这两个属性特征的属性权重分别为0.5,则Nokia n73这个词的属性谱为(品牌0.5,型号0.5)。
具体的,上述S13中的根据同义词对中的包含的词的语境谱和属性谱,得到同义词对的综合相关度,具体包括:根据同义词对中的包含的词的语境谱,获取同义词对中的包含的词的共有同义词以及包含的词与共有同义词的相关度;根据共有同义词以及包含的词与共有同义词的相关度,得到同义词对的语境谱相关度;以及根据同义词对中的包含的词的属性谱,获取同义词对的中包含的词的共有属性以及共有属性在包含的词的属性谱中的属性权重;根据共有属性以及共有属性在包含的词的属性谱中的属性权重,得到同义词对的属性谱相关度;根据同义词对的语境谱相关度和属性谱相关度,得到同义词对的综合相关度。
下面以一个具体实例来说明同义词对的综合相关度的计算过程,以同义词对(A,B)为例进行说明,假设:A的语境谱为(A与C的相关度为S1;A与D的相关度为S2;A与E的相关度为S3),属性谱为(品牌1/3;型号1/3;颜色1/3);B的语境谱为(B与C的相关度为S4;B与D的相关度为S5;B与F的相关度为S6),B的属性谱为(品牌1/2;型号1/2)。
要计算(A,B)的语境谱相关度,首先需要获取A、B的语境谱中的共有同义词以及共有同义词与A、B的相关度,也就是获取共有同义词C分别与A、B的相关度,即S1和S4,共有同义词D分别与A、B的相关度,即S2和S5;则(A,B)语境谱的相关度为
Figure BDA0000114627950000101
此处仅仅是将A、B语境谱中的共有同义词,及其分别与A、B对应的相关度相乘,再分别除以A的语境谱中的所有相关度的平方和的平方根和B的语境谱中的所有相关度的平方和的平方根后得到同义词对(A,B)的语境谱相关度,当然也可以采用其他的方法计算语境谱相关度,在这里不再赘述。
(A,B)的属性谱相关度的计算过程与语境谱的计算过程是类似的,首先需要获取A、B的属性谱中的共有属性以及共有属性在A、B的属性谱中的属性权重,在本例中,也就是获取共有属性--品牌和型号,以及品牌这个属性在A、B的属性谱中的属性权重,即1/3和1/2,型号在A、B的属性谱中的属性权重,即1/3和1/2;则同义词对(A,B)的属性谱相关度为此处仅仅是将A、B属性谱中的共有属性,及其分别在A、B的属性谱中的属性权重相乘,再除以A的属性谱谱中的所有属性权重的平方和的平方根和B的属性谱中的所有属性权重的平方和的平方根后得到同义词对(A,B)的属性谱相关度,当然也可以采用其他的方法计算属性谱相关度,在这里不再赘述。
将同义词对(A,B)的语境谱相关度和属性谱相关度的值相加,就是同义词对(A,B)的综合相关度了。此处仅仅是通过将(A,B)的语境谱相关度和属性谱相关度相加得到(A,B)的综合相关度,当然也可以采用其他方式来获取(A,B)的综合相关度,例如,通过加权等等其他方式来获取。
较优的,上述S11中从展示信息中挖掘同义词对之后,还包括:针对挖掘出的同义词对中包含的词,根据包含的词所在的历史搜索信息的预测类目及其点击次数,确定包含的词的预测类目及其类目权重,得到包括包含的词的预测类目及其类目权重的类目谱;历史搜索信息的预测类目及其点击次数,根据用户点击历史搜索信息对应的搜索结果中的展示信息所属的类目及其各类目的点击次数确定。
获取搜索日志中的历史搜索信息,统计用户点击历史搜索信息对应的搜索结果中的展示信息所属的类目和各类目的点击次数,从而得到历史搜索信息的预测类目及其点击次数。当挖掘出的同义词对中包含的词位于多个历史搜索信息中时,多个历史搜索信息中相同的预测类目作为包含的词的预测类目,该预测类目的点击次数的最大值与用户点击展示信息的总次数的比值作为该类目的类目权重,这样就得到了同义词对中包含的词的类目谱。
上述S13中的根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,具体包括:根据同义词对包含的词的语境谱、属性谱和类目谱,得到同义词对的语境谱相关度、属性谱相关度和类目谱相关度;根据同义词对的语境谱相关度、属性谱相关度和类目谱相关度,得到同义词对的综合相关度。
当得到同义词对中包含的词的类目谱后,就可以根据同义词对包含的词的语境谱、属性谱和类目谱,得到同义词对的语境谱相关度、属性谱相关度和类目谱相关度,然后根据同义词对的语境谱相关度、属性谱相关度和类目谱相关度,得到同义词对的综合相关度。
可以将同义词对的语境谱相关度、属性谱相关度和类目谱相关度相加得到同义词对的综合相关度,也可以通过加权等等其他方式得到同义词对的综合相关度。
具体的,上述根据同义词对中包含的词的类目谱,得到同义词对的类目谱相关度,具体包括:根据同义词对中包含的词的类目谱,获取同义词对中包含的词的共有类目以及共有类目在包含的词的类目谱中的类目权重;根据共有类目以及共有类目在包含的词的类目谱中的类目权重,得到同义词对的类目谱相关度。
计算同义词对的类目谱相关度的方法与属性谱相关度的方法类似,继续沿用上例,以同义词对(A,B)为例进行说明,首先获取同义词对中两个词A、B的类目谱中的共有类目以及共有类目在两个词的类目谱中的类目权重,将共有类目在A、B的类目谱中的类目权重相乘,再除以A的类目谱中的所有类目权重的平方和的平方根和B的类目谱中的所有类目权重的平方和的平方根,即可得到同义词对(A,B)的类目谱相关度,当然也可以采用其他的方法计算属性谱相关度,在这里不再赘述。
基于同一发明构思,本申请实施例还提供的一种信息检索装置,该装置可以设置在如图1所示的信息检索系统中的信息检索服务器中,该装置的结构如图4所示,包括:同义词对获取单元10、语境谱获取单元20、属性谱获取单元30、索引建立单元40和检索单元50。
其中,上述同义词对获取单元10,用于获取选定类目下的展示信息,从展示信息中挖掘同义词对。
上述语境谱获取单元20,用于确定同义词对中包含的词的语境谱;语境谱包括包含的词与其同义词的相关度。
上述属性谱获取单元30,用于确定同义词对中包含的词的属性谱;属性谱包括包含的词的属性以及每个属性的属性权重。
上述索引建立单元40,用于针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引。
上述检索单元50,用于当获取到的用户的搜索信息中包含同义词对中的词时,使用同义词对的共用检索索引进行检索。
具体的,上述同义词对获取单元10,具体用于:对获取的选定类目下的展示信息的特征信息以词为单位进行切分;记录切分后的展示信息的特征信息的共现词对及其出现的次数;当切分后的展示信息的特征信息的共现词对出现的次数大于第一设定阈值时,确定切分后的展示信息的特征信息的共现词对为同义词对;或者获取选定类目下的历史搜索信息,对获取的选定类目下的展示信息的特征信息和历史搜索信息以词为单位进行切分;记录切分后的展示信息的特征信息的共现词对及其出现的次数,以及切分后的历史搜索信息的共现词对及其出现的次数;当切分后的展示信息的特征信息的共现词对出现的次数不小于第一设定设定阈值,并且在历史搜索信息中出现的次数不大于第二设定阈值时,确定切分后的展示信息的特征信息的共现词对为同义词对。
具体的,上述语境谱获取单元20,具体用于:针对挖掘出的每个同义词对中的包含的词,确定包含的词所在的同义词对及所在的同义词出现的次数;根据包含的词所在的每个同义词对出现的次数和从展示信息中挖掘出的同义词对的总数,确定包含的词与所在的同义词对中的同义词的相关度;根据确定的同义词对中的包含的词与所在的同义词对中的同义词的相关度,确定同义词对中的包含的词的语境谱。
具体的,上述索引建立单元40,具体用于:根据同义词对中的包含的词的语境谱,获取同义词对中的包含的词的共有同义词以及包含的词与共有同义词的相关度;根据共有同义词以及包含的词与共有同义词的相关度,得到同义词对的语境谱相关度;根据同义词对中的包含的词的属性谱,获取同义词对的中包含的词的共有属性以及共有属性在包含的词的属性谱中的属性权重;根据共有属性以及共有属性在包含的词的属性谱中的属性权重,得到同义词对的属性谱相关度;根据同义词对的语境谱相关度和属性谱相关度,得到同义词对的综合相关度。
较优的,上述信息检索装置还包括:类目谱获取单元60,用于针对挖掘出的同义词对中的包含的词,根据包含的词所在的历史搜索信息的预测类目及其点击次数,确定包含的词的预测类目及其类目权重,得到包括包含的词的预测类目及其类目权重的类目谱;历史搜索信息的预测类目及其点击次数,根据用户点击历史搜索信息对应的搜索结果中的展示信息所属的类目及其各类目的点击次数确定。
上述索引建立单元40,具体用于:根据同义词对包含的词的语境谱、属性谱和类目谱,得到同义词对的语境谱相关度、属性谱相关度和类目谱相关度;根据同义词对的语境谱相关度、属性谱相关度和类目谱相关度,得到同义词对的综合相关度。
具体的,上述索引建立单元40,具体用于:根据同义词对中包含的词的类目谱,获取同义词对中包含的词的共有类目以及共有类目在包含的词的类目谱中的类目权重;根据共有类目以及共有类目在包含的词的类目谱中的类目权重,得到同义词对的类目谱相关度。
上述说明示出并描述了本申请的优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

1.一种信息检索方法,其特征在于,包括:
获取选定类目下的展示信息,从所述展示信息中挖掘同义词对;
确定所述同义词对中包含的词的语境谱和属性谱;其中,所述语境谱包括包含的词与其同义词的相关度;所述属性谱包括包含的词的属性以及每个所述属性的属性权重;
针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引;
当获取到的用户的搜索信息中包含所述同义词对中的词时,使用所述同义词对的共用检索索引进行检索。
2.如权利要求1所述的方法,其特征在于,所述从所述展示信息中挖掘同义词对,具体包括:
对获取的选定类目下的展示信息的特征信息以词为单位进行切分;记录切分后的所述展示信息的特征信息的共现词对及其出现的次数;当切分后的所述展示信息的特征信息的共现词对出现的次数不小于第一设定阈值时,确定切分后的所述展示信息的特征信息的共现词对为同义词对。
3.如权利要求1所述的方法,其特征在于,所述从所述展示信息中挖掘同义词对,具体包括:
获取所述选定类目下的历史搜索信息,对获取的选定类目下的展示信息的特征信息和历史搜索信息以词为单位进行切分;记录切分后的所述展示信息的特征信息的共现词对及其出现的次数,以及切分后的历史搜索信息的共现词对及其出现的次数;当切分后的所述展示信息的特征信息的共现词对出现的次数不小于第一设定设定阈值,并且在所述历史搜索信息中出现的次数不大于第二设定阈值时,确定切分后的所述展示信息的特征信息的共现词对为同义词对。
4.如权利要求2或3所述的方法,其特征在于,所述确定所述同义词对中的包含的词的语境谱,具体包括:
针对挖掘出的每个所述同义词对中的包含的词,确定所述包含的词所在的同义词对及所在的同义词出现的次数;
根据所述包含的词所在的每个同义词对出现的次数和从所述展示信息中挖掘出的同义词对的总数,确定所述包含的词与所在的同义词对中的同义词的相关度;
根据确定的所述同义词对中的包含的词与所在的同义词对中的同义词的相关度,确定所述同义词对中的包含的词的语境谱。
5.如权利要求1所述的方法,其特征在于,所述根据同义词对中的包含的词的语境谱和属性谱,得到同义词对的综合相关度,具体包括:
根据所述同义词对中的包含的词的语境谱,获取所述同义词对中的包含的词的共有同义词以及所述包含的词与所述共有同义词的相关度;根据所述共有同义词以及所述包含的词与所述共有同义词的相关度,得到所述同义词对的语境谱相关度;以及
根据所述同义词对中的包含的词的属性谱,获取所述同义词对的中包含的词的共有属性以及所述共有属性在所述包含的词的属性谱中的属性权重;根据所述共有属性以及所述共有属性在所述包含的词的属性谱中的属性权重,得到所述同义词对的属性谱相关度;
根据所述同义词对的语境谱相关度和属性谱相关度,得到所述同义词对的综合相关度。
6.如权利要求5所述的方法,其特征在于,所述从所述展示信息中挖掘同义词对之后,还包括:
针对挖掘出的所述同义词对中的包含的词,根据所述包含的词所在的历史搜索信息的预测类目及其点击次数,确定所述包含的词的预测类目及其类目权重,得到包括所述包含的词的预测类目及其类目权重的类目谱;所述历史搜索信息的预测类目及其点击次数,根据用户点击所述历史搜索信息对应的搜索结果中的展示信息所属的类目及其各类目的点击次数确定;
所述根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,具体包括:
根据所述同义词对包含的词的语境谱、属性谱和类目谱,得到所述同义词对的语境谱相关度、属性谱相关度和类目谱相关度;
根据所述同义词对的语境谱相关度、属性谱相关度和类目谱相关度,得到所述同义词对的综合相关度。
7.如权利要求6所述的方法,其特征在于,根据所述同义词对中包含的词的类目谱,得到所述同义词对的类目谱相关度,具体包括:
根据所述同义词对中包含的词的类目谱,获取所述同义词对中包含的词的共有类目以及所述共有类目在所述包含的词的类目谱中的类目权重;
根据所述共有类目以及所述共有类目在所述包含的词的类目谱中的类目权重,得到所述同义词对的类目谱相关度。
8.一种信息检索装置,其特征在于,包括:
同义词对获取单元,用于获取选定类目下的展示信息,从所述展示信息中挖掘同义词对;
语境谱获取单元,用于确定所述同义词对中包含的词的语境谱;所述语境谱包括包含的词与其同义词的相关度;
属性谱获取单元,用于确定所述同义词对中包含的词的属性谱;所述属性谱包括包含的词的属性以及每个所述属性的属性权重;
索引建立单元,用于针对每个同义词对,根据同义词对中包含的词的语境谱和属性谱,得到同义词对的综合相关度,为综合相关度符合设定条件的同义词对建立一个共用检索索引;
检索单元,用于当获取到的用户的搜索信息中包含所述同义词对中的词时,使用所述同义词对的共用检索索引进行检索。
9.如权利要求8所述的装置,其特征在于,所述同义词对获取单元,具体用于:
对获取的选定类目下的展示信息的特征信息以词为单位进行切分;记录切分后的所述展示信息的特征信息的共现词对及其出现的次数;当切分后的所述展示信息的特征信息的共现词对出现的次数大于第一设定阈值时,确定切分后的所述展示信息的特征信息的共现词对为同义词对;或者
获取所述选定类目下的历史搜索信息,对获取的选定类目下的展示信息的特征信息和历史搜索信息以词为单位进行切分;记录切分后的所述展示信息的特征信息的共现词对及其出现的次数,以及切分后的历史搜索信息的共现词对及其出现的次数;当切分后的所述展示信息的特征信息的共现词对出现的次数不小于第一设定设定阈值,并且在所述历史搜索信息中出现的次数不大于第二设定阈值时,确定切分后的所述展示信息的特征信息的共现词对为同义词对。
10.如权利要求9所述的装置,其特征在于,所述语境谱获取单元,具体用于:
针对挖掘出的每个所述同义词对中的包含的词,确定所述包含的词所在的同义词对及所在的同义词出现的次数;根据所述包含的词所在的每个同义词对出现的次数和从所述展示信息中挖掘出的同义词对的总数,确定所述包含的词与所在的同义词对中的同义词的相关度;根据确定的所述同义词对中的包含的词与所在的同义词对中的同义词的相关度,确定所述同义词对中的包含的词的语境谱。
CN201110391864.7A 2011-11-30 2011-11-30 信息检索方法及装置 Active CN103136262B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201110391864.7A CN103136262B (zh) 2011-11-30 2011-11-30 信息检索方法及装置
TW101103773A TWI547815B (zh) 2011-11-30 2012-02-06 Information retrieval method and device
US13/691,268 US20130138429A1 (en) 2011-11-30 2012-11-30 Method and Apparatus for Information Searching
PCT/US2012/067411 WO2013082506A1 (en) 2011-11-30 2012-11-30 Method and apparatus for information searching
JP2014544948A JP6124917B2 (ja) 2011-11-30 2012-11-30 情報検索のための方法および装置
EP12808973.7A EP2786275A1 (en) 2011-11-30 2012-11-30 Method and apparatus for information searching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110391864.7A CN103136262B (zh) 2011-11-30 2011-11-30 信息检索方法及装置

Publications (2)

Publication Number Publication Date
CN103136262A true CN103136262A (zh) 2013-06-05
CN103136262B CN103136262B (zh) 2016-08-24

Family

ID=47470148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110391864.7A Active CN103136262B (zh) 2011-11-30 2011-11-30 信息检索方法及装置

Country Status (6)

Country Link
US (1) US20130138429A1 (zh)
EP (1) EP2786275A1 (zh)
JP (1) JP6124917B2 (zh)
CN (1) CN103136262B (zh)
TW (1) TWI547815B (zh)
WO (1) WO2013082506A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105069086A (zh) * 2015-07-31 2015-11-18 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN109002432A (zh) * 2017-06-07 2018-12-14 北京京东尚科信息技术有限公司 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN110688837A (zh) * 2019-09-27 2020-01-14 北京百度网讯科技有限公司 数据处理的方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ589787A (en) 2010-12-08 2012-03-30 S L I Systems Inc A method for determining relevant search results
EP2916238A4 (en) * 2012-10-19 2016-06-15 Rakuten Inc CORPUS CREATIVE DEVICE, CORPUSED CREATION PROCESS AND CORPUSED CREATING PROGRAM
US10339216B2 (en) 2013-07-26 2019-07-02 Nuance Communications, Inc. Method and apparatus for selecting among competing models in a tool for building natural language understanding models
CN106815265B (zh) * 2015-12-01 2020-07-03 北京国双科技有限公司 裁判文书的搜索方法及装置
CN108881945B (zh) * 2018-07-11 2020-09-22 深圳创维数字技术有限公司 消除关键词歧义的方法、电视及可读存储介质
US20230053344A1 (en) * 2020-02-21 2023-02-23 Nec Corporation Scenario generation apparatus, scenario generation method, and computer-readablerecording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101432685A (zh) * 2006-02-28 2009-05-13 电子湾有限公司 数据库搜索查询的扩展
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3379608B2 (ja) * 1994-11-24 2003-02-24 日本電信電話株式会社 単語間意味類似性判別方法
JP2003091552A (ja) * 2001-09-17 2003-03-28 Hitachi Ltd 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
US6961721B2 (en) * 2002-06-28 2005-11-01 Microsoft Corporation Detecting duplicate records in database
EP2397954A1 (en) * 2003-08-21 2011-12-21 Idilia Inc. System and method for associating queries and documents with contextual advertisements
NO325864B1 (no) * 2006-11-07 2008-08-04 Fast Search & Transfer Asa Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101432685A (zh) * 2006-02-28 2009-05-13 电子湾有限公司 数据库搜索查询的扩展
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN104598613B (zh) * 2015-01-30 2017-11-03 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105069086A (zh) * 2015-07-31 2015-11-18 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN106844571B (zh) * 2017-01-03 2020-04-07 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN109002432A (zh) * 2017-06-07 2018-12-14 北京京东尚科信息技术有限公司 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN109002432B (zh) * 2017-06-07 2022-01-04 北京京东尚科信息技术有限公司 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN110688837A (zh) * 2019-09-27 2020-01-14 北京百度网讯科技有限公司 数据处理的方法及装置
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置

Also Published As

Publication number Publication date
JP6124917B2 (ja) 2017-05-10
CN103136262B (zh) 2016-08-24
TWI547815B (zh) 2016-09-01
US20130138429A1 (en) 2013-05-30
EP2786275A1 (en) 2014-10-08
TW201322020A (zh) 2013-06-01
JP2015500525A (ja) 2015-01-05
WO2013082506A1 (en) 2013-06-06

Similar Documents

Publication Publication Date Title
CN103136262A (zh) 信息检索方法及装置
CN101876981B (zh) 一种构建知识库的方法及装置
US9396262B2 (en) System and method for enhancing search relevancy using semantic keys
CN102722498B (zh) 搜索引擎及其实现方法
US8250053B2 (en) Intelligent enhancement of a search result snippet
US8683389B1 (en) Method and apparatus for dynamic information visualization
CN103729359B (zh) 一种推荐搜索词的方法及系统
US11709999B2 (en) Method and apparatus for acquiring POI state information, device and computer storage medium
CN102722501B (zh) 搜索引擎及其实现方法
US9934293B2 (en) Generating search results
US20150310073A1 (en) Finding patterns in a knowledge base to compose table answers
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN102722499B (zh) 搜索引擎及其实现方法
JP2009512070A (ja) 概念ベースの検索および解析のためのシステム、方法、およびコンピュータプログラム製品
CN105493075A (zh) 基于所标识的实体的属性值检索
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN102737021B (zh) 搜索引擎及其实现方法
CN103020049A (zh) 搜索方法及搜索系统
CN103123632A (zh) 搜索中心词确定方法及装置、搜索方法及搜索设备
EP2529323A2 (en) Improved searching using semantic keys
EP3485394A1 (en) Contextual based image search results
CN103927177A (zh) 基于LDA模型和PageRank算法建立特征接口有向图的方法
US11669530B2 (en) Information push method and apparatus, device, and storage medium
CN103942232A (zh) 用于挖掘意图的方法和设备
US10339148B2 (en) Cross-platform computer application query categories

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181480

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1181480

Country of ref document: HK