CN103136256A - 一种在网络中实现信息检索的方法和系统 - Google Patents

一种在网络中实现信息检索的方法和系统 Download PDF

Info

Publication number
CN103136256A
CN103136256A CN2011103906118A CN201110390611A CN103136256A CN 103136256 A CN103136256 A CN 103136256A CN 2011103906118 A CN2011103906118 A CN 2011103906118A CN 201110390611 A CN201110390611 A CN 201110390611A CN 103136256 A CN103136256 A CN 103136256A
Authority
CN
China
Prior art keywords
attribute
participle
query
relevance scores
father
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103906118A
Other languages
English (en)
Other versions
CN103136256B (zh
Inventor
王跃
金凯民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110390611.8A priority Critical patent/CN103136256B/zh
Publication of CN103136256A publication Critical patent/CN103136256A/zh
Priority to HK13108822.2A priority patent/HK1181524A1/zh
Application granted granted Critical
Publication of CN103136256B publication Critical patent/CN103136256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在网络中实现信息检索的方法和系统,其中,在网络中实现信息检索的方法用于提高针对Query进行属性预测的准确率和覆盖率,包括如下步骤:对进行信息检索的Query进行分词,得到一个或多个分词;通过分词匹配获得每一个分词相匹配的一个或多个属性;针对每一个分词和其对应的一个属性,计算分词与属性的相关性分数;将相关性分数大于预设阈值的属性,预测为Query的属性;根据预测的属性进行信息检索。

Description

一种在网络中实现信息检索的方法和系统
技术领域
本申请涉及互联网搜索技术领域,尤其涉及一种在网络中实现信息检索的方法和系统。
背景技术
随着计算机网络技术的不断发展,用户在计算机网络中可以检索到的信息也越来越多。近几年来,随着计算机网络中的数据量越来越多,用户对准确而快速地在网络中检索到满足自己需要的信息的需求也在不断增加。
在用户实际使用搜索引擎等检索技术时,例如,检索商品信息,针对用户在搜索引擎提供的搜索框中输入的检索词(Query),存在搜索引擎不能够预测出对应所述Query的商品信息,且不能够准确、不冗余地描述这些商品信息的属性的问题。对于使用所述的检索技术时,存在的所述问题,在现有技术中,对应的技术方案为:
用户在如google或百度等传统的搜索引擎提供的搜索框中输入对信息检索的Query,所述的搜索引擎会对所述Query进行分词,得到一个或多个分词,然后,利用传统的基于文本匹配的方法,通过Query每个分词与现有属性之间的文本信息进行匹配,来进行属性预测,如:用户在搜索引擎中输入Query:“iphone4白色手机”,搜索引擎自动对所述Query进行分词,获得一个或多个分词,如,“iphone 4”、“白色”、“手机”,通过所述每个分词与现有属性之间的文本信息之间进行匹配。其中,当Query每个分词与现有属性之间的文本信息匹配时,则预测与Query每个分词匹配的属性。反之,则不预测与Query每个分词不匹配的属性。最后,根据预测的属性进行信息检索。
本申请发明人在实现本申请的过程中,发现所述现有技术方案存在下述技术问题,如:
在所述现有技术方案中,由于在针对Query进行属性预测时是通过传统的基于文本匹配的方法,即,仅仅是从文本面上去挖掘Query与属性之间的联系,而并没有涉及到自然语义层的关系,所以,在针对Query进行属性预测时容易造成预测不准确的结果。
此外,正是由于现有技术方案并没有考虑Query本身和属性之间的语义关系,所以,在针对Query进行属性预测时同时容易造成覆盖率不高的结果。
发明内容
本申请提供一种在网络中实现信息检索的方法和系统,用于解决现有技术中存在检索结果准确率和覆盖率低下的技术问题。
一方面,本申请通过本申请中的一个实施例,提供如下技术方案:
一种在网络中实现信息检索的方法,包括:
对进行信息检索的Query进行分词,得到一个或多个分词;
通过分词匹配获得每一个分词相匹配的一个或多个属性;
针对每一个分词和其对应的一个属性,计算分词与属性的相关性分数;
将相关性分数大于预设阈值的属性,预测为Query的属性;
根据预测的属性进行信息检索。
可选地,当所预测的属性有父属性时,还将父属性预测为Query的属性。
可选地,确定每一个预测出的属性的重要度,并根据所述重要度对所述属性进行过滤。
可选地,所述计算分词与属性的相关性分数,具体包括:
根据公式
NPMI ( X , Y ) = log 2 P ( x , y ) P ( x ) * P ( y ) - log 2 P ( x , y )
计算出NPMI(X,Y)的值,所述值即为所述相关性分数;其中,x和y均为变量,所述变量x和y分别表征所述分词和所述属性,所述p(x)和p(y)分别表征所述分词和所述属性在一个类目中出现的概率;以及
所述将相关性分数大于预设阈值的属性,预测为Query的属性,具体包括:当所述NPMI(X,Y)的值小于或等于所述预设阈值时,拒绝将对应属性预测为Query的属性;反之将对应属性预测为所述Query的属性。
可选地,当所预测的属性有父属性时,还将父属性预测为Query的属性,具体包括:
当所预测的属性有父属性时,将父属性预测为Query的属性,并将父属性的相关性分数设定为其子属性和对应分词的相关性分数的二分之一,然后根据所述相关性分数对所述预测的属性进行排序,并将所述相关性分数高的排在前面或上面。
可选地,确定每一个预测出的属性的重要度,具体包括:
根据统计的用户点击导航属性的次数,确定每一个预测出的属性的重要度。
此外,本申请还通过本申请中的另一实施例提供如下技术方案:
一种在网络中实现信息检索的系统,包括:
分词单元,用于对进行信息检索的Query进行分词,得到一个或多个分词;
匹配单元,用于通过分词匹配获得每一个分词相匹配的一个或多个属性;
计算单元,用于针对每一个分词和其对应的一个属性,计算分词与属性的相关性分数;
第一预测单元,用于将相关性分数大于预设阈值的属性,预测为Query的属性;
检索单元,用于根据预测的属性进行信息检索。
可选地,第二预测单元,用于当所预测的属性有父属性时,还将父属性预测为Query的属性。
可选地,确定单元,用于确定每一个预测出的属性的重要度,并根据所述属性的重要度对所述属性进行过滤。
可选地,所述第一预测单元具体包括:
第一判断单元,用于判断分词与属性的相关性分数是否大于预设阈值;
第一子预测单元,用于将相关性分数大于预设阈值的属性,预测为Query的属性;当所述NPMI(X,Y)的值大于所述预设阈值时,将对应属性预测为所述Query的属性,其中:
Figure BDA0000114633960000041
所述NPMI(X,Y)的值即为所述相关性分数;x和y均为变量,所述变量x和y分别表征所述分词和所述属性,所述p(x)和p(y)分别表征所述分词和所述属性在一个类目中出现的概率。
上述技术方案中的一个或多个技术方案,至少具有如下技术效果或优点:
一、通过在网络中实现信息检索的过程中,采用了建立Query与属性之间的一种相关性模型的技术手段,使得在预测Query属性的过程中,实现了提高预测的准确率和覆盖率的技术效果;
二、通过在网络中实现信息检索的过程中,采用了预测属性的父属性,并将其作为所述属性的补足的技术手段,使得在预测Query属性的过程中,实现了提高预测的覆盖率的技术效果;
三、通过在网络中实现信息检索的过程中,采用了确定每一个预测出的属性的重要度,以及根据所述属性的重要度对检索出的信息进行排序的技术手段,使得在预测Query属性的过程中,实现了提高预测的准确率的技术效果。
附图说明
图1为本申请实施例一中在网络中实现信息检索的方法流程图;
图2为本申请实施例二中在网络中实现信息检索的系统结构图;
图3为本申请实施例一或二中分词与属性的相关性分数与预设阈值的对照表。
具体实施方式
为了使本申请所属技术领域中的技术人员更清楚地理解本申请,下面结合附图,通过具体实施例对本申请技术方案作详细描述。
请参考图1、图3,本申请实施例一中的一种在网络中实现信息检索的方法,包括如下步骤:
步骤101,对进行信息检索的Query进行分词,得到一个或多个分词。
在具体实施过程中,Query为用户在搜索引擎中输入的查询词,用于检索信息,如:“iphone 4白色手机”。在对所述“iphone 4白色手机”进行分词时,可以由搜索引擎自动对所述“iphone 4白色手机”进行分词,且分词后可得到一个或多个分词,如:“iphone 4”、“白色”、“手机”。
步骤102,通过分词匹配获得每一个分词相匹配的一个或多个属性。
在具体实施过程中,所述分词匹配可以是搜索引擎自动对所述分词,如:iphone 4、白色或手机中的每一个分词进行匹配,并获得所述每一个分词相匹配的属性,且所述属性的个数可为一个或多个。如:
所述分词“iphone 4”通过分词匹配获得与其匹配的属性,如,Apple型号:Iphone 4(16G)或Apple型号:Iphone 4(32G);所述分词白色通过分词匹配获得与其匹配的属性,机身颜色:白色;所述分词手机通过分词匹配获得与其匹配的属性,是否智能手机:智能手机。
步骤103,针对每一个分词和其对应的一个属性,计算分词与属性的相关性分数。
在具体的实施过程中,通过建立Query与属性之间的一种相关性模型来实现,所述相关性模型具体为:可根据公式
NPMI ( X , Y ) = log 2 P ( x , y ) P ( x ) * P ( y ) - log 2 P ( x , y )
计算出NPMI(X,Y)的值,NPMI(X,Y)的值即为所述相关性分数;其中,x和y均为变量,所述变量x和y分别表征所述分词和所述属性,所述p(x)和p(y)分别表征所述分词和所述属性在一个类目中出现的概率;如:
在一个数码家电类目中,所有Query出现了共计1000次,所述分词iphone4、白色、手机分别出现了40次、100次、40次;与所述分词iphone匹配的属性Apple型号:Iphone 4(16G)、Apple型号:Iphone 4(32G)分别出现了900次、80次,与所述分词白色、手机匹配的属性,即机身颜色:白色、是否智能手机:智能手机,分别出现了90次、10次;所述分词iphone与Apple型号:Iphone4(16G)、Apple型号:Iphone 4(32G)分别共同出现了35次、76次,所是分词白色与机身颜色:白色共同出现了36次,所述分词手机与是否智能手机:智能手机共同出现了10次,整理可得:
p(iphone 4)=40/1000=0.04;P(白色)=100/1000=0.1
P(手机)=40/1000=0.1
P(Apple型号:Iphone 4(16G))=900/1000=0.9
P(Apple型号:Iphone 4(32G))=100/1000=0.1
p(机身颜色:白色)=90/1000=0.09
P(是否智能手机:智能手机)=200/1000=0.2
P(iphone 4,Apple型号:Iphone 4(16G))=35/1000=0.035
P(iphone 4,Apple型号:Iphone 4(32G))=108/1000=0.108
p(白色,机身颜色:白色)=38/1000=0.038
P(手机,是否智能手机:智能手机)=10/1000=0.001
所以,根据公式
NPMI ( X , Y ) = log 2 P ( x , y ) P ( x ) * P ( y ) - log 2 P ( x , y )
可获得:
NPMI(iphone 4,Apple型号:Iphone 4(16G))=0.0084
NPMI(iphone 4,Apple型号:Iphone 4(32G))=0.64
NPMI(白色,机身颜色:白色)=0.72
NPMI(手机,是否智能手机:智能手机)=-0.30
由上可知,所述分词iphone 4与其匹配的属性的相关性分数分别为0.0084和0.64,所述分词白色与其匹配的属性的相关性分数为,所述分词手机与其匹配的属性的相关性分数为-0.30。
步骤104,将相关性分数大于预设阈值的属性,预测为Query的属性。
在具体实施过程中,所述阈值为预设的值,并且不是固定的,用户可以根据实际需要来进行设定。在这个实施例中设置所述阈值为0,当然,在实际使用过程中,本领域技术人员也可将所述阀值设置为0.1或设置为-0.1。
其中,将相关性分数大于预设阈值的属性,预测为Query的属性的过程中,具体包括:
一、分词与其匹配的属性的相关性分数接近0,即,所述分词与其匹配的属性不相关,所以,拒绝将所述与分词匹配的属性预测为Query的属性,如:分词“iphone 4”与其匹配的属性“Apple型号:Iphone 4(16G)”的相关性分数为0.0084,接近于0;
二、分词与其匹配的属性的相关性分数大于0,即,所述分词与其匹配的属性正相关,所以,将所述与分词匹配的属性预测为Query的属性,如:分词“iphone4”与其匹配的属性“Apple型号:Iphone 4(32G)”的相关性分数为0.64,大于0;
三、分词与其匹配的属性的相关性分数小于0,即,所述分词与其匹配的属性负相关,所以,拒绝将所述与分词匹配的属性预测为Query的属性,如:分词手机与其匹配的属性,是否智能手机:智能手机的相关性分数为-0.30,小于0。
步骤105,根据预测的属性进行信息检索。
在具体实施过程中,可根据预测的属性,如,Apple型号:Iphone 4(32G),进行信息检索。
此外,所述方法还包括如下步骤:
当所预测的属性有父属性时,还将父属性预测为Query的属性。
在具体实施过程中,当所预测的属性有父属性时,还将父属性预测为Query的属性,并且将父属性与其对应分词的相关性分数设定为所述预测的属性与其对应分词的相关性分数的二分之一,然后根据所述相关性分数对所述预测出的属性及父属性进行排序,并将所述相关性分数高的排在前面或上面。在具体实施过程中,先判断所述预测的属性,如,Apple型号:Iphone 4(32G)或机身颜色:白色是否有父属性;然后根据判断结果,如,机身颜色:白色没有父属性,则拒绝预测其父属性;Apple型号:Iphone 4(32G)有父属性品牌:Apple,则预测其父属性;最后,将所述父属性品牌:Apple与其对应的分词的相关性分数设定为所述预测的属性Apple型号:Iphone 4(32G)与其对应分词的相关性分数的二分之一,由上可知,所述父属性品牌:Apple与其对应的分词的相关性分数设定为0.32,所以,在对所述属性Apple型号:Iphone 4(32G)及所述父属性品牌:Apple进行排序的时候,所述属性Apple型号:Iphone 4(32G)排在所述父属性品牌:Apple的前面或上面。
确定每一个预测出的属性的重要度,并根据所述属性的重要度对所述属性进行过滤。
在具体实施过程中,通过统计用户点击导航属性的次数,即所述导航属性出现的次数,确定每一个预测出的属性的重要度,所述用户点击所述导航属性的次数越多,则表征所述导航属性越重要;其中,所述统计有一时间周期,如:14天,即,每隔14天对点击所述导航属性的次数统计一次。在具体的实施过程中,如:10月8日对所述导航属性Apple型号:Iphone 4(32G)、是否智能手机:智能手机统计了一次,则在10月22日对所述导航属性Apple型号:Iphone4(32G)、是否智能手机:智能手机重新统计,并统计出在所述14天内所述导航属性Apple型号:Iphone 4(32G)、是否智能手机:智能手机被点击的次数,如:通过统计,所述导航属性Apple型号:Iphone 4(32G)、是否智能手机:智能手机被点击的次数分别为800次、100次,则表征所述导航属性Apple型号:Iphone 4(32G)的重要度远高于所述属性是否智能手机:智能手机,换句话说,用户重视所述导航属性Apple型号:Iphone 4(32G)的程度要远高于所述属性是否智能手机:智能手机,此时,根据所述重要度对所述属性进行过滤,并将所述属性中重要度相对而言远低于其中最高重要度的所述属性过滤掉,即将所述属性是否智能手机:智能手机过滤掉,经过所述过滤后得到所述属性Apple型号:Iphone 4(32G)。
请参考图2、图3,实施例二中的一种在网络中实现信息检索的系统,包括:
分词单元201,用于对进行信息检索的Query进行分词,得到一个或多个分词。
具体来讲,Query为用户在搜索引擎中输入的查询词,用于检索信息,如:“iphone 4白色手机”。在对所述“iphone 4白色手机”进行分词时,可由搜索引擎自动对所述“iphone 4白色手机”进行分词,且分词后可得到一个或多个分词,如:“iphone 4”、“白色”、“手机”。
匹配单元202,用于通过分词匹配获得每一个分词相匹配的一个或多个属性。
具体来讲,所述分词匹配是搜索引擎自动对所述分词,如:iphone 4;白色或手机中的每一个分词进行匹配,并获得所述每一个分词相匹配的属性,且所述属性的个数可为一个或多个。如:
所述分词iphone 4通过分词匹配获得与其匹配的属性,Apple型号:Iphone4(16G)或Apple型号:Iphone  4(32G);所述分词白色通过分词匹配获得与其匹配的属性,机身颜色:白色;所述分词手机通过分词匹配获得与其匹配的属性,是否智能手机:智能手机。
计算单元203,用于针对每一个分词和其对应的一个属性,计算分词与属性的相关性分数。
具体来讲,计算分词与属性的相关性分数是通过建立Query与属性之间的一种相关性模型来实现,所述相关性模型具体为:根据公式
NPMI ( X , Y ) = log 2 P ( x , y ) P ( x ) * P ( y ) - log 2 P ( x , y )
计算出NPMI(X,Y)的值,所述值即为所述相关性分数;其中,x和y均为变量,所述变量x和y分别表征所述分词和所述属性,所述p(x)和p(y)分别表征所述分词和所述属性在一个类目中出现的概率;如:
在一个类目中,所有Query出现了共计1000次,所述分词iphone、白色、手机均出现了40次;与所述分词iphone匹配的属性Apple型号:Iphone 4(16G)、Apple型号:Iphone 4(32G)分别出现了900次、80次,与所述分词白色、手机匹配的属性,即机身颜色:白色、是否智能手机:智能手机,分别出现了90次、200次;所述分词iphone与Apple型号:Iphone 4(16G)、Apple型号:Iphone4(32G)分别共同出现了35次、200次,所是分词白色与机身颜色:白色共同出现了38次,所述分词手机与是否智能手机:智能手机共同出现了1次,整理可得:
p(iphone 4)=40/1000=0.04;P(白色)=40/1000=0.04
P(手机)=40/1000=0.04
P(Apple型号:Iphone 4(16G))=900/1000=0.9
P(Apple型号:Iphone 4(32G))=150/1000=0.15
p(机身颜色:白色)=90/1000=0.09
P(是否智能手机:智能手机)=200/1000=0.2
P(iphone 4,Apple型号:Iphone 4(16G))=35/1000=0.035
P(iphone 4,Apple型号:Iphone 4(32G))=100/1000=0.1
p(白色,机身颜色:白色)=38/1000=0.038
P(手机,是否智能手机:智能手机)=1/1000=0.001
所以,根据公式
NPMI ( X , Y ) = log 2 P ( x , y ) P ( x ) * P ( y ) - log 2 P ( x , y )
可获得:
NPMI(iphone 4,Apple型号:Iphone 4(16G))=0.0084
NPMI(iphone 4,Apple型号:Iphone 4(32G))=0.64
NPMI(白色,机身颜色:白色)=0.72
NPMI(手机,是否智能手机:智能手机)=-0.30
由上可知,所述分词iphone 4与其匹配的属性的相关性分数分别为0.0084和0.64,所述分词白色与其匹配的属性的相关性分数为,所述分词手机与其匹配的属性的相关性分数为-0.30。
第一预测单元204,用于将相关性分数大于预设阈值的属性,预测为Query的属性。
具体来讲,所述阈值为预设的值,并且不是固定的,用户可以根据实际需要来进行设定。在这个实施例中设置所述阈值为0,当然,在实际使用过程中,本领域技术人员也可将所述阀值设置为0.1或设置为-0.1。
其中,将相关性分数大于预设阈值的属性,预测为Query的属性的过程中,具体包括:
一、分词与其匹配的属性的相关性分数接近0,即,所述分词与其匹配的属性不相关,所以,拒绝将所述与分词匹配的属性预测为Query的属性,如:分词iphone 4与其匹配的属性Apple型号:Iphone 4(16G)的相关性分数为0.0084,接近于0。
二、分词与其匹配的属性的相关性分数大于0,即,所述分词与其匹配的属性正相关,所以,将所述与分词匹配的属性预测为Query的属性,如:分词iphone4与其匹配的属性Apple型号:Iphone 4(32G)的相关性分数为0.64,大于0。
三、分词与其匹配的属性的相关性分数小于0,即,所述分词与其匹配的属性负相关,所以,拒绝将所述与分词匹配的属性预测为Query的属性,如:分词手机与其匹配的属性,是否智能手机:智能手机的相关性分数为-0.30,小于0。
所以,根据所述相关性分数可知,将所述属性Apple型号:Iphone 4(32G)预测为Query的属性。
检索单元205,用于根据预测的属性进行信息检索。
具体来讲,进行信息检索时根据预测的属性来进行检索,如:Apple型号:Iphone 4(32G)。
此外,所述系统还包括:
第二预测单元,用于当所预测的属性有父属性时,还将父属性预测为Query的属性。
具体来讲,当所预测的属性有父属性时,还将父属性预测为Query的属性,并且将父属性与其对应分词的相关性分数设定为所述预测的属性与其对应分词的相关性分数的二分之一,然后根据所述相关性分数对所述预测出的属性进行排序,其中,所述相关性分数高的排在前面或上面。在具体实施过程中,先判断所述预测的属性,如,Apple型号:Iphone 4(32G)或机身颜色:白色是否有父属性;然后根据判断结果,如,机身颜色:白色没有父属性,则拒绝预测其父属性;Apple型号:Iphone 4(32G)有父属性品牌:Apple,则预测其父属性;最后,将所述父属性品牌:Apple与其对应的分词的相关性分数设定为所述预测的属性Apple型号:Iphone 4(32G)与其对应分词的相关性分数的二分之一,由上可知,所述父属性品牌:Apple与其对应的分词的相关性分数设定为0.32,所以,所述属性Apple型号:Iphone 4(32G)排在所述父属性品牌:Apple的前面或上面。
确定单元,用于确定每一个预测出的属性的重要度,并根据所述属性的重要度对所述属性进行过滤。
具体来讲,通过统计用户点击导航属性的次数,即所述导航属性出现的次数,确定每一个预测出的属性的重要度,所述用户点击所述导航属性的次数越多,则表征所述导航属性越重要;其中,所述统计有一时间周期,如:14天,即,每隔14天对点击所述导航属性的次数统计一次。在具体的实施过程中,如:10月8日对所述导航属性Apple型号:Iphone 4(32G)、是否智能手机:智能手机统计了一次,则在10月22日对所述导航属性Apple型号:Iphone 4(32G)、是否智能手机:智能手机重新统计,并统计出在所述14天内所述导航属性Apple型号:Iphone 4(32G)、是否智能手机:智能手机被点击的次数,如:通过统计,所述导航属性Apple型号:Iphone 4(32G)、是否智能手机:智能手机被点击的次数分别为800次、100次,则表征所述导航属性Apple型号:Iphone 4(32G)的重要度远高于所述属性是否智能手机:智能手机,换句话说,用户重视所述导航属性Apple型号:Iphone 4(32G)的程度要远高于所述属性是否智能手机:智能手机,此时,根据所述重要度对所述属性进行过滤,并将所述属性中重要度相对而言远低于其中最高重要度的所述属性过滤掉,即将所述属性是否智能手机:智能手机过滤掉,经过所述过滤后得到所述属性Apple型号:Iphone 4(32G)。
所述第一预测单元204具体包括:
第一判断单元,用于判断分词与属性的相关性分数是否大于预设阈值;
具体来讲,所述阈值不是固定的,用户可以根据实际需要来进行设定。在这个实施例中设置所述阈值为0,当然,在实际使用过程中,本领域技术人员也可将所述阀值设置为0.1或设置为-0.1。然后,将分词与其匹配的属性的相关性分数与所述预设的阈值进行比较。如:将分词iphone 4与其匹配的属性Apple型号:Iphone 4(16G)的相关性分数0.0084、分词iphone 4与其匹配的属性Apple型号:Iphone 4(32G)的相关性分数0.64、分词手机与其匹配的属性,是否智能手机:智能手机的相关性分数为-0.30、及分词白色与其匹配的属性机身颜色:白色的相关性分数0.72,分别与所述阈值0比较,判断所述每个分词与其匹配属性的相关性分数是否大于所述预设阈值。
第一子预测单元,用于将相关性分数大于预设阈值的属性,预测为Query的属性;
具体来讲,当所述NPMI(X,Y)的值小于或等于所述预设阈值时,拒绝将对应属性预测为Query的属性;反之将对应属性预测为所述Query的属性。如:
分词iphone 4与其匹配的属性Apple型号:Iphone 4(16G)的相关性分数为0.0084,接近于0,则拒绝将属性Apple型号:Iphone 4(16G)预测为Query的属性;
分词iphone 4与其匹配的属性Apple型号:Iphone 4(32G)的相关性分数为0.64,大于0,则将所属性Apple型号:Iphone 4(32G)预测为Query的属性;
分词手机与其匹配的属性,是否智能手机:智能手机的相关性分数为-0.30,小于0,则拒绝将属性是否智能手机:智能手机预测为Query的属性。
所述第二预测单元具体包括:
第二判断单元,用于判断预测的属性是否有父属性;
具体来讲,先判断所述预测的属性,如,Apple型号:Iphone 4(32G)或机身颜色:白色是否有父属性;
第二子预测单元,用于将预测的属性的父属性预测为Query的属性;
具体来讲,根据判断结果,如,机身颜色:白色没有父属性,则拒绝预测其父属性;Apple型号:Iphone 4(32G)有父属性品牌:Apple,则预测其父属性,并将所述父属性品牌:Apple与其对应的分词的相关性分数设定为所述预测的属性与其对应分词的相关性分数的二分之一,然后根据所述相关性分数对所述预测出的属性进行排序,并将所述相关性分数高的排在前面或上面。
本申请有益效果如下:
一、通过在网络中实现信息检索的过程中,采用了建立Query与属性之间的一种相关性模型的技术手段,使得在预测Query属性的过程中,实现了提高预测的准确率和覆盖率的技术效果;
二、通过在网络中实现信息检索的过程中,采用了预测属性的父属性,并将其作为所述属性的补足的技术手段,使得在预测Query属性的过程中,实现了提高预测的覆盖率的技术效果;
三、通过在网络中实现信息检索的过程中,采用了确定每一个预测出的属性的重要度,以及根据所述属性的重要度对检索出的信息进行排序的技术手段,使得在预测Query属性的过程中,实现了提高预测的准确率的技术效果;
四、通过在网络中实现信息检索的过程中,采用了将分词与属性的相关性分数与预设阈值进行对比的技术手段,使得在将所述与分词匹配的属性是否预测为Query的属性的过程中,实现了准确的技术效果。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种在网络中实现信息检索的方法,其特征在于,包括:
对进行信息检索的Query进行分词,得到一个或多个分词;
通过分词匹配获得每一个分词相匹配的一个或多个属性;
针对每一个分词和其对应的一个属性,计算分词与属性的相关性分数;
将相关性分数大于预设阈值的属性,预测为Query的属性;
根据预测的属性进行信息检索。
2.如权利要求1所述的方法,其特征在于,还包括:
当所预测的属性有父属性时,将所述父属性预测为Query的属性。
3.如权利要求1或2所述的方法,其特征在于,还包括:
确定每一个预测出的属性的重要度,并根据所述属性的重要度对所述属性进行过滤。
4.如权利要求1或2所述的方法,其特征在于,所述计算分词与属性的相关性分数,具体包括:
根据公式
NPMI ( X , Y ) = log 2 P ( x , y ) P ( x ) * P ( y ) - log 2 P ( x , y )
计算出NPMI(X,Y)的值,所述NPMI(X,Y)的值即为所述相关性分数;其中,x和y均为变量,所述变量x和y分别表征所述分词和所述属性,所述p(x)和p(y)分别表征所述分词和所述属性在一个类目中出现的概率;以及
所述将相关性分数大于预设阈值的属性,预测为Query的属性,具体包括:当所述NPMI(X,Y)的值大于所述预设阈值时,将对应属性预测为所述Query的属性。
5.如权利要求4所述的方法,其特征在于,当所预测的属性有父属性时,还将父属性预测为Query的属性,具体包括:
当所预测的属性有父属性时,将父属性预测为Query的属性,并将父属性的相关性分数设定为其子属性和对应分词的相关性分数的二分之一,然后根据所述相关性分数对所述预测出的属性进行排序,并将所述相关性分数高的排在前面。
6.如权利要求1或2所述的方法,其特征在于,确定每一个预测出的属性的重要度,具体包括:
根据统计的用户点击导航属性的次数,确定每一个预测出的属性的重要度。
7.一种在网络中实现信息检索的系统,其特征在于,包括:
分词单元,用于对进行信息检索的Query进行分词,得到一个或多个分词;
匹配单元,用于通过分词匹配获得每一个分词相匹配的一个或多个属性;
计算单元,用于针对每一个分词和其对应的一个属性,计算分词与属性的相关性分数;
第一预测单元,用于将相关性分数大于预设阈值的属性,预测为Query的属性;
检索单元,用于根据预测的属性进行信息检索。
8.如权利要求7所述的系统,其特征在于,还包括:
第二预测单元,用于当所预测的属性有父属性时,将所述父属性预测为Query的属性。
9.如权利要求7所述的系统,其特征在于,还包括:
确定单元,用于确定每一个预测出的属性的重要度,并根据所述属性的重要度对所述属性进行过滤。
10.如权利要求7所述的系统,其特征在于,所述第一预测单元具体包括:
第一判断单元,用于判断分词与属性的相关性分数是否大于预设阈值;
第一子预测单元,用于将相关性分数大于预设阈值的属性,预测为Query的属性;当所述NPMI(X,Y)的值大于所述预设阈值时,将对应属性预测为所述Query的属性,其中:
Figure FDA0000114633950000031
所述NPMI(X,Y)的值即为所述相关性分数;x和y均为变量,所述变量x和y分别表征所述分词和所述属性,所述p(x)和p(y)分别表征所述分词和所述属性在一个类目中出现的概率。
CN201110390611.8A 2011-11-30 2011-11-30 一种在网络中实现信息检索的方法和系统 Active CN103136256B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110390611.8A CN103136256B (zh) 2011-11-30 2011-11-30 一种在网络中实现信息检索的方法和系统
HK13108822.2A HK1181524A1 (zh) 2011-11-30 2013-07-29 種在網絡中實現信息檢索的方法和系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110390611.8A CN103136256B (zh) 2011-11-30 2011-11-30 一种在网络中实现信息检索的方法和系统

Publications (2)

Publication Number Publication Date
CN103136256A true CN103136256A (zh) 2013-06-05
CN103136256B CN103136256B (zh) 2016-08-03

Family

ID=48496090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110390611.8A Active CN103136256B (zh) 2011-11-30 2011-11-30 一种在网络中实现信息检索的方法和系统

Country Status (2)

Country Link
CN (1) CN103136256B (zh)
HK (1) HK1181524A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336848A (zh) * 2013-07-22 2013-10-02 五八同城信息技术有限公司 一种分类信息的排序方法
CN104809109A (zh) * 2014-01-23 2015-07-29 腾讯科技(深圳)有限公司 一种社交信息展示方法、装置及服务器
CN108829844A (zh) * 2018-06-20 2018-11-16 聚好看科技股份有限公司 一种信息搜索方法及系统
CN108959473A (zh) * 2018-06-20 2018-12-07 聚好看科技股份有限公司 一种信息搜索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187503A1 (en) * 2008-01-18 2009-07-23 Microsoft Corporation Generating content to satisfy underserved search queries
CN101595476A (zh) * 2006-08-31 2009-12-02 启创互联公司 用于客户定义信息架构的系统、方法和计算机程序
CN101894160A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索方法
CN102081601A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种领域词识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101595476A (zh) * 2006-08-31 2009-12-02 启创互联公司 用于客户定义信息架构的系统、方法和计算机程序
US20090187503A1 (en) * 2008-01-18 2009-07-23 Microsoft Corporation Generating content to satisfy underserved search queries
CN102081601A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种领域词识别方法和装置
CN101894160A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昕: "电子商务Web数据库不精确查询方法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336848A (zh) * 2013-07-22 2013-10-02 五八同城信息技术有限公司 一种分类信息的排序方法
CN103336848B (zh) * 2013-07-22 2016-09-28 五八同城信息技术有限公司 一种分类信息的排序方法
CN104809109A (zh) * 2014-01-23 2015-07-29 腾讯科技(深圳)有限公司 一种社交信息展示方法、装置及服务器
CN104809109B (zh) * 2014-01-23 2019-12-10 腾讯科技(深圳)有限公司 一种社交信息展示方法、装置及服务器
CN108829844A (zh) * 2018-06-20 2018-11-16 聚好看科技股份有限公司 一种信息搜索方法及系统
CN108959473A (zh) * 2018-06-20 2018-12-07 聚好看科技股份有限公司 一种信息搜索方法及系统

Also Published As

Publication number Publication date
HK1181524A1 (zh) 2013-11-08
CN103136256B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN101184259B (zh) 垃圾短信中的关键词自动学习及更新方法
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
CN107291939B (zh) 酒店信息的聚类匹配方法及系统
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN105701216A (zh) 一种信息推送方法及装置
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
CN104008106A (zh) 一种获取热点话题的方法及装置
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN103813279A (zh) 一种垃圾短信检测方法及装置
CN102073684A (zh) 搜索日志的挖掘方法和装置以及页面搜索的方法和装置
CN104951553B (zh) 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN109582847A (zh) 一种信息处理方法及装置、存储介质
CN103136256A (zh) 一种在网络中实现信息检索的方法和系统
CN103885947A (zh) 一种搜索需求的挖掘方法、智能搜索方法及其装置
CN112765452A (zh) 搜索推荐方法、装置及电子设备
CN101937433A (zh) 一种产品实时搜索方法
CN102955812A (zh) 一种构建索引库的方法、装置及查询方法和装置
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
CN103020141A (zh) 一种用于提供搜索结果的方法和设备
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置
CN103336765A (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN103092838B (zh) 一种获取英文词的方法及装置
CN105512270B (zh) 一种确定相关对象的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181524

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant