CN103577432A - 一种商品信息搜索方法和系统 - Google Patents

一种商品信息搜索方法和系统 Download PDF

Info

Publication number
CN103577432A
CN103577432A CN201210262531.9A CN201210262531A CN103577432A CN 103577432 A CN103577432 A CN 103577432A CN 201210262531 A CN201210262531 A CN 201210262531A CN 103577432 A CN103577432 A CN 103577432A
Authority
CN
China
Prior art keywords
merchandise news
word
initial key
key word
correlativity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210262531.9A
Other languages
English (en)
Other versions
CN103577432B (zh
Inventor
钟灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210262531.9A priority Critical patent/CN103577432B/zh
Publication of CN103577432A publication Critical patent/CN103577432A/zh
Application granted granted Critical
Publication of CN103577432B publication Critical patent/CN103577432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种商品信息搜索方法和系统,涉及网络技术领域。所述方法包括:提供商品信息和针对该商品信息的各初始关键词;服务器接收查询词;基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合;对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词;针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性;根据所述第一相关性和第二相关性,对待计算的商品信息进行排序;返回排序靠前待计算的商品信息。本申请减少了信息的流失程度,降低了搜索引擎的搜索和排序压力,提高了检索出的商品信息的正确性。

Description

一种商品信息搜索方法和系统
技术领域
本申请涉及网络技术领域,特别是涉及一种商品信息搜索方法和系统。 
背景技术
随着互联网的发展,互联网提供的信息已经越来越多样化,而通过互联网投放商品信息也成为商品信息客户的重要选择。在互联网中投放商品信息的服务不但可以为商品信息客户进行宣传,而且可以为客户提供更多的服务信息。互联网搜索引擎作为信息服务平台,通过搜索引擎投放商品信息也已经成为商品信息客户普遍采用的一种商品信息投放方式。 
在现有技术中,商品信息客户登录搜索引擎提供的商品信息推广系统,设置需要推广的商品信息链接网站或者网页,并选择一组关键词作为这个页面推广需要的竞价词。搜索引擎以这些商品信息客户注册的检索关键词建立关键词索引,关键词包括用户选择的关键词,而每个关键词索引的是商品信息客户推广的页面,即搜索引擎以这些商品信息客户注册的检索关键词建立扩展词库,当搜索引擎接收到用户端的查询词之后,会根据所述的扩展词库中选择与所述查询词相关的各检索关键词,然后再首先基于检索关键词与商品信息客户网站或者网页的关联性,将与各检索关键词相关的所有商品信息客户的商品信息进行检索,最后以查询词与各商品信息的相关性和商品信息客户注册的检索关键词为排序因子进行整理排序,然后返回给用户端。 
现有技术中,搜索引擎通过会将用户端输入的查询词在所述扩展词库中进行扩展,以扩大被查询到的概率。由于扩展出的词可能存在商品信息客户注册的不规则的词,比如商品信息客户A的网页展示的是连衣裙,但商品信息客户A可能随意检索关键词竞价排名系统注册“诺基亚手机”,那么如果一个用户端输入查询词“手机”,搜索引擎基于所述扩展词库将“手机”扩展为“手机”、“诺基亚手机”、“三星手机”等,那么搜索引擎也会检索到商 品信息客户A的展示连衣裙的网页,然后展示给用户端。 
实际中,现有技术的搜索结果中,可能存在大量的上述不相关网站或网页的情况,这导致以下问题: 
一、导致搜索引擎耗费大量时间去搜索这些不相关的网页,增加了搜索引擎的压力; 
二、由于大量存在这种不相关网站或网页,导致搜索引擎对于搜索进行排序的负荷大增,这进一步增加了搜索引擎的压力; 
三、基于上述情况的搜索结果,可能导致返回给用户端的商品信息页面与其查询词的目的完全不相关,影响信息的真实性。 
发明内容
本申请提供一种商品信息搜索方法和系统,以解决因搜索引擎基于扩展竞价词进行搜索导致的搜索引擎压力较大和展现给用户端不相关的搜索结果的问题。 
为了解决上述问题,本申请公开了一种商品信息搜索方法,包括: 
提供商品信息和针对该商品信息的各初始关键词; 
服务器接收查询词; 
基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合; 
对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性; 
根据所述第一相关性和第二相关性,对待计算的商品信息进行排序; 
返回排序靠前的至少一条待计算的商品信息。 
优选的,所述根据所述第一相关性和第二相关性,对待计算的商品信息进行排序,具体包括: 
根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性; 
根据所述第一总相关性,对待计算的商品信息进行排序。 
优选的,在服务器接收查询词之前,还提供各初始关键词的权值,所述根据所述第一总相关性对待计算的商品信息进行排序,具体包括: 
将第一总相关性最高的初始关键词作为相应商品信息的排序关键词; 
计算所述查询词与各待计算的商品信息的第三相关性; 
针对所述初始商品信息集合中每条待计算商品信息,结合相应第三相关性和排序关键词的权值,计算所述查询词与所述各商品信息的第二总相关性; 
以第二总相关性对所述各待计算的商品信息进行排序。 
优选的,所述计算所述各初始关键词与所述查询词的第一相关性,具体包括: 
计算所述初始关键词与查询词相同的词的字符长度占所述查询词字符长度的长度占比; 
根据从所述初始关键词变换到查询词的操作次数,计算从所初始关键词到所述查询词的编辑距离; 
结合所述占比和所述编辑距离,计算所述初始关键词与所述查询词的第一相关性。 
优选的,所述计算所述各初始关键词与所述查询词的第一相关性包括: 
获取网络搜索日志,分析所述网络搜索日志中所述查询词的点击情况,并分析以所述初始关键词为查询词时的点击情况; 
将所述查询词的点击情况向量化为第一向量,并将所述初始关键词的点击情况向量化为第二向量; 
计算所述第一向量和第二向量之间的夹角值,并将所述夹角值作为相关性第一相关性。 
优选的,所述各初始关键词与所述商品信息的第二相关性,具体包括: 
统计所述初始关键词在所述商品信息包括的文本信息中的字符串占比;和/或, 
针对网络搜索日志中包括的以所述初始关键词为查询词时的点击日志, 统计所述商品信息所属类目,在所述初始关键词点击的各类目中的类目占比;和/或, 
针对网络搜索日志中包括的针对各商品信息的展示日志,统计所述商品信息的展示次数;和/或, 
针对网络搜索日志中包括的针对各商品信息的点击日志,统计所述商品信息的点击次数;和/或, 
根据所述商品信息的展示次数和点击次数,计算所述商品信息的点击率; 
针对所述字符串占比、所述类目占比、所述商品信息展示次数、点击次数、以及点击率中的至少一项,计算所述初始关键词与所述商品信息的第二相关性。 
优选的,基于所述查询词,针对商品信息的内容进行检索,获得初始商品信息集合,包括: 
获取与所述查询词第四相关性大于阈值的扩展词; 
根据所述查询词与所述扩展词,针对商品信息的内容的索引中进行检索,获得初始商品信息集合。 
优选的,基于所述查询词,针对商品信息的内容进行检索,获得初始商品信息集合,包括: 
将所述查询词在针对商品信息内容的索引中进行检索; 
判断根据所述各分词检索得到的初始商品信息集合中商品信息数量是否大于阈值; 
如果大于,则采用当前初始商品信息集合; 
如果小于,则获取与所述查询词第四相关性大于阈值的扩展词; 
将所述扩展词在针对商品信息内容的索引中进行检索,将检索得到的商品信息加入所述初始商品信息集合。 
相应的,本申请还公开了一种商品信息搜索系统,包括: 
商品信息提供模块,用于提供商品信息和针对该商品信息的各初始关键词; 
查询词接收模块,用于服务器接收查询词; 
初始商品集合获取模块,用于基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合; 
初始关键词获取模块,用于对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
相关性计算模块,用于针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性; 
排序模块,用于根据所述第一相关性和第二相关性,对待计算的商品信息进行排序; 
返回模块,用于返回排序靠前的至少一条待计算的商品信息。 
优选的,所述排序模块包括: 
第一总相关性计算模块,用于根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性; 
第一排序模块,用于根据所述第一总相关性,对待计算的商品信息进行排序。 
与现有技术相比,本申请包括以下优点: 
本申请预先基于商品信息客户的商品信息的全文内容构建索引,本申请的搜索过程中,通过查询词或者其最相关的词与各商品信息进行内容匹配获取最优的商品信息集合,这减少了信息的流失程度;并且由于是根据查询词与商品信息的内容相关性进行搜索,相对现有技术复杂的扩展词,不用搜索引擎更多的计算,降低了搜索引擎的搜索和排序压力,避免了因竞价词的不准确,而导致检索出的商品信息不正确的问题。 
附图说明
图1是本申请一种商品信息搜索方法实施例一的流程示意图; 
图2是本申请优选的一种商品信息搜索方法实施例二的流程示意图; 
图3是本申请优选的一种商品信息搜索方法实施例三的流程示意图; 
图4是本申请优选的一种商品信息搜索方法实施例四的流程示意图; 
图5是本申请优选的一种商品信息搜索方法实施例五的流程示意图; 
图6是本申请一种商品信息搜索系统实施例一的结构示意图。 
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。 
现有技术中,搜索引擎会在线下以商品信息客户购买的各个竞价词(即注册的检索关键词)作为扩展词并构建索引,索引中竞价词直接关联商品信息客户的商品信息;然后,搜索引擎在线上对用户端输入的查询词,在所有竞价词构成的扩展词库中扩展出扩展词,然后将竞价词和扩展词在搜索引擎中搜索相应的商品信息,对于乱买词(乱买词为卖家选择的与所推广的商品信息内容无关的竞价词,以提高商品信息展现的机率)的情况,搜索结果中可能出现大量的与原查询词不相关的商品信息,对于用户端来说,这些数据基本上是无用的消息,对于搜索引擎来说,导致搜索引擎做了很多无用搜索,增加的搜索引擎的搜索和排序压力。而本申请基于查询词针对商品信息内容搜索到最优的商品信息集合,商品信息最后将商品信息集合中部分或全部的商品信息排序返回给用户端,这样可避免乱买词导致的不良情况,降低搜索引擎的搜索压力和排序压力。 
实施例一 
参照图1,其示出了本申请一种商品信息搜索方法实施例一的流程示意图,具体可以包括: 
步骤110,提供商品信息和针对该商品信息的各初始关键词; 
在本申请中,服务器接收并存储各第一用户选择的针对商品信息的各初始关键词和各初始关键词的权值。以包括卖家和买家的平台系统为例,卖家 对应本申请的第一用户,买家对应本申请的第二用户。本申请的系统包括针对卖家的后端服务器,用于接收并存储卖家选择的针对其某一商品信息信的各初始关键词,比如卖家A设置了一商品信息,如表一: 
  标题   特价2012春款新品女装长袖打底裙花色针织连衣裙
  描述   产地-广东,原料-纯棉,品牌-佳人......
表一 
其标题信息为“特价2012春款新品女装长袖打底裙花色针织连衣裙”,描述信息为该连衣裙的详细介绍,比如,产品的产地-广东,产品的原料-纯棉,产品的品牌-佳人,等等。 
那么如表二,为卖家针对其广告选择的初始关键词: 
Figure BDA00001935942200071
表二 
卖家可选择初始关键词“女装”、“长袖打底裙”、“连衣裙”“针织连衣裙”、“春款女装”、“手机”等。其中,“手机”与其商品信息中连衣裙内容不相关,为乱买词。 
那么在后端服务器中,各卖家对自己提供的商品信息,并相应设置完初始关键词后,服务器则将商品信息与初始关键词的对应关系进行存储。 
在后端服务器接收并存储各第一用户选择的针对每一商品信息的各初始关键词的基础之上,针对第一用户的前端服务器,比如搜索引擎,则可利用这些存储的信息,进行对应的商品信息的搜索和展现的过程。 
那么,在后端服务器接收并存储各第一用户选择的针对每一商品信息的各初始关键词的基础之上,针对第二用户,对商品信息的搜索和展示过程包括: 
步骤120,服务器接收查询词; 
比如用户输入“2012春季连衣裙”,那么本申请的搜索引擎对应的服务器则接收该查询词,进行后续的检索与展示过程。 
步骤130,基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合; 
在本申请中,搜索引擎可预先针对卖家的各商品信息的内容构建索引,所述内容包括前述标题信息和描述信息。 
在针对卖家的各商品信息的内容信息构建索引时,可以商品信息的核心词进行构建。然后在本步骤130中,可根据所述查询词,针对商品信息的内容进行检索,获取与查询词内容相关性高的初始商品集合,避免出现因为乱买词而检索得到与查询词不相关的商品信息。 
比如,有前述卖家A针对其所述连衣裙商品信息选择了关键词“手机”,那么通过本步骤,对于查询词“手机”,则不会将卖家A的选择了关键词“连衣裙”的商品信息检索出来。那么本步骤检索出来的即为与手机相关的初始集合。 
步骤140,对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
在实际中,当第一用户在后端服务器中针对其商品信息选择了一系列初始关键词和设置了个初始关键词的权值之后,在前端针对第一用户的搜索引擎进行查询时,在本步骤则可根据商品信息与所属第一用户针对该商品信息选择的各初始关键词的对应关系,获取该条商品信息的各初始关键词。 
在本步骤中可选择初始商品集合中的全部待计算的商品信息,或者部分待计算的商品信息。从初始商品集合中选择部分待计算的商品信息时,可根据查询词与商品信息的相关性进行筛选,当相关性大于阈值时选择,当相关性不大于时则不选。 
步骤150,针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,以及各初始关键词与所述商品信息的第二相关性; 
在本申请中,为了客观有效的从第一用户针对所述商品信息选择的各初 始关键词中,选出当前查询条件下针对该商品信息的关键词作为排序关键词,可同时将每条待计算商品信息的初始关键词集合中的各初始关键词,分别计算与当前查询词的第一相关性,和与相应商品信息的第二相关性。 
优选的,为了更为客观的、更准确的获得所述第二相关性,所述计算所述各初始关键词与所述查询词的第一相关性的第一种方法包括: 
步骤m11,计算所述初始关键词与查询词相同的词的字符长度占所述查询词字符长度的长度占比; 
比如,第一用户为其需要推广的诺基亚N系列手机的商品信息,其选择的初始关键词包括“诺基亚手机”、“智能手机”、“诺基亚N97”。那么如表二所示,其为初始关键词与查询词相同的词的字符长度占所述查询词字符长度的长度占比示例表: 
Figure BDA00001935942200091
表二 
当用户输入的查询词“诺基亚N97”,那么“诺基亚手机”与查询词相同的词为“诺基亚”,占查询词的占比为2/3,“智能手机”占比为0,“诺基亚N97”占比为1。 
步骤m12,根据从所述初始关键词变换到查询词的操作次数,计算从所初始关键词到所述查询词的编辑距离; 
比如,根据从所述初始关键词增加或者减少一个词变换到查询词的操作次数,计算从所初始关键词到所述查询词的编辑距离。即从字符串a通过删除或者增加一个词变换为字符串b的操作次数,例如对于“诺基亚N97”,将“诺基亚N97”删除一个词“N97”,即可得到“诺基亚”,其中“N97”在预置的词库中设置为一个词,即只需要一次删除词“N97”的操作即可将 “诺基亚N97”变换为“诺基亚”,那么“诺基亚N97”和“诺基亚”的编辑距离是1。对于前述例子中的初始关键词包括“诺基亚手机”、“智能手机”、“诺基亚N97”。那么如表三,其为初始关键词到所述查询词的编辑距离示例表: 
Figure BDA00001935942200101
其中查询词“诺基亚N97”删除“N97”,再添加“手机”获得初始关键词“诺基亚手机”,有一次删除一次添加共两次操作,其编辑距离为2。 
查询词“诺基亚N97”删除“N97”,删除“诺基亚”,添加“智能”,添加“手机”,得到初始关键词“智能手机”,共有4词操作,其编辑距离为4。 
查询词“诺基亚N97”与初始关键词“诺基亚N97”相同,其编辑距离为0。 
步骤m13,结合所述占比和所述编辑距离,计算所述初始关键词与所述查询词的第一相关性。 
比如,将前述占比和所述编辑举例进行加权平均,将加权平均值作为所述初始关键词与所述查询词的第一相关性。 
优选的,为了更为客观的、更准确的获得所述第二相关性,所述计算所述各初始关键词与所述查询词的第一相关性的第二种方法包括: 
步骤m21,获取网络搜索日志,分析所述网络搜索日志中所述查询词的点击情况,并分析以所述初始关键词为查询词时的点击情况; 
获取网络搜索日志,分析两个查询词的点击情况。例如:查询词query1的点击情况是(x1,10),(x2,5),(x3,3),表示页面x1被点击10次,页面x2被点击5次,页面x3被点击3次。查询词Query2的点击情况是:(x2,3),(x3,2),(x4,5),表示页面x2被点击3次,页面x3被点击2次,页面x4被点 击5次。 
步骤m22,将所述查询词的点击情况向量化为第一向量,并将所述初始关键词的点击情况向量化为第二向量; 
把4个页面作为向量的4个分量,那么query1的点击向量值为:v1=(10,5,3,0);query2的点击向量值为v2=(0,3,2,5) 
步骤m23,计算所述第一向量和第二向量之间的夹角值,并将所述夹角值作为第一相关性。 
那么query1和query2的点击相关性特征的值为: 
Co sin ( v 1 , v 2 ) = v | v 1 | = 5 * 3 + 3 * 2 10 2 + 5 2 + 3 2 × 3 2 + 2 = 0.294
当然,还可采用其他方法计算初始关键词与查询词的词语相关性,本申请不对其加以限制。 
优选的,为了更为客观的、更准确的获得所述第二相关性,所述各初始关键词与所述商品信息的第二相关性包括: 
步骤n1,统计所述初始关键词在所述商品信息包括的文本信息中的字符串占比; 
如前所述商品信息包括的内容如前述表一,包括标题信息和描述信息,当然还可包括图片信息等。本步骤中,利用了商品信息中的文本信息,比如标题信息和描述信息中的文本信息。通过上述信息,即可统计初始关键词在商品信息中的文本信息中出现的占比。 
步骤n2,针对网络搜索日志中包括的以所述初始关键词为查询词时的点击日志,统计所述商品信息所属类目,在所述初始关键词点击的各类目中的类目占比; 
在实际中,存在以所述初始关键词为查询词进行的查询,那么根据初始关键词点击的各商品信息,即查询词与商品信息页面的点击关系,可以统计初始关键词点击了哪些类目,然后可根据每个类目的商品信息的数量,统计得到每个类目的占比。然后选择与本申请需要计算的商品信息的类目占比即可。 
步骤n3,针对网络搜索日志中包括的针对各商品信息的展示日志,统计所述商品信息的展示次数; 
在实际中,一个商品信息可被挂在多个页面中进行展示,比如页面x1集合展示了商品信息A、B、C、D,页面x2集合展示了商品信息C、D、E。而商品信息本身存在一个页面,比如商品信息A对应的页面为x10,商品信息B对应的页面为x11等。 
网络搜索日志中记录了各种查询词对应点击的页面,如果统计商品信息C,那么将包括了商品信息C的所有页面进行统计,比如前述的x1,x2等等。 
步骤n4,针对网络搜索日志中包括的针对各商品信息的点击日志,统计所述商品信息的点击次数; 
如前所述商品信息会对应一个最终的展示页面,比如前述商品信息A对应的页面为x10,商品信息B对应的页面为x11。那么比如,如果第二用户在点击某个挂载商品信息A的页面x1时,再次点击对应商品信息A位置,跳转到商品信息A对应的最终页面x10,即表示商品信息A被点击了。那么商品信息的点击次数即可统计商品信息对应的最终页面的点击次数,比如统计商品信息A的点击次数,那么即可统计页面x10的点击次数即可。 
步骤n5,根据所述商品信息的展示次数和点击次数,计算所述商品信息的点击率; 
通过前述步骤获得了商品信息的展示次数和点击次数,那么即可利用“点击次数/展示次数”即可计算各商品信息的点击率。 
步骤n6,针对所述字符串占比、所述类目占比、所述商品信息展示次数、点击次数、以及点击率,计算所述初始关键词与所述商品信息的第二相关性。 
在本申请中,可将所述字符串占比,所述类目占比、所述商品信息展示次数,点击次数,以及点击率中的至少一项作为归一化相关性模型的入参计算所述第二相关性。 
其中,所述归一化相关性模型的构建方式可为:针对搜索日志中的每条关键词或者说查询词,以及每个查询词与一条商品信息的对应关系,可通过 与前述步骤n1-步骤n3获取每个查询词与相应一条商品信息的字符串占比,类目占比、所述商品信息展示次数,点击次数,以及点击率,然后将字符串占比、类目占比、所述商品信息展示次数,点击次数,点击率作为x=(x1,x2,x3,x4,x5)变量(显然可以采用x1,x2,x3,x4,x5中的至少一项),其中x1表示字符串占比,x2表示类目占比,x3表示商品信息展示次数,x4表示商品信息点击次数,x5表示点击率;然后对于该条商品信息的每条记录,如果是点击了记其目标分为1,如果只展示而未点击,记其目标分为0,将目标分作为y。如此针对大量的查询词和相应的商品信息,即商品信息查询记录,可得到大量的(x,y)变量对,然后即可采用(x,y)变量对进行逻辑回归计算,获得归一化相关性模型。当得到新的一查询词与一商品信息的字符串占比、类目占比、所述商品信息展示次数,点击次数,点击率,将其作为x带入所述归一化相关性模型,即可得到第二相关性。 
步骤160,根据所述第一相关性和第二相关性,对待计算的商品信息进行排序; 
然后可根据所述第一相关性和第二相关性,对所述待计算的商品信息进行排序。那么该过程舍弃了现有技术中必须经过竞价词关联商品信息的搜索过程,直接通过查询词或者其最相关的词与各商品信息进行内容匹配获取最优的商品信息集合,这减少了信息的流失程度;并且由于是根据查询词与商品信息的内容相关性进行搜索,相对现有技术复杂的扩展词,不用搜索引擎更多的计算,降低了搜索引擎的搜索和排序压力,避免了因竞价词的不准确,而导致检索出的商品信息不正确的问题。。 
步骤170,返回排序靠前的至少一条待计算的商品信息。 
在对商品集合中待计算的商品信息进行上述处理完毕后,即可将排序靠前的商品信息输送至用户端进行展现。 
实施例二 
参照图2,其示出了本申请一种商品信息搜索方法实施例二的流程示意图,具体可以包括: 
步骤210,提供商品信息和针对该商品信息的各初始关键词; 
步骤220,服务器接收查询词; 
步骤230,基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合; 
步骤240,对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
步骤250,针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性; 
步骤260,根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性; 
步骤270,根据所述第一总相关性,对待计算的商品信息进行排序。 
步骤280,返回排序靠前的至少一条待计算的商品信息。 
本实施例中步骤210至步骤250与实施例一的步骤110至步骤150类似,步骤280与实施例一的步骤170类似,在此不再详述。 
其中,步骤260和步骤270是步骤160的优选方式。 
对于步骤260,根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性; 
对于前述步骤得到了初始关键词与所述查询词的第一相关性,初始关键词与所述各部分或全部待计算的商品信息的第二相关性后,可基于所述第一相关性和第二相关性计算初始关键词对应所述商品信息的第一总相关性。 
在本申请中,相关性一般的取值范围均大于或等于0,因此,可将词语相关性乘以信息相关性得到第一总相关性;也可将词语相关性和信息相关性进行加权平均获得第一总相关性,其中第一相关性的权值和第二相关性的权值可根据实际情况设置。 
对于步骤270,得到所述初始关键词的第一总相关性后,可根据该第一总相关性对待计算的商品信息进行排序,比如按相关性大小进行排序。 
另外,本申请还可采用其他方式计算所述第一总相关性,本申请不对其 加以限制。 
本实施例也对于第一相关性和第二相关性进行比如加权平均计算第一总相关性,然后在基于第一总相关性对商品信息进行排序,可更准确的对商品信息进行排序。 
实施例三 
参照图3,其示出了本申请一种商品信息搜索方法实施例三的流程示意图,具体可以包括: 
步骤310,提供商品信息和针对该商品信息的各初始关键词,提供各初始关键词的权值; 
在实施例一的步骤110或者实施例二的步骤210的基础上,本申请在后台还可提供个初始关键词的权值,比如卖家对各关键词设置价格等情况。然后在后续的步骤390中使用。 
在本实施例中,服务器接收并存储各第一用户选择的针对商品信息的各初始关键词和各初始关键词的权值。 
那么,在后端服务器接收并存储各第一用户选择的针对每一商品信息的各初始关键词、和各初始关键词的权值的基础之上,针对第二用户,对商品信息的搜索和展示过程包括: 
步骤320,服务器接收查询词; 
步骤330,基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合; 
步骤340,对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
步骤350,针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性; 
步骤360,根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性; 
步骤370,将第一总相关性最高的初始关键词作为相应商品信息的排序 关键词; 
步骤380,计算所述查询词与各待计算的商品信息的第三相关性; 
步骤390,针对所述初始商品信息集合中每条待计算商品信息,结合相应第三相关性和排序关键词的权值,计算所述查询词与所述各商品信息的第二总相关性; 
步骤395,以第二总相关性对所述各待计算的商品信息进行排序。 
步骤400,将排序靠前的至少一条商品信息返回至用户端展示。 
在对商品信息集合中各待计算的商品信息进行上述处理完毕后,即可将排序靠前的商品信息输送至用户端进行展现。 
在本实施例中,步骤320至步骤350与实施例一的步骤120至步骤150,类似;步骤400与实施例一的步骤170类似;步骤360与实施例二的步骤260类似,在此不再详述。 
其中,步骤370、380、390、395是实施例一的步骤160的优选方式。 
本实施例的搜索过程除了包括实施例一的优点外,也不需要发布商品信息的客户(比如卖家)自己深度考虑如何选取排序关键词的问题,减少卖家无序的选取排序关键词的问题,可提高客户的商品信息的展示和点击效率,从而提高服务效率。 
对于步骤370,将第一总相关性最高的初始关键词作为相应商品信息的排序关键词。 
将第一总相关性最高的初始关键词作为相应商品信息的排序关键词,可用于后续对商品信息进行的最终排序。 
对于步骤380,计算所述查询词与各待计算的商品信息的第三相关性; 
计算所述查询词与各待计算的商品信息的第三相关性时,与计算各初始关键词与所述商品信息的第二相关性类似,即可以利用实施例中介绍的步骤n1至n6进行计算,计算时,只需将初始关键词替换为查询词即可。也可采用其他方式进行计算,本申请不对其加以限制。 
对于步骤390,针对所述初始商品信息集合中每条待计算商品信息,结合相应第三相关性和排序关键词的权值,计算所述查询词与所述各商品信息 的第二总相关性; 
如前所述,第一用户在选择初始关键词时会对各初始关键词预设权值,那么排序关键词也存在权值。那么即可将第三相关性和排序关键词的权值进行加权平均等方式计算所述查询词与所述各商品信息的第二总相关性。 
优选地,计算第二总相关性的步骤包括: 
步骤S31,获得所述商品信息与所述查询词的第三相关性,将所述第三相关性乘以相关性权重得到第一排序特征值; 
比如对于商品信息A,其与查询词m的相关性为a,预置的相关性权重为k,那么第一排序特征值为a*k。 
步骤S32,获取商品信息客户对所述排序关键词的权值,将所述权值乘以权值权重得到第二排序特征值; 
比如商品信息客户预先对排序关键词设置的权值为c,预置的权值权重为l,那么第二排序特征值为c*l。 
步骤S33,将第一排序特征值加上第二排序特征值得到所述商品信息的第二总相关性; 
a*k+c*l即可得到商品信息A的第二总相关性。 
步骤395,以第二总相关性对所述各待计算的商品信息进行排序。 
计算得到各商品信息与查询词的第二总相关性后,即可根据第二总相关性的大小对各商品信息进行排序。 
实施例四 
参照图4,其示出了本申请一种商品信息搜索方法实施例四的流程示意图,具体可以包括: 
步骤410,提供商品信息和针对该商品信息的各初始关键词; 
步骤420,服务器接收查询词; 
步骤430,获取与所述查询词第四相关性大于阈值的扩展词; 
步骤440,根据所述查询词与所述扩展词,针对商品信息的内容进行检索,获得初始商品集合; 
步骤450,对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
步骤460,针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性; 
步骤470,根据所述第一相关性和第二相关性,对待计算的商品信息进行排序; 
步骤480,返回排序靠前的至少一条待计算的商品信息。 
本实施例中,步骤410和420与实施例一的步骤110和120类似,步骤450与实施例一步骤140,步骤460与实施例一步骤150,步骤470与实施例一步骤160,步骤480与实施例一步骤170类似,在此不再详述。 
对于步骤430,基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合; 
本申请可针对卖家的各商品信息的内容信息构建索引,其中可以商品信息的核心词进行构建。 
例如,“特价2012春款新品女装长袖打底裙花色针织连衣裙”这个推广的商品信息标题,对这个标题分词,每个词都可以索引到这个商品信息。当用户输入“2012连衣裙”的时候,通过关键词“2012”和“连衣裙”就可以检索到该商品信息。商品信息包括多种内容,比如标题、描述信息等内容,本申请对于每条商品信息,可提取其中的强相关的关键词,即与商品信息内容相关性较大的词,建立索引。 
比如商品信息首先对商品信息的标题进行分词处理,然后统计描述信息中各分词出现的次数,将次数大于阈值的分词作为该条商品信息的检索词。还比如商品信息标题为“诺基亚n590正品手机”,进行分词得到的结果为“诺基亚”,“手机”“正品”,“n590”,通过关键词和手机类目的互信息的计算,把互信息大(即相关性高)的词作为索引词。这里“正品”这个词因为和手机类目的互信息小(即相关性低),可以不建立索引。具体依据商品信息内容建立索引的方法还可采取其他方法,比如依据上下文关系确定检索词等, 本申请不对其加以限制。 
其中,所述互信息(Mutual Information)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。在本申请中优选计算商品信息中的一关键词P与商品信息所属类目的互信息的方法如下: 
步骤A11,统计商品信息所属类目中各商品信息中出现的各个关键词,获得关键词集合X; 
步骤A12,计算所述关键词P在所述集合X中出现的概率H(X)P; 
步骤A13,统计商品信息所属类目之外的各类目的各商品信息中出现的各个关键词,获得关键词集合Y; 
步骤A14,计算所述关键词P在所述集合Y中出现的概率和H(Y)P; 
步骤A15,计算所述关键词P在集合X和集合Y的联合熵H(X,Y); 
所述联合熵H(X,Y)=-∑p(x,y)logp(x,y),其中p(x,y)是所述关键词P同时出现在X集合和Y集合中的概率; 
步骤A16,根据所述H(X)P、H(Y)P和联合熵H(X,Y)计算所述关键词P与所述类目的互信息I(X,Y)。 
其中,I(X,Y)=H(X)+H(Y)-H(X,Y)。如此即可计算商品信息中的关键词P与所属类目的互信息,即所述关键词与所述类目的相关性。 
本实施例中,对于将查询词进行扩展得到扩展词的方法有多种,本申请不对其加以限制。比如基于统计的关联推荐,根据网站的网络搜索日志,根据用户搜索行为查找相似的查询关键词,进行聚类,推荐相关词。比如搜索手机可以推荐iphone。对于查询词的扩展词,本申请可预先进行构建。 
本申请实施例中,为了保证扩展词的相关性更高更客观,可根据网络搜索日志分析与查询词相关的扩展词,即优选的,扩展词获取步骤具体可包括: 
步骤A211,获取网络搜索日志; 
步骤A212,分析所述网络搜索日志中所述查询词的点击结果,从点击结果中提取关键词; 
步骤A213,计算所述关键词与所述查询词的相关性,当相关性大于阈值,则可将该词作为所述查询词的扩展词。 
在本申请中,为了使检索的得到的商品信息与原查询词信息的相关性更高,在选择扩展词时选择相关性较高的所述关键词作为扩展词,比如查询词为“春季连衣裙”,根据从点击结构中提取了关键词“雪纺连衣裙”,“雪纺连衣裙”中存在查询词“春季连衣裙”中的相同的产品词“连衣裙”,可计算其相关性为3/5,大于阈值0.5(即前述第四相关性),那么,可将“雪纺连衣裙”作为“春季连衣裙”的扩展词。又比如查询词“阿迪达斯三叶草”,分析搜索日志中“阿迪达斯三叶草”对应的搜索结果,提取与所述搜索结果中的关键词,并计算与“阿迪达斯三叶草”的相关性,比如从一个搜索结果中提取关键词“阿迪三叶草”,计算“阿迪三叶草”与“阿迪达斯三叶草”相关性为0.8,大于阈值0.5,则可将“阿迪三叶草”作为“阿迪达斯三叶草”的扩展词。 
对于步骤440,根据所述查询词与所述扩展词,针对商品信息的内容进行检索,获得初始商品集合。 
在前述针对商品信息的内容构建的索引中,利用所述查询词和所述扩展词同时进行检索,获得初始商品集合。 
本实施例可使商品信息的召回率更高,即通过相关性高的扩展词扩大召回的商品信息。 
实施例五 
参照图5,其示出了本申请一种商品信息搜索方法实施例五的流程示意图,具体可以包括: 
步骤510,提供商品信息和针对该商品信息的各初始关键词; 
步骤520,服务器接收查询词; 
步骤530,将所述查询词在针对商品信息内容的索引中进行检索; 
步骤540,判断根据所述各分词检索得到的初始商品集合中商品信息数量是否大于阈值;如果大于,转入步骤550,;如果小于,转入步骤560; 
步骤550,采用当前初始商品集合; 
步骤560,获取与所述查询词第四相关性大于阈值的扩展词;转入步骤 570; 
步骤570,将所述扩展词在针对商品信息内容的索引中进行检索,将检索得到的商品信息加入所述初始商品集合; 
步骤580,对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
步骤590,针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性; 
步骤595,根据所述第一相关性和第二相关性,对待计算的商品信息进行排序; 
步骤600,返回排序靠前的至少一条待计算的商品信息。 
在本实施例中,步骤510与520与实施例四的步骤410和420类似,步步骤580和450类似,骤590和步骤460,步骤595和步骤470,步骤600和步骤480类似,在此不加详述。 
对于步骤530,将所述查询词在针对商品信息内容的索引中进行检索; 
对于前述针对商品信息的内容构建的索引,可利用对查询词得到的查询分词,在商品信息内容的索引中进行检索,以获取初始商品集合。 
在本步骤中,还可进一步包括: 
步骤S121,将所述查询词进行分词处理。 
即将接收得到的查询词进行分词处理。比如对接收的查询词为“阿迪达斯三叶草”,对其进行分词处理,依据分词原理,可得到“阿迪达斯”、“三叶草”。 
步骤S122,将所述各分词在在针对商品信息内容的索引中进行检索。 
对于步骤540,判断根据所述各分词检索得到的初始商品集合中商品信息数量是否大于阈值;如果大于,转入步骤550,;如果小于,转入步骤560; 
判断步骤530得到的初始商品集合中的商品信息数量是否大于阈值,比如是否大于500条,如果大于则转入步骤550;如果小于,说明直接采用查询词获取的初始商品集合中商品信息数量过小,可进一步获取相关的商品信 息充实初始商品集合中的信息数量。 
在本申请中,为了保证返回的结果与用户的查询词最相关,优先采用查询词本身及其分词在针对商品信息内容的索引中检索,以获得初始商品集合,当初始商品集合中商品信息数量足够时,则可直接采用初始商品集合,不用再进一步搜索,即进入步骤550。优选地,为了保证返回给用户端充裕的商品信息数量,可先采用查询词本身及其分词在针对商品信息内容的索引中检索,以获得的初始商品集合中的商品信息,当获得的商品信息数量不足时,则可采用与查询词强相关的扩展词,即相关性阈值较高的扩展词在针对商品信息内容的索引中检索,将检索得到的商品信息加入初始商品集合,增加初始商品集合中商品信息的数量,即步骤560和步骤570。 
对于步骤560,获取与所述查询词第四相关性大于阈值的扩展词;转入步骤570; 
其中,扩展词的获取步骤与实施例四中的优选的步骤A21类似,在此不再详述。 
在本实施例中,为了保证检索的商品信息与查询词相关并且商品信息数量符合要求,采用了步骤530至步骤570,与现有技术中所获取的初始商品集合基本上是与用户端输入的查询词相关的最优商品集合,而本申请中,通过上述步骤,保证了商品信息的召唤数量,也可有效筛除因为第一用户对其商品信息选择不相关的初始关键词而产生的与查询词不相关的商品信息。 
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。再次,每个实施例所涉及的动作也可组合在同一个实施例中。 
参照图6、其示出了一种商品信息搜索系统实施例一的结构示意图,包括: 
商品信息提供模块610,用于提供商品信息和针对该商品信息的各初始关键词; 
查询词接收模块620,用于服务器接收查询词; 
初始商品集合获取模块630,用于基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合; 
初始关键词获取模块640,用于对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词; 
相关性计算模块650,用于针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性; 
排序模块660,用于根据所述第一相关性和第二相关性,对待计算的商品信息进行排序; 
返回模块670,用于返回排序靠前的至少一条待计算的商品信息。 
优选的,所述初始商品集合获取模块包括: 
第一扩展词获取模块,用于获取与所述查询词第四相关性大于阈值的扩展词; 
第一初始商品集合获取模块,用于根据所述查询词与所述扩展词,针对商品信息的内容进行检索,获得初始商品集合。 
优选的,所述排序模块包括: 
第一总相关性计算模块,用于根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性; 
第一排序模块,用于根据所述第一总相关性,对待计算的商品信息进行排序。 
优选的,所述第一排序模块包括: 
排序关键词确认模块,用于将第一总相关性最高的初始关键词作为相应商品信息的排序关键词; 
相关性计算模块三,用于计算所述查询词与各待计算的商品信息的第三相关性; 
相关性计算模块四,用于针对所述初始商品集合中每条待计算商品信息,结合相应第三相关性和排序关键词的权值,计算所述查询词与所述各商品信息的第二总相关性; 
第二排序模块,用于以第二总相关性对所述各待计算的商品信息进行排序。 
优选的,所述初始商品集合获取模块包括: 
分词模块,用于将所述查询词进行分词处理; 
第一检索模块,用于将得到的各分词在针对商品信息内容的索引中进行检索; 
判断模块,用于判断根据所述各分词检索得到的初始商品集合中商品信息数量是否大于阈值; 
第二初始商品集合获取模块,用于如果大于,则采用当前初始商品集合; 
第二扩展词获取模块,用于如果小于,则获取与所述查询词第四相关性大于阈值的扩展词; 
第三初始商品集合获取模块,用于将所述扩展词在针对商品信息内容的索引中进行检索,将检索得到的商品信息加入所述初始商品集合。 
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。 
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。 
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明优选应用于嵌入式系统中。 
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述, 例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。 
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。 
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。 
以上对本申请所提供的一种商品信息搜索方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。 

Claims (10)

1.一种商品信息搜索方法,其特征在于,包括:
提供商品信息和针对该商品信息的各初始关键词;
服务器接收查询词;
基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合;
对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词;
针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性;
根据所述第一相关性和第二相关性,对待计算的商品信息进行排序;
返回排序靠前的至少一条待计算的商品信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一相关性和第二相关性,对待计算的商品信息进行排序,具体包括:
根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性;
根据所述第一总相关性,对待计算的商品信息进行排序。
3.根据权利要求2所述的方法,其特征在于,在服务器接收查询词之前,还提供各初始关键词的权值,所述根据所述第一总相关性对待计算的商品信息进行排序,具体包括:
将第一总相关性最高的初始关键词作为相应商品信息的排序关键词;
计算所述查询词与各待计算的商品信息的第三相关性;
针对所述初始商品信息集合中每条待计算商品信息,结合相应第三相关性和排序关键词的权值,计算所述查询词与所述各商品信息的第二总相关性;
以第二总相关性对所述各待计算的商品信息进行排序。
4.根据权利要求1所述的方法,其特征在于,所述计算所述各初始关键词与所述查询词的第一相关性,具体包括:
计算所述初始关键词与查询词相同的词的字符长度占所述查询词字符长度的长度占比;
根据从所述初始关键词变换到查询词的操作次数,计算从所初始关键词到所述查询词的编辑距离;
结合所述占比和所述编辑距离,计算所述初始关键词与所述查询词的第一相关性。
5.根据权利要求1所述的方法,其特征在于,所述计算所述各初始关键词与所述查询词的第一相关性包括:
获取网络搜索日志,分析所述网络搜索日志中所述查询词的点击情况,并分析以所述初始关键词为查询词时的点击情况;
将所述查询词的点击情况向量化为第一向量,并将所述初始关键词的点击情况向量化为第二向量;
计算所述第一向量和第二向量之间的夹角值,并将所述夹角值作为相关性第一相关性。
6.根据权利要求1所述的方法,其特征在于,所述各初始关键词与所述商品信息的第二相关性,具体包括:
统计所述初始关键词在所述商品信息包括的文本信息中的字符串占比;和/或,
针对网络搜索日志中包括的以所述初始关键词为查询词时的点击日志,统计所述商品信息所属类目,在所述初始关键词点击的各类目中的类目占比;和/或,
针对网络搜索日志中包括的针对各商品信息的展示日志,统计所述商品信息的展示次数;和/或,
针对网络搜索日志中包括的针对各商品信息的点击日志,统计所述商品信息的点击次数;和/或,
根据所述商品信息的展示次数和点击次数,计算所述商品信息的点击率;
针对所述字符串占比、所述类目占比、所述商品信息展示次数、点击次数、以及点击率中的至少一项,计算所述初始关键词与所述商品信息的第二相关性。
7.根据权利要求1所述的方法,其特征在于,基于所述查询词,针对商品信息的内容进行检索,获得初始商品信息集合,包括:
获取与所述查询词第四相关性大于阈值的扩展词;
根据所述查询词与所述扩展词,针对商品信息的内容的索引中进行检索,获得初始商品信息集合。
8.根据权利要求1所述的方法,其特征在于,基于所述查询词,针对商品信息的内容进行检索,获得初始商品信息集合,包括:
将所述查询词在针对商品信息内容的索引中进行检索;
判断根据所述各分词检索得到的初始商品信息集合中商品信息数量是否大于阈值;
如果大于,则采用当前初始商品信息集合;
如果小于,则获取与所述查询词第四相关性大于阈值的扩展词;
将所述扩展词在针对商品信息内容的索引中进行检索,将检索得到的商品信息加入所述初始商品信息集合。
9.一种商品信息搜索系统,其特征在于,包括:
商品信息提供模块,用于提供商品信息和针对该商品信息的各初始关键词;
查询词接收模块,用于服务器接收查询词;
初始商品集合获取模块,用于基于所述查询词,针对商品信息的内容进行检索,获得初始商品集合;
初始关键词获取模块,用于对于所述初始商品集合中部分或全部待计算的商品信息,获取每条待计算商品信息对应的各初始关键词;
相关性计算模块,用于针对待计算的商品信息的各初始关键词,计算所述各初始关键词与所述查询词的第一相关性,和各初始关键词与所述商品信息的第二相关性;
排序模块,用于根据所述第一相关性和第二相关性,对待计算的商品信息进行排序;
返回模块,用于返回排序靠前的至少一条待计算的商品信息。
10.根据权利要求9所述的系统,其特征在于,所述排序模块包括:
第一总相关性计算模块,用于根据所述各初始关键词的第一相关性和第二相关性计算各初始关键词对应所述商品信息的第一总相关性;
第一排序模块,用于根据所述第一总相关性,对待计算的商品信息进行排序。
CN201210262531.9A 2012-07-26 2012-07-26 一种商品信息搜索方法和系统 Active CN103577432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210262531.9A CN103577432B (zh) 2012-07-26 2012-07-26 一种商品信息搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210262531.9A CN103577432B (zh) 2012-07-26 2012-07-26 一种商品信息搜索方法和系统

Publications (2)

Publication Number Publication Date
CN103577432A true CN103577432A (zh) 2014-02-12
CN103577432B CN103577432B (zh) 2017-07-14

Family

ID=50049237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210262531.9A Active CN103577432B (zh) 2012-07-26 2012-07-26 一种商品信息搜索方法和系统

Country Status (1)

Country Link
CN (1) CN103577432B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063523A (zh) * 2014-07-21 2014-09-24 焦点科技股份有限公司 一种电子商务搜索评分与排名的方法及系统
CN104408648A (zh) * 2014-12-09 2015-03-11 北京博雅立方科技有限公司 一种挑选商品的方法及装置
CN105160003A (zh) * 2015-09-11 2015-12-16 中山大学 一种基于地理位置的app检索排序方法及系统
CN105183733A (zh) * 2014-06-05 2015-12-23 阿里巴巴集团控股有限公司 一种文本信息的匹配、业务对象的推送方法和装置
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
CN106339382A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种业务对象的推送方法和装置
CN107016460A (zh) * 2017-03-27 2017-08-04 中国联合网络通信集团有限公司广西壮族自治区分公司 用户换机预测方法及装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN108280198A (zh) * 2018-01-29 2018-07-13 口碑(上海)信息技术有限公司 榜单生成方法及装置
WO2018209966A1 (zh) * 2017-05-16 2018-11-22 武汉斗鱼网络科技有限公司 一种信息搜索中关键词淘汰方法及装置
CN108932248A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种搜索实现方法及系统
CN109034867A (zh) * 2018-06-21 2018-12-18 腾讯科技(深圳)有限公司 点击流量检测方法、装置及存储介质
CN109635198A (zh) * 2018-12-17 2019-04-16 杭州柚子街信息科技有限公司 在商品展示平台上呈现用户搜索结果的方法、装置、介质及电子设备
CN110110199A (zh) * 2018-01-09 2019-08-09 北京京东尚科信息技术有限公司 信息输出方法和装置
CN110738553A (zh) * 2019-10-18 2020-01-31 深圳市比量科技传媒有限公司 一种将不同商城的商品链接进行相互映射的方法及系统
WO2020125015A1 (zh) * 2018-12-17 2020-06-25 北京三快在线科技有限公司 场景化商家召回
CN111353836A (zh) * 2018-12-20 2020-06-30 百度在线网络技术(北京)有限公司 商品推荐方法、装置及设备
CN111597297A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 物品召回方法、系统、电子设备及可读存储介质
CN112052303A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 一种关键词权重确定方法、装置以及计算设备
CN113570413A (zh) * 2021-07-28 2021-10-29 杭州王道控股有限公司 广告关键词的生成方法、装置、存储介质及电子设备
CN113657099A (zh) * 2021-08-13 2021-11-16 华世界数字科技(深圳)有限公司 一种商品标题生成方法、装置、智能设备及存储介质
CN114817685A (zh) * 2022-03-11 2022-07-29 杭州知聊信息技术有限公司 一种快速锁定目标信息的方法及其平台
CN117271869A (zh) * 2023-11-22 2023-12-22 深圳市灵智数字科技有限公司 用户搜索词推荐方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774335B1 (en) * 2005-08-23 2010-08-10 Amazon Technologies, Inc. Method and system for determining interest levels of online content navigation paths
CN101206674A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 以商品为媒介的增强型相关搜索系统及其方法
CN102214169B (zh) * 2010-04-02 2017-11-24 阿里巴巴集团控股有限公司 关键词信息与目标信息的提供方法及装置
CN101853467A (zh) * 2010-05-18 2010-10-06 上海购龙信息科技有限公司 一种计算机显示商品价格比价信息的执行方法
CN102446180B (zh) * 2010-10-09 2016-03-02 北京京东尚科信息技术有限公司 一种商品搜索方法及其装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183733A (zh) * 2014-06-05 2015-12-23 阿里巴巴集团控股有限公司 一种文本信息的匹配、业务对象的推送方法和装置
CN104063523A (zh) * 2014-07-21 2014-09-24 焦点科技股份有限公司 一种电子商务搜索评分与排名的方法及系统
CN104408648A (zh) * 2014-12-09 2015-03-11 北京博雅立方科技有限公司 一种挑选商品的方法及装置
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
CN106339382A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种业务对象的推送方法和装置
CN105160003B (zh) * 2015-09-11 2019-06-25 中山大学 一种基于地理位置的app检索排序方法及系统
CN105160003A (zh) * 2015-09-11 2015-12-16 中山大学 一种基于地理位置的app检索排序方法及系统
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107016460A (zh) * 2017-03-27 2017-08-04 中国联合网络通信集团有限公司广西壮族自治区分公司 用户换机预测方法及装置
WO2018209966A1 (zh) * 2017-05-16 2018-11-22 武汉斗鱼网络科技有限公司 一种信息搜索中关键词淘汰方法及装置
CN108932248A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种搜索实现方法及系统
CN110110199A (zh) * 2018-01-09 2019-08-09 北京京东尚科信息技术有限公司 信息输出方法和装置
CN110110199B (zh) * 2018-01-09 2024-02-06 北京京东尚科信息技术有限公司 信息输出方法和装置
CN108280198A (zh) * 2018-01-29 2018-07-13 口碑(上海)信息技术有限公司 榜单生成方法及装置
CN109034867A (zh) * 2018-06-21 2018-12-18 腾讯科技(深圳)有限公司 点击流量检测方法、装置及存储介质
CN109635198A (zh) * 2018-12-17 2019-04-16 杭州柚子街信息科技有限公司 在商品展示平台上呈现用户搜索结果的方法、装置、介质及电子设备
WO2020125015A1 (zh) * 2018-12-17 2020-06-25 北京三快在线科技有限公司 场景化商家召回
CN109635198B (zh) * 2018-12-17 2020-09-29 杭州柚子街信息科技有限公司 在商品展示平台上呈现用户搜索结果的方法、装置、介质及电子设备
CN111353836A (zh) * 2018-12-20 2020-06-30 百度在线网络技术(北京)有限公司 商品推荐方法、装置及设备
CN111597297A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 物品召回方法、系统、电子设备及可读存储介质
CN112052303A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 一种关键词权重确定方法、装置以及计算设备
CN110738553A (zh) * 2019-10-18 2020-01-31 深圳市比量科技传媒有限公司 一种将不同商城的商品链接进行相互映射的方法及系统
CN113570413A (zh) * 2021-07-28 2021-10-29 杭州王道控股有限公司 广告关键词的生成方法、装置、存储介质及电子设备
CN113570413B (zh) * 2021-07-28 2023-12-05 杭州王道控股有限公司 广告关键词的生成方法、装置、存储介质及电子设备
CN113657099A (zh) * 2021-08-13 2021-11-16 华世界数字科技(深圳)有限公司 一种商品标题生成方法、装置、智能设备及存储介质
CN114817685A (zh) * 2022-03-11 2022-07-29 杭州知聊信息技术有限公司 一种快速锁定目标信息的方法及其平台
CN117271869A (zh) * 2023-11-22 2023-12-22 深圳市灵智数字科技有限公司 用户搜索词推荐方法、装置及电子设备
CN117271869B (zh) * 2023-11-22 2024-03-29 深圳市灵智数字科技有限公司 用户搜索词推荐方法、装置及电子设备

Also Published As

Publication number Publication date
CN103577432B (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN103577432A (zh) 一种商品信息搜索方法和系统
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
US9489688B2 (en) Method and system for recommending search phrases
JP6247292B2 (ja) クエリ拡張
CN103593425B (zh) 基于偏好的智能检索方法及系统
CN104252456B (zh) 一种权重估计方法、装置及系统
CN109816482B (zh) 电商平台的知识图谱构建方法、装置、设备及存储介质
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN104899322A (zh) 搜索引擎及其实现方法
CN105426528A (zh) 一种商品数据的检索排序方法及系统
CN102129431B (zh) 应用于网上交易平台的检索方法和系统
CN103914492A (zh) 查询词融合方法、商品信息发布方法和搜索方法及系统
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN102999560A (zh) 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性
CN106445963B (zh) App平台的广告索引关键词自动生成方法和装置
CN108108380A (zh) 搜索排序方法、搜索排序装置、搜索方法和搜索装置
CN104077286A (zh) 商品信息的搜索方法及系统
CN103064945A (zh) 基于本体的情境搜索方法
CN102456058A (zh) 类目信息提供方法及装置
CN103400286A (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
CN106062743A (zh) 用于关键字建议的系统和方法
CN102385585A (zh) 网页数据库的建立方法、网页搜索方法以及相关装置
CN105023178B (zh) 一种基于本体的电子商务推荐方法
CN103823906A (zh) 一种基于微博数据的多维度检索排序优化算法和工具

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1193191

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1193191

Country of ref document: HK