CN102760144A - 信息搜索方法及系统 - Google Patents

信息搜索方法及系统 Download PDF

Info

Publication number
CN102760144A
CN102760144A CN2011103377044A CN201110337704A CN102760144A CN 102760144 A CN102760144 A CN 102760144A CN 2011103377044 A CN2011103377044 A CN 2011103377044A CN 201110337704 A CN201110337704 A CN 201110337704A CN 102760144 A CN102760144 A CN 102760144A
Authority
CN
China
Prior art keywords
information
commodity
search
commercial articles
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103377044A
Other languages
English (en)
Inventor
闫鹏
李彦宏
蔡虎
沈毅
李磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Lohas Online (beijing) Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lohas Online (beijing) Network Technology Co Ltd filed Critical Lohas Online (beijing) Network Technology Co Ltd
Priority to CN2011103377044A priority Critical patent/CN102760144A/zh
Publication of CN102760144A publication Critical patent/CN102760144A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种信息搜索方法,包括:建立商品信息数据库;根据商品信息数据库中的商品信息编制索引,得到商品索引信息;根据所述商品索引信息,提取商品图片,并抽取所述商品图片特征值,将与所述特征值相近的商品进行聚类,得到至少一个商品聚类信息;将商品索引信息和商品聚类信息存储;接收用户搜索请求;搜索与所述搜索请求相关的商品索引信息、所述商品聚类信息,得到搜索结果;输出搜索结果。本发明通过将相同或相似的商品进行聚类,减少用户的进一步筛选操作,提高搜索效率,节约网络流量;同时,减少了客户端向服务器发起访问请求次数,从而减轻了服务器的处理压力,以及减少了占用的网络带宽,提升了网络传输速度,避免造成网络堵塞。

Description

信息搜索方法及系统
技术领域
本发明涉及一种信息搜索方法及系统,尤其是指一种在搜索过程中可按照相似度进行聚类的搜索方法及系统。
背景技术
随着互联网的普及以及在线支付技术的发展,通过互联网进行在线购物已经成为一种重要的购物方式,在线购物的优点主要包括:便捷,只要有互联网络的地方均可随时随地地进行购物;选择面广,可以同时浏览、比较众多不同商家出售的同类或者不同类的商品;价格便宜,相对于实体店面出售的商品,价格上存在较大的折扣。基于在线购物的这些优点,提供在线购物的在线购物平台已经得到了充分的发展。例如,国外比较著名的在线购物网站Ebay(www.ebay.com)、亚马逊(www.amazon.com),国内比较著名的购物网站淘宝(www.taobao.com)、百度有啊(www.youa.com),等等。
这些在线购物网站上都会提供一个商品搜索界面的输入框,用户在该搜索界面中输入商品查询条件时,会很快得到对应的商品搜索结果,这些商品搜索结果可以按照不同的属性进行排序,以便用户可以快速找到其最期望搜索到的商品,所述的排序属性包括:按照商品的销量排序、按照商品卖家的地域排序、按照商品卖家的信誉排序、按照商品的价格排序,等等。
这些商品排序的方法有助于用户较快地查询到期望购买的商品。但是,当商品搜索结果很多时,以上的商品排序方法仍然不能完全满足用户的需要。常见的问题是:在现有商品搜索中,根据用户提交的商品查询关键字搜索出商品后,查询结果被直接罗列给用户使用,所述的商品搜索结果中,有很多是相同的商品,只是这些提供这些商品的卖家不同,即相同或类似的商品不进行聚类提供给用户使用,需要用户在定位自己真正期望的商品之前,进行多次的筛选或者搜索。以图1中的一种现有的商品搜索结果为例,用户搜索的关键词是“诺基亚手机”(对应于图1中的区域“A”),由于诺基亚手机的型号众多、应用广泛、且卖家众多,返回的搜集结果(对应于图1中的区域“B”,图1中仅仅显示了几个搜索结果)多达上万项,而在这上万项搜索结果中,有很多搜索结果对应的都是型号相同的手机,只是出售这些型号相同的手机商品的卖家不同而已,类似于图1中这样直接罗列搜索结果的缺陷在于:若用户期望详细比较察看其中某款型号的手机,他可能需要再次限定新的更具体的搜索关键词,或者他可以选择一页一页地翻看已有的大量检索结果,无论采用那种方式,用户都需要进行多次的筛选或者搜索,这样的商品搜索结果的展现方式不能完全符合用户的期望值,搜索效率较低,耗费无谓的网络流量,另外,无论用户是限定新的更具体的搜索关键词,还是用户不断地翻页、点击查看每条搜索结果,均使得客户端向服务器不断的发起访问请求,加大了服务器的处理压力;与此同时,服务器也需要不断的向客户端返回搜索结果,这些搜索结果在网络传输的过程中将占用大量的网络带宽,减慢了网络传输速度,甚至造成网络堵塞。
因此,有必要在现有技术的基础上做出改进,向在线购买商品的用户提供一种更准确的商品搜索结果的商品搜索方法及系统。
发明内容
本发明的目的在于为解决上述现有技术缺陷,提供一种经过改进的在商品搜索中按照商品的相似度进行聚类的商品搜索方法,所述的商品搜索方法可以在商品搜索结果中将相同或者相近似的商品聚类组合在一起展现。
本发明的另一目的在于为解决上述现有技术缺陷,提供一种经过改进的在商品搜索中按照商品的相似度进行聚类的商品搜索系统,所述的商品搜索系统可应用所述经过改进的在商品搜索中按照商品的相似度进行聚类的商品搜索方法。
相应地,本发明一种实施方式的商品搜索方法包括如下步骤:
S1、建立商品信息数据库;
S2、根据商品信息数据库中的商品信息编制索引,得到商品索引信息;
S3、根据所述商品索引信息,提取商品图片,并抽取所述商品图片特征值,将与所述特征值相近的商品进行聚类,得到至少一个商品聚类信息;
S4、将所述商品索引信息和所述商品聚类信息存储;
S5、接收用户搜索请求;
S6、搜索与所述搜索请求相关的所述商品索引信息、所述商品聚类信息,得到搜索结果;
S7、输出所述搜索结果。
作为本发明的进一步改进,所述方法还包括更新步骤:
定期的根据商品信息数据库的更新信息,更新所述商品索引信息、商品聚类信息。
作为本发明的进一步改进,在所述S3步骤后,还包括步骤:
计算出至少一个所述商品聚类信息中的商品平均价格信息。
作为本发明的进一步改进,所述S4步骤还包括将所述商品平均价格信息存储。
作为本发明的进一步改进,在所述S6步骤,还包括搜索与所述搜索请求相关的所述商品平均价格信息。
作为本发明的进一步改进,在所述S4步骤后,还包括更新步骤:
定期的根据商品信息数据库的更新信息,更新所述商品索引信息、所述商品聚类信息,以及所述商品平均价格信息。
作为本发明的进一步改进,所述S3步骤中的所述商品图片特征值计算是通过SIFT算法进行。
作为本发明的进一步改进,所述商品索引信息包括商品图片和商品价格,以及商品名称和/或商品型号。
相应地,本发明的一种实施方式的商品搜索系统包括:
UI模块,用于接收用户搜索请求和输出搜索结果;
搜索模块,用于搜索与所述搜索请求相关的商品索引信息、商品聚类信息。
作为本发明的进一步改进,所述搜索模块还用于搜索与所述搜索请求相关的商品平均价格信息。
作为本发明的进一步改进,所述系统还包括:
数据存储模块,用于建立商品信息数据库;
索引建立单元,用于根据所述商品信息数据库中的商品信息编制索引,得到商品索引信息;
聚类单元,用于根据所述商品索引信息,提取商品图片,并抽取所述商品图片特征值,将与所述特征值相近的商品进行聚类,得到至少一个商品聚类信息;
存储单元,用于将所述商品索引信息和所述商品聚类信息进行存储;
UI模块,用于接收用户搜索请求和输出搜索结果;
搜索模块,用于搜索与所述搜索请求相关的所述商品索引信息、所述商品聚类信息,得到搜索结果。
作为本发明的进一步改进,所述系统还包括:
更新模块,用于定期的根据商品信息数据库的更新信息,更新所述商品索引信息、所述商品聚类信息。
作为本发明的进一步改进,所述系统还包括:
价格计算单元,用于计算出至少一个所述商品聚类信息中的商品平均价格信息。
作为本发明的进一步改进,所述存储单元还用于将所述商品平均价格信息存储。
作为本发明的进一步改进,所述搜索模块还用于搜索与所述搜索请求相关的所述商品平均价格信息。
作为本发明的进一步改进,所述系统还包括:
更新模块,用于定期的根据商品信息数据库的更新信息,更新所述商品索引信息、所述商品聚类信息,以及所述商品平均价格信息。
作为本发明的进一步改进,所述商品图片特征值计算是通过SIFT算法进行。
作为本发明的进一步改进,所述系统还包括:
Web服务模块,用于通过网络协议接收客户端发出的查询条件,并将所述查询条件转到所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述结果页面返回至所述客户端。
作为本发明的进一步改进,所述商品索引信息包括商品图片和商品价格,以及商品名称和/或商品型号。
本发明的有益效果是:改进了商品搜索的方法及系统,通过增加商品的聚类模块,优化搜索的排序结果,将相同或相似的商品进行聚类,增加商品列表的规整程度,减少用户的进一步筛选操作,提高搜索效率,节约网络流量;同时,减少了客户端向服务器发起访问请求次数,从而减轻了服务器的处理压力,以及减少了占用的网络带宽,提升了网络传输速度,避免造成网络堵塞。
附图说明
图1是一种现有的在线购物网站的商品查询结果示意图。
图2是本发明的商品搜索系统与客户端实现互动的工作原理图。
图3是本发明的一种实施方式商品搜索系统的结构示意图。
图4是图3中的聚类模块的结构示意图。
图5是本发明的一种实施方式的商品搜索方法的工作流程示意图。
图6是应用本发明的商品搜索方法所产生的商品查询结果按照聚类组合的网页示意图。
图7是图6中的一个商品聚类展开后的商品查询结果网页示意图。
具体实施方式
为了对发明的技术特征、发明目的和技术效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,在各图中相同的标号表示步骤相同的部分。在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。
如图2所示的本发明的商品搜索中按照商品相似度聚类的商品搜索系统10与客户端20实现互动的工作原理图。本实施方式中,该客户端20包括一浏览器,客户可通过该浏览器打开搜索引擎,并在搜索引擎中输入查询条件,一般的,该输入的查询条件为文本信息,当然,该查询条件还可以为图片信息、视频信息等等,当然,在本发明最佳实施方式中,所述搜索引擎即是本发明所述的商品搜索系统。所述商品搜索系统10通过网络接收客户输入至所述浏览器中的查询条件,并对该查询条件进行搜索后,将搜索结果返回至该浏览器。其中,该商品搜索系统10可以包括一台或多台服务器,该客户端20可以包括一个或多个用户终端设备,如个人计算机、笔记本电脑、无线电话、个人数字处理(PDA)、或其它计算机系统和通信系统。
这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理系统、存储系统、一个或多个输入/输出系统、和通信接口等。总线可以包括一个或多个导线,用来实现服务器或终端设备各组件之间的通信。处理系统包括各类型的用来执行指令、处理进程或线程的处理器或微处理器。存储系统可以包括存储动态信息的随机访问存储器(RAM)等动态存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介质与相应驱动的大容量存储器。输入系统供用户输入信息到服务器或终端设备,如键盘、鼠标、手写笔、声音识别系统、或生物测定系统等。输出系统包括用来输出信息的显示器、打印机、扬声器等。通信接口用来使服务器或终端设备与其它系统或系统进行通信。通信接口之间可通过有线连接、无线连接、或光连接连接到网络中,使商品搜索系统10、客户端20间能够通过网络实现相互间的通信。网络可以包括局域网(LAN)、广域网(WAN)、电话网络如公共交换电话网(PSTN)、企业内部的互联网、因特网、或上述这些网络的结合等。
服务器和终端设备上均包含有用来管理系统资源、控制其它程序运行的操作系统软件,以及用来实现特定功能模块的应用软件。如图3所示,本发明的一种实施方式的商品搜索系统包括web服务模块100、与web服务模块100交互通信的UI模块102、与所述UI模块交互通信的搜索模块104、与所述搜索模块104通信的聚类模块106、与所述聚类模块106通信的数据存储模块108,以及与所述数据存储模块108通信的更新模块109。值得一提的是,这些模块即可存储并运行于同一服务器中,也可存储并运行在多台服务器中。
所述web服务模块100用于通过网络协议接收从客户端20传来的查询条件,并将该查询条件转到UI模块102,另外,该web服务模块100还用于接收所述UI模块102返回的结果页面,并将所述结果页面返回至客户端20。
所述UI模块102用于接收所述web服务模块100传送的查询条件,并将该查询条件发送至所述搜索模块104;另外,所述UI模块102还用于接收所述搜索模块104返回的搜索结果,并将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块100。
所述搜索模块104用于搜索与所述搜索请求相关的商品索引信息、商品聚类信息,得到搜索结果。具体地,所述搜索模块104接收所述UI模块102输入的查询条件,并根据所述查询条件在所述聚类模块106中查询,得到包括至少一个商品索引信息,以及商品聚类信息的搜索结果。优选地,在本发明最佳实施方式中,所述搜索模块104还用于根据聚类模块106中的聚类情况,搜索得到聚类商品平均价格信息,并将所述结果发送至所述UI模块102。
所述聚类模块106用于建立并存储商品索引信息、商品聚类信息。在本发明最佳实施方式中,所述聚类模块106还用于建立并存储商品平均价格信息。如何得到所述商品索引信息、商品聚类信息、商品平均价格信息可参下述结合图5的具体描述。
所述数据存储模块108用于建立商品信息数据库。具体地,所述数据存储模块108存储大量卖家提交的商品信息,本发明所用到的商品信息中主要是商品名称与商品的图片。当然,优选地,所述数据存储模块108中的商品信息还包括商品价格、类别、名称、摘要等等。
所述更新模块109用于定期的根据商品信息数据库的更新信息,更新所述商品索引信息、所述商品聚类信息。优选地,所述更新模块109还用于定期更新所述商品平均价格信息。
如图4所示,在本发明一个实施方式中,所述聚类模块106包括索引建立单元1060、聚类单元1062、价格计算单元1064、以及存储单元1066。
索引建立单元1060用于根据所述商品信息数据库中的商品名称编制索引,得到商品索引信息。优选地,在本发明最佳实施方式中,该索引不仅可将存储于数据存储模块108中所有的商品信息建立索引,还可按照商品属性将索引分成多个对应的类别,例如:若按照商品属性为品牌建立索引,则检索所有商品名称中带有品牌的,如将商品名称中包含“诺基亚”归入一类并建立对应的索引,将商品名称中包含“摩托罗拉”的归入另一类并对应的建立索引,以此类推,即可建立按照商品属性为品牌的完整索引表,当然,该商品属性还可以为其他,如品种、销售区域、销售价格、卖家信用等等,按照上述商品属性为品牌相类似的方式,可以为储存于数据存储模块108中的所有商品建立一个完整的索引表。
聚类单元1062用于根据所述商品索引信息,提取商品图片,并抽取所述商品图片特征值,将与所述特征值相近的商品进行聚类,得到至少一个商品聚类信息。所述的商品的图片指的是存储在数据存储模块108中的所有商品的商品信息中包括的表示该商品特征的至少一张图片信息。所述的商品的特征值通过SIFT算法进行计算获得,通过提取图片的局部特征,在尺度空间寻找极值点,提取位置,尺度,旋转不变量,并去掉尺度变化,旋转等几何变形因素的影响,其主要的步骤包括:1.检测尺度空间极值点;2.精确定位极值点;3.为每个关键点指定方向参数;4.关键点描述子的生成。关于SIFT算法的详细介绍可以参考公开资料,即百度文库(http://wenku.baidu.com/view/1fc69cfdc8d376eeaeaa31f6.html)。在通过SIFT算法进行特征值计算后,对进行量化,将量化之后的特征值量值相同或相似的图片进行聚类。
价格计算单元1064用于计算出至少一个商品聚类信息中的商品平均价格信息。一般而言,即使对于一个商品聚类中的同样商品,由于卖家的不同,商品的销售价格会存在一定的区别,通过统计某个商品聚类信息中的所有商品的价格并获得一个整体的平均价格,该平均价格可以作为搜索结果的一部分提供给用户参考,让用户可以更清晰地了解该商品的销售行情,有利于提高客户的使用体验度。
存储单元1066用于存储所述商品索引信息和商品聚类信息。优选地,在本发明最佳实施方式中,所述存储单元1066还用于存储商品平均价格信息,以便搜索模块104可以迅速的搜索所述存储单元1066中的商品索引信息、商品聚类信息、商品平均价格信息,并将搜索到的结果通过UI模块102拼装为结果页面,传输给用户。
以下结合图5描述本发明的一种实施方式的商品搜索中按照商品的相似度聚类的方法。
图5是本发明的一种实施方式的商品搜索方法的工作流程示意图。所述的方法包括如下的步骤:
S1、建立商品信息数据库;所述商品信息数据库储存于如图3所述的数据存储模块108中。所述商品信息主要包括商品名称与商品的图片,当然,优选地,所述商品信息还可包括商品价格、类别、名称、摘要等。所述建立商品信息数据库的步骤,本领域普通技术人员已可通过现有技术熟练掌握,在此不再赘述。
S2、根据商品信息数据库中的商品名称编制索引,得到商品索引信息;优选地,在本发明最佳实施方式中,该索引不仅可将存储于数据存储模块108中所有的商品信息建立索引,还可按照商品属性将索引分成多个对应的类别,例如:若按照商品属性为品牌建立索引,则检索所有商品名称中带有品牌的,如将商品名称中包含“诺基亚”归入一类并建立对应的索引,将商品名称中包含“摩托罗拉”的归入另一类并对应的建立索引,以此类推,即可建立按照商品属性为品牌的完整索引表,当然,该商品属性还可以为其他,如品种、销售区域、销售价格、卖家信用等等,按照上述商品属性为品牌相类似的方式,可以为储存于数据存储模块108中的所有商品建立一个完整的索引表。在本发明的一个实施方式中,所述的步骤S200通过索引建立单元1060完成。
S3、根据所述商品索引信息,提取商品图片,并抽取所述商品图片特征值,将与所述特征值相近的商品进行聚类,得到至少一个商品聚类信息;在本发明的一个实施方式中,所述的步骤S3通过图5中的聚类单元1062完成,聚类单元1062用于比较处于某个商品索引分类下的商品的图片的特征值,将图片的特征值相近的商品放入一个聚类中。所述的商品的图片指的是存储在数据存储模块108中的所有商品的商品信息中包括的表示该商品特征的至少一张图片信息。所述的商品的特征值通过SIFT算法进行计算获得,通过提取图片的局部特征,在尺度空间寻找极值点,提取位置,尺度,旋转不变量,并去掉尺度变化,旋转等几何变形因素的影响,主要的步骤包括:1.检测尺度空间极值点;2.精确定位极值点;3.为每个关键点指定方向参数;4.关键点描述子的生成。关于SIFT算法的详细介绍可以参考公开资料,即百度文库(http://wenku.baidu.com/view/1fc69cfdc8d376eeaeaa31f6.html)。在通过SIFT算法进行特征值计算后,对进行量化,将量化之后的特征值量值相同或相似的图片进行聚类。
S4、将所述商品索引信息和所述商品聚类信息存储;这些商品索引信息、商品聚类信息均存储在所述的聚类模块106的存储单元1066中,以便搜索模块104可以迅速的搜索所述存储单元1066中的商品索引信息、商品聚类信息并将搜索到的结果通过UI模块102拼装为结果页面,传输给用户。优选地,所述聚类模块106定期读取数据存储模块108中商品信息数据库的变化情况并将其更新到索引聚类存储模块中,即是定期的根据数据存储模块108中商品信息数据库的更新信息,更新所述商品索引信息、商品聚类信息。
S5、接收用户搜索请求;所述的搜索请求为用户在客户端浏览中输入的商品查询条件,该关键词通过Web服务模块100、UI模块102传输给所述搜索模块104。
S6、搜索与所述搜索请求相关的所述商品索引信息和所述商品聚类信息,得到搜索结果。优选地,在本发明的最佳实施方式中,在该步骤中,还有搜索与所述搜索请求相关的商品平均价格信息。另外,在本发明的一个实施方式中,所述步骤S2是通过图3中的搜索模块104完成。所述搜索单元1030用于接收所述UI模块102输入的查询条件,并将所述查询条件在所述聚类模块106中查询,得到聚类后的至少一类商品,以及与所述商品相应的商品平均价格。
S7、输出搜索结果。所述的搜索结果通过UI模块102拼装为结果页面后,通过Web服务模块100发送至用户客户端。
在本发明最佳实施方式中,在上述S3步骤后,还包括步骤(图中未示出):计算出至少一个所述商品聚类信息中的商品平均价格信息。在本发明的一个实施方式中,该步骤通过价格计算单元1064完成,价格计算单元1064用于计算出所述的一个聚类中的商品平均价格。一般而言,即使对于一个聚类中的用样商品,由于卖家的不同,商品的销售价格会存在一定的区别,通过统计某个聚类中的所有商品的价格并获得一个整体的平均价格,该平均价格可以作为搜索结果的一部分提供给用户参考,让用户可以更清晰地了解该商品的销售行情,有利于提高客户的使用体验度。
相应地,在所述步骤S4中,还包括将所述商品平均价格信息进行存储。所述聚类模块106定期读取数据存储模块108中商品信息数据库的变化情况并将其更新到索引聚类存储模块中,即是定期的根据数据存储模块108中商品信息数据库的更新信息,更新所述商品索引信息、商品聚类信息、商品平均价格信息。
相应地,在所述步骤S6中,还包括搜索与所述搜索请求相关的商品平均价格信息。
参考图6和图7,以下举例说明本发明的商品搜索方法及系统的工作过程与搜索结果。
在图6中,通过在客户端浏览器打开的商品搜索引擎的查询窗口(图6中标示为“C”的区域)中输入查询条件“诺基亚手机”,然后经过搜索,得到的聚类查询结果经过步骤通过UI模块102拼装成结果页面后,由Web服务模块发回客户端浏览器显示出来,如图6中标示为“D1”、“D2”、“D3”的区域分别显示了三种型号的诺基亚手机的聚类结果,所述的聚类结果中包括了商品的名称、简介、图片等,同时,还包括商品平均价格,以及商品的销售商家的数量。
图7是点击图6中的“D1”商品聚类展开后的商品查询结果示意图。可以看到,在将图6中的“D1”商品聚类展开之后,在该聚类中的所有商品的型号都是相同的(即型号为5800的诺基亚手机),所有的商品仅按照卖家的不同(图7中标示为“E”的区域)逐一提供给用户。
通过以上描述,可以得出,本发明的商品搜索方法及系统,改进了商品搜索的方法及系统,通过增加商品的聚类模块,优化搜索的排序结果,将相同或相似的商品进行聚类,增加商品列表的规整程度,减少用户的进一步筛选操作,提高搜索效率,节约网络流量;同时,减少了客户端向服务器发起访问请求次数,从而减轻了服务器的处理压力,以及减少了占用的网络带宽,提升了网络传输速度,避免造成网络堵塞。
应当理解,虽然本说明书按照实施例加以描述,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施例或变更均应包含在本发明的保护范围之内。

Claims (17)

1.一种信息搜索方法,其特征在于,该方法包括如下步骤:
S1、建立商品信息数据库;
S2、根据商品信息数据库中的商品信息编制索引,得到商品索引信息;
S3、根据所述商品索引信息,提取商品图片,并抽取所述商品图片特征值,将与所述特征值相近的商品进行聚类,得到至少一个商品聚类信息;
S4、将所述商品索引信息和所述商品聚类信息进行存储;
S5、接收用户搜索请求;
S6、搜索与所述搜索请求相关的所述商品索引信息和所述商品聚类信息,得到搜索结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括更新步骤:
定期的根据商品信息数据库的更新信息,更新所述商品索引信息、商品聚类信息。
3.如权利要求1所述的方法,其特征在于,在所述S3步骤后,还包括步骤:
计算出至少一个所述商品聚类信息中的商品平均价格信息。
4.如权利要求3所述的方法,其特征在于,所述S4步骤还包括将所述商品平均价格信息进行存储。
5.如权利要求4所述的方法,其特征在于,在所述S6步骤,还包括搜索与所述搜索请求相关的所述商品平均价格信息。
6.如权利要求5所述的方法,其特征在于,在所述S4步骤后,还包括更新步骤:
定期的根据商品信息数据库的更新信息,更新所述商品索引信息、所述商品聚类信息,以及所述商品平均价格信息。
7.如权利要求1所述的方法,其特征在于,所述S3步骤中的所述商品图片特征值计算是通过SIFT算法进行。
8.如权利要求1至7中任意一项所述的方法,其特征在于,所述商品索引信息包括商品图片和商品价格,以及商品名称和/或商品型号。
9.一种信息搜索系统,其特征在于,所述系统包括:
数据存储模块,用于建立商品信息数据库;
索引建立单元,用于根据所述商品信息数据库中的商品信息编制索引,得到商品索引信息;
聚类单元,用于根据所述商品索引信息,提取商品图片,并抽取所述商品图片特征值,将与所述特征值相近的商品进行聚类,得到至少一个商品聚类信息;
存储单元,用于将所述商品索引信息和所述商品聚类信息进行存储;
UI模块,用于接收用户搜索请求;
搜索模块,用于搜索与所述搜索请求相关的所述商品索引信息和所述商品聚类信息,得到搜索结果。
10.如权利要求9所述的系统,其特征在于,所述系统还包括:
更新模块,用于定期的根据商品信息数据库的更新信息,更新所述商品索引信息、所述商品聚类信息。
11.如权利要求9所述的系统,其特征在于,所述系统还包括:
价格计算单元,用于计算出至少一个所述商品聚类信息中的商品平均价格信息。
12.如权利要求11所述的系统,其特征在于,所述存储单元还用于将所述商品平均价格信息进行存储。
13.如权利要求12所述的系统,其特征在于,所述搜索模块还用于搜索与所述搜索请求相关的所述商品平均价格信息。
14.如权利要求13所述的系统,其特征在于,所述系统还包括:
更新模块,用于定期的根据商品信息数据库的更新信息,更新所述商品索引信息、所述商品聚类信息,以及所述商品平均价格信息。
15.如权利要求9所述的系统,其特征在于,所述商品图片特征值计算是通过SIFT算法进行。
16.如权利要求9所述的系统,其特征在于,所述系统还包括:
Web服务模块,用于通过网络协议接收客户端发出的查询条件,并将所述查询条件转到所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述结果页面返回至所述客户端。
17.如权利要求9至16中任意一项所述的系统,其特征在于,所述商品索引信息包括商品图片和商品价格,以及商品名称和/或商品型号。
CN2011103377044A 2011-04-26 2011-10-31 信息搜索方法及系统 Pending CN102760144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103377044A CN102760144A (zh) 2011-04-26 2011-10-31 信息搜索方法及系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110107123.1 2011-04-26
CN201110107123 2011-04-26
CN2011103377044A CN102760144A (zh) 2011-04-26 2011-10-31 信息搜索方法及系统

Publications (1)

Publication Number Publication Date
CN102760144A true CN102760144A (zh) 2012-10-31

Family

ID=47054602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103377044A Pending CN102760144A (zh) 2011-04-26 2011-10-31 信息搜索方法及系统

Country Status (2)

Country Link
CN (1) CN102760144A (zh)
WO (1) WO2012146136A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136680A (zh) * 2013-03-13 2013-06-05 江苏乐买到网络科技有限公司 一种呈现近似网络商品的方法
CN104021422A (zh) * 2013-03-01 2014-09-03 维加斯.Com,有限责任公司 用于基于每次展现的收入来列出购买项目的系统和方法
CN104376052A (zh) * 2014-11-03 2015-02-25 杭州淘淘搜科技有限公司 一种基于商品图像的同款商品合并方法
CN104715407A (zh) * 2013-12-17 2015-06-17 青岛龙泰天翔通信科技有限公司 一种智慧社区网络购物装置
CN106919591A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 网站的产品展示方法及装置
CN107153697A (zh) * 2017-05-08 2017-09-12 浙江敢尚网络科技有限公司 一种商品交易网站中的商品搜索方法和装置
CN107169691A (zh) * 2016-03-07 2017-09-15 索尼公司 用于信息处理的系统和方法
CN108604319A (zh) * 2016-02-05 2018-09-28 电子湾有限公司 混合电子库存
CN109949125A (zh) * 2019-03-01 2019-06-28 泉州市优拓信息技术有限公司 一种线上商城多个商家商品销售信息整合方法和系统
CN111340592A (zh) * 2020-02-26 2020-06-26 武汉比特链信息科技有限公司 一种基于5g通讯的人工智能区块链电子商务系统及方法
CN111667347A (zh) * 2020-06-12 2020-09-15 吉林吉大通信设计院股份有限公司 一种基于5g通信技术的大数据式搜索系统及其搜索方法
CN111966856A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 图片数据处理方法、装置、电子设备和存储介质
CN113326461A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 跨平台内容分发方法、装置、设备以及存储介质
CN114219589A (zh) * 2022-02-21 2022-03-22 浙江口碑网络技术有限公司 虚拟实体对象的生成和页面显示方法、装置和电子设备
CN114840781A (zh) * 2022-04-29 2022-08-02 北京字节跳动网络技术有限公司 一种搜索结果展示的方法、搜索请求处理方法以及装置
US12050634B2 (en) 2021-06-17 2024-07-30 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for distributing content across platforms, device and storage medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331810A (zh) * 2013-07-22 2015-02-04 腾讯科技(深圳)有限公司 团购信息处理方法、装置及系统
CN111198961B (zh) * 2018-11-16 2024-01-16 北京京东尚科信息技术有限公司 商品搜索方法、装置及服务器
CN111161016A (zh) * 2019-12-09 2020-05-15 广东禧越网络科技有限公司 一种基于地区商家保护政策的厂家直销方法与购物平台
CN115798517B (zh) * 2023-02-08 2023-04-28 南京邮电大学 基于语音信息特征数据的商品搜索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077569A1 (en) * 2006-09-27 2008-03-27 Yahoo! Inc., A Delaware Corporation Integrated Search Service System and Method
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN101853299A (zh) * 2010-05-31 2010-10-06 杭州淘淘搜科技有限公司 一种基于感性认知的图像检索结果排序方法
CN101937549A (zh) * 2010-10-09 2011-01-05 姚建 网络购物导航系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650717B (zh) * 2008-08-13 2013-07-31 阿里巴巴集团控股有限公司 一种节约数据库存储空间的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077569A1 (en) * 2006-09-27 2008-03-27 Yahoo! Inc., A Delaware Corporation Integrated Search Service System and Method
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN101853299A (zh) * 2010-05-31 2010-10-06 杭州淘淘搜科技有限公司 一种基于感性认知的图像检索结果排序方法
CN101937549A (zh) * 2010-10-09 2011-01-05 姚建 网络购物导航系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021422A (zh) * 2013-03-01 2014-09-03 维加斯.Com,有限责任公司 用于基于每次展现的收入来列出购买项目的系统和方法
US10062096B2 (en) 2013-03-01 2018-08-28 Vegas.Com, Llc System and method for listing items for purchase based on revenue per impressions
CN103136680A (zh) * 2013-03-13 2013-06-05 江苏乐买到网络科技有限公司 一种呈现近似网络商品的方法
CN104715407A (zh) * 2013-12-17 2015-06-17 青岛龙泰天翔通信科技有限公司 一种智慧社区网络购物装置
CN104376052A (zh) * 2014-11-03 2015-02-25 杭州淘淘搜科技有限公司 一种基于商品图像的同款商品合并方法
CN104376052B (zh) * 2014-11-03 2017-07-14 杭州淘淘搜科技有限公司 一种基于商品图像的同款商品合并方法
CN106919591A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 网站的产品展示方法及装置
CN108604319A (zh) * 2016-02-05 2018-09-28 电子湾有限公司 混合电子库存
CN108604319B (zh) * 2016-02-05 2024-03-19 斯达哈伯公司 混合电子库存
US10984373B2 (en) 2016-03-07 2021-04-20 Sony Corporation System and method for information processing
CN107169691A (zh) * 2016-03-07 2017-09-15 索尼公司 用于信息处理的系统和方法
CN107153697A (zh) * 2017-05-08 2017-09-12 浙江敢尚网络科技有限公司 一种商品交易网站中的商品搜索方法和装置
CN109949125A (zh) * 2019-03-01 2019-06-28 泉州市优拓信息技术有限公司 一种线上商城多个商家商品销售信息整合方法和系统
CN111340592A (zh) * 2020-02-26 2020-06-26 武汉比特链信息科技有限公司 一种基于5g通讯的人工智能区块链电子商务系统及方法
CN111340592B (zh) * 2020-02-26 2021-04-02 临沂佳画电子商务有限公司 一种基于5g通讯的人工智能区块链电子商务系统及方法
CN111667347A (zh) * 2020-06-12 2020-09-15 吉林吉大通信设计院股份有限公司 一种基于5g通信技术的大数据式搜索系统及其搜索方法
CN111667347B (zh) * 2020-06-12 2023-11-07 吉林吉大通信设计院股份有限公司 一种基于5g通信技术的大数据式搜索系统及其搜索方法
CN111966856A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 图片数据处理方法、装置、电子设备和存储介质
CN113326461A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 跨平台内容分发方法、装置、设备以及存储介质
US12050634B2 (en) 2021-06-17 2024-07-30 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for distributing content across platforms, device and storage medium
CN114219589A (zh) * 2022-02-21 2022-03-22 浙江口碑网络技术有限公司 虚拟实体对象的生成和页面显示方法、装置和电子设备
CN114840781A (zh) * 2022-04-29 2022-08-02 北京字节跳动网络技术有限公司 一种搜索结果展示的方法、搜索请求处理方法以及装置

Also Published As

Publication number Publication date
WO2012146136A1 (zh) 2012-11-01

Similar Documents

Publication Publication Date Title
CN102760144A (zh) 信息搜索方法及系统
US20190043100A1 (en) Interest-based communities
TWI522942B (zh) 用戶收藏夾資料的處理方法與裝置、用戶收藏夾資料的搜尋方法與裝置、及用戶收藏夾系統
US10204121B1 (en) System and method for providing query recommendations based on search activity of a user base
CN103150352B (zh) 用于生成相关搜索查询的系统
US10990632B2 (en) Multidimensional search architecture
CN102419768B (zh) 用于文档搜索的搜索高速缓存
CN102253936B (zh) 记录用户访问商品信息的方法及搜索方法和服务器
WO2016095733A1 (zh) 网络数据的展示处理方法和装置
CN101984420B (zh) 一种基于拆词处理进行图片搜索的方法与设备
US11836778B2 (en) Product and content association
EP3238099B1 (en) Method and user interface for presenting auxiliary content together with image search results
CN104077286A (zh) 商品信息的搜索方法及系统
KR20100094021A (ko) 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템
US8463770B1 (en) System and method for conditioning search results
CN103034680A (zh) 针对终端设备的数据交互方法及装置
CN103020128A (zh) 与终端设备交互数据的方法与装置
US8756120B2 (en) Hybrid context-sensitive matching algorithm for retrieving product catalogue information
CN103051512A (zh) 即时通信建立方法和系统
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
US11170062B2 (en) Structured search via key-objects
US10614498B2 (en) System, method, and non-transitory computer-readable storage media for efficient storage, processing and exchange of product information
US11256703B1 (en) Systems and methods for determining long term relevance with query chains
Xie et al. Interactive resource recommendation with optimization by tag association and significance analysis
Chew et al. Recommender System for Retail Domain: An Insight on Techniques and Evaluations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BAIDU IN LINE NETWORK TECHNOLOGY CO LTD (BEOJING)

Free format text: FORMER OWNER: LEHO ONLINE (BEIJING) NETWORK TECHNOLOGY CO., LTD.

Effective date: 20131028

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131028

Address after: 100085 Beijing, Haidian District, No. ten on the street Baidu building, No. 10

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: 100085, Baidu building, 10 floor, ten Street, Beijing, Haidian District, 4 AW

Applicant before: LOHAS online (Beijing) Network Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20121031