CN105426528B - 一种商品数据的检索排序方法及系统 - Google Patents

一种商品数据的检索排序方法及系统 Download PDF

Info

Publication number
CN105426528B
CN105426528B CN201510933198.3A CN201510933198A CN105426528B CN 105426528 B CN105426528 B CN 105426528B CN 201510933198 A CN201510933198 A CN 201510933198A CN 105426528 B CN105426528 B CN 105426528B
Authority
CN
China
Prior art keywords
user
commodity
result
similarity
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510933198.3A
Other languages
English (en)
Other versions
CN105426528A (zh
Inventor
郭克华
石宏彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201510933198.3A priority Critical patent/CN105426528B/zh
Publication of CN105426528A publication Critical patent/CN105426528A/zh
Application granted granted Critical
Publication of CN105426528B publication Critical patent/CN105426528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种商品数据的检索排序方法及系统,该方法包括步骤:根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与结果之间的相似度;从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过用户偏好模型计算商品与用户偏好之间的相似度;根据之前计算的两个相似度计算每个结果的排序度函数;按照排序度函数的函数值的大小将结果进行降序排列后,将排序返回给用户。该系统包括检索条件相似度计算模块、用户偏好相似度计算模块、排序度计算模块以及排序结果展示模块。本发明提供给用户更符合其检索意图的个性化的商品排序。

Description

一种商品数据的检索排序方法及系统
技术领域
本发明涉及数据库检索,尤其涉及一种商品数据的检索排序方法及系统。
背景技术
随着互联网和电子商务的迅猛发展,每天都有数以万计的商品交易在电商网站上完成。各大电商平台的商品种类、数量呈爆炸式增长。在纷繁多样的商品信息中,如何为用户提供一种检索服务,使其能够快速准确地检索到自己需要的商品,已经成为电子商务检索研究的一个重要问题。
传统的电子商务检索系统采用关键字或者图像匹配来实现检索功能,可能存在一词多义、歧义、用户输入不规范以及图像与商品之间存在“语义鸿沟”等问题,导致检索结果出现偏差,这些在现有自然语言以及图像的处理水平上是没有办法完全避免的。传统电子商务系统的检索结果通常以与用户查询条件相似度的高低作为排序依据,仅结合用户当前的输入进行检索排序,由于用户存在不同的兴趣爱好,即使输入相同的检索请求,其检索意图也可能不同,这种传统的检索方式忽略了用户的背景、习惯、偏好等因素,容易造成检索结果不能符合用户的实际需求,且不能给每个用户提供个性化的服务。
发明内容
本发明目的在于提供一种商品数据的检索排序方法及系统,以解决传统检索易出现偏差且不能为用户提供个性化服务的技术问题。
为实现上述目的,本发明提供了一种商品数据的检索排序方法,包括以下步骤:
S2:根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与结果之间的相似度,其中,检索条件包括检索关键词和\或检索示例图像;
S4:从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过用户偏好模型计算商品与用户偏好之间的相似度;
S6:根据用户当前输入的检索条件与结果之间的相似度,以及商品与用户偏好之间的相似度,计算每个结果的排序度函数;
S8:按照排序度函数的函数值的大小将结果进行降序排列后,将排序返回给用户。
作为本发明的方法的进一步改进:
步骤S2中计算用户当前输入的检索条件与结果之间的相似度,包括以下步骤:
S201:计算用户当前输入的检索条件中的检索关键词与结果之间的文本相似度;
S202:计算用户当前输入的检索条件中的检索示例图像与结果之间的图像相似度。
步骤S201包括以下步骤:
S2011:采用向量空间模型的方式,对商品的属性信息进行文本处理,文本处理包括依据属性信息进行分词和切割,并统计各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数;
S2012:根据各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数,以TF-IDF算法计算用户输入的关键词在商品的属性信息中的权重;
S2013:根据权重,通过余弦向量夹角计算关键词与商品的属性信息之间的文本相似度。
步骤S202包括以下步骤:
S2021:采用感知哈希算法提取图像的感知哈希值,然后以检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离计算用户当前输入的检索条件与结果之间的图像相似度,计算公式如下:
SimPic(G,Q)=log2(2+1/(1+d(CodeG,CodeQ))) (1)
其中,SimPic(G,Q)为用户当前输入的检索条件与结果之间的图像相似度,d(CodeG,CodeQ)是检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离,CodeG为结果所对应的商品的感知哈希值,CodeQ为检索示例图像的感知哈希值;图像相似度与汉明距离呈反比。
步骤S4包括以下步骤:
S401:在用户浏览器的后台采集用户的兴趣偏好所指向的商品,存入用户兴趣数据库中;
S402:从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型;
S403:通过用户偏好模型计算商品与用户偏好之间的相似度。
步骤S401包括以下步骤:
S4011:通过页面脚本监测并记录用户在商品页面的操作行为,并根据操作行为判断用户对商品是否感兴趣以及兴趣浓度的大小,操作行为包括停留时长、鼠标滚动次数、收藏和/或购买;
S4012:当判断用户对商品感兴趣时,提取商品对应的属性信息,计算并记录商品对应的属性信息以及商品对应的兴趣浓度权重。
步骤S4012中,记录商品对应的兴趣浓度权重,包括以下步骤:
S4012A:判断用户是否登录;
S4012B:当用户未登录时,将商品对应的属性信息以及商品对应的兴趣浓度权重存储在客户端的cookie中;
S4012C:当用户为登录状态时,将存储在客户端的cookie中的用户商品对应的属性信息以及商品对应的兴趣浓度权重上传到服务端并记录在与用户对应的用户兴趣数据库中。
步骤S6中,排序度函数的计算公式如下:
f(G,Q,P)=0.7*Sim(G,Q)+0.3*Sim(P,Q) (2)
其中,Sim(G,Q)为用户当前输入的检索条件与结果之间的相似度,Sim(P,Q)为商品与用户偏好之间的相似度。
基于同一个技术构思,本发明还提供一种商品数据的检索排序系统,包括:
检索条件相似度计算模块,用于根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与结果之间的相似度,其中,检索条件包括检索关键词和\或检索示例图像;
用户偏好相似度计算模块,用于从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过用户偏好模型计算商品与用户偏好之间的相似度;
排序度计算模块,用于根据用户当前输入的检索条件与结果之间的相似度,以及商品与用户偏好之间的相似度,计算每个结果的排序度函数;
排序结果展示模块,用于按照排序度函数的函数值的大小将结果进行降序排列后,将排序返回给用户。
作为本发明的系统的进一步改进:
检索条件相似度计算模块包括:
关键词相似度计算单元,用于计算用户当前输入的检索条件中的检索关键词与结果之间的文本的关键词相似度;
图像相似度计算单元,用于计算用户当前输入的检索条件中的检索示例图像与结果之间的图像相似度。
本发明具有以下有益效果:
1、本发明的商品数据的检索排序方法,将用户输入的检索条件与用户的兴趣偏好相结合,计算二者综合的排序度函数,在不增加用户输入检索条件的情况下,对检索结果进行个性化的排序调整,从而把那些可能跟用户当前输入的检索条件相关,但与用户检索意图存在语义偏差的结果排序降低,返回更加符合用户检索意图的排序结果,提供给用户更符合其检索意图的个性化的商品排序。
2、在优选方案中,本发明商品数据的检索排序方法,不需要用户显式地回馈偏好信息,在不增加用户输入检索条件的情况下,静默地收集用户的兴趣偏好,建立用户兴趣数据库,使得用户得获得更好、更精准的检索服务。
3、本发明的商品数据的检索排序系统,通过检索条件相似度计算模块和用户偏好相似度计算模块分别计算检索条件与检索结果之间的相似度以及用户偏好与结果之间的相似度,再采用排序度计算模块计算排序度函数,最后通过排序模块向用户呈现个性化的商品排序,能减少输入条件与结果之间的偏差,并将更符合用户偏好的商品的排序提前,使得用户获得更好的检索体验,快速得到更符合检索意图的商品呈现。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的商品数据的检索排序方法的流程示意图;
图2是本发明另一优选实施例的商品数据的检索排序方法的流程示意图;
图3是本发明优选实施例的商品数据的检索排序系统的组成结构框图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
图1是本发明实施例的商品数据的检索排序方法的流程示意图。
参见图1,本发明的本发明实施例的商品数据的检索排序方法,包括以下步骤:
S2:根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与结果之间的相似度,其中,检索条件包括检索关键词和\或检索示例图像。
S4:从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过用户偏好模型计算商品与用户偏好之间的相似度。
本发明实施例的相似度计算包括了文本相似度和图像相似度两种计算,此处偏好模型与商品之间的相似度的计算属于文本相似度的计算,文本相似度采用的是通用的计算方法,具体的计算公式可能根据不同的应用场景而略有参数调整。
S6:根据用户当前输入的检索条件与结果之间的相似度,以及商品与用户偏好之间的相似度,计算每个结果的排序度函数。
S8:按照排序度函数的函数值的大小将结果进行降序排列后,将排序返回给用户。
以上步骤中,用户的检索条件可以包含文本和图片,用户可以选择提供文本和图片或两种都有来进行检索,相应的结果所对应的商品也包含了图片和文本。检索示例图像通常用户自行选择或者上传的图片,作为希望查询的商品的示范样本图片。步骤S2中的结果是在数据库中对于商品的记录信息,包括商品的属性信息以及商品图片的感知哈希特征值,一般将符合某一条件(如:与检索示例图像的感知哈希值的汉明距离小于5,或者包含了检索关键词)的记录认为是结果。
通过上述步骤,能将用户输入的检索条件与用户的兴趣偏好相结合,计算二者综合的排序度函数,在不增加用户输入检索条件的情况下,对检索结果进行个性化的排序调整,从而把那些可能跟用户当前输入的检索条件相关,但与用户检索意图存在语义偏差的结果排序降低,返回更加符合用户检索意图的排序结果,提供给用户更符合其检索意图的个性化的商品排序。
在实际应用中,参见图2,在上述步骤的基础上,本发明还可实施为另一优选的实施例,在以下的本发明实施例的描述中,用G表示一件商品,Q表示用户输入的检索条件,P表示用户的兴趣偏好。排序度函数为f(G,Q,P),f(G,Q,P)的计算结果为实值。当我们利用f(G,Q,P)的值对商品结果进行排序时,与P、Q相关的商品结果能够排列在无关结果前面,从而实现符合用户检索意图的个性化检索。
本发明实施例的商品数据的检索排序方法,包括以下步骤:
S2:根据用户提交的检索条件(检索条件包括检索关键词和\或检索示例图像)从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与结果之间的相似度Sim(G,Q),具体计算方式如下:
S201:计算用户当前输入的检索条件的检索关键词与结果之间的文本相似度SimWord(G,Q),步骤如下:
S2011:采用向量空间模型的方式,对商品的属性信息进行文本处理,文本处理包括依据属性信息进行分词和切割,并统计各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数。
S2012:根据各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数,以TF-IDF(term frequency–inverse documentfrequency,词频-逆文档频率)算法计算用户输入的关键词在商品的属性信息中的权重。
S2013:根据权重,通过余弦向量夹角计算关键词与商品的属性信息之间的文本相似度。
S202:计算用户当前输入的检索条件中的检索示例图像与结果之间的图像相似度SimPic(G,Q),步骤如下:
S2021:采用感知哈希算法提取图像的感知哈希值,然后以检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离计算用户当前输入的检索条件与结果之间的图像相似度,计算公式如下:
SimPic(G,Q)=log2(2+1/(1+d(CodeG,CodeQ))) (1)
其中,d(CodeG,CodeQ)是检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离,CodeG为结果所对应的商品的感知哈希值,CodeQ为检索示例图像的感知哈希值;图像相似度与汉明距离呈反比。
本发明实施例采用以下程序段示例来进行感知哈希计算:
输入:图像I=[Pix1,Pix2...,PixN]
输出:图像感知哈希值Code
1、I缩小为8*8的尺寸大小的I'=[Pix1,...,Pix64]
2、FOR i=1→64
3、IF I为非灰度图像
4、计算Pixi对应的灰度值Grayi
5、ELSE直接统计Pixi的灰度值Grayi
6、GrayAll+=Grayi
7、END FOR
8、average_Gray←GrayAll/64
9、FOR i=1→64
10、IF Grayi>average_Gray
11、Vi=1;
12、ELSE
13、Vi=0;
14、END IF
15、END FOR
16、RETURN[V1,V2,...,V64]
以上表述的解释如下:
第一步,压缩图片尺寸到8*8大小。
第二步,如果图片是彩色图,则对其进行处理,转换成灰度图
第三步,对第二步中的图像统计其所有像素点的灰度平均值
第四步,将灰度图中每个像素点的灰度值与平均值进行对比,如果高于平均值,则记录1,如果低于平均值,则记录0。
第五步,将上一步的64个0与1的记录连起来组成一个64位的二进制数,即为图像的感知哈希值。
对于相似度SimPic(G,Q)的计算,因为只需要比较两张图像之间的哈希距离,故算法的时间复杂度是O(1)。假定每个商品平均有s个属性信息,则计算SimWord(G,Q)的复杂度为O(s),对于计算商品属性与用户兴趣偏好之间的相似度Sim(G,P),算法的计算复杂度为O(s)。
S4:从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过用户偏好模型计算商品与用户偏好(用户偏好模型作为用户偏好的代表)之间的相似度Sim(P,Q),具体计算方式如下:
S401:在用户浏览器的后台采集用户的兴趣偏好所指向的商品,存入用户兴趣数据库中,步骤如下:
S4011:通过页面脚本监测并记录用户在商品页面的操作行为,并根据操作行为判断用户对商品是否感兴趣以及兴趣浓度的大小,操作行为包括停留时长、鼠标滚动次数、收藏、加入购物车和/或购买;本发明实施例中,用户兴趣偏好模型的建立依赖于用户浏览商品时脚本所搜集的信息。兴趣浓度的大小按照设定好的规则进行赋值,例如当浏览时间在30秒到5分钟之内时,时间越长兴趣浓度值越高,同时设定阈值范围作为判断用户对该商品是否感兴趣的依据,如果未在阈值范围内,则认为不感兴趣,不记录。
S4012:当判断用户对商品感兴趣时,提取商品对应的属性信息,计算并记录商品对应的属性信息以及商品对应的兴趣浓度权重。在记录兴趣浓度权重时,是以一件商品为基本单位进行衡量的,对于该商品中的所有属性信息,赋予同样的兴趣浓度值,然后,把这些属性信息以及浓度值统计进入到用户兴趣偏好模型中,由于用户兴趣偏好模型中的关键词是针对多次浏览记录得到的,所以这些关键词(也就是商品属性)最后的平均浓度信息是各不相同的。计算偏好相似度时,会把余弦相似度的计算公式里面把这个平均浓度值算进去,影响最后的偏好相似度。权重大小是以脚本检测到的用户浏览数据为参数,进行计算得到。浏览数据参数包括了停留时间、鼠标滑轮滚动次数、以及点击收藏、加入购物车以及购买等操作行为,按照事先设定的规则计算出浓度的权重。属性信息是指出现在商品描述页面的如商品产地、,商品品牌、材质、适用人群、样式等介绍商品的文本,凡是出现过的属性信息都需要统计以进行计算。以下说明记录商品对应的兴趣浓度权重的具体步骤:
S4012A:判断用户是否登录;
S4012B:当用户未登录时,将商品对应的属性信息以及商品对应的兴趣浓度权重存储在客户端的cookie中;
S4012C:当用户为登录状态时,将存储在客户端的cookie中的用户商品对应的属性信息以及商品对应的兴趣浓度权重上传到服务端并记录在与用户对应的用户兴趣数据库中。
通过步骤S4012A至步骤S4012C,可以实现对用户兴趣偏好的隐式收集,不需要用户显式地回馈偏好信息,在不增加用户输入检索条件的情况下,建立用户兴趣数据库,提高了检索排序的准确度和效率,使得用户得获得更好、更精准的检索服务。
S402:从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型。用户兴趣偏好模型与向量空间模型类似,模型中所提供的关键词,都是用户之前浏览过,且感兴趣商品的属性信息,模型中记录了“关键词-出现次数-平均兴趣浓度值”信息。
偏好模型的建立:从数据库中读取形如<关键词-出现次数-兴趣浓度>的信息,然后把关键词相同的记录进行统计:即把出现的次数进行一次一次的叠加,把兴趣浓度进行平均值的计算,从而得到了所有记录过的属性信息关键词,比如关键词(品牌:苹果,出现次数:25次,平均兴趣浓度:0.98),然后把这些关键词建立向量空间模型,也就是(品牌:苹果,产地:美国,....)这样的信息,组成一个关键词向量,向量的长度由记录中出现的关键词的多少决定。
S403:通过用户偏好模型计算商品与用户偏好之间的相似度。
此处的相似度属于文本相似度的计算,本发明实施例采用对TF-IDF算法进行改进,然后用余弦向量夹角计算文本相似度。具体步骤如下:
依前文所述,已经将每个关键词出现的次数,以及兴趣浓度统计清楚了,将统计得到的出现次数作为词频TF,同时,由于已经有了一个初步的检索结果了(这个初步的检索结果是根据用户输入的检索条件筛选得到的),就可以统计得到,在初步检索结果中包含了某个关键词,比如(美国)的商品的个数(即:统计有多少个商品结果,它的属性信息里包含了美国这样一个商品属性),这样得到了每一个关键词的IDF值,然后,按照TF-IDF算法计算公式计算出每个关键词的权重,再把这个权重与它的兴趣浓度相乘,作为最终的权重,所以按照关键词向量,列出对应的关键词的权重的向量形如(1.23,2.34,...)(该权重向量是用户偏好的权重向量),然后,对于每个商品的具体信息,先新建一个商品向量,长度与关键词向量一致,对照关键词向量,如果它的属性信息里有关键词向量中的某个关键词,找到关键词向量中该关键词的位置,然后在商品向量对应的位置记录为1,否则为0。例如,上面说了关键词向量有<苹果,美国,...>且对应的权重为(1.23,2.3,....),而此商品的属性中出现了美国,但是没有出现苹果,那么对应的该商品向量就是(0,1,.....),然后把商品向量,与权重向量相乘,得到一个最终的值,就是这个商品与用户兴趣的相似度。
通过步骤S4,本发明实施例建立了更为符合用户意图的检索模型,并且由于本模型采集的信息更为详细全面,有效减少了由于自然语言处理和图像识别处理中固有偏差所带来的无关结果,节省了用户的查找时间,从而能获得更加贴近用户个性化偏好的检索结果。
S6:根据用户当前输入的检索条件与结果之间的相似度f(G,Q,P),以及商品与用户偏好之间的相似度,计算每个结果的排序度函数。最终的f(G,Q,P)对Sim(G,Q)和Sim(P,Q)进行权重系数调整,然后相加,从而得到每样商品返回排序结果的最终参考值,计算公式如下:
f(G,Q,P)=0.7*Sim(G,Q)+0.3*Sim(P,Q) (2)
S8:按照排序度函数的函数值的大小将结果进行降序排列后,将排序返回给用户。
通过这些优化步骤,本发明实施例将与检索条件和用户兴趣偏好相关度更高的结果排序靠前,能快速地向用户返回更符合用户检索意图的商品,使用户获得更好的检索体验,增大购买几率。
参见图3,在上述方法的同一原理的基础上,本发明实施例的商品数据的检索排序系统,包括检索条件相似度计算模块、用户偏好相似度计算模块、排序度计算模块以及排序结果展示模块,其中,检索条件相似度计算模块用于根据用户提交的检索条件(检索条件包括检索关键词和\或检索示例图像)从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与结果之间的相似度;用户偏好相似度计算模块用于从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过用户偏好模型计算商品与用户偏好之间的相似度;排序度计算模块用于根据用户当前输入的检索条件与结果之间的相似度,以及商品与用户偏好之间的相似度,计算每个结果的排序度函数;排序模块用于按照排序度函数的函数值的大小将结果进行降序排列后,将排序返回给用户。
该系统通过检索条件相似度计算模块和用户偏好相似度计算模块分别计算检索条件与检索结果之间的相似度以及用户偏好与结果之间的相似度,再采用排序度计算模块计算排序度函数,最后通过排序模块向用户呈现个性化的商品排序,能减少输入条件与结果之间的偏差,并将更符合用户偏好的商品的排序提前,使得用户获得更好的检索体验,快速得到更符合检索意图的商品呈现。
在实际应用中,为了使得本发明实施例的检索结果更准确,该系统还可扩充,检索条件相似度计算模块可包括关键词相似度计算单元和图像相似度计算单元。其中,关键词相似度计算单元用于计算用户当前输入的检索条件中的检索关键词与结果之间的文本的关键词相似度;图像相似度计算单元,用于计算用户当前输入的检索条件中的检索示例图像与结果之间的图像相似度。同时对关键词以及图像相似度进行计算,使得本发明实施例能与传统的检索系统兼容,用户的检索习惯不必改变,同时,传统检索系统的检索的优点,例如关键词查询扩展技术等能得以继承,并能获得进行进一步的优化,使得本发明实施例具有广泛的适用性,可应用所有的电商平台。
综上可知,本发明将用户输入的检索条件与用户的兴趣偏好相结合,通过隐式的收集用户的浏览兴趣偏好,建立用户的兴趣偏好模型,通过此偏好模型对用户真实的检索意图进行完善,在依据输入的检索条件的基础上,对检索结果参考不同用户的兴趣偏好进行不同程度调整,可提供给用户更符合其检索意图的个性化的商品排序,具有广泛的适用性和良好的用户体验,可以明显贴合购买动机,增大用户的购买几率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种商品数据的检索排序方法,其特征在于,包括以下步骤:
S2:根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与所述结果之间的相似度,其中,所述检索条件包括检索关键词和检索示例图像;所述检索关键词为用户输入的文本,所述检索示例图像为用户自行选择或者上传的图片;所述结果是在商品数据库中对于商品的记录信息,包括商品的属性信息以及商品图片的感知哈希特征值;
所述根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果时,所述相关包括商品图片的感知哈希特征值与检索示例图像的感知哈希值的汉明距离小于5,以及商品的属性信息中包含了检索关键词;
计算用户当前输入的检索条件与所述结果之间的相似度,包括以下步骤:
S201:计算用户当前输入的检索条件中的检索关键词与所述结果之间的文本相似度,包括以下步骤:
S2011:采用向量空间模型的方式,对商品的属性信息进行文本处理,所述文本处理包括依据所述商品的属性信息进行分词和切割,并统计各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数;
S2012:根据各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数,以TF-IDF算法计算用户输入的关键词在所述商品的属性信息中的权重;
S2013:根据所述权重,通过余弦向量夹角计算所述关键词与所述商品的属性信息之间的文本相似度;
S202:根据所述检索示例图像的像素点,计算用户当前输入的检索条件中的检索示例图像与所述结果之间的图像相似度,包括以下步骤:
S2021:采用感知哈希算法提取图像的感知哈希值,然后以检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离计算用户当前输入的检索条件与所述结果之间的图像相似度,计算公式如下:
SimPic(G,Q)=log2(2+1/(1+d(CodeG,CodeQ))) (1)
其中,G表示一件商品,Q表示用户输入的检索条件,SimPic(G,Q)为用户当前输入的检索条件与所述结果之间的图像相似度,d(CodeG,CodeQ)是检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离,CodeG为所述结果所对应的商品的感知哈希值,CodeQ为所述检索示例图像的感知哈希值;所述图像相似度与所述汉明距离呈反比;
S4:从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过所述用户偏好模型计算所述商品与用户偏好之间的相似度;
S6:根据所述用户当前输入的检索条件与所述结果之间的相似度,以及所述商品与用户偏好之间的相似度,计算每个所述结果的排序度函数;
S8:按照所述排序度函数的函数值的大小将所述结果进行降序排列后,将所述排序返回给用户。
2.根据权利要求1所述的检索排序方法,其特征在于,所述步骤S4包括以下步骤:
S401:在用户浏览器的后台采集所述用户的兴趣偏好所指向的商品,存入用户兴趣数据库中;
S402:从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型;
S403:通过所述用户偏好模型计算所述商品与用户偏好之间的相似度。
3.根据权利要求2所述的检索排序方法,其特征在于,所述步骤S401,包括以下步骤:
S4011:通过页面脚本监测并记录用户在商品页面的操作行为,并根据所述操作行为判断用户对所述商品是否感兴趣以及兴趣浓度的大小,所述操作行为包括停留时长、鼠标滚动次数、收藏和/或购买;
S4012:当判断用户对所述商品感兴趣时,提取所述商品的属性信息,计算并记录所述商品的属性信息以及所述商品对应的兴趣浓度权重。
4.根据权利要求3所述的检索排序方法,其特征在于,所述步骤S4012中,所述记录所述商品对应的兴趣浓度权重,包括以下步骤:
S4012A:判断所述用户是否登录;
S4012B:当所述用户未登录时,将所述商品的属性信息以及所述商品对应的兴趣浓度权重存储在客户端的cookie中;
S4012C:当所述用户为登录状态时,将存储在所述客户端的cookie中的所述用户下的商品的属性信息以及所述商品对应的兴趣浓度权重上传到服务端并记录在与所述用户对应的用户兴趣数据库中。
5.根据权利要求3所述的检索排序方法,其特征在于,所述步骤S6中,所述排序度函数的计算公式如下:
f(G,Q,P)=0.7*Sim(G,Q)+0.3*Sim(P,Q) (2)
其中,G表示一件商品,Q表示用户输入的检索条件,P表示用户的兴趣偏好,Sim(G,Q)为所述用户当前输入的检索条件与所述结果之间的相似度,Sim(P,Q)为所述商品与用户偏好之间的相似度。
6.一种商品数据的检索排序系统,其特征在于,包括:
检索条件相似度计算模块,用于根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果,并计算用户当前输入的检索条件与所述结果之间的相似度,其中,所述检索条件包括检索关键词和检索示例图像;所述检索关键词为用户输入的文本,所述检索示例图像为用户自行选择或者上传的图片;所述结果是在商品数据库中对于商品的记录信息,包括商品的属性信息以及商品图片的感知哈希特征值;
所述根据用户提交的检索条件从商品数据库中查找与检索示例图像及与检索关键词相关的结果时,所述相关包括商品图片的感知哈希特征值与检索示例图像的感知哈希值的汉明距离小于5,以及商品的属性信息中包含了检索关键词;所述检索条件相似度计算模块包括:
关键词相似度计算单元,用于计算用户当前输入的检索条件中的检索关键词与所述结果之间的文本的关键词相似度;计算步骤如下:
采用向量空间模型的方式,对商品的属性信息进行文本处理,文本处理包括依据所述商品的属性信息进行分词和切割,并统计各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数;根据各属性信息在所有结果对应的商品中出现的次数,以及在一个结果对应的商品的属性信息中的出现次数,以TF-IDF算法计算用户输入的关键词在所述商品的属性信息中的权重;根据所述权重,通过余弦向量夹角计算所述关键词与商品的属性信息之间的文本相似度;
图像相似度计算单元,用于根据所述检索示例图像的像素点,计算用户当前输入的检索条件中的检索示例图像与所述结果之间的图像相似度;计算步骤如下:采用感知哈希算法提取图像的感知哈希值,然后以检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离计算用户当前输入的检索条件与所述结果之间的图像相似度,计算公式如下:
SimPic(G,Q)=log2(2+1/(1+d(CodeG,CodeQ))) (1)
其中,G表示一件商品,Q表示用户输入的检索条件,SimPic(G,Q)为用户当前输入的检索条件与所述结果之间的图像相似度,d(CodeG,CodeQ)是检索示例图像以及结果所对应的商品的图片之间的感知哈希值的汉明距离,CodeG为所述结果所对应的商品的感知哈希值,CodeQ为所述检索示例图像的感知哈希值;所述图像相似度与所述汉明距离呈反比;
用户偏好相似度计算模块,用于从用户兴趣数据库中提取用户偏好的商品的属性信息,建立用户兴趣偏好模型,通过所述用户偏好模型计算所述商品与用户偏好之间的相似度;
排序度计算模块,用于根据所述用户当前输入的检索条件与所述结果之间的相似度,以及所述商品与用户偏好之间的相似度,计算每个所述结果的排序度函数;
排序结果展示模块,用于按照所述排序度函数的函数值的大小将所述结果进行降序排列后,将所述排序返回给用户。
CN201510933198.3A 2015-12-15 2015-12-15 一种商品数据的检索排序方法及系统 Active CN105426528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510933198.3A CN105426528B (zh) 2015-12-15 2015-12-15 一种商品数据的检索排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510933198.3A CN105426528B (zh) 2015-12-15 2015-12-15 一种商品数据的检索排序方法及系统

Publications (2)

Publication Number Publication Date
CN105426528A CN105426528A (zh) 2016-03-23
CN105426528B true CN105426528B (zh) 2018-04-06

Family

ID=55504740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510933198.3A Active CN105426528B (zh) 2015-12-15 2015-12-15 一种商品数据的检索排序方法及系统

Country Status (1)

Country Link
CN (1) CN105426528B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
CN108132953A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 一种基于用户点击进行搜索结果排序的方法和装置
CN106909663B (zh) * 2017-02-27 2020-07-28 杭州泰一指尚科技有限公司 基于标签用户品牌偏好行为预测方法及其装置
CN107123016B (zh) * 2017-03-22 2021-01-26 重庆允升科技有限公司 一种工业物料商品推荐方法
CN107464162B (zh) * 2017-07-28 2022-12-30 腾讯科技(深圳)有限公司 商品关联方法、装置及计算机可读存储介质
CN107633430A (zh) * 2017-09-20 2018-01-26 哈尔滨工业大学 一种基于群体社区的商品推荐方法
CN107862004A (zh) * 2017-10-24 2018-03-30 科大讯飞股份有限公司 智能排序方法及装置、存储介质、电子设备
CN108230086B (zh) * 2017-11-30 2022-05-20 广东数相智能科技有限公司 一种商品售卖调整的方法及存储介质
CN108415970B (zh) * 2018-02-08 2019-07-30 北京三快在线科技有限公司 检索结果排序方法、装置、电子设备及存储介质
TWI666610B (zh) * 2018-05-25 2019-07-21 信義房屋仲介股份有限公司 暫時收藏物件的呈現裝置與方法
CN110807095A (zh) * 2018-08-01 2020-02-18 北京京东尚科信息技术有限公司 一种物品匹配方法和装置
CN110175271B (zh) * 2019-04-04 2023-01-10 创新先进技术有限公司 案件随机排序方法以及装置
CN110580278B (zh) * 2019-07-30 2023-05-26 平安科技(深圳)有限公司 根据用户画像的个性化搜索方法、系统、设备及存储介质
CN111026319B (zh) * 2019-12-26 2021-12-10 腾讯科技(深圳)有限公司 一种智能文本处理方法、装置、电子设备及存储介质
CN111177467A (zh) * 2019-12-31 2020-05-19 京东数字科技控股有限公司 对象推荐方法与装置、计算机可读存储介质、电子设备
CN113076964B (zh) * 2020-01-03 2024-01-05 阿里巴巴集团控股有限公司 识别相似对象的方法、装置及电子设备
CN111651663A (zh) * 2020-04-17 2020-09-11 世纪保众(北京)网络科技有限公司 根据用户搜索内容快速进行关键词完全匹配的检索方法
CN116431799B (zh) * 2023-06-14 2023-08-18 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统
CN117252667A (zh) * 2023-11-17 2023-12-19 北京中电云华信息技术有限公司 一种基于大数据的产品推荐方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329677A (zh) * 2008-05-07 2008-12-24 裴亚军 基于图像内容的图像搜索引擎
CN101634996A (zh) * 2009-08-13 2010-01-27 浙江大学 基于综合考量的个性化视频排序方法
CN102479366A (zh) * 2010-11-25 2012-05-30 阿里巴巴集团控股有限公司 一种商品推荐方法及系统
CN103020240A (zh) * 2012-12-18 2013-04-03 江苏乐买到网络科技有限公司 一种在线购物平台的商品检索方法
CN103279519B (zh) * 2013-05-27 2018-09-21 努比亚技术有限公司 物品搜索方法和装置
CN103617157B (zh) * 2013-12-10 2016-08-17 东北师范大学 基于语义的文本相似度计算方法
CN104765891A (zh) * 2015-05-06 2015-07-08 苏州搜客信息技术有限公司 一种基于图像的搜索购物方法
CN105069042A (zh) * 2015-07-23 2015-11-18 北京航空航天大学 基于内容的无人机侦察图像数据检索方法

Also Published As

Publication number Publication date
CN105426528A (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
CN105426528B (zh) 一种商品数据的检索排序方法及系统
CN107424043B (zh) 一种产品推荐方法及装置,电子设备
CN108959603B (zh) 基于深度神经网络的个性化推荐系统及方法
CN107944035B (zh) 一种融合视觉特征和用户评分的图像推荐方法
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
JP5962926B2 (ja) レコメンダシステム、レコメンド方法、及びプログラム
JP5386663B1 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US8234311B2 (en) Information processing device, importance calculation method, and program
CN105718184A (zh) 一种数据处理方法和装置
CN110175895B (zh) 一种物品推荐方法及装置
CN108520450B (zh) 基于隐式反馈信息的局部低秩矩阵近似的推荐方法及系统
CN109933721B (zh) 一种融合用户隐式物品偏好与隐式信任的可解释推荐方法
CN110827112B (zh) 深度学习的商品推荐方法、装置、计算机设备及存储介质
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
US10970296B2 (en) System and method for data mining and similarity estimation
CN102411754A (zh) 一种基于商品属性熵值的个性化推荐方法
CN110163703B (zh) 一种分类模型建立方法、文案推送方法和服务器
CN103886486A (zh) 一种基于支持向量机svm的电子商务推荐方法
US10339469B2 (en) Self-adaptive display layout system
CN111967924A (zh) 商品推荐方法、商品推荐装置、计算机设备和介质
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
US20130332440A1 (en) Refinements in Document Analysis
Zhao et al. Personalized recommendation by exploring social users’ behaviors
CN113469786A (zh) 物品推荐的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant