CN102841946A

CN102841946A - 商品数据检索排序及商品推荐方法和系统

Info

Publication number: CN102841946A
Application number: CN2012103071476A
Authority: CN
Inventors: 郑茂林; 陈爱洁; 曾祥洪
Original assignee: BEIJING STATE MASAMICHI TECHNOLOGY Co Ltd
Current assignee: Guo Zheng Tong Technology Co., Ltd.
Priority date: 2012-08-24
Filing date: 2012-08-24
Publication date: 2012-12-26
Anticipated expiration: 2032-08-24
Also published as: CN102841946B

Abstract

本发明公开了一种商品数据检索排序及商品推荐方法，包括生成商品数据的数据库；根据用户输入的查询词从数据库中取出匹配结果；对该匹配结果的类别数及所有类别名称进行统计，并对每个类别分别计算在匹配结果中的商品类别数n_i以及它在整体商品数据中包含的商品数据个数m_i；计算每个类别的类别权重w_i，找出类别权重w_i最大的类对应的类别权重w_t；将所有类别权重小于d*w_t的类对应的所有商品数据从匹配结果中删除，其中，0＜d＜1，为可调参数；将其余的类别按照其类别权重进行从大至小的排序，并且将商品所在商家的价格在各个网上商城所卖价格的百分比进行展示。

Description

商品数据检索排序及商品推荐方法和系统

技术领域

本发明涉及计算机数据分析领域，尤其涉及于商品数据检索，排序及商品推荐方法和支持系统。

背景技术

目前搜索引擎用于排序的技术主要为相关度排序法，即通过建立模型对文档和查询词之间的相关度进行打分，相关度得分越高的文档排序越靠前。不同的搜索引擎使用了不同的相关度评分模型，主要有以下几类：词频统计法，即文档中包含的查询词频率越高，则此文档相关度得分越高，排序越靠前；超链接分析法，即一个网页被链接的次数越多而且链接的站点越权威就说明此网页的质量越高。此外，还有点击率法，即网页被点击的次数越多，相关度越高；付费竞价法，以网站付费的多少来决定排序前后。其中词频统计法和超链接分析法尤为流行。而由于垂直搜索引擎的特殊性，绝大多数都以词频统计法来搭建搜索引擎的主题框架。

垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式。由于垂直搜索引擎的特殊性，绝大多数都以词频统计法来搭建搜索引擎的主题框架

词频统计法，从名字上就能看出来词频是此算法中一个相当重要的角色，它对相关度的大小起着举足轻重的作用。然而对于垂直搜索引擎而言，由于其数据所包含文档(注：在搜索引擎中称一条数据为一个文档)的结构化(注：此处结构化的概念与非结构化相对。如邮件，word文档等全文数据位为非结构化数据；数据库数据，元数据则为结构化数据。)程度高，以及文档长度短小，词频并不能在排序中起到决定性的作用。虽然也可以通过一些方式，如调整各个文档以及文档所包含域的权重大小来对排序进行优化，这样的做法就好比医生给人看病的时候治症而不治病，无法解决根本问题。比如用户搜索“手机”，最先展示给用户的则可能是跟手机相关的书籍，手机充电器等等，这是不符合用户的搜索习惯的，因而会极大地降低用户体验。而在数据量达到一定程度的前提下，本发明提出的类别权重排序法则能比较彻底地解决搜索结果的排序问题。

发明内容

为解决上述问题，本发明提供了商品数据检索，排序及商品推荐方法，包括如下步骤：

步骤1，生成商品数据的数据库；

步骤2，根据用户输入的查询词从数据库中取出匹配结果；

步骤3，对该匹配结果的类别个数及所有类别名称进行统计，并对每个类别分别计算在匹配结果中的商品数据个数n_i以及该类在整体商品数据中包含的商品数据个数m_i；

步骤4，计算类别名称的类别权重w_i，找出类别权重最大的类对应的类别权重w_t；

步骤5，将所有类别权重小于d*w_t的类对应的所有商品数据从匹配结果中删除，其中，0＜d＜1，为可调参数；

步骤6，将过滤后的类别按照其类别权重进行从大至小的排序。

所述的商品数据检索排序方法，还包括计算物美价廉指数及推荐度步骤：

物美价廉指数＝商品价格/好评度*可信度，其中可信度＝1-好评度/评价次数；

σ^{2} = \frac{σ_{G}^{2} + σ_{B}^{2}}{2}

μ_G是推荐度目标变量为1的商品数据的均值，μ_B是推荐度目标变量为0的商品数据的均值，

是推荐度目标变量为1的商品数据方差的平方，

是推荐度目标变量为0的商品数据方差的平方。

推荐度目标变量＝IF(AND(物美价廉指数＜N，转化率＜M)，1，0)，其中，转化率＝商品浏览量/实际购买量，N是物美价廉指数的均值，M是转化率的均值。商品数据包括：商品价格，好评度，可信度，成交次数，浏览次数，共计打分次数。

所述的商品数据检索排序方法，还包括计算商品所在商家的价格在各个网上商城所卖价格的百分比，计算公式为：

1-((某网上商城的价格-网上最低价)/(网上最高价-网上最低价))

所述的商品数据检索排序方法，所述对应类别权重w_i计算公式：

其中，a，b，c均为可调参数，且a+b＝1，a＞0，b＞0，c＞0。

当a＝2/3，b＝1/3，c＝100时，上述公式为：

w_{i} = \frac{n_{i}}{m_{i}^{2 / 3} * n^{1 / 3}} * 100

本发明还公开了一种商品数据检索排序系统，包括：

商品数据的数据库；

匹配模块，用于根据用户输入的查询词从数据库中取出匹配结果；

统计计算模块，用于对该匹配结果的类别个数及所有类别名称进行统计，并对每个类别分别计算在匹配结果中的商品数据个数n_i以及该类在整体商品数据中包含的商品数据个数m_i；

权重计算模块，用于计算类别名称的类别权重w_i，找出类别权重w_i最大的类对应的类别权重为w_t；

过滤模块，用于将所有类别权重小于d*w_t的类对应的所有商品数据从匹配结果中删除，其中，0＜d＜1，为可调参数；

排序模块，用于将过滤后的类别按照其类别权重进行从大至小的排序。

所述的商品数据检索排序系统，还包括物美价廉指数及推荐度计算模块，用于计算物美价廉指数及推荐度，其中：

σ^{2} = \frac{σ_{G}^{2} + σ_{B}^{2}}{2}

是推荐度目标变量为1的商品数据方差的平方，

是推荐度目标变量为0的商品数据方差的平方。

推荐度目标变量＝IF(AND(物美价廉指数＜4N，转化率＜M)，1，0)，其中，转化率＝商品浏览量/实际购买量，N是物美价廉指数的均值，M是转化率的均值。商品数据包括：商品价格，好评度，可信度，成交次数，浏览次数，共计打分次数。

所述的商品数据检索排序系统，还包括百分比计算模块，用于计算商品所在商家的价格在各个网上商城所卖价格的百分比，计算公式为：

1-((某网上商城的价格-网上最低价)/(网上最高价-网上最低价))。

本发明的有益效果为：有效解决了大数据量下搜索结果冗余，排序结果不符合用户习惯的问题。通过本发明的类别权重法对搜索结果进行排序之后，可以准确地找出与查询词“手机”相对应的手机类别的数据并展示给用户，大大地提高了用户体验。其次，通过本发明的类别权重算法计算出来的权重，我们可以对搜索结果进行过滤，即类别权重过低的数据可以直接从击中结果中剔除，以解决搜索结果大量冗余的问题。此外，本发明采用的算法所需的计算步骤少，而且简洁明了，使得搜索引擎的效率也有了极大的提升。

附图说明

图1为本发明的训练样本和验证样本的区分度；

图2为本发明的商品表现形式1；

图3为本发明的商品表现形式2。

具体实施方式

下面给出本发明的具体实施方式，结合附图对本发明做出了详细描述。

本发明所涉及的类别权重排序法可以很好地解决这一问题。在这里，类别指的是商品数据所属分类。

其基本思想如下：

设某一搜索的击中结果总个数为n(设n＞0)，这n个结果属于s(s＞0)个不同的击中类别，其中第i(i＝1，2，…，s)个击中类别的击中结果个数为n_i(n_i＞0)，则有

另设第i个击中类别在原数据整体中包含的所有数据个数为m_i，显然有m_i≥n_i＞0

计算每一个击中类别的类别权重。不妨取第i(i＝1，2，…，s)类，其对应类别权重记为w_i，则：

w_{i} = \frac{n_{i}}{{m_{i}}^{a} * n^{b}} * c

(公式1)

在公式1中，a，b，c均为可调参数，且a+b＝1，a＞0，b＞0，c＞0。

以此类别权重对搜索结果进行重新排序，数据所属分类的类别权重越高，排序越靠前。

下面介绍其数据处理步骤：

一、根据用户输入的查询词从整体海量数据中取出匹配结果，结果包含若干条数据(设结果包含n条数据)，每条数据由字段构成，主要字段有简介，分类名称，价格。

二、对匹配结果进行统计，并通过统计数据对匹配结果进行过滤排序。

1、统计匹配结果的以下数据：

(1).匹配结果包含的类别个数以及所有类别名称。不妨设类别个数为s(s≥0)，对应的类别名称分别为：category_1(类别1)，category_2(类别2)，….，category_s(类别s).

(2).计算category_i(i＝1，2，…，s)在匹配结果中的商品数据个数n_i以及它在整体商品数据中包含的商品数据个数m_i，则显然有：

m_i≥n_i＞0且

Σ_{i = 1}^{s} n_{i} = n;

2、计算category_1，category_2，….，category_s的类别权重。取第i(i＝1，2，…，s)类，其对应类别权重记为w_i，计算公式如下：

w_{i} = \frac{n_{i}}{{m_{i}}^{a} * n^{b}} * c

(公式1)

在公式1中，a，b，c均为可调参数，且a+b＝1，a＞0，b＞0，c＞0.

当a＝2/3，b＝1/3，c＝100时，上述公式为：

w_{i} = \frac{n_{i}}{m_{i}^{2 / 3} * n^{1 / 3}} * 100

(公式2)

3、过滤和排序。

(1)找出category_1，category_2，….，category_s中类别权重w_i最大的类，设为category_t，则其对应的类别权重为w_t。其中：t(t＝1，2，…，s)，w_t是特指权重w_i为最大的类，w_i是泛指所有的类别权重。

(2)过滤。将category_1，category_2，….，category_s中所有类别权重小于d*w_t的类对应的所有商品数据从匹配结果中删除。其中，0＜d＜1，为可调参数。

(3)排序。将步骤(2)过滤剩下的类别按照其类别权重进行从大至小的排序，即类别权重越大的类别对应的商品数据排序越靠前。

为了说明上述所说的检索过程，选取了三个查询词：手机，笔记本，相机。

由于要解决的排序问题是因击中结果类别繁多而引起，故选取击中结果中类别数较多的几个查询词。

参见表1、表2、表3，第一行显示查询词以及该查询词对应的击中结果总个数，第一列为击中类别名称，第二列，第三列，第四列则为该击中类别对应的类别击中个数，类别总个数以及类别权重。其中最后一列的类别权重是根据上面提到的权重公式1计算得出的结果，公式中a取值为2/3，b取值为1/3，c取值为100.

下面我们来简要说明一下类别权重的计算过程，如当查询词为“手机”，我们要计算“手机保护套”这个类别的权重(表1中的第四行)。由公式

n_i为类别击中个数4187，m_i为类别总个数14287，n为击中总个数10030，设置参数a＝2/3，b＝1/3，c＝100，将以上数据代入公式后即可算得类别权重w_i的值为3.589824。

表格中显示的为已经经过类别权重排序的结果，排序方式为从大到小。如前所述，这几个查询词对应的击中结果类别数较多，为了展示方便，故均只选取类别权重最大的18个类别。

表1

表2

表3

从结果中可以看出，搜索“手机”时，类别权重最大的为【手机】类别，搜索“笔记本”时类别权重最大的类别为【笔记本】【笔记本电脑】；搜索“相机”时，类别权重最大的类别为【数码相机】。这样的搜索结果是相当符合用户的搜索习惯的。于此可以看出在垂直搜索引擎中应用类别权重排序法的效果是相当显著的。

若不经过类别权重排序，比如用户搜索“手机”，最先展示给用户的则可能是跟手机相关的书籍，手机充电器等等，这是不符合用户的搜索习惯的，因而会极大地降低用户体验。通过本发明的类别权重法对搜索结果进行排序之后，可以准确地找出与查询词“手机”相对应的手机类别的数据并展示给用户，大大地提高了用户体验。其次，通过本发明的类别权重算法计算出来的权重，我们可以对搜索结果进行过滤，即类别权重过低的数据可以直接从击中结果中剔除，以解决搜索结果大量冗余的问题。此外，本发明采用的算法所需的计算步骤少，而且简洁明了，使得搜索引擎的效率也有了极大的提升。

三、根据第二步的过滤排序结果对商品数据匹配结果进行展示。

商品推荐模型设计原理：商品推荐本着物美价廉的原则来设计。所以，首先要定义什么是物美价廉。

物美价廉指数＝商品价格/好评度*可信度，其中可信度＝1-好评度/评价次数。

该指数表示：对于同类商品，商品价格越低并且大众的好评度越高，那么该商品的物美价廉指数值就越低，指数越低表示该商品越受欢迎。其中，可信度是指该商品受欢迎的置信区间，或者说受欢迎的程度有多少。可信度取值从0到1之间。

当然，物美价廉指数从商品内在价值来看这是必要条件，但单单从物美价廉指数就认定商品的好坏还不够充分，因为，网络毕竟不能完全提供人们亲身购物时所能体验到的商品的信息，另外，网购也跟网店的设计，美工，网上商城的布局，查询的排序等等都有关。不过这些最后都放映到了浏览量和实际购买量上，所以，在考虑商品本身的内在价值(物美价廉指数)后，觉得如果再加上商品的转化率做为外在的约束条件，把它放入到目标变量中，那么由此模型推荐出来的商品，无论从商品的内在价值还是他的外在表现。都会比较准确。

目标变量：＝IF(AND(物美价廉指数＜N，转化率＜M)，1，0)

其中衍生变量

1、转化率＝商品浏览量/实际购买量

2、物美价廉指数＝商品价格/好评度*可信度

3、可信度＝1-好评度/评价次数

建立模型

建模工具：知测区分度模型，知测是一种统计分析软件。区分度模型是一种统计算法。

数据(见表6、7)：建模数据都是从网上抓取的(其中，价格，成交次数，浏览次数，好评度，共打多少次，都是从网上抓下来的，但可信度，物美价廉指数和转化率是从这些数据中计算出来的)。

进入模型的预测变量为5个部分：价格、成交次数、浏览次数、好评度、共打分多少次，衍生变量为3个：可信度、物美价廉指数、转化率，衍生变量因为与目标变量相关性较强，所有并没有进入模型，GB(好坏)为目标变量，见表四：

名称

价格

成交次数

浏览次数

好评度

共打分多少次

可信度

物美价廉指数

转化率

GB

表4

数据分类属性：数码电器模型参数见下表5：表中的数据是通过知测的区分度模型计算出来的统计量，其中训练样本(training)指的是从网上抓取的数据中随机抽取的一部分数据，训练样本是用来建立预测模型的数据，验证样本是在通过训练样本建立起来的模型后，用于验证模型(validation)是否有效的数据。区分度，ROC面积，GiNi系数，KS值等都是统计量，这个大部分的统计软件都有，此处应该不用解释(最好能举一例统计软件来解释)。图1为训练样本和验证样本的？？

评分模型主要统计量

样本类型	区分度	ROC面积	Gini系数	KS值
					训练样本	9.502	0.961	0.922	81.670
验证样本	10.131	0.961	0.922	83.561

表5

图1为本发明的训练样本和验证样本的区分度，灰色部分代表坏的商品，黑色部分代表好商品，中间有重叠的部分代表区分度模型没有区分出来的商品。从图上可以看出来，好坏商品区分的很开，重叠的很少，说明该模型能很好的把好坏商品给区分开来，这说明它可以用来作为对新上架的商品做预测。

从表4、表5及图1统计量来看，训练样本的统计量和验证样本的统计量都比较接近，说明区分度模型能很好的把好坏商品给区分开，这表明该模型可以用来预测某新上架商品的受欢迎程度，商品受欢迎程度我们叫做推荐度。

另外，对于某个商品只有5个人说它好和有1000个人说它好，当然1000个人说它好的可信度更可信些，至于上架时间久的商品评价它的人就会多过刚上架的商品，这会不会导致可信度不可信，测算一下，参见表6：表中的数据就是进入到模型的其中两条记录，用来对上面的话做说明的。

表6

表6是把好评度的共打分多少次最极端的两个数据用来测算，即共打分多少次一个太少只有6次(表6第1行第6列)，另外一个太多，有28294次(表6第2行第6列)，第一条记录的商品，假设经过一段时间后，共打分多少次从6次变到了6000次(见表7第1行第7列)，那么物美价廉指数值也从85变到了445.2685(见表7第1行第8列)。但是，GB目标变量的值本身并没有改变。

名称	价格	成交次数	评价次数	浏览次数	好评度	共打分多少次	可信度	物美价廉指数	目标变量
										dell笔记本15R	4029	5	2	942	4.8	6000	0.9992	445.2685	0
洪剑电风扇	239	1639	4328	350470	4.7	28.294	0.8339	42.40404326	1

表7

另外，假设第二条的商品的共打分多少次一开始是28.294次(表7第2行第6列)而不是现在的28294次(表6第2行第6列)，那么它的可信度和物美价廉指数也都发生了改变，但是，它的GB目标变量的值本身也没有改变。

这说明目标变量与共打分多少次无关，但是可信度和物美价廉指数与共打分多少次有关。

在上面提到，衍生变量是没有进入到模型中的，而进入到模型的目标变量也没有因为放大1000倍的共打分多少次和缩小1000倍的共打分多少次数而发生改变。

所以，可信度并不会因为上架时间的长短而影响模型最终的结果。

四、商品推荐展现形式

根据上面所用模型计算出来的商品推荐度的高低来对商品排序，但这只是其中一种排序方式。也可以用价格高低来排序，或者其他可选方式来排序。)

商品推荐展现形式算法

为了展示，假定￥50.0是鞋子的最低价，￥500.0是最高价，那么新的商品表现形式为图2所示，图2的上半部分为鞋子的样式及名称等，图2的下半部分为价格的展示。比如：某鞋在某商城的价格是256，这个价格在整个网上的价格低于83％的同类商品，箭头所指为其百分比。

商品展现形式是在商品检索后，用户根据推荐度或者其他排序方式打开商品后，可以清楚知晓商品所在商家的价格在各个网上商城所卖价格的百分比是多少。

计算公式为：

本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下，还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明，而是由权利要求书的范围来确定的。

Claims

1.一种商品数据检索排序方法，其特征在于，包括：

步骤1，生成商品数据的数据库；

步骤2，根据用户输入的查询词从数据库中取出匹配结果；

步骤4，计算类别名称的类别权重w_i，找出类别权重最大的类所对应的类别权重w_t；

2.如权利要求1所述的商品数据检索排序方法，其特征在于，还包括计算物美价廉指数及推荐度步骤：

是推荐度目标变量为1的商品数据方差的平方，

是推荐度目标变量为0的商品数据方差的平方；好的，就用分号，且中间不用断行了。以下相同处请一并修改。

推荐度目标变量＝IF(AND(物美价廉指数＜N，转化率＜M)，1，0)，其中，转化率＝商品浏览量/实际购买量，N是物美价廉指数的均值，M是转化率的均值；商品数据包括：商品价格，好评度，可信度，成交次数，浏览次数，共计打分次数。

3.如权利要求2所述的商品数据检索排序方法，其特征在于，还包括计算商品所在商家的价格在各个网上商城所卖价格的百分比，计算公式为：

1-((某网上商城的价格-网上最低价)/(网上最高价-网上最低价)) 。

4.如权利要求1所述的商品数据检索排序方法，其特征在于，所述对应类别权重w_i计算公式：

其中，a，b，c均为可调参数，且a+b＝1，a＞0，b＞0，c＞0。

5.一种商品数据检索排序系统，其特征在于，包括：

商品数据的数据库；

统计计算模块，用于对该匹配结果的类别个数及所有类别名称进行统计，并对每个类别分别计算在匹配结果中的商品数据个数n_i以及它在整体商品数据中包含的商品数据个数m_i；

6.如权利要求5所述的商品数据检索排序系统，其特征在于，还包括物美价廉指数及推荐度计算模块，用于计算物美价廉指数及推荐度，其中：

是推荐度目标变量为1的商品数据方差的平方，

是推荐度目标变量为0的商品数据方差的平方；推荐度目标变量＝IF(AND(物美价廉指数＜N，转化率＜M)，1，0)，其中，转化率＝商品浏览量/实际购买量，N是物美价廉指数的均值，M是转化率的均值；商品数据包括：商品价格，好评度，可信度，成交次数，浏览次数，共计打分次数。

7.如权利要求6所述的商品数据检索排序系统，其特征在于，还包括百分比计算模块，用于计算商品所在商家的价格在各个网上商城所卖价格的百分比，计算公式为：1-((某网上商城的价格-网上最低价)/(网上最高价-网上最低价))。