发明内容
为解决上述问题,本发明提供了商品数据检索,排序及商品推荐方法,包括如下步骤:
步骤1,生成商品数据的数据库;
步骤2,根据用户输入的查询词从数据库中取出匹配结果;
步骤3,对该匹配结果的类别个数及所有类别名称进行统计,并对每个类别分别计算在匹配结果中的商品数据个数ni以及该类在整体商品数据中包含的商品数据个数mi;
步骤4,计算类别名称的类别权重wi,找出类别权重最大的类对应的类别权重wt;
步骤5,将所有类别权重小于d*wt的类对应的所有商品数据从匹配结果中删除,其中,0<d<1,为可调参数;
步骤6,将过滤后的类别按照其类别权重进行从大至小的排序。
所述的商品数据检索排序方法,还包括计算物美价廉指数及推荐度步骤:
物美价廉指数=商品价格/好评度*可信度,其中可信度=1-好评度/评价次数;
μ
G是推荐度目标变量为1的商品数据的均值,μ
B是推荐度目标变量为0的商品数据的均值,
是推荐度目标变量为1的商品数据方差的平方,
是推荐度目标变量为0的商品数据方差的平方。
推荐度目标变量=IF(AND(物美价廉指数<N,转化率<M),1,0),其中,转化率=商品浏览量/实际购买量,N是物美价廉指数的均值,M是转化率的均值。商品数据包括:商品价格,好评度,可信度,成交次数,浏览次数,共计打分次数。
所述的商品数据检索排序方法,还包括计算商品所在商家的价格在各个网上商城所卖价格的百分比,计算公式为:
1-((某网上商城的价格-网上最低价)/(网上最高价-网上最低价))
所述的商品数据检索排序方法,所述对应类别权重wi计算公式:
其中,a,b,c均为可调参数,且a+b=1,a>0,b>0,c>0。
当a=2/3,b=1/3,c=100时,上述公式为:
本发明还公开了一种商品数据检索排序系统,包括:
商品数据的数据库;
匹配模块,用于根据用户输入的查询词从数据库中取出匹配结果;
统计计算模块,用于对该匹配结果的类别个数及所有类别名称进行统计,并对每个类别分别计算在匹配结果中的商品数据个数ni以及该类在整体商品数据中包含的商品数据个数mi;
权重计算模块,用于计算类别名称的类别权重wi,找出类别权重wi最大的类对应的类别权重为wt;
过滤模块,用于将所有类别权重小于d*wt的类对应的所有商品数据从匹配结果中删除,其中,0<d<1,为可调参数;
排序模块,用于将过滤后的类别按照其类别权重进行从大至小的排序。
所述的商品数据检索排序系统,还包括物美价廉指数及推荐度计算模块,用于计算物美价廉指数及推荐度,其中:
物美价廉指数=商品价格/好评度*可信度,其中可信度=1-好评度/评价次数;
μ
G是推荐度目标变量为1的商品数据的均值,μ
B是推荐度目标变量为0的商品数据的均值,
是推荐度目标变量为1的商品数据方差的平方,
是推荐度目标变量为0的商品数据方差的平方。
推荐度目标变量=IF(AND(物美价廉指数<4N,转化率<M),1,0),其中,转化率=商品浏览量/实际购买量,N是物美价廉指数的均值,M是转化率的均值。商品数据包括:商品价格,好评度,可信度,成交次数,浏览次数,共计打分次数。
所述的商品数据检索排序系统,还包括百分比计算模块,用于计算商品所在商家的价格在各个网上商城所卖价格的百分比,计算公式为:
1-((某网上商城的价格-网上最低价)/(网上最高价-网上最低价))。
本发明的有益效果为:有效解决了大数据量下搜索结果冗余,排序结果不符合用户习惯的问题。通过本发明的类别权重法对搜索结果进行排序之后,可以准确地找出与查询词“手机”相对应的手机类别的数据并展示给用户,大大地提高了用户体验。其次,通过本发明的类别权重算法计算出来的权重,我们可以对搜索结果进行过滤,即类别权重过低的数据可以直接从击中结果中剔除,以解决搜索结果大量冗余的问题。此外,本发明采用的算法所需的计算步骤少,而且简洁明了,使得搜索引擎的效率也有了极大的提升。
具体实施方式
下面给出本发明的具体实施方式,结合附图对本发明做出了详细描述。
本发明所涉及的类别权重排序法可以很好地解决这一问题。在这里,类别指的是商品数据所属分类。
其基本思想如下:
设某一搜索的击中结果总个数为n(设n>0),这n个结果属于s(s>0)个不同的击中类别,其中第i(i=1,2,…,s)个击中类别的击中结果个数为n
i(n
i>0),则有
另设第i个击中类别在原数据整体中包含的所有数据个数为m
i,显然有m
i≥n
i>0
计算每一个击中类别的类别权重。不妨取第i(i=1,2,…,s)类,其对应类别权重记为wi,则:
(公式1)
在公式1中,a,b,c均为可调参数,且a+b=1,a>0,b>0,c>0。
以此类别权重对搜索结果进行重新排序,数据所属分类的类别权重越高,排序越靠前。
下面介绍其数据处理步骤:
一、根据用户输入的查询词从整体海量数据中取出匹配结果,结果包含若干条数据(设结果包含n条数据),每条数据由字段构成,主要字段有简介,分类名称,价格。
二、对匹配结果进行统计,并通过统计数据对匹配结果进行过滤排序。
1、统计匹配结果的以下数据:
(1).匹配结果包含的类别个数以及所有类别名称。不妨设类别个数为s(s≥0),对应的类别名称分别为:category_1(类别1),category_2(类别2),….,category_s(类别s).
(2).计算category_i(i=1,2,…,s)在匹配结果中的商品数据个数ni以及它在整体商品数据中包含的商品数据个数mi,则显然有:
mi≥ni>0且
2、计算category_1,category_2,….,category_s的类别权重。取第i(i=1,2,…,s)类,其对应类别权重记为wi,计算公式如下:
(公式1)
在公式1中,a,b,c均为可调参数,且a+b=1,a>0,b>0,c>0.
当a=2/3,b=1/3,c=100时,上述公式为:
(公式2)
3、过滤和排序。
(1)找出category_1,category_2,….,category_s中类别权重wi最大的类,设为category_t,则其对应的类别权重为wt。其中:t(t=1,2,…,s),wt是特指权重wi为最大的类,wi是泛指所有的类别权重。
(2)过滤。将category_1,category_2,….,category_s中所有类别权重小于d*wt的类对应的所有商品数据从匹配结果中删除。其中,0<d<1,为可调参数。
(3)排序。将步骤(2)过滤剩下的类别按照其类别权重进行从大至小的排序,即类别权重越大的类别对应的商品数据排序越靠前。
为了说明上述所说的检索过程,选取了三个查询词:手机,笔记本,相机。
由于要解决的排序问题是因击中结果类别繁多而引起,故选取击中结果中类别数较多的几个查询词。
参见表1、表2、表3,第一行显示查询词以及该查询词对应的击中结果总个数,第一列为击中类别名称,第二列,第三列,第四列则为该击中类别对应的类别击中个数,类别总个数以及类别权重。其中最后一列的类别权重是根据上面提到的权重公式1计算得出的结果,公式中a取值为2/3,b取值为1/3,c取值为100.
下面我们来简要说明一下类别权重的计算过程,如当查询词为“手机”,我们要计算“手机保护套”这个类别的权重(表1中的第四行)。由公式
n
i为类别击中个数4187,m
i为类别总个数14287,n为击中总个数10030,设置参数a=2/3,b=1/3,c=100,将以上数据代入公式后即可算得类别权重w
i的值为3.589824。
表格中显示的为已经经过类别权重排序的结果,排序方式为从大到小。如前所述,这几个查询词对应的击中结果类别数较多,为了展示方便,故均只选取类别权重最大的18个类别。
表1
表2
表3
从结果中可以看出,搜索“手机”时,类别权重最大的为【手机】类别,搜索“笔记本”时类别权重最大的类别为【笔记本】【笔记本电脑】;搜索“相机”时,类别权重最大的类别为【数码相机】。这样的搜索结果是相当符合用户的搜索习惯的。于此可以看出在垂直搜索引擎中应用类别权重排序法的效果是相当显著的。
若不经过类别权重排序,比如用户搜索“手机”,最先展示给用户的则可能是跟手机相关的书籍,手机充电器等等,这是不符合用户的搜索习惯的,因而会极大地降低用户体验。通过本发明的类别权重法对搜索结果进行排序之后,可以准确地找出与查询词“手机”相对应的手机类别的数据并展示给用户,大大地提高了用户体验。其次,通过本发明的类别权重算法计算出来的权重,我们可以对搜索结果进行过滤,即类别权重过低的数据可以直接从击中结果中剔除,以解决搜索结果大量冗余的问题。此外,本发明采用的算法所需的计算步骤少,而且简洁明了,使得搜索引擎的效率也有了极大的提升。
三、根据第二步的过滤排序结果对商品数据匹配结果进行展示。
商品推荐模型设计原理:商品推荐本着物美价廉的原则来设计。所以,首先要定义什么是物美价廉。
物美价廉指数=商品价格/好评度*可信度,其中可信度=1-好评度/评价次数。
该指数表示:对于同类商品,商品价格越低并且大众的好评度越高,那么该商品的物美价廉指数值就越低,指数越低表示该商品越受欢迎。其中,可信度是指该商品受欢迎的置信区间,或者说受欢迎的程度有多少。可信度取值从0到1之间。
当然,物美价廉指数从商品内在价值来看这是必要条件,但单单从物美价廉指数就认定商品的好坏还不够充分,因为,网络毕竟不能完全提供人们亲身购物时所能体验到的商品的信息,另外,网购也跟网店的设计,美工,网上商城的布局,查询的排序等等都有关。不过这些最后都放映到了浏览量和实际购买量上,所以,在考虑商品本身的内在价值(物美价廉指数)后,觉得如果再加上商品的转化率做为外在的约束条件,把它放入到目标变量中,那么由此模型推荐出来的商品,无论从商品的内在价值还是他的外在表现。都会比较准确。
目标变量:=IF(AND(物美价廉指数<N,转化率<M),1,0)
其中衍生变量
1、转化率=商品浏览量/实际购买量
2、物美价廉指数=商品价格/好评度*可信度
3、可信度=1-好评度/评价次数
建立模型
建模工具:知测区分度模型,知测是一种统计分析软件。区分度模型是一种统计算法。
数据(见表6、7):建模数据都是从网上抓取的(其中,价格,成交次数,浏览次数,好评度,共打多少次,都是从网上抓下来的,但可信度,物美价廉指数和转化率是从这些数据中计算出来的)。
进入模型的预测变量为5个部分:价格、成交次数、浏览次数、好评度、共打分多少次,衍生变量为3个:可信度、物美价廉指数、转化率,衍生变量因为与目标变量相关性较强,所有并没有进入模型,GB(好坏)为目标变量,见表四:
名称 |
价格 |
成交次数 |
浏览次数 |
好评度 |
共打分多少次 |
可信度 |
物美价廉指数 |
转化率 |
GB |
表4
数据分类属性:数码电器模型参数见下表5:表中的数据是通过知测的区分度模型计算出来的统计量,其中训练样本(training)指的是从网上抓取的数据中随机抽取的一部分数据,训练样本是用来建立预测模型的数据,验证样本是在通过训练样本建立起来的模型后,用于验证模型(validation)是否有效的数据。区分度,ROC面积,GiNi系数,KS值等都是统计量,这个大部分的统计软件都有,此处应该不用解释(最好能举一例统计软件来解释)。图1为训练样本和验证样本的??
评分模型主要统计量
样本类型 |
区分度 |
ROC面积 |
Gini系数 |
KS值 |
训练样本 |
9.502 |
0.961 |
0.922 |
81.670 |
验证样本 |
10.131 |
0.961 |
0.922 |
83.561 |
表5
图1为本发明的训练样本和验证样本的区分度,灰色部分代表坏的商品,黑色部分代表好商品,中间有重叠的部分代表区分度模型没有区分出来的商品。从图上可以看出来,好坏商品区分的很开,重叠的很少,说明该模型能很好的把好坏商品给区分开来,这说明它可以用来作为对新上架的商品做预测。
从表4、表5及图1统计量来看,训练样本的统计量和验证样本的统计量都比较接近,说明区分度模型能很好的把好坏商品给区分开,这表明该模型可以用来预测某新上架商品的受欢迎程度,商品受欢迎程度我们叫做推荐度。
另外,对于某个商品只有5个人说它好和有1000个人说它好,当然1000个人说它好的可信度更可信些,至于上架时间久的商品评价它的人就会多过刚上架的商品,这会不会导致可信度不可信,测算一下,参见表6:表中的数据就是进入到模型的其中两条记录,用来对上面的话做说明的。
表6
表6是把好评度的共打分多少次最极端的两个数据用来测算,即共打分多少次一个太少只有6次(表6第1行第6列),另外一个太多,有28294次(表6第2行第6列),第一条记录的商品,假设经过一段时间后,共打分多少次从6次变到了6000次(见表7第1行第7列),那么物美价廉指数值也从85变到了445.2685(见表7第1行第8列)。但是,GB目标变量的值本身并没有改变。
名称 |
价格 |
成交次数 |
评价次数 |
浏览次数 |
好评度 |
共打分多少次 |
可信度 |
物美价廉指数 |
目标变量 |
dell笔记本15R |
4029 |
5 |
2 |
942 |
4.8 |
6000 |
0.9992 |
445.2685 |
0 |
洪剑电风扇 |
239 |
1639 |
4328 |
350470 |
4.7 |
28.294 |
0.8339 |
42.40404326 |
1 |
表7
另外,假设第二条的商品的共打分多少次一开始是28.294次(表7第2行第6列)而不是现在的28294次(表6第2行第6列),那么它的可信度和物美价廉指数也都发生了改变,但是,它的GB目标变量的值本身也没有改变。
这说明目标变量与共打分多少次无关,但是可信度和物美价廉指数与共打分多少次有关。
在上面提到,衍生变量是没有进入到模型中的,而进入到模型的目标变量也没有因为放大1000倍的共打分多少次和缩小1000倍的共打分多少次数而发生改变。
所以,可信度并不会因为上架时间的长短而影响模型最终的结果。
四、商品推荐展现形式
根据上面所用模型计算出来的商品推荐度的高低来对商品排序,但这只是其中一种排序方式。也可以用价格高低来排序,或者其他可选方式来排序。)
商品推荐展现形式算法
为了展示,假定¥50.0是鞋子的最低价,¥500.0是最高价,那么新的商品表现形式为图2所示,图2的上半部分为鞋子的样式及名称等,图2的下半部分为价格的展示。比如:某鞋在某商城的价格是256,这个价格在整个网上的价格低于83%的同类商品,箭头所指为其百分比。
商品展现形式是在商品检索后,用户根据推荐度或者其他排序方式打开商品后,可以清楚知晓商品所在商家的价格在各个网上商城所卖价格的百分比是多少。
计算公式为:
1-((某网上商城的价格-网上最低价)/(网上最高价-网上最低价))
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。