CN109670922B - 一种基于混合特征的线上图书价值发现方法 - Google Patents

一种基于混合特征的线上图书价值发现方法 Download PDF

Info

Publication number
CN109670922B
CN109670922B CN201811633423.1A CN201811633423A CN109670922B CN 109670922 B CN109670922 B CN 109670922B CN 201811633423 A CN201811633423 A CN 201811633423A CN 109670922 B CN109670922 B CN 109670922B
Authority
CN
China
Prior art keywords
book
value
comment
time
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811633423.1A
Other languages
English (en)
Other versions
CN109670922A (zh
Inventor
刘磊
孙应红
陈浩
吴爽
侯良文
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811633423.1A priority Critical patent/CN109670922B/zh
Publication of CN109670922A publication Critical patent/CN109670922A/zh
Application granted granted Critical
Publication of CN109670922B publication Critical patent/CN109670922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机软件技术领域,提出了一种基于混合特征的线上图书价值发现方法,本发明通过分析线上图书的各类特征指标,结合机器学习算法构建线上图书价值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出版时间等价值特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例,说明了方法的有效性。

Description

一种基于混合特征的线上图书价值发现方法
技术领域
本发明属于信息处理技术领域,涉及一种基于混合特征的线上图书价值发现 方法。
背景技术
随着互联网的不断迅速发展,在线购买图书成为人们日常购书的首要选择方 式,但是在线图书缺少以前的实物购买体验。想买到一本对自己有价值的图书变 得困难。用户主要通过图书评论和内容简介信息来选择图书。但是图书评论的真 伪和内容简介的片面,都会对评价一本图书的价值产生影响。现有技术一般是基 于用户兴趣分析的图书推荐方法,很少涉及用户无关的图书价值发现方法。
目前主流的图书推荐方法主要是基于特定用户个人兴趣向用户推荐图书。其 中基于信息内容过滤和协同过滤是图书推荐系统中最常见的技术。第一种方法主 要是基于图书信息内容,通过此信息内容来判断该图书内容与用户兴趣是否相关, 进而计算两者之间的相似度,用此相似度作为是否给用户推荐的依据;第二种方 法是基于某个用户的兴趣,通过分析与该用户兴趣类似的用户对某本图书信息的 喜好,由此来判断该用户对此图书是否感兴趣,进而决定是否推荐该图书给此用 户。
以上方法在图书销售领域和其他电子商务信息推荐方面都取得较大成效。但 是在这个信息量日益膨胀的大数据时代,要想获取到最新的随时间变化的图书信 息内容或者其他线上商品信息内容,显得格外的困难,这就使得基于图书信息的 内容过滤方法不能有效的对该用户推荐最新的图书信息。而对于第二种协同过滤 方法来说,随着时间变化,用户的兴趣也在变,可信度和稀疏性问题,也随着时 间变化规模不断上升,使得计算复杂度不断增加,这也是协同过滤所面临的问题。
发明内容
本发明提出了一种基于混合特征的线上图书价值发现方法,此方法针对不同 图书类别,在时间维度上对图书建立一个自适应的图书价值发现方法。有效的避 免了因时间变化导致的图书信息内容以及用户兴趣的改变。通过该方法可以帮助 用户发现一些未来潜在的更有价值的图书。
本发明通过分析线上图书的各个特征,结合机器学习算法,构建线上图书价 值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出 版时间等特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定 的特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发 现模型可用于时间维度上的图书价值发现,及时发现图书价值的时效性。实验分 析以亚马逊图书网站为例,来说明方法的有效性。该方法充分利用了时间维度上 的图书特征,对于发现图书价值,特别是图书的潜在价值有较好效果。
为实现上述目的,本发明采用如下的技术方案
一种基于混合特征的线上图书价值发现方法,包括以下步骤:
步骤(1)采集某线上图书商城的图书特征数据
采集某线上图书商城的图书特征数据集合记为D={bf1,bf2,…,bfn}。bfi表示 某一本书的特征数据。
图书特征bf进一步描述如下:
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,comment_set}。
特征符号的语义说明如下表1:
表1图书特征符号的语义说明
Figure BDA0001929465730000021
Figure BDA0001929465730000031
comment_set={p1,p2,…,pn},其中pi表示一条图书评论;
p={comment_content,comment_time}
其中,comment_content表示图书评论内容,comment_time表示图书评论时 间;
步骤(2)对采集的数据集D进行预处理
(2.1)按照数据挖掘的预处理策略,删除数据集D中缺失值超过θ的图书 数据,θ的取值范围为[0.2,1],对缺失值低于θ的数据用该数据所在特征维度的 其他特征值的平均值或众数进行填充,标准化图书特征的数据表示方式;
(2.2)对数据D中的每本图书数据对应的数值型特征(price,paper_num,comment_num,times,good_comment_num)进行去量纲化处理,把每一个数值型 图书特征映射到[0,1]区间,公式如下:
Figure BDA0001929465730000032
其中,xij为第i个特征在第j个分量上对应的原始值,第i特征在数据集D中 可以表示为(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}为第i个特征的分量中 的最小值,max{x11,x12,…,x1j,…,xin}为其最大值,
Figure BDA0001929465730000033
为每本图书第i个 特征上的第j个分量归一化后的值,归一化后的第i个特征可表示为
Figure BDA0001929465730000034
步骤(3)计算基于时间维度的图书评论内容价值,将评论内容通过其中价 值词的词频转化为可用的数值型数据
(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD
(3.1.1)对步骤1中采集的图书评论数据comment_content进行分词,词性 标注,只保留形容词、名词以及动词,构建评论语料库,记作COMM。
(3.1.2)构建初始好评价值词典与初始差评价值词典,其中初始好评价值词典记作 GVD0={w1,w2,…,wm},wi是人工标注的初始好评种子词;初始差评价值词典 BVD0={v1,v2,…,vn},vi是人工标注的初始差评种子词;
(3.1.3)扩充价值词典GVD0与BVD0
以语料库COMM为输入数据,利用通用的word2vec词向量方法,训练得到价 值词模型,记作WORDVEC;对所有的wl∈GVD0,利用WORDVEC模型得到与wl语 义最为相近的前N个价值词,记作WORDVEC(wl)={c1,c2,…cN};最后合并所有 WORDVEC(wl),wl∈GVD0,得到扩充后的好评价值词典,记作:
GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(wm)
类似的可以得到扩充后的差评价值词典,记作:
BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(vn)
(3.2)以L天为单位,计算每本图书的评论内容价值
对于D中的每本图书bf,以图书特征上架时间sale_time为起始点,将bf 的图书评论集合comment_set按照评论发表时间,以L天为一组进行分割。分割 后的图书评论集合记为S,被划分为m个子图书评论集合。其中S={s1,s2,…,sm}, si={p′1,p′2,…,p′k},si表示其中某一组评论内容,且其中有k条评论内容。
根据公式2可以计算图书评论子集si∈S的评论内容价值:
Figure BDA0001929465730000041
其中ul∈GVD,frei(ul)表示价值词ul在图书评论子集si中的词频, M1=|GVD|为好评价值词典的大小,ηj∈BVD,freij)表示价值词ηj在图书 评论子集si中的词频,M2=|BVD|为差评价值词典的大小。
则图书评论集合S的评论内容价值可记作
Figure BDA0001929465730000051
其中
Figure BDA0001929465730000052
表示 图书评论集合s在第i时间段的图书评论价值。
(3.3)通过公式1对图书评论内容价值进行归一化处理,使其落入区间[0,1],
计算基于时间维度的图书评论内容价值后,comment_set特征被替换为图书 评论内容价值特征vS,数据集D可以表示为:D={bf1,bf2,…,bfn}。bf∈D表示 某一本书的特征数据。
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,vS}。
Figure BDA0001929465730000053
步骤(4)选择图书价值特征
筛选图书价值特征,并在此基础上更新数据集D。
(4.1)基于图书特征status,取出数据集D中的上榜图书,即status=1的 图书集合,并基于特征指标ranking,为每一本上榜图书设定一个分值,记作数 据集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指标ranking给 定的一个图书分值,
Figure BDA0001929465730000054
rankingi表示图书bfi在其排行榜上的名 次,分母加0.1是因为防止该值等于1。
(4.2)分析图书的各数值型特征与图书价值之间的相关性
(4.2.1)从图书特征bf中选择出数值型特征集合:bf′={price,public_time,times,paper_num,comment_num,good_comment_num}。
(4.2.2)对任意的数值型特征t=(t1,t2,…,tn)∈bf′,通过公式3计算t与 y=(y1,y2,…,yn)的相关性系数,公式如下:
Figure BDA0001929465730000055
其中,Cov(t,y)为特征t与y的协方差,计算公式为:
Figure BDA0001929465730000061
σty为特征t与y的标准差,计算公式为:
Figure BDA0001929465730000062
Figure BDA0001929465730000063
如果t与y的相关性系数rt,y的绝对值|rt,y|≥0.8,则认为t与y之间具有很强的 相关性;0.3≤|rt,y|<0.8,则认为t与y的相关性较弱,|rt,y|<0.3,则认为相互独 立,没有相关性;删掉相关性系数|rt,y|<0.3的特征,然后对剩余的相关性系数从 大到小排序,选取前N个特征作为最终的图书特征,记作:bf′={f1,f2,…,fN}。
数值型特征选取后,上榜图书数据集D′可以表示为:D'={bf1,bf2,…,bfn}。 bfi表示某一本书的特征数据,bf={bf′,vS,ranking,class},
Figure BDA0001929465730000064
步骤(5)利用上榜图书数据集D′,对每类图书在每个时间段进行图书价值 建模
对步骤(4)更新后的数据集D′进行两步分割,首先对数据集D′按照图书 类别分割,接下来对依次分割后的每一类图书数据,基于图书评论内容价值
Figure BDA0001929465730000065
进行二次分割,具体为步骤5.1、5.2所述。
(5.1)对上榜图书数据集D′,基于图书类别特征class={c1,c2,…,cl}进行 分割,得到:
Figure BDA0001929465730000066
(5.2)对每类图书cj∈class,基于图书评论内容价值
Figure BDA0001929465730000067
对第cj类数据集
Figure BDA0001929465730000068
进行分割,有:
Figure BDA0001929465730000069
其中
Figure BDA00019294657300000610
表示为:
Figure BDA00019294657300000611
(其中M表示具体某 个时间段上图书的数量),对任意
Figure BDA0001929465730000071
Figure BDA0001929465730000072
(5.3)在每个数据集
Figure BDA0001929465730000073
上,通过根据ranking特征可以计 算每一本图书的一个近似的价值得分
Figure BDA0001929465730000074
(rankingi表示图书bfi在 其排行榜上的名次,分母加0.1是因为防止该值等于1)后,则第cj第 si(i=1,2,…,m)段上的数据集
Figure BDA0001929465730000075
可表示为
Figure BDA0001929465730000076
其中n表示第cj第si段上图书的数量,bfi表示第i图书的特征数据,然后以 y=(y1,y2,…,yn)作为训练时的标签label,即图书价值
Figure BDA0001929465730000077
的近似。最后利 用因子分解机算法FM(Factorization Machine)在数据集
Figure BDA0001929465730000078
做回归分析,因子 分解机训练的模型如下:
Figure BDA0001929465730000079
其中,以
Figure BDA00019294657300000710
作为cj(j=1,2,…l)类图书中一本图书
Figure BDA00019294657300000711
在时间 段si的价值得分,x=(x1,x2,…xN)=bf,xq,xl,xp∈x, wq,wl,p为待训练的图书价值权值。
通过FM算法的训练,可以得到所需的权值wq,wl,p,为表示方便,记作
Figure BDA00019294657300000712
训练完后得到价值模型
Figure BDA00019294657300000713
同理,可以对所有类别的图书,在各个时间段上求取对应的价值模型。
步骤(6)利用步骤(5)训练得到的价值模型
Figure BDA00019294657300000714
可以计算出每本 图书的价值得分,并分析其价值走势
对任意一本图书
Figure BDA00019294657300000715
基于特征
Figure BDA00019294657300000716
可以得到对应时间 段上的价值得分:
Figure BDA00019294657300000717
其中,x=bf为上榜的cj类的任意一本图书数据。
而该图书基于前T∈{1,2,…,m}个时间段上的总价值得分可以表示为:
Figure BDA0001929465730000081
利用公式9可计算出图书bf的前T个时间段的价值得分。
最后把该图书第T+1时刻的图书数据输入价值模型
Figure BDA0001929465730000082
可以得到该 图书在第T+1时间段的价值预测
Figure BDA0001929465730000083
有益效果
(1)本发明将线上图书的评论内容转换成分值的形式,有效的避免了用户 在购买图书时用大量时间来阅读评论内容;
(2)本发明结合图书的其他属性,避免了用户只针对评论内容来够买图书的 片面性;
(3)本发明适用于各种线上网店书城,并针对不同的图书类别建模,很好的 利用了图书类别信息。
(4)线上图书的时效性是非常重要的,本发明基于这种时效性,在时间维度 上建模,能够及时地在某个时间发现该图书的价值;
附图说明
图1本发明的方法流程图;
具体实施方式
对本发明的具体实施方式结合附图作进一步的详细描述,以下实施例用于说 明本发明,但不用来限制本发明的范围。
其具体实施步骤如下:
步骤(1)采集某线上图书商城的图书特征数据
本专利通过使用亚马逊提供的API下载了10万条亚马逊图书特征数据,并 记为D={bf1,bf2,…,bfn}。bfi(i=1,2,3,…,100000)表示某一本书的特征数据。
图书特征bf可表示成如下形式:
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,comment_set}。
特征符号的语义说明如下表1:
表1图书特征符号的语义说明
Figure BDA0001929465730000091
comment_set={p1,p2,…,pn},其中pi表示一条图书评论。
p={comment_content,comment_time}
其中,comment_content表示图书评论内容,comment_time表示图书评论时 间。
步骤(2)对采集的数据集D进行预处理
(2.1)删除数据集D中缺失值超过θ=20%的图书数据,对缺失值低于20% 的数据用该数据所在特征维度的其他特征值的平均值或众数进行填充,标准化图 书特征的数据表示方式。图书评论内容的清洗,去掉html对应的网页标签;图 书bi的元数据价格为:¥36.67,删掉字符“¥”;页码:292页,去掉字符“页”; 版次:第1版,去掉字符“第”与“版”;对出版时间这一字段,去掉“年”、 “月”、“日”,或者“-”。
(2.2)对与像price,paper_num,comment_num,times,good_comment_num 这样的特征数据落入不同区间相差较大,有必要对数据进行去量纲化处理,把每 一个数值型特征映射到[0.1]区间,公式如下:
Figure BDA0001929465730000101
其中,xij为第i个特征在第j个分量上对应的原始值,第i特征在数据集D中 可以表示为(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}为第i个特征的分量中 的最小值,max{x11,x12,…,x1j,…,xin}为其最大值,
Figure BDA0001929465730000102
为每本图书第i个 特征上的第j个分量归一化后的值,归一化后的第i个特征可表示为
Figure BDA0001929465730000103
最后处理的数据类似于表2中的数据:
表2图书特征归一化举例
Figure BDA0001929465730000104
步骤(3)计算基于时间维度的图书评论内容价值
(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD
(3.1.1)对近30万条图书评论数据集comment_set进行分词,词性标注, 只保留形容词、名词以及动词,构建评论语料库,记作COMM。
(3.1.2)构建初始好评价值词典与初始差评价值词典,其中初始好评价值词 典记作GVD0={w1,w2,…,wm},wi(i=1,2,…,100)是人工标注的初始好评种子词, 诸如“好书”,“正品”,“值得”,“推荐”,“不错”“有用”这样的词, 共100个;初始差评价值词典BVD0={v1,v2,…,vn},vi(i=1,2,…,100)是人工标 注的初始差评种子词,诸如“垃圾”,“不喜欢”,“不适合”这样的词共100 个。
(3.1.3)扩充价值词典GVD0与BVD0
以语料库COMM为输入数据,利用通用的word2vec词向量方法,训练得到价 值词模型,记作WORDVEC;对所有的wl∈GVD0,利用WORDVEC模型得到与wl语 义最为相近的前N=100个价值词,记作WORDVEC(wl)={c1,c2,…cN};最后合 并所有WORDVEC(wl),wl∈GVD0,得到扩充后的好评价值词典,记作:
GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(w100)
以本专利标注的初始好评价值词典GVD0中的词为基准,扩充后的好评价值 词典GVD如下表3所示,其中黑体词属于GVD0
表3扩充后的好评价值词典示例
Figure BDA0001929465730000111
类似的可以得到扩充后的差评价值词典,记作:
BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(v100)
以本专利标注的初始好评价值词典BVD0中的词为基准,扩充后的好评价值 词典BVD如下表4所示,其中黑体词属于BVD0
表4扩充后的差评价值词典示例
Figure BDA0001929465730000121
(3.2)以L=30天为单位,计算每本图书的评论内容价值
对于D中的每本图书bf,以图书特征上架时间sale_time为起始点,将bf 的图书评论集合comment_set按照评论发表时间,以L=30天为一组进行分割。分 割后的图书评论集合记为S,被划分为m个子图书评论集合。其中 S={s1,s2,…,sm},si={p′1,p′2,…,p′k},k,m的值根据具体的图书评论条数而定, si表示其中某一组评论内容,且其中有k条评论内容。
根据公式2可以计算图书评论子集si∈S的评论内容价值:
Figure BDA0001929465730000122
其中ul∈GVD,frei(ul)表示价值词ul在图书评论子集si中的词频, M1=|GVD|=5035为好评价值词字典的大小,ηj∈BVD,freij)表示价值词ηj在图书评论子集si中的词频,M2=|BVD|=3660为差评价值词典的大小;
最后我们计算出的每本图书在不同评论子集上的价值类似下表5所示,为数据集D中的三本图书在前210天的图书评论内容价值:
表5图书评论内容价值示例
Figure BDA0001929465730000131
则图书评论集合S的评论内容价值可记作
Figure BDA0001929465730000132
其中
Figure BDA0001929465730000133
表示 图书评论集合记为s在第i时间段的图书评论价值。
(3.3)最后通利用公式1对图书评论内容价值进行归一化处理,使其落入 区间[0,1]。计算基于时间维度的图书评论内容价值后,comment_set特征被替换 为图书评论内容价值特征vS,数据集D可以表示为:D={bf1,bf2,…,bfn}。bfi表 示某一本书的特征数据,(i=1,2,3,…,100000)。
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,vS},其 中
Figure BDA0001929465730000134
步骤(4)选择图书价值特征
(4.1)基于图书特征status,取出status=1上榜图书数据集,共2万本上 榜图书。并基于排名特征ranking,为每一本上榜图书设定一个分值yi,记作数 据集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指标ranking给 定的一个图书分值,
Figure BDA0001929465730000135
分母加0.1是因为防 止该值等于1,rankingi表示图书bfi在其排行榜上的名次。
(4.2)分析图书的各数值型特征与图书价值之间的相关性
(4.2.1)从图书特征bf中选择出数值型特征集合:bf′={price, public_time,times,paper_num,comment_num,good_comment_num}。
(4.2.2)对任意的数值型特征t=(t1,t2,…,tn)∈bf′,利用公式3计算t与y=(y1,y2,…,yn)的相关性系数,公式如下:
Figure BDA0001929465730000141
其中,Cov(t,y)为特征t与y的协方差,计算公式为:
Figure BDA0001929465730000142
σty为特征t与y的标准差,计算公式为:
Figure BDA0001929465730000143
Figure BDA0001929465730000144
如果t与y的相关性系数rt,y的绝对值|rt,y|≥0.8,则认为t与y之间具有很强的相关 性;0.3≤|rt,y|<0.8,则认为t与y的相关性较弱,|rt,y|<0.3,则认为相互独立, 没有相关性;删掉相关性系数|rt,y|<0.3的特征,然后对剩余的相关性系数从大到 小排序,选取前N个特征作为最终的图书特征,记作:bf′={f1,f2,…,fN}。例 如,假设有n=100本图书,则t=(t1,t2,…,t100)为这100本图书共同的某一个特征, 假如为这100本图书的price,y=(y1,y2,…,y100)为这100本图书的排名,则可 以根据公式3计算的price与图书价值的相关性系数rt,y,同理可计算其他特征 与对应排名y的相关性系数。
通过计算各数值型特征集合bf′中的特征与y对应的|rt,y|值,计算结果如下 表6所示:
表6数值型特征与分值之间的相关系数
Figure BDA0001929465730000145
根据表6中的结果,删掉相关性系数|rt,y|<0.3的特征{public_time, times};选取相关性较高的数值型特{price,paper_num,comment_num, good_comment_num}。
最终确定的数值型图书特征记作bf′,表示为:
bf′={f1,f2,…,f4}={price,paper_num,comment_num,good_comment_num}
数值型特征选取后,上榜图书数据集D′可以表示为:
D'={bf1,bf2,…,bfn},其中n=20000。bfi表示某一本书的特征数据, bf={bf′,vS,ranking,class},
Figure BDA0001929465730000151
m=7。例如,对于图书《三 体》,其数值型价值特征为bf′={0.56,0.67,0.87,0.81},7个时间段上的评论内 容价值特征vS={0.23,0.45,0.42,0.57,0.55,0.43,0.23},ranking=(1,2,1,1, 2,1,1),class=‘文学’。
步骤(5)利用上榜图书数据集D′,对每类图书在每个时间段进行图书价值 建模
利用步骤4可以得到评价图书价值的最终特征bf={bf′,vs}以及更新后的数 据集D′。然后对数据集D′做两次分割,首先对数据集D′按照图书类别分割,接 下来对依次分割后的每一类图书数据,基于图书评论内容价值
Figure BDA0001929465730000152
进行二次分割,具体为步骤5.1、5.2所述。
(5.1)对上榜图书数据集D′,基于图书类别特征class={c1,c2,…,cl},亚马 逊图书类别共l=38,进行分割,得到:
Figure BDA0001929465730000153
(5.2)对每类图书ci∈class,基于图书评论内容价值特征
Figure BDA0001929465730000154
对第cj类数据集
Figure BDA0001929465730000155
进行分割,有:
Figure BDA0001929465730000156
其中
Figure BDA0001929465730000157
m=7,表示为:
Figure BDA0001929465730000158
对任意
Figure BDA0001929465730000159
Figure BDA00019294657300001510
如下表7为数据集
Figure BDA0001929465730000161
中图书《三体》的各特征的数值表示,其他图书表 示均与其类似。
表6文学类图书《三体》在7个时间段归一化后的数据表示
Figure BDA0001929465730000162
(5.3)在图书分类cl=“文学”上进行建模
Figure BDA0001929465730000163
(分母加0.1是因为防止该值等于1)作为图书bfi的真 实价值近似,rankingi表示图书bfi排行榜上的名次,则数据集
Figure BDA0001929465730000164
可表示为
Figure BDA0001929465730000165
其中n表示文学类图书第si段上图书的数 量,bfi表示第i本图书的特征数据,然后以y=(y1,y2,…,yn)作为训练时的标签 label。
最后取数据集
Figure BDA0001929465730000166
前6个时间段数据作为训练,记作
Figure BDA0001929465730000167
第 7个时间段上的数据作为预测。再把数据集
Figure BDA0001929465730000168
划分为训练集Dtrain和测试集Dtest。 利用因子分解机算法FM(Factorization Machine)做回归分析,训练模型如下:
Figure BDA0001929465730000169
其中,x=(bf',vs),xq,xl,xp∈x,N=5为步骤4中最终筛选的图书价值特征,
Figure BDA0001929465730000171
表示cj=‘文学’类图书中一本图书bf在时间段si(i=1,2,…,6)的价 值得分,wq,wl,p为待训练的文学类图书的价值权值。例如文学类图书第s1段上有 100本图书,对于每一本图书通过将其对应的特征数据x,以及对应的标签label
Figure BDA0001929465730000172
输入公式6可以得到对应的一对权值wq,wl,p,不断的把这100本图书输 入模型,最终可以的到一对泛化能力较好的wq,wl,p
利用FM算法在数据集Dtrain进行训练,通过不断更新训练得到泛化能力较好 的权值wq,wl,p,为表示方便,记作
Figure BDA0001929465730000173
训练完后得到价值模型
Figure BDA0001929465730000174
并保存模型
Figure BDA0001929465730000175
相当于保存
Figure BDA0001929465730000176
即可,做预测时 直接导出
Figure BDA0001929465730000177
模型进行预测即可。
同理,可以对每类图书的每个时间段上的数据进行建模,得到相应的价值模 型
Figure BDA0001929465730000178
步骤(6)计算每本图书的价值得分并分析其价值走势
对于cl=“文学”中的任意一本图书bf=(bf',vs),利用步骤5训练好的模型
Figure BDA0001929465730000179
可以得到对应时间段上的价值得分:
Figure BDA00019294657300001710
其中,x=bf为上榜的文学类图书的任意一本图书数据。
例如,可以计算文学类图书《三体》在第一个时间段上的价值得分score(bf), 《三体》在第一个时间段上的特征数据x=bf=(0.34,0.68,0.23,0.21,0.38),如表 6所示,代入已训练好的模型
Figure BDA00019294657300001711
即可得到《三体》这本图书在第一个 时间段的价值得分
Figure BDA00019294657300001712
其他时间段可以类似的求得。
而该(《图书》)基于前T∈{1,2,…,6}个时间段上的总价值得分可以用下面公 式求解,即通过对前T个时间段的价值得分进行求和得到。
Figure BDA00019294657300001713
Figure BDA0001929465730000181
为三体前7个时间段的价值总得分。
经过步骤五(5)训练完成后得到模型
Figure BDA0001929465730000182
然后把Dtest中所有图书的 六个阶段的特征数据x=bf代入模型
Figure BDA0001929465730000183
得到Dtest中图书的价值得分
Figure BDA0001929465730000184
如下表7给出了测试集Dtest中5本图书在前6个时间阶段 的价值得分,并且给出第7个时间段的价值预测得分,同样该得分是通过把第7 阶段的图书数据代入训练好的模型得到。
表7图书在不同时间阶段的价值得分
Figure BDA0001929465730000185
步骤(7)实验分析
在整个测试集Dtest上,各图书在每个时间段
Figure BDA0001929465730000186
上的平均 误差
Figure BDA0001929465730000187
如表8所示,其中
Figure BDA0001929465730000188
yj为图书xj的true(真实价值得分的近似),
Figure BDA0001929465730000189
f(xj)为predict(预测) 的图书价值得分在每个时间段的
Figure BDA00019294657300001810
表8图书在每个时间段的平均误差
Figure BDA0001929465730000191
通过分析测试集Dtest上各阶段图书的平均误差err,可以说明本专利给出的 价值评价模型,可以对每本图书在某个时间段给定一个较为合理的价值得分。

Claims (1)

1.一种基于混合特征的线上图书价值发现方法,包括以下步骤:
步骤(1)采集某线上图书商城的图书特征数据D={bf1,bf2,…,bfn},bfi表示某一本书的特征数据,图书特征bf进一步描述如下:
bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,comment_set};
特征符号的语义说明如下:name表示图书名,class表示图书类别,price表示图书价格,public_time表示出版时间,sale_time表示上架时间,即图书开始销售的时间,times表示版次,paper_num表示图书的页码数,press表示出版社,author表示图书作者,comment_num表示评论数,即销量,good_comment_num表示好评数,status表示是否上榜,取值为0或1,ranking表示图书排行榜的排名,comment_set表示评论集合,
comment_set={p1,p2,…,pn},其中pi表示一条图书评论;
p={comment_content,comment_time}
其中,comment_content表示图书评论内容,comment_time表示图书评论时间;
步骤(2)对采集的数据集D进行预处理:
(2.1)按照数据挖掘的预处理策略,删除数据集D中缺失值超过θ的图书数据,θ的取值范围为[0.2,1],对缺失值低于θ的数据用该数据所在特征维度的其他特征值的平均值或众数进行填充,标准化图书特征的数据表示方式;
(2.2)对数据D中的每本图书数据对应的数值型特征,即price,paper_num,comment_num,times,good_comment_num进行去量纲化处理,把每一个数值型图书特征映射到[0,1]区间,公式如下:
Figure FDA0003302824530000011
其中,xij为第i个特征在第j个分量上对应的原始值,第i特征在数据集D中可以表示为(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}为第i个特征的分量中的最小值,max{x11,x12,…,x1j,…,xin}为其最大值,
Figure FDA0003302824530000012
Figure FDA0003302824530000013
为每本图书第i个特征上的第j个分量归一化后的值,归一化后的第i个特征可表示为
Figure FDA0003302824530000014
步骤(3)计算基于时间维度的图书评论内容价值:
(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD:
(3.1.1)对步骤1中采集的图书评论数据comment_content进行分词,词性标注,只保留形容词、名词以及动词,构建评论语料库,记作COMM;
(3.1.2)构建初始好评价值词典与初始差评价值词典,其中初始好评价值词典记作GVD0={w1,w2,…,wm},wi是人工标注的初始好评种子词;初始差评价值词典BVD0={v1,v2,…,vn},vi是人工标注的初始差评种子词;
(3.1.3)扩充价值词典GVD0与BVD0
以语料库COMM为输入数据,利用通用的word2vec词向量方法,训练得到价值词模型,记作WORDVEC;对所有的wl∈GVD0,利用WORDVEC模型得到与wl语义最为相近的前N个价值词,记作WORDVEC(wl)={c1,c2,…cN};最后合并所有WORDVEC(wl),wl∈GVD0,得到扩充后的好评价值词典,记作:
GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(wm)
类似地,可以得到扩充后的差评价值词典,记作:
BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(vn);
(3.2)以L天为单位,计算每本图书的评论内容价值:
对于D中的每本图书bf,以图书特征上架时间sale_time为起始点,将bf的图书评论集合comment_set按照评论发表时间,以L天为一组进行分割,分割后的图书评论集合记为S,被划分为m个子图书评论集合,其中S={s1,s2,…,sm},si={p′1,p′2,…,p′k},si表示其中某一组评论内容,且其中有k条评论内容;
根据公式2计算图书评论子集si∈S的评论内容价值:
Figure FDA0003302824530000021
其中ul∈GVD,frei(ul)表示价值词ul在图书评论子集si中的词频,M1=|GVD|为好评价值词字典的大小,ηj∈BVD,freij)表示价值词ηj在图书评论子集si中的词频,M2=|BVD|为差评价值词典的大小;
则图书评论集合S的评论内容价值可记作
Figure FDA0003302824530000031
其中
Figure FDA0003302824530000032
表示图书在评论子集si上的评论价值;
(3.3)通过公式1对图书评论内容价值vS进行归一化处理,使其落入区间[0,1],
计算基于时间维度的图书评论内容价值后,comment_set特征被替换为图书评论内容价值vS,数据集D可以表示为:D={bf1,bf2,…,bfn},bf∈D表示某一本书的特征数据,bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,vS},
Figure FDA0003302824530000033
步骤(4)选择图书价值特征:
(4.1)基于图书特征status,取出数据集D中的上榜图书,即status=1的图书集合,并基于特征指标ranking,为每一本上榜图书设定一个分值,记作数据集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指标ranking给定的一个图书分值,
Figure FDA0003302824530000034
rankingi表示图书bfi在其排行榜上的名次,分母加0.1是因为防止该值等于1;
(4.2)分析图书的各数值型特征与图书价值之间的相关性:
(4.2.1)从图书特征bf中选择出数值型特征集合:bf′={price,public_time,times,paper_num,comment_num,good_comment_num};
(4.2.2)对任意的数值型特征t=(t1,t2,…,tn)∈bf′,通过公式3计算t与y=(y1,y2,…,yn)的相关性系数,公式如下:
Figure FDA0003302824530000035
其中,Cov(t,y)为特征t与y的协方差,计算公式为:
Figure FDA0003302824530000041
σty为特征t与y的标准差,计算公式为:
Figure FDA0003302824530000042
Figure FDA0003302824530000043
如果t与y的相关性系数rt,y的绝对值|rt,y|≥0.8,则认为t与y之间具有很强的相关性;0.3≤|rt,y|<0.8,则认为t与y的相关性较弱,|rt,y|<0.3,则认为相互独立,没有相关性;删掉相关性系数|rt,y|<0.3的特征,然后对剩余的相关性系数从大到小排序,选取前N个特征作为最终的图书特征,记作:bf′={f1,f2,…,fN};
数值型特征选取后,上榜图书数据集D′可以表示为:D'={bf1,bf2,…,bfn},其中bfi表示某一本书的特征数据,bf={bf′,vS,ranking,class}∈D′,
Figure FDA0003302824530000044
步骤(5)利用上榜图书数据集D′,对每类图书在每个时间段进行图书价值建模:
(5.1)对上榜图书数据集D′,基于图书类别特征class={c1,c2,…,cl}进行分割,得到:
Figure FDA0003302824530000045
(5.2)对每类图书cj∈class,基于图书评论内容价值
Figure FDA0003302824530000046
进行二次分割,其中第cj类数据集
Figure FDA0003302824530000047
分割后的数据可表示为:
Figure FDA0003302824530000048
其中
Figure FDA0003302824530000049
表示为:
Figure FDA00033028245300000410
其中M表示具体某个时间段上图书的数量,对任意
Figure FDA00033028245300000411
Figure FDA00033028245300000412
(5.3)在每个数据集
Figure FDA00033028245300000413
上,根据ranking特征可以计算每一本图书的一个近似的价值得分
Figure FDA0003302824530000051
则数据集
Figure FDA0003302824530000052
可表示为
Figure FDA0003302824530000053
其中n表示cj类图书第si段上图书的数量,bfi表示第i本图书的特征数据,然后以y=(y1,y2,…,yn)作为训练时的标签label,即图书价值
Figure FDA0003302824530000054
的近似;最后利用因子分解机算法FM在数据集
Figure FDA0003302824530000055
做回归分析,因子分解机训练的模型如下:
Figure FDA0003302824530000056
其中,以
Figure FDA0003302824530000057
作为cj(j=1,2,…l)类图书中一本图书
Figure FDA0003302824530000058
在时间段si的价值得分,x=(x1,x2,…xN)=bf,xq,xl,xp∈x,wq,wl,p为待训练的图书价值权值;
通过FM算法的训练,可以得到所需的权值wq,wl,p,为表示方便,记作
Figure FDA0003302824530000059
训练完后得到价值模型
Figure FDA00033028245300000510
同理,可以对所有类别的图书,在各个时间段上求取对应的价值模型;
步骤(6)利用步骤(5)训练得到的价值模型
Figure FDA00033028245300000511
可以计算出每本图书的价值得分,并分析其价值走势,
对任意一本图书
Figure FDA00033028245300000512
基于特征
Figure FDA00033028245300000513
可以得到对应时间段上的价值得分:
Figure FDA00033028245300000514
其中,x=bf为上榜的cj类的任意一本图书数据,
而该图书基于前T∈{1,2,…,m}个时间段上的总价值得分可以表示为:
Figure FDA00033028245300000515
利用公式8可计算出图书bf的前T个时间段的价值得分;
最后把该图书第T+1时刻的图书数据输入价值模型
Figure FDA0003302824530000061
可以得到该图书在第T+1时间段的价值预测
Figure FDA0003302824530000062
CN201811633423.1A 2018-12-29 2018-12-29 一种基于混合特征的线上图书价值发现方法 Active CN109670922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811633423.1A CN109670922B (zh) 2018-12-29 2018-12-29 一种基于混合特征的线上图书价值发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811633423.1A CN109670922B (zh) 2018-12-29 2018-12-29 一种基于混合特征的线上图书价值发现方法

Publications (2)

Publication Number Publication Date
CN109670922A CN109670922A (zh) 2019-04-23
CN109670922B true CN109670922B (zh) 2022-02-08

Family

ID=66146636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811633423.1A Active CN109670922B (zh) 2018-12-29 2018-12-29 一种基于混合特征的线上图书价值发现方法

Country Status (1)

Country Link
CN (1) CN109670922B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276642A (zh) * 2019-06-20 2019-09-24 卓尔智联(武汉)研究院有限公司 广告牌推荐方法、装置及计算机可读存储介质
CN110610072B (zh) * 2019-09-06 2021-10-01 武汉达梦数据库有限公司 一种数据鉴权方法及装置
CN111598310A (zh) * 2020-04-27 2020-08-28 天闻数媒科技(北京)有限公司 一种基于时间序列分析的图书热度预测方法以及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法
CN103294812A (zh) * 2013-06-06 2013-09-11 浙江大学 一种基于混合模型的商品推荐方法
EP2704089A2 (en) * 2012-08-31 2014-03-05 Accenture Global Services Limited Hybrid recommendation system
CN107437215A (zh) * 2017-08-02 2017-12-05 杭州东信北邮信息技术有限公司 一种基于标签的图书推荐方法
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107766547A (zh) * 2017-10-31 2018-03-06 掌阅科技股份有限公司 电子书推荐方法、电子设备及计算机存储介质
KR101887469B1 (ko) * 2017-02-03 2018-08-10 (주)브레인콜라 서적 간 유사도를 활용한 서적추천 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法
EP2704089A2 (en) * 2012-08-31 2014-03-05 Accenture Global Services Limited Hybrid recommendation system
CN103294812A (zh) * 2013-06-06 2013-09-11 浙江大学 一种基于混合模型的商品推荐方法
KR101887469B1 (ko) * 2017-02-03 2018-08-10 (주)브레인콜라 서적 간 유사도를 활용한 서적추천 방법
CN107437215A (zh) * 2017-08-02 2017-12-05 杭州东信北邮信息技术有限公司 一种基于标签的图书推荐方法
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107766547A (zh) * 2017-10-31 2018-03-06 掌阅科技股份有限公司 电子书推荐方法、电子设备及计算机存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"基于双语图书本体匹配的推荐系统的研究与实现";陈彬彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03期);I138-6229 *
"基于情境感知的个性化推荐算法的研究";冯鹏程;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140515(第05期);I138-3167 *
"基于数据挖掘的图书推荐系统设计与实现";陈中华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180615(第06期);I138-2149 *
"面向 C2C 电子商务平台的三维个性化推荐方法研究";艾丹祥 等;《现代图书情报技术》;20130125(第1期);第36-42页 *

Also Published As

Publication number Publication date
CN109670922A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN108491377B (zh) 一种基于多维度信息融合的电商产品综合评分方法
CN109191240B (zh) 一种进行商品推荐的方法和装置
Zhao et al. Exploring demographic information in social media for product recommendation
CN108694647B (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
Raghavan et al. Review quality aware collaborative filtering
CN107944913A (zh) 基于大数据用户行为分析的高潜在用户购买意向预测方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
JP6144427B2 (ja) データ分析システムおよびデータ分析方法並びにデータ分析プログラム
EP3189449A2 (en) Sentiment rating system and method
CN109670922B (zh) 一种基于混合特征的线上图书价值发现方法
CN111353044B (zh) 一种基于评论的情感分析方法及系统
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及系统
CN114254201A (zh) 一种科技项目评审专家的推荐方法
Baishya et al. SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning
KR101074820B1 (ko) 인터넷을 활용한 추천 검색 시스템 및 그 방법
Petrusel et al. A restaurants recommendation system: Improving rating predictions using sentiment analysis
JP5197491B2 (ja) 行動推薦装置及び方法及びプログラム
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Doo et al. Automated product review collection and opinion analysis methods for efficient business analysis
Liu et al. A new feature selection method for text categorization of customer reviews
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质
Hoiriyah et al. Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs
Afrinanda et al. Comparison of Machine Learning Algorithm Models in Bitcoin Price Sentiment Analysis
Dahale A natural language processing approach for musical instruments recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant