CN109670922B - 一种基于混合特征的线上图书价值发现方法 - Google Patents
一种基于混合特征的线上图书价值发现方法 Download PDFInfo
- Publication number
- CN109670922B CN109670922B CN201811633423.1A CN201811633423A CN109670922B CN 109670922 B CN109670922 B CN 109670922B CN 201811633423 A CN201811633423 A CN 201811633423A CN 109670922 B CN109670922 B CN 109670922B
- Authority
- CN
- China
- Prior art keywords
- book
- value
- comment
- time
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机软件技术领域,提出了一种基于混合特征的线上图书价值发现方法,本发明通过分析线上图书的各类特征指标,结合机器学习算法构建线上图书价值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出版时间等价值特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例,说明了方法的有效性。
Description
技术领域
本发明属于信息处理技术领域,涉及一种基于混合特征的线上图书价值发现 方法。
背景技术
随着互联网的不断迅速发展,在线购买图书成为人们日常购书的首要选择方 式,但是在线图书缺少以前的实物购买体验。想买到一本对自己有价值的图书变 得困难。用户主要通过图书评论和内容简介信息来选择图书。但是图书评论的真 伪和内容简介的片面,都会对评价一本图书的价值产生影响。现有技术一般是基 于用户兴趣分析的图书推荐方法,很少涉及用户无关的图书价值发现方法。
目前主流的图书推荐方法主要是基于特定用户个人兴趣向用户推荐图书。其 中基于信息内容过滤和协同过滤是图书推荐系统中最常见的技术。第一种方法主 要是基于图书信息内容,通过此信息内容来判断该图书内容与用户兴趣是否相关, 进而计算两者之间的相似度,用此相似度作为是否给用户推荐的依据;第二种方 法是基于某个用户的兴趣,通过分析与该用户兴趣类似的用户对某本图书信息的 喜好,由此来判断该用户对此图书是否感兴趣,进而决定是否推荐该图书给此用 户。
以上方法在图书销售领域和其他电子商务信息推荐方面都取得较大成效。但 是在这个信息量日益膨胀的大数据时代,要想获取到最新的随时间变化的图书信 息内容或者其他线上商品信息内容,显得格外的困难,这就使得基于图书信息的 内容过滤方法不能有效的对该用户推荐最新的图书信息。而对于第二种协同过滤 方法来说,随着时间变化,用户的兴趣也在变,可信度和稀疏性问题,也随着时 间变化规模不断上升,使得计算复杂度不断增加,这也是协同过滤所面临的问题。
发明内容
本发明提出了一种基于混合特征的线上图书价值发现方法,此方法针对不同 图书类别,在时间维度上对图书建立一个自适应的图书价值发现方法。有效的避 免了因时间变化导致的图书信息内容以及用户兴趣的改变。通过该方法可以帮助 用户发现一些未来潜在的更有价值的图书。
本发明通过分析线上图书的各个特征,结合机器学习算法,构建线上图书价 值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出 版时间等特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定 的特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发 现模型可用于时间维度上的图书价值发现,及时发现图书价值的时效性。实验分 析以亚马逊图书网站为例,来说明方法的有效性。该方法充分利用了时间维度上 的图书特征,对于发现图书价值,特别是图书的潜在价值有较好效果。
为实现上述目的,本发明采用如下的技术方案
一种基于混合特征的线上图书价值发现方法,包括以下步骤:
步骤(1)采集某线上图书商城的图书特征数据
采集某线上图书商城的图书特征数据集合记为D={bf1,bf2,…,bfn}。bfi表示 某一本书的特征数据。
图书特征bf进一步描述如下:
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,comment_set}。
特征符号的语义说明如下表1:
表1图书特征符号的语义说明
comment_set={p1,p2,…,pn},其中pi表示一条图书评论;
p={comment_content,comment_time}
其中,comment_content表示图书评论内容,comment_time表示图书评论时 间;
步骤(2)对采集的数据集D进行预处理
(2.1)按照数据挖掘的预处理策略,删除数据集D中缺失值超过θ的图书 数据,θ的取值范围为[0.2,1],对缺失值低于θ的数据用该数据所在特征维度的 其他特征值的平均值或众数进行填充,标准化图书特征的数据表示方式;
(2.2)对数据D中的每本图书数据对应的数值型特征(price,paper_num,comment_num,times,good_comment_num)进行去量纲化处理,把每一个数值型 图书特征映射到[0,1]区间,公式如下:
其中,xij为第i个特征在第j个分量上对应的原始值,第i特征在数据集D中 可以表示为(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}为第i个特征的分量中 的最小值,max{x11,x12,…,x1j,…,xin}为其最大值,为每本图书第i个 特征上的第j个分量归一化后的值,归一化后的第i个特征可表示为
步骤(3)计算基于时间维度的图书评论内容价值,将评论内容通过其中价 值词的词频转化为可用的数值型数据
(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD
(3.1.1)对步骤1中采集的图书评论数据comment_content进行分词,词性 标注,只保留形容词、名词以及动词,构建评论语料库,记作COMM。
(3.1.2)构建初始好评价值词典与初始差评价值词典,其中初始好评价值词典记作 GVD0={w1,w2,…,wm},wi是人工标注的初始好评种子词;初始差评价值词典 BVD0={v1,v2,…,vn},vi是人工标注的初始差评种子词;
(3.1.3)扩充价值词典GVD0与BVD0
以语料库COMM为输入数据,利用通用的word2vec词向量方法,训练得到价 值词模型,记作WORDVEC;对所有的wl∈GVD0,利用WORDVEC模型得到与wl语 义最为相近的前N个价值词,记作WORDVEC(wl)={c1,c2,…cN};最后合并所有 WORDVEC(wl),wl∈GVD0,得到扩充后的好评价值词典,记作:
GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(wm)
类似的可以得到扩充后的差评价值词典,记作:
BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(vn)
(3.2)以L天为单位,计算每本图书的评论内容价值
对于D中的每本图书bf,以图书特征上架时间sale_time为起始点,将bf 的图书评论集合comment_set按照评论发表时间,以L天为一组进行分割。分割 后的图书评论集合记为S,被划分为m个子图书评论集合。其中S={s1,s2,…,sm}, si={p′1,p′2,…,p′k},si表示其中某一组评论内容,且其中有k条评论内容。
根据公式2可以计算图书评论子集si∈S的评论内容价值:
其中ul∈GVD,frei(ul)表示价值词ul在图书评论子集si中的词频, M1=|GVD|为好评价值词典的大小,ηj∈BVD,frei(ηj)表示价值词ηj在图书 评论子集si中的词频,M2=|BVD|为差评价值词典的大小。
(3.3)通过公式1对图书评论内容价值进行归一化处理,使其落入区间[0,1],
计算基于时间维度的图书评论内容价值后,comment_set特征被替换为图书 评论内容价值特征vS,数据集D可以表示为:D={bf1,bf2,…,bfn}。bf∈D表示 某一本书的特征数据。
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,vS}。
步骤(4)选择图书价值特征
筛选图书价值特征,并在此基础上更新数据集D。
(4.1)基于图书特征status,取出数据集D中的上榜图书,即status=1的 图书集合,并基于特征指标ranking,为每一本上榜图书设定一个分值,记作数 据集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指标ranking给 定的一个图书分值,rankingi表示图书bfi在其排行榜上的名 次,分母加0.1是因为防止该值等于1。
(4.2)分析图书的各数值型特征与图书价值之间的相关性
(4.2.1)从图书特征bf中选择出数值型特征集合:bf′={price,public_time,times,paper_num,comment_num,good_comment_num}。
(4.2.2)对任意的数值型特征t=(t1,t2,…,tn)∈bf′,通过公式3计算t与 y=(y1,y2,…,yn)的相关性系数,公式如下:
其中,Cov(t,y)为特征t与y的协方差,计算公式为:
σt,σy为特征t与y的标准差,计算公式为:
如果t与y的相关性系数rt,y的绝对值|rt,y|≥0.8,则认为t与y之间具有很强的 相关性;0.3≤|rt,y|<0.8,则认为t与y的相关性较弱,|rt,y|<0.3,则认为相互独 立,没有相关性;删掉相关性系数|rt,y|<0.3的特征,然后对剩余的相关性系数从 大到小排序,选取前N个特征作为最终的图书特征,记作:bf′={f1,f2,…,fN}。
步骤(5)利用上榜图书数据集D′,对每类图书在每个时间段进行图书价值 建模
(5.3)在每个数据集上,通过根据ranking特征可以计 算每一本图书的一个近似的价值得分(rankingi表示图书bfi在 其排行榜上的名次,分母加0.1是因为防止该值等于1)后,则第cj第 si(i=1,2,…,m)段上的数据集可表示为其中n表示第cj第si段上图书的数量,bfi表示第i图书的特征数据,然后以 y=(y1,y2,…,yn)作为训练时的标签label,即图书价值的近似。最后利 用因子分解机算法FM(Factorization Machine)在数据集做回归分析,因子 分解机训练的模型如下:
同理,可以对所有类别的图书,在各个时间段上求取对应的价值模型。
其中,x=bf为上榜的cj类的任意一本图书数据。
而该图书基于前T∈{1,2,…,m}个时间段上的总价值得分可以表示为:
利用公式9可计算出图书bf的前T个时间段的价值得分。
有益效果
(1)本发明将线上图书的评论内容转换成分值的形式,有效的避免了用户 在购买图书时用大量时间来阅读评论内容;
(2)本发明结合图书的其他属性,避免了用户只针对评论内容来够买图书的 片面性;
(3)本发明适用于各种线上网店书城,并针对不同的图书类别建模,很好的 利用了图书类别信息。
(4)线上图书的时效性是非常重要的,本发明基于这种时效性,在时间维度 上建模,能够及时地在某个时间发现该图书的价值;
附图说明
图1本发明的方法流程图;
具体实施方式
对本发明的具体实施方式结合附图作进一步的详细描述,以下实施例用于说 明本发明,但不用来限制本发明的范围。
其具体实施步骤如下:
步骤(1)采集某线上图书商城的图书特征数据
本专利通过使用亚马逊提供的API下载了10万条亚马逊图书特征数据,并 记为D={bf1,bf2,…,bfn}。bfi(i=1,2,3,…,100000)表示某一本书的特征数据。
图书特征bf可表示成如下形式:
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,comment_set}。
特征符号的语义说明如下表1:
表1图书特征符号的语义说明
comment_set={p1,p2,…,pn},其中pi表示一条图书评论。
p={comment_content,comment_time}
其中,comment_content表示图书评论内容,comment_time表示图书评论时 间。
步骤(2)对采集的数据集D进行预处理
(2.1)删除数据集D中缺失值超过θ=20%的图书数据,对缺失值低于20% 的数据用该数据所在特征维度的其他特征值的平均值或众数进行填充,标准化图 书特征的数据表示方式。图书评论内容的清洗,去掉html对应的网页标签;图 书bi的元数据价格为:¥36.67,删掉字符“¥”;页码:292页,去掉字符“页”; 版次:第1版,去掉字符“第”与“版”;对出版时间这一字段,去掉“年”、 “月”、“日”,或者“-”。
(2.2)对与像price,paper_num,comment_num,times,good_comment_num 这样的特征数据落入不同区间相差较大,有必要对数据进行去量纲化处理,把每 一个数值型特征映射到[0.1]区间,公式如下:
其中,xij为第i个特征在第j个分量上对应的原始值,第i特征在数据集D中 可以表示为(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}为第i个特征的分量中 的最小值,max{x11,x12,…,x1j,…,xin}为其最大值,为每本图书第i个 特征上的第j个分量归一化后的值,归一化后的第i个特征可表示为 最后处理的数据类似于表2中的数据:
表2图书特征归一化举例
步骤(3)计算基于时间维度的图书评论内容价值
(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD
(3.1.1)对近30万条图书评论数据集comment_set进行分词,词性标注, 只保留形容词、名词以及动词,构建评论语料库,记作COMM。
(3.1.2)构建初始好评价值词典与初始差评价值词典,其中初始好评价值词 典记作GVD0={w1,w2,…,wm},wi(i=1,2,…,100)是人工标注的初始好评种子词, 诸如“好书”,“正品”,“值得”,“推荐”,“不错”“有用”这样的词, 共100个;初始差评价值词典BVD0={v1,v2,…,vn},vi(i=1,2,…,100)是人工标 注的初始差评种子词,诸如“垃圾”,“不喜欢”,“不适合”这样的词共100 个。
(3.1.3)扩充价值词典GVD0与BVD0
以语料库COMM为输入数据,利用通用的word2vec词向量方法,训练得到价 值词模型,记作WORDVEC;对所有的wl∈GVD0,利用WORDVEC模型得到与wl语 义最为相近的前N=100个价值词,记作WORDVEC(wl)={c1,c2,…cN};最后合 并所有WORDVEC(wl),wl∈GVD0,得到扩充后的好评价值词典,记作:
GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(w100)
以本专利标注的初始好评价值词典GVD0中的词为基准,扩充后的好评价值 词典GVD如下表3所示,其中黑体词属于GVD0。
表3扩充后的好评价值词典示例
类似的可以得到扩充后的差评价值词典,记作:
BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(v100)
以本专利标注的初始好评价值词典BVD0中的词为基准,扩充后的好评价值 词典BVD如下表4所示,其中黑体词属于BVD0。
表4扩充后的差评价值词典示例
(3.2)以L=30天为单位,计算每本图书的评论内容价值
对于D中的每本图书bf,以图书特征上架时间sale_time为起始点,将bf 的图书评论集合comment_set按照评论发表时间,以L=30天为一组进行分割。分 割后的图书评论集合记为S,被划分为m个子图书评论集合。其中 S={s1,s2,…,sm},si={p′1,p′2,…,p′k},k,m的值根据具体的图书评论条数而定, si表示其中某一组评论内容,且其中有k条评论内容。
根据公式2可以计算图书评论子集si∈S的评论内容价值:
其中ul∈GVD,frei(ul)表示价值词ul在图书评论子集si中的词频, M1=|GVD|=5035为好评价值词字典的大小,ηj∈BVD,frei(ηj)表示价值词ηj在图书评论子集si中的词频,M2=|BVD|=3660为差评价值词典的大小;
最后我们计算出的每本图书在不同评论子集上的价值类似下表5所示,为数据集D中的三本图书在前210天的图书评论内容价值:
表5图书评论内容价值示例
(3.3)最后通利用公式1对图书评论内容价值进行归一化处理,使其落入 区间[0,1]。计算基于时间维度的图书评论内容价值后,comment_set特征被替换 为图书评论内容价值特征vS,数据集D可以表示为:D={bf1,bf2,…,bfn}。bfi表 示某一本书的特征数据,(i=1,2,3,…,100000)。
bf={name,class,price,public_time,sale_time,times,paper_num, press,author,comment_num,good_comment_num,status,ranking,vS},其 中
步骤(4)选择图书价值特征
(4.1)基于图书特征status,取出status=1上榜图书数据集,共2万本上 榜图书。并基于排名特征ranking,为每一本上榜图书设定一个分值yi,记作数 据集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指标ranking给 定的一个图书分值,分母加0.1是因为防 止该值等于1,rankingi表示图书bfi在其排行榜上的名次。
(4.2)分析图书的各数值型特征与图书价值之间的相关性
(4.2.1)从图书特征bf中选择出数值型特征集合:bf′={price, public_time,times,paper_num,comment_num,good_comment_num}。
(4.2.2)对任意的数值型特征t=(t1,t2,…,tn)∈bf′,利用公式3计算t与y=(y1,y2,…,yn)的相关性系数,公式如下:
其中,Cov(t,y)为特征t与y的协方差,计算公式为:
σt,σy为特征t与y的标准差,计算公式为:
如果t与y的相关性系数rt,y的绝对值|rt,y|≥0.8,则认为t与y之间具有很强的相关 性;0.3≤|rt,y|<0.8,则认为t与y的相关性较弱,|rt,y|<0.3,则认为相互独立, 没有相关性;删掉相关性系数|rt,y|<0.3的特征,然后对剩余的相关性系数从大到 小排序,选取前N个特征作为最终的图书特征,记作:bf′={f1,f2,…,fN}。例 如,假设有n=100本图书,则t=(t1,t2,…,t100)为这100本图书共同的某一个特征, 假如为这100本图书的price,y=(y1,y2,…,y100)为这100本图书的排名,则可 以根据公式3计算的price与图书价值的相关性系数rt,y,同理可计算其他特征 与对应排名y的相关性系数。
通过计算各数值型特征集合bf′中的特征与y对应的|rt,y|值,计算结果如下 表6所示:
表6数值型特征与分值之间的相关系数
根据表6中的结果,删掉相关性系数|rt,y|<0.3的特征{public_time, times};选取相关性较高的数值型特{price,paper_num,comment_num, good_comment_num}。
最终确定的数值型图书特征记作bf′,表示为:
bf′={f1,f2,…,f4}={price,paper_num,comment_num,good_comment_num}
数值型特征选取后,上榜图书数据集D′可以表示为:
D'={bf1,bf2,…,bfn},其中n=20000。bfi表示某一本书的特征数据, bf={bf′,vS,ranking,class},m=7。例如,对于图书《三 体》,其数值型价值特征为bf′={0.56,0.67,0.87,0.81},7个时间段上的评论内 容价值特征vS={0.23,0.45,0.42,0.57,0.55,0.43,0.23},ranking=(1,2,1,1, 2,1,1),class=‘文学’。
步骤(5)利用上榜图书数据集D′,对每类图书在每个时间段进行图书价值 建模
利用步骤4可以得到评价图书价值的最终特征bf={bf′,vs}以及更新后的数 据集D′。然后对数据集D′做两次分割,首先对数据集D′按照图书类别分割,接 下来对依次分割后的每一类图书数据,基于图书评论内容价值 进行二次分割,具体为步骤5.1、5.2所述。
表6文学类图书《三体》在7个时间段归一化后的数据表示
(5.3)在图书分类cl=“文学”上进行建模
以(分母加0.1是因为防止该值等于1)作为图书bfi的真 实价值近似,rankingi表示图书bfi排行榜上的名次,则数据集可表示为其中n表示文学类图书第si段上图书的数 量,bfi表示第i本图书的特征数据,然后以y=(y1,y2,…,yn)作为训练时的标签 label。
最后取数据集前6个时间段数据作为训练,记作第 7个时间段上的数据作为预测。再把数据集划分为训练集Dtrain和测试集Dtest。 利用因子分解机算法FM(Factorization Machine)做回归分析,训练模型如下:
其中,x=(bf',vs),xq,xl,xp∈x,N=5为步骤4中最终筛选的图书价值特征,表示cj=‘文学’类图书中一本图书bf在时间段si(i=1,2,…,6)的价 值得分,wq,wl,p为待训练的文学类图书的价值权值。例如文学类图书第s1段上有 100本图书,对于每一本图书通过将其对应的特征数据x,以及对应的标签label 输入公式6可以得到对应的一对权值wq,wl,p,不断的把这100本图书输 入模型,最终可以的到一对泛化能力较好的wq,wl,p。
步骤(6)计算每本图书的价值得分并分析其价值走势
其中,x=bf为上榜的文学类图书的任意一本图书数据。
例如,可以计算文学类图书《三体》在第一个时间段上的价值得分score(bf), 《三体》在第一个时间段上的特征数据x=bf=(0.34,0.68,0.23,0.21,0.38),如表 6所示,代入已训练好的模型即可得到《三体》这本图书在第一个 时间段的价值得分其他时间段可以类似的求得。
而该(《图书》)基于前T∈{1,2,…,6}个时间段上的总价值得分可以用下面公 式求解,即通过对前T个时间段的价值得分进行求和得到。
为三体前7个时间段的价值总得分。
经过步骤五(5)训练完成后得到模型然后把Dtest中所有图书的 六个阶段的特征数据x=bf代入模型得到Dtest中图书的价值得分如下表7给出了测试集Dtest中5本图书在前6个时间阶段 的价值得分,并且给出第7个时间段的价值预测得分,同样该得分是通过把第7 阶段的图书数据代入训练好的模型得到。
表7图书在不同时间阶段的价值得分
步骤(7)实验分析
表8图书在每个时间段的平均误差
通过分析测试集Dtest上各阶段图书的平均误差err,可以说明本专利给出的 价值评价模型,可以对每本图书在某个时间段给定一个较为合理的价值得分。
Claims (1)
1.一种基于混合特征的线上图书价值发现方法,包括以下步骤:
步骤(1)采集某线上图书商城的图书特征数据D={bf1,bf2,…,bfn},bfi表示某一本书的特征数据,图书特征bf进一步描述如下:
bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,comment_set};
特征符号的语义说明如下:name表示图书名,class表示图书类别,price表示图书价格,public_time表示出版时间,sale_time表示上架时间,即图书开始销售的时间,times表示版次,paper_num表示图书的页码数,press表示出版社,author表示图书作者,comment_num表示评论数,即销量,good_comment_num表示好评数,status表示是否上榜,取值为0或1,ranking表示图书排行榜的排名,comment_set表示评论集合,
comment_set={p1,p2,…,pn},其中pi表示一条图书评论;
p={comment_content,comment_time}
其中,comment_content表示图书评论内容,comment_time表示图书评论时间;
步骤(2)对采集的数据集D进行预处理:
(2.1)按照数据挖掘的预处理策略,删除数据集D中缺失值超过θ的图书数据,θ的取值范围为[0.2,1],对缺失值低于θ的数据用该数据所在特征维度的其他特征值的平均值或众数进行填充,标准化图书特征的数据表示方式;
(2.2)对数据D中的每本图书数据对应的数值型特征,即price,paper_num,comment_num,times,good_comment_num进行去量纲化处理,把每一个数值型图书特征映射到[0,1]区间,公式如下:
其中,xij为第i个特征在第j个分量上对应的原始值,第i特征在数据集D中可以表示为(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}为第i个特征的分量中的最小值,max{x11,x12,…,x1j,…,xin}为其最大值, 为每本图书第i个特征上的第j个分量归一化后的值,归一化后的第i个特征可表示为
步骤(3)计算基于时间维度的图书评论内容价值:
(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD:
(3.1.1)对步骤1中采集的图书评论数据comment_content进行分词,词性标注,只保留形容词、名词以及动词,构建评论语料库,记作COMM;
(3.1.2)构建初始好评价值词典与初始差评价值词典,其中初始好评价值词典记作GVD0={w1,w2,…,wm},wi是人工标注的初始好评种子词;初始差评价值词典BVD0={v1,v2,…,vn},vi是人工标注的初始差评种子词;
(3.1.3)扩充价值词典GVD0与BVD0:
以语料库COMM为输入数据,利用通用的word2vec词向量方法,训练得到价值词模型,记作WORDVEC;对所有的wl∈GVD0,利用WORDVEC模型得到与wl语义最为相近的前N个价值词,记作WORDVEC(wl)={c1,c2,…cN};最后合并所有WORDVEC(wl),wl∈GVD0,得到扩充后的好评价值词典,记作:
GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(wm)
类似地,可以得到扩充后的差评价值词典,记作:
BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(vn);
(3.2)以L天为单位,计算每本图书的评论内容价值:
对于D中的每本图书bf,以图书特征上架时间sale_time为起始点,将bf的图书评论集合comment_set按照评论发表时间,以L天为一组进行分割,分割后的图书评论集合记为S,被划分为m个子图书评论集合,其中S={s1,s2,…,sm},si={p′1,p′2,…,p′k},si表示其中某一组评论内容,且其中有k条评论内容;
根据公式2计算图书评论子集si∈S的评论内容价值:
其中ul∈GVD,frei(ul)表示价值词ul在图书评论子集si中的词频,M1=|GVD|为好评价值词字典的大小,ηj∈BVD,frei(ηj)表示价值词ηj在图书评论子集si中的词频,M2=|BVD|为差评价值词典的大小;
(3.3)通过公式1对图书评论内容价值vS进行归一化处理,使其落入区间[0,1],
计算基于时间维度的图书评论内容价值后,comment_set特征被替换为图书评论内容价值vS,数据集D可以表示为:D={bf1,bf2,…,bfn},bf∈D表示某一本书的特征数据,bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,vS},
步骤(4)选择图书价值特征:
(4.1)基于图书特征status,取出数据集D中的上榜图书,即status=1的图书集合,并基于特征指标ranking,为每一本上榜图书设定一个分值,记作数据集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指标ranking给定的一个图书分值,rankingi表示图书bfi在其排行榜上的名次,分母加0.1是因为防止该值等于1;
(4.2)分析图书的各数值型特征与图书价值之间的相关性:
(4.2.1)从图书特征bf中选择出数值型特征集合:bf′={price,public_time,times,paper_num,comment_num,good_comment_num};
(4.2.2)对任意的数值型特征t=(t1,t2,…,tn)∈bf′,通过公式3计算t与y=(y1,y2,…,yn)的相关性系数,公式如下:
其中,Cov(t,y)为特征t与y的协方差,计算公式为:
σt,σy为特征t与y的标准差,计算公式为:
如果t与y的相关性系数rt,y的绝对值|rt,y|≥0.8,则认为t与y之间具有很强的相关性;0.3≤|rt,y|<0.8,则认为t与y的相关性较弱,|rt,y|<0.3,则认为相互独立,没有相关性;删掉相关性系数|rt,y|<0.3的特征,然后对剩余的相关性系数从大到小排序,选取前N个特征作为最终的图书特征,记作:bf′={f1,f2,…,fN};
步骤(5)利用上榜图书数据集D′,对每类图书在每个时间段进行图书价值建模:
其中n表示cj类图书第si段上图书的数量,bfi表示第i本图书的特征数据,然后以y=(y1,y2,…,yn)作为训练时的标签label,即图书价值的近似;最后利用因子分解机算法FM在数据集做回归分析,因子分解机训练的模型如下:
同理,可以对所有类别的图书,在各个时间段上求取对应的价值模型;
其中,x=bf为上榜的cj类的任意一本图书数据,
而该图书基于前T∈{1,2,…,m}个时间段上的总价值得分可以表示为:
利用公式8可计算出图书bf的前T个时间段的价值得分;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811633423.1A CN109670922B (zh) | 2018-12-29 | 2018-12-29 | 一种基于混合特征的线上图书价值发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811633423.1A CN109670922B (zh) | 2018-12-29 | 2018-12-29 | 一种基于混合特征的线上图书价值发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670922A CN109670922A (zh) | 2019-04-23 |
CN109670922B true CN109670922B (zh) | 2022-02-08 |
Family
ID=66146636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811633423.1A Active CN109670922B (zh) | 2018-12-29 | 2018-12-29 | 一种基于混合特征的线上图书价值发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670922B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276642A (zh) * | 2019-06-20 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 广告牌推荐方法、装置及计算机可读存储介质 |
CN110610072B (zh) * | 2019-09-06 | 2021-10-01 | 武汉达梦数据库有限公司 | 一种数据鉴权方法及装置 |
CN111598310A (zh) * | 2020-04-27 | 2020-08-28 | 天闻数媒科技(北京)有限公司 | 一种基于时间序列分析的图书热度预测方法以及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
CN103294812A (zh) * | 2013-06-06 | 2013-09-11 | 浙江大学 | 一种基于混合模型的商品推荐方法 |
EP2704089A2 (en) * | 2012-08-31 | 2014-03-05 | Accenture Global Services Limited | Hybrid recommendation system |
CN107437215A (zh) * | 2017-08-02 | 2017-12-05 | 杭州东信北邮信息技术有限公司 | 一种基于标签的图书推荐方法 |
CN107506480A (zh) * | 2017-09-13 | 2017-12-22 | 浙江工业大学 | 一种基于评论挖掘与密度聚类的双层图结构推荐方法 |
CN107766547A (zh) * | 2017-10-31 | 2018-03-06 | 掌阅科技股份有限公司 | 电子书推荐方法、电子设备及计算机存储介质 |
KR101887469B1 (ko) * | 2017-02-03 | 2018-08-10 | (주)브레인콜라 | 서적 간 유사도를 활용한 서적추천 방법 |
-
2018
- 2018-12-29 CN CN201811633423.1A patent/CN109670922B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
EP2704089A2 (en) * | 2012-08-31 | 2014-03-05 | Accenture Global Services Limited | Hybrid recommendation system |
CN103294812A (zh) * | 2013-06-06 | 2013-09-11 | 浙江大学 | 一种基于混合模型的商品推荐方法 |
KR101887469B1 (ko) * | 2017-02-03 | 2018-08-10 | (주)브레인콜라 | 서적 간 유사도를 활용한 서적추천 방법 |
CN107437215A (zh) * | 2017-08-02 | 2017-12-05 | 杭州东信北邮信息技术有限公司 | 一种基于标签的图书推荐方法 |
CN107506480A (zh) * | 2017-09-13 | 2017-12-22 | 浙江工业大学 | 一种基于评论挖掘与密度聚类的双层图结构推荐方法 |
CN107766547A (zh) * | 2017-10-31 | 2018-03-06 | 掌阅科技股份有限公司 | 电子书推荐方法、电子设备及计算机存储介质 |
Non-Patent Citations (4)
Title |
---|
"基于双语图书本体匹配的推荐系统的研究与实现";陈彬彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03期);I138-6229 * |
"基于情境感知的个性化推荐算法的研究";冯鹏程;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140515(第05期);I138-3167 * |
"基于数据挖掘的图书推荐系统设计与实现";陈中华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180615(第06期);I138-2149 * |
"面向 C2C 电子商务平台的三维个性化推荐方法研究";艾丹祥 等;《现代图书情报技术》;20130125(第1期);第36-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109670922A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491377B (zh) | 一种基于多维度信息融合的电商产品综合评分方法 | |
CN109191240B (zh) | 一种进行商品推荐的方法和装置 | |
Zhao et al. | Exploring demographic information in social media for product recommendation | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
Raghavan et al. | Review quality aware collaborative filtering | |
CN107944913A (zh) | 基于大数据用户行为分析的高潜在用户购买意向预测方法 | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
JP6144427B2 (ja) | データ分析システムおよびデータ分析方法並びにデータ分析プログラム | |
EP3189449A2 (en) | Sentiment rating system and method | |
CN109670922B (zh) | 一种基于混合特征的线上图书价值发现方法 | |
CN111353044B (zh) | 一种基于评论的情感分析方法及系统 | |
CN112991017A (zh) | 基于用户评论解析的标签体系精准推荐方法 | |
CN114880486A (zh) | 基于nlp和知识图谱的产业链识别方法及系统 | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
Baishya et al. | SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning | |
KR101074820B1 (ko) | 인터넷을 활용한 추천 검색 시스템 및 그 방법 | |
Petrusel et al. | A restaurants recommendation system: Improving rating predictions using sentiment analysis | |
JP5197491B2 (ja) | 行動推薦装置及び方法及びプログラム | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
Doo et al. | Automated product review collection and opinion analysis methods for efficient business analysis | |
Liu et al. | A new feature selection method for text categorization of customer reviews | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
Hoiriyah et al. | Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs | |
Afrinanda et al. | Comparison of Machine Learning Algorithm Models in Bitcoin Price Sentiment Analysis | |
Dahale | A natural language processing approach for musical instruments recommendation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |