CN109670922B

CN109670922B - 一种基于混合特征的线上图书价值发现方法

Info

Publication number: CN109670922B
Application number: CN201811633423.1A
Authority: CN
Inventors: 刘磊; 孙应红; 陈浩; 吴爽; 侯良文; 李静
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-02-08
Anticipated expiration: 2038-12-29
Also published as: CN109670922A

Abstract

本发明属于计算机软件技术领域，提出了一种基于混合特征的线上图书价值发现方法，本发明通过分析线上图书的各类特征指标，结合机器学习算法构建线上图书价值发现模型。首先，采集线上图书数据，利用统计方法对图书的评论、价格、出版时间等价值特征进行分析，确定出对图书价值影响较大的特征。其次，根据已确定特征对每类图书在时间维度上进行分析，建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例，说明了方法的有效性。

Description

一种基于混合特征的线上图书价值发现方法

技术领域

本发明属于信息处理技术领域，涉及一种基于混合特征的线上图书价值发现方法。

背景技术

随着互联网的不断迅速发展，在线购买图书成为人们日常购书的首要选择方式，但是在线图书缺少以前的实物购买体验。想买到一本对自己有价值的图书变得困难。用户主要通过图书评论和内容简介信息来选择图书。但是图书评论的真伪和内容简介的片面，都会对评价一本图书的价值产生影响。现有技术一般是基于用户兴趣分析的图书推荐方法，很少涉及用户无关的图书价值发现方法。

目前主流的图书推荐方法主要是基于特定用户个人兴趣向用户推荐图书。其中基于信息内容过滤和协同过滤是图书推荐系统中最常见的技术。第一种方法主要是基于图书信息内容，通过此信息内容来判断该图书内容与用户兴趣是否相关，进而计算两者之间的相似度，用此相似度作为是否给用户推荐的依据；第二种方法是基于某个用户的兴趣，通过分析与该用户兴趣类似的用户对某本图书信息的喜好，由此来判断该用户对此图书是否感兴趣，进而决定是否推荐该图书给此用户。

以上方法在图书销售领域和其他电子商务信息推荐方面都取得较大成效。但是在这个信息量日益膨胀的大数据时代，要想获取到最新的随时间变化的图书信息内容或者其他线上商品信息内容，显得格外的困难，这就使得基于图书信息的内容过滤方法不能有效的对该用户推荐最新的图书信息。而对于第二种协同过滤方法来说，随着时间变化，用户的兴趣也在变，可信度和稀疏性问题，也随着时间变化规模不断上升，使得计算复杂度不断增加，这也是协同过滤所面临的问题。

发明内容

本发明提出了一种基于混合特征的线上图书价值发现方法，此方法针对不同图书类别，在时间维度上对图书建立一个自适应的图书价值发现方法。有效的避免了因时间变化导致的图书信息内容以及用户兴趣的改变。通过该方法可以帮助用户发现一些未来潜在的更有价值的图书。

本发明通过分析线上图书的各个特征，结合机器学习算法，构建线上图书价值发现模型。首先，采集线上图书数据，利用统计方法对图书的评论、价格、出版时间等特征进行分析，确定出对图书价值影响较大的特征。其次，根据已确定的特征对每类图书在时间维度上进行分析，建立图书价值发现模型。图书价值发现模型可用于时间维度上的图书价值发现，及时发现图书价值的时效性。实验分析以亚马逊图书网站为例，来说明方法的有效性。该方法充分利用了时间维度上的图书特征，对于发现图书价值，特别是图书的潜在价值有较好效果。

为实现上述目的，本发明采用如下的技术方案

一种基于混合特征的线上图书价值发现方法，包括以下步骤：

步骤(1)采集某线上图书商城的图书特征数据

采集某线上图书商城的图书特征数据集合记为D＝{bf₁,bf₂,…,bf_n}。bf_i表示某一本书的特征数据。

图书特征bf进一步描述如下：

bf＝{name，class，price，public_time，sale_time，times，paper_num， press，author，comment_num，good_comment_num，status，ranking，comment_set}。

特征符号的语义说明如下表1：

表1图书特征符号的语义说明

comment_set＝{p₁,p₂,…,p_n}，其中p_i表示一条图书评论；

p＝{comment_content,comment_time}

其中，comment_content表示图书评论内容，comment_time表示图书评论时间；

步骤(2)对采集的数据集D进行预处理

(2.1)按照数据挖掘的预处理策略，删除数据集D中缺失值超过θ的图书数据，θ的取值范围为[0.2,1]，对缺失值低于θ的数据用该数据所在特征维度的其他特征值的平均值或众数进行填充，标准化图书特征的数据表示方式；

(2.2)对数据D中的每本图书数据对应的数值型特征(price，paper_num，comment_num，times，good_comment_num)进行去量纲化处理，把每一个数值型图书特征映射到[0,1]区间，公式如下：

其中，x_ij为第i个特征在第j个分量上对应的原始值，第i特征在数据集D中可以表示为(x_i1,x_i2,…,x_ij,…,x_in)，min{x₁₁,x₁₂,…,x_1j,…,x_in}为第i个特征的分量中的最小值，max{x₁₁,x₁₂,…,x_1j,…,x_in}为其最大值，

为每本图书第i个特征上的第j个分量归一化后的值，归一化后的第i个特征可表示为

步骤(3)计算基于时间维度的图书评论内容价值，将评论内容通过其中价值词的词频转化为可用的数值型数据

(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD

(3.1.1)对步骤1中采集的图书评论数据comment_content进行分词，词性标注，只保留形容词、名词以及动词，构建评论语料库，记作COMM。

(3.1.2)构建初始好评价值词典与初始差评价值词典，其中初始好评价值词典记作 GVD₀＝{w₁,w₂,…,w_m}，w_i是人工标注的初始好评种子词；初始差评价值词典 BVD₀＝{v₁,v₂,…,v_n}，v_i是人工标注的初始差评种子词；

(3.1.3)扩充价值词典GVD₀与BVD₀

以语料库COMM为输入数据，利用通用的word2vec词向量方法，训练得到价值词模型，记作WORDVEC；对所有的w_l∈GVD₀，利用WORDVEC模型得到与w_l语义最为相近的前N个价值词，记作WORDVEC(w_l)＝{c₁,c₂,…c_N}；最后合并所有 WORDVEC(w_l)，w_l∈GVD₀，得到扩充后的好评价值词典，记作：

GVD＝GVD₀∪WORDVEC(w₁)∪...WORDVEC(w_l)...∪WORDVEC(w_m)

类似的可以得到扩充后的差评价值词典，记作：

BVD＝BVD₀∪WORDVEC(v₁)∪...WORDVEC(v_j)...∪WORDVEC(v_n)

(3.2)以L天为单位，计算每本图书的评论内容价值

对于D中的每本图书bf，以图书特征上架时间sale_time为起始点，将bf 的图书评论集合comment_set按照评论发表时间，以L天为一组进行分割。分割后的图书评论集合记为S，被划分为m个子图书评论集合。其中S＝{s₁,s₂,…,s_m}， s_i＝{p′₁,p′₂,…,p′_k}，s_i表示其中某一组评论内容，且其中有k条评论内容。

根据公式2可以计算图书评论子集s_i∈S的评论内容价值：

其中u_l∈GVD，fre_i(u_l)表示价值词u_l在图书评论子集s_i中的词频， M₁＝|GVD|为好评价值词典的大小，η_j∈BVD，fre_i(η_j)表示价值词η_j在图书评论子集s_i中的词频，M₂＝|BVD|为差评价值词典的大小。

则图书评论集合S的评论内容价值可记作

其中

表示图书评论集合s在第i时间段的图书评论价值。

(3.3)通过公式1对图书评论内容价值进行归一化处理，使其落入区间[0,1]，

计算基于时间维度的图书评论内容价值后，comment_set特征被替换为图书评论内容价值特征v_S，数据集D可以表示为：D＝{bf₁,bf₂,…,bf_n}。bf∈D表示某一本书的特征数据。

bf＝{name，class，price，public_time，sale_time，times，paper_num， press，author，comment_num，good_comment_num，status，ranking，v_S}。

步骤(4)选择图书价值特征

筛选图书价值特征，并在此基础上更新数据集D。

(4.1)基于图书特征status,取出数据集D中的上榜图书，即status＝1的图书集合，并基于特征指标ranking，为每一本上榜图书设定一个分值，记作数据集D′，D′＝{(bf₁,y₁),(bf₂,y₂),…,(bf_n,y_n)},其中y_i是基于特征指标ranking给定的一个图书分值，

ranking_i表示图书bf_i在其排行榜上的名次，分母加0.1是因为防止该值等于1。

(4.2)分析图书的各数值型特征与图书价值之间的相关性

(4.2.1)从图书特征bf中选择出数值型特征集合：bf′＝{price，public_time，times，paper_num，comment_num，good_comment_num}。

(4.2.2)对任意的数值型特征t＝(t₁,t₂,…,t_n)∈bf′，通过公式3计算t与 y＝(y₁,y₂,…,y_n)的相关性系数，公式如下：

其中，Cov(t,y)为特征t与y的协方差，计算公式为：

σ_t,σ_y为特征t与y的标准差，计算公式为：

如果t与y的相关性系数r_t,y的绝对值|r_t,y|≥0.8，则认为t与y之间具有很强的相关性；0.3≤|r_t,y|＜0.8，则认为t与y的相关性较弱，|r_t,y|＜0.3，则认为相互独立，没有相关性；删掉相关性系数|r_t,y|＜0.3的特征，然后对剩余的相关性系数从大到小排序，选取前N个特征作为最终的图书特征，记作：bf′＝{f₁,f₂,…,f_N}。

数值型特征选取后，上榜图书数据集D′可以表示为：D'＝{bf₁,bf₂,…,bf_n}。 bf_i表示某一本书的特征数据，bf＝{bf′，v_S，ranking，class}，

步骤(5)利用上榜图书数据集D′，对每类图书在每个时间段进行图书价值建模

对步骤(4)更新后的数据集D′进行两步分割，首先对数据集D′按照图书类别分割，接下来对依次分割后的每一类图书数据，基于图书评论内容价值

进行二次分割，具体为步骤5.1、5.2所述。

(5.1)对上榜图书数据集D′，基于图书类别特征class＝{c₁,c₂,…,c_l}进行分割，得到：

(5.2)对每类图书c_j∈class，基于图书评论内容价值

对第c_j类数据集

进行分割，有：

其中

表示为：

(其中M表示具体某个时间段上图书的数量)，对任意

有

(5.3)在每个数据集

上，通过根据ranking特征可以计算每一本图书的一个近似的价值得分

(ranking_i表示图书bf_i在其排行榜上的名次，分母加0.1是因为防止该值等于1)后，则第c_j第 s_i(i＝1,2,…,m)段上的数据集

可表示为

其中n表示第c_j第s_i段上图书的数量，bf_i表示第i图书的特征数据，然后以 y＝(y₁,y₂,…,y_n)作为训练时的标签label，即图书价值

的近似。最后利用因子分解机算法FM(Factorization Machine)在数据集

做回归分析，因子分解机训练的模型如下：

其中，以

作为c_j(j＝1,2,…l)类图书中一本图书

在时间段s_i的价值得分，x＝(x₁,x₂,…x_N)＝bf，x_q,x_l,x_p∈x， w_q,w_l,p为待训练的图书价值权值。

通过FM算法的训练，可以得到所需的权值w_q,w_l,p，为表示方便，记作

训练完后得到价值模型

同理，可以对所有类别的图书，在各个时间段上求取对应的价值模型。

步骤(6)利用步骤(5)训练得到的价值模型

可以计算出每本图书的价值得分，并分析其价值走势

对任意一本图书

基于特征

可以得到对应时间段上的价值得分：

其中，x＝bf为上榜的c_j类的任意一本图书数据。

而该图书基于前T∈{1,2,…,m}个时间段上的总价值得分可以表示为：

利用公式9可计算出图书bf的前T个时间段的价值得分。

最后把该图书第T+1时刻的图书数据输入价值模型

可以得到该图书在第T+1时间段的价值预测

有益效果

(1)本发明将线上图书的评论内容转换成分值的形式，有效的避免了用户在购买图书时用大量时间来阅读评论内容；

(2)本发明结合图书的其他属性，避免了用户只针对评论内容来够买图书的片面性；

(3)本发明适用于各种线上网店书城，并针对不同的图书类别建模，很好的利用了图书类别信息。

(4)线上图书的时效性是非常重要的，本发明基于这种时效性，在时间维度上建模，能够及时地在某个时间发现该图书的价值；

附图说明

图1本发明的方法流程图；

具体实施方式

对本发明的具体实施方式结合附图作进一步的详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

其具体实施步骤如下：

步骤(1)采集某线上图书商城的图书特征数据

本专利通过使用亚马逊提供的API下载了10万条亚马逊图书特征数据，并记为D＝{bf₁,bf₂,…,bf_n}。bf_i(i＝1,2,3,…,100000)表示某一本书的特征数据。

图书特征bf可表示成如下形式：

特征符号的语义说明如下表1：

表1图书特征符号的语义说明

comment_set＝{p₁,p₂,…,p_n}，其中p_i表示一条图书评论。

p＝{comment_content,comment_time}

其中，comment_content表示图书评论内容，comment_time表示图书评论时间。

步骤(2)对采集的数据集D进行预处理

(2.1)删除数据集D中缺失值超过θ＝20％的图书数据，对缺失值低于20％的数据用该数据所在特征维度的其他特征值的平均值或众数进行填充，标准化图书特征的数据表示方式。图书评论内容的清洗，去掉html对应的网页标签；图书b_i的元数据价格为：￥36.67，删掉字符“￥”；页码：292页，去掉字符“页”；版次：第1版，去掉字符“第”与“版”；对出版时间这一字段，去掉“年”、 “月”、“日”，或者“-”。

(2.2)对与像price，paper_num，comment_num，times，good_comment_num 这样的特征数据落入不同区间相差较大，有必要对数据进行去量纲化处理，把每一个数值型特征映射到[0.1]区间，公式如下：

最后处理的数据类似于表2中的数据：

表2图书特征归一化举例

步骤(3)计算基于时间维度的图书评论内容价值

(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD

(3.1.1)对近30万条图书评论数据集comment_set进行分词，词性标注，只保留形容词、名词以及动词，构建评论语料库，记作COMM。

(3.1.2)构建初始好评价值词典与初始差评价值词典，其中初始好评价值词典记作GVD₀＝{w₁,w₂,…,w_m}，w_i(i＝1,2,…,100)是人工标注的初始好评种子词，诸如“好书”，“正品”，“值得”，“推荐”，“不错”“有用”这样的词，共100个；初始差评价值词典BVD₀＝{v₁,v₂,…,v_n}，v_i(i＝1,2,…,100)是人工标注的初始差评种子词，诸如“垃圾”，“不喜欢”，“不适合”这样的词共100 个。

(3.1.3)扩充价值词典GVD₀与BVD₀

以语料库COMM为输入数据，利用通用的word2vec词向量方法，训练得到价值词模型，记作WORDVEC；对所有的w_l∈GVD₀，利用WORDVEC模型得到与w_l语义最为相近的前N＝100个价值词，记作WORDVEC(w_l)＝{c₁,c₂,…c_N}；最后合并所有WORDVEC(w_l)，w_l∈GVD₀，得到扩充后的好评价值词典，记作：

GVD＝GVD₀∪WORDVEC(w₁)∪...WORDVEC(w_l)...∪WORDVEC(w₁₀₀)

以本专利标注的初始好评价值词典GVD₀中的词为基准，扩充后的好评价值词典GVD如下表3所示，其中黑体词属于GVD₀。

表3扩充后的好评价值词典示例

类似的可以得到扩充后的差评价值词典，记作：

BVD＝BVD₀∪WORDVEC(v₁)∪...WORDVEC(v_j)...∪WORDVEC(v₁₀₀)

以本专利标注的初始好评价值词典BVD₀中的词为基准，扩充后的好评价值词典BVD如下表4所示，其中黑体词属于BVD₀。

表4扩充后的差评价值词典示例

(3.2)以L＝30天为单位，计算每本图书的评论内容价值

对于D中的每本图书bf，以图书特征上架时间sale_time为起始点，将bf 的图书评论集合comment_set按照评论发表时间，以L＝30天为一组进行分割。分割后的图书评论集合记为S，被划分为m个子图书评论集合。其中 S＝{s₁,s₂,…,s_m}，s_i＝{p′₁,p′₂,…,p′_k}，k,m的值根据具体的图书评论条数而定， s_i表示其中某一组评论内容，且其中有k条评论内容。

根据公式2可以计算图书评论子集s_i∈S的评论内容价值：

其中u_l∈GVD，fre_i(u_l)表示价值词u_l在图书评论子集s_i中的词频， M₁＝|GVD|＝5035为好评价值词字典的大小，η_j∈BVD，fre_i(η_j)表示价值词η_j在图书评论子集s_i中的词频，M₂＝|BVD|＝3660为差评价值词典的大小；

最后我们计算出的每本图书在不同评论子集上的价值类似下表5所示，为数据集D中的三本图书在前210天的图书评论内容价值：

表5图书评论内容价值示例

则图书评论集合S的评论内容价值可记作

其中

表示图书评论集合记为s在第i时间段的图书评论价值。

(3.3)最后通利用公式1对图书评论内容价值进行归一化处理，使其落入区间[0,1]。计算基于时间维度的图书评论内容价值后，comment_set特征被替换为图书评论内容价值特征v_S，数据集D可以表示为：D＝{bf₁,bf₂,…,bf_n}。bf_i表示某一本书的特征数据，(i＝1,2,3,…,100000)。

bf＝{name，class，price，public_time，sale_time，times，paper_num， press，author，comment_num，good_comment_num，status，ranking，v_S}，其中

步骤(4)选择图书价值特征

(4.1)基于图书特征status,取出status＝1上榜图书数据集，共2万本上榜图书。并基于排名特征ranking，为每一本上榜图书设定一个分值y_i，记作数据集D′，D′＝{(bf₁,y₁),(bf₂,y₂),…,(bf_n,y_n)},其中y_i是基于特征指标ranking给定的一个图书分值，

分母加0.1是因为防止该值等于1，ranking_i表示图书bf_i在其排行榜上的名次。

(4.2)分析图书的各数值型特征与图书价值之间的相关性

(4.2.1)从图书特征bf中选择出数值型特征集合：bf′＝{price， public_time，times，paper_num，comment_num，good_comment_num}。

(4.2.2)对任意的数值型特征t＝(t₁,t₂,…,t_n)∈bf′，利用公式3计算t与y＝(y₁,y₂,…,y_n)的相关性系数，公式如下：

其中，Cov(t,y)为特征t与y的协方差，计算公式为：

σ_t,σ_y为特征t与y的标准差，计算公式为：

如果t与y的相关性系数r_t,y的绝对值|r_t,y|≥0.8，则认为t与y之间具有很强的相关性；0.3≤|r_t,y|＜0.8，则认为t与y的相关性较弱，|r_t,y|＜0.3，则认为相互独立，没有相关性；删掉相关性系数|r_t,y|＜0.3的特征，然后对剩余的相关性系数从大到小排序，选取前N个特征作为最终的图书特征，记作：bf′＝{f₁,f₂,…,f_N}。例如，假设有n＝100本图书，则t＝(t₁,t₂,…,t₁₀₀)为这100本图书共同的某一个特征，假如为这100本图书的price，y＝(y₁,y₂,…,y₁₀₀)为这100本图书的排名，则可以根据公式3计算的price与图书价值的相关性系数r_t,y，同理可计算其他特征与对应排名y的相关性系数。

通过计算各数值型特征集合bf′中的特征与y对应的|r_t,y|值，计算结果如下表6所示：

表6数值型特征与分值之间的相关系数

根据表6中的结果，删掉相关性系数|r_t,y|＜0.3的特征{public_time， times}；选取相关性较高的数值型特{price，paper_num,comment_num, good_comment_num}。

最终确定的数值型图书特征记作bf′，表示为：

bf′＝{f₁,f₂,…,f₄}＝{price,paper_num,comment_num,good_comment_num}

数值型特征选取后，上榜图书数据集D′可以表示为：

D'＝{bf₁,bf₂,…,bf_n}，其中n＝20000。bf_i表示某一本书的特征数据， bf＝{bf′,v_S,ranking,class}，

m＝7。例如，对于图书《三体》，其数值型价值特征为bf′＝{0.56，0.67，0.87,0.81},7个时间段上的评论内容价值特征v_S＝{0.23,0.45,0.42,0.57,0.55,0.43,0.23},ranking＝(1,2,1，1， 2,1,1)，class＝‘文学’。

利用步骤4可以得到评价图书价值的最终特征bf＝{bf′,v_s}以及更新后的数据集D′。然后对数据集D′做两次分割，首先对数据集D′按照图书类别分割，接下来对依次分割后的每一类图书数据，基于图书评论内容价值

进行二次分割，具体为步骤5.1、5.2所述。

(5.1)对上榜图书数据集D′，基于图书类别特征class＝{c₁,c₂,…,c_l}，亚马逊图书类别共l＝38，进行分割，得到：

(5.2)对每类图书c_i∈class，基于图书评论内容价值特征

对第c_j类数据集

进行分割，有：

其中

m＝7，表示为：

对任意

有

如下表7为数据集

中图书《三体》的各特征的数值表示，其他图书表示均与其类似。

表6文学类图书《三体》在7个时间段归一化后的数据表示

(5.3)在图书分类c_l＝“文学”上进行建模

以

(分母加0.1是因为防止该值等于1)作为图书bf_i的真实价值近似，rankingi表示图书bf_i排行榜上的名次，则数据集

可表示为

其中n表示文学类图书第s_i段上图书的数量，bf_i表示第i本图书的特征数据，然后以y＝(y₁,y₂,…,y_n)作为训练时的标签 label。

最后取数据集

前6个时间段数据作为训练，记作

第 7个时间段上的数据作为预测。再把数据集

划分为训练集D_train和测试集D_test。利用因子分解机算法FM(Factorization Machine)做回归分析，训练模型如下：

其中，x＝(bf',v_s)，x_q,x_l,x_p∈x，N＝5为步骤4中最终筛选的图书价值特征，

表示c_j＝‘文学’类图书中一本图书bf在时间段s_i(i＝1,2,…,6)的价值得分，w_q,w_l,p为待训练的文学类图书的价值权值。例如文学类图书第s₁段上有 100本图书，对于每一本图书通过将其对应的特征数据x，以及对应的标签label

输入公式6可以得到对应的一对权值w_q,w_l,p，不断的把这100本图书输入模型，最终可以的到一对泛化能力较好的w_q,w_l,p。

利用FM算法在数据集D_train进行训练，通过不断更新训练得到泛化能力较好的权值w_q,w_l,p，为表示方便，记作

训练完后得到价值模型

并保存模型

相当于保存

即可，做预测时直接导出

模型进行预测即可。

同理，可以对每类图书的每个时间段上的数据进行建模，得到相应的价值模型

步骤(6)计算每本图书的价值得分并分析其价值走势

对于c_l＝“文学”中的任意一本图书bf＝(bf',v_s)，利用步骤5训练好的模型

可以得到对应时间段上的价值得分：

其中，x＝bf为上榜的文学类图书的任意一本图书数据。

例如，可以计算文学类图书《三体》在第一个时间段上的价值得分score(bf)，《三体》在第一个时间段上的特征数据x＝bf＝(0.34,0.68,0.23,0.21,0.38)，如表 6所示，代入已训练好的模型

即可得到《三体》这本图书在第一个时间段的价值得分

其他时间段可以类似的求得。

而该(《图书》)基于前T∈{1,2,…,6}个时间段上的总价值得分可以用下面公式求解，即通过对前T个时间段的价值得分进行求和得到。

为三体前7个时间段的价值总得分。

经过步骤五(5)训练完成后得到模型

然后把D_test中所有图书的六个阶段的特征数据x＝bf代入模型

得到D_test中图书的价值得分

如下表7给出了测试集D_test中5本图书在前6个时间阶段的价值得分，并且给出第7个时间段的价值预测得分，同样该得分是通过把第7 阶段的图书数据代入训练好的模型得到。

表7图书在不同时间阶段的价值得分

步骤(7)实验分析

在整个测试集D_test上，各图书在每个时间段

上的平均误差

如表8所示，其中

y_j为图书x_j的true(真实价值得分的近似)，

f(x_j)为predict(预测) 的图书价值得分在每个时间段的

表8图书在每个时间段的平均误差

通过分析测试集D_test上各阶段图书的平均误差err，可以说明本专利给出的价值评价模型，可以对每本图书在某个时间段给定一个较为合理的价值得分。

Claims

1.一种基于混合特征的线上图书价值发现方法，包括以下步骤：

步骤(1)采集某线上图书商城的图书特征数据D＝{bf₁,bf₂,…,bf_n}，bf_i表示某一本书的特征数据，图书特征bf进一步描述如下：

bf＝{name，class，price，public_time，sale_time，times，paper_num，press，author，comment_num，good_comment_num，status，ranking，comment_set}；

特征符号的语义说明如下：name表示图书名，class表示图书类别，price表示图书价格，public_time表示出版时间，sale_time表示上架时间，即图书开始销售的时间，times表示版次，paper_num表示图书的页码数，press表示出版社，author表示图书作者，comment_num表示评论数，即销量，good_comment_num表示好评数，status表示是否上榜，取值为0或1，ranking表示图书排行榜的排名，comment_set表示评论集合，

comment_set＝{p₁,p₂,…,p_n}，其中p_i表示一条图书评论；

p＝{comment_content,comment_time}

步骤(2)对采集的数据集D进行预处理：

(2.2)对数据D中的每本图书数据对应的数值型特征，即price，paper_num，comment_num，times，good_comment_num进行去量纲化处理，把每一个数值型图书特征映射到[0,1]区间，公式如下：

步骤(3)计算基于时间维度的图书评论内容价值：

(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD：

(3.1.1)对步骤1中采集的图书评论数据comment_content进行分词，词性标注，只保留形容词、名词以及动词，构建评论语料库，记作COMM；

(3.1.2)构建初始好评价值词典与初始差评价值词典，其中初始好评价值词典记作GVD₀＝{w₁,w₂,…,w_m}，w_i是人工标注的初始好评种子词；初始差评价值词典BVD₀＝{v₁,v₂,…,v_n}，v_i是人工标注的初始差评种子词；

(3.1.3)扩充价值词典GVD₀与BVD₀：

以语料库COMM为输入数据，利用通用的word2vec词向量方法，训练得到价值词模型，记作WORDVEC；对所有的w_l∈GVD₀，利用WORDVEC模型得到与w_l语义最为相近的前N个价值词，记作WORDVEC(w_l)＝{c₁,c₂,…c_N}；最后合并所有WORDVEC(w_l)，w_l∈GVD₀，得到扩充后的好评价值词典，记作：

GVD＝GVD₀∪WORDVEC(w₁)∪...WORDVEC(w_l)...∪WORDVEC(w_m)

类似地，可以得到扩充后的差评价值词典，记作：

BVD＝BVD₀∪WORDVEC(v₁)∪...WORDVEC(v_j)...∪WORDVEC(v_n)；

(3.2)以L天为单位，计算每本图书的评论内容价值：

对于D中的每本图书bf，以图书特征上架时间sale_time为起始点，将bf的图书评论集合comment_set按照评论发表时间，以L天为一组进行分割，分割后的图书评论集合记为S，被划分为m个子图书评论集合，其中S＝{s₁,s₂,…,s_m}，s_i＝{p′₁,p′₂,…,p′_k}，s_i表示其中某一组评论内容，且其中有k条评论内容；

根据公式2计算图书评论子集s_i∈S的评论内容价值：

其中u_l∈GVD，fre_i(u_l)表示价值词u_l在图书评论子集s_i中的词频，M₁＝|GVD|为好评价值词字典的大小，η_j∈BVD，fre_i(η_j)表示价值词η_j在图书评论子集s_i中的词频，M₂＝|BVD|为差评价值词典的大小；

则图书评论集合S的评论内容价值可记作

其中

表示图书在评论子集s_i上的评论价值；

(3.3)通过公式1对图书评论内容价值v_S进行归一化处理，使其落入区间[0,1]，

计算基于时间维度的图书评论内容价值后，comment_set特征被替换为图书评论内容价值v_S，数据集D可以表示为：D＝{bf₁,bf₂,…,bf_n}，bf∈D表示某一本书的特征数据，bf＝{name，class，price，public_time，sale_time，times，paper_num，press，author，comment_num，good_comment_num，status，ranking，v_S}，

步骤(4)选择图书价值特征：

ranking_i表示图书bf_i在其排行榜上的名次，分母加0.1是因为防止该值等于1；

(4.2)分析图书的各数值型特征与图书价值之间的相关性：

(4.2.1)从图书特征bf中选择出数值型特征集合：bf′＝{price,public_time,times,paper_num,comment_num,good_comment_num}；

(4.2.2)对任意的数值型特征t＝(t₁,t₂,…,t_n)∈bf′，通过公式3计算t与y＝(y₁,y₂,…,y_n)的相关性系数，公式如下：

其中，Cov(t,y)为特征t与y的协方差，计算公式为：

σ_t,σ_y为特征t与y的标准差，计算公式为：

如果t与y的相关性系数r_t,y的绝对值|r_t,y|≥0.8，则认为t与y之间具有很强的相关性；0.3≤|r_t,y|＜0.8，则认为t与y的相关性较弱，|r_t,y|＜0.3，则认为相互独立，没有相关性；删掉相关性系数|r_t,y|＜0.3的特征，然后对剩余的相关性系数从大到小排序，选取前N个特征作为最终的图书特征，记作：bf′＝{f₁,f₂,…,f_N}；

数值型特征选取后，上榜图书数据集D′可以表示为：D'＝{bf₁,bf₂,…,bf_n}，其中bf_i表示某一本书的特征数据，bf＝{bf′,v_S,ranking,class}∈D′，