CN106960012A

CN106960012A - 一种跨领域垃圾评价识别的方法

Info

Publication number: CN106960012A
Application number: CN201710117088.9A
Authority: CN
Inventors: 李维华; 王顺芳
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2017-07-18

Abstract

本发明公开一种跨领域垃圾评价的识别方法。设计遗传算法筛选源评论的关键特征子集，并基于该特征子集定义评论的领域相关特征和领域无关特征；其次，根据领域无关特征与领域相关特征共同出现的频度定义相关矩阵，并基于拉普拉斯特征映射将领域相关特征映射为一个新的表示；最后，使用源数据与映射之后领域相关特征训练分类器，并用该分类器识别出目标领域的垃圾评论。

Description

一种跨领域垃圾评价识别的方法

技术领域

本发明属于机器学习，涉及一种跨领域垃圾评价识别的方法。

技术背景

随着电子商务日益成熟，在线消费逐渐成为人们日常生活消费的一种重要选择。在线消费过程中，消费者对产品的评价是在线购物中的一个重要环节，消费者通过评价对产品作出一个相应的响应和反馈。基于评论的情感分析不仅可以了解消费者在评论中表现出的褒贬态度，还可以进行客户满意度分析、产品的评估和市场预测等等。然而，基于评论的情感分析的有效性建立在评论数据是真实可信的基础上。为了误导消费者或进行不公平的竞争，不良商家会采取一些虚假的垃圾评论。这些不真实的评论最终会破坏市场的秩序、损害消费者的利益。垃圾评论的识别旨在识别出对情感分析没有贡献的评论，为进一步的情感分析奠定基础，具有很好的应用价值和实际意义。虽然垃圾评论可能存在一些共同特征，但针对不同领域评论对象的评论内容会随之变化，评论的有效性可能还和领域相关的特征相关，将一个领域训练得到的模型直接应用到另一个领域中的效果可能并不是很理想。跨领域的垃圾评论识别方法旨在通过结合领域无关特征和领域相关特征，提高训练模型的适应能力。

发明内容

基于上述跨领域垃圾评论存在的问题，本发明提出一种跨领域垃圾评价识别的方法，通过遗传算法识别出影响源评论是否可信的特征集，并根据这个特征集定义领域相关特征和领域无关特征，再根据这两个集合定义跨领域垃圾评论的特征集合；其次，利用领域相关特征和领域无关特征之间的共同出现关系定义映射函数，将目标领域的领域相关特征映射到源领域，从而基于映射数据训练跨领域的垃圾评论的分类器，提高分类器在目标评论分类中的适应能力。

本发明提供一种跨领域垃圾评价识别的方法，其特征在于包括以下步骤：

步骤1：对评论进行初始特征定义X=(x ₁,x ₂,…,x _q)，其中，特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量；词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word)；源领域还包括是否为垃圾评论的类别标签y，根据特征集对m条源评论进行特征化，得到源领域评论集D _S=；

步骤2：使用遗传算法筛选评论的特征定义X的关键特征Z=(z ₁,z ₂,…,z _r)⊆X；

步骤3：定义W _S=Z∩W，W _I=W-W _S，X _I=(Z-W _S)∪W _I，其中，W _S是领域相关特征，X _I领域无关特征；使用X'=W _S∪X _I=(x' ₁,x' ₂,…,x' _r)⊆X定义评论的特征；按照特征集X'将源领域评论集和目标领域评论集进行特征化得到D' _S=和D' _T=；

步骤4：定义‖W _S‖×‖X _I‖的相关矩阵R，r _ij是特征R _i∈W _S与R _j∈X _I共同出现的评论数；

步骤5：构造矩阵；；L=B-A；计算L的最小α个非零特征值对应的特征向量v ₁,v ₂,…,v _α，并组成矩阵F=[v ₁,v ₂,…,v _α]；U=F _{[1：‖WS‖，：]}，即F中第1到‖W _S‖行定义为U；定义映射函数φ(t)=tU将领域相关特征t映射为tU；

步骤6：定义函数识别出评论x中的领域相关特征，将领域相关特征t映射为tU合并到评论定义中，即D' _S=；基于D' _S训练分类器f；

步骤7：基于f对目标评论D' _T=的每一条评论预测是否为垃圾评论。

另外，步骤2中使用遗传算法筛选评论特征定义X的关键特征Z=(z ₁,z ₂,…,z _r)⊆X，其特征在于通过如下的步骤完成：

步骤2.1：将源领域评论D _S分为训练集D _S1和测试集D _S2两个子集；

步骤2.2：染色体设计为对应X=(x ₁,x ₂,…,x _q)的q个二进制串，1表示选择对应的特征，0表示不选择对应的特征；

步骤2.3：设置初始种群，迭代初始值t=0和最高迭代次数maxt；

步骤2.4：根据种群中每一个染色体CH _i=(ch _i1,ch _i2,ch _i3,……,ch _iq)，将D _S1和D _S2中的对应CH _i取1的特征和类别标签投影到D' _S1和D' _S2中；在D' _S1训练分类器并预测D' _S2的类别再统计预测准确度Acc _i；按照计算适应度函数；

步骤2.5：如果达到最高迭代次数maxt或者适应度f>θ，那么当前适应度最大的染色体对应的特征集合就是关键特征子集，否则为种群大小为size的每个个体按照概率设置进入下一代繁殖的概率；采用单点交叉和单点变异的繁殖方式得到下一代种群，并跳转到步骤2.4。

附图说明

图1为本发明的算法流程图。

具体实施方式

结合附图1，对依据本发明提供的具体实施方式，详细说明如此下。

如图1所示，跨领域的垃圾评论识别的第一步定义评论的初始特征集。特征除了包括评论中词频大于预先设定阀值ε的词集W之外，还包括可能影响评论是否可信特征，如积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量；源领域还包括是否为垃圾评论的类别标签y，词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word)；根据特征集对m条源评论特征化，得到源领域评论集D _S=；

第二步，基于遗传算法筛选源领域评论的关键特征X'=(x' ₁,x' ₂,…,x' _r)⊆X=(x ₁,x ₂,…,x _q)；

步骤2.1将源领域评论D _S分为训练集D _S1和测试集D _S2两个子集；

步骤2.2按照评论的特征集X=(x ₁,x ₂,…,x _q)进行编码，得到CH _i=(ch _i1,ch _i2,ch _i3,……,ch _iq)，1表示选择对应的特征，0表示不选择该特征；例如X=(x ₁,x ₂,…,x ₅,x ₆)，则选择特征x ₂、x ₃，x ₅可以表示为（0,1,1,0,1,0）；

步骤2.3：随机生成初始种群，例如{CH ₁=(1,1,1,0,0,0)，CH ₂=(0,0,0,1,1,1)，CH ₃=(1,0,0,0,1,0)}；迭代初始值t=0和最高迭代次数maxt；

步骤2.4：根据种群中每一个染色体CH _i=(ch _i1,ch _i2,ch _i3,……,ch _iq)，将D _S1和D _S2中对应CH _i取1的特征和类别标签投影到D' _S1和D' _S2中。在D' _S1训练分类器并预测D' _S2的类别再统计预测准确度Acc _i；按照计算适应度函数；

分类器可以采用回归函数，训练得到θ ^T，对每一个x _s2j∈D' _S2中的评论进行预测类别，并将该类别和x _s2j在D' _S2中的类别比较，统计所有D' _S2的预测准确度Acc _i；按照计算适应度函数；

步骤2.5：如果达到最高迭代次数maxt或者适应度f>θ，那么当前适应度最大的染色体对应的特征集合就是关键特征子集，否则为种群大小为size的每个个体按照概率设置进入下一代繁殖的概率；采用单点交叉和单点变异的繁殖方式得到下一代种群，并跳转到步骤2.4；

假设0.623；f(CH ₂) =0.913；f(CH ₃)=0.935，则CH ₁计算选择的概率=0.25；按照同样的方法再求得p(CH ₂)=0.37；p(CH ₃)=0.38。如果淘汰CH ₁，并通过CH ₂和CH ₃的交叉和变异得到下一代种群；为该种群重复刚才的计算直到f>θ=0.98或者到达设置的迭代次数maxt结束迭代；假设当前适应度最大的染色体为(1,0,0,1,1,0)，则表示关键特征为{x ₁,x ₄ ,x ₅}；

步骤3：定义W _S=Z∩W，W _I=W-W _S，X _I=(Z-W _S)∪W _I，其中，W _S是领域相关特征，X _I领域无关特征；使用X'=W _S∪X _I=(x' ₁,x' ₂,…,x' _r)⊆X定义评论的特征；按照X'分别将源领域评论集和目标领域评论集进行特征化得到D' _S=和D' _T=；

如果X=(x ₁,x ₂,…,x ₅,x ₆)且词频大于预先设定阀值ε的词集W={x ₄,x ₅,x ₆}，关键特征集为X'={x ₁,x ₄ ,x ₅}，那么领域相关特征W _S={x ₄,x ₅}，领域无关特征X _I={x ₁,x ₆}，X'={x ₄,x ₅,x ₁,x ₆}；

其中，调节系数β的取值范围0≤β≤1，可以根据数据调整大小，分类器可以选择回归函数；

Claims

1.跨领域垃圾评价识别的方法，其特征在于包括以下步骤：

步骤3：定义W _S=Z∩W，W _I=W-W _S，X _I=(Z-W _S)∪W _I，其中，W _S是领域相关特征，X _I领域无关特征；使用X'=W _S∪X _I=(x' ₁,x' ₂,…,x' _r)⊆X定义评论的特征；按照特征集X'将源领域评论和目标领域评论进行特征化得到D' _S=和D' _T=；

2.根据权利要求1所述的使用遗传算法筛选评论特征定义X的关键特征Z=(z ₁,z ₂,…,z _r)⊆X，其特征在于步骤2中通过如下的步骤完成：