CN106960012A - 一种跨领域垃圾评价识别的方法 - Google Patents

一种跨领域垃圾评价识别的方法 Download PDF

Info

Publication number
CN106960012A
CN106960012A CN201710117088.9A CN201710117088A CN106960012A CN 106960012 A CN106960012 A CN 106960012A CN 201710117088 A CN201710117088 A CN 201710117088A CN 106960012 A CN106960012 A CN 106960012A
Authority
CN
China
Prior art keywords
comment
feature
field
correlated characteristic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710117088.9A
Other languages
English (en)
Inventor
李维华
王顺芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201710117088.9A priority Critical patent/CN106960012A/zh
Publication of CN106960012A publication Critical patent/CN106960012A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种跨领域垃圾评价的识别方法。设计遗传算法筛选源评论的关键特征子集,并基于该特征子集定义评论的领域相关特征和领域无关特征;其次,根据领域无关特征与领域相关特征共同出现的频度定义相关矩阵,并基于拉普拉斯特征映射将领域相关特征映射为一个新的表示;最后,使用源数据与映射之后领域相关特征训练分类器,并用该分类器识别出目标领域的垃圾评论。

Description

一种跨领域垃圾评价识别的方法
技术领域
本发明属于机器学习,涉及一种跨领域垃圾评价识别的方法。
技术背景
随着电子商务日益成熟,在线消费逐渐成为人们日常生活消费的一种重要选择。在线消费过程中,消费者对产品的评价是在线购物中的一个重要环节,消费者通过评价对产品作出一个相应的响应和反馈。基于评论的情感分析不仅可以了解消费者在评论中表现出的褒贬态度,还可以进行客户满意度分析、产品的评估和市场预测等等。然而,基于评论的情感分析的有效性建立在评论数据是真实可信的基础上。为了误导消费者或进行不公平的竞争,不良商家会采取一些虚假的垃圾评论。这些不真实的评论最终会破坏市场的秩序、损害消费者的利益。垃圾评论的识别旨在识别出对情感分析没有贡献的评论,为进一步的情感分析奠定基础,具有很好的应用价值和实际意义。虽然垃圾评论可能存在一些共同特征,但针对不同领域评论对象的评论内容会随之变化,评论的有效性可能还和领域相关的特征相关,将一个领域训练得到的模型直接应用到另一个领域中的效果可能并不是很理想。跨领域的垃圾评论识别方法旨在通过结合领域无关特征和领域相关特征,提高训练模型的适应能力。
发明内容
基于上述跨领域垃圾评论存在的问题,本发明提出一种跨领域垃圾评价识别的方法,通过遗传算法识别出影响源评论是否可信的特征集,并根据这个特征集定义领域相关特征和领域无关特征,再根据这两个集合定义跨领域垃圾评论的特征集合;其次,利用领域相关特征和领域无关特征之间的共同出现关系定义映射函数,将目标领域的领域相关特征映射到源领域,从而基于映射数据训练跨领域的垃圾评论的分类器,提高分类器在目标评论分类中的适应能力。
本发明提供一种跨领域垃圾评价识别的方法,其特征在于包括以下步骤:
步骤1:对评论进行初始特征定义X=(x 1,x 2,…,x q ),其中,特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);源领域还包括是否为垃圾评论的类别标签y,根据特征集对m条源评论进行特征化,得到源领域评论集D S =
步骤2:使用遗传算法筛选评论的特征定义X的关键特征Z=(z 1,z 2,…,z r )⊆X
步骤3:定义W S =ZWW I =W-W S X I =(Z-W S )∪W I ,其中,W S 是领域相关特征,X I 领域无关特征;使用X'=W S X I =(x' 1,x' 2,…,x' r )⊆X定义评论的特征;按照特征集X'将源领域评论集和目标领域评论集进行特征化得到D' S =D' T =
步骤4:定义‖W S ‖×‖X I ‖的相关矩阵Rr ij 是特征R i W S R j X I 共同出现的评论数;
步骤5:构造矩阵L=B-A;计算L的最小α个非零特征值对应的特征向量v 1,v 2,…,v α ,并组成矩阵F=[v 1,v 2,…,v α ];U=F [1:‖WS‖,:],即F中第1到‖W S ‖行定义为U;定义映射函数φ(t)=tU将领域相关特征t映射为tU
步骤6:定义函数识别出评论x中的领域相关特征,将领域相关特征t映射为tU合并到评论定义中,即D' S =;基于D' S 训练分类器f
步骤7:基于f对目标评论D' T =的每一条评论预测是否为垃圾评论。
另外,步骤2中使用遗传算法筛选评论特征定义X的关键特征Z=(z 1,z 2,…,z r )⊆X,其特征在于通过如下的步骤完成:
步骤2.1:将源领域评论D S 分为训练集D S1和测试集D S2两个子集;
步骤2.2:染色体设计为对应X=(x 1,x 2,…,x q )的q个二进制串,1表示选择对应的特征,0表示不选择对应的特征;
步骤2.3:设置初始种群,迭代初始值t=0和最高迭代次数maxt
步骤2.4:根据种群中每一个染色体CH i =(ch i1,ch i2,ch i3,……,ch iq ),将D S1D S2中的对应CH i 取1的特征和类别标签投影到D' S1D' S2中;在D' S1训练分类器并预测D' S2的类别再统计预测准确度Acc i ;按照计算适应度函数;
步骤2.5:如果达到最高迭代次数maxt或者适应度f>θ,那么当前适应度最大的染色体对应的特征集合就是关键特征子集,否则为种群大小为size的每个个体按照概率设置进入下一代繁殖的概率;采用单点交叉和单点变异的繁殖方式得到下一代种群,并跳转到步骤2.4。
附图说明
图1为本发明的算法流程图。
具体实施方式
结合附图1,对依据本发明提供的具体实施方式,详细说明如此下。
如图1所示,跨领域的垃圾评论识别的第一步定义评论的初始特征集。特征除了包括评论中词频大于预先设定阀值ε的词集W之外,还包括可能影响评论是否可信特征,如积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;源领域还包括是否为垃圾评论的类别标签y,词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);根据特征集对m条源评论特征化,得到源领域评论集D S =
第二步,基于遗传算法筛选源领域评论的关键特征X'=(x' 1,x' 2,…,x' r )⊆X=(x 1,x 2,…,x q );
步骤2.1将源领域评论D S 分为训练集D S1和测试集D S2两个子集;
步骤2.2按照评论的特征集X=(x 1,x 2,…,x q )进行编码,得到CH i =(ch i1,ch i2,ch i3,……,ch iq ),1表示选择对应的特征,0表示不选择该特征;例如X=(x 1,x 2,…,x 5,x 6),则选择特征x 2x 3x 5可以表示为(0,1,1,0,1,0);
步骤2.3:随机生成初始种群,例如{CH 1=(1,1,1,0,0,0),CH 2=(0,0,0,1,1,1),CH 3=(1,0,0,0,1,0)};迭代初始值t=0和最高迭代次数maxt
步骤2.4:根据种群中每一个染色体CH i =(ch i1,ch i2,ch i3,……,ch iq ),将D S1D S2中对应CH i 取1的特征和类别标签投影到D' S1D' S2中。在D' S1训练分类器并预测D' S2的类别再统计预测准确度Acc i ;按照计算适应度函数;
分类器可以采用回归函数,训练得到θ T ,对每一个x s2j D' S2中的评论进行预测类别,并将该类别和x s2j D' S2中的类别比较,统计所有D' S2的预测准确度Acc i ;按照计算适应度函数;
步骤2.5:如果达到最高迭代次数maxt或者适应度f>θ,那么当前适应度最大的染色体对应的特征集合就是关键特征子集,否则为种群大小为size的每个个体按照概率设置进入下一代繁殖的概率;采用单点交叉和单点变异的繁殖方式得到下一代种群,并跳转到步骤2.4;
假设0.623;f(CH 2) =0.913;f(CH 3)=0.935,则CH 1计算选择的概率=0.25;按照同样的方法再求得p(CH 2)=0.37;p(CH 3)=0.38。如果淘汰CH 1,并通过CH 2CH 3的交叉和变异得到下一代种群;为该种群重复刚才的计算直到f>θ=0.98或者到达设置的迭代次数maxt结束迭代;假设当前适应度最大的染色体为(1,0,0,1,1,0),则表示关键特征为{x 1,x 4 ,x 5};
步骤3:定义W S =ZWW I =W-W S X I =(Z-W S )∪W I ,其中,W S 是领域相关特征,X I 领域无关特征;使用X'=W S X I =(x' 1,x' 2,…,x' r )⊆X定义评论的特征;按照X'分别将源领域评论集和目标领域评论集进行特征化得到D' S =D' T =
如果X=(x 1,x 2,…,x 5,x 6)且词频大于预先设定阀值ε的词集W={x 4,x 5,x 6},关键特征集为X'={x 1,x 4 ,x 5},那么领域相关特征W S ={x 4,x 5},领域无关特征X I ={x 1,x 6},X'={x 4,x 5,x 1,x 6};
步骤4:定义‖W S ‖×‖X I ‖的相关矩阵Rr ij 是特征R i W S R j X I 共同出现的评论数;
步骤5:构造矩阵L=B-A;计算L的最小α个非零特征值对应的特征向量v 1,v 2,…,v α ,并组成矩阵F=[v 1,v 2,…,v α ];U=F [1:‖WS‖,:],即F中第1到‖W S ‖行定义为U;定义映射函数φ(t)=tU将领域相关特征t映射为tU
步骤6:定义函数识别出评论x中的领域相关特征,将领域相关特征t映射为tU合并到评论定义中,即D' S =;基于D' S 训练分类器f
其中,调节系数β的取值范围0≤β≤1,可以根据数据调整大小,分类器可以选择回归函数;
步骤7:基于f对目标评论D' T =的每一条评论预测是否为垃圾评论。

Claims (2)

1.跨领域垃圾评价识别的方法,其特征在于包括以下步骤:
步骤1:对评论进行初始特征定义X=(x 1,x 2,…,x q ),其中,特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);源领域还包括是否为垃圾评论的类别标签y,根据特征集对m条源评论进行特征化,得到源领域评论集D S =
步骤2:使用遗传算法筛选评论的特征定义X的关键特征Z=(z 1,z 2,…,z r )⊆X
步骤3:定义W S =ZWW I =W-W S X I =(Z-W S )∪W I ,其中,W S 是领域相关特征,X I 领域无关特征;使用X'=W S X I =(x' 1,x' 2,…,x' r )⊆X定义评论的特征;按照特征集X'将源领域评论和目标领域评论进行特征化得到D' S =和D' T =
步骤4:定义‖W S ‖×‖X I ‖的相关矩阵Rr ij 是特征R i W S R j X I 共同出现的评论数;
步骤5:构造矩阵L=B-A;计算L的最小α个非零特征值对应的特征向量v 1,v 2,…,v α ,并组成矩阵F=[v 1,v 2,…,v α ];U=F [1:‖WS‖,:],即F中第1到‖W S ‖行定义为U;定义映射函数φ(t)=tU将领域相关特征t映射为tU
步骤6:定义函数识别出评论x中的领域相关特征,将领域相关特征t映射为tU合并到评论定义中,即D' S =;基于D' S 训练分类器f
步骤7:基于f对目标评论D' T =的每一条评论预测是否为垃圾评论。
2.根据权利要求1所述的使用遗传算法筛选评论特征定义X的关键特征Z=(z 1,z 2,…,z r )⊆X,其特征在于步骤2中通过如下的步骤完成:
步骤2.1:将源领域评论D S 分为训练集D S1和测试集D S2两个子集;
步骤2.2:染色体设计为对应X=(x 1,x 2,…,x q )的q个二进制串,1表示选择对应的特征,0表示不选择对应的特征;
步骤2.3:设置初始种群,迭代初始值t=0和最高迭代次数maxt
步骤2.4:根据种群中每一个染色体CH i =(ch i1,ch i2,ch i3,……,ch iq ),将D S1D S2中的对应CH i 取1的特征和类别标签投影到D' S1D' S2中;在D' S1训练分类器并预测D' S2的类别再统计预测准确度Acc i ;按照计算适应度函数;
步骤2.5:如果达到最高迭代次数maxt或者适应度f>θ,那么当前适应度最大的染色体对应的特征集合就是关键特征子集,否则为种群大小为size的每个个体按照概率设置进入下一代繁殖的概率;采用单点交叉和单点变异的繁殖方式得到下一代种群,并跳转到步骤2.4。
CN201710117088.9A 2017-03-01 2017-03-01 一种跨领域垃圾评价识别的方法 Pending CN106960012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710117088.9A CN106960012A (zh) 2017-03-01 2017-03-01 一种跨领域垃圾评价识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710117088.9A CN106960012A (zh) 2017-03-01 2017-03-01 一种跨领域垃圾评价识别的方法

Publications (1)

Publication Number Publication Date
CN106960012A true CN106960012A (zh) 2017-07-18

Family

ID=59470793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710117088.9A Pending CN106960012A (zh) 2017-03-01 2017-03-01 一种跨领域垃圾评价识别的方法

Country Status (1)

Country Link
CN (1) CN106960012A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647204A (zh) * 2018-04-27 2018-10-12 云南大学 一种跨领域情感分析方法
CN111128189A (zh) * 2019-12-30 2020-05-08 秒针信息技术有限公司 警示信息的提示方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN104933191A (zh) * 2015-07-09 2015-09-23 广东欧珀移动通信有限公司 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN104933191A (zh) * 2015-07-09 2015-09-23 广东欧珀移动通信有限公司 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BRIAN HEREDIA ; TAGHI M. KHOSHGOFTAAR ; JOSEPH PRUSA ; MICHAEL C: "Cross-Domain Sentiment Analysis: An EmpiricalInvestigation", 《2016 IEEE 17TH INTERNATIONAL CONFERENCE ON INFORMATION REUSE AND INTEGRATION (IRI)》 *
DANUSHKA BOLLEGALA;TINGTING MU;JOHN YANNIS GOULERMAS: "Cross-Domain Sentiment Classification Using Sentiment Sensitive Embeddings", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
唐巧晶: "基于遗传算法的跨领域产品评论的虚假性分析研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647204A (zh) * 2018-04-27 2018-10-12 云南大学 一种跨领域情感分析方法
CN108647204B (zh) * 2018-04-27 2021-09-17 云南大学 一种跨领域情感分析方法
CN111128189A (zh) * 2019-12-30 2020-05-08 秒针信息技术有限公司 警示信息的提示方法和装置

Similar Documents

Publication Publication Date Title
CN109194612B (zh) 一种基于深度置信网络和svm的网络攻击检测方法
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN103839041B (zh) 客户端特征的识别方法和装置
CN109598331A (zh) 一种欺诈识别模型训练方法、欺诈识别方法及装置
CN107291822A (zh) 基于深度学习的问题分类模型训练方法、分类方法及装置
Suryanarayana et al. Machine learning approaches for credit card fraud detection
CN104778186B (zh) 将商品对象挂载到标准产品单元的方法及系统
CN106815192A (zh) 模型训练方法及装置和语句情感识别方法及装置
CN113961705A (zh) 一种文本分类方法及服务器
Khandelwal et al. Segmentation-grounded scene graph generation
CN111310185B (zh) 一种基于改进stacking算法的Android恶意软件检测方法
CN110232395A (zh) 一种基于故障中文文本的电力系统故障诊断方法
CN106506327A (zh) 一种垃圾邮件识别方法及装置
CN110149280B (zh) 网络流量分类方法和装置
CN117522479A (zh) 互联网广告精准投放方法及系统
CN111782927B (zh) 物品推荐方法及其装置、计算机可存储介质
Zou et al. A novel network security algorithm based on improved support vector machine from smart city perspective
CN106055664A (zh) 一种基于用户评论的ugc垃圾内容过滤方法及系统
Chen et al. A New Approach for Mobile Advertising Click‐Through Rate Estimation Based on Deep Belief Nets
CN106960012A (zh) 一种跨领域垃圾评价识别的方法
CN110119448A (zh) 基于双重自动编码器的半监督跨领域文本分类方法
CN113821827A (zh) 保护多方数据隐私的联合建模方法及装置
CN110599195A (zh) 一种识别刷单的方法
CN111708887B (zh) 一种自定义规则的多模型融合的不良呼叫识别方法
CN110134764A (zh) 一种文本数据的自动分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170718