CN112463966B - 虚假评论检测模型训练方法、检测方法及装置 - Google Patents

虚假评论检测模型训练方法、检测方法及装置 Download PDF

Info

Publication number
CN112463966B
CN112463966B CN202011423884.3A CN202011423884A CN112463966B CN 112463966 B CN112463966 B CN 112463966B CN 202011423884 A CN202011423884 A CN 202011423884A CN 112463966 B CN112463966 B CN 112463966B
Authority
CN
China
Prior art keywords
comment
vector
word
emotion
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011423884.3A
Other languages
English (en)
Other versions
CN112463966A (zh
Inventor
吴晓非
王振山
禹可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011423884.3A priority Critical patent/CN112463966B/zh
Publication of CN112463966A publication Critical patent/CN112463966A/zh
Application granted granted Critical
Publication of CN112463966B publication Critical patent/CN112463966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种虚假评论检测模型训练方法、检测方法及装置,所述训练方法中,基于训练样本集,在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;初始网络模型利用第一卷积神经网络提取第一输入向量的语义特征向量,利用第二卷积神经网络提取第二输入向量的情绪特征向量,将语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;采用训练样本集对初始网络模型进行训练得到虚假评论检测模型。基于语义特征和情绪特征共同分析,以获得更准确的识别检测效果。

Description

虚假评论检测模型训练方法、检测方法及装置
技术领域
本发明涉及服务计算机技术领域,尤其涉及一种虚假评论检测模型训练方法、检测方法及装置。
背景技术
在Web2.0时代,以互动共享形式存在的产品以及消费体验等评论信息数量开始急速增长,并逐步成为消费者进行消费时参考的一个重要指标。评论通常包含丰富的消费者个人体验,它对企业的财务收益和声誉产生了重大影响。这给虚假评论者蒙蔽系统提供了动机,通过发布虚假的评论或意见,以推广或诋毁一些目标产品和服务。因此,虚假评论被视为电子商务网站、公司和用户生态系统的严重威胁。
用户评价过程中的情感取向较为复杂,简单的通过一个或几个行为特征去判断评论是否为虚假评论难以获得准确的结果。例如,一般来说5星代表高满意度,1星代表低满意度。但这些以评分为指标的方法存在缺点。首先,评级不一定完全代表评论者的情绪。有一些积极的评价但是评级却相对较低;一些负面评论的评级却相对较高。这种情况会极大程度影响对于虚假评论的判断。同时,即使两篇评论的评分或评分相同,不同的内容也会对读者产生不同的影响,这使得负面的虚假评论能够在检测过程中被相对较高的评级隐藏,而积极的虚假评论也易于被相对较低的评级所掩饰。现有技术无法识别和捕捉评论的情绪状态,仅基于评级进行判断并不准确。
发明内容
本发明实施例提供了一种虚假评论检测模型训练方法、检测方法及装置,以解决现有技术中不能将评论的情绪特征作为参考以识别虚假评论,导致检测结果不可靠的问题。
本发明的技术方案如下:
一方面,本发明提供一种虚假评论检测模型训练方法,包括:
获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;
获取初始网络模型,所述初始网络模型利用第一卷积神经网络提取所述第一输入向量的语义特征向量,利用第二卷积神经网络提取所述第二输入向量的情绪特征向量,将所述语义特征向量、所述情绪特征向量、所述评论主体特征向量和所述被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;
采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型。
在一些实施例中,所述词向量库是采用Word2Vec模型对所述样本评论文本中的每个单词进行词嵌入操作得到的。
在一些实施例中,在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,还包括:
若所述词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量;
若所述情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量。
在一些实施例中,采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型中,所述初始网络模型采用交叉熵损失函数进行参数训练。
在一些实施例中,所述训练样本集中的数据是基于预设资源定位符对应的网络页面进行数据爬取得到的。
在一些实施例中,所述激活函数输出值大于0.5时,则判断所述样本评论文本为虚假评论。
另一方面,本发明还提供一种虚假评论检测方法,包括:
获取待检测评论文本,以及其对应的评论主体特征向量和被评论主体特征向量,所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
在词向量库和情绪向量库中检索所述待检测评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第三输入向量,将各情绪向量按照顺序连接成第四输入向量;
将所述第三输入向量、所述第四输入向量以及所述待检测评论文本对应的评论主体特征向量和被评论主体特征向量线性连接,并输入至如前述虚假评论检测模型训练方法得到的虚假评论检测模型中运算,得到所述待检测评论文本的识别结果。
在一些实施例中,得到所述待检测评论文本的识别结果之后,还包括:
将所述待检测评论文本的识别结果记录在日志中备案。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明的有益效果至少是:
所述虚假评论检测模型训练方法、检测方法及装置中,在通过提取词向量以获得语义特征的同时,还提取情绪向量以获得评论所对应的情绪特征,以识别检测在一般语义下隐藏负面情绪或诱导情绪的复杂虚假评论。进一步的,本发明还结合评论主体和被评论主体的特征向量,以从评论主体和被评论主体两个角度对评论进行综合分析,以获得更准确的识别检测效果。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述虚假评论检测模型训练方法的流程示意图;
图2为本发明一实施例所述虚假评论检测模型训练方法的逻辑示意图;
图3为本发明一实施例所述虚假评论检测模型训练方法的初始模型结构示意图;
图4为本发明一实施例所述虚假评论检测方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
随着电商交易的日趋成熟,大量产品和服务被转移至网络平台,鉴于这种交易模式的特殊行,用户对于产品和服务的质量的预判极大依赖已有的评论,这使得评论对商家的经营产生了极大的影响,也催生了通过刷单和虚假评论掩饰实际交易情况,误导或诱导消费者进行消费的行为。因此,为了减少和杜绝这种被虚假评论蒙蔽的现象,大众对于虚假评论的检测识别的需求日益提升。
虚假评论为了能够误导和诱导消费者进行消费,同时提高隐蔽性,会令比较直观的行为特征和评论文本含义产生歧化,例如,对竞争者的商品或服务采用较高的评分以掩饰评论文本中的消极情绪,在躲避检测的同时使消费者产生负面情绪,以打压竞争者。或对自己的商品或服务给出中等评分,但在评论文本中传达过于积极的情绪,以诱导消费者消费。现有技术中对于虚假评论的检测识别方式主要是基于对评分等级等行为特征的分析做出的,由于比较的参量较少,无法对复杂情景下的虚假评论进行检测识别。
一方面,本发明提供一种虚假评论检测模型训练方法,用于基于多种对比参数,在分析评论语义的同时,进一步区分情绪特征,并结合评论主体和被评论主体的行为特征,训练得到一种虚假评论检测模型训练方法,能够综合分许判断评论的虚假性,如图1、图2和图3所示,所述虚假评论检测模型训练方法包括步骤S101~S104:
需要预先说明的是,本实施例中,序号“S101~S104”并不是对步骤先后顺序的限定,在一应用场景中,部分步骤可以并行或调换先后顺序。步骤S101~S104可以适在单片机、计算机或其他电子设备上运行。
步骤S101:获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数。
步骤S102:在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量。
步骤S103:获取初始网络模型,初始网络模型利用第一卷积神经网络提取第一输入向量的语义特征向量,利用第二卷积神经网络提取第二输入向量的情绪特征向量,将语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类。
步骤S104:采用训练样本集对初始网络模型进行训练得到虚假评论检测模型。
在步骤S101中,基于现有数据构建训练样本集,其中,样本评论文本属于纯文字,评论主体表示发表该样本评论文本的主体,被评论主体为该样本评论文本所指向的产品或服务。评论主体特征向量通过记录用户等级数、关注数量、粉丝数和/或发表评论次数的数值构成特征向量,在另一些实施例中,还可以通过记录更多评论主体相关的数值信息以形成更全面的特征向量。同理,被评论主体特征向量通过被评论数、好评率和/或评论用户平均星级数的数值构成特征向量,基于特定问题、应用场景和需求,还可以设置其他与被评论主体相关的数值信息。标签用于标记某一条样本评论文本是否属于虚假评论。
具体的,用户等级数是评论主体的账号等级,关注数量是评论主体关注其他产品或服务的数量,粉丝数是评论主体的被关注数量,发表评论次数是评论主体所发布评论的总数。被评论数是被评论主体页面下发表的评价的数量,好评率是指好评数量占被评论数量的比例,评论用户平均星级数是被评论主体页面下发表评论的所有用户的账号等级均值。
训练样本集中的数据可以基于预设资源定位符对应的网络页面进行数据爬取得到的,也可以直接上传现有的数据库。例如,可以将英文虚假评论数据集Yelp Hotel数据上传至关系型数据库MySQL,形成训练样本集。
在步骤S102中,词向量库采用的是现有开源的中文词向量数据库,对于其他语言的评论进行分析时,可以采用相应的词向量数据库。情绪向量库是基于开源的情感词汇集处理得到的,将情感词汇集中的词汇分为积极词汇、中性词汇和消极词汇,其中,积极词汇标记为1,中性词汇标记为0,消极词汇标记为-1。在另一些实施例中,还可以将该情感词汇集中的词汇进一步划分为多种类型,并采用多个数值进行标记,划分多种特征。
在处理过程中,将样本评论文本中的每一个单词在词向量库和情绪向量库中检索,得到相对应的词向量和情绪向量。将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量,首位连接的方式可以保留样本评论文本的词间关系。
在一些实施例中,词向量库是采用Word2Vec模型对样本评论文本中的每个单词进行词嵌入操作得到的。
具体的,在词嵌入过程中,采用Word2Vec模型对现有的高维词向量基于训练样本集中的样本评论文本进行训练,得到针对这些评论文本语境下包含词间关系的低维词向量,并组成词向量库。后续将低维度词向量组成的第一输入序列输入到第一卷积神经网络进行处理,效果更好。具体的,Word2Vec模型能够考虑上下文,词嵌入的效果更好;得到的低维度词向量需要计算的维度更少,后续过程中速度更快,通用性强。
在一些实施例中,在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量,还包括:若词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量。若情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量。
在本实施例中,由于词向量库和情绪向量库是预设的,其不一定能够包含实际应用过程中的所有词汇,例如一些新兴的网络用语不一定能够及时收录。若样本评论文本中有部分单词没有被收录在词向量库或情绪向量库中,则可以通过未知词标识替代标记该单词的词向量或情绪向量。未知词标识可以是一个预设形式的特征向量,采用未知词标识可以在一定程度上保留样本评论文本的词间关系特征,减小由于未能搜索到相应词向量或情绪向量导致特征缺失的影响。
在步骤S103中,初始网络模型主要由两个卷积神经网络、一个全连接神经网络以及激活函数构成,其中,两个卷积神经网络分别用于提取第一输入向量对应的语义特征向量以及第二输入向量对应的情绪特征向量;而全连接神经网络用于在将包括语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量在内的所有特征向量组合后,通过激活函数映射至[0,1]区间后分类。
在本实施例中,第一输入向量是样本评论文本中各单词对应的词向量的集合,可以用于提取语义特征。第二输入向量是样本评论文本中各单词对应的情绪向量的集合,可以用于提取情绪特征。第一卷积神经网络基于设定长度的卷积核滑动提取语义特征向量,同理第二卷积神经网络基于另一设定长度的卷积核滑动提取情绪特征向量。将得到的语义特征向量、情绪特征向量、样本评论文本对应的评论主体特征向量和被评论主体特征向量进行线性连接,以综合四种特征。线性连接得到的特征向量可以通过全连接层和激活函数映射到[0,1]区间,并进行二分类。例如,激活函数输出值大于0.5时,则判断样本评论文本为虚假评论。
在步骤S104中,采用样本训练集对初始网络模型进行训练,基于预设损失函数进行反向传播调整初始网络模型的参数。在一些实施例中,预设损失函数可以是交叉熵损失函数。基于特定的输出要求,还可以设置其他类型的损失函数。最终,在经历设定迭代次数或满足损失函数要求后,得到虚假评论检测模型。
另一方面,本发明还提供一种虚假评论检测方法,以基于步骤S101~S104中所述虚假评论检测模型训练方法得到的虚假评论检测模型进行虚假评论的检测,该检测方法可以适在单片机、计算机或其他电子设备上运行。如图4所示,包括步骤S201~S203:
步骤S201:获取待检测评论文本,以及其对应的评论主体特征向量和被评论主体特征向量,评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数。
步骤S202:在词向量库和情绪向量库中检索待检测评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第三输入向量,将各情绪向量按照顺序连接成第四输入向量。
步骤S203:将第三输入向量、第四输入向量以及待检测评论文本对应的评论主体特征向量和被评论主体特征向量线性连接,并输入至如前述虚假评论检测模型训练方法得到的虚假评论检测模型中运算,得到待检测评论文本的识别结果。
在步骤S201中,待检测评论文本是基于用户输入的URL(资源定位符)进行数据爬取得到的,其指定了相关产品或服务的评价界面。待检测评论文本是单一条评论下的文字信息,评论主体特征向量是由该条评论的发布主体的用户等级数、关注数量、粉丝数和/或发表评论次数组成的向量,根据实际应用场景的差异,也可以配置更多的参数。被评论主体特征向量是由该条评论的被评论主体的被评论数、好评率和/或评论用户平均星级数组成的向量,根据实际应用场景的差异,也可以配置更多的参数。具体的,评论主体特征向量和被评论主体特征向量。
在步骤S202中,词向量库采用的是现有开源的中文词向量数据库,对于其他语言的评论进行分析时,可以采用相应的词向量数据库。情绪向量库是基于开源的情感词汇集处理得到的。具体的,该词向量库和情绪向量库应当与步骤S102中所采用的词向量库和情绪向量库保持一致。
在步骤S203中,利用步骤S104中训练得到的虚假评论检测模型对第三输入向量、第四输入向量以及待检测评论文本对应的评论主体特征向量和被评论主体特征向量进行处理,得到二分类的识别检测结果,判断出当前的待检测评论文本是虚假评论或真实评论。
在一些实施例中,步骤S203之后,即得到待检测评论文本的识别结果之后,还包括:将待检测评论文本的识别结果记录在日志中备案,用于在需要的时候进行回溯检索。
下面结合具体实施例对本发明进行说明:
一种虚假评论检测模型训练方法,参照图2和图3,包括:
步骤1:基于数据库模块提供的样本评论文本,采用Word2Vec模型进行训练处理将已有的高维度词向量转换为包含词间关系的低维度词向量,所有单词的低维度向量表示成为字典,构成词向量库。
使用多个开源的情感词汇集构建对每个词汇构建情绪向量表示,所有单词的情绪向量表示成为字典。其中,情感词汇集是一些常用中文情感词进行情感分数标注后的集合,比如:将高兴标注为积极词(使用符号pos表示),而将伤心标注为消极词(使用符号neg表示),而情感词汇集就是将一系列情感词汇标注后的构成的集合,进一步地,将积极词汇标记为1,中性词汇标记为0,消极词汇标记为-1,最终将情感词汇集转化为情绪向量库。将文本中的每个词转换成词向量和情绪向量的表示方式。
利用得到的词向量库和情绪向量库提取样本评论文本中的每一个单词的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,也即文本词向量矩阵;将各情绪向量按照顺序连接成第二输入向量,也即文本情绪向量矩阵。具体的,如果单词在词向量库中,则直接使用字典中对应的词向量表示替换该单词;如果单词没有在词向量词典中对应的向量表示,则使用未知词标识<UNK>标记一下对应的词向量同理,如果单词在中,则直接使用字典中对应的情绪向量表示替换该单词;如果单词没有在情绪向量库中对应的向量表示,则使用未知词标识<UNK>标记该单词。
进一步地,样本训练集中还包括各样本评论文本对应的评论主体特征向量和被评论主体特征向量,评论主体特征向量通过记录用户等级数、关注数量、粉丝数和/或发表评论次数的数值构成特征向量,在另一些实施例中,还可以通过记录更多评论主体相关的数值信息以形成更全面的特征向量。同理,被评论主体特征向量通过被评论数、好评率和/或评论用户平均星级数的数值构成特征向量,基于特定问题、应用场景和需求,还可以设置其他与被评论主体相关的数值信息。
步骤2:将两个卷积神经网络与全连接层和激活函数连接建立初始网络模型,以使用步骤1中训练组得到的评论内容词向量和评论内容情绪向量训练虚假评论检测模型,不断修改虚假评论检测模型参数使分类效果达到最优。
初始网络模型中的两个卷积神经网络使用评论文本作为输入,分别通过卷积池化和连接提取文本的语义特征向量和文本的情感特征向量;而全连接神经网络用于在将所有特征向量组合后,对虚假评论进行分类。
具体的,将样本评论文本对应的第一输入向量,输入到第一个卷积神经网络内:将句子中的第i个词的n维单词向量表示为xi∈Rn;令K为卷积核的长度,矩阵Fi表示为卷积运算的第i个卷积核,对于第一输入向量j中的第i个位置设置窗口向量Wij,将此位置的连续的k个单词向量表示为Wij={xi,xi+1,…,xi+k-1},则经过卷积运算得到每个窗口的特征向量rij=f(Fi*Wj+bi),其中bi是偏置量,N个窗口的语义特征向量为其中/>表示向量的连接操作。
将样本评论文本对应的第二输入向量,输入到第二个卷积神经网络内:将句子中的第i个词的m维情绪向量表示为yi∈Rm;令H为卷积核的长度,矩阵Ei表示为卷积运算的第i个滤波器,对于第二输入向量o中的第i个位置设置窗口向量Wio,将此位置的连续的h个单词向量表示为Wio={yi,yi+1,…,yi+h-1},则经过卷积运算得到每个窗口的特征向量sio=f(Ei*Wj+bi),其中bi是偏置量,N个窗口的情绪特征向量为其中/>表示向量的连接操作。
进一部的,将评论主体特征向量表示为C,被评论主体特征向量表示为D。
将语义特征向量为A、情绪特征向量为B、评论主体特征向量C和被评论主体特征向量D进行线性连接,得到特征向量
示例性的,对于向量A[1,2,3]、向量B[4,5,6]、向量C[8,7,9]和向量D[3,7,4],的结果为:[1,2,3,4,5,6,8,7,9,3,7,4]。其中,A表示由第一卷积神经网络提取的文本语义特征向量,B表示由第二卷积神经网络提取的文本情绪特征向量,C表示数据层提供的评论主体特征向量,即从用户数据中提取的用户等级、关注数量、粉丝数量、发表评论次数以及评论数据中的星级等数值类型特征构成的向量;D表示数据层提供的被评论主体特征向量,即从评论对象数据中提取的评论数量、平均星级和好评率等数值类型特征构成的向量。X表示所有特征相连接后的总特征向量,/>符号表示向量列连接操作。
进一步地,由于虚假评论检测问题是一个二分类问题,所以使用全连接网络加sigmoid函数的方法将总特征向量X映射到[0,1]之间,如公式(1)所示:
y=sigmoid(WTX+b) (1)
其中,W是全连接层的权重向量,b为偏置量。
sigmoid函数如公式(2)所示:
训练过程中,使用交叉熵损失函数进行参数训练,最终得到虚假评论检测模型。
查准率 查全率 F1-score
LR 0.65 0.65 0.65
RandomForest 0.70 0.70 0.70
XGBoost 0.80 0.75 0.77
TextCNN 0.73 0.77 0.75
SentiModel 0.73 0.87 0.79
表1
如表1所示,相比于逻辑回归(LR)、随机森林(RandomForest)、XGBoost(极端梯度提升算法)和TextCNN((利用卷积神经网络对文本进行分类的算法),本实施例中,虚假评论检测模型(SentiModel)的查准率、查全率和F1指标都更高。其中,F1-score是分类问题的一个衡量指标,是精确率和召回率的调和平均数,最大为1,最小为0
本实施例中,有益效果是:可以通过不断扩充数据,进而对模型进行迭代,提高模型的预测准确率;利用文本语义与情感模型与其他多种深度学习、机器学习模型对评论进行联合预测,提高预测准确率,减小预测方差;在使用文本语义的基础上融入了文本情感特征,考虑到文本实际情感信息,使得对虚假评论文本的检测更为准确。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
综上所述,所述虚假评论检测模型训练方法、检测方法及装置中,在通过提取词向量以获得语义特征的同时,还提取情绪向量以获得评论所对应的情绪特征,以识别检测在一般语义下隐藏负面情绪或诱导情绪的复杂虚假评论。进一步的,本发明还结合评论主体和被评论主体的特征向量,以从评论主体和被评论主体两个角度对评论进行综合分析,以获得更准确的识别检测效果。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种虚假评论检测模型训练方法,其特征在于,包括:
获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;所述训练样本集中的数据是基于预设资源定位符对应的网络页面进行数据爬取得到的;
在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;其中,若所述词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量;若所述情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量;所述词向量库是采用Word2Vec模型对所述样本评论文本中的每个单词进行词嵌入操作得到的;
获取初始网络模型,所述初始网络模型利用第一卷积神经网络提取所述第一输入向量的语义特征向量,利用第二卷积神经网络提取所述第二输入向量的情绪特征向量,将所述语义特征向量、所述情绪特征向量、所述评论主体特征向量和所述被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;
基于交叉熵损失函数,采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型。
2.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,所述激活函数输出值大于0.5时,则判断所述样本评论文本为虚假评论。
3.一种虚假评论检测方法,其特征在于,包括:
获取待检测评论文本,以及其对应的评论主体特征向量和被评论主体特征向量,所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
在词向量库和情绪向量库中检索所述待检测评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第三输入向量,将各情绪向量按照顺序连接成第四输入向量;
将所述第三输入向量、所述第四输入向量以及所述待检测评论文本对应的评论主体特征向量和被评论主体特征向量线性连接,并输入至如权利要求1至2任意一项所述虚假评论检测模型训练方法得到的虚假评论检测模型中运算,得到所述待检测评论文本的识别结果。
4.根据权利要求3所述的虚假评论检测方法,其特征在于,得到所述待检测评论文本的识别结果之后,还包括:
将所述待检测评论文本的识别结果记录在日志中备案。
5.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
CN202011423884.3A 2020-12-08 2020-12-08 虚假评论检测模型训练方法、检测方法及装置 Active CN112463966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011423884.3A CN112463966B (zh) 2020-12-08 2020-12-08 虚假评论检测模型训练方法、检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011423884.3A CN112463966B (zh) 2020-12-08 2020-12-08 虚假评论检测模型训练方法、检测方法及装置

Publications (2)

Publication Number Publication Date
CN112463966A CN112463966A (zh) 2021-03-09
CN112463966B true CN112463966B (zh) 2024-04-05

Family

ID=74800941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011423884.3A Active CN112463966B (zh) 2020-12-08 2020-12-08 虚假评论检测模型训练方法、检测方法及装置

Country Status (1)

Country Link
CN (1) CN112463966B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051367B (zh) * 2021-03-22 2023-11-21 北京智慧星光信息技术有限公司 基于语义特征强化的深度学习预警方法、系统及电子设备
CN116612843B (zh) * 2023-03-10 2024-07-19 武汉大学 一种心理测评掩饰性行为识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933664A (zh) * 2019-03-12 2019-06-25 中南大学 一种基于情感词嵌入的细粒度情绪分析改进方法
CN111143567A (zh) * 2019-12-30 2020-05-12 成都数之联科技有限公司 一种基于改进神经网络的评论情感分析方法
CN111428513A (zh) * 2020-05-11 2020-07-17 安徽理工大学 一种基于卷积神经网络的虚假评论分析方法
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098480A1 (en) * 2014-10-01 2016-04-07 Xerox Corporation Author moderated sentiment classification method and system
WO2017051425A1 (en) * 2015-09-23 2017-03-30 Devanathan Giridhari A computer-implemented method and system for analyzing and evaluating user reviews

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933664A (zh) * 2019-03-12 2019-06-25 中南大学 一种基于情感词嵌入的细粒度情绪分析改进方法
CN111143567A (zh) * 2019-12-30 2020-05-12 成都数之联科技有限公司 一种基于改进神经网络的评论情感分析方法
CN111428513A (zh) * 2020-05-11 2020-07-17 安徽理工大学 一种基于卷积神经网络的虚假评论分析方法
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于双卷积神经网络的虚假评论识别;杨超等;《计算机与数字工程》;20200831;第48卷(第08期);1954-1957 *

Also Published As

Publication number Publication date
CN112463966A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
Harfoushi et al. Sentiment analysis algorithms through azure machine learning: Analysis and comparison
CN110096681B (zh) 合同条款分析方法、装置、设备及可读存储介质
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN109241527B (zh) 一种中文商品虚假评论数据集自动生成方法
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112463966B (zh) 虚假评论检测模型训练方法、检测方法及装置
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN111753087A (zh) 舆情文本分类方法、装置、计算机设备和存储介质
CN111639258A (zh) 一种基于神经网络的新闻推荐方法
Angadi et al. Multimodal sentiment analysis using reliefF feature selection and random forest classifier
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114792246B (zh) 一种基于主题集成聚类的产品典型性特质挖掘方法及系统
CN115309864A (zh) 评论文本的情感智能分类方法、装置、电子设备及介质
CN115187066A (zh) 风险识别方法、装置、电子设备及存储介质
CN111523311B (zh) 一种搜索意图识别方法及装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Gerling Company2Vec--German Company Embeddings based on Corporate Websites
CN115618875A (zh) 一种基于命名实体识别的舆情评分方法、系统及存储介质
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
Ali et al. Identifying and Profiling User Interest over time using Social Data
CN112115258B (zh) 一种用户的信用评价方法、装置、服务器及存储介质
CN112417858A (zh) 一种实体权重评分方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant