CN112463966A - 虚假评论检测模型训练方法、检测方法及装置 - Google Patents
虚假评论检测模型训练方法、检测方法及装置 Download PDFInfo
- Publication number
- CN112463966A CN112463966A CN202011423884.3A CN202011423884A CN112463966A CN 112463966 A CN112463966 A CN 112463966A CN 202011423884 A CN202011423884 A CN 202011423884A CN 112463966 A CN112463966 A CN 112463966A
- Authority
- CN
- China
- Prior art keywords
- comment
- vector
- word
- emotion
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 312
- 230000008451 emotion Effects 0.000 claims abstract description 102
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 230000004913 activation Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002996 emotional effect Effects 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种虚假评论检测模型训练方法、检测方法及装置,所述训练方法中,基于训练样本集,在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;初始网络模型利用第一卷积神经网络提取第一输入向量的语义特征向量,利用第二卷积神经网络提取第二输入向量的情绪特征向量,将语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;采用训练样本集对初始网络模型进行训练得到虚假评论检测模型。基于语义特征和情绪特征共同分析,以获得更准确的识别检测效果。
Description
技术领域
本发明涉及服务计算机技术领域,尤其涉及一种虚假评论检测模型训练方法、检测方法及装置。
背景技术
在Web2.0时代,以互动共享形式存在的产品以及消费体验等评论信息数量开始急速增长,并逐步成为消费者进行消费时参考的一个重要指标。评论通常包含丰富的消费者个人体验,它对企业的财务收益和声誉产生了重大影响。这给虚假评论者蒙蔽系统提供了动机,通过发布虚假的评论或意见,以推广或诋毁一些目标产品和服务。因此,虚假评论被视为电子商务网站、公司和用户生态系统的严重威胁。
用户评价过程中的情感取向较为复杂,简单的通过一个或几个行为特征去判断评论是否为虚假评论难以获得准确的结果。例如,一般来说5星代表高满意度,1星代表低满意度。但这些以评分为指标的方法存在缺点。首先,评级不一定完全代表评论者的情绪。有一些积极的评价但是评级却相对较低;一些负面评论的评级却相对较高。这种情况会极大程度影响对于虚假评论的判断。同时,即使两篇评论的评分或评分相同,不同的内容也会对读者产生不同的影响,这使得负面的虚假评论能够在检测过程中被相对较高的评级隐藏,而积极的虚假评论也易于被相对较低的评级所掩饰。现有技术无法识别和捕捉评论的情绪状态,仅基于评级进行判断并不准确。
发明内容
本发明实施例提供了一种虚假评论检测模型训练方法、检测方法及装置,以解决现有技术中不能将评论的情绪特征作为参考以识别虚假评论,导致检测结果不可靠的问题。
本发明的技术方案如下:
一方面,本发明提供一种虚假评论检测模型训练方法,包括:
获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;
获取初始网络模型,所述初始网络模型利用第一卷积神经网络提取所述第一输入向量的语义特征向量,利用第二卷积神经网络提取所述第二输入向量的情绪特征向量,将所述语义特征向量、所述情绪特征向量、所述评论主体特征向量和所述被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;
采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型。
在一些实施例中,所述词向量库是采用Word2Vec模型对所述样本评论文本中的每个单词进行词嵌入操作得到的。
在一些实施例中,在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,还包括:
若所述词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量;
若所述情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量。
在一些实施例中,采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型中,所述初始网络模型采用交叉熵损失函数进行参数训练。
在一些实施例中,所述训练样本集中的数据是基于预设资源定位符对应的网络页面进行数据爬取得到的。
在一些实施例中,所述激活函数输出值大于0.5时,则判断所述样本评论文本为虚假评论。
另一方面,本发明还提供一种虚假评论检测方法,包括:
获取待检测评论文本,以及其对应的评论主体特征向量和被评论主体特征向量,所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
在词向量库和情绪向量库中检索所述待检测评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第三输入向量,将各情绪向量按照顺序连接成第四输入向量;
将所述第三输入向量、所述第四输入向量以及所述待检测评论文本对应的评论主体特征向量和被评论主体特征向量线性连接,并输入至如前述虚假评论检测模型训练方法得到的虚假评论检测模型中运算,得到所述待检测评论文本的识别结果。
在一些实施例中,得到所述待检测评论文本的识别结果之后,还包括:
将所述待检测评论文本的识别结果记录在日志中备案。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明的有益效果至少是:
所述虚假评论检测模型训练方法、检测方法及装置中,在通过提取词向量以获得语义特征的同时,还提取情绪向量以获得评论所对应的情绪特征,以识别检测在一般语义下隐藏负面情绪或诱导情绪的复杂虚假评论。进一步的,本发明还结合评论主体和被评论主体的特征向量,以从评论主体和被评论主体两个角度对评论进行综合分析,以获得更准确的识别检测效果。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述虚假评论检测模型训练方法的流程示意图;
图2为本发明一实施例所述虚假评论检测模型训练方法的逻辑示意图;
图3为本发明一实施例所述虚假评论检测模型训练方法的初始模型结构示意图;
图4为本发明一实施例所述虚假评论检测方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
随着电商交易的日趋成熟,大量产品和服务被转移至网络平台,鉴于这种交易模式的特殊行,用户对于产品和服务的质量的预判极大依赖已有的评论,这使得评论对商家的经营产生了极大的影响,也催生了通过刷单和虚假评论掩饰实际交易情况,误导或诱导消费者进行消费的行为。因此,为了减少和杜绝这种被虚假评论蒙蔽的现象,大众对于虚假评论的检测识别的需求日益提升。
虚假评论为了能够误导和诱导消费者进行消费,同时提高隐蔽性,会令比较直观的行为特征和评论文本含义产生歧化,例如,对竞争者的商品或服务采用较高的评分以掩饰评论文本中的消极情绪,在躲避检测的同时使消费者产生负面情绪,以打压竞争者。或对自己的商品或服务给出中等评分,但在评论文本中传达过于积极的情绪,以诱导消费者消费。现有技术中对于虚假评论的检测识别方式主要是基于对评分等级等行为特征的分析做出的,由于比较的参量较少,无法对复杂情景下的虚假评论进行检测识别。
一方面,本发明提供一种虚假评论检测模型训练方法,用于基于多种对比参数,在分析评论语义的同时,进一步区分情绪特征,并结合评论主体和被评论主体的行为特征,训练得到一种虚假评论检测模型训练方法,能够综合分许判断评论的虚假性,如图1、图2和图3所示,所述虚假评论检测模型训练方法包括步骤S101~S104:
需要预先说明的是,本实施例中,序号“S101~S104”并不是对步骤先后顺序的限定,在一应用场景中,部分步骤可以并行或调换先后顺序。步骤S101~S104可以适在单片机、计算机或其他电子设备上运行。
步骤S101:获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数。
步骤S102:在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量。
步骤S103:获取初始网络模型,初始网络模型利用第一卷积神经网络提取第一输入向量的语义特征向量,利用第二卷积神经网络提取第二输入向量的情绪特征向量,将语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类。
步骤S104:采用训练样本集对初始网络模型进行训练得到虚假评论检测模型。
在步骤S101中,基于现有数据构建训练样本集,其中,样本评论文本属于纯文字,评论主体表示发表该样本评论文本的主体,被评论主体为该样本评论文本所指向的产品或服务。评论主体特征向量通过记录用户等级数、关注数量、粉丝数和/或发表评论次数的数值构成特征向量,在另一些实施例中,还可以通过记录更多评论主体相关的数值信息以形成更全面的特征向量。同理,被评论主体特征向量通过被评论数、好评率和/或评论用户平均星级数的数值构成特征向量,基于特定问题、应用场景和需求,还可以设置其他与被评论主体相关的数值信息。标签用于标记某一条样本评论文本是否属于虚假评论。
具体的,用户等级数是评论主体的账号等级,关注数量是评论主体关注其他产品或服务的数量,粉丝数是评论主体的被关注数量,发表评论次数是评论主体所发布评论的总数。被评论数是被评论主体页面下发表的评价的数量,好评率是指好评数量占被评论数量的比例,评论用户平均星级数是被评论主体页面下发表评论的所有用户的账号等级均值。
训练样本集中的数据可以基于预设资源定位符对应的网络页面进行数据爬取得到的,也可以直接上传现有的数据库。例如,可以将英文虚假评论数据集Yelp Hotel数据上传至关系型数据库MySQL,形成训练样本集。
在步骤S102中,词向量库采用的是现有开源的中文词向量数据库,对于其他语言的评论进行分析时,可以采用相应的词向量数据库。情绪向量库是基于开源的情感词汇集处理得到的,将情感词汇集中的词汇分为积极词汇、中性词汇和消极词汇,其中,积极词汇标记为1,中性词汇标记为0,消极词汇标记为-1。在另一些实施例中,还可以将该情感词汇集中的词汇进一步划分为多种类型,并采用多个数值进行标记,划分多种特征。
在处理过程中,将样本评论文本中的每一个单词在词向量库和情绪向量库中检索,得到相对应的词向量和情绪向量。将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量,首位连接的方式可以保留样本评论文本的词间关系。
在一些实施例中,词向量库是采用Word2Vec模型对样本评论文本中的每个单词进行词嵌入操作得到的。
具体的,在词嵌入过程中,采用Word2Vec模型对现有的高维词向量基于训练样本集中的样本评论文本进行训练,得到针对这些评论文本语境下包含词间关系的低维词向量,并组成词向量库。后续将低维度词向量组成的第一输入序列输入到第一卷积神经网络进行处理,效果更好。具体的,Word2Vec模型能够考虑上下文,词嵌入的效果更好;得到的低维度词向量需要计算的维度更少,后续过程中速度更快,通用性强。
在一些实施例中,在词向量库和情绪向量库中检索样本评论文本中的每个单词对应的词向量和情绪向量,还包括:若词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量。若情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量。
在本实施例中,由于词向量库和情绪向量库是预设的,其不一定能够包含实际应用过程中的所有词汇,例如一些新兴的网络用语不一定能够及时收录。若样本评论文本中有部分单词没有被收录在词向量库或情绪向量库中,则可以通过未知词标识替代标记该单词的词向量或情绪向量。未知词标识可以是一个预设形式的特征向量,采用未知词标识可以在一定程度上保留样本评论文本的词间关系特征,减小由于未能搜索到相应词向量或情绪向量导致特征缺失的影响。
在步骤S103中,初始网络模型主要由两个卷积神经网络、一个全连接神经网络以及激活函数构成,其中,两个卷积神经网络分别用于提取第一输入向量对应的语义特征向量以及第二输入向量对应的情绪特征向量;而全连接神经网络用于在将包括语义特征向量、情绪特征向量、评论主体特征向量和被评论主体特征向量在内的所有特征向量组合后,通过激活函数映射至[0,1]区间后分类。
在本实施例中,第一输入向量是样本评论文本中各单词对应的词向量的集合,可以用于提取语义特征。第二输入向量是样本评论文本中各单词对应的情绪向量的集合,可以用于提取情绪特征。第一卷积神经网络基于设定长度的卷积核滑动提取语义特征向量,同理第二卷积神经网络基于另一设定长度的卷积核滑动提取情绪特征向量。将得到的语义特征向量、情绪特征向量、样本评论文本对应的评论主体特征向量和被评论主体特征向量进行线性连接,以综合四种特征。线性连接得到的特征向量可以通过全连接层和激活函数映射到[0,1]区间,并进行二分类。例如,激活函数输出值大于0.5时,则判断样本评论文本为虚假评论。
在步骤S104中,采用样本训练集对初始网络模型进行训练,基于预设损失函数进行反向传播调整初始网络模型的参数。在一些实施例中,预设损失函数可以是交叉熵损失函数。基于特定的输出要求,还可以设置其他类型的损失函数。最终,在经历设定迭代次数或满足损失函数要求后,得到虚假评论检测模型。
另一方面,本发明还提供一种虚假评论检测方法,以基于步骤S101~S104中所述虚假评论检测模型训练方法得到的虚假评论检测模型进行虚假评论的检测,该检测方法可以适在单片机、计算机或其他电子设备上运行。如图4所示,包括步骤S201~S203:
步骤S201:获取待检测评论文本,以及其对应的评论主体特征向量和被评论主体特征向量,评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数。
步骤S202:在词向量库和情绪向量库中检索待检测评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第三输入向量,将各情绪向量按照顺序连接成第四输入向量。
步骤S203:将第三输入向量、第四输入向量以及待检测评论文本对应的评论主体特征向量和被评论主体特征向量线性连接,并输入至如前述虚假评论检测模型训练方法得到的虚假评论检测模型中运算,得到待检测评论文本的识别结果。
在步骤S201中,待检测评论文本是基于用户输入的URL(资源定位符)进行数据爬取得到的,其指定了相关产品或服务的评价界面。待检测评论文本是单一条评论下的文字信息,评论主体特征向量是由该条评论的发布主体的用户等级数、关注数量、粉丝数和/或发表评论次数组成的向量,根据实际应用场景的差异,也可以配置更多的参数。被评论主体特征向量是由该条评论的被评论主体的被评论数、好评率和/或评论用户平均星级数组成的向量,根据实际应用场景的差异,也可以配置更多的参数。具体的,评论主体特征向量和被评论主体特征向量。
在步骤S202中,词向量库采用的是现有开源的中文词向量数据库,对于其他语言的评论进行分析时,可以采用相应的词向量数据库。情绪向量库是基于开源的情感词汇集处理得到的。具体的,该词向量库和情绪向量库应当与步骤S102中所采用的词向量库和情绪向量库保持一致。
在步骤S203中,利用步骤S104中训练得到的虚假评论检测模型对第三输入向量、第四输入向量以及待检测评论文本对应的评论主体特征向量和被评论主体特征向量进行处理,得到二分类的识别检测结果,判断出当前的待检测评论文本是虚假评论或真实评论。
在一些实施例中,步骤S203之后,即得到待检测评论文本的识别结果之后,还包括:将待检测评论文本的识别结果记录在日志中备案,用于在需要的时候进行回溯检索。
下面结合具体实施例对本发明进行说明:
一种虚假评论检测模型训练方法,参照图2和图3,包括:
步骤1:基于数据库模块提供的样本评论文本,采用Word2Vec模型进行训练处理将已有的高维度词向量转换为包含词间关系的低维度词向量,所有单词的低维度向量表示成为字典,构成词向量库。
使用多个开源的情感词汇集构建对每个词汇构建情绪向量表示,所有单词的情绪向量表示成为字典。其中,情感词汇集是一些常用中文情感词进行情感分数标注后的集合,比如:将高兴标注为积极词(使用符号pos表示),而将伤心标注为消极词(使用符号neg表示),而情感词汇集就是将一系列情感词汇标注后的构成的集合,进一步地,将积极词汇标记为1,中性词汇标记为0,消极词汇标记为-1,最终将情感词汇集转化为情绪向量库。将文本中的每个词转换成词向量和情绪向量的表示方式。
利用得到的词向量库和情绪向量库提取样本评论文本中的每一个单词的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,也即文本词向量矩阵;将各情绪向量按照顺序连接成第二输入向量,也即文本情绪向量矩阵。具体的,如果单词在词向量库中,则直接使用字典中对应的词向量表示替换该单词;如果单词没有在词向量词典中对应的向量表示,则使用未知词标识<UNK>标记一下对应的词向量同理,如果单词在中,则直接使用字典中对应的情绪向量表示替换该单词;如果单词没有在情绪向量库中对应的向量表示,则使用未知词标识<UNK>标记该单词。
进一步地,样本训练集中还包括各样本评论文本对应的评论主体特征向量和被评论主体特征向量,评论主体特征向量通过记录用户等级数、关注数量、粉丝数和/或发表评论次数的数值构成特征向量,在另一些实施例中,还可以通过记录更多评论主体相关的数值信息以形成更全面的特征向量。同理,被评论主体特征向量通过被评论数、好评率和/或评论用户平均星级数的数值构成特征向量,基于特定问题、应用场景和需求,还可以设置其他与被评论主体相关的数值信息。
步骤2:将两个卷积神经网络与全连接层和激活函数连接建立初始网络模型,以使用步骤1中训练组得到的评论内容词向量和评论内容情绪向量训练虚假评论检测模型,不断修改虚假评论检测模型参数使分类效果达到最优。
初始网络模型中的两个卷积神经网络使用评论文本作为输入,分别通过卷积池化和连接提取文本的语义特征向量和文本的情感特征向量;而全连接神经网络用于在将所有特征向量组合后,对虚假评论进行分类。
具体的,将样本评论文本对应的第一输入向量,输入到第一个卷积神经网络内:将句子中的第i个词的n维单词向量表示为xi∈Rn;令K为卷积核的长度,矩阵Fi表示为卷积运算的第i个卷积核,对于第一输入向量j中的第i个位置设置窗口向量Wij,将此位置的连续的k个单词向量表示为Wij={xi,xi+1,…,xi+k-1},则经过卷积运算得到每个窗口的特征向量rij=f(Fi*Wj+bi),其中bi是偏置量,N个窗口的语义特征向量为其中表示向量的连接操作。
将样本评论文本对应的第二输入向量,输入到第二个卷积神经网络内:将句子中的第i个词的m维情绪向量表示为yi∈Rm;令H为卷积核的长度,矩阵Ei表示为卷积运算的第i个滤波器,对于第二输入向量o中的第i个位置设置窗口向量Wio,将此位置的连续的h个单词向量表示为Wio={yi,yi+1,…,yi+h-1},则经过卷积运算得到每个窗口的特征向量sio=f(Ei*Wj+bi),其中bi是偏置量,N个窗口的情绪特征向量为其中表示向量的连接操作。
进一部的,将评论主体特征向量表示为C,被评论主体特征向量表示为D。
示例性的,对于向量A[1,2,3]、向量B[4,5,6]、向量C[8,7,9]和向量D[3,7,4],的结果为:[1,2,3,4,5,6,8,7,9,3,7,4]。其中,A表示由第一卷积神经网络提取的文本语义特征向量,B表示由第二卷积神经网络提取的文本情绪特征向量,C表示数据层提供的评论主体特征向量,即从用户数据中提取的用户等级、关注数量、粉丝数量、发表评论次数以及评论数据中的星级等数值类型特征构成的向量;D表示数据层提供的被评论主体特征向量,即从评论对象数据中提取的评论数量、平均星级和好评率等数值类型特征构成的向量。X表示所有特征相连接后的总特征向量,符号表示向量列连接操作。
进一步地,由于虚假评论检测问题是一个二分类问题,所以使用全连接网络加sigmoid函数的方法将总特征向量X映射到[0,1]之间,如公式(1)所示:
y=sigmoid(WTX+b) (1)
其中,W是全连接层的权重向量,b为偏置量。
sigmoid函数如公式(2)所示:
训练过程中,使用交叉熵损失函数进行参数训练,最终得到虚假评论检测模型。
查准率 | 查全率 | F1-score | |
LR | 0.65 | 0.65 | 0.65 |
RandomForest | 0.70 | 0.70 | 0.70 |
XGBoost | 0.80 | 0.75 | 0.77 |
TextCNN | 0.73 | 0.77 | 0.75 |
SentiModel | 0.73 | 0.87 | 0.79 |
表1
如表1所示,相比于逻辑回归(LR)、随机森林(RandomForest)、XGBoost(极端梯度提升算法)和TextCNN((利用卷积神经网络对文本进行分类的算法),本实施例中,虚假评论检测模型(SentiModel)的查准率、查全率和F1指标都更高。其中,F1-score是分类问题的一个衡量指标,是精确率和召回率的调和平均数,最大为1,最小为0
本实施例中,有益效果是:可以通过不断扩充数据,进而对模型进行迭代,提高模型的预测准确率;利用文本语义与情感模型与其他多种深度学习、机器学习模型对评论进行联合预测,提高预测准确率,减小预测方差;在使用文本语义的基础上融入了文本情感特征,考虑到文本实际情感信息,使得对虚假评论文本的检测更为准确。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
综上所述,所述虚假评论检测模型训练方法、检测方法及装置中,在通过提取词向量以获得语义特征的同时,还提取情绪向量以获得评论所对应的情绪特征,以识别检测在一般语义下隐藏负面情绪或诱导情绪的复杂虚假评论。进一步的,本发明还结合评论主体和被评论主体的特征向量,以从评论主体和被评论主体两个角度对评论进行综合分析,以获得更准确的识别检测效果。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种虚假评论检测模型训练方法,其特征在于,包括:
获取多个样本评论文本,以及各样本评论文本对应的评论主体特征向量和被评论主体特征向量,并添加标签形成训练样本集;所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第一输入向量,将各情绪向量按照顺序连接成第二输入向量;
获取初始网络模型,所述初始网络模型利用第一卷积神经网络提取所述第一输入向量的语义特征向量,利用第二卷积神经网络提取所述第二输入向量的情绪特征向量,将所述语义特征向量、所述情绪特征向量、所述评论主体特征向量和所述被评论主体特征向量进行线性连接后,通过全连接层和激活函数进行分类;
采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型。
2.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,所述词向量库是采用Word2Vec模型对所述样本评论文本中的每个单词进行词嵌入操作得到的。
3.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,在词向量库和情绪向量库中检索所述样本评论文本中的每个单词对应的词向量和情绪向量,还包括:
若所述词向量库中缺乏一单词的词向量,则采用未知词标识替代该单词的词向量;
若所述情绪向量库中缺乏一单词的情绪向量,则采用未知情绪标识代替该单词的情绪向量。
4.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,采用所述训练样本集对所述初始网络模型进行训练得到虚假评论检测模型中,所述初始网络模型采用交叉熵损失函数进行参数训练。
5.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,所述训练样本集中的数据是基于预设资源定位符对应的网络页面进行数据爬取得到的。
6.根据权利要求1所述的虚假评论检测模型训练方法,其特征在于,所述激活函数输出值大于0.5时,则判断所述样本评论文本为虚假评论。
7.一种虚假评论检测方法,其特征在于,包括:
获取待检测评论文本,以及其对应的评论主体特征向量和被评论主体特征向量,所述评论主体特征向量内的项包括评论主体的用户等级数、关注数量、粉丝数和/或发表评论次数,所述被评论主体特征向量内的项包括被评论主体对应的被评论数、好评率和/或评论用户平均星级数;
在词向量库和情绪向量库中检索所述待检测评论文本中的每个单词对应的词向量和情绪向量,将各词向量按照顺序连接成第三输入向量,将各情绪向量按照顺序连接成第四输入向量;
将所述第三输入向量、所述第四输入向量以及所述待检测评论文本对应的评论主体特征向量和被评论主体特征向量线性连接,并输入至如权利要求1至5任意一项所述虚假评论检测模型训练方法得到的虚假评论检测模型中运算,得到所述待检测评论文本的识别结果。
8.根据权利要求7所述的虚假评论检测方法,其特征在于,得到所述待检测评论文本的识别结果之后,还包括:
将所述待检测评论文本的识别结果记录在日志中备案。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423884.3A CN112463966B (zh) | 2020-12-08 | 2020-12-08 | 虚假评论检测模型训练方法、检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423884.3A CN112463966B (zh) | 2020-12-08 | 2020-12-08 | 虚假评论检测模型训练方法、检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463966A true CN112463966A (zh) | 2021-03-09 |
CN112463966B CN112463966B (zh) | 2024-04-05 |
Family
ID=74800941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011423884.3A Active CN112463966B (zh) | 2020-12-08 | 2020-12-08 | 虚假评论检测模型训练方法、检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463966B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051367A (zh) * | 2021-03-22 | 2021-06-29 | 北京智慧星光信息技术有限公司 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
CN116612843A (zh) * | 2023-03-10 | 2023-08-18 | 武汉大学 | 一种心理测评掩饰性行为识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098480A1 (en) * | 2014-10-01 | 2016-04-07 | Xerox Corporation | Author moderated sentiment classification method and system |
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109933664A (zh) * | 2019-03-12 | 2019-06-25 | 中南大学 | 一种基于情感词嵌入的细粒度情绪分析改进方法 |
CN111143567A (zh) * | 2019-12-30 | 2020-05-12 | 成都数之联科技有限公司 | 一种基于改进神经网络的评论情感分析方法 |
CN111428513A (zh) * | 2020-05-11 | 2020-07-17 | 安徽理工大学 | 一种基于卷积神经网络的虚假评论分析方法 |
CN111666480A (zh) * | 2020-06-10 | 2020-09-15 | 东北电力大学 | 一种基于滚动式协同训练的虚假评论识别方法 |
CN111858945A (zh) * | 2020-08-05 | 2020-10-30 | 上海哈蜂信息科技有限公司 | 基于深度学习的评论文本方面级情感分类方法及系统 |
-
2020
- 2020-12-08 CN CN202011423884.3A patent/CN112463966B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098480A1 (en) * | 2014-10-01 | 2016-04-07 | Xerox Corporation | Author moderated sentiment classification method and system |
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109933664A (zh) * | 2019-03-12 | 2019-06-25 | 中南大学 | 一种基于情感词嵌入的细粒度情绪分析改进方法 |
CN111143567A (zh) * | 2019-12-30 | 2020-05-12 | 成都数之联科技有限公司 | 一种基于改进神经网络的评论情感分析方法 |
CN111428513A (zh) * | 2020-05-11 | 2020-07-17 | 安徽理工大学 | 一种基于卷积神经网络的虚假评论分析方法 |
CN111666480A (zh) * | 2020-06-10 | 2020-09-15 | 东北电力大学 | 一种基于滚动式协同训练的虚假评论识别方法 |
CN111858945A (zh) * | 2020-08-05 | 2020-10-30 | 上海哈蜂信息科技有限公司 | 基于深度学习的评论文本方面级情感分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
杨超等: "基于双卷积神经网络的虚假评论识别", 《计算机与数字工程》 * |
杨超等: "基于双卷积神经网络的虚假评论识别", 《计算机与数字工程》, vol. 48, no. 08, 31 August 2020 (2020-08-31), pages 1954 - 1957 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051367A (zh) * | 2021-03-22 | 2021-06-29 | 北京智慧星光信息技术有限公司 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
CN113051367B (zh) * | 2021-03-22 | 2023-11-21 | 北京智慧星光信息技术有限公司 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
CN116612843A (zh) * | 2023-03-10 | 2023-08-18 | 武汉大学 | 一种心理测评掩饰性行为识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112463966B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alsubari et al. | [Retracted] Development of Integrated Neural Network Model for Identification of Fake Reviews in E‐Commerce Using Multidomain Datasets | |
CN112463966B (zh) | 虚假评论检测模型训练方法、检测方法及装置 | |
Shan et al. | Inconsistency investigation between online review content and ratings | |
CN115187066A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
Biesialska et al. | Leveraging contextual embeddings and self-attention neural networks with bi-attention for sentiment analysis | |
Bharadwaj | Sentiment analysis in online product reviews: mining customer opinions for sentiment classification | |
Wang et al. | An explainable sentiment prediction model based on the portraits of users sharing representative opinions in social sensors | |
Gerling | Company2Vec--German Company Embeddings based on Corporate Websites | |
Reddy et al. | Classification of user’s review using modified logistic regression technique | |
Abu-Salih et al. | DAO-LGBM: dual annealing optimization with light gradient boosting machine for advocates prediction in online customer engagement | |
Ratmele et al. | OpExHAN: opinion extraction using hierarchical attention network from unstructured reviews | |
Alsubari et al. | Rule-based classifiers for identifying fake reviews in e-commerce: A deep learning system | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Boluki et al. | Evaluating the effectiveness of pre-trained language models in predicting the helpfulness of online product reviews | |
Wang et al. | CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method | |
Pedipina et al. | Sentimental analysis on twitter data of political domain | |
Abbasi et al. | Collaborative filtering recommendation system through sentiment analysis | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN115618875A (zh) | 一种基于命名实体识别的舆情评分方法、系统及存储介质 | |
Sakhare et al. | E-commerce Product Price Monitoring and Comparison using Sentiment Analysis | |
Ajmeera et al. | Hamiltonian deep neural network fostered sentiment analysis approach on product reviews | |
Asesh | SentiSeries: a trilogy of customer reviews, sentiment analysis and time series | |
Kumar et al. | Automated sentiment classification of amazon product reviews using lstm and bidirectional lstm | |
Kamalesh et al. | Sentiment Analysis on Amazon Product Review | |
CN114896987B (zh) | 基于半监督预训练模型的细粒度情感分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |