CN116340512A - 虚假评论的认定方法、装置、设备及介质 - Google Patents
虚假评论的认定方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116340512A CN116340512A CN202310185365.5A CN202310185365A CN116340512A CN 116340512 A CN116340512 A CN 116340512A CN 202310185365 A CN202310185365 A CN 202310185365A CN 116340512 A CN116340512 A CN 116340512A
- Authority
- CN
- China
- Prior art keywords
- comment
- preset
- category
- comment content
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 239000013598 vector Substances 0.000 claims abstract description 127
- 239000011159 matrix material Substances 0.000 claims description 60
- 238000006243 chemical reaction Methods 0.000 claims description 40
- 230000008451 emotion Effects 0.000 claims description 39
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 23
- 238000004321 preservation Methods 0.000 claims description 22
- 238000003062 neural network model Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000028161 membrane depolarization Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种虚假评论的认定方法、装置、设备及介质,其中,方法包括:通过获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征,进行向量化拼接,以得到句向量,并以句向量与预设类别进行欧式距离的计算,从而确定句向量的类别,进而确定为所述评论内容是否为虚假评论。本发明的有益效果:实现了根据评论内容及其所对应的评论者特征、以及商家特征来认定评论内容是否为虚假评论,提高了评论信息的分类效果,以及虚假评论识别的准确性。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种虚假评论的认定方法、装置、设备及介质。
背景技术
虚假评论是指在评论区中评论辱骂侮辱、不实评价、营销宣传、无意义信息等信息,目前为了筛选出这些虚假评论,业内通常的做法是将评论信息进行识别分类,然而虚假评论涉及很多种类,存在层级属性,现有技术中对于评论信息的分类效果并不理想,导致无法准确识别出虚假评论。
发明内容
本发明的主要目的为提供一种虚假评论的认定方法、装置、设备及介质,旨在解决对于评论信息的分类效果并不理想,导致无法准确识别出虚假评论的问题。
本发明提供了一种虚假评论的认定方法,包括:
获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征;
计算所述商家特征与所述评论内容相似度;
将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量;
将各个特征向量按照预设的拼接方法拼接为多维特征矩阵;
将所述多维特征矩阵输入至预设的文字转化模型中,得到预定长度的句向量;
计算所述句向量与各个预设类别的欧式距离;
将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论。
进一步地,所述将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量的步骤之前,还包括:
获取多个评论信息,以及所述评论信息所对应的预设类别,所述评论信息包括目标评论内容以及所述目标评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
基于各个所述评论信息构建对应的目标多维特征矩阵,其中所述评论信息与所述目标多维特征矩阵一一对应,所述目标多维特征矩阵包括多个特征;
将各个目标多维矩阵以及对应的预设类别输入至预设的神经网络模型中进行训练,并在所述预设的神经网络模型的卷积层中使用注意力机制对各个特征进行权重设置,得到训练后的目标神经网络;
通过所述目标神经网络将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量。
进一步地,所述将各个目标多维矩阵以及对应的预设类别输入至预设的神经网络模型中进行训练,并在所述预设的神经网络模型的卷积层中使用注意力机制对各个特征进行权重设置,得到训练后的目标神经网络的步骤,包括:
将各个目标多维特征矩阵输入至预设的神经网络中,设置各个特征的初始权重,以得到预测向量;
计算所述预测向量与对应的预设类别之间的欧式距离;
根据所述欧式距离更新所述预设的神经网络中的参数以及卷积层中各个特征的初始权重,从而得到训练后的目标神经网络。
进一步地,所述计算所述句向量与各个预设类别的欧式距离的步骤之前,还包括:
获取多个历史评论信息,所述评论信息包括目标评论内容以及所述历史评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
将历史评论信息对应的评论内容、评论者特征以及目标评论内容与商家特征的相似度按照各自预设的转换方法转化为特征向量;
将各个特征向量按照预设的拼接方法拼接为历史多维特征矩阵;
将各个所述历史多维特征矩阵输入至预设的文字转化模型中,得到预定长度的历史句向量;其中,所述历史多维特征矩阵与历史句向量一一对应;
随机选取设定个数的k个初始类别;
计算每个历史句向量与各个初始类别的欧式距离,并以欧式距离最小的初始类别作为所述历史句向量的初始类别;
重新选取距离初始类别欧式距离最小的历史句向量作为新的初始类别,直至选取的新的初始类别与上一次的初始类别的误差在预设范围内,则停止重新选取,并将最后选取的初始类别作为预设类别。
进一步地,所述将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论的步骤之后,还包括:
根据公式t=f(xi)+b计算所述评论内容对应的保存时间;其中,t表示保存时间,f(xi)表示预设类别与对应保存时间的函数关系,b表示保存时间的最小值,xi表示第i个评论内容,所述保存时间为对应的所述评论内容在评论区中的时长;
根据所述保存时间为所述评论内容设置在评论区中的时间标签。
进一步地,所述根据所述保存时间为所述评论内容设置在评论区中的时间标签的步骤之后,还包括:
检测所述评论区中各所述评论内容的时间标签是否达到了失效时间;
若达到了所述失效时间,则将对应的评论内容移出所述评论区。
进一步地,所述将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量的步骤中,将所述评论内容转化为特征向量的步骤,包括:
采用情感分析工具对所述评论内容进行分析,得到表征情感倾向性的形容词及其情感极性值;
统计所述评论内容中负面情绪的形容词出现的概率;其中,情感极性值小于或等于设定数值的形容词为负面情绪的形容词;
根据负面情绪的形容词出现的概率进行向量化,得到所述评论内容对应的特征向量。
本发明还提供了一种虚假评论的认定方装置,包括:
获取模块,用于获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征;
第一计算模块,用于计算所述商家特征与所述评论内容相似度;
转化模块,用于将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量;
拼接模块,用于将各个特征向量按照预设的拼接方法拼接为多维特征矩阵;
输入模块,用于将所述多维特征矩阵输入至预设的文字转化模型中,得到预定长度的句向量;
第二计算模块,用于计算所述句向量与各个预设类别的欧式距离;
类别确定模块,用于将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征,进行向量化拼接,以得到句向量,并以句向量与预设类别进行欧式距离的计算,从而确定句向量的类别,进而确定为所述评论内容是否为虚假评论,从而实现了根据评论内容及其所对应的评论者特征、以及商家特征来认定评论内容是否为虚假评论,提高了评论信息的分类效果,以及虚假评论识别的准确性。
附图说明
图1是本发明一实施例的一种虚假评论的认定方法的流程示意图;
图2是本发明一实施例的一种虚假评论的认定装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种虚假评论的认定方法,包括:
S1:获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征;
S2:计算所述商家特征与所述评论内容相似度;
S3:将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量;
S4:将各个特征向量按照预设的拼接方法拼接为多维特征矩阵;
S5:将所述多维特征矩阵输入至预设的文字转化模型中,得到预定长度的句向量;
S6:计算所述句向量与各个预设类别的欧式距离;
S7:将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论。
如上述步骤S1所述,获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征,其中,获取的方式可以是从评论区中直接进行获取,需要说明的是,本申请针对的是一条条的评论内容进行认定,并非是对整体的评论内容进行认定,即上述的评论内容是指一条评论内容,该评论者的特征可以是评论者的账号所对应的等级,由于一般的网络水军使用的都是一级或者0级的小号,因此可以将其作为评价者的特征,至于商家特征,则是对应的销售产品的特征,可以根据评论区所在的商家获取到商家特征。
如上述步骤S2所述,计算所述商家特征与所述评论内容相似度,由于商家的特征一般都是固定的,因此,商家特征单独来看,作为不了认定虚假评论的要求,因此需要将其转化为与评论内容的相似度,计算相似度的方式可以是从中提取关键词,然后将基于关键词进行相似度的计算,计算的方式可以是任意的余弦相似度计算方法。
如上述步骤S3所述,将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量。其中,转换的方法可以是预先建立评论内容、评论者特征以及相似度分别与数值之间的关系,后续只需要进行直接替换即可,需要说明的是,评论内容、所述评论者特征以及所述相似度可以具有多个特征,即评论内容、所述评论者特征以及所述相似度分别至少对应一个特征向量,且每个特征向量为列向量,即每个特征向量对应一列向量。
如上述步骤S4所述,将各个特征向量按照预设的拼接方法拼接为多维特征矩阵,其中特征向量为列向量,只需要将其进行按照顺序拼接,即可得到多维特征矩阵。
如上述步骤S5所述,将所述多维特征矩阵输入至预设的文字转化模型中,得到预定长度的句向量,该文字转化模型为BERT模型,通过对其中的模型参数进行微调,使其可以输出一种长度为预定长度的句向量,从而便于计算。
如上述步骤S6-S7所述,计算所述句向量与各个预设类别的欧式距离;将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论。其中预设类别可以是预先认为设定的预设类别,其具体为一个聚类中心,即具有确定的向量,从而可以计算出各个句向量与各个预设类别的欧式距离,然后选取欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论,从而实现了根据评论内容及其所对应的评论者特征、以及商家特征来认定评论内容是否为虚假评论,提高了评论信息的分类效果,以及虚假评论识别的准确性。
在一些实施例中,所述将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量的步骤S3之前,还包括:
S201:获取多个评论信息,以及所述评论信息所对应的预设类别,所述评论信息包括目标评论内容以及所述目标评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
S202:基于各个所述评论信息构建对应的目标多维特征矩阵,其中所述评论信息与所述目标多维特征矩阵一一对应,所述目标多维特征矩阵包括多个特征;
S203:将各个目标多维矩阵以及对应的预设类别输入至预设的神经网络模型中进行训练,并在所述预设的神经网络模型的卷积层中使用注意力机制对各个特征进行权重设置,得到训练后的目标神经网络;
S204:通过所述目标神经网络将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量。
如上述步骤S201-S204所述,实现了对目标神经网络进行训练,并通过目标神经网络将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量,其中预设的神经网络模型中可以在卷积层设置注意力机制,该注意力机制的设定方式为,对于一些影响大的特征赋予更大的权重,具体的赋予方式可以通过人工进行赋予,从而便于转化出的特征向量更利于计算评论内容是否为虚假评论。
在一个实施例中,所述将各个目标多维矩阵以及对应的预设类别输入至预设的神经网络模型中进行训练,并在所述预设的神经网络模型的卷积层中使用注意力机制对各个特征进行权重设置,得到训练后的目标神经网络的步骤S203,包括:
S2031:将各个目标多维特征矩阵输入至预设的神经网络中,设置各个特征的初始权重,以得到预测向量;
S2032:计算所述预测向量与对应的预设类别之间的欧式距离;
S2033:根据所述欧式距离更新所述预设的神经网络中的参数以及卷积层中各个特征的初始权重,从而得到训练后的目标神经网络。
如上述步骤S2031-S2033所述,具体地,构建多维特征矩阵(包括评价内容自身特征,评价者特征,相似度):df是特征向量长度,/>是特征个数,R表示实数,Lemb表示多维特征矩阵,f表示特征向量。模型采用基于Attention机制的CNN,在卷积层加入attention,注意力特征表示为ai。通过以下公式进行训练:ci=fatt(xi,yi),1≤i≤m,j=0,1,
xi表示一个特征,yi表示评论内容最终分类结果的预设类别,fatt表示attention机制的计算函数。pi和ci代表特征矩阵中每个特征的重要程度信息,m为评论内容中特征的个数。
在一个实施例中,所述计算所述句向量与各个预设类别的欧式距离的步骤S6之前,还包括:
S501:获取多个历史评论信息,所述评论信息包括目标评论内容以及所述历史评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
S502:将历史评论信息对应的评论内容、评论者特征以及目标评论内容与商家特征的相似度按照各自预设的转换方法转化为特征向量;
S503:将各个特征向量按照预设的拼接方法拼接为历史多维特征矩阵;
S504:将各个所述历史多维特征矩阵输入至预设的文字转化模型中,得到预定长度的历史句向量;其中,所述历史多维特征矩阵与历史句向量一一对应;
S505:随机选取设定个数的k个初始类别;
S506:计算每个历史句向量与各个初始类别的欧式距离,并以欧式距离最小的初始类别作为所述历史句向量的初始类别;
S507:重新选取距离初始类别欧式距离最小的历史句向量作为新的初始类别,直至选取的新的初始类别与上一次的初始类别的误差在预设范围内,则停止重新选取,并将最后选取的初始类别作为预设类别。
如上述步骤S501-S507所述,实现了将预设类别的设定,具体地,步骤S501-S504中将各个历史评论信息对应的评论内容、评论者特征以及目标评论内容与商家特征的相似度按照各自预设的转换方法转化为特征向量,以及将各个特征向量按照预设的拼接方法拼接为历史多维特征矩阵的方式与前述对评论内容进行拼接处理的方式相同,此处只需要使用BERT作为基础模型,对模型参数进行训练和微调,将历史多维矩阵输入该模型中,即可得到一个长度为hidden_size的句向量。在一个具体的实施例中。模型中的参数具体为:
网络层数layer=12
隐藏层维度hidden_size=768
多头个数attention head=12
文本最大长度seq_len=512
步骤S505-S507中,实现了对预设类别的设定,具体地,输入句向量矩阵,令I=1,选取k个初始类别Zj(I),j=1,2,3,…,K;
(2)计算每个历史句向量与初始类别的距离D(xi,Zj(I)),i=1,2,3,…,k,如果满足D(xi,Zj(I))=min{D(xi,Zj(I)),j=1,2,3,…,k},则将该对应的历史句向量设置为新的初始类别;
(3)计算误差平方和准则函数JC:
在一个实施例中,所述将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论的步骤S7之后,还包括:
S801:根据公式t=f(xi)+b计算所述评论内容对应的保存时间;其中,t表示保存时间,f(xi)表示预设类别与对应保存时间的函数关系,b表示保存时间的最小值,xi表示第i个评论内容,所述保存时间为对应的所述评论内容在评论区中的时长;
S802:根据所述保存时间为所述评论内容设置在评论区中的时间标签。
如上述步骤S501-S503所述,实现了根据评论内容的预设类别为每个评论内容设定一个保存时间,即根据公式t=f(xi)+b进行计算,其中,f(xi)函数中xi的取值范围应当设定为大于一定值,即风险系数值没有超过预设的系数值,则不需要设定保存时间,即可以一直存在于评论区,另外,f(xi)函数可以是一次函数,也可以是二次函数,也可以是复合函数,本申请对此不做限定,应当进行说明的是,该f(xi)函数应当是随着xi距离目标预设类别越近,而时间越增加的函数,即xi距离目标预设类别越近,其对应的保存时间的时长也越长,目标预设类别为正常的评论的类别。
在一个实施例中,所述根据所述保存时间为所述评论内容设置在评论区中的时间标签的步骤S802之后,还包括:
S8031:检测所述评论区中各所述评论内容的时间标签是否达到了失效时间;
S8032:若达到了所述失效时间,则将对应的评论内容移出所述评论区。
如上述步骤S8031-S8032所述,实现了实时更新评论区中的评论内容。即周期性检测评论区的评论内容对应的时间标签是否达到了虚假评论失效时间,当达到了该对应的失效时间时,将对应的评论内容移出,即说明该评论内容不能当作虚假评论来处理,故将其移出评论区中,从而实现了评论区的数据的实时更新。具体地,检测所述评论区中各所述评论内容的时间标签是否达到了虚假评论失效时间中的检测方法可以是通过周期性遍历评论区中所有的评论内容,检测各评论内容各自对应的失效时间,然后获取当前时间,若当前时间已经达到或超过了失效时间,则说明该评论内容可以移出评论区。
在一个实施例中,所述将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量的步骤S3中,将所述评论内容转化为特征向量的步骤,包括:
S301:采用情感分析工具对所述评论内容进行分析,得到表征情感倾向性的形容词及其情感极性值;
S302:统计所述评论内容中负面情绪的形容词出现的概率;其中,情感极性值小于或等于设定数值的形容词为负面情绪的形容词;
S303:根据负面情绪的形容词出现的概率进行向量化,得到所述评论内容对应的特征向量。
采用情感分析工具SentiWordNet(SentiWordNet是一种用于意见挖掘的词汇资源,SentiWordNet可以根据情感分数将分析内容划分为积极性、消极性)对聊天内容进行分析,得到表征情感倾向性的形容词及其情感极性值,设定情感极性值大于0.3(设定数值,可根据具体情况进行调整)的形容词为正面情绪的形容词,情感极性值小于或等于0.1的形容词为负面情绪的形容词,进一步统计聊天内容中负面情绪的形容词出现的概率,根据负面情绪的形容词出现的概率进行向量化,得到所述评论内容对应的特征向量。由于其中具体的内容对于虚假评论的认定并没有多大的关系,因此设定特征向量可以根据负面情绪的形容词出现的概率进行设定。
参照图2,本发明还提供了一种虚假评论的认定方装置,包括:
获取模块10,用于获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征;
第一计算模块20,用于计算所述商家特征与所述评论内容相似度;
转化模块30,用于将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量;
拼接模块40,用于将各个特征向量按照预设的拼接方法拼接为多维特征矩阵;
输入模块50,用于将所述多维特征矩阵输入至预设的文字转化模型中,得到预定长度的句向量;
第二计算模块60,用于计算所述句向量与各个预设类别的欧式距离;
类别确定模块70,用于将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论。
在一个实施例中,所述虚假评论的认定方装置,还包括:
评论信息获取模块,用于获取多个评论信息,以及所述评论信息所对应的预设类别,所述评论信息包括目标评论内容以及所述目标评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
目标多维特征矩阵构建模块,用于基于各个所述评论信息构建对应的目标多维特征矩阵,其中所述评论信息与所述目标多维特征矩阵一一对应,所述目标多维特征矩阵包括多个特征;
目标多维矩阵输入模块,用于将各个目标多维矩阵以及对应的预设类别输入至预设的神经网络模型中进行训练,并在所述预设的神经网络模型的卷积层中使用注意力机制对各个特征进行权重设置,得到训练后的目标神经网络;
特征向量转化模块,用于通过所述目标神经网络将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量。
在一个实施例中,所述目标多维矩阵输入模块,包括:
权重设置子模块,用于将各个目标多维特征矩阵输入至预设的神经网络中,设置各个特征的初始权重,以得到预测向量;
欧式距离计算子模块,用于计算所述预测向量与对应的预设类别之间的欧式距离;
更新子模块,用于根据所述欧式距离更新所述预设的神经网络中的参数以及卷积层中各个特征的初始权重,从而得到训练后的目标神经网络。
在一个实施例中,所述虚假评论的认定方装置,还包括:
历史评论信息获取模块,用于获取多个历史评论信息,所述评论信息包括目标评论内容以及所述历史评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
特征向量转换模块,用于将历史评论信息对应的评论内容、评论者特征以及目标评论内容与商家特征的相似度按照各自预设的转换方法转化为特征向量;
拼接模块,用于将各个特征向量按照预设的拼接方法拼接为历史多维特征矩阵;
历史多维特征矩阵输入模块,用于将各个所述历史多维特征矩阵输入至预设的文字转化模型中,得到预定长度的历史句向量;其中,所述历史多维特征矩阵与历史句向量一一对应;
初始类别选取模块,用于随机选取设定个数的k个初始类别;
欧式距离计算模块,用于计算每个历史句向量与各个初始类别的欧式距离,并以欧式距离最小的初始类别作为所述历史句向量的初始类别;
初始类别重新选取模块,用于重新选取距离初始类别欧式距离最小的历史句向量作为新的初始类别,直至选取的新的初始类别与上一次的初始类别的误差在预设范围内,则停止重新选取,并将最后选取的初始类别作为预设类别。
在一个实施例中,所述虚假评论的认定方装置,还包括:
保存时间计算模块,用于根据公式t=f(xi)+b计算所述评论内容对应的保存时间;其中,t表示保存时间,f(xi)表示预设类别与对应保存时间的函数关系,b表示保存时间的最小值,xi表示第i个评论内容,所述保存时间为对应的所述评论内容在评论区中的时长;
时间标签设置模块,用于根据所述保存时间为所述评论内容设置在评论区中的时间标签。
在一个实施例中,所述虚假评论的认定方装置,还包括:
时间标签检测模块,用于检测所述评论区中各所述评论内容的时间标签是否达到了失效时间;
移出模块,用于若达到了所述失效时间,则将对应的评论内容移出所述评论区。
在一个实施例中,所述转化模块30,包括:
分析子模块,用于采用情感分析工具对所述评论内容进行分析,得到表征情感倾向性的形容词及其情感极性值;
统计子模块,用于统计所述评论内容中负面情绪的形容词出现的概率;其中,情感极性值小于或等于设定数值的形容词为负面情绪的形容词;
向量化子模块,用于根据负面情绪的形容词出现的概率进行向量化,得到所述评论内容对应的特征向量。
本发明的有益效果:通过获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征,进行向量化拼接,以得到句向量,并以句向量与预设类别进行欧式距离的计算,从而确定句向量的类别,进而确定为所述评论内容是否为虚假评论,从而实现了根据评论内容及其所对应的评论者特征、以及商家特征来认定评论内容是否为虚假评论,提高了评论信息的分类效果,以及虚假评论识别的准确性。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种评论内容等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的虚假评论的认定方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的虚假评论的认定方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种虚假评论的认定方法,其特征在于,包括:
获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征;
计算所述商家特征与所述评论内容相似度;
将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量;
将各个特征向量按照预设的拼接方法拼接为多维特征矩阵;
将所述多维特征矩阵输入至预设的文字转化模型中,得到预定长度的句向量;
计算所述句向量与各个预设类别的欧式距离;
将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论。
2.如权利要求1所述的虚假评论的认定方法,其特征在于,所述将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量的步骤之前,还包括:
获取多个评论信息,以及所述评论信息所对应的预设类别,所述评论信息包括目标评论内容以及所述目标评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
基于各个所述评论信息构建对应的目标多维特征矩阵,其中,所述评论信息与所述目标多维特征矩阵一一对应,所述目标多维特征矩阵包括多个特征;
将各个目标多维矩阵以及对应的预设类别输入至预设的神经网络模型中进行训练,并在所述预设的神经网络模型的卷积层中使用注意力机制对各个特征进行权重设置,得到训练后的目标神经网络;
通过所述目标神经网络将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量。
3.如权利要求2所述的虚假评论的认定方法,其特征在于,所述将各个目标多维矩阵以及对应的预设类别输入至预设的神经网络模型中进行训练,并在所述预设的神经网络模型的卷积层中使用注意力机制对各个特征进行权重设置,得到训练后的目标神经网络的步骤,包括:
将各个目标多维特征矩阵输入至预设的神经网络中,设置各个特征的初始权重,以得到预测向量;
计算所述预测向量与对应的预设类别之间的欧式距离;
根据所述欧式距离更新所述预设的神经网络中的参数以及卷积层中各个特征的初始权重,从而得到训练后的目标神经网络。
4.如权利要求1所述的虚假评论的认定方法,其特征在于,所述计算所述句向量与各个预设类别的欧式距离的步骤之前,还包括:
获取多个历史评论信息,所述评论信息包括目标评论内容以及所述历史评论内容所对应的评论者特征、商家特征,和目标评论内容所对应的预设类别;
将历史评论信息对应的评论内容、评论者特征以及目标评论内容与商家特征的相似度按照各自预设的转换方法转化为特征向量;
将各个特征向量按照预设的拼接方法拼接为历史多维特征矩阵;
将各个所述历史多维特征矩阵输入至预设的文字转化模型中,得到预定长度的历史句向量;其中,所述历史多维特征矩阵与历史句向量一一对应;
随机选取设定个数的k个初始类别;
计算每个历史句向量与各个初始类别的欧式距离,并以欧式距离最小的初始类别作为所述历史句向量的初始类别;
重新选取距离初始类别欧式距离最小的历史句向量作为新的初始类别,直至选取的新的初始类别与上一次的初始类别的误差在预设范围内,则停止重新选取,并将最后选取的初始类别作为预设类别。
5.如权利要求1所述的虚假评论的认定方法,其特征在于,所述将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论的步骤之后,还包括:
根据公式t=f(xi)+计算所述评论内容对应的保存时间;其中,t表示保存时间,f(xi)表示预设类别与对应保存时间的函数关系,b表示保存时间的最小值,xi表示第i个评论内容,所述保存时间为对应的所述评论内容在评论区中的时长;
根据所述保存时间为所述评论内容设置在评论区中的时间标签。
6.如权利要求5所述的虚假评论的认定方法,其特征在于,所述根据所述保存时间为所述评论内容设置在评论区中的时间标签的步骤之后,还包括:
检测所述评论区中各所述评论内容的时间标签是否达到了失效时间;
若所述评论区中各所述评论内容的时间标签达到了所述失效时间,则将对应的评论内容移出所述评论区。
7.如权利要求1所述的虚假评论的认定方法,其特征在于,所述将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量的步骤中,将所述评论内容转化为特征向量的步骤,包括:
采用情感分析工具对所述评论内容进行分析,得到表征情感倾向性的形容词及其情感极性值;
统计所述评论内容中负面情绪的形容词出现的概率;其中,情感极性值小于或等于设定数值的形容词为负面情绪的形容词;
根据负面情绪的形容词出现的概率进行向量化,得到所述评论内容对应的特征向量。
8.一种虚假评论的认定方装置,其特征在于,包括:
获取模块,用于获取评论内容,以及所述评论内容所对应的评论者特征、以及商家特征;
第一计算模块,用于计算所述商家特征与所述评论内容相似度;
转化模块,用于将所述评论内容、所述评论者特征以及所述相似度按照各自预设的转换方法转化为特征向量;
拼接模块,用于将各个特征向量按照预设的拼接方法拼接为多维特征矩阵;
输入模块,用于将所述多维特征矩阵输入至预设的文字转化模型中,得到预定长度的句向量;
第二计算模块,用于计算所述句向量与各个预设类别的欧式距离;
类别确定模块,用于将欧式距离最近的预设类别作为所述句向量的类别,从而确定所述评论内容是否为虚假评论。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310185365.5A CN116340512A (zh) | 2023-02-17 | 2023-02-17 | 虚假评论的认定方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310185365.5A CN116340512A (zh) | 2023-02-17 | 2023-02-17 | 虚假评论的认定方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340512A true CN116340512A (zh) | 2023-06-27 |
Family
ID=86875565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310185365.5A Pending CN116340512A (zh) | 2023-02-17 | 2023-02-17 | 虚假评论的认定方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340512A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076812B (zh) * | 2023-10-13 | 2023-12-12 | 西安康奈网络科技有限公司 | 一种网络信息发布传播平台智能监测管理系统 |
-
2023
- 2023-02-17 CN CN202310185365.5A patent/CN116340512A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076812B (zh) * | 2023-10-13 | 2023-12-12 | 西安康奈网络科技有限公司 | 一种网络信息发布传播平台智能监测管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413961B (zh) | 基于分类模型进行文本评分的方法、装置和计算机设备 | |
CN112015878B (zh) | 处理智慧客服未回答问题的方法、装置及计算机设备 | |
CN111444724B (zh) | 医疗问答对质检方法、装置、计算机设备和存储介质 | |
CN112417381B (zh) | 应用于图像版权保护的快速定位侵权图像的方法及装置 | |
CN112347340B (zh) | 信息搜索方法、装置和计算机设备 | |
CN113094475B (zh) | 一种基于上下文注意流的对话意图识别系统及方法 | |
CN110597966A (zh) | 自动问答方法及装置 | |
CN113723070B (zh) | 文本相似度模型训练方法、文本相似度检测方法及装置 | |
CN113849648A (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN112200153B (zh) | 基于历史匹配结果的人岗匹配方法、装置及设备 | |
CN116340512A (zh) | 虚假评论的认定方法、装置、设备及介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN112364163A (zh) | 日志的缓存方法、装置以及计算机设备 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
CN111786999B (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN112035664A (zh) | 药品的归类方法、装置以及计算机设备 | |
CN115982597A (zh) | 语义相似度模型训练方法及装置、语义匹配方法及装置 | |
CN112364620B (zh) | 文本相似度的判断方法、装置以及计算机设备 | |
CN113986245A (zh) | 基于halo平台的目标代码生成方法、装置、设备及介质 | |
CN112949307A (zh) | 预测语句实体的方法、装置和计算机设备 | |
CN112016292A (zh) | 文章截断点的设定方法、装置以及计算机设备 | |
CN112989040A (zh) | 一种对话文本标注方法、装置、电子设备及存储介质 | |
CN113139382A (zh) | 命名实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |