CN107818173A - 一种基于向量空间模型的中文虚假评论过滤方法 - Google Patents

一种基于向量空间模型的中文虚假评论过滤方法 Download PDF

Info

Publication number
CN107818173A
CN107818173A CN201711129611.6A CN201711129611A CN107818173A CN 107818173 A CN107818173 A CN 107818173A CN 201711129611 A CN201711129611 A CN 201711129611A CN 107818173 A CN107818173 A CN 107818173A
Authority
CN
China
Prior art keywords
comments
comment
neural network
false
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711129611.6A
Other languages
English (en)
Other versions
CN107818173B (zh
Inventor
刘珊
杨波
郑文锋
蔡礼高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201711129611.6A priority Critical patent/CN107818173B/zh
Publication of CN107818173A publication Critical patent/CN107818173A/zh
Application granted granted Critical
Publication of CN107818173B publication Critical patent/CN107818173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于向量空间模型的中文虚假评论过滤方法,通过改进版向量空间模型判断评论间的相似性,将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分,筛选出另一部分虚假评论。并且引入一部分真实评论样本,使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。

Description

一种基于向量空间模型的中文虚假评论过滤方法
技术领域
本发明属于机器学习技术领域,更为具体地讲,涉及一种基于向量空间模型的中文虚假评论过滤方法。
背景技术
随着互联网技术的日益成熟,消费者网络点评积极性逐渐增强,网络上产生了数量庞大的评论数据。用户利用这些评论信息辅助消费决策的同时,也饱受评论质量参差不齐、信息过载等问题的困扰。
网络在给消费者带来便捷体验的同时,也由于它本身的无地域限制的特点导致了消费依据匮乏、商品描述信息与实际不符等弊端。因此越来越多的消费者在消费前都不得不先去了解已购顾客对该产品的评价和态度,以便做出可靠的决策。但随着评价数量的飞速增长以及评价内容的五花八门,用户越来越难以获取有价值的评价信息。
仅依靠人工方法难以从海量的评论中识别出真正对用户有价值的信息,迫切需要自动化方法辅助人们进行甄别,因而对文本内容的评价筛查有重要的研究价值。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于向量空间模型的中文虚假评论过滤方法,基于BP神经网络识别影评网站的虚假评论,以便达到为用户提供真实的消费参考。
为实现上述发明目的,本发明为一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤
(1)、模拟网站登录,抓取评论;
(2)、根据设定的评论长度L,剔除于L的评论;
(3)、将评论分词处理,获得语句成分结构
(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;
(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;
(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;
(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型
(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计
TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中所有词的出现次数之和;
n表示在整个语料中评论的总数,而表示含有当前词的评论数;
(5.2)、构建改进版向量空间模型
其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,wik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积;
(5.3)、利用改进版向量空间模型计算任意两条评论的相似度,筛选出相同或相似评论标记为虚假评论,并标记为正例样本一;
(6)、根据BosonNLP情感词典数据和知网情感分析词数据对步骤(4)中未标记的评论进行进行情感打分,再根据情感得分进行情感极性判断,Score>0判断为正向,Score<0判断为负向;
将情感极性为正且用户评分低于平均评判标准,或者情感极性为负且用户评分高于平均评判标准的评论标记为虚假评论,并作为负例样本二;
(7)、对步骤(4)中未标记的评论按每个用户的评论次数对用户进行降序排序,再将前1%用户的所有评论标记为虚假评论,并作为负例样本三;
(8)、将步骤(4)、(5)、(6)、(7)得到的正例样本和负例样本分别组成正例向量和负例向量;再将正例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“1”;将负例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“0”,以此来训练BP神经网络;
(9)、将实时抓取的评论输入至训练好的BP神经网络,如果BP神经网络输出为“1”,则该评论为真实评论;如果BP神经网络输出为“0”,则该评论为虚假评论。
本发明的发明目的是这样实现的:
本发明一种基于向量空间模型的中文虚假评论过滤方法,通过改进版向量空间模型判断评论间的相似性,将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分,筛选出另一部分虚假评论。并且引入一部分真实评论样本,使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。
同时,本发明一种基于向量空间模型的中文虚假评论过滤方法还具有以下
有益效果:
(1)、将正例、负例样本整合到一起来训练BP神经网络,提高了训练样本的可靠性;其次,选用BP神经网络,在于它不仅能处理特征向量相对更大的情况,也能处理训练集相对更大的情况,在局限性上更优于逻辑回归和支撑向量机。
(2)、训练样本的向量化整合了结构编码,向量空间模型,情感极性,评论时间等隐藏影响因素。
附图说明
图1是本发明一种基于向量空间模型的中文虚假评论过滤方法流程图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于向量空间模型的中文虚假评论过滤方法流程图。
在本实施例中,如图1所示,本发明一种基于向量空间模型的中文虚假评论过滤方法,包括以下步骤
S1、用Python实现网站的模拟登录,运用正则表达式抓取到每条评论的发布时间,评论的文本内容,评论发布者的昵称,id以及主页地址等;
S2、根据设定的评论长度L,剔除小于L的评论;在本实施例中,设定阈值为15,剔除长度小于15的评论;
S3、将评论分词处理,获得语句成分结构
S3.1、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语等无意义的词汇,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值50%比较,剔除比例大于比例50%的评论;
S3.2、利用中科院NLPIR中文分词java版工具对步骤S3.1中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照名词,动词,副词,形容词等词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;
编码过程例如:
上述例子中的第三行即为评论结构编码;
S4、按用户投票有用数对步骤S3得到的评论进行排序,然后择排序前5%的评论作为真实评论,并标记为正例样本;
S5、利用步骤S4中未标记的评论构建改进版向量空间模型
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,传统向量空间模型遵循以下原理:
假设共有十个词:w1,w2,……,w10,而共有三个评论,分别为d1,d2和d3。统计所得的词频表如表1所示:
w1 w2 w3 w4 w5 w6 w7 w8 w9 w10
d1 1 2 5 7 9
d2 3 4 6 8
d3 10 11 12 13 14 15
表1
常用的向量空间公式见下:
其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,aik表示第k个词汇在第i条评论中出现的次数。
假设计算d1和d2的相似度,那么:
上面公式的计算量很大,这里为了减小计算量,采用降维的方法。采取降维的策略不仅可以提高效率,还可以提高精度。例如下面两句话:
1、这是我的饭。
2、那是你的饭。
如果把“这”、“那”、“你”、“我”、“是”、“的”都当功能词处理掉,那么相似度就是100%。如果都不去掉,相似度可能只有60%。而这两句话的主题显示是一样的。
直接使用词的个数在比较词数很多和词数很少的文档时存在着问题。例如文档I中含有10000个词,而词a出现了10次;文档II中含有100个词,而a出现了5次。这样在相似度计算时,文档I中a对最后结果的影响比文档II中的a要大。这显然是不合理的,因为a只占文档I的0.1%而却占文档II的5%。
为了解决这类问题,这里引入词频TF和反词频IDF两个概念,具体方法为:
S5.1、对步骤S4中未标记的评论进行词频TF和反词频IDF统计
TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中出现次数最多的词的次数,这样做减小了评论中词的频率不合理分布所引起的误差;
n表示在整个语料中评论的总数,而表示含有当前词的评论数,这样做减少了在语料范围内词频分布不均匀造成的相似度误差;
S5.2、构建改进版向量空间模型
其中,di,dj分别表示第i条评论和第j条评论,wik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积;
S5.3、利用改进版向量空间模型计算任意两条评论的相似度,筛选出相同或相似评论标记为虚假评论,并标记为负例样本一;
S6、根据BosonNLP情感词典数据和知网情感分析词数据对步骤S4中未标记的评论进行进行情感打分,再根据情感得分进行情感极性判断,Score>0判断为正向,Score<0判断为负向;
对比情感倾向与评分,如果情感倾向于好评,但是评分小于3星(5星为标准),也就是将情感极性为正且用户评分低于平均评判标准的评论,或者是情感倾向于差评,但是评分大于3星,也就是情感极性为负且用户评分高于平均评判标准的评论都标记为虚假评论,并作为负例样本二;
S7、对步骤S4中未标记的评论按每个用户的评论次数对用户进行降序排序,再将前1%用户的所有评论标记为虚假评论,并作为负例样本三;
S8、将步骤S4、S5、S6、S7得到的正例样本和负例样本分别组成正例向量和负例向量,其中,无论是正例样本还是负例样本,每一条评论均构成一条向量,再将所有的正例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“1”;将所有的负例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“0”,以此来训练BP神经网络;
S9、将实时抓取的评论输入至训练好的BP神经网络,如果BP神经网络输出为“1”,则该评论为真实评论;如果BP神经网络输出为“0”,则该评论为虚假评论。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤
(1)、模拟网站登录,抓取评论;
(2)、根据设定的评论长度L,剔除于L的评论;
(3)、将评论分词处理,获得语句成分结构
(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;
(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;
(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;
(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型
(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计
TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中出现次数最多的词的次数;
n表示在整个语料中评论的总数,而表示含有当前词的评论数;
(5.2)、构建改进版向量空间模型
<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <mo>|</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,wik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积;
<mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>TF</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>IDF</mi> <mi>j</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mi>n</mi> <mrow> <mover> <mi>n</mi> <mo>&amp;OverBar;</mo> </mover> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
(5.3)、利用改进版向量空间模型计算任意两条评论的相似度,筛选出相同或相似评论标记为虚假评论,并标记为正例样本一;
(6)、根据BosonNLP情感词典数据和知网情感分析词数据对步骤(4)中未标记的评论进行进行情感打分,再根据情感得分进行情感极性判断,Score>0判断为正向,Score<0判断为负向;
将情感极性为正且用户评分低于平均评判标准,或者情感极性为负且用户评分高于平均评判标准的评论标记为虚假评论,并作为负例样本二;
(7)、对步骤(4)中未标记的评论按每个用户的评论次数对用户进行降序排序,再将前1%用户的所有评论标记为虚假评论,并作为负例样本三;
(8)、将步骤(4)、(5)、(6)、(7)得到的正例样本和负例样本分别组成正例向量和负例向量;再将正例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“1”;将负例向量输入至BP神经网络,通过迭代,使用使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“0”,以此来训练BP神经网络;
(9)、将实时抓取的评论输入至训练好的BP神经网络,如果BP神经网络输出为“1”,则该评论为真实评论;如果BP神经网络输出为“0”,则该评论为虚假评论。
CN201711129611.6A 2017-11-15 2017-11-15 一种基于向量空间模型的中文虚假评论过滤方法 Active CN107818173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711129611.6A CN107818173B (zh) 2017-11-15 2017-11-15 一种基于向量空间模型的中文虚假评论过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711129611.6A CN107818173B (zh) 2017-11-15 2017-11-15 一种基于向量空间模型的中文虚假评论过滤方法

Publications (2)

Publication Number Publication Date
CN107818173A true CN107818173A (zh) 2018-03-20
CN107818173B CN107818173B (zh) 2021-05-14

Family

ID=61609112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711129611.6A Active CN107818173B (zh) 2017-11-15 2017-11-15 一种基于向量空间模型的中文虚假评论过滤方法

Country Status (1)

Country Link
CN (1) CN107818173B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189922A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN110941953A (zh) * 2019-11-26 2020-03-31 华中师范大学 一种兼顾可解释性的网络虚假评论的自动识别方法及系统
CN114385926A (zh) * 2021-12-02 2022-04-22 山东师范大学 攻击环境下降低无用信息比重的鲁棒性推荐方法及系统
CN116385029A (zh) * 2023-04-20 2023-07-04 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和系统
CN103745001A (zh) * 2014-01-24 2014-04-23 福州大学 一种产品垃圾评论者检测系统
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN107229608A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 垃圾评论识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和系统
CN103745001A (zh) * 2014-01-24 2014-04-23 福州大学 一种产品垃圾评论者检测系统
CN107229608A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 垃圾评论识别方法和装置
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NITIN JINDAL等: "opinion spam and analysis", 《IN PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON WEB SEARCH AND WEB DATA MINING》 *
刘立佳: "面向产品评论的垃圾评论识别方法研究", 《中国优秀硕士学位论文全文数据库》 *
夏火松等: "文本相似度视角下的虚拟社区评论的可信性分析", 《现代情报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189922A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN109189922B (zh) * 2018-08-07 2021-06-29 创新先进技术有限公司 评论评估模型的训练方法和装置
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN110941953A (zh) * 2019-11-26 2020-03-31 华中师范大学 一种兼顾可解释性的网络虚假评论的自动识别方法及系统
CN114385926A (zh) * 2021-12-02 2022-04-22 山东师范大学 攻击环境下降低无用信息比重的鲁棒性推荐方法及系统
CN116385029A (zh) * 2023-04-20 2023-07-04 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质
CN116385029B (zh) * 2023-04-20 2024-01-30 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN107818173B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN110175325B (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN108090099B (zh) 一种文本处理方法及装置
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN112287197B (zh) 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
CN108388554A (zh) 基于协同过滤注意力机制的文本情感识别系统
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN110134934A (zh) 文本情感分析方法和装置
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN110569495A (zh) 一种基于用户评论的情感倾向分类方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant