CN103226576A - 基于语义相似度的垃圾评论过滤方法 - Google Patents

基于语义相似度的垃圾评论过滤方法 Download PDF

Info

Publication number
CN103226576A
CN103226576A CN2013101106155A CN201310110615A CN103226576A CN 103226576 A CN103226576 A CN 103226576A CN 2013101106155 A CN2013101106155 A CN 2013101106155A CN 201310110615 A CN201310110615 A CN 201310110615A CN 103226576 A CN103226576 A CN 103226576A
Authority
CN
China
Prior art keywords
comment
similarity
rubbish
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101106155A
Other languages
English (en)
Inventor
姜明
沈幸峰
陈婵
王兴起
汤景凡
张旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN2013101106155A priority Critical patent/CN103226576A/zh
Publication of CN103226576A publication Critical patent/CN103226576A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于语义相似度的垃圾评论过滤方法。现行的垃圾评论过滤都是基于规则、垃圾词库的匹配进行过滤。本发明首先本发明涉及一种基于语义相似度的垃圾评论过滤方法。现行的垃圾评论过滤都是基于规则、垃圾词库的匹配进行过滤。本发明首先使用规则简单过滤垃圾评论。其次,以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论。最后,以褒贬词汇相似度计算评论情感倾向性来识别情感评论。由于本发明设计了k轮语义相似度识别正常评论,所以能更容易识别有效评论,提高识别的准确性。

Description

基于语义相似度的垃圾评论过滤方法
技术领域
本发明涉及一种垃圾评论过滤方法,具体是一种基于语义相似度的垃圾评论过滤方法。
背景技术
互联网的发展与普及深刻地改变了人们的生活和思维方式,网络已经成为当今人们获取知识、发布信息、交流沟通的主要工具。对于当今视频网站、博客、微博、电子商务等互动式模式的发展,使得学术界和互联网企业界对于评论中信息的挖掘越来越关注。评论中蕴含有很大的信息量,商品评论可以分析得出评论者对商品的购买表示值得还是不值得,视频的评论可以反映观看者对于视频的态度或者情感表达,博文的评论可以反映评论者对博文的观点以及对博主的情感表达。
每天大量的垃圾评论被网友、商家、不良分子发表,严重影响用户对于评论信息的浏览,阻碍评论信息的挖掘,有效的评论分类可以帮助提高挖掘的正确性和准确率。
发明内容
本发明针对现有技术的不足,提供一种基于语义相似度的评论分类方法。
本发明方法具体包括以下步骤:
(1)网络爬虫抓取视频的标题、标签、评论等文字信息。
(2)对文字信息进行中文分词并过滤停用词。
(3)使用规则简单过滤垃圾评论。
(4)以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论。
所述的网络爬虫抓取视频的标题、标签、评论等文字信息,包括如下步骤:
A)在数据库中建立一张表VideoInf,包含InfId、Url、Title、Tag这4个字段,其中InfId为主键;建立另一张表VideoCom,包含ComId,InfId,Comment这3个字段,ComId为主键,InfId为外键。
B)分析视频网站新闻频道首页的源代码,利用正则表达式获取URL保存到队列中。
C)队列中获取一个URL,如果是视频播放地址,则将源码中对应的标题、标签存入VIdeoInf表中,将评论内容及相应视频的InfId存入VideoCom表中。如果是普通页面,重复B。
所述的对文字信息进行中文分词并过滤停用词,包括如下步骤:
D)用户从VIdeoInf表中获取一个视频,将其的标题、标签、评论使用中科院ICTCLAS进行分词。
E)对分完词的序列过滤停用词。
所述的使用规则简单过滤垃圾评论,包括如下步骤:
F)首先对于评论中的链接、电话、QQ、邮箱等信息分别用WEBSITE、TELEPHONE、QQNUM、EMAIL等专有词替换。
G)分析评论语料,定义一个垃圾关键词库。计算评论中中英文字符与非规则字符的比率                                               
Figure 2013101106155100002DEST_PATH_IMAGE002
H)若评论中多个词在垃圾关键词库中或者比率
Figure 306408DEST_PATH_IMAGE002
大于设定阈值,则认为是垃圾评论。
所述的以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论,包括如下步骤:
I)根据视频的标题、标签建立视频的主题特征向量。
J)根据评论建立该条评论的特征向量。
K)根据HowNet词语相似度计算主题特征向量与评论特征向量的文本相似度,如果大于设定阈值则为正常评论,加入正常评论集合N中。
L)对集合N的词语进行统计词频,分别对每个词进行分析并更新主题特征词权重,可以分为四类,分别是主题特征词、主题特征词的语义相关词、高频词、无关词。
M)重复执行步骤K、L,直到步骤K)没有正常评论可以识别则结束,而将未识别的评论定义为垃圾评论。
本发明的有益效果:
第一,由于本发明设计了k轮识别正常评论,所以能有效提高识别正常评论的正确率。
第二,由于本发明设计了词语语义相似度来计算文本相似度,所以能更有效地提高评论与主题的相似度,识别更多的正常评论。
附图说明
图1为系统流程图;
图2为评论分类流程图;
图3为主题特征词权重更新流程图;
具体实施方式
下面结合附图,对本发明实现评论分类所采取的技术方案做进一步说明:
1、在数据库中建立一张表VideoInf,包含InfId、Url、Title、Tag这4个字段,其中InfId为主键,Url为视频的播放地址,Title为视频的标题,Tag为视频的标签;建立另一张表VideoCom,包含ComId,InfId,Comment这3个字段,ComId为主键,InfId为外键。ComId为评论的ID,Comment为视频的内容。
2、下面以优酷为例,获取优酷视频网站的新闻类视频信息。1)获取抓取种子URL的源代码,将普通页面的URL保存到普通页面队列,视频播放URL保存到文件下载队列;2)从普通页面队列中获取一个URL,并重复1);3)从文件下载队列中获取一个URL,并获取该页面的源代码,通过正则表达式获取视频的标题、标签、评论信息,并存入VideoInf、VideoCom数据库表中。
3、根据图1所示,用户从VideoInf表中获取一个视频,将其标题、标签、评论使用中科院ICTCLAS进行分词并过滤停用词,使用TF*IDF计算标题、标签、评论中特征词的权重,标题、标签建立主题特征向量,评论建立评论特征向量。
4、对评论中的链接、电话、QQ、邮箱信息分别用WEBSITE、TELEPHONE、QQNUM、EMAIL专有词替换;分析评论语料,定义一个垃圾关键词库;计算评论中中英文字符与非规则字符的比率
Figure 911964DEST_PATH_IMAGE002
;若评论中多个词属于垃圾关键词库,则认为该条评论属于垃圾评论。若比率
Figure 629384DEST_PATH_IMAGE002
大于设定阈值,则认为该评论属于垃圾评论。否则属于未知评论。
5、根据图2、3所示,1)将步骤3中分析得到的主题特征向量、评论特征向量计算评论与主题的文本相似度。若该相似度大于设定阈值,则认为属于正常评论并将其放入正常评论集合,否则将该评论放入未知评论集合。2)统计正常评论集中特征词的词频,并分析特征词。3)特征词分为四类,分别是主题特征词、主题特征词的近义词、高频词、无关词。若是主题特征词、主题特征词近义词、高频词,则更新主题特征词及其权重。4)重复1)、2)、3),直到该轮没有正常评论可以识别则停止过滤。将未识别的评论定义为垃圾评论。

Claims (5)

1. 基于语义相似度的垃圾评论过滤方法,通过对评论特征词与主题特征词的语义相似度计算扩充评论与主题的文本相似度,来提高有效评论的识别率,其特征在于包括如下步骤:
(1)网络爬虫抓取视频的文字信息,所述的文字信息包括标题、标签和评论;
(2)对文字信息进行中文分词并过滤停用词;
(3)使用规则简单过滤垃圾评论;
(4)以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论。
2.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:网络爬虫抓取视频的文字信息,包括如下步骤:
A)在数据库中建立一张表VideoInf,包含InfId、Url、Title、Tag这4个字段,其中InfId为主键;建立另一张表VideoCom,包含ComId,InfId,Comment这3个字段,ComId为主键,InfId为外键;
B)分析视频网站新闻频道首页的源代码,利用正则表达式获取URL保存到队列中;
C)队列中获取一个URL,如果是视频播放地址,则将源码中对应的标题、标签存入VIdeoInf表中,将评论内容及相应视频的InfId存入VideoCom表中;如果是普通页面,重复B)。
3.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:对文字信息进行中文分词并过滤停用词,包括如下步骤:
D)用户从VIdeoInf表中获取一个视频,将其标题、标签、评论使用中科院ICTCLAS进行分词;
E)对分完词的序列过滤停用词。
4.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:使用规则简单过滤垃圾评论,包括如下步骤:
F)首先对于评论中的链接、电话、QQ、邮箱信息分别用WEBSITE、TELEPHONE、QQNUM、EMAIL专有词替换;
G)分析评论语料,定义一个垃圾关键词库;计算评论中中英文字符与非规则字符的比率                                               
H)若评论中多个词在垃圾关键词库中或者比率
Figure 583554DEST_PATH_IMAGE002
大于设定阈值,则认为是垃圾评论。
5.根据权利要求1所述的基于语义相似度的垃圾评论过滤方法,其特征是:以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论,包括如下步骤:
I)根据视频的标题、标签建立视频的主题特征向量;
J)根据评论建立该条评论的特征向量;
K)根据HowNet词语相似度计算主题特征向量与评论特征向量的文本相似度,如果大于某个阈值则为正常评论,加入正常评论集合N中;
L)对集合N的词语进行统计词频,分别对每个词进行分析并更新主题特征词权重,可以分为四类,分别是:主题特征词、主题特征词的语义相关词、高频词、无关词;
M)重复执行步骤K)、L),直到k轮识别结束。
CN2013101106155A 2013-04-01 2013-04-01 基于语义相似度的垃圾评论过滤方法 Pending CN103226576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101106155A CN103226576A (zh) 2013-04-01 2013-04-01 基于语义相似度的垃圾评论过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101106155A CN103226576A (zh) 2013-04-01 2013-04-01 基于语义相似度的垃圾评论过滤方法

Publications (1)

Publication Number Publication Date
CN103226576A true CN103226576A (zh) 2013-07-31

Family

ID=48837022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101106155A Pending CN103226576A (zh) 2013-04-01 2013-04-01 基于语义相似度的垃圾评论过滤方法

Country Status (1)

Country Link
CN (1) CN103226576A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN104933191A (zh) * 2015-07-09 2015-09-23 广东欧珀移动通信有限公司 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN105279146A (zh) * 2014-06-30 2016-01-27 邻客音公司 针对短不相关文本的检测的上下文感知方法
CN105357586A (zh) * 2015-09-28 2016-02-24 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法
CN106777341A (zh) * 2017-01-13 2017-05-31 广东欧珀移动通信有限公司 信息处理方法、装置及计算机设备
CN106844349A (zh) * 2017-02-14 2017-06-13 广西师范大学 基于协同训练的垃圾评论识别方法
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
US9755616B2 (en) 2014-06-30 2017-09-05 Huawei Technologies Co., Ltd. Method and apparatus for data filtering, and method and apparatus for constructing data filter
CN107220236A (zh) * 2017-05-23 2017-09-29 武汉朱雀闻天科技有限公司 一种确定疑似裸贷学生的方法及装置
CN107256214A (zh) * 2017-06-30 2017-10-17 联想(北京)有限公司 一种垃圾信息判断方法和装置以及一种服务器集群
CN109190104A (zh) * 2018-06-15 2019-01-11 口口相传(北京)网络技术有限公司 标签短语处理和相似度计算方法及装置,电子和存储设备
CN109618236A (zh) * 2018-12-13 2019-04-12 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN109819280A (zh) * 2017-11-22 2019-05-28 上海全土豆文化传播有限公司 弹幕展示方法及装置
CN109948138A (zh) * 2017-12-19 2019-06-28 优酷网络技术(北京)有限公司 一种评论处理方法及系统
CN110019681A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论内容过滤方法及系统
CN111737455A (zh) * 2019-12-02 2020-10-02 北京京东尚科信息技术有限公司 文本识别方法、装置、电子设备和介质
CN112966173A (zh) * 2019-12-13 2021-06-15 北京达佳互联信息技术有限公司 一种用于信息评论的分类操作方法及装置
WO2021139107A1 (zh) * 2020-01-10 2021-07-15 平安科技(深圳)有限公司 情感智能识别方法、装置、电子设备及存储介质
CN113656580A (zh) * 2021-08-12 2021-11-16 北京锐安科技有限公司 垃圾评论的识别方法、装置、设备及介质
CN114840776A (zh) * 2022-07-04 2022-08-02 北京拓普丰联信息科技股份有限公司 一种数据发布源收录的方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109491A1 (en) * 2006-11-03 2008-05-08 Sezwho Inc. Method and system for managing reputation profile on online communities
CN102722580A (zh) * 2012-06-07 2012-10-10 杭州电子科技大学 一种下载视频网站动态生成视频评论的方法
CN102880674A (zh) * 2012-09-10 2013-01-16 杭州电子科技大学 基于视频网站的主题类视频自动采集方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109491A1 (en) * 2006-11-03 2008-05-08 Sezwho Inc. Method and system for managing reputation profile on online communities
CN102722580A (zh) * 2012-06-07 2012-10-10 杭州电子科技大学 一种下载视频网站动态生成视频评论的方法
CN102880674A (zh) * 2012-09-10 2013-01-16 杭州电子科技大学 基于视频网站的主题类视频自动采集方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刁宇峰: "基于LDA模型的博客垃圾评论发现", 《中文信息学报》 *
邓冰娜: "面向博客的垃圾评论识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN104978320B (zh) * 2014-04-02 2018-11-02 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN105279146A (zh) * 2014-06-30 2016-01-27 邻客音公司 针对短不相关文本的检测的上下文感知方法
CN105279146B (zh) * 2014-06-30 2018-06-05 微软技术许可有限责任公司 针对短不相关文本的检测的上下文感知方法
US10037320B2 (en) 2014-06-30 2018-07-31 Microsoft Technology Licensing, Llc Context-aware approach to detection of short irrelevant texts
US9755616B2 (en) 2014-06-30 2017-09-05 Huawei Technologies Co., Ltd. Method and apparatus for data filtering, and method and apparatus for constructing data filter
CN104462378B (zh) * 2014-12-09 2017-11-21 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN104933191A (zh) * 2015-07-09 2015-09-23 广东欧珀移动通信有限公司 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN105357586B (zh) * 2015-09-28 2018-12-14 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN105357586A (zh) * 2015-09-28 2016-02-24 北京奇艺世纪科技有限公司 视频弹幕过滤方法及装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN106708966B (zh) * 2016-11-29 2023-04-25 中国计量大学 基于相似度计算的垃圾评论检测方法
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法
CN106777341A (zh) * 2017-01-13 2017-05-31 广东欧珀移动通信有限公司 信息处理方法、装置及计算机设备
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN106844685B (zh) * 2017-01-26 2020-07-28 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN106844349B (zh) * 2017-02-14 2019-10-18 广西师范大学 基于协同训练的垃圾评论识别方法
CN106844349A (zh) * 2017-02-14 2017-06-13 广西师范大学 基于协同训练的垃圾评论识别方法
CN107220236A (zh) * 2017-05-23 2017-09-29 武汉朱雀闻天科技有限公司 一种确定疑似裸贷学生的方法及装置
CN107256214B (zh) * 2017-06-30 2020-09-25 联想(北京)有限公司 一种垃圾信息判断方法和装置以及一种服务器集群
CN107256214A (zh) * 2017-06-30 2017-10-17 联想(北京)有限公司 一种垃圾信息判断方法和装置以及一种服务器集群
CN109819280A (zh) * 2017-11-22 2019-05-28 上海全土豆文化传播有限公司 弹幕展示方法及装置
CN110019681A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论内容过滤方法及系统
CN109948138A (zh) * 2017-12-19 2019-06-28 优酷网络技术(北京)有限公司 一种评论处理方法及系统
CN110019681B (zh) * 2017-12-19 2022-05-17 阿里巴巴(中国)有限公司 一种评论内容过滤方法及系统
CN109190104A (zh) * 2018-06-15 2019-01-11 口口相传(北京)网络技术有限公司 标签短语处理和相似度计算方法及装置,电子和存储设备
CN109618236A (zh) * 2018-12-13 2019-04-12 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN111737455A (zh) * 2019-12-02 2020-10-02 北京京东尚科信息技术有限公司 文本识别方法、装置、电子设备和介质
CN112966173A (zh) * 2019-12-13 2021-06-15 北京达佳互联信息技术有限公司 一种用于信息评论的分类操作方法及装置
CN112966173B (zh) * 2019-12-13 2024-02-27 北京达佳互联信息技术有限公司 一种用于信息评论的分类操作方法及装置
WO2021139107A1 (zh) * 2020-01-10 2021-07-15 平安科技(深圳)有限公司 情感智能识别方法、装置、电子设备及存储介质
CN113656580A (zh) * 2021-08-12 2021-11-16 北京锐安科技有限公司 垃圾评论的识别方法、装置、设备及介质
CN114840776A (zh) * 2022-07-04 2022-08-02 北京拓普丰联信息科技股份有限公司 一种数据发布源收录的方法、装置、电子设备及存储介质
CN114840776B (zh) * 2022-07-04 2022-09-20 北京拓普丰联信息科技股份有限公司 一种数据发布源收录的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103226576A (zh) 基于语义相似度的垃圾评论过滤方法
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
Venugopalan et al. Exploring sentiment analysis on twitter data
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN108241667A (zh) 用于推送信息的方法和装置
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN104268175B (zh) 一种数据搜索的装置及其方法
CN109902179A (zh) 基于自然语言处理的筛选电商垃圾评论的方法
CN102207961B (zh) 一种网页自动分类方法及装置
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN102646132B (zh) 宽带用户属性识别方法和装置
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN109255027A (zh) 一种电商评论情感分析降噪的方法和装置
CN103631963B (zh) 一种基于大数据的关键词优化处理方法及装置
CN104424308A (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN102262625A (zh) 网页关键词提取方法及装置
CN103177036A (zh) 一种标签自动提取方法和系统
CN106033462A (zh) 一种新词发现方法及系统
CN104102681A (zh) 一种微博关键事件获取方法和装置
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN103577405A (zh) 基于兴趣分析的微博博主社区分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130731