CN106844349A - 基于协同训练的垃圾评论识别方法 - Google Patents
基于协同训练的垃圾评论识别方法 Download PDFInfo
- Publication number
- CN106844349A CN106844349A CN201710078482.6A CN201710078482A CN106844349A CN 106844349 A CN106844349 A CN 106844349A CN 201710078482 A CN201710078482 A CN 201710078482A CN 106844349 A CN106844349 A CN 106844349A
- Authority
- CN
- China
- Prior art keywords
- data
- comment
- training
- classification
- comment spam
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于协同训练的垃圾评论识别方法,将垃圾评论分为显式垃圾评论和隐式垃圾评论两大类,对于显式垃圾评论采用基于规则的方法筛选出来,对于隐式垃圾评论在自动识别的方法上,采用AdaBoost和SVM两个分类器对一条评论均进行识别训练,最终通过Co‑Training协同训练进一步判断其是否是垃圾评论,这样不仅提升分类的精度,同时也保证了分类效率的垃圾评论分类方法。
Description
技术领域
本发明涉及计算机机器学习技术领域,具体涉及一种基于协同训练的垃圾评论识别方法。
背景技术
机器学习(MachineLearning,ML)是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而数据挖掘是奠定机器学习的理论基础之一,数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程,面向评论的数据挖掘一直以来备受研究人员的关注。
社交网络是以互动为基础,通过实名或非实名的方式在网络平台上构建的一种社会关系网络服务。随着社交网络的发展,社交网络中存在着大量的垃圾评论。在社交网络中,垃圾评论一般分为显式垃圾评论和隐式垃圾评论两种:显式垃圾评论主要有超级链接、随机字符、特殊符号等;隐式垃圾评论主要是指与微博信息不相关的文本评论。垃圾评论的存在不仅浪费网络资源,而且还严重干扰到研究人员在数据挖掘面向评论的工作,对垃圾评论识别的方法研究十分的必要。
发明内容
本发明所要解决的技术问题是现有社交网络中存在大量垃圾评论的问题,提供一种基于协同训练的垃圾评论识别方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于协同训练的垃圾评论识别方法,包括如下步骤:
步骤1、获取社交网络中的原文、评论和发布者这三种数据,并将所获取的数据划分为训练集、测试集和添加集;
步骤2、对所有数据进行预处理,即首先删除数据中的噪声数据,接着对去除噪声数据后的数据进行中文分词,最后滤除分词结果中的停用词;
步骤3、对训练集中的数据的评论词组和特征词汇进行基于同义词词林计算相似度计算,并将结果送入AdaBoost分类器,去训练AdaBoost分类器;其中特征词汇由发布者信息词组和社交网站的特有词汇共同组成;
步骤4、对训练集中的数据的评论词组和原文词组转化成特征向量,且在提取到的特征中进行特征选择,并将结果送入SVM分类器,去训练SVM分类器;
步骤5、从添加集中随机取出一定条数的数据构成临时集,并将临时集分别通过训练好的AdaBoost分类器和SVM分类器,对数据进行分类预测;
步骤6、若两分类预测结果一致,则把临时集中的数据按分类预测结果添加到训练集中,并转至步骤3,直至AdaBoost分类器的F测试值收敛、或SVM分类器的F测试值收敛、或添加集中无数据为止;若两分类预测结果不一致,则舍弃临时集中的数据,并转至步骤5,直至添加集中无数据为止;
步骤7、分别使用步骤6所得到的AdaBoost分类器和SVM分类器对测试集中的数据进行分类预测;当两分类预测结果一致时,则输出该分类预测结果;当两分类预测结果不一致时,则输出置信度高的分类预测结果;由此完成垃圾评论的识别。
在步骤1与步骤2之间,还进一步包括显式垃圾评论的过滤步骤,即根据预定的显式垃圾评论的判定规则,对所获取的评论数据中的显式垃圾评论进行过滤。
步骤1中,训练集中包含的数据的条数少于测试集包含的数据的条数,测试集包含的数据的条数少于添加集中所包含的数据的条数。
步骤1中,将所有数据中的10%的数据构成训练集,将所有数据中的20%的数据构成测试集,将所有数据中的70%的数据构成添加集。
与现有技术相比,本发明具有如下特点:
(1)在构造AdaBoost分类器时,采用了基于同义词词林相似度计算方法,并构造了与评论词组做相似度对比的特征词汇库。构造的词汇库不仅考虑到了评论者对于该条微博的情感强度,还考虑到了评论者对于微博作者的评论以及网络中层出不穷的特有词汇,有利于提高垃圾评论识别的精确度。
(2)采用两个完全不同的AdaBoost分类器和基于支持向量机SVM的分类器进行协同训练的算法,不仅可以减轻微博评论样本数据标记的工作量,又可以利用已有分类器对未标记数据进行预测,将两个分类器预测结果一样的未标注样本转化为已标注样本,从而训练出更强的分类器,获得更高效的学习模型。
(3)在显式垃圾评论识别阶段,设置了基于规则的识别方法,即一条评论中,特殊符号、特殊字符、超级链接及随机字符等占该条评论字长的50%及以上的,我们就把这条评论定义为显示垃圾评论。
附图说明
图1为本发明基于协同训练的微博垃圾评论识别方法的整体框架图。
图2为基于同义词词林相似度计算构造的AdaBoost分类器的流程图。
图3为基于支持向量机(SVM)分类方法的流程图。
图4为基于Co-Training协同训练的训练流程图。
具体实施方式
下面以微博中的垃圾评论为例,对本发明进行进一步详细说明:
一种基于协同训练的垃圾评论识别方法的整体框架图如图1所示。
由于微博及其评论存在140个字符的限制,文本内容短小,但评论数据庞大而各种网络词汇有层出不穷的特点,本发明设计一种微博垃圾评论识别方法,采用Co-Training协同训练算法,构造AdaBoost和SVM两种分类器,在10%有标注的训练数据上分类训练两个分类器,然后利70%无标注的大量数据作为添加集,用于对分类器进行协同训练,最后用20%有标注的数据作为测试集。在提高分类精度的同时,有节省了大量的样本标注工作。
(1)实验数据获取阶段:
通过新浪微博提供的API,采用爬虫方式来获取本发明所需的微博原文,微博评论和微博发布者信息三种实验数据,并将10%数据设置为有标注的,作为训练集,20%数据设置为有标注的,作为测试集,70%数据设置为无标注的,作为添加集。
(2)显式垃圾评论过滤阶段:
一条评论中,存在特殊符号、特殊字符、超级链接及随机字符等占该条评论字长的50%及50%以上的,我们就把它筛选出来,判断为显式垃圾评论。
(3)数据预处理阶段:
(3.1)微博评论文本清理:
分析微博评论文本中可能包含的噪声数据,并对其进行清理。URL一般是网页、音频、视频的集合,本发明重点在文本数据,所以将超链接删除;日期标签对于微博垃圾评论的识别并没有多大影响,故将日期标签过滤掉;微博账户名称并没有实际的意义,故将评论中大量的@微博账户名滤掉掉;去除“转发”“评论”等没有实际意义的标记符号。
本实施例的研究内容旨在关注微原文本类的信息,所以我们通常对URL、日期标签、@微博账户名滤掉掉、“转发”“评论”等没有实际意义的标记符号进行清理,只保留微博的纯文本信息。
(3.2)中文分词和停用词处理:
对文本进行分类之前,把文本表示成计算能够识别的形式是必须要做的工作,第一步就是中文分词,中文分词就是将一串汉字字符串通过分词算法分割成一个个的词语,便于计算机理解计算。经过中文分词以后,通过分析分词结果可以发现,分词结果中有许多出现频繁而且又没有实际含义的停用词,这些词被统称为停用词。停用词包括了助词、副词、介词、冠词、连接词、代词等,通常并没有实际的意义。停用词不仅对文本没有区分作用,而且有会干扰关键词,增加分类时间,降低系统的效率和分类的准确率,如常见的“的”、“在”、“而且”、“吗”、“了”、“或”等等。停用词处理就是在文本预处理过程中通常滤除这些无意义的词语。
本发明所采用的分词及去停用词的工具是IKAnalyzer。IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包,这里使用的是IKAnalyzer 2012。
(4)特征词汇库构建阶段:
特征词汇库是由来自微博发布者首页的微博认证信息的微博作者信息和微博原文经过分词和去停词得到的词组。在大连理工大学信息检索实验室的情感词汇本体中保留情感强度大于5的情感词,我们在此基础上将预处理后的微博发布者信息词组和收集到的微博特有词汇(“蓝瘦”“香菇”等)共同组成特征词汇库。
(5)训练阶段:
(5.1)基于同义词词林相似度计算构造的AdaBoost分类器的训练阶段是,利用10%有标注的训练数据预处理后,得到的评论词组和特征词汇库通过基于同义词词林计算相似度计算,将结果送入AdaBoost分类器,训练分类器。
(5.2)基于支持向量机(SVM)分类方法训练阶段是,同样利用10%有标注的训练数据预处理后,得到的评论词组和微博原文预处理后得到的词组,转化成特征向量,在提取到的特征中进行特征选择,结果送入SVM分类器,训练分类器。
(5.3)基于微博垃圾评论的Co-Training算法训练阶段是,从70%无标注数据添加集U中取出K个数据作为临时集合T,分别通过步骤(5.1)和(5.2)的分类器,对该数据进行分类预测,判断两预测结果是否相等,相等则把数据按预测结果进行标注添加到数据集X中,更新有标注训练数据集,然后重复步骤(5.1)和(5.2),对两分类器进行训练。从U中补充数据到T,直到分类器的F测试值收敛或U中无数据为止。其中F测试值是指准确率、召回率、F值中的F值,F值=正确率*召回率*2/(正确率+召回率)(F值即为正确率和召回率的调和平均值),F值是综合准确率和召回率二者指标的评估指标,用于综合反映整体的指标。
(6)测试阶段:
对于20%测试数据,使用步骤(5.3)得到的两分类器进行分类,然后判断该条数据的分类结果,当两分类器判断结果一致时,输出该结果,当两分类器判断结果不一致时,以置信度高的判断结果为准。
Co-Training是一种半监督机器学习的方法,是介于监督学习和非监督学习之间的学习方式,它的学习数据既包括已标注数据也包括未标注数据,不但可以利用大量容易获得的未标注数据,减轻标注样本的工作量,还可以利用已标注样本获得更高效的学习模型。从这个角度出发,利用基于Co-Training协同训练算法,我们首先要构建两个不同的分类器,利用学习数据不断的训练分类器,寻求更高效的学习模型。
本发明对于同一条评论,通过基于同义词词林相似度计算方法计算出相似度值,并采用AdaBoost(Adaptive Boosting)分类器来判断其是否为垃圾评论;同时通过基于支持向量机SVM(Support Vector Machine)分类器,最终使用分类器对待测文档分类测试来判断其是否为垃圾评论。该方法同时构造了AdaBoost和SVM两个完全不同的分类器,最后将两个分类器通过基于微博垃圾评论的Co-Training算法进行协调训练,最终判断其是否为垃圾评论。
方法A:基于同义词词林相似度计算构造的AdaBoost分类器的流程图如图2所示。
对于微博作者信息,我们进行预处理后,分别得到作者信息词组,得到的词组再和情感词汇本体中情感强度大于5的情感词及微博特有词汇(“蓝瘦”“香菇”等)共同组成特征词汇库。对于微博评论数据,我们采用基于规则的方法筛选出显式垃圾评论后,对剩余相关评论进行预处理,得到相关评论词组。我们将特征词汇库和相关评论词组通过同义词词林相似度计算并用AdaBoost分类器判断分类结果。
同义词词林共提供了5层编码,第1级用大写英文字母表示;第2级用小写英文字母表示;第3级用二位十进制整数表示;第4级用大写英文字母表示;第5级用二位十进制整数表示。同义词词林按照树状的层次结构把所有收录的词条组织到一起,把词汇分成大、中、小3类,大类有12个,中类有97个,小类有1400个。每个小类里都有很多的词,这些词又根据词义的远近和相关性分成了若干个词群。每个词群中的词语又进一步分成了若干个行,同一行的词语要么词义相同或十分接近,要么词义有很强的相关性。由于第5级有的行是同义词,有的行是相关词,有的行只有一个词,分类结果需要特别说明,所以有必要再增加=、#、@三种标记。=代表同义,表示相同、十分接近;#代表相关表示同类、相关词语;@代表独立,表示只有一个词,它在词典中既没有同义词也没有相关词。具体编码表如表1所示。
计算词语相似度,首先要计算义项相似度。基于同义词词林的义项相似度的主要思想是:基于同义词词林结构,利用词语中义项的编号,根据两个义项的语义距离,计算出义项相似度。首先判断在同义词林中作为叶子节点的两个义项在哪一层分支,即两个义项的编号在哪一层不同。从第1层开始判断,相同则乘1,否则在分支层乘以相应的系数,然后乘以调节参数其中n是分支层的节点总数,该调节参数的功能是把义项相似度控制在[0,1]之间。词语所在树的密度,分支的多少直接影响到义项的相似度,密度较大的义项相似度的值相比密度小的相似度的值精确。再乘以一个控制参数(n-k+1)/n,其中n是分支层的节点总数,k是两个分支间的距离。这样把原本计算出的只对应在几点的值细化,精确计算结果。
义项相似度Sim计算方法如下:
(1)若两个义项不在同一棵树上:Sim(A,B)=f;
(2)若两个义项在同一棵树上:
(2.1)若在第2层分枝,系数为a,
(2.2)若在第3层分枝,系数为b,
(2.3)若在第4层分枝,系数为c,
(2.4)若在第5层分枝,系数为d,
层数初值一般设置为a=0.65,b=0.8,c=0.9,d=0.96,e=0.5,f=0.1。计算的两个义项的编号相同,即在同一行内,则考虑用编号计算义项的相似度:当编号相同且末尾号为=时,相似度为1;当编号相同而只有末尾号为#时,直接把定义的系数e赋给结果。当编号的尾号为@时,则代表这个词既没有同义词也没有相关词,在一个编号中只有一个词,所以不予考虑。
在计算词语相似度时,把两个词语的义项分别两两计算,取最大值作为两个词语的相似度值。
AdaBoost的算法步骤如表2所示,给定n个有标注训练样本(X,Y),迭代次数T,其中,Y∈{0,1},0表示正样本即相关评论,1表示负样本即垃圾评论。开始时,每个样本对应的权重是相同的,初始化样本权重为1/n,其中n为样本个数,在此样本分布下训练出一个弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被突出出来,从而得到一个新的样本分布。在新的样本分布下,再次对弱分类器进行训练,得到弱分类器。依次类推,经过T次循环,得到T个弱分类器,把这T个弱分类器按一定的权重叠加(boost)起来,得到最终想要的强分类器。
方法B:基于支持向量机(SVM)分类方法的流程图如图3所示。
对于微博原文,经过预处理,然后转化为文本特征,并相关评论词组转化成特征向量,对基于SVM分类方法所构造的分类器进行训练,用于判断分类结果。
在SVM理论中,原始的输入空间通过一个核函数映射到一个高维的内积空间,这个高维的空间称为特征空间,在这个空间中,构造一个最优分类超平面将分类器的泛化能力最大化,并保证最小的分类错误率。它包含三个核心思想:求最优分类面以取得较好的推广能力;提出软间隔的概念以解决线性不可分问题;引入核函数使解平面从线性扩展到非线性。所谓最优分类面就是要求分类面不但能将两类正确分开(训练错误率为0,经验风险最小),而且使分类间隔最大。
假设给定一组线性可分的训练数据集{xi,yi}(i=1,2,…,N),其中xi是第i个训练样本,yi是xi相应的类别号(0或1)。在n维空间中的线性判别函数为:g(x)=w·x+b,通过调整参数w和b的值将判别函数归一化,最后使得所有训练样本都满足:yi[(wT·xi)+b]≥1,i=1,2,...,N,两类间的分类间隔为2/||W||,为使间隔最大化也就是使||W||2最小。满足上式且使1/(2||W||2)最小的分类面就叫做最优分类超平面。当训练样本集不能被线性函数完全分开时,优化问题没有可行解,为了在训练样本线性不可分的情况下构造最优分类面,提出了在被错分的样本数目为最少的情况下构造最优分类面,即软间隔。出现被错分的样本,引入松弛变量,约束条件变为:yi[(wT·xi)+b]≥1-ξi,i=1,2,...,N,ξi≥0,引入拉格朗日因子ai对问题进行优化,获得最终的分类器:
基于Co-Training协同训练的训练流程图如图4所示。
对于有标注训练数据X,通过基于同义词词林相似度计算构造的AdaBoost分类器,得到分类器Ca;同时通过基于支持向量机(SVM)分类方法,得到分类器Cb,两分类器分别对同一未标注数据进行分类预测,若预测的分类结果相同,则将结果标注给该数据,并将该数据添加到有标注训练数据中。
基于微博垃圾评论的Co-Training算法如表3所示,我们已知分类方法A和分类方法B,有标注训练数据X,无标注训练数据U。迭代以下步骤,从无标注数据集U中取出K个数据作为临时集合T,在有标注数据集X上,分别使用方法A和方法B,训练有标注数据得到分类器Ca和Cb,分别使用分类器Xa和Xb对于无标注临时数据集T中的数据进行分类预测,分别得到结果Rad和Rbd,此时判断两结果是否相等,相等则把数据按预测结果进行标注添加到数据集X中,更新有标注数据集。
基于微博垃圾评论的测试算法如表4所示,对于测试样本S中,第i条测试数据,使用方法A,用分类器Ca得到分类结果Rai,同时使用方法B,用分类器Cb得到分类结果Rbi,然后判断该条数据的分类结果,当两分类器判断结果一致时,输出该结果,当两分类器判断结果不一致时,以置信度高的判断结果为准。
本发明将垃圾评论分为显式垃圾评论和隐式垃圾评论两大类,对于显式垃圾评论采用基于规则的方法筛选出来,对于隐式垃圾评论在自动识别的方法上,采用AdaBoost和SVM两个分类器对一条评论均进行识别训练,最终通过Co-Training协同训练进一步判断其是否是垃圾评论,这样不仅提升分类的精度,同时也保证了分类效率的垃圾评论分类方法。
Claims (4)
1.基于协同训练的垃圾评论识别方法,其特征是,包括如下步骤:
步骤1、获取社交网络中的原文、评论和发布者这三种数据,并将所获取的数据划分为训练集、测试集和添加集;
步骤2、对所有数据进行预处理,即首先删除数据中的噪声数据,接着对去除噪声数据后的数据进行中文分词,最后滤除分词结果中的停用词;
步骤3、对训练集中的数据的评论词组和特征词汇进行基于同义词词林计算相似度计算,并将结果送入AdaBoost分类器,去训练AdaBoost分类器;其中特征词汇由发布者信息词组和社交网站的特有词汇共同组成;
步骤4、对训练集中的数据的评论词组和原文词组转化成特征向量,且在提取到的特征中进行特征选择,并将结果送入SVM分类器,去训练SVM分类器;
步骤5、从添加集中随机取出一定条数的数据构成临时集,并将临时集分别通过训练好的AdaBoost分类器和SVM分类器,对数据进行分类预测;
步骤6、若两分类预测结果一致,则把临时集中的数据按分类预测结果添加到训练集中,并转至步骤3,直至AdaBoost分类器的F测试值收敛、或SVM分类器的F测试值收敛、或添加集中无数据为止;若两分类预测结果不一致,则舍弃临时集中的数据,并转至步骤5,直至添加集中无数据为止;
步骤7、分别使用步骤6所得到的AdaBoost分类器和SVM分类器对测试集中的数据进行分类预测;当两分类预测结果一致时,则输出该分类预测结果;当两分类预测结果不一致时,则输出置信度高的分类预测结果;由此完成垃圾评论的识别。
2.根据权利要求1所述的基于协同训练的垃圾评论识别方法,其特征是,在步骤1与步骤2之间,还进一步包括显式垃圾评论的过滤步骤,即根据预定的显式垃圾评论的判定规则,对所获取的评论数据中的显式垃圾评论进行过滤。
3.根据权利要求1所述的基于协同训练的垃圾评论识别方法,其特征是,步骤1中,训练集中包含的数据的条数少于测试集包含的数据的条数,测试集包含的数据的条数少于添加集中所包含的数据的条数。
4.根据权利要求3所述的基于协同训练的垃圾评论识别方法,其特征是,步骤1中,将所有数据中的10%的数据构成训练集,将所有数据中的20%的数据构成测试集,将所有数据中的70%的数据构成添加集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710078482.6A CN106844349B (zh) | 2017-02-14 | 2017-02-14 | 基于协同训练的垃圾评论识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710078482.6A CN106844349B (zh) | 2017-02-14 | 2017-02-14 | 基于协同训练的垃圾评论识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844349A true CN106844349A (zh) | 2017-06-13 |
CN106844349B CN106844349B (zh) | 2019-10-18 |
Family
ID=59128983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710078482.6A Expired - Fee Related CN106844349B (zh) | 2017-02-14 | 2017-02-14 | 基于协同训练的垃圾评论识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844349B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562728A (zh) * | 2017-09-12 | 2018-01-09 | 电子科技大学 | 基于结构和文本信息的社交媒体短文本过滤方法 |
CN108153733A (zh) * | 2017-12-26 | 2018-06-12 | 北京小度信息科技有限公司 | 评论质量的分类方法及装置 |
CN108304509A (zh) * | 2018-01-19 | 2018-07-20 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
CN109145187A (zh) * | 2018-07-23 | 2019-01-04 | 浙江大学 | 基于评论数据的跨平台电商欺诈检测方法和系统 |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
CN109902179A (zh) * | 2019-03-04 | 2019-06-18 | 上海宝尊电子商务有限公司 | 基于自然语言处理的筛选电商垃圾评论的方法 |
CN110020147A (zh) * | 2017-11-29 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 模型生成、评论识别的方法、系统、设备及存储介质 |
CN110223045A (zh) * | 2019-06-13 | 2019-09-10 | 谢昱 | 一种多功能信息化古籍书影管理平台及方法 |
CN110516058A (zh) * | 2019-08-27 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 一种对垃圾分类问题的训练方法及训练装置 |
CN112559685A (zh) * | 2020-12-11 | 2021-03-26 | 芜湖汽车前瞻技术研究院有限公司 | 汽车论坛垃圾评论识别方法 |
CN113127640A (zh) * | 2021-03-12 | 2021-07-16 | 嘉兴职业技术学院 | 一种基于自然语言处理的恶意垃圾评论攻击识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020482A (zh) * | 2013-01-05 | 2013-04-03 | 南京邮电大学 | 一种基于关系的垃圾评论检测方法 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
CN105183715A (zh) * | 2015-08-31 | 2015-12-23 | 南京大学 | 一种基于词分布和文档特征的垃圾评论自动分类方法 |
US20160041958A1 (en) * | 2014-08-05 | 2016-02-11 | Linkedin Corporation | Leveraging annotation bias to improve annotations |
WO2016066228A1 (en) * | 2014-10-31 | 2016-05-06 | Longsand Limited | Focused sentiment classification |
CN106055633A (zh) * | 2016-05-30 | 2016-10-26 | 国家计算机网络与信息安全管理中心 | 一种中文微博主客观句分类方法 |
CN106294590A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种基于半监督学习的社交网络垃圾用户过滤方法 |
-
2017
- 2017-02-14 CN CN201710078482.6A patent/CN106844349B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020482A (zh) * | 2013-01-05 | 2013-04-03 | 南京邮电大学 | 一种基于关系的垃圾评论检测方法 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
US20160041958A1 (en) * | 2014-08-05 | 2016-02-11 | Linkedin Corporation | Leveraging annotation bias to improve annotations |
WO2016066228A1 (en) * | 2014-10-31 | 2016-05-06 | Longsand Limited | Focused sentiment classification |
CN104933191A (zh) * | 2015-07-09 | 2015-09-23 | 广东欧珀移动通信有限公司 | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 |
CN105183715A (zh) * | 2015-08-31 | 2015-12-23 | 南京大学 | 一种基于词分布和文档特征的垃圾评论自动分类方法 |
CN106055633A (zh) * | 2016-05-30 | 2016-10-26 | 国家计算机网络与信息安全管理中心 | 一种中文微博主客观句分类方法 |
CN106294590A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种基于半监督学习的社交网络垃圾用户过滤方法 |
Non-Patent Citations (1)
Title |
---|
黄铃等: "基于AdaBoost的微博垃圾评论识别方法", 《计算机应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562728A (zh) * | 2017-09-12 | 2018-01-09 | 电子科技大学 | 基于结构和文本信息的社交媒体短文本过滤方法 |
CN110020147A (zh) * | 2017-11-29 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 模型生成、评论识别的方法、系统、设备及存储介质 |
CN108153733B (zh) * | 2017-12-26 | 2021-07-09 | 北京星选科技有限公司 | 评论质量的分类方法及装置 |
CN108153733A (zh) * | 2017-12-26 | 2018-06-12 | 北京小度信息科技有限公司 | 评论质量的分类方法及装置 |
CN108304509A (zh) * | 2018-01-19 | 2018-07-20 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
CN108304509B (zh) * | 2018-01-19 | 2021-12-21 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
CN108647309B (zh) * | 2018-05-09 | 2021-08-10 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
CN109145187A (zh) * | 2018-07-23 | 2019-01-04 | 浙江大学 | 基于评论数据的跨平台电商欺诈检测方法和系统 |
CN109670041A (zh) * | 2018-11-29 | 2019-04-23 | 天格科技(杭州)有限公司 | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 |
CN109902179A (zh) * | 2019-03-04 | 2019-06-18 | 上海宝尊电子商务有限公司 | 基于自然语言处理的筛选电商垃圾评论的方法 |
CN110223045A (zh) * | 2019-06-13 | 2019-09-10 | 谢昱 | 一种多功能信息化古籍书影管理平台及方法 |
CN110516058A (zh) * | 2019-08-27 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 一种对垃圾分类问题的训练方法及训练装置 |
CN112559685A (zh) * | 2020-12-11 | 2021-03-26 | 芜湖汽车前瞻技术研究院有限公司 | 汽车论坛垃圾评论识别方法 |
CN113127640A (zh) * | 2021-03-12 | 2021-07-16 | 嘉兴职业技术学院 | 一种基于自然语言处理的恶意垃圾评论攻击识别方法 |
CN113127640B (zh) * | 2021-03-12 | 2022-11-29 | 嘉兴职业技术学院 | 一种基于自然语言处理的恶意垃圾评论攻击识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106844349B (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN108959252B (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN110020438B (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN109992782A (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN106919673A (zh) | 基于深度学习的文本情绪分析系统 | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
CN108460089A (zh) | 基于Attention神经网络的多元特征融合中文文本分类方法 | |
CN112417880A (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN110532563A (zh) | 文本中关键段落的检测方法及装置 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN109492678A (zh) | 一种集成浅层和深度学习的App分类方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN112784601A (zh) | 关键信息提取方法、装置、电子设备和存储介质 | |
CN115934951A (zh) | 一种网络热点话题用户情绪预测方法 | |
CN113988054B (zh) | 一种面向煤矿安全领域的实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191018 Termination date: 20210214 |
|
CF01 | Termination of patent right due to non-payment of annual fee |