CN117332084B - 一种适用于同时检测恶意评论和虚假新闻的机器学习方法 - Google Patents
一种适用于同时检测恶意评论和虚假新闻的机器学习方法 Download PDFInfo
- Publication number
- CN117332084B CN117332084B CN202311235587.XA CN202311235587A CN117332084B CN 117332084 B CN117332084 B CN 117332084B CN 202311235587 A CN202311235587 A CN 202311235587A CN 117332084 B CN117332084 B CN 117332084B
- Authority
- CN
- China
- Prior art keywords
- data
- malicious
- injury
- injury data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 208000027418 Wounds and injury Diseases 0.000 claims description 118
- 230000006378 damage Effects 0.000 claims description 118
- 208000014674 injury Diseases 0.000 claims description 118
- 238000012360 testing method Methods 0.000 claims description 21
- 230000002996 emotional effect Effects 0.000 claims description 12
- 206010063659 Aversion Diseases 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 17
- 230000000694 effects Effects 0.000 abstract description 10
- 238000012795 verification Methods 0.000 abstract description 2
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种适用于同时检测恶意评论和虚假新闻的方法,通过选取单独的恶意评论或虚假新闻检测中可能有效的可解释性参数集合以及对应的分类模型集合进行两两组合,并基于现有恶意评论资料集合A和虚假新闻资料集合B构成的合集C进行训练和验证,采用评估值=准确率+精确率+召回率+F1的评估指标对结果进行筛选,得到了一种可解释性参数与分类模型的优化组合,使其无论用于恶意评论还是虚假新闻的检测,都能获得较好的检测效果。
Description
技术领域
本发明涉及自然语言处理领域,尤其是指一种适用于同时检测英文恶意评论和虚假新闻的方法。
背景技术
在现代社会中,随着互联网和社交媒体的普及,恶意评论和虚假新闻的问题逐渐凸显出来。恶意评论可能会给个人和社会带来负面影响,而虚假新闻可能会误导公众,破坏信息传播的可信度。因此,针对恶意评论和虚假新闻的准确检测和识别成为了当今信息社会中的重要问题。以往的检测技术通常是通过建立敏感词库,通过模板匹配的方法来检测;近年来,随着人工智能技术的快速发展,已经有人尝试通过人工智能来检测这种恶意评论或是虚假新闻,但现有的检测技术存在以下缺陷:一是所选的模型参数不具有可解释性,不利于模型的持续改进以及一些要求模型检测效果高度可控的场景;二是现有的检测方法往往只针对一种情形有较好的效果,例如采用的某种模型、参数组合在检测恶意评论时准确率较高,但用于检测虚假新闻时,由于虚假新闻相较于恶意评论文本较长、不包括明显的敏感词等特性,导致检测效果不佳,克服这个缺陷的方法通常是对同一文本分别采用适用于恶意评论和虚假新闻的两种不同算法进行两次检测,但这又会导致检测成本过高。
因而,如何选择合适的可解释性参数与特定的机器算法模型相结合,使其在检测恶意评论和虚假新闻时,都能获得较好的检测效果,是当前亟待解决的问题。
发明内容
本发明是为了解决上述问题而进行的,目的在于需求一种可解释性参数与机器学习模型的优化组合,使其无论用于恶意评论还是虚假新闻的检测,都能获得较好的检测效果。
本发明为了实现上述目的,采用以下方案:
本发明第一方面提供了一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
一、构建现有恶意评论资料集合A和虚假新闻资料集合B
对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据;
对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据;
二、构建混合文本资料集合C
从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C;
三、资料清理
对集合C中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
四、待测试特征的提取
从集合C中提取出以下7种类别的待测试特征:
基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数6个特征;
情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;
词向量与段落向量特征类别c,包括由gensim模块提取出的50个Word2vec特征和50个Doc2vec特征;
BERT向量特征类别d,包括768个特征;
混合特征类别e,e为a,b两种类别的特征集合,包括15个特征;
混合特征类别f,f为a,b,c三种类别的特征集合,包括115个特征;
混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;
五、构建训练集和测试集
将集合C拆分为训练集和测试集两部分,其中测试集由相同数量的伤害数据和无伤害数据组成,训练集则为集合C排除测试集之后剩余的数据集合;
六、选择待测试的分类模型
选择LR、SVM、MLP、XGBoot 4种模型作为待测试的分类模型;
七、确定最优特征与分类模型的组合
基于步骤五的训练集和测试集,将a、b、c、d、e、f、g七组特征分别作为LR、SVM、MLP、XGBoot四个模型的输入特征进行训练和测试,获得28个评估值组成的评估值集合E={e1,e2,…,e28},其中每个评估值=准确率+精确率+召回率+F1,选取集合E中最大的值对应的特征类别和分类模型作为最优特征与分类模型的组合;
八、判断当前文本是否为恶意评论或虚假新闻
基于步骤七选取的最优特征与分类模型的组合,提取当前文本中对应的特征并输入对应训练后的分类模型,判断出当前文本是否为恶意评论或虚假新闻。
优选的,所述集合A包括以下7种数据:
恶意:含有恶意内容的评论;
严重恶意:恶意程度更加严重的评论内容;
淫秽:含有淫秽用语的评论内容;
威胁:含有威胁意图的评论内容;
侮辱:对目标有针对性侮辱的内容;
身分仇恨:针对目标的种族、身分带有仇恨攻击意图的内容;
非恶意:未含恶意或伤害意图的评论;
所述集合B包含有虚假新闻和真实新闻两种数据;
所述对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据,对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据包括:对集合A进行二分类,其中恶意、严重恶意、淫秽、威胁、侮辱、身份仇恨6种数据对应为伤害数据,非恶意数据对应为无伤害数据;对集合B进行二分类,其中虚假新闻对应为伤害数据,真实新闻对应为无伤害数据。
优选的,从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C包括:从集合A中抽取出δ笔伤害数据与δ笔无伤害数据构成集合A1,从集合B中抽取出δ笔伤害数据与δ笔无伤害数据构成集合B1,将A1与B1合并构成集合C。
优选的,步骤五中,测试集中的数据量为集合C的20%。
本发明第二方面提供了一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
一、构建现有恶意评论资料集合A和虚假新闻资料集合B
对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据;
对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据;
二、构建混合文本资料集合C
从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C;
三、资料清理
对集合C中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
四、文本特征的提取
从集合C中提取出以下4种类别的特征:
基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数6个特征;
情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;
词向量与段落向量特征类别c,包括由gensim模块提取出的50个Word2vec特征和50个Doc2vec特征;
BERT向量特征类别d,包括768个特征;
混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;
五、模型训练
将混合特征类别g包含的883个特征作为输入特征,基于集合C来训练SVM模型;
六、判断当前文本是否为恶意评论或虚假新闻
基于混合特征类别g提取当前文本中对应的883个特征并输入训练后的SVM模型,判断当前文本是否为恶意评论或虚假新闻。
优选的,所述集合A包括以下7种数据:
恶意:含有恶意内容的评论;
严重恶意:恶意程度更加严重的评论内容;
淫秽:含有淫秽用语的评论内容;
威胁:含有威胁意图的评论内容;
侮辱:对目标有针对性侮辱的内容;
身分仇恨:针对目标的种族、身分带有仇恨攻击意图的内容;
非恶意:未含恶意或伤害意图的评论;
所述集合B包含有虚假新闻和真实新闻两种数据;
所述对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据,对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据包括:对集合A进行二分类,其中恶意、严重恶意、淫秽、威胁、侮辱、身份仇恨6种数据对应为伤害数据,非恶意数据对应为无伤害数据;对集合B进行二分类,其中虚假新闻对应为伤害数据,真实新闻对应为无伤害数据。
优选的,从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C包括:从集合A中抽取出δ笔伤害数据与δ笔无伤害数据构成集合A1,从集合B中抽取出δ笔伤害数据与δ笔无伤害数据构成集合B1,将A1与B1合并构成集合C。
发明的作用与效果
本发明通过选取单独的恶意评论或虚假新闻检测中可能有效的可解释性参数集合以及对应的分类模型集合进行两两组合,并基于现有恶意评论资料集合A和虚假新闻资料集合B构成的合集C进行训练和验证,采用评估值=准确率+精确率+召回率+F1的评估指标对结果进行筛选,得到了一种可解释性参数与分类模型的优化组合,使其无论用于恶意评论还是虚假新闻的检测,都能获得较好的检测效果。
附图说明
图1为本发明实施例1的流程图;
图2为本发明实施例2的流程图。
具体实施方式
下面结合实施例对本发明做进一步说明。
本发明的实施例1:
如图1所示,本发明适用于同时检测恶意评论和虚假新闻的方法实现如下:
一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
一、构建现有恶意评论资料集合A和虚假新闻资料集合B
所述集合A包括以下7种数据:
恶意:含有恶意内容的评论;
严重恶意:恶意程度更加严重的评论内容;
淫秽:含有淫秽用语成分的评论内容;
威胁:含有威胁意图的评论内容;
侮辱:对目标有针对性侮辱的内容;
身分仇恨:针对目标的种族、身分带有仇恨攻击意图的内容;
非恶意:未含恶意或伤害意图的评论;
对集合A进行二分类,其中恶意、严重恶意、淫秽、威胁、侮辱、身份仇恨6种数据对应为伤害数据,非恶意数据对应为无伤害数据;
所述集合B包含有虚假新闻和真实新闻两种数据,对集合B进行二分类,其中虚假新闻对应为伤害数据,真实新闻对应为无伤害数据;
二、构建混合文本资料集合C
从集合A中抽取出δ笔伤害数据与δ笔无伤害数据构成集合A1,从集合B中抽取出δ笔伤害数据与δ笔无伤害数据构成集合B1,将A1与B1合并构成集合C;
三、资料清理
对集合C中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
四、待测试特征的提取
从集合C中提取出以下7种类别的待测试特征:
基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数6个特征;
情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;
词向量与段落向量特征类别c,包括由gensim模块提取出的50个Word2vec特征和50个Doc2vec特征;
BERT向量特征类别d,包括768个特征;
混合特征类别e,e为a,b两种类别的特征集合,包括15个特征;
混合特征类别f,f为a,b,c三种类别的特征集合,包括115个特征;
混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;
可以看到,上述7种类别的待测试特征共同的特点是都具有可解释性;
五、构建训练集和测试集
将集合C拆分为训练集和测试集两部分,其中测试集由相同数量的伤害数据和无伤害数据组成,且测试集中的数据量为集合C的20%,训练集则为集合C排除测试集之后剩余的数据集合;
六、选择待测试的分类模型
选择LR、SVM、MLP、XGBoot 4种模型作为待测试的分类模型;
七、确定最优特征与分类模型的组合
基于步骤五的训练集和测试集,将a,b,c,d,e,f,g七组特征分别作为LR/SVM/MLP/XGBoot模型的输入特征进行训练和测试,获得28组评估值组成的评估值集合E={e1,e2,…,e28},其中每个评估值=准确率+精确率+召回率+F1,选取集合E中最大的值对应的特征类别和分类模型作为最优特征与分类模型的组合;
八、判断当前文本是否为恶意评论或虚假新闻
基于步骤七选取的最优特征与分类模型的组合,提取当前文本中对应的特征并输入对应分类模型,判断出当前文本是否为恶意评论或虚假新闻。
这里的恶意评论资料集合A可以是数据建模与分析竞赛平台-Kaggle网站上的知名恶意评论分类竞赛(Toxic Comment Classification Challenge)所提供的数据集(Kaggle,2017)。虚假新闻资料集合B可以是Kaggle平台上的Fake and Real News Dataset(Ahmed et al.,2017,2018),内容由2016年间美国政治类的真实与虚假新闻文章所组成。
当采用上述数据集执行该实施例技术方案时,在步骤七获得了如表1所示的28组评估结果,可以看到,对于混合文本资料集合C而言,目前最好的特征类别与分类器组合是使用基础+情感+词向量与段落向量+BERT特征的所有特征类别组合(编号g),与其搭配的分类器为SVM分类器。
表1
基于上述实验结果,进一步可以得到本发明的实施例2:
如图2所示,本发明适用于同时检测恶意评论和虚假新闻的方法实现如下:
一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
一、构建现有恶意评论资料集合A和虚假新闻资料集合B
所述集合A包括以下7种数据:
恶意:含有恶意内容的评论;
严重恶意:恶意程度更加严重的评论内容;
淫秽:含有淫秽用语成分的评论内容;
威胁:含有威胁意图的评论内容;
侮辱:对目标有针对性侮辱的内容;
身分仇恨:针对目标的种族、身分带有仇恨攻击意图的内容;
非恶意:未含恶意或伤害意图的评论;
所述集合B包含有虚假新闻和真实新闻两种数据;
对集合A进行二分类,其中恶意、严重恶意、淫秽、威胁、侮辱、身份仇恨6种数据对应为伤害数据,非恶意数据对应为无伤害数据;对集合B进行二分类,其中虚假新闻对应为伤害数据,真实新闻对应为无伤害数据;
二、构建混合文本资料集合C
从集合A中抽取出δ笔伤害数据与δ笔无伤害数据构成集合A1,从集合B中抽取出δ笔伤害数据与δ笔无伤害数据构成集合B1,将A1与B1合并构成集合C;
三、资料清理
对集合C中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
四、文本特征的提取
从集合C中提取出以下4种类别的特征:
基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数6个特征;
情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;
词向量与段落向量特征类别c,包括由gensim模块提取出的50个Word2vec特征和50个Doc2vec特征;
BERT向量特征类别d,包括768个特征;
混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;
五、模型训练
将混合特征类别g包含的883个特征作为输入特征,基于集合C来训练SVM模型;
六、判断当前文本是否为恶意评论或虚假新闻
基于混合特征类别g提取当前文本中对应的883个特征并输入训练后的SVM模型,判断当前文本是否为恶意评论或虚假新闻。
基于以上实施例可以看到,本发明提供的检测方法可以仅用一套参数和算法的组合,就能够检测恶意评论和虚假新闻的混合文本,其手段是通过选取单独的恶意评论或虚假新闻检测中可能有效的可解释性参数集合以及对应的分类模型集合进行两两组合,并基于现有恶意评论资料集合A和虚假新闻资料集合B构成的合集C进行训练和验证,采用评估值=准确率+精确率+召回率+F1的评估指标对结果进行筛选,从而得到一种可解释性参数与分类模型的优化组合,使其无论用于恶意评论还是虚假新闻的检测,都能获得较好的检测效果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,其特征在于,所述方法包括以下步骤:
一、构建现有恶意评论资料集合A和虚假新闻资料集合B
在现有恶意评论资料集合A和虚假新闻资料集合B的基础上,
对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据,其中伤害数据对应于恶意评论,无伤害数据对应于非恶意评论;
对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据,其中伤害数据对应于虚假新闻,无伤害数据对应于真实新闻;
二、构建混合文本资料集合C
从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C;
三、资料清理
对集合C中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
四、待测试特征的提取
从集合C中提取出以下7种类别的待测试特征:
基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数这6个特征;
情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;
词向量与段落向量特征类别c,包括由gensim模块提取出的50个Word2vec特征和50个Doc2vec特征;
BERT向量特征类别d,包括768个特征;
混合特征类别e,e为a,b两种类别的特征集合,包括15个特征;
混合特征类别f,f为a,b,c三种类别的特征集合,包括115个特征;
混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;
五、构建训练集和测试集
将集合C拆分为训练集和测试集两部分,其中测试集由相同数量的伤害数据和无伤害数据组成,训练集则为集合C排除测试集之后剩余的数据集合;
六、选择待测试的分类模型
选择LR、SVM、MLP、XGBoot 4种模型作为待测试的分类模型;
七、确定最优特征与分类模型的组合
基于步骤五的训练集和测试集,将a、b、c、d、e、f、g七组特征分别作为LR、SVM、MLP、XGBoot四个模型的输入特征进行训练和测试,获得28个评估值组成的评估值集合E={e1,e2,…,e28},其中每个评估值=准确率+精确率+召回率+F1,选取集合E中最大的值对应的特征类别和分类模型作为最优特征与分类模型的组合;
八、判断当前文本是否为恶意评论或虚假新闻
基于步骤七选取的最优特征与分类模型的组合,提取当前文本中对应的特征并输入对应训练后的分类模型,判断出当前文本是否为恶意评论或虚假新闻。
2.根据权利要求1所述的方法,其特征在于,所述集合A包括以下7种数据:
恶意:含有恶意内容的评论;
严重恶意:恶意程度更加严重的评论内容;
淫秽:含有淫秽用语的评论内容;
威胁:含有威胁意图的评论内容;
侮辱:对目标有针对性侮辱的内容;
身份仇恨:针对目标的种族、身份带有仇恨攻击意图的内容;
非恶意:未含恶意或伤害意图的评论;
所述集合B包含有虚假新闻和真实新闻两种数据;
所述对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据,对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据包括:对集合A进行二分类,其中恶意、严重恶意、淫秽、威胁、侮辱、身份仇恨6种数据对应为伤害数据,非恶意数据对应为无伤害数据;对集合B进行二分类,其中虚假新闻对应为伤害数据,真实新闻对应为无伤害数据。
3.根据权利要求1所述的方法,其特征在于,从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C包括:从集合A中抽取出δ笔伤害数据与δ笔无伤害数据构成集合A1,从集合B中抽取出δ笔伤害数据与δ笔无伤害数据构成集合B1,将A1与B1合并构成集合C,其中δ为大于零的整数。
4.根据权利要求1所述的方法,其特征在于,步骤五中,测试集中的数据量为集合C的20%。
5.一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
一、构建现有恶意评论资料集合A和虚假新闻资料集合B
对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据,其中伤害数据对应于恶意评论,无伤害数据对应于非恶意评论;
对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据,其中伤害数据对应于虚假新闻,无伤害数据对应于真实新闻;
二、构建混合文本资料集合C
从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C;
三、资料清理
对集合C中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
四、文本特征的提取
从集合C中提取出以下4种类别的特征:
基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数这6个特征;
情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;
词向量与段落向量特征类别c,包括由gensim模块提取出的50个Word2vec特征和50个Doc2vec特征;
BERT向量特征类别d,包括768个特征;
进而得到混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;
五、模型训练
将混合特征类别g包含的883个特征作为输入特征,基于集合C来训练SVM模型;
六、判断当前文本是否为恶意评论或虚假新闻
基于混合特征类别g提取当前文本中对应的883个特征并输入训练后的SVM模型,判断当前文本是否为恶意评论或虚假新闻。
6.根据权利要求5所述的方法,其特征在于,所述集合A包括以下7种数据:
恶意:含有恶意内容的评论;
严重恶意:恶意程度更加严重的评论内容;
淫秽:含有淫秽用语的评论内容;
威胁:含有威胁意图的评论内容;
侮辱:对目标有针对性侮辱的内容;
身份仇恨:针对目标的种族、身份带有仇恨攻击意图的内容;
非恶意:未含恶意或伤害意图的评论;
所述集合B包含有虚假新闻和真实新闻两种数据;
所述对集合A进行二分类,将其中的数据分为伤害数据和无伤害数据,对集合B进行二分类,将其中的数据分为伤害数据和无伤害数据包括:对集合A进行二分类,其中恶意、严重恶意、淫秽、威胁、侮辱、身份仇恨6种数据对应为伤害数据,非恶意数据对应为无伤害数据;对集合B进行二分类,其中虚假新闻对应为伤害数据,真实新闻对应为无伤害数据。
7.根据权利要求5所述的方法,其特征在于,从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C包括:从集合A中抽取出δ笔伤害数据与δ笔无伤害数据构成集合A1,从集合B中抽取出δ笔伤害数据与δ笔无伤害数据构成集合B1,将A1与B1合并构成集合C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311235587.XA CN117332084B (zh) | 2023-09-22 | 2023-09-22 | 一种适用于同时检测恶意评论和虚假新闻的机器学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311235587.XA CN117332084B (zh) | 2023-09-22 | 2023-09-22 | 一种适用于同时检测恶意评论和虚假新闻的机器学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332084A CN117332084A (zh) | 2024-01-02 |
CN117332084B true CN117332084B (zh) | 2024-05-03 |
Family
ID=89294407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311235587.XA Active CN117332084B (zh) | 2023-09-22 | 2023-09-22 | 一种适用于同时检测恶意评论和虚假新闻的机器学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332084B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109145187A (zh) * | 2018-07-23 | 2019-01-04 | 浙江大学 | 基于评论数据的跨平台电商欺诈检测方法和系统 |
CN111639252A (zh) * | 2020-05-18 | 2020-09-08 | 华中科技大学 | 一种基于新闻-评论关联性分析的虚假新闻识别方法 |
CN114547293A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 一种跨平台虚假新闻检测方法及系统 |
CN115687774A (zh) * | 2022-11-09 | 2023-02-03 | 四川大学华西医院 | 一种基于语义分析过滤化妆品互联网虚假评论的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153723B (zh) * | 2017-12-27 | 2021-10-19 | 北京百度网讯科技有限公司 | 热点资讯评论文章生成方法、装置及终端设备 |
-
2023
- 2023-09-22 CN CN202311235587.XA patent/CN117332084B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109145187A (zh) * | 2018-07-23 | 2019-01-04 | 浙江大学 | 基于评论数据的跨平台电商欺诈检测方法和系统 |
CN111639252A (zh) * | 2020-05-18 | 2020-09-08 | 华中科技大学 | 一种基于新闻-评论关联性分析的虚假新闻识别方法 |
CN114547293A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 一种跨平台虚假新闻检测方法及系统 |
CN115687774A (zh) * | 2022-11-09 | 2023-02-03 | 四川大学华西医院 | 一种基于语义分析过滤化妆品互联网虚假评论的方法 |
Non-Patent Citations (2)
Title |
---|
Increasing Accuracy of Support Vector Machine (SVM) By Applying N-Gram and Chi-Square Feature Selection for Text Classification;Setiangga Fachrurrozi,等;《2021 International Seminar on Application for Technology of Information and Communication (iSemantic)》;20211026;第42-47页 * |
结合词向量和聚类算法的新闻评论话题演进分析;林江豪;周咏梅;阳爱民;王伟;;计算机工程与科学;20161115(第11期);第208-214页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117332084A (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198995B (zh) | 一种恶意网页识别方法 | |
CN109446404A (zh) | 一种网络舆情的情感极性分析方法和装置 | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN108536756A (zh) | 基于双语信息的情绪分类方法及系统 | |
CN110727766A (zh) | 敏感词的检测方法 | |
Kareem et al. | Pakistani media fake news classification using machine learning classifiers | |
CN111831824A (zh) | 一种舆情正负面分类方法 | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN109471932A (zh) | 基于学习模型的谣言检测方法、系统及存储介质 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
Klyuev | Fake news filtering: Semantic approaches | |
Ashcroft et al. | A Step Towards Detecting Online Grooming--Identifying Adults Pretending to be Children | |
Amuchi et al. | Identifying cyber predators through forensic authorship analysis of chat logs | |
CN110019776A (zh) | 文章分类方法及装置、存储介质 | |
Ashraf et al. | CIC at CheckThat! 2021: Fake News detection Using Machine Learning And Data Augmentation. | |
Chandra et al. | Anti social comment classification based on kNN algorithm | |
CN108733652A (zh) | 基于机器学习的影评情感倾向性分析的测试方法 | |
Husnain et al. | A novel preprocessing technique for toxic comment classification | |
CN113132368B (zh) | 聊天数据的审核方法、装置及计算机设备 | |
CN109753798A (zh) | 一种基于随机森林与FastText的Webshell检测模型 | |
Gidhe et al. | Sarcasm detection of non# tagged statements using MLP-BP | |
CN117332084B (zh) | 一种适用于同时检测恶意评论和虚假新闻的机器学习方法 | |
Parveen et al. | Opinion Mining in Twitter–Sarcasm Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |