CN110990683B - 一种基于地域与情感特征的微博谣言集成识别方法及装置 - Google Patents

一种基于地域与情感特征的微博谣言集成识别方法及装置 Download PDF

Info

Publication number
CN110990683B
CN110990683B CN201911197212.2A CN201911197212A CN110990683B CN 110990683 B CN110990683 B CN 110990683B CN 201911197212 A CN201911197212 A CN 201911197212A CN 110990683 B CN110990683 B CN 110990683B
Authority
CN
China
Prior art keywords
microblog
user
emotional
rumor
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911197212.2A
Other languages
English (en)
Other versions
CN110990683A (zh
Inventor
吴渝
曾艳
李红波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911197212.2A priority Critical patent/CN110990683B/zh
Publication of CN110990683A publication Critical patent/CN110990683A/zh
Application granted granted Critical
Publication of CN110990683B publication Critical patent/CN110990683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于地域与情感特征的微博谣言集成识别方法及装置,属于网络舆情领域,该装置包括以下模块:预处理装置:用于计算机对采集到的互联网微博数据进行清洗、打标;特征筛选模块:用于对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;谣言识别模型构造模块:用于采用Stacking方法作为集成学习的组合策略,构造谣言识别模型;判断模块:用于输入待检测数据,得到每条信息为谣言的可能性大小。

Description

一种基于地域与情感特征的微博谣言集成识别方法及装置
技术领域
本发明属于网络舆情领域,具体涉及一种基于地域与情感特征的微博谣言集成识别方法。
背景技术
互联网技术的飞速发展,为人与人之间的交流提供了更加快捷的方式。一方面,网络空间中的信息量不断增长;另一方面,信息的传播也随着各种网络平台的兴起而加速。在这个以网络为主要信息传播媒介的时代下,鱼龙混杂的信息充斥着网络空间,而谣言信息的传播可能带来的影响小到对个人名誉、隐私等的侵犯,大到对公共秩序造成混乱,引发群体性事件,导致国家的繁荣稳定受到危害。因此,对网络谣言的管控不仅关乎网民个人的利益,也与营造清朗的网络空间密不可分。
目前,国内外在网络谣言识别方面的研究工作,一部分聚焦于提取谣言与非谣言信息之间具有显著差异的特征集上,另一部分则侧重于分类模型的构建。基于模型构建的谣言识别方法不需要提取各种复杂的特征,但是需要大量数据支撑,而在数据量较少的情况下,着重于特征选择的研究方法更适用于谣言的识别。
通过结合传播学中的5W模式,构造出地域相关性、情感一致性和用户可信度三个新特征,并利用卡方检验可以检测到所构造特征的显著性,且相较于适用于小数据规模识别的简单统计特征,新构造的特征能更好的适应大规模数据;其次,采用集成学习的微博谣言识别方法根据“好而不同”的原则组合多个不同算法,利用不同算法所拥有的不同的分类速度、准确率和泛化能力,从而得到更好的识别结果,相较于目前单一的识别算法而言,能够大幅提升检测的精确度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于地域与情感特征的微博谣言集成识别方法及装置。本发明的技术方案如下:
一种基于地域与情感特征的微博谣言集成识别方法,其包括以下步骤:
(A)计算机对采集到的互联网微博数据进行清洗、打标;
(B)对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;
(C)采用堆叠(Stacking)方法作为集成学习的组合策略,构造谣言识别模型;
(D)输入待检测数据,得到每条信息为谣言的可能性大小。
进一步的,所述用户可信度特征的具体构造步骤包括:
根据用户是否认证fverified、基本信息是否完整fInfoIntegrity以及用户影响力finfluence(ui)计算得到用户可信度,其计算公式如下:
fcredibility(ui)=fverified+finfluence+fInfoIntegrity
fverified表示用户是否认证,取值为0或1;fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,取值为0或1;finfluence表示用户影响力。
进一步的,所述用户影响力的计算步骤包括:
根据用户的粉丝数、互相关注数计算得到用户影响力finfluence(ui),公式如下:
Figure GDA0003705562590000021
其中,ui表示发布微博i的用户,Cbifollower表示用户ui的互相关注数,Cfollower表示用户ui的粉丝数。
进一步的,所述步骤(B)的情感一致性特征的具体构造步骤包括:
分别对每条微博内容及其相关评论进行分词处理,去停用词,得到微博内容的词向量集合
Figure GDA0003705562590000022
mi表示第i条微博的词向量集合,
Figure GDA0003705562590000023
表示该微博所分得的词语;
相对应的微博下每条评论的词向量集合
Figure GDA0003705562590000031
Figure GDA0003705562590000032
表示第i条微博下的第j条评论的词向量集合,
Figure GDA0003705562590000033
表示该条评论所分得的词语;
分别将微博内容的词向量集合mi和相对应的微博下每条评论的词向量集合
Figure GDA0003705562590000034
与大连理工大学的情感词汇本体库中的情感词进行词语匹配以得到每条信息中积极情感词与消极情感词的个数,得到该条消息或评论的情感倾向公式如下:
S=Cpos-Cneg
Figure GDA00037055625900000314
表示当前词集合的情感倾向,Cpos表示积极情感词数,Cneg表示消极情感词数,由此可得:
Figure GDA0003705562590000035
Figure GDA00037055625900000315
表示该词向量集合最终的情感倾向,1表示积极情感倾向,-1表示消极情感倾向,0表示中立;计算微博mi下每条评论的情感倾向
Figure GDA0003705562590000036
后利用如下公式计算评论的总体倾向:
Figure GDA0003705562590000037
最后,对比微博及其对应的评论的情感倾向,得到情感一致性特征。
进一步的,所述地域相关性特征的具体构造步骤包括:
采用欧氏距离计算全国各地级市之间的距离,得到距离矩阵,欧氏距离计算公式如下:
Figure GDA0003705562590000038
Figure GDA0003705562590000039
表示城市
Figure GDA00037055625900000310
与城市
Figure GDA00037055625900000311
之间的距离,而城市
Figure GDA00037055625900000312
的坐标为(x1,x2),城市
Figure GDA00037055625900000313
的坐标为(y1,y2)。
针对用户注册地域与所发布的微博内容中地域的不同,设置距离阈值。
进一步的,针对用户注册地域与所发布的微博内容中地域的不同,距离阈值的设置步骤之后还包括:
用户注册地与博文提及地都属于中国,距离按需计算;
用户注册地属于中国,博文提及地不属于中国,距离设置为10000;
用户注册地不属于中国,博文提及地属于中国,距离设置为10000;
用户注册地与博文提及地均不属于中国,距离设置为10000。
进一步的,所述步骤(C)中,采用的Stacking方法集成学习的组合策略构建谣言识别模型的具体步骤包括:
采用支持向量机、朴素贝叶斯和随机森林作为基分类器;
然后采用逻辑回归算法作为第二层分类器构造谣言识别模型。
一种基于地域与情感特征的微博谣言集成识别装置,其包括:
预处理装置:用于计算机对采集到的互联网微博数据进行清洗、打标;
特征筛选模块:用于对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;
谣言识别模型构造模块:用于采用Stacking方法作为集成学习的组合策略,构造谣言识别模型;
判断模块:用于输入待检测数据,得到每条信息为谣言的可能性大小。
所述采用Stacking方法作为集成学习的组合策略,构造谣言识别模型,具体包括:
步骤S31,采用Stacking方法作为集成学习的组合策略构建谣言识别模型,使用支持向量机、随机森林和朴素贝叶斯作为Stacking模型的初级分类器,逻辑回归模型作为元分类器;
步骤S32,将训练集按照五折交叉验证的方式分别输入到模型中,经过三个初级分类器后,训练得到三个初级分类模型,所得到的结果作为训练集新的特征输入到元分类器中,进行下一轮的训练;
步骤S33,将验证集按步骤S32的方法同样进行输入,检验步骤S32中所训练出的模型效果;
步骤S34,将测试集输入到步骤S33中所验证过的模型,得到预测结果,对预测结果进行加权平均后得到新的测试集,将初级分类器中得到的新的训练集输入到元分类器中,训练得到最终的模型并测试模型的分类效果。
本发明的优点及有益效果如下:
(1)本发明结合传播学中的5W模式,分别在谣言信息的传播特征、内容特征和用户特征三个部分,构造了地域相关性、情感一致性和用户可信度三个新特征:
地域相关性,当发布者的注册地与其发布的微博内容中所提到的地点信息距离相差较大时,则对该条微博的内容可信度在一定程度上持有怀疑,由此构造地域相关性这一特征用于表示发布博文中所提及的地点与发布人的注册地之间的距离差距,可以体现出该微博信息的传播范围的大小。而目前微博上会对国内产生影响较大的谣言多发生于国内,因此在地域距离值的设置上,当该微博发布者的注册地和发布内容提及地二者之一为国外城市时,将地域距离值设为统一的最大值10000,以此减少计算的复杂性。
情感一致性,一般谣言信息带有强烈的消极情感倾向,在一定程度上存在煽动他人情绪的作用,会引起大众的焦虑和恐慌。由此,当该条微博信息下的评论所表现出的情感倾向与该条微博所表达的情感倾向一致时,该条微博为谣言的可能性较大。因此构造情感一致性这一特征用于表示所发博文中的情感倾向与该条微博下的评论所表述的情感倾向是否一致。相较于简单的统计文本中的积极情感词数和消极情感词数,能更直观的体现出该条微博文本给受众带来的情感其影响。
用户可信度,发布微博的博主拥有大量粉丝,或者属于意见领袖(KOL)时,其发布的内容会得到更多关注、更快传播,带来的影响也就越大。所以当用户的信息越完整、影响力越大时,相信其发布的微博内容的受众也就越多。而通过综合用户的粉丝数、关注数、互相关注数、是否认证和其注册以来所发布的微博数量,可以计算其自身影响力和活跃度,从而构造出用户可信度这一特征。相较于使用单一的用户影响力和用户活跃度作为识别特征,构造复合特征能得到更为准确地识别结果。
(2)Stacking集成学习方法根据“好而不同”的原则,选取了相互之间有差异且其本身准确性较高的学习器作为初级分类器。其中支持向量机(SVM)使用铰链损失函数作为代理损失,使其具有稀疏性,同时考虑了经验风险和结构最小化的风险,使其具有稳定性,从而有较好的泛化能力能在使用核方法时有更小的计算量。而随机森林可以估计遗失数据,且对于不平衡的分类数据可以平衡误差,朴素贝叶斯模型在属性之间相关性较小时有较好的性能。因此,选择SVM、随机森林和朴素贝叶斯作为初级分类器,其预测结果按照一般方法采用Logistic回归作为元分类器进行最后的结果预测。在针对不同的分类任务时,不同分类算法的分类速度、准确率和泛化能力会有一定的区别,采用Stacking集成学习的方法能够都到一个具有强泛化能力和高鲁棒性的学习模型,从而提高最终的分类精确度。
附图说明
图1是本发明提供优选实施例提供微博谣言识别的总体流程图;
图2是本发明提供微博谣言特征构造及提取的流程图;
图3是本发明提供微博谣言识别模型构建的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1示出根据本发明示例性实施例的针对微博谣言进行识别的总体步骤流程图。这里,作为示例,所述方法可以作为计算机程序来执行,也可作为插件在其他程序中执行
在步骤S10中,对采集到的数据进行清洗、打标。
作为示例,所述打标方法是利用先验知识对采集到的数据进行人工标注,将数据分为谣言和非谣言两类,使用均值替代、删除等方法对数据中存在的异常值、空值进行处理。
作为示例,对每条微博信息的地理位置进行标注,包括用户注册地和博文提及地,
具体的,地理位置标注规则如下:
(1)博文没有提及任何地理信息,博文提及地标注为用户的注册地;
(2)地理位置只含省份,用户注册地和博文提及地均标注为对应的省会城市。
在步骤S20中,对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出新的特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,选取部分有效特征。
作为示例,对数据集进行拆分并归一化,所提取的特征可以分为离散特征和联系特征,为了方便将特征输入到谣言识别模型中,本发明使用最大最小值法对连续特征进行归一化处理,使用one-hot编码的方式处理离散特征。然后将数据按照一定比例分为训练集、验证集和测试集。
在步骤S30中,采用Stacking方法作为集成学习的组合策略,构造谣言识别模型。
作为示例,利用步骤S20中拆分得到的训练集和验证集对利用模型的训练与构建。将数据集分别输入到支持向量机(SVM)、朴素贝叶斯(
Figure GDA0003705562590000071
Bayes)和随机森林(RandomForest)模型中进行训练并将得到的结果作为下一层分类的输入特征。
在步骤S40中,输入待检测数据,得到每条信息为谣言的可能性大小。
具体的,如图2所示,步骤S20包括:
步骤S21,对数据集中的所有微博信息进行常用特征的提取,分为内容特征、用户特征和传播特征三类特征。
具体的,内容特征包括:文本长度、@符号数、#符号数、问号数、感叹号数、是否有图片、是否有URL、积极情感词数量、消极情感词数量;
用户特征包括:用户名长度、性别、粉丝数、关注数、互关数、微博数、收藏数、是否认证、是否有个人描述、影响力;
传播特征包括:转发数、评论数、点赞数、时间跨度、关注度。
步骤S22,在步骤S21中提取的常用特征的基础上,构造新的特征、包括用户可信度、情感一致性以及地域相关性。
具体的,用户可信度特征的具体构造步骤包括:
根据用户是否认证、基本信息是否完整以及用户影响力计算得到用户可信度,当可信度值越高时,用户发布的信息可信度也就越大。其计算公式如下:
fcredibility(ui)=fverified+finfluence+fInfoIntegrity
进一步地,根据用户的粉丝数、互相关注数计算得到用户影响力finfluence(ui),公式如下:
Figure GDA0003705562590000081
其中,ui表示发布微博i的用户,Cbifollower表示用户ui的互相关注数,Cfollower表示用户ui的粉丝数。
进一步地,fverified表示用户是否认证,其具体公式如下:
Figure GDA0003705562590000082
进一步地,fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,具体公式如下:
Figure GDA0003705562590000083
具体的,情感一致性是指微博内容和相关的评论信息之间情感极性的相似程度,构造步骤包括:
分别对每条微博内容及其相关评论进行分词处理,去停用词,得到微博内容的词向量集合
Figure GDA0003705562590000091
mi表示第i条微博的词向量集合,
Figure GDA0003705562590000092
表示该微博所分得的词语;
相对应的微博下每条评论的词向量集合
Figure GDA0003705562590000093
Figure GDA0003705562590000094
表示第i条微博下的第j条评论的词向量集合,
Figure GDA0003705562590000095
表示该条评论所分得的词语。
进一步地,分别将微博内容的词向量集合mi和相对应的微博下每条评论的词向量集合
Figure GDA0003705562590000096
与大连理工大学的情感词汇本体库中的情感词进行词语匹配,以得到每条信息中积极情感词与消极情感词的个数,得到该条消息或评论的情感倾向公式如下:
S=Cpos-Cneg
Figure GDA00037055625900000910
表示当前词集合的情感倾向,Cpos表示积极情感词数,Cneg表示消极情感词数,由此可得:
Figure GDA0003705562590000097
Figure GDA00037055625900000911
表示该词向量集合最终的情感倾向,1表示积极情感倾向,-1表示消极情感倾向,0表示中立。计算微博mi下每条评论的情感倾向
Figure GDA0003705562590000098
后利用如下公式计算评论的总体倾向:
Figure GDA0003705562590000099
最后,对比微博及其对应的评论的情感倾向,如果相同,情感一致性为1,反之为0。
具体的,地域相关性特征用于衡量用户注册地和其发布微博内容提及的地理位置的距离。地域相关性特征的具体构造步骤包括:
采用欧氏距离计算全国各地级市之间的距离,得到距离矩阵,欧氏距离计算公式如下:
Figure GDA0003705562590000101
针对用户注册地域与所发布的微博内容中地域的不同,设置距离阈值。
可选的,针对用户注册地域与所发布的微博内容中地域的不同,距离阈值的设置步骤之后还包括:
用户注册地与博文提及地都属于中国,距离按需计算;
用户注册地属于中国,博文提及地不属于中国,距离设置为10000;
用户注册地不属于中国,博文提及地属于中国,距离设置为10000;
用户注册地与博文提及地均不属于中国,距离设置为10000。
步骤S23,利用卡方检验对S21和S22步骤中构造的所有特征进行有效性检验,按分数排序。
步骤S24,将所有特征按用户、内容、传播三个维度分类,通过特征工程筛选得到最小最优特征集。
一种基于地域与情感特征的微博谣言集成识别装置,其包括:
预处理装置:用于计算机对采集到的互联网微博数据进行清洗、打标;
特征筛选模块:用于对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;
谣言识别模型构造模块:用于采用Stacking方法作为集成学习的组合策略,构造谣言识别模型;
判断模块:用于输入待检测数据,得到每条信息为谣言的可能性大小。
采用本装置,可以方便的实现对微博谣言的集成识别,解决了现有技术中没有专门的准确率高的微博谣言识别装置的痛点。
具体的,如图3所示,步骤S30包括:
步骤S31,采用Stacking方法作为集成学习的组合策略构建谣言识别模型,使用支持向量机、随机森林和朴素贝叶斯作为stacking模型的初级分类器,逻辑回归模型作为元分类器。
步骤S32,将训练集按照五折交叉验证的方式分别输入到模型中,经过三个初级分类器后,训练得到三个初级分类模型,所得到的结果作为训练集新的特征输入到元分类器中,进行下一轮的训练。
步骤S33,将验证集按步骤S32的方法同样进行输入,检验步骤S32中所训练出的模型效果。
步骤S34,将测试集输入到步骤S33中所验证过的模型,得到预测结果,对预测结果进行加权平均后得到新的测试集,将初级分类器中得到的新的训练集输入到元分类器中,训练得到最终的模型并测试模型的分类效果。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,包括以下步骤:
(A)计算机对采集到的互联网微博数据进行清洗、打标;
(B)对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;
(C)采用堆叠方法作为集成学习的组合策略,构造谣言识别模型;
(D)输入待检测数据,得到每条信息为谣言的可能性大小;
所述用户可信度特征的具体构造步骤包括:
根据用户是否认证fverified、基本信息是否完整fInfoIntegrity以及用户影响力finfluence(ui)计算得到用户可信度,其计算公式如下:
fcredibility(ui)=fverified+finfluence+fInfoIntegrity
fverified表示用户是否认证,取值为0或1;fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,取值为0或1;finfluence表示用户影响力;
所述步骤(B)的情感一致性特征的具体构造步骤包括:
分别对每条微博内容及其相关评论进行分词处理,去停用词,得到微博内容的词向量集合
Figure FDA0003711353580000011
mi表示第i条微博的词向量集合,
Figure FDA0003711353580000012
表示该微博所分得的词语;
相对应的微博下每条评论的词向量集合
Figure FDA0003711353580000013
Figure FDA0003711353580000014
表示第i条微博下的第j条评论的词向量集合,
Figure FDA0003711353580000015
表示该条评论所分得的词语;
分别将微博内容的词向量集合mi和相对应的微博下每条评论的词向量集合
Figure FDA0003711353580000016
与大连理工大学的情感词汇本体库中的情感词进行词语匹配以得到每条信息中积极情感词与消极情感词的个数,得到该条消息或评论的情感倾向公式如下:
S=Cpos-Cneg
S表示当前词集合的情感倾向,Cpos表示积极情感词数,Cneg表示消极情感词数,由此可得:
Figure FDA0003711353580000021
SO表示该词向量集合最终的情感倾向,1表示积极情感倾向,-1表示消极情感倾向,0表示中立;计算微博mi下每条评论的情感倾向
Figure FDA0003711353580000022
后利用如下公式计算评论的总体倾向:
Figure FDA0003711353580000023
最后,对比微博及其对应的评论的情感倾向,得到情感一致性特征;
所述地域相关性特征的具体构造步骤包括:
采用欧氏距离计算全国各地级市之间的距离,得到距离矩阵,欧氏距离计算公式如下:
Figure FDA0003711353580000024
dist(x,y)表示城市x与城市y之间的距离,而城市x的坐标为(x1,x2),城市y的坐标为(y1,y2);
针对用户注册地域与所发布的微博内容中地域的不同,设置距离阈值。
2.根据权利要求1所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,所述用户影响力的计算步骤包括:
根据用户的粉丝数、互相关注数计算得到用户影响力finfluence(ui),公式如下:
Figure FDA0003711353580000025
其中,ui表示发布微博i的用户,Cbifolowers表示用户ui的互相关注数,Cfollowers表示用户ui的粉丝数。
3.根据权利要求2所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,针对用户注册地域与所发布的微博内容中地域的不同,距离阈值的设置步骤之后还包括:
用户注册地与博文提及地都属于中国,距离按需计算;
用户注册地属于中国,博文提及地不属于中国,距离设置为10000;
用户注册地不属于中国,博文提及地属于中国,距离设置为10000;
用户注册地与博文提及地均不属于中国,距离设置为10000。
4.根据权利要求3所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,所述步骤(C)中,采用的Stacking方法集成学习的组合策略构建谣言识别模型的具体步骤包括:
采用支持向量机、朴素贝叶斯和随机森林作为基分类器;
然后采用逻辑回归算法作为第二层分类器构造谣言识别模型。
5.一种基于地域与情感特征的微博谣言集成识别装置,其特征在于,包括:
预处理装置:用于计算机对采集到的互联网微博数据进行清洗、打标;
特征筛选模块:用于对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;
谣言识别模型构造模块:用于采用Stacking方法作为集成学习的组合策略,构造谣言识别模型;
判断模块:用于输入待检测数据,得到每条信息为谣言的可能性大小;
所述用户可信度特征的具体构造步骤包括:
根据用户是否认证fverified、基本信息是否完整fInfoIntegrity以及用户影响力finfluence(ui)计算得到用户可信度,其计算公式如下:
fcredibility(ui)=fverified+finfluence+fInfoIntegrity
fverified表示用户是否认证,取值为0或1;fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,取值为0或1;finfluence表示用户影响力;
所述情感一致性特征的具体构造步骤包括:
分别对每条微博内容及其相关评论进行分词处理,去停用词,得到微博内容的词向量集合
Figure FDA0003711353580000041
mi表示第i条微博的词向量集合,
Figure FDA0003711353580000042
表示该微博所分得的词语;
相对应的微博下每条评论的词向量集合
Figure FDA0003711353580000043
Figure FDA0003711353580000044
表示第i条微博下的第j条评论的词向量集合,
Figure FDA0003711353580000045
表示该条评论所分得的词语;
分别将微博内容的词向量集合mi和相对应的微博下每条评论的词向量集合
Figure FDA0003711353580000046
与大连理工大学的情感词汇本体库中的情感词进行词语匹配以得到每条信息中积极情感词与消极情感词的个数,得到该条消息或评论的情感倾向公式如下:
S=Cpos-Cneg
S表示当前词集合的情感倾向,Cpos表示积极情感词数,Cneg表示消极情感词数,由此可得:
Figure FDA0003711353580000047
SO表示该词向量集合最终的情感倾向,1表示积极情感倾向,-1表示消极情感倾向,0表示中立;计算微博mi下每条评论的情感倾向
Figure FDA0003711353580000048
后利用如下公式计算评论的总体倾向:
Figure FDA0003711353580000051
最后,对比微博及其对应的评论的情感倾向,得到情感一致性特征;
所述地域相关性特征的具体构造步骤包括:
采用欧氏距离计算全国各地级市之间的距离,得到距离矩阵,欧氏距离计算公式如下:
Figure FDA0003711353580000052
dist(x,y)表示城市x与城市y之间的距离,而城市x的坐标为(x1,x2),城市y的坐标为(y1,y2);
针对用户注册地域与所发布的微博内容中地域的不同,设置距离阈值。
6.根据权利要求5所述的基于地域与情感特征的微博谣言集成识别装置,其特征在于,所述采用Stacking方法作为集成学习的组合策略,构造谣言识别模型,具体包括:
步骤S31,采用Stacking方法作为集成学习的组合策略构建谣言识别模型,使用支持向量机、随机森林和朴素贝叶斯作为Stacking模型的初级分类器,逻辑回归模型作为元分类器;
步骤S32,将训练集按照五折交叉验证的方式分别输入到模型中,经过三个初级分类器后,训练得到三个初级分类模型,所得到的结果作为训练集新的特征输入到元分类器中,进行下一轮的训练;
步骤S33,将验证集按步骤S32的方法同样进行输入,检验步骤S32中所训练出的模型效果;
步骤S34,将测试集输入到步骤S33中所验证过的模型,得到预测结果,对预测结果进行加权平均后得到新的测试集,将初级分类器中得到的新的训练集输入到元分类器中,训练得到最终的模型并测试模型的分类效果。
CN201911197212.2A 2019-11-29 2019-11-29 一种基于地域与情感特征的微博谣言集成识别方法及装置 Active CN110990683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911197212.2A CN110990683B (zh) 2019-11-29 2019-11-29 一种基于地域与情感特征的微博谣言集成识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911197212.2A CN110990683B (zh) 2019-11-29 2019-11-29 一种基于地域与情感特征的微博谣言集成识别方法及装置

Publications (2)

Publication Number Publication Date
CN110990683A CN110990683A (zh) 2020-04-10
CN110990683B true CN110990683B (zh) 2022-08-23

Family

ID=70088152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911197212.2A Active CN110990683B (zh) 2019-11-29 2019-11-29 一种基于地域与情感特征的微博谣言集成识别方法及装置

Country Status (1)

Country Link
CN (1) CN110990683B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506710B (zh) * 2020-07-01 2020-11-06 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN111898038B (zh) * 2020-07-04 2023-03-14 西北工业大学 一种基于人机协作的社交媒体假新闻检测方法
CN111966919A (zh) * 2020-07-13 2020-11-20 江汉大学 一种事件消息的处理方法、装置及设备
US11900480B2 (en) * 2020-10-14 2024-02-13 International Business Machines Corporation Mediating between social networks and payed curated content producers in misinformative content mitigation
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质
CN112200197A (zh) * 2020-11-10 2021-01-08 天津大学 一种基于深度学习和多模态的谣言检测方法
CN113505223B (zh) * 2021-07-06 2022-01-28 青海师范大学 一种网络水军识别方法与系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484679A (zh) * 2016-10-20 2017-03-08 北京邮电大学 一种应用于消费平台上的虚假评论信息识别方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5008024B2 (ja) * 2006-12-28 2012-08-22 独立行政法人情報通信研究機構 風評情報抽出装置及び風評情報抽出方法
CN106815257A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种用户可信度的计算方法及装置
CN106202211B (zh) * 2016-06-27 2019-12-13 四川大学 一种基于微博类型的集成微博谣言识别方法
CN107403007B (zh) * 2017-07-25 2020-05-05 北京工商大学 一种基于网络的微博消息可信度判别模型的方法
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
CN109597944B (zh) * 2018-10-30 2022-04-01 四川大学 一种基于深度信念网络的单分类微博谣言检测模型
CN109471932A (zh) * 2018-11-26 2019-03-15 国家计算机网络与信息安全管理中心 基于学习模型的谣言检测方法、系统及存储介质
CN109815383A (zh) * 2018-12-31 2019-05-28 南京理工大学 基于lstm的微博谣言检测及其资源库构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484679A (zh) * 2016-10-20 2017-03-08 北京邮电大学 一种应用于消费平台上的虚假评论信息识别方法及装置

Also Published As

Publication number Publication date
CN110990683A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
Khanam et al. The homophily principle in social network analysis: A survey
Ren et al. Learning to detect deceptive opinion spam: A survey
Bhuvaneshwari et al. Spam review detection using self attention based CNN and bi-directional LSTM
Huang et al. Sentiment and topic analysis on social media: a multi-task multi-label classification approach
CN106940732A (zh) 一种面向微博的疑似水军发现方法
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
CN110956210B (zh) 一种基于ap聚类的半监督网络水军识别方法及系统
CN103150333A (zh) 微博媒体中的意见领袖识别方法
Huang et al. A multi-source integration framework for user occupation inference in social media systems
Liao et al. Coronavirus pandemic analysis through tripartite graph clustering in online social networks
Rodrigues et al. Real‐Time Twitter Trend Analysis Using Big Data Analytics and Machine Learning Techniques
Cécillon et al. Graph embeddings for abusive language detection
Agrawal et al. Multimodal detection of fake social media use through a fusion of classification and pairwise ranking systems
Wang et al. An unsupervised strategy for defending against multifarious reputation attacks
Zou et al. Collaborative community-specific microblog sentiment analysis via multi-task learning
CN114840766A (zh) 一种用户画像构建方法、系统、设备及存储介质
WO2019242453A1 (zh) 信息处理方法及装置、存储介质、电子装置
Qayyum et al. FRD-LSTM: a novel technique for fake reviews detection using DCWR with the Bi-LSTM method
CN107070702B (zh) 基于合作博弈支持向量机的用户账号关联方法及其装置
Yang et al. Emotionally representative image discovery for social events
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
Sina et al. Solving the missing node problem using structure and attribute information
CN114297390B (zh) 一种长尾分布场景下的方面类别识别方法及系统
Zhao et al. Detecting fake reviews via dynamic multimode network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant