CN110909125B - 推文级社会媒体谣言检测方法 - Google Patents
推文级社会媒体谣言检测方法 Download PDFInfo
- Publication number
- CN110909125B CN110909125B CN201911044320.6A CN201911044320A CN110909125B CN 110909125 B CN110909125 B CN 110909125B CN 201911044320 A CN201911044320 A CN 201911044320A CN 110909125 B CN110909125 B CN 110909125B
- Authority
- CN
- China
- Prior art keywords
- event
- rumor
- events
- tweet
- tweets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种推文级社会媒体谣言检测方法。本发明直接从事件的推文开始建模,从每条推文的字开始提取特征。相比于基于手工特征的模型,本发明能够自动的提取从具体到抽象的特征,减少了人工介入,使用起来更方便。同时因为可以自动得到客观的且有针对性的特征,模型可以更好的应用于社会媒体这种复杂的情景中。相比于GRU和CNN模型,本发明可以尽可能缓解因为不规范的网络用语对谣言事件进行检测的干扰。本发明通过利用事件热度的变化来划分不同的生命周期,使得每个生命周期更具有可解释性,同时每个生命周期内的推文更具有一致性。本发明在对社会媒体的谣言事件检测中,取得了更高的准确率,并且可以在事件发展更早的阶段检测出谣言事件。
Description
技术领域
本发明属于机器学习中的深度学习和自然语言处理领域,更具体地,涉及一种推文级社会媒体谣言检测方法。
背景技术
心理学、社会学和传播学界通常定义谣言为一段声明或者表述是没有被证实的或者是故意错误的。因此在这种情况下,有效并且快速得在社会媒体中鉴别谣言是一个很重要的任务。
在之前的相关研究工作中,学者们提出了很多方法来检测单独一条推文是否是谣言。一条推文通常仅仅具有较少的上下文信息,又因为谣言通常可以采用与非谣言相同的方法来陈述,所以对推文做谣言检测面临着信息量不够的问题。同时,通常网络谣言会在社会媒体上被大量传播形成一个事件,因此对事件的谣言检测会比对推文的谣言检测更具有实用性。此外,事件具有更大的上下文以及时序特征。早期对事件的谣言检测都是基于人工定义的特征结合传统的分类器。手工特征包括基于内容的特征、基于用户的特征以及基于传播的特征。还有一些更精巧的特征包括用户之间的相互反馈,事件在不同生命周期中的特征变化,表现出对事件表述有所怀疑的信号词以及用户群体内部对于事件表达出了有争议的看法。
早期的基于手工特征的方法,因为仅仅只能依赖于很有限的上下文信息,因此不能够利用到更有效的抽象特征。同时,人工定义的特征会因为不够客观而带来一定的倾向性。所以这类基于手工特征的方法最终不能很好的应用于社会媒体这种复杂的情况。对于基于GRU和CNN的深度学习谣言事件监测的方法,他们都将事件看作是推文的序列,通过在时间顺序上采用相同的时间间隔进行划分从而得到事件的多个生命周期。然而这些模型存在一些缺陷。第一点,GRU这种基于循环神经网络的深度学习模型会倾向于更多关注最后的输入,然而没有证据表明最后的几个生命周期会对谣言事件监测更有帮助。第二点,社会媒体中用户使用的语言不规范,存在很多网络新词和错误的表达,因此传统的分词方法都很难准确的划分每个词。同时,他们使用词频-逆向文件频率或者段落向量的无监督方法来构建生命周期向量,使得他们的模型不能够通过有监督的学习来修正分词错误带来的影响,从而使得他们的模型不能进一步提升谣言事件检测的准确率。第三点,他们使用相同的时间间隔来划分事件的生命周期,这样的建模方法虽然简单但是没有可解释性,不能保证每个周期内的推文具有利用谣言检测的一致性。
发明内容
本发明为克服上述现有技术中的缺陷,提供一种推文级社会媒体谣言检测方法,在对社会媒体的谣言事件检测中,取得了更高的准确率,并且可以在事件发展更早的阶段检测出谣言事件。
为解决上述技术问题,本发明采用的技术方案是:一种推文级社会媒体谣言检测方法,包括以下步骤:
S1.收集社会媒体平台上的推文,并且以转发、评论将相关推文组成一个事件,并且按照时间戳将推文排序,然后将推文文本进行清洗;利用辟谣平台的信息给事件打上对应的标签;
S2.不对推文进行分词,直接利用word2vec中的CBOW方法对推文中的字进行训练,得到每个字的向量表达;
S3.使用天作为时间单位,表示出事件在每一天中的推文个数;横坐标x为天,纵坐标y为当天的推文个数,即事件在当天的热度;利用断点检测的算法,即分段线性回归将事件划分为多个生命周期,此时每个生命周期代表事件发展的趋势;
S4.通过多头自注意力机制得到每条推文中词序列的更好的向量表达,然后通过卷积和最大池化操作得到推文向量表达,再通过前馈神经网络以及卷积池化得到每个生命周期的向量表达;
S5.使用多层CNN对全部生命周期的向量矩阵进行多层次的特征提取,从简单特征到复杂特征,然后最后通过全连接层和sigmoid函数对事件的标签进行预测;
S6.利用训练数据集的标签信息训练好上述模型的参数,最后在测试数据集上判断每个事件是否是谣言,与真实标签进行比对验证模型的效果。
进一步的,所述的S3步骤中,利用分段线性回归将事件划分为n生命周期,使得划分成的n段线性回归的最小二乘误差总和最小;记c[i,j]为区间[i,j]内的最小二乘误差;F[t,k]表示把区间[0,t]分为k个区间,在每个区间使用最小二乘回归,使得所有区间最小二乘误差总和最小;mk代表划分第k个区间的x轴坐标,其中m0=0;根据定义可以得到递推关系:
F[t,k]=min(F[i,k-1],c[i+1,t]),i∈[1,t-1),
mk=argmini(F[i,k-1])+c[i+1,mk+1],i+1<mk+1。
进一步的,所述的S3步骤中多头自注意力的公式为:
MultiHead(Q,K,V)=Concate(H1,H2,…,Hh)。
式中,d是字向量的维度;Q=K=V,都是当前推文的矩阵表达,每个行向量是字的向量表达;这里头的个数h设置为10;因为每条推文中字的个数不同,使用一维卷积层和最大池化获得每条推文的向量表达postij,其中i和j分别代表了生命周期和推文的下标。
进一步的,设置卷积核的窗口大小为3,卷积核的个数为50,激活函数为Relu。
进一步的,所述的S5步骤中使用的激活函数分别为Relu和tanh
与现有技术相比,有益效果是:
1.本发明直接从事件的推文开始建模,从每条推文的字开始提取特征。相比于基于手工特征的模型,本发明能够自动的提取从具体到抽象的特征,减少了人工介入,使用起来更方便。同时因为可以自动得到客观的且有针对性的特征,模型可以更好的应用于社会媒体这种复杂的情景中。相比于GRU和CNN模型,本发明可以尽可能缓解因为不规范的网络用语对谣言事件进行检测的干扰。
2.本发明通过利用事件热度的变化来划分不同的生命周期,使得每个生命周期更具有可解释性,同时每个生命周期内的推文更具有一致性。本发明在对社会媒体的谣言事件检测中,取得了更高的准确率,并且可以在事件发展更早的阶段检测出谣言事件。
附图说明
图1是本发明中模型的检测整体结构示意图。
图2是本发明方法流程图。
图3是本发明实施例中早期谣言检测实验效果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
实施例1:
如图1和图2所示,一种推文级社会媒体谣言检测方法,包括以下步骤:
步骤1.从微博这个社会媒体上爬取推文作为样本,以转发、评论将相关推文组成一个事件,并且按照时间戳将推文排序,然后将推文文本进行清洗。利用辟谣平台的信息给事件打上对应的标签。微博数据集总共有4664个微博事件,分别有2313条谣言事件和2351条非谣言事件。将数据集划分为训练集、验证集和测试集三个部分,随机选取3148个样本用于训练,选取466个样本作为验证集,剩余的1050个样本作为测试集,同时要保证各个部分的样本两种标签的样本个数较为均衡。
步骤2.预处理,包括去掉推文中的网页标签和没有含义的特殊符号,以及常用的生僻字等停用词,过滤了出现次数少于3次的低频字符。利用word2vec中的CBOW对推文中的字进行训练,得到每个词的向量表达。CBOW模型中使用的窗口大小ws为5,字向量的维度大小记为d,在实验中确定的最优参数为72。
步骤3.表示出事件在每一天中的推文个数,横坐标x为天,纵坐标y为当天的推文个数,利用分段线性回归将事件划分为n生命周期,使得划分成的n段线性回归的最小二乘误差总和最小。现在解释具体方法:记c[i,j]为区间[i,j]内的最小二乘误差。F[t,k]表示把区间[0,t]分为k个区间,在每个区间使用最小二乘回归,使得所有区间最小二乘误差总和最小。mk代表划分第k个区间的x轴坐标,其中m0=0。根据定义可以得到递推关系:
F[t,k]=min(F[i,k-1],c[i+1,t]),i∈[1,t-1),
mk=argmini(F[i,k-1])+c[i+1,mk+1],i+1<mk+1.
式中,n在实验中设置为20。
步骤4.使用多头自注意力机制来更新每条推文中的字向量,从而缓解网络用语不规范到来的干扰。多头自注意力的公式为:
MultiHead(Q,K,V)=Concate(H1,H2,…,Hh)。
其中d是字向量的维度。Q=K=V,都是当前推文的矩阵表达,每个行向量是字的向量表达。这里头的个数h设置为10。因为每条推文中字的个数不同,使用一维卷积层和最大池化获得每条推文的向量表达postij,其中i和j分别代表了生命周期和推文的下标。这里设置卷积核的窗口大小为3,卷积核的个数为50,激活函数为Relu。
步骤5.事件的每个生命周期,含有不同个数的推文,我们使用两层一维卷积层结合最大池化获得每个生命周期的向量表达gi,设置两层卷积层的卷积核的窗口大小均为1,卷积核的个数分别为100和50,激活函数为Relu。将所有生命周期的向量表达gi拼接,最终得到一个n×50维的矩阵。矩阵的每一个行向量代表了事件对应生命周期的向量表达。
步骤6.利用两层一维卷积层从步骤7的样本矩阵中提取更抽象的高阶特征。设置两层卷积层的卷积核窗口大小均为3,卷积核的个数分别为50和20,使用的激活函数分别为Relu和tanh。
步骤7.使用全连接层和sigmoid激活函数预测事件对应的标签。输出1代表预测是谣言事件,0代表不是谣言事件。
本发明的优点主要有两个方面。第一点,模型直接从事件的推文开始建模,从每条推文的字开始提取特征。相比于基于手工特征的模型,本发明能够自动的提取从具体到抽象的特征,减少了人工介入,使用起来更方便。同时因为可以自动得到客观的且有针对性的特征,模型可以更好的应用于社会媒体这种复杂的情景中。相比于GRU和CNN模型,本发明可以尽可能缓解因为不规范的网络用语对谣言事件进行检测的干扰。第二点,模型通过利用事件热度的变化来划分不同的生命周期,使得每个生命周期更具有可解释性,同时每个生命周期内的推文更具有一致性。本发明在对社会媒体的谣言事件检测中,取得了更高的准确率,并且可以在事件发展更早的阶段检测出谣言事件。
在表1中使用准确率、精确率、召回率、F1值作为评估指标,对比本发明WPCNN和其他基线模型的性能,其中R代表谣言事件,N表示非谣言事件。基线模型包括基于手工特征的模型SVM和基于深度学习的方法GRU和CNN。通过表1可以发现,WPCNN的效果最好,CNN的效果次之,而SVM的效果最差。在这个实验中表明本发明能够在检测谣言事件中取得更好的准确率。
表1谣言事件检测结果
图3为早期谣言事件检测的实验结果,横坐标表示事件发生的小时数,纵坐标表示模型检测谣言事件的准确率,通过这个实验可以比较模型能否在事件发生的早期检测出谣言。在图中可以发现,本发明提出的WPCNN能够在事件发生的早期达到更高的准确率。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种推文级社会媒体谣言检测方法,其特征在于,包括以下步骤:
S1. 收集社会媒体平台上的推文,并且以转发、评论将相关推文组成一个事件,并且按照时间戳将推文排序,然后将推文文本进行清洗;利用辟谣平台的信息给事件打上对应的标签;
S2. 不对推文进行分词,直接利用word2vec中的CBOW方法对推文中的字进行训练,得到每个字的向量表达;
S3. 使用天作为时间单位,表示出事件在每一天中的推文个数;横坐标x为天,纵坐标y为当天的推文个数,即事件在当天的热度;利用断点检测的算法,即分段线性回归将事件划分为多个生命周期,此时每个生命周期代表事件发展的趋势;
S4. 通过多头自注意力机制得到每条推文中词序列的向量表达,然后通过卷积和最大池化操作得到推文向量表达,再通过前馈神经网络以及卷积池化得到每个生命周期的向量表达;
S5. 使用多层卷积神经网络模型对全部生命周期的向量矩阵进行多层次的特征提取,从简单特征到复杂特征,然后最后通过全连接层和sigmoid函数对事件的标签进行预测;
S6. 利用训练数据集的标签信息训练好上述模型的参数,最后在测试数据集上判断每个事件是否是谣言,与真实标签进行比对验证上述模型的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911044320.6A CN110909125B (zh) | 2019-10-30 | 2019-10-30 | 推文级社会媒体谣言检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911044320.6A CN110909125B (zh) | 2019-10-30 | 2019-10-30 | 推文级社会媒体谣言检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909125A CN110909125A (zh) | 2020-03-24 |
CN110909125B true CN110909125B (zh) | 2022-11-15 |
Family
ID=69815695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911044320.6A Active CN110909125B (zh) | 2019-10-30 | 2019-10-30 | 推文级社会媒体谣言检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909125B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429340A (zh) * | 2020-03-25 | 2020-07-17 | 山东大学 | 一种基于自注意力机制的循环图像翻译方法 |
CN111694955B (zh) * | 2020-05-08 | 2023-09-12 | 中国科学院计算技术研究所 | 一种社交平台的早期争议性消息检测方法及系统 |
CN111506710B (zh) * | 2020-07-01 | 2020-11-06 | 平安国际智慧城市科技股份有限公司 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
CN112528015B (zh) * | 2020-10-26 | 2022-11-18 | 复旦大学 | 在消息交互传播中进行谣言判别的方法及装置 |
CN115048514B (zh) * | 2022-06-09 | 2023-06-16 | 安徽大学 | 基于人格的社交网络谣言检测与立场分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
CN108280057A (zh) * | 2017-12-26 | 2018-07-13 | 厦门大学 | 一种基于blstm的微博谣言检测方法 |
CN108833382A (zh) * | 2018-05-31 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
CN109325117A (zh) * | 2018-08-24 | 2019-02-12 | 北京信息科技大学 | 一种多特征融合的微博中社会安全事件检测方法 |
WO2019055654A1 (en) * | 2017-09-15 | 2019-03-21 | Thomson Reuters Global Resources Unlimited Company | SYSTEMS AND METHODS FOR DETECTING AND CONFIGURING MULTIMEDIA EVENTS AND COREFERENCING |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010024184A1 (ja) * | 2008-08-26 | 2010-03-04 | 日本電気株式会社 | 風評情報検出システム、風評情報検出方法及びプログラム |
CN109325125B (zh) * | 2018-10-08 | 2022-06-14 | 中山大学 | 一种基于cnn优化的社交网络谣言检测方法 |
CN109685153B (zh) * | 2018-12-29 | 2022-07-05 | 武汉大学 | 一种基于特征聚合的社交网络谣言鉴别方法 |
-
2019
- 2019-10-30 CN CN201911044320.6A patent/CN110909125B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
WO2019055654A1 (en) * | 2017-09-15 | 2019-03-21 | Thomson Reuters Global Resources Unlimited Company | SYSTEMS AND METHODS FOR DETECTING AND CONFIGURING MULTIMEDIA EVENTS AND COREFERENCING |
CN108280057A (zh) * | 2017-12-26 | 2018-07-13 | 厦门大学 | 一种基于blstm的微博谣言检测方法 |
CN108833382A (zh) * | 2018-05-31 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 网络信息检测方法、装置、存储介质和计算机设备 |
CN109325117A (zh) * | 2018-08-24 | 2019-02-12 | 北京信息科技大学 | 一种多特征融合的微博中社会安全事件检测方法 |
Non-Patent Citations (4)
Title |
---|
Detecting Rumors Through Modeling Information Propagation Networks in a Social Media Environment;Yang Liu; Songhua Xu;《IEEE 》;20160630;第3卷(第2期);46-62 * |
微博网站的谣言检测方法研究;马晶;《中国优秀硕士学位论文全文数据库》;20180415;全文 * |
社交媒体平台谣言的早期自动检测;刘知远;宋长河;杨成;《全球传媒学刊》;20181215;第5卷(第4期);65-80 * |
面向微博谣言的检测方法研究;任文静;《中国优秀硕士学位论文全文数据库》;20180215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110909125A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909125B (zh) | 推文级社会媒体谣言检测方法 | |
CN112163426B (zh) | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
US20210042590A1 (en) | Machine learning system using a stochastic process and method | |
US20170249547A1 (en) | Systems and Methods for Holistic Extraction of Features from Neural Networks | |
CN107220311B (zh) | 一种利用局部嵌入话题建模的文本表示方法 | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
CN110046943B (zh) | 一种网络消费者细分的优化方法及优化系统 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN109597747A (zh) | 一种基于多目标优化算法nsga-ⅱ推荐跨项目关联缺陷报告的方法 | |
Jain et al. | A particle swarm optimized learning model of fault classification in Web-Apps | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN115687925A (zh) | 针对不平衡样本的故障类型识别方法及装置 | |
CN111126629B (zh) | 模型的生成方法、刷单行为识别方法、系统、设备和介质 | |
Best et al. | Deep audio embeddings for vocalisation clustering | |
Provost et al. | The impacts of fine-tuning, phylogenetic distance, and sample size on big-data bioacoustics | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
Fonseca et al. | Model-agnostic approaches to handling noisy labels when training sound event classifiers | |
CN116108836B (zh) | 文本情感识别方法、装置、计算机设备及可读存储介质 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
KR102546328B1 (ko) | 온라인 마케팅을 위한 콘텐츠 정보 모니터링 및 콘텐츠 기획 자동화 솔루션 제공 방법, 장치 및 시스템 | |
Feng et al. | Web service QoS classification based on optimized convolutional neural network | |
US20210110119A1 (en) | Enhanced input for text analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |