CN108280057A - 一种基于blstm的微博谣言检测方法 - Google Patents
一种基于blstm的微博谣言检测方法 Download PDFInfo
- Publication number
- CN108280057A CN108280057A CN201711436582.8A CN201711436582A CN108280057A CN 108280057 A CN108280057 A CN 108280057A CN 201711436582 A CN201711436582 A CN 201711436582A CN 108280057 A CN108280057 A CN 108280057A
- Authority
- CN
- China
- Prior art keywords
- blstm
- data
- method based
- detection method
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
一种基于BLSTM的微博谣言检测方法,涉及机器学习领域和深度学习领域。收集微博网络数据作为样本数据;对样本数据进行预处理;用word2vec方法构建样本句矩阵;对待检测的微博数据进行预处理;根据对层次的训练模型,对待检测句矩阵进行分类检测,得到检测结果。采用BLSTM深度学习方法,对样本数据进行多层次训练建模,有效提高当前其他方法对谣言检测的准确率,降低处理数据过程的复杂度,同时能为社交媒体提供可行性方法。
Description
技术领域
本发明涉及机器学习领域和深度学习领域,尤其是涉及一种基于BLSTM的微博谣言检测方法。
背景技术
以新浪微博为代表的新兴社交媒体具有开放性、低门槛、交互性等特点,为网民提供了一个自由表达意见与交流信息的平台。在当今自媒体盛行、网络红人影响力越来越大的情况下,他们的微博内容时刻影响着大众。所以,在微博平台中,经过某个或几个微博知名用户的转发,就会形成强大的舆论效应。这在权威媒体占主导的当代是不可想象的。这些因素,导致微博很容易成为谣言扩散的平台。
针对社交网络上谣言的检测,主要以人工检验和关键词检索为主。对新浪微博来说,目前谣言处理主要采取用户举报、人工判断方式,这导致了处理效率低和时间滞后等问题。
现有方法涉及用one-hot方法表示词向量,但若将一个文件中的句子都压平成向量,则会造成维度爆炸,所以这种方法在处理大量的文本数据时会遇到极大挑战。Google提出 Word2Vector方法,用高维度的向量从多个方向表征一个词,从而采用二进制方式提高数字的表示范围([1]毛二松,陈刚,刘欣,等.基于深层特征和集成分类器的微博谣言检测研究[J]. 计算机应用研究,2016,33(11):3369-3373)。
深度学习是近年来的研究热点,它通常包含多个隐层,从而能够从更加抽象的角度表示特征。深度学习在语音识别、图像处理等领域都有着广泛的应用。递归神经网络(RNN)目前应用较多,长短期记忆模型(LSTM)是它的一种典型变形,而双向LSTM(BLSTM)相当于两层LSTM连接,应用于文本分析可以理解更多的上下文语义,对微博谣言有更好的处理能力([2]梁军,柴玉梅,原慧斌,等.基于极性转移和LSTM递归网络的情感分析[J].中文信息学报,2015,29(5):152-159)。因此,需要提供一种基于深度学习的微博谣言检测方法,更具体地,需要提供一种基于BLSTM的微博谣言检测方法。
发明内容
本发明的目的在于提供通过深度学习技术进行多层次训练,可提高对社交网络谣言检测准确率的一种基于BLSTM的微博谣言检测方法。
本发明包括以下步骤:
1)收集微博网络数据作为样本数据;
2)对样本数据进行预处理;
在步骤2)中,所述预处理可包括分词、去停用词、文本向量化等。
3)用word2vec方法构建样本句矩阵;
在步骤3)中,所述用word2vec方法构建样本句矩阵的具体方法可为:采用BLSTM模型对样本句矩阵进行训练,构建训练模型;BLSTM每一个训练序列向前和向后分别是两个LSTM神经网络,所述两个LSTM神经网络连接一个输出层,提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息,展示的是一个沿着时间展开的双向循环神经网络,6个独特的权值在每一个时步被重复的利用,6个权值分别对应:输入到向前和向后隐含层(w1, w3),隐含层到隐含层自己(w2,w5),向前和向后隐含层到输出层(w4,w6)。
4)对待检测的微博数据进行预处理;
5)根据对层次的训练模型,对待检测句矩阵进行分类检测,得到检测结果。
本发明的有益效果如下:本发明采用BLSTM深度学习方法,对样本数据进行多层次训练建模,有效提高当前其他方法对谣言检测的准确率,降低处理数据过程的复杂度,同时能为社交媒体提供可行性方法。
附图说明
图1为BLSTM神经网络的基本结构。
图2为基于BLSTM的社交网络谣言检测的流程图。
具体实施方式
下面结合附图对本发明的具体实施方案进行进一步详细说明。
参见图1和2,本发明实施例包括如下步骤:
爬取收集社交网络数据为样本数据,样本数据包括非谣言数据2万条和谣言数据2万条。
对样本数据进行预处理,包括分词并去除停用词。
利用word2vec对文本进行向量化处理,构建向量矩阵进行文本表示。
利用样本数据学习构建BLSTM模型。
利用构建好的BLSTM模型对待检测数据进行分类检测,得到检测结果。
下面代入具体的社交网络数据对本发明作进一步说明。
基于深度学习BLSTM的社交网络谣言检测方法,包括如下步骤:
步骤1:收集社交网络数据作为样本数据:使用了2万条微博谣言和2万条微博真实数据,其中80%作为训练集,20%作为测试集,即待检测数据集。采用Windows 10操作系统的PC机作为终端设备,以pycharm作为开发平台进行数据爬取,选取MySQL作为后台数据库,利用Python语言进行编程。
步骤2:预处理,包括分词与去停用词。这部分采用Python的jieba分词工具包进行分词处理,并对中文词进行检测,去除检索不到的词(停用词)。
步骤3:采用Word2vec进行文本向量化。通过Word2vec中的CBOW训练语言模型,并且设置了两种不同维度的词向量,以此确定最优的词向量。两种设置分别为,词向量100维,滑动窗口大小为5;另一种为,词向量400维,滑动窗口大小也为5。
步骤4:采用深度学习方法BLSTM对样本句矩阵进行训练,构建多层次的训练模型。采用TensorFlow作为实现环境。BLSTM是按时间序列展开的双向LSTM网络,该网络输入层分别连接前向隐含层和后向隐含层,对应权值为w1,w3。前向网络和后向网络的处理顺序正好相反,对应权值为w2,w5。然后两个方向的隐含层的输出在输出层进行融合,对应权值为w4和w6。输出层最终得到了具有双向信息的特征。按时序输入微博语句的词向量,并对训练集迭代20次,即训练集在深度学习模型中重复载入20次,使神经网络中的权值变化趋于稳定。
步骤5:用训练好的模型对待检测数据进行分类检测,得到检测结果。通过不同的模型和方法对文本内容进行特征提取,从而载入深度学习模型中进行训练和分类。利用步骤4生成微博的句子级词向量。另外,由于微博本身的特点,微博除了内容特征以外,还有许多其他文本不具备的社会特征,比如评论数量,转发人数,客户端类型,以及用户自身的一些信息等等。使用训练好的LTSM模型来组合每条微博语句的词向量生成句子级向量,并通过加入这些微博的社会特征来分析其对谣言鉴别的影响。
下面用准确率作为检测结果的评价指标,LSTM模型和BLSTM模型的识别结果参见表1。
表1
对比不同的LSTM模型来看,双向LSTM整体效果更好,LSTM模型的准确率其次,即准确率随着模型的复杂度提升而提高。双向LSTM结合了前向和后向两个方向的时序,较之单向的LSTM模型,增强了对微博语句的理解,提升了模型的整体计算强度,对谣言的鉴别有更好的准确率。
Claims (3)
1.一种基于BLSTM的微博谣言检测方法,其特征在于包括以下步骤:
1)收集微博网络数据作为样本数据;
2)对样本数据进行预处理;
3)用word2vec方法构建样本句矩阵;
4)对待检测的微博数据进行预处理;
5)根据对层次的训练模型,对待检测句矩阵进行分类检测,得到检测结果。
2.如权利要求1所述一种基于BLSTM的微博谣言检测方法,其特征在于在步骤2)中,所述预处理包括分词、去停用词、文本向量化。
3.如权利要求1所述一种基于BLSTM的微博谣言检测方法,其特征在于在步骤3)中,所述用word2vec方法构建样本句矩阵的具体方法为:采用BLSTM模型对样本句矩阵进行训练,构建训练模型;BLSTM每一个训练序列向前和向后分别是两个LSTM神经网络,所述两个LSTM神经网络连接一个输出层,提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息,展示的是一个沿着时间展开的双向循环神经网络,6个独特的权值在每一个时步被重复的利用,6个权值分别对应:输入到向前和向后隐含层,隐含层到隐含层自己,向前和向后隐含层到输出层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711436582.8A CN108280057A (zh) | 2017-12-26 | 2017-12-26 | 一种基于blstm的微博谣言检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711436582.8A CN108280057A (zh) | 2017-12-26 | 2017-12-26 | 一种基于blstm的微博谣言检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108280057A true CN108280057A (zh) | 2018-07-13 |
Family
ID=62802319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711436582.8A Pending CN108280057A (zh) | 2017-12-26 | 2017-12-26 | 一种基于blstm的微博谣言检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280057A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362818A (zh) * | 2019-06-06 | 2019-10-22 | 中国科学院信息工程研究所 | 基于用户关系结构特征的微博谣言检测方法和系统 |
CN110473571A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于短视频语音的情感识别方法和装置 |
CN110688722A (zh) * | 2019-10-17 | 2020-01-14 | 深制科技(苏州)有限公司 | 一种基于深度学习的零部件属性矩阵自动生成方法 |
CN110909125A (zh) * | 2019-10-30 | 2020-03-24 | 中山大学 | 推文级社会媒体谣言检测方法 |
CN111475649A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于深度学习的虚假新闻预测方法、系统、装置、介质 |
CN111966786A (zh) * | 2020-07-31 | 2020-11-20 | 南京邮电大学 | 一种微博谣言检测方法 |
CN112215001A (zh) * | 2020-10-29 | 2021-01-12 | 北京信息科技大学 | 一种谣言识别方法及系统 |
CN112256945A (zh) * | 2020-11-06 | 2021-01-22 | 四川大学 | 一种基于深度神经网络的社交网络粤语谣言检测方法 |
CN112560495A (zh) * | 2020-12-09 | 2021-03-26 | 新疆师范大学 | 一种基于情感分析的微博谣言检测方法 |
CN113283535A (zh) * | 2021-06-11 | 2021-08-20 | 浙江工业大学 | 一种融合多模态特征的虚假消息检测方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126492A (zh) * | 2016-06-07 | 2016-11-16 | 北京高地信息技术有限公司 | 基于双向lstm神经网络的语句识别方法及装置 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
-
2017
- 2017-12-26 CN CN201711436582.8A patent/CN108280057A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126492A (zh) * | 2016-06-07 | 2016-11-16 | 北京高地信息技术有限公司 | 基于双向lstm神经网络的语句识别方法及装置 |
CN106528528A (zh) * | 2016-10-18 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 文本情感分析的方法及装置 |
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
Non-Patent Citations (1)
Title |
---|
张洪刚 等: "基于双向长短时记忆模型的中文分词方法", 《华南理工大学学报(自然科学版)》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362818A (zh) * | 2019-06-06 | 2019-10-22 | 中国科学院信息工程研究所 | 基于用户关系结构特征的微博谣言检测方法和系统 |
CN110473571A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于短视频语音的情感识别方法和装置 |
CN110688722A (zh) * | 2019-10-17 | 2020-01-14 | 深制科技(苏州)有限公司 | 一种基于深度学习的零部件属性矩阵自动生成方法 |
CN110688722B (zh) * | 2019-10-17 | 2023-08-08 | 深制科技(苏州)有限公司 | 一种基于深度学习的零部件属性矩阵自动生成方法 |
CN110909125B (zh) * | 2019-10-30 | 2022-11-15 | 中山大学 | 推文级社会媒体谣言检测方法 |
CN110909125A (zh) * | 2019-10-30 | 2020-03-24 | 中山大学 | 推文级社会媒体谣言检测方法 |
CN111475649A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于深度学习的虚假新闻预测方法、系统、装置、介质 |
CN111475649B (zh) * | 2020-04-02 | 2023-04-07 | 中国人民解放军国防科技大学 | 基于深度学习的虚假新闻预测方法、系统、装置、介质 |
CN111966786B (zh) * | 2020-07-31 | 2022-10-25 | 南京邮电大学 | 一种微博谣言检测方法 |
CN111966786A (zh) * | 2020-07-31 | 2020-11-20 | 南京邮电大学 | 一种微博谣言检测方法 |
CN112215001A (zh) * | 2020-10-29 | 2021-01-12 | 北京信息科技大学 | 一种谣言识别方法及系统 |
CN112256945A (zh) * | 2020-11-06 | 2021-01-22 | 四川大学 | 一种基于深度神经网络的社交网络粤语谣言检测方法 |
CN112256945B (zh) * | 2020-11-06 | 2022-04-29 | 四川大学 | 一种基于深度神经网络的社交网络粤语谣言检测方法 |
CN112560495A (zh) * | 2020-12-09 | 2021-03-26 | 新疆师范大学 | 一种基于情感分析的微博谣言检测方法 |
CN112560495B (zh) * | 2020-12-09 | 2024-03-15 | 新疆师范大学 | 一种基于情感分析的微博谣言检测方法 |
CN113283535A (zh) * | 2021-06-11 | 2021-08-20 | 浙江工业大学 | 一种融合多模态特征的虚假消息检测方法和装置 |
CN113283535B (zh) * | 2021-06-11 | 2024-03-29 | 浙江工业大学 | 一种融合多模态特征的虚假消息检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
CN108197109B (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN108959270A (zh) | 一种基于深度学习的实体链接方法 | |
CN107992596A (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN105354216B (zh) | 一种中文微博话题信息处理方法 | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与系统 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
Najafi et al. | Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis. | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN110321918A (zh) | 基于微博的舆论机器人系统情感分析和图像标注的方法 | |
Ke et al. | A novel approach for cantonese rumor detection based on deep neural network | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
Baria et al. | Theoretical evaluation of machine and deep learning for detecting fake news | |
CN109086443A (zh) | 基于主题的社交媒体短文本在线聚类方法 | |
Sahmoud et al. | At-odtsa: a dataset of arabic tweets for open domain targeted sentiment analysis | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180713 |