CN112215001A - 一种谣言识别方法及系统 - Google Patents

一种谣言识别方法及系统 Download PDF

Info

Publication number
CN112215001A
CN112215001A CN202011178943.5A CN202011178943A CN112215001A CN 112215001 A CN112215001 A CN 112215001A CN 202011178943 A CN202011178943 A CN 202011178943A CN 112215001 A CN112215001 A CN 112215001A
Authority
CN
China
Prior art keywords
word vector
rumor
training
data
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011178943.5A
Other languages
English (en)
Inventor
康海燕
蒋鸿玲
方铭浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202011178943.5A priority Critical patent/CN112215001A/zh
Publication of CN112215001A publication Critical patent/CN112215001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种谣言识别方法及系统,方法包括:获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;对所述词向量训练数据进行分割,得到训练集和验证集;对所述词向量训练数据进行训练,得到词向量模型;采用所述词向量模型和所述训练集对Attention Bi‑LSTM模型进行训练;采用训练好的Attention Bi‑LSTM模型对未知语料进行谣言识别。本发明中的上述方案能够拥有长期记忆,快速识别出改头换面,进行二次传播的谣言。

Description

一种谣言识别方法及系统
技术领域
本发明涉及谣言识别领域,特别是涉及一种谣言识别方法及系统。
背景技术
微博、微信等社交媒体上广泛传播着食品、药品、健康等方面的谣言,屡禁不止。
新浪微博的谣言识别机制采用用户举报和人工审核的方法,24小时不间断监控,建立用户举报参与体制。
微信推出小程序-辟谣助手,联合多家权威机构组建微信辟谣中心,对自媒体和个人发布的文章进行筛选审查,确定为谣言后收集、整理到谣言样本库,标记为谣言文章再提醒其他用户。用户可以在这个小程序里搜索关键字来查看文章是否为谣言。并且已确定为谣言的文章在被用户阅读到的时候,辟谣助手会发出提醒。
其他机构辟谣机制也大同小异,均采取人工监督、审核机制。例如人民日报等新闻媒体,均创建辟谣专栏,定期科普流传最火的谣言新闻。
用户阅读文章后,发现是谣言并举报,由平台进行人工审核,确定是谣言并做标记。但如果谣言发布者改头换面再次发布,则会产生二次传播的新谣言。
上述谣言的识别方法效率十分低下,只有被核实的文章才会进入谣言样本库,用户才能在阅读时被提醒,而如果谣言改头换面,打乱语言重新包装,则生成了一篇新的文章,只有再经过用户举报-核实-收集-提醒整个流程才能杀死这篇新谣言,进入一个恶性循环,不能有效遏制谣言的传播。并且现有方法人工成本高昂,消耗大量的人力物力资源。
因此,对于谣言的识别,并且如何高效准确解决社交媒体中谣言二次传播的问题显得尤为重要。
基于此,本发明提出谣言自动化识别方法。利用深度学习算法,设计并训练谣言识别模型,从而实现自动化谣言识别,能够降低成本,提高效率。尤为重要的是,针对谣言二次传播问题,本发明采用的方法能够拥有长期记忆,快速识别出改头换面,进行二次传播的谣言。
发明内容
本发明的目的是提供一种谣言识别方法及系统,能够拥有长期记忆,快速识别出改头换面,进行二次传播的谣言。
为实现上述目的,本发明提供了如下方案:
一种谣言识别方法,所述识别方法包括:
获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;
对所述词向量训练数据进行分割,得到训练集和验证集;
对所述词向量训练数据进行训练,得到词向量模型;
采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练;
采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。
可选的,所述获取词向量训练数据具体包括:
利用爬虫爬取新闻媒体、社交网站的谣言数据;
利用爬虫爬取新闻媒体、社交网站的所有类别新闻数据作为正常数据;
将所述谣言数据和所述正常数据进行分词处理;
将分词后的谣言数据和分词后的正常数据作为词向量训练数据。
可选的,对所述词向量训练数据进行训练,得到词向量模型具体包括:
采用word2vec对所述词向量训练数据进行训练,得到词向量模型。
可选的,所述训练好的Attention Bi-LSTM模型包括:输入层、词向量层、双向LSTM层、Attention层和输出层。
可选的,所述输入层用于将训练集中每个句子定义为T个单词组成的句子S={x1,x2,…,xT},每个词定义为inputXi,标签定义为inputY。
可选的,所述词向量层用于将每个词inputXi映射为一个固定长度的词向量ei,并基于词向量ei构建词向量矩阵W;W={e1,e2,…,eT}。
可选的,所述双向LSTM层用于对词向量矩阵W进行计算,得到句子向量,计算过程如下:
计算输入门:
it=σ(Wi[ht-1,Xt]+bi)
Figure BDA0002749550580000031
其中,Xt表示当前输入,ht-1为前一时刻cell的隐状态,Wi为输入层权重,bi为输入层偏置,σ为激活函数;
计算遗忘门:
ft=σ(Wf[ht-1,Xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻cell的隐层状态,Xt表示当前输入,ft表示遗忘门的值,σ表示激活函数;
计算当前时刻神经元的长短记忆状态:
Figure BDA0002749550580000032
其中,ft表示遗忘门的值,Ct-1表示上一时刻cell的状态,it表示输入门的值,
Figure BDA0002749550580000033
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
计算输出门:
Ot=σ(W0[ht-1,Xt]+b0),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻cell的隐层状态,σ表示激活函数;
计算输出门的当前隐藏状态:
ht=ot×tanh(Ct),其中,ot表示输出门的值,Ct表示当前时刻细胞的状态。
可选的,所述Attention层用于将LSTM层输出的权重组合成矩阵H:[h1,h2,…,ht],具体包括:
将所述句子向量映射到-1到1范围内,M=tanh(H),其中,H为LSTM层的输出,M是将H映射到[-1,1]区间的结果;
乘以原权重矩阵,α=softmax(WTM);
把权重输出通过tanh映射,输出三维矩阵包含词向量权重和时序权重h*类别数,r=HαT
可选的,所述输出层用于通过全连接把高维变到低维,同时把原始特征映射到各个隐语义节点,得到预测标签y,具体采用以下公式:
Figure BDA0002749550580000041
其中,P是求句子S的是标签y的似然函数,
Figure BDA0002749550580000042
是求最大标签y的最大似然函数,公式如下:
Figure BDA0002749550580000043
正样本的损失函数为:
Figure BDA0002749550580000044
本发明另外提供一种谣言识别系统,所述系统包括:
词向量训练数据获取模块,用于获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;
训练数据分割模块,用于对所述词向量训练数据进行分割,得到训练集和验证集;
第一训练模块,用于对所述词向量训练数据进行训练,得到词向量模型;
第二训练模块,用于采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练;
谣言识别模块,用于采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
首先,能够快速、准确地实现自动识别,本发明采用LSTM模型和Word Embedding(词向量)机制,能有效针对文本分类中数据表示的高维度难以训练和向量表示特征无关的问题,将文本数据映射到一个低维度的实数向量,避免了高维度的输入导致LSTM模型产生维度灾难的问题。同时词向量机制训练出的词向量具有同义词向量相似的特征,作为LSTM模型的输入,提高了分类器的性能,减少了特征向量提取过程中的信息丢失和信息冗余。因此,本发明基于Attention机制的Bi-LSTM神经网络模型进行关系抽取能够快速、准确提取出海量非结构化信息中的结构化知识,自动发现对于分类起到关键作用的词,使得该模型可以从每个句子中捕获最重要的语义信息。其次,能够针对谣言二次传播的有效识别,本发明能及时发现改头换面、重新发布的谣言,对其快速的识别,减少臃肿的识别步骤,提高效率,避免陷入一个缓慢的重新辟谣循环里。本发明采用的神经网络模型进行关系抽取研究,可以学习长期依赖信息。它有一种重复神经网络模块的链式的形式,存在细胞门和遗忘门,来解决循环神经网络中的梯度消失问题,从而保留重要的信息遗弃不重要的信息。Attention机制能够发现那些对于分类起到关键作用的词,使这个模型可以从每个句子中捕获最重要的语义信息,并形成长期的记忆,快速识二次出现的关键信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种谣言识别方法流程图;
图2为本发明实施例一种谣言识别方法架构图;
图3为本发明实施例Attention Bi-LSTM模型结构示意图;
图4为本发明实施例一种谣言识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种谣言识别方法及系统,能够拥有长期记忆,快速识别出改头换面,进行二次传播的谣言。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种谣言识别方法流程图,图2为本发明实施例一种谣言识别方法架构图,结合图1和图2,本发明中的方法包括:
步骤101:获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据。
具体的,步骤101包括:
①谣言数据收集:利用爬虫爬取流言百科、微博辟谣中心等新闻媒体、社交网站的谣言数据。
②正常数据收集:利用爬虫爬取搜狐新闻的所有类别新闻数据。
③将收集的所有谣言数据与正常数据无标记存储为wordEmbding.txt,称为“词向量训练数据”,再利用jieba分词将收集的数据进行分词处理,去除无用的停用词,标点符号等,得到谣言词汇数据和正常词汇数据。
④将收集的所有谣言数据与正常数据有标记存储为indexData.csv,其中谣言数据标记为y=0,正常数据标记为y=1,记为“索引数据”indexData。
步骤102:对所述词向量训练数据进行分割,得到训练集和验证集。
步骤103:对所述词向量训练数据进行训练,得到词向量模型。
具体的,步骤102和步骤103中,本发明中采用word2vec方法来训练词向量模型。之所以要训练词向量,是因为在处理特定领域的数据时,很多领域的词在其他公共语料里面是没有的,这就要求训练此领域的特有词向量模型,来处理特定领域的数据,确保一些特殊但是关键的词能建立索引表,使得模型更加准确。
本发明中,将词向量训练数据“wordEmbdiing.txt”做为输入,使用Gensim模块(采用Gensim模块中的word2vecAPI来训练词向量模型,Gensim模块是开源的,也是最常用的词向量训练工具)对“词向量训练数据”wordEmbding.txt进行训练,并最终得到词向量模型,保存到“word2Vec.bin”文件中。经过多次测试,在特定语料环境里,训练过程中设置相关参数为:
size:200(词向量维度即词语的特征,反应词语词之间的关系);
window:5(词向量上下文最大距离);
iter:8(随机梯度下降法中迭代最大次数);
min_count:1(计算除词向量的最小词频并去除)。
最终训练出词向量模型作为输出,保存在“word2Vec.bin”文件中,用于训练Attention Bi-LSTM算法模型。
从indexData.csv文件中读取数据集,将句子分割成词表示,并去除低频词和停用词,通过特征提取将标签转换成索引表示,保存为label2idx.json。将数据集中的单词从word2vec中取出预训练好的词向量并将词映射成索引表示,保存成word2idx.json的数据格式。设置训练集的比例rate为0.9,即训练数据与验证数据的比例为9:1。将映射为索引后的正常和谣言数据(word2idx.json)及其标签数据(label2idx.json)按照rate设置的比例,自动分割生成训练集和验证集。
步骤104:采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练。
该步骤采用Attention Bi-LSTM模型,与传统RNN模型相比,采取的双层LSTM能解决RNN中的梯度消失问题。因为LSTM具有门机制,能够控制每一个LSTM单元保留的历史信息的程度以及记忆当前输入的信息,保留重要特征,丢弃不重要的特征。通过引入第二层来扩展单向LSTM网络,其中隐藏到隐藏的连接以相反的时间顺序流动。因此,该模型能够利用过去和未来的信息。本发明同时引入了Attention机制,解决传统中文文本分类对于长序列编码解码精度下降的问题,计算每个时序的权重,作为特征向量提高模型精确度。
本发明中,Attention Bi-LSTM模型包括五层结构,分别是输入层input layer、词向量层Embedding layer、双向LSTM层、Attention层和输出层output layer,如图3所示。
本发明中Attention Bi-LSTM模型的相关参数如下:
hiddenSizes=[256,128](LSTM结构的神经元个为128,用于记忆和储存过去状态的节点个数256);
dropoutKeepProb=0.5(每个元素被保留的概率);
l2RegLambda=0.0(正则化强度);
num_classes(样本的类别数)。
(1)输入层中,以句子为单位,将训练集中每个句子定义为T个单词组成的句子S={x1,x2,…,xT},每个词输入定义为:inputXi,标签输入定义为:inputY。
(2)词向量层中,将句子中的每个词inputXi映射为一个固定长度的词向量ei。ei是句子S中每个词inputXi被转换成实值向量,即从训练好的词向量模型“word2Vec.bin”中,找到该词inputXi对应的词向量表示ei。句子中的多个ei构成一个词向量矩阵W,作为双向LSTM层的输入。W={e1,e2,…,eT}。
(3)双向LSTM层中,对词向量矩阵W进行计算,得到更高级别的句子向量。双向LSTM层包含前向和后向LSTM两层,每层结构一样。其中每个cell(神经元)包含输入门it、遗忘门ft、长短记忆状态
Figure BDA0002749550580000081
和输出门Ot四部分。t时刻cell的输入包含:由当前输入xt;前一时刻cell的隐状态ht-1;前一时刻cell的状态ct-1。输出数据的维度是二维的:权重h和分类的类别数。将W中的每个词向量作为LSTM中每个cell的输入,W是句子对应的词嵌入矩阵,b为偏置,σ是softmax激活函数,tanh是激活函数。一次性将batch_size=128个数据输入到LSTM中进行训练,完成一次正反向传播和参数更新过程,计算过程如下:
计算输入门:
it=σ(Wi[ht-1,xt]+bi)
Figure BDA0002749550580000082
其中,Xt表示当前输入,ht-1为前一时刻cell的隐状态,Wi为输入层权重,bi为输入层偏置,σ为激活函数;
计算遗忘门:(控制对于之前输入记忆Ct-1的遗忘程度)
ft=σ(Wf[ht-1,Xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻cell的隐层状态,Xt表示当前输入,ft表示遗忘门的值,σ表示激活函数;
计算当前时刻神经元的长短记忆状态:
Figure BDA0002749550580000091
其中,ft表示遗忘门的值,Ct-1表示上一时刻cell的状态,it表示输入门的值,
Figure BDA0002749550580000092
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
计算输出门:
Ot=σ(W0[ht-1,Xt]+b0),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻cell的隐层状态,σ表示激活函数;
计算输出门的当前隐藏状态:
ht=ot×tanh(Ct),其中,ot表示输出门的值,Ct表示当前时刻细胞的状态。
4)Attention层中,对双向LSTM的结果使用Attention加权。将LSTM层输出的权重组合成矩阵H:[h1,h2,…,ht],注意力就是反映每一个单词的时序权重对关系分类重要程度,因此学习一个时序权重向量来得到最好的输出。
先把向量映射到-1到1的范围之内,公式为:
M=tanh(H),其中,H为LSTM层的输出,M是将H映射到[-1,1]区间的结果;
再乘以原权重矩阵增加特征的的影响,公式为:
α=softmax(WTM)
最后把权重输出通过tanh映射,输出三维矩阵包含词向量权重和时序权重h*、类别数,公式为:
r=HαT
(5)输出层中,通过全连接把高维变到低维,同时把原始特征映射到各个隐语义节点(hidden node),得到预测标签y。将上一层得到的隐状态作为输入,P是求句子S的是标签y的似然函数,公式如下:
Figure BDA0002749550580000093
Figure BDA0002749550580000094
是求最大标签y的最大似然函数,公式如下:
Figure BDA0002749550580000101
样本的交叉熵损失函数:
Figure BDA0002749550580000102
其中向量θ是设置的模型参数,维度为m,ti是实际类别的one-hot表示,yi是softmax估计出的每个类别的概率,m为类别数2,λ是L2正则化的参数。为减轻过拟合,增加了惩罚函数||θ||2,即正则项,本发明中使用L2正则化,即求取向量θ中各元素平方和的开平方,即
Figure BDA0002749550580000103
在训练训练过程中,采用样本的交叉熵损失函数对网络进行训练,设置损失函数阈值以及最大训练次数,当损失函数小于阈值或者达到最大训练次数时,训练结束,保存最终的模型参数,供谣言识别时使用。
本发明的相关参数最优取值如下:
LSTM结构的神经元个数:128;
学习率:0.001;
一次训练所选取的样本数Batch Size:128。
步骤105:采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。
通过调用上一步骤训练并保存好的Attention Bi-LSTM模型对未知语料进行识别,从而识别谣言。此步骤用softmax分类器来预测一个句子S的标签y,分类器将隐藏状态h*作为输入,计算公式如下:
Figure BDA0002749550580000104
Figure BDA0002749550580000105
图4为本发明实施例一种谣言识别系统结构示意图,如图4所示,所述系统包括:
词向量训练数据获取模块201,用于获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;
训练数据分割模块202,用于对所述词向量训练数据进行分割,得到训练集和验证集;
第一训练模块203,用于对所述词向量训练数据进行训练,得到词向量模型;
第二训练模块204,用于采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练;
谣言识别模块205,用于采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种谣言识别方法,其特征在于,所述识别方法包括:
获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;
对所述词向量训练数据进行分割,得到训练集和验证集;
对所述词向量训练数据进行训练,得到词向量模型;
采用所述词向量模型和所述训练集对AttentionBi-LSTM模型进行训练;
采用训练好的AttentionBi-LSTM模型对未知语料进行谣言识别。
2.根据权利要求1所述的谣言识别方法,其特征在于,所述获取词向量训练数据具体包括:
利用爬虫爬取新闻媒体、社交网站的谣言数据;
利用爬虫爬取新闻媒体、社交网站的所有类别新闻数据作为正常数据;
将所述谣言数据和所述正常数据进行分词处理;
将分词后的谣言数据和分词后的正常数据作为词向量训练数据。
3.根据权利要求1所述的谣言识别方法,其特征在于,对所述词向量训练数据进行训练,得到词向量模型具体包括:
采用word2vec对所述词向量训练数据进行训练,得到词向量模型。
4.根据权利要求1所述的谣言识别方法,其特征在于,所述训练好的AttentionBi-LSTM模型包括:输入层、词向量层、双向LSTM层、Attention层和输出层。
5.根据权利要求4所述的谣言识别方法,其特征在于,所述输入层用于将训练集中每个句子定义为T个单词组成的句子S={x1,x2,…,xT},每个词定义为inputXi,标签定义为inputY。
6.根据权利要求5所述的谣言识别方法,其特征在于,所述词向量层用于将每个词inputXi映射为一个固定长度的词向量ei,并基于词向量ei构建词向量矩阵W;W={e1,e2,…,eT}。
7.根据权利要求6所述的谣言识别方法,其特征在于,所述双向LSTM层用于对词向量矩阵W进行计算,得到句子向量,计算过程如下:
计算输入门:
it=σ(Wi[ht-1,Xt]+bi)
Figure FDA0002749550570000021
其中,Xt表示当前输入,ht-1为前一时刻cell的隐状态,Wi为输入层权重,bi为输入层偏置,σ为激活函数;
计算遗忘门:
ft=σ(Wf[ht-1,Xt]+bf),其中,Wf表示遗忘门的权重,bf表示遗忘门的偏移向量,ht-1表示前一时刻cell的隐层状态,Xt表示当前输入,ft表示遗忘门的值,σ表示激活函数;
计算当前时刻神经元的长短记忆状态:
Figure FDA0002749550570000022
其中,ft表示遗忘门的值,Ct-1表示上一时刻cell的状态,it表示输入门的值,
Figure FDA0002749550570000023
其中,Wc表示单元状态的权重,bc表示单元状态的偏移量,tanh表示双曲函数;
计算输出门:
Ot=σ(W0[ht-1,Xt]+b0),其中,Wo表示输出门的权重,bo表示输出门的偏移量,ot表示输出门的值,ht-1表示前一时刻cell的隐层状态,σ表示激活函数;
计算输出门的当前隐藏状态:
ht=ot×tanh(Ct),其中,ot表示输出门的值,Ct表示当前时刻细胞的状态。
8.根据权利要求7所述的谣言识别方法,其特征在于,所述Attention层用于将LSTM层输出的权重组合成矩阵H:[h1,h2,…,ht],具体包括:
将所述句子向量映射到-1到1范围内,M=tanh(H);其中,H为LSTM层的输出,M是将H映射到[-1,1]区间的结果;
乘以原权重矩阵,a=softmax(WTM);
把权重输出通过tanh映射,输出三维矩阵包含词向量权重和时序权重h*类别数,r=HaT
9.根据权利要求4所述的谣言识别方法,其特征在于,所述输出层用于通过全连接把高维变到低维,同时把原始特征映射到各个隐语义节点,得到预测标签y,具体采用以下公式:
Figure FDA0002749550570000031
其中,P是求句子S的是标签y的似然函数,
Figure FDA0002749550570000032
是求最大标签y的最大似然函数,公式如下:
Figure FDA0002749550570000033
正样本的损失函数为:
Figure FDA0002749550570000034
10.一种谣言识别系统,其特征在于,所述系统包括:
词向量训练数据获取模块,用于获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;
训练数据分割模块,用于对所述词向量训练数据进行分割,得到训练集和验证集;
第一训练模块,用于对所述词向量训练数据进行训练,得到词向量模型;
第二训练模块,用于采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练;
谣言识别模块,用于采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。
CN202011178943.5A 2020-10-29 2020-10-29 一种谣言识别方法及系统 Pending CN112215001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011178943.5A CN112215001A (zh) 2020-10-29 2020-10-29 一种谣言识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011178943.5A CN112215001A (zh) 2020-10-29 2020-10-29 一种谣言识别方法及系统

Publications (1)

Publication Number Publication Date
CN112215001A true CN112215001A (zh) 2021-01-12

Family

ID=74057458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011178943.5A Pending CN112215001A (zh) 2020-10-29 2020-10-29 一种谣言识别方法及系统

Country Status (1)

Country Link
CN (1) CN112215001A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536780A (zh) * 2021-06-29 2021-10-22 华东师范大学 一种基于自然语言处理的企业破产案件智能辅助判案方法
CN113535948A (zh) * 2021-06-02 2021-10-22 中国人民解放军海军工程大学 引入要点信息的LSTM-Attention文本分类方法
CN113779355A (zh) * 2021-08-18 2021-12-10 中国人民解放军战略支援部队信息工程大学 基于区块链的网络谣言溯源取证方法及系统
CN115828906A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于nlp的网络异常言论分析监测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280057A (zh) * 2017-12-26 2018-07-13 厦门大学 一种基于blstm的微博谣言检测方法
CN108614855A (zh) * 2018-03-19 2018-10-02 众安信息技术服务有限公司 一种谣言识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280057A (zh) * 2017-12-26 2018-07-13 厦门大学 一种基于blstm的微博谣言检测方法
CN108614855A (zh) * 2018-03-19 2018-10-02 众安信息技术服务有限公司 一种谣言识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JYOTI PRAKASH SINGH等: ""Attention-Based LSTM Network for Rumor Veracity Estimationof Tweets"", 《INFORMATION SYSTEMS FRONTIERS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535948A (zh) * 2021-06-02 2021-10-22 中国人民解放军海军工程大学 引入要点信息的LSTM-Attention文本分类方法
CN113535948B (zh) * 2021-06-02 2022-08-16 中国人民解放军海军工程大学 引入要点信息的LSTM-Attention文本分类方法
CN113536780A (zh) * 2021-06-29 2021-10-22 华东师范大学 一种基于自然语言处理的企业破产案件智能辅助判案方法
CN113779355A (zh) * 2021-08-18 2021-12-10 中国人民解放军战略支援部队信息工程大学 基于区块链的网络谣言溯源取证方法及系统
CN113779355B (zh) * 2021-08-18 2023-06-27 中国人民解放军战略支援部队信息工程大学 基于区块链的网络谣言溯源取证方法及系统
CN115828906A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于nlp的网络异常言论分析监测方法

Similar Documents

Publication Publication Date Title
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN112215001A (zh) 一种谣言识别方法及系统
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN110119765A (zh) 一种基于Seq2seq框架的关键词提取方法
CN108319686A (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN112416956B (zh) 一种基于bert和独立循环神经网络的问句分类方法
CN109241377A (zh) 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN113343690B (zh) 一种文本可读性自动评估方法及装置
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN114896519A (zh) 一种基于立场特征的早期谣言检测方法与装置
CN114628008A (zh) 一种基于异质图注意力网络的社交用户抑郁倾向检测方法
Maulana et al. Disaster tweet classification based on geospatial data using the BERT-MLP method
CN114582448A (zh) 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN112766339A (zh) 一种轨迹识别模型训练方法及轨迹识别方法
CN116757218A (zh) 一种基于上下句关系预测的短文本事件共指消解方法
CN111723572A (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
Yang et al. Multi-applicable text classification based on deep neural network
CN112528015B (zh) 在消息交互传播中进行谣言判别的方法及装置
Ren et al. Named-entity recognition method of key population information based on improved BiLSTM-CRF model
Zhang et al. Scene categorization based on object bank

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination