CN108614855A

CN108614855A - 一种谣言识别方法

Info

Publication number: CN108614855A
Application number: CN201810224475.7A
Authority: CN
Inventors: 陈鸿睿; 肖日新; 马斌; 纪其进
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2018-10-02

Abstract

本发明公开了一种谣言识别方法，所述方法包括：抓取有标记的文本内容，对文本进行清洗整理，并分割成句，将文本内容以句为单位存储到数据库中；依据中文分词词库，对分割成句的文本内容进行分词处理，将分词后的内容再次整理，变成模型可读、规范的形式作为模型的输入内容；将分词后的内容通过模型进行高纬度向量化关联映射，再将词向量进行权重上的组合，形成句子向量、段落向量或者文章向量，从模型输出；将处理后的训练语料信息输入到分类器模型进行训练，并输出判定结果；构造待测文本函数，进行谣言判别模型的效果测试。本发明在降低了人力成本的同时，提高了谣言判定的可靠性。

Description

一种谣言识别方法

技术领域

本发明属于互联网和人工智能领域，具体涉及一种谣言识别方法。

背景技术

在当今互联网信息爆发的年代，人们极易获取各式各样的资讯，而面对海量资讯时，人们往往缺少辨明事物本身的能力，会被一些带有专业手法的、传播性质的、捏造的言论所迷惑，从而做出错误，甚至不利于社会发展的判断，这种言论就是人们所熟知的谣言。谣言依据内容所属领域大致可以分为：食品安全、医学健康、科学技术、传说轶事、宠物花草、自然环境6类。谣言可以伤害个人，伤害群体，甚至会伤害到社会，使得人们简单、稳定的人际关系变得复杂、紧张，使得原本比较稳定的社会秩序变得混乱、不稳定。它不仅破坏人们的团结，削弱彼此的信任，甚至会导致社会发展的停滞，社会和谐稳定。不仅仅个人会在谣言面前无力判断，大型的组织机构也常感力所不逮，促使整个社会迫切需要一种可以帮助辨明谣言的工具。

近年来，识别谣言的方法主要分为两种，一种是依赖关键词词袋的方法，另一种是使用传统统计分类方法。对于依赖关键词词袋的方法，主要是依赖情感极性词来识别谣言，而且该方法极度依赖大型的词库和分词技术，需要花费大量的人力物力去搜集、维护不同行业、不同领域的专用术语、专有名词，投入产出比极低。使用传统统计模型，例如朴素贝叶斯、决策树等，这些方法都需要先验经验，或者评判规则，先验经验以及评判规则同样需要大量的专业人士花费大量的时间与精力进行研究与制定。而且，上述方法在面对越来越复杂和隐蔽的陈述性谣言时无法正确判断(例如：紫菜是塑料做的)。

比如，“流感疫苗无法提前预防流感，无需接种”是谣言。虽然流感病毒变异的速度很快，但是流感疫苗仍然具有降低患病率的作用，接种是有意义的。传统的分类方法很难应对这种中性，没有特别关键词的情况。更有甚者，当新词出现时，如“伊波拉无法预防，无需接种流感疫苗”，如果“伊波拉”没有在词库中，则很难判断这个消息是谣言。

发明内容

本发明所要解决的技术问题在于，提供一种谣言识别方法，以解决现有的谣言识别方法不能精确的对谣言进行识别的问题。

通过对大量谣言样本数据的分析，谣言存在若干明显的特征，包括行文风格偏爱使用“哗众取宠”的感叹词(例如：震惊)，文章内容与常识存在很大的逻辑差异，用一些事实刻意隐藏谬误，变化频率很高等。本发明提出了一种句子级别的谣言判别模型系统，可以捕获到文本中情感信息和以及文本上下文逻辑两方面的信息，同时模型是句子级别的，可以准确定位大篇幅文章中的谬误部分；此外，由于文章的情感极性、逻辑规则是不会随着时间的推移而改变，所以还发明了一种基于用户分类和加权的人机协作反馈系统，可以随着时间进行模型的有效优化。

为解决上述技术问题，本发明所采用的技术方案如下：

一种谣言识别方法，所述方法包括：

抓取有标记的文本内容，对文本进行清洗整理，并分割成句，将文本内容以句为单位存储到数据库中；

依据中文分词词库，对分割成句的文本内容进行分词处理，将分词后的内容再次整理，变成模型可读、规范的形式作为模型的输入内容；

将分词后的内容通过模型进行高纬度向量化关联映射，再将词向量进行权重上的组合，形成句子向量、段落向量或者文章向量，从模型输出；

将处理后的训练语料信息输入到分类器模型进行训练，并输出判定结果；

构造待测文本函数，进行谣言判别模型的效果测试。

进一步地，所述方法还包括：

通过用户分类加权系统对待测文本进行谣言判定打分；

基于人机协作的谣言识别反馈模型，以用户分类加权系统的的判定分数为标准，对比谣言判定模型的判定分数，将错误的标注数据保存，迭代更新到谣言判定模型中。

进一步地，所述用户分类加权系统的判定方法包括：通过分析用户关注领域、反馈质量、反馈及时度对用户进行分类及权重评定；分析方式包括用户的遣词造句的专业程度，以及用户的专业知识背景；考察方式包括答题、专栏编辑、问题回答，所有结果与已经建立的知识图谱进行比对，从而得出用户专业程度；其中，每个用户可以专长于若干领域，并在每个专长领域里拥有不同的评定权重。

进一步地，所述谣言识别反馈模型中，搜集用户反馈的待测谣言信息，分析待测谣言的语义以判定其所属类别后将该待测谣言发送至相关领域用户手中，通过用户反馈及用户分类加权系统综合评定后将结果作为谣言判别模型的训练数据，经过积累与审核后再作用到模型中。

进一步地，对基于句子级别的文本内容进行高纬度向量化关联映射采用的方法是，通过skip-gram、cbow、enriched word embedding模型中的一种或多种进行高纬度向量化关联映射。

进一步地，所述方法还包括模型迭代的更新过程，所述模型迭代使用5-fold交叉验证的方式进行，其中，在在模型的训练中，使用基于Huffman树调整后的数据结构技术来对模型的速度进行加速。

进一步地，所述训练模型的效果测试具体包括：模型将文本进行编码，然后进行分句、分词处理，调用谣言判别模型中的分句、分词的函数，进行同样的与训练模型时的预处理工作，使文本内容就变成一个向量的形式呈现；通过读取模型文件得到分类权重值，然后将处理后的待测文本向量与模型训练后的权重进行计算，得到预测结果。

进一步地，用户通过如下两种方式中的一种或两种接入谣言判别模型：一种是通过接入API接口，调用谣言判别模型中代码所展示的predict的函数，将需要的评测的内容作为变量输入；另一种通过测试网页端进行，将待测文本输入到网页端中。

与现有技术相比，本发明所提供的一种谣言识别方法，达到了如下技术效果：

(1)成本代价较低

传统的识别方法主要依赖关键词词袋来标定文本的谣言程度，最近的识别方法基本上使用了传统的统计模型，例如朴素贝叶斯、决策树等。这些方法都存在成本代价较高的情况。对于关键词词袋的方法，需要收集并整理情感积极与消极的词库，而且需要利用大量不同维度，不同行业的专业术语、专有名词等等，不仅获取需要大量的人力物力，维护起来需要更多的资源，并且随着时间的变化还要做出相应的变化。对于传统的监督算法，需要大量的专业人士将他们专业上面的经验进行量化的处理，或者需要制定一整套规则体系，但是这些处理或者规则体系随着时间的变化还要做出相应的应对，有时甚至整个判别体系规则需要重构。上述的方法都呈现出投入产出比极低的情况。而本发明不需要大量的人力物力或者是先验经验以及评判规则，直接处理文本就可以得到需要的输出结果，并且还有制定了基于用户的反馈系统进行内容更新，在一段周期内就可以半自动的完成在线学习，这体现了本发明在成本代价上面展现的优势。

(2)模型性能优异

传统的关键词词袋方法，是基于关键词内容的统计，对情感极性的评判极度依赖具有情感偏向的关键词词库，即使投入大量的人力物力，使得关键词内容尽可能的完备，但还是解决不了一些问题，例如，现实情况下谣言内容极大可能是简单的陈述句，没有任何的情感极性词语出现，这时这种依赖关键词词袋的方法就失灵了，如“荧光材料会产生有害辐射”这种谣言内容就很难通过关键词词袋的方式来判别。而传统统计模型，就需要通过改变规则去适应这种简单的陈述性谣言内容，但是由于规则的处理泛化能力不强，所以同样很难应对这种陈述形式的谣言。本发明是基于上下文逻辑，文本中句子的情感极性判定的，是直接对文本内容的情感极性进行判定，不依托于情感偏向的关键词词库，可以解决陈述句谣言的这种情况。本发明不同于传统方法，在选择规则或者是选择关键词词库时会带有主观考量，而是依据文本的逻辑以及情感极性的规律做出判断。而且情感以及逻辑不会随着时间的改变而改变，在时间这个维度考量，效果也会有优秀，所以本发明在效果上面具有一定的优势，模型的F1分数达到81.353％。

(3)具有时效性，持续性

传统的方法很难应对新热点，新的谣言内容，因为搜集大量新规则或者新关键词内容需要花费大量时间，所以传统的方法没有办法在短时间内容做出相应的调整，在时效性上具有明显的缺陷。而对于谣言，在当下信息飞速传播的环境下，时效性是非常重要的，倘若不能在短时间内对谣言做出判别，可能会对个人，甚至对社会造成不可逆的破坏。相对而言，本发明极大地降低了模型计算的计算复杂度，还引入了人机协作的反馈系统，使得模型可以在短时间内进行信息内容迭代更新并且在线调整，对于新资讯，新热点可以及时跟进，体现出较强的时效性优势。此外，本发明采用的是一种启发式的模型，也是由于情感，逻辑不会随时间改变的特性，随着时间推移、用户的增加，用户的反馈，模型的效果可以逐步提升效果，体现了持续性优势。

(4)具有客观性，延续性

本发明是根据用户输入的内容不断调整模型，来源方和接收方相同，可以提升最终提供的效果与用户的适配程度。而且调整数据语料文本也是来源于网络，在语料文本获取的过程中也不会带有任何主观选择内容，在模型参数选择中也是使模型不断贴近语料文本来进行设定的，也不会存在主观选择的过程，保证了模型效果的客观性。而且本发明人机协作反馈系统可以通过不断与用户交互来提升模型的性能，具有延续性，并且通过反馈系统可以从用户手中获得用户所关注的资讯信息内容，可以在较短的周期内作用于用户，使得模型可以不断贴近使用用户，也让这种谣言分类显现出智能。

附图说明

图1为本发明实施例所述的谣言识别方法的流程示意图。

图2为本发明实施例所述的谣言判别系统的架构图；

图3为本发明实施例所述的用户分类加权系统的架构图。

具体实施方式

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

参照图1、图2所示，本发明实施例所公开的一种谣言识别方法包括如下步骤：

(1)训练数据搜集与清洗

通过本地数据库获取以及直接在网络进行抓取有标记的文本内容，对文本进行整理和清洗，将一些模棱两可的内容，以及一些乱码内容清洗掉。整理后以统一格式进行存储，存储到数据库中。监督学习的训练语料不是整个段落，是以句为单位的，该粒度为谣言的最小单位。具体实施的代码内容如下：

2)预处理

在网上获取分词词库内容，目前中文文本处理还在一定程度上依赖中文分词词库内容，对文本进行分词，将文本内容进行分句输出，仅留下有用的，标记过的内容，并且将文本内容进行分词处理，分词的级别可能是单字，词组或者是组合的形式来进行，将分词后的内容整理，变成模型可读，规范的形式作为模型的输入内容。在对原始数据进行清理时，首先会按照逗号，句号，感叹号等非疑问断句符号进行分句，之后对分开的句子进行分词处理，期间会去除停用词，剔除长度不够(3个词以内)的句子。具体实施的代码内容如下：

(3)使用高维度向量化关联映射

将分词后的文本内容进行高维度向量化关联映射，在本实施例中，不采用one-hotembedding的方法而使用到Skip-gram、CBOW、enriched word embedding等模型，使得每个词或者是字在空间上进行有关联映射，以提高效果和效率。然后将词向量进行某种权重上的组合变成句子向量，甚至是文章段落向量，作为模型最终的输出。本实施例中，在模型训练过程中使用到的Skip-gram等模型，该模型的原理是取一定大小的窗口，即上下文信息，并通过使用高纬度向量化关联映射中生成词向量，如此可捕捉到文本中的上下文逻辑及文本中的情感两方面信息。分词是基本过程，传统的词袋模型是靠关键词划分类别，对分词要求较高，实际应用中经常会遇到OOV(out of vocabulary)的问题，该问题的解决方案是通过大量人力去持续标注本文方法，也是基于分词，但不完全依赖于分词，本发明的模型可以捕获上下文关系这样会降低新词出现对模型效果的影响。具体实施的代码内容如下：

(4)模型训练，迭代与参数调优

将处理后的训练语料信息输入到分类器模型当中进行训练，训练过程中使用相应的自然语言处理技术辅助，以提高效果和效率。

在模型迭代中使用5-fold leave one out cross validation(5-fold弃一法交叉验证)来进行模型的训练，不断调整模型的参数来得到最优参数，得到最优参数后，将所有的数据进行训练得到最后的产出模型。其中在模型的训练过程中使用了基于Huffman树调整后的数据结构技术来对模型的速度进行加速，使得模型计算复杂度从0(h*k)下降到0(h*log2(k))，其中h代表单个模型输入的维度数，k为分类的类别数。在准确度基本没有变动的情况下，使得计算复杂度下降，得到加速的效果，也为后面提供在线学习提供了可能。具体实施实例代码内容如下：

(5)模型效果测试，预测待测文本内容

获得训练模型后，进行模型效果的测试，并且构造预测待测文本函数，使得待测文本进入后，可以进行预测结果。

测试使用的评判标准是通过F1得分值来作为评判，通过计算是召回率与准确率来得到，由于在此是二分类问题，并且测试时，使用了所有的数据，故召回率，准确率和F1得分值都会相等。使用了5-fold leave one out cross validation的方法，得到5个F1得分值，分别为：82.482％，83.457％，78.089％，82.576％，80.159％，求均值后得到81.353％。

预测待测文本内容。将待测文本进行与训练模型同样的预处理：模型会将文本进行编码，编码处理是将输入中的任意编码转变成Unicode来作为标准输入处理，然后进行分句、分词等处理，将调用谣言判别模型中的分句、分词的函数，进行同样与训练模型时的预处理工作，使得待测文本与模型训练输入一致，确保模型能够做出正确的判别，在这一步后文本内容就变成一个向量的形式呈现。

通过读取模型文件得到分类权重值，然后将处理后的待测文本向量与模型训练后的权重进行计算，得到预测结果。计算的方法使用的是SOFTMAX分类函数的办法，每个类预测的概率值公式如下：

其中，c为不同类别，z为处理后的待测文本向量，w为模型训练后的权重值。具体实施代码如下：

本发明实施例是一种基于句子级别的谣言判别模型，基于句子级别处理文本内容，使用了一种启发式的神经网络监督学习模型来判别谣言属实性。并且在处理的过程中，通过Skip-Gram Model、CBOW(连续词袋模型)、enriched word embedding(词嵌入)等模型，创新性地先把分词内容进行高维度向量化关联映射，以提高效果和效率。创新性地运用了Huffman树辅助数据结构技术，加快了模型训练和参数调整的速度，同时使得模型计算复杂度从O(h*k)下降到O(h*log₂(k))，其中h代表单个模型输入的维度数，k为分类的类别数。对训练数据进行表征学习，其中模型会根据文章中一定窗口大小的句子进行逻辑分析以及关联分析，并且通过词与词之间的距离、句子之间的关联去捕获情感信息。

图2是本发明中的谣言判别模型的架构图，上述谣言判别模型用以执行上述的谣言判别方法，所述谣言判别模型的工作原理如下：

1、获取语料:通过爬取，或者用户添加知识；

2、预处理:对语料进行清洗、分词等预处理，得到训练语料；

3、模型训练:使用预处理后的语料进行模型训练；

4、标记反馈:首先使用模型对新的语料进行标记，标记结果通过人工审核，如果有不对的地方，则将该条语料改正后重新加入步骤1中。

现有技术中，在面对越来越复杂和隐蔽的陈述性谣言时无法正确判断。本法吗中，会先通过自身训练数据模型对"待测文本"进行判定，当分值较低的时候(没有相关知识储备)，会使用另外的一种信息:句式。有某些谣言是有种哗众取宠的句式的，本发明通过tf-idf等方法找出了一些相关词(相当于谣言的上下文)，对于隐蔽性陈述性谣言，把这些相关词加入到模型里，会取得一定的效果。如果不是谣言的陈述句也是这个句式，例如"男人看了沉默，水在常温下是液体的"。如果我们的知识库里没有"水在常温下是液体的"类似的知识，也就是训练数据不完备，判断分数会较低，此时会使用“句式”的判断方式，含有"男人看了沉默"这种判定谣言的分值会提高，可能会将该句判定为谣言。本发明加入了新的判定特征，弥补训练数据的不足。

实施例二

参照图3所示，单独通过谣言判别模型对待测文本进行判定仍然存在一些缺陷，本实施例中引入了用户分类加权系统，其实质是通过具有特定标记的用户(某领域的某个水平的用户)对“待测文本”进行谣言判定打分。

用户分类加权系统中的用户包括初始用户和非初始用户两种。

(1)用户分类初始化

新增用户可以通过简单的流程让其选定是否愿意成为志愿者并让其挑选感兴趣或擅长的领域，这部分选择作为该用户的初始化分类，同时该用户的初始化权重为0。

(2)初始化用户权重调整

因为用户的自我评定与客观事实之间可能存在差异，我们需要对初始化后的用户进行评定。评定方法包括问卷调查，已有谣言的考察，所属分类专业知识的考察。通过一系列考察(不一定一次完成)后该用户在考察分类中的权重会重新评定，其评定方式可以采用如下方式：

问卷调查权重为2，已有谣言的考察为3，所属分类专业知识的考察为5。每次考试均为满分为100分的考察，通过最后打分可计算出：

(3)非初始化用户权重调整

所有用户的权重会每月自动下降10％，同时每个月可以申请不超过3次考察，每次考察后权重会采用如下的调整方式：

考察零次：w＝w₀*0.9

考察一次：w＝w₀*0.9+w₁

考察两次：w＝w₀*0.9+(w₁+w₂)/2

考察三次：w＝w₀*0.9+(w₁+w₂+w₃)/3

其中，为上个月的权重值ω₁，ω₂，ω₃，分别为第一次，第二次，第三次考察的权重值，其计算方法和“初始化用户权重调整”中的计算方法一致。

本发明实施例中，通过分析用户关注领域、反馈质量、反馈及时度等对用户进行分类及权重评定。分析方式不仅考虑用户的遣词造句的专业程度，同时会考虑用户的专业知识背景。考察方式包括答题、专栏编辑、问题回答等，所有结果会与已经建立的知识图谱进行比对，从而得出用户专业程度。每个用户可以专长于若干领域，并在每个专长领域里拥有不同的评定权重，如此能够获得更精确的用户判定。

实施例三

基于人机协作的谣言识别反馈模型，以“用户加权判定”为标准，对比“谣言判别模型”的打分，将错误的标注数据保存，迭代到模型中。

本实施例中，用户通过两种方式接入谣言判别模型，一种是通过接入API接口，调用上述谣言判别模型(5)中“模型效果测试”代码所展示的predict的函数，将需要的评测的内容作为变量输入；另一种通过测试网页端进行，将待测文本输入到网页端中。

搜集用户输入的待测谣言文本后，可以是链接也可以是文本数据，随后同样是调用谣言判断模型中预测函数，得到判断结果，同时将预评结果和文本内容都会记录到数据库中。

在该文本分类至用户所属若干类别中(可以存在于不止一个类别)，从数据库中随机抽取若干权重值不低于指定阈值的优质用户。将该谣言文本发送至选定用户的客户端中，通过用户反馈打分并与用户的权重线性加权后得到最后该文本的判定结果，并将文本与结果反馈至模型中以调整模型的结果。

本发明实施例中，搜集用户反馈的待测谣言信息，分析待测谣言的语义以判定其所属类别(现有的类别包括：食品安全、医药、生物、物力、化学化工)后将该待测谣言发送至相关领域用户手中(相关用户是通过用户分类加权系统获得)，通过用户反馈及分类用户权重系统综合评定后将结果作为谣言判别模型的训练数据，经过积累与审核后再作用到模型中。

与现有技术相比，本发明提供了一套基于句子情感提取、语义分析的谣言识别方法，该谣言识别方法应用了谣言识别系统、用户几圈系统及人机协作反馈系统。谣言识别系统使用了一种启发式的监督学习模型，加以高维度关联映射，辅助数据结构加快训练速度等创新优化方法，来捕获文本中的情感极性信息和上下文语义逻辑，从而对谣言进行判定。为了不断优化识别模型，设计了基于用户评价体系的人机协作反馈系统，使得整个系统可以随着数据扩大，时间推移，效果不断迭代提高。本发明对陈述性谣言的识别具有比较明显的优势，模型的F1(F1为准确率与召回率的调和平均的两倍，是对准确率和召回率的整体评价)分数可达到81.353％。

上述说明示出并描述了本发明的若干推荐实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述指导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种谣言识别方法，其特征在于，所述方法包括：

构造待测文本函数，进行谣言判别模型的效果测试。

2.如权利要求1所述的谣言识别方法，其特征在于，所述方法还包括：

通过用户分类加权系统对待测文本进行谣言判定打分；

3.如权利要求2所述的谣言识别方法，其特征在于，所述用户分类加权系统的判定方法包括：通过分析用户关注领域、反馈质量、反馈及时度对用户进行分类及权重评定；分析方式包括用户的遣词造句的专业程度，以及用户的专业知识背景；考察方式包括答题、专栏编辑、问题回答，所有结果与已经建立的知识图谱进行比对，从而得出用户专业程度；其中，每个用户可以专长于若干领域，并在每个专长领域里拥有不同的评定权重。

4.如权利要求3所述的谣言识别方法，其特征在于，所述谣言识别反馈模型中，搜集用户反馈的待测谣言信息，分析待测谣言的语义以判定其所属类别后将该待测谣言发送至相关领域用户手中，通过用户反馈及用户分类加权系统综合评定后将结果作为谣言判别模型的训练数据，经过积累与审核后再作用到谣言识别模型中。

5.如权利要求1所述的谣言识别方法，其特征在于，对基于句子级别的文本内容进行高纬度向量化关联映射采用的方法是，通过skip-gram、cbow、enriched word embedding模型中的一种或多种进行高纬度向量化关联映射。

6.如权利要求5所述的谣言识别方法，其特征在于，所述方法还包括模型迭代的更新过程，所述模型迭代使用5-fold交叉验证的方式进行，其中，在模型的训练中，使用基于Huffman树调整后的数据结构技术来对模型的速度进行加速。

7.如权利要求1所述的谣言识别方法，其特征在于，所述训练模型的效果测试具体包括：模型将文本进行编码，然后进行分句、分词处理，调用谣言判别模型中的分句、分词的函数，进行同样的与训练模型时的预处理工作，使文本内容就变成一个向量的形式呈现；通过读取模型文件得到分类权重值，然后将处理后的待测文本向量与模型训练后的权重进行计算，得到预测结果。

8.如权利要求2所述的谣言识别方法，其特征在于，用户通过如下两种方式中的一种或两种接入谣言判别模型：一种是通过接入API接口，调用谣言判别模型中代码所展示的predict的函数，将需要的评测的内容作为变量输入；另一种通过测试网页端进行，将待测文本输入到网页端中。