CN110287314B

CN110287314B - 基于无监督聚类的长文本可信度评估方法及系统

Info

Publication number: CN110287314B
Application number: CN201910418900.0A
Authority: CN
Inventors: 刘春阳; 陈志鹏; 曹娟; 张旭; 王鹏; 张翔宇; 李锦涛; 谢添
Original assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2021-08-06
Anticipated expiration: 2039-05-20
Also published as: CN110287314A

Abstract

本发明涉及一种基于无监督聚类的长文本可信度评估方法，包括：以已知长文本获取训练数据，提取该训练数据的训练特征以构建训练特征向量集，对该训练特征向量集进行无监督聚类，得到多个训练类心；以待评估长文本获取评估数据，提取该评估数据的评估特征向量；获取该评估特征向量相对该训练类心的评估值，并以该评估值得到该待评估长文本的可信度。本发明通过无监督聚类对长文本进行可信度评估，在实施过程中不需要标注数据，节省了人力、物力与时间，避免了数据中标签稀疏带来的困扰；提取了长文本的文本特征，对于可信度评估任务更加适用，使用该模型得到的文本的可信度更具有可解释性，同时在平台之间可以迁移。

Description

基于无监督聚类的长文本可信度评估方法及系统

技术领域

本发明属于人工智能领域，具体涉及一种对长文本的可信度进行评估的系统与方法。

背景技术

现在对互联网上的信息进行内容可信度评估的工作主要集中在对UGC内容的评估，比如微博，推特，贴吧等等。这些平台上的内容文本较短，但是其他信息丰富，比如微博的转发评论信息、参与用户的粉丝与关注、以及微博用户本身的历史微博等等。这些信息都可以提取出丰富的特征，主要分为传播特征、用户特征与内容特征等。较为直接的方法是收集尽可能多的标注数据，提取丰富的特征，然后使用传统的数据挖掘算法训练分类器。近两年来，使用深度学习算法的内容可信度评估方法逐渐兴起，使用LSTM、CNN等网络结构对短文本进行建模，同时融入该条信息的其他统计特征(如社交特征)与图像模态的信息。这类的方法也取得了较好的效果。

在长文本的内容可信度评估主要应用在新闻网站以及自媒体平台上，比如微信的个人公众号、各个新闻门户网站、百度百家号、天涯论坛等等。在长文本上的内容可信度评估方法主要有三类，人为甄别、使用机器学习分类器与平台迁移。当前较为常用且朴素的方法是人为甄别，人为地去判别一个长文本是否可信，期间需要人为地对事实进行查证，相对耗时。使用机器学习分类器对长文本进行分类的方法，参考了短文本上的思路，收集较多的标注数据，提取特征并训练分类器或者使用RNN、CNN等深度学习方法直接文本进行分类建模。由于长文本的不同平台数据难以相互迁移，如微信公众号的长文与天天快报的长文数据在写法、内容、风格上有很大不同，故A平台上的数据和模型在B平台上难以复用。而一个长文本平台上的谣言数据很难收集，并且缺乏平台官方公布的谣言数据，稀缺的标注数据导致训练出的模型很不稳定。由此出现了平台迁移的方法，将现有的技术和工具应用在长文本分析中。具体的方法是，在短文本平台上的收集与长文本内容的信息，将长文本的可信度评估任务转移到短文本平台上，然后用相对较为成熟的短文本可信度评估技术来解决这个问题。这里分为文档粒度与段落粒度的平台迁移，文档粒度的平台迁移指对整个长文本提取关键词，然后在其他平台比如微博上收集对应的信息进行评估，而段落粒度的平台迁移即在短文本平台上分别收集与长文本每个段落内容对应的信息，并进行可信度评估。比如对一篇内容关于“吃蕨菜致癌”的长文本进行可信度评估，这篇长文第一段落介绍蕨菜，第二段落介绍蕨菜为什么致癌，第三段落介绍应对的方法。在微博平台上收集对应信息时，文档粒度的平台迁移即在微博上收集“蕨菜致癌”的相关信息，并利用现有方法进行可信度评估。而段落粒度的平台迁移即在微博平台上分别收集“介绍蕨菜”、“蕨菜为什么致癌”、“应对的方法”的对应信息，并分别进行可信度评估，然后对这些可信度进行整合，得到最后的可信度指标。

上述长本文中的可信度评估方法在使用阶段出现了不同程度的问题。首先人工对长文本进行筛选，甄别虚假的长文本信息十分的耗时耗力。在现实网络环境中，自媒体与新闻媒体每天产生的长文本数据数以万计，很难人工对每一篇长文进行筛查。并且虚假的长文信息在整个长文本预料中占比十分小，每天产生的新闻数据中仅有十分少的新闻具有可疑信息，在这种情形下人工甄别显得不够高效且性价比不高。使用有监督机器学习来进行长文本可信度评估的方法存在的问题在于标注数据很难获得，并且不同平台的数据与模型很难迁移。想要训练出较好的分类模型，需要在一个平台上有足够的标注数据。并且，在标注时，很难评定一个长文是否是可信或者不可信的，很多时候一篇长文本涉及虚假信息仅仅在文本中的某一段落或者某些句子，或者一篇长文本亦真亦假看似不可信但是又难以确切地判定其虚假。而在使用有监督的分类任务时，需要对标注数据有明确的定义，比如是否真假、是否可信等等。第三种长文本可信度评估的方法便是平台迁移的方法，在短文本社交平台上收集与长文对应的信息，并在短文本平台上对这些信息进行可信度评估。这种方式潜在的问题主要源于两方面，一个是数据稀疏，另一个便是内容漂移。数据稀疏在于，很多长文本的内容在短文本平台上难以收集到对应的信息。不同平台的用户社群与内容偏向不同，如微信公众号上的内容主要目的在于吸引点击量，以文本内容与质量为重点，如普及类的长文居多。但是如微博平台等短文本平台的社交性更强，内容更偏娱乐性质，因此存在一些微信公众号上的长文在微博平台没有对应内容。第二个问题便是内容漂移，在一个平台上收集另一个平台上内容相对应的信息容易出现内容不对应的现象，因为现有方法大部分是使用关键词匹配或者搜索，这种方法并不能获取语义上的匹配信息。在这种情形下，便会出现长文内容与在短文本平台上收集的内容不一致，使用这种方式进行可信度评估便会有很大的偏差。

发明内容

针对现有的自动评估方法需要大量的难获取的标注数据并且使用的数据和模型在平台之间难以复用的问题，本发明通过采集一系列的长文本可信度评估相关特征，并使用无监督学习的方法对无标注的数据进行可信度评估。

具体来说，本发明提出一种基于无监督聚类的长文本可信度评估方法，包括：以已知长文本获取训练数据，提取该训练数据的训练特征以构建训练特征向量集，对该训练特征向量集进行无监督聚类，得到多个训练类心；以待评估长文本获取评估数据，提取该评估数据的评估特征向量；获取该评估特征向量相对该训练类心的评估值，并以该评估值得到该待评估长文本的可信度。

本发明所述的长文本可信度评估方法，其中通过数据预处理步骤获取该训练数据和评估数据，该数据预处理步骤包括：删除该已知长文本中的恶意跳转文本，并以文本长度大于文本阈值的已知长文本为第一长文本，对该第一长文本进行段落切分，得到多个第一段落，以该第一段落为该训练数据；删除该待评估长文本中的恶意跳转文本，并以文本长度大于该文本阈值的待评估长文本为第二长文本，对该第二长文本进行段落切分，得到多个第二段落，以该第二段落为该评估数据。

本发明所述的长文本可信度评估方法，其中该训练特征和该评估特征包括：符号特征、基本特征、词性特征和高层语义特征；该符号特征为文本符号统计特征，包括文本数字个数、标点符号个数、指定词个数；该基本特征包括文本平均词长、正文字符数、标题字数、句子数、文本平均句长、段落长度、段落内平均句长；该词性特征包括文本中副词个数、形容词个数、介词个数、名词个数、动词个数、段落中第一人称个数、第二人称个数、第三人称个数、组织机构名个数、人名个数、地名个数；该高层语义特征包括段落情感值、文章标题与段落的相似度、易读性指标、信息量指标、信息度指标、交互性、兴趣性、动人性、说服性、不确定性、逻辑性。

本发明所述的长文本可信度评估方法，其中以第i个评估数据的评估特征向量

对于训练类心

的相似度

作为第i个评估数据对于训练类心

的段落评估值Scorep_j，并获得该待评估长文本相对训练类心

的文本评估值Score_j，以文本评估值Score_j得到该待评估长文本的可信度Score；

其中，

Score＝α₁*Score₁+α₂*Score₂+……+α_n*Score_n；

m为评估数据的数量，n为训练类心

的数量，0＜i＜m，0＜j＜n，α为文本评估值的权重参数，q为段落评估值大于段落评估阈值的评估数据的个数。

本发明还提出一种基于无监督聚类的长文本可信度评估系统，包括：第一数据模块，用于以已知长文本获取训练数据，提取该训练数据的训练特征以构建训练特征向量集，对该训练特征向量集进行无监督聚类，得到多个训练类心；第二数据模块，用于以待评估长文本获取评估数据，提取该评估数据的评估特征向量；评估模块，用于获取该评估特征向量相对该训练类心的评估值，并以该评估值得到该待评估长文本的可信度。

本发明所述的长文本可信度评估系统，还包括：第一预处理模块，用于获取该训练数据；其中通过删除该已知长文本中的恶意跳转文本，并以文本长度大于文本阈值的已知长文本为第一长文本，对该第一长文本进行段落切分，得到多个第一段落，以该第一段落为该训练数据；第二预处理模块，用于获取该评估数据；其中通过删除该待评估长文本中的恶意跳转文本，并以文本长度大于该文本阈值的待评估长文本为第二长文本，对该第二长文本进行段落切分，得到多个第二段落，以该第二段落为该评估数据。

本发明所述的长文本可信度评估系统，其中该训练特征和该评估特征包括：符号特征、基本特征、词性特征和高层语义特征；该符号特征为文本符号统计特征，包括文本数字个数、标点符号个数、指定词个数；该基本特征包括文本平均词长、正文字符数、标题字数、句子数、文本平均句长、段落长度、段落内平均句长；该词性特征包括文本中副词个数、形容词个数、介词个数、名词个数、动词个数、段落中第一人称个数、第二人称个数、第三人称个数、组织机构名个数、人名个数、地名个数；该高层语义特征包括段落情感值、文章标题与段落的相似度、易读性指标、信息量指标、信息度指标、交互性、兴趣性、动人性、说服性、不确定性、逻辑性。

本发明所述的长文本可信度评估系统，其中该评估模块具体包括：以第i个评估数据的评估特征向量

对于训练类心

的相似度

作为第i个评估数据对于训练类心

的段落评估值Scorep_j，并获得该待评估长文本相对训练类心

其中，

Score＝α₁*Score₁+α₂*Score₂+……+α_n*Score_n；

m为评估数据的数量，n为训练类心

本发明还提出一种可读存储介质，存储有可执行指令，该可执行指令用于执行前述的基于无监督聚类的长文本可信度评估方法。

本发明还提出一种数据处理装置，包括前述的可读存储介质，该数据处理装置调取并执行该可读存储介质中的可执行指令，以进行基于无监督聚类的长文本可信度评估。

附图说明

图1是本发明的基于无监督聚类的长文本可信度评估方法流程图。

图2是本发明的已知长文本数据的训练框架示意图。

图3是本发明的无监督聚类示意图。

图4是本发明的长文本可信度评估系统的数据处理装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明的方法及系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

在进行长文本的可信度评估时，主要面临与拟解决的问题在于：

1.人工核查的效率较低，需要一种可以自动对长文本内容进行初步的内容可信度评估的方法。

2.使用传统的分类或者回归任务需要大量的标注数据，而不同长文本平台上的文本难以复用，同一个长文本平台上的虚假长文又难以定位与收集，并且很多长文亦真亦假、难以给其一个特定的标注。总结起来就是使用分类或者回归任务来解决这个问题对数据的要求很高，而且不易建模。

3.使用平台迁移的方法相当于把数据搬到短文本平台上进行算法分类或者回归。但是短文本平台上可能出现信息缺失或者信息迁移的问题。本发明拟搭建一个可实施且较为有效的长文本可信度评估方法，为了规避标注数据稀疏与平台难以复用的问题，采取无监督学习的方法，利用数据自身的性质来进行聚类，提取一系列文字、语义、风格等与文本可信度相关的特征，并期望把具有相似性质或者特性的长文本聚合到一类，然后利用这些类簇的特性来给出长文本的可信度。

本发明是为了较为有效地对长文本平台中的内容进行可信度的评估或者初筛，现有的自动评估方法需要大量的难获取的标注数据并且使用的数据和模型在平台之间难以复用。本发明提出了一系列的长文本可信度评估相关特征，并使用无监督学习的方法在没有标注的数据中取得较好效果。

本发明的长文本信用度评估方法提出了包括文本基本特征、易读性、信息量、交互性、逻辑性、标题与文本对应程度、文本情感等近50维特征，这些特征可以很好地从各方面衡量一个带标题的长文本的风格、质量、情绪等等，而文本的风格、质量与情绪往往与这个文本是否可信有很强的联系，比如煽动性的文章更可能是标题党或者恶意篡改以图获取更大的流量等等。

本发明使用无监督聚类的方法，来对一条长文本信息进行可信度评估，这种方法不需要标注数据，因此不存在不同平台上数据、模型难以复用带来的巨大困难。并且使用无监督学习的方法使得文本的可信度评估值更具有可解释性，比如该条信息与某几个聚类簇更近，说明该条信息具有更多与这几个聚类簇相近的特性。

同时，本发明的长文本信用度评估方法对长文的每个段落进行可信度评估，并最后将所有段落的可信度整合为整个长文本的可信度，可以知道整个文章的可信度主要由文章的哪几个段落贡献，如果一条长文本不可信，那么主要是由哪几个段落可疑造成的。

图1是本发明的基于无监督聚类的长文本可信度评估方法流程图。如图1所示，本发明的长文本可信度评估方法，主要分为已知长文本数据的训练步骤、待评估长文本数据的预处理步骤和评估步骤：

步骤S1，已知长文本数据的训练

训练数据采用指定平台的长文本数据，这些平台的长文本数据的方差和分布不会太大，否则将难以生成具有虚假长文相关簇。于本发明的实施例中，在步骤S1中，采集来自微信公众号以及天天快报的近10万篇长文本进行聚类训练，也可以采集其他平台的已知长文本进行聚类训练，例如是腾讯新闻、今日头条、新浪新闻等，本发明并不以此为限。

图2是本发明的已知长文本数据的训练框架示意图。如图2所示，训练步骤主要分为以下部分：

步骤S11，数据预处理：主要处理较为异常的长文数据，包括，删除长度过短的文本，删除恶意跳转长文(例如仅包含一条链接，或自动跳转)等等；

步骤S12，段落切分：将经过预处理的长文本以段落为标准切分为若干部分得到数据集，段落划分依据便是长文本自带的换行符，当段落长度小于20个字符时，将这个段落拼接到上一个或者下一个段落中；

步骤S13，特征提取：对于每个段落，本发明提取一系列的特征。在涉及特征时，除了可提取的基本文本特征，本发明还包含了谣言新闻相关的高层语义特征，特征包括四大类特征：

符号特征：文本符号统计特征，包括段落中出现数字、问号、感叹号、括号、书名号、@、标签、金钱、“最”的个数；

基本特征：包含文章平均词长，正文字符数，图片数，标题字数，文章句子数，文章平均句长，段落长度，段落平均句长；

词性特征：段落中副词、形容词、介词、名词、动词个数，以及段落中第一人称、第二人称、第三人称、组织机构名、人名、地名个数；词性标注依赖于分词工具自带的词性标注工具，如jieba、ictclass、thulac、hanlp；在计算的过程中，涉及文本中计数的相关统计特征，本发明会对其除以文本长度的log对数因子，以消除文本长度的影响。

高层语义特征：包括段落情感值(依赖情感词典)，文章标题与该段落的相似度，RIX指标(易读性指标，长词数/句子数)，LIX(易读性指标，词数/句子数+(100*长词数)/词数)，CLS(信息量指标，0.0588*(100词中的字数)-0.296*(100词中的句数)-15.8)，fMeasure(信息度指标，(名词数+形容数+介词数+冠词数-代词数-动词数-副词数-连词数+100)/2)，交互性、兴趣性、动人性、说服性、不确定性、逻辑性等；在对高层语义特征进行提取时，关于文本易读性和信息量的衡量指标参考现有技术在标题党、虚假新闻、以及教育学方向的文献，关于交互性、兴趣性等特征提取，依赖于总结的具有相关性质的词汇表；

步骤S14，无监督聚类：利用无监督聚类算法根据提取的特征进行聚类；图3是本发明的无监督聚类示意图。如图3所示，在无监督过程中，本发明采用Affinity Propagation(吸引力传播)聚类算法，该聚类方法相较于常用的k-means聚类算法，不用预设类心初始，并且对初始值不敏感，可以通过调节参数Preference和Damping factor来控制聚类的大致个数。在实现过程中，可以使用现有的库或数据包，比如python的sklearn包。在聚类结束后，本发明需要人工挑选出所有聚类中较好的类别(纯度较高，并且具有代表性)，取出其类心。在挑选类心时，本发明尽量选择与谣言相关的聚类，比如低质量、题文不符、煽动性、含有错误信息等等。选择好类心后，存储这些类心

以供后续可信度评估。

步骤S2，待评估长文本数据的预处理步骤

待评估长文本数据的训练步骤与已知长文本数据的训练步骤相似，主要分为以下部分：

步骤S21，数据预处理：判断待评估长文本数据是否为较为异常的长文数据，包括，删除长度过短的文本，删除恶意跳转长文(例如仅包含一条链接，或自动跳转)等等；

步骤S22，段落切分：将待评估长文本以段落为标准切分为若干部分得到数据集，段落划分依据便是长文本自带的换行符，当段落长度小于20个字符时，将这个段落拼接到上一个或者下一个段落中；

步骤S23，特征提取：对于每个段落，提取符号特征、基本特征、词性特征及高层语义特征等特征，并生成每个段落的特征向量。

步骤S3，评估步骤，包括：

步骤S31，相似度计算，根据步骤S1中得到的类心与步骤S2中输入长文本各段落特征向量，根据余弦相似度计算的相似度，并以此相似度作为第i个段落在第j个类心(类j)的打分(段落评估值)Scorep_j。本发明挑选的聚类类心是

输入文章段落提取的特征向量分别是

第i个段落在第j个类心方面的打分(相似度)计算公式为：

步骤S32，得到文章每个段落相对于每个类心对应的打分后，需要整合得到整篇文章在每个类心对应的打分，以及整篇的可信度评估值。

首先，本发明根据以下策略获取整篇文章在类j的打分，本发明记文章所有段落中在类j的打分大于0.7的段落个数为q，整篇文章在类j的打分Score_j为：

当q小于3时，Score_j为所有段落的平均分。当q大于等于3时，Score_j为大于段落评估阈值的这部分段落得分的平均分。这是因为，在长文本中，往往是少数的段落决定了整个文本是否异常，而非所有段落。于本发明的实施例中，段落评估阈值取值为0.7；

步骤S33，得到文章在各个类的打分后，整篇文章的可信度评估值Score为各个打分的加权和：

Score＝α₁*Score₁+α₂*Score₂+……+α_n*Score_n

其中参数α₁、α₂、……、α_n为预先设定的权重参数，当类j与文章可信性呈正相关时(如高质量、逻辑性强)，对应的权重参数为正，否则为负(如煽动性强，低质量，主观性强)。

通过这种方式计算的可信度，解释性较强，因为对于一篇文章的得分，本发明可以追溯到具体是哪些性质的类、以及文章的哪些段落，决定了文章的分数。

图4是本发明的长文本可信度评估系统的数据处理装置示意图。如图4所示，本发明实施例还提供一种可读存储介质，以及一种数据处理装置。本发明的可读存储介质存储有计可执行指令，可执行指令被数据处理装置的处理器执行时，实现上述基于无监督聚类的长文本可信度评估方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

本发明通过无监督聚类对长文本进行可信度评估，在实施过程中不需要标注数据，从一定程度上节省了人力、物力与时间。使用无监督的方法，避免了数据中标签稀疏带来的困扰。此外，由于本发明对长文本提取了丰富的文本特征，包括标题与中心句子的相似度(部分不可信长文题文无关)、文本句子的易读性和信息量、标题与文本的情感值、以及标题中含有的疑问、震撼、质疑、煽动等词汇，使得该特征集针对于可信度评估任务更加适用。也因此，使用该模型得到的文本的可信度更具有可解释性，同时在平台之间可以迁移。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中的普通技术人员，在不脱离本发明的精神和范围内，可以做出若干变形和改进，故本发明的保护范围当视后附的申请专利范围所界定者为准。