CN106372083A

CN106372083A - 一种有争议性新闻线索自动发现的方法及系统

Info

Publication number: CN106372083A
Application number: CN201510435105.4A
Authority: CN
Inventors: 曹娟; 张勇东; 张俊强; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2017-02-01
Anticipated expiration: 2035-07-22
Also published as: CN106372083B

Abstract

本发明公开了一种有争议性新闻线索自动发现的方法及系统，该方法包括：步骤1，利用预设的初始文本对一文本集进行检索，获得多个检索文本；步骤2，对该多个检索文本进行聚类，对每一类的检索文本分别执行摘要提取算法，以获得该类的线索文本；步骤3，利用每类的该线索文本进行检索，获得每类的多个扩充文本；步骤4，利用每类的该多个扩充文本进行特征提取，基于一预设的打分模型对提取得到的每类的特征进行打分，分数高于一阈值的类所对应的线索文本为有争议的新闻线索。本发明可从大量文本中自动发现有争议新闻线索，实现了海量信息的深层信息挖掘，且可不断完善信息挖掘的准确度、有效性。

Description

一种有争议性新闻线索自动发现的方法及系统

技术领域

本发明属于信息挖掘技术领域，特别是涉及一种有争议性新闻线索自动发现的方法及系统。

背景技术

随着WEB2.0技术的快速发展，普通用户已经成为互联网上内容的主要生产者，UGC(User Generated Content)具有反应及时，传播快的特点。微博是一个基于用户关系信息分享、传播以及获取的平台，作为UGC内容的典型代表，微博凭借其庞大和活跃的用户量，已成为即时消息的舆论场，也成为新闻线索的重要来源。

然而，微博平台参与门槛低、信息充裕、时效性高等特点又给假新闻传播提供了有利条件，在新闻线索的时间和数量已经能够很容易得到保证的情况下，新闻线索的质量则显得尤其重要，及时发现有争议性的新闻线索有助于新闻工作者及时全面了解事件，避免片面报道，因此有争议的线索是非常有价值的。

在现有技术中，湖北光谷天下传媒股份有限公司发明了一种运用移动端搜集新闻线索的方法(201510077519.4)，这一方法包括：

打开移动终端，从视频采集、音频采集、图片采集、文本采集模块中选择相应的功能模块并开始采集新闻；

将移动终端采集到的信息进行压缩编码，在不丢失信息细节的前提条件下，减少不必要的数字信号；

信息采集过程中，调用移动终端上的套接字组件实时将缓存空间中的已经完成压缩编码或不需要压缩编码的数据，实时传输到远程服务器；

远程服务器将上传来的数据按照时间戳格式依次将数据存入数据仓库，供后面编辑人员随时调用。

可见，该运用移动端搜集新闻线索的方法提供了4种不同模块采集新闻，并进行压缩编码，实时上传到远程服务器，其特点是可以简化采集操作，以最快的速度将新闻线索交由新闻编辑人员处理。

但是，这一方法并不能对新闻线索的内容进行识别，不能从大量的新闻线索中，识别出有争议的新闻线索。

经过调查研究，在现有技术中，还没有成熟的自动发现有争议新闻线索的相关技术，为信息挖掘技术领域的一大空白。

发明内容

本发明解决的技术问题在于，提供一种方法，以从大量文本中自动发现有争议新闻线索。

本发明公开了一种有争议性新闻线索自动发现的方法，该方法包括：

步骤1，利用预设的初始文本对一文本集进行检索，获得多个检索文本；

步骤2，对该多个检索文本进行聚类，对每一类的检索文本分别执行摘要提取算法，以获得该类的线索文本；

步骤3，利用每类的该线索文本进行检索，获得每类的多个扩充文本；

步骤4，利用每类的该多个扩充文本进行特征提取，基于一预设的打分模型对提取得到的每类的特征进行打分，分数高于一阈值的类所对应的线索文本为有争议的新闻线索。

该文本集包括一微博平台中的多个微博消息。

该初始文本具有争议性言论的表达模式。

该步骤1与步骤2之间进一步包括：

步骤11，对该检索文本进行分词操作，并过滤特定词性的词语；

步骤12，利用词袋模型将经过过滤的该检索文本转换为词集形式，利用该词集形式的检索文本执行步骤2的聚类。

该特定词性包括连词、介词、虚词中的一个或多个。

该步骤2使用Jaccara相似性系数公式以实现该聚类。

该步骤4所提取的特征包括：

在每类的所有扩充文本中，该类的检索文本所占的比例a；

每类的所有扩充文本的平均字数b；

所有检索文本的平均字数c；

所有检索文本的平均字数与每类的所有扩充文本的平均字数之比c/b；

在每类的所有扩充文本中，被转发的扩充文本所占的比例d；

在所有检索文本中，被转发的检索文本所占的比例e；

在每类的所有扩充文本中，平均每个扩充文本所包含的超链接地址数f；

在所有检索文本中，平均每个检索文本所包含的超链接地址数g；

在每类的所有扩充文本中，平均每个扩充文本所包含的话题数h；

在所有检索文本中，平均每个检索文本所包含的话题数i；

在每类的所有扩充文本中，平均每个扩充文本所包含的@数j；和/或

在所有检索文本中，平均每个检索文本所包含的@数k。

步骤4之后还包括：

步骤5，利用步骤4所获得的该分数高于一阈值的类，进行基于词语出现规律统计模型的计算，获得共现频率高的词语组合，经筛选后作为该初始文本，继续执行步骤1。

该词语出现规律统计模型为2gram语言模型。

本发明还公开了一种有争议性新闻线索自动发现的系统，该系统包括：

初始检索单元，用于利用预设的初始文本对一文本集进行检索，获得多个检索文本；

聚类单元，用于对该多个检索文本进行聚类，对每一类的检索文本分别执行摘要提取算法，以获得该类的线索文本；

扩充检索单元，用于利用每类的该线索文本进行检索，获得每类的多个扩充文本；

打分单元，用于利用每类的该多个扩充文本进行特征提取，基于一预设的打分模型对提取得到的每类的特征进行打分，分数高于一阈值的类所对应的线索文本为有争议的新闻线索。

本发明可从大量文本中自动发现有争议新闻线索，实现了海量信息的深层信息挖掘，且可不断完善信息挖掘的准确度、有效性。

附图说明

图1为本发明的一种有争议性新闻线索自动发现的方法的流程图。

图2为本发明的一种有争议性新闻线索自动发现的方法的流程图。

图3为本发明的一种有争议性新闻线索自动发现的方法的流程图。

具体实施方式

以下结合实施例，具体介绍本发明的技术方案。

本发明基于大量关于某事件的文本而自动从中发现有争议的新闻线索。特别是，本发明可以将从微博平台获得的大量微博消息作为执行本发明的一种有争议性新闻线索自动发现的方法的基础。当然，其他针对一事件的大量文本也可为本发明所用，例如，微信中的消息、论坛中的帖子等。

以微博消息为例，基于微博消息最多只有140字的长度的特点，一条微博通常只会针对一个事件进行分析或陈述意见，这为从中进行有争议的新闻线索的分析提供了方便。

图1、2为本发明的一种有争议性新闻线索自动发现的方法的流程图。

步骤1，利用预设的初始文本对一文本集进行检索，获得多个检索文本。

具体来说，该文本集包括一微博平台中的多个微博消息。在面对大量的微博消息时，为了从中提取出有争议的新闻线索，本发明首先预设了部分初始文本，作为种子模式，利用该种子模式，首先对有可能存在争议、有可能存在观点冲突的微博消息进行定位。

该种子模式是指在争议性线索描述中常出现的一些词组或短语组合，使用该种子模式通过搜索引擎检索到的信息通常含有争议性观点和讨论。

该种子模式可以由人工领域专家预先人工定义，也可以预先在大量含有争议性线索的语料中通过数据挖掘方法得到。

该预设的初始文本(种子模式)可以是:“这是真的么？”、“求证实”、“谣言”、“辟谣”。

以该预设的初始文本为被检索词，在微博平台的当前的微博消息中进行检索，从而得到多个检索文本作为信号微博。

步骤2，对该多个检索文本进行聚类，对每一类的检索文本分别执行摘要提取算法，以获得该类的线索文本。

对于当前的获得检索文本，实际上可能涉及多个事件。即，初始文本仅用于定位“存在争议”的微博消息，而这些定位到的“存在争议”的微博消息，可能是针对多个“存在争议”的事件，即相互之间可能不是涉及同一事件。则通过步骤2，本发明需进一步在这些检索文本中区分出它们各自所关联的事件。

具体来说，本发明在步骤2之前，步骤1之后可预先执行如下步骤：

本发明利用分词工具对每个检索文本进行分词操作，并根据词性过滤对事件描述无关的特定词性的词。该特定词性包括连词、介词、虚词中的一个或多个。

利用词袋模型可将该检索文本，也就是每条微博消息转化为词的集合。进而，利用该已经转化为词集形式的检索文本进行聚类。

在步骤2的聚类中，对获取的所有已经转化为词集形式的检索文本进行文本聚类，聚类中使用Jaccard相似性系数公式(1-1)，作为每两个检索文本的相似度公式。

可以认为，在这些检索文本中，每类描述的是同一个事件，因此通过聚类步骤获得多少个类，就相应存在多少个事件。则每个检索文本对应于哪个类，或者说，每个检索文本对应哪个事件，通过步骤2可得到明确的区分。

在事件区分开来后，需进一步获取每个事件都是怎样的事件，即获取每个事件的摘要作为该事件的线索。

本发明通过摘要提取算法对每个类的检索文本进行处理，具体来说，摘要提取的过程包括：

首先对前述的词袋模型进行词频(TF)统计，选择TF值最高的前k个词作为事件描述的关键词。在步骤1所获得的检索文本中，以该关键词为检索词，进行检索。在所获得的检索结果中，选择包含该关键词且句子长度最短的检索文本作为事件的摘要。该事件的摘要也就是该类的线索文本。

至此，本发明可以获知这些“存在争议”的微博消息都分别涉及到哪些事件。

步骤3，利用每类的该线索文本进行检索，获得每类的多个扩充文本。

由于利用步骤1、2只能知道“存在争议”的微博消息都分别涉及到哪些事件，但是对这些事件不能充分的了解其全貌。故而，步骤3继续利用每个事件的摘要，也就是每类的线索文本，继续在微博平台的当前的微博消息中进行检索，从而大幅扩充针对该事件所能掌握的各种微博消息，丰富信息的来源，尽可能的获得该事件的全部细节消息，以期通过所获得的扩充文本能够覆盖该事件的全貌。

基于步骤3，已经获得“存在争议”的微博消息所涉及的事件，但是，这些事件本身是否“存在争议”，或者说，该事件是否确实达到了“存在争议”的程度，还需进一步的评估。

因此，步骤4首先对每类的该多个扩充文本进行特征提取，并借助每类的特征进行打分，进而做出评估结果。

具体来说，对每个事件，也就是对每类的该多个扩充文本，提取如下特征中的一个或多个：

1、在每类的所有扩充文本中，该类的检索文本所占的比例a。

由于扩充文本是基于线索文本而检索得到，而线索文本是基于检索文本聚类得到，故而，扩充文本与检索文本之间存在关联关系，事实上，扩充文本也会覆盖到该检索文本，即，部分检索得到的扩充文本就是该检索文本自身。特征1就是在判断每一类中，检索文本占所有扩充文本的比例。

2、每类的所有扩充文本的平均字数b。

3、所有检索文本的平均字数c。

4、所有检索文本的平均字数与每类的所有扩充文本的平均字数之比c/b。

5、在每类的所有扩充文本中，被转发的扩充文本所占的比例d。

由于扩充文本是基于线索文本而检索得到，且是在大量的微博消息中检索得到，故而扩充文本就是微博消息，而微博消息可以被转发，故而特征5就是在统计被转发的扩充文本所占的比例。

6、在所有检索文本中，被转发的检索文本所占的比例e。

与特征5相同的，检索文本是在大量的微博消息中检索得到，故而检索文本就是微博消息，而微博消息可以被转发，故而特征6就是在统计被转发的检索文本所占的比例。

7、在每类的所有扩充文本中，平均每个扩充文本所包含的超链接地址数f。

由于扩充文本就是微博消息，因而其可能携带超链接地址，特征7就是在统计平均每个扩充文本所包含的超链接地址数。

8、在所有检索文本中，平均每个检索文本所包含的超链接地址数g。

9、在每类的所有扩充文本中，平均每个扩充文本所包含的话题数h。

10、在所有检索文本中，平均每个检索文本所包含的话题数i。

11、在每类的所有扩充文本中，平均每个扩充文本所包含的@数j。

12、在所有检索文本中，平均每个检索文本所包含的@数k。

针对所提取的特征，利用一预设的打分模型对提取得到的每类的特征进行打分，该预设的打分模型为一训练好的决策树模型。故而，每类将最终得到一个分数值，如果分数值高于一阈值，说明该类所对应的事件确实是“存在争议”的事件，则该事件所对应的于步骤2中获得的线索文本也就是一有争议性新闻线索。通过该方法可以获得争议性高、传播广的新闻线索。

该决策树模型的训练过程为：预先利用一训练文本集执行步骤1和步骤2，获取一批线索事件，并由人工打分，对每个事件按照上述方法提取特征，以构建标注数据集，利用该标注数据集训练一个决策树模型作为打分模型。

更进一步的，步骤4之后还包括：

该步骤5用于更新该初始文本。在步骤4中已经获得了有争议性的事件及其线索文本，则步骤5利用该事件，基于词语出现规律统计模型，进一步识别该事件所对应的微博消息中，经常反复出现的词语组合有哪些，将该词语组合作为初始文本，继续进行后续的有争议性新闻线索自动发现。由于基于步骤4已经获得了准确的有争议性的事件及其线索文本，故而利用步骤5可不断完善信息挖掘的准确度、有效性。

具体来说，该词语出现规律统计模型为2gram语言模型或3gram语言模型。2gram是一种利用上下文中相邻词间的搭配信息的语言模型，它基于一种每个词的出现只与它的前一个词相关的假设而建立。计算2gram语言模型，从中选取共现频率高的二元组，从中进行人工筛选后，将新选的共现频率高的二元组作为该初始文本，继续执行步骤1。该人工筛选基于该二元组应具有争议性言论的表达模式的原则进行。

本发明的该方法应用于一服务器中，该服务器连接微博平台，以获得微博消息作为输入，服务器执行图1、2、3所述方法，以从大量文本中自动发现有争议新闻线索。

以上描述仅为说明本发明的实现过程，不作为对本发明的限制，本领域的技术人员对本发明技术方案所做的任何均等的变形或修改，均在本发明涵盖的范围内。

Claims

1.一种有争议性新闻线索自动发现的方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，该文本集包括一微博平台中的多个微博消息。

3.如权利要求1所述的方法，其特征在于，该初始文本具有争议性言论的表达模式。

4.如权利要求1所述的方法，其特征在于，步骤1与步骤2之间进一步包括：

5.如权利要求4所述的方法，其特征在于，该特定词性包括连词、介词、虚词中的一个或多个。

6.如权利要求1所述的方法，其特征在于，该步骤2使用Jaccara相似性系数公式以实现该聚类。

7.如权利要求2所述的方法，其特征在于，该步骤4所提取的特征包括：