CN109800349A

CN109800349A - 基于用户发布内容量化新闻价值的数据处理方法和装置

Info

Publication number: CN109800349A
Application number: CN201811540550.7A
Authority: CN
Inventors: 傅湘玲; 齐佳音; 李晶; 闫晨巍
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-05-24

Abstract

本发明公开基于用户发布内容量化新闻价值的数据处理方法和装置。该方法包括：预先构建新闻价值量化模型，从社会重要性、偏差和权变条件三个维度量化用户发布内容的新闻价值；分别对社会重要性从参与者、事件位置和事件三个指标、对偏差从事件程度冲突和统计稀缺性两个指标、对权变条件从信息及时性和完整性两个指标进行量化处理；从用户发布内容中抽取信息要素并量化处理，计算得到用户发布内容的新闻价值量化值。该装置包括新闻价值量化模块和信息抽取模块。本发明提供的该方法和装置，从海量文本数据中找到有价值的新闻线索，用更加高效、智能的方式获知网络中新事件被发布报道的价值指数，缩短新闻生产链长度，提高新闻线索发现的时效性。

Description

基于用户发布内容量化新闻价值的数据处理方法和装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于用户发布内容量化新闻价值的数据处理方法。

背景技术

随着微博等社交网络平台的普及应用，越来越多的人倾向于在微博平台等社交网络上发布自己身边的事件，这些大量的事件很有可能成为新闻记者发现有价值的线索，从而形成新闻报道的源头。因此，众多传统媒体试图将微博作为信息源，从中寻找有价值的新闻线索，基于互联网海量数据的新闻线索挖掘逐渐成为了新闻生产实践发展的重要方向。

然而，在传统的新闻实践中，新闻价值通常都是由记者或编辑依靠经验和直觉来进行新闻事件的选择和优先级排序，即寻找新闻的传统方式通常是依靠新闻工作者个人的经验直觉，或者社会公众主动提供有关信息等手段去发掘新闻线索，但在面对海量的信息数据时，这种方式往往会显得力不从心，新闻线索的发现效率低下。但在自然语言处理技术领域中，学者们发现，新闻价值是可以通过一系列的标准来进行判断的。因此，核心问题变成了如何设计出合理的新闻价值评价的模型，并能够自动化的进行新闻要素的抽取，从而使新闻线索更高效率地被发现。

综上，如何基于自然语言处理技术，从海量网络用户在社交平台等渠道发布的信息源中自动化提取出具有新闻价值的新闻线索，以提高发现新闻线索的效率，成为该领域需要解决的一个技术问题。

发明内容

本发明提出一种基于用户发布内容量化新闻价值的数据处理方法和装置，以解决现有技术人为查找新闻线索效率不高的技术问题。

本发明的技术方案为：

本发明实施例的第一个方面，提出一种基于用户发布内容量化新闻价值的数据处理方法，包括步骤：

预先构建新闻价值量化模型，从社会重要性、偏差和权变条件三个维度量化用户发布内容的新闻价值；对社会重要性从参与者的重要性、事件位置的重要性和事件的重要性三个指标进行量化处理，对偏差从事件程度冲突和统计稀缺性两个指标进行量化处理，对权变条件从信息及时性和信息完整性两个指标进行量化处理；

从用户发布内容中抽取出与新闻价值量化模型中的各个指标对应的信息要素、并转化为可量化处理的数字信息；

将数字信息输入新闻价值量化模型，计算得到用户发布内容的新闻价值量化值。

可选的，对社会重要性从参与者的重要性、事件位置的重要性和事件的重要性三个指标进行量化处理，包括：从参与者、事件位置和事件三个维度来设置重要词汇的集合，并对应设置各个重要词汇的重要等级；检测用户发布内容中出现的重要词汇的数量和重要等级；计算社会重要性的量化值：

其中，S_word是重要词汇的集合，sig_degree是每个重要词汇的重要等级。

可选的，对权变条件从信息及时性和信息完整性两个指标进行量化处理，包括：从用户发布内容或发布时间中提取事件发生时间来量化计算所述信息及时性、通过用户发布内容中的命名实体数量来量化计算所述信息完整性；所述信息及时性计算式如下：

Timeliness＝100-2^t/24

Timeliness即信息及时性，t为提取的所述事件发生时间与当前时间的间隔；

所述信息完整性计算式如下：

Completeness of information＝n_entitytype

Completeness of information即信息完整性，n_entity是命名实体的数量，type是命名实体类型的数量。

和/或，对偏差从事件程度冲突和统计稀缺性两个指标进行量化处理，包括使用事件后果来量化计算事件冲突程度和统计稀缺性；对于交通事故，包括采用下式计算偏差：

Deviance＝Death+(Injury/n)

Deviance表示偏差，Death表示死亡人数，Injury表示受伤人数，n为根据伤害程度预设的数值。

可选的，构建新闻价值量化模型，包括构建如下新闻价值量化模型：

Newsworthiness score

＝ω₁×Social significance+ω₂×Deviance+ω₃×Timeliness+ω₄

×Completeness ofinformation

其中，Newsworthiness score为新闻价值量化值，Social significance为社会重要性，Deviance表示偏差，Timeliness为信息及时性，Completeness of information为信息完整性，ω₁-ω₄分别代表社会重要性、事件后果、信息及时性和信息完整性对应的权重。

可选的，构建新闻价值量化模型，还包括将权重分别设为ω₁＝0.381，ω₂＝0.256，ω₃＝0.159，ω₄＝0.204。

可选的，从用户发布内容中抽取出与所述新闻价值量化模型中的各个指标对应的信息要素，包括社会重要性抽取、事件后果抽取、事件时间抽取和命名实体抽取。

可选的，事件后果抽取，包括：

建立正则表达式，初步抽取事件后果关键词；

构建信息节点，将初步抽取的事件后果关键词存放到对应的数据结构中，所述数据结构包括多个属性；

对信息节点中的关键词进行标准化处理；

根据两信息节点之间的相对包含关系，设定各个信息节点的结构深度，构建结构树图；

根据结构树图，找出其中结构深度最大的信息节点群，将信息节点群中的一类属性值进行累加，得出事件后果的抽取结果。

可选的，事件时间抽取，包括：

时间正则表达式识别、不完整时间推理和计算机规范化表示；

和/或，命名实体抽取，包括：

训练并使用条件随机场模型，识别用户发布内容中的事件触发词和命名实体。

本发明实施例的第二个方面，提供基于用户发布内容提取新闻线索的数据处理装置，包括：

新闻价值量化模块，用于从社会重要性、偏差和权变条件三个维度量化用户发布内容的新闻价值；对社会重要性从参与者的重要性、事件位置的重要性和事件的重要性三个指标进行量化处理，对偏差从事件程度冲突和统计稀缺性两个指标进行量化处理，对权变条件从信息及时性和信息完整性两个指标进行量化处理；

信息抽取模块，用于从用户发布内容中抽取出与所述新闻价值量化模型中的各个指标对应的信息要素、并转化为可量化处理的数字信息；

新闻价值量化模块，还用于根据输入的数字信息，计算得到用户发布内容的新闻价值量化值。

可选的，新闻价值量化模块，用于：

从参与者、事件位置和事件三个维度来设置重要词汇的集合，并对应设置各个重要词汇的重要等级；检测用户发布内容中出现的重要词汇的数量和重要等级，计算社会重要性的量化值；

使用事件后果来量化计算事件冲突程度和统计稀缺性；

从用户发布内容或发布时间中提取事件发生时间来量化计算信息及时性、通过用户发布内容中的命名实体数量来量化计算信息完整性。

本发明公开的技术效果为：

本发明提出的基于用户发布内容量化新闻价值的数据处理方法和装置，提出一种新闻价值量化模型，从社会重要性、偏差和权变条件三个维度量化用户发布内容的新闻价值，其中对社会重要性包括参与者的重要性、事件位置的重要性和事件的重要性三个指标，偏差包括事件程度冲突和统计稀缺性两个指标，权变条件包括信息及时性和信息完整性两个指标；从用户发布内容中抽取出与所述新闻价值量化模型中的各个指标对应的信息要素、并转化为可量化处理的数字信息，完成非结构化数据的结构化及量化处理，在此基础上展开新闻价值量化模型的量化计算，实现对海量数据的新闻线索价值的自动评估，可有效剔除低新闻价值的内容，提高了发现新闻线索的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于用户发布内容量化新闻价值的数据处理方法的一个实施例的简要流程图；

图2为本发明新闻价值量化模型的示意图；

图3为本发明一个实施例中信息要素抽取的示意图；

图4为本发明一个实施例中事件后果信息抽取流程示意图；

图5为本发明一个实施例中时间信息抽取流程示意图；

图6为本发明一个实施例中命名实体信息抽取流程示意图；

图7为对本发明基于用户发布内容量化新闻价值的数据处理方法进行验证的流程示意图；

图8为经本发明方法得出评分的每组文本数据中被实际报道数量示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例1提供一种基于用户发布内容量化新闻价值的数据处理方法，参见图1所示，该方法包括步骤：

步骤S101，预先构建新闻价值量化模型。

该新闻价值量化模型，应从社会重要性、偏差和权变条件三个维度量化用户发布内容的新闻价值。

其中，对社会重要性从参与者的重要性、事件位置的重要性和事件的重要性三个指标进行量化处理，对偏差从事件程度冲突和统计稀缺性两个指标进行量化处理，对权变条件从信息及时性和信息完整性两个指标进行量化处理。

即，参见图2所示，本发明对新闻价值量化模型进行了如下定义：社会重要性引入三个指标：参与者的重要性，事件位置的重要性和事件的重要性；偏差的两个指标：事件程度冲突，统计稀缺性；权变条件的两个指标：信息的及时性和完整性。

其中，参与者重要性：即事件的参与者是指事故涉及到的人物、组织、团体等实体。参与者重要性是事故参与者的社会地位、社会声望的高低程度，以及其社会影响力的大小。

事件位置重要性：即事件发生的地理位置。发生地的重要性是指该位置在政治、经济、社会领域的重要程度。在重要或著名地点发生的事件具有重要意义。

事件重要性：即事件重要性指的是由事件本身属性决定的，其可能造成的社会影响力的大小以及后果的严重程度。

事件冲突程度：事故冲突程度是指事故中包含矛盾和敏感因素的程度，它对社会造成负面影响和危害的可能性。

统计稀缺性：统计稀缺性是指从历史记录来看，相同或类似的事件发生的可能性的大小。

信息及时性：指事件从事件发生到收集和评估新闻价值标准的时间跨度。

信息完整性：事件信息的完整程度。

步骤S102，抽取信息要素。

从用户发布内容中抽取出与新闻价值量化模型中的各个指标对应的信息要素、并转化为可量化处理的数字信息。信息要素的抽取即是将非结构化的文本数据转换为结构化并且可量化处理的数据格式。

步骤S103，计算新闻价值量化值。

其中步骤S101与步骤S102并无时序上的先后要求，本领域技术人员可根据实际情况具体确定实施步骤。

新闻价值评价，是对一个事件能否值得被报道、是否可以成为新闻的综合评估。具有高新闻价值的事件往往会成为新闻线索。以传统的方式从海量的数据中挖掘新闻线索很依赖记者的个人经验，而本发明提供的一套自动化模型方案，可以将大量事件按照新闻价值排序，过滤掉低新闻价值的事件，减轻对于人工的依赖，提高新闻发布的时效性。

实施例2

本发明实施例2提供基于用户发布内容量化新闻价值的数据处理方法的一个优选实施例，包括步骤：

步骤S201、预先构建新闻价值量化模型。

步骤S202，对候选的非结构化文本数据进行预处理，将数据规范化。

该步骤主要是去除符号等干扰因素。

步骤S203，利用自然语言技术抽取信息要素，完成结构化数据的结构化及量化处理。

该步骤S203主要是包括信息抽取和量化处理两个主要过程。

信息抽取包括如下步骤：

以微博为例，为了从微博数据中定量评估出新闻价值，需要对微博数据中的信息要素进行提取，将抽象的文本信息转化成可量化可处理的数字信息。具体内容如图3所示。

步骤S2031，社会重要性信息抽取。

本发明实施例对新闻样本进行重要词汇抽取，并通过专家评分法(德尔菲方法)对其重要程度进行设置，得出重要词汇的集合，并将重要词汇划分为四种等级作为其权重，如表1所示。根据本发明构建的重要词汇的集合，从新闻文本中进行匹配抽取，并计算其重要等级，作为本条新闻的社会重要性评判标准。

表1重要程度等级解释说明

步骤S2032，事件后果信息抽取。

事件后果是一个非常重要的因素，但后果信息的表述在微博文本中并不是能非常轻易的判断的。例如在交通事故新闻事件中，可能包含了多个数字信息(时间、死亡人数、受伤人数、重伤人数等)，对于自动化抽取系统造成了比较大的干扰，很难能够准确抽取出其中的有效信息。为此本发明为提高事故后果信息抽取的准确性，将后果信息抽取进行了优化。本发明将抽取系统分为了正则表达式识别、构建信息节点、包含关系判定、结果计算等四个步骤具体如图4所示。

步骤(1)：事故后果正则匹配，初步抽取。

根据对采集的数据统计观察，研究文本句式特点，结合构建的关键词，归纳并建立正则表达式。从而对文本中的事故后果信息进行初步匹配和抽取。

例如在交通事故中，关键词类型及其正则表达式为：

程度副词＝起码|最少|大约|至少|还是|近似|低于|超过|高于|至少有|最多|部分|一些|更多|总计；

量词＝名|个|位|人；

伤亡结果＝遇难|救治|丧生|死亡|救援|淹死|受伤|难民|离开|等待救援|失踪|轻微受伤|脱离危险|ICU|离世|获救；

受灾人员的称呼＝伤患|患者|居民|女孩|男孩|女性|男性|女士|行人|男人|老太太|村民|用户|老师|访客|学生|幸存者|孩子们|公众|人。

步骤(2)：构建结果信息节点。

将初步抽取的事故后果信息存放在适当的数据结构中以便进行后续处理。例如在交通事故中，其数据结构主要包括以下几个属性：

Result:伤亡后果；

Startposition:事故后果信息在文本中的开始位置；

Endposition:事故后果信息在文本中的结束位置；

Count:伤亡后果的损失数；

Deep：结构深度。

步骤(3)：节点信息标准化。

为了标准化结果节点信息，本发明将其分为三种类型：结果类型标准化，数量单位标准化和数字标准化。

结果类型标准化是将分类的结果进行规范处理。例如，“受害者”和“生命损失”等词语属于“死亡”类别，“严重受伤”和“轻度受伤”等词语被标准化为“受伤”类别。

数量单位标准化是将每个信息节点的单位进行规范处理。例如，本发明将“访客”和“幸存者”等词语的数量和其他相关词语标准化为基于人的单位。

数字标准化是将与数字有关的信息节点统一规范为阿拉伯数字，以便于后续处理中的信息合并。

步骤(4)：包含关系处理。

根据两节点之间的相对包含关系以及如下规则，设定各个节点的结构深度，从而构建结构树图。具体规则为：

如果节点A包含节点B，则B的深度＝A的深度-1。

如果节点A被节点B包含，则B的深度＝A的深度+1。

如果A与B之间不存在包含关系，则A的深度＝B的深度。

每一结果类型中的第一个节点，初始深度为0。

步骤(5)：结果信息合并。

根据各个结果类型的结构树图，找出其中结构深度最大的节点群，将其Count值进行累加，得出该类型最终结果。在本研究中，使用预处理之后的样例进行测试，测试结果如表2所示。

表2事件后果抽取的实验结果

步骤S2033.事件时间信息抽取。

本发明提出一套有关短文本时间信息抽取系统，采用三个步骤对时间信息进行抽取。分别是正则表达式识别、不完整时间推理及规范化表示，其步骤过程如图5所示。

按照图5中的步骤，对于预处理后的文本，先对其进行时间模式匹配。如果能够匹配出足够的信息，则直接进行规范化，转化为计算机规范化的表示；如果发现其中的时间信息不足，仅仅是一种比较模糊的时间表达，则将根据微博发布时间以及微博中一些表达时间的词语如今天、昨日、本月等，进行时间推理，从而获得相对准确的事件发生时间。本发明将时间要素进行了规范化的处理，设计了多种时间识别模式，并且该方法可以随时扩充添加新的识别模式，具有很好的扩展性。

以下面两个案例为例，对本发明事件时间信息提取进一步说明。

案例1：“目击者声称，2014年8月6日，京广高速公路的两辆轿车发生追尾，没有人员伤亡。”

使用正则表达式，本发明获得时间戳输出“2014年8月6日”和标准化表示“Aug Wed06 CST 00:00:00 2014”。

案例2：“6日，当一辆大型卧铺巴士离京港澳高速公路938公里时，由于大量危险化学品突然爆炸，造成41人死亡，6人受伤。”

在这种情况下，正则表达式方法不起作用。因此，本发明将“6th”与微博文本结合使用，该文本于2017年8月7日14:20发布。由此可以推断实际日期是2017年8月6日，标准化表示为“Aug Sun 06 CST 00:00:00 2017”。

步骤S2034.命名实体抽取。

在本实施例中，对命名实体的抽取包括对事件触发词的抽取。

本发明主要使用条件随机场(CRF，conditional random field algorithm)模型设计信息抽取工具。通过对相应要素的标注、CRF模型的训练及对模型的反复调整来识别出微博文本中的事件触发词及命名实体要素。

本文利用条件随机场(CRF)对信息进行抽取，条件随机场结合分词信息、词性、上下文等特征进行模型训练，符合本研究的数据需求。首先需要对模型进行训练，本发明采用的是通过人工标注得到训练样本，对训练样本进行训练得到标注模型。本文以事件触发词的抽取为例，抽取流程如图6所示。

信息要素抽取完成之后，抽取得到的重要词、事件后果、事件时间和命名实体四类信息要素，将作为后续模型验证的依据。

量化处理，则主要包括如下步骤：

为了量化新闻价值量化模型，本发明将每个指标进行了细化，并给出了计算公式。

对于社会重要性的三个指标：参与者的重要性、事件位置的重要性和事件的重要性，本发明使用参与者、位置和事件的词库来计算，即从参与者、事件位置和事件这三个方面来设置重要词汇的集合，该重要词汇的集合中包含经常传达社会重要性的词汇，用于定量计算事件的社会重要性。一般参与者方面的重要词包括老人、孕妇等等，事件位置方面的重要词包括高铁、广场等等，例如，在交通事故领域，位置的重要词汇包括“高速公路”“收费站”“住宅区”等等；参与者的重要词汇包括“警察”“官员”“孕妇”“未成年人”“明星”和“领导者”等等；事件的重要词汇包括“醉酒驾驶”“假期”和“高峰期”等等。由于重要词汇的来源是一个数据量较大的集合，作为一种可实施方式，在该实施例中从参与者、事件位置和事件这三方面挑选出275个常用的重要词汇作为本研究的重要词汇的集合，然后对这275个重要词汇设置重要等级(重要等级的设置参见步骤S2031及表1)。

本发明实施例计算检测到的重要词汇的数量和文本中的重要等级，以获得社会重要性指标的量化值。

其中S_word是重要词汇的集合，sig_degree是每个重要词汇的重要等级。

对于偏差的两个指标：事件冲突程度和统计稀缺性，本发明使用事件的后果来量化计算。例如，对于交通事故，这些后果可以通过事故造成的伤亡人数来衡量。同时，也要考虑后果的严重程度，比如死亡比受伤的后果更严重。

Deviance＝Death+(Injury/n) (2)

其中Death是死亡人数，Injury是受伤人数，n是根据伤害程度等因素给出的值，或者说为与受伤程度相对应的受伤等级。在本实施例中，n为大于1的整数，受伤程度越大，则n越小，受伤程度越小，则n越大。优选地，作为一种可实施方式，n的取值范围为[2,3,4]，分别对应重伤、轻伤和轻微伤。

对于权变条件中的及时性，可以通过从微博文本或其发布时间中提取时间来计算。越新鲜的事件将被赋予越高的价值。由于提取的时间t是以小时计算的，我们需要将其转换为天，因此将t的值除以24。一般来说，新闻线索的新闻价值呈指数下降，因此本发明在这里使用指数。为了统一幅度，该值不能超过100，所以公式如下。

Timeliness＝100-2^t/24 (3)

其中t是事件发生时间和评估时间(即进行量化计算时的当前时间)之间的差异。通常，如果差异很小，则评估的效率高，这也意味着时间线很短。如果及时性的值在七天内降至零，则表明在事件发生七天后发布微博文本的可能性为零。

对于权变条件下的信息完整性，可以通过已发布的微博文本中的命名实体数量来计算。在微博文本挖掘中，命名实体包括人名、地名、机构名。通常，命名实体越多，描述越清楚；也就是说，命名实体的类型越丰富，信息完整性的价值就越高。

Completeness of information＝n_entitytype (4)

其中n_entity是命名实体的数量，type是命名实体类型的数量。

通常，如果命名实体的类型较多，则由于描述中涉及的范围较大，新闻的清晰度(新闻价值)较高。新闻命名实体有3种类型(人名，地名和机构名)，因此类型的值为1到3。微博文本为仅140字的短文本，如果此微博文本中的实体类型更多，则认为该文本信息的完整性是更高的，而且这种增长是指数级的。

步骤S204，通过新闻价值量化模型，计算整体新闻价值量化值。

当获取具有上述量化值后，本发明使用加权求和的方法计算事件的整体新闻价值得分，如公式(5)所示。

Newsworthiness score为新闻价值量化值，Social significance为社会重要性，Deviance为偏差，Timeliness为信息及时性，Completeness of information为信息完整性，其中ω₁-ω₄代表新闻价值的每个指标的权重，即分别代表社会重要性、事件后果、信息及时性和信息完整性对应的权重。

优选地，对于公式(5)中每个指标的权重，采用Delphi法(专家调查法)来确定。本发明对各权重的设置参见表3所示。

表3每个指标的权重

需要说明的是本发明实施例2仅以微博、交通事故为例进行说明，但并不仅限于以微博文本数据为处理对象，其他社交网络平台的用户发布的文本数据也可作为本发明的新闻线索信息来源，并且也不仅限于交通事故类新闻线索的发现，本发明的技术方案适用于各种类型新闻。

本发明实施例提出一种基于自然语言处理技术的新闻评价模型的计算方法，提炼出一套新闻线索价值评价指标，构建出新闻线索价值评价模型，并对模型中各个指标设计了可操作的量化计算方法。量化计算的过程如下，首先需要对候选的非结构化文本数据进行预处理，将数据规范化，去掉符号等干扰因素等，将文本数据进行分词、词性标注，构建敏感词库，进而利用自然语言分析技术进行短文本事件敏感词抽取、事件后果信息抽取、时间信息抽取、事件触发词及命名实体抽取，完成非结构化数据的结构化及量化处理，在此基础上展开新闻评价模型的量化计算，提高了新闻线索查找的效率。

实施例3

本发明实施例还提供一种基于用户发布内容提取新闻线索的数据处理装置，包括新闻价值量化模块和信息抽取模块。

新闻价值量化模块，用于从社会重要性、偏差和权变条件三个维度量化用户发布内容的新闻价值；对社会重要性从参与者的重要性、事件位置的重要性和事件的重要性三个指标进行量化处理，对偏差从事件程度冲突和统计稀缺性两个指标进行量化处理，对权变条件从信息及时性和信息完整性两个指标进行量化处理。

信息抽取模块，用于从用户发布内容中抽取出与新闻价值量化模型中的各个指标对应的信息要素、并转化为可量化处理的数字信息。

为了说明本发明专利的有效性，下面以微博、交通领域为例，对本发明的技术方案加以仿真验证。

在微博平台上收集2017年8月1日至2018年3月19日与交通事故相关的原始数据。使用的是关键词的组合，包括车辆、交通和事故的同义词和下义词，例如车祸，交通事故和撞车等，共检索到32,471条微博。然后，本发明使用余弦相似性的向量模型来计算微博之间的相似性，以去除重复微博，达到数据预处理的目的。在比较两条微博之间的相似性时，当相似度高于95％时，则删除其中一条微博，当相似度不超过95％时，则保留这两条微博。

选择95％的相似性作为筛选标准是基于两个考虑因素。首先，从交通事故特定内容中收集数据，这增加了文本特征的相似性，因此，本发明选择具有超过95％余弦相似性的高度相似的对作为冗余。其次，处理相似度较低的文本可能会删除错误的内容。较低的相似性并未反映出不连贯的结构。它可能与推导上下文有关。因此，0.95的相似性标准是最佳标准。经过冗余处理后有21,846条微博。

然后，通过本发明提出的基于用户发布内容量化新闻价值的数据处理方法，来计算每条微博的新闻价值得分。如表4所示，每条微博的新闻价值评分按降序排序。把所有微博分成七个分组，每个分组包含大约三千条微博。得分越高，新闻价值越高，被报道的可能性越大。总的来说，第一分组中的事件比其他分组中的事件更有可能被报道，因为它们通常具有更高的新闻价值。

表5.计算新闻价值后的微博分段、排序和分数

接下来对本发明新闻线索发现方法得出的量化值结果进行验证：

基于微博交通领域的文本数据进行验证，验证过程为将模型判断出的有新闻价值的事件与媒体实际报道的事件进行比较，也就是说，本发明使用实际在新闻媒体上发布的新闻作为标准，来计算所提出模型的精确度和召回率。验证过程中的步骤如图7所示。

在验证过程中，将新闻的报道率近似为新闻的价值率。如果事件被报道，它被认为是有新闻价值的，反之，如果未被报道，则认为是新闻价值较低。对于一个数据集来说，如果该数据集中被报道的新闻所占比例越大，则可近似认为，该数据集中越多的新闻具有新闻价值，可能成为记者的新闻线索来源的可能性也就越大。

从所爬取的微博中随机抽样，然后基于是否被报道来判断其新闻价值，这种随机抽样方法的实验结果是模型验证的基线。在上一步骤中，将新闻按照新闻价值的高低做了排序并分为不同的分数段。如果在高分数段的新闻中，被报道的新闻的比率高于随机抽选得到的基线，同时，在低分段的新闻中，被报道的新闻的比率低于随机抽选得到的基线，则可认为模型有效。

因此，为了方便验证，选取了分组一内的3000篇微博，并检查这些微博是否被媒体报道，3000条微博均被打上了“被报道”或者“未报道”的标签。其中被报道的新闻有557篇，占分组1所有新闻的18.5％。此外，分组一的3000条微博被分成100条微博的子集合，新闻报道所涵盖的每个部分的事件数量如图8所示。可以看出，在前100条微博中，报道了41条微博。此外，在前100至200的集合中报道了35条，在2900至3000的集合中报道了6条。下降趋势在图8中清晰可见，表明一篇微博的排名越高，它被报道的概率就越高。

A、与随机抽选的对比验证：

对基线而言，在分组一的3000条微博中选择10％的文章，重复实验10次，最终的平均新闻价值率为21％。这意味着，当想要从大量的微博中获得有新闻价值的线索时，该微博在被模型排序之前具有新闻价值的概率是21％。对于本发明而言，3000条微博根据他们的分数排序，从前10％条微博中，可以很容易地计算出微博具有新闻价值的概率是35％。与基线相比，有很大的改善。此外，在最末尾的10％条微博，新闻价值的概率是9％。结果表明，该模型可以有效指出更有可能被报道的新闻线索，而剔除那些新闻价值较低的文本数据。

B、利用AP计算的验证

信息检索评价采用平均精度(AP)，强调对相关文献的排序。它是在排序序列中的每个相关文档的点处计算的精度的平均值。AP值在0到1之间，具有较高的值表示较高的性能。可以使用AP来衡量新闻的微博检索的性能，这提供了其他比较验证。AP公式如下：

其中r是排名，N是被检索的数量，rel()是一个与给出的排名相关的二元函数，P(r)是在一个给定的cut-off rank准确率。

对于基线，在包含3000微博的分组一中随机选择了100篇微博。在这100篇微博中，把被报道的微博视为相关文件，并且将抽取微博的顺序视为文件的排序。实验重复10次，AP为26％。

根据本发明的模型及相关方法，计算图8中的第一集合(100条微博)的AP值，有41条微博可以在新闻网站上找到。因此，为了计算批次1的AP，对于41条微博中的每一个，获得其排序Rk，并使用该值如下：

其中R_k是在图8中的第一集合被报道微博的排序。

图7中的第一集合(100条微博)的AP为62％。同样地，可以计算图8中的第三十集合(100条微博)的AP，即13％。AP值越高，检索到的相关文档就越多。在该测试中，这意味着更多的微博微博被报道在新闻网站上。因此，本发明的新闻线索模型可以再次被验证。

综上，本发明提出的基于用户发布内容量化新闻价值的数据处理方法和装置，基于自然语言处理技术量化计算新闻价值，通过对微博等社交平台的用户发布的内容进行信息抽取和处理，并将抽取的相关信息实体分为多个变量维度，根据建立的新闻线索发现模型进行计算，从中找到有价值的新闻线索，用更加高效、智能的方式帮助媒体随时获知网络中发布报道的价值指数，缩短新闻生产链长度，提高时效性，在竞争中获取更大的优势。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于用户发布内容量化新闻价值的数据处理方法，其特征在于，包括步骤：

从用户发布内容中抽取出与所述新闻价值量化模型中的各个指标对应的信息要素、并转化为可量化处理的数字信息；

将所述数字信息输入所述新闻价值量化模型，计算得到用户发布内容的新闻价值量化值。

2.根据权利要求1所述的基于用户发布内容量化新闻价值的数据处理方法，其特征在于，所述步骤对社会重要性从参与者的重要性、事件位置的重要性和事件的重要性三个指标进行量化处理，包括：

从参与者、事件位置和事件三个维度来设置重要词汇的集合，并对应设置各个重要词汇的重要等级；

检测用户发布内容中出现的重要词汇的数量和重要等级；

计算社会重要性的量化值：

3.根据权利要求1所述的基于用户发布内容量化新闻价值的数据处理方法，其特征在于：

所述步骤对权变条件从信息及时性和信息完整性两个指标进行量化处理，包括从用户发布内容或发布时间中提取事件发生时间来量化计算所述信息及时性、通过用户发布内容中的命名实体数量来量化计算所述信息完整性；所述信息及时性计算式如下：

Timeliness＝100-2^t/24

所述信息完整性计算式如下：

Completeness of information＝n_entitytype

Completeness of information即信息完整性，n_entity是命名实体的数量，type是命名实体类型的数量；

和/或，所述步骤对偏差从事件程度冲突和统计稀缺性两个指标进行量化处理，包括使用事件后果来量化计算事件冲突程度和统计稀缺性；对于交通事故，包括采用下式计算偏差：

Deviance＝Death+(Injury/n)

4.根据权利要求1-3任一项所述的基于用户发布内容量化新闻价值的数据处理方法，其特征在于，所述步骤构建新闻价值量化模型，包括构建如下新闻价值量化模型：

Newsworthiness score

＝ω₁×Social significance+ω₂×Deviance+ω₃×Timeliness+ω₄×Completenessof information

其中，Newsworthiness score为新闻价值量化值，Social significance为社会重要性，Deviance为偏差，Timeliness为信息及时性，Completeness of information为信息完整性，ω₁-ω₄分别代表社会重要性、事件后果、信息及时性和信息完整性对应的权重。

5.根据权利要求4所述的基于用户发布内容量化新闻价值的数据处理方法，其特征在于，所述步骤构建新闻价值量化模型，还包括将权重分别设为ω₁＝0.381，ω₂＝0.256，ω₃＝0.159，ω₄＝0.204。

6.根据权利要求1所述的基于用户发布内容量化新闻价值的数据处理方法，其特征在于，所述步骤从用户发布内容中抽取出与所述新闻价值量化模型中的各个指标对应的信息要素，包括社会重要性抽取、事件后果抽取、事件时间抽取和命名实体抽取。

7.根据权利要求6所述的基于用户发布内容量化新闻价值的数据处理方法，其特征在于，所述步骤事件后果抽取，包括：

建立正则表达式，初步抽取事件后果关键词；

对所述信息节点中的关键词进行标准化处理；

根据两所述信息节点之间的相对包含关系，设定各个所述信息节点的结构深度，构建结构树图；

根据所述结构树图，找出其中结构深度最大的信息节点群，将所述信息节点群中的一类属性值进行累加，得出事件后果的抽取结果。

8.根据权利要求6所述的基于用户发布内容量化新闻价值的数据处理方法，其特征在于，所述步骤事件时间抽取，包括：

和/或，所述步骤命名实体抽取，包括：

9.基于用户发布内容提取新闻线索的数据处理装置，其特征在于，包括：

所述新闻价值量化模块，还用于根据输入的所述数字信息，计算得到用户发布内容的新闻价值量化值。

10.根据权利要求9所述的基于用户发布内容提取新闻线索的数据处理装置，其特征在于，所述新闻价值量化模块，用于：

使用事件后果来量化计算事件冲突程度和统计稀缺性；

从用户发布内容或发布时间中提取事件发生时间来量化计算所述信息及时性、通过用户发布内容中的命名实体数量来量化计算所述信息完整性。