CN107102976A

CN107102976A - 基于微博的娱乐新闻自动构建技术与系统

Info

Publication number: CN107102976A
Application number: CN201710177559.5A
Authority: CN
Inventors: 王天明; 万小军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2017-08-29

Abstract

本发明公开了一种基于微博的娱乐新闻自动构建技术与系统，涉及语言文字处理领域。目前社交媒体在互联网上十分流行，有大量的娱乐新闻从微博中诞生。基于微博的娱乐新闻构建主要分为两个阶段。第一阶段为对微博是否具有新闻价值进行判别，筛选出内容有意义、公众关注度高或者引发热烈讨论的微博，主要通过对微博提取特征然后使用随机森林进行分类预测来完成；第二阶段新闻生成阶段，对前一阶段过滤后得到的微博使用模板为主的方式构建新闻。在收集大量的微博数据并标注后，本系统通过以上两个阶段即可完成自动的娱乐新闻构建，既能生成丰富的用户关注的新闻，又能有效节省人力物力。

Description

基于微博的娱乐新闻自动构建技术与系统

技术领域

本发明涉及语言文字处理领域，特别涉及一种基于社交媒体的新闻构建生成技术与系统。

背景技术

目前社交媒体在互联网上十分流行，微博作为其中之一也广受欢迎。许多明星都开通了自己的微博并且拥有大量的粉丝。他们经常在微博上发布自己的动态或者与他人互动，得到了粉丝、公众的关注。据不完全统计，有十分之一的娱乐新闻来自明星的微博，并且这一比例还在继续增长。这些娱乐新闻通常由三部分组成：背景、微博内容及复述和用户评论。新闻开头部分通常会简单介绍明星或者该条微博发布的背景；中间部分是微博的具体内容，包括文字和微博附图，以及新闻编辑对该微博内容的复述；最后部分由其他用户对该微博的评论组成，与微博内容相呼应。

在新闻自动写作方面，已有不少成功的案例。例如Jianmin Zhang等人提出了利用体育文字直播来生成体育新闻的方法，Sharma等人提出了基于twitter的新闻生成器。而在社交媒体分析方面，也已完成了大量的工作，包括对社交媒体的情感分析，舆情、事件监测等等。

发明内容

本发明提供一种基于微博的娱乐新闻自动构建技术与系统。

基于微博的娱乐新闻构建主要分为两个阶段。第一阶段为对微博是否具有新闻价值进行判别，筛选出内容有意义、公众关注度高或者引发热烈讨论的微博；第二阶段新闻生成阶段，对前一阶段过滤后得到的微博使用模板为主的方式构建新闻。本系统通过以上两个阶段即可完成自动的娱乐新闻构建，既能生成丰富的用户关注的新闻，又能有效节省人力物力。

本发明采用的技术方案除以上提及的两个主要阶段，还包括数据的收集及预处理阶段。接下来将对这三部分进行逐一描述介绍。

1.数据收集及预处理：

本系统通过新浪微博的API抓取了一千余明星的数十万条微博，抓取数据包括微博的用户信息、微博内容、微博的点赞、转发和评论数以及与其他微博之间的转发关系。这些信息是用作判别微博是否具有新闻价值的特征。

由于微博的新闻价值并没有明确的定义和区分界限，我们将已经被各大新闻网站编辑发布为新闻的微博视为有新闻价值，并以此作为之后系统进行机器学习并实时推测判定微博是否有新闻价值的依据。因此除去抓取的微博外，本系统还通过百度新闻检索引擎API对每条微博进行在线匹配，用于检索判定是否有基于该微博的新闻存在。检索的关键字为明星的名字和该微博的文本内容，匹配取决于微博文本与检索结果返回的新闻摘要之间的重合度。此步骤可视为对数据的标注，是下一阶段判别过程中分类器训练以及结果测试的数据来源。

2.微博的新闻价值判定

如之前所述，微博可分为有新闻价值和无新闻价值两类，根据之前的在线匹配将之分别标记为正例和负例。因此微博的判定过程其实也就是对其进行分类的过程。本系统使用随机森林(Random Forest)这一集成学习分类器，使用上一阶段标注的数据集作训练和测试。随机森林是一种利用多棵决策树对样本进行训练并预测的分类器。每棵决策树训练时，通常选取样本的部分特征作为分裂特征，根据这些特征将训练数据分裂成更小的两个数据集。相比于其他分类器如支持向量机(Support Vector Machine)、朴素贝叶斯分类器(Bayes Classifier)等，随机森林在此任务上有着更好的表现。

本系统使用了四类特征共6966维作为分类依据，分别是用户特征、交互特征、文本特征和其他特征。

(1)用户特征是指与微博用户相关的信息组成的特征，包括用户的微博粉丝数，用户所有微博的平均点赞数、评论数和转发数。这些特征主要用来衡量用户的受欢迎程度。

(2)交互特征反映的是公众与该条微博互动情况，包括该条微博的点赞数、评论数和转发数。考虑到不同用户之间的粉丝数之间有较大差距，将该条微博的点赞数、评论数和转发数分别除以该用户的平均点赞数、评论数和转发数，更能反映该条微博的受关注度。举个例子，粉丝数超过千万的明星用户任意一条微博动辄上万的点赞，无论内容。而粉丝数百余万的明星在微博上宣布婚讯或发布其他有意义的内容，也不过近千的评论。后者显然是具有新闻价值的。除此之外，用相对值来表示这类特征，在归一化时也有优势，可以避免部分值在归一化后过小而被忽略。

(3)文本是微博中信息最丰富的特征之一，它是微博的主体，讲述了微博的内容。本系统使用了jieba工具来完成中文分词。对分词后的文本，提取以下两种特征：词袋向量(bag of words)和改进的TF-IDF权重和。

词袋向量是指将所有微博中出现的每个不同的词作为向量的一个维度，每条微博中该词出现的次数就是这一维的值。这样每条微博文本就可以用一个高维度向量来表示。尽管该模型会忽略文本的词序和语法，但仍是表示文本内容的一个有效手段。为避免向量维度过高，我们去除了一些低频词和高信息熵词。低频词指的是在所有微博(共28830条)中出现次数不足10次的词。这些词往往具有高度特殊性，也可能是错词，只出现在几条特定的微博中。高信息熵词指的是那些在正例和负例微博中均衡出现的词，比如像一些人称代词或者助词。对于信息熵计算的定义，由Shannon等人在1963年提出：

entropy_i＝H(p(C|word_i))

＝-(p(Positive|word_i)log p(Positive|word_i)

+p(Negative|word_i)log p(Negative|word_i))

其中p(Positive|word_i)表示含词word_i的微博为正例的条件概率，p(Negative|word_i)含词word_i的微博为负例的条件概率。根据以上公式计算，信息熵高于0.7的词将被过滤。

除了词袋模型的向量表示外，另一个特征就是改进的TF-IDF权重和。TF-IDF值是一种统计方法，用于评估一个词对一个文本的重要程度，由词频和逆向文件频率计算可得。而将一个文本中所有词的TF-IDF值相加可以得到权重和，表示整个文本的重要程度。考虑到同一个词对正例文本和负例文本的重要程度不同，我们用以下改进的公式来计算TF-IDF和：

其中tfidf_p_i表示在正例文本集(由有新闻价值的微博组成)中计算得到的词i的TF-IDF值，tfidf_n_i表示在负例文本集(由无新闻价值的微博组成)中计算得到的词i的TF-IDF值。两者做差用以表示该条文本含有新闻价值的程度。

以上两者共6939(6938+1)维，构成了数据的文本特征。

(4)其他特征指的是从微博中一些特殊表达式中提取出来的特征。微博中的特殊表达式包括表情(比如[玫瑰])、URL链接(比如https://weibo.com)、@(比如@新浪微博)等。我们各用一维向量来表示微博中的表情数、URL链接数和@数。除此之外，我们还记录了微博的原创转发情况，用以区分每条微博是否为原创和转发。

综上4类特征，构成了本系统分类器训练和测试数据的特征。本系统按9：1的比例划分训练数据和测试数据。在微博是否有新闻价值的二分类任务上，本系统使用的方法表现高出其他方法，正例的分类精确度(Precision)达到0.7669，召回率(Recall)达到0.8166，F值(F-measure)达到0.7910。

3.新闻的生成

通过第二阶段中训练得到的分类器，本系统可以实时地对明星用户发布的最新微博进行预测判定。若该条微博具有新闻价值，就利用模板写作的方式生成一条基于该微博的新闻。

模板包括时间、微博用户、微博内容、微博下的评论以及连接上述部分的语句。其中一个模板如下：

时间，用户更新了他/她的微博：“微博文本”，并在文末附上了照片：微博图片。

短时间内网友们大量转发评论。有网友表示：“评论1”，也有网友称：“评论2”。

上述模板中，加粗字体为实时抓取的微博数据。

对于模板中用户评论的选取，我们主要遵循以下两个原则：热门和相关。热门指的是该条评论的点赞数多，相关指的是评论与微博内容之间的重合度高。

除了基于单微博的新闻生成，本系统还能完成基于多微博的新闻自动构建。如果微博A转发了微博B，且微博A和微博B都是具有新闻价值的，那么就可以为这两条微博生成一条共同的新闻。其中一个多微博的新闻模板如下：

时间，用户A发布了一条新微博：“微博文本A”。

用户B随即转发评论称：“微博文本B”。

网友们迅速点赞评论。有人称：“评论A”，也有网友表示：“评论B”。

其中评论A选取自微博A，评论B选取自微博B。

综合以上三个阶段，本系统就完成了基于微博的娱乐新闻自动构建。总结来说，主要流程如下：

首先获取微博数据，标注数据并划分训练、测试集；再对数据集进行4类特征的提取，利用训练集数据训练分类器并在测试集上对结果进行分析评价，以达到一个好的分类预测结果；最后用分类器对实时抓取的最新微博进行分类预测，对其中具有新闻价值的微博通过模板的方法完成自动的娱乐新闻构建。

附图说明

图1.基于微博的娱乐新闻自动构建流程图

具体实施方式

下面结合实施例和附图进一步阐述本发明所述的技术方案：

如图1所示，基于微博的娱乐新闻构建技术，包括如下步骤：

1.数据的获取

通过新浪微博的API抓取一千余明星的数十万条微博，抓取数据包括微博的用户信息、微博内容、微博的点赞、转发和评论数以及与其他微博之间的转发关系。

2.在线匹配标注数据并划分数据集

通过百度新闻检索引擎API对每条微博进行在线匹配，用于检索判定是否有基于该微博的新闻存在。若有新闻存在，则认为微博是有新闻价值的。检索的关键字为明星的名字和该微博的文本内容，匹配取决于微博文本与检索结果返回的新闻摘要之间的重合度。重合度用微博中的子句是否完整地出现在新闻摘要中来衡量，如果出现的总字数超过10即认为新闻是基于该微博的。按照在线匹配的结果对数据进行是否有新闻价值的标注。

将数据集按9：1划分，得到训练集和测试集。

3.提取特征并训练分类器

抽取四类特征共6966维作为分类依据，分别是用户特征、交互特征、文本特征和其他特征。特征具体内容如发明内容中所述。

使用随机森林(Random Forest)这一集成学习分类器，使用上一步骤标注的数据集作训练和测试。测试结果表明，随机森林以及这四类特征在这个分类任务上表现优异。

4.实时抓取最新微博并预测

实时地对明星用户发布的最新微博进行预测判定。若该条微博具有新闻价值，就在下一步骤中利用模板写作的方式生成一条基于该微博的新闻。

如果有多条微博同时被预测为有新闻价值，且这些微博之间存在转发关系，则在下一步骤中生成基于多微博的新闻。

5.用模板生成新闻

对于有新闻价值的微博，通过以模板为主的方法生成新闻。

以上完成了基于微博的娱乐新闻的自动构建过程。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims

1.一种基于微博的娱乐新闻自动构建技术系统，其特征在于，该方法通过对该方法通过对微博提取多类特征，使用机器学习的方法来对微博进行分类，预测微博是否有新闻价值，随后使用以模板为主的方式对有新闻价值的微博自动构建新闻。该方法既能生成丰富的用户关注的新闻，又能有效节省人力物力。

2.一种基于微博的娱乐新闻自动构建技术，其特征在于包括如下步骤：

(1)获取微博数据、在线匹配标注数据并划分数据集；

(2)对微博数据提取特征并训练分类器；

(3)实时抓取最新微博并使用分类器预测判断其是否具有新闻价值；

(4)对有新闻价值的微博用模板生成新闻。

3.根据权利要求2所述的基于微博的娱乐新闻生成技术，其特征在于，通过微博API来获取微博数据并利用新闻检索引擎来标注数据。

首先通过新浪微博的API抓取了一千余明星的数十万条微博，抓取数据包括微博的用户信息、微博内容、微博的点赞、转发和评论数以及与其他微博之间的转发关系。这些信息将用作判别微博是否具有新闻价值的特征。

由于微博的新闻价值并没有明确的定义和区分界限，本技术将已经被各大新闻网站编辑发布为新闻的微博视为有新闻价值，并以此作为之后系统进行机器学习并实时推测判定微博是否有新闻价值的依据。因此除去抓取的微博外，本系统还通过百度新闻检索引擎API对每条微博进行在线匹配，用于检索判定是否有基于该微博的新闻存在。检索的关键字为明星的名字和该微博的文本内容，匹配取决于微博文本与检索结果返回的新闻摘要之间的重合度。重合度用微博中的子句是否完整地出现在新闻摘要中来衡量，如果出现的总字数超过10即认为新闻是基于该微博的。按照在线匹配的结果对数据进行是否有新闻价值的标注。

4.根据权利要求2所述的新闻综述生成方法，其特征在于，从已获取的微博数据中对每条微博提取用户特征、交互特征、文本特征和其他特征四类共6966维作为判定微博是否有新闻价值的依据，并使用随机森林这一集成学习算法作为分类器。对于提取的四类特征具体描述如下：

(2)交互特征反映的是公众与该条微博互动情况，包括该条微博的点赞数、评论数和转发数。考虑到不同用户之间的粉丝数之间有较大差距，将该条微博的点赞数、评论数和转发数分别除以该用户的平均点赞数、评论数和转发数，更能反映该条微博的受关注度。

(3)文本是微博中信息最丰富的特征之一，它是微博的主体，讲述了微博的内容。本系统使用了jieba工具来完成中文分词。对分词后的文本，提取以下两种特征：词袋向量(bagof words)和改进的TF-IDF权重和。

词袋向量是指将所有微博中出现的每个不同的词作为向量的一个维度，每条微博中该词出现的次数就是这一维的值。这样每条微博文本就可以用一个高维度向量来表示。尽管该模型会忽略文本的词序和语法，但仍是表示文本内容的一个有效手段。为避免向量维度过高，我们去除了一些低频词和高信息熵词。低频词指的是在所有微博(共28830条)中出现次数不足10次的词。这些词往往具有高度特殊性，也可能是错词，只出现在几条特定的微博中。高信息熵词指的是那些在正例和负例微博中均衡出现的词，比如像一些人称代词或者助词。

对于信息熵计算的定义，由Shannon等人在1963年提出：

entropy_i＝H(p(C|word_i))

＝-(p(Positive|word_i)log p(Positive|word_i)

+p(Negative|word_i)log p(Negative|word_i))

其中p(Positive|word_i)表示含词word_i的微博为正例的条件概率，

p(Negative|word_i)含词word_i的微博为负例的条件概率。根据以上公式计算，信息熵高于0.7的词将被过滤。

除了词袋模型的向量表示外，另一个特征就是改进的TF-IDF权重和。TF-IDF值是一种统计方法，用于评估一个词对一个文本的重要程度，由词频和逆向文件频率计算可得。而将一个文本中所有词的TF-IDF值相加可以得到权重和，表示整个文本的重要程度。考虑到同一个词对正例文本和负例文本的重要程度不同，这里用以下改进的公式来计算TF-IDF和：

<mrow> <mi>d</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>word</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> <mi>t</mi> <mi>f</mi> <mi>i</mi> <mi>d</mi> <mi>f</mi> <mo>_</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>t</mi> <mi>f</mi> <mi>i</mi> <mi>d</mi> <mi>f</mi> <mo>_</mo> <msub> <mi>n</mi> <mi>i</mi> </msub> </mrow>

以上两者共6939(6938+1)维，构成了数据的文本特征。

(4)其他特征指的是从微博中一些特殊表达式中提取出来的特征。微博中的特殊表达式包括表情(比如[玫瑰])、URL链接(比如https://weibo.com)、@(比如@新浪微博)等。这里各用一维向量来表示微博中的表情数、URL链接数和@数。除此之外，本方法还记录了微博的原创转发情况，用以区分每条微博是否为原创和转发。

5.根据权利要求2所述的新闻综述生成方法，其特征在于，通过微博API实时获取明星用户的最新微博并使用训练所得的分类器预测判定这些微博是否具有新闻价值。若某条微博具有新闻价值，就在下一步骤中利用模板写作的方式生成一条基于该微博的新闻。如果有多条微博同时被预测为有新闻价值，且这些微博之间存在转发关系，则在下一步骤中生成基于多微博的新闻。

6.根据权利要求2所述的新闻综述生成方法，其特征在于，用模板的方法对有新闻价值的微博进行自动的新闻构建。

模板包括时间、微博用户、微博内容、微博下的评论以及连接上述部分的语句。其中一个单微博新闻的模板如下：

上述模板中，加粗字体为实时抓取的微博数据。

对于模板中用户评论的选取，本系统主要遵循以下两个原则：热门和相关。热门指的是该条评论的点赞数多，相关指的是评论与微博内容之间的重合度高。

时间，用户A发布了一条新微博：“微博文本A”。

用户B随即转发评论称：“微博文本B”。

其中评论A选取自微博A，评论B选取自微博B。

7.基于微博的娱乐新闻自动构建技术系统，首先获取微博数据，标注数据并划分训练、测试集；再对数据集进行4类特征的提取，利用训练集数据训练分类器并在测试集上对结果进行分析评价，以达到一个好的分类预测结果；最后用分类器对实时抓取的最新微博进行分类预测，对其中具有新闻价值的微博通过模板的方法完成自动的娱乐新闻构建。