CN101984431B

CN101984431B - 网络新闻表情分布的自动预测方法

Info

Publication number: CN101984431B
Application number: CN2010105346243A
Authority: CN
Inventors: 吴偶; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2010-11-03
Filing date: 2010-11-03
Publication date: 2012-11-14
Anticipated expiration: 2030-11-03
Also published as: CN101984431A

Abstract

本发明公开一种网络新闻表情分布的自动预测方法。网络新闻表情分布是指大量网络用户在浏览完一则网络新闻后，对其不同的新闻表情投票形成的新闻表情分布。本发明包括：收集网络新闻数据，包括网络新闻样本以及每个样本的新闻表情用户投票数据，利用收集的数据进行关键词选择并对每一个新闻样本进行特征提取，利用概率标签传播算法来对投票数据分布进行修正；对于一个新的网络新闻样本，利用基于实例的机器学习算法来对其进行新闻表情的分布进行自动预测。本发明可以应用在网络新闻的新闻表情分析以及对新的网络新闻样本的新闻表情分布进行预测。

Description

网络新闻表情分布的自动预测方法

技术领域

本发明涉及计算机应用技术领域，特别涉及一种网络新闻表情分布的自动预测方法。

背景技术

网络新闻表情是阅读网络新闻后反应，国内主要新闻门户网站(如搜狐网、人民网、腾讯、凤凰网等)在每一个网络新闻的后面设立了新闻表情烂，内容包括：高兴、愤怒、感动、难过、搞笑、无聊等；每一个网络用户在上述的主要新闻门户网站阅读完一个网络新闻后，都可以在该新闻后面的新闻表情栏目上进行投票，以表达自己的心情与情感。大量的网络用户对某一个网络新闻投票之后，其投票数据能够大体上反映当前的网络大众对该篇新闻的心态和情感。图1为一则搜狐新闻的新闻表情投票数据。新闻表情可以很好的反应阅读者对新闻的即时心态，相比新闻评论更简洁，有利于迅速掌握网络大众对该新闻事件看法的快速统计。通过对网络新闻内容与新闻表情分布之间关系的建模，能够在一则新闻发布之前有效的预测该新闻可能产生的新闻表情分布，以便各个新闻门户网站在新闻发布之前有效的预测网络大众的反应。

图1示出一则搜狐新闻的新闻表情投票数据，网络新闻表情的分布预测不同于传统的多分类问题或者多标签问题。在多分类问题里面，训练集里面的每个样本的标签是多个类别中的一个类别；在多标签问题里面，训练集里面的每个样本的标签是多个类别中的一个或者多个类别。而在网络新闻表情的分布预测里面，所收集到的网络新闻的标签是建立在多个新闻表情类别上的一个分布。难以直接利用多文本分类问题或者多标签问题上的特征选择方法来选择关键词。此外，由于不同的新闻收到的关注度不同，有些新闻的受关注程度很大，因此参与投票的用户个数非常大，因此这类新闻的投票分布比较稳定，可信度强；有些新闻的受关注程度较小，参与投票的用户个数比较少，这类新闻的投票分布不太稳定，可信度较差。例如一个搜狐新闻当仅仅只有1个用户对其投票时，这1个用户投票产生的分布随机性很大，当越来越多的用户对该新闻进行投票后，其投票产生的分布才能够比较真实的反应了网络大众对该则新闻的反应。现有的方法都忽略了以上两点，一般都直接把每个网络新闻样本收到用户投票最多的新闻表情作为该网络新闻样本的类别，然后利用面向多类的文本特征选择方法进行关键词选择，丢失了很多用户投票的信息；同时不考虑不同用户投票数所导致的新闻表情的投票分布的不可靠性。

发明内容

(一)要解决的技术问题

本发明的主要目的是解决现有技术丢失很多用户投票的信息，及新闻表情的投票分布不可靠的技术问题，提出一种新的对网络新闻的新闻表情分布进行预测的方法。基于这样的一个背景，我们首先把所收集到的数据集转化为一个多类文本集合，这样就可以利用多类文本特征选择方法来进行关键词提取；同时根据不同新闻样本投票用户个数的不同，我们定义了一个置信度来反应样本的新闻表情分布的可靠程度，然后利用概率表情传播算法来对收集到的样本的新闻表情分布进行修正，以希望提高新闻表情分布的可靠性。

(二)技术方案

为达到上述目的，本发明提供了一种网络新闻表情分布的自动预测方法，该方法解决技术问题的技术方案包括：

步骤1：首先计算机收集的网络新闻样本以及每个网络新闻样本的新闻表情投票数据，对每一个网络新闻样本对应的新闻表情投票数据，进行如下归一化处理：设不同新闻表情的个数为K，设收集的网络新闻样本的个数为M，则待处理的第i个网络新闻样本的新闻表情投票数据为(V₁(i)，V₂(i)，…，V_j(i)，…，V_K(i))，其中i＝1，...，M，V_j(i)为对第i个网络新闻样本的第j个新闻表情进行过投票的用户的个数，则对待处理的第i个网络新闻样本投票的用户总个数为

然后计算机计算(V₁(i)/N(i)，V₂(i)/N(i)，…，V_j(i)/N(i)，…，V_K(i)/N(i))得到待处理的网络新闻样本的初始新闻表情分布用ED₀(i)来表示；所有收集的网络新闻样本的新闻表情投票数据进行归一化处理之后，获得初始新闻表情分布集合；

步骤2：计算机对收集的网络新闻样本集合以及初始新闻表情分布集合进行关键词选择，利用选择后的关键词对每个网络新闻样本进行特征提取，得到每个网络新闻样本的特征，则由每个网络新闻样本的特征组成网络新闻样本的特征集合，把收集到的网络新闻的样本以及其初始新闻表情分布转化为一个多类别文本集合，利用面向多类别的文本特征选择方法来选择关键词；

步骤3：计算机根据每个网络新闻样本的特征，再利用概率标签传播对每个网络新闻样本所对应的初始新闻表情分布进行修正，得到每一个网络新闻样本的修正后的新闻表情分布；

步骤4：计算机根据步骤2得到的网络新闻样本的特征集合，以及步骤3中得到的每一个网络新闻样本的修正后的新闻表情分布，构成一个实例集合，利用基于实例的机器学习算法，对未知新闻表情分布的网络新闻样本的新闻表情分布进行预测，得到未知新闻表情分布的网络样本的新闻表情分布。

其中，所述把收集到的网络新闻的样本以及其初始新闻表情分布转化为一个多类别文本集合的方法如下：逐个转化每一个收集到的网络新闻样本以及其初始新闻表情，设定第i个待转化的样本的初始新闻表情分布为ED₀(i)＝(V₁(i)/N(i)，V₂(i)/N(i)，…，V_j(i)/N(i)，…，V_K(i)/N(i))，其中，其中V_j(i)为对第i个网络新闻样本的第j个新闻表情进行过投票的用户的个数，对待处理的第i个网络新闻样本投票的用户总个数为将第i个待转化的样本复制V_j(i)份后加入到第j类表情对应的文本集合，通过上述转化方法后，每个表情都有一个对应的文本集合，把每个表情作为一个类别标签，那么每个表情和其对应的文本集合就形成了一个多类别文本集合。

其中，所述利用概率标签传播对每个网络新闻样本对应的初始新闻表情分布进行修正，是利用各个网络新闻样本的初始新闻表情分布的置信度不同来对外传播各个初始新闻表情分布，实现对每一个网络新闻样本的初始新闻表情分布进行更新；所述各个网络新闻样本的初始新闻表情分布的置信度为各个网络新闻样本对应的初始新闻表情投票用户个数的函数，投票用户个数越多，置信度越大；置信度函数的定义有多种不同形式，只要置信度函数满足函数值大于0且小于等于1，随着投票用户个数的增多，越来越接近1或者等于1。

其中，第i个网络新闻样本的初始新闻表情分布一种置信度α(i)定义如下：

α (i) = \{\begin{matrix} \frac{lgN (i)}{lgN (i) + 1} & ifN (i) \leq T \\ 1 & ifN (i) > T \end{matrix}

其中阈值T的范围可为1000～10000；为第i个网络新闻样本的投票用户个数；

设定有M个网络新闻样本对应的初始新闻表情分布ED₀(i)的置信度为α(i)，设定网络新闻样本之间的转移矩阵P形式如下：

其中p_im为第i个样本向第m样本的转移概率；首先计算样本之间的相似度矩阵，然后对相似度矩阵的行进行归一化来得到转移矩阵P。

其中，所述概率标签传播如下：

步骤31：依次计算第t步每个样本的新的新闻表情分布的计算公式如下：

E D_{t} (i) = α (i) \cdot {ED}_{0} (i) + (1 - α (i)) \cdot Σ_{m = 1, m &NotEqual; i}^{M} p_{mi} \cdot {ED}_{t - 1} (m),

式中，t的初始值设为1，ED_t(i)为第t步迭代后第i个样本的新的新闻表情分布，ED_t-1(m)(m＝1，…，M)为第t-1次迭代后第m个样本的新闻表情分布，ED₀(i)为第i个样本的初始新闻表情分布，p_im为第i个样本向第m样本的转移概率；

步骤32：设定ε为接近于0的正数，如果满足||ED_t(i)-ED_t-1(i)||≤ε，

则概率标签传播执行完毕，ED_t(i)是修正的新闻表情分布；如果满足||ED_t(i)-ED_t-1(i)||＞ε，则t＝t+1，返回步骤31。

其中，选用基于实例的机器学习算法中的一种K-近邻算法对新来的网络新闻样本进行新闻表情预测。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

1、本发明提供的概率标签传播算法，利用了机器学习领域内的相似的样本具有相似的标签这一基本原理，能够有效的解决收集到的网络新闻样本的新闻表情分布，在参与投票的用户个数较少时导致的新闻表情分布不可靠性问题。由于有些新闻样本参与对其新闻表情投票的用户较少，因此从该样本的投票数据得到的新闻表情分布的置信度较低，需要对其进行修正。概率标签传播，利用样本内容的相似性，也即内容相似的网络新闻更有可能具有相似的新闻表情分布，可以把一些置信度高的新闻表情分布通过样本内容的相似性累加到一些置信度较低的新闻表情分布上，实现对其修正。

2、本发明的关键词选择方法通过样本复制的方法，直接把收集到的网络新闻样本集合以及新闻表情分布集合转化成为一个多类别文本集合，可以使得能够利用各种通用的面向多类的文本关键词选择方法进行关键词选择。解决了在标签是一个分布而不是一个类别的情况下的关键词选择问题。

附图说明

图1是一则搜狐新闻的新闻表情投票数据；

图2为本发明提供的网络新闻表情分布的自动预测方法的流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的执行环境采用一台具有3.0G赫兹中央处理器和2G字节内存的奔腾4计算机并用C++语言编制了网络新闻表情分布的预测技术方案，实现了本发明自动的网络新闻表情分布的预测方法，还可以采用其他的执行环境，在此不再赘述。

图2为本发明提供的网络新闻表情分布的自动预测方法的流程图，其步骤如下：

步骤101：首先收集尽可能多(一般大于1000)的网络新闻样本以及每个网络新闻样本的新闻表情投票数据，对每一个网络新闻样本对应的新闻表情投票数据，进行如下归一化处理：设不同新闻表情的个数为K，设收集的网络新闻样本的个数为M，则待处理的第i(i＝1，...，M)个网络新闻样本的新闻表情投票数据为(V₁(i)，V₂(i)，…，V_j(i)，…，V_K(i))，其中V_j(i)为对第i个网络新闻样本的第j个新闻表情进行过投票的用户的个数，则对待处理的第i个网络新闻样本投票的用户总个数为

然后计算机计算(V₁(i)/N(i)，V₂(i)/N(i)，…，V_j(i)/N(i)，…，V_K(i)/N(i))得到待处理的网络新闻样本的初始新闻表情分布ED₀(i)。所有收集的网络新闻样本的新闻表情投票数据进行归一化处理之后，获得初始新闻表情分布集合；

假定第10个网络新闻表情的类别包括：高兴、难过、感动、愤怒、搞笑和无聊，且某一个网络新闻样本的新闻表情的投票为：

高兴：851票、难过：667票、感动：288票、愤怒：13647票、搞笑：2822票、无聊：379票；

也即该网络新闻样本的投票数据为(851，667，288，13647，2822，379)，对这个网络新闻样本的新闻表情进行投票的用户各位为18654(N(10)＝851+667+288+13647+2822+379＝18645)，则归一化后的初始新闻表情分布为：

ED₀＝[0.0456，0.0358，0.0154，0.7316，0.1513，0.0203]

步骤102：对收集的网络新闻样本集合以及初始新闻表情分布集合进行关键词选择，然后利用选择后的关键词对每个网络新闻样本进行特征提取，得到每个网络新闻样本的特征，则由每个网络新闻样本的特征组成网络新闻样本的特征集合，把收集到的网络新闻的样本以及其初始新闻表情分布转化为一个多类别文本集合，利用面向多类别的文本特征选择方法来选择关键词；

本发明在文本关键词选择上，首先要把收集的网络新闻样本集合以及相应的初始新闻表情分布集合转化为一个多类文本集合。对于某一个依次遍历每一个收集到的网络新闻样本以及其初始新闻表情，假定第i个遍历到的样本的初始新闻表情分布为ED₀(i)＝(V₁(i)/N(i)，V₂(i)/N(i)，…，V_j(i)/N(i)，…，V_K(i)/N(i))，V_j(i)对第i个样本投第j类表情的用户的个数，K为新闻表情的类别数，并对该样本的投票总用户人数为N(i)，那么将该样本复制V_j(i)份后加入到到第j类新闻表情对应的文本集合，j＝1，2，3，.....，K；通过上述转化方法后，每类新闻表情都有一个对应的文本集合，把新闻表情作为类别标签，那么每个新闻表情对应的文本集合就形成了一个多类别文本集合，然后就可以利用现有的面向多类的文本特征选择方法来进行关键词选择。关键词集合选择好之后，对每一个样本进行特征提取；

步骤103：根据每个网络新闻样本的特征，再利用概率标签传播对每个网络新闻样本所对应的初始新闻表情分布进行修正，得到每一个网络新闻样本的修正后的新闻表情分布；该步骤是利用收集到的各个网络新闻样本的置信度的不同，把各个网络新闻样本的初始表情分布向其他的网络新闻样本进行传播，以对每一个网络新闻样本初始新闻表情分布进行修正。各个网络新闻样本的初始新闻表情分布的置信度定义为对该样本进行投票的用户个数的函数，投票用户的个数越多，置信度越大。置信度函数的定义可以有多种不同形式，只要置信度函数满足函数值大于0且小于等于1，随着投票用户个数的增多，越来越接近或者等于1即可。假定N(i)为第i个网络新闻样本的投票用户个数，则该样本的初始新闻呢表情分布的一种置信度可以定义如下：

α (i) = \{\begin{matrix} \frac{lgN (i)}{lgN (i) + 1} & ifN (i) \leq T \\ 1 & ifN (i) > T \end{matrix}

其中T为阈值，范围可为1000～10000；假定有M个网络新闻样本，其中第i个网新闻样本对应的初始新闻表情分布记为ED₀(i)，其置信度记为α(i)，设网络新闻样本之间的转移矩阵P的形式如下：

其中p_im为第i个样本向第m样本的转移概率；首先计算样本之间的相似度矩阵，然后对相似度矩阵的行进行归一化来得到转移矩阵P，i，m＝1，…，M。

概率标签传播算法如下(t的初始值设为1)：

Step1.依次计算第t步每个网络新闻样本的新的新闻表情分布，其计算公式如下(以第i个样本为例，i＝1，…，M)：

E D_{t} (i) = α (i) \cdot {ED}_{0} (i) + (1 - α (i)) \cdot Σ_{m = 1, m &NotEqual; i}^{M} p_{mi} \cdot {ED}_{t - 1} (m),

Step2.设定ε为接近于0的正数，如果满足||ED_t(i)-ED_t-1(i)||≤ε，

则则概率标签传播执行完毕，ED_t(i)就是第i个网络新闻样本修正后的新闻表情分布；如果满足||ED_t(i)-ED_t-1(i)||＞ε，则t＝t+1，返回步骤Step1。

步骤104：对未知新闻表情分布的网络新闻样本，根据步骤102得到的网络新闻样本的特征集合，以及步骤103中得到的每一个网络新闻样本的修正后的新闻表情分布，利用基于实例的机器学习算法，对未知新闻表情分布的网络新闻样本的新闻表情分布进行预测，得到未知新闻表情分布的网络样本的新闻表情分布。

基于实例的机器学习算法包括K-近邻算法或者权重K-近邻算法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种网络新闻表情分布的自动预测方法，其特征在于，该方法包括：

步骤4：计算机根据步骤2得到的网络新闻样本的特征集合，以及步骤3中得到的每一个网络新闻样本的修正后的新闻表情分布，构成一个实例集合，利用基于实例的机器学习算法，对未知新闻表情分布的网络新闻样本的新闻表情分布进行预测，得到未知新闻表情分布的网络样本的新闻表情分布；

所述利用概率标签传播对每个网络新闻样本对应的初始新闻表情分布进行修正，是利用各个网络新闻样本的初始新闻表情分布的置信度不同来对外传播各个初始新闻表情分布，实现对每一个网络新闻样本的初始新闻表情分布进行更新；所述各个网络新闻样本的初始新闻表情分布的置信度为各个网络新闻样本对应的初始新闻表情投票用户个数的函数，投票用户个数越多，置信度越大；置信度函数的定义有多种不同形式，只要置信度函数满足函数值大于0且小于等于1，随着投票用户个数的增多，越来越接近1或者等于1；

第i个网络新闻样本的初始新闻表情分布一种置信度α(i)定义如下：

α (i) = \{\begin{matrix} \frac{lgN (i)}{lgN (i) + 1} & ifN (i) \leq T \\ 1 & ifN (i) > T \end{matrix}

其中阈值T的范围可为1000～10000；

为第i个网络新闻样本的投票用户个数；

2.根据权利要求1所述的网络新闻表情分布的自动预测方法，其特征在于，所述把收集到的网络新闻的样本以及其初始新闻表情分布转化为一个多类别文本集合的方法如下：逐个转化每一个收集到的网络新闻样本以及其初始新闻表情，设定第i个待转化的样本的初始新闻表情分布为ED₀(i)＝(V₁(i)/N(i)，V₂(i)/N(i)，…，V_j(i)/N(i)，…，V_K(i)/N(i))，其中，其中V_j(i)为对第i个网络新闻样本的第j个新闻表情进行过投票的用户的个数，对待处理的第i个网络新闻样本投票的用户总个数为

将第i个待转化的样本复制V_j(i)份后加入到第j类表情对应的文本集合，通过上述转化方法后，每个表情都有一个对应的文本集合，把每个表情作为一个类别标签，那么每个表情和其对应的文本集合就形成了一个多类别文本集合。

3.根据权利要求1所述的网络新闻表情分布的自动预测方法，其特征在于，所述概率标签传播步骤如下：

E D_{t} (i) = α (i) \cdot {ED}_{0} (i) + (1 - α (i)) \cdot Σ_{m = 1, m &NotEqual; i}^{M} p_{mi} \cdot {ED}_{t - 1} (m),

则概率标签传播执行完毕，ED_t(i)是修正的新闻表情分布；如果满足||ED_t(i)-ED_t-1(i)||＞ε，

则t＝t+1，返回步骤31。

4.根据权利要求1所述的网络新闻表情分布的自动预测方法，其特征在于，选用基于实例的机器学习算法中的一种K-近邻算法对新来的网络新闻样本进行新闻表情预测。