CN104572807B

CN104572807B - 一种基于微博信息源的新闻认证方法及系统

Info

Publication number: CN104572807B
Application number: CN201410594515.9A
Authority: CN
Inventors: 曹娟; 张俊强; 谢菲; 张勇东; 苏宇; 李锦涛; 吕锐; 陈明祥
Original assignee: XINHUA NEWS AGENCY; Institute of Computing Technology of CAS
Current assignee: XINHUA NEWS AGENCY; Institute of Computing Technology of CAS
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2018-02-06
Anticipated expiration: 2034-10-29
Also published as: CN104572807A

Abstract

本发明涉及微博新闻可信度领域，特别涉及一种基于微博信息源的新闻认证方法及系统，该方法包括：提取新闻的信息源，作为待认证信息源，获取与所述待认证信息源相对应用户的用户信息；获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例，并根据以上三个比例，获取所述用户的社交关系可信度值；获取所述用户的用户活跃度与历史微博平均影响力，将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值；获取微博的评价舆情指数，同时查找所述微博的评论微博，并获取所述评论微博的评论舆情指数，将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值；将以上三个可信度值进行线性加权求和作为综合可信度值。

Description

一种基于微博信息源的新闻认证方法及系统

技术领域

本发明涉及微博新闻可信度领域，特别涉及一种基于微博信息源的新闻认证方法及系统。

背景技术

随着微博在人们生活中的普遍应用，使用微博平台获取和发布信息成为人们生活中很重要的部分，微博上信息的真实性问题，也越来越得到人们的重视，微博平台中虚假信息和不实信息的传播，不仅会给网络环境带来负面影响，也会给个人生活和社会稳定带来严重危害，现有技术中对新闻事件的认证还是借助人力的干预判断和调查取证，其缺点是耗费人力多，花费时间长。

发明专利“一种基于用户行为的用户可信度认证系统及方法”，该发明公开了一种基于用户行为的用户可信度认证系统及方法，该系统包括用户身份及行为模式确认模块、用户行为采集模块、用户行为挖掘模块、用户行为序列匹配及可信度认证模块和本地安全策略模块，通过用户行为挖掘模块对用户的行为日志进行行为挖掘，建立用户个性化行为特征序列，通过用户行为序列匹配及可信度认证模块对用户个性化行为特征序列与待匹配序列进行序列相似度计算，获得用户可信度级别，并启用相应的安全策略。该发明，利用序列模式挖掘方式，采集用户的实时行为建立待匹配序列，进行行为序列的相似度匹配，以此对用户的实时行为进行可信认证，提高认证的准确率，保障企业和个人财产安全。但是该发明仅仅利用用户的行为信息，而本发明综合使用了用户的社交关系信息、社交行为信息和社交评价信息；该发明从用户行为日志挖掘行为特征序列，而本发明以事件关键词为检索关键词搜集数据；该发明基于单用户应用平台，不涉及多用户交互，而本发明基于的是社交网络。

发明专利“一种基于微博平台的用户可信度评估方法”，该发明基于全球著名的微博平台，如Twitter,新浪微博，腾讯微博等，针对信息可信度进行研究，提出采用用户可信度评估模型来评估用户的可信度，为全球的微博用户识别微博平台上海量信息的真伪提供了关键性的理论依据以供同行参考，并提出了重要的应用价值供广大微博用户运用。该方法可广泛应用于微博平台上的信息可信度评估方面，主要包括微博平台上的用户可信度，主题专家的探测，广告投放效果的实际价值等等，在一定程度上为微博用户在信息化时代准确的识别微博上海量信息的真伪奠定了重要的基础。但该发明仅仅利用用户社交关系信息，而本发明综合使用了用户的社交关系信息、社交行为信息和社交评价信息；该发明主要提出一种简单可泛用的用户可信度的评价模型，而本发明则是针对新闻事件认证这一具体任务，用户可信度评估是实现该任务的一个手段。

发明专利“一种获取社交网络用户可信度方法及系统”，该发明获取社交网络用户可信度的方法及系统，其中，所述方法包括：收集社交网络用户在现实世界中与其他用户之间产生的第一社交行为；累积所述第一社交行为的相关数据；根据累积后的第一社交行为的相关数据，获取所述社交网络用户的可信度信息。通过该发明，能够获取到更具有参考价值的可信度信息，供用户引用或者查询。但该发明需要收集现实世界中的社交行为，数据获取难度大，而本发明的分析数据则完全来源于微博平台，数据获取难度小；该发明针对社交网络的用户可信度，而本发明则是针对新闻事件认证这一具体任务，用户可信度评估只是实现该任务的一个手段。

发明内容

针对现有技术的不足，本发明提出一种基于信息源的新闻认证方法及系统。

本发明提出一种基于微博信息源的新闻认证方法，包括：

步骤1，提取新闻的信息源，作为待认证信息源，获取与所述待认证信息源相对应用户的用户信息；

步骤2，根据所述用户信息，获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例，并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例，通过经验值归一化后加权融合，获取所述用户的社交关系可信度值；

步骤3，根据所述用户信息，获取所述用户的用户活跃度与历史微博平均影响力，将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值；

步骤4，查找所述用户的所有微博，获取所述微博的评价舆情指数，同时查找所述微博的评论微博，并获取所述评论微博的评论舆情指数，将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值；

步骤5，将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值，根据所述综合可信度值，获取所述新闻的可信度预警等级，以完成认证所述新闻。

所述的基于微博信息源的新闻认证方法，将所述用户的粉丝数与关注数分别取log平滑后的比值，作为所述粉丝数与关注数比例。

所述的基于微博信息源的新闻认证方法，所述用户活跃度通过以下公式获取：

Ac(i)＝Count_N(i)/N

其中N为天数，i为所述用户，Count_N(i)为所述用户在N天内发表微博的总数，Ac(i)为所述用户活跃度。

所述的基于微博信息源的新闻认证方法，所述历史微博平均影响力通过以下公式获取：

其中k为所述用户发布的微博k，Re(t)为所述微博k第t个转发引起的二次转发数，T为所述微博K的转发总数，Fluence(k)为历史微博影响力；

其中m为所述用户的历史微博数，i为所述用户，avg_Fluence(i)为所述历史微博平均影响力。

所述的基于微博信息源的新闻认证方法，所述步骤5还包括：

生成预测模型，通过所述预测模型对新闻进行认证。

本发明还提出一种基于微博信息源的新闻认证系统，包括：

获取待认证信息源模块，用于提取新闻的信息源，作为待认证信息源，获取与所述待认证信息源相对应用户的用户信息；

获取社交关系可信度值模块，用于根据所述用户信息，获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例，并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例，通过经验值归一化后加权融合，获取所述用户的社交关系可信度值；

社交行为可信度值模块，用于根据所述用户信息，获取所述用户的用户活跃度与历史微博平均影响力，将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值；

社交评价可信度值模块，用于查找所述用户的所有微博，获取所述微博的评价舆情指数，同时查找所述微博的评论微博，并获取所述评论微博的评论舆情指数，将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值；

认证模块，用于将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值，根据所述综合可信度值，获取所述新闻的可信度预警等级，以完成认证所述新闻。

所述的基于微博信息源的新闻认证系统，将所述用户的粉丝数与关注数分别取log平滑后的比值，作为所述粉丝数与关注数比例。

所述的基于微博信息源的新闻认证系统，所述用户活跃度通过以下公式获取：

Ac(i)＝Count_N(i)/N

所述的基于微博信息源的新闻认证系统，所述历史微博平均影响力通过以下公式获取：

所述的基于微博信息源的新闻认证系统，所述认证模块还包括：

生成预测模型，通过所述预测模型对新闻进行认证。由以上方案可知，本发明的优点在于：

通过本发明的方法及系统，能够有效的解决微博新闻可信度的技术问题，能够自动完成对新闻的可信度评估，节省大量人力物力，且本发明能够准确，高效的对新闻完整可信度认证。

附图说明

图1a为微博传播模式为“中心发散式”的示意图；

图1b为微博传播模式为“多点爆发式”的示意图；

图2为社会关系可信度示意图；

图3为本发明流程图。

其中附图标记为：

步骤100为本发明整体步骤，包括：

步骤101/102/103/104/105/106。

具体实施方式

本发明的目的是有效地对新闻事件进行认证，主要解决的技术问题为如何从微博平台定位最为关键的信息源、建立有效的可信度度量模型对待认证信息源进行可信度评估。

以下为本发明的具体流程，如图3所示：

步骤101，根据新闻事件，获取相关微博，从所述相关微博中挖掘事件消息传播图，定位关键信息源作为待认证信息源，并获取与所述待认证信息源相对应用户的用户信息。本发明将微博传播模式直观分为“中心发散式”和“多点爆发式”，其中“中心发散式”是指在传播图中往往只有一个出度很大的点，而“多点爆发式”则会在传播过程中出现多个出度较大的点，如图1a和图1b所示，其中的“中心发散式”往往是由于名人效应引起的大量转发而没有形成热烈讨论，而“多点爆发式”则是在传播过程中出现了多种声音和讨论，这种情况下说明微博消息在传播过程中引发了一些不一样的看法，并且这些看法受到一些人的认同，因此本发明选取“多点爆发式”的信息源作为待认证信息源，有效避开了由“名人效应”引发的大量二次转发而带来的干扰，“多点爆发式”的传播模式中有蕴藏更多的讨论而不只是单纯的转发。

步骤102，基于社交关系的可信度预测，从用户的社交关系来看，一个用户的可信度主要受如图2所示的三个因素的影响：用户粉丝数(Fr)，用户关注数(Fo)以及用户互粉数(Bf)，本发明利用这三大因素获得用户社交关系可信度预测，其中互粉比例：从整体上看，一个用户的互粉比例(Bf(i)/Fo(i))直接决定了一个用户为“水军”(即可信度比较低的用户)的可能性，“水军”往往关注很多其他用户来伪装自己，但这些被其关注的用户并不会关注这些“水军”账号，因此互粉(即为互相关注)比例越大，该账户是“水军”的可能性越小，可信度也就越高；认证粉丝比例：一个用户粉丝中已经过认证用户所占的比例越高，则该用户的可信程度越高；粉丝数与关注数比例：将用户的粉丝数与关注数取log平滑后的比值log(Fs(i))/log(Fo(i))作为该用户可信度的一个参考。最终，将这三个数值用经验值归一化后加权融合，得到用户社交关系可信度值。

步骤103，基于社交行为的可信度预测，从用户的社交行为来看，本发明从用户活跃度、历史微博平均影响力来综合预测用户社交行为的可信度，通过以下公式计算用户活跃度：

Ac(i)＝Count_N(i)/N

举例来说，用户活跃度：用户最近30天的活跃指数来度量用户的活跃度，活跃度越高，用户行为可信度越高，具体计算公式如下：

Ac(i)＝Count_30(i)/30

其中Count_30(i)，表示用户i在最近30天内，发表微博的总数。

历史微博平均影响力，首先给出相关微博影响力的概念，用待认证用户的相关微博的影响力来度量用户的可信度，该微博引起的影响力越大，则用户可信度越高，指定微博的影响力由其引起的二次转发率决定，具体计算如下：

其中k为所述用户发布的微博k，Re(t)为对于微博k而言，是其第t个转发引起的二次转发数，T为微博K的转发总数，本发明认为一个用户历史微博平均影响力越大，则该用户的可信度越高，历史微博平均影响力具体计算公式如下：

其中，K为用户i的历史微博数。

最终，用用户活跃度和历史微博平均影响力的乘积作为用户i的社交行为可信度预测值。

步骤104，基于社交评价的可信度预测。本发明社交评价可信度值包括：

评价舆情指数：通过收集微博平台上所以包含待认证用户的微博，统计这些微博的舆情指数，来判断用户的可信度，对用户评价的正能量越高，则用户的可信度越高；

评论舆情指数：通过收集用户所有发表微博的评论微博，统计这些微博的舆情指数，来判断用户的可信度，用户微博评论中的正能量越高，则用户的可信度越高。对于舆情指数的获取，我们采用基于多等级情感词典的情感值计算方法。我们使用了四个词典，分别是多等级的正面情感词典、多等级的负面情感词典、多等级的情感强度词典和否定意义词典，根据分词后的词序列中出现的正面情感词和负面情感词，以及在以该词为结尾的窗口内出现的情感强度词和否定意义词综合计算该词序列的情感值，以该情感值作为舆情指数。

步骤105，训练预测模型

本发明将待认证信息源(或通过所述待认证信息源获取的用户)的社交关系可信度预测值、社交行为可信度预测值、社交评价可信度预测值三部分可信度值进行线性加权求和作为综合可信度，根据综合可信度的得分给出针对该信息源(即新闻)的可信度预警等级，并形成预测模型，该预测模型本质上是一个多类别的线性分类器，本发明使用线性核函数的SVM方法(Support Vector Machine)，在通过微博平台构造的训练集上进行训练，得到该预测模型，对于新的信息源则通过该预测模型给出可信度预警等级。

步骤106，完成新闻事件可信程度预警。

本发明还包括一种基于微博信息源的新闻认证系统，包括：

获取社交关系可信度值模块，用于根据所述用户信息，获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例，并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例，通过经验值归一化后加权融合，获取所述用户的社交关系可信度值，将所述用户的粉丝数与关注数分别取log平滑后的比值，作为所述粉丝数与关注数比例；

社交行为可信度值模块，用于根据所述用户信息，获取所述用户的用户活跃度与历史微博平均影响力，将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值，其中用户活跃度通过以下公式获取：

Ac(i)＝Count_N(i)/N

其中N为天数，i为所述用户，Count_N(i)为所述用户在N天内发表微博的总数，Ac(i)为所述用户活跃度；历史微博平均影响力通过以下公式获取：

其中m为所述用户的历史微博数，i为所述用户，avg_Fluence(i)为所述历史微博平均影响力；

认证模块，用于将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值，根据所述综合可信度值，获取所述新闻的可信度预警等级，以完成认证所述新闻，生成预测模型，通过所述预测模型对新闻进行认证。

Claims

1.一种基于微博信息源的新闻认证方法，其特征在于，包括：

步骤5，将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值，根据所述综合可信度值，获取所述新闻的可信度预警等级，以完成认证所述新闻；

其中所述历史微博平均影响力通过以下公式获取：

<mrow> <mi>F</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>t</mi> <mo>=</mo> <mi>T</mi> </mrow> </munderover> <mi>Re</mi> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

<mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>_</mo> <mi>F</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>F</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>

2.如权利要求1所述的基于微博信息源的新闻认证方法，其特征在于，将所述用户的粉丝数与关注数分别取log平滑后的比值，作为所述粉丝数与关注数比例。

3.如权利要求1所述的基于微博信息源的新闻认证方法，其特征在于，所述用户活跃度通过以下公式获取：

Ac(i)＝Count_N(i)/N

4.如权利要求1所述的基于微博信息源的新闻认证方法，其特征在于，所述步骤5还包括：

生成预测模型，通过所述预测模型对新闻进行认证。

5.一种基于微博信息源的新闻认证系统，其特征在于，包括：

认证模块，用于将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值，根据所述综合可信度值，获取所述新闻的可信度预警等级，以完成认证所述新闻；

其中所述历史微博平均影响力通过以下公式获取：

6.如权利要求5所述的基于微博信息源的新闻认证系统，其特征在于，将所述用户的粉丝数与关注数分别取log平滑后的比值，作为所述粉丝数与关注数比例。

7.如权利要求5所述的基于微博信息源的新闻认证系统，其特征在于，所述用户活跃度通过以下公式获取：

Ac(i)＝Count_N(i)/N

8.如权利要求5所述的基于微博信息源的新闻认证系统，其特征在于，所述认证模块还包括：

生成预测模型，通过所述预测模型对新闻进行认证。