CN104572807B - 一种基于微博信息源的新闻认证方法及系统 - Google Patents
一种基于微博信息源的新闻认证方法及系统 Download PDFInfo
- Publication number
- CN104572807B CN104572807B CN201410594515.9A CN201410594515A CN104572807B CN 104572807 B CN104572807 B CN 104572807B CN 201410594515 A CN201410594515 A CN 201410594515A CN 104572807 B CN104572807 B CN 104572807B
- Authority
- CN
- China
- Prior art keywords
- user
- mrow
- microblogging
- information source
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 38
- 244000046052 Phaseolus vulgaris Species 0.000 claims abstract description 35
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims abstract description 35
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 230000011273 social behavior Effects 0.000 claims abstract description 23
- 239000000843 powder Substances 0.000 claims abstract description 17
- 238000012795 verification Methods 0.000 claims description 12
- 230000006854 communication Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 16
- 230000008451 emotion Effects 0.000 description 9
- 238000004880 explosion Methods 0.000 description 6
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000036461 convulsion Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及微博新闻可信度领域,特别涉及一种基于微博信息源的新闻认证方法及系统,该方法包括:提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并根据以上三个比例,获取所述用户的社交关系可信度值;获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;获取微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;将以上三个可信度值进行线性加权求和作为综合可信度值。
Description
技术领域
本发明涉及微博新闻可信度领域,特别涉及一种基于微博信息源的新闻认证方法及系统。
背景技术
随着微博在人们生活中的普遍应用,使用微博平台获取和发布信息成为人们生活中很重要的部分,微博上信息的真实性问题,也越来越得到人们的重视,微博平台中虚假信息和不实信息的传播,不仅会给网络环境带来负面影响,也会给个人生活和社会稳定带来严重危害,现有技术中对新闻事件的认证还是借助人力的干预判断和调查取证,其缺点是耗费人力多,花费时间长。
发明专利“一种基于用户行为的用户可信度认证系统及方法”,该发明公开了一种基于用户行为的用户可信度认证系统及方法,该系统包括用户身份及行为模式确认模块、用户行为采集模块、用户行为挖掘模块、用户行为序列匹配及可信度认证模块和本地安全策略模块,通过用户行为挖掘模块对用户的行为日志进行行为挖掘,建立用户个性化行为特征序列,通过用户行为序列匹配及可信度认证模块对用户个性化行为特征序列与待匹配序列进行序列相似度计算,获得用户可信度级别,并启用相应的安全策略。该发明,利用序列模式挖掘方式,采集用户的实时行为建立待匹配序列,进行行为序列的相似度匹配,以此对用户的实时行为进行可信认证,提高认证的准确率,保障企业和个人财产安全。但是该发明仅仅利用用户的行为信息,而本发明综合使用了用户的社交关系信息、社交行为信息和社交评价信息;该发明从用户行为日志挖掘行为特征序列,而本发明以事件关键词为检索关键词搜集数据;该发明基于单用户应用平台,不涉及多用户交互,而本发明基于的是社交网络。
发明专利“一种基于微博平台的用户可信度评估方法”,该发明基于全球著名的微博平台,如Twitter,新浪微博,腾讯微博等,针对信息可信度进行研究,提出采用用户可信度评估模型来评估用户的可信度,为全球的微博用户识别微博平台上海量信息的真伪提供了关键性的理论依据以供同行参考,并提出了重要的应用价值供广大微博用户运用。该方法可广泛应用于微博平台上的信息可信度评估方面,主要包括微博平台上的用户可信度,主题专家的探测,广告投放效果的实际价值等等,在一定程度上为微博用户在信息化时代准确的识别微博上海量信息的真伪奠定了重要的基础。但该发明仅仅利用用户社交关系信息,而本发明综合使用了用户的社交关系信息、社交行为信息和社交评价信息;该发明主要提出一种简单可泛用的用户可信度的评价模型,而本发明则是针对新闻事件认证这一具体任务,用户可信度评估是实现该任务的一个手段。
发明专利“一种获取社交网络用户可信度方法及系统”,该发明获取社交网络用户可信度的方法及系统,其中,所述方法包括:收集社交网络用户在现实世界中与其他用户之间产生的第一社交行为;累积所述第一社交行为的相关数据;根据累积后的第一社交行为的相关数据,获取所述社交网络用户的可信度信息。通过该发明,能够获取到更具有参考价值的可信度信息,供用户引用或者查询。但该发明需要收集现实世界中的社交行为,数据获取难度大,而本发明的分析数据则完全来源于微博平台,数据获取难度小;该发明针对社交网络的用户可信度,而本发明则是针对新闻事件认证这一具体任务,用户可信度评估只是实现该任务的一个手段。
发明内容
针对现有技术的不足,本发明提出一种基于信息源的新闻认证方法及系统。
本发明提出一种基于微博信息源的新闻认证方法,包括:
步骤1,提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;
步骤2,根据所述用户信息,获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例,通过经验值归一化后加权融合,获取所述用户的社交关系可信度值;
步骤3,根据所述用户信息,获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;
步骤4,查找所述用户的所有微博,获取所述微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;
步骤5,将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值,根据所述综合可信度值,获取所述新闻的可信度预警等级,以完成认证所述新闻。
所述的基于微博信息源的新闻认证方法,将所述用户的粉丝数与关注数分别取log平滑后的比值,作为所述粉丝数与关注数比例。
所述的基于微博信息源的新闻认证方法,所述用户活跃度通过以下公式获取:
Ac(i)=Count_N(i)/N
其中N为天数,i为所述用户,Count_N(i)为所述用户在N天内发表微博的总数,Ac(i)为所述用户活跃度。
所述的基于微博信息源的新闻认证方法,所述历史微博平均影响力通过以下公式获取:
其中k为所述用户发布的微博k,Re(t)为所述微博k第t个转发引起的二次转发数,T为所述微博K的转发总数,Fluence(k)为历史微博影响力;
其中m为所述用户的历史微博数,i为所述用户,avg_Fluence(i)为所述历史微博平均影响力。
所述的基于微博信息源的新闻认证方法,所述步骤5还包括:
生成预测模型,通过所述预测模型对新闻进行认证。
本发明还提出一种基于微博信息源的新闻认证系统,包括:
获取待认证信息源模块,用于提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;
获取社交关系可信度值模块,用于根据所述用户信息,获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例,通过经验值归一化后加权融合,获取所述用户的社交关系可信度值;
社交行为可信度值模块,用于根据所述用户信息,获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;
社交评价可信度值模块,用于查找所述用户的所有微博,获取所述微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;
认证模块,用于将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值,根据所述综合可信度值,获取所述新闻的可信度预警等级,以完成认证所述新闻。
所述的基于微博信息源的新闻认证系统,将所述用户的粉丝数与关注数分别取log平滑后的比值,作为所述粉丝数与关注数比例。
所述的基于微博信息源的新闻认证系统,所述用户活跃度通过以下公式获取:
Ac(i)=Count_N(i)/N
其中N为天数,i为所述用户,Count_N(i)为所述用户在N天内发表微博的总数,Ac(i)为所述用户活跃度。
所述的基于微博信息源的新闻认证系统,所述历史微博平均影响力通过以下公式获取:
其中k为所述用户发布的微博k,Re(t)为所述微博k第t个转发引起的二次转发数,T为所述微博K的转发总数,Fluence(k)为历史微博影响力;
其中m为所述用户的历史微博数,i为所述用户,avg_Fluence(i)为所述历史微博平均影响力。
所述的基于微博信息源的新闻认证系统,所述认证模块还包括:
生成预测模型,通过所述预测模型对新闻进行认证。由以上方案可知,本发明的优点在于:
通过本发明的方法及系统,能够有效的解决微博新闻可信度的技术问题,能够自动完成对新闻的可信度评估,节省大量人力物力,且本发明能够准确,高效的对新闻完整可信度认证。
附图说明
图1a为微博传播模式为“中心发散式”的示意图;
图1b为微博传播模式为“多点爆发式”的示意图;
图2为社会关系可信度示意图;
图3为本发明流程图。
其中附图标记为:
步骤100为本发明整体步骤,包括:
步骤101/102/103/104/105/106。
具体实施方式
本发明的目的是有效地对新闻事件进行认证,主要解决的技术问题为如何从微博平台定位最为关键的信息源、建立有效的可信度度量模型对待认证信息源进行可信度评估。
以下为本发明的具体流程,如图3所示:
步骤101,根据新闻事件,获取相关微博,从所述相关微博中挖掘事件消息传播图,定位关键信息源作为待认证信息源,并获取与所述待认证信息源相对应用户的用户信息。本发明将微博传播模式直观分为“中心发散式”和“多点爆发式”,其中“中心发散式”是指在传播图中往往只有一个出度很大的点,而“多点爆发式”则会在传播过程中出现多个出度较大的点,如图1a和图1b所示,其中的“中心发散式”往往是由于名人效应引起的大量转发而没有形成热烈讨论,而“多点爆发式”则是在传播过程中出现了多种声音和讨论,这种情况下说明微博消息在传播过程中引发了一些不一样的看法,并且这些看法受到一些人的认同,因此本发明选取“多点爆发式”的信息源作为待认证信息源,有效避开了由“名人效应”引发的大量二次转发而带来的干扰,“多点爆发式”的传播模式中有蕴藏更多的讨论而不只是单纯的转发。
步骤102,基于社交关系的可信度预测,从用户的社交关系来看,一个用户的可信度主要受如图2所示的三个因素的影响:用户粉丝数(Fr),用户关注数(Fo)以及用户互粉数(Bf),本发明利用这三大因素获得用户社交关系可信度预测,其中互粉比例:从整体上看,一个用户的互粉比例(Bf(i)/Fo(i))直接决定了一个用户为“水军”(即可信度比较低的用户)的可能性,“水军”往往关注很多其他用户来伪装自己,但这些被其关注的用户并不会关注这些“水军”账号,因此互粉(即为互相关注)比例越大,该账户是“水军”的可能性越小,可信度也就越高;认证粉丝比例:一个用户粉丝中已经过认证用户所占的比例越高,则该用户的可信程度越高;粉丝数与关注数比例:将用户的粉丝数与关注数取log平滑后的比值log(Fs(i))/log(Fo(i))作为该用户可信度的一个参考。最终,将这三个数值用经验值归一化后加权融合,得到用户社交关系可信度值。
步骤103,基于社交行为的可信度预测,从用户的社交行为来看,本发明从用户活跃度、历史微博平均影响力来综合预测用户社交行为的可信度,通过以下公式计算用户活跃度:
Ac(i)=Count_N(i)/N
其中N为天数,i为所述用户,Count_N(i)为所述用户在N天内发表微博的总数,Ac(i)为所述用户活跃度。
举例来说,用户活跃度:用户最近30天的活跃指数来度量用户的活跃度,活跃度越高,用户行为可信度越高,具体计算公式如下:
Ac(i)=Count_30(i)/30
其中Count_30(i),表示用户i在最近30天内,发表微博的总数。
历史微博平均影响力,首先给出相关微博影响力的概念,用待认证用户的相关微博的影响力来度量用户的可信度,该微博引起的影响力越大,则用户可信度越高,指定微博的影响力由其引起的二次转发率决定,具体计算如下:
其中k为所述用户发布的微博k,Re(t)为对于微博k而言,是其第t个转发引起的二次转发数,T为微博K的转发总数,本发明认为一个用户历史微博平均影响力越大,则该用户的可信度越高,历史微博平均影响力具体计算公式如下:
其中,K为用户i的历史微博数。
最终,用用户活跃度和历史微博平均影响力的乘积作为用户i的社交行为可信度预测值。
步骤104,基于社交评价的可信度预测。本发明社交评价可信度值包括:
评价舆情指数:通过收集微博平台上所以包含待认证用户的微博,统计这些微博的舆情指数,来判断用户的可信度,对用户评价的正能量越高,则用户的可信度越高;
评论舆情指数:通过收集用户所有发表微博的评论微博,统计这些微博的舆情指数,来判断用户的可信度,用户微博评论中的正能量越高,则用户的可信度越高。对于舆情指数的获取,我们采用基于多等级情感词典的情感值计算方法。我们使用了四个词典,分别是多等级的正面情感词典、多等级的负面情感词典、多等级的情感强度词典和否定意义词典,根据分词后的词序列中出现的正面情感词和负面情感词,以及在以该词为结尾的窗口内出现的情感强度词和否定意义词综合计算该词序列的情感值,以该情感值作为舆情指数。
步骤105,训练预测模型
本发明将待认证信息源(或通过所述待认证信息源获取的用户)的社交关系可信度预测值、社交行为可信度预测值、社交评价可信度预测值三部分可信度值进行线性加权求和作为综合可信度,根据综合可信度的得分给出针对该信息源(即新闻)的可信度预警等级,并形成预测模型,该预测模型本质上是一个多类别的线性分类器,本发明使用线性核函数的SVM方法(Support Vector Machine),在通过微博平台构造的训练集上进行训练,得到该预测模型,对于新的信息源则通过该预测模型给出可信度预警等级。
步骤106,完成新闻事件可信程度预警。
本发明还包括一种基于微博信息源的新闻认证系统,包括:
获取待认证信息源模块,用于提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;
获取社交关系可信度值模块,用于根据所述用户信息,获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例,通过经验值归一化后加权融合,获取所述用户的社交关系可信度值,将所述用户的粉丝数与关注数分别取log平滑后的比值,作为所述粉丝数与关注数比例;
社交行为可信度值模块,用于根据所述用户信息,获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值,其中用户活跃度通过以下公式获取:
Ac(i)=Count_N(i)/N
其中N为天数,i为所述用户,Count_N(i)为所述用户在N天内发表微博的总数,Ac(i)为所述用户活跃度;历史微博平均影响力通过以下公式获取:
其中k为所述用户发布的微博k,Re(t)为所述微博k第t个转发引起的二次转发数,T为所述微博K的转发总数,Fluence(k)为历史微博影响力;
其中m为所述用户的历史微博数,i为所述用户,avg_Fluence(i)为所述历史微博平均影响力;
社交评价可信度值模块,用于查找所述用户的所有微博,获取所述微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;
认证模块,用于将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值,根据所述综合可信度值,获取所述新闻的可信度预警等级,以完成认证所述新闻,生成预测模型,通过所述预测模型对新闻进行认证。
Claims (8)
1.一种基于微博信息源的新闻认证方法,其特征在于,包括:
步骤1,提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;
步骤2,根据所述用户信息,获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例,通过经验值归一化后加权融合,获取所述用户的社交关系可信度值;
步骤3,根据所述用户信息,获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;
步骤4,查找所述用户的所有微博,获取所述微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;
步骤5,将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值,根据所述综合可信度值,获取所述新闻的可信度预警等级,以完成认证所述新闻;
其中所述历史微博平均影响力通过以下公式获取:
<mrow>
<mi>F</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mi>T</mi>
</mrow>
</munderover>
<mi>Re</mi>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中k为所述用户发布的微博k,Re(t)为所述微博k第t个转发引起的二次转发数,T为所述微博K的转发总数,Fluence(k)为历史微博影响力;
<mrow>
<mi>a</mi>
<mi>v</mi>
<mi>g</mi>
<mo>_</mo>
<mi>F</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<mi>F</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
其中m为所述用户的历史微博数,i为所述用户,avg_Fluence(i)为所述历史微博平均影响力。
2.如权利要求1所述的基于微博信息源的新闻认证方法,其特征在于,将所述用户的粉丝数与关注数分别取log平滑后的比值,作为所述粉丝数与关注数比例。
3.如权利要求1所述的基于微博信息源的新闻认证方法,其特征在于,所述用户活跃度通过以下公式获取:
Ac(i)=Count_N(i)/N
其中N为天数,i为所述用户,Count_N(i)为所述用户在N天内发表微博的总数,Ac(i)为所述用户活跃度。
4.如权利要求1所述的基于微博信息源的新闻认证方法,其特征在于,所述步骤5还包括:
生成预测模型,通过所述预测模型对新闻进行认证。
5.一种基于微博信息源的新闻认证系统,其特征在于,包括:
获取待认证信息源模块,用于提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;
获取社交关系可信度值模块,用于根据所述用户信息,获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并将所述互粉比例、所述认证粉丝比例、所述粉丝数与关注数比例,通过经验值归一化后加权融合,获取所述用户的社交关系可信度值;
社交行为可信度值模块,用于根据所述用户信息,获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;
社交评价可信度值模块,用于查找所述用户的所有微博,获取所述微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;
认证模块,用于将所述社交关系可信度值、所述社交行为可信度值、所述社交评价可信度值进行线性加权求和作为综合可信度值,根据所述综合可信度值,获取所述新闻的可信度预警等级,以完成认证所述新闻;
其中所述历史微博平均影响力通过以下公式获取:
<mrow>
<mi>F</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mi>T</mi>
</mrow>
</munderover>
<mi>Re</mi>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中k为所述用户发布的微博k,Re(t)为所述微博k第t个转发引起的二次转发数,T为所述微博K的转发总数,Fluence(k)为历史微博影响力;
<mrow>
<mi>a</mi>
<mi>v</mi>
<mi>g</mi>
<mo>_</mo>
<mi>F</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<mi>F</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
其中m为所述用户的历史微博数,i为所述用户,avg_Fluence(i)为所述历史微博平均影响力。
6.如权利要求5所述的基于微博信息源的新闻认证系统,其特征在于,将所述用户的粉丝数与关注数分别取log平滑后的比值,作为所述粉丝数与关注数比例。
7.如权利要求5所述的基于微博信息源的新闻认证系统,其特征在于,所述用户活跃度通过以下公式获取:
Ac(i)=Count_N(i)/N
其中N为天数,i为所述用户,Count_N(i)为所述用户在N天内发表微博的总数,Ac(i)为所述用户活跃度。
8.如权利要求5所述的基于微博信息源的新闻认证系统,其特征在于,所述认证模块还包括:
生成预测模型,通过所述预测模型对新闻进行认证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410594515.9A CN104572807B (zh) | 2014-10-29 | 2014-10-29 | 一种基于微博信息源的新闻认证方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410594515.9A CN104572807B (zh) | 2014-10-29 | 2014-10-29 | 一种基于微博信息源的新闻认证方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572807A CN104572807A (zh) | 2015-04-29 |
CN104572807B true CN104572807B (zh) | 2018-02-06 |
Family
ID=53088869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410594515.9A Active CN104572807B (zh) | 2014-10-29 | 2014-10-29 | 一种基于微博信息源的新闻认证方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572807B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815257A (zh) * | 2015-12-01 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 一种用户可信度的计算方法及装置 |
CN107797998B (zh) * | 2016-08-29 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 含谣言用户生成内容识别方法和装置 |
CN107741939B (zh) * | 2016-10-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种网页信息的识别方法及装置 |
CN106547901A (zh) * | 2016-11-08 | 2017-03-29 | 周口师范学院 | 一种基于能量优化的微博用户转发行为预测方法 |
CN106682770B (zh) * | 2016-12-14 | 2020-08-04 | 重庆邮电大学 | 一种基于好友圈子的动态微博转发行为预测系统及方法 |
US20180239832A1 (en) * | 2017-02-21 | 2018-08-23 | Sony Interactive Entertainment LLC | Method for determining news veracity |
CN110232159B (zh) * | 2019-05-22 | 2023-02-17 | 武汉科技大学 | 一种基于大数据的舆情智能分析方法 |
CN111209465B (zh) * | 2020-01-03 | 2023-11-07 | 北京秒针人工智能科技有限公司 | 舆情告警方法、装置和电子设备 |
CN111858673A (zh) * | 2020-07-22 | 2020-10-30 | 北京宏博知微科技有限公司 | 一种基于分布和真值评定指标的高帧信息获取方法和系统 |
CN113158082B (zh) * | 2021-05-13 | 2023-01-17 | 和鸿广科技(上海)有限公司 | 一种基于人工智能的媒体内容真实度分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927297A (zh) * | 2014-04-13 | 2014-07-16 | 北京工业大学 | 基于证据理论的中文微博可信度评估方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103546446B (zh) * | 2012-07-17 | 2015-03-25 | 腾讯科技(深圳)有限公司 | 一种钓鱼网站的检测方法、装置和终端 |
-
2014
- 2014-10-29 CN CN201410594515.9A patent/CN104572807B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927297A (zh) * | 2014-04-13 | 2014-07-16 | 北京工业大学 | 基于证据理论的中文微博可信度评估方法 |
Non-Patent Citations (1)
Title |
---|
微博新闻事件信息可信度评价;高雅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130915;第4.1.1节、4.2节、4.3.2节,表4-1、4-2 * |
Also Published As
Publication number | Publication date |
---|---|
CN104572807A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572807B (zh) | 一种基于微博信息源的新闻认证方法及系统 | |
Zhang et al. | Mining dual emotion for fake news detection | |
Heidari et al. | An empirical study of machine learning algorithms for social media bot detection | |
Sun et al. | When machine learning meets privacy in 6G: A survey | |
US10764297B2 (en) | Anonymized persona identifier | |
CN106547838B (zh) | 基于资金网络监测可疑资金交易的方法 | |
Gupta et al. | Credibility ranking of tweets during high impact events | |
Almendra | Finding the needle: A risk-based ranking of product listings at online auction sites for non-delivery fraud prediction | |
CN103793503A (zh) | 一种基于web文本的观点挖掘与分类的方法 | |
CN102970289A (zh) | 基于Web用户行为模式的身份认证方法 | |
Song et al. | Who are the spoilers in social media marketing? Incremental learning of latent semantics for social spam detection | |
CN103077172A (zh) | 一种挖掘作弊用户的方法与装置 | |
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
Apte et al. | Frauds in online social networks: A review | |
Ouyang et al. | CompetitiveBike: Competitive analysis and popularity prediction of bike-sharing apps using multi-source data | |
CN108959368A (zh) | 一种信息监控方法、存储介质和服务器 | |
Hakim et al. | Text mining of UU-ITE implementation in Indonesia | |
Seifollahi et al. | Optimization based clustering algorithms for authorship analysis of phishing emails | |
Chi et al. | A supernetwork-based online post informative quality evaluation model | |
Kabla et al. | Eth-PSD: A machine learning-based phishing scam detection approach in ethereum | |
Shi et al. | Rumor detection of COVID-19 pandemic on online social networks | |
Li et al. | Dynamic probabilistic graphical model for progressive fake news detection on social media platform | |
CN107330562A (zh) | 基于个体用户特征的信息传播方法 | |
Gupta et al. | Twitter sentiment analysis: An examination of cybersecurity attitudes and behavior | |
Liang et al. | Automatic rumors identification on Sina Weibo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |