CN103279472B - 一种社交网络高影响力信息的提取方法 - Google Patents

一种社交网络高影响力信息的提取方法 Download PDF

Info

Publication number
CN103279472B
CN103279472B CN201310112859.7A CN201310112859A CN103279472B CN 103279472 B CN103279472 B CN 103279472B CN 201310112859 A CN201310112859 A CN 201310112859A CN 103279472 B CN103279472 B CN 103279472B
Authority
CN
China
Prior art keywords
microblogging
forwarding
information
bar
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310112859.7A
Other languages
English (en)
Other versions
CN103279472A (zh
Inventor
于霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongbo Zhiwei Science & Technology Co Ltd
Original Assignee
Beijing Hongbo Zhiwei Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongbo Zhiwei Science & Technology Co Ltd filed Critical Beijing Hongbo Zhiwei Science & Technology Co Ltd
Priority to CN201310112859.7A priority Critical patent/CN103279472B/zh
Publication of CN103279472A publication Critical patent/CN103279472A/zh
Application granted granted Critical
Publication of CN103279472B publication Critical patent/CN103279472B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明基于社交网络的内在特性,提出了基于转发分布统计及有效性评估的信息提取方法,先根据信息来源工具对信息的分布进行了初步定质的评定,并在有效性处理中基于用户信息建立了有效的二次特征进行定量评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;联合过程采用比对处理,最终用输出真正高曝光的微博信息。此信息提取方式在现实中更具实用价值。本发明有效实现了对社交网络的舆论信息的影响性和曝光率的分析,能够过滤的低质量数据,并保留真实有效的信息以供后续人工分析使用。

Description

一种社交网络高影响力信息的提取方法
技术领域
本发明涉及一种社交网络高影响力信息的提取方法,属于社交网络数据挖掘的技术应用领域。
背景技术
社交网络作为一种重要高效的信息传递平台,参与其中的人员越来越多。政府、事业及企业单位在这个平台中与各人进行信息交互,并及时吸收各方面的意见,对各政策的发展和效果进行评定,进而对原计划进行修改及重新计划。
    目前企业对信息的评定一般都基于人工分析,而由于网络信息的海量性,人工处理时都直接忽略低转发和评论量的信息,而主要基于社交网络上有大量的转发或者大量评论信息,对企业进行信息评估时认为这些信息有充分的曝光率,对企业的价值是巨大的,对这些数据加以分析,可助于改进现有产品及更好的定位未来的产品走向。
    然而大量的转发及大量的评论信息并非直接代表了曝光率和影响力,由于社交网络的信息分析存在固有的难题,首先是社交网络中充斥着虚假信息与低质量信息,统一的对这些信息进行观测理解,会浪费众多的人力物力,并无法反映真实的问题;其次由于参与的人员众多,导致信息是无界的,信息可以在网络中无限扩展,甚至最后影响到现实,如此海量的原始信息难以完全理解和有效抽取,最终用以辅助决策。
    科学有效的度量信息的影响性和曝光率,捕获影响舆论走向的真实信息,可使企业集中精力分析真正的问题,并用以扩大品牌正面声量、减少并消除负面声量成为企业在社会化营销中制胜的关键,而实际可用的社交网络高影响信息的提取方法和系统能给企业带来确实的帮助。
发明内容
本发明是为了解决现有社交网络信息过载的难题,提供了一种高影响力信息的提取方法。
    本发明所述高影响力信息的提取方法,它包括以下步骤:
   步骤一:获取欲分析的所有                                                条已发布的微博信息的及微博对应的所有转发的相关记录,表示第条微博的完整记录,表示第条微博的第个转发的相关记录,,即中包含了,分别为此第条微博第个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复阈值系数;提取比例
        步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,计算工具来源的加权结果,各微博的转发数目的总量,其中从所述的完整记录中计算工具来源的加权结果的具体方法为:
        步骤二一:对第条微博信息的所有转发的发布工具来源,分别统计其中发布工具来源为“新浪微博”的转发数目总量、来源为“iphone客户端”的转发数目总量、来源为“Android客户端”的转发数目总量、来源为“360安全浏览器”的转发数目总量、所有转发数目的总量
         步骤二二:分别计算出各发布工具来源的比例系数,即来源为“新浪微博”的比例系数,来源为“iphone客户端”的比例系数
   来源为“Android客户端”的比例系数,来源为“360安全浏览器”的比例系数
          步骤二三:计算第条微博信息的,具体计算如下
       步骤三:对所有个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容,计算各微博的综合度量结果,对第条微博信息,从所述的完整记录中获取综合度量结果的具体方法为:
        步骤三一:对第条微博信息的完整记录,根据转发的完整记录信息,提取第个转发记录的特征量集合,其中;用表示第个转发记录的第个的特征量,此微博的转发记录总数其中,具体各计算如下:
        步骤三二:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分
   的质量评分计算方式如下所示:
        步骤三三:对第条微博的所有转发的记录,根据转发的用户id,分析各记录的重复规避评分
   得分计算方式如下:
        步骤三四:对第条微博的所有转发的记录的评论内容,根据评论的字面内容,分析各记录的独立性评分
        步骤三五:根据第条微博所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性
   的有效性计算方式如下:
        步骤三六:根据第条微博所有记录的有效性,统计其中的转发总数,记为
        步骤三七:计算第条微博的综合度量结果
       步骤四:根据每个微博的工具来源的加权结果和综合度量结果,计算各个微博信息的影响系数,其中第条微博的影响系数
       步骤五:对所有条微博的影响系数进行由大到小的排序,则输出前条微博信息,用以进行人工分析。
    本发明的优点是:本发明基于社交网络的内在特性,提出了基于分布评定和的真实评定的高影响微博信息的提取方法,处理中基于用户信息建立了有效的二次特征,并经联合规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;联合过程采用比对处理,最终用输出真正高曝光的微博信息。此信息提取方式在现实中更具实用价值。
    本发明有效实现了对社交网络的舆论信息的影响性和曝光率的分析,能够过滤的低质量数据,并保留真实有效的信息以供后续人工分析使用。
附图说明
图1为本发明检测方法的流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种社交网络的有效信息提取的方法,它包括以下步骤:
    步骤一:获取欲分析的所有条已发布的微博信息的及微博对应的所有转发的相关记录,表示第条微博的完整记录,表示第条微博的第个转发的相关记录,,即中包含了,分别为此第条微博第个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复阈值系数;提取比例
        步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,计算工具来源的加权结果,各微博的转发数目的总量,其中从所述的完整记录中计算工具来源的加权结果的具体方法为:
        步骤二一:对第条微博信息的所有转发的发布工具来源,分别统计其中发布工具来源为“新浪微博”的转发数目总量、来源为“iphone客户端”的转发数目总量、来源为“Android客户端”的转发数目总量、来源为“360安全浏览器”的转发数目总量、所有转发数目的总量
         步骤二二:分别计算出各发布工具来源的比例系数,即来源为“新浪微博”的比例系数,来源为“iphone客户端”的比例系数
   来源为“Android客户端”的比例系数,来源为“360安全浏览器”的比例系数
          步骤二三:计算第条微博信息的,具体计算如下
       步骤三:对所有个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容,计算各微博的综合度量结果,对第条微博信息,从所述的完整记录中获取综合度量结果的具体方法为:
        步骤三一:对第条微博信息的完整记录,根据转发的完整记录信息,提取第个转发记录的特征量集合,其中;用表示第个转发记录的第个的特征量,此微博的转发记录总数其中,具体各计算如下:
        步骤三二:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分
   的质量评分计算方式如下所示:
        步骤三三:对第条微博的所有转发的记录,根据转发的用户id,分析各记录的重复规避评分
   得分计算方式如下:
        步骤三四:对第条微博的所有转发的记录的评论内容,根据评论的字面内容,分析各记录的独立性评分
        步骤三五:根据第条微博所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性
   的有效性计算方式如下:
        步骤三六:根据第条微博所有记录的有效性,统计其中的转发总数,记为
        步骤三七:计算第条微博的综合度量结果
       步骤四:根据每个微博的工具来源的加权结果和综合度量结果,计算各个微博信息的影响系数,其中第条微博的影响系数
       步骤五:对所有条微博的影响系数进行由大到小的排序,则输出前条微博信息,用以进行人工分析。

Claims (1)

1.一种社交网络高影响力信息的提取方法,其特征在于:它包括以下步骤:
        步骤一:获取欲分析的所有                                                条已发布的微博信息的及微博对应的所有转发的相关记录,表示第条微博的完整记录,表示第条微博的第个转发的相关记录,,即中包含了,分别为此第条微博第个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复阈值系数;提取比例
        步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,计算工具来源的加权结果,各微博的转发数目的总量,其中从所述的完整记录中计算工具来源的加权结果的具体方法为:
        步骤二一:对第条微博信息的所有转发的发布工具来源,分别统计其中发布工具来源为“新浪微博”的转发数目总量、来源为“iphone客户端”的转发数目总量、来源为“Android客户端”的转发数目总量、来源为“360安全浏览器”的转发数目总量、所有转发数目的总量
         步骤二二:分别计算出各发布工具来源的比例系数,即来源为“新浪微博”的比例系数,来源为“iphone客户端”的比例系数
   来源为“Android客户端”的比例系数,来源为“360安全浏览器”的比例系数
          步骤二三:计算第条微博信息的,具体计算如下
       步骤三:对所有个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容,计算各微博的综合度量结果,对第条微博信息,从所述的完整记录中获取综合度量结果的具体方法为:
        步骤三一:对第条微博信息的完整记录,根据转发的完整记录信息,提取第个转发记录的特征量集合,其中;用表示第个转发记录的第个的特征量,此微博的转发记录总数其中,具体各计算如下:
        步骤三二:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分
  的质量评分计算方式如下所示:
        步骤三三:对第条微博的所有转发的记录,根据转发的用户id,分析各记录的重复规避评分
  得分计算方式如下:
        步骤三四:对第条微博的所有转发的记录的评论内容,根据评论的字面内容,分析各记录的独立性评分
        步骤三五:根据第条微博所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性
  的有效性计算方式如下:
        步骤三六:根据第条微博所有记录的有效性,统计其中的转发总数,记为
        步骤三七:计算第条微博的综合度量结果
       步骤四:根据每个微博的工具来源的加权结果和综合度量结果,计算各个微博信息的影响系数,其中第条微博的影响系数
       步骤五:对所有条微博的影响系数进行由大到小的排序,则输出前条微博信息,用以进行人工分析。
CN201310112859.7A 2013-03-22 2013-03-22 一种社交网络高影响力信息的提取方法 Expired - Fee Related CN103279472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310112859.7A CN103279472B (zh) 2013-03-22 2013-03-22 一种社交网络高影响力信息的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310112859.7A CN103279472B (zh) 2013-03-22 2013-03-22 一种社交网络高影响力信息的提取方法

Publications (2)

Publication Number Publication Date
CN103279472A CN103279472A (zh) 2013-09-04
CN103279472B true CN103279472B (zh) 2014-10-01

Family

ID=49061992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310112859.7A Expired - Fee Related CN103279472B (zh) 2013-03-22 2013-03-22 一种社交网络高影响力信息的提取方法

Country Status (1)

Country Link
CN (1) CN103279472B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063010A (zh) * 2018-07-11 2018-12-21 成都爱为贝思科技有限公司 一种基于PageRank的意见领袖挖掘方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191449A (zh) * 2018-09-10 2019-01-11 广东智媒云图科技股份有限公司 一种图片质量评价方法及装置
CN109299420A (zh) * 2018-09-18 2019-02-01 精硕科技(北京)股份有限公司 社交媒体账号处理方法、装置、设备及可读存储介质
CN111858674A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种用于分析社交网络信息的高质量信息获取方法和系统
CN111858673A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种基于分布和真值评定指标的高帧信息获取方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
原福永,冯静,符茜茜.微博用户的影响力指数模型.《现代图书情报技术》.2012,(第6期),
张赛,许恪,李海涛.微博类社交网络中信息传播的测量与分析.《西安交通大学学报》.2013,第47卷(第2期), *
微博用户的影响力指数模型;原福永,冯静,符茜茜;《现代图书情报技术》;20120630(第6期);第60-64页 *
李军,陈震,黄霁崴.微博影响力评价研究.《信息网络安全》.2012,(第3期), *
郭浩,陆余良,王宇,张亮.基于信息传播的微博用户影响力度量.《山东大学学报(理学版)》.2012,第47卷(第5期), *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063010A (zh) * 2018-07-11 2018-12-21 成都爱为贝思科技有限公司 一种基于PageRank的意见领袖挖掘方法
CN109063010B (zh) * 2018-07-11 2022-01-28 成都爱为贝思科技有限公司 一种基于PageRank的意见领袖挖掘方法

Also Published As

Publication number Publication date
CN103279472A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103279472B (zh) 一种社交网络高影响力信息的提取方法
CN106980692A (zh) 一种基于微博特定事件的影响力计算方法
CN105260474B (zh) 一种基于信息交互网络的微博用户影响力计算方法
CN103795612B (zh) 即时通讯中的垃圾和违法信息检测方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN102970289B (zh) 基于Web用户行为模式的身份认证方法
CN107656974A (zh) 一种大数据分析系统
CN103914491B (zh) 对优质用户生成内容的数据挖掘方法和系统
CA2637975A1 (en) Method and system for determining topical on-line influence of an entity
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN106372239A (zh) 一种基于异质网络的社交网络事件关联分析方法
CN105205146A (zh) 一种计算微博用户影响力的方法
CN104636408A (zh) 基于用户生成内容的新闻认证预警方法及系统
CN105354234B (zh) 基于深度包检测的网络实时大数据系统及大数据分析方法
CN109726319A (zh) 一种基于交互关系的用户影响力分析方法
CN107679069A (zh) 基于新闻数据及相关评论信息的一种特定群体发现方法
CN104731811B (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN103218368A (zh) 一种挖掘热词的方法与装置
CN104518930A (zh) 一种面向微博的异常用户和消息同时检测方法
CN104731773A (zh) 文本情感分析方法及系统
CN103530360A (zh) 基于微博文本情感计算的网络社会影响最大化算法
CN114140123A (zh) 一种用于以太坊二层网络交易溯源的方法及系统
CN103258002B (zh) 一种社交网络的有效信息提取方法
Shangguan et al. Trend and thoughts: Understanding climate change concern using machine learning and social media data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Yu Xiao

Document name: Notification of Passing Examination on Formalities

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141001

Termination date: 20150322

EXPY Termination of patent right or utility model