CN103279472A - 一种社交网络高影响力信息的提取方法 - Google Patents
一种社交网络高影响力信息的提取方法 Download PDFInfo
- Publication number
- CN103279472A CN103279472A CN2013101128597A CN201310112859A CN103279472A CN 103279472 A CN103279472 A CN 103279472A CN 2013101128597 A CN2013101128597 A CN 2013101128597A CN 201310112859 A CN201310112859 A CN 201310112859A CN 103279472 A CN103279472 A CN 103279472A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- information
- bar
- forwarding
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明基于社交网络的内在特性,提出了基于转发分布统计及有效性评估的信息提取方法,先根据信息来源工具对信息的分布进行了初步定质的评定,并在有效性处理中基于用户信息建立了有效的二次特征进行定量评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;联合过程采用比对处理,最终用输出真正高曝光的微博信息。此信息提取方式在现实中更具实用价值。本发明有效实现了对社交网络的舆论信息的影响性和曝光率的分析,能够过滤的低质量数据,并保留真实有效的信息以供后续人工分析使用。
Description
技术领域
本发明涉及一种社交网络高影响力信息的提取方法,属于社交网络数据挖掘的技术应用领域。
背景技术
社交网络作为一种重要高效的信息传递平台,参与其中的人员越来越多。政府、事业及企业单位在这个平台中与各人进行信息交互,并及时吸收各方面的意见,对各政策的发展和效果进行评定,进而对原计划进行修改及重新计划。
目前企业对信息的评定一般都基于人工分析,而由于网络信息的海量性,人工处理时都直接忽略低转发和评论量的信息,而主要基于社交网络上有大量的转发或者大量评论信息,对企业进行信息评估时认为这些信息有充分的曝光率,对企业的价值是巨大的,对这些数据加以分析,可助于改进现有产品及更好的定位未来的产品走向。
然而大量的转发及大量的评论信息并非直接代表了曝光率和影响力,由于社交网络的信息分析存在固有的难题,首先是社交网络中充斥着虚假信息与低质量信息,统一的对这些信息进行观测理解,会浪费众多的人力物力,并无法反映真实的问题;其次由于参与的人员众多,导致信息是无界的,信息可以在网络中无限扩展,甚至最后影响到现实,如此海量的原始信息难以完全理解和有效抽取,最终用以辅助决策。
科学有效的度量信息的影响性和曝光率,捕获影响舆论走向的真实信息,可使企业集中精力分析真正的问题,并用以扩大品牌正面声量、减少并消除负面声量成为企业在社会化营销中制胜的关键,而实际可用的社交网络高影响信息的提取方法和系统能给企业带来确实的帮助。
发明内容
本发明是为了解决现有社交网络信息过载的难题,提供了一种高影响力信息的提取方法。
本发明所述高影响力信息的提取方法,它包括以下步骤:
步骤一:获取欲分析的所有S条已发布的微博信息的及微博对应的所有转发的相关记录,Q(G)表示第G条微博的完整记录,G=1,2,3,...,S。表示第G条微博的第k个转发的相关记录, 即中包含了分别为此第G条微博第k个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复 阈值系数β,0<β<0.005;提取比例α,0<α<1。
步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,提取各微博的分布评定指标Sd(G),G=1,2,3,...,S,各微博的转发数目的总量SdA(G)
步骤三:对所有S个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容ctk,提取各微博的真值评定指标Sr(G),G=1,2,3,...,S
步骤四:根据每个微博的分布评定指标和真值评定指标,计算各个微博信息的影响系数。其中第G条微博的影响系数FL(G)=max{Sr(G),1-0.8*Sd(G)}。
在步骤二中,对第G条微博信息,从所述的完整记录中获取分布评定指标Sd(G)的具体方法为:
步骤二一:对第G条微博信息的所有转发的发布工具来源,分别统计其中发布工具来源为“新浪微博”的转发数目总量Sd1(G)、来源为“iphone客户端”的转发数目总量Sd2(G)、来源为“Android客户端”的转发数目总量Sd3(G)、来源为“360安全浏览器”的转发数目总量Sd4(G)、所有转发数目的总量SdA(G)
步骤二二:根据上述的分别计算出各发布工具来源的比例系数,即来源为“新浪微博”的比例系数来源为“iphone客户端”的比例系数来源为“Android客户端”的比例系数来源为“360安全浏览器”的比例系数
步骤二三:计算第G条微博信息的分布评定指标Sd(G),具体计算如下
Sd(G)=Sdp1(G)*0.7974+Sdp2(G)*1.3097+Sdp3(G)*2.2621+Sdp4(G)*4.3031-0.0655
在步骤三中,对第G条微博信息,从所述的完整记录中获取真值评定指标Sr(G)的具体方法为:
步骤三一:对第G条微博信息的完整记录Q(G),根据转发的完整记录信息,提取第k个转发记录的特征量集合其中k=1,2,3,...,SdA(G)。用表示第k个转发记录的第l个的特征量,此微博的转发记录总数其中l=1,2,3,4,具体各计算如下:
步骤三三:对第G条微博的所有转发的记录,根据转发的用户id,分析各记录的重复规避评分SsG(k),k=1,2,3,...,SdA(G);
Pk的StG(k)得分计算方式如下:
步骤三五:根据第G条微博所有记录的质量评分、重复规避评分、独立评分,计算各记录的有效性SG(k),p=1,2,3,...,SdA(G)。
SG(k)=ScG(k)*SsG(k)*StG(k)
步骤三六:根据第G条微博所有记录的有效性SG(k),统计其中SG(k)=1的转发总数,记为Src(G)。
本发明的优点是:本发明基于社交网络的内在特性,提出了基于分布评定和的真实评定的高影响微博信息的提取方法,处理中基于用户信息建立了有效的二次特征,并经联合规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;联合过程采用比对处理,最终用输出真正高曝光的微博信息。此信息提取方式在现实中更具实用价值。
本发明有效实现了对社交网络的舆论信息的影响性和曝光率的分析,能够过滤的低质量数据,并保留真实有效的信息以供后续人工分析使用。
附图说明
图1为本发明检测方法的流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种社交网络的有效信息提取的方法,它包括以下步骤:
步骤一:获取欲分析的所有S条已发布的微博信息的及微博对应的所有转发的相关记录,Q(G)表示第G条微博的完整记录,G=1,2,3,...,S。表示第G条微博的第k个转发的相关记录, 即中包含了分别为此第G条微博第k个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复阈值系数β,0<β<0.005;提取比例α,0<α<1。
步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,提取各微博的分 布评定指标Sd(G),G=1,2,3,...,S,各微博的转发数目的总量SdA(G)
步骤三:对所有S个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容ctk,提取各微博的真值评定指标Sr(G),G=1,2,3,...,S
步骤四:根据每个微博的分布评定指标和真值评定指标,计算各个微博信息的影响系数。其中第G条微博的影响系数FL(G)=max{Sr(G),1-0.8*Sd(G)}。
具体实施方式二:本实施方式为对实施方式一的进一步说明,本实施方式所述步骤二中,对第G条微博信息,从所述的完整记录中获取分布评定指标Sd(G)的具体方法为:
步骤二一:对第G条微博信息的所有转发的发布工具来源,分别统计其中发布工具来源为“新浪微博”的转发数目总量Sd1(G)、来源为“iphone客户端”的转发数目总量Sd2(G)、来源为“Android客户端”的转发数目总量Sd3(G)、来源为“360安全浏览器”的转发数目总量Sd4(G)、所有转发数目的总量SdA(G)
步骤二二:根据上述的分别计算出各发布工具来源的比例系数,即来源为“新浪微博”的比例系数来源为“iphone客户端”的比例系数来源为“Android客户端”的比例系数来源为“360安全浏览器”的比例系数
步骤二三:计算第G条微博信息的分布评定指标Sd(G),具体计算如下
Sd(G)=Sdp1(G)*0.7974+Sdp2(G)*1.3097+Sdp3(G)*2.2621+Sdp4(G)*4.3031-0.0655
具体实施方式三,具体实施方式三:本实施方式为对实施方式二的进一步说明,本实施方式所述在步骤三中,对第G条微博信息,从所述的完整记录中获取真值评定指标Sr(G)的 具体方法为:
步骤三一:对第G条微博信息的完整记录Q(G),根据转发的完整记录信息,提取第k个转发记录的特征量集合其中k=1,2,3,...,SdA(G)。用表示第k个转发记录的第l个的特征量,此微博的转发记录总数其中l=1,2,3,4,具体各计算如下:
步骤三三:对第G条微博的所有转发的记录,根据转发的用户id,分析各记录的重复规避评分SsG(k),k=1,2,3,...,SdA(G);
Pk的StG(k)得分计算方式如下:
步骤三五:根据第G条微博所有记录的质量评分、重复规避评分、独立评分,计算各记 录的有效性SG(k),p=1,2,3,...,SdA(G)。
的有效性SG(k)计算方式如下:
SG(k)=ScG(k)*ssG(k)*StG(k)
步骤三六:根据第G条微博所有记录的有效性SG(k),统计其中SG(k)=1的转发总数,记为Src(G)。
步骤三七:计算第G条微博的真值评定指标 。
Claims (3)
1.一种社交网络高影响力信息的提取方法,其特征在于:它包括以下步骤:
步骤一:获取欲分析的所有S条已发布的微博信息的及微博对应的所有转发的相关记录,Q(G)表示第G条微博的完整记录,G=1,2,3,...,S。表示第G条微博的第k个转发的相关记录,即中包含了分别为此第G条微博第k个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复阈值系数β,0<β<0.005;提取比例α,0<α<1。
步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,提取各微博的分布评定指标Sd(G),G=1,2,3,...,S,各微博的转发数目的总量SdA(G)
步骤三:对所有S个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容ctk,提取各微博的真值评定指标Sr(G),G=1,2,3,...,S
步骤四:根据每个微博的分布评定指标和真值评定指标,计算各个微博信息的影响系数。其中第G条微博的影响系数FL(G)=max{Sr(G),1-0.8*Sd(G)}。
步骤二一:对第条微博信息的所有转发的发布工具来源,分别统计其中发布工具来源为“新浪微博”的转发数目总量、来源为“iphone客户端”的转发数目总量、来源为“Android客户端”的转发数目总量、来源为“360安全浏览器”的转发数目总量、所有转发数目的总量;
步骤二二:根据上述的分别计算出各发布工具来源的比例系数,即来源为“新浪微博”的比例系数,来源为“iphone客户端”的比例系数,来源为“Android客户端”的比例系数,来源为“360安全浏览器”的比例系数;
;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112859.7A CN103279472B (zh) | 2013-03-22 | 2013-03-22 | 一种社交网络高影响力信息的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112859.7A CN103279472B (zh) | 2013-03-22 | 2013-03-22 | 一种社交网络高影响力信息的提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279472A true CN103279472A (zh) | 2013-09-04 |
CN103279472B CN103279472B (zh) | 2014-10-01 |
Family
ID=49061992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310112859.7A Expired - Fee Related CN103279472B (zh) | 2013-03-22 | 2013-03-22 | 一种社交网络高影响力信息的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279472B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191449A (zh) * | 2018-09-10 | 2019-01-11 | 广东智媒云图科技股份有限公司 | 一种图片质量评价方法及装置 |
CN109299420A (zh) * | 2018-09-18 | 2019-02-01 | 精硕科技(北京)股份有限公司 | 社交媒体账号处理方法、装置、设备及可读存储介质 |
CN111858674A (zh) * | 2020-07-22 | 2020-10-30 | 北京宏博知微科技有限公司 | 一种用于分析社交网络信息的高质量信息获取方法和系统 |
CN111858673A (zh) * | 2020-07-22 | 2020-10-30 | 北京宏博知微科技有限公司 | 一种基于分布和真值评定指标的高帧信息获取方法和系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063010B (zh) * | 2018-07-11 | 2022-01-28 | 成都爱为贝思科技有限公司 | 一种基于PageRank的意见领袖挖掘方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163225A (zh) * | 2011-04-11 | 2011-08-24 | 中国科学院地理科学与资源研究所 | 一种基于微博客收集的交通信息融合评价方法 |
-
2013
- 2013-03-22 CN CN201310112859.7A patent/CN103279472B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163225A (zh) * | 2011-04-11 | 2011-08-24 | 中国科学院地理科学与资源研究所 | 一种基于微博客收集的交通信息融合评价方法 |
Non-Patent Citations (4)
Title |
---|
原福永,冯静,符茜茜: "微博用户的影响力指数模型", 《现代图书情报技术》, no. 6, 30 June 2012 (2012-06-30) * |
张赛,许恪,李海涛: "微博类社交网络中信息传播的测量与分析", 《西安交通大学学报》, vol. 47, no. 2, 28 February 2013 (2013-02-28) * |
李军,陈震,黄霁崴: "微博影响力评价研究", 《信息网络安全》, no. 3, 31 March 2012 (2012-03-31) * |
郭浩,陆余良,王宇,张亮: "基于信息传播的微博用户影响力度量", 《山东大学学报(理学版)》, vol. 47, no. 5, 31 May 2012 (2012-05-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191449A (zh) * | 2018-09-10 | 2019-01-11 | 广东智媒云图科技股份有限公司 | 一种图片质量评价方法及装置 |
CN109299420A (zh) * | 2018-09-18 | 2019-02-01 | 精硕科技(北京)股份有限公司 | 社交媒体账号处理方法、装置、设备及可读存储介质 |
CN111858674A (zh) * | 2020-07-22 | 2020-10-30 | 北京宏博知微科技有限公司 | 一种用于分析社交网络信息的高质量信息获取方法和系统 |
CN111858673A (zh) * | 2020-07-22 | 2020-10-30 | 北京宏博知微科技有限公司 | 一种基于分布和真值评定指标的高帧信息获取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103279472B (zh) | 2014-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105260474B (zh) | 一种基于信息交互网络的微博用户影响力计算方法 | |
CN103279472A (zh) | 一种社交网络高影响力信息的提取方法 | |
CN104809168B (zh) | 超大规模rdf图数据的划分与并行分布处理方法 | |
CN102945279B (zh) | 微博用户影响力的评估方法及装置 | |
Lin et al. | Measuring the environmental efficiency of countries: A directional distance function metafrontier approach | |
Sinaeepourfard et al. | A novel architecture for efficient fog to cloud data management in smart cities | |
CN101894129B (zh) | 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法 | |
CN109726319A (zh) | 一种基于交互关系的用户影响力分析方法 | |
CN103218368A (zh) | 一种挖掘热词的方法与装置 | |
CN103530360A (zh) | 基于微博文本情感计算的网络社会影响最大化算法 | |
CN103473271B (zh) | 一种针对大量数据的优化储存方法 | |
CN104731773A (zh) | 文本情感分析方法及系统 | |
CN103258002A (zh) | 一种社交网络的有效信息提取方法 | |
CN102291440A (zh) | 一种云环境下规则优化方法及装置 | |
Gawde et al. | Study of camel rating system in banking supervision-a case study of Nepal Bangladesh Bank Ltd | |
Thorstensen et al. | Trade rules and exchange rate misalignments: in search for a WTO solution | |
TW201947492A (zh) | 運營資料匯流系統與方法 | |
CN111753319B (zh) | 基于联邦学习实现数据探索性分析处理的方法 | |
CN108052587A (zh) | 基于决策树的大数据分析方法 | |
Watson et al. | The Clean Development Mechanism: too flexible to produce sustainable development benefits? | |
Li et al. | Multi-dimensional dynamic spatio-temporal evolution of the green development efficiency of water-energy-food in China | |
Sanni | Post consolidation profitability ranking of Nigerian banks | |
CN107992590A (zh) | 一种有利于信息比对的大数据系统 | |
CN104091285B (zh) | 自动识别债券报价的方法 | |
CN108073619A (zh) | 一种基于图数据结构的数据映射方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
DD01 | Delivery of document by public notice |
Addressee: Yu Xiao Document name: Notification of Passing Examination on Formalities |
|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141001 Termination date: 20150322 |
|
EXPY | Termination of patent right or utility model |