CN103258002A - 一种社交网络的有效信息提取方法 - Google Patents

一种社交网络的有效信息提取方法 Download PDF

Info

Publication number
CN103258002A
CN103258002A CN2013101128915A CN201310112891A CN103258002A CN 103258002 A CN103258002 A CN 103258002A CN 2013101128915 A CN2013101128915 A CN 2013101128915A CN 201310112891 A CN201310112891 A CN 201310112891A CN 103258002 A CN103258002 A CN 103258002A
Authority
CN
China
Prior art keywords
record
information
social networks
comment
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101128915A
Other languages
English (en)
Other versions
CN103258002B (zh
Inventor
于霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongbo Zhiwei Science & Technology Co Ltd
Original Assignee
Beijing Hongbo Zhiwei Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongbo Zhiwei Science & Technology Co Ltd filed Critical Beijing Hongbo Zhiwei Science & Technology Co Ltd
Priority to CN201310112891.5A priority Critical patent/CN103258002B/zh
Publication of CN103258002A publication Critical patent/CN103258002A/zh
Application granted granted Critical
Publication of CN103258002B publication Critical patent/CN103258002B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明基于社交网络的内在特性,提出了基于有效性过滤的真实信息提取方法,检测处理中基于用户信息建立了有效的二次特征,并经多层规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;提取过程采用基于线性的计算方式对数据进行快速计算,计算代价很低,最终转发记录的用有效性得分来度量是否保留此记录,有很强的可说明性。此信息提取方式在现实中更具实用价值。本发明有效实现了对社交网络的海量的评论信息的有效性分析,能够过滤各主题的低质量信息,并保留真实有效的信息以供后续分析使用。

Description

一种社交网络的有效信息提取方法
技术领域
本发明涉及一种多入度多出度的网络信息转发的真实信息提取方法,属于社交网络数据挖掘的技术应用领域。
背景技术
随着信息技术的发展,社交网络作为一种重要高效的信息传递平台,参与其中的人员越来越多。通过这个平台,个人可在网络中拓展人脉、获取信息,而企业主要关注点在于找到消费者,并能分析消费者,了解消费者,与消费者达到最简洁快速的沟通。企业通过数据分析找到消费者所在的圈子,倾听这个圈子的声音,并通过意见领袖让企业想传达的信息进一步扩大,辐射整个圈子,最终从而吸纳更多的忠实消费者。
企业进行信息评估时,主要基于社交网络上的各种转发和评论信息,这些对企业的价值是巨大的,对这些数据加以分析,可助于改进现有产品及更好的定位未来的产品走向。然而对社交网络的信息分析存在固有的难题,首先是社交网络中充斥着虚假信息与低质量信息,统一的对所有信息进行观测理解,无法反映真实的问题;其次由于参与的人员众多,导致信息是无界的,信息可以在网络中无限扩展,甚至最后影响到现实,如此海量的原始信息难以完全理解和有效抽取,最终用以辅助决策。如何去找到这些信息点位,用以扩大品牌正面声量、减少并消除负面声量成为企业在社会化营销中制胜的关键,而实际可用的社交网络有效信息的提取方法能给企业带来确实的帮助。
发明内容
本发明是为了解决现有社交网络低质量信息过多的难题,提供了一种社交网络的有效信息的提取方法。
本发明所述低质信息过滤方法,它包括以下步骤:
步骤一:获取欲分析的某条已发布的微博信息的所有G个的转发及评论的相关记录,Pk表示第k个转发的相关记录,G为大于或等于800的整数,k=1,2,3……G;Pk={idk,ctk,prgk,prfk,prwk},即Pk中包含了idk,ctk,prgk,prfk,prwk,分别为此第k个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数β,0<β<0.005;
步骤二:根据G个转发的相关记录信息,提取所有转发记录的特征量集合,用PFk(l)表示第k个转发记录的第l个的特征量,其中l=1,2,3,4,具体各PFk(l)计算如下:
P F k ( l ) = prf k , l = 1 prg k , l = 2 prf k pr g k , l = 3 prw k pr f k , l = 4
步骤三:根据所有转发的记录的特征量集合PFp,p=1,2,3,...,G,对这些记录进行质量判定,得出质量评分Sc(p),p=1,2,3,...,G;
Pk的质量得分Sc(k)计算方式如下所示:
Figure BSA00000873091700022
步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分Ss(p),p=1,2,3,...,G;
Pk的Ss(k)得分计算方式如下:
Ss ( k ) = 0 , &Exists; ( id k = id a = id b = id c = id d ) , 1 &le; a < b < c < d &le; G 1,other
步骤五:对所有转发记录的评论内容,根据评论的字面内容ctk,分析各记录的独立性评分St(p),p=1,2,3,...,G;
Pk的St(k)得分计算方式如下:
Figure BSA00000873091700031
步骤六:根据所有记录的质量评分、重复规避评分、独立评分,计算各记录的有效性S(p),p=1,2,3,...,G。
Pk的有效性S(k)计算方式如下:
S(k)=Sc(k)*Ss(k)*St(k)
步骤七:将S(k)为0的转发和评论记录Pk删除,剩余记录即为抽取出来的有效信息。
本发明的优点是:本发明基于社交网络的内在特性,提出了基于有效性过滤的真实信息提取方法,检测处理中基于用户信息建立了有效的二次特征,并经多层规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;提取过程采用基于线性的计算方式对数据进行快速计算,计算代价很低,最终转发记录的用有效性得分来度量是否保留此记录,有很强的可说明性。此信息提取方式在现实中更具实用价值。
本发明有效实现了对社交网络的海量的评论信息的有效性分析,能够过滤各主题的低质量信息,并保留真实有效的信息以供后续分析使用。
附图说明
图1为本发明检测方法的流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种社交网络的有效信息提取的方法,它包括以下步骤:
步骤一:获取欲分析的某条已发布的微博信息的所有G个的转发及评论的相关记录,Pk表示第k个转发的相关记录,G为大于或等于800的整数,k=1,2,3……G;Pk={idk,ctk,prgk,prfk,prwk},即Pk中包含了idk,ctk,prgk,prfk,prwk,分别为此第k个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数β,0<β<0.005;
步骤二:根据G个转发的相关记录信息,提取所有转发记录的特征量集合,用PFk(l)表示第k个转发记录的第l个的特征量,其中l=1,2,3,4,具体各PFk(l)计算如下:
P F k ( l ) = prf k , l = 1 prg k , l = 2 prf k pr g k , l = 3 prw k pr f k , l = 4 ;
步骤三:根据所有转发的记录的特征量集合PFp,p=1,2,3,...,G,对这些记录进行质量判定,得出质量评分Sc(p),p=1,2,3,...,G;
Pk的质量得分Sc(k)计算方式如下所示:
Figure BSA00000873091700042
步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分Ss(p),p=1,2,3,...,G;
Pk的Ss(k)得分计算方式如下:
Ss ( k ) = 0 , &Exists; ( id k = id a = id b = id c = id d ) , 1 &le; a < b < c < d &le; G 1,other
步骤五:对所有转发记录的评论内容,根据评论的字面内容ctk,分析各记录的独立性评分St(p),p=1,2,3,...,G;
Pk的St(k)得分计算方式如下:
Figure BSA00000873091700044
步骤六:根据所有记录的质量评分、重复规避评分、独立评分,计算各记录的有效性S(p),p=1,2,3,...,G。
Pk的有效性S(k)计算方式如下:
S(k)=Sc(k)*Ss(k)*St(k)
步骤七:将S(k)为0的转发和评论记录Pk删除,剩余记录即为抽取出来的有效信息。

Claims (3)

1.一种社交网络有效信息的提取方法,其特征在于:它包括以下步骤: 
步骤一:获取欲分析的某条已发布的微博信息的所有G个的转发及评论的相关记录,Pk表示第k个转发的相关记录,G为大于或等于800的整数,k=1,2,3……G;Pk={idk,ctk,prgk,prfk,prwk},即Pk中包含了idk,ctk,prgk,prfk,prwk,分别为此第k个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数β,0<β<0.005; 
步骤二:根据G个转发的相关记录信息,提取所有转发记录的特征量集合,用PFk(l)表示第k个转发记录的第l个的特征量,其中l=1,2,3,4; 
步骤三:根据所有转发的记录的特征量集合PFp,p=1,2,3,...,G,对这些记录进行质量判定,得出质量评分Sc(p),p=1,2,3,...,G; 
Pk的质量得分Sc(k)计算方式如下所示: 
Figure FSA00000873091600011
步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分Ss(p),p=1,2,3,...,G; 
Pk的Ss(k)得分计算方式如下: 
Figure FSA00000873091600012
步骤五:对所有转发记录的评论内容,根据评论的字面内容ctk,分析各记录的独立性评 分St(p),p=1,2,3,...,G; 
Pk的St(k)得分计算方式如下: 
Figure FSA00000873091600021
步骤六:根据所有记录的质量评分、重复规避评分、独立评分,计算各记录的有效性S(p),p=1,2,3,...,G。 
步骤七:将S(k)为0的转发和评论记录Pk删除,剩余记录即为抽取出来的有效信息。 
2.根据权利要求1所述的社交网络有效信息的提取方法,其特征在于:所述步骤二中用PFk(l)表示第k个转发记录的第l个的特征量,其中l=1,2,3,4,PFk(l)的获得方法为: 
3.根据权利要求2所述的社交网络有效信息的提取方法,其特征在于:所述步骤六中每个Pk的有效性S(k)的获得方法如下: 
S(k)=Sc(k)*Ss(k)*St(k) 。
CN201310112891.5A 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法 Expired - Fee Related CN103258002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310112891.5A CN103258002B (zh) 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310112891.5A CN103258002B (zh) 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法

Publications (2)

Publication Number Publication Date
CN103258002A true CN103258002A (zh) 2013-08-21
CN103258002B CN103258002B (zh) 2014-10-01

Family

ID=48961921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310112891.5A Expired - Fee Related CN103258002B (zh) 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法

Country Status (1)

Country Link
CN (1) CN103258002B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243595A (zh) * 2015-10-13 2016-01-13 宁波知微瑞驰信息科技有限公司 一种社交网络抑郁情感的账户相似性度量方法
CN111858674A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种用于分析社交网络信息的高质量信息获取方法和系统
CN111858673A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种基于分布和真值评定指标的高帧信息获取方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
原福永,冯静,符茜茜: "微博用户的影响力指数模型", 《现代图书情报技术》 *
张赛,徐恪,李海涛: "微博类社交网络中信息传播的测量与分析", 《西安交通大学学报》 *
李军,陈震,黄霁崴: "微博影响力评价研究", 《信息网络安全》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243595A (zh) * 2015-10-13 2016-01-13 宁波知微瑞驰信息科技有限公司 一种社交网络抑郁情感的账户相似性度量方法
CN111858674A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种用于分析社交网络信息的高质量信息获取方法和系统
CN111858673A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种基于分布和真值评定指标的高帧信息获取方法和系统

Also Published As

Publication number Publication date
CN103258002B (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN105095211B (zh) 多媒体数据的获取方法和装置
Rowe et al. Automated social hierarchy detection through email network analysis
CN108170692A (zh) 一种热点事件信息处理方法和装置
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
CN105183731B (zh) 推荐信息生成方法、装置及系统
CA2637975A1 (en) Method and system for determining topical on-line influence of an entity
CN102890698B (zh) 微博话题标签自动化描述方法
CN103744877A (zh) 部署于互联网的舆情监测应用系统及运用方法
CN102609460A (zh) 微博客数据采集方法及系统
CN103258039B (zh) 一种微博伪造信息的检测方法
CN104348871B (zh) 一种同类账号扩展方法及装置
CN104598632A (zh) 热点事件检测方法和装置
CN104252443A (zh) 报表生成方法及装置
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
Zainol et al. Association analysis of cyberbullying on social media using Apriori algorithm
CN109726319A (zh) 一种基于交互关系的用户影响力分析方法
CN111382181A (zh) 一种基于股权穿透的指定企业派系归属分析方法及系统
CN103279472B (zh) 一种社交网络高影响力信息的提取方法
TW201124863A (en) Conflict of interest detection system and method using social interaction models
CN103258002A (zh) 一种社交网络的有效信息提取方法
CN104881797A (zh) 特征属性的构建方法
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
CN106156117A (zh) 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统
CN104778177A (zh) 数据处理方法及装置
CN103810248A (zh) 基于照片查找人际关系的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Yu Xiao

Document name: Notification of Passing Examination on Formalities

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141001

Termination date: 20150322

EXPY Termination of patent right or utility model