CN103258002B - 一种社交网络的有效信息提取方法 - Google Patents
一种社交网络的有效信息提取方法 Download PDFInfo
- Publication number
- CN103258002B CN103258002B CN201310112891.5A CN201310112891A CN103258002B CN 103258002 B CN103258002 B CN 103258002B CN 201310112891 A CN201310112891 A CN 201310112891A CN 103258002 B CN103258002 B CN 103258002B
- Authority
- CN
- China
- Prior art keywords
- forwarding
- record
- information
- individual
- total number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明基于社交网络的内在特性,提出了基于有效性过滤的真实信息提取方法,检测处理中基于用户信息建立了有效的二次特征,并经多层规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;提取过程采用基于线性的计算方式对数据进行快速计算,计算代价很低,最终转发记录的用有效性得分来度量是否保留此记录,有很强的可说明性。此信息提取方式在现实中更具实用价值。本发明有效实现了对社交网络的海量的评论信息的有效性分析,能够过滤各主题的低质量信息,并保留真实有效的信息以供后续分析使用。
Description
技术领域
本发明涉及一种多入度多出度的网络信息转发的真实信息提取方法,属于社交网络数据挖掘的技术应用领域。
背景技术
随着信息技术的发展,社交网络作为一种重要高效的信息传递平台,参与其中的人员越来越多。通过这个平台,个人可在网络中拓展人脉、获取信息,而企业主要关注点在于找到消费者,并能分析消费者,了解消费者,与消费者达到最简洁快速的沟通。企业通过数据分析找到消费者所在的圈子,倾听这个圈子的声音,并通过意见领袖让企业想传达的信息进一步扩大,辐射整个圈子,最终从而吸纳更多的忠实消费者。
企业进行信息评估时,主要基于社交网络上的各种转发和评论信息,这些对企业的价值是巨大的,对这些数据加以分析,可助于改进现有产品及更好的定位未来的产品走向。然而对社交网络的信息分析存在固有的难题,首先是社交网络中充斥着虚假信息与低质量信息,统一的对所有信息进行观测理解,无法反映真实的问题;其次由于参与的人员众多,导致信息是无界的,信息可以在网络中无限扩展,甚至最后影响到现实,如此海量的原始信息难以完全理解和有效抽取,最终用以辅助决策。如何去找到这些信息点位,用以扩大品牌正面声量、减少并消除负面声量成为企业在社会化营销中制胜的关键,而实际可用的社交网络有效信息的提取方法能给企业带来确实的帮助。
发明内容
本发明是为了解决现有社交网络低质量信息过多的难题,提供了一种社交网络的有效信息的提取方法。
本发明所述低质信息过滤方法,它包括以下步骤:
步骤一:获取欲分析的某条已发布的微博信息的所有 个的转发及评论的相关记录,表示第个转发的相关记录,为大于或等于800的整数,=1,2,3……;,即中包含了,分别为此第个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数;
步骤二:根据个转发的相关记录信息,提取所有转发记录的特征量集合,用表示第个转发记录的第个的特征量,其中,具体各计算如下:
;
步骤三:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分;
的质量评分计算方式如下所示:
;
步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分;
的得分计算方式如下:
;
步骤五:对所有转发记录的评论内容,根据评论的字面内容,分析各记录的独立性评分;
的得分计算方式如下:
步骤六:根据所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性;
的有效性计算方式如下:
;
步骤七:将为0的转发和评论记录删除,剩余记录即为抽取出来的有效信息。
本发明的优点是:本发明基于社交网络的内在特性,提出了基于有效性过滤的真实信息提取方法,检测处理中基于用户信息建立了有效的二次特征,并经多层规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;提取过程采用基于线性的计算方式对数据进行快速计算,计算代价很低,最终转发记录的用有效性得分来度量是否保留此记录,有很强的可说明性。此信息提取方式在现实中更具实用价值。
本发明有效实现了对社交网络的海量的评论信息的有效性分析,能够过滤各主题的低质量信息,并保留真实有效的信息以供后续分析使用。
附图说明
图1为本发明检测方法的流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种社交网络的有效信息提取的方法,它包括以下步骤:
步骤一:获取欲分析的某条已发布的微博信息的所有个的转发及评论的相关记录,表示第个转发的相关记录,为大于或等于800的整数,=1,2,3……;,即中包含了,分别为此第个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数;
步骤二:根据个转发的相关记录信息,提取所有转发记录的特征量集合,用表示第个转发记录的第个的特征量,其中,具体各计算如下:
;
步骤三:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分;
的质量评分计算方式如下所示:
;
步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分;
的得分计算方式如下:
;
步骤五:对所有转发记录的评论内容,根据评论的字面内容,分析各记录的独立性评分;
的得分计算方式如下:
;
步骤六:根据所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性;
的有效性计算方式如下:
;
步骤七:将为0的转发和评论记录删除,剩余记录即为抽取出来的有效信息。
Claims (1)
1.一种社交网络的有效信息提取方法,其特征在于:它包括以下步骤:
步骤一:获取欲分析的某条已发布的微博信息的所有 个的转发及评论的相关记录,表示第个转发的相关记录,为大于或等于800的整数,=1,2,3……;,即中包含了,分别为此第个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数;
步骤二:根据个转发的相关记录信息,提取所有转发记录的特征量集合,用表示第个转发记录的第个的特征量,其中;
的获得方法为:
其中,分别为此第个转发的转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;
步骤三:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分;
的质量评分计算方式如下所示:
;
步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分;
的得分计算方式如下:
;
步骤五:对所有转发记录的评论内容,根据评论的字面内容,分析各记录的独立性评分;
的得分计算方式如下:
;
步骤六:根据所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性,的计算方法限定如下: ;
步骤七:将为0的转发和评论记录删除,剩余记录即为抽取出来的有效信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112891.5A CN103258002B (zh) | 2013-03-22 | 2013-03-22 | 一种社交网络的有效信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310112891.5A CN103258002B (zh) | 2013-03-22 | 2013-03-22 | 一种社交网络的有效信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103258002A CN103258002A (zh) | 2013-08-21 |
CN103258002B true CN103258002B (zh) | 2014-10-01 |
Family
ID=48961921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310112891.5A Expired - Fee Related CN103258002B (zh) | 2013-03-22 | 2013-03-22 | 一种社交网络的有效信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103258002B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243595A (zh) * | 2015-10-13 | 2016-01-13 | 宁波知微瑞驰信息科技有限公司 | 一种社交网络抑郁情感的账户相似性度量方法 |
CN111858673A (zh) * | 2020-07-22 | 2020-10-30 | 北京宏博知微科技有限公司 | 一种基于分布和真值评定指标的高帧信息获取方法和系统 |
CN111858674A (zh) * | 2020-07-22 | 2020-10-30 | 北京宏博知微科技有限公司 | 一种用于分析社交网络信息的高质量信息获取方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163225A (zh) * | 2011-04-11 | 2011-08-24 | 中国科学院地理科学与资源研究所 | 一种基于微博客收集的交通信息融合评价方法 |
-
2013
- 2013-03-22 CN CN201310112891.5A patent/CN103258002B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163225A (zh) * | 2011-04-11 | 2011-08-24 | 中国科学院地理科学与资源研究所 | 一种基于微博客收集的交通信息融合评价方法 |
Non-Patent Citations (3)
Title |
---|
原福永,冯静,符茜茜.微博用户的影响力指数模型.《现代图书情报技术》.2012,(第6期),第60-64页. * |
张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析.《西安交通大学学报》.2013,第47卷(第2期),第124-130页. * |
李军,陈震,黄霁崴.微博影响力评价研究.《信息网络安全》.2012,(第3期),第10-13、27页. * |
Also Published As
Publication number | Publication date |
---|---|
CN103258002A (zh) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rowe et al. | Automated social hierarchy detection through email network analysis | |
CN106202211B (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
CN103744877A (zh) | 部署于互联网的舆情监测应用系统及运用方法 | |
CN102609460B (zh) | 微博客数据采集方法及系统 | |
CN107733854A (zh) | 一种网络虚拟用户的风险控制方法及系统 | |
CN103729420B (zh) | 微博热点追踪系统及追踪方法 | |
CN108052543A (zh) | 一种基于图分析聚类的微博相似账号检测方法 | |
CN104462286A (zh) | 一种基于改进的lda的微博话题发现方法 | |
CN105224593B (zh) | 一种短暂上网事务中频繁共现账号挖掘方法 | |
CN103607391B (zh) | 一种基于K‑means的SQL注入攻击检测方法 | |
CN103258039B (zh) | 一种微博伪造信息的检测方法 | |
CN103258002B (zh) | 一种社交网络的有效信息提取方法 | |
CN104348871B (zh) | 一种同类账号扩展方法及装置 | |
CN103136372A (zh) | 网络可信性行为管理中url快速定位、分类和过滤方法 | |
WO2018040997A1 (zh) | 漏斗模型的节点的评估系统、方法和装置 | |
CN104252443A (zh) | 报表生成方法及装置 | |
Zainol et al. | Association analysis of cyberbullying on social media using Apriori algorithm | |
CN104516962A (zh) | 一种微博舆情监控方法及监控系统 | |
CN103279472B (zh) | 一种社交网络高影响力信息的提取方法 | |
CN107908645A (zh) | 一种基于渗流分析的在线社交平台谣言传播的免疫方法 | |
CN103279483B (zh) | 一种面向微博客的话题流行范围评估方法及系统 | |
CN106302849A (zh) | 一种通过运营商数据进行移固融合的方法 | |
CN106156117A (zh) | 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统 | |
CN108268762B (zh) | 基于行为建模的移动社交网络用户身份识伪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Yu Xiao Document name: Notification of Passing Examination on Formalities |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141001 Termination date: 20150322 |
|
EXPY | Termination of patent right or utility model |