CN103258002B - 一种社交网络的有效信息提取方法 - Google Patents

一种社交网络的有效信息提取方法 Download PDF

Info

Publication number
CN103258002B
CN103258002B CN201310112891.5A CN201310112891A CN103258002B CN 103258002 B CN103258002 B CN 103258002B CN 201310112891 A CN201310112891 A CN 201310112891A CN 103258002 B CN103258002 B CN 103258002B
Authority
CN
China
Prior art keywords
forwarding
record
information
individual
total number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310112891.5A
Other languages
English (en)
Other versions
CN103258002A (zh
Inventor
于霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongbo Zhiwei Science & Technology Co Ltd
Original Assignee
Beijing Hongbo Zhiwei Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongbo Zhiwei Science & Technology Co Ltd filed Critical Beijing Hongbo Zhiwei Science & Technology Co Ltd
Priority to CN201310112891.5A priority Critical patent/CN103258002B/zh
Publication of CN103258002A publication Critical patent/CN103258002A/zh
Application granted granted Critical
Publication of CN103258002B publication Critical patent/CN103258002B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明基于社交网络的内在特性,提出了基于有效性过滤的真实信息提取方法,检测处理中基于用户信息建立了有效的二次特征,并经多层规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;提取过程采用基于线性的计算方式对数据进行快速计算,计算代价很低,最终转发记录的用有效性得分来度量是否保留此记录,有很强的可说明性。此信息提取方式在现实中更具实用价值。本发明有效实现了对社交网络的海量的评论信息的有效性分析,能够过滤各主题的低质量信息,并保留真实有效的信息以供后续分析使用。

Description

一种社交网络的有效信息提取方法
技术领域
本发明涉及一种多入度多出度的网络信息转发的真实信息提取方法,属于社交网络数据挖掘的技术应用领域。
背景技术
随着信息技术的发展,社交网络作为一种重要高效的信息传递平台,参与其中的人员越来越多。通过这个平台,个人可在网络中拓展人脉、获取信息,而企业主要关注点在于找到消费者,并能分析消费者,了解消费者,与消费者达到最简洁快速的沟通。企业通过数据分析找到消费者所在的圈子,倾听这个圈子的声音,并通过意见领袖让企业想传达的信息进一步扩大,辐射整个圈子,最终从而吸纳更多的忠实消费者。
    企业进行信息评估时,主要基于社交网络上的各种转发和评论信息,这些对企业的价值是巨大的,对这些数据加以分析,可助于改进现有产品及更好的定位未来的产品走向。然而对社交网络的信息分析存在固有的难题,首先是社交网络中充斥着虚假信息与低质量信息,统一的对所有信息进行观测理解,无法反映真实的问题;其次由于参与的人员众多,导致信息是无界的,信息可以在网络中无限扩展,甚至最后影响到现实,如此海量的原始信息难以完全理解和有效抽取,最终用以辅助决策。如何去找到这些信息点位,用以扩大品牌正面声量、减少并消除负面声量成为企业在社会化营销中制胜的关键,而实际可用的社交网络有效信息的提取方法能给企业带来确实的帮助。
发明内容
本发明是为了解决现有社交网络低质量信息过多的难题,提供了一种社交网络的有效信息的提取方法。
    本发明所述低质信息过滤方法,它包括以下步骤:
    步骤一:获取欲分析的某条已发布的微博信息的所有                                                个的转发及评论的相关记录,表示第个转发的相关记录,为大于或等于800的整数,=1,2,3……,即中包含了,分别为此第个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数
    步骤二:根据个转发的相关记录信息,提取所有转发记录的特征量集合,用表示第个转发记录的第个的特征量,其中,具体各计算如下:
   ;
    步骤三:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分
   的质量评分计算方式如下所示:
   
    步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分
   得分计算方式如下:
   
    步骤五:对所有转发记录的评论内容,根据评论的字面内容,分析各记录的独立性评分
   得分计算方式如下:
    
    步骤六:根据所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性
   的有效性计算方式如下:
   
    步骤七:将为0的转发和评论记录删除,剩余记录即为抽取出来的有效信息。
    本发明的优点是:本发明基于社交网络的内在特性,提出了基于有效性过滤的真实信息提取方法,检测处理中基于用户信息建立了有效的二次特征,并经多层规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;提取过程采用基于线性的计算方式对数据进行快速计算,计算代价很低,最终转发记录的用有效性得分来度量是否保留此记录,有很强的可说明性。此信息提取方式在现实中更具实用价值。
    本发明有效实现了对社交网络的海量的评论信息的有效性分析,能够过滤各主题的低质量信息,并保留真实有效的信息以供后续分析使用。
附图说明
图1为本发明检测方法的流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种社交网络的有效信息提取的方法,它包括以下步骤:
    步骤一:获取欲分析的某条已发布的微博信息的所有个的转发及评论的相关记录,表示第个转发的相关记录,为大于或等于800的整数,=1,2,3……,即中包含了,分别为此第个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数
    步骤二:根据个转发的相关记录信息,提取所有转发记录的特征量集合,用表示第个转发记录的第个的特征量,其中,具体各计算如下:
   
    步骤三:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分
   的质量评分计算方式如下所示:
   
    步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分
   得分计算方式如下:
   
    步骤五:对所有转发记录的评论内容,根据评论的字面内容,分析各记录的独立性评分
   得分计算方式如下:
   
    步骤六:根据所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性
   的有效性计算方式如下:
   
   步骤七:将为0的转发和评论记录删除,剩余记录即为抽取出来的有效信息。

Claims (1)

1.一种社交网络的有效信息提取方法,其特征在于:它包括以下步骤:
    步骤一:获取欲分析的某条已发布的微博信息的所有                                                个的转发及评论的相关记录,表示第个转发的相关记录,为大于或等于800的整数,=1,2,3……,即中包含了,分别为此第个转发的转发人的id,评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;同时设定单信息重复阈值系数
步骤二:根据个转发的相关记录信息,提取所有转发记录的特征量集合,用表示第个转发记录的第个的特征量,其中
的获得方法为:
其中,分别为此第个转发的转发用户的关注总人数、粉丝总人数、自己发布的微博总条数;
    步骤三:根据所有转发的记录的特征量集合,对这些记录进行质量判定,得出质量评分
   的质量评分计算方式如下所示:
   
    步骤四:对所有转发的记录,根据转发的用户id,分析各记录的重复规避评分
   得分计算方式如下:
   
    步骤五:对所有转发记录的评论内容,根据评论的字面内容,分析各记录的独立性评分
   得分计算方式如下:
   
步骤六:根据所有记录的质量评分、重复规避评分、独立性评分,计算各记录的有效性的计算方法限定如下: 
    步骤七:将为0的转发和评论记录删除,剩余记录即为抽取出来的有效信息。
CN201310112891.5A 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法 Expired - Fee Related CN103258002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310112891.5A CN103258002B (zh) 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310112891.5A CN103258002B (zh) 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法

Publications (2)

Publication Number Publication Date
CN103258002A CN103258002A (zh) 2013-08-21
CN103258002B true CN103258002B (zh) 2014-10-01

Family

ID=48961921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310112891.5A Expired - Fee Related CN103258002B (zh) 2013-03-22 2013-03-22 一种社交网络的有效信息提取方法

Country Status (1)

Country Link
CN (1) CN103258002B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243595A (zh) * 2015-10-13 2016-01-13 宁波知微瑞驰信息科技有限公司 一种社交网络抑郁情感的账户相似性度量方法
CN111858673A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种基于分布和真值评定指标的高帧信息获取方法和系统
CN111858674A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种用于分析社交网络信息的高质量信息获取方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
原福永,冯静,符茜茜.微博用户的影响力指数模型.《现代图书情报技术》.2012,(第6期),第60-64页. *
张赛,徐恪,李海涛.微博类社交网络中信息传播的测量与分析.《西安交通大学学报》.2013,第47卷(第2期),第124-130页. *
李军,陈震,黄霁崴.微博影响力评价研究.《信息网络安全》.2012,(第3期),第10-13、27页. *

Also Published As

Publication number Publication date
CN103258002A (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
Rowe et al. Automated social hierarchy detection through email network analysis
CN106202211B (zh) 一种基于微博类型的集成微博谣言识别方法
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
CN103744877A (zh) 部署于互联网的舆情监测应用系统及运用方法
CN102609460B (zh) 微博客数据采集方法及系统
CN107733854A (zh) 一种网络虚拟用户的风险控制方法及系统
CN103729420B (zh) 微博热点追踪系统及追踪方法
CN108052543A (zh) 一种基于图分析聚类的微博相似账号检测方法
CN104462286A (zh) 一种基于改进的lda的微博话题发现方法
CN105224593B (zh) 一种短暂上网事务中频繁共现账号挖掘方法
CN103607391B (zh) 一种基于K‑means的SQL注入攻击检测方法
CN103258039B (zh) 一种微博伪造信息的检测方法
CN103258002B (zh) 一种社交网络的有效信息提取方法
CN104348871B (zh) 一种同类账号扩展方法及装置
CN103136372A (zh) 网络可信性行为管理中url快速定位、分类和过滤方法
WO2018040997A1 (zh) 漏斗模型的节点的评估系统、方法和装置
CN104252443A (zh) 报表生成方法及装置
Zainol et al. Association analysis of cyberbullying on social media using Apriori algorithm
CN104516962A (zh) 一种微博舆情监控方法及监控系统
CN103279472B (zh) 一种社交网络高影响力信息的提取方法
CN107908645A (zh) 一种基于渗流分析的在线社交平台谣言传播的免疫方法
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
CN106302849A (zh) 一种通过运营商数据进行移固融合的方法
CN106156117A (zh) 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统
CN108268762B (zh) 基于行为建模的移动社交网络用户身份识伪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Yu Xiao

Document name: Notification of Passing Examination on Formalities

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141001

Termination date: 20150322

EXPY Termination of patent right or utility model