CN102567340A - 一种过滤微博信息的方法及装置 - Google Patents

一种过滤微博信息的方法及装置 Download PDF

Info

Publication number
CN102567340A
CN102567340A CN201010591812XA CN201010591812A CN102567340A CN 102567340 A CN102567340 A CN 102567340A CN 201010591812X A CN201010591812X A CN 201010591812XA CN 201010591812 A CN201010591812 A CN 201010591812A CN 102567340 A CN102567340 A CN 102567340A
Authority
CN
China
Prior art keywords
microblogging
responsive
user
value
fractional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010591812XA
Other languages
English (en)
Other versions
CN102567340B (zh
Inventor
刘致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010591812.XA priority Critical patent/CN102567340B/zh
Publication of CN102567340A publication Critical patent/CN102567340A/zh
Application granted granted Critical
Publication of CN102567340B publication Critical patent/CN102567340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种过滤微博信息的方法及装置。包括:获取预先设置的上一时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值;根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。应用本发明,可以减少过滤微博信息所需的时间、提高用户体验。

Description

一种过滤微博信息的方法及装置
技术领域
本发明涉及信息安全过滤技术,特别涉及一种过滤微博信息的方法及装置。
背景技术
随着计算机网络及通信技术的发展,通过互联网络获取相关信息已成为用户日常生活以及工作必不可少的一部分,例如,通过点对点的技术来实现互联网上的即时沟通的即时通信(IM,Instant Messaging)工具,互联网络极大地增进了用户彼此之间的信息交流,也有效促进了信息的共享、推广及应用。
微型博客,即微博(MicroBlog)作为IM工具应用的一部分,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过网页(WEB)、无线应用协议(WAP,Wireless Application Protocol)以及各种客户端组建个人社区,由于具有准入技术低,可以即时通过140个字左右的一句话来表达自己情感,与关注自己的微博用户分享,因而,信息传递的效率较高,其应用也越来越广泛。
但互联网技术,尤其是微博技术在带给人们极大方便的同时,互联网络的垃圾信息、黄色信息及反政治敏感信息等问题也日益突出地显现出来,为了维护微博的稳定发展,在微博服务器侧,需要采取一定的措施对接收的微博信息进行安全性过滤,例如,对垃圾信息、黄色信息及政治敏感词等进行过滤屏蔽,只有经过安全性过滤的微博信息才能发送至对应的微博用户以供用户微博浏览、共享并再次发布。
现有技术中,一般采用人工监控的方式或用户投诉的方式对微博信息进行安全性过滤,对于人工监控方式,也就是说,提供中间传输的微博服务器侧的技术人员通过调用函数获取微博服务器接收的微博信息,并进行浏览,对携带垃圾信息、黄色信息及政治敏感词等的微博信息进行过滤屏蔽,这样,其他微博用户得到的是经过微博服务器过滤屏蔽的微博信息;对于用户投诉,相关技术人员接收到用户投诉后,将用户投诉对应的微博信息进行过滤屏蔽。
由上述可见,现有过滤微博信息的方法,对于人工监控,由于需要对微博服务器接收的每条微博信息进行人工审核,需要耗费大量的人力资源、且可能由于人工疏忽,使得过滤的可靠性和准确性较低,另一方面,由于审核所需时间较长,大量的可用微博信息在互联网上得不到有效的更新、发布,使得微博用户不能及时获取并浏览到该信息,用户体验较低;对于用户投诉,技术人员根据用户投诉进行过滤屏蔽处理,一方面,由于垃圾信息、黄色信息及政治敏感信息在过滤屏蔽处理前已在互联网上传播,造成了较坏的影响,另一方面,需要用户进行投诉才能处理,不能主动进行,过滤的可靠性和准确性更低,例如,可能漏掉一些可能发生的事件,导致微博服务器公司审核不利的责任,有损微博服务器公司的产品公关形象,进而影响微博产品的推广应用。
发明内容
有鉴于此,本发明的主要目的在于提出一种过滤微博信息的方法,减少过滤微博信息所需的时间、提高用户体验。
本发明的另一目的在于提出一种过滤微博信息的装置,减少过滤微博信息所需的时间、提高用户体验。
为达到上述目的,本发明提供了一种过滤微博信息的方法,该方法包括:
获取预先设置的上一时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;
根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值;
根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;
获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。
所述根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值具体包括:
判断所述上一时间周期是否为时间周期计时起始点,如果是,获取预先设置的上一收听关系网络信息中包含的各微博用户敏感初始分数值,否则,根据上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值;
根据当前收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值。
所述敏感分数计算公式为:
Rank n + 1 ( C ) = dx Σ P ∈ inlink ( C ) Rank n ( P ) Outgree ( P ) + ( 1 - d ) x Σ v ∈ V Rank n ( v ) N
式中,n为预先设置的时间周期数,n=0,1,2,...;
Rankn+1(C)为第n+1次时间周期时,微博用户C的敏感分数值,在第0次时间周期时,为敏感初始分数值;
Rankn(P)为第n次时间周期时,微博用户P的敏感分数值;
inlink(C)为微博用户C的听众集合,P∈inlink(C);
Outgree(P)为微博用户收听的微博用户数;
N为收听关系网络信息中包含的微博用户数;
V为收听关系网络信息中包含的微博用户集合;
Rankn(v)为第n次时间周期时,微博用户v的敏感分数值,v∈V;
d为敏感系数,d=0~1。
将收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的和作为所述残差值。
将收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的平方和的平方根值作为所述残差值。
所述获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽具体包括:
获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,对获取的敏感分数值按照分数高低进行排序;
选取前M个敏感分数值,获取其对应的微博用户,对前M个敏感分数值对应的微博用户的微博信息进行过滤屏蔽,其中,M为预先设定的值。
所述获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽具体包括:
预先设置敏感分数阈值;
如果残差值不大于预先设定残差阈值的微博用户敏感分数值大于设置的敏感分数阈值,对该敏感分数值对应的微博用户的微博信息进行过滤屏蔽。
进一步包括:
如果残差值大于预先设定的残差阈值,在下一时间周期到时,返回执行所述获取当前时间周期各微博用户对应的当前收听关系网络信息的步骤。
所述收听关系网络信息包括:收听人微博用户信息以及听众微博用户信息。
一种过滤微博信息的装置,该装置包括:第一微博数据库、第二微博数据库、第一敏感分数计算模块、第二敏感分数计算模块、残差值获取模块、判断模块、微博信息存储模块以及微博信息过滤模块,其中,
第一微博数据库,用于获取并存储预先设置的上一时间周期各微博用户对应的上一收听关系网络信息;
第二微博数据库,用于获取并存储预先设置的当前时间周期各微博用户对应的当前收听关系网络信息;
第一敏感分数计算模块,用于在上一时间周期时,根据从第一微博数据库读取的上一收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;
第二敏感分数计算模块,用于在当前时间周期时,根据从第二微博数据库读取的当前收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;
残差值获取模块,用于根据第一敏感分数计算模块及第二敏感分数计算模块的输出,按照预先设置的残差值计算公式获取残差值,输出至判断模块;
判断模块,用于在判断残差值不大于预先设定的残差阈值时,触发残差值获取模块将第一敏感分数计算模块或第二敏感分数计算模块的输出传输至微博信息过滤模块;
微博信息存储模块,用于存储接收的微博信息;
微博信息过滤模块,用于从接收的各微博用户敏感分数值中,选择满足预先设置策略的敏感分数值对应的微博用户,从微博信息存储模块读取对应的微博信息,进行过滤屏蔽。
所述判断模块进一步用于在判断残差值大于预先设定的残差阈值时,在设置的下一时间周期到时,触发第一微博数据库或第二微博数据库获取并存储残差值对应的微博用户的收听关系网络信息。
所述第一敏感分数计算模块包括:判断单元、敏感初始分数值存储单元以及敏感分数计算单元,其中,
判断单元,用于在上一时间周期时,如果该上一时间周期为时间周期计时起始点,触发敏感初始分数值存储单元将预先存储的第一微博数据库上一收听关系网络信息中包含的各微博用户敏感初始分数值输出至残差值获取模块,否则,从第一微博数据库读取上一收听关系网络信息,输出至敏感分数计算单元;
敏感分数计算单元,用于根据接收的上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值并输出至残差值获取模块。
由上述的技术方案可见,本发明提供的一种过滤微博信息的方法及装置,获取预先设置的上一时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值;根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。这样,基于微博用户的收听关系网络信息,利用自动挖掘技术,采用自动挖掘和迭代的方法,使得基于微博用户的收听关系网络信息挖掘的敏感分数值具有较强的依据和可靠性;同时,缩小了人工审核的工作量,有效减少了过滤微博信息所需的时间、提高了用户体验。
附图说明
图1为本发明实施例基于微博用户的收听关系网络第一结构示意图。
图2为本发明实施例过滤微博信息的方法流程示意图。
图3为本发明实施例基于微博用户的收听关系网络第二结构示意图。
图4为本发明实施例过滤微博信息的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
在微博上,可以进行收听和被收听,对于收听人的微博信息,一般认为与该微博用户需要的信息或者发布的广播信息存在较大的相关性,即具有敏感信息(例如,垃圾信息、黄色信息及政治敏感信息等)的发布人,收听人也具有发布敏感信息的可能性。这样,本发明实施例中,基于微博的该特点,利用微博的广播和群体关系,根据每个微博用户的收听关系,获取该微博用户的收听关系网络信息,然后,基于该收听关系网络信息进行挖掘,按照预先设置的算法计算收听关系网络信息中每个微博用户发布敏感信息对应的敏感分数,并按照敏感分数进行排序,获取排序中预先设定的微博用户数,对获取的微博用户的微博信息进行过滤以对该微博用户进行监控,这样,可以利用计算机自动挖掘技术,而非人工的过滤屏蔽处理,减轻人工审核的工作量。
图1为本发明实施例基于微博用户的收听关系网络第一结构示意图。参见图1,以微博用户的收听关系网络包含四个微博用户为例,分别为微博用户A~D,图中,箭头表示他收听的微博用户,该收听关系网络以G(V,E)表示,其中,V是图中节点集合(A、B、C、D),E是图中的有向边集合(AB、BC、CA、CD)。即微博用户A收听微博用户B,即微博用户B为微博用户A的收听人,微博用户A为微博用户B的听众,微博用户B收听微博用户C,微博用户C收听微博用户A和微博用户D。
图2为本发明实施例过滤微博信息的方法流程示意图。参见图2,该流程包括:
步骤201,获取各微博用户的收听关系初始网络信息并为各收听关系初始网络信息中包含的微博用户设置敏感初始分数值;
本步骤中,以微博用户为图1中微博用户C为例,获取的微博用户C的收听关系初始网络信息如图1所示,包括收听人微博用户A和D以及听众微博用户B。
实际应用中,对于不同的微博用户,其对应的微博用户的收听关系初始网络信息也不同。
对于未确定微博信息为敏感信息的微博用户来说,设置的敏感初始分数值可以相同并设置较低值,当然,对于确定微博信息为敏感信息的微博用户来说,设置的敏感初始分数值也可以相同并设置较高值。
步骤202,在预先设置的时间周期到时,获取各微博用户的收听关系网络信息;
本步骤中,在不同的时间,同一微博用户的收听关系网络信息随着时间的不同,会发生动态变化,关于获取微博用户的收听关系网络信息,可参见相关技术文献,在此不再赘述。
预先设置的时间周期可以根据实际需要确定,例如,可以是24小时,或者,根据计算的量,也可以是1小时。
步骤203,根据获取的收听关系网络信息,按照预先设置的敏感分数计算公式计算各微博用户的敏感分数值;
本步骤中,敏感分数计算公式为:
Rank n + 1 ( C ) = dx Σ P ∈ inlink ( C ) Rank n ( P ) Outgree ( P ) + ( 1 - d ) x Σ v ∈ V Rank n ( v ) N
式中,n为预先设置的时间周期数,n=0,1,2,...;
Rankn+1(C)为第n+1次时间周期时,微博用户C的敏感分数值,在第0次时间周期时,为敏感初始分数值;
Rankn(P)为第n次时间周期时,微博用户P的敏感分数值;
inlink(C)为微博用户C的听众集合,P∈inlink(C);
Outgree(P)为微博用户收听的微博用户数,即听众数;
N为收听关系网络信息中包含的微博用户数;
V为收听关系网络信息中包含的微博用户集合;
Rankn(v)为第n次时间周期时,微博用户v的敏感分数值,v∈V;
d为敏感系数,可根据经验值设定,d=0~1。
以图1为例,第1次时间周期时,微博用户C的敏感分数值计算公式为:
Rank 1 ( C ) = dxRank 0 ( C ) + ( 1 - d ) x Rank 0 ( A ) + Rank 0 ( B ) + Rank 0 ( C ) + Rank 0 ( D ) 4
式中,Rank0(C)为微博用户C的敏感初始分数值。
步骤201至步骤203也可以概括为:获取预先设置的上一时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值,其中,上一时间周期与当前时间周期为相邻的时间周期。也就是说,
获取预先设置的上一时间周期对应的各微博用户上一收听关系网络信息,如果该上一时间周期为时间周期计时起始点,获取预先设置的上一收听关系网络信息中包含的各微博用户敏感初始分数值,否则,根据上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值;
获取预先设置的当前时间周期对应的各微博用户当前收听关系网络信息,根据当前收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值。
步骤204,根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;
本步骤中,如前所述,根据微博用户在上一时间周期计算得到的敏感分数值或设置的敏感初始分数值与在当前时间周期计算得到的敏感分数值获取残差值。
残差值的计算公式可以是收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的和:
Δ Rank = Σ v ∈ V | Rank n ( v ) - Rank n - 1 ( v ) | , 或者
收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的平方和的平方根值:
Δ Rank = Σ v ∈ V | Rank n ( v ) - Rank n - 1 ( v ) | 2
式中,ΔRank为残差值。
步骤205,判断残差值是否大于预先设定的残差阈值,如果是,返回执行步骤202,否则,执行步骤206;
本步骤中,预先设定的残差阈值可以根据经验值结合收听关系网络信息中包含的微博用户数确定,并存入配置文件中,例如,残差阈值可以根据当前收听关系网络信息中包含的微博用户数与预先设置的残差阈值系数进行设置,举例来说,如果残差阈值系数为千分之一,当前收听关系网络信息中包含的微博用户数为1亿个,则残差阈值可以设置为
Figure BSA00000388942200101
如果残差值大于预先设定的残差阈值,表明计算得到的该微博用户的敏感分数值还未收敛,需要继续获取收听关系网络信息。则在下一预先设置的时间周期到时,与步骤202有所不同的是,只获取该微博用户的收听关系网络信息,并将当前时间周期计算得到的各微博用户的敏感分数值作为上一时间周期计算得到的敏感分数值。
实际应用中,敏感分数值计算是一个不断迭代的过程,并且Rankn随着n的增加逐渐收敛,在Rankn=Rankn-1时停止迭代是最理想的,但是需要经过太多的迭代次数,在大规模计算中,太多的迭代耗时是无法接受的。因此,在残差值达到一定程度时,将在该时间周期计算得到的敏感分数值作为理想敏感分数值的近似值。
在获取该微博用户的收听关系网络信息后,根据获取的收听关系网络信息,再次按照预先设置的敏感分数计算公式计算该微博用户的敏感分数值。假设微博用户C在第1次时间周期时得到的收听关系网络信息如图1所示,在第2次时间周期时,得到的收听关系网络信息发生了一些改变。
图3为本发明实施例基于微博用户的收听关系网络第二结构示意图。参见图3,为在第2次时间周期时得到的微博用户C的收听关系网络结构拓扑图,微博用户B和微博用户F收听微博用户C,微博用户C收听微博用户A、微博用户D和微博用户H,其他与图1相同,在此不再赘述。。
则,微博用户C的当前敏感分数值计算公式为:
Rank 2 ( C ) = dx Σ P ∈ ( B , F ) Rank 1 ( P ) 2 + ( 1 - d ) x Σ v ∈ ( A , B , C , D , F , H ) Rank 1 ( v ) 6
式中,其它参数值可以通过与上述相类似的方法获取。
接着,获取该微博用户的当前残差值,即:
Δ Rank = Σ v ∈ ( A , B , C , D , F , H ) | Rank 2 ( v ) - Rank 1 ( v ) |
然后,再判断该残差值是否大于预先设定的残差阈值。
步骤206,获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。
本步骤中,获取残差值不大于预先设定残差阈值的各微博用户敏感分数值后,可以对获取的敏感分数值按照分数高低进行排序,例如,以敏感分数值列表的形式进行排序,并将排序的敏感分数值列表存储至数据库中,选取前M个敏感分数值,获取其对应的微博用户,对前M个敏感分数值对应的微博用户的微博信息进行人工审核,其中,M为预先设定的值。当然,实际应用中,也可以设置敏感分数阈值,如果敏感分数值大于设置的敏感分数阈值,则对该敏感分数值对应的微博用户的微博信息进行人工审核,确定需要过滤屏蔽的微博信息。
由上述可见,本发明实施例的过滤微博信息的方法,通过获取各微博用户的收听关系初始网络信息并为各收听关系初始网络信息中包含的微博用户设置敏感初始分数值;在预先设置的时间周期到时,获取各微博用户的收听关系网络信息;根据获取的收听关系网络信息,按照预先设置的敏感分数计算公式计算各微博用户的敏感分数值;根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;判断残差值是否大于预先设定的残差阈值,如果是,继续执行获取该微博用户的收听关系网络信息的步骤,否则,获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,选择满足预先设置策略的敏感分数值对应的微博用户进行过滤屏蔽。这样,基于微博用户的收听关系网络信息,利用自动挖掘技术,采用自动挖掘和迭代的方法,计算获取微博用户的收敛敏感分数值,根据预先设置的策略,选取较高的敏感分数值对应的微博用户进行过滤屏蔽,使得基于微博用户的收听关系网络信息挖掘的敏感分数值具有较强的依据和可靠性;进一步地,自动挖掘和迭代的方法大大缩小了人工审核的工作量,有效减少了过滤微博信息所需的时间;而且,自动挖掘和迭代的方法,计算速度较快,过滤时间短,大量的可用信息在互联网上可以得到有效的更新,提高了用户体验。
图4为本发明实施例过滤微博信息的装置结构示意图。参见图4,该装置包括:第一微博数据库、第二微博数据库、第一敏感分数计算模块、第二敏感分数计算模块、残差值获取模块、判断模块、微博信息存储模块以及微博信息过滤模块,其中,
第一微博数据库,用于获取并存储预先设置的上一时间周期各微博用户对应的上一收听关系网络信息;
第二微博数据库,用于获取并存储预先设置的当前时间周期各微博用户对应的当前收听关系网络信息;
本发明实施例中,上一时间周期与当前时间周期为相邻的时间周期,相对于设置的时间周期来说。例如,设置的时间周期为10小时,如果上一时间周期为时间周期计时起始点,则当前时间周期为第10小时,然后,在下一个时间周期,即第20小时时,第10小时时的时间周期又相当于上一时间周期,如此循环。
第一敏感分数计算模块,用于在上一时间周期时,根据从第一微博数据库读取的上一收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;
第二敏感分数计算模块,用于在当前时间周期时,根据从第二微博数据库读取的当前收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;
残差值获取模块,用于根据第一敏感分数计算模块及第二敏感分数计算模块的输出,按照预先设置的残差值计算公式获取残差值,输出至判断模块;
判断模块,用于判断残差值是否大于预先设定的残差阈值,如果是,在设置的下一时间周期到时,触发第一微博数据库或第二微博数据库获取并存储残差值对应的微博用户的收听关系网络信息;否则,触发残差值获取模块将第一敏感分数计算模块或第二敏感分数计算模块的输出传输至微博信息过滤模块;
微博信息存储模块,用于存储接收的微博信息;
微博信息过滤模块,用于从接收的各微博用户敏感分数值中,选择满足预先设置策略的敏感分数值对应的微博用户,从微博信息存储模块读取对应的微博信息,进行过滤屏蔽。
本发明实施例中,第一敏感分数计算模块包括:判断单元、敏感初始分数值存储单元以及敏感分数计算单元(图中未示出),其中,
判断单元,用于在上一时间周期时,如果该上一时间周期为时间周期计时起始点,触发敏感初始分数值存储单元将预先存储的第一微博数据库上一收听关系网络信息中包含的各微博用户敏感初始分数值输出至残差值获取模块,否则,从第一微博数据库读取上一收听关系网络信息,输出至敏感分数计算单元;
敏感分数计算单元,用于根据接收的上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值并输出至残差值获取模块。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种过滤微博信息的方法,其特征在于,该方法包括:
获取预先设置的上一时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;
根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值;
根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;
获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。
2.如权利要求1所述的方法,其特征在于,所述根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值具体包括:
判断所述上一时间周期是否为时间周期计时起始点,如果是,获取预先设置的上一收听关系网络信息中包含的各微博用户敏感初始分数值,否则,根据上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值;
根据当前收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值。
3.如权利要求2所述的方法,其特征在于,所述敏感分数计算公式为:
Rank n + 1 ( C ) = dx Σ P ∈ inlink ( C ) Rank n ( P ) Outgree ( P ) + ( 1 - d ) x Σ v ∈ V Rank n ( v ) N
式中,n为预先设置的时间周期数,n=0,1,2,...;
Rankn+1(C)为第n+1次时间周期时,微博用户C的敏感分数值,在第0次时间周期时,为敏感初始分数值;
Rankn(P)为第n次时间周期时,微博用户P的敏感分数值;
inlink(C)为微博用户C的听众集合,P∈inlink(C);
Outgree(P)为微博用户收听的微博用户数;
N为收听关系网络信息中包含的微博用户数;
V为收听关系网络信息中包含的微博用户集合;
Rankn(v)为第n次时间周期时,微博用户v的敏感分数值,v∈V;
d为敏感系数,d=0~1。
4.如权利要求3所述的方法,其特征在于,将收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的和作为所述残差值。
5.如权利要求3所述的方法,其特征在于,将收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的平方和的平方根值作为所述残差值。
6.如权利要求1所述的方法,其特征在于,所述获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽具体包括:
获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,对获取的敏感分数值按照分数高低进行排序;
选取前M个敏感分数值,获取其对应的微博用户,对前M个敏感分数值对应的微博用户的微博信息进行过滤屏蔽,其中,M为预先设定的值。
7.如权利要求1所述的方法,其特征在于,所述获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽具体包括:
预先设置敏感分数阈值;
如果残差值不大于预先设定残差阈值的微博用户敏感分数值大于设置的敏感分数阈值,对该敏感分数值对应的微博用户的微博信息进行过滤屏蔽。
8.如权利要求1至7任一项所述的方法,其特征在于,进一步包括:
如果残差值大于预先设定的残差阈值,在下一时间周期到时,返回执行所述获取当前时间周期各微博用户对应的当前收听关系网络信息的步骤。
9.如权利要求8所述的方法,其特征在于,所述收听关系网络信息包括:收听人微博用户信息以及听众微博用户信息。
10.一种过滤微博信息的装置,其特征在于,该装置包括:第一微博数据库、第二微博数据库、第一敏感分数计算模块、第二敏感分数计算模块、残差值获取模块、判断模块、微博信息存储模块以及微博信息过滤模块,其中,
第一微博数据库,用于获取并存储预先设置的上一时间周期各微博用户对应的上一收听关系网络信息;
第二微博数据库,用于获取并存储预先设置的当前时间周期各微博用户对应的当前收听关系网络信息;
第一敏感分数计算模块,用于在上一时间周期时,根据从第一微博数据库读取的上一收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;
第二敏感分数计算模块,用于在当前时间周期时,根据从第二微博数据库读取的当前收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;
残差值获取模块,用于根据第一敏感分数计算模块及第二敏感分数计算模块的输出,按照预先设置的残差值计算公式获取残差值,输出至判断模块;
判断模块,用于在判断残差值不大于预先设定的残差阈值时,触发残差值获取模块将第一敏感分数计算模块或第二敏感分数计算模块的输出传输至微博信息过滤模块;
微博信息存储模块,用于存储接收的微博信息;
微博信息过滤模块,用于从接收的各微博用户敏感分数值中,选择满足预先设置策略的敏感分数值对应的微博用户,从微博信息存储模块读取对应的微博信息,进行过滤屏蔽。
11.如权利要求10所述的装置,其特征在于,所述判断模块进一步用于在判断残差值大于预先设定的残差阈值时,在设置的下一时间周期到时,触发第一微博数据库或第二微博数据库获取并存储残差值对应的微博用户的收听关系网络信息。
12.如权利要求10或11所述的装置,其特征在于,所述第一敏感分数计算模块包括:判断单元、敏感初始分数值存储单元以及敏感分数计算单元,其中,
判断单元,用于在上一时间周期时,如果该上一时间周期为时间周期计时起始点,触发敏感初始分数值存储单元将预先存储的第一微博数据库上一收听关系网络信息中包含的各微博用户敏感初始分数值输出至残差值获取模块,否则,从第一微博数据库读取上一收听关系网络信息,输出至敏感分数计算单元;
敏感分数计算单元,用于根据接收的上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值并输出至残差值获取模块。
CN201010591812.XA 2010-12-09 2010-12-09 一种过滤微博信息的方法及装置 Active CN102567340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010591812.XA CN102567340B (zh) 2010-12-09 2010-12-09 一种过滤微博信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010591812.XA CN102567340B (zh) 2010-12-09 2010-12-09 一种过滤微博信息的方法及装置

Publications (2)

Publication Number Publication Date
CN102567340A true CN102567340A (zh) 2012-07-11
CN102567340B CN102567340B (zh) 2016-02-24

Family

ID=46412780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010591812.XA Active CN102567340B (zh) 2010-12-09 2010-12-09 一种过滤微博信息的方法及装置

Country Status (1)

Country Link
CN (1) CN102567340B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150353A (zh) * 2013-02-18 2013-06-12 人民搜索网络股份公司 微博信息的获取方法及装置
CN103345530A (zh) * 2013-07-25 2013-10-09 南京邮电大学 一种基于语义网的社交网络黑名单自动过滤模型
CN107222398A (zh) * 2017-07-24 2017-09-29 广州腾讯科技有限公司 社交消息控制方法、装置、存储介质和计算机设备
CN108306811A (zh) * 2017-02-06 2018-07-20 腾讯科技(深圳)有限公司 一种消息处理方法及装置
CN110457349A (zh) * 2019-07-02 2019-11-15 北京人人云图信息技术有限公司 信息流出的监控方法及监控装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009067328A2 (en) * 2007-11-19 2009-05-28 Motorola, Inc. Method and apparatus for determining a group preference in a social network
US20090148124A1 (en) * 2007-09-28 2009-06-11 Yahoo!, Inc. Distributed Automatic Recording of Live Event
CN101770487A (zh) * 2008-12-26 2010-07-07 聚友空间网络技术有限公司 社交网络中用户影响力的计算方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090148124A1 (en) * 2007-09-28 2009-06-11 Yahoo!, Inc. Distributed Automatic Recording of Live Event
WO2009067328A2 (en) * 2007-11-19 2009-05-28 Motorola, Inc. Method and apparatus for determining a group preference in a social network
CN101770487A (zh) * 2008-12-26 2010-07-07 聚友空间网络技术有限公司 社交网络中用户影响力的计算方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段丹等: "基于邮件分类的敏感社团挖掘技术", 《计算机应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150353A (zh) * 2013-02-18 2013-06-12 人民搜索网络股份公司 微博信息的获取方法及装置
CN103345530A (zh) * 2013-07-25 2013-10-09 南京邮电大学 一种基于语义网的社交网络黑名单自动过滤模型
CN108306811A (zh) * 2017-02-06 2018-07-20 腾讯科技(深圳)有限公司 一种消息处理方法及装置
CN108306811B (zh) * 2017-02-06 2021-03-26 腾讯科技(深圳)有限公司 一种消息处理方法及装置
CN107222398A (zh) * 2017-07-24 2017-09-29 广州腾讯科技有限公司 社交消息控制方法、装置、存储介质和计算机设备
CN110457349A (zh) * 2019-07-02 2019-11-15 北京人人云图信息技术有限公司 信息流出的监控方法及监控装置
CN110457349B (zh) * 2019-07-02 2022-04-05 北京人人云图信息技术有限公司 信息流出的监控方法及监控装置

Also Published As

Publication number Publication date
CN102567340B (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
JP5560367B2 (ja) ネットワーク内の友人の動的情報を管理するための方法、システムおよびサーバ
CN105357054B (zh) 网站流量分析方法、装置和电子设备
CN103455515B (zh) Sns社区中的用户推荐方法和系统
US11238233B2 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
CN104077402B (zh) 数据处理方法和数据处理系统
CN102779190B (zh) 一种时序海量网络新闻的热点事件快速检测方法
US20130297694A1 (en) Systems and methods for interactive presentation and analysis of social media content collection over social networks
US8560681B2 (en) Method of characterizing a social network communication using motifs
CN107943905B (zh) 一种热点话题分析方法及系统
CN102110098B (zh) 网络信息推荐方法及系统
CN103049443A (zh) 一种挖掘热点词的方法与装置
US20090276506A1 (en) Generating document templates that are robust to structural variations
TW201304516A (zh) 使用自使用者活動更新所得觀點增加內容關聯性之方法
CN105989074A (zh) 一种通过移动设备信息进行推荐冷启动的方法和装置
CN102567340A (zh) 一种过滤微博信息的方法及装置
CN107146099A (zh) 一种营销方法及营销系统
CN101477552A (zh) 网站用户等级划分方法
CN103838819A (zh) 一种信息发布方法及系统
CN102262681A (zh) 一种博客信息传播中识别关键博客集的方法
CN106202126B (zh) 一种用于物流监控的数据分析方法和装置
CN103778225A (zh) 广告营销类语言信息的处理方法、识别装置及系统
CN104657437B (zh) 推广情况数据的监测方法及装置
CN107481058A (zh) 一种产品推荐方法以及产品推荐装置
CN104992318A (zh) 行事历主动推荐事件的方法
US10331713B1 (en) User activity analysis using word clouds

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant