CN102315978A - 一种检测开放式互动平台中子集的异常状态的方法与设备 - Google Patents

一种检测开放式互动平台中子集的异常状态的方法与设备 Download PDF

Info

Publication number
CN102315978A
CN102315978A CN2010102141769A CN201010214176A CN102315978A CN 102315978 A CN102315978 A CN 102315978A CN 2010102141769 A CN2010102141769 A CN 2010102141769A CN 201010214176 A CN201010214176 A CN 201010214176A CN 102315978 A CN102315978 A CN 102315978A
Authority
CN
China
Prior art keywords
information
subclass
threshold value
issue
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102141769A
Other languages
English (en)
Inventor
舒迅
帅帅
尹佳
王波
罗亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2010102141769A priority Critical patent/CN102315978A/zh
Publication of CN102315978A publication Critical patent/CN102315978A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明的目的是提供一种检测开放式互动平台中子集的异常状态的方法与设备。其中,子集异常状态检测设备自动获取与开放式互动平台中子集相关的信息发布行为,识别其中的异常信息发布行为,并根据所述异常信息发布行为,检测所述开放式互动平台中子集的异常状态。本发明通过对开放式互动平台的有效检测和处理,可以更好地服务于人们获取开放式互动平台的信息和有效互动沟通的需求。

Description

一种检测开放式互动平台中子集的异常状态的方法与设备
技术领域
本发明涉及网络技术领域,尤其涉及用于检测开放式互动平台中子集的异常状态的技术。
背景技术
伴随着Web2.0的浪潮,开放式互动平台,例如社区、贴吧、论坛、博客、微博,购物网站中对商品的点评、新闻评论、短信互动等应用吸引了越来越多的用户。相应地,互动版块爆胀、垃圾互动版块、互动版块刷屏、主信息挖坟、主信息刷屏等异常状态也开始激增,影响人们正常使用和浏览开放式互动平台,如何管理这些开放式互动平台,成为新的挑战。
发明内容
本发明的目的是提供一种检测开放式互动平台中子集的异常状态的方法与设备。
根据本发明的一个方面,提供了一种用于检测开放式互动平台中子集的异常状态的方法,该方法包括以下步骤:
a获取涉及开放式互动平台的子集的信息发布行为;
b根据所述信息发布行为,识别异常信息发布行为;
c根据所述异常信息发布行为,检测所述子集的异常状态。
根据本发明的另一个方面,还提供了一种用于检测开放式互动平台中子集的异常状态的设备,该设备包括:
获取装置,用于获取涉及开放式互动平台的子集的信息发布行为;
识别装置,用于根据所述信息发布行为,识别异常信息发布行为;
检测装置,用户根据所述异常信息发布行为,检测所述子集的异常状态。
本发明通过对开放式互动平台的有效检测和处理,可以更好地服务于人们获取开放式互动平台的信息和有效互动沟通的需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于检测开放式互动平台中子集的异常状态的系统拓扑图;
图2示出根据本发明一个方面的用于检测开放式互动平台中子集的异常状态的设备示意图;
图3示出根据本发明一个优选实施例的用于检测开放式互动平台中子集的异常状态的设备示意图;
图4示出根据本发明又一个优选实施例的用于检测开放式互动平台中子集的异常状态的设备示意图;
图5示出根据本发明另一个方面的用于检测开放式互动平台中子集的异常状态的方法流程图;
图6示出根据本发明一个优选实施例的用于检测开放式互动平台中子集的异常状态的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明做进一步详细描述。
图1示出根据本发明一个方面的用于检测开放式互动平台中子集的异常状态的系统拓扑图,其中包括子集异常状态检测设备1以及多个用户设备2。其中,子集异常状态检测设备可与多个用户设备2经由网络相连接,并根据用户从用户设备2输入的信息发布行为识别异常信息发布行为,检测子集的异常状态。在此,网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。信息发布行为包括但不限于以下至少一项:a)用户的信息发布数量;b)信息发布频率;c)信息发布标题;d)信息发布内容;e)用户访问来源,例如用户登录开放式互动平台所使用的用户名(即登录ID)或IP;和f)用户行为模式,例如用户在该开放式互动平台停留的时间、用户访问历史、访问路径等。开放式互动平台包括但不限于社区、贴吧、论坛、博客、微博,购物网站中对商品的点评、新闻评论、短信互动等。子集包括但不限于以下至少一项:a)所述开放式互动平台的一个互动版块,例如百度贴吧的世界杯吧;b)所述开放式互动平台的一个互动版块中的一个主信息,例如世界杯吧中的一个主帖“【赛事直击】----G组第二轮19:30葡萄牙VS朝鲜”,所述主信息包括但不限于主帖、博客日志、好友动态信息、新闻、投票帖等,相应地,跟帖或回帖可以称为从信息。异常状态包括但不限于以下至少一项:a)互动版块爆胀;b)垃圾互动版块;c)互动版块刷屏;d)主信息挖坟;或e)主信息刷屏等。
另外,子集异常状态检测设备1可以是独立的计算设备,包括但不限于普通计算机、服务器、小型主机、大型主机等,也可以是与其他应用共享的计算设备,包括但不限于企业服务器、企业网站服务器、门户网站服务器、搜索网站服务器等。而用户设备2可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或手写设备等方式进行人机交互的电子产品,例如计算机、智能手机、PDA、或IPTV等。
本领域技术人员应能理解上述子集异常状态检测设备1、用户设备2以及连接其间的网络仅为举例,其他现有的或今后可能出现的子集异常状态检测设备、用户设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
为简明起见,下面以一个用户设备2为例进行描述。本领域技术人员应能理解,子集异常状态检测设备1可以同时与多个用户设备2交互,并根据从不同用户设备2输入的信息发布行为识别异常信息发布行为,以检测子集的异常状态。
图2示出根据本发明一个方面的用于检测开放式互动平台中子集的异常状态的设备示意图。其中,子集异常状态检测设备1包括获取装置11、识别装置12和检测装置13。
具体地,获取装置11获取与开放式互动平台的子集相关的信息发布行为。也即,用户通过用户设备2中的浏览器软件或客户端软件登录开放式互动平台,并通过与用户设备2的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在该开放式互动平台的子集进行信息发布等操作。以键盘为例,当用户在其所登录的开放式互动平台的子集的发布主信息或从信息的输入窗口中敲击键盘按键进行输入时,获取装置11通过页面技术,如JSP、ASP、PHP技术,实时地获取用户敲击的按键序列,并记录为该用户发布的主信息或从信息,同时,获取用户登录开放式互动平台所使用的用户名(登录ID)或IP。本领域技术人员应能理解上述几种页面技术仅为举例,其他现有的或今后可能出现的页面技术如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。优选地,获取装置11根据用户登录开放式互动平台所使用的用户名(登录ID)或IP,记录和合并用户通过不同的用户设备2在开放式互动平台的网络操作行为。优选地,子集异常状态检测设备1可以包括信息库101,以存储获取装置11获取的信息发布行为,包括但不限于以下至少一项:a)用户的信息发布数量;b)信息发布频率;c)信息发布标题;d)信息发布内容;e)用户访问来源,例如用户登录开放式互动平台所使用的用户名(即登录ID)或IP;和f)用户行为模式,例如用户在该开放式互动平台停留的时间、用户访问历史、访问路径等。获取装置11也可以从信息库101中提取已存储的信息发布行为,交由识别装置12进行进一步的识别。
识别装置12识别该开放式互动平台的子集的异常信息发布行为。具体地,识别装置12根据获取装置11所获得的信息发布行为,识别其是否为异常信息发布行为。优选地,所述异常信息发布行为包括但不限于以下至少一项:
a)开放式互动平台中子集的时段信息发布数量高于第一阈值,所述第一阈值是指所述子集的时段信息发布数量阈值;
b)所述子集的时段信息发布频率高于第二阈值,所述第二阈值是指所述子集的时段信息发布频率阈值;
c)所述子集的时段信息发布数量占同时段点击率的百分比高于第三阈值,所述第三阈值是指所述子集的时段信息发布数量占同时段点击率的百分比阈值;
d)机器发布信息;
e)发布垃圾信息;
f)所述子集的垃圾信息数量高于第四阈值,所述第四阈值是指所述子集的垃圾信息数量阈值;
g)发布挖坟信息;
h)单个用户在所述子集连续发布信息的数量高于第五阈值,所述第五阈值是指单个用户在所述子集连续发布信息的数量阈值;
i)所述子集中连续发布近似信息的数量高于第六阈值,所述第六阈值是指所述子集中连续发布近似信息的数量阈值。
在此,时段信息发布数量是指在一定的时间段内的信息发布数量的统计结果。例如,某开放式互动平台的一个互动版块的第一阈值为一分钟发布80个主信息或从信息,而此时在一分钟内所有用户共发布了100个主信息或从信息,则此信息发布行为被识别为异常信息发布行为。相似地,时段信息发布频率定义为信息发布数量除以时间,例如100个/分钟;若第二阈值为80个/分钟,则所述信息发布行为被识别为异常信息发布行为。又如,某开放式互动平台的一个互动版块在一分钟内的点击率为100,该分钟内信息发布数量为50个,则所述时段信息发布数量占同时段点击率的百分比为50%;若第三阈值为50%,超过所述阈值,则被识别为异常信息发布行为。所述识别装置12可以统计所述信息发布行为中单个用户、单个设备、或近似信息的信息发布频率;当所述信息发布频率高于用户信息发布频率时,确定相应的所述信息发布行为包括机器发布信息。一般而言,受生理限制,单个用户的信息发布频率存在一个极限值,例如,单个用户一分钟最多发布10个主信息或从信息,当超过此极限值时,可以识别为机器发布信息。所述识别装置12也可以检测与所述信息发布行为相关的信息是否包括垃圾信息特征;当所述与信息发布行为相关的信息包括垃圾信息特征时,确定相应的所述信息发布行为包括发布垃圾信息。其中,所述垃圾信息特征包括但不限于:内容与所述子集无关、含有脏词、含有已被记录为垃圾信息的内容或由已被记录为垃圾信息发布者的用户发布。当所述子集的垃圾信息数量高于第四阈值时,也被识别为异常信息发布行为。所述识别装置还可以检测与所述信息发布行为相关的从信息是否超出对应主信息的回复时限;当所述与信息发布行为相关的从信息超出对应主信息的回复时限时,确定相应的所述信息发布行为包括发布挖坟信息。例如,某主信息的最后回复或更新日期距离此次回复所述主信息(即发布对应于该主信息的从信息)的时间为一年,则可以被识别为发布挖坟信息。判断方法h中所述单个用户在所述子集连续发布信息的数量是指在所述子集中同一用户在一定的时间段内连续发布的信息数量,所述时间段较之判断是否为机器发帖时的时间段宽松,所述发布信息行为可能引致刷屏。判读方法i中所述子集中连续发布近似信息可以由不同用户在一定的时间段内连续发布,同样可能引致刷屏。本领域技术人员应能理解上述几种判断异常信息发布行为的方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
检测装置13根据识别装置12识别的异常信息发布行为,检测所述子集的异常状态。所述异常状态包括但不限于以下至少一项:a)互动版块爆胀;b)垃圾互动版块;c)互动版块刷屏;d)主信息挖坟;或e)主信息刷屏等。在此,互动版块爆胀是指开放式互动平台的一个互动版块在短时间内突增大量新的无意义无内容或与该互动版块主题不相关的主信息或从信息;垃圾互动版块是指所述互动版块中与该互动版块的主题相关的主信息或从信息所占比例小于对应的阈值;互动版块刷屏是指所述互动版块在短时间内出现大量相同的主信息,使之基本充满整个屏幕,包括但不限于文字刷屏、图片刷屏和清空刷屏;主信息挖坟是指回复超过回复时限并仍得到保留的主信息,使之到达互动版块列表的前列;主信息刷屏是指在短时间内对主信息回复大量相同或无意义的从信息,使之基本充满整个屏幕,包括但不限于文字刷屏、图片刷屏和清空刷屏。互动版块中子集的所述异常状态影响用户正常使用和浏览开放式互动平台。
以百度贴吧中的世界杯吧为例,当所述世界杯吧在一分钟内突然增加了100个新的主帖(即主信息),其中有90个主帖无意义无内容,且与“世界杯”这一主题不相符合,则可被视为互动版块爆胀的一种典型现象;若所述世界杯吧中总共只有主帖100个,并且,其中与“世界杯”这一主题相关的主帖只有10个,也即,与该吧主题相符的主帖占总的主帖数量的比例为10%,若阈值设为50%,则可被视为垃圾互动版块的一种典型现象;若所述世界杯吧的页面大量主帖都是同一标题或近似标题,则可被视为互动版块刷屏的一种典型现象;挖坟是指回复超过回复时限并仍得到保留的主帖,使之到达贴吧列表的前列,例如,世界杯吧中尾页的一个主帖“体育经典声音”是在2005.12.31创建的,最后回复日期是2006.01.02,若回复该主帖,则此主帖又到达首页,影响其他用户正常使用和浏览贴吧,该信息发布行为视为发布挖坟信息;若针对该主帖回复大量无意义的回帖(即从信息),使其他用户无法正常阅读该主帖的其他有意义的回帖,则可被视为主信息刷屏。
具体地,在开放式互动平台的互动版块的一个优选的实施例中,当异常信息发布行为包括以下至少一项时:a)所述互动版块的时段信息发布数量高于第一阈值;b)所述互动版块的时段信息发布频率是否高于第二阈值;c)所述互动版块的时段信息发布数量占同时段点击率的百分比高于第三阈值;检测装置13可以检测所述互动版块处于互动版块爆胀的异常状态。在开放式互动平台的互动版块的另一个优选的实施例中,当异常信息发布行为包括所述互动版块的垃圾信息数量高于第四阈值时,检测装置13可以检测所述互动版块处于垃圾互动版块的异常状态。在开放式互动平台的互动版块的又一个优选的实施例中,当异常信息发布行为包括以下至少一项时:a)单个用户在所述互动版块连续发布信息的数量高于第五阈值时;b)所述互动版块中连续发布近似信息的数量高于第六阈值;检测装置13可以检测所述互动版块处于互动版块刷屏的异常状态。
在开放式互动平台的互动版块的主信息的一个优选的实施例中,当异常信息发布行为包括以下至少一项时:a)单个用户在所述主信息中连续发布从信息的数量高于第五阈值时;b)所述主信息中连续发布近似从信息的数量高于第六阈值;检测装置13可以检测所述主信息处于主信息刷屏的异常状态。在开放式互动平台的互动版块的主信息的另一个优选的实施例中,当异常信息发布行为包括发布挖坟信息时;检测装置13可以检测所述主信息处于主信息挖坟的异常状态。所述发布挖坟信息根据与所述信息发布行为相关的从信息超出对应主信息的回复时限来确定。本领域技术人员应能理解上述几种检测开放式互动平台中子集的异常状态的方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图3示出根据本发明另一个优选实施例的设备示意图,其示出检测开放式互动平台中子集的异常状态的设备。其中,在检测装置13之后级联了一个处理装置14。处理装置14根据预设规则对所述子集的异常状态进行处理。所述处理包括对发布异常信息的用户的处理及对所述异常状态的子集的处理。例如,对于频发垃圾信息的用户自动封禁其ID或IP,并删除对应的垃圾信息;对机器发布信息的行为,自动封禁其ID或IP,并删除对应的信息;对于发布挖坟信息的用户,自动发出警告并删除对应的从信息,对于频发者可以自动封禁其ID或IP并删除对应的从信息;对被检测到正处于爆胀状态的开放式互动平台的子集,自动关闭该子集或限制用户对其进行信息发布行为;对垃圾互动版块,自动关闭或删除该版块。本领域技术人员应能理解,所述预设规则可以根据该开放式互动平台的情况进行适当的调整;上述几种处理方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图4示出根据本发明又一个优选实施例的设备示意图,其示出检测开放式互动平台中子集的异常状态的设备。其中,统计装置15用于对获取装置11获取到的信息发布行为进行统计分析,确定所述第一阈值、所述第二阈值、所述第三阈值、所述第四阈值、所述第五阈值和所述第六阈值中的一项或多项阈值;并根据所述信息发布行为,更新所述一项或多项阈值中的至少一项。所述信息发布行为包括但不限于以下至少一项:a)用户的信息发布数量;b)信息发布频率;c)信息发布标题;d)信息发布内容;e)用户访问来源,例如用户登录开放式互动平台所使用的用户名(即登录ID)或IP;和f)用户行为模式,例如用户在该开放式互动平台停留的时间、用户访问历史、访问路径等。识别装置12根据更新后的阈值识别异常信息发布行为。在开放式互动平台的互动版块的一个优选的实施例中,统计装置15对获取装置11获取到的信息发布行为进行统计分析,例如统计在所述互动版块处于正常状态下一分钟内的信息发布数量,并根据多个信息发布数量,取其中的最大值得到第一阈值;统计装置还可以对所述信息发布数量进行曲线统计分析,根据所述曲线的变化趋势适时调整及更新阈值,例如,当出现一个社会热点时,所述互动版块的访问量和信息发布数量都会相应提高,所述曲线有一个向上的变化趋势,此时统计装置可以提高及更新所述第一阈值。相似地,其他信息发布行为可以用同样的方法进行统计分析,并更新其对应的所述第二阈值、所述第三阈值、所述第四阈值、所述第五阈值和所述第六阈值。例如随着世界杯的开赛,世界杯吧的访问量、新的主帖量和回帖量开始激增,此时可以提高第一阈值、第二阈值、第三阈值、第五阈值和第六阈值,以更好地服务于人们获取开放式互动平台的信息和有效互动沟通的需求。本领域技术人员应能理解,所述信息发布行为的统计及更新方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
获取频度调整装置16用于根据所述子集的异常状态的检测情况,调整获取所述信息发布行为的获取频度;并根据更新后的获取频度,获取所述信息发布行为。具体地,当所述子集的异常状态的检测次数低于降频阈值时,降低所述获取频度;当所述子集的异常状态的检测次数超过升频阈值时,提高所述获取频度。在开放式互动平台的互动版块的一个优选的实施例中,当检测装置13检测到所述互动版块处于异常状态时,将此异常状态的检测次数反馈给获取频度调整装置16,获取频度调整装置16判断其是否超过升频阈值,若超过,自动提高其获取频度,并将此提高后的获取频度反馈给获取装置11,获取装置11以此提高后的获取频度进行获取信息发布行为,以增加检测的及时性和准确性。本领域技术人员应能理解,所述获取频度调整的方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图5示出根据本发明另一个方面的方法流程图,其示出检测开放式互动平台中子集的异常状态的方法。
具体地,在步骤S1中,子集异常状态检测设备1获取与开放式互动平台的子集相关的信息发布行为。也即,用户通过用户设备2中的浏览器软件或客户端软件登录开放式互动平台,并通过与用户设备2的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在该开放式互动平台的子集进行信息发布等操作。以键盘为例,当用户在其所登录的开放式互动平台的子集的发布主信息或从信息的输入窗口中敲击键盘按键进行输入时,子集异常状态检测设备1通过页面技术,如JSP、ASP、PHP技术,实时地获取用户敲击的按键序列,并记录为该用户发布的主信息或从信息,同时,获取用户登录开放式互动平台所使用的用户名(登录ID)或IP。本领域技术人员应能理解上述几种页面技术仅为举例,其他现有的或今后可能出现的页面技术如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。优选地,子集异常状态检测设备1根据用户登录开放式互动平台所使用的用户名(登录ID)或IP,记录和合并用户通过不同的用户设备2在开放式互动平台的网络操作行为。优选地,子集异常状态检测设备1可以包括信息库101,以存储获取的信息发布行为,包括但不限于以下至少一项:a)用户的信息发布数量;b)信息发布频率;c)信息发布标题;d)信息发布内容;e)用户访问来源,例如用户登录开放式互动平台所使用的用户名(即登录ID)或IP;和f)用户行为模式,例如用户在该开放式互动平台停留的时间、用户访问历史、访问路径等。子集异常状态检测设备1也可以从信息库101中提取已存储的信息发布行为,进行进一步的识别。
在步骤S2中,子集异常状态检测设备1识别该开放式互动平台的子集的异常信息发布行为。具体地,子集异常状态检测设备1根据所获得的信息发布行为,识别其是否为异常信息发布行为。优选地,所述异常信息发布行为包括但不限于以下至少一项:
a)开放式互动平台中子集的时段信息发布数量高于第一阈值,所述第一阈值是指所述子集的时段信息发布数量阈值;
b)所述子集的时段信息发布频率高于第二阈值,所述第二阈值是指所述子集的时段信息发布频率阈值;
c)所述子集的时段信息发布数量占同时段点击率的百分比高于第三阈值,所述第三阈值是指所述子集的时段信息发布数量占同时段点击率的百分比阈值;
d)机器发布信息;
e)发布垃圾信息;
f)所述子集的垃圾信息数量高于第四阈值,所述第四阈值是指所述子集的垃圾信息数量阈值;
g)发布挖坟信息;
h)单个用户在所述子集连续发布信息的数量高于第五阈值,所述第五阈值是指单个用户在所述子集连续发布信息的数量阈值;
i)所述子集中连续发布近似信息的数量高于第六阈值,所述第六阈值是指所述子集中连续发布近似信息的数量阈值。
在此,时段信息发布数量是指在一定的时间段内的信息发布数量的统计结果。例如,某开放式互动平台的一个互动版块的第一阈值为一分钟发布80个主信息或从信息,而此时在一分钟内所有用户共发布了100个主信息或从信息,则此信息发布行为被识别为异常信息发布行为。相似地,时段信息发布频率定义为信息发布数量除以时间,例如100个/分钟;若第二阈值为80个/分钟,则所述信息发布行为被识别为异常信息发布行为。又如,某开放式互动平台的一个互动版块在一分钟内的点击率为100,该分钟内信息发布数量为50个,则所述时段信息发布数量占同时段点击率的百分比为50%;若第三阈值为50%,超过所述阈值,则被识别为异常信息发布行为。所述识别装置12可以统计所述信息发布行为中单个用户、单个设备、或近似信息的信息发布频率;当所述信息发布频率高于用户信息发布频率时,确定相应的所述信息发布行为包括机器发布信息。一般而言,受生理限制,单个用户的信息发布频率存在一个极限值,例如,单个用户一分钟最多发布10个主信息或从信息,当超过此极限值时,可以识别为机器发布信息。所述识别装置12也可以检测与所述信息发布行为相关的信息是否包括垃圾信息特征;当所述与信息发布行为相关的信息包括垃圾信息特征时,确定相应的所述信息发布行为包括发布垃圾信息。其中,所述垃圾信息特征包括但不限于:内容与所述子集无关、含有脏词、含有已被记录为垃圾信息的内容或由已被记录为垃圾信息发布者的用户发布。当所述子集的垃圾信息数量高于第四阈值时,也被识别为异常信息发布行为。所述识别装置还可以检测与所述信息发布行为相关的从信息是否超出对应主信息的回复时限;当所述与信息发布行为相关的从信息超出对应主信息的回复时限时,确定相应的所述信息发布行为包括发布挖坟信息。例如,某主信息的最后回复或更新日期距离此次回复所述主信息(即发布对应于该主信息的从信息)的时间为一年,则可以被识别为发布挖坟信息。判断方法h中所述单个用户在所述子集连续发布信息的数量是指在所述子集中同一用户在一定的时间段内连续发布的信息数量,所述时间段较之判断是否为机器发帖时的时间段宽松,所述发布信息行为可能引致刷屏。判读方法i中所述子集中连续发布近似信息可以由不同用户在一定的时间段内连续发布,同样可能引致刷屏。本领域技术人员应能理解上述几种判断异常信息发布行为的方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S3中,子集异常状态检测设备1根据识别的异常信息发布行为,检测所述子集的异常状态。所述异常状态包括但不限于以下至少一项:a)互动版块爆胀;b)垃圾互动版块;c)互动版块刷屏;d)主信息挖坟;或e)主信息刷屏等。在此,互动版块爆胀是指开放式互动平台的一个互动版块在短时间内突增大量新的无意义无内容或与该互动版块主题不相关的主信息或从信息;垃圾互动版块是指所述互动版块中与该互动版块的主题相关的主信息或从信息所占比例小于对应的阈值;互动版块刷屏是指所述互动版块在短时间内出现大量相同的主信息,使之基本充满整个屏幕,包括但不限于文字刷屏、图片刷屏和清空刷屏;主信息挖坟是指回复超过回复时限并仍得到保留的主信息,使之到达互动版块列表的前列;主信息刷屏是指在短时间内对主信息回复大量相同或无意义的从信息,使之基本充满整个屏幕,包括但不限于文字刷屏、图片刷屏和清空刷屏。互动版块中子集的所述异常状态影响用户正常使用和浏览开放式互动平台。
以百度贴吧中的世界杯吧为例,当所述世界杯吧在一分钟内突然增加了100个新的主帖(即主信息),其中有90个主帖无意义无内容,且与“世界杯”这一主题不相符合,则可被视为互动版块爆胀的一种典型现象;若所述世界杯吧中总共只有主帖100个,并且,其中与“世界杯”这一主题相关的主帖只有10个,也即,与该吧主题相符的主帖占总的主帖数量的比例为10%,若阈值设为50%,则可被视为垃圾互动版块的一种典型现象;若所述世界杯吧的页面大量主帖都是同一标题或近似标题,则可被视为互动版块刷屏的一种典型现象;挖坟是指回复超过回复时限并仍得到保留的主帖,使之到达贴吧列表的前列,例如,世界杯吧中尾页的一个主帖“体育经典声音”是在2005.12.31创建的,最后回复日期是2006.01.02,若回复该主帖,则此主帖又到达首页,影响其他用户正常使用和浏览贴吧,该信息发布行为视为发布挖坟信息;若针对该主帖回复大量无意义的回帖(即从信息),使其他用户无法正常阅读该主帖的其他有意义的回帖,则可被视为主信息刷屏。
具体地,在开放式互动平台的互动版块的一个优选的实施例中,当异常信息发布行为包括以下至少一项时:a)所述互动版块的时段信息发布数量高于第一阈值;b)所述互动版块的时段信息发布频率是否高于第二阈值;c)所述互动版块的时段信息发布数量占同时段点击率的百分比高于第三阈值;子集异常状态检测设备1可以检测所述互动版块处于互动版块爆胀的异常状态。在开放式互动平台的互动版块的另一个优选的实施例中,当异常信息发布行为包括所述互动版块的垃圾信息数量高于第四阈值时,可以检测所述互动版块处于垃圾互动版块的异常状态。在开放式互动平台的互动版块的又一个优选的实施例中,当异常信息发布行为包括以下至少一项时:a)单个用户在所述互动版块连续发布信息的数量高于第五阈值时;b)所述互动版块中连续发布近似信息的数量高于第六阈值;子集异常状态检测设备1可以检测所述互动版块处于互动版块刷屏的异常状态。
在开放式互动平台的互动版块的主信息的一个优选的实施例中,当异常信息发布行为包括以下至少一项时:a)单个用户在所述主信息中连续发布从信息的数量高于第五阈值时;b)所述主信息中连续发布近似从信息的数量高于第六阈值;子集异常状态检测设备1可以检测所述主信息处于主信息刷屏的异常状态。在开放式互动平台的互动版块的主信息的另一个优选的实施例中,当异常信息发布行为包括发布挖坟信息时;子集异常状态检测设备1可以检测所述主信息处于主信息挖坟的异常状态。所述发布挖坟信息根据与所述信息发布行为相关的从信息超出对应主信息的回复时限来确定。本领域技术人员应能理解上述几种检测开放式互动平台中子集的异常状态的方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图6示出根据本发明另一个优选实施例的方法流程图,其示出检测开放式互动平台中子集的异常状态的过程。具体地,在步骤S4中,子集异常状态检测设备1根据预设规则对所述子集的异常状态进行处理。所述处理包括对发布异常信息的用户的处理及对所述异常状态的子集的处理。例如,对于频发垃圾信息的用户自动封禁其ID或IP,并删除对应的垃圾信息;对机器发布信息的行为,自动封禁其ID或IP,并删除对应的信息;对于发布挖坟信息的用户,自动发出警告并删除对应的从信息,对于频发者可以自动封禁其ID或IP并删除对应的从信息;对被检测到正处于爆胀状态的开放式互动平台的子集,自动关闭该子集或限制用户对其进行信息发布行为;对垃圾互动版块,自动关闭或删除该版块。本领域技术人员应能理解,所述预设规则可以根据该开放式互动平台的情况进行适当的调整;上述几种处理方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,子集异常状态检测设备1可以对所述信息发布行为进行统计分析,确定所述第一阈值、所述第二阈值、所述第三阈值、所述第四阈值、所述第五阈值和所述第六阈值中的一项或多项阈值;并根据所述信息发布行为,更新所述一项或多项阈值中的至少一项。所述信息发布行为包括但不限于以下至少一项:a)用户的信息发布数量;b)信息发布频率;c)信息发布标题;d)信息发布内容;e)用户访问来源,例如用户登录开放式互动平台所使用的用户名(即登录ID)或IP;和f)用户行为模式,例如用户在该开放式互动平台停留的时间、用户访问历史、访问路径等。子集异常状态检测设备1根据更新后的阈值识别异常信息发布行为。在开放式互动平台的互动版块的一个优选的实施例中,子集异常状态检测设备1对获取到的信息发布行为进行统计分析,例如统计在所述互动版块处于正常状态下一分钟内的信息发布数量,并根据多个信息发布数量,取其中的最大值得到第一阈值;统计装置还可以对所述信息发布数量进行曲线统计分析,根据所述曲线的变化趋势适时调整及更新阈值,例如,当出现一个社会热点时,所述互动版块的访问量和信息发布数量都会相应提高,所述曲线有一个向上的变化趋势,此时统计装置可以提高及更新所述第一阈值。相似地,其他信息发布行为可以用同样的方法进行统计分析,并更新其对应的所述第二阈值、所述第三阈值、所述第四阈值、所述第五阈值和所述第六阈值。例如随着世界杯的开赛,世界杯吧的访问量、新的主帖量和回帖量开始激增,此时可以提高第一阈值、第二阈值、第三阈值、第五阈值和第六阈值,以更好地服务于人们获取开放式互动平台的信息和有效互动沟通的需求。本领域技术人员应能理解,所述信息发布行为的统计及更新方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,子集异常状态检测设备1可以根据所述子集的异常状态的检测情况,调整获取所述信息发布行为的获取频度;并根据更新后的获取频度,获取所述信息发布行为。具体地,当所述子集的异常状态的检测次数低于降频阈值时,降低所述获取频度;当所述子集的异常状态的检测次数超过升频阈值时,提高所述获取频度。在开放式互动平台的互动版块的一个优选的实施例中,当子集异常状态检测设备1检测到所述互动版块处于异常状态时,判断此异常状态的检测次数是否超过升频阈值,若超过,自动提高其获取频度,并以此提高后的获取频度进行获取信息发布行为,以增加检测的及时性和准确性。本领域技术人员应能理解,所述获取频度调整的方法仅为举例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (26)

1.一种用于检测开放式互动平台中子集的异常状态的方法,该方法包括以下步骤:
a获取与开放式互动平台的子集相关的信息发布行为;
b根据所述信息发布行为,识别异常信息发布行为;
c根据所述异常信息发布行为,检测所述子集的异常状态。
2.根据权利要求1所述的方法,其中,该方法还包括:
d根据预设规则对所述子集的异常状态进行处理。
3.根据权利要求1或2所述的方法,其中,所述子集包括以下各项中的至少一项:
-所述开放式互动平台的一个互动版块;
-所述开放式互动平台的一个互动版块中的一个主信息。
4.根据权利要求3所述的方法,其中,所述子集的异常状态包括以下各项中的至少一项:
-互动版块爆胀;
-垃圾互动版块;
-互动版块刷屏;
-主信息挖坟;
-主信息刷屏。
5.根据权利要求1至4中任一项所述的方法,其中,所述异常信息发布行为包括以下各项中的至少一项:
-所述子集的时段信息发布数量高于第一阈值;
-所述子集的时段信息发布频率高于第二阈值;
-所述子集的时段信息发布数量占同时段点击率的百分比高于第三阈值;
-机器发布信息;
-发布垃圾信息;
-所述子集的垃圾信息数量高于第四阈值;
-发布挖坟信息;
-单个用户在所述子集连续发布信息的数量高于第五阈值;
-所述子集中连续发布近似信息的数量高于第六阈值。
6.根据权利要求5所述的方法,其中,所述步骤b还包括:
-统计所述信息发布行为中单个用户、单个设备、或近似信息的信息发布频率;
-当所述信息发布频率高于第七阈值时,确定相应的所述信息发布行为包括机器发布信息。
7.根据权利要求5或6所述的方法,其中,所述步骤b还包括:
-检测与所述信息发布行为相关的信息是否包括垃圾信息特征;
-当所述与信息发布行为相关的信息包括垃圾信息特征时,确定相应的所述信息发布行为包括发布垃圾信息。
8.根据权利要求7所述的方法,其中,所述垃圾信息特征包括以下各项中的至少一项:
-内容与所述子集无关;
-含有脏词;
-含有已被记录为垃圾信息的内容;
-由已被记录为垃圾信息发布者的用户发布。
9.根据权利要求5至8中任一项所述的方法,其中,所述步骤b还包括:
-检测与所述信息发布行为相关的从信息是否超出对应主信息的回复时限;
-当所述与信息发布行为相关的从信息超出对应主信息的回复时限时,确定相应的所述信息发布行为包括发布挖坟信息。
10.根据权利要求5至9中任一项所述的方法,其中,该方法还包括:
e对所述信息发布行为进行统计分析,确定所述第一阈值、所述第二阈值、所述第三阈值、所述第四阈值、所述第五阈值和所述第六阈值中的一项或多项阈值。
11.根据权利要求10所述的方法,其中,所述步骤e还包括:
-根据所述信息发布行为,更新所述一项或多项阈值中的至少一项。
12.根据权利要求1至11中任一项所述的方法,其中,该方法还包括步骤f:
-根据所述子集的异常状态的检测情况,调整获取所述信息发布行为的获取频度;
-根据更新后的获取频度,获取所述信息发布行为。
13.根据权利要求12所述的方法,其中,所述步骤f还包括:
-当所述子集的异常状态的检测次数低于降频阈值时,降低所述获取频度;
-当所述子集的异常状态的检测次数超过升频阈值时,提高所述获取频度。
14.一种用于检测开放式互动平台中子集的异常状态的设备,该设备包括:
获取装置,用于获取与开放式互动平台的子集相关的信息发布行为;
识别装置,用于根据所述信息发布行为,识别异常信息发布行为;
检测装置,用于根据所述异常信息发布行为,检测所述子集的异常状态。
15.根据权利要求14所述的设备,其中,该设备还包括:
处理装置,用于根据预设规则,对所述子集的异常状态进行处理。
16.根据权利要求14或15所述的设备,其中,所述子集包括以下各项中的至少一项:
-所述开放式互动平台的一个互动版块;
-所述开放式互动平台的一个互动版块中的一个主信息。
17.根据权利要求16所述的设备,其中,所述子集的异常状态包括以下各项中的至少一项:
-互动版块爆胀;
-垃圾互动版块;
-互动版块刷屏;
-主信息挖坟;
-主信息刷屏。
18.根据权利要求14至17中任一项所述的设备,其中,所述异常信息发布行为包括以下各项中的至少一项:
-所述子集的时段信息发布数量高于第一阈值;
-所述子集的时段信息发布频率高于第二阈值;
-所述子集的时段信息发布数量占同时段点击率的百分比高于第三阈值;
-机器发布信息;
-发布垃圾信息;
-所述子集的垃圾信息数量高于第四阈值;
-发布挖坟信息;
-单个用户在所述子集连续发布信息的数量高于第五阈值;
-所述子集中连续发布近似信息的数量高于第六阈值。
19.根据权利要求18所述的设备,其中,所述识别装置还用于:
-统计所述信息发布行为中单个用户、单个设备、或近似信息的信息发布频率;
-当所述信息发布频率高于第七阈值时,确定相应的所述信息发布行为包括机器发布信息。
20.根据权利要求18或19所述的设备,其中,所述识别装置还用于:
-检测与所述信息发布行为相关的信息是否包括垃圾信息特征;
-当所述与信息发布行为相关的信息包括垃圾信息特征时,确定相应的所述信息发布行为包括发布垃圾信息。
21.根据权利要求20所述的设备,其中,所述垃圾信息特征包括以下各项中的至少一项:
-内容与所述子集无关;
-含有脏词;
-含有已被记录为垃圾信息的内容;
-由已被记录为垃圾信息发布者的用户发布。
22.根据权利要求18至21中任一项所述的设备,其中,所述识别装置还用于:
-检测与所述信息发布行为相关的从信息是否超出对应主信息的回复时限;
-当所述与信息发布行为相关的从信息超出对应主信息的回复时限时,确定相应的所述信息发布行为包括发布挖坟信息。
23.根据权利要求18至22中任一项所述的设备,其中,该设备还包括一个统计装置,用于:
e对所述信息发布行为进行统计分析,确定所述第一阈值、所述第二阈值、所述第三阈值、所述第四阈值、所述第五阈值和所述第六阈值中的一项或多项阈值。
24.根据权利要求23所述的设备,其中,所述统计装置还用于:
-根据所述信息发布行为,更新所述一项或多项阈值中的至少一项。
25.根据权利要求14至24中任一项所述的设备,其中,该设备还包括一个获取频度调整装置,用于:
-根据所述子集的异常状态的检测情况,调整获取所述信息发布行为的获取频度;
-根据更新后的获取频度,获取所述信息发布行为。
26.根据权利要求要求25所述的设备,其中,所述获取频度调整装置还用于:
-当所述子集的异常状态的检测次数低于降频阈值时,降低所述获取频度;
-当所述子集的异常状态的检测次数超过升频阈值时,提高所述获取频度。
CN2010102141769A 2010-06-29 2010-06-29 一种检测开放式互动平台中子集的异常状态的方法与设备 Pending CN102315978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102141769A CN102315978A (zh) 2010-06-29 2010-06-29 一种检测开放式互动平台中子集的异常状态的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102141769A CN102315978A (zh) 2010-06-29 2010-06-29 一种检测开放式互动平台中子集的异常状态的方法与设备

Publications (1)

Publication Number Publication Date
CN102315978A true CN102315978A (zh) 2012-01-11

Family

ID=45428815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102141769A Pending CN102315978A (zh) 2010-06-29 2010-06-29 一种检测开放式互动平台中子集的异常状态的方法与设备

Country Status (1)

Country Link
CN (1) CN102315978A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103838759A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 基于sns环境的非正常行为过滤方法及装置
CN106774235A (zh) * 2015-11-25 2017-05-31 西门子(中国)有限公司 一种模拟输入信道的异常状态诊断装置和方法
CN107046550A (zh) * 2017-06-14 2017-08-15 微梦创科网络科技(中国)有限公司 一种异常登录行为的检测方法及装置
CN111090813A (zh) * 2019-12-20 2020-05-01 腾讯科技(深圳)有限公司 一种内容处理方法、装置和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101510879A (zh) * 2009-03-26 2009-08-19 腾讯科技(深圳)有限公司 一种垃圾内容过滤的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101510879A (zh) * 2009-03-26 2009-08-19 腾讯科技(深圳)有限公司 一种垃圾内容过滤的方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838759A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 基于sns环境的非正常行为过滤方法及装置
CN103838759B (zh) * 2012-11-23 2017-04-26 阿里巴巴集团控股有限公司 基于sns环境的非正常行为过滤方法及装置
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN106774235A (zh) * 2015-11-25 2017-05-31 西门子(中国)有限公司 一种模拟输入信道的异常状态诊断装置和方法
CN107046550A (zh) * 2017-06-14 2017-08-15 微梦创科网络科技(中国)有限公司 一种异常登录行为的检测方法及装置
CN107046550B (zh) * 2017-06-14 2020-07-07 微梦创科网络科技(中国)有限公司 一种异常登录行为的检测方法及装置
CN111090813A (zh) * 2019-12-20 2020-05-01 腾讯科技(深圳)有限公司 一种内容处理方法、装置和计算机可读存储介质
CN111090813B (zh) * 2019-12-20 2021-09-28 腾讯科技(深圳)有限公司 一种内容处理方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN101957834B (zh) 一种基于用户特征进行内容推荐的方法与设备
CN101820366B (zh) 一种基于预取的钓鱼网页检测方法
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN102316130B (zh) 一种基于用户的行为判断其与好友的亲疏度的方法与设备
CN105989074A (zh) 一种通过移动设备信息进行推荐冷启动的方法和装置
CN105005594A (zh) 异常微博用户识别方法
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN103150335A (zh) 一种基于联合聚类的煤矿舆情监测系统
CN102200987A (zh) 一种基于用户账号行为分析的查找马甲账号的方法及系统
CN102315978A (zh) 一种检测开放式互动平台中子集的异常状态的方法与设备
CN109242553A (zh) 一种用户行为数据推荐方法、服务器及计算机可读介质
CN107516235A (zh) 商品偏好预估方法和装置
CN102315952A (zh) 一种用于社区网络中检测垃圾帖子的方法与设备
CN102831206B (zh) 基于浏览器的微博社交方法及装置
CN102314423A (zh) 一种用于检测开放式互动平台中子集的热度的方法与设备
Mengshoel et al. Will we connect again? machine learning for link prediction in mobile social networks
CN107590558A (zh) 一种基于多层集成学习的微博转发预测方法
CN107368499B (zh) 一种客户标签建模及推荐方法及装置
CN102819580A (zh) 互联网第三方媒体网站广告监控方法及系统
CN112488163A (zh) 一种异常账号的识别方法、装置、计算机设备及存储介质
Bailurkar et al. Detecting bots to distinguish hate speech on social media
CN114841526A (zh) 一种高风险用户的检测方法、计算设备及可读存储介质
CN107481039A (zh) 一种事件处理方法及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20120111

RJ01 Rejection of invention patent application after publication