CN103580939B - 一种基于账号属性的异常消息检测方法及设备 - Google Patents
一种基于账号属性的异常消息检测方法及设备 Download PDFInfo
- Publication number
- CN103580939B CN103580939B CN201210266045.4A CN201210266045A CN103580939B CN 103580939 B CN103580939 B CN 103580939B CN 201210266045 A CN201210266045 A CN 201210266045A CN 103580939 B CN103580939 B CN 103580939B
- Authority
- CN
- China
- Prior art keywords
- factor
- message
- account
- account attribute
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种异常消息检测方法,包括:将被检测消息的文本划分为多个文本段;获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。通过将消息的发表账号属性与无差别文本分割处理结合使用贝叶斯算法,从而实现了对微博批量垃圾消息的有效限制,同时提高了垃圾消息处理的灵活性。
Description
技术领域
本发明涉及计算机网络领域,特别涉及一种基于账号属性的异常消息检测方法及系统。
背景技术
网络即时通讯(IM,Instant Massager)工具发展到今天,已经被大多数的网络用户所接受,并成为网络用户必不可少的软件工具之一,不但在平时的休闲娱乐中使用,而且在用户的工作中也得到了广泛使用。在IM软件中,主要实现的是一对一的好友单独聊天以及一对N的群或者讨论组的消息聊天模式。随着互联网应用的不断发展,类似推特(twitter)的微博应用也在不断发展壮大。
微博是微型博客的简称,其信息传递效率高,门槛低。通过微博用户可以非常快速的进行信息的传播与传递,实现用户消息聊天模式从一对一、一对N到一对无穷的一种跨越。这种一对无穷的模式意味着一个人可以对无穷多个人进行消息的传播,同时一个人也可以收听万级以上的用户的消息。但与此同时,这种大用户量的应用必然也会被许多的广告发布者利用,通过微博向用户转发大量的广告或是垃圾消息,这不仅造成了网络资源的浪费,同时还会影响用户的产品使用体验。
现有技术中,微博运营商通过事先收集大量的垃圾消息和非垃圾消息,建立垃圾消息和非垃圾消息集,在接收到新的消息后,首先对被检测消息进行分词处理,然后再对这些词分别求其在正常消息和垃圾消息样本中出现的次数,统计其属于垃圾消息的概率,进而根据贝叶斯公式计算整条消息属于垃圾消息的概率。
然而,在实际应用当中,发明人发现以上方法有很大的缺点,无法覆盖到大部分的微博的垃圾消息,主要原因如下:
(1)、难以准确获取垃圾消息样本库:
垃圾消息样本库一般只能靠人工或者是其他一些行为检测算法发现,发现的时间往往有数小时的延迟,并且都存在误判的情况。这样对于样本的完整性和准确性都有很大的影响,直接导致每个词的垃圾消息概率与真实值有极大的偏差。
(2)、现有的垃圾消息或广告针对分词做规避处理,导致无法正确分词:
传统的检测方法依赖于对被检测消息的分词处理,因此垃圾消息发送者在发送垃圾消息或广告前往往会针对以上情况对消息进行处理:在词句中间增加干扰符号,或利用孤僻的谐音字代替常用字。从而导致消息在分词之后变成了一个个孤立的字,无法与样本库中的词准确匹配。
发明内容
本发明提供一种异常消息检测方法和设备,直接根据发表账号的属性特征,确定发送正常消息账号和垃圾消息账号的属性异常概率;同时将消息文本进行划分,通过计算划分文本段的历史发表的总账号数与当前账号属性的账号数的因子,结合属性异常概率进行贝叶斯计算。
为达到上述目的,本发明一方面提供了一种异常消息检测方法,包括:
将被检测消息的文本划分为多个文本段;
获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;
根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;
根据所述每一文本段对应各账号属性的第一因子确定第二因子;
根据所述第二因子确定所述被检测消息是否为异常消息。
优选地,所述发表比例参数,具体为总共发表过所述文本段的用户数与在所述账号属性下发表过所述文本段的用户数的比值。
优选地,根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子,具体包括:获取各所述账号属性对应的异常概率,将各所述账号属性对应的发表比例参数与所述异常概率的乘积作为所述文本段对应各账号属性的第一因子。
优选地,根据所述每一文本段对应各账号属性的第一因子计算第二因子,具体包括:根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子。
优选地,根据所述第二因子确定所述被检测消息是否为异常消息,具体包括:判断所述被检测消息在一个或多个所述账号属性下的第二因子是否超过阈值,若是,则确定所述被检测消息为异常消息;或,判断所述被检测消息各所述账号属性的第二因子之乘积是否超过阈值,若是,则确定所述被检测消息为异常消息。
优选地,根据所述每一文本段对应各账号属性的第一因子计算第二因子,还包括:计算所述文本段所有账号属性对应的第一因子的总乘积;根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。
优选地,根据所述被检测消息的第二因子确定所述被检测消息是否为异常消息,具体包括:判断所述被检测消息的第二因子是否超过阈值,若是,则确定所述被检测消息为异常消息。
优选地,所述用于计算的贝叶斯公式,具体为:P(A|t1,t2,t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)],其中,P(A|t1,t2,t3……tn)为所述第二因子,PN为所述第一因子或所述第一因子的总乘积。
另一方面,本发明还提供了一种基于账号属性的异常消息检测设备,包括:划分模块,用于将被检测消息的文本划分为多个文本段;获取模块,用于获取每一文本段的一个或多个账号属性;确定模块,分别与所述划分模块及所述获取模块相连,用于确定对应于所述每一文本段各账号属性的发表比例参数,根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。
优选地,所述确定模块,具体用于确定总共发表过所述文本段的用户数与在所述账号属性下发表过所述文本段的用户数的比值。
优选地,所述获取模块,还用于获取各所述账号属性对应的异常概率。
优选地,还包括计算模块,其中所述计算模块,用于计算各所述账号属性对应的发表比例参数与所述异常概率的乘积,和/或;计算所述每一文本段所有账号属性对应的发表比例参数与所述异常概率的总乘积。
优选地,所述计算模块,还用于根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子;或,根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。
优选地,还包括存储模块,其中所述存储模块与所述划分模块相连,用于接收并缓存所述被检测消息。
与现有技术相比,本发明具有以下优点:
通过应用本发明的技术方案,将消息的发表账号属性与无差别文本分割处理结合使用贝叶斯算法,无需再收集正常样本与垃圾消息样本,同时也尽可能地保留了异常消息的原始特征,从而实现了对微博批量垃圾消息的有效限制,由于该异常消息的处理过程不需要人工参与或系统协助提供样本,因此完全实现了自学习智能化识别处理,提高了垃圾消息处理的灵活性。
附图说明
图1为本发明提出的一种异常消息检测方法流程图;
图2为本发明在具体应用场景下提出的一种异常消息检测方法流程图;
图3为现有技术中一种异常消息的具体示例图;
图4为本发明在具体应用场景下提出的另一种异常消息检测方法流程图;
图5为本发明提出的一种异常消息检测设备结构图。
具体实施方式
如背景技术所述,由于对垃圾消息样本库的即时更新维护和针对人为设置的分词干扰在现有技术中并没有明确的实现方案,因此现有的异常消息检测技术无法覆盖到大部分的微博的垃圾消息,从而不能实现针对异常消息的即时有效的检测。
为了解决上述问题,本发明提供了一种异常消息检测方法,其中不再需要预先建立及维护正常样本或垃圾消息样本库,而是直接根据发表账号的属性特征,确定发送正常消息账号和垃圾消息账号的属性异常概率;同时亦不再对新进入的消息进行特定的分词,而是直接将消息文本进行划分,通过计算划分文本段的历史发表的总账号数与当前账号属性的账号数的比值,结合属性异常概率进行贝叶斯计算。
如图1所述,为本发明所提出的一种异常消息检测方法的流程示意图,具体包括以下步骤:
步骤S101、将被检测消息的文本划分为多个文本段;
与现有技术所不同的是,在该步骤中,对于被检测消息文本的划分并不涉及特定的划分规则,也无需参考任何样本库,所划分出来的各文本段之间均是无差别的;同时,基于长短不一的消息文本所划分的文本段的具体数量也可根据实际情况灵活调节,以能够达到最佳统计效果为准,这样的改变并不影响本发明的保护范围。
步骤S102、获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;
由于多个文本段均是从同一个被检测消息文本所划分出来的,其彼此之间共享同一个发表账号,因此各文本段账号属性的获取方式可以存在很多种形式,这对本发明的保护范围并没有影响。
步骤S103、根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;
由于当前文本段的每一个账号属性都对应着一个第一因子,因此在该文本段下同时存在着多个第一因子,其分别对应该文本段的各个账号属性;这样做的好处是在后续的判断过程中本领域技术人员可以分别根据各个不同的账号属性进行整体性的分析或针对性的处理。
步骤S104、根据所述每一文本段对应各账号属性的第一因子确定第二因子;
需要具体指出的是,在需要同时根据多个账号属性进行统计计算的情况下,该第二因子及其相应的获取流程具体包括以下两种方法:
方法一、针对每一个文本段的各个账号属性的第一因子确定第二因子:
在该情况下,本步骤中将步骤S103中各个第一因子作为计算输入值,对应输出多个数值结果作为被检测消息对应于各账号属性的第二因子(为使叙述更为清楚明确,以下“第二因子”均以“恶意概率”指代)。
方法二、基于每一个文本段的所有账号属性下第一因子的总乘积确定第二因子:
在该情况下,针对当前文本段各个账号属性所作的初步统计计算结果(即所有的第一因子)将被汇总并相乘,即每一个文本段下只存在唯一一个与之相对应的总乘积,根据概率学原理,该乘积结果是一个从整体上无差别地反映当前文本段是否属于垃圾消息的概率值,或是输出一个反映被检测消息整体恶意概率的数值结果。因此,该方法可适用于需要同时处理大量消息的场合,为快速处理消息进行准备。
步骤S105、根据所述第二因子确定所述被检测消息是否为异常消息。
与现有技术相比,本发明具有以下优点:
通过应用本发明的技术方案,将消息的发表账号属性与无差别文本分割处理结合使用贝叶斯算法,无需再收集正常样本与垃圾消息样本,同时也尽可能地保留了异常消息的原始特征,从而实现了对微博批量垃圾消息的有效限制,由于该异常消息的处理过程不需要人工参与或系统协助提供样本,因此完全实现了自学习智能化识别处理,提高了垃圾消息处理的灵活性。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
本发明提出了一种异常消息检测方法,通过引入账号属性,结合无差别文本分割处理,可以在无需事先导入样本的前提下,实现对垃圾消息的有效限制。
如图2所示,为本发明具体实施例提供的一种异常消息检测方法流程图,具体包括以下步骤:
步骤S201,接收并缓存被检测消息。
具体地,系统发现如图3所示的一条消息,将其缓存至内存中,准备下一步的处理。
步骤S202,将被检测消息文本划分为多个文本段。
在本实施例中,以每3-4个字节一段对消息文本进行分段。因为在GBK模式下,每个中文占两个字节,而一个英文占一个字节。如果是纯英文的,则一次可以切分4个字节,4个英文字母;有一个中文一个英文的,则切分3个字节,一个英文字母一个中文;全是中文的则切分4个字节,2个中文。具体操作示例如下:
将图3中的消息文本进行分段,分成“了放”、“知从”、“AB(此处代表四个字节字符串)”、“最火”、“AB”、“爆的”、“荿AB”、“人游”、“AB戏”、“男女”、“老少”、“都上”、“AB”、“瘾来”、“挑AB”、“战吧”、“地AB”、“址”、“AB.CDE.COM”、“了放”、“知从”、“o(∩_∩)o”、“了放”、“知从”、“AB 24”。
需要指出的是,在以上述方法切分完毕后,还将根据最后一个文字是中文还是英文,依次右移2个或1个字节。这样做的目的是能够对文本逐项分割,从而可涉及到所有可能的组合,这样即使有很多的文字变换或分割干扰,都不会影响到文本段的无差别性。
步骤S203,获取被检测消息的账号属性。
由于所划分的文本段均来自于同一个账号所发表的消息,因此本步骤中在获取了被检测消息的账号属性后,即相当于获取对应各文本段的各账号属性。其中,所获取的账号属性包括但不限于:新注册、注册地址、发表时间等。
同时,本领域技术人员可以理解,具体实现时,该获取账号属性的步骤与步骤S202没有严格的先后次序,二者可交换步骤或并列穿插执行。
步骤S204,统计对应于每一文本段各账号属性的发表比例参数η。
本步骤中,首先将分出的文本段存入哈希表中,对这个文本段的历史发表的用户总量和各账号属性下的用户总量做统计。例如:若当前的账号属性为新注册,则某一条字节段需要记录的量包括:总共发表过该字节段的用户数m,和总共发表过该字节段的新用户数n。然后,通过每个哈希表中的文本段的属性统计,根据η=n/m得到这个文本段在该“新注册”账号属性下的发表比例参数。例如,历史上发表过“了放”这个文本段的帐号有100个,其中属于“新注册”这个账号属性的帐号有90个,那么“了放”这个文本段对应“新注册”这个账号属性的发表比例参数就是90%。
相应地,针对该文本段其他账号属性的发表比例参数的获取工作亦如上所述,其中有关哈希表的数据存储读取及查找统计可参考现有的技术,在此申请人不再赘述。
步骤S205,获取各所述账号属性对应的异常概率ξ。
由于被检测消息的发表账号拥有着多种账号属性,因此可根据以往的分析经验为每种账号属性赋予其对应的异常概率;例如,经过对以往垃圾账号的分析了解发现,目前发送垃圾消息的帐号基本都是广告者自己新注册的,那么该“新注册”账号属性对应的异常概率可设为90%;广告发送者一般选择凌晨的时段发送垃圾消息,那么“发表时间在00:00-4:00之间”账号属性对应的异常概率可设为90%;另一方面,为了能够对垃圾消息的多种特征进行分析研究,可预先设置一个账号属性的异常概率,根据其他账号属性及最终结果进行调整,比如将“发送地点为A城市”该账号属性对应的异常概率预设为50%,若最终结果表明该消息为垃圾消息,则表明广告发布者主要集中在该城市,此时可将“发送地点为A城市”对应的异常概率适当地上调。
此外,还可预先根据以往处理结果获取垃圾消息的几个比较鲜明的账号属性(例如:新注册、发表时间在凌晨),直接将其对应的异常概述设为1,这样便可实现对大量消息进行快速处理。
步骤S206,计算每一文本段各账号属性对应的第一因子Pi。
基于步骤S204中各账号属性对应的发表比例参数η,以及步骤S205中各账号属性对应的异常概率ξ,本步骤中以此二者相乘,将各账号属性下的相应乘积作为各账号属性对应的第一因子Pi。例如,“新注册”该账号属性对应的发表比例参数η=0.9,其账号属性对应的异常概率为ξ=1(即100%),则“新注册”该账号属性对应的第一因子Pi=η*ξ=90%。具体地,当前文本段各账号属性第一因子Pi的形式可如表1所示:
账号属性 | 发表比例参数η | 异常概率ξ | 第一因子Pi |
新注册 | η1 | ξ1 | η1*ξ1 |
发表时间 | η2 | ξ2 | η2*ξ2 |
发表地点 | η3 | ξ3 | η3*ξ3 |
…… | ηn | ξn | ηn*ξn |
表1、当前文本段各账号属性第一因子Pi计算表
步骤S207,根据每一文本段各账号属性对应的第一因子Pi计算被检测消息在各账号属性下的恶意概率。
根据步骤S206中的结果,假设共有N个文本段:t1,t2,t3…tn,每个文本段在“新注册”该账号属性下对应的第一因子分别为P1,P2,P3…PN。计算贝叶斯公式如下:
P(A|t1,t2,t3…tn)=(P1*P2*…PN)/[P1*P2*…PN+(1-P1)*(1-P2)*…(1-PN)],
其中,P(A|t1,t2,t3…tn)表示该被检测消息中同时出现这些文本段时,该被检测消息在“新注册”账号属性下为垃圾消息的恶意概率。假设当前所有文本段在“新注册”该账号属性下的第一因子都是90%,总共25段,那么该被检测消息在“新注册”账号属性下的的恶意概率:P=(0.9*25)/(0.9*25+0.1*25)=90%。
步骤S208,根据被检测消息在各账号属性下的的恶意概率判断被检测消息是否为异常消息。
例如,“新注册”账号属性对应的恶意概率P(A|t1,t2,t3…tn)值为90%,若设定被检测消息的任一账号属性的阈值为50%,据此则可以确定该消息为异常消息。
由于针对被检测消息的每一个账号属性都有相应的处理结果,因此可基于以上多个数值设立统一的处理方式,或是分别根据各账号属性设立相应的阈值,或是采取更为多样化的规则进行处理分析,这些均可根据实际情况进行调整,具体的判断依据及处理方式并不影响本发明的保护范围。
如图4所示,图4为本发明另一具体实施例提供的一种基于账号属性的异常消息检测方法流程图,该具体实施例中的步骤S401-S406与上一实施例所记载的步骤S201-S206完全对应且相同,步骤S407-S408具体执行过程如下:
步骤S407,计算每一文本段对应各账号属性的第一因子的总乘积PN。
与步骤S207不同的是,在本步骤中,之前所获取的每一文本所有账号属性的发表比例参数η及该账号属性对应的异常概率ξ将被汇总相乘,根据概率学原理,该唯一一个与当前文本段相对应的总乘积PN将从整体上无差别地反映当前文本段是否属于垃圾消息。例如,假设当前文本段下有“新注册”及“发表时间在00:00-4:00之间”两个账号属性,“新注册”账号属性对应的发表比例参数η1=0.96,其账号属性对应的异常概率为ξ1=1(即100%),“发表时间在00:00-4:00之间”账号属性对应的发表比例参数η2=0.8,其账号属性对应的异常概率为ξ2=0.75(即75%),那么该文本段对应的总乘积PN=η1*ξ1*η2*ξ2=0.9。具体地,在存在多个账号属性的情况下,其形式可如表2所示:
表2、当前文本段各账号属性总乘积PN计算表
步骤S408,根据每一文本段对应各账号属性的第一因子的总乘积,计算被检测消息的恶意概率。
基于上一步骤所输出的每一文本段的总乘积PN,本步骤通过贝叶斯公式P(A|t1,t2,t3…tn)=(P1*P2*…PN)/[P1*P2*…PN+(1-P1)*(1-P2)*…(1-PN)]计算被检测消息的恶意概率;同样地,该恶意概率也将从整体上反映该被检测消息是否为异常消息。
例如,在上一步的计算中,当前文本段对应各账号属性的第一因子的总乘积为0.9,假设被检测消息所有的文本段的总乘积相同,总共有25个文本段,则该被检测消息的整体恶意概率为:P=(0.9^25)/(0.9^25+0.1^25)=90%。
步骤S409,根据被检测消息的恶意概率,判断被检测消息是否为异常消息。
基于步骤S408输出的数值的唯一性,因此可直接判断被检测消息的恶意概率是否大于预设阈值,从而确定该被检测消息是否为异常消息。
由此可见,在该具体实施例中,通过在计算每一文本段对应各账号属性的第一因子的总乘积PN的阶段将所有账号属性对应的发表比例参数η及其对应的异常概率ξ汇总相乘,从整体上统计每一文本段的总乘积PN及被检测消息的恶意概率,所以可直接根据步骤S306中的恶意概率是否超过阈值判断被检测消息是否为异常消息,其处理方式简便、快捷,适用于需要同时处理大量消息的场合。
为了实现上述的本发明所提出的技术方案,本发明还提出了一种异常消息检测设备,其具体结构示意图如图5所述,包括:
划分模块51,用于将被检测消息的文本划分为多个文本段;
需要指出的是,该划分模块对于被检测消息文本的划分并不涉及特定的划分规则,也无需参考任何样本库,所划分出来的各文本段之间均是无差别的;同时,基于长短不一的消息文本所划分的文本段的具体数量也可根据实际情况灵活调节,以能够达到最佳统计效果为准。
获取模块52,用于获取每一文本段的一个或多个账号属性;
由于多个文本段均是从同一个被检测消息文本所划分出来的,其彼此之间共享同一个发表账号,因此该获取模块52可直接根据被检测消息获取其账号属性,或针对每一文本段获取其账号属性,这样的改变并不影响本发明的保护范围。
确定模块53,分别与划分模块51及获取模块52相连,用于确定对应于所述每一文本段各账号属性的发表比例参数;根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。
与前述方法相应,确定模块53具体用于确定总共发表过所述文本段的用户数与在所述账号属性下发表过所述文本段的用户数的比值;而获取模块52同时还用于获取各所述账号属性对应的异常概率。
在具体的应用场景中,若需要同时根据多个账号属性进行计算时,上述设备还包括计算模块54,具体包括以下两种计算方法:
方法一、针对每一个文本段的各个账号属性分别确定第一因子,即计算各所述账号属性对应的发表比例参数与所述异常概率的乘积。
在该情况下,由于当前文本段的每一个账号属性都对应着一个第一因子,因此在该文本段下同时存在着多个第一因子,其分别对应该文本段的各个账号属性;这样做的好处是在后续的判断过程中本领域技术人员可以分别根据各个不同的账号属性进行整体性的分析或针对性的处理。
方法二、计算每一个文本段的对应各账号属性的第一因子的总乘积,即计算所述每一文本段所有账号属性对应的发表比例参数与所述异常概率的总乘积。
在该情况下,针对当前文本段各个账号属性所作的初步统计计算结果将被汇总并相乘,即每一个文本段下只存在唯一一个与之相对应的总乘积,根据概率学原理,该乘积结果是一个从整体上无差别地反映当前文本段是否属于垃圾消息的数值,因此,该方法可适用于需要同时处理大量消息的场合,为快速处理消息进行准备。
基于上述处理的差异性,计算模块54的后续处理流程也分为下述两种:
根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子;
或,根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。
进一步的,还包括存储模块55,与所述划分模块51相连,用于接收并缓存所述被检测消息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (14)
1.一种异常消息检测方法,其特征在于,
将被检测消息的文本划分为多个文本段;
获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;
根据所述发表比例参数和各账号属性对应的异常概率确定所述每一文本段对应各账号属性的第一因子;
根据所述每一文本段对应各账号属性的第一因子确定第二因子;
根据所述第二因子确定所述被检测消息是否为异常消息。
2.如权利要求1所述的方法,其特征在于,所述发表比例参数,具体为:
在所述账号属性下发表过所述文本段的用户数与总共发表过所述文本段的用户数的比值。
3.如权利要求2所述的方法,其特征在于,根据所述发表比例参数和各账号属性对应的异常概率确定所述每一文本段对应各账号属性的第一因子,具体包括:
获取各所述账号属性对应的异常概率,将各所述账号属性对应的发表比例参数与所述异常概率的乘积作为所述文本段对应各账号属性的第一因子。
4.如权利要求3所述的方法,其特征在于,根据所述每一文本段对应各账号属性的第一因子计算第二因子,具体包括:
根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子;
其中,所述用于计算的贝叶斯公式,具体为:
P(A|t1,t2,t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)],
其中,P(A|t1,t2,t3……tn)为所述第二因子,PN为所述第一因子。
5.如权利要求4所述的方法,其特征在于,根据所述第二因子确定所述被检测消息是否为异常消息,具体包括:
判断所述被检测消息在一个或多个所述账号属性下的第二因子是否超过阈值,若是,则确定所述被检测消息为异常消息;
或,判断所述被检测消息各所述账号属性的第二因子之乘积是否超过阈值,若是,则确定所述被检测消息为异常消息。
6.如权利要求3所述的方法,其特征在于,根据所述每一文本段对应各账号属性的第一因子计算第二因子,还包括:
计算所述文本段所有账号属性对应的第一因子的总乘积;
根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。
7.如权利要求6所述的方法,其特征在于,根据所述被检测消息的第二因子确定所述被检测消息是否为异常消息,具体包括:
判断所述被检测消息的第二因子是否超过阈值,若是,则确定所述被检测消息为异常消息。
8.如权利要求6所述的方法,其特征在于,所述用于计算的贝叶斯公式,具体为:
P(A|t1,t2,t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)],
其中,P(A|t1,t2,t3……tn)为所述第二因子,PN为所述第一因子的总乘积。
9.一种基于账号属性的异常消息检测设备,其特征在于,包括:
划分模块,用于将被检测消息的文本划分为多个文本段;
获取模块,用于获取每一文本段的一个或多个账号属性;
确定模块,分别与所述划分模块及所述获取模块相连,用于确定对应于所述每一文本段各账号属性的发表比例参数,根据所述发表比例参数和各账号属性对应的异常概率确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。
10.如权利要求9所述的设备,其特征在于,
所述确定模块,具体用于确定在所述账号属性下发表过所述文本段的用户数与总共发表过所述文本段的用户数的因子。
11.如权利要求10所述的设备,其特征在于,
所述获取模块,还用于获取各所述账号属性对应的异常概率。
12.如权利要求11所述的设备,其特征在于,还包括计算模块,其中:
所述计算模块,用于计算各所述账号属性对应的发表比例参数与所述异常概率的乘积,和/或;
计算所述每一文本段所有账号属性对应的发表比例参数与所述异常概率的总乘积。
13.如权利要求12所述的设备,其特征在于,
所述计算模块,还用于根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子;
或,根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。
14.如权利要求13所述的设备,其特征在于,还包括存储模块,其中:
所述存储模块与所述划分模块相连,用于接收并缓存所述被检测消息。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210266045.4A CN103580939B (zh) | 2012-07-30 | 2012-07-30 | 一种基于账号属性的异常消息检测方法及设备 |
PCT/CN2013/079935 WO2014019465A1 (zh) | 2012-07-30 | 2013-07-23 | 一种基于账号属性的异常消息检测方法、设备及存储介质 |
US14/608,353 US10200329B2 (en) | 2012-07-30 | 2015-01-29 | Method and device for detecting abnormal message based on account attribute and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210266045.4A CN103580939B (zh) | 2012-07-30 | 2012-07-30 | 一种基于账号属性的异常消息检测方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103580939A CN103580939A (zh) | 2014-02-12 |
CN103580939B true CN103580939B (zh) | 2018-03-20 |
Family
ID=50027235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210266045.4A Active CN103580939B (zh) | 2012-07-30 | 2012-07-30 | 一种基于账号属性的异常消息检测方法及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10200329B2 (zh) |
CN (1) | CN103580939B (zh) |
WO (1) | WO2014019465A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105306610B (zh) * | 2014-07-04 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 网络标识检测方法和装置 |
CN105718767B (zh) * | 2014-12-04 | 2020-01-31 | 阿里巴巴集团控股有限公司 | 一种基于风险识别的信息处理方法及装置 |
CN106162584B (zh) * | 2015-01-27 | 2020-04-24 | 北京奇虎科技有限公司 | 识别垃圾短信的方法、客户端、云端服务器和系统 |
CN105512094B (zh) * | 2015-12-04 | 2019-07-02 | 小米科技有限责任公司 | 异常短信模板确定方法及装置 |
CN105912935B (zh) * | 2016-05-03 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 广告检测方法及广告检测装置 |
CN106909296A (zh) * | 2016-06-07 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 数据的提取方法、装置及终端设备 |
CN111835696B (zh) * | 2019-04-23 | 2023-05-09 | 阿里巴巴集团控股有限公司 | 一种检测异常请求个体的方法及装置 |
CN110430245B (zh) * | 2019-07-17 | 2022-06-10 | 北京达佳互联信息技术有限公司 | 一种异常账户识别的控制方法、装置、设备及介质 |
CN112822686A (zh) * | 2019-11-18 | 2021-05-18 | 中国移动通信集团广东有限公司 | 一种异常短消息的检测方法、装置及电子设备 |
CN111507377B (zh) * | 2020-03-24 | 2023-08-11 | 微梦创科网络科技(中国)有限公司 | 一种养号帐号批量识别方法及装置 |
CN113141611B (zh) * | 2021-05-27 | 2022-09-16 | 哈尔滨工业大学(威海) | 一种基于多元异常行为特征检测云手机号码账户的方法 |
CN113098912B (zh) * | 2021-06-09 | 2022-10-14 | 北京达佳互联信息技术有限公司 | 用户账户异常的识别方法、装置、电子设备及存储介质 |
CN113890756B (zh) * | 2021-09-26 | 2024-01-02 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101257671A (zh) * | 2007-07-06 | 2008-09-03 | 浙江大学 | 基于内容的大规模垃圾短信实时过滤方法 |
CN101453707A (zh) * | 2007-12-02 | 2009-06-10 | 祁勇 | 一种在通信网络中监控垃圾信息的方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8533270B2 (en) * | 2003-06-23 | 2013-09-10 | Microsoft Corporation | Advanced spam detection techniques |
US7664812B2 (en) * | 2003-10-14 | 2010-02-16 | At&T Intellectual Property I, L.P. | Phonetic filtering of undesired email messages |
US7930351B2 (en) * | 2003-10-14 | 2011-04-19 | At&T Intellectual Property I, L.P. | Identifying undesired email messages having attachments |
US7644127B2 (en) * | 2004-03-09 | 2010-01-05 | Gozoom.Com, Inc. | Email analysis using fuzzy matching of text |
US20100092095A1 (en) * | 2008-10-14 | 2010-04-15 | Exbiblio B.V. | Data gathering in digital and rendered document environments |
US7752274B2 (en) * | 2006-04-03 | 2010-07-06 | International Business Machines Corporation | Apparatus and method for filtering and selectively inspecting e-mail |
US7921063B1 (en) * | 2006-05-17 | 2011-04-05 | Daniel Quinlan | Evaluating electronic mail messages based on probabilistic analysis |
US20080126197A1 (en) * | 2006-06-30 | 2008-05-29 | Kent Allen Savage | System and method for network-based talent contest |
CN101155182A (zh) * | 2006-09-30 | 2008-04-02 | 阿里巴巴公司 | 一种基于网络的垃圾信息过滤方法和装置 |
CN100576940C (zh) * | 2007-08-01 | 2009-12-30 | 浙江大学 | 短信息监控中心及监控方法 |
US20090077617A1 (en) * | 2007-09-13 | 2009-03-19 | Levow Zachary S | Automated generation of spam-detection rules using optical character recognition and identifications of common features |
US8868663B2 (en) * | 2008-09-19 | 2014-10-21 | Yahoo! Inc. | Detection of outbound sending of spam |
US8364766B2 (en) * | 2008-12-04 | 2013-01-29 | Yahoo! Inc. | Spam filtering based on statistics and token frequency modeling |
US8775605B2 (en) * | 2009-09-29 | 2014-07-08 | At&T Intellectual Property I, L.P. | Method and apparatus to identify outliers in social networks |
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
US9098459B2 (en) * | 2010-01-29 | 2015-08-04 | Microsoft Technology Licensing, Llc | Activity filtering based on trust ratings of network |
CN101888445A (zh) * | 2010-04-30 | 2010-11-17 | 南京邮电大学 | 一种引进查询软件的综合性短信过滤方法 |
US9324112B2 (en) * | 2010-11-09 | 2016-04-26 | Microsoft Technology Licensing, Llc | Ranking authors in social media systems |
US8745217B2 (en) * | 2011-07-20 | 2014-06-03 | Social Yantra Inc. | System and method for brand management using social networks |
US8954519B2 (en) * | 2012-01-25 | 2015-02-10 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using character histograms |
US9130778B2 (en) * | 2012-01-25 | 2015-09-08 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using frequency spectra of character strings |
CA2864076C (en) * | 2012-02-07 | 2022-10-04 | Social Market Analytics, Inc. | Systems and methods of detecting, measuring, and extracting signatures of signals embedded in social media data streams |
US9043398B2 (en) * | 2012-02-24 | 2015-05-26 | Google Inc. | Detection and prevention of unwanted content on cloud-hosted services |
WO2013138968A1 (en) * | 2012-03-17 | 2013-09-26 | Beijing Haipu Wangju Technology Limited | Method and system for hybrid information query |
US10235346B2 (en) * | 2012-04-06 | 2019-03-19 | Hmbay Patents Llc | Method and apparatus for inbound message summarization using message clustering and message placeholders |
GB201211853D0 (en) * | 2012-07-04 | 2012-08-15 | Qatar Foundation | A system and method for event or entity analysis and exploration in microblogs |
US9245120B2 (en) * | 2012-07-13 | 2016-01-26 | Cisco Technologies, Inc. | Method and apparatus for retroactively detecting malicious or otherwise undesirable software as well as clean software through intelligent rescanning |
-
2012
- 2012-07-30 CN CN201210266045.4A patent/CN103580939B/zh active Active
-
2013
- 2013-07-23 WO PCT/CN2013/079935 patent/WO2014019465A1/zh active Application Filing
-
2015
- 2015-01-29 US US14/608,353 patent/US10200329B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101257671A (zh) * | 2007-07-06 | 2008-09-03 | 浙江大学 | 基于内容的大规模垃圾短信实时过滤方法 |
CN101453707A (zh) * | 2007-12-02 | 2009-06-10 | 祁勇 | 一种在通信网络中监控垃圾信息的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103580939A (zh) | 2014-02-12 |
US20150326520A1 (en) | 2015-11-12 |
WO2014019465A1 (zh) | 2014-02-06 |
US10200329B2 (en) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103580939B (zh) | 一种基于账号属性的异常消息检测方法及设备 | |
US11122009B2 (en) | Systems and methods for identifying geographic locations of social media content collected over social networks | |
US20130297694A1 (en) | Systems and methods for interactive presentation and analysis of social media content collection over social networks | |
US20130297581A1 (en) | Systems and methods for customized filtering and analysis of social media content collected over social networks | |
US20130304818A1 (en) | Systems and methods for discovery of related terms for social media content collection over social networks | |
CN104426713B (zh) | 网络站点访问效果数据的监测方法和装置 | |
US8959162B2 (en) | Publisher-based message data cashing in a publish-subscription environment | |
CN106815254B (zh) | 一种数据处理方法和装置 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN105630884B (zh) | 一种微博热点事件的地理位置发现方法 | |
CN103914491B (zh) | 对优质用户生成内容的数据挖掘方法和系统 | |
CN104915392A (zh) | 一种微博转发行为预测方法及装置 | |
CN106296286A (zh) | 广告点击率的预估方法和预估装置 | |
CN109635084B (zh) | 一种多源数据文档实时快速去重方法及系统 | |
TW201308102A (zh) | 由電腦實施的消息過濾方法、消息過濾裝置及系統 | |
CN107046586A (zh) | 一种基于类自然语言特征的算法生成域名检测方法 | |
JP2018537760A (ja) | アドレス情報に基づいたアカウントマッピングの方法及び装置 | |
US8725814B2 (en) | Broker facilitated peer-to-peer publisher collaboration in a publish-subscription environment | |
CN109033148A (zh) | 一种面向多分类的不平衡数据预处理方法、装置及设备 | |
US8874666B2 (en) | Publisher-assisted, broker-based caching in a publish-subscription environment | |
CN102521713B (zh) | 数据处理装置和数据处理方法 | |
CN108763574A (zh) | 一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
CN106257449B (zh) | 一种信息确定方法和装置 | |
CN105095228A (zh) | 一种社交消息的监测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |