CN105843856A - 垃圾信息处理方法、装置和系统 - Google Patents

垃圾信息处理方法、装置和系统 Download PDF

Info

Publication number
CN105843856A
CN105843856A CN201610151186.XA CN201610151186A CN105843856A CN 105843856 A CN105843856 A CN 105843856A CN 201610151186 A CN201610151186 A CN 201610151186A CN 105843856 A CN105843856 A CN 105843856A
Authority
CN
China
Prior art keywords
information
junk information
junk
sample storehouse
sent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610151186.XA
Other languages
English (en)
Inventor
刘晓靖
胡尼亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201610151186.XA priority Critical patent/CN105843856A/zh
Publication of CN105843856A publication Critical patent/CN105843856A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Abstract

本发明公开了一种垃圾信息处理方法、装置和系统。该方法包括:根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。本发明提供的技术方案中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本发明的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。

Description

垃圾信息处理方法、装置和系统
技术领域
本发明涉及通信技术领域,特别涉及一种垃圾信息处理方法、装置和系统。
背景技术
垃圾信息是指:未经用户同意向用户发送的用户不愿意收到的信息,或者用户不能根据自己的意愿拒绝接收的信息。
当前,垃圾信息的拦截方式主要包括如下两种:
一种是基于发送频次的垃圾信息判断方法。例如:若垃圾信息的发送的速度每小时超过了300条就对该垃圾信息加以拦截并关闭用户手机的正常功能。但是,这种方式很容易把正常的群发信息如节日问候、通知等信息误拦,而真正的垃圾信息却可以通过调整发送频度绕过拦截,引起大量用户的投诉。例如:一个用户换号时,需要群发信息告诉他通讯录里的朋友时,如果朋友数量超过拦截门槛就会被误拦截。
另一种是基于内容关键字匹配的垃圾信息判断方法。如果某条信息内容包含关键字列表中的内容,就把该信息判定为垃圾信息并加以拦截。但是,这种方式很容易把正常信息误判为垃圾信息,例如:如“发票”是关键字列表中的内容,结果正常用户只要发一条包含“发票”的信息就会被误拦。而真正的垃圾信息发送者很容易通过同音字、近音字、拼音替代或加分隔符等方法绕过关键字匹配算法而发送垃圾信息,而该垃圾信息无法有效拦截和过滤。
综上所述,现有技术中对垃圾信息的误判率较高。
发明内容
本发明提供一种垃圾信息处理方法、装置和系统,用于降低对垃圾信息的误判率。
为实现上述目的,本发明提供了一种垃圾信息处理方法,包括:
根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;
判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;
若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。
可选地,还包括:
若判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时,判断所述垃圾信息样本库是否为最后一个垃圾信息样本库;
若判断出所述垃圾信息样本库为最后一个垃圾信息样本库时,确定出所述待发送信息不是垃圾信息;
若判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并继续执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。
可选地,所述根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值包括:
将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;
将所述当前的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合;
对第一集合和第二集合进行与操作,形成第三集合;
将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。
可选地,所述根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值包括:
将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;
将所述下一个的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合;
对第一集合和第二集合进行与操作,形成第三集合;
将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。
可选地,还包括:
通过逻辑回归算法对所述垃圾信息样本库中的垃圾信息进行训练,生成所述垃圾信息样本库对应的设定阈值。
可选地,所述当前的垃圾信息样本库的优先级高于所述下一个的垃圾信息样本库。
可选地,还包括:
接收垃圾信息举报平台发送的样本信息;
判定所述样本信息是否为垃圾信息;
若判定出所述样本信息为垃圾信息时,将所述样本信息添加入垃圾信息样本库;
为添加入样本信息的垃圾信息样本库设置优先级。
为实现上述目的,本发明提供了一种垃圾信息处理装置,包括:
接收模块,用于接收信息中心发送的待发送信息;
第一生成模块,用于根据与所述待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;
第一判断模块,用于判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;
确定模块,用于若所述第一判断模块判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。
可选地,还包括:
第二判断模块,用于若所述第一判断模块判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时,判断所述垃圾信息样本库是否为最后一个垃圾信息样本库;
所述确定模块还用于若所述第二判断模块判断出所述垃圾信息样本库为最后一个垃圾信息样本库时,确定出所述待发送信息不是垃圾信息;
第一生成模块还用于若所述第二判断模块判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并触发所述第一判断模块执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。
为实现上述目的,本发明提供了一种垃圾信息处理系统,包括:信息中心和上述垃圾信息处理装置;
所述信息中心,用于向所述垃圾信息处理装置发送待发送信息。
本发明具有以下有益效果:
本发明提供的垃圾信息处理方法、装置和系统中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本发明的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。
附图说明
图1为本发明实施例二提供的一种垃圾信息处理方法的流程图;
图2为本发明实施例三提供的一种垃圾信息处理装置的结构示意图;
图3为本发明实施例四提供的一种垃圾信息处理装置的结构示意图;
图4为本发明实施例五提供的一种垃圾信息处理系统的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的垃圾信息处理方法、装置和系统进行详细描述。
本发明实施例一提供了一种垃圾信息处理方法,该方法包括:
步骤101、根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值。
步骤102、判断概率值是否大于样本库对应的设定阈值,若判断出概率值是否大于样本库对应的设定阈值时,确定待发送信息为垃圾信息。
进一步地,若判断出概率值小于或等于垃圾信息样本库对应的设定阈值时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并继续执行步骤102。
本实施例提供的垃圾信息处理方法中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本实施例的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。
图1为本发明实施例二提供的一种垃圾信息处理方法的流程图,如图1所示,该方法包括:
步骤201、接收垃圾信息举报平台发送的样本信息。
本实施例中的各步骤可以由垃圾信息处理装置执行。但用户的终端接收到某一信息而该用户认为该信息为垃圾信息时,用户可通过终端将该信息作为样本信息发送至垃圾信息举报平台。用户可以随时通过终端将样本信息发送至垃圾信息举报平台,而垃圾信息举报平台可随时收集用户举报的样本信息。
步骤202、判定样本信息是否为垃圾信息,若是,则执行步骤203,若否,则继续执行步骤201。
可选地,当垃圾信息处理装置在设定时间段内接收到一定数量的同一样本信息时,将该样本信息判定为垃圾信息。例如:在一天时间内接收到500个某一样本信息时,将该样本信息判定为垃圾信息。
可选地,通过人工操作的方式,由操作者人工将样本信息判定为垃圾信息。
步骤203、将样本信息添加入垃圾信息样本库。
本实施例中,可设置一个或者多个垃圾信息样本库。若设置多个垃圾信息样本库时,可按照类型对垃圾信息样本库进行分类,则一个垃圾信息样本库可对应于一个类型。为区别不同类型的垃圾信息样本库,不同类型的垃圾信息样本库具备不同的关键词。例如:一种类型的垃圾信息样本库具备的关键词为“发票”。
步骤204、为添加入样本信息的垃圾信息样本库设置优先级。
具体地,当一个垃圾信息样本库中新添加入了样本信息之后,可将该垃圾信息样本库的优先级设置为最高级。也就是说,将最新添加了样本信息的垃圾信息样本库放置在最优先位置。
同时,为了将一个垃圾信息样本库中的样本信息的数量控制在一定的范围内,当有新的样本信息加入时可删除最早添加入垃圾信息样本库中的样本信息。采用实现顺序实现了对垃圾信息样本库的实时更新,使得垃圾信息样本库中的样本信息一直能够保持更新状态。
步骤205、接收信息中心发送的待发送信息。
本实施例中,信息中心在接收待发送信息之后,不是直接将该待发送信息下发,而是首先将该待发送信息发送给垃圾信息处理装置。
步骤206、根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值。
本步骤具体包括:
步骤2061、将待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合。
优选地,可对待发送信息按每个字进行拆分处理,从拆分后的字中取出不同的字生成第一拆分结果,并将第一拆分结果作为元素形成第一集合S1。也就是说,第一集合S1中的元素为第一拆分结果。
步骤2062、将当前的垃圾信息样本库中的每个样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合。
优选地,可对当前的垃圾信息样本库中的每个样本信息按每个字进行拆分处理,从拆分后的字中取出不同的字生成第二拆分结果,并将第二拆分结果作为元素形成第二集合S2。也就是说,第二集合S2中的元素为第二拆分结果。
步骤2063、对第一集合和第二集合进行与操作,形成第三集合。
具体地,第三集合S=S1 U S2。
步骤2064、将第一集合中的元素数量除以第三集合中的元素数量,生成概率值。
具体地,该概率值R=|S1|/|S|,其中,|S1|为第一集合S1中的元素数量,|S|为第三集合中的元素数量。
步骤207、判断概率值是否大于垃圾信息样本库对应的设定阈值,若是,则执行步骤208;若否,则执行步骤210。
本实施例中,可通过逻辑回归算法对垃圾信息样本库中的样本信息进行训练,生成垃圾信息样本库对应的设定阈值。其中,每个垃圾信息样本库对应一个设定阈值β,优选地,β的取值可在0-1之间。设定阈值的大小受到垃圾信息样本库中的样本信息数量的影响,垃圾信息样本库中的样本信息的数量越多,则β的取值越接近于1。从上述内容可知,β的取值可根据垃圾信息样本库中的样本信息的内容和数量动态调整,从而可有效避免垃圾信息发送者在垃圾信息前、后添加额外的内容而该垃圾信息不会被拦截的情况,同时还可以有效避免垃圾信息发送者每发送一条垃圾信息在内容中插入干扰符或者变换内容中的部分字而该垃圾信息不会被拦截的情况。
本实施例中,当判断出概率值大于垃圾信息样本库对应的设定阈值时,表明待发送信息和垃圾信息样本库中的样本信息相似高或相同;当判断出概率值小于或等于垃圾信息样本库对应的设定阈值时,表明待发送信息和垃圾信息样本库中的样本信息相似度低。
步骤208、确定待发送信息为垃圾信息。
步骤209、向信息中心发送拦截通知,拦截通知用于阻止信息中心不下发待发送信息,流程结束。
信息中心在接收到拦截通知时不再下发待发送信息,从而使得待发送信息被拦截。
步骤210、判断垃圾信息样本库是否为最后一个垃圾信息样本库,若否,则执行步骤211;若是,则执行步骤212。
本实施例中,垃圾信息样本库按照优先级进行排列,当前的垃圾信息样本库的优先级高于下一个的垃圾信息样本库。因此需要判断垃圾信息样本库是否为最后一个垃圾信息样本库,当判断出垃圾信息样本库为最后一个垃圾信息样本库时,表明待发送信息与垃圾信息样本库中的样本信息之间的比较过程已经完成;当判断出垃圾信息样本库不是最后一个垃圾信息样本库时,表明需要继续进行待发送信息与垃圾信息样本库中的样本信息的比较过程。
步骤211、根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并继续执行步骤207。
本步骤具体包括:
步骤2111、将待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合。
优选地,可对待发送信息按每个字进行拆分处理,从拆分后的字中取出不同的字生成第一拆分结果,并将第一拆分结果作为元素形成第一集合S1。也就是说,第一集合S1中的元素为第一拆分结果。
步骤2112、将当前的垃圾信息样本库中的每个垃圾信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合。
优选地,可对下一个的垃圾信息样本库中的每个样本信息按每个字进行拆分处理,从拆分后的字中取出不同的字生成第二拆分结果,并将第二拆分结果作为元素形成第二集合S2。也就是说,第二集合S2中的元素为第二拆分结果。
步骤2113、对第一集合和第二集合进行与操作,形成第三集合。
具体地,第三集合S=S1 U S2。
步骤2114、将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。
具体地,该概率值R=|S1|/|S|,其中,|S1|为第一集合S1中的元素数量,|S|为第三集合中的元素数量。
步骤212、确定出待发送信息不是垃圾信息。
步骤213、向信息中心发送下发通知,下发通知用于允许所述信息中心下发待发送信息,流程结束。
信息中心在接收到下发通知时下发待发送信息,从而使得待发送信息被正常发送。
本发明中,待发送信息可以为待发送短信,样本信息可以为样本短信,则垃圾信息可以为垃圾短信。
本实施例提供的各步骤的执行顺序可根据需要进行变更,上述执行顺序仅为一种示例。
本实施例提供的垃圾信息处理方法中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本实施例的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。
图2为本发明实施例三提供的一种垃圾信息处理装置的结构示意图,如图2所示,该装置包括:接收模块11、第一生成模块12、第一判断模块13和确定模块14。
接收模块11用于接收信息中心发送的待发送信息。第一生成模块12用于根据与所述待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值。第一判断模块13用于判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值。确定模块14用于若所述第一判断模块13判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。
本实施例提供的垃圾信息处理装置可用于实现上述实施例一提供的垃圾信息处理方法。
本实施例提供的垃圾信息处理装置中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本实施例的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。
图3为本发明实施例四提供的一种垃圾信息处理装置的结构示意图,如图3所示,该装置在上述实施例一的基础上还包括:第二判断模块15。第二判断模块15用于若所述第一判断模块13判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时,判断所述垃圾信息样本库是否为最后一个垃圾信息样本库。所述确定模块14还用于若所述第二判断模块15判断出所述垃圾信息样本库为最后一个垃圾信息样本库时,确定出所述待发送信息不是垃圾信息;第一生成模块12还用于若所述第二判断模块15判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并触发所述第一判断模块13执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。
进一步地,所述第一生成模块12包括:拆分子模块121、与操作子模块122和生成子模块123。
拆分子模块121用于将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;将所述当前的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合。与操作子模块122用于对第一集合和第二集合进行与操作,形成第三集合。生成子模块123用于将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。
拆分子模块121用于将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;将所述下一个的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合。与操作子模块122用于对第一集合和第二集合进行与操作,形成第三集合。生成子模块123用于将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。
进一步地,该装置还包括:第二生成模块16。第二生成模块16用于通过逻辑回归算法对所述垃圾信息样本库中的垃圾信息进行训练,生成所述垃圾信息样本库对应的设定阈值。
进一步地,该装置还包括:判定模块17、添加模块18和设置模块19。所述接收模块11还用于接收垃圾信息举报平台发送的样本信息。所述判定模块17用于判定所述样本信息是否为垃圾信息。所述添加模块18用于若所述判定模块17判定出所述样本信息为垃圾信息时,将所述样本信息添加入垃圾信息样本库。所述设置模块19用于为添加入样本信息的垃圾信息样本库设置优先级。
本实施例提供的垃圾信息处理装置可用于实现上述实施例二提供的垃圾信息处理方法。
本实施例提供的垃圾信息处理装置中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本实施例的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。
图4为本发明实施例五提供的一种垃圾信息处理系统的结构示意图,如图4所示,该系统包括:垃圾信息处理装置1和与垃圾信息处理装置1连接的信息中心2。
进一步地,该系统还包括:与垃圾信息处理装置1连接的垃圾信息举报平台3。
其中,垃圾信息处理装置1可采用上述实施例三或者实施例四提供的垃圾信息处理装置,此处不再重复描述。
其中,信息中心2用于向垃圾信息处理装置1发送待发送信息。
其中,垃圾信息举报平台3用于向垃圾信息处理装置1发送样本信息。
本实施例提供的垃圾信息处理系统中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本实施例的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种垃圾信息处理方法,其特征在于,包括:
根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;
判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;
若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。
2.根据权利要求1所述的垃圾信息处理方法,其特征在于,还包括:
若判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时,判断所述垃圾信息样本库是否为最后一个垃圾信息样本库;
若判断出所述垃圾信息样本库为最后一个垃圾信息样本库时,确定出所述待发送信息不是垃圾信息;
若判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并继续执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。
3.根据权利要求1所述的垃圾信息处理方法,其特征在于,所述根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值包括:
将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;
将所述当前的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合;
对第一集合和第二集合进行与操作,形成第三集合;
将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。
4.根据权利要求2所述的垃圾信息处理方法,其特征在于,所述根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值包括:
将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;
将所述下一个的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合;
对第一集合和第二集合进行与操作,形成第三集合;
将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。
5.根据权利要求1所述的垃圾信息处理方法,其特征在于,还包括:
通过逻辑回归算法对所述垃圾信息样本库中的垃圾信息进行训练,生成所述垃圾信息样本库对应的设定阈值。
6.根据权利要求2所述的垃圾信息处理方法,其特征在于,所述当前的垃圾信息样本库的优先级高于所述下一个的垃圾信息样本库。
7.根据权利要求1所述的垃圾信息处理方法,其特征在于,还包括:
接收垃圾信息举报平台发送的样本信息;
判定所述样本信息是否为垃圾信息;
若判定出所述样本信息为垃圾信息时,将所述样本信息添加入垃圾信息样本库;
为添加入样本信息的垃圾信息样本库设置优先级。
8.一种垃圾信息处理装置,其特征在于,包括:
接收模块,用于接收信息中心发送的待发送信息;
第一生成模块,用于根据与所述待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;
第一判断模块,用于判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;
确定模块,用于若所述第一判断模块判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。
9.根据权利要求8所述的垃圾信息处理装置,其特征在于,还包括:
第二判断模块,用于若所述第一判断模块判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时,判断所述垃圾信息样本库是否为最后一个垃圾信息样本库;
所述确定模块还用于若所述第二判断模块判断出所述垃圾信息样本库为最后一个垃圾信息样本库时,确定出所述待发送信息不是垃圾信息;
第一生成模块还用于若所述第二判断模块判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并触发所述第一判断模块执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。
10.一种垃圾信息处理系统,其特征在于,包括:信息中心和权利要求8或9所述的垃圾信息处理装置;
所述信息中心,用于向所述垃圾信息处理装置发送待发送信息。
CN201610151186.XA 2016-03-16 2016-03-16 垃圾信息处理方法、装置和系统 Pending CN105843856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610151186.XA CN105843856A (zh) 2016-03-16 2016-03-16 垃圾信息处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610151186.XA CN105843856A (zh) 2016-03-16 2016-03-16 垃圾信息处理方法、装置和系统

Publications (1)

Publication Number Publication Date
CN105843856A true CN105843856A (zh) 2016-08-10

Family

ID=56588197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610151186.XA Pending CN105843856A (zh) 2016-03-16 2016-03-16 垃圾信息处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105843856A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101510879A (zh) * 2009-03-26 2009-08-19 腾讯科技(深圳)有限公司 一种垃圾内容过滤的方法及装置
US8131655B1 (en) * 2008-05-30 2012-03-06 Bitdefender IPR Management Ltd. Spam filtering using feature relevance assignment in neural networks
CN104714938A (zh) * 2013-12-12 2015-06-17 联想(北京)有限公司 一种信息处理的方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
US8131655B1 (en) * 2008-05-30 2012-03-06 Bitdefender IPR Management Ltd. Spam filtering using feature relevance assignment in neural networks
CN101510879A (zh) * 2009-03-26 2009-08-19 腾讯科技(深圳)有限公司 一种垃圾内容过滤的方法及装置
CN104714938A (zh) * 2013-12-12 2015-06-17 联想(北京)有限公司 一种信息处理的方法及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YONG HAN 等: "F-SCORE-LIKE MEASURE: A NEW MEASURE FOR SPAM FILTERING", 《PROCEEDINGS OF THE 2012 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》 *

Similar Documents

Publication Publication Date Title
CN104301896B (zh) 诈骗短信智能监控告警系统和方法
CN104113626B (zh) 一种通信处理方法和系统
CN106020488A (zh) 一种面向对话系统的人机交互方法及装置
EP2339872A1 (en) De-massing method of position advertising service based on regional strategy and system thereof
CN106294854A (zh) 一种用于智能机器人的人机交互方法及装置
CN102968439A (zh) 一种推送微博的方法及装置
CN103136266A (zh) 邮件分类的方法及装置
CN102761872A (zh) 一种垃圾短信拦截方法
CN103391547A (zh) 一种信息处理的方法和终端
CN103186522B (zh) 电子设备及其自然语言分析方法
CN103812826A (zh) 垃圾邮件识别方法和识别系统、以及过滤系统
CN101764704A (zh) 一种互联网敏感内容审计的方法及其装置
CN103297317B (zh) 一种发送邮件的方法、一种电子设备
CN102655483B (zh) 一种通过电子邮件获取联系人信息的方法、客户端及系统
CN101299729A (zh) 一种基于拓扑行为的垃圾邮件判定方法
CN106656731A (zh) 一种edm邮件发送方法和装置
CN106341303B (zh) 基于邮件用户行为的发件人信誉生成方法
CN102236547A (zh) 一种在聊天工具中对聊天朋友自动归类的控制方法及装置
CN103796184B (zh) 垃圾短信识别方法和系统
CN103957268B (zh) 一种规则驱动的数据传输方法
CN105721539B (zh) 一种基于行为特征的短信分类装置及方法
CN103139730B (zh) 用于识别大量号码低频发送垃圾短信情况的方法
CN106982128A (zh) 基于网络的社群构建方法
CN105472586A (zh) 一种垃圾短信监控系统及方法
CN117033498B (zh) 一种一体化融合通信指挥方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160810

RJ01 Rejection of invention patent application after publication