CN105843856A

CN105843856A - 垃圾信息处理方法、装置和系统

Info

Publication number: CN105843856A
Application number: CN201610151186.XA
Authority: CN
Inventors: 刘晓靖; 胡尼亚
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2016-08-10

Abstract

本发明公开了一种垃圾信息处理方法、装置和系统。该方法包括：根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值；判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值；若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时，确定所述待发送信息为垃圾信息。本发明提供的技术方案中，根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值，若判断出概率值大于垃圾信息样本库对应的设定阈值时，确定待发送信息为垃圾信息，本发明的方案提高了对垃圾信息判断的准确率，从而降低了对垃圾信息的误判率。

Description

垃圾信息处理方法、装置和系统

技术领域

本发明涉及通信技术领域，特别涉及一种垃圾信息处理方法、装置和系统。

背景技术

垃圾信息是指：未经用户同意向用户发送的用户不愿意收到的信息，或者用户不能根据自己的意愿拒绝接收的信息。

当前，垃圾信息的拦截方式主要包括如下两种：

一种是基于发送频次的垃圾信息判断方法。例如：若垃圾信息的发送的速度每小时超过了300条就对该垃圾信息加以拦截并关闭用户手机的正常功能。但是，这种方式很容易把正常的群发信息如节日问候、通知等信息误拦，而真正的垃圾信息却可以通过调整发送频度绕过拦截，引起大量用户的投诉。例如：一个用户换号时，需要群发信息告诉他通讯录里的朋友时，如果朋友数量超过拦截门槛就会被误拦截。

另一种是基于内容关键字匹配的垃圾信息判断方法。如果某条信息内容包含关键字列表中的内容，就把该信息判定为垃圾信息并加以拦截。但是，这种方式很容易把正常信息误判为垃圾信息，例如：如“发票”是关键字列表中的内容，结果正常用户只要发一条包含“发票”的信息就会被误拦。而真正的垃圾信息发送者很容易通过同音字、近音字、拼音替代或加分隔符等方法绕过关键字匹配算法而发送垃圾信息，而该垃圾信息无法有效拦截和过滤。

综上所述，现有技术中对垃圾信息的误判率较高。

发明内容

本发明提供一种垃圾信息处理方法、装置和系统，用于降低对垃圾信息的误判率。

为实现上述目的，本发明提供了一种垃圾信息处理方法，包括：

根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值；

判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值；

若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时，确定所述待发送信息为垃圾信息。

可选地，还包括：

若判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时，判断所述垃圾信息样本库是否为最后一个垃圾信息样本库；

若判断出所述垃圾信息样本库为最后一个垃圾信息样本库时，确定出所述待发送信息不是垃圾信息；

若判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时，根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合，生成第一集合的概率值，并继续执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。

可选地，所述根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值包括：

将所述待发送信息进行拆分处理生成第一拆分结果，将第一拆分结果作为元素形成第一集合；

将所述当前的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果，将第二拆分结果作为元素形成第二集合；

对第一集合和第二集合进行与操作，形成第三集合；

将第一集合中的元素数量除以第三集合中的元素数量，生成所述概率值。

可选地，所述根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合，生成第一集合的概率值包括：

将所述下一个的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果，将第二拆分结果作为元素形成第二集合；

对第一集合和第二集合进行与操作，形成第三集合；

可选地，还包括：

通过逻辑回归算法对所述垃圾信息样本库中的垃圾信息进行训练，生成所述垃圾信息样本库对应的设定阈值。

可选地，所述当前的垃圾信息样本库的优先级高于所述下一个的垃圾信息样本库。

可选地，还包括：

接收垃圾信息举报平台发送的样本信息；

判定所述样本信息是否为垃圾信息；

若判定出所述样本信息为垃圾信息时，将所述样本信息添加入垃圾信息样本库；

为添加入样本信息的垃圾信息样本库设置优先级。

为实现上述目的，本发明提供了一种垃圾信息处理装置，包括：

接收模块，用于接收信息中心发送的待发送信息；

第一生成模块，用于根据与所述待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值；

第一判断模块，用于判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值；

确定模块，用于若所述第一判断模块判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时，确定所述待发送信息为垃圾信息。

可选地，还包括：

第二判断模块，用于若所述第一判断模块判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时，判断所述垃圾信息样本库是否为最后一个垃圾信息样本库；

所述确定模块还用于若所述第二判断模块判断出所述垃圾信息样本库为最后一个垃圾信息样本库时，确定出所述待发送信息不是垃圾信息；

第一生成模块还用于若所述第二判断模块判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时，根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合，生成第一集合的概率值，并触发所述第一判断模块执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。

为实现上述目的，本发明提供了一种垃圾信息处理系统，包括：信息中心和上述垃圾信息处理装置；

所述信息中心，用于向所述垃圾信息处理装置发送待发送信息。

本发明具有以下有益效果：

本发明提供的垃圾信息处理方法、装置和系统中，根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值，若判断出概率值大于垃圾信息样本库对应的设定阈值时，确定待发送信息为垃圾信息，本发明的方案提高了对垃圾信息判断的准确率，从而降低了对垃圾信息的误判率。

附图说明

图1为本发明实施例二提供的一种垃圾信息处理方法的流程图；

图2为本发明实施例三提供的一种垃圾信息处理装置的结构示意图；

图3为本发明实施例四提供的一种垃圾信息处理装置的结构示意图；

图4为本发明实施例五提供的一种垃圾信息处理系统的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的垃圾信息处理方法、装置和系统进行详细描述。

本发明实施例一提供了一种垃圾信息处理方法，该方法包括：

步骤101、根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值。

步骤102、判断概率值是否大于样本库对应的设定阈值，若判断出概率值是否大于样本库对应的设定阈值时，确定待发送信息为垃圾信息。

进一步地，若判断出概率值小于或等于垃圾信息样本库对应的设定阈值时，根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合，生成第一集合的概率值，并继续执行步骤102。

本实施例提供的垃圾信息处理方法中，根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值，若判断出概率值大于垃圾信息样本库对应的设定阈值时，确定待发送信息为垃圾信息，本实施例的方案提高了对垃圾信息判断的准确率，从而降低了对垃圾信息的误判率。

图1为本发明实施例二提供的一种垃圾信息处理方法的流程图，如图1所示，该方法包括：

步骤201、接收垃圾信息举报平台发送的样本信息。

本实施例中的各步骤可以由垃圾信息处理装置执行。但用户的终端接收到某一信息而该用户认为该信息为垃圾信息时，用户可通过终端将该信息作为样本信息发送至垃圾信息举报平台。用户可以随时通过终端将样本信息发送至垃圾信息举报平台，而垃圾信息举报平台可随时收集用户举报的样本信息。

步骤202、判定样本信息是否为垃圾信息，若是，则执行步骤203，若否，则继续执行步骤201。

可选地，当垃圾信息处理装置在设定时间段内接收到一定数量的同一样本信息时，将该样本信息判定为垃圾信息。例如：在一天时间内接收到500个某一样本信息时，将该样本信息判定为垃圾信息。

可选地，通过人工操作的方式，由操作者人工将样本信息判定为垃圾信息。

步骤203、将样本信息添加入垃圾信息样本库。

本实施例中，可设置一个或者多个垃圾信息样本库。若设置多个垃圾信息样本库时，可按照类型对垃圾信息样本库进行分类，则一个垃圾信息样本库可对应于一个类型。为区别不同类型的垃圾信息样本库，不同类型的垃圾信息样本库具备不同的关键词。例如：一种类型的垃圾信息样本库具备的关键词为“发票”。

步骤204、为添加入样本信息的垃圾信息样本库设置优先级。

具体地，当一个垃圾信息样本库中新添加入了样本信息之后，可将该垃圾信息样本库的优先级设置为最高级。也就是说，将最新添加了样本信息的垃圾信息样本库放置在最优先位置。

同时，为了将一个垃圾信息样本库中的样本信息的数量控制在一定的范围内，当有新的样本信息加入时可删除最早添加入垃圾信息样本库中的样本信息。采用实现顺序实现了对垃圾信息样本库的实时更新，使得垃圾信息样本库中的样本信息一直能够保持更新状态。

步骤205、接收信息中心发送的待发送信息。

本实施例中，信息中心在接收待发送信息之后，不是直接将该待发送信息下发，而是首先将该待发送信息发送给垃圾信息处理装置。

步骤206、根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值。

本步骤具体包括：

步骤2061、将待发送信息进行拆分处理生成第一拆分结果，将第一拆分结果作为元素形成第一集合。

优选地，可对待发送信息按每个字进行拆分处理，从拆分后的字中取出不同的字生成第一拆分结果，并将第一拆分结果作为元素形成第一集合S1。也就是说，第一集合S1中的元素为第一拆分结果。

步骤2062、将当前的垃圾信息样本库中的每个样本信息进行拆分处理生成第二拆分结果，将第二拆分结果作为元素形成第二集合。

优选地，可对当前的垃圾信息样本库中的每个样本信息按每个字进行拆分处理，从拆分后的字中取出不同的字生成第二拆分结果，并将第二拆分结果作为元素形成第二集合S2。也就是说，第二集合S2中的元素为第二拆分结果。

步骤2063、对第一集合和第二集合进行与操作，形成第三集合。

具体地，第三集合S＝S1 U S2。

步骤2064、将第一集合中的元素数量除以第三集合中的元素数量，生成概率值。

具体地，该概率值R＝|S1|/|S|，其中，|S1|为第一集合S1中的元素数量，|S|为第三集合中的元素数量。

步骤207、判断概率值是否大于垃圾信息样本库对应的设定阈值，若是，则执行步骤208；若否，则执行步骤210。

本实施例中，可通过逻辑回归算法对垃圾信息样本库中的样本信息进行训练，生成垃圾信息样本库对应的设定阈值。其中，每个垃圾信息样本库对应一个设定阈值β，优选地，β的取值可在0-1之间。设定阈值的大小受到垃圾信息样本库中的样本信息数量的影响，垃圾信息样本库中的样本信息的数量越多，则β的取值越接近于1。从上述内容可知，β的取值可根据垃圾信息样本库中的样本信息的内容和数量动态调整，从而可有效避免垃圾信息发送者在垃圾信息前、后添加额外的内容而该垃圾信息不会被拦截的情况，同时还可以有效避免垃圾信息发送者每发送一条垃圾信息在内容中插入干扰符或者变换内容中的部分字而该垃圾信息不会被拦截的情况。

本实施例中，当判断出概率值大于垃圾信息样本库对应的设定阈值时，表明待发送信息和垃圾信息样本库中的样本信息相似高或相同；当判断出概率值小于或等于垃圾信息样本库对应的设定阈值时，表明待发送信息和垃圾信息样本库中的样本信息相似度低。

步骤208、确定待发送信息为垃圾信息。

步骤209、向信息中心发送拦截通知，拦截通知用于阻止信息中心不下发待发送信息，流程结束。

信息中心在接收到拦截通知时不再下发待发送信息，从而使得待发送信息被拦截。

步骤210、判断垃圾信息样本库是否为最后一个垃圾信息样本库，若否，则执行步骤211；若是，则执行步骤212。

本实施例中，垃圾信息样本库按照优先级进行排列，当前的垃圾信息样本库的优先级高于下一个的垃圾信息样本库。因此需要判断垃圾信息样本库是否为最后一个垃圾信息样本库，当判断出垃圾信息样本库为最后一个垃圾信息样本库时，表明待发送信息与垃圾信息样本库中的样本信息之间的比较过程已经完成；当判断出垃圾信息样本库不是最后一个垃圾信息样本库时，表明需要继续进行待发送信息与垃圾信息样本库中的样本信息的比较过程。

步骤211、根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合，生成第一集合的概率值，并继续执行步骤207。

本步骤具体包括：

步骤2111、将待发送信息进行拆分处理生成第一拆分结果，将第一拆分结果作为元素形成第一集合。

步骤2112、将当前的垃圾信息样本库中的每个垃圾信息进行拆分处理生成第二拆分结果，将第二拆分结果作为元素形成第二集合。

优选地，可对下一个的垃圾信息样本库中的每个样本信息按每个字进行拆分处理，从拆分后的字中取出不同的字生成第二拆分结果，并将第二拆分结果作为元素形成第二集合S2。也就是说，第二集合S2中的元素为第二拆分结果。

步骤2113、对第一集合和第二集合进行与操作，形成第三集合。

具体地，第三集合S＝S1 U S2。

步骤2114、将第一集合中的元素数量除以第三集合中的元素数量，生成所述概率值。

步骤212、确定出待发送信息不是垃圾信息。

步骤213、向信息中心发送下发通知，下发通知用于允许所述信息中心下发待发送信息，流程结束。

信息中心在接收到下发通知时下发待发送信息，从而使得待发送信息被正常发送。

本发明中，待发送信息可以为待发送短信，样本信息可以为样本短信，则垃圾信息可以为垃圾短信。

本实施例提供的各步骤的执行顺序可根据需要进行变更，上述执行顺序仅为一种示例。

图2为本发明实施例三提供的一种垃圾信息处理装置的结构示意图，如图2所示，该装置包括：接收模块11、第一生成模块12、第一判断模块13和确定模块14。

接收模块11用于接收信息中心发送的待发送信息。第一生成模块12用于根据与所述待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值。第一判断模块13用于判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值。确定模块14用于若所述第一判断模块13判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时，确定所述待发送信息为垃圾信息。

本实施例提供的垃圾信息处理装置可用于实现上述实施例一提供的垃圾信息处理方法。

本实施例提供的垃圾信息处理装置中，根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值，若判断出概率值大于垃圾信息样本库对应的设定阈值时，确定待发送信息为垃圾信息，本实施例的方案提高了对垃圾信息判断的准确率，从而降低了对垃圾信息的误判率。

图3为本发明实施例四提供的一种垃圾信息处理装置的结构示意图，如图3所示，该装置在上述实施例一的基础上还包括：第二判断模块15。第二判断模块15用于若所述第一判断模块13判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时，判断所述垃圾信息样本库是否为最后一个垃圾信息样本库。所述确定模块14还用于若所述第二判断模块15判断出所述垃圾信息样本库为最后一个垃圾信息样本库时，确定出所述待发送信息不是垃圾信息；第一生成模块12还用于若所述第二判断模块15判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时，根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合，生成第一集合的概率值，并触发所述第一判断模块13执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。

进一步地，所述第一生成模块12包括：拆分子模块121、与操作子模块122和生成子模块123。

拆分子模块121用于将所述待发送信息进行拆分处理生成第一拆分结果，将第一拆分结果作为元素形成第一集合；将所述当前的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果，将第二拆分结果作为元素形成第二集合。与操作子模块122用于对第一集合和第二集合进行与操作，形成第三集合。生成子模块123用于将第一集合中的元素数量除以第三集合中的元素数量，生成所述概率值。

拆分子模块121用于将所述待发送信息进行拆分处理生成第一拆分结果，将第一拆分结果作为元素形成第一集合；将所述下一个的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果，将第二拆分结果作为元素形成第二集合。与操作子模块122用于对第一集合和第二集合进行与操作，形成第三集合。生成子模块123用于将第一集合中的元素数量除以第三集合中的元素数量，生成所述概率值。

进一步地，该装置还包括：第二生成模块16。第二生成模块16用于通过逻辑回归算法对所述垃圾信息样本库中的垃圾信息进行训练，生成所述垃圾信息样本库对应的设定阈值。

进一步地，该装置还包括：判定模块17、添加模块18和设置模块19。所述接收模块11还用于接收垃圾信息举报平台发送的样本信息。所述判定模块17用于判定所述样本信息是否为垃圾信息。所述添加模块18用于若所述判定模块17判定出所述样本信息为垃圾信息时，将所述样本信息添加入垃圾信息样本库。所述设置模块19用于为添加入样本信息的垃圾信息样本库设置优先级。

本实施例提供的垃圾信息处理装置可用于实现上述实施例二提供的垃圾信息处理方法。

图4为本发明实施例五提供的一种垃圾信息处理系统的结构示意图，如图4所示，该系统包括：垃圾信息处理装置1和与垃圾信息处理装置1连接的信息中心2。

进一步地，该系统还包括：与垃圾信息处理装置1连接的垃圾信息举报平台3。

其中，垃圾信息处理装置1可采用上述实施例三或者实施例四提供的垃圾信息处理装置，此处不再重复描述。

其中，信息中心2用于向垃圾信息处理装置1发送待发送信息。

其中，垃圾信息举报平台3用于向垃圾信息处理装置1发送样本信息。

本实施例提供的垃圾信息处理系统中，根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值，若判断出概率值大于垃圾信息样本库对应的设定阈值时，确定待发送信息为垃圾信息，本实施例的方案提高了对垃圾信息判断的准确率，从而降低了对垃圾信息的误判率。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种垃圾信息处理方法，其特征在于，包括：

2.根据权利要求1所述的垃圾信息处理方法，其特征在于，还包括：

3.根据权利要求1所述的垃圾信息处理方法，其特征在于，所述根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合，生成第一集合的概率值包括：

对第一集合和第二集合进行与操作，形成第三集合；

4.根据权利要求2所述的垃圾信息处理方法，其特征在于，所述根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合，生成第一集合的概率值包括：

对第一集合和第二集合进行与操作，形成第三集合；

5.根据权利要求1所述的垃圾信息处理方法，其特征在于，还包括：

6.根据权利要求2所述的垃圾信息处理方法，其特征在于，所述当前的垃圾信息样本库的优先级高于所述下一个的垃圾信息样本库。

7.根据权利要求1所述的垃圾信息处理方法，其特征在于，还包括：

接收垃圾信息举报平台发送的样本信息；

判定所述样本信息是否为垃圾信息；

为添加入样本信息的垃圾信息样本库设置优先级。

8.一种垃圾信息处理装置，其特征在于，包括：

接收模块，用于接收信息中心发送的待发送信息；

9.根据权利要求8所述的垃圾信息处理装置，其特征在于，还包括：

10.一种垃圾信息处理系统，其特征在于，包括：信息中心和权利要求8或9所述的垃圾信息处理装置；