CN106503075A

CN106503075A - 一种过滤垃圾消息的方法及系统

Info

Publication number: CN106503075A
Application number: CN201610874536.5A
Authority: CN
Inventors: 周兴华; 蔡胜
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2017-03-15
Anticipated expiration: 2036-09-30
Also published as: CN106503075B

Abstract

本发明公开了一种过滤垃圾消息的方法及系统，其中，过滤垃圾消息的方法的步骤包括：S1，接收消息，提取消息中的文字信息，并对所述文字信息进行分词处理获取分词集合；S2，将所述分词集合进行本地判断，当判断所述消息为垃圾消息时进行过滤，否则进入步骤S3；S3，将所述分词集合进行云端判断，当判定所述消息为垃圾消息时进行过滤，否则进行显示。通过本发明的技术方案，将终端上推送的消息经过本地和云端双重判断后确定出的有用消息推送给用户，这样能够提高垃圾消息过滤的准确率，进而高效地将垃圾消息过滤出去，进而保证推送的消息是用户需要的消息。

Description

一种过滤垃圾消息的方法及系统

技术领域

本发明属于终端领域，具体地说，涉及一种过滤垃圾消息的方法及系统。

背景技术

现有技术随着互联网的发展壮大，各个网站(包括门户网站、专题网站等)推出了越来越多的社区频道，如：各类专题论坛、博客、评论等，这些社区频道吸引的互动网友日益增多，为网站及网民带来了利益。但同时也有一些人员借这些社区频道大肆发布各类商业广告信息，甚至发布大量的色情、低俗、粗口及与其他同行恶意竞争的帖子，这些不良信息干扰了网站的正常运营，损害了网站的品牌和口碑，同时也极大地影响了其它网民的正常使用。

目前，智能手机的屏幕上方通常会显示有一个消息通知栏，用于以小图标的形式向用户显示通知消息。手机允许系统或第三方应用向通知栏推送通知消息，用户对通知栏进行下拉操作可以展开查看通知消息的具体内容，例如包括手机系统推送的当前电量、信号强度等通知消息，也包括第三方应用推送的未读消息提醒等通知消息。用户在使用终端设备时经常会收到各种通知消息，例如系统更新提示消息，以及APP(应用程序)的消息，例如QQ消息、微信消息、网银相关消息等。

但是这些消息中有很多是用户不需要的垃圾消息，将这些消息全部推送给用户就会对用户造成打扰，因此，需要一种新的技术方案，能够将终端上推送的消息通知经过本地和云端双重判断后确定出有用消息并推送给用户。

有鉴于此特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种过滤垃圾消息的方法及系统，能够将终端上推送的消息经过本地和云端双重判断后确定出有用消息并推送给用户。

为解决上述技术问题，本发明采用技术方案的基本构思是：

本发明的第一方面提出了一种过滤垃圾消息的方法，应用于终端，步骤包括：

S1，接收消息，提取消息中的文字信息，并对所述文字信息进行分词处理获取分词集合；

S2，将所述分词集合进行本地判断，当判断所述消息为垃圾消息时进行过滤，否则进入步骤S3；

S3，将所述分词集合进行云端判断，当判定所述消息为垃圾消息时进行过滤，否则进行显示。

优选地，所述分词集合的获取方法为：

S11，将被分词处理后的文字信息进行词性划分，分为实词类和虚词类；

S12，去除虚词类的分词，保留实词类分词，并将实词类分词组成分词集合。

优选地，所述步骤S2具体包括：

S21，将所述分词集合与本地垃圾词库进行匹配，确定所述消息中垃圾消息的本地匹配指数；

S22，判断所述本地匹配指数是否大于第一预定阈值，是则判定所述消息为垃圾消息并进行过滤，否则进入步骤S3。

优选地，所述本地匹配指数的计算方法为:

S211，获取所述分词集合中与本地垃圾词库相匹配的每个本地垃圾分词的权重值，进而计算所述分词集合的本地平均权重值；

S212，计算本地垃圾分词在所述分词集合中的第一比例；

S213，根据所述平均本地平均权重值和所述第一比例确定本地匹配指数。

优选地，所述本地匹配指数为：

P1＝max(t1，q1)；

其中，P1为本地匹配指数，t1为平均本地平均权重值，q1为第一比例。

优选地，所述步骤S3具体包括：

S31，将所述分词集合与云端垃圾词库进行匹配，确定所述消息为垃圾消息的云端匹配指数；

S32，判断所述云端匹配指数是否大于第二预定阈值，是则判定所述消息为垃圾消息并进行过滤，否则判定为非垃圾消息进行显示。

优选地，所述云端匹配指数的计算方法为：

S311，获取所述分词集合中与云端垃圾词库相匹配的每个云端垃圾分词的权重值，进而计算所述分词集合的云端平均权重值；

S312，计算云端垃圾分词在所述分词集合中的第二比例；

S313，根据所述云端平均权重值和所述第二比例确定云端匹配指数。

优选地，所述云端匹配指数为

P2＝max(t2，q2)；

其中，P2为云端匹配指数，t2为云端平均权重值，q2为第二比例。

本发明的第二方面提出了一种过滤垃圾消息的系统，包括：

处理单元，用于提取接收的消息中的文字信息，并对所述文字信息进行处理获取分词集合；

本地判断单元，用于将所述分词集合进行本地判断，当判断所述消息为垃圾消息时进行过滤，否则将分词集合推送至云端判断单元；

云端判断单元，用于将所述分词集合进行云端判断，当判定所述消息为垃圾消息时进行过滤，否则在显示单元进行显示。

优选地，所述处理单元包括：

划分模块，用于将文字信息进行分词处理，并对获得的文字信息进行词性划分，分为实词类分词和虚词类分词；

提取模块，去除虚词类分词，保留实词类分词，并将实词类分词组成分词集合。

优选地，所述本地判断单元具体包括：

本地匹配单元，用于将所述分词集合中的每个分词与本地垃圾词库进行匹配，从分词集合中提取本地垃圾分词，并确定所述本地垃圾分词的本地匹配指数；

本地过滤单元，当所述本地匹配指数大于第一预定阈值时，则判定所述消息为垃圾消息并进行过滤，否则将分词集合推送至云端判断单元。

所述本地匹配单元具体包括:

本地权重计算模块，用于获取所述分词集合中与本地垃圾词库相匹配的每个本地垃圾分词的权重值，进而计算所述分词集合的本地平均权重值；

本地比例计算模块，用于计算本地垃圾分词在所述分词集合中的第一比例；

本地指数计算模块，用于根据所述平均本地平均权重值和所述第一比例确定本地匹配指数。

优选地，所述本地指数计算模块针对本地匹配指数的计算方法为：

P1＝max(t1，q1)；

优选地，云端判断单元具体包括：

云端匹配单元，用于将所述分词集合中的每个分词与云端垃圾词库进行匹配，从分词集合中提取云端垃圾分词，并确定所述云端垃圾分词的云端匹配指数；

云端过滤单元，当所述云端匹配指数大于第二预定阈值时，则判定所述消息为垃圾消息并进行过滤，否则判定为非垃圾消息进行显示。

所述云端匹配单元具体包括：

云端权重计算模块，用于获取所述分词集合中与云端垃圾词库相匹配的每个云端垃圾分词的权重值，进而计算所述分词集合的云端平均权重值；

云端比例计算模块，用于计算云端垃圾分词在所述分词集合中的第二比例；

云端指数计算模块，用于根据所述云端平均权重值和所述第二比例确定云端匹配指数。

优选地，所述云端指数计算模块针对云端匹配指数的计算方法为

P2＝max(t2，q2)；

采用上述技术方案后，本发明与现有技术相比具有以下有益效果。

将终端上推送的消息经过本地和云端双重判断后确定出的有用消息推送给用户，这样能够提高垃圾消息过滤的准确率，进而高效地将垃圾消息过滤出去，进而保证推送的消息是用户需要的消息。

本发明的本地匹配指数和云端匹配指数，是从对应垃圾分词的平均权重值和相应的占有比例进行比较，选取其中的最大值作为相应本地或云端的匹配指数，这样能够减小垃圾消息的误判率，提升消息的过滤效果，方便用户使用。

下面结合附图对本发明的具体实施方式作进一步详细的描述。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1是本发明的一个实施例的过滤垃圾消息的方法的流程图；

图2是本发明图1中步骤S1的流程展开示意图；

图3是本发明图1中步骤S2的流程展开示意图；

图4是本发明图3中步骤S21的流程展开示意图；

图5是本发明图1中步骤S3的流程展开示意图；

图6是本发明图5中步骤S31的流程展开示意图；

图7是本发明的一个实施例的过滤垃圾消息的系统的结构框图。

需要说明的是，这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

如图1所示，本发明的实施例提出了一种过滤垃圾消息的方法，应用于终端，步骤包括：

S1，提取接收的消息中的文字信息，并对所述文字信息进行处理获取分词集合；

在上述技术方案中，消息为微博、微信、淘宝、QQ或者其他应用程序推送的新闻、广告或者其他推送给用户的消息，当用户的手机(即，终端)接收到消息后，就会自动提取消息中的文字信息，并将该文字信息进行分词，得到分词集合，将该分词集合一一存储在存储列表中，然后从存储列表中一一调取分词集合中的分词，并分别与本地垃圾词库中存储的垃圾分词进行匹配，再然后当匹配得出该分词集合中垃圾分词的数量达到垃圾消息的垃圾分词数量时，就会对其进行过滤，否则进行进一步的云端判断；

在进行云端判断时，同样将分词集合与云端服务器中云端垃圾词库中存储的垃圾分词进行匹配，如果匹配确定出该分词集合为中垃圾分词的数量达到垃圾消息的垃圾分词数量时，就会对其进行过滤，如果没有达到垃圾消息的垃圾分词数量时，则确定该消息为有用消息并将消息推送给用户。

其中，如果消息中还包括除了文字以外的语音或图片信息时，会将语音信息和图片信息中的文字信息提取出来然后与消息中原有的文字信息结合在一起之后，再对结合后的文字信息进行处理。

通过上述技术方案，将终端上推送的消息经过本地和云端双重判断后确定出的有用消息推送给用户，这样能够提高垃圾消息过滤的准确率，进而高效地将垃圾消息过滤出去，进而保证推送的消息是用户需要的消息。

如图2所示，所述分词集合的获取方法为：

S11，将文字信息进行分词处理，并对获得的文字信息进行词性划分，分为实词类分词和虚词类分词；

S12，去除虚词类分词，保留实词类分词，并将实词类分词组成分词集合。

在上述技术方案中，在将分词集合与本地垃圾词库进行匹配之前，先对获得分词进行词性分析，词性具体包括：实词分为，名词、动词、形容词、数词、量词和代词，虚词分为，副词、介词、连词、助词、拟声词和叹词，将分词中的副词、介词、连词、助词、拟声词和叹词等虚词去除；

然后将去除虚词后的分词组合起来，形成分词集合。

例如，收到消息内容为“今天的天气很好”，进行分词处理后为“今天/的/天气/很好”,其中，“的”为助词，因此将分词中的“的”去除，然后得到的分词集合为“今天/天气/很好”。

如图3所示，所述步骤S2具体包括：

S21，将所述分词集合中的每个分词与本地垃圾词库进行匹配，从分词集合中提取本地垃圾分词，并确定所述本地垃圾分词的本地匹配指数；

在上述技术方案中，将去除虚词后的分词集合与本地垃圾词库进行匹配，确定出垃圾分词的占有指数(可以是垃圾分词的占有比例，也可以是垃圾分词的权重值)为本地匹配指数；

然后判断本地匹配指数是否在第一预定阈值范围内，如果不在则确定该消息为垃圾消息进行过滤，不推送给用户，如果在则进行进一步的云端判断，并根据云端判断结果确定是否将该消息过滤。

通过上述技术方案，首先将消息进行上述的本地判断，本地垃圾词库存储的是根据用户的使用习惯提取的与用户平时使用习惯不符的相应信息的垃圾词汇，这样，经过本地判断之后就可以将不符合用户习惯的消息过滤出去，但是本地判断比较局限，这样就需要进一步的云端判断，对该消息进行再一次过滤之后得到的消息为用户需要的有用消息，并推送给用户。

如图4所示，所述本地匹配指数的计算方法为:

S212，计算本地垃圾分词在所述分词集合中的第一比例；

在上述技术方案中，为分词赋予权重值的方式可以包括如下方式：

(1)根据词性的不同，为不同词性的分词赋予不同的权重值(例如，名词权重值为9，动词为8，形容词为7等)；或者

(2)根据分词在分词集合中的出现频率进行由大到小的排序，根据排序的结果为该分词赋予相应权值，可以是频率由大到小对应权重值由大到小；或者

(3)提取获取分词的时间信息，并为不同的时间段获取的分词赋予不同的权重值；或者

(4)将消息分为新闻、广告、购物、美食、生活等种类，根据消息的种类为消息进行初次加权，然后再对消息进行分词处理并采取上述的方案中的至少之一的加权方式进行再次加权处理，进而获得最终的加权结果，其中初次加权是根据消息种类的不同而为消息赋予不同的初次加权值。

将上述几种加权方式中任意一种或多种的分词与权值进行设置，在本地种将每个分词和与之对应的权值进行列表存储，以供后续获取的分词集合进行匹配；

分词集合中与本地垃圾词库相匹配的垃圾词汇为本地垃圾分词，从存储的列表中调取与本地垃圾分词一一对应的权重值，进而将对应的权重值赋予给每个本地垃圾分词，然后将所有的本地垃圾分词的权重值进行累加并除以本地垃圾分词的数目进而得出本地平均权重值；

将本地垃圾分词的数目除以分词集合总数，计算得出第一比例；再然后将本地平均权重值与第一比例代入相应函数中计算得出本地匹配指数。

通过上述技术方案，可以选择不同的加权方式为分词进行加权处理，这样能够根据实际情况进行选择，并匹配出最合适的加权方式，并且相应的加权方式可以互相结合使用，这样更能满足用户多样化的需求。

优选地，所述本地匹配指数为：

P1＝max(t1，q1)；

其中，t1为平均本地平均权重值，q1为第一比例，P1为本地匹配指数。

在上述技术方案中，将得到的平均本地平均权重值t1和第一比例q1代入max函数中，进行运算，得出的数值P1就是本地匹配指数，这样就可以将本地匹配指数与第一预定阈值进行比较，进而判断该消息是否为垃圾消息。

其中，如果分词集合中的词语未在本地垃圾词库中，则权值为0，如果分词集合中的词语在本地垃圾词库中，即，本地垃圾分词，则根据垃圾词库中的对应权值，为每个本地垃圾分词进行赋值。

通过比较平均本地平均权重值和第一比例的大小，如果消息中的垃圾词汇所对应的权重值都比较小，得出的本地平均权重值比较小，但是垃圾词汇的占有比例(即，第一比例)比较高，当出现这种情况时，就将第一比例作为本地匹配指数，根据第一比例的数值进行后续的处理；

另外，如果消息中的垃圾词汇对应的权重值比较大，得出的本地平均权重值比较大，但是垃圾词汇的占有比例比较小，出现这种情况时，就会选取本地平均权重值作为本地匹配指数，根据本地匹配指数进行后续处理。

这样，能够提高垃圾消息过滤的准确性。

例如，当用户收到以下消息：

“你好，你好，你好，你好，你好，你好”时，“你好”属于本地垃圾词库中的词语，“你好”在垃圾词汇中的权重为0.1，上述消息中共有6个“你好”，则得出平均本地权值为0.1，但是计算得出的第一比例是1，1＞0.1，因此，就选取第一比例1为本地匹配指数；1大于设定的阈值0.6，因此该消息是垃圾消息，并进行过滤。

又如，当用户收到以下消息：

“不给钱就杀了你”时，该消息进行分词处理“不给/钱/就/杀了/你”共5个词，其中“杀了”属于本地垃圾词库中的词语，权重是4，则得出平均本地权值为0.8，计算得出的第一比例是0.2，因此，就选取平均本地权值0.8为本地匹配指数；0.8大于设定的阈值0.6，因此该消息是垃圾消息，并进行过滤。

如图5所示，所述步骤S3具体包括：

S31，将所述分词集合中的每个分词与云端垃圾词库进行匹配，从分词集合中提取云端垃圾分词，并确定所述云端垃圾分词的云端匹配指数；

在上述技术方案中，将去除虚词后的分词集合与云端垃圾词库进行匹配，确定出垃圾词汇的占有指数(即，云端匹配指数)；

然后判断云端匹配指数是否在第二预定阈值范围内，如果不在则确定该消息为垃圾消息进行过滤，不推送给用户，如果在则将该消息推送给用户。

由于本地判断比较局限，这样就需要进一步的云端判断，对该消息进行再一次过滤之后得到的消息才为用户需要的有用消息，并推送给用户，这样能够提高推送消息的准确性。

如图6所示，所述云端匹配指数的计算方法为：

S312，计算云端垃圾分词在所述分词集合中的第二比例；

在上述技术方案中，在步骤S311之前，先获取分词集合中的分词总数N，然后采取与本地匹配指数的计算方法中的加权方式相同，为每个云端垃圾分词进行加权处理，并将所有和云端垃圾分词对应的权值进行累加得到权值总和M，然后M/N，得出云端平均权值；

然后，提取云端垃圾分词的数目A，将A/N，得出第二比例；再然后将云端平均权重值与第一比例代入相应函数中计算得出云端匹配指数。

优选地，所述云端匹配指数为

P2＝max(t2，q2)；

其中，t2为云端平均权重值，q2为第二比例，P2为云端匹配指数。

通过比较云端平均权重值和第二比例的大小，如果消息中的垃圾词汇所对应的权重值都比较小，得出的云端平均权重值比较小，但是垃圾词汇的占有比例(即，第二比例)比较高，当出现这种情况时，就将第二比例作为云端匹配指数，根据第二比例的数值进行后续的处理；

另外，如果消息中的垃圾词汇对应的权重值比较大，得出的云端平均权重值比较大，但是垃圾词汇的占有比例比较小，出现这种情况时，就会选取云端平均权重值作为云端匹配指数，利用云端平均权重值进行后续处理。

这样能够减小垃圾消息的误判率，提升消息的过滤效果，方便用户使用。

实施例二

如图7所示，本发明的实施例提出了一种过滤垃圾消息的系统1，包括：

处理单元11，用于提取接收的消息中的文字信息，并对所述文字信息进行处理获取分词集合；

本地判断单元12，用于将所述分词集合进行本地判断，当判断所述消息为垃圾消息时进行过滤，否则将分词集合推送至云端判断单元；

云端判断单元13，用于将所述分词集合进行云端判断，当判定所述消息为垃圾消息时进行过滤，否则在显示单元进行显示。

优选地，所述处理单元11包括：

划分模块111，用于将文字信息进行分词处理，并对获得的文字信息进行词性划分，分为实词类分词和虚词类分词；

提取模块112，去除虚词类分词，保留实词类分词，并将实词类分词组成分词集合。

优选地，所述本地判断单元12具体包括：

所述本地匹配单元具体包括:

P1＝max(t1，q1)；

优选地，云端判断单元13具体包括：

所述云端匹配单元具体包括：

P2＝max(t2，q2)；

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文件保护处理设备中的一些或者全部不见的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序，这样的实现本发明的程序可以存储在计算机可读介质中，或者具有一个或者多个信号的形式，这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专利的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种过滤垃圾消息的方法，应用于终端，其特征在于，步骤包括：

2.根据权利要求1所述的过滤垃圾消息的方法，其特征在于，所述分词集合的获取方法为：

3.根据权利要求1所述的过滤垃圾消息的方法，其特征在于，所述步骤S2具体包括：

4.根据权利要求3所述的过滤垃圾消息的方法，其特征在于，所述本地匹配指数的计算方法为:

S212，计算本地垃圾分词在所述分词集合中的第一比例；

5.根据权利要求4所述的过滤垃圾消息的方法，其特征在于，所述本地匹配指数为：

P1＝max(t1，q1)；

6.根据权利要求1所述的过滤垃圾消息的方法，其特征在于，所述步骤S3具体包括：

7.根据权利要求6所述的过滤垃圾消息的方法，其特征在于，所述云端匹配指数的计算方法为：

S312，计算云端垃圾分词在所述分词集合中的第二比例；

8.根据权利要求7所述的过滤垃圾消息的方法，其特征在于，所述云端匹配指数为

P2＝max(t2，q2)；

9.一种过滤垃圾消息的系统，其特征在于，包括：

10.根据权利要求9所述的过滤垃圾消息的系统，其特征在于，所述处理单元包括：