CN101447984A

CN101447984A - 一种自反馈垃圾信息过滤方法

Info

Publication number: CN101447984A
Application number: CNA2008101477188A
Authority: CN
Inventors: 傅彦; 夏虎; 陈安龙; 曾金全; 罗引
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2009-06-03
Anticipated expiration: 2028-11-28
Also published as: CN101447984B

Abstract

本发明公开了一种自反馈垃圾信息过滤方法，通过构建日志分析模块，能在人为操作尽可能少的情况下，根据过滤到的垃圾信息自我分析、自我决策、自我优化实行信息过滤规则的自反馈更新，大大提高了信息过滤速度和准确率，克服了传统海量信息过滤中人工参与度高，工作量大，速度和准确率与人的操作高度相关的缺点，实现了信息过滤自动化。

Description

一种自反馈垃圾信息过滤方法

技术领域

本发明涉及网络信息处理技术领域，具体来讲，涉及一种自反馈垃圾信息过滤方法。

背景技术

垃圾信息的通常定义为：未经请求和允许而收到的、对接收者来说无用的信息。垃圾信息的内容主要包括广告信息、色情信息、假中奖信息、欺诈信息、恶作剧等。垃圾信息的泛滥不仅影响了人们的正常生活，也给正在蓬勃发展的网络和移动行业带来了很大的负面影响，甚至成了一大社会公害。因此，研制垃圾信息过滤系统具有重要的经济价值和社会效益。

在手机短信、邮件以及web网页中，垃圾信息过滤技术已经得到广泛的应用。目前的垃圾信息的实时过滤方案中主要采用静态方式，即系统运行过程中主要依赖手动设置的关键词或者黑名单等，在系统初始化时加载过滤器来进行信息过滤。这样的静态方式必须经过人工手动的调整参数和知识库来达到优化系统的目的，浪费了大量的人力及物力，同时静态方式也没有充分利用系统运行过程中得到的有价值信息，主要为过滤到的垃圾信息。另外，目前存在的方案中多采用单一方式进行信息过滤，在实时系统中，快速过滤方法如黑名单等可以满足速度要求，但是过滤效果一般不够高，而效率较好的内容过滤如分类等却有致命的速度弱点。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种较高过滤效果、过滤速度较快的自反馈垃圾信息过滤方法。

为实现上述目的，本发明的自反馈垃圾信息过滤方法，包括以下步骤：

(1)、建立信息过滤规则库，各种信息过滤规则存入其中；

(2)、信息过滤器从过滤规则库中得到过滤规则，对信息流进行过滤，并将过滤结果存入信息日志库中；

(3)、构建日志分析模块，从信息日志库中读取垃圾信息，分析后更新信息过滤规则库中的过滤规则。

本发明通过构建日志分析模块，能在人为操作尽可能少的情况下，根据过滤到的垃圾信息自我分析、自我决策、自我优化实行信息过滤规则的自反馈更新，大大提高了信息过滤速度和准确率，克服了传统海量信息过滤中人工参与度高，工作量大，速度和准确率与人的操作高度相关的缺点，实现了信息过滤自动化。

附图说明

图1是本发明自反馈垃圾信息过滤方法一种具体实施方式的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，需要特别提醒注意的是，在以下的描述中，当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这儿将被忽略。

在本实施例中，以在短信中心对手机短消息进行过滤和自我优化为例对发明进行详细说明，信息过滤器为短信过滤器，包括：流量过滤器、黑白名单过滤器、抽样过滤器、关键词过滤器以及分类过滤器；信息过滤规则库为短信过滤规则库，包括流量策略库D31、黑白名单库D32、用户信息库D33、关键词库D34、分类器库D35；信息日志库为短信日志库R

短信过滤器，采用以下步骤对短信进行过滤：

步骤S11、接收短信中心的短信，读取短信过滤规则库中的流量策略库D31，并根据流量策略进行流量过滤，选中的短信作为可疑短信，进行黑白名单过滤，否则直接发送。

流量策略库D31存储流量监控策略，该策略结构至少包括：短信中转基站标识、基站段内消息数量、策略时间段、过滤比例等信息，如下表1所示：

基站标识

段内消息数量

策略时间段

过滤比例

表1

首先从流量策略库D31读取流量策略，并初始化过滤规则。然后接收短信中心的短信流，该短信至少包含基站标识、发送/接收方ID、发送时间、短信内容等信息。流量过滤模块根据如下方法对该短信流进行分时、分地过滤：

所谓分时，即根据同一基站在不同时间段内可能转发垃圾短信的比率不同而确定不同的短信过滤流量，例如：对于某基站A，在一个周期，假设一天时间内，根据其转发垃圾短信占所有短信比率的不同而分为n(n>0)个监控区间d，针对每一个监控区间，设定相关的监控比率r，则流量监控分时策略为：

M_d＝{(d₀，r₀)，(d₁，r₁)，...，(d_n-1，r_n-1)}

其中d_i＝[t₁，t₂)，且(t₁<t₂)，t_i(i＝1，2)为某一具体时间点，表示一个监控时间段，r₁∈[0，1]表示该时间段内的监控比率。则在一个监控区间内，分时过滤方法为：若基站A在监控时间段d_i＝[t₁，t₂)(例如内的例如12:00-14:00)内转发垃圾短信的比率超过一定阈值δ(例如30％)，而其他时间段转发垃圾短信的比例较少，则针对较高的时间段进行大概率(例如r_i＝0.3)抽样。

所谓分地，即根据不同基站转发垃圾短信的比率不同而设定不同的短信过滤流量，例如：对于不同的基站S_i，垃圾短信的分地监控策略为：

M_S＝{(s₀，p₀)，(s₁，p₁)，...，(s_n，p_n)，...}

其中，p_i＝[0，1]为基站S_i所对应的监控比率。则针对不同的基站，分地过滤方法为：若基站S₁和基站S₂，通过S₁基站的垃圾短信的比率一直低于某一阈值α(例如1％)，而通过S₂基站的垃圾短信的比率一直高于某一阈值β(例如50％)，则针对S₁基站进行小概率(例如p_i＝0.1)抽样，而针对S₂基站采用大概率(例如p_i＝0.6)抽样。

综上所述：任一基站S_k在任一时间段d_j的流量监控比率为：

R (s_{k}, d_{j}) = \sqrt{(r_{j} | M_{d}^{j}) \times (p_{k} | M_{s}^{k})}

根据需要，可以设置监控时间段，例如时间段可以为十分钟，一天或者一周，则对应的时间周期则为一天，一月或者一年。该时间周期结束时，将重新开始循环过滤。

步骤S12、接收流量过滤选中的可疑短信，读取短信过滤规则库中的黑白名单库D32，进行黑白名单过滤，正常短信则直接发送，拦截垃圾短信并生成垃圾短信日志后存入信息日志库R，可疑短信则进行抽样过滤。

黑白名单库D32存储黑、白名单及灰度值，该黑白名单结构至少包括：用户标识ID、灰度值等信息，如下表2所示：

用户ID

灰度值

表2

步骤S13、接收黑白名单过滤后的可疑短信，读取短信过滤规则库中的用户信息库D33，根据用户信任度进行抽样过滤，正常短信则直接发送，拦截垃圾短信并生成垃圾短信日志后存入短信过滤规则库中的信息日志库R，可疑短信则进行关键词过滤。

用户信息库D33存储用户抽样属性，该用户信息结构至少包括：用户标识ID、消息发送总数、正常消息总数、用户信任度、连续抽样标识、连续抽样正常短信数等信息，如下表3所示：

用户ID

发送总数

正常总数

用户信任度

连续抽样

抽样正常数

表3

用户信任度抽样是指根据用户的信任度对用户所发送的短信进行相应频率(强度)的抽样过滤。用户信任度是指对用户发送正常短信的信任程度，可以依据用户垃圾短信的发送量、正常短信的发送量和总的短信发送量计算而成。如果不同用户的垃圾短信发送量、正常短信发送量和总的短信发送量不同，那么信任度就不同。因此，对这些用户抽样监测的频率(强度)也就不一样。一般地讲，用户信任度越低，用户发送垃圾短信的可能性越大，被抽样的频率强度越高；用户信任度越高，用户发送垃圾短信的可能性越小，被抽样的频率强度越低。被抽样到的短信作为可疑短信，到下一步进行基于短信长度的过滤；未被抽样到的短信作为正常短信，并予以发送。

步骤S14、接收抽样过滤后的可疑短信，读取短信过滤规则库中的关键词库D34，进行关键词匹配过滤，正常短信则直接发送，拦截垃圾短信并生成垃圾短信日志后存入短信过滤规则库中的信息日志库R，可疑短信则进行分类过滤。

关键词库D34存储垃圾关键词，该关键词库结构至少包括：关键词值、关键词类别、词权重等信息，如下表4所示：

关键词值

类别

权重

表4

关键词过滤的功能是判断一条短信中是否存在或者存在多少于存储在系统中的敏感词表相对应的敏感词汇，并把这些词汇的权值累加得到一个最终值，并依次判断该条短信是否为垃圾短信。

当一些敏感词汇单独在短信中出现时，并不能说明此短信就是垃圾短信，但当它与一些其他词汇共同出现时，该短信为垃圾短信的机率将大大增加。因此可以考虑对敏感词组合进行过滤的方法，方法是：额外维护一个词汇组合表KEYWORDS，在表里每一项存放该项包含的词汇数量n，当前已经匹配成功的词汇计数count，还有该组合对应的权值等用于计算的信息，并在索引树的每个节点结构里增加一个该词所属的关键词组编号。匹配过程如下：

1.根据当前这个词所属的关键词组编号X，把KEYWORDS[X].count加一，并判断这时该值是否等于KEYWORDS[X].n，如果是，那么这个词组就算匹配成功了，然后可以取出该词组对应的权值作相应计算。

2.每条短信的匹配过程中记录下该条短信所有匹配成功的关键词所属的词组编号，在对一条短信匹配结束时，把它们的计数值count全部清零，以便下一条短信使用。

步骤S15、接收关键词过滤后的可疑短信，读取短信过滤规则库中的分类器库D35，进行内容分类过滤，正常短信则直接发送，拦截垃圾短信并生成垃圾短信日志后存入短信过滤规则库中的信息日志库R。

分类器库D35存数分类器，该分类器库结构至少包括：分类器类别、分类器识别号、分类器指针等信息，用来存储不同分类方法所生成的不同的分类器，如下表5所示：

类别

识别号

分类器指针

表5

在本实施例中，信息日志库R存储垃圾短信拦截记录，该信息日志库结构至少包括短信发送方ID、接收方ID、发送日期、时间、短信内容、基站标识、垃圾权值等信息，如下表6所示：

发送方ID

接收方ID

发送时间

短信内容

基站标识

垃圾权值

表6

日志分析包括以下步骤：

步骤S21、读取短信日志库R，将垃圾短信作为分类训练数据的垃圾信息端，同时获取正常短信作为分类训练数据的正常信息端，训练得到新的垃圾短信分类器，并更新至分类器库D35。

分类器训练可以用到各类分类方法，例如Bayes、决策树、神经网络、支持向量机(SVM)等等。

根据上述分类器训练方法，将计算得到一个分类过滤器。分类器的自反馈更新方法如下：

1、定时唤醒分类器训练线程；

2、根据系统日志，生成一个全新的分类器；

3、从短信过滤规则库的分类器库D35中获取本分类器对应的类别；

4、生成全局唯一分类器识别号，赋予分类器ID；

5、将当前分类器指针指向刚刚生成的分类器；

6、发布分类器更新消息，激活信息过滤端分类过滤S15的分类器更新功能，重新获得当前分类器指针所指向的分类器；

7、分类器训练线程休眠，等待下一定时时刻的自动唤醒。

通过以上步骤，实现了分类过滤和分类器训练的一个自反馈方案。

步骤S22、从垃圾短信中分析得到增量的关键词信息，更新至关键词库D34。

首先获取垃圾短信日志库中的一段时间垃圾短信，将每条短信的内容作为一个独立文本；

然后对所选择短信文本使用某一种有指导的聚类算法进行聚类，得到类别不同(例如广告类、欺诈类等)的文本集合；

再针对每个文本集合，利用某一种关键词提取算法(例如TF-IDF算法等)计算关键词权重，依权重由大到小排序后得到关键词列表；

最后将关键词列表中词和关键词库中词加权，更新关键词库并通知步骤S14重新获取关键词信息。关键词的自反馈更新方法如下：

1、定时唤醒垃圾关键词提取线程；

2、根据系统日志，根据上述方法得到一个权重由大到小排列的关键词列表；

3、将关键词按类别信息分别存储到短信过滤规则库的关键词库D34当中；

4、发布关键词库更新消息，激活信息过滤端分类过滤S14的关键词库更新功能，重新载入关键词库；

5、关键词提取线程休眠，等待下一定时时刻的自动唤醒。

通过以上步骤，实现了关键词过滤和关键词提取的一个自反馈方案。

步骤S23、对日志记录中发垃圾短信的用户进行综合分析，一方面用来增减黑白名单库D32，或者调整用户的黑白名单灰度值，另一方面调整用户信息库D33，得到随时间更新的用户抽样策略。

先获取垃圾短信日志库中的一段时间垃圾短信；

根据步骤S22方法获取每条垃圾短信关键词及其权重smg＝{(word₀，weight₀)，(word₁，weight₁)，...，(word_n，weight_n)，其中，word_i为关键词信息，weight_i为关键词权重；

统计所有垃圾短信用户的用户ID列表，则用户i发送的垃圾短信的信息集合为user_i＝(smg₀，smg₁，...，smg_m)；

计算用户i发送短信的垃圾权重方法如下：

weight ({user}_{i}) = Σ_{j = 0}^{user (i) . length} Σ_{k = 0}^{smg (j) . length} {weight}_{k}

最后根据以上发送垃圾短信用户垃圾权值来更新黑白名单库和用户信息库，更新方法为：对黑白名单进行加权，即增大黑白名单用户的灰度值；降低用户信息库中用户信任度，增加其发送短信的抽中比例。用户分析对用户信息库和黑白名单库的自反馈更新方法如下：

1、定时唤醒用户分析线程；

2、根据系统日志，根据上述方法得到一个根据用户所发送的垃圾短信生成的垃圾用户权重列表；

3、针对每一个用户：

1)从短信过滤规则库中的黑白名单库D32中获取用户对应的黑白名单信息；

2)若用户存在于黑名单中，则对其灰度值进行增量加权更新；若用户存在于白名单中，则对其灰度值进行减量加权更新；否则将用户增加到黑名单库，并赋予一个较小的黑名单灰度值；

3)从短信过滤规则库中的用户信息库D33获取用户对应的用户信任度信息；

4)对用户信任度进行减量加权更新，增加其短信被过滤的几率；

4、重复步骤3，直到所有用户的黑白名单信息和信任度信息更新完毕；

5、发布黑白名单库和用户信息库更新消息，激活信息过滤端的黑白名单过滤S12的黑白名单库更新功能，重新载入黑白名单库，同时激活抽样过滤S13用户信息库更新功能，重新载入用户信息库；

6、用户分析线程休眠，等待下一定时时刻的自动唤醒。

通过以上步骤，实现了黑白名单过滤和抽样过滤与用户分析之间的一个自反馈方案。

步骤S24、根据短信中心不同基站，不同时段、不同监测结果生成新的流量监控策略，随时间更新监控策略库D31。

首先获取短信日志库中的垃圾短信，根据短信中的时间信息和基站信息进行不同层次聚合。再根据流量监控的分时分地策略，如步骤S11所述，统计不同基站在不同时间段垃圾短信的数量，获取当前批次垃圾短信的分时分地策略。最后与历史数据加权平均后即得到新的流量监控策略并通知流量过滤S11步骤更新策略。流量策略生成对流量策略库的自反馈更新方法如下：

1、定时唤醒流量策略生成线程；

2、根据系统日志，根据上述方法得到针对每个基站不同时段的分时分地监控策略；

3、将新的监控策略按基站信息的不同分别存储到短信过滤规则库的监控策略库D31当中；

4、发布监控策略更新消息，激活信息过滤端流量过滤S11的监控策略更新功能，重新载入对应基站的流量监控策略；

5、流量策略生成线程休眠，等待下一定时时刻的自动唤醒。

通过以上步骤，实现了流量过滤和流量策略生成之间的一个自反馈方案。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化时显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1、一种自反馈垃圾信息过滤方法，其特征在于，包括以下步骤：

(1)、建立信息过滤规则库，各种信息过滤规则存入其中；

2、根据权利要求1所述的自反馈垃圾信息过滤方法，其特征在于，所述的信息过滤规则库中为流量策略库，流量策略库包括信息中转基站标识、基站段内消息数量、策略时间段、过滤比例；

信息过滤器为流量过滤器，读取流量策略库的中转基站标识、基站段内消息数量、策略时间段、过滤比例，根据流量过滤器读入的中转基站标识、基站段内消息数量、策略时间段、过滤比例信息，对同一基站在不同时间段内可能转发垃圾信息的比率不同而确定不同的信息过滤流量，不同基站转发垃圾信息的比率不同而设定不同的信息过滤流量；

首先获取信息日志库中的垃圾信息，根据信息中的时间信息和基站信息进行不同层次聚合；再根据流量监控的分时分地策略，统计不同基站在不同时间段垃圾信息的数量，获取当前批次垃圾信息的分时分地策略；最后与历史数据加权平均后即得到新的流量监控策略并通知流量过滤步骤更新策略。

3、根据权利要求1所述的自反馈垃圾信息过滤方法，其特征在于，所述的信息过滤规则库中为黑白名单库，黑白名单库存储黑、白名单及灰度值；

接收流量过滤选中的可疑信息，读取信息过滤规则库中的黑白名单库，进行黑白名单过滤，正常信息则直接发送，拦截垃圾信息并生成垃圾信息日志后存入信息日志库，可疑信息则进行抽样过滤；

对日志记录中发垃圾信息的用户进行综合分析，一方面用来增减黑白名单库，或者调整用户的黑白名单灰度值，另一方面调整用户信息库，得到随时间更新的用户抽样策略。

4、根据权利要求1所述的自反馈垃圾信息过滤方法，其特征在于，所述的信息过滤规则库中为用户信息库，存储用户抽样属性，该用户信息库包括：用户标识ID、消息发送总数、正常消息总数、用户信任度、连续抽样标识、连续抽样正常信息数信息；

接收信息，读取信息存储端中的用户信息库，根据用户信任度进行抽样过滤，正常信息则直接发送，拦截垃圾信息并生成垃圾信息日志后存入信息存储端中的信息日志库，可疑信息则进行关键词过滤；

对日志记录中发垃圾信息的用户进行综合分析，依据用户垃圾信息的发送量、正常信息的发送量和总的信息发送量计算用户信任度，并用户信息库。

5、根据权利要求1所述的自反馈垃圾信息过滤方法，其特征在于，所述的信息过滤规则库中为关键词库，关键词库包括关键词值、关键词类别、词权重；

接收信息，读取信息过滤规则库中的关键词库，进行关键词匹配过滤，正常信息则直接发送，拦截垃圾信息并生成垃圾信息日志后存入信息过滤规则库中的信息日志库，可疑信息则进行分类过滤；

首先获取垃圾信息日志库中的一段时间垃圾信息，将每条信息的内容作为一个独立文本；然后对所选择信息文本使用某一种有指导的聚类算法进行聚类，得到类别不同的文本集合；再针对每个文本集合，利用某一种关键词提取算法计算关键词权重，依权重由大到小排序后得到关键词列表；最后将关键词列表中词和关键词库中词加权，更新关键词库。

6、根据权利要求1所述的自反馈垃圾信息过滤方法，其特征在于，所述的信息过滤规则库中为分类器库，分类器库包括：分类器类别、分类器识别号、分类器指针等信息，用来存储不同分类方法所生成的不同的分类器；

接收信息，读取信息过滤规则库中的分类器库，进行内容分类过滤，正常信息则直接发送，拦截垃圾信息并生成垃圾信息日志后存入信息过滤规则库中的信息日志库；

读取信息日志库，将垃圾信息作为分类训练数据的垃圾信息端，同时获取正常信息作为分类训练数据的正常信息端，训练得到新的垃圾信息分类器，并更新至分类器库。