CN101908055A

CN101908055A - 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统

Info

Publication number: CN101908055A
Application number: CN 201010118656
Authority: CN
Inventors: 韩咏; 齐浩亮; 杨沐昀; 何晓宁; 李生; 王丁; 孙育华; 雷国华
Original assignee: Harbin Institute of Technology; Heilongjiang Institute of Technology
Current assignee: Harbin Institute of Technology; Heilongjiang Institute of Technology
Priority date: 2010-03-05
Filing date: 2010-03-05
Publication date: 2010-12-08
Anticipated expiration: 2030-03-05
Also published as: CN101908055B

Abstract

一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统，涉及到一种信息过滤方法及该方法中的阈值设定方法。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。所述优化lam%的信息分类阈值的设定方法是设定偏置的分类阈值，使hm%或sm%趋近于0，进而使得lam%的值趋近于0。所述信息过滤系统包括特征权重库、训练器、信息过滤器，其中，信息过滤器用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别，将所述信息分为正常信息和垃圾信息。本发明可应用于网络信息过滤和手机垃圾短信过滤等电子信息的过滤。

Description

一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统

技术领域

本发明涉及到一种信息过滤方法及该方法中的阈值设定方法，具体涉及到垃圾邮件、短信过滤等信息过滤方法，即该方法中的分类阈值设定方法。

背景技术

随着信息技术的迅猛发展，电子邮件、手机短信已经成为人们日常工作和生活中进行通讯和交流的主要手段，有效地促进了人类社会的生产和进步。但是，伴随而来的大量垃圾邮件和垃圾短信严重影响了它们的的正常使用。2008年三季度中国网民平均每周收到垃圾邮件的数量为17.86封，与去年同期相比增加1.17封，增幅为7.0%；收到垃圾邮件所占的比例为57.89%，与去年同比上升了2.04个百分点，全球的平均水平更是高于上述数据（“2008 年第三季度中国反垃圾邮件调查报告”http://www.12321.cn/viewnews.php?id=10752）。而垃圾短信的数量更是惊人，央视2008年“315晚会”曝光垃圾短信制造内幕，垃圾短信每天发送数亿条。这些垃圾信息危害社会，浪费了用户的时间、精力和金钱，损害了用户的利益。少数别有用心者利用垃圾邮件、垃圾短信散播各种虚假信息或有害信息，严重危害了社会的稳定。如何有效地进行这些垃圾信息进行有效过滤是当前迫切需要解决的问题。

垃圾邮件过滤和垃圾短信过滤都是典型的信息过滤系统，基于内容的过滤系统采用了相同或相似的技术手段。

为了解决信息过滤问题，人们提出了许多解决方案，其中过滤技术具有自动化程度高、准确度高、易被使用者接受的优点，具备研究价值和发展空间，逐渐成为研究的热点。为了检验各种过滤技术在实际垃圾邮件过滤中的有效性，国内外举办了高水平的会议和评测。著名的国际文本信息检索评测TREC（Text Retrieval Conference）会议于2005年开始举办垃圾邮件过滤评测子任务，并在2006年进行了中文垃圾邮件过滤评测。CEAS（Conference on Email and Anti-Spam）于2007年开始进行专门针对垃圾邮件过滤问题的评测。国内的全国搜索引擎和网上信息挖掘学术研讨会（SEWM，Search Engine and Web Mining）于2007年首次增加了垃圾邮件过滤评测项目。这些会议和评测极大地推动了过滤技术的发展，完善了过滤技术的评价体系，积累了丰富的实验数据。

当前,典型的垃圾邮件过滤技术包括：黑白名单技术、基于规则和模式匹配的过滤技术和基于机器学习方法的过滤技术。黑白名单技术是一种简单、有效、最为常用的过滤方法，其通过IP地址进行过滤，还可以通过收件人的地址列表进行过滤。其优点是处理速度快，可以在网关上进行配置，能够节省大量的网络带宽、存储容量和处理时间；缺点是约束过强、不够灵活，对垃圾邮件的判别准确度不高。基于规则和模式匹配的过滤技术也是一种常用的过滤方法，其设置一系列的过滤规则，并通过查找已有的垃圾邮件的匹配模式进行过滤。规则可以通过人的经验和机器学习相结合的方式获得，其优点是规则处理的目的性很强，规则本身比较容易理解和修改，并具备一定的模糊匹配的性能；缺点是规则数量过大带来了难以快速匹配的问题，规则之间存在冲突带来了规则冲突解决和规则维护的问题。基于机器学习方法的过滤技术对电子邮件的内容（如标题、发件人、发送时间、正文文本等）进行分析，在机器学习的模型建模和参数优化理论的基础上，通过对样本的学习来训练过滤器，并利用经过训练的过滤器识别出垃圾邮件。由于其正确率高、成本低，机器学习技术逐渐成为解决垃圾邮件过滤问题的主流方法。

垃圾邮件过滤的目的是将邮件区分为两种形式：垃圾邮件（Spam）或正常邮件（Ham），所以将其转化成二值分类问题是一种很自然的基于观察的问题分析和建模方法。在此基础上，研究采用的分类算法从模型原理上可以分为两种：以朴素贝叶斯模型为代表的生成模型，以支持向量机模型（Support Vector Machine, SVM）和最大熵模型（Maximum Entropy, ME）为代表的判别学习模型。基于生成模型的过滤系统中，著名Bogo系统依据朴素贝叶斯模型构建，其在TREC评测中作为基准（Baseline）系统。近年来，CTW（Context tree weight）和PPM（Prediction by Partial Match）等数据压缩算法也被用来解决垃圾邮件过滤问题。CTW和PPM是数据压缩中使用的动态压缩算法，其原理是根据已经出现的数据流预测后面要出现的数据流，预测的越准，所需的编码也就越少，并据此进行分类。早在1999年，Provost就在研究中表明，贝叶斯模型性能优于基于规则的方法。基于判别学习模型的过滤系统中，Drucker和Vapnik在1999年利用线性支持向量机模型，选用了词特征、二值特征、TF-IDF等多种特征进行垃圾邮件过滤，取得了很好的实验结果。Goodman和Yin提出使用在线逻辑回归模型，避免了SVM、最大熵模型的大量计算，并取得了与上一年度（2005年）TREC评测最好结果可比的结果。Sculley和Wachman采用不严格的在线支持向量机模型（Relaxed Online SVM）解决垃圾邮件过滤问题，从而克服了支持向量机计算量大的问题，并在TREC 2007评测中取得了很好效果。传统生成模型认为数据都是基于某种分布生成的，并据此建模。采用最大似然估计（Maximum Likelihood Estimation, MLE）来求解模型参数，并用平滑算法来解决数据稀疏问题。这种方法仅当以下两个条件都满足时才是最优的：第一，数据的概率分布形式是已知的；第二，存在足够大的训练数据时才能采用最大似然估计来求解模型参数。但在实际应用中，这两个条件很多时候无法满足。判别学习模型与生成模型有本质差异，其假设条件比MLE弱得多，只要求训练数据和测试数据来自同一个分布即可。而且，判别学习算法的目标往往与实际应用的评价标准密切相关（如使模型在训练数据上的错误率最小化）。在垃圾邮件过滤问题的相近领域文本分类中，判别学习模型的分类效果要好于生成模型，尤其在小样本集的训练数据下，这种现象更为明显。在2004年，Hulten和Goodman在PU-1垃圾邮件集上，基于不同类的过滤模型进行实验，也取得了同样的实验结果：即在邮件过滤模型中，判别学习模型的分类效果要好于生成模型。在近年的国际TREC和CEAS的评测，以及国内的SEWM评测中，判别学习模型都获得了成功。

此外，过滤器（分类器）根据学习方式的不同可以分为在线学习和离线学习（批量学习）两种。离线学习方式下，通过训练样本调整分类器的参数，实际应用时不再调整分类器的参数；在线学习方式下，分类器根据用户的反馈不断调整系统参数，使系统能够适应不断变化的应用环境。在线学习适用于需要快速更新的环境，受制于在线更新学习器，参数更新算法的复杂度要低，以适应实际应用的需求。由于垃圾邮件的发送者针对过滤系统不断地更新内容欺骗和内容隐藏的方式，这就要求垃圾邮件过滤器具有良好的适应能力。此前的研究已经表明，在垃圾邮件过滤领域，在线过滤方式性能优于离线批处理方式。这是由于在线垃圾邮件过滤系统能够根据用户的反馈在线调整系统参数，使系统能够适应不断变化的应用环境；在线垃圾邮件过滤器具有良好的适应能力，能够满足过滤不断变化的垃圾邮件的要求。国内外评测实验的结果表明：在线学习方式能够满足过滤不断变化的垃圾邮件的要求，这也是TREC、CEAS和SEWM评测采用在线学习方式的原因。

虽然利用二值分类器的判别学习方法解决垃圾邮件过滤问题在国内外的评测中取得不错的成绩，但是从问题分析和建模的角度，用分类模型解决垃圾邮件过滤存在问题。在分类模型的训练过程中，分类器的优化目标是寻求一组带权重的参数，或者一个最优分类面，并在此基础上进行一定程度上的泛化，以求最小化邮件分类错误的个数，也就是说，它们的优化目标是降低垃圾邮件被错误划分为正常邮件和正常邮件被错误划分垃圾邮件的错误数总和。然而，1-ROCA和lam%（logistic average misclassification percentage，逻辑平均误判率）是以垃圾邮件过滤为代表的信息过滤系统性能的评价指标，被TREC,CEAS,SEWM中一致使用。邮件分类错误的个数与1-ROCA和lam%并不直接相关，导致现有分类模型的优化目标和过滤评价指标的不一致。换言之，将分类错误数总和降至最低并不能保证过滤器的性能也达到最优。由此可见，垃圾邮件过滤的性能尚有提升的空间和更好的解决方法。

在机器学习领域，近年ROC（Receiver Operating Characteristic，受试者工作特征）的相关研究受到学术界的关注，如国际机器学习大会（ICML）分别在04、05和06年进行了3个Workshop，讨论ROC相关问题。但到目前为止，尚未见以1-ROCA为优化目标的垃圾邮件过滤器及信息过滤系统。在整个机器学习领域，以1-ROCA为优化目标的研究也较少，在二值分类及信息过滤系统的相关研究中，据我们所知，只有下面三篇文献进行了一定程度的研究：

一、L. Park and J. Moon. A Learning Method of Directly Optimizing Classifier Performance at Local Operating Range（一种在局部操作区间直接优化过滤器性能的学习方法）. Proceedings of International Conference on Intelligent Computing (ICIC-05), 2005，

二、T. Joachims. A Support Vector Method for Multivariate Performance Measures.（一种用于多变量性能度量的支持向量机方法）. Proceedings of the 22nd International Conference on Machine Learning(ICML-05), 2005，

三、L. Yan, R. Dodier, M. C. Mozer and R. Wolniewicz. Optimizing Classifier Performance Via an Approximation to the Wilcoxon-Mann-Whitney Statistic. （通过对Wilcoxon-Mann-Whitney 统计量的近似优化过滤器性能）Proceedings of the 20th Annual International Conference on Machine Learning(ICML-03), 2003。

其中第一篇文献直接根据1-ROCA的定义对该指标进行优化。第二、三篇文献指出Wilcoxon’s Rank Sum Statistic与1-ROCA相关。由于直接计算1-ROCA计算量大，因此第三篇文献采用近似算法进行计算，但模型优化存在偏差。第二篇文献改进SVM模型使其适合于排序方法，并直接通过降低错误的样本序对（Swapped pairs）来达到优化1-ROCA的目的，但由于SVM模型的复杂度较高，计算量偏大。因此，这些相关的研究和方法都不能直接应用到垃圾邮件过滤的解决中。

国内的学者们也在基于机器学习的过滤方法研究中取得了很多成果，尤其是在中文垃圾邮件过滤方面做出了很大贡献。清华大学为TREC评测提供了垃圾邮件过滤的中文数据。华南理工大学的董守斌教授为国内的SEWM评测提供了评测数据、方法和流程；大连理工大学分别研究了基于SVM模型、朴素贝叶斯模型和语言模型的过滤系统，山东大学采用了基于规则技术与分类器融合的过滤系统，这些学校积极参与了这些评测，并取得了很好的成绩。中科院计算技术研究所王斌等对垃圾邮件过滤问题进行了深入的研究和综述国内外的研究方法与成果；北京邮电大学的方滨兴院士等将垃圾邮件过滤系统实用化，钟义信教授的研究团队也在短信过滤研究中取得了成果；中国科技大学的王煦法教授提出了基于人工免疫的多层垃圾邮件过滤算法、北京大学陈钟教授研究了基于后缀数组聚类的中文垃圾邮件过滤方法、浙江大学徐从富教授深入地研究了垃圾邮件过滤的相关算法，并申请了基于逻辑回归的中文垃圾邮件过滤方法的专利、复旦大学牛军钰教授提出了基于时间流特性的垃圾邮件过滤方法、上海交通大学李建华教授申请了智能化电子邮件内容过滤方法的专利。黑龙江工程学院的齐浩亮等参加了SEWM08中文垃圾邮件过滤评测，采用在线判别学习模型，取得了在线学习任务的全部第一。

采用在线学习模型的垃圾邮件过滤系统中，训练模型根据用户的反馈信息（正常邮件和垃圾邮件）训练邮件过滤模型的特征权重，并对特征权重库进行更新；邮件过滤器基于特征权重库中的特征及其权重对于接受到的新邮件进行判别。

用户在处理邮件的过程中，不定时不定量地给予训练模型新的反馈信息来支持特征权重的动态调整和更新，这使得过滤器能够及时处理不断变化的垃圾邮件。

垃圾邮件过滤研究的传统方法都是将其视为二值分类问题，并在此基础上建立以最小化分类错误的个数为优化目标的分类模型。

在理想情况下，分类模型能够给出在测试集上的正确预测。然而，真实环境下无法完全保证模型的预测完全正确，需要借助合适的评价指标对于不同模型的性能给予评价。模型性能评价指标主要有：准确率（Accuracy）、错误率（Error rate）、查准率（Precision）、查全率（Recall）、F1值等。但是这些评价指标不适合用来评价垃圾邮件过滤问题，其缺陷在于：上述指标都只在一个操作点有效，而无法体现过滤模型在不同参数阈值下的整体性能；当测试集中正例和反例的比例改变或比例差异很大，类别分布的改变，或者正例或反例错分的损失不同时，上述指标不能体现模型的性能。

垃圾邮件过滤研究的核心评价标准是接收者操作曲线ROC（Receiver Operating Characteristic, ROC），也叫做查全率-错检率曲线。其具有如下两个优点，能够克服上述评价指标的缺陷：一是其不受类的分布影响，对类别分布的改变不敏感(即对垃圾邮件和正常邮件的所占比例的变化不敏感)，适合评估垃圾邮件和正常邮件分布不平衡的垃圾邮件数据集；二是在垃圾邮件误判率（sm%）和正常邮件误判率（hm%）对垃圾邮件过滤性能（或者说是使用者评价）损失不明的情况下，评价指标包含所有可选阈值，不受所选决策阈值限制。

关于ROC曲线介绍的文献可以参考G. Cormack, T. Lynam, TREC 2005 Spam Track Overview（TREC 2005垃圾邮件过滤综述）. The Fourteenth Text REtrieval Conference (TREC 2005) Proceedings。

垃圾邮件过滤还使用lam%这个单一评价指标作为参考。尽管hm%和sm%不能有效地评价过滤器性能，与过滤器的二值分类相关的单值度量仍然是有意义的。这个度量可以使用逻辑平均误判率（lam%）指标，代表正常和垃圾邮件误判比率的几何平均数。其没有区分垃圾邮件误判和正常邮件误判，同等对待二者的提高。

提升模型性能的最直接有效方法就是优化模型的评价指标。传统的分类方法以最小化分类错误个数为优化目标，造成了过滤模型的优化目标与垃圾邮件过滤问题本身的评价指标不一致，导致了模型优化结果的偏差。

发明内容

为了解决现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题，本发明提出一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统。

本发明的优化lam%的信息分类阈值的设定方法为：设定偏置的分类阈值，使hm%或sm%趋近于0，进而使得lam%的值趋近于0。

采用上述信息分类阈值的设定方法的信息过滤系统，它包括特征权重库、训练器、信息过滤器，

特征权重库，用于存储垃圾信息和正常信息的特征及其权重信息；

训练器，用于根据用户的反馈信息，调整/更新特征权重库中的特征及其权重；

信息过滤器，用于对接收信息进行特征提取并获得特征信息；还用于基于特征权重库中的特征对于接收到信息进行识别，将所述信息分为正常信息和垃圾信息；

所述信息过滤器中，对新信息进行识别的方法为：

建立基于排序策略的信息过滤模型框架，

令x_i表示正例，x_j表示反例，

Figure 2010101186565100002DEST_PATH_IMAGE002

表示一致的序对，其目标值为

Figure 2010101186565100002DEST_PATH_IMAGE004

；

Figure 2010101186565100002DEST_PATH_IMAGE006

表示不一致的序对，其目标值为

Figure 2010101186565100002DEST_PATH_IMAGE008

，排序模型目标是在假设空间H中找到一个的h∈H ，使其满足最小化不一致序对

，则有：

公式二：

，

公式中，w表示特征权重向量，

，

将公式二进行变换，将作为新的特征向量，得到公式三：

公式三：

，

根据公式三得到最优的参数W后，获得新信息X的预测分值为

；获得新信息的预测分值，根据对比所述预测分值和设定的阈值，判定所述新信息是否是垃圾信息。

本发明还提供一种采用上述信息分类阈值的设定方法的信息过滤系统，该系统包括特征权重库、训练器、信息过滤器，其中：

所述信息过滤器中，对新信息进行识别的方法为：

建立基于排序策略的信息过滤模型框架，

令x_i表示正例，x_j表示反例，

表示一致的序对，其目标值为

；

表示不一致的序对，其目标值为

Figure 2010101186565100002DEST_PATH_IMAGE008A

，则有：

公式二：，

公式中，w表示特征权重向量， ,

将

定义为

，即两个类别信息的得分之差，令

=，其中

为符号函数，当x>=0时，

Figure 2010101186565100002DEST_PATH_IMAGE012

；否则，

Figure 2010101186565100002DEST_PATH_IMAGE014

，

则公式二可以改写成：

公式五：

Figure 2010101186565100002DEST_PATH_IMAGE016

，

基于公式五，结合逻辑回归模型，定义

为：

公式六：

，

令

，则有：

公式七：

，

其中公式六为面向1-ROCA优化的在线排序逻辑回归学习算法，

根据公式七可以得到以梯度下降方法更新并获得参数向量权重w；并据此对新信息的进行预测，根据对比所述预测分值和设定的阈值，判定所述新信息是否是垃圾信息。

本发明所述的优化lam%的信息分类阈值的设定方法，与现有垃圾信息的过滤模型没有关系，因此可以应用于现有各种信息过滤系统中用于优化信息过滤系统的lam%，提高信息过滤系统的性能，优化过滤系统的技术指标。

本发明所述的信息过滤系统与以往的信息过滤系统的过滤方法不同，本发明同时针对核心评价指标lam%和1-ROCA进行优化，引入排序模型解决信息过滤问题，本发明解决的关键问题包括：

(1) 基于排序策略的信息过滤模型的构建方法

基于对核心评价指标1-ROCA进行优化、将信息过滤问题转化成排序问题是本发明的基本思想，研究新的过滤模型构建方法、形式化定义和公式描述，从而建立基于排序策略的信息过滤模型。

(2) 面向信息过滤的在线排序逻辑回归学习算法

鉴于信息过滤要求排序算法具有高性能、快速、低存储的特性，而现有的排序算法无法满足这些要求，本发明提出排序逻辑回归学习算法解决该问题，并进一步提出面向1-ROCA优化的在线排序逻辑回归学习算法解决在线过滤时出现的信息得分波动导致性能下降的问题。

(3) 模型参数优化计算量过大的问题

采用在线排序逻辑回归学习算法后，计算量会显著增大，如不解决该问题将影响模型的应用。本发明采用仅对近期信息构成的序对进行训练的方法并结合TONE（Train On or Near Error）算法，解决了计算量大的问题。

本发明的信息过滤系统的优点有：

（1）提出基于评价指标优化的信息过滤建模新方法，研究基于排序策略的信息过滤基本框架，用分类模型代替传统分类模型，避免了模型优化目标与过滤问题评价指标不一致的问题，是信息过滤研究中新的思路和探索；

（2）在建立了过滤模型框架的基础上，研究适应于信息过滤的新排序算法，提出排序逻辑回归学习算法解决排序问题，并进一步针对在线过滤时出现的信息得分波动导致性能下降的问题，提出面向1-ROCA优化的在线排序逻辑回归学习算法进行解决；

（3）提出并综合运用基于TONE策略的参数权重更新算法和重采样技术，以解决参数优化计算量过大问题，满足过滤模型的在线、实时要求。

（4） lam%和1-ROCA的同时优化，TREC和SWEM都以1-ROCA作为核心评价指标，而lam%只是作为一个参考指标。CEAS不区分两者的重要性。从评价体系看，lam%也是一个重要指标。本发明从lam%的定义出发，对其进行了分析，得到了lam%的优化方法。由于该优化方法与具体的过滤模型无关，因此可以应用在本发明提出的模型中，同时优化1-ROCA和lam%。

本发明的方法不但可以为信息过滤问题提供解决策略和支撑技术，还将为众多的以1-ROCA为优化目标的二值分类问题提供新的解决思路，为网络信息过滤问题、手机垃圾短信过滤问题、以及医疗诊断等问题的解决提供重要参考，同时，还将促进排序模型的发展。

具体实施方式

具体实施方式一：本实施方式所述的是一种优化lam%的信息分类阈值的设定方法，所述设定方法为：设定偏置的分类阈值，使hm%或sm%趋近于0，进而使得lam%的值趋近于0，即：使得

的值趋近于零，达到最小化lam%的目的。

例如，可以设置分类阈值为0.999999。

本实施方式中，不能将阈值设置过偏；否则，将出现计算log(0)的情况，即导致lam%无法计算的情况出现。因此，本实施方式的信息分类阈值偏向hm%或sm%，但不使其为0。

上述获得信息分类阈值的方法与所述过滤系统所使用的过滤模型无关，因此该种信息分类阈值的设定方法可以应用于现有任何一种信息过滤系统中。

在过滤系统中，将待判定信息的预测分值与本方法获得的信息分类阈值进行比较，当结果大于零时，所述待判定信息被判定为垃圾信息，否则，所述待判定信息被判定为正常信息。

由于所述信息分类阈值是根据最小化lam%的原则设定的，因此采用所述信息分类阈值对信息进行分类的过滤系统的评价指标lam%趋近于0，即，使得所述过滤系统的性能良好。

由于是简单设置阈值来达到优化lam%的目标，与具体的过滤模型无关，因此上述方法与现有任何一种过滤模型配合使用，都能达到提高过滤效率的目的。

所述lam%的的定义如公式一所示：

公式一：

（1）

根据公式一，结合

的定义

，

设

，即，

则有：

为单调函数，当

的值最小时， lam%的值也最小，因此当hm%或sm%趋近于0时，的值最小。即：当信息分类阈值偏向hm%或sm%中的任何一侧时，都能够使得lam%的值趋近于零。但所述阈值不能够设置过偏，否则将出现计算log(0)，导致lam%无法计算的情况出现。采用本方法确定的阈值，能够使hm%或sm%很小，趋近于0，lam%也趋近于0，即数值计算时候lam%为0。

具体实施方式二：本实施方式所述的是基于具体实施方式一所述的信息分类阈值的设定方法的信息过滤系统，它包括特征权重库、训练器、信息过滤器，其中：

所述信息过滤器中，对新信息进行识别的方法为：

建立基于排序策略的信息过滤模型框架，

令x_i表示正例，x_j表示反例，

表示一致的序对，其目标值为

；

表示不一致的序对，其目标值为，排序模型目标是在假设空间H中找到一个的h∈H ，使其满足最小化不一致序对

，则有：

公式二：

（2）

公式中，w表示特征权重向量，

，其中R为Real的缩写，表示实数。

将公式二进行变换，仿照文献T. Joachims, Optimizing Search Engines Using Clickthrough Data（使用点击数据优化搜索引擎）, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), ACM, 2002构造排序支持向量机的方式，将

作为新的特征向量x，可以得到公式三：

公式三：

（3）

根据公式三得到最优的参数W后，获得新信息X的预测分值为

；获得新信息的预测分值，根据对比所述预测分值和设定的阈值，判定所述新信息是否是垃圾信息；

所述设定的阈值采用具体实施方式一所述的方法获得。

上述对新信息进行识别的方法还可以按逻辑回归模型进一步具体化为：

公式四：

（4）

其中，参数向量权重W的更新算法采用的是现有基于梯度下降的权重更新方法。

本实施方式中的公式四采用借鉴已有的（Ranking SVM）定义排序算法的方法，将两个类别的特征之差作为新样本的特征值。

本实施方式使得传统的逻辑回归模型能够解决排序问题。

本实施方式中的公式四没有控制信息得分均衡的机制，这将导致信息的得分可能会发生波动。在信息过滤中，过滤器不能更改已经做出的判断，信息的得分波动会提高1-ROCA值，即影响过滤器的性能。

本实施方式中的阈值是采用具体实施方式一所述的方法获得的，能够达到优化lam%的目的，同时本实施方式的新信息进行识别的方法采用了基于排序策略的方法，优化了1-ROCA，所以本实施方式所述的信息过滤系统能够达到同时优化1-ROCA和lam%的目的，进一步提高了系统的过滤性能。

具体实施方式三：本实施方式提供另一种基于具体实施方式一所述的垃圾信息分类阈值的设定方法的信息过滤系统，该系统包括特征权重库、训练器、信息过滤器，其中：

所述信息过滤器中，对新信息进行识别的方法为：

建立基于排序策略的信息过滤模型框架，

令x_i表示正例，x_j表示反例，

表示一致的序对，其目标值为

；

表示不一致的序对，其目标值为

，则有：

公式二：

（2）

公式中，w表示特征权重向量，

,

将

定义为

Figure 2010101186565100002DEST_PATH_IMAGE018

，即两个类别信息的得分之差，令

=

Figure 2010101186565100002DEST_PATH_IMAGE020

，其中

Figure 2010101186565100002DEST_PATH_IMAGE022

为符号函数，当x>=0时，

Figure 2010101186565100002DEST_PATH_IMAGE024

；否则，

Figure 2010101186565100002DEST_PATH_IMAGE026

，

则公式二可以改写成：

公式五：

（5）

基于公式五，结合逻辑回归模型，定义

为：

公式六：

（6）

令

，则有：

公式七：

（7）

其中公式六为面向1-ROCA优化的在线排序逻辑回归学习算法，

从公式七可以获知，以两类目标值均衡的方式进行特征权重调整，有效地防止了模型优化结果的偏差，保证了两个类目标值的对称性。

根据公式七获得最优的参数W后，对于一个类别未知的信息X，

就是模型对它预测的分值。

在所述在线学习过程中，采用贪心算法，根据时间序列对过滤样本进行采样，只在最新的m封信息或最近的信息序对中选择训练样本。

由于从过滤模型的排序框架本身来看，如果任意两个训练样本组成的序对数量庞大，直接计算所有序对导致计算量过大，计算效率很低。为了解决这个问题，本发明采用两种方法解决这个问题。

（1）现有TONE（Train On or Near Error）策略来降低模型训练的计算量。对于正常信息和垃圾信息构成的序对，在如下两种情况下进行训练a）序对排序错误；b）序对排序正确，但正常信息和垃圾信息的预测得分差值小于指定的阈值。

（2）并通过采用贪心算法，利用时间序列对过滤样本进行采样，只在最新的m封信息或最近的信息序对中选择训练样本，以避免信息集合中所有信息参与计算，进一步减小了计算量，使模型的训练速度进一步提高。

本实施方式中的过滤方法是基于对核心评价指标1-ROCA进行优化、将信息过滤问题转化成排序问题的基本思想，研究新的过滤模型构建方法、形式化定义和公式描述，从而建立基于排序策略的信息过滤模型。

本实施方式所述的信息过滤系统在提升lam%指标的同时，以优化1-ROCA为模型优化目标，研究基于排序策略的信息过滤模型框架，探索过滤模型中的机器学习算法、参数优化机制和特征抽取方法。

具体实施方式四：本实施方式是对具体实施方式三所述的信息过滤系统中的根据公式七和梯度下降方法更新参数向量权重w，根据当前信息x_i更新参数向量权重w可以采用下述方法：

初始化权重向量w 为0；

一、预测当前信息x_i的类别；

所述当前信息x_i的类别的预测过程为：首先根据过滤模型f(w, x_i)获得p(spam|x_i)，当所述p(spam|x_i)值大于0.99999时，判定为垃圾信息，否则，判定为正常信息；

二、根据最新接收到若干条信息获得最新接收到的m个序对pairs(x_i,x_j)；具体过程为：

对于当前信息x_i，将最近判断获得的若干条具有不同标记的信息组成“垃圾信息-正常信息”对、或者“正常信息-垃圾信息”对pair (x_i,x_j)，共获得m对；

三、逐一根据每一对pair (x_i,x_j)的信息更新权重向量w，最终获得更新的权重向量w；

根据每一对pair (x_i,x_j)的信息更新权重向量w的具体过程为：

通过Ψ(w, x_i, x_j)计算获得pair (x_i,x_j)的差值difference；

如果该序对(x_i,x_j) 是错误序对，或者所述差值difference的绝对值小于设定阈值TONE，则更新权重向量w，否则，不更新权重向量w；

所述更新权重向量w的过程为：

首先通过Δw = (

– difference) * TRAIN_RATE *

获得权重向量变化量Δw；然后由w +=Δw获得更新后的权重向量w。

下面给出了上述过程的分类及学习过程的伪码。

Initialize : w = 0

Parameters : TRAIN_RATE, TONE for pairs, Number of pairs to look back

for each message x_i

{ //predict

calculate p(spam|x_i) = f(w, x_i)

if (p(spam|x_i) > 0.999999)

predict spam;

else

predict ham

//Get pairs(x_i,x_j) according to number of pairs to look back

for current message x_i

for x_i’s m latest messages with different label

form spam-ham/ham-spam pair (x_i,x_j)

//updating weight vector

for each pair (x_i,x_j)

{ calculate difference= Ψ(w, x_i, x_j)

if (x_i,x_j) is swapped pair or abs(difference) < TONE for pairs

{ Δw = (

– difference) * TRAIN_RATE *

w +=Δw;

}

上面程序代码中的参数 TRAIN_RATE表示学习速率；TONE for pairs表示序对的阈值；Number_of_pairs_to_look_back 表示用于训练的最近的信息序对数量。在具体实现上，可以设TONE for pairs = 1, TRAIN_RATE = 0.01, number of pairs to look back = 100.

本实施方式中的信息过滤器对接收信息进行特征提取的方法可以采用现有任何一种特征提取方法获得接收信息的特征信息。

信息过滤模型的构建是影响系统性能的核心因素，过滤模型是对于信息过滤问题的模拟、抽象和形式化描述。过滤模型的核心评价指标为1-ROCA，而1-ROCA与不一致的序对成正比，因此信息过滤问题的本质是排序问题。在这个思想下，本发明将过滤问题转化成排序问题进行研究，设计和实现基于排序策略的信息过滤模型。

在建立了过滤模型框架的基础上，需要采用适合的排序算法对模型参数进行近似与拟合。信息过滤对排序算法的要求是：能够快速处理大规模数据，即算法的时间复杂度和空间复杂度不能过高；同时对排序算法的性能要求很高。现有的排序算法无法满足这些要求，需要提出新的解决方案。本发明在对多种排序算法应用和掌握的基础上，提出了相对快速、有效，适合信息过滤问题的在线排序逻辑回归学习算法，并据此构造了信息过滤系统。

具体实施方式五：本实施方式与具体实施方式二至四任意一个实施方式所述的信息过滤系统的区别在于，信息过滤器对接收信息进行特征提取的方法采用基于字节级n元文法的特征提取方法。

本实施方式所述的基于字节级n元文法的特征提取方法为：对提取对象信息进行大小为n个字节的滑动窗口操作，获得m个长度为n 的字节片断序列作为特征信息，所述m、n为大于0的整数。

本实施方式中的m个长度为n 的字节片断序列的选取方法可以采用下述几种方法：

a、提取对象信息中连续的m个长度为n个字节的信息片断作为特征信息，其中第i+1个字节片断是以第i个字节片断中的第二个字节为首字节；

b、提取对象信息中的前m个长度为n 的字节片断序列作为特征信息，或者后m个长度为n 的字节片断序列作为特征信息，其中第i+1个字节片断是以第i个字节片断中的第二个字节为首字节；

c、根据信息增益或者交叉熵统计方法提取对象信息中的m个长度为n 的字节片断序列作为特征信息。

本实施方式采用基于字节级n元文法的特征提取方法获得特征信息，简化了特征提取，还使得过滤器能够处理图像、病毒信息的能力，为大幅提高信息过滤器的性能奠定了基础。

本实施方式提出字节级n-gram的特征提取方法，通过提取信息的二进制片段序列特征，使特征提取方法具有语言无关性，同时解决垃圾信息伪装和隐藏的问题。

本实施方式所述的特征提取方法，能够对垃圾信息中的文字变形、将文字转成图片或PDF文件、各种格式的附件以及信息病毒进行有效识别，并具有对于新形式垃圾信息的自适应能力，进一步提高了信息过滤系统的性能。

对本实施方式所述的信息过滤系统，通过实验进行了验证，实验中的信息采用邮件信息作为处理对象，下面对验证过程及结果进行说明。

实验环境设置：

使用公共数据集TREC05/06/07, CEAS08 和SEWM07/08来评估过滤器的性能，这些数据集中包括四个英文数据集和三个中文数据集。这些数据集的基本信息如表1所示：

表1

Corpus	Language	Ham	Spam	Total
					TREC05	English	39399	52790	92189
TREC06	English	12910	24912	37822
					TREC07	English	25220	50199	75419
CEAS08	English	167989	41285	209274
					TREC06C	Chinese	21766	42854	64620
SEWM07	Chinese	15000	45000	60000
					SEWM08	Chinese	20000	50000	70000

用逻辑回归模型与一个在先前的评测中表现很好的经典模型(Goodman and Yin, 2006; Cormack, 2007)进行比较。尤其在与sewm08数据集相关的所有过滤任务中，逻辑回归模型都取得了第一(参见http://net.pku.edu.cn/~webg/cwt/)。

不同过滤器所提取的特征各有不同，以前的评测结果表明简单的方法如n-grams 能够取得很好的效果(Sculley, and Wachman, 2007)。例如：用 4-grams 来分析“hell wol”得到的结果是“hell”, “ell ”, “ll w”, “l wo” 和 “ wol” （注意 n-grams 对空格无差别对待，当做字符处理）。在实践中，只提取前3000个特征，因而较长信息的作用被消弱(Sculley and Wachman, 2007)。在这些实验中没有采用附加的其它特征提取方法或者专业知识。

和公共评测的方法相似，在四个在线过滤任务中评测了过滤器：立即回馈，延迟回馈，部分回馈和动态学习。立即回馈任务时过滤器使用黄金标准在过滤完一封邮件后立即给出判断，此邮件是否为垃圾邮件，这对于初学者是比较容易实现的。延迟回馈模仿现实环境中人们并不是每封邮件都立即给出判断的环境：过滤器在回馈之前给出一些邮件的分类。部分回馈使得过滤任务在另一方面显得十分严格：立即回馈可用，不过只是对部分测试数据，相当一部分数据并未给出回馈。不像上述的在线过滤任务的处理过程，动态学习允许过滤器首先检查一遍数据集，根据它的需要查找确定数量的邮件并只对它们产生回馈，如果配额用尽，将不会再产生回馈(Cormack, 2007)。

在每个数据集上的评测任务及结果参见表2所示：

表2

然而，并不是所有数据集都提供四个过滤任务。表2 描述了在TREC, CEAS 和 SEWM 数据集中所包含的任务。需要说明的是在CEAS08 数据集中包含延迟回馈和部分回馈：在延迟回馈中它只对某些邮件提供延迟回馈。这和现实中的过滤器工作环境比较相似。CEAS08数据集使用前20000 封邮件作为训练数据，过滤器只记录对余下的邮件的过滤性能的表现。

实验结果：

表3给出了采用逻辑回归模型（LR）的实验结果，数据名的后缀字母代表不同的过滤任务。“i”代表立即回馈，“d”代表延迟回馈，“p”代表部分回馈，“a”代表动态学习，“pre”代表预训练（这个任务仅在CEAS08中出现），即前n封邮件只训练不作为评判的依据。这些实验中使用了TREC垃圾邮件过滤工具。过滤器的过滤性能通过1-ROCA% 和LAM% 来衡量（都是结果越小越好）。实验中中文垃圾邮件过滤系统和英文垃圾邮件过滤系统采用了不同的系统参数（包括学习速率和TONE阈值）。

表3 实验结果

	lam%	(1-ROCA) %
			TREC05i	0.00	0.0125
TREC06i	0.00	0.0341
			TREC06d	0.00	0.1092
TREC07i	0.00	0.0061
			TREC07d	0.00	0.0194
TREC07p	0.00	0.0611
			TREC07a	0.00	0.0195
CEAS08i	0.00	0.0020
			CEAS08 pre/pd	0.00	0.0567
CEAS08pd	0.00	0.0821
			CEAS08a	0.00	0.0032
TREC06ci	0.00	0.0009
			TREC06cd	0.00	0.0069
SEWM07a	0.00	0.0000

SEWM08i	0.00	0.0000
			SEWM08d	0.00	0.0019
SEWM08a	0.00	0.0001