CN102710616B

CN102710616B - 数据流预测方法及装置

Info

Publication number: CN102710616B
Application number: CN201210155437.3A
Authority: CN
Inventors: 李军; 张鹏; 郭莉; 刘萍; 方滨兴
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2012-05-18
Filing date: 2012-05-18
Publication date: 2015-04-22
Anticipated expiration: 2032-05-18
Also published as: CN102710616A

Abstract

本发明涉及一种数据流预测方法及装置。数据流预测方法包括：根据样本数据更新集成模型索引，集成模型索引用于存储关键词与支持向量集合之间的映射关系，支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量；对输入文本进行分词，得到该输入文本的关键词，输入文本为待测数据流；根据更新后的集成模型索引检索包含关键词的支持向量集合，以及该支持向量集合中的支持向量所在SVM分类器的信息；用检索到的支持向量集合中的所有支持向量对输入文本进行预测。本发明的数据流预测方法及装置，基于集成模型索引进行亚线性的在线预测，由于通过倒排表将支持向量按照关键字进行聚集，因而预测速度得到了明显的提升。

Description

数据流预测方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种数据流预测方法及装置。

背景技术

近年来，随着越来越多互联网业务（例如超文本传送协议HTTP、简单邮件传输协议SMTP、文件传输协议FTP、微软网络服务MSN、QQ、BT等）的出现，网络安全面临的挑战愈发严峻。垃圾邮件、垃圾短信、色情网站、网络攻击等现象每天都给人们的生活带来极大的困扰。因此，数据流的内容过滤作为网络内容安全的核心问题，成为近年来数据流研究的热点话题。由于数据流中包含着大量的文本内容，因此数据流过滤（查询）的重点在于文本的处理。

目前对数据流过滤采取文本匹配的方法，例如如下技术方案：基于AC自动机的串扫描算法来完成大规模网关的内容检测；融合多种串匹配技术实现具有环境感知能力的匹配框架，在真实的数据集上明显提升了性能。总的来说，这些方法通过预先输入一些关键串来完成对文本数据流的信息扫描和过滤。尽管大量的实验和系统均证明了该算法的有效性，但是一种可能的不足就是该方法无法对文本数据流进行深层语义分析，导致数据流内容检测的误判率偏高。

随着数据流挖掘算法的兴起，数据流上的分类预测模型被应用在网络流的实时判别中。对比于经典的串匹配算法，数据流的分类预测模型可以深入语义层进行内容分析，使得判别结果更加准确和合理。早期的流分类预测模型通常离线训练一个分类模型，然后利用这个模型来实时判别每个流数据项的类别。该方法虽然简单，但是单一的分类模型在预测精度上往往不够令人满意。因此，最新的研究都采用多模型集成预测，它通过集成多个分类器对每个数据流项进行综合判别。虽然该方法可以提高判别精度，但是其缺点是判别的时间开销很大，往往难以跟上数据流本身的速度。尤其是当集成模型中基础分类器为SVM（Support Vector Machine，支持向量机）的情况下，其预测速度随着分类器的增加呈现线性增长，即使在只有两个SVM分类器的集成模型中，对于每分钟到达的190W条数据流元组，完成预测的时间大约需要1个半小时左右，这远远达不到实际的性能要求。

同时，由于传统的倒排索引的对象都是文档集，用于加速对文档的获取而构建；而SVM集成模型的索引对象是分类器，操作（添加、删除、更新）是以分类器为单位进行，因此，传统的倒排索引不适合数据流环境下的集成模型在线预测。

由上可见，当前对数据流的管理方法是基于串匹配技术的文本扫描策略，尽管该方法处理速度快，但是其存在精度不高的缺点。近年来，随着互联网业务规模的持续增长，该缺点引发的问题越来越引起重视。为提升数据流内容管理的精度，一种可能的思路是将数据流管理作为流分类问题，利用准确度较高的集成模型来对数据流进行精准预测，但是现有的方法其预测开销随着分类器规模的增加而呈现线性增长，因此，无法直接应用到大规模数据流处理中。

发明内容

本发明所要解决的技术问题是提供一种数据流预测方法及装置，提高预测速度。

为解决上述技术问题,本发明提出了一种数据流预测方法，包括：

根据样本数据更新集成模型索引，所述集成模型索引用于存储关键词与支持向量集合之间的映射关系，所述支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量；

对输入文本进行分词，得到该输入文本的关键词，所述输入文本为待测数据流；

根据更新后的集成模型索引检索包含所述关键词的支持向量集合，以及该支持向量集合中的支持向量所在SVM分类器的信息；

用检索到的支持向量集合中的所有支持向量对所述输入文本进行预测。

进一步地，上述方法还可具有以下特点，所述集成模型索引包含倒排表和分类器信息表两部分，所述分类器信息表用于存储SVM集成模型包含的分类器的信息，所述倒排表用于存储包含关键词的支持向量集合。

进一步地，上述方法还可具有以下特点，所述根据样本数据更新集成模型索引包括：

从所述样本数据中抽取样本组成训练样本集，根据该训练样本集训练出SVM分类器；

按照分类器包含的支持向量提取所述SVM分类器，根据支持向量包含的关键词，将所述SVM分类器包含的支持向量编排到集成模型索引的倒排表中；

将所述SVM分类器的信息置于所述集成模型索引的分类器信息表中。

进一步地，上述方法还可具有以下特点，所述倒排表用哈希表来实现，所述根据样本数据更新集成模型索引还包括：

在哈希表中槽位的冲突比超过设定值时调整所述哈希表来重构倒排表。

进一步地，上述方法还可具有以下特点，所述支持向量用支持向量标识唯一表示，所述支持向量标识为无符号64位整数，该无符号64位整数的高32位存储支持向量所在分类器的身份识别号码，低32位存储该支持向量在分类器中的相对身份识别号码。

为解决上述技术问题,本发明提出了一种数据流预测装置，包括：

更新模块，用于根据样本数据更新集成模型索引，所述集成模型索引用于存储关键词与支持向量集合之间的映射关系，所述支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量；

分词模块，用于对输入文本进行分词，得到该输入文本的关键词，所述输入文本为待测数据流；

检索模块，用于根据更新后的集成模型索引检索包含所述关键词的支持向量集合，以及该支持向量集合中的支持向量所在SVM分类器的信息；

预测模块，用于用检索到的支持向量集合中的所有支持向量对所述输入文本进行预测。

进一步地，上述装置还可具有以下特点，所述集成模型索引包括倒排表和分类器信息表两部分，所述分类器信息表用于存储SVM集成模型包含的分类器的信息，所述倒排表用于存储包含关键词的支持向量集合。

进一步地，上述装置还可具有以下特点，所述更新模块包括：

训练单元，用于从所述样本数据中抽取样本组成训练样本集，根据该训练样本集训练出SVM分类器；

倒排表编排单元，用于按照分类器包含的支持向量提取所述SVM分类器，根据支持向量包含的关键词，将所述SVM分类器包含的支持向量编排到集成模型索引的倒排表中；

分类器信息表编排单元，用于将所述SVM分类器的信息置于所述集成模型索引的分类器信息表中。

进一步地，上述装置还可具有以下特点，所述倒排表用哈希表来实现，所述更新模块还包括：

调整单元，用于在哈希表中槽位的冲突比超过设定值时调整所述哈希表来重构倒排表。

进一步地，上述装置还可具有以下特点，所述支持向量用支持向量标识唯一表示，所述支持向量标识为无符号64位整数，该无符号64位整数的高32位存储支持向量所在分类器的身份识别号码，低32位存储该支持向量在分类器中的相对身份识别号码。

本发明的数据流预测方法及装置，基于集成模型索引进行亚线性的在线预测，由于通过倒排表将支持向量按照关键字进行聚集，因而预测速度得到了明显的提升。

附图说明

图1为本发明实施例中数据流预测方法的流程图；

图2为本发明预测和传统预测方法在训练数据集上的预测时间开销对比结果图；

图3为本发明实施例中数据流预测装置的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例中数据流预测方法的流程图。如图1所示，本实施例中，数据流预测方法包括如下步骤：

步骤101，根据样本数据更新集成模型索引（SVM-Index）;

这里，集成模型索引是指支持向量机SVM的集成模型索引。

集成模型索引用于存储关键词与支持向量集合之间的映射关系，其中，支持向量集合中的支持向量为集成模型中支持向量机SVM分类器的支持向量。

每次预测完一个窗口内的数据流后，都会训练一个或者几个SVM分类器，然后添加到集成模型索引中。支持向量只是集成模型中最基本的一个单元。最开始预测的时候，集成模型索引中的SVM分类器可以是用历史数据集训练得到的。

集成模型索引可以包括分类器信息表和倒排表两部分。其中，分类器信息表用于存储集成模型包含的分类器的信息。分类器的信息可以包括分类器在SVM集成模型中的权重、分类器内部的核心参数以及分类器包含的支持向量数量等。倒排表可以是由哈希表构成的倒排索引。倒排表用于存储包含关键词的支持向量集合。包含某个关键词的支持向量集合中的支持向量可以来自集成模型中的不同SVM分类器。支持向量用支持向量标识唯一表示。支持向量标识可以是支持向量ID（身份识别号码）。具体的，支持向量ID可以用一个无符号64位（64比特）的整数来表示，高32位用于存储该支持向量所在的分类器ID，低32位用于存储该支持向量在对应的分类器中的相对ID。通过支持向量ID的这种独特结构，可以在定位到支持向量以后，只通过简单的移位操作即可得到其所在分类器的ID，通过分类器ID可以获取到分类器信息表的入口地址。在集成模型索引基础上，可以对分词后的未知文本只需要进行一遍扫描即可完成集成模型中所有分类器的联合预测。

步骤101可以通过以下子步骤来实现：

步骤101a，从样本数据中抽取样本组成训练样本集，根据该训练样本集训练出SVM分类器（SVM分类器即支持向量机分类器，以下如无特殊说明，分类器均指SVM分类器）；

可以基于原始的标签数据，按照1:2的比例进行样本随机抽取，得到一个SVM分类器的训练样本集，基于这种方式在每一个窗口中均能训练出一个SVM分类器。当然，样本的抽取比例不一定要用1:2，也可以是其他比例。窗口是滑动窗口，相当于数据流中的一小段。

步骤101b，按照分类器包含的支持向量提取步骤101a 训练得到的SVM分类器，根据支持向量包含的关键词，将这些SVM分类器包含的支持向量编排到集成模型索引的倒排表中；

步骤101c，将SVM分类器的信息置于集成模型索引的分类器信息表中；

当一个分类器中所有的支持向量都插入到集成模型索引的倒排表中以后，将该分类器的信息插入到分类器信息表中。

步骤101d，当倒排表用哈希表来实现时，在哈希表中槽位的冲突比超过设定值时调整哈希表来重构倒排表。

槽位的冲突比是指：一个哈希槽位上，同时有多个词。这样的话就引起了冲突。当查询一个词的时候，首先定位到这个槽位，然后发现这个槽位里面有多个词，所以需要依次去检查，这样时间开销就会变大。重构的具体方式就是改变哈希函数，这样原来冲突的词就可能不冲突。

可以通过如下步骤对集成模型索引进行删除操作：

（1）首先根据分类器的ID，获取分类器中包含的第一个支持向量地址p；

（2）沿着指针p依次进行删除操作：当第一个支持向量所在的支持向量列表（支持向量列表即前述的包含某个关键词的支持向量集合）为空的时候，删除该关键词对应的支持向量链；当支持向量列表非空的时候，支持将该支持向量从双向链表中摘除；

（3）当指针p为空的时候，表示该分类器中所有的支持向量均已删除，这时候将相应的分类器信息表中存储的该分类器信息删除即可。

步骤102，对输入文本进行分词，得到该输入文本的关键词；

具体地，可以对输入文本按照词典进行快速的分词。

其中，输入文本是待测数据流，即需要进行预测的数据流。

步骤103，根据步骤101更新后的集成模型索引检索包含步骤102分词所得关键词的支持向量集合，以及该支持向量集合中的支持向量所在SVM分类器的信息；

具体地，可以依次获取输入文本的每一个关键词，按照该关键词在词典中的索引号，在集成模型索引的倒排表中进行检索，得到包含该关键词的所有支持向量。这样，只需要对集成模型索引按照文档的关键词数量进行一次扫描，即可获取到所有相关的支持向量，因此，大大提升了集成模型的预测速度。

假设通过分词，确定输入文本有３个关键词Ａ、Ｂ、Ｃ，则检索到的支持向量集合应该包括包含Ａ的所有支持向量、包含Ｂ的所有支持向量以及包含Ｃ的所有支持向量。

步骤104，用检索到的支持向量集合中的所有支持向量对输入文本进行预测。

具体地，预测方式可以是：根据步骤103的检索结果，按照公式（１）计算输入文本的类别。输入文本的类别包括需要过滤的内容和不需要过滤的内容。

　公式（１）

公式（１）中，各字母的含义如下：

a、b分别表示支持向量机预测方程的alpha、belta参数

y表示标签类，y的值为1或0；

N是支持向量数量；

Z是未知样本；

K（x，z）是指点积方程；

SV是支持向量集合。

公式（1）只给出了一个分类器的情况，当有多个分类器的时候，每个分类器还带有权重（这些权重信息存储在分类器信息表中），预测结果是各个分类器的预测结果的加权和。

对本发明的数据流预测方法作了如下实验：数据集为国内某骨干路由器上1小时内截获的11G广域网原始数据，共1294520条网络流数据，等分为十份，每份129452条，分别用于训练和预测。其中，每一份数据代表着一个数据流窗口。按照1:2的比例进行标签数据的抽取，并进行SVM分类器的训练，得到相应的基础SVM分类器。随后将所有的基础SVM分类器插入到集成模型对应的集成模型索引中，与原始的集成模型预测方法进行对比，得到的实验结果如图2所示。

图2给出了本发明的数据流预测方法和传统的集成模型预测方法在训练数据集上的预测时间开销对比结果。由图2可见，本发明的数据流预测方法的预测性能比原始的集成模型线性预测方法有明显提升，本发明的数据流预测方法的预测开销只有线性预测方法的3%左右，可以满足真实的数据流环境。

再利用国内某骨干路由器上1小时内截获的192万条原始数据流项，按照3:1的抽取原则训练两个分类器进行集成测试，所得结果中，本发明的数据流预测方法的预测时间大约是53分钟，预测时间开销仅仅为传统方法的3%。

本发明的数据流预测方法，从语义层面对数据流内容进行更加准确的管理，将数据流内容管理问题转化为数据流分类问题，用集成模型对数据流进行准确的预测。本发明的数据流预测方法，基于集成模型索引进行亚线性的在线预测。与传统的线性预测方法相比，由于通过倒排表将支持向量按照关键字进行聚集，因而预测速度得到明显的提升。

本发明还提出了一种数据流预测装置，用以实施上述的数据流预测方法。

图3为本发明实施例中数据流预测装置的结构框图。如图3所示，本实施例中，数据流预测装置包括更新模块210、分词模块220、检索模块230和预测模块240。其中，更新模块210用于根据样本数据更新集成模型索引，集成模型索引用于存储关键词与支持向量集合之间的映射关系，支持向量集合中的支持向量为集成模型中支持向量机SVM分类器的支持向量。分词模块220用于对输入文本进行分词，得到该输入文本的关键词，其中，输入文本即为待测数据流。检索模块230用于根据更新后的集成模型索引检索包含分词模块220分词所得关键词的支持向量集合，以及该支持向量集合中的支持向量所在SVM分类器的信息。预测模块240，用于用检索到的支持向量集合中的所有支持向量对输入文本进行预测。

如前所述，集成模型索引可以包括倒排表和分类器信息表两部分，其中，分类器信息表用于存储SVM集成模型包含的分类器的信息，倒排表用于存储包含关键词的支持向量集合。

其中，更新模块210可以进一步包括训练单元、倒排表编排单元和分类器信息表编排单元。训练单元用于从样本数据中抽取样本组成训练样本集，根据该训练样本集训练出SVM分类器。倒排表编排单元用于按照分类器包含的支持向量提取训练单元训练得到的SVM分类器，根据支持向量包含的关键词，将这些SVM分类器包含的支持向量编排到集成模型索引的倒排表中。分类器信息表编排单元用于将SVM分类器的信息置于集成模型索引的分类器信息表中。

集成模型索引的倒排表用哈希表来实现时，更新模块210还可以进一步包括调整单元。调整单元用于在哈希表中槽位的冲突比超过设定值时调整哈希表来重构倒排表。

如前所述，支持向量用支持向量标识唯一表示，支持向量标识可以为无符号64位整数，该无符号64位整数的高32位存储支持向量所在分类器的身份识别号码，低32位存储该支持向量在分类器中的相对身份识别号码。

本发明的数据流预测装置，从语义层面对数据流内容进行更加准确的管理，将数据流内容管理问题转化为数据流分类问题，用集成模型对数据流进行准确的预测。本发明的数据流预测装置，基于集成模型索引进行亚线性的在线预测，由于通过倒排表将支持向量按照关键字进行聚集，因而预测速度得到明显的提升。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据流预测方法，其特征在于,包括：

根据样本数据更新集成模型索引，所述集成模型索引用于存储关键词与支持向量集合之间的映射关系，所述支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量,所述集成模型索引包含倒排表和分类器信息表，所述倒排表用于存储包含关键词的支持向量集合，所述支持向量用支持向量标识唯一表示，所述分类器信息表用于存储SVM集成模型包含的分类器信息；

根据更新后的集成模型索引检索包含所述关键词的支持向量集合，以及该支持向量集合中的支持向量所在SVM分类器的信息；检索方式为：通过支持向量标识定位到支持向量后，再移位获取分类器ID，通过分类器ID获取分类器信息表的入口地址；

2.根据权利要求1所述的数据流预测方法,其特征在于，所述集成模型索引还包括分类器信息表，所述分类器信息表用于存储SVM集成模型包含的分类器的信息。

3.根据权利要求2所述的数据流预测方法,其特征在于，所述根据样本数据更新集成模型索引包括：

4.根据权利要求3所述的数据流预测方法,其特征在于，所述倒排表用哈希表来实现，所述根据样本数据更新集成模型索引还包括：

5.根据权利要求1所述的数据流预测方法,其特征在于，所述支持向量标识为无符号64位整数，该无符号64位整数的高32位存储支持向量所在分类器的身份识别号码，低32位存储该支持向量在分类器中的相对身份识别号码。

6.一种数据流预测装置，其特征在于,包括：

更新模块，用于根据样本数据更新集成模型索引，所述集成模型索引用于存储关键词与支持向量集合之间的映射关系，所述支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量,所述集成模型索引包含倒排表和分类器信息表，所述倒排表用于存储包含关键词的支持向量集合，所述支持向量用支持向量标识唯一表示，所述分类器信息表用于存储SVM集成模型包含的分类器信息；

检索模块，用于根据更新后的集成模型索引检索包含所述关键词的支持向量集合，以及该支持向量集合中的支持向量所在SVM分类器的信息；检索方式为：通过支持向量标识定位到支持向量后，再移位获取分类器ID，通过分类器ID获取分类器信息表的入口地址；

7.根据权利要求6所述的数据流预测装置,其特征在于，所述集成模型索引还包括分类器信息表，所述分类器信息表用于存储SVM集成模型包含的分类器的信息，所述倒排表用于存储包含关键词的支持向量集合。

8.根据权利要求7所述的数据流预测装置,其特征在于，所述更新模块包括：

9.根据权利要求8所述的数据流预测装置,其特征在于，所述倒排表用哈希表来实现，所述更新模块还包括：

10.根据权利要求6所述的数据流预测装置,其特征在于，所述支持向量标识为无符号64位整数，该无符号64位整数的高32位存储支持向量所在分类器的身份识别号码，低32位存储该支持向量在分类器中的相对身份识别号码。