CN108073679B

CN108073679B - 一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质

Info

Publication number: CN108073679B
Application number: CN201711103789.3A
Authority: CN
Inventors: 袁方方; 刘燕兵; 曹聪; 卢毓海; 张春燕; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2021-09-28
Anticipated expiration: 2037-11-10
Also published as: CN108073679A

Abstract

本发明涉及一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质。该方法包括以下步骤：1)获取基于字符出现的频率建立的基于马尔可夫链的模型；2)利用基于马尔可夫链的模型生成指定长度和规模的随机模式串集合。该设备包括接收器、处理器、存储器和发送器。本发明生成的随机模式串集合符合现实世界的概率分布特征，能够依据真实模式串集合的概率分布特征生成任意长度、任意规模、特定类型的随机模式串集合，从而用于串匹配算法的功能测试和性能测试。

Description

一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质

技术领域

本发明属于信息技术领域，涉及串匹配技术，具体涉及一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质。

背景技术

在计算机科学领域，串匹配技术一直都是研究热点之一。在现实生活中，串匹配技术的典型应用包括入侵检测系统(IPS)、病毒检测、文本过滤、信息检索、拼写检查和计算生物学等等。串匹配技术的研究与发展与现实应用是息息相关的，近年来，随着待处理数据规模的不断增大和数据实时处理的需求，对串匹配技术的性能提出了新的要求和挑战。

自20世纪70年代以来，串匹配技术发展迅速，国内外学者相继提出了上百种模式串匹配算法，如AC、Wu-Manber、SBDM、SBOM等。但是随着模式串集合规模的不断扩大，这些算法的匹配速度明显下降，极大的限制了它们的应用范围。因此，研究领域和工业界出现了各种对已有算法的改进工作，同时，也提出了新的技术和算法。

在串匹配研究领域，如何获取测试串匹配算法的数据集是一个非常重要的内容。由于受时间、数据规模、数据多样性等一些原因的限制，很难获得充分有效的测试数据集。目前用于串匹配算法测试的模式串集合一般是从开源系统中提取的真实数据集，包括开源入侵检测和防御系统Snort规则集和CLAMAV病毒库。

Snort是一个开放源码的入侵检测系统，可以用来检测网络攻击。Snort的基础库代码为libcap，规则集是它的核心，是其检测攻击行为的知识库，通过配置规则可以检测命中的数据流是否存在异常，并根据用户定义的动作对数据流进行处理。CLAMAV是一个开放源码的防毒软件，主要用于邮件服务器上的电子邮件病毒扫描服务。CLAMAV病毒库由特征哈希码、精确串特征片段等构成。软件与病毒库的更新由社区免费发布。

虽然上述真实数据集已经在串匹配算法的测试过程中得到了应用，但是它们也有其不足之处。首先，Snort规则集和CLAMAV病毒库中模式串的长度和模式串集合的大小是固定的，在对算法测试的过程中，既不能生成任意长度的模式串，也不能根据算法的需求任意增加或者减少模式串集合的规模；其次，Snort规则集和CLAMAV病毒库中模式串所属的字符集是单一的，不能测试串匹配算法性能在不同字符集的表现；最后，在现有的串匹配算法性能测试中，都只考虑了模式串集合本身的特性，如字符集大小、模式串长度和模式串个数等，对待扫描文本数据也只考虑它的长度，并没有考虑实际的应用环境，因此，直接导致串匹配算法的理论分析和实际效果差别较大。此外，测试结果只能说明串匹配算法在该测试数据集上的应用情况，无法分析和推断串匹配算法在其他数据集上的表现。

综上所述，为了对串匹配算法进行充分地测试，全面分析串匹配算法的性能，常常需要生成任意长度、任意规模、特定类型的随机模式串集合。而真实的模式串集合往往难以获得或规模有限，无法满足测试需求。

发明内容

本发明针对上述问题，提供一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质，能够依据真实模式串集合的概率分布特征生成任意长度、任意规模、特定类型的随机模式串集合，从而用于串匹配算法的功能测试和性能测试。

本发明采用马尔科夫模型描述真实世界模式串集合的概率分布特征，在此基础上生成任意长度、任意规模、特定类型的测试数据集。

本发明采用的技术方案如下：

一种串匹配场景下随机模式串集合生成方法，包括以下步骤：

1)获取基于字符出现的频率建立的基于马尔可夫链的模型；

2)利用基于马尔可夫链的模型生成指定长度和规模的随机模式串集合。

进一步地，将每个字符出现的频率和该字符作为键值对进行存储，利用存储的键值对建立基于马尔可夫链的模型。

进一步地，建立基于马尔可夫链的模型的步骤包括：

a利用数组g_codemap1和g_codemap2对字符及其在V中的位置建立一一映射关系，其中V表示字符出现的频率和该字符组成的键值对集合，g_codemap1为由字符映射到该字符在V中的位置，g_codemap2为由字符在V中的位置映射到该字符；

b)统计训练样本数据T中4-gram的个数，对所有的4-gram提取其前面3个字符构成3-gram，并统计3-gram的个数；

c)计算每个4-gram的频率并保存在数组f4中，计算每个3-gram的频率并保存在数组f3中；

d)由g_codemap1、g_codemap2、f3和f4构成基于马尔可夫链的模型。

进一步地，所述每个4-gram的频率为：每个4-gram出现的次数/该4-gram前面3个字符构成的3-gram出现的次数；所述每个3-gram的频率为：每个3-gram出现的次数/4-gram的总数。

进一步地，步骤2)在生成随机模式串集合的过程中，根据前面三个连续的字符来预测当前字符，所述当前字符用于生成指定长度和规模的随机模式串集合。

进一步地，步骤2)包括：

2-1)采用二分查找的方法随机选取3个值对随机模式串最开始的3个状态进行初始化；

2-2)在基于马尔可夫链的模型中，当前状态仅与其前面3个状态相关，对于状态S_t、S_t+1和S_t+2，采用二分查找的方法随机选取下一个状态的值，直至生成长度为l的数值序列；

2-3)利用g_codemap2将基于马尔可夫链的模型生成的数值序列转化成字符序列；

2-4)重复步骤2-1)、2-2)和2-3)，直到生成r个长度为l的随机模式串集合P。

一种串匹配场景下随机模式串集合生成设备，包括接收器、处理器、存储器和发送器，其间通过总线连接；接收器用于接收外部的指令，存储器用于存储串匹配场景下随机模式串集合生成指令；处理器用于读取存储器中的串匹配场景下随机模式串集合生成指令，并执行该指令以实现上面所述的串匹配场景下随机模式串集合生成方法；发送器用于输出执行的结果。

一种串匹配场景下随机模式串集合生成程序的非易失性计算机可读存储介质，所述串匹配场景下随机模式串集合生成程序被计算机执行时，实现上面所述的串匹配场景下随机模式串集合生成方法。

本发明的一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质，能够用来对串匹配算法进行功能测试和性能测试，进而找出影响串匹配算法性能的主要因素及其性质。该方法具有以下优点：

1.使用本发明提出的一种串匹配场景下随机模式串集合生成方法，可以针对不同的串匹配算法应用环境，生成特定类型的随机模式串集合。

2.生成的随机模式串集合符合现实世界的概率分布特征，而且模式串集合的规模可以是任意的，模式串集合的模式串长度是可变的。因此，通过随机模式串集合的测试，可以找出串匹配算法的性能与字母表大小、模式串个数和模式串长度的关系，进而寻找可以使串匹配算法性能提升的改进方法。

附图说明

图1是一种串匹配场景下随机模式串集合生成方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明采用马尔科夫模型描述真实模式串集合的概率分布特征，进而生成串匹配场景下特定类型的随机模式串集合。

随机模式串集合生成程序的输入包括训练样本数据T，字符集大小SetSize、模式串个数r、模式串长度l。

本发明的一种串匹配场景下随机模式串集合生成方法的工作流程如图1所示，该方法的具体步骤如下：

1)首先输入训练样本数据T，设定字符集大小为SetSize。

2)样本数据统计与分析：

扫描输入的训练样本数据T，统计每个字符出现的频率(字母出现的次数/样本数据的长度)，将每个字符出现的频率和该字符作为键值对存储在vector<pair<double,int>>类型的V中，并对V中的成员按照字符出现的频率降序排序。其中，vector表示同一种类型的对象的集合；pair是一种模板类型，其中包含两个数据值，两个数据的类型可以不同；double表示双精度实型变量；int表示整型变量；V表示字符出现的频率和该字符组成的键值对集合。

3)基于马尔可夫链的模型Prob_Model生成：

首先，利用数组g_codemap1和g_codemap2对字符及其在V中的位置建立一一映射关系，g_codemap1为由字符映射到该字符在V中的位置，g_codemap2为由字符在V中的位置映射到该字符；然后，统计训练样本数据T中4-gram(长度为4的子串)的个数，对所有的4-gram提取其前面3个字符构成3-gram，并统计3-gram的个数，计算每个4-gram的频率(每个4-gram出现的次数/该4-gram前面3个字符构成的3-gram出现的次数)并保存在数组f4中，计算每个3-gram的频率(每个3-gram出现的次数/4-gram的总数)并保存在数组f3中，至此，训练过程完成，基于马尔可夫链的模型Prob_Model由g_codemap1、g_codemap2、f3和f4构成，该模型可以生成字符级别的3阶随机模式串集合。

随机模式串集合可以通过随机输出字符集中的任意字符得到，但是这样生成的数据不符合真实模式串集合的概率分布特征，是没有任何“意义”的；对于训练样本数据来说，不同字符的出现次数是不一样的，某个字符后面出现的字符的概率也是不相等的。因此，依据训练样本的统计特性，由前一个字符随机的生成当前字符，则可以得到令人感兴趣的文本，并把这种方式生成的随机文本称为1阶文本。本发明在生成随机模式串集合的过程中，程序根据前面三个字符(三个连续的字符)来预测当前字符，所以，它是一个3阶马尔科夫模型。

4)输入模式串个数r，模式串长度l；

5)长度为l的随机模式串生成：

首先，采用二分查找的方法随机选取3个值对随机模式串最开始的3个状态进行初始化，设定二分查找的区间为[L,H]，L初始化为0，H初始化为SetSize*SetSize*SetSize–1，M＝(L+H)/2，利用stdrand()生成[0,1)之间的随机浮点数p，若p<f3[M]，则H＝M–1，否则，L＝M+1，直至L>H，设定H的值加1，最开始的第3个字符k＝H&127，H向右移7位，最开始的第2个字符j＝H&127，H再向右移7位，最开始的第1个字符i＝H&127，则可通过i、j、k分别对模型Prob_Model的S₀、S₁和S₂状态进行初始化；

然后，在基于马尔可夫链的模型Prob_Model中，当前状态仅与其前面3个状态相关，对于状态S_t、S_t+1和S_t+2，可采用二分查找的方法随机选取下一个状态的值，设定二分查找的区间为[Low,High]，Low初始化为(S_t<<21)|(S_t+1<<14)|(S_t+2<<7)(<<表示左移运算符)，High初始化为Low+127，Mid＝(Low+High)/2，利用stdrand()生成[0,1)之间的随机浮点数p，若p<f4[Mid]，则High＝Mid–1，否则，Low＝Mid+1，直至Low>High，设定High的值加1，S_t+3＝High&127，如此循环，直至生成长度为l的数值序列；

最后，利用g_codemap2将模型Prob_Model生成的数值序列转化成字符序列，即为随机模式串；

6)特定类型(特定类型数据是满足特定语法规则的数据，如url)的随机模式串集合生成：重复步骤5)，直到生成r个长度为l的随机模式串集合P；

7)数据输出：输出生成的随机数据集，即随机模式串集合P。

下面列举示例说明一种串匹配场景下随机模式串集合生成方法的具体实施方式。

1)假设字符集大小SetSize＝256，训练样本数据T为：

Let it go,let it go

I am one with the wind and sky

Let it go,let it go

You willl never see me cry

Here I stand and here I will stay

Let the storm rage on；

2)扫描训练样本数据T，训练样本的长度为156，统计每个字母出现的频率(字母出现的次数/样本数据的长度)，将每个字符出现的频率和该字符作为键值对存储在vector<pair<double,int>>类型的V中，对V中的成员按照字符出现的频率降序排序后为：

{{first＝0.11538461538461539,second＝101},{first＝0.096153846153846159,second＝116},{first＝0.05128205128205128,second＝111},{first＝0.05128205128205128,second＝105},{first＝0.044871794871794872,second＝110},{first＝0.044871794871794872,second＝108},{first＝0.038461538461538464,second＝114},{first＝0.038461538461538464,second＝97},{first＝0.032051282051282048,second＝115},{first＝0.032051282051282048,second＝103},{first＝0.02564102564102564,second＝119},{first＝0.02564102564102564,second＝104},{first＝0.02564102564102564,second＝100},{first＝0.019230769230769232,second＝121},{first＝0.019230769230769232,second＝109},{first＝0.019230769230769232,second＝76},{first＝0.019230769230769232,second＝73},{first＝0.01282051282051282,second＝44},{first＝0.00641025641025641,second＝118},{first＝0.00641025641025641,second＝117},{first＝0.00641025641025641,second＝107},{first＝0.00641025641025641,second＝99},{first＝0.00641025641025641,second＝89},{first＝0.00641025641025641,second＝72},{first＝0,second＝255},{first＝0,second＝254},{first＝0,second＝253},…}，共256个pair对，其中每个pair中的first为字符频率，second为字符的十进制表示；

3)利用数组g_codemap1和g_codemap2对字符及其V中的位置建立一一映射关系，g_codemap1为由字符映射到该字符在V中的位置，g_codemap2为由字符在V中的位置映射到该字符；然后，统计训练样本数据T中4-gram(长度为4的子串)的总数为15，对所有的4-gram提取其前面3个字符构成3-gram，并统计3-gram的个数，计算每个4-gram的频率并保存在数组f4中，计算每个3-gram的频率并保存在数组f3中，将g_codemap1、g_codemap2、f3和f4写入prob.model模型中；

4)输入模式串个数为5，模式串长度为5；

5)设定二分查找的区间为[L＝1,H＝128*128*128-1]，M＝(L+H)/2，以f3[M]的概率设定H＝M–1，以1-f3[M]的概率设定L＝M+1，直至L>H，设定H的值加1，用H对最开始的3个字符的值进行初始化：第三个字符的值k＝H&127＝10，H右移7位，第二个字符的值j＝H&127＝3，H右移7位，第一个字符的值i＝H&127＝5；然后，基于当前的3个字符的值，采用二分查找的方法随机选取下一个字符的值，设定二分查找的区间为[Low＝21021312,High＝21021439]，Mid＝(Low+High)/2，以f4[Mid]的概率设定High＝Mid–1，以1-f4[Mid]的概率设定Low＝Mid+1，直至Low>High，设定High的值加1，则下一个字符的值l＝High&127＝5，接着，根据j、k、l生成下一个字符的值，如此循环，直至生成长度为l的数值序列；最后，利用g_codemap2将生成的数值序列转化成字符序列，即为随机模式串；

6)重复步骤5)，直到生成5个长度为5的随机模式串集合P＝{“here”，“rage”，“stand”，“tande”，“willl”}。

7)输出生成的随机模式串集合P。

基于上述方案设计，在此说明本发明所提出的方法产生的积极效果。在此根据实际的应用需求，选择url数据、英文数据和中文数据3种不同类型的数据做为训练样本数据，其中url数据是在真实的网络环境中捕获的url，大小为3,662,233KB，英文数据使用的是《圣经》的英文文本，大小为3,953KB，中文数据使用的是公开的《人民日报》1998年原始语料，大小为25,937KB。

在上述3种数据集上，利用程序生成不同长度、不同规模的随机模式串集合，生成的随机模式串集合如表1所示：

表1基于真实样本数据生成的随机模式串集合

通过上表可知，基于真实世界的样本数据，采用马尔科夫模型描述其概率分布的特征，在此基础上可以生成任意规模、任意长度符合特定应用环境的随机模式串集合，进而证明了本发明提出的方法的有效性。

本发明除保护一种串匹配场景下随机模式串集合生成方法外，还要保护一种串匹配场景下随机模式串集合生成设备和一种串匹配场景下随机模式串集合生成的非易失性计算机可读存储介质。

一种串匹配场景下随机模式串集合生成设备包括接收器、处理器、存储器和发送器，它们之间通过总线连接；接收器用于接收外部的指令，存储器用于存储串匹配场景下随机模式串集合生成指令，当串匹配场景下随机模式串集合生成设备运行时，处理器读取存储器中的串匹配场景下随机模式串集合生成指令，以使该设备执行串匹配场景下随机模式串集合生成方法，发送器输出执行的结果。

一种串匹配场景下随机模式串集合生成程序的非易失性计算机可读存储介质，当计算机执行串匹配场景下随机模式串集合生成程序时，该计算机执行串匹配场景下随机模式串集合生成方法。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种串匹配算法的测试方法，其特征在于，包括以下步骤：

1)采用以下步骤生成串匹配场景下的随机模式串集合：

1-1)获取基于字符出现的频率建立的基于马尔可夫链的模型；

1-2)利用基于马尔可夫链的模型生成指定长度和规模的随机模式串集合；

其中，建立基于马尔可夫链的模型的步骤包括：

a)利用数组g_codemap1和g_codemap2对字符及其在V中的位置建立一一映射关系，其中V表示字符出现的频率和该字符组成的键值对集合，g_codemap1为由字符映射到该字符在V中的位置，g_codemap2为由字符在V中的位置映射到该字符；

d)由g_codemap1、g_codemap2、f3和f4构成基于马尔可夫链的模型；

其中，步骤1-2)包括：

1-2-1)采用二分查找的方法随机选取3个值对随机模式串最开始的3个状态进行初始化；

1-2-2)在基于马尔可夫链的模型中，当前状态仅与其前面3个状态相关，对于状态S_t、S_t+1和S_t+2，采用二分查找的方法随机选取下一个状态的值，直至生成长度为l的数值序列；

1-2-3)利用g_codemap2将基于马尔可夫链的模型生成的数值序列转化成字符序列；

1-2-4)重复步骤1-2-1)、1-2-2)和1-2-3)，直到生成r个长度为l的随机模式串集合P；

2)利用生成的随机模式串集合，对串匹配算法进行功能测试和性能测试。

2.如权利要求1所述的方法，其特征在于，所述每个4-gram的频率为：每个4-gram出现的次数/该4-gram前面3个字符构成的3-gram出现的次数；所述每个3-gram的频率为：每个3-gram出现的次数/4-gram的总数。

3.如权利要求1所述的方法，其特征在于，步骤1-2-1)设定二分查找的区间为[L,H]，L初始化为0，H初始化为SetSize*SetSize*SetSize–1，M＝(L+H)/2，其中SetSize为字符集大小；利用stdrand()生成[0,1)之间的随机浮点数p，若p<f3[M]，则H＝M–1，否则，L＝M+1，直至L>H，设定H的值加1，最开始的第3个字符k＝H&127，H向右移7位，最开始的第2个字符j＝H&127，H再向右移7位，最开始的第1个字符i＝H&127，通过i、j、k分别对基于马尔可夫链的模型的最开始的3个状态S₀、S₁和S₂进行初始化。

4.如权利要求1所述的方法，其特征在于，步骤1-2-2)设定二分查找的区间为[Low,High]，Low初始化为(S_t<<21)|(S_t+1<<14)|(S_t+2<<7)，High初始化为Low+127，Mid＝(Low+High)/2，利用stdrand()生成[0,1)之间的随机浮点数p，若p<f4[Mid]，则High＝Mid–1，否则，Low＝Mid+1，直至Low>High，设定High的值加1，S_t+3＝High&127，如此循环，直至生成长度为l的数值序列。

5.一种串匹配算法的测试设备，其特征在于，包括接收器、处理器、存储器和发送器，其间通过总线连接；接收器用于接收外部的指令，存储器用于存储串匹配场景下随机模式串集合生成指令；处理器用于读取存储器中的串匹配场景下随机模式串集合生成指令，并执行该指令以实现权利要求1至4中任一权利要求所述的串匹配算法的测试方法；发送器用于输出执行的结果。

6.一种存储串匹配算法的测试程序的非易失性计算机可读存储介质，其特征在于，所述串匹配算法的测试程序被计算机执行时，实现权利要求1至4中任一权利要求所述的串匹配算法的测试方法。