CN108920463A

CN108920463A - 一种基于网络攻击的分词方法及系统

Info

Publication number: CN108920463A
Application number: CN201810713597.2A
Authority: CN
Inventors: 张鑫
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-30

Abstract

本发明公开了一种基于网络攻击的分词方法及系统，通过获得包含有攻击信息的第一字符串，然后以第一字符串中的各符号作为划分间隔，得到多个待处理分词。第一字符串的符号会保留，然后将各待处理分词进行转换得到对应的目标分词，最后将对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串。如此，携带有符号的攻击信息就不会丢失，能够最大程度的保留原字符串中的携带的攻击信息。故而用第二字符串作为机器学习模型中的判定标准去判定具有攻击嫌疑的字符串，就能够提高攻击检测的准确率。

Description

一种基于网络攻击的分词方法及系统

技术领域

本发明涉及通信安全技术领域，尤其涉及一种基于网络攻击的分词方法及系统。

背景技术

随着互联网的飞速发展，给人们的生活带来了极大的便利，但同时也带来了新的安全挑战。

目前，人们的生活都离不开网络，网上购物、网络查询、网络聊天等等，都需要互联网的支持。为了满足用户日益多元化的上网需求，终端设备都配置有网络访问功能，用户打开网页就可以实现购物、查询、聊天等等一系列功能。

但是，在网页访问的同时，由于互联网的开放性，随之而来的就是网络传输安全的问题。

例如，各服务器(例如Web服务器)以其存储的高价值数据成为了网络攻击的主要目标，网络攻击导致服务器的敏感数据泄露，会及其严重的影响用户的隐私，造成极大的损失。故而如何检测网络攻击已经成为当前亟需解决的问题。

针对上述问题，目前检测网络攻击的方式，是利用正则表达式特征库、字符串匹配、模型等等为判断标准对网络中传输的字符串进行匹配。但是，上述匹配方式中，如果模型本身存储的攻击信息准确率不高，则会直接影响到网络攻击检测的准确率，导致网络攻击检测的准确率低下。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于网络攻击的分词方法及系统。

本发明的一个方面，提供了一种基于网络攻击的分词方法，包括：

获得包含有攻击信息的第一字符串；

对所述第一字符串进行识别，确定出所述第一字符串中的各符号，和按照符号划分得到的多个待处理分词；

分别对各待处理分词进行转换，获得对应的目标分词；

将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串，所述第二字符串中的各目标分词和所述第一字符串中的各待处理分词顺序对应，所述第二字符串中的各符号和所述第一字符串的各符号的顺序对应。

优选的，所述分别对各待处理分词进行转换，获得对应的目标分词，具体包括：

获得一白名单，所述白名单中包含有攻击型分词；

将所述各待处理分词和所述白名单进行对比；

若所述各待处理分词中有第一分词和所述白名单中包含的攻击型分词相同，则将所述第一分词直接作为对应的目标分词。

优选的，所述待处理分词包括以下几种组合形式的分词：数字型分词，字母型分词，数据和字母组合形成的组合型分词，以特殊符号开头的特殊型分词。

确定所述各待处理分词的组合形式；

基于所述各待处理分词的组合形式，将所述待处理分词进行转换，获得对应的目标分词。

优选的，所述基于所述各待处理分词的组合形式，将所述待处理分词进行转换，获得对应的目标分词，具体包括：

若所述待处理分词为所述数字型分词，则将所述数字型分词转换为digital；或者

若所述待处理分词为所述组合型分词，则基于所述组合型分词的长度，转换为对应长度的变量目标分词；或者

若所述待处理分词为所述字母型分词，则将所述字母型分词直接作为对应的目标分词；或者

若所述待处理分词为所述特殊型分词，则基于所述特殊型分词开头携带的特殊符号，转换为以数制类别表示的目标分词。

优选的，所述基于所述组合型分词的长度，转换为对应长度的变量，具体包括：

确定所述组合型分词的长度；

将所述组合型分词的长度和第一预设长度和第二预设长度分别进行对比；

若所述组合型分词小于所述第一预设长度，则将所述组合型分词转换为小变量目标分词；

若所述组合型分词大于所述第一预设长度且小于所述第二预设长度，则将所述组合型分词转换为中变量目标分词；

若所述组合型分词大于所述第二预设长度，则将组合型分词转换为大变量目标分词。

优选的，所述基于所述特殊型分词开头携带的特殊符号，转换为以数制类别表示的目标分词，具体包括：

确定出特殊型分词开头携带的特殊符号；

若所述特殊型分词开头携带的特殊符号为0x，则将所述特殊型分词转换为十六进制编码表示的目标分词；

若所述特殊型分词开头携带的特殊符号为0b，则将所述特殊型分词转换为二进制编码表示的目标分词；

所述特殊型分词开头携带的特殊符号为0d，则将所述特殊型分词转换为十进制编码表示的目标分词；

所述特殊型分词开头携带的特殊符号为0o，则将所述特殊型分词转换为八进制编码表示的目标分词。

优选的，所述将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串之后，所述方法还包括：

将所述第二字符串输入机器学习模型中，作为所述机器学习模型中的判断标准。

优选的，所述将所述第二字符串输入机器学习模型中之后，所述方法还包括：

获得第三字符串；

对所述第三字符串进行分词，利用所述机器学习模型对分词后的所述第三字符串进行判断，判断所述第三字符串是否携带攻击信息。

本发明的另一个方面，提供一种基于网络攻击的分词系统，包括：

第一获得模块，用于获得包含有攻击信息的第一字符串；

识别模块，用于对所述第一字符串进行识别，确定出所述第一字符串中的各符号，和按照符号划分得到的多个待处理分词；

第一转换模块，用于分别对各待处理分词进行转换，获得对应的目标分词；

组合模块，用于将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串，所述第二字符串中的各目标分词和所述第一字符串中的各待处理分词顺序对应，所述第二字符串中的各符号和所述第一字符串的各符号的顺序对应。

优选的，所述第一转换模块，具体包括：

第二获得模块，用于获得一白名单，所述白名单中包含有攻击型分词；

对比模块，用于将所述各待处理分词和所述白名单进行对比；若所述各待处理分词中有第一分词和所述白名单中包含的攻击型分词相同，则将所述第一分词直接作为对应的目标分词。

优选的，所述第一转换模块，具体包括：

第一确定模块，用于确定所述各待处理分词的组合形式；

第二转换模块，用于基于所述各待处理分词的组合形式，将所述待处理分词进行转换，获得对应的目标分词。

优选的，所述第二转换模块，具体用于：

优选的，所述第二转换模块，具体包括：

第二确定模块，用于确定所述组合型分词的长度；

对比模块，用于将所述组合型分词的长度和第一预设长度和第二预设长度分别进行对比；

第三转换模块，用于若所述组合型分词小于所述第一预设长度，则将所述组合型分词转换为小变量目标分词；

第四转换模块，用于若所述组合型分词大于所述第一预设长度且小于所述第二预设长度，则将所述组合型分词转换为中变量目标分词；

第五转换模块，用于若所述组合型分词大于所述第二预设长度，则将组合型分词转换为大变量目标分词。

优选的，所述第二转换模块，具体包括：

第三确定模块，用于确定出特殊型分词开头携带的特殊符号；

第六转换模块，用于若所述特殊型分词开头携带的特殊符号为0x，则将所述特殊型分词转换为十六进制编码表示的目标分词；

第七转换模块，用于若所述特殊型分词开头携带的特殊符号为0b，则将所述特殊型分词转换为二进制编码表示的目标分词；

第八转换模块，用于所述特殊型分词开头携带的特殊符号为0d，则将所述特殊型分词转换为十进制编码表示的目标分词；

第九转换模块，用于所述特殊型分词开头携带的特殊符号为0o，则将所述特殊型分词转换为八进制编码表示的目标分词。

优选的，所述系统还包括：

输入模块，用于将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串之后，将所述第二字符串输入机器学习模型中，作为所述机器学习模型中的判断标准。

优选的，所述系统还包括：

获得模块，用于将所述第二字符串输入机器学习模型中之后，获得第三字符串；

判断模块，用于对所述第三字符串进行分词，然后利用所述机器学习模型对分词后的所述第三字符串进行判断，判断所述第三字符串是否携带攻击信息。

本发明公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

本发明公开了一种基于网络攻击的分词方法及系统，通过获得包含有攻击信息的第一字符串，然后以第一字符串中的各符号作为划分间隔，得到多个待处理分词。第一字符串的符号会保留，然后将各待处理分词进行转换得到对应的目标分词，最后将对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串。由此可见，在本发明实施例的分词过程中，第一字符串中的符号在分词时并没有被去掉，而是完全保留了。在对各待处理分词进行转换得到对应的目标分词之后，将目标分词和符号再次按照原有顺序合并，得到新的字符串(也就是第二字符串)。如此，携带有符号的攻击信息就不会丢失，能够最大程度的保留原字符串中的携带的攻击信息。故而用第二字符串作为机器学习模型中的判定标准去判定具有攻击嫌疑的字符串，就能够提高攻击检测的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种基于网络攻击的分词方法的流程图；

图2示出了根据本发明一个实施例的一种基于网络攻击的分词系统的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于网络攻击的分词方法，该方法主要用于(Web)网络攻击检测。用以解决现有技术的网络攻击检测准确率低下的技术问题。

本发明实施例的分词方法是目前所有网络攻击检测的基础，主要的目的是在携带有攻击信息的第一字符串转换得到第二字符串时，最大程度的保留第一字符串中携带的攻击信息，防止攻击信息在转换时丢失掉。而第二字符串是构建机器学习模型的基础(即，第二字符串作为机器学习模型的训练样本)，故而在第二字符串构建的机器学习模型去判定具有网络攻击嫌疑的字符串时，能够提高网络攻击检测的准确率。具体来说，本发明实施例通过获得包含有攻击信息的第一字符串，然后以第一字符串中的各符号作为划分间隔，得到多个待处理分词。第一字符串的符号进行保留，不做转换或者去除，然后将各待处理分词进行转换得到对应的目标分词，最后将对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串。由此可见，在本发明实施例的分词过程中，第一字符串中的符号在分词时并没有被去掉，而是完全保留了。而在将各待处理分词转换成对应的目标分词之后，其顺序是不会改变的。故而在得到目标分词之后，又会按照各符号在第一字符串中原来的顺序以及目标分词对应的顺序进行组合，得到第二字符串。

而现有技术在对字符串进行分词的过程中，一般会将字符串中的符号去掉，只保留剩余的字母、数字等等字符，故而很容易丢失攻击信息。

举例来说，某个字符串为“1 and 1＝2union select 1,2,version(0x123123123123123123),if(1＝1,sleep(2),select(false)),2”。在现有的分词中，会将“＝”、“(”、“)”等等符号去掉，保留字母、数字，分词后得到的字符串则变成了“1 and 1 2union select 1 2 version 0x123123123123123 if 1 1 sleep 2 select false 2”。假设攻击信息为“1＝2”，那么按照现有技术的分词方法进行分词之后，这个攻击信息就丢失掉了，如果用已经丢失了部分攻击信息的字符串去构建机器学习模型，那么机器学习模型中的数据就不准确，那么利用机器学习模型去检测攻击数据，则肯定会造成错误。

本发明实施例的分词方式和上面的分词方式不同，本发明实施例的分词会按照符号进行分割成各待处理分词，但是符号不会丢失，并且会按照规则对各待处理分词进行转换，得到对应的目标分词，然后将目标分词和符号再次按照原有顺序合并，得到新的字符串(也就是第二字符串)。如此，携带有符号的攻击信息就不会丢失，能够最大程度的保留原字符串中的携带的攻击信息。故而用第二字符串作为机器学习模型中的判定标准去判定具有攻击嫌疑的字符串，就能够提高攻击检测的准确率。除此之外，一些无用信息在转换时也会被替换掉，能够减少字符串的数据量，进而提高响应速度。

承接上述举例，利用本发明实施例的分词方式进行分词之后，得到的字符串为“Digital and Digital＝Digital union select Digital，Digital，version(Hexadecimal)，if(Digital＝Digital，sleep(Digital)，select(false))，Digital”。假设攻击信息为“1＝2”，由于保留了符号，那么替换之后该攻击信息变成了“Digital＝Digital”，只是将攻击信息换了另一种表现形式，并没有丢失，进而能够最大程度的保留原字符串中的携带的攻击信息。另外，待处理分词“0x123123123123123”中的12个数字“123123123123”实际上属于冗余信息(也就是无用信息)，数据量很大。在本发明的分词方式中，只需要检测到该待处理分词携带有特殊字符“0x”，则不管这个待处理分词的数据量多大，不管这个待处理分词中的“0x”后面的字符串是和类型，都会将这个待处理分词直接转换为“Hexadecimal(十六进制编码表示的目标分词)”，故而能够替换掉原分词，减少字符串的数据量。

进一步的，在得到第二字符串之后，由于第二字符串最大限定的保留了原有的第一字符串的攻击信息，又能够替换掉第一字符串中的无用信息，减少数据量。故而将第二字符串作为网络攻击检测的判断标准，能够极大的提高网络攻击检测的正确率和检测效率。

在下面的实施例中，会具体介绍一种基于网络攻击的分词方法的实施过程。

参看图1，本发明实施例的基于网络攻击的分词方法具体包括以下步骤：

步骤11，获得包含有攻击信息的第一字符串。

具体来说，从不同的角度，第一字符串的组成类别是不同的。

例如，从第一字符串的包含内容上看，第一字符串包含有攻击信息和非攻击信息。攻击信息和非攻击信息都是由几个不同类别的元素构成(例如数字、符号、字母)，或者就是数字本身或者字母本身。以第一字符串为“1 and 1＝2 union select 1,2,version(0x123123123123123123),if(1＝1,sleep(2),select(false)),2”为例。“1＝2”可看作攻击信息，“select”可看作非攻击信息等等。

第一字符串的元素构成上来看，第一字符串实际上是包含有数字、字母、符号的字符串。

步骤12，对所述第一字符串进行识别，确定出所述第一字符串中的各符号，和按照符号划分得到的多个待处理分词。

在本发明实施例的划分分词的过程中，是以第一字符串中的符号进行划分的。故而首先会对所述第一字符串进行识别，确定出所述第一字符串中的各符号。第一字符串中的符号包含了所有的符号，例如“＝”、“/”、“(”、“)”、“空格”、“#”等等。承接上述举例，以第一字符串为“1 and 1＝2 union select 1,2,version(0x123123123123123123),if(1＝1,sleep(2),select(false)),2”为例。在对该第一字符串识别后，会识别出符号有“空格”、“＝”、“，”、“(”、“)”，故而在以这些符号作为划分间隔，对第一字符串进行划分之后，得到的待处理分词如下：

“1”，“And”，“1”，“2”，“union”，“select”，“1”，“2”，“version”，“0x123123123123123123”，“if”，“1”，“1”，“sleep”，“2”，“select”，“false”，“2”。

得到各待处理分词之后，则会执行下面的步骤。

步骤13，分别对各待处理分词进行转换，获得对应的目标分词。

在对各待处理分词进行转换的过程中，作为一种可选的实施例，可获得一白名单，该白名单中包含有攻击型分词，是基于攻击业务生成的，然后将各待处理分词和所述白名单进行对比。若所述各待处理分词中有第一分词和所述白名单中包含的攻击型分词相同，则表示该第一分词是攻击型分词(也就是攻击信息)，那么第一分词就不用进行转换成其他的形式的目标分词，而是将所述第一分词直接作为对应的目标分词。举例来说，若上述各待处理分词中的第一分词“sleep”和白名单中包含的攻击型分词相同，就表示第一分词“sleep”出现在了白名单中，则直接将第一分词“sleep”作为目标分词。

作为一种可选的实施例，会根据待处理分词的组合形式不同，转换为不同的目标分词。

具体来说，所述待处理分词包括以下几种组合形式的分词：数字型分词(也就是纯数字分词，例如上述分词“1”、“2”)，字母型分词(也就是纯字母分词，例如上述分词“And”、“union”等等)，数据和字母组合形成的组合型分词(例如“sha1”)，以特殊符号开头的特殊型分词(例如上述分词“0x123123123123123123”)。

故而，当各待处理分词包含上述几种形式之后，在转换的过程中，首先确定所述各待处理分词的组合形式；然后基于所述各待处理分词的组合形式，将所述待处理分词进行转换，获得对应的目标分词。

具体来说，在基于所述各待处理分词的组合形式，将所述待处理分词进行转换，获得对应的目标分词的过程中，会具有如下几种实施方式：

第一种实施方式：若所述待处理分词为所述数字型分词，则将所述数字型分词转换为digital。例如数字型分词“1”，则转换为目标分词“digital”。

第二种实施方式：若所述待处理分词为所述组合型分词，则基于所述组合型分词的长度，转换为对应长度的变量目标分词。

在具体的实施过程中，首先确定所述组合型分词的长度；然后将所述组合型分词的长度和第一预设长度和第二预设长度分别进行对比；若所述组合型分词小于所述第一预设长度，则将所述组合型分词转换为小变量目标分词；若所述组合型分词大于所述第一预设长度且小于所述第二预设长度，则将所述组合型分词转换为中变量目标分词；若所述组合型分词大于所述第二预设长度，则将组合型分词转换为大变量目标分词。在上述实施方式中中，小变量目标分词、中变量目标分词、大变量目标分词可以使用任意的字母组合，只是其数据量大小有区别。假设第一预设长度为4，第二预设长度为8。则若组合型分词“sha1”＜4，则将其转换为小变量目标分词。若4＜“sha1”＜8，则将其转换为中变量目标分词。若8＜“sha1”，则将其转换为大变量目标分词。

第三种实施方式：若所述待处理分词为所述字母型分词，则将所述字母型分词直接作为对应的目标分词。例如，字母型分词“version”直接可以作为目标分词使用。

第四种实施方式：若所述待处理分词为所述特殊型分词，则基于所述特殊型分词开头携带的特殊符号，转换为以数制类别表示的目标分词。

数制类别具体包括：二进制(binary)、八进制(octal)、十进制(decimalise)、十六进制(hexadecimal)。故而根据不同的特殊符号，可以将对应的特殊型分词转换为对应进制的目标分词。

下面请看具体的实施过程：

确定出特殊型分词开头携带的特殊符号。

若所述特殊型分词开头携带的特殊符号为0x，则将所述特殊型分词转换为十六进制编码表示的目标分词“hexadecimal”。具体来说，只要是特殊型分词开头携带的特殊符号为0x，都可以将其转换为“hexadecimal”。例如特殊型分词“0x123123123123123123”、“0x123”、“0x456”都会转换为十六进制编码表示的目标分词“hexadecimal”。也就是说，所有的特殊性分词，只要是其开头携带的特殊符号为0x，就会将其转换为相同的目标分词“hexadecimal”表示。

若所述特殊型分词开头携带的特殊符号为0b，则将所述特殊型分词转换为二进制编码表示的目标分词“binary”。

所述特殊型分词开头携带的特殊符号为0d，则将所述特殊型分词转换为十进制编码表示的目标分词“decimalise”。

所述特殊型分词开头携带的特殊符号为0o，则将所述特殊型分词转换为八进制编码表示的目标分词“octal”。

以上便是各待处理分词进行转换为目标分词的实施过程，为了更好地表示各待处理分词和目标分词的对应关系，本发明实施例中利用“列表”的形式来呈现两者的关系，具体请参看表1。

待处理分词	目标分词
		数字型分词	Digital
字母型分词	字母型分词
		组合型分词	大变量目标分词
组合型分词	中变量目标分词
		组合型分词	小变量目标分词
0x开头的分词	hexadecimal
		0b开头的分词	binary
0d开头的分词	decimalise
		0o开头的分词	octal

表1

在转换各待处理分词，得到对应的目标分词之后，则会将这些目标分词和原来保留的符号按照顺序进行组合，形成新的字符串，具体请看下面的步骤。

步骤14，将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串。

在具体的实施过程中，第一字符串中的各个待处理分词和符号都有各自的位置和顺序。在将各待处理分词转换为目标分词之后，目标分词的位置和顺序还是沿用其对应的待处理分词的位置和顺序。故而在进行组合时，所述第二字符串中的各目标分词和所述第一字符串中的各待处理分词顺序对应，所述第二字符串中的各符号和所述第一字符串的各符号的顺序对应。以便形成的第二字符串能够最大限度的保留攻击信息。

进一步的，第二字符串实际上是构建机器学习模型的基础，其可以作为机器学习模型的训练样本，训练获得的机器学习模型的主要的作用是：用作判断具有网络攻击嫌疑的字符串，以此检测出网络信息中是否存在攻击信息。

故而在将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串之后，还可以将所述第二字符串输入机器学习模型中，作为所述机器学习模型中的判断标准(即：训练样本)。

当利用本发明实施例中的第二字符串构建了机器学习模型之后，则可以使用机器学习模型对具有网络攻击嫌疑的字符串(本实施例称其为第三字符串)进行判断，以此检测出第三字符串中是否存在攻击信息。

在具体的判断过程中，会执行下面的步骤：

获得第三字符串。

对所述第三字符串进行分词；具体分词方法与案中的分词方法相同，具体请前述步骤12～步骤14。将所述第三字符串进行识别，获得所述第三字符串的符号，和按照所述第三字符串的符号划分得到的分词；将所述按照所述第三字符串的符号划分得到的分词进行转换，得到转换后的分词。

利用所述机器学习模型对分词后的所述第三字符串进行判断，以判断所述第三字符串是否携带攻击信息。具体来说，则是利用机器学习模型对所述转换后的分词进行判断。

由于本发明实施例中的第二字符串能够最大限度的保留第一字符串中的攻击信息，故而利用第二字符串构建的机器学习模型在判断第三字符串是否携带攻击信息时，能够提高判断的准确率。在得到第二字符串之后，由于第二字符串最大限定的保留了原有的第一字符串的攻击信息，又能够替换掉第一字符串中的无用信息，减少数据量。故而利用第二字符串构建的机器学习模型在判断第三字符串是否携带攻击信息时，能够提高判断的效率。

以上便是本发明基于网络攻击的分词方法，该方法主要适用于Web网络攻击，故而下面的实施例具体介绍该分词方法的使用场景和方式。

Web网络攻击，可以在http、rmi、tcp、ftp等传输协议中出现。以http为例，http头里加一些攻击向量，就能够变成携带有攻击信息的字符串。而本发明实施例的机器学习模型，就是对该字符串进行判定。

基于同一发明构思，参看图2，本发明实施例还公开了一种基于网络攻击的分词系统，包括：

第一获得模块21，用于获得包含有攻击信息的第一字符串；

识别模块22，用于对所述第一字符串进行识别，确定出所述第一字符串中的各符号，和按照符号划分得到的多个待处理分词；

第一转换模块23，用于分别对各待处理分词进行转换，获得对应的目标分词；

组合模块24，用于将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串，所述第二字符串中的各目标分词和所述第一字符串中的各待处理分词顺序对应，所述第二字符串中的各符号和所述第一字符串的各符号的顺序对应。

作为一种可选的实施例，所述第一转换模块23，具体包括：

作为一种可选的实施例，所述待处理分词包括以下几种组合形式的分词：数字型分词，字母型分词，数据和字母组合形成的组合型分词，以特殊符号开头的特殊型分词。

作为一种可选的实施例，所述第一转换模块23，具体包括：

第一确定模块，用于确定所述各待处理分词的组合形式；

作为一种可选的实施例，所述第二转换模块，具体用于：

作为一种可选的实施例，所述第二转换模块，具体包括：

第二确定模块，用于确定所述组合型分词的长度；

作为一种可选的实施例，所述第二转换模块，具体包括：

作为一种可选的实施例，所述系统还包括：

基于与前述实施例中同样的发明构思，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文任一所述方法的步骤。

基于与前述实施例中同样的发明构思，本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前文任一所述方法的步骤。

本发明公开了一种基于网络攻击的分词方法及系统，通过获得包含有攻击信息的第一字符串，然后以第一字符串中的各符号作为划分间隔，得到多个待处理分词。第一字符串的符号进行保留，不做转换或者去除，然后将各待处理分词进行转换得到对应的目标分词，最后将对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串。由此可见，在本发明实施例的分词过程中，第一字符串中的符号在分词时并没有被去掉，而是完全保留了。在对各待处理分词进行转换得到对应的目标分词之后，将目标分词和符号再次按照原有顺序合并，得到新的字符串(也就是第二字符串)。如此，携带有符号的攻击信息就不会丢失，能够最大程度的保留原字符串中的携带的攻击信息。故而用第二字符串作为机器学习模型中的判定标准去判定具有攻击嫌疑的字符串，就能够提高攻击检测的准确率。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或模块或组件组合成一个模块或模块或组件，以及此外可以把它们分成多个子模块或子模块或子组件。除了这样的特征和/或过程或者模块中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或模块进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。分词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的分词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的模块权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。分词第一、第二、以及第三等的使用不表示任何顺序。可将这些分词解释为名称。

本发明公开了，A1、一种基于网络攻击的分词方法，其特征在于，包括：

获得包含有攻击信息的第一字符串；

分别对各待处理分词进行转换，获得对应的目标分词；

A2、如A1所述的方法，其特征在于，所述分别对各待处理分词进行转换，获得对应的目标分词，具体包括：

获得一白名单，所述白名单中包含有攻击型分词；

将所述各待处理分词和所述白名单进行对比；

A3、如A1所述的方法，其特征在于，所述待处理分词包括以下几种组合形式的分词：数字型分词，字母型分词，数据和字母组合形成的组合型分词，以特殊符号开头的特殊型分词。

A4、如A3所述的方法，其特征在于，所述分别对各待处理分词进行转换，获得对应的目标分词，具体包括：

确定所述各待处理分词的组合形式；

A5、如A4所述的方法，其特征在于，所述基于所述各待处理分词的组合形式，将所述待处理分词进行转换，获得对应的目标分词，具体包括：

A6、如A5所述的方法，其特征在于，所述基于所述组合型分词的长度，转换为对应长度的变量，具体包括：

确定所述组合型分词的长度；

A7、如A5所述的方法，其特征在于，所述基于所述特殊型分词开头携带的特殊符号，转换为以数制类别表示的目标分词，具体包括：

确定出特殊型分词开头携带的特殊符号；

A8、如A1所述的方法，其特征在于，所述将所述对应的目标分词和所述各符号按照顺序进行组合，获得第二字符串之后，所述方法还包括：

A9、如A8所述的方法，其特征在于，所述将所述第二字符串输入机器学习模型中之后，所述方法还包括：

获得第三字符串；

B10、一种基于网络攻击的分词系统，其特征在于，包括：

第一获得模块，用于获得包含有攻击信息的第一字符串；

B11、如B10所述的系统，其特征在于，所述第一转换模块，具体包括：

B12、如B10所述的系统，其特征在于，所述待处理分词包括以下几种组合形式的分词：数字型分词，字母型分词，数据和字母组合形成的组合型分词，以特殊符号开头的特殊型分词。

B13、如B12所述的系统，其特征在于，所述第一转换模块，具体包括：

第一确定模块，用于确定所述各待处理分词的组合形式；

B14、如B13所述的系统，其特征在于，所述第二转换模块，具体用于：

B15、如B14所述的系统，其特征在于，所述第二转换模块，具体包括：

第二确定模块，用于确定所述组合型分词的长度；

B16、如B14所述的系统，其特征在于，所述第二转换模块，具体包括：

B17、如B10所述的系统，其特征在于，所述系统还包括：

B18、如B17所述的系统，其特征在于，所述系统还包括：

C19、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现A1-A9任一权项所述方法的步骤。

D20、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现A1-A9任一权项所述方法的步骤。

Claims

1.一种基于网络攻击的分词方法，其特征在于，包括：

获得包含有攻击信息的第一字符串；

分别对各待处理分词进行转换，获得对应的目标分词；

2.如权利要求1所述的方法，其特征在于，所述分别对各待处理分词进行转换，获得对应的目标分词，具体包括：

获得一白名单，所述白名单中包含有攻击型分词；

将所述各待处理分词和所述白名单进行对比；

3.如权利要求1所述的方法，其特征在于，所述待处理分词包括以下几种组合形式的分词：数字型分词，字母型分词，数据和字母组合形成的组合型分词，以特殊符号开头的特殊型分词。

4.如权利要求3所述的方法，其特征在于，所述分别对各待处理分词进行转换，获得对应的目标分词，具体包括：

确定所述各待处理分词的组合形式；

5.如权利要求4所述的方法，其特征在于，所述基于所述各待处理分词的组合形式，将所述待处理分词进行转换，获得对应的目标分词，具体包括：

6.如权利要求5所述的方法，其特征在于，所述基于所述组合型分词的长度，转换为对应长度的变量，具体包括：

确定所述组合型分词的长度；

7.如权利要求5所述的方法，其特征在于，所述基于所述特殊型分词开头携带的特殊符号，转换为以数制类别表示的目标分词，具体包括：

确定出特殊型分词开头携带的特殊符号；

8.一种基于网络攻击的分词系统，其特征在于，包括：

第一获得模块，用于获得包含有攻击信息的第一字符串；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一权项所述方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一权项所述方法的步骤。