CN113407886A

CN113407886A - 网络犯罪平台识别方法、系统、设备和计算机存储介质

Info

Publication number: CN113407886A
Application number: CN202110781281.9A
Authority: CN
Inventors: 李辉; 谭健铸; 郭伟
Original assignee: Guangzhou Digital Network Technology Co ltd
Current assignee: Guangzhou Digital Network Technology Co ltd
Priority date: 2021-07-10
Filing date: 2021-07-10
Publication date: 2021-09-17

Abstract

本发明公开了网络犯罪平台识别方法、系统、设备和计算机存储介质，通过抽样镜像互联网中部分网络流量，捕获镜像出口的数据包并进行协议解析，还原真实网站信息；收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息；通过收集的网络犯罪高频词汇、合法域名对网站进行过滤，把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签，并留存疑似网络犯罪平台的所有访问记录；将留存的数据，进行特征提取并打上网络犯罪类型标签，选取适合的深度学习模型进行数据建模；根据识别模型对疑似网络犯罪平台进行识别，通过模型识别结果，确定犯罪平台网站类型，实现了对网络违法犯罪网站识别。

Description

网络犯罪平台识别方法、系统、设备和计算机存储介质

技术领域

本发明涉及信息技术领域，具体为网络犯罪平台识别方法、系统、设备和计算机存储介质。

背景技术

目前已有异常网站检测技术，提前预置异常网站和正常网站的域名，判断待检测的网站在已预置的正常域名中，通过提取待监测网站特征文本，与预置的合法网站对应特征元素的相似度和预设阈值进行判断网站是否合法。但是，这种检测技术存在着很大的不足，包括：（1）该类方法对没有提前预置异常特征的网站无法识别；（2）为得到特征元素，该方法需要获取大量用户日志，模仿用户请求待监测网站；（3）该方式主要解决网站被攻击劫持篡改，是对正常网站发生异常的判断，而无法监测网络犯罪平台。

发明内容

为了克服现有技术方案的不足，本发明提供网络犯罪平台识别方法、系统、设备和计算机存储介质，能有效的解决背景技术提出的问题。

本发明解决其技术问题所采用的技术方案是：

一种新型网络犯罪平台识别方法，包括以下操作步骤：

步骤S101，通过抽样镜像互联网中部分网络流量，捕获镜像出口的数据包并进行协议解析，还原真实网站信息，具体为通过抽样镜像互联网中部分网络流量，利用网络抓包嗅探技术捕获镜像来的流量，然后对这些流量会话重组，接着进行深度网络数据包解析，分析网站协议并还原出流量中网站的真实信息；

步骤S102，收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息，通过对新型网络犯罪平台中高频出现的词汇收集和合法域名收集，经过人工审查确认后，形成黑名单词汇库和域名白名单库；

步骤S103，通过收集的网络犯罪高频词汇、合法域名对网站进行过滤，把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签，具体为把还原的网站内容信息与收集的词汇数据集进行匹配，对内容匹配命中的网站域名进行白名单过滤，对过滤后的域名打上疑似网络犯罪标签并进行保留，并留存疑似网络犯罪平台的所有访问记录；

步骤S104，将留存的数据，进行特征提取并打上网络犯罪类型标签，选取适合的深度学习模型进行数据建模，具体为利用留存的疑似网络犯罪平台访问记录数据人工刷选、打标，采用特征向量提取算法进行特征向量的提取，形成深度学习训练的数据集，最后选用适合的深度学习算法进行数据建模；

步骤S105，根据识别模型对疑似网络犯罪平台进行匹配，通过模型识别结果，确定犯罪平台网站类型。

进一步地，在步骤S101中，镜像互联网上的数据流量，可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量，而抽样则是指对互联网中的数据流量进行部分随机选择。

进一步地，在步骤S102中，新型网络犯罪平台高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道（如论坛、QQ）等多个数据源，合法域名主要来源于互联网数据中心系统。

进一步地，在步骤S103中，对网站过滤主要采用正则表达式匹配的方式，对命中黑名单词汇库的数据需要进行保留，对命中白名单域名的数据需要去除，同时把过滤后的域名数据打上疑似网络犯罪平台标签。

进一步地，在步骤S104中，特征向量为网站识别的特征，包括但不限于URL特征、网络拓扑特征、页面属性特征、页面内容特征、页面文本特征、网站图片特征和网站设备特征。

进一步地，一种用于执行该网络犯罪平台识别方法的系统，包括网络报文捕获解析模块、信息收集模块、数据建模模块和网络犯罪识别模块，其中：

网络报文捕获解析模块，用于还原镜像的网络流量，通过会话跟踪还原、深度报文解析，还原网站真实访问信息；

信息收集模块，用于收集网络犯罪平台词汇尤其是新型网络犯罪高频词汇，收集互联网合法域名；

数据建模模块，用于建立网络犯罪的识别模型，利用疑似数据人工过滤、犯罪类型打标，通过特征向量提取算法进行特征向量提取；选取适合的深度学习模型进行数据训练、算法调优，最终并建立识别模型；

网络犯罪识别模块，用于通过识别模型对疑似网络犯罪平台进行识别，判断最终网络犯罪平台类型。

进一步地，一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质，计算机存储介质上存储有计算机程序指令与程序指令执行时所需数据，识别设备包括处理器及电可擦除存储器、以及网络通信模块，处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器，网络通信模块用于设备与其他设备进行网络通信，处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。

与现有技术相比，本发明的有益效果是：

本发明采用抽样镜像网络流量的方式，无需模仿用户访问待检测的网站；通过新型网络犯罪活动词汇的收集及识别模型的建立实现了对未预置特征的新型网络违法犯罪网站进行识别，为打击整治网络违法犯罪活动，深入整顿网上秩序，进一步营造安全、清朗、有序的网络环境提供有力的支持。

附图说明

图1为本发明识别方法执行步骤流程示意图；

图2为本发明执行网络犯罪平台识别方法的系统内部结构示意图；

图3为本发明网络犯罪平台识别方法的识别设备与计算机存储介质结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-3所示，本发明提供了一种网络犯罪平台识别方法，包括以下操作步骤：

步骤S101，通过抽样镜像互联网中部分网络流量，捕获镜像出口的数据包并进行协议解析，还原真实网站信息，具体为通过抽样镜像互联网中部分网络流量，利用网络抓包嗅探技术捕获镜像来的流量，然后对这些流量会话重组，接着进行深度网络数据包解析，分析网站协议并还原出流量中网站的真实信息，镜像互联网上的数据流量，可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量，而抽样则是指对互联网中的数据流量进行部分随机选择；

步骤S102，收集网络犯罪平台高词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息，通过对新型网络犯罪平台中高频出现的词汇收集和合法域名收集，经过人工审查确认后，形成黑名单词汇库和域名白名单库，高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道（如论坛、QQ)等多个数据源，合法域名主要来源于互联网数据中心系统；

步骤S103，通过收集的网络犯罪高频词汇、合法域名对网站进行过滤，把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签，并留存疑似网络犯罪平台的所有访问记录，具体为把还原的网站内容信息与收集的词汇数据集进行匹配，对内容匹配命中的网站域名进行白名单过滤，对过滤后的域名打上疑似网络犯罪标签并进行保留，对网站过滤主要采用正则表达式匹配的方式，对命中黑名单词汇库的数据需要进行保留，对命中白名单域名的数据需要去除，同时把过滤后的域名数据打上疑似网络犯罪平台标签；

步骤S104，将留存的数据，进行特征提取并打上网络犯罪类型标签，选取适合的深度学习模型进行数据建模，具体为利用留存的疑似网络犯罪平台访问记录数据人工刷选、打标，采用特征向量提取算法进行特征向量的提取，形成深度学习训练的数据集，最后选用适合的深度学习算法进行数据建模，特征向量为网站识别的特征，包括但不限于URL特征、网络拓扑特征、页面属性特征、页面内容特征、页面文本特征、网站图片特征和网站设备特征；

一种用于执行该网络犯罪平台识别方法的系统，包括网络报文捕获解析模块、信息收集模块、数据建模模块和网络犯罪识别模块，其中：

信息收集模块，用于收集网络犯罪平台词汇尤其时新型网络犯罪高频词汇，收集互联网合法域名；

数据建模模块，用于建立网络犯罪的识别模型，利用疑似数据人工过滤、犯罪类型打标，通过特征向量提取算法进行特征向量的提取；选取适合的深度学习模型进行数据训练、算法调优，最终并建立识别模型；

新型网络犯罪识别模块，用于通过识别模型对疑似网络犯罪平台进行识别，判断最终网络犯罪平台类型。

一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质，计算机存储介质上存储有计算机程序指令与程序指令执行时所需数据，识别设备包括处理器及电可擦除存储器、以及网络通信模块，处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器，网络通信模块用于设备与其他设备进行网络通信，处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。

与传统技术相比，本技术方案采用抽样镜像网络流量的方式，无需模仿用户访问待检测的网站；通过新型网络犯罪活动词汇的收集及识别模型的建立实现了对未预置特征的新型网络违法犯罪网站进行识别，为打击整治网络违法犯罪活动，深入整顿网上秩序，进一步营造安全、清朗、有序的网络环境提供有力的支持。

具体实施例

S101：通过抽样镜像互联网中部分网络流量，捕获镜像出口的数据包并进行协议解析，还原真实网站信息。

本步骤主要实现互联网数据分光抽样，捕获流量并还原出真实网站。其中镜像互联网上的数据流量，可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量。其中抽样是指对互联网中的流量进行部分随机选择。

具体而言，通过抽样镜像互联网中部分网络流量，利用网络抓包嗅探技术捕获镜像来的流量，然后对这些流量会话重组，接着进行深度网络数据包解析，分析网站协议并还原出流量中网站的真实信息。

作为一种优选实施实例，上述抽样镜像的流量可以在镜像之前去除正常视频服务，音频服务的流量，例如去除视频数据为优酷、爱奇艺，去除音频数据QQ音乐、酷狗等。

S102：收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息。

本步骤实现新型网络犯罪平台中高频出现的词汇的黑名单数据收集，实现了域名白名单数据的收集。其中高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道（如论坛、QQ）等多个数据源；其中合法域名主要来源于互联网数据中心系统。从上述数据源获取的网络犯罪关键词汇、合法域名需要人工进行审核确认，形成最终的黑名单词汇库以及域名白名单库。

作为一种优选实施实例，其中形成的黑名单库数据可以包括：如网络赌博类：幸运飞艇、葡京娱乐城等；网络色情类：巨乳；网络诈骗类：金鹰女神带你月入十万；刷单诈骗类：免押金不贴资金；非法清算类：免签约快捷支付。

S103：通过收集的网络犯罪高频词汇、合法域名对网站进行过滤；把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签，并留存疑似网络犯罪平台的所有访问记录。

本步骤实现疑似新型网络犯罪平台数据的采集。其中所述通过收集的网络犯罪高频词汇、合法域名对网站进行过滤，过滤方法主要为正则表达式匹配。对命中黑名单词汇库的数据需要进行保留，对命中白名单域名的数据需要去除。其中所述把过滤后的域名数据打上疑似网络犯罪平台标签，该标签通过黑名单词汇库中，设置的标签值。如刷单诈骗、网络赌博等。所述留存疑似网络犯罪平台的所有访问记录，访问记录为该网络犯罪平台用户的活动数据，包括用户请求数据以及平台响应数据。

作为一种优选实施实例，对疑似网络犯罪平台的所有访问记录留存可以采用列式数据库clickhouse，该数据库方便用对记录的疑似网络犯罪数据进行实时分析、快速查询。

S104：将留存的数据，进行特征提取并打上网络犯罪类型标签，选取适合的深度学习模型进行数据建模。

本步骤实现新型网络犯罪平台识别算法模型的建立。所述留存的数据为S103步骤中疑似新型网络犯罪平台的所有访问数据。本步骤中需要利用该数据人工刷选、打标，采用特征向量提取算法进行特征向量的提取，形成深度学习训练的数据集，最后选用适合的深度学习算法进行数据建模。

其中所述的特征向量为所有能够作为网站的识别的特征，包括但不限于：

（1）URL特征： url长度；特殊符号如@、数字、大小写字母、斜杠;分割属性,如按“.”分割后的单词数、最大字符串长度、次级域名长度；

（2）网络拓扑特征：如网页数量、网页数量、平均链入数量、平均链出数量、平均内链数据、平均图片数量、平均css文件数量、平均js文件数量、平均入度、平均出度、平均表单数量、平均输入控件数量、平均输入密码框数量、平均链接外部网站数量、表单链接比例、动态页面比例；

（3）页面属性特征：action属性、input属性、herf属性、link属性、img属性、script属性、frame属性、area属性、object属性；

（5）页面文本特征：包括文本内容、文本前景色、文本背景色、文本的字体大小、文本字体名称，文本在网页中的位置，以及文本特征的数量；

（6）网站图片特征：包括图片的src属性，图片的面积，图片的颜色直方图，图片在网页中的位置及小波特征

（7）网站备案特征：是否备案、备案单位性质、备案网站名称、备案单位备案网站数量、其他电子商务认证。

其中所述的特征向量提取，需要根据样本的分布差异情况，人工筛检出合适的特征及样本数据进行特征提取。其中所述选取适合的深度学习算法进行数据建模，需要根据上述特征向量选取结果及数据集，选择合适的算法；比如自动编码器、支持向量机、贝叶斯模型。

作为一种优选的实施示例，对于页面文本特征提取算法，可以为词频-逆向文件频率即TF-IDF算法，词频（TF）为词条（关键字）在文本中出现的频率，如敏感关键字‘葡京娱乐城’在留存的某涉赌平台频繁出现的次数，这个数字通过词频除文本总次数进行归一化，对于文件内容比较长的，出现次数对于端文本较高，归一化处理防止偏向长文件。逆向文件频率（IDF）由某平台留存的总记录数目除以包含某关键词语的记录数目加一，再将得到的商取对数。TF-IDF为TF乘以IDF,这样某一特定记录内的高词语频率，以及该词语在整个记录集合中的低文件频率，可以产生出高权重的TF-IDF。

作为一种优选的实施示例，对于页面文本识别模型算法可以采用贝叶斯分类模型，样本数据为记录的疑似网络犯罪平台经人工确认并打标后的准确网络犯罪平台记录数据，假设样本数据的特征为

，网络犯罪类别为

；根据贝叶斯公式，计算某记录为某种类别网络犯罪类型的概率为：

其中

为网络犯罪平台文本特征属性的数目，

为

在第

个特征属性上的取值。贝叶斯分类模型的训练过程是基于经IF-IDF提取高频权重词汇并人工确认后的网络犯罪类型样本数据训练集

来估算类别的先验概率

；每个文本特征属性估计条件概率

，其中

类第

个属性上取值为

的样本，

为某分词后一类的数量。

S105：根据识别模型对疑似网络犯罪平台进行匹配，通过模型识别结果，确定犯罪平台网站类型。

本步骤利用上述建立调优的识别模型对留存的疑似网络犯罪数据进行识别，最后识别出平台的具体类型。

本发明还公开了一种用于执行该网络犯罪平台识别方法的系统，该系统包括：

网络报文捕获解析模块。该模块用于实现上述S101中的方法，用于还原镜像的网络流量，通过会话跟踪还原、深度报文解析，还原网站真实访问信息。

信息收集模块。该模块用于实现上述S102与S103中的方法,用于收集网络犯罪词汇尤其是新型网络犯罪高频词汇，收集互联网合法域名，并采集留存命中高频词汇的疑似网络犯罪平台数据。

数据建模模块。该模块用于实现上述S104中的方法，用于建立新型网络犯罪的识别模型，利用疑似数据人工过滤、犯罪类型打标，通过特征向量提取算法进行特征向量提取；选取适合的深度学习模型数据训练、算法调优，最终并建立识别模型。

网络犯罪识别模块。该模块用于实现上述S105中的方法，用于通过识别模型对疑似网络犯罪平台进行识别，判断最终网络犯罪平台类型。

本发明还公开了一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质，所述计算机存储介质上存储有计算机程序指令与程序指令执行时所需的数据；识别设备包括处理器及电可擦除存储器、以及网络通信模块，处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器，网络通信模块用于设备与其他设备进行网络通信，处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种网络犯罪平台识别方法，其特征在于，包括以下操作步骤：

步骤S105，根据识别模型对疑似网络犯罪平台进行识别，通过模型识别结果，确定犯罪平台网站类型。

2.根据权利要求1所述的一种网络犯罪平台识别方法，其特征在于，在步骤S101中，镜像互联网上的数据流量，可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量，而抽样则是指对互联网中的数据流量进行部分随机选择。

3.根据权利要求1所述的一种网络犯罪平台识别方法，其特征在于，在步骤S102中，新型网络犯罪平台高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道(如论坛、QQ)等多个数据源，合法域名主要来源于互联网数据中心系统。

4.根据权利要求1所述的一种网络犯罪平台识别方法，其特征在于，在步骤S103中，对网站过滤主要采用正则表达式匹配的方式，对命中黑名单词汇库的数据需要进行保留，对命中白名单域名的数据需要去除，同时把过滤后的域名数据打上疑似网络犯罪平台标签。

5.根据权利要求1所述的一种网络犯罪平台识别方法，其特征在于，在步骤S104中，特征向量为网站识别的特征，包括但不限于URL特征、网络拓扑特征、页面属性特征、页面内容特征、页面文本特征、网站图片特征和网站设备特征。

6.根据权利要求1所述一种用于执行该网络犯罪平台识别方法的系统，其特征在于，包括网络报文捕获解析模块、信息收集模块、数据建模模块和网络犯罪识别模块，其中：

数据建模模块，用于建立网络犯罪的识别模型，利用疑似数据人工过滤、犯罪类型打标，通过特征向量提取算法进行特征向量提取；选取适合的深度学习模型进行数据训练、算法调优，最终建立识别模型；

7.根据权利要求1所述一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质，其特征在于，计算机存储介质上存储有计算机程序指令与程序指令执行时所需的数据；识别设备包括处理器及电可擦除存储器、以及网络通信模块，处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器，网络通信模块用于设备与其他设备进行网络通信，处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。