CN113407886A - 网络犯罪平台识别方法、系统、设备和计算机存储介质 - Google Patents
网络犯罪平台识别方法、系统、设备和计算机存储介质 Download PDFInfo
- Publication number
- CN113407886A CN113407886A CN202110781281.9A CN202110781281A CN113407886A CN 113407886 A CN113407886 A CN 113407886A CN 202110781281 A CN202110781281 A CN 202110781281A CN 113407886 A CN113407886 A CN 113407886A
- Authority
- CN
- China
- Prior art keywords
- crime
- data
- platform
- network
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000013136 deep learning model Methods 0.000 claims abstract description 9
- 230000000717 retained effect Effects 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000001680 brushing effect Effects 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000149 penetrating effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/101—Access control lists [ACL]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
Abstract
本发明公开了网络犯罪平台识别方法、系统、设备和计算机存储介质,通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息;收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息;通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,并留存疑似网络犯罪平台的所有访问记录;将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模;根据识别模型对疑似网络犯罪平台进行识别,通过模型识别结果,确定犯罪平台网站类型,实现了对网络违法犯罪网站识别。
Description
技术领域
本发明涉及信息技术领域,具体为网络犯罪平台识别方法、系统、设备和计算机存储介质。
背景技术
目前已有异常网站检测技术,提前预置异常网站和正常网站的域名,判断待检测的网站在已预置的正常域名中,通过提取待监测网站特征文本,与预置的合法网站对应特征元素的相似度和预设阈值进行判断网站是否合法。但是,这种检测技术存在着很大的不足,包括:(1)该类方法对没有提前预置异常特征的网站无法识别;(2)为得到特征元素,该方法需要获取大量用户日志,模仿用户请求待监测网站;(3)该方式主要解决网站被攻击劫持篡改,是对正常网站发生异常的判断,而无法监测网络犯罪平台。
发明内容
为了克服现有技术方案的不足,本发明提供网络犯罪平台识别方法、系统、设备和计算机存储介质,能有效的解决背景技术提出的问题。
本发明解决其技术问题所采用的技术方案是:
一种新型网络犯罪平台识别方法,包括以下操作步骤:
步骤S101,通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息,具体为通过抽样镜像互联网中部分网络流量,利用网络抓包嗅探技术捕获镜像来的流量,然后对这些流量会话重组,接着进行深度网络数据包解析,分析网站协议并还原出流量中网站的真实信息;
步骤S102,收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息,通过对新型网络犯罪平台中高频出现的词汇收集和合法域名收集,经过人工审查确认后,形成黑名单词汇库和域名白名单库;
步骤S103,通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,具体为把还原的网站内容信息与收集的词汇数据集进行匹配,对内容匹配命中的网站域名进行白名单过滤,对过滤后的域名打上疑似网络犯罪标签并进行保留,并留存疑似网络犯罪平台的所有访问记录;
步骤S104,将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模,具体为利用留存的疑似网络犯罪平台访问记录数据人工刷选、打标,采用特征向量提取算法进行特征向量的提取,形成深度学习训练的数据集,最后选用适合的深度学习算法进行数据建模;
步骤S105,根据识别模型对疑似网络犯罪平台进行匹配,通过模型识别结果,确定犯罪平台网站类型。
进一步地,在步骤S101中,镜像互联网上的数据流量,可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量,而抽样则是指对互联网中的数据流量进行部分随机选择。
进一步地,在步骤S102中,新型网络犯罪平台高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道(如论坛、QQ)等多个数据源,合法域名主要来源于互联网数据中心系统。
进一步地,在步骤S103中,对网站过滤主要采用正则表达式匹配的方式,对命中黑名单词汇库的数据需要进行保留,对命中白名单域名的数据需要去除,同时把过滤后的域名数据打上疑似网络犯罪平台标签。
进一步地,在步骤S104中,特征向量为网站识别的特征,包括但不限于URL特征、网络拓扑特征、页面属性特征、页面内容特征、页面文本特征、网站图片特征和网站设备特征。
进一步地,一种用于执行该网络犯罪平台识别方法的系统,包括网络报文捕获解析模块、信息收集模块、数据建模模块和网络犯罪识别模块,其中:
网络报文捕获解析模块,用于还原镜像的网络流量,通过会话跟踪还原、深度报文解析,还原网站真实访问信息;
信息收集模块,用于收集网络犯罪平台词汇尤其是新型网络犯罪高频词汇,收集互联网合法域名;
数据建模模块,用于建立网络犯罪的识别模型,利用疑似数据人工过滤、犯罪类型打标,通过特征向量提取算法进行特征向量提取;选取适合的深度学习模型进行数据训练、算法调优,最终并建立识别模型;
网络犯罪识别模块,用于通过识别模型对疑似网络犯罪平台进行识别,判断最终网络犯罪平台类型。
进一步地,一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质,计算机存储介质上存储有计算机程序指令与程序指令执行时所需数据,识别设备包括处理器及电可擦除存储器、以及网络通信模块,处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器,网络通信模块用于设备与其他设备进行网络通信,处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。
与现有技术相比,本发明的有益效果是:
本发明采用抽样镜像网络流量的方式,无需模仿用户访问待检测的网站;通过新型网络犯罪活动词汇的收集及识别模型的建立实现了对未预置特征的新型网络违法犯罪网站进行识别,为打击整治网络违法犯罪活动,深入整顿网上秩序,进一步营造安全、清朗、有序的网络环境提供有力的支持。
附图说明
图1为本发明识别方法执行步骤流程示意图;
图2为本发明执行网络犯罪平台识别方法的系统内部结构示意图;
图3为本发明网络犯罪平台识别方法的识别设备与计算机存储介质结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,本发明提供了一种网络犯罪平台识别方法,包括以下操作步骤:
步骤S101,通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息,具体为通过抽样镜像互联网中部分网络流量,利用网络抓包嗅探技术捕获镜像来的流量,然后对这些流量会话重组,接着进行深度网络数据包解析,分析网站协议并还原出流量中网站的真实信息,镜像互联网上的数据流量,可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量,而抽样则是指对互联网中的数据流量进行部分随机选择;
步骤S102,收集网络犯罪平台高词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息,通过对新型网络犯罪平台中高频出现的词汇收集和合法域名收集,经过人工审查确认后,形成黑名单词汇库和域名白名单库,高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道(如论坛、QQ)等多个数据源,合法域名主要来源于互联网数据中心系统;
步骤S103,通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,并留存疑似网络犯罪平台的所有访问记录,具体为把还原的网站内容信息与收集的词汇数据集进行匹配,对内容匹配命中的网站域名进行白名单过滤,对过滤后的域名打上疑似网络犯罪标签并进行保留,对网站过滤主要采用正则表达式匹配的方式,对命中黑名单词汇库的数据需要进行保留,对命中白名单域名的数据需要去除,同时把过滤后的域名数据打上疑似网络犯罪平台标签;
步骤S104,将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模,具体为利用留存的疑似网络犯罪平台访问记录数据人工刷选、打标,采用特征向量提取算法进行特征向量的提取,形成深度学习训练的数据集,最后选用适合的深度学习算法进行数据建模,特征向量为网站识别的特征,包括但不限于URL特征、网络拓扑特征、页面属性特征、页面内容特征、页面文本特征、网站图片特征和网站设备特征;
步骤S105,根据识别模型对疑似网络犯罪平台进行匹配,通过模型识别结果,确定犯罪平台网站类型。
一种用于执行该网络犯罪平台识别方法的系统,包括网络报文捕获解析模块、信息收集模块、数据建模模块和网络犯罪识别模块,其中:
网络报文捕获解析模块,用于还原镜像的网络流量,通过会话跟踪还原、深度报文解析,还原网站真实访问信息;
信息收集模块,用于收集网络犯罪平台词汇尤其时新型网络犯罪高频词汇,收集互联网合法域名;
数据建模模块,用于建立网络犯罪的识别模型,利用疑似数据人工过滤、犯罪类型打标,通过特征向量提取算法进行特征向量的提取;选取适合的深度学习模型进行数据训练、算法调优,最终并建立识别模型;
新型网络犯罪识别模块,用于通过识别模型对疑似网络犯罪平台进行识别,判断最终网络犯罪平台类型。
一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质,计算机存储介质上存储有计算机程序指令与程序指令执行时所需数据,识别设备包括处理器及电可擦除存储器、以及网络通信模块,处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器,网络通信模块用于设备与其他设备进行网络通信,处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。
与传统技术相比,本技术方案采用抽样镜像网络流量的方式,无需模仿用户访问待检测的网站;通过新型网络犯罪活动词汇的收集及识别模型的建立实现了对未预置特征的新型网络违法犯罪网站进行识别,为打击整治网络违法犯罪活动,深入整顿网上秩序,进一步营造安全、清朗、有序的网络环境提供有力的支持。
具体实施例
S101:通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息。
本步骤主要实现互联网数据分光抽样,捕获流量并还原出真实网站。其中镜像互联网上的数据流量,可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量。其中抽样是指对互联网中的流量进行部分随机选择。
具体而言,通过抽样镜像互联网中部分网络流量,利用网络抓包嗅探技术捕获镜像来的流量,然后对这些流量会话重组,接着进行深度网络数据包解析,分析网站协议并还原出流量中网站的真实信息。
作为一种优选实施实例,上述抽样镜像的流量可以在镜像之前去除正常视频服务,音频服务的流量,例如去除视频数据为优酷、爱奇艺,去除音频数据QQ音乐、酷狗等。
S102:收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息。
本步骤实现新型网络犯罪平台中高频出现的词汇的黑名单数据收集,实现了域名白名单数据的收集。其中高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道(如论坛、QQ)等多个数据源;其中合法域名主要来源于互联网数据中心系统。从上述数据源获取的网络犯罪关键词汇、合法域名需要人工进行审核确认,形成最终的黑名单词汇库以及域名白名单库。
作为一种优选实施实例,其中形成的黑名单库数据可以包括:如网络赌博类:幸运飞艇、葡京娱乐城等;网络色情类:巨乳;网络诈骗类:金鹰女神带你月入十万;刷单诈骗类:免押金不贴资金;非法清算类:免签约快捷支付。
S103:通过收集的网络犯罪高频词汇、合法域名对网站进行过滤;把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,并留存疑似网络犯罪平台的所有访问记录。
本步骤实现疑似新型网络犯罪平台数据的采集。其中所述通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,过滤方法主要为正则表达式匹配。对命中黑名单词汇库的数据需要进行保留,对命中白名单域名的数据需要去除。其中所述把过滤后的域名数据打上疑似网络犯罪平台标签,该标签通过黑名单词汇库中,设置的标签值。如刷单诈骗、网络赌博等。所述留存疑似网络犯罪平台的所有访问记录,访问记录为该网络犯罪平台用户的活动数据,包括用户请求数据以及平台响应数据。
作为一种优选实施实例,对疑似网络犯罪平台的所有访问记录留存可以采用列式数据库clickhouse,该数据库方便用对记录的疑似网络犯罪数据进行实时分析、快速查询。
S104:将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模。
本步骤实现新型网络犯罪平台识别算法模型的建立。所述留存的数据为S103步骤中疑似新型网络犯罪平台的所有访问数据。本步骤中需要利用该数据人工刷选、打标,采用特征向量提取算法进行特征向量的提取,形成深度学习训练的数据集,最后选用适合的深度学习算法进行数据建模。
其中所述的特征向量为所有能够作为网站的识别的特征,包括但不限于:
(1)URL特征: url长度;特殊符号如@、数字、大小写字母、斜杠;分割属性,如按“.”分割后的单词数、最大字符串长度、次级域名长度;
(2)网络拓扑特征:如网页数量、网页数量、平均链入数量、平均链出数量、平均内链数据、平均图片数量、平均css文件数量、平均js文件数量、平均入度、平均出度、平均表单数量、平均输入控件数量、平均输入密码框数量、平均链接外部网站数量、表单链接比例、动态页面比例;
(3)页面属性特征:action属性、input属性、herf属性、link属性、img属性、script属性、frame属性、area属性、object属性;
(4)页面内容特征:敏感关键字比例、版权所有关键字、ICP号码关键字、title关键字;
(5)页面文本特征:包括文本内容、文本前景色、文本背景色、文本的字体大小、文本字体名称,文本在网页中的位置,以及文本特征的数量;
(6)网站图片特征:包括图片的src属性,图片的面积,图片的颜色直方图,图片在网页中的位置及小波特征
(7)网站备案特征:是否备案、备案单位性质、备案网站名称、备案单位备案网站数量、其他电子商务认证。
其中所述的特征向量提取,需要根据样本的分布差异情况,人工筛检出合适的特征及样本数据进行特征提取。其中所述选取适合的深度学习算法进行数据建模,需要根据上述特征向量选取结果及数据集,选择合适的算法;比如自动编码器、支持向量机、贝叶斯模型。
作为一种优选的实施示例,对于页面文本特征提取算法,可以为词频-逆向文件频率即TF-IDF算法,词频(TF)为词条(关键字)在文本中出现的频率,如敏感关键字‘葡京娱乐城’在留存的某涉赌平台频繁出现的次数,这个数字通过词频除文本总次数进行归一化,对于文件内容比较长的,出现次数对于端文本较高,归一化处理防止偏向长文件。逆向文件频率(IDF)由某平台留存的总记录数目除以包含某关键词语的记录数目加一,再将得到的商取对数。TF-IDF为TF乘以IDF,这样某一特定记录内的高词语频率,以及该词语在整个记录集合中的低文件频率,可以产生出高权重的TF-IDF。
作为一种优选的实施示例,对于页面文本识别模型算法可以采用贝叶斯分类模型,样本数据为记录的疑似网络犯罪平台经人工确认并打标后的准确网络犯罪平台记录数据,假设样本数据的特征为,网络犯罪类别为;根据贝叶斯公式,计算某记录为某种类别网络犯罪类型的概率为:
其中为网络犯罪平台文本特征属性的数目,为在第个特征属性上的取值。贝叶斯分类模型的训练过程是基于经IF-IDF提取高频权重词汇并人工确认后的网络犯罪类型样本数据训练集来估算类别的先验概率;每个文本特征属性估计条件概率,其中类第个属性上取值为的样本,为某分词后一类的数量。
S105:根据识别模型对疑似网络犯罪平台进行匹配,通过模型识别结果,确定犯罪平台网站类型。
本步骤利用上述建立调优的识别模型对留存的疑似网络犯罪数据进行识别,最后识别出平台的具体类型。
本发明还公开了一种用于执行该网络犯罪平台识别方法的系统,该系统包括:
网络报文捕获解析模块。该模块用于实现上述S101中的方法,用于还原镜像的网络流量,通过会话跟踪还原、深度报文解析,还原网站真实访问信息。
信息收集模块。该模块用于实现上述S102与S103中的方法,用于收集网络犯罪词汇尤其是新型网络犯罪高频词汇,收集互联网合法域名,并采集留存命中高频词汇的疑似网络犯罪平台数据。
数据建模模块。该模块用于实现上述S104中的方法,用于建立新型网络犯罪的识别模型,利用疑似数据人工过滤、犯罪类型打标,通过特征向量提取算法进行特征向量提取;选取适合的深度学习模型数据训练、算法调优,最终并建立识别模型。
网络犯罪识别模块。该模块用于实现上述S105中的方法,用于通过识别模型对疑似网络犯罪平台进行识别,判断最终网络犯罪平台类型。
本发明还公开了一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质,所述计算机存储介质上存储有计算机程序指令与程序指令执行时所需的数据;识别设备包括处理器及电可擦除存储器、以及网络通信模块,处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器,网络通信模块用于设备与其他设备进行网络通信,处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (7)
1.一种网络犯罪平台识别方法,其特征在于,包括以下操作步骤:
步骤S101,通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息,具体为通过抽样镜像互联网中部分网络流量,利用网络抓包嗅探技术捕获镜像来的流量,然后对这些流量会话重组,接着进行深度网络数据包解析,分析网站协议并还原出流量中网站的真实信息;
步骤S102,收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息,通过对新型网络犯罪平台中高频出现的词汇收集和合法域名收集,经过人工审查确认后,形成黑名单词汇库和域名白名单库;
步骤S103,通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,具体为把还原的网站内容信息与收集的词汇数据集进行匹配,对内容匹配命中的网站域名进行白名单过滤,对过滤后的域名打上疑似网络犯罪标签并进行保留,并留存疑似网络犯罪平台的所有访问记录;
步骤S104,将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模,具体为利用留存的疑似网络犯罪平台访问记录数据人工刷选、打标,采用特征向量提取算法进行特征向量的提取,形成深度学习训练的数据集,最后选用适合的深度学习算法进行数据建模;
步骤S105,根据识别模型对疑似网络犯罪平台进行识别,通过模型识别结果,确定犯罪平台网站类型。
2.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S101中,镜像互联网上的数据流量,可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量,而抽样则是指对互联网中的数据流量进行部分随机选择。
3.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S102中,新型网络犯罪平台高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道(如论坛、QQ)等多个数据源,合法域名主要来源于互联网数据中心系统。
4.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S103中,对网站过滤主要采用正则表达式匹配的方式,对命中黑名单词汇库的数据需要进行保留,对命中白名单域名的数据需要去除,同时把过滤后的域名数据打上疑似网络犯罪平台标签。
5.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S104中,特征向量为网站识别的特征,包括但不限于URL特征、网络拓扑特征、页面属性特征、页面内容特征、页面文本特征、网站图片特征和网站设备特征。
6.根据权利要求1所述一种用于执行该网络犯罪平台识别方法的系统,其特征在于,包括网络报文捕获解析模块、信息收集模块、数据建模模块和网络犯罪识别模块,其中:
网络报文捕获解析模块,用于还原镜像的网络流量,通过会话跟踪还原、深度报文解析,还原网站真实访问信息;
信息收集模块,用于收集网络犯罪平台词汇尤其是新型网络犯罪高频词汇,收集互联网合法域名;
数据建模模块,用于建立网络犯罪的识别模型,利用疑似数据人工过滤、犯罪类型打标,通过特征向量提取算法进行特征向量提取;选取适合的深度学习模型进行数据训练、算法调优,最终建立识别模型;
网络犯罪识别模块,用于通过识别模型对疑似网络犯罪平台进行识别,判断最终网络犯罪平台类型。
7.根据权利要求1所述一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质,其特征在于,计算机存储介质上存储有计算机程序指令与程序指令执行时所需的数据;识别设备包括处理器及电可擦除存储器、以及网络通信模块,处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器,网络通信模块用于设备与其他设备进行网络通信,处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781281.9A CN113407886A (zh) | 2021-07-10 | 2021-07-10 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781281.9A CN113407886A (zh) | 2021-07-10 | 2021-07-10 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113407886A true CN113407886A (zh) | 2021-09-17 |
Family
ID=77685815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110781281.9A Pending CN113407886A (zh) | 2021-07-10 | 2021-07-10 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113407886A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113890866A (zh) * | 2021-09-26 | 2022-01-04 | 恒安嘉新(北京)科技股份公司 | 一种违规应用软件识别方法、装置、介质及电子设备 |
CN113886670A (zh) * | 2021-12-06 | 2022-01-04 | 中国电子科技集团公司第三十研究所 | 一种基于标注体系的暗网站点用户画像方法 |
CN114915468A (zh) * | 2022-05-10 | 2022-08-16 | 广州数智网络科技有限公司 | 基于知识图谱的网络犯罪智能分析检测方法 |
CN115114677A (zh) * | 2022-08-30 | 2022-09-27 | 四川安洵信息技术有限公司 | 基于区块链取存证技术的网络犯罪服务平台及应用方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001033371A1 (en) * | 1999-11-05 | 2001-05-10 | Surfmonkey.Com, Inc. | System and method of filtering adult content on the internet |
WO2012164336A1 (en) * | 2011-05-31 | 2012-12-06 | Bce Inc. | Distribution and processing of cyber threat intelligence data in a communications network |
CN108111526A (zh) * | 2017-12-29 | 2018-06-01 | 哈尔滨工业大学(威海) | 一种基于异常whois信息的非法网站挖掘方法 |
CN112347244A (zh) * | 2019-08-08 | 2021-02-09 | 四川大学 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
-
2021
- 2021-07-10 CN CN202110781281.9A patent/CN113407886A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001033371A1 (en) * | 1999-11-05 | 2001-05-10 | Surfmonkey.Com, Inc. | System and method of filtering adult content on the internet |
WO2012164336A1 (en) * | 2011-05-31 | 2012-12-06 | Bce Inc. | Distribution and processing of cyber threat intelligence data in a communications network |
CN108111526A (zh) * | 2017-12-29 | 2018-06-01 | 哈尔滨工业大学(威海) | 一种基于异常whois信息的非法网站挖掘方法 |
CN112347244A (zh) * | 2019-08-08 | 2021-02-09 | 四川大学 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113890866A (zh) * | 2021-09-26 | 2022-01-04 | 恒安嘉新(北京)科技股份公司 | 一种违规应用软件识别方法、装置、介质及电子设备 |
CN113890866B (zh) * | 2021-09-26 | 2024-03-12 | 恒安嘉新(北京)科技股份公司 | 一种违规应用软件识别方法、装置、介质及电子设备 |
CN113886670A (zh) * | 2021-12-06 | 2022-01-04 | 中国电子科技集团公司第三十研究所 | 一种基于标注体系的暗网站点用户画像方法 |
CN114915468A (zh) * | 2022-05-10 | 2022-08-16 | 广州数智网络科技有限公司 | 基于知识图谱的网络犯罪智能分析检测方法 |
CN114915468B (zh) * | 2022-05-10 | 2024-02-02 | 广州数智网络科技有限公司 | 基于知识图谱的网络犯罪智能分析检测方法 |
CN115114677A (zh) * | 2022-08-30 | 2022-09-27 | 四川安洵信息技术有限公司 | 基于区块链取存证技术的网络犯罪服务平台及应用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113407886A (zh) | 网络犯罪平台识别方法、系统、设备和计算机存储介质 | |
Nguyen et al. | Automatic image filtering on social networks using deep learning and perceptual hashing during crises | |
US8510795B1 (en) | Video-based CAPTCHA | |
US10432562B2 (en) | Reducing photo-tagging spam | |
CN113098870B (zh) | 一种网络诈骗检测方法、装置、电子设备及存储介质 | |
CN104766014B (zh) | 用于检测恶意网址的方法和系统 | |
CN109922052A (zh) | 一种结合多重特征的恶意url检测方法 | |
CN105138709B (zh) | 一种基于物理内存分析的远程取证系统 | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
JP2014502753A (ja) | ウェブページ情報の検出方法及びシステム | |
CN106601243A (zh) | 一种视频文件识别方法及装置 | |
RU2676247C1 (ru) | Способ и компьютерное устройство для кластеризации веб-ресурсов | |
Lago et al. | Visual and textual analysis for image trustworthiness assessment within online news | |
CN115086004B (zh) | 一种基于异质图的安全事件识别方法及系统 | |
Li et al. | PhishBox: An approach for phishing validation and detection | |
CN114650176A (zh) | 钓鱼网站的检测方法、装置、计算机设备及存储介质 | |
Khan et al. | Digital forensics and cyber forensics investigation: security challenges, limitations, open issues, and future direction | |
CN114422211A (zh) | 基于图注意力网络的http恶意流量检测方法及装置 | |
CN111784360B (zh) | 一种基于网络链接回溯的反欺诈预测方法及系统 | |
CN113688905A (zh) | 一种有害域名核验方法及装置 | |
CN112347457A (zh) | 异常账户检测方法、装置、计算机设备和存储介质 | |
Phan et al. | A hybrid approach for multimedia use verification | |
CN115688107A (zh) | 一种涉诈app检测系统和方法 | |
CN114915468A (zh) | 基于知识图谱的网络犯罪智能分析检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210917 |
|
RJ01 | Rejection of invention patent application after publication |