CN113285957A - 基于clickhouse的赌博网站检测方法 - Google Patents

基于clickhouse的赌博网站检测方法 Download PDF

Info

Publication number
CN113285957A
CN113285957A CN202110663111.0A CN202110663111A CN113285957A CN 113285957 A CN113285957 A CN 113285957A CN 202110663111 A CN202110663111 A CN 202110663111A CN 113285957 A CN113285957 A CN 113285957A
Authority
CN
China
Prior art keywords
data
clickhouse
gambling
gambling website
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110663111.0A
Other languages
English (en)
Inventor
马家铎
李辉
谭健铸
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Digital Network Technology Co ltd
Original Assignee
Guangzhou Digital Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Digital Network Technology Co ltd filed Critical Guangzhou Digital Network Technology Co ltd
Priority to CN202110663111.0A priority Critical patent/CN113285957A/zh
Publication of CN113285957A publication Critical patent/CN113285957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Abstract

本发明公开了基于clickhouse的赌博网站检测方法,包括以下检测步骤:通过深度报文解析将网络数据包进行赌博网站关键字匹配,形成可疑数据;将形成的可疑数据记录到clickhouse数据库;通过正则规则匹配和训练出来的数据模型对数据进行分析处理;给确认的赌博网站数据打上标签,并存入clickhouse数据库;根据业务需求从clickhouse中读取赌博网站数据进行展示。通过检测识别IP数据包中的赌博信息,从而识别赌博网站,可以帮助有关部门加强对互联网赌博这种违法行为的整治,防止互联网环境被严重破坏,防止社会风气被破坏。

Description

基于clickhouse的赌博网站检测方法
技术领域
本发明涉及数据分析技术领域,具体为基于clickhouse的赌博网站检测方法。
背景技术
随着互联网的飞速发展,传统的博彩平台很多已经转移到网络,线上博彩平台层出不穷。同事网络博彩也有着传统博彩所不具备的特点,使其更加诱人。譬如网络博彩的即时性和跨区域性,还有博彩的各种新的类型包括足球、篮球、赛马等。网络博彩是违法犯罪行为,极具欺骗性和危害性,国家严厉打击网络博彩。
但是现在打击网络博彩的手段有限,缺乏专业系统的一套打击手段。目前对于赌博网站的检测识别方法有基于卷积神经网络的赌博网站识别方法。批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。这种识别方法无法实现仅从IP数据包中就就能分析网站是否属于赌博网站,且没有完整的实现装置。
发明内容
为了克服现有技术方案的不足,本发明提供基于clickhouse的赌博网站检测方法,能有效的解决背景技术提出的问题。
本发明解决其技术问题所采用的技术方案是:
基于clickhouse的赌博网站检测方法,包括以下检测步骤:
步骤S1:通过深度报文解析将网络数据包进行赌博网站关键字匹配,形成可疑数据;
步骤S2:将形成的可疑数据记录到clickhouse数据库;
步骤S3:通过正则规则匹配和训练出来的数据模型对数据进行分析处理;
步骤S4:给确认的赌博网站数据打上标签,并存入clickhouse数据库;
步骤S5:根据业务需求从clickhouse中读取赌博网站数据进行展示。
进一步地,在步骤S1中,通过深度报文解析获取到对应的报文信息,根据报文信息抓取网络数据包、并对其进行网络协议还原,获得还原后的数据,再对数据进行关键字匹配。
进一步地,在步骤S2中,数据分析平台通过clickhouser-driver连接clickhouse数据库的方式将可疑数据写入clickhouse数据库。
进一步地,在步骤S3中,数据处理平台采用多层正则匹配、模型匹配,分析判断深度报文解析获取到的疑似记录是否属于赌博网站数据,将确认的全量数据记录到clickhouse的http表中。
进一步地,在步骤S5中,业务需要通过MySQL连接clickhouse,将处理后的赌博网站数据转存到MySQL数据库,后台根据业务需要从MySQL数据库获取已经处理完成的数据,交给前端进行展示。
与现有技术相比,本发明的有益效果是:
本发明通过检测识别IP数据包中的赌博信息,采用了基于clickhouse,通过正则与模型匹配的赌博网站检测的方案,实现了从IP数据包中较为准确地识别网络赌博平台的目的,从而识别赌博网站,可以帮助有关部门加强对互联网赌博这种违法行为的整治,防止互联网环境被严重破坏,防止社会风气被破坏。
附图说明
图1为本发明工作流程示意图;
图2为本发明检测步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了基于clickhouse的赌博网站检测方法,包括以下检测步骤:
步骤S1:通过深度报文解析将网络数据包进行赌博网站关键字匹配,形成可疑数据,通过深度报文解析获取到对应的报文信息,根据报文信息抓取网络数据包、并对其进行网络协议还原,获得还原后的数据,再对数据进行关键字匹配;
步骤S2:将形成的可疑数据记录到clickhouse数据库,数据分析平台通过clickhouser-driver连接clickhouse数据库的方式将可疑数据写入clickhouse数据库;
步骤S3:通过正则规则匹配和训练出来的数据模型对数据进行分析处理,数据处理平台采用多层正则匹配、模型匹配,分析判断深度报文解析获取到的疑似记录是否属于赌博网站数据,将确认的全量数据记录到clickhouse的http表中;
步骤S4:给确认的赌博网站数据打上标签,并存入clickhouse数据库;
步骤S5:根据业务需求从clickhouse中读取赌博网站数据进行展示,业务需要通过MySQL连接clickhouse,将处理后的赌博网站数据转存到MySQL数据库,后台根据业务需要从MySQL数据库获取已经处理完成的数据,交给前端进行展示。
与传统技术相比,本技术方案通过检测识别IP数据包中的赌博信息,采用了基于clickhouse,通过正则与模型匹配的赌博网站检测的方案,实现了从IP数据包中较为准确地识别网络赌博平台的目的,从而识别赌博网站,可以帮助有关部门加强对互联网赌博这种违法行为的整治,防止互联网环境被严重破坏,防止社会风气被破坏。
实施例:
本发明是将网络流量进行采集,通过深度报文解析DPI将网络数据进行关键字匹配处理并记录到clickhouse,通过检测数据清洗,模型检测给数据打上标签以此过滤信息,将处理后的数据返回到clickhouse,前端根据数据标签label的不同,获取到赌博网站的信息进行展示,如下所述:
(1)通过深度报文解析DPI解析试点机房获取到的报文信息,抓取网络数据包、并对其进行网络协议还原,获得还原后的数据,再对数据进行关键字匹配,形成疑似赌博网站的记录;
(2)在clickhouse中创建接收深度报文解析DPI数据的各协议类型表(如dns、http、ftp等),包括IP域名,服务器IP、端口号,客户端IP、端口号,数据请求时间和数据包请求内容,以及相应的时间戳;
(3)数据分析平台写入clickhouse数据库的配置信息,通过clickhouser-driver连接clickhouse数据库;
(4)初始化赌博网站的检测引擎类illegal_recognize_engine_idc和检测模型IllegalModel;
(5)illegal_recognize_engine_idc检测引擎通过多层正则匹配,初步判定网站是否属于赌博网站,再通过检测模型IllegalModel进行更进一步的检测。IllegalModel的训练框架采用pytorch,先收集数据集,对数据集进行清理,必要时对数据增强,通过调整参数优化训练模型,不断提高模型的准确率;
(6)通过数据处理平台,采用多层正则匹配、模型匹配,分析判断深度报文解析DPI获取到的疑似记录是否属于赌博网站数据,将确认的赌博网站记录的IP下发给深度报文解析DPI,深度报文解析DPI再将此IP的全量数据记录到clickhouse的http表中,并通过数据处理平台产生一条告警信息,同时将告警信息存入磁盘,其他协议类型的数据直接存入clickhouse的对应协议类型表中;
(7)由于深度报文解析DPI数据包数量很多数据庞大,也是为了提高处理效率,所以通过队列进行多线程并行处理检测引擎类illegal_recognize_engine_idc,illegal_recognize_engine_idc返回新的list列表;
(8)通过正则匹配和IllegalModel模型对list数据进行识别,对每条数据打上标签label;
(9)将确定的赌博网站数据添加到clickhouse的新表ml_recognize_result表中;
(10)由于click house是用于数据分析的列式数据库,每行读写的效率较低,所以通过业务需要可以通过MySQL连接clickhouse,将处理后的赌博网站数据转存到MySQL数据库;
(11)最后,后台根据业务需要从MySQL数据库获取已经处理完成的数据,交给前端进行展示。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (5)

1.基于clickhouse的赌博网站检测方法,其特征在于,包括以下检测步骤:
步骤S1:通过深度报文解析将网络数据包进行赌博网站关键字匹配,形成可疑数据;
步骤S2:将形成的可疑数据记录到clickhouse数据库;
步骤S3:通过正则规则匹配和训练出来的数据模型对数据进行分析处理;
步骤S4:给确认的赌博网站数据打上标签,并存入clickhouse数据库;
步骤S5:根据业务需求从clickhouse中读取赌博网站数据进行展示。
2.根据权利要求1所述的基于clickhouse的赌博网站检测方法,其特征在于,在步骤S1中,通过深度报文解析获取到对应的报文信息,根据报文信息抓取网络数据包、并对其进行网络协议还原,获得还原后的数据,再对数据进行关键字匹配。
3.根据权利要求1所述的基于clickhouse的赌博网站检测方法,其特征在于,在步骤S2中,数据分析平台通过clickhouser-driver连接clickhouse数据库的方式将可疑数据写入clickhouse数据库。
4.根据权利要求1所述的基于clickhouse的赌博网站检测方法,其特征在于,在步骤S3中,数据处理平台采用多层正则匹配、模型匹配,分析判断深度报文解析获取到的疑似记录是否属于赌博网站数据,将确认的全量数据记录到clickhouse的http表中。
5.根据权利要求1所述的基于clickhouse的赌博网站检测方法,其特征在于,在步骤S5中,业务需要通过MySQL连接clickhouse,将处理后的赌博网站数据转存到MySQL数据库,后台根据业务需要从MySQL数据库获取已经处理完成的数据,交给前端进行展示。
CN202110663111.0A 2021-06-15 2021-06-15 基于clickhouse的赌博网站检测方法 Pending CN113285957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110663111.0A CN113285957A (zh) 2021-06-15 2021-06-15 基于clickhouse的赌博网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110663111.0A CN113285957A (zh) 2021-06-15 2021-06-15 基于clickhouse的赌博网站检测方法

Publications (1)

Publication Number Publication Date
CN113285957A true CN113285957A (zh) 2021-08-20

Family

ID=77284641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110663111.0A Pending CN113285957A (zh) 2021-06-15 2021-06-15 基于clickhouse的赌博网站检测方法

Country Status (1)

Country Link
CN (1) CN113285957A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277211A (zh) * 2022-07-29 2022-11-01 哈尔滨工业大学(威海) 基于文本和图像的多模态色情和赌博域名自动检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656991A (zh) * 2016-10-28 2017-05-10 上海百太信息科技有限公司 一种网络威胁检测系统及检测方法
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN112507003A (zh) * 2021-02-03 2021-03-16 江苏海平面数据科技有限公司 一种基于大数据架构的车联网数据分析平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656991A (zh) * 2016-10-28 2017-05-10 上海百太信息科技有限公司 一种网络威胁检测系统及检测方法
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN112507003A (zh) * 2021-02-03 2021-03-16 江苏海平面数据科技有限公司 一种基于大数据架构的车联网数据分析平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277211A (zh) * 2022-07-29 2022-11-01 哈尔滨工业大学(威海) 基于文本和图像的多模态色情和赌博域名自动检测方法
CN115277211B (zh) * 2022-07-29 2023-07-28 哈尔滨工业大学(威海) 基于文本和图像多模态色情和赌博域名自动检测方法

Similar Documents

Publication Publication Date Title
Shi et al. Detecting malicious social bots based on clickstream sequences
CN106022834B (zh) 广告反作弊方法及装置
Sood et al. Profanity use in online communities
US8875291B2 (en) Network virtual user risk control method and system
US8510795B1 (en) Video-based CAPTCHA
Pavlacky Jr et al. Hierarchical multi‐scale occupancy estimation for monitoring wildlife populations
US8639570B2 (en) User advertisement click behavior modeling
US20170034094A1 (en) Reducing Photo-Tagging Spam
CN103905532B (zh) 微博营销账号的识别方法及系统
CN109062950B (zh) 一种文本标注的方法及装置
WO2013008238A1 (en) Methods and systems of providing visual content editing functions
CN113407886A (zh) 网络犯罪平台识别方法、系统、设备和计算机存储介质
CN103268562B (zh) 一种互联网广告受众人口属性的监测方法及系统
CN105208009B (zh) 一种账号安全检测方法及装置
CN108289093A (zh) App应用特征码库的构建方法及构建系统
CN113098934A (zh) 基于大数据及私域流量的内容推送方法及社交网络平台
CN113285957A (zh) 基于clickhouse的赌博网站检测方法
Varol Should we agree to disagree about Twitter’s bot problem?
CN109213858B (zh) 一种网络水军的自动识别方法及系统
CN109478219A (zh) 用于显示网络分析的用户界面
Andrejevic et al. Unregulated and segmented dark ads on social media: Consumer education and regulatory options
CN109816004A (zh) 房源图片分类方法、装置、设备及存储介质
CN113688905A (zh) 一种有害域名核验方法及装置
CN108804501A (zh) 一种检测有效信息的方法及装置
CN110601954A (zh) 一种社交软件简易信息浏览的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210820

RJ01 Rejection of invention patent application after publication