CN109450866B - 一种基于大数据分析的撞库预警方法 - Google Patents

一种基于大数据分析的撞库预警方法 Download PDF

Info

Publication number
CN109450866B
CN109450866B CN201811226015.4A CN201811226015A CN109450866B CN 109450866 B CN109450866 B CN 109450866B CN 201811226015 A CN201811226015 A CN 201811226015A CN 109450866 B CN109450866 B CN 109450866B
Authority
CN
China
Prior art keywords
access
flow
detector
user
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811226015.4A
Other languages
English (en)
Other versions
CN109450866A (zh
Inventor
林飞
陈亮
王娜
古元
毛华阳
华仲锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Act Technology Development Co ltd
Original Assignee
Beijing Act Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Act Technology Development Co ltd filed Critical Beijing Act Technology Development Co ltd
Priority to CN201811226015.4A priority Critical patent/CN109450866B/zh
Publication of CN109450866A publication Critical patent/CN109450866A/zh
Application granted granted Critical
Publication of CN109450866B publication Critical patent/CN109450866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种基于大数据分析的撞库预警方法涉及信息技术领域,实现本发明的一种基于大数据分析的撞库预警方法所必需的模块包括:DPI物理探针设备、流量过滤器、Carbon Data大数据集群、特征匹配分析器;其中流量过滤器由POST参数表过滤器和响应参数过滤器组成;特征匹配分析器由特定IP大量访问探测器、访问行为探测器、时间特征探测器、目标特征探测器、代理IP探测器、用户行为探测器组成;通过可利用的撞库特征进行组合,被特定IP大量访问登录URL、访问URL行为特征、时间特征、目标特征、使用代理IP访问的情况特征,用户行为特征六大特征,每天检测出访问异常疑似撞库的行为,通过管局平台可推送至各接入企业,再通过接入企业可发送提醒至相关网站负责人,或直接对危险网站暂时停止接入避免用户财产遭受损失。

Description

一种基于大数据分析的撞库预警方法
技术领域
本发明涉及信息技术领域,特别是信息安全防护领域的用户信息撞库保护。
背景技术
随着互联网技术的不断发展,网络日益融入人们的生活,人们更多的将自身信息存储于网络,在某种程度上的确方便日常生活,但用户数据的安全性问题也逐渐成为焦点,例如之前新闻报道的华住酒店数据泄露,菜鸟驿站数据被盗等,致使上亿条用户信息记录在暗网售卖,一旦不法分子获取到此种数据,可能进一步实施诈骗,给受害人经济上带来损失。
黑客入侵有价值的网络站点,把注册用户的资料数据库全部盗走的行为称为拖库,因为谐音,也经常被称作“脱裤”。在取得大量的用户数据之后,黑客会通过一系列的技术手段和黑色产业链将有价值的用户数据变现,这通常也被称作“洗库”。最后黑客将得到的数据在其它网站上进行尝试登陆,叫做“撞库”。
撞库存在的原因,不一定在于某个网站本身安全性不够高,也可能是在其它安全性较低的网站上获取到用户数据后,然后尝试在本网站登陆成功。所以一方面是由于普通网民习惯在不同网站上使用相同的密码,另一方面是某些小型网站未注重安全性,导致数据库泄露。
现有技术一般无法做到预防或检测撞库行为,只能采用被动的机制,当遭受到异常访问时,例如登陆地址异常,登陆次数异常时,限制用户登录,当访问频率较低时,此方法有时并不能准确区分某些撞库行为和正常登录行为。本发明技术可运用在各省通信管理局,在基于大数据分析的实时结果,对相关网站进行主动预警,从而在一定程度上达到诈骗事件发生提前预防的效果。
共有技术说明
Apache Carbon Data是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,Carbon Data提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。
DPI物理探针设备,此网络旁路设备可实时获取移动网络或固网的访问流量,而不影响用户的正常请求。
发明内容
基于现有技术的不足实现本发明的一种基于大数据分析的撞库预警方法所必需的模块包括:DPI物理探针设备、流量过滤器、Carbon Data大数据集群、特征匹配分析器;其中流量过滤器由POST参数表过滤器和响应参数过滤器组成;特征匹配分析器由特定IP大量访问探测器、访问行为探测器、时间特征探测器、目标特征探测器、代理IP探测器、用户行为探测器组成;
实现一种基于大数据分析的撞库预警方法的基本步骤包括:
1)部署DPI物理探针设备
在移动、联通、电信三大运营商的机房部署DPI物理探针设备,此网络旁路设备可实时获取移动网络或固网的访问流量,而不影响用户的正常请求,然后将流量统一上报至管局服务器机房的流量过滤器;
2)流量过滤
①流量过滤器将符合POST参数表过滤器流量通过规则和符合响应参数过滤器的数据传递给Carbon Data大数据集群;
②POST参数表过滤器流量通过规则为在不区分大小写的情况下允许POST请求中URL地址包含特定字符串一且POST参数名称包含特定字符串二的流量通过;特定字符串一包含:reg、register、login、sign_in、auth、user、signIn;特定字符串二包括:account、userId、user_id、username、user_name、un;
③响应参数过滤器流量通过规则为在不区分大小写的情况下允许POST请求中URL地址包含特定字符串一且Response Headers头部包含 Set-Cookie 参数的流量通过;特定字符串一包含:reg、register、login、sign_in、auth、user、signIn;
3)特征匹配分析
①特征匹配分析器对Carbon Data大数据集群中的数据进行特征匹配分析,特征匹配分析器具有六种分析模块,分别是特定IP大量访问探测器、访问行为探测器、时间特征探测器、目标特征探测器、代理IP探测器、用户行为探测器;同时满足两种及两种以上分析模块确定特征的流量认定为疑似撞库流量,将疑似撞库流量存储在管局信息安全管理系统的数据库中;
②特定IP大量访问探测器探测特定IP在时间窗口10min内访问量突增10倍以上的情况;
③访问行为探测器探测下列两种行为:a. 特定IP使用多个用户名密码组合进行访问,b. 特定IP多次尝试注册URL;
④ 时间特征探测器探测下列两种行为:a.发生时间一般与正常访问时间不一样,b.非正常访问时间段内访问量突增;正常访问时间根据网站类别不同设置有所差别,一般网站正常访问时间是8点到22点,直播平台正常访问时间是18点到23点;
⑤目标特征探测器探测流量是否属于重点网站的流量,重点网站分类包含:金融,论坛,游戏类型网站;
⑥代理IP探测器探测流量是否来自于代理服务器的访问,识别流量来自于代理服务器访问的依据包括:a.通过网络中公开的恶意IP库识别,b.目标网站的访问频率突增,c.目标网站登录失败频率突增,d.目标网站用户的IP地域发生变化,e.目标网站的访问时间特征发生变化;
⑦用户行为探测器探测特殊用户行为的流量,特殊用户行为的识别依据包括:a.被大量IDC、CDN、IRCS的IP访问的行为,b.缺少用户行为,包括直接访问登录接口而不访问登录页面,c.用户在不正常的时间登录,d.成功登陆后缺少后续行为,e.头文件与正常访问不一样,包括UA,Refer,cookie不正常。
有益效果
实施本发明不同于网站自身的防范措施,通信管理局可依据大数据分析的实时结果,对所有省内接入的网站进行管控,例如使用电话或邮箱警示网站相关负责人进行处理,或直接对有问题的网站做弹窗或封堵策略,预防范围更广,效果更佳。
附图说明
图1是本发明的流程及组成结构图。
具体实施方式
参看图1实现本发明的一种基于大数据分析的撞库预警方法所必需的模块包括:DPI物理探针设备A、流量过滤器B、Carbon Data大数据集群C、特征匹配分析器D;其中流量过滤器B由POST参数表过滤器21和响应参数过滤器22组成;特征匹配分析器D由特定IP大量访问探测器41、访问行为探测器42、时间特征探测器43、目标特征探测器44、代理IP探测器45、用户行为探测器组成46;
实现一种基于大数据分析的撞库预警方法的基本步骤包括:
1)部署DPI物理探针设备A
在移动、联通、电信三大运营商的机房部署DPI物理探针设备A,此网络旁路设备可实时获取移动网络或固网的访问流量,而不影响用户的正常请求,然后将流量统一上报至管局服务器机房的流量过滤器;
2)流量过滤
①流量过滤器B将符合POST参数表过滤器21流量通过规则和符合响应参数过滤器22的数据传递给Carbon Data大数据集群C;
②POST参数表过滤器21流量通过规则为在不区分大小写的情况下允许POST请求中 URL地址包含特定字符串一且POST参数名称包含特定字符串二的流量通过;特定字符串一包含:reg、register、login、sign_in、auth、user、signIn;特定字符串二包括:account、userId、user_id、username、user_name、un;
③响应参数过滤器22流量通过规则为在不区分大小写的情况下允许POST请求中URL地址包含特定字符串一且Response Headers头部包含 Set-Cookie 参数的流量通过;特定字符串一包含:reg、register、login、sign_in、auth、user、signIn;
3)特征匹配分析
①特征匹配分析器D对Carbon Data大数据集群C中的数据进行特征匹配分析,特征匹配分析器D具有六种分析模块,分别是特定IP大量访问探测器41、访问行为探测器42、时间特征探测器43、目标特征探测器44、代理IP探测器45、用户行为探测器46;同时满足两种及两种以上分析模块确定特征的流量认定为疑似撞库流量,将疑似撞库流量存储在管局信息安全管理系统的数据库中;
②特定IP大量访问探测器41探测特定IP在时间窗口10min内访问量突增10倍以上的情况;符合确定为特征流量;
③访问行为探测器42探测下列两种行为:a. 特定IP使用多个用户名密码组合进行访问,b. 特定IP多次尝试注册URL;符合确定为特征流量;
④ 时间特征探测器43探测下列两种行为:a.发生时间一般与正常访问时间不一样,b.非正常访问时间段内访问量突增;正常访问时间根据网站类别不同设置有所差别,一般网站正常访问时间是8点到22点,直播平台正常访问时间是18点到23点;符合确定为特征流量;
⑤目标特征探测器44探测流量是否属于重点网站的流量,重点网站分类包含:金融,论坛,游戏类型网站;属于重点网站的流量确定为特征流量;
⑥代理IP探测器45探测流量是否来自于代理服务器的访问,识别流量来自于代理服务器访问的依据包括:a.通过网络中公开的恶意IP库识别,b.目标网站的访问频率突增,c.目标网站登录失败频率突增,d.目标网站用户的IP地域发生变化,e.目标网站的访问时间特征发生变化;来自于代理服务器的访问确定为特征流量;
⑦用户行为探测器46探测特殊用户行为的流量,特殊用户行为的识别依据包括:a.被大量IDC、CDN、IRCS的IP访问的行为,b.缺少用户行为,包括直接访问登录接口而不访问登录页面,c.用户在不正常的时间登录,d.成功登陆后缺少后续行为,e.头文件与正常访问不一样,包括UA,Refer,cookie不正常;特殊用户行为的流量确定为特征流量。

Claims (1)

1.一种基于大数据分析的撞库预警方法,其特征在于实施步骤中的必要模块包括:DPI物理探针设备、流量过滤器、Carbon Data大数据集群、特征匹配分析器;其中流量过滤器由POST参数表过滤器和响应参数过滤器组成;特征匹配分析器由特定IP大量访问探测器、访问行为探测器、时间特征探测器、目标特征探测器、代理IP探测器、用户行为探测器组成;
实现一种基于大数据分析的撞库预警方法的步骤包括:
1)部署DPI物理探针设备
在移动、联通、电信三大运营商的机房部署DPI物理探针设备,此网络旁路设备可实时获取移动网络或固网的访问流量,而不影响用户的正常请求,然后将流量统一上报至管局服务器机房的流量过滤器;
2)流量过滤
①流量过滤器将符合POST参数表过滤器流量通过规则和符合响应参数过滤器流量通过规则的数据传递给Carbon Data大数据集群;
②POST参数表过滤器流量通过规则为在不区分大小写的情况下允许POST请求中 URL地址包含特定字符串一且POST参数名称包含特定字符串二的流量通过;特定字符串一包含:reg、register、login、sign_in、auth、user、signIn;特定字符串二包括:account、userId、user_id、username、user_name、un;
③响应参数过滤器流量通过规则为在不区分大小写的情况下允许POST请求中 URL地址包含特定字符串一且Response Headers头部包含 Set-Cookie 参数的流量通过;
3)特征匹配分析
①特征匹配分析器对Carbon Data大数据集群中的数据进行特征匹配分析,特征匹配分析器具有六种分析模块,分别是特定IP大量访问探测器、访问行为探测器、时间特征探测器、目标特征探测器、代理IP探测器、用户行为探测器;同时满足两种及两种以上分析模块确定的特征流量认定为疑似撞库流量,将疑似撞库流量存储在管局信息安全管理系统的数据库中;
②特定IP大量访问探测器探测特定IP在时间窗口10min内访问量突增10倍以上的情况;符合确定为特征流量;
③访问行为探测器探测下列两种行为:a. 特定IP使用多个用户名密码组合进行访问,b. 特定IP多次尝试注册URL;符合确定为特征流量;
④ 时间特征探测器探测下列两种行为:a.访问时间一般与正常访问时间不一样,b.非正常访问时间段内访问量突增;正常访问时间根据网站类别不同设置有所差别,一般网站正常访问时间是8点到22点,直播平台正常访问时间是18点到23点;符合确定为特征流量;
⑤目标特征探测器探测流量是否属于重点网站的流量,重点网站分类包含:金融,论坛,游戏类型网站;属于重点网站的流量确定为特征流量;
⑥代理IP探测器探测流量是否来自于代理服务器的访问,识别流量来自于代理服务器访问的依据包括:a.通过网络中公开的恶意IP库识别,b.目标网站的访问频率突增,c.目标网站登录失败频率突增,d.目标网站用户的IP地域发生变化,e.目标网站的访问时间特征发生变化;来自于代理服务器的访问确定为特征流量;
⑦用户行为探测器探测特殊用户行为的流量,特殊用户行为的识别依据包括:a.被大量IDC、CDN、IRCS的IP访问的行为,b.缺少用户行为,包括直接访问登录接口而不访问登录页面,c.用户在不正常的时间登录,d.成功登陆后缺少后续行为,e.头文件与正常访问不一样,包括UA,Refer,cookie不正常;特殊用户行为的流量确定为特征流量。
CN201811226015.4A 2018-10-22 2018-10-22 一种基于大数据分析的撞库预警方法 Active CN109450866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811226015.4A CN109450866B (zh) 2018-10-22 2018-10-22 一种基于大数据分析的撞库预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811226015.4A CN109450866B (zh) 2018-10-22 2018-10-22 一种基于大数据分析的撞库预警方法

Publications (2)

Publication Number Publication Date
CN109450866A CN109450866A (zh) 2019-03-08
CN109450866B true CN109450866B (zh) 2021-01-01

Family

ID=65546863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811226015.4A Active CN109450866B (zh) 2018-10-22 2018-10-22 一种基于大数据分析的撞库预警方法

Country Status (1)

Country Link
CN (1) CN109450866B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110430214A (zh) * 2019-08-15 2019-11-08 上海寰创通信科技股份有限公司 一种代理上网的识别方法及系统
CN114389881B (zh) * 2022-01-13 2024-07-19 北京金山云网络技术有限公司 网络异常流量检测方法、装置、电子设备及存储介质
CN114398581A (zh) * 2022-01-18 2022-04-26 广州市刑事科学技术研究所 一种诈骗网站的识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104753946A (zh) * 2015-04-01 2015-07-01 浪潮电子信息产业股份有限公司 一种基于网络流量元数据的安全分析框架

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8667121B2 (en) * 2009-03-25 2014-03-04 Mcafee, Inc. System and method for managing data and policies
CN107404486B (zh) * 2017-08-04 2020-05-22 厦门市美亚柏科信息股份有限公司 解析Http数据的方法、装置、终端设备及存储介质
CN108055276B (zh) * 2017-12-25 2020-10-20 南京南邮信息产业技术研究院有限公司 面向大数据应用平台的入侵检测实时分析系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104753946A (zh) * 2015-04-01 2015-07-01 浪潮电子信息产业股份有限公司 一种基于网络流量元数据的安全分析框架

Also Published As

Publication number Publication date
CN109450866A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
US9154516B1 (en) Detecting risky network communications based on evaluation using normal and abnormal behavior profiles
US10721245B2 (en) Method and device for automatically verifying security event
CN107172022B (zh) 基于入侵途径的apt威胁检测方法和系统
US8880893B2 (en) Enterprise information asset protection through insider attack specification, monitoring and mitigation
US20180069893A1 (en) Identifying Changes in Use of User Credentials
US10165005B2 (en) System and method providing data-driven user authentication misuse detection
CN110611635B (zh) 一种基于多维度失陷账号的检测方法
CN109450866B (zh) 一种基于大数据分析的撞库预警方法
CN112929390B (zh) 一种基于多策略融合的网络智能监控方法
CN114915479B (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
CN106888211A (zh) 一种网络攻击的检测方法及装置
CN107733699B (zh) 互联网资产安全管理方法、系统、设备及可读存储介质
CN108337269A (zh) 一种WebShell检测方法
CN103905372A (zh) 一种钓鱼网站去误报的方法和装置
Jia et al. A novel real‐time ddos attack detection mechanism based on MDRA algorithm in big data
Kent et al. How South African SMEs address cyber security: The case of web server logs and intrusion detection
CN109889485A (zh) 一种用户异常操作行为检测方法、系统及存储介质
CN114244564A (zh) 攻击防御方法、装置、设备及可读存储介质
KR20160087187A (ko) 사이버 블랙박스 시스템 및 그 방법
CN109409113A (zh) 一种电网数据安全防护方法和分布式电网数据安全防护系统
CN117354024A (zh) 基于大数据的dns恶意域名检测系统及方法
Al-Hamami et al. Development of a network-based: Intrusion Prevention System using a Data Mining approach
Ruzhi et al. A database security gateway to the detection of SQL attacks
Ro et al. Detection Method for Distributed Web‐Crawlers: A Long‐Tail Threshold Model
Xing [Retracted] Design of a Network Security Audit System Based on Log Data Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant