CN117540372B - 智能学习的数据库入侵检测与响应系统 - Google Patents

智能学习的数据库入侵检测与响应系统 Download PDF

Info

Publication number
CN117540372B
CN117540372B CN202311560974.0A CN202311560974A CN117540372B CN 117540372 B CN117540372 B CN 117540372B CN 202311560974 A CN202311560974 A CN 202311560974A CN 117540372 B CN117540372 B CN 117540372B
Authority
CN
China
Prior art keywords
database
module
behavior
model
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311560974.0A
Other languages
English (en)
Other versions
CN117540372A (zh
Inventor
张宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tibet Langjie Information Technology Co ltd
Original Assignee
Tibet Langjie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tibet Langjie Information Technology Co ltd filed Critical Tibet Langjie Information Technology Co ltd
Priority to CN202311560974.0A priority Critical patent/CN117540372B/zh
Publication of CN117540372A publication Critical patent/CN117540372A/zh
Application granted granted Critical
Publication of CN117540372B publication Critical patent/CN117540372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Virology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据库安全监测技术领域,具体涉及智能学习的数据库入侵检测与响应系统,该系统包括数据收集模块用于收集数据库操作的相关数据,并输出原始数据流;特征提取模块提取关键操作特征,并输出特征数据流;数据关联分析模块分析数据库内外部操作的关联性,产生关联数据流;行为建模模块建立一个正常数据库访问行为的模型,输出行为模型数据流;智能学习模块接判断是否存在偏离正常模型的行为,从而判断是否存在入侵行为;响应模块基于智能学习模块的预测结果对潜在的入侵行为进行应对。本发明,异常度量机制为系统提供了一个量化的方式来评估实时数据库操作与正常模型之间的偏离程度。

Description

智能学习的数据库入侵检测与响应系统
技术领域
本发明涉及数据库安全监测技术领域,尤其涉及智能学习的数据库入侵检测与响应系统。
背景技术
随着信息技术的飞速发展和互联网的广泛应用,数据库已经成为各类组织和企业存储、管理和分析数据的核心工具。但同时,数据库也面临着来自各种来源的安全威胁,特别是外部入侵者和恶意用户的攻击。传统的数据库入侵检测方法主要依赖预先定义的规则和模式匹配,但这些方法往往在面对复杂和未知的攻击行为时显得力不从心。
另外,传统方法中对异常行为的定义常常过于僵化,难以适应数据库操作模式的变化,并且,这些方法对于大量的正常操作和少量的异常操作之间的区分常常缺乏精确性,导致大量的误报或漏报。为了应对这些挑战,需要一种更加智能、自适应和实时的方法来检测和响应潜在的数据库入侵行为。
近年来,深度学习、时间序列分析和注意力机制等技术在各种领域都表现出了出色的性能,但将它们应用到数据库入侵检测和响应中,仍然是一个待探索的领域,如何有效地利用这些先进技术,结合数据库的特性和需求,设计一种高效、准确和自适应的入侵检测与响应系统,是当前研究的重要方向。
发明内容
基于上述目的,本发明提供了智能学习的数据库入侵检测与响应系统。
智能学习的数据库入侵检测与响应系统,该系统包括数据收集模块、特征提取模块、数据关联分析模块、行为建模模块、智能学习模块以及响应模块,其中,
数据收集模块用于收集数据库操作的相关数据,并输出原始数据流;
特征提取模块接收来自数据收集模块的原始数据流,用于从中提取关键操作特征,并输出特征数据流;
数据关联分析模块接收特征提取模块的特征数据流,并分析数据库内外部操作的关联性,产生关联数据流;
行为建模模块接收关联数据流,并根据长时间的数据采集建立一个正常数据库访问行为的模型,输出行为模型数据流;
智能学习模块接收行为建模模块的行为模型数据流,结合实时数据进行模型训练并对新数据进行预测,判断是否存在偏离正常模型的行为,从而判断是否存在入侵行为;
响应模块基于智能学习模块的预测结果对潜在的入侵行为进行应对。
进一步的,所述数据收集模块通过直接监控数据库的访问请求、响应和异常事件,实时捕获每个数据库事务的细节信息,细节信息包括访问者IP、访问时间、执行的SQL语句、返回的数据量,并将该细节信息整合为连续的原始数据流,输出至特征提取模块。
进一步的,所述特征提取模块接收来自数据收集模块的原始数据流,并对原始数据流进行预处理,剔除无关数据项,无关数据项包括冗余的请求头、空白字符,随后通过预定义SQL指令词汇表,解析每个SQL语句,识别其基本结构,基本结构包括选择语句、插入语句、删除语句或更新语句,并对每种类型的SQL语句进行统计,所述特征提取模块还针对指定风险因子进行识别和统计,指定风险因子包括短时间内大量相同的请求、来自不常见地理位置的访问或在非工作时间的大量请求,提取出关键操作特征,所述关键操作特征包括:SQL语句的类型和频率、SQL语句的深度解析、异常访问频率、非常规访问时段、数据返回量以及来源IP的异常性。
进一步的,所述数据关联分析模块接收来自特征提取模块的特征数据流,并执行以下操作:
时间窗口分析:将特征数据流按时间段进行分割,以确定在某时间窗口内发生的数据库操作模式;
操作序列化:根据SQL语句的类型、来源IP、访问频率特征,为每个数据库操作分配一个唯一标识符,并建立一个数据库操作序列,具体包括:标识符分配,为每个数据库操作生成一个唯一标识符,该标识符基于SQL语句的类型、来源IP及访问频率的哈希组合,使相同类型的SQL操作、相同的来源IP以及相似的访问频率在不同情境下都获得相同的标识符,随着数据库操作的发生,系统实时记录每个操作的标识符,时间戳,以及与其相关的特征,在给定的时间窗口内,系统将该段时间窗口内的所有操作标识符按照其发生的先后顺序线性排列,形成一个操作序列:[ID1,ID2,ID3,ID1,ID4...],其中每个IDx代表一个唯一的数据库操作标识符;
关联规则挖掘:应用关联规则挖掘技术,发现不同数据库操作之间的关联性,对比正常的关联模式和当前操作的关联模式,识别那些与常规操作模式不符的关联模式;
生成关联数据流:将识别出的异常关联模式和其他相关信息整合,并产生关联数据流,用于描述数据库内外部操作之间的关联性。
进一步的,所述行为建模模块接收关联数据流,并建立正常数据库访问行为的模型,具体如下:
行为建模模块采用自适应策略,根据数据的变化情况动态调整学习率,当检测到新的、未见过的行为模式,模块提高学习率以快速适应新环境,在数据相对稳定的时段,降低学习率以稳定模型;
多模态特征融合,结合数据库操作的上下文信息,操作前后的数据库状态、与其他系统问的交互模式,来捕捉复杂的行为模式。
时间序列分解,使用时间序列分解技术,将数据库操作序列分解为季节性、趋势和随机部分,从而理解其内在模式;
深度学习优化,引入基于注意力机制的深度网络结构,使模型在学习数据库操作序列时,能够自动关注到关键操作,提高建模的准确性。
进一步的,所述时间序列分解基于STL(Seasonal and Trend decompositionusing Loess)方法,对数据库操作序列进行分解,具体如下:
标准化数据库操作序列,确保每个时间点的数据在相同的尺度上,准备好进行时间序列分解。
趋势成分提取,使用Loess平滑法,根据操作序列的局部加权回归,提取出长期的变化趋势,反映数据库操作的总体发展或变化模式,Loess平滑法基于局部加权回归,对于每个时间点t,趋势成分Tt计算为:其中,wi是权重,取决于时间点t与t+i之间的距离,k是局部窗口的大小;
季节性成分提取:在去除趋势成分后,从残差数据中,再次利用Loess平滑法,识别和提取出周期性的重复模式,揭示出如每日、每周或每月的重复访问模式,在去除趋势成分Tt后,得到去趋势序列:
Dt=Yt-Tt,应用Loess方法于Dt,在一个固定的季节周期内,季节性成分为:其中,wi′是基于季节周期的权重,P表示每日的周期;
随机成分提取:通过从原始操作序列中减去趋势和季节性成分,得到随机或噪声成分,展现了不规律的、无法通过趋势和季节性来解释的数据库操作行为,通过从原始操作序列中减去趋势和季节性成分,随机成分计算为:Rt=Yt-Tt-St
模式分析:通过对趋势、季节性和随机成分的分析,了解数据库的操作模式,识别出哪些行为是常规的、哪些是异常的,并在长期趋势中观察到行为变化。
进一步的,基于注意力机制的深度网络结构处理和学习数据库操作序列,具体如下:
输入为经过时间序列分解的数据库操作序列的趋势、季节性和随机成分:Tt,St和Rt,嵌入层将Tt,St和Rt转化为稠密的向量表示;
在深度网络中引入注意力层,使模型能够自动加权数据库操作序列中的各个部分,对于序列中的每个操作oi,其权重αi计算为:其中,ei是当前操作的能量值,通过神经网络计算得到;
使用上述权重计算加权的上下文向量C:向量C即表达整个序列中关键操作,将加权的上下文向量C输入到后续的深度网络层中的卷积层、循环层,使模型捕获深层次的特征,经过多个深度网络层后,模型输出一个结果,即为当前数据库操作序列的正常性或异常性。
进一步的,所述智能学习模块接收来自行为建模模块的行为模型数据流,包括经过时间序列分解与注意力机制处理的数据库操作特征数据,利用接收到的行为模型数据流,智能学习模块采用在线学习策略不断更新并调整其内部的模型参数,对于实时流入的新的数据库操作数据,基于训练好的模型进行预测,输出一个预测值,该值表示该操作与正常模型的偏离程度;
通过预设的异常度量机制量化该偏离程度,生成一个异常度量值E,通过与预定的阈值进行比较,判断该数据库操作是否偏离正常模型,设阈值为θ,则判断逻辑为:
若E>θ,则判断存在偏离正常模型的行为,判定存在潜在的入侵行为;
若E≤θ,则判断该操作符合正常模型,无入侵行为;
当发现潜在的入侵行为时,智能学习模块将预测结果、异常度量值反馈给响应模块。
进一步的,所述异常度量机制具体包括:
差异向量计算:预测值与实际的数据库操作特征形成一个差异向量D,设实际特征为向量F,且预测特征为向量P,差异向量为:D=F-P;
差异加权:基于不同的特征对于数据库的重要性不同,引入一个权重向量W,对差异向量进行加权处理,加权后的差异向量为:Dw=W×D;
度量值计算:利用加权后的差异向量,计算一个单一的标量作为异常度量值,该值表示实际数据库操作与预测模型间的整体偏差,异常度量值E通过以下计算得到:该计算使用L2范数,表示加权差异向量的欧几里得长度,捕获总体偏差的大小。
进一步的,所述响应模块接收来自智能学习模块的预测结果,并基于该预测结果对入侵行为进行应对,其中:
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度较小,且异常度量值低于预设阈值,响应模块将此操作标记为正常操作,系统继续执行不作额外处理;
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度在中等范围,且异常度量值处于预设阈值和警告阈值之间,响应模块会发出警告通知给管理员,建议检查或监视此操作;
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度较大,且异常度量值超过警告阈值,响应模块会自动隔离该操作,暂停执行,并通知管理员进行手动审核和处理。
本发明的有益效果:
本发明,有效整合了数据收集、特征提取、关联分析、行为建模、智能学习和响应等多个模块,确保了从原始数据库操作到潜在的入侵行为识别和响应的全流程自动化,行为建模模块采用多模态特征融合和先进的时间序列分解技术,为数据库操作序列揭示了更为深入的内在模式。
本发明,通过结合注意力机制的深度网络结构,系统在学习数据库操作序列时能够自动关注关键操作,显著提高了建模的准确性和异常检测的敏感性,此外,异常度量机制为系统提供了一个量化的方式来评估实时数据库操作与正常模型之间的偏离程度,使得对潜在的入侵行为的识别更加精确和及时。
本发明,响应模块的设计使得系统能够自动并实时地对潜在入侵行为作出反应,从简单的警告通知到自动隔离异常操作,为管理员提供了多种干预选项,并且,通过反馈机制,系统可以持续从实际的数据库环境中学习和适应,进一步优化预测和响应策略,实现了对数据库的长期和持续的保护。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的系统模块示意图;
图2为本发明实施例的行为建模模块的建模方法示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1-图2所示,智能学习的数据库入侵检测与响应系统,该系统包括数据收集模块、特征提取模块、数据关联分析模块、行为建模模块、智能学习模块以及响应模块,其中,
数据收集模块用于收集数据库操作的相关数据,并输出原始数据流;
特征提取模块接收来自数据收集模块的原始数据流,用于从中提取关键操作特征,并输出特征数据流;
数据关联分析模块接收特征提取模块的特征数据流,并分析数据库内外部操作的关联性,产生关联数据流;
行为建模模块接收关联数据流,并根据长时间的数据采集建立一个正常数据库访问行为的模型,输出行为模型数据流;
智能学习模块接收行为建模模块的行为模型数据流,结合实时数据进行模型训练并对新数据进行预测,判断是否存在偏离正常模型的行为,从而判断是否存在入侵行为;
响应模块基于智能学习模块的预测结果对潜在的入侵行为进行应对;
行为建模模块的主要功能是为系统提供一个数据库正常访问行为的参考模型,这个模型是基于长时间、大量的数据采集和分析得出的,当实时数据的行为偏离这个参考模型时,系统会认为存在潜在的入侵行为,这种方法提供了一种新的维度来检测和响应数据库的入侵尝试,尤其是那些不太明显、微妙的入侵尝试,提高了系统的检测精度。
数据收集模块通过直接监控数据库的访问请求、响应和异常事件,实时捕获每个数据库事务的细节信息,细节信息包括访问者IP、访问时间、执行的SQL语句、返回的数据量,并将该细节信息整合为连续的原始数据流,输出至特征提取模块。
特征提取模块接收来自数据收集模块的原始数据流,并对原始数据流进行预处理,剔除无关数据项,无关数据项包括冗余的请求头、空白字符,随后通过预定义SQL指令词汇表,解析每个SQL语句,识别其基本结构,基本结构包括选择语句、插入语句、删除语句或更新语句,并对每种类型的SQL语句进行统计,特征提取模块还针对指定风险因子进行识别和统计,指定风险因子包括短时间内大量相同的请求、来自不常见地理位置的访问或在非工作时间的大量请求,提取出关键操作特征,关键操作特征包括:
SQL语句的类型和频率:例如,短时间内大量的DELETE请求可能表示恶意操作;
SQL语句的深度解析:例如,针对数据库关键字段的多次尝试,代表尝试注入攻击;
异常访问频率:短时间内的大量数据库请求表示暴力攻击;
非常规访问时段:例如,夜间或周末的突发大量请求表示非正常行为;
数据返回量:例如,一次请求返回大量数据表示数据窃取行为;
来源IP的异常性:来自不常见地理位置或之前未知的IP地址的访问可能表示新的威胁来源;
提取完这些关键操作特征后,特征提取模块将其整合为特征数据流,输出至数据关联分析模块进行进一步的分析。
数据关联分析模块接收来自特征提取模块的特征数据流,并执行以下操作:
时间窗口分析:将特征数据流按时间段进行分割,例如每分钟或每秒,以确定在某时间窗口内发生的数据库操作模式;
操作序列化:根据SQL语句的类型、来源IP、访问频率特征,为每个数据库操作分配一个唯一标识符,并建立一个数据库操作序列,具体包括:标识符分配,为每个数据库操作生成一个唯一标识符,该标识符基于SQL语句的类型、来源IP及访问频率的哈希组合,使相同类型的SQL操作、相同的来源IP以及相似的访问频率在不同情境下都获得相同的标识符,随着数据库操作的发生,系统实时记录每个操作的标识符,时间戳,以及与其相关的特征,在给定的时间窗口内,如每5分钟,系统将该段时间窗口内的所有操作标识符按照其发生的先后顺序线性排列,形成一个操作序列:[ID1,ID2,ID3,ID1,ID4...],其中每个IDx代表一个唯一的数据库操作标识符;
关联规则挖掘:应用关联规则挖掘技术,发现不同数据库操作之间的关联性,例如,一个删除操作紧随一个大量的选择操作可能意味着数据删除后立即尝试数据窃取,对比正常的关联模式和当前操作的关联模式,识别那些与常规操作模式不符的关联模式;
生成关联数据流:将识别出的异常关联模式和其他相关信息整合,并产生关联数据流,用于描述数据库内外部操作之间的关联性;
此关联数据流随后传输至智能学习模块进行进一步的处理和判断。
行为建模模块接收关联数据流,并建立正常数据库访问行为的模型,具体如下:
行为建模模块采用自适应策略,根据数据的变化情况动态调整学习率,当检测到新的、未见过的行为模式,模块提高学习率以快速适应新环境,在数据相对稳定的时段,降低学习率以稳定模型;
多模态特征融合,结合数据库操作的上下文信息,操作前后的数据库状态、与其他系统间的交互模式,来捕捉复杂的行为模式;
多模态特征融合包括:
特征提取:包括SQL语句类型、来源IP、访问频率、操作前后的数据库状态,表示为数据库的表、记录数量或结构的改变、数据库与其他系统(如应用服务器、日志服务器等)之间的交互模式和频率,将上述所有特征转化为能被模型处理的数值或向量形式,为了确保不同模态的特征在融合时有相等的权重,需要对特征进行标准化处理,使其均值为0,方差为1,对每种模态的特征分别进行处理(例如,通过某种转换或子模型),然后将中间结果结合起来。
时间序列分解,使用时间序列分解技术,将数据库操作序列分解为季节性、趋势和随机部分,从而理解其内在模式;
深度学习优化,引入基于注意力机制的深度网络结构,使模型在学习数据库操作序列时,能够自动关注到关键操作,提高建模的准确性;
模型训练和优化完成后,会将其结构、参数以及其他相关信息以行为模型数据流的形式输出,供其他模块使用。
时间序列分解基于STL(Seasonal and Trend decomposition using Loess)方法,对数据库操作序列进行分解,具体如下:
标准化数据库操作序列,确保每个时间点的数据在相同的尺度上,准备好进行时间序列分解。
趋势成分提取,使用Loess平滑法,根据操作序列的局部加权回归,提取出长期的变化趋势,反映数据库操作的总体发展或变化模式,Loess平滑法基于局部加权回归,对于每个时间点t,趋势成分Tt计算为:其中,wi是权重,取决于时间点t与t+i之间的距离,k是局部窗口的大小;
季节性成分提取:在去除趋势成分后,从残差数据中,再次利用Loess平滑法,识别和提取出周期性的重复模式,揭示出如每日、每周或每月的重复访问模式,在去除趋势成分Tt后,得到去趋势序列:
Dt=Yt-Tt,应用Loess方法于Dt,在一个固定的季节周期内,季节性成分为:其中,wi′是基于季节周期的权重,P表示每日的周期;
随机成分提取:通过从原始操作序列中减去趋势和季节性成分,得到随机或噪声成分,展现了不规律的、无法通过趋势和季节性来解释的数据库操作行为,通过从原始操作序列中减去趋势和季节性成分,随机成分计算为:Rt=Yt-Tt-St
模式分析:通过对趋势、季节性和随机成分的分析,了解数据库的操作模式,识别出哪些行为是常规的、哪些是异常的,并在长期趋势中观察到行为变化。
通过使用STL时间序列分解技术,行为建模模块可以更细致地捕捉和理解数据库的操作行为,从而为数据库入侵检测提供更为准确的基线模型。
基于注意力机制的深度网络结构处理和学习数据库操作序列,具体如下:
输入为经过时间序列分解的数据库操作序列的趋势、季节性和随机成分:Tt,St和Rt,嵌入层将Tt,St和Rt转化为稠密的向量表示;
在深度网络中引入注意力层,使模型能够自动加权数据库操作序列中的各个部分,对于序列中的每个操作oi,其权重αi计算为:其中,ei是当前操作的能量值,通过神经网络计算得到;
使用上述权重计算加权的上下文向量C:向量C即表达整个序列中关键操作,将加权的上下文向量C输入到后续的深度网络层中的卷积层、循环层,使模型捕获深层次的特征,经过多个深度网络层后,模型输出一个结果,即为当前数据库操作序列的正常性或异常性。
通过引入注意力机制,智能学习模块能够在处理复杂的数据库操作序列时,自动关注关键操作,从而显著提高建模的准确性。
智能学习模块接收来自行为建模模块的行为模型数据流,包括经过时间序列分解与注意力机制处理的数据库操作特征数据,利用接收到的行为模型数据流,智能学习模块采用在线学习策略不断更新并调整其内部的模型参数,对于实时流入的新的数据库操作数据,基于训练好的模型进行预测,输出一个预测值,该值表示该操作与正常模型的偏离程度;
通过预设的异常度量机制量化该偏离程度,生成一个异常度量值E,通过与预定的阈值进行比较,判断该数据库操作是否偏离正常模型,设阈值为θ,则判断逻辑为:
若E>θ,则判断存在偏离正常模型的行为,判定存在潜在的入侵行为;
若E≤θ,则判断该操作符合正常模型,无入侵行为;
当发现潜在的入侵行为时,智能学习模块将预测结果、异常度量值反馈给响应模块。
异常度量机制具体包括:
差异向量计算:预测值与实际的数据库操作特征形成一个差异向量D,设实际特征为向量F,且预测特征为向量P,差异向量为:D=F-P;
差异加权:基于不同的特征对于数据库的重要性不同,引入一个权重向量W,对差异向量进行加权处理,加权后的差异向量为:Dw=W×D;
度量值计算:利用加权后的差异向量,计算一个单一的标量作为异常度量值,该值表示实际数据库操作与预测模型间的整体偏差,异常度量值E通过以下计算得到:该计算使用L2范数,表示加权差异向量的欧几里得长度,捕获总体偏差的大小。
响应模块接收来自智能学习模块的预测结果,并基于该预测结果对入侵行为进行应对,其中:
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度较小,且异常度量值低于预设阈值,响应模块将此操作标记为正常操作,系统继续执行不作额外处理;
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度在中等范围,且异常度量值处于预设阈值和警告阈值之间,响应模块会发出警告通知给管理员,建议检查或监视此操作;
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度较大,且异常度量值超过警告阈值,响应模块会自动隔离该操作,暂停执行,并通知管理员进行手动审核和处理;
在响应模块内,还包含一个反馈机制,允许管理员手动标记误报和漏报,这些标记将作为训练数据返回给智能学习模块,辅助模块进一步优化预测准确性,该系统不仅可以自动识别和响应潜在的入侵行为,还能通过管理员的反馈持续优化其预测和响应机制,以适应数据库环境的持续变化。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.智能学习的数据库入侵检测与响应系统,其特征在于,该系统包括数据收集模块、特征提取模块、数据关联分析模块、行为建模模块、智能学习模块以及响应模块,其中,
数据收集模块用于收集数据库操作的相关数据,并输出原始数据流,所述数据收集模块通过直接监控数据库的访问请求、响应和异常事件,实时捕获每个数据库事务的细节信息,细节信息包括访问者IP、访问时间、执行的SQL语句、返回的数据量,并将该细节信息整合为连续的原始数据流,输出至特征提取模块;
特征提取模块接收来自数据收集模块的原始数据流,用于从中提取关键操作特征,并输出特征数据流,所述特征提取模块接收来自数据收集模块的原始数据流,并对原始数据流进行预处理,剔除无关数据项,无关数据项包括冗余的请求头、空白字符,随后通过预定义SQL指令词汇表,解析每个SQL语句,识别其基本结构,基本结构包括选择语句、插入语句、删除语句或更新语句,并对每种类型的SQL语句进行统计,所述特征提取模块还针对指定风险因子进行识别和统计,指定风险因子包括短时间内大量相同的请求、来自不常见地理位置的访问或在非工作时间的大量请求,提取出关键操作特征,所述关键操作特征包括SQL语句的类型和频率、SQL语句的深度解析、异常访问频率、非常规访问时段、数据返回量以及来源IP的异常性;
数据关联分析模块接收特征提取模块的特征数据流,并分析数据库内外部操作的关联性,产生关联数据流,所述数据关联分析模块接收来自特征提取模块的特征数据流,并执行以下操作:
时间窗口分析:将特征数据流按时间段进行分割,以确定在某时间窗口内发生的数据库操作模式;
操作序列化:根据SQL语句的类型、来源IP、访问频率特征,为每个数据库操作分配一个唯一标识符,并建立一个数据库操作序列,具体包括:标识符分配,为每个数据库操作生成一个唯一标识符,该标识符基于SQL语句的类型、来源IP及访问频率的哈希组合,使相同类型的SQL操作、相同的来源IP以及相似的访问频率在不同情境下都获得相同的标识符,随着数据库操作的发生,系统实时记录每个操作的标识符,时间戳,以及与其相关的特征,在给定的时间窗口内,系统将该段时间窗口内的所有操作标识符按照其发生的先后顺序线性排列,形成一个操作序列:[ID1,ID2,ID3,ID1,ID4...],其中每个IDx代表一个唯一的数据库操作标识符;
关联规则挖掘:应用关联规则挖掘技术,发现不同数据库操作之间的关联性,对比正常的关联模式和当前操作的关联模式,识别那些与常规操作模式不符的关联模式;
生成关联数据流:将识别出的异常关联模式和其他相关信息整合,并产生关联数据流,用于描述数据库内外部操作之间的关联性;
行为建模模块接收关联数据流,并根据长时间的数据采集建立一个正常数据库访问行为的模型,输出行为模型数据流;
智能学习模块接收行为建模模块的行为模型数据流,结合实时数据进行模型训练并对新数据进行预测,判断是否存在偏离正常模型的行为,从而判断是否存在入侵行为;
响应模块基于智能学习模块的预测结果对潜在的入侵行为进行应对。
2.根据权利要求1所述的智能学习的数据库入侵检测与响应系统,其特征在于,所述行为建模模块接收关联数据流,并建立正常数据库访问行为的模型,具体如下:
行为建模模块采用自适应策略,根据数据的变化情况动态调整学习率,当检测到新的、未见过的行为模式,模块提高学习率以快速适应新环境,在数据相对稳定的时段,降低学习率以稳定模型;
多模态特征融合,结合数据库操作的上下文信息,操作前后的数据库状态、与其他系统间的交互模式,来捕捉复杂的行为模式;
时间序列分解,使用时间序列分解技术,将数据库操作序列分解为季节性、趋势和随机部分,从而理解其内在模式;
深度学习优化,引入基于注意力机制的深度网络结构,使模型在学习数据库操作序列时,能够自动关注到关键操作,提高建模的准确性。
3.根据权利要求2所述的智能学习的数据库入侵检测与响应系统,其特征在于,所述时间序列分解基于STL方法,对数据库操作序列进行分解,具体如下:
标准化数据库操作序列,确保每个时间点的数据在相同的尺度上,准备好进行时间序列分解;
趋势成分提取,使用Loess平滑法,根据操作序列的局部加权回归,提取出长期的变化趋势,反映数据库操作的总体发展或变化模式,Loess平滑法基于局部加权回归,对于每个时间点t,趋势成分Tt计算为:其中,wi是权重,取决于时间点t与t+i之间的距离,k是局部窗口的大小;
季节性成分提取:在去除趋势成分后,从残差数据中,再次利用Loess平滑法,识别和提取出周期性的重复模式,揭示出如每日、每周或每月的重复访问模式,在去除趋势成分Tt后,得到去趋势序列:
Dt=Yt-Tt,应用Loess方法于Dt,在一个固定的季节周期内,季节性成分为:其中,wi′是基于季节周期的权重,P表示每日的周期;
随机成分提取:通过从原始操作序列中减去趋势和季节性成分,得到随机或噪声成分,展现了不规律的、无法通过趋势和季节性来解释的数据库操作行为,通过从原始操作序列中减去趋势和季节性成分,随机成分计算为:Rt=Yt-Tt-St
模式分析:通过对趋势、季节性和随机成分的分析,了解数据库的操作模式,识别出哪些行为是常规的、哪些是异常的,并在长期趋势中观察到行为变化。
4.根据权利要求3所述的智能学习的数据库入侵检测与响应系统,其特征在于,基于注意力机制的深度网络结构处理和学习数据库操作序列,具体如下:
输入为经过时间序列分解的数据库操作序列的趋势、季节性和随机成分:Tt,St和Rt,嵌入层将Tt,St和Rt转化为稠密的向量表示;
在深度网络中引入注意力层,使模型能够自动加权数据库操作序列中的各个部分,对于序列中的每个操作oi,其权重αi计算为:
其中,ei是当前操作的能量值,通过神经网络计算得到;
使用上述权重计算加权的上下文向量C:向量C即表达整个序列中关键操作,将加权的上下文向量C输入到后续的深度网络层中的卷积层、循环层,使模型捕获深层次的特征,经过多个深度网络层后,模型输出一个结果,即为当前数据库操作序列的正常性或异常性。
5.根据权利要求4所述的智能学习的数据库入侵检测与响应系统,其特征在于,所述智能学习模块接收来自行为建模模块的行为模型数据流,包括经过时间序列分解与注意力机制处理的数据库操作特征数据,利用接收到的行为模型数据流,智能学习模块采用在线学习策略不断更新并调整其内部的模型参数,对于实时流入的新的数据库操作数据,基于训练好的模型进行预测,输出一个预测值,该值表示该操作与正常模型的偏离程度;
通过预设的异常度量机制量化该偏离程度,生成一个异常度量值E,通过与预定的阈值进行比较,判断该数据库操作是否偏离正常模型,设阈值为θ,则判断逻辑为:
若E>θ,则判断存在偏离正常模型的行为,判定存在潜在的入侵行为;
若E≤θ,则判断该操作符合正常模型,无入侵行为;
当发现潜在的入侵行为时,智能学习模块将预测结果、异常度量值反馈给响应模块。
6.根据权利要求5所述的智能学习的数据库入侵检测与响应系统,其特征在于,所述异常度量机制具体包括:
差异向量计算:预测值与实际的数据库操作特征形成一个差异向量D,设实际特征为向量F,且预测特征为向量P,差异向量为:D=F-P;
差异加权:基于不同的特征对于数据库的重要性不同,引入一个权重向量W,对差异向量进行加权处理,加权后的差异向量为:
Dw=W×D;
度量值计算:利用加权后的差异向量,计算一个单一的标量作为异常度量值,该值表示实际数据库操作与预测模型间的整体偏差,异常度量值E通过以下计算得到:该计算使用L2范数,表示加权差异向量的欧几里得长度,捕获总体偏差的大小。
7.根据权利要求6所述的智能学习的数据库入侵检测与响应系统,其特征在于,所述响应模块接收来自智能学习模块的预测结果,并基于该预测结果对入侵行为进行应对,其中:
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度较小,且异常度量值低于预设阈值,响应模块将此操作标记为正常操作,系统继续执行不作额外处理;
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度在中等范围,且异常度量值处于预设阈值和警告阈值之间,响应模块会发出警告通知给管理员,建议检查或监视此操作;
当智能学习模块的预测结果显示数据库操作与正常模型的偏离程度较大,且异常度量值超过警告阈值,响应模块会自动隔离该操作,暂停执行,并通知管理员进行手动审核和处理。
CN202311560974.0A 2023-11-22 2023-11-22 智能学习的数据库入侵检测与响应系统 Active CN117540372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311560974.0A CN117540372B (zh) 2023-11-22 2023-11-22 智能学习的数据库入侵检测与响应系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311560974.0A CN117540372B (zh) 2023-11-22 2023-11-22 智能学习的数据库入侵检测与响应系统

Publications (2)

Publication Number Publication Date
CN117540372A CN117540372A (zh) 2024-02-09
CN117540372B true CN117540372B (zh) 2024-05-14

Family

ID=89793397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311560974.0A Active CN117540372B (zh) 2023-11-22 2023-11-22 智能学习的数据库入侵检测与响应系统

Country Status (1)

Country Link
CN (1) CN117540372B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021105327A4 (en) * 2021-08-11 2021-11-11 Kulkarni, Gopal DR A computer implemented and IoT based method for increasing crop production using machine learning model
CN116471108A (zh) * 2023-05-09 2023-07-21 南京杰游互联网服务有限公司 一种基于深度学习的物联智能入侵检测系统及方法
CN116781347A (zh) * 2023-06-20 2023-09-19 桂林电子科技大学 基于深度学习的工业物联网入侵检测方法及装置
CN116955092A (zh) * 2023-09-20 2023-10-27 山东小萌信息科技有限公司 基于数据分析的多媒体系统监控方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021105327A4 (en) * 2021-08-11 2021-11-11 Kulkarni, Gopal DR A computer implemented and IoT based method for increasing crop production using machine learning model
CN116471108A (zh) * 2023-05-09 2023-07-21 南京杰游互联网服务有限公司 一种基于深度学习的物联智能入侵检测系统及方法
CN116781347A (zh) * 2023-06-20 2023-09-19 桂林电子科技大学 基于深度学习的工业物联网入侵检测方法及装置
CN116955092A (zh) * 2023-09-20 2023-10-27 山东小萌信息科技有限公司 基于数据分析的多媒体系统监控方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于数据挖掘的数据库入侵检测系统的设计与实现;石冬冬;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第01期);第20-50页 *

Also Published As

Publication number Publication date
CN117540372A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
Khan et al. HML-IDS: A hybrid-multilevel anomaly prediction approach for intrusion detection in SCADA systems
CN117473571B (zh) 一种数据信息安全处理方法及系统
CN107493277B (zh) 基于最大信息系数的大数据平台在线异常检测方法
CN110321371A (zh) 日志数据异常检测方法、装置、终端及介质
CN115578015A (zh) 基于物联网的污水处理全过程监管方法、系统及存储介质
CN112804196A (zh) 日志数据的处理方法及装置
CN116662989B (zh) 一种安全数据解析方法及系统
CN105681298A (zh) 公共信息平台中的数据安全异常监测方法及系统
CN106951776A (zh) 一种主机异常检测方法和系统
CN115459965A (zh) 一种面向电力系统网络安全的多步攻击检测方法
Wagner et al. Timesead: Benchmarking deep multivariate time-series anomaly detection
CN116074092B (zh) 一种基于异构图注意力网络的攻击场景重构系统
CN117220920A (zh) 基于人工智能的防火墙策略管理方法
CN110011990A (zh) 内网安全威胁智能分析方法
CN118381650A (zh) 一种适用于电力系统的网络安全态势感知系统
Laptiev et al. Algorithm for Recognition of Network Traffic Anomalies Based on Artificial Intelligence
WO2024027487A1 (zh) 基于智能运维场景的健康度评价方法及装置
CN117540372B (zh) 智能学习的数据库入侵检测与响应系统
CN112039907A (zh) 一种基于物联网终端评测平台的自动测试方法及系统
CN116389062A (zh) 基于流量安全分析的工业控制系统行为监测方法及设备
CN115567241A (zh) 一种多站点网络感知检测系统
CN115062144A (zh) 一种基于知识库和集成学习的日志异常检测方法与系统
CN111475380B (zh) 一种日志分析方法和装置
CN116668045A (zh) 一种多维度的网络安全综合预警方法和系统
CN118487872B (zh) 一种面向核电行业的网络异常行为检测分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant