CN109547466A - 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 - Google Patents
基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109547466A CN109547466A CN201811545209.0A CN201811545209A CN109547466A CN 109547466 A CN109547466 A CN 109547466A CN 201811545209 A CN201811545209 A CN 201811545209A CN 109547466 A CN109547466 A CN 109547466A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- machine learning
- traffic stream
- malice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008447 perception Effects 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 115
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 55
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 241001269238 Data Species 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims 1
- 230000007123 defense Effects 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000020509 sex determination Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质,该方法包括:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;将被标记上恶意特征的数据写入机器学习的恶意样本数据集;至少利用恶意样本数据集,通过机器学习算法生成恶意流量模板;判定检测数据与恶意流量模板的匹配性;根据匹配结果确定检测数据是否为恶意数据。本发明提供的方法,不断优化风险感知的机器学习算法,持续提高风险感知能力,使得传统的攻击或者新型的攻击能快速的提前感知,提前建立对应的防御方案或防护措施,使得攻击者的攻击无法产生影响或把影响的损失降到最小。
Description
技术领域
本发明公开的实施例涉及计算机网络信息安全领域,具体而言,涉及一种基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质。
背景技术
在现代社会中,计算设备正在从仅是便利品变为必需品。在全球规模上,通信正在变得电子占主导,并且这些通信经常包括敏感或机密信息的传输。
现有的防护技术是通过端口流量镜像解析http协议的请求数据并提取数据头,利用正则规则来匹配恶意数据直接按照攻击的类型来进行感知和警报。该防护技术具有很大的缺陷,例如:1)、难以确保正则表达式覆盖的攻击面是否完整;2)、维护规则费心费力;3)、难以确保漏报和误报;4)、性能会随着正则表达式的增多越来越差;5)、存在自动化算法或编码等绕过;6)、可读性差,修改繁琐;7)、加载量大,影响处理速度。
现有的防护技术对云端的应用与客户端进行数据交互时没有做到很好的风险感知能力,从而使一些攻击对云端应用或者客户端造成比较大的危害和损失,因此,如何提高风险感知能力,降低危害和损失,是本领域技术人员需要解决的技术问题。
发明内容
本发明公开的第一个方面的实施例的目的在于,提供一种基于机器学习提高风险感知能力的方法。
本发明公开的第二个方面的实施例的目的在于,提供一种基于机器学习提高风险感知能力的装置。
本发明公开的第三个方面的实施例的目的在于,提供一种计算机设备。
本发明公开的第四个方面的实施例的目的在于,提供一种计算机可读存储介质。
本发明公开的实施例提供了一种基于机器学习提高风险感知能力的方法,包括:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;将被标记上恶意特征的数据写入机器学习的恶意样本数据集;至少利用所述恶意样本数据集,通过机器学习算法生成恶意流量模板;判定检测数据与所述恶意流量模板的匹配性;根据匹配结果确定所述检测数据是否为恶意数据。
另外,本发明公开的实施例提供的方法还具有如下附加技术特征:
上述实施例中,优选地,所述的方法还包括:将所述恶意流量模板更新到线上。
上述任一实施例中,优选地,所述对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,具体包括:对数据进行黑白名单机制处理和正则规则处理;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理。
上述任一实施例中,优选地,所述通过机器学习算法生成恶意流量模板,具体包括:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成所述恶意流量模板。
上述任一实施例中,优选地,所述利用机器学习算法进行特征标记,以生成所述恶意流量模板,具体包括:根据攻击的类型,对不同的检测数据进行不同的所述机器学习算法,以生成不同的所述恶意流量模板。
上述任一实施例中,优选地,所述至少利用所述恶意样本数据集,具体包括:利用ADFA-LD数据集和KDD 99数据集中的至少一种及所述恶意样本数据集。
上述任一实施例中,优选地,所述对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一个处理环节之前,还包括:在网关出口进行端口流量镜像以得到镜像流量;利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。
本发明第二个方面的技术方案提供一种基于机器学习提高风险感知能力的装置,包括:处理单元,用于:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;写入单元,用于将被标记上恶意特征的数据写入机器学习的恶意样本数据集;生成单元,用于至少利用所述恶意样本数据集,通过机器学习算法生成恶意流量模板;判定单元,用于判定检测数据与所述恶意流量模板的匹配性;确定单元,用于根据匹配结果确定所述检测数据是否为恶意数据。
上述实施例中,优选地,所述装置还包括:更新单元,用于将所述恶意流量模板更新到线上。
上述任一实施例中,优选地,所述处理单元具体用于:对数据进行黑白名单机制处理和正则规则处理;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理。
上述任一实施例中,优选地,所述生成单元具体用于:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成所述恶意流量模板。
上述任一实施例中,优选地,所述生成单元还用于:根据攻击的类型,对不同的检测数据进行不同的所述机器学习算法,以生成不同的所述恶意流量模板。
上述任一实施例中,优选地,所述的装置还包括:镜像单元,用于在网关出口进行端口流量镜像以得到镜像流量;解析单元,用于:利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。
本发明第三个方面的技术方案提供一种计算机设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一技术方案所述的基于机器学习提高风险感知能力的方法的步骤。
本发明第四个方面的技术方案提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一技术方案所述的基于机器学习提高风险感知能力的方法的步骤。
本发明公开的实施例的附加方面和优点将在下面的描述部分中变得明显,或通过本发明公开的实施例的实践了解到。
附图说明
本发明公开的实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的一个实施例所述的方法的流程示意图;
图2是本发明的一个实施例所述的方法的流程示意图;
图3是本发明的一个实施例所述的装置的示意框图;
图4是本发明的一个实施例所述的装置的示意框图。
其中,图3和图4中附图标记与部件名称之间的对应关系为:
200装置,202处理单元,204写入单元,206生成单元,208判定单元,210确定单元,212更新单元,214镜像单元,216解析单元。
具体实施方式
为了能够更清楚地理解本发明公开的实施例的上述目的、特征和优点,下面结合附图和具体实施方式对本发明公开的实施例进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明公开的实施例,但是,本发明公开的实施例还可以采用其他不同于在此描述的方式来实施,因此,本发明公开的实施例的保护范围并不受下面公开的具体实施例的限制。
下面参照附图1至4描述根据本发明一些实施例的基于机器学习提高风险感知能力的方法、装置、计算机设备和计算机可读存储介质。
如图1和图2所示,根据本发明一些实施例提供的一种基于机器学习提高风险感知能力的方法,包括:
步骤S10,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;
步骤S20,将被标记上恶意特征的数据写入机器学习的恶意样本数据集;
步骤S30,至少利用恶意样本数据集,通过机器学习算法生成恶意流量模板;
步骤S40,判定检测数据与恶意流量模板的匹配性;
步骤S50,根据匹配结果确定所述检测数据是否为恶意数据。
本发明上述实施例提供的方法,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,在处理完成后标记为恶意特征的数据直接写入机器学习的恶意样本数据集(包含人工录入样本,匹配的样本,黑白名单过滤后的样本,公开的样本),使用海量的样本数据这样的优点在于识别出的恶意流量范围扩大;至少利用恶意样本数据集,生成恶意流量模板,至少利用恶意样本数据集指的是除可以利用恶意样本数据集外,还可以利用技术人员整理完成的数据集(如:ADFA-LD数据集,KDD 99数据集等)。将检测数据与恶意样本流量模板进行对比,判定检测数据与恶意流量模板的匹配性,并根据匹配性判定结果确定是否将检测数据标记上恶意特征,即判定该检测数据是否为恶意数据,恶意数据主要指带有特殊参数、代码或符号的攻击性数据。具体的,利用机器学习算法和生成的恶意流量模板对检测数据进行对比,优选地,该处为,在机器学习当中利用机器学习算法提取出的特征进行对比,提取特征的时候精确度更加好,对比的时候缩小误差和误报率,所有的操作都在机器学习当中,设置预设阈值,当大于预设阈值时对检测数据标记上恶意特征,成为恶意数据。
机器学习是一门人工智能的科学,通过经验自动改进的计算机算法研究,用数据或以往的经验,以此优化计算机程序的性能标准。通过对数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,不断优化风险感知的机器学习算法,持续提高风险感知能力,使得传统的攻击或者新型的攻击能快速的提前感知,提前建立对应的防御方案或防护措施,使得攻击者的攻击无法产生影响或把影响的损失降到最小。
其中,黑名单由已知的风险数据组成,白名单则由已知的安全数据组成,对数据进行黑白名单机制处理时,把识别的数据和云端的黑白名单进行对比,与黑名单匹配的标记上恶意特征。正则规则中正则表达式:又称规则表达式,计算机科学的一个概念,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本,对数据进行正则规则处理时,用专业技术人员写好的恶意数据正则表达式来匹配数据,匹配上恶意规则的标记上恶意特征。人工识别是指对于不明确的数据,专业技术人工进行后台确认,确认是否标记为恶意流量。
优选地,基于机器学习提高风险感知能力的方法还包括:将恶意流量模板更新到线上,即更新到云端应用服务器上,从而将恶意流量模板和对数据的处理过程直接部署或更新到线上进行数据识别,进而循环的使用至少利用恶意样本数据集,通过机器学习算法生成的恶意流量模板,可以不断的更新线上恶意流量模板,这样的优点在于每一天都在增强系统的恶意流量识别度、识别范围和准确度,能够快速识别出最新的攻击模式,后期的运营中也可以对机器学习中的算法进行优化和改进以扩大整个系统的准确率和精度,减少漏报率。
优选地,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,具体包括:对数据进行黑白名单机制处理和正则规则处理,可以对数据进行黑白名单机制处理和正则规则处理中的一种处理,或者对数据进行黑白名单机制处理和正则规则处理,将处理完成后被标记为恶意特征的数据直接写入及学习的恶意样本数据集;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理,对于经过人工识别处理的数据,进行特征提取写入样本集,进行机器学习训练,并按照算法进行分类,得到不同分类的训练模型。
优选地,通过机器学习算法生成恶意流量模板,具体包括:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成恶意流量模板。
利用已知的样本(恶意流量样本集)和技术人员整理完成的数据集(如:ADFA-LD数据集,KDD 99数据集等)对检测数据进行特征提取,然后利用算法(如:TF-IDF算法等)进行特征标记,生成恶意流量模板。
优选地,利用机器学习算法进行特征标记,以生成恶意流量模板,具体包括:根据攻击的类型,对不同的检测数据进行不同的机器学习算法,以生成不同的恶意流量模板。
对不同的样本数据进行不同机器学习算法的处理,生成不同的恶意流量模板提高识别恶意流量的正确率和精确度(例如:跨站点伪造攻击,先利用分词算法对数据进行分词处理,TF-IDF算法组成向量空间,然后利用朴素贝叶斯算法可对数据的属性进行处理以提高精确度和准确度,设定基础阈值相同属性越多就说明相同的恶意属性越多,这样精确度和准确率就越高)。
优选地,至少利用恶意样本数据集,具体包括:利用ADFA-LD数据集和KDD 99数据集中的至少一种及恶意样本数据集。
除利用恶意样本数据集外,还利用技术人员整理完成的数据集例如ADFA-LD数据集和KDD 99数据集中的至少一种,对检测数据进行特征提取,然后利用机器学习算法进行特征标记,以生成恶意流量模板。
利用ADFA-LD数据集和KDD 99数据集中的至少一种及恶意样本数据集,可以增大样本数据的量,从而识别出的恶意流量范围扩大,提高识别的准确率和精度。
优选地,对数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一个处理环节之前,还包括:在网关出口进行端口流量镜像以得到镜像流量;利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。
PC端或者web端等和云端应用服务器进行网络交互(http/https)时,需要在PC端或者web端等和云端应用服务器进行交互的网关出口做端口流量镜像,得到镜像流量,如果是https协议直接使用证书对流量数据包进行https解密。
利用正则规则按照预设的格式对数据进行格式化解析,拆分数据头和数据内容写入到大数据中心。
示例性的,本申请中的方法包括以下步骤:
a)PC端或者web端等和云端应用服务器进行网络交互(http/https)时,需要在PC端或者web端等和云端应用服务器进行交互的网关出口做端口流量镜像,如果是https协议直接使用证书对流量数据包进行https解密。
b)利用正则按照一定的格式对数据进行格式化解析,拆分数据头和数据内容写入到大数据中心。
c)提取大数据中心的数据先经过黑白名单机制处理,再经过正则规则和人工识别的处理,每个环节处理完成后被标记为恶意特征的数据直接写入机器学习的恶意样本数据集(包含人工录入样本,匹配的样本,黑白名单过滤后的样本,公开的样本),使用海量的样本数据这样的优点在于识别出的恶意流量范围扩大,然后对不同的样本数据进行不同算法的处理生成不同的恶意流量模板提高识别恶意流量的正确率和精确度(例如:跨站点伪造攻击,先利用分词算法对数据进行分词处理,TF-IDF算法组成向量空间,然后利用朴素贝叶斯算法可对数据的属性进行处理以提高精确度和准确度,设定基础阈值相同属性越多就说明相同的恶意属性越多,这样精确度和准确率就越高)。
d)根据c步骤中生成的恶意流量模板和处理过程直接部署或更新到线上进行数据识别。
e)整个系统是一个闭环系统:就是循环的使用c步骤生成出来的恶意流量模板,可以不断的更新线上恶意流量模板,这样的优点在于每一天都在增强系统的恶意流量识别度,识别范围和准确度,能够快速识别出最新的攻击模式,后期的运营中也可以对机器学习中的算法进行优化和改进以扩大整个系统的准确率和精度,减少漏报率。
如图3所示,本发明第二个方面的实施例提供一种基于机器学习提高风险感知能力的装置200,包括:处理单元202、写入单元204、生成单元206、判定单元208和确定单元210。处理单元202用于:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;写入单元204用于将被标记上恶意特征的数据写入机器学习的恶意样本数据集;生成单元206用于至少利用恶意样本数据集,通过机器学习算法生成恶意流量模板;判定单元208用于判定检测数据与恶意流量模板的匹配性;确定单元210用于根据匹配结果确定检测数据是否为恶意数据。
本发明第二个方面的实施例提供一种基于机器学习提高风险感知能力的装置200,对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,在处理完成后标记为恶意特征的数据直接写入机器学习的恶意样本数据集(包含人工录入样本,匹配的样本,黑白名单过滤后的样本,公开的样本),使用海量的样本数据这样的优点在于识别出的恶意流量范围扩大;至少利用恶意样本数据集,生成恶意流量模板,至少利用恶意样本数据集指的是除可以利用恶意样本数据集外,还可以利用技术人员整理完成的数据集(如:ADFA-LD数据集,KDD 99数据集等)。将检测数据与恶意样本流量模板进行对比,判定检测数据与恶意流量模板的匹配性,并根据匹配性判定结果确定是否将检测数据标记上恶意特征,即判定该检测数据是否为恶意数据,恶意数据主要指带有特殊参数,代码或符号的攻击性数据。具体的,利用机器学习算法和生成的恶意流量模板对检测数据进行对比,优选地,该处为,在机器学习当中利用机器学习算法提取出的特征进行对比,提取特征的时候精确度更加好,对比的时候缩小误差,和误报率,所有的操作都在机器学习当中,设置预设阈值,当大于预设阈值时对检测数据标记上恶意特征,成为恶意数据。
机器学习是一门人工智能的科学;通过经验自动改进的计算机算法研究,用数据或以往的经验,以此优化计算机程序的性能标准。通过对数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,不断优化风险感知的机器学习算法,持续提高风险感知能力,使得传统的攻击或者新型的攻击能快速的提前感知,提前建立对应的防御方案或防护措施,使得攻击者的攻击无法产生影响或把影响的损失降到最小。
其中,黑名单由已知的风险数据组成,白名单则由已知的安全数据组成,对数据进行黑白名单机制处理时,把识别的数据和云端的黑白名单进行对比,与黑名单匹配的标记上恶意特征。正则规则中正则表达式:又称规则表达式,计算机科学的一个概念,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本,对数据进行正则规则处理时,用专业技术人员写好的恶意数据正则表达式来匹配数据,匹配上恶意规则的标记上恶意特征。人工识别是指对于不明确的数据,专业技术人工进行后台确认,确认是否标记为恶意流量。
如图4所示,优选地,装置200包括:更新单元212,用于将恶意流量模板更新到线上,即更新到云端应用服务器上,从而将恶意流量模板和对数据的处理过程直接部署或更新到线上进行数据识别,进而循环的使用至少利用恶意样本数据集,通过机器学习算法生成的恶意流量模板,可以不断的更新线上恶意流量模板,这样的优点在于每一天都在增强系统的恶意流量识别度、识别范围和准确度,能够快速识别出最新的攻击模式,后期的运营中也可以对机器学习中的算法进行优化和改进以扩大整个系统的准确率和精度,减少漏报率。
优选地,处理单元202具体用于:对数据进行黑白名单机制处理和正则规则处理,可以对数据进行黑白名单机制处理和正则规则处理中的一种处理,或者对数据进行黑白名单机制处理和正则规则处理,将处理完成后被标记为恶意特征的数据直接写入及学习的恶意样本数据集;对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理,对于经过人工识别处理的数据,进行特征提取写入样本集,进行机器学习训练,并按照算法进行分类,得到不同分类的训练模型。
优选地,生成单元206具体用于:对检测的数据进行特征提取;利用机器学习算法进行特征标记,以生成恶意流量模板。
利用已知的样本(恶意流量样本集)和技术人员整理完成的数据集(如:ADFA-LD数据集,KDD 99数据集等)对检测数据进行特征提取,然后利用算法(如:TF-IDF算法等)进行特征标记,生成恶意流量模板。
优选地,生成单元206还用于:根据攻击的类型,对不同的检测数据进行不同的机器学习算法,以生成不同的恶意流量模板。
对不同的样本数据进行不同机器学习算法的处理,生成不同的恶意流量模板提高识别恶意流量的正确率和精确度(例如:跨站点伪造攻击,先利用分词算法对数据进行分词处理,TF-IDF算法组成向量空间,然后利用朴素贝叶斯算法可对数据的属性进行处理以提高精确度和准确度,设定基础阈值相同属性越多就说明相同的恶意属性越多,这样精确度和准确率就越高)。
优选地,装置200包括:镜像单元214,用于在网关出口进行端口流量镜像以得到镜像流量;解析单元216,用于:利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入数据中心。
PC端或者web端等和云端应用服务器进行网络交互(http/https)时,需要在PC端或者web端等和云端应用服务器进行交互的网关出口做端口流量镜像,得到镜像流量,如果是https协议直接使用证书对流量数据包进行https解密。
利用正则规则按照预设的格式对数据进行格式化解析,拆分数据头和数据内容写入到大数据中心。
本发明第三个方面的实施例提供一种计算机设备,包括处理器,处理器用于执行存储器中存储的计算机程序时实现上述任一实施例基于机器学习提高风险感知能力的方法的步骤。因此,该车计算机设备具有上述任一实施例的基于机器学习提高风险感知能力的方法的有益效果,在此不再赘述。
本发明第四个方面的实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的基于机器学习提高风险感知能力的方法的步骤。因此,该计算机可读存储介质具有上述任一实施例的基于机器学习提高风险感知能力的方法的有益效果,在此不再赘述。
综上所述,本发明实施例提供的方法,对云端的应用和云端与客户端的数据交互防护有极好效果,且在防护中,利用机器学习结合正则规则和黑白名单机制不断优化风险感知算法,持续提高风险感知能力,使得传统的攻击和新型的攻击能快速的提前感知,提前建立对应的防御方案或防护措施,使得攻击者的攻击无法产生影响或把损失降到最低。
现有的技术属于云端安全监控,云端应用和客户端之间的数据处于安全监控之下。本发明可以实现对云端应用和客户端之间的通讯(http/https)风险感知,且可以不断的通过机器学习的能力来优化风险感知算法,让云端应用和客户端之间的风险能及时发现和处理。
在本发明公开的实施例的描述中,除非另有明确的规定和限定,术语“多个”是指两个或两个以上;除非另有规定或说明,术语“连接”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接,或电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明公开的实施例中的具体含义。
本说明书的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明公开的实施例和简化描述,而不是指示或暗示所指的装置200或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明公开的实施例的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习提高风险感知能力的方法,其特征在于,包括:
对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;
将被标记上恶意特征的数据写入机器学习的恶意样本数据集;
至少利用所述恶意样本数据集,通过机器学习算法生成恶意流量模板;
判定检测数据与所述恶意流量模板的匹配性;
根据匹配结果确定所述检测数据是否为恶意数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述恶意流量模板更新到线上。
3.根据权利要求1或2所述的方法,其特征在于,
所述对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,具体包括:
对数据进行黑白名单机制处理和正则规则处理;
对黑白名单机制处理和正则规则处理中未识别的数据进行人工识别处理。
4.根据权利要求1或2所述的方法,其特征在于,
所述通过机器学习算法生成恶意流量模板,具体包括:
对检测的数据进行特征提取;
利用机器学习算法进行特征标记,以生成所述恶意流量模板。
5.根据权利要求4所述的方法,其特征在于,
所述利用机器学习算法进行特征标记,以生成所述恶意流量模板,具体包括:
根据攻击的类型,对不同的检测数据进行不同的所述机器学习算法,以生成不同的所述恶意流量模板。
6.根据权利要求1或2所述的方法,其特征在于,
所述至少利用所述恶意样本数据集,具体包括:利用ADFA-LD数据集和KDD 99数据集中的至少一种及所述恶意样本数据集。
7.根据权利要求1或2所述的方法,其特征在于,
所述对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一个处理环节之前,还包括:
在网关出口进行端口流量镜像以得到镜像流量;
利用正则规则对镜像流量进行格式化解析,拆分数据头和数据内容并写入所述数据中心。
8.一种基于机器学习提高风险感知能力的装置,其特征在于,包括:
处理单元,用于:对数据中心的数据进行黑白名单机制处理、正则规则处理和人工识别处理中的至少一种处理,得到被标记上恶意特征的数据;
写入单元,用于将被标记上恶意特征的数据写入机器学习的恶意样本数据集;
生成单元,用于至少利用所述恶意样本数据集,通过机器学习算法生成恶意流量模板;
判定单元,用于判定检测数据与所述恶意流量模板的匹配性;
确定单元,用于根据匹配结果确定所述检测数据是否为恶意数据。
9.一种计算机设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述基于机器学习提高风险感知能力的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述基于机器学习提高风险感知能力的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811545209.0A CN109547466B (zh) | 2018-12-17 | 2018-12-17 | 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811545209.0A CN109547466B (zh) | 2018-12-17 | 2018-12-17 | 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109547466A true CN109547466A (zh) | 2019-03-29 |
CN109547466B CN109547466B (zh) | 2021-11-02 |
Family
ID=65855349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811545209.0A Active CN109547466B (zh) | 2018-12-17 | 2018-12-17 | 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109547466B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148842A (zh) * | 2020-10-13 | 2020-12-29 | 厦门安胜网络科技有限公司 | 一种降低攻击检测中误报率方法、装置及存储介质 |
CN112863523A (zh) * | 2019-11-27 | 2021-05-28 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN113569971A (zh) * | 2021-08-02 | 2021-10-29 | 浙江索思科技有限公司 | 一种基于图像识别的渔获目标分类检测方法及系统 |
CN115022100A (zh) * | 2022-08-10 | 2022-09-06 | 东南大学 | 一种基于流量画像与机器学习的物联网入侵检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106713254A (zh) * | 2015-11-18 | 2017-05-24 | 中国科学院声学研究所 | 一种匹配正则集的生成及深度包检测方法 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
US20170310558A1 (en) * | 2015-04-02 | 2017-10-26 | Exinda, Inc. | Extensible analytics and recommendation engine for network traffic data |
CN108449342A (zh) * | 2018-03-20 | 2018-08-24 | 北京搜狐互联网信息服务有限公司 | 恶意请求检测方法及装置 |
CN108471429A (zh) * | 2018-06-29 | 2018-08-31 | 北京奇虎科技有限公司 | 一种网络攻击告警方法及系统 |
-
2018
- 2018-12-17 CN CN201811545209.0A patent/CN109547466B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170310558A1 (en) * | 2015-04-02 | 2017-10-26 | Exinda, Inc. | Extensible analytics and recommendation engine for network traffic data |
CN106713254A (zh) * | 2015-11-18 | 2017-05-24 | 中国科学院声学研究所 | 一种匹配正则集的生成及深度包检测方法 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
CN108449342A (zh) * | 2018-03-20 | 2018-08-24 | 北京搜狐互联网信息服务有限公司 | 恶意请求检测方法及装置 |
CN108471429A (zh) * | 2018-06-29 | 2018-08-31 | 北京奇虎科技有限公司 | 一种网络攻击告警方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863523A (zh) * | 2019-11-27 | 2021-05-28 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
WO2021103913A1 (zh) * | 2019-11-27 | 2021-06-03 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN112863523B (zh) * | 2019-11-27 | 2023-05-16 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN112148842A (zh) * | 2020-10-13 | 2020-12-29 | 厦门安胜网络科技有限公司 | 一种降低攻击检测中误报率方法、装置及存储介质 |
CN113569971A (zh) * | 2021-08-02 | 2021-10-29 | 浙江索思科技有限公司 | 一种基于图像识别的渔获目标分类检测方法及系统 |
CN113569971B (zh) * | 2021-08-02 | 2022-03-25 | 浙江索思科技有限公司 | 一种基于图像识别的渔获目标分类检测方法及系统 |
CN115022100A (zh) * | 2022-08-10 | 2022-09-06 | 东南大学 | 一种基于流量画像与机器学习的物联网入侵检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109547466B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109547466A (zh) | 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 | |
CN109818976B (zh) | 一种异常流量检测方法及装置 | |
Yu et al. | Deescvhunter: A deep learning-based framework for smart contract vulnerability detection | |
KR101752251B1 (ko) | 파일 식별 방법 및 장치 | |
CN107577947A (zh) | 信息系统的漏洞检测方法、系统、存储介质和电子设备 | |
CN102799806B (zh) | 一种基于树结构的密码算法逻辑表达式识别方法 | |
US20230086187A1 (en) | Detection of anomalies associated with fraudulent access to a service platform | |
CN104520871A (zh) | 漏洞矢量信息分析 | |
CN104700033A (zh) | 病毒检测的方法及装置 | |
CN111937076B (zh) | 改进的计算设备 | |
CN112910859A (zh) | 基于c5.0决策树和时序分析的物联网设备监测预警方法 | |
CN110062380A (zh) | 一种移动应用系统的连接访问请求安全检测方法 | |
CN111937359A (zh) | 检测设备的通信地址设置方法、无人机及存储介质 | |
CN112632535A (zh) | 攻击检测方法、装置、电子设备及存储介质 | |
CN114553591A (zh) | 随机森林模型的训练方法、异常流量检测方法及装置 | |
TWI703846B (zh) | Url異常定位方法、裝置、伺服器及儲存媒體 | |
CN110222801A (zh) | 一种基于rfid技术的资产管理方法及系统 | |
Zhao et al. | Block cipher identification scheme based on Hamming weight distribution | |
CN117240527B (zh) | 一种网络安全风险防范系统及方法 | |
US11102082B1 (en) | System and method for inferring operating systems using transmission control protocol fingerprints | |
CN105160268A (zh) | 数据跟踪及监控系统、智能路由器及其数据跟踪监控方法 | |
CN107395640B (zh) | 一种基于划分和特征变化的入侵检测系统及方法 | |
CN113132455A (zh) | 一种分布式工业物联网监控方法和系统 | |
US20220414229A1 (en) | Analysis system, method, and program | |
CN113961913B (zh) | 一种应用于跨域安全的检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211122 Address after: Room 103, building 1, yard 4, Hengxing Road, Gaoliying Town, Shunyi District, Beijing Patentee after: Beijing Rockwell Technology Co.,Ltd. Address before: Room 801, 8 / F, building 3, No.10 courtyard, Wangjing street, Chaoyang District, Beijing 100102 Patentee before: BEIJING CHJ AUTOMOTIVE TECHNOLOGY Co.,Ltd. |