CN111144471B - 一种检测方法、装置、设备及存储介质 - Google Patents

一种检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111144471B
CN111144471B CN201911332542.8A CN201911332542A CN111144471B CN 111144471 B CN111144471 B CN 111144471B CN 201911332542 A CN201911332542 A CN 201911332542A CN 111144471 B CN111144471 B CN 111144471B
Authority
CN
China
Prior art keywords
feature
characteristic
data
elements
correlation coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911332542.8A
Other languages
English (en)
Other versions
CN111144471A (zh
Inventor
闫利华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911332542.8A priority Critical patent/CN111144471B/zh
Publication of CN111144471A publication Critical patent/CN111144471A/zh
Application granted granted Critical
Publication of CN111144471B publication Critical patent/CN111144471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种检测方法、装置、设备及存储介质,该方法的步骤包括:接收待测网络数据;获取特征子集,特征子集基于特征集合提取得到,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数;基于特征子集中的特征元素的对待测网络数据执行数据类别对应的数据检测。本方法能够相对提升对待测网络数据的检测速率以及整体准确性。此外,本发明还提供一种检测装置、设备及存储介质,有益效果同上所述。

Description

一种检测方法、装置、设备及存储介质
技术领域
本发明涉及数据安全领域,特别是涉及一种检测方法、装置、设备及存储介质。
背景技术
随着互联网的迅速发展,尤其进入了大数据和云计算时代后,基于网络数据实现的网络入侵手段呈现隐蔽性、静默性等特点。
人们对于网络安全的需求日益增加,但主流的数据检测模型随着网络数据量的增加,待检测的网络数据不仅规模庞大,而且维度较高,存在着大量的冗余信息,这些无关的信息会极大降低对网络数据的检测效果,导致检测过程的整体效率以及准确性越来越低下。
由此可见,提供一种检测方法,以相对提升对网络数据的检测速率和准确性,是本领域技术人员需要解决的问题。
发明内容
本发明的目的是提供一种检测方法、装置、设备及存储介质,以相对提升对网络数据的检测速率和准确性。
为解决上述技术问题,本发明提供一种检测方法,包括:
接收待测网络数据;
获取特征子集,特征子集基于样本数据的特征集合提取得到,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数;
基于特征子集中的特征元素的对待测网络数据执行数据类别对应的数据检测。
优选的,获取特征子集,包括:
获取样本数据的特征集合;
生成初始集合,初始集合中至少包含有一个特征集合中的特征元素;
判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素;
若存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,则判断将目标特征元素增加至初始集合时是否提高初始集合与数据类别之间的关联系数;
若提高初始集合与数据类别之间的关联系数,则将目标特征元素增加至初始集合,并执行判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素的步骤;
若未提高初始集合与数据类别之间的关联系数,则删除特征集合中的目标特征元素,并执行判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素的步骤;
若未存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,则将初始集合设置为特征子集。
优选的,获取样本数据的特征集合,包括:
获取样本数据具有的原始特征元素,并计算原始特征元素与数据类别的关联系数;
在原始特征元素与数据类别的关联系数中选取满足预设阈值范围的目标关联系数;
基于目标关联系数对应的目标原始特征元素生成特征集合。
优选的,基于目标关联系数对应的目标原始特征元素生成特征集合,包括:
依照目标关联系数的降序顺序依次将各目标关联系数对应的目标原始特征元素加入至特征集合;
判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,包括:
依照特征集合中的元素顺序判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素。
优选的,计算原始特征元素与数据类别的关联系数,包括:
基于原始特征元素与数据类别之间的互信息以及原始特征元素与数据类别各自的信息熵计算原始特征元素与数据类别的关联系数。
优选的,初始集合与数据类别之间的关联系数基于特征集合的元素总量以及目标关联系数的平均值计算生成。
此外,本发明还提供一种检测装置,包括:
数据接收模块,用于接收待测网络数据;
子集获取模块,用于获取特征子集,特征子集基于样本数据的特征集合提取得到,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数;
子集检测模块,用于基于特征子集中的特征元素的对待测网络数据执行数据类别对应的数据检测。
优选的,子集获取模块,包括:
特征集合获取模块,用于获取样本数据的特征集合;
初始集合生成模块,用于生成初始集合,初始集合中至少包含有一个特征集合中的特征元素;
第一判断模块,用于判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,如果是,则调用第二判断模块,否则,调用子集设置模块;
第二判断模块,用于判断将目标特征元素增加至初始集合时是否提高初始集合与数据类别之间的关联系数,如果是,则调用元素增加模块,否则,调用删除模块;
元素增加模块,用于将目标特征元素增加至初始集合,并调用第一判断模块;
删除模块,用于删除特征集合中的目标特征元素,并调用第一判断模块;
子集设置模块,用于将初始集合设置为特征子集。
此外,本发明还提供一种检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的检测方法的步骤。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的检测方法的步骤。
本发明所提供的检测方法,首先接收待测网络数据,进而获取基于样本数据的特征集合提取得到的特征子集,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,并且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数,进而在获取整体子集后,基于该特征子集中的特征元素对待测网络数据执行该数据类别对应的数据检测。由于本方法获取的特征子集是基于与待测网络数据的数据类别存在关联关系的特征集合提取得到的,因此特征子集中的元素数量相对少于特征集合中的元素数量,并且特征子集与数据类别的关联程度大于特征集合与数据类别的关联程度,进而基于特征子集中的特征元素的对待测网络数据执行该数据类别的数据检测,能够相对提升对待测网络数据的检测速率以及整体准确性。此外,本发明还提供一种检测装置、设备及存储介质,有益效果同上所述。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种检测方法的流程图;
图2为本发明实施例提供的一种检测方法的流程图;
图3为本发明实施例提供的一种检测装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
人们对于网络安全的需求日益增加,但主流的数据检测模型随着网络数据量的增加,待检测的网络数据不仅规模庞大,而且维度较高,存在着大量的冗余信息,这些无关的信息会极大降低对网络数据的检测效果,导致检测过程的整体效率以及准确性越来越低下。
本发明的核心是提供一种检测方法,以相对提升对网络数据的检测速率和准确性。本发明的另一核心是提供一种检测装置、设备及存储介质。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种检测方法的流程图。请参考图1,检测方法的具体步骤包括:
步骤S10:接收待测网络数据。
需要说明的是,本步骤可以具体是将网络中的设备传入的网络数据作为待测网络数据,以此对网络设备发起的基于网络数据的入侵行为进行检测。
步骤S11:获取特征子集。
特征子集基于样本数据的特征集合提取得到,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数。
需要说明的是,本步骤中获取的特征子集,是基于样本数据的特征集合生成的,样本数据具体可以是网络环境下实时产生的网络数据样本,也可以是预先网络环境获取并保存的历史网络数据样本,具体应根据具体场景下的实际需求而定,在此不做具体限定。
本步骤中的特征子集基于特征集合提取得到,特征集合中的特征元素均与待测网络数据的数据类别存在关联关系,此处的数据类别指的是对待测网络数据的分类,例如正常类别、异常类别等,在与数据类别存在关联关系的特征集合中,各特征元素均能够用于判定待测网络数据是否属于该数据类别。此外,本步骤的重点在于特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数,关联系数与关联程度之间呈正相关,即特征子集与数据类别之间的关联程度高于特征集合与数据类别之间的关联程度,也就是说,由于本步骤中的特征子集是基于特征集合进行了进一步提取得到的,因此特征子集相比于特征集合而言,相对减少了特征集合中冗余的特征元素,进一步提高了与数据类别之间的关联程度。
步骤S12:基于特征子集中的特征元素的对待测网络数据执行数据类别对应的数据检测。
本步骤是在获取到特征子集后,进一步基于特征子集中的特征元素对待测网络数据执行数据类别的数据检测,以此判定待测网络数据是否属于相应的数据类别。
本发明所提供的检测方法,首先接收待测网络数据,进而获取基于样本数据的特征集合提取得到的特征子集,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,并且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数,进而在获取整体子集后,基于该特征子集中的特征元素对待测网络数据执行该数据类别对应的数据检测。由于本方法获取的特征子集是基于与待测网络数据的数据类别存在关联关系的特征集合提取得到的,因此特征子集中的元素数量相对少于特征集合中的元素数量,并且特征子集与数据类别的关联程度大于特征集合与数据类别的关联程度,进而基于特征子集中的特征元素的对待测网络数据执行该数据类别的数据检测,能够相对提升对待测网络数据的检测速率以及整体准确性。
图2为本发明实施例提供的一种检测方法的流程图。请参考图2,检测方法的具体步骤包括:
步骤S20:接收待测网络数据。
步骤S21:获取样本数据的特征集合。
特征集合中的特征元素与待测网络数据的数据类别存在关联关系。
步骤S22:生成初始集合,初始集合中至少包含有一个特征集合中的特征元素。
本步骤生成初始集合的目的是为了能够在后续步骤中将特征集合中的特征元素选择性的增加至该初始集合中,进而将初始集合设置为最终的特征子集,本实施例将特征集合中的特征元素选择性增加至初始集合的依据是特征集合中元素与初始集合中元素之间的关联系数,因此初始集合中至少包含有一个特征集合中的特征元素。
步骤S23:判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,如果是,执行步骤S24,否则,执行步骤S27。
步骤S24:判断将目标特征元素增加至初始集合时是否提高初始集合与数据类别之间的关联系数,如果是,则执行步骤S25,否则,执行步骤S26。
步骤S25:将目标特征元素增加至初始集合,并执行步骤S23。
步骤S26:删除特征集合中的目标特征元素,并执行步骤S23。
步骤S27:将初始集合设置为特征子集。
步骤S28:基于特征子集中的特征元素的对待测网络数据执行数据类别对应的数据检测。
本实施例首先在特征集合中选取与初始集合中已有的特征元素的关联系数最小的目标特征元素,目的是最大程度的降低与初始集合中已有的特征元素之间的冗余程度,进而在将特征集合中的目标特征元素增加至初始集合之前,预先判断将目标特征元素增加至初始集合时是否提高了初始集合与数据类别之间的关联系数,如果提高了初始集合与数据类别之间的关联系数,则将目标特征元素增加至初始集合。
相反的,如果将目标特征元素增加至初始集合时不能提高初始集合与数据类别之间的关联系数,则认为目标特征元素是冗余的元素,因此删除特征集合中的目标特征元素,以避免再次对是否将该目标特征元素增加至初始集合进行判定。
当完成对当前目标特征元素的判定后,再次在特征集合中选取与初始集合中已有的特征元素的关联系数最小的目标特征元素,并再次将新的目标特征元素选择性增加至初始集合,直至特征集合中未存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,则将初始集合设置为特征子集。
本实施例基于上述生成特征子集的方式,相对降低了特征子集中各个特征元素之间冗余程度,并提高了特征子集与数据类别之间的关联程度,进一步确保了基于特征子集对待测网络数据进行检测的整体准确性。
在上述实施例的基础上,本发明还提供如下一系列优选的实施方式。
作为一种优选的实施方式,获取样本数据的特征集合,包括:
获取样本数据具有的原始特征元素,并计算原始特征元素与数据类别的关联系数;
在原始特征元素与数据类别的关联系数中选取满足预设阈值范围的目标关联系数;
基于目标关联系数对应的目标原始特征元素生成特征集合。
需要说明的是,本实施例的重点在于获取样本数据的特征集合的过程在于,首先获取待测网络数据的原始特征元素,原始特征元素指的是待测网络数据所具有的全部特征元素,进而在获取原始特征元素后,进一步对原始特征元素进行筛选,筛选的依据是原始特征元素与数据类别之间的关联系数,即在原始特征元素与数据类别的关联系数中选取满足预设阈值范围的目标关联系数,进而基于目标关联系数对应的目标原始特征元素生成特征集合,本实施例中的预设阈值范围可以根据实际需求而定,在此不做具体限定。本实施方式通过对原始特征元素进行筛选的方式得到特征集合,进一步降低了特征集合中的特征元素的冗余程度,确保了对待测网络数据进行检测的整体准确性。
在上述实施方式的基础上,作为一种优选的实施方式,基于目标关联系数对应的目标原始特征元素生成特征集合,包括:
依照目标关联系数的降序顺序依次将各目标关联系数对应的目标原始特征元素加入至特征集合;
判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,包括:
依照特征集合中的元素顺序判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素。
需要说明的是,本实施方式的重点在于依照目标关联系数的降序顺序依次将各目标关联系数对应的目标原始特征元素加入至特征集合,进而依照特征集合中的元素顺序判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,以此确保了基于特征集合生成特征子集时的整体效率。
此外,作为一种优选的实施方式,计算原始特征元素与数据类别的关联系数,包括:
基于原始特征元素与数据类别之间的互信息以及原始特征元素与数据类别各自的信息熵计算原始特征元素与数据类别的关联系数。
需要说明的是,本实施方式中原始特征元素与数据类别之间的互信息指的是原始特征元素中包含的关于数据类别的信息量,而原始特征元素与数据类别各自的信息熵分别指的是原始特征元素的信息量以及数据类别的信息量。本实施方式基于原始特征元素与数据类别之间的互信息以及原始特征元素与数据类别各自的信息熵计算原始特征元素与数据类别的关联系数,能够相对确保关联系数的准确性,进而确保了检测的准确性。
在上述实施方式的基础上,作为一种优选的实施方式,初始集合与数据类别之间的关联系数基于特征集合的元素总量以及目标关联系数的平均值计算生成。
需要说明的是,本实施方式的重点在于初始集合与数据类别之间的关联系数基于特征集合的元素总量以及目标关联系数的平均值计算生成,相对确保了初始集合与数据类别之间的关联系数的准确性,进而确保了检测的准确性。
为了进一步提高对于本发明上述实施例的理解,本发明提供一种具体场景下的实施例进行说明。
用于衡量特征与类别或特征与特征之间相关联的程度,即对变量X、Y,它们之间的对称不确定性(关联系数)为:
Figure BDA0002330052700000091
其中,IG(X|Y)指两个变量之间的互信息;H(X)、H(Y)指变量的信息熵。
FCBF采用特征和类、特征和特征之间的关联性选择特征子集,注重特征与特征之间的关联性,但是忽略了整个特征子集与类别之间的关联性。因此,在FCBF算法的基础上,加入了基于集合与类别相关性的判断,即基于集合判断相关性的FCBF特征选择算法。其中,体现集合与类别相关性(Subset Correlation,SC)的关联系数可定义如下:
Figure BDA0002330052700000092
其中N为特征个数,Avg(SUic)为所有特征与类别之间的相关性的平均值,Avg(SUij)为特征与特征之间的相关性的平均值。
图3为本发明实施例提供的一种检测装置的结构图。本发明实施例提供的检测装置,包括:
数据接收模块10,用于接收待测网络数据;
子集获取模块11,用于获取特征子集,特征子集基于样本数据的特征集合提取得到,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数;
子集检测模块12,用于基于特征子集中的特征元素的对待测网络数据执行数据类别对应的数据检测。
本发明所提供的检测装置,首先接收待测网络数据,进而获取基于样本数据的特征集合提取得到的特征子集,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,并且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数,进而在获取整体子集后,基于该特征子集中的特征元素对待测网络数据执行该数据类别对应的数据检测。由于本装置获取的特征子集是基于与待测网络数据的数据类别存在关联关系的特征集合提取得到的,因此特征子集中的元素数量相对少于特征集合中的元素数量,并且特征子集与数据类别的关联程度大于特征集合与数据类别的关联程度,进而基于特征子集中的特征元素的对待测网络数据执行该数据类别的数据检测,能够相对提升对待测网络数据的检测速率以及整体准确性。
在上述实施例的基础上,作为一种优选的实施方式,子集获取模块,包括:
特征集合获取模块,用于获取样本数据的特征集合;
初始集合生成模块,用于生成初始集合,初始集合中至少包含有一个特征集合中的特征元素;
第一判断模块,用于判断特征集合中是否存在与初始集合中已有的特征元素的关联系数最小的目标特征元素,如果是,则调用第二判断模块,否则,调用子集设置模块;
第二判断模块,用于判断将目标特征元素增加至初始集合时是否提高初始集合与数据类别之间的关联系数,如果是,则调用元素增加模块,否则,调用删除模块;
元素增加模块,用于将目标特征元素增加至初始集合,并调用第一判断模块;
删除模块,用于删除特征集合中的目标特征元素,并调用第一判断模块;
子集设置模块,用于将初始集合设置为特征子集。
本发明还提供一种检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的检测方法的步骤。
本发明所提供的检测设备,首先接收待测网络数据,进而获取基于样本数据的特征集合提取得到的特征子集,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,并且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数,进而在获取整体子集后,基于该特征子集中的特征元素对待测网络数据执行该数据类别对应的数据检测。由于本设备获取的特征子集是基于与待测网络数据的数据类别存在关联关系的特征集合提取得到的,因此特征子集中的元素数量相对少于特征集合中的元素数量,并且特征子集与数据类别的关联程度大于特征集合与数据类别的关联程度,进而基于特征子集中的特征元素的对待测网络数据执行该数据类别的数据检测,能够相对提升对待测网络数据的检测速率以及整体准确性。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的检测方法的步骤。
本发明所提供的计算机可读存储介质,首先接收待测网络数据,进而获取基于样本数据的特征集合提取得到的特征子集,特征集合中的特征元素与待测网络数据的数据类别存在关联关系,并且特征子集与数据类别之间的关联系数大于特征集合与数据类别之间的关联系数,进而在获取整体子集后,基于该特征子集中的特征元素对待测网络数据执行该数据类别对应的数据检测。由于本计算机可读存储介质获取的特征子集是基于与待测网络数据的数据类别存在关联关系的特征集合提取得到的,因此特征子集中的元素数量相对少于特征集合中的元素数量,并且特征子集与数据类别的关联程度大于特征集合与数据类别的关联程度,进而基于特征子集中的特征元素的对待测网络数据执行该数据类别的数据检测,能够相对提升对待测网络数据的检测速率以及整体准确性。
以上对本发明所提供的一种检测方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种检测方法,其特征在于,包括:
接收待测网络数据;
获取特征子集,所述特征子集基于样本数据的特征集合提取得到,所述特征集合中的特征元素与所述待测网络数据的数据类别存在关联关系,且所述特征子集与所述数据类别之间的关联系数大于所述特征集合与所述数据类别之间的关联系数;
基于所述特征子集中的特征元素的对所述待测网络数据执行所述数据类别对应的数据检测;
其中,所述获取特征子集,包括:
获取所述样本数据的特征集合;
生成初始集合,所述初始集合中至少包含有一个所述特征集合中的特征元素;
判断所述特征集合中是否存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素;
若存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素,则判断将所述目标特征元素增加至所述初始集合时是否提高所述初始集合与所述数据类别之间的关联系数;
若提高所述初始集合与所述数据类别之间的关联系数,则将所述目标特征元素增加至所述初始集合,并执行所述判断所述特征集合中是否存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素的步骤;
若未提高所述初始集合与所述数据类别之间的关联系数,则删除所述特征集合中的所述目标特征元素,并执行所述判断所述特征集合中是否存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素的步骤;
若未存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素,则将所述初始集合设置为所述特征子集;
其中,所述特征元素与所述数据类别之间的关联系数、或所述特征元素与所述特征元素之间的关联系数,通过下式计算得到:
Figure 519589DEST_PATH_IMAGE002
其中,
Figure 764625DEST_PATH_IMAGE004
为变量X、变量Y之间的互信息;
Figure 13204DEST_PATH_IMAGE006
为所述变量X的信息熵、
Figure 673992DEST_PATH_IMAGE008
为所述变量Y的信息熵;所述变量X、所述变量Y分别为所述特征元素与所述数据类别,或所述变量X、所述变量Y分别为所述特征元素与所述特征元素;
集合与所述数据类别之间的关联系数,通过下式计算得到:
Figure 311866DEST_PATH_IMAGE010
其中,N为所述集合中所述特征元素的个数,
Figure 524542DEST_PATH_IMAGE012
为所述集合中所有所述特征元素与所述数据类别之间的相关性的平均值,
Figure 994837DEST_PATH_IMAGE014
为所述集合中所述特征元素与所述特征元素之间的相关性的平均值,所述集合为所述特征子集或所述初始集合。
2.根据权利要求1所述的检测方法,其特征在于,所述获取所述样本数据的特征集合,包括:
获取所述样本数据具有的原始特征元素,并计算所述原始特征元素与所述数据类别的关联系数;
在所述原始特征元素与所述数据类别的关联系数中选取满足预设阈值范围的目标关联系数;
基于所述目标关联系数对应的目标原始特征元素生成所述特征集合。
3.根据权利要求2所述的检测方法,其特征在于,所述基于所述目标关联系数对应的目标原始特征元素生成所述特征集合,包括:
依照所述目标关联系数的降序顺序依次将各所述目标关联系数对应的目标原始特征元素加入至所述特征集合;
所述判断所述特征集合中是否存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素,包括:
依照所述特征集合中的元素顺序判断所述特征集合中是否存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素。
4.根据权利要求2所述的检测方法,其特征在于,所述计算所述原始特征元素与所述数据类别的关联系数,包括:
基于所述原始特征元素与所述数据类别之间的互信息以及所述原始特征元素与数据类别各自的信息熵计算所述原始特征元素与所述数据类别的关联系数。
5.根据权利要求2至4任意一项所述的检测方法,其特征在于,所述初始集合与所述数据类别之间的关联系数基于所述特征集合的元素总量以及所述目标关联系数的平均值计算生成。
6.一种检测装置,其特征在于,包括:
数据接收模块,用于接收待测网络数据;
子集获取模块,用于获取特征子集,所述特征子集基于样本数据的特征集合提取得到,所述特征集合中的特征元素与所述待测网络数据的数据类别存在关联关系,且所述特征子集与所述数据类别之间的关联系数大于所述特征集合与所述数据类别之间的关联系数;
子集检测模块,用于基于所述特征子集中的特征元素的对所述待测网络数据执行所述数据类别对应的数据检测;
其中,所述子集获取模块,包括:
特征集合获取模块,用于获取所述样本数据的特征集合;
初始集合生成模块,用于生成初始集合,所述初始集合中至少包含有一个所述特征集合中的特征元素;
第一判断模块,用于判断所述特征集合中是否存在与所述初始集合中已有的特征元素的关联系数最小的目标特征元素,如果是,则调用第二判断模块,否则,调用子集设置模块;
所述第二判断模块,用于判断将所述目标特征元素增加至所述初始集合时是否提高所述初始集合与所述数据类别之间的关联系数,如果是,则调用元素增加模块,否则,调用删除模块;
所述元素增加模块,用于将所述目标特征元素增加至所述初始集合,并调用所述第一判断模块;
所述删除模块,用于删除所述特征集合中的所述目标特征元素,并调用所述第一判断模块;
所述子集设置模块,用于将所述初始集合设置为所述特征子集;
其中,所述特征元素与所述数据类别之间的关联系数、或所述特征元素与所述特征元素之间的关联系数,通过下式计算得到:
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
为变量X、变量Y之间的互信息;
Figure DEST_PATH_IMAGE020
为所述变量X的信息熵、
Figure DEST_PATH_IMAGE022
为所述变量Y的信息熵;所述变量X、所述变量Y分别为所述特征元素与所述数据类别,或所述变量X、所述变量Y分别为所述特征元素与所述特征元素;
集合与所述数据类别之间的关联系数,通过下式计算得到:
Figure DEST_PATH_IMAGE024
其中,N为所述集合中所述特征元素的个数,
Figure DEST_PATH_IMAGE026
为所述集合中所有所述特征元素与所述数据类别之间的相关性的平均值,
Figure DEST_PATH_IMAGE028
为所述集合中所述特征元素与所述特征元素之间的相关性的平均值,所述集合为所述特征子集或所述初始集合。
7.一种检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的检测方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的检测方法的步骤。
CN201911332542.8A 2019-12-22 2019-12-22 一种检测方法、装置、设备及存储介质 Active CN111144471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911332542.8A CN111144471B (zh) 2019-12-22 2019-12-22 一种检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911332542.8A CN111144471B (zh) 2019-12-22 2019-12-22 一种检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111144471A CN111144471A (zh) 2020-05-12
CN111144471B true CN111144471B (zh) 2022-05-24

Family

ID=70519306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911332542.8A Active CN111144471B (zh) 2019-12-22 2019-12-22 一种检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111144471B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109587144A (zh) * 2018-12-10 2019-04-05 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109818961A (zh) * 2019-01-30 2019-05-28 广东工业大学 一种网络入侵检测方法、装置和设备
CN109858534A (zh) * 2019-01-18 2019-06-07 郑州云海信息技术有限公司 一种网络异常行为确定方法、装置、设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109587144A (zh) * 2018-12-10 2019-04-05 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109858534A (zh) * 2019-01-18 2019-06-07 郑州云海信息技术有限公司 一种网络异常行为确定方法、装置、设备及可读存储介质
CN109818961A (zh) * 2019-01-30 2019-05-28 广东工业大学 一种网络入侵检测方法、装置和设备

Also Published As

Publication number Publication date
CN111144471A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
JP6771751B2 (ja) リスク評価方法およびシステム
CN108595667A (zh) 一种网络异常数据的关联性分析方法
CN108053318B (zh) 一种对异常交易进行识别的方法及装置
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN112488716B (zh) 一种异常事件检测系统
CN110874744B (zh) 一种数据异常检测方法及装置
CN105072214A (zh) 基于域名特征的c&c域名识别方法
WO2022199185A1 (zh) 用户操作检测方法及程序产品
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN110719278A (zh) 一种网络入侵数据的检测方法、装置、设备及介质
CN105468972B (zh) 一种移动终端文件检测方法
CN110827036A (zh) 一种欺诈交易的检测方法、装置、设备及存储介质
CN110705282A (zh) 关键词提取方法、装置、存储介质及电子设备
CN112988892A (zh) 一种分布式系统热点数据的管理方法
CN111368894B (zh) 一种fcbf特征选择方法及其在网络入侵检测中的应用
CN111144471B (zh) 一种检测方法、装置、设备及存储介质
CN115603955B (zh) 异常访问对象识别方法、装置、设备和介质
KR102357475B1 (ko) 개선된 gbtd 알고리즘을 이용한 에너지 절도 검출 시스템 및 방법
CN114861800A (zh) 模型训练方法、概率确定方法、装置、设备、介质及产品
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN110401639B (zh) 网络访问的异常判定方法、装置、服务器及其存储介质
CN112560992B (zh) 优化图片分类模型的方法、装置、电子设备及存储介质
CN113434790B (zh) 重复链接的识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant