CN107665164A - 安全数据检测方法和装置 - Google Patents

安全数据检测方法和装置 Download PDF

Info

Publication number
CN107665164A
CN107665164A CN201610617046.7A CN201610617046A CN107665164A CN 107665164 A CN107665164 A CN 107665164A CN 201610617046 A CN201610617046 A CN 201610617046A CN 107665164 A CN107665164 A CN 107665164A
Authority
CN
China
Prior art keywords
data
detection model
detected
detection
secure data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610617046.7A
Other languages
English (en)
Inventor
冯侦探
陈飞彦
白军辉
韦韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610617046.7A priority Critical patent/CN107665164A/zh
Publication of CN107665164A publication Critical patent/CN107665164A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请公开了安全数据检测方法和装置。所述方法的一具体实施方式包括:获取用户通过用户终端发送的待检测安全数据,所述待检测安全数据包括第一日志数据和/或第一可执行文件数据;对所述待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据;从预设的检测模型库中选取至少一个预先训练的检测模型;利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息;向所述用户终端输出所述检测结果信息。该实施方式避免了现有的数据检测中依赖人工对安全事件进行判断分析后才能给出检测结果的现象,显著地提高了数据检测的效率。

Description

安全数据检测方法和装置
技术领域
本申请涉及互联网安全技术领域,具体涉及信息安全技术领域,尤其涉及一种安全数据检测方法和装置。
背景技术
随着社会的进步和发展,人们所接触到的数据越来越多。数据检测技术可以有效地识别海量数据中的异常数据。对于关乎网络安全的数据,对其进行合理的检测可以识别网络中存在的漏洞或威胁,帮助用户及时改善网络环境。
现有的对网络安全的安全数据检测方法通常依靠人工在离线情况下对历史数据进行分析,不能实时地为用户提供数据的检测,从而导致数据检测效率低下。
发明内容
本申请的目的在于提出一种安全数据检测方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种安全数据检测方法,所述方法包括:获取用户通过用户终端发送的待检测安全数据,所述待检测安全数据包括第一日志数据和/或第一可执行文件数据;对所述待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据;从预设的检测模型库中选取至少一个预先训练的检测模型;利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息;向所述用户终端输出所述检测结果信息。
在一些实施例中,所述获取用户通过用户终端发送的待检测安全数据,包括:获取用户通过用户终端发送的检测模型配置信息,所述检测模型配置信息用于指示所述用户对所述待检测安全数据的检测目的。
在一些实施例中,所述从预设的检测模型库中选取至少一个检测模型,包括:对所述检测模型配置信息进行分析,确定检测所述待检测安全数据的至少一个检测模型以及所述至少一个检测模型中的各个检测模型在检测所述待检测安全数据时的时序关系。
在一些实施例中,所述利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息,包括:利用所确定的至少一个检测模型,基于所述时序关系,对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息。
在一些实施例中,所述方法还包括:从数据库获取第二日志数据和/或第二可执行文件数据;对所述第二日志数据进行格式转化,生成第二元数据;对所述第二可执行文件数据进行格式转化,生成第三元数据和第二源码数据。
在一些实施例中,所述方法还包括:利用以下至少一项:所述第二元数据、所述第三元数据、所述第二源码数据,对预设的算法库中各算法对应的检测模型进行训练;当训练的检测模型的误差小于预设阈值时,将所述训练的检测模型加入所述预设的检测模型库。
第二方面,本申请提供了一种安全数据检测装置,所述装置包括:第一获取单元,用于获取用户通过用户终端发送的待检测安全数据,所述待检测安全数据包括第一日志数据和/或第一可执行文件数据;第一格式转化单元,用于对所述待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据;模型选取单元,用于从预设的检测模型库中选取至少一个预先训练的检测模型;检测单元,用于利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息;输出单元,用于向所述用户终端输出所述检测结果信息。
在一些实施例中,所述第一获取单元进一步用于:获取用户通过用户终端发送的检测模型配置信息,所述检测模型配置信息用于指示所述用户对所述待检测安全数据的检测目的。
在一些实施例中,所述模型选取单元进一步用于:对所述检测模型配置信息进行分析,确定检测所述待检测安全数据的至少一个检测模型以及所述至少一个检测模型中的各个检测模型在检测所述待检测安全数据时的时序关系。
在一些实施例中,所述检测单元进一步用于:利用所确定的至少一个检测模型,基于所述时序关系,对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息。
在一些实施例中,所述装置还包括:第二获取单元,用于从数据库获取第二日志数据和/或第二可执行文件数据;第二格式转化单元,用于对所述第二日志数据进行格式转化,生成第二元数据;第三格式转化单元,用于对所述第二可执行文件数据进行格式转化,生成第三元数据和第二源码数据。
在一些实施例中,所述装置还包括:模型训练单元,用于利用以下至少一项:所述第二元数据、所述第三元数据、所述第二源码数据,对预设的算法库中各算法对应的检测模型进行训练;模型加入单元,用于当训练的检测模型的误差小于预设阈值时,将所述训练的检测模型加入所述预设的检测模型库。
本申请提供的安全数据检测方法和装置,通过获取用户发送的待检测安全数据,对待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据,然后利用检测模型对其进行检测,生成检测结果信息,并将结果实时返回给用户。避免了现有的数据检测中依赖人工对安全事件进行判断分析后才能给出检测结果的现象,显著地提高了数据检测的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的安全数据检测方法的一个实施例的流程图;
图3是根据本申请的安全数据检测方法的训练检测模型的一个实施例的流程图;
图4是根据本申请的安全数据检测方法的一个应用场景的示意图;
图5是根据本申请的安全数据检测装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的安全数据检测方法或数据检测装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上发送的数据进行检测的后台服务器。后台服务器可以对接收到的数据进行检测等处理,并将处理结果(例如检测结果信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的安全数据检测方法一般由服务器105执行,相应地,数据检测装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的安全数据检测方法的一个实施例的流程200。本实施例的安全数据检测方法,包括以下步骤:
步骤201,获取用户通过用户终端发送的待检测安全数据。
在本实施例中,安全数据检测方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用的终端接收待检测的安全数据,上述安全数据可以包括日志数据和可执行文件数据。其中,日志数据可以是防火墙日志、邮件拦截日志、Web应用防火墙(Web Application Firewall,WAF)拦截日志,恶意攻击事件日志等,这些日志数据通常以文本或者数据库的结构化数据进行记录。可执行文件数据可以是可移植的可执行的(Portable Executable,PE)文件(常见的EXE、DLL、OCX、SYS、COM都是PE文件,PE文件是微软Windows操作系统上的程序文件),JS(JavaScript)脚本,webshell(webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境)文件。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
在本实施例的一些可选的实现方式中,上述步骤201还包括图2中未示出的以下步骤:
获取用户通过用户终端发送的检测模型配置信息。
本实施例中,检测模型配置信息可以用于指示用户对上述待检测安全数据的检测目的。上述检测模型配置信息例如可以是:对WAF日志中的攻击请求按照攻击类型进行分类、对PE文件进行相似度聚类、对PE文件先按照文件类型进行分类再对每一个类别中的文件进行相似度聚类等。
本实施例中,执行上述安全数据检测方法的服务器可以接收用户对检测模型的配置信息,从而使得数据的检测更符合用户的需求,实现了用户对安全数据的自定义检测。
步骤202,对待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据。
本实施例中,对待检测安全数据进行格式转化可以是对安全处理进行规范化处理,例如统一提取日志数据中每个HTTP请求的日期、大小、来源终端的IP地址等信息进行提取;也可以对日志数据中的HTTP攻击请求的消息头、消息体、攻击类型等进行提取;也可以是对其进行元数据的转化,例如提取可执行文件数据的文件类型、文件大小、文件签名等属性信息。进行上述格式转化后,生成元数据。元数据可以是描述上述待检测安全数据的数据,例如对可执行文件数据的类型和大小进行描述。源码数据主要是针对可执行文件数据而言,由于可执行文件数据是由一些代码命令组成的,在进行格式转化后,还可以得到这些源代码组成的源码数据。
步骤203,从预设的检测模型库中选取至少一个预先训练的检测模型。
本实施例中,预设的检测模型库中包括多个预先训练的检测模型,这些检测模型可以由对应的算法进行训练得到,例如上述检测模型库中可以包括:分类模型、聚类模型等。其中,分类模型可以是由支持向量机(Support Vector Machine,SVM)算法、决策树算法或其它分类算法训练而得;聚类模型可以是由k最近邻(k-NearestNeighbor,kNN)算法或其它聚类算法训练而得。在选取检测模型可以选取一个或多个,对待检测的安全数据进行检测。
在本实施例的一些可选的实现方式中,上述步骤203还包括图2中未示出的以下步骤:
对检测模型配置信息进行分析,确定检测待检测安全数据的至少一个检测模型以及至少一个检测模型中的各个检测模型在检测待检测安全数据时的时序关系。
本实施例中,在接收了用户发送的检测模型配置信息后,可以对其进行分析,从而确定用户所需的检测模型的个数和类型。在检测上述待检测安全数据需要多个检测模型时,还可以确定各个检测模型在监测待检测安全数据时的时间先后顺序。例如,用户发送的检测模型配置信息为:对PE文件先按照文件类型进行分类再对每一个类别中的文件进行相似度聚类,经过分析可知,上述待检测安全数据需要两个检测模型,分别是分类器模型和聚类模型。二者的时序关系为分类器模型在先,聚类模型在后,并且聚类模型检测的数据为分类器模型分类后的待检测安全数据。
本实施例中,可以利用多个检测模型对待检测安全数据进行检测,从而丰富了检测技术,更能够满足用户的需求。
步骤204,利用所选取的检测模型对第一元数据和/或第一源码数据进行检测分析,生成与待检测安全数据对应的检测结果信息。
本实施例中,检测结果信息可以包括对待检测安全数据的分类结果、对待检测安全数据的相似度聚类结果。更具体的,例如待检测安全数据为防火墙日志数据,其中包括多个拦截的攻击请求,利用选取的分类模型可以对上述多个拦截的攻击请求进行分类,分类依据可以是:攻击类型、攻击来源、攻击方式等;又例如待检测安全数据为可执行文件数据,其中包括PE文件的头部信息、导入表信息、导出表信息,利用选取的分类器模型可以对这些可执行文件数据进行分类。
在本实施例的一些可选的实现方式中,在利用选取的至少一个检测模型对待检测安全数据进行检测时,可以首先提取元数据中的标识信息。上述标识信息用于表征此文件与其它文件的不同之处,对于日志数据,标识信息可以是发送请求的IP地址、攻击请求的类型、请求的消息头、请求的消息体、事件的类型等与网络相关的特征;对于可执行文件数据,标识信息可以是文件的特定字节的字符串等。
同样,在利用所选取的检测模型对上述数据进行检测时,也可以对上述提取的标识信息进行检测。
在本实施例的一些可选的实现方式中,上述步骤204还包括图2中未示出的以下步骤:
利用所确定的至少一个检测模型,基于时序关系,对第一元数据和/或第一源码数据进行检测分析,生成与待检测安全数据对应的检测结果信息。
本实施例中,当服务器接收了用户通过终端设备发送的检测模型配置信息后,可以对该信息进行分析,从而确定用户所需的检测模型以及各个检测模型的时序关系,在检测时就可以利用确定的检测模型和时序关系依次对经格式转化后得到的第一元数据和/或第一源码数据进行检测分析,得到分析结果信息。
步骤205,向用户终端输出检测结果信息。
本实施例中,在得到上述检测结果信息后,可以实时的返回给用户终端,从而能够使用户更快地得到检测结果。在一些情况下,例如检测结果为网站遭受的攻击的分类结果时,可以帮助用户及时的加强网站的防护。
本申请的上述实施例提供的安全数据检测方法,通过获取用户发送的待检测安全数据,对待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据,然后利用检测模型对其进行检测,生成检测结果信息,并将结果实时返回给用户。避免了现有的数据检测中依赖人工对安全事件进行判断分析后才能给出检测结果的现象,显著地提高了数据检测的效率。
继续参见图3,图3是根据本实施例的安全数据检测方法的训练检测模型的一个实施例的流程图300。本实施例的安全数据检测方法的训练检测模型流程包括以下步骤:
步骤301,从数据库获取第二日志数据和/或第二可执行文件数据。
本实施例中,执行上述安全数据检测方法的服务器还可以从与服务器相连的数据库获取日志数据和/或可执行文件数据。此处的日志数据以及可执行文件数据的类型与用户通过终端发送的日志数据以及可执行文件数据的类型可相同,也可以不相同。
步骤302,对第二日志数据进行格式转化,生成第二元数据。
步骤303,对第二可执行文件数据进行格式转化,生成第三元数据和第二源码数据。
本实施例中,与步骤202相同的是,对日志数据需进行格式转化处理,生成元数据。对可执行文件数据进行格式转化处理,生成元数据和源码数据。
在本实施例的一些可选的实现方式中,在对获取的上述日志数据和/或可执行文件数据进行格式转化后,还可以对格式转化后得到的元数据和/或源码数据进行存储。
在本实施例的一些可选的实现方式中,在存储上述元数据和/或源码数据时,可先对这些数据进行分类,将分类后得到的不同类别存储在不同的数据库中。
举例来说,当获取的为WAF日志数据时,对其进行格式转化后得到元数据。可以首先计算得到的元数据中威胁指标的值,此处,威胁指标可理解为对WAF所防护的网站存在威胁的各个参数,其可以包括:攻击频率、攻击次数、攻击源的个数等。在分类存储时,可以根据上述威胁指标的值对元数据进行存储,例如可以根据攻击源的个数,将来自同一攻击源的信息存储到一个类别中。
本实施例中,还可以对上述元数据进行关联分析,确定其内部的关联关系。以上述WAF日志数据为例,关联关系可以为同一个攻击源分别用什么攻击方式对网站进行攻击。或以PE文件为例,关联关系可以为,一个PE文件分别访问过哪些域名,释放了哪些文件等。对上述元数据进行关联分析,可以帮助用户(例如网站站长)发现网站的潜在的威胁或风险,从而能够制定相应的保护策略以保护网站。
本实施例中,在得到上述元数据中的关联关系后,还可以为这些关联关系设置检索属性信息,以方便检索查找。例如,对于WAF日志数据,可以对攻击的信息设置检索属性信息,其检索属性信息可以是攻击源的IP地址与攻击的网站域名的对应;对于PE文件,可以对其攻击的信息设置检索属性信息,其检索属性信息可以是攻击的事件和PE文件中的哈希串的对应。
本实施例中,可以将上述威胁指标、关联关系和检索属性信息分别存储,以方便检索和获取,提高工作效率。
步骤304,利用以下至少一项:第二元数据、第三元数据、第二源码数据,对预设的算法库中各算法对应的检测模型进行训练。
本实施例中,执行数据检测方法的服务器中可以预先存储一个算法库,此算法库中可以包括多个算法,例如分类算法、聚类算法、机器学习算法等等。每个算法的函数或公式都对应一个检测模型。可以利用格式转化后的第二元数据、第三元数据、第二源码数据中的至少一项对上述检测模型进行训练。
在本实施例的一些可选的实现方式中,在利用上述数据对检测模型进行训练时,可以选取第二元数据、第三元数据、第二源码数据中的一部分用于训练检测模型。例如在训练分类模型时,可以选取一部分正例数据和反例数据,正例数据可以是WAF日志数据中的非攻击请求,反例数据可以是WAF日志数据中拦截的攻击请求;正例数据还可以是PE文件数据中的非攻击文件,反例数据还可以是PE文件数据中的攻击文件。
在本实施例的一些可选的实现方式中,执行安全数据检测方法的服务器可以选取经过分类存储的数据对训练的检测模型进行训练。例如,上述分类存储的数据中包括攻击请求的信息和非攻击请求的信息,服务器可以选取上述攻击请求的信息和非攻击请求的信息对检测模型进行训练。
在本实施例的一些可选的实现方式中,服务器还可以利用上述分类存储的数据中的一个类别中的一部分训练检测模型。
步骤305,当训练的检测模型的误差小于预设阈值时,将训练的检测模型加入预设的检测模型库。
本实施例中,用于执行安全数据检测方法的服务器可以对训练的检测模型的误差进行验证。例如可以利用上述选取的正例数据和反例数据对训练的检测模型进行验证,也可以利用选取的数据中的一部分对其进行验证。具体来说,可以选取10000个正例数据和10000个反例数据,将正例数据和反例数据分别分成10份,利用9份正例数据和9份反例数据训练检测模型,利用剩余的1份正例数据和1份反例数据验证训练的检测模型的误差。当上述误差小于预设阈值时,认为上述训练的检测模型为有效的检测模型,可以将其加入到预设的检测模型库中,以供用户在检测安全数据时进行选择。
可以理解的是,服务器在接收用户通过终端发送的待检测安全数据后,也可以将这些待检测安全数据存储在本地,以用于对检测模型的训练或验证。
在本实施例的一些可选的实现方式中,上述方法还包括图3中未示出的以下步骤:
接收用户发送的对上述检测结果信息的反馈信息,以确定上述检测结果信息是否满足预设条件,并且在不满足预设条件时,更新上述所选取的检测模型。
本实施例中,用户在接收到上述检测结果信息后,可以对检测结果信息进行评价,并返回反馈信息。上述反馈信息中可以包括对检测结果准确性的评价,此评价可以是以打分的形式表现。服务器在接收到此反馈信息后,对其进行分析,确定准确性的分值低于预设分值时,可以认定所选取的检测模型的效果不好,对其进行更新。
在更新上述检测模型时,可以重新选取数据对所选取的检测模型进行训练,并且减小对误差的预设阈值,以提高重新训练的检测模型的准确性。例如用户当前反馈的检测模型的误差阈值为5%,在对此检测模型进行重新训练时,可以将误差阈值减小至3%,从而提高了重新训练的检测模型的准确性。并利用此重新训练的且满足新的误差阈值的检测模型替换原检测模型。
可以理解的是,服务器还可以对检测模型库中的检测模型进行删除操作,以去除准确性低的检测模型。
进一步参考图4,示出了本实施例的安全数据检测方法的应用场景的示意图。在图4所示的应用场景中,用户401通过终端402发送待检测安全数据,服务器403在接收到上述待检测安全数据后,一方面可以对这些数据进行格式转化,生成元数据或源码数据,另一方面可以将这些数据存储到数据库404中。同时,从检测模型库405中选取至少一个预先训练的检测模型,来检测元数据或源码数据,生成检测结果信息,然后将检测结果信息返回给用户401所使用的终端402。同时服务器403还可以从数据库404中获取日志数据或可执行文件数据,并利用这些数据来训练检测模型,当判断训练的检测模型的误差小于预设阈值时,将训练的检测模型加入检测模型库405,以供服务器403在检测用户401发送的待检测安全数据时选择检测模型。
从图3中可以看出,与图2对应的实施例相比,本实施例中的安全数据检测方法的流程300突出了服务器利用日志数据或可执行文件数据训练检测模型的步骤。由此,本申请的上述实施例提供的安全数据检测方法,可以利用数据库中存储的日志数据或可执行文件数据来训练检测模型,以为检测安全数据提供全面准确的检测模型;同时数据库可以接收用户的反馈信息,并根据这些反馈信息对检测模型进行更新,提高了数据检测的准确性;并且,数据库可以在为检测用户发送的待检测安全数据的同时对检测模型进行训练,二者互不耽误,大大提高了服务器的工作效率。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种安全数据检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于服务器中。
如图5所示,本实施例的安全数据检测装置500包括:第一获取单元501、第一格式转化单元502、模型选取单元503、检测单元504和输出单元505。
第一获取单元501,用于获取用户通过用户终端发送的待检测安全数据。
上述待检测安全数据包括第一日志数据和/或第一可执行文件数据。其中,日志数据可以是防火墙日志、邮件拦截日志、Web应用防火墙(Web Application Firewall,WAF)拦截日志,恶意攻击事件日志等,这些日志数据通常以文本或者数据库的结构化数据进行记录。可执行文件数据可以是可移植的可执行的(Portable Executable,PE)文件(常见的EXE、DLL、OCX、SYS、COM都是PE文件,PE文件是微软Windows操作系统上的程序文件),JS(JavaScript)脚本,webshell(webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境)文件。
在本实施例的一些可选的实现方式中,上述第一获取单元501还可以进一步用于:
获取用户通过用户终端发送的检测模型配置信息。
其中,检测模型配置信息用于指示用户对待检测安全数据的检测目的。
第一格式转化单元502,用于对第一获取单元501获取的待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据。
模型选取单元503,用于从预设的检测模型库中选取至少一个预先训练的检测模型。
在本实施例的一些可选的实现方式中,上述模型选取单元503还可以进一步用于:
对检测模型配置信息进行分析,确定检测待检测安全数据的至少一个检测模型以及上述至少一个检测模型中的各个检测模型在检测待检测安全数据时的时序关系。
检测单元504,用于利用模型选取单元503所选取的检测模型对第一格式转化单元502生成的第一元数据和/或第一源码数据进行检测分析,生成与待检测安全数据对应的检测结果信息。
在本实施例的一些可选的实现方式中,上述检测单元504还可以进一步用于:
利用所确定的至少一个检测模型,基于时序关系,对第一元数据和/或第一源码数据进行检测分析,生成与待检测安全数据对应的检测结果信息。
输出单元505,用于向用户终端输出检测单元504生成的检测结果信息。
在本实施例的一些可选的实现方式中,上述安全数据检测装置500还可以包括图5中未示出的第二获取单元、第二格式转化单元和第三格式转化单元。
其中,第二获取单元,用于从数据库获取第二日志数据和/或第二可执行文件数据。
第二格式转化单元,用于对第二获取单元获取的第二日志数据进行格式转化,生成第二元数据。
第三格式转化单元,用于对第二获取单元获取的第二可执行文件数据进行格式转化,生成第三元数据和第二源码数据。
在本实施例的一些可选的实现方式中,上述安全数据检测装置500还可以包括图5中未示出的模型训练单元和模型加入单元。
其中,模型训练单元,用于利用以下至少一项:第二元数据、第三元数据、第二源码数据,对预设的算法库中各算法对应的检测模型进行训练。
模型加入单元,用于当训练的检测模型的误差小于预设阈值时,将训练的检测模型加入预设的检测模型库。
本申请的上述实施例提供的安全数据检测装置,通过第一获取单元获取用户发送的待检测安全数据,利用第一格式转化单元对待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据,然后检测单元利用检测模型对其进行检测,生成检测结果信息,输出单元将结果实时返回给用户。避免了现有的数据检测中依赖人工对安全事件进行判断分析后才能给出检测结果的现象,显著地提高了数据检测的效率。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的
程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、第一格式转化单元、模型选取单元、检测单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取用户通过用户终端发送的待检测安全数据的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取用户通过用户终端发送的待检测安全数据,所述待检测安全数据包括第一日志数据和/或第一可执行文件数据;对所述待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据;从预设的检测模型库中选取至少一个预先训练的检测模型;利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息;向所述用户终端输出所述检测结果信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种安全数据检测方法,其特征在于,所述方法包括:
获取用户通过用户终端发送的待检测安全数据,所述待检测安全数据包括第一日志数据和/或第一可执行文件数据;
对所述待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据;
从预设的检测模型库中选取至少一个预先训练的检测模型;
利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息;
向所述用户终端输出所述检测结果信息。
2.根据权利要求1所述的方法,其特征在于,所述获取用户通过用户终端发送的待检测安全数据,包括:
获取用户通过用户终端发送的检测模型配置信息,所述检测模型配置信息用于指示所述用户对所述待检测安全数据的检测目的。
3.根据权利要求2所述的方法,其特征在于,所述从预设的检测模型库中选取至少一个检测模型,包括:
对所述检测模型配置信息进行分析,确定检测所述待检测安全数据的至少一个检测模型以及所述至少一个检测模型中的各个检测模型在检测所述待检测安全数据时的时序关系。
4.根据权利要求3所述的方法,其特征在于,所述利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息,包括:
利用所确定的至少一个检测模型,基于所述时序关系,对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从数据库获取第二日志数据和/或第二可执行文件数据;
对所述第二日志数据进行格式转化,生成第二元数据;
对所述第二可执行文件数据进行格式转化,生成第三元数据和第二源码数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
利用以下至少一项:所述第二元数据、所述第三元数据、所述第二源码数据,对预设的算法库中各算法对应的检测模型进行训练;
当训练的检测模型的误差小于预设阈值时,将所述训练的检测模型加入所述预设的检测模型库。
7.一种安全数据检测装置,其特征在于,所述装置包括:
第一获取单元,用于获取用户通过用户终端发送的待检测安全数据,所述待检测安全数据包括第一日志数据和/或第一可执行文件数据;
第一格式转化单元,用于对所述待检测安全数据进行格式转化,生成第一元数据和/或第一源码数据;
模型选取单元,用于从预设的检测模型库中选取至少一个预先训练的检测模型;
检测单元,用于利用所选取的检测模型对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息;
输出单元,用于向所述用户终端输出所述检测结果信息。
8.根据权利要求7所述的装置,其特征在于,所述第一获取单元进一步用于:
获取用户通过用户终端发送的检测模型配置信息,所述检测模型配置信息用于指示所述用户对所述待检测安全数据的检测目的。
9.根据权利要求8所述的装置,其特征在于,所述模型选取单元进一步用于:
对所述检测模型配置信息进行分析,确定检测所述待检测安全数据的至少一个检测模型以及所述至少一个检测模型中的各个检测模型在检测所述待检测安全数据时的时序关系。
10.根据权利要求9所述的装置,其特征在于,所述检测单元进一步用于:
利用所确定的至少一个检测模型,基于所述时序关系,对所述第一元数据和/或所述第一源码数据进行检测分析,生成与所述待检测安全数据对应的检测结果信息。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于从数据库获取第二日志数据和/或第二可执行文件数据;
第二格式转化单元,用于对所述第二日志数据进行格式转化,生成第二元数据;
第三格式转化单元,用于对所述第二可执行文件数据进行格式转化,生成第三元数据和第二源码数据。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
模型训练单元,用于利用以下至少一项:所述第二元数据、所述第三元数据、所述第二源码数据,对预设的算法库中各算法对应的检测模型进行训练;
模型加入单元,用于当训练的检测模型的误差小于预设阈值时,将所述训练的检测模型加入所述预设的检测模型库。
CN201610617046.7A 2016-07-29 2016-07-29 安全数据检测方法和装置 Pending CN107665164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610617046.7A CN107665164A (zh) 2016-07-29 2016-07-29 安全数据检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610617046.7A CN107665164A (zh) 2016-07-29 2016-07-29 安全数据检测方法和装置

Publications (1)

Publication Number Publication Date
CN107665164A true CN107665164A (zh) 2018-02-06

Family

ID=61114462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610617046.7A Pending CN107665164A (zh) 2016-07-29 2016-07-29 安全数据检测方法和装置

Country Status (1)

Country Link
CN (1) CN107665164A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598513A (zh) * 2018-11-22 2019-04-09 阿里巴巴集团控股有限公司 一种风险识别方法和装置
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统
CN110210512A (zh) * 2019-04-19 2019-09-06 北京亿阳信通科技有限公司 一种自动化日志异常检测方法及系统
CN111865998A (zh) * 2020-07-24 2020-10-30 广西科技大学 网络安全区登录方法及装置
CN113780580A (zh) * 2021-09-09 2021-12-10 平安银行股份有限公司 基于机器学习的数据分析方法、装置、设备及存储介质
CN114430348A (zh) * 2022-02-07 2022-05-03 云盾智慧安全科技有限公司 一种web网站搜索引擎优化后门识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7979907B2 (en) * 2001-07-30 2011-07-12 The Trustees Of Columbia University In The City Of New York Systems and methods for detection of new malicious executables
CN104881483A (zh) * 2015-06-05 2015-09-02 南京大学 用于Hadoop平台数据泄露攻击的自动检测取证方法
CN104933363A (zh) * 2015-06-19 2015-09-23 安一恒通(北京)科技有限公司 检测恶意文件的方法和装置
CN105554007A (zh) * 2015-12-25 2016-05-04 北京奇虎科技有限公司 一种web异常检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7979907B2 (en) * 2001-07-30 2011-07-12 The Trustees Of Columbia University In The City Of New York Systems and methods for detection of new malicious executables
CN104881483A (zh) * 2015-06-05 2015-09-02 南京大学 用于Hadoop平台数据泄露攻击的自动检测取证方法
CN104933363A (zh) * 2015-06-19 2015-09-23 安一恒通(北京)科技有限公司 检测恶意文件的方法和装置
CN105554007A (zh) * 2015-12-25 2016-05-04 北京奇虎科技有限公司 一种web异常检测方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598513A (zh) * 2018-11-22 2019-04-09 阿里巴巴集团控股有限公司 一种风险识别方法和装置
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统
CN109960729B (zh) * 2019-03-28 2022-01-18 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统
CN110210512A (zh) * 2019-04-19 2019-09-06 北京亿阳信通科技有限公司 一种自动化日志异常检测方法及系统
CN110210512B (zh) * 2019-04-19 2024-03-26 北京亿阳信通科技有限公司 一种自动化日志异常检测方法及系统
CN111865998A (zh) * 2020-07-24 2020-10-30 广西科技大学 网络安全区登录方法及装置
CN113780580A (zh) * 2021-09-09 2021-12-10 平安银行股份有限公司 基于机器学习的数据分析方法、装置、设备及存储介质
CN113780580B (zh) * 2021-09-09 2024-04-19 平安银行股份有限公司 基于机器学习的数据分析方法、装置、设备及存储介质
CN114430348A (zh) * 2022-02-07 2022-05-03 云盾智慧安全科技有限公司 一种web网站搜索引擎优化后门识别方法及装置
CN114430348B (zh) * 2022-02-07 2023-12-05 云盾智慧安全科技有限公司 一种web网站搜索引擎优化后门识别方法及装置

Similar Documents

Publication Publication Date Title
CN105516113B (zh) 用于自动网络钓鱼检测规则演进的系统和方法
CN107665164A (zh) 安全数据检测方法和装置
Ceschin et al. The need for speed: An analysis of brazilian malware classifiers
Lin et al. Using federated learning on malware classification
CN107659570A (zh) 基于机器学习与动静态分析的Webshell检测方法及系统
US20130067572A1 (en) Security event monitoring device, method, and program
CN107247902A (zh) 恶意软件分类系统及方法
CN106779278A (zh) 资产信息的评价系统及其信息的处理方法和装置
CN111953697A (zh) 一种apt攻击识别及防御方法
CN113098887A (zh) 一种基于网站联合特征的钓鱼网站检测方法
CN114036059A (zh) 面向电网系统的自动化渗透测试系统、方法和计算机设备
CN107644161A (zh) 样本的安全测试方法、装置和设备
CN116996286A (zh) 一种基于大数据分析的网络攻击和安全漏洞治理框架平台
CN110598397A (zh) 一种基于深度学习的Unix系统用户恶意操作检测方法
CN107085684A (zh) 程序特征的检测方法和装置
US20240054210A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
US11321453B2 (en) Method and system for detecting and classifying malware based on families
CN115134159B (zh) 一种安全告警分析优化方法
CN110472416A (zh) 一种网页恶意代码检测方法及相关装置
CN111181756B (zh) 一种域名安全性判定方法、装置、设备及介质
Zhu et al. Bs-net: A behavior sequence network for insider threat detection
Bie et al. Malicious mining behavior detection system of encrypted digital currency based on machine learning
Zhang et al. An automatic approach for scoring vulnerabilities in risk assessment
Kumra et al. Intrusion Detection System Based on Data Mining Techniques
Sharma Efficient log analysis using advanced detection and filtering techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180206

RJ01 Rejection of invention patent application after publication