CN110580408B - 一种数据处理方法及电子设备 - Google Patents

一种数据处理方法及电子设备 Download PDF

Info

Publication number
CN110580408B
CN110580408B CN201910886848.1A CN201910886848A CN110580408B CN 110580408 B CN110580408 B CN 110580408B CN 201910886848 A CN201910886848 A CN 201910886848A CN 110580408 B CN110580408 B CN 110580408B
Authority
CN
China
Prior art keywords
feature
rule
data
feature set
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910886848.1A
Other languages
English (en)
Other versions
CN110580408A (zh
Inventor
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN201910886848.1A priority Critical patent/CN110580408B/zh
Publication of CN110580408A publication Critical patent/CN110580408A/zh
Application granted granted Critical
Publication of CN110580408B publication Critical patent/CN110580408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法,包括:处理学习样本形成第一特征集合,所述第一特征集合包含所述学习样本中各特征数据的实际功用及分词字段;处理所述第一特征集合形成多个不同的规则组,其中,每个所述规则组均包括至少一个分词字段,所述至少一个分词字段用于确定所述规则组具有导致设备产生唯一危险结果的规则;基于所述规则组建立用于识别网络病毒数据的数据库。本发明实施例的数据处理方法,用于形成能够自动识别网络数据流中病毒数据的数据库,有效避免了识别过程中的人为操作,增加了病毒数据识别检测标准的可控性及统一性。

Description

一种数据处理方法及电子设备
技术领域
本发明实施例涉及智能设备领域,特别涉及一种数据处理方法及电子设备。
背景技术
随着互联网以及移动互联网的快速发展,政府、企业越来越多的通过互联网信息系统向公众和用户提供服务,这些互联网信息系统为政府、企业、公众和用户带来便利的同时也成为了国际国内各种黑客组织实施攻击的目标。而这其中木马程序和蠕虫程序就是最主要的攻击手段。而对于木马和蠕虫的检测手段主要分为网络内容检测和终端文件检测。其中网络内容检测,主要是基于僵木蠕的特征关键字,并结合网络协议和网络应用的分析完成的的检测手段。而在现在的实践条件下,对于木马和蠕虫程序的网络特征库中实现特征的提取一般都需要人工通过对于已有的木马和蠕虫样本进行网络流量进行分析,然后人工提出特征,再形成一规则而下发到检测设备中。其中,特征提取主要基于僵木蠕网络行为的相似性进行提取,因此,人工提取质量完全依赖于工程师对于僵木蠕网络行为相似性的熟悉程度和相关协议的理解程度,故使得病毒数据的检测质量具有一定的不可控性。
发明内容
本发明实施例提供了一种数据处理方法,用于形成能够自动识别网络数据流中病毒数据的数据库,同时提供一种应用该方法的电子设备。
为了解决上述技术问题,本发明实施例提供了一种数据处理方法,其特征在于,包括:
处理学习样本形成第一特征集合,所述第一特征集合包含所述学习样本中各特征数据的实际功用及分词字段;
处理所述第一特征集合形成多个不同的规则组,其中,每个所述规则组均包括至少一个分词字段,所述至少一个分词字段用于确定所述规则组具有导致设备产生唯一危险结果的规则;
基于所述规则组建立用于识别网络病毒数据的数据库。
作为优选,所述处理学习样本形成第一特征集合包括:
获得学习样本的第二特征集合,所述第二特征集合包含所述学习样本中各特征数据的实际功用及至少与所述实际功用匹配的特征字段;
基于所述第二特征集合确定第一特征集合。
作为优选,所述基于所述第二特征集合确定所述第一特征集合包括:
基于所述第二特征集合确定所述学习样本中特征字段的分隔方法;
基于所述分隔方法确定所述第一特征集合。
作为优选,所述处理所述第一特征集合形成多个不同的规则组包括:
基于递归匹配算法及预设的学习深度处理所述第一特征集合形成多个不同的规则组,其中,所述学习深度用于表征形成的每个规则组中所包含的特征字段的数量。
作为优选,所述基于递归匹配算法及预设的学习深度处理所述第一特征集合形成多个不同的规则组包括:
将所述第一特征集合和第二特征集合中的数据进行匹配;
基于匹配结果以及预设的学习深度形成多个不同的规则组。
作为优选,还包括:
预先确定所述学习样本中各特征数据所属的网络系统攻击类别、应对策略以及不良影响。
作为优选,还包括:
根据预设分类算法以及预先确定的所述网络系统攻击类别、不良影响及应对策略确定所述每个规则组的攻击类别、不良影响以及应对策略。
作为优选,所述预设分类算法至少包括朴素贝叶斯分类算法。
作为优选,所述基于所述规则组建立用于识别网络病毒数据的数据库包括:
基于所述规则组及每个规则组的攻击类别、不良影响以及应对策略建立用于识别网络病毒数据的数据库。
本发明实施例同时提供一种电子设备,包括:
处理装置,其用于处理学习样本形成第一特征集合,所述第一特征集合包含所述学习样本中各特征数据的实际功用及分词字段;处理所述第一特征集合形成多个不同的规则组,其中,每个所述规则组均包括至少一个分词字段,所述至少一个分词字段用于确定所述规则组具有导致唯一危险结果的规则;确定每个规则组对网络系统的攻击类别;基于所述规则组及对应的攻击类别建立用于识别网络病毒数据的数据库。
基于上述实施例的公开可以获知,本发明实施例具备的有益效果在于能够建立一个可自动识别网络数据流中的病毒数据的数据库,识别过程无需人工参与,提高了病毒数据检测质量及标准的可控性及统一性。
附图说明
图1为本发明实施例中的数据处理方法的流程图。
图2为本发明另一实施例中的数据处理方法的流程图。
图3为本发明实施例中的电子设备的结构框图。
具体实施方式
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本发明实施例。
如图1所示,本发明实施例提供一种数据处理方法,包括:
处理学习样本形成第一特征集合,第一特征集合包含学习样本中各特征数据的实际功用及分词字段;
处理第一特征集合形成多个不同的规则组,其中,每个规则组均包括至少一个分词字段,至少一个分词字段用于确定规则组具有导致设备产生唯一危险结果的规则;
基于规则组建立用于识别网络病毒数据的数据库。
例如,系统接到一学习样本,该学习样本可为网络信道中的一段数据流,系统可对该数据流进行处理得到包含学习样本中各特征数据的实际功用及对应的分词字段的第一特征集合,例如包含mail、windows、https、baidu等分词字段,其对应的实际功用分别为邮件、操作系统、网络访问、搜索引擎等,也即,将数据流中具有实际功用的词划分出来。接着,系统处理该第一特征集合形成多个不同的规则组,该规则组内均包括至少一个分词字段,而该至少一个分词字段能够确定该规则组具有导致唯一危险结果的规则,也就是倘若数据流中具有该规则组中的全部全部分词字段,那么就表明该数据流中具有病毒A,可导致系统发生危险结果A。但是,若仅有该规则组中的部分分词字段,那么就不一定会产生该危险结果A。也即,每个规则组均有一唯一的固定的规则,该规则即为系统会产生一固定的危险结果,如宕机,系统瘫痪等。最后,基于该确定的各个规则组建立用于识别网络病毒数据的数据库。
通过建立该数据库使得使用该数据库的电子设备在与云端通信时,数据流可以实时被自动检测是否有无病毒数据,全程无需人为参与,提高了病毒数据检测质量及标准的可控性及统一性,相比现有技术中均由人为操作来提取数据流特征并进行病毒识别的过程,可靠性更高,不会出现同一病毒数据时而识别出,时而识别不出的现象发生。
进一步地,如图2所示,本实施例中在执行处理学习样本形成第一特征集合时包括:
获得学习样本的第二特征集合,第二特征集合包含学习样本中各特征数据的实际功用及至少与实际功用匹配的特征字段;
基于第二特征集合确定第一特征集合。
例如,学习样本中的病毒数据包括僵尸、木马、蠕虫病毒的特征数据,该第二特征集合是自现有技术中已经存在的存储有关于僵尸、木马、蠕虫病毒的特征数据的特征库中获得的关于各特征数据的实际功用及至少与该实际功用相匹配的特征字段,其中,该特征字段可为表征上述病毒数据的关键字,故该特征字段或与上述的分词字段相同,或为上述分词字段的一部分,系统可基于该特征字段确定对应该特征字段的实际功用的分词字段,进而得到第一特征集合。
进一步地,本实施例中在执行基于第二特征集合确定第一特征集合时包括:
基于第二特征集合确定学习样本中特征字段的分隔方法;
基于分隔方法确定第一特征集合。
例如,具体操作时,可基于第二特征集合中的特征字段的分隔方法/划分方法,如基于特征字段确定出其是通过分隔符来确定的,故系统便可根据分隔符及特征字段来共同确定特征字段的分隔、划分、提取方法,并基于该方法实现分词字段的分隔、划分、提取,从而完成第一特征集合的确定。
进一步地,本实施例中在执行处理第一特征集合形成多个不同的规则组时包括:
基于递归匹配算法及预设的学习深度处理第一特征集合形成多个不同的规则组,其中,学习深度用于表征形成的每个规则组中所包含的特征字段的数量。
例如,根据上文所述的现有技术中的特征库中的各个特征数据,按照实际功用+分词字段的匹配方式进行重排,获取实际功用+分词字段的特征组,基于该特征组对于样本进行递归分析,最终得到多个分别具有不同规则的规则组。
具体地,本实施例中在执行基于递归匹配算法及预设的学习深度处理第一特征集合形成多个不同的规则组时包括:
将第一特征集合和第二特征集合中的数据进行匹配;
基于匹配结果以及预设的学习深度形成多个不同的规则组。
例如,将第一特征集合中的实际功用+特征字段与第二特征集合的实际功用+分词字段进行特征匹配,如此便可至少得到,具有多个不同的特征字段与同一分词字段相匹配,而该多个特征字段便可组合形成一特征组,而且还可得到其他特征组,例如分词字段预先形成一组合,对应该分词字段的所有特征字段形成一特征组。实际操作时系统可预先设定一个学习深度,学习深度表明学习后每一个规则组包含的(实际功用+特征字段)的特征组的数量。实际学习方式为基于第二特征集合按照递归算法将包含至少一个实际功用+特征字段的特征组匹配第一特征集合中进行分词计算后的分词结果,即实际功用+分词字段,获取学习深度d数量的特征组之后,马上记录下这一系列特征组,作为一个规则组,一个规则组中至少包含一个分词字段,每个分词字段均包含至少具有一个特征字段的特征组。具体表现形式为规则组A={A1,A2,A3,……,Ak}。Ak代表包含数量为d的(实际功用+特征字段)的特征组。此时,规则组中的规则未实际确定,可通过下述步骤进行确定,也可预先确定,即规则组的建立过程是基于上述步骤以及对应特征组的攻击类别而共同确定的,而特征组的攻击类别可基于历史数据得到。另外,在递归计算中,学习深度值越大,规则组生成数量越少,对应的规则误报率越低,反之,学习深度值越大,规则组生成数量越少,对应的规则误报率越高。
进一步地,本实施例中还包括:
预先确定学习样本中各特征数据所属的网络系统攻击类别、应对策略以及不良影响。
根据预设分类算法以及预先确定的网络系统攻击类别、不良影响及应对策略确定每个规则组的攻击类别、不良影响以及应对策略。
例如,本实施例中的预设分类算法至少包括朴素贝叶斯分类算法。具体地,系统需要对前面计算得到的规则组A={A1,A2,A3,……,Ak}进行分类处理。分类的标准是基于预先确定的学习样本中的各特征数据所属的网络系统攻击类别、应对策略以及不良影响而定,相当于根据预先确定的网络病毒类别而定。该部分关于类别的数据内容可根据历史数据或现有技术中已经存在的,即前文所提的数据库中获取。具体处理过程包括基于朴素贝叶斯公式确定出特征组在已经确定的某个网络病毒类别对应的特征数据的匹配程度,或者确定出某网络病毒出现时,对应的该数据流中出现该特征组的次数、频率,基于该批匹配程度、频率等数据确定出该特征字段或特征组应属于该网络病毒类别,最后再基于所有特征组的所属类别重新整合规则组,进而确定出与规则组匹配的规则,即确定出规则组对应的网络病毒类别,当数据流中出现该规则组中的全部特征组,便会使得该数据流具有导致网络系统或电子设备中特定病毒的现象。其中,当确定好各规则组对应的网络病毒类别后,随之而确定的即为对应该网络病毒的应对策略及该病毒将会产生的不良影响,即前文所述的危险结果。
进一步地,本实施例中在基于规则组建立用于识别网络病毒数据的数据库包括:
基于规则组及每个规则组的攻击类别、不良影响以及应对策略建立用于识别网络病毒数据的数据库。
也即,根据规则组及对应的网络病毒类别相关数据建立数据库,使得该数据库可自动识别网络数据流中的病毒数据,并可确定出其攻击类别,将会对网络及设备产生的不良影响以及应对策略。过程快捷且检测质量高,统一性好,有效避免因人工识别提取病毒数据时因个人能力及对于检测标准的不确定性,提高检测结果的客观概率。
如图3所示,本发明实施例同时提供一种电子设备,包括:
处理装置,其用于处理学习样本形成第一特征集合,第一特征集合包含学习样本中各特征数据的实际功用及分词字段;处理第一特征集合形成多个不同的规则组,其中,每个规则组均包括至少一个分词字段,至少一个分词字段用于确定规则组具有导致唯一危险结果的规则;基于规则组建立用于识别网络病毒数据的数据库。
例如,处理器接到一学习样本,该学习样本可为网络信道中的一段数据流,处理器可对该数据流进行处理得到包含学习样本中各特征数据的实际功用及对应的分词字段的第一特征集合,例如包含mail、windows、https、baidu等分词字段,其对应的实际功用分别为邮件、操作处理器、网络访问、搜索引擎等,也即,将数据流中具有实际功用的词划分出来。接着,处理器处理该第一特征集合形成多个不同的规则组,该规则组内均包括至少一个分词字段,而该至少一个分词字段能够确定该规则组具有导致唯一危险结果的规则,也就是倘若数据流中具有该规则组中的全部全部分词字段,那么就表明该数据流中具有病毒A,可导致处理器发生危险结果A。但是,若仅有该规则组中的部分分词字段,那么就不一定会产生该危险结果A。也即,每个规则组均有一唯一的固定的规则,该规则即为处理器会产生一固定的危险结果,如宕机,处理器瘫痪等。最后,基于该确定的各个规则组建立用于识别网络病毒数据的数据库。
通过建立该数据库使得使用该数据库的电子设备在与云端通信时,数据流可以实时被自动检测是否有无病毒数据,全程无需人为参与,提高了病毒数据检测质量的可控性及统一性,相比现有技术中均由人为操作来提取数据流特征并进行病毒识别的过程,可靠性更高,不会出现同一病毒数据时而识别出,时而识别不出的现象发生。
进一步地,本实施例中处理器在执行处理学习样本形成第一特征集合时包括:
获得学习样本的第二特征集合,第二特征集合包含学习样本中各特征数据的实际功用及至少与实际功用匹配的特征字段;
基于第二特征集合确定第一特征集合。
例如,学习样本中的病毒数据包括僵尸、木马、蠕虫病毒的特征数据,该第二特征集合是自现有技术中已经存在的存储有关于僵尸、木马、蠕虫病毒的特征数据的特征库中获得的关于各特征数据的实际功用及至少与该实际功用相匹配的特征字段,其中,该特征字段可为表征上述病毒数据的关键字,故该特征字段或与上述的分词字段相同,或为上述分词字段的一部分,处理器可基于该特征字段确定对应该特征字段的实际功用的分词字段,进而得到第一特征集合。
进一步地,本实施例中在执行基于第二特征集合确定第一特征集合时包括:
基于第二特征集合确定学习样本中特征字段的分隔方法;
基于分隔方法确定第一特征集合。
例如,具体操作时,可基于第二特征集合中的特征字段的分隔方法/划分方法,如基于特征字段确定出其是通过分隔符来确定的,故处理器便可根据分隔符及特征字段来共同确定特征字段的分隔、划分、提取方法,并基于该方法实现分词字段的分隔、划分、提取,从而完成第一特征集合的确定。
进一步地,本实施例中的处理器在执行处理第一特征集合形成多个不同的规则组时包括:
基于递归匹配算法及预设的学习深度处理第一特征集合形成多个不同的规则组,其中,学习深度用于表征形成的每个规则组中所包含的特征字段的数量。
例如,根据上文所述的现有技术中的特征库中的各个特征数据,按照实际功用+分词字段的匹配方式进行重排,获取实际功用+分词字段的特征组,基于该特征组对于样本进行递归分析,最终得到多个分别具有不同规则的规则组。
具体地,本实施例中处理器在执行基于递归匹配算法及预设的学习深度处理第一特征集合形成多个不同的规则组时包括:
将第一特征集合和第二特征集合中的数据进行匹配;
基于匹配结果以及预设的学习深度形成多个不同的规则组。
例如,将第一特征集合中的实际功用+特征字段与第二特征集合的实际功用+分词字段进行特征匹配,如此便可至少得到,具有多个不同的特征字段与同一分词字段相匹配,而该多个特征字段便可组合形成一特征组,而且还可得到其他特征组,例如分词字段预先形成一组合,对应该分词字段的所有特征字段形成一特征组。实际操作时处理器可预先设定一个学习深度,学习深度表明学习后每一个规则组包含的(实际功用+特征字段)的特征组的数量。实际学习方式为基于第二特征集合按照递归算法将包含至少一个实际功用+特征字段的特征组匹配第一特征集合中进行分词计算后的分词结果,即实际功用+分词字段,获取学习深度d数量的特征组之后,马上记录下这一系列特征组,作为一个规则组,一个规则组中至少包含一个分词字段,每个分词字段均包含至少具有一个特征字段的特征组。具体表现形式为规则组A={A1,A2,A3,……,Ak}。Ak代表包含数量为d的(实际功用+特征字段)的特征组。此时,规则组中的规则未实际确定,可通过下述步骤进行确定,也可预先确定,即规则组的建立过程是基于上述步骤以及对应特征组的攻击类别而共同确定的,而特征组的攻击类别可基于历史数据得到。另外,在递归计算中,学习深度值越大,规则组生成数量越少,对应的规则误报率越低,反之,学习深度值越大,规则组生成数量越少,对应的规则误报率越高。
进一步地,本实施例中处理器还用于:
预先确定学习样本中各特征数据所属的网络处理器攻击类别、应对策略以及不良影响。
根据预设分类算法以及预先确定的网络处理器攻击类别、不良影响及应对策略确定每个规则组的攻击类别、不良影响以及应对策略。
例如,本实施例中的预设分类算法至少包括朴素贝叶斯分类算法。具体地,处理器需要对前面计算得到的规则组A={A1,A2,A3,……,Ak}进行分类处理。分类的标准是基于预先确定的学习样本中的各特征数据所属的网络处理器攻击类别、应对策略以及不良影响而定,相当于根据预先确定的网络病毒类别而定。该部分关于类别的数据内容可根据历史数据或现有技术中已经存在的,即前文所提的数据库中获取。具体处理过程包括基于朴素贝叶斯公式确定出特征组在已经确定的某个网络病毒类别对应的特征数据的匹配程度,或者确定出某网络病毒出现时,对应的该数据流中出现该特征组的次数、频率,基于该批匹配程度、频率等数据确定出该特征字段或特征组应属于该网络病毒类别,最后再基于所有特征组的所属类别重新整合规则组,进而确定出与规则组匹配的规则,即确定出规则组对应的网络病毒类别,当数据流中出现该规则组中的全部特征组,便会使得该数据流具有导致网络处理器或电子设备中特定病毒的现象。其中,当确定好各规则组对应的网络病毒类别后,随之而确定的即为对应该网络病毒的应对策略及该病毒将会产生的不良影响,即前文所述的危险结果。
进一步地,本实施例中处理器在基于规则组建立用于识别网络病毒数据的数据库包括:
基于规则组及每个规则组的攻击类别、不良影响以及应对策略建立用于识别网络病毒数据的数据库。
也即,根据规则组及对应的网络病毒类别相关数据建立数据库,使得该数据库可自动识别网络数据流中的病毒数据,并可确定出其攻击类别,将会对网络及设备产生的不良影响以及应对策略。过程快捷且检测质量高,统一性好,有效避免因人工识别提取病毒数据时因个人能力及对于检测标准的不确定性,提高检测结果的客观概率。
进一步地,本发明实施例还同时提供一种计算机可读存储介质,存储有计算机可执行指令,指令被执行时用于实现前文所述的数据处理方法,用于建立前文所述的数据库。建立过程同上,不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的数据处理方法所应用于的电子设备,可以参考前述产品实施例中的对应描述,在此不再赘述。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (7)

1.一种数据处理方法,其特征在于,包括:
处理学习样本形成第一特征集合,包括获得学习样本的第二特征集合,所述第二特征集合包含所述学习样本中各特征数据的实际功用及至少与所述实际功用匹配的特征字段,基于所述第二特征集合确定第一特征集合,所述第一特征集合包含所述学习样本中各特征数据的分词字段及对应的实际功用;
处理所述第一特征集合形成多个不同的规则组,包括基于递归匹配算法及预设的学习深度处理所述第一特征集合形成多个不同的规则组,所述学习深度用于表征形成的每个规则组中所包含的特征字段的数量,每个所述规则组均包括至少一个分词字段,所述至少一个分词字段用于确定所述规则组具有导致设备产生唯一危险结果的规则;
基于所述规则组建立用于识别网络病毒数据的数据库;
其中,所述基于递归匹配算法及预设的学习深度处理所述第一特征集合形成多个不同的规则组包括:
将所述第一特征集合和第二特征集合中的数据进行匹配;
基于匹配结果以及预设的学习深度形成多个不同的规则组。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二特征集合确定所述第一特征集合包括:
基于所述第二特征集合确定所述学习样本中特征字段的分隔方法;
基于所述分隔方法确定所述第一特征集合。
3.根据权利要求1所述的方法,其特征在于,还包括:
预先确定所述学习样本中各特征数据所属的网络系统攻击类别、应对策略以及不良影响。
4.根据权利要求3所述的方法,其特征在于,还包括:
根据预设分类算法以及预先确定的所述网络系统攻击类别、不良影响及应对策略确定所述每个规则组的攻击类别、不良影响以及应对策略。
5.根据权利要求4所述的方法,其特征在于,所述预设分类算法至少包括朴素贝叶斯分类算法。
6.根据权利要求3所述的方法,其特征在于,所述基于所述规则组建立用于识别网络病毒数据的数据库包括:
基于所述规则组及每个规则组的攻击类别、不良影响以及应对策略建立用于识别网络病毒数据的数据库。
7.一种电子设备,其特征在于,包括:
处理装置,其用于处理学习样本形成第一特征集合,包括获得学习样本的第二特征集合,所述第二特征集合包含所述学习样本中各特征数据的实际功用及至少与所述实际功用匹配的特征字段,基于所述第二特征集合确定第一特征集合,所述第一特征集合包含所述学习样本中各特征数据的实际功用及分词字段;处理所述第一特征集合形成多个不同的规则组,包括基于递归匹配算法及预设的学习深度处理所述第一特征集合形成多个不同的规则组,所述学习深度用于表征形成的每个规则组中所包含的特征字段的数量,每个所述规则组均包括至少一个分词字段,所述至少一个分词字段用于确定所述规则组具有导致设备唯一危险结果的规则;基于所述规则组建立用于识别网络病毒数据的数据库,其中,所述基于递归匹配算法及预设的学习深度处理所述第一特征集合形成多个不同的规则组包括:将所述第一特征集合和第二特征集合中的数据进行匹配;基于匹配结果以及预设的学习深度形成多个不同的规则组。
CN201910886848.1A 2019-09-19 2019-09-19 一种数据处理方法及电子设备 Active CN110580408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910886848.1A CN110580408B (zh) 2019-09-19 2019-09-19 一种数据处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910886848.1A CN110580408B (zh) 2019-09-19 2019-09-19 一种数据处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN110580408A CN110580408A (zh) 2019-12-17
CN110580408B true CN110580408B (zh) 2022-03-11

Family

ID=68813223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910886848.1A Active CN110580408B (zh) 2019-09-19 2019-09-19 一种数据处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN110580408B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1752888A (zh) * 2005-11-08 2006-03-29 朱林 用于移动/智能终端的病毒特征提取和检测系统及方法
CN1953449A (zh) * 2005-05-20 2007-04-25 美国电报电话公司 一种核心、用于因特网的恶意软件问题的解决方案
CN102930210A (zh) * 2012-10-14 2013-02-13 江苏金陵科技集团公司 恶意程序行为自动化分析、检测与分类系统及方法
CN103559447A (zh) * 2013-11-15 2014-02-05 北京奇虎科技有限公司 一种基于病毒样本特征的检测方法、检测装置及检测系统
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统
CN109254827A (zh) * 2018-08-27 2019-01-22 电子科技大学成都学院 一种基于大数据与机器学习的虚拟机安全防护方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9712560B2 (en) * 2007-11-05 2017-07-18 Cabara Software Ltd. Web page and web browser protection against malicious injections
CN106385395B (zh) * 2015-07-15 2020-10-16 阿里巴巴(中国)有限公司 网络攻击判断方法、安全的网络数据传输方法及相应装置
CN107222865B (zh) * 2017-04-28 2019-08-13 北京大学 基于可疑行为识别的通讯诈骗实时检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953449A (zh) * 2005-05-20 2007-04-25 美国电报电话公司 一种核心、用于因特网的恶意软件问题的解决方案
CN1752888A (zh) * 2005-11-08 2006-03-29 朱林 用于移动/智能终端的病毒特征提取和检测系统及方法
CN102930210A (zh) * 2012-10-14 2013-02-13 江苏金陵科技集团公司 恶意程序行为自动化分析、检测与分类系统及方法
CN103559447A (zh) * 2013-11-15 2014-02-05 北京奇虎科技有限公司 一种基于病毒样本特征的检测方法、检测装置及检测系统
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统
CN109254827A (zh) * 2018-08-27 2019-01-22 电子科技大学成都学院 一种基于大数据与机器学习的虚拟机安全防护方法及系统

Also Published As

Publication number Publication date
CN110580408A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN108449342B (zh) 恶意请求检测方法及装置
CN106961419B (zh) WebShell检测方法、装置及系统
US20170026390A1 (en) Identifying Malware Communications with DGA Generated Domains by Discriminative Learning
CN112738015A (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN111144459B (zh) 一种类不平衡的网络流量分类方法、装置及计算机设备
CN105072214B (zh) 基于域名特征的c&c域名识别方法
CN110209660B (zh) 欺诈团伙挖掘方法、装置及电子设备
EP3905624A1 (en) Botnet domain name family detecting method, apparatus, device, and storage medium
CN107360118B (zh) 一种高级持续威胁攻击防护方法及装置
CN110868404B (zh) 一种基于tcp/ip指纹的工控设备自动识别方法
CN106960153B (zh) 病毒的类型识别方法及装置
CN110691073A (zh) 一种基于随机森林的工控网络暴力破解流量检测方法
CN110365636B (zh) 工控蜜罐攻击数据来源的判别方法及装置
EP3905084A1 (en) Method and device for detecting malware
CN110572397B (zh) 一种基于流量的webshell的检测方法
CN112039841A (zh) 安全事件归并处理方法、装置、电子设备及存储介质
CN113704328B (zh) 基于人工智能的用户行为大数据挖掘方法及系统
CN112910918A (zh) 基于随机森林的工控网络DDoS攻击流量检测方法及装置
CN114049508B (zh) 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN107911232B (zh) 一种确定业务操作规则的方法及装置
CN110580408B (zh) 一种数据处理方法及电子设备
CN112953948A (zh) 一种实时网络横向蠕虫攻击流量检测方法及装置
CN106850632B (zh) 一种异常组合数据的检测方法及装置
CN115828245A (zh) 一种基于深度学习的恶意文件识别方法
CN112149121A (zh) 一种恶意文件识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant