CN107315954B - 一种文件类型识别方法及服务器 - Google Patents

一种文件类型识别方法及服务器 Download PDF

Info

Publication number
CN107315954B
CN107315954B CN201610272161.5A CN201610272161A CN107315954B CN 107315954 B CN107315954 B CN 107315954B CN 201610272161 A CN201610272161 A CN 201610272161A CN 107315954 B CN107315954 B CN 107315954B
Authority
CN
China
Prior art keywords
feature
file
virus
characteristic
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610272161.5A
Other languages
English (en)
Other versions
CN107315954A (zh
Inventor
罗元海
王佳斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610272161.5A priority Critical patent/CN107315954B/zh
Publication of CN107315954A publication Critical patent/CN107315954A/zh
Application granted granted Critical
Publication of CN107315954B publication Critical patent/CN107315954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种文件类型识别方法及服务器,该方法包括:将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。

Description

一种文件类型识别方法及服务器
技术领域
本发明涉及信息处理领域的信息识别技术,具体涉及一种文件类型识别方法及服务器。
背景技术
现有对病毒文件的检测技术方案如下:分析人员分析病毒文件、提取病毒特征、将病毒特征入库、杀毒引擎根据病毒库扫描现有文件,如果遇到能够匹配上的特征则报毒。但是,上述处理方式主要依靠人工抽取特征码并制定相应的识别规则,这种检测方式需要病毒分析人员针对已有样本进行人工分析,找出相应的特征,这严重依赖于病毒分析人员的能力,因此需要大量经验丰富的人员才能满足解决问题的需求,由于技术复杂,识别的效率比较低。而且利用人工总结特征码一般只能处理已知的病毒,不能对可能发生的问题进行防范,因此具有一定的滞后性。
目前,现有技术中,也有使用机器学习的方法对样本进行分类,但是这类方案都仅把训练样本分为病毒、非病毒,一方面由于病毒的多样性和分布的不均匀性,使得这种仅区分病毒、非病毒的机器分类方法训练出来的模型针对性不强导致准确性不高,并且容易丢掉一些小众病毒的特征从而导致漏报较多,另一方面识别的粒度也只能是病毒/非病毒,而不能精确到病毒种类。
发明内容
有鉴于此,本发明实施例的主要目的在于提供一种文件类型识别方法及服务器,以至少解决上述现有存在的技术问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种文件类型识别方法,应用于服务器,该方法包括:
将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
本发明实施例提供了一种服务器,所述服务器包括:
样本选取单元,用于将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
特征提取单元,用于对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
特征选取单元,用于利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
模型训练单元,用于基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
本发明提供的一种文件类型识别方法及服务器,能够划分得到至少一类病毒的训练样本、以及正常文件的训练样本,进而基于上述至少一类病毒以及正常文件的训练样本对应的特征分别建立不同类病毒的特征信息库、以及正常文件的特征信息库;最终基于不同类病毒的特征信息库、以及正常文件的特征信息库建立得到多元分类模型以识别病毒的类型或者识别正常文件。如此,由于对训练使用的病毒样本进行了分类,有效的提高了检测模型的准确性,降低了漏报率,同时也使得识别结果更加精细;另外,通过多元分类模型的建立,保证减少在进行病毒分析时人工干预的成分,极大的降低了病毒检测的成本,提高了效率,并缩短了病毒出现到被查杀的时间。
附图说明
图1为本发明实施例组成系统示意图一;
图2为本发明实施例文件类型识别方法流程示意图一;
图3为本发明实施例训练样本分类示意图;
图4为本发明实施例特征提取的处理示意图;
图5为本发明实施例特征选取处理示意图一;
图6为本发明实施例特征选取处理示意图二;
图7为本发明实施例特征选取处理示意图三;
图8为本发明实施例建立模型的处理示意图;
图9为本发明实施例特征选取处理示意图四;
图10为本发明实施例特征选取处理示意图五;
图11为本发明实施例特征选取处理示意图六;
图12为本发明实施例文件类型识别方法流程示意图二;
图13为本发明实施例对待识别文件进行识别的处理场景示意图;
图14为本发明实施例文件类型识别方法流程示意图三;
图15为本发明实施例服务器组成结构示意图一;
图16为本发明实施例服务器中各个单元之间的逻辑关系图一;
图17为本发明实施例服务器组成结构示意图二;
图18为本发明实施例服务器中各个单元之间的逻辑关系图二;
图19为本发明实施例终端设备和服务器之间的交互处理图;
图20为本发明实施例终端设备和服务器之间的逻辑单元交互图;
图21为本发明实施例服务器对应的一个具体硬件组成结构示意图。
具体实施方式
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本实施例提供的方案,可以参见系统场景示意图,图1所示,其中,包括有终端设备11、服务器12。
基于上述系统,本发明的基本思想是:将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
其中,所述识别至少一类病毒及正常文件可以由终端设备11将待识别文件、或者待识别文件的特征信息发送给服务器12,然后由服务器12利用分类模型对待识别文件或其特征信息进行识别,最终可以将识别结果发送给终端设备11。
实施例一、
本发明实施例提供了一种文件类型识别方法,如图2所示,包括:
步骤201:将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
步骤202:对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
步骤203:利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
步骤204:基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
这里,所述将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本,可以依赖于预先建立的样本类别分类体系,既然是做病毒样本检测,这里的类别就是从样本的安全属性来说的,具体来说,分成病毒样本与正常样本,其中病毒样本按照家族又分成多个类。
比如,参见图3,假设当前有五个训练样本,分别为:训练样本1、训练样本2、训练样本3、训练样本4和训练样本5;目标类型可以如图中所示为“正常文件”和病毒两大类,而在病毒类别中,还包括有“第一类病毒”和“第二类病毒”这两种类别。对训练样本1-训练样本5进行划分的结果可以为:将训练样本1和训练样本5划分为正常文件的训练样本;训练样本2和训练样本4划分为第一类病毒的训练样本;训练样本3划分为第二类病毒的训练样本。
需要说明的是,训练样本可以为预先收集的多个样本,将收集到的训练样本用于作为建立模型的学习集。
训练样本的学习集合应满足以下条件:
首先,对于每一类病毒,也就是每一个病毒家族中都应至少包括预设数量的训练样本,比如,可以设置每一类病毒中包括的预设数量可以不同;
另外,还需要包括一定数量的正常文件;仍然参见图3,可以设置第一类病毒需要至少包括100个训练样本;第二类病毒需要至少包含150个训练样本;正常样本则需要至少包括有200个训练样本;当然上述设置仅为一种处理情况,实际处理中可以将每一类病毒设置的至少包括的预设数量的训练样本设置为相同的数量,比如,可以均设置为包括有80个训练样本;
由于每个训练样本已经预先打上类别标签,预先对训练样本建立类别分类体系对保证整个系统检测效果是非常重要的一步。
上述步骤202中,所述对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合,可以为针对不同格式的训练样本进行不同的特征提取,分别得到不同训练样本提取的至少一个特征作为特征集合。
其中,所述根据不同格式的训练样本进行不同的特征提取,可以为根据预先设置的提取的特征列表进行提取。
比如,参见图4,对于Android的“.dex”这种可执行文件作为训练样本来说,可以提取的特征包括以下至少之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征、权限特征。特征提取完成后,学习集里面的每个样本都得到一个特征集合。
下面针对如何分别建立每一类病毒的特征信息库以及如何建立正常文件的特征信息库进行具体说明,可以为:
所述利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库,包括:
从全部训练样本的特征集合中逐个选取目标特征信息;
判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的特征信息库;
若不是,则判断所述目标特征信息是否仅存在于目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到所述目标类病毒的特征信息库中。
也就是说,只要找到仅存于正常文件或者仅存于某一个目标类病毒的训练样本的特征集合中的特征时,就直接将该特征添加到对应的特征信息库中。
比如,参见图5,从100个训练样本对应的特征集合,逐个提取特征,假设首先提取特征1,该特征仅存在于正常文件对应的特征集合中,那将该特征1直接作为正常样本的特征信息库中;然后提取特征2,当确定特征2 仅存在于第一类病毒的特征集合中,那么将特征2添加到第一类病毒的特征信息库中;当提取到特征3时,判断该特征属于多个类别,或者不仅属于某一个类别的特征集合中,就不使用该特征。
进一步地,在上述场景的基础上,还可以结合每一个特征的出现次数,判断该特征是否保存的特征信息库中,具体如下:
所述利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库,包括:
从全部训练样本的特征集合中逐个选取目标特征信息;
判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的待用特征信息集合;
若不是,则判断所述目标特征信息是否仅存在于目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到所述目标类病毒的待用特征信息集合;直至完成对全部训练样本的特征集合中的全部特征信息的判断为止;
对所述正常文件的待用特征信息集合中的每一个特征信息的出现次数进行统计,基于统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到所述正常文件的特征信息库;以及对每一类病毒的待用特征信息集合中的每一个特征信息的出现次数进行统计,根据统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到对应类病毒的特征信息库。
也就是说,找到仅存于正常文件或者仅存于某一个目标类病毒的训练样本的特征集合中的特征后,进一步结合每一个特征的出现次数,选取特征添加到对应的特征信息库中。
比如,参见图6,从100个训练样本对应的特征集合,逐个提取特征,假设首先提取特征1,该特征仅存在于正常文件对应的特征集合中,将该特征1直接作为正常样本的待用特征信息集合中;然后提取特征2,当确定特征2仅存在于第一类病毒的特征集合中,那么将特征2添加到第一类病毒的待用特征信息集合中;当提取到特征3时,判断该特征属于多个类别,或者不仅属于某一个类别,就不使用该特征;
进一步地,图6中分别对正常文件以及i类病毒的待用特征信息集合分别进行筛选,基于出现次数选取得到正常文件以及i类病毒的特征信息库。其中,i为大于等于1的整数。
可以理解的是,本实施例中所述基于出现次数选取特征信息添加到特征信息库的处理可以为:分别对不同类别中的待用特征信息集合中的多个待用特征信息,按照出现次数从多到少进行排序,正常样本则选取前M个待用特征信息添加到对应的特征信息库中;至少一类病毒可以分别选取前N个待用特征信息添加到各自对应的特征信息库中。M和N均为大于等于1的整数。
下面,结合图7,对确定每一类病毒的黑特征组成的特征信息库、以及确定正常文件、即非病毒样本的白特征组成的特征信息库的处理流程进行举例说明:
对提取出来的特征做聚合,计算出每个特征在每个病毒家族中以及在非病毒样本中出现的次数;
随机选取一个特征,判断选取的特征是否仅存在与非病毒类型的训练样本中,若是,则将选取的特征添加到白特征候选集中;
若选取的特征不是仅存在于非病毒类型的训练样本中,则判断选取的特征是否仅存在于病毒家族i的训练样本中,若是,则该特征添加到病毒家族 i的黑特征候选集中;其中,i为大于等于1的整数;
若选取的特征既不是仅存于非病毒类型的训练样本中、又不是仅存在于某一类病毒的训练样本中,则再次选取下一个特征,执行上述添加到黑或白特征候选集的操作流程;直至完成所有特征的判断处理;
统计每一个白特征在非病毒样本中出现的次数、或者统计每一个黑特征在对应的类病毒中出现的次数;
根据计算出来的次数来挑选能代表每个病毒家族的特征,最后生成一个白特征库以及为每个病毒家族生成一个黑特征库。比如对于非病毒样本集,可以将那些只出现在非病毒样本中的特征按出现次数从高到低排序,然后根据阈值选取top M作为白特征库。同样的,对于病毒家族i,可以将那些只出现在病毒家族i中的特征按出现次数从高到低排序,然后根据阈值选取top N作为病毒家族i的黑特征库。
通过预先建立的分类体系,我们实际上已经把病毒样本检测问题转化成了一个多元分类问题,我们需要把待检测样本分类成多个类别(正常样本、病毒家族1~病毒家族n)中的一类。解决多元分类问题有两种办法:直接使用多元分类器,将二元分类器通过多种策略转换为多元分类器。常见的转换方法有one-against-one和one-against-all两种:
第一种、一对多法(one-versus-rest)。训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个二元分类器。分类时将未知样本分类为具有最大分类函数值的那类。
第二种、一对一法(one-versus-one)。其做法是在任意两类样本之间设计一个二元分类器,因此k个类别的样本就需要设计k(k-1)/2个二元分类器。当对一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别。
在本实施例的上述步骤204中,所述基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型的处理,可以采用第一种方法,选用SVM作为二元分类器,训练时依次把某个家族的样本归为一类,其他剩余的样本归为另一类,另外,白样本也作为单独的一类,这样k个家族的样本就需要分k+1类,构造出 k+1个SVM。
进一步地,参见图8,对于每个类来说,可以执行以下三步处理以建立该一类的分类模型:
对于学习集中的每个样本,将其特征集合与各个黑特征集合以及白特征集合进行比对,得到该文件样本的特征向量;具体方法为:假设3中得到的黑特征集合和白特征集合总个数为n,则结果向量的维数为n。遍历n个特征,如果该特征包含在此样本中,则此样本的特征向量的对应位置1,否则置0;
将生成的特征向量进行模型训练;
将训练的分类模型输出以用于样本识别。
可以理解的是,本实施例中所述得到用以识别所述至少一类病毒及正常文件的分类模型可以由k+1个分类模型组成,其中k表示k-1类病毒以及1 类正常文件,k为大于等于2的整数。
可见,通过采用上述方案,就能够划分得到至少一类病毒的训练样本、以及正常文件的训练样本,进而基于上述至少一类病毒以及正常文件的训练样本对应的特征分别建立不同类病毒的特征信息库、以及正常文件的特征信息库;最终基于不同类病毒的特征信息库、以及正常文件的特征信息库建立得到多元分类模型以识别病毒的类型或者识别正常文件。如此,由于对训练使用的病毒样本进行了分类,有效的提高了检测模型的准确性,降低了漏报率,同时也使得识别结果更加精细;另外,通过多元分类模型的建立,保证减少在进行病毒分析时人工干预的成分,极大的降低了病毒检测的成本,提高了效率,并缩短了病毒出现到被查杀的时间。
实施例二、
本发明实施例提供了一种文件类型识别方法,如图2所示,包括:
步骤201:将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
步骤202:对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
步骤203:利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
步骤204:基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
这里,所述将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本,可以依赖于预先建立的样本类别分类体系,既然是做病毒样本检测,这里的类别就是从样本的安全属性来说的,具体来说,分成病毒样本与正常样本,其中病毒样本按照家族又分成多个类。
比如,参见图3,假设当前有五个训练样本,分别为训练样本1、训练样本2、训练样本3、训练样本4和训练样本5;当前可以将类型分为“正常文件”和病毒两大类,而在病毒类别中,还包括有“第一类病毒”和“第二类病毒”这两种小类别。对训练样本1-训练样本5进行划分的结果可以为:将训练样本1和训练样本5划分为正常文件的训练样本;训练样本2和训练样本4划分为第一类病毒的训练样本;训练样本3划分为第二类病毒的训练样本。
需要说明的是,训练样本可以为预先收集的多个样本。将训练样本用于作为建立模型的学习集。而挑选出的训练样本的学习集合应满足以下条件:对于每一类病毒,也就是每一个病毒家族中都应至少包括预设数量的训练样本,比如,可以设置每一类病毒中包括的预设数量可以不同,另外,还需要包括一定数量的正常文件;仍然参见图3,可以设置第一类病毒需要至少包括100个训练样本;第二类病毒需要至少包含150个训练样本;正常样本则需要至少包括有200个训练样本;当然上述设置仅为一种处理情况,实际处理中可以将每一类病毒设置的至少包括的预设数量的训练样本设置为相同的数量,比如,可以均设置为包括有80个训练样本。另外,由于每个文件已经预先打上类别标签。预先对样本建立类别分类体系对保证整个系统检测效果是非常重要的一步。
上述步骤202中,所述对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合,可以为,针对不同格式的训练样本进行不同的特征提取,分别得到不同训练样本提取的至少一个特征作为特征集合。
其中,所述根据不同格式的训练样本进行不同的特征提取,可以为根据预先设置的提取的特征列表进行提取。
比如,参见图4,对于Android的“.dex”这种可执行文件作为训练样本来说,可以提取的特征至少包括以下之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征、权限特征。特征提取完成后,学习集里面的每个样本都得到一个特征集合。
下面针对如何分别建立每一类病毒的特征信息库以及如何建立正常文件的特征信息库进行详细说明,可以为:
首先,对建立每一类病毒的特征信息库进行详细介绍,这里可以将病毒对应的特征信息库作为黑特征信息库,具体来说:
所述利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库,包括:
从所述至少一类病毒中逐个选取得到目标类病毒;获取所述目标类病毒的全部训练样本的特征集合;根据所述目标类病毒的全部训练样本的特征集合中的每一个特征出现的次数,选取得到目标类病毒的至少一个特征信息,将所述至少一个特征信息添加至所述目标类病毒的特征信息库;以此类推,直至获取到全部类病毒对应的特征信息库。
比如,参见图9,假设当前具备两类病毒,分别为第一类病毒和第二类病毒;先选取第一类病毒作为目标类病毒,然后获取到第一类病毒对应的全部训练样本,如图中所示包括有训练样本1~训练样本100,共100个训练样本;然后分别获取到训练样本1~训练样本100对应的特征集合,所述特征集合中包括有至少一个特征信息。
其中,所述根据所述目标类病毒的全部训练样本的特征集合中的每一个特征出现的次数,选取得到目标类病毒的至少一个特征信息,包括:
从所述全部训练样本的特征集合中依次提取特征,判断提取的特征是否仅出现在所述目标类病毒的训练样本中,若是,则确定提取的所述特征为所述目标类病毒的候选特征信息;获取到所述候选特征信息在目标类病毒的全部训练样本的特征集合中出现的次数;判断所述候选特征信息对应的出现的次数是否大于第一阈值,若大于,则确定所述候选特征信息为目标类病毒的特征信息;其中,所述第一阈值可以为根据实际情况进行设置,比如,可以设置为第一阈值为70,那么就是指的候选特征信息出现超过70次就可以作为目标类病毒的特征信息,即黑特征。
比如,参见图10,在图9的基础上,同样假设第一类病毒为目标类病毒,则分别判断第一类病毒每一个训练样本对应的每一个特征是否仅出现在第一类病毒中,然后提取出图10中所示的特征A~特征H等8个特征,为仅出现在第一类病毒的训练样本中的特征;
假设对提取得到的8个特征每一个特征在训练样本中出现的次数分别进行统计,特征A为80次,特征B65次,特征C100次另外特征H为20 次,其他的特征的数量在此不进行穷举;
当第一阈值为70时,如图10所示,可以选取出来黑特征为特征A和特征C,也就是说选取出来特征A和特征C作为第一类病毒的特征信息,将特征A和特征C添加到第一类病毒的特征信息库中。
另外,在进行上述各个类病毒的特征信息库的建立时,可以同时确定正常文件的特征信息库,具体包括:
获取所述正常文件包含的全部训练样本的特征集合;根据所述正常文件的全部训练样本的特征集合中的每一个特征出现的次数,选取得到正常文件的至少一个特征信息,将所述至少一个特征信息添加至所述正常文件的特征信息库。比如,参见图11,正常文件的训练样本包括有训练样本11-1~训练样本11-100,共100个训练样本;然后分别获取到训练样本11-1~训练样本11-100对应的特征集合,所述特征集合中包括有至少一个特征信息。
其中,所述根据所述正常文件的全部训练样本的特征集合中的每一个特征出现的次数,选取得到正常文件的至少一个特征信息,包括:
从所述全部训练样本的特征集合中依次提取特征,判断提取的特征是否仅出现在所述正常文件的训练样本中,若是,则确定提取的所述特征为所述正常文件的候选特征信息;获取到所述候选特征信息在正常文件的全部训练样本的特征集合中出现的次数;判断所述候选特征信息对应的出现的次数是否大于第二阈值,若大于,则确定所述候选特征信息为正常文件的特征信息。
比如,参见图11,正常文件的每一个训练样本对应的每一个特征是否仅出现在正常文件中,然后提取出图11中所示的特征I、特征J、特征K、特征L;假设对提取得到的4个特征每一个特征在训练样本中出现的次数分别进行统计,分别出现的次数为61次、52次、70次以及80次;
当第二阈值为60时,如图11所示,可以选取出来正常文件对应的白特征为特征I、特征K和特征L,将特征I、特征K和特征L添加到正常文件的特征信息库中。
在本实施例的上述步骤204中,所述基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型的处理,可以采用第一种方法,选用SVM作为二元分类器,训练时依次把某个家族的样本归为一类,其他剩余的样本归为另一类,另外,白样本也作为单独的一类,这样k个家族的样本就需要分k+1类,构造出 k+1个SVM。
进一步地,对于每个类来说,可以执行图9所示,以下三步处理以建立该一类的分类模型:
对于学习集中的每个样本,将其特征集合与各个黑特征集合以及白特征集合进行比对,得到该文件样本的特征向量。具体方法为:假设3中得到的黑特征集合和白特征集合总个数为n,则结果向量的维数为n。遍历n个特征,如果该特征包含在此样本中,则此样本的特征向量的对应位置1,否则置0;
将生成的特征向量进行模型训练;
将训练的分类模型输出以用于样本识别。
可以理解的是,本实施例中所述得到用以识别所述至少一类病毒及正常文件的分类模型可以由k+1个分类模型组成,其中k表示k-1类病毒以及1 类正常文件,k为大于等于2的整数。
可见,通过采用上述方案,就能够划分得到至少一类病毒的训练样本、以及正常文件的训练样本,进而基于上述至少一类病毒以及正常文件的训练样本对应的特征分别建立不同类病毒的特征信息库、以及正常文件的特征信息库;最终基于不同类病毒的特征信息库、以及正常文件的特征信息库建立得到多元分类模型以识别病毒的类型或者识别正常文件。如此,由于对训练使用的病毒样本进行了分类,有效的提高了检测模型的准确性,降低了漏报率,同时也使得识别结果更加精细;另外,通过多元分类模型的建立,保证减少在进行病毒分析时人工干预的成分,极大的降低了病毒检测的成本,提高了效率,并缩短了病毒出现到被查杀的时间。
实施例三、
在上述实施例一或实施例二提供的建立分类模型的基础上,本实施例着重针对如何利用分类模型对终端设备发来的信息进行识别进行说明,参见图 12,包括:
步骤1201:将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
步骤1202:对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
步骤1203:利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
步骤1204:基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型;
步骤1205:获取到终端设备发来的待识别文件,对所述待识别文件进行特征提取得到所述待识别文件对应的至少一个特征;
步骤1206:基于所述待识别文件的至少一个特征、以及所述分类模型,确定对所述待识别文件的类型识别结果,其中,所述类型识别结果中包括有所述待识别文件为所述至少一类病毒文件中的一类、或确定所述待识别文件为正常文件;
步骤1207:发送所述类型识别结果至所述终端设备。
对所述待识别文件进行特征提取得到所述待识别文件对应的至少一个特征的处理方式可以参见实施例一或者实施例二中对所述训练样本进行特征提取的处理方式,具体可以为:针对待识别文件的格式的进行特征提取。其中,所述根据不同格式的训练样本进行不同的特征提取,可以为根据预先设置的提取的特征列表进行提取。比如,参见图4,对于Android的“.dex”这种可执行文件作为训练样本来说,可以提取的特征至少包括以下之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征、权限特征。特征提取完成后,学习集里面的每个样本都得到一个特征集合。
进一步地,本实施例中所述基于所述待识别文件的至少一个特征、以及所述分类模型,确定对所述待识别文件的类型识别结果,可以为:基于所述待识别文件的至少一个特征、以及所述分类模型,确定所述待识别文件的在每一类对应的分类函数值,选取得到分类函数值最大的一个类别作为所述待识别文件对应的类别。比如,首先将待识别样本的特征转换成向量,然后利用4中生成的k+1个机器学习模型进行分类,将未知样本分类为具有最大分类函数值的那个类;参见图13,将待识别文件输入到分类模型中,然后得到正常文件类型的函数值为40,第一类病毒的分类函数值为20,第二类病毒的分类函数值为98,那么可以确定分类结果为所述待识别文件为第二类病毒。
另外,本实施例还可以在上述实施例一或实施例二提供的建立分类模型的基础上,也可以以终端设备的客户端加云端的服务器的方式部署,将模型训练和样本识别放到云端的服务器,客户端负责提取待检测样本的特征,发送给云端的服务器,云端的服务器完成检测后,回传结果给客户端。参见图 14,包括:
步骤1401:将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
步骤1402:对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
步骤1403:利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
步骤1404:基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型;
步骤1405:获取到终端设备发来的待识别文件对应的至少一个特征;
步骤1406:基于所述待识别文件的至少一个特征、以及所述分类模型,确定对所述待识别文件的类型识别结果,其中,所述类型识别结果中包括有所述待识别文件为所述至少一类病毒文件中的一类、或确定所述待识别文件为正常文件;
步骤1407:发送所述类型识别结果至所述终端设备。
对所述待识别文件进行特征提取得到所述待识别文件对应的至少一个特征的处理方式可以参见实施例一或者实施例二中对所述训练样本进行特征提取的处理方式,具体可以为:针对待识别文件的格式的进行特征提取。其中,所述根据不同格式的训练样本进行不同的特征提取,可以为根据预先设置的提取的特征列表进行提取。
可见,通过采用上述方案,就能够划分得到至少一类病毒的训练样本、以及正常文件的训练样本,进而基于上述至少一类病毒以及正常文件的训练样本对应的特征分别建立不同类病毒的特征信息库、以及正常文件的特征信息库;最终基于不同类病毒的特征信息库、以及正常文件的特征信息库建立得到多元分类模型以识别病毒的类型或者识别正常文件。如此,由于对训练使用的病毒样本进行了分类,有效的提高了检测模型的准确性,降低了漏报率,同时也使得识别结果更加精细;另外,通过多元分类模型的建立,保证减少在进行病毒分析时人工干预的成分,极大的降低了病毒检测的成本,提高了效率,并缩短了病毒出现到被查杀的时间。
实施例四、
本发明实施例提供了一种服务器,如图15所示,所述服务器包括:
样本选取单元1501,用于将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
特征提取单元1502,用于对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
特征选取单元1503,用于利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
模型训练单元1504,用于基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
这里,所述将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本,可以依赖于预先建立的样本类别分类体系,既然是做病毒样本检测,这里的类别就是从样本的安全属性来说的,具体来说,分成病毒样本与正常样本,其中病毒样本按照家族又分成多个类。
比如,参见图3,假设当前有五个训练样本,分别为训练样本1、训练样本2、训练样本3、训练样本4和训练样本5;当前可以将类型分为“正常文件”和病毒两大类,而在病毒类别中,还包括有“第一类病毒”和“第二类病毒”这两种小类别。对训练样本1-训练样本5进行划分的结果可以为:将训练样本1和训练样本5划分为正常文件的训练样本;训练样本2和训练样本4划分为第一类病毒的训练样本;训练样本3划分为第二类病毒的训练样本。
需要说明的是,训练样本可以为预先收集的多个样本。将训练样本用于作为建立模型的学习集。而挑选出的训练样本的学习集合应满足以下条件:对于每一类病毒,也就是每一个病毒家族中都应至少包括预设数量的训练样本,比如,可以设置每一类病毒中包括的预设数量可以不同,另外,还需要包括一定数量的正常文件;仍然参见图3,可以设置第一类病毒需要至少包括100个训练样本;第二类病毒需要至少包含150个训练样本;正常样本则需要至少包括有200个训练样本;当然上述设置仅为一种处理情况,实际处理中可以将每一类病毒设置的至少包括的预设数量的训练样本设置为相同的数量,比如,可以均设置为包括有80个训练样本。
特征提取单元1502,用于针对不同格式的训练样本进行不同的特征提取,分别得到不同训练样本提取的至少一个特征作为特征集合。
其中,所述根据不同格式的训练样本进行不同的特征提取,可以为根据预先设置的提取的特征列表进行提取。
比如,参见图4,对于Android的“.dex”这种可执行文件作为训练样本来说,可以提取的特征包括以下至少之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征、权限特征。特征提取完成后,学习集里面的每个样本都得到一个特征集合。
下面针对如何分别建立每一类病毒的特征信息库以及如何建立正常文件的特征信息库进行具体说明,可以为:
特征选取单元1503,用于从全部训练样本的特征集合中逐个选取目标特征信息;
判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的特征信息库;
若不是,则判断所述目标特征信息是否仅存在于目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到所述目标类病毒的特征信息库中。
也就是说,只要找到仅存于正常文件或者仅存于某一个目标类病毒的训练样本的特征集合中的特征时,就直接将该特征添加到对应的特征信息库中。比如,参见图5,从100个训练样本对应的特征集合,逐个提取特征,假设首先提取特征1,该特征仅存在于正常文件对应的特征集合中,那将该特征1直接作为正常样本的特征信息库中;然后提取特征2,当确定特征2 仅存在于第一类病毒的特征集合中,那么将特征2添加到第一类病毒的特征信息库中;当提取到特征3时,判断该特征属于多个类别,或者不仅属于某一个类别的特征集合中,就不使用该特征。
进一步地,在上述场景的基础上,还可以进一步结合每一个特征的出现次数,判断该特征是否保存的特征信息库中,具体如下:特征选取单元1503,用于从全部训练样本的特征集合中逐个选取目标特征信息;
判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的待用特征信息集合;
若不是,则判断所述目标特征信息是否仅存在于目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到所述目标类病毒的待用特征信息集合;直至完成对全部训练样本的特征集合中的全部特征信息的判断为止;
对所述正常文件的待用特征信息集合中的每一个特征信息的出现次数进行统计,基于统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到所述正常文件的特征信息库;以及对每一类病毒的待用特征信息集合中的每一个特征信息的出现次数进行统计,根据统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到对应类病毒的特征信息库。
也就是说,找到仅存于正常文件或者仅存于某一个目标类病毒的训练样本的特征集合中的特征,进一步结合每一个特征的出现次数选取特征添加到对应的特征信息库中。
比如,参见图6,从100个训练样本对应的特征集合,逐个提取特征,假设首先提取特征1,该特征仅存在于正常文件对应的特征集合中,那将该特征1直接作为正常样本的待用特征信息集合中;然后提取特征2,当确定特征2仅存在于第一类病毒的特征集合中,那么将特征2添加到第一类病毒的待用特征信息集合中;当提取到特征3时,判断该特征属于多个类别,或者不仅属于某一个类别,就不使用该特征;
进一步地,图6中分别对正常文件以及i类病毒的待用特征信息集合分别进行筛选,基于出现次数选取得到正常文件以及i类病毒的特征信息库。
可以理解的是,本实施例中所述基于出现次数选取特征信息添加到特征信息库的处理可以为:分别对不同类别中的待用特征信息集合中的多个待用特征信息,按照出现次数从多到少进行排序,正常样本则选取前M个待用特征信息添加到对应的特征信息库中;至少一类病毒则分别可以选取前N 个待用特征信息添加到各自对应的特征信息库中。M和N均为大于等于1 的整数。
通过预先建立的分类体系,实际上已经把病毒样本检测问题转化成了一个多元分类问题,我们需要把待检测样本分类成多个类别(正常样本、病毒家族1~病毒家族n)中的一类。解决多元分类问题有两种办法:直接使用多元分类器,将二元分类器通过多种策略转换为多元分类器。常见的转换方法有one-against-one和one-against-all两种:
第一种、一对多法(one-versus-rest)。训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个二元分类器。分类时将未知样本分类为具有最大分类函数值的那类。
第二种、一对一法(one-versus-one)。其做法是在任意两类样本之间设计一个二元分类器,因此k个类别的样本就需要设计k(k-1)/2个二元分类器。当对一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别。
模型训练单元1504,用于对于学习集中的每个样本,将其特征集合与各个黑特征集合以及白特征集合进行比对,得到该文件样本的特征向量。具体方法为:假设3中得到的黑特征集合和白特征集合总个数为n,则结果向量的维数为n。遍历n个特征,如果该特征包含在此样本中,则此样本的特征向量的对应位置1,否则置0;将生成的特征向量进行模型训练;将训练的分类模型输出以用于样本识别。
可以理解的是,本实施例中所述得到用以识别所述至少一类病毒及正常文件的分类模型可以由k+1个分类模型组成,其中k表示k-1类病毒以及1 类正常文件。
可见,通过采用上述方案,就能够划分得到至少一类病毒的训练样本、以及正常文件的训练样本,进而基于上述至少一类病毒以及正常文件的训练样本对应的特征分别建立不同类病毒的特征信息库、以及正常文件的特征信息库;最终基于不同类病毒的特征信息库、以及正常文件的特征信息库建立得到多元分类模型以识别病毒的类型或者识别正常文件。如此,由于对训练使用的病毒样本进行了分类,有效的提高了检测模型的准确性,降低了漏报率,同时也使得识别结果更加精细;另外,通过多元分类模型的建立,保证减少在进行病毒分析时人工干预的成分,极大的降低了病毒检测的成本,提高了效率,并缩短了病毒出现到被查杀的时间。
实施例五、
本发明实施例提供了一种服务器,如图15所示,所述服务器包括:
样本选取单元1501,用于将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
特征提取单元1502,用于对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
特征选取单元1503,用于利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
模型训练单元1504,用于基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
比如,参见图16,利用训练样本进行模型生成过程中,经过了样本选取、特征提取、特征选取以及模型训练等几个单元的处理,具体的:
样本选取单元1501,用于所述将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本,可以依赖于预先建立的样本类别分类体系,既然是做病毒样本检测,这里的类别就是从样本的安全属性来说的,具体来说,分成病毒样本与正常样本,其中病毒样本按照家族又分成多个类。
比如,参见图3,假设当前有五个训练样本,分别为训练样本1、训练样本2、训练样本3、训练样本4和训练样本5;当前可以将类型分为“正常文件”和病毒两大类,而在病毒类别中,还包括有“第一类病毒”和“第二类病毒”这两种小类别。对训练样本1-训练样本5进行划分的结果可以为:将训练样本1和训练样本5划分为正常文件的训练样本;训练样本2和训练样本4划分为第一类病毒的训练样本;训练样本3划分为第二类病毒的训练样本。
需要说明的是,训练样本可以为预先收集的多个样本。将训练样本用于作为建立模型的学习集。样本选取单元1501,用于控制挑选出的训练样本的学习集合应满足以下条件:对于每一类病毒,也就是每一个病毒家族中都应至少包括预设数量的训练样本,比如,可以设置每一类病毒中包括的预设数量可以不同,另外,还需要包括一定数量的正常文件;仍然参见图3,可以设置第一类病毒需要至少包括100个训练样本;第二类病毒需要至少包含 150个训练样本;正常样本则需要至少包括有200个训练样本;当然上述设置仅为一种处理情况,实际处理中可以将每一类病毒设置的至少包括的预设数量的训练样本设置为相同的数量,比如,可以均设置为包括有80个训练样本。另外,由于每个文件已经预先打上类别标签。预先对样本建立类别分类体系对保证整个系统检测效果是非常重要的一步。
特征提取单元1502,用于针对不同格式的训练样本进行不同的特征提取,分别得到不同训练样本提取的至少一个特征作为特征集合。其中,所述根据不同格式的训练样本进行不同的特征提取,可以为根据预先设置的提取的特征列表进行提取。比如,参见图4,对于Android的“.dex”这种可执行文件作为训练样本来说,可以提取的特征至少包括以下之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征、权限特征。特征提取完成后,学习集里面的每个样本都得到一个特征集合。
下面针对如何分别建立每一类病毒的特征信息库以及如何建立正常文件的特征信息库进行详细说明,可以为:
首先,对建立每一类病毒的特征信息库进行详细介绍,这里可以将病毒对应的特征信息库作为黑特征信息库,具体来说:
所述特征选取单元1503,用于从所述至少一类病毒中逐个选取得到目标类病毒;获取所述目标类病毒的全部训练样本的特征集合;根据所述目标类病毒的全部训练样本的特征集合中的每一个特征出现的次数,选取得到目标类病毒的至少一个特征信息,将所述至少一个特征信息添加至所述目标类病毒的特征信息库;以此类推,直至获取到全部类病毒对应的特征信息库。
比如,参见图9,假设当前具备两类病毒,分别为第一类病毒和第二类病毒;先选取第一类病毒作为目标类病毒,然后获取到第一类病毒对应的全部训练样本,如图中所示包括有训练样本1~训练样本100,共100个训练样本;然后分别获取到训练样本1~训练样本100对应的特征集合,每一个所述特征集合中可以包括有不同数量的至少一个特征信息。
其中,所述根据所述目标类病毒的全部训练样本的特征集合中的每一个特征出现的次数,选取得到目标类病毒的至少一个特征信息,包括:
从所述全部训练样本的特征集合中依次提取特征,判断提取的特征是否仅出现在所述目标类病毒的训练样本中,若是,则确定提取的所述特征为所述目标类病毒的候选特征信息;获取到所述候选特征信息在目标类病毒的全部训练样本的特征集合中出现的次数;判断所述候选特征信息对应的出现的次数是否大于第一阈值,若大于,则确定所述候选特征信息为目标类病毒的特征信息;其中,所述第一阈值可以为根据实际情况进行设置,比如,可以设置为第一阈值为70,那么就是指的候选特征信息出现超过70次就可以作为目标类病毒的特征信息,即黑特征。
比如,参见图10,在图9的基础上,同样假设第一类病毒为目标类病毒,则分别判断第一类病毒每一个训练样本对应的每一个特征是否仅出现在第一类病毒中,然后提取出图10中所示的特征A~特征H等8个特征,为仅出现在第一类病毒的训练样本中的特征;
假设对提取得到的8个特征每一个特征在训练样本中出现的次数分别进行统计,特征A为80次,特征B65次,特征C100次~特征H为20次,其他的特征的数量在此不进行穷举;
当第一阈值为70时,如图10所示,可以选取出来黑特征为特征A和特征C,也就是说选取出来特征A和特征C作为第一类病毒的特征信息,将特征A和特征C添加到第一类病毒的特征信息库中。
另外,在进行上述各个类病毒的特征信息库的建立时,可以同时确定正常文件的特征信息库,具体包括:特征选取单元1503,用于获取所述正常文件包含的全部训练样本的特征集合;根据所述正常文件的全部训练样本的特征集合中的每一个特征出现的次数,选取得到正常文件的至少一个特征信息,将所述至少一个特征信息添加至所述正常文件的特征信息库。比如,参见图11,正常文件的训练样本包括有训练样本11-1~训练样本11-100,共 100个训练样本;然后分别获取到训练样本11-1~训练样本11-100对应的特征集合,所述特征集合中包括有至少一个特征信息。
其中,所述根据所述正常文件的全部训练样本的特征集合中的每一个特征出现的次数,选取得到正常文件的至少一个特征信息,包括:
从所述全部训练样本的特征集合中依次提取特征,判断提取的特征是否仅出现在所述正常文件的训练样本中,若是,则确定提取的所述特征为所述正常文件的候选特征信息;获取到所述候选特征信息在正常文件的全部训练样本的特征集合中出现的次数;判断所述候选特征信息对应的出现的次数是否大于第二阈值,若大于,则确定所述候选特征信息为正常文件的特征信息。
比如,参见图11,判断正常文件的每一个训练样本对应的每一个特征是否仅出现在正常文件中,根据判断结果提取出图11中所示的特征I、特征 J、特征K、特征L;假设对提取得到的4个特征每一个特征在训练样本中出现的次数分别进行统计,分别出现的次数为61次、52次、70次以及80 次;
当第二阈值为60时,如图11所示,可以选取出来正常文件对应的白特征为特征I、特征K和特征L,将特征I、特征K和特征L添加到正常文件的特征信息库中。
在本实施例中,所述基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型的处理,可以选用SVM作为二元分类器,训练时依次把某个家族的样本归为一类,其他剩余的样本归为另一类,另外,白样本也作为单独的一类,这样k 个家族的样本就需要分k+1类,构造出k+1个SVM。
进一步地,对于每个类来说,可以执行以下三步处理以建立该一类的分类模型:
对于学习集中的每个样本,将其特征集合与各个黑特征集合以及白特征集合进行比对,得到该文件样本的特征向量。具体方法为:假设3中得到的黑特征集合和白特征集合总个数为n,则结果向量的维数为n。遍历n个特征,如果该特征包含在此样本中,则此样本的特征向量的对应位置1,否则置0;
将生成的特征向量进行模型训练;
将训练的分类模型输出以用于样本识别。
可以理解的是,本实施例中所述得到用以识别所述至少一类病毒及正常文件的分类模型可以由k+1个分类模型组成,其中k表示k-1类病毒以及1 类正常文件,k为大于等于2的整数。
可见,通过采用上述方案,就能够划分得到至少一类病毒的训练样本、以及正常文件的训练样本,进而基于上述至少一类病毒以及正常文件的训练样本对应的特征分别建立不同类病毒的特征信息库、以及正常文件的特征信息库;最终基于不同类病毒的特征信息库、以及正常文件的特征信息库建立得到多元分类模型以识别病毒的类型或者识别正常文件。如此,由于对训练使用的病毒样本进行了分类,有效的提高了检测模型的准确性,降低了漏报率,同时也使得识别结果更加精细;另外,通过多元分类模型的建立,保证减少在进行病毒分析时人工干预的成分,极大的降低了病毒检测的成本,提高了效率,并缩短了病毒出现到被查杀的时间。
实施例六、
在上述实施例四或实施例五提供的建立分类模型的基础上,本实施例着重针对如何利用分类模型对终端设备发来的信息进行识别进行说明,一种服务器,参见图17,包括:
样本选取单元1701,用于将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
特征提取单元1702,用于对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
特征选取单元1703,用于利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
模型训练单元1704,用于基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
识别单元1705,用于获取到终端设备发来的待识别文件,对所述待识别文件进行特征提取得到所述待识别文件对应的至少一个特征;基于所述待识别文件的至少一个特征、以及所述分类模型,确定对所述待识别文件的类型识别结果,其中,所述类型识别结果中包括有所述待识别文件为所述至少一类病毒文件中的一类、或确定所述待识别文件为正常文件;发送所述类型识别结果至所述终端设备。
具体的,参见图18,在图16的基础上,还提供识别单元,本实施例的第一个场景为:从终端设备获取到了待识别样本,然后利用识别单元中的特征提取功能进行特征提取,其中,对所述待识别文件进行特征提取得到所述待识别文件对应的至少一个特征的处理方式,具体可以为:针对待识别文件的格式的进行特征提取。其中,所述根据不同格式的训练样本进行不同的特征提取,可以为根据预先设置的提取的特征列表进行提取。比如,参见图4,对于Android的“.dex”这种可执行文件作为训练样本来说,可以提取的特征至少包括以下之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征、权限特征。特征提取完成后,学习集里面的每个样本都得到一个特征集合。
进一步地,本实施例中识别单元,用于利用模型模型对所述待识别文件的类型进行识别;具体可以为:基于所述待识别文件的至少一个特征、以及所述分类模型,确定所述待识别文件的在每一类对应的分类函数值,选取得到分类函数值最大的一个类别作为所述待识别文件对应的类别。比如,首先将待识别样本的特征转换成向量,然后利用4中生成的k+1个机器学习模型进行分类,将未知样本分类为具有最大分类函数值的那个类;参见图13,将待识别文件输入到分类模型中,然后得到正常文件类型的函数值为40,第一类病毒的分类函数值为20,第二类病毒的分类函数值为98,那么可以确定分类结果为所述待识别文件为第二类病毒。
另外,本实施例还可以在上述实施例一或实施例二提供的建立分类模型的基础上,也可以以终端设备的客户端加云端的服务器的方式部署,将模型训练和样本识别放到云端,客户端负责提取待检测样本的特征,发送给云端,云端完成检测后,回传结果给客户端。此时,系统的基本架构如下图所示,所有模块和各个模块内部的流程和之前一致。包括:
样本选取单元1701,用于将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;
特征提取单元1702,用于对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;
特征选取单元1703,用于利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;
模型训练单元1704,用于基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
识别单元1705,用于获取到终端设备发来的待识别文件对应的至少一个特征;基于所述待识别文件的至少一个特征、以及所述分类模型,确定对所述待识别文件的类型识别结果,其中,所述类型识别结果中包括有所述待识别文件为所述至少一类病毒文件中的一类、或确定所述待识别文件为正常文件;发送所述类型识别结果至所述终端设备。
与本实施例上述两个场景均涉及到与终端设备侧的交互,比如,参见图 19,终端设备可以为手机,在手机中安装有手机管家,开启手机管家的云查杀功能,手管客户端对手机上的样本提取特征,发到云端的服务器,云端的服务器使用训练好的模型对其进行分类,从而判别该样本的安全状态,如果是病毒,还可以判别其所属的家族,然后将结果返回给手管客户端,手管客户端可以根据需要对用户展示和对病毒样本进行处理。
针对第二中场景,参见图20,客户端负责提取待检测样本的特征,发送给云端的服务器,云端的服务器完成检测后,回传结果给客户端。此时,系统的基本架构如图所示,所有模块和各个模块内部的流程和前述实施例中一致,在此不再进行赘述。
可见,通过采用上述方案,就能够划分得到至少一类病毒的训练样本、以及正常文件的训练样本,进而基于上述至少一类病毒以及正常文件的训练样本对应的特征分别建立不同类病毒的特征信息库、以及正常文件的特征信息库;最终基于不同类病毒的特征信息库、以及正常文件的特征信息库建立得到多元分类模型以识别病毒的类型或者识别正常文件。如此,由于对训练使用的病毒样本进行了分类,有效的提高了检测模型的准确性,降低了漏报率,同时也使得识别结果更加精细;另外,通过多元分类模型的建立,保证减少在进行病毒分析时人工干预的成分,极大的降低了病毒检测的成本,提高了效率,并缩短了病毒出现到被查杀的时间。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例基于上述设备实施例提供一个具体的硬件,如图21所示,所述装置包括处理器、存储介质以及至少一个外部通信接口;所述处理器、存储介质以及外部通信接口均通过总线连接。所述处理器可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码。
所述硬件可以为所述服务器。所述处理器执行所述计算机可执行代码时,至少能实现以下功能:将训练样本划分为至少一类病毒的训练样本以及正常文件的训练样本;对所述训练样本进行特征提取,分别得到每一个训练样本的特征集合;利用所述每一个训练样本的所述特征集合,确定所述至少一类病毒中每一类病毒的特征信息库、以及确定正常文件的特征信息库;基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少一类病毒及正常文件的分类模型。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种文件类型识别方法,应用于服务器,其特征在于,该方法包括:
获取已标记类别标签的训练样本,其中,所述类别标签包括病毒类别和安全属性;
将所述训练样本划分为至少两类病毒的训练样本以及正常文件的训练样本;
根据预先设置的提取特征列表,对不同的所述类别标签的所述训练样本进行特征提取,分别得到每一个训练样本的特征集合,其中,所述特征集合包括以下至少之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征和权限特征;
将所述每一个训练样本的所述特征集合中的每一个特征信息的出现次数进行排序,根据所述排序确定所述至少两类病毒中每一类病毒的特征信息库,并根据所述排序确定所述正常文件的特征信息库;
基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少两类病毒及正常文件的分类模型;
获取终端设备发来的待识别文件,对所述待识别文件进行特征提取得到所述待识别文件的至少一个特征;
基于所述待识别文件的至少一个特征、以及所述分类模型,确定所述待识别文件在每一类对应的分类函数值,选取分类函数值最大的一个类别作为所述待识别文件对应的类型识别结果;
其中,所述类型识别结果中包括有所述待识别文件为所述至少两类病毒文件中的一类、或所述待识别文件为正常文件;
发送所述类型识别结果至所述终端设备。
2.根据权利要求1所述的方法,其特征在于,所述将所述每一个训练样本的所述特征集合中的每一个特征信息的出现次数进行排序,根据所述排序确定所述至少两类病毒中每一类病毒的特征信息库,并根据所述排序确定所述正常文件的特征信息库,包括:
从全部训练样本的特征集合中逐个选取目标特征信息;
判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的特征信息库;
若不是,则判断所述目标特征信息是否仅存在于所述至少两类病毒中的任一类目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到对应的所述目标类病毒的特征信息库中。
3.根据权利要求1所述的方法,其特征在于,所述将所述每一个训练样本的所述特征集合中的每一个特征信息的出现次数进行排序,根据所述排序确定所述至少两类病毒中每一类病毒的特征信息库,并根据所述排序确定所述正常文件的特征信息库,包括:
从全部训练样本的特征集合中逐个选取目标特征信息;
判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的待用特征信息集合;
若不是,则判断所述目标特征信息是否仅存在于目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到所述目标类病毒的待用特征信息集合;直至完成对全部训练样本的特征集合中的全部特征信息的判断为止;
对所述正常文件的待用特征信息集合中的每一个特征信息的出现次数进行统计,基于统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到所述正常文件的特征信息库;以及对每一类病毒的待用特征信息集合中的每一个特征信息的出现次数进行统计,根据统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到对应类病毒的特征信息库。
4.根据权利要求1所述的方法,其特征在于,所述将所述每一个训练样本的所述特征集合中的每一个特征信息的出现次数进行排序,根据所述排序确定所述至少两类病毒中每一类病毒的特征信息库,包括:
从所述至少两类病毒中逐个选取得到目标类病毒;
获取所述目标类病毒的全部训练样本的特征集合;
根据所述目标类病毒的全部训练样本的特征集合中的每一个特征出现的次数,选取得到目标类病毒的至少一个特征信息,将所述至少一个特征信息添加至所述目标类病毒的特征信息库;
以此类推,直至获取到全部类病毒对应的特征信息库。
5.根据权利要求4所述的方法,其特征在于,所述根据所述排序确定所述正常文件的特征信息库,包括:
获取所述正常文件包含的全部训练样本的特征集合;
根据所述正常文件的全部训练样本的特征集合中的每一个特征出现的次数,选取得到正常文件的至少一个特征信息,将所述至少一个特征信息添加至所述正常文件的特征信息库。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述确定用以识别所述至少两类病毒文件及正常文件的分类模型之后,所述方法还包括:
获取到终端设备发来的所述待识别文件对应的至少一个特征;
基于所述待识别文件的至少一个特征、以及所述分类模型,确定对所述待识别文件的类型识别结果,其中,所述类型识别结果中包括有所述待识别文件为所述至少两类病毒文件中的一类、或所述待识别文件为正常文件;
发送所述类型识别结果至所述终端设备。
7.一种服务器,其特征在于,所述服务器包括:
样本选取单元,用于获取已标记类别标签的训练样本,其中,所述类别标签包括病毒类别和安全属性;将所述训练样本划分为至少两类病毒的训练样本以及正常文件的训练样本;
特征提取单元,用于根据预先设置的提取的特征列表,对不同的所述类别标签的所述训练样本进行特征提取,分别得到每一个训练样本的特征集合,其中,所述特征集合包括以下至少之一:头部信息特征、常量特征、操作数特征、指令序列特征、类名函数名特征和权限特征;
特征选取单元,用于将所述每一个训练样本的所述特征集合中的每一个特征信息的出现次数进行排序,根据所述排序确定所述至少两类病毒中每一类病毒的特征信息库,并根据所述排序确定所述正常文件的特征信息库;
模型训练单元,用于基于所述每一类病毒的特征信息库、以及正常文件的特征信息库,确定用以识别所述至少两类病毒及正常文件的分类模型;
识别单元,用于获取终端设备发来的待识别文件,对所述待识别文件进行特征提取得到所述待识别文件的至少一个特征;基于所述待识别文件的至少一个特征、以及所述分类模型,确定所述待识别文件在每一类对应的分类函数值,选取分类函数值最大的一个类别作为所述待识别文件对应的类型识别结果;其中,所述类型识别结果中包括有所述待识别文件为所述至少两类病毒文件中的一类、或所述待识别文件为正常文件;发送所述类型识别结果至所述终端设备。
8.根据权利要求7所述的服务器,其特征在于,所述特征选取单元,用于从全部训练样本的特征集合中逐个选取目标特征信息;判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的特征信息库;若不是,则判断所述目标特征信息是否仅存在于所述至少两类病毒中的任一类目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到对应的所述目标类病毒的特征信息库中。
9.根据权利要求7所述的服务器,其特征在于,所述特征选取单元,用于从全部训练样本的特征集合中逐个选取目标特征信息;
判断所述目标特征信息是否仅存在于所述正常文件的特征集合中,若是,则将所述目标特征信息添加到所述正常文件的待用特征信息集合;
若不是,则判断所述目标特征信息是否仅存在于目标类病毒的训练样本的特征集合中,若是,则将所述目标特征信息添加到所述目标类病毒的待用特征信息集合;直至完成对全部训练样本的特征集合中的全部特征信息的判断为止;
对所述正常文件的待用特征信息集合中的每一个特征信息的出现次数进行统计,基于统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到所述正常文件的特征信息库;以及对每一类病毒的待用特征信息集合中的每一个特征信息的出现次数进行统计,根据统计的出现次数从所述待用特征集合中选取得到至少一个特征信息添加到对应类病毒的特征信息库。
10.根据权利要求7所述的服务器,其特征在于,所述特征选取单元,用于从所述至少两类病毒中逐个选取得到目标类病毒;获取所述目标类病毒的全部训练样本的特征集合;根据所述目标类病毒的全部训练样本的特征集合中的每一个特征出现的次数,选取得到目标类病毒的至少一个特征信息,将所述至少一个特征信息添加至所述目标类病毒的特征信息库;以此类推,直至获取到全部类病毒对应的特征信息库。
11.根据权利要求10所述的服务器,其特征在于,所述特征选取单元,用于获取所述正常文件包含的全部训练样本的特征集合;根据所述正常文件的全部训练样本的特征集合中的每一个特征出现的次数,选取得到正常文件的至少一个特征信息,将所述至少一个特征信息添加至所述正常文件的特征信息库。
12.根据权利要求7-11任一项所述的服务器,其特征在于,所述识别单元,用于获取到终端设备发来的所述待识别文件对应的至少一个特征;基于所述待识别文件的至少一个特征、以及所述分类模型,确定对所述待识别文件的类型识别结果,其中,所述类型识别结果中包括有所述待识别文件为所述至少两类病毒文件中的一类、或所述待识别文件为正常文件;发送所述类型识别结果至所述终端设备。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有可执行指令,所述可执行指令执行时实现权利要求1至6任一项所述的文件类型识别方法。
CN201610272161.5A 2016-04-27 2016-04-27 一种文件类型识别方法及服务器 Active CN107315954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610272161.5A CN107315954B (zh) 2016-04-27 2016-04-27 一种文件类型识别方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610272161.5A CN107315954B (zh) 2016-04-27 2016-04-27 一种文件类型识别方法及服务器

Publications (2)

Publication Number Publication Date
CN107315954A CN107315954A (zh) 2017-11-03
CN107315954B true CN107315954B (zh) 2020-06-12

Family

ID=60184644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610272161.5A Active CN107315954B (zh) 2016-04-27 2016-04-27 一种文件类型识别方法及服务器

Country Status (1)

Country Link
CN (1) CN107315954B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200087B (zh) * 2018-02-01 2020-05-12 平安科技(深圳)有限公司 web入侵检测方法、装置、计算机设备和存储介质
CN110198291B (zh) * 2018-03-15 2022-02-18 腾讯科技(深圳)有限公司 一种网页后门检测方法、装置、终端及存储介质
CN108881307B (zh) * 2018-08-10 2022-02-25 中国信息安全测评中心 一种面向移动终端的安全性检测方法及装置
US11431738B2 (en) 2018-12-19 2022-08-30 Abnormal Security Corporation Multistage analysis of emails to identify security threats
US11050793B2 (en) 2018-12-19 2021-06-29 Abnormal Security Corporation Retrospective learning of communication patterns by machine learning models for discovering abnormal behavior
US11824870B2 (en) * 2018-12-19 2023-11-21 Abnormal Security Corporation Threat detection platforms for detecting, characterizing, and remediating email-based threats in real time
CN109766691B (zh) * 2018-12-20 2023-08-22 广东电网有限责任公司 一种勒索病毒监控方法及装置
CN112052449A (zh) * 2019-06-06 2020-12-08 深信服科技股份有限公司 一种恶意文件识别方法、装置、设备及存储介质
CN110336835B (zh) * 2019-08-05 2021-10-19 深信服科技股份有限公司 恶意行为的检测方法、用户设备、存储介质及装置
CN111125702A (zh) * 2019-12-25 2020-05-08 成都知道创宇信息技术有限公司 一种病毒识别方法及装置
US11470042B2 (en) 2020-02-21 2022-10-11 Abnormal Security Corporation Discovering email account compromise through assessments of digital activities
US11477234B2 (en) 2020-02-28 2022-10-18 Abnormal Security Corporation Federated database for establishing and tracking risk of interactions with third parties
US11790060B2 (en) 2020-03-02 2023-10-17 Abnormal Security Corporation Multichannel threat detection for protecting against account compromise
US11252189B2 (en) 2020-03-02 2022-02-15 Abnormal Security Corporation Abuse mailbox for facilitating discovery, investigation, and analysis of email-based threats
WO2021183939A1 (en) 2020-03-12 2021-09-16 Abnormal Security Corporation Improved investigation of threats using queryable records of behavior
US11470108B2 (en) 2020-04-23 2022-10-11 Abnormal Security Corporation Detection and prevention of external fraud
CN111753290B (zh) * 2020-05-26 2024-05-28 郑州启明星辰信息安全技术有限公司 软件类型的检测方法及相关设备
US11528242B2 (en) 2020-10-23 2022-12-13 Abnormal Security Corporation Discovering graymail through real-time analysis of incoming email
CN112445760B (zh) * 2020-11-13 2024-05-14 三六零数字安全科技集团有限公司 文件分类方法、设备、存储介质及装置
US11687648B2 (en) 2020-12-10 2023-06-27 Abnormal Security Corporation Deriving and surfacing insights regarding security threats
US11831661B2 (en) 2021-06-03 2023-11-28 Abnormal Security Corporation Multi-tiered approach to payload detection for incoming communications
CN113254935A (zh) * 2021-07-02 2021-08-13 北京微步在线科技有限公司 恶意文件识别方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077527A (zh) * 2014-06-20 2014-10-01 珠海市君天电子科技有限公司 病毒检测机的生成方法和装置及病毒检测方法和装置
CN105095755A (zh) * 2015-06-15 2015-11-25 安一恒通(北京)科技有限公司 文件识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013082437A1 (en) * 2011-12-02 2013-06-06 Invincia, Inc. Methods and apparatus for control and detection of malicious content using a sandbox environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077527A (zh) * 2014-06-20 2014-10-01 珠海市君天电子科技有限公司 病毒检测机的生成方法和装置及病毒检测方法和装置
CN105095755A (zh) * 2015-06-15 2015-11-25 安一恒通(北京)科技有限公司 文件识别方法和装置

Also Published As

Publication number Publication date
CN107315954A (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
CN107315954B (zh) 一种文件类型识别方法及服务器
CN109309630B (zh) 一种网络流量分类方法、系统及电子设备
CN109561322B (zh) 一种视频审核的方法、装置、设备和存储介质
US10721247B2 (en) Machine learning based malware detection system
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
US9465992B2 (en) Scene recognition method and apparatus
WO2019169700A1 (zh) 一种数据分类方法、装置、设备及计算机可读存储介质
KR20170108330A (ko) 악성 코드 탐지 장치 및 방법
US20170208080A1 (en) Computer-readable recording medium, detection method, and detection apparatus
JP6741216B2 (ja) ログ分析システム、方法およびプログラム
US11221904B2 (en) Log analysis system, log analysis method, and log analysis program
CN106295666B (zh) 获取分类器、检测对象的方法和装置及图像处理设备
CN105224600B (zh) 一种样本相似度的检测方法及装置
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN110210218B (zh) 一种病毒检测的方法以及相关装置
JP2020053073A (ja) 学習方法、学習システム、および学習プログラム
CN115062186B (zh) 一种视频内容检索方法、装置、设备以及存储介质
CN108234452B (zh) 一种网络数据包多层协议识别的系统和方法
CN113329034B (zh) 基于人工智能的大数据业务优化方法、服务器及存储介质
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
US9811726B2 (en) Chinese, Japanese, or Korean language detection
KR102246405B1 (ko) Tf-idf 기반 벡터 변환 및 데이터 분석 장치 및 방법
CN109145609A (zh) 一种数据处理方法和装置
US20140172369A1 (en) Computer-readable recording medium, abnormality cause estimating apparatus, and abnormality cause estimating method
US11749021B2 (en) Retrieval device, control method, and non-transitory storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant