CN107437088A

CN107437088A - 文件识别方法和装置

Info

Publication number: CN107437088A
Application number: CN201610365332.9A
Authority: CN
Inventors: 侯柳平; 刘金克; 王磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2017-12-05
Anticipated expiration: 2036-05-27
Also published as: CN107437088B

Abstract

本申请公开了文件识别方法和装置。所述方法的一具体实施方式包括：从待识别应用程序安装文件中提取特征数据；利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果，其中，所述N个深度学习模型是预先训练的、分别用于识别应用程序是否属于N类风险软件中各类风险软件的深度学习模型；利用各个深度学习模型输出的中间识别结果生成最终识别结果，所述最终识别结果用于确定所述待识别应用程序安装文件属于安全文件或风险软件。该实施方式提高了对应用程序安装文件进行安全性识别的准确性。

Description

文件识别方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及信息安全技术领域，尤其涉及文件识别方法和装置。

背景技术

在移动终端领域，应用安全已经成为一大焦点。恶意软件以及其他风险软件，不仅严重威胁到用户的个人隐私，还可能给用户造成财产损失。移动应用数量的火爆增长，需要及时准确辨别恶意软件，否则极易导致恶意软件泛滥。

尽管已有技术能对移动端的应用程序安装文件进行安全性识别，但目前现有技术中通常都是使用单个模型来检测手机病毒，容易产生病毒误报，且检测结果只能表明是否属于恶意软件，而无法对不同类型的病毒或恶意软件进行很好的区分。

发明内容

本申请的目的在于提出一种文件识别方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种文件识别方法，所述方法包括：接从待识别应用程序安装文件中提取特征数据；利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果；利用各个深度学习模型输出的中间识别结果生成最终识别结果，所述最终识别结果用于确定所述待识别应用程序安装文件属于安全文件或风险软件。

在一些实施例中，在所述从待识别应用程序安装文件中提取特征数据之前，所述方法还包括：按病毒家族或风险级别对风险软件进行分类，得到N类风险软件。

在一些实施例中，所述最终识别结果还用于确定当所述待识别应用程序安装文件属于风险软件时具体属于所述N类风险软件中的哪一类风险软件。

在一些实施例中，所述N个深度学习模型分别是通过以下方式进行训练的：

将安全性已知的应用程序安装文件样本集按照所述N类风险软件分成N+1个子集，其中，一个子集是样本为安全文件的安全文件子集，其余N个子集中每个子集中的样本分别为所述N种类风险软件中的各类风险软件；针对所述N类风险软件中的各类风险软件，将所述安全文件子集以及其余N个子集中非当前种类的风险软件所对应的N-1个子集作为白样本集，使用从白样本集中各个样本所提取出的所述特征数据进行训练，生成用于识别文件是否属于当前风险软件的深度学习模型。

在一些实施例中，所述利用N个深度学习模型对所提取的特征数据进行匹配以得到中间识别结果，包括：对预先设置的逻辑表达式执行逻辑处理步骤，所述逻辑表达式包括用于表征所述N个深度学习模型中各个深度学习模型的模型标识以及表征依次输入或并行输入的逻辑运算符，所述逻辑处理步骤包括：针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，所述片段为子逻辑表达式或模型标识；以及所述利用各个深度学习模型输出的中间识别结果生成最终识别结果，包括：将对所述逻辑表达式执行逻辑处理步骤最终所生成的识别结果确定为所述最终识别结果。

在一些实施例中，所述对逻辑运算符所运算的各个片段进行处理，包括：当片段是子逻辑表达式时，继续对所述子逻辑表达式执行逻辑处理步骤；当片段是模型标识时，利用所述模型标识指示的深度学习模型对所述特征数据进行处理以生成中间识别结果。

在一些实施例中，所述针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，包括：针对表征依次输入的顺序输入逻辑运算符，依次对所述顺序输入逻辑运算符所运算的片段进行处理；若对当前片段进行处理所生成的识别结果满足预先设定的条件，则将该识别结果确定为该逻辑运算符处理生成的识别结果，否则继续处理所述顺序输入逻辑运算符的后续片段。

在一些实施例中，所述针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各个片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，还包括：在所述依次对所述顺序输入逻辑运算符所运算的片段进行处理的过程中，若当前片段为顺序输入逻辑标识符所运算的最后一个片段，则将按照所述最后一个片段进行处理所生成的中间识别结果确定为所述顺序输入逻辑运算符处理生成的识别结果。

在一些实施例中，所述针对各个逻辑运算符，依次或并行按照逻辑运算符所运算的片段进行处理，基于各个片段的处理结果得到所述逻辑运算符处理生成的结果，包括：针对表征并行输入的逻辑运算符，并行对逻辑运算符所运算的各个片段进行处理以生成各个片段所对应的识别结果；若所生成的各个识别结果均指示所述待识别应用程序安装文件是安全文件时，则将所述待识别应用程序安装文件是安全文件的识别结果确定为所述逻辑运算符生成的识别结果；否则，将各个识别结果中第一个指示待识别应用程序安装文件是风险软件的识别结果确定为所述逻辑运算符生成的识别结果。

第二方面，本申请提供了一种文件识别装置，所述装置包括：提取单元，用于从待识别应用程序安装文件中提取特征数据；匹配单元，用于利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果，其中，所述N个深度学习模型是预先训练的、分别用于识别应用程序是否属于N类风险软件中各类风险软件的深度学习模型，N是大于1的整数，所述中间识别结果用于表征所述待识别应用程序安装文件是否属于各个深度学习模型对应的风险软件类型；生成单元，用于利用各个深度学习模型输出的中间识别结果生成最终识别结果，所述最终识别结果用于确定所述待识别应用程序安装文件属于安全文件或风险软件。

在一些实施例中，所述装置还包括：分类单元，用于在所述从待识别应用程序安装文件中提取特征数据之前，按病毒家族或风险级别对风险软件进行分类，得到N类风险软件。

在一些实施例中，所述装置还包括模型训练单元，具体用于：将安全性已知的应用程序安装文件样本集按照所述N类风险软件分成N+1个子集，其中，一个子集是样本为安全文件的安全文件子集，其余N个子集中每个子集中的样本分别为所述N种类风险软件中的各类风险软件；针对所述N类风险软件中的各类风险软件，将所述安全文件子集以及其余N个子集中非当前种类的风险软件所对应的N-1个子集作为白样本集，使用从白样本集中各个样本所提取出的所述特征数据进行训练，生成用于识别文件是否属于当前风险软件的深度学习模型。

在一些实施例中，所述匹配单元进一步用于：对对预先设置的执行逻辑处理步骤，所述逻辑表达式包括用于表征所述N个深度学习模型中各个深度学习模型的模型标识以及表征依次输入或并行输入的逻辑运算符，所述逻辑处理步骤包括：针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，所述片段为子逻辑表达式或模型标识；以及所述生成单元进一步用于：将对所述逻辑表达式执行逻辑处理步骤最终所生成的识别结果确定为所述最终识别结果。

本申请提供的文件识别方法和装置，通过多个深度学习模型对从待识别应用程序安装文件提取出的特征数据进行处理得到的中间识别结果进行处理，得到最终的识别结果，提高了安全性识别的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的文件识别方法的一个实施例的流程图；

图3是根据本申请的文件识别方法的又一个实施例的流程图；

图4是根据本申请的文件识别装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的文件识别方法或文件识别装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、移动安全类应用等。

终端设备101、102、103可以是具有各种移动式电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机等等。

服务器105可以是提供各种服务的服务器，例如可以对待识别的应用程序安装文件的特征数据等进行分析等处理，并将处理结果(例如识别结果)发送给终端设备。

需要说明的是，本申请实施例所提供的文件识别方法一般可以由服务器105执行，一些步骤也可以由终端设备101、102、103执行；相应地，文件识别装置一般可以设置于服务器105，一些单元也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的文件识别方法的一个实施例的流程200。所述的文件识别方法，包括以下步骤：

步骤201，从待识别应用程序安装文件中提取特征数据。

在本实施例中，文件识别方法运行于其上的电子设备(例如图1所示的服务器)可以从本地或者从远程的其他设备获取待识别应用程序安装文件。该待识别应用程序安装文件可以在各种操作系统上运行的应用所对应的安装文件。例如，在Android系统下，待识别应用程序安装文件可以是apk、jar、dex和elf等各种格式的文件；在IOS系统下，待识别应用程序安装文件可以是ipa、pxl、deb等格式的软件；在Windows以及类似的移动操作系统下，待识别应用程序安装文件可以是pe、jar等格式的软件；在Unix以及类似移动操作系统下，待识别应用程序安装文件可以是elf、jar等格式的软件。实践中，移动操作系统的类型以及待识别应用程序安装文件的格式不限于以上所列举出的。

对于待识别应用程序安装文件，电子设备可以按照预先设定的规则从该文件进行特征提取，提取出可供后续步骤中深度学习模型进行处理的特征数据。实践中，特征提取可以是对安装文件整体进行特征提取，也可以对安装文件中的一些子文件进行特征提取，也可以仅对安装文件的结构特征(例如安装包中子文件的文件名特征、文件长度特征等)进行提取。

步骤202，利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果。

在本实施例中，基于步骤201中得到的特征数据，电子设备可以将利用预先设置的N个深度学习模型进行相应处理。即，可以将所提取的特征数据分别输入至N个深度学习模型中的各个模型中，使得各个模型可以对所输入的特征数据进行匹配处理，得到各个中间识别结果。

通常，上述N个深度学习模型中的各个模型可以是预先训练的、分别用于识别N类不同的风险软件中各类风险软件的深度学习模型。其中，N是大于1的整数。由于各个机器学习模型分别用于识别相应的风险软件类型，所得到的中间结果即用于表征待识别应用程序安装文件是否属于各个深度学习模型对应的风险软件类型。

步骤203，利用各个深度学习模型输出的中间识别结果生成最终识别结果。

在本实施例中，基于步骤202所得到的中间结果，电子设备可以通过各个中间结果进行投票，从而得到最终识别结果，即确定待识别应用程序安装文件属于安全文件或风险软件。其中，具体的投票规则可以预先设定。

在本实施例的一些可选实现方式中，最终识别结果还用于确定当待识别应用程序安装文件属于风险软件时具体属于N类风险软件中的哪一类风险软件。确定属于N类风险软件中的哪一类风险软件的方法也可以在投票规则中进行设定。

在本实施例的一些可选实现方式中，在步骤201之前，上述文件识别方法还包括：按病毒家族或风险级别对风险软件进行分类，得到N类风险软件。即，上述N类风险文件可以是按照病毒家族进行分类而得到的。通常，反病毒厂商基本上都通过病毒家族来管理海量的病毒，其将恶意行为类似或者恶意代码相似的病毒归类为同一个家族，首先发现该病毒家族的厂商拥有该家族的命名权。例如，在安卓平台上，常见的病毒家族有几百种，例如：FakeSMS、Dowgin、Kongfu、Fobus等。或者，上述N类风险文件可以是按照风险级别进行分类而得到的。通常，反病毒厂商一般将病毒分为2个以上的风险等级，例如，可以将安卓手机病毒按照严重程度由高到低分为多个风险等级，分别是恶意、高风险、低风险等。

在本实施例的一些可选实现方式中，上述N个深度学习模型可以是分别通过以下方式进行训练的。首先，可以将安全性已知的应用程序安装文件样本集按照N类风险软件分成N+1个子集。安全性已知的应用程序安装文件是指该安装文件或者已被确定为安全文件，或者已被确认为风险文件以及具体属于哪一类风险文件。所生成的N+1个子集中，一个子集是样本为安全文件的安全文件子集，其余N个子集中每个子集中的样本分别为N种类风险软件中的各类风险软件。之后，针对上述N类风险软件中的各类风险软件，可以将安全文件子集以及其余N个子集中非当前种类的风险软件所对应的N-1个子集作为白样本集，使用从白样本集中各个样本所提取出的特征数据进行训练，生成用于识别文件是否属于当前风险软件的深度学习模型。

本申请的上述实施例提供的方法通过多个深度学习模型对从待识别应用程序安装文件提取出的特征数据进行处理得到的中间识别结果进行处理，得到最终的识别结果，提高了安全性识别的准确性。

进一步参考图3，其示出了文件识别方法的又一个实施例的流程300。该文件识别方法的流程300，包括以下步骤：

步骤301，从待识别应用程序安装文件中提取特征数据。

在本实施例中，步骤301的具体处理可以参考图2对应实施例的步骤201，这里不再赘述。

步骤302，对预先设置的逻辑表达式执行逻辑处理步骤。

在本实施例中，电子设备可以预先存储有用于进行根据中间识别结果进行选举获得最终识别结果的逻辑表达式。该逻辑表达式包括用于表征N个深度学习模型中各个深度学习模型的模型标识以及表征依次输入或并行输入的逻辑运算符。例如，对于各个深度学习模型，可以用标识M₁表示第一个深度学习模型，使用标识M₂表示第二个深度学习模型。逻辑运算符用于表示特征数据输入各个深度学习模型的顺序。输入的顺序可以是按位置依次输入或者同时并行输入，例如使用&表示向两个模型标识对应的深度学习模型中进行特征数据的顺序输入，使用|表示向两个模型标识对应的深度学习模型中进行特征数据进行并行输入，使用()表示向括号中的多个模型标识对应的深度学习模型中进行特征数据的并行输入。

其中，上述逻辑处理步骤具体包括以下过程：首先，针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理。其中，片段为模型标识或者是子逻辑表达式。例如，逻辑表达式可以包括M1&M2，此时&所运算的两个片段皆为模型标识M1和模型标识M2。又例如，逻辑表达式可以包括M1&(M2|M3)，此时&所运算的两个片段分别为模型标识M1和逻辑子表达式(M2|M3)。

可选的，当片段是子逻辑表达式时，继续对子逻辑表达式执行上述逻辑处理步骤。该过程可以循环执行，直到所运算的皮带男为模型标识。当片段是模型标识时，则可以利用模型标识指示的深度学习模型对特征数据进行处理以生成中间识别结果。

在本实施例的一些可选实现方式中，针对表征依次输入的顺序输入逻辑运算符，依次对顺序输入逻辑运算符所运算的片段进行处理；若对当前片段进行处理所生成的识别结果满足预先设定的条件，则将该识别结果确定为该逻辑运算符处理生成的识别结果，否则继续处理顺序输入逻辑运算符的后续片段。在该实现方式中，依次对顺序输入逻辑运算符所运算的片段进行处理的过程中，若对当前片段进行处理所生成的识别结果满足预先设定的条件，则将该识别结果确定为该逻辑运算符处理生成的识别结果。以M1&(M2|M3)为例，可以首先对&运算的第一个片段(即模型标识M1)进行处理。由于M1是模型标识，即可以首先将特征数据输入至M1对应的深度学习模型中进行处理，得到待识别应用程序安装文件是否为相应风险软件的中间结果。当中间结果满足预设条件(例如不是相应的风险软件)时，可以认为进行运算得到的结果即为待识别应用程序安装文件不是相应的风险软件，不需要对&运算的后一个片段(M2|M3)进行处理。

可选的，在依次对顺序输入逻辑运算符所运算的片段进行处理的过程中，若当前片段为顺序输入逻辑标识符所运算的最后一个片段，则将按照最后一个片段进行处理所生成的中间识别结果确定为顺序输入逻辑运算符处理生成的识别结果。即，当顺序输入逻辑运算符中所运算的前述片段中均未达到相应的预设条件而直接得到该逻辑标识符对应的处理结果时，则将该最后一个片段进行处理所生成的中间识别结果确定为顺序输入逻辑运算符处理生成的识别结果。仍以M1&(M2|M3)为例，当M1进行处理的结果是待识别应用程序安装文件属于对应类型的风险软件时，则还需要对M2|M3进行进一步处理，并以M2|M3处理后的结果作为M1&(M2|M3)的最后识别结果。

在本实施例的一些可选实现方式中，针对表征并行输入的逻辑运算符，并行对逻辑运算符所运算的各个片段进行处理以生成各个片段所对应的识别结果；若所生成的各个识别结果均指示待识别应用程序安装文件是安全文件时，则将待识别应用程序安装文件是安全文件的识别结果确定为逻辑运算符生成的识别结果；否则，将各个识别结果中第一个指示待识别应用程序安装文件是风险软件的识别结果确定为逻辑运算符生成的识别结果。

仍以M1&(M2|M3)为例，在对M2|M3进行处理时，可以同时将特征数据输入至M2和M3对应的深度学习模型中。当任意一个模型输出的结果为待识别应用程序安装软件属于对应类型的风险软件时，则得到的结果为该安装文件属于风险软件，且以M2对应的模型所处理的结果优先。即，当M2和M3对应的模型输入的结果均为安装软件属于对应类型的风险文件时，以M2所识别的风险文件类型为准。如果M2和M3结果都为白，则选举的最终结果为该安装文件属于安全软件。

步骤303，将对逻辑表达式执行逻辑处理步骤最终所生成的识别结果确定为最终识别结果。

在本实施例中，基于步骤302中通过逻辑表达式对各中间结果进行处理后，可以得到逻辑运算结果。从而，电子设备可以将所得到的逻辑运算结果作为最终的识别结果。

从图3中可以看出，与图2对应的实施例相比，本实施例中的文件识别的流程300突出了按照逻辑表达式以一定的顺序依次或同时使用各个深度学习模型对特征数据进行处理，并根据处理结果进行选举得到最终的识别结果，可以进一步提高处理效率。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种文件识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的文件识别装置400包括：提取单元401、匹配单元402和生成单元403。其中，提取单元401用于从待识别应用程序安装文件中提取特征数据；匹配单元402用于利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果，其中，N个深度学习模型是预先训练的、分别用于识别应用程序是否属于N类风险软件中各类风险软件的深度学习模型，N是大于1的整数，中间识别结果用于表征待识别应用程序安装文件是否属于各个深度学习模型对应的风险软件类型；而生成单元403用于利用各个深度学习模型输出的中间识别结果生成最终识别结果，最终识别结果用于确定待识别应用程序安装文件属于安全文件或风险软件。

在本实施例中，提取单元401、匹配单元402和生成单元403的具体处理可以参考图2对应实施例的步骤201、步骤202和步骤203，这里不再赘述。

在本实施例的一些可选实现方式中，装置400还包括分类单元(未示出)，用于在从待识别应用程序安装文件中提取特征数据之前，按病毒家族或风险级别对风险软件进行分类，得到N类风险软件。

在本实施例的一些可选实现方式中，最终识别结果还用于确定当待识别应用程序安装文件属于风险软件时具体属于N类风险软件中的哪一类风险软件。

在本实施例的一些可选实现方式中，装置400还包括模型训练单元(未示出)，用于进行训练以得到N个深度学习模型。该模型训练单元具体执行以下功能：将安全性已知的应用程序安装文件样本集按照N类风险软件分成N+1个子集，其中，一个子集是样本为安全文件的安全文件子集，其余N个子集中每个子集中的样本分别为N种类风险软件中的各类风险软件；针对N类风险软件中的各类风险软件，将安全文件子集以及其余N个子集中非当前种类的风险软件所对应的N-1个子集作为白样本集，使用从白样本集中各个样本所提取出的特征数据进行训练，生成用于识别文件是否属于当前风险软件的深度学习模型。

在本实施例的一些可选实现方式中，匹配单元402进一步用于：对逻辑表达式执行逻辑处理步骤，逻辑表达式包括用于表征N个深度学习模型中各个深度学习模型的模型标识以及表征依次输入或并行输入的逻辑运算符，逻辑处理步骤包括：针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各片段所生成的识别结果得到逻辑运算符处理生成的识别结果，片段为子逻辑表达式或模型标识；将对逻辑表达式执行逻辑处理步骤最终所生成的识别结果确定为最终识别结果。以及，生成单元403进一步用于：将对逻辑表达式执行逻辑处理步骤最终所生成的识别结果确定为最终识别结果。该实现方式的具体处理可以参考图3对应实施例中的步骤202以及步骤203，这里不再赘述。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括提取单元、匹配单元和生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，提取单元还可以被描述为“从待识别应用程序安装文件中提取特征数据的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：从待识别应用程序安装文件中提取特征数据；利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果，其中，所述N个深度学习模型是预先训练的、分别用于识别应用程序是否属于N类风险软件中各类风险软件的深度学习模型，N是大于1的整数，所述中间识别结果用于表征所述待识别应用程序安装文件是否属于各个深度学习模型对应的风险软件类型；利用各个深度学习模型输出的中间识别结果生成最终识别结果，所述最终识别结果用于确定所述待识别应用程序安装文件属于安全文件或风险软件。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文件识别方法，其特征在于，所述方法包括：

从待识别应用程序安装文件中提取特征数据；

利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果，其中，所述N个深度学习模型是预先训练的、分别用于识别应用程序是否属于N类风险软件中各类风险软件的深度学习模型，N是大于1的整数，所述中间识别结果用于表征所述待识别应用程序安装文件是否属于各个深度学习模型对应的风险软件类型；

利用各个深度学习模型输出的中间识别结果生成最终识别结果，所述最终识别结果用于确定所述待识别应用程序安装文件属于安全文件或风险软件。

2.根据权利要求1所述的方法，其特征在于，在所述从待识别应用程序安装文件中提取特征数据之前，所述方法还包括：按病毒家族或风险级别对风险软件进行分类，得到N类风险软件。

3.根据权利要求2所述的方法，其特征在于，所述最终识别结果还用于确定当所述待识别应用程序安装文件属于风险软件时具体属于所述N类风险软件中的哪一类风险软件。

4.根据权利要求3所述的方法，其特征在于，所述N个深度学习模型分别是通过以下方式进行训练的：

将安全性已知的应用程序安装文件样本集按照所述N类风险软件分成N+1个子集，其中，一个子集是样本为安全文件的安全文件子集，其余N个子集中每个子集中的样本分别为所述N种类风险软件中的各类风险软件；

针对所述N类风险软件中的各类风险软件，将所述安全文件子集以及其余N个子集中非当前种类的风险软件所对应的N-1个子集作为白样本集，使用从白样本集中各个样本所提取出的所述特征数据进行训练，生成用于识别文件是否属于当前风险软件的深度学习模型。

5.根据权利要求3所述的方法，其特征在于，所述利用N个深度学习模型对所提取的特征数据进行匹配以得到中间识别结果，包括：

对预先设置的逻辑表达式执行逻辑处理步骤，所述逻辑表达式包括用于表征所述N个深度学习模型中各个深度学习模型的模型标识以及表征依次输入或并行输入的逻辑运算符，所述逻辑处理步骤包括：针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，所述片段为子逻辑表达式或模型标识；以及

所述利用各个深度学习模型输出的中间识别结果生成最终识别结果，包括：

将对所述逻辑表达式执行逻辑处理步骤最终所生成的识别结果确定为所述最终识别结果。

6.根据权利要求5所述的方法，其特征在于，所述对逻辑运算符所运算的各个片段进行处理，包括：

当片段是子逻辑表达式时，继续对所述子逻辑表达式执行逻辑处理步骤；

当片段是模型标识时，利用所述模型标识指示的深度学习模型对所述特征数据进行处理以生成中间识别结果。

7.根据权利要求5所述的方法，其特征在于，所述针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，包括：

针对表征依次输入的顺序输入逻辑运算符，依次对所述顺序输入逻辑运算符所运算的片段进行处理；

若对当前片段进行处理所生成的识别结果满足预先设定的条件，则将该识别结果确定为该逻辑运算符处理生成的识别结果，否则继续处理所述顺序输入逻辑运算符的后续片段。

8.根据权利要求7所述的方法，其特征在于，所述针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各个片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，还包括：

在所述依次对所述顺序输入逻辑运算符所运算的片段进行处理的过程中，若当前片段为顺序输入逻辑标识符所运算的最后一个片段，则将按照所述最后一个片段进行处理所生成的中间识别结果确定为所述顺序输入逻辑运算符处理生成的识别结果。

9.根据权利要求4-8之一所述的方法，其特征在于，所述针对各个逻辑运算符，依次或并行按照逻辑运算符所运算的片段进行处理，基于各个片段的处理结果得到所述逻辑运算符处理生成的结果，包括：

针对表征并行输入的逻辑运算符，并行对逻辑运算符所运算的各个片段进行处理以生成各个片段所对应的识别结果；

若所生成的各个识别结果均指示所述待识别应用程序安装文件是安全文件时，则将所述待识别应用程序安装文件是安全文件的识别结果确定为所述逻辑运算符生成的识别结果；

否则，将各个识别结果中第一个指示待识别应用程序安装文件是风险软件的识别结果确定为所述逻辑运算符生成的识别结果。

10.一种文件识别装置，其特征在于，所述装置包括：

提取单元，用于从待识别应用程序安装文件中提取特征数据；

匹配单元，用于利用N个深度学习模型中各个深度学习模型分别对所提取的特征数据进行匹配以得到中间识别结果，其中，所述N个深度学习模型是预先训练的、分别用于识别应用程序是否属于N类风险软件中各类风险软件的深度学习模型，N是大于1的整数，所述中间识别结果用于表征所述待识别应用程序安装文件是否属于各个深度学习模型对应的风险软件类型；

生成单元，用于利用各个深度学习模型输出的中间识别结果生成最终识别结果，所述最终识别结果用于确定所述待识别应用程序安装文件属于安全文件或风险软件。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

分类单元，用于在所述从待识别应用程序安装文件中提取特征数据之前，按病毒家族或风险级别对风险软件进行分类，得到N类风险软件。

12.根据权利要求11所述的装置，其特征在于，所述最终识别结果还用于确定当所述待识别应用程序安装文件属于风险软件时具体属于所述N类风险软件中的哪一类风险软件。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括模型训练单元，具体用于：

14.根据权利要求12所述的装置，其特征在于，所述匹配单元进一步用于：对对预先设置的执行逻辑处理步骤，所述逻辑表达式包括用于表征所述N个深度学习模型中各个深度学习模型的模型标识以及表征依次输入或并行输入的逻辑运算符，所述逻辑处理步骤包括：针对各个逻辑运算符，依次或并行对逻辑运算符所运算的各个片段进行处理，基于处理各片段所生成的识别结果得到所述逻辑运算符处理生成的识别结果，所述片段为子逻辑表达式或模型标识；以及

所述生成单元进一步用于：将对所述逻辑表达式执行逻辑处理步骤最终所生成的识别结果确定为所述最终识别结果。