CN103729593B

CN103729593B - 一种文件安全性的识别方法和系统

Info

Publication number: CN103729593B
Application number: CN201310752550.4A
Authority: CN
Inventors: 冯侦探; 曹德强; 陶天; 陶天一
Original assignee: Iyuntian Co ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2017-04-12
Anticipated expiration: 2033-12-31
Also published as: CN103729593A

Abstract

本发明提供了一种文件安全性的识别方法和系统。方法包括：获得待检测文件的特征组合；根据所述特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标，确定所述特征组合的可使用情况；根据所述特征组合的可使用情况，确定所述待检测文件的安全性。系统包括服务器和客户端。通过多个指标来评价待检测文件的特征组合的可使用情况，并利用最能够代表待检测文件的特征组合来评价待检测文件的安全性，权威而有效的评价待检测文件的安全性，为用户的信息安全、终端安全等提供了保证。

Description

一种文件安全性的识别方法和系统

技术领域

本发明涉及安全技术领域，尤其涉及一种文件安全性的识别方法和系统。

背景技术

互联网技术进入了飞速发展的时代，随之而来的计算机病毒也呈现了爆炸式的增长。目前的计算机杀毒软件，通常会基于已知的病毒文件的二进制数据，提取病毒特征，并在对未知文件进行病毒扫描时，将未知文件的一些特定特征与病毒特征相匹配，来识别未知文件是否为病毒文件的。现有技术中存在如下尚需解决：如何验证所提取的病毒特征是合适的特征，换言之，如何验证未知文件中所提取的特征是合适的特征？

发明内容

本发明的目的在于提供一种文件安全性的识别方法和系统，有效识别危险文件，防止了危险文件对智能终端的危害。

为达到上述目的，一方面，本发明提供了一种文件安全性的识别方法，包括：

在待检测文件中获得特征组合；

根据所述特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标，确定所述特征组合的可使用情况；

根据所述特征组合的可使用情况，确定所述待检测文件的安全性。

另一方面，本发明提供了一种文件安全性的识别系统，包括：客户端和服务器；

所述客户端包括：

获得模块，用于在待检测文件中获得特征组合；

发送模块，用于将所述特征组合发送给所述服务器；

接收模块，用于接收所述服务器返回的所述待检测文件的安全性结果；

所述服务器包括：

接收模块，用于接收所述客户端发送的所述特征组合；

评价模块，用于根据所述客户端发送的特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标，确定所述特征组合的可使用情况；

确定模块，用于根据所述特征组合的可使用情况，确定所述待检测文件的安全性；

发送模块，用于将所述待检测文件的安全性结果发送给所述客户端。

本发明提供的方案，通过对特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标来确定未知文件的特征组合的可使用情况，并根据特征组合的可使用情况来确定待检测的未知文件的安全性。通过多个指标来评价待检测文件的特征组合的可使用情况，并利用最能够代表待检测文件的特征组合来评价待检测文件的安全性，权威而有效的评价待检测文件的安全性，为用户的信息安全、终端安全等提供了保证。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的文件安全性的识别方法的流程图；

图2为本发明实施例提供的文件安全性的识别系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施例作详细描述。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

图1为本发明实施例提供的文件安全性的识别方法的流程图，如图1所示，该方法包括：

101、获得待检测文件的特征组合。

获得特征组合的方式有很多，现有技术中比较常用的方式包括：在待检测文件中选取N个位置，N为大于等于2的自然数，这N个位置通常是对危险文件的认知和经验而得到的病毒特征代码经常出现的位置。例如：PE文件头、区块表、入口点、入口点区段、导入表等等。在N个位置中选取M个位置上的数据分别计算特征值（如哈希值、CRC32值等等），M为小于等于N且大于等于2的自然数，将这M个特征值组合起来即为特征组合。

不同的待检测文件可以有不同的提取方式，例如，当待检测文件是安装包，则N可以为5；当待检测文件是.net文件，则N可以为14；当代检测文件不是.net文件，则N可以为9。上述取值皆为选择性结论，并不限制本发明的保护范围。

102、根据特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标，确定该特征组合的可使用情况。

具体的，可以选择特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标；对所选择的指标进行加权计算，将加权计算的数值作为特征组合的可使用情况。

还需要说明的是，根据所述特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标，确定所述特征组合的可使用情况，可以是已经训练好的模型。例如，任意选择其中2个指标的情况下，如何分配2个指标之间的加权权重；任意选择其中3个指标的情况下，如何分配3个指标之间的加权权重；4个指标全部使用的情况，如何分配4个指标之间的加权权重。进而对所选择的指标进行加权计算得到加权计算的数值。而102可以直接利用已训练好的模型来确定特征组合的可使用情况。

进一步的，还可以根据实际情况对已训练好的模型进行再训练或者重新训练，以保持模型的准确性、有效性。

103、根据特征组合的使用情况，确定该待检测文件的安全性。

如果加权计算的数值处于安全数值范围内，该待检测文件为安全文件；如果加权计算的数值处于危险数值范围内，该待检测文件为危险文件。

在上述实施方式的基础上，101之后，该方法还可以包括：

如果特征组合所对应的误报率超过第一阀值，则重新执行101，这一次执行101所获得的特征组合为与上一次执行101不同的特征组合。

误报率这一指标是非常敏感的，如果一特征组合所对应的误报率超过甚至等于预先设定的容忍值（也即第一阀值），这一特征组合是有问题的，不能够最好的代表某一待检测文件。因此，一旦特征组合所对应的误报率超过第一阀值，就需要重新选择特征组合。

误报率超过第一阀值的特征组合会依据具体情况做无效处理，也即这一特征组合无法代表某一类安全/危险文件，因此需要做无效处理。而该特征组合所对应的全部文件都需要重新做特征训练，以保证本发明提供方案的准确性和有效性。

本发明实施例提供了一种文件安全性的识别方法，通过对特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标来确定未知文件的特征组合的可使用情况，并根据特征组合的可使用情况来确定待检测的未知文件的安全性。通过多个指标来评价待检测文件的特征组合的可使用情况，并利用最能够代表待检测文件的特征组合来评价待检测文件的安全性，权威而有效的评价待检测文件的安全性，为用户的信息安全、终端安全等提供了保证。

还需要说明的是，本发明提供的方法可以实施为计算机程序软件，例如根据本发明的实施例可以是一种计算机程序产品，运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现所述移动终端的消息的内容的处理方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质（例如热拔插技术存储设备）。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储媒体（例如CD-ROM和DVD）、磁光存储媒体（例如MO）、磁存储媒体（例如盒带或移动硬盘）、具有内置的可重写的非易失性存储器的媒体（例如存储卡）和具有内置ROM的媒体（例如ROM盒）。

图2为本发明实施例提供的文件安全性的识别系统结构示意图，该系统为执行上述方法步骤的主体，因此步骤信息不再详述，可参考上述方法实施例。如图2所示，该系统包括：客户端201和服务器202。该服务器202可以位于云端，依托云端强大的计算能力和信息获取能力，为客户端的文件安全性识别提供强有力的后盾。客户端201包括：获得模块、发送模块和接收模块。服务器202包括：接收模块、评价模块、确定模块和发送模块。

其中，客户端201的获得模块用于获得待检测文件的特征组合；客户端201的发送模块用于将获得模块获得的特征组合发送给服务器202；客户端201的接收模块用于接收服务器202返回的待检测文件的安全性结果。

服务器202的接收模块用于接收客户端201发送的特征组合；服务器202的评价模块用于根据特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标，确定特征组合的可使用情况；服务器202的确定模块用于根据特征组合的可使用情况，确定待检测文件的安全性；服务器202的发送模块用于将待检测文件的安全性结果发送给客户端201。

这里需要说明的是，客户端201的发送模块可以发送单个待检测文件的特征组合，也可以发送多个待检测文件的特征组合；服务器202的发送模块可以发送单个待检测文件的安全性结果，也可以发送多个待检测文件的安全性结果。可以通过不同的标识等信息来区分不同的客户端、不同的待检测文件的安全性结果。

一种实施方式下，客户端201的获得模块具体可以包括：提取单元、选择单元和组成单元。其中的提取单元用于在待检测文件中提取N段特征；选择单元用于在N段特征中选择M段特征；组成单元用于将M段特征组成特征组合。其中的N、M均为自然数，且N≥M≥2。

又一种实施方式下，客服务器202的评价模块具体可以包括：选择单元和计算单元。其中的选择单元用于选择所述特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标；计算单元用于对所选择的指标进行加权计算，将加权计算的数值作为所述特征组合的可使用情况。

基于上述实施方式，服务器202的确定模块具体可以包括：第一单元和第二单元。其中的第一单元用于如果所述加权计算的数值处于安全数值范围内，所述待检测文件为安全文件；第二单元用于如果所述加权计算的数值处于危险数值范围内，所述待检测文件为危险文件。

在上述任一实施方式的基础上，客户端201的获得模块还可以用于：如果所述特征组合所对应的误报率超过第一阀值，则在待检测文件中重新提取特征组合。

本发明提供的文件安全性的识别系统，通过对特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标来确定未知文件的特征组合的可使用情况，并根据特征组合的可使用情况来确定待检测的未知文件的安全性。通过多个指标来评价待检测文件的特征组合的可使用情况，并利用最能够代表待检测文件的特征组合来评价待检测文件的安全性，权威而有效的评价待检测文件的安全性，为用户的信息安全、终端安全等提供了保证。

本领域技术人员应当理解，任何具有适当编程装置的计算机系统都将能够执行包含在程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是作为固件和硬件实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。

以上所揭露的仅为本发明的一些较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文件安全性的识别方法，其特征在于，包括：

获得待检测文件的特征组合；

根据所述特征组合的可使用情况，利用最能够代表待检测文件的特征组合确定所述待检测文件的安全性。

2.根据权利要求1所述的方法，其特征在于，所述获得待检测文件的特征组合，包括：

在待检测文件中选取N个位置；

在所述N个位置中选取M个位置的数据分布计算特征值；

将所述M个特征值组合成特征组合；

其中，N、M均为自然数，且，N≥M≥2。

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标，确定所述特征组合的可使用情况，包括：

选择所述特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标；

对所选择的指标进行加权计算，将加权计算的数值作为所述特征组合的可使用情况。

4.根据权利要求3所述的方法，其特征在于，所述根据所述特征组合的可使用情况，确定所述待检测文件的安全性，包括：

如果所述加权计算的数值处于安全数值范围内，所述待检测文件为安全文件；

如果所述加权计算的数值处于危险数值范围内，所述待检测文件为危险文件。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

如果所述特征组合所对应的误报率超过第一阀值，则重新执行所述获得待检测文件的特征组合的步骤。

6.一种文件安全性的识别系统，其特征在于，包括：客户端和服务器；

所述客户端包括：

获得模块，用于获得待检测文件的特征组合；

发送模块，用于将所述特征组合发送给所述服务器；

所述服务器包括：

接收模块，用于接收所述客户端发送的所述特征组合；

确定模块，用于根据所述特征组合的可使用情况，利用最能够代表待检测文件的特征组合确定所述待检测文件的安全性；

7.根据权利要求6所述的系统，其特征在于，所述客户端的获得模块具体包括：

提取单元，用于在待检测文件中提取N段特征；

选择单元，用于在所述N段特征中选择M段特征；

组成单元，用于将所述M段特征组成特征组合；

其中，N、M均为自然数，且，N≥M≥2。

8.根据权利要求6所述的系统，其特征在于，所述服务器的评价模块具体包括：

选择单元，用于选择所述特征组合所对应的误报率、能够表示的文件数量、对应的热度、以及对应的广度中的至少2个指标；

计算单元，用于对所选择的指标进行加权计算，将加权计算的数值作为所述特征组合的可使用情况。

9.根据权利要求8所述的系统，其特征在于，所述服务器的确定模块具体包括：

第一单元，用于如果所述加权计算的数值处于安全数值范围内，所述待检测文件为安全文件；

第二单元，用于如果所述加权计算的数值处于危险数值范围内，所述待检测文件为危险文件。

10.根据权利要求6至9中任一项所述的系统，其特征在于，所述客户端的获得模块还用于：如果所述特征组合所对应的误报率超过第一阀值，则在待检测文件中重新提取特征组合。