CN111159111A

CN111159111A - 一种信息处理方法、设备、系统和计算机可读存储介质

Info

Publication number: CN111159111A
Application number: CN201911286142.8A
Authority: CN
Inventors: 樊谦君
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-05-15

Abstract

本发明实施例公开了一种信息处理方法，所述方法包括：获取文件行为样本数据；其中，所述文件行为样本数据包括第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据；基于所述文件行为样本数据，确定文件分类模型的信息处理参数；基于确定所述信息处理参数的所述文件分类模型，执行文件分类过程。本发明还公开了一种信息处理设备、系统和计算机可读存储介质。本发明可以快速实现恶意文件和非恶意文件的分类。

Description

一种信息处理方法、设备、系统和计算机可读存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种信息处理方法、设备、系统和计算机可读存储介质。

背景技术

随着网络数据的广泛共享和快速传播，网络数据安全隐患，尤其从网络下载得到的、需要在本地操作的文件的安全性也日益严峻。为了检测下载到本地的文件的安全性，相对技术中，通常会采用哈希黑白名单、或者基于启发式规则的检测方法对文件进行分析。然而，文件的哈希值在文件被改动之后就会发生变化，基于启发式规则的检测方法，需要依赖于人工提取某一类文件的静态特征。因此，哈希黑白名单的文件检测方法，在文件发生微小改变时就会显得无能为力，基于启发式规则的检测方法，无法检测更广泛类别的文件，所以，以上两种文件检测方法，均无法实现恶意文件和非恶意文件的快速分类检测。

发明内容

有鉴于此，本发明提供了一种信息处理方法、设备、系统和计算机可读存储介质，基于文件被操作后获取的动态数据执行文件分类，从而可以快速实现恶意文件和非恶意文件的分类。

本发明的方案是这样的：

一种信息处理方法，所述方法包括：

获取文件行为样本数据；其中，所述文件行为样本数据包括第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据；所述第一数据和所述第二数据是不同类型的文件行为数据；

基于所述文件行为样本数据，确定文件分类模型的信息处理参数；

基于确定所述信息处理参数的所述文件分类模型，对目标文件执行文件分类过程。

可选的，所述获取文件行为样本数据，包括：

加载所述第一类型文件以及所述第二类型文件至文件行为解析环境中；

在所述文件行为解析环境中操作所述第一类型文件以及所述第二类型文件，得到所述文件行为样本数据。

可选的，所述在所述文件行为解析环境中操作所述第一类型文件以及所述第二类型文件，得到所述文件行为样本数据，包括：

在所述文件解析环境中操作所述第一类型文件以及所述第二类型文件，得到文件行为数据信息；

对所述文件行为数据信息执行文件行为提取操作，得到所述文件行为样本数据；其中，所述文件行为数据信息包括文件路径提取，和/或，命令行提取。

可选的，所述基于所述文件行为样本数据，确定文件分类模型的信息处理参数，包括：

将所述文件行为样本数据输入至所述文件分类模型中，得到文件分类结果；

基于所述文件行为样本数据以及所述文件分类结果，确定所述文件分类模型的所述信息处理参数。

可选的，所述基于所述文件行为样本数据以及所述文件分类结果，确定所述文件分类模型的所述信息处理参数，包括：

基于所述文件行为样本数据，得到第一文件类型参数；

基于所述文件分类结果，得到第二文件类型参数；

基于所述第一文件类型参数与所述第二文件类型参数的匹配关系，调整所述文件分类模型的参数，得到所述信息处理参数。

可选的，所述方法还包括：

得到所述文件分类过程的文件分类结果；

基于所述文件分类结果，确定所述目标文件的文件类型参数；其中，所述文件类型参数，用于表示所述目标文件是否为恶意文件。

可选的，所述方法还包括：

获取所述目标文件的网络行为参数；其中，所述网络行为参数用于表示所述目标文件被操作后执行的网络访问的参数；

基于所述网络行为参数以及所述信息处理参数，确定所述网络行为参数的类别。

一种信息处理设备，所述信息处理设备包括：

处理器、存储器和通信总线；

所述通信总线用于实现处理器与存储器之间的通信连接；

所述处理器用于执行存储器中的存储的信息获取程序，以实现以下步骤：

获取文件行为样本数据；其中，所述文件行为样本数据包括第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据；

基于所述文件行为样本数据，确定文件分类模型的信息处理参数；其中，所述信息处理参数，用于表示所述文件分类模型的文件分类参数；

一种信息处理系统，所述信息处理系统包括：获取模块、确定模块和处理模块；其中，

所述获取模块，用于获取文件行为样本数据；其中，所述文件行为样本数据用于表示第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据；

所述确定模块，用于基于所述文件行为样本数据，确定文件分类模型的信息处理参数；

所述处理模块，用于基于确定所述信息处理参数的所述文件分类模型，执行文件分类过程。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述任一项所述的信息处理方法的步骤。

本发明实施例所提供的信息处理方法、设备、系统和计算机可读存储介质，首先获取文件行为样本数据，然后基于文件行为样本数据确定信息处理参数，最后基于信息处理参数执行文件分类过程，也就是说，可以基于文件被操作时的第一数据和第二数据确定信息处理参数，因而，确定的信息处理参数，可以更全面的区分出第一类型文件和第二类型文件，从而可以实现第一类型文件和第二类型文件的快速区分。

附图说明

图1为本发明实施例提供的第一种信息处理方法的流程示意图；

图2为本发明实施例提供的第二种信息处理方法的流程示意图；

图3为本发明实施例提供的信息处理方法的具体流程示意图；

图4为本发明实施例提供的一种信息处理设备的结构图；

图5为本发明实施例提供的一种信息处理系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

目前，随着网络数据的广泛共享和快速传播，网络数据的安全性成为了日益严峻的问题。特别是对于一些从网络获取的，并且需要在本地执行打开、编辑等操作的文件的安全性，更值得关注。

在相对技术中，一些被执行了篡改、嵌入危险连接等操作的文件，被称为恶意文件。那些对文件执行了危险操作的攻击者，通常会在文件中嵌入恶意代码，这些恶意代码会在文件被操作时的某一时刻启动和运行，并在运行过程中窃取用户的敏感信息、监视和破坏用户的操作环境、篡改用户的重要文件，甚至，攻击计算机的操作系统(OperationSystem，OS)。

因此，加强对恶意文件的检测和分类，对于用户的数据安全来说，刻不容缓。

相对技术中，恶意文件主要被用于水坑攻击和鱼叉攻击。其中，水坑攻击，黑客攻击方式之一，顾名思义，是在受害者必经之路设置了一个水坑，又称为陷阱。最常见的做法是，黑客分析攻击目标的上网活动规律，寻找攻击目标经常访问的网站的弱点，先将此网站攻破并植入攻击代码，一旦攻击目标访问该网站就会中招；鱼叉攻击，也是黑客的攻击方式之一，最常见的做法是，将木马程序作为电子邮件的附件，并起上一个极具诱惑力的名称，发送给目标电脑，诱使受害者打开附件，从而感染木马。

相对技术中，为了对文件进行检测、或者分类，通常会通过哈希黑白名单和基于启发式规则的检测方法。

哈希黑白名单，首先获取各种文件的哈希值，根据文件是否危险，将文件的哈希值分别存储在哈希白名单列表和哈希黑名单列表中，当用户尝试打开某一文件时，将该文件的哈希值与哈希白名单列表和哈希黑名单列表进行匹配，若该文件的哈希值与哈希黑名单匹配成功，则说明该文件为危险文件，即恶意文件，若未匹配成功，则该文件为安全文件。

然而，文件的哈希值，又称为Hash值，是通过对文件内容进行加密运算得到的一组二进制值，主要用途是用于文件校验或签名。正是因为这样的特点，它常常用来判断两个文件是否相同。对于任一文件来说，该文件的哈希值是唯一的，并且，一旦文件的内容发生微小的改变，该文件的哈希值也会发生变化。因此，基于哈希黑白名单的文件检测方法，在文件发生微小改变的情况下，对文件的检测和分类，都会显得无能为力。

另一方面，基于启发式规则的检测方法，需要人工分析大量的恶意文件，并且，提取恶意文件中的静态特征，并对这些静态特征进行分析汇总，从而得到某一特定类别的恶意文件的总体特征参数。因此，基于启发式规则的检测方法，仅能针对某一类结构相同，或者，某一些结构相似的类别的恶意文件进行检测，而对一些携带有新的危险类型的恶意文档，该方案的检测效果较差。

基于此，本发明实施例提供了一种信息处理方法，如图1所示，该信息处理方法，可以实现对携带有各种类型危险的文件的稳定检测和快速分类。该信息处理方法，由信息处理设备中的处理器来实现，具体地，该信息处理方法可以通过如下步骤来实现：

步骤101、获取文件行为样本数据。

其中，文件行为样本数据包括第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据。

在步骤101中，第一类型文件，可以用于表示未被恶意攻击的一个或多个文件。

相应地，第一数据，可以表示第一类型文件被操作时的参数集合。

在一种实施方式中，第一数据，可以用于表示第一类型文件被操作时所执行的各种操作的参数集合。

在一种实施方式中，第一数据，可以用于表示第一类型文件被操作时所执行的对用户的关键信息、当前操作系统、当前文件系统中的其他文件操作的参数集合。

在步骤101中，第二类型文件，可以用于表示被恶意攻击的一个或多个文件。

相应地，第二数据，可以表示第二类型文件被操作时的参数集合。

在一种实施方式中，第二数据，可以用于表示第二类型文件被操作时所执行的各种操作的参数集合。

在一种实施方式中，第二数据，可以用于表示第二类型文件被操作时所执行的对用户的关键信息、当前操作系统、当前文件系统中的其他文件操作的参数集合。

在步骤101中，文件行为样本数据，包括第一数据和第二数据，也就是说，文件行为样本数据，包括第一类型文件被操作时的各种参数集合、以及第二类文件被操作时的各种参数集合。

在一种实施方式中，文件行为样本数据，包括第一类型文件被操作时所执行的对用户的关键信息、当前操作系统、当前文件系统中的其他文件操作的参数集合，以及第二类型文件被操作时所执行的对用户的关键信息、当前操作系统、当前文件系统中的其他文件操作的参数集合。

步骤102、基于文件行为样本数据，确定文件分类模型的信息处理参数。

其中，信息处理参数，用于表示文件分类模型的文件分类参数；

在步骤102中，信息处理参数，可以用于表示对文件行为样本数据进行分类的参数。

在步骤102中，文件分类模型，可以用于表示对文件执行文类的模型。

在一种实施方式中，文件分类模型，可以是对文件执行二分类的模型，即对任一文件，可以将其区分为是第一类型文件还是第二类型文件。

在一种实施方式中，文件分类模型，可以是对文件执行二分类的模型，即对任一文件，可以分为是第一类型文件和第二类型文件。其中，第一类型文件，可以是携带有危险信息的文件，即恶意文件或危险文件，第二类型文件，可以是未携带有危险信息的文件，即非恶意文件或安全文件，第二类型文件也可以称为正常文件。

在一种实施方式中，文件分类模型，可以是支持向量分类(Support VectorClassification，SVC)模型。其中，SVC是一种分类算法模型，其可以根据输入数据的不同生成不同的模型。SVC通过寻求结构化分先最小来提高其泛化能力，以实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，也能获得良好的统计效果的目的。SVC，是一种二分类模型。

相应地，在步骤102中，基于文件行为样本数据，确定文件分类模型的信息处理参数，可以是通过文件行为样本数据，对文件分类模型预先设置的第一参数集合进行调整后，而确定的信息处理参数。其中，第一参数集合，可以表示首次处理文件行为样本数据时的信息处理参数。

相应地，在步骤102中，基于文件行为样本数据，确定文件分类模型的信息处理参数，可以是通过文件行为样本数据，对具有默认初始数值文件分类模型的第一参数集合进行调整后，而确定的信息处理参数。

步骤103、基于确定信息处理参数的文件分类模型，对目标文件执行文件分类过程。

在步骤103中，目标文件，可以是待分类的文件。

在一种实施方式中，目标文件，可以是一个不确定是否为恶意文件的文件。

在一种实施方式中，目标文件，可以是多个不确定是否为恶意文件的文件。

在步骤103中，文件分类过程，可以是对某一文件进行分类的过程。

相应地，步骤103的基于确定信息处理参数的文件分类模型，对目标文件执行文件分类过程，可以是基于确定信息处理参数的文件分类模型，对一个目标文件执行分类的过程。

在一种实施方式中，文件分类过程，可以是对多个目标文件进行分类的过程。

相应地，步骤103的基于确定信息处理参数的文件分类模型，对目标文件执行文件分类过程，可以是基于确定信息处理参数的文件分类模型，对多个目标文件执行分类的过程。

本发明实施例所提供的信息处理方法，首先获取文件行为样本数据，然后基于文件行为样本数据，确定文件分类模型的信息处理参数，之后再基于确定信息处理参数的文件分类模型，对目标文件执行文件分类过程，因此，本发明实施例提供的信息处理方法，可以基于文件被操作时的第一数据和第二数据确定文件分类模型的信息处理参数，再基于该信息处理参数，对目标文件执行文件分类过程。由于恶意文件的文件行为样本数据具备相同的特点，就是与正常文件被操作后的文件行为数据不同，因而，在第一类型文件表示恶意文件，且第二类型文件表示非恶意文件时，本发明实施例提供的信息处理方法，基于文件被操作后获取的动态数据执行文件分类，从而可以实现恶意文件按和非恶意文件的快速分类。

基于前述实施例，本发明实施例提供了一种信息处理方法，如图2所示，该信息处理方法，可以通过如下步骤来实现：

步骤201、加载第一类型文件以及第二类型文件至文件行为解析环境中。

在一种实施方式中，文件行为解析环境，可以是用于加载多个第一类型文件以及多个第二类型文件，并操作多个第一类型文件和多个第二类型文件的硬件环境，并且，该硬件环境与信息处理设备的硬件环境不同。

在一种实施方式中，文件行为解析环境，可以是用于加载多个第一类型文件以及多个第二类型文件，并操作多个第一类型文件和多个第二类型文件的软件环境。

在一种实施方式中，文件行为解析环境，可以是基于第一操作系统运行的计算机中的虚拟操作系统环境。

在一种实施方式中，文件行为解析环境，可以是基于第一操作系统运行的计算机中的沙箱。其中，沙箱，又称为沙盘，是一个虚拟系统程序，在沙盘环境中运行浏览器或其他程序，因此运行所产生的变化可以随后删除。它创造了一个类似沙盒的独立作业环境，在其内部运行的程序并不能对硬盘产生永久性的影响。在网络安全中，沙箱可以实现在隔离环境中，测试不受信任的、或者潜在危险的文件或应用程序等行为。

步骤202、在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据。

在一种实施方式中，在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据，可以是在不同于信息处理设备的硬件环境中，操作第一类型文件和第二类型文件，而得到的文件行为样本数据。

在一种实施方式中，在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据，可以是在当前计算机操作系统中运行的软件环境中，操作第一类型文件和第二类型文件，而得到的文件行为样本数据。

在一种实施方式中，在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据，可以是在基于第一操作系统运行的计算机中的虚拟操作系统环境中，操作第一类型文件和第二类型文件，而得到的文件行为样本数据。

在一种实施方式中，在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据，可以是在基于第一操作系统运行的计算机中的沙箱中，操作第一类型文件和第二类型文件，而得到的文件行为样本数据。

在一种实施方式中，在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据，还可以是在文件行为解析环境中操作多个第一类型文件以及多个第二类型文件，得到文件行为样本数据。

示例性地，步骤202还可以通过步骤N1-步骤N2来实现：

步骤N1、在文件解析环境中操作第一类型文件以及第二类型文件，得到原始文件行为数据。

在步骤N1中，原始文件行为数据，可以用于表示在文件解析环境中操作第一类型文件以及第二类型文件后，直接得到的文件行为数据信息。

在一种实施方式中，原始文件行为数据，可以用于表示在文件解析环境中操作第一类型文件以及第二类型文件后，得到的可以表示文件行为的、带有诸多冗余信息的数据信息。

示例性地，以将一个文件加载至沙箱中，并在沙箱中对该文件执行操作，可以得到该文件表示原始文件行为数据的JS对象简谱(JavaScript Object Notation，JSON)数据。在相对技术中，在沙箱中可以得到的原始文件行为数据的JSON数据可以包括如下数据信息：文件路径信息、文件名称、进程信息以及命令行信息等。其中，文件路径信息，可以表示文件被操作后尝试访问的文件管理系统中的路径的信息；进程信息，可以表示文件被操作后创建的进程信息，比如进程名称、进程标识、进程切换信息等；命令行信息，用于表示文件被操作后执行的命令行的信息。

因此，在沙箱中加载文件，并操作该文件得到的动态文件行为数据，即原始文件行为数据，虽然包括的文件行为数据信息全面，但是该原始文件行为数据会随着加载文件的名称、路径以及加载文件的沙箱环境的不同而发生变化。因此，需要对原始文件行为数据进行处理，以得到文件行为样本数据。

步骤N2、对原始文件行为数据执行文件行为提取操作，得到文件行为样本数据。

其中，文件行为提取操作包括文件路径提取，和/或，命令行提取。

在步骤N2中，文件行为提取操作，用于表示从原始文件行为数据信息执行文件行为提取的操作。

在一种实施方式中，文件行为提取操作，用于表示从原始文件行为数据信息中提取某一种文件行为的操作。

在一种实施方式中，文件行为提取操作，用于表示从原始文件行为数据信息中提取至少两种文件行为的操作。

在一种实施方式中，文件行为提取操作，用于表示从原始文件行为数据信息中提取预设种类的文件行为的操作。

在一种实施方式中，对原始文件行为数据进行处理，以得到文件行为样本数据，可以通过步骤A-步骤B来实现：

步骤A、基于文件行为参数集合，对原始文件行为数据执行文件行为提取操作，得到中间文件行为数据。

在上述操作中，文件行为参数集合，可以用于表示文件在沙箱中被操作后，最终执行的操作的参数集合，比如文件在沙箱中被操作后，执行了路径访问操作，执行了进程创建操作，执行了线程创建操作等。

在上述操作中，文件行为提取，可以用于表示对原始文件行为数据执行路径提取，和/或，命令行提取。即从原始文件行为数据中提取出需要的路径信息，和/或，提取出命令行信息。

在一种实施方式中，文件行为提取，还可以包括对原始文件行为数据执行进程行为的提取，即从原始文件行为数据中提取出文件在被操作的过程中创建的进程信息。

具体的，文件行为包括该文件被操作之后访问的文件信息，包括访问的文件的文件名称、文件路径以及文件名后缀。

进程行为，用于表示文件被操作之后创建的进程和/或线程信息。

在一种实施方式中，步骤A可以通过如下方式来实现：

基于文件行为参数集合，对原始文件行为数据执行文件行为和/或进程行为提取，得到中间文件行为数据。

在一种实施方式中，文件行为参数集合，可以用于表示文件在沙箱中被操作后，访问的当前文件所在路径之外的其他路径信息集合。

相应地，与上述文件行为参数集合对应的文件行为，可以用于表示文件在沙箱中被操作后，访问当前文件所在路径之外的其他路径的行为。

在一种实施方式中，基于文件行为参数集合，对原始文件行为数据执行文件行为和/或进程行为提取，得到中间文件行为数据，可以通过如下方式来实现：

基于文件行为参数集合，对原始文件行为数据执行路径信息提取，得到中间文件行为数据。

其中，路径信息，可以用于表示文件在沙箱中被操作后，尝试访问的文件管理系统中的路径的信息；文件行为参数集合，即为文件在沙箱中被操作后，访问的当前文件所在路径之外的其他路径信息集合。

示例性地，获取原始文件行为数据中的路径信息，并使用第一字符串替换获取的路径信息。

其中，第一字符串，可以是预先设置的固定的字符串，例如，第一字符串，可以是“**”。

在一种实施方式中，获取原始文件行为数据中的绝对路径信息，并将绝对路径信息使用第一字符串替换为相对路径信息。比如：将C:\Users\vbccsb\AppData替换为C:**\AppData。

在一种实施方式中，原始文件行为数据中还包括对路径信息下的文件的访问，则可以将访问的文件名，替换为第二字符串，其中，第二字符串，可以是“##”。并且，第二字符串，也可以是预先设定的固定字符串。比如，将C:\Users\vbccsb\AppData\Local\Temp\8c3facdb558e41b39a9256be411589200e0967d1376fbd0f1ab59f2fd576fbac.doc替换为C:**\AppData\Local\Temp\##.doc。

在一种实施方式中，可以将原始文件行为数据中的路径信息，和/或文件信息使用正则表达式替换，比如：将C:\Users\vbccsb\AppData\Local\Temp\8c3facdb558e41b39a9256be411589200e0967d1376fbd0f1ab59f2fd576fbac.doc替换为％USERPROFILE％\AppData\Local\Temp\*.doc。其中，正则表达式替换的规则，可以由用户根据实际分析的需要而设定。

在一种实施方式中，文件行为参数集合，可以用于表示文件在沙箱中被操作后，执行的某一个，或者某一些命令行的信息集合。

相应地，与上述文件行为参数集合对应的文件行为，可以用于表示文件在沙箱中被操作后，执行的某一个，或者，某一些命令行的行为。

基于文件行为参数集合，对原始文件行为数据进行命令行信息提取，得到中间文件行为数据。

具体地，命令行信息，用于表示原始文件行为数据中执行命令行的信息，相应的，文件行为参数集合，可以用于表示某一个，或者某一些命令行的参数集合。

在一种实施方式中，基于文件行为参数集合，对原始文件行为数据进行第一命令行和/或第二命令行信息提取，得到中间文件行为数据。

在一种实施方式中，第一命令行，可以是操作系统支持的命令行，比如cmd命令行；第二命令行，可以是powershell命令行。

在一种实施方式中，针对cmd命令行，可以使用“cmd”或者“cmd.exe”对原始文件行为数据进行匹配，若匹配成功，则将整个原始文件行为数据替换为“cmd.exe”。比如，将cmd/V:/C"^s^et......(中间省略过长命令)％^W e^q^u^0c^a^l^l％^MG^U:^*^M^G^U！^＝％"”替换为：“cmd.exe”，即得到的中间文件行为数据为“cmd.exe”。

在一种实施方式中，针对powershell命令行，可以使用“powershell”或“powershell.exe”对原始文件行为数据进行匹配，若匹配成功，则将整个原始文件行为数据替换为“powershell.exe”，比如：

将"powershell$Iuw＝new-object Net.WebClient；$nXZ＝'http:/......(中间省略过长命令)Invoke-Item$aiC；break；}catch{}}"替换为：“powershell.exe”。即得到的中间文件行为数据为“powershell.exe”。

在一种实施方式中，对原始文件行为数据使用“cmd”、“cmd.exe”、“powershell”以及“powershell.exe”进行匹配，若任何一项匹配成功，则将匹配成功的命令行字符串替换整个原始文件行为数据。

在一种实施方式中，文件行为参数集合，可以用于表示文件在沙箱中被操作后，执行的尝试访问当前用户关键信息的信息集合。

相应地，与上述文件行为参数集合对应的文件行为，可以用于表示文件在沙箱中被操作后，执行的尝试访问当前用户关键信息的行为。

基于文件行为参数集合，对原始文件行为数据进行用户信息访问行为提取，得到中间文件行为数据。

具体地，上述操作，可以通过对原始文件行为数据可以使用用户关键信息保存路径，或者用户关键信息文件的保存路径进行匹配，若匹配成功，则采用前述实施例中替换路径信息和命令行信息的方式，对原始文件行为数据进行替换，得到中间文件行为数据。

在一种实施方式中，文件行为参数集合，可以用于表示文件在沙箱中被操作后，除了操作文件的当前进程，或者线程之外，还创建的新的进程信息集合，或者，创建的新的线程的信息集合。

相应地，与上述文件行为参数集合对应的文件行为，可以用于表示文件在沙箱中被操作后，创建新的进程，或者创建新的线程的行为。

基于文件行为参数集合，对原始文件行为数据进行进程和/或线程创建行为提取，得到中间文件行为数据。

具体地，在原始文件行为数据中，可以进程和/线程标识对原始文件行为数据进行匹配，若匹配成功，则采用前述实施例中替换路径信息和命令行信息的方式，对原始文件行为数据进行替换，得到中间文件行为数据。

基于文件行为参数集合，获取文件行为参数列表；将文件行为列表参数中每一文件行为参数与原始文件行为数据进行匹配，得到中间文件行为数据。

具体地，从文件行为参数集合中获取到的文件行为参数列表，至少包括一种文件行为参数，比如，第一文件行为参数至第N文件行为参数，其中，N为大于1的整数。

分别使用第一文件行为参数至第N文件行为参数对原始文件行为数据进行匹配，得到中间文件行为数据。

由此，可以保证对原始文件行为数据的匹配操作后得到的中间文件行为数据，可以全面的反应文件行为的类型。

在步骤A之后，还可以执行如下操作：若原始文件行为数据与文件行为参数集合中的任一项匹配成功，则在中间文件行为数据中，对匹配成功的文件行为数据设置第一标志位，若匹配失败，则为匹配失败的文件行为数据设置第二标志位。

在一种实施方式中，若原始文件行为数据与文件行为参数集合中的任一项匹配成功，第一标志位，用于表示，原始文件行为数据尝试执行文件行为参数集合中匹配成功的文件行为类别。

表1

在一种实施方式中，若原始文件行为数据与文件行为参数集合中的任一项匹配失败，第二标志位，用于表示，原始文件行不属于数据尝试执行文件行为参数集合中匹配成功的文件行为类别。

在一种实施方式中，第一标志位可以为1，第二标志位可以为0。

具体的，表1中列出了几种中间文件行为数据及其对应的第一标志位和第二标志位。在表1中，

％USERPROFILE％\AppData\Roaming\Microsoft\Windows\Recent\CustomDestinations\*.temp、powershell.exe、

％USERPROFILE％\AppData\Local\Microsoft\Windows\TemporaryInternetFiles\*.Word\*.tmp、％USERPROFILE％\AppData\Roaming\Microsoft\Templates\*.dotm的标志位为第一标志位，表明该中间文件行为数据属于文件行为参数集合中的一种；

％USERPROFILE％\AppData\Local\Temp\*.DOC、％USERPROFILE％\AppData\Local\Temp\*.tmp、％USERPROFILE％\*.exe、cmd.exe、C:\ProgramFiles\MicrosoftOffice\Office15\*.EXE％USERPROFILE％\AppData\Local\Temp\*.DOC、C:\Windows\system32\*.exe-i1、filetype的标志位为第二标志位，表明该中间文件行为数据不属于文件行为参数集合中的一种。

步骤B、对中间文件行为数据进行处理，得到文件行为样本数据。

经过步骤A获取的中间文件行为数据，如表1所示，虽然去除了一些冗余信息，并且，添加了第一标志位，或者第二标志位，但是该数据仍然不够整齐，不能满足实际数据分析的需要。

具体地，步骤B可以通过如下方式来实现：

使用数据分析工具对中间文件行为数据进行处理，得到文件行为样本数据。

在一种实施方式中，步骤B可以通过如下方式来实现：

基于文件分类的需求信息，设置数据分析工具的分析参数。基于设置分析参数之后的数据分析工具，对中间文件行为数据进行分析处理，得到文件行为样本数据。

具体地，数据分析工具，用于表示可以实现对中间文件行为数据执行数据对齐汇总分析的工具。

在一种实施方式中，数据分析工具，可以是Pandas，其中，Pandas是Python的一个大数据处理模块。Pandas使用一个二维的数据结构来表示表格式的数据，Pandas可以存储混合的数据结构，同时使用NaN来表示缺失的数据，并且Pandas使用轴标签来表示行和列。

在一种实施方式中，使用Pandas对中间文件行文数据执行数据分析，可以方便导出一个数据表单，作为后续数据处理时的输入。

步骤203、将文件行为样本数据输入至文件分类模型中，得到文件分类结果。

在步骤203中，文件分类结果，可以用于表示当前文件以及当前文件所属的类别，即是第一类型文件，还是第二类型文件。

在一种实施方式中，文件分类结果，可以包括文件的文件名称，以及对应的文件类型标志位，即第一标志位或者第二标志位。

具体地，步骤203，可以将文件行为样本数据输入至SVC模型中，并得到SVC模型输出的文件分类结果。

在一种实施方式中，将文件行为样本数据输入至SVC模型中，并得到SVC模型输出的文件分类结果，是指，将文件行为样本数据中除去各个文件行为样本数据对应的标志位之外的信息输入至SVC模型中，并得到文件分类结果。

步骤204、基于文件行为样本数据以及文件分类结果，确定文件分类模型的信息处理参数。

具体地，步骤204还可以通过步骤C-步骤E来实现。

步骤C、基于文件行为样本数据，得到第一文件类型参数。

在步骤C中，第一文件类型参数，用于文件行为样本数据中携带的第一标志位或者第二标志位。

在一种实施方式中，第一文件类型参数，可以用于表示其所对应的文件的类型，即该文件是第一文件类型或者第二文件类型。

步骤D、基于文件分类结果，得到第二文件类型参数。

在步骤C中，第一文件类型参数，用于文件分类结果中携带的第一标志位或者第二标志位。

在一种实施方式中，第二文件类型参数，可以用于表示其所对应的文件的类型，即该文件是第一文件类型或者第二文件类型。

在一种实施方式中，第二文件类型参数，还可以用于表示其所对应的文件的类型，即该文件是恶意文件即异常文件，或者非恶意文件即正常文件。

步骤E、基于第一文件类型参数与第二文件类型参数的匹配关系，调整文件分类模型的参数，得到信息处理参数。

在步骤E中，若第一文件类型参数与第二文件类型参数的完全匹配，则表明文件分类模型对文件行为样本数据的分类结果与文件行为样本数据中的标志位匹配，此时，不需要调整文件分类模型的参数。也就是说，当前文件分类模型的参数，即为最终的信息处理参数。

在步骤E中，若第一文件类型参数与第二文件类型参数的不完全匹配，则表明文件分类模型对文件行为样本数据的分类结果与文件行为样本数据中的标志位不匹配，此时，需要调整文件分类模型的参数，以得到信息处理参数。

具体地，若第一文件类型参数与第二文件类型参数的不完全匹配，则调整文件分类模型的参数，以得到信息处理参数，可以通过步骤E1-步骤E2步骤来实现：

步骤E1、获取测试文件行为样本。

在步骤E1中，测试文件行为样本，用于表示，测试文件分类模型的文件行为样本数据。

在一种实施方式中，测试文件行为样本，包括多个测试文件，以及测试文件的文件标识。即每个测试文件的是属于第一文件类型，还是第二文件类型，均是已知的。

在一种实施方式中，测试文件行为样本，包括的测试文件及其文件标识是分开存储的。

步骤E2、基于文件行为样本数据和测试文件行为样本，调整文件分类模型的参数，得到信息处理参数。

步骤E2可以通过步骤F1-步骤F2来实现：

步骤F1、基于文件分类结果以及文件行为样本数据，调整文件分类模型的参数。

步骤F2、加载测试文件行为样本至参数调整之后的文件分类模型，得到信息处理参数。

在步骤F2中，将测试文件行为样本加载至参数调整之后的文件分类模型，可以得到测试文件行为样本的分类结果。同时，从测试文件行为样本中获取每一文件的文件标识，基于分类结果与测试文件行为样本中每一文件的文件标识的匹配关系，确定文件分类模型的参数是否仍然需要调整。

调整的过程可以如步骤204所示。此处不再赘述。

步骤205、基于信息处理参数，对目标文件执行文件分类过程。

在一种实施方式中，步骤205，可以通过步骤G1-G3来实现：

步骤G1、获取目标文件。

在步骤G1中，目标文件，需要使用信息处理参数确定之后的文件分类模型分类的文件。

在一种实施方式中，目标文件，是文件类型未知的文件。即不确定目标文件是第一类型的文件，还是第二类型的文件。

在一种实施方式中，目标文件，是文件类型未知的文件，即不确定目标文件是恶意文件，还是非恶意文件。

步骤G2、基于目标文件，确定目标文件行为数据。

在步骤G2中，目标文件行为数据，可以是目标文件被操作后执行的操作对应的参数集合。

具体地，可以将目标文件加载至文件行为解析环境中，以确定目标文件行为数据。

在一种实施方式中，目标文件行为数据，可以是将目标文件加载至虚拟系统中操作，以确定目标文件行为数据。

在一种实施方式中，目标文件行为数据，可以是将目标文件加载至沙箱中，以确定目标文件行为数据。

步骤G3、基于目标文件行为数据以及信息处理参数，执行文件分类过程。

具体地，步骤G3可以通过如下方式来实现：将目标文件行为数据加载至参数已经调整为信息处理参数的文件分类模型中，执行文件分类过程。

示例性地，在步骤G3之后，还可以执行如下操作：

得到文件分类过程的文件分类结果；基于文件分类结果，确定目标文件的文件类型参数。

其中，所述文件类型参数，用于表示所述目标文件是否为恶意文件。

具体地，加载目标行为数据至参数为信息处理参数的文件分类模型中，执行文件分类过程，得到文件分类结果。

基于该文件分类结果，确定目标文件是属于第一类型文件，还是属于第二类型文件。

在一种实施方式中，基于文件分类结果，确定目标文件的文件标识。基于该文件标识，确定目标文件是恶意文件，或者非恶意文件。

在一种实施方式中，本发明实施例提供的信息处理方法，还可以包括如下操作：

获取目标文件的网络行为参数；基于网络行为参数以及信息处理参数，确定网络行为参数的类别。

在一种实施方式中，网络行为参数，可以用于表示目标文件尝试访问网络的行为的参数。

在一种是实施方式中，网络行为参数，可以用于表示目标文件尝试进行网络连接的行为的参数。

具体地，如表1中urls一行所示，在目标文件中，还可以包括网络访问操作。那么，在文件行为解析环境中对目标文件进行解析，而得到的目标文件行为数据中，可以包括网络行为参数。其中，网络行为参数可以用于表示访问了某些包含特定域名的网站。

加载包括网络行为参数在内的目标文件行为数据至参数调整为信息处理参数的文件分类模型中，可以实现网络行为参数的分类。

在一种实施方式中，在获取目标文件行为数据中的网络行为参数；基于网络行为参数以及信息处理参数，确定网络行为类别之前，还需要通过前述实施例中的步骤101-102，或者步骤201-步骤204的操作，来确定文件分类模型对于网络行为参数分类的参数。此处不再赘述。

本发明实施例所提供的信息处理方法，通过加载第一类型文件以及第二类型文件至文件行为解析环境中，而得到文件行为样本数据，然后将文件行为样本数据输入至文件分类模型中，确定文件分类模型的信息处理参数，最后基于参数调整为信息处理参数的文件分类模型，对目标文件执行分类操作。因此，本发明实施例所提供的信息处理方法，以文件被操作之后的动态的文件行为参数为前提，确定文件分类模型的信息处理参数，因而使得文件分类模型的信息处理参数可以完整的区分出反应出第一类型文件和第二类型文件，并且，在第一类型文件表示恶意文件，第二类型文件表示非恶意文件的条件下，可以实现对恶意文件的稳定检测和快速分类。

基于前述实施例，本发明实施例提供了一种信息处理方法的具体处理流程图，如图4所示，将训练文件样本加载至沙箱中，对训练文件样本执行进程行为和文件行为的解析，从而得到文件行为样本数据。

在一种实施方式中，沙箱还可以实现对训练文件样本执行网络行为参数的获取，相应地，文件行为样本数据中，也可以包括网络行为参数。

其中，对文件行为的解析，包括文件路径提取，对进程行为的解析。

其中，对进程行为的解析，包括命令行提取和程序路径提取，在本实施例中，命令行提取，以cmd命令行和Powershell命令行为例，对网络行为参数，执行IP提取，或者URL提取。若为危险网络行为，则将网络行为参数添加至威胁情报库中，作为后续网络行为参数分类的样本库；在本发明实施例中，程序路径可以用于表示进程行为中执行的程序的路径，并且，程序路径提取的操作可以如前述实施例中步骤101或步骤201-202所示的方法。

对文件行为的解析，包括对文件路径的提取。

基于前述实施例中的相关操作，对文件路径提取和对程序路径提取之后，可以得到相对路径。

之后，将提取到的网络行为参数、进程行为参数以及文件行为参数汇总，得到文件行为样本数据。为了方便对文件分类模型的参数调整，对文件行为样本数据执行分析汇总，得到训练文件样本对应的特征矩阵。并将该特征矩阵加载至SVC模型中，对该模型参数进行调整，得到信息处理参数。

为了对参数调整为信息处理参数的SVC的分类性能进行确认，还需要将测试文件样本执行上述流程，获取测试样本对应的文件行为参数样本，将其加载至SVC中，测试其分类的效果。

基于此，本发明实施例提供的信息处理方法，基于训练文件样本在沙箱中被动态操作后得到的文件行为样本数据确定SVC的信息处理参数，从而使得使用SVC执行文件分类的操作，可以快速的将危险文件和非危险文件区分开来。

基于前述实施例，本发明实施例提供了一种信息处理设备4，如图4所示，该信息处理设备4包括处理器41、存储器42和通信总线43；

通信总线43用于实现处理器41与存储器42之间的通信连接；

处理器41用于执行存储器42中的存储的信息获取程序，以实现以下步骤：

获取文件行为样本数据；其中，文件行为样本数据包括第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据；

基于文件行为样本数据，确定文件分类模型的信息处理参数；

基于确定信息处理参数的文件分类模型，对目标文件执行文件分类过程。

在本发明的其他实施方式中，处理器41还用于实现存储器42中存储的信息获取程序，以实现如下操作：

获取文件行为样本数据，包括：

加载第一类型文件以及第二类型文件至文件行为解析环境中；

在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据。

在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据，包括：

在文件解析环境中操作第一类型文件以及第二类型文件，得到原始文件行为数据；

对原始文件行为数据执行文件行为提取操作，得到文件行为样本数据；其中，文件行为提取操作包括文件路径提取，和/或，命令行提取。

基于文件行为样本数据，确定文件分类模型的信息处理参数，包括：

将文件行为样本数据输入至文件分类模型中，得到文件分类结果；

基于文件行为样本数据以及文件分类结果，确定文件分类模型的信息处理参数。

基于文件行为样本数据以及文件分类结果，确定所述文件分类模型的信息处理参数，包括：

基于文件行为样本数据，得到第一文件类型参数；

基于文件分类结果，得到第二文件类型参数；

基于第一文件类型参数与第二文件类型参数的匹配关系，调整文件分类模型的参数，得到信息处理参数。

得到文件分类过程的文件分类结果；

基于文件分类结果，确定目标文件的文件类型参数；其中，文件类型参数，用于表示目标文件是否为恶意文件。

获取目标文件行为数据中的网络行为参数；其中，网络行为参数用于表示目标文件被操作后执行的网络访问的参数；

基于网络行为参数以及信息处理参数，确定网络行为参数的类别。

本发明实施例提供的信息处理设备，可以基于文件被操作后获取的文件行为样本数据执行文件分类，从而可以快速实现恶意文件和非恶意文件的分类。

基于前述实施例，本发明实施例提供了一种信息处理系统5，如图5所示，该信息处理系统5包括获取模块51、确定模块52和处理模块53；其中，

获取模块51，用于获取文件行为样本数据；其中，文件行为样本数据包括第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据；

确定模块52，用于基于文件行为样本数据，确定文件分类模型的信息处理参数；

处理模块53，用于基于确定信息处理参数的文件分类模型，对目标文件执行文件分类过程。

在本发明的其他实施例中，获取模块51，用于获取文件行为样本数据，包括：

在本发明的其他实施例中，获取模块51，用于在文件行为解析环境中操作第一类型文件以及第二类型文件，得到文件行为样本数据，包括：

在本发明的其他实施例中，确定模块52，用于基于文件行为样本数据，确定文件分类模型的信息处理参数，包括：

在本发明的其他实施例中，处理模块53，用于基于文件行为样本数据以及文件分类结果，确定文件分类模型的信息处理参数，包括：

基于文件行为样本数据，得到第一文件类型参数；

基于文件分类结果，得到第二文件类型参数；

在本发明的其他实施方式中，处理模块53，还用于：

得到所述文件分类过程的文件分类结果；

在本发明的其他实施方式中，处理模块53，还用于：

获取目标文件的网络行为参数；其中，所述网络行为参数用于表示所述目标文件被操作后执行的网络访问的参数；

本发明实施例提供的信息处理系统，可以基于文件被操作后获取的文件行为样本数据执行文件分类，从而可以快速实现恶意文件和非恶意文件的分类。

基于前述实施例，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述实施例记载的任一信息处理方法的步骤。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

需要说明的是，上述计算机可读存储介质可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所描述的方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取文件行为样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述在所述文件行为解析环境中操作所述第一类型文件以及所述第二类型文件，得到所述文件行为样本数据，包括：

在所述文件解析环境中操作所述第一类型文件以及所述第二类型文件，得到原始文件行为数据；

对所述原始文件行为数据执行文件行为提取操作，得到所述文件行为样本数据；其中，所述文件行为提取操作包括文件路径提取，和/或，命令行提取。

4.根据权利要求1所述的方法，其特征在于，所述基于所述文件行为样本数据，确定文件分类模型的信息处理参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述文件行为样本数据以及所述文件分类结果，确定所述文件分类模型的所述信息处理参数，包括：

基于所述文件行为样本数据，得到第一文件类型参数；

基于所述文件分类结果，得到第二文件类型参数；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

得到所述文件分类过程的文件分类结果；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

基于所述网络行为参数以及所述信息处理参数，确定网络行为参数的类别。

8.一种信息处理设备，其特征在于，所述信息处理设备包括：

处理器、存储器和通信总线；

所述通信总线用于实现处理器与存储器之间的通信连接；

基于确定所述信息处理参数的所述文件分类模型，执行文件分类过程。

9.一种信息处理系统，其特征在于，所述信息处理系统包括：获取模块、确定模块和处理模块；其中，

所述获取模块，用于获取文件行为样本数据；其中，所述文件行为样本数据包括第一类型文件被操作时的第一数据和第二类型文件在被操作时的第二数据；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的信息处理方法的步骤。