CN103955449B

CN103955449B - 定位目标样本的方法和装置

Info

Publication number: CN103955449B
Application number: CN201410160869.2A
Authority: CN
Inventors: 周吉文
Original assignee: Anyi Hengtong Beijing Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-04-21
Filing date: 2014-04-21
Publication date: 2018-03-06
Anticipated expiration: 2034-04-21
Also published as: CN103955449A

Abstract

本发明提出一种定位目标样本的方法和装置，该定位目标样本的方法包括将样本文件转换为字符串；对所述字符串进行分词处理，得到分词处理后的样本文件；如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本。该方法能够提高定位目标样本的准确度。

Description

定位目标样本的方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种定位目标样本的方法和装置。

背景技术

随着计算世界的发展，要处理的样本是非常庞大的。很多时候需要在庞大的样本中定位出目标样本，例如，在杀毒软件中，需要在扫描的海量样本中定位出可能存在病毒的目标样本，以便进一步处理。

相关技术中，在病毒查杀时，是采用逻辑方式定位出目标样本，即，判断指定字段是否为指定值，例如，源地址字段是否为某一设定的地址，如果某一样本的指定字段为指定值，则将该样本定位为目标样本。

但是，随着黑客技术的不断提高，黑客可能对上述的指定字段进行修饰，使得指定字段并无异常，这就会造成按照上述的逻辑方式不能准确定位目标样本。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种定位目标样本的方法，该方法可以提高定位目标样本的准确度。

本发明的另一个目的在于提出一种定位目标样本的装置。

为达到上述目的，本发明第一方面实施例提出的定位目标样本的方法，包括：将样本文件转换为字符串；对所述字符串进行分词处理，得到分词处理后的样本文件；如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本。

本发明第一方面实施例提出的定位目标样本的方法，通过将样本文件转换为字符串，再根据字符串得到样本文件中包括的分词，通过比对预设的关键词和样本中的分词来确定目标文件，不限于某一字段的比对，相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。

为达到上述目的，本发明第二方面实施例提出的定位目标样本的装置，包括：转换模块，用于将样本文件转换为字符串；处理模块，用于对所述字符串进行分词处理，得到分词处理后的样本文件；确定模块，用于如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本。

本发明第二方面实施例提出的定位目标样本的装置，通过将样本文件转换为字符串，再根据字符串得到样本文件中包括的分词，通过比对预设的关键词和样本中的分词来确定目标文件，不限于某一字段的比对，相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。

为达到上述目的，本发明第三方面实施例提出的客户端设备，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为客户端设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：将样本文件转换为字符串；对所述字符串进行分词处理，得到分词处理后的样本文件；如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本。

本发明第三方面实施例提出的客户端设备，通过将样本文件转换为字符串，再根据字符串得到样本文件中包括的分词，通过比对预设的关键词和样本中的分词来确定目标文件，不限于某一字段的比对，相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一实施例提出的定位目标样本的方法的流程示意图；

图2为本发明另一实施例提出的定位目标样本文件的方法的流程示意图；

图3为本发明另一实施例提出的定位目标样本的装置的结构示意图；

图4为本发明另一实施例提出的定位目标样本的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明一实施例提出的定位目标样本的方法的流程示意图，该方法包括：

S11：将样本文件转换为字符串；

其中，通常来讲，样本文件都是二进制文件，为了后续与关键词进行匹配，需要将二进制文件转换为字符串。

S12：对所述字符串进行分词处理，得到分词处理后的样本文件；

其中，本发明实施例采用与关键词进行比对的方式来确定目标样本文件，因此作为被比较的一方的样本文件需要首先得到样本文件中的各分词。

S13：如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本。

其中，本发明实施例可以预设关键词，以将包含该关键词的样本文件确定为目标样本。例如，预设关键词为“支付宝”，如果第一样本文件中包含“支付宝”这一分词时，可以将该第一样本文件确定为目标样本。

在确定目标样本之后，可以将目标样本作为病毒进行杀毒处理，或者，也可以进一步确定目标样本是否为病毒，进一步确定的方式可以是人工或者学习统计的方式，具体的进一步确定目标样本是否为病毒的方式可以采用相关技术实现，不在本发明实施例的探讨范围内。

本实施例通过将样本文件转换为字符串，再根据字符串得到样本文件中包括的分词，通过比对预设的关键词和样本中的分词来确定目标文件，不限于某一字段的比对，相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。

图2为本发明另一实施例提出的定位目标样本文件的方法的流程示意图，该方法包括：

S21：对样本文件进行脱壳处理。

其中，作者编好软件后，编译成exe可执行文件，为了保护一些信息，例如将版权信息保护起来，不想让别人随便改动，如作者的姓名，可以对编译好的可执行文件进行加壳处理；或者，有时需要将程序变小，方便使用，此时也可以通过加壳以完成压缩；或者，黑客给木马软件加壳以躲避杀毒软件。

由于上述的一些理由，使得一些样本文件是加壳软件，为了获取源文件，需要对这些加壳软件进行脱壳处理。脱壳的一般流程可以包括：查壳->寻找入口点（Original EntryPoint，OEP）->倾出（Dump）->修复。由于脱壳也是比较成熟的技术，本发明实施例不再赘述。

S22：将脱壳处理后的样本文件转换为字符串。

其中，脱壳处理后的样本文件是二进制文件，可以将该二进制文件的每8位转换为一个字符，由此将样本文件转换为字符串。

S23：对字符串进行降噪处理，得到降噪处理后的字符串。

其中，在转换得到的字符串中可能会存在一些噪声信息，为了提高样本的有效性，可以在字符串中去除这些噪声信息，以得到降噪处理后的字符串。

噪声信息例如为：很长的数字，如连续的20个以上的数字；或者，很长的英文，如连续的20个以上的英文；或者，一些无明确意义的字符，例如，“的”、“了”这类字符。

S24：对降噪处理后的字符串进行分词处理，得到分词处理后的样本文件。

其中，具体的分词处理可以采用字符串匹配法、词义分词法或者统计分词法等。分词技术也是比较成熟的技术，本发明实施例不再赘述。

进一步的，为了更有效的分词，本发明实施例还可以采用自学习的方式进行分词。例如，根据实时统计的搜索词，采用与现有不同的方式进行分词，以得到不同的分词词语。具体如，现有的分词是“不知道”，通过自学习，可以将现有的“不知道”分为“不”和“知道”。

S25：建立每个分词与包括该分词的样本文件之间的对应关系。

其中，该对应关系也可以称为索引关系，以便根据分词索引到相应的样本文件。

例如，对于分词“支付宝”，第一样本文件和第二样本文件中都包含该“支付宝”，那么可以建立“支付宝”与第一样本文件和第二样本文件的对应关系，以便通过“支付宝”索引出第一样本文件和第二样本文件。

S26：根据该对应关系，将与预设的关键词相同的分词对应的样本文件，确定为目标样本。

例如，预设的关键词是“支付宝”，而上述建立的对应关系中与分词“支付宝”对应的样本文件是第一样本文件和第二样本文件，因此，可以将第一样本文件和第二样本文件确定为目标样本。

本实施例通过将样本文件转换为字符串，并进一步得到分词，通过分词确定目标样本，相对于比对指定字段的方式，可以提高定位目标样本的准确度；本实施例通过脱壳处理，可以得到准确的样本文件，以便后续比对时比对的是准确的样本文件，避免与不准确的样本文件进行比对，提高定位目标样本的精度；本实施例通过对字符串进行降噪处理，可以去除无用信息，提高进行比对时分词的有效性，降低定位目标样本的开销；本实施例通过建立分词与样本文件之间的索引关系，可以比较容易的索引到样本文件，实现定位目标样本的方便快捷。

图3为本发明另一实施例提出的定位目标样本的装置的结构示意图，该装置30包括转换模块31、处理模块32和确定模块33。

转换模块31用于将样本文件转换为字符串；

处理模块32用于对所述字符串进行分词处理，得到分词处理后的样本文件；

确定模块33用于如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本。

图4为本发明另一实施例提出的定位目标样本的装置的结构示意图，该装置在上一实施例的基础上，转换模块31包括第一单元311和第二单元312。

第一单元311用于对所述样本文件进行脱壳处理；

第二单元312用于将脱壳处理后的样本文件转换为字符串。

一个实施例中，处理模块32可以包括第三单元321和第四单元322。

第三单元321用于对所述字符串进行降噪处理，得到降噪处理后的字符串；

第四单元322用于对所述降噪处理后的字符串进行分词处理，得到分词处理后的样本文件。

一个实施例中，该装置30还可以包括建立模块34。

建立模块34用于建立每个分词与包括所述分词的样本文件之间的对应关系。

此时，所述确定模块33具体用于：根据所述建立模块34建立的所述对应关系，将与所述预设的关键词相同的分词对应的样本文件，确定为目标样本。

本发明实施例还提供了一种客户端设备，该客户端设备包括壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为客户端设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

S11’：将样本文件转换为字符串；

S12’：对所述字符串进行分词处理，得到分词处理后的样本文件；

S13’：如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本。

另一实施例中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

S21’：对样本文件进行脱壳处理。

S22’：将脱壳处理后的样本文件转换为字符串。

S23’：对字符串进行降噪处理，得到降噪处理后的字符串。

S24’：对降噪处理后的字符串进行分词处理，得到分词处理后的样本文件。

S25’：建立每个分词与包括该分词的样本文件之间的对应关系。

S26’：根据该对应关系，将与预设的关键词相同的分词对应的样本文件，确定为目标样本。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种定位目标样本的方法，其特征在于，包括：

将样本文件转换为字符串，所述样本文件为二进制文件；

对所述字符串进行分词处理，得到分词处理后的样本文件；

如果所述分词处理后的样本文件中任意部分包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本，进一步地，所述方法还包括:

将所述目标样本作为病毒进行杀毒处理，或者，进一步确定所述目标样本是否为病毒。

2.根据权利要求1所述的方法，其特征在于，所述将样本文件转换为字符串，包括：

对所述样本文件进行脱壳处理；

将脱壳处理后的样本文件转换为字符串。

3.根据权利要求1所述的方法，其特征在于，所述对所述字符串进行分词处理，得到分词处理后的样本文件，包括：

对所述字符串进行降噪处理，得到降噪处理后的字符串；

对所述降噪处理后的字符串进行分词处理，得到分词处理后的样本文件。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述得到分词处理后的样本文件之后，所述方法还包括：

建立每个分词与包括所述分词的样本文件之间的对应关系。

5.根据权利要求4所述的方法，其特征在于，所述如果所述分词处理后的样本文件中包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本，包括：

根据所述对应关系，将与所述预设的关键词相同的分词对应的样本文件，确定为目标样本。

6.一种定位目标样本的装置，其特征在于，包括：

转换模块，用于将样本文件转换为字符串，所述样本文件为二进制文件；

处理模块，用于对所述字符串进行分词处理，得到分词处理后的样本文件；

确定模块，用于如果所述分词处理后的样本文件中任意部分包括预设的关键词，将所述包括预设的关键词的样本文件确定为目标样本；

杀毒模块，用于将所述目标样本作为病毒进行杀毒处理，或者，进一步确定所述目标样本是否为病毒。

7.根据权利要求6所述的装置，其特征在于，所述转换模块包括：

第一单元，用于对所述样本文件进行脱壳处理；

第二单元，用于将脱壳处理后的样本文件转换为字符串。

8.根据权利要求6所述的装置，其特征在于，所述处理模块包括：

第三单元，用于对所述字符串进行降噪处理，得到降噪处理后的字符串；

第四单元，用于对所述降噪处理后的字符串进行分词处理，得到分词处理后的样本文件。

9.根据权利要求6至8任一项所述的装置，其特征在于，还包括：

建立模块，用于建立每个分词与包括所述分词的样本文件之间的对应关系。

10.根据权利要求9所述的装置，其特征在于，所述确定模块具体用于：