CN114416735A

CN114416735A - 数据存储方法、查询方法及系统

Info

Publication number: CN114416735A
Application number: CN202111660833.7A
Authority: CN
Inventors: 朱李全; 张雪娟; 王泽宇; 舒鹏
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-29

Abstract

本申请涉及一种数据存储方法、查询方法及系统。该方法包括：获取预设监控器输出的合并属性数据，其中，所述预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据；将所述合并属性数据写入预设搜索引擎服务器中的索引数据库。本申请提供的方案，利用搜索引擎服务器实现针对网络安全平台鉴定样本所产生的属性数据的样本实时检索功能，且可以降低对服务器的性能要求，减少服务器的开销，提升数据写入效率。

Description

数据存储方法、查询方法及系统

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据存储方法、查询方法及系统。

背景技术

相关技术中，网络安全平台鉴定样本后会产生对应该样本的一些属性数据，如基本信息、信誉信息、鉴定信息、上传信息等。安全运营人员经常会有根据样本的属性数据反向检索样本以及根据一种属性数据检索另一种属性数据的需求，例如，根据最近样本鉴定结果和样本上传信息来检索样本的需求。

然而，目前针对鉴定样本产生的属性数据所构建的检索库都是离线处理的，其无法满足实时检索的需求。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种数据存储方法、查询方法及系统，能够利用搜索引擎服务器实现针对网络安全平台鉴定样本所产生的属性数据的样本实时检索功能，且可以降低对服务器的性能要求，减少服务器的开销，提升数据写入效率。

本申请第一方面提供一种数据存储方法，包括：

获取预设监控器输出的合并属性数据，其中，所述预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据；

将所述合并属性数据写入预设搜索引擎服务器中的索引数据库。

在一种实施方式中，所述网络安全平台鉴定样本所产生的最新属性数据，包括：

网络安全平台鉴定样本所产生的预设目标类型的最新属性数据。

在一种实施方式中，所述方法还包括：将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据。

在一种实施方式中，所述将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据，包括：

确认所述预设存储数据库中是否存储有所述样本的历史属性数据；

若是，所述预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据；和/或，

若否，所述预设监控器将所述最新属性数据写入预设存储数据库中，并将所述最新属性数据作为合并属性数据。

将网络安全平台鉴定样本所产生的最新属性数据进行结构格式转换，得到文档结构格式的所述最新属性数据；

读取预设存储数据库中的所述样本的历史属性数据；

将文档结构格式的所述最新属性数据与所述历史属性数据进行合并操作，得到所述合并属性数据。

在一种实施方式中，所述将所述合并属性数据写入预设搜索引擎服务器中的索引数据库，包括：

通过Index操作将所述合并属性数据写入预设搜索引擎服务器中的索引数据库；和/或，

将符合预设条件的所述合并属性数据写入预设搜索引擎服务器中的索引数据库；和/或，

将预先写入预设消息队列中的所述合并属性数据按照预设索引规则写入预设搜索引擎服务器中的索引数据库。

在一种实施方式中，所述方法还包括：

将所述合并属性数据写入离线数据库。

在一种实施方式中，所述将所述合并属性数据写入预设搜索引擎服务器中的索引数据库之后，还包括：

将所述索引数据库的索引中对应的样本上传时间超于预设时长阈值的合并属性数据标记为过期索引；

删除所述过期索引中的对应样本在预设时期内未被鉴定过的合并属性数据。

在一种实施方式中，所述方法还包括：

将所述过期索引中的对应样本在预设时期内被鉴定过的合并属性数据标记为历史索引；

定期删除所述历史索引中的合并属性数据。

本申请第二方面提供一种数据查询方法，包括：

接收数据查询请求；

将所述数据查询请求输入预设搜索引擎服务器，以使所述预设搜索引擎服务器在索引数据库中执行查询，其中，所述索引数据库的数据采用以上任一项所述方法进行存储；

输出查询结果。

在一种实施方式中，所述数据查询请求为第一查询语句，所述接收数据查询请求，将所述数据查询请求输入预设搜索引擎服务器，以使所述预设搜索引擎服务器在索引数据库中执行查询，包括：

接收第一查询语句；

将所述第一查询语句转换为所述预设搜索引擎服务器可执行的第二查询语句；

将所述第二查询语句输入所述预设搜索引擎服务器，以使所述预设搜索引擎服务器在索引数据库中执行查询。

在一种实施方式中，所述将所述第一查询语句转换为所述预设搜索引擎服务器可执行的第二查询语句，包括：

对解析后的第一查询语句的各个字段值进行校验；

在校验成功后，将所述字段值转换为所述预设搜索引擎服务器可执行的第二查询语句。

本申请第三方面提供一种数据存储系统，包括：

网络安全平台，用于鉴定样本并产生所述样本的最新属性数据；

预设存储数据库，用于存储所述样本的历史属性数据；

预设监控器，用于接收所述最新属性数据并读取所述历史属性数据，将所述最新属性数据与所述历史属性数据进行合并操作，得到合并属性数据；

数据处理设备，用于获取预设监控器输出的合并属性数据；将所述合并属性数据写入预设搜索引擎服务器中的索引数据库；

预设搜索引擎服务器，用于接收所述合并属性数据，并将所述合并属性数据存储于所述预设搜索引擎服务器中的索引数据库。

在一种实施方式中，所述系统还包括：

预设消息队列，用于接收所述预设监控器输出的合并属性数据；

所述数据处理设备，还用于从所述预设消息队列中获取所述预设监控器输出的合并属性数据；将所述合并属性数据写入预设搜索引擎服务器中的索引数据库。

本申请第四方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第五方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

本申请提供的方法，利用预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，可得到合并属性数据，通过将合并属性数据写入预设搜索引擎服务器中的索引数据库。这样，预设搜索引擎服务器中的索引数据库作为一种实时检索库，其具有实时检索的功能。由于合并属性数据的合并操作是在写入索引数据库之前完成的，因此，可通过如Index操作的方式将合并属性数据写入预设搜索引擎服务器的索引数据库中，从而无需使用Update操作，进而利于降低对预设搜索引擎服务器的性能要求，减少服务器的开销，提升数据写入效率，保障了数据写入的实时性及稳定性。

进一步的，本申请提供的方法，可以利用网络安全平台鉴定样本所产生的预设目标类型的最新属性数据进行合并操作，从而可以减少进行合并操作的最新属性数据的类型数量，避免全部最新属性数据均进行合并操作，进而可以减少写入预设搜索引擎服务器中的索引数据库的数据量，可以进一步的降低对预设搜索引擎服务器的性能要求，提升数据写入效率，利于提升查询效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的数据存储方法的流程示意图；

图2是本申请实施例示出的数据存储方法的另一流程示意图；

图3是本申请实施例示出的数据查询方法的流程示意图；

图4是本申请实施例示出的数据查询方法的另一流程示意图；

图5是本申请实施例示出的数据存储方法的处理过程示意图；

图6是本申请实施例示出的预设搜索引擎服务器中索引数据库的数据处理过程示意图；

图7是本申请实施例示出的数据存储系统的结构示意图；

图8是本申请实施例示出的数据存储系统的另一结构示意图；

图9是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，针对鉴定样本产生的属性数据所构建的检索库都是离线处理的，其无法满足实时检索的需求。

针对上述问题，本申请实施例提供一种数据存储方法，能够利用搜索引擎服务器实现针对网络安全平台鉴定样本所产生的属性数据的样本实时检索功能，且可以降低对服务器的性能要求，减少服务器的开销，提升数据写入效率。

以下结合附图详细描述本申请实施例的技术方案。

图1是本申请实施例示出的数据存储方法的流程示意图。

参见图1，该方法包括：

步骤S101、获取预设监控器输出的合并属性数据，其中，预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，得到合并属性数据。

其中，网络安全平台可以是一种智能威胁分析平台，网络安全平台可以对样本进行检测鉴定，样本可以是任意一种文件，网络安全平台在针对样本的鉴定流程中产生该样本的属性数据。需要说明的是，网络安全平台对样本的鉴定流程是分阶段的，网络安全平台在不同的阶段对样本进行鉴定会产生不同的属性数据，样本的属性数据是网络安全平台鉴定流程产生的结果。另外，网络安全平台也会不断地更新版本，不同版本的网络安全平台对同一个样本可能会产生不用的鉴定结果。随着网络安全平台版本的不断更新，对同一个样本进行鉴定所产生的属性数据可能会不同。因此，通常会对样本进行回扫任务，即对同一个样本进行多次鉴定，以得到样本的最新属性数据，保障对样本的鉴定结果正确性。

其中，最新属性数据可以是网络安全平台最近一次鉴定样本所产生的该样本的属性数据。最新属性数据可以是样本的基本信息、信誉信息、静态信息、鉴定信息、上传信息等一种或一种以上类型的属性数据。其中，基本信息可以包括样本大小、样本文件类型等信息，信誉信息用于表示样本威胁级别，静态信息用于展示导入导出函数、段信息、书签sha1(证书指纹)等，鉴定信息用于展示网络安全平台中各个鉴定器对样本的鉴定结果，上传信息用于展示样本的上传路径及客户端IP。

其中，预设存储数据库作为一种聚合存储装置，预设存储数据库可以是任何一种分布式存储数据库，例如，可以是MongoDB、HBase等。预设存储数据库中可以存储上一次网络安全平台鉴定样本所产生的该样本的属性数据，即预设存储数据库中存储的样本的历史属性数据。其中，预设存储数据库中的历史属性数据的格式可以是文档结构格式。

其中，预设监控器可以为Event Consumer监控器。预设监控器将最新属性数据与历史属性数据进行合并操作，得到合并属性数据。

在该步骤中，预设监控器可以将最新属性数据进行结构格式转换，得到文档结构格式的最新属性数据；读取预设存储数据库中的样本的历史属性数据，并将文档结构格式的最新属性数据写入预设存储数据库；将文档结构格式的最新属性数据与历史属性数据进行合并操作，得到合并属性数据。

步骤S102、将合并属性数据写入预设搜索引擎服务器中的索引数据库。

其中，预设搜索引擎服务器可以是一种分布式、高扩展、高实时的搜索与数据分析引擎，预设搜索引擎服务器可以是基于Lucene的搜索服务器。在本申请实施例中，预设搜索引擎服务器为ElasticSearch，ElasticSearch又可简称为ES。

需要说明的是，对于索引数据库中已经存储有目标样本的属性数据的情况，若步骤S101中得到的合并属性数据所对应的是同一个目标样本，那么该步骤将合并属性数据写入预设搜索引擎服务器中的索引数据库，则表示用该合并属性数据去替换索引数据库中已经存储有的目标样本的属性数据。

例如，索引数据库中已经存储有A样本的属性数据，若合并属性数据对应的样本也是A样本，则用该合并属性数据去替换索引数据库中已经存储有的目标样本的属性数据，从而完成合并属性数据的写入存储。

对于索引数据库中未存储有目标样本的属性数据的情况，则直接将合并属性数据写入预设搜索引擎服务器中的索引数据库，从而完成合并属性数据的写入存储。

在该步骤中，可以通过如Flink等流式处理程序将合并属性数据写入预设搜索引擎服务器中的索引数据库，从而利用预设搜索引擎服务器所提供的索引数据库，以实现针对网络安全平台鉴定样本所产生的属性数据的样本实时检索功能。

从该实施例可以看出，本申请实施例提供的方法，利用预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，可得到合并属性数据，通过将合并属性数据写入预设搜索引擎服务器中的索引数据库。这样，预设搜索引擎服务器中的索引数据库作为一种实时检索库，其具有实时检索的功能。

可以理解，若样本的属性数据仅直接存储于ES中，那么，为了更新ES中目标样本的属性数据，则需要通过Update操作获取ES中对应的目标样本的完整的属性数据，才能够对该目标样本的属性数据进行更新。由于网络安全平台所鉴定的样本的数量是千万级别的，千万级别数量的样本需要进行回扫任务，可见，大量的Update操作对预设搜索引擎服务器的开销极大，对服务器的性能要求极高，不利于提升数据的写入效率。

需要说明的是，对于预设搜索引擎服务器(如ES)中的数据更新操作，如果用户指定了id(如针对目标样本的属性数据)，那么就只能通过update操作执行，而不可以通过Index操作执行。每次Update操作都会获取整个文档信息(如目标样本的完整的属性数据)，从而实现数据的更新修改(也可为部分字段修改)，这也就导致了每次Update操作的更新都要获取一遍原始文档，使得服务器的负载极大。但是Index操作，只是获取预设搜索引擎服务器中目标样本的属性数据的出版号，并不会get整个原始文档的全部内容，从而在一定程度上减少了服务器的开销。

可见发现，针对样本的属性数据需要进行高频更新的需求，在本申请实施例中，样本的历史属性数据存储于预设存储数据库中，从而无需从预设搜索引擎服务器(如ES)中获取样本的历史属性数据。在获取得到鉴定样本所产生的最新属性数据后，由于合并属性数据的合并操作是在写入索引数据库之前完成的，因此，可通过如Index操作的方式将合并属性数据写入预设搜索引擎服务器的索引数据库中，从而无需使用Update操作，进而利于降低对预设搜索引擎服务器的性能要求，减少服务器的开销，提升数据写入效率，保障了数据写入的实时性及稳定性。

图2是本申请实施例的数据存储方法的另一流程示意图。图2相对图1更详细描述了本申请的方案。

请一并参见图2和图5，该方法包括：

步骤S201、获取预设监控器输出的合并属性数据，其中，预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，得到合并属性数据。

该步骤可以一并参见步骤S101中的描述。

进一步的，在其中一种实施方式中，网络安全平台鉴定样本所产生的最新属性数据，包括：

其中，预设目标类型可以是样本的基本信息、信誉信息、静态信息、鉴定信息或上传信息等数据类型。这样，可以减少进行合并操作的最新属性数据的类型数量，避免全部最新属性数据均进行合并操作，进而可以减少写入预设搜索引擎服务器中的索引数据库的数据量，可以进一步的降低对预设搜索引擎服务器的性能要求，提升数据写入效率，利于提升查询效率。

需要说明的是，网络安全平台鉴定样本后所产生的数据是一种Event数据，Event数据是指数据写入网络安全平台中分布式数据库之后生成的数据库操作事件数据，这些数据库操作事件数据含有的属性数据即该步骤中所获取的最新属性数据。也就是说，该步骤中所获取的最新属性数据的结构格式是一种Event数据，可以认为网络安全平台鉴定样本后所产生Event数据为样本的最新属性数据。

在本申请实施例中，合并属性数据不仅可以通过预设监控器输出得到，还可以通过另一种实施方式获取得到合并属性数据；该实施方式包括：将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，得到合并属性数据。

在其中一种实施方式中，将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，得到合并属性数据，可以包括：

确认预设存储数据库中是否存储有样本的历史属性数据。

若是，预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，得到合并属性数据。若否，预设监控器将最新属性数据写入预设存储数据库中，并将最新属性数据作为合并属性数据。

也就是说，将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，得到合并属性数据，可以包括如下(1)与(2)两种情况，此两种情况分别为：

(1)在确认预设存储数据库中存储有样本的历史属性数据后，预设监控器将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的样本的历史属性数据进行合并操作，得到合并属性数据。

进一步的，在一实施方式中，可以包括：

S201-1、预设监控器将最新属性数据进行结构格式转换，得到文档结构格式的最新属性数据。

由于从网络安全平台产生的最新属性数据是Event数据，为了便于进行合并及后续的写入储存操作，在该步骤中，对Event数据结构格式的最新属性数据进行结构格式转换，从而得到文档结构格式的最新属性数据，即一种文档数据。

其中，结构格式转换过程在预设监控器(如Event Consumer监控器)中进行，EventConsumer监控器可以通过数据管线收集预设目标类型的Event数据去转换为文档数据，以实现针对最新属性数据的结构格式转换。

进一步的，在一实施方式中，网络安全平台先将Event数据写入第一消息队列，然后Event Consumer监控器通过数据管线从第一消息队列中收集预设目标类型的Event数据去转换为文档数据，从而完成对最新属性数据的结构格式转换。其中，Event数据可以根据Key(例如，样本的证书指纹Sha1)有序被网络安全平台写入第一消息队列中，以保障数据的一致性，实现对数据的有序保存。其中，第一消息队列可以是任何一种分布式发布订阅消息系统，即一种开源流处理平台，其可以处理消费者在网站中的所有动作流数据；第一消息队列可以是Kafka。

S201-2、预设监控器读取预设存储数据库中的样本的历史属性数据，并将文档结构格式的最新属性数据写入预设存储数据库。

在该步骤中，通过Event Consumer监控器从预设存储数据库中读取样本的历史属性数据，并将Event Consumer监控器中文档结构格式的最新属性数据写入预设存储数据库中，以作为下次读取预设存储数据库时该预设存储数据库中的样本的历史属性数据。

S201-3、预设监控器将文档结构格式的最新属性数据与历史属性数据进行合并操作，得到合并属性数据。

在该步骤中，由于最新属性数据与历史属性数据均是文档结构格式，进行合并操作后，可以得到文档结构格式的合并属性数据。也就是说，合并属性数据也是一种文档数据。其中，合并操作可以包括对历史属性数据中所缺失类型的属性数据的补充增加、以及对错误信息的更正(例如将某些类型的历史属性数据替换为对应类型的最新属性数据)。

(2)在确认预设存储数据库中未存储有样本的历史属性数据后，预设监控器将网络安全平台鉴定样本所产生的最新属性数据写入预设存储数据库中，并将最新属性数据作为合并属性数据。

在确认预设存储数据库中未存储有样本的历史属性数据后，预设监控器可以将最新属性数据写入预设存储数据库中以作为历史属性数据，并将最新属性数据作为合并属性数据。

在该步骤中，同样利用预设监控器(如Event Consumer监控器)对Event数据结构格式的最新属性数据进行结构格式转换，从而得到文档结构格式的最新属性数据。然后，将文档结构格式的最新属性数据写入预设存储数据库中以作为历史属性数据，并将最新属性数据作为合并属性数据，以便于在后续步骤中被存储。

步骤S202、将合并属性数据写入预设搜索引擎服务器中的索引数据库。

该步骤可一并参见步骤S102中的相关描述。

进一步的，在一实施方式中，可以通过Index操作将合并属性数据写入预设搜索引擎服务器中的索引数据库。这样，Index操作只需获取出索引数据库中目标样本文档数据的版本号，即可实现数据的写入，并不会获取整个目标样本文档数据的全部内容，从而在一定程度上减少了服务器的开销。

在另一实施方式中，可以将符合预设条件的合并属性数据写入预设搜索引擎服务器中的索引数据库。其中，预设条件的合并属性数据可以是指：该合并属性数据所对应的样本在第一设定时期内上传和/或在第二设定时期内被网络安全平台鉴定过。例如，预设条件的合并属性数据可以是指：该合并属性数据所对应的样本在最近一年内上传和/或在最近一年内被网络安全平台鉴定过。这样，可以实现对写入索引数据库的合并属性数据的筛选，以避免所有的合并属性数据写入预设搜索引擎服务器中的索引数据库，利于降低服务器开销。

在另一实施方式中，可以将预先写入预设消息队列中的合并属性数据按照预设索引规则写入预设搜索引擎服务器中的索引数据库。也就是说，预设监控器可以先将合并属性数据写入预设消息队列中，然后从预设消息队列中获取合并属性数据，并将合并属性数据按照预先配置完成的预设索引规则，通过数据管线写入预设搜索引擎服务器中的索引数据库。预设消息队列可以是任何一种分布式发布订阅消息系统，即一种开源流处理平台，其可以处理消费者在网站中的所有动作流数据；预设消息队列可以是Kafka。如此，利于保障数据的一致性，确保数据可以有序写入索引数据库。

进一步的，在另一实施方式中，可以将预先写入预设消息队列中的符合预设条件的的合并属性数据，通过Index操作按照预设索引规则写入预设搜索引擎服务器中的索引数据库。这样，可以对应实现上述各实施方式中所生产的技术效果。

步骤S203、将索引数据库的索引中对应的样本上传时间超于预设时长阈值的合并属性数据标记为过期索引。

可以理解，索引数据库中可以设置多个不同的索引，不同的索引所对应的数据可以相同或不同。请一并参见图6，在本申请实施例中，预设搜索引擎服务器中的索引数据库设置有索引以及过期索引。

在该步骤中，将索引数据库的索引中对应的样本上传时间超于预设时长阈值的合并属性数据标记为过期索引。例如，索引数据库的索引中的a合并属性数据对应A样本，若A样本的上传时间超于预设时长阈值，则将a合并属性数据标记为过期索引。这样，索引中将不存在有a合并属性数据，也就是说，通过查询索引数据库的索引将查询不到a合并属性数据的相关信息，只能通过查询过期索引才可以获取a合并属性数据的相关信息。其中，预设时长阈值可以是一年、一个季度或一个月等。

步骤S204、删除过期索引中的对应样本在预设时期内未被鉴定过的合并属性数据。

其中，未被鉴定过可以指未被网络安全平台鉴定过。

例如，过期索引中的a合并属性数据对应A样本，A样本在预设时期内未被网络安全平台鉴定过，则将索引数据库中过期索引的a合并属性数据删除；若A样本在预设时期内被网络安全平台鉴定过，则不删除索引数据库中过期索引的a合并属性数据。其中，预设时期可以是最近一年或一个月等。可以理解，可以利用预设搜索引擎服务器所自身提供的控制组件去执行删除操作，例如，预设搜索引擎服务器为ES，则可以利用ES所提供的API，将过期索引中的对应样本在预设时期内未被鉴定过的合并属性数据删除。

步骤S205、将过期索引中的对应样本在预设时期内被鉴定过的合并属性数据标记为历史索引。

可以理解，对于上传时间超于预设时长阈值且在预设时期内被鉴定过的样本，其对应的合并属性数据是需要保留的。在本申请实施例中，预设搜索引擎服务器中的索引数据库还设置有历史索引，以用于保留上传时间超于预设时长阈值且在预设时期内被鉴定过的样本所对应的合并属性数据。

例如，过期索引中的b合并属性数据对应B样本，B样本在预设时期内被网络安全平台鉴定过，则将b合并属性数据标记为历史索引。也就是说，将b合并属性数据从过期索引中转移至历史索引中，以避免b合并属性数据在过期索引中被删除。

步骤S206、定期删除历史索引中的合并属性数据。

在该步骤中，可以对历史索引中的合并属性数据进行定期删除，例如，将存在于历史索引中时长达到一年的合并属性数据删除。

可以理解，通过对索引数据库中的过期索引或历史索引中的符合上述条件的合并属性数据进行删除，可以有效释放预设搜索引擎服务器的硬盘空间，避免无用的合并属性数据占据预设搜索引擎服务器的硬盘空间，实现对预设搜索引擎服务器的数据清理，利于提升检索查询速度，利于满足海量数据存储的需求。

需要说明的是，合并属性数据除了可以写入预设搜索引擎服务器中的索引数据库中，还可以通过步骤S207以将合并属性数据写入离线数据库。

步骤S207、将合并属性数据写入离线数据库。

其中，离线数据库可以是任意一种基于分布式文件存储系统的数据仓库，例如Hudi。每一次合并操作得到的合并属性数据都可以通过如Spark等流式处理程序写入离线数据库中，也就是说，离线数据库可以存储所有的样本的合并属性数据。这样，预设搜索引擎服务器中的索引数据库被删除的样本的合并属性数据，也可以通过离线数据库查询获取，从而满足用户可能会提出的检索需求。

进一步的，在一实施例中，选择Hudi作为离线数据库。这样，可以使用Superset作为可视化页面，使用Trino作为SQL查询引擎以直接检索Hudi所存储的数据，可以使用Hive管理Hudi存储文档字段的元数据，并向Trino提供字段元数据。

从该实施例可以看出，本申请实施例提供的方法，针对样本的属性数据需要进行高频更新的需求，利用预设存储数据库存储样本的历史属性数据，在获取得到鉴定样本所产生的最新属性数据后，直接与预设存储数据库中存储的历史属性数据进行合并，以得到合并属性数据。这样，无需从预设搜索引擎服务器(如ES)中获取样本的历史属性数据，进而可以通过如Index操作的方式将合并属性数据写入预设搜索引擎服务器的索引数据库中，无需使用Update操作，降低了对预设搜索引擎服务器的性能要求，减少了服务器的开销，提升了数据写入效率，保障了数据写入的实时性及稳定性。其次，为了满足海量数据存储的需求，通过对索引数据库中的过期索引或历史索引中的合并属性数据进行定期删除，可以有效释放预设搜索引擎服务器的硬盘空间，避免无用的合并属性数据占据预设搜索引擎服务器的硬盘空间，实现对预设搜索引擎服务器的数据清理，利于提升检索查询速度。

图3是本申请实施例示出的数据查询方法的流程示意图。该数据查询方法用于对预设搜索引擎服务器中的索引数据库进行检索查询，索引数据库存储有如图1或图2实施例中的合并属性数据。

本申请实施例提供的一种数据查询方法，包括：

步骤A，接收数据查询请求；

步骤B，将数据查询请求输入预设搜索引擎服务器，以使预设搜索引擎服务器在索引数据库中执行查询，其中，索引数据库的数据采用以上任一实施例中提及的存储方法进行数据存储；

步骤C，输出查询结果。

在一种实施方式中，数据查询请求为第一查询语句，接收数据查询请求，将数据查询请求输入预设搜索引擎服务器，以使预设搜索引擎服务器在索引数据库中执行查询，包括：

参见图3，该方法包括：

步骤S301、接收第一查询语句。

其中，第一查询语句可以为一种语句简单易用的查询语句，例如Lucene查询语句。

步骤S302、将第一查询语句转换为预设搜索引擎服务器可执行的第二查询语句。

其中，第二查询语句可以为一种语句功能强大且预设搜索引擎服务器可执行的查询语句，例如DSL查询语句。

在该步骤中，将第一查询语句转换为预设搜索引擎服务器可执行的第二查询语句，可以包括：对解析后的第一查询语句的各个字段值进行校验；在校验成功后，将字段值转换为预设搜索引擎服务器可执行的第二查询语句。

步骤S303、将第二查询语句输入预设搜索引擎服务器，以使预设搜索引擎服务器在索引数据库中执行查询。

从该实施例可以看出，本申请实施例提供的方法，通过针对第一查询语句与第二查询语句这两种不同类型的查询语句的转换，可以利用两种不同的查询语句的优点及特性，弥补其中一种查询语句的缺陷，从而达到提升查询便利性并保障查询语句功能丰富的技术效果。

图4是本申请实施例的数据查询方法的另一流程示意图。图4相对图3更详细描述了本申请的方案。

请参见图4，该方法包括：

步骤S401、接收第一查询语句。

在该步骤中，在本申请实施例中，可以是基于ES的索引数据库，以提供一种检索查询服务。其中，第一查询语句可以为Lucene查询语句。本实施例中，以下以预设搜索引擎服务器是ES、第一查询语句是Lucene查询语句为例进行介绍。

步骤S402、对解析后的第一查询语句的各个字段值进行校验。

在该步骤中，可以先对Lucene查询语句进行解析，以解析成为AST(AbstractSyntax Tree，抽象语法树)的结构格式数据。然后对解析得到的数据中各个字段值进行校验，例如，可以校验各个字段值是否合法。

步骤S403、在校验成功后，将字段值转换为预设搜索引擎服务器可执行的第二查询语句。

在该步骤中，在校验成功后(例如，在确定各个字段值合法后)，可以将字段值转换为ES可执行的第二查询语句，第二查询语句是DSL查询语句。其中，字段值转换可以包括：时间类型的格式转换、英文的大小写转换等。

步骤S404、将第二查询语句输入预设搜索引擎服务器，以使预设搜索引擎服务器在索引数据库中执行查询。

在该步骤中，ES可以根据DSL查询语句执行查询，以完成用户的查询检索任务。

可以理解，ES作为一种预设搜索引擎服务器，其提供的DSL查询语句的语法复杂易出错，使用交互困难，但语句功能多，灵活性高。Lucene查询语句的语法相对简单，使用方便，但其语句功能较少。在本申请实施例中，利用语法简易的Lucene查询语句作为用户查询ES的索引数据库的输入，通过解析Lucene查询语句，并进行字段值的转换，以转换为功能更多的DSL查询语句。也就是说，在本申请实施例中，可以选用一种语句功能强大的查询语句作为第二查询语句，选用一种语句简单易用的查询语句作为第一查询语句。这样，可以充分利用两种不同的查询语句的优点及特性，弥补其中一种查询语句的缺陷，从而实现了在保障查询语句的功能强大的前提下提升查询的便利性。

举例来说，例如：定义x:None(用于表示不存在x字段的文档)，对于该个性化查询功能，如果直接使用Lucene查询语句进行是无法实现查询的，而通过本实施例对查询语句进行解析及转换后，则可以实现上述个性化查询功能。再举例来说，本实施例所提供的查询方式，查询语句转换中针对各个字段值转换，可以实现对英文大小写的转换，这样，查询语句的字母输入可以忽略大小写，提升了查询输入的便利性。

需要说明是，上述实施例以预设搜索引擎服务器是ES为例，以提供一种针对索引数据库的查询方式。在其他实施例中，预设搜索引擎服务器也可以是其他类型的搜索引擎服务器，通过针对第一查询语句与第二查询语句这两种不同类型的查询语句的转换，以充分利用两种不同的查询语句的优点及特性，弥补其中一种查询语句的缺陷，从而达到提升查询便利性并保障查询语句功能丰富的技术效果。

从该实施例可以看出，本申请实施例提供的方法，通过利用两种不同的查询语句的优点及特性，弥补其中一种查询语句的缺陷，实现了个性化查询的功能，并实现了提升查询便利性的技术效果。

与前述应用功能实现方法实施例相对应，本申请还提供了一种数据存储系统、电子设备及相应的实施例。

图7是本申请实施例示出的一种数据存储系统的结构示意图。

参见图7，数据存储系统600包括：网络安全平台610、预设存储数据库620、预设监控器630、数据处理设备640、预设搜索引擎服务器650。

网络安全平台610，用于鉴定样本并产生样本的最新属性数据。

预设存储数据库620，用于存储样本的历史属性数据。其中，预设存储数据库可以是任何一种分布式存储数据库，例如，可以是MongoDB、HBase等。

预设监控器630，用于接收最新属性数据并读取历史属性数据，将最新属性数据与历史属性数据进行合并操作，得到合并属性数据。其中，预设监控器630可以是EventConsumer监控器。

数据处理设备640，用于获取预设监控器630输出的合并属性数据；将合并属性数据写入预设搜索引擎服务器650中的索引数据库。

预设搜索引擎服务器650，用于接收合并属性数据，并将合并属性数据存储于预设搜索引擎服务器650中的索引数据库。预设搜索引擎服务器650可以为ElasticSearch。

其中，数据处理设备640的功能可以参见图1至图4实施例中的描述。

参见图8，一种数据存储系统600，包括：网络安全平台610、预设存储数据库620、预设监控器630、数据处理设备640、预设搜索引擎服务器650、预设消息队列660、第一消息队列670、离线数据库680。

其中，网络安全平台610、预设存储数据库620、预设监控器630、数据处理设备640、预设搜索引擎服务器650的功能可参见图7所示，此处不再赘述。

其中，预设消息队列660，用于接收预设监控器630输出的合并属性数据。也就是说，预设监控器630将合并属性数据写入预设消息队列660中。其中，预设消息队列660可以是任何一种分布式发布订阅消息系统，如Kafka。数据处理设备640还用于从预设消息队列660中获取预设监控器630输出的合并属性数据；将合并属性数据写入预设搜索引擎服务器650中的索引数据库。

其中，第一消息队列670，用于接收网络安全平台410鉴定样本所产生的最新属性数据。预设监控器630可以从第一消息队列460中获取网络安全平台410鉴定样本所产生的最新属性数据。第一消息队列460可以是任何一种分布式发布订阅消息系统，如Kafka。

其中，离线数据库680，用于接收并存储合并属性数据。离线数据库470可以是任意一种基于分布式文件存储系统的数据仓库，例如Hudi。数据处理设备640还用于将合并属性数据写入离线数据库680中。

进一步的，请一并参见图6，预设搜索引擎服务器440中的索引数据库设置有索引、过期索引及历史索引。数据处理设备640还用于将索引数据库的索引中对应的样本上传时间超于预设时长阈值的合并属性数据标记为过期索引；删除过期索引中的对应样本在预设时期内未被鉴定过的合并属性数据；将过期索引中的对应样本在预设时期内被鉴定过的合并属性数据标记为历史索引；定期删除历史索引中的合并属性数据。

数据处理设备640还用于接收第一查询语句；对解析后的第一查询语句的各个字段值进行校验；在校验成功后，将字段值转换为预设搜索引擎服务器可执行的第二查询语句；将第二查询语句输入预设搜索引擎服务器，以使预设搜索引擎服务器在索引数据库中执行查询。

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图9是本申请实施例示出的电子设备的结构示意图。

参见图9，电子设备800包括存储器810和处理器820。该电子设备例如可以是数据处理设备。

处理器820可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器810可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码，当可执行代码被处理器820处理时，可以使处理器820执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质)，其上存储有可执行代码(或计算机程序或计算机指令代码)，当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据存储方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述网络安全平台鉴定样本所产生的最新属性数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据。

4.根据权利要求3所述的方法，其特征在于，所述将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述将网络安全平台鉴定样本所产生的最新属性数据与预设存储数据库中的所述样本的历史属性数据进行合并操作，得到所述合并属性数据，包括：

读取预设存储数据库中的所述样本的历史属性数据；

6.根据权利要求1所述的方法，其特征在于，所述将所述合并属性数据写入预设搜索引擎服务器中的索引数据库，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述合并属性数据写入离线数据库。

8.根据权利要求1所述的方法，其特征在于，所述将所述合并属性数据写入预设搜索引擎服务器中的索引数据库之后，还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

定期删除所述历史索引中的合并属性数据。

10.一种数据查询方法，其特征在于，所述方法包括：

接收数据查询请求；

将所述数据查询请求输入预设搜索引擎服务器，以使所述预设搜索引擎服务器在索引数据库中执行查询，其中，所述索引数据库的数据采用如权利要求1-9中任一项所述方法进行存储；

输出查询结果。

11.根据权利要求10所述的方法，其特征在于，所述数据查询请求为第一查询语句，所述接收数据查询请求，将所述数据查询请求输入预设搜索引擎服务器，以使所述预设搜索引擎服务器在索引数据库中执行查询，包括：

接收第一查询语句；

12.根据权利要求11所述的方法，其特征在于，所述将所述第一查询语句转换为所述预设搜索引擎服务器可执行的第二查询语句，包括：

对解析后的第一查询语句的各个字段值进行校验；

13.一种数据存储系统，其特征在于，包括：

预设存储数据库，用于存储所述样本的历史属性数据；

14.根据权利要求13所述的系统，其特征在于，所述系统还包括：

15.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-12中任一项所述的方法。