CN112579623B

CN112579623B - 存储数据的方法、装置、存储介质及设备

Info

Publication number: CN112579623B
Application number: CN201910930928.2A
Authority: CN
Inventors: 吕现彪
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2024-08-02
Anticipated expiration: 2039-09-29
Also published as: CN112579623A

Abstract

本发明公开了一种存储数据的方法、装置、存储介质及设备，该方法包括：获取待存储数据的属性信息集；基于所述属性信息集，获得所述待存储数据的唯一标识信息；检测是否存在目标已存储数据，所述目标已存储数据的目标唯一标识信息与所述唯一标识信息相同；若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；将所述待存储数据存储至所述目标数据组。通过本发明，使用去重机制避免了数据库中出现重复数据，且对存入数据库的数据进行分组，使得后续能基于组别进行数据检索，缩小了检索范围，提高了数据提取效率，从而提升数据分析利用效率。

Description

存储数据的方法、装置、存储介质及设备

技术领域

本发明涉及数据处理技术领域，尤其涉及存储数据的方法、装置、存储介质及设备。

背景技术

在如今的信息时代，如何科学的利用海量数据是被热点关注的问题。目前，对数据的处理一般分为三个阶段：采集阶段、存储阶段以及分析阶段。例如通过网络爬虫等数据采集工具从网络上采集数据，然后将采集得到的数据存储到数据库中，最后对数据库中的数据进行统计、学习、挖掘等分析操作，得到分析结果，再根据分析结果进行相应的决策和处理。但是在分布式系统中，由于多个客户端相互独立，可能出现多个客户端采集到同一数据的情况，这样会导致数据库中出现重复数据，浪费了存储资源。而且在分析阶段，需要对整个数据库中的数据进行检索以得到想要的数据，会耗费较长时间，影响了分析效率。

发明内容

本发明的主要目的在于提供一种存储数据的方法、装置、存储介质及设备，旨在解决现有技术中存在的上述技术问题。

为实现上述目的，本发明提供一种存储数据的方法，所述存储数据的方法包括：

获取待存储数据的属性信息集；

基于所述属性信息集，获得所述待存储数据的唯一标识信息；

检测是否存在目标已存储数据，所述目标已存储数据的目标唯一标识信息与所述唯一标识信息相同；

若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；

将所述待存储数据存储至所述目标数据组。

可选的，所述基于所述属性信息集，获得所述待存储数据的唯一标识信息包括：

按照预置的拼接规则，对所述属性信息集中包含的多个属性信息进行拼接，得到拼接信息；

对所述拼接信息进行哈希运算，以哈希运算结果作为所述待存储数据的唯一标识信息。

可选的，在所述根据所述唯一标识信息确定目标数据组之前，还包括：

确定所述哈希运算对应的字符集中的字符数量M，所述M为正整数；

构建M^N个数据组，所述N为正整数，且N≤M，并设置每个数据组对应一唯一字段，其中，不同数据组对应的唯一字段不同，所述唯一字段包括N个字符，所述字符取自所述字符集。

可选的，所述根据所述唯一标识信息确定目标数据组包括：

选取所述唯一标识信息的前N个字符，所述N为正整数；

从所述M^N个数据组中确定唯一字段与所述前N个字符构成的字段相同的目标数据组。

可选的，每个数据组具有一个对应的存储线程，所述将所述待存储数据存储至所述目标数据组包括：

调用所述目标数据组对应的存储线程；

通过所述存储线程将所述待存储数据以及所述唯一标识信息存储至所述目标数据组。

可选的，每个数据组具有一个对应的读取线程，在所述将所述待存储数据存储至所述目标数据组之后，还包括：

当接收到数据读取请求时，获取所述数据读取请求包含的目标属性信息集；

按照所述预置的拼接规则，对所述目标属性信息集中包含的多个属性信息进行拼接，得到目标拼接信息；

对所述目标拼接信息进行哈希运算，以哈希运算结果作为目标唯一标识信息；

选取所述目标唯一标识信息的前N个字符；

从所述M^N个数据组中选取唯一字段与所述目标唯一标识信息的前N个字符构成的字段相同的第一数据组；

调用所述第一数据组对应的读取线程；

通过所述读取线程从所述第一数据组中读取所述目标唯一标识信息对应的待读取数据。

可选的，在所述获取待存储数据的属性信息集之前，还包括：

检测所述待存储数据中是否存在恶意病毒；

若所述待存储数据中不存在恶意病毒，则检测所述待存储数据中是否包含文字信息和/或人脸图片；

当所述待存储数据包含文字信息时，检测所述文字信息中是否存在预设敏感词汇；和/或：

当所述待存储数据包含人脸图像时，计算所述人脸图像与各个预置人脸图像的相似度，获得各个相似度计算结果；

当所述文字信息中不存在预设敏感词汇以及所述各个相似度计算结果中不存在大于或等于预设阈值的相似度计算结果时，执行所述获取待存储数据的属性信息集的步骤。

此外，为实现上述目的，本发明还提供一种存储数据的装置，所述装置包括：

获取模块，用于获取待存储数据的属性信息集；

生成模块，用于基于所述属性信息集，获得所述待存储数据的唯一标识信息；

检测模块，用于检测是否存在目标已存储数据，所述目标已存储数据的目标唯一标识信息与所述唯一标识信息相同；

确定模块，用于若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；

存储模块，用于将所述待存储数据存储至所述目标数据组。

此外，为实现上述目的，本发明还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上方法所述的方法步骤。

此外，为实现上述目的，本发明还提供一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如上所述的方法步骤。

本发明中，获取待存储数据的属性信息集；基于所述属性信息集，获得所述待存储数据的唯一标识信息；检测是否存在目标已存储数据，所述目标已存储数据的目标唯一标识信息与所述唯一标识信息相同；若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；将所述待存储数据存储至所述目标数据组。通过本发明，使用去重机制避免了数据库中出现重复数据，且对存入数据库的数据进行分组，使得后续能基于组别进行数据检索，缩小了检索范围，提高了数据提取效率，从而提升数据分析利用效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考图形表示相同的部件。在附图中：

图1为本发明存储数据的方法一实施例的流程示意图；

图2为本发明存储数据的装置一实施例的功能模块示意图；

图3为本发明设备一实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，图1为本发明存储数据的方法一实施例的流程示意图。在一实施例中，存储数据的方法包括：

步骤S10，获取待存储数据的属性信息集；

本实施例中，待存储数据可以是文章、音乐、视频、图片中的任意一种，或任意多种的结合，在此不做限制。待存储数据的属性信息集包括多个属性信息，这些属性信息用于彰显待存储数据的独一性。例如，当待存储数据为文章时，获取待存储数据的属性信息集，该属性信息集中包含的属性信息有：文章标题、发布时间、文章作者；当待存储数据为音乐时，获取待存储数据的属性信息集，该属性信息集中包含的属性信息有：音乐名称、作词人名称、作曲人名称、演唱者名称；当待存储数据为视频时，获取待存储数据的属性信息集，该属性信息集中包含的属性信息有：视频名称、主演人员名称、导演名称。上述对属性信息集中包含的属性信息的说明仅为实例性说明，可根据实际需要对属性信息集中包含的属性信息进行合理扩充或缩减。

步骤S20，基于所述属性信息集，获得所述待存储数据的唯一标识信息；

本实施例中，通过对属性信息集进行哈希运算，例如通过MD4，MD5，SHS等常见的哈希运算对属性信息集进行哈希运算，得到待存储数据的唯一标识信息。

进一步地，在一可选实施例中，步骤S20包括：

按照预置的拼接规则，对所述属性信息集中包含的多个属性信息进行拼接，得到拼接信息；对所述拼接信息进行哈希运算，以哈希运算结果作为所述待存储数据的唯一标识信息。

本实施例中，每个属性信息实质为一串字符串，即按照预置的拼接规则，将多个字符串拼接成一串总字符串，即为拼接信息。所述预置的拼接规则根据实际需要进行设置。

在一具体例子中，属性信息集中包含的多个属性信息分别为：att1，att2，att3。其中，att1，att2，att3分别为视频名称、主演人员名称、导演名称对应的字符串，而预置的拼接规则为：视频名称+导演名称+主演人员名称，则拼接得到的总字符串(即拼接信息)为att1+att3+att2，其中“+”表示对字符串进行拼接处理。

在另一具体例子中，属性信息集中包含的多个属性信息分别为：att1，att2，att3，att4。其中，att1，att2，att3，att4分别为音乐名称、作词人名称、作曲人名称、演唱者名称，而预置的拼接规则为：音乐名称+演唱者名称+作曲人名称+作词人名称，则拼接得到的总字符串(即拼接信息)为att1+att4+att3+att2，其中“+”表示对字符串进行拼接处理。

容易理解的是，属性信息集中的属性信息用于彰显待存储数据的独一性，不同的数据对应的属性集是不一样的，则每个数据均对应唯一的拼接信息，继续对每个数据对应的唯一的拼接信息进行哈希运算，即可将哈希运算得到的结果作为每个数据的唯一标识信息。

步骤S30，检测是否存在目标已存储数据，所述目标已存储数据的目标唯一标识信息与所述唯一标识信息相同；

本实施例中，如上述实施例所述，可为每个数据赋予唯一标识信息，即数据库中的已存储数据1对应唯一标识1，已存储数据2对应唯一标识2，已存储数据3对应唯一标识3……已存储数据N对应唯一标识N。即从唯一标识1至唯一标识N中查找是否存在与待存储数据的唯一标识信息相同的目标唯一标识信息。若存在与待存储数据的唯一标识信息相同的目标唯一标识信息，则说明该目标唯一标识信息对应的目标已存储数据与待存储数据是一样的数据，则放弃此次存储；若不存在与待存储数据的唯一标识信息相同的目标唯一标识信息，则说明数据库中不存在与待存储数据一样的数据，即不存在目标已存储数据。

步骤S40，若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；

当不存在目标已存储数据时，需要根据唯一标识信息确定目标数据组。

一可选实施例中，在所述根据所述唯一标识信息确定目标数据组之前，还包括：

本实施例中，哈希运算结果实质上是得到一个字符串，字符串中各个字符取自哈希运算对应的字符集。例如，以MD5运算作为选用的哈希运算为例，通过MD5运算得到的字符串中的每个字符取自字符集0-9以及a-z，该字符集中的字符数据M＝36。当N取1时，即构建36个数据组，每个数据组对应的唯一字段包括1个取自字符集的字符，且36个数据组之间对应的唯一字段均不相同，即数据组1至36对应的唯一字段为分别为0-9，a-z。同理，当N取2时，即构建1296个数据组，每个数据组对应的唯一字段包括2个取自字符集的字符，且1296个数据组之间对应的唯一字段均不相同，即数据组1至1296对应的唯一字段分别为00、01、02……zz。

容易理解的是，当选用其他的哈希运算方式时，若哈希运算方式的字符集为其他字符集合，例如A-Z，则此时的M＝26。当N取1时，即构建26个数据组，每个数据组对应的唯一字段包括1个取自字符集的字符，且26个数据组之间对应的唯一字段均不相同，即数据组1至26对应的唯一字段为分别为A-Z。同理，当N取2时，即构建676个数据组，每个数据组对应的唯一字段包括2个取自字符集的字符，且676个数据组之间对应的唯一字段均不相同，即数据组1至676对应的唯一字段分别为AA、AB、AC……ZX、ZY、ZZ。

为了便于举例说明，下述以哈希运算选用MD5运算，且N取1时的情况为例，由于MD5运算对应的字符集中字符数量为36，则构建36个数据组，每个数据组对应的唯一字段包括1个取自字符集的字符，且36个数据组之间对应的唯一字段均不相同，即数据组1至36对应的唯一字段为分别为0-9，a-z。其含义为：第1数据组用于存储唯一标识信息的第一位为“0”的数据，第2数据组用于存储唯一标识信息的第一位为“1”的数据……第36数据组用于存储唯一标识信息的第一位为“z”的数据。

一可选实施例中，所述根据所述唯一标识信息确定目标数据组包括：

选取所述唯一标识信息的前N个字符，所述N为正整数；

本实施例中，由于唯一标识信息是根据哈希运算得到的，则每个数据的唯一标识信息中的每个字符都是取自哈希运算对应的字符集。哈希运算以MD5运算为例，则每个数据的唯一标识信息中的每个字符都是取自字符集0-9，a-z。若在分组时N的取值为1，则选取唯一标识信息的前1个字符(即首位字符)，若选取的唯一标识信息的首位字符为“z”，而在构建的数据组中，只有第36数据组的唯一字段为“z”，则确定目标数据组为第36数据组；若选取的唯一标识信息的前N个字符(N取1)为“2”，则确定目标数据组为第3数据组。如表1所示，表1为数据与其所属组别的示意表。

表1

容易理解的是，当N取2时，则预先构建的数据组个数为36*36＝1296，这种分组方式下的如何确定目标数据组的具体实施例与上述确定目标数据组的实施例基本相同，在此不做赘述。

步骤S50，将所述待存储数据存储至所述目标数据组。

本实施例中，确定待存储数据对应的目标数据组后，则将待存储数据存储至该目标数据组。后续，若数据分析处理阶段需要使用该待存储数据时，则可从目标数据组中进行数据检索，从而调取该待存储数据，缩小了数据检索范围，从而提高了数据提取效率。为了后续能准确读取数据，还可以是将该待存储数据以及唯一标识信息关联存储至目标数据组。

进一步地，一可选实施例中，步骤S50包括：

调用所述目标数据组对应的存储线程；

本实施例中，若需要将待存储数据存储至某个数据组中，则通过调用该数据组的存储线程，执行本次存储任务。在分布式场景下，当有多个数据需要存储至多个数据组中时，则分别调用每个数据组的存储线程，并发执行各个存储任务，提高了存储效率。

本实施例中，获取待存储数据的属性信息集；基于所述属性信息集，获得所述待存储数据的唯一标识信息；检测是否存在目标已存储数据，所述目标已存储数据的目标唯一标识信息与所述唯一标识信息相同；若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；将所述待存储数据存储至所述目标数据组。通过本实施例，使用去重机制避免了数据库中出现重复数据，且对存入数据库的数据进行分组，使得后续能基于组别进行数据检索，缩小了检索范围，提高了数据提取效率，从而提升数据分析利用效率。

进一步地，一可选实施例中，步骤S50之后，还包括：

当接收到数据读取请求时，获取所述数据读取请求包含的目标属性信息集；按照所述预置的拼接规则，对所述目标属性信息集中包含的多个属性信息进行拼接，得到目标拼接信息；对所述目标拼接信息进行哈希运算，以哈希运算结果作为目标唯一标识信息；选取所述目标唯一标识信息的前N个字符；从所述M^N个数据组中选取唯一字段与所述目标唯一标识信息的前N个字符构成的字段相同的第一数据组；调用所述第一数据组对应的读取线程；通过所述读取线程从所述第一数据组中读取所述目标唯一标识信息对应的待读取数据。

本实施例中，当接收到数据读取请求时，可通过数据读取请求中包含的目标属性信息集确定请求获取的数据所属的第一数据组。例如，用户想要查找目标数据，目标数据以一首歌曲为例进行说明。用户输入该歌曲的音乐名称、作词人名称、作曲人名称、演唱者名称，然后点击确认，以供终端接收到包含了音乐名称、作词人名称、作曲人名称、演唱者名称(即目标属性信息集)的数据读取请求，然后按照预置的拼接规则，对目标属性信息集中包含的多个属性信息进行拼接，得到目标拼接信息(与上述实施例中对待存储数据的属性信息进行拼接采用的拼接规则一致)，然后对目标拼接信息进行哈希运算(与上述实施例中对待存储数据的拼接信息进行哈希运算所采用的哈希运算方式一致)，以哈希运算结果作为目标唯一标识信息。由于在存储数据时，是基于数据的唯一标识信息的前N个字符确定存储位置，因此，在读取数据时，同样选取待读取数据的目标唯一标识信息的前N个字符；从M^N个数据组中选取唯一字段与目标唯一标识信息的前N个字符构成的字段相同的第一数据组，然后调用第一数据组对应的读取线程，通过读取线程从第一数据组中读取目标唯一标识信息对应的待读取数据(即第一数据组中的该待读取数据的唯一标识信息与目标唯一标识信息相同)。在分布式场景下，当有多个数据需要从不同的数据组中读取时，则分别调用每个数据组的读取线程，并发执行各个读取任务，提高了读取效率。

进一步地，一可选实施例中，步骤S10之前，还包括：

检测所述待存储数据中是否存在恶意病毒；若所述待存储数据中不存在恶意病毒，则检测所述待存储数据中是否包含文字信息和/或人脸图片；当所述待存储数据包含文字信息时，检测所述文字信息中是否存在预设敏感词汇；和/或：当所述待存储数据包含人脸图像时，计算所述人脸图像与各个预置人脸图像的相似度，获得各个相似度计算结果；当所述文字信息中不存在预设敏感词汇以及所述各个相似度计算结果中不存在大于或等于预设阈值的相似度计算结果时，执行所述获取待存储数据的属性信息集的步骤。

本实施例中，恶意病毒一般以代码形式存在，可通过检测待存储数据中是否存在恶意代码的方式，若待存储数据中存在恶意代码，则认定待存储数据中存在恶意病毒，则放弃此次存储。若所述待存储数据中不存在恶意病毒，检测待存储数据中是否包含文字信息和/或人脸图片。当待存储数据包含文字信息时，检测文字信息中是否存在预设敏感词汇；若文字信息中存在预设敏感词汇，则放弃此次存储。其中，预设敏感词汇是预先设置的一些涉黄涉暴的词汇。

和/或，当待存储数据包含人脸图像时，计算人脸图像与各个预置人脸图像的相似度，获得相似度计算结果；当所述相似度计算结果中存在大于或等于预设阈值的目标计算结果时，放弃此次存储。其中，预置的各个人脸图像指违法图片中常出现的一些人脸图像。只有当待存储数据不存在恶意病毒、不存在预设敏感词汇以及所述各个相似度计算结果中不存在大于或等于预设阈值的相似度计算结果时，才执行后续的存储过程。通过本实施例，保证了数据库中存储的数据均是安全且合法的。

基于上述实施例的说明，上述存储数据的方法可以应用于多种实际场景，例如分布式系统中，在分布式系统中，由于各个客户端相互独立，导致可能出现获取重复数据的情况，通过上述实施例的方法，将该方法应用在分布式系统中的各个客户端上，使用去重机制避免了数据库中出现重复数据，且对存入数据库的数据进行分组，使得后续能基于组别进行数据检索，缩小了检索范围，提高了数据提取效率，从而提升数据分析利用效率。

如图2所示，图2为本发明存储数据的装置一实施例的功能模块示意图。一实施例中，存储数据的装置包括：

获取模块10，用于获取待存储数据的属性信息集；

生成模块20，用于基于所述属性信息集，获得所述待存储数据的唯一标识信息；

检测模块30，用于检测是否存在目标已存储数据，所述目标已存储数据的目标唯一标识信息与所述唯一标识信息相同；

确定模块40，用于若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；

存储模块50，用于将所述待存储数据存储至所述目标数据组。

进一步地，一实施例中，生成模块20，用于：

进一步地，一实施例中，存储数据的装置还包括创建模块，用于：

进一步地，一实施例中，确定模块40，用于：

选取所述唯一标识信息的前N个字符，所述N为正整数；

进一步地，一实施例中，存储模块50，用于：

调用所述目标数据组对应的存储线程；

进一步地，一实施例中，存储数据的装置还包括读取模块，所述读取模块，用于：

进一步地，一实施例中，存储数据的装置还包括安检模块，所述安检模块，用于：

所述存储数据的装置包括处理器和存储器，上述获取模块、生成模块、检测模块、确定模块以及存储模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对系统服务器的系统资源进行扩充或删减。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现存储数据的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行存储数据的方法。

本发明实施例提供了一种设备，如图3所示，设备30包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线303；其中，处理器301、存储器302通过总线303完成相互间的通信；处理器301用于调用存储器302中的程序指令，以执行上述的存储数据的方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取待存储数据的属性信息集；

将所述待存储数据存储至所述目标数据组。

可选的，所述根据所述唯一标识信息确定目标数据组包括：

选取所述唯一标识信息的前N个字符，所述N为正整数；

调用所述目标数据组对应的存储线程；

选取所述目标唯一标识信息的前N个字符；

调用所述第一数据组对应的读取线程；

检测所述待存储数据中是否存在恶意病毒；

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种存储数据的方法，其特征在于，所述存储数据的方法包括：

获取待存储数据的属性信息集；

基于所述属性信息集，获得所述待存储数据的唯一标识信息，包括：按照预置的拼接规则，对所述属性信息集中包含的多个属性信息进行拼接，得到拼接信息；对所述拼接信息进行哈希运算，以哈希运算结果作为所述待存储数据的唯一标识信息；

将所述待存储数据存储至所述目标数据组；

在所述根据所述唯一标识信息确定目标数据组之前，还包括：

构建M^N个数据组，所述N为正整数，且N≤M，并设置每个数据组对应一唯一字段，其中，不同数据组对应的唯一字段不同，所述唯一字段包括N个字符，所述字符取自所述字符集；

所述根据所述唯一标识信息确定目标数据组包括：

选取所述唯一标识信息的前N个字符，所述N为正整数；

2.如权利要求1所述的方法，其特征在于，每个数据组具有一个对应的存储线程，所述将所述待存储数据存储至所述目标数据组包括：

调用所述目标数据组对应的存储线程；

3.如权利要求2所述的方法，其特征在于，每个数据组具有一个对应的读取线程，在所述将所述待存储数据存储至所述目标数据组之后，还包括：

选取所述目标唯一标识信息的前N个字符；

调用所述第一数据组对应的读取线程；

4.如权利要求1至3中任一项所述的方法，其特征在于，在所述获取待存储数据的属性信息集之前，还包括：

检测所述待存储数据中是否存在恶意病毒；

5.一种存储数据的装置，其特征在于，所述装置包括：

获取模块，用于获取待存储数据的属性信息集；

生成模块，用于基于所述属性信息集，获得所述待存储数据的唯一标识信息；所述生成模块，具体用于：按照预置的拼接规则，对所述属性信息集中包含的多个属性信息进行拼接，得到拼接信息；对所述拼接信息进行哈希运算，以哈希运算结果作为所述待存储数据的唯一标识信息；

创建模块，用于确定所述哈希运算对应的字符集中的字符数量M，所述M为正整数；构建M^N个数据组，所述N为正整数，且N≤M，并设置每个数据组对应一唯一字段，其中，不同数据组对应的唯一字段不同，所述唯一字段包括N个字符，所述字符取自所述字符集；

确定模块，用于若不存在所述目标已存储数据，则根据所述唯一标识信息确定目标数据组；所述确定模块，具体用于：选取所述唯一标识信息的前N个字符，所述N为正整数；从所述M^N个数据组中确定唯一字段与所述前N个字符构成的字段相同的目标数据组；

存储模块，用于将所述待存储数据存储至所述目标数据组。

6.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的方法步骤。

7.一种电子设备，其特征在于，所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1-4中任一项所述的方法步骤。