CN117009583A

CN117009583A - 一种数据处理方法及装置

Info

Publication number: CN117009583A
Application number: CN202210462389.6A
Authority: CN
Inventors: 贾扬塔·巴萨克; 桑吉耶夫·古普塔; 方维
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-11-07

Abstract

一种数据处理方法及装置，用于解决在分层存储系统中查询数据时，存在查询数据慢的问题。该数据处理方法适用于分层存储系统中，分层存储系统包括第一存储层和第二存储层，第一存储层的读取速度高于第二存储层的读取速度。该数据处理方法包括：根据第一数据，确定第一特征向量，其中，第一数据是用户在历史时段中访问的数据；根据第一特征向量和索引集合包括的多个索引中的特征向量，从多个索引中确定目标索引，其中，目标索引中的目标特征向量是根据存储在第二存储层中的目标数据确定的，第一特征向量和目标特征向量符合第一预设条件。根据目标索引中的目标存储路径，将目标数据由第二存储层复制到第一存储层中。

Description

一种数据处理方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法及装置。

背景技术

存储系统通常需要满足海量数据，尤其是非结构化数据的高效存储与管理。综合考虑成本和性能两个指标，以及用户多样化的性价比要求，存储系统提供商通常构建分层存储系统。分层存储系统比如包括性能层和容量层两层，其中，性能层可以是高速存储介质，容量层可以低速大容量存储介质。性能层的存储空间通常较小，当性能层的剩余存储空间小于剩余阈值时，会将冷数据(比如访问频率较低的数据)从性能层移动到容量层，以使得性能层有足够的剩余存储空间来存储新数据。

在分层存储系统的查询操作中，搜索引擎在接收到查询请求之后，可先在性能层中查询，若在性能层中查询失败，则进一步在容量层中查询。

如此，搜索引擎在分层存储系统中查询数据时，存在查询数据慢的问题。

发明内容

本申请提供一种数据处理方法及装置，用于解决在分层存储系统中查询数据时，存在查询数据慢的问题。

第一方面，本申请提供一种数据处理方法，适用于分层存储系统中，分层存储系统包括第一存储层和第二存储层，第一存储层的读取速度高于第二存储层的读取速度。数据处理方法可以由分层存储系统执行，或者具体由分层存储系统中的处理设备执行。数据处理方法包括：根据第一数据，确定第一特征向量，其中，第一数据是用户在历史时段中访问的数据；根据第一特征向量和索引集合包括的多个索引中的特征向量，从多个索引中确定目标索引，其中，目标索引中的目标特征向量是根据存储在第二存储层中的目标数据确定的，第一特征向量和目标特征向量符合第一预设条件。根据目标索引中的目标存储路径，将目标数据由第二存储层复制到第一存储层中。

上述技术方案中，基于用户在历史时段中访问的数据，预测用户在未来时段中可能需要访问的数据(即目标数据)，将目标数据从第二存储层预先复制到第一存储层中，以使得第一存储层中预先存储有目标数据。当用户需要访问该目标数据时，可直接从第一存储层中获取该目标数据，而无需进一步查询第二存储层，由于第一存储层的读取速度高于第二存储层的读取速度，因此有助于提高数据的查询速度。

进一步的，根据用户在历史时段中访问的数据，从索引集合中确定目标数据对应的目标索引，根据目标索引中存储的目标存储路径，从第二存储层获取目标数据。通过索引集合的方式，加快从第二存储层获取目标数据的速度，提高预取数据的效率。

在一种可能的实现方式中，目标索引中还包括目标关键词，目标关键词是根据目标数据中包含的词语的出现频率确定的。将目标数据由第二存储层复制到第一存储层中之前，还可根据第一数据中包含的词语的出现频率，确定第一关键词，进而确定第一关键词和目标关键词的匹配结果符合第二预设条件。

上述技术方案中，可进一步结合索引中数据的关键词，以及第一数据对应的第一关键词，确定目标索引，有助于提高确定目标索引的准确性。

在一种可能的实现方式中，在确定第一数据时，具体可以是，确定用户在历史时段中从分层存储系统中访问的内部数据，然后将该内部数据确定为第一数据；和/或，确定用户在历史时段中从外部网站中访问的外部数据，然后将该外部数据确定为第一数据。

上述技术方案中，结合用户访问的内外部数据的访问记录，确定第一数据，有助于提高根据第一数据预测目标数据的准确性。

在一种可能的实现方式中，第一数据为多个，相应的，在根据第一特征向量和索引集合包括的多个索引中的特征向量，从多个索引中确定目标索引时，具体可以是，对多个第一数据的第一特征向量进行聚类，将聚类得到的质心作为聚合特征向量，根据聚合特征向量和多个索引中的特征向量，从多个索引中确定目标索引，其中，聚合特征向量与目标索引中的目标特征向量之间的距离符合第一预设条件。

上述技术方案中，在获取到多个第一数据时，可先将多个第一数据对应的特征向量进行聚合，根据聚合质心从多个索引中确定目标索引，有助于提高确定目标索引的准确性。

在一种可能的实现方式中，还可根据存储在第一存储层中的第二数据，确定第二特征向量和第二关键词，以及确定第二数据由第一存储层迁移至第二存储层时，第二数据存储于第二存储层中的第二存储路径。根据第二特征向量、第二关键词和第二存储路径，生成第二数据的索引，将第二数据的索引存储至索引集合中。

上述技术方案中，还可生成第二数据的索引，将第二数据的索引存储至索引集合中。如此，可根据该索引集合中第二数据的索引，迅速从第二存储层中查找到第二数据。

在一种可能的实现方式中，在根据存储在第一存储层中的第二数据，确定第二特征向量和第二关键词之前，还可以确定第一存储层中的剩余存储空间符合第三预设条件，且存储在第一存储层中的第二数据被用户访问的访问情况符合第四预设条件。

上述技术方案中，可确定第一存储层中的剩余存储空间的容量较小，且存储在第一存储层中的第二数据为冷数据时，将该第二数据由第一存储层迁移至第二存储层，从而使得第一存储层有足够的剩余存储空间来存储新数据或者访问频率较高的数据。

在一种可能的实现方式中，还可以获取查询请求，其中，查询请求中包括查询词和第三数据，第三数据指示查询词的上下文。根据第三数据和查询词，从第一存储层中查询第四数据。上述技术方案中，可根据查询请求从第一存储层中获取查询请求所需要的查询的数据(即第四数据)，有助于提高数据的查询速度。

第二方面，本申请提供一种数据处理装置，适用于分层存储系统中，分层存储系统包括数据处理装置、第一存储层和第二存储层，第一存储层的读取速度高于第二存储层的读取速度。数据处理装置具体可以是处理设备。

该装置包括：处理模块用于根据第一数据，确定第一特征向量，第一数据是用户在历史时段中访问的数据；根据第一特征向量和索引集合包括的多个索引中的特征向量，从多个索引中确定目标索引，其中，目标索引中的目标特征向量是根据存储在第二存储层中的目标数据确定的，第一特征向量和目标特征向量符合第一预设条件；预取模块用于根据目标索引中的目标存储路径，将目标数据由第二存储层复制到第一存储层中。

在一种可能的实现方式中，目标索引中还包括目标关键词，目标关键词是根据目标数据中包含的词语的出现频率确定的；处理模块还用于在预取模块将目标数据由第二存储层复制到第一存储层中之前，根据第一数据中包含的词语的出现频率，确定第一关键词；以及确定第一关键词和目标关键词的匹配结果符合第二预设条件。

在一种可能的实现方式中，处理模块还用于确定用户在历史时段中从分层存储系统中访问的内部数据，将内部数据确定为第一数据；和/或，确定用户在历史时段中从外部网站中访问的外部数据，将外部数据确定为第一数据。

在一种可能的实现方式中，第一数据为多个；处理模块在根据第一特征向量和索引集合包括的多个索引中的特征向量，从多个索引中确定目标索引时，具体用于：对多个第一数据的第一特征向量进行聚类，将聚类得到的质心作为聚合特征向量；根据聚合特征向量和多个索引中的特征向量，从多个索引中确定目标索引，其中，聚合特征向量与目标索引中的目标特征向量之间的距离符合第一预设条件。

在一种可能的实现方式中，处理模块还用于：根据存储在第一存储层中的第二数据，确定第二特征向量和第二关键词；确定第二数据由第一存储层迁移至第二存储层时，第二数据存储于第二存储层中的第二存储路径；根据第二特征向量、第二关键词和第二存储路径，生成第二数据的索引，将第二数据的索引存储至索引集合中。

在一种可能的实现方式中，处理模块还用于根据存储在第一存储层中的第二数据，确定第二特征向量和第二关键词之前，确定第一存储层中的剩余存储空间符合第三预设条件，且存储在第一存储层中的第二数据被用户访问的访问情况符合第四预设条件。

在一种可能的实现方式中，还包括：获取模块，用于获取查询请求，其中，查询请求中包括查询词和第三数据，第三数据指示查询词的上下文；处理模块还用于根据第三数据和查询词，从第一存储层中查询第四数据。

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序或指令，当该计算机程序或指令被执行时，使得计算机执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

第四方面，本申请实施例提供一种计算机程序产品，当计算机读取并执行计算机程序产品时，使得计算机执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

第五方面，本申请实施例提供一种计算设备，包括处理器，处理器与存储器耦合，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得装置执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

第六方面，本申请实施例提供一种分层存储系统，包括：处理设备、第一存储层和第二存储层；第一存储层的读取速度高于第二存储层的读取速度；处理设备用于执行上述第一方面或第一方面的任一种可能的实现方式中的方法，以实现将第二存储层中的数据复制存储到第一存储层中。

上述第二方面至第六方面中任一方面可以达到的技术效果可以参照上述第一方面中有益效果的描述，此处不再重复赘述。

附图说明

图1为一种分层存储系统的结构示意图；

图2为本申请提供的一种数据预取阶段的流程示意图；

图3为本申请提供的一种数据下沉阶段的流程示意图；

图4为本申请提供的一种数据查询阶段的流程示意图；

图5至图7为本申请提供的分层存储系统的结构示意图；

图8为本申请提供的一种第一搜索引擎在分层存储系统中搜索数据的流程示意图；

图9为本申请提供的一种数据处理装置的结构示意图。

具体实施方式

为更好的解释本申请，如下先对本申请涉及的名词或技术术语进行解释。

元数据(metadata)：主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查询、数据记录等功能。

提前补给(rehydration)：在分层存储系统(或称为分层存储设备)中，提前将可能需要的数据从容量层拷贝到性能层。其中，性能层可以是高速存储介质(如固态硬盘(solidstate drives，SSD))，容量层可以为低速大容量存储介质(如硬盘驱动器(hard diskdrive，HDD))。rehydration还可翻译成复水。

k-dimensional树(kd-tree)：是一种高维索引树形的数据结构，经常使用在大规模的高维数据空间进行最近邻查询，比如，在图像检索识别中，通过kd-tree实现高维图像特征向量的K近邻查询与匹配(查询与所给数据最接近的K个数)。

词频-逆文本频率指数(term frequency-inverse document frequency，TF-IDF)：是一种统计方法，用以评估一个字词对于一个数据集或一个语料库中的其中一份数据的重要程度。字词的重要性随着它在数据中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为数据与用户查询之间相关程度的度量或评级。

线性判别分析(linear discriminant analysis，LDA)，将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。

Doc2vec：是一种无监督算法，能从变长的文本(例如：句子、段落或文档)中学习得到固定长度的特征表示或特征向量。

WordNet：是一个大型的英文词汇数据库。名词、动词、形容词和副词以同义词集合的形式存储在这个数据库中。各个同义词集合之间通过语义关系和词性关系等边连接。

对象存储(object-based storage,OBS)：核心是将数据通路(数据读或写)和控制通路(元数据)分离，并且基于对象存储设备(object-based storage device，OSD)构建存储系统，每个对象存储设备具有一定的职能，能够自动管理其上的数据分布。对象存储系统包含两种数据描述：容器(bucket)和对象(object)。其中，对象存储采用扁平化结构管理所有数据，用户通过接入码(accesskey)认证后，只需要根据ID就可以访问容器或对象，以及相关的数据(data)、元数据(metadata)和对象属性(attribute)。

下面将结合附图，对本申请实施例进行详细描述。

存储系统通常需要满足海量数据尤其是非结构化数据的高效存储与管理。综合考虑成本和性能两个指标，以及用户多样化的性价比要求，存储系统提供商通常构建分层存储系统。示例性的，分层存储系统可包括两层(记为第一存储层和第二存储层)，第一存储层可以是存储空间较小而读取速度较快的存储层，第二存储层可以是存储空间较大而读取速度较慢的存储层。可将第一存储层中访问频率较低的数据迁移至第二存储层中存储，以节省第一存储层的存储空间。

本申请中，数据也可称为是文件中的数据、文件、文档等，数据具体可以是非结构化数据(unstructured data)，比如文本数据、图片数据或者其他类型的非结构化数据。

示例性的，在分层存储系统中，第一存储层可以是性能层，比如可以是高速存储介质(如SSD)；第二存储层可以是容量层，比如可以是低速大容量存储介质(如HDD)。

示例性的，在分层存储系统中，第一存储层可以是本地数据存储系统，比如可以是本地数据中心；第二存储层可以是远程数据存储系统，比如可以是由网络附属存储(network attached storage，NAS)构建的远程数据存储系统。

示例性的，在分层存储系统中，第一存储层可以是地理位置分布的边缘云存储系统，第二存储层可以是地理位置分布的中心云存储系统，或者地理位置分布的后端云存储系统。

如图1为本申请示例性提供的一种分层存储系统的结构示意图，包括用户界面、处理设备、第一存储层和第二存储层，其中，处理设备可进一步包括搜索引擎(searchengine)该搜索引擎可以理解为是具有软件或硬件执行能力的用于搜索信息的单元或部件。

其中，用户可通过用户界面创建数据，该创建的数据可由处理设备存储于第一存储层中。进一步的，当第一存储层中的剩余存储空间的容量小于容量阈值，且该数据的访问频率小于频率阈值时，处理设备可将第一存储层中的该数据迁移至第二存储层中，以及将该数据从第一存储层中删除。如此，第一存储层有足够的剩余存储空间来存储新数据或者访问频率较高的数据。

用户界面还可获取查询词(query terms)和查询词的上下文数据。查询词可认为是用户通过用户界面输入的查询词，比如，用户想要搜索关于“聚类算法”的信息，则可通过用户界面输入查询词“聚类算法”。查询词的上下文数据可认为是用户通过用户界面输入查询词时，用户界面当前显示的数据(比如本地数据或网页数据)，结合上述例子，查询词“聚类算法”的上下文比如是网页中显示的“K-means均值聚类算法寻找质心”。

用户界面向处理设备发送查询请求，查询请求中包括查询词和查询词的上下文数据。相应的，处理设备中搜索引擎可根据查询请求中查询词和查询词的上下文数据，从第一存储层中查询，若在第一存储层中查询到查询词和查询词的上下文数据相关联的数据(可简称为待返回数据)，则将该待返回数据返回至用户界面；若未查询到待返回数据，则进一步从第二存储层中查询，将在第二存储层中查询到的待返回数据返回至用户界面。

此外，分层存储系统中还可包括输入输出(input output，IO)接口，IO接口可位于用户界面与存储层(即第一存储层和第二存储层)之间，用于将用户在用户界面中对数据的操作转换成对分层存储系统的操作，并将该对分层存储系统的操作发送至第一存储层和/或第二存储层。其中，IO接口具体可以是虚拟输入输出(virtual input output，VIO)接口。

在上述查询操作中，处理设备中搜索引擎可先在第一存储层中查询，若在第一存储层查询失败，则进一步可在第二存储层中查询，存在查询数据慢的问题。

为此，本申请提供一种基于分层存储系统的数据处理方法。该方法可应用于分层存储系统中，分层存储系统中包括处理设备、第一存储层和第二存储层，其中，第一存储层的读取速度高于第二存储层的读取速度。可选的，第二存储层的存储空间可大于第一存储层的存储空间。以解决上述方案中搜索引擎在接收到查询请求之后，先在第一存储层中查询，若在第一存储层查询失败，则进一步在第二存储层中查询，存在查询数据慢的问题。

进一步的，该方法可分为数据预取阶段、数据查询阶段和数据下沉阶段。

具体的，在数据预取阶段中，处理设备可预测用户在未来时段中需要的数据，然后将该预测得到的数据预先从第二存储层复制到第一存储层中，从而在用户需要访问该数据时，处理设备可从第一存储层中查询到该数据，而无需从第二存储层中查询。第一存储层的读取速度高于第二存储层的读取速度，有助于提高数据的查询速度。

在数据下沉阶段中，处理设备可根据第一存储层中的剩余存储空间和第一存储层中数据的访问频率，将访问频率小于频率阈值的数据，转移存储至第二存储层中，以使得第一存储层有足够的剩余存储空间来存储新的数据或者访问频率较高的数据。

在数据查询阶段中，处理设备可根据用户指示，从第一存储层或第二存储层中查询数据并返回。进一步的，处理设备从第一存储层中查询到用户需要的数据，有助于提高数据的查询速度。

如下结合具体实施例解释说明各阶段。

一、数据预取阶段

如图2为本申请示例性提供的一种数据预取阶段的流程示意图。

步骤201，处理设备根据第一数据，确定第一特征向量。

其中，第一数据是处理设备确定的用户在历史时段中访问的数据。第一数据可包括用户从分层存储系统(即第一存储层或者第二存储层)中访问的内部数据，和/或，用户从外部网站中访问的外部数据。

一个可能示例中，处理设备确定用户在第一历史时段中从分层存储系统(即第一存储层或者第二存储层)中访问的内部数据，将该内部数据确定为第一数据。本申请中，内部数据可以是本地数据。

再一个可能示例中，处理设备确定用户在第二历史时段中从外部网站中访问的外部数据，将外部数据确定为第一数据。其中，从外部网站中访问的外部数据，比如是从社交媒体网站查看的社交信息，从新闻网站查看的新闻，或者从博客网站查看的博文等。

在处理设备确定用户在第一历史时段中的内部数据，以及确定用户在第二历史时段中的外部数据的情况下，第一历史时段和第二历史时段可以相同或不同。

处理设备可根据第一数据中的内容，提取内容向量，将内容向量确定为第一特征向量。示例性的，处理设备可根据内容提取算法，在第一数据中提取内容向量，该内容向量可以是高维向量。其中，内容提取算法比如可以是doc2vec算法等。

可选的，处理设备还可根据第一数据中包含的词语的出现频率，确定第一关键词。示例性的，处理设备可根据关键词提取算法确定第一数据的关键词，作为第一关键词，其中，关键词提取算法比如可以是LDA、TF-IDF算法等。示例性的，处理设备还可基于该提取到的第一关键词在第一数据中提取内容向量，以作为第一特征向量。

可选的，处理设备可根据多个第一数据分别确定各第一数据对应的第一特征向量，或者，处理设备可根据多个第一数据分别确定各第一数据对应的第一特征向量和第一关键词。

步骤202，处理设备根据第一特征向量和索引集合包括的多个索引中的特征向量，从多个索引中确定目标索引。其中，目标索引中的目标特征向量可以是处理设备根据存储在第二存储层中的目标数据确定的，第一特征向量和目标特征向量符合第一预设条件。

其中，目标数据可认为是处理设备确定的需要预先由第二存储层复制到第一存储层的数据，即处理设备预测的用户在未来时段中需要访问的数据。或者，目标数据可认为是与用户在历史时段中访问的数据(即第一数据)相关或者相类似的数据。

处理设备中存储有索引集合，该索引集合中包括M个数据分别对应的M个索引，M为大于1的整数。在M个索引中，每个索引中可包括该索引对应数据的特征向量、关键词和数据在第二存储层中的存储路径。

示例性的，索引集合具体可以是索引树，索引集合中的一个索引可包含于索引树的某个叶子节点中，索引树具体可以是kd-tree、LSM-tree、B+tree等。

在一种可能方式中，处理设备可根据第一特征向量、M个索引中的特征向量，从M个索引中选择K个目标索引，K为大于或等于1的整数。在K个目标索引中，每个目标索引中包括的目标特征向量与第一特征向量符合第一预设条件。

具体的，处理设备可确定第一特征向量分别与M个索引中的特征向量之间的距离，即得到M个向量距离。处理设备根据M个向量距离，从M个索引中选择K个目标索引。一个示例中，处理设备可选择M个向量距离从低到高排序中的前K个向量距离，将前K个向量距离对应的K个索引确定为K个目标索引。又一个示例中，处理设备可选择M个向量距离中小于距离阈值的K个向量距离，将该K个向量距离对应的K个索引确定为K个目标索引。

可选的，处理设备在根据第一特征向量、M个索引中的特征向量，以及第一预设条件，从M个索引中选择出索引(称为候选索引)之后，还可进一步确定第一关键词与候选索引中关键词的匹配程度。若第一关键词与候选索引中关键词的匹配程度符合第二预设条件，则将该候选索引确定为目标索引，从而从多个候选索引中确定K个目标索引。示例性的，处理设备可根据第一关键词、候选索引中关键词，以及词汇数据库(比如WordNet)，确定第一关键词与候选索引中关键词的匹配程度。

此外，处理设备还可获取多个第一数据，处理设备可先根据多个第一数据分别对应的第一特征向量和聚类算法进行聚类，将聚类得到的质心作为聚合特征向量。其中，聚类算法比如可以是K-means均值聚类算法。

处理设备确定该聚合特征向量分别与M个索引中的特征向量之间的距离，即得到M个向量距离。处理设备再根据M个向量距离，从M个索引中选择K个目标索引。

或者，处理设备还可根据多个第一数据中包含的词语的出现频率，确定聚合关键词。进一步的，处理设备可根据M个向量距离，从M个索引中选择多个候选索引，根据该聚合关键词分别与多个候选索引中关键词的匹配程度，从多个候选索引中确定K个目标索引。

步骤203，处理设备根据目标索引中的目标存储路径，将第二存储层中的目标数据复制到第一存储层中。

可选的，处理设备可根据K个目标索引中的目标存储路径，分别从第二存储层中读取K个目标索引分别对应的K个目标数据，并将该K个目标数据分别复制存储到第一存储层中。

如上，处理设备基于用户在历史时段中访问的数据，预测用户在未来时段中可能需要访问的数据(即目标数据)，将该目标数据从第二存储层预先复制到第一存储层中，以使得第一存储层中可以预先存储有目标数据。当用户需要访问该目标数据时，处理设备可以直接从第一存储层中获取该目标数据，而无需进一步查询第二存储层。由于第一存储层的读取速度高于第二存储层的读取速度，从而有助于提高数据的查询速度。

进一步的，处理设备中设置索引集合，处理设备可根据用户在历史时段中访问的数据，从索引集合中确定目标数据对应的目标索引，处理设备根据目标索引中存储的目标存储路径，从第二存储层中读取目标数据。通过索引集合的方式，可以加快处理设备从第二存储层读取目标数据的速度，提高预取数据的效率。

如图3为本申请示例性提供的一种数据下沉阶段的流程示意图。

步骤301，处理设备根据存储在第一存储层中的第二数据，确定第二特征向量和第二关键词。

其中，第二数据可认为是处理设备确定的需要由第一存储层迁移(或下沉)至第二存储层中的数据。第二数据可认为是冷数据，冷数据即为访问频率较低的数据。

可选的，处理设备可监测第一存储层中剩余的存储空间，若确定第一存储层中剩余的存储空间符合第三预设条件，则从第一存储层中确定需要迁移至第二存储层的数据(即第二数据)。示例性的，第三预设条件可至少包括如下中一项或多项：第一存储层中剩余的存储空间的容量小于容量阈值；第一存储层中剩余的存储空间的容量占第一存储层中总存储空间的容量的比例小于比例阈值。

处理设备在从第一存储层中确定第二数据时，具体可以是，处理设备监测第一存储层中各数据的访问情况，若确定某个数据的访问情况符合第四预设条件，则将该数据确定为第二数据。示例性的，第四预设条件可至少包括如下中一项或多项：该数据被用户访问的访问频率小于频率阈值；该数据未被用户访问的持续时长大于时长阈值。

处理设备在从第一存储层中确定出第二数据之后，可根据第二数据确定第二特征向量和第二关键词，该确定方式可参见上述图2中的步骤201中，关于处理设备根据第一数据确定第一特征向量和第一关键词的描述。

步骤302，处理设备确定第二数据由第一存储层迁移至第二存储层时，需要将第二数据存储至第二存储层的哪个位置，进而生成第二数据存储于第二存储层中的存储路径(即第二存储路径)。

步骤303，处理设备根据第二特征向量、第二关键词和第二存储路径，生成第二数据的索引，将第二数据的索引存储至索引集合中。

其中，可以把第二特征向量、第二关键词和第二存储路径，理解为第二数据的元数据信息、语义元数据或描述信息，可将这些信息组成第二数据的索引。

进一步的，索引集合是索引树(比如kd-tree)时，可根据kd-tree中各分支节点，确定将第二数据的索引存储至kd-tree的哪个叶子节点中。

应理解，用户在处理设备中创建新数据时，该数据均会被存储至第一存储层，从而用户可从该第一存储层中读取该数据。当第一存储层中剩余的存储空间符合第三预设条件，以及该数据的访问情况符合第四预设条件时，处理设备可将该数据由第一存储层迁移至第二存储层，也即，处理设备将该数据从第一存储层中删除，提高第一存储层中剩余存储空间的容量(或占比)。进一步的，为了保障处理设备可以快速准确的从第二存储层中查询数据，可将该数据的索引存储至索引集合中。

如图4为本申请示例性提供的一种数据查询阶段的流程示意图。

步骤401，处理设备获取查询请求。

一个示例中，查询请求中包括查询词和第三数据。在另外的示例中，查询请求中仅包括查询词，处理设备在接收到查询词之后，再获取第三数据。

查询词可以是用户在用户界面中输入的词语，比如用户想要搜索关于“聚类算法”的信息，则可在用户界面中输入查询词“聚类算法”。

第三数据指示查询词的上下文，或者理解，第三数据是查询词的上下文数据(或称为上下文文件(context document))。示例性的，第三数据可以是用户在用户界面中输入查询词时，用户界面中显示的数据。再示例性的，第三数据可以是用户在用户界面中输入查询词时，用户界面在接收查询词的时刻以及该时刻之前的预设时段中显示的数据。

其中，第三数据可包括用户从分层存储系统(即第一存储层或者第二存储层)中访问的内部数据，和/或，用户从外部网站中访问的外部数据。

步骤402，处理设备根据第三数据和查询词，从第一存储层中查询第四数据。

一种可能方式中，处理设备可根据多个数据分别对应的地理位置、用户浏览历史、所属分类等信息，确定多个数据之间的关联关系。处理设备将该多个数据之间的关联关系保存到数据结构中，该数据结构即用于处理设备根据查询请求查询第四数据。具体的，处理设备可根据第三数据和数据结构，从数据结构中查找与第三数据相关联的数据，然后再根据查询词从这些数据中确定第四数据。

再一种可能方式中，处理设备也可构建第一存储层中数据对应的索引集合，具体地，处理设备可根据第一存储层中数据的特征向量、关键词和数据在第一存储层中的存储路径，确定该数据的索引，并将该索引存储至该索引集合中。处理设备构建第一存储层的索引集合的方式，与处理设备构建第二存储层的索引集合的方式类似，不再赘述。

如下以“第一”和“第二”区分第一存储层和第二存储层对应的索引集合、候选索引、目标索引等概念。比如，可将第一存储层对应的索引集合称为是第一索引集合，将第二存储层对应的索引集合称为是第二索引集合；再比如，可将第一存储层对应的候选索引称为是第一候选索引，将第二存储层对应的候选索引称为是第二候选索引等。

处理设备在查询第四数据时，可先根据第三数据确定第三数据对应的特征向量(记为第三特征向量)和关键词(记为第三关键词)。处理设备再根据第三特征向量从第一索引集合中确定第一候选索引，具体确定方式可参见图2的步骤202中处理设备根据第一特征向量从第二索引集合中确定第二候选索引的描述。

进一步的，处理设备可根据第三关键词和查询词，从该第一候选索引中确定第一目标索引。具体的，处理设备可确定第三关键词与第一候选索引中关键词的匹配程度，进而确定该第一候选索引是否为第一目标索引。处理设备还可确定查询词与第一候选索引中关键词的匹配程度，进而确定该第一候选索引是否为第一目标索引。进而根据第一目标索引中记录的第一目标存储路径，从第一存储层中获取第四数据。

此外，若处理设备未能从第一存储层中查询到第四数据，则处理设备可进一步根据第三特征向量从第二索引集合中确定第二候选索引，以及根据第三关键词和查询词，从该第二候选索引中确定第二目标索引。处理设备再根据第二目标索引中记录的第二目标存储路径，从第二存储层中获取第四数据。

需要指出的是，第一存储层和第二存储层的索引集合还可以是同一个，即处理设备可根据第三特征向量、第三关键词和查询词，从该索引集合中确定K个目标索引，该K个目标索引中的部分目标索引中的目标存储路径可指示第四数据位于第一存储层中的路径；而另外部分目标索引中的目标存储路径可指示第四数据位于第二存储层中的路径。

如图5为本申请示例性示出的再一种分层存储系统的结构示意图，该分层存储系统中包括用户界面、处理设备、第一存储层和第二存储层。处理设备中包括基于语义的搜索引擎(semantic-based search engine))，该搜索引擎可包括第一搜索引擎和第二搜索引擎。

在一个可能示例中，第一搜索引擎中可包括第一存储层对应的第一索引集合和第二存储层对应的第二索引集合，第二搜索引擎中可包括第二存储层对应的第二索引集合。

第一搜索引擎用于接收来自用户界面的查询请求，其中，查询请求中包括查询词和第三数据，其中第三数据可包括用户在用户界面输入查询词时，用户界面中显示的内部数据和/或外部数据。第一搜索引擎可根据第三数据确定第三数据对应的第三特征向量和第三关键词。第一搜索引擎根据查询词、第三特征向量、第三关键词和第一索引集合，从第一存储层中获取查询请求对应的第四数据；或者，第一搜索引擎根据查询词、第三特征向量、第三关键词和第二索引集合，从第二存储层中获取查询请求对应的第四数据。

第二搜索引擎又可称为是预取引擎(或复水引擎，或提前补给引擎，英文可表示为rehydrate engine)，第二搜索引擎用于监测用户界面中用户在历史时段访问的内部数据和/或外部数据，确定第一数据。第二搜索引擎根据第一数据确定第一数据对应的第一特征向量和第一关键词。第二搜索引擎根据第一特征向量、第一关键词和第二索引集合，将存储于第二存储层中的目标数据复制到第一存储层中，其中目标数据即用户在未来时段可能访问的数据。

在又一个可能示例中，第一搜索引擎中可包括第一存储层对应的第一索引集合和第二存储层对应的第二索引集合。第一搜索引擎不仅可具有如上示例中的功能，还可接收来自第二搜索引擎的预取请求(或复水请求，或提前补给请求，英文可表示为rehydraterequest)，其中，预取请求中包括第一数据对应的第一特征向量和第一关键词。第一搜索引擎根据第一特征向量、第一关键词和第二索引集合，将存储于第二存储层中的目标数据复制到第一存储层中。相应的，第二搜索引擎用于监测用户界面中用户在历史时段访问的内部数据和/或外部数据，确定第一数据。第二搜索引擎根据第一数据确定第一数据对应的第一特征向量和第一关键词。第二搜索引擎根据第一特征向量和第一关键词，生成预取请求并发送至第一搜索引擎中。

又或者，第一搜索引擎可接收来自第二搜索引擎的预取请求，其中，预取请求中包括第一数据。第一搜索引擎根据第一数据确定第一数据对应的第一特征向量和第一关键词。第一搜索引擎根据第一特征向量、第一关键词和第二索引集合，将存储于第二存储层中的目标数据复制到第一存储层中。相应的，第二搜索引擎用于监测用户界面中用户在历史时段访问的内部数据和/或外部数据，确定第一数据。第二搜索引擎根据第一数据生成预取请求并发送至第一搜索引擎中。

又或者，第一搜索引擎根据第一特征向量、第一关键词和第二索引集合，确定出第二目标索引之后，向第二搜索引擎发送预取响应，其中，预取响应包括第二目标索引，或者第二目标存储路径。相应的，第二搜索引擎可从第一搜索引擎的预取响应中获取第二目标存储路径，根据第二目标存储路径，将第二存储层中的目标数据复制到第一存储层中。

又或者，在第一存储层和第二存储层的索引集合是同一个的情况下，第一搜索引擎可包括该同一个索引集合。第一搜索引擎可根据该索引集合，以及来自第二搜索引擎的预取请求，向第二搜索引擎反馈预取响应，或者将第二存储层中的目标数据复制到第一存储层中。具体实现可参见上述几种可能方式，不再赘述。

此外，分层存储系统中还可包括IO接口。进一步的，用户界面、IO接口、第一存储层和第二存储层的功能可参见图1中描述，此处不再赘述。

参照图6示出的又一种分层存储系统的结构示意图，解释说明本申请中的数据下沉阶段和数据预取阶段。其中，数据下沉阶段可参见图6中的数据存储路径(storagepath)，数据预取阶段可参见图6中的数据预取路径(或复水路径，或提前补给路径，英文可表示为rehydrate path)。

进一步的，在图6中，该分层存储系统中包括用户界面、处理设备、IO接口、第一存储层和第二存储层，其中处理设备进一步包括第一搜索引擎、第二搜索引擎。

在数据存储路径中，第一存储层可存储有用户创建的数据(具体可以是非结构化数据)。处理设备(比如第一搜索引擎)在确定第一存储层中剩余存储空间符合第三预设条件，且该数据的访问情况符合第四预设条件时，将第一存储层中的该数据迁移至第二存储层中，也即将该数据分层(tiering)存储至或下沉至第二存储层中。

此外，还可以是第一存储层在确定第一存储层中剩余存储空间符合第三预设条件，且该数据的访问情况符合第四预设条件时，将该数据迁移至第二存储层中。

在该数据(即第二数据)由第一存储层迁移至第二存储层时，第一搜索引擎可根据第二数据确定第二数据的语义元数据，该第二数据的语义元数据即包括第二数据的特征向量、关键词和第二数据在第二存储层的存储路径。第一搜索引擎将第二数据的语义元数据作为第二数据的索引，存储至第一搜索引擎的索引集合(比如第二索引集合)中。此外，还可以是第一存储层根据第二数据确定第二数据的语义元数据。第一存储层将第二数据的语义元数据作为第二数据的索引，存储至第一搜索引擎的索引集合(比如第二索引集合)中。

在数据预取路径中，第二搜索引擎可根据用户在历史时段中访问的数据(即第一数据)，确定第一特征向量和第一关键词。第二搜索引擎进一步根据第一特征向量和第一关键词，从第二索引集合中确定第二目标索引，第二搜索引擎根据第二目标索引中的第二目标存储路径，将第二存储层中目标数据，复制到第一存储层中。

进一步的，图6中未详尽描述的部分，可参见图1或图5中描述。

参照图7示出的又一种分层存储系统的结构示意图，解释说明本申请中的数据下沉阶段和数据查询阶段，数据下沉阶段可参见图7中的数据存储路径(storage path)、语义元数据路径(semantic metadata path)；查询阶段可参见图7中的数据查询路径(searchpath)。

进一步的，在图7中，分层存储系统中包括用户界面、处理设备、第一存储层和第二存储层，处理设备中包括有第一搜索引擎。

在数据存储路径中，处理设备(比如第一搜索引擎)可将用户创建的数据(具体可以是非结构化数据)存储到第一存储层。处理设备(比如第一搜索引擎)在确定第一存储层剩余存储空间符合第三预设条件，且该数据的访问情况符合第四预设条件时，将该数据迁移至第二存储层中。

在语义元数据路径中，第一搜索引擎可获取第一存储层中数据，确定该数据的语义元数据，其中该数据的语义元数据包括该数据的特征向量、关键词和该数据存储至第二存储层中的存储路径。第一搜索引擎将该数据的语义元数据存储至第二索引集合中。

在查询路径中，第一搜索引擎可获取查询请求中的查询词和查询词的上下文数据，并根据查询词和查询词的上下文数据，结合索引集合(第一索引集合和/或第二索引集合)，确定查询请求所要请求的数据的存储路径，进而根据存储路径从第一存储层或第二存储层中获取该查询请求所要请求的数据。

进一步的，图7中未详尽描述的部分，或图7中未示出的模块(比如IO接口和第二搜索引擎)也可参见图1或图5中描述，此处不再赘述。

参照图8示出的一种第一搜索引擎在分层存储系统中搜索数据的流程示意图。

第一搜索引擎可获取用户输入的查询词和第三数据，其中，第三数据包括用户从分层存储系统(即第一存储层或者第二存储层)中访问的内部数据，和/或，用户从外部网站中访问的外部数据。

第一搜索引擎根据预设的特征向量提取算法(比如Doc2vec)，从第三数据中提取第三特征向量；以及根据预设的关键词提取算法(比如LDA、TF-IDF)，从第三数据中提取第三关键词。进一步的，第一搜索引擎可根据第三特征向量从预设的KD-tree中选择候选叶子节点，其中候选叶子节点即候选索引，候选叶子节点中包括的特征向量与第三特征向量之间符合第一预设条件。第一搜索引擎再根据候选叶子节点中的关键词和预设的词汇数据库(比如WordNet)，确定候选叶子节点中的关键词与第三关键词(或者查询词)之间的匹配程度，若确定该匹配程度符合第二预设条件，则确定该候选叶子节点是目标叶子节点(即目标索引)。

第一搜索引擎根据目标叶子节点中目标数据的目标存储路径，从第一存储层中获取第四数据，或者从第二存储层中获取第四数据。

值得注意的是，上述图5至图8仅是示例性说明本申请的分层存储系统中各模块、各模块的功能和信息交互，当然还可以是其他形式。且各模块、各模块的功能和信息交互中的说明，均可参见其他相关实施例中的描述。

基于上述内容和相同构思，图9为本申请的提供的可能的数据处理装置的结构示意图。该数据处理装置可用于执行上述方法实施例中步骤。该装置具体可以是图5示出的分层存储系统中的处理设备。

装置包括：处理模块901和预取模块902。其中，处理模块901用于根据第一数据，确定第一特征向量，第一数据是用户在历史时段中访问的数据；根据第一特征向量和索引集合包括的多个索引中的特征向量，从多个索引中确定目标索引，其中，目标索引中的目标特征向量是根据存储在第二存储层905中的目标数据确定的，第一特征向量和目标特征向量符合第一预设条件；预取模块902用于根据目标索引中的目标存储路径，将目标数据由第二存储层905复制到第一存储层904中。

在一种可能的实现方式中，还包括：获取模块903，用于获取查询请求，其中，查询请求中包括查询词和第三数据，第三数据指示查询词的上下文；处理模块901还用于根据第三数据和查询词，从第一存储层904或第二存储层905中查询第四数据。

基于上述内容和相同构思，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序或指令，当该计算机程序或指令被执行时，计算机执行上述方法实施例中步骤。

基于上述内容和相同构思，本申请实施例提供一种计算机程序产品，当计算机读取并执行计算机程序产品时，使得计算机执行上述方法实施例中步骤。

基于上述内容和相同构思，本申请实施例提供一种计算设备，包括处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得装置执行上述方法实施例中步骤。

基于上述内容和相同构思，本申请实施例提供一种分层存储系统，包括：处理设备、第一存储层和第二存储层；第一存储层的读取速度高于第二存储层的读取速度；处理设备用于执行上述方法实施例中步骤。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的保护范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，适用于分层存储系统中，所述分层存储系统包括第一存储层和第二存储层，所述第一存储层的读取速度高于所述第二存储层的读取速度；

所述数据处理方法包括：

根据第一数据，确定第一特征向量，所述第一数据是用户在历史时段中访问的数据；

根据所述第一特征向量和索引集合包括的多个索引中的特征向量，从所述多个索引中确定目标索引，其中，所述目标索引中的目标特征向量是根据存储在所述第二存储层中的目标数据确定的，所述第一特征向量和所述目标特征向量符合第一预设条件；

根据所述目标索引中的目标存储路径，将所述目标数据由所述第二存储层复制到所述第一存储层中。

2.如权利要求1所述的方法，其特征在于，所述目标索引中还包括目标关键词，所述目标关键词是根据所述目标数据中包含的词语的出现频率确定的；

所述将所述目标数据由所述第二存储层复制到所述第一存储层中之前，还包括：

根据所述第一数据中包含的词语的出现频率，确定第一关键词；

确定所述第一关键词和所述目标关键词的匹配结果符合第二预设条件。

3.如权利要求1所述的方法，其特征在于，还包括：

确定所述用户在所述历史时段中从所述分层存储系统中访问的内部数据，将所述内部数据确定为所述第一数据；和/或，

确定所述用户在所述历史时段中从外部网站中访问的外部数据，将所述外部数据确定为所述第一数据。

4.如权利要求1所述的方法，其特征在于，所述第一数据为多个；

所述根据所述第一特征向量和索引集合包括的多个索引中的特征向量，从所述多个索引中确定目标索引，包括：

对多个所述第一数据的第一特征向量进行聚类，将聚类得到的质心作为聚合特征向量；

根据所述聚合特征向量和所述多个索引中的特征向量，从所述多个索引中确定所述目标索引，其中，所述聚合特征向量与所述目标索引中的目标特征向量之间的距离符合所述第一预设条件。

5.如权利要求1所述的方法，其特征在于，还包括：

根据存储在所述第一存储层中的第二数据，确定第二特征向量和第二关键词；

确定所述第二数据由所述第一存储层迁移至所述第二存储层时，所述第二数据存储于所述第二存储层中的第二存储路径；

根据所述第二特征向量、所述第二关键词和所述第二存储路径，生成所述第二数据的索引，将所述第二数据的索引存储至所述索引集合中。

6.如权利要求5所述的方法，其特征在于，所述根据存储在所述第一存储层中的第二数据，确定第二特征向量和第二关键词之前，还包括：

确定所述第一存储层中的剩余存储空间符合第三预设条件，且所述存储在所述第一存储层中的第二数据被所述用户访问的访问情况符合第四预设条件。

7.如权利要求1-6中任一项所述的方法，其特征在于，还包括：

获取查询请求，其中，所述查询请求中包括查询词和第三数据，所述第三数据指示所述查询词的上下文；

根据所述第三数据和所述查询词，从所述第一存储层中查询第四数据。

8.一种数据处理装置，其特征在于，适用于分层存储系统中，所述分层存储系统包括第一存储层和第二存储层，所述第一存储层的读取速度高于所述第二存储层的读取速度；

所述装置包括：

处理模块，用于根据第一数据，确定第一特征向量，所述第一数据是用户在历史时段中访问的数据；根据所述第一特征向量和索引集合包括的多个索引中的特征向量，从所述多个索引中确定目标索引，其中，所述目标索引中的目标特征向量是根据存储在所述第二存储层中的目标数据确定的，所述第一特征向量和所述目标特征向量符合第一预设条件；

预取模块，用于根据所述目标索引中的目标存储路径，将所述目标数据由所述第二存储层复制到所述第一存储层中。

9.如权利要求8所述的装置，其特征在于，所述目标索引中还包括目标关键词，所述目标关键词是根据所述目标数据中包含的词语的出现频率确定的；

所述处理模块，还用于在所述预取模块将所述目标数据由所述第二存储层复制到所述第一存储层中之前，根据所述第一数据中包含的词语的出现频率，确定第一关键词；以及确定所述第一关键词和所述目标关键词的匹配结果符合第二预设条件。

10.如权利要求8所述的装置，其特征在于，所述处理模块还用于：

11.如权利要求8所述的装置，其特征在于，所述第一数据为多个；

所述处理模块在根据所述第一特征向量和索引集合包括的多个索引中的特征向量，从所述多个索引中确定目标索引时，具体用于：

12.如权利要求8所述的装置，其特征在于，所述处理模块还用于：

13.如权利要求12所述的装置，其特征在于，所述处理模块还用于：

根据存储在所述第一存储层中的第二数据，确定第二特征向量和第二关键词之前，确定所述第一存储层中的剩余存储空间符合第三预设条件，且所述存储在所述第一存储层中的第二数据被所述用户访问的访问情况符合第四预设条件。

14.如权利要求8-13中任一项所述的装置，其特征在于，还包括：获取模块，用于获取查询请求，其中，所述查询请求中包括查询词和第三数据，所述第三数据指示所述查询词的上下文；

所述处理模块还用于根据所述第三数据和所述查询词，从所述第一存储层中查询第四数据。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或指令，当所述计算机程序或指令被装置执行时，使得所述装置实现如权利要求1至7中任一项所述的方法。

16.一种计算设备，其特征在于，包括处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述装置执行如权利要求1至7中任一项所述的方法。

17.一种分层存储系统，其特征在于，包括：

处理设备、第一存储层和第二存储层；

所述第一存储层的读取速度高于所述第二存储层的读取速度；

所述处理设备用于执行如权利要求1至7中任一项所述的方法，以实现将所述第二存储层中的数据复制到所述第一存储层中。