CN117271438A

CN117271438A - 用于大数据的智能存储系统及其方法

Info

Publication number: CN117271438A
Application number: CN202310870357.4A
Authority: CN
Inventors: 张凯博
Original assignee: Qianyuan Yunshuo Technology Shenzhen Co ltd
Current assignee: Qianyuan Yunshuo Technology Shenzhen Co ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-12-22

Abstract

本申请公开了一种用于大数据的智能存储系统及其方法，其通过在进行数据的分布式存储前，对于待存储数据进行语义理解，以此来对该待存储数据进行审核，从而检查数据的完整性、准确性和一致性，避免将低质量或错误的数据存储到分布式存储系统中。

Description

用于大数据的智能存储系统及其方法

技术领域

本申请涉及智能存储领域，且更为具体地，涉及一种用于大数据的智能存储系统及其方法。

背景技术

数据存储对象包括在数据加工过程中生成的临时文件或需要进行查找的信息。分布式存储是一种数据存储技术，它能够利用企业中每台机器上的磁盘空间，并将这些分散的存储资源组合成一个虚拟的存储设备，使数据能够分散地存储在企业的各个位置。这种技术允许数据在多个节点上进行冗余备份，提高数据的可靠性和可用性。同时，分布式存储还可以实现数据的并行访问和处理，提高系统的性能和扩展性。通过有效地利用分布式存储技术，企业可以更好地管理和利用大规模的数据资源。

然而，传统的数据分布式存储方案在实施时存在着诸多缺陷，例如现有的数据分布式存储方案中并没有在前期对待存储数据进行审核，而未经审核的数据可能包含错误、重复、不完整或不准确的信息，并且还会存在大量的冗余或无效信息。这不仅占据了大量的存储空间，还会影响到后续的数据分析和应用，从而导致错误的决策和不准确的结果。

因此，期望一种优化的用于大数据的智能存储系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种用于大数据的智能存储系统及其方法，其通过在进行数据的分布式存储前，对于待存储数据进行语义理解，以此来对该待存储数据进行审核，从而检查数据的完整性、准确性和一致性，避免将低质量或错误的数据存储到分布式存储系统中。

根据本申请的一个方面，提供了一种用于大数据的智能存储系统，其包括：

数据采集模块，用于获取待存储数据；

数据编码模块，用于对所述待存储数据进行编码以得到待存储数据语义理解特征；以及

数据放行控制模块，用于基于所述待存储数据语义理解特征，确定对所述待存储数据是否放行。

根据本申请的另一个方面，提供了一种用于大数据的智能存储方法，其包括：

获取待存储数据；

对所述待存储数据进行编码以得到待存储数据语义理解特征；以及

基于所述待存储数据语义理解特征，确定对所述待存储数据是否放行。

与现有技术相比，本申请提供的一种用于大数据的智能存储系统及其方法，其通过在进行数据的分布式存储前，对于待存储数据进行语义理解，以此来对该待存储数据进行审核，从而检查数据的完整性、准确性和一致性，避免将低质量或错误的数据存储到分布式存储系统中。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的用于大数据的智能存储系统的框图；

图2为根据本申请实施例的用于大数据的智能存储系统的系统架构图；

图3为根据本申请实施例的用于大数据的智能存储系统中数据编码模块的框图；

图4为根据本申请实施例的用于大数据的智能存储系统中字符关联语义编码单元的框图；

图5为根据本申请实施例的用于大数据的智能存储系统中数据放行控制模块的框图；

图6为根据本申请实施例的用于大数据的智能存储方法的流程图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

传统的数据分布式存储方案在实施时存在着诸多缺陷，例如现有的数据分布式存储方案中并没有在前期对待存储数据进行审核，而未经审核的数据可能包含错误、重复、不完整或不准确的信息，并且还会存在大量的冗余或无效信息。这不仅占据了大量的存储空间，还会影响到后续的数据分析和应用，从而导致错误的决策和不准确的结果。因此，期望一种优化的用于大数据的智能存储系统。

在本申请的技术方案中，提出了一种用于大数据的智能存储系统。图1为根据本申请实施例的用于大数据的智能存储系统的框图。图2为根据本申请实施例的用于大数据的智能存储系统的系统架构图。如图1和图2所示，根据本申请的实施例的用于大数据的智能存储系统300，包括：数据采集模块310，用于获取待存储数据；数据编码模块320，用于对所述待存储数据进行编码以得到待存储数据语义理解特征；以及，数据放行控制模块330，用于基于所述待存储数据语义理解特征，确定对所述待存储数据是否放行。

特别地，在本申请实施例的用于大数据的智能存储系统300的运行过程中，所述数据采集模块310，用于获取待存储数据。其中，数据存储对象包括在数据加工过程中生成的临时文件或需要进行查找的信息。应可以理解，在数据加工过程中，临时文件是一种常见的数据存储对象。临时文件通常用于存储中间结果或临时计算数据，以便在后续的数据处理步骤中使用。这些临时文件可以在数据处理完成后被删除或清理。此外，需要进行查找的信息也可以作为数据存储对象。例如，在数据库系统中，数据存储对象可以是表、索引或视图，用于存储和组织数据以便进行高效的查询操作。这些数据存储对象可以根据特定的查询需求进行设计和优化，以提高数据的检索性能。

特别地，在本申请实施例的用于大数据的智能存储系统300的运行过程中，所述数据编码模块320，用于对所述待存储数据进行编码以得到待存储数据语义理解特征。特别地，在本申请的一个具体示例中，如图3所示，所述数据编码模块320，包括：字符关联语义编码单元321，用于对所述待存储数据进行基于字符关联语义理解以得到待存储数据字符粒度语义理解特征向量；词关联语义编码单元322，用于对所述待存储数据进行基于词关联语义理解以得到待存储数据词粒度语义理解特征向量；以及，多尺度语义特征融合单元323，用于融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量以得到多粒度待存储数据语义理解特征向量作为所述待存储数据语义理解特征。

具体地，所述字符关联语义编码单元321，用于对所述待存储数据进行基于字符关联语义理解以得到待存储数据字符粒度语义理解特征向量。特别地，在本申请的一个具体示例中，如图4所示，所述字符关联语义编码单元321，包括：字符划分子单元3211，用于对所述待存储数据进行以字符为单位的数据划分以得到待存储数据的字符序列；以及，字符上下文语义理解子单元3212，用于将所述待存储数据的字符序列通过包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据字符粒度语义理解特征向量。

更具体地，所述字符划分子单元3211，用于对所述待存储数据进行以字符为单位的数据划分以得到待存储数据的字符序列。考虑到由于所述待存储数据中包含有大量的语义信息，并且所述待存储数据是由各个字符组成的，因此，进一步对所述待存储数据进行以字符为单位的数据划分以得到待存储数据的字符序列。这样，能够将所述待存储数据分解为单个字符的序列，以便于更细粒度地处理所述待存储数据，例如进行字符级别的语义分析或处理特定字符的格式要求，从而进行所述待存储数据的语义理解，以剔除其中的错误、重复、不完整或不准确的数据信息。

相应的，在一种可能的实现方式中，可通过以下步骤对所述待存储数据进行以字符为单位的数据划分以得到待存储数据的字符序列，例如：获取待存储数据：首先，获取待存储的数据，这可以是文本、图像、音频或其他形式的数据；数据划分：将待存储数据以字符为单位进行划分。这意味着将数据分割成一个个单独的字符序列，每个字符都可以单独存储和处理；确定字符编码：确定字符的编码方式，例如ASCII、UTF-8等。这是为了确保在存储和处理过程中能够正确地解码和编码字符；存储字符序列：将划分好的字符序列存储到适当的存储介质中，例如硬盘、闪存等。可以使用文件系统来管理和组织存储的字符序列；数据完整性和安全性：确保存储的字符序列的完整性和安全性。可以使用校验和、加密等技术来验证和保护存储的数据；数据访问和检索：根据需要，可以通过读取存储介质中的字符序列来访问和检索数据。可以使用文件系统提供的接口或编程语言中的文件操作函数来实现；数据处理和操作：对存储的字符序列进行必要的处理和操作。这可以包括搜索、排序、过滤等操作，根据具体需求使用适当的算法和技术；数据更新和删除：如果需要更新或删除存储的字符序列，可以使用相应的操作来实现。这可能涉及到修改存储介质中的字符序列或标记已删除的字符序列；备份和恢复：为了防止数据丢失，可以定期备份存储的字符序列，并在需要时进行恢复。这可以通过复制存储介质或使用备份工具来实现；数据迁移：如果需要将存储的字符序列从一个存储介质迁移到另一个存储介质，可以使用数据迁移工具或方法来实现。这可能涉及到数据复制、转换和验证等步骤。

更具体地，所述字符上下文语义理解子单元3212，用于将所述待存储数据的字符序列通过包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据字符粒度语义理解特征向量。考虑到由于所述待存储数据中的所述待存储数据的词序列是基于字符划分的数据信息，所述各个字符之间具有着上下文的语义关联关系。因此，为了能够捕捉到所述待存储数据中以字符为单位的语义理解特征信息，在本申请的技术方案中，需要将所述待存储数据的字符序列通过包含word2vec模型和BiLSTM模型的语义编码器以得到待存储数据字符粒度语义理解特征向量。特别地，在本申请的一个具体示例中，所述字符上下文语义理解子单元3212，包括：输入向量生成二级子单元，用于将所述待存储数据的字符序列通过含word2vec模型和BiLSTM模型的语义编码器的word2vec模型以得到输入字符向量的序列；以及，字符上下文语义理解二级子单元，用于使用所述包含word2vec模型和BiLSTM模型的语义编码器的BiLSTM模型对所述输入字符向量的序列进行上下文的语义关联编码以得到所述待存储数据字符粒度语义理解特征向量。

所述输入向量生成二级子单元，用于将所述待存储数据的字符序列通过含word2vec模型和BiLSTM模型的语义编码器的word2vec模型以得到输入字符向量的序列。也就是，使用word2vec模型将所述待存储数据的字符序列符映射到相似的向量空间中，以得到所述输入字符向量的序列。值得注意的是，word2vec模型是一种用于将字符映射到向量表示的技术，它可以将相似的字符映射到相似的向量空间中，从而便于进行语义理解。

所述字符上下文语义理解二级子单元，用于使用所述包含word2vec模型和BiLSTM模型的语义编码器的BiLSTM模型对所述输入字符向量的序列进行上下文的语义关联编码以得到所述待存储数据字符粒度语义理解特征向量。具体地，使用所述BiLSTM模型对所述输入字符向量的序列进行上下文的语义关联编码以得到所述待存储数据字符粒度语义理解特征向量，包括：将所述输入字符向量的序列进行一维排列以得到全局输入字符特征向量；计算所述全局输入字符特征向量与所述输入字符向量的序列中各个输入字符向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；分别以所述多个概率值中各个概率值作为权重对所述输入字符向量的序列中各个输入字符向量进行加权以得到所述多个上下文语义待存储数据字符粒度特征向量；以及，将所述多个上下文语义待存储数据字符粒度特征向量进行级联以得到所述待存储数据字符粒度语义理解特征向量。

BiLSTM(双向长短期记忆网络)是一种循环神经网络(RNN)的变体，它在自然语言处理(NLP)和序列建模任务中广泛应用。与传统的单向LSTM不同，BiLSTM通过同时在正向和逆向两个方向上处理输入序列，从而捕捉到序列中前后关系的信息。BiLSTM的优势在于能够捕捉到上下文信息，尤其适用于涉及到句子或序列的任务，如情感分析、命名实体识别、机器翻译等。通过将正向和逆向的信息合并在一起，BiLSTM能够更好地理解句子中的语境和语义。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式将所述待存储数据的字符序列通过包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据字符粒度语义理解特征向量，例如：准备数据：将待存储的字符序列作为输入数据；加载word2vec模型：加载预训练的word2vec模型，该模型将每个单词映射到一个向量表示，捕捉了单词之间的语义关系；字符序列分词：对待存储的字符序列进行分词处理，将其拆分成一个个单词；单词向量表示：利用word2vec模型，将每个单词转换为对应的向量表示；构建语义编码器：搭建一个包含BiLSTM模型的语义编码器，用于将字符序列转换为语义理解特征向量；输入编码器：将单词向量序列输入到语义编码器中，获取每个单词的上下文信息；双向LSTM编码：通过双向LSTM模型，对输入序列进行编码，得到每个单词的语义表示；汇总特征向量：将双向LSTM模型的输出进行汇总，可以选择将最后一个时间步的输出作为整个序列的语义理解特征向量；存储特征向量：将得到的语义理解特征向量作为待存储数据的字符粒度语义理解特征向量，可以将其存储到数据库或其他持久化存储中，以备后续使用。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述待存储数据进行基于字符关联语义理解以得到待存储数据字符粒度语义理解特征向量，例如：收集待存储数据：首先，收集需要进行字符关联语义理解的待存储数据。这可以是文本、语音、图像或其他形式的数据；分割数据为字符：将待存储数据分割为字符的序列。对于文本数据，可以直接按字符进行分割。对于语音或图像数据，可以使用相应的技术将其转换为字符序列；构建字符关联语义理解模型：使用机器学习或深度学习技术构建一个模型，以实现字符关联语义理解。这个模型可以是基于循环神经网络(RNN)、卷积神经网络(CNN)或其他适合处理序列数据的模型；训练模型：使用已标注的数据对字符关联语义理解模型进行训练。标注数据可以是具有字符关联语义理解特征向量的数据；提取特征向量：使用训练好的模型对待存储数据的每个字符进行处理，提取其字符关联语义理解特征向量。这个特征向量可以捕捉到字符之间的语义关联和含义；存储特征向量：将提取得到的字符关联语义理解特征向量存储起来。这可以是将特征向量保存到数据库中或以其他形式进行存储。

具体地，所述词关联语义编码单元322，用于对所述待存储数据进行基于词关联语义理解以得到待存储数据词粒度语义理解特征向量。考虑到仅仅以字符为单位划分的序列往往无法捕捉到词语层面的语义信息，可能导致对于所述待存储数据的理解不准确或缺乏上下文的连贯性。因此，在本申请的技术方案中，进一步对所述待存储数据进行以词为单位的数据划分以得到待存储数据的词序列，以此有利于更好地捕捉到所述待存储数据中词语的语义信息和上下文关系，从而提高语义理解的准确性和连贯性，从而提高数据存储的可靠性。特别地，在本申请的一个具体示例中，所述词关联语义编码单元322，包括：词划分子单元3221，用于对所述待存储数据进行以词为单位的数据划分以得到待存储数据的词序列；以及，词上下文语义理解子单元3222，用于将所述待存储数据的词序列通过所述包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据词粒度语义理解特征向量。

更具体地，所述词划分子单元3221，用于对所述待存储数据进行以词为单位的数据划分以得到待存储数据的词序列。也就是，在本申请的技术方案中，将所述待存储数据的词序列通过所述Word2Vec模型中，以将相似的词映射到相似的向量空间中以得到输入词向量的序列。

相应的，在一种可能的实现方式中，可通过以下步骤来对所述待存储数据进行以词为单位的数据划分以得到待存储数据的词序列，例如：获取待存储的数据：首先，需要获取待存储的数据，可以是文本、图像、音频或其他形式的数据；数据预处理：对获取到的数据进行预处理，以便后续进行词序列的生成和Word2Vec模型的训练。预处理步骤可能包括文本分词、去除停用词、词形还原等；构建词序列：将预处理后的数据转化为词序列，即将文本划分为一个个独立的词。这可以通过分词工具或库来实现；训练Word2Vec模型：使用训练数据集(即词序列)来训练Word2Vec模型。Word2Vec模型是一种基于神经网络的词嵌入模型，它可以将词映射到高维空间中的向量表示，并捕捉词之间的语义关联；获取词向量序列：对于词序列中的每个词，使用训练好的Word2Vec模型来获取其对应的词向量。这些词向量可以表示词的语义信息和上下文关系；存储词向量序列：将得到的词向量序列存储在适当的数据结构中，如数据库、文件系统或内存中的数据结构。存储方式可以根据实际需求和系统设计进行选择。

更具体地，所述词上下文语义理解子单元3222，用于将所述待存储数据的词序列通过所述包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据词粒度语义理解特征向量。也就是，在本申请的技术方案中，使用双向长短期记忆网络(BiLSTM)模型来进行输入词向量的序列上下文的语义关联编码，以此来提取出所述待存储数据中基于词粒度之间的上下文语义关联特征信息。具体地，首先，将所述待存储数据的字符序列通过含word2vec模型和BiLSTM模型的语义编码器的word2vec模型以得到输入词向量的序列；以及，使用所述包含word2vec模型和BiLSTM模型的语义编码器的BiLSTM模型对所述输入词向量的序列进行上下文的语义关联编码以得到所述待存储数据词粒度语义理解特征向量。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述待存储数据进行基于词关联语义理解以得到待存储数据词粒度语义理解特征向量，例如：获取待存储的数据：首先，需要获取待存储的数据，可以是文本、图像、音频或其他形式的数据；数据预处理：对获取到的数据进行预处理，以便后续进行词关联语义理解。预处理步骤可能包括文本分词、去除停用词、词形还原、图像或音频的降噪处理等；词关联语义理解：使用相关的自然语言处理技术，如词嵌入模型(WordEmbedding)或预训练的语言模型(如BERT)，对每个词进行语义理解和表示。这些模型可以将词映射到高维空间中的向量表示，捕捉词之间的语义关联；构建特征向量：对于每个词，可以使用其语义理解表示构建特征向量。可以选择将词的向量直接作为特征向量，也可以使用聚合函数(如平均、最大或拼接)将多个词的向量组合成一个特征向量；特征向量存储：将得到的特征向量存储在适当的数据结构中，如数据库、文件系统或内存中的数据结构。存储方式可以根据实际需求和系统设计进行选择。

具体地，所述多尺度语义特征融合单元323，用于融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量以得到多粒度待存储数据语义理解特征向量作为所述待存储数据语义理解特征。在本申请的技术方案中，融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量，以此来融合所述待存储数据的基于字符粒度的上下文语义关联特征信息和基于词粒度的上下文语义关联特征信息，从而得到具有关于所述待存储数据的多尺度语义理解特征信息的多粒度待存储数据语义理解特征向量。这样，能够充分进行所述待存储数据的语义理解，有利于后续的数据审核和存储。

相应的，在一种可能的实现方式中，可通过以下步骤融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量以得到多粒度待存储数据语义理解特征向量作为所述待存储数据语义理解特征，例如：使用不同的融合方法，如简单的向量拼接、加权平均等。具体方法取决于应用场景和需求；以及，将融合后的特征向量作为待存储数据的多粒度语义理解特征向量。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述待存储数据进行编码以得到待存储数据语义理解特征，例如：数据预处理：对待存储数据进行必要的预处理，包括文本清洗、分词、去除停用词等。这些步骤有助于减少噪声并提取出关键信息；选择编码方法：选择适合的编码方法来表示待存储数据。常见的编码方法包括词袋模型(Bag-of-Words)、词嵌入(Word Embedding)和序列编码(Sequence Encoding)等；词袋模型编码：将待存储数据表示为一个向量，其中每个维度对应一个词汇表中的词。对于每个文档或句子，统计词汇表中每个词的出现频率，并将其作为向量的相应维度的值。这种编码方法忽略了词的顺序和语义关系；词嵌入编码：通过将每个词映射到一个低维向量空间中，捕捉词之间的语义关系。常用的词嵌入模型有Word2Vec、GloVe和BERT等。通过使用预训练的词嵌入模型，可以将每个词转换为一个固定长度的向量表示；序列编码：对于一系列的文本数据，如句子或文档，可以使用序列编码方法来捕捉词之间的顺序信息。常见的序列编码方法包括循环神经网络(Recurrent Neural Network，RNN)和长短时记忆网络(Long Short-Term Memory，LSTM)等。这些模型可以处理变长的输入序列，并将其编码为固定长度的向量表示；特征提取：根据具体任务的需求，从编码后的数据中提取有意义的特征。这可以包括统计特征(如平均值、最大值等)、文本特征(如词频、句子长度等)或其他领域相关的特征；特征表示：将提取的特征表示为机器学习算法可以处理的形式，如向量或矩阵。这可以涉及到归一化、标准化或其他数据转换方法。

特别地，在本申请实施例的用于大数据的智能存储系统300的运行过程中，所述数据放行控制模块330，用于基于所述待存储数据语义理解特征，确定对所述待存储数据是否放行。特别地，在本申请的一个具体示例中，如图5所示，所述数据放行控制模块330，包括：特征优化因子计算单元331，用于对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量；特征加权优化单元332，用于计算所述校正特征向量与所述多粒度待存储数据语义理解特征向量的按位置点乘以得到优化多粒度待存储数据语义理解特征向量；以及，数据放行检测单元333，用于将所述优化多粒度待存储数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示对所述待存储数据是否放行。

具体地，所述特征优化因子计算单元331，用于对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量。应可以理解，所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量分别表达待存储数据以字符为单位和以词为单位的双向进程-远程关联文本语义特征，因此，考虑到源数据划分粒度的区别，在每个粒度下的字符和词语义上的差异会在语义关联特征提取时被进一步放大，使得所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量存在向量整体维度上的语义分布不一致。这样，在融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量以得到多粒度待存储数据语义理解特征向量时，所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量的语义分布在向量维度下的不一致会模型的前向传播时产生融合特征信息的损失，从而影响所述多粒度待存储数据语义理解特征向量对于单独语义粒度下的关联语义特征的表达效果，也就影响了其通过分类器得到的分类结果的准确性。基于此，本申请的申请人通过对所述待存储数据字符粒度语义理解特征向量，例如记为V₁和所述待存储数据词粒度语义理解特征向量，例如记为V₂进行前向传播信息保留融合来得到校正特征向量，例如记为V′，其中V′表示为：

《s和〉s分别表示将特征向量左移s位和右移s位，round为取整函数，是所述待存储数据字符粒度语义理解特征向量V₁和所述待存储数据词粒度语义理解特征向量V₂的所有特征值的均值，||·||₁表示特征向量的一范数，d(V₁，V₂)是特征向量V₁和V₂之间的距离，且log为以2为底的对数。这里，针对所述待存储数据字符粒度语义理解特征向量V₁和所述待存储数据词粒度语义理解特征向量V₂在网络模型中的前向传播过程中，由于融合操作产生的在向量尺度上的浮点分布误差和特征信息损失，通过从均一化信息角度来引入向量的逐位位移操作，来平衡和标准化前向传播过程中的量化误差和信息损失，并通过在特征融合之前重塑特征参数的分布来引入分布多样性，由此以扩大信息熵的方式进行信息保留(retention)。这样，将得到的所述校正特征向量V′与所述多粒度待存储数据语义理解特征向量进行点乘，就可以减少所述多粒度待存储数据语义理解特征向量对于单独语义粒度下的关联语义特征的表达的信息损失，从而提升其通过分类器得到的分类结果的准确性。这样，能够对于待存储数据进行审核检测，从而有效地检查数据的完整性、准确性和一致性，以避免将低质量或错误的数据存储到分布式存储系统中，进而提高后续数据分析和应用的准确性和可靠性。

具体地，所述特征加权优化单元332，用于计算所述校正特征向量与所述多粒度待存储数据语义理解特征向量的按位置点乘以得到优化多粒度待存储数据语义理解特征向量。按位置点乘是一种逐元素相乘的操作，它可以用来计算校正特征向量和多粒度待存储数据语义理解特征向量之间的相似性或相关性。通过按位置点乘，可以将两个特征向量中相同位置的元素进行逐个相乘，得到一个新的特征向量。这个新的特征向量可以反映两个原始特征向量在每个位置上的相似程度。

具体地，所述数据放行检测单元333，用于将所述优化多粒度待存储数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示对所述待存储数据是否放行。也就是，基于所述待存储数据的多尺度语义理解特征信息来进行所述待存储数据的审核检测，以提高数据存储的质量。这样，能够有效地检查数据的完整性、准确性和一致性，避免将低质量或错误的数据存储到分布式存储系统中，提高后续数据分析和应用的准确性和可靠性。

根据本申请的实施例，将所述优化多粒度待存储数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示对所述待存储数据是否放行，包括：使用所述分类器以如下公式对所述优化多粒度待存储数据语义理解特征向量进行处理以获得分类结果，其中，所述公式为：

O＝softmax{(W_n，B_n)：...：(W₁，B₁)|X}，其中，W₁到W_n为权重矩阵，B₁到B_n为偏置向量，X为所述优化多粒度待存储数据语义理解特征向量。

特别地，在本申请的一个具体示例中，所述数据放行检测单元333，包括：全连接编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类结果生成子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

所述全连接编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量。其中，全连接编码(Fully ConnectedEncoding)是一种常见的神经网络编码方法，也被称为全连接层或密集连接层。在全连接编码中，每个神经元都与前一层的所有神经元相连，每个连接都有一个权重。这种连接方式使得神经网络可以学习输入数据的复杂非线性关系。在全连接编码中，每个神经元的输出由输入数据经过权重和激活函数的变换得到。常用的激活函数包括Sigmoid、ReLU和Tanh等。全连接编码可以通过堆叠多个全连接层来增加模型的复杂度和表示能力。分类器是一种机器学习模型或算法，用于将输入数据分为不同的类别或标签。分类器通过学习已知标记的训练数据，建立一个决策边界或分类规则，然后将未知数据分配到相应的类别中。

所述分类结果生成子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。其中，Softmax分类函数是一种常用的多类别分类函数，它将输入的实数向量转换为表示概率分布的向量。Softmax函数的输出是一个与输入向量维度相同的概率分布，其中每个元素表示该类别的概率。Softmax函数的特点是将输入向量中的每个元素映射到一个介于0和1之间的值，并且所有元素的和等于1。这样可以将输入向量解释为概率分布，其中每个元素表示对应类别的概率。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式基于所述待存储数据语义理解特征，确定对所述待存储数据是否放行，例如：数据预处理：对待存储数据进行预处理，包括去除噪声、标点符号和停用词等，以减少干扰和提高数据质量；语义理解：使用基于词关联的语义理解方法，将待存储数据转化为词粒度的语义理解特征向量。这可以通过使用Word2Vec模型或其他类似的词向量表示方法来实现；特征提取：从语义理解特征向量中提取关键特征，例如词频、词向量的平均值或其他统计特征。这些特征可以用于后续的数据分析和判断；制定放行规则：根据实际需求和安全要求，制定放行规则。这些规则可以基于特征的阈值、相似度计算或其他逻辑判断方法来确定；判断放行：将待存储数据的特征与放行规则进行比较，判断是否满足放行条件。如果满足放行规则，则将数据放行；否则，将数据标记为不可放行。

如上所述，根据本申请实施例的用于大数据的智能存储系统300可以实现在各种无线终端中，例如具有用于大数据的智能存储算法的服务器等。在一种可能的实现方式中，根据本申请实施例的用于大数据的智能存储系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该用于大数据的智能存储系统300可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该用于大数据的智能存储系统300同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该用于大数据的智能存储系统300与该无线终端也可以是分立的设备，并且该用于大数据的智能存储系统300可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

进一步地，还提供一种用于大数据的智能存储方法。

图6为根据本申请实施例的用于大数据的智能存储方法的流程图。如图6所示，根据本申请实施例的用于大数据的智能存储方法，包括：S110，获取待存储数据；S120，对所述待存储数据进行编码以得到待存储数据语义理解特征；以及，S130，基于所述待存储数据语义理解特征，确定对所述待存储数据是否放行。

综上，根据本申请实施例的用于大数据的智能存储方法被阐明，其通过在进行数据的分布式存储前，对于待存储数据进行语义理解，以此来对该待存储数据进行审核，从而检查数据的完整性、准确性和一致性，避免将低质量或错误的数据存储到分布式存储系统中。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于大数据的智能存储系统，其特征在于，包括：

数据采集模块，用于获取待存储数据；

2.根据权利要求1所述的用于大数据的智能存储系统，其特征在于，所述数据编码模块，包括：

字符关联语义编码单元，用于对所述待存储数据进行基于字符关联语义理解以得到待存储数据字符粒度语义理解特征向量；

词关联语义编码单元，用于对所述待存储数据进行基于词关联语义理解以得到待存储数据词粒度语义理解特征向量；以及

多尺度语义特征融合单元，用于融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量以得到多粒度待存储数据语义理解特征向量作为所述待存储数据语义理解特征。

3.根据权利要求2所述的用于大数据的智能存储系统，其特征在于，所述字符关联语义编码单元，包括：

字符划分子单元，用于对所述待存储数据进行以字符为单位的数据划分以得到待存储数据的字符序列；以及

字符上下文语义理解子单元，用于将所述待存储数据的字符序列通过包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据字符粒度语义理解特征向量。

4.根据权利要求3所述的用于大数据的智能存储系统，其特征在于，所述字符上下文语义理解子单元，包括：

输入向量生成二级子单元，用于将所述待存储数据的字符序列通过含word2vec模型和BiLSTM模型的语义编码器的word2vec模型以得到输入字符向量的序列；以及

字符上下文语义理解二级子单元，用于使用所述包含word2vec模型和BiLSTM模型的语义编码器的BiLSTM模型对所述输入字符向量的序列进行上下文的语义关联编码以得到所述待存储数据字符粒度语义理解特征向量。

5.根据权利要求4所述的用于大数据的智能存储系统，其特征在于，所述词关联语义编码单元，包括：

词划分子单元，用于对所述待存储数据进行以词为单位的数据划分以得到待存储数据的词序列；以及

词上下文语义理解子单元，用于将所述待存储数据的词序列通过所述包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据词粒度语义理解特征向量。

6.根据权利要求5所述的用于大数据的智能存储系统，其特征在于，所述数据放行控制模块，包括：

特征优化因子计算单元，用于对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量；

特征加权优化单元，用于计算所述校正特征向量与所述多粒度待存储数据语义理解特征向量的按位置点乘以得到优化多粒度待存储数据语义理解特征向量；以及

数据放行检测单元，用于将所述优化多粒度待存储数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示对所述待存储数据是否放行。

7.根据权利要求6所述的用于大数据的智能存储系统，其特征在于，所述特征优化因子计算单元，用于：以如下融合优化公式对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到所述校正特征向量；

其中，所述融合优化公式为：

其中，V₁是所述待存储数据字符粒度语义理解特征向量，V₂是所述待存储数据词粒度语义理解特征向量，＜＜s和＞＞s分别表示将特征向量左移s位和右移s位，round(·)为取整函数，是所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量的所有特征值的均值，||·||₁表示特征向量的一范数，d(V₁,V₂)是所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量之间的距离，且log为以2为底的对数函数值，/>和/>分别表示按位置减法和加法，α和β为加权超参数，V'是所述校正特征向量。

8.根据权利要求7所述的用于大数据的智能存储系统，其特征在于，所述数据放行检测单元，包括：

全连接编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及

分类结果生成子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。