CN113470831B

CN113470831B - 一种基于数据简并的大数据转换方法与装置

Info

Publication number: CN113470831B
Application number: CN202111029797.4A
Authority: CN
Inventors: 曾承
Original assignee: Wuhan Talent Information Technology Co ltd
Current assignee: Wuhan Talent Information Technology Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-11-16
Anticipated expiration: 2041-09-03
Also published as: CN113470831A

Abstract

本申请揭示了一种基于数据简并的大数据转换方法，分别进行模数转化处理，以得到数字信号集合；进行聚类处理，以得到多个数据子集，并得到多个相似度集合；获取多个标准数据；生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，从而得到多个样本数据；对预设的深度神经网络模型进行训练，以得到数字规律预测模型；得到多个预测结果；构成一号数据集，构成二号数据集；分别进行哈希计算，从而得到多个哈希值，并建立映射关系；进行数据简并处理，以得到多个三元素数据组合；执行大数据存储操作，实现了数据简并的目的，从而减轻了大数据的存储压力，并且还提高了大数据的信息安全性。

Description

一种基于数据简并的大数据转换方法与装置

技术领域

本申请涉及到大数据领域，特别是涉及到一种基于数据简并的大数据转换方法与装置。

背景技术

医疗及医学教育领域中的大数据分析，是在大量的传感器进行大数据采集的基础上实施的，这些传感器采集得到的数据（一般为模拟信号数据）数量繁多，需要耗费大量的存储资源来存储，因此形成庞大的存储压力。而传统的大数据存储方案中，未能有效解决存储压力大的问题。

发明内容

本申请一种基于数据简并的大数据转换方法，应用于大数据转化终端，包括：

S1、接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合，并根据预设的模数转化方法，对所述模拟信号集合中的模拟信号分别进行模数转化处理，以得到数字信号集合；

S2、根据预设的数据聚类方法，对所述数字信号集合进行聚类处理，以得到多个数据子集，并根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合；

S3、根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，并生成所述多个标准数据分别对应的代号；

S4、采用预设的数据模拟方法，生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，以将存在数字规律的虚拟数字数据标记上对应的标签，从而得到多个样本数据；其中，不存在数字规律的虚拟数字数据被默认标记上零号标签，具有不同数字规律的虚拟数字数据被标记上不同的标签；

S5、使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型；其中，训练过程中采用反向传播算法来更新各层网络的参数；

S6、将所述数字信号集合中，除所述多个标准数据之外的其他数据，依次输入所述数字规律预测模型中进行处理，以得到所述数字规律预测模型对应输出的多个预测结果；其中，当预测结果为具有数字规律时，预测结果还附带有数字规律标签；

S7、将预测结果为不具有数字规律的数据构成一号数据集，并将预测结果为具有数字规律的数据构成二号数据集；

S8、根据预设的哈希算法，对所述二号数据集中的所有数据分别进行哈希计算，从而得到多个哈希值，并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系；

S9、根据所述映射关系，对所述二号数据集中的所有数据进行数据简并处理，以得到多个三元素数据组合；其中，每个三元素数据组合由处于同一个映射关系中的哈希值、数字规律标签和标准数据代号构成；

S10、执行大数据存储操作，以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合。

进一步地，所述根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合的步骤，包括：

S201、进行第一次划分操作，以对第一个数据子集中的全部成员分别进行t等分划分处理，从而对应得到多个二进制符号段序列；

S202、进行第一批相似度计算操作，以从所述多个二进制符号段序列中随机选出一个参考二进制符号段序列，并根据公式：

，

计算出参考二进制符号段序列与一个其他二进制符号段序列之间的相似度值Q，从而得到多个相似度值；其中，p为预设的大于1的参数，Wi为参考二进制符号段序列的第i个二进制符号段，Ei为另一个被计算的二进制符号段序列的第i个二进制符号段；

S203、进行第一次相似度集合构建操作，以将所述多个相似度值组成对应于第一个数据子集的第一个相似度集合；

S204、依次进行第二次划分操作、第二批相似度计算操作、第二次相似度集合构建操作、…、第m次划分操作、第m批相似度计算操作、第m次相似度集合构建操作，从而得到对应于第二个数据子集的第二个相似度集合、…、对应于第m个数据子集的第m个相似度集合；其中，共有m个数据子集，m为大于2的整数。

进一步地，所述根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据的步骤，包括：

S301、判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值；

S302、若第一个相似度集合中的所有成员均大于预设的相似度阈值，则将所述参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。

进一步地，所述判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值的步骤S301之后，包括：

S3011、若第一个相似度集合中的所有成员不均大于预设的相似度阈值，则随机选出新的参考二进制符号段序列，并根据公式：

，

计算出所述新的参考二进制符号段序列与一个其他二进制符号段序列之间的相似度值R，从而得到多个新的相似度值；其中，p为预设的大于1的参数，Ti为所述新的参考二进制符号段序列的第i个二进制符号段，Yi为另一个被计算的二进制符号段序列的第i个二进制符号段；

S3012、判断所述多个新的相似度值是否均大于预设的相似度阈值；

S3013、若所述多个新的相似度值均大于预设的相似度阈值，则将所述新的参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。

进一步地，所述使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型的步骤S5，包括：

S501、根据预设比例，将所述多个样本数据划分为多个训练数据和多个验证数据；

S502、将所述多个训练数据输入所述深度神经网络模型中进行训练，以得到初步预测模型；

S503、采用所述多个验证数据对所述初步预测模型进行验证处理，并判断验证处理的结果是否为验证通过；

S504、若验证处理的结果为验证通过，则将所述初步预测模型记为数字规律预测模型。

本申请提供一种基于数据简并的大数据转换装置，应用于大数据转化终端，包括：

数字信号集合获取单元，用于接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合，并根据预设的模数转化方法，对所述模拟信号集合中的模拟信号分别进行模数转化处理，以得到数字信号集合；

相似度计算单元，用于根据预设的数据聚类方法，对所述数字信号集合进行聚类处理，以得到多个数据子集，并根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合；

标准数据筛选单元，用于根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，并生成所述多个标准数据分别对应的代号；

样本数据生成单元，用于采用预设的数据模拟方法，生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，以将存在数字规律的虚拟数字数据标记上对应的标签，从而得到多个样本数据；其中，不存在数字规律的虚拟数字数据被默认标记上零号标签，具有不同数字规律的虚拟数字数据被标记上不同的标签；

数字规律预测模型获取单元，用于使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型；其中，训练过程中采用反向传播算法来更新各层网络的参数；

预测结果输出单元，用于将所述数字信号集合中，除所述多个标准数据之外的其他数据，依次输入所述数字规律预测模型中进行处理，以得到所述数字规律预测模型对应输出的多个预测结果；其中，当预测结果为具有数字规律时，预测结果还附带有数字规律标签；

数据集构建单元，用于将预测结果为不具有数字规律的数据构成一号数据集，并将预测结果为具有数字规律的数据构成二号数据集；

哈希计算单元，用于根据预设的哈希算法，对所述二号数据集中的所有数据分别进行哈希计算，从而得到多个哈希值，并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系；

数据简并单元，用于根据所述映射关系，对所述二号数据集中的所有数据进行数据简并处理，以得到多个三元素数据组合；其中，每个三元素数据组合由处于同一个映射关系中的哈希值、数字规律标签和标准数据代号构成；

大数据存储单元，用于执行大数据存储操作，以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合。

本申请的基于数据简并的大数据转换方法、装置，对所述模拟信号集合中的模拟信号分别进行模数转化处理，以得到数字信号集合；进行聚类处理，以得到多个数据子集，并得到与所述多个数据子集分别对应的多个相似度集合；分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据；生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，从而得到多个样本数据；对预设的深度神经网络模型进行训练，以得到数字规律预测模型；得到所述数字规律预测模型对应输出的多个预测结果；构成一号数据集，构成二号数据集；分别进行哈希计算，从而得到多个哈希值，并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系；进行数据简并处理，以得到多个三元素数据组合；执行大数据存储操作，实现了数据简并的目的，从而减轻了大数据的存储压力，并且还提高了大数据的信息安全性（因为本申请的存储数据中，有部分是经过数据简并得到的，此部分数据的信息安全性更高）。

附图说明

图1 为本申请一实施例的基于数据简并的大数据转换方法的流程示意图；

图2 为本申请一实施例的基于数据简并的大数据转换装置的结构示意框图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例1：

参照图1，本实施例提供了一种基于数据简并的大数据转换方法，应用于大数据转化终端，包括：

本申请为了减少大数据的存储压力，因此采用的是基于数据简并的不完全存储方案。相对于完全存储的传统方案（即将所有的数据完整存储至存储器中），本申请仅对于一号数据集中的数据和所述多个标准数据进行完整存储，而对二号数据集中除标准数据之外的其他数据进行不完全存储，这种不完全存储指的是，只存储所述多个三元素数据组合，而不存储所述二号数据集中除标准数据之外的其他数据本身。因此，在所述执行大数据存储操作，以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合的步骤S10之后，进一步包括，删除所述二号数据集中除标准数据之外的其他数据。

需要注意的是，虽然本申请只强调执行大数据存储操作，以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合，但是对于所述二号数据集中除标准数据之外的其他数据，可以根据所述多个标准数据和所述多个三元素数据组合，进行数据还原操作，从而将未被存储的所述二号数据集中除标准数据之外的其他数据还原出来。这是因为，虽然所述二号数据集中除标准数据之外的其他数据未被存储，但是所述二号数据集中除标准数据之外的其他数据的特征是被反应在所述多个标准数据和所述多个三元素数据组合中的，因此借助所述多个标准数据和所述多个三元素数据组合，再进行尝试性地哈希计算，即可还原出正确数据。

现以一个简单数据为例，对本申请的数据简并存储及还原的过程进行描述：

对于一个数字信号1111011111001，将其进行划分得到1,11,101,111,1001，其中是具有数字规律的，即具有等差数列的数字规律，若将其转化为十进制则更为清楚，即1,3,5,7,9，因此可对其标上等差数列的数字规律标签（当然，数字规律标签可以设置为更细，例如设置为公差为2的等差数列，但明显地，设置得更细，则需要花费的算力越高，但无论如何，这些数字规律标签可采用任意可行方式设置，并且可以同时具有多个数字规律标签，因为可能存在部分数字规律是相兼容的）。由于这种数字规律是相当简单的，因此毫无疑问，将被数字规律预测模型预测出来。

对数字信号1111011111001进行哈希计算，可以得到指定位数的哈希值，由于哈希值的位数较多，例如为128位，由于长度过长，在此并不列出。需要声明的是，虽然本申请在此举例的仅是13位的数字信号，但实施应用中，数字信号的长度应当大于哈希值的长度。而此时只是为了便了描述本申请的方案，因此只采用较短长度的数字信号进行说明，但更长的数字信号依据的原理相同。

同时，与此对应的标准数据为1,11,101,110,1001（其中逗号是为了便于观看与陈述），转化为十进制数据为1,3,5,6,9，其例如具有代号A。

因此存储时存储的是，哈希值、代号A、等差数列的数字规律标签（即三元素数据组合）。这种情况下，若原数字信号的长度要比哈希值、代号A、等差数列的数字规律标签构成的三元素数据组合的长度更长，那么就能减少存储压力，事实上，这一点很容易做到。数字信号为二进制，并且本申请正式实施过程时，采用的是位数更长的数字信号，因为需要使数字信号的长度大于后续哈希计算得到的哈希值长度，并且其具有的数字规律可能会更为复杂。

在需要对数字信号进行处理时，则需要先进行还原操作，这需要利用三元素数据组合。具体地，先利用代号A找到标准数据1,11,101,110,1001，并根据数字规律标签得知数字信号是呈等差数列排列的，因此在标准数据1,11,101,110,1001的基础上进行微调（因此标准数据与数字信号之间的相似度是较大的，因此差异不会过大，对应的哈希计算的次数也不会太多），再对微调后的数据进行哈希计算，若哈希计算得到的数值正好等于三元素数据组合中的哈希值，则表明微调后的数据即为正确的数字信号，从而完成了数据还原的过程。

由于大数据涉及的数据量巨大，因此本申请中必然可以发现大量的具有数字规律的数据，但不可避免的，也存在一些没有数字规律的数据，因此对于这些没有数字规律的数据，划为一号数据集，并进行完全存储，而对于一号数据集本身，其是没有经过数据简并的过程的。

另外，本申请虽然实施了大数据的数据存储压力，但是需要花费在数据还原过程中的算力作为代价，不过总的而言，若涉及的数据量越大，则本申请的实施价值越高，因为数据量越大，则本申请的实施能够缓解的存储压力越多（因为具有数字规律的数据越多），而算力消耗的增加幅度却越小。

如上述步骤S1-S3所述，接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合，并根据预设的模数转化方法，对所述模拟信号集合中的模拟信号分别进行模数转化处理，以得到数字信号集合；根据预设的数据聚类方法，对所述数字信号集合进行聚类处理，以得到多个数据子集，并根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合；根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，并生成所述多个标准数据分别对应的代号。

数据传感器可为任意可行类型的传感器，例如为温度传感器、图像传感器等等。传感器感测的信号一般为模拟信号，因此本申请采用模数转化变为数字信号。其中采用的模数转化方法，可为任意可行方法。而数字信号以二进制呈现，因此数字信号集合为二进制符号串的集合。

数据聚类可采用任意可行算法，例如采用K值聚类法，其目的在于将相近的数字信号划分为同一个数据子集中，以便于后续步骤的进行。再进行相似度计算，以便于找出标准数据，所述标准数据的目的是为了作为本申请简并数据的一个还原基础，否则仅依据哈希值和数字规律标签是难以恢复数据的，这是因为哈希算法是一种不可逆算法，难以根据哈希值逆推回原始数据。但是本申请提供了标准数据、哈希值和数字规律标签，所以能够通过有限次的尝试哈希计算，能够恢复原始数据，这是本申请的一个特点。而相似度计算可采用任意可行算法，例如余弦相似度算法、皮尔逊相关系数算法等等。

再根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据。筛选出的标准数据，可为任意可行数据，优选为与其他数据最相近的数据，这样对于整体的数据还原而言更有利。再生成所述多个标准数据分别对应的代号。之所以需要生成代号，是因为若对每个数据子集的成员均存储一个标准数据，那么本申请减轻存储压力的目的就难以实现，当然，还是能够实现提高数据安全的目的的。

，

从而使得相似度计算更为准确，因此本申请采用的相似度计算公式不仅考虑到了两个二进制符号段序列之间，各个符号段之间的数值差异，还考虑到了对于二进制符号段序列整体的角度差异，所以整体的相似度计算的准确性得到了提高。其中，进行t等分划分处理，指的是对一个数据（二进制符号串）进行切分为t段，这t段构成了一个二进制符号段序列。例如对于，0011100110，对其进行5等分切分，从而得至一个二进制符号段序列00,11,10,01,10。当然，实际情况针对的二进制符号串的位数远大于上述例子，但原理是相通的。并且对于二进制符号段序列00,11,10,01,10，其第一个二进制符号段为00，第五个二进制符号段为10。由于本申请在进行相似度计算之前，已经进行过聚类处理，因此每个聚类中各个成员之间已经较为相似，因此可以采用从所述多个二进制符号段序列中随机选出一个参考二进制符号段序列的方式，以假定出一个参考二进制符号段序列，再分析其是否适合作为标准数据。其中，相似度值Q的数值越大，表示越相似，当其等于0时，表示最不相似。

判断一个参考二进制符号段序列是否适合作为标准数据的标准在于，其与其他二进制符号段序列是否均足够相似，这是为了便于后续的数据还原。因此，若第一个相似度集合中的所有成员均大于预设的相似度阈值，则表明参考二进制符号段序列与第一个数据子集中的其他成员均足够相似，因此可以作为标准数据。进一步地，对于其他相似度集合，采用相同的方式来筛选出对应的标准数据。

，

若第一个相似度集合中的所有成员不均大于预设的相似度阈值，则表明需要重新选出一个标准数据。重新选择时，仍采用随机筛选的方式，选出新的参考二进制符号段序列，再重复一次是否通过作为标准数据的判断流程即可。并在所述多个新的相似度值均大于预设的相似度阈值后，将所述新的参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。

如上述步骤S4-S7所述，采用预设的数据模拟方法，生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，以将存在数字规律的虚拟数字数据标记上对应的标签，从而得到多个样本数据；其中，不存在数字规律的虚拟数字数据被默认标记上零号标签，具有不同数字规律的虚拟数字数据被标记上不同的标签；使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型；其中，训练过程中采用反向传播算法来更新各层网络的参数；将所述数字信号集合中，除所述多个标准数据之外的其他数据，依次输入所述数字规律预测模型中进行处理，以得到所述数字规律预测模型对应输出的多个预测结果；其中，当预测结果为具有数字规律时，预测结果还附带有数字规律标签；将预测结果为不具有数字规律的数据构成一号数据集，并将预测结果为具有数字规律的数据构成二号数据集。

数据模拟方法，是为了模拟出与传感器采集到的数据的类型相同的虚拟数字数据，因此也是二进制数据。虚拟数字数据的生成方法可为任意可行方法，例如调取预设的数据模板，并随机生成二进制数以填充所述数据模板，即可得到虚拟数字数据。本申请通过数据传感器会采集到大量的传感数据，此时生成的虚拟数字数据也会生成大量的虚拟数字数据，因此其中必然存在大量具有数字规律的虚拟数字数据。而后续需要采用有监督学习的方式对机器学习模型进行训练，因此需要对所述多个虚拟数字数据进行人工标记处理，以将存在数字规律的虚拟数字数据标记上对应的标签，从而得到多个样本数据。其中的数字规律，例如为等差、等比、0字符与1字符呈间隔排列等。另外，本申请可以将多个虚拟数字数据进行切分，以将具有数字规律的部分切分出来，从而调整数据比例（同样地，对于真实的传感器数据，也可以进行数据切分处理，以将具有数字规律的部分单独列出）。

再对深度神经网络模型中进行训练，其中训练时采用的是反向传播算法来更新各层网络的参数。深度神经网络模型可为任意可行模型，例如为长短期记忆网络模型、残差网络模型、卷积神经网络模型等等。而反向传播算法适合多层网络模型，其过程主要由两个环节，即激励传播和权重更新，反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。由于在生成样本数据时，已经标记上不同的标签，因此本申请的数字规律预测模型不仅能够预测出是否具有数字规律，还能预测出具有何种数字规律，并且数字规律标签的方式呈现。再将预测结果为不具有数字规律的数据构成一号数据集，并将预测结果为具有数字规律的数据构成二号数据集。

从而使得数字规律预测模型的可靠性得到保证，能够胜任对数字规律的预测任务。

如上述步骤S8-S10所述，根据预设的哈希算法，对所述二号数据集中的所有数据分别进行哈希计算，从而得到多个哈希值，并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系；根据所述映射关系，对所述二号数据集中的所有数据进行数据简并处理，以得到多个三元素数据组合；其中，每个三元素数据组合由处于同一个映射关系中的哈希值、数字规律标签和标准数据代号构成；执行大数据存储操作，以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合。

哈希算法可采用任意可行算法，例如采用SHA-1，SHA-256，MD5算法等，优选MD5算法，其输出的是128位的哈希值。由前述步骤可知，二号数据集中的数据被哈希计算，因此存在数据-哈希值的映射关系，而该数据是被数字规律预测模型预测出数字规律标签的，因此还存在数据-数字规律标签的映射关系，而该数据是处于某一个数据子集中的，因此还存在数据-数据子集的映射关系，而每个数据子集具有唯一的标准数据，标准数据具有唯一的数据代号，因此还存在数据子集-标准数据代号的映射关系。综上，可以唯一得到数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系。

再从映射关系中，提取出哈希值、数字规律标签和标准数据代号，就能够组成三元素数据组合。由前文的数据还原的介绍可知，采用该三元素数据组合，再经过有限次的哈希计算，就可以得到原始数据（即映射关系中的对应数据）。因此，不需要存储二号数据集中除标准数据的其他数据，而只需要存储多个三元素数据组合即可，另外再将不能数据简并处理的其他数据，即所述一号数据集、所述多个标准数据也进行存储处理，从而完成数据简并与存储的过程。

本申请的基于数据简并的大数据转换方法，对所述模拟信号集合中的模拟信号分别进行模数转化处理，以得到数字信号集合；进行聚类处理，以得到多个数据子集，并得到与所述多个数据子集分别对应的多个相似度集合；分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据；生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，从而得到多个样本数据；对预设的深度神经网络模型进行训练，以得到数字规律预测模型；得到所述数字规律预测模型对应输出的多个预测结果；构成一号数据集，构成二号数据集；分别进行哈希计算，从而得到多个哈希值，并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系；进行数据简并处理，以得到多个三元素数据组合；执行大数据存储操作，实现了数据简并的目的，从而减轻了大数据的存储压力，并且还提高了大数据的信息安全性（因为本申请的存储数据中，有部分是经过数据简并得到的，此部分数据的信息安全性更高）。

实施例2：

参照图2，本实施例提供了一种用于实现实施例1所述大数据转换方法的基于数据简并的大数据转换装置，应用于大数据转化终端，包括：

数字信号集合获取单元10，用于接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合，并根据预设的模数转化方法，对所述模拟信号集合中的模拟信号分别进行模数转化处理，以得到数字信号集合；

相似度计算单元20，用于根据预设的数据聚类方法，对所述数字信号集合进行聚类处理，以得到多个数据子集，并根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合；

标准数据筛选单元30，用于根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，并生成所述多个标准数据分别对应的代号；

样本数据生成单元40，用于采用预设的数据模拟方法，生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，以将存在数字规律的虚拟数字数据标记上对应的标签，从而得到多个样本数据；其中，不存在数字规律的虚拟数字数据被默认标记上零号标签，具有不同数字规律的虚拟数字数据被标记上不同的标签；

数字规律预测模型获取单元50，用于使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型；其中，训练过程中采用反向传播算法来更新各层网络的参数；

预测结果输出单元60，用于将所述数字信号集合中，除所述多个标准数据之外的其他数据，依次输入所述数字规律预测模型中进行处理，以得到所述数字规律预测模型对应输出的多个预测结果；其中，当预测结果为具有数字规律时，预测结果还附带有数字规律标签；

数据集构建单元70，用于将预测结果为不具有数字规律的数据构成一号数据集，并将预测结果为具有数字规律的数据构成二号数据集；

哈希计算单元80，用于根据预设的哈希算法，对所述二号数据集中的所有数据分别进行哈希计算，从而得到多个哈希值，并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系；

数据简并单元90，用于根据所述映射关系，对所述二号数据集中的所有数据进行数据简并处理，以得到多个三元素数据组合；其中，每个三元素数据组合由处于同一个映射关系中的哈希值、数字规律标签和标准数据代号构成；

大数据存储单元100，用于执行大数据存储操作，以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合。

在一个实施方式中，所述根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合，包括：

进行第一次划分操作，以对第一个数据子集中的全部成员分别进行t等分划分处理，从而对应得到多个二进制符号段序列；

进行第一批相似度计算操作，以从所述多个二进制符号段序列中随机选出一个参考二进制符号段序列，并根据公式：

，

进行第一次相似度集合构建操作，以将所述多个相似度值组成对应于第一个数据子集的第一个相似度集合；

依次进行第二次划分操作、第二批相似度计算操作、第二次相似度集合构建操作、…、第m次划分操作、第m批相似度计算操作、第m次相似度集合构建操作，从而得到对应于第二个数据子集的第二个相似度集合、…、对应于第m个数据子集的第m个相似度集合；其中，共有m个数据子集，m为大于2的整数。

在一个实施方式中，所述根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，包括：

判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值；

若第一个相似度集合中的所有成员均大于预设的相似度阈值，则将所述参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。

在一个实施方式中，所述判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值之后，包括：

若第一个相似度集合中的所有成员不均大于预设的相似度阈值，则随机选出新的参考二进制符号段序列，并根据公式：

，

判断所述多个新的相似度值是否均大于预设的相似度阈值；

若所述多个新的相似度值均大于预设的相似度阈值，则将所述新的参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。

在一个实施方式中，所述使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型，包括：

根据预设比例，将所述多个样本数据划分为多个训练数据和多个验证数据；

将所述多个训练数据输入所述深度神经网络模型中进行训练，以得到初步预测模型；

采用所述多个验证数据对所述初步预测模型进行验证处理，并判断验证处理的结果是否为验证通过；

若验证处理的结果为验证通过，则将所述初步预测模型记为数字规律预测模型。

其中上述单元分别用于执行的操作与前述实施方式的基于数据简并的大数据转换方法的步骤一一对应，在此不再赘述。

本申请的基于数据简并的大数据转换装置，对所述模拟信号集合中的模拟信号分别进行模数转化处理，以得到数字信号集合；进行聚类处理，以得到多个数据子集，并得到与所述多个数据子集分别对应的多个相似度集合；分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据；生成多个虚拟数字数据，并对所述多个虚拟数字数据进行人工标记处理，从而得到多个样本数据；对预设的深度神经网络模型进行训练，以得到数字规律预测模型；得到所述数字规律预测模型对应输出的多个预测结果；构成一号数据集，构成二号数据集；分别进行哈希计算，从而得到多个哈希值，并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系；进行数据简并处理，以得到多个三元素数据组合；执行大数据存储操作，实现了数据简并的目的，从而减轻了大数据的存储压力，并且还提高了大数据的信息安全性（因为本申请的存储数据中，有部分是经过数据简并得到的，此部分数据的信息安全性更高）。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于数据简并的大数据转换方法，其特征在于，应用于大数据转化终端，包括：

S3、根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，并生成所述多个标准数据分别对应的代号；其中，标准数据指的是，与同一个数据子集中的其他成员之间的相似度值，均大于预设的相似度阈值的数据；

2.根据权利要求1所述的基于数据简并的大数据转换方法，其特征在于，所述根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合的步骤，包括：

，

3.根据权利要求2所述的基于数据简并的大数据转换方法，其特征在于，所述根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据的步骤，包括：

4.根据权利要求3所述的基于数据简并的大数据转换方法，其特征在于，所述判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值的步骤S301之后，包括：

，

5.根据权利要求1所述的基于数据简并的大数据转换方法，其特征在于，所述使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型的步骤S5，包括：

6.一种基于数据简并的大数据转换装置，其特征在于，应用于大数据转化终端，包括：

标准数据筛选单元，用于根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，并生成所述多个标准数据分别对应的代号；其中，标准数据指的是，与同一个数据子集中的其他成员之间的相似度值，均大于预设的相似度阈值的数据；

7.根据权利要求6所述的基于数据简并的大数据转换装置，其特征在于，所述根据预设的相似度计算方法，对每个数据子集中的全部成员进行相似度计算处理，以得到与所述多个数据子集分别对应的多个相似度集合，包括：

，

8.根据权利要求7所述的基于数据简并的大数据转换装置，其特征在于，所述根据所述多个相似度集合，从每个数据子集中分别筛选出一个标准数据，从而获取与所述多个数据子集一一对应的多个标准数据，包括：

9.根据权利要求8所述的基于数据简并的大数据转换装置，其特征在于，所述判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值之后，包括：

，

判断所述多个新的相似度值是否均大于预设的相似度阈值；

10.根据权利要求6所述的基于数据简并的大数据转换装置，其特征在于，所述使用所述多个样本数据对预设的深度神经网络模型进行训练，以得到数字规律预测模型，包括：