CN110647555A

CN110647555A - 大数据匹配的校验方法及实现装置

Info

Publication number: CN110647555A
Application number: CN201910781702.0A
Authority: CN
Inventors: 莘河
Original assignee: Hangzhou Yicheng Network Technology Co Ltd
Current assignee: Hangzhou Yicheng Network Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-01-03

Abstract

本发明属于大数据技术领域，具体涉及大数据匹配的校验方法及实现装置。所述方法执行以下步骤：步骤S1：进行数据特征提取，输出提取到的数据特征；步骤S2：根据提取到的数据特征，进行数据匹配校验，得到数据校验的结果。首先进行数据的特征提取，再对特征提取后的数据进行数据校验，提升了数据校验的效率，同时也提升了数据校验的准确性。

Description

大数据匹配的校验方法及实现装置

技术领域

本发明属于大数据技术领域，具体涉及大数据匹配的校验方法及实现装置。

背景技术

随着云时代的来临，越来越多的平台在社交网络、电子商务、访问记录等来源中产生大数据，即量非常大的数据，例如，一天产生100T到100P之间，甚至更大的数据量，而生产这些数据的机器总数在1万到100万台之间，甚至更多。云下的很多业务产生的数据，如网站产生的pv(浏览量)日志，一般需要进行实时存储，检验数据的完整性，保证数据挖掘等处理的准确性。但对大数据进行匹配和校验时，由于数据量极大，往往导致数据校验和匹配的耗时非常长，处理效率很低。

因此，如何快速处理大数据，并提取出有效信息已经成为IT行业前沿性的研究热点。“大数据”是指一个体量特别大，数据类别多且要求处理速度足够快的数据集，并且这样的数据集无法用传统数据库工具对其内容进行提取和管理。根据对现有专利资料的检索，目前对大数据的处理方法主要有：提高CPU核数量、建立分布式集群系统和优化并行算法等方面。但由于这些方法都仅局限于依赖CPU的运算处理能力，加之CPU核的数量有限、建立分布式集群系统成本较高等因素的制约，对大数据的处理方法和能力仍有待于进一步创新和提高。当前，特征提取技术在图像处理、模式识别和网络入侵检测等方面的运用越来越广泛，尤其在大数据环境下特征提取的效率已经成为制约快速处理数据能力的瓶颈。

为此，申请号为CN201310487250.8公开的面向大数据的特征提取并行处理方法，该方法基于CUDA架构利用GPU并行计算能力对大数据进行处理。在处理大数据时，通过采用可并行化的矩阵数组处理方法，对数据进行多线程并发执行处理，从而大大加快特征提取的速度。所采用的可并行化的矩阵数组处理方法是将任务数据与特征数据的每位特征字符依次进行并行匹配，形成一个“01”矩阵，然后根据特征数据的长度，对此“01”矩阵进行并行处理，从而得到正确匹配的结果。该方法利用矩阵数组的特点，具有很好的并行性，能够有效、充分地将数据处理并行化，特别适用于大数据的快速特征提取。

但是上述方案仍然具有一定的缺陷，无法对重复的数据进行去重，使得数据量过大，给后期提取数据带来很大的困难，具有一定的局限性。且，仅仅是对数据的特征提取后进行处理，但如何与数据校验的方法自洽也是一片空白。

发明内容

有鉴于此，本发明的主要目的在于提供大数据匹配的校验方法及实现装置，首先进行数据的特征提取，再对特征提取后的数据进行数据校验，提升了数据校验的效率，同时也提升了数据校验的准确性。

为达到上述目的，本发明的技术方案是这样实现的：

大数据匹配的校验方法，所述方法执行以下步骤：

步骤S1：进行数据特征提取，输出提取到的数据特征；

步骤S2：根据提取到的数据特征，进行数据匹配校验，得到数据校验的结果。

进一步的，所述步骤S1中，进行数据特征提取的方法执行以下步骤：

步骤S1.1：获取数据后，根据预设的配置信息将数据切分并封装成子数据包；将所述子数据包进行下发；

步骤S1.2：预设若干个集群分析节点，接收所述子数据包；集群分析节点接收到子数据包后，对每个子数据包进行数据变形重组及数据预处理，获得标准化输入数据；

步骤S1.3：将标准化输入数据作为卷积神经网络卷积层的输入，通过n个可训练的滤波器和可加偏置对标准化输入数据进行卷积，获得n个不同的特征映射图，n为正整数；每个特征映射图中的每一个神经元与标准化输入数据的一个局部感受野相连，用于提取相应的局部特征，每个特征映射图中的所有神经元获得的相应的局部特征综合后获得一个全局信息，将该全局信息作为一个特征映射图中的数据特征；

步骤S1.4：将每个特征映射图中每组m×m个像素进行求和；结合加权值，加偏置，通过阈值函数得到n个子采样层；m为正整数；

步骤S1.5：将卷积神经网络的每一个卷积层与每一个特征映射图中每个对应的子采样层叠加，获得叠加层，再通过一个全连接层与每一个特征映射图中所有叠加层相连，计算获得全连接层的一个单元中n个子采样层与卷积神经网络权重向量之间的点积，将点积加上一个偏置后，再传递给阈值函数，获得一个单元的标准化输入数据状态响应，全连接层的所有单元个数为最终获得的标准化输入数据状态响应个数，将所有标准化输入数据状态响应作为标准化输入数据的提取特征，实现数据的特征提取。

进一步的，所述步骤S2中，根据提取到的数据特征，进行数据匹配校验的方法执行以下步骤：

步骤S2.1：根据获取的数据的特征，获取校验进程镜像文件，获取校验结果上传进程镜像文件和校验参数配置文件；

步骤S2.2：采用所述数据校验进程镜像文件启动数据校验进程；

步骤S2.3：由所述数据校验进程调用所述校验参数配置文件，对所述数据的特征进行校验，获得校验结果。

进一步的，所述获取数据的特征，获取数据校验进程镜像文件，获取校验结果上传进程镜像文件和校验参数配置文件的步骤包括：

在接收到校验请求时，检测到是否提取有数据的特征；如果是，则监测是否存储有数据校验进程镜像文件和校验结果上传进程镜像文件；若是，则直接提取数据校验进程镜像文件和校验结果上传进程镜像文件；若否，则从所述操作维护中心平台下载数据校验进程镜像文件和校验结果上传进程镜像文件；从所述操作维护中心平台下载校验参数配置文件。

进一步的，所述将所有标准化输入数据状态响应作为标准化输入数据的提取特征的方法执行以下步骤：将数据按照从左到右，从上到下的顺序，抽取每一个数据的数据向量，每一个数据向量作为一个行向量，将所有行向量按照顺序依次向下排列，形成二维矩阵输入数据，该二维矩阵输入数据的行数是数据的个数，列数是每个数据向量包含的元素的个数。

进一步的，所述所述数据预处理具体为：对输入数据进行标准化线性处理，使其结果值映射到[0-1]之间，从而使其各项指标处于同一数量级，获得标准化输入数据。

大数据匹配的校验装置，所述装置包括：

数据特征提取单元，用于进行数据特征提取，输出提取到的数据特征；

数据校验单元，用于根据提取到的数据特征，进行数据匹配校验，得到数据校验的结果。

进一步的，所述数据特征提取单元包括：

数据切分单元，用于获取数据后，根据预设的配置信息将数据切分并封装成子数据包；将所述子数据包进行下发；

数据预处理单元，用于在单元内预设若干个集群分析节点，接收所述子数据包；集群分析节点接收到子数据包后，对每个子数据包进行数据变形重组及数据预处理，获得标准化输入数据；

数据卷积单元，用于将标准化输入数据作为卷积神经网络卷积层的输入，通过n个可训练的滤波器和可加偏置对标准化输入数据进行卷积，获得n个不同的特征映射图，n为正整数；每个特征映射图中的每一个神经元与标准化输入数据的一个局部感受野相连，用于提取相应的局部特征，每个特征映射图中的所有神经元获得的相应的局部特征综合后获得一个全局信息，将该全局信息作为一个特征映射图中的数据特征；

阈值处理单元，用于将每个特征映射图中每组m×m个像素进行求和；结合加权值，加偏置，通过阈值函数得到n个子采样层；m为正整数；

特征提取单元，用于将卷积神经网络的每一个卷积层与每一个特征映射图中每个对应的子采样层叠加，获得叠加层，再通过一个全连接层与每一个特征映射图中所有叠加层相连，计算获得全连接层的一个单元中n个子采样层与卷积神经网络权重向量之间的点积，将点积加上一个偏置后，再传递给阈值函数，获得一个单元的标准化输入数据状态响应，全连接层的所有单元个数为最终获得的标准化输入数据状态响应个数，将所有标准化输入数据状态响应作为标准化输入数据的提取特征，实现数据的特征提取。

进一步的，所述数据校验单元包括：

配置文件获取单元，用于根据获取的数据的特征，获取校验进程镜像文件，获取校验结果上传进程镜像文件和校验参数配置文件；

校验进程启动单元，用于采用所述数据校验进程镜像文件启动数据校验进程；

数据校验单元，用于由所述数据校验进程调用所述校验参数配置文件，对所述数据的特征进行校验，获得校验结果。

本发明的大数据匹配的校验方法及实现装置，具有如下有益效果：通过对数据的特征提取，有效减少了数据的冗余，再对数据进行匹配校验，可以极大提升匹配校验的效率。同时，因为数据特征的独特性，保证了不同数据的特征的不同，进而保证数据匹配校验的准确性。

附图说明

图1为本发明的实施例提供的大数据匹配的校验方法的方法流程示意图；

图2为本发明的实施例提供的大数据匹配的校验装置的装置结构示意图；

图3位本发明的实施例提供的大数据匹配的校验方法的数据量和数据校验效率的实验效果示意图。

其中，1-本发明的校验方法随数据量变化的校验效率的实验曲线；2-常规方法的校验方法随数据量变化的校验效率的实验曲线。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

大数据匹配的校验方法，所述方法执行以下步骤：

步骤S1：进行数据特征提取，输出提取到的数据特征；

实施例2

在上一实施例的基础上，所述步骤S1中，进行数据特征提取的方法执行以下步骤：

具体的，常用的神经网络结构一般有如下几种，前向反馈网络和感知器是直线向前的，信息从前向后(分别是输入和输出)传播。神经网络通常被描述成多层，其中每一层都由输入、隐藏层、输出单元构成。一层单一网络内部绝对不会有任何连接而通常在相邻的层之间，神经元是完全相连的(每层的每个神经元都与另外一层的每个神经元相连接)。最简单某种程度上也是最实用的网络由两个输入单元和一个输出单元，这种网络可以被用作逻辑门模型。通常FFNNs是通过向后传播训练的，给网络成组的数据集包括“输入”和“预想的输出”。这种方式称为有监督学习，与无监督学习相反。误差被向后传播，而误差可以通过MSE或者线性误差来度量。假设网络由足够多的隐藏神经元，它理论上来说总是可以模拟输入和输出之间的关系的。实际上这种网络本身用途很首先，但是它们通常和别的网络合并来生成其他类型的网络。

霍普菲尔网络的每个神经元都与其他神经元相连接；它是一碗完全纠缠在一起的意大利面。每个节点在训练前都是输入点，然后训练中都是隐藏节点，训练结束后又是输出节点。这些网络会设定神经元的值为所需要的模式，然后计算全职，通过这种方法来训练模型。在这之后权重不会再改变。一旦训练成或多种模式，网络会一直收敛到学习好的模式，因为网络只有在这些状态下才是稳定的。注意到它不会一直符合所要的状态。它能够部分稳定是因为全局的“能量”或“温度”在训练中是逐步减少的。

卷积神经网络和大多数其他类型的网络都很不相同。他们最初用来做图像处理，后来也用在其他类型的输入数据比如音频。一个典型的CNN应用是，当你给网络输入图像，网络会对数据进行分类，例如如果你输入的是猫的照片，它会给出标签“猫”。CNN通常以一个输入“扫描仪”开始，而它并不会在理科解析所有的训练数据。举例来说，输入一个200*200像素的图像，你肯定不想要有40000节点的一层。相反，你建立一个扫描输入层比如20*20，把大图像左上角的20*20像素进行扫描。一旦前20*20经过处理，逐像素向右移动这个扫描器来扫描所有的剩余图像。注意到，我们并没有把处理过的20*20像素挪开，也没有把图像分成20*20的小块，而是使用这个20*20的扫描器对所有像素进行扫描。输入数据然后进行卷积层而不是普通曾，意味着不是所有的节点都和其他节点相连接。每个节点都只和她最近的节点相连(远近取决于具体的实现，但通常不会很多)。这些卷积层也倾向于变小当它们越老越深的时候，通常是输入大小最容易整除的因子(如20可能变成10，然后5)。2的幂在这里会经常被使用，因为它们能够很完全的分离：32,16,8,4,2,1。除了这些卷积层，通常还有特征池化层。池化是滤出细节部分的方法：最常用的池化技术是极大值池化，比如我们对2*2的像素，返回其R值最大的像素。对音频使用CNN，我们只需要输入音频波，然后一点一点增加长度。实际中对CNN的使用通常在末端增加一个FFNN用来深入处理数据，通常要能处理高度非线性抽象分类问题。CNNFFNN这种网络通常称为DCNN，但是DCNN和CNN的名称和缩写通常可以互相代替。

实施例3

在上一实施例的基础上，所述步骤S2中，根据提取到的数据特征，进行数据匹配校验的方法执行以下步骤：

实施例4

在上一实施例的基础上，所述获取数据的特征，获取数据校验进程镜像文件，获取校验结果上传进程镜像文件和校验参数配置文件的步骤包括：

实施例5

在上一实施例的基础上，所述将所有标准化输入数据状态响应作为标准化输入数据的提取特征的方法执行以下步骤：将数据按照从左到右，从上到下的顺序，抽取每一个数据的数据向量，每一个数据向量作为一个行向量，将所有行向量按照顺序依次向下排列，形成二维矩阵输入数据，该二维矩阵输入数据的行数是数据的个数，列数是每个数据向量包含的元素的个数。

实施例6

在上一实施例的基础上，所述所述数据预处理具体为：对输入数据进行标准化线性处理，使其结果值映射到[0-1]之间，从而使其各项指标处于同一数量级，获得标准化输入数据。

实施例7

大数据匹配的校验装置，所述装置包括：

实施例8

在上一实施例的基础上，所述数据特征提取单元包括：

具体的，卷积层与子采样层叠加。具体步骤包括：

1.利用不同的滤波器通过局部感受野对数据进行卷积。首先将上一步得到的高光谱光谱维数据构成的二维矩阵作为卷积层的输入，通过n个可训练的滤波器和可加偏置进行卷积，每个滤波器的参数不相同，将得到n个不同的特征映射图。每一个特征映射图中的神经元与输入数据的局部感受野相连，并提取出该局部的特征，将这些感受不同局部的神经元综合起来就可以得到全局信息，即输入数据的一个特征。由于一个映射面上的神经元共享权值，即同一个特征映射面上所有神经元共用同一个卷积核，因而减少了网络自由参数的个数，降低了网络参数选择的复杂度。

2.对卷积结果进行子采样。一旦局部特征被提取后，它的确切位置变得不再重要，只关心它与其他特征间的位置关系。但确切的位置会对特征的不变性造成干扰，可以通过减小特征映射图的空间分辨率来降低位置的精确程度，同时，适当的增加提取特征的个数可以作为降低分辨率的补偿。在上一步卷积层中产生n个特征映射图的基础上，对每个特征映射图中每组m×m个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到n个子采样层的特征映射图。每一个连续的神经元的接受域是不重叠的，因此，子采样层的特征映射图的行和列分别缩减m倍。

3.卷积层与子采样层叠加。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的子采样层，这种特有的两次特征提取结构使网络对输入样本有较高的畸变容忍能力。对于高光谱遥感数据，建议使用3～5层卷积层和子采样层。最后，设计一个全连接层与上一层相连，计算输入向量和权重向量之间的点积，再加上一个偏置。然后将其传递给sigmoid函数得到一个单元的状态响应。全连接层单元个数即为最终对高光谱数据提取的特征个数。

实施例9

在上一实施例的基础上，所述数据校验单元包括：

以上所述仅为本发明的一个实施例子，但不能以此限制本发明的范围，凡依据本发明所做的结构上的变化，只要不失本发明的要义所在，都应视为落入本发明保护范围之内受到制约。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.大数据匹配的校验方法，其特征在于，所述方法执行以下步骤：

步骤S1：进行数据特征提取，输出提取到的数据特征；

2.如权利要求1所述的方法，其特征在于，所述步骤S1中，进行数据特征提取的方法执行以下步骤：

3.如权利要求2所述的方法，其特征在于，所述步骤S2中，根据提取到的数据特征，进行数据匹配校验的方法执行以下步骤：

4.如权利要求3所述的方法，其特征在于，所述获取数据的特征，获取数据校验进程镜像文件，获取校验结果上传进程镜像文件和校验参数配置文件的步骤包括：

5.如权利要求4所述的方法，其特征在于，所述将所有标准化输入数据状态响应作为标准化输入数据的提取特征的方法执行以下步骤：将数据按照从左到右，从上到下的顺序，抽取每一个数据的数据向量，每一个数据向量作为一个行向量，将所有行向量按照顺序依次向下排列，形成二维矩阵输入数据，该二维矩阵输入数据的行数是数据的个数，列数是每个数据向量包含的元素的个数。

6.如权利要求5所述的方法，其特征在于，所述所述数据预处理具体为：对输入数据进行标准化线性处理，使其结果值映射到[0-1]之间，从而使其各项指标处于同一数量级，获得标准化输入数据。

7.基于权利要求1至6之一所述方法的大数据匹配的校验装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述数据特征提取单元包括：

9.如权利要求8所述的装置，其特征在于，所述数据校验单元包括：