CN110704371A

CN110704371A - 大规模数据管理与数据分发系统及方法

Info

Publication number: CN110704371A
Application number: CN201910907174.9A
Authority: CN
Inventors: 戴晓玉; 高磊; 孙祥
Original assignee: Jiangsu Healthcare Big Data Protection And Development Co Ltd
Current assignee: Jiangsu Healthcare Big Data Protection And Development Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-17

Abstract

本发明涉及数据分发技术领域，具体地说，涉及大规模数据管理与数据分发系统及方法。其包括数据采集子系统、数据处理子系统和数据分发子系统。该大规模数据管理与数据分发系统及方法中，采用数据采集子系统，在数据接入时记录所有采集数据源及分类的信息，提供统一采集工具进行开发配置管理，对源数据进行粉料，以便于后期数据的数据和分发，采用数据处理子系统，基于卷积神经网络算法实现数据信息的分类，并对数据进行统一管理，提高数据处理效率，解决数据中心内部系统和外部系统之间的数据接口问题，提高数据分发效率。

Description

大规模数据管理与数据分发系统及方法

技术领域

本发明涉及数据分发技术领域，具体地说，涉及大规模数据管理与数据分发系统及方法。

背景技术

随着大数据时代到来，传统数据分发需要采用多套部署支撑，存在孤岛现象，使得数据处理速度慢，效率低，尤其对于大规模数据处理情况下，数据分类耗时久。

发明内容

本发明的目的在于提供大规模数据管理与数据分发系统及方法，以解决上述背景技术中提出的某种或某些缺陷。

为实现上述目的，一方面，本发明提供大规模数据管理与数据分发系统，包括数据采集子系统、数据处理子系统和数据分发子系统，数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息，提供统一采集工具进行开发配置管理，数据处理子系统用于对收集的数据进行分类训练并处理，数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。

作为优选，数据采集子系统包括如下模块：

模块一：文件预处理，在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能；

模块二：数据稽核检验，在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理；

模块三：统一运维监控，提供数据源采集统一运维监控功能，支持重传、自动重做、人工重做的异常重做，实现采集层的统一运；

模块四：通过前台界面可视化，拖拽式实现采集的开发。

作为优选，数据处理子系统步骤如下：

①、输入数据，将数据采集子系统采集的数据传输至数据处理子系统内进行保存；

②、数据卷积处理，通过局部感受域与上一层神经元实现部分连接，在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联，迫使神经元提取局部特征；

③、数据池化处理，选择卷积特征图中不同的连续范围的作为池化区域，然后取特征的最大值或平均值作为池化区域的特征；

④、模型训练，采用Softmax分类器，对数据进行训练，并生成分类模型。

作为优选，Softmax分类器方法为：假设输入特征记为x⁽ⁱ⁾，样本标签记为y⁽ⁱ⁾，构成了分类层有监督学习的训练集S＝{(x⁽¹⁾，y⁽¹⁾)，……，(x^(m)，y^(m))}，假设函数h_θ(x)和逻辑回归代价函数形式分别如下：

其中，θ₁，θ₂，……，θ_k是模型的可学习参数，

为归一化项；

其中，1{y⁽ⁱ⁾＝j}为指标性函数，即当大括号中的值为真时，该函数的结果就为1，否则其结果就为0。

作为优选，模型训练基于卷积神经网络算法实现，训练步骤如下：

①、串行代码根据算法预设的网络结构和学习率、训练子集大小等参数来初始化待训练的DCNN；

②、通过创建CUDA-cuDNN句柄等来初始化运行时环境，将图像数据集以矩阵的形式读取到CPU内存中，分配所需显存空间和定义传输数据格式为四维张量，并将一批训练样本传送至GPU显存中；

③、由CUDA-cuDNN调用内核函数来运行GPU设备并行代码，内核函数具体调用形式如下：

KernelFunction<<<DimGrid，DimBlock>>>(dev_batch_data，dev_batch_result，trainOpts)；

//DimGrid描述线程网栺的配置信息

//DimBlock描述线程网栺配置信息

//dev_batch_data是存放训练子集数据指针变量，dev_batch_result是用于保存训练子集在GPU上的计算结果变量；

④、实现DCNN的前向传递和反向传递两个并行运算过程；

⑤、串行代码从GPU显存中取回相应参数的梯度，并更新各层的权重和偏置；

⑥、将下一批训练样本传送至GPU显存中重复步骤③-④的过程，直至最后一个训练子集；

⑦、反复重复训练上述步骤②-⑤的过程若干次，以使算法收敛于最优值。

作为优选，数据分发子系统包括以下模块：

模块一：分发配置，用于分发配置信息；

模块二：运行监控，设置不同的组合条件来筛选所需要的数据；

模块三：分发任务运行调度，分发任务并进行调度。

另一方面，本发明还提供一种大规模数据管理与数据分发方法，包括上述任意一项所述的大规模数据管理与数据分发系统，其方法步骤如下：

S1、在接口机上配置云平台处理接口文件，通过数据采集子系统采集数据，并将对应接口数据传输至云平台的数据抽取目录；

S2、云平台对需要抽取的接口进行配置，配置内容包括接口名、文件名规律、接口文件个数等；

S3、数据传输完毕后，气动数据处理子系统对数据进行分类；

S4、数据分类完成后，启动数据分发子系统，基于配置将数据分发到各个数据集市。

与现有技术相比，本发明的有益效果：

1、该大规模数据管理与数据分发系统及方法中，采用数据采集子系统，在数据接入时记录所有采集数据源及分类的信息，提供统一采集工具进行开发配置管理，对源数据进行粉料，以便于后期数据的数据和分发。

2、该大规模数据管理与数据分发系统及方法中，采用数据处理子系统，基于卷积神经网络算法实现数据信息的分类，并对数据进行统一管理，提高数据处理效率。

3、该大规模数据管理与数据分发系统及方法中，采用数据分发子系统，解决数据中心内部系统和外部系统之间的数据接口问题，提高数据分发效率。

附图说明

图1为本发明的整体系统模块图；

图2为本发明的数据采集子系统流程图；

图3为本发明的数据处理子系统流程图；

图4为本发明的数据分发子系统流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图4所示，本发明提供一种技术方案：

本发明提供大规模数据管理与数据分发系统，包括数据采集子系统、数据处理子系统和数据分发子系统，数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息，提供统一采集工具进行开发配置管理，数据处理子系统用于对收集的数据进行分类训练并处理，数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。

本实施例中，大规模数据管理与数据分发系统基于ETL模块，ETL模块设计规范主要应用于ETL编码的前期工作，主要工作为数据的抽取、转换、装载，正确界定所涉及到的数据范围和应当应用的转换逻辑。

具体的，数据采集子系统包括如下模块：

其中，文件压缩采用哈夫曼树算法，首先必须知道期字符相应的哈夫曼编码。为了得到文件中字符的频率，一般的做法是扫描整个文本进行统计，编写程序统计文件中各个字符出现的频率。由于一个字符的范围在[0-255]之间，即共256个状态，所以可以直接用256个哈夫曼树节点即数组(后面有节点的定义)空间来存储整个文件的信息，节点中包括对应字符信息；

模块四：通过前台界面可视化，拖拽式实现采集的开发。

再进一步的，数据处理子系统步骤如下：

Softmax分类器方法为：假设输入特征记为x⁽ⁱ⁾，样本标签记为y⁽ⁱ⁾，构成了分类层有监督学习的训练集S＝{(x⁽¹⁾，y⁽¹⁾)，……，(x^(m)，y^(m))}，假设函数h_θ(x)和逻辑回归代价函数形式分别如下：

其中，θ₁，θ₂，……，θ_k是模型的可学习参数，

为归一化项；

模型训练基于卷积神经网络算法实现，训练步骤如下：

//DimGrid描述线程网栺的配置信息

//DimBlock描述线程网栺配置信息

④、实现DCNN的前向传递和反向传递两个并行运算过程；

此外，模型训练还可以采用贝叶斯定理，其算法公式如下：

其中，P(A|B)是在B发生的情况下A|发生的可能性，P(A)是1的先验概率或边缘概率，之所以称为“先验”是因为它不考虑任何B方面的因素；P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率；P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。

进一步的，数据分发子系统包括以下模块：

模块一：分发配置，用于分发配置信息，包括可视化的分发配置，如分发编号、分发名称、源类型、源脚本、目标类型、目标表名、周期、类型、增量全量；支持高级配置要素如文件分割符、目标源等。支持默认参数，也支持个性化的调整；

模块二：运行监控，设置不同的组合条件来筛选所需要的数据；分发运行的监控可以设置不同的组合条件来筛选所需要的数据，在模块中支持对临时分发的任务进行配置管理、日志清理、数据文件空间清理，以及及时性、波动情况监控等，同时加载拒绝记录数、关键维度字段，进行业务规则检查和稽核；

模块三：分发任务运行调度，分发任务并进行调度；支持自动调度、手工运行、事件触发、系统自动重做。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.大规模数据管理与数据分发系统，包括数据采集子系统、数据处理子系统和数据分发子系统，其特征在于：数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息，提供统一采集工具进行开发配置管理，数据处理子系统用于对收集的数据进行分类训练并处理，数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。

2.根据权利要求1所述的大规模数据管理与数据分发系统，其特征在于：数据采集子系统包括如下模块：

模块四：通过前台界面可视化，拖拽式实现采集的开发。

3.根据权利要求1所述的大规模数据管理与数据分发系统，其特征在于：数据处理子系统步骤如下：