CN110704371A - 大规模数据管理与数据分发系统及方法 - Google Patents

大规模数据管理与数据分发系统及方法 Download PDF

Info

Publication number
CN110704371A
CN110704371A CN201910907174.9A CN201910907174A CN110704371A CN 110704371 A CN110704371 A CN 110704371A CN 201910907174 A CN201910907174 A CN 201910907174A CN 110704371 A CN110704371 A CN 110704371A
Authority
CN
China
Prior art keywords
data
subsystem
management
training
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910907174.9A
Other languages
English (en)
Inventor
戴晓玉
高磊
孙祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Healthcare Big Data Protection And Development Co Ltd
Original Assignee
Jiangsu Healthcare Big Data Protection And Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Healthcare Big Data Protection And Development Co Ltd filed Critical Jiangsu Healthcare Big Data Protection And Development Co Ltd
Priority to CN201910907174.9A priority Critical patent/CN110704371A/zh
Publication of CN110704371A publication Critical patent/CN110704371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明涉及数据分发技术领域,具体地说,涉及大规模数据管理与数据分发系统及方法。其包括数据采集子系统、数据处理子系统和数据分发子系统。该大规模数据管理与数据分发系统及方法中,采用数据采集子系统,在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,对源数据进行粉料,以便于后期数据的数据和分发,采用数据处理子系统,基于卷积神经网络算法实现数据信息的分类,并对数据进行统一管理,提高数据处理效率,解决数据中心内部系统和外部系统之间的数据接口问题,提高数据分发效率。

Description

大规模数据管理与数据分发系统及方法
技术领域
本发明涉及数据分发技术领域,具体地说,涉及大规模数据管理与数据分发系统及方法。
背景技术
随着大数据时代到来,传统数据分发需要采用多套部署支撑,存在孤岛现象,使得数据处理速度慢,效率低,尤其对于大规模数据处理情况下,数据分类耗时久。
发明内容
本发明的目的在于提供大规模数据管理与数据分发系统及方法,以解决上述背景技术中提出的某种或某些缺陷。
为实现上述目的,一方面,本发明提供大规模数据管理与数据分发系统,包括数据采集子系统、数据处理子系统和数据分发子系统,数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。
作为优选,数据采集子系统包括如下模块:
模块一:文件预处理,在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能;
模块二:数据稽核检验,在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理;
模块三:统一运维监控,提供数据源采集统一运维监控功能,支持重传、自动重做、人工重做的异常重做,实现采集层的统一运;
模块四:通过前台界面可视化,拖拽式实现采集的开发。
作为优选,数据处理子系统步骤如下:
①、输入数据,将数据采集子系统采集的数据传输至数据处理子系统内进行保存;
②、数据卷积处理,通过局部感受域与上一层神经元实现部分连接,在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联,迫使神经元提取局部特征;
③、数据池化处理,选择卷积特征图中不同的连续范围的作为池化区域,然后取特征的最大值或平均值作为池化区域的特征;
④、模型训练,采用Softmax分类器,对数据进行训练,并生成分类模型。
作为优选,Softmax分类器方法为:假设输入特征记为x(i),样本标签记为y(i),构成了分类层有监督学习的训练集S={(x(1),y(1)),……,(x(m),y(m))},假设函数hθ(x)和逻辑回归代价函数形式分别如下:
Figure BDA0002213611260000021
其中,θ1,θ2,……,θk是模型的可学习参数,
Figure BDA0002213611260000022
为归一化项;
Figure BDA0002213611260000023
其中,1{y(i)=j}为指标性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果就为0。
作为优选,模型训练基于卷积神经网络算法实现,训练步骤如下:
①、串行代码根据算法预设的网络结构和学习率、训练子集大小等参数来初始化待训练的DCNN;
②、通过创建CUDA-cuDNN句柄等来初始化运行时环境,将图像数据集以矩阵的形式读取到CPU内存中,分配所需显存空间和定义传输数据格式为四维张量,并将一批训练样本传送至GPU显存中;
③、由CUDA-cuDNN调用内核函数来运行GPU设备并行代码,内核函数具体调用形式如下:
KernelFunction<<<DimGrid,DimBlock>>>(dev_batch_data,dev_batch_result,trainOpts);
//DimGrid描述线程网栺的配置信息
//DimBlock描述线程网栺配置信息
//dev_batch_data是存放训练子集数据指针变量,dev_batch_result是用于保存训练子集在GPU上的计算结果变量;
④、实现DCNN的前向传递和反向传递两个并行运算过程;
⑤、串行代码从GPU显存中取回相应参数的梯度,并更新各层的权重和偏置;
⑥、将下一批训练样本传送至GPU显存中重复步骤③-④的过程,直至最后一个训练子集;
⑦、反复重复训练上述步骤②-⑤的过程若干次,以使算法收敛于最优值。
作为优选,数据分发子系统包括以下模块:
模块一:分发配置,用于分发配置信息;
模块二:运行监控,设置不同的组合条件来筛选所需要的数据;
模块三:分发任务运行调度,分发任务并进行调度。
另一方面,本发明还提供一种大规模数据管理与数据分发方法,包括上述任意一项所述的大规模数据管理与数据分发系统,其方法步骤如下:
S1、在接口机上配置云平台处理接口文件,通过数据采集子系统采集数据,并将对应接口数据传输至云平台的数据抽取目录;
S2、云平台对需要抽取的接口进行配置,配置内容包括接口名、文件名规律、接口文件个数等;
S3、数据传输完毕后,气动数据处理子系统对数据进行分类;
S4、数据分类完成后,启动数据分发子系统,基于配置将数据分发到各个数据集市。
与现有技术相比,本发明的有益效果:
1、该大规模数据管理与数据分发系统及方法中,采用数据采集子系统,在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,对源数据进行粉料,以便于后期数据的数据和分发。
2、该大规模数据管理与数据分发系统及方法中,采用数据处理子系统,基于卷积神经网络算法实现数据信息的分类,并对数据进行统一管理,提高数据处理效率。
3、该大规模数据管理与数据分发系统及方法中,采用数据分发子系统,解决数据中心内部系统和外部系统之间的数据接口问题,提高数据分发效率。
附图说明
图1为本发明的整体系统模块图;
图2为本发明的数据采集子系统流程图;
图3为本发明的数据处理子系统流程图;
图4为本发明的数据分发子系统流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4所示,本发明提供一种技术方案:
本发明提供大规模数据管理与数据分发系统,包括数据采集子系统、数据处理子系统和数据分发子系统,数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。
本实施例中,大规模数据管理与数据分发系统基于ETL模块,ETL模块设计规范主要应用于ETL编码的前期工作,主要工作为数据的抽取、转换、装载,正确界定所涉及到的数据范围和应当应用的转换逻辑。
具体的,数据采集子系统包括如下模块:
模块一:文件预处理,在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能;
其中,文件压缩采用哈夫曼树算法,首先必须知道期字符相应的哈夫曼编码。为了得到文件中字符的频率,一般的做法是扫描整个文本进行统计,编写程序统计文件中各个字符出现的频率。由于一个字符的范围在[0-255]之间,即共256个状态,所以可以直接用256个哈夫曼树节点即数组(后面有节点的定义)空间来存储整个文件的信息,节点中包括对应字符信息;
模块二:数据稽核检验,在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理;
模块三:统一运维监控,提供数据源采集统一运维监控功能,支持重传、自动重做、人工重做的异常重做,实现采集层的统一运;
模块四:通过前台界面可视化,拖拽式实现采集的开发。
再进一步的,数据处理子系统步骤如下:
①、输入数据,将数据采集子系统采集的数据传输至数据处理子系统内进行保存;
②、数据卷积处理,通过局部感受域与上一层神经元实现部分连接,在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联,迫使神经元提取局部特征;
③、数据池化处理,选择卷积特征图中不同的连续范围的作为池化区域,然后取特征的最大值或平均值作为池化区域的特征;
④、模型训练,采用Softmax分类器,对数据进行训练,并生成分类模型。
Softmax分类器方法为:假设输入特征记为x(i),样本标签记为y(i),构成了分类层有监督学习的训练集S={(x(1),y(1)),……,(x(m),y(m))},假设函数hθ(x)和逻辑回归代价函数形式分别如下:
Figure BDA0002213611260000051
其中,θ1,θ2,……,θk是模型的可学习参数,
Figure BDA0002213611260000061
为归一化项;
Figure BDA0002213611260000062
其中,1{y(i)=j}为指标性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果就为0。
模型训练基于卷积神经网络算法实现,训练步骤如下:
①、串行代码根据算法预设的网络结构和学习率、训练子集大小等参数来初始化待训练的DCNN;
②、通过创建CUDA-cuDNN句柄等来初始化运行时环境,将图像数据集以矩阵的形式读取到CPU内存中,分配所需显存空间和定义传输数据格式为四维张量,并将一批训练样本传送至GPU显存中;
③、由CUDA-cuDNN调用内核函数来运行GPU设备并行代码,内核函数具体调用形式如下:
KernelFunction<<<DimGrid,DimBlock>>>(dev_batch_data,dev_batch_result,trainOpts);
//DimGrid描述线程网栺的配置信息
//DimBlock描述线程网栺配置信息
//dev_batch_data是存放训练子集数据指针变量,dev_batch_result是用于保存训练子集在GPU上的计算结果变量;
④、实现DCNN的前向传递和反向传递两个并行运算过程;
⑤、串行代码从GPU显存中取回相应参数的梯度,并更新各层的权重和偏置;
⑥、将下一批训练样本传送至GPU显存中重复步骤③-④的过程,直至最后一个训练子集;
⑦、反复重复训练上述步骤②-⑤的过程若干次,以使算法收敛于最优值。
此外,模型训练还可以采用贝叶斯定理,其算法公式如下:
Figure BDA0002213611260000071
其中,P(A|B)是在B发生的情况下A|发生的可能性,P(A)是1的先验概率或边缘概率,之所以称为“先验”是因为它不考虑任何B方面的因素;P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率;P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
进一步的,数据分发子系统包括以下模块:
模块一:分发配置,用于分发配置信息,包括可视化的分发配置,如分发编号、分发名称、源类型、源脚本、目标类型、目标表名、周期、类型、增量全量;支持高级配置要素如文件分割符、目标源等。支持默认参数,也支持个性化的调整;
模块二:运行监控,设置不同的组合条件来筛选所需要的数据;分发运行的监控可以设置不同的组合条件来筛选所需要的数据,在模块中支持对临时分发的任务进行配置管理、日志清理、数据文件空间清理,以及及时性、波动情况监控等,同时加载拒绝记录数、关键维度字段,进行业务规则检查和稽核;
模块三:分发任务运行调度,分发任务并进行调度;支持自动调度、手工运行、事件触发、系统自动重做。
另一方面,本发明还提供一种大规模数据管理与数据分发方法,包括上述任意一项所述的大规模数据管理与数据分发系统,其方法步骤如下:
S1、在接口机上配置云平台处理接口文件,通过数据采集子系统采集数据,并将对应接口数据传输至云平台的数据抽取目录;
S2、云平台对需要抽取的接口进行配置,配置内容包括接口名、文件名规律、接口文件个数等;
S3、数据传输完毕后,气动数据处理子系统对数据进行分类;
S4、数据分类完成后,启动数据分发子系统,基于配置将数据分发到各个数据集市。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.大规模数据管理与数据分发系统,包括数据采集子系统、数据处理子系统和数据分发子系统,其特征在于:数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。
2.根据权利要求1所述的大规模数据管理与数据分发系统,其特征在于:数据采集子系统包括如下模块:
模块一:文件预处理,在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能;
模块二:数据稽核检验,在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理;
模块三:统一运维监控,提供数据源采集统一运维监控功能,支持重传、自动重做、人工重做的异常重做,实现采集层的统一运;
模块四:通过前台界面可视化,拖拽式实现采集的开发。
3.根据权利要求1所述的大规模数据管理与数据分发系统,其特征在于:数据处理子系统步骤如下:
①、输入数据,将数据采集子系统采集的数据传输至数据处理子系统内进行保存;
②、数据卷积处理,通过局部感受域与上一层神经元实现部分连接,在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联,迫使神经元提取局部特征;
③、数据池化处理,选择卷积特征图中不同的连续范围的作为池化区域,然后取特征的最大值或平均值作为池化区域的特征;
④、模型训练,采用Softmax分类器,对数据进行训练,并生成分类模型。
4.根据权利要求3所述的大规模数据管理与数据分发系统,其特征在于:Softmax分类器方法为:假设输入特征记为x(i),样本标签记为y(i),构成了分类层有监督学习的训练集s={(x(1),y(1)),……,(x(m),y(m))},假设函数hθ(X)和逻辑回归代价函数形式分别如下:
Figure FDA0002213611250000021
其中,θ1,θ2,……,θk是模型的可学习参数,
Figure FDA0002213611250000022
为归一化项;
Figure FDA0002213611250000023
其中,1{y(i)=j}为指标性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果就为0。
5.根据权利要求4所述的大规模数据管理与数据分发系统,其特征在于:模型训练基于卷积神经网络算法实现,训练步骤如下:
①、串行代码根据算法预设的网络结构和学习率、训练子集大小等参数来初始化待训练的DCNN;
②、通过创建CUDA-cuDNN句柄等来初始化运行时环境,将图像数据集以矩阵的形式读取到CPU内存中,分配所需显存空间和定义传输数据格式为四维张量,并将一批训练样本传送至GPU显存中;
③、由CUDA-cuDNN调用内核函数来运行GPU设备并行代码,内核函数具体调用形式如下:
KernelFunction<<<DimGrid,DimBlock>>>(dev_batch_data,dev_batch_result,trainOpts);
//DimGrid描述线程网栺的配置信息
//DimBlock描述线程网栺配置信息
//dev_batch_data是存放训练子集数据指针变量,dev_batch_result是用于保存训练子集在GPU上的计算结果变量;
④、实现DCNN的前向传递和反向传递两个并行运算过程;
⑤、串行代码从GPU显存中取回相应参数的梯度,并更新各层的权重和偏置;
⑥、将下一批训练样本传送至GPU显存中重复步骤③-④的过程,直至最后一个训练子集;
⑦、反复重复训练上述步骤②⑤的过程若干次,以使算法收敛于最优值。
6.根据权利要求1所述的大规模数据管理与数据分发系统,其特征在于:数据分发子系统包括以下模块:
模块一:分发配置,用于分发配置信息;
模块二:运行监控,设置不同的组合条件来筛选所需要的数据;
模块三:分发任务运行调度,分发任务并进行调度。
7.大规模数据管理与数据分发方法,包括权利要求1-6中任意一项所述的大规模数据管理与数据分发系统,其方法步骤如下:
S1、在接口机上配置云平台处理接口文件,通过数据采集子系统采集数据,并将对应接口数据传输至云平台的数据抽取目录;
S2、云平台对需要抽取的接口进行配置,配置内容包括接口名、文件名规律、接口文件个数等;
S3、数据传输完毕后,气动数据处理子系统对数据进行分类;
S4、数据分类完成后,启动数据分发子系统,基于配置将数据分发到各个数据集市。
CN201910907174.9A 2019-09-24 2019-09-24 大规模数据管理与数据分发系统及方法 Pending CN110704371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910907174.9A CN110704371A (zh) 2019-09-24 2019-09-24 大规模数据管理与数据分发系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910907174.9A CN110704371A (zh) 2019-09-24 2019-09-24 大规模数据管理与数据分发系统及方法

Publications (1)

Publication Number Publication Date
CN110704371A true CN110704371A (zh) 2020-01-17

Family

ID=69195828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910907174.9A Pending CN110704371A (zh) 2019-09-24 2019-09-24 大规模数据管理与数据分发系统及方法

Country Status (1)

Country Link
CN (1) CN110704371A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035419A (zh) * 2020-08-12 2020-12-04 湖北世纪创新科技有限公司 一种新型数据中心可视化算法
CN112104684A (zh) * 2020-02-12 2020-12-18 云池网络科技(上海)有限公司 一种基于物联网的平台管理系统
CN112905639A (zh) * 2020-12-21 2021-06-04 国网甘肃省电力公司电力科学研究院 一种基于规则的新能源数据分发方法
CN113778959A (zh) * 2020-11-23 2021-12-10 北京京东振世信息技术有限公司 数据处理的方法、装置、设备和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779459A (zh) * 2016-12-29 2017-05-31 宁波金网信息产业股份有限公司 一种市政数据管理分析系统
CN108599992A (zh) * 2018-03-21 2018-09-28 四川斐讯信息技术有限公司 一种数据处理系统及方法
CN109040203A (zh) * 2018-07-16 2018-12-18 肥西县合慧科技服务有限责任公司 一种基于大数据的信息采集系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779459A (zh) * 2016-12-29 2017-05-31 宁波金网信息产业股份有限公司 一种市政数据管理分析系统
CN108599992A (zh) * 2018-03-21 2018-09-28 四川斐讯信息技术有限公司 一种数据处理系统及方法
CN109040203A (zh) * 2018-07-16 2018-12-18 肥西县合慧科技服务有限责任公司 一种基于大数据的信息采集系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王华利: "基于深度卷积神经网络的快速图像分类算法", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112104684A (zh) * 2020-02-12 2020-12-18 云池网络科技(上海)有限公司 一种基于物联网的平台管理系统
CN112035419A (zh) * 2020-08-12 2020-12-04 湖北世纪创新科技有限公司 一种新型数据中心可视化算法
CN113778959A (zh) * 2020-11-23 2021-12-10 北京京东振世信息技术有限公司 数据处理的方法、装置、设备和计算机可读介质
CN113778959B (zh) * 2020-11-23 2023-09-05 北京京东振世信息技术有限公司 数据处理的方法、装置、设备和计算机可读介质
CN112905639A (zh) * 2020-12-21 2021-06-04 国网甘肃省电力公司电力科学研究院 一种基于规则的新能源数据分发方法

Similar Documents

Publication Publication Date Title
CN110704371A (zh) 大规模数据管理与数据分发系统及方法
DE102018202497A1 (de) Technologien für optimiertes Maschinenlerntraining
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及系统
US20140229482A1 (en) Grouping interdependent fields
CN111435463A (zh) 数据处理方法及相关设备、系统
CN110806954A (zh) 评估云主机资源的方法、装置、设备及存储介质
CN107609085A (zh) 一种基于大数据技术的智能电网量测数据处理方法及系统
CN111752708A (zh) 一种基于深度学习的存储系统自适应参数调优方法
CN111652280A (zh) 基于行为的目标物数据分析方法、装置及存储介质
CN113420009B (zh) 一种基于大数据的电磁数据分析装置、系统及方法
CN114066073A (zh) 电网负荷预测方法
CN113505993A (zh) 分拨中心管理方法、装置、设备及存储介质
CN108073582B (zh) 一种计算框架选择方法和装置
CN110895506A (zh) 测试数据的构造方法和构造系统
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN112182031B (zh) 数据查询方法及装置、存储介质、电子装置
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN115952236A (zh) 一种基于实时流计算的停电数据分析处理方法及装置
CN113505879B (zh) 一种基于多注意力特征记忆模型的预测方法和装置
CN112035419A (zh) 一种新型数据中心可视化算法
CN104077398B (zh) 基于Hadoop多丛集环境的工作分派系统及方法
DE102017203239A1 (de) Verfahren und Speichersystem zum Speichern von einer Vielzahl von Dateneinheiten
CN114638276A (zh) 物流网点分类方法、装置、计算机设备和存储介质
Du et al. OctopusKing: A TCT-aware task scheduling on spark platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication