CN110780978B

CN110780978B - 一种数据处理方法、系统、设备和介质

Info

Publication number: CN110780978B
Application number: CN201911027947.0A
Authority: CN
Inventors: 黄友俊; 李星; 吴建平; 李腾; 刘知刚
Original assignee: CERNET Corp
Current assignee: CERNET Corp
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-06-24
Anticipated expiration: 2039-10-25
Also published as: CN110780978A

Abstract

本发明提供了一种数据处理方法、系统、设备和介质，所述方法包括：承载平台获取源数据，并对所述源数据根据预设规则进行分类以及网络切片后，分别存储至多个数据库；承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机；所述容器或所述虚拟机从所述数据库中获取待处理数据，通过TensorFlow对所述待处理数据进行处理。本发明对源数据规整、分类、切片，实现众包开发，数据处理并行计算，以提高总体效能，实现实时交付结果。

Description

一种数据处理方法、系统、设备和介质

技术领域

本发明涉及一种数据处理方法、系统、设备和介质。

背景技术

随着互联网发展日益成熟，数据量日益庞大，对于大量数据在短时间内实时完成处理的需求量不断增高。目前，可以采用TensorFlow来对复杂数据进行处理。TensorFlow是一个采用数据流图(data flow graphs)，用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作，图中的线(edges)则表示在节点间相互联系的多维数据数组，即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算，例如台式计算机中的一个或多个CPU(或GPU)，服务器，移动设备等等。并且TensorFlow在图形分类、音频处理、推荐系统和自然语言处理等场景下有着丰富的应用，可以实现机器学习框架。

但如何在TensorFlow数据处理的基础上，对源数据数据量维度过多、复杂度高的情况下进行数据处理，还支持对不同类型的数据处理，以实现后期多种实习基地建设，各态势分析课题的进行。

发明内容

(一)要解决的技术问题

如何在TensorFlow数据处理的基础上，对源数据数据量维度过多、复杂度高的情况下进行数据处理，还支持对不同类型的数据处理，以实现后期多种实习基地建设，各态势分析课题的进行。

(二)技术方案

本发明一方面提供了一种数据处理方法，所述方法包括：承载平台获取源数据，并对所述源数据根据预设规则进行分类以及网络切片后，分别存储至多个数据库；承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机；所述容器或所述虚拟机从所述数据库中获取待处理数据，通过TensorFlow对所述待处理数据进行处理。

可选地，所述根据预设规则进行分类包括：根据所述源数据的不同数据类型进行分类。

可选地，所述承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机，包括：对所述TensorFlow数据处理容器和所述TensorFlow数据处理虚拟机设置访问权限。

可选地，所述TensorFlow数据处理容器通过Kubernetes进行创建。

可选地，所述通过TensorFlow对所述待处理数据进行处理，包括：通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理；获取能执行各节点的处理任务的所有设备，计算每个节点所对应的多个设备的数据处理时间以及数据传递时间，为所述各节点选择并分配相应的设备，使总的数据处理时间以及总的数据传递时间为最小值。

可选地，所述通过TensorFlow对所述待处理数据进行处理，包括：将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分，通过TensorFlow中各节点对拆分后的所述待处理数据进行并行处理。

可选地，所述通过TensorFlow对所述待处理数据进行处理，还包括：将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分后，计算TensorFlow中执行同一TensorFlow执行逻辑的各节点处理数据的数据量，并求和得到总的数据量；当所述总的数据量小于预设值时，则取消所述拆分，通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理。

本发明另一方面提供了一种数据处理系统，所述系统包括：存储模块，用于承载平台获取源数据，并对所述源数据根据预设规则进行分类以及网络切片后，分别存储至多个数据库；创建模块，用于承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机；处理模块，用于所述容器或所述虚拟机从所述数据库中获取待处理数据，通过TensorFlow对所述待处理数据进行处理。

本发明又一方面提供了一种电子设备，所述设备包括：处理器；存储器，其存储有计算机可执行程序，该程序包含如上文所述的方法。

本发明再一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序包含如上文所述的方法。

(三)有益效果

对源数据规整、分类、切片，实现众包开发，数据处理并行计算，以提高总体效能，实现实时交付结果；

在TensorFlow数据处理的基础上，对源数据数据量维度过多、复杂度高的情况下进行数据处理，还支持对不同类型的数据处理，以实现后期多种实习基地建设，各态势分析课题的进行。

附图说明

图1是本发明实施例提供的数据处理方法流程图；

图2是本发明实施例提供的数据处理过程的示意图；

图3是本发明实施例提供的数据处理系统框图；

图4是本发明实施例提供的电子设备框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本发明的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本发明的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

本发明实施例提供了一种数据处理方法，参见图1和图2，所述方法包括：

步骤101，承载平台获取源数据，并对所述源数据根据预设规则进行分类以及网络切片后，分别存储至多个数据库。

其中，所述根据预设规则进行分类包括：根据所述源数据的不同数据类型进行分类。例如用以书写处理程序的各种程序设计语言不同，根据这些不同的的编程语言进行分类，Python、C/C++、Java、Go、R等。或者根据数据的应用不同进行的分类，将其分为分别提供给手机、自动驾驶、远程机器人的不同数据。

网络切片也就是将这些分类之后的数据进行区分，例如将分别提供给手机、自动驾驶、远程机器人的不同数据进行区分，然后分别存储至多个数据库，多个与这些分类相对应的数据库。另外，上文所述的承载平台可以为现有技术中的任何一种云平台。

源数据根据业务需求，可针对互联口流量，先做分类，再进行网络切片，产生类型不同、统计方式不同的大量源数据，写入数据库或ftp文件服务器。仅对用户提供处理后的数据，不提供原数据。以下是对源数据相同ip和端口作唯一，加和、去重、排序的具体算法关键步骤(算法中使用动态文件名和表名)：

hive-e″use ipcredit；SELECT ip，port，sum(flow)as totalflow FROM flow_60min_6_in where flow＞0GROUP BY ip，port ORDER BY totalflow DESC；″＞＞/home/IPCredit_in/Flow60/out/$filename

步骤102，承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机。

所述TensorFlow数据处理容器通过Kubernetes进行创建。所有的容器均在Pod中运行，一个Pod可以承载一个或者多个相关的容器，web系统通过调用k8s接口来创建容器。可以创建并管理Pod，k8s将这些操作简化为两个操作：基于相同的Pod配置文件部署多个Pod复制品；创建可替代的Pod。k8s端可集成多种不同镜像，可实现拟定好不同镜像的参数值，用户若要创建不同的容器，web端调用k8s接口时传入拟定好的不同的deploy、ports、dataName等参数，k8s即可为用户创建所需的镜像。用户可以通过web系统进行容器申请。

另外，所述承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机，包括：对所述TensorFlow数据处理容器和所述TensorFlow数据处理虚拟机设置访问权限。本申请实施例中的承载平台可根据特定场景或需求，定制开发不同功能和算法的，支持TensorFlow等开源环境的不同类型容器，不同用户可在线申请，通过访问权限的用户，可以开发编译发布，可实现众包统计维度的态势分析课题。即管理员可预先定制好各类型支持TensorFlow的容器，供不同需求的用户申请。

步骤103，所述容器或所述虚拟机从所述数据库中获取待处理数据，通过TensorFlow对所述待处理数据进行处理。

在本发明实施例的一个可行的方式中，所述通过TensorFlow对所述待处理数据进行处理，包括：通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理；获取能执行各节点的处理任务的所有设备，计算每个节点所对应的多个设备的数据处理时间以及数据传递时间，为所述各节点选择并分配相应的设备，使总的数据处理时间以及总的数据传递时间为最小值。

例如，TensorFlow中一共采用5个节点进行数据处理，能执行第一个节点的处理任务的设备为4个，能执行第2-5个节点处理任务的设备均为2个，则计算每个节点所对应的多个设备的数据处理时间以及数据传递时间，为每个节点选择并分配相应的设备，即为每个节点分别分配一个设备，使总的数据处理时间以及总的数据传递时间为最小值。

具体地，在TensorFlow内部，设计一个节点分配设备的策略，该策略可以为计算出一个代价模型，它会先计算每一个节点的输入输出的Tensor大小，以及所需要的计算时间。代价模型一部分由经验指定的启发式规则得到，一部分是对实际样本数据进行实际运算测量得到的。分配策略会模拟执行整个计算图，从起点开始，按照拓扑序执行。并在执行一个节点时，会把每一个能执行这个节点的设备都测试一遍，测试内容包括计算时间的估算以及数据传递所需要的通信时间。最后选择一个综合时间最短的设备计算相应的节点。除了运算时间，内存的最高使用峰值也会被作为一个影响的参数。

在本发明实施例的另一个可行的方式中，所述通过TensorFlow对所述待处理数据进行处理，包括：将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分，通过TensorFlow中各节点对拆分后的所述待处理数据进行并行处理。

其中，所述通过TensorFlow对所述待处理数据进行处理，还包括：将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分后，计算TensorFlow中执行同一TensorFlow执行逻辑的各节点处理数据的数据量，并求和得到总的数据量；当所述总的数据量小于预设值时，则取消所述拆分，通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理。即对于同一TensorFlow执行逻辑，根据各节点上在不同时间段和不同处理的数据量进行统计分析，推算出数据量规模在某个极小值以下时，TensorFlow执行总效率不如不拆散。

上文中所述的两种方式即为用户可使用预设的TF指令对细分数据进行处理，得出结果。也可协同工作，对一类拆散的数据分别进行处理，最后组合交付结果。

另外，上文中所述的TensorFlow的节点处理数据的过程，通常使用深度学习来优化处理逻辑和速度，它一般分为五个步骤：构造网络模型、编译模型、训练模型、评估模型、使用模型进行预测。

构造网络模型，是最为关键的步骤是第一步，第一步确定之后，后面的参数都可以根据它来设置。

Keras中提供了Sequential容器来实现过程式构造。使用Sequential的add方法把层结构加入。

model＝Sequential()

model.add(Dense(units＝64，input_dim＝100))

model.add(Activation(″relu″))

model.add(Dense(units＝10))

model.add(Activation(″softmax″))

编译模型。模型构造好之后，下一步进行调用Sequential的compile方法进行编译。

model.compile(loss＝′categorical_crossentropy′，optimizer＝′sgd′，metrics＝[′accuracy′])

编译时需要指定两个基本元素：loss是损失函数，optimizer是优化函数。如果只想用最基本的功能，仅指定字符串的名字即可。若要配置更多参数，可调用相应的类来生成对象。若随机梯度下降，配上Nesterov动量，会生成一个SGD的对象即可：

model.compile(loss＝′categorical_crossentropy′，optimizer＝SGD(lr＝0.01，momentum＝0.9，nesterov＝True))

调用fit函数，将输出的值X，打好标签的值y，epochs训练轮数，设置batch_size批次大小：

model.fit(x_train，y_train，epochs＝5，batch_size＝32)

评估模型中，对于模型训练的是否得当，不能以训练数据为准，需要用测试数据进行评估：

loss_and_metrics＝model.evaluate(x_test，y_test，batch_size＝128)

用模型来预测，所有训练的目的在于预测：

classes＝model.predict(x_test，batch_size＝128)。

本发明另一个实施例提供了一种数据处理系统，参见图3，所述系统200包括：存储模块201，用于承载平台获取源数据，并对所述源数据根据预设规则进行分类以及网络切片后，分别存储至多个数据库；创建模块202，用于承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机；处理模块203，用于所述容器或所述虚拟机从所述数据库中获取待处理数据，通过TensorFlow对所述待处理数据进行处理。

如图4所示，电子设备300包括处理器310和存储器320。该电子设备300可以执行根据本发明实施例的方法。

具体地，处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器310还可以包括用于缓存用途的板载存储器。处理器310可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器320，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。其存储有计算机可执行程序，该程序在被处理器执行时，使得处理器执行如上文所述的基于Radius服务器的流量调度方法。

本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下，可以对本发明进行形式和细节上的多种改变。因此，本发明的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

承载平台获取源数据，并对所述源数据根据预设规则进行分类以及网络切片后，分别存储至多个数据库；

承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机；

所述容器或所述虚拟机从所述数据库中获取待处理数据，通过TensorFlow对所述待处理数据进行处理；包括：将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分，通过TensorFlow中各节点对拆分后的所述待处理数据进行并行处理；将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分后，计算TensorFlow中执行同一TensorFlow执行逻辑的各节点处理数据的数据量，并求和得到总的数据量；

当所述总的数据量小于预设值时，则取消所述拆分，通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理。

2.根据权利要求1所述的方法，其特征在于，所述根据预设规则进行分类包括：

根据所述源数据的不同数据类型进行分类。

3.根据权利要求1所述的方法，其特征在于，所述承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机，包括：

对所述TensorFlow数据处理容器和所述TensorFlow数据处理虚拟机设置访问权限。

4.根据权利要求1所述的方法，其特征在于，所述TensorFlow数据处理容器通过Kubernetes进行创建。

5.根据权利要求1所述的方法，其特征在于，所述通过TensorFlow对所述待处理数据进行处理，包括：

通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理；

获取能执行各节点的处理任务的所有设备，计算每个节点所对应的多个设备的数据处理时间以及数据传递时间，为所述各节点选择并分配相应的设备，使总的数据处理时间以及总的数据传递时间为最小值。

6.一种数据处理系统，其特征在于，所述系统包括：

存储模块，用于承载平台获取源数据，并对所述源数据根据预设规则进行分类以及网络切片后，分别存储至多个数据库；

创建模块，用于承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机；

处理模块，用于所述容器或所述虚拟机从所述数据库中获取待处理数据，通过TensorFlow对所述待处理数据进行处理；包括：将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分，通过TensorFlow中各节点对拆分后的所述待处理数据进行并行处理；将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分后，计算TensorFlow中执行同一TensorFlow执行逻辑的各节点处理数据的数据量，并求和得到总的数据量；

7.一种电子设备，其特征在于，所述设备包括：

处理器；

存储器，其存储有计算机可执行程序，该程序包含如权利要求1-5中任一项数据处理的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序包含如权利要求1-5中任一项数据处理的方法。