CN112257677A

CN112257677A - 一种在大数据集群中处理深度学习任务的方法及装置

Info

Publication number: CN112257677A
Application number: CN202011298646.4A
Authority: CN
Inventors: 汪金玲
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-01-22

Abstract

本发明涉及一种大数据的技术领域，揭露了一种在大数据集群中处理深度学习任务的方法，包括：将海量图像数据存储到大数据集群中，对所存储的海量图像数据进行图像灰度化的灰度拉伸的预处理；利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类划分；利用静态优化策略进行子数据集的提取，将所提取的子数据集作为深度学习任务的训练集；利用改进后的点锐度算法评价训练集中图像数据的清晰度，并利用高通滤波对清晰度较低的图像进行锐化处理；利用改进的SSD深度学习模型进行深度学习任务。本发明还提供了一种在大数据集群中处理深度学习任务的装置。本发明实现了大数据集群中的深度学习任务的处理。

Description

一种在大数据集群中处理深度学习任务的方法及装置

技术领域

本发明涉及大数据的技术领域，尤其涉及一种在大数据集群中处理深度学习任务的方法及装置。

背景技术

随着社会技术的飞速发展，互联网已经在人们的日常生活和工作中得到了非常广泛的应用，在访问互联网应用和获取需要的信息的同时，也相应产生了大量的数据，这些数据以PB级速度迅速上升，人们开始迈入大数据时代。同时随着数据量的快速增长，由于深度学习技术会随着训练数据的增长而具备更好的效果，慢慢代替了传统机器学习技术，而如何利用大数据进行深度学习任务成为当前领域的热门话题。

当前大部分的大数据集群存在随着访问控制策略的不断增加，大数据集群中的数据无法删除，大数据集群平台的存储压力会逐渐增大的问题，从而影响后续数据的管理、查询和使用效率。

鉴于此，如何对大数据集群进行改进，并利用改进后的大数据集群进行深度学习任务的处理，成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种在大数据集群中处理深度学习任务的方法，通过利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储数据集进行聚类划分，并提出一种静态优化策略，利用所述静态优化策略进行划分数据集的提取，从而利用所提取的划分数据集进行深度学习任务的实现。

为实现上述目的，本发明提供的一种在大数据集群中处理深度学习任务的方法，包括：

获取海量图像数据，并将海量图像数据存储到大数据集群中，从而对所存储的海量图像数据进行图像灰度化的灰度拉伸的预处理；

利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类划分，得到若干子数据集；

利用静态优化策略进行子数据集的提取，将所提取的子数据集作为深度学习任务的训练集；

利用改进后的点锐度算法评价训练集中图像数据的清晰度，并利用高通滤波对清晰度较低的图像进行锐化处理；

根据训练集中的图像数据，训练得到改进的SSD深度学习模型，并利用改进的SSD深度学习模型进行深度学习任务。

可选地，所述获取海量图像数据，并将海量图像数据存储到大数据集群，并进行图像灰度化的灰度拉伸的预处理，包括：

获取海量用于深度学习任务的数据，在本发明一个具体实施例中，所述深度学习任务为基于深度学习的人脸识别任务，因此本发明获取海量图像数据，所述图像数据包含3/4的人脸图像，以及1/4的非人脸图像；

将所述海量图像数据存储到大数据集群中，在本发明一个实施例中，所述大数据集群包括Hadoop数据库以及Spark计算引擎；

利用灰度化算法以及灰度拉伸算法对大数据集群中的海量图像数据进行预处理，所述预处理流程为：

1)通过对所存储的图像中每一个像素的三个分量求最大值，并将该最大值设置为该像素点的灰度值，得到存储图像的灰度图，所述灰度化处理的公式为：

G(i,j)＝max{R(i,j),G(i,j),B(i,j)}

其中：

(i,j)为存储图像中的一个像素点；

R(i,j),G(i,j),B(i,j)分别为像素点(i,j)在R、G、B三个颜色通道中的值；

G(i,j)为像素点(i,j)的灰度值；

2)根据所述灰度图像，本发明利用分段线性变换的方式对图像的灰度进行拉伸的公式为：

其中：

f(x,y)为灰度图像的灰度图；

MAX_f(x,y),MIN_f(x,y)分别为灰度图的最大灰度值和最小灰度值。

可选地，所述利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类划分，包括：

利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类处理，从而依据图像数据之间的距离将图像数据划分为若干子数据集，其中每个子数据集中所存储的图像数据不能区分其他子数据集中所存储的图像数据；所述基于闪电连接过程优化算法的聚类算法流程为：

1)初始化大数据集群中图像数据的位置，并利用K-means算法生成K个初始聚类中心，进行随机初始聚类中心的赋值，即生成N种代表初始聚类中心的个体方案，其中N为随机初始聚类中心赋值的次数；

2)计算所有图像数据到各类聚类中心的距离，对于一组类中心则可将数据集划分成了K个类簇；

3)计算各个体的适应位置值，并找出最差图像数据：

其中：

c_i表示第i个类中心；

x_j表示第j个图像数据；

u_i，j表示隶属度，即表明一个图像数据只能属于一个类，对于其余类的隶属度为0；

d²(x_j，c_i)表示图像数据x_j到类中心c_i的距离；

计算出大数据集群中所存储图像数据的平均适应位置值：

f_ave＝mean(f)

其中：

f为所存储图像数据的适应位置值总和；

若存在f_c＜0.5f_ave，则更新最差个体为当前f_c；

4)从大数据集群中随机选取一个图像数据x_h，计算图像数据x_h的适应位置值f_h，若f_h大于大数据集群的平均适应位置值，则利用下式更新所有图像数据的适应位置值：

f_j＝f_j+rand×(f_ave+rand×f_h)

反之则利用下式进行图像数据适应位置值的更新：

f_j＝f_j-rand×(f_ave+rand×f_h)

重新计算大数据集群中所存储图像数据的平均适应位置值f_ave，同时根据适应位置值对所有图像数据的位置进行更新迭代，所述图像数据位置的更新公式为：

x_i＝x_i+rand×S×(f_ave+rand×(f_max-f_min))

其中：

f_max，f_min分别代表大数据集群中所存储图像数据的最优适应位置值和最差适应位置值；

t表示当前迭代次数，t_max表示最大迭代次数，本发明将t_max设置为50；

5)重复3)-4)直到达到最大迭代次数，根据此时图像数据在大数据集群中的位置值，进行聚类中心的计算，从而输出一组最优聚类中心点；

6)根据上一步得到的聚类中心，计算他们之间的距离值，由聚类中心的最小距离形成多个中心区域，划分数据集；对中心区域外的离群数据点进行归并，加入到距离其最近的局部数据划分数据集中，形成多个子数据集。

例如，若大数据集群中所存储的图像数据是d维的，它将被分为c组，那么优化算法中的每个解都将表示为：x_1,1,x_1,2,...,x_1,d,...,x_c,d；优化算法的更新迭代规则将会取代K-means中的类内均值法更新迭代的方式，而优化算法的寻优一般是以行为单位，这里可以将聚类中心矩阵转化为行形式；具体而言，将c行d列的聚类中心矩阵转换成一行c×d维数,聚类中心可以生成隶属度矩阵，向量

中的数字c是聚类数目，第二个数字d是聚类中心的维数，依此类推；为了加快算法的收敛速度，获取全局最优适应度，得到最优的聚类结果，如果当前迭代的适应度函数值优于上一代的适应度函数值，则将替换上一代的旧值；当智能优化算法终止时，以聚类中心的形式形成最优解，根据聚类中心得到相应的隶属度矩阵以及类簇划分结果。

可选地，所述利用静态优化策略进行子数据集的提取，包括：

在本发明一个具体实施例中，本发明将静态策略考虑为两种决策效果，即允许决策(P)以及拒绝决策(R)，从而将提取决策结果和静态策略表示为一个属性集合，属性集合的格式为：

p＝{S,R,T,A,D}

其中：

S为操作主体属性；

R为数据集；

T为时间属性

A为操作属性；

D为决策属性；

例如，允许用户user_i在8：00-9：00提取数据集X_i和X_j，可以表示为：

p_i＝{S＝{user_i},R＝{X_i,X_j},T＝{8,9},A＝{load},D＝{P}}

进一步地，本发明利用静态优化策略进行子数据集的提取，所述静态优化策略的流程为：

1)根据两条静态策略对应的操作属性和数据集，计算两者的相似度值，若两条静态策略对应的操作属性和数据集相似度值均为1，则将两条静态策略归为一组；

2)对每个组内的主体属性和时间属性进行相似度值计算，利用对属性范围的分析、消解，将那些只存在部分冲突的静态策略，在去除掉冲突部分的前提下，尽可能保留原有静态策略的非冲突部分，以保证策略集的完整性；用R代表介于0和1之间的某个相似度值；

3)若R_S(p_i,p_j)＝1，R_T(p_i,p_j)＝1；说明两条数据处理静态策略的主体属性和时间属性的相似度值都为1，对于这种情况的冲突策略，为保证数据的安全性，本发明所采用的优化方法是：采取拒绝优先原则，删除决策结果为允许的策略(P策略)，保留决策结果为拒绝的策略(R策略)；

4)若R_S(p_i,p_j)＝K，R_T(p_i,p_j)＝K，说明值为K时的属性范围有相交、P策略的属性范围包含R策略和R策略的属性范围包含P策略这三种情况；对于这种冲突策略，优化的方法是去除P策略中与R策略主体属性和时间属性范围相交的部分，余下的将作为新的属性范围；如果两个属性都能得到一个新的范围，则采用交叉结合，即将主体属性的新范围和原有P策略的时间属性范围结合或者将原有P策略的主体属性范围和新的时间属性范围相结合，其余属性采用P策略原有的属性，这样就构成了两个新的策略；如果去除掉后没有余下新的属性范围，则由其构成的新策略也不存在；如果R策略的属性范围全部大于P策略的属性范围则删除P策略；

5)根据优化后的静态策略，提取出相应的子数据集，并将所提取的子数据集作为深度学习任务的训练集。

可选地，所述利用改进后的点锐度算法评价训练集中图像数据的清晰度，包括：

1)对于图像数据中的任一像素点x_i,j，计算周围的8格邻域灰度变化设定不同的统计权重，其中水平和竖直方向上的权重系数为1，45°和135°方向上的权重系数为

这样可以使所统计的灰度变化符合图像各向异性的特点；

2)利用点锐度计算公式进行图像数据清晰度的计算：

其中：

P为图像数据清晰度的评价指标；

m和n分别表示图像的行和列的像素值数量；

df为图像任一像素点x_i,j邻域灰度变化的赋值；

dx为像素间距离的变化量；

3)对计算出的灰度变化结果按照图像大小进行规格化，便于不同图像间对比时的统一；

通过设定图像数据清晰度阈值T，若当前图像的清晰度P小于阈值T时，则利用高通滤波对清晰度较低的图像进行锐化处理，所述基于高通滤波的锐化处理公式为：

其中：

F(n₁,n₂)为清晰度较低的图像；

H(m₁-n₁+1,m₂-n₂+1)为高通滤波锐化的卷积阵列；

g(m₁,m₂)为锐化后的图像。

可选地，所述利用改进的SSD深度学习模型进行深度学习任务，包括：

在本发明一个具体实施例中，所述深度学习任务为人脸识别深度学习任务，用户可根据自己的需求进行深度学习任务的调整，从而在大数据集群中提取合适的数据集，进行特定深度学习任务的训练；

所述改进的SSD深度学习模型包括七层的卷积层，每层包括Dalation模块、DenseBlock模块和Transition Layer，所述Dalation模块进行增大感知域处理，Dense Block模块用于使得特征再利用和信息间的流通增强，Transition Layer的作用是降维和增大感知域处理层；

所述利用改进的SSD深度学习模型进行深度学习任务的流程为：

1)模型中图像输入大小为512×512像素，前向传播时，在每层特征图与特征图之间，有Dalation模块、Dense Block模块和Transition Layer；其中Dalation模块选用的kernel大小为3×3像素，选用的rate分别为1、3、5、7，输出的kernel大小分别为3、5、9、15，最后一个的1×1像素是当rate取得过大，得到的卷积核和特征图的大小差不多时，相当于对特征图进行1×1像素的卷积，通过将不同rate得到的特征图进行Concate，再将输出的特征图经过1×1像素卷积降维输出；

2)两个Dalation模块之间是一个Dense Block模块，将Dalation模块的输出经过Dense Block模块，其中每个Dense Block设为5层，growthrate为6；Transition Layer里有一个1×1像素的卷积层通过压缩参数使得特征图的数量减少，将MaxPooling层用步长为2的深度可分离卷积替换，一是为了让神经网络自己学习特征，避免池化操作造成的信息丢失，二是可以减少因传统卷积处理增加的参数量；

3)为了得到更多的特征信息，Dalation每一层的输出经过Dalation-Up模块，同时将经过Dense Block模块后的当前层进行输出，上一层DenseBlock模块输出经过步长为2的Depthwiseconv和下一层Dense Block模块输出经过2×2像素的Upsampling进行Concate处理；

例如，128像素大小输出的具体操作处理过程如下，将256像素大小的特征图，通过Dalation处理，再进行步长为2的Depthwiseconv，得到128像素大小的特征图；再将64像素大小的特征图先进行Dalation操作，再进行Upsampling，得到128像素大小的特征图；将256像素大小得到的特征图、64像素大小得到的特征图和128原始的特征图进行Concate，最后将Concate后的特征图输入到conf和loc网络，其余各层和本层操作一样；

特征融合时由于最后两层的特征图太小，所含的语义信息也比较少，反卷积后也不会得到太多的细节信息，反而会影响检测的速度，所以不对最后两层特征图进行操作，直接对8×8像素大小的特征图进行反卷积处理，将反卷积处理后的特征图与Dalation-Up模块输出的特征图进行Concate，再经过Dalation模块进行当前层的输出检测，再将Concate后的特征图经过反卷积与上一层Dalation-Up模块的输出Concate进行信息融合，直至得到128像素大小的预测输出；

4)根据所融合的特征图，利用softmax函数进行特征匹配，将匹配的概率最大的人脸识别结果作为模型输出，完成大数据集群中深度学习任务的实现。

此外，为实现上述目的，本发明还提供一种在大数据集群中处理深度学习任务的装置，所述装置包括：

数据获取装置，用于获取进行深度学习任务的图像数据，并将海量图像数据存储到大数据集群中，从而对所存储的海量图像数据进行图像灰度化的灰度拉伸的预处理；

数据处理器，用于利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类划分，得到若干子数据集，同时利用静态优化策略进行子数据集的提取，将所提取的子数据集作为深度学习任务的训练集；利用改进后的点锐度算法评价训练集中图像数据的清晰度，并利用高通滤波对清晰度较低的图像进行锐化处理；

深度学习任务处理装置，用于根据训练集中的图像数据，训练得到改进的SSD深度学习模型，并利用改进的SSD深度学习模型进行深度学习任务。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有深度学习任务处理程序指令，所述深度学习任务处理程序指令可被一个或者多个处理器执行，以实现如上所述的在大数据集群中处理深度学习任务的实现方法的步骤。

相对于现有技术，本发明提出一种在大数据集群中处理深度学习任务的方法，该技术具有以下优势：

首先，针对大数据集群中所存储数据的类型过于繁多，本发明利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储数据进行聚类处理，将同一类型的数据聚为一类子数据集，可根据所需进行的深度学习任务类型，选择合适类型的子数据集进行训练，使得本发明所述方法能处理多种类型的深度学习任务，包括但不限于人脸识别、图像分类、文本翻译等深度学习任务；对于所述基于闪电连接过程优化算法的聚类算法，本发明在传统聚类算法的基础上利用智能优化算法加快聚类过程，首先使用基于闪电连接过程优化算法初始化大数据集群，随机生成的一组初始聚类中心点，通过计算各个图像数据的位置适应度，对所有图像数据的位置进行更新迭代，所述图像数据位置的更新公式为：

x_i＝x_i+rand×S×(f_ave+rand×(f_max-f_min))

其中：f_max,f_min分别代表大数据集群中所存储图像数据的最优适应位置值和最差适应位置值；t表示当前迭代次数，t_max表示最大迭代次数，本发明将t_max设置为50；重复位置的迭代，直到达到最大迭代次数，根据此时图像数据在大数据集群中的位置值，进行聚类中心的计算，从而输出一组最优聚类中心点；根据得到的聚类中心，计算他们之间的距离值，由聚类中心的最小距离形成多个中心区域，划分数据集；对中心区域外的离群数据点进行归并，加入到距离其最近的局部数据划分数据集中，形成多个子数据集。例如，若大数据集群中所存储的图像数据是d维的，它将被分为c组，那么优化算法中的每个解都将表示为：x_1,1,x_1,2,...,x_1,d,...,x_c,d；优化算法的更新迭代规则将会取代K-means中的类内均值法更新迭代的方式，而优化算法的寻优一般是以行为单位，这里可以将聚类中心矩阵转化为行形式；具体而言，将c行d列的聚类中心矩阵转换成一行c×d维数,聚类中心可以生成隶属度矩阵，向量

同时本发明提出一种静态优化策略以进行子数据集的提取，从而优化了大数据环境下的访问控制策略，使得数据集的访问更加精准，提高了存储效率；对于所述静态优化策略，首先将静态策略考虑为两种决策效果，即允许决策(P)以及拒绝决策(R)，从而将提取决策结果和静态策略表示为一个属性集合，属性集合的格式为：p＝{S,R,T,A,D}其中：S为操作主体属性；R为数据集；T为时间属性A为操作属性；D为决策属性；

p_i＝{S＝{user_i},R＝{X_i,X_j},T＝{8,9},A＝{load},D＝{P}}

对于任意两条静态策略，根据两条静态策略对应的操作属性和数据集，计算两者的相似度值，若两条静态策略对应的操作属性和数据集相似度值均为1，则将两条静态策略归为一组；进而对每个组内的主体属性和时间属性进行相似度值计算，利用对属性范围的分析、消解，将那些只存在部分冲突的静态策略，在去除掉冲突部分的前提下，尽可能保留原有静态策略的非冲突部分，以保证策略集的完整性；用R代表介于0和1之间的某个相似度值；

若R_S(p_i,p_j)＝1，R_T(p_i,p_j)＝1，说明两条数据处理静态策略的主体属性和时间属性的相似度值都为1，对于这种情况的冲突策略，为保证数据的安全性，本发明所采用的优化方法是：采取拒绝优先原则，删除决策结果为允许的策略(P策略)，保留决策结果为拒绝的策略(R策略)；若R_S(p_i,p_j)＝K，R_T(p_i,p_j)＝K，说明值为K时的属性范围有相交、P策略的属性范围包含R策略和R策略的属性范围包含P策略这三种情况，对于这种冲突策略，优化的方法是去除P策略中与R策略主体属性和时间属性范围相交的部分，余下的将作为新的属性范围；如果两个属性都能得到一个新的范围，则采用交叉结合，即将主体属性的新范围和原有P策略的时间属性范围结合或者将原有P策略的主体属性范围和新的时间属性范围相结合，其余属性采用P策略原有的属性，这样就构成了两个新的策略；如果去除掉后没有余下新的属性范围，则由其构成的新策略也不存在；如果R策略的属性范围全部大于P策略的属性范围则删除P策略；从而极大避免大数据环境下存在的策略冲突等问题，方便进行相应子数据集的提取。

附图说明

图1为本发明一实施例提供的一种在大数据集群中处理深度学习任务的方法的流程示意图；

图2为本发明一实施例提供的一种在大数据集群中处理深度学习任务的装置的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

通过利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储数据集进行聚类划分，并提出一种静态优化策略，利用所述静态优化策略进行划分数据集的提取，从而利用所提取的划分数据集进行深度学习任务的实现。参照图1所示，为本发明一实施例提供的在大数据集群中处理深度学习任务的方法示意图。

在本实施例中，在大数据集群中处理深度学习任务的方法包括：

S1、获取海量图像数据，并将海量图像数据存储到大数据集群中，从而对所存储的海量图像数据进行图像灰度化的灰度拉伸的预处理。

首先，本发明获取海量用于深度学习任务的数据，在本发明一个具体实施例中，所述深度学习任务为基于深度学习的人脸识别任务，因此本发明获取海量图像数据，所述图像数据包含3/4的人脸图像，以及1/4的非人脸图像；

进一步地，本发明将所述海量图像数据存储到大数据集群中，在本发明一个实施例中，所述大数据集群包括Hadoop数据库以及Spark计算引擎；

本发明利用灰度化算法以及灰度拉伸算法对大数据集群中的海量图像数据进行预处理，所述预处理流程为：

G(i,j)＝max{R(i,j),G(i,j),B(i,j)}

其中：

(i,j)为存储图像中的一个像素点；

G(i,j)为像素点(i,j)的灰度值；

其中：

f(x,y)为灰度图像的灰度图；

MAX_f(x,y),MIN_f(x,y)分别为灰度图的最大灰度值和最小灰度值。

S2、利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类划分，得到若干子数据集。

进一步地，本发明利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类处理，从而依据图像数据之间的距离将图像数据划分为若干子数据集，其中每个子数据集中所存储的图像数据不能区分其他子数据集中所存储的图像数据；所述基于闪电连接过程优化算法的聚类算法流程为：

3)计算各个体的适应位置值，并找出最差图像数据：

其中：

c_i表示第i个类中心；

x_j表示第j个图像数据；

u_i,j表示隶属度，即表明一个图像数据只能属于一个类，对于其余类的隶属度为0；

d²(x_j,c_i)表示图像数据x_j到类中心c_i的距离；

计算出大数据集群中所存储图像数据的平均适应位置值：

f_ave＝mean(f)

其中：

f为所存储图像数据的适应位置值总和；

若存在f_c＜0.5f_ave，则更新最差个体为当前f_c；

f_j＝f_j+rand×(f_ave+rand×f_h)

反之则利用下式进行图像数据适应位置值的更新：

f_j＝f_j-rand×(f_ave+rand×f_h)

x_i＝x_i+rand×S×(f_ave+rand×(f_max-f_min))

其中：

f_max,f_min分别代表大数据集群中所存储图像数据的最优适应位置值和最差适应位置值；

S3、利用静态优化策略进行子数据集的提取，将所提取的子数据集作为深度学习任务的训练集。

p＝{S,R,T,A,D}

其中：

S为操作主体属性；

R为数据集；

T为时间属性

A为操作属性；

D为决策属性；

p_i＝{S＝{user_i},R＝{X_i,X_j},T＝{8,9},A＝{load},D＝{P}}

S4、利用改进后的点锐度算法评价训练集中图像数据的清晰度，并利用高通滤波对清晰度较低的图像进行锐化处理。

进一步地，本发明利用改进后的点锐度算法评价训练集中图像数据的清晰度；所述点锐度算法的算法流程为：

这样可以使所统计的灰度变化符合图像各向异性的特点；

2)利用点锐度计算公式进行图像数据清晰度的计算：

其中：

P为图像数据清晰度的评价指标；

m和n分别表示图像的行和列的像素值数量；

df为图像任一像素点x_i,j邻域灰度变化的赋值；

dx为像素间距离的变化量；

其中：

F(n₁,n₂)为清晰度较低的图像；

H(m₁-n₁+1,m₂-n₂+1)为高通滤波锐化的卷积阵列；

g(m₁,m₂)为锐化后的图像。

S5、根据训练集中的图像数据，训练得到改进的SSD深度学习模型，并利用改进的SSD深度学习模型进行深度学习任务。

进一步地，本发明利用训练集中的图像数据得到改进的SSD深度学习模型，从而利用改进的SSD深度学习模型进行深度学习任务；在本发明一个具体实施例中，所述深度学习任务为人脸识别深度学习任务，用户可根据自己的需求进行深度学习任务的调整，从而在大数据集群中提取合适的数据集，进行特定深度学习任务的训练；

下面通过一个算法实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境为：操作装置是Ubuntu16.04，计算机处理器为Inteli5-8500 CPU@3GHZ×6，显卡为英伟达GTX 10606GB，内存条的大小为16G，Tensorflow-gpu1.18版本，keras 2.24版本，另外使用CUDA9.0以及CUDNN7.05进行加速处理；对比检索方法为基于YOLOv1模型的深度学习任务处理方法，基于VGG16模型的深度学习任务处理方法以及基于AlexNet模型的深度学习任务处理方法。

在本发明所述算法实验中，数据集为5000张图像数据，其中3/4为人脸图像，1/4为非人脸图像。本实验将图像数据输入到本发明所述方法以及对比方法中，将人脸识别的准确率作为评价算法性能的指标。

根据实验结果，基于YOLOv1模型的深度学习任务处理方法的人脸识别准确率为85.32％，基于VGG16模型的深度学习任务处理方法的人脸识别准确率为89.65％，基于AlexNet模型的深度学习任务处理方法的人脸识别准确率为93.32％，本发明所述方法的人脸识别准确率为94.68％，相较于对比方法，本发明所提出的在大数据集群中处理深度学习任务的方法具有更高的人脸识别准确率。

发明还提供一种在大数据集群中处理深度学习任务的装置。参照图2所示，为本发明一实施例提供的在大数据集群中处理深度学习任务的装置的内部结构示意图。

在本实施例中，所述在大数据集群中处理深度学习任务的装置1至少包括数据获取装置11、数据处理器12、深度学习任务处理装置13，通信总线14，以及网络接口15。

其中，数据获取装置11可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

数据处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。数据处理器12在一些实施例中可以是在大数据集群中处理深度学习任务的装置1的内部存储单元，例如该在大数据集群中处理深度学习任务的装置1的硬盘。数据处理器12在另一些实施例中也可以是在大数据集群中处理深度学习任务的装置1的外部存储设备，例如在大数据集群中处理深度学习任务的装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，数据处理器12还可以既包括在大数据集群中处理深度学习任务的装置1的内部存储单元也包括外部存储设备。数据处理器12不仅可以用于存储安装于在大数据集群中处理深度学习任务的装置1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

深度学习任务处理装置13在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行数据处理器12中存储的程序代码或处理数据，例如深度学习任务处理程序指令等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在在大数据集群中处理深度学习任务的装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及在大数据集群中处理深度学习任务的装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对在大数据集群中处理深度学习任务的装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，数据处理器12中存储有深度学习任务处理程序指令；深度学习任务处理装置13执行数据处理器12中存储的深度学习任务处理程序指令的步骤，与在大数据集群中处理深度学习任务的方法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有深度学习任务处理程序指令，所述深度学习任务处理程序指令可被一个或多个处理器执行，以实现如下操作：

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种在大数据集群中处理深度学习任务的方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种在大数据集群中处理深度学习任务的方法，其特征在于，所述对所存储的海量图像数据进行图像灰度化的灰度拉伸的预处理，包括：

G(i，j)＝max{R(i，j)，G(i，j)，B(i，j)}

其中：

(i，j)为存储图像中的一个像素点；

R(i，j)，G(i，j)，B(i，j)分别为像素点(i，j)在R、G、B三个颜色通道中的值；

G(i，j)为像素点(i，j)的灰度值；

其中：

f(x，y)为灰度图像的灰度图；

MAX_f(x，y)，MIN_f(x，y)分别为灰度图的最大灰度值和最小灰度值。

3.如权利要求2所述的一种在大数据集群中处理深度学习任务的方法，其特征在于，所述利用基于闪电连接过程优化算法的聚类算法对大数据集群中的存储图像数据进行聚类划分，包括：

3)计算各个体的适应位置值，并找出最差图像数据：

其中：

c_i表示第i个类中心；

x_j表示第j个图像数据；

d²(x_j，c_i)表示图像数据x_j到类中心c_i的距离；

计算出大数据集群中所存储图像数据的平均适应位置值：

f_ave＝mean(f)

其中：

f为所存储图像数据的适应位置值总和；

若存在f_c＜0.5f_ave，则更新最差个体为当前f_c；

f_j＝f_j+rand×(f_ave+rand×f_h)

反之则利用下式进行图像数据适应位置值的更新：

f_j＝f_j-rand×(f_ave+rand×f_h)

x_i＝x_i+rand×S×(f_ave+rand×(f_max-f_min))

其中：

t表示当前迭代次数，t_max表示最大迭代次数；

4.如权利要求3所述的一种在大数据集群中处理深度学习任务的方法，其特征在于，所述利用静态优化策略进行子数据集的提取，包括：

2)对每个组内的主体属性和时间属性进行相似度值计算，利用对属性范围的分析、消解，将那些只存在部分冲突的静态策略，在去除掉冲突部分的前提下，尽可能保留原有静态策略的非冲突部分；用R代表介于0和1之间的某个相似度值；

3)若R_S(p_i，p_j)＝1，R_T(p_i，p_j)＝1；说明两条数据处理静态策略的主体属性和时间属性的相似度值都为1，对于这种情况的冲突策略，为保证数据的安全性，本发明所采用的优化方法是：采取拒绝优先原则，删除决策结果为允许的策略(P策略)，保留决策结果为拒绝的策略(R策略)；

4)若R_S(p_i，p_j)＝K，R_T(p_i，p_j)＝K，说明值为K时的属性范围有相交、P策略的属性范围包含R策略和R策略的属性范围包含P策略这三种情况；对于这几种冲突策略，优化的方法是去除P策略中与R策略主体属性和时间属性范围相交的部分，余下的将作为新的属性范围；如果两个属性都能得到一个新的范围，则采用交叉结合，即将主体属性的新范围和原有P策略的时间属性范围结合或者将原有P策略的主体属性范围和新的时间属性范围相结合，其余属性采用P策略原有的属性，这样就构成了两个新的策略；如果去除掉后没有余下新的属性范围，则由其构成的新策略也不存在；如果R策略的属性范围全部大于P策略的属性范围则删除P策略；

5.如权利要求4所述的一种在大数据集群中处理深度学习任务的方法，其特征在于，所述利用改进后的点锐度算法评价训练集中图像数据的清晰度，包括：

1)对于图像数据中的任一像素点x_i，j，计算周围的8格邻域灰度变化设定不同的统计权重，其中水平和竖直方向上的权重系数为1，45°和135°方向上的权重系数为

这样可以使所统计的灰度变化符合图像各向异性的特点；

2)利用点锐度计算公式进行图像数据清晰度的计算：

其中：

P为图像数据清晰度的评价指标；

m和n分别表示图像的行和列的像素值数量；

df为图像任一像素点x_i，j邻域灰度变化的赋值；

dx为像素间距离的变化量；

3)对计算出的灰度变化结果按照图像大小进行规格化，便于不同图像间对比时的统一。

6.如权利要求5所述的一种在大数据集群中处理深度学习任务的方法，其特征在于，所述基于高通滤波的锐化处理公式为：

其中：

F(n₁，n₂)为清晰度较低的图像；

H(m₁-n₁+1，m₂-n₂+1)为高通滤波锐化的卷积阵列；

g(m₁，m₂)为锐化后的图像。

7.如权利要求6所述的一种在大数据集群中处理深度学习任务的方法，其特征在于，所述利用改进的SSD深度学习模型进行深度学习任务，包括：

2)两个Dalation模块之间是一个Dense Block模块，将Dalation模块的输出经过DenseBlock模块，其中每个Dense Block设为5层，growth rate为6；Transition Layer里有一个1×1像素的卷积层通过压缩参数使得特征图的数量减少，将MaxPooling层用步长为2的深度可分离卷积替换；

3)Dalation每一层的输出经过Dalation-Up模块，同时将经过Dense Block模块后的当前层进行输出，上一层DenseBlock模块输出经过步长为2的Depthwiseconv和下一层DenseBlock模块输出经过2×2像素的Upsampling进行Concate处理；

特征融合时对8×8像素大小的特征图进行反卷积处理，将反卷积处理后的特征图与Dalation-Up模块输出的特征图进行Concate，再经过Dalation模块进行当前层的输出检测，再将Concate后的特征图经过反卷积与上一层Dalation-Up模块的输出Concate进行信息融合，直至得到128像素大小的预测输出；

8.一种在大数据集群中处理深度学习任务的装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有深度学习任务处理程序指令，所述深度学习任务处理程序指令可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的一种在大数据集群中处理深度学习任务的实现方法的步骤。