CN106709441B - 一种基于卷积定理的人脸验证加速方法 - Google Patents

一种基于卷积定理的人脸验证加速方法 Download PDF

Info

Publication number
CN106709441B
CN106709441B CN201611170720.8A CN201611170720A CN106709441B CN 106709441 B CN106709441 B CN 106709441B CN 201611170720 A CN201611170720 A CN 201611170720A CN 106709441 B CN106709441 B CN 106709441B
Authority
CN
China
Prior art keywords
convolution
input picture
size
frequency domain
convolution kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611170720.8A
Other languages
English (en)
Other versions
CN106709441A (zh
Inventor
刘波
郭申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xiaofeng Technology Co.,Ltd.
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201611170720.8A priority Critical patent/CN106709441B/zh
Publication of CN106709441A publication Critical patent/CN106709441A/zh
Application granted granted Critical
Publication of CN106709441B publication Critical patent/CN106709441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于卷积定理的人脸验证加速方法,属于计算机视觉中的人脸验证领域。对于采用CNN技术的人脸验证系统,在使用GPU并行计算平台的基础上,对满足加速条件的卷积层,采用卷积定理方法替换常规卷积计算方法进行卷积计算。卷积定理表明,空域中的卷积等价于频域中的乘积。通过将耗时的卷积计算转化为频域中的乘积计算,能够显著减少计算量,加快CNN的计算速度。针对人脸验证系统计算负担大,运行速度慢的问题,本发明使得人脸验证系统的运行速度明显提高,对海量数据的处理能力得以提升。

Description

一种基于卷积定理的人脸验证加速方法
技术领域
本发明属于计算机视觉中的人脸验证领域,涉及一种人脸验证的加速方法,尤其涉及一种基于卷积定理的人脸验证加速方法。
背景技术
随着社会的发展,人们对安全性与便利性的要求日益增加,人脸验证技术在近几十年有了长足的发展,其具有直接、友好、方便等优点,可应用在登陆验证、身份识别等许多场景,从而得到了广泛的关注与研究。人脸验证的目标为判断两张人脸图片中的人脸是否为同一个人,主要由人脸图像预处理、特征提取、特征度量等三部分组成。在深度学习提出之后,特别是在卷积神经网络(convolutional neural networks,CNN)应用在图像识别领域取得巨大成功后,研究人员意识到CNN在提取图像特征方面的优势。许多研究人员将CNN应用于人脸验证系统,用于提取人脸特征,实验表明人脸验证的正确率有很大的提高,可靠性明显提升。目前,主流的人脸验证系统都已采用CNN技术。
但是为了提高正确率,人脸验证系统采用的CNN模型的层数不断加深,参数不断增多,这些复杂的CNN模型导致的主要问题是计算负担很大。为此,研究人员采用GPU并行计算设备计算CNN,来加快人脸验证系统的运行速度。这种方法只是将卷积计算并行化,并未本质上改变卷积的计算方式。很多人脸验证系统在采用GPU计算后,仍达不到实时性要求或难以处理海量的人脸数据。因此,在采用GPU计算设备的基础上,进一步提出方法加快人脸验证的计算速度是很有必要的。
发明内容
针对人脸验证系统计算负担大,运行速度慢的问题,本发明的目的在于提供了一种基于卷积定理进行人脸验证加速的实现方案。在此基础上,人脸验证系统的运行速度明显提高,对海量数据的处理能力得以提升。
为实现上述目的,本发明采用的技术方案如下。在使用GPU并行计算平台的基础上,对满足加速条件的卷积层,采用卷积定理方法替换常规卷积计算方法进行卷积计算。卷积定理表明,空域中的卷积等价于频域中的乘积。通过将耗时的卷积计算转化为频域中的乘积计算,能够显著减少计算量,加快CNN的计算速度,从而提升人脸验证的速度。
描述本方法所用符号如下:
本方法流程如图1所示,包括六个步骤:
步骤1:由卷积层输入参数判断是否满足加速条件。
首先根据卷积层的输入参数,判断是否满足卷积定理的加速条件。标准的卷积计算方法是采用多重循环嵌套进行计算,其时间复杂度Cstd约为Cstd≈M2P2,整个卷积层的时间复杂度Cstd_layer约为Cstd_layer≈KLCstd。卷积定理算法流程中,快速傅里叶变换(FastFourier Transformation,FFT)的时间复杂度CFFT约为 频域乘积求和的时间复杂度Cmul约为Cmul≈4M2。卷积定理的时间复杂度Cconv约为Cconv≈3CFFT+Cmul。整个卷积层采用卷积定理的时间复杂度Cconv_layer约为Cconv_layer≈KCFFT+LCFFT+KLCmul。通过Cstd_layer和Cconv_layer的对比得出,Cconv_layer与卷积核尺寸P无关,并且当满足K+L<<KL时,采用卷积定理计算卷积能显著减少计算量。
步骤2:输入图像和卷积核尺寸扩充。
为了应用卷积定理计算卷积,首先要将输入图像和卷积核扩充至相同尺寸。为了避免因为周期性问题而导致的混淆错误,输入图像的扩充尺寸M′要求满足M′≥M+P-1。扩充后在原数据右下方补零填充,如图2所示。卷积运算中的数据都是由四维构成的,四维数据的尺寸以下标大写字母形式的表示,输入图像具体表示为xS*K*M*M。在以下文字叙述中,为叙述简洁,数据不列出下标。输入图像简写为x,x′表示尺寸扩充后的输入图像。输入图像尺寸扩充操作表示为:
卷积核具体表示为wL*K*P*P,简写为w,w′表示尺寸扩充后的卷积核,尺寸扩充操作为:
输入图像和卷积核延拓后尺寸相同,即M+Q=P+Q′。
步骤3:输入图像和卷积核傅里叶变换。
利用傅里叶变换将图像从空域变换至频域。根据Hermitian对称性,傅里叶变换后的数据存在一半的冗余,因此只需存储和计算一半数据。用x″表示频域中的输入图像,输入图像的傅里叶变换表示如下:
用w″表示频域中的卷积核。卷积核的傅里叶变换表示如下:
步骤4:频域乘积求和计算。
频域的乘积求和公式定义为:
其中,out表示频域乘积求和计算结果,s表示S张输入图像中第s张,l表示L个卷积核个第l个,k表示K个输入图像通道中第k个,m,n表示二维频域中的像素位置。
对于频域中乘积求和计算,直接方法是采用循环嵌套来计算,但无疑效率较低。为了充分利用GPU的并行计算能力,本方法将循环嵌套转换为矩阵相乘形式来完成频域中乘积求和计算。
若要采用矩阵乘积完成计算,首先要将输入图像和卷积核由主通道存储重排列为主像素存储,完成批量矩阵相乘,之后将运算结果反重排列。
步骤4.1:输入图像和卷积核重排列。
x″′表示重排列后的输入图像,输入图像的重排列操作表示为:
w″′表示重排列后的卷积核,卷积核的重排列操作表示为:
步骤4.2:批量矩阵乘积计算。
在完成数据重排列后,将x″′的(m,n)处后两维(s,k)视为一个大小为(S,K)的矩阵,w″′的(m,n)处后两维(l,k)视为另一个大小为(L,K)的矩阵,进行矩阵相乘。如此便完成了(m,n)像素位置处的频域乘积求和计算。矩阵乘积运算批量进行(M+Q)*((M+Q)/2+1)次,便完成全部数据的频域乘积求和运算。out代表矩阵乘积计算后的结果,表示如下:
步骤4.3:计算结果反重排。
out′为out反重排的结果,反重排列操作表示为:
步骤5:计算结果傅里叶反变换。
对out′进行傅里叶反变换前,先根据Hermitian对称性填充另一半数据,然后再做傅里叶反变换,out″为out′傅里叶反变换的结果,得到:
步骤6:计算结果边界裁剪。
由于在进行傅里叶变换前,将输入图像和卷积核的尺寸都进行扩充,所以需要对计算结果的右下方进行裁剪。根据卷积的定义,应保留尺寸为M-P+1,即:
out″′即为卷积运算的最终结果。
本发明具有如下有益效果。
1、本发明提出的加速方法具有无精度损失的优点,不会影响人脸验证的正确率。
2、本发明方法可直接运行在通用GPU计算设备,不需要额外的硬件设备。
附图说明
图1方法流程图
图2输入图像补零填充示意图
图3输入图像的数据重排列示意图
图4输入图像与卷积核矩阵乘积计算示意图
具体实施方式
以下将结合附图和实施例对本发明作进一步详细说明。本发明中,以GPU作为计算平台,采用CUDA作为GPU并行计算框架,选取Caffe作为CNN框架。
具体实施步骤如下:
步骤1:由卷积层输入参数判断是否满足加速条件。
当K、L都大于100或P大于5时,本方法能取得加速效果。
步骤2:输入图像和卷积核尺寸扩充。
采用CUDA_KERNEL_LOOP并行循环,新建N个线程,每个线程处理图像中的一个像素点的扩充操作,N个线程并行进行扩充操作。
对输入图像和卷积核的尺寸进行扩充,需要额外的缓存空间。每个卷积层的参数不相同,需要的缓存空间大小因此也不相同。为避免消耗过多内存,在初始化时离线计算出各卷积层需要的缓存空间,一次性分配其中的最大值。在运行时各卷积层共用这一块缓存区域,而不再为它们单独分配缓存,以此节省内存。
步骤3:输入图像和卷积核傅里叶变换。
采用CUDA提供的cuFFT库来实现傅里叶变换。在初始化时,对各个卷积层,使用cufftPlanMany函数来创建傅里叶变换计划,它能够同时指定多个傅里叶变换。cufftPlanMany函数需要指定数据的内存格式,以便确定每个傅里叶变换所需数据的输入输出位置。对于二维傅里叶变换,其输入和输出数据的内存格式分别为:
input[b*idist+(x*inembed[1]+y)*istride] (12)
output[b*odist+(x*onembed[1]+y)*ostride] (13)
其中,x,y为二维数据中的坐标,b为数据序号,idist为两个数据之间的距离,inembed为二维数据的尺寸,istride为跨度。输出数据output同理。
在运行时,调用cufftExecR2C函数,它根据傅里叶变换计划来完成傅里叶变换。训练完毕的CNN卷积核的数值将不再改变。因此预先进行各卷积层的卷积核尺寸扩充和傅里叶变换计算,并将结果保存起来留待测试时使用,从而节约计算时间。
步骤4:频域乘积求和计算。
采用cuBLAS矩阵计算库,完成数据的重排列和矩阵乘法计算。
步骤4.1:输入图像和卷积核重排列。
为了用cuBLAS库来实现矩阵相乘,在将在同一像素位置处的{x"s,k(m,n)|s=0,1,2....S-1;k=0,1,2,....K-1}组成一个矩阵时,需要在内存中连续存储。但在完成傅里叶变换后,x″是以行为主存储的,即在内存中依次按(s,k,m,n)的次序存储,先存储第0幅图像第0通道的各个傅里叶系数值,之后存储第0幅图像第1通道的各个傅里叶系数值,依次类推;因此,在内存中{x"s,k(m,n)|s=0,1,2....S-1;k=0,1,2,....K-1}并不连续存储,需要先将数据重新排列,使其转换为在内存中以(m,n,s,k)的次序来存储,从而{x"s,k(m,n)|s=0,1,2....S-1;k=0,1,2,....K-1}变为连续存储。
数据重排列通过矩阵转置来实现。x″中,将x″的四维数组视为一个矩阵,前两维(s,k)和后两维(m,n)分别作为矩阵的行和列。将x″进行矩阵转置后得到x″′,则x″′的每行(m,n)对应于该像素位置处的{x"s,k|s=0,1,2....S-1;k=0,1,2,....K-1}集合。由于在以行为主存储时矩阵中每行的数据是连续存储的,因此{x"s,k(m,n)|s=0,1,2....S-1;k=0,1,2,....K-1}将连续存储。上述数据重新排列如图3所示。
使用cublasCgeam函数来完成矩阵转置,矩阵转置执行的操作为:
C=αopA(A)+βopB(B) (14)
其中,op代表是否转置操作。参数设置为:α=1,β=0,opA=T,即可得到转置操作:C=AT。设置A=x″,C=x″′时,实现了输入图像数据的重排列。设置A=w″,C=w″′时,实现卷积核数据的重排列。
步骤4.2:批量矩阵乘积。
当只考察单个像素位置(m,n)时,如果把在(m,n)处的所有输入图像和所有通道的F(xs,k)(即x"s,k)值组成一个矩阵A,其行数和列数分别为S和K,再把(m,n)处的所有卷积核和所有通道的w"l,k值组成另一个矩阵B,其行数和列数分别为L和K,则用矩阵乘积A*BT就能够一次性求出所有S个输入图像和所有L个卷积核在(m,n)处的卷积结果,如图4所示。矩阵乘法通过GPU上的cuBLAS计算库来实现,且不同像素位置处的矩阵乘积计算成批进行,从而完成频域中的乘积求和计算。
CUDA中提供cublasCgemmBatched函数来批量完成多个矩阵相乘计算,与循环调用矩阵相乘相比,效率更高。
cublasCgemmBatched函数执行的运算为:
C[i]=α(opA(A[i])*opB(B[i]))+βC[i],i∈[0,batchCount-1] (15)
其中,i为批序号,batchCount为批量计算数量。令A为输入图像矩阵,B为卷积核矩阵,C为运算结果矩阵,batchCount设置为像素的数目,即:(M+Q)*((M+Q)/2+1)。参数设置为α=1,β=0,opA=N,opB=T,即矩阵A不转置,B转置。
cublasCgemmBatched函数要求指定每批数据中A[i],B[i],C[i]等的起始地址。输入图像中,若x″′为输入图像数组的起始地址,则各批数据的起始地址为:
步骤4.3:计算结果反重排。
计算结果反重排实现方式与4.1中类似,设置参数为A=out,C=out′完成反重排操作。
步骤5:计算结果傅里叶反变换。
实现方式与步骤3中类似,调用cufftExecC2R函数完成傅里叶反变换操作。
步骤6:计算结果边界裁剪。
新建一块尺寸为(M-P+1)*(M-P+1)的内存空间,用以存放最终运算结果。采用CUDA_KERNEL_LOOP并行循环,新建N个线程,N个线程并行处理,将out″中应保留的数据拷贝至最终运算结果的内存空间。
下面给出本发明的一个测试结果。选取Xiang Wu等人提出的“lightened modelA”人脸验证CNN模型进行试验,实验环境如下。GPU型号为GTX 860M,CUDA 7.0版本,每批输入图像的数量为8,共输入1000批人脸图像进行试验。结果为:
从以上实验可以看出,本发明方法相较于常规卷积计算方法能取得明显加速效果。

Claims (1)

1.一种基于卷积定理的人脸验证加速方法,其特征在于:
在使用GPU并行计算平台的基础上,对满足加速条件的卷积层,采用卷积定理方法替换常规卷积计算方法进行卷积计算;卷积定理表明,空域中的卷积等价于频域中的乘积;通过将耗时的卷积计算转化为频域中的乘积计算,能够显著减少计算量,加快CNN的计算速度,从而提升人脸验证的速度;
描述本方法所用符号如下:
x 输入图像 w 卷积核 S 批量输入图像数量 K 输入图像通道数量 L 卷积核数量 M 输入图像尺寸 P 卷积核尺寸 Q 输入图像扩展尺寸 Q′ 卷积核扩展尺寸
本方法包括六个步骤:
步骤1:由卷积层输入参数判断是否满足加速条件;
首先根据卷积层的输入参数,判断是否满足卷积定理的加速条件;标准的卷积计算方法是采用多重循环嵌套进行计算,其时间复杂度Cstd约为Cstd≈M2P2,整个卷积层的时间复杂度Cstd_layer约为Cstd_layer≈KLCstd;卷积定理算法流程中,快速傅里叶变换(Fast FourierTransformation,FFT)的时间复杂度CFFT约为 频域乘积求和的时间复杂度Cmul约为Cmul≈4M2;卷积定理的时间复杂度Cconv约为Cconv≈3CFFT+Cmul;整个卷积层采用卷积定理的时间复杂度Cconv_layer约为Cconv_layer≈KCFFT+LCFFT+KLCmul;通过Cstd_layer和Cconv_layer的对比得出,Cconv_layer与卷积核尺寸P无关,并且当满足K+L<<KL时,采用卷积定理计算卷积能显著减少计算量;
步骤2:输入图像和卷积核尺寸扩充;
为了应用卷积定理计算卷积,首先要将输入图像和卷积核扩充至相同尺寸;为了避免因为周期性问题而导致的混淆错误,输入图像的扩充尺寸M′要求满足M′≥M+P-1;扩充后在原数据右下方补零填充;卷积运算中的数据都是由四维构成的,四维数据的尺寸以下标大写字母形式的表示,输入图像具体表示为xS*K*M*M;在以下文字叙述中,为叙述简洁,数据不列出下标;输入图像简写为x,x′表示尺寸扩充后的输入图像;输入图像尺寸扩充操作表示为:
卷积核具体表示为wL*K*P*P,简写为w,w′表示尺寸扩充后的卷积核,尺寸扩充操作为:
输入图像和卷积核延拓后尺寸相同,即M+Q=P+Q′;
步骤3:输入图像和卷积核傅里叶变换;
利用傅里叶变换将图像从空域变换至频域;根据Hermitian对称性,傅里叶变换后的数据存在一半的冗余,因此只需存储和计算一半数据;用x″表示频域中的输入图像,输入图像的傅里叶变换表示如下:
用w″表示频域中的卷积核;卷积核的傅里叶变换表示如下:
步骤4:频域乘积求和计算;
频域的乘积求和公式定义为:
其中,out表示频域乘积求和计算结果,s表示S张输入图像中第s张,l表示L个卷积核个第l个,k表示K个输入图像通道中第k个,m,n表示二维频域中的像素位置;
对于频域中乘积求和计算,直接方法是采用循环嵌套来计算,但无疑效率较低;为了充分利用GPU的并行计算能力,本方法将循环嵌套转换为矩阵相乘形式来完成频域中乘积求和计算;
若要采用矩阵乘积完成计算,首先要将输入图像和卷积核由主通道存储重排列为主像素存储,完成批量矩阵相乘,之后将运算结果反重排列;
步骤4.1:输入图像和卷积核重排列;
x″′表示重排列后的输入图像,输入图像的重排列操作表示为:
w″′表示重排列后的卷积核,卷积核的重排列操作表示为:
步骤4.2:批量矩阵乘积计算;
在完成数据重排列后,将x″′的(m,n)处后两维(s,k)视为一个大小为(S,K)的矩阵,w″′的(m,n)处后两维(l,k)视为另一个大小为(L,K)的矩阵,进行矩阵相乘;如此便完成了(m,n)像素位置处的频域乘积求和计算;矩阵乘积运算批量进行(M+Q)*((M+Q)/2+1)次,便完成全部数据的频域乘积求和运算;out代表矩阵乘积计算后的结果,表示如下:
步骤4.3:计算结果反重排;
out′为out反重排的结果,反重排列操作表示为:
步骤5:计算结果傅里叶反变换;
对out′进行傅里叶反变换前,先根据Hermitian对称性填充另一半数据,然后再做傅里叶反变换,out″为out′傅里叶反变换的结果,得到:
步骤6:计算结果边界裁剪;
由于在进行傅里叶变换前,将输入图像和卷积核的尺寸都进行扩充,所以需要对计算结果的右下方进行裁剪;根据卷积的定义,应保留尺寸为M-P+1,即:
out″′即为卷积运算的最终结果。
CN201611170720.8A 2016-12-16 2016-12-16 一种基于卷积定理的人脸验证加速方法 Active CN106709441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611170720.8A CN106709441B (zh) 2016-12-16 2016-12-16 一种基于卷积定理的人脸验证加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611170720.8A CN106709441B (zh) 2016-12-16 2016-12-16 一种基于卷积定理的人脸验证加速方法

Publications (2)

Publication Number Publication Date
CN106709441A CN106709441A (zh) 2017-05-24
CN106709441B true CN106709441B (zh) 2019-01-29

Family

ID=58939063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611170720.8A Active CN106709441B (zh) 2016-12-16 2016-12-16 一种基于卷积定理的人脸验证加速方法

Country Status (1)

Country Link
CN (1) CN106709441B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451654B (zh) * 2017-07-05 2021-05-18 深圳市自行科技有限公司 卷积神经网络的加速运算方法、服务器及存储介质
CN109325589B (zh) * 2017-07-31 2021-06-15 华为技术有限公司 卷积计算方法及装置
US10936943B2 (en) 2017-08-31 2021-03-02 Qualcomm Incorporated Providing flexible matrix processors for performing neural network convolution in matrix-processor-based devices
CN108009634B (zh) * 2017-12-21 2021-05-25 美的集团股份有限公司 一种卷积神经网络的优化方法、装置及计算机存储介质
DE102018200534A1 (de) * 2018-01-15 2019-07-18 Robert Bosch Gmbh Verfahren zum Betreiben eines künstlichen neuronalen Netzes
CN110263909B (zh) * 2018-03-30 2022-10-28 腾讯科技(深圳)有限公司 图像识别方法及装置
CN108805030B (zh) * 2018-05-15 2022-03-08 成都理想境界科技有限公司 一种应用于深度学习的特征提取方法及系统
CN108805278B (zh) * 2018-05-15 2022-03-08 成都理想境界科技有限公司 一种应用于深度学习的特征提取方法及系统
CN109583576B (zh) * 2018-12-17 2020-11-06 上海联影智能医疗科技有限公司 一种医学图像处理装置及方法
WO2020125806A1 (en) 2018-12-17 2020-06-25 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for image segmentation
CN110704197B (zh) 2019-10-17 2022-12-09 北京小米移动软件有限公司 处理内存访问开销的方法、装置及介质
CN114815959B (zh) * 2022-06-27 2022-11-01 之江实验室 一种基于波分复用的光子张量计算加速方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616032A (zh) * 2015-01-30 2015-05-13 浙江工商大学 基于深度卷积神经网络的多摄像机系统目标匹配方法
CN106062774A (zh) * 2014-11-15 2016-10-26 北京旷视科技有限公司 使用机器学习进行面部检测
CN106203506A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106062774A (zh) * 2014-11-15 2016-10-26 北京旷视科技有限公司 使用机器学习进行面部检测
CN104616032A (zh) * 2015-01-30 2015-05-13 浙江工商大学 基于深度卷积神经网络的多摄像机系统目标匹配方法
CN106203506A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Scaling Up the Training of Deep CNNs for Human Action Recognition;Rajeswar, MS;《2015 IEEE International Parallel and Distributed Processing Symposium Workshop》;20151001;1172-1177
基于深度卷积神经网络的人体动作识别;吴军等;《华中科技大学学报》;20161031;第44卷;190-194

Also Published As

Publication number Publication date
CN106709441A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106709441B (zh) 一种基于卷积定理的人脸验证加速方法
Bauer et al. Distributed computation of persistent homology
CN108170639B (zh) 基于分布式环境的张量cp分解实现方法
Haber et al. IMEXnet a forward stable deep neural network
US11763156B2 (en) Neural network compression based on bank-balanced sparsity
CN105930902A (zh) 一种神经网络的处理方法、系统
CN105739951B (zh) 一种基于gpu的l1最小化问题快速求解方法
US11676021B1 (en) Multi-model training pipeline in distributed systems
US11620357B2 (en) GPU-based third-order low rank tensor calculation method and apparatus
US11948352B2 (en) Speculative training using partial gradients update
CN114995782B (zh) 数据处理方法、装置、设备和可读存储介质
CN111738276A (zh) 基于多核卷积神经网络的图像处理方法、装置及设备
US9058541B2 (en) Object detection method, object detector and object detection computer program
Funasaka et al. Single kernel soft synchronization technique for task arrays on CUDA-enabled GPUs, with applications
Li et al. Winograd algorithm for addernet
CN109446478B (zh) 一种基于迭代和可重构方式的复协方差矩阵计算系统
Bonny et al. Time efficient segmented technique for dynamic programming based algorithms with FPGA implementation
Gu et al. Decomposition and composition of deep convolutional neural networks and training acceleration via sub-network transfer learning
WO2022007265A1 (zh) 一种膨胀卷积加速计算方法及装置
US11481994B2 (en) Method and apparatus for extracting image data in parallel from multiple convolution windows, device, and computer-readable storage medium
CN116431562B (zh) 一种基于加速处理器的多头注意力机制融合计算分配方法
Peng et al. Adaptive runtime exploiting sparsity in tensor of deep learning neural network on heterogeneous systems
Aliaga et al. Leveraging data-parallelism in ILUPACK using graphics processors
Zhang et al. Implementation of high performance hardware architecture of face recognition algorithm based on local binary pattern on FPGA
Shekhawat et al. On the problem of low rank approximation of tensors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211119

Address after: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee after: Shenzhen Xiaofeng Technology Co.,Ltd.

Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing

Patentee before: Beijing University of Technology

TR01 Transfer of patent right