CN107515736A - 一种在嵌入式设备上加速深度卷积网络计算速度的方法 - Google Patents
一种在嵌入式设备上加速深度卷积网络计算速度的方法 Download PDFInfo
- Publication number
- CN107515736A CN107515736A CN201710528733.6A CN201710528733A CN107515736A CN 107515736 A CN107515736 A CN 107515736A CN 201710528733 A CN201710528733 A CN 201710528733A CN 107515736 A CN107515736 A CN 107515736A
- Authority
- CN
- China
- Prior art keywords
- point
- floating
- float
- high performance
- operation equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/483—Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Nonlinear Science (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种在嵌入式设备上加速深度卷积网络计算速度的方法,包括:根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。本发明能够更好地发挥嵌入式设备的计算能力,减少深度卷积网络的计算时间。
Description
技术领域
本发明涉及基于嵌入式设备的高性能计算及深度学习领域,具体涉及一种在嵌入式设备上加速深度卷积网络计算速度的方法。
背景技术
最近,深度学习(Deep Learning)在图像(视频)理解以及语音(文本)识别等各个领域得到了广泛应用。深度学习常常被看作是通向真正人工智能的重要一步,因而很多公司对深度学习的应用带有比较浓厚的兴趣。在很多学术领域,深度学习与非深度学习算法相比,往往有20-30%成绩的提高。很多大公司也逐渐开始出手投资这种算法,并成立自己的深度学习团队。
深度卷积网络(CNN)是一种多层神经网络,擅长处理图像特别是大图像的相关深度学习问题,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。深度卷积网络是深度学习技术中极具代表的网络结构之一,在图像处理领域取得了很大的成功。CNN相较于传统的图像处理算法的优点之一在于,避免了对图像复杂的前期预处理过程(提取人工特征等),可以直接输入原始图像。
然而深度学习真正应用于实际的工程应用中缺很少,主要的原因是深度学习需要的计算量很大,硬件设备特别是嵌入式硬件设备计算能力不足。深度神经网络中神经元多,神经元间连接数量也相当惊人。从数学的角度看,每个神经元都要包含数学计算(如Sigmoid、ReLU或者Softmax函数),需要估计的参数量也极大。语音识别和图像识别应用中,神经元达数万个,参数数千万,模型复杂导致计算量大。
目前深度学习在实际应用中遇到的问题在于:能满足上述计算能力的设备往往价格昂贵,不能用于实际的工业生产应用,而成本低的嵌入式设备往往计算能力不足。
因此,如何在有限性能的嵌入式设备上充分利用设备资源,提高设备的计算能力,从而使得低成本的嵌入式设备能够满足深度卷积网络的计算需求,进而使得深度学习能应用到实际应用中,成为了急待攻克的重要课题。
发明内容
本发明的目的在于,针对现有技术中存在的问题,提供一种在嵌入式设备上加速深度卷积网络计算速度的方法,充分利用嵌入式设备上的CPU和GPU进行动态负载均衡,加快深度卷积网络处理图像视频数据的速度,以解决嵌入式设备上深度卷积网络计算量大、耗时长的问题。
为实现上述目的,本发明采用以下技术方案:
一种在嵌入式设备上加速深度卷积网络计算速度的方法,所述嵌入式设备包括至少一个CPU和至少一个GPU,所述方法包括:
根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;
在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;
当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。
进一步地,根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备的方法为:
嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理,其中,先处理完的定义为高性能浮点运算设备,后处理完的定义为低性能浮点运算设备。
进一步地,所述CPU包括浮点运算单元和监控单元;其中,浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备进行深度卷积网络计算;监控单元用于建立监控线程,监控低性能浮点运算设备的负载状态。
进一步地,所述CPU的浮点运算单元利用单指令多数据(Single InstructionMultiple Data)并行处理深度卷积网络的浮点运算。
进一步地,所述CPU的不同核间使用OpenMP进行数据共享,使用Neon指令集做浮点运算。
进一步地,所述GPU利用OpenCL做数据并行处理,提升深度卷积网络处理图像数据的速度。
进一步地,当高性能浮点运算设备接收到来自监控线程的强制处理下一帧图像数据的信号时,高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止,并将该层输出的中间处理结果输入到低性能浮点运算设备;若接收到信号时,高性能浮点运算设备正在处理当前网络层,则等待当前网络层处理完毕,再将该层输出的中间处理结果输入到低性能浮点运算设备。
进一步地,高性能浮点运算设备和低性能浮点运算设备之间的通信,通过监控线程调控完成,高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。
进一步地,当监控线程发现低性能浮点运算设备处于低负载或空载状态,且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时,高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理;同时,低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务;
所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。
进一步地,所述嵌入式设备为移动终端设备,包括:移动手机、游戏盒子、平板电脑和卡片式电脑计算机。
与现有技术相比,本发明充分利用了嵌入式设备上有限的CPU和GPU资源,使用单指令多数据和Neon指令集充分发挥CPU的浮点运算能力,使用OpenCL充分发挥了GPU的浮点运算能力,并通过动态负载均衡地加速深度卷积网络计算,能够更好地发挥嵌入式设备的计算能力,减少深度卷积网络的计算时间。
附图说明
图1是本发明实施例的原理示意图。
图2是本发明实施例的深度卷积网络计算任务分配示意图。
具体实施方式
下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。
如图1所示,本发明提供了一种在嵌入式设备上加速深度卷积网络计算速度的方法,该方法主要应用于嵌入式设备上,所述嵌入式设备应包括至少一个CPU和至少一个GPU。通过在处理图像视频数据的过程中,对CPU和GPU进行动态负载均衡,来加速深度卷积神经网络的计算速度,以解决嵌入式设备上深度卷积网络计算量大,耗时长的问题。
所述嵌入式设备包括:移动手机、游戏盒子、平板电脑、卡片式电脑计算机等移动终端设备。
本发明的核心思想是根据CPU和GPU的性能差异分配不同的任务。具体地,所述方法包括:
首先,根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;
接着,在进行深度卷积网络计算时,高性能浮点运算设备(图1所示的设备1)逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;
当监控线程发现低性能浮点运算设备(图1所示的设备2)处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。
需要说明的是,本发明中所定义的高性能浮点运算设备和低性能浮点运算设备,主要是为了将CPU和GPU的性能差异进行比较和区分,以便于进行计算任务的动态分配。所谓的“高性能”和“低性能”也只是针对两者相比较而言,并非指代特殊的性能指标。在实际应用中,所述高性能浮点运算设备可以是CPU也可以是GPU,具体需要对CPU和GPU进行性能比对得出。
具体地,在本实施例中,分辨高性能浮点运算设备和低性能浮点运算设备的方法为:嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理,其中,先处理完的定义为高性能浮点运算设备,后处理完的定义为低性能浮点运算设备。简单而言,所述高性能浮点运算设备是CPU或GPU中单独处理一张图片较快的设备,所述低性能浮点运算设备是CPU或GPU中单独处理一张图片较慢的设备。
在本发明中,所述CPU主要分为两个模块:浮点运算单元和监控单元。其中,浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备参与深度卷积网络计算;监控单元用于建立监控线程,监控低性能浮点运算设备的负载状态。
进一步地,所述CPU的浮点运算单元利用单指令多数据(Single InstructionMultiple Data)并行处理深度卷积网络的浮点运算。所述CPU的不同核间使用OpenMP进行数据共享,使用Neon指令集做浮点运算。所述GPU利用OpenCL做数据并行处理,提升深度卷积网络处理图像数据的速度。
本发明在利用嵌入式设备进行深度卷积网络计算的过程中,对高性能浮点运算设备和低性能浮点运算设备的计算任务进行动态分配。具体的任务分配取决于低性能浮点运算设备何时处于低负载或者空载状态,以此使高性能浮点运算设备和低性能浮点运算设备协同计算,实现负载均衡。
高性能浮点运算设备和低性能浮点运算设备之间的通信,通过监控线程调控完成,高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。
具体地,在进行深度卷积网络计算的过程中,所述监控线程在没有接收到所述低性能浮点运算设备处于低负载或者空载状态的信号时,即低性能浮点运算设备持续处于高负载状态时,所述高性能浮点运算设备按设定的任务逐帧获取图像数据并按照深度卷积网络的层次依次进行计算处理,直至处理完所有的视频数据。
一旦所述低性能浮点运算设备进入低负载或者空载状态,则广播告知监控线程,并准备接收来自高性能浮点运算设备的数据和处理任务。
监控线程在收到低性能浮点运算设备的广播信息后,向高性能浮点运算设备发送一个强制结束当前帧处理并开始下一帧处理的信号;然后继续监控低性能浮点运算设备的状态。
如图2所示,当高性能浮点运算设备(图2所示的设备1)接收到来自监控线程的强制处理下一帧图像数据的信号时,高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止,并将该层输出的中间处理结果输入到低性能浮点运算设备(图2所示的设备2);若接收到信号时,高性能浮点运算设备正在处理当前网络层,则等待当前网络层处理完毕,再将该层输出的中间处理结果输入到低性能浮点运算设备。
以上方法中,本发明将整个卷积神经网络的所有层动态划分为两个部分,所述高性能浮点运算设备接收输入数据开始进行深度卷积网络的处理,所述低性能浮点运算设备的输入来自所述高性能浮点运算设备输出的中间处理结果,由监控线程协调分配。
进一步地,在分辨高性能浮点运算设备和低性能浮点运算设备时,根据高性能浮点运算设备处理一张图片的时间可以知道高性能浮点运算设备对整个深度卷积网络每个层的大致处理时间。因此可以对本发明做出如下改进:
如图2所示,当监控线程发现低性能浮点运算设备处于低负载或空载状态,且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时,高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理;同时,低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务。其中,所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。
按照本发明的方法,高性能浮点运算设备一直处于高负载状态,而低性能浮点运算设备一旦处于低负载或者空载状态,监控线程会立刻将高性能浮点运算设备对当前帧图像数据的剩余计算任务交付给低性能浮点运算设备处理,因此,低性能浮点运算设备也几乎一直处于高负载状态。
按照本发明的方法,嵌入式设备上可用于计算的资源可以被充分利用,CPU和GPU针对处理任务实现负载均衡,从而减少深度卷积网络处理所需的时间,使得嵌入式设备能更好地将深度学习应用于实际应用中。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种在嵌入式设备上加速深度卷积网络计算速度的方法,所述嵌入式设备包括至少一个CPU和至少一个GPU,其特征在于,所述方法包括:
根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;
在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;
当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。
2.根据权利要求1所述的方法,其特征在于,根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备的方法为:
嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理,其中,先处理完的定义为高性能浮点运算设备,后处理完的定义为低性能浮点运算设备。
3.根据权利要求1所述的方法,其特征在于,所述CPU包括浮点运算单元和监控单元;其中,浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备进行深度卷积网络计算;监控单元用于建立监控线程,监控低性能浮点运算设备的负载状态。
4.根据权利要求3所述的方法,其特征在于,所述CPU的浮点运算单元利用单指令多数据(Single Instruction Multiple Data)并行处理深度卷积网络的浮点运算。
5.根据权利要求4所述的方法,其特征在于,所述CPU的不同核间使用OpenMP进行数据共享,使用Neon指令集做浮点运算。
6.根据权利要求1所述的方法,其特征在于,所述GPU利用OpenCL做数据并行处理,提升深度卷积网络处理图像数据的速度。
7.根据权利要求1所述的方法,其特征在于,当高性能浮点运算设备接收到来自监控线程的强制处理下一帧图像数据的信号时,高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止,并将该层输出的中间处理结果输入到低性能浮点运算设备;若接收到信号时,高性能浮点运算设备正在处理当前网络层,则等待当前网络层处理完毕,再将该层输出的中间处理结果输入到低性能浮点运算设备。
8.根据权利要求7所述的方法,其特征在于,高性能浮点运算设备和低性能浮点运算设备之间的通信,通过监控线程调控完成,高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。
9.根据权利要求7所述的方法,其特征在于,当监控线程发现低性能浮点运算设备处于低负载或空载状态,且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时,高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理;同时,低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务;
所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。
10.根据权利要求1所述的方法,其特征在于,所述嵌入式设备为移动终端设备,包括:移动手机、游戏盒子、平板电脑和卡片式电脑计算机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710528733.6A CN107515736B (zh) | 2017-07-01 | 2017-07-01 | 一种在嵌入式设备上加速深度卷积网络计算速度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710528733.6A CN107515736B (zh) | 2017-07-01 | 2017-07-01 | 一种在嵌入式设备上加速深度卷积网络计算速度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107515736A true CN107515736A (zh) | 2017-12-26 |
CN107515736B CN107515736B (zh) | 2021-01-15 |
Family
ID=60722091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710528733.6A Active CN107515736B (zh) | 2017-07-01 | 2017-07-01 | 一种在嵌入式设备上加速深度卷积网络计算速度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107515736B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305271A (zh) * | 2018-01-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种视频帧图像处理方法和装置 |
CN108491890A (zh) * | 2018-04-04 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 图像方法和装置 |
CN108958938A (zh) * | 2018-06-29 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置及设备 |
CN109522185A (zh) * | 2018-11-19 | 2019-03-26 | 江苏镭博智能科技有限公司 | 一种模型分割提高运算速度的方法 |
CN109598250A (zh) * | 2018-12-10 | 2019-04-09 | 北京旷视科技有限公司 | 特征提取方法、装置、电子设备和计算机可读介质 |
CN110135580A (zh) * | 2019-04-26 | 2019-08-16 | 华中科技大学 | 一种卷积网络全整型量化方法及其应用方法 |
CN110231928A (zh) * | 2018-03-06 | 2019-09-13 | 北京京东尚科信息技术有限公司 | 用于处理浮点数的系统、浮点数处理方法及装置 |
US11803733B2 (en) | 2019-08-01 | 2023-10-31 | Samsung Electronics Co., Ltd. | Method for implementing neural network model in heterogeneous computing platform and apparatus for performing the same |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030095A (zh) * | 2006-03-02 | 2007-09-05 | 联想(新加坡)私人有限公司 | 发热量的控制方法以及计算机 |
US20090027403A1 (en) * | 2007-07-26 | 2009-01-29 | Lg Electronics Inc. | Graphic data processing apparatus and method |
CN101706741A (zh) * | 2009-12-11 | 2010-05-12 | 中国人民解放军国防科学技术大学 | 一种基于负载平衡的cpu和gpu两级动态任务划分方法 |
CN101802774A (zh) * | 2007-09-20 | 2010-08-11 | 苹果公司 | 在图形源之间切换以便于实现功率管理和/或安全性 |
JP2014021810A (ja) * | 2012-07-20 | 2014-02-03 | Seiko Epson Corp | 衝突検出システム、衝突検出用データ生成装置、ロボットシステム、ロボット、衝突検出用データ生成方法及びプログラム |
CN103582509A (zh) * | 2010-12-14 | 2014-02-12 | 亚马逊技术股份有限公司 | 通用处理器和图形处理器之间的负载均衡 |
US20140109105A1 (en) * | 2012-10-17 | 2014-04-17 | Electronics And Telecommunications Research Institute | Intrusion detection apparatus and method using load balancer responsive to traffic conditions between central processing unit and graphics processing unit |
US20140173311A1 (en) * | 2012-12-17 | 2014-06-19 | Samsung Electronics Co., Ltd. | Methods and Systems for Operating Multi-Core Processors |
US20150046729A1 (en) * | 2013-08-08 | 2015-02-12 | Renesas Electronics Corporation | Semiconductor apparatus and control method therof |
CN104536937A (zh) * | 2014-12-30 | 2015-04-22 | 深圳先进技术研究院 | 基于cpu-gpu异构集群的大数据一体机实现方法 |
CN104539972A (zh) * | 2014-12-08 | 2015-04-22 | 中安消技术有限公司 | 一种多核处理器中视频并行解码的控制方法和装置 |
CN104869398A (zh) * | 2015-05-21 | 2015-08-26 | 大连理工大学 | 一种基于cpu+gpu异构平台实现hevc中的cabac的并行方法 |
CN105630882A (zh) * | 2015-12-18 | 2016-06-01 | 哈尔滨工业大学深圳研究生院 | 基于遥感数据深度学习的近海污染物识别与跟踪方法 |
CN105869117A (zh) * | 2016-03-28 | 2016-08-17 | 上海交通大学 | 一种针对深度学习超分辨率技术的gpu加速方法 |
CN106170743A (zh) * | 2014-04-08 | 2016-11-30 | 高通股份有限公司 | 多处理器片上系统中的能效感知热管理 |
CN106575379A (zh) * | 2014-09-09 | 2017-04-19 | 英特尔公司 | 用于神经网络的改进的定点整型实现方式 |
-
2017
- 2017-07-01 CN CN201710528733.6A patent/CN107515736B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030095A (zh) * | 2006-03-02 | 2007-09-05 | 联想(新加坡)私人有限公司 | 发热量的控制方法以及计算机 |
US20090027403A1 (en) * | 2007-07-26 | 2009-01-29 | Lg Electronics Inc. | Graphic data processing apparatus and method |
CN101802774A (zh) * | 2007-09-20 | 2010-08-11 | 苹果公司 | 在图形源之间切换以便于实现功率管理和/或安全性 |
CN101706741A (zh) * | 2009-12-11 | 2010-05-12 | 中国人民解放军国防科学技术大学 | 一种基于负载平衡的cpu和gpu两级动态任务划分方法 |
CN103582509A (zh) * | 2010-12-14 | 2014-02-12 | 亚马逊技术股份有限公司 | 通用处理器和图形处理器之间的负载均衡 |
JP2014021810A (ja) * | 2012-07-20 | 2014-02-03 | Seiko Epson Corp | 衝突検出システム、衝突検出用データ生成装置、ロボットシステム、ロボット、衝突検出用データ生成方法及びプログラム |
US20140109105A1 (en) * | 2012-10-17 | 2014-04-17 | Electronics And Telecommunications Research Institute | Intrusion detection apparatus and method using load balancer responsive to traffic conditions between central processing unit and graphics processing unit |
US20140173311A1 (en) * | 2012-12-17 | 2014-06-19 | Samsung Electronics Co., Ltd. | Methods and Systems for Operating Multi-Core Processors |
US20150046729A1 (en) * | 2013-08-08 | 2015-02-12 | Renesas Electronics Corporation | Semiconductor apparatus and control method therof |
CN106170743A (zh) * | 2014-04-08 | 2016-11-30 | 高通股份有限公司 | 多处理器片上系统中的能效感知热管理 |
CN106575379A (zh) * | 2014-09-09 | 2017-04-19 | 英特尔公司 | 用于神经网络的改进的定点整型实现方式 |
CN104539972A (zh) * | 2014-12-08 | 2015-04-22 | 中安消技术有限公司 | 一种多核处理器中视频并行解码的控制方法和装置 |
CN104536937A (zh) * | 2014-12-30 | 2015-04-22 | 深圳先进技术研究院 | 基于cpu-gpu异构集群的大数据一体机实现方法 |
CN104869398A (zh) * | 2015-05-21 | 2015-08-26 | 大连理工大学 | 一种基于cpu+gpu异构平台实现hevc中的cabac的并行方法 |
CN105630882A (zh) * | 2015-12-18 | 2016-06-01 | 哈尔滨工业大学深圳研究生院 | 基于遥感数据深度学习的近海污染物识别与跟踪方法 |
CN105869117A (zh) * | 2016-03-28 | 2016-08-17 | 上海交通大学 | 一种针对深度学习超分辨率技术的gpu加速方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305271A (zh) * | 2018-01-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种视频帧图像处理方法和装置 |
CN108305271B (zh) * | 2018-01-25 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 一种视频帧图像处理方法和装置 |
CN110231928A (zh) * | 2018-03-06 | 2019-09-13 | 北京京东尚科信息技术有限公司 | 用于处理浮点数的系统、浮点数处理方法及装置 |
CN108491890A (zh) * | 2018-04-04 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 图像方法和装置 |
CN108491890B (zh) * | 2018-04-04 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 图像方法和装置 |
CN108958938A (zh) * | 2018-06-29 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置及设备 |
CN108958938B (zh) * | 2018-06-29 | 2020-01-14 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置及设备 |
CN109522185A (zh) * | 2018-11-19 | 2019-03-26 | 江苏镭博智能科技有限公司 | 一种模型分割提高运算速度的方法 |
CN109598250A (zh) * | 2018-12-10 | 2019-04-09 | 北京旷视科技有限公司 | 特征提取方法、装置、电子设备和计算机可读介质 |
CN110135580A (zh) * | 2019-04-26 | 2019-08-16 | 华中科技大学 | 一种卷积网络全整型量化方法及其应用方法 |
US11803733B2 (en) | 2019-08-01 | 2023-10-31 | Samsung Electronics Co., Ltd. | Method for implementing neural network model in heterogeneous computing platform and apparatus for performing the same |
Also Published As
Publication number | Publication date |
---|---|
CN107515736B (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515736A (zh) | 一种在嵌入式设备上加速深度卷积网络计算速度的方法 | |
Matsubara et al. | Distilled split deep neural networks for edge-assisted real-time systems | |
CN106650928A (zh) | 一种神经网络的优化方法及装置 | |
Koutník et al. | Evolving deep unsupervised convolutional networks for vision-based reinforcement learning | |
Dean et al. | Large scale distributed deep networks | |
CN109657793B (zh) | 模型训练方法及装置、存储介质及电子设备 | |
CN109948165A (zh) | 基于混合注意力网络的细粒度情感极性预测方法 | |
US20180018555A1 (en) | System and method for building artificial neural network architectures | |
CN106326939A (zh) | 卷积神经网络的参数优化方法及系统 | |
CN114912705A (zh) | 一种联邦学习中异质模型融合的优化方法 | |
WO2023202511A1 (zh) | 一种数据的处理方法、神经网络的训练方法以及相关设备 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN109597965A (zh) | 基于深度神经网络的数据处理方法、系统、终端及介质 | |
CN110070119B (zh) | 一种基于二值化深度神经网络的手写数字图像识别分类方法 | |
CN108334945A (zh) | 深度神经网络的加速与压缩方法及装置 | |
CN113469373A (zh) | 基于联邦学习的模型训练方法、系统、设备及存储介质 | |
CN111666919A (zh) | 一种对象识别方法、装置、计算机设备和存储介质 | |
US20230215136A1 (en) | Method for training multi-modal data matching degree calculation model, method for calculating multi-modal data matching degree, and related apparatuses | |
CN114897149A (zh) | 一种多任务多分支注意力网络结构 | |
CN114332590A (zh) | 联合感知模型训练、联合感知方法、装置、设备和介质 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN111199276B (zh) | 数据处理方法及相关产品 | |
CN110610140A (zh) | 人脸识别模型的训练方法、装置、设备及可读存储介质 | |
CN113344213A (zh) | 知识蒸馏方法、装置、电子设备及计算机可读存储介质 | |
Coppens et al. | Gunreal: Gpu-accelerated unsupervised reinforcement and auxiliary learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220328 Address after: 511455 No. 106, Fengze East Road, Nansha District, Guangzhou City, Guangdong Province (self compiled Building 1) x1301-b013290 Patentee after: Guangzhou wisdom Technology (Guangzhou) Co.,Ltd. Address before: 510000 210-5, Chuangqi Building 1, 63 Chuangqi Road, Shilou Town, Panyu District, Guangzhou City, Guangdong Province Patentee before: GUANGZHOU SHENYU INFORMATION TECHNOLOGY CO.,LTD. |