CN110175636A - 一种物联网深度神经网络分布式判别推论系统及方法 - Google Patents
一种物联网深度神经网络分布式判别推论系统及方法 Download PDFInfo
- Publication number
- CN110175636A CN110175636A CN201910380596.5A CN201910380596A CN110175636A CN 110175636 A CN110175636 A CN 110175636A CN 201910380596 A CN201910380596 A CN 201910380596A CN 110175636 A CN110175636 A CN 110175636A
- Authority
- CN
- China
- Prior art keywords
- neural network
- model
- embedded
- deep neural
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000009826 distribution Methods 0.000 title claims description 20
- 230000004069 differentiation Effects 0.000 title abstract description 8
- 238000003062 neural network model Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000004891 communication Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 26
- 238000005457 optimization Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 12
- 238000013138 pruning Methods 0.000 claims description 11
- 238000011045 prefiltration Methods 0.000 claims description 10
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000006855 networking Effects 0.000 claims description 6
- 238000007796 conventional method Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000003032 molecular docking Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 239000011229 interlayer Substances 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 210000000548 hind-foot Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明为一种基于深度神经网络的分布式判别系统。所述系统对深度神经网络的进行分割,并将分割后的神经网络模型在嵌入式端以及云端服务器上分别进行部署。嵌入式端设备与云端服务的数据通信为神经网络隐藏层间的输出输入特征向量,而非原始图像数据或判别后的结果数据。在充分利用嵌入式端的计算资源的基础上,本发明平衡嵌入式处理器算力局限与网络传输的延迟与费用的平衡,实现算力,延迟,流量上资源的最优平衡与配置。本发明中实现所述最优配置的方法为一种深度神经网络的分割决策系统,它使用深度神经网络模型、嵌入式端算力、网络带宽作为分割决策系统的输入数,使用网络流量作为分割决策系统的约束集,实现端到端检测的最低延迟。
Description
技术领域
本发明涉及物联网视频图像的智能分析领域,具体涉及一种物联网深度神经网络分布式判别推论系统及方法。
背景技术
随着图像处理单元GPU在深度学习领域中的使用,深度神经网络的模型研发与市场应用迎来爆发。例如在视频,图像,音频分析处理上,深度神经网络展现的超越人工判别处理的准确率,在人脸识别,车联网驾驶员行为分析,音频转录等领域有着广泛的应用。
随着嵌入式设备处理性能的增长,以及移动网络4G/5G的发展与普及,移动与边缘计算正在物联网领域引领新的应用。然而深度学习模型通常需要大量的计算和处理。如使用嵌入式设备运行深度学习模型,对设备本身的性能要较高,导致硬件成本的提高和计算性能的局限。如嵌入式设备无法完全满足深度学习所需计算。通常的实施方法为通过嵌入式设备进行数据的采集和判别,将判别结果上行传输至中心服务器。进行深度学习的推理。
在物联网领域,由于受到嵌入式处理器算力的限制,往往只能运行经典人工智能算法或简单的神经网络模型。在市场应用及性能上受到局限。针对嵌入式端处理性能不足的问题,一种解决办法是使用云端处理服务器。即,嵌入式设备图像采集,进行适当的预处理后将图像上行传输至中心服务器,中心服务器进行判别。这种解决方案的不足在于,网络传输的延迟导致了应用的局限性,无法应用在实时处理分析。同时,由于图像及视频的数据量会产生大量的网络传输流量,进而产生移动通信的费用,造成算力,延迟,流量上资源不能实现最优平衡与配置。
发明内容
本发明的目的在于提供一种物联网深度神经网络分布式判别推论系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种物联网深度神经网络分布式判别推论系统,包括视频或图像采集设备、数量至少为一个的智能判别服务器和数量至少为一个嵌入式判别设备组成,其中智能判别服务器运行于云端,即公有云、私有云或托管服务器,智能判别服务器使用至少一个CUDA兼容GPU,嵌入式判别设备运行于车联网车载终端,所述嵌入式设备使用ARM微处理器,运行Linux操作系统,嵌入式判别设备连接视频或图像采集设备并通过无线移动通信网络连接智能判别服务器。
优选地实施方式中,所述智能判别服务器使用Tensorflow Serving运行于CUDA兼容 GPU之上,实现“请求-处理”的多路复用机制,所述智能判别服务器的数量为两个以上,所述每个智能判别服务器可使用数量为两个以上的GPU,所述数量为两个以上的智能判别服务器可以组成用于增加处理容量的智能判别集群。
优选地实施方式中,所述嵌入式判别设备连接视频或图像采集设备并通过无线移动通信网络连接智能判别集群。
优选地实施方式中,该物联网深度神经网络分布式判别推论系统还包括深度神经网络模型,所述嵌入式设备上运行Tensorflow Lite,所述深度神经网络模型在GPU服务器集群中进行大规模训练及优化,模型训练完成后,依据嵌入式设备的处理性能以及上行通信带宽,对模型进行分割,使部分部署于嵌入式设备中的Tensorflow Lite框架中,部分部署于智能判别服务器中的Tensorflow Serving框架。
优选地实施方式中,所述嵌入式设备获取图像信息后,进行预处理,与传统方法不同,嵌入式设备对图像和视频数据进行预处理后,并不直接上传,图像数据输入TensorflowLite模型中进行处理。
一种物联网深度神经网络分布式判别推论方法,包括以下步骤:
步骤一:训练过程可在GPU上进行,训练可使用Tensorflow Serving框架;
步骤二:训练结束后,可在保证测试数据集准确性及鲁棒性的前提下,对模型进行剪枝或压缩;
步骤三:剪枝压缩后,对模型进行整合及格式转换;
步骤四:对模型进行隐藏层分析;
步骤五:按照分割决策器的输出结果,对模型进行分割后的模型进行部署。
优选地,所述步骤四对模型进行隐藏层分析的核心为一个机器学习分类器实现的分割决策器对模型进行隐藏层分析,其隐藏分析步骤如下:
步骤一:对剪枝压缩后,对模型进行整合及格式转换的数据通过预期网络带宽输入神经网络模型和嵌入式判别设备;
步骤二:配置最优化任务的目标函数,即端到端处理延迟由嵌入式端前置层处理延迟、网络带宽延迟与服务器端处理延迟构成。
步骤三:配置最优化任务的约束集,即网络带宽流量上限,例如,可设置流量使用上限为200kbps。
步骤四:执行最优化任务对神经网络模型进行分析获得各层计算量、输入输出特征向量,并结合嵌入式算力与网络带宽,在约束集内进行非线性规划,例如,嵌入式设备的处理性能越强,则可以处理越多分层的神经网络模型,上行通信的数据量则可以越少,最优分割方案在约束条件内实现在最小端到端处理延迟。
步骤五:隐藏层分析输出为神经网络模型的嵌入式端前置层与服务器端后置层的分割分配。
优选地实施方式中,所述步骤五按照分割决策器的输出结果,对模型进行分割的模型进行部署的方法包含如下步骤:
步骤一:将前端模型部署与嵌入式设备中Tensorflow、Tensorflow Lite或Tensorflow.js框架中。
步骤二:对接前端模型和预处理以及网络通信。
步骤三:部署后端模型于Tensorflow Serving框架中,形成云端智能判别器,运行于处理器集群中。
与现有技术相比,本发明的有益效果是:解决嵌入式处理器算力局限与网络传输的延迟与费用的平衡,实现算力,延迟,流量上资源的最优平衡与配置。
附图说明
图1是本发明整体系统架构。
图2是本发明实施流程图。
图3是模型分割算法图。
图4是本发明硬件系统拓扑图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅说明书附图,本发明提供一种技术方案:一种物联网深度神经网络分布式判别推论系统,包括视频或图像采集设备、数量至少为一个的智能判别服务器和数量至少为一个嵌入式判别设备组成,其中智能判别服务器运行于云端,即公有云、私有云或托管服务器,智能判别服务器使用至少一个CUDA兼容GPU,嵌入式判别设备运行于车联网车载终端,所述嵌入式设备使用ARM微处理器,运行Linux操作系统,嵌入式判别设备连接视频或图像采集设备并通过无线移动通信网络连接智能判别服务器。
优选地,所述智能判别服务器使用Tensorflow Serving运行于CUDA兼容GPU之上,实现“请求-处理”的多路复用机制,所述智能判别服务器的数量为两个以上,所述每个智能判别服务器可使用数量为两个以上的GPU,所述数量为两个以上的智能判别服务器可以组成用于增加处理容量的智能判别集群。
优选地,所述嵌入式判别设备连接视频或图像采集设备并通过无线移动通信网络连接智能判别集群。
优选地,该物联网深度神经网络分布式判别推论系统还包括深度神经网络模型,所述嵌入式设备上运行Tensorflow Lite,所述深度神经网络模型在GPU服务器集群中进行大规模训练及优化,模型训练完成后,依据嵌入式设备的处理性能以及上行通信带宽,对模型进行分割,使部分部署于嵌入式设备中的Tensorflow Lite框架中,部分部署于智能判别服务器中的Tensorflow Serving框架。
优选地,所述嵌入式设备获取图像信息后,进行预处理,与传统方法不同,嵌入式设备对图像和视频数据进行预处理后,并不直接上传,图像数据输入Tensorflow Lite模型中进行处理。
一种物联网深度神经网络分布式判别推论方法,包括以下步骤:
步骤一:训练过程可在GPU上进行,训练可使用Tensorflow Serving框架;
步骤二:训练结束后,可在保证测试数据集准确性及鲁棒性的前提下,对模型进行剪枝或压缩;
步骤三:剪枝压缩后,对模型进行整合及格式转换;
步骤四:对模型进行隐藏层分析;
步骤五:按照分割决策器的输出结果,对模型进行分割后的模型进行部署。
优选地,对模型进行隐藏层分析的核心为一个机器学习分类器实现的分割决策器对模型进行隐藏层分析,其隐藏分析步骤如下:
步骤一:对剪枝压缩后,对模型进行整合及格式转换的数据通过预期网络带宽输入神经网络模型和嵌入式判别设备;
步骤二:配置最优化任务的目标函数,即端到端处理延迟由嵌入式端前置层处理延迟、网络带宽延迟与服务器端处理延迟构成。
步骤三:配置最优化任务的约束集,即网络带宽流量上限,例如,可设置流量使用上限为200kbps。
步骤四:执行最优化任务对神经网络模型进行分析获得各层计算量、输入输出特征向量,并结合嵌入式算力与网络带宽,在约束集内进行非线性规划,例如,嵌入式设备的处理性能越强,则可以处理越多分层的神经网络模型,上行通信的数据量则可以越少,最优分割方案在约束条件内实现在最小端到端处理延迟。
步骤五:隐藏层分析输出为神经网络模型的嵌入式端前置层与服务器端后置层的分割分配。
优选地,按照分割决策器的输出结果,对模型进行分割的模型进行部署的方法包含如下步骤:
步骤一:将前端模型部署与嵌入式设备中Tensorflow、Tensorflow Lite或Tensorflow.js框架中。
步骤二:对接前端模型和预处理以及网络通信。
步骤三:部署后端模型于Tensorflow Serving框架中,形成云端智能判别器,运行于处理器集群中。
本发明系统对深度神经网络的进行分割,并将分割后的神经网络模型在嵌入式端以及云端服务器上分别进行部署。嵌入式端设备与云端服务的数据通信为神经网络隐藏层间的输出输入特征向量,而非原始图像数据或判别后的结果数据。在充分利用嵌入式端的计算资源的基础上,本发明平衡嵌入式处理器算力局限与网络传输的延迟与费用的平衡,实现算力,延迟,流量上资源的最优平衡与配置。本发明中实现所述最优配置的方法为一种深度神经网络的分割决策系统,它使用深度神经网络模型、嵌入式端算力、网络带宽作为分割决策系统的输入数,使用网络流量作为分割决策系统的约束集,实现端到端检测的最低延迟。
本发明所提供的分布式系统由:至少一个智能判别服务器和至少一个嵌入式判别设备组成。
其中智能判别服务器运行于云端,即公有云、私有云或托管服务器。智能判别服务器使用至少一个CUDA兼容GPU。嵌入式判别设备运行于车联网车载终端。所述嵌入式设备使用ARM微处理器,运行Linux操作系统。嵌入式设备连接视频或图像采集设备并通过无线移动通信网络连接智能判别服务器集群。
本系统中智能判别服务器使用Tensorflow Serving运行于CUDA兼容GPU之上,实现“请求-处理”的多路复用机制。每个智能判别服务器可使用多个GPU,多个智能判别服务器可以组成智能判别集群,增加处理容量。
嵌入式设备上运行Tensorflow Lite,一种轻量级嵌入式端的深度学习框架。与现有嵌入式神经网络系统不同,本方案中嵌入式设备上不运行完整的深度神经网络模型。
如图2,本系统中所使用的深度神经网络模型在GPU服务器集群中进行大规模训练及优化。模型训练完成后,依据嵌入式设备的处理性能以及上行通信带宽,对模型进行分割:部分部署于嵌入式设备中的Tensorflow Lite框架中,部分部署于智能判别服务器中的Tensorflow Serving框架。
如图3,模型分割本身为一个非线性组合最优化任务,其核心为一个机器学习分类器实现的分割决策器。最优化任务的输入为神经网络模型、预期移动网络带宽、嵌入式处理器算力。最优化任务的输出(即最优可行解)为神经网络模型的嵌入式端前置层与服务器端后置层的分割分配。最优化任务的目标函数为端到端处理延迟,由嵌入式端前置层处理延迟、网络通信延迟与服务器端处理延迟构成。最优化任务包括一个约束集,即网络带宽流量上限。例如,可设置流量使用上线为200kbps。最优化任务对神经网络模型进行分析获得各层计算量、输入输出特征向量,并结合嵌入式算力与网络带宽,在约束集内进行非线性规划。例如,嵌入式设备的处理性能越强,则可以处理越多分层的神经网络模型,上行通信的数据量则可以越少。最优分割方案在约束条件内实现在最小端到端处理延迟。
所述嵌入式设备获取图像信息后,进行预处理。与传统方法不同,嵌入式设备对图像和视频数据进行预处理后,并不直接上传。图像数据输入Tensorflow Lite模型中进行处理。模型为分割后前段部分深度神经网络。输出层不使用softmax或sigmoid等损失函数而是池化层结果。池化层对前层数据进行降采样,在神经网络中常常使用,避免过拟合等问题。由于降采样减少数据及参数量,池化层具有数据压缩的效果。
池化层输出的结果为前层数据的特征向量,通过前述分割办法,可以确保该特征向量的数据量小于原始图像数据量。所述嵌入式设备通过无线通信将特征向量及设备ID传输至云端智能判别服务器。
云端智能判别服务器在Tensorflow Serving框架中运行前述分割后的后段部分神经网络,处理结果结合所接受的设备ID实现对特定物联网设备采集的视频数据实现行为分析和判别。
由于部分深度神经网络运行与所述嵌入式设备,云端智能判别服务器无需实现全部神经网络的推理。因此,云端智能判别服务器所需计算量小于传统方法中云端服务器的计算量。
相较传统的技术模式使用原始数据作为数据传输,本发明通过构建分布式神经网络推理系统,使用嵌入式神经网络的输出特征向量作为数据传输,这种模式极大的压缩了数据通信所需带宽和流量。
另一方面,相较传统的技术使用云端服务器实现全部计算,本发明中部分处理在嵌入式端进行,减少了服务器的计算压力。
最后,由于通信量的压缩和计算的分步实施,本发明相较传统技术可以实现更小的延迟。
本发明的具体实施方式如下:
整体流程如图2所示,首先,针对具体的应用领域,选择或设计深度神经网络模型进行大规模数据学习训练。
步骤一:训练过程可在高性能GPU集群上进行。训练可使用Tensorflow框架
步骤二:训练结束后,可在保证测试数据集准确性及鲁棒性的前提下,对模型进行剪枝或压缩。
步骤三:剪枝压缩后,对模型进行整合及格式转换。
其次,对模型进行隐藏层分析。隐藏层分析如图3所示,核心为一个机器学习分类器实现的分割决策器。
步骤一:对该决策器输入神经网络模型(上述步骤三转化后格式)、预期移动网络带宽、嵌入式处理器算力。
步骤二:配置最优化任务的目标函数即端到端处理延迟,由嵌入式端前置层处理延迟、网络通信延迟与服务器端处理延迟构成。
步骤三:配置最优化任务的约束集,即网络带宽流量上限。例如,可设置流量使用上线为200kbps。
步骤四:执行最优化任务对神经网络模型进行分析获得各层计算量、输入输出特征向量,并结合嵌入式算力与网络带宽,在约束集内进行非线性规划。例如,嵌入式设备的处理性能越强,则可以处理越多分层的神经网络模型,上行通信的数据量则可以越少。最优分割方案在约束条件内实现在最小端到端处理延迟。
步骤五:隐藏层分析输出(即最优可行解)为神经网络模型的嵌入式端前置层与服务器端后置层的分割分配。
再次,按照分割决策器的输出结果,对模型进行分割。
最后,对分割后的模型进行部署。
步骤一:将前端模型部署与嵌入式设备中Tensorflow、Tensorflow Lite或Tensorflow.js框架中。
步骤二:对接前端模型和预处理以及网络通信。
步骤三:部署后端模型于Tensorflow Serving框架中,形成云端智能判别器,运行于处理器集群中。
本设计中,涉及的控制电路,以来控制各组件动作以及相应的控制程序可以理解为现有技术,各部件之间的型号或大小能够相互适配实现本发明的原理即可。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种物联网深度神经网络分布式判别推论系统,其特征在于:包括视频或图像采集设备、数量至少为一个的智能判别服务器和数量至少为一个嵌入式判别设备组成,其中智能判别服务器运行于云端,即公有云、私有云或托管服务器,智能判别服务器使用至少一个CUDA兼容GPU,嵌入式判别设备运行于车联网车载终端,所述嵌入式设备使用ARM微处理器,运行Linux操作系统,嵌入式判别设备连接视频或图像采集设备并通过无线移动通信网络连接智能判别服务器。
2.根据权利要求1所述的物联网深度神经网络分布式判别推论系统,其特征在于:所述智能判别服务器使用Tensorflow Serving运行于CUDA兼容GPU之上,实现“请求-处理”的多路复用机制,所述智能判别服务器的数量为两个以上,所述每个智能判别服务器可使用数量为两个以上的GPU,所述数量为两个以上的智能判别服务器可以组成用于增加处理容量的智能判别集群。
3.根据权利要求1所述的物联网深度神经网络分布式判别推论系统,其特征在于:所述嵌入式判别设备连接视频或图像采集设备并通过无线移动通信网络连接智能判别集群。
4.根据权利要求1所述的物联网深度神经网络分布式判别推论系统,其特征在于:该物联网深度神经网络分布式判别推论系统还包括深度神经网络模型,所述嵌入式设备上运行Tensorflow Lite,所述深度神经网络模型在GPU服务器集群中进行大规模训练及优化,模型训练完成后,依据嵌入式设备的处理性能以及上行通信带宽,对模型进行分割,使部分部署于嵌入式设备中的Tensorflow Lite框架中,部分部署于智能判别服务器中的Tensorflow Serving框架。
5.根据权利要求1所述的物联网深度神经网络分布式判别推论系统,其特征在于:所述嵌入式设备获取图像信息后,进行预处理,与传统方法不同,嵌入式设备对图像和视频数据进行预处理后,并不直接上传,图像数据输入Tensorflow Lite模型中进行处理。
6.一种物联网深度神经网络分布式判别推论方法,其特征在于,包括以下步骤:
步骤一:训练过程可在GPU上进行,训练可使用Tensorflow Serving框架;
步骤二:训练结束后,可在保证测试数据集准确性及鲁棒性的前提下,对模型进行剪枝或压缩;
步骤三:剪枝压缩后,对模型进行整合及格式转换;
步骤四:对模型进行隐藏层分析;
步骤五:按照分割决策器的输出结果,对模型进行分割后的模型进行部署。
7.根据权利要求6所述的物联网深度神经网络分布式判别推论方法,其特征在于:所述步骤四对模型进行隐藏层分析的核心为一个机器学习分类器实现的分割决策器对模型进行隐藏层分析,其隐藏分析步骤如下:
步骤一:对剪枝压缩后,对模型进行整合及格式转换的数据通过预期网络带宽输入神经网络模型和嵌入式判别设备;
步骤二:配置最优化任务的目标函数,即端到端处理延迟由嵌入式端前置层处理延迟、网络带宽延迟与服务器端处理延迟构成。
步骤三:配置最优化任务的约束集,即网络带宽流量上限,例如,可设置流量使用上限为200kbps。
步骤四:执行最优化任务对神经网络模型进行分析获得各层计算量、输入输出特征向量,并结合嵌入式算力与网络带宽,在约束集内进行非线性规划,例如,嵌入式设备的处理性能越强,则可以处理越多分层的神经网络模型,上行通信的数据量则可以越少,最优分割方案在约束条件内实现在最小端到端处理延迟。
步骤五:隐藏层分析输出为神经网络模型的嵌入式端前置层与服务器端后置层的分割分配。
8.根据权利要求6所述的物联网深度神经网络分布式判别推论方法,其特征在于:所述步骤五按照分割决策器的输出结果,对模型进行分割的模型进行部署的方法包含如下步骤:
步骤一:将前端模型部署与嵌入式设备中Tensorflow、Tensorflow Lite或Tensorflow.js框架中。
步骤二:对接前端模型和预处理以及网络通信。
步骤三:部署后端模型于Tensorflow Serving框架中,形成云端智能判别器,运行于处理器集群中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380596.5A CN110175636A (zh) | 2019-05-08 | 2019-05-08 | 一种物联网深度神经网络分布式判别推论系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380596.5A CN110175636A (zh) | 2019-05-08 | 2019-05-08 | 一种物联网深度神经网络分布式判别推论系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110175636A true CN110175636A (zh) | 2019-08-27 |
Family
ID=67690733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910380596.5A Pending CN110175636A (zh) | 2019-05-08 | 2019-05-08 | 一种物联网深度神经网络分布式判别推论系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175636A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094171A (zh) * | 2021-03-31 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113259852A (zh) * | 2021-06-21 | 2021-08-13 | 成都秦川物联网科技股份有限公司 | 智能车联网跨区域数据共享方法及系统 |
CN113470653A (zh) * | 2020-03-31 | 2021-10-01 | 华为技术有限公司 | 声纹识别的方法、电子设备和系统 |
CN113470416A (zh) * | 2020-03-31 | 2021-10-01 | 上汽通用汽车有限公司 | 利用嵌入式系统实现车位检测的系统、方法和存储介质 |
CN113486936A (zh) * | 2021-06-28 | 2021-10-08 | 国网宁夏电力有限公司电力科学研究院 | 输电线设备覆冰检测方法、装置、系统及存储介质 |
TWI765336B (zh) * | 2019-10-08 | 2022-05-21 | 國立清華大學 | 適用於卷積神經網路之記憶體優化實現之區塊式推論方法及其系統 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106687995A (zh) * | 2014-05-12 | 2017-05-17 | 高通股份有限公司 | 分布式模型学习 |
CN107067365A (zh) * | 2017-04-25 | 2017-08-18 | 中国石油大学(华东) | 基于深度学习的分布嵌入式实时视频流处理系统及方法 |
CN107622233A (zh) * | 2017-09-11 | 2018-01-23 | 畅捷通信息技术股份有限公司 | 一种表格识别方法、识别系统及计算机装置 |
CN108304924A (zh) * | 2017-12-21 | 2018-07-20 | 内蒙古工业大学 | 一种深度置信网的流水线式预训练方法 |
CN108423006A (zh) * | 2018-02-02 | 2018-08-21 | 辽宁友邦网络科技有限公司 | 一种辅助驾驶预警方法及系统 |
CN108960988A (zh) * | 2018-06-28 | 2018-12-07 | 北京金山安全软件有限公司 | 一种个性化壁纸推荐方法、装置、终端设备及存储介质 |
CN109034049A (zh) * | 2018-07-23 | 2018-12-18 | 北京密境和风科技有限公司 | 跳舞视频的识别方法及装置 |
CN109271602A (zh) * | 2018-09-05 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 深度学习模型发布方法及装置 |
CN109543829A (zh) * | 2018-10-15 | 2019-03-29 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 在终端和云端上混合部署深度学习神经网络的方法和系统 |
CN109640174A (zh) * | 2019-01-28 | 2019-04-16 | Oppo广东移动通信有限公司 | 视频处理方法及相关设备 |
CN109657794A (zh) * | 2018-12-20 | 2019-04-19 | 中国科学技术大学 | 一种基于指令队列的分布式深度神经网络性能建模方法 |
-
2019
- 2019-05-08 CN CN201910380596.5A patent/CN110175636A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106687995A (zh) * | 2014-05-12 | 2017-05-17 | 高通股份有限公司 | 分布式模型学习 |
CN107067365A (zh) * | 2017-04-25 | 2017-08-18 | 中国石油大学(华东) | 基于深度学习的分布嵌入式实时视频流处理系统及方法 |
CN107622233A (zh) * | 2017-09-11 | 2018-01-23 | 畅捷通信息技术股份有限公司 | 一种表格识别方法、识别系统及计算机装置 |
CN108304924A (zh) * | 2017-12-21 | 2018-07-20 | 内蒙古工业大学 | 一种深度置信网的流水线式预训练方法 |
CN108423006A (zh) * | 2018-02-02 | 2018-08-21 | 辽宁友邦网络科技有限公司 | 一种辅助驾驶预警方法及系统 |
CN108960988A (zh) * | 2018-06-28 | 2018-12-07 | 北京金山安全软件有限公司 | 一种个性化壁纸推荐方法、装置、终端设备及存储介质 |
CN109034049A (zh) * | 2018-07-23 | 2018-12-18 | 北京密境和风科技有限公司 | 跳舞视频的识别方法及装置 |
CN109271602A (zh) * | 2018-09-05 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 深度学习模型发布方法及装置 |
CN109543829A (zh) * | 2018-10-15 | 2019-03-29 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 在终端和云端上混合部署深度学习神经网络的方法和系统 |
CN109657794A (zh) * | 2018-12-20 | 2019-04-19 | 中国科学技术大学 | 一种基于指令队列的分布式深度神经网络性能建模方法 |
CN109640174A (zh) * | 2019-01-28 | 2019-04-16 | Oppo广东移动通信有限公司 | 视频处理方法及相关设备 |
Non-Patent Citations (4)
Title |
---|
SURAT TEERAPITTAYANON ET AL.: "Distributed Deep Neural Networks over the Cloud, the Edge and End Devices", 《IEEE 37TH INTERNATIONAL CONFERENCE ON DISTRIBUTED COMPUTING SYSTEMS》 * |
杨志刚等: "基于虚拟化的多GPU深度神经网络训练框架", 《计算机工程》 * |
林付春等: "基于深度学习的智能辅助驾驶系统设计", 《贵州大学学报(自然科学版)》 * |
马治楠等: "基于深层卷积神经网络的剪枝优化", 《电子技术应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI765336B (zh) * | 2019-10-08 | 2022-05-21 | 國立清華大學 | 適用於卷積神經網路之記憶體優化實現之區塊式推論方法及其系統 |
CN113470653A (zh) * | 2020-03-31 | 2021-10-01 | 华为技术有限公司 | 声纹识别的方法、电子设备和系统 |
CN113470416A (zh) * | 2020-03-31 | 2021-10-01 | 上汽通用汽车有限公司 | 利用嵌入式系统实现车位检测的系统、方法和存储介质 |
CN113094171A (zh) * | 2021-03-31 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113259852A (zh) * | 2021-06-21 | 2021-08-13 | 成都秦川物联网科技股份有限公司 | 智能车联网跨区域数据共享方法及系统 |
CN113486936A (zh) * | 2021-06-28 | 2021-10-08 | 国网宁夏电力有限公司电力科学研究院 | 输电线设备覆冰检测方法、装置、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175636A (zh) | 一种物联网深度神经网络分布式判别推论系统及方法 | |
CN111245903B (zh) | 一种基于边缘计算的联合学习方法及系统 | |
CN108156519A (zh) | 图像分类方法、电视设备及计算机可读存储介质 | |
CN110290077B (zh) | 一种基于实时业务配置的工业sdn资源分配方法 | |
CN110210378A (zh) | 一种基于边缘计算的嵌入式视频图像解析方法及装置 | |
KR20170101455A (ko) | 빅데이터 플랫폼 기반의 인공지능 딥러닝 네트워크 구축을 활용한 3d 카메라를 장착한 로봇의 트레이닝 방법 | |
CN112286691A (zh) | 一种基于异构决策模型生成技术的云边端协同方法 | |
CN110795235B (zh) | 一种移动web深度学习协作的方法及系统 | |
CN113469125A (zh) | 多无人机协同信号识别方法及识别系统 | |
CN113783944A (zh) | 基于云边协同的视频数据处理方法、装置、系统及设备 | |
CN106210727A (zh) | 基于神经网络处理器阵列的视频分级码流编码方法和架构 | |
CN118197062B (zh) | 基于边缘计算的智能交通多模态信息融合系统 | |
CN115174404A (zh) | 一种基于sdn组网的多设备联邦学习系统 | |
JP2023549411A (ja) | 音声通話の制御方法、装置、コンピュータプログラム及び電子機器 | |
CN114900656A (zh) | 一种交通监控视频流处理方法、装置、系统及存储介质 | |
CN114169506A (zh) | 一种基于工业物联网平台的深度学习边缘计算系统框架 | |
CN110471988A (zh) | 一种基于模块化的三段五层式人工智能系统 | |
CN115357402B (zh) | 一种边缘智能优化方法和装置 | |
CN110647396A (zh) | 端云协同低功耗带宽受限智能应用实现方法 | |
CN115208892B (zh) | 基于动态资源需求的车路协同在线任务调度方法及系统 | |
CN115150288B (zh) | 一种分布式通信系统和方法 | |
CN116627637A (zh) | 基于云边端架构的机器人展厅场景的多终端任务协同方法和装置 | |
CN115118591A (zh) | 一种基于联盟博弈的簇联邦学习方法 | |
CN114595816A (zh) | 一种基于边缘计算的神经网络模型训练方法 | |
CN116634388B (zh) | 面向电力融合网络大数据边缘缓存与资源调度方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190827 |
|
RJ01 | Rejection of invention patent application after publication |