CN113096201B

CN113096201B - 嵌入式视频图像深度学习方法、设备及存储介质

Info

Publication number: CN113096201B
Application number: CN202110339155.8A
Authority: CN
Inventors: 谭黎敏; 宋捷; 阮超
Original assignee: Shanghai Westwell Information Technology Co Ltd
Current assignee: Shanghai Xijing Technology Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2023-04-18
Anticipated expiration: 2041-03-30
Also published as: CN113096201A

Abstract

本发明提供了嵌入式视频图像深度学习方法、设备及存储介质，该系统包括：一服务器；至少一组视频处理模块组件，分别可拆卸地连接于服务器，视频处理模块组件包括一可编程逻辑器件形成的图形加速卡和对应的一用于解码的SOC芯片，多个视频数据流信道连接于SOC芯片；服务器中建立每个视频处理模块组件、图形加速卡、SOC芯片以及视频数据流信道的映射关系表，并根据视频处理模块组件连接服务器的状态更新映射关系表。本发明能够提供多路的RTSP的解码，降低服务器的线程消耗，提升产品的性能，降低成本，同时一个服务器可以插入多张卡，根据业务需要动态配置，灵活性好。

Description

嵌入式视频图像深度学习方法、设备及存储介质

背景技术

目前，集装箱码头闸口等场景广泛使用摄像头协助工作人员检验车辆相关信息，其中存在一部分信息需要工作人员能直观的全面的看到车辆及集装箱的完整情况。

传统方案将提供给工作人员连续的多张独立的车辆截图，然后令工作人员人工的检查这多张图片。传统方法会增大工作人员的工作量且增大检查中可能存在的误差。

而且，在一些车辆高速通过的闸口，由于采集的图片仅仅是汽车的局部，因为图片不能反映整个车身的视图，所以难以在一张图片中获得完整的车身数据编号，也很难对车身、车顶、车底等部位进行图像识别，系统无法自动对车辆进行安全检测(例如：通过图像识别扫描车底或是车顶的可疑物品等等)。

现有技术主要通过两种来实现图形机器学习方式，第一种是使用CPU解码，再通过CPU资源实现识别分类任务，对CPU资源消耗大，一旦资源消耗过多，会较低其它业务的运行速度，且成本高；第二种是使用显卡实现识别分类任务，显卡的成本比较高，且功耗比较高。

因此，本发明提供了一种嵌入式视频图像深度学习方法、设备及存储介质。

发明内容

针对现有技术中的问题，本发明的目的在于提供嵌入式视频图像深度学习方法、设备及存储介质，克服了现有技术的困难，能够通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器可以支持更多的视频路数的深度学习的推理运算；同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

本发明的实施例提供一种嵌入式视频图像深度学习系统，其特征在于，包括：

一服务器；

至少一组视频处理模块组件，分别可拆卸地连接于所述服务器，所述视频处理模块组件包括一可编程逻辑器件形成的图形加速卡和对应的一用于解码的SOC芯片，多个视频数据流信道连接于所述SOC芯片；

所述服务器中建立每个所述视频处理模块组件、图形加速卡、SOC芯片以及视频数据流信道的映射关系表，并根据所述视频处理模块组件连接所述服务器的状态更新所述映射关系表。

优选地，所述SOC芯片连接多个视频传感器，根据每个所述视频传感器获得的视频获得预设尺寸的RGB缩略图数据，RGB原始尺寸数据和jpeg编码图片数据。

优选地，所述SOC芯片将每个所述视频传感器的RTSP视频码流逐帧解码成YUV像素数据，再将YUV像素数据进行转码到深度学习用的RGB数据，并提供RGB原图缩放到预设尺寸的RGB缩略图数据、JPEG图片数据以及RGB原图数据三种数据类型的图片数据。

优选地，所述图形加速卡分别连接第一神经网络和第二神经网络，所述服务器将所述SOC芯片获得的RGB缩略图数据发送到图形加速卡的所述第一神经网络，所述第一神经网络对RGB缩略图数据进行第一次目标识别，获得目标。

优选地，当所述第一神经网络自所述RGB缩略图中没有识别到匹配预设目标的图形，则进行下一帧的RGB缩略图数据的第一次目标识别。

优选地，当所述第一神经网络自所述RGB缩略图中识别到匹配预设目标的图形，则获得目标以及目标所占的所述RGB缩略图中的目标区域。

优选地，所述服务器根据所述第一神经网络识别到的目标和目标区域，自所述SOC芯片调用对应的RGB原图数据进行对应的目标区域抠图后发送给第二神经网络，进行第二次目标识别，获得第二次目标识别结果后，进行下一帧的RGB缩略图数据的第一次目标识别。

优选地，保存第二次目标识别的目标在RGB原图数据对应编码成的JPEG图片。

优选地，所述服务器监控每个所述视频处理模块组件中所述图形加速卡的工作载荷，当出现一所述图形加速卡工作载荷超过预设阈值时，临时调整所述映射关系表，将其中高载荷的所述图形加速卡所对应的至少一视频数据流信道，连接到低载荷的所述图形加速卡进行处理。

优选地，所述识别图片的存储数据的格式为JPEG图片。

本发明的实施例还提供一种嵌入式视频图像深度学习系统，采用如上述的嵌入式视频图像深度学习系统，包括以下步骤：

S110、建立每个所述视频处理模块组件、图形加速卡、SOC芯片以及视频数据流信道的映射关系表，并根据所述视频处理模块组件连接所述服务器的状态更新所述映射关系表；

S120、根据映射关系配置获得预设尺寸的RGB缩略图数据，仅将所述RGB缩略图数据发送到服务器的缓存队列中

S130、将RGB缩略图数据发送到图形加速卡的第一神经网络；

S140、判断所述第一神经网络自所述RGB缩略图中是否识别到匹配预设目标的图形，若是，执行步骤S150，若否，执行步骤S170；

S150、获得目标以及目标所占的所述RGB缩略图中的目标区域；

S160、自所述SOC芯片调用对应的RGB原图数据进行对应的目标区域抠图后发送给第二神经网络，进行第二次目标识别；

S170、进行下一帧的RGB缩略图数据的第一次目标识别。

本发明的实施例还提供一种嵌入式视频图像深度学习设备，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述嵌入式视频图像深度学习方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述嵌入式视频图像深度学习方法的步骤。

本发明的嵌入式视频图像深度学习方法、设备及存储介质，能够通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器可以支持更多的视频路数的深度学习的推理运算；同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的嵌入式视频图像深度学习系统的第一种结构示意图。

图2是本发明的嵌入式视频图像深度学习系统的第二种结构示意图。

图3是本发明的嵌入式视频图像深度学习方法的流程图。

图4是本发明的嵌入式视频图像深度学习设备的结构示意图。以及

图5是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

图1是本发明的嵌入式视频图像深度学习系统的第一种结构示意图图2是本发明的嵌入式视频图像深度学习系统的第二种结构示意图。如图1和2所示，本发明的实施例提供一种嵌入式视频图像深度学习系统，包括：一服务器1和至少一组视频处理模块组件。视频处理模块组件分别可拆卸地连接于服务器1，视频处理模块组件包括一可编程逻辑器件形成的图形加速卡21和对应的一用于解码的SOC芯片22，多个视频数据流信道连接于SOC芯片22。服务器1中建立每个视频处理模块组件、图形加速卡21(FPGA图形加速卡)、SOC芯片22以及视频数据流信道的映射关系表，并根据视频处理模块组件连接服务器1的状态更新映射关系表。本发明通过SOC芯片22来实现解码卡的性能价值，提升解码卡的处理视频路数，目标是多路的RTSP的解码，降低PC端的线程消耗，提升产品的性能，降低成本。服务器1中包括了应用模块11、图形加速卡驱动模块12、SOC芯片驱动模块13，图形加速卡驱动模块12连接每组视频处理模块组件2中的图形加速卡21，SOC芯片驱动模块13连接每组视频处理模块组件2中的SOC芯片22，每个SOC芯片22可以连接16个摄像机301、302、302、304......316。

与图1不同的是，图2中将n个视频处理模块组件连接到服务器1，来实现更多视频数据流信道的扩容，由于本发明中完全由图形加速卡(FPGA图形加速卡)、SOC芯片22来进行图像压缩、识别、深度学习等耗费资源的运作，而服务器1不进行图形压缩、识别等耗费高运算资源的运作，服务器1进行数据调用参数设置等低运算资源的运作，所以可以在一台服务器1上连接多组视频处理模块组件，同时基于大量视频数据流信道进行高效的深度学习。而无需额外增加大量显卡，降低了嵌入式视频图像深度学习系统的整体成本。

本发明可以如图1中仅连接一组视频处理模块组件，控制n个视频传感器同时进行深度学习，也可以如图2中通过连接m组视频处理模块组件，来控制(n×m)个视频传感器同时进行深度学习。同时一个服务器1可以插入多张卡，通过增加连接服务器1的处理模块组件来扩展更多的视频传感器，实现按需动态配置，灵活性好。本实施例中的SOC芯片22(System-on-a-ChIP)是一种集成电路的芯片，可以有效地降低电子/信息系统产品的开发成本，缩短开发周期，提高产品的竞争力。

在一个优选实施例中，SOC芯片22连接多个视频传感器，根据每个视频传感器获得的视频获得预设尺寸的RGB缩略图数据，RGB原始尺寸数据和jpeg编码图片数据。

在一个优选实施例中，SOC芯片22将每个视频传感器的RTSP视频码流逐帧解码成YUV像素数据，再将YUV像素数据进行转码到深度学习用的RGB数据，并提供RGB原图缩放到预设尺寸的RGB缩略图数据、JPEG图片数据以及RGB原图数据三种数据类型的图片数据，并将RGB原图缩放到预设尺寸的RGB缩略图数据。RTSP视频码流是一种常见的视频文件格式，但不以此为限。YUV像素数据是一种常见的像素数据的编码格式，但不以此为限。RGB数据也是一种常见的像素数据的编码格式，但不以此为限。

在一个优选实施例中，图形加速卡21(Hardrock)分别连接第一神经网络和第二神经网络，服务器1将SOC芯片22获得的RGB缩略图数据发送到图形加速卡21的第一神经网络，第一神经网络对RGB缩略图数据进行第一次目标识别，获得目标。

在一个优选实施例中，当第一神经网络自RGB缩略图中没有识别到匹配预设目标的图形，则进行下一帧的RGB缩略图数据的第一次目标识别。

在一个优选实施例中，当第一神经网络自RGB缩略图中识别到匹配预设目标的图形，则获得目标以及目标所占的RGB缩略图中的目标区域。

在一个优选实施例中，服务器1根据第一神经网络识别到的目标和目标区域，自SOC芯片22调用对应的RGB原图数据进行对应的目标区域抠图后发送给第二神经网络，进行第二次目标识别，获得第二次目标识别结果后，进行下一帧的RGB缩略图数据的第一次目标识别。

在一个优选实施例中，保存第二次目标识别的目标在RGB原图数据对应编码成的JPEG图片。

在一个优选实施例中，服务器1监控每个视频处理模块组件中图形加速卡21的工作载荷，当出现一图形加速卡21工作载荷超过预设阈值时，临时调整映射关系表，将其中高载荷的图形加速卡21所对应的至少一视频数据流信道，连接到低载荷的图形加速卡21进行处理。

在一个优选实施例中，识别图片的存储数据的格式为JPEG图片。

本实施例以双目加速运算引擎为依托，设计一套实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别是在深度学习对大型物体的识别的方面，提供了一种新的解决方案(特别是在港口方面的应用)。通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器1端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器1可以支持更多的视频路数的深度学习的推理运算。同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

解码卡的整个软件架构包括PC驱动、PC端应用代码接口设计、SOC驱动设计、SOC的MPP模块的设计。实现通过服务器1端下发指令，开启对应通道的IPc，并输出对应的需求的视频或者图片格式。MPP为多媒体模块，包括编码vdec和解码venc、视频处理子系统vpss。

系统架构主要分为以下层次：

(1)PC应用层，主要是应用的功能实现，如显示等一些业务逻辑。

(2)PC驱动层，主要实现PCIE驱动开发，封装相关接口，实现SOC的数据的接收工作。

(3)SOC MMP，主要实现RTSP的引流和编解码工作，并resize到指定的图片大小数据和格式。

(4)SOC驱动层，主要实现SOC从片和PC端的数据交互，主要为图片传输和bar空间的参数的读写。

本发明文中的SOC设备接入IPc相机，将RTSP码流解码成YUV数据，再将YUV数据进行转码到深度学习用的RGB数据，同时提供三种数据类型的图片数据，RGB原图，缩放到深度学习识别要求的尺寸的RGB图片数据，编码完成的JPEG图片数据，通过PCIE(Pcie底层模块)发送到PC端的缓存队列中。第一神经网络模型识别的RGB图片数据，SOC通过解码模块，将数据通过PCIE接口将需要的数据发送到PC端，PC端将数据发送到图形加速卡。PC端接收到FPGA识别到目标，PC端将需要的对应的原图RGB数据，进行抠图和调整图像数据，发送给FPGA端，进行第二神经网络模型的识别，获取识别结果，JPEG图片作为图片数据保存验证。PC端显示功能，PC端配置需要的帧率和视频大小；SOC接收到数据，从原图队列中取数据，缩放到需要的size，通过PCIE接口，发送到PC端。

SOC驱动层主要4个模块，硬件资源的识别和加载，bar空间(Pcie的共享内存段)的参数配置，主要用于和ep端的通信协议的定义；获取dma的状态，并根据状态去获取所需要的图片，重置bar空间，主要用于通道的控制。PC应用层接口主要4个模块，初始PCIE资源，去打开设备文件句柄；配置IPc参数；获取图片指针地址；关闭通道，释放资源。驱动层主要封装PC端的调用接口，实现dma内存的访问，bar空间参数的下发。识别硬件设备，主要是访问dev下的设备文件句柄，从而区分和识别多卡。Bar空间的配置，对bar空间的内存进行划分和定义，主要分配魔数，图像的宽和高，缓存buff的大小，缓存buff的物理地址，缓存buff的个数，当前正在搬运的标志位，预留位。IPC的结构体的参数透传，通过bar空间的地址透传到SOC。SOC端的数据模块主要分为驱动层和MPP应用层；驱动层主要是和PC端的资源识别握手；bar空间的IPc配置地址段的参数识别和透传；图片数据通过dma发送到PC端；MMP应用层主要初始化SYS资源的初始化，从bar空间的解析透传的数据；配置解码通道资源；关闭释放解码资源。SOC驱动层主要功能为实现硬件寄存器的配置；bar空间数据的访问，配置参数数据的透传；dma数据搬运；其中最主要的部分为dma数据搬运，流程图如下，bar空间访问，查看PC端是否配置了参数，分配了dma搬运地址，获取dma搬运的目的地址，查询下dma是否正在作业，如果当前空闲，则执行搬运任务。

SOC MMP业务层主要是图像的编解码工作和PC端的指令交互控制；SOC通过网络接入RTSP码流，通过解码模块，解码出YUV，从SOC的多媒体子系统获取YUV图像，分别做两个任务，缩放到网络模型的大小，通过IVE转码成RGB，第二个任务是去原图队列中取出图片，进行JPEG编码，发送到PC端。IVE为YUV转RGB转码模块。

本发明的嵌入式视频图像深度学习系统能够通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器1端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器1可以支持更多的视频路数的深度学习的推理运算；同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

图3是本发明的嵌入式视频图像深度学习方法的流程图。如图3所示，本发明的实施例还提供一种嵌入式视频图像深度学习方法，采用上述的嵌入式视频图像深度学习系统，包括以下步骤：

S110、建立每个视频处理模块组件、图形加速卡、SOC芯片以及视频数据流信道的映射关系表，并根据视频处理模块组件连接服务器的状态更新映射关系表。

S120、根据映射关系配置获得预设尺寸的RGB缩略图数据，仅将RGB缩略图数据发送到服务器的缓存队列中。

S130、将RGB缩略图数据发送到图形加速卡的第一神经网络。

S140、判断第一神经网络自RGB缩略图中是否识别到匹配预设目标的图形，若是，执行步骤S150，若否，执行步骤S170。

S150、获得目标以及目标所占的RGB缩略图中的目标区域。

S160、自SOC芯片调用对应的RGB原图数据进行对应的目标区域抠图后发送给第二神经网络，进行第二次目标识别。

S170、进行下一帧的RGB缩略图数据的第一次目标识别。

本发明的嵌入式视频图像深度学习方法能够通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器可以支持更多的视频路数的深度学习的推理运算；同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

本发明实施例还提供一种嵌入式视频图像深度学习设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的嵌入式视频图像深度学习方法的步骤。

如上，本发明的嵌入式视频图像深度学习设备能够通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器可以支持更多的视频路数的深度学习的推理运算；同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图4是本发明的嵌入式视频图像深度学习设备的结构示意图。下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的嵌入式视频图像深度学习方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，能够通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器可以支持更多的视频路数的深度学习的推理运算；同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

图5是本发明的计算机可读存储介质的结构示意图。参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的嵌入式视频图像深度学习方法、设备及存储介质，能够通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器可以支持更多的视频路数的深度学习的推理运算；同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种嵌入式视频图像深度学习方法，其特征在于，采用一种嵌入式视频图像深度学习系统，深度学习系统包括：一服务器和至少一组视频处理模块组件，分别可拆卸地连接于所述服务器，所述视频处理模块组件包括一可编程逻辑器件形成的图形加速卡和对应的一用于解码的SOC芯片，多个视频数据流信道连接于所述SOC芯片；所述服务器中建立每个所述视频处理模块组件、图形加速卡、SOC芯片以及视频数据流信道的映射关系表，并根据所述视频处理模块组件连接所述服务器的状态更新所述映射关系表，所述深度学习方法包括以下步骤：

S130、将RGB缩略图数据发送到图形加速卡的第一神经网络；

S150、获得目标以及目标所占的所述RGB缩略图中的目标区域；

S170、进行下一帧的RGB缩略图数据的第一次目标识别。

2.根据权利要求1所述的嵌入式视频图像深度学习方法，其特征在于，所述SOC芯片连接多个视频传感器，根据每个所述视频传感器获得的视频获得预设尺寸的RGB缩略图数据，RGB原始尺寸数据和jpeg编码图片数据。

3.根据权利要求2所述的嵌入式视频图像深度学习方法，其特征在于，所述SOC芯片将每个所述视频传感器的RTSP视频码流逐帧解码成YUV像素数据，再将YUV像素数据进行转码到深度学习用的RGB数据，并提供RGB原图缩放到预设尺寸的RGB缩略图数据、JPEG图片数据以及RGB原图数据三种数据类型的图片数据。

4.根据权利要求2所述的嵌入式视频图像深度学习方法，其特征在于，所述图形加速卡分别连接第一神经网络和第二神经网络，所述服务器将所述SOC芯片获得的RGB缩略图数据发送到图形加速卡的所述第一神经网络，所述第一神经网络对RGB缩略图数据进行第一次目标识别，获得目标。

5.根据权利要求4所述的嵌入式视频图像深度学习方法，其特征在于，当所述第一神经网络自所述RGB缩略图中没有识别到匹配预设目标的图形，则进行下一帧的RGB缩略图数据的第一次目标识别。

6.根据权利要求4所述的嵌入式视频图像深度学习方法，其特征在于，当所述第一神经网络自所述RGB缩略图中识别到匹配预设目标的图形，则获得目标以及目标所占的所述RGB缩略图中的目标区域。

7.根据权利要求6所述的嵌入式视频图像深度学习方法，其特征在于，所述服务器根据所述第一神经网络识别到的目标和目标区域，自所述SOC芯片调用对应的RGB原图数据进行对应的目标区域抠图后发送给第二神经网络，进行第二次目标识别，获得第二次目标识别结果后，进行下一帧的RGB缩略图数据的第一次目标识别。

8.根据权利要求7所述的嵌入式视频图像深度学习方法，其特征在于，保存第二次目标识别的目标在RGB原图数据对应编码成的JPEG图片。

9.根据权利要求1所述的嵌入式视频图像深度学习方法，其特征在于，所述服务器监控每个所述视频处理模块组件中所述图形加速卡的工作载荷，当出现一所述图形加速卡工作载荷超过预设阈值时，临时调整所述映射关系表，将其中高载荷的所述图形加速卡所对应的至少一视频数据流信道，连接到低载荷的所述图形加速卡进行处理。

10.一种嵌入式视频图像深度学习设备，其特征在于，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行权利要求1所述嵌入式视频图像深度学习方法的步骤。

11.一种计算机可读存储介质，用于存储程序，其特征在于，程序被执行时实现权利要求1所述嵌入式视频图像深度学习方法的步骤。