CN113096012A

CN113096012A - 单目多帧视频图像拼接系统、方法、设备及存储介质

Info

Publication number: CN113096012A
Application number: CN202110339428.9A
Authority: CN
Inventors: 谭黎敏; 阮超; 宋捷
Original assignee: Shanghai Westwell Information Technology Co Ltd
Current assignee: Shanghai Westwell Information Technology Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-09

Abstract

本发明提供了单目多帧视频图像拼接系统、方法、设备及存储介质，该系统包括：一服务器；一用于解码的SOC芯片，包括比对模块，连接所述服务器，至少一视频数据流信道连接于SOC芯片，逐帧解码为待识别图片；一可编程逻辑器件形成的图形加速卡，包括神经网络模块，神经网络模块逐帧对待识别图片进行识别，当识别到一待识别图片中包含预设目标，获取目标所占的目标起始图像区域，则将该待识别图片作为首帧图像，通过比对模块比对，依次获得相邻帧之间预设目标在图片中运动后的目标新增图像区域拼贴于目标起始图像区域的一侧，本发明能够实现单目多帧拼接，基于多张局部图片获得完整的车辆图片，提升了检查的准确率；不需要显卡，降低了设备成本。

Description

单目多帧视频图像拼接系统、方法、设备及存储介质

技术领域

本发明涉及图形深度学习设备，具体地说，涉及单目多帧视频图像拼接系统、方法、设备及存储介质。

背景技术

目前，集装箱码头闸口等场景广泛使用摄像头协助工作人员检验车辆相关信息，其中存在一部分信息需要工作人员能直观的全面的看到车辆及集装箱的完整情况。

传统方案将提供给工作人员连续的多张独立的车辆截图，然后令工作人员人工的检查这多张图片。传统方法会增大工作人员的工作量且增大检查中可能存在的误差。

而且，在一些车辆高速通过的闸口，由于采集的图片仅仅是汽车的局部，因为图片不能反映整个车身的视图，所以难以在一张图片中获得完整的车身数据编号，也很难对车身、车顶、车底等部位进行图像识别，系统无法自动对车辆进行安全检测(例如：通过图像识别扫描车底或是车顶的可疑物品等等)。

现有技术主要通过两种来实现图形机器学习方式，第一种是使用CPU解码，再通过CPU资源实现拼接任务，对CPU资源消耗大，一旦资源消耗过多，会降低其它业务的运行速度，且成本高；第二种是使用显卡实现拼接任务，显卡的成本比较高，且功耗比较高。

因此，本发明提供了一种单目多帧视频图像拼接系统、方法、设备及存储介质。

发明内容

针对现有技术中的问题，本发明的目的在于提供单目多帧视频图像拼接系统、方法、设备及存储介质，克服了现有技术的困难，能够以双目加速运算引擎为依托，实现单目多帧拼接，基于多张局部图片获得完整的车辆图片，降低了检测的工作量，明显提升检测速度，并提升了检查的准确率；并且，不需要显卡，降低了设备成本；不占用服务器的CPU资源，降低了安检成本，提高了服务器的处理业务的能力集。

本发明的实施例提供一种单目多帧视频图像拼接系统，包括：

一服务器；

一用于解码的SOC芯片，包括比对模块，连接所述服务器，至少一视频数据流信道连接于所述SOC芯片，所述SOC芯片将每个所述视频数据流信道逐帧解码为待识别图片；

一可编程逻辑器件形成的图形加速卡，连接所述服务器，包括神经网络模块，所述神经网络模块逐帧对所述待识别图片进行识别，当识别到一所述待识别图片中包含预设目标，获取目标所占的目标起始图像区域，则将该待识别图片作为首帧图像，将首帧图像以及首帧图像的后续帧对应的待识别图片输入比对模块比对，依次获得相邻帧之间所述预设目标在图片中运动后的目标新增图像区域，并按照时序将后续帧的目标新增图像区域拼贴于所述目标起始图像区域的一侧，获得所述预设目标的整体图像。

优选地，所述SOC芯片连接视频传感器，根据每个所述视频传感器获得的视频获得预设尺寸的RGB缩略图数据，仅将所述RGB缩略图数据发送到服务器的缓存队列中。

优选地，所述SOC芯片将每个所述视频传感器的RTSP视频码流逐帧解码成YUV像素数据，再将YUV像素数据进行转码到深度学习用的RGB数据，并根据视频获得预设尺寸的RGB缩略图数据、RGB原始尺寸数据和JPEG编码图片数据。

优选地，所述图形加速卡分别连接神经网络模块，所述服务器将所述SOC芯片获得的RGB缩略图数据发送到图形加速卡的所述神经网络模块，所述神经网络模块对RGB缩略图数据进行目标识别。

优选地，当所述神经网络模块自所述RGB缩略图中识别到匹配预设目标的图形，则自所述SOC芯片调用首帧图像以及首帧图像的后续帧的YUV原图数据送给SOC芯片的比对模块。优选地，所述神经网络模块识别所述首帧图像以及所述首帧图像的后续帧对应的待识别图片中目标所占图像区域，通过所述比对模块进行的对比，获得的所述预设目标在每一帧的待识别图片与前一帧的待识别图片相比运动后新进入画面的目标新增图像区域。

优选地，所述比对模块每次比对第n帧和第n+1帧的两个该待识别图片，获得所述第n+1帧相比于第n帧新增加的局部区域作为目标新增图像区域。

优选地，按照时序将后续帧的新增图像区域依次拼贴在所述首帧图像中与预设目标的局部图像的运动方向相反的一侧，直到所述神经网络模块识别到第m帧后续帧中不包含预设目标为止，将被m帧后续帧对应的所述目标新增图像区域拼贴后的目标起始图像区域作为获得所述预设目标的整体图像。

优选地，所述待识别图片、目标起始图像区域以及目标新增图像区域均为YUV数据格式图片。

本发明的实施例还提供一种单目多帧视频图像拼接方法，采用如上述的单目多帧视频图像拼接系统，包括以下步骤：

S110、所述SOC芯片接收所述视频数据流信道的视频信息，逐帧解码为待识别图片；

S120、所述神经网络模块逐帧对所述待识别图片进行识别，当识别到一所述待识别图片中包含预设目标，则获取目标所占的目标起始图像区域，则将该待识别图片作为首帧图像；

S130、将首帧图像以及首帧图像的后续帧对应的待识别图片输入比对模块比对，依次获得相邻帧之间所述预设目标在图片中运动后的目标新增图像区域；以及

S140、按照时序将后续帧的目标新增图像区域拼贴于所述目标起始图像区域的一侧，获得所述预设目标的整体图像。

本发明的实施例还提供一种单目多帧视频图像拼接设备，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述单目多帧视频图像拼接方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述单目多帧视频图像拼接方法的步骤。

本发明的单目多帧视频图像拼接系统、方法、设备及存储介质，能够以双目加速运算引擎为依托，实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别适用于深度学习对大型物体的识别的领域，通过这种拼接技术可以，将整个物体拼接完整，并编码成JPEG保存成图片，作为对象记录或其它智能功能的使用。不需要显卡，降低了设备成本；不占用服务器的CPU资源，提高了服务器的处理业务的能力集。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的单目多帧视频图像拼接系统的结构示意图。

图2至9是本发明的单目多帧视频图像拼接系统实施过程的示意图。

图10是本发明的单目多帧视频图像拼接方法的流程图。

图11是本发明的单目多帧视频图像拼接设备的结构示意图。以及

图12是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

图1是本发明的单目多帧视频图像拼接系统的结构示意图。如图1所示，本发明的单目多帧视频图像拼接系统，包括：一服务器1、一用于解码的SOC芯片3以及一可编程逻辑器件形成的图形加速卡2。SOC芯片3连接服务器1，至少一视频数据流信道连接于SOC芯片3，SOC芯片3将每个视频数据流信道逐帧解码为待识别图片，包括比对模块。图形加速卡2(FPGA图形加速卡)连接服务器1，包括神经网络模块21，神经网络模块21逐帧对待识别图片进行识别，当识别到一待识别图片中包含预设目标，获取目标所占的目标起始图像区域，则将该待识别图片作为首帧图像，将首帧图像以及首帧图像的后续帧对应的待识别图片输入比对模块比对，依次获得相邻帧之间预设目标在图片中运动后的目标新增图像区域，并按照时序将后续帧的目标新增图像区域拼贴于目标起始图像区域的一侧，获得预设目标的整体图像，当识别到物一待识别图片中不包含预设目标，则将该待识别图片作为最后一帧图像，并将信号发送到比对模块，停止比对工作，并将已拼接的YUV数据格式图片编码成可查看的图片查看器格式的JPEG格式。服务器1中包括了应用模块11、图形加速卡驱动模块12、SOC芯片驱动模块13，图形加速卡驱动模块12连接图形加速卡2，SOC芯片驱动模块13连接SOC芯片3。本实施例中的SOC芯片3(System-on-a-ChIP)是一种集成电路的芯片，可以有效地降低电子/信息系统产品的开发成本，缩短开发周期，提高产品的竞争力。SOC芯片3称为系统级芯片，也有称片上系统，意指它是一个产品，是一个有专用目标的集成电路，其中包含完整系统并有嵌入软件的全部内容。

由于本发明中完全由图形加速卡(FPGA图形加速卡)、SOC芯片3来进行图像压缩、识别、深度学习等耗费资源的运作，而服务器1不进行图形压缩、识别等耗费高运算资源的运作，服务器1进行数据调用参数设置等低运算资源的运作，所以可以在一台服务器1上连接多组视频处理模块组件，同时基于大量视频数据流信道进行高效的深度学习。而无需额外增加大量显卡，降低了嵌入式视频图像深度学习系统的整体成本。

在一个优选实施例中，SOC芯片3连接视频传感器41，根据每个视频传感器获得的视频获得预设尺寸的RTSP数据，将RTSP数据转换为YUV数据，并将yuv数据转换为RGB原始尺寸数据和RGB数据缩略图数据，仅将RGB缩略图数据发送到服务器1的缓存队列中，但不以此为限。

在一个变形例中，可以通过SOC芯片3连接等多个视频传感器41，同步进行多个闸口或是道路的监控，但不以此为限。

在一个优选实施例中，SOC芯片3将每个视频传感器的RTSP视频码流逐帧解码成YUV像素数据，再将YUV像素数据进行转码到深度学习用的RGB数据，并提供RGB原图缩放到预设尺寸的RGB缩略图数据、JPEG图片数据以及RGB原图数据三种数据类型的图片数据，但不以此为限。

在一个优选实施例中，图形加速卡2分别连接神经网络模块21，服务器1将SOC芯片3获得的RGB缩略图数据发送到图形加速卡2的神经网络模块21，神经网络模块21对RGB缩略图数据进行目标识别，但不以此为限。

在一个优选实施例中，当神经网络模块21自RGB缩略图中识别到匹配预设目标的图形，则自SOC芯片3调用首帧图像以及首帧图像的后续帧的YUV原图数据送给SOC芯片3的比对模块，但不以此为限。

在一个优选实施例中，神经网络模块21识别首帧图像以及首帧图像的后续帧对应的待识别图片中目标所占图像区域，通过比对模块进行的对比，获得的预设目标在每一帧的待识别图片与前一帧的待识别图片相比运动后新进入画面的目标新增图像区域，但不以此为限。

在一个优选实施例中，比对模块每次比对第n帧和第n+1帧的两个该待识别图片，获得第n+1帧相比于第n帧新增加的局部区域作为目标新增图像区域，但不以此为限。

在一个优选实施例中，按照时序将后续帧的新增图像区域依次拼贴在首帧图像中与预设目标的局部图像的运动方向相反的一侧，直到神经网络模块21识别到第m帧后续帧中不包含预设目标为止，将被m帧后续帧对应的目标新增图像区域拼贴后的目标起始图像区域作为获得预设目标的整体图像，但不以此为限。

在一个优选实施例中，待识别图片、目标起始图像区域以及目标新增图像区域均为YUV数据格式图片，但不以此为限。

本实施例以双目加速运算引擎为依托，设计一套实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别是在深度学习对大型物体的识别的方面，提供了一种新的解决方案(特别是在港口方面的应用)。通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器1端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器1可以支持更多的视频路数的深度学习的推理运算。同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。特别适用于深度学习对大型物体的识别的领域，通过这种拼接技术可以，将整个物体拼接完整，并编码成JPEG保存成图片，作为对象记录或其它智能功能的使用。不需要显卡，降低了设备成本；不占用服务器的CPU资源，提高了服务器的处理业务的能力集。

整个软件架构包括PC驱动、PC端应用代码接口设计、SOC驱动设计、SOC的MPP模块的设计。实现通过服务器1端下发指令，开启对应通道的IPc，并输出对应的需求的视频或者图片格式。MPP为多媒体模块，包括编码vdec和解码venc、视频处理子系统vpss。

SOC芯片主要是用来处理IPC的RTSP视频流解码成YUV数据格式，将视频流YUV转码成RGB、RGB数据的缩放，编码成jpg等，降低主机CPU处理IPC的负载。

系统架构主要分为以下层次：

(1)PC应用层，主要是应用的功能实现，如显示等一些业务逻辑。

(2)PC驱动层，主要实现PCIE驱动开发，封装相关接口，实现SOC的数据的接收工作。

(3)SOC MMP，主要实现RTSP的引流和编解码工作，转码，数据的缓存，并resize到指定的图片大小数据和格式。

(4)SOC驱动层，主要实现SOC从片和PC端的数据交互，主要为图片传输和bar空间的参数的读写。

SOC驱动层主要4个模块，硬件资源的识别和加载，bar空间(Pcie的共享内存段)的参数配置，主要用于和ep端的通信协议的定义；获取dma的状态，并根据状态去获取所需要的图片，重置bar空间，主要用于通道的控制。PC应用层接口主要4个模块，初始PCIE资源，去打开设备文件句柄；配置IPc参数；获取图片指针地址；关闭通道，释放资源。

PC驱动动层主要封装PC端的调用接口，实现dma内存的访问，bar空间参数的下发。识别硬件设备，主要是访问dev下的设备文件句柄，从而区分和识别多卡。Bar空间的配置，对bar空间的内存进行划分和定义，主要分配幻数，图像的宽和高，缓存buff的大小，缓存buff的物理地址，缓存buff的个数，当前正在搬运的标志位，预留位。IPC的结构体的参数透传，通过bar空间的地址透传到SOC。

SOC端的数据模块主要分为驱动层和MPP应用层；驱动层主要是和PC端的资源识别握手；bar空间的IPc配置地址段的参数识别和透传；图片数据通过dma发送到PC端；MMP应用层主要试下SYSS资源的初始化，从bar空间的解析透传的数据；配置解码通道资源；关闭释放解码资源。

SOC驱动层主要功能为实现硬件寄存器的配置；bar空间数据的访问，配置参数数据的透传；dma数据搬运；其中最主要的部分为dma数据搬运，流程图如下，bar空间访问，查看PC端是否配置了参数，分配了dma搬运地址，获取dma搬运的目的地址，查询下dma是否正在作业，如果当前空闲，则执行搬运任务。

SOC MMP业务层主要是图像的编解码工作和PC端的指令交互控制；SOC通过网络接入RTSP码流，通过解码模块，解码出YUV，从SOC的多媒体子系统获取YUV图像，分别做两个任务，缩放到网络模型的大小，通过IVE转码成RGB，第二个任务是去原图队列中取出图片，进行JPEG编码，发送到PC端。IVE为YUV转RGB转码模块。

参考图2，本是实施例中，在码头的闸道4的天花板上设置视频传感器41，用拍摄通过的车辆的图像。SOC芯片接收视频传感器41的视频数据流信道的视频信息，逐帧解码为待识别图片。神经网络模块已经经过训练，专门用于识别图形中的车辆42的顶部图像。(显然，车辆42很长，视频传感器41的任何一帧画面都无法覆盖车辆42的顶部的完整图像)

参考图3、4，通过神经网络模块逐帧对待识别图片进行识别，当识别到一待识别图片X1中包含预设目标，则获取目标所占的目标起始图像区域Y1，则将该待识别图片作为首帧图像(第一帧图像)。

参考图5、6，将首帧图像对应的待识别图片X1以及首帧图像的下一帧图像(第二帧图像)对应的待识别图片X2输入比对模块比对，获得下一帧图像(第二帧图像)基于首帧图像(第一帧图像)中，预设目标在图片中运动后的目标新增图像区域Y2，目标新增图像区域Y2拼贴在目标起始图像区域Y1中与预设目标的局部图像的运动方向(图中运动方向为自右向左)相反的一侧(目标起始图像区域Y1的右侧)。

参考图7、8，对首帧图像(第一帧图像)的下一帧图像(第二帧图像)进行识别，仍然识别图片包含目标(车辆的顶部)，则继续执行后续步骤。将第二帧图像对应的待识别图片X2以及第二帧图像的下一帧图像(第三帧图像)对应的待识别图片X3输入比对模块比对，获得下一帧图像(第三帧图像)基于第二帧图像中，预设目标在图片中运动后的目标新增图像区域Y3，目标新增图像区域Y3拼贴在目标起始图像区域Y1以及Y2拼合后的图像与预设目标的局部图像的运动方向(图中运动方向为自右向左)相反的一侧(目标起始图像区域Y2的右侧)。

参考图9，对第二帧图像的下一帧图像进行识别，没有识别图片包含目标(车辆的顶部)，则结束拼贴步骤，将当前的将被2帧后续帧对应的目标新增图像区域(Y2、Y3)拼贴后的目标起始图像区域(Y1)作为获得预设目标的整体图像W，整体图像W就是车辆42的顶部的完整图像，编码成JPEG保存成图片，作为对象记录或其它智能功能的使用

图10是本发明的单目多帧视频图像拼接方法的流程图。如图10所示，本发明还提供一种单目多帧视频图像拼接方法，采用上述的单目多帧视频图像拼接系统，包括以下步骤：

S110、SOC芯片接收视频数据流信道的视频信息，逐帧解码为待识别图片；

S120、神经网络模块逐帧对待识别图片进行识别，当识别到一待识别图片中包含预设目标，则获取目标所占的目标起始图像区域，则将该待识别图片作为首帧图像；

S130、将首帧图像以及首帧图像的后续帧对应的待识别图片输入比对模块比对，依次获得相邻帧之间预设目标在图片中运动后的目标新增图像区域；以及

S140、按照时序将后续帧的目标新增图像区域拼贴于目标起始图像区域的一侧，获得预设目标的整体图像。

本发明的单目多帧视频图像拼接方法能够以双目加速运算引擎为依托，实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别适用于深度学习对大型物体的识别的领域，通过这种拼接技术可以，将整个物体拼接完整，并编码成JPEG保存成图片，作为对象记录或其它智能功能的使用。不需要显卡，降低了设备成本；不占用服务器的CPU资源，提高了服务器的处理业务的能力集。

本发明实施例还提供一种单目多帧视频图像拼接设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的单目多帧视频图像拼接方法的步骤。

如上，本发明的单目多帧视频图像拼接设备能够以双目加速运算引擎为依托，实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别适用于深度学习对大型物体的识别的领域，通过这种拼接技术可以，将整个物体拼接完整，并编码成JPEG保存成图片，作为对象记录或其它智能功能的使用。不需要显卡，降低了设备成本；不占用服务器的CPU资源，提高了服务器的处理业务的能力集。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图11是本发明的单目多帧视频图像拼接设备的结构示意图。下面参照图11来描述根据本发明的这种实施方式的电子设备600。图11显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的单目多帧视频图像拼接方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，能够以双目加速运算引擎为依托，实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别适用于深度学习对大型物体的识别的领域，通过这种拼接技术可以，将整个物体拼接完整，并编码成JPEG保存成图片，作为对象记录或其它智能功能的使用。不需要显卡，降低了设备成本；不占用服务器的CPU资源，提高了服务器的处理业务的能力集。

图12是本发明的计算机可读存储介质的结构示意图。参考图12所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的单目多帧视频图像拼接系统、方法、设备及存储介质，能够以双目加速运算引擎为依托，实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别适用于深度学习对大型物体的识别的领域，通过这种拼接技术可以，将整个物体拼接完整，并编码成JPEG保存成图片，作为对象记录或其它智能功能的使用。不需要显卡，降低了设备成本；不占用服务器的CPU资源，提高了服务器的处理业务的能力集。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种单目多帧视频图像拼接系统，其特征在于，包括：

一服务器；

2.根据权利要求1所述的单目多帧视频图像拼接系统，其特征在于，所述SOC芯片连接视频传感器，根据每个所述视频传感器获得的视频获得预设尺寸的RGB缩略图数据，仅将所述RGB缩略图数据发送到服务器的缓存队列中。

3.根据权利要求2所述的单目多帧视频图像拼接系统，其特征在于，所述SOC芯片将每个所述视频传感器的RTSP视频码流逐帧解码成YUV像素数据，再将YUV像素数据进行转码到深度学习用的RGB数据，并根据视频获得预设尺寸的RGB缩略图数据、RGB原始尺寸数据和JPEG编码图片数据。

4.根据权利要求2所述的单目多帧视频图像拼接系统，其特征在于，所述图形加速卡分别连接神经网络模块，所述服务器将所述SOC芯片获得的RGB缩略图数据发送到图形加速卡的所述神经网络模块，所述神经网络模块对RGB缩略图数据进行目标识别。

5.根据权利要求4所述的单目多帧视频图像拼接系统，其特征在于，当所述神经网络模块自所述RGB缩略图中识别到匹配预设目标的图形，则自所述SOC芯片调用首帧图像以及首帧图像的后续帧的YUV原图数据送给SOC芯片的比对模块。

6.根据权利要求1所述的单目多帧视频图像拼接系统，其特征在于，所述神经网络模块识别所述首帧图像以及所述首帧图像的后续帧对应的待识别图片中目标所占图像区域，通过所述比对模块进行的对比，获得的所述预设目标在每一帧的待识别图片与前一帧的待识别图片相比运动后新进入画面的目标新增图像区域。

7.根据权利要求6所述的单目多帧视频图像拼接系统，其特征在于，所述比对模块每次比对第n帧和第n+1帧的两个该待识别图片，获得所述第n+1帧相比于第n帧新增加的局部区域作为目标新增图像区域。

8.根据权利要求6所述的单目多帧视频图像拼接系统，其特征在于，按照时序将后续帧的新增图像区域依次拼贴在所述首帧图像中与预设目标的局部图像的运动方向相反的一侧，直到所述神经网络模块识别到第m帧后续帧中不包含预设目标为止，将被m帧后续帧对应的所述目标新增图像区域拼贴后的目标起始图像区域作为获得所述预设目标的整体图像。

9.根据权利要求7所述的单目多帧视频图像拼接系统，其特征在于，所述待识别图片、目标起始图像区域以及目标新增图像区域均为YUV数据格式图片。

10.一种单目多帧视频图像拼接方法，其特征在于，采用如权利要求1所述的单目多帧视频图像拼接系统，包括以下步骤：

11.一种单目多帧视频图像拼接设备，其特征在于，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行权利要求10所述单目多帧视频图像拼接方法的步骤。

12.一种计算机可读存储介质，用于存储程序，其特征在于，程序被执行时实现权利要求10所述单目多帧视频图像拼接方法的步骤。