CN113095231B

CN113095231B - 基于分类对象的视频识别方法、系统、设备及存储介质

Info

Publication number: CN113095231B
Application number: CN202110401647.5A
Authority: CN
Inventors: 谭黎敏; 阮超; 宋捷
Original assignee: Shanghai Westwell Information Technology Co Ltd
Current assignee: Shanghai Xijing Technology Co ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2023-04-18
Anticipated expiration: 2041-04-14
Also published as: CN113095231A

Abstract

本发明提供了基于分类对象的视频识别方法、系统、设备及存储介质，该方法包括以下步骤：预设至少一主体对象标签，分别对应至少一子对象标签，训练第一类神经网络模型用于识别主体对象标签和第二类神经网络模型用于识别对应子对象标签的参数值；自视频码流中获得原始图片，并压缩为压缩图片；将压缩图片逐张输入第一类神经网络模型进行识别，当得到主体对象标签以及对应的子对象标签；根据压缩图片中子对象标签对应的局部图像区域在对应的原始图片进行抠图；输入第二类神经网络模型，获得每个子对象标签对应的参数值。本发明能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

Description

基于分类对象的视频识别方法、系统、设备及存储介质

背景技术

目前，集装箱码头闸口等场景广泛使用摄像头协助工作人员检验车辆相关信息，其中存在一部分信息需要工作人员能直观的全面的看到车辆及集装箱的完整情况。

传统方案将提供给工作人员连续的多张独立的车辆截图，然后令工作人员人工的检查这多张图片。传统方法会增大工作人员的工作量且增大检查中可能存在的误差。

鉴于无人码头模式的推广，无人集卡无法自行识别集装箱，为了避免运输过程中发生错误，可以通过码头的视频比对集卡的车牌和集装箱的箱号，与预设的任务安排进行比对，但这种方式需要人力监控，而且及时性难以保证。现有技术采用机器视觉来进行辅助，主要通过两种来实现图形机器学习方式，第一种是使用CPU解码，再通过CPU资源实现识别分类任务，对CPU资源消耗大，一旦资源消耗过多，会较低其它业务的运行速度，且成本高；第二种是使用显卡实现识别分类任务，显卡的成本比较高，且功耗比较高。

因此，本发明提供了一种基于分类对象的视频识别方法、系统、设备及存储介质。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本实用新型的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题，本发明的目的在于提供基于分类对象的视频识别方法、系统、设备及存储介质，克服了现有技术的困难，能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

本发明的实施例提供一种基于分类对象的视频识别方法，包括以下步骤：

S110、预设至少一主体对象标签，每个所述主体对象标签对应至少一子对象标签，训练第一类神经网络模型用于自输入的图片中识别出所述主体对象标签和第二类神经网络模型用于自输入的图片中识别出对应所述子对象标签的参数值；

S120、采集视频码流，自所述视频码流中获得原始图片，将所述原始图片的尺寸压缩获得压缩图片，并建立所述压缩图片与所述原始图片的映射关系；

S130、将所述压缩图片逐张输入第一类神经网络模型进行识别，当得到所述主体对象标签以及所述主体对象标签对应的子对象标签，执行步骤S140；

S140、将该所述压缩图片中所述子对象标签对应的局部图像区域映射到原始图片的相关图像区域抠图作为待识别图案；以及

S150、将所述待识别图案输入第二类神经网络模型，获得每个所述子对象标签对应的参数值。

优选地，每个所述子对象标签分别对应一独立的第二类神经网络模型，将每个所述子对象标对应的待识别图案输入到各自的所述第二类神经网络模型中，获得对应的参数值。

优选地，所述子对象标签的参数值至少包括车辆车型、箱体号码、车牌号码、驾驶员人脸、驾驶员行为中的至少一种。

优选地，所述主体对象标签中至少包括空车集卡、带箱集卡、轿车、吊车中的至少一种；

所述带箱集卡对应的所述子对象标签包括箱体号码、车牌号码。

优选地，还包括步骤S160、根据步骤S150中的参数值生成事件信息，将所述事件信息与运输数据库中的相关数据进行比对，发现错误时进行报警。

优选地，通过一独立的SOC芯片进行所述视频码流的采集和压缩，所述SOC芯片分别连接多个视频采集装置。

优选地，一独立的图形加速卡通过服务器与所述SOC芯片进行数据交互，所述第一类神经网络模型和第二类神经网络模型均生成于所述图形加速卡中。

优选地，所述步骤S130中还包括训练第三类神经网络模型，用于自输入的图片中识别出所述子对象标签；

所述步骤S130中，所述SOC芯片将压缩图片通过所述服务器发送给所述图形加速卡中的第一类神经网络模型进行识别，判断是否能获得所述主体对象标签后，若是则再次使用第三类神经网络模型对主体对象标签对应的部分图像区域进行图像识别，获得子对象标签对应的局部图像区域。

优选地，所述步骤S140中，所述图形加速卡将所述子对象标签对应的压缩图片中局部图像区域生成抠图信息，发送到所述SOC芯片；

所述SOC芯片调出所述压缩图片对应的原始图片，并根据所述压缩图片中局部图像区域对原始图片继进行等比例分区抠图后，建立子对象标签与抠图的映射关系后发送到图形加速卡。

本发明的实施例还提供一种基于分类对象的视频识别系统，用于实现上述的基于分类对象的视频识别方法，基于分类对象的视频识别系统包括：

一服务器；

至少一组视频处理模块组件，分别可拆卸地连接于所述服务器，所述视频处理模块组件包括一可编程逻辑器件形成的图形加速卡和对应的一用于解码的SOC芯片，多个视频数据流信道连接于所述SOC芯片；

所述服务器中建立每个所述视频处理模块组件、图形加速卡、SOC芯片以及视频数据流信道的映射关系表，并根据所述视频处理模块组件连接所述服务器的状态更新所述映射关系表。

本发明的实施例还提供一种基于分类对象的视频识别设备，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述基于分类对象的视频识别方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述基于分类对象的视频识别方法的步骤。

本发明的基于分类对象的视频识别方法、系统、设备及存储介质，能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的基于分类对象的视频识别方法的流程图。

图2至4是本发明的基于分类对象的视频识别方法的实施过程示意图。

图5是本发明的基于分类对象的视频识别系统的结构示意图

图6是本发明的基于分类对象的视频识别设备的结构示意图。以及

图7是本发明一实施例的计算机可读存储介质的结构示意图。

附图标记

1 服务器

11 应用模块

12 图形加速卡驱动模块

13 SOC芯片驱动模块

2 视频处理模块组件

21 图形加速卡

211 第一类神经网络模型

212 第二类神经网络模型

213 第二类神经网络模型

214 第二类神经网络模型

22 SOC芯片

301至316 摄像机

40 原始图片

41 第一局部图像区域

42 第二局部图像区域

43 第三局部图像区域

44 压缩图片

45 抠图信息

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

图1是本发明的基于分类对象的视频识别方法的流程图。如图1所示，本发明基于分类对象的视频识别方法，包括以下步骤：

S110、预设至少一主体对象标签，每个主体对象标签对应至少一子对象标签，训练第一类神经网络模型用于自输入的图片中识别出主体对象标签和第二类神经网络模型用于自输入的图片中识别出对应子对象标签的参数值。

S120、采集视频码流，自视频码流中获得原始图片，将原始图片的尺寸压缩获得压缩图片，并建立压缩图片与原始图片的映射关系。

S130、将压缩图片逐张输入第一类神经网络模型进行识别，当得到主体对象标签以及主体对象标签对应的子对象标签，执行步骤S140。

S140、将该压缩图片中子对象标签对应的局部图像区域映射到原始图片的相关图像区域抠图作为待识别图案。

S150、将待识别图案输入第二类神经网络模型，获得每个子对象标签对应的参数值。

S160、根据步骤S150中的参数值生成事件信息，将事件信息与运输数据库中的相关数据进行比对，发现错误时进行报警。

在一个优选实施例中，每个子对象标签分别对应一独立的第二类神经网络模型，将每个子对象标对应的待识别图案输入到各自的第二类神经网络模型中，获得对应的参数值，但不以此为限。

在一个优选实施例中，子对象标签的参数值至少包括车辆车型、箱体号码、车牌号码、驾驶员人脸、驾驶员行为中的至少一种，但不以此为限。

在一个优选实施例中，主体对象标签中至少包括空车集卡、带箱集卡、轿车、吊车中的至少一种。带箱集卡对应的子对象标签包括箱体号码、车牌号码、基于面部识别的驾驶员姓名，但不以此为限。

在一个优选实施例中，通过一独立的SOC芯片进行视频码流的采集和压缩，SOC芯片分别连接多个视频采集装置，但不以此为限。

在一个优选实施例中，一独立的图形加速卡通过服务器与SOC芯片进行数据交互，第一类神经网络模型和第二类神经网络模型均生成于图形加速卡中，但不以此为限。

在一个优选实施例中，步骤S130中还包括训练第三类神经网络模型，用于自输入的图片中识别出子对象标签。

步骤S130中，SOC芯片将压缩图片通过服务器发送给图形加速卡中的第一类神经网络模型进行识别，判断是否能获得主体对象标签后，若是则再次使用第三类神经网络模型对主体对象标签对应的部分图像区域进行图像识别，获得子对象标签对应的局部图像区域，但不以此为限。

在一个优选实施例中，步骤S140中，图形加速卡将子对象标签对应的压缩图片中局部图像区域生成抠图信息，发送到SOC芯片。

SOC芯片调出压缩图片对应的原始图片，并根据压缩图片中局部图像区域对原始图片继进行等比例分区抠图后，建立子对象标签与抠图的映射关系后发送到图形加速卡，但不以此为限。

图2至4是本发明的基于分类对象的视频识别方法的实施过程示意图。如图2至4所示，本发明的实时过程如下：

预设至少一主体对象标签，每个主体对象标签对应至少一子对象标签，训练第一类神经网络模型211用于自输入的图片中识别出主体对象标签、训练第三类神经网络模型，用于自输入的图片中识别出子对象标签以及训练第二类神经网络模型用于自输入的图片中识别出对应子对象标签的参数值。主体对象标签中至少包括空车集卡、带箱集卡、轿车、吊车等。子对象标签的参数值至少包括车辆车型、箱体号码、车牌号码、驾驶员人脸等。每个子对象标签分别对应一独立的第二类神经网络模型，将每个子对象标对应的待识别图案输入到各自的第二类神经网络模型中，获得对应的参数值。带箱集卡对应的子对象标签包括箱体号码、车牌号码、基于面部识别的驾驶员姓名。

通过一独立的SOC芯片进行视频码流的采集和压缩，SOC芯片分别连接多个设置于无人码头的摄像机。采集视频码流，自视频码流中获得原始图片40(参见图2)，将原始图片40的尺寸压缩获得压缩图片44，并建立压缩图片44与原始图片40的映射关系。一独立的图形加速卡通过服务器1与SOC芯片进行数据交互，第一类神经网络模型211和第二类神经网络模型均生成于图形加速卡中。

SOC芯片将压缩图片44通过服务器1发送给图形加速卡中的第一类神经网络模型211进行识别，获得主体对象标签“带箱集卡”后，再次使用第三类神经网络模型对主体对象标签“带箱集卡”对应的部分图像区域进行图像识别，基于压缩图片44获得主体对象标签“带箱集卡”对应的子对象标签“基于面部识别的驾驶员姓名”对应的第一局部图像区域41、子对象标签“车牌号码”对应的第二局部图像区域42、子对象标签“箱体号码”对应的第三局部图像区域43(参见图3)。

图形加速卡根据子对象标签对应的压缩图片44中第一局部图像区域41、第二局部图像区域42和第三局部图像区域43生成抠图信息45，发送到SOC芯片，SOC芯片调出压缩图片44对应的原始图片40，并根据压缩图片44中局部图像区域对原始图片40继进行等比例分区抠图后，建立子对象标签与抠图的映射关系后发送到图形加速卡。

将待识别图案输入第二类神经网络模型，获得每个子对象标签对应的参数值。将子对象标签“基于面部识别的驾驶员姓名”对应的第一局部图像区域41输入到用于驾驶员脸部识别的第二类神经网络模型214，获得驾驶员姓名“ZZZ”。将子对象标签“车牌号码”对应的第二局部图像区域42输入到用于车牌号码识别的第二类神经网络模型213，获得车牌号码“XXX”。将子对象标签“箱体号码”对应的第三局部图像区域43输入到用于箱体号码识别的第二类神经网络模型212，获得箱体号码“YYY”(参见图4)。

根据参数值“XXX、YYY、ZZZ”生成事件信息，将事件信息与运输数据库中的相关数据进行比对，如果事件信息与运输数据库中的相关数据相同，则表示车货匹配；如果事件信息与运输数据库中的相关数据不同，则表示车货不匹配则进行报警。

而且，由于本发明中图形加速卡21和SOC芯片22之间并不传输大容量的原始图片，而是仅仅传输压缩图和原始图片的局部抠图，并且通常是多个摄像头中仅有几个在同一时刻拍摄到车辆，从而大大降低了对于带宽的需求。本发明的基于分类对象的视频识别方法，能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

图5是本发明的基于分类对象的视频识别系统的结构示意图。如图5所示，本发明的实施例还提供一种基于分类对象的视频识别系统5，用于实现上述的基于分类对象的视频识别方法，基于分类对象的视频识别系统包括：一服务器1(也可以是PC机或者处理图像的集成电路模块等，不以此为限。)和至少一组视频处理模块组件2。视频处理模块组件2分别可拆卸地连接于服务器1，视频处理模块组件包括一可编程逻辑器件形成的图形加速卡21和对应的一用于解码的SOC芯片22，多个视频数据流信道连接于SOC芯片22。服务器1中建立每个视频处理模块组件、图形加速卡21(FPGA图形加速卡)、SOC芯片22以及视频数据流信道的映射关系表，并根据视频处理模块组件连接服务器1的状态更新映射关系表。本发明通过SOC芯片22来实现解码卡的性能价值，提升解码卡的处理视频路数，目标是多路的RTSP的解码，降低PC端的线程消耗，提升产品的性能，降低成本。服务器1中包括了应用模块11、图形加速卡驱动模块12、SOC芯片驱动模块13，图形加速卡驱动模块12连接每组视频处理模块组件2中的图形加速卡21，SOC芯片驱动模块13连接每组视频处理模块组件2中的SOC芯片22，每个SOC芯片22可以连接16个摄像机301、302、302、304......316，图形加速卡驱动模块12与SOC芯片驱动模块13之间可以直接传输图像数据或者抠图信息45等，从而大大降低了对于服务器的CPU的占用，并且由于本发明中图形加速卡21和SOC芯片22之间并不传输大容量的原始图片，而是仅仅传输压缩图和原始图片的局部抠图，并且通常是多个摄像头中仅有几个在同一时刻拍摄到车辆，从而大大降低了对于带宽的需求，使得本发明能够同步运行多路的视频分析任务，降低带宽需求和服务器的线程消耗。

由于本发明中完全由图形加速卡(FPGA图形加速卡)、SOC芯片22来进行图像压缩、识别、深度学习等耗费资源的运作，而服务器1不进行图形压缩、识别等耗费高运算资源的运作，服务器1进行数据调用参数设置等低运算资源的运作，所以可以在一台服务器1上连接多组视频处理模块组件，同时基于大量视频数据流信道进行高效的深度学习。而无需额外增加大量显卡，降低了嵌入式视频图像深度学习系统的整体成本。本发明可以仅连接一组视频处理模块组件，控制n个视频传感器同时进行深度学习，也可以通过连接m组视频处理模块组件，来控制(n×m)个视频传感器同时进行深度学习。同时一个服务器1可以插入多张卡，通过增加连接服务器1的处理模块组件来扩展更多的视频传感器，实现按需动态配置，灵活性好。本实施例中的SOC芯片22(System-on-a-ChIP)是一种集成电路的芯片，可以有效地降低电子/信息系统产品的开发成本，缩短开发周期，提高产品的竞争力。

SOC芯片22可以连接多个视频传感器，根据每个视频传感器获得的视频获得预设尺寸的RGB缩略图数据，RGB原始尺寸数据和jpeg编码图片数据。SOC芯片22将每个视频传感器的RTSP视频码流逐帧解码成YUV像素数据，再将YUV像素数据进行转码到深度学习用的RGB数据，并提供RGB原图缩放到预设尺寸的RGB缩略图数据、JPEG图片数据以及RGB原图数据三种数据类型的图片数据，并将RGB原图缩放到预设尺寸的RGB缩略图数据。RTSP视频码流是一种常见的视频文件格式，但不以此为限。YUV像素数据是一种常见的像素数据的编码格式，但不以此为限。RGB数据也是一种常见的像素数据的编码格式，但不以此为限。

图形加速卡21(Hardrock)分别连接第一神经网络和第二神经网络，服务器1将SOC芯片22获得的RGB缩略图数据发送到图形加速卡21的第一神经网络，第一神经网络对RGB缩略图数据进行第一次目标识别，获得目标。

在一个优选实施例中，当第一神经网络自RGB缩略图中没有识别到匹配预设目标的图形，则进行下一帧的RGB缩略图数据的第一次目标识别。

在一个优选实施例中，当第一神经网络自RGB缩略图中识别到匹配预设目标的图形，则获得目标以及目标所占的RGB缩略图中的目标区域。

在一个优选实施例中，服务器1根据第一神经网络识别到的目标和目标区域，自SOC芯片22调用对应的RGB原图数据进行对应的目标区域抠图后发送给第二神经网络，进行第二次目标识别，获得第二次目标识别结果后，进行下一帧的RGB缩略图数据的第一次目标识别。

在一个优选实施例中，保存第二次目标识别的目标在RGB原图数据对应编码成的JPEG图片。

在一个优选实施例中，服务器1监控每个视频处理模块组件中图形加速卡21的工作载荷，当出现一图形加速卡21工作载荷超过预设阈值时，临时调整映射关系表，将其中高载荷的图形加速卡21所对应的至少一视频数据流信道，连接到低载荷的图形加速卡21进行处理。

在一个优选实施例中，识别图片的存储数据的格式为JPEG图片。

本实施例以双目加速运算引擎为依托，设计一套实现单目多帧拼接，满足一些大型物体运动，而无法看清主体的整个状态，特别是在深度学习对大型物体的识别的方面，提供了一种新的解决方案(特别是在港口方面的应用)。通过SOC芯片实现解码和深度学习前处理，通过FPGA实现网络推理，服务器1端实现数据的调度，极大的提高了整体的运营性能，使得一台服务器1可以支持更多的视频路数的深度学习的推理运算。同时支持多张解码卡和FPGA的拓展，使得设备的能力集的配置更加的灵活。

解码卡的整个软件架构包括PC驱动、PC端应用代码接口设计、SOC驱动设计、SOC的MPP模块的设计。实现通过服务器1端下发指令，开启对应通道的IPc，并输出对应的需求的视频或者图片格式。MPP为多媒体模块，包括编码vdec和解码venc、视频处理子系统vpss。

系统架构主要分为以下层次：

(1)PC应用层，主要是应用的功能实现，如显示等一些业务逻辑。

(2)PC驱动层，主要实现PCIE驱动开发，封装相关接口，实现SOC的数据的接收工作。

(3)SOC MMP，主要实现RTSP的引流和编解码工作，并resize到指定的图片大小数据和格式。

(4)SOC驱动层，主要实现SOC从片和PC端的数据交互，主要为图片传输和bar空间的参数的读写。

本发明文中的SOC设备接入IPc相机，将RTSP码流解码成YUV数据，再将YUV数据进行转码到深度学习用的RGB数据，同时提供三种数据类型的图片数据，RGB原图，缩放到深度学习识别要求的尺寸的RGB图片数据，编码完成的JPEG图片数据，通过PCIE(Pcie底层模块)发送到PC端的缓存队列中。第一神经网络模型识别的RGB图片数据，SOC通过解码模块，将数据通过PCIE接口将需要的数据发送到PC端，PC端将数据发送到图形加速卡。PC端接收到FPGA识别到目标，PC端将需要的对应的原图RGB数据，进行抠图和调整图像数据，发送给FPGA端，进行第二神经网络模型的识别，获取识别结果，JPEG图片作为图片数据保存验证。PC端显示功能，PC端配置需要的帧率和视频大小；SOC接收到数据，从原图队列中取数据，缩放到需要的size，通过PCIE接口，发送到PC端。

SOC驱动层主要4个模块，硬件资源的识别和加载，bar空间(Pcie的共享内存段)的参数配置，主要用于和ep端的通信协议的定义；获取dma的状态，并根据状态去获取所需要的图片，重置bar空间，主要用于通道的控制。PC应用层接口主要4个模块，初始PCIE资源，去打开设备文件句柄；配置IPc参数；获取图片指针地址；关闭通道，释放资源。驱动层主要封装PC端的调用接口，实现dma内存的访问，bar空间参数的下发。识别硬件设备，主要是访问dev下的设备文件句柄，从而区分和识别多卡。Bar空间的配置，对bar空间的内存进行划分和定义，主要分配魔数，图像的宽和高，缓存buff的大小，缓存buff的物理地址，缓存buff的个数，当前正在搬运的标志位，预留位。IPC的结构体的参数透传，通过bar空间的地址透传到SOC。SOC端的数据模块主要分为驱动层和MPP应用层；驱动层主要是和PC端的资源识别握手；bar空间的IPc配置地址段的参数识别和透传；图片数据通过dma发送到PC端；MMP应用层主要初始化SYS资源的初始化，从bar空间的解析透传的数据；配置解码通道资源；关闭释放解码资源。SOC驱动层主要功能为实现硬件寄存器的配置；bar空间数据的访问，配置参数数据的透传；dma数据搬运；其中最主要的部分为dma数据搬运，流程图如下，bar空间访问，查看PC端是否配置了参数，分配了dma搬运地址，获取dma搬运的目的地址，查询下dma是否正在作业，如果当前空闲，则执行搬运任务。

SOC MMP业务层主要是图像的编解码工作和PC端的指令交互控制；SOC通过网络接入RTSP码流，通过解码模块，解码出YUV，从SOC的多媒体子系统获取YUV图像，分别做两个任务，缩放到网络模型的大小，通过IVE转码成RGB，第二个任务是去原图队列中取出图片，进行JPEG编码，发送到PC端。IVE为YUV转RGB转码模块。

本发明的基于分类对象的视频识别系统，能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

本发明实施例还提供一种基于分类对象的视频识别设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的基于分类对象的视频识别方法的步骤。

如上，本发明的基于分类对象的视频识别设备能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图6是本发明的基于分类对象的视频识别设备的结构示意图。下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述基于分类对象的视频识别方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的基于分类对象的视频识别方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

图7是本发明的计算机可读存储介质的结构示意图。参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的基于分类对象的视频识别方法、系统、设备及存储介质，能够同步运行多路的视频分析任务，大大减少视频分析的运算量，从而降低带宽需求和服务器的线程消耗。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于分类对象的视频识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于分类对象的视频识别方法，其特征在于，每个所述子对象标签分别对应一独立的第二类神经网络模型，将每个所述子对象标对应的待识别图案输入到各自的所述第二类神经网络模型中，获得对应的参数值。

3.根据权利要求1所述的基于分类对象的视频识别方法，其特征在于，所述子对象标签的参数值至少包括车辆车型、箱体号码、车牌号码、驾驶员人脸、驾驶员行为中的至少一种。

4.根据权利要求1所述的基于分类对象的视频识别方法，其特征在于，所述主体对象标签中至少包括空车集卡、带箱集卡、轿车、吊车中的至少一种；

5.根据权利要求4所述的基于分类对象的视频识别方法，其特征在于，还包括步骤S160、根据步骤S150中的参数值生成事件信息，将所述事件信息与运输数据库中的相关数据进行比对，发现错误时进行报警。

6.根据权利要求1所述的基于分类对象的视频识别方法，其特征在于，通过一独立的SOC芯片进行所述视频码流的采集和压缩，所述SOC芯片分别连接多个视频采集装置。

7.根据权利要求6所述的基于分类对象的视频识别方法，其特征在于，一独立的图形加速卡通过服务器与所述SOC芯片进行数据交互，所述第一类神经网络模型和第二类神经网络模型均生成于所述图形加速卡中。

8.根据权利要求7所述的基于分类对象的视频识别方法，其特征在于，所述步骤S130中还包括训练第三类神经网络模型，用于自输入的图片中识别出所述子对象标签；

9.根据权利要求7所述的基于分类对象的视频识别方法，其特征在于，所述步骤S140中，所述图形加速卡将所述子对象标签对应的压缩图片中局部图像区域生成抠图信息，发送到所述SOC芯片；

所述SOC芯片调出所述压缩图片对应的原始图片，并根据所述压缩图片中局部图像区域对原始图片进行等比例分区抠图后，建立子对象标签与抠图的映射关系后发送到图形加速卡。

10.一种基于分类对象的视频识别系统，其特征在于，用于实现如权利要求1所述的基于分类对象的视频识别方法，包括：

一服务器；

11.一种基于分类对象的视频识别设备，其特征在于，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行权利要求1至9中任意一项所述基于分类对象的视频识别方法的步骤。

12.一种计算机可读存储介质，用于存储程序，其特征在于，程序被执行时实现权利要求1至9中任意一项所述基于分类对象的视频识别方法的步骤。