CN114693735B

CN114693735B - 一种基于目标识别的视频融合方法及装置

Info

Publication number: CN114693735B
Application number: CN202210288906.2A
Authority: CN
Inventors: 邓波; 邓秋雄; 拜正斌; 姜旭; 胡靖�; 连天友; 杨征宇
Original assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Current assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-03-14
Anticipated expiration: 2042-03-23
Also published as: CN114693735A

Abstract

本发明公开了一种基于目标识别的视频融合方法及装置，包括以下步骤：S1、获取X光机扫描包裹发送的X光机视频流；S2、基于所述X光机视频流，进行新包裹判定，若所述X光机视频流包含新包裹图片，则执行步骤S3；若所述X光机视频流不包含新包裹图片，则执行步骤S5；S3、基于所述新包裹图片对应的视频帧图片，获取新包裹的位置信息A以及新包裹的移动速度C，以及新包裹图片；S4、将所述新包裹图片进行检测处理，获得新包裹图片中对应于目标的位置信息B；S5、对所述目标的跟踪。本发明通过识别与判定处理进行新包裹检测，可以很好的完成对于X光视频图像中目标的实时性跟踪，特别地，可具有较高的目标跟踪准确率。

Description

一种基于目标识别的视频融合方法及装置

技术领域

本发明涉及智慧安检技术领域，具体涉及一种基于目标识别的视频融合方法及装置。

背景技术

在现有安检点的设备中，其中，X光机用来安检包裹，乘客在进站的时候会把包裹放在上面接受X光机的检查，X光机在此过程中输出X光成像视频；智能识图盒子负责对X光成像视频中的违禁品进行识别，获取到违禁品信息。随后，智能识图盒子把处理后的包裹信息发给开包台、本地终端等设备；智能识图盒子配置终端是可插拔的一个客户端，负责对智能识图盒子进行配置。

在这个过程中，X光机输出的X光成像视频是原始视频，视频里面展示的X光成像会从左到右或者从右到左移动，和X光机里面的传送带方向保持一致。

X光机将原始视频信号输出给智能识图盒子，智能识图盒子对视频中的违禁品进行识别，但是AI中的目标识别通常是对图片进行识别，识别图片上面的物目标(在地铁安检场景下为识别违禁品)，视频需要被处理成图片后才能进行违禁品的识别，识别出来的结果是一个结构化的数据，比如A图片中，在像素(0,0,100,100)的位置有菜刀违禁品，然而在A图的本地识图模块和开包台模块，被识别出来的违禁品结构化数据需要标记在原始视频上，将标注框配置在违禁品区域，并用文字在视频上进行说明，同时，标注框和文字还需要跟随着包裹中违禁品的移动而移动。然而，部署在安检点上的智能识图盒子计算能力比较弱，没有办法对视频的每一帧画面都进行违禁品识别处理，所以在这里，就需要一个视频融合方案，一次性识别，并让识别出来的方框和文字画面跟随原始视频进行移动，从而实现视频融合。

发明内容

本发明的目的在于提供一种基于目标识别的视频融合方法及装置，采取识别与去重处理进行新包裹判定，对含有新包裹的视频帧图片进行切图处理，获得新包裹图片并用来检测，将检测获得的标注框提取出位置信息B，并根据新包裹的位置信息A、新包裹移动的速度C预测下一视频帧图片中新包裹中目标可能出现的区域，将所述标注框提取出位置信息B配置在该区域，用以解决现有的安检识图对计算资源需要高的问题。

一种基于目标识别的视频融合方法，具体包括以下步骤：

S1、获取X光机扫描包裹发送的X光机视频流；

S2、基于所述X光机视频流，进行新包裹判定，若所述X光机视频流包含新包裹，则执行步骤S3；若所述X光机视频流不包含新包裹，则执行步骤S5；

S3、基于所述新包裹对应的视频帧图片，获取新包裹的位置信息A以及新包裹的移动速度C，以及新包裹图片；

S4、将所述新包裹图片进行检测处理，获得新包裹图片中对应于目标的位置信息B；

S5、基于当前新包裹的位置信息A、当前新包裹移动的速度C以及当前新包裹图片中对应于目标的位置信息B获得所述目标在下一帧视频帧图片中的预测区域，基于所述预测区域进行配置，以实现对所述目标的跟踪。

进一步地，所述新包裹图片，还可以由以下步骤得到：

从所述X光机视频流中选取待识别的视频帧图片；

以所述待识别的视频帧图片为基准图片，遍历所述X光机视频流中所述基准图片之后的每一帧视频帧图片，将所述基准图片与当前遍历的视频帧图片进行识别与判定处理；

以及在判定为新包裹时从当前遍历的视频帧图片中提取新包裹的位置信息A；

基于新包裹的位置信息A对所述当前遍历的视频帧图片进行切图处理，获得新包裹图片。

进一步地，所述识别与判定处理具体包括以下步骤：

对所述基准图片进行包裹识别，获得所述基准图片中对应于各个包裹的区域信息；

基于所述各个包裹的区域信息，选取与起始侧之间距离最小的区域信息为基准区域信息，所述起始侧为包裹像素在视频帧图片中最先出现的一侧；

基于所述基准区域信息，获得去重区间；

对所述当前遍历的视频帧图片进行包裹识别，获得所述当前遍历的视频帧图片中对应于各个包裹的区域信息；

基于所述当前遍历的视频帧图片中对应于各个包裹的区域信息，判定去重区间以内的是否存在区域信息，若存在则将当前遍历的视频帧图片判定为包含新包裹图片，并将所述去重区间以内区域信息确定为新包裹的位置信息A。

进一步地，所述区域信息包各个包裹在视频帧图片中外边框的坐标信息，所述基准区域信息为Y轴坐标ry。

进一步地，所述去重区间通过以下步骤获得：

计算新包裹的移动速度C；

将所述ry减去包裹移动的像素C*n，即ry’＝ry-C*n；

将Y轴坐标(ry’+α，w-β)之间的区间作为去重区间，所述α、β为补偿量。

进一步地，所述新包裹的移动速度C具体通过以下步骤获得：

以新包裹的图片对应的视频帧图片为第0帧图片，前i帧图片为第i帧图片(i∈[1,N])，计算第j(j＝1，2，…，N)帧图片与第j-1帧图片内包裹的水平位移d_xj；

根据所述水平位移d_xj获得水平位移的平均值

基于所述水平位移的平均值

与帧间时间ΔT，计算所述新包裹的移动速度

进一步地，所述步骤S3具体包括以下步骤：

将所述新包裹图片输入到目标识别模型中，以通过所述目标识别模型对从所述新包裹图片中识别出的目标进行标注；

获取所述目标识别模型输出的标注结果，其中，所述标注结果中标注框的坐标信息，将所述标注框的坐标信息确定为新包裹图片中对应于目标的位置信息B。

进一步地，一种基于目标识别的视频融合装置，包括：

一个辅助机处理器与智能识图盒子处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据所述的一种基于目标识别的视频融合方法，所述一个或多个程序包括：

由辅助机处理器执行的：获取X光机扫描包裹发送的X光机视频流；

由辅助机处理器执行的：基于所述X光机视频流，进行新包裹判定，若所述X光机视频流包含新包裹，则执行步骤S3；若所述X光机视频流不包含新包裹，则执行步骤S5；

由辅助机处理器执行的：步骤S3，基于所述新包裹图片对应的视频帧图片，获取新包裹的位置信息A以及新包裹的移动速度C，以及新包裹图片；

由智能识图盒子处理器执行的：将所述新包裹图片进行检测处理，获得新包裹图片中对应于目标的位置信息B；

由辅助机处理器执行的：步骤S5，基于当前新包裹的位置信息A、当前新包裹移动的速度C以及当前新包裹图片中对应于目标的位置信息B获得所述目标在下一帧视频帧图片中的预测区域，基于所述预测区域进行配置，以实现对所述目标的跟踪。

进一步地，一种基于目标识别的视频融合装置，其包括：

一个新智能识图盒子处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述新智能识图盒子处理器实现所述的一种基于目标识别的视频融合方法，所述一个或多个程序包括：

接收模块，用于获取X光机扫描包裹发送的X光机视频流；

判定模块，用于基于所述X光机视频流，进行新包裹判定，若所述X光机视频流包含新包裹，则执行新包裹模块；若所述X光机视频流不包含新包裹，则执行配置模块；

新包裹模块，用于基于所述新包裹对应的视频帧图片，获取新包裹的位置信息A以及新包裹的移动速度C，以及新包裹图片；

检测模块，用于将所述新包裹图片进行检测处理，获得新包裹图片中对应于目标的位置信息B；

配置模块，用于基于当前新包裹的位置信息A、当前新包裹移动的速度C以及当前新包裹图片中对应于目标的位置信息B获得所述目标在下一帧视频帧图片中的预测区域，基于所述预测区域进行配置，以实现对所述目标的跟踪。

本发明具有的有益效果：

1、现有技术是对视频的每一帧都进行目标检测，会出现跟踪结果不稳定以及整个流程速度较慢，占用较多计算机资源，不利于低成本硬件部署的问题，而本申请实施例提供的一种目标跟踪方法，对于当前视频帧，只有在前一帧对出现新包裹才进行目标检测，若前一帧没有出现新包裹，则当前视频帧图片可以不进行目标检测，可以直接进行跟踪处理，这样一来，可以避免逐帧检测所带来的不稳定性，能够提升目标跟踪算法的运算速度，降低了对计算资源的需求，便于在计算资源有限的硬件平台上部署；

2、利用本申请提供的目标跟踪的方法，可以很好的完成对于X光视频图像中目标的实时性跟踪，特别地，可具有较高的目标跟踪准确率，新包裹的位置信息A、新包裹移动的速度C以及新包裹图片中对应于目标的位置信息B预测新包裹图片中目标在下一视频帧图片中新包裹中目标可能出现的区域，最后只针对该区域配置对应的标注框与文本标识，从而将使用的计算资源降低，耗费的时间缩短。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的新智能识图盒子示意图；

图3为本发明的辅助机与智能识图盒子数据交互示意图；

图4为本发明的新智能识图盒子数据流示意图；

图5为本发明的识别与判定处理的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

另外，为了清楚和简洁起见，可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到，在不脱离本公开的精神和范围的情况下，可以对本文描述的示例进行各种改变和修改。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

目前的目标跟踪技术通常的流程是：

(1)给定视频的原始帧；

(2)对每一帧运行目标检测器以获得目标的边界框；

(3)对于每个检测到的目标进行特征提取，通常是视觉和运动特征；

(4)相似度计算步骤，计算前后帧两个目标属于同一目标的概率；

(5)关联步骤，为每个目标匹配跟踪标识。

也就是说，现有的目标跟踪方式是对视频的每一帧都进行目标检测，其主要问题在于，一方面其对每一帧都需要做目标检测，也就是说检测器的能力会影响跟踪的结果，在一些环境复杂的场景检测器效果不理想也会导致跟踪结果不稳定；另一方面，一般来说，检测器参数较多，若每一帧都进行目标检测会导致整个流程速度较慢，占用较多计算机资源，不利于低成本硬件部署。

实施例1

一种基于目标识别的视频融合方法，具体包括以下步骤：

S1、获取X光机扫描包裹发送的X光机视频流；

在一种实施例中，在步骤S5之前，还设置有检测刷新步骤，所述检测步骤用于，当检测到新包裹的位置信息A、新包裹移动的速度C以及新包裹图片中对应于目标的位置信息B，则将当前包裹的位置信息A、当前包裹移动的速度C以及当前包裹图片中对应于目标的位置信息B分别刷新为当前新包裹的位置信息A、当前新包裹移动的速度C以及当前新包裹图片中对应于目标的位置信息B，当没有检测到新包裹的位置信息A、新包裹移动的速度C以及新包裹图片中对应于目标的位置信息B时，基于当前包裹的位置信息A、当前包裹移动的速度C以及当前包裹图片中对应于目标的位置信息B获得对应的预测区域。

具体的，其中，待检测视频为待检测的视频或视频帧序列。例如，待检测视频可以是一定视频帧长度的视频，或视频流。待检测图像为待检测视频中的图像。

作为一示例，获取X光机视频流后，从X光机视频流中间隔获取多帧待融合图像，例如，X光机视频流包括M帧待融合图像，从M帧待融合图像中每间隔N帧获取至少一帧待融合图像。需要说明的是，X光机视频流中待融合图像帧速一般为每秒25帧以上，如果对每一帧待融合图像都进行检测，则计算量过大，会导致服务器过载，影响多目标跟踪的处理速度和待检测视频的接入路数。在本实施例中，获取X光机视频流后，从X光机视频流中间隔获取多帧待融合图像，能够提高待X光机视频流中目标跟踪的处理速度和增加可以处理的待检测视频的接入路数。

在一些可能的实施例中，在前一个视频帧中，目标对象可以是一个，也可以是多个。目标跟踪对象可以但不限于是水杯、枪支等物体。

可以理解的是，前一个视频帧可能检测帧，也可能是跟踪帧，其中，检测帧指得是需要进行目标检测处理的视频帧，跟踪帧指得是对检测帧中检测到的目标对象进行跟踪处理的视频帧。

需要注意的是，若前一个视频帧是给定视频的第一帧，则其是检测帧，需要进行目标检测处理，若当前视频帧是给定视频的第一帧，则直接对当前视频帧进行目标检测处理，确定目标跟踪对象。

在一些可能的实施例中，确定前一个视频帧是否存在目标跟踪对象的方式可以但不限于是：若前一帧视频被配置有跟踪标识，则可以确定存在目标跟踪对象，或者，将前一帧视频输入到智能识图盒子进行目标检测，若检测到目标，则可以确定存在目标跟踪对象。

在本申请实施例中，若前一个视频帧存在目标跟踪对象，表明前一帧视频要么是对前期检测到的目标对象跟踪成功，要么是重新检测出来要跟踪的目标对象，则针对当前视频帧，可以继续对该跟踪成功或者重新检测出来的目标对象进行跟踪，从而无需再去进行目标检测，能够避免逐帧检测带来的跟踪结果不稳定、速度较慢且占用较多计算机资源的问题。

所述新包裹图片，还可以由以下步骤得到：

从所述X光机视频流中选取待识别的视频帧图片；

所述识别与判定处理具体包括以下步骤：

基于所述基准区域信息，获得去重区间；

所述区域信息包各个包裹在视频帧图片中外边框的坐标信息，所述基准区域信息为Y轴坐标ry。

所述去重区间通过以下步骤获得：

计算新包裹的移动速度C；

将所述ry减去包裹移动的像素C*n，即ry’＝ry-C*n；

在一个具体的实时例中：

新包裹图片通过以下步骤得到：

视频帧图片的长为w，高为h。视频帧进行切图系统识别后，得到图像中的包裹(如灰色区域),包裹图片的左上顶点GnP0(x0,y0)和右下顶点GnP1(x1,y1)。那么可以通过P0,P1的坐标可以把包裹图片从视频中提取出来。GnP0表示第n个包裹图片的左上顶点，GnP1表示第n个包裹图片的右下顶点。用ry表示上一帧中最右侧的包裹图片的右下顶点的y坐标。

对于基准图片中的像素点ry取值的两种情况：

(1)当视频帧中没有识别出包裹图片时，ry＝0

(2)视频帧图像中识别出来包裹图片，取每个包裹图片的右下角顶点的y，过滤掉大于等于w-10的y值，若y数据全部过滤了，则ry＝0。若y数据没有全部过滤，则进行降序排序后取最大值。

记传送带的速度为v，间隔固定取n帧后的视频帧图像。所以基准图片的像素点ry经过n帧后变换为像素点ry’，ry’＝ry–nv。

对该帧图像中的识别出的包裹图片的y坐标进行判断。

过滤掉小于等于(ry’+10)和大于等于(w-10)的y数据

对剩余的y数据降序排序，更新ry，如果没有新包裹数据了，ry＝0。如果还有y数据，选取最大y对ry进行更新。

对剩余y数据对应的包裹图片进行包裹切图。

1、本实施例中的识别采样现有的神经网络模型，具体包括：

2、对含有包裹图片进行标注；

3、对标注好的包裹图片使用神经网络进行学习，得到数据模型；

4、切图系统加载数据模型；

5、切图系统对输入的图片进行识别。

其中步骤1,2是数据模型训练过程，步骤3,4是系统使用训练好的模型进行识别的过程，步骤1,2和步骤3,4是独立的。

所述新包裹的移动速度C具体通过以下步骤获得：

根据所述水平位移d_xj获得水平位移的平均值

基于所述水平位移的平均值

与帧间时间ΔT，计算所述新包裹的移动速度

所述步骤S3具体包括以下步骤：

实施例2

一种基于目标识别的视频融合装置，包括：

一个辅助机处理器与智能识图盒子处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现所述的一种基于目标识别的视频融合方法，所述一个或多个程序包括：

由辅助机处理器执行的：步骤S3，基于所述新包裹对应的视频帧图片，获取新包裹的位置信息A以及新包裹的移动速度C，以及新包裹图片；

实施例3

一种基于目标识别的视频融合装置，包括：

一个新智能识图盒子处理器；

接收模块，用于获取X光机扫描包裹发送的X光机视频流；

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于目标识别的视频融合方法，其特征在于，具体包括以下步骤：

S1、获取X光机扫描包裹发送的X光机视频流；

所述新包裹通过以下步骤获得：

将当前新包裹对应的视频帧图片设为基准图片；

提取基准图片之后的第N帧视频帧图片，获取第N帧视频帧图片中的去重区间，其中，所述去重区间为当前新包裹与第N帧视频帧图片之间两两相对的边缘之间的区间，所述去重区间至少部分包括当前新包裹的沿传送带传送方向的运动距离；

判断所述第N帧视频帧图片中的去重区间内是否存在至少一个包裹；

若存在，在所述至少一个包裹中，获取去重区间中距离相对的边缘最近的包裹确定为新包裹；

S5、基于当前新包裹的位置信息A、当前新包裹移动的速度C以及当前新包裹图片中对应于目标的位置信息B获得所述目标在下一帧视频帧图片中的预测区域，基于所述预测区域进行配置，以实现对所述目标的跟踪；

还包括：

所述区域信息包括各个包裹在视频帧图片中外边框的坐标信息；

当起始侧为视频帧图片的最右侧时，所述基准区域信息为新包裹右下顶点的Y轴坐标ry；

所述去重区间通过以下步骤获得：

计算新包裹的移动速度C；

将所述ry减去包裹移动的像素C*n，即ry’＝ry-C*n；

2.根据权利要求1所述的一种基于目标识别的视频融合方法，其特征在于，所述新包裹图片，还可以由以下步骤得到：

从所述X光机视频流中选取待识别的视频帧图片；

3.根据权利要求2所述的一种基于目标识别的视频融合方法，其特征在于，所述识别与判定处理还包括以下步骤：

4.根据权利要求1所述的一种基于目标识别的视频融合方法，其特征在于，所述新包裹的移动速度C具体通过以下步骤获得：

根据所述水平位移d_xj获得水平位移的平均值

基于所述水平位移的平均值

与帧间时间ΔT，计算所述新包裹的移动速度

5.根据权利要求1所述的一种基于目标识别的视频融合方法，其特征在于，所述步骤S3具体包括以下步骤：

6.一种基于目标识别的视频融合装置，其特征在于，包括：

一个辅助机处理器与智能识图盒子处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至5中任意一项所述的一种基于目标识别的视频融合方法，所述一个或多个程序包括：

7.一种基于目标识别的视频融合装置，其特征在于，包括：

一个新智能识图盒子处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述新智能识图盒子处理器实现根据权利要求1至5中任意一项所述的一种基于目标识别的视频融合方法，所述一个或多个程序包括：

接收模块，用于获取X光机扫描包裹发送的X光机视频流；