CN109271854A

CN109271854A - 基于视频处理方法及装置、视频设备及存储介质

Info

Publication number: CN109271854A
Application number: CN201810892836.5A
Authority: CN
Inventors: 周彧聪; 王诗瑶
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2019-01-25
Anticipated expiration: 2038-08-07
Also published as: CN109271854B

Abstract

本发明实施例公开了一种基于视频处理方法及装置、视频设备及存储介质。所述方法包括：根据从视频的图像帧提取的第一类特征，进行像素级别的特征对齐获得第一对齐特征；根据从所述视频的图像帧提取的第二类特征，进行实例级别的特征对齐得到第二对齐特征；融合所述第一对齐特征和所述第二对齐特征，得到第三对齐特征。

Description

基于视频处理方法及装置、视频设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种基于视频处理方法及装置、视频设备及存储介质。

背景技术

基于视频的物体检测时计算机视觉及智能视频分析中重要问题。例如，对行人、过往车辆进行视频采集，形成了包含多个图像帧的视频。

在相关技术中提供了多种对视频进行结构化分析及场景识别的方法。但是实践发现，现有的物体检测时，依然存在检测精确度低，达不到预期效果问题。

发明内容

有鉴于此，本发明实施例期望提供一种基于视频处理方法及装置、视频设备及存储介质。

本发明的技术方案是这样实现的：

一种基于视频处理方法，其特征在于，包括：

根据从视频的图像帧提取的第一类特征，进行像素级别的特征对齐获得第一对齐特征；

根据从所述视频的图像帧提取的第二类特征，进行实例级别的特征对齐得到第二对齐特征；

融合所述第一对齐特征和所述第二对齐特征，得到第三对齐特征。

基于上述方案，所述根据从视频的图像帧提取的第一类特征，进行像素级别的特征对齐获得第一对齐特征，包括：

根据第一像素特征和第二像素特征，生成第一待对齐特征；其中，所述第一像素特征为：从第m-1个图像帧提取的像素特征；所述第二像素特征为：从第m个图像帧中提取的像素特征；m为正整数；

根据所述第二像素特征和第三像素特征，生成第二待对齐特征，其中，所述第三像素特征为：从第m个图像帧提取的像素特征；

融合所述第一待对齐特征和所述第二待对齐特征，得到所述第一对齐特征。

基于上述方案，所述根据从所述视频的图像帧提取的第二类特征，进行实例级别的特征对齐得到第二对齐特征，包括：

结合所述第一类特征和所述第二类特征，进行实例级别的同一个目标的特征对齐得到所述第二对齐特征。

基于上述方案，所述结合所述第一类特征和所述第二类特征，进行实例级别的同一个目标的特征对齐得到所述第二对齐特征，包括：

结合第一区域特征、第一像素特征及第二像素特征，得到第三待对齐特征；所述第一像素特征为所述第一类特征，是从第m-1个图像帧提取的像素特征；所述第二像素特征为所述第一类特征，是从第m个图像帧提取的像素特征；所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；

结合第二区域特征、所述第二像素特征及第三像素特征，得到第四待对齐特征，其中，所述第二区域特征为所述第二类特征，是从第m+1个图像帧提取的候选区域特征；所述第三像素特征为所述第一类特征，是从第m+1个图像帧提取的像素特征

根据所述第三待对齐特征及所述第四待对齐特征，得到所述第二对齐特征。

基于上述方案，所述方法还包括：

确定融合模式的模型参数；

所述融合所述第一对齐特征和所述第二对齐特征，得到第三对齐特征，包括：

根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征。

基于上述方案，所述确定融合模式，包括：

根据所述第一类特征和/或所述第二类特征，确定融合模型的模型参数。

基于上述方案，所述第二类特征包括：第一区域特征和第二区域特征；

所述根据所述第一类特征和/或所述第二类特征，确定融合模型的模型参数，包括：

根据所述第一区域特征的第一区域中心坐标和第二区域特征的第二区域中心坐标，确定区域变化量；所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；所述第二区域特征为所述第二类特征，是从第m+1个图像帧提取的候选区域特征；

基于所述区域变化量，确定第一模型参数。

基于上述方案，所述根据所述第一类特征和/或所述第二类特征，确定融合模型的模型参数包括：

基于第一区域特征及第二像素特征，确定第二模型参数，其中，所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；所述第二像素特征为所述第一类特征：从第m个图像帧中提取的像素特征。

基于上述方案，所述根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征，包括：

根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征

根据所述模型参数，确定所述第一对齐特征的第一权值；

根据所述模型参数，确定所述第二对齐特征的第二权值；

根据所述第一权值和所述第二权值，确定所述第一对齐特征和所述第二对齐特征的加权平均并得到所述第三对齐特征。

根据光流检测从所述图像帧提取的所述第一类特征，进行光流估计得到像素级别的特征对齐的第一对齐特征。

利用兴趣区域池化操作处理所述第一类特征并结合光流估计的结果，进行实例级别的同一目标的特征对齐得到所述第二对齐特征。

一种视频处理装置，包括：

第一对齐模块，用于根据从视频的图像帧提取的第一类特征，进行像素级别的特征对齐获得第一对齐特征；

第二对齐模块，用于根据从所述视频的图像帧提取的第二类特征，进行实例级别的特征对齐得到第二对齐特征；

融合模块，用于融合所述第一对齐特征和所述第二对齐特征，得到第三对齐特征。

基于上述方案，所述第一对齐模块，具体用于根据第一像素特征和第二像素特征，生成第一待对齐特征；其中，所述第一像素特征为：从第m-1个图像帧提取的像素特征；所述第二像素特征为：从第m个图像帧中提取的像素特征；m为正整数；根据所述第二像素特征和第三像素特征，生成第二待对齐特征，其中，所述第三像素特征为：从第m个图像帧提取的像素特征；

基于上述方案，所述第二对齐模块，具体用于结合所述第一类特征和所述第二类特征，进行实例级别的同一个目标的特征对齐得到所述第二对齐特征。

基于上述方案，所述第二对齐模块，具体结合第一区域特征、第一像素特征及第二像素特征，得到第三待对齐特征；所述第一像素特征为所述第一类特征，是从第m-1个图像帧提取的像素特征；所述第二像素特征为所述第一类特征，是从第m个图像帧提取的像素特征；所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；结合第二区域特征、所述第二像素特征及第三像素特征，得到第四待对齐特征，其中，所述第二区域特征为所述第二类特征，是从第m+1个图像帧提取的候选区域特征；所述第三像素特征为所述第一类特征，是从第m+1个图像帧提取的像素特征根据所述第三待对齐特征及所述第四待对齐特征，得到所述第二对齐特征。

基于上述方案，所述装置还包括：

确定模块，用于确定融合模式的模型参数；

所述融合模块，用于根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征。

基于上述方案，所述确定模块，具体用于根据所述第一类特征和/或所述第二类特征，确定融合模型的模型参数。

所述确定模块，具体根据所述第一区域特征的第一区域中心坐标和第二区域特征的第二区域中心坐标，确定区域变化量；所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；所述第二区域特征为所述第二类特征，是从第m+1个图像帧提取的候选区域特征；

基于所述区域变化量，确定第一模型参数。

基于上述方案，所述确定模块，还用于基于第一区域特征及第二像素特征，确定第二模型参数，其中，所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；所述第二像素特征为所述第一类特征：从第m个图像帧中提取的像素特征。

基于上述方案，所述融合模块，具体用于根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征根据所述模型参数，确定所述第一对齐特征的第一权值；根据所述模型参数，确定所述第二对齐特征的第二权值；根据所述第一权值和所述第二权值，确定所述第一对齐特征和所述第二对齐特征的加权平均并得到所述第三对齐特征。

基于上述方案，所述第一对齐模块，具体用于根据光流检测从所述图像帧提取的所述第一类特征，进行光流估计得到像素级别的特征对齐的第一对齐特征。

基于上述方案，所述第二对齐模块，具体用于利用兴趣区域池化操作处理所述第一类特征并结合光流估计的结果，进行实例级别的同一目标的特征对齐得到所述第二对齐特征。

一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现前述基于视频处理方法的至少其中之一。

一种计算机程序产品，所述程序产品包括计算机可执行指令；所述计算机可执行指令被执行后，能够实现前述基于视频处理方法的至少其中之一。

一种图像处理设备，包括：

存储器，用于存储信息；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述基于视频处理方法的至少其中之一。

本发明实施例提供的技术方案，分别会进行像素级别和实例级别的特征对齐，从而得到第一对齐特征和第二对齐特征；再融合两种级别的对齐特征得到第三对齐特征；如此，可以结合两种特征对齐的优点，利用实例级别的特征对齐，补足像素级别特征对齐容易导致目标丢失等精确度不够的现象；利用像素级别的特征对齐，补足实例级别特征对齐容易丢失目标的很多细节信息的现象。采用本实施例提供融合像素级别和实例级别的特征对齐，大大减少了目标丢失的现象提升了对齐精度；并且特征对齐后能够保留足够的细节信息，用于后续目标的检测；两者的特征对齐结合，远远大于单一特征级别的对齐的效果。

附图说明

图1为本发明实施例提供的第一种视频处理方法的流程示意图；

图2为本发明实施例提供的第二种视频处理方法的流程示意图；

图3为本发明实施例提供的第三种视频处理方法的流程示意图；

图4为本发明实施例提供的像素级别的特征对齐及实例级别的特征对齐的比对示意图；

图5为本发明实施例提供的第四种视频处理方法的流程示意图；

图6为本发明实施例提供的一种视频处理装置的结构示意图；

图7为本发明实施例提供的另一种视频处理装置的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种基于视频处理方法，包括：

步骤S110：根据从视频的图像帧提取的第一类特征，进行像素级别的特征对齐，获得第一对齐特征；

步骤S120：根据从所述视频的图像帧提取的第二类特征，进行实例级别的同一目标的特征对齐，得到第二对齐特征；

步骤S130：融合所述第一对齐特征和所述第二对齐特征，得到第三对齐特征。

本实施例中提供基于视频处理方法，该基于视频处理方法可以应用于一台或多台视频设备中。所述视频设备可包括：处理器，该处理器通过计算机程序等可执行指令的执行，可以实现基于视频处理方法中一个或多个步骤的执行。在一些实施例中，可以单一视频设备进行集中式的视频处理，也可以运用多台视频设备进行分布式的视频处理。

所述视频可为包括：多个图像帧，这些图像帧可为按照采集顺序进行排序的。一个所述图像帧可对应于一个静态的图像。

在本实施例中，所述视频可由多个包含有目标的图像帧构成。目标可为视频的图像中各种采集对象的成像。所述采集对象可包括：人、物体和动物等。所述物体又可以分为运动的物体及静态的物体。典型的运动的物体可包括：运动的交通工具。典型静态的物体可包括：建筑物、植物等。

在实施例中，目标可包括：人、动物或可运动的物体等。

同一个目标在视频采集的时间内，会有很多固有的特点维持稳定，例如，目标的整体轮廓等，如此在采集视频的不同图像帧中也会相对的维持稳定。例如，同一个人像由于视频采集的相关联的多个图像帧中衣服的颜色、发色以及肤色、五官的轮廓特点都维持相对稳定，而这些特征可以通过图像中各像素的灰度值(例如，灰度直方图)及像素组合之后展示的纹理特征来体现。如此，根据采集对象在三维空间的运动变化的连续性，映射到图像的二维空间内的像素坐标的变化，就可以预测出属于同一个目标的像素点在相邻图像帧之间的坐标变化关系。故在步骤S110中可以根据从视频的图像帧提取的特征，进行像素级别的同一个特征对齐，获得第一对齐特征。

如图5所示，连续分布的三个图像帧(I_t-t,I_t,I_t+t)作为特征提取网络N_feat的输入，N_feat提取出第一类特征(f_t-t,f_t,f_t+t)。然后根据所述第一类特征(f_t-t,f_t,f_t+t)得到待对齐特征f_t-t→t，f_t+t→t。利用网络N_rpn进行f_t-t→t，f_t+t→t的聚合得到f_pixel，利用网络N_rfcn处理f_pixel得到第一对齐特征

可选地，f_t-t＝N_feat(I_t-t)；f_t-t→t＝w(f_t-t,F(I_t-t,I_t))；；其中，w表示利用双线性差值方法进行的扭曲操作。图像帧t-t中的△p+p投影到图像帧t的p。

△p＝F(I_t-t,I_t)(p)

△p可为位置q,p光流估计的空间枚举位置。

G(q,p+△p)＝max(0，||1-q-(q+△p)||)

对f_pixel进行候选区域的特征提取从而得到第二类特征s_t-t,s_t,s_t+t；并对第二类特征进行对齐，得到第二对齐特征 xⁱ,yⁱ表示的第i个候选区域的中心坐标；wⁱ,hⁱ表示的第i个候选区域的宽和高。最后，融合和得到第三对齐特征此处的下标均表示图像帧的编号。

此外图5中的△p、q、p及下标均与上述公式用的含义类似，此处就不再一一描述了。

可选地，

可为正向敏感的候选区域池化操作。

在一些实施例中，步骤S110可包括：利用神经网络提取视频中各个图像帧的特征，例如，神经网络中的卷积层可以通过卷积处理，分离出目标和背景；或者，计算出图像帧中各像素为属于目标的第一概率、和/或属于背景的第二概率。故在本实施例中，从视频的图像帧提取的特征可包括：由各像素的所述第一概率组成的第一热力图；和/或，由各像素的所述第二概率值组成的第二热力图。

在一些实施例中，将所述第一概率与第一阈值进行比较，进行各像素的第一概率的二值化处理，将得到与所述第一概率对应的第一掩码图像；将所述第一概率与第二阈值比较，进行各像素的第二概率的二值化处理，将得到与所述第二概率对应的第二掩码图像。所述第一掩码图像和所述第二掩码图像中各个像素的像素值均为“0”或“1”。从视频的图像帧提取的特征还可包括：所述第一掩码图像和/或所述第二掩码图像。

在另一些实施例中，视频设备结合所述第一热力图、第二热力图获得目标的边界信息或所在的候选区域，例如，由多个像素的像素坐标组成的向量或阵列作为所述边界信息。或者，视频设备结合第一掩码图像和第二掩码图像获得目标的边界信息或候选区域。而此处的边界信息或候选区域可为所述第二类特征的一种。所述候选区域可以用向量(x，y，w，h)表示，其中，(x，y)表示候选区域的中心像素的坐标(简称为中心坐标)，w表示的该候选区域的宽度，h表示该候选区域的高度，此处的w和h均可为该候选区域占用的像素个数。

根据目标在视频的图像帧成像的运动连续性，可以基于上述候选区域或边界信息的在相邻两个图像帧之间的偏移量；该偏移量至少可以用中心坐标来指示。

在一些实施例中，所述第一类特征和所述第二类特征可为由不同的网络提取的特征。

所述第一类特征和所述第二类特征可以相互独立，也可以相互关联。若所述第一类特征和所述第二类特征相互关联，可包括：所述第二类特征是基于所述第一类特征的生成的。例如，将提取所述第一类特征的第一网络的输出，输入到提取所述第二类特征的第二网络中；如此，第二网络就可以不用从图像帧的原始数据中通过卷积、采样或反卷积等多重处理来提取特征了，减少了数据处理量，提升了处理熟虑。

在一些实施例中，进行像素级别的特征对齐，可包括：关联位于不同图像帧中表示同一目标的同一个像素。这种同一个目标的同一个像素的关联关系可以用关联向量或关联矩阵来表示，如此，获得第一对齐特征可包括：视频中各个图像帧中目标的特征及关联向量；或者，视频中各图像很的目标的特征及关联矩阵。

在步骤120中会根据视频的特征图像帧提取的特征，进行实例级别的特征对齐。所述实例级别也可以称之为目标级别的，是对整个目标为整体进行特征的对齐。若一个目标由一个候选区域进行表示，则实例级别的特征对齐，可为进行不同图像帧中候选区域的关联。如此，第二对齐特征可为：按照视频帧同一个目标的候选区域标识组成的向量或矩阵。

在步骤S130中会融合第一对齐特征和所述第二对齐特征，得到第三对齐特征；该第三对齐特征同时融合了第一对齐特征和第二对齐特征。

融合所述第一对齐特征和所述第二对齐特征的方式有多种，以下提供一种可选方式：

方式一：对所述第一对齐特征和所述第二对齐特征进行加权平均运算，得到所述第三对齐特征；例如，第一对齐特征对应于第一权值，第二对齐特征对应于第二权值，求第一乘积和第二乘积的平均值。所述第一乘积为：所述第一对齐特征的特征值与所述第一权值的乘积；所述第二乘积为：所述第二对齐特征与所述第二权值的乘积。所述第一权值可等于所述第二权值，也可以不等于所述第二权值。在本实施例中，所述第一对齐特征和第二对齐特征的融合，可是像素级别的，即逐个像素计算第一对齐特征和第二对齐特征的像素值的加权平均，得到所述第三对齐特征。

方式二：融合所述第一对齐特征和所述第二对齐特征，可包括：

根据第二对齐特征，在第一对齐特征中增加表示某一个目标被遮挡或者变糊部分的特征值，形成所述第三对齐特征。

方式三：融合所述第一对齐特征和所述第二对齐特征，可包括：

级联第一对齐特征和第二对齐特征，得到所述第三对齐特征。例如，若第一对齐特征每个像素的像素值的长度为L1，第二对齐特征的每个像素的像素值的长度为L2，则级联所述第一对齐特征和所述第二对齐特征，可生成一个像素值的长度为L1+L2的特征图像，该特征图像即为所述第三对齐特征。

方式四：融合所述第一对齐特征和所述第二对齐特征，可包括：

根据第一对齐特征、第二对齐特征、所述第一对齐特特征和所述第二对齐特征以外的其他特征，生成所述第三对齐特征。该其他特征可为从视频的图像帧中提取的各种特征，也可以是用于生成所述第三对齐特征的预设参数，例如，所述预设参数可包括：生成所述第三对齐特征的阈值。

方式五：融合所述第一对齐特征和所述第二对齐特征，可包括：

根据所述第一对齐特征和第二对齐特征分别对应的置信度，选择第一对齐特征或第二对齐特征作为所述第三对齐特征输出。例如，根据所述第二对齐特征发现当前视频中目标仅发生了刚性形变，第一对齐特征可以作为所述第三对齐特征直接输出，若根据所述第二对齐特征发现当前视频中目标发生了非刚性形变，可以结合第一对齐特征和第二对齐特征两者生成所述第三对齐特征。

图4为对包含有图像帧t-t、t、t+t的视频，以图像帧中的汽车成像为目标；分别进行像素级别特征对齐及实例级别特征对齐，像素级别的特征对齐的准确概率为0.56；实例级别的特征对齐的准确概率为0.69；基于此，可知实例级别特征的特征对齐之后，定位目标的概率更高，目标丢失现象更少。

在一些实施例中，如图3所示，所述方法还包括：步骤S140：根据所述第三对齐特征，获得目标检测结果。

所述步骤S140可包括以下至少之一：

根据所述第三对齐特征，跟踪目标；

根据所述第三对齐特征并结合视频的图像帧采集时间，确定目标的移动速率；

根据第三对齐特征，预测目标的移动方向等。

所述目标检测结果多种多样，不局限于上述任意一种。

采用本实施例提供的方法，会结合至少不同级别的特征对齐，可以减少运动物体的运动导致的目标检测的不精确的问题，如此，即便目标在一个或多个图像中的被部分遮蔽或完全遮蔽，依然可以获得目标检测结果，例如，预测出目标在下一个图像帧中的位置的，在目标跟踪过程中可以减少目标跟丢的现象。

在一些实施例中，如图2所示，所述步骤S110可包括：

步骤S111：根据第一像素特征和第二像素特征，生成第一待对齐特征；其中，所述第一像素特征为：从第m-1个图像帧提取的像素特征；所述第二像素特征为：从第m个图像帧中提取的像素特征；m为正整数；

步骤S112：根据所述第二像素特征和第三像素特征，生成第二待对齐特征，其中，所述第三像素特征为：从第m个图像帧提取的像素特征；

步骤S113：融合所述第一待对齐特征和所述第二待对齐特征，得到所述第一对齐特征。

所述第一像素特征可包括：前述第一热力图或第一掩码图像；所述第二像素特征可包括：前述的第二热力图或第二掩码图像；但是所述第一像素特征和第二像素特征都不局限于热力图或掩码图；但是在本实施例中所述第一像素特征和第二像素特征都是像素级别的特征。

在步骤S111中会结合两个图像帧得到由3个相邻图像帧组成的图像组的第一待对齐特征和第二待对齐特征；将第一待对齐特征和第二待对齐特征融合，就得到了所述第一对齐特征。例如，采用如下方式获得所述第一对齐特征：

计算第一待对齐特征和第二待对齐特征之和；

根据计算得到的和、与相邻两个图像帧之间的时间差，确定所述第一对齐特征。例如，求取计算得到的和与(2*t+1)的比值。t即为所述时间差。

在一些实施中，所述步骤S120可包括：

在本实施例中会结合两类特征，进行示例级别的同一个目标的特征对齐。在本实施例中一个目标所在的区域，可为候选区域。

此处的进行实例级别的同一个目标的特征对齐，可为将同一个目标的候选区域关联起来。

在一些实施中，所述步骤S120具体可包括：

结合第二区域特征、所述第二像素特征及第三像素特征，得到第四待对齐特征；

所述第一区域特征和所述第二区域特征均可简称为区域特征。所述区域特征至少可包括：描述所述目标所在区域的特征，该第一区域特征可包括：该候选区域的中心坐标、高度、宽度等参数。

所述第一区域特征和所述第二区域特征可为来自相邻的两个图像帧的候选区域的特征。例如，假设第一区域特征为来自当前图像帧的候选区域的特征，则第二区域特征可为来自后一个图像帧的候选区域的特征。

第一像素特征和第二像素特征是来自前一个图像帧和当前图像帧的特征；第二图像特征和第三像素特征可为来自当前图像帧和下一个图像帧的像素级别的特征。

在一些实施例中，所述区域特征可为基于像素特征产生的，例如，通过对像素特征进行池化操作可以获得所述候选区域特征，例如，通过池化操作中的将采样，将池化窗口内的最大值、最小值或平均值作为池化窗口内所有像素的像素值的代表，来构建所述候选区域特征。当然这是举例说明所述区域特征的生成，实际的过程中，还可以通过专门的神经网络生成所述候选区域的区域特征。

在本实施例中结合区域特征和像素特征，可以快速实现实例级别的特征对齐，得到所述第二对齐特征；如此，简化了网络结构、减少了网络的计算量，提升了效率。

在一些实施例中，所述方法还包括：

确定融合模式的模型参数；

所述步骤S130，包括：

在一些实施例中，所述融合模型的模型参数可为预先确定的静态参数，在另一些实施例中，所述模型参数也可以为动态确定的动态参数。

在步骤S130中将根据模型参数，来融合所述第一对齐特征和第二对齐特征，得到第三对齐特征。由于第一对齐特征和第二对齐特征采用的不是方式进行特征对齐得到的特征，如此，第一对齐特征具有像素级别的特征对齐的特点，第二对齐特征具有实例级别的特征对齐的特点。而第三对齐特征是融合第一对齐特征和第二对齐特征得到的，故在本实施例中，所述第三对齐特征同时兼具了两种特征对齐方式的特点，兼顾了像素级别的特征对齐和实例级别的特征对齐的效果，具有特征对齐精准度高，及基于第三对齐特征获得的目标的信息更加精确的特点。

在一些实施例中，所述确定融合模型可包括：

在本实施例中，所述模型参数可为动态确定的。而动态确定所述模型参数的方式有很多中，例如，基于像素特征来确定所述模型参数。在本实施例中，为了尽可能减少计算量，也可以精准表征当前的所适合的融合模型。在本实施例中，根据第一区域特征和第二区域特征中的一个或多个参数值，来确定模型参数。

例如，第一区域特征和第二区域特征都包括表示同一个目标的候选区域的中心坐标。可以基于第一区域特征的中心坐标和第二区域特征的中心坐标，计算出两个相邻图像帧中同一个目标的候选区域中心坐标的偏移量，根据该偏移量确定所述模型参数。

再例如，第一区域特征和第二区域特征除了包括候选区域的中心坐标，还包括候选区域的几何特征，该几何特征可包括：描述候选区域宽和/或高的尺寸。在另一些实施例中，所述几何特征还可包括：描述候选区域形状的形状特征。如此，还可以计算出两个相邻特征帧中同一个而目标的候选区域的尺寸变化量和/或形状变化量。

基于所述中心坐标的偏移量、尺寸变化量及形状变化量的至少其中之一，确定出所述模型参数。

在一些实施例中，所述根据所述第一区域特征和所述第二区域特征，确定模式确定参数，包括：

根据所述第一区域特征的第一区域中心坐标和所述第二区域特征的第二区域中心坐标，确定区域变化量；

基于所述区域变化量，确定第一模型参数。

例如，所述区域变化量可为：视频中连续分布的三个图像帧中同一个目标的候选区域的中心坐标确定的。

例如，所述区域变化量可根据如下公式确定，

其中，为第t+1个图像帧中第i个候选区域的中心坐标的x轴上的区域与y轴上的比值。为第t个图像帧中第i个候选区域的中心坐标的x轴上的区域与y轴上的比值；为第t-1个图像帧中第i个候选区域的中心坐标的x轴上的区域与y轴上的比值。x轴与y轴垂直。

若一个目标的运动距离，则在相邻的图像帧的候选区域的中心坐标的不同坐标轴上的比值会发生距离的变化。

在一些实施例中，可以直接根据确定所述模型参数。例如，根据与预设阈值的比较，根据比值的结果大小选择预先配置的模型参数，通过动态选择实现模型参数的动态化。

在一些实施例中，会进一步的根据所述区域变化量会得到第一模型参数和第二模型参数。

所述第一模型参数和所述第二模型参数对应了特定的计算函数。在本实施例中，例如，所述第一模型参数可采用如下公式计算：

可为所述第一模型参数，可以用于描述第i个候选区域的运动模式。

融合所述第一待对齐特征和所述第二待对齐特征，得到所述第一对齐特征及t-t+1均可为表示的图像帧在视频帧中的编号；其中，t可为相邻两个图像帧之间的时间间隔。

在本发明实施例中，根据区域特征确定了第一模型参数，若第一模型参数为融合模型的部分参数，在另一些实施例中，可以根据区域特征，确定出融合模型的所有模型参数。例如，所述融合模型包括：第一模型参数和第二模型参数，可以直接根据区域特征确定出第一模型参数的同时，也确定出所述第二模型参数。

但是在本实施例中在融合第一对齐特征和第二对齐特征时，同时兼顾像素级别和实例级别的同一个目标的特征变化，在本实施例中确定所述第二模型参数时还会参照像素特征。

例如，基于所述第一区域特征及第一像素特征，确定第二模型参数；具体可以根据如下公式确定出所述第二模型参数：

可为所述第二模型参数，可以用于描述第i个候选区域被遮挡的概率。

可为表示第t个图像帧的区域特征，其中，表示第i个候选区域的中心坐标；表示第i个候选区域的宽度；表示第i个候选区域的宽度。宽度和高度为两个垂直方向上的尺寸。f_t可为表示第t个图像帧的像素特征。R(.)表示为利用全卷积层获取参数值。φ(.)表示为候选区域的池化操作。

当然以上是提供了几种计算所述第一模型参数和所述第二模型参数的方式；具体实现时不局限于上述任意一种。

所述根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征，包括：

根据所述模型参数，确定所述第一对齐特征的第一权值；

根据所述模型参数，确定所述第二对齐特征的第二权值；

例如，根据所述第一模型参数和所述第二模型确定所述第一权值和所述第二权值为例：可以采用如下公式确定。

可分别对应于所述第一权值和所述第二权值。

在一些实施例中，还可以引入修正系数来参与所述第一权值和所述第二权值的计算。

例如，所述第一权值可为：所述第二权值可为：

在一些实施例中，所述α(.):R的取值范围可为0到1之间。

在另一些实施例中，所述α的取值范围可为0到1之间。

在还有一些实施例中，及均为不大于1的正整数。

在一些实施例中，所述步骤S110可包括：

通过光流网络进行光流检测得到所述第一类特征，进行光流估计实现像素别特征对齐的第一对齐特征。

对应地，所述步骤S120可包括：利用兴趣区域池化操作处理所述第一类特征并结合光流估计的结果，进行实例级别的同一目标的特征对齐得到所述第二对齐特征。

如此，在进行实例级别的特征对齐的过程中，第一方面，利用了第一类特征得到的第二类特征，如此可以虽然涉及不同级别的特征和特征对齐，但是仅需从视频的原始图像帧中提取一次特征，减少了计算量，简化了计算。第二方面，利用了光流估计的结果进行示例级别的同一目标的特征对齐。例如，根据光流估计结果中的估计的目标的运动趋势，进行所述实例级别的同一个目标的特征对齐，得到所述第二对齐特征。

如图6所示，本实施例提供一种视频处理装置，包括：

第一对齐模块110，用于根据从视频的图像帧提取的第一类特征，进行像素级别的特征对齐获得第一对齐特征；

第二对齐模块120，用于根据从所述视频的图像帧提取的第二类特征，进行实例级别的特征对齐得到第二对齐特征；

融合模块130，用于融合所述第一对齐特征和所述第二对齐特征，得到第三对齐特征。

在一些实施例中，所述装置还可包括：

检测模块，用于根据所述第三对齐特征，获得目标检测结果。

在一些实施例中，所述第一对齐模块110、第二对齐模块120、融合模块130及检测模块可为程序模块，被处理器执行后，能够实现像素级别的特征对齐、实例级别的特征对齐，融合两种对齐特征，并最终得到的第三对齐特征得到目标检测结果。

在另一些实施例中，所述第一对齐模块110、第二对齐模块120、融合模块130及检测模块可为程序模块可为软硬结合的模块或者硬件模块，例如，可编程阵列或专用集成电路等。

总之，上述各个模块的具体结构有多种，不局限于上述任意一种。

在一些实施例中，所述第一对齐模块110，具体用于根据第一像素特征和第二像素特征，生成第一待对齐特征；其中，所述第一像素特征为：从第m-1个图像帧提取的像素特征；所述第二像素特征为：从第m个图像帧中提取的像素特征；m为正整数；根据所述第二像素特征和第三像素特征，生成第二待对齐特征，其中，所述第三像素特征为：从第m个图像帧提取的像素特征；融合所述第一待对齐特征和所述第二待对齐特征，得到所述第一对齐特征。

在一些实施例中，所述第二对齐模块120，具体用于结合所述第一类特征和所述第二类特征，进行实例级别的同一个目标的特征对齐得到所述第二对齐特征。

在还有一些实施例中，所述第二对齐模块120，具体结合第一区域特征、第一像素特征及第二像素特征，得到第三待对齐特征；所述第一像素特征为所述第一类特征，是从第m-1个图像帧提取的像素特征；所述第二像素特征为所述第一类特征，是从第m个图像帧提取的像素特征；所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；结合第二区域特征、所述第二像素特征及第三像素特征，得到第四待对齐特征，其中，所述第二区域特征为所述第二类特征，是从第m+1个图像帧提取的候选区域特征；所述第三像素特征为所述第一类特征，是从第m+1个图像帧提取的像素特征根据所述第三待对齐特征及所述第四待对齐特征，得到所述第二对齐特征。

在还有一些实施例中，所述装置还包括：确定模块，用于确定融合模式的模型参数；所述融合模块130，用于根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征。

在一些实施例中，所述确定模块，具体用于根据所述第一类特征和/或所述第二类特征，确定融合模型的模型参数。

在还有一些实施例中，所述第二类特征包括：第一区域特征和第二区域特征；所述确定模块，具体根据所述第一区域特征的第一区域中心坐标和第二区域特征的第二区域中心坐标，确定区域变化量；所述第一区域特征为所述第二类特征，是从第m个图像帧提取的候选区域特征；所述第二区域特征为所述第二类特征，是从第m+1个图像帧提取的候选区域特征；基于所述区域变化量，确定第一模型参数。

此外，在另一些实施例中，所述确定模块，还用于基于所述第一区域特征及第一像素特征，确定第二模型参数。

此外，所述融合模块130，具体用于根据所述模型参数，融合所述第一对齐特征和所述第二对齐特征得到所述第三对齐特征根据所述模型参数，确定所述第一对齐特征的第一权值；根据所述模型参数，确定所述第二对齐特征的第二权值；根据所述第一权值和所述第二权值，确定所述第一对齐特征和所述第二对齐特征的加权平均并得到所述第三对齐特征。

在一些实施例中，所述第一对齐模块110，具体用于根据光流检测从所述图像帧提取的所述第一类特征，进行光流估计得到像素级别的特征对齐的第一对齐特征。

在还有一些实施例中，所述第二对齐模块120，具体用于利用兴趣区域池化操作处理所述第一类特征并结合光流估计的结果，进行实例级别的同一目标的特征对齐得到所述第二对齐特征。

以下结合上述任意实施例提供几个具体示例：

示例：

本示例提出一种基于完全运动估计的基于视频处理方法，同时考虑像素级别和实例级别的特征对齐，并通过一个运动模式判别模块决定如何结合这两种特征对齐方法。该方法可以更好的对齐视频中相邻图像帧的特征，从而更有效的进行多图像帧融合，提高视频物体检测的精度。

所述基于视频处理方法可包括：

对视频中的图像帧进行特征提取，并对相邻的图像帧进行光流估计，得到光流估计结果；该光流估计结果，可以预测出在前一个图像帧中的像素值在后一个图像帧的像素坐标。

根据光流估计结果将相邻的前后两图像帧特征变换到当前图像帧并进行融合，得到像素级别的对齐特征；

根据光流估计结果预测相邻前后两图像帧中物体的整体运动，并根据预测结果将相邻图像帧中对应位置的特征进行融合，得到实例级别的对齐特征；

利用运动模式判别模块预测每个物体的运动模式，根据运动模式将像素级别的对齐特征和实例级别的对齐特征进行融合，得到最终的融合特征。

给定一个视频，t代表当前图像帧，t-t和t+t分别代表前后相邻图像帧；整个方案分为4大步骤，可包括：

首先对每一图像帧t进行特征提取，得到f_t；对图像帧t和其相邻图像帧进行光流估计，得到△p_t-t和△p_t+t，光流估计的结果是一个二维向量场。

根据光流向量场分别将f_t-t和f_t+t进行弯曲变换(warping)，得到f_t-t→t和f_t+t→t。将f_t-t→t和f_t+t→t，f_t三者进行平均，得到f_pixel，既像素级别特征对齐后的融合特征。将f_pixel输入到N_rpn网络和N_rfcn网络分别得到若干候选区域(proposal)以及位置敏感得分图

对于每个候选区域，对光流向量场△p进行候选区域池化，再送入一个子网络预测目标整体的相对位置偏移。根据该偏移从f_t-t中截取出对应的区域进行池化，得到根据该偏移从f_t+t中截取出对应的区域进行池化，得到将三者进行平均，得到即实例级别特征对齐后的融合特征。

根据相邻图像帧候选区域长宽比的变化预测物体产生非刚性形变的概率；根据候选区域内的特征预测物体被遮挡的概率。根据预测出的两个概率计算和的融合比重，根据这个比重对和进行加权平均，得到既该候选区域的最终得分。

所述非刚性形变可为：刚性形变以外的形变。所述刚性形变可包括：目标的平移和旋转，一般目标的外表特征不发生变化，例如，目标的形态。而非刚性形变则可为目标的形态发生了变化的形变。例如，以活体对象而言，其因为运动姿态等会发生非刚性形变。而交通工具等移动物体在图像中仅进行位置平移和旋转，产生的形变可为刚性形变。

在本示例提供的基于视频处理方法中，同时考虑了像素级别的特征对齐及实例级别的特征对齐，如此，可以减少单一对齐方式导致的目标跟踪的不精确性问题。

在本示例中利用光流估计进行像素级别的特征对齐，同时利用像素级别特征对齐中的光流估计结果确定实例级别的特征对齐的参数。例如，根据光流估计结果中的目标整体的运动趋势，得到目标在不同图像帧之间整体的位置偏移，基于目标整体的位置偏移进行实例级别的特征对齐，得到实例级别的对齐特征；如此，利用光流估计结果的部分参数值，进行实例级别的特征对齐，如此不用在进行像素级别的特征对齐时，从图像帧的原始数据开始处理，减少了计算量、简化了处理、提升了处理效率。

如图7所示，本申请实施例提供了一种图像处理设备，包括：

存储器，用于存储信息；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述一个或多个技术方案提供的视频处理方法，例如，如图1至图3所示的方法中的一个或多个。

该存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储，例如，存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令，例如，目标程序指令和/或源程序指令等。

所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。

在一些实施例中，所述终端设备还可包括：通信接口，该通信接口可包括：网络接口、例如，局域网接口、收发天线等。所述通信接口同样与所述处理器连接，能够用于信息收发。

在一些实施例中，所述终端设备还包括人机交互接口，例如，所述人机交互接口可包括各种输入输出设备，例如，键盘、触摸屏等。

本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现前述一个或多个技术方案提供的视频处理方法，例如，例如，如图1至图3所示的方法中的一个或多个。

所述存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述存储介质可为非瞬间存储介质。

本申请实施例提供一种计算机程序产品，所述程序产品包括计算机可执行指令；所述计算机可执行指令被执行后，能够实现前述任意实施提供的视频处理方法，例如，如图1至图3所示的方法中的一个或多个。

在本示例中，视频设备还会预测目标的运动模式，根据运动模式融合像素级别的第一对齐特征和实例级别的第二对齐特征，如此，可以充分根据当前目标的运动模式，选择出合适的第一对齐特征和第二对齐特征的融合方式，使得融合之后的第三对齐特征更加精准完成目标检测，获得目标的信息。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述根据从视频的图像帧提取的第一类特征，进行像素级别的特征对齐获得第一对齐特征，包括：

3.根据权利要求1或2所述的方法，其特征在于，

所述根据从所述视频的图像帧提取的第二类特征，进行实例级别的特征对齐得到第二对齐特征，包括：

4.根据权利要求3所述的方法，其特征在于，

所述结合所述第一类特征和所述第二类特征，进行实例级别的同一个目标的特征对齐得到所述第二对齐特征，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，

所述方法还包括：

确定融合模式的模型参数；

6.根据权利要求5所述的方法，其特征在于，

所述确定融合模式，包括：

7.根据权利要求5所述的方法，其特征在于，

所述第二类特征包括：第一区域特征和第二区域特征；

基于所述区域变化量，确定第一模型参数。

8.一种视频处理装置，其特征在于，包括：

9.一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现权利要求1至7任一项提供的方法。

10.一种图像处理设备，其特征在于，包括：

存储器，用于存储信息；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现权利要求1至7任一项提供的方法。