CN107274431A

CN107274431A - 视频内容增强方法及装置

Info

Publication number: CN107274431A
Application number: CN201710131857.0A
Authority: CN
Inventors: 刘欢
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2017-10-20

Abstract

本发明实施例提供了一种视频内容增强方法及装置。该方法包括：在视频的初始帧中，获取待跟踪的第一目标区域，并以第一目标区域为中心，在视频中添加预设图案；根据第一目标区域中的特征点调整第一目标区域的大小，以形成第二目标区域；对第二目标区域中的特征点进行筛选操作；在视频的后续帧中，采用CMT算法对第二目标区域进行区域跟踪；在后续帧中，根据区域跟踪的结果，更新预设图案的位置。本发明实施例对用户预先选定的目标区域进行调整，以便于有效跟踪目标物，采用CMT算法进行跟踪，实现了对任意物体的实时跟踪及内容增强，同时，对CMT算法进行改进，在区域跟踪之前，进行特征点筛选，提高了方案的有效性和稳定性。

Description

视频内容增强方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频内容增强方法及装置。

背景技术

增强现实(Augmented Reality；简称：AR)技术，是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术，把原本在现实世界的一定时空范围内很难体验到的实体信息(如，视觉信息、声音、味道、触觉等)，通过计算机技术，模拟仿真后再叠加，将虚拟的信息应用到真实世界，被人类感官所感知，从而达到超越现实的感官体验。

视觉化的增强现实主要包括视频画质增强和视频内容增强，而现有的视频内容增强技术主要是针对人脸的贴图方案。该方案对人脸的各个部位进行定位、跟踪，然后在相应位置贴上用户自定义的图案。

发明人在实现本发明的过程中，发现现有技术至少存在如下问题：针对人脸的贴图方案，以人脸识别技术为基础，只识别视频中的人脸图像，不能对其它物体进行跟踪，因此，无法应用于不包含人脸图像的视频内容增强中，具有很大的局限性。

发明内容

本发明实施例提供一种视频内容增强方法及装置，以解决现有技术中针对人脸的贴图方案的局限性，实现对视频中任意物体的实时跟踪及内容增强。

为达到上述目的，本发明实施例提供了一种视频内容增强方法，包括：选取视频的当前帧为初始帧；在所述初始帧中，获取待跟踪的第一目标区域，并以所述第一目标区域为中心，在所述视频中添加预设图案；检测所述第一目标区域中的特征点，并根据所述特征点调整所述第一目标区域的大小，以形成第二目标区域；对所述第二目标区域中的特征点进行筛选操作；根据所述第二目标区域中筛选后的所述特征点，在所述视频的后续帧中，采用CMT算法对所述第二目标区域进行区域跟踪；在所述后续帧中，根据区域跟踪的结果，更新所述预设图案的位置。

本发明实施例还提供了一种视频内容增强装置，包括：预处理模块，用于选取视频的当前帧为初始帧，在所述初始帧中，获取待跟踪的第一目标区域，并以所述第一目标区域为中心，在所述视频中添加预设图案；区域调整模块，用于检测所述第一目标区域中的特征点，并根据所述特征点调整所述第一目标区域的大小，以形成第二目标区域；特征点筛选模块，用于对所述第二目标区域中的特征点进行筛选操作；跟踪模块，用于根据所述第二目标区域中筛选后的所述特征点，在所述视频的后续帧中，采用CMT算法对所述第二目标区域进行区域跟踪；更新模块，用于在所述后续帧中，根据区域跟踪的结果，更新所述预设图案的位置。

本发明实施例提供的视频内容增强方法及装置，对用户预先选定的目标区域进行调整，以便于有效跟踪目标物，采用CMT算法进行跟踪，实现了对任意物体的实时跟踪及内容增强，同时，对CMT算法进行改进，在区域跟踪之前，进行特征点筛选，提高了方案的有效性和稳定性。

附图说明

图1为本发明提供的视频内容增强方法一个实施例的方法流程图；

图2为本发明实施例采用CMT算法的具体流程图；

图3为本发明提供的视频内容增强方法另一个实施例的方法流程图；

图4为本发明实施例中跟踪区域调整的示意图；

图5为本发明提供的视频内容增强装置一个实施例的结构示意图；

图6为本发明提供的视频内容增强装置另一个实施例的结构示意图。

附图标记说明：

510-预处理模块、520-区域调整模块、530-特征点筛选模块、540-特征点筛选模块、550-更新模块、511-获取单元、512-贴图单元、513-解析单元、521-检测单元、522-自适应处理单元、531-区域划分单元、532-筛选单元。

具体实施方式

下面结合附图对本发明实施例视频内容增强方法及装置进行详细描述。

实施例一

图1为本发明提供的视频内容增强方法一个实施例的方法流程图，该方法的执行主体可以为具有摄像功能的设备，如，移动设备摄像头、网络摄像头等产品，也可以为集成在这些设备上的装置或芯片。如图1所示，该视频内容增强方法包括如下步骤：

S110，将视频的当前帧设为初始帧。

S120，在初始帧中，获取待跟踪的第一目标区域，并以第一目标区域为中心，在视频中添加预设图案。

在本发明实施例中，当用户想要在视频的某个区域添加贴图时，可以选取该区域(例如，用鼠标选取画面，或者直接用手指在触摸屏上点击画面等)。此时，可以将视频的当前帧确定为初始帧，将用户选取的区域确定为第一目标区域。然后，以第一目标区域为中心，在该视频中添加用户期望的预设图案，如表情、贴纸等。

S130，检测第一目标区域中的特征点，并根据特征点调整第一目标区域的大小，以形成第二目标区域。

图像的特征点，又可以称为兴趣点、显著点或者关键点等，是图像中具有鲜明特性、能够有效反映图像本质特征、并能够标识图像中目标物体的点。因此，为了有效跟踪目标物，首先需要获取各特征点，然后根据特征点来调整第一目标区域的大小，以形成便于跟踪的第二目标区域。

S140，对第二目标区域中的特征点进行筛选操作。

对于画面中纹理较为丰富的区域，检测出的特征点会非常多，这将造成整个跟踪区域内特征点分布不均匀，从而影响算法的整体性能。因此，在本发明实施例中，可以对第二目标区域中的特征点进行筛选，选出特征强度高的特征点，以降低特征点的密度，提高运算速度。

S150，根据第二目标区域中筛选后的特征点，在视频的后续帧中，采用基于一致性的特征匹配和跟踪(Clustering of Static-Adaptive Correspondences for DeformableObject Tracking；以下简称：CMT)算法对第二目标区域进行区域跟踪。

图2为本发明实施例采用CMT算法的具体流程图。如图2所示，该CMT算法包括：S151，特征点检测及描述子提取；S152，全局匹配；S153，光流跟踪；S154，特征融合；S155，一致性筛选；S156，旋转与缩放估计。

CMT算法以特征跟踪为基础，默认采用加速分割测试特征(Features fromAccelerated Segment Test；以下简称：FAST)特征点检测算法和尺度不变鲁棒二进制特征(Binary Robust Invariant Scalable Keypoints；以下简称：BRISK)描述子进行特征提取，提取速度快。在提取当前帧图像的特征后，与初始跟踪区域图像进行全局匹配，得到匹配结果。CMT算法在特征点检测的同时，还利用光流法进行跟踪，并将全局特征匹配的结果和光流法跟踪的结果进行融合，得到鲁棒性更高的特征点集。然后进行一致性筛选，采用聚类的方法选取一致性最高的匹配点对。最后，根据新的特征点集坐标，估计出跟踪区域的旋转和缩放，即完成整个跟踪过程。

采用CMT算法进行区域跟踪，单帧处理速度快，帧率可达30fps(帧/秒)，满足了实时处理的要求。

S160，在后续帧中，根据区域跟踪的结果，更新预设图案的位置。

区域跟踪的结果是计算出后续帧中目标区域的位置、旋转量和缩放量。最后，根据上述区域跟踪结果，重新确定预设图案的位置。

本发明实施例提供的视频内容增强方法，对用户预先选定的目标区域进行调整，以便于有效跟踪目标物，采用CMT算法进行跟踪，实现了对任意物体的实时跟踪及内容增强，同时，对CMT算法进行改进，在区域跟踪之前，进行特征点筛选，提高了方案的有效性和稳定性。

实施例二

图3为本发明提供的视频内容增强方法另一个实施例的方法流程图。如图3所示，在上述实施例的基础上，本实施例提供的视频内容增强方法可以进一步包括以下步骤：

S310，将视频的当前帧设为初始帧。

S320，在初始帧中，获取待跟踪的第一目标区域，并以第一目标区域为中心，在视频中添加预设图案。

添加贴图有两种方式：图像融合与图像层叠。图像融合即将预设图案与视频的当前帧图像合并成，作为新的视频帧；而图像层叠则是在视频帧上层显示预设图案，视频帧图像本身没有改变。本发明实施例的一个较佳方案是采用图像层叠的方式，无需图像合成操作，处理速度快，从而提高运算速度。

在本发明实施例中，视频中添加的预设图案也可以为动态图案(如，GIF图)，以增强视频的趣味性，提升用户录制或分享视频的参与度。此时，需要将动态图案解析为多帧贴图帧；然后，根据该动态图案的播放速率，循环地将多帧贴图帧依次添加于视频中。

S330，检测第一目标区域中的特征点。

S340，以第一目标区域为中心，根据以下公式自适应调整第一目标区域的宽度和高度，使得调整后形成的第二目标区域中特征点的个数不少于预设阈值T：

其中，和分别为第一目标区域的宽度和高度；d_x和d_y为最小调整间隔，n和m为扩展参数，x和y分别为第二目标区域的宽度和高度。

图4为本发明实施例中跟踪区域调整的示意图。如图4所示，当用户采用点击画面的方式选取的第一目标区域时，该第一目标区域可以看作是一个“点”，其宽度和高度是很小的值。扩展参数n和m为自然数，根据上述公式，n和m数值由小变大的过程，即为跟踪区域的范围扩大的过程，其特征点的个数也随之逐渐增加。为了保证跟踪的有效性和稳定性，跟踪区域内特征点的个数需要满足一定数量。因此，自适应调跟踪区域的过程就是确定扩展参数n和m的过程，当特征点个数达到个预设阈值T时，即形成第二目标区域。

S350，对第二目标区域进行网格划分，形成数个子区域。

S360，在每个子区域中，删除特征强度最小的数个特征点。

在本发明实施例中，采用网格划分的方式进行特征点筛选。首先，对第二目标区域进行网格划分，形成子区域的个数为N。假设需要将第二目标区域内的特征点个数限制在M以内，则每个子区域内的最大特征点个数为k＝M/N。针对每个子区域，将各特征点以特征强度降序的顺序进行排序，然后删除特征强度(响应值)最小的数个特征点。假如某个子区域中特征点的个数为q，则经过降序排序后，删除排在最后的(q-k)个特征点。这样使得各子区域的特征点分布区域均匀，从而降低误检测率，提高算法准确性。

S370，根据第二目标区域中筛选后的特征点，在视频的后续帧中，采用CMT算法对第二目标区域进行区域跟踪。

S380，在后续帧中，根据区域跟踪的结果，更新预设图案的位置。

实施例三

图5为本发明提供的视频内容增强装置一个实施例的结构示意图，可用于执行如图1所示的方法步骤。如图5所示，该装置可以包括：预处理模块510、区域调整模块520、特征点筛选模块530、跟踪模块540和更新模块550。

其中，预处理模块510用于将视频的当前帧设为初始帧，在初始帧中，获取待跟踪的第一目标区域，并以第一目标区域为中心，在视频中添加预设图案；区域调整模块520用于检测第一目标区域中的特征点，并根据特征点调整第一目标区域的大小，以形成第二目标区域；特征点筛选模块530用于对第二目标区域中的特征点进行筛选操作；跟踪模块540用于根据第二目标区域中筛选后的特征点，在视频的后续帧中，采用CMT算法对第二目标区域进行区域跟踪；更新模块550用于在后续帧中，根据区域跟踪的结果，更新预设图案的位置。

在本发明实施例中，当用户想要在视频的某个区域添加贴图时，可以选取该区域(例如，用鼠标选取画面，或者直接用手指在触摸屏上点击画面等)。此时，预处理模块510将视频的当前帧确定为初始帧，将用户选取的区域确定为第一目标区域。然后，以第一目标区域为中心，在该视频中添加用户期望的预设图案，如表情、贴纸等。

为了有效跟踪目标物，区域调整模块520首先需要检测各特征点，然后根据特征点来调整第一目标区域的大小，以形成便于跟踪的第二目标区域。对于画面中纹理较为丰富的区域，检测出的特征点会非常多，这将造成整个跟踪区域内特征点分布不均匀，从而影响算法的整体性能。因此，在本发明实施例中，特征点筛选模块530可以对第二目标区域中的特征点进行筛选，选出特征强度高的特征点，以降低特征点的密度，提高运算速度。

跟踪模块540采用CMT算法，以特征跟踪为基础，默认采用FAST特征点检测算法和BRISK描述子进行特征提取，提取速度快。在提取当前帧图像的特征后，与初始跟踪区域图像进行全局匹配，得到匹配结果。CMT算法在特征点检测的同时，还利用光流法进行跟踪，并将全局特征匹配的结果和光流法跟踪的结果进行融合，得到鲁棒性更高的特征点集。然后进行一致性筛选，采用聚类的方法选取一致性最高的匹配点对。最后，根据新的特征点集坐标，估计出跟踪区域的旋转和缩放，即完成整个跟踪过程。采用CMT算法进行区域跟踪，单帧处理速度快，帧率可达30fps(帧/秒)，满足了实时处理的要求。

区域跟踪的结果是计算出后续帧中目标区域的位置、旋转量和缩放量。最后，更新模块550根据上述区域跟踪结果，重新确定预设图案的位置。

本发明实施例提供的视频内容增强装置，对用户预先选定的目标区域进行调整，以便于有效跟踪目标物，采用CMT算法进行跟踪，实现了对任意物体的实时跟踪及内容增强，同时，对CMT算法进行改进，在区域跟踪之前，进行特征点筛选，提高了方案的有效性和稳定性。

实施例四

图6为本发明提供的视频内容增强装置另一个实施例的结构示意图，可用于执行如图3所示的方法步骤。如图6所示，在上述图5所示实施例的基础上，区域调整模块520可以包括：检测单元521和自适应处理单元522。

其中，检测单元521用于检测第一目标区域中的特征点；自适应处理单元522用于以第一目标区域为中心，根据以下公式自适应调整第一目标区域的宽度和高度，使得调整后形成的第二目标区域中特征点的个数不少于预设阈值T：

当用户采用点击画面的方式选取的第一目标区域时，该第一目标区域可以看作是一个“点”，其宽度和高度是很小的值。扩展参数n和m为自然数，根据上述公式，n和m数值由小变大的过程，即为跟踪区域的范围扩大的过程，其特征点的个数也随之逐渐增加。为了保证跟踪的有效性和稳定性，跟踪区域内特征点的个数需要满足一定数量。因此，自适应处理单元522自适应调跟踪区域的过程就是确定扩展参数n和m的过程，当特征点个数达到个预设阈值T时，即形成第二目标区域。

进一步地，特征点筛选模块530可以包括：区域划分单元531和筛选单元532。

其中，区域划分单元531用于对第二目标区域进行网格划分，形成数个子区域；筛选单元532用于在每个子区域中，删除特征强度最小的数个特征点。

在本发明实施例中，采用网格划分的方式进行特征点筛选。首先，区域划分单元531对第二目标区域进行网格划分，形成子区域的个数为N。假设需要将第二目标区域内的特征点个数限制在M以内，则每个子区域内的最大特征点个数为k＝M/N。针对每个子区域，筛选单元532将各特征点以特征强度降序的顺序进行排序，然后删除特征强度(响应值)最小的数个特征点。假如某个子区域中特征点的个数为q，则经过降序排序后，删除排在最后的(q-k)个特征点。这样使得各子区域的特征点分布区域均匀，从而降低误检测率，提高算法准确性。

更进一步地，预处理模块510可以包括：获取单元511和贴图单元512。

其中，获取单元511用于选取视频的当前帧为初始帧，在初始帧中，获取待跟踪的第一目标区域；贴图单元512用于以第一目标区域为中心，在视频的视频帧上层显示所述预设图案。

添加贴图有两种方式：图像融合与图像层叠。图像融合即将预设图案与视频的当前帧图像合并成，作为新的视频帧；而图像层叠则是在视频帧上层显示预设图案，视频帧图像本身没有改变。本发明实施例中，贴图单元512可以采用图像层叠的方式，无需图像合成操作，处理速度快，从而提高运算速度。

另外，本发明实施例中的预设图案可以为动态图案(如，GIF图)，以增强视频的趣味性，提升用户录制或分享视频的参与度。此时，预处理模块510还可以包括：解析单元513。该解析单元513可以用于将动态图案解析为多帧贴图帧。贴图单元512还可以用于以第一目标区域为中心，根据动态图案的播放速率，循环地将多帧贴图帧依次添加于视频中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频内容增强方法，其特征在于，包括：

将视频的当前帧设为初始帧；

在所述初始帧中，获取待跟踪的第一目标区域，并以所述第一目标区域为中心，在所述视频中添加预设图案；

检测所述第一目标区域中的特征点，并根据所述特征点调整所述第一目标区域的大小，以形成第二目标区域；

对所述第二目标区域中的特征点进行筛选操作；

根据所述第二目标区域中筛选后的所述特征点，在所述视频的后续帧中，采用CMT算法对所述第二目标区域进行区域跟踪；

在所述后续帧中，根据区域跟踪的结果，更新所述预设图案的位置。

2.根据权利要求1所述的视频内容增强方法，其特征在于，所述根据所述特征点调整所述第一目标区域的大小，以形成第二目标区域，包括：

以所述第一目标区域为中心，根据以下公式自适应调整所述第一目标区域的宽度和高度，使得调整后形成的所述第二目标区域中特征点的个数不少于预设阈值T：

其中，和分别为所述第一目标区域的宽度和高度；d_x和d_y为最小调整间隔，n和m为扩展参数，x和y分别为所述第二目标区域的宽度和高度。

3.根据权利要求1所述的视频内容增强方法，其特征在于，所述对所述第二目标区域中的特征点进行筛选操作，包括：

对所述第二目标区域进行网格划分，形成数个子区域；

在每个所述子区域中，删除特征强度最小的数个特征点。

4.根据权利要求1至3中任一权利要求所述的视频内容增强方法，其特征在于，所述在所述视频中添加预设图案，包括：

在所述视频的视频帧上层显示所述预设图案。

5.根据权利要求4所述的视频内容增强方法，其特征在于，所述预设图案为动态图案，所述在所述视频中添加预设图案，包括：

将所述动态图案解析为多帧贴图帧；

根据所述动态图案的播放速率，循环地将多帧所述贴图帧依次添加于所述视频中。

6.一种视频内容增强装置，其特征在于，包括：

预处理模块，用于将视频的当前帧设为初始帧，在所述初始帧中，获取待跟踪的第一目标区域，并以所述第一目标区域为中心，在所述视频中添加预设图案；

区域调整模块，用于检测所述第一目标区域中的特征点，并根据所述特征点调整所述第一目标区域的大小，以形成第二目标区域；

特征点筛选模块，用于对所述第二目标区域中的特征点进行筛选操作；

跟踪模块，用于根据所述第二目标区域中筛选后的所述特征点，在所述视频的后续帧中，采用CMT算法对所述第二目标区域进行区域跟踪；

更新模块，用于在所述后续帧中，根据区域跟踪的结果，更新所述预设图案的位置。

7.根据权利要求6所述的视频内容增强装置，其特征在于，所述区域调整模块包括：

检测单元，用于检测所述第一目标区域中的特征点；

自适应处理单元，用于以所述第一目标区域为中心，根据以下公式自适应调整所述第一目标区域的宽度和高度，使得调整后形成的所述第二目标区域中特征点的个数不少于预设阈值T：

8.根据权利要求6所述的视频内容增强装置，其特征在于，所述特征点筛选模块包括：

区域划分单元，用于对所述第二目标区域进行网格划分，形成数个子区域；

筛选单元，用于在每个所述子区域中，删除特征强度最小的数个特征点。

9.根据权利要求6至8中任一权利要求所述的视频内容增强装置，其特征在于，所述预处理模块包括：

获取单元，用于选取视频的当前帧为初始帧，在所述初始帧中，获取待跟踪的第一目标区域；

贴图单元，用于以所述第一目标区域为中心，在所述视频的视频帧上层显示所述预设图案。

10.根据权利要求9所述的视频内容增强装置，其特征在于，所述预设图案为动态图案，所述预处理模块还包括：

解析单元，用于将所述动态图案解析为多帧贴图帧；

所述贴图单元，还用于以所述第一目标区域为中心，根据所述动态图案的播放速率，循环地将多帧所述贴图帧依次添加于所述视频中。