CN112417963A

CN112417963A - 一种优化视频目标检测、识别或分割的精度和效率的方法

Info

Publication number: CN112417963A
Application number: CN202011124541.7A
Authority: CN
Inventors: 赵维杰; 富宸; 徐孝成
Original assignee: Shanghai Weisha Network Technology Co ltd
Current assignee: Shanghai Weisha Network Technology Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-26

Abstract

本发明提供了一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：给定一段视频序列帧，获得当前帧的识别结果，预测后续待处理帧的待检测子区域，然后仅在该待检测子区域中进行识别计算。其中本发明的有益效果是：本方法利用邻近帧的识别结果，先预测当前帧的待检测子区域，再在含有目标物的待检测子区域进行处理，不需要对无关背景进行处理，极大的减少了处理所需的运算量，提升了运算效率；同时，由于运算主要集中在含有目标物的子区域，与传统技术相比，采用本发明进行检测、识别或分割处理的准确率更高。

Description

一种优化视频目标检测、识别或分割的精度和效率的方法

技术领域

本发明涉及视频处理领域，特别涉及一种优化视频目标检测、识别或分割的精度和效率的方法。

背景技术

视频目标检测、识别或分割是计算机视觉核心问题之一，广泛应用于工业制造、自动驾驶、安防、新零售、影视文娱业等各种工业场景。高精度和高效率一直是视频目标检测、识别和分割问题的重点和难点。

然而现有技术中视频目标检测、识别或分割系统的处理精度通常比较低，运算耗时比较长，且无法有效的对于多目标小目标进行检测、识别或分割处理。

发明内容

为了解决上述技术问题，本发明中披露了一种优化视频目标检测、识别或分割的精度和效率的方法，本发明的技术方案是这样实施的：

给定一段视频序列帧，获得当前帧的识别结果，预测后续待处理帧的待检测子区域，然后仅在该待检测子区域中进行识别计算。

优选地，所述方法包括步骤如下：

S1：通过识别模块计算与后处理得到当前帧目标物的初步识别结果；

S2：通过初步识别结果计算得到当前帧目标物的待检测子区域；

S3：通过识别模块仅对当前帧目标物的待检测子区域进行预测，得到优化后的识别结果和对应目标物的精确子区域；

S3.1：根据优化后的识别结果和目标物的精确子区域得到当前帧视频的最终处理结果；

S4：仅对当前帧得到的目标物的精确子区域进行位置预测后得到下一待处理帧目标物的待检测子区域；

S5：下一待处理帧目标物的待检测子区域作为当前帧目标物的待检测子区域并回到S3。

优选地，还包括S4.1：下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id保持一致。

优选地，所述S1中目标物的数量为2个或2个以上。

优选地，还包括S4.2：通过分析模块仅判断下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id是否一致；如果一致，进行S5，如果不一致，仅对下一待处理帧目标物的待检测子区域通过重识别模块获得修正后的下一待处理帧目标物的待检测子区域。

优选地，还包括S4.3:通过分析模块仅判断修正后的下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id是否一致；如果一致，进行S5，如果不一致，回到S3。

优选地，所述识别结果和所述处理结果包括目标中心位置、识别框、二值图、alpha遮罩图或各个像素的分类概率图。

优选地，所述位置预测包括仿射变换、透视变换、模版匹配、数学形态学操作或根据简单规律增加删除。

优选地，所述识别模块包括图片或视频的目标检测技术、关键点追踪技术、目标分割技术、显著物体分割技术、抠图模块、深度神经网络技术、超像素技术、聚类技术或滤波技术。

优选地，所述方法用于嫁接至现有视频目标检测、识别或分割系统。

实施本发明的技术方案可解决现有技术中视频目标检测、识别或分割处理计算量过大，精度不够，速度过慢的技术问题；实施本发明的技术方案，可以利用邻近帧的识别结果，先预测当前帧的待检测子区域，再在含有目标物的待检测子区域进行处理，不需要对无关背景进行处理，极大的减少了处理所需的运算量，提升了运算效率，同时，由于运算主要集中在含有目标物的子区域，与传统技术相比，采用本发明进行检测、识别或分割处理的准确率更高，待处理帧可以是连续视频中的下一帧图像，也可以是隔了几帧之前或之后的图像，本专利在视频目标检测、识别或分割处理中，减少了运算量，提升运算速度，提升了视频目标检测、识别或分割处理精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一种实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

在一种具体的实施例1中，一种优化视频目标检测、识别或分割的精度和效率的方法，给定一段视频序列帧，获得当前帧的识别结果，预测后续待处理帧的待检测子区域，然后仅在该待检测子区域中进行识别计算。

本实施例具体步骤如下：

本实施例提出了一种有别于传统视频目标检测、识别或分割处理的方法，传统视频目标检测、识别或分割处理总是需要对整个视频做处理，运算量大，非常影响视频目标检测、识别或分割处理的效率和精度，那么本实施例给出了一种新的视频目标检测、识别或分割处理方法，通过前序帧的识别结果先预测后续待处理帧的待检测子区域，之后仅在该待检测子区域中进行识别计算。后续的视频目标检测、识别或分割处理也仅需在预测得到的待检测子区域进行计算即可，而无关的背景则不需要处理，这样大大减少了运算量，提升了运算效率，且视频目标检测、识别或分割处理的精度也大大提升了。预测得到的后续待处理帧的待检测子区域为包含需要进行视频目标检测、识别或分割处理的目标的区域。目标物的精确子区域是指通过识别模块计算得到的最终精确的目标物所在的子区域。待处理帧可以是连续视频中的下一帧图像，也可以是隔了几帧之后或之前的视频图像。另外本方法的处理由于仅在待检测子区域内进行，对无关背景就不需要处理，减少了运算量，运算速度大大提升，处理时定位目标物更精确，处理结果更精细，分辨率也更高，由于视频都是连续的，第一帧位置已知，可以预测下一待处理帧的目标物位置，采用本方法进行视频目标检测、识别或分割处理，结果更精确，处理效果更好，本方法通过临近帧可得到当前帧目标物的精确位置，在对视频中多目标、小目标进行处理时精度分割损失更小。本方法适配性好，可实现提高视频分割处理的精度和速度，减少运算量，可同时对多目标、小目标进行精准分割处理的技术效果。

实施例2

在一种优选的实施例2中，一种单目标物视频目标分割处理方法，包括步骤

如下：

S1：通过深度神经网络分割模块计算与后处理得到初步的alpha遮罩图；

S2：通过alpha遮罩图计算得到当前帧的目标物粗预测主体边界框；

S3：通过深度神经网络分割模块对当前帧的目标物粗预测主体边界框进行预测，得到优化后的alpha遮罩图及对应的精预测主体边界框；

S3.1：优化后的alpha遮罩图作为当前帧的处理结果输出；

S4：精预测主体边界框进行一定比例放大后得到下一待处理帧目标物的粗预测主体边界框；

S5：下一待处理帧的目标物粗预测主体边界框作为当前帧的目标物粗预测主体边界框并回到S3继续处理。

实施例3

在一种优选的实施例3中，一种单目标物视频目标分割处理方法，包括步骤如下：

S1：通过显著物体分割模块计算与后处理得到初步的二值图；

S2：通过二值图计算得到当前帧的目标物粗预测主体边界轮廓；

S3：再通过显著物体分割模块对当前帧的目标物粗预测主体边界轮廓进行预测，得到优化后的二值图及对应的精预测主体边界轮廓；

S3.1：优化后的二值图作为当前帧的处理结果输出；

S4：精预测主体边界轮廓进行数学形态学操作后得到下一待处理帧目标物的粗预测主体边界轮廓；

S5：下一待处理帧的目标物粗预测主体边界轮廓作为当前帧的目标物粗预测主体边界轮廓并回到S3继续处理。

实施例4

在一种优选的实施例4中，一种单目标物视频目标检测处理方法，包括步骤如下：

S1：通过深度神经网络目标检测模块计算与后处理得到初步的目标物边界框；

S2：该目标物物边界框进行一定比例缩放后作为当前帧的目标物粗预测主体边界框；

S3：通过相关性滤波模块对当前帧的目标物粗预测主体边界框进行预测，得到优化后的目标物中心位置及对应的精预测主体边界框；

S3.1：优化后的目标物中心位置作为当前帧的处理结果输出；

S4：利用得到的精预测主体边界框和下一待处理帧进行图像特征匹配后得到下一待处理帧目标物的粗预测主体边界轮廓；

实施例5

在一种具体的实施例5中，还包括S4.1：下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id保持一致。

本实施例提供了一种针对多目标物的视频目标检测、识别或分割处理方法，在多目标物视频目标检测、识别或分割处理中，步骤如下：

S4.1：下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id保持一致；

当运行到S4步骤时由于存在多个目标物，无法完全保证处理结果的精确性，很有可能在进行到S4步骤中会出现下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id不一致的问题，为了保证处理结果的精确性，通过S4.1步骤来识别下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域的id，提高了多目标物视频目标检测、识别或分割处理的精度。

实施例6

在一种优选的实施例6中，一种多目标物的视频目标分割处理方法，包括步骤如下：

S2：通过二值图内多个连通域计算得到当前帧的多个目标物的多个粗预测主体边界框；

S3：通过深度神经网络分割模块，分别对当前帧的多个目标物的多个粗预测主体边界轮框进行预测，得到各个目标物优化后的二值图及对应的精预测目标主体边界框；

S3.1：优化后的各个目标物的二值图作为当前帧的处理结果输出；

S4：当前帧所得到所有优化后的精预测目标主体边界框各自进行一定比例的放大后得到下一待处理帧的各个目标物的粗预测目标主体边界框，处理后得到的粗预测区域内的目标物id和处理前的对应精预测区域目标物id保持一致；

S5：下一待处理帧的各个目标物的粗预测目标主体边界框作为当前帧的各个目标物的粗预测目标主体边界框并回到S3继续处理。

实施例7

在一种优选的实施例7中，一种多目标物的视频目标检测处理方法，包括步骤如下：

S1：通过深度神经网络检测模块计算与后处理得到初步的多个目标物的主体框；

S2：得到的多个目标物的主体框为当前帧的多个目标物的多个粗预测主体边界框；

S3：通过深度神经网络抠图模块，分别对当前帧的多个目标物的多个粗预测主体边界轮框进行预测，得到各个目标物优化后的目标中心位置及对应的精预测目标主体边界框；

S3.1：优化后的各个目标物的目标中心位置作为当前帧的处理结果输出；

S4：当前帧所得到所有优化后的精预测目标主体边界框根据帧间运动信息进行透射变换或仿射变换得到下一待处理帧的各个目标物的粗预测目标主体边界框，处理后得到的粗预测区域内的目标物id和处理前的对应精预测区域目标物id保持一致；

实施例8

在一种优选的的实施例8中，一种多目标物的视频目标识别和分割处理方法，包括步骤如下：

S1：通过深度神经网络实例分割模块计算与后处理得到初步的多个目标物的二值图；

S2：通过多个目标物的二值图计算得到当前帧的多个目标物的多个粗预测主体边界框；

S3：通过深度神经网络语义分割模块，分别对当前帧的多个目标物的多个粗预测主体边界轮框进行预测，得到各个目标物优化后的alpha遮罩图及对应的精预测目标主体边界框；

S3.1：优化后的各个目标物的alpha遮罩图作为当前帧的处理结果输出；

S4：当前帧所得到所有优化后的精预测目标主体边界框与下一待处理帧进行模板匹配得到下一待处理帧的各个目标物的粗预测目标主体边界框，处理后得到的粗预测区域内的目标物id和处理前的对应精预测区域目标物id保持一致；

在一种优选的实施方式中，所述S1中目标物的数量为2个或2个以上。

本专利的方法可用于单目标物体的视频目标检测、识别或分割处理，也可用于多目标物体的视频目标检测、识别或分割处理，尤其应用在多目标物物体的应用处理中，现有技术中对多目标、小目标分割处理的方式是对大区域背景进行处理，第一精度不高，第二运算量过大，第三耗时较长，而采用专利的方法，则可以有效的减少运算量，仅对预测得到的待检测子区域进行处理，由于处理的区域更小，处理效果更好，分割边界更精确、目标识别精度更高。

在一种优选的实施方式中，还包括S4.2：通过分析模块仅判断下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id是否一致；如果一致，进行S5，如果不一致，仅对下一待处理帧目标物的待检测子区域通过重识别模块获得修正后的下一待处理帧目标物的待检测子区域。

本实施方式提供了一种误差纠正模块，由于系统可能存在误差，为了尽量减少误差，采用本实施方式的方法可以有效的提高视频目标检测、识别或分割处理的精准度，提高视频目标检测、识别或分割处理效果。

在一种优选的实施方式中，如图1所示，还包括S4.3：通过分析模块仅判断修正后的下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id是否一致；如果一致，进行S5，如果不一致，回到S3。

由于在视频目标检测、识别或分割处理中，可能存在系统出错等问题，采用本实施方式的方法，当视频目标检测、识别或分割处理出错时，返回S3重新处理，重新计算，防止后续处理一错再错。

在一种优选的实施方式中，所述识别结果和所述处理结果包括目标中心位置、识别框、二值图、alpha遮罩图或各个像素的分类概率图。

采用本专利的方法可得到多种处理结果，可根据实际情况需要进行选择。

在一种优选的实施方式中，所述位置预测包括仿射变换、透视变换、模版匹配、数学形态学操作或根据简单规律增加删除。

位置预测的方法可以根据实际情况需要进行选择。

在一种优选的实施方式中，所述识别模块包括图片或视频的目标检测技术、关键点追踪技术、目标分割技术、显著物体分割技术、抠图模块、深度神经网络技术、超像素技术、聚类技术或滤波技术。

识别模块的技术可根据实际情况需要进行选择。

在一种优选的实施方式中，所述方法用于嫁接至现有的视频目标检测、识别或分割模块。

本专利的视频目标检测、识别或分割处理方法可单独使用，也可以嫁接到任意的视频目标检测、识别或分割处理模块中，根据实际情况进行选择。

多个目标物指数量为2或2个以上的目标物。

实施本发明的技术方案可解决现有技术中视频目标检测、识别或分割处理计算量过大，精度不够，速度过慢的技术问题；实施本发明的技术方案，可以通过邻近帧的识别结果预测待处理帧的待检测子区域，待处理帧可以是连续视频中的下一帧图像，也可以是隔了几帧之前或之后的图像。使用本专利中的方法，在视频目标检测、识别或分割处理中，减少了运算量，提升运算速度，提升了视频目标检测、识别或分割处理精度。

需要指出的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：给定一段视频序列帧，获得当前帧的识别结果，预测后续待处理帧的待检测子区域，然后仅在该待检测子区域中进行识别计算。

2.根据权利要求1所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：所述方法包括步骤如下：

3.根据权利要求2所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：还包括S4.1：下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id保持一致。

4.根据权利要求3所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：所述S1中目标物的数量为2个或2个以上。

5.根据权利要求4所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：还包括S4.2：通过分析模块仅判断下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id是否一致；如果一致，进行S5，如果不一致，仅对下一待处理帧目标物的待检测子区域通过重识别模块获得修正后的下一待处理帧目标物的待检测子区域。

6.根据权利要求5所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：还包括S4.3：通过分析模块仅判断修正后的下一待处理帧目标物的待检测子区域与S3中的目标物的精确子区域id是否一致；如果一致，进行S5，如果不一致，回到S3。

7.根据权利要求1-6任一所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：所述识别结果和所述处理结果包括目标中心位置、识别框、二值图、alpha遮罩图或各个像素的分类概率图。

8.根据权利要求1-6任一所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：所述位置预测包括仿射变换、透视变换、模版匹配、数学形态学操作或根据简单规律增加删除。

9.根据权利要求1-6任一所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：所述识别模块包括图片或视频的目标检测技术、关键点追踪技术、目标分割技术、显著物体分割技术、抠图模块、深度神经网络技术、超像素技术、聚类技术或滤波技术。

10.根据权利要求1-6任一所述的一种优化视频目标检测、识别或分割的精度和效率的方法，其特征在于：所述方法用于嫁接至现有的视频目标检测、识别或分割系统中。