CN115631379A

CN115631379A - 结合主动学习和噪声筛除的视频分析方法、装置及介质

Info

Publication number: CN115631379A
Application number: CN202211325980.3A
Authority: CN
Inventors: 王力; 马汉林; 卢桂福; 刘强
Original assignee: Wuhan Wanrui Digital Operation Co ltd
Current assignee: Wuhan Wanrui Digital Operation Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-20

Abstract

本发明公开了结合主动学习和噪声筛除的视频分析方法、装置及介质，该方法包括：获取初始图像，添加不同强度的噪声；利用目标检测网络对图像序列中每一图像进行目标检测；计算每一张初始图像的最大置信度和不确定得分，并根据计算结果将初始图像划分为目标样本和人工标注样本；利用目标检测网络对标注样本进行循环迭代训练，并记录循环迭代训练过程中的样本损失；选取样本损失小于预置损失阈值的目标样本作为伪标签样本，结合伪标签样本和人工标注样本对目标检测网络进行训练，并利用训练后的目标检测网络对指定的视频图像进行检测分析。本发明基于主动学习集成伪标签学习和深度学习训练噪音样本筛选技术，可提高视频图像的分析效率和准确度。

Description

结合主动学习和噪声筛除的视频分析方法、装置及介质

技术领域

本发明涉及主动学习技术领域，特别涉及结合主动学习和噪声筛除的视频分析方法、装置及介质。

背景技术

在视频分析领域，需要全天不断地实时分析监控画面，因此会采集到大量的未经标注的图像。尽管一一标注所有的图像有利于模型准确率的提升，但引入大量的人工标注过于耗时耗力,不可避免地造成了成本问题。

主动学习的核心思想是，使用模型和机器学习方法，从未标注的样本中挑选出某些具有更高价值的样本来给人工标注，这样能够低成本地快速继续补充模型的训练集，使模型的迭代和优化能够持续进行下去。挑选训练样本的策略称之为查询策略。现有的方法通常计算样本的置信度、信息熵等指标，通过设定阈值来划分难例和容易例，并将难例交给标注人员标注。即挑选出某些更高价值的样本进行人工标注，从而在减轻人工工作量的同时保证标注样本的代表性。然而，在面对海量样本的时候，人工工作量依然十分巨大，无法高效地完成相应的标注工作。

发明内容

本发明实施例提供了一种结合主动学习和噪声筛除的视频分析方法、装置、计算机设备及存储介质，旨在提高视频图像的分析效率和准确度。

第一方面，本发明实施例提供了一种结合主动学习和噪声筛除的视频分析方法，包括：

获取多张未标注图像作为初始图像，并针对每一所述初始图像，添加不同强度的噪声，得到包含初始图像和多张噪声图像的图像序列；

利用目标检测网络对所述图像序列中每一图像进行目标检测，得到每一张图像的目标检测结果；

结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本；

利用所述目标检测网络对所述标注样本进行循环迭代训练，并记录循环迭代训练过程中的样本损失；

选取样本损失小于预置损失阈值的目标样本作为伪标签样本，结合所述伪标签样本和人工标注样本对所述目标检测网络进行训练，并利用训练后的目标检测网络对指定的视频图像进行检测分析。

第二方面，本发明实施例提供了一种结合主动学习和噪声筛除的视频分析装置，包括：

图像获取单元，用于获取多张未标注图像作为初始图像，并针对每一所述初始图像，添加不同强度的噪声，得到包含初始图像和多张噪声图像的图像序列；

目标检测单元，用于利用目标检测网络对所述图像序列中每一图像进行目标检测，得到每一张图像的目标检测结果；

样本筛选单元，用于结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本；

循环迭代单元，用于利用所述目标检测网络对所述标注样本进行循环迭代训练，并记录循环迭代训练过程中的样本损失；

视频分析单元，用于选取样本损失小于预置损失阈值的目标样本作为伪标签样本，结合所述伪标签样本和人工标注样本对所述目标检测网络进行训练，并利用训练后的目标检测网络对指定的视频图像进行检测分析。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的结合主动学习和噪声筛除的视频分析方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的结合主动学习和噪声筛除的视频分析方法。

本发明实施例提供了一种结合主动学习和噪声筛除的视频分析方法、装置、计算机设备及存储介质，该方法包括：获取多张未标注图像作为初始图像，并针对每一所述初始图像，添加不同强度的噪声，得到包含初始图像和多张噪声图像的图像序列；利用目标检测网络对所述图像序列中每一图像进行目标检测，得到每一张图像的目标检测结果；结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本；利用所述目标检测网络对所述标注样本进行循环迭代训练，并记录循环迭代训练过程中的样本损失；选取样本损失小于预置损失阈值的目标样本作为伪标签样本，结合所述伪标签样本和人工标注样本对所述目标检测网络进行训练，并利用训练后的目标检测网络对指定的视频图像进行检测分析。本发明实施例集成伪标签学习和深度学习训练噪音样本筛选技术，并对伪标签学习中存在的噪声问题进行二次筛选，然后利用选取的样本对目标检测网络，再利用训练后的目标检测网络对视频图像进行检测分析，如此可以提高视频图像的分析效率和准确度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种结合主动学习和噪声筛除的视频分析方法的流程示意图；

图2为本发明实施例提供的一种结合主动学习和噪声筛除的视频分析方法的子流程示意图；

图3为本发明实施例提供的一种结合主动学习和噪声筛除的视频分析方法的网络流程图；

图4为本发明实施例提供的一种结合主动学习和噪声筛除的视频分析装置的示意性框图；

图5为本发明实施例提供的一种结合主动学习和噪声筛除的视频分析装置的子示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种结合主动学习和噪声筛除的视频分析方法的流程示意图，具体包括：步骤S101～S105。

S101、获取多张未标注图像作为初始图像，并针对每一所述初始图像，添加不同强度的噪声，得到包含初始图像和多张噪声图像的图像序列；

S102、利用目标检测网络对所述图像序列中每一图像进行目标检测，得到每一张图像的目标检测结果；

S103、结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本；

S104、利用所述目标检测网络对所述标注样本进行循环迭代训练，并记录循环迭代训练过程中的样本损失；

S105、选取样本损失小于预置损失阈值的目标样本作为伪标签样本，结合所述伪标签样本和人工标注样本对所述目标检测网络进行训练，并利用训练后的目标检测网络对指定的视频图像进行检测分析。

本实施例中首先对未标注的初始图像添加噪声，形成图像序列，接着将图像序列输入至目标检测网络中，并由目标检测网络输出相应的目标检测结果。根据该目标检测结果可以计算得到初始图像的最大置信度和不确定得分，进一步根据最大置信度和不确定得分将初始图像划分为目标样本和人工标注样本(即需要人工进行标注的样本)。对目标样本进行循环迭代训练，以筛选出符合要求的伪标签样本。随后将伪标签样本和人工标注样本组合为训练集，以对目标检测网络进行训练优化，从而通过优化后的目标检测网络对指定的视频图像进行检测分析。

本实施例基于主动学习的思想，集成了伪标签学习和深度学习训练噪音样本筛选技术，既可以更精准地挖掘出需要人工标注的困难样本，同时又能对于伪标签学习中存在的噪声问题进行二次筛选。也就是说，本实施例自动而准确地筛选出模型可以准确识别的样本，将结果作为标签或粗标签。同时又根据不确定分数的计算，从海量数据中挖掘出难例提供给标注人员进行标注。然后将二者的结果添加到训练样本中，可以在极大地减少人员标注的工作量的同时，快速地积累模型需要的标注样本，有利于模型的持续运营和模型迭代训练的快速开展，从而提高对于视频图像的分析效率和准确度。

另外，本实施例所述的目标检测网络可以采用当前广泛应用的目标检测网络，并且通过已标注的图像对目标检测网络，从而构建得到适用于本实施例的目标检测网络。

在一实施例中，所述步骤S101包括：

按照下式添加噪声，得到所述图像序列[X₀、X₁、X₂、……X_i、……X_n]：

X_i＝X₀+ε_i

式中，噪声ε_i∈N(0,σ_i ²)服从高斯分布，σ_i表示标准差，X₀表示初始图像，X_i表示第i张噪声图像。

本实施例中，按照上述噪声添加公式对初始图像添加不同强度的噪声，可以得到该初始图像对应的多张噪声图像，并由此构建为所述图像序列。

在一实施例中，所述步骤S102包括：

利用yolov5目标检测网络对所述图像序列中每一图像进行目标检测，并由所述yolov5目标检测网络输出各图像中业务目标的目标检测框的位置信息b和置信度p。

yolov5网络可以对图像序列中每一图像预测输出相应的目标框的位置坐标(b_i)，目标置信度(p_i)以及类别(c_i).。当然，在其他应用场景中，也可以采用其他的目标检测网络，对于目标检测网络的选择并不影响本实施例的分析效果。

在一实施例中，所述步骤S103包括：

选取最大置信度大于预置置信度预置和/或不确定得分小于预置得分阈值的初始图像作为目标样本，以及将剩余的初始图像作为人工标注样本。

在根据计算结果将所述初始图像划分为目标样本和人工标注样本时，具体是将最大置信度大于预置置信度预置和/或不确定得分小于预置得分阈值的初始图像划分为目标样本，以及将最大置信度小于或者等于预置置信度预置和/或不确定得分大于或者等于预置得分阈值的初始图像划分为人工标注样本，其中，所述的目标样本经过后续步骤处理后会筛选得到伪标签样本，而目标样本中未被筛选出的剩余样本则会与所述的人工标注样本一并由人工对其进行标注。

在一实施例中，所述步骤S103还包括：

针对每一初始图像，计算所述初始图像的目标检测框与对应的所有噪声图像的目标检测框的交并比IoU，并筛选交并比IoU最大值对应的噪声图像的目标检测框作为匹配框。

进一步的，所述步骤S103还包括：

针对每一初始图像，按照下式计算所述初始图像的最大置信度α：

式中，p₀表示所述初始图像的目标检测框的置信度，

表示所述目标检测框的置信度；

以及按照下式计算所述初始图像的位置不确定性β：

式中，b₀表示所述初始图像的目标检测框的位置信息，

表示所述匹配框的位置信息，IoU表示b₀与

的交并比；

遍历所有噪声图像，计算所述初始图像的最大置信度α的平均值和位置不确定性β的平均值，并对最大置信度α的平均值和位置不确定性β的平均值进行加权求和，得到所述初始图像的不确定得分。

本实施例中，对于噪声图像X_i的检索结果b_i和p_i与初始图像的检测结果进行比较，并计算出初始图像和噪声图像的目标检测框之间的交并比IoU。遍历初始图像的目标检测框，并挑选噪声图像的目标检测框中与之IoU最大的作为匹配框。

随后基于匹配框计算初始图像的置信度不确定性

和位置不确定性

在这里，如果噪声图像的目标检测框无法与初始图像的目标检测框进行匹配，即原本的目标在加入噪声后无法检出，则α＝1,β＝1。

接着遍历所有噪声等级和所有目标检测框，计算得到置信度不确定性α和位置不确定性β的平均值，然后通过加权求和得到不确定得分S，例如

挑选初始图像的位置不确定性的最大置信度较高的样本，计算得到的不确定得分，若过高，则被归类为需要人工标注的样本，若较低则归类为目标样本。

在一实施例中，如图2所示，所述步骤S104包括：步骤S201～S203。

S201、设置循环次数，并对循环迭代训练设定初始学习率；

S202、采用指数衰减学习率的策略控制每一次训练过程中的学习率递减；

S203、当所述目标检测网络处于过拟合状态时，结束本次训练，并在下一次训练开始时恢复设定初始学习率，以此完成循环迭代训练。

本实施例，对于划分得到的目标样本，如果直接使用目标检测网络进行检测分析，那么对应得到的分析结果作为伪标签会产生噪声，影响训练精度。因此采用循环迭代训练的方式来进行噪音标签的筛选。具体来说，首先设定训练学习率l₀，并在训练的过程中逐渐减小学习率，训练随之收敛。待目标检测网络过拟合后学习率恢复l₀，重复该变化过程，形成多次循环。

进一步的，记录所有目标样本在循环迭代训练期间的损失。由于含有噪声的目标样本的损失随着学习率的下降损失下降更为剧烈，而干净(即不含有噪声或者噪声强度较小)的目标样本的损失则从训练开始就较低，变化较为平稳。故按照损失大小排序，可以选择较大的K个样本作为噪声样本，剩下的为干净样本。将噪声样本归类为人工待标注样本，以及将干净样本归类为伪标签样本。然后将伪标签样本直接添加到标注样本(即所述训练集)中，即将伪标签作为训练标签，同时将人工标注样本分配给标注人员标注，并将结果添加到标注样本中，然后将更新后的标注样本作为训练样本训练目标检测网络，从而提高目标检测网络的检测精度和效率。

如图3所示，首先利用有标注的小部分样本对模型(即所述目标检测网络)进行训练构建，同时获取无标注的大部分样本，并对其添加不同强度的噪声，并输入至目标检测网络，然后进一步计算置信度和不确定得分，从而根据置信度和不确定得分划分得到需要人工标注的样本和较确定样本，并对较确定样本进行循环训练，在训练过程中记录损失变化曲线，从而根据损失变化曲线筛选得到噪声样本和干净样本，对于噪声样本，将其作为需要人工标注的样本，对于干净样本，则将其作为伪标签样本。最后利用伪标签样本和人工标注样本对模型进行优化，提高模型精度。

图4为本发明实施例提供的一种结合主动学习和噪声筛除的视频分析装置400的示意性框图，该装置400包括：

图像获取单元401，用于获取多张未标注图像作为初始图像，并针对每一所述初始图像，添加不同强度的噪声，得到包含初始图像和多张噪声图像的图像序列；

目标检测单元402，用于利用目标检测网络对所述图像序列中每一图像进行目标检测，得到每一张图像的目标检测结果；

样本筛选单元403，用于结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本；

循环迭代单元404，用于利用所述目标检测网络对所述标注样本进行循环迭代训练，并记录循环迭代训练过程中的样本损失；

视频分析单元405，用于选取样本损失小于预置损失阈值的目标样本作为伪标签样本，结合所述伪标签样本和人工标注样本对所述目标检测网络进行训练，并利用训练后的目标检测网络对指定的视频图像进行检测分析。

在一实施例中，所述图像获取单元401包括：

噪声添加单元，用于按照下式添加噪声，得到所述图像序列[X₀、X₁、X₂、……X_i、……X_n]：

X_i＝X₀+ε_i

在一实施例中，所述目标检测单元402包括：

检测输出单元，用于利用yolov5目标检测网络对所述图像序列中每一图像进行目标检测，并由所述yolov5目标检测网络输出各图像中业务目标的目标检测框的位置信息b和置信度p。

在一实施例中，所述样本筛选单元403包括：

目标样本选取单元，用于选取最大置信度大于预置置信度预置和/或不确定得分小于预置得分阈值的初始图像作为目标样本，以及将剩余的初始图像作为人工标注样本。

在一实施例中，所述样本筛选单元403还包括：

式中，p₀表示所述初始图像的目标检测框的置信度，

表示所述目标检测框的置信度；

以及按照下式计算所述初始图像的位置不确定性β：

式中，b₀表示所述初始图像的目标检测框的位置信息，

表示所述匹配框的位置信息，IoU表示b₀与

的交并比；

在一实施例中，如图5所示，所述循环迭代单元404包括：

学习率设定单元501，用于设置循环次数，并对循环迭代训练设定初始学习率；

递减控制单元502，用于采用指数衰减学习率的策略控制每一次训练过程中的学习率递减；

学习率恢复单元503，用于当所述目标检测网络处于过拟合状态时，结束本次训练，并在下一次训练开始时恢复设定初始学习率，以此完成循环迭代训练。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种结合主动学习和噪声筛除的视频分析方法，其特征在于，包括：

2.根据权利要求1所述的结合主动学习和噪声筛除的视频分析方法，其特征在于，所述获取多张未标注图像作为初始图像，并针对每一所述初始图像，添加不同强度的噪声，得到包含初始图像和多张噪声图像的图像序列，包括：

X_i＝X₀+ε_i

3.根据权利要求1所述的结合主动学习和噪声筛除的视频分析方法，其特征在于，所述利用目标检测网络对所述图像序列中每一图像进行目标检测，得到每一张图像的目标检测结果，包括：

4.根据权利要求3所述的结合主动学习和噪声筛除的视频分析方法，其特征在于，所述结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本，包括：

5.根据权利要求4所述的结合主动学习和噪声筛除的视频分析方法，其特征在于，所述结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本，还包括：

6.根据权利要求5所述的结合主动学习和噪声筛除的视频分析方法，其特征在于，所述结合所述目标检测结果计算每一张所述初始图像的最大置信度和不确定得分，并根据计算结果将所述初始图像划分为目标样本和人工标注样本，还包括：

式中，p₀表示所述初始图像的目标检测框的置信度，

表示所述目标检测框的置信度；

以及按照下式计算所述初始图像的位置不确定性β：

式中，b₀表示所述初始图像的目标检测框的位置信息，

表示所述匹配框的位置信息，IoU表示b₀与

的交并比；

7.根据权利要求1所述的结合主动学习和噪声筛除的视频分析方法，其特征在于，所述利用所述目标检测网络对所述标注样本进行循环迭代训练，并记录循环迭代训练过程中的样本损失，包括：

设置循环次数，并对循环迭代训练设定初始学习率；

采用指数衰减学习率的策略控制每一次训练过程中的学习率递减；

当所述目标检测网络处于过拟合状态时，结束本次训练，并在下一次训练开始时恢复设定初始学习率，以此完成循环迭代训练。

8.一种结合主动学习和噪声筛除的视频分析装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的结合主动学习和噪声筛除的视频分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的结合主动学习和噪声筛除的视频分析方法。