CN116363557A

CN116363557A - 一种用于连续帧的自学习标注方法、系统及介质

Info

Publication number: CN116363557A
Application number: CN202310260582.6A
Authority: CN
Inventors: 徐坚; 邓启明
Original assignee: Hangzhou Zaiqi Information Technology Co ltd
Current assignee: Hangzhou Zaiqi Information Technology Co ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-30
Anticipated expiration: 2043-03-17
Also published as: CN116363557B

Abstract

本发明提供一种用于连续帧的自学习标注方法、系统及介质，属于图像处理技术领域，具体包括：将标志帧中的面积占比大于设定面积的物体作为备选特征物体，并基于备选特征物体的特征物图像识别模型的识别准确率、面积占比得到评估值，并基于所述评估值进行筛选特征物体的确定；对筛选特征物体在连续帧中进行标注得到特征物预测框，并基于消失点坐标与连续帧的特征物预测框的标注连框线进行逐帧计算得到角度值，并基于角度值进行筛选得到可靠角度值；基于可靠角度值、以及标志帧中目标物的目标位置域、连续帧中的目标物的预测框，进行连续帧中的目标物的自动标注，从而进一步提升了连续帧标注的准确性和可靠性。

Description

一种用于连续帧的自学习标注方法、系统及介质

技术领域

本发明属于图像处理技术领域，尤其涉及一种用于连续帧的自学习标注方法、系统及介质。

背景技术

为了实现对连续帧的图像的目标物的自动标注，在发明专利公开号CN114820694A《一种动态多目标标注方法、系统及装置》通过读取视频记录；提取标志帧图像；标记所述标志帧的目标位置感兴趣域和种类；计算连续帧的目标位置感兴趣域；标注完成，将标志帧和连续帧生成图像，并生成记录文件，但是却存在以下技术问题：

1、忽视了不同帧之间的图像的目标物与特征物体的相对位置的变动情况，现有的技术方案中或根据目标物的预测框与消失点的角度信息实现对目标物的位置的确定，或者未考虑不同帧之间的位置变化情况进行目标物的确定，但是由于不同帧之间的图像采集装置的位置的相对变化，会使得目标物的角度信息发生相对变化，从而无法准确的实现对目标物的位置的确定。

2、未考虑基于标志帧中的特征物体的面积比例、特征物体的模型的识别准确率、连续帧中的最后一帧的特征物体的面积比例实现对特征物体的筛选，对于识别准确率不同且面积比例不同的特征物体，其识别准确性和可靠性均不同相同，若不能根据上述因素进行特征物体的筛选，则会导致最终的目标物的位置的标注的准确性和可靠性都会受到影响。

针对上述技术问题，本发明提供了一种用于连续帧的自学习标注方法、系统及介质。

发明内容

为实现本发明目的，本发明采用如下技术方案：

根据本发明的一个方面，提供了一种用于连续帧的自学习标注方法。

一种用于连续帧的自学习标注方法，其特征在于，具体包括：

S11基于标志帧中所需标记的目标物，提取目标物图像，并对目标物进行标注得到目标标识域，并基于所述目标物图像以及图像识别模型，对连续帧中的目标物进行识别得到识别结果，并根据识别结果对连续帧中的目标物进行标注得到预测框；

S12将标志帧中的面积占比大于设定面积的物体作为备选特征物体，并基于所述备选特征物体的特征物图像识别模型的识别准确率、所述备选特征物体在标志帧中的面积占比、所述备选特征物体在连续帧的最后一帧的面积占比，采用基于机器学习算法的评估模型得到备选特征物体的评估值，并基于所述评估值进行筛选特征物体的确定；

S13基于筛选特征物体的特征物图像识别模型对所述筛选特征物体在连续帧中进行标注得到特征物预测框，将图片的消失点的坐标作为消失点坐标，并基于所述消失点坐标与连续帧的特征物预测框的标注连框线进行逐帧计算得到连续帧的筛选特征物体的角度值，并基于所述筛选特征物体的角度值进行筛选得到可靠角度值；

S14基于所述可靠角度值、以及所述标志帧中目标物的目标位置域、连续帧中的目标物的预测框，进行连续帧中的目标物的自动标注。

通过基于面积占比进行备选特征物体的筛选，从而实现了对标志帧中的识别准确率较高的特征物体的筛选，降低了进行评估值的评估的特征物体的数量，提升了处理的效率，也为进一步提高目标物的自动标注的准确性奠定了基础。

通过基于识别准确率、备选特征物体在标志帧中的面积占比、所述备选特征物体在连续帧的最后一帧的面积占比，采用基于机器学习算法的评估模型得到备选特征物体的评估值，从而实现了从多角度对备选特征物体的识别的可靠性的评估，保证了最终的角度值的可靠性，也为进一步提高目标物的自动标注的准确性奠定了基础，并通过第一阈值的设置实现了对筛选特征物体的筛选，保证了可靠角度值筛选的可靠性。

通过可靠角度值的筛选并且基于可靠角度进行连续帧中的目标物的自动标注，从而避免了原来的忽视连续帧中的目标物的移动或者未能依靠特征物体进行自动标注导致的标注准确性较低的技术问题，提升了自动标注的准确性。

另一方面，本申请实施例中提供一种计算机系统，包括：通信连接的存储器和处理器，以及存储在所述存储器上并能够在所述处理器上运行的计算机程序，其特征在于：所述处理器运行所述计算机程序时上述的一种用于连续帧的自学习标注方法。

另一方面，本发明提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的一种用于连续帧的自学习标注方法。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1是根据实施例1的一种用于连续帧的自学习标注方法的流程图；

图2是根据实施例1的备选特征物体的评估值构建的具体步骤的流程图；

图3是根据实施例1的进行可靠角度值筛选的具体步骤的流程图；

图4是根据实施例3的一种计算机存储介质的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。

申请人发现，在进行连续帧的目标物的标注过程中，现有技术中忽略了不同帧之间的图像的目标物与特征物体的相对位置的变动情况，由于不同帧之间的图像采集装置的位置的相对变化，会使得目标物的角度信息发生相对变化，从而无法准确的实现对目标物的位置的确定；同时未考虑基于标志帧中的特征物体的面积比例、特征物体的模型的识别准确率、连续帧中的最后一帧的特征物体的面积比例实现对特征物体的筛选，若不能根据上述因素进行特征物体的筛选，则会导致最终的目标物的位置的标注的准确性和可靠性都会受到影响。

实施例1

为解决上述问题，根据本发明的一个方面，如图1所示，提供了一种用于连续帧的自学习标注方法，其特征在于，具体包括：

具体的，所述目标物的目标标识域采用人工标注的方式进行确定。

具体的举个例子，通过人工标注的形式首先实现对标志帧中的目标物的目标位置域的标注。

具体的，基于所述目标物图像，确定所述目标物的图像识别模型，并基于所述目标物的图像识别模型对连续帧中的目标物进行识别得到识别结果。

具体的举个例子，所述图像识别模型采用基于CNN算法的图像识别模型，通过目标物图像，选取与所述目标物图像的目标物的图像识别模型，或者基于连续帧中的一定数量的目标物的连续帧图像以及所述目标物图像，进行图像的翻转等方式，形成训练集，并基于所述训练集实现对所述目标物的图像识别模型的构建，并基于所述图像识别模型对连续帧中的目标物进行识别。

具体的举个例子，若标志帧的总面积为200cm²，物体的面积为10cm²，则物体的面积占比为0.05，设定面积为0.04，则将该物体作为备选特征物体。

具体的，基于所述标志帧进行所述标志帧中的各物体的图像的提取，并基于所述各物体的图像的面积以及所述标志帧的面积的比值得到所述标志帧中的各物体的面积占比，并将所述面积占比大于设定面积的物体作为备选特征物体，其中所述设定面积根据所述物体的面积占比的平均值进行确定，所述物体的面积占比的平均值越多，则设定面积越大。

具体的，如图2所示，备选特征物体的评估值构建的具体步骤为：

S21基于所述备选特征物体的图像，进行特征物图像识别模型的构建，并提取得到所述连续帧中的指定数量的备选特征物体的图像，并基于所述连续帧中的备选特征物体的图像，确定所述特征物图像识别模型的识别准确率；

具体的举个例子，所述述连续帧中的备选特征物体的图像既包括前三分之一的连续帧中的备选特征物体的图像，也包括后三分之一和中间三分之一的连续帧中的备选特征物体的图像。

S22基于所述备选特征物体在连续帧的最后一帧的面积占比确定所述备选特征物体是否需要进一步评估，若是，则进入步骤S23，若否，则进入步骤S24；

具体的举个例子，若备选特征物体在连续帧的最后一帧的面积占比为0.02，当其大于0.01时，则进入步骤S23继续进行识别准确率的判断。

S23基于所述备选特征物体在连续帧的最后一帧的面积占比确定所述备选特征物体是否属于筛选特征物体，若是，则将所述备选特征物体的评估值设置为1，若否，则进入步骤S24；

具体的举个例子，若备选特征物体的特征物图像识别模型的识别准确率为97.3％，当其大于95％时，则将所述备选特征物体的评估值设置为1。

S24基于所述备选特征物体的特征物图像识别模型的识别准确率、所述备选特征物体在标志帧中的面积占比、所述备选特征物体在连续帧的最后一帧的面积占比，采用基于机器学习算法的评估模型得到备选特征物体的评估值。

具体的举个例子，所述基于机器学习算法的评估模型采用基于IGWO-Elman算法的评估模型，其中神经网络的本质为非线性系统，具有自适应自学习的能力。Elman是一种动态递归神经网络，具有映射动态特征和适应时变的能力，并且结构简单，性能优越。Elman神经网络会保存当前时刻隐藏层输出，并将数据在下一时刻输入到隐藏层，在内部构成了独特的反馈输入，IGWO为改进型的GWO算法。

在另外一种可能的实施例中，所述基于IGWO-Elman算法的评估模型构建的具体步骤为：

步骤1:根据预测需要，对Elman神经网络进行初始化，设定网络输入输出节点数，并确定隐藏层节点数，由此确定Elman神经网络拓扑结构；

步骤2:IGWO算法初始化，设置种群规模M，最大迭代次数tmax，划定待优化网络权值阈值的寻优范围，根据网络初始权值阈值对灰狼位置初始化；

步骤3:构建Elman神经网络模型并训练；

步骤4:以模型预测均方误差最小为目标，计算适应度函数值，选出α，β,γ狼，并更新α狼的位置及相关参数；

步骤5:判断是否达到最大迭代次数，若达到则α狼对应的位置即为所搜索到Elman模型的最优初始权值和阈值，反之，跳到步骤4；

步骤6:选择IGWO算法寻优后得到的a狼的位置所对应的值作为Elman神经网络初始权值和阈值，将训练后的模型用于备选特征物体的评估值的构建。

在另外一种可能的实施例中，在自然界中，灰狼这个物种是社会性的猎食动物，食物链上层掠食者，通常以群居方式生活，以平均5-12个成员组成一个团体进行日常活动。灰狼群体具有社会阶级结构；GWO算法模拟了灰狼群体呈金字塔状的社会等级以及灰狼之间交流共享的机制，算法主要包括三个部分:种群等级划分、位置更新、攻击猎物。

在寻优过程中，灰狼个体i的位置定义为:

X_i＝(x_i1,x_i2...x_id),i＝1,2...M

其中M表示灰狼种群数量，d表示搜索空间维度。

狼群在狩猎过程中，每个灰狼个体所在的位置都可以看做问题的一个可行解，猎物可视为全局最优解。在此过程中，根据个体的适应度值选出表现较好的3只狼，分别为α，β,γ狼，剩下的狼通过下式的方式计算与前三者之间的距离并不断向它们靠拢，以此方式实现对猎物的包围：

D_α＝|C₁·X_α(t)-X(t)|

D_β＝|C₂·X_β(t)-X(t)|

D_δ＝|C₃·X_δ(t)-X(t)|

X₁＝X_α-A₁·D_α

X₂＝X_β-A₂·D_β

X₃＝X_δ-A₃·D_δ

D定义为某个灰狼距离α，β,γ狼之间的距离，A和C为系数，由下式计算得到:

A＝2ar₁-a

C＝2r₂

其中，r₁和r₂均为0到1之间的随机数，在迭代过程中，参数a从2线性减小到0。

具体的举个例子，在使用非线性收敛因子改进GWO，即随着迭代次数的增加，a呈现出非线性变化的趋势。使改进后的算法在迭代前期加大全局搜索力度，后期进行局部搜索，充分利用有限的迭代次数合理匹配全局和局部搜索，其中所述改进收敛因子a的计算公式为：

其中t为当前迭代次数，t_max为最大迭代次数。

具体的，所述评估值的取值范围在0到1之间，其中所述备选特征物体的评估值越大，则所述备选特征物体的识别准确度越大。

具体的，进行连续帧的特征物预测框确定的具体步骤为：

基于标志帧中筛选特征物体的位置域获取所述筛选特征物体的图像；

基于所述筛选特征物体的图像，采用基于CNN算法的图像识别模型，对所述连续帧中的筛选特征物体进行识别，得到筛选特征物体的坐标；

基于所述筛选特征物体的坐标进行所述连续帧中的特征物预测框的确定。

具体的举个例子，连续帧的筛选特征物体的角度值的确定的具体步骤为：

第一步：为了避免重复的对图片进行特征提取，减少检测时间和计算复杂度，可以将筛选特征物体的预测框在原图中的坐标映射到特征图上，直接获取筛选特征物体的特征图，又由于特征提取网络的特征图与原图的对应比例是固定的，因此可以将坐标除以特征图的缩小倍数，得到目标物预测框在特征图上的坐标，由此获取筛选特征物体的特征图；在实际拍摄的图片中，目标物大小不一，其映射到特征图上的预测框也会是大小不一的，为了配合之后的分类网络，需要将筛选特征物体的特征图通过池化操作调整为同样大小，因为池化操作只针对感兴趣区域进行，所以称之为感兴趣区域池化。

第二步：获取图片消失点的坐标；数据集中包含对于消失点坐标的标注，消失点的本质是摄像头的远方视野交汇处，由于摄像头的设置高度不同，在图片中，可表现为物体由消失点向图片边框移动，其运动轨迹基本上处于消失点与其中心点连线的延长线上。

第三步：逐帧计算消失点与预测框连线的角度，消失点与预测框连线的角度以弧度制表示，以消失点的右上方为第一象限，通过比较预测框中心点与消失点的相对位置关系。

第四步：保存每一帧的每一个预测框相对于消失点的角度信息，将当前帧中每一个检测出的预测框与上一帧的每一个预测框的角度值比较，取差值最小的预测框作为其匹配预测框，将多帧的预测框组合成一个预测图块，取第一帧图片的预测框与真实的目标框做IOU计算，取最高IOU的真实目标框的类别作为该预测框的类别作为这个多帧预测图块的类别。

具体的，基于所述消失点坐标与连续帧的预测框的标注连框线进行逐帧计算得到连续帧的角度信息中，所述连续帧的角度信息的计算公式为：

具体的，如图3所示，进行可靠角度值筛选的具体步骤为：

S31基于所述筛选特征物体的角度值，基于所述筛选特征物体的角度值的出现次数进行备选角度值的确定；

具体的，将出现次数较多的作为备选角度值，具体的可以通过定值的方式进行确定。

S32基于所述备选角度值所对应的筛选特征物体的评估值的和是确定所述备选角度值是否属于推荐角度值，若是，则将所述备选角度值作为推荐角度值，并进入步骤S33，若否，则进入步骤S34；

具体的，将评估值的和较大的作为推荐角度，具体的可以通过定值的方式进行确定。

S33基于角度值与所述推荐角度值的差值的绝对值进行相似角度值的确定，并基于所述相似角度值所对应的筛选特征物体的评估值的和判断所述推荐角度值是否属于可靠角度值，若是，则将所述推荐角度值作为可靠角度值，若否，则进入步骤S34；

具体的，将评估值的和较大的作为可靠角度值，具体的可以通过定值的方式进行确定。

S34基于所述备选角度值的出现次数、备选角度值所对应的筛选特征物体的评估值的和、所述相似角度值所对应的筛选特征物体的评估值的和构建评估输入集，并采用基于机器学习算法的预测模型，得到所述备选角度值的可靠度，并将可靠度最大的备选角度值作为可靠角度值。

具体的，当所述角度值与所述推荐角度值的差值的绝对值小于设定值时，则确定所述角度值作为相似角度值。

具体的举个例子，在实际的操作过程中，根据连续帧中的目标物的预测框与标志帧中目标物的目标位置域逐帧进行角度的计算，并根据计算结果与可靠角度值进行预测框的筛选，从而实现对连续帧中的目标物的自动标注。

实施例2

本申请实施例中提供一种计算机系统，包括：通信连接的存储器和处理器，以及存储在所述存储器上并能够在所述处理器上运行的计算机程序，其特征在于：所述处理器运行所述计算机程序时上述的一种用于连续帧的自学习标注方法。

具体的，本实施例还提供了一种计算机系统，该计算机系统包括通过系统总线连接的处理器、存储器、网络接口和数据库；其中，该计算机系统的处理器用于提供计算和控制能力；该计算机系统的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的一种用于连续帧的自学习标注方法。

实施例3

如图4所示，本发明提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的一种用于连续帧的自学习标注方法。

具体的，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种用于连续帧的自学习标注方法，其特征在于，具体包括：

2.如权利要求1所述的自学习标注方法，其特征在于，所述目标物的目标标识域采用人工标注的方式进行确定。

3.如权利要求1所述的自学习标注方法，其特征在于，基于所述目标物图像，确定所述目标物的图像识别模型，并基于所述目标物的图像识别模型对连续帧中的目标物进行识别得到识别结果。

4.如权利要求1所述的自学习标注方法，其特征在于，基于所述标志帧进行所述标志帧中的各物体的图像的提取，并基于所述各物体的图像的面积以及所述标志帧的面积的比值得到所述标志帧中的各物体的面积占比，并将所述面积占比大于设定面积的物体作为备选特征物体，其中所述设定面积根据所述物体的面积占比的平均值进行确定，所述物体的面积占比的平均值越多，则设定面积越大。

5.如权利要求1所述的自学习标注方法，其特征在于，备选特征物体的评估值构建的具体步骤为：

6.如权利要求5所述的自学习标注方法，其特征在于，所述评估值的取值范围在0到1之间，其中所述备选特征物体的评估值越大，则所述备选特征物体的识别准确度越大。

7.如权利要求1所述的自学习标注方法，其特征在于，进行可靠角度值筛选的具体步骤为：

S32基于所述备选角度值所对应的筛选特征物体的评估值的和是确定所述备选角度值是否属于推荐角度值，若是，则则将所述备选角度值作为推荐角度值，并进入步骤S33，若否，则进入步骤S34；

8.如权利要求7所述的自学习标注方法，其特征在于，当所述角度值与所述推荐角度值的差值的绝对值小于设定值时，则确定所述角度值作为相似角度值。

9.一种计算机系统，包括：通信连接的存储器和处理器，以及存储在所述存储器上并能够在所述处理器上运行的计算机程序，其特征在于：所述处理器运行所述计算机程序时执行权利要求1-8任一项所述的一种用于连续帧的自学习标注方法。

10.一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8任一项所述的一种用于连续帧的自学习标注方法。