CN109753975B - 一种训练样本获得方法、装置、电子设备和存储介质 - Google Patents

一种训练样本获得方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN109753975B
CN109753975B CN201910107568.6A CN201910107568A CN109753975B CN 109753975 B CN109753975 B CN 109753975B CN 201910107568 A CN201910107568 A CN 201910107568A CN 109753975 B CN109753975 B CN 109753975B
Authority
CN
China
Prior art keywords
frame
video
target
scene
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910107568.6A
Other languages
English (en)
Other versions
CN109753975A (zh
Inventor
徐青松
李青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ruisheng Software Co Ltd
Original Assignee
Hangzhou Glority Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Glority Software Ltd filed Critical Hangzhou Glority Software Ltd
Priority to CN201910107568.6A priority Critical patent/CN109753975B/zh
Publication of CN109753975A publication Critical patent/CN109753975A/zh
Priority to PCT/CN2020/073396 priority patent/WO2020156361A1/zh
Application granted granted Critical
Publication of CN109753975B publication Critical patent/CN109753975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种训练样本获得方法、装置、电子设备及存储介质,方法包括:获得视频中的场景片段;在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中的所述目标对象所在的目标区域进行标注;提取所述初始帧中被标注的所述目标区域的特征信息;以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注;提取所述场景片段中已标注的各个视频帧的图像作为训练样本。本发明可以解决现有技术中获取图像训练样本效率低、成本高的问题。

Description

一种训练样本获得方法、装置、电子设备和存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种训练样本获得方法、装置、电子设备和计算机可读存储介质。
背景技术
人工智能识别模型的建立需要大量训练样本进行训练,训练样本一般为图片格式。然而,为满足训练要求,通常需要获取大量的图片作为训练样本,并且在进行标注时,需要分别对每张图片进行目标标注,效率较低、成本也比较高。
发明内容
本发明的目的在于提供一种训练样本获得方法、装置、电子设备和计算机可读存储介质,以解决现有技术中获取图像训练样本效率低、成本高的问题。
为解决上述技术问题,本发明提供了一种训练样本获得方法,包括:
获得视频中的场景片段;
在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中的所述目标对象所在的目标区域进行标注;
提取所述初始帧中被标注的所述目标区域的特征信息;
以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注;
提取所述场景片段中已标注的各个视频帧的图像作为训练样本。
可选的,所述获得视频中的场景片段,包括:
若所述视频为单场景视频,则将所述视频作为一个场景片段;
若所述视频为多场景视频,则利用场景切换检测技术,将所述视频划分为多个场景片段。
可选的,所述场景切换检测技术包括:基于像素域的检测算法、基于压缩域的检测算法。
可选的,在所述提取所述初始帧中被标注的所述目标区域的特征信息之前,还包括:
对所述初始帧进行图像预处理,以使所述初始帧中所述目标区域的特征信息更加明显。
可选的,所述目标区域的特征信息,包括:颜色特征、纹理特征和形状特征中的一种或多种。
可选的,所述对所述场景片段中前向和/或后向的视频帧进行特征搜索,包括:
利用均值漂移算法、Kalman滤波算法或粒子滤波算法,对所述场景片段中前向和/或后向的视频帧进行特征搜索。
可选的,所述方法还包括:
如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域,则获取目标特征信息,确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域,并对该被搜索帧中所确定的区域进行自动标注;
其中,所述目标特征信息为:该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。
本发明还提供一种训练样本获得装置,包括:
获得模块,用于获得视频中的场景片段;
第一标注模块,用于在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中的所述目标区域进行标注;
第一提取模块,用于提取所述初始帧中被标注的所述目标区域的特征信息;
第二标注模块,用于以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注;
第二提取模块,用于提取所述场景片段中已标注的各个视频帧的图像作为训练样本。
可选的,所述获得模块,具体用于:
若所述视频为单场景视频,则将所述视频作为一个场景片段;
若所述视频为多场景视频,则利用场景切换检测技术,将所述视频划分为多个场景片段。
可选的,所述场景切换检测技术包括:基于像素域的检测算法、基于压缩域的检测算法。
可选的,所述装置还包括:
预处理模块,用于在所述第一提取模块提取所述初始帧中被标注的所述目标区域的特征信息之前,对所述初始帧进行图像预处理,以使所述初始帧中所述目标区域的特征信息更加明显。
可选的,所述目标区域的特征信息,包括:颜色特征、纹理特征和形状特征中的一种或多种。
可选的,所述第二提取模块对所述场景片段中前向和/或后向的视频帧进行特征搜索,具体为:
利用均值漂移算法、Kalman滤波算法或粒子滤波算法,对所述场景片段中前向和/或后向的视频帧进行特征搜索。
可选的,所述第二提取模块还用于:
如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域,则获取目标特征信息,确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域,并对该被搜索帧中所确定的区域进行自动标注;
其中,所述目标特征信息为:该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。
本发明还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的训练样本获得方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的训练样本获得方法的步骤。
本发明提供的方案,首先对视频的场景片段内的初始帧进行标注,然后使用目标跟踪技术对整个场景片段内其它视频帧进行自动标注,从而获得大量的经过标注的图像作为后期建立目标识别模型的训练样本。现有技术中通过获取大量图片进行人工标注,图片获取以及标注成本较高,而本发明可以拍摄一段视频,标注素材的获取比较方便容易,然后可以从视频中采集大量自动标注的样本,降低了样本标注成本,提高了标注处理效率。
附图说明
图1是本发明一实施例提供的一种训练样本获得方法的流程示意图;
图2是本发明一实施例提供的一种训练样本获得装置的结构示意图;
图3是本发明一实施例提供的电子设备的结构框图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种训练样本获得方法、装置、电子设备和计算机可读存储介质作进一步详细说明。根据权利要求书和下面说明,本发明的优点和特征将更清楚。
为解决现有技术的问题,本发明实施例提供了一种训练样本获得方法、装置、电子设备及计算机可读存储介质。
需要说明的是,本发明实施例的训练样本获得方法可应用于本发明实施例的训练样本获得装置,该训练样本获得装置可被配置于电子设备上。其中,该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。
图1是本发明一实施例提供的一种训练样本获得方法的流程示意图,请参考图1,一种训练样本获得方法可以包括如下步骤:
S101,获得视频中的场景片段。
一个视频一般由一个或多个场景段组成,一个场景由多个视频帧组成。本发明所基于的视频可以是单场景视频,也可以是多场景视频。若所述视频为单场景视频,由于视频中只包含一个场景片段,则可以直接将所述视频作为所获得的一个场景片段,并执行后续的处理步骤。
若所述视频为多场景视频,则可以利用场景切换检测技术,将所述视频划分为多个场景片段。在划分出多个场景片段后,可以仅采用其中的一个场景片段,通过执行后续的处理步骤,得到该场景片段内已标注的各个视频帧的图像作为训练样本,也可以针对每一场景片段均执行后续的处理步骤,从而可以进一步增加所获得的训练样本的数量。
场景切换检测技术,是指找出一个视频中发生场景切换的帧和帧位置,得到的帧位置能用于视频快速和精确剪辑或进一步处理,得到的帧所组成的帧序列可以用于粗略描述整个视频内容。
目前,传统的视频场景切换检测方法一般采用人工提取特征的方式,例如计算相邻帧的颜色直方图相似度,或者直接计算帧差,或者利用视频场景中各帧的高频子带系数的变化程度特征VH(viewportHeight,视窗高度)检测场景切换,其中计算高频子带系数需要用到三维小波变换等算法,这些技术都会计算出一个特征值然后与阈值比较,如果大于阈值或者小于阈值者判定为切换帧。还有一些基于上述技术的自适应阈值算法,例如基于自适应阈值的视频场景变化检测方法,但是该方法中滑动窗大小以及预设阈值还是需要人工设定。
在本发明中,场景切换检测技术可以采用基于像素域的检测算法或基于压缩域的检测算法,根据场景不同设置相应的场景切换阈值,可以提高场景切换检测的速度和准确度。基于像素域或压缩域的检测算法可以参见现有技术,在此不做赘述。
S102,在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中所述目标对象所在的目标区域进行标注。
其中,目标对象可以为感兴趣的物体。对于每一个场景片段可以根据其包含的视频帧进行识别处理,选取一个包含目标对象的视频帧作为初始帧进行标注,可以选择目标对象出现的第一帧作为初始帧,如果第一帧中目标对象的特征不明显,则寻找后续视频帧中目标对象的特征较为明显的一帧作为初始帧。这一步的要求并非十分严格,大概选择较佳的视频帧作为初始帧即可,其目的主要是标注出目标对象所在的目标区域,以便提取目标区域的特征信息,这样可以在后续处理中通过特征搜索在往前或者往后的视频帧中自动标注出特征匹配的区域。
进一步的,在步骤S103提取所述初始帧中被标注的所述目标区域的特征信息之前,还可以对所述初始帧进行图像预处理,如图像去噪、对比度增强等,以使所述初始帧中所述目标区域的特征信息更加明显。
S103,提取所述初始帧中被标注的所述目标区域的特征信息。
所述目标区域的特征信息可以包括:颜色特征、纹理特征和形状特征中的一种或多种。
颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。颜色直方图是最常用的表达颜色特征的方法,它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像,而且它不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响。最常用的颜色空间有RGB颜色空间、HSV颜色空间。颜色直方图特征匹配方法有:直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。
纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属性,所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算。在模式匹配中,这种区域性的特征具有较大的优越性,不会由于局部的偏差而无法匹配成功。作为一种统计特征,纹理特征常具有旋转不变性,并且对于噪声有较强的抵抗能力。
纹理特征的描述方法有:统计方法、几何法、模型法、信号处理法。统计方法的典型代表是一种称为灰度共生矩阵的纹理特征分析方法,Gotlieb和Kreyszig等人在研究共生矩阵中各种统计特征的基础上,通过实验,得出灰度共生矩阵的四个关键特征:能量、惯量、熵和相关性;统计方法中另一种典型方法,则是从图像的自相关函数(即图像的能量谱函数)提取纹理特征,即通过对图像的能量谱函数的计算,提取纹理的粗细度及方向性等特征参数。
几何法,是建立在纹理基元(基本的纹理元素)理论基础上的一种纹理特征分析方法,纹理基元理论认为,复杂的纹理可以由若干简单的纹理基元以一定的有规律的形式重复排列构成,在几何法中,比较有影响的算法有两种:Voronio棋盘格特征法和结构法。
模型法以图像的构造模型为基础,采用模型的参数作为纹理特征。典型的方法是随机场模型法,如马尔可夫(Markov)随机场(MRF)模型法和Gibbs随机场模型法。
在信号处理法中,纹理特征的提取与匹配主要有:灰度共生矩阵、Tamura纹理特征、自回归纹理模型、小波变换等。灰度共生矩阵特征提取与匹配主要依赖于能量、惯量、熵和相关性四个参数。Tamura纹理特征基于人类对纹理的视觉感知心理学研究,提出6种属性,即:粗糙度、对比度、方向度、线像度、规整度和粗略度。自回归纹理模型(simultaneousauto-regressive,SAR)是马尔可夫随机场(Markov Random Field,MRF)模型的一种应用实例。
形状特征的特点是:各种基于形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索。通常情况下,形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。
首先,几种典型的形状特征描述方法有:边界特征法、傅里叶形状描述符法、几何参数法、形状不变矩法。
边界特征法,该方法通过对边界特征的描述来获取图像的形状参数。其中Hough变换检测平行直线方法和边界方向直方图方法是经典方法。Hough变换是利用图像全局特性而将边缘像素连接起来组成区域封闭边界的一种方法,其基本思想是点—线的对偶性;边界方向直方图法首先微分图像求得图像边缘,然后,做出关于边缘大小和方向的直方图,通常的方法是构造图像灰度梯度方向矩阵。
傅里叶形状描述符(Fourier shape descriptors)法的基本思想是用物体边界的傅里叶变换作为形状描述,利用区域边界的封闭性和周期性,将二维问题转化为一维问题。由边界点导出三种形状表达,分别是曲率函数、质心距离、复坐标函数。
几何参数法,是形状的表达和匹配所采用的更为简单的区域特征描述方法,例如采用有关形状定量测度(如矩、面积、周长等)的形状参数法(shape factor)。在QBIC系统(一种基于内容的图像检索系统)中,便是利用圆度、偏心率、主轴方向和代数不变矩等几何参数,进行基于形状特征的图像检索。需要说明的是,形状参数的提取,必须以图像处理及图像分割为前提,参数的准确性必然受到分割效果的影响,对分割效果很差的图像,形状参数甚至无法提取。
形状不变矩法,是利用目标所占区域的矩作为形状描述参数。
另外,在形状特征的表示和匹配方面,还包括有限元法(Finite Element Method,FEM)、旋转函数(Turning Function)和小波描述符(Wavelet Descriptor)等方法。
其次,基于小波和相对矩的形状特征提取与匹配方法,该方法先用小波变换模极大值得到多尺度边缘图像,然后计算每一尺度的7个不变矩,再转化为10个相对矩,将所有尺度上的相对矩作为图像特征向量,从而统一了区域和封闭、不封闭结构。
S104,以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注。
即,根据从初始帧提取的特征信息,对场景片段中的视频帧进行前向和/或后向特征搜索,确定各个被搜索帧中能够匹配从初始帧提取的特征信息的区域,进而对匹配的区域进行自动标注,实现了在所述场景片段中的目标跟踪和自动标注。另外,在进行特征搜索前,还可以对各个被搜索视频帧进行预处理,如图像去噪、对比度增强等,以使各个被搜索帧中相匹配的区域的特征信息更加明显。
实际应用中,可使用均值漂移、Kalman滤波、粒子滤波等算法进行特征搜索。
均值漂移算法是一种基于密度梯度上升的非参数方法,通过迭代运算找到目标位置,实现目标跟踪。所谓跟踪,就是通过已知的图像帧中目标的位置找到目标在下一帧中的位置。均值漂移算法显著的优点是算法计算量小,简单易实现,很适合于实时跟踪场合。通过实验提出应用核直方图来计算目标分布,证明了均值漂移算法具有很好的实时性特点。均值漂移在聚类、图像平滑、分割、跟踪等方面有着广泛的应用。
均值漂移算法以迭代的方式锁定概率函数的局部最大值。比如有一个矩形窗口将一幅图像的某个部分框住,原理就是寻找预定义窗口中数据点的重心,或者说加权平均值。该算法将窗口中心移动到数据点的重心处,并重复这个过程直到窗口重心收敛到一个稳定点。因此,迭代完成的结果的好与坏取决于输入的概率图(上述中的预定义窗口)和它的初始位置。
均值漂移算法的整个跟踪步骤包括:设置初始跟踪目标,即框住待跟踪目标;获取待跟踪目标的HSV中的色度H通道图像的直方图;待跟踪直方图归一化;到新的数据帧图像中反投影待跟踪直方图;均值漂移,更新跟踪位置。
Kalman(卡尔曼)滤波:可以克服维纳滤波需要无限过去的数据而难以保证实时性的这一缺点。要使得最后真实结果和滤波结果完全相等是不可能,只能做到近似,Kalman滤波选择最小均方误差为准则,并引入了状态空间模型来进行递推估计。在涉及目标跟踪的导航、雷达、监控等领域中经常使用卡尔曼滤波器。其基本过程是:采用信号与噪声的状态空间模型,以“预测-实测-修正”顺序递推,利用前一时刻的信息对现时刻的状态变量进行估计,并以现时刻的真实观测值对前一时刻的模型进行调整。卡尔曼滤波的一个典型应用就是从有限的包含目标位置、噪声的观测值中预测出目标的下一时刻的状态。在监控视频中,目标跟踪就是在从当前帧检测出的多个前景块中选出与已确定目标相对应的目标,从而得到目标的运动轨迹的过程。在此过程中利用卡尔曼滤波器来预测位置和目标中心的变化,再通过多特征的匹配对目标进行精确定位,这就是卡尔曼滤波的目标跟踪。总的来说,用卡尔曼滤波器实现对目标的跟踪主要分为四步走:第一步根据目标检测的结果,计算目标的中心、SIFT特征、颜色直方图等特征点;第二步根据目标在下一帧的卡尔曼预测位置设置预测区域,在此区域内选取符合条件的候选目标逐个进行匹配;第三步分别对SIFT特征、颜色直方图、目标中心等特征定义相似性函数,选取最佳匹配目标;第四步根据目标的状态(如正常跟踪、跟踪丢失、融合分裂、目标进入退出)对Kalman滤波器参数进行优化。
粒子滤波,是通过非参数化的蒙特卡洛(Monte Carlo)模拟方法来实现递推贝叶斯滤波,适用于任何能用状态空间模型描述的非线性系统,精度可以逼近最优估计。粒子滤波器具有简单、易于实现等特点,它为分析非线性动态系统提供了一种有效的解决方法,从而广泛应用于目标跟踪、信号处理以及自动控制等领域。粒子滤波算法的核心思想是利用一系列随机样本的加权和近似后验概率密度函数,通过求和来近似积分操作。该算法源于Monte Carlo思想,即以某事件出现的频率来指代该事件的概率。因此在滤波过程中,需要用到概率的地方,一概对变量采样,以大量采样及其相应的权值来近似表示概率密度函数。其中最普遍的粒子滤波算法为SIR(Samping Importance Resampling)滤波器,该算法通过以下四步完成:
1)预测阶段:粒子滤波首先根据状态转移函数预测生成大量的采样,这些采样就称之为粒子,利用这些粒子的加权和来逼近后验概率密度;
2)校正阶段:随着观测值的依次到达,为每个粒子计算相应的重要性权值,这个权值代表了预测的位姿取第i个粒子时获得观测的概率。如此这般下来,对所有粒子都进行这样一个评价,越有可能获得观测的粒子,获得的权重越高;
3)重采样阶段:根据权值的比例重新分布采样粒子,由于近似逼近连续分布的粒子数量有限,因此这个步骤非常重要。下一轮滤波中,再将重采样过后的粒子集输入到状态转移方程中,就能够获得新的预测粒子了;
4)地图估计:对于每个采样的粒子,通过其采样的轨迹与观测计算出相应的地图估计。
进一步的,如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域,则获取目标特征信息,确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域,并对该被搜索帧中所确定的区域进行自动标注;其中,所述目标特征信息为:该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。即,如果某一被搜索帧未匹配到从初始帧提取的特征信息,则使用相邻几帧已成功匹配到的区域的特征信息,对该被搜索帧再次进行特征匹配并标注。
可以理解的是,当某一被搜索帧没有匹配到从初始帧提取的特征,说明目标对象在当前帧(即该被搜索帧)中的特征变化超过了阈值而无法匹配,这时可以从当前帧的前一帧或几帧中选择与初始帧的特征成功匹配的帧,根据所选择的帧中已被标注区域的特征信息,对当前帧再次进行特征匹配以及自动标注。如果当前帧的前几帧中已被标注区域的特征信息都无法与当前帧相匹配,则可以从当前帧的后一帧或者几帧中选择与初始帧的特征成功匹配的帧,对当前帧再次进行特征匹配以及自动标注。另外,如果当前帧是当前场景片段的最后一帧,则可以利用下一个场景片段的视频帧进行特征匹配,同理,若当前帧是当前场景片段的的第一帧,则可以在前一个场景片段中进行特征匹配。如果依然找不到匹配特征,则可以将当前帧的前后帧的特征点坐标的中值作为当前帧的特征点坐标,然后通过人工处理调整标注当前帧中的区域。
如果当前有连续几帧均没有匹配到从初始帧提取的特征,则可以先预估这连续几帧的中间帧的特征点坐标,再依次预估前后帧和中间帧的中值帧坐标,直到全部帧都完成预估,然后通过人工处理调整标注这连续几帧中的区域;也可以在预估中间帧的特征点坐标后,先进行人工调整标注中间帧中的区域,然后提取中间帧中新标注区域的特征信息,再对前后帧进行目标自动匹配标注处理。
S105,提取所述场景片段中已标注的各个视频帧的图像作为训练样本。
在对场景片段中的各个视频帧进行标注后,可以将已标注的各个视频帧的图像提取出来,作为训练样本。由于场景片段中包含大量的视频帧,因此,基于每个场景片段可以获得大量的已标注的图像训练样本。
综上所述,本发明提供的方案,首先对视频的场景片段内的初始帧进行标注,然后使用目标跟踪技术对整个场景片段内其它视频帧进行自动标注,从而获得大量的经过标注的图像作为后期建立目标识别模型的训练样本。现有技术中通过获取大量图片进行人工标注,图片获取以及标注成本较高,而本发明可以利用拍摄一段视频,素材的获取比较方便容易,然后可以从视频中采集大量自动标注的样本,降低了样本标注成本,提高了标注处理效率。
与上述的训练样本获得方法相对应,本发明还提供了一种训练样本获得装置,如图2所示,所述装置包括:
获得模块201,用于获得视频中的场景片段;
第一标注模块202,用于在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中的所述目标对象所在的目标区域进行标注;
第一提取模块203,用于提取所述初始帧中被标注的所述目标区域的特征信息;
第二标注模块204,用于以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注;
第二提取模块205,用于提取所述场景片段中已标注的各个视频帧的图像作为训练样本。
可选的,所述获得模块201,具体用于:
若所述视频为单场景视频,则将所述视频作为一个场景片段;
若所述视频为多场景视频,则利用场景切换检测技术,将所述视频划分为多个场景片段。
可选的,所述场景切换检测技术包括:基于像素域的检测算法、基于压缩域的检测算法。
可选的,所述装置还包括:
预处理模块,用于在所述第一提取模块203提取所述初始帧中被标注的所述目标区域的特征信息之前,对所述初始帧进行图像预处理,以使所述初始帧中所述目标区域的特征信息更加明显。
可选的,所述目标区域的特征信息,包括:颜色特征、纹理特征和形状特征中的一种或多种。
可选的,所述第二提取模块204对所述场景片段中前向和/或后向的视频帧进行特征搜索,具体为:
利用均值漂移算法、Kalman滤波算法或粒子滤波算法,对所述场景片段中前向和/或后向的视频帧进行特征搜索。
可选的,所述第二提取模块204还用于:
如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域,则获取目标特征信息,确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域,并对该被搜索帧中所确定的区域进行自动标注;
其中,所述目标特征信息为:该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。
本发明还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301、通信接口302、存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获得视频中的场景片段;
在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中的所述目标对象所在的目标区域进行标注;
提取所述初始帧中被标注的所述目标区域的特征信息;
以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注;
提取所述场景片段中已标注的各个视频帧的图像作为训练样本。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
另外,处理器301执行存储器303上所存放的程序而实现的训练样本获得方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(RandomAccess Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述的训练样本获得方法的方法步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (16)

1.一种训练样本获得方法,其特征在于,包括:
获得视频中的场景片段;
在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中所述目标对象所在的目标区域进行标注;
提取所述初始帧中被标注的所述目标区域的特征信息;
以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注;如果当前有连续多帧均不存在特征信息与所述目标区域的特征信息相匹配的区域,则先预估所述连续多帧的中间帧的特征点坐标,再依次预估前后帧和所述中间帧的中值帧坐标,直到所述连续多帧全部都完成预估,然后调整标注所述连续多帧中的区域,或者,在预估所述中间帧的特征点坐标后,先调整标注所述中间帧中的区域,然后提取所述中间帧中新标注区域的特征信息,再对前后帧进行目标自动匹配标注处理;
提取所述场景片段中已标注的各个视频帧的图像作为训练样本。
2.如权利要求1所述的训练样本获得方法,其特征在于,所述获得视频中的场景片段,包括:
若所述视频为单场景视频,则将所述视频作为一个场景片段;
若所述视频为多场景视频,则利用场景切换检测技术,将所述视频划分为多个场景片段。
3.如权利要求2所述的训练样本获得方法,其特征在于,所述场景切换检测技术包括:基于像素域的检测算法、基于压缩域的检测算法。
4.如权利要求1所述的训练样本获得方法,其特征在于,在所述提取所述初始帧中被标注的所述目标区域的特征信息之前,还包括:
对所述初始帧进行图像预处理,以使所述初始帧中所述目标区域的特征信息更加明显。
5.如权利要求1所述的训练样本获得方法,其特征在于,所述目标区域的特征信息,包括:颜色特征、纹理特征和形状特征中的一种或多种。
6.如权利要求1所述的训练样本获得方法,其特征在于,所述对所述场景片段中前向和/或后向的视频帧进行特征搜索,包括:
利用均值漂移算法、Kalman滤波算法或粒子滤波算法,对所述场景片段中前向和/或后向的视频帧进行特征搜索。
7.如权利要求1所述的训练样本获得方法,其特征在于,所述方法还包括:
如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域,则获取目标特征信息,确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域,并对该被搜索帧中所确定的区域进行自动标注;
其中,所述目标特征信息为:该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。
8.一种训练样本获得装置,其特征在于,包括:
获得模块,用于获得视频中的场景片段;
第一标注模块,用于在所述场景片段中选择一个包含目标对象的视频帧作为初始帧,对所述初始帧中的所述目标对象所在的目标区域进行标注;
第一提取模块,用于提取所述初始帧中被标注的所述目标区域的特征信息;
第二标注模块,用于以所述初始帧为基准,对所述场景片段中前向和/或后向的视频帧进行特征搜索,确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域,并对各个被搜索帧中所确定的区域进行自动标注;如果当前有连续多帧均不存在特征信息与所述目标区域的特征信息相匹配的区域,则先预估所述连续多帧的中间帧的特征点坐标,再依次预估前后帧和所述中间帧的中值帧坐标,直到所述连续多帧全部都完成预估,然后调整标注所述连续多帧中的区域,或者,在预估所述中间帧的特征点坐标后,先调整标注所述中间帧中的区域,然后提取所述中间帧中新标注区域的特征信息,再对前后帧进行目标自动匹配标注处理;
第二提取模块,用于提取所述场景片段中已标注的各个视频帧的图像作为训练样本。
9.如权利要求8所述的训练样本获得装置,其特征在于,所述获得模块,具体用于:
若所述视频为单场景视频,则将所述视频作为一个场景片段;
若所述视频为多场景视频,则利用场景切换检测技术,将所述视频划分为多个场景片段。
10.如权利要求9所述的训练样本获得装置,其特征在于,所述场景切换检测技术包括:基于像素域的检测算法、基于压缩域的检测算法。
11.如权利要求8所述的训练样本获得装置,其特征在于,所述装置还包括:
预处理模块,用于在所述第一提取模块提取所述初始帧中被标注的所述目标区域的特征信息之前,对所述初始帧进行图像预处理,以使所述初始帧中所述目标区域的特征信息更加明显。
12.如权利要求8所述的训练样本获得装置,其特征在于,所述目标区域的特征信息,包括:颜色特征、纹理特征和形状特征中的一种或多种。
13.如权利要求8所述的训练样本获得装置,其特征在于,所述第二提取模块对所述场景片段中前向和/或后向的视频帧进行特征搜索,具体为:
利用均值漂移算法、Kalman滤波算法或粒子滤波算法,对所述场景片段中前向和/或后向的视频帧进行特征搜索。
14.如权利要求8所述的训练样本获得装置,其特征在于,所述第二提取模块还用于:
如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域,则获取目标特征信息,确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域,并对该被搜索帧中所确定的区域进行自动标注;
其中,所述目标特征信息为:该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。
CN201910107568.6A 2019-02-02 2019-02-02 一种训练样本获得方法、装置、电子设备和存储介质 Active CN109753975B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910107568.6A CN109753975B (zh) 2019-02-02 2019-02-02 一种训练样本获得方法、装置、电子设备和存储介质
PCT/CN2020/073396 WO2020156361A1 (zh) 2019-02-02 2020-01-21 一种训练样本获得方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910107568.6A CN109753975B (zh) 2019-02-02 2019-02-02 一种训练样本获得方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN109753975A CN109753975A (zh) 2019-05-14
CN109753975B true CN109753975B (zh) 2021-03-09

Family

ID=66407340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910107568.6A Active CN109753975B (zh) 2019-02-02 2019-02-02 一种训练样本获得方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN109753975B (zh)
WO (1) WO2020156361A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753975B (zh) * 2019-02-02 2021-03-09 杭州睿琪软件有限公司 一种训练样本获得方法、装置、电子设备和存储介质
CN110503074B (zh) * 2019-08-29 2022-04-15 腾讯科技(深圳)有限公司 视频帧的信息标注方法、装置、设备及存储介质
CN110796041B (zh) 2019-10-16 2023-08-18 Oppo广东移动通信有限公司 主体识别方法和装置、电子设备、计算机可读存储介质
CN110796098B (zh) * 2019-10-31 2021-07-27 广州市网星信息技术有限公司 内容审核模型的训练及审核方法、装置、设备和存储介质
CN110826509A (zh) * 2019-11-12 2020-02-21 云南农业大学 一种基于高分遥感影像的草原围栏信息提取系统及方法
CN111191708A (zh) * 2019-12-25 2020-05-22 浙江省北大信息技术高等研究院 自动化样本关键点标注方法、装置及系统
CN111428589B (zh) * 2020-03-11 2023-05-30 新华智云科技有限公司 一种渐变转场的识别方法及系统
CN111497847B (zh) * 2020-04-23 2021-11-16 江苏黑麦数据科技有限公司 车辆的控制方法和装置
CN112233171A (zh) * 2020-09-03 2021-01-15 上海眼控科技股份有限公司 目标标注质量检验方法、装置、计算机设备和存储介质
CN112307908B (zh) * 2020-10-15 2022-07-26 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112257659B (zh) * 2020-11-11 2024-04-05 四川云从天府人工智能科技有限公司 检测跟踪方法、装置以及介质
CN112801940A (zh) * 2020-12-31 2021-05-14 深圳市联影高端医疗装备创新研究院 模型评测方法、装置、设备及介质
CN112784750B (zh) * 2021-01-22 2022-08-09 清华大学 基于像素和区域特征匹配的快速视频物体分割方法和装置
CN113225461A (zh) * 2021-02-04 2021-08-06 江西方兴科技有限公司 一种检测视频监控场景切换的系统及方法
CN113254703A (zh) * 2021-05-12 2021-08-13 北京百度网讯科技有限公司 视频匹配方法、视频处理方法、装置、电子设备及介质
CN115482426A (zh) * 2021-06-16 2022-12-16 华为云计算技术有限公司 视频标注方法、装置、计算设备和计算机可读存储介质
CN113378958A (zh) * 2021-06-24 2021-09-10 北京百度网讯科技有限公司 自动标注方法、装置、设备、存储介质及计算机程序产品
CN113610030A (zh) * 2021-08-13 2021-11-05 北京地平线信息技术有限公司 行为识别方法和行为识别装置
CN113762286A (zh) * 2021-09-16 2021-12-07 平安国际智慧城市科技股份有限公司 数据模型训练方法、装置、设备及介质
CN114347030A (zh) * 2022-01-13 2022-04-15 中通服创立信息科技有限责任公司 机器人视觉跟随方法及视觉跟随机器人
CN114697702B (zh) * 2022-03-23 2024-01-30 咪咕文化科技有限公司 音视频标记方法、装置、设备及存储介质
CN115499666B (zh) * 2022-11-18 2023-03-24 腾讯科技(深圳)有限公司 视频的压缩方法、解压缩方法、装置、设备和存储介质
CN115620210B (zh) * 2022-11-29 2023-03-21 广东祥利科技有限公司 基于图像处理的电子线料的性能确定方法及系统
CN117237418B (zh) * 2023-11-15 2024-01-23 成都航空职业技术学院 一种基于深度学习的运动目标检测方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218603A (zh) * 2013-04-03 2013-07-24 哈尔滨工业大学深圳研究生院 一种人脸自动标注方法及系统
CN107886105A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注装置
CN107886104A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注方法
CN108229285A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 物体分类方法、物体分类器的训练方法、装置和电子设备
CN108596958A (zh) * 2018-05-10 2018-09-28 安徽大学 一种基于困难正样本生成的目标跟踪方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835542B2 (en) * 2005-12-29 2010-11-16 Industrial Technology Research Institute Object tracking systems and methods utilizing compressed-domain motion-based segmentation
CN103559237B (zh) * 2013-10-25 2017-02-15 南京大学 基于目标跟踪的半自动图像标注样本生成方法
CN103970906B (zh) * 2014-05-27 2017-07-04 百度在线网络技术(北京)有限公司 视频标签的建立方法和装置、视频内容的显示方法和装置
CN108520218A (zh) * 2018-03-29 2018-09-11 深圳市芯汉感知技术有限公司 一种基于目标跟踪算法的舰船样本收集方法
CN108986134B (zh) * 2018-08-17 2021-06-18 浙江捷尚视觉科技股份有限公司 一种基于相关滤波跟踪的视频目标半自动标注方法
CN109753975B (zh) * 2019-02-02 2021-03-09 杭州睿琪软件有限公司 一种训练样本获得方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218603A (zh) * 2013-04-03 2013-07-24 哈尔滨工业大学深圳研究生院 一种人脸自动标注方法及系统
CN107886105A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注装置
CN107886104A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注方法
CN108229285A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 物体分类方法、物体分类器的训练方法、装置和电子设备
CN108596958A (zh) * 2018-05-10 2018-09-28 安徽大学 一种基于困难正样本生成的目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于目标跟踪的半自动图像标注样本生成方法;郭乔进 等;《信息化研究》;20151031;第41卷(第5期);第23-27页 *

Also Published As

Publication number Publication date
WO2020156361A1 (zh) 2020-08-06
CN109753975A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109753975B (zh) 一种训练样本获得方法、装置、电子设备和存储介质
EP1975879B1 (en) Computer implemented method for tracking object in sequence of frames of video
EP2676224B1 (en) Image quality assessment
CN111814810A (zh) 图像识别方法、装置、电子设备及存储介质
CN108510499B (zh) 一种基于模糊集和Otsu的图像阈值分割方法及装置
Patil et al. Msednet: multi-scale deep saliency learning for moving object detection
CN106157330B (zh) 一种基于目标联合外观模型的视觉跟踪方法
CN110532413B (zh) 基于图片匹配的信息检索方法、装置、计算机设备
KR20190082593A (ko) 영상 처리에 있어서의 객체 재인식을 위한 장치 및 방법
JP2008217706A (ja) ラベリング装置、ラベリング方法及びプログラム
Goyal et al. Texture-based self-adaptive moving object detection technique for complex scenes
Meher et al. Efficient method of moving shadow detection and vehicle classification
CN109426793A (zh) 一种图像行为识别方法、设备及计算机可读存储介质
Song et al. Feature extraction and target recognition of moving image sequences
CN108765463B (zh) 一种结合区域提取与改进纹理特征的运动目标检测方法
CN105844299B (zh) 一种基于词袋模型的图像分类方法
Elashry et al. Feature matching enhancement using the graph neural network (gnn-ransac)
Wang et al. Texture-based segmentation for extracting image shape features
CN112686222B (zh) 星载可见光探测器对船舶目标检测的方法和系统
Mohanapriya et al. A novel foreground region analysis using NCP-DBP texture pattern for robust visual tracking
Dadgostar et al. Gesture-based human–machine interfaces: a novel approach for robust hand and face tracking
Wu et al. Learning distance metric for object contour tracking
CN107220985B (zh) 基于图划分粒子群优化的sar图像自动分割方法
Bhan et al. Supervised segmentation of overlapping cervical pap smear images
Kurbatova et al. Detection of roads from images based on edge segmentation and morphological operations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220428

Address after: 310053 room d3189, North third floor, building 1, 368 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Ruisheng Software Co.,Ltd.

Address before: Room B2019, 2nd floor, building 1 (North), 368 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province, 310053

Patentee before: HANGZHOU GLORITY SOFTWARE Ltd.