CN109753975B

CN109753975B - 一种训练样本获得方法、装置、电子设备和存储介质

Info

Publication number: CN109753975B
Application number: CN201910107568.6A
Authority: CN
Inventors: 徐青松; 李青
Original assignee: Hangzhou Glority Software Ltd
Current assignee: Hangzhou Ruisheng Software Co Ltd
Priority date: 2019-02-02
Filing date: 2019-02-02
Publication date: 2021-03-09
Anticipated expiration: 2039-02-02
Also published as: WO2020156361A1; CN109753975A

Abstract

本发明提供了一种训练样本获得方法、装置、电子设备及存储介质，方法包括：获得视频中的场景片段；在所述场景片段中选择一个包含目标对象的视频帧作为初始帧，对所述初始帧中的所述目标对象所在的目标区域进行标注；提取所述初始帧中被标注的所述目标区域的特征信息；以所述初始帧为基准，对所述场景片段中前向和/或后向的视频帧进行特征搜索，确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域，并对各个被搜索帧中所确定的区域进行自动标注；提取所述场景片段中已标注的各个视频帧的图像作为训练样本。本发明可以解决现有技术中获取图像训练样本效率低、成本高的问题。

Description

一种训练样本获得方法、装置、电子设备和存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种训练样本获得方法、装置、电子设备和计算机可读存储介质。

背景技术

人工智能识别模型的建立需要大量训练样本进行训练，训练样本一般为图片格式。然而，为满足训练要求，通常需要获取大量的图片作为训练样本，并且在进行标注时，需要分别对每张图片进行目标标注，效率较低、成本也比较高。

发明内容

本发明的目的在于提供一种训练样本获得方法、装置、电子设备和计算机可读存储介质，以解决现有技术中获取图像训练样本效率低、成本高的问题。

为解决上述技术问题，本发明提供了一种训练样本获得方法，包括：

获得视频中的场景片段；

在所述场景片段中选择一个包含目标对象的视频帧作为初始帧，对所述初始帧中的所述目标对象所在的目标区域进行标注；

提取所述初始帧中被标注的所述目标区域的特征信息；

以所述初始帧为基准，对所述场景片段中前向和/或后向的视频帧进行特征搜索，确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域，并对各个被搜索帧中所确定的区域进行自动标注；

提取所述场景片段中已标注的各个视频帧的图像作为训练样本。

可选的，所述获得视频中的场景片段，包括：

若所述视频为单场景视频，则将所述视频作为一个场景片段；

若所述视频为多场景视频，则利用场景切换检测技术，将所述视频划分为多个场景片段。

可选的，所述场景切换检测技术包括：基于像素域的检测算法、基于压缩域的检测算法。

可选的，在所述提取所述初始帧中被标注的所述目标区域的特征信息之前，还包括：

对所述初始帧进行图像预处理，以使所述初始帧中所述目标区域的特征信息更加明显。

可选的，所述目标区域的特征信息，包括：颜色特征、纹理特征和形状特征中的一种或多种。

可选的，所述对所述场景片段中前向和/或后向的视频帧进行特征搜索，包括：

利用均值漂移算法、Kalman滤波算法或粒子滤波算法，对所述场景片段中前向和/或后向的视频帧进行特征搜索。

可选的，所述方法还包括：

如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域，则获取目标特征信息，确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域，并对该被搜索帧中所确定的区域进行自动标注；

其中，所述目标特征信息为：该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。

本发明还提供一种训练样本获得装置，包括：

获得模块，用于获得视频中的场景片段；

第一标注模块，用于在所述场景片段中选择一个包含目标对象的视频帧作为初始帧，对所述初始帧中的所述目标区域进行标注；

第一提取模块，用于提取所述初始帧中被标注的所述目标区域的特征信息；

第二标注模块，用于以所述初始帧为基准，对所述场景片段中前向和/或后向的视频帧进行特征搜索，确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域，并对各个被搜索帧中所确定的区域进行自动标注；

第二提取模块，用于提取所述场景片段中已标注的各个视频帧的图像作为训练样本。

可选的，所述获得模块，具体用于：

可选的，所述装置还包括：

预处理模块，用于在所述第一提取模块提取所述初始帧中被标注的所述目标区域的特征信息之前，对所述初始帧进行图像预处理，以使所述初始帧中所述目标区域的特征信息更加明显。

可选的，所述第二提取模块对所述场景片段中前向和/或后向的视频帧进行特征搜索，具体为：

可选的，所述第二提取模块还用于：

本发明还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一项所述的训练样本获得方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的训练样本获得方法的步骤。

本发明提供的方案，首先对视频的场景片段内的初始帧进行标注，然后使用目标跟踪技术对整个场景片段内其它视频帧进行自动标注，从而获得大量的经过标注的图像作为后期建立目标识别模型的训练样本。现有技术中通过获取大量图片进行人工标注，图片获取以及标注成本较高，而本发明可以拍摄一段视频，标注素材的获取比较方便容易，然后可以从视频中采集大量自动标注的样本，降低了样本标注成本，提高了标注处理效率。

附图说明

图1是本发明一实施例提供的一种训练样本获得方法的流程示意图；

图2是本发明一实施例提供的一种训练样本获得装置的结构示意图；

图3是本发明一实施例提供的电子设备的结构框图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种训练样本获得方法、装置、电子设备和计算机可读存储介质作进一步详细说明。根据权利要求书和下面说明，本发明的优点和特征将更清楚。

为解决现有技术的问题，本发明实施例提供了一种训练样本获得方法、装置、电子设备及计算机可读存储介质。

需要说明的是，本发明实施例的训练样本获得方法可应用于本发明实施例的训练样本获得装置，该训练样本获得装置可被配置于电子设备上。其中，该电子设备可以是个人计算机、移动终端等，该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。

图1是本发明一实施例提供的一种训练样本获得方法的流程示意图，请参考图1，一种训练样本获得方法可以包括如下步骤：

S101，获得视频中的场景片段。

一个视频一般由一个或多个场景段组成，一个场景由多个视频帧组成。本发明所基于的视频可以是单场景视频，也可以是多场景视频。若所述视频为单场景视频，由于视频中只包含一个场景片段，则可以直接将所述视频作为所获得的一个场景片段，并执行后续的处理步骤。

若所述视频为多场景视频，则可以利用场景切换检测技术，将所述视频划分为多个场景片段。在划分出多个场景片段后，可以仅采用其中的一个场景片段，通过执行后续的处理步骤，得到该场景片段内已标注的各个视频帧的图像作为训练样本，也可以针对每一场景片段均执行后续的处理步骤，从而可以进一步增加所获得的训练样本的数量。

场景切换检测技术，是指找出一个视频中发生场景切换的帧和帧位置，得到的帧位置能用于视频快速和精确剪辑或进一步处理，得到的帧所组成的帧序列可以用于粗略描述整个视频内容。

目前，传统的视频场景切换检测方法一般采用人工提取特征的方式，例如计算相邻帧的颜色直方图相似度，或者直接计算帧差，或者利用视频场景中各帧的高频子带系数的变化程度特征VH(viewportHeight，视窗高度)检测场景切换，其中计算高频子带系数需要用到三维小波变换等算法，这些技术都会计算出一个特征值然后与阈值比较，如果大于阈值或者小于阈值者判定为切换帧。还有一些基于上述技术的自适应阈值算法，例如基于自适应阈值的视频场景变化检测方法，但是该方法中滑动窗大小以及预设阈值还是需要人工设定。

在本发明中，场景切换检测技术可以采用基于像素域的检测算法或基于压缩域的检测算法，根据场景不同设置相应的场景切换阈值，可以提高场景切换检测的速度和准确度。基于像素域或压缩域的检测算法可以参见现有技术，在此不做赘述。

S102，在所述场景片段中选择一个包含目标对象的视频帧作为初始帧，对所述初始帧中所述目标对象所在的目标区域进行标注。

其中，目标对象可以为感兴趣的物体。对于每一个场景片段可以根据其包含的视频帧进行识别处理，选取一个包含目标对象的视频帧作为初始帧进行标注，可以选择目标对象出现的第一帧作为初始帧，如果第一帧中目标对象的特征不明显，则寻找后续视频帧中目标对象的特征较为明显的一帧作为初始帧。这一步的要求并非十分严格，大概选择较佳的视频帧作为初始帧即可，其目的主要是标注出目标对象所在的目标区域，以便提取目标区域的特征信息，这样可以在后续处理中通过特征搜索在往前或者往后的视频帧中自动标注出特征匹配的区域。

进一步的，在步骤S103提取所述初始帧中被标注的所述目标区域的特征信息之前，还可以对所述初始帧进行图像预处理，如图像去噪、对比度增强等，以使所述初始帧中所述目标区域的特征信息更加明显。

S103，提取所述初始帧中被标注的所述目标区域的特征信息。

所述目标区域的特征信息可以包括：颜色特征、纹理特征和形状特征中的一种或多种。

颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征，此时所有属于图像或图像区域的像素都有各自的贡献。颜色直方图是最常用的表达颜色特征的方法，它能简单描述一幅图像中颜色的全局分布，即不同色彩在整幅图像中所占的比例，特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像，而且它不受图像旋转和平移变化的影响，进一步借助归一化还可不受图像尺度变化的影响。最常用的颜色空间有RGB颜色空间、HSV颜色空间。颜色直方图特征匹配方法有：直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。

纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性，并不能完全反映出物体的本质属性，所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同，纹理特征不是基于像素点的特征，它需要在包含多个像素点的区域中进行统计计算。在模式匹配中，这种区域性的特征具有较大的优越性，不会由于局部的偏差而无法匹配成功。作为一种统计特征，纹理特征常具有旋转不变性，并且对于噪声有较强的抵抗能力。

纹理特征的描述方法有：统计方法、几何法、模型法、信号处理法。统计方法的典型代表是一种称为灰度共生矩阵的纹理特征分析方法，Gotlieb和Kreyszig等人在研究共生矩阵中各种统计特征的基础上，通过实验，得出灰度共生矩阵的四个关键特征：能量、惯量、熵和相关性；统计方法中另一种典型方法，则是从图像的自相关函数(即图像的能量谱函数)提取纹理特征，即通过对图像的能量谱函数的计算，提取纹理的粗细度及方向性等特征参数。

几何法，是建立在纹理基元(基本的纹理元素)理论基础上的一种纹理特征分析方法，纹理基元理论认为，复杂的纹理可以由若干简单的纹理基元以一定的有规律的形式重复排列构成，在几何法中，比较有影响的算法有两种：Voronio棋盘格特征法和结构法。

模型法以图像的构造模型为基础，采用模型的参数作为纹理特征。典型的方法是随机场模型法，如马尔可夫(Markov)随机场(MRF)模型法和Gibbs随机场模型法。

在信号处理法中，纹理特征的提取与匹配主要有：灰度共生矩阵、Tamura纹理特征、自回归纹理模型、小波变换等。灰度共生矩阵特征提取与匹配主要依赖于能量、惯量、熵和相关性四个参数。Tamura纹理特征基于人类对纹理的视觉感知心理学研究，提出6种属性，即：粗糙度、对比度、方向度、线像度、规整度和粗略度。自回归纹理模型(simultaneousauto-regressive，SAR)是马尔可夫随机场(Markov Random Field，MRF)模型的一种应用实例。

形状特征的特点是：各种基于形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索。通常情况下，形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征。图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。

首先，几种典型的形状特征描述方法有：边界特征法、傅里叶形状描述符法、几何参数法、形状不变矩法。

边界特征法，该方法通过对边界特征的描述来获取图像的形状参数。其中Hough变换检测平行直线方法和边界方向直方图方法是经典方法。Hough变换是利用图像全局特性而将边缘像素连接起来组成区域封闭边界的一种方法，其基本思想是点—线的对偶性；边界方向直方图法首先微分图像求得图像边缘，然后，做出关于边缘大小和方向的直方图，通常的方法是构造图像灰度梯度方向矩阵。

傅里叶形状描述符(Fourier shape descriptors)法的基本思想是用物体边界的傅里叶变换作为形状描述，利用区域边界的封闭性和周期性，将二维问题转化为一维问题。由边界点导出三种形状表达，分别是曲率函数、质心距离、复坐标函数。

几何参数法，是形状的表达和匹配所采用的更为简单的区域特征描述方法，例如采用有关形状定量测度(如矩、面积、周长等)的形状参数法(shape factor)。在QBIC系统(一种基于内容的图像检索系统)中，便是利用圆度、偏心率、主轴方向和代数不变矩等几何参数，进行基于形状特征的图像检索。需要说明的是，形状参数的提取，必须以图像处理及图像分割为前提，参数的准确性必然受到分割效果的影响，对分割效果很差的图像，形状参数甚至无法提取。

形状不变矩法，是利用目标所占区域的矩作为形状描述参数。

另外，在形状特征的表示和匹配方面，还包括有限元法(Finite Element Method，FEM)、旋转函数(Turning Function)和小波描述符(Wavelet Descriptor)等方法。

其次，基于小波和相对矩的形状特征提取与匹配方法，该方法先用小波变换模极大值得到多尺度边缘图像，然后计算每一尺度的7个不变矩，再转化为10个相对矩，将所有尺度上的相对矩作为图像特征向量，从而统一了区域和封闭、不封闭结构。

S104，以所述初始帧为基准，对所述场景片段中前向和/或后向的视频帧进行特征搜索，确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域，并对各个被搜索帧中所确定的区域进行自动标注。

即，根据从初始帧提取的特征信息，对场景片段中的视频帧进行前向和/或后向特征搜索，确定各个被搜索帧中能够匹配从初始帧提取的特征信息的区域，进而对匹配的区域进行自动标注，实现了在所述场景片段中的目标跟踪和自动标注。另外，在进行特征搜索前，还可以对各个被搜索视频帧进行预处理，如图像去噪、对比度增强等，以使各个被搜索帧中相匹配的区域的特征信息更加明显。

实际应用中，可使用均值漂移、Kalman滤波、粒子滤波等算法进行特征搜索。

均值漂移算法是一种基于密度梯度上升的非参数方法，通过迭代运算找到目标位置，实现目标跟踪。所谓跟踪，就是通过已知的图像帧中目标的位置找到目标在下一帧中的位置。均值漂移算法显著的优点是算法计算量小，简单易实现，很适合于实时跟踪场合。通过实验提出应用核直方图来计算目标分布，证明了均值漂移算法具有很好的实时性特点。均值漂移在聚类、图像平滑、分割、跟踪等方面有着广泛的应用。

均值漂移算法以迭代的方式锁定概率函数的局部最大值。比如有一个矩形窗口将一幅图像的某个部分框住，原理就是寻找预定义窗口中数据点的重心，或者说加权平均值。该算法将窗口中心移动到数据点的重心处,并重复这个过程直到窗口重心收敛到一个稳定点。因此，迭代完成的结果的好与坏取决于输入的概率图(上述中的预定义窗口)和它的初始位置。

均值漂移算法的整个跟踪步骤包括：设置初始跟踪目标，即框住待跟踪目标；获取待跟踪目标的HSV中的色度H通道图像的直方图；待跟踪直方图归一化；到新的数据帧图像中反投影待跟踪直方图；均值漂移，更新跟踪位置。

Kalman(卡尔曼)滤波：可以克服维纳滤波需要无限过去的数据而难以保证实时性的这一缺点。要使得最后真实结果和滤波结果完全相等是不可能，只能做到近似，Kalman滤波选择最小均方误差为准则，并引入了状态空间模型来进行递推估计。在涉及目标跟踪的导航、雷达、监控等领域中经常使用卡尔曼滤波器。其基本过程是：采用信号与噪声的状态空间模型，以“预测-实测-修正”顺序递推，利用前一时刻的信息对现时刻的状态变量进行估计，并以现时刻的真实观测值对前一时刻的模型进行调整。卡尔曼滤波的一个典型应用就是从有限的包含目标位置、噪声的观测值中预测出目标的下一时刻的状态。在监控视频中，目标跟踪就是在从当前帧检测出的多个前景块中选出与已确定目标相对应的目标，从而得到目标的运动轨迹的过程。在此过程中利用卡尔曼滤波器来预测位置和目标中心的变化，再通过多特征的匹配对目标进行精确定位，这就是卡尔曼滤波的目标跟踪。总的来说，用卡尔曼滤波器实现对目标的跟踪主要分为四步走：第一步根据目标检测的结果，计算目标的中心、SIFT特征、颜色直方图等特征点；第二步根据目标在下一帧的卡尔曼预测位置设置预测区域，在此区域内选取符合条件的候选目标逐个进行匹配；第三步分别对SIFT特征、颜色直方图、目标中心等特征定义相似性函数，选取最佳匹配目标；第四步根据目标的状态(如正常跟踪、跟踪丢失、融合分裂、目标进入退出)对Kalman滤波器参数进行优化。

粒子滤波，是通过非参数化的蒙特卡洛(Monte Carlo)模拟方法来实现递推贝叶斯滤波，适用于任何能用状态空间模型描述的非线性系统，精度可以逼近最优估计。粒子滤波器具有简单、易于实现等特点，它为分析非线性动态系统提供了一种有效的解决方法，从而广泛应用于目标跟踪、信号处理以及自动控制等领域。粒子滤波算法的核心思想是利用一系列随机样本的加权和近似后验概率密度函数，通过求和来近似积分操作。该算法源于Monte Carlo思想，即以某事件出现的频率来指代该事件的概率。因此在滤波过程中，需要用到概率的地方，一概对变量采样，以大量采样及其相应的权值来近似表示概率密度函数。其中最普遍的粒子滤波算法为SIR(Samping Importance Resampling)滤波器，该算法通过以下四步完成：

1)预测阶段：粒子滤波首先根据状态转移函数预测生成大量的采样，这些采样就称之为粒子，利用这些粒子的加权和来逼近后验概率密度；

2)校正阶段：随着观测值的依次到达，为每个粒子计算相应的重要性权值，这个权值代表了预测的位姿取第i个粒子时获得观测的概率。如此这般下来，对所有粒子都进行这样一个评价，越有可能获得观测的粒子，获得的权重越高；

3)重采样阶段：根据权值的比例重新分布采样粒子，由于近似逼近连续分布的粒子数量有限，因此这个步骤非常重要。下一轮滤波中，再将重采样过后的粒子集输入到状态转移方程中，就能够获得新的预测粒子了；

4)地图估计：对于每个采样的粒子，通过其采样的轨迹与观测计算出相应的地图估计。

进一步的，如果某一被搜索帧中不存在特征信息与所述目标区域的特征信息相匹配的区域，则获取目标特征信息，确定该被搜索帧中特征信息与所述目标特征信息相匹配的区域，并对该被搜索帧中所确定的区域进行自动标注；其中，所述目标特征信息为：该被搜索帧的相邻预设数量帧中已被标注区域的特征信息。即，如果某一被搜索帧未匹配到从初始帧提取的特征信息，则使用相邻几帧已成功匹配到的区域的特征信息，对该被搜索帧再次进行特征匹配并标注。

可以理解的是，当某一被搜索帧没有匹配到从初始帧提取的特征，说明目标对象在当前帧(即该被搜索帧)中的特征变化超过了阈值而无法匹配，这时可以从当前帧的前一帧或几帧中选择与初始帧的特征成功匹配的帧，根据所选择的帧中已被标注区域的特征信息，对当前帧再次进行特征匹配以及自动标注。如果当前帧的前几帧中已被标注区域的特征信息都无法与当前帧相匹配，则可以从当前帧的后一帧或者几帧中选择与初始帧的特征成功匹配的帧，对当前帧再次进行特征匹配以及自动标注。另外，如果当前帧是当前场景片段的最后一帧，则可以利用下一个场景片段的视频帧进行特征匹配，同理，若当前帧是当前场景片段的的第一帧，则可以在前一个场景片段中进行特征匹配。如果依然找不到匹配特征，则可以将当前帧的前后帧的特征点坐标的中值作为当前帧的特征点坐标，然后通过人工处理调整标注当前帧中的区域。

如果当前有连续几帧均没有匹配到从初始帧提取的特征，则可以先预估这连续几帧的中间帧的特征点坐标，再依次预估前后帧和中间帧的中值帧坐标，直到全部帧都完成预估，然后通过人工处理调整标注这连续几帧中的区域；也可以在预估中间帧的特征点坐标后，先进行人工调整标注中间帧中的区域，然后提取中间帧中新标注区域的特征信息，再对前后帧进行目标自动匹配标注处理。

S105，提取所述场景片段中已标注的各个视频帧的图像作为训练样本。

在对场景片段中的各个视频帧进行标注后，可以将已标注的各个视频帧的图像提取出来，作为训练样本。由于场景片段中包含大量的视频帧，因此，基于每个场景片段可以获得大量的已标注的图像训练样本。

综上所述，本发明提供的方案，首先对视频的场景片段内的初始帧进行标注，然后使用目标跟踪技术对整个场景片段内其它视频帧进行自动标注，从而获得大量的经过标注的图像作为后期建立目标识别模型的训练样本。现有技术中通过获取大量图片进行人工标注，图片获取以及标注成本较高，而本发明可以利用拍摄一段视频，素材的获取比较方便容易，然后可以从视频中采集大量自动标注的样本，降低了样本标注成本，提高了标注处理效率。

与上述的训练样本获得方法相对应，本发明还提供了一种训练样本获得装置，如图2所示，所述装置包括：

获得模块201，用于获得视频中的场景片段；

第一标注模块202，用于在所述场景片段中选择一个包含目标对象的视频帧作为初始帧，对所述初始帧中的所述目标对象所在的目标区域进行标注；

第一提取模块203，用于提取所述初始帧中被标注的所述目标区域的特征信息；

第二标注模块204，用于以所述初始帧为基准，对所述场景片段中前向和/或后向的视频帧进行特征搜索，确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域，并对各个被搜索帧中所确定的区域进行自动标注；

第二提取模块205，用于提取所述场景片段中已标注的各个视频帧的图像作为训练样本。

可选的，所述获得模块201，具体用于：

可选的，所述装置还包括：

预处理模块，用于在所述第一提取模块203提取所述初始帧中被标注的所述目标区域的特征信息之前，对所述初始帧进行图像预处理，以使所述初始帧中所述目标区域的特征信息更加明显。

可选的，所述第二提取模块204对所述场景片段中前向和/或后向的视频帧进行特征搜索，具体为：

可选的，所述第二提取模块204还用于：

本发明还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301、通信接口302、存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现如下步骤：

获得视频中的场景片段；

提取所述初始帧中被标注的所述目标区域的特征信息；

关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例，在此不做赘述。

另外，处理器301执行存储器303上所存放的程序而实现的训练样本获得方法的其他实现方式，与前述方法实施例部分所提及的实现方式相同，这里也不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(RandomAccess Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述的训练样本获得方法的方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种训练样本获得方法，其特征在于，包括：

获得视频中的场景片段；

在所述场景片段中选择一个包含目标对象的视频帧作为初始帧，对所述初始帧中所述目标对象所在的目标区域进行标注；

提取所述初始帧中被标注的所述目标区域的特征信息；

以所述初始帧为基准，对所述场景片段中前向和/或后向的视频帧进行特征搜索，确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域，并对各个被搜索帧中所确定的区域进行自动标注；如果当前有连续多帧均不存在特征信息与所述目标区域的特征信息相匹配的区域，则先预估所述连续多帧的中间帧的特征点坐标，再依次预估前后帧和所述中间帧的中值帧坐标，直到所述连续多帧全部都完成预估，然后调整标注所述连续多帧中的区域，或者，在预估所述中间帧的特征点坐标后，先调整标注所述中间帧中的区域，然后提取所述中间帧中新标注区域的特征信息，再对前后帧进行目标自动匹配标注处理；

2.如权利要求1所述的训练样本获得方法，其特征在于，所述获得视频中的场景片段，包括：

3.如权利要求2所述的训练样本获得方法，其特征在于，所述场景切换检测技术包括：基于像素域的检测算法、基于压缩域的检测算法。

4.如权利要求1所述的训练样本获得方法，其特征在于，在所述提取所述初始帧中被标注的所述目标区域的特征信息之前，还包括：

5.如权利要求1所述的训练样本获得方法，其特征在于，所述目标区域的特征信息，包括：颜色特征、纹理特征和形状特征中的一种或多种。

6.如权利要求1所述的训练样本获得方法，其特征在于，所述对所述场景片段中前向和/或后向的视频帧进行特征搜索，包括：

7.如权利要求1所述的训练样本获得方法，其特征在于，所述方法还包括：

8.一种训练样本获得装置，其特征在于，包括：

获得模块，用于获得视频中的场景片段；

第一标注模块，用于在所述场景片段中选择一个包含目标对象的视频帧作为初始帧，对所述初始帧中的所述目标对象所在的目标区域进行标注；

第二标注模块，用于以所述初始帧为基准，对所述场景片段中前向和/或后向的视频帧进行特征搜索，确定各个被搜索帧中特征信息与所述目标区域的特征信息相匹配的区域，并对各个被搜索帧中所确定的区域进行自动标注；如果当前有连续多帧均不存在特征信息与所述目标区域的特征信息相匹配的区域，则先预估所述连续多帧的中间帧的特征点坐标，再依次预估前后帧和所述中间帧的中值帧坐标，直到所述连续多帧全部都完成预估，然后调整标注所述连续多帧中的区域，或者，在预估所述中间帧的特征点坐标后，先调整标注所述中间帧中的区域，然后提取所述中间帧中新标注区域的特征信息，再对前后帧进行目标自动匹配标注处理；

9.如权利要求8所述的训练样本获得装置，其特征在于，所述获得模块，具体用于：

10.如权利要求9所述的训练样本获得装置，其特征在于，所述场景切换检测技术包括：基于像素域的检测算法、基于压缩域的检测算法。

11.如权利要求8所述的训练样本获得装置，其特征在于，所述装置还包括：

12.如权利要求8所述的训练样本获得装置，其特征在于，所述目标区域的特征信息，包括：颜色特征、纹理特征和形状特征中的一种或多种。

13.如权利要求8所述的训练样本获得装置，其特征在于，所述第二提取模块对所述场景片段中前向和/或后向的视频帧进行特征搜索，具体为：

14.如权利要求8所述的训练样本获得装置，其特征在于，所述第二提取模块还用于：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。