CN114218434A

CN114218434A - 一种自动标注方法、自动标注装置和计算机可读存储介质

Info

Publication number: CN114218434A
Application number: CN202111320677.XA
Authority: CN
Inventors: 吴成路; 余言勋; 王亚运; 杨雪峰; 段富治
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-03-22

Abstract

本申请公开了一种自动标注方法、自动标注装置和计算机可读存储介质，该方法包括：获取第一待标注视频，第一待标注视频包括待标注内容；对第一待标注视频进行特征提取处理，得到第一特征信息；采用标注生成网络对第一特征信息进行处理，生成至少一个候选标注区，并对候选标注区进行修正处理，生成目标标注区，目标标注区包括与待标注内容对应的起点时刻以及终点时刻之间的视频；对目标标注区中的待标注内容进行分类处理，得到待标注内容的类别信息。通过上述方式，本申请能够提升对视频进行自动标注的准确率与效率。

Description

一种自动标注方法、自动标注装置和计算机可读存储介质

技术领域

本申请涉及深度学习技术领域，具体涉及一种自动标注方法、自动标注装置和计算机可读存储介质。

背景技术

目前视频数量呈现爆发式增长，导致人们对视频理解技术的需求日益增加，快速定位任意一段不定长视频中感兴趣片段并识别出该片段的类别，对视频推荐、检索以及视频理解的再训练等应用具有重要意义；但是相关技术中有些方案严重依赖人力资源，标注效率较低，标注成本较高，且人工标注也会造成不同视频中相同动作的起止点定义混乱，需要对标注后的视频进行复核，进一步降低标注效率。

发明内容

本申请提供一种自动标注方法、自动标注装置和计算机可读存储介质，能够提升对视频进行自动标注的准确率与效率。

为解决上述技术问题，本申请采用的技术方案是：提供一种自动标注方法，该方法包括：获取第一待标注视频，第一待标注视频包括待标注内容；对第一待标注视频进行特征提取处理，得到第一特征信息；采用标注生成网络对第一特征信息进行处理，生成至少一个候选标注区，并对候选标注区进行修正处理，生成目标标注区，目标标注区包括与待标注内容对应的起点时刻以及终点时刻之间的视频；对目标标注区中的待标注内容进行分类处理，得到待标注内容的类别信息。

为解决上述技术问题，本申请采用的另一技术方案是：提供一种自动标注装置，该自动标注装置包括互相连接的存储器和处理器，其中，存储器用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述技术方案中的自动标注方法。

为解决上述技术问题，本申请采用的另一技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述技术方案中的自动标注方法。

通过上述方案，本申请的有益效果是：先获取包含待标注内容的第一待标注视频；然后提取第一待标注视频中的特征，生成第一特征信息；然后采用标注生成网络对第一特征信息进行初步处理，生成至少一个候选标注区，并对候选标注区进行修正处理，生成最终的目标标注区，该目标标注区包括待标注内容对应的起点时刻以及待标注内容对应的终点时刻之间的视频；然后对目标标注区中的待标注内容进行分类处理，得到待标注内容的类别信息；由于利用标注生成网络检测出待标注内容对应的起点时刻与待标注内容对应的终点时刻，能够实现从一个视频中挑选出与待标注内容相关的目标标注区，即提取出感兴趣的视频片段，而且还可识别出该视频片段对应的类别，实现了视频的自动标注，能够减少人力参与，提高自动标注的精度与效率；而且，还能适应对不同类别的视频进行标注，增强不同类别、不定长视频标注的鲁棒性，提升对任意自动标注任务的通用性与可复制性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的自动标注方法一实施例的流程示意图；

图2是本申请提供的目标标注片段的起点时刻与终点时刻的示意图；

图3是本申请提供的自动标注方法另一实施例的流程示意图；

图4是本申请提供的分类网络的结构示意图；

图5是本申请提供的特征插值的结构示意图；

图6是本申请提供的标注生成网络的结构示意图；

图7是图3所示的实施例中步骤35的流程示意图；

图8是本申请提供的特征增强模块的结构示意图；

图9是本申请提供的得分网格的结构示意图；

图10是本申请提供的dense2sparse单元的结构示意图；

图11是本申请提供的自动标注装置一实施例的结构示意图；

图12是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本申请作进一步的详细描述。特别指出的是，以下实施例仅用于说明本申请，但不对本申请的范围进行限定。同样的，以下实施例仅为本申请的部分实施例而非全部实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

需要说明的是，本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请提供的自动标注方法一实施例的流程示意图，该方法包括：

步骤11：获取第一待标注视频。

第一待标注视频为需要进行标注的视频，可从视频数据库中获取第一待标注视频，或者对当前监控场景进行拍摄，生成第一待标注视频；具体地，第一待标注视频包括待标注内容，待标注内容包括行为或事件，在待标注内容为行为时，类别信息可以包括跳远、游泳、行走、砍树、打球、化妆(比如：涂口红或眼线)或跑步等；在待标注内容为事件时，类别信息可以与异常事件相关，比如，类别信息可以是交通事故、逆行、道路抛物或高空抛物等。

步骤12：对第一待标注视频进行特征提取处理，得到第一特征信息。

采用特征提取方法提取第一待标注视频中的特征，生成第一特征信息；具体地，采用特征提取网络对第一待标注视频处理，该特征提取网络可以深度学习网络，比如：采用时间敏感网络(Time-Sensitive Networking，TSN)、通道分离的卷积网络(CSN，channel-separated convolutional networks)、SlowFast网络、二维卷积(2DConv)或video-Swin-Transformer等结构实现，特征提取指的是将第一待标注视频中的图像序列组通过深度学习网络变换为维度固定的长向量，使用长向量表示整段视频，可以减少后续生成目标标注区的计算复杂度。

步骤13：采用标注生成网络对第一特征信息进行处理，生成至少一个候选标注区。

采用预先训练好的标注生成网络对第一特征信息进行位置标注处理，得到候选标注集合，该候选标注集合包括至少一个候选标注区，候选标注区包括起点预测时刻以及与终点预测时刻，起点预测时刻为估计出的第一待标注视频中待标注内容第一次出现的时刻，终点预测时刻为估计出的第一待标注视频中待标注内容最后一次出现的时刻；例如，以第一待标注视频的时长为60s、待标注内容为事件A为例，假设事件A在该第一待标注视频中出现的时段为第30s～50s，经过标注生成网络对第一待标注视频的处理，得到一个候选标注集合，该候选标注集合包括3个候选标注区：1～20s、21s～40s、41s～60s。

步骤14：采用标注生成网络对候选标注区进行修正处理，生成目标标注区。

候选标注集合存在大量的冗余标注区，且受限于标注生成网络中网格参数的固定性，因此对标注区的边界定位存在误差，从而导致对标注区的边界进行定位的准确度差；而本申请实施例中在获取到候选标注集合后，可继续采用标注生成网络对候选标注集合进行处理，以对候选标注区进行修正，找到第一待标注视频中待标注内容最可能出现的片段，以生成目标标注区，该目标标注区包括第一待标注视频中待标注内容对应的起点时刻与待标注内容对应的终点时刻之间的视频，起点时刻为待标注内容最可能第一次出现在第一待标注视频中的时刻，终点时刻为待标注内容最后一次出现在第一待标注视频中的时刻。

步骤15：对目标标注区中的待标注内容进行分类处理，得到待标注内容的类别信息。

目标标注区为第一待标注视频中从起点时刻到终点时刻的视频片段，在获取到目标标注区后，可采用分类网络对该目标标注区进行分类处理，生成目标标注区中待标注内容的类别信息，该分类网络可为深度学习网络；例如，以待标注内容为行为为例，可通过对目标标注区进行分类，得到事件是跳远、化妆还是打球的类别信息。比如，如图2所示，不定长视频经上述处理操作后生成起点时刻为32.6秒、终点时刻为37.2为秒的目标标注区，将该目标标注区送入预先训练好的分类网络，以分类网络输出的“跳远”标签作为最终的类别标注结果。

可以理解地，在其他实施例中，还可用第一待标注视频中图像的帧号作为标注的起点与终点，例如，假设某个第一待标注视频的帧数为30帧，第一待标注视频中待标注内容最先出现的图像帧为第5帧，最后出现的图像帧为第20帧，则第5～20帧的图像组成的视频片段即为目标标注区。

本实施例通过深度学习网络主动学习需要不定长、需要标注的视频的类别特征，输出任意不定长视频的类别标注结果，进而实现视频标注的自动化，以生成更直观、信息含量更集中、利用价值更高的事件/动作视频片段，方便后续的视频审核、视频推荐以及视频理解网络的再训练，能够应用于视频理解以及视频分析等方面；而且，由于实现了自动标注，能够减少人力干预，提高自动标注的精度与效率；此外，还能够适应对不同类别的视频进行标注，增强不同、不定长视频标注的鲁棒性，提升对任意自动标注任务的通用性与可复制性。

请参阅图3，图3是本申请提供的自动标注方法另一实施例的流程示意图，该方法包括：

步骤31：对分类网络进行训练，得到训练完的分类网络。

采用训练数据来训练分类网络，训练分类网络的第一个目的是为了后续对视频片段进行特征提取，提供特征提取的模型；第二个目的是为后续生成的目标标注区设置类别标签；因此，分类网络的性能直接影响着后续进行视频片段标注的质量。具体地，分类网络的训练步骤如下所示：

1)挑选等时间间隔、需标注的视频片段样本，以构成训练数据。

训练数据包括多个视频片段样本，在挑选视频片段样本时需覆盖待标注的全部类别，且视频片段样本应准确涵盖该类别的视频片段样本的起始点(即起始点时刻)。

2)将视频片段样本送入分类网络进行训练。

分类网络的结构如图4所示，分类网络包括第一归一化模块、提取模块以及计算模块，第一归一化模块为视频时空序列归一化单元，其用于将输入的短视频沿空间、时间维度进行归一化，时间维度归一化的目的是保证不同时长的视频在送入网络时能保持时序维度统一，时间维度归一化可采用相邻多帧图像非线性插值以及间隔采样等方法实现，本实施例不做具体限定；空间维度归一化是先通过对时序归一化后的单帧图像进行线性插值，再对线性插值后尺寸一致的图像进行标准化处理(即先将视频中每帧图像的像素与像素均值相减，再除以方差)。提取模块所提取到的特征向量用于替代输入的短视频(即视频片段样本)，本实施例对使用的分类网络不做具体限定，只要能够实现分类的功能便可。

在一具体的实施例中，分类网络的训练如下所示：

训练数据还包括与视频片段样本对应的类别标签，从训练数据中挑选一个视频片段样本，采用第一归一化模块对视频片段样本进行归一化处理，得到归一化后的视频片段样本；采用提取模块对归一化后的视频片段样本进行特征提取处理，得到样本特征信息；采用计算模块对样本特征信息进行分类处理，得到样本分类结果，计算模块可以为全连接层；基于样本分类结果与类别标签，计算出当前损失值；基于当前损失值或当前训练次数，判断分类网络是否满足预设训练结束条件；若分类网络不满足预设训练结束条件，则返回从训练数据中挑选一个视频片段样本的步骤，直至分类网络满足预设训练结束条件。

进一步地，预设停止条件包括：损失值收敛，即上一损失值与当前损失值的差值小于设定值；判定当前损失值是否小于预设损失值，该预设损失值为预先设置的损失阈值，若当前损失值小于预设损失值，则确定达到预设停止条件；训练次数达到设定值(例如：训练10000次)；或者使用测试集进行测试时获得的准确率达到设定条件(比如：超过预设准确率)等。

在另一具体的实施例中，继续参阅图3，分类网络还包括第二归一化模块，该第二归一化模块用于对计算模块输出的结果进行归一化，得到视频片段样本的类别信息；具体地，第二归一化模块使用softmax函数对计算模块输出的结果进行处理，生成视频片段样本中的待标注内容属于每种类别的概率值。

步骤32：对第一待标注视频进行切分，得到多个视频片段。

对于待标注的不定长视频，可先将其拆分成多个等时间间隔的视频片段，以便后续等间隔的送入步骤31中训练好的分类网络中提取特征。

步骤33：采用分类网络对视频片段进行处理，得到第二片段特征信息。

在获取到视频片段之后，可将这些视频片段输入分类网络，使得分类网络分别对这些视频片段进行特征提取处理，生成相应的第二片段特征信息，该第二片段特征信息为视频片段的特征信息。

步骤34：对所有第二片段特征信息进行归一化处理，得到第一特征信息。

考虑到一段完整的不定长视频可能被切分为任意长度的特征，因此将第一待标注视频对应的整段视频特征(即所有第二片段特征信息)送入特征线性插值单元中进行归一化，从而使得不同时长的第一待标注视频对应的特征的长度是一致的。

在一具体的实施例中，为了方便描述待标注的未定长视频的切割过程以及特征归一化过程，定义num_clips、clip_len、frame_interval三个变量来描述方案，num_clips定义为整段视频经过切割后的段数，clip_len定义为每个视频片段选取的帧数，frame_interval定义为每个视频片段的帧间间隔。例如，以图5为例，整段视频共被切为M段，记其中任意一段为Clip-i(1≤i≤M)，分类网络提取每个Clip-i内的图像帧的特征，输出的特征的长度为len。经过等间隔切分与固定间隔特征提取后，该段视频可以使用M×len的矩阵向量替代。对于不同的待标注视频来说，需要将整段视频的特征的长度归一化为L×len，归一化操作中包含相邻特征间的线性插值以及每个元素的标准化，L表示后续生成的区域网格的尺寸，L为根据经验或应用需求设置的值，比如：其为所有整段视频被分成的段数的均值。

可以理解地，在使用分类网络进行特征提取时，可以直接采用softmax操作前的计算结果，也可以使用提取模块输出的特征提取结果。

在获取到第一特征信息之后，将第一特征信息输入标注生成网络，以生成目标标注区；具体地，标注生成网络包括第一标注生成网络与第二标注生成网络，第一标注生成网络的输入为归一化为固定尺寸的视频特征(即第一特征信息)，第一标注生成网络的输出包含候选标注集合；第二标注生成网络基于第一标注生成网络输出的候选标注集合及第一特征信息生成目标标注区，下面进行详细描述。

步骤35：采用第一标注生成网络对第一特征信息进行处理，生成候选标注集合。

如图6所示，第一标注生成网络包括特征增强模块、第一估计模块、第二估计模块以及生成模块，如图7所示，采用如下步骤来生成候选标注集合：

步骤41：采用特征增强模块对第一特征信息进行增强处理，生成第二特征信息。

特征增强模块为时序特征增强单元，其用于同时编码归一化后的特征的局部与整体时序信息，学习待标注的区域前后可变的时序特征，增强前后帧语义信息的特征关联，相比利用帧间的相似度进行匹配的方法来说，对于不同长度的、易混淆的视频具有更高的检测精度和鲁棒性。

在一具体的实施例中，特征增强模块包括编码模块与增强模块，编码模块可以为局部-全局时序特征编码器(Local-Global Temporal Encoder，LGTE)，LGTE单元为第一特征信息的前置特征重组处理模块，如图8所示。

采用编码模块对第一特征信息进行编码，得到第三特征信息；采用增强模块对第三特征信息进行增强处理，得到第二特征信息；具体地，增强模块包括增强单元与融合单元，采用增强单元对第三特征信息进行增强处理，得到第四特征信息；采用融合单元对第四特征信息进行融合处理，得到第二特征信息，增强单元可以为基于扩展平衡理论的图卷积网络(graph convolutional network with expanded balance theory，GCNEXT)，融合单元可以为一维卷积(CONV-1D)，如图8所示。

进一步地，增强单元包括时序增强单元与空间增强单元，分别用来增强前后帧语义信息以及聚合不同视频片段的关联特征；具体地，采用时序增强单元对第三特征信息进行时序增强处理，得到时序特征信息(即时序增强结果)；采用空间增强单元对第三特征信息进行空间增强处理，得到空间特征信息(即空间增强结果)；采用融合单元对时序特征信息、空间特征信息以及第三特征信息进行融合处理，得到第二特征信息。

可以理解地，如图8所示，GCNeXt单元与CONV-1D单元作为联立模块，可重复进行N次，以进一步增强不同时间长度、不同类别的视频片段的特征融合效果，N的具体取值可根据实际应用需求来调整。

步骤42：采用第一估计模块对第二特征信息进行估计处理，得到第一得分信息。

第一得分信息包括多个区域概率，可创建区域网格，该区域网格包括多个网格，每个网格的横坐标与纵坐标分别为起点预测时刻与终点预测时刻；采用第一估计模块计算每个网格对应的视频片段为目标标注区的概率，得到区域概率。

在一具体的实施例中，以待标注内容为特定动作(比如：跳远)为例，区域网格为边长为L、密集的候选正方形网格，通过定义区域网格的尺寸L，共生成(L*L/2)个潜在动作片段，区域网格的尺寸L决定可检测动作的长度，其可检测的最短视频片段的长度为δ(δ＝视频总长/L)；具体地，区域网格的每一行都对应着动作片段的起点，网格的每一列对应着动作片段的终点，考虑到起点先于终点的特性，区域网格的下半区域是无效的。

进一步地，第一估计模块的输入是增强后的时序特征，输出是经过Sigmoid处理的是否为待标注动作片段的概率值；对于区域网格中的任意一个有效的动作片段，通过人为事先标记的起点时刻标签与终点时刻标签，有监督地训练第一估计模块去学习落入对应网格的视频序列的特征。

步骤43：采用第二估计模块对第二特征信息进行估计处理，得到第二得分信息。

第二估计模块与第一估计模块相近，通过学习特征增强模块输出的视频特征，输出概率值，该概率值为采用Sigmoid函数处理后的概率值；具体地，第二得分信息包括第一概率值与第二概率值，第一概率值为起点预测时刻为起点时刻的概率，第二概率值为终点预测时刻为终点时刻的概率，起点预测时刻与终点预测时刻的时间差为δ。

步骤44：采用生成模块对第一得分信息与第二得分信息进行融合处理，得到得分信息。

生成模块通过联立第一估计模块与第二估计模块的输出结果，输出边长为L的正方形得分网格，即生成得分信息，该得分信息包括多个得分值；具体地，联立方式采用哈达玛(Hadamard)积的形式实现，即将区域概率与相应的第一概率值以及第二概率值相乘，得到得分值。例如，如图9所示，横坐标的值为起点预测时刻，纵坐标的值为终点点预测时刻，假设(x0,y0)处的第一概率值、第二概率值以及区域概率分别为P1、P2以及P3，则(x0,y0)处的得分值为P1×P2×P3。

步骤45：基于得分信息，生成候选标注集合。

判断得分信息中的得分值是否大于预设值；若该得分值大于预设值，则该得分值对应的网格的横坐标与纵坐标形成候选标注区；或者对所有得分值进行非极大值抑制处理，得到候选标注区，非极大值抑制处理的方法与相关技术的方法相同，在此不再赘述。

步骤36：采用第二标注生成网络对候选标注区进行修正处理，生成目标标注区。

生成模块能够产生庞大的候选标注区，提升了潜在的查找目标标注区的召回率，但因该模块的网格尺度的固定性，使候选标注区的起止区间(包括起点预测时刻与终点预测时刻)变得很僵硬，因此采用第二标注生成网络对候选标注区进行处理；具体地，采用第二标注生成网络对第一特征信息进行编码，得到编码信息；采用第二标注生成网络对编码信息与候选标注集合进行处理，得到目标标注区；进一步地，第二标注生成网络将生成模块输出的一部分候选标注区(即预测起点时刻小于预测终点时刻的网格对应的候选标注区)作为锚框(anchor)，通过dense2sparse单元学习锚框起(即起点时刻)、止(即终点时刻)以及起止区间三处的相应特征，更精准地输出的目标标注区。

在一具体的实施例中，dense2sparse单元采用级联训练器，用于对候选标注区进行微调，其结构如图10所示，按照得分值对候选标注集合进行降序排序，对于按得分排序好的候选标注集合进行非极大值抑制，优先选取前K个候选标注区，能够在增加不同交并比(Intersection over Union，IOU)的候选标注区的数量的同时将密集的候选标注集合降低为稀疏的K个候选标注区，以形成待标注片段推荐集。为保证dense2sparse的泛化能力，本方案将上述的L固定为1000；同时，由于将L固定为1000需通过线性插值完成，为消除每个视频片段的特征信息受线性插值的影响，本方案对特征长度大于1000的特征信息进行线性插值，对特征长度不足1000的特征信息进行补零填充。

在对dense2sparse单元进行训练时，针对特定的IOU阈值挑选对应质量的样本进行训练，如图10所示，可在H1阶段，设定IOU阈值为0.5；然后对IOU阈值0.5微调后送入H2阶段，并将H2阶段输出的精调结果送入H3阶段中。进一步地，可在不同阶段设定不同的IOU阈值(比如，设置的规则为阶段越高，IOU阈值越大)，各个阶段相互级联，逐步提升检测目标标注区的精度；例如，可将H2阶段的IOU阈值设置为0.6，将H3阶段的IOU阈值设置为0.7。

本实施例采用了dense2sparse单元，通过对按照得分值降序排列的、密集的候选标注集合进行非极大值抑制，能够在增加不同交并比的候选标注区的数量的同时降低候选标注集合的稀疏性；而且，设计了多级级联的、实现精确查找视频片段的训练器，能够有效提升查找一段视频中需要标注的片段的精度。

步骤37：通过分类网络对目标标注区进行分类处理，得到待标注内容的类别信息。

在获取到步骤36生成的目标标注片段后，还需要进一步获取该目标标注片段的类别信息，才能输出最终的视频的自动标注结果，该自动标注结果包括类别信息与目标标注区。

在一具体的实施例中，如图4所示，将目标标注区输入分类网络，以生成相应的类别信息；具体地，采用分类网络中的第一归一化模块对目标标注区进行归一化处理，得到视频处理片段；采用分类网络中的提取模块对视频处理片段进行特征提取处理，得到第一片段特征信息；采用分类网络中的计算模块对第一片段特征信息进行分类处理，得到类别信息。

进一步地，可先采用计算模块对第一片段特征信息进行分类处理，得到分类结果；然后采用第二归一化模块对分类结果进行归一化处理，得到类别信息。

综上所述，本实施例提出了一种基于深度学习的视频自动标注方法，通过使用不同类别的视频片段训练分类器及标注生成网络，能够自动输出待标注的视频的类别与起止区间，除前期需人工采标素材及训练网络外，不需额外增加人力，有助于降低标注成本，提高标注效率；而且，由于网络具备泛化能力，因此能够提升任意自动标注任务的通用性与可复制性。

请参阅图11，图11是本申请提供的自动标注装置一实施例的结构示意图，自动标注装置110包括互相连接的存储器111和处理器112，存储器111用于存储计算机程序，计算机程序在被处理器112执行时，用于实现上述实施例中的自动标注方法。

请参阅图12，图12是本申请提供的计算机可读存储介质一实施例的结构示意图，计算机可读存储介质120用于存储计算机程序121，计算机程序121在被处理器执行时，用于实现上述实施例中的自动标注方法。

计算机可读存储介质120可以是服务端、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种自动标注方法，其特征在于，包括：

获取第一待标注视频，所述第一待标注视频包括待标注内容；

对所述第一待标注视频进行特征提取处理，得到第一特征信息；

采用标注生成网络对所述第一特征信息进行处理，生成至少一个候选标注区，并对所述候选标注区进行修正处理，生成目标标注区，所述目标标注区包括与所述待标注内容对应的起点时刻以及终点时刻之间的视频；

对所述目标标注区中的待标注内容进行分类处理，得到所述待标注内容的类别信息。

2.根据权利要求1所述的自动标注方法，其特征在于，所述对所述目标标注区中的待标注内容进行分类处理的步骤，包括：

将所述目标标注区输入分类网络；

采用所述分类网络中的第一归一化模块对所述目标标注区进行归一化处理，得到视频处理片段；

采用所述分类网络中的提取模块对所述视频处理片段进行特征提取处理，得到第一片段特征信息；

采用所述分类网络中的计算模块对所述第一片段特征信息进行分类处理，得到所述类别信息。

3.根据权利要求2所述的自动标注方法，其特征在于，所述分类网络还包括第二归一化模块，所述采用所述计算模块对所述第一特征信息进行分类处理，得到所述类别信息的步骤，包括：

采用所述计算模块对所述第一片段特征信息进行分类处理，得到分类结果；

采用所述第二归一化模块对所述分类结果进行归一化处理，得到所述类别信息。

4.根据权利要求2所述的自动标注方法，其特征在于，所述对所述第一待标注视频进行特征提取处理，得到第一特征信息的步骤，包括：

对所述第一待标注视频进行切分，得到多个视频片段；

采用所述分类网络对所述视频片段进行处理，得到第二片段特征信息，所述第二片段特征信息为所述视频片段的特征信息；

对所有所述第二片段特征信息进行归一化处理，得到所述第一特征信息。

5.根据权利要求1所述的自动标注方法，其特征在于，所述标注生成网络包括第一标注生成网络与第二标注生成网络，所述方法还包括：

采用所述第一标注生成网络对所述第一特征信息进行处理，生成候选标注集合，所述候选标注集合包括所述候选标注区；

采用所述第二标注生成网络对所述候选标注区进行修正处理，生成所述目标标注区。

6.根据权利要求5所述的自动标注方法，其特征在于，所述第一标注生成网络包括特征增强模块、第一估计模块、第二估计模块以及生成模块，所述方法还包括：

采用所述特征增强模块对所述第一特征信息进行增强处理，生成第二特征信息；

采用所述第一估计模块对所述第二特征信息进行估计处理，得到第一得分信息；

采用所述第二估计模块对所述第二特征信息进行估计处理，得到第二得分信息；

采用所述生成模块对所述第一得分信息与所述第二得分信息进行融合处理，得到得分信息；

基于所述得分信息，生成所述候选标注集合。

7.根据权利要求6所述的自动标注方法，其特征在于，所述候选标注区包括起点预测时刻以及与终点预测时刻，所述起点预测时刻为估计出的所述第一待标注视频中待标注内容第一次出现的时刻，所述终点预测时刻为估计出的所述第一待标注视频中待标注内容最后一次出现的时刻，所述第一得分信息包括多个区域概率，所述采用所述第一估计模块对所述第二特征信息进行估计处理，得到第一得分信息的步骤，包括：

创建区域网格，所述区域网格包括多个网格，所述网格的横坐标与纵坐标分别为起点预测时刻与终点预测时刻；

采用所述第一估计模块计算每个所述网格对应的视频片段为所述目标标注区的概率，得到所述区域概率。

8.根据权利要求7所述的自动标注方法，其特征在于，所述第二得分信息包括第一概率值与第二概率值，所述第一概率值为所述起点预测时刻为所述起点时刻的概率，所述第二概率值为所述终点预测时刻为所述终点时刻的概率，所述得分信息包括多个得分值，所述采用所述生成模块对所述第一得分信息与所述第二得分信息进行融合处理，得到得分信息的步骤，包括：

将所述区域概率与相应的所述第一概率值以及所述第二概率值相乘，得到所述得分值。

9.根据权利要求8所述的自动标注方法，其特征在于，所述基于所述得分信息，生成所述候选标注集合的步骤，包括：

判断所述得分信息中的得分值是否大于预设值；若是，则所述得分值对应的网格的横坐标与纵坐标形成所述候选标注区；或者

对所有所述得分值进行非极大值抑制处理，得到所述候选标注区。

10.根据权利要求6所述的自动标注方法，其特征在于，所述特征增强模块包括编码模块与增强模块，所述采用所述特征增强模块对所述第一特征信息进行增强处理，生成第二特征信息的步骤，包括：

采用所述编码模块对所述第一特征信息进行编码，得到第三特征信息；

采用所述增强模块对所述第三特征信息进行增强处理，得到所述第二特征信息。

11.根据权利要求10所述的自动标注方法，其特征在于，所述增强模块包括增强单元与融合单元，所述采用所述增强模块对所述第三特征信息进行增强处理，得到所述第二特征信息的步骤，包括：

采用所述增强单元对所述第三特征信息进行增强处理，得到第四特征信息；

采用所述融合单元对所述第四特征信息进行融合处理，得到所述第二特征信息。

12.根据权利要求11所述的自动标注方法，其特征在于，所述增强单元包括时序增强单元与空间增强单元，所述方法包括：

采用所述时序增强单元对所述第三特征信息进行时序增强处理，得到时序特征信息；

采用所述空间增强单元对所述第三特征信息进行空间增强处理，得到空间特征信息；

采用所述融合单元对所述时序特征信息、所述空间特征信息以及所述第三特征信息进行融合处理，得到所述第二特征信息。

13.根据权利要求5所述的自动标注方法，其特征在于，所述采用所述第二标注生成网络对所述候选标注区进行修正处理，生成所述目标标注区的步骤，包括：

采用所述第二标注生成网络对所述第一特征信息进行编码，得到编码信息；

采用所述第二标注生成网络对所述编码信息与所述候选标注集合进行处理，得到所述目标标注区。

14.一种自动标注装置，其特征在于，包括互相连接的存储器和处理器，其中，所述存储器用于存储计算机程序，所述计算机程序在被所述处理器执行时，用于实现权利要求1-13中任一项所述的自动标注方法。

15.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序在被处理器执行时，用于实现权利要求1-13中任一项所述的自动标注方法。