CN114697702A

CN114697702A - 音视频标记方法、装置、设备及存储介质

Info

Publication number: CN114697702A
Application number: CN202210290611.9A
Authority: CN
Inventors: 莫伟; 李琳; 吴耀华; 郑彬戈; 李小海
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-07-01
Anticipated expiration: 2042-03-23
Also published as: CN114697702B

Abstract

本发明公开了一种音视频标记方法、装置、设备及存储介质，属于音视频技术领域，所述方法包括：从初始音视频中确定静态图像帧，所述静态图像帧包括描述符；识别所述静态图像帧对应的目标图像特征和描述符特征；从所述初始音视频中匹配与所述目标图像特征对应的音视频片段；根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，所述处理后的音视频中的描述符特征能够跟随所述目标图像特征移动。从而只需要对静态图像帧进行标记，便可匹配到整个初始音视频中，根据描述符特征对用户标记的同一图像特征进行自动标记，不需要对初始音视频的内容来回观看进行标记，节省了标记时间，方便用户观看音视频。

Description

音视频标记方法、装置、设备及存储介质

技术领域

本发明涉及音视频技术领域，尤其涉及一种音视频标记方法、装置、设备及存储介质。

背景技术

在通过互联网音视频技术进行视频会议、在线教育以及直播观看时，在视频中有些比较重要或者比较难的点需要标记出来时，观看人员需要采用相关的标记方法及时给视频做标记，例如用方块、箭头等方式标记视频，方便后续更直观的观看到内容。

目前观看人员在标记视频内容时，由于一些互联网音视频是直播，在标记的同时可能错过一些其他的内容，并且，对于相同特征的图像需要多次标记，导致浪费大量时间。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提出一种音视频标记方法、装置、设备及存储介质，旨在解决如何在音视频的某一帧上进行标记，就能够实现对整个音视频进行自动标记的技术问题。

为实现上述目的，本发明提供一种音视频标记方法，所述音视频标记方法包括：

从初始音视频中确定静态图像帧，所述静态图像帧包括描述符；

识别所述静态图像帧对应的目标图像特征和描述符特征；

从所述初始音视频中匹配与所述目标图像特征对应的音视频片段；

根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，所述处理后的音视频中的描述符特征能够跟随所述目标图像特征移动。

可选地，所述识别所述静态图像帧对应的目标图像特征和描述符特征，包括：

检测静态图像帧中描述符对应的图像特征的轮廓；

识别所述描述符在所述图像特征的轮廓上的候选位置；

根据所述图像特征的轮廓确定目标图像特征，并根据所述候选位置确定描述符特征。

可选地，所述检测静态图像帧中描述符对应的图像特征的轮廓，包括：

根据静态图像帧中描述符对应的图像特征构建尺度空间；

检测所述尺度空间中特征的局部极值点；

根据所述局部极值点从所述尺度空间中提取特征点；

根据所述特征点在多个尺度下的算子值在空间坐标中串联起来得到特征尺度曲线；

根据所述特征尺度曲线确定多个目标局部极值点；

根据所述目标局部极值点确定所述描述符对应的图像特征的轮廓。

可选地，所述识别所述描述符在所述图像特征的轮廓上的候选位置，包括：

根据所述目标局部极值点确定所述描述符对应的图像特征的特征尺度；

为所述特征点分配方向，并根据所述特征点的方向确定所述描述符在所述描述符对应的图像特征上的特征位置；

根据所述特征点的方向、所述特征尺度以及所述特征位置确定所述描述符在所述图像特征的轮廓上的候选位置。

可选地，所述从所述初始音视频中匹配与所述目标图像特征对应的音视频片段，包括：

根据所述初始音视频确定局部视频段；

计算所述局部视频段的视频帧区间中帧的关键性描述与所述目标图像特征的特征匹配度，所述关键性描述包括图像特征描述；

根据所述特征匹配度确定与所述目标图像特征相匹配的候选视频帧；

将所述候选视频帧分割成多个子视频帧；

根据所述子视频帧确定与所述目标图像特征对应的音视频片段。

可选地，所述根据所述描述符特征对所述音视频片段进行标记，包括：

根据所述音视频片段确定多个与所述描述符特征相关的候选标记点；

根据所述候选标记点确定对应的候选标记点二维坐标数据，并根据所述描述符特征确定对应的描述符特征二维坐标数据；

根据所述候选标记点二维坐标数据与所述描述符特征二维坐标数据进行二维目标匹配；

根据匹配结果从所述候选标记点中选取标记点；

根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频。

可选地，所述根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，包括：

根据子视频帧的下一帧确定目标时刻；

获取所述标记点在所述目标时刻预测到的质心坐标位置、速度以及加速度；

根据所述子视频帧的时长、所述质心坐标位置、速度以及加速度预测所述标记点在所述子视频帧下一帧中的位置坐标；

获取所述标记点在所述目标时刻预测到的目标搜索范围、预测速度的误差以及预测加速度的误差；

根据所述子视频帧的时长、所述目标搜索范围、预测速度的误差以及预测加速度的误差预测所述标记点在所述子视频帧下一帧中的搜索范围；

根据所述位置坐标和搜索范围对所述子视频帧的下一帧的参数进行修正，获得处理后的音视频。

可选地，所述根据所述描述符特征对所述音视频片段进行标记之后，还包括：

从所述音视频片段中提取音频片段；

将所述音频片段切分为多个音频帧；

根据多个音频帧构建状态网络；

在所述状态网络中对多个音频帧进行解码，得到与所述音视频片段对应的候选文字；

根据所述候选文字生成与所述音视频片段对应的候选索引。

此外，为实现上述目的，本发明还提出一种音视频标记装置，所述音视频标记装置包括：

图像帧提取模块，用于从初始音视频中确定静态图像帧，所述静态图像帧包括描述符；

图像识别模块，用于识别所述静态图像帧对应的目标图像特征和描述符特征；

片段匹配模块，用于从所述初始音视频中匹配与所述目标图像特征对应的音视频片段；

片段标记模块，用于根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，所述处理后的音视频中的描述符特征能够跟随所述目标图像特征移动。

此外，为实现上述目的，本发明还提出一种音视频标记设备，所述音视频标记设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音视频标记程序，所述音视频标记程序被处理器执行时实现如上所述的音视频标记方法。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有音视频标记程序，所述音视频标记程序被处理器执行时实现如上所述的音视频标记方法。

本发明提出的音视频标记方法中，从初始音视频中确定静态图像帧，所述静态图像帧包括描述符；识别所述静态图像帧对应的目标图像特征和描述符特征；从所述初始音视频中匹配与所述目标图像特征对应的音视频片段；根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，所述处理后的音视频中的描述符特征能够跟随所述目标图像特征移动。从而只需要对静态图像帧进行标记，便可匹配到整个初始音视频中，根据描述符特征对用户标记的同一图像特征进行自动标记，不需要对初始音视频的内容来回观看进行标记，节省了标记时间，方便用户观看音视频。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的音视频标记设备结构示意图；

图2为本发明音视频标记方法第一实施例的流程示意图；

图3为本发明音视频标记方法第二实施例的流程示意图；

图4为本发明音视频标记方法第三实施例的流程示意图；

图5为本发明音视频标记方法一实施例的视频帧与子视频帧之间的关系示意图；

图6为本发明音视频标记方法第四实施例的流程示意图；

图7为本发明音视频标记方法第五实施例的流程示意图；

图8为本发明音视频标记装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的音视频标记设备结构示意图。

如图1所示，该音视频标记设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速随机存取存储器(Random Access Memory，RAM)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对音视频标记设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音视频标记程序。

在图1所示的音视频标记设备中，网络接口1004主要用于连接外网，与其他网络设备进行数据通信；用户接口1003主要用于连接用户设备，与所述用户设备进行数据通信；本发明设备通过处理器1001调用存储器1005中存储的音视频标记程序，并执行本发明实施例提供的音视频标记方法。

基于上述硬件结构，提出本发明音视频标记方法实施例。

参照图2，图2为本发明音视频标记方法第一实施例的流程示意图。

在第一实施例中，所述音视频标记方法包括：

步骤S10，从初始音视频中确定静态图像帧，所述静态图像帧包括描述符。

需要说明的是，本实施例的执行主体可为音视频标记设备，上述音频标记设备可为具有数据处理功能的计算机设备或者移动终端，还可为其他可实现相同或相似功能的设备，本实施例对此不作限制，在本实施例中，以音视频标记设备为计算机设备为例进行说明。

需要说明的是，本实施例中的音视频可为同时包含音频和视频的文件，还可为同时包含音频、视频以及其他类型的多媒体信息的文件，例如，可以包括但不限于互联网音视频，本实施例对此不作限制。在具体实现中，互联网音视频可以用于视频会议、在线教育以及网络直播等多个场景，还可用于其他相似的场景，本实施例对此不作限制。

应当理解的是，用户在使用计算机设备进行互联网音视频观看时，如果发现需要标记的重要内容，可以基于该重要内容在计算机设备上输入截图指令。计算机设备在接收到用户输入的截图指令时，可以根据截图指令来确定待截取内容，然后根据待截取内容从初始音频中截取一张或多张静态图像帧，并对截取到的静态图像帧进行保存。

需要说明的是，可以由用户根据静态图像帧进行人工标记，以在静态图像帧中添加描述符，例如，用户查看静态图像帧之后，如果觉得需要对静态图像帧中的足球进行标记，便可通过输入人工标记指令的方式对足球进行标记；还可以由计算机设备根据用户的使用习惯信息对静态图像帧进行自动标记，以在静态图像帧中添加描述符，例如，如果用户在最近一段时间每天都会看某个球星的比赛，那么可以自动对这个球星进行标记；还可以通过其他方式对静态图像帧进行标记，以在静态图像帧中添加描述符，本实施例对此不作限制。

需要说明的是，本实施例中的描述符可以包括但不限于圆圈、方块、箭头、线条、文字以及字符符号等多种符号，除此之外，也可以将其他类型的符号作为描述符，本实施例对此不作限制。

在具体实现中，在人工标记的场景下，在得到静态图像帧之后，还可对静态图像帧进行展示，用户可以基于展示的静态图像帧进行人工标记，计算机设备在接收到用户输入的人工标记指令时，可以根据人工标记指令确定标记位置以及对应的描述符，然后根据标记位置和描述符来对静态图像帧进行标记。例如，用户可以通过圆圈、方块、箭头、线条、文字以及字符符号等多种描述符进行人工标记，还可以根据实际情况使用其他更多类型的描述符，本实施例对此不作限制。

步骤S20，识别所述静态图像帧对应的目标图像特征和描述符特征。

应当理解的是，在对静态图像帧进行标记，以在静态图像帧中添加上描述符之后，可以采用图像特征提取算法识别静态图像帧的数据特征，也可以通过其他方式识别静态图像帧的数据特征，本实施例对此不作限制。

需要说明的是，本实施例中的数据特征可以包括但不限于目标图像特征和描述符特征，本实施例对此不作限制。其中，目标图像特征指的是静态图像帧中进行标记的重点位置的图像对应的特征，即标记位置对应的静态图像帧中原本的图像的特征；描述符特征指的是对静态图像帧进行标记时使用的描述符对应的特征，即标记位置对应的新添加的描述符的特征。

在具体实现中，例如，假如用户采用圆圈作为描述符，对静态图像帧中的足球进行了标记，那么便可获取足球图像对应的特征作为目标图像特征，同时，还可获取圆圈图像对应的特征作为描述符特征。

步骤S30，从所述初始音视频中匹配与所述目标图像特征对应的音视频片段。

应当理解的是，可以通过关键帧回溯识别算法从初始音视频中匹配与静态图像帧的目标图像特征对应的音视频片段，具体可为：采用关键帧回溯识别算法从初始音视频中匹配静态图像帧的目标图像特征所在的音视频片段。因为采用图像特征提取算法可以识别静态图像帧的目标图像特征，因此，可将初始音视频中出现了该目标图像特征的音视频片段都匹配、分割出来，其中，得到的音视频片段可以为一个或者多个，可以根据实际情况而定，本实施例对音视频片段的数量不作限制。

在具体实现中，例如，假设用户在截图得到的静态图像帧中对人物A进行了标记，那么便可以确定静态图像帧的目标图像特征为人物A对应的图像特征，可以从初始音视频中匹配存在人物A对应的图像特征的音视频片段，并将这些音视频片段从初始音视频中分割出来，即得到的音视频片段都是与静态图像帧中的目标图像特征相关的音视频片段。

步骤S40，根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，所述处理后的音视频中的描述符特征能够跟随所述目标图像特征移动。

应当理解的是，在将匹配到的与目标图像特征相关的音视频片段分割出来之后，可以根据静态图像帧的目标图像特征对应的描述符特征通过图像匹配算法对音视频片段进行匹配标记，使目标图像特征上的描述符特征可以追踪跟随，从而得到处理后的音视频，可以使处理后的音视频中的描述符特征能够跟随目标图像特征移动，实现在音视频的某一帧上进行标记，就能够实现对整个音视频进行自动标记的效果。

在本实施例中，用户在进行互联网音视频观看时，对重要的内容发送截图命令，保存一张静态图像帧，人工用圆圈方块或者是箭头等方式标记图像帧需要标记的重要位置，然后采用图像特征提取算法识别静态图像帧的数据特征，从而确定目标图像特征和描述符特征。接着采用关键帧回溯识别算法匹配静态图像帧中的目标图像特征所在的音视频片段，将匹配到的音视频片段分割出来，分割出来的目的是为了方便后续在根据图像帧搜寻片段时，不需要进行回看。然后采用图像匹配算法与静态图像帧的描述符特征进行匹配标记，将之前用圆圈方块或者是箭头标记的图像帧自主标记互联网音视频的全部内容。方便在回看的过程中，只要是涉及到上述目标图像特征的图像，描述符会一直进行跟随，也就是人工标记的圆圈方块或者是箭头标记等图像帧的描述符会一直跟随目标图像特征，节省人力来回标记的时间，使观看者可以更专心的观看音视频，不需要对一个图像特征进行多次标记。

在具体实现中，用户在观看一场视频球赛时，可以截取一张含有球员的静态图像帧，然后人工在静态图像帧上标记，比如将球员的名字写在对应球员的身上，其中，可以只写一个球员的名字，也可以写多个球员的名字，本实施例对此不作限制。此时人工写的名字定义为描述符，然后在通过特征提取算法将描述符对应的目标图像特征进行识别，采用关键帧回溯识别算法匹配整场球赛视频，将含有目标图像特征的片段分割出来，确定名字和球员身上的位置，同时采用图像匹配算法将描述符匹配到片段中，使球员在移动时，之前写的球员名字依然可以保留在球员身上，方便用户在观看时可以根据自己标记的描述符快速看到对应的球员，其中，如果只写一个球员的名字，则只截取含有这一个球员的片段，如果写多个球员的名字，则截取这多个球员同时出现的片段，本实施例对此不作限制。

可以理解的是，在现有技术中，只能针对于某一画面片段进行标记，即这些标记是标记固定片段的某一项标记物，后期再需要进行标记的话，还需要手动匹配或调整。但是，在本方案中，在截取静态图像帧之后，可以手工对静态图像帧进行自由标记，然后对标记后的静态图像帧进行识别，以确定静态图像帧上人工标记的描述符的描述符特征，以及描述符所针对的图像区域的目标图像特征，进而根据目标图像特征和描述符特征匹配对应的音视频片段并进行标记，使得将初始音视频中出现了人工标记的目标图像特征的音视频片段都被提取出来，并且通过自动标记的方式，可以使这些音视频片段中的目标图像特征都匹配标记上描述符，从而使描述符可以跟随音视频片段中的目标图像特征进行移动，从而只需要对静态图像帧进行标记，便可匹配到整个初始音视频中，对用户标记的同一图像特征进行标记，操作方便，自动化程度高，不需要对互联网音视频的内容来回观看进行标记，提高了标记效率，节省了标记时间，使用户可以专心观看互联网音视频。

在本实施例中，从初始音视频中确定静态图像帧，所述静态图像帧包括描述符；识别所述静态图像帧对应的目标图像特征和描述符特征；从所述初始音视频中匹配与所述目标图像特征对应的音视频片段；根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，所述处理后的音视频中的描述符特征能够跟随所述目标图像特征移动。从而只需要对静态图像帧进行标记，便可匹配到整个初始音视频中，根据描述符特征对用户标记的同一图像特征进行自动标记，不需要对初始音视频的内容来回观看进行标记，节省了标记时间，方便用户观看音视频。

在一实施例中，如图3所示，基于第一实施例提出本发明音视频标记方法第二实施例，所述步骤S20，包括：

步骤S201，检测静态图像帧中描述符对应的图像特征的轮廓。

应当理解的是，可以通过图像特征提取算法来检测静态图像帧中描述符对应的图像特征的轮廓。在采用图像特征提取算法识别静态图像帧的数据特征的过程中，为了提高识别的准确性，可以先对静态图像帧进行特征识别，以确定静态图像帧对应的候选图像特征，其中，候选图像特征可包含候选静态图像中的多个图像特征。

可以理解的是，在识别出静态图像帧对应的候选图像特征之后，还可以根据人工标记的描述符对应的描述符特征来确定标记位置信息，进而根据标记位置信息从候选图像特征中选取与人工标记的描述符对应的图像特征，进而检测描述符对应的图像特征的轮廓。

应当理解的是，可以根据静态图像帧中描述符对应的图像特征构建尺度空间，检测尺度空间中特征的局部极值点，根据局部极值点从尺度空间中提取特征点，根据特征点在多个尺度下的算子值在空间坐标中串联起来得到特征尺度曲线，根据特征尺度曲线确定多个目标局部极值点，根据目标局部极值点确定描述符对应的图像特征的轮廓。

应当理解的是，可以将标记后的静态图像帧输入处理程序，将人工标记的描述符与静态图像帧中的其他图像特征分离开，根据描述符对应的待处理图像特征建立尺度空间。一张静态图像帧的数据中包含有许多信息，其中存在大量特征混杂在一起，这些特征是属于不同类型的特征，并且属于图像中不同的物体，特征的位置、控制区域和代表的特性并不相同，但是这些特征有着不同的分布和参数，组合和叠加以后使得提取特征变得更加困难，因此，对图像中混着的特征进行特征分离显得尤为重要，尺度空间是将各类不同的特征点专门提取出来，使描述符对应的特征不受其他特征干扰。

可以理解的是，在构建尺度空间之后，可以检测尺度空间中特征的局部极值点，可以根据局部极值点从尺度空间中提取多个特征点，其中，特征点的数量可根据实际情况来确定，本实施例对此不作限制。

应当理解的是，可以将特征点在多个尺度下的算子值在空间坐标中串联起来得到特征尺度曲线，特征尺度曲线上的局部极值点就是所要求的特征尺度，因此，可以从特征尺度曲线上计算出多个局部极值点，确定描述符对应的图像特征的轮廓。

步骤S202，识别所述描述符在所述图像特征的轮廓上的候选位置。

应当理解的是，为了达到更好的特征分离效果，得到更加精准的描述符特征和目标图像特征，还可以根据目标局部极值点确定描述符对应的图像特征的特征尺度，为特征点分配方向，并根据特征点的方向确定描述符在描述符对应的图像特征上的特征位置，根据特征点的方向、特征尺度以及特征位置确定描述符在图像特征的轮廓上的候选位置。

可以理解的是，可以指定特征点方向，通过给每个特征点分配方向，同时将描述符转化为由它的方向来描述，确定描述符在待处理图像特征上的位置，从而实现图像旋转的不变性，计算每一个采样点的梯度模糊值和方向，并进一步采用梯度直方图统计法，将直方图的峰值处作为采样点的主方向，来精确的确定特征点的方向。其中，采样点可为从特征点中采样选取的点，本实施例对此不作限制。

需要说明的是，采样点的梯度模糊值计算公式如下：

采样点的方向计算公式如下：

O(x,y)＝tan^-1(L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y))；

其中，(x，y)为像素坐标，L为尺度空间，L(x，y)为在坐标(x，y)下的采样点，m(x，y)为在坐标(x，y)下的梯度模值，O(x，y)为在坐标(x，y)下的方向，L(x+1，y)为在坐标(x+1，y)下的采样点，L(x-1，y)为在坐标(x-1，y)下的采样点，L(x，y+1)为在坐标(x，y+1)下的采样点，L(x，y-1)为在坐标(x，y-1)下的采样点。

应当理解的是，在计算得到特征点的位置、尺度和方向以后，可以根据特征点的位置、尺度和方向生成对应的特征符，进而根据特征符来生成描述符特征。其中，可以采用遗传学算法来生成特征点的特征符，其特点是对光照和3D视角变化的不变性，本实施例对此不作限制。

在具体实施中，可以通过将人工标记的多个描述符分离开，对描述符对应的待处理图像特征建立多个尺度空间，对多个尺度空间极值点进行检测，确定描述符对应的图像特征的轮廓，然后给每个特征点分配方向，同时描述符转化为由它的方向来描述，确定描述符在图像特征上的位置，同时根据特征点分配的方向，形成描述符和特征点匹配的特征符，可以准确的识别到描述符在图像特征的轮廓的位置，提高特征识别的稳定性，为后续的标记提供支撑条件。

步骤S203，根据所述图像特征的轮廓确定目标图像特征，并根据所述候选位置确定描述符特征。

需要说明的是，可以根据特征点将人工标记的描述符从待处理图像特征中分离出来，从而生成描述符对应的描述符特征。并且，由于进行了描述符的分离，还可以根据分离出了描述符之后的待处理图像特征来确定描述符所在位置对应的原本的目标图像特征。

在具体实现中，用户输入一张球员身上标记有名字的球员打球图片，采用图像特征提取算法，将写下的名字定义为描述符，根据描述符对应的待处理图像特征建立尺度空间，也就是将带有人工标记名字的球员作为尺度空间，检测球员身体轮廓为特征点，然后通过轮廓上的特征点到人工标记名字的方向确定名字在球员身上的位置，从而不仅确定球员的特征，还识别到人工标记的名字对应球员身上的位置。

在本实施例中，检测静态图像帧中描述符对应的图像特征的轮廓；识别所述描述符在所述图像特征的轮廓上的候选位置；根据所述图像特征的轮廓确定目标图像特征，并根据所述候选位置确定描述符特征。从而可以通过上述图像特征提取算法准确地从静态图像帧中识别出描述符特征和目标图像特征，提高了特征提取的精度。

在一实施例中，如图4所示，基于第一实施例或第二实施例提出本发明音视频标记方法第三实施例，在本实施例中，基于第一实施例进行说明，所述步骤S30，包括：

步骤S301，根据所述初始音视频确定局部视频段。

应当理解的是，在根据关键帧回溯识别算法进行音视频片段识别时，可以将局部视频段的长度设置为两个连续视频帧，除此之外，也可以设置为其他长度的局部视频段，本实施例对此不作限制。在本实施例中，以两个连续视频帧长度的局部视频段为例进行说明，因此，可以根据初始音视频确定包含两个连续视频帧的局部视频段。

步骤S302，计算所述局部视频段的视频帧区间中帧的关键性描述与所述目标图像特征的特征匹配度，所述关键性描述包括图像特征描述。

可以理解的是，可以通过对局部顺序验证结果的分析，计算局部视频段的视频帧区间中帧的关键性描述与静态图像帧的图像特征的特征匹配度。其中，本实施例中的关键性描述可以包括但不限于图像特征描述，本实施例对此不作限制，在本实施例中，以关键性描述包括图像特征描述为例进行说明。

在具体实现中，可以检测局部视频段的视频帧区间中帧的图像特征描述，然后计算图像特征描述与目标图像特征的特征匹配度。

步骤S303，根据所述特征匹配度确定与所述目标图像特征相匹配的候选视频帧。

应当理解的是，可以根据特征匹配度确定与目标图像特征匹配度高的候选视频帧，并将候选视频帧保留下来。

步骤S304，将所述候选视频帧分割成多个子视频帧。

应当理解的是，可如图5所示，图5为视频帧与子视频帧之间的关系示意图，在得到候选视频帧之后，还可将候选视频帧分割成多个子视频帧。

步骤S305，根据所述子视频帧确定与所述目标图像特征对应的音视频片段。

需要说明的是，还可以继续计算子视频帧区间中关键性描述与目标图像特征的特征匹配度，重复上述操作，直至子视频帧间中帧的关键性描述与目标图像帧匹配，进而提取子视频帧，根据子视频帧确定与目标图像特征对应的音视频片段。

在本实施例中，根据所述初始音视频确定局部视频段；计算所述局部视频段的视频帧区间中帧的关键性描述与所述目标图像特征的特征匹配度，所述关键性描述包括图像特征描述；根据所述特征匹配度确定与所述目标图像特征相匹配的候选视频帧；将所述候选视频帧分割成多个子视频帧；根据所述子视频帧确定与所述目标图像特征对应的音视频片段。从而可以通过上述关键帧回溯识别算法准确地匹配到与目标图像特征对应的音视频片段，提高了片段提取的精度，并且，在后续检索时，可以根据截取的静态图像帧匹配音视频片段，方便查询视频片段内容，方便后续检索查询，提高工作效率。

在一实施例中，如图6所示，基于第一实施例或第二实施例或第三实施例提出本发明音视频标记方法第四实施例，在本实施例中，基于第一实施例进行说明，所述步骤S40，包括：

步骤S401，根据所述音视频片段确定多个与所述描述符特征相关的候选标记点。

应当理解的是，在采用图像匹配算法进行标记的过程中，可以在音视频片段的区域内提取多个与描述符特征相关的候选标记点。

步骤S402，根据所述候选标记点确定对应的候选标记点二维坐标数据，并根据所述描述符特征确定对应的描述符特征二维坐标数据。

应当理解的是，可以在二维坐标系中确定候选标记点与描述符特征对应的二维坐标数据，在本实施例中，将候选标记点对应的二维坐标数据称为候选标记点二维坐标数据，将描述符特征对应的二维坐标数据称为描述符特征二维坐标数据。

步骤S403，根据所述候选标记点二维坐标数据与所述描述符特征二维坐标数据进行二维目标匹配。

可以理解的是，在确定上述两种二维坐标数据之后，可以根据这两种二维坐标数据进行二维目标匹配，从而确定与描述符特征相匹配的标记点。其中，本实施例中的二维目标匹配可为将候选标记点的二维坐标数据与描述符特征的二维坐标数据这两种二维的数据进行匹配，本实施例对此不作限制。

步骤S404，根据匹配结果从所述候选标记点中选取标记点。

应当理解的是，在进行上述匹配之后，可以根据匹配结果从候选标记点中选取相关度较高的标记点，例如，可以根据匹配结果提取描述符特征对应的子视频帧区间中帧的位置为标记点，本实施例对此不作限制。

步骤S405，根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频。

需要说明的是，可以使静态图像帧上人工标记的描述符特征匹配到子视频帧中，得到标记视频帧。在具体实现中，若仅有一个候选标记点，则该标记点位置P+即是所跟踪的标记点；若出现多个候选标记点时，则需结合极限约束关系和三维卡尔曼预测结果进行三维立体匹配；若没有候选标记点，则把预测位置作为当前时刻标记点的位置，本实施例对此不作限制。

进一步地，为了实时对下一帧的相关参数进行修正，达到更好的标记效果，所述步骤S405，还包括：

根据子视频帧的下一帧确定目标时刻；获取所述标记点在所述目标时刻预测到的质心坐标位置、速度以及加速度；根据所述子视频帧的时长、所述质心坐标位置、速度以及加速度预测所述标记点在所述子视频帧下一帧中的位置坐标；获取所述标记点在所述目标时刻预测到的目标搜索范围、预测速度的误差以及预测加速度的误差；根据所述子视频帧的时长、所述目标搜索范围、预测速度的误差以及预测加速度的误差预测所述标记点在所述子视频帧下一帧中的搜索范围；根据所述位置坐标和搜索范围对所述子视频帧的下一帧的参数进行修正，获得处理后的音视频。

需要说明的是，可以预测标记点在所述子视频帧下一帧中的位置坐标以及目标搜索范围，进而根据位置坐标以及目标搜索范围对子视频帧的下一帧的参数进行修正，获得处理后的音视频。

应当理解的是，可以根据第一预设计算公式预测所述标记点在所述子视频帧下一帧中的位置坐标；根据第二预设计算公式预测所述标记点在所述子视频帧下一帧中的搜索范围。

其中，所述第一预设计算公式为：

所述第二预设计算公式为：

其中，P_k+1为预测的位置坐标，△P_k+1为预测的搜索范围，P_k为标记点在第k时刻预测到的质心坐标位置，v_k为标记点在第k时刻预测到的速度，a_k为标记点在第k时刻预测到的加速度，△P_k为标记点在第k时刻的目标搜索范围，△v_k为标记点在第k时刻预测速度的误差，△a_k为标记点在第k时刻预测加速度的误差，△t为子视频帧的时长。

在具体实现中，例如截取的静态图像帧是一个物品的静态图像，在物品身上写下文字或者符号为标记点的描述符，然后采用图像匹配算法，对应音视频片段中物品移动时，之前写下的文字或者符号为标记点跟随物品移动，使标记点一直在物品身上，查询时直观的表现片段中重点位置。

在本实施例中，根据所述音视频片段确定多个与所述描述符特征相关的候选标记点；根据所述候选标记点确定对应的候选标记点二维坐标数据，并根据所述描述符特征确定对应的描述符特征二维坐标数据；根据所述候选标记点二维坐标数据与所述描述符特征二维坐标数据进行二维目标匹配；根据匹配结果从所述候选标记点中选取标记点；根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频。从而可以通过上述图像匹配算法准确地对音视频片段进行标记，提高了音视频标记的精度，并且，对应视频片段中物品移动时，之前写下的文字或者符号为标记点跟随物品移动，使标记点一直在物品身上，查询时直观的表现片段中重点位置。

在一实施例中，如图7所示，基于第一实施例或第二实施例或第三实施例或第四实施例提出本发明音视频标记方法第五实施例，在本实施例中，基于第一实施例进行说明，所述步骤S40之后，还包括：

步骤S501，从所述音视频片段中提取音频片段。

需要说明的是，目前的音视频标记方法中在标记后不方便后续的检索，需要回看视频找到相应的标记位置，对于相同特征的图像需要多次标记，导致浪费大量时间；同时目前的互联网音视频标记方法中不具备对音视频中的语音识别为文字的功能，需要观看人员手动记录演讲者的语音内容，需要后续多次回看和暂停进行标记，费时费力。因此，除了上述提到的标记不方便以及检索费时之外，还存在无法将语音识别为文字的问题。

应当理解的是，可以采用语音识别算法语音识别分割出的音视频片段为文字，制成索引，在查询时通过图像帧进行索引定位到对应的片段和文字，根据图像帧的图像已经可以大致先确定播放的相关内容了，使提取的片段更准确。

应当理解的是，为了便于后续进行语音识别的操作，可以先从音视频片段中提取对应的音频片段。

步骤S502，将所述候选音频片段切分为多个音频帧。

应当理解的是，由于在音频片段中可能存在干扰片段，因此，可以去除音频片段中首尾端的干扰片段，得到候选音频片段，降低对后续步骤造成的干扰。

需要说明的是，上述干扰片段可以包括但不限于静音的音频片段，本实施例对此不作限制。

可以理解的是，可以对候选音频片段进行切分，得到一小段一小段的音频帧，其中，可以预先设置一个音频帧对应的音频时间，然后根据音频时间对候选音频片段进行切分，除此之外，也可采用其他方式对候选音频帧进行切分，本实施例对此不作限制。

步骤S503，根据多个音频帧构建状态网络。

可以理解的是，在得到多个音频帧之后，可以根据多个音频帧来构建状态网络，具体可为：获取音频帧对应的单词级网络，由单词级网络展开成音素网络，再展开成状态网络，本实施例对此不作限制。

步骤S504，在所述状态网络中对多个音频帧进行解码，得到与所述音视频片段对应的候选文字。

应当理解的是，可以在状态网络中对多个音频帧进行解码，从而将音频帧解码成文字，根据解码结果得到与音视频片段对应的候选文字。

步骤S505，根据所述候选文字生成与所述音视频片段对应的候选索引。

需要说明的是，可以根据候选文字生成与音视频片段对应的候选索引，在后续进行查询时，可以根据候选索引方便地查找对应的音视频片段作为播放内容。

可以理解的是，通过采用语音识别算法语音识别分割出的音视频片段为文字，可以将音视频的内容转换为文字记录，方便后续使用时直接复制，避免人工记录的劳动强度，增加实用性。并且，通过建立索引的方式，也方便后续对候选文字和音视频片段进行查询。

在本实施例中，从所述音视频片段中提取音频片段；将所述音频片段切分为多个音频帧；根据多个音频帧构建状态网络；在所述状态网络中对多个音频帧进行解码，得到与所述音视频片段对应的候选文字；根据所述候选文字生成与所述音视频片段对应的候选索引。通过上述语音识别算法进行语音识别和建立索引的方式，可以自主的将语音转换为文字，解放了人工记录的劳动强度，实用性更强，而且提高了查询效率。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有音视频标记程序，所述音视频标记程序被处理器执行时实现如上文所述的音视频标记方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

此外，参照图8，本发明实施例还提出一种音视频标记装置，所述音视频标记装置包括：

图像帧提取模块10，用于从初始音视频中确定静态图像帧，所述静态图像帧包括描述符。

图像识别模块20，用于识别所述静态图像帧对应的目标图像特征和描述符特征。

片段匹配模块30，用于从所述初始音视频中匹配与所述目标图像特征对应的音视频片段。

片段标记模块40，用于根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，所述处理后的音视频中的描述符特征能够跟随所述目标图像特征移动。

在一实施例中，所述图像识别模块20，还用检测静态图像帧中描述符对应的图像特征的轮廓；识别所述描述符在所述图像特征的轮廓上的候选位置；根据所述图像特征的轮廓确定目标图像特征，并根据所述候选位置确定描述符特征。

在一实施例中，所述图像识别模块20，还用于根据静态图像帧中描述符对应的图像特征构建尺度空间；检测所述尺度空间中特征的局部极值点；根据所述局部极值点从所述尺度空间中提取特征点；根据所述特征点在多个尺度下的算子值在空间坐标中串联起来得到特征尺度曲线；根据所述特征尺度曲线确定多个目标局部极值点；根据所述目标局部极值点确定所述描述符对应的图像特征的轮廓。

在一实施例中，所述图像识别模块20，还用于根据所述目标局部极值点确定所述描述符对应的图像特征的特征尺度；为所述特征点分配方向，并根据所述特征点的方向确定所述描述符在所述描述符对应的图像特征上的特征位置；根据所述特征点的方向、所述特征尺度以及所述特征位置确定所述描述符在所述图像特征的轮廓上的候选位置。

在一实施例中，所述片段匹配模块30，还用于根据所述初始音视频确定局部视频段；计算所述局部视频段的视频帧区间中帧的关键性描述与所述目标图像特征的特征匹配度，所述关键性描述包括图像特征描述；根据所述特征匹配度确定与所述目标图像特征相匹配的候选视频帧；将所述候选视频帧分割成多个子视频帧；根据所述子视频帧确定与所述目标图像特征对应的音视频片段。

在一实施例中，所述片段标记模块40，还用于根据所述音视频片段确定多个与所述描述符特征相关的候选标记点；根据所述候选标记点确定对应的候选标记点二维坐标数据，并根据所述描述符特征确定对应的描述符特征二维坐标数据；根据所述候选标记点二维坐标数据与所述描述符特征二维坐标数据进行二维目标匹配；根据匹配结果从所述候选标记点中选取标记点；根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频。

在一实施例中，所述片段标记模块40，还用于根据子视频帧的下一帧确定目标时刻；获取所述标记点在所述目标时刻预测到的质心坐标位置、速度以及加速度；根据所述子视频帧的时长、所述质心坐标位置、速度以及加速度预测所述标记点在所述子视频帧下一帧中的位置坐标；获取所述标记点在所述目标时刻预测到的目标搜索范围、预测速度的误差以及预测加速度的误差；根据所述子视频帧的时长、所述目标搜索范围、预测速度的误差以及预测加速度的误差预测所述标记点在所述子视频帧下一帧中的搜索范围；根据所述位置坐标和搜索范围对所述子视频帧的下一帧的参数进行修正，获得处理后的音视频。

在一实施例中，所述音视频标记装置还包括语音识别模块，用于从所述音视频片段中提取音频片段；将所述音频片段切分为多个音频帧；根据多个音频帧构建状态网络；在所述状态网络中对多个音频帧进行解码，得到与所述音视频片段对应的候选文字；根据所述候选文字生成与所述音视频片段对应的候选索引。

在本发明所述音视频标记装置的其他实施例或具体实现方法可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该估算机软件产品存储在如上所述的一个估算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台智能设备(可以是手机，估算机，音视频标记设备，或者网络音视频标记设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音视频标记方法，其特征在于，所述音视频标记方法包括：

识别所述静态图像帧对应的目标图像特征和描述符特征；

2.如权利要求1所述的音视频标记方法，其特征在于，所述识别所述静态图像帧对应的目标图像特征和描述符特征，包括：

检测静态图像帧中描述符对应的图像特征的轮廓；

识别所述描述符在所述图像特征的轮廓上的候选位置；

3.如权利要求2所述的音视频标记方法，其特征在于，所述检测静态图像帧中描述符对应的图像特征的轮廓，包括：

根据静态图像帧中描述符对应的图像特征构建尺度空间；

检测所述尺度空间中特征的局部极值点；

根据所述局部极值点从所述尺度空间中提取特征点；

根据所述特征尺度曲线确定多个目标局部极值点；

4.如权利要求3所述的音视频标记方法，其特征在于，所述识别所述描述符在所述图像特征的轮廓上的候选位置，包括：

5.如权利要求1所述的音视频标记方法，其特征在于，所述从所述初始音视频中匹配与所述目标图像特征对应的音视频片段，包括：

根据所述初始音视频确定局部视频段；

将所述候选视频帧分割成多个子视频帧；

6.如权利要求1所述的音视频标记方法，其特征在于，所述根据所述描述符特征对所述音视频片段进行标记，包括：

根据匹配结果从所述候选标记点中选取标记点；

7.如权利要求6所述的音视频标记方法，其特征在于，所述根据所述描述符特征对所述音视频片段进行标记，获得处理后的音视频，包括：

根据子视频帧的下一帧确定目标时刻；

8.如权利要求1至7中任一项所述的音视频标记方法，其特征在于，所述根据所述描述符特征对所述音视频片段进行标记之后，还包括：

从所述音视频片段中提取音频片段；

将所述音频片段切分为多个音频帧；

根据多个音频帧构建状态网络；

根据所述候选文字生成与所述音视频片段对应的候选索引。

9.一种音视频标记装置，其特征在于，所述音视频标记装置包括：

10.一种音视频标记设备，其特征在于，所述音视频标记设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音视频标记程序，所述音视频标记程序被处理器执行时实现如权利要求1至8中任一项所述的音视频标记方法。

11.一种存储介质，其特征在于，所述存储介质上存储有音视频标记程序，所述音视频标记程序被处理器执行时实现如权利要求1至8中任一项所述的音视频标记方法。