CN105872855A

CN105872855A - 视频文件的标注方法及装置

Info

Publication number: CN105872855A
Application number: CN201610364407.1A
Authority: CN
Inventors: 何新超
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-08-17

Abstract

本发明公开了一种视频文件的标注方法及装置，属于音频处理技术领域。该方法包括：获取建模视频文件；从建模视频文件中，提取建模音频文件；从建模音频文件中，识别出多个音频片段，每个音频片段对应一个音频标签；对于任一音频片段，将音频片段划分为多帧音频信号；从每帧音频信号中，提取音频帧特征；对音频帧特征进行归一化处理，得到特征向量；根据特征向量及相应的音频标签，构建音频标注模型；根据音频标注模型，为待标注的视频文件，添加音频标签。本发明无需借助人力，基于所构建的音频识别模型为待标注的视频文件添加不同的音频标签，在满足用户预览需求的前提下，不仅节省了制作成本，而且提高了标注效率及辨识度。

Description

视频文件的标注方法及装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种视频文件的标注方法及装置。

背景技术

在现代生活中，视频文件作为一种重要的多媒体形式，已成为用户生活中必不可少的组成部分。随着互联网技术的发展，互联网上的视频文件种类和数量急剧增加，当用户在互联网上搜索指定类型的视频文件时，往往会搜索出大量的视频文件，而一个视频文件的时长往往达到上百分钟，如果用户通过逐个预览的方式，从中这些视频文件中筛选出自己感兴趣的视频文件，将消耗用户大量的时间。为了节省用户的预览时间，需要对视频文件进行标注。

当前对视频文件进行标注，主要通过人工的方式在时间轴上为视频文件的章节或高潮部分标注上相应地内容标签，通过所添加的内容标签，用户可对视频文件进行预览。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

由于需要采用人工的方式进行标注，因而标注效率较低，制作成本较高。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种视频文件的标注方法及装置。所述技术方案如下：

一方面，提供了一种视频文件的标注方法，所述方法包括：

获取建模视频文件；

从所述建模视频文件中，提取建模音频文件；

从所述建模音频文件中，识别出多个音频片段，每个音频片段对应一个音频标签；

对于任一音频片段，将所述音频片段划分为多帧音频信号；

从每帧音频信号中，提取音频帧特征；

对所述音频帧特征进行归一化处理，得到特征向量；

根据所述特征向量及相应的音频标签，构建音频标注模型；

根据所述音频标注模型，为待标注的视频文件，添加音频标签。

在本发明的另一个实施例中，所述将所述音频片段划分为多帧音频信号之前，还包括：

对所述音频片段进行预加重处理，得到预加重音频片段；

所述将所述音频片段划分为多帧音频信号，包括：

采用窗函数将所述预加重音频片段划分为多帧音频信号。

在本发明的另一个实施例中，所述从每帧音频信号中，提取音频帧特征之前，还包括：

提取每帧音频信号的短时能量特征和短时过零率特征；

根据所述短时能量特征和短时过零率特征，剔除所述多帧音频信号中的静音信号，得到多帧非静音信号；

所述从每帧音频信号中，提取音频帧特征，包括：

从每帧非静音信号中，提取子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征。

在本发明的另一个实施例中，所述对所述音频帧特征进行归一化处理，得到特征向量，包括：

获取所述建模音频文件中音频信号的音频帧特征的平均值和标准差；

根据所述平均值和所述标准差，应用以下公式，对所述音频帧特征进行归一化处理，得到特征向量：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D

其中，f_d′为归一化后的音频帧特征，f_d为所述音频帧特征，μ_d为所述平均值，σ_d为所述标准差，D为所述音频帧特征。

在本发明的另一个实施例中，所述根据所述音频标注模型，为待标注的视频文件，添加音频标签，包括：

将所述待标注的视频文件划分为多帧目标音频信号；

从所述多帧目标音频信号中，剔除目标静音信号，得到多帧目标非静音信号；

从每帧目标非静音信号中，提取目标音频帧特征；

对所述目标音频帧特征进行归一化处理，得到目标特征向量；

根据所述音频标注模型，为所述目标特征向量对应的目标音频信号添加相应的音频标签。

在本发明的另一个实施例中，所述根据所述音频标注模型，为所述目标特征向量对应的目标音频信号添加相应的音频标签之后，还包括：

将相邻且对应同一音频标签的目标音频信号进行合并。

在本发明的另一个实施例中，所述音频标签至少包括语音标签、音乐标签、欢呼标签、枪炮标签、引擎标签、静音标签。

另一方面，提供了一种视频文件的标注装置，所述装置包括：

获取模块，用于获取建模视频文件；

第一提取模块，用于从所述建模视频文件中，提取建模音频文件；

识别模块，用于从所述建模音频文件中，识别出多个音频片段，每个音频片段对应一个音频标签；

划分模块，用于对于任一音频片段，将所述音频片段划分为多帧音频信号；

第二提取模块，用于从每帧音频信号中，提取音频帧特征；

处理模块，用于对所述音频帧特征进行归一化处理，得到特征向量；

构建模块，用于根据所述特征向量及相应的音频标签，构建音频标注模型；

添加模块，用于据所述音频标注模型，为待标注的视频文件，添加音频标签。

在本发明的另一个实施例中，所述装置还包括：

预加重模块，用于对所述音频片段进行预加重处理，得到预加重音频片段；

所述划分模块，用于采用窗函数将所述预加重音频片段划分为多帧音频信号。

在本发明的另一个实施例中，所述装置还包括：

第三提取模块，用于提取每帧音频信号的短时能量特征和短时过零率特征；

剔除模块，用于根据所述短时能量特征和短时过零率特征，剔除所述多帧音频信号中的静音信号，得到多帧非静音信号；

所述第二提取模块，用于从每帧非静音信号中，提取子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征。

在本发明的另一个实施例中，所述处理模块，用于获取所述建模音频文件中音频信号的音频帧特征的平均值和标准差；根据所述平均值和所述标准差，应用以下公式，对所述音频帧特征进行归一化处理，得到特征向量：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D

在本发明的另一个实施例中，所述添加模块，用于将所述待标注的视频文件划分为多帧目标音频信号；从所述多帧目标音频信号中，剔除目标静音信号，得到多帧目标非静音信号；从每帧目标非静音信号中，提取目标音频帧特征；对所述目标音频帧特征进行归一化处理，得到目标特征向量；根据所述音频标注模型，为所述目标特征向量对应的目标音频信号添加相应的音频标签。

在本发明的另一个实施例中，所述装置还包括：

合并模块，用于将相邻且对应同一音频标签的目标音频信号进行合并。

本发明实施例提供的技术方案带来的有益效果是：

无需借助人力，基于所构建的音频识别模型为待标注的视频文件添加不同的音频标签，在满足用户预览需求的前提下，不仅节省了制作成本，而且提高了标注效率及辨识度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种视频文件的标注方法流程图；

图2是本发明另一个实施例提供的一种视频文件的标注方法流程图；

图3是本发明另一个实施例提供一种待标注的视频文件标注结果的示意图；

图4是本发明另一个实施例提供的一种视频文件的标注过程的示意图；

图5是本发明另一个实施例提供的一种视频文件的标注装置结构示意图；

图6是根据一示例性实施例示出的一种用于视频文件的标注的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种视频文件的标注方法，参见图1，本实施例提供的方法流程包括：

101、获取建模视频文件。

102、从建模视频文件中，提取建模音频文件。

103、从建模音频文件中，识别出多个音频片段，每个音频片段对应一个音频标签。

104、对于任一音频片段，将音频片段划分为多帧音频信号。

105、从每帧音频信号中，提取音频帧特征。

106、对音频帧特征进行归一化处理，得到特征向量。

107、根据特征向量及相应的音频标签，构建音频标注模型。

108、根据音频标注模型，为待标注的视频文件，添加音频标签。

本发明实施例提供的方法，无需借助人力，基于所构建的音频识别模型为待标注的视频文件添加不同的音频标签，在满足用户预览需求的前提下，不仅节省了制作成本，而且提高了标注效率及辨识度。

在本发明的另一个实施例中，将音频片段划分为多帧音频信号之前，还包括：

对音频片段进行预加重处理，得到预加重音频片段；

将音频片段划分为多帧音频信号，包括：

采用窗函数将预加重音频片段划分为多帧音频信号。

在本发明的另一个实施例中，从每帧音频信号中，提取音频帧特征之前，还包括：

提取每帧音频信号的短时能量特征和短时过零率特征；

根据短时能量特征和短时过零率特征，剔除多帧音频信号中的静音信号，得到多帧非静音信号；

从每帧音频信号中，提取音频帧特征，包括：

在本发明的另一个实施例中，对音频帧特征进行归一化处理，得到特征向量，包括：

获取建模音频文件中音频信号的音频帧特征的平均值和标准差；

根据平均值和标准差，应用以下公式，对音频帧特征进行归一化处理，得到特征向量：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D

其中，f_d′为归一化后的音频帧特征，f_d为音频帧特征，μ_d为平均值，σ_d为标准差，D为音频帧特征。

在本发明的另一个实施例中，根据音频标注模型，为待标注的视频文件，添加音频标签，包括：

将待标注的视频文件划分为多帧目标音频信号；

从多帧目标音频信号中，剔除目标静音信号，得到多帧目标非静音信号；

从每帧目标非静音信号中，提取目标音频帧特征；

对目标音频帧特征进行归一化处理，得到目标特征向量；

根据音频标注模型，为目标特征向量对应的目标音频信号添加相应的音频标签。

在本发明的另一个实施例中，根据音频标注模型，为目标特征向量对应的目标音频信号添加相应的音频标签之后，还包括：

将相邻且对应同一音频标签的目标音频信号进行合并。

在本发明的另一个实施例中，音频标签至少包括语音标签、音乐标签、欢呼标签、枪炮标签、引擎标签、静音标签。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本发明实施例提供了一种视频文件的标注方法，参见图2，本实施例提供的方法流程包括：

201、服务器获取建模视频文件。

本实施例中涉及到的视频文件有两种类型，一种用于构建音频标注模型，称为建模视频文件，一种需要进行音频识别，称为待标注的视频文件。其中，建模视频文件的数量可以为10个、20个、30个等，本实施例不对建模视频文件的数量作具体的限定。在实际应用中，为了提高所构建的音频标注模型的准确性，服务器所获取的建模视频文件的数量越多越好。关于服务器获取建模视频文件的方式，包括但不限于从互联网上获取比较典型的视频文件，并将获取到的视频文件作为建模视频文件。所谓典型的视频文件是指在单一音频场景下所录制的视频文件。

202、服务器从建模视频文件中，提取建模音频文件。

服务器从建模视频文件中，提取建模音频文件的方式有以下几种：

第一种方式：服务器可借助音频提取工具，从建模视频文件中提取建模音频文件。

第二种方式：服务器可根据视频文件的编码格式，对建模视频文件进行解码，得到解码后的视频文件，并根据音频文件的编码格式，从解码后的视频文件中，提取建模音频文件。其中，视频文件的常用编码格式有AVI、wma、rmvb、rm、flash、mp4、mid等；音频文件的常用编码格式有PCM、WAV、MP3、WMA等。

当然，除了采用上述几种方式，还可以采用其他方式，本实施例不再一一说明。

203、服务器从建模音频文件中，识别出多个音频片段，每个音频片段对应一个音频标签。

在本实施例中，音频场景可以包括语音场景、音乐场景、欢呼场景、枪炮场景、打斗场景、引擎场景、静音场景及其他场景等，每种音频场景对应一种音频标签，例如，语音场景对应语音标签、音乐场景对应音乐标签、欢呼场景对应欢呼标签、枪炮场景对应枪炮标签、打斗场景对应打斗标签、引擎场景对应引擎标签、静音场景对应静音标签等。

当服务器从建模视频文件中提取建模音频文件之后，用户可基于所划分的音频场景，从建模音频文件中识别出不同的音频片段，并通过人工的方式在服务器上为每个音频片段标注一个音频标签。服务器检测到用户的操作后，获取用户所标注的多个音频片段，并将获取到的多个音频片段，作为从建模音频文件中，识别出的音频片段。在本实施例中，每个音频片段的时长大致为几秒到几分钟，各个音频场景对应的音频片段的总时长一般在100分钟到200分钟之间。

需要说明的是，在音频处理领域，静音的音量一般为零，当任一音频片段的音量为0时，可直接确定该音频片段为静音片段。因此，为了减少构建音频标注模型时的计算量，服务器在识别多个音频片段时，可仅识别非静音片段。

为了便于在后续步骤中，对识别出的音频片段进行计算，服务器从建模视频文件中识别出多个音频片段之后，还将对识别出的音频片段进行进一步处理：

第一步，将不同存储格式、不同规格的音频片段转化为相同存储格式、相同规格的音频片段，本实施例以将识别出的多个音频片段转化为wav、单通道、采样率为16K的音频片段为例。

第二步，将转化为采样率16KHz、单声道、wav格式的音频片段进行预加重处理，得到预加重音频信号。设定原始音频片段表达式为y(n)，预加重处理后得到的预加重音频信号为y(n)，则预加重处理如下述公式(1)：

y(n)＝x(n)-λx(n-1) (1)

其中，λ为常数。

经过预加重处理，可以提高音频片段的高频分量，减少尖锐噪声的影响。

204、对于任一音频片段，服务器将音频片段划分为多帧音频信号。

本实施例中的音频片段实质上都是一个时变信号，时变信号具有不稳定、非线性等特征，研究起来十分不方便。在对时变信号研究时发现，时变信号具有短时平稳特性，在一段时间例如几十毫秒内，时变信号又呈现一定的稳定性。为了获取到稳定的线性信号，在音频处理领域，通常采用窗函数将较大的音频片段划分为多帧音频信号。其中，窗函数包括矩形窗函数、三角窗函数、汉明窗函数、高斯窗函数等。在实际处理过程中，所采用的窗函数不同，所划分的音频信号也是不同的，本实施例选取公式(2)所示的汉明窗函数将预加重音频片段划分为多帧音频信号为例。

其中，ω(n)为函数窗函数，n为当前的采样点，N为一帧内采样点的个数。

当采用汉明窗函数将每个音频片段划分为多帧音频信号时，预先选取一个固定帧长，以该帧长为单位，每次移动帧长的一半。本实施例中，设定每帧音频信号的帧长为30ms，帧移为10ms，每帧音频信号中包括480个采样点。

205、服务器剔除多帧音频信号中的静音信号，得到多帧非静音信号。

虽然服务器从建模音频文件中，识别出的音频片段为非静音片段，但是非静音片段所划分的多帧音频信号中，可能包括静音信号，为了减少计算量和计算时间，需要将每个音频片段所划分的多帧音频信号中的静音信号剔除，以得到多帧非静音信号。

在音频处理领域，短时能量反映音频信号的能量随时间的变化关系，可用于静音信号的检测。短时能量可用于如下公式(3)表示：

E_{n} = Σ_{m = 0}^{N - 1} x {(m)}^{2} - - - (3)

其中，E_n为短时能量特征，x(m)为非静音信号序列，N为序列长度。

短时过零率表示在一个窗口内音频信号通过零值的次数，在波形中表现为穿过时间轴的情况。为了抵抗低频对短时过零率干扰，可设置一个阈值T。短时过零率可用公式(4)表示：

Z_{n} = Σ_{m = 0}^{N - 1} \frac{1}{4} (| sgn [x (m) - T] - sgn [x (m - 1) - T] | + | sgn [x (m) + T] - sgn [x (m - 1) + T] |) - - - (4)

其中，为短时过零率，x(m)为非静音信号序列，N为序列长度。

sgn[·]表示符号函数，该符号函数可用如下公式(5)表示：

sgn [x (n)] = \{\begin{matrix} 1, & x (n) &GreaterEqual; 0 \\ - 1, & x (n) < 0 \end{matrix} - - - (5)

基于短时能量和短时过零率的含义，本实施例提供的方法采用短时能量特征和短时过零率特征相结合的方式，确定音频信号的起点和终点，并根据音频信号的起点和终点，识别出多帧音频信号中的静音信号，进而将静音信号从多帧音频信号中剔除，以得到多帧非静音信号。具体实施时，可采用下述步骤2051～2052。

2051、服务器提取每帧音频信号的短时能量特征和短时过零率特征。

服务器在提取每帧音频信号的短时能量特征时，可采用公式(3)进行提取；在提取短时过零率特征时，可采用公式(4)进行提取。

2052、服务器根据短时能量特征和短时过零率特征，剔除多帧音频信号中的静音信号，得到多帧非静音信号。

服务器在根据短时能量特征和短时过零率特征，剔除多帧音频信号中的静音信号之前，需要为短时能量特征设置两个门限值，分别为第一门限值和第二门限值，其中，第一门限值比较小，音频信号的强度很容易超过该第一门限值，第二门限值比较大，音频信号的强度需要达到一定值，才能超过该第二门限值。服务器还需要为短时过零率特征设置两个门限值，分别为第三门限值和第四门限值，其中，第三门限值比较小，音频信号的强度很容易超过该第三门限值，第四门限值比较大，音频信号的强度需要达到一定值，才能超过该第四门限值。

在本实施例中，服务器根据短时能量特征和短时过零率特征，对音频信号进行识别时，可分为如下几种情况：

第一种情况、当音频信号的短时能量未超过第一门限值，且短时过零率未超过第三门限值，则确定该音频信号为静音信号。

第二种情况、当音频信号的短时能量超过第一门限值或短时过零率超过第三门限值，且该音频信号的后面三帧音频信号中有一帧音频信号的短时能量超过第二门限值或短时过零率超过第四门限值，则确定该音频信号为非静音信号。

当识别出任一音频信号为静音信号之后，服务器将该静音信号从多帧音频信号中剔除，以得到多帧非静音信号。

206、服务器从每帧非静音信号中，提取音频帧特征。

在音频处理领域，音频信号具有时域和频域两种表示形式，相应地，音频信号也具有时域上特征和频域上的特征。音频信号时域上的特征包括短时能量特征和短时过零率特征等；频域上的特征包括子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征等。由于人耳听觉系统具有频谱分析的功能，因而人耳听到的声音是受频率限制的。在数字信号处理中，常把时域音频信号转换到频域音频信号进行分析。

本步骤中服务器从每帧非静音信号中所提取音频帧特征，主要是指频域上的特征，具体提取时可采用下述步骤2061～2065：

2061、针对子带能量比特征。

子带能量比用来描述音频信号的频率分布的特征，可衡量不同子带的能量占整个频带能量的比值。通常每个子带的宽度可以是等长，也可以按照人耳感知特征为每个子带分配宽度。在频域上，按照频率区间[0,ω₀/8]、[ω₀/8,ω₀/4]、[ω₀/4,ω₀/2]、[ω₀/2,ω₀]可将音频信号的频带划分为四个均匀的子带，每个子带的能量不同。子带能量比可采用如下公式(6)进行计算：

D_{j} = \frac{1}{E} {&Integral;}_{L_{j}}^{U_{j}} {| X (ω) |}^{2} d ω - - - (6)

其中，ω₀表示采样频率的一半，D_j表示子带j的能量，E表示频谱能量，U_j表示子带j的上边界能量，L_j表示子带j的下边界能量，ω表示频率，X(ω)表示傅里叶变换。

2062、针对频率质心特征。

频谱质心(frequency centroid)为反映音频信号亮度的重要指标，是音频信号的频率能量分布的平均点。频谱质心可采用下述公式(7)进行计算：

ω_{c} = \frac{{&Integral;}_{0}^{ω_{0}} ω {| X (ω) |}^{2} d ω}{{&Integral;}_{0}^{ω_{0}} {| X (ω) |}^{2} d ω} - - - (7)

其中，ω_c表示频率质心，ω₀表示采样频率的一半，X(ω)表示傅里叶变换，ω表示频率。

2063、针对谱带宽特征。

谱带宽(Band width)反映了音频信号功率或能量在频谱中集中的范围，为衡量音频型号频域范围的重要指标。谱带宽可采用如下公式(8)进行计算：

B W = \sqrt{\frac{{&Integral;}_{0}^{ω_{0}} {(ω - ω_{0})}^{2} {| X (ω) |}^{2} d ω}{{&Integral;}_{0}^{ω_{0}} {| X (ω) |}^{2} d ω}} - - - (8)

其中，BW表示谱带宽，ω₀表示采样频率的一半，ω表示傅里叶变换，X(ω)表示频率。

2064、针对频率能量特征。

频率能量描述了音频信号的频率能量大小频率能量，可采用如下公式(9)进行计算：

E = l o g ({&Integral;}_{0}^{ω_{0}} {| X (ω) |}^{2} d ω) - - - (9)

其中，E表示频率能量，ω₀表示采样频率的一半，X(ω)表示傅里叶变换。

2065、针对人耳感知特征。

人耳感知特征也即是基于Mel频率的倒谱系数(Mel frequency cepstrumcoefficient，MFCC)，人耳感知特征是根据人耳的听觉机理来对音频信号进行分析的。经研究表明，人耳所听到的声音高低与声音的频率成线性正比关系，如果用Mel频率尺度表述二者之间的关系更加符合人耳听觉特性。对于Mel频率与实际频率的具体转换尺度，可用公式(10)进行计算：

Mel(f)＝2595lg(1+f/700) (10)

其中，Mel(f)表示转换后的频率，f表示实际频率。

人耳感知特征提取步骤可参见下述步骤(1)～(5)：

(1)、应用公式九将音频信号从实际频率尺度转换为Mel频率尺度。

(2)、根据数字处理信号的截止频率，在Mel频率轴上截取L个三角滤波器。其中，每个三角滤波器的下限频率为前一个三角滤波器的中心频率，每个三角滤波器的中心频率为上一个三角滤波器的下限频率，依次构成三角滤波器组。

(3)、计算音频信号的幅度谱|X_n(k)|，并采用公式(11)计算该幅度谱|X_n(k)|在每个三角滤波器上的输出：

m (l) = Σ_{k = o (k)}^{h (l)} W_{l} (k) | X_{n} (k) |, l = 1, 2, ..., L

W_{l} (k) = {\begin{matrix} \frac{k - o (l)}{c (l) - o (l)}, & o (l) \leq k \leq c (l) \\ \frac{h (l) - k}{h (l) - c (l)}, & c (l) \leq k \leq h (l) \end{matrix} - - - (11)

其中，m(l)表示幅度谱|X_n(k)|在第l个三角滤波器上的输出，o(l),c(l)和h(l)表示第l个三角滤波器的下限频率、中心频率和上限频率，k表示频率，L表示三角滤波器的数量。

(4)、根据计算出的，m(l)对其做对数运算，再做离散余弦变换，可得到公式(12)中的人耳感知特征：

c_{m f c c} (i) = \sqrt{\frac{2}{N}} Σ_{l = 1}^{L} l g m (l) c o s {(l - \frac{1}{2}) \frac{i π}{L}} - - - (12)

其中，c_mfcc(i)表示人耳感知特征，m(l)表示幅度谱|X_n(k)|在第l个三角滤波器上的输出，N表示人耳感知特征的维数，l表示第l个三角滤波器，L表示三角滤波器的数量。

(5)、将人耳感知特征做一阶差分及更高阶差分。

通过步骤205服务器提取了短时能量特征和短时过零率特征等时域上的特征，通过本步骤服务器提取了子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征等频域上的特征，并计算了人耳感知特征的一阶差分，基于短时能量特征、短时过零率特征、子带能量比特征、频率质心特征、谱带宽特征、频率能量特征、人耳感知特征及人耳感知特征的一阶差分所组成的17维的超向量，服务器可作为每帧音频信号的音频帧特征。

207、服务器对音频帧特征进行归一化处理，得到特征向量。

对于多帧音频信号来说，每一维的音频帧特征大小差异很大，为了便于后续计算，服务器还将对从每帧音频信号中提取的音频帧特征进行归一化处理，以得到每帧音频信号对应的特征向量。具体处理时，可采用下述步骤2071～2072：

2071、服务器获取建模音频文件中音频信号的音频帧特征的平均值和标准差。

由于本实施例中的音频帧特征为一个17维的超向量，因此，服务器在获取建模音频文件中音频信号的音频帧特征的平均值和标准差时，需要分别获取每维音频帧特征的平均值和标准差。

2072、服务器根据该平均值和标准差，应用以下公式(13)，对音频帧特征进行归一化处理，得到特征向量：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D - - - (13)

其中，f_d′为归一化后的音频帧特征，f_d为音频帧特征，μ_d为平均值，σ_d为标准差，d为维度，D为音频特征的总维数。

需要说明的是，由于每帧音频信号的音频帧特征均为一个17维的超向量，因此，服务器在应用公式(13)对每帧音频信号的音频帧特征进行归一化处理时，需要针对每一维的音频帧特征均作一次处理，这样处理后可得到一个17维的特征向量。

208、服务器根据特征向量及相应的音频标签，构建音频标注模型。

基于所获取到的建模音频文件中每帧音频信号对应的特征向量及音频标签，服务器通过采用GMM(Gaussian Mixture Models，高斯混合模型)，构建音频标注模型。其中，GMM是多个高斯分布的混合分布。GMM用多个高斯密度函数的加权和来逼近特征向量在特征空间的分布。GMM实现起来简单，但功能强大，在音频处理领域有广泛的应用。

在音频处理领域，由于每种音频场景下的音频信号都是由相应地GMM模型描述的，因此，对于具有相同音频标签的音频信号，在提取出音频帧特征，并进行归一化处理，得到特征向量之后，需要通过对特征向量进行训练，得到GMM模型，该GMM模型即为音频标注模型。由于建模音频文件中包含多种音频场景下的音频信号，且每个音频信号都标注相应的音频标签，因此，服务器通过对多个音频信号对应的特征向量及相应地音频标签进行训练，可得到多个GMM模型，每个GMM模型用于标注一种音频场景下的音频信号。实际上，构建GMM模型的过程，就是对GMM模型参数进行估计的过程。GMM参数估计最常用的一种方法就是最大似然估计法。最大似然估计的目的是在给定训练结果的前提下，寻求合适的模型参数λ，使得GMM模型的似然函数最大。GMM模型的似然函数可用公式(14)表示：

p (X | λ) = Π_{i = 1}^{N} P (x_{i} | λ) - - - (14)

其中，X为由对应同一音频标签的特征向量组成的训练集，N为特征向量的个数，i为任一特征向量，λ为模型参数。

虽然似然函数p(X|λ)和参数λ之间存在很复杂的非线性函数关系，不易用常规的方法直接求得最大值，但是参数λ可以通过EM算法迭代求得。EM算法的基本思路是从一个初始模型开始，来估计一个新的模型参数。在GMM模型中，特征向量由不同参数值λ的高斯混合概率密度函数唯一确定，因此，在训练过程中，服务器需要估计出待分类的音频信号对应的参数λ，更关键的是要得到使得该音频信号特征序列概率最大的参数λ。按照最大似然估计准则，就是要求出参数λ，使得对于该音频信号的特征向量模型的概率最大。最常用的估计参数λ的算法是EM算法。EM算法从初始化的模型参数开始，根据最大似然原则，利用迭代算法估计新的模型参数。每次迭代首先根据已知样本和当前参数估计得到未知数据的分布，然后在假设前一步所得到的分布正确的情况下，根据最大似然原则，计算新的模型的参数。然后不断地重复以上过程，在达到局部最大之前，每次的迭代都会增大似然度。当似然度不再改变时，说明达到了局部最大，这时得到的参数λ就是最优的参数。

209、服务器根据音频标注模型，为待标注的视频文件，添加音频标签。

对于任一待标注的视频文件，服务器采用ffmpeg等工具从互联网上提取出来后，先将该待标注的视频文件的格式参数转换为与建模视频文件相同的格式参数，然后基于所构建的音频标注模型，为待标注的视频文件，添加音频标签，具体添加过程，可参见下述步骤2091～2095：

2091、服务器将待标注的视频文件划分为多帧目标音频信号。

服务器可采用公式一中的汉明窗函数，将待标注的视频文件划分为多帧音频信号。

2092、服务器从多帧目标音频信号中，剔除目标静音信号，得到多帧目标非静音信号。

该步骤的实现方式与上述步骤205的实现方式相同，具体参见上述步骤205。

2093、服务器从每帧目标非静音信号中，提取目标音频帧特征。

该步骤的实现方式与上述步骤206的实现方式相同，具体参见上述步骤206。

2094、服务器对目标音频帧特征进行归一化处理，得到目标特征向量。

该步骤的实现方式与上述步骤207的实现方式相同，具体参见上述步骤207。

2095、服务器根据音频标注模型，为目标特征向量对应的目标音频信号添加相应的音频标签。

对目标音频信号的识别的目的是从所构建的多个音频标注模型中找到一个模型参数λ_k，使得目标特征向量X′具有最大的后验概率P(λ_k/X′)，其中，k为音频标注模型的个数。根据贝叶斯理论，最大后验概率可以用公式(15)表示：

P (λ_{k} / X^{'}) = \frac{P (X^{'} / λ_{k}) P (λ_{k})}{P (X^{'})} - - - (15)

由于P(λ_k)的先验概率未知，因此，可设定目标特征向量符合每个音频标注模型的可能性相同，也即是

对于一个确定的观察矢量X′，P(X′)是一个确定的常数值，对于所有的音频标注模型都相同，因此，在可通过计算P(X′/λ_k)的最大值，计算出目标特征向量的后验概率的最大值。在获取到目标特征向量的后验概率的最大值后，获取目标特征向量的后验概率的最大值对应的音频标注模型，进而为目标音频信号添加上该音频标注模型对应的音频标签。

除了为每帧目标音频信号标注上相应地音频标签之后，服务器还将为每帧目标音频信号标注上时间标签，该时间标签包括起始时间和结束时间，通过采用该种处理方式，每帧目标音频信号对应一个时间标签和一个音频标签，这两个标签的表现形式可以为[开始时间：结束时间]>音频标签。

在根据音频标注模型，为目标特征向量对应的目标音频信号添加相应的音频标签之后，服务器还将根据整个待标注的音频文件中的所有音频标签，将相邻且对应同一音频标签的目标音频信号进行合并，以得到最少的音频标签。图3为采用本实施例提供的方法标注后的视频文件的音频场景分布图，图3作为一种非常直观的人机交互方式，通过图3用户可以快速定位到自己感兴趣的段落进行预览。

对于上述根据音频标注模型为待标注的视频文件添加音频标签的过程，为了便于理解，下面将以图4为例进行说明。

参见图4，服务器获取建模视频文件，从建模视频文件中提取建模音频文件，根据不同的音频场景，从该建模音频文件中，识别出不同的音频片段，对识别出的音频片段进行预加重处理，得到预加重音频片段，将每个预加重音频片段分割成多帧音频信号，剔除多帧音频信号中的静音信号，得到多帧非静音信号。提取每帧非静音信号的音频帧特征，对建模音频文件中音频信号的音频帧特征进行归一化处理，得到特征向量，基于该特征向量及音频标签，构建GMM模型，通过对该GMM模型进行训练，得到GMM模型参数。

对于任一待标注的视频文件，例如电影文件，从该电影文件中提取电影音频文件，将该电影音频文件划分为多帧目标音频信号，剔除多帧音频信号中的目标静音信号，得到多帧目标非静音信号。提取每帧目标非静音信号的目标音频帧特征，并对待标注的视频文件中的目标非静音信号进行归一化处理，得到目标特征向量。基于得到的GMM模型参数，为目标音频信号标注音频标签，并将标注音频标签的视频文件显示出来。

参见图5，本发明实施例提供了一种视频文件的标注装置，该装置包括：

获取模块501，用于获取建模视频文件；

第一提取模块502，用于从建模视频文件中，提取建模音频文件；

识别模块503，用于从建模音频文件中，识别出多个音频片段，每个音频片段对应一个音频标签；

划分模块504，用于对于任一音频片段，将音频片段划分为多帧音频信号；

第二提取模块505，用于从每帧音频信号中，提取音频帧特征；

处理模块506，用于对音频帧特征进行归一化处理，得到特征向量；

构建模块507，用于根据特征向量及相应的音频标签，构建音频标注模型；

添加模块508，用于据音频标注模型，为待标注的视频文件，添加音频标签。

在本发明的另一个实施例中，该装置还包括：

预加重模块，用于对音频片段进行预加重处理，得到预加重音频片段；

划分模块504，用于采用窗函数将预加重音频片段划分为多帧音频信号。

在本发明的另一个实施例中，该装置还包括：

剔除模块，用于根据短时能量特征和短时过零率特征，剔除多帧音频信号中的静音信号，得到多帧非静音信号；

第二提取模块505，用于从每帧非静音信号中，提取子带能量比特征、频率质心特征、谱带宽特征、频率能量特征及人耳感知特征。

在本发明的另一个实施例中，处理模块506，用于获取建模音频文件中音频信号的音频帧特征的平均值和标准差；根据平均值和标准差，应用以下公式，对音频帧特征进行归一化处理，得到特征向量：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D

在本发明的另一个实施例中，添加模块508，用于将待标注的视频文件划分为多帧目标音频信号；从多帧目标音频信号中，剔除目标静音信号，得到多帧目标非静音信号；从每帧目标非静音信号中，提取目标音频帧特征；对目标音频帧特征进行归一化处理，得到目标特征向量；根据音频标注模型，为目标特征向量对应的目标音频信号添加相应的音频标签。

在本发明的另一个实施例中，该装置还包括：

综上，本发明实施例提供的装置，无需借助人力，基于所构建的音频识别模型为待标注的视频文件添加不同的音频标签，在满足用户预览需求的前提下，不仅节省了制作成本，而且提高了标注效率及辨识度。

图6是根据一示例性实施例示出的一种用于视频文件的标注的服务器。参照图6，服务器600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述视频文件的标注方法中服务器所执行的功能，该方法包括：

获取建模视频文件。

从建模视频文件中，提取建模音频文件。

从建模音频文件中，识别出多个音频片段，每个音频片段对应一个音频标签。

对于任一音频片段，将音频片段划分为多帧音频信号。

从每帧音频信号中，提取音频帧特征。

对音频帧特征进行归一化处理，得到特征向量。

根据特征向量及相应的音频标签，构建音频标注模型。

根据音频标注模型，为待标注的视频文件，添加音频标签。

对音频片段进行预加重处理，得到预加重音频片段；

采用窗函数将预加重音频片段划分为多帧音频信号。

提取每帧音频信号的短时能量特征和短时过零率特征；

从每帧音频信号中，提取音频帧特征，包括：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D

将待标注的视频文件划分为多帧目标音频信号；

从每帧目标非静音信号中，提取目标音频帧特征；

对目标音频帧特征进行归一化处理，得到目标特征向量；

将相邻且对应同一音频标签的目标音频信号进行合并。

服务器600还可以包括一个电源组件626被配置为执行服务器600的电源管理，一个有线或无线网络接口650被配置为将服务器600连接到网络，和一个输入输出(I/O)接口658。服务器600可以操作基于存储在存储器632的操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本发明实施例提供的服务器，无需借助人力，基于所构建的音频识别模型为待标注的视频文件添加不同的音频标签，在满足用户预览需求的前提下，不仅节省了制作成本，而且提高了标注效率及辨识度。

需要说明的是：上述实施例提供的视频文件的标注装置在标注视频文件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将视频文件的标注装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频文件的标注装置与视频文件的标注方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频文件的标注方法，其特征在于，所述方法包括：

获取建模视频文件；

从所述建模视频文件中，提取建模音频文件；

对于任一音频片段，将所述音频片段划分为多帧音频信号；

从每帧音频信号中，提取音频帧特征；

对所述音频帧特征进行归一化处理，得到特征向量；

根据所述特征向量及相应的音频标签，构建音频标注模型；

2.根据权利要求1所述的方法，其特征在于，所述将所述音频片段划分为多帧音频信号之前，还包括：

对所述音频片段进行预加重处理，得到预加重音频片段；

所述将所述音频片段划分为多帧音频信号，包括：

采用窗函数将所述预加重音频片段划分为多帧音频信号。

3.根据权利要求1所述的方法，其特征在于，所述从每帧音频信号中，提取音频帧特征之前，还包括：

提取每帧音频信号的短时能量特征和短时过零率特征；

所述从每帧音频信号中，提取音频帧特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述音频帧特征进行归一化处理，得到特征向量，包括：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D

5.根据权利要求1所述的方法，其特征在于，所述根据所述音频标注模型，为待标注的视频文件，添加音频标签，包括：

将所述待标注的视频文件划分为多帧目标音频信号；

从每帧目标非静音信号中，提取目标音频帧特征；

6.根据权利要求5所述的方法，其特征在于，所述根据所述音频标注模型，为所述目标特征向量对应的目标音频信号添加相应的音频标签之后，还包括：

将相邻且对应同一音频标签的目标音频信号进行合并。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述音频标签至少包括语音标签、音乐标签、欢呼标签、枪炮标签、引擎标签、静音标签。

8.一种视频文件的标注装置，其特征在于，所述装置包括：

获取模块，用于获取建模视频文件；

第二提取模块，用于从每帧音频信号中，提取音频帧特征；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

11.根据权利要求8所述的装置，其特征在于，所述处理模块，用于获取所述建模音频文件中音频信号的音频帧特征的平均值和标准差；根据所述平均值和所述标准差，应用以下公式，对所述音频帧特征进行归一化处理，得到特征向量：

{f_{d}}^{'} = \frac{f_{d} - μ_{d}}{σ_{d}}, d = 1, ...., D

12.根据权利要求8所述的装置，其特征在于，所述添加模块，用于将所述待标注的视频文件划分为多帧目标音频信号；从所述多帧目标音频信号中，剔除目标静音信号，得到多帧目标非静音信号；从每帧目标非静音信号中，提取目标音频帧特征；对所述目标音频帧特征进行归一化处理，得到目标特征向量；根据所述音频标注模型，为所述目标特征向量对应的目标音频信号添加相应的音频标签。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8至13中任一权利要求所述的装置，其特征在于，所述音频标签至少包括语音标签、音乐标签、欢呼标签、枪炮标签、引擎标签、静音标签。