CN112927713A

CN112927713A - 音频特征点的检测方法、装置和计算机存储介质

Info

Publication number: CN112927713A
Application number: CN201911243686.6A
Authority: CN
Inventors: 张伟; 刘瑶; 陈仁健
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2021-06-08
Anticipated expiration: 2039-12-06
Also published as: CN112927713B

Abstract

本申请提供一种音频特征点的检测方法、装置和计算机存储介质，获取待检测音频，将待检测音频按预设的间隔划分为多个音频帧，基于时频转换算法计算每一个音频帧在目标频段的音频信号强度，目标频段指代预先指定的频率区间，最后检测得到待检测音频中的目标音频帧；其中，目标音频帧指代目标频段的音频信号强度满足强度检测条件的音频帧；待检测音频的部分或全部目标音频帧对应的时间点作为待检测音频的特征点。本方案能够计算各个音频帧在特定音源所对应的频率区间上的信号强度，从而准确识别出音频中特定音源的强度峰值。

Description

音频特征点的检测方法、装置和计算机存储介质

技术领域

本发明涉及音频处理技术领域，特别涉及一种音频特征点的检测方法、装置和计算机存储介质。

背景技术

音频的特征点，指代音频中具有用户所指定的特征的若干个时间点，在视频编辑和制作时，用户需要检测出视频的背景音乐的特征点，在这些特征点处设置视频特效，或者以这些特征点作为视频画面切换的时间点。

现有的检测音频的特征点的方式是，直接检测音频信号中的信号强度的峰值所对应的时间点，然后将这些时间点作为特征点输出给用户。

音频一般由多种不同音源产生的声音组合而成(例如，多种乐器合奏中，不同乐器就是不同音源)。这类音频中，用户可能需要以其中某种音源的声音的强度峰值对应的时间点作为特征点，而现有的检测方法以音频整体的信号强度作为特征点检测的依据，难以识别出其中用户指定的音源对应的强度峰值，无法满足用户的需求。

发明内容

基于上述现有技术的缺点，本申请提供一种音频特征点的检测方法，以解决现有的检测方法无法具体识别特定音源的强度峰值的问题。

本申请第一方面提供一种音频特征点的检测方法，包括：

获取待检测音频；

将所述待检测音频按预设的间隔划分为多个音频帧；

针对每一个所述音频帧，基于时频转换算法计算所述音频帧的目标频段的音频信号强度；其中，所述目标频段，指代预先指定的频率区间；

检测得到多个所述音频帧中的目标音频帧；其中，所述目标音频帧指代目标频段的音频信号强度满足强度检测条件的音频帧；所述待检测音频的部分或全部目标音频帧对应的时间点作为所述待检测音频的特征点。

可选的，所述检测得到多个所述音频帧中的目标音频帧，包括：

针对每一个所述音频帧，将所述音频帧的目标频段的音频信号强度与预设的强度阈值进行比对；

将目标频段的音频信号强度大于所述强度阈值的音频帧，确定为目标音频帧。

针对每一个所述音频帧，计算所述音频帧的目标频段的音频信号强度，和所述音频帧对应的每一个第一参考音频帧的目标频段的音频信号强度的差值；其中，所述音频帧对应的第一参考音频帧，指代所述音频帧之前的N个音频帧和所述音频帧之后的N个音频帧，所述N是预设的正整数；

将目标频段的音频信号强度，和对应的每一个参考音频帧的目标频段的音频信号强度的差值均大于预设的阈值的音频帧，确定为所述目标音频帧。

可选的，所述检测得到多个所述音频帧中的目标音频帧之前，还包括：

针对每一个所述音频帧，对所述音频帧的目标频段的音频信号强度，以及所述音频帧的第二参考音频帧的目标频段的音频信号强度进行加权计算，得到所述音频帧的加权后的目标频段的音频信号强度；其中，所述第二参考音频帧指代所述音频帧之前的M个音频帧和所述音频帧之后的M个音频帧，所述M是预设的正整数；

其中，所述目标音频帧指代，加权后的目标频段的音频信号强度满足强度检测条件的音频帧。

可选的，所述针对每一个所述音频帧，基于时频转换算法计算所述音频帧的目标频段的音频信号强度，包括：

针对每一个音频帧，基于时频转换算法计算所述音频帧的频谱数据；其中，所述频谱数据包括所述音频帧的多个连续的频段的音频信号强度；所述多个连续的频段包括目标频段；

所述检测得到多个所述音频帧中的目标音频帧之前，还包括：

针对每一个音频帧，对所述音频帧的目标频段的音频信号强度，以及所述音频帧的参考频段的音频信号强度进行加权计算，得到所述音频帧的加权后的目标频段的音频信号强度；其中，所述参考频段指代与所述目标频段相邻的X个频段，所述X是预设的正整数；

可选的，所述待检测音频是用户指定的待处理视频的背景音频；

将部分或全部所述目标音频帧对应的时间点确定为所述待检测音频的特征点之后，还包括：

针对每一个所述特征点，在所述待处理视频的特征点处添加视频特效，或者，将所述特征点作为所述待处理视频的画面切换时间点。

本申请第二方面提供一种音频特征点的检测装置，包括：

获取单元，用于获取待检测音频；

划分单元，用于将所述待检测音频按预设的间隔划分为多个音频帧；

计算单元，用于针对每一个所述音频帧，基于时频转换算法计算所述音频帧的目标频段的音频信号强度；其中，所述目标频段，指代预先指定的频率区间；

检测单元，用于检测得到多个所述音频帧中的目标音频帧；其中，所述目标音频帧指代目标频段的音频信号强度满足强度检测条件的音频帧；所述待检测音频的部分或全部目标音频帧对应的时间点作为所述待检测音频的特征点。

可选的，所述检测单元检测得到多个所述音频帧中的目标音频帧时，具体用于：

可选的，所述检测装置还包括：

加权计算单元，用于针对每一个所述音频帧，对所述音频帧的目标频段的音频信号强度，以及所述音频帧的第二参考音频帧的目标频段的音频信号强度进行加权计算，得到所述音频帧的加权后的目标频段的音频信号强度；其中，所述第二参考音频帧指代所述音频帧之前的M个音频帧和所述音频帧之后的M个音频帧，所述M是预设的正整数；

本申请第三方面提供一种计算机存储介质，用于存储程序，所述程序被执行时，用于实现如本申请第一方面任意一项提供的音频特征点的检测方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种音频特征点的检测方法的流程图；

图2为本申请实施例使用的时频转换算法计算得到的特定音频帧的频谱图；

图3为本申请再一实施例提供的一种音频特征点的检测方法的流程图；

图4为本申请又一实施例提供的一种自动在视频中添加视觉效果的方法的流程图；

图5为本申请实施例提供的一种检测信息设置界面的示意图；

图6为本申请实施例提供的一种音频特征点的检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在编辑或制作视频时，用户往往需要以视频所包含的音频信号的特征点作为添加视频特效的时间点，或者作为视频画面切换的时间点。常见的特征点是，音频中的某种声音的响度比较大的时间点，换言之，也就是音频中的音频信号的强度峰值对应的时间点。这里视频所包含的音频信号，指代与视频的图像数据同步输出的音频信号，包括视频中的背景音乐，以及人物对话和歌唱的声音等。显然，日常生活中视频所包含的音频信号，往往是由多种不同音源发出的声音混合成的。对于这类音频，如背景技术所介绍的现有的特征点检测技术由于直接对所有频率区间内的整体音频信号强度进行检测，而难以识别出音频中不同音源产生的声音的特征点，因此难以满足用户针对某一音源进行特征点检测的需求。

具体的，对于一段由图像数据以及和图像数据一并输出的流行歌曲的视频，流行歌曲中一般包括歌手演唱的人声，以及作为伴奏的钢琴声，或者鼓声。用户可能希望检测出流行歌曲中人声的强度峰值点作为歌曲的特征点，通俗的说，可以理解为希望检测出歌曲中人声比较响的那些时间点作为音频特征点，然而现有的检测技术直接检测所有频率区间内的整体音频信号强度，因而会将人声和伴奏的钢琴声等混合后的强度峰值点作为特征点，无法准确定位出人声的强度峰值点。

为了解决上述现有技术的缺点，本申请第一个实施例提供一种音频特征点的检测方法，请参考图1，该方法包括：

S101、获取待检测音频。

本申请任一实施例所提供的音频特征点的检测方法，可以应用于前文所述的视频处理过程，这种情况下，步骤S101提及的待检测音频，可以是待处理视频包含的完整的音频信号，也可以是其中某一个片段的音频信号。

换言之，根据用户的选择，执行步骤S101时可以直接提取待处理视频的完整的音频信号作为待检测音频，也可以提取出完整的音频信号后剪出其中用户所指定的音频片段(例如，针对长度为10分钟的一段视频，用户可以指定检测其中第5分钟输出的这段音频)，将这个音乐片段作为待检测音频。

可以理解的，本申请实施例不仅可以在视频处理场景检测视频所包含的音频信号，还可以适用于其他的需要检测音频的特征点的场景中。例如，在对一个包含海量音乐的音乐库进行音乐分类时，可以利用本申请实施例所提供的方法检测每一段音乐的特征点，根据检测结果进行音乐的分类。这种场景下，待检测音频就是音乐库中独立的音乐。

可选的，获得待检测音频之后可以对待检测音频进行预处理，包括音频降噪和滤波等，得到预处理后的待检测音频。若进行了预处理，则后续的步骤所处理的待检测音频，就是预处理后的待检测音频。

S102、将待检测音频按预设的间隔划分为多个音频帧。

音频帧指代很短的一个时间区间内的音频信号，例如，上述预设的间隔可以是30ms，那么，在划分音频帧的时候，就可以将待检测音频的每30ms的音频信号划分为一个音频帧。当然，音频帧的划分间隔可以根据需要调整，这里的30ms的间隔仅仅是一个可选的例子。

划分音频帧时，相邻的音频帧之间可以存在部分重叠，或者没有重叠。例如，在上述例子中，若设置划分时相邻音频帧不重叠，那么划分的结果就是，待检测音频的第1ms至第30ms的音频信号构成第一个音频帧，第31ms至第60ms的音频信号构成第二个音频帧，以此类推。

若设置相邻的音频帧之间可以有15ms的重叠，那么，对待检测音频的划分结果就是，第1ms至第30ms的音频信号构成第一个音频帧，第16至第45ms的音频信号构成第二个音频帧，第31ms至第60ms的音频信号构成第三个音频帧，也就是说，每两个相邻的音频帧的起点之间的时间间隔为15ms。

S103、计算每一个音频帧的目标频段的音频信号强度。

具体的，可以利用任意一种时频转换算法计算划分得到的每一个音频帧，得到音频帧的目标频段的音频信号强度。

通过划分待检测音频得到的音频帧，是以时间为横坐标，幅度为纵坐标表现的，持续一定时间的时域信号。时频转换算法是一类用于计算时域信号，得到时域信号的频域特性的算法，一般的，计算得到的频域特性可以表示为一个频谱图，频谱图以频率为横坐标轴，横坐标轴设置有若干个频率区间，纵坐标轴为信号强度，一个频率区间所对应的纵坐标值，就是被计算的时域信号在这个频率区间的信号强度。

具体在音频处理领域，这里的信号强度可以指代，以分贝dB为单位表示的音频信号强度。

横坐标轴上频率区间的大小，取决于使用的时频转换算法，以及计算时所设置的参数。

可选的，利用时频转换算法计算频域特性时，具体计算多大的频率范围，以及计算该范围内的哪些频率区间的信号强度，可以任意选择。本实施例所提供的方法中，考虑到人的听觉的频率响应范围约为20Hz到18000Hz(可以理解为，人一般只能听到这一范围内的频率的声音)，因此，可以将需要计算的频率范围设定为人的听觉的频率响应范围。目标频段，则是在这个频率范围内预先指定的一个较小的频率区间。

目标频段可以通过以下两种方式中的任意一种确定：

第一种方式，用户可以根据实际检测需求直接输入目标频段。不同的声源所产生的声音的频率区间不同，例如，男中音的频率区间约为123Hz至493Hz，小提琴的声音的频率区间约为200Hz至400Hz，鼓声的频率区间约为50Hz至150Hz。在使用本实施例提供的检测方法时，用户可以先确定需要检测哪一类音源的特征点，然后查找并直接输入这一类音源发出的声音的频率区间作为上述目标频段。

例如，用户希望将待检测音频中鼓声的音频信号的强度峰值所对应的时间点作为特征点，那么就可以输入鼓声的频率区间，也就是50Hz至150Hz作为目标频段。

第二种方式中，用于执行本实施例的检测方法的软件可以在执行步骤S103之前自动确定目标频段。

具体的，可以在执行步骤S103之前输出一个声源选择界面，用户选择其中显示的任意一个声源，然后软件自动匹配用户选择的声源的频率区间，将匹配得到的频率区间作为目标频段。其中，每一种声源具体匹配多大的频率区间，可以从预先配置的音源和频率区间的对应关系表中查找，也可以由软件对利用机器学习的方法对海量的音频进行分析，从而确定特定音源匹配的频率区间。

另一方面，也可以直接分析待检测音频的特征，然后查找关联音频(指代和待检测音频具有相似的特征的音频)的特征点检测结果，将对关联音频进行特征点检测时所使用的目标频段作为当前的待检测音频的目标频段。

例如，通过分析待检测音频的特征，并查找待检测音频的关联音频，可以发现对于这类音乐风格的音频，用户一般会选择男中音对应的频率区间作为目标频段，那么在执行步骤S103时就可以自动将男中音对应的频率区间作为目标频段。

最后需要说明的是，不论采用哪一种方式，目标频段均可以设置一个或者多个。

S104、检测出待检测音频中的目标音频帧。

其中，目标音频帧指代目标频段的音频信号强度满足强度检测条件的音频帧。

根据强度检测条件的不同，步骤S104所述的检测目标音频帧的具体实现方法也不同。具体的，执行步骤S104时，可以执行下述两方面的实现方法中的任意一种：

在第一方面的检测方法中，上述强度检测条件是，音频帧在目标频段的音频信号强度大于预设的第一阈值。换言之，对于划分待检测音频得到的任意音频帧，只要计算得到的这个音频帧在目标频段的音频信号强度大于第一阈值，这个音频帧就是目标音频帧。基于这一条件，步骤S104的具体实现过程可以是：

针对每一个音频帧，将该音频帧的目标频段的音频信号强度与预设的第一阈值进行比对；

比对之后，将目标频段的音频信号强度大于第一阈值的音频帧，确定为目标音频帧，相对的，若比对后发现一个音频帧的目标频段的音频信号强度小于或等于第一阈值，则该音频帧不是目标音频帧。

第二方面的检测方法中，强度检测条件是，某个音频帧在目标频段的音频信号强度，显著高于这个音频帧之前的和之后的若干个音频帧在目标频段的音频信号强度。

换言之，第二方面的强度检测条件，就是要将待检测音频中，目标频段的音频信号明显高于周围的其他音频帧在目标频段的音频信号强度的音频帧，确定为目标音频帧。

针对这一强度检测条件，步骤S104的具体实现过程可以是：

针对每一个音频帧，计算这个音频帧的目标频段的音频信号强度，和这个音频帧对应的每一个第一参考音频帧的目标频段的音频信号强度的差值。

其中，对于任意一个音频帧，这个音频帧的第一参考音频帧，指代这个音频帧之前的N个音频帧和这个音频帧之后的N个音频帧，这里的N是预设的正整数。

然后针对每一个音频帧，判断这个音频帧的目标频段的音频信号强度和对应的若干个第一参考音频帧的目标频段的音频信号强度的差值，是否均大于预设的第二阈值，若是则确定这个音频帧是目标音频帧，若否则这个音频帧不是目标音频帧。

结合一个具体的例子来说，上述N设置为30，用音频帧在待检测音频中的位置作为每个音频帧的编号，假设目前需要判断待检测音频的第50个音频帧是否为目标音频帧，那么需要分别计算第50个音频帧在目标频段的音频信号强度(记为X(50))和第50个音频帧之前的30个音频帧，也就是第20个音频帧至第49个音频帧的目标频段的音频信号强度(依次记为X(20)，X(21)……X(48)，X(49))的差值，也就是依次计算：

X(50)-X(49)，X(50)-X(48)，……X(50)-X(21)，X(50)-X(20)

共计计算得到30个差值。另一方面，按照上述计算方法依次计算第50个音频帧在目标频段的音频信号强度和第50个音频帧之后的30个音频帧，也就是第51个音频帧至第80个音频帧的目标频段的音频信号强度(依次记为X(51)，X(52)……X(79)，X(80))的差值，得到30个差值。最后检测这60个差值是否均大于上述第一阈值，若这60个差值均大于第一阈值，则第50个音频帧是目标音频帧，反之则第50个音频帧不是目标音频帧。

在第二方面的检测方法中，位于待检测音频的两端的音频帧可能缺失一部分的第一参考音频帧(例如，N设为30时，第20个音频帧的前面就只有19个音频帧，不足30个音频帧)，对于这些音频帧可以直接忽略缺失的部分。例如，N设为30时，对于第20个音频帧，可以直接将之前的19个音频帧和之后的30个音频帧作为第一参考音频帧。

可选的，当预先确定的目标频段是多个频段时，可以指定只有每一个目标频段的音频信号强度均满足强度检测条件的音频帧才作为目标音频帧，也可以指定任意一个目标频段的音频信号强度满足强度检测条件的音频帧就是目标音频帧。

S105、将待检测音频的部分或全部目标音频帧对应的时间点作为待检测音频的特征点。

一个音频帧对应的时间点，可以根据需要设定，例如，可以设定为这个音频帧的起始时间点，结束时间点，或者音频帧中间的时间点。

可选的，在本申请所提供的音频特征点的检测方法中，可以直接将检测得到的所有目标音频帧对应的时间点确定为待检测音频的音频特征点。

另一方面，若待检测音频包含一段乐曲(例如，可以是待检测音频可以是一段歌曲，或者是一段歌曲和声音混合的音频)，也可以在检测得到目标音频帧之后，筛选出若干个目标音频帧中，接近于乐曲的节拍位置的目标音频帧，仅将这部分目标音频帧对应的时间点确定为待检测音频的特征点，使得最终确定的音频特征点和待检测音频的乐曲的节奏基本一致。

节拍是音乐演奏中的一种概念。对于一段乐曲，时间被分成均等的基本单位，每个单位就是一个节拍，具体一个单位的长短则由乐曲的每分钟节拍数(Beat Per Minute，BPM)决定。例如，一段乐曲的BPM是10，表示这段乐曲播放时每分钟包含6个节拍，那么每个节拍的持续时间就是10s。

节拍位置，则指代相邻两个节拍之间的分隔点，例如，对于BPM为10的一段歌曲，歌曲的第1秒至第10秒是一个节拍，第11秒至第20秒是另一个节拍，那么，第10秒结束的时刻就是一个节拍位置。

可选的，上述第二方面对目标音频帧的筛选，可以由用户自主进行筛选，也可以根据特定的阈值由软件自动筛选。具体的，自动筛选时，可以统计每个目标音频帧和相邻的节拍位置的时间间隔，将其中和相邻的节拍位置的时间间隔小于或等于预设的时间阈值的目标音频帧所对应的时间点，确定为待检测音频的音频特征点。

进一步的，检测出目标音频帧之后，还可以将连续几个相邻的目标音频帧所对应的时间点，合并为一个音频特征点。

不同的音源所发出的声音，一般对应不同的频段(或者说，频率区间)。假设用户需要利用本申请所提供的音频特征点的检测方法检测歌曲中鼓声的强度峰值点(指代音频信号的强度峰值所在的时间点)，可以首先将需要检测的音源对应的频段指定为目标频段，也就是将鼓声对应的频段50Hz-150Hz指定为目标频段。

检测过程中，本申请所提供的方法能够识别出50Hz-150Hz频段内的音频信号，也就是表示鼓声的音频信号的强度峰值点，而忽略其他频段的音频信号的强度峰值点，最终准确的将用户所指定的音源发出的声音的强度峰值点特征点，而排除其他音源产生的声音的强度峰值点。

综上所述，相比于现有的音频特征点检测方法，本申请能够准确的识别出多音源混合音频中，用户所指定的音源产生的声音对应的特征点。

本申请提供一种音频特征点的检测方法，获取待检测音频，将待检测音频按预设的间隔划分为多个音频帧，基于时频转换算法计算每一个音频帧在目标频段的音频信号强度，目标频段指代预先指定的频率区间，最后检测得到待检测音频中的目标音频帧；其中，目标音频帧指代目标频段的音频信号强度满足强度检测条件的音频帧；待检测音频的部分或全部目标音频帧对应的时间点作为待检测音频的特征点。

不同的声源发出的声音的频率区间不同，本方案能够计算各个音频帧在指定的频率区间上的信号强度，因此，只需要确定需要检测的声源所对应的频率区间(即目标频段)，本方案就能够通过检测各个音频帧在目标频段的音频信号强度准确识别出音频中特定声源的特征点(例如，特定声源的强度峰值点)。

本申请第一个实施例所提供的音频特征点的检测方法中，步骤S103指出可以利用时频转换算法计算每一个音频帧的目标频段的音频信号强度，下面介绍一种可以用于实现计算音频帧的目标频段的音频信号强度的时频转换算法作为参考，该算法可以适用于本申请任一实施例中用于计算音频帧的目标频段的音频信号强度的步骤。可以理解的，步骤S103可以基于下文所介绍的时频转换算法实现，也可以基于其他的时频转换算法实现。

时频转换算法能够计算出持续一定时间的一段时域信号在任意一个指定频率区间上的音频信号强度，但是，如前文所述，人的听觉的频率响应范围约为20Hz到18000Hz，因此这里只需要计算目标音频帧在20Hz到18000Hz范围内的某个频率区间的音频信号强度，也就是说，本申请实施例中使用视频转换算法时可以设置频率下限Fmin为20Hz，频率上限Fmax为18000Hz。

本实施例所使用的时频转换算法，是常数Q变换(constant Q transform，CQT)算法，其具体计算方法如下：

首先将上述频率范围按以下公式划分出若干个频率区间：

F_k＝F_min×2^k-1

其中，k是大于或等于1，小于或等于K的正整数，K是CQT算法中设定的需要划分的频率区间的数量，一般将K设置为32，对应的，上述公式的k就是大于或等于1，小于或等于32的正整数。

通过将上述公式的k值依次设置为1至32，可以计算出包含前述频率下限在内的32个频率值，如下述表1所示：

表1

计算得到的上述32个频率值和频率上限Fmax，将20Hz到18000Hz划分为32个频段，具体的，第1个频段是F₁至F₂之间的频率区间，第2个频段是F₂至F₃之间的频率区间，以此类推，第k个频段，对应的频率区间就是由F_k和F_k+1所确定的区间，其中，第32个频段对应的频率区间，则是F₃₂和Fmax所确定的区间。

基于上述频段的划分，用户可以根据实际情况指定其中的若干个频段作为目标频段，例如，若用户需要检测的音频特征点，是待检测音频中鼓声的强度峰值点，鼓声的频率范围是50Hz至150Hz，查找表1中可以确定覆盖鼓声的频率范围的频率值是F₅至F₁₁，对应的频段是第5个频段至第10个频段。

用户可以将第5个频段至第10个频段均指定为目标频段，也可以指定其中的几个频段作为目标频段，例如，需要检测低频的鼓声的强度峰值点，可以只将第5个频段指定为目标频段。

确定目标频段后，针对划分得到的每一个音频帧，就可以利用下述公式计算这个音频帧在目标频段的音频信号强度：

上述公式中，e表示自然对数之底，i表示虚数单位，Z_k(n)表示待检测音频中的第n个音频帧的第k个频段的音频信号强度值，m表示第n个音频帧中的第m个采样点，x(m)表示第n个音频帧的第m个采样点的幅值，W_Nk(m)是一个覆盖N_k个采样点的窗函数在第m个采样点出的取值，具体的，窗函数可以是矩形窗函数，也可以是汉明(Hanmming)窗函数。

Q利用下述公式计算得到：

其中b是音乐中一个八度的频率范围所包含的谱线数，一般设置为12。

N_k可以用下述公式计算得到：

上述公式的含义是，N_k等于，恰好大于方括号内的值的整数，也就是说，若计算得到的方括号内的值恰好是整数，那么N_k就是计算得到的这个整数，若计算得到的方括号内的值是小数，则N_k就等于这个值的整数部分加1。

其中的F_k就是从上述表1中查找得到的第k个频率值。

通过上述公式，可以计算得到每个音频帧在任意几个频段的音频信号强度。

例如，用户需要检测低频的鼓声的强度峰值点，可以指定第5个频段和第6个频段作为目标频段，在这种情况下，就可以利用上述公式计算依次计算每个音频帧在第5个频段的音频信号强度，以及每个音频帧在第6个频段的音频信号强度。

可选的，在利用上述时频转换算法计算任意一个音频帧在目标频段的音频信号强度时，既可以只计算特定的几个目标频段，也可以计算音频帧在每一个频段的音频信号强度，得到一个频谱图，图2就是利用上述时频转换算法对某个音频帧计算得到的频谱图的示意，其纵坐标轴为音频信号强度，横坐标轴为频率的对数。

本申请第二个实施例还提供一种音频特征点的检测方法，请参考图3，该方法包括以下步骤：

S301、获取待检测音频。

S302、将待检测音频按预设的间隔划分为多个音频帧。

S303、利用时频转换算法计算得到每一个音频帧的频谱图。

步骤S303所用的时频转换算法可以使用前文所介绍的CQT算法。

S304、对每一个音频帧的频谱图进行优化处理。

步骤S304的优化处理具体可以包括下述三种处理方法中的任意一种或者组合：

第一种处理方法是对频谱图进行等响度处理。音频信号被输出后，听音者所感受到的响度和实际的音频信号强度之间会存在一定的偏差，偏差程度受声音的频率影响。

因此，用户输入的强度阈值是根据自身所感受到的响度输入的，可能不是准确的音频信号强度，所以可以将计算得到的音频信号强度修正为与用户所感受的响度相匹配的音频信号强度。

目前有多种现有的衡量音频的频率对于响度和音频信号强度的偏差的影响的计权网络，一般有A计权网络，B计权网络和C计权网络三种，每一种计权网络，均记录有特定的频率对应的用户感受的响度和真实音频信号强度的偏差。本实施例中，可以使用A计权网络对计算得到的音频信号强度进行修正。

具体的，计算得到每一个音频帧的频谱图后，可以根据目标频段的频率在A计权网络中查找出对应的用户感受的响度和真实音频信号强度的偏差，然后将频谱图中目标频段的实际音频信号强度加上查找得到的偏差，得到修正后的频谱图，后续检测时就基于修正后的频谱图进行检测。

第二种处理方法是对频谱图进行时域的加权处理。具体的，可以预先配置一个用于进行时域加权的第一权值数组，包含预设的M个权值，依次记为V₁，V₂……V_M。然后利用下述公式，结合当前音频帧的目标频段的音频信号强度，以及当前音频帧之前的和之后的若干个音频帧的目标频段的音频信号强度，计算得到当前音频帧n的，时域加权后的目标频段k的音频信号强度P_k(n)：

其中Z_k(i+y)表示利用时频转换算法计算得到的第i+y个音频帧的第k个频段(即目标频段)的音频信号强度，当需要进行加权的音频帧n之前和之后均有(M-1)/2个或更多个音频帧，则上述y的取值就是n-(M-1)/2。

例如，若M设置为7，需要进行加权的音频帧是第10个音频帧，那么进行时域的加权时，上述公式中使用的就依次是待检测音频的7,8,9,10,11,12,13共七个音频帧的目标频段的音频信号强度，也就是需要加权的音频帧之前的(M-1)/2个音频帧，以及之后的(M-1)/2个音频帧。

当需要进行加权的音频帧n之前的音频帧的数量少于(M-1)/2，则上述y的取值为1。仍以M等于7为例，若需要计算的是第3个音频帧的目标频段的音频信号强度，那么上述公式中使用的就是1,2,3,4,5,6,7共七个音频帧，即待检测音频的前七个音频帧的目标频段的音频信号强度。

当需要进行加权的音频帧n之后的音频帧的数量少于(M-1)/2，则上述y的取值等于待检测音频的音频帧总数减去(M+1)。仍以X等于7为例，若需要计算的是待检测音频最后3个音频帧中的任意一个，那么上述公式中使用的就是待检测音频的最后七个音频帧的目标频段的音频信号强度。

针对每一个音频帧，对音频帧的目标频段的音频信号强度，以及音频帧的第二参考音频帧的目标频段的音频信号强度进行加权计算，得到音频帧的加权后的目标频段的音频信号强度；其中，第二参考音频帧指代音频帧之前的M个音频帧和音频帧之后的M个音频帧，M是预设的正整数；

其中，目标音频帧指代，加权后的目标频段的音频信号强度满足强度检测条件的音频帧。

第三种处理方法是对频谱图进行频域的加权处理。具体的，可以预先配置一个用于进行频域加权的第二加权数组，第二加权数组包括预设的X个权值，依次记为W₁，W₂……W_X。然后利用下述公式，根据当前的音频帧中，需要计算的频段的音频信号强度，以及相邻的X个频段的音频信号强度，计算得到当前音频帧n的，频域加权后的目标频段k的音频信号强度S_k(n)：

其中Z_i+y(n)表示利用时频转换算法计算得到的第n个音频帧的第i+y个频段的音频信号强度，当需要进行加权的频段k之前和之后均有(X-1)/2个或更多个频段，则上述y的取值就是k-(X-1)/2。

例如，若X设置为7，需要进行加权的频段是第10个频段，那么进行频域的加权时，上述公式中使用的就依次是7,8,9,10,11,12,13共七个频段的音频信号强度，也就是需要加权的频段之前的(X-1)/2个频段，以及之后的(X-1)/2个频段。

当需要进行加权的频段k之前的频段的数量少于(X-1)/2，则上述y的取值为1。仍以X等于7为例，若需要计算的是第3个频段的音频信号强度，那么上述公式中使用的就是1,2,3,4,5,6,7共七个频段，即最小的七个频段的音频信号强度。

当需要进行加权的频段k之后的频段的数量少于(X-1)/2，则上述y的取值等于K-X+1，K是划分得到的总频段数，在本实施例中K的取值为32。仍以X等于7为例，若需要计算的是第30个频段的音频信号强度，那么上述公式中使用的就是26,27,28,29,30,31,32共七个频段，即最大的七个频段的音频信号强度。

最后需要说明的是，在本申请所提供的多种可选的实施例中，上述三种处理方法可以任意执行其中的一种或者多种，当需要依次执行上述每一种处理方法时，后一种处理方法所使用的音频信号强度，是经过在前面执行的处理方法处理后的音频信号强度。

S305、检测出待检测音频中的目标音频帧。

检测的方法与本申请第一个实施例所述的检测步骤一致。进一步的，在本实施例中，若执行了步骤S304中的优化处理，则检测时所使用的目标频段的音频信号强度，就是经过步骤S304的优化处理后的目标频段的音频信号强度。若未进行优化处理，那么检测时使用的就是利用时频转换算法计算得到的音频信号强度。

S306、将待检测音频的部分或全部目标音频帧对应的时间点作为待检测音频的特征点。

本实施例提供的音频特征点的检测方法中，一方面可以通过等响度处理将计算得到的每个音频帧在各个频段的实际音频信号强度利用特定的计权网络进行调整，得到更接近于听音者感受的响度的修正后的音频信号强度。

另外还可以结合计算得到的各个音频帧的频谱图进行频域加权和时域加权，使计算得到数据更加平滑，方便后续的检测。

本申请前面两个实施例所提供的音频特征点的检测方法，可以应用到视频编辑软件中，提供一种自动识别音频特征点并在音频特征点处自动添加特定的视觉效果的视频编辑方法，下面结合具体的应用常见介绍该方法，请参考图4：

S401、获取待编辑视频。

S402、输出检测信息设置界面。

一种可选的检测信息设置界面如图5所示。检测信息设置界面的时间输入框用于获取用户指定要检测的音频的时间段，若用户指定时间段，则默认将待编辑视频所包括的完整音频作为待检测音频，若用户指定时间段，则选择用户指定时间段内的音频作为待检测音频。

用户可以在检测信息设置界面指定需要前述表1的频率值所划分的若干个频段作为目标频段，在阈值输入框输入检测目标音频帧时的强度阈值，并且，还可以点击“替换效果”按钮，选择需要为检测到的特征点添加的视觉效果的类型。

其中，若用户在阈值输入框只输入了一个值，那么检测目标音频帧时，就将目标频段的音频信号强度大于这个值的音频帧确定为目标音频帧，若用户输入了两个值，那么将其中较小的值作为下限，较大的值作为上限，检测目标音频帧时，将目标频段的音频信号强度位于上限和下限之间的音频帧确定为目标音频帧。

可选的，若用户需要检测多种不同类型的声源所对应的特征点，可以在上述检测信息设置界面分别设置每一种特征点的检测信息，每设置完一种，点击一次“保存”按钮即可。

例如，假设用户需要检测的第一类音频特征点是频率较低的鼓声(鼓声的频率区间是50Hz至150Hz)的强度峰值点，并且希望为第一类音频特征点配置视觉效果A，那么，设置检测信息时，结合前述表1中的频率值所划分的频段，用户可以指定第5个频段(对应于表1的F₅至F₆，也就是46.8Hz至57.9Hz)和第6个频段(对应于表1的F₆至F₇，也就是57.9Hz至71.6Hz)作为目标频段，输入检测时的阈值，并将效果栏替换为视觉效果A，然后保存第一类特征点的检测信息。

进一步的，用户还可以在检测信息设置界面在输入第二类特征点的检测信息，例如，用户需要检测频率较高的男声的强度峰值点作为第二类特征点，并在第二类特征点处为视频添加视觉效果B，一般男高音对应的频率区间是130Hz至480Hz，因此用户可以指定第14个频段(对应于表1的F₁₄至F₁₅，也就是317.1Hz至392.2Hz)和第15个频段(对应于表1的F₁₅至F₁₆，也就是392.2Hz至485.1Hz)作为第二类特征点的目标频段，然后将效果栏替换为视觉效果B，最后保存。

S403、按照输入的检测信息进行特征点检测。

具体的检测方法如本申请第一个实施例和第二个实施例所述，此处不再详述，下面仅结合步骤S402所述的例子做简要说明。

上述例子中，用户需要检测的第一类特征点是频率较低的鼓声的强度峰值点，对应设置的目标频段是第5个频段和第6个频段，对于用户设置的同类特征点的检测信息，一般在检测时可以将任一目标频段的音频信号强度满足强度检测条件的音频帧确定为目标音频帧。

也就是说，在检测第一类特征点时，针对每一个划分得到的音频帧，只要该音频帧的第5个频段的音频信号强度满足用户输入的阈值的要求，或者该音频帧的第6个频段的音频信号强度满足用户输入的阈值的要求，就可以将该音频帧确定为第一类特征点对应的目标音频帧。

确定出第一类特征点对应的目标音频帧后，如前述实施例所述，可以输出检测得到的目标音频帧在待检测音频中的位置，然后将用户筛选后保留下来的目标音频帧对应的时间点，确定为待检测音频的第一类特征点。

当然，参考本申请的第一个实施例，上述筛选过程也可以由软件根据待检测音频的BPM自动进行。

对第二类特征点的检测过程类似，首先将第14个频段的音频信号强度满足用户输入的阈值的要求，以及第15个频段的音频信号强度满足用户输入的阈值的要求的音频帧均确定为第二类特征点对应的目标音频帧，然后进行自动筛选，或者由用户人工筛选，将筛选后保留的目标音频帧对应的时间点，确定为待检测音频的第二类特征点。

S404、在音频特征点所指定为位置按对应的视觉效果类型添加视觉效果。

如前文所述，音频特征点是待检测音频中具有用户所指定特征的时间点，将音频特征点检测方法应用于视频编辑时，待检测音频是待编辑视频所包含的，和视频画面同步输出的音频。因此，确定了音频特征点后，就可以从在视频中确定出音频特征点对应的图像帧，进而在音频特征点对应的图像帧中按特征点对应的视觉效果类型添加视觉效果。

结合上述例子，假设待编辑视频是视场两分钟的视频，待检测音频是待编辑视频包含的完整音频。经过检测发现待检测音频的第40s和第100s是分别是两个第一类特征点，第20s和第80s分别是两个第二类特征点。对应的，执行步骤S404时，就可以在待编辑视频的第40s和第100s添加第一类特征点对应的视觉效果A，以及在待编辑视频的第20s和第80s添加第二类特征点对应的视觉效果B。

本实施例所提供的视频编辑方法，结合前述实施例提供的音频特征点的检测方法自动的检测待编辑视频所包含的音频中具有用户指定的特征的时间点，然后在这些时间点对应的待编辑视频的图像帧中按指定的视觉效果类型自动添加视觉效果，提高了视频编辑效率。

上述实施例仅仅是一种可选的本申请实施例所提供的音频特征点的检测方法的应用场景。本申请实施例所提供的音频特征点的检测方法还可以应用于其他场景。

第一方面，本申请实施例提供的音频特征点的检测方法也可以不与视频编辑功能结合，而是直接将检测得到的音频特征点以特定的数据结构进行输出，数据结构中记录有检测得到的音频特征点在待检测音频中的位置，音频特征点对应的视觉效果的类型等信息。用户可以将这些表示音频特征点的数据结构导入到其他的视频编辑软件中进行后续的视频编辑工作。

第二方面，本申请实施例提供的音频特征点的检测方法，还可以用于制作简单的视频。随着多媒体技术的发展，目前出现了一类用于制作简单的视频的程序，利用这些程序，用户可以用一段音频(可以是一首歌)以及若干幅图像制作一个简单的视频，在这类视频中，每一幅图像均持续显示一定时间，然后切换至下一幅图像，并且用户选择的音频和图像同步输出，在图像输出时还可以添加一定的动画效果。

生成这类视频的一个关键点就在于在什么时候切换至下一幅图像。考虑到一部分用户需要使图像的切换和所选的音频的旋律相匹配，可以在用户选择了音频之后，利用本申请实施例所提供的音频特征点的检测方法，其中，检测得到的特征点的数量可以调整为用户选择的需要展示的图像的数量，然后将检测得到的音频特征点作为画面切换的时间点。

本申请实施例还提供一种音频特征点的检测装置，请参考图6，该装置包括以下单元：

获取单元601，用于获取待检测音频.

划分单元602，用于将待检测音频按预设的间隔划分为多个音频帧。

计算单元603，用于针对每一个音频帧，基于时频转换算法计算音频帧的目标频段的音频信号强度。

其中，目标频段，指代预先指定的频率区间。

检测单元604，用于检测得到多个音频帧中的目标音频帧。

其中，目标音频帧指代目标频段的音频信号强度满足强度检测条件的音频帧；待检测音频的部分或全部目标音频帧对应的时间点作为待检测音频的特征点。

可选的，检测单元604检测得到多个音频帧中的目标音频帧时，具体用于：

针对每一个音频帧，将音频帧的目标频段的音频信号强度与预设的强度阈值进行比对；

将目标频段的音频信号强度大于强度阈值的音频帧，确定为目标音频帧。

可选的，检测单元604检测得到多个音频帧中的目标音频帧时，还可以用于：

针对每一个音频帧，计算音频帧的目标频段的音频信号强度，和音频帧对应的每一个第一参考音频帧的目标频段的音频信号强度的差值；其中，音频帧对应的第一参考音频帧，指代音频帧之前的N个音频帧和音频帧之后的N个音频帧，N是预设的正整数；

将目标频段的音频信号强度，和对应的每一个参考音频帧的目标频段的音频信号强度的差值均大于预设的阈值的音频帧，确定为目标音频帧。

可选的，上述检测装置还包括：

加权计算单元605，用于针对每一个音频帧，对音频帧的目标频段的音频信号强度，以及音频帧的第二参考音频帧的目标频段的音频信号强度进行加权计算，得到音频帧的加权后的目标频段的音频信号强度；其中，第二参考音频帧指代音频帧之前的M个音频帧和音频帧之后的M个音频帧，M是预设的正整数；

可选的，加权计算单元605还可以用于：

针对每一个音频帧，基于时频转换算法计算音频帧的频谱数据；其中，频谱数据包括音频帧的多个连续的频段的音频信号强度；多个连续的频段包括目标频段；

检测得到多个音频帧中的目标音频帧之前，还包括：

针对每一个音频帧，对音频帧的目标频段的音频信号强度，以及音频帧的参考频段的音频信号强度进行加权计算，得到音频帧的加权后的目标频段的音频信号强度；其中，参考频段指代与目标频段相邻的X个频段，X是预设的正整数；

可选的，加权计算单元605还可以用于对计算得到的各个频段的音频信号强度进行等响度处理。

本实施例所提供的音频特征点的检测装置，其具体工作原理可以参考本申请任一实施例提供的音频特征点的检测方法的相关步骤，此处不再赘述。

本申请提供一种音频特征点的检测装置，获取单元601获取待检测音频，划分单元602将待检测音频按预设的间隔划分为多个音频帧，计算单元603基于时频转换算法计算每一个音频帧在目标频段的音频信号强度，目标频段指代预先指定的频率区间，最后检测单元604检测得到待检测音频中的目标音频帧；其中，目标音频帧指代目标频段的音频信号强度满足强度检测条件的音频帧；待检测音频的部分或全部目标音频帧对应的时间点作为待检测音频的特征点。本方案能够计算各个音频帧在特定音源所对应的频率区间上的信号强度，从而准确识别出音频中特定音源的强度峰值。

本申请实施例还提供一种计算机存储介质，用于存储程序，存储的程序被执行时，用于实现如本申请任一实施例所提供的音频特征点的检测方法。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频特征点的检测方法，其特征在于，包括：

获取待检测音频；

将所述待检测音频按预设的间隔划分为多个音频帧；

2.根据权利要求1所述的检测方法，其特征在于，所述检测得到多个所述音频帧中的目标音频帧，包括：

3.根据权利要求1所述的检测方法，其特征在于，所述检测得到多个所述音频帧中的目标音频帧，包括：

4.根据权利要求1所述的检测方法，其特征在于，所述检测得到多个所述音频帧中的目标音频帧之前，还包括：

5.根据权利要求1所述的检测方法，其特征在于，所述针对每一个所述音频帧，基于时频转换算法计算所述音频帧的目标频段的音频信号强度，包括：

6.根据权利要求1至5任意一项所述的检测方法，其特征在于，所述待检测音频是用户指定的待处理视频的背景音频；

7.一种音频特征点的检测装置，其特征在于，包括：

获取单元，用于获取待检测音频；

8.根据权利要求7所述的检测装置，其特征在于，所述检测单元检测得到多个所述音频帧中的目标音频帧时，具体用于：

9.根据权利要求7所述的检测装置，其特征在于，所述检测装置还包括：

10.一种计算机存储介质，其特征在于，用于存储程序，所述程序被执行时，用于实现如权利要求1至6任意一项所述的音频特征点的检测方法。