CN110299134B

CN110299134B - 一种音频处理方法和系统

Info

Publication number: CN110299134B
Application number: CN201910583711.9A
Authority: CN
Inventors: 杨浩; 高岩; 赵全军; 陈宏江; 孙萍
Original assignee: Sinosoft Co ltd
Current assignee: Sinosoft Co ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2021-10-26
Anticipated expiration: 2039-07-01
Also published as: CN110299134A

Abstract

本发明公开了一种音频处理方法，该方法包括以下步骤：读取整段音频；获取整段音频的幅度谱所对应的角频率和极大能量值；分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数；基于所述归一化后的音频参数获取整段音频的音频特征；其中，所述获取整段音频的音频特征包括随机采样步骤和余弦距离值获取步骤；重复执行随机采样步骤和余弦距离值获取步骤得到多个余弦距离值，根据所述多个余弦距离值生成统计直方图，将该统计直方图记为整段音频的音频特征。本发明还公开了一种音频处理系统。本发明最终获得的音频特征是全局特征向量，而且该音频特征的特征向量是固定维数，因此不会随音频长短而变化。

Description

一种音频处理方法和系统

技术领域

本发明属于涉及音频媒体文件处理的技术领域，尤其涉及一种音频处理方法和系统。

背景技术

目前，在音频的分类与检索中，提取音频的共性特征非常重要，这些共性特征既需要相互关联，又需要保持一定的差异性。在分类场景中，需要共性特征的关联性较强，用于区分不同的类别。

而在检索场景中，需要共性特征的差异性较强，保证每个样本具有独特的属性，检索出与其相似的样本。

现有技术中，一般是提取每一帧音频信号的基础特征进行处理，例如，梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、基音(pitch)特征和频率特征等音频特征，无法根据整段音频提取出全局特征向量，而且提取出的音频特征向量不是固定维数，随着音频长短而发生变化，这样就无法直接对整个音频进行快速分类、检索等。

发明内容

有鉴于此，本发明实施例提供一种音频处理方法及系统，用以提取原始整段音频文件的全局特征向量，而且提取出的音频特征向量是固定维数，不随音频长短而发生变化，从而可以直接对整个音频进行快速分类、检索等。

第一方面，本发明实施例提供了一种音频处理方法该方法包括以下步骤：

读取整段音频；

获取整段音频的幅度谱所对应的角频率和极大能量值；

分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数；

基于所述归一化后的音频参数获取整段音频的音频特征；

其中，所述获取整段音频的音频特征包括以下子步骤；

随机采样步骤：在归一化后的音频参数中，随机采样两组音频数据，记为第一音频数据和第二音频数据；

余弦距离值获取步骤：基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值；

重复执行随机采样步骤和余弦距离值获取步骤得到多个余弦距离值，根据所述多个余弦距离值生成统计直方图，将该统计直方图记为整段音频的音频特征。

第二方面，本发明实施例提供了一种音频处理系统，该系统包括读取模块、第一获取模块、归一化模块和第二获取模块；

所述读取模块用于读取整段音频；

所述第一获取模块用于获取整段音频的幅度谱所对应的角频率和极大能量值；

所述归一化模块分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数；

所述第二获取模块基于所述归一化后的音频参数获取整段音频的音频特征；

所述第二获取模块包括采样模块和余弦距离值获取模块；

所述采样模块执行以下操作：在归一化后的音频参数中，随机采样两组音频数据，记为第一音频数据和第二音频数据；

所述余弦距离值获取模块执行以下操作：基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值；

所述采样模块和余弦距离值获取模块重复执行操作以得到多个余弦距离值，根据所述多个余弦距离值生成统计直方图，将该统计直方图记为整段音频的音频特征。

本发明通过获取整段音频的幅度谱所对应的角频率和极大能量值；并分别对所述角频率、极大能量值及及所述整段音频的时间进行归一化以得到归一化后的音频参数；基于所述音频参数获取整段音频文件的音频特征；本发明是基于整段音频文件来获得音频特征的，因此最终获得的音频特征是全局特征向量；而且该音频特征的特征向量是固定维数，因此不会随音频长短而变化；另外提取到的音频特征为统计特征，对截取音频具有较高冗余性。

附图说明

图1为本发明实施例提供的一种音频处理方法的流程示意图；

图2为本发明实施例提供的一种音频处理系统的结构示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

实施例一

下面介绍本发明实施例提供的一种音频处理方法的具体实施方式，参见图1，该提取方法包括；

S100：读取整段音频；

这里，本发明是读取整段音频文件进行处理的。

S200：获取整段音频的幅度谱所对应的角频率和极大能量值；

具体的，步骤S200包括以下子步骤s210和s220；

s210:利用傅里叶变换提取所述整段音频的幅度谱；

本实施例中，可以以1秒长度的音频为窗并利用傅里叶变换提取整段音频的幅度谱；

s220:根据整段音频的幅度谱得到对应的角频率和极大能量值；

所述角频率通过以下公式获得：

其中，F(ω,t₀)表示在t₀时刻，窗长度为1秒(以t₀为基准，前后0.5秒)音频的幅度谱；|F(ω,t₀)|²表示在t₀时刻，窗长度为1秒(以t₀为基准，前后0.5秒)音频的能量谱；ω是音频的角频率；ω_max(t₀)表示在t₀时刻能量值最高的角频率。

所述极大能量值通过以下公式获得：

E(t₀)＝|F(ω_max(t₀),t₀)|²；(3)

其中，E(t₀)是t₀时刻的极大能量值。

S300：分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数；

具体的，对所述角频率、极大能量值及所述整段音频的时间进行归一化处理的公式如下：

其中，E(t₀)是t₀时刻的极大能量值；F(ω,t₀)表示在t₀时刻，窗长度为1秒的音频的幅度谱；ω是角频率；E_mean、ω_mean分别为能量值的均值、角频率的均值；E_var、ω_var分别为能量值的方差、角频率的方差；E_norm，ω_norm分别为归一化后的能量值、归一化后的角频率。

对整段音频的时间进行归一化的处理公式如下，以将整段音频压缩到0-1的范围内；

其中，t_st为整段音频的开始时间，t_en为整段音频的结束时间，t₀为整段音频的某个具体时间，T_norm为归一化后的音频的时间。

S400：基于所述归一化后的音频参数获取整段音频的音频特征；

本实施例中，归一化后的音频参数即为步骤S300中的T_norm、E_norm、ω_norm，所述获取整段音频的音频特征包括以下子步骤；

S410，随机采样步骤：在归一化后的音频参数中，随机采样两组音频数据，记为第一音频数据和第二音频数据；

具体的，上述两组音频数据可以表示为第一音频数据(t₁,e₁,f₁)、第二音频数据(t₂,e₂,f₂)；

其中，t₁为第一音频数据的时间，e₁为第一音频数据的时间t₁所对应的能量值，f₁为第一音频数据的时间t₁所对应的角频率；

其中，t₂为第二音频数据的时间，e₂为第二音频数据的时间t₂所对应的能量值，f₂为第二音频数据的时间t₂所对应的角频率。

S420，余弦距离值获取步骤：基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值；

S430，重复执行步骤S420和S430，得到多个余弦距离值，根据所述多个余弦距离值生成统计直方图，将该统计直方图记为整段音频的音频特征；优选的，为了获取到的全局音频特征更加全面，需要计算不少于5000个余弦距离值。

本实施例所提取的音频特征是基于整段音频来获得，因此最终获得的音频特征是全局特征向量；而且该音频特征的特征向量是固定维数，因此不会随音频长短而变化，从而可以直接对整个音频进行快速分类、检索等；另外提取到的音频特征为统计特征，对截取音频具有较高的冗余性。

实施例二

图2为本发明实施例提供的一种音频处理系统的结构示意图，参见图2，本实施例中的一种音频处理系统，包括读取模块、第一获取模块、归一化模块和第二获取模块；

所述读取模块用于读取整段音频；

所述第二获取模块包括采样模块和余弦距离值获取模块；

所述采样模块和余弦距离值获取模块重复执行以上操作以得到多个余弦距离值，根据所述多个余弦距离值生成统计直方图，将该统计直方图记为整段音频的音频特征。

进一步的，利用傅里叶变换提取所述整段音频的幅度谱。

进一步的，所述归一化模块包括角频率归一化模块和极大能量值归一化模块；

所述极大能量值归一化模块对所述极大能量值进行归一化处理公式为：

所述角频率归一化模块对所述角频率进行归一化处理公式为：

进一步的，所述归一化模块还包括时间归一化模块；

所述时间归一化模块对整段音频的时间进行归一化处理公式为：

其中，t_st为整段音频的开始时间，t_en为整段音频的结束时间，t₀整段音频中的某个特定时间，T_norm为归一化后的音频的时间。本实施例中的音频处理系统的工作过程与上述实施例基本一致，在此不再赘述。

本发明的有益效果：

本发明通过获取整段音频的幅度谱所对应的角频率和极大能量值；并分别对所述角频率、极大能量值及整段音频的时间进行归一化以得到归一化后的音频参数；基于所述音频参数获取整段音频的音频特征；本发明是基于整段音频来获得音频特征的，因此最终获得的音频特征是全局特征向量；而且该音频特征的特征向量是固定维数，因此不会随音频长短而变化；另外提取到的音频特征为统计特征，对截取音频具有较高冗余性。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，该方法包括以下步骤：

读取整段音频；

获取整段音频的幅度谱所对应的角频率和极大能量值；

基于所述归一化后的音频参数获取整段音频的音频特征；

其中，所述获取整段音频的音频特征包括以下子步骤；

随机采样步骤：在归一化后的音频参数中，随机采样两组音频数据，记为第一音频数据和第二音频数据；其中，所述第一音频数据包括t₁、e₁和f₁，t₁为第一音频数据的时间，e₁为第一音频数据的时间t₁所对应的能量值，f₁为第一音频数据的时间t₁所对应的角频率；所述第二音频数据包括t₂、e₂和f₂，t₂为第二音频数据的时间，e₂为第二音频数据的时间t₂所对应的能量值，f₂为第二音频数据的时间t₂所对应的角频率；

2.根据权利要求1所述的方法，其特征在于，利用傅里叶变换提取所述整段音频的幅度谱。

3.根据权利要求1所述的方法，其特征在于，对所述角频率、极大能量值进行归一化处理的公式为：

4.根据权利要求1所述的方法，其特征在于，对整段音频的时间进行归一化的处理公式为：

其中，t_st为整段音频的开始时间，t_en为整段音频的结束时间，t₀为整段音频中的某个特定时间，T_norm为归一化后的音频的时间。

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：利用所述整段音频的音频特征对音频进行分类和检索。

6.一种音频处理系统，其特征在于，该系统包括读取模块、第一获取模块、归一化模块和第二获取模块；

所述读取模块用于读取整段音频；

所述第二获取模块包括采样模块和余弦距离值获取模块；

所述采样模块执行以下操作：在归一化后的音频参数中，随机采样两组音频数据，记为第一音频数据和第二音频数据；其中，所述第一音频数据包括t₁、e₁和f₁，t₁为第一音频数据的时间，e₁为第一音频数据的时间t₁所对应的能量值，f₁为第一音频数据的时间t₁所对应的角频率；所述第二音频数据包括t₂、e₂和f₂，t₂为第二音频数据的时间，e₂为第二音频数据的时间t₂所对应的能量值，f₂为第二音频数据的时间t₂所对应的角频率；

7.根据权利要求6所述的系统，其特征在于，利用傅里叶变换提取所述整段音频的幅度谱。

8.根据权利要求6所述的系统，其特征在于，所述归一化模块包括角频率归一化模块和极大能量值归一化模块；

9.根据权利要求6所述的系统，其特征在于，所述归一化模块还包括时间归一化模块；

所述时间归一化模块对整段音频文件的时间进行归一化处理公式为：

10.根据权利要求6-9任一项所述的系统，其特征在于，利用所述整段音频的音频特征对音频进行分类和检索。