CN113724728A

CN113724728A - 一种基于gmm模型的音频信号的处理方法

Info

Publication number: CN113724728A
Application number: CN202110899051.2A
Authority: CN
Inventors: 刘志平
Original assignee: BEIJING INFORMATION TECHNOLOGY COLLEGE
Current assignee: BEIJING INFORMATION TECHNOLOGY COLLEGE
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-30
Anticipated expiration: 2041-08-05
Also published as: CN113724728B

Abstract

一种基于GMM模型的音频信号的处理方法，包括以下步骤：步骤S1，建立声纹时域模型，对比识别原音频信号不同时域的具有相同声纹的音阶，存储至人声数据库；步骤S2，将原音频信号中的左声道信号及右声道信号分别分割成对应数量的数据包并对数据包进行标注；步骤S3，将所述步骤S2中相同时域的左声道信号的数据包与右声道信号的数据包进行绑定发送；步骤S4，接收所述步骤S3中绑定的数据包存储至音频数据库，通过比对判断是否有相同的信号判断数据包是否传输正常，及时处理丢包数据提高音频质量；且通过人声数据库，左声道数据库及右声道数据库，快速准确分离人声和伴奏，减少运算量，提高音频信号处理效率。

Description

一种基于GMM模型的音频信号的处理方法

技术领域

本发明涉及音频信号处理技术领域，尤其是一种基于GMM模型的音频信号的处理方法。

背景技术

在音频信号处理领域，经常需要从音频中分离出左右声道在时域上的差异信号和相同信号。例如，对于一首歌曲来讲，左声道与右声道的差异信号通常是这首歌曲的伴奏信号，左声道与右声道的相同信号通常是这首歌曲的人声信号，那么通过获取到这首歌曲的差异信号与相同信号，可以从歌曲中滤除人声或者伴奏；在不同设备之间传输音频信号帧，或者直接采集音频信号帧时常常会带入干扰，造成音频信号发生丢包等，对听感带来极大不适，且伴奏中左声道与右声道也有可能出现相同信号，通过差异信号与相同信号不能准确分离人声和伴奏；因而需要快速分离人声和伴奏，减少运算量，且及时处理丢包数据提高音频质量。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于GMM模型的音频信号的处理方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于GMM模型的音频信号的处理方法，包括以下步骤：

步骤S1，建立声纹时域模型，对比识别原音频信号不同时域的具有相同声纹的音阶，存储至人声数据库；

步骤S2，将原音频信号中的左声道信号及右声道信号分别分割成对应数量的数据包并对数据包进行标注；

步骤S3，将所述步骤S2中相同时域的左声道信号的数据包与右声道信号的数据包进行绑定发送；

步骤S4，接收所述步骤S3中绑定的数据包存储至音频数据库，通过比对判断是否有相同的信号判断数据包是否传输正常。

优选的，还包括：

步骤S5，根据所述步骤S2中绑定的数据包及所述步骤S1的人声数据库，建立左声道数据库及右声道数据库。

优选的，还包括：

步骤S6，将所述步骤S5中人声数据库、左声道数据库、右声道数据库中的音频信号变换至频域并于后续分析处理。优选的，所述步骤S2包括：

步骤S2-1，接收原音频信号，对原音频信号进行滤波去噪处理；

步骤S2-2，将原音频信号中的左声道信号及右声道信号根据时间分别分割成对应数量的数据包并对数据包进行标注。

优选的，所述步骤S2-2包括以给定算法读取切割左声道信号及右声道信号，封装数据包，标注每个数据包起始点、终止点及数据包实际大小。

优选的，所述给定算法读取切割文件数据的算法为：设编号为N，编号从1开始，线程总数为A；

每次可读取数据的最大值D；

每个线程循环读取的次数为I，从0开始计算；

每次以((N-1)+A*I)*D为起始位置读取左声道信号及右声道信号。

优选的，所述步骤S4包括：

步骤S4-1，分别接收所述步骤S3中绑定的数据包进行解码；

步骤S4-2，将绑定的数据包中的数据进行比对，

步骤S4-2-1有相同信号则判断所述步骤S1及所述步骤S2的分割及发送正常，并进行所述步骤S5；

步骤S4-2-2，无相同信号则判断所述步骤S1及所述步骤S2的分割及发送异常，标记为异常数据包并存储相关数据；

步骤S4-2-3，根据所述异常数据包的位置重新从左声道信号及右声道信号中调取相应数据包进行绑定替换所述步骤S4-2-2中的异常数据包解码比对后执行所述步骤S5。

优选的，所述步骤S5包括：

步骤S5-1，将所述步骤S4中数据包进行解码，存储相同信号，并将相同信号在人声数据库的对应时域中查找是否有一致信号，并将不一致信号从所述人声数据库移出存至左声道数据库及右声道数据库；

步骤S5-2，对分割后的左声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至左声道数据库；

步骤S5-3，对分割后的右声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至右声道数据库。

优选的，所述步骤S1通过GMM高斯混合模型建立声纹时域模型。

优选的，所述步骤S2-1包括：

步骤S2-1-1，接收原音频信号，将原音频信号通过A/D器件进行模数转换，把模拟信号转化为数字信号；A/D器件为逐次逼进式A/D转换器；

步骤S2-1-2，将所述步骤S2-1-1处理的信号通过FIR滤波器滤波去噪。

本发明的优点和积极效果是：

1.本发明一种基于GMM模型的音频信号的处理方法，包括以下步骤：步骤S1，建立声纹时域模型，对比识别原音频信号不同时域的具有相同声纹的音阶，存储至人声数据库；步骤S2，将原音频信号中的左声道信号及右声道信号分别分割成对应数量的数据包并对数据包进行标注；步骤S3，将所述步骤S2中相同时域的左声道信号的数据包与右声道信号的数据包进行绑定发送；步骤S4，接收所述步骤S3中绑定的数据包存储至音频数据库，通过比对判断是否有相同的信号判断数据包是否传输正常，及时处理丢包数据提高音频质量。

2.本发明中步骤S5-1，将所述步骤S4中数据包进行解码，存储相同信号，并将相同信号在人声数据库的对应时域中查找是否有一致信号，并将不一致信号从所述人声数据库移出存至左声道数据库及右声道数据库；步骤S5-2，对分割后的左声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至左声道数据库；步骤S5-3，对分割后的右声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至右声道数据库，快速准确分离人声和伴奏，减少运算量，提高音频信号处理效率。

附图说明

图1是本发明的步骤S1至步骤S6流程图；

图2是本发明的步骤S4流程图；

图3是本发明的步骤S4流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1-3所示，本发明所述一种基于GMM模型的音频信号的处理方法，包括以下步骤：

步骤S6，将所述步骤S4中左声道数据库及右声道数据库中的音频信号变换至频域并于后续分析处理；

具体的，通过混合高斯模型及EM算法建立声纹时域模型，对比识别原音频信号不同时域的具有相同声纹的音阶，存储至人声数据库；接收原音频信号，将原音频信号通过A/D器件进行模数转换，把模拟信号转化为数字信号；A/D器件为逐次逼进式A/D转换器；步骤S2-1-2，将所述步骤S2-1-1处理的信号通过FIR滤波器滤波去噪；以给定算法读取切割左声道信号及右声道信号，封装数据包，标注每个数据包起始点、终止点及数据包实际大小；所述给定算法读取切割文件数据的算法为：设编号为N，编号从1开始，线程总数为A；每次可读取数据的最大值D；每个线程循环读取的次数为I，从0开始计算；每次以((N-1)+A*I)*D为起始位置读取左声道信号及右声道信号，并进行绑定发送；接收绑定的数据包存储至音频数据库，通过比对判断是否有相同的信号判断数据包是否传输正常；根据所述步骤S2中绑定的数据包及所述步骤S1的人声数据库，建立左声道数据库及右声道数据库；并将人声数据库、左声道数据库、右声道数据库中的音频信号变换至频域求出各个频率成分的幅值分布和能量分布，从而得到主要幅度和能量分布的频率值，便于分析处理。

进一步地，所述步骤S1通过GMM高斯混合模型建立声纹时域模型；具体的，通过混合高斯模型及EM算法建立声纹时域模型，对比识别原音频信号不同时域的具有相同声纹的音阶，存储至人声数据库。

进一步地，所述步骤S2包括：

具体的，接收原音频信号，将原音频信号通过A/D器件进行模数转换，把模拟信号转化为数字信号；A/D器件为逐次逼进式A/D转换器；步骤S2-1-2，将所述步骤S2-1-1处理的信号通过FIR滤波器滤波去噪；以给定算法读取切割左声道信号及右声道信号，封装数据包，标注每个数据包起始点、终止点及数据包实际大小；所述给定算法读取切割文件数据的算法为：设编号为N，编号从1开始，线程总数为A；每次可读取数据的最大值D；每个线程循环读取的次数为I，从0开始计算；每次以((N-1)+A*I)*D为起始位置读取左声道信号及右声道信号。

进一步地，所述步骤S4包括：

步骤S4-1，分别接收所述步骤S3中绑定的数据包进行解码；

步骤S4-2，将绑定的数据包中的数据进行比对，

步骤S4-2-3，根据所述异常数据包的位置重新从左声道信号及右声道信号中调取相应数据包进行绑定替换所述步骤S4-2-2中的异常数据包解码比对后执行所述步骤S5；

具体的，例如分别接收所述步骤S3中的绑定的数据包：左声道数据包一及右声道数据包一，左声道数据包一及右声道数据包一在相同时域内，将左声道数据包一及右声道数据包一进行解码并将解码数据进行比对，有相同信号则判断所述步骤S1及所述步骤S2的分割及发送正常，并进行所述步骤S5；无相同信号则判断所述步骤S1及所述步骤S2的分割及发送异常，标记为异常数据包并存储相关数据；根据所述异常数据包的位置重新从左声道信号及右声道信号中调取相应数据包新左声道数据包一及新右声道数据包一替换异常数据包解码比对后执行所述步骤S5，防止丢包或者解码异常，并将相同信号存至相同信号数据库中。

进一步地，所述步骤S5包括：

步骤S5-1，将所述步骤S4中数据包进行解码，存储相同信号，并将相同信号在人声数据库的对应时域中查找是否有一致信号，并将不一致信号从所述人声数据库移出存至左声道数据库及右声道数据库；步骤S5-2，对分割后的左声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至左声道数据库；步骤S5-3，对分割后的右声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至右声道数据库；

具体的，例如绑定的数据包左声道数据包一及右声道数据包一，左声道数据包一及右声道数据包一在相同时域内，将左声道数据包一及右声道数据包一进行解码并将解码数据进行比对，有相同信号则判断所述步骤S1及所述步骤S2的分割及发送正常，并将相同信号在人声数据库的对应时域中查找是否有一致信号，一致信号表明为人声信号继续存储至人声数据库；不一致信号则表明此不一致信号在左声道信号及右声道信号中均存在，则从所述人声数据库移出存至左声道数据库及右声道数据库；对分割后的左声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至左声道数据库；对分割后的右声道信号数据包解码，并将其解码数据，与对应的时间范围内的相同信号数据库的解码信息比对，不同信号存储至右声道数据库；

进一步地，所述步骤S6，将所述步骤S5中人声数据库、左声道数据库、右声道数据库中的音频信号变换至频域并于后续分析处理；具体的，可将人声数据库、左声道数据库、右声道数据库中的音频信号通过傅里叶变换公式从时域变换至频域，求出各个频率成分的幅值分布和能量分布，从而得到主要幅度和能量分布的频率值，便于分析处理。

本发明一种基于GMM模型的音频信号的处理方法，包括以下步骤：步骤S1，建立声纹时域模型，对比识别原音频信号不同时域的具有相同声纹的音阶，存储至人声数据库；步骤S2，将原音频信号中的左声道信号及右声道信号分别分割成对应数量的数据包并对数据包进行标注；步骤S3，将所述步骤S2中相同时域的左声道信号的数据包与右声道信号的数据包进行绑定发送；步骤S4，接收所述步骤S3中绑定的数据包存储至音频数据库，通过比对判断是否有相同的信号判断数据包是否传输正常，及时处理丢包数据提高音频质量，且通过人声数据库，左声道数据库及右声道数据库，快速准确分离人声和伴奏，减少运算量，提高音频信号处理效率。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

Claims

1.一种基于GMM模型的音频信号的处理方法，其特征在于：包括以下步骤：

2.根据权利要求1所述一种基于GMM模型的音频信号的处理方法，其特征在于：还包括：

3.根据权利要求2所述一种基于GMM模型的音频信号的处理方法，其特征在于：还包括：

步骤S6，将所述步骤S5中人声数据库、左声道数据库、右声道数据库中的音频信号变换至频域并于后续分析处理。

4.根据权利要求1所述一种基于GMM模型的音频信号的处理方法，其特征在于：所述步骤S2包括：

5.根据权利要求4所述一种基于GMM模型的音频信号的处理方法，其特征在于：

所述步骤S2-2包括以给定算法读取切割左声道信号及右声道信号，封装数据包，标注每个数据包起始点、终止点及数据包实际大小。

6.根据权利要求5所述一种基于GMM模型的音频信号的处理方法，其特征在于：

所述给定算法读取切割文件数据的算法为：设编号为N，编号从1开始，线程总数为A；

每次可读取数据的最大值D；

每个线程循环读取的次数为I，从0开始计算；

每次以((N-1)+A*I)*D为起始位置读取左声道信号及右声道信号。

7.根据权利要求2所述一种基于GMM模型的音频信号的处理方法，其特征在于：所述步骤S4包括：

步骤S4-1，分别接收所述步骤S3中绑定的数据包进行解码；

步骤S4-2，将绑定的数据包中的数据进行比对，

8.根据权利要求2所述一种基于GMM模型的音频信号的处理方法，其特征在于：所述步骤S5包括：

9.根据权利要求3所述一种基于GMM模型的音频信号的处理方法，其特征在于：所述步骤S1通过GMM高斯混合模型建立声纹时域模型。

10.根据权利要求4所述一种基于GMM模型的音频信号的处理方法，其特征在于：

所述步骤S2-1包括：