CN108597498B

CN108597498B - 一种多麦克风语音采集方法及装置

Info

Publication number: CN108597498B
Application number: CN201810317139.7A
Authority: CN
Inventors: 晏青
Original assignee: Speakin Technologies Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2020-09-01
Anticipated expiration: 2038-04-10
Also published as: CN108597498A

Abstract

本发明提供了一种多麦克风语音采集方法及装置，本发明方法包括：通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；对语音信号进行模数转换，得到语音数字信号；对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；以预置帧数为步长对语音帧对应的片段音频文件进行语音质量检测，保存质量合格的片段音频文件；将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

Description

一种多麦克风语音采集方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种多麦克风语音采集方法及装置。

背景技术

声纹识别系统模型的训练需要从大量不同说话人语音(来自不同信道和不同背景噪声)中统计出说话人信息，从而提高系统的抗噪性。由于背景环境噪声、传输信道不同，造成训练语音和测试语音的特征分布不一样，从而会严重影响到说话人识别系统的识别效果。因此对人声的采集过程应当覆盖尽可能多的信道和背景噪声。科大讯飞的《语音多信道模拟与采集方法》中，采用多通道同步采集并模拟多种语音信道，能快速获得多种信道处理后的语音数据，提高采集效率。

现有技术中采用多麦克风采集的方法存在缺少定量评估语音质量的过程，导致了保存的音频数据需要进行再次清洗，增加额外的工作量的技术问题。

发明内容

本发明提供了一种多麦克风语音采集方法及装置，解决了现有技术中采用多麦克风采集的方法存在缺少定量评估语音质量的过程，导致的保存的音频数据需要进行再次清洗，增加额外的工作量的技术问题。

本发明提供了一种多麦克风语音采集方法，包括：

S1、通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；

S2、对语音信号进行模数转换，得到语音数字信号；

S3、对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

S4、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

S5、以预置帧数为步长对语音帧对应的片段音频文件进行语音质量检测，保存质量合格的片段音频文件；

S6、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

可选地，步骤S2之后，步骤S3之前还包括：

通过放大电路将语音数字信号放大至预置幅值。

可选地，步骤S5具体包括：

S501、对语音帧对应的片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则执行步骤S502；

S502、计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则执行步骤S503，若否，则将片段音频文件舍弃；

S503、计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则执行步骤S504，若否，则将片段音频文件舍弃；

S504、计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃。

可选地，步骤S502中计算片段音频文件的信噪比具体为：

获取片段音频文件的语音平均幅值；

获取片段音频文件的噪声平均幅值；

以语音平均幅值与噪声平均幅值相除得到的比值为底数，e是对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。

可选地，步骤S503中计算片段音频文件的有效时间占比具体为：

获取片段音频文件中语音帧的总时长；

获取片段音频文件中所有帧的总时长；

将语音帧的总时长与所有帧的总时长相除，得到片段音频文件的有效时间占比。

可选地，步骤S504中计算片段音频文件的平均能量值具体为：

获取片段音频文件中每帧语音帧的能量值的幅值；

将每帧语音帧的能量值的幅值进行加权计算，得到片段音频文件的能量值加权值；

获取片段音频文件中语音帧的帧数；

将能量值的加权值与语音帧的帧数相除，得到片段音频文件的平均能量值。

本发明提供了一种多麦克风语音采集装置，包括：

采集单元，用于通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；

转换单元，用于对语音信号进行模数转换，得到语音数字信号；

分帧单元，用于对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

语音激活检测单元，用于依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

质量检测单元，用于以预置帧数为步长对语音帧对应的片段音频文件进行语音质量检测，保存质量合格的片段音频文件；

音频拼接合成单元，用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

可选地，本发明提供的一种多麦克风语音采集装置还包括：

放大单元，用于通过放大电路将语音数字信号放大至预置幅值。

可选地，质量检测单元包括：

削顶检测单元，用于对语音帧对应的片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则跳转至信噪比计算判断单元；

信噪比计算判断单元，用于计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则跳转至有效时间占比计算判断单元，若否，则将片段音频文件舍弃；

有效时间占比计算判断单元，用于计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则跳转至平均能量值计算判断单元，若否，则将片段音频文件舍弃；

平均能量值计算判断单元，用于计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃。

可选地，信噪比计算判断单元包括：

第一获取子单元，用于获取片段音频文件的语音平均幅值；

第二获取子单元，用于获取片段音频文件的噪声平均幅值；

信噪比计算子单元，用于以语音平均幅值与噪声平均幅值相除得到的比值为底数，e是对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种多麦克风语音采集方法，包括：S1、通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；S2、对语音信号进行模数转换，得到语音数字信号；S3、对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；S4、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；S5、以预置帧数为步长对语音帧对应的片段音频文件进行语音质量检测，保存质量合格的片段音频文件；S6、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

本发明通过对每个语音采集通道的语音信号进行语音激活检测和语音质量检测，使得在保存音频文件之前即对音频文件进行了清洗，解决了现有技术中采用多麦克风采集的方法存在缺少定量评估语音质量的过程，导致的保存的音频数据需要进行再次清洗，增加额外的工作量的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种多麦克风语音采集方法的一个实施例的流程示意图；

图2为本发明提供的一种多麦克风语音采集方法的另一个实施例的流程示意图；

图3为本发明提供的一种多麦克风语音采集装置的一个实施例的结构示意图；

图4为本发明提供的一种多麦克风语音采集装置的另一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种多麦克风语音采集方法及装置，解决了现有技术中采用多麦克风采集的方法存在缺少定量评估语音质量的过程，导致的保存的音频数据需要进行再次清洗，增加额外的工作量的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种多麦克风语音采集方法的一个实施例，包括：

101、通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；

102、对语音信号进行模数转换，得到语音数字信号；

103、对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

104、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

105、以预置帧数为步长对语音帧对应的片段音频文件进行语音质量检测，保存质量合格的片段音频文件；

106、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

本发明实施例通过对每个语音采集通道的语音信号进行语音激活检测和语音质量检测，使得在保存音频文件之前即对音频文件进行了清洗，解决了现有技术中采用多麦克风采集的方法存在缺少定量评估语音质量的过程，导致的保存的音频数据需要进行再次清洗，增加额外的工作量的技术问题。

以上是本发明提供的一种多麦克风语音采集方法的一个实施例进行说明，以下将说明本发明提供的一种多麦克风语音采集方法的另一个实施例进行说明。

请参阅图2，本发明实施例提供了一种多麦克风语音采集方法的另一个实施例，包括：

201、通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；

需要说明的是，首先通过多个麦克风进行语音同步采集或语音异步采集，同步采集表示麦克风可以同时录音，异步采集表示可以控制使用哪个或者哪几个麦克风进行录音。因为在有些极端情况下，个别麦克风采集的语音可能有破音(即语音时域波形出现截顶)导致语音失真不可用，此时可以关闭该路麦克风通道。

使用的麦克风类别涵盖数字和模拟麦克风，各个麦克风分别对应不同的采集通道，后续处理是分别在每个通道上进行。

202、对语音信号进行模数转换，得到语音数字信号；

需要说明的是，对采集得到的语音信号进行模数转换，输出语音数字信号。

203、通过放大电路将语音数字信号放大至预置幅值；

需要说明的是，对得到的语音数字信号进行放大处理，放大至预置幅值，使得无论声音源离采集系统的距离是近还是远，都能得到一个幅度相对恒定的输出信号(即对小音量信号放大，对大音量信号缩小，使得音量的幅度保持在所限定的幅度范围内)。

204、对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

需要说明的是，对语音数字信号的PCM二进制数据进行分帧处理，得到每帧的短时平稳音频信号，用于后续的检测。

205、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

需要说明的是，依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧。

206、对语音帧对应的片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则执行步骤207；

207、计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则执行步骤208，若否，则将片段音频文件舍弃；

计算片段音频文件的信噪比具体为：

2071、获取片段音频文件的语音平均幅值；

2072、获取片段音频文件的噪声平均幅值；

2073以语音平均幅值与噪声平均幅值相除得到的比值为底数，e是对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比；

208、计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则执行步骤209，若否，则将片段音频文件舍弃；

计算片段音频文件的有效时间占比具体为：

2081、获取片段音频文件中语音帧的总时长；

2082、获取片段音频文件中所有帧的总时长；

2083、将语音帧的总时长与所有帧的总时长相除，得到片段音频文件的有效时间占比；

209、计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃；

计算片段音频文件的平均能量值具体为：

2091、获取片段音频文件中每帧语音帧的能量值的幅值；

2092、将每帧语音帧的能量值的幅值进行加权计算，得到片段音频文件的能量值加权值；

2093、获取片段音频文件中语音帧的帧数；

2094、将能量值的加权值与语音帧的帧数相除，得到片段音频文件的平均能量值；

210、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

以上是对本发明提供的一种多麦克风语音采集方法的另一个实施例进行说明，以下将对本发明提供的一种多麦克风语音采集装置的一个实施例进行说明。

请参阅图3，本发明提供了一种多麦克风语音采集装置的一个实施例，包括：

采集单元301，用于通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；

转换单元302，用于对语音信号进行模数转换，得到语音数字信号；

分帧单元303，用于对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

语音激活检测单元304，用于依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

质量检测单元305，用于以预置帧数为步长对语音帧对应的片段音频文件进行语音质量检测，保存质量合格的片段音频文件；

音频拼接合成单元306，用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

以上是对本发明提供的一种多麦克风语音采集装置的一个实施例进行说明，以下将对本发明提供的一种多麦克风语音采集装置的另一个实施例进行说明。

请参阅图4，本发明提供了一种多麦克风语音采集装置的另一个实施例，包括：

采集单元401，用于通过多个麦克风进行语音采集，每个麦克风对应不同的语音采集通道，得到每个语音采集通道的语音信号；

转换单元402，用于对语音信号进行模数转换，得到语音数字信号；

放大单元403，用于通过放大电路将语音数字信号放大至预置幅值；

分帧单元404，用于对语音数字信号的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

语音激活检测单元405，用于依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

质量检测单元406，用于以预置帧数为步长对语音帧对应的片段音频文件进行语音质量检测，保存质量合格的片段音频文件；

质量检测单元406包括：

削顶检测单元4061，用于对语音帧对应的片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则跳转至信噪比计算判断单元；

信噪比计算判断单元4062，用于计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则跳转至有效时间占比计算判断单元，若否，则将片段音频文件舍弃；

信噪比计算判断单元4062包括：

第一获取子单元40621，用于获取片段音频文件的语音平均幅值；

第二获取子单元40622，用于获取片段音频文件的噪声平均幅值；

信噪比计算子单元40623，用于以语音平均幅值与噪声平均幅值相除得到的比值为底数，e是对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比；

有效时间占比计算判断单元4063，用于计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则跳转至平均能量值计算判断单元，若否，则将片段音频文件舍弃；

有效时间占比计算判断单元4063包括：

第三获取子单元40631，用于获取片段音频文件中语音帧的总时长；

第四获取子单元40632，用于获取片段音频文件中所有帧的总时长；

有效时间占比计算子单元40633，用于将语音帧的总时长与所有帧的总时长相除，得到片段音频文件的有效时间占比；

平均能量值计算判断单元4064，用于计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃；

平均能量值计算判断单元4064包括：

第五获取子单元40641，用于获取片段音频文件中每帧语音帧的能量值的幅值；

加权计算子单元40642，用于将每帧语音帧的能量值的幅值进行加权计算，得到片段音频文件的能量值加权值；

第六获取子单元40643，用于获取片段音频文件中语音帧的帧数；

平均能量值计算子单元40644，用于将能量值的加权值与语音帧的帧数相除，得到片段音频文件的平均能量值；

音频拼接合成单元407，用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多麦克风语音采集方法，其特征在于，包括：

S2、对语音信号进行模数转换，得到语音数字信号；

2.根据权利要求1所述的多麦克风语音采集方法，其特征在于，步骤S2之后，步骤S3之前还包括：

通过放大电路将语音数字信号放大至预置幅值。

3.根据权利要求1所述的多麦克风语音采集方法，其特征在于，步骤S5具体包括：

4.根据权利要求3所述的多麦克风语音采集方法，其特征在于，步骤S502中计算片段音频文件的信噪比具体为：

获取片段音频文件的语音平均幅值；

获取片段音频文件的噪声平均幅值；

5.根据权利要求3所述的多麦克风语音采集方法，其特征在于，步骤S503中计算片段音频文件的有效时间占比具体为：

获取片段音频文件中语音帧的总时长；

获取片段音频文件中所有帧的总时长；

6.根据权利要求3所述的多麦克风语音采集方法，其特征在于，步骤S504中计算片段音频文件的平均能量值具体为：

获取片段音频文件中每帧语音帧的能量值的幅值；

获取片段音频文件中语音帧的帧数；

7.一种多麦克风语音采集装置，其特征在于，包括：

8.根据权利要求7所述的多麦克风语音采集装置，其特征在于，还包括：

9.根据权利要求7所述的多麦克风语音采集装置，其特征在于，质量检测单元包括：

10.根据权利要求9所述的多麦克风语音采集装置，其特征在于，信噪比计算判断单元包括：

第一获取子单元，用于获取片段音频文件的语音平均幅值；

第二获取子单元，用于获取片段音频文件的噪声平均幅值；