CN113409809A

CN113409809A - 语音降噪方法、装置及设备

Info

Publication number: CN113409809A
Application number: CN202110766451.6A
Authority: CN
Inventors: 梁龙飞; 陈小刚; 钱星宇
Original assignee: Shanghai New Helium Brain Intelligence Technology Co ltd
Current assignee: Shanghai New Helium Brain Intelligence Technology Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-09-17
Anticipated expiration: 2041-07-07
Also published as: CN113409809B

Abstract

本发明涉及一种语音降噪方法、装置及设备，其中方法包括：采集连续音频信号，并将音频信号分割为多个语音音素；将语音音素与音素模型库的音素模型进行匹配，将匹配度最高的音素模型作为被选择的输出音素模型；对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出。与现有技术相比，本发明采用预先建立针对个人的语音音素模型库，然后将采集的到音频分割为多个语音音素，最后根据采集到的语音音素对标准语音音素模型进行波形修正后播放，可以在强度相似的更加复杂的语音环境中实现个人语音提取，达到降噪的效果。

Description

语音降噪方法、装置及设备

技术领域

本发明涉及语音降噪领域，尤其是涉及一种语音降噪方法、装置及设备。

背景技术

随着人工智能技术的发展，人与设备的交互变得越来越频繁，可穿戴设备由于跟使用者能够随时交互，也吸引了大量的人工智能技术在该领域寻找应用场景。

为了解放人的双手和双眼，语音成为人机交互或人人交互时非常重要的一种输入方式，然而在实际应用中，许多环境充满了噪声，对采集的语音信号造成干扰，对语音检测和降噪带来了很大的挑战，即使是人们在通过网络进行语音交谈时，背景噪声也可能导致对方难以听清自己说话的声音。

目前市场上有大量具有降噪功能的麦克风，主要手段是设置灵敏度阈值，屏蔽较低能量的声音；利用声源特定位置，做方向性选择；或者采用滤波手段，滤掉过高频和过低频的声音，留下语音频率范围的声音等。还有一些语音降噪的算法，如LMS自适应滤波器、自适应陷波器，基本谱减法，维纳滤波等多种手段，针对语音特点进行降噪。但在信噪比很低的环境，甚至是在多人对话环境下，由于从频域上看，不同的人的语音之间的差异不大，很难选择性过滤，这些降噪手段就很难取得较佳的效果。

发明内容

本发明的目的就是为了提供一种语音降噪方法、装置及设备。

本发明的目的可以通过以下技术方案来实现：

一种语音降噪方法，包括：

采集连续音频信号，并将音频信号分割为多个语音音素；

将语音音素与音素模型库的音素模型进行匹配，将匹配度最高的音素模型作为被选择的输出音素模型；

对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出，采用预先建立针对个人的语音音素模型库，然后将采集的到音频分割为多个语音音素，最后根据采集到的语音音素对标准语音音素模型进行波形修正后播放，可以在强度相似的更加复杂的语音环境中实现对个人的语音提取，达到降噪的效果。

一种语音降噪方法，包括：

采集连续音频信号，并将音频信号分割为多个语音音素；

将目标语音音素按时序在先的部分与音素模型库的音素模型的相同长度的部分进行匹配，将匹配度最高的音素模型作为被选择的输出音素模型；

对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出；

基于输出音素模型预测目标语音音素的后续部分，并与采集到的目标语音音素进行比对，若差异过大，则重新将采集到的目标语音音素与音素模型库的音素模型的相同长度的部分进行匹配，将匹配度最高的音素模型作为被选择的输出音素模型。

所述音素模型为依据安静环境下采集的个人语音音素建立。

所述方法还包括：

获取参考音频信号；

所述将音频信号分割为多个语音音素，具体为：根据参考音频信号将采集到的连续音频信号分割为多个语音音素。

所述参考音频信号为骨传导震动信号。

所述参考音频信号为脑电信号或咽喉处的震动信号。

所述方法还包括：

将采集到的语音音素和输出音素模型进行比对，若采集到的语音音素的背景噪声更小、更清晰或更完整，则用采集到的语音音素替换输出音素模型。

一种语音降噪装置，包括：

模型库存储器，被配置存储音素模型库；

程序存储器，被配置为存储降噪程序；

处理器，别配置为执行所述降噪程序时实现如上述的方法。

一种语音降噪设备，包括：

第一音频信号采集装置，被配置为采集音频信号；

参考音频信号采集装置，被配置为采集参考音频；

如上述的语音降噪装置，所述语音降噪装置与第一音频信号采集装置和参考音频信号采集装置连接。

所述参考音频信号采集装置为骨传导振动传感器。

与现有技术相比，本发明具有以下有益效果：

1)采用预先建立针对个人的语音音素模型库，然后将采集的到音频分割为多个语音音素，最后根据采集到的语音音素对标准语音音素模型进行波形修正后播放，可以在强度相似的更加复杂的语音环境中提取出针对个人的语音提取，达到降噪的效果。

2)在音素分割过程中增加参考音频信号，可以有效提高音素的拆分效果，进一步提高响应的准确率和及时性。

3)在一段音素采集完毕后进行匹配，可以提高准确度。

4)将采集的一部分音素进行匹配，可以提高降噪速度。

5)采用骨传导震动信号作为参考信号，配合骨传导耳机，成本低，容易产业化。

附图说明

图1为本发明实施例降噪方法的原理示意图；

图2为引入参考音频信号的降噪方法的原理示意图；

图3为利用骨传导震动信号的降噪设备的原理示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本申请的一种实施方式提供了一种算法实现语音降噪，实现原理具体如图1所示：

1、首先在安静环境下采集的个人语音音素，并基于此建立个人的音素模型；

2、然后将采集的连续音频信号分割为语音音素，以语音音素为单位进行处理，具体为与音素模型进行匹配，将最接近的音素模型作为输出音素模型；

3、输出环节对音素模型进行波形修正，从而实现仿真采集得到的语音，具体的，是将输出音素模型按照当前采样所得语音音素的响度变化和持续长度进行调整，以使得输出更接近当前使用者发出的声音。

具体的，本申请另一实施方式提供了一种智能语音降噪芯片，该智能语音降噪芯片包含以下内容：

1、芯片将采集的连续音频信号分割为语音音素，以语音音素为单位进行处理。

2、芯片内具有非易失的音素模型库存储，语音输出为按照选择算法从音素模型库中选择音素，并经过一定的处理后拼接而成。

3、在一些实施例中，可支持高精度模式，当完成一段语音音素采集时，与音素模型库中的音素模型进行匹配，将匹配度最高的作为被选择的输出音素模型。

4、在一些实施例中，可支持高速度模式，在一段语音音素开始之初，将已采集部分与音素模型库中的音素模型的起始段进行匹配，将匹配度最高的作为被选择的输出音素模型，并立即开始输出，与此同时，利用音素模型对后续音频采集数据进行预测，预测结果与采集数据进行实时比对，当差异过大时即时更改音素模型的选择，以修正初期模型选择的错误。

5、在一些实施例中，在进行音素模型匹配时，会将当前采集到的音素片段和音素模板进行比较，若背景噪声、清晰程度和完整程度比音素模板库中更好时，将该音素模板以刚采集到的音素为基础进行修正，随着使用时间越来越长，音素库将更为准确、丰富、清晰，且更接近本人的声音。

6、在一些实施例中，如图2所示，在更好的配置下，语音音素的切割和使用者声音与其它人或背景噪声的分辨，可以通过一个参考信号通道进行，参考通道中的信号可以更为精确地区分使用者发声的时段。

参考音频信号数据中具有更多能将使用者本人语音与背景声音区分的信息。可能的参考音频数据源包括：

骨传导震动信号，由于人体发声的结构特点，自身发声时，声带震动一方面会从口腔以语音的方式传出，也会造成颅骨的震动。由于颅骨的震动特性，外界的声音在颅骨上造成的震动相比自身语音引起的震动，其能量要小很多，因此可以作为使用者自身语音与环境噪声的分辨依据，相比直接从麦克风采集的混合声音中识别语音，骨传导震动信号具有更精确的分割信息。然而由于骨骼与空气传递声音的特性不同，因此骨传导震动不能直接作为语音信号进行采集传输，但作为语音信号分离的参考是十分适合的。

脑电信号，人在说话时，脑电信号有所变化，对特定位置的脑电信号被实时采集后，可作为参考音频数据输入降噪芯片

咽喉处的震动信号，声带震动最明显的部位，对该部位震动信号采集可生成最贴近人体发声情况的参考数据流，帮助降噪芯片对信号的分割处理。

本申请的再一种实施方式还提供了一种语音降噪设备，其主体为无噪声麦克风，采用智能语音降噪芯片来进行语音降噪，为个人建立语音音素模型库，并提供上传下载功能。还可以由用户自主选择是否使用智能语音降噪功能，另外也可以选配混音功能，在使用智能语音降噪功能时，能够在本地预先存储的背景音中选择一种背景音，与降噪输出的语音进行实时混音输出。

前述预先存储的背景音可以通过麦克风的数据接口进行上传，也可以预先通过麦克风录制并存储。

输入音频数据为采集的音频信号数字化的数据流，进入芯片后，音频分割模块首先根据语音音素特征将数据流切分为多个语音音素片段，交给模型匹配模块。

在高精度模式下，模型匹配模块将语音音素进行一定程度的归一化，消减非语音频段信号，对信号幅值、和完整性等作一些调整后，与音素模型库中存储的模型进行匹配，找到匹配度最高的音素模型，输出到波形修正模块，波形修正模块从模型匹配模块获得当前音素已完成的调整参数，在音素模型上反向调整回来，发送给输出模块，按照设定速度输出。若没有找到匹配度较高的模型，则将当前处理过的语音音素作为新的音素模型保存在音素模型库中。

在高速度模式下，模型匹配模块从音素分割模块获得当前采样数据，将当前语音音素已采集的部分数据缓冲在模块内，并与音素模型库内的模型的相应长度部分进行匹配，找到匹配度最高的音素模型输出给波形修正模块，同样根据匹配时所作调整完成波形修正，将当前最新的数据发送给输出模块，按照设定的速度输出，同时依据当前选择的这个模型，预测下一个采样数据，发送给比对模块，比对模块会从输入的数据流中获得下一个数据，与预测结果进行比对，当比对有较大的差异时，重新在音素模型库中寻找匹配度更大的模型，调整模型输出，若比对有较小的差异，将会根据数据质量和差异情况对音素模型进行修正。

参考音频信号为骨传导震动信号、脑电信号或咽喉处的震动信号，通过参考音频信号采集装置采集。一种无噪声麦克风的实现方法如下图所示。

一种实施例中，如图3所示，麦克风包括弹性支架，电池支架，麦克风主体，前伸麦克风等部分组成，麦克风主体内置一块主电路板。连接贴近使用者头部一面安装一个骨传导震动传感器，将骨传导信号作为参考音频信号传输给主电路板。电池支架内置一块锂电池，通过支架内部走线连接主电路板的电源模块，为电路供电。主体部分连接一根可弯曲的连杆，其头部安装前伸麦克风传感器，通过连杆连接至主电路板。前伸麦克风为语音传感器，采集的语音信号作为第一音频信号传输给主电路板。

其中主电路板为无噪声麦克风的主要电路，前伸麦克风接入的声音信号接入主控芯片，主控芯片将信号进行模数转换，转为音频数据，主控芯片根据个人设置可以选择两种路径发送数据：

将音频数据通过数字接口发送给智能降噪芯片，智能降噪芯片在骨传导信号的参考下对声音进行智能降噪，并将降噪后的数据发送给主控模块，主控模块转发至蓝牙模块进行音频数据发送，从而实现无噪声语音麦克风功能；

将音频数据直接转发至蓝牙模块进行音频发送，此时该麦克风表现为普通麦克风

蓝牙模块可以在控制器的控制下与智能手机连接，传输数据，或通过智能手机应用进行配置。

此外，无噪声麦克风可以与无线耳机结合组成无线耳麦，增加耳机头与控制器连接即可，同时实现音频输入和输出的功能。

其中，无噪声麦克风的使用方法包括：

无噪声麦克风可以以传统蓝牙麦克风设备的形式与智能手机连接，为智能手机提供音频输入，支持网络对话，多人网络会议等功能。

智能手机上可以为无噪声麦克风安装配置应用程序，该配置应用程序可以更改无噪声麦克风的工作模式，在无噪声模式和普通模式间切换，以应对不同的应用场景。

无噪声麦克风的控制器也可以增加自动配置功能，在嘈杂环境中自动开启无噪声模式，以方便使用者。

无噪声麦克风可以支持混音模式，通过智能手机应用程序通过蓝牙与主控芯片建立连接，配置是否使用混音，上传背景音数据，以及配置被选中的背景音。同时也可以配置智能手机开始通过麦克风传感器对当前背景音进行录音采样，并存储在主控板上的存储器中，供选择使用。

Claims

1.一种语音降噪方法，其特征在于，包括：

采集连续音频信号，并将音频信号分割为多个语音音素；

对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出。

2.一种语音降噪方法，其特征在于，包括：

采集连续音频信号，并将音频信号分割为多个语音音素；

3.根据权利要求1或2所述的一种语音降噪方法，其特征在于，所述音素模型为依据安静环境下采集的个人语音音素建立。

4.根据权利要求1或2所述的一种语音降噪方法，其特征在于，所述方法还包括：

获取参考音频信号；

5.根据权利要求4所述的一种语音降噪方法，其特征在于，所述参考音频信号为骨传导震动信号。

6.根据权利要求4所述的一种语音降噪方法，其特征在于，所述参考音频信号为脑电信号或咽喉处的震动信号。

7.根据权利要求1或2所述的一种语音降噪方法，其特征在于，所述方法还包括：

8.一种语音降噪装置，其特征在于，包括：

模型库存储器，被配置存储音素模型库；

程序存储器，被配置为存储降噪程序；

处理器，别配置为执行所述降噪程序时实现如权利要求1-7中任一所述的方法。

9.一种语音降噪设备，其特征在于，包括：

第一音频信号采集装置，被配置为采集音频信号；

参考音频信号采集装置，被配置为采集参考音频；

如权利要求8所述的语音降噪装置，所述语音降噪装置与第一音频信号采集装置和参考音频信号采集装置连接。

10.根据权利要求9所述的语音降噪设备，其特征在于，所述参考音频信号采集装置为骨传导振动传感器。