CN110992967A

CN110992967A - 一种语音信号处理方法、装置、助听器及存储介质

Info

Publication number: CN110992967A
Application number: CN201911380159.XA
Authority: CN
Inventors: 黄超凡
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-04-10

Abstract

本发明实施例公开了一种语音信号处理方法、装置、助听器及存储介质。该方法包括：通过麦克风阵列接收音频信号；对语音频信号进行检测，确定是否存在语音信号；若存在语音信号，将音频信号进行盲源分离，得到语音信号，并将语音信号输出；若不存在语音信号，将音频信号输出或者丢弃。该方法可以去除音频信号中同一方向性的干扰，获取高质量的语音信号，可以减少计算量以及功率消耗。

Description

一种语音信号处理方法、装置、助听器及存储介质

技术领域

本发明实施例涉及助听器技术领域，尤其涉及一种语音信号处理方法、装置、助听器及存储介质。

背景技术

目前有关数字助听器的算法主要解决的是降噪以及声源定位问题，常用的算法有基于麦克风阵列的语音增强技术和基于维纳滤波等的去噪方法。其中，基于麦克风阵列的语音增强技术如广义旁瓣消除(General Sidelobe Canceller，GSC)是一种波束赋形技术，通过调整相位阵列的基本单元的参数，使得某些角度的信号获得相长干涉，而另一些角度的信号获得相消干涉，在保留主瓣能量的基础上，尽可能地削减接收到的旁瓣能量。而维纳滤波根据最小均方误差准则，即滤波器的输出信号和需要信号之差的均方值最小，求得最佳线性滤波器的参数，再求出滤波器的增益，用带噪语音信号乘以增益求得去噪后的语音信号。

但是，GSC只能消除旁瓣的干扰，而对于说话人同方向的噪声或干扰则效果比较差。维纳滤波法是基于一些数学假设的，真实环境下难以有效抑制非平稳噪声的干扰，鲁棒性比较差。由于声学模型的局限，这些算法在语音与噪声的频率处在同一频率区时，对噪声和语音的区分效果比较差，从而利用这些算法设计的助听器的对于同一方向性的干扰问题得不到有效解决。

发明内容

本发明实施例提供了一种语音信号处理方法、装置、助听器及存储介质，可以去除同一方向性的干扰，获取高质量的语音信号，可以减少计算量以及功率消耗。

第一方面，本发明实施例提供了一种语音信号处理方法，该方法包括：

通过麦克风阵列接收音频信号；

对所述语音频信号进行检测，确定是否存在语音信号；

若存在语音信号，将所述音频信号进行盲源分离，得到所述语音信号，并将所述语音信号输出；

若不存在语音信号，将所述音频信号输出或者丢弃。

可选的，所述将所述语音信号输出，包括：

将所述语音信号输出至助听器；

相应的，所述将所述音频信号输出或者丢弃，包括：

将所述音频信号输出至助听器或者将所述音频信号不输出至助听器。

可选的，所述对所述语音频信号进行检测，确定是否存在语音信号，包括：

将所述语音频信号进行去均值预加重；

将去均值预加重后的音频信号进行傅里叶变换；

将傅里叶变换后的音频信号提取滤波器fbank特征，并进行特征修正；

将修正的fbank特征进行解码，确定是否存在语音信号。

可选的，所述将修正的fbank特征进行解码，确定是否存在语音信号，包括：

通过神经网络进行解码，获取是否存在语音信号的布尔结果；

根据布尔结果确定是否存在语音信号。

可选的，所述将所述音频信号进行盲源分离，包括：

将傅里叶变换后的音频信号进行盲源分离。

可选的，所述盲源分离，包括基于独立向量分析IVA的盲源分离。

第二方面，本发明实施例还提供了一种语音信号处理装置，该装置包括：

音频信号接收模块，用于通过麦克风阵列接收音频信号；

语音频信号检测模块，用于对所述语音频信号进行检测，确定是否存在语音信号；

盲源分离进行模块，用于若存在语音信号，将所述音频信号进行盲源分离，得到所述语音信号，并将所述语音信号输出；

音频信号处理模块，用于若不存在语音信号，将所述音频信号输出或者丢弃。

可选的，所述盲源分离进行模块，包括：

语音信号输出单元，用于将所述语音信号输出至助听器；

相应的，所述音频信号处理模块，包括：

音频信号处理单元，用于将所述音频信号输出至助听器或者将所述音频信号不输出至助听器。

第三方面，本发明实施例还提供了一种助听器，该助听器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种语音信号处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的一种语音信号处理方法。

本发明通过麦克风阵列接收音频信号；对语音频信号进行检测，确定是否存在语音信号；若存在语音信号，将音频信号进行盲源分离，得到语音信号，并将语音信号输出；若不存在语音信号，将音频信号输出或者丢弃，解决了现有技术中同一方向性的噪声对语音信号的干扰问题，实现了可以去除音频信号中同一方向性的干扰，获取高质量的语音信号，减少计算量以及功率消耗的效果。

附图说明

图1a是本发明实施例一提供的一种语音信号处理方法的流程图；

图1b是本发明实施例提供的语音信号处理的流程图；

图1c是本发明实施例提供的语音信号检测及分离的流程图；

图2是本发明实施例二提供的一种语音信号处理装置的结构示意图；

图3是本发明实施例三提供的一种助听器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1a是本发明实施例一提供的一种语音信号处理方法的流程图，本实施例可适用于去除音频信号中的噪声以使助听器获取高质量的语音信号的情况，该方法可以由语音信号处理装置来执行，该装置可以通过软件，和/或硬件的方式实现，装置可以集成在助听器中，如图1a所示，该方法具体包括：

步骤110、通过麦克风阵列接收音频信号。

其中，麦克风阵列可以是助听器中的收音装置，可以通过麦克风阵列接收助听器附近的音频信号。音频信号可以包括人说话的声音信号、道路提示信号、动物发出的声音信号以及环境中的噪声等。音频信号可以是来自多个方向的语音类信号混和形成的声音信号。

步骤120、对语音频信号进行检测，确定是否存在语音信号。

其中，麦克风阵列接收到的音频信号中可能存在很多噪声，在实际应用中，如果将麦克风阵列接收到的音频信号直接通过助听器传输给助听器佩戴者，会使助听器佩戴者听到混乱、嘈杂的声音，起不到良好的助听效果。因此，可以对于麦克风阵列接收到音频信号需要进行检测，确定是否存在语音信号，以确定音频信号是否需要进行进一步的处理，以使助听器佩戴者可以听到干净、无噪声的语音信号。

在本发明实施例的一个实施方式中，可选的，对语音频信号进行检测，确定是否存在语音信号，包括：将语音频信号进行去均值预加重；将去均值预加重后的音频信号进行傅里叶变换；将傅里叶变换后的音频信号提取滤波器fbank特征，并进行特征修正；将修正的fbank特征进行解码，确定是否存在语音信号。

其中，可以通过语音活动检测(Voice Activity Detection，VAD)模块检测音频信号中是否存在语音信号，VAD模块的输入可以是麦克风阵列接收的20毫秒帧长、10毫秒帧移的音频信号。VAD模块可以对输入的音频信号，先进行去均值预加重，可以通过一阶高通数字滤波器作为传递函数实现预加重，可以去除口鼻辐射的影响，增强音频信号高频部分的分辨率，对音频信号的高频部分进行加重。然后，可以对去均值预加重后的音频信号进行傅里叶变换。再通过美尔(Mel)滤波器组，提取音频信号的滤波器(Filter Bank，fbank)特征，并进行特征修正。最后，可以通过深度神经网络(Deep Neural Network，DNN)对修正的fbank特征进行解码，确定音频信号中是否存在语音信号。

在本发明实施例的一个实施方式中，可选的，将修正的fbank特征进行解码，确定是否存在语音信号，包括：通过神经网络进行解码，获取是否存在语音信号的布尔结果；根据布尔结果确定是否存在语音信号。

其中，DNN可以是112*32,32*32,32*2的三层神经网络，前两层的激活函数可以是sigmoid函数，第三层的激活函数可以是softmax函数。通过DNN可以得到是否存在语音信号的布尔结果，其中，存在语音信号，布尔结果为1；不存在语音信号，布尔结果为0。可以根据布尔结果，确定音频信号中是否存在语音信号，其准确性更高。

在本发明实施例的一个实施方式中，可选的，将音频信号进行盲源分离，包括：将傅里叶变换后的音频信号进行盲源分离。

在本发明实施例的一个实施方式中，可选的，盲源分离，包括基于独立向量分析IVA的盲源分离。

其中，本发明实施中，可以采用独立成分分析(Independent ComponentAnalysis，ICA)算法做盲源分离，但是可能会出现排序模糊性问题。例如，对于麦克风阵列采集到的音频信号x⁽ⁱ⁾可以表示为x⁽ⁱ⁾＝Asⁱ，其中，A为混合矩阵，sⁱ为分离信号，根据x⁽ⁱ⁾，求A和sⁱ，但是A和sⁱ的结果不唯一，造成sⁱ的顺序不确定，即出现排序模糊性问题。

优选的，本发明实施中，可以采用独立向量分析(Independent Vector Analysis，IVA)算法做盲源分离，IVA算法是对ICA算法的一种扩展，可以将ICA算法中的单变量成分扩展为多维变量成分，可以增加频点，利用频点的特性来确定语音信号属于哪一个通道，可以避免盲源分离过程中的排序模糊问题。

具体的，可以在VAD模块检测到音频信号中存在语音信号时，将傅里叶变换后的音频信号作为IVA算法的输入，可以选取输入的帧长为20毫秒、帧移为10毫秒。可以利用KL散度(Kullback-Leibler divergence)作为评价函数，利用梯度下降法更新分离矩阵，经过IVA算法可以分离出不同说话人的语音信号或者噪声。

步骤130、若存在语音信号，将音频信号进行盲源分离，得到语音信号，并将语音信号输出。

在本发明实施例的一个实施方式中，可选的，将语音信号输出，包括：将语音信号输出至助听器。

其中，IVA算法可以将经过去均值预加重，傅里叶变换后的音频信号，分离出语音信号或者噪声。现有技术利用GSC算法或者维纳滤波算法，均不能很好地解决音频信号中的语音信号与噪声的频率处在同一频率区时，对噪声与语音信号进行区分。而本发明实施例采用盲源分离，可以将音频信号中的噪声和语音信号进行分离，解决了同一方向性的干扰问题。可选的，可以将分离得到的语音信号输出至助听器，以使助听器佩戴者听到干净、无噪声的语音信号，可以解决同一方向性的干扰问题，提升助听器佩戴者的使用体验。

步骤140、若不存在语音信号，将音频信号输出或者丢弃。

在本发明实施例的一个实施方式中，可选的，将音频信号输出或者丢弃，包括：将音频信号输出至助听器或者将音频信号不输出至助听器。

其中，如果VAD模块检测到音频信号中不存在语音信号，即麦克风阵列接收的音频信号是纯噪声，对该纯噪声可以不进行盲源分离，可以减少计算量以及功率消耗。可以将纯噪声直接输出至助听器，也可以忽略纯噪声信号，不输出至助听器。可以取决于助听器的具体应用场景设置成将纯噪声直接输出至助听器或者将纯噪声丢弃即不输出至助听器。例如，对于经常在室外活动的助听器佩戴者，麦克风阵列接收的纯噪声通常是一些道路提示音如车鸣声，可以将纯噪声直接输出至助听器，便于助听器佩戴者听到道路提示音，做出正确的决策；对于经常在室内活动的助听器佩戴者，麦克风阵列接收的纯噪声通常是一些嘈杂的可以丢弃的声音，可以将纯噪声丢弃，避免干扰助听器佩戴者；也可以根据实际需求，设置一个关于纯噪声是直接输出还是丢弃的开关，由助听器佩戴者根据自己的应用需求，决定纯噪声是直接输出至助听器，还是丢弃。

本实施例的技术方案，通过麦克风阵列接收音频信号；对语音频信号进行检测，确定是否存在语音信号；若存在语音信号，将音频信号进行盲源分离，得到语音信号，并将语音信号输出；若不存在语音信号，将音频信号输出或者丢弃，解决了现有技术中同一方向的噪声对语音信号的干扰问题，实现了可以去除音频信号中同一方向的干扰，获取高质量的语音信号，减少计算量以及功率消耗的效果。

图1b是本发明实施例提供的语音信号处理的流程图，如图1b所示，麦克风阵列可以接收音频信号；VAD模块对该音频信号进行检测，确定音频信号中是否存在语音信号；对于存在语音信号的音频信号，盲源分离模块(Blind Source Separation，BSS)分离出音频信号中的语音信号，并将语音信号传输至助听器，以使助听器佩戴者听到干净、无噪声的语音信号。

图1c是本发明实施例提供的语音信号检测及分离的流程图，如图1c所示，对于麦克风阵列接收的音频信号主要分为语音信号检测和语音信号分离两大部分进行处理。其中，语音信号检测由VAD模块执行，语音信号分离由BSS模块执行。具体的，麦克风阵列接收的音频信号可以通过VAD模块进行去均值预加重、傅里叶变换、提取fbank特征、特征修正、解码，得到布尔结果。BSS模块根据布尔结果判断语音信号是否存在，如果不存在语音信号，可以对音频信号(此时为纯噪声)不做处理，直接将音频信号输出，可以是输出至助听器；或者可以将音频信号丢弃；如果存在语音信号，可以基于IVA算法，分离出音频信号中的语音信号，将语音信号输出。例如，可以输出至助听器，可以使助听器佩戴者听到干净、无噪声的语音信号，可以去除音频信号中同一方向性的干扰，获取高质量的语音信号，可以减少计算量以及功率消耗。

实施例二

图2是本发明实施例二提供的一种语音信号处理装置的结构示意图。结合图2，该装置包括：音频信号接收模块210，语音频信号检测模块220，盲源分离进行模块230和音频信号处理模块240。

音频信号接收模块210，用于通过麦克风阵列接收音频信号；

语音频信号检测模块220，用于对语音频信号进行检测，确定是否存在语音信号；

盲源分离进行模块230，用于若存在语音信号，将音频信号进行盲源分离，得到语音信号，并将语音信号输出；

音频信号处理模块240，用于若不存在语音信号，将音频信号输出或者丢弃。

可选的，盲源分离进行模块230，包括：

语音信号输出单元，用于将语音信号输出至助听器；

相应的，音频信号处理模块240，包括：

音频信号处理单元，用于将音频信号输出至助听器或者将音频信号不输出至助听器。

可选的，语音频信号检测模块220，包括：

去均值预加重单元，用于将语音频信号进行去均值预加重；

傅里叶变换单元，用于将去均值预加重后的音频信号进行傅里叶变换；

特征提取单元，用于将傅里叶变换后的音频信号提取滤波器fbank特征，并进行特征修正；

语音信号确定单元，用于将修正的fbank特征进行解码，确定是否存在语音信号。

可选的，语音信号确定单元，包括：

布尔结果获取子单元，用于通过神经网络进行解码，获取是否存在语音信号的布尔结果；

语音信号确定子单元，用于根据布尔结果确定是否存在语音信号。

可选的，盲源分离进行模块230，包括：

盲源分离进行单元，用于将傅里叶变换后的音频信号进行盲源分离。

可选的，盲源分离，包括基于独立向量分析IVA的盲源分离。

本发明实施例所提供的语音信号处理装置可执行本发明任意实施例所提供的语音信号处理方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3是本发明实施例三提供的一种助听器的结构示意图，如图3所示，该助听器包括：

一个或多个处理器410，图3中以一个处理器410为例；

存储器420；

所述设备还可以包括：输入装置430和输出装置440。

所述设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器420作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种语音信号处理方法对应的程序指令/模块(例如，附图2所示的音频信号接收模块210，语音频信号检测模块220，盲源分离进行模块230和音频信号处理模块240)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种语音信号处理方法，即：

通过麦克风阵列接收音频信号；

对所述语音频信号进行检测，确定是否存在语音信号；

若不存在语音信号，将所述音频信号输出或者丢弃。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种语音信号处理方法：

通过麦克风阵列接收音频信号；

对所述语音频信号进行检测，确定是否存在语音信号；

若不存在语音信号，将所述音频信号输出或者丢弃。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音信号处理方法，其特征在于，包括：

通过麦克风阵列接收音频信号；

对所述语音频信号进行检测，确定是否存在语音信号；

若不存在语音信号，将所述音频信号输出或者丢弃。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音信号输出，包括：

将所述语音信号输出至助听器；

相应的，所述将所述音频信号输出或者丢弃，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述语音频信号进行检测，确定是否存在语音信号，包括：

将所述语音频信号进行去均值预加重；

将去均值预加重后的音频信号进行傅里叶变换；

将修正的fbank特征进行解码，确定是否存在语音信号。

4.根据权利要求3所述的方法，其特征在于，所述将修正的fbank特征进行解码，确定是否存在语音信号，包括：

根据所述布尔结果确定是否存在语音信号。

5.根据权利要求3所述的方法，其特征在于，所述将所述音频信号进行盲源分离，包括：

将所述傅里叶变换后的音频信号进行盲源分离。

6.根据权利要求1-5任一所述的方法，其特征在于，所述盲源分离，包括基于独立向量分析IVA的盲源分离。

7.一种语音信号处理装置，其特征在于，包括：

音频信号接收模块，用于通过麦克风阵列接收音频信号；

8.根据权利要求7所述的装置，其特征在于，所述盲源分离进行模块，包括：

语音信号输出单元，用于将所述语音信号输出至助听器；

相应的，所述音频信号处理模块，包括：

9.一种助听器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的一种语音信号处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的一种语音信号处理方法。