CN111192569A

CN111192569A - 双麦语音特征提取方法、装置、计算机设备和存储介质

Info

Publication number: CN111192569A
Application number: CN202010234171.6A
Authority: CN
Inventors: 王维; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-05-22
Anticipated expiration: 2040-03-30
Also published as: CN111192569B

Abstract

本发明涉及语音活动检测的技术领域，提供了一种双麦语音特征提取方法、装置、计算机设备和存储介质，其中方法包括：基于双麦克风采集双通道的语音信号；对所述双通道的语音信号进行复相干函数的计算；根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。本发明中基于复相干函数，采用多种不同的方式计算得到多种不同的VAD特征，并对多个VAD特征进行融合，使得对噪声的适应性增强，而且计算过程简单，有利于降低系统资源占用。

Description

双麦语音特征提取方法、装置、计算机设备和存储介质

技术领域

本发明涉及语音活动检测的技术领域，特别涉及一种双麦语音特征提取方法、装置、计算机设备和存储介质。

背景技术

随着智能语音的兴起，利用麦克风阵列技术实现精准语音活动检测成为了当前热门的技术之一，传统的有过零率统计、能量判断、基音检测等检测方法；近年来开始有一些基于深度学习的检测方法，其使用海量数据训练模型来实现噪声语音分类。

现有的一些解决方案，比如传统的过零率统计、能量判断、基音检测等方法对不同噪声敏感，在信噪比低时效果较差。基于深度学习模型的方法能实现较好的效果，但是系统消耗资源过大，不利于设备集成。基于阵列的方法需要进行声源方向判断，逻辑复杂不利于不同场景的适配。

发明内容

本发明的主要目的为提供一种双麦语音特征提取方法、装置、计算机设备和存储介质，旨在克服目前语音活动检测时系统资源消耗大、噪声适应性差的缺陷。

为实现上述目的，本发明提供了一种双麦语音特征提取方法，包括以下步骤：

基于双麦克风采集双通道的语音信号；

对所述双通道的语音信号进行复相干函数的计算；

根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；

对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。

进一步地，所述对所述双通道的语音信号进行复相干函数的计算的步骤，包括：

对所述双通道的语音信号分别进行分帧、加窗，并进行傅里叶变换得到双通道的频域信号；

对所述双通道的频域信号分别进行梅尔滤波，得到双通道的梅尔频域信号；

对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度；

根据所述自谱密度以及互谱密度，计算所述复相干函数。

进一步地，所述自谱密度的计算公式为：

；

所述互谱密度的计算公式为：

；

其中，

、

分别为双麦克风在

帧、k频率点处的Mel短时谱，

表示功率谱密度函数，

为平滑系数；

所述复相干函数的计算公式为：

。

进一步地，所述VAD特征包括三个，分别为第一VAD特征、第二VAD特征以及第三VAD特征。

进一步地，所述根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征的步骤，至少包括：

计算所述复相干函数的相位值，并计算所述相位的方差；

对所述方差进行归一化处理，得到所述第一VAD特征。

基于所述复相干函数，计算波达方向无关的CDR无偏估计值；

对所述波达方向无关的CDR无偏估计值进行频域加权求和，并进行归一化处理，得到所述第二VAD特征。

基于所述复相干函数、自谱密度以及互谱密度，计算噪声功率谱；

根据所述噪声功率谱以及任一通道的梅尔频域信号，计算当前帧的后验信噪比；

根据当前帧的后验信噪比和上一帧的语音存在概率，得到当前帧的先验信噪比；

根据所述当前帧的先验信噪比，计算得到语音存在概率；

对所述语音存在概率进行频域加权求和，并进行归一化处理，得到第三VAD特征。

进一步地，所述对得到的多种VAD特征进行加权求和计算，得到目标VAD特征的步骤之后，包括：

将所述目标VAD特征与预设阈值进行对比，根据对比结果，输出对应的VAD标签。

本发明还提供了一种双麦语音特征提取装置，包括：

采集单元，用于基于双麦克风采集双通道的语音信号；

第一计算单元，用于对所述双通道的语音信号进行复相干函数的计算；

第二计算单元，用于根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；

第三计算单元，用于对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明提供的双麦语音特征提取方法、装置、计算机设备和存储介质，包括：基于双麦克风采集双通道的语音信号；对所述双通道的语音信号进行复相干函数的计算；根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。本发明中基于复相干函数，采用多种不同的方式计算得到多种不同的VAD特征，并对多个VAD特征进行融合，使得对噪声的适应性增强，而且计算过程简单，有利于降低系统资源占用。

附图说明

图1 是本发明一实施例中双麦语音特征提取方法步骤示意图；

图2 是本发明一实施例中步骤S2的具体步骤示意图；

图3 是本发明一实施例中双麦语音特征提取装置结构框图；

图4 为本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明一实施例中提供了一种双麦语音特征提取方法，包括以下步骤：

步骤S1，基于双麦克风采集双通道的语音信号；

步骤S2，对所述双通道的语音信号进行复相干函数的计算；

步骤S3，根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；

步骤S4，对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。

在本实施例中，基于双麦克风结构，该双麦克风采集音频时，通过双通道分别采集语音信号。上述双麦克风结构的体积小，设计方便，硬件成本低。

由于上述双麦克风分别采集对应通道的语音信息，因此，可以根据两个通道的语音信号进行复相干函数的计算。上述复相干函数指的是上述两个通道中的语音信号之间的相干关系。

在本实施例中，计算得到上述复相干函数之后，采用多种不同的预设方式分别计算得到对应的VAD（Voice Activity Detection，语音活动检测）特征；利用复相干函数导出各个VAD特征，计算量小，对象系统资源的消耗低，方便部署到嵌入式移动设备中。

进而，对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。由于不同方式所计算得到VAD特征具有不同的特点，将其进行加权求和计算以便进行特征融合，以便最终得到的目标VAD特征中携带有各个VAD特征的特性，从而使得其可以对不同信噪比的噪声敏感，提升语音活动检测的检测效果。

在本实施例中，将上述双麦结构及上述双麦语音特征提取方法应用于录音笔、翻译机、智能音箱、智能电视等产品上，能够提供精准的语音活动检测，为后续语音增强、语音唤醒等应用提供可靠的先验信息。

参照图2，在一实施例中，所述对所述双通道的语音信号进行复相干函数的计算的步骤S2，包括：

步骤S21，对所述双通道的语音信号分别进行分帧、加窗，并进行傅里叶变换得到双通道的频域信号；

步骤S22，对所述双通道的频域信号分别进行梅尔滤波，得到双通道的梅尔频域信号；

本实施例中，采用梅尔（Mel）滤波器进行滤波，梅尔滤波器是一组非线性分布的滤波器组，它在低频部分分布密集，高频部分分布稀疏，这样的分布可以更好地符合人耳听觉对不同频率的感知特性。

上述梅尔滤波的过程可以表达为：

上式中，

为梅尔滤波器组系数，可以预先由Matlab或者Python信号处理工具箱计算导出，上述dot表示矩阵乘法，

是在

帧、k频率点处的梅尔频域信号。

步骤S23，对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度；

步骤S24，根据所述自谱密度以及互谱密度，计算所述复相干函数。

在本实施例中，将上述双通道的语音信号转换至梅尔谱上处理，符合人耳听觉特性，而且后续基于双通道梅尔谱上提取VAD特征，方便与后续的语音唤醒、语音识别系统的整合。

在本实施例中，上述步骤S23中，所述自谱密度的计算公式为：

；

所述互谱密度的计算公式为：

；

其中，

、

分别为双麦克风在

帧、k频率点处的Mel短时谱，

表示功率谱密度函数，

为平滑系数；

所述复相干函数的计算公式为：

。

在本实施例中，上述复相干函数由梅尔滤波方式得到，不仅符合人耳听觉对不同频率的感知特性，而且，利用基于梅尔谱的复相干函数导出各个VAD特征，计算量小，对象系统资源的消耗低，方便部署到嵌入式移动设备中。

在一个具体实施例中，所述VAD特征包括三个，分别为第一VAD特征、第二VAD特征以及第三VAD特征。

本实施例中，采用三种不同的计算方式对上述基于梅尔谱计算得到的复相干函数分别进行VAD特征的导出，计算量小，且由于计算方式不同，其适应性也不同，以此便提高了整体的适应性。

在本实施例中，所述根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征的步骤S3，至少包括：

S31，计算所述复相干函数的相位值，并计算所述相位的方差；

S32，对所述方差进行归一化处理，得到所述第一VAD特征。

在本实施例中，双通道语音信号的复相干函数的相位呈超高斯分布，相位方差不为0，而双麦噪声信号相关性较低，噪声相干函数的相位呈均匀分布，方差接近0，利用这一特点，可以提取复相干函数的的相位方差信息作为语音活动检测的一种VAD特征。

上述相位的计算过程为：

；

上述相位的方差计算过程为：

；

上述归一化处理得到第一VAD特征P1的过程为：

。

S301，基于所述复相干函数，计算波达方向无关的CDR无偏估计值；

S302，对所述波达方向无关的CDR无偏估计值进行频域加权求和，并进行归一化处理，得到所述第二VAD特征。

在本实施例中，基于上述复相干函数，计算波达方向无关的CDR无偏估计值时，使用的CDR估计不依赖目标声源的相干函数信息，避免了对声源进行声源定位，克服目前需要进行声源方向判断造成逻辑复杂不利于各个场景的缺陷。

上述计算波达方向无关的CDR无偏估计值的具体公式如下：

；

其中，

，为扩散噪声场的相干函数，f为信号频率，d为麦克风间距，c为声音在空气中的传播速度，

为取实部操作。

对上述CDR无偏估计值进行频域加权求和的计算过程为：

；

其中，N为傅里叶变化点数。

为频域归一化加权系数，根据采样频率提前设定，语音信号能量基本在中低频段，高频成分能量较小。本发明对中低频段使用较大权值，高频段使用较小权值，例如对16KHz的的采样信号，对200~3400频段使用较大权值，3400~8000使用较小权值。

对上述过程得到的

做归一化处理的计算方式如下，得到所述第二VAD特征P2：

。

S3a，基于所述复相干函数、自谱密度以及互谱密度，计算噪声功率谱；

S3b，根据所述噪声功率谱以及任一通道的梅尔频域信号，计算当前帧的后验信噪比；

S3c，根据当前帧的后验信噪比和上一帧的语音存在概率，得到当前帧的先验信噪比；

S3d，根据所述当前帧的先验信噪比，计算得到语音存在概率；

S3e，对所述语音存在概率进行频域加权求和，并进行归一化处理，得到第三VAD特征。

在本实施例中，基于上述步骤23计算得到的自谱密度和互谱密度，以及步骤S24计算得到的复相干函数，估计噪声功率谱，计算公式如下：

；

利用上述公式计算得到的噪声功率谱，以及任一通道的梅尔频域信号，计算当前帧的后验信噪比的计算过程为：

；

利用当前帧的后验信噪比和上一帧的语音存在概率，得到当前帧的先验信噪比的计算过程为：

；

上式中，

为上一帧的语音存在概率，其中，当前帧的语音存在概率

定义为如下式

；

因此，在给定了

的初始值后，结合每个时刻的双通道噪声估计，就可以递推得到每个时刻每个频点的语音存在概率。

对上述过程计算得到的

做与频域加权求和，具体计算过程为：

；

其中，进行归一化处理得到第三VAD特征P3的过程为：

。

在本实施例中，基于双麦噪声谱估的语音存在概率作为VAD特征，使得噪声鲁棒性强。

至此，则由上述三种不同的计算方式，分别基于复相干函数，导出对应不同的三种VAD特征。

在一实施例中，所述对得到的多种VAD特征进行加权求和计算，得到目标VAD特征的步骤S4,具体包括：

利用噪声数据集根据漏警率与虚警率的指标进行网格搜索计算得到上述三种VAD特征的最优加权系数，根据最优加权系数，对上述三种VAD特征进行加权求和计算，得到目标VAD特征。如一具体实施例中，上述三种VAD特征的最优加权系数依次为0.2、0.5、0.3；则上述加权求和的计算公式为：

。

在另一实施例中，所述对得到的多种VAD特征进行加权求和计算，得到目标VAD特征的步骤S4之后，包括：

在本实施例中，将上述目标VAD特征与预设阈值

比较，如果大于

则输出标签为1，否则输出表为0，上述预设阈值

可以由用户根据不同场景需求进行适当调整。

综上所述，为本发明实施例中提供的双麦语音特征提取方法，包括：基于双麦克风采集双通道的语音信号；对所述双通道的语音信号进行复相干函数的计算；根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。本发明中基于复相干函数，采用多种不同的方式计算得到多种不同的VAD特征，并对多个VAD特征进行融合，使得对噪声的适应性增强，而且计算过程简单，有利于降低系统资源占用。

参照图3，本发明一实施例中还提供了一种双麦语音特征提取装置，包括：

采集单元10，用于基于双麦克风采集双通道的语音信号；

第一计算单元20，用于对所述双通道的语音信号进行复相干函数的计算；

第二计算单元30，用于根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；

第三计算单元40，用于对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。

在一实施例中，上述第一计算单元20，包括：

变换子单元，用于对所述双通道的语音信号分别进行分帧、加窗，并进行傅里叶变换得到双通道的频域信号；

滤波子单元，用于对所述双通道的频域信号分别进行梅尔滤波，得到双通道的梅尔频域信号；

第一计算子单元，用于对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度；

第二计算子单元，用于根据所述自谱密度以及互谱密度，计算所述复相干函数。

在本实施例中，所述第一计算子单元计算自谱密度的计算公式为：

；

所述第一计算子单元计算互谱密度的计算公式为：

；

其中，

、

分别为双麦克风在

帧、k频率点处的Mel短时谱，

表示功率谱密度函数，

为平滑系数；

所述第二计算子单元计算复相干函数的计算公式为：

。

在一实施例中，所述VAD特征包括三个，分别为第一VAD特征、第二VAD特征以及第三VAD特征。

在本实施例中，所述第二计算单元30，至少用于：

计算所述复相干函数的相位值，并计算所述相位的方差；

对所述方差进行归一化处理，得到所述第一VAD特征。

在本实施例中，所述第二计算单元30，至少用于：

基于所述复相干函数，计算波达方向无关的CDR无偏估计值；

在本实施例中，所述第二计算单元30，至少用于：

根据所述当前帧的先验信噪比，计算得到语音存在概率；

在另一实施例中，上述双麦语音特征提取装置，还包括：

输出单元，用于将所述目标VAD特征与预设阈值进行对比，根据对比结果，输出对应的VAD标签。

在本实施例中，上述装置中的各个单元、子单元的具体实现请参照上述方法实施例中所述，在此不再进行赘述。

参照图4，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音信号数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种双麦语音特征提取方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种双麦语音特征提取方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本发明实施例中提供的双麦语音特征提取方法、装置、计算机设备和存储介质，包括：基于双麦克风采集双通道的语音信号；对所述双通道的语音信号进行复相干函数的计算；根据所述复相干函数，采用多种不同的预设方式分别计算得到对应的VAD特征；对得到的多种VAD特征进行加权求和计算，得到目标VAD特征。本发明中基于复相干函数，采用多种不同的方式计算得到多种不同的VAD特征，并对多个VAD特征进行融合，使得对噪声的适应性增强，而且计算过程简单，有利于降低系统资源占用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。