CN111192569A - 双麦语音特征提取方法、装置、计算机设备和存储介质 - Google Patents

双麦语音特征提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111192569A
CN111192569A CN202010234171.6A CN202010234171A CN111192569A CN 111192569 A CN111192569 A CN 111192569A CN 202010234171 A CN202010234171 A CN 202010234171A CN 111192569 A CN111192569 A CN 111192569A
Authority
CN
China
Prior art keywords
vad
calculating
coherence function
voice
complex coherence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010234171.6A
Other languages
English (en)
Other versions
CN111192569B (zh
Inventor
王维
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010234171.6A priority Critical patent/CN111192569B/zh
Publication of CN111192569A publication Critical patent/CN111192569A/zh
Application granted granted Critical
Publication of CN111192569B publication Critical patent/CN111192569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Abstract

本发明涉及语音活动检测的技术领域,提供了一种双麦语音特征提取方法、装置、计算机设备和存储介质,其中方法包括:基于双麦克风采集双通道的语音信号;对所述双通道的语音信号进行复相干函数的计算;根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。本发明中基于复相干函数,采用多种不同的方式计算得到多种不同的VAD特征,并对多个VAD特征进行融合,使得对噪声的适应性增强,而且计算过程简单,有利于降低系统资源占用。

Description

双麦语音特征提取方法、装置、计算机设备和存储介质
技术领域
本发明涉及语音活动检测的技术领域,特别涉及一种双麦语音特征提取方法、装置、计算机设备和存储介质。
背景技术
随着智能语音的兴起,利用麦克风阵列技术实现精准语音活动检测成为了当前热门的技术之一,传统的有过零率统计、能量判断、基音检测等检测方法;近年来开始有一些基于深度学习的检测方法,其使用海量数据训练模型来实现噪声语音分类。
现有的一些解决方案,比如传统的过零率统计、能量判断、基音检测等方法对不同噪声敏感,在信噪比低时效果较差。基于深度学习模型的方法能实现较好的效果,但是系统消耗资源过大,不利于设备集成。基于阵列的方法需要进行声源方向判断,逻辑复杂不利于不同场景的适配。
发明内容
本发明的主要目的为提供一种双麦语音特征提取方法、装置、计算机设备和存储介质,旨在克服目前语音活动检测时系统资源消耗大、噪声适应性差的缺陷。
为实现上述目的,本发明提供了一种双麦语音特征提取方法,包括以下步骤:
基于双麦克风采集双通道的语音信号;
对所述双通道的语音信号进行复相干函数的计算;
根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;
对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。
进一步地,所述对所述双通道的语音信号进行复相干函数的计算的步骤,包括:
对所述双通道的语音信号分别进行分帧、加窗,并进行傅里叶变换得到双通道的频域信号;
对所述双通道的频域信号分别进行梅尔滤波,得到双通道的梅尔频域信号;
对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度;
根据所述自谱密度以及互谱密度,计算所述复相干函数。
进一步地,所述自谱密度的计算公式为:
Figure 100002_DEST_PATH_IMAGE001
所述互谱密度的计算公式为:
Figure 218121DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE003
Figure 287970DEST_PATH_IMAGE004
分别为双麦克风在
Figure 100002_DEST_PATH_IMAGE005
帧、k频率点处的Mel短时谱,
Figure 894401DEST_PATH_IMAGE006
表示功率谱密度函数,
Figure 100002_DEST_PATH_IMAGE007
为平滑系数;
所述复相干函数的计算公式为:
Figure 573644DEST_PATH_IMAGE008
进一步地,所述VAD特征包括三个,分别为第一VAD特征、第二VAD特征以及第三VAD特征。
进一步地,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:
计算所述复相干函数的相位值,并计算所述相位的方差;
对所述方差进行归一化处理,得到所述第一VAD特征。
进一步地,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:
基于所述复相干函数,计算波达方向无关的CDR无偏估计值;
对所述波达方向无关的CDR无偏估计值进行频域加权求和,并进行归一化处理,得到所述第二VAD特征。
进一步地,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:
基于所述复相干函数、自谱密度以及互谱密度,计算噪声功率谱;
根据所述噪声功率谱以及任一通道的梅尔频域信号,计算当前帧的后验信噪比;
根据当前帧的后验信噪比和上一帧的语音存在概率,得到当前帧的先验信噪比;
根据所述当前帧的先验信噪比,计算得到语音存在概率;
对所述语音存在概率进行频域加权求和,并进行归一化处理,得到第三VAD特征。
进一步地,所述对得到的多种VAD特征进行加权求和计算,得到目标VAD特征的步骤之后,包括:
将所述目标VAD特征与预设阈值进行对比,根据对比结果,输出对应的VAD标签。
本发明还提供了一种双麦语音特征提取装置,包括:
采集单元,用于基于双麦克风采集双通道的语音信号;
第一计算单元,用于对所述双通道的语音信号进行复相干函数的计算;
第二计算单元,用于根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;
第三计算单元,用于对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明提供的双麦语音特征提取方法、装置、计算机设备和存储介质,包括:基于双麦克风采集双通道的语音信号;对所述双通道的语音信号进行复相干函数的计算;根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。本发明中基于复相干函数,采用多种不同的方式计算得到多种不同的VAD特征,并对多个VAD特征进行融合,使得对噪声的适应性增强,而且计算过程简单,有利于降低系统资源占用。
附图说明
图1 是本发明一实施例中双麦语音特征提取方法步骤示意图;
图2 是本发明一实施例中步骤S2的具体步骤示意图;
图3 是本发明一实施例中双麦语音特征提取装置结构框图;
图4 为本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明一实施例中提供了一种双麦语音特征提取方法,包括以下步骤:
步骤S1,基于双麦克风采集双通道的语音信号;
步骤S2,对所述双通道的语音信号进行复相干函数的计算;
步骤S3,根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;
步骤S4,对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。
在本实施例中,基于双麦克风结构,该双麦克风采集音频时,通过双通道分别采集语音信号。上述双麦克风结构的体积小,设计方便,硬件成本低。
由于上述双麦克风分别采集对应通道的语音信息,因此,可以根据两个通道的语音信号进行复相干函数的计算。上述复相干函数指的是上述两个通道中的语音信号之间的相干关系。
在本实施例中,计算得到上述复相干函数之后,采用多种不同的预设方式分别计算得到对应的VAD(Voice Activity Detection,语音活动检测)特征;利用复相干函数导出各个VAD特征,计算量小,对象系统资源的消耗低,方便部署到嵌入式移动设备中。
进而,对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。由于不同方式所计算得到VAD特征具有不同的特点,将其进行加权求和计算以便进行特征融合,以便最终得到的目标VAD特征中携带有各个VAD特征的特性,从而使得其可以对不同信噪比的噪声敏感,提升语音活动检测的检测效果。
在本实施例中,将上述双麦结构及上述双麦语音特征提取方法应用于录音笔、翻译机、智能音箱、智能电视等产品上,能够提供精准的语音活动检测,为后续语音增强、语音唤醒等应用提供可靠的先验信息。
参照图2,在一实施例中,所述对所述双通道的语音信号进行复相干函数的计算的步骤S2,包括:
步骤S21,对所述双通道的语音信号分别进行分帧、加窗,并进行傅里叶变换得到双通道的频域信号;
步骤S22,对所述双通道的频域信号分别进行梅尔滤波,得到双通道的梅尔频域信号;
本实施例中,采用梅尔(Mel)滤波器进行滤波,梅尔滤波器是一组非线性分布的滤波器组,它在低频部分分布密集,高频部分分布稀疏,这样的分布可以更好地符合人耳听觉对不同频率的感知特性。
上述梅尔滤波的过程可以表达为:
Figure DEST_PATH_IMAGE009
上式中,
Figure 83385DEST_PATH_IMAGE010
为梅尔滤波器组系数,可以预先由Matlab或者Python信号处理工具箱计算导出,上述dot表示矩阵乘法,
Figure DEST_PATH_IMAGE011
是在
Figure 822671DEST_PATH_IMAGE012
帧、k频率点处的梅尔频域信号。
步骤S23,对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度;
步骤S24,根据所述自谱密度以及互谱密度,计算所述复相干函数。
在本实施例中,将上述双通道的语音信号转换至梅尔谱上处理,符合人耳听觉特性,而且后续基于双通道梅尔谱上提取VAD特征,方便与后续的语音唤醒、语音识别系统的整合。
在本实施例中,上述步骤S23中,所述自谱密度的计算公式为:
Figure DEST_PATH_IMAGE013
所述互谱密度的计算公式为:
Figure 791764DEST_PATH_IMAGE002
其中,
Figure 307321DEST_PATH_IMAGE003
Figure 579558DEST_PATH_IMAGE004
分别为双麦克风在
Figure 20904DEST_PATH_IMAGE005
帧、k频率点处的Mel短时谱,
Figure 274031DEST_PATH_IMAGE006
表示功率谱密度函数,
Figure 967180DEST_PATH_IMAGE007
为平滑系数;
所述复相干函数的计算公式为:
Figure 858038DEST_PATH_IMAGE014
在本实施例中,上述复相干函数由梅尔滤波方式得到,不仅符合人耳听觉对不同频率的感知特性,而且,利用基于梅尔谱的复相干函数导出各个VAD特征,计算量小,对象系统资源的消耗低,方便部署到嵌入式移动设备中。
在一个具体实施例中,所述VAD特征包括三个,分别为第一VAD特征、第二VAD特征以及第三VAD特征。
本实施例中,采用三种不同的计算方式对上述基于梅尔谱计算得到的复相干函数分别进行VAD特征的导出,计算量小,且由于计算方式不同,其适应性也不同,以此便提高了整体的适应性。
在本实施例中,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤S3,至少包括:
S31,计算所述复相干函数的相位值,并计算所述相位的方差;
S32,对所述方差进行归一化处理,得到所述第一VAD特征。
在本实施例中,双通道语音信号的复相干函数的相位呈超高斯分布,相位方差不为0,而双麦噪声信号相关性较低,噪声相干函数的相位呈均匀分布,方差接近0,利用这一特点,可以提取复相干函数的的相位方差信息作为语音活动检测的一种VAD特征。
上述相位的计算过程为:
Figure DEST_PATH_IMAGE015
上述相位的方差计算过程为:
Figure 939127DEST_PATH_IMAGE016
上述归一化处理得到第一VAD特征P1的过程为:
Figure DEST_PATH_IMAGE017
在本实施例中,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤S3,至少包括:
S301,基于所述复相干函数,计算波达方向无关的CDR无偏估计值;
S302,对所述波达方向无关的CDR无偏估计值进行频域加权求和,并进行归一化处理,得到所述第二VAD特征。
在本实施例中,基于上述复相干函数,计算波达方向无关的CDR无偏估计值时,使用的CDR估计不依赖目标声源的相干函数信息,避免了对声源进行声源定位,克服目前需要进行声源方向判断造成逻辑复杂不利于各个场景的缺陷。
上述计算波达方向无关的CDR无偏估计值的具体公式如下:
Figure 7446DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
,为扩散噪声场的相干函数,f为信号频率,d为麦克风间距,c为声音在空气中的传播速度,
Figure 333647DEST_PATH_IMAGE020
为取实部操作。
对上述CDR无偏估计值进行频域加权求和的计算过程为:
其中,N为傅里叶变化点数。
Figure 843126DEST_PATH_IMAGE021
为频域归一化加权系数,根据采样频率提前设定,语音信号能量基本在中低频段,高频成分能量较小。本发明对中低频段使用较大权值,高频段使用较小权值,例如对16KHz的的采样信号,对200~3400频段使用较大权值,3400~8000使用较小权值。
对上述过程得到的
Figure 236061DEST_PATH_IMAGE022
做归一化处理的计算方式如下,得到所述第二VAD特征P2:
Figure 729359DEST_PATH_IMAGE023
在本实施例中,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤S3,至少包括:
S3a,基于所述复相干函数、自谱密度以及互谱密度,计算噪声功率谱;
S3b,根据所述噪声功率谱以及任一通道的梅尔频域信号,计算当前帧的后验信噪比;
S3c,根据当前帧的后验信噪比和上一帧的语音存在概率,得到当前帧的先验信噪比;
S3d,根据所述当前帧的先验信噪比,计算得到语音存在概率;
S3e,对所述语音存在概率进行频域加权求和,并进行归一化处理,得到第三VAD特征。
在本实施例中,基于上述步骤23计算得到的自谱密度和互谱密度,以及步骤S24计算得到的复相干函数,估计噪声功率谱,计算公式如下:
Figure 623366DEST_PATH_IMAGE024
利用上述公式计算得到的噪声功率谱,以及任一通道的梅尔频域信号,计算当前帧的后验信噪比的计算过程为:
Figure 393876DEST_PATH_IMAGE025
利用当前帧的后验信噪比和上一帧的语音存在概率,得到当前帧的先验信噪比的计算过程为:
Figure DEST_PATH_IMAGE026
上式中,
Figure 911707DEST_PATH_IMAGE027
为上一帧的语音存在概率,其中,当前帧的语音存在概率
Figure DEST_PATH_IMAGE028
定义为如下式
Figure 95564DEST_PATH_IMAGE029
因此,在给定了
Figure 793261DEST_PATH_IMAGE028
的初始值后,结合每个时刻的双通道噪声估计,就可以递推得到每个时刻每个频点的语音存在概率。
对上述过程计算得到的
Figure 887119DEST_PATH_IMAGE028
做与频域加权求和,具体计算过程为:
Figure DEST_PATH_IMAGE030
其中,进行归一化处理得到第三VAD特征P3的过程为:
Figure 107010DEST_PATH_IMAGE031
在本实施例中,基于双麦噪声谱估的语音存在概率作为VAD特征,使得噪声鲁棒性强。
至此,则由上述三种不同的计算方式,分别基于复相干函数,导出对应不同的三种VAD特征。
在一实施例中,所述对得到的多种VAD特征进行加权求和计算,得到目标VAD特征的步骤S4,具体包括:
利用噪声数据集根据漏警率与虚警率的指标进行网格搜索计算得到上述三种VAD特征的最优加权系数,根据最优加权系数,对上述三种VAD特征进行加权求和计算,得到目标VAD特征。如一具体实施例中,上述三种VAD特征的最优加权系数依次为0.2、0.5、0.3;则上述加权求和的计算公式为:
Figure DEST_PATH_IMAGE032
在另一实施例中,所述对得到的多种VAD特征进行加权求和计算,得到目标VAD特征的步骤S4之后,包括:
将所述目标VAD特征与预设阈值进行对比,根据对比结果,输出对应的VAD标签。
在本实施例中,将上述目标VAD特征与预设阈值
Figure 512584DEST_PATH_IMAGE033
比较,如果大于
Figure 13972DEST_PATH_IMAGE033
则输出标签为1,否则输出表为0,上述预设阈值
Figure 493495DEST_PATH_IMAGE034
可以由用户根据不同场景需求进行适当调整。
综上所述,为本发明实施例中提供的双麦语音特征提取方法,包括:基于双麦克风采集双通道的语音信号;对所述双通道的语音信号进行复相干函数的计算;根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。本发明中基于复相干函数,采用多种不同的方式计算得到多种不同的VAD特征,并对多个VAD特征进行融合,使得对噪声的适应性增强,而且计算过程简单,有利于降低系统资源占用。
参照图3,本发明一实施例中还提供了一种双麦语音特征提取装置,包括:
采集单元10,用于基于双麦克风采集双通道的语音信号;
第一计算单元20,用于对所述双通道的语音信号进行复相干函数的计算;
第二计算单元30,用于根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;
第三计算单元40,用于对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。
在一实施例中,上述第一计算单元20,包括:
变换子单元,用于对所述双通道的语音信号分别进行分帧、加窗,并进行傅里叶变换得到双通道的频域信号;
滤波子单元,用于对所述双通道的频域信号分别进行梅尔滤波,得到双通道的梅尔频域信号;
第一计算子单元,用于对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度;
第二计算子单元,用于根据所述自谱密度以及互谱密度,计算所述复相干函数。
在本实施例中,所述第一计算子单元计算自谱密度的计算公式为:
Figure 290812DEST_PATH_IMAGE035
所述第一计算子单元计算互谱密度的计算公式为:
Figure 714840DEST_PATH_IMAGE036
其中,
Figure 895286DEST_PATH_IMAGE037
Figure 88370DEST_PATH_IMAGE038
分别为双麦克风在
Figure 555123DEST_PATH_IMAGE039
帧、k频率点处的Mel短时谱,
Figure 607393DEST_PATH_IMAGE040
表示功率谱密度函数,
Figure 686470DEST_PATH_IMAGE041
为平滑系数;
所述第二计算子单元计算复相干函数的计算公式为:
Figure 140585DEST_PATH_IMAGE042
在一实施例中,所述VAD特征包括三个,分别为第一VAD特征、第二VAD特征以及第三VAD特征。
在本实施例中,所述第二计算单元30,至少用于:
计算所述复相干函数的相位值,并计算所述相位的方差;
对所述方差进行归一化处理,得到所述第一VAD特征。
在本实施例中,所述第二计算单元30,至少用于:
基于所述复相干函数,计算波达方向无关的CDR无偏估计值;
对所述波达方向无关的CDR无偏估计值进行频域加权求和,并进行归一化处理,得到所述第二VAD特征。
在本实施例中,所述第二计算单元30,至少用于:
基于所述复相干函数、自谱密度以及互谱密度,计算噪声功率谱;
根据所述噪声功率谱以及任一通道的梅尔频域信号,计算当前帧的后验信噪比;
根据当前帧的后验信噪比和上一帧的语音存在概率,得到当前帧的先验信噪比;
根据所述当前帧的先验信噪比,计算得到语音存在概率;
对所述语音存在概率进行频域加权求和,并进行归一化处理,得到第三VAD特征。
在另一实施例中,上述双麦语音特征提取装置,还包括:
输出单元,用于将所述目标VAD特征与预设阈值进行对比,根据对比结果,输出对应的VAD标签。
在本实施例中,上述装置中的各个单元、子单元的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图4,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音信号数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种双麦语音特征提取方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种双麦语音特征提取方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本发明实施例中提供的双麦语音特征提取方法、装置、计算机设备和存储介质,包括:基于双麦克风采集双通道的语音信号;对所述双通道的语音信号进行复相干函数的计算;根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。本发明中基于复相干函数,采用多种不同的方式计算得到多种不同的VAD特征,并对多个VAD特征进行融合,使得对噪声的适应性增强,而且计算过程简单,有利于降低系统资源占用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种双麦语音特征提取方法,其特征在于,包括以下步骤:
基于双麦克风采集双通道的语音信号;
对所述双通道的语音信号进行复相干函数的计算;
根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;
对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。
2.根据权利要求1所述的双麦语音特征提取方法,其特征在于,所述对所述双通道的语音信号进行复相干函数的计算的步骤,包括:
对所述双通道的语音信号分别进行分帧、加窗,并进行傅里叶变换得到双通道的频域信号;
对所述双通道的频域信号分别进行梅尔滤波,得到双通道的梅尔频域信号;
对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度;
根据所述自谱密度以及互谱密度,计算所述复相干函数。
3.根据权利要求2所述的双麦语音特征提取方法,其特征在于,所述自谱密度的计算公式为:
Figure DEST_PATH_IMAGE001
所述互谱密度的计算公式为:
Figure 431911DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
Figure 273965DEST_PATH_IMAGE004
分别为双麦克风在
Figure DEST_PATH_IMAGE005
帧、k频率点处的Mel短时谱,
Figure 200333DEST_PATH_IMAGE006
表示功率谱密度函数,
Figure DEST_PATH_IMAGE007
为平滑系数;
所述复相干函数的计算公式为:
Figure 171962DEST_PATH_IMAGE008
4.根据权利要求2所述的双麦语音特征提取方法,其特征在于,所述VAD特征包括三个,分别为第一VAD特征、第二VAD特征以及第三VAD特征。
5.根据权利要求4所述的双麦语音特征提取方法,其特征在于,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:
计算所述复相干函数的相位值,并计算所述相位的方差;
对所述方差进行归一化处理,得到所述第一VAD特征。
6.根据权利要求4所述的双麦语音特征提取方法,其特征在于,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:
基于所述复相干函数,计算波达方向无关的CDR无偏估计值;
对所述波达方向无关的CDR无偏估计值进行频域加权求和,并进行归一化处理,得到所述第二VAD特征。
7.根据权利要求4所述的双麦语音特征提取方法,其特征在于,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:
基于所述复相干函数、自谱密度以及互谱密度,计算噪声功率谱;
根据所述噪声功率谱以及任一通道的梅尔频域信号,计算当前帧的后验信噪比;
根据当前帧的后验信噪比和上一帧的语音存在概率,得到当前帧的先验信噪比;
根据所述当前帧的先验信噪比,计算得到语音存在概率;
对所述语音存在概率进行频域加权求和,并进行归一化处理,得到第三VAD特征。
8.一种双麦语音特征提取装置,其特征在于,包括:
采集单元,用于基于双麦克风采集双通道的语音信号;
第一计算单元,用于对所述双通道的语音信号进行复相干函数的计算;
第二计算单元,用于根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;
第三计算单元,用于对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010234171.6A 2020-03-30 2020-03-30 双麦语音特征提取方法、装置、计算机设备和存储介质 Active CN111192569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010234171.6A CN111192569B (zh) 2020-03-30 2020-03-30 双麦语音特征提取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010234171.6A CN111192569B (zh) 2020-03-30 2020-03-30 双麦语音特征提取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111192569A true CN111192569A (zh) 2020-05-22
CN111192569B CN111192569B (zh) 2020-07-28

Family

ID=70710922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010234171.6A Active CN111192569B (zh) 2020-03-30 2020-03-30 双麦语音特征提取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111192569B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112485761A (zh) * 2021-02-03 2021-03-12 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020057701A (ko) * 2001-01-05 2002-07-12 윤종용 음성 신호에서의 유성화 확률 결정 장치 및 그 방법
CN103348686A (zh) * 2011-02-10 2013-10-09 杜比实验室特许公司 用于风检测和抑制的系统和方法
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法
CN104781880A (zh) * 2012-09-03 2015-07-15 弗兰霍菲尔运输应用研究公司 用于提供通知的多信道语音存在概率估计的装置和方法
CN106161751A (zh) * 2015-04-14 2016-11-23 电信科学技术研究院 一种噪声抑制方法及装置
CN109473118A (zh) * 2018-12-24 2019-03-15 苏州思必驰信息科技有限公司 双通道语音增强方法及装置
CN109637554A (zh) * 2019-01-16 2019-04-16 辽宁工业大学 基于cdr的mclp语音去混响方法
CN110111805A (zh) * 2019-04-29 2019-08-09 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质
CN110648687A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种活动语音检测方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020057701A (ko) * 2001-01-05 2002-07-12 윤종용 음성 신호에서의 유성화 확률 결정 장치 및 그 방법
CN103348686A (zh) * 2011-02-10 2013-10-09 杜比实验室特许公司 用于风检测和抑制的系统和方法
CN104781880A (zh) * 2012-09-03 2015-07-15 弗兰霍菲尔运输应用研究公司 用于提供通知的多信道语音存在概率估计的装置和方法
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法
CN106161751A (zh) * 2015-04-14 2016-11-23 电信科学技术研究院 一种噪声抑制方法及装置
CN109473118A (zh) * 2018-12-24 2019-03-15 苏州思必驰信息科技有限公司 双通道语音增强方法及装置
CN109637554A (zh) * 2019-01-16 2019-04-16 辽宁工业大学 基于cdr的mclp语音去混响方法
CN110111805A (zh) * 2019-04-29 2019-08-09 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质
CN110648687A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种活动语音检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112485761A (zh) * 2021-02-03 2021-03-12 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法

Also Published As

Publication number Publication date
CN111192569B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
Han et al. Learning spectral mapping for speech dereverberation and denoising
Trigeorgis et al. Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
US20160189730A1 (en) Speech separation method and system
Zhao et al. A two-stage algorithm for noisy and reverberant speech enhancement
CN102968990B (zh) 说话人识别方法和系统
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
US11817112B2 (en) Method, device, computer readable storage medium and electronic apparatus for speech signal processing
Koldovsky et al. Time-domain blind audio source separation using advanced component clustering and reconstruction
CN109065022B (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
US9953633B2 (en) Speaker dependent voiced sound pattern template mapping
CN108922544A (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN111261145B (zh) 语音处理装置、设备及其训练方法
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
CN111192569B (zh) 双麦语音特征提取方法、装置、计算机设备和存储介质
Keronen et al. Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN113823301A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
Li et al. Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids
CN111862978A (zh) 一种基于改进mfcc系数的语音唤醒方法及系统
CN114464188A (zh) 一种基于分布式边缘计算的声纹唤醒算法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant