CN111312275B - 一种基于子带分解的在线声源分离增强系统 - Google Patents

一种基于子带分解的在线声源分离增强系统 Download PDF

Info

Publication number
CN111312275B
CN111312275B CN202010090988.0A CN202010090988A CN111312275B CN 111312275 B CN111312275 B CN 111312275B CN 202010090988 A CN202010090988 A CN 202010090988A CN 111312275 B CN111312275 B CN 111312275B
Authority
CN
China
Prior art keywords
sub
signal
band
sound source
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010090988.0A
Other languages
English (en)
Other versions
CN111312275A (zh
Inventor
王鹤
陈喆
殷福亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010090988.0A priority Critical patent/CN111312275B/zh
Publication of CN111312275A publication Critical patent/CN111312275A/zh
Application granted granted Critical
Publication of CN111312275B publication Critical patent/CN111312275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种基于子带分解的在线声源分离增强系统,具体包括子带分解模块、语音活动检测模块、特征提取模块、说话人识别模块、参数估计模块、声源分离模块、后置滤波模块和子带合成模块。该系统利用识别出的说话人单独发声的片段估计对应声源的相对传递函数RTF,实现了实时的相对传递函数RTF估计,同时降低了其他声源信号对某个特定声源相对传递函数RTF估计的干扰;同时该系统提高了传统KNN说话人识别的准确率,并且在噪声干扰较大时也能有较高的识别准确率。

Description

一种基于子带分解的在线声源分离增强系统
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于子带分解的在线声源分离增强系统。
背景技术
语音交流是人类生活中必不可少的一部分,语音表达的信息比文字更加直接。近年来,智能手机、智能音箱等可以进行人机交互的智能设备得到了广泛应用,这些设备可以识别人们发出的交互指令,方便了人们的生活。但是,当有多个人(一般为2~4个)同时讲话时,因为语音间的相互干扰,导致智能设备的语音识别率明显降低,因此,需要将多个声源同时发出的语音分离出来,智能设备才能对特定声源发出的语音进行识别。
Markovich等在文献[1]中提出一种可以抑制多个语音干扰源的语音增强方法,该方法采用广义旁瓣消除(GSC)架构实现,如图1所示,分为三部分:固定波束形成器(FBF)、阻塞矩阵(BM)和自适应噪声消除器(ANC),FBF将信号延迟求和得到初步增强的单路信号,BM利用目标声源和干扰声源的声传递函数实现,能使干扰信号和噪声源通过,阻止目标声源信号通过,ANC采用自适应的方法进一步抑制干扰和噪声信号。但是文献[1]的缺陷是使用一个GSC波束形成器只能增强单个特定声源的信号,抑制其他方向的干扰和噪声。若要同时分离出多个不同声源的信号,需要用多个不同的波束形成器,计算量较大。
Schwartz等在文献[2]提出一种基于最小均方误差(MMSE)准则的多声源分离方法,通过求解使各个声源的期望信号与实际分离出信号之间均方误差最小的约束优化问题得到各个频带上的最优滤波器,该滤波器可分解成一个多声源GSC波束形成器和一个后置滤波器,对麦克风阵列接收到的信号进行多声源波束形成和后置滤波得到分离后的各个声源信号。其中,波束形成器利用各个声源的声传递函数导出。其中文献[2]是的缺陷是估计声传递函数需要利用各个声源单独发声的语音片段,因此,在估计之前要人工手动标记出各个声源单独发声的片段,无法实时处理,进而不能实现在线声源分离。
因此传统的基于波束形成的声源分离方法在估计某个特定声源的参数时,需要提前标记出各个声源单独发声的语音片段,无法实现实时的参数估计和声源分离。另一方面,传统波束形成方法只能增强某一声源方向的信号,同时抑制其它方向的干扰和噪声信号,不能同时分离出多个声源的信号。
发明内容
针对上述问题,本发明提出一种基于子带分解的在线声源分离增强系统,该系统利用说话人识别技术识别出各个声源单独发声的片段,然后实时估计出各个声源对于所有麦克风的相对传递函数(RTF),利用多说话人线性约束最小方差(LCMV)方法同时分离出各个声源的语音信号,最后采用多声源维纳后置滤波(MWPF)方法抑制各个声源语音信号中的残留噪声,提高分离出的各个语音信号的信干噪比(SINR)。该系统具体包括:
子带分解模块,对麦克风接收到的信号进行分帧和缓存处理得到缓存信号,对缓存信号进行子带分解得到子带信号;
语音活动检测模块,接收子带分解模块传送的子带信号,利用子带信号估计临界频带信噪比,对所有临界频带上信噪比求和得到当前帧信号的总信噪比,如果总信噪比大于信噪比阈值则判断当前帧的子带信号为语音并输出,否则,判断当前帧的子带信号为噪声并更新噪声的临界频带能量同时输出噪声子带信号;
特征提取模块,接收语音活动检测模块输出的语音子带信号、提取该子带信号的梅尔倒谱系数,先提取训练时间段的子带信号的特征作为训练特征,在识别阶段提取待识别子带信号的特征作为待识别特征;
说话人识别模块,在识别阶段利用K最近邻算法将待识别特征与训练特征比较得到语音子带信号的说话人标签;
参数估计模块,接收语音活动检测模块输出的语音子带信号、噪声子带信号以及说话人识别模块传送的说话人标签,估计噪声子带信号的噪声功率谱矩阵,在识别阶段读取说话人标签信息并根据语音子带信号估计出该说话人的相对传递函数;
声源分离模块,接收子带分解模块传送的子带信号、参数估计模块传送的相对传递函数矩阵和噪声功率谱矩阵,采用LCMV算法获取LCMV滤波系数矩阵,将LCMV滤波系数矩阵作用于输入子带信号得到分离后各个声源的子带信号;
后置滤波模块,接收声源分离模块传送的子带信号以及参数估计模块传送的相对传递函数矩阵和噪声功率谱矩阵,利用相对传递函数矩阵和噪声功率谱矩阵估计残留噪声功率谱矩阵和目标信号功率谱矩阵,采用MWPF算法获取后置滤波系数矩阵,将后置滤波系数矩阵作用于声源分离模块输出的子带信号得到最终的子带信号;
子带合成模块,接收后置滤波模块传送的子带信号、对该子带信号进行缓存处理得到子带缓存信号,对子带缓存信号进行子带合成得到各个声源的时域信号。
进一步的,所述子带分解模块对麦克风接收到的信号以一定的采样频率采样后得到yi(n),i=1,2,...,M,M是麦克风的数目,对该信号进行分帧、缓存得到yi'(l,n),缓存的长度为N,则子带分解后的信号为
Figure BDA0002383713140000031
其中,l表示帧号,k表示子带,D是子带数目的一半,在本发明中设为D=160,N=6×2D,h(n)为分析滤波器的系数
Figure BDA0002383713140000032
其中式(1)采用如下算法计算:
Figure BDA0002383713140000033
Figure BDA0002383713140000034
其中,式(4)采用快速傅里叶变换实现,在计算子带信号时,只需计算前面一半即可,后面一半根据共轭对称性直接得出,即
Figure BDA0002383713140000035
进一步的,所述说话人识别模块获取子带信号的说话人标签采用如下方式:如果当前帧信号检测为语音,则用该帧语音信号计算出的梅尔倒谱系数(MFCC)特征v(l)与训练特征矩阵T中每一行的前12维特征计算欧式距离
Figure BDA0002383713140000041
对所有的di(l)排序,找出最小的K个并记录其标号为index(k),k=1,2,...,K,则当前帧信号经过KNN判决的说话人标签为
Figure BDA0002383713140000042
对式(16)的解释为:在最小的K个距离中,求对应标签相同的距离的倒数之和,和最大的标签被判定为当前帧的说话人标签,其中,Sc={1,2,...,J}为所有说话人标签的集合,T(index(k),13)表示第k个最小的距离所对应的说话人标签,δ函数定义为
Figure BDA0002383713140000043
进一步的,所述参数估计模块估计说话人的相对传递函数RTF具体采用如下方式:若当前帧检测为语音信号并且识别为第j个说话人,则利用该帧子带信号估计第j个声源的相对传递函数,其估计方法如下:计算各路子带信号和第一个麦克风子带信号之间的互功率谱密度
Φy1yi,j(l,k)=α2·Φy1yi,j(l-1,k)+(1-α2)·Y1 *(l,k)Yi(l,k),i=1,2,...,M (18)
其中,α2为帧间的平滑系数,取值在0~1之间,则第j个声源和各个麦克风之间的相对传递函数为
Figure BDA0002383713140000044
式中,符号上面的横线代表帧间取平均,即
Figure BDA0002383713140000045
其中,L'是取平均的帧数,用各个声源的相对传递函数构成阶数为M×J的RTF矩阵
Figure BDA0002383713140000051
其中,J是声源的数目。
估计噪声子带信号的噪声功率谱矩阵NPSD采用如下方式:若当前帧麦克风接收信号检测为噪声帧,则用该帧子带信号估计NPSD矩阵,估计方法为
Φv(l,k)=γ·Φv(l-1,k)+(1-γ)·y(l,k)yH(l,k) (22)
其中,y(l,k)=[Y1(l,k),...,YM(l,k)]T是输入信号向量,[]T表示矩阵的转置,[]H表示矩阵的共轭转置,γ为帧间平滑系数,取值在0~1之间。
进一步的,所述声源分离模块利用LCMV准则计算滤波系数,对麦克风接收的子带信号进行滤波得到分离后各个声源的子带信号,根据多说话人LCMV准则,最优滤波系数矩阵为
Figure BDA0002383713140000052
其中,[]-1表示矩阵求逆,在式(23)中,为了保证矩阵求逆的顺利进行,需要满足以下两个条件:(a)NPSD矩阵必须满秩;(b)RTF矩阵的列秩必须为J。认为各个麦克风接收的到噪声信号不相干,则满足条件(a),此外麦克风数目多于声源数目,并且认为各个声源的传递函数线性无关,故可满足条件(b),J为声源个数。
将最优滤波系数矩阵作用于麦克风接收到的各路子带信号,得出分离后各个声源的子带信号
Figure BDA0002383713140000053
其中,分离后的信号包含两部分,一部分是各个声源的目标语音信号sE,另一部分是残留的噪声信号vR
由于采用了上述技术方案,本发明提供的一种基于子带分解的在线声源分离增强系统,该系统利用识别出的说话人单独发声的片段估计对应声源的相对传递函数RTF,实现了实时的相对传递函数RTF估计,同时降低了其他声源信号对某个特定声源相对传递函数RTF估计的干扰;同时该系统提高了传统KNN说话人识别的准确率,并且在噪声干扰较大时也能有较高的识别准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明背景技术中GSC结构图;
图2为本发明中系统的结构原理图;
图3为本发明中联合判决流程图;
图4为本发明中声源位置图;
图5为本发明中分离前第一个麦克风的语音波形图;
图6为本发明中分离后第一个说话人的语音波形图;
图7为本发明中分离前第一个麦克风的语谱图;
图8为本发明中分离后第一个说话人的语谱图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图2所示的一种基于子带分解的在线声源分离增强系统,包括子带分解模块、语音活动检测模块、特征提取模块、说话人识别模块、参数估计模块、声源分离模块、后置滤波模块和子带合成模块。其中,参数估计模块包括对相对传递函数RTF和噪声功率谱矩阵NPSD的估计。首先,对所有麦克风采集到的各路信号进行子带分解,得到子带信号,然后将第一个麦克风的子带信号通入语音活动检测模块,判断当前帧子带信号是否为语音。把前6秒定义为训练时间段,将前6秒信号分为J段,每段信号只有单个声源发出声音,用第一个麦克风前6秒信号中检测为语音的信号帧提取各个说话人的梅尔倒谱系数(MFCC)特征构成训练特征矩阵,将7~13秒定义为识别阶段,在7~13秒的信号中,对每一帧检测为语音的信号提取MFCC特征进行说话人识别,将识别结果和各路麦克风的子带信号通入参数估计模块估计出各个声源的RTF。在只有噪声期间估计NPSD,然后得到LCMV滤波系数,对各路输入信号滤波得到分离后的各个声源信号,最后,用计算出的MWPF滤波系数对分离后的信号滤波并经过子带合成得到各个声源的输出信号。这里要求前13秒只能有单个声源轮流发出声音,13秒之后各个声源可以同时发出声音。
进一步的,子带分解模块的工作原理是:对麦克风接收到的信号以16kHz的采样频率采样后得到yi(n),i=1,2,...,M,M是麦克风的数目,对该信号进行分帧(本发明中帧长设为160)、缓存得到yi'(l,n),缓存的长度为N,则子带分解后的信号为
Figure BDA0002383713140000071
其中,l表示帧号,k表示子带,D是子带数目的一半,在本发明中设为D=160,N=6×2D,h(n)为分析滤波器的系数
Figure BDA0002383713140000072
在本发明中,式(1)的实现分为以下两步:
Figure BDA0002383713140000073
Figure BDA0002383713140000074
其中,式(4)可用快速傅里叶变换实现。此外,在计算子带信号时,只需计算前面一半即可,后面一半可以根据共轭对称性直接得出,即
Figure BDA0002383713140000075
进一步的,语音活动检测模块的工作原理是:将对应频率为0.3~4kHz的子带分成16个临界频带,各个临界频带的起始子带如表1所示。第一个麦克风的子带信号在各个临界频带上的平均能量为
Figure BDA0002383713140000076
其中,a(i)、b(i)分别是第i个临界频带的起始子带点,α1是帧间的平滑系数,取值在0~1之间,在本发明中设为α1=0.9。
在本发明中,用前6帧信号初始化噪声的临界频带能量En(l,i),令其与输入信号的临界频带能量相等。则各个临界频带上的信噪比为
Figure BDA0002383713140000081
其中,
Figure BDA0002383713140000082
表示向下取整。
对所有临界频带上信噪比求和得到当前帧信号的总信噪比,在本发明中,设信噪比的阈值为30,若总信噪比大于信噪比阈值则判断当前帧信号为语音信号,否则,判断当前帧信号为噪声信号并更新噪声的临界频带能量,更新公式为
En(l,i)=β1·En(l-1,i)+(1-β1)·Ep(l,i) (8)
其中,β1是帧间的平滑系数,在本发明中设为β1=0.9。
表1临界频带的起始子带点
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
开始 2 4 6 9 12 15 18 21 25 29 34 39 45 52 61 70
结束 3 5 8 11 14 17 20 24 28 33 38 44 51 60 69 79
进一步的,特征提取模块的工作原理是:提取的特征为梅尔倒谱系数(MFCC),该特征在梅尔频率尺度上划分,近似人类的听觉系统,广泛应用于语音识别和说话人识别。频率和梅尔频率的转换关系为
Figure BDA0002383713140000083
在本发明中,利用第一个麦克风检测为语音帧的子带信号Y1(l,k)计算梅尔倒谱系数,首先计算子带信号在前D个子带的能量
E(l,k)=Y1 *(l,k)*Y1(l,k),k=0,1,...,D-1 (10)
然后,计算梅尔滤波器组的频率响应
Figure BDA0002383713140000091
其中,R是梅尔滤波器的个数,本发明中设置为R=40,f(r)是梅尔滤波器的中心频率,表示为
Figure BDA0002383713140000092
式中,fs为信号的采样频率,本发明设置为fs=16kHz,fl、fh分别是梅尔滤波器组可通过的最低、最高频率,本发明设置为fl=0.3kHz、fh=8kHz。
将子带能量通过梅尔滤波器组,得到梅尔能量
Figure BDA0002383713140000093
最后,对梅尔能量取对数后再经过离散余弦变换得到该帧信号的梅尔倒谱系数
Figure BDA0002383713140000094
在本发明中,取第2-13维MFCC作为说话人特征向量,维度为12。本发明的特征提取分为两个阶段:训练特征提取、待识别特征提取阶段。前6秒是训练特征提取阶段,将前6秒的信号分为J段,代表了J个声源,每一段信号中包括一个声源单独发声的语音,第j段信号中检测为语音帧的说话人标签为j,j=1,2,...,J,将每一帧语音信号提取的12维MFCC再加上1维说话人标签作为训练特征矩阵T的一行,所以T的维度为L×13,L是提取MFCC训练特征的总帧数。7-13秒是待识别特征提取阶段,每一帧检测为语音的信号提取12维MFCC后通入说话人识别模块进行说话人识别,得到该帧信号的说话人标签。
进一步的,说话人识别模块的工作原理是:在说话人识别阶段,若当前帧信号检测为噪声,则将该帧信号的说话人标签置0,若当前帧信号检测为语音,则用该帧语音信号计算出的MFCC特征v(l)与训练特征矩阵T中每一行的前12维特征计算欧式距离
Figure BDA0002383713140000095
对所有的di(l)排序,找出最小的K个并且记录其标号为index(k),k=1,2,...,K,则当前帧信号经过KNN判决的说话人标签为
Figure BDA0002383713140000101
对式(16)的解释为:在最小的K个距离中,求对应标签相同的距离的倒数之和,和最大的标签被判定为当前帧的说话人标签。其中,Sc={1,2,...,J}为所有说话人标签的集合,T(index(k),13)表示第k个最小的距离所对应的说话人标签,δ函数定义为
Figure BDA0002383713140000102
为了提高说话人识别的准确率,本发明使用多帧联合判决的方法,具体过程如图3所示:首先缓存连续100帧信号的说话人标签,若前50帧中有超过40帧的标签都相同,则将前50帧的标签都设置为该标签,否则,认为前50帧的标签无效,全部置0,同理,对后50帧做相同的处理。若前后50帧的标签都有效且相同,则前50帧的标签保持不变,否则,将前50帧的标签置0。当前100帧判决完成之后,输出前50帧的标签到参数估计模块,然后将后50帧的标签作为前50帧的标签,重新缓存50帧的标签作为后50帧的标签,按照前述判决方法继续判决,直至说话人识别结束。该方法提高了基于KNN的说话人识别的鲁棒性,在噪声干扰较大时也能有较高的识别率,降低了一帧或几帧的错误判决对后续参数估计的影响。
进一步的,参数估计模块的工作原理是:估计声源分离所需要的参数,包括相对传递函数RTF和噪声功率谱密度NPSD。RTF的估计利用每个说话人单独说话的语音片段实现,若当前帧检测为语音信号并且识别为第j个说话人,则利用该帧子带信号估计第j个声源的相对传递函数,估计方法如下:
首先,计算各路子带信号和第一个麦克风子带信号之间的互功率谱密度
Φy1yi,j(l,k)=α2·Φy1yi,j(l-1,k)+(1-α2)·Y1 *(l,k)Yi(l,k),i=1,2,...,M (18)
其中,α2为帧间的平滑系数,取值在0~1之间,本专利设为α2=0.95。
则第j个声源和各个麦克风之间的相对传递函数为
Figure BDA0002383713140000103
式中,符号上面的横线代表帧间取平均,即
Figure BDA0002383713140000111
其中,L'是取平均的帧数,在本发明设为L'=20。
最后,用各个声源的相对传递函数构成阶数为M×J的RTF矩阵
Figure BDA0002383713140000112
NPSD的估计利用只有噪声的片段实现,若当前帧麦克风接收信号检测为噪声帧,则用该帧子带信号估计NPSD矩阵,估计方法为
Φv(l,k)=γ·Φv(l-1,k)+(1-γ)·y(l,k)yH(l,k) (22)
其中,y(l,k)=[Y1(l,k),...,YM(l,k)]T是输入信号向量,[]T表示矩阵的转置,[]H表示矩阵的共轭转置,γ为帧间平滑系数,取值在0~1之间,在本发明中取值为γ=0.95。
进一步的,声源分离模块的工作原理是:利用LCMV准则计算滤波系数,然后对麦克风接收的子带信号进行滤波得到分离后各个声源的子带信号。根据多说话人LCMV准则,最优滤波系数矩阵为
Figure BDA0002383713140000113
其中,[]-1表示矩阵求逆。在式(23)中,为了保证矩阵求逆的顺利进行,需要满足以下两个条件:(a)NPSD矩阵必须满秩;(b)RTF矩阵的列秩必须为J。在本发明中,认为各个麦克风接收的到噪声信号不相干,可满足条件(a),此外,本发明中麦克风数目多于声源数目,并且认为各个声源的传递函数线性无关,故可满足条件(b)。
最优矩阵每一列的作用是增强该列对应的声源方向的信号,抑制其它声源方向的信号和噪声信号。将最优矩阵作用于麦克风接收到的各路子带信号,可以得出分离后各个声源的子带信号
Figure BDA0002383713140000114
其中,分离后的信号包含两部分,一部分是各个声源的目标语音信号sE,另一部分是残留的噪声信号vR
进一步的,后置滤波模块的工作原理是:经过LCMV模块分离出的信号中仍然含有部分残留噪声信号,该模块的作用是采用多说话人维纳后置滤波的方法抑制残留噪声信号,进一步提高语音质量。
残留噪声的PSD矩阵为
Figure BDA0002383713140000121
在本发明中,认为各个声源之间是相互独立的,因此各个声源目标语音信号的PSD矩阵可以等效为一个对角矩阵,即
ΦSE=diag{φSE,1φSE,2...φSE,J} (26)
其中,φSE,j可以采用决策方向法估计得出
Figure BDA0002383713140000122
式中,φVR,j是残留噪声PSD矩阵对角线上的第j个元素,β2是帧间的平滑因子,取值为0~1之间,在本发明中的取值为β2=0.99,max(a,b)表示求a、b两者中的最大值。
根据最小均方误差准则(MMSE)得到使残留噪声最小的多说话人后置维纳滤波系数矩阵,维度为J×J,表示为
WWPF=(ΦSEVR)-1ΦSE (28)
将滤波系数矩阵作用于LCMV模块的输出信号得到最终的输出信号
Figure BDA0002383713140000123
进一步的,子带合成模块的工作原理是将子带信号合成为时域信号。子带合成的具体操作和子带分解的步骤正好相反,先升采样再进行滤波,最终数据相加实现信号的重构。
首先,对子带信号做类似于式(4)的计算得到临时信号
Figure BDA0002383713140000131
用该临时信号更新子带合成缓存信号的缓存区,表示如下
Figure BDA0002383713140000132
其中,N'是缓存区的长度,在本发明中设为N'=3840,是子带数目的12倍。然后,对缓存信号进行滤波得到子带合成后的信号
Figure BDA0002383713140000133
其中,h是子带合成滤波器的系数,在本发明中,该滤波器的系数与子带分解时的分析滤波器系数相同,如式(2)所示。&表示位与运算,运算结果如下
Figure BDA0002383713140000134
式(32)实现了对子带信号的升采样、滤波和数据相加,最终得到子带合成之后的时域信号。
实施例:
为验证本发明方法的有效性,本发明测试了三个声源的识别和分离情况。本发明通过Imgae房间冲击响应模型模拟了一个6×6×3的封闭式房间,混响时间T60为0.1、0.3秒。如图4所示,本发明所使用的麦克风阵列为均匀线阵,中心坐标为(3米,3米,1米),阵元数目为8,阵元的间距为4厘米,三个声源分别位于阵列的正前方、正左方、正右方,并且距离阵列中心的距离均为两米,噪声源位于声源1、3之间,距离阵列中心的距离也为两米。声源是从TIMIT数据库[3]中随机选取的三个不同说话人,每个说话人选取2段时长为2秒、一段时长为4秒的纯净语音信号,信号的采样频率是16kHz。前6秒时,三个说话人依次说出各自的第一段时长为2秒的语音,停顿1秒,7~13秒时,三个说话人依次说出各自的第二段时长为2秒的语音,停顿1秒,在14-18秒时,三个说话人同时说出各自的时长为4秒的语音。噪声源选取为高斯白噪声,分别测试输入信号信噪比为0dB、10dB、20dB时,说话人识别(7~13秒)的正确率和声源分离(7~18秒)后输出信号的SINR。其中,输出信号的SINR定义为
Figure BDA0002383713140000141
其中,L为输入信号的总帧数,帧长设置为160,||||表示计算向量的2范数,log10()表示计算以10为底的常用对数。
此时,采用本发明提出的声源分离方法对麦克风阵列接收到的信号进行说话人识别、声源分离和噪声抑制。在不同输入信噪比的情况下,说话人识别的正确率如表2所示,分离前后信号的SINR如表3(混响时间0.1秒)、表4(混响时间0.3秒)所示。在信噪比为20dB、混响时间0.1秒时,分离前和分离后第一个说话人的7-18秒语音波形如图5、图6所示,语谱图如图7、图8所示。
由表3、表4可见,本发明提出的说话人识别方法在不同信噪比和混响时间时均有较高的正确率。在混响为0.1秒时,本发明提出的方法能够使分离后信号的SINR提升13dB左右,在混响为0.3秒时,本发明提出的方法能够使分离后信号的SINR提升11dB左右。根据上述结果和分离前后的语音波形可知本发明提出的分离方法具有较好的分离能力,分离后的语音中噪声残留较少,并且语音的失真不大。
表2说话人识别的正确率
Figure BDA0002383713140000142
表3混响时间T60=0.1秒时的oSINR
Figure BDA0002383713140000143
Figure BDA0002383713140000151
表4混响时间T60=0.3秒时的oSINR
Figure BDA0002383713140000152
(1)本发明所提出的声源分离方法对麦克风阵列的阵型没有限制,可以用其它形状的阵列(如均匀圆阵、L型阵列等)代替,同样能完成本发明的目的。
(2)本发明中所提出的说话人识别的部分,可以用其它的说话人识别算法(如i-vector等)代替,同样能完成本发明的目的。
(3)本发明中所提出的利用LCMV进行语音分离的部分,LCMV结构滤波器可以用GSC结构滤波器结构代替,同样能完成本发明的目的。
(4)本发明中所提出的多说话人(多通道)维纳后置滤波器,可以用J个单说话人(单通道)维纳后置滤波器代替,同样能完成本发明的目的。
(5)本发明中所提出的多说话人维纳后置滤波器,可以用其它后置滤波器(如LSA等)代替,同样能完成本发明的目的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种基于子带分解的在线声源分离增强系统,其特征在于包括:
子带分解模块,对麦克风接收到的信号进行分帧和缓存处理得到缓存信号,对缓存信号进行子带分解得到子带信号;
语音活动检测模块,接收子带分解模块传送的子带信号,利用子带信号估计临界频带信噪比,对所有临界频带上信噪比求和得到当前帧信号的总信噪比,如果总信噪比大于信噪比阈值则判断当前帧的子带信号为语音并输出,否则,判断当前帧的子带信号为噪声并更新噪声的临界频带能量同时输出噪声子带信号;
特征提取模块,接收语音活动检测模块输出的语音子带信号、提取该子带信号的梅尔倒谱系数,先提取训练时间段的子带信号的特征作为训练特征,在识别阶段提取待识别子带信号的特征作为待识别特征;
说话人识别模块,在识别阶段利用K最近邻算法将待识别特征与训练特征比较得到语音子带信号的说话人标签;
参数估计模块,接收语音活动检测模块输出的语音子带信号、噪声子带信号以及说话人识别模块传送的说话人标签,估计噪声子带信号的噪声功率谱矩阵,在识别阶段读取说话人标签信息并根据语音子带信号估计出该说话人的相对传递函数;
声源分离模块,接收子带分解模块传送的子带信号、参数估计模块传送的相对传递函数矩阵和噪声功率谱矩阵,采用线性约束最小方差LCMV算法获取LCMV滤波系数矩阵,将LCMV滤波系数矩阵作用于输入子带信号得到分离后各个声源的子带信号;
后置滤波模块,接收声源分离模块传送的子带信号以及参数估计模块传送的相对传递函数矩阵和噪声功率谱矩阵,利用相对传递函数矩阵和噪声功率谱矩阵估计残留噪声功率谱矩阵和目标信号功率谱矩阵,采用多说话人维纳后置滤波(MWPF)算法获取后置滤波系数矩阵,将后置滤波系数矩阵作用于声源分离模块输出的子带信号得到最终的子带信号;
子带合成模块,接收后置滤波模块传送的子带信号、对该子带信号进行缓存处理得到子带缓存信号,对子带缓存信号进行子带合成得到各个声源的时域信号;
所述参数估计模块估计说话人的相对传递函数RTF具体采用如下方式:若当前帧检测为语音信号并且识别为第j个说话人,则利用该帧子带信号估计第j个声源的相对传递函数,其估计方法如下:计算各路子带信号和第一个麦克风子带信号之间的互功率谱密度
Figure FDA0004131637700000021
其中,α2为帧间的平滑系数,取值在0~1之间,则第j个声源和各个麦克风之间的相对传递函数为
Figure FDA0004131637700000022
式中,符号上面的横线代表帧间取平均,即
Figure FDA0004131637700000023
其中,L'是取平均的帧数,用各个声源的相对传递函数构成阶数为M×J的RTF矩阵
Figure FDA0004131637700000024
其中,J是声源的数目;
估计噪声子带信号的噪声功率谱矩阵NPSD采用如下方式:若当前帧麦克风接收信号检测为噪声帧,则用该帧子带信号估计NPSD矩阵,估计方法为
Φv(l,k)=γ·Φv(l-1,k)+(1-γ)·y(l,k)yH(l,k)              (22)
其中,y(l,k)=[Y1(l,k),...,YM(l,k)]T是输入信号向量,[]T表示矩阵的转置,[]H表示矩阵的共轭转置,γ为帧间平滑系数,取值在0~1之间;
所述声源分离模块利用线性约束最小方差(LCMV)准则计算滤波系数,对麦克风接收的子带信号进行滤波得到分离后各个声源的子带信号,根据多说话人LCMV准则,最优滤波系数矩阵为
Figure FDA0004131637700000025
其中,[]-1表示矩阵求逆,在式(23)中,为了保证矩阵求逆的顺利进行,需要满足以下两个条件:(a)NPSD矩阵必须满秩;(b)RTF矩阵的列秩必须为J,认为各个麦克风接收到的噪声信号不相干,则满足条件(a),此外,麦克风数目多于声源数目,并且认为各个声源的传递函数线性无关,故可满足条件(b),J为声源个数;
将最优滤波系数矩阵作用于麦克风接收到的各路子带信号,得到分离后各个声源的子带信号
Figure FDA0004131637700000031
其中,分离后的信号包含两部分,一部分是各个声源的目标语音信号sE,另一部分是残留的噪声信号vR
2.根据权利要求1所述的一种基于子带分解的在线声源分离增强系统,其特征还在于:所述子带分解模块对麦克风接收到的信号以一定的采样频率采样后得到yi(n),i=1,2,...,M,M是麦克风的数目,对该信号进行分帧、缓存得到yi'(l,n),缓存的长度为N,则子带分解后的信号为
Figure FDA0004131637700000032
其中,l表示帧号,k表示子带,D是子带数目的一半,其中D=160,N=6×2D,h(n)为分析滤波器的系数
Figure FDA0004131637700000033
其中式(1)采用如下算法计算:
Figure FDA0004131637700000034
Figure FDA0004131637700000035
其中,式(4)采用快速傅里叶变换实现,在计算子带信号时,只需计算前面一半即可,后面一半根据共轭对称性直接得出,即
Figure FDA0004131637700000041
3.根据权利要求1所述的一种基于子带分解的在线声源分离增强系统,其特征还在于:所述说话人识别模块获取子带信号的说话人标签采用如下方式:如果当前帧信号检测为语音,则用该帧语音信号计算出的梅尔倒谱系数(MFCC)特征v(l)与训练特征矩阵T中每一行的前12维特征计算欧式距离
Figure FDA0004131637700000042
对所有的di(l)排序,找出最小的K个并记录其标号为index(k),k=1,2,...,K,则当前帧信号经过KNN判决的说话人标签为
Figure FDA0004131637700000043
对式(16)的解释为:在最小的K个距离中,求对应标签相同的距离的倒数之和,和最大的标签被判定为当前帧的说话人标签,其中,Sc={1,2,...,J}为所有说话人标签的集合,T(index(k),13)表示第k个最小的距离所对应的说话人标签,δ函数定义为
Figure FDA0004131637700000044
CN202010090988.0A 2020-02-13 2020-02-13 一种基于子带分解的在线声源分离增强系统 Active CN111312275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010090988.0A CN111312275B (zh) 2020-02-13 2020-02-13 一种基于子带分解的在线声源分离增强系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090988.0A CN111312275B (zh) 2020-02-13 2020-02-13 一种基于子带分解的在线声源分离增强系统

Publications (2)

Publication Number Publication Date
CN111312275A CN111312275A (zh) 2020-06-19
CN111312275B true CN111312275B (zh) 2023-04-25

Family

ID=71161606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090988.0A Active CN111312275B (zh) 2020-02-13 2020-02-13 一种基于子带分解的在线声源分离增强系统

Country Status (1)

Country Link
CN (1) CN111312275B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862925B (zh) * 2020-07-03 2024-04-12 天津大学 一种基于惰性学习的自适应有源噪声控制系统及其方法
JP2023552364A (ja) * 2020-12-31 2023-12-15 深▲セン▼市韶音科技有限公司 オーディオ生成の方法およびシステム
CN113571074B (zh) * 2021-08-09 2023-07-25 四川启睿克科技有限公司 基于多波段结构时域音频分离网络的语音增强方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
CN102509552B (zh) * 2011-10-21 2013-09-11 浙江大学 一种基于联合抑制的麦克风阵列语音增强方法
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10679617B2 (en) * 2017-12-06 2020-06-09 Synaptics Incorporated Voice enhancement in audio signals through modified generalized eigenvalue beamformer
CN109994104B (zh) * 2019-01-14 2021-05-14 珠海慧联科技有限公司 一种自适应通话音量控制方法及装置
CN110675892B (zh) * 2019-09-24 2022-04-05 北京地平线机器人技术研发有限公司 多位置语音分离方法和装置、存储介质、电子设备
CN110739004B (zh) * 2019-10-25 2021-12-03 大连理工大学 一种用于wasn的分布式语音噪声消除系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宁峻.麦克风阵列波束成形语音分离及声学回声消除方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》2019年第02期.2018,全文. *

Also Published As

Publication number Publication date
CN111312275A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
Wang et al. Complex spectral mapping for single-and multi-channel speech enhancement and robust ASR
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
CN111312275B (zh) 一种基于子带分解的在线声源分离增强系统
US7313518B2 (en) Noise reduction method and device using two pass filtering
CN110517701B (zh) 一种麦克风阵列语音增强方法及实现装置
KR20180069879A (ko) 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링
EP2030200B1 (en) Blind signal extraction
CN102347028A (zh) 双麦克风语音增强装置及方法
Wang et al. On spatial features for supervised speech separation and its application to beamforming and robust ASR
Shi et al. Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation.
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
WO2019205796A1 (zh) 减少频域处理量的方法、装置及设备
López-Espejo et al. Dual-channel spectral weighting for robust speech recognition in mobile devices
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
Kulkarni et al. A review of speech signal enhancement techniques
Shanmugapriya et al. Evaluation of sound classification using modified classifier and speech enhancement using ICA algorithm for hearing aid application
WO2019205797A1 (zh) 噪音处理方法、装置及设备
Takiguchi et al. Model adaptation based on HMM decomposition for reverberant speech recognition
Li et al. Beamformed feature for learning-based dual-channel speech separation
Šarić et al. Supervised speech separation combined with adaptive beamforming
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
Stern Robust speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant