CN116129928A - 一种广播通信场景的近端语音可懂度增强方法和系统 - Google Patents

一种广播通信场景的近端语音可懂度增强方法和系统 Download PDF

Info

Publication number
CN116129928A
CN116129928A CN202310049766.8A CN202310049766A CN116129928A CN 116129928 A CN116129928 A CN 116129928A CN 202310049766 A CN202310049766 A CN 202310049766A CN 116129928 A CN116129928 A CN 116129928A
Authority
CN
China
Prior art keywords
voice
speech
broadcast
signal
fourier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310049766.8A
Other languages
English (en)
Inventor
李军锋
李伟
顾建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202310049766.8A priority Critical patent/CN116129928A/zh
Publication of CN116129928A publication Critical patent/CN116129928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

本发明实施例公开了一种适用于广播通信场景的近端语音可懂度增强方法和系统。该近端语音可懂度增强方法,首先在近端估计出语音和噪声,然后基于语音和噪声利用近端语音可懂度增强算法得到频带增益,最后将频带增益应用于原始的广播语音得到可懂度增强后的语音并在远端进行播放。本发明提供的实施例公开的一种广播通信场景的近端语音可懂度增强系统,将上述方法在基于卡尔曼估计方法和可懂度增强算法应用场景所对应的广播系统中实现。该系统提高了语音的通信质量,并且算法计算量较小,使得系统可以实现实时运行。

Description

一种广播通信场景的近端语音可懂度增强方法和系统
技术领域
本发明涉及语音可懂度增强领域,尤其涉及一种广播通信场景的近端语音可懂度增强方法和系统。
背景技术
近端语音可懂度增强是一种在嘈杂的近端听音环境中再现远端清晰语音的感知增强技术。在广播通信系统中,来自远端广播的语音信号通常需要在近端听者处的嘈杂环境中再现,为了减弱近端背景噪声对语音的干扰,需要对远端的广播语音进行预处理,来提高远端语音在听者处的可懂度,达到远程信息传递的目的。预处理的过程通常利用近端噪声的特性对原始语音频谱进行相应的修改,使其在该噪声条件下具备更高的可懂度。
目前,大多数近端语音可懂度增强算法都假设远端纯净语音和近端背景噪声已知,但是在实际通信应用中,听者处的远端语音和近端噪声通常难以分离。可以分为两种通用场景:一是听者和播放语音距离很近的手机通信场景,这种情况语音被认为没有发生反射和衰减,手机播放的远端语音和近端背景噪声同时被麦克风收录,通常使用传统噪声估计方法即可将两者分离;第二种场景是听者和播放语音距离较远的广播通信场景,这时麦克风一般设置在听者处,收录的广播语音经过了房间冲激响应以及长距离传播的能量衰减,所以需要估计听者处经过反射和衰减后的广播语音以及近端噪声,这类场景目前没有相关研究而且更具挑战性。
发明内容
针对广播场景下听者处广播语音和近端噪声的估计问题,以及语音可懂度增强算法在该场景下的应用问题,本发明实施例提供了一种广播通信场景的近端语音可懂度增强方法和系统。
第一方面,本发明提供了一种广播通信场景的近端语音可懂度增强方法,该方法包括:
获取原始广播的远端参考语音和麦克风采集的近端混合语音;所述近端混合语音包括混合了背景噪声的经过衰减后的远端参考语音;
对参考语音和混合语音进行特征提取,获得所述参考语音和混合语音的傅里叶频谱;在短傅里叶变换域,利用卡尔曼滤波器的时变特性,针对所述参考语音和混合语音的传播路径建立基于自回归信号模型的卡尔曼滤波器,将参考语音和混合语音的傅里叶频谱输入所述卡尔曼滤波器得到参考语音和混合语音最优的自回归系数;利用所述自回归系数进行估计获得近端的语音信号和噪声信号;
对所述语音信号和噪声信号进行特征提取,获得所述语音信号和噪声信号的傅里叶频谱;对语音信号的傅里叶频谱进行语音活动性检测,将语音信号和噪声信号的傅里叶频谱输入三分之一倍频程滤波器获得第一输出结果;利用可懂度增强算法对第一输出结果进行计算获得所述语音信号和噪声信号的频带能量,对所述频带能量进行频带间重分配获得所述语音信号的频带增益;
对原始广播语音进行特征提取,获得广播语音的傅里叶频谱;对广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果;将第二输出结果与所述频带增益进行乘法运算得到可懂度增强后的语音频谱,对所述可懂度增强后的语音频谱进行傅里叶逆变换得到可懂度增强后的广播语音。
在一个可能的实施例中,对参考语音和混合语音进行特征提取,获得对应的傅里叶频谱,包括:
对所述参考语音和混合语音进行分帧得到对应的子音频;针对每一子音频进行加窗;对每一加窗后的子音频进行短时傅里叶变换得到所述参考语音和混合语音的傅里叶频谱。
在一个可能的实施例中,利用所述自回归系数进行估计获得近端的噪声信号和语音信号,包括:
利用所述自回归系数通过线性滤波进行估计得到近端的噪声信号,将所述混合信号中近端的噪声信号删除,得到估计的语音信号。
在一个可能的实施例中,对语音信号的傅里叶频谱进行语音活动性检测,将语音信号和噪声信号的傅里叶频谱输入三分之一倍频程滤波器获得第一输出结果,包括:
对语音信号的傅里叶频谱进行语音活动性检测,不存在语音时,输出为1的频带增益;对语音信号的傅里叶频谱进行语音活动性检测,存在语音时,将所述语音信号和噪声信号的傅里叶频谱输入18个频带的三分之一倍频程滤波器,得到第一输出结果。
在一个可能的实施例中,对广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果,包括:
对所述广播语音的傅里叶频谱进行语音活动性检测,当不存在语音时,将所述广播语音的傅里叶频谱进行傅里叶逆变换得到的纯净广播语音;对所述广播语音的傅里叶频谱进行语音活动性检测,当存在语音时,将所述广播语音的傅里叶频谱输入18个频带的三分之一倍频程滤波器获得第二输出结果。
在一个可能的实施例中,近端语音可懂度增强方法还包括针对可懂度增强后的广播语音或纯净的广播语音进行远端广播播报。
另一方面,本发明提供了一种广播通信场景的近端语音可懂度增强系统,该系统包括:
接收模块,所述接收模块用于获取原始广播的远端参考语音和麦克风采集的近端混合语音;
近端语音及噪声接收模块;所述近端语音及噪声接收模块用于对参考语音和混合语音进行特征提取,获得对应的傅里叶频谱;建立基于自回归信号模型的卡尔曼滤波器,将参考语音和混合语音的傅里叶频谱输入所述卡尔曼滤波器得到所述参考语音和混合语音的自回归系数;利用参考语音和混合语音的自回归系数进行估计获得近端的语音信号和噪声信号;
近端语音可懂度增强模块,所述近端语音可懂度增强模块用于对所述语音信号和噪声信号进行特征提取,获得所述语音信号和噪声信号的傅里叶频谱;对语音信号和噪声信号的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器获得第一输出结果;利用可懂度增强算法对第一输出结果进行计算获得所述语音信号和噪声信号的频带能量,对所述频带能量进行频带间重分配获得所述语音信号的频带增益;
远端广播语音预处理模块,所述远端广播语音预处理模块用于对原始广播语音进行特征提取,获得广播语音的傅里叶频谱;对所述广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果;将第二输出结果与所述频带增益进行乘法运算得到可懂度增强后的语音频谱,对所述可懂度增强后的语音频谱进行傅里叶逆变换得到可懂度增强后的广播语音;
输出模块,所述输出模块用于针对可懂度增强后的广播语音或纯净的广播语音进行远端广播播报。
另一方面,本发明实施例提供了一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述了上述针对芯片设计中算法实现的评估方法。
另一方面,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述针对芯片设计中算法实现的评估方法。
相比较现有技术,本发明实施例提供的广播通信场景的近端语音可懂度增强方法和系统,同时提供了一种使用基于自回归信号模型的卡尔曼滤波器估计语音传播路径的方法,在广播场景下估计听者处广播语音和近端噪声并利用语音可懂度增强算法在嘈杂的近端听音环境中对远端清晰语音的感知进行增强。该广播通信场景的近端语音可懂度增强方法和系统提高了语音的通信质量,并且算法计算量较小,使得系统可以实现实时运行。
附图说明
图1为广播通信场景的近端语音可懂度增强方法的流程图;
图2为对样本语音数据进行估计获得近端的语音信号和噪声信号的流程图;
图3为获得语音信号的频带增益的流程图;
图4为得到可懂度增强后的广播语音的流程图;
图5为广播通信场景的近端语音可懂度增强系统的架构图;
图6为针对语音传播路径建立基于自回归信号模型的卡尔曼滤波器的方法流程图;
图7为广播场景下语音可懂度增强系统的应用示意图。
具体实施方式
为了实现增强广播场景下在嘈杂的近端听音环境中对远端清晰语音的感知(即可懂度),本发明提供的实施例公开了一种广播通信场景的近端语音可懂度增强方法,首先在近端估计出语音和噪声,然后基于语音和噪声利用近端语音可懂度增强算法得到频带增益,最后将频带增益应用于原始的广播语音得到可懂度增强后的语音并播放。本发明提供的实施例公开了一种广播通信场景的近端语音可懂度增强系统,将上述方法在基于卡尔曼估计方法和可懂度增强算法应用场景所对应的广播系统中实现。
本申请的说明书和权利要求书及上述附图中的术语的“近端”为听者所在的位置,“远端”为广播输出所在的位置。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
一方面,本发明提供了一种广播通信场景的近端语音可懂度增强方法,图1是广播通信场景的近端语音可懂度增强方法的流程图,该方法包括:
S110:获取样本语音数据
获取原始广播的远端参考语音
Figure BDA0004057337660000041
和麦克风采集的近端混合语音
Figure BDA0004057337660000042
Figure BDA0004057337660000043
S120:对样本语音数据进行估计获得近端的语音信号和噪声信号
对参考语音和混合语音进行特征提取,获得对应的傅里叶频谱;建立基于自回归信号模型的卡尔曼滤波器,将参考语音和混合语音的傅里叶频谱输入卡尔曼滤波器得到参考语音d和混合语音x的自回归系数;利用参考语音和混合语音的自回归系数进行估计获得近端的语音信号和噪声信号。图2是对样本语音数据进行估计获得近端的语音信号和噪声信号的流程图,具体实施如下:
S121:将原始广播纯净的远端参考语音
Figure BDA0004057337660000044
和麦克风采集的近端混合语音
Figure BDA0004057337660000045
进行分帧得到帧长为512,帧移为256的音频子帧;针对每一子音频采用汉明窗进行加窗;输出参考语音的傅里叶频谱
Figure BDA0004057337660000046
和混合语音的傅里叶频谱
Figure BDA0004057337660000047
其中L为语音采样点数,F为傅里叶频点数目257,T为帧数,k为频率指数,n为时间指数。
S122:在短傅里叶变换域,利用卡尔曼滤波器的时变特性,估计自回归系数,针对参考语音
Figure BDA0004057337660000048
和混合语音
Figure BDA0004057337660000049
的传播路径建立基于自回归信号模型的卡尔曼滤波器;利用基于自回归信号模型的卡尔曼滤波器的时变特性对声音传播路径进行建模,估计自回归系数c(k,n),也叫做房间回归系数,具体实施如下:
首先,在短傅里叶变换域,根据所述自回归系数c(k,n)的时变特性建模马尔科夫过程得到状态方程;
c(k,n)=A(k,n)c(k,n-1)+ω(k,n)
其中,A(k,n)是状态转移矩阵;ω(k,n)为预测误差,一般符合零均值正态分布。
然后,基于所述参考语音D(k,n和混合语音X(k,n得到观测方程:
X(k,n)=D(k,n-D)c(k,n)+ν(k,n)
其中,ν(k,n为预测误差,一般符合零均值正态分布;D为时延、取决于短时傅里叶变换(STFT)的重叠,在一些实施例中我们将D取值为9。
当以上状态方程和观测方程构成的动态系统满足以下条件:
Figure BDA0004057337660000051
Figure BDA0004057337660000052
E{ω(k,n)ωH(k,n-j)}=Φω(k,n)δ(k,n-j)
E{ν(k,n)νH(k,n-j)}=Φν(k,n)δ(k,n-j)
E{ω(k,n)νH(k,n-j)}=0
就可以通过最小化均方误差公式:
Figure BDA0004057337660000053
并应用卡尔曼滤波器得到最优的自回归系数估计
Figure BDA0004057337660000054
其中,
Figure BDA0004057337660000055
为正态分布;Φ()为协方差矩阵。
具体实施如下:
Figure BDA0004057337660000056
Figure BDA0004057337660000057
e(k,n)=X(k,n)-D(k,n-D)c(k,n|n-1)
Figure BDA0004057337660000058
Figure BDA0004057337660000059
最后,根据卡尔曼增益得到参考语音和混合语音最优的自回归系数
Figure BDA00040573376600000510
其中,AH(k,n)为协方差矩阵;K(k,n)为卡尔曼增益。
S123:将参考语音和混合语音的傅里叶频谱输入所述卡尔曼滤波器得到参考语音和混合语音最优的自回归系数
Figure BDA00040573376600000511
后,利用自回归系数
Figure BDA00040573376600000512
通过线性滤波进行估计得到近端的噪声信号号W(k,n;
将所述混合信号中通过线性滤波进行估计得到近端的噪声信号W(k,n删除,得到近端的语音信号S,完成近端语音信号和噪声信号的估计。
S130:利用近端可懂度算法获得语音信号的频带增益
对语音信号S和噪声信号W进行特征提取,获得语音信号和噪声信号的傅里叶频谱;对语音信号的傅里叶频谱进行语音活动性检测,将语音信号和噪声信号的傅里叶频谱输入三分之一倍频程滤波器获得第一输出结果;利用可懂度增强算法对第一输出结果进行计算获得语音信号和噪声信号的频带能量,对所述频带能量进行频带间重分配获得所述语音信号的频带增益g。图3是获得语音信号的频带增益的流程图,具体实施如下:
S131:将近端语音信号
Figure BDA0004057337660000061
和噪声信号
Figure BDA0004057337660000062
进行分帧得到帧长为512,帧移为256的音频子帧;针对每一子音频采用汉明窗进行加窗;输出语音信号的傅里叶频谱
Figure BDA0004057337660000063
和噪声信号的傅里叶频谱
Figure BDA0004057337660000064
Figure BDA0004057337660000065
其中L为语音采样点数,F为傅里叶频点数目257,T为帧数,k为频率指数,n为时间指数。
S132:对分帧后的语音信号的傅里叶频谱S(k,n做语音活动性检测(VAD)。
VAD为0时,即不存在语音时,输出为1的频带增益;
VAD为1时即存在语音时,则将VAD为1的语音信号的傅里叶频谱
Figure BDA0004057337660000066
和噪声信号的傅里叶频谱
Figure BDA0004057337660000067
输入18个频带的三分之一倍频程滤波器进行滤波得到第一输出结果。
S133:首先,利用可懂度增强算法对第一输出结果进行计算获得所述语音信号和噪声信号的频带能量计算语音信号和噪声信号的频带能量。语音信号和噪声信号的频带能量的数学表达式为:
Figure BDA0004057337660000068
其中,
Figure BDA0004057337660000069
和,
Figure BDA00040573376600000610
为语音信号和噪声信号频带能量,M表示第i个频带内所有频点的个数,m为频带内频点索引值,i为频带索引值。
然后,对频带能量进行频带间重分配获得语音信号的频带增益g。
S140:基于频带增益得到可懂度增强后的广播语音
对原始广播语音信号d进行特征提取,获得广播语音的傅里叶频谱;对广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果;将第二输出结果与频带增益g进行乘法运算得到可懂度增强后的语音频谱,对所述可懂度增强后的语音频谱进行傅里叶逆变换得到可懂度增强后的广播语音。图4是得到可懂度增强后的广播语音的流程图,具体实施如下:
S141:将广播语音信号
Figure BDA00040573376600000611
进行分帧得到帧长为512,帧移为256的音频子帧;针对每一子音频采用汉明窗进行加窗;输出语音信号的傅里叶频谱
Figure BDA00040573376600000612
其中L为语音采样点数,F为傅里叶频点数目257,T为帧数,k为频率指数,n为时间指数。
S142:对分帧后的广播语音信号的傅里叶频谱D(k,n做语音活动性检测(VAD)。
VAD为0时,即不存在语音时,将广播语音的傅里叶频谱D(k,n逐帧进行傅里叶逆变换得到纯净的广播语音;
VAD为1时即存在语音时,则将广播语音信号的傅里叶频谱D(k,n输入18个频带的三分之一倍频程滤波器进行滤波得到第二输出结果。
S143:将第二输出结果与频带增益g进行乘法运算得到可懂度增强后的语音频谱D(k,n),对所述可懂度增强后的语音频谱D(k,n)逐帧进行傅里叶逆变换得到实时的可懂度增强后的广播语音。
S150:针对可懂度增强后的广播语音或纯净的广播语音进行远端广播播报。
另一方面,本发明提供了一种广播通信场景的近端语音可懂度增强系统,图5是广播通信场景的近端语音可懂度增强系统的架构图,系统包括:接收模块、近端语音及噪声接收模块、远端广播语音预处理模块、近端语音可懂度增强模块以及输出模块,具体实施如下:
S210:接收模块,所述接收模块用于获取原始广播的远端参考语音和麦克风采集的近端混合语音;
S220:近端语音及噪声接收模块;所述近端语音及噪声接收模块用于对参考语音和混合语音进行特征提取,获得对应的傅里叶频谱;建立基于自回归信号模型的卡尔曼滤波器,将参考语音和混合语音的傅里叶频谱输入所述卡尔曼滤波器得到所述参考语音和混合语音的自回归系数;利用参考语音和混合语音的自回归系数进行估计获得近端的语音信号和噪声信号;
S230:近端语音可懂度增强模块,所述近端语音可懂度增强模块用于对原始广播语音进行特征提取,获得广播语音的傅里叶频谱;对所述广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果;将第二输出结果与所述频带增益进行乘法运算得到可懂度增强后的语音频谱,对所述可懂度增强后的语音频谱进行傅里叶逆变换得到可懂度增强后的广播语音;
S240:远端广播语音预处理模块,所述远端广播语音预处理模块用于对原始广播语音进行特征提取,获得广播语音的傅里叶频谱;对所述广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果;将第二输出结果与所述频带增益进行乘法运算得到可懂度增强后的语音频谱,对所述可懂度增强后的语音频谱进行傅里叶逆变换得到可懂度增强后的广播语音;
S250:输出模块,所述输出模块用于针对可懂度增强后的广播语音或纯净的广播语音进行远端广播播报。
另一方面,本发明实施例提供了一种针对语音传播路径建立基于自回归信号模型的卡尔曼滤波器的方法,图6是针对语音传播路径建立基于自回归信号模型的卡尔曼滤波器的方法流程图,该方法包括:
S310:获取原始广播的远端参考语音和麦克风采集的近端混合语音;
S320:对参考语音和混合语音进行特征提取,获得所述参考语音和混合语音的傅里叶频谱;
S330:在短傅里叶变换域,根据自回归系数的时变特性建模马尔科夫过程得到状态方程;
S340:基于参考语音和混合语音得到观测方程;
S350:当所述状态方程和观测方程构成的动态系统满足零均值正态分布时,通过最小化均方误差,针对所述参考语音和混合语音的传播路径建立基于自回归信号模型的卡尔曼滤波器。
本发明公开的近端语音可懂度增强模块采用噪声相关的近端语音可懂度增强算法对语音进行频带间能量重分配,达到语音可懂度增强的目的,图7是广播场景下语音可懂度增强系统的应用示意图。具体为,首先采用短时傅里叶变换,将时域波形转换成傅里叶频谱,然后采用三分之一倍频程滤波器分频带并计算语音和噪声的频带能量,最后应用近端语音可懂度增强算法输出需要修改的语音频带增益。所述远端广播语音预处理模块首先采用短时傅里叶变换,将时域波形转换成傅里叶频谱,然后采用三分之一倍频程滤波器分频带,并乘上相应的频带增益,最后通过逆变换将频谱变为时域波形。所述系统可以完成远距离广播语音在听者处的可懂度增强,提高语音的通信质量,并且算法计算量较小,该系统可以实现实时运行。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种广播通信场景的近端语音可懂度增强方法,其特征在于,包括:
获取原始广播的远端参考语音和麦克风采集的近端混合语音;所述近端混合语音包括混合了背景噪声的经过衰减后的远端参考语音;
对参考语音和混合语音进行特征提取,获得所述参考语音和混合语音的傅里叶频谱;在短傅里叶变换域,针对所述参考语音和混合语音的传播路径建立基于自回归信号模型的卡尔曼滤波器,将参考语音和混合语音的傅里叶频谱输入所述卡尔曼滤波器得到参考语音和混合语音最优的自回归系数;利用所述自回归系数进行估计获得近端的语音信号和噪声信号;
对所述语音信号和噪声信号进行特征提取,获得所述语音信号和噪声信号的傅里叶频谱;对语音信号的傅里叶频谱进行语音活动性检测,将语音信号和噪声信号的傅里叶频谱输入三分之一倍频程滤波器获得第一输出结果;利用可懂度增强算法对第一输出结果进行计算获得所述语音信号和噪声信号的频带能量,对所述频带能量进行频带间重分配获得所述语音信号的频带增益;
对原始广播语音进行特征提取,获得广播语音的傅里叶频谱;对广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果;将第二输出结果与所述频带增益进行乘法运算得到可懂度增强后的语音频谱,对所述可懂度增强后的语音频谱进行傅里叶逆变换得到可懂度增强后的广播语音。
2.根据权利要求1所述的近端语音可懂度增强方法,其特征在于,所述对参考语音和混合语音进行特征提取,获得对应的傅里叶频谱,包括:
对所述参考语音和混合语音进行分帧得到对应的子音频;
针对每一子音频进行加窗;
对每一加窗后的子音频进行短时傅里叶变换得到所述参考语音和混合语音的傅里叶频谱。
3.根据权利要求1所述的近端语音可懂度增强方法,其特征在于,所述利用所述自回归系数进行估计获得近端的噪声信号和语音信号,包括:
利用所述自回归系数通过线性滤波进行估计得到近端的噪声信号,将所述混合信号中近端的噪声信号删除,得到估计的语音信号。
4.根据权利要求1所述的近端语音可懂度增强方法,其特征在于,所述对语音信号的傅里叶频谱进行语音活动性检测,将语音信号和噪声信号的傅里叶频谱输入三分之一倍频程滤波器获得第一输出结果,包括:
对语音信号的傅里叶频谱进行语音活动性检测,不存在语音时,输出为1的频带增益;
对语音信号的傅里叶频谱进行语音活动性检测,存在语音时,将所述语音信号和噪声信号的傅里叶频谱输入18个频带的三分之一倍频程滤波器,得到第一输出结果。
5.根据权利要求1所述的近端语音可懂度增强方法,其特征在于,所述对广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果,包括:
对所述广播语音的傅里叶频谱进行语音活动性检测,当不存在语音时,将所述广播语音的傅里叶频谱进行傅里叶逆变换得到的纯净广播语音;
对所述广播语音的傅里叶频谱进行语音活动性检测,当存在语音时,将所述广播语音的傅里叶频谱输入18个频带的三分之一倍频程滤波器获得第二输出结果。
6.根据权利要求1-5任一项所述的近端语音可懂度增强方法,其特征在于,所述方法包括:
针对可懂度增强后的广播语音或的纯净广播语音进行远端广播播报。
7.一种针对语音传播路径建立基于自回归信号模型的卡尔曼滤波器的方法,包括:
获取原始广播的远端参考语音和麦克风采集的近端混合语音;
对参考语音和混合语音进行特征提取,获得所述参考语音和混合语音的傅里叶频谱;
在短傅里叶变换域,根据自回归系数的时变特性建模马尔科夫过程得到状态方程;
基于所述参考语音和混合语音得到观测方程;
当所述状态方程和观测方程构成的动态系统满足零均值正态分布时,通过最小化均方误差,针对所述参考语音和混合语音的传播路径建立基于自回归信号模型的卡尔曼滤波器。
8.一种广播通信场景的近端语音可懂度增强系统,用于权利要求1-7任一项所述方法,所述系统包括:
接收模块,所述接收模块用于获取原始广播的远端参考语音和麦克风采集的近端混合语音;
近端语音及噪声接收模块;所述近端语音及噪声接收模块用于对参考语音和混合语音进行特征提取,获得对应的傅里叶频谱,建立基于自回归信号模型的卡尔曼滤波器,将参考语音和混合语音的傅里叶频谱输入所述卡尔曼滤波器得到所述参考语音和混合语音的自回归系数,利用参考语音和混合语音的自回归系数进行估计获得近端的语音信号和噪声信号;
近端语音可懂度增强模块,所述近端语音可懂度增强模块用于对所述语音信号和噪声信号进行特征提取,获得所述语音信号和噪声信号的傅里叶频谱,对语音信号的傅里叶频谱进行语音活动性检测,将语音信号和噪声信号的傅里叶频谱输入三分之一倍频程滤波器获得第一输出结果,利用可懂度增强算法对第一输出结果进行计算获得所述语音信号和噪声信号的频带能量,对所述频带能量进行频带间重分配获得所述语音信号的频带增益;
远端广播语音预处理模块,所述远端广播语音预处理模块用于对原始广播语音进行特征提取,获得广播语音的傅里叶频谱,对所述广播语音的傅里叶频谱进行语音活动性检测并输入三分之一倍频程滤波器后获得第二输出结果,将第二输出结果与所述频带增益进行乘法运算得到可懂度增强后的语音频谱,对所述可懂度增强后的语音频谱进行傅里叶逆变换得到可懂度增强后的广播语音;
输出模块,所述输出模块用于针对可懂度增强后的广播语音或纯净的广播语音进行远端广播播报。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一项所述方法。
CN202310049766.8A 2023-02-01 2023-02-01 一种广播通信场景的近端语音可懂度增强方法和系统 Pending CN116129928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310049766.8A CN116129928A (zh) 2023-02-01 2023-02-01 一种广播通信场景的近端语音可懂度增强方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310049766.8A CN116129928A (zh) 2023-02-01 2023-02-01 一种广播通信场景的近端语音可懂度增强方法和系统

Publications (1)

Publication Number Publication Date
CN116129928A true CN116129928A (zh) 2023-05-16

Family

ID=86304308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310049766.8A Pending CN116129928A (zh) 2023-02-01 2023-02-01 一种广播通信场景的近端语音可懂度增强方法和系统

Country Status (1)

Country Link
CN (1) CN116129928A (zh)

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
US7313518B2 (en) Noise reduction method and device using two pass filtering
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
US8724798B2 (en) System and method for acoustic echo cancellation using spectral decomposition
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP5127754B2 (ja) 信号処理装置
US8244547B2 (en) Signal bandwidth extension apparatus
US20080140396A1 (en) Model-based signal enhancement system
US20070036344A1 (en) Method and system for eliminating noises and echo in voice signals
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
JPH09212196A (ja) 雑音抑圧装置
WO2022012195A1 (zh) 音频信号处理方法和相关装置
US8306821B2 (en) Sub-band periodic signal enhancement system
CN108922514B (zh) 一种基于低频对数谱的鲁棒特征提取方法
CN110503967B (zh) 一种语音增强方法、装置、介质和设备
JP5443547B2 (ja) 信号処理装置
CN114038476A (zh) 音频信号处理方法及装置
CN112652290B (zh) 产生混响音频信号的方法及音频处理模型的训练方法
Hammam et al. Blind signal separation with noise reduction for efficient speaker identification
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
CN116129928A (zh) 一种广播通信场景的近端语音可懂度增强方法和系统
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination