CN107680603A - 一种混响时间估计方法及装置 - Google Patents

一种混响时间估计方法及装置 Download PDF

Info

Publication number
CN107680603A
CN107680603A CN201610626191.1A CN201610626191A CN107680603A CN 107680603 A CN107680603 A CN 107680603A CN 201610626191 A CN201610626191 A CN 201610626191A CN 107680603 A CN107680603 A CN 107680603A
Authority
CN
China
Prior art keywords
reverberation
autocorrelation function
reverberation time
parameter
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610626191.1A
Other languages
English (en)
Other versions
CN107680603B (zh
Inventor
邹莹
梁民
沙永涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Telecommunications Technology CATT
Original Assignee
China Academy of Telecommunications Technology CATT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Telecommunications Technology CATT filed Critical China Academy of Telecommunications Technology CATT
Priority to CN201610626191.1A priority Critical patent/CN107680603B/zh
Priority to PCT/CN2017/090887 priority patent/WO2018024058A1/zh
Publication of CN107680603A publication Critical patent/CN107680603A/zh
Application granted granted Critical
Publication of CN107680603B publication Critical patent/CN107680603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种混响时间估计方法及装置,用以解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。方法为:在混响环境下获得当前混响语音信号;基于历史混响语音信号和所述当前混响语音信号确定自相关函数;根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。

Description

一种混响时间估计方法及装置
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种混响时间估计方法及装置。
背景技术
混响时间(表示为RT60)定义为:在特定房屋空间中从声音激励停止时起算,其残余声能经过多次反射后衰减至-60dB(相当于平均声能密度降为原来的10-6)所需要的时间。混响时间是衡量特定房屋空间混响特性的一个重要指标,并且与解混响算法中后期混响(Late-Reverberation)功率的计算估计密切相关。
传统混响时间的估计方法是采用声音激励方法,主要思想为:在声音激励信号停止后测量声能衰减至低于起始观测时能量的60dB所经历的时间。该方法需要冲激特性的语音测试信号,以便在声音停止激励后对声能的测试不受语音拖尾成分的影响。显然,该方法不能满足实时处理应用的要求。
为此,人们探讨并提出用所接收的语音信号进行混响时间盲估计的方法,然而这种方法仅能在已检测出的语音间隙期间来应用,而且还需假设语音的结束时刻没有拖尾且语音中的间隙要足够长,因而也无法在实际中有效应用。
为改进和克服混响时间盲估计的缺陷,相关学者又提出了一种基于语音模型的更为鲁棒(Robust)的混响时间估计方法(以下简称基于语音模型的估计方法),该方法应用线性预测方法来处理所接收的语音信号,并获得该语音信号相应的残差信号,然后用该残差信号的自相关函数代入到混响时间的极大似然估计器(Maximum-Likelihood Estimator,MLE),从而获得该语音信号相应的混响时间估值。工作原理具体如下:
在混响环境下获得语音信号,假设该语音信号不存在噪声干扰,表示为公式1:
x[n]=s[n]*h[n] (公式1)
其中,x[n]表示接收语音信号,s[n]表示源语音信号,h[n]表示房屋冲激响应(Room Impulse Response,RIR),“*”表示线性卷积算子。根据统计声学理论,RIR可以用Polack模型表示为如公式2所示的非平稳随机过程:
h[n]=w[n]an,n>0 (公式2)
其中,公式2中:
a=e (公式3)
其中,fs表示采样频率,w[n]表示零均值的高斯白噪声。
由于s[n]可以看作是激励信号e[n]与声道滤波器v[n]卷积的结果,因此公式1可以表示为公式5所示:
x[n]=e[n]*v[n]*h[n] (公式5)
通过对x[n]进行线性预测(Linear Prediction,LP)分析,获得残差信号,该残差信号可以看作是语音生成模型中激励信号的一种近似。考虑到声道滤波器可以表示成一个时变的全极点滤波器,而RIR通常被认为是全零点滤波器,故可以认为v[n]与h[n]彼此间互不相关,因此通过对x[n]进行LP分析,可以近似地将声道滤波器的效应从混响语音数据中移去,从而获得如公式6所示的残差信号:
残差信号的N点的自相关函数可以表示为公式7所示:
其中,Ce[n]是e[n]的自相关函数,Ch[n]是h[n]的自相关函数。鉴于自相关函数Ce[n]衰减速度比Ch[n]快,可以认为:
其中,k表示Ce[n]的均值。由上式可知残差信号的自相关与RIR的自相关有相同的统计特性,因此可以用残差信号的自相关代入MLE中。在工程实现中我们用时间平均代替统计平均,首先计算每一帧的自相关函数然后每隔L帧计算一次平均自相关函数得到的平均自相关函数作为MLE估计器的输入。
计算L帧的自相关函数的均值,表示为公式9所示:
基于参数a和k的自相关函数的似然函数可表示为公式10:
最佳的参数a和k对应于公式10的自然对数极大值点,为此:
其中,表示对参数a求偏导数,表示对参数k求偏导数。应用Newton-Raphson方法求解公式11和公式12组成的联立方程式计算出参数a和k,然后根据公式3和公式4得到混响时间的估计值。
基于语音模型的混响时间估计方法的作者们曾建议:在实际应用中,对于语音数据采用无偏自相关的计算方法,即表示为公式13所示,其中N为一帧语音帧包含的样点数:
尽管基于语音模型的混响时间估计方法不需要检测语音的时隙,并且利用全部的语音数据进行估计,但实际应用发现,该方法通常对混响时间小于预设门限的混响语音的RT60产生过估计。
发明内容
本发明实施例提供一种混响时间估计方法及装置,用以解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
本发明实施例提供的具体技术方案如下:
第一方面,本发明实施例提供了一种混响时间估计方法,包括:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,所述方法还包括:
对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,根据所述连续的L个自相关函数确定平均自相关函数,包括:
按照公式确定平均自相关函数,其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
可能的实施方式中,对本次确定的所述自相关函数进行平滑处理,包括:
按照公式对所述混响语音帧的自相关函数进行平滑处理,其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,所述方法还包括:
按照公式对所述混响时间的有效值进行平滑处理,其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
第二方面,本发明实施例提供了一种混响时间估计装置,包括:
第一处理模块,用于在混响环境下获得当前混响语音信号;
第二处理模块,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
第三处理模块,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第二处理模块还用于:
基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,所述第二处理模块具体用于:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,所述第三处理模块具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第三处理模块具体用于:
按照公式确定平均自相关函数,其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
可能的实施方式中,所述第三处理模块具体用于:
按照公式对所述混响语音帧的自相关函数进行平滑处理,其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
第三方面,本发明实施例提供了一种设备,该设备主要包括处理器和存储器,其中,存储器中保存有预设的程序,处理器用于读取存储器中的程序,按照该程序执行以下过程:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,所述方法还包括:
对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,根据所述连续的L个自相关函数确定平均自相关函数,包括:
按照公式确定平均自相关函数,其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
可能的实施方式中,对本次确定的所述自相关函数进行平滑处理,包括:
按照公式对所述混响语音帧的自相关函数进行平滑处理,其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,所述方法还包括:
按照公式对所述混响时间的有效值进行平滑处理,其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
基于以上技术方案,本发明实施例中,基于历史语音信号和当前混响语音信号确定自相关函数,根据该自相关函数以及预设的极大似然估计模型,确定混响语音信号的混响时间,可以进一步提高混响时间的估计精度,解决了现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
附图说明
图1为本发明实施例中进行混响时间估计的方法流程示意图;
图2为本发明实施例中基于语音模型的混响时间估计过程示意图;
图3为本发明实施例中混响时间估计装置结构示意图;
图4为本发明实施例中设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题,本发明实施例中对现有的基于语音模型的混响时间估计方法进行了改进。
本发明实施例中,将混响时间小于预设门限的混响语音成为小混响语音,例如,将混响时间小于400毫秒的混响语音称为小混响语音。
本发明实施例中,对现有的基于语音模型的混响时间估计方法进行改进后,进行混响时间估计的方法流程如图1所示,具体如下:
步骤101:在混响环境下获得当前混响语音信号。
步骤102:基于历史混响语音信号和所述当前混响语音信号确定自相关函数。
发明人发现,现有的基于语音模型的混响时间估计过程中,在公式13中,计算无偏自相关函数具有局部的窗口效应,为改善和提高自相关函数的计算精度,本发明实施例中提出了基于历史混响语音信号和当前混响时间信号确定自相关函数的方法。
相对公式13提出的无偏的自相关函数的定义,带历史数据的无偏自相关函数定义如下:
首先在帧长为N的数据前填充M长的历史数据,然后根据公式14求取:
具体地,基于历史混响语音信号和所述当前混响语音信号确定自相关函数的过程具体如下:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离(以样点为单位),所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
较佳地,n小于或等于N的二分之一。
根据实际应用中测试的结果可知,采用代替代入到公式11、公式12、公式3和公式4中,得到的RT60比现有的基于语音模型的估计方法更为准确,尤其是可以解决对小混响语音的过估计的问题。
步骤103:根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
本发明实施例中,鉴于现有的基于语音模型的混响时间估计方法中,需要对连续多次获得自相关函数进行平均,这就为混响时间的估计造成较大的等待时延,尤其是导致第一次计算得到混响时间的时间延迟太长。
例如,假设一个混响语音帧的时长为20毫秒,一个混响语音帧包含的采样点数为N=320,即混响语音信号的采样频率为16KHz,假设用于计算自相关函数的帧数M=12,用于计算平均自相关函数所需的自相关函数的个数L=20,则计算得到第一个混响时间估计值需要的延迟为:20毫秒×12×20=4.8秒。以应用于去混响应用为例,将直接影响前4.8秒的去混响性能。
为此,本发明实施例中在开始混响时间估计的4.8秒之前,与在开始混响时间估计的4.8之后,采用不同的混响时间估计方式。具体地,在开始混响时间估计的4.8秒之前采用确定混响时间的第二处理方式,在开始混响时间估计的4.8之后采用确定混响时间的第一处理方式。
具体地,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,具体可以分为以下两种处理方式:
第一处理方式,若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
第一处理方式中,根据所述连续的L个自相关函数确定平均自相关函数,具体为:按照公式19确定平均自相关函数,
其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
该第一处理方式中,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,具体过程如下:根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为:
其中,所述第二约束条件为:
其中,RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
该第一处理方式中,每连续获得L个自相关函数后计算平均自相关函数,基于平均自相关函数确定混响时间的估计值,可以在不影响混响时间估计的准确性的情况下,进一步降低运算量。
第二处理方式,若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
例如,在混响时间估计开始后的4.8秒之前,每240毫秒得到一个自相关函数后就确定一次混响时间,为了避免减少由于自相关函数的波动,采用递归平滑的方式对自相关函数进行平滑处理。
具体地,该第二处理方式中,对本次确定的所述自相关函数进行平滑处理,具体为:按照公式23对所述混响语音帧的自相关函数进行平滑处理,
其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
该第二处理方式中,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,具体为:根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为:
其中,所述第二约束条件为:
其中,RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
优选地,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音进行降采样处理,基于降采样后的历史混响语音信号和降采样后的当前混响语音信号确定自相关函数。
鉴于现有的基于语音模型的混响时间估计方法中,假设一帧语音帧包含的采样点数为N,计算自相关的帧数为M,且N×M需要足够大才能够使得语音模型成立,计算自相关的运算量很大。例如,假设N×M=3840,即对应240毫秒内以16KHz的采样速率进行采样获得数据个数,如果只计算N×M/2=1920个自相关值,则计算复杂度为:乘法次数为N×M×N×M/2=7372800,加法次数为(N×M-1)×N×M/2=7370800。
通过降采样可以有效降低计算量,具体地,假设输入的语音信号的采样频率为16KHz,假设将采样频率降为4KHz,则自相关函数的计算运算量将变为原来的1/16,即降采样后的计算复杂度为:乘法次数为7372800/16=460800,加法次数为7370800/16=460680。同时极大似然估计过程的计算复杂度也会降为原来的1/16。
优选地,如果采用降采样后的历史语音信号和降采样后的当前混响语音信号计算自相关函数以及计算混响语音信号的混响时间的估计值,则在采用第一或第二处理方式确定当前混响语音信号的混响时间的估计值之后,根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值。
具体地,采用降采样后的历史语音信号和降采样后的当前混响语音信号计算得到的自相关函数后,将该自相关函数代入极大似然估计模型中得到的为混响时间的估计值。采用未进行降采样处理的历史语音信号和当前混响语音信号计算得到的自相关函数,将该自相关函数代入极大似然估计模型中得到的为混响时间的有效值。混响时间的估计值与混响时间的有效值之间存在映射关系,该映射关系可采用数学映射函数Γ(·)表示为:
RT60=Γ(RT60|降采样) (公式24)
其中,RT60|降采样表示混响时间的估计值,RT60表示混响时间的有效值。
优选地,对于第二处理方式,为了减小估计出的混淆时间的有效值的波动性,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式25对所述混响时间的有效值进行平滑处理,
其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
该第二处理方式中对混响时间的有效值进行平滑处理的基本思想是以“快上升慢下降”为准则的,即当瞬时的混响时间的有效值大于上一次平滑处理后的混淆时间时,使用较小的平滑因子α,否则,使用较大的平滑因子β。
具体应用中,在混响时间估计开始后的第一个4.8秒之后,按照第一处理方式,每4.8秒进行一次MLE来更新混响时间的估计值,从而进一步降低运算量,因为同一空间内混响时间是相对固定的。
以下通过一个具体实施例对本发明实施例所提供的基于语音模型的混响时间估计方法进行完整说明。
如图2所示为该具体实施例中基于语音模型的混响时间估计过程示意图,具体过程如下:
步骤201:在初始化过程中配置以下参数:一个语音帧中包含的样点数为N;配置M、L、平滑因子α和β,设置帧计数器Cnt=0,设置计数器m=0,以及设置计数器h=0。
步骤202:读取一个混响语音帧,更新Cnt=Cnt+1以及更新m=m+1。
步骤203:对混响语音帧进行降采样处理。
步骤204:对将采样处理后的混响语音帧进行LPC分析以及LP滤波。
步骤205:判断是否满足m>M,若是,执行步骤206,否则,执行步骤202。
步骤206:按照公式15计算M个混响语音帧的残差信号的自相关函数,并更新m=0,以及更新h=h+1。
步骤207:判断是否满足Cnt>M×L,若不满足,执行步骤208,否则执行步骤209;
步骤208:按照公式20对自相关函数进行平滑处理后,执行步骤211。
步骤209:按照公式16计算连续L个自相关函数的平均自相关函数后,执行步骤210。
步骤210:判断是否满足h>L,若不满足,转去执行步骤202,否则,执行步骤211。
步骤211:计算混响时间,具体为:根据平滑处理后的自相关函数或者平均自相关函数,采用Newton-Raphson方法求解公式21,得到参数a和k,根据公式23得到混响时间的估计值,根据公式24得到该混响时间的估计值对应的混响时间的有效值,更新h=0。
步骤212:判断是否仍在接收混响语音信号,若是,转去执行步骤202,否则,结束。
基于同一发明构思,本发明实施例中提供了一种混响时间估计装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图3所示,该装置主要包括:
第一处理模块301,用于在混响环境下获得当前混响语音信号;
第二处理模块302,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
第三处理模块303,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第二处理模块还用于:
基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,所述第二处理模块具体用于:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,所述第三处理模块具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第三处理模块具体用于:
按照公式确定平均自相关函数,其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
可能的实施方式中,所述第三处理模块具体用于:
按照公式对所述混响语音帧的自相关函数进行平滑处理,其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
基于同一发明构思,本发明实施例还提供了一种设备,该设备的具体实施可参见方法实施例的相关描述,如图4所示,该设备主要包括处理器401和存储器402,其中,存储器402中保存有预设的程序,处理器401用于读取存储器402中的程序,按照该程序执行以下过程:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器还用于:基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,处理器用于:从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,处理器用于:若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器用于:按照公式确定平均自相关函数,其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
可能的实施方式中,处理器用于:
按照公式对所述混响语音帧的自相关函数进行平滑处理,其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,处理器用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,处理器用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,处理器用于:确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
其中,处理器和存储器之间通过总线连接,总线架构可以包括任意数量的互联的总线和桥,具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器负责管理总线架构和通常的处理,存储器可以存储处理器在执行操作时所使用的数据。
基于以上技术方案,本发明实施例中,基于历史语音信号和当前混响语音信号确定自相关函数,根据该自相关函数以及预设的极大似然估计模型,确定混响语音信号的混响时间,可以进一步提高混响时间的估计精度,解决了现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
并且,本发明实施例中,在对历史语音信号以及当前混响语音信号进行降采样处理,基于降采样后的历史语音信号以及降采样后的当前混响语音信号计算自相关函数,可以进一步降低计算复杂度,提高混响时间估计的实时性。
另外,本发明实施例中,在混响时间估计开始的设定时长内,在每次计算得到自相关函数后,根据该自相关函数确定混响时间,从而可以解决现有的基于语音模型的混响时间估计过程中,首次获得混响时间的等待时延长的问题,缩短了工程实现中首次获得混响时间的等待时长,使得更适合实际应用。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (18)

1.一种混响时间估计方法,其特征在于,包括:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
2.如权利要求1所述的方法,其特征在于,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,所述方法还包括:
对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
3.如权利要求2所述的方法,其特征在于,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
4.如权利要求2所述的方法,其特征在于,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
5.如权利要求4所述的方法,其特征在于,根据所述连续的L个自相关函数确定平均自相关函数,包括:
按照公式确定平均自相关函数,其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
6.如权利要求4所述的方法,其特征在于,对本次确定的所述自相关函数进行平滑处理,包括:
按照公式对所述混响语音帧的自相关函数进行平滑处理,其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
7.如权利要求5所述的方法,其特征在于,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>a</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <mi>a</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>k</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mi>N</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>k</mi> <mn>2</mn> </msup> </mrow> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> </mrow> </msup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一 参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导 数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数 以及所述第二参数的似然函数,表示为 <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msqrt> <mrow> <msup> <mi>a</mi> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mn>2</mn> <mi>&amp;pi;</mi> <mi>k</mi> <mo>)</mo> </mrow> <mi>N</mi> </msup> </mrow> </msqrt> </mfrac> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mfrac> <mrow> <msubsup> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> <mn>2</mn> </msubsup> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <mrow> <msup> <mi>ka</mi> <mrow> <mn>2</mn> <mi>n</mi> </mrow> </msup> </mrow> </mfrac> <mo>}</mo> <mo>;</mo> </mrow>
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
8.如权利要求6所述的方法,其特征在于,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>a</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <mi>a</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>k</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mi>N</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>k</mi> <mn>2</mn> </msup> </mrow> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> </mrow> </msup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
9.如权利要求8所述的方法,其特征在于,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,所述方法还包括:
按照公式对所述混响时间的有效值进行平滑处理,其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
10.一种混响时间估计装置,其特征在于,包括:
第一处理模块,用于在混响环境下获得当前混响语音信号;
第二处理模块,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
第三处理模块,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
11.如权利要求10所述的装置,其特征在于,所述第二处理模块还用于:
基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
12.如权利要求11所述的装置,其特征在于,所述第二处理模块具体用于:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
13.如权利要求11所述的装置,其特征在于,所述第三处理模块具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
14.如权利要求13所述的装置,其特征在于,所述第三处理模块具体用于:
按照公式确定平均自相关函数,其中,表示连续L次确定的自相关函数中的第l个自相关该函数,表示平均自相关函数。
15.如权利要求13所述的装置,其特征在于,所述第三处理模块具体用于:
按照公式对所述混响语音帧的自相关函数进行平滑处理,其中,表示本次确定的所述自相关函数,表示第l次平滑处理后的自相关函数,表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
16.如权利要求14所述的装置,其特征在于,所述第三处理模块具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>a</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <mi>a</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>k</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mi>N</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>k</mi> <mn>2</mn> </msup> </mrow> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> </mrow> </msup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一 参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导 数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数 以及所述第二参数的似然函数,表示为 <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msqrt> <mrow> <msup> <mi>a</mi> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mn>2</mn> <mi>&amp;pi;</mi> <mi>k</mi> <mo>)</mo> </mrow> <mi>N</mi> </msup> </mrow> </msqrt> </mfrac> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mfrac> <mrow> <msubsup> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> <mn>2</mn> </msubsup> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <mrow> <msup> <mi>ka</mi> <mrow> <mn>2</mn> <mi>n</mi> </mrow> </msup> </mrow> </mfrac> <mo>}</mo> <mo>;</mo> </mrow>
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
17.如权利要求15所述的装置,其特征在于,所述第三处理模块具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>a</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <mi>a</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mo>&amp;part;</mo> <msub> <mo>&amp;part;</mo> <mi>k</mi> </msub> </mfrac> <mi>log</mi> <mi>P</mi> <mrow> <mo>{</mo> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mo>}</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mi>N</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>k</mi> <mn>2</mn> </msup> </mrow> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <msub> <mover> <mi>R</mi> <mo>&amp;OverBar;</mo> </mover> <mover> <mi>x</mi> <mo>~</mo> </mover> </msub> <mn>2</mn> </msup> <mrow> <mo>&amp;lsqb;</mo> <mi>n</mi> <mo>&amp;rsqb;</mo> </mrow> <msup> <mi>a</mi> <mrow> <mo>-</mo> <mn>2</mn> <mi>n</mi> </mrow> </msup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
其中,所述第二约束条件为:RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
18.如权利要求17所述的装置,其特征在于,所述第三处理模块具体用于:
确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,RT60表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
CN201610626191.1A 2016-08-02 2016-08-02 一种混响时间估计方法及装置 Active CN107680603B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610626191.1A CN107680603B (zh) 2016-08-02 2016-08-02 一种混响时间估计方法及装置
PCT/CN2017/090887 WO2018024058A1 (zh) 2016-08-02 2017-06-29 一种混响时间估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610626191.1A CN107680603B (zh) 2016-08-02 2016-08-02 一种混响时间估计方法及装置

Publications (2)

Publication Number Publication Date
CN107680603A true CN107680603A (zh) 2018-02-09
CN107680603B CN107680603B (zh) 2021-08-31

Family

ID=61073423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610626191.1A Active CN107680603B (zh) 2016-08-02 2016-08-02 一种混响时间估计方法及装置

Country Status (2)

Country Link
CN (1) CN107680603B (zh)
WO (1) WO2018024058A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151702A (zh) * 2018-09-21 2019-01-04 歌尔科技有限公司 音频设备的音效调节方法、音频设备及可读存储介质
CN109686380A (zh) * 2019-02-18 2019-04-26 广州视源电子科技股份有限公司 语音信号的处理方法、装置及电子设备
CN111785292A (zh) * 2020-05-19 2020-10-16 厦门快商通科技股份有限公司 一种基于图像识别的语音混响强度估计方法、装置及存储介质
CN113077804A (zh) * 2021-03-17 2021-07-06 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889857A (en) * 1994-12-30 1999-03-30 Matra Communication Acoustical echo canceller with sub-band filtering
US20040213415A1 (en) * 2003-04-28 2004-10-28 Ratnam Rama Determining reverberation time
CN1545086A (zh) * 2003-11-12 2004-11-10 中国科学院声学研究所 基于人耳听觉特性的语音信号时间延迟估计方法
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5077847B2 (ja) * 2008-03-04 2012-11-21 国立大学法人北陸先端科学技術大学院大学 残響時間推定装置及び残響時間推定方法
CN105628170A (zh) * 2014-11-06 2016-06-01 广州汽车集团股份有限公司 一种车内混响时间的测量和计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889857A (en) * 1994-12-30 1999-03-30 Matra Communication Acoustical echo canceller with sub-band filtering
US20040213415A1 (en) * 2003-04-28 2004-10-28 Ratnam Rama Determining reverberation time
CN1545086A (zh) * 2003-11-12 2004-11-10 中国科学院声学研究所 基于人耳听觉特性的语音信号时间延迟估计方法
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋知用: "《MATLAB在语音信号分析与合成中的应用》", 30 November 2013 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151702A (zh) * 2018-09-21 2019-01-04 歌尔科技有限公司 音频设备的音效调节方法、音频设备及可读存储介质
CN109686380A (zh) * 2019-02-18 2019-04-26 广州视源电子科技股份有限公司 语音信号的处理方法、装置及电子设备
CN111785292A (zh) * 2020-05-19 2020-10-16 厦门快商通科技股份有限公司 一种基于图像识别的语音混响强度估计方法、装置及存储介质
CN113077804A (zh) * 2021-03-17 2021-07-06 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质
WO2022194011A1 (zh) * 2021-03-17 2022-09-22 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2018024058A1 (zh) 2018-02-08
CN107680603B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN107680603B (zh) 一种混响时间估计方法及装置
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
KR100330230B1 (ko) 잡음 억제 방법 및 장치
Löllmann et al. An improved algorithm for blind reverberation time estimation
Bees et al. Reverberant speech enhancement using cepstral processing
JP4107613B2 (ja) 残響除去における低コストのフィルタ係数決定法
JP2017021385A (ja) シングルチャンネル音声残響除去方法及びその装置
CN109643552A (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
US11640827B2 (en) Concept for encoding of information
BR112016000337B1 (pt) Método de extensão de banda realizado por um dispositivo de extensãode banda para formar um sinal de saída com artefatos reduzidos, dispositivo dedeterminação de um fator de escala otimizado para aplicar em um sinal deexcitação ou em um filtro em um dispositivo de extensão de banda de frequênciade um sinal e decodificador de sinal de audiofrequência
RU2010105057A (ru) Изменяющийся во времени уровень звукового сигнала с использованием изменяющейся во времени оценочной плотности вероятности уровня
Yu et al. Speech enhancement using a DNN-augmented colored-noise Kalman filter
JP2011065128A (ja) 残響除去装置
JP4965891B2 (ja) 信号処理装置およびその方法
WO2015139956A1 (en) Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
CN113571076A (zh) 信号处理方法、装置、电子设备和存储介质
Löllmann et al. Comparative study of single-channel algorithms for blind reverberation time estimation
TWI728277B (zh) 音調滯後選擇技術
Ruhland et al. Reduction of Gaussian, supergaussian, and impulsive noise by interpolation of the binary mask residual
DE602006001051T2 (de) Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen
JP4977100B2 (ja) 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
CN106710602A (zh) 一种声学混响时间估计方法和装置
Moir et al. A kepstrum approach to filtering, smoothing and prediction with application to speech enhancement
CN111785289A (zh) 残留回声消除方法和装置
CN112687277B (zh) 语音共振峰的确定方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant