CN113726969B - 混响检测方法、装置及设备 - Google Patents
混响检测方法、装置及设备 Download PDFInfo
- Publication number
- CN113726969B CN113726969B CN202111285445.5A CN202111285445A CN113726969B CN 113726969 B CN113726969 B CN 113726969B CN 202111285445 A CN202111285445 A CN 202111285445A CN 113726969 B CN113726969 B CN 113726969B
- Authority
- CN
- China
- Prior art keywords
- determining
- energy
- sub
- reverberation
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000004044 response Effects 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000003044 adaptive effect Effects 0.000 claims abstract description 32
- 230000005236 sound signal Effects 0.000 claims description 80
- 230000007613 environmental effect Effects 0.000 claims description 32
- 238000001914 filtration Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 abstract description 20
- 238000003672 processing method Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 7
- 230000001629 suppression Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011358 absorbing material Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本申请公开了混响检测方法和装置,回声消除方法和装置,去混响处理方法和装置,会议终端。其中,混响检测方法通过音视频会议设备的语音通信模块中的自适应滤波器对空间脉冲响应参数进行估计,并借助指数衰减模型,根据空间脉冲响应信号,自动计算房间的混响时间。采用这种处理方式,使得结合现有语音通信模块估计房间混响时间,计算量小,性能可靠,可以有效提升混响时间检测的实时性,可用于专递课堂、音视频会议系统等。
Description
技术领域
本申请涉及语音处理技术领域,具体涉及混响检测方法和装置,回声消除方法和装置,去混响处理方法和装置,会议终端。
背景技术
随着音视频通信系统的普及,不可避免地会碰到各式各样复杂的房间声学环境,如何定量地表述不同声学环境,并以此来优化实时语音通信中的算法,甚至是专门性地改造房间声学环境,成了目前行业亟需解决的难题。
一种常用的声学指标为混响时间,即反映房间混响程度的一个客观指标。混响时间所需时间越长,则反映此房间混响越大,反之亦然。混响时间,作为定量反映声学环境的参数,传统的测量方法是由人工借助专门仪器去实地收集空间脉冲响应,然后根据收集到的空间脉冲响应来计算混响时间。
然而,在实现本发明过程中,发明人发现现有方案至少存在如下问题:通过人工借助专门仪器去实地场景收集测量以确定混响时间,并不具有广泛的实用性以及实时性,有些音频通信即插即用场景下也并不适用,因此,在实时语音通信方案中,对于房间混响时间的实时检测一直都是行业亟需解决的难题。
发明内容
本申请提供混响检测方法,以解决现有技术存在的环境混响检测实时性及实用性较差的问题。本申请另外提供混响检测装置,回声消除方法和装置,去混响处理方法和装置,会议终端。
本申请提供一种混响检测方法,包括:
通过声音采集装置,采集待检测环境的第一声音信号;
通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号;
通过指数式衰减模型,根据所述空间脉冲响应信号,确定待检测环境的混响时间。
可选的,所述通过指数式衰减模型,根据所述空间脉冲响应信号,确定待检测环境的混响时间,包括:
通过所述衰减模型,根据所述空间脉冲响应信号,确定衰减系数;
根据所述衰减系数,确定所述混响时间。
可选的,所述通过所述衰减模型,根据所述空间脉冲响应信号,确定衰减系数,包括:
根据所述空间脉冲响应信号,确定环境噪声能量和前期反射声能量;
根据环境噪声能量和前期反射声能量,确定所述衰减系数。
可选的,所述根据环境噪声能量和语音信号能量,确定所述衰减系数,包括:
根据环境噪声能量、前期反射声能量和幂系数,确定所述衰减系数。
可选的,所述根据所述空间脉冲响应信号,确定环境噪声能量和前期反射声能量,包括:
根据所述空间脉冲响应信号,确定多个语音帧的能量;
根据头部多个语音帧的能量,确定前期反射声能量;
根据尾部多个语音帧的能量,确定环境噪声能量。
可选的,所述通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号,包括:
通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号;
所述通过指数式衰减模型,根据所述空间脉冲响应信号,确定待检测环境的混响时间,包括:
通过所述衰减模型,根据多个子频带的空间脉冲响应信号,确定多个子频带的混响时间;
根据多个子频带的混响时间,确定全频带的混响时间。
可选的,所述通过所述衰减模型,根据多个子频带的空间脉冲响应信号,确定多个子频带的混响时间,包括:
通过所述衰减模型,根据所述子频带的空间脉冲响应信号,确定所述子频带的衰减系数;
根据所述子频带的衰减系数,确定所述子频带的混响时间。
可选的,所述通过所述衰减模型,根据所述子频带的空间脉冲响应信号,确定所述子频带的衰减系数,包括:
根据所述子频带的空间脉冲响应信号,确定环境噪声能量和前期反射声能量;
根据环境噪声能量和前期反射声能量,确定所述子频带的衰减系数。
可选的,所述根据环境噪声能量和语音信号能量,确定所述子频带的衰减系数,包括:
根据环境噪声能量、前期反射声能量和幂系数,确定所述衰减模型的多个子频带的衰减系数。
可选的,所述根据所述子频带的空间脉冲响应信号,确定环境噪声能量和前期反射声能量,包括:
根据所述子频带的空间脉冲响应信号,确定所述子频带上多个语音帧的能量;
根据头部多个语音帧的能量,确定前期反射声能量;
根据尾部多个语音帧的能量,确定环境噪声能量。
可选的,所述根据多个子频带的混响时间,确定全频带的混响时间,包括:
确定多个子频带的混响时间的均值,作为全频带的混响时间。
可选的,所述多个子频带在语音频段范围内。
本申请还提供一种回声消除方法,包括:
通过声音采集装置,采集第一声音信号;
根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号和第一回声消除信号;
根据所述空间脉冲响应信号,确定环境混响时间;
根据环境混响时间,对第一回声消除信号执行滤波处理,得到第二回声消除信号。
本申请还提供一种去混响处理方法,包括:
通过声音采集装置,采集第一声音信号;
根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号;
根据所述空间脉冲响应信号,确定环境混响时间;
根据环境混响时间,判断是否执行去混响处理。
本申请还提供一种混响检测装置,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
滤波单元,用于通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应参数;
混响时间确定单元,用于通过指数式衰减模型,根据所述空间脉冲响应参数,确定环境混响时间。
本申请还提供一种回声消除装置,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
第一滤波单元,用于根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号和第一回声消除信号;
混响时间确定单元,用于根据所述空间脉冲响应信号,确定环境混响时间;
第二滤波单元,用于根据环境混响时间,对第一回声消除信号执行滤波处理,得到第二回声消除信号。
本申请还提供一种去混响处理装置,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
滤波单元,用于根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号;
混响时间确定单元,用于根据所述空间脉冲响应信号,确定环境混响时间;
判断单元,用于根据环境混响时间,判断是否执行去混响处理。
本申请还提供一种会议设备,包括:
扬声器;
麦克风;
处理器;以及
存储器,用于存储实现上述方法的程序,该终端通电并通过所述处理器运行该方法的程序。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的混响检测方法,基于音视频会议设备的语音通信模块中的自适应滤波器对空间脉冲响应参数进行估计,并借助指数衰减模型,根据空间脉冲响应信号,自动计算房间的混响时间。该方法结合现有语音通信模块估计房间混响时间,计算量小,性能可靠,可以有效提升混响时间检测的实时性,可用于专递课堂、音视频会议系统等。
本申请实施例提供的回声消除方法,基于音视频会议设备的语音通信模块中的自适应滤波器对空间脉冲响应参数进行估计,同时对现场采集的声音信号进行回声抑制处理;借助指数衰减模型,根据空间脉冲响应信号,自动计算房间的混响时间;然后,根据混响时间,对通过自适应滤波器得到的回声抑制信号进行进一步的滤波处理,得到优化的回声抑制信号。该方法结合现有语音通信模块估计房间混响时间,计算量小,性能可靠,可以有效提升混响时间检测的实时性,从而提升回声消除效果。
附图说明
图1本申请提供的混响检测方法的实施例的应用场景示意图;
图2本申请提供的混响检测方法的实施例的流程示意图;
图3本申请提供的混响检测方法的实施例的信号处理示意图;
图4本申请提供的混响检测方法的实施例的信号衰减示意图;
图5本申请提供的混响检测方法的实施例的另一应用场景示意图;
图6本申请提供的混响检测方法的实施例的又一应用场景示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了混响检测方法和装置,回声消除方法和装置,去混响处理方法和装置,会议终端。在下面的实施例中逐一对各种方案进行详细说明。
请参看图1,其为本申请提供的混响检测方法的实施例的应用场景示意图。在一个示例中,所述方法可应用在音视频会议系统中的会议终端设备的回声消除场景。音视频会议系统是两个或两个以上不同地方的个人或群体,通过传输线路及会议终端等设备,将声音、影像及文件资料互传,实现即时且互动的沟通,以实现同时进行会议的系统设备,因此,音视频会议系统是一种典型的实时通信系统。所述会议终端,可以是扬声电话(Speakerphone),也可以是包括显示器和摄像头的视频会议终端。在回声消除应用场景中,可先通过本地会议终端上的现有回声消除装置(包括自适应滤波器)对本地会场的第一声音信号进行回声消除处理,同时,可根据自适应滤波器在收敛后的参数,估计本地会场的空间脉冲响应;然后,通过本地会议终端新增的混响检测模型,根据空间脉冲响应信号,确定衰减系数,再根据衰减系数确定混响时间;然后,可通过回声消除装置中的后滤波单元,根据混响时间,对初步消除回声的信号进行进一步的回声消除处理;最后,将优化的回声消除信号发送至远端会场。
如图6所示,通过本申请实施例提供的方式实时确定的混响时间,也可用于针对某些频带的声学优化改造,如增加一些吸音材料等。具体实施时,可以设计声学环境改造处理装置,该装置可根据各个子频带的混响时间、会场当前使用的吸音材料等、目标混响时间,自动确定声学优化改造方案。当然,也可以将各个子频带的混响时间推送至会场环境管理用户,该用户可根据各个子频带的混响时间,人工设计针对某些频带的声学优化改造。
第一实施例
请参看图2,其为本申请的混响检测方法的实施例的流程示意图。在本实施例中,所述方法可包括如下步骤:
步骤S201:通过声音采集装置,采集第一声音信号。
在本实施例中,所述方法应用在会议终端设备中。所述会议终端,包括声音采集装置(麦克风)和声音播放装置(扬声器)。通过声音采集装置,可采集本地会场的第一声音信号。所述第一声音信号,包括来自本地会场的发言人的声音,还包括扬声器发出的远程发言人的声音。
步骤S203:通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号。
所述会议终端,还包括自适应滤波器(Adaptive Filter)。所述自适应滤波器,可用于实时语音通信中回声消除装置(Acoustic Echo Cancellation)。在本实施例中,采用回声消除装置中的自适应滤波器,通过自适应算法来收敛/估计接收信号(第一声音信号)与参考信号(第二声音信号)之间的空间冲击响应(空间脉冲响应信号)。
所述第二声音信号,是扬声器的信号源,是来自远端会场的声音信号,包括远端发言人的声音。如图1所示,部署在本地会场的本地会议终端通过通信网络,接收部署在远端会场的远端会议终端采集的第二声音信号,并通过本地会议终端的扬声器播放。
所述空间脉冲响应信号(Room Impulse Response),是声音传播空间中点对点之间的传递函数的表达,包含声学环境信息,可用于定量声学环境。
由于通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应参数,属于较为常用的现有技术,因此此处不再赘述。
步骤S205:通过指数式衰减模型,根据所述空间脉冲响应信号,确定环境混响时间。
所述混响时间(Reverberation Time),是一个声源停止发声后, 在房间声场中还存在着来自各个界面的迟到的反射声,此反射声衰减到诸如-60dB所需的时间,如RT60。
本申请实施例提供的方法,为了准确计算出混响时间(如T60),引入指数式衰减模型(ExponentialDecayModel)。如图4所示,所述指数式衰减模型是随时间的负指数的方式减小,所述空间脉冲响应信号的压缩能量参数(|h[l]|α)在时间轴l内符合指数衰变。该模型符合空间声学传播原理,在子频带和全频带都成立。
在一个示例中,步骤S203可采用如下方式实现:通过自适应滤波器,确定全频带的空间脉冲响应信号;相应的,步骤S205可包括如下子步骤:通过所述衰减模型,根据所述全频带的空间脉冲响应信号,确定所述全频带的衰减系数;根据所述全频带的衰减系数,确定所述全频带的混响时间。
在另一个示例中,步骤S203可采用如下方式实现:通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号。
如图3所示,自适应滤波器在收敛后的参数(coefficients),可估计出本地会场的空间脉冲响应。自适应滤波器在收敛后的参数可包括多个子频带的参数,如子频带F_1、子频带F_2、…、子频带F_N,因此,自适应滤波器可在子频带(subband)中估计脉冲响应信号。
相应的,步骤S205可包括如下子步骤:
步骤S2051:通过所述衰减模型,根据多个子频带的空间脉冲响应信号,确定多个子频带的混响时间。
在一个示例中,步骤S2051可包括如下子步骤:
步骤S2051-1:通过所述衰减模型,根据所述子频带的空间脉冲响应信号,确定所述子频带的衰减系数。
在一个示例中,为了防止直达声/前期反射声和底噪对于衰减模型的影响,所述衰减模型可考虑直达声/前期反射声能量和底噪能量,以提升混响检测的鲁棒性。所述衰减模型,可表示为公式:
其中,w表示衰减系数,t表示语音帧的时间,Eearly表示前期反射声能量,Enoise表示环境噪声能量,α表示幂系数。通过引入幂系数α(一般小于1),可防止比较低的底噪能量来占据拟合公式主导,通常取0.4~0.5,这也是符合人耳对于响度的感知规律的。
具体实施时,步骤S2051-1可包括如下子步骤:
步骤S2051-1-1:根据所述子频带的空间脉冲响应信号,确定环境噪声能量和前期反射声能量。
所述前期反射声能量,包括语音信号能量,具体而言,前期反射声包括声源到声音接收器(如麦克风)的直达声和一般少于50毫秒的反射声。
在本实施例中,可根据头部多个语音帧的能量,确定前期反射声能量。所述前期反射声能量,可表示为如下公式:
所述环境噪声能量,又称为底噪能量。在本实施例中,可根据尾部多个语音帧的能量,确定环境噪声能量。所述环境噪声能量,可表示为如下公式:
对于待处理的L个语音帧,L表示实时语音流的处理步长,如L为25~30个语音帧,在每个子频带上,L个语音帧的自适应滤波器参数,即空间脉冲响应信号包括hr[l]和hi[l]两部分。其中,r表示空间脉冲响应信号的实部,i表示虚部,l表示第l帧,每帧语音的长度可以为10毫秒或者20毫秒等。所述空间脉冲响应信号的能量绝对值可表示为如下公式:
具体实施时,可根据多个子频带的所述空间脉冲响应信号的能量绝对值的最大值,进行归一化处理,如公式:
步骤S2051-1-3:根据环境噪声能量和前期反射声能量,确定所述子频带的衰减系数。
具体实施时,可根据环境噪声能量、前期反射声能量和幂系数,确定所述衰减模型的多个子频带的衰减系数。在本实施例中,通过非线性最小二乘拟合来求出衰减系数w,如公式:
该公式表示L个语音帧的所述空间脉冲响应信号的能量参数(|h[l]|)的均值在时间轴l内符合指数衰变。该模型符合空间声学传播原理,在子频带和全频带都成立。
步骤S2051-3:根据所述子频带的衰减系数,确定所述子频带的混响时间。
随着每个子频带的衰减系数 w的确定,每个子频带的混响时间(如RT60)可采用如下方式确定:
其中,混响时间的单位可以是秒。
步骤S2053:根据多个子频带的混响时间,确定全频带的混响时间。
在确定每个子频带的混响时间后,就可以根据所有子频带的混响时间,确定全频带的混响时间。具体实施时,可将多个子频带的混响时间的统计值,作为全频带的混响时间。所述统计值,可以是多个子频带的混响时间的均值等。例如,采用如下公式:
其中,所述多个子频带可在语音频段范围内,低频flow=300HZ,高频fhigh=4000HZ。
本申请实施例提供的方法,通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号;通过所述衰减模型,根据多个子频带的空间脉冲响应信号,确定多个子频带的混响时间;根据多个子频带的混响时间,确定全频带的混响时间。采用这种处理方式,可获得本地会场在不同频带的混响时间,从而进行下一步的算法优化或是针对某些频带的声学优化改造,如增加一些吸音材料等。
从上述实施例可见,本申请实施例提供的混响检测方法,基于音视频会议设备的语音通信模块中的自适应滤波器对空间脉冲响应参数进行估计,并借助指数衰减模型,根据空间脉冲响应信号,自动计算房间的混响时间。该方法结合现有语音通信模块估计房间混响时间,计算量小,性能可靠,可以有效提升混响时间检测的实时性,可用于专递课堂、音视频会议系统等。
第二实施例
在上述的实施例中,提供了一种混响检测方法,与之相对应的,本申请还提供一种混响检测装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种混响检测装置,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
滤波单元,用于通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应参数;
混响时间确定单元,用于通过指数式衰减模型,根据所述空间脉冲响应参数,确定环境混响时间。
可选的,所述滤波单元具体用于通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号;
所述混响时间确定单元包括:
子频带混响时间确定子单元,用于通过所述衰减模型,根据多个子频带的空间脉冲响应信号,确定多个子频带的混响时间;
全频带混响时间确定子单元,用于根据多个子频带的混响时间,确定全频带的混响时间。
可选的,所述子频带混响时间确定子单元包括:
衰减系数确定子单元,用于通过所述衰减模型,根据所述子频带的空间脉冲响应信号,确定所述子频带的衰减系数;
混响时间计算子单元,用于根据所述子频带的衰减系数,确定所述子频带的混响时间。
可选的,所述衰减系数确定子单元包括:
能量计算子单元,用于根据所述子频带的空间脉冲响应信号,确定环境噪声能量和前期反射声能量;
衰减系数计算子单元,用于根据环境噪声能量和前期反射声能量,确定所述子频带的衰减系数。
可选的,所述衰减系数计算子单元具体用于根据环境噪声能量、前期反射声能量和幂系数,确定所述衰减模型的多个子频带的衰减系数。
可选的,所述能量计算子单元包括:
语音帧能量计算子单元,用于根据所述子频带的空间脉冲响应信号,确定所述子频带上多个语音帧的能量;
前期反射声能量计算子单元,用于根据头部多个语音帧的能量,确定前期反射声能量;
底噪能量计算子单元,用于根据尾部多个语音帧的能量,确定环境噪声能量。
可选的,所述全频带混响时间确定子单元具体用于确定多个子频带的混响时间的均值,作为全频带的混响时间。
可选的,所述多个子频带在语音频段范围内。
第三实施例
在上述的实施例中,提供了一种混响检测方法,与之相对应的,本申请还提供一种回声消除方法。该方法是与上述方法的实施例相对应。由于方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请另外提供一种回声消除方法,包括:
步骤1:通过声音采集装置,采集第一声音信号;
步骤2:根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号和第一回声消除信号;
步骤3:根据所述空间脉冲响应信号,确定环境混响时间;
步骤4:根据环境混响时间,对第一回声消除信号执行滤波处理,得到第二回声信号。
如图1所示,在回声消除应用场景中,可先通过本地会议终端上的现有回声消除装置(包括自适应滤波器)对本地会场的第一声音信号进行回声消除处理,同时,可根据自适应滤波器在收敛后的参数,估计本地会场的空间脉冲响应信号;然后,通过本地会议终端的混响检测模型,根据空间脉冲响应信号,确定衰减系数,再根据衰减系数确定混响时间;再通过回声消除装置中的后滤波单元,根据混响时间,对初步消除回声的信号进行进一步的回声消除处理;最后,将优化的回声消除信号发送至远端会场。
从上述实施例可见,本申请实施例提供的回声消除方法,基于音视频会议设备的语音通信模块中的自适应滤波器对空间脉冲响应参数进行估计,同时对现场采集的声音信号进行回声抑制处理;借助指数衰减模型,根据空间脉冲响应信号,自动计算房间的混响时间;然后,根据混响时间,对通过自适应滤波器得到的回声抑制信号进行进一步的滤波处理,得到优化的回声抑制信号。该方法结合现有语音通信模块估计房间混响时间,计算量小,性能可靠,可以有效提升混响时间检测的实时性,从而提升回声消除效果。
第四实施例
在上述的实施例中,提供了一种回声消除方法,与之相对应的,本申请还提供一种回声消除装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种回声消除装置,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
第一滤波单元,用于根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号和第一回声消除信号;
混响时间确定单元,用于根据所述空间脉冲响应信号,确定环境混响时间;
第二滤波单元,用于根据环境混响时间,对第一回声消除信号执行滤波处理,得到第二回声消除信号。
第五实施例
在上述的实施例中,提供了一种混响检测方法,与之相对应的,本申请还提供一种去混响处理方法。该方法是与上述设备的实施例相对应。由于方法实施例基本相似于设备实施例,所以描述得比较简单,相关之处参见设备实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请另外提供一种去混响处理方法,包括:
步骤1:通过声音采集装置,采集第一声音信号;
步骤2:根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号;
步骤3:根据所述空间脉冲响应信号,确定环境混响时间;
步骤4:根据环境混响时间,判断是否执行去混响处理。
如图5所示,在去混响处理场景中,可先通过本地会议终端上的现有回声消除装置中的自适应滤波器对本地会场的第一声音信号进行回声消除处理,同时,可根据自适应滤波器在收敛后的参数,估计本地会场的空间脉冲响应信号;然后,通过本地会议终端的混响检测模型,根据空间脉冲响应信号,确定衰减系数,再根据衰减系数确定混响时间;然后,可根据混响时间,判断是否执行去混响处理。例如,如果混响时间大于或者等于混响时间阈值,则通过智能去混响装置,执行去混响处理,最终将去混响的回声消除信号发送至远端会场;如果混响时间小于混响时间阈值,则直接回声消除信号发送至远端会场。
所述智能去混响处理是基于人工智能技术实现的去混响处理。由于智能去混响处理属于较为成熟的现有技术,因此此处不再赘述。
从上述实施例可见,本申请实施例提供的去混响处理方法,基于音视频会议设备的语音通信模块中的自适应滤波器对空间脉冲响应参数进行估计,同时对现场采集的声音信号进行回声抑制处理;借助指数衰减模型,根据空间脉冲响应信号,自动计算房间的混响时间;然后,根据混响时间,判断是否执行去混响处理。该方法结合现有语音通信模块估计房间混响时间,计算量小,性能可靠,可以有效提升混响时间检测的实时性,从而提升去混响处理的效果。
第六实施例
在上述的实施例中,提供了一种去混响处理方法,与之相对应的,本申请还提供一种去混响处理装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种去混响处理装置,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
滤波单元,用于根据第一声音信号和扬声器播放的第二声音信号,确定空间脉冲响应信号;
混响时间确定单元,用于根据所述空间脉冲响应信号,确定环境混响时间;
判断单元,用于根据环境混响时间,判断是否执行去混响处理。
第七实施例
在上述的实施例中,提供了一种混响检测方法、回声消除方法、去混响处理方法,与之相对应的,本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种电子设备,包括:扬声器;麦克风;处理器;以及存储器。其中,存储器用于存储实现上述任一项方法的程序,该终端通电并通过所述处理器运行该方法的程序。
所述电子设备,可以是音视频会议终端,也可以是拾音设备。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (9)
1.一种混响检测方法,其特征在于,包括:
通过声音采集装置,采集待检测环境的第一声音信号;
通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号;
根据所述子频带的空间脉冲响应信号,确定多个语音帧的能量;根据头部多个语音帧的能量,确定前期反射声能量;根据尾部多个语音帧的能量,确定环境噪声能量;
通过指数式衰减模型,根据所述环境噪声能量、所述前期反射声能量和幂系数,确定所述子频带的衰减系数;所述衰减模型表示为:
其中,w表示衰减系数,t表示语音帧的时间,Eearly表示所述前期反射声能量,Enoise表示所述环境噪声能量,α表示幂系数;
根据所述衰减系数,确定所述子频带的混响时间;
根据多个子频带的混响时间,确定全频带的混响时间。
2.根据权利要求1的方法,其特征在于,所述根据多个子频带的混响时间,确定全频带的混响时间,包括:
确定多个子频带的混响时间的均值,作为全频带的混响时间。
3.根据权利要求1的方法,其特征在于,所述多个子频带在语音频段范围内。
4.一种回声消除方法,其特征在于,包括:
通过声音采集装置,采集第一声音信号;
根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号和第一回声消除信号;
根据所述子频带的空间脉冲响应信号,确定多个语音帧的能量;根据头部多个语音帧的能量,确定前期反射声能量;根据尾部多个语音帧的能量,确定环境噪声能量;
通过指数式衰减模型,根据所述环境噪声能量、所述前期反射声能量和幂系数,确定所述子频带的衰减系数;所述衰减模型表示为:
其中,w表示衰减系数,t表示语音帧的时间,Eearly表示所述前期反射声能量,Enoise表示所述环境噪声能量,α表示幂系数;
根据所述衰减系数,确定所述子频带的环境混响时间;
根据多个子频带的环境混响时间,确定全频带的环境混响时间;
根据全频带的环境混响时间,对第一回声消除信号执行滤波处理,得到第二回声消除信号。
5.一种去混响处理方法,其特征在于,包括:
通过声音采集装置,采集第一声音信号;
根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号;
根据所述子频带的空间脉冲响应信号,确定多个语音帧的能量;根据头部多个语音帧的能量,确定前期反射声能量;根据尾部多个语音帧的能量,确定环境噪声能量;
通过指数式衰减模型,根据所述环境噪声能量、所述前期反射声能量和幂系数,确定所述子频带的衰减系数;所述衰减模型表示为:
其中,w表示衰减系数,t表示语音帧的时间,Eearly表示所述前期反射声能量,Enoise表示所述环境噪声能量,α表示幂系数;
根据所述衰减系数,确定所述子频带的环境混响时间;
根据多个子频带的环境混响时间,确定全频带的环境混响时间;
根据全频带的环境混响时间,判断是否执行去混响处理。
6.一种混响检测装置,其特征在于,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
滤波单元,用于通过自适应滤波器,根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应参数;
混响时间确定单元,用于根据所述子频带的空间脉冲响应信号,确定多个语音帧的能量;根据头部多个语音帧的能量,确定前期反射声能量;根据尾部多个语音帧的能量,确定环境噪声能量;通过指数式衰减模型,根据所述环境噪声能量、所述前期反射声能量和幂系数,确定所述子频带的衰减系数;根据所述衰减系数,确定所述子频带的环境混响时间;根据多个子频带的混响时间,确定全频带的混响时间;所述衰减模型表示为:
其中,w表示衰减系数,t表示语音帧的时间,Eearly表示所述前期反射声能量,Enoise表示所述环境噪声能量,α表示幂系数。
7.一种回声消除装置,其特征在于,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
第一滤波单元,用于根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号和第一回声消除信号;
混响时间确定单元,用于根据所述子频带的空间脉冲响应信号,确定多个语音帧的能量;根据头部多个语音帧的能量,确定前期反射声能量;根据尾部多个语音帧的能量,确定环境噪声能量;通过指数式衰减模型,根据所述环境噪声能量、所述前期反射声能量和幂系数,确定所述子频带的衰减系数;根据所述衰减系数,确定所述子频带的环境混响时间;根据多个子频带的环境混响时间,确定全频带的环境混响时间;所述衰减模型表示为:
其中,w表示衰减系数,t表示语音帧的时间,Eearly表示所述前期反射声能量,Enoise表示所述环境噪声能量,α表示幂系数;
第二滤波单元,用于根据全频带的环境混响时间,对第一回声消除信号执行滤波处理,得到第二回声消除信号。
8.一种去混响处理装置,其特征在于,包括:
信号采集单元,用于通过声音采集装置,采集第一声音信号;
滤波单元,用于根据第一声音信号和扬声器播放的第二声音信号,确定多个子频带的空间脉冲响应信号;
混响时间确定单元,用于根据所述子频带的空间脉冲响应信号,确定多个语音帧的能量;根据头部多个语音帧的能量,确定前期反射声能量;根据尾部多个语音帧的能量,确定环境噪声能量;通过指数式衰减模型,根据所述环境噪声能量、所述前期反射声能量和幂系数,确定所述子频带的衰减系数;根据所述衰减系数,确定所述子频带的环境混响时间;根据多个子频带的环境混响时间,确定全频带的环境混响时间;所述衰减模型表示为:
其中,w表示衰减系数,t表示语音帧的时间,Eearly表示所述前期反射声能量,Enoise表示所述环境噪声能量,α表示幂系数;
判断单元,用于根据全频带的环境混响时间,判断是否执行去混响处理。
9.一种会议设备,其特征在于,包括:
扬声器;
麦克风;
处理器;以及
存储器,用于存储实现根据权利要求1-5任一项所述方法的程序,会议终端通电并通过所述处理器运行该方法的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111285445.5A CN113726969B (zh) | 2021-11-02 | 2021-11-02 | 混响检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111285445.5A CN113726969B (zh) | 2021-11-02 | 2021-11-02 | 混响检测方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113726969A CN113726969A (zh) | 2021-11-30 |
CN113726969B true CN113726969B (zh) | 2022-04-26 |
Family
ID=78686377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111285445.5A Active CN113726969B (zh) | 2021-11-02 | 2021-11-02 | 混响检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113726969B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103262163A (zh) * | 2010-10-25 | 2013-08-21 | 弗兰霍菲尔运输应用研究公司 | 包含晚期混响成分的模型化的回声抑制技术 |
CN106031197A (zh) * | 2014-02-17 | 2016-10-12 | 歌拉利旺株式会社 | 声学处理设备、声学处理方法及声学处理程序 |
CN106233751A (zh) * | 2014-04-14 | 2016-12-14 | 雅马哈株式会社 | 声音发射和采集装置及声音发射和采集方法 |
CN107071636A (zh) * | 2016-12-29 | 2017-08-18 | 北京小鸟听听科技有限公司 | 对带麦克风的设备的去混响控制方法和装置 |
CN111711914A (zh) * | 2020-06-15 | 2020-09-25 | 杭州艾力特数字科技有限公司 | 一种具有混响时间测量功能的扩声系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
US9386373B2 (en) * | 2012-07-03 | 2016-07-05 | Dts, Inc. | System and method for estimating a reverberation time |
US9088336B2 (en) * | 2012-09-06 | 2015-07-21 | Imagination Technologies Limited | Systems and methods of echo and noise cancellation in voice communication |
US9508359B2 (en) * | 2014-06-19 | 2016-11-29 | Yang Gao | Acoustic echo preprocessing for speech enhancement |
-
2021
- 2021-11-02 CN CN202111285445.5A patent/CN113726969B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103262163A (zh) * | 2010-10-25 | 2013-08-21 | 弗兰霍菲尔运输应用研究公司 | 包含晚期混响成分的模型化的回声抑制技术 |
CN106031197A (zh) * | 2014-02-17 | 2016-10-12 | 歌拉利旺株式会社 | 声学处理设备、声学处理方法及声学处理程序 |
CN106233751A (zh) * | 2014-04-14 | 2016-12-14 | 雅马哈株式会社 | 声音发射和采集装置及声音发射和采集方法 |
CN107071636A (zh) * | 2016-12-29 | 2017-08-18 | 北京小鸟听听科技有限公司 | 对带麦克风的设备的去混响控制方法和装置 |
CN111711914A (zh) * | 2020-06-15 | 2020-09-25 | 杭州艾力特数字科技有限公司 | 一种具有混响时间测量功能的扩声系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113726969A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8842851B2 (en) | Audio source localization system and method | |
WO2018188282A1 (zh) | 回声消除方法、装置、会议平板及计算机存储介质 | |
CA2527461C (en) | Reverberation estimation and suppression system | |
CN110648678B (zh) | 一种用于具有多麦克风会议的场景识别方法和系统 | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
US11297178B2 (en) | Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters | |
JP6703525B2 (ja) | 音源を強調するための方法及び機器 | |
CN108630219B (zh) | 回声抑制音频信号特征跟踪的处理系统、方法及装置 | |
US20090238373A1 (en) | System and method for envelope-based acoustic echo cancellation | |
JP2013506878A (ja) | オーディオ信号の雑音抑制 | |
US11317233B2 (en) | Acoustic program, acoustic device, and acoustic system | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
CN113241085B (zh) | 回声消除方法、装置、设备及可读存储介质 | |
CN111078185A (zh) | 录制声音的方法及设备 | |
US20230026347A1 (en) | Methods for reducing error in environmental noise compensation systems | |
CN109215672B (zh) | 一种声音信息的处理方法、装置及设备 | |
JP2023133472A (ja) | ギャップ信頼度を用いた背景雑音推定 | |
CN108540680B (zh) | 讲话状态的切换方法及装置、通话系统 | |
CN112929506B (zh) | 音频信号的处理方法及装置,计算机存储介质及电子设备 | |
CN113726969B (zh) | 混响检测方法、装置及设备 | |
EP3830823B1 (en) | Forced gap insertion for pervasive listening | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP2002064617A (ja) | 反響抑圧方法・反響抑圧装置 | |
KR20220157475A (ko) | 반향 잔류 억제 | |
WO2017171864A1 (en) | Acoustic environment understanding in machine-human speech communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |