CN114242101A - 用于语音交互系统的回声消除方法及电子设备和存储介质 - Google Patents
用于语音交互系统的回声消除方法及电子设备和存储介质 Download PDFInfo
- Publication number
- CN114242101A CN114242101A CN202111559446.4A CN202111559446A CN114242101A CN 114242101 A CN114242101 A CN 114242101A CN 202111559446 A CN202111559446 A CN 202111559446A CN 114242101 A CN114242101 A CN 114242101A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- echo
- signal
- echo cancellation
- cancellation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 145
- 238000011156 evaluation Methods 0.000 claims abstract description 34
- 230000003993 interaction Effects 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 12
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000001427 coherent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
本公开涉及用于语音交互系统的回声消除方法及电子设备和存储介质。该回声消除方法包括:对语音交互系统进行调音以获得回声延时;以及采用所述回声延时对语音交互系统中的拾取音频信号进行处理以去除回声,其中,所述调音包括:采用校验比特流进行数字频率调制以生成参考音频信号;采用所述参考音频信号进行测试以获取回声延时;以及根据评估参数动态调节数字频率调制参数以及重复测试步骤,直至所述评估参数合格。该回声消除方法根据评估参数动态调节数字频率调制参数,以提高回声消除方法在复杂环境中的可靠性和改善回声消除效果。
Description
技术领域
本公开涉及音频信号处理技术领域,更具体地,涉及用于语音交互系统的回声消除方法及电子设备和存储介质。
背景技术
在移动电话、电话会议等语音交互场景中,多个用户分别使用麦克风拾取近端语音以及采用扬声器播放远端语音。近端用户的麦克风不仅拾取自己的语音,而且还拾取了扬声器播放的远端用户的语音并且发送回远端用户。远端用户不仅听到近端用户的语音,还会听到自己的语音。声学回声严重影响了用户的语音交互体验。
声学回声是扬声器播放出来的声音由麦克风拾取后发送回对端的现象。声学回声又分为直接回声和间接回声。直接回声是指扬声器播放出的声音未经任何反射直接进入麦克风。直接回声的延迟短,与远端说话者的语音能量,扬声器与话筒之间的距离、角度、扬声器的播放音量以及话筒的拾取灵敏度等因素相关。间接回声是指扬声器播放的声音经不同的回声路径一次或多次反射后进入麦克风所产生的回声集合。
声学回声消除是从麦克风拾取的语音信号中减去回声信号。参见图1,回声消除系统包括:延时估计、线性回声消除、双端讲话检测和残余回声消除等模块。声学回声与原始语音的差别不仅包括近端用户的扬声器的非线性特性产生的失真,还有近端用户的房间系统的响应。回声消除算法主要是采用自适应滤波器模拟回声路径,并使其冲激响应与实际回声路径尽可能的接近,从而得到回声信号的估计值,再将该估计值从近端拾取的语音信号中减去即可实现回声的消除。声学回声消除是语音交互场景中不可或缺的模块。
在语音交互系统中,已经采用的回声消除方法包括实时回声消除和调音回声消除。在实时回声消除方法中,根据实时语音通信的近端信号与参考信号的比较获得延时参数。在调音回声消除方法中,在实时语音通信之前,对实际环境进行调音以获得延时参数。与实时回声消除相比,采用调音回声消除获得延时参数不仅准确性更高,而且在语音通信阶段无需耗时计算延时参数,对音频信号的处理速度更快,因此可以获得更好的回声消除效果。
对于深度学习的回声消除算法,延时估计是影响回声消除效果的重要因素。现有的回声消除方法,在环境噪声过大和/或延时时间过长的复杂环境中还存在着延时估计错误的问题,导致回声消除效果欠佳。
发明内容
鉴于上述问题,本公开的目的在于提供用于语音交互系统的回声消除方法及电子设备和存储介质,其中,采用校验比特流调制的参考音频信号进行测试,根据评估参数动态调节数字频率调制参数,以提高回声消除方法在复杂环境中的可靠性和改善回声消除效果。
根据本发明的第一方面,提供一种用于语音交互系统的回声消除方法,包括:对语音交互系统进行调音以获得回声延时;以及采用所述回声延时对语音交互系统中的拾取音频信号进行处理以去除回声,其中,所述调音包括:采用校验比特流进行数字频率调制以生成参考音频信号;采用所述参考音频信号进行测试以获取回声延时;以及根据评估参数动态调节数字频率调制参数以及重复测试步骤,直至所述评估参数合格。
优选地,还包括:在扬声器的驱动电路中,采集所述扬声器的驱动信号以获取所述参考音频信号;以及在麦克风的信号处理电路中,采集所述麦克风的拾取信号以获取所述拾取音频信号。
优选地,所述获取回声延时的步骤包括:对所述参考音频信号进行解调,以获得所述校验比特流在所述参考音频信号中的时间位置作为开始时刻;对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及根据所述开始时刻和所述到达时刻的差获得所述回声延时。
优选地,所述获取回声延时的步骤包括:根据所述扬声器播放实时生成的音频数据的时刻估算开始时刻;对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及根据所述开始时刻和所述到达时刻之间的差值获得所述回声延时。
优选地,对所述参考音频信号和所述所述拾取音频信号至少之一进行解调以获得接收比特流,以及,根据接收比特流与校验比特流的相似性,获取所述校验比特流在相应音频信号中的时间位置。
优选地,根据评估参数动态调节数字频率调制参数的步骤包括:将所述评估参数与相应阈值相比较;以及根据比较结果改变所述调制参数的数值。
优选地,所述评估参数包括回声延时的时间长度、音频信号的误码率、音频信号的信噪比、音频信号的混响时间至少之一。
优选地,在所述回声延时大于相应阈值的情形下,增大所述校准比特流的时间长度。
优选地,增大所述校准比特流的时间长度包括:增大所述校准比特流的数据长度,和/或,减小调制信号的波特率。
优选地,在所述音频信号的误码率大于相应阈值的情形下,减小调制信号的波特率。
优选地,对所述参考音频信号进行解调以获得第一比特流,对所述所述拾取音频信号进行解调以获得第二比特流,以及,对所述第一比特流和所述第二比特流进行相似性计算,以获得所述音频信号的误码率。
优选地,在所述音频信号的信噪比小于相应阈值的情形下,减小载波频率和数字频率至少之一。
优选地,计算所述拾取音频信号的调制信号强度和空白信号强度的比值,以获得音频信号的信噪比。
优选地,在采用校验比特流进行数字频率调制以生成参考音频信号之前,所述调音还包括:采用模拟音频信号进行测试以获取回声延时;以及根据评估参数动态调节数字频率调制参数。
根据本发明的第二方面,提供一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现上述方法的步骤。
根据本发明的第三方面,提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现上述方法的步骤。
在本实施例中,采用数字频率调制信号作为参考音频信号,采用参考音频信号进行测试以获取回声延时,以及根据评估参数动态调节数字频率调制参数。一方面,该回声消除方法利用数字频率调制的抗干扰性能和抗信道损耗性能,因此,可以应用于语音交互系统的复杂环境且提高可靠性。另一方面,该回声消除方法根据评估参数动态调节数字频率调制参数,因此,可以在语音交互系统的复杂环境下提高回声延时的测量值的准确性且改善回声消除效果。
附图说明
图1示出在语音交互场景中回声消除系统的示意性框图。
图2示出根据现有技术的回声消除方法的流程图。
图3示出在回声消除的调音阶段参考信号和拾取信号的信号波形。
图4示出根据本公开第一实施例的回声消除方法的流程图。
图5示出图4所示回声消除方法中获取回声延时的详细步骤。
图6示出采用校验比特流对载波进行数字频率调制获得的调制信号波形。
图7示出校验比特流的数据结构。
图8示出对调制信号进行相干解调的解调器的示意性框图。
图9示出图4所示回声消除方法中动态调节数字频率调制参数的详细步骤。
图10示出根据本公开第三实施例的用于回声消除的电子设备的示意性框图。
具体实施方式
为了便于理解本公开,下面将参照相关附图对本公开进行更全面的描述。附图中给出了本公开的较佳实施例。但是,本公开可以通过不同的形式来实现,并不限于本文所描述的实施例。相反的,提供这些实施例的目的是使对本公开的公开内容的理解更加透彻全面。
在下文的描述中,除非另外说明,术语“用户”表示交互语音交互系统的任一端用户。
本发明人注意到,现有的语音交互系统在延时大的网络环境中回声消除效果不好,主要原因就是参考音频信号与拾取音频信号之间的回声延时估算错误。
本发明人提出将比特流调制进参考音频声音中形成特殊的调制信号,利用特殊调制信号来预先调音能更加精确的估算出参考音频信号和拾取音频信号之间的回声延时T,不仅可以简化回声延时的算法,而且在任意的延时长度范围内均可以获得准确的回声延时估算值,从而延时大的网络环境中也可以改善回声消除效果。
图2示出根据现有技术的回声消除方法的流程图。该回声消除方法包括调音阶段执行的步骤S01至S03,以及语音通信阶段执行的步骤S04。
用户的语音交互系统例如包括设置同一房间内的扬声器、麦克风,以及设置在或云端的音频处理系统。优选地,在用户的语音交互系统开机时执行调音阶段的各个步骤,以检测随周围环境变化的音频参数。
在步骤S01中,采用扬声器播放模拟音频信号。参考音频例如为白噪声信号,或者单频的高频信号,例如频率大于人耳可以听到的声音频率范围。在开始播放模拟音频信号时,记录开始时刻T1。
在步骤S02中,采用麦克风拾取模拟音频信号。该拾取声音包括扬声器的播放声音直接到达麦克风的声音以及经由回声路径一次或多次反射后到达麦克风的回声。
在步骤S03中,通过模拟音频信号与拾取音频信号的相似性计算回声延时。例如,对模拟音频信号与拾取音频信号的频谱能量进行相似性计算。或者,对麦克风的拾取音频信号进行循环的离散傅里叶变换FFT,当FFT计算结果中的频域上包含模拟音频信号的频率数值时,即认为拾取音频信号中包含模拟音频信号的回声。
采用相似性计算可以获得麦克风接收到模拟音频信号的到达时刻T2。音频交互系统的回声延时t表示为:t=T2-T1。
在步骤S04中,采用回声延时作为音频参数,采用自适应滤波器对麦克风的拾取音频信号进行数据处理以消除回声。例如,用户语音音频信号是麦克风的拾取音频信号减去回声音频信号估计值的差值。
然而,由于语音信号的时变特性,噪声的随机特性,基于相似性计算在估算回声延时t方面存在着错误的可能性。
参见图3,在回声延时t小于等于自适应滤波器长度τ时,如曲线b所示,模拟音频信号a和拾取音频信号b存在着相关性,可以通过计算信号相关性可以高效地估计出语音交互系统的回声延时t。在去除回声延时t之前的音频信号之后,拾取音频信号与模拟音频信号近似对齐。因此,在回声延时小于等于自适应滤波器长度τ时,语音交互系统可以高效工作以去除回声。
进一步地,在回声延时t大于自适应滤波器长度τ时,如曲线b’所示,此时,在自适应滤波器长度τ范围内,模拟音频信号a和拾取音频信号b’没有相关性,采用相似性计算语音交互系统的回声延时t将会产生错误。基于错误的回声延时t的估计值,对拾取音频信号进行处理无法与模拟音频信号对齐。因此,在回声延时大于自适应滤波器长度τ时,语音交互系统无法有效去除回声。
图4示出根据本公开第一实施例的回声消除方法的流程图。该回声消除方法包括调音阶段执行的步骤S11至S14,以及语音通信阶段执行的步骤S15。
用户的语音交互系统例如包括设置同一房间内的扬声器、麦克风,以及设置在或云端的音频处理系统。优选地,在用户的语音交互系统开机时执行调音阶段的各个步骤,以检测随周围环境变化的音频参数。
在步骤S11中,设置数字频率调制参数。
数字频率调制是利用基带数字信号控制载波频率的变化来传输数字信息的一种调制形式。在本实施例中,数字频率调制参数包括载波频率、数字频率、基带数字信号的波特率和数据长度中的至少一种。
在步骤S12中,根据数字频率调制参数生成参考音频信号。
数字频率调制例如包括频率键控法和直接调频法。在频率键控法中,两个分别产生正弦振荡的独立振荡器经由数字基带信号控制的电子开关后,选出的高频振荡信号就是数字调制信号。在直接调频法中,利用数字基带信号直接控制载频振荡器的振荡频率。
参见图6,在数字频率调制中,采用的载波为正弦波信号。采用预定的校验比特流作为基带数字信号控制载波频率。利用正弦波的中的两个频率Fc1和fc2分别表示二进制数字1或数字0。频率Fc1和fc2例如分别是2200Hz和1200Hz,比特率例如为1200bps。
参见图7,校验比特流例如包括同步数据和校验数据。同步数据例如包括600个比特的同步标志,同步标志例如由交替的二进制数字1和0组成。校验数据例如包括650个比特的二进制数字,包括依次传送的开始标志、消息字符串、校验字符、以及结束标志。
在检验数据中,开始标志例如由200个比特的连续的二进制数字1组成,结束标志例如由40个比特的连续二进制数字1组成,消息字符串例如由400个比特的连续二进制数字组成,其中,包括40个ACSII字符“0123456789”。每个ASCII字符占据10bit,每个ASCII字符的起始位是“1”,中间八位是信息,结束位为“0”。校验字符例如由10个比特的连续二进制数字组成,其中,起始位是“1”,中间八位是校验字符的比特值,结束位为“0”。在校验比特流的所有数据(包括校验字符)和按256的模求和为00时,则证明收到的数据完全正确。
在步骤S13中,采用参考音频信号进行测试以获取回声延时。
在该步骤中,采用扬声器播放参考音频的声音,采集麦克风的拾取信号以获取拾取音频信号,根据参考音频信号和拾取音频信号中的所述校验比特流的时间位置计算回声延时。
在步骤S14中,根据测试数据计算评估参数,以及判断评估参数是否合格。
在该步骤中,评估参数包括延时长度、音频信号的误码率和信噪比中的至少一种。
在该步骤中,如果评估参数不合格,则返回至步骤S11,重复步骤S11至S14,重新设置数字频率调制参数以获取新的回声延时和评估参数计算值。
在该步骤中,如果评估参数合格,则将回声延时的计算值作为测量值,进一步执行步骤S15。
在步骤S15中,采用回声延时作为音频参数,采用自适应滤波器对麦克风的拾取音频信号进行数据处理以消除回声。例如,用户语音音频信号是麦克风的拾取音频信号减去回声音频信号估计值的差值。
在本实施例中,采用数字频率调制信号作为参考音频信号,采用参考音频信号进行测试以获取回声延时,以及根据评估参数动态调节数字频率调制参数。一方面,该回声消除方法利用数字频率调制的抗干扰性能和抗信道损耗性能,因此,可以应用于语音交互系统的复杂环境且提高可靠性。另一方面,该回声消除方法根据评估参数动态调节数字频率调制参数,因此,可以在语音交互系统的复杂环境下提高回声延时的测量值的准确性且改善回声消除效果。
在本实施例中,用于测试的参考音频信号为数字频率调制信号,以及基于参考音频信号的测试数据获取评估参数。在替代的实施例中,还将模拟音频信号和参考音频信号相结合,按照图2所示的步骤S01至S03,将模拟音频信号用于测试以获取评估参数,以及进一步将参考音频信号用于测试以获取评估参数。
图5示出图4所示回声消除方法中获取回声延时的详细步骤。
在步骤S21中,采用扬声器播放参考音频的声音。如上所述,参考音频例如为经过数字频率调制的正弦波信号。
在本实施例中,参考音频例如是预先生成和存储的音频文件,在下文所述的音频信号处理步骤中获得开始时刻T1。在替代的实施例中,参考音频例如是实时生成的音频数据,在开始播放参考音频的声音时,记录开始时刻T1。
在步骤S22中,获取参考音频信号的播放信号和拾取音频信号。例如,在扬声器的驱动电路中采集驱动信号以获取参考音频信号的播放信号,在麦克风的信号处理电路中采集麦克风的拾取信号以获取拾取音频信号。麦克风拾取的声音包括扬声器的播放声音直接到达麦克风的声音以及经由回声路径一次或多次反射后到达麦克风的回声。
在步骤S231和S232中,从参考音频信号和拾取音频信号中分别解调出第一比特流A和第二比特流B。
用于对调制信号进行相干解调的解调器的电路结构和工作原理是已知的。参见图8,解调器100包括带通滤波器111和112、乘法器113和114、低通滤波器115和116、以及抽样判决器118。带通滤波器111的中心频率fc1对应于二进制数字1,带通滤波器112的中心频率fc2对应于二进制数字0。带通滤波器111和112将调制信号分为两路信号,分别是二进制数字1相对应的第一信号和二进制数字0相对应的第二信号。乘法器113将第一信号与相干参考信号相乘,经过低通滤波器115提取随时间变化的第一信号幅度和相位。乘法器114将第二信号与相干参考信号相乘,经过低通滤波器116提取随时间变化的第二信号幅度和相位。抽样判决器118获取第一信号幅度和第二信号幅度在同一相位的抽样信号,对第一信号幅度和第二信号幅度进行比较以判断相应相位的二进制数字的数值。
在步骤S231中,从参考音频信号中解调出第一比特流A。在步骤S241中,从拾取音频信号中解调出第二比特流B。
在本实施例中,参考音频信号和拾取音频信号均为实时采集的模拟信号。由于信号处理电路的延时和信号失真,以及环境的回声路径差异、以及环境噪声干扰等因素的影响,从参考音频信号中解调出的第一比特流A与从拾取音频信号中解调出的第二比特流B不完全一致,然而,第一比特流A和第二比特流B均包含校验比特流V。
在步骤S241中,根据第一比特流A与校验比特流的相似性,获取参考音频信号中第一比特流A的时间位置。在步骤S242中,根据第二比特流B与校验比特流的相似性,获取拾取音频信号中第二比特流B的时间位置。
计算第一比特流A与校验比特流V的相似性,获得最相似条件下的第一比特流A在参考音频信号中的时间位置,获得开始时刻T1。
计算第二比特流B与校验比特流V的相似性,获得最相似条件下的第二比特流B在拾取音频信号号中的时间位置,获得到达时刻T2。
在步骤S25中,根据第一时间位置和第二时间位置的差值计算回声延时。
在该步骤中,音频交互系统的回声延时t表示为:t=T2-T1。
在本实施例中,采用数字频率调制,将校验比特流调制进参考音频声音中形成特殊的调制信号,在回声消除的调音阶段获取参考音频信号的播放信号和拾取音频信号,在解调后分别获得校验比特流在参考音频信号的播放信号和拾取音频信号中的时间位置,从而可以计算出音频交互系统的回声延时。由于数字频率调制的抗干扰性能和抗信道损耗性能,该回声消除方法可以应用于语音交互系统的复杂环境且提高可靠性。
进一步地,该回声消除方法中的解调器主要执行乘法计算,无需对音频信号的频谱能量进行相似性计算,也无需对音频信号进行离散傅里叶变换FFT,因此,可以简化回声延时的算法。如果真实延时越长,则简化的计算量越多。
进一步地,通过参考音频信号与拾取音频信号的校验比特流的时间位置计算回声延时,该时间位置的精度取决于校验比特流的比特率,因而,回声延时的时间精度也取决于校验比特流的比特率。在比特率例如为1200bps的情形下,时间精度大约是0.84ms(1000ms/1200bit)。如果采用更高的波特率,则可以获得更高的时间精度。因此,该回声消除方法可以提高回声延时计算的时间精度。对于小延时的音频交互系统,该回声消除方法也能计算出准确的回声延时,从而改善回声消除效果。
进一步地,在计算出准确的回声延时之后,可以大幅削减自适应滤波器的长度τ,从而降低自适应难度,同时减小计算量。对于大延时的网络环境,该回声消除方法也能计算出准确的回声延时,从而改善回声消除效果。
图9示出图4所示回声消除方法中动态调节数字频率调制参数的详细步骤。在动态调节数字频率调制参数的步骤中,根据多个评估参数的数值调节多个调制参数。
在步骤S31中,采用校准比特流调制的参考音频信号进行测试以计算回声延时t1(参见图5所示的步骤S21至S25)。
在步骤S32中,将计算出的回声延时t1与预设的时间阈值Tht相比较,以判断回声延时t1是否过长。
如果回声延时t1大于等于时间阈值Tht,则执行步骤S33,其中,增大校准比特流V的时间长度。例如,用于增大校准比特流V的时间长度的方法包括:增大校准比特流V的数据长度,和/或,减小调制信号的波特率。然后,重复步骤S31和S32,重新计算回声延时t2以及判断回声延时t2是否过长。
如果回声延时t1或t2小于时间阈值Tht,则继续执行步骤S34。
在步骤S34中,根据测试数据计算误码率e1,将计算出的误码率e1与预设的误码率阈值The相比较,以判断误码率e1是否过高。
在该步骤中,采用校准比特流调制的参考音频信号进行测试,在获取参考音频信号中第一比特流的时间位置和拾取音频信号中第二比特流的时间位置之后,基于时间位置分别获取第一比特流A和第二比特流B。对第一比特流A和第二比特流B进行相似性计算,以获得音频信号的误码率e1。
如果误码率e1大于等于时间阈值The,则执行步骤S35,其中,减小调制信号的波特率。然后,重复步骤S31和S34,重新计算误码率e2以及判断误码率e2是否过高。
如果误码率e1或e2小于时间阈值The,则继续执行步骤S36。
在步骤S36中,根据测试数据计算信噪比s1,将计算出的信噪比s1与预设的信噪比阈值Ths相比较,以判断信噪比s1是否过高。
在该步骤中,采用校准比特流调制的参考音频信号进行测试,在获取拾取音频信号之后,计算拾取音频信号的调制信号强度和空白信号强度的比值,以获得音频信号的信噪比s1。
如果信噪比s1小于信噪比阈值Ths,则执行步骤S37,其中,减小载波频率和数字频率至少之一。然后,重复步骤S31和S36,重新计算信噪比s2以及判断信噪比s2是否过低。
如果信噪比s1或s2大于等于信噪比阈值Ths,则继续执行步骤S38。
在步骤S38中,将回声延时的计算值保存为回声消除算法的音频参数。
在本实施例中,描述了在调音阶段根据音频信号的评估参数动态调节数字频率调制参数的详细步骤,其中,评估参数包括回声延时的时间长度、音频信号的误码率和信噪比,调制参数包括校准比特流的时间长度、调制信号的波特率、载波频率、数字频率。然而,本公开不限于此。根据音频交互系统的环境复杂程度,评估参数可以包括回声延时的时间长度、音频信号的误码率和信噪比中的一个或多个。进一步地,评估参数还可以包括附加的参数,例如音频信号的混响时间。
本公开实施例还提供了一种电子设备1300,如图10所示,包括存储器1310和处理器1320及存储在存储器1310上并可在处理器1320上运行的程序,该程序被处理器1320执行时可实现上述回声消除方法中各实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。当然,该电子设备还可以包括电源组件1330、网络接口1340和输入输出接口1350等辅助子设备。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读的可读存储介质中,并由处理器进行加载和执行。为此,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序或指令,该计算机程序或指令被处理器执行时可实现上述回声消除方法中各实施例的各个过程。其中,计算机可读存储介质,如U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
由于该可读存储介质中所存储的指令,可以执行本公开实施例所提供的任一种回声消除方法中的步骤,因此,可以实现本公开实施例所提供的任一种回声消除方法所能实现的有益效果,详见前面的实施例,在此不再赘述。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
需要说明的是,本说明书中在对各个实施例进行描述时,均重点说明的是与其他实施例的不同之处,而对于各个实施例之间相同或相似的部分可互相参考进行理解。对于系统实施例而言,由于其与方法实施例基本相似,因此相关之处可参考对方法实施例部分的说明。
此外,需要指出的是,在本公开的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本公开的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本公开所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本公开的保护范围之中。
Claims (14)
1.一种用于语音交互系统的回声消除方法,包括:
对语音交互系统进行调音以获得回声延时;以及
采用所述回声延时对语音交互系统中的拾取音频信号进行处理以去除回声,
其中,所述调音包括:
采用校验比特流进行数字频率调制以生成参考音频信号;
采用所述参考音频信号进行测试以获取回声延时;以及
根据评估参数动态调节数字频率调制参数以及重复测试步骤,直至所述评估参数合格。
2.根据权利要求1所述的回声消除方法,还包括:
在扬声器的驱动电路中,采集所述扬声器的驱动信号以获取所述参考音频信号;以及
在麦克风的信号处理电路中,采集所述麦克风的拾取信号以获取所述拾取音频信号。
3.根据权利要求1所述的回声消除方法,其中,所述获取回声延时的步骤包括:
对所述参考音频信号进行解调,以获得所述校验比特流在所述参考音频信号中的时间位置作为开始时刻;
对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及
根据所述开始时刻和所述到达时刻的差获得所述回声延时。
4.根据权利要求1所述的回声消除方法,其中,所述获取回声延时的步骤包括:
根据所述扬声器播放实时生成的音频数据的时刻估算开始时刻;
对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及
根据所述开始时刻和所述到达时刻之间的差值获得所述回声延时。
5.根据权利要求3或4所述的回声消除方法,其中,对所述参考音频信号和所述所述拾取音频信号至少之一进行解调以获得接收比特流,以及,根据接收比特流与校验比特流的相似性,获取所述校验比特流在相应音频信号中的时间位置。
6.根据权利要求3或4所述的回声消除方法,其中,根据评估参数动态调节数字频率调制参数的步骤包括:
将所述评估参数与相应阈值相比较;以及
根据比较结果改变所述调制参数的数值。
7.根据权利要求6所述的回声消除方法,其中,所述评估参数包括回声延时的时间长度、音频信号的误码率、音频信号的信噪比、音频信号的混响时间至少之一。
8.根据权利要求7所述的回声消除方法,其中,在所述回声延时大于相应阈值的情形下,增大所述校准比特流的时间长度。
9.根据权利要求8所述的回声消除方法,其中,增大所述校准比特流的时间长度包括:增大所述校准比特流的数据长度,和/或,减小调制信号的波特率。
10.根据权利要求7所述的回声消除方法,其中,对所述参考音频信号进行解调以获得第一比特流,对所述拾取音频信号进行解调以获得第二比特流,
对所述第一比特流和所述第二比特流进行相似性计算,以获得所述音频信号的误码率,以及
在所述音频信号的误码率大于相应阈值的情形下,减小调制信号的波特率。
11.根据权利要求7所述的回声消除方法,其中,计算所述拾取音频信号的调制信号强度和空白信号强度的比值,以获得音频信号的信噪比,以及
在所述音频信号的信噪比小于相应阈值的情形下,减小载波频率和数字频率至少之一。
12.根据权利要求1所述的回声消除方法,在生成参考音频信号之前,所述调音还包括:
采用模拟音频信号进行测试以获取回声延时;以及
根据评估参数动态调节数字频率调制参数。
13.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1-12中任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1-12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111559446.4A CN114242101A (zh) | 2021-12-20 | 2021-12-20 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111559446.4A CN114242101A (zh) | 2021-12-20 | 2021-12-20 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114242101A true CN114242101A (zh) | 2022-03-25 |
Family
ID=80758841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111559446.4A Pending CN114242101A (zh) | 2021-12-20 | 2021-12-20 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114242101A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115148208A (zh) * | 2022-09-01 | 2022-10-04 | 北京探境科技有限公司 | 音频数据处理方法、装置、芯片及电子设备 |
-
2021
- 2021-12-20 CN CN202111559446.4A patent/CN114242101A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115148208A (zh) * | 2022-09-01 | 2022-10-04 | 北京探境科技有限公司 | 音频数据处理方法、装置、芯片及电子设备 |
CN115148208B (zh) * | 2022-09-01 | 2023-02-03 | 北京探境科技有限公司 | 音频数据处理方法、装置、芯片及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108899044B (zh) | 语音信号处理方法及装置 | |
CN110246515B (zh) | 回声的消除方法、装置、存储介质及电子装置 | |
CN101826892B (zh) | 回声消除器 | |
US5903819A (en) | Noise suppressor circuit and associated method for suppressing periodic interference component portions of a communication signal | |
CN111885275B (zh) | 语音信号的回声消除方法、装置、存储介质以及电子装置 | |
WO2001033547B1 (en) | Methods and apparatuses for signal analysis | |
CN113170024B (zh) | 回声消除方法、延时估计方法、装置、存储介质及设备 | |
JPH05218987A (ja) | 時間変動無線チャネル用のチャネル予測形成方法 | |
CN101641735B (zh) | 估计通信系统中的噪声电平的方法 | |
CN114242101A (zh) | 用于语音交互系统的回声消除方法及电子设备和存储介质 | |
CN110718238B (zh) | 串音数据检测方法、客户端和电子设备 | |
JP4430136B2 (ja) | 白色化パス・メトリックを用いた通信信号の逐次最尤推定装置、および方法 | |
CN112712816A (zh) | 语音处理模型的训练方法和装置以及语音处理方法和装置 | |
RU2767297C1 (ru) | Устройство эхоподавления, способ эхоподавления и программа эхоподавления | |
CN116260811A (zh) | 文本数据的传输方法和装置、存储介质及电子装置 | |
CN100544338C (zh) | 用于在频域中检测回声的设备和方法 | |
CN112652290B (zh) | 产生混响音频信号的方法及音频处理模型的训练方法 | |
CN112151051B (zh) | 音频数据的处理方法和装置及存储介质 | |
CN107316652B (zh) | 侧音消除方法及装置 | |
CN114242102A (zh) | 用于语音交互系统的回声消除方法及电子设备和存储介质 | |
CN114257253A (zh) | 宽带iq不平衡的补偿方法及装置 | |
RU2634382C2 (ru) | Цифровой обнаружитель фазоманипулированных сигналов | |
CN115620737A (zh) | 语音信号处理装置、方法、电子设备和扩音系统 | |
Zhu et al. | Doppler-resistant orthogonal chirp division multiplexing with multiplex resampling for mobile underwater acoustic communication | |
CN113257267B (zh) | 干扰信号消除模型的训练方法和干扰信号消除方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant after: Beijing yisiwei Computing Technology Co.,Ltd. Address before: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant before: Beijing yisiwei Computing Technology Co.,Ltd. |
|
CB02 | Change of applicant information |