CN114242102A - 用于语音交互系统的回声消除方法及电子设备和存储介质 - Google Patents
用于语音交互系统的回声消除方法及电子设备和存储介质 Download PDFInfo
- Publication number
- CN114242102A CN114242102A CN202111559447.9A CN202111559447A CN114242102A CN 114242102 A CN114242102 A CN 114242102A CN 202111559447 A CN202111559447 A CN 202111559447A CN 114242102 A CN114242102 A CN 114242102A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- echo
- time
- picked
- echo cancellation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 129
- 230000003993 interaction Effects 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 14
- 238000004891 communication Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000001427 coherent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开涉及用于语音交互系统的回声消除方法及电子设备和存储介质。该回声消除方法包括:对语音交互系统进行调音以获得回声延时;以及采用所述回声延时对语音通信中拾取的语音音频信号进行处理以去除回声,其中,所述调音包括:采用校验比特流对载波进行数字频率调制以生成参考音频信号;以及根据参考音频信号和拾取音频信号中的所述校验比特流的时间位置计算回声延时。该回声消除方法采用数字频率调制技术获取语音交互系统的回声延时,因而可以提高回声消除方法在复杂环境中的可靠性和改善回声消除效果。
Description
技术领域
本公开涉及音频信号处理技术领域,更具体地,涉及用于语音交互系统的回声消除方法及电子设备和存储介质。
背景技术
在移动电话、电话会议等语音交互场景中,多个用户分别使用麦克风拾取近端语音以及采用扬声器播放远端语音。近端用户的麦克风不仅拾取自己的语音,而且还拾取了扬声器播放的远端用户的语音并且发送回远端用户。远端用户不仅听到近端用户的语音,还会听到自己的语音。声学回声严重影响了用户的语音交互体验。
声学回声是扬声器播放出来的声音由麦克风拾取后发送回对端的现象。声学回声又分为直接回声和间接回声。直接回声是指扬声器播放出的声音未经任何反射直接进入麦克风。直接回声的延迟短,与远端说话者的语音能量,扬声器与话筒之间的距离、角度、扬声器的播放音量以及话筒的拾取灵敏度等因素相关。间接回声是指扬声器播放的声音经不同的回声路径一次或多次反射后进入麦克风所产生的回声集合。
声学回声消除是从麦克风拾取的语音信号中减去回声信号。参见图1,回声消除系统包括:延时估计、线性回声消除、双端讲话检测和残余回声消除等模块。声学回声与原始语音的差别不仅包括近端用户的扬声器的非线性特性产生的失真,还有近端用户的房间系统的响应。回声消除算法主要是采用自适应滤波器模拟回声路径,并使其冲激响应与实际回声路径尽可能的接近,从而得到回声信号的估计值,再将该估计值从近端拾取的语音信号中减去即可实现回声的消除。声学回声消除是语音交互场景中不可或缺的模块。
在语音交互系统中,已经采用的回声消除方法包括实时回声消除和调音回声消除。在实时回声消除方法中,根据实时语音通信的近端信号与参考信号的比较获得延时参数。在调音回声消除方法中,在实时语音通信之前,对实际环境进行调音以获得延时参数。与实时回声消除相比,采用调音回声消除获得延时参数不仅准确性更高,而且在语音通信阶段无需耗时计算延时参数,对音频信号的处理速度更快,因此可以获得更好的回声消除效果。
对于深度学习的回声消除算法,延时估计是影响回声消除效果的重要因素。现有的回声消除方法,在延时大的情形下还存在着延时估计错误的问题,并且回声消除算法的收敛速度慢、计算复杂度高,导致回声消除效果欠佳。
发明内容
鉴于上述问题,本公开的目的在于提供用于语音交互系统的回声消除方法及电子设备和存储介质,其中,采用校验比特流调制的调制信号作为参考音频信号,根据校验比特流的时间位置计算回声延时,以提高回声消除方法在复杂环境中的可靠性和改善回声消除效果。
根据本公开的第一方面,提供一种用于语音交互系统的回声消除方法,包括:对语音交互系统进行调音以获得回声延时;以及采用所述回声延时对语音通信中拾取的语音音频信号进行处理以去除回声,其中,所述调音包括:采用校验比特流对载波进行数字频率调制以生成所述参考音频信号;以及根据参考音频信号和拾取音频信号中的所述校验比特流的时间位置计算回声延时。
优选地,还包括:在扬声器的驱动电路中,采集所述扬声器的驱动信号以获取所述参考音频信号;以及在麦克风的信号处理电路中,采集所述麦克风的拾取信号以获取所述拾取音频信号。
优选地,所述计算回声延时的步骤包括:对所述参考音频信号进行解调,以获得所述校验比特流在所述参考音频信号中的时间位置作为开始时刻;对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及根据所述开始时刻和所述到达时刻的差获得所述回声延时。
优选地,所述计算回声延时的步骤包括:根据所述扬声器播放实时生成的音频数据的时刻估算开始时刻;对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及根据所述开始时刻和所述到达时刻之间的差值获得所述回声延时。
优选地,所述计算回声延时的步骤包括:对所述参考音频信号进行解调,以获得所述校验比特流在所述参考音频信号中的时间位置作为开始时刻;对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为参考时刻;根据所述参考时刻选择所述拾取音频信号的时间区间;根据拾取音频信号在时间区间内的音频片段与参考音频信号的相似性计算获得到达时刻;以及根据所述开始时刻和所述到达时刻之间的差值获得所述回声延时。
优选地,所述时间区间是所述参考时刻之前一个比特相对应的时间。
优选地,所述相似性计算包括对所述拾取音频信号的音频片段与所述参考音频信号的频谱能量进行的相似性计算。
优选地,所述数字频率调制包括采用所述校验比特流作为基带数字信号控制载波频率。
优选地,所述校验比特流包括同步数据和校验数据。
优选地,所述同步数据包括同步标志,所述同步标志包括预定比特和预定数值的二进制数字。
优选地,所述校验数据包括依次传送的开始标志、消息字符串、校验字符、以及结束标志,所述开始标志、消息字符串、校验字符、以及结束标志分别包括预定比特和预定数值的二进制数字。
根据本公开的第二方面,提供一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时上述方法的步骤。
根据本公开的第三方面,提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现上述方法的步骤。
在本实施例中,采用数字频率调制技术,将校验比特流调制进参考音频声音中形成特殊的调制信号,在回声消除的调音阶段获取参考音频信号的播放信号和拾取音频信号,在解调后分别获得校验比特流在参考音频信号的播放信号和拾取音频信号中的时间位置,从而可以计算出音频交互系统的回声延时。由于数字频率调制的抗干扰性能和抗信道损耗性能,该回声消除方法可以应用于语音交互系统的复杂环境且提高可靠性。
进一步地,该回声消除方法中的解调器主要执行乘法计算,无需对音频信号的频谱能量进行相似性计算,也无需对音频信号进行离散傅里叶变换FFT,因此,可以简化回声延时的算法。如果真实延时越长,则简化的计算量越多。
进一步地,通过参考音频信号与拾取音频信号的校验比特流的时间位置计算回声延时,该时间位置的精度取决于校验比特流的比特率,因而,回声延时的时间精度也取决于校验比特流的比特率。在比特率例如为1200bps的情形下,时间精度大约是0.84ms(1000ms/1200bit)。如果采用更高的波特率,则可以获得更高的时间精度。该回声消除方法可以提高回声延时计算的时间精度。对于小延时的音频交互系统,该回声消除方法也能计算出准确的回声延时,从而改善回声消除效果。
进一步地,在计算出准确的回声延时之后,可以大幅削减自适应滤波器的长度τ,从而降低自适应难度,同时减小计算量。对于大延时的网络环境,该回声消除方法也能计算出准确的回声延时,从而改善回声消除效果。
进一步地,在对拾取音频信号解调后获得到达时刻,该到达时刻的时间精度是校验比特流的比特率相对应的一个比特时间。进一步地,在拾取音频信号中选择一个比特时间的音频片段,与参考音频信号进行相似性计算,从而获得校正的到达时刻,该到达时刻的时间精度是拾取音频信号的采样时间。因此,该回声消除方法通过附加的相似性计算步骤可以将回声延时的时间精度提高到采样时间的级别,从而进一步改善回声消除效果。
附图说明
图1示出在语音交互场景中回声消除系统的示意性框图。
图2示出根据现有技术的回声消除方法的流程图。
图3示出在回声消除的调音阶段参考信号和拾取信号的信号波形。
图4示出根据本公开第一实施例的回声消除方法的流程图。
图5示出采用校验比特流对载波进行数字频率调制获得的调制信号波形。
图6示出校验比特流的数据结构。
图7示出对调制信号进行相干解调的解调器的示意性框图。
图8示出根据本公开第二实施例的回声消除方法的流程图。
图9示出根据本公开第三实施例的用于回声消除的电子设备的示意性框图。
具体实施方式
为了便于理解本公开,下面将参照相关附图对本公开进行更全面的描述。附图中给出了本公开的较佳实施例。但是,本公开可以通过不同的形式来实现,并不限于本文所描述的实施例。相反的,提供这些实施例的目的是使对本公开的公开内容的理解更加透彻全面。
在下文的描述中,除非另外说明,术语“用户”表示交互语音交互系统的任一端用户。
本发明人注意到,现有的语音交互系统在延时大的网络环境中回声消除效果不好,主要原因就是参考音频信号与拾取音频信号之间的回声延时估算错误。
本发明人提出将比特流调制进参考音频声音中形成特殊的调制信号,利用特殊调制信号来预先调音能更加精确的估算出模拟音频信号和拾取音频信号之间的回声延时T,不仅可以简化回声延时的算法,而且在任意的延时长度范围内均可以获得准确的回声延时估算值,从而延时大的网络环境中也可以改善回声消除效果。
图2示出根据现有技术的回声消除方法的流程图。该回声消除方法包括调音阶段执行的步骤S01至S03,以及语音通信阶段执行的步骤S04。
用户的语音交互系统例如包括设置同一房间内的扬声器、麦克风,以及设置在或云端的音频处理系统。优选地,在用户的语音交互系统开机时执行调音阶段的各个步骤,以检测随周围环境变化的音频参数。
在步骤S01中,采用扬声器播放模拟音频信号。参考音频例如为白噪声信号,或者单频的高频信号,例如频率大于人耳可以听到的声音频率范围。在开始播放模拟音频信号时,记录开始时刻T1。
在步骤S02中,采用麦克风拾取模拟音频信号。该拾取声音包括扬声器的播放声音直接到达麦克风的声音以及经由回声路径一次或多次反射后到达麦克风的回声。
在步骤S03中,通过模拟音频信号与拾取音频信号的相似性计算回声延时。例如,对模拟音频信号与拾取音频信号的频谱能量进行相似性计算。或者,对麦克风的拾取音频信号进行循环的离散傅里叶变换FFT,当FFT计算结果中的频域上包含模拟音频信号的频率数值时,即认为拾取音频信号中包含模拟音频信号的回声。
采用相似性计算可以获得麦克风接收到模拟音频信号的到达时刻T2。音频交互系统的回声延时t表示为:t=T2-T1。
在步骤S04中,采用回声延时作为音频参数,采用自适应滤波器对麦克风的拾取音频信号进行数据处理以消除回声。例如,用户语音音频信号是麦克风的拾取音频信号减去回声音频信号估计值的差值。
然而,由于语音信号的时变特性,噪声的随机特性,基于相似性计算在估算回声延时t方面存在着错误的可能性。
参见图3,在延时小于等于自适应滤波器长度τ时,如曲线b所示,模拟音频信号a和拾取音频信号b存在着相关性,语音交互系统可以高效工作以去除回声。但延时大于自适应滤波器长度τ时,如曲线b’所示,此时,在自适应滤波器长度τ范围内,模拟音频信号a和拾取音频信号b’没有相关性,语音交互系统无法有效去除回声。
图4示出根据本公开第一实施例的回声消除方法的流程图。该回声消除方法包括调音阶段执行的步骤S11至S15,以及语音通信阶段执行的步骤S16。
用户的语音交互系统例如包括设置同一房间内的扬声器、麦克风,以及设置在或云端的音频处理系统。优选地,在用户的语音交互系统开机时执行调音阶段的各个步骤,以检测随周围环境变化的音频参数。
在步骤S11中,采用校验比特流V对载波进行数字频率调制以生成参考音频信号。
数字频率调制是利用基带数字信号控制载波频率的变化来传输数字信息的一种调制形式。在频率键控法中,两个分别产生正弦振荡的独立振荡器经由数字基带信号控制的电子开关后,选出的高频振荡信号就是数字调制信号。在直接调频法中,利用数字基带信号直接控制载频振荡器的振荡频率。
参见图5,在数字频率调制中采用的载波为正弦波信号。采用预定的校验比特流作为基带数字信号控制载波频率。利用正弦波的中的两个频率Fc1和fc2分别表示二进制数字1或数字0。频率Fc1和fc2例如分别是2200Hz和1200Hz,比特率例如为1200bps。
参见图6,校验比特流例如包括同步数据和校验数据。同步数据例如包括300个比特的同步标志,同步标志例如由交替的二进制数字1和0组成。校验数据例如包括330个比特的二进制数字,包括依次传送的开始标志、消息字符串、校验字符、以及结束标志。
在检验数据中,开始标志例如由100个比特的连续的二进制数字1组成,结束标志例如由20个比特的连续二进制数字1组成,消息字符串例如由200个比特的连续二进制数字组成,其中,包括20个ACSII字符“0123456789”。每个ASCII字符占据10bit,每个ASCII字符的起始位是“1”,中间八位是信息,结束位为“0”。校验字符例如由10个比特的连续二进制数字组成,其中,起始位是“1”,中间八位是校验字符的比特值,结束位为“0”。在校验比特流的所有数据(包括校验字符)和按256的模求和为00时,则证明收到的数据完全正确。
在步骤S12中,采用扬声器播放参考音频的声音。如上所述,参考音频例如为经过数字频率调制的正弦波信号。
在本实施例中,参考音频例如是预先生成和存储的音频文件,在下文所述的音频信号处理步骤中获得开始时刻T1。在替代的实施例中,参考音频例如是实时生成的音频数据,在开始播放参考音频的声音时,记录开始时刻T1。
在步骤S13中,获取参考音频信号的播放信号和拾取音频信号。例如,在扬声器的驱动电路中采集驱动信号以获取参考音频信号的播放信号,在麦克风的信号处理电路中采集麦克风的拾取信号以获取拾取音频信号。麦克风拾取的声音包括扬声器的播放声音直接到达麦克风的声音以及经由回声路径一次或多次反射后到达麦克风的回声。
在步骤S14中,从参考音频信号和拾取音频信号中分别解调出第一比特流A和第二比特流B。
用于对调制信号进行相干解调的解调器的电路结构和工作原理是已知的。参见图7,解调器100包括带通滤波器111和112、乘法器113和114、低通滤波器115和116、以及抽样判决器118。带通滤波器111的中心频率fc1对应于二进制数字1,带通滤波器112的中心频率fc2对应于二进制数字0。带通滤波器111和112将调制信号分为两路信号,分别是二进制数字1相对应的第一信号和二进制数字0相对应的第二信号。乘法器113将第一信号与相干参考信号相乘,经过低通滤波器115提取随时间变化的第一信号幅度和相位。乘法器114将第二信号与相干参考信号相乘,经过低通滤波器116提取随时间变化的第二信号幅度和相位。抽样判决器118获取第一信号幅度和第二信号幅度在同一相位的抽样信号,对第一信号幅度和第二信号幅度进行比较以判断相应相位的二进制数字的数值。
在步骤S15中,通过参考音频信号与拾取音频信号的校验比特流的时间位置计算回声延时。
在本实施例中,参考音频信号和拾取音频信号均为实时采集的模拟信号。由于信号处理电路的延时和信号失真,以及环境的回声路径差异、以及环境噪声干扰等因素的影响,从参考音频信号中解调出的第一比特流A与从拾取音频信号中解调出的第二比特流B不完全一致,然而,第一比特流A和第二比特流B均包含校验比特流V。
计算第一比特流A与校验比特流V的相似性,获得最相似条件下的第一比特流A在参考音频信号中的时间位置,获得开始时刻T1。
计算第二比特流B与校验比特流V的相似性,获得最相似条件下的第二比特流B在拾取音频信号号中的时间位置,获得到达时刻T2。
音频交互系统的回声延时t表示为:t=T2-T1。
在步骤S16中,采用回声延时作为音频参数,采用自适应滤波器对麦克风的拾取音频信号进行数据处理以消除回声。例如,用户语音音频信号是麦克风的拾取音频信号减去回声音频信号估计值的差值。
在本实施例中,采用数字频率调制,将校验比特流调制进参考音频声音中形成特殊的调制信号,在回声消除的调音阶段获取参考音频信号的播放信号和拾取音频信号,在解调后分别获得校验比特流在参考音频信号的播放信号和拾取音频信号中的时间位置,从而可以计算出音频交互系统的回声延时。由于数字频率调制的抗干扰性能和抗信道损耗性能,该回声消除方法可以应用于语音交互系统的复杂环境且提高可靠性。
进一步地,该回声消除方法中的解调器主要执行乘法计算,无需对音频信号的频谱能量进行相似性计算,也无需对音频信号进行离散傅里叶变换FFT,因此,可以简化回声延时的算法。如果真实延时越长,则简化的计算量越多。
进一步地,通过参考音频信号与拾取音频信号的校验比特流的时间位置计算回声延时,该时间位置的精度取决于校验比特流的比特率,因而,回声延时的时间精度也取决于校验比特流的比特率。在比特率例如为1200bps的情形下,时间精度大约是0.84ms(1000ms/1200bit)。如果采用更高的波特率,则可以获得更高的时间精度。因此,该回声消除方法可以提高回声延时计算的时间精度。对于小延时的音频交互系统,该回声消除方法也能计算出准确的回声延时,从而改善回声消除效果。
进一步地,在计算出准确的回声延时之后,可以大幅削减自适应滤波器的长度τ,从而降低自适应难度,同时减小计算量。对于大延时的网络环境,该回声消除方法也能计算出准确的回声延时,从而改善回声消除效果。
图8示出根据本公开第二实施例的回声消除方法的流程图。该回声消除方法包括调音阶段执行的步骤S21至S26,以及语音通信阶段执行的步骤S27。
根据本公开第二实施例的回声消除方法中的步骤S21至S24与第一实施例的回声消除方法中的步骤S11至S14相同。以下省略对相同步骤的详细描述。
在步骤S21至S24之后,已经从参考音频信号和拾取音频信号中分别解调出第一比特流A和第二比特流B。进一步执行步骤S25。
在步骤S25中,将拾取音频信号的检验比特流的时间位置作为参考时刻,选择时间区间。
在本实施例中,该时间区间为拾取音频信号中到达时刻T2作为参考时刻,在参考时刻之前一个比特相对应的时间。在比特率例如为1200bps的情形下,该时间区间大约是0.84ms(1000ms/1200bit)。
在步骤S26中,通过拾取音频信号在时间区间内的音频片段与参考音频信号的相似性计算获得回声延时。
在本实施例中,对拾取音频信号在时间区间内的音频片段与参考音频信号的频谱能量进行相似性计算,从而在上述时间区间内获得校正的到达时刻T2’。
音频交互系统的回声延时t表示为:t=T2’-T1。
在步骤27中,采用回声延时作为音频参数,采用自适应滤波器对麦克风的拾取音频信号进行数据处理以消除回声。例如,用户语音音频信号是麦克风的拾取音频信号减去回声音频信号估计值的差值。
在本实施例中,在对拾取音频信号解调后获得到达时刻T2,该到达时刻T2的时间精度是校验比特流的比特率相对应的一个比特时间。进一步地,在拾取音频信号中选择一个比特时间的音频片段,与参考音频信号进行相似性计算,从而获得校正的到达时刻T2’,该到达时刻T2’的时间精度是拾取音频信号的采样时间。因此,该回声消除方法通过附加的相似性计算步骤可以将回声延时的时间精度提高到采样时间的级别,从而改善回声消除效果。
本公开实施例还提供了一种电子设备1300,如图9所示,包括存储器1310和处理器1320及存储在存储器1310上并可在处理器1320上运行的程序,该程序被处理器1320执行时可实现上述回声消除方法中各实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。当然,该电子设备还可以包括电源组件1330、网络接口1340和输入输出接口1350等辅助子设备。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读的可读存储介质中,并由处理器进行加载和执行。为此,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序或指令,该计算机程序或指令被处理器执行时可实现上述回声消除方法中各实施例的各个过程。其中,计算机可读存储介质,如U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
由于该可读存储介质中所存储的指令,可以执行本公开实施例所提供的任一种回声消除方法中的步骤,因此,可以实现本公开实施例所提供的任一种回声消除方法所能实现的有益效果,详见前面的实施例,在此不再赘述。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
需要说明的是,本说明书中在对各个实施例进行描述时,均重点说明的是与其他实施例的不同之处,而对于各个实施例之间相同或相似的部分可互相参考进行理解。对于系统实施例而言,由于其与方法实施例基本相似,因此相关之处可参考对方法实施例部分的说明。
此外,需要指出的是,在本公开的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本公开的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本公开所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本公开的保护范围之中。
Claims (11)
1.一种用于语音交互系统的回声消除方法,包括:
对语音交互系统进行调音以获得回声延时;以及
采用所述回声延时对语音交互系统中的拾取音频信号进行处理以去除回声,
其中,所述调音包括:
采用校验比特流对载波进行数字频率调制以生成参考音频信号;以及
根据参考音频信号和拾取音频信号中的所述校验比特流的时间位置计算回声延时。
2.根据权利要求1所述的回声消除方法,还包括:
在扬声器的驱动电路中,采集所述扬声器的驱动信号以获取所述参考音频信号;以及
在麦克风的信号处理电路中,采集所述麦克风的拾取信号以获取所述拾取音频信号。
3.根据权利要求1所述的回声消除方法,其中,所述计算回声延时的步骤包括:
对所述参考音频信号进行解调,以获得所述校验比特流在所述参考音频信号中的时间位置作为开始时刻;
对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及
根据所述开始时刻和所述到达时刻的差获得所述回声延时。
4.根据权利要求1所述的回声消除方法,其中,所述计算回声延时的步骤包括:
根据扬声器播放实时生成的音频数据的时刻估算开始时刻;
对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为到达时刻;以及
根据所述开始时刻和所述到达时刻之间的差值获得所述回声延时。
5.根据权利要求1所述的回声消除方法,其中,所述计算回声延时的步骤包括:
对所述参考音频信号进行解调,以获得所述校验比特流在所述参考音频信号中的时间位置作为开始时刻;
对所述拾取音频信号进行解调,以获得所述校验比特流在所述拾取音频信号中的时间位置作为参考时刻;
根据所述参考时刻选择所述拾取音频信号的时间区间;
根据拾取音频信号在时间区间内的音频片段与参考音频信号的相似性计算获得到达时刻;以及
根据所述开始时刻和所述到达时刻之间的差值获得所述回声延时。
6.根据权利要求5所述的回声消除方法,其中,所述相似性计算包括对所述拾取音频信号的音频片段与所述参考音频信号的频谱能量进行的相似性计算。
7.根据权利要求1所述的回声消除方法,其中,所述数字频率调制包括采用所述校验比特流作为基带数字信号控制载波频率。
8.根据权利要求7所述的回声消除方法,其中,所述校验比特流包括同步数据,所述同步数据包括同步标志,所述同步标志包括预定比特和预定数值的二进制数字。
9.根据权利要求7所述的回声消除方法,其中,所述校验比特流包括校验数据,所述校验数据包括依次传送的开始标志、消息字符串、校验字符、以及结束标志,所述开始标志、消息字符串、校验字符、以及结束标志分别包括预定比特和预定数值的二进制数字。
10.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111559447.9A CN114242102A (zh) | 2021-12-20 | 2021-12-20 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111559447.9A CN114242102A (zh) | 2021-12-20 | 2021-12-20 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114242102A true CN114242102A (zh) | 2022-03-25 |
Family
ID=80758849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111559447.9A Pending CN114242102A (zh) | 2021-12-20 | 2021-12-20 | 用于语音交互系统的回声消除方法及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114242102A (zh) |
-
2021
- 2021-12-20 CN CN202111559447.9A patent/CN114242102A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111885275B (zh) | 语音信号的回声消除方法、装置、存储介质以及电子装置 | |
CN107645343B (zh) | 基于声波的数据发送/接收方法及数据传输系统 | |
CN101826892B (zh) | 回声消除器 | |
KR101572552B1 (ko) | 변조 장치, 복조 장치, 음향 전송 시스템, 프로그램, 및 복조 방법 | |
US9386373B2 (en) | System and method for estimating a reverberation time | |
JPH0435090B2 (zh) | ||
Getreuer et al. | Ultrasonic communication using consumer hardware | |
US9773510B1 (en) | Correcting clock drift via embedded sine waves | |
JPH05218987A (ja) | 時間変動無線チャネル用のチャネル予測形成方法 | |
EP2132734B1 (en) | Method of estimating noise levels in a communication system | |
CN102571147A (zh) | 声音处理设备、方法和程序 | |
JP4430136B2 (ja) | 白色化パス・メトリックを用いた通信信号の逐次最尤推定装置、および方法 | |
CN110718238B (zh) | 串音数据检测方法、客户端和电子设备 | |
CN114242101A (zh) | 用于语音交互系统的回声消除方法及电子设备和存储介质 | |
CN114257253A (zh) | 宽带iq不平衡的补偿方法及装置 | |
CN100544338C (zh) | 用于在频域中检测回声的设备和方法 | |
CN113257267B (zh) | 干扰信号消除模型的训练方法和干扰信号消除方法及设备 | |
CN114242102A (zh) | 用于语音交互系统的回声消除方法及电子设备和存储介质 | |
Galioto et al. | Flumo: Flexible underwater modem | |
CN107316652A (zh) | 侧音消除方法及装置 | |
CN110049427B (zh) | 一种实现多耳机同时检测的方法 | |
Zhu et al. | Doppler-resistant orthogonal chirp division multiplexing with multiplex resampling for mobile underwater acoustic communication | |
CN115620737A (zh) | 语音信号处理装置、方法、电子设备和扩音系统 | |
CN115277962A (zh) | 回声延迟估计方法、装置、存储介质和电子设备 | |
Amini et al. | A BFSK neural network demodulator with fast training hints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant after: Beijing ESWIN Computing Technology Co.,Ltd. Address before: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant before: Beijing yisiwei Computing Technology Co.,Ltd. |