CN113077804A - 回声消除方法、装置、设备及存储介质 - Google Patents

回声消除方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113077804A
CN113077804A CN202110284766.7A CN202110284766A CN113077804A CN 113077804 A CN113077804 A CN 113077804A CN 202110284766 A CN202110284766 A CN 202110284766A CN 113077804 A CN113077804 A CN 113077804A
Authority
CN
China
Prior art keywords
reverberation time
reverberation
power
sequence
echo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110284766.7A
Other languages
English (en)
Other versions
CN113077804B (zh
Inventor
倪忠
刘良兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110284766.7A priority Critical patent/CN113077804B/zh
Publication of CN113077804A publication Critical patent/CN113077804A/zh
Priority to PCT/CN2022/080048 priority patent/WO2022194011A1/zh
Priority to EP22770366.7A priority patent/EP4310840A1/en
Priority to US18/369,134 priority patent/US20240005940A1/en
Application granted granted Critical
Publication of CN113077804B publication Critical patent/CN113077804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种回声消除方法、装置、设备及存储介质,属于通信技术领域。回声消除方法,包括:获取第一目标语音信号的多个混响特征,多个混响特征为与混响时间相关的多个信号特征;根据第一目标语音信号的每个混响特征及其与混响时间估计值之间的预设映射关系,分别确定第一目标语音信号的每个混响特征对应的混响时间估计值;根据第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定第一目标语音信号的全局混响时间;根据全局混响时间,调整回声传递函数长度;根据调整后的回声传递函数长度消除第一目标语音信号的回声。采用本申请提供的回声消除方法,能够提高通话质量,提高用户体验。

Description

回声消除方法、装置、设备及存储介质
技术领域
本申请属于通信技术领域,具体涉及一种回声消除方法、装置、设备及存储介质。
背景技术
在通过电子设备进行通话的过程中,经常会由于语音场景的复杂性,比如混响的存在、近端噪声的存在、系统延时不稳定、丢帧等一系列原因,产生回声信号,而回声信号的存在,会导致通话质量不佳。为了保证用户的通话质量,现阶段,通常会基于回声传递函数消除语音信号中的回声。
由于不同通话场景下的语音信号中的回声传递函数长度可能不同。故而,会导致现有的回声消除方案,或者资源成本较高,或者回声消除效果较差。
申请内容
本申请实施例的目的是提供一种回声消除方法、装置、设备和存储介质,能够解决现有的回声消除方案,或者资源成本较高,或者回声消除效果较差的技术问题。
第一方面,本申请实施例提供了一种回声消除方法,该方法包括:
获取第一目标语音信号的多个混响特征,多个混响特征为与混响时间相关的多个信号特征;
根据第一目标语音信号的每个混响特征及其与混响时间估计值之间的预设映射关系,分别确定第一目标语音信号的每个混响特征对应的混响时间估计值;第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,为基于历史语音信号相应的混响特征和该混响特征对应的混响时间得到的映射关系;
根据第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定第一目标语音信号的全局混响时间;
根据全局混响时间,调整回声传递函数长度;
根据调整后的回声传递函数长度消除第一目标语音信号的回声。
第二方面,本申请实施例提供了一种回声消除装置,该装置包括:
获取模块,用于获取第一目标语音信号的多个混响特征,多个混响特征为与混响时间相关的多个信号特征;
第一确定模块,用于根据第一目标语音信号的每个混响特征及其与混响时间估计值之间的预设映射关系,分别确定第一目标语音信号的每个混响特征对应的混响时间估计值;第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,为基于历史语音信号相应的混响特征和该混响特征对应的混响时间得到的映射关系;
第二确定模块,用于根据第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定第一目标语音信号的全局混响时间;
调整模块,用于根据全局混响时间,调整回声传递函数长度;
消除模块,用于根据调整后的回声传递函数长度消除第一目标语音信号的回声。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,通过根据第一目标语音信号中与混响时间相关的多个混响特征各自对应的混响时间估计值确定全局混响时间,基于该全局混响时间调整回声传递函数长度,以根据调整后的回声传递函数长度消除第一目标语音信号的回声,且其中每个混响特征各自对应的混响时间估计值是根据每个混响特征及其与混响时间估计值之间的预设映射关系确定的。这样,基于第一目标语音信号的全局混响时间调整回声传递函数长度,可以实现回声传递函数长度的动态控制,使得回声传递函数的长度更符合实际需求。如此,不仅可以避免由于回声传递函数长度较长,导致的资源浪费,还可以避免由于回声传递函数长度较短导致的回声消除效果较差,从而可以更好的提高通话质量,提高用户体验。
附图说明
图1是本申请实施例提供的一种回声消除方法的流程示意图;
图2是本申请实施例提供的一种真实混响时间和基于预设映射关系得到的混响时间估计值的对应关系示意图;
图3是本申请实施例提供的一种回声消除方法的流程示意图;
图4是本申请实施例提供的一种回声消除装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
基于背景技术可知,现有的回声消除方案,会由于不同通话场景下的语音信号中的回声传递函数长度可能不同,导致存在资源成本较高或者回声消除效果较差的技术问题。
具体的,回声消除方案的核心是准确的估计出语音信号的回声传递函数,根据回声传递函数的长度消除语音信号中的回声。而目前的回声消除方案中,回声传递函数长度(即滤波器长度)通常都是预先设计好的,即现有回声消除方案中回声传递函数的长度是固定的。这样,若回声传递函数的长度设置过长就会造成资源浪费,若回声传递函数的长度设置过短就会导致回声消除效果较差,导致现有的回声消除方法不能很好的语音场景的变化。
基于上述发现,本申请提供了一种回声消除方法、装置、设备及存储介质,可以通过根据第一目标语音信号中与混响时间相关的多个混响特征各自对应的混响时间估计值确定全局混响时间,基于该全局混响时间调整回声传递函数长度,以根据调整后的回声传递函数长度消除第一目标语音信号的回声,且其中每个混响特征各自对应的混响时间估计值是根据每个混响特征及其与混响时间估计值之间的预设映射关系确定的。这样,基于第一目标语音信号的全局混响时间调整回声传递函数长度,可以实现回声传递函数长度的动态控制,使得回声传递函数的长度更符合实际需求。如此,不仅可以避免由于回声传递函数长度较长,导致的资源浪费,还可以避免由于回声传递函数长度较短导致的回声消除效果较差,从而可以更好的提高通话质量,提高用户体验。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的回声消除方法进行详细地说明。
图1示出了本申请实施例提供的一种回声消除方法的流程示意图。该方法可以应用于电子设备。如图1所示,该回声消除方法可以包括如下步骤:
S110,获取第一目标语音信号的多个混响特征。
其中,多个混响特征可以为与混响时间相关的多个信号特征,信号特征可以用于表征语音信号的功率衰减和功率斜率。
作为一个示例,用户在通过电子设备进行通话的过程中,电子设备可以接收到语音信号,即第一目标语音信号。电子设备在接收到第一目标语音信号之后,可以获取第一目标语音信号中与混响时间相关的多个信号特征,即多个混响特征。
S120,根据第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,分别确定第一目标语音信号的每个混响特征对应的混响时间估计值。
其中,第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,可以为基于历史语音信号相应的混响特征和该混响特征对应的混响时间得到的映射关系。每个混响特征和该混响特征对应的混响时间之间有一个预设映射关系。如假设信号特征包括信号特征A、信号特征B、信号特征C,则预设映射关系也应该包括信号特征A和该信号特征A对应的混响时间之间的预设映射关系A、信号特征B和该信号特征B对应的混响时间之间的预设映射关系B、信号特征C和该信号特征C对应的混响时间之间的预设映射关系C。该预设映射关系可以预先统计好,并预先加载在电子设备中,或者可以供电子设备在确定每个信号特征对应的混响时间估计值时加载。
作为一个示例,在获取到第一目标语音信号的多个混响特征之后,可以获取每个混响特征及其与混响时间估计值之间的预设映射关系。再根据每个混响特征及其与混响时间估计值之间的预设映射关系,分别确定第一目标语音信号的每个混响特征对应的混响时间估计值,每个混响时间估计值可以用于表征第一目标语音信号中的不同时段的混响时间。
可以理解的是,历史语音信号与第一目标语音信号可以是同一电子设备或同一型号的电子设备接收的语音信号;历史语音信号与第一目标语音信号可以是电子设备处于相同通话场景时接收的语音信号;或者,历史语音信号与第一目标语音信号还可以是同一电子设备或同一型号的电子设备,处于相同通话场景时接收的语音信号。这样,可以使得基于历史语音信号相应的混响特征和该混响特征对应的混响时间得到的预设映射关系,与第一目标语音信号相对应,如此,可以提高根据第一目标语音信号的每个混响特征及其与混响时间估计值之间的预设映射关系,确定出的第一目标语音信号的每个混响特征对应的混响时间估计值的准确性,提高第一目标语音信号的全局混响时间的准确性,从而可以进一步提高通话质量,提高用户体验。
S130,根据第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定第一目标语音信号的全局混响时间。
作为一个示例,在确定出第一目标语音信号的每个混响特征对应的混响时间估计值之后,可以基于语音信号的多个混响特征分别对应的混响时间估计值,确定第一目标语音信号的全局混响时间。如此,由于每个混响时间估计值可以用于表征第一目标语音信号中的不同时段的混响时间,故而,基于不同混响特征对应的混响时间估计值,确定出的第一目标语音信号的全局混响时间,更符合第一目标语音信号的真实混响时间,提高第一目标语音信号的全局混响时间的准确性。
S140,根据全局混响时间,调整回声传递函数长度。
作为一个示例,在确定出第一目标语音信号的全局混响时间之后,可以根据该全局混响时间,调整回声传递函数的长度,得到调整后的回声传递函数长度。如此,可以使得调整后的回声传递函数的长度更符合第一目标语音信号的实际情况。
S150,根据调整后的回声传递函数长度消除第一目标语音信号的回声。
作为一个示例,在根据全局混响时间,调整回声传递函数长度之后,可以根据调整后的回声传递函数长度,对上述第一目标语音信号进行回声消除,以消除该第一目标语音信号的回声。如此,由于调整后的回声传递函数的长度更符合第一目标语音信号的实际情况,故而基于调整后的回声传递函数消除第一目标语音信号的回声,可以使得回声消除效果更好,而且还可以避免出现回声传递函数消除设置过长,导致的资源浪费。
在本申请实施例中,通过根据第一目标语音信号中与混响时间相关的多个混响特征各自对应的混响时间估计值确定全局混响时间,基于该全局混响时间调整回声传递函数长度,以根据调整后的回声传递函数长度消除第一目标语音信号的回声,且其中每个混响特征各自对应的混响时间估计值是根据每个混响特征及其与混响时间估计值之间的预设映射关系确定的。这样,基于第一目标语音信号的全局混响时间调整回声传递函数长度,可以实现回声传递函数长度的动态控制,使得回声传递函数的长度更符合实际需求。如此,不仅可以避免由于回声传递函数长度较长,导致的资源浪费,还可以避免由于回声传递函数长度较短导致的回声消除效果较差,从而可以更好的提高通话质量,提高用户体验。
在一些实施例中,可以基于第一目标语音信号的回声路径的对数功率序列,确定与混响时间相关的多个混响特征,相应的,上述步骤S110的具体实现方式可以如下:
确定第一目标语音信号的回声路径;
去除回声路径的功率中数值为零的功率,得到回声路径的对数功率序列;
基于不同序列段中的对数功率,获取多个混响特征。
其中,对数功率序列可以包括Q个序列段,Q为正整数。
作为一个示例,在获取第一目标语音信号中与混响时间相关的多个混响特征时,可以先确定该第一目标语音信号的回声路径,如可以通过自适应滤波器估算得到第一目标语音信号的回声路径。再分析回声路径的功率,得到回声路径对应的功率序列,去除该功率序列中的零点,得到回声路径的对数功率序列,并可以将该对数功率序列划分为Q个序列段,每个序列段可以包括预设数量个对数功率,如预设数量可以是预设时长(如30ms)与采样频率的乘积。然后,可以基于对数功率序列中的不同序列段中的对数功率,获取得到第一目标语音信号中与混响时间相关的多个混响特征。
这样,基于对数功率序列的Q个序列段中的不同序列段的功率,获取上述多个混响特征,可以使得获取的多个混响特征可以更好的表征第一目标语音信号的不同序列段的功率特征,从而可以为全局混响时间的确定提供更准确的数据依据,进而可以进一步使得回声传递函数的长度更符合实际需求,提高通话质量和用户体验。
在一些实施例中,上述第一目标语音信号中与混响时间相关的多个混响特征可以包括第一功率衰减值、第二功率衰减值和平均功率拟合斜率。
其中,第一功率衰减值为Q个序列段中的前N个序列段的功率衰减值;第二功率衰减值为Q个序列段中第N-1个序列段之后的L个序列段的功率衰减值;平均功率拟合斜率基于对数功率序列的平均对数功率序列拟合得到。
相应的,此时,上述基于不同序列段中的对数功率,获取多个混响特征的具体实现方式可以如下:
计算Q个序列段中的前N个序列段中,每相邻两个序列段的至少一个第一差异序列;
根据第一差异序列,确定第一功率衰减值;
计算Q个序列段中的L个序列段中,每相邻两个序列段的至少一个第二差异序列;
根据第二差异序列,确定第二功率衰减值;
通过FIR滤波器对对数功率序列进行处理,得到对数功率序列的平均对数功率序列;
选取平均对数功率序列中属于预设区间范围内的连续功率序列段;
根据连续功率序列段,拟合得到平均功率拟合斜率。
其中,N为正整数,N<Q。L个序列段为Q个序列段中第N-1个序列段之后的L个序列段,L为正整数。
作为一个示例,在确定第一功率衰减值时,可以计算上述对数功率序列的Q个序列段中的前N个序列段中,每相邻两个序列段的至少一个差异序列,即至少一个第一差异序列。然后,可以根据第一差异序列确定功率衰减值,即第一功率衰减值,由于该第一功率衰减值是基于Q个序列段中的前N个序列段确定得到的,故而,第一功率衰减值可以表征对数功率序列的前N个序列段的功率衰减,第一功率衰减值也可以称为首部功率衰减值。以N为2为例,可以将Q个序列段中的第1个序列段与第2个序列段进行比较,得到第1个序列段与第2个序列段的差异序列,即为第一差异序列,再将第一差异序列的均值作为第一功率衰减值。
在确定第二功率衰减值时,可以计算上述对数功率序列的Q个序列段中,在第N-1个序列段之后的L个序列段中,每相邻两个序列段的至少一个差异序列,即至少一个第二差异序列。然后,可以根据第二差异序列确定功率衰减值,即第二功率衰减值,由于该第二功率衰减值是基于Q个序列段中,第N-1个序列段之后的L个序列段确定得到的,故而,第二功率衰减值可以表征对数功率序列的中间L个序列段的功率衰减,第二功率衰减值也可以称为中部功率衰减值。如以N为2,L为2为例,可以将Q个序列段中的第1个序列段与第2个序列段进行比较,得到第一差异序列,将第一差异序列的均值作为第一功率衰减值,将第2个序列段与第3个序列段进行比较,得到第二差异序列,将第二差异序列的均值作为第二功率衰减值。
在确定平均功率拟合斜率时,可以计算上述对数功率序列输入至FIR(FiniteImpulse Response)滤波器,得到平均对数功率序列,其中,FIR滤波器为均值FIR滤波器,该FIR滤波器的长度可以设置为40左右。然后,可以选取平均对数功率序列中属于预设区间范围内的连续功率序列段,预设区间范围如可以是(-76,-30)。之后,可以根据连续功率序列段,构建线性对数功率序列,再对该线性对数功率序列进行线性拟合,得到拟合斜率,即平均功率拟合斜率。
这样,基于对数功率序列的Q个序列段中的不同序列段确定第一功率衰减值、第二功率衰减值和平均功率拟合斜率,可以使得获取的混响特征能够更准确的表征第一目标语音信号的不同序列段的功率特征,为确定全局混响时间提供更准确的数据依据,进而可以进一步使得回声传递函数的长度更符合实际需求,提高通话质量和用户体验。
在一些实施例中,上述步骤S120的具体实现方法可以如下:
根据第一功率衰减值对应的第一预设映射关系,确定第一功率衰减值对应的第一混响时间估计值;
根据第二功率衰减值对应的第二预设映射关系,确定第二功率衰减值对应的第二混响时间估计值;
根据平均功率拟合斜率对应的第三预设映射关系,确定平均功率拟合斜率对应的第三混响时间估计值。
其中,第一混响时间估计值为根据第一功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;第二混响时间估计值为根据第二功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;第三混响时间估计值为根据平均功率拟合斜率及其与混响时间估计值之间的预设映射关系确定的混响时间估计值。
作为一个示例,在确定每个混响特征对应的混响时间估计值时,可以先确定每个混响特征对应的预设映射关系,即确定第一功率衰减值与混响时间估计值之间的预设映射关系,即第一预设映射关系;确定第二功率衰减值与混响时间估计值之间的预设映射关系,即第二预设映射关系;确定平均功率拟合斜率与混响时间估计值之间的预设映射关系,即第三预设映射关系。再根据第一功率衰减值和第一预设映射关系,确定第一功率衰减值对应的混响时间估计值,即第一混响时间估计值;根据第二功率衰减值和第二预设映射关系,确定第二功率衰减值对应的混响时间估计值,即第二混响时间估计值;根据平均功率拟合斜率和第三预设映射关系,确定平均功率拟合斜率对应的混响时间估计值,即第三混响时间估计值。
作为一个具体的示例,上述各个预设映射关系(即第一预设映射关系、第二预设映射关系、第三预设映射关系)可以是基于各个混响特征与混响时间之间的强相关性,采用线性统计模型建立统计性的预设映射关系。具体的,预设映射关系的建立方式可以如下:
首先,获取多种历史语音信号和历史语音信号对应的实测场地的混响时间构成实测样例库,该实测样例库中可以包括有各种混响时间的样例。并可以在实测样例库中选取一定数量(如可以是68、70等)的实测样例构成训练样例库,将实测样例库中训练样例库之外的实测样例构成测试样例库。
然后,可以通过统计模型确定不同混响特征与混响时间之间的预设映射关系,具体如下:
选择训练样例库中小于或等于第一预设阈值的混响时间(如可以为小于或等于250ms)及其对应的混响特征的样例,计算这些样例的第一功率衰减值,利用线性回归方法建立第一功率衰减值与混响时间之间的第一预设映射关系,该预设映射关系可以为第一功率衰减值与混响时间之间的映射关系参数,如可以是第一衰减斜率和第一衰减截距。
选择训练样例库中大于或等于第二预设阈值(如可设为大于或等于500ms)的混响时间及其对应的混响特征的样例,计算这些样例的第二功率衰减值,利用线性回归方法建立第二功率衰减值与混响时间之间的第二预设映射关系,该预设映射关系可以为第二功率衰减值与混响时间之间的映射关系参数,如可以是第二衰减斜率和第二衰减截距。
选择训练样例库中大于或等于第二预设阈值(如可设为大于或等于500ms)的混响时间及其对应的混响特征的样例,计算这些样例的平均功率拟合斜率,利用线性回归方法建立平均功率拟合斜率与混响时间之间的第三预设映射关系,该预设映射关系可以为平均功率拟合斜率与混响时间之间的映射关系参数,如可以是平均衰减斜率和平均衰减截距。
之后,可以利用测试样例库对第一功率衰减值与混响时间之间的第一预设映射关系、第二功率衰减值与混响时间之间的第二预设映射关系、平均功率拟合斜率与混响时间之间的第三预设映射关系进行验证,以保证各个预设映射关系的准确性。参见图2,图2示出了一种真实混响时间和基于预设映射关系得到的混响时间估计值的对应关系,图2中粗实线表示真实混响时间,细实线表示基于预设映射关系得到的混响时间估计值,图2中纵坐标表示混响时间(单位:秒)、横坐标表示样例序号,可以结合图2清楚的了解到真实混响时间和混响时间估计值的对应关系。
这样,基于不同混响特征与混响时间的不同预设映射关系,确定不同混响特征对应的混响时间估计值,可以提高确定出的不同混响特征对应的混响时间估计值的准确性,从而可以进一步提高通话质量。
在一些实施例中,上述步骤S130的具体实现方式可以如下:
在第一混响时间估计值小于或等于第一预设阈值的情况下,将第一混响时间估计值确定为全局混响时间;
在第二混响时间估计值和第三混响时间估计值均大于或等于第二预设阈值的情况下,将第二混响时间估计值确定为全局混响时间;
在第一混响时间估计值大于第一预设阈值,且第二混响时间估计值和第三混响时间估计值中,存在至少一个小于第二预设阈值的情况下,将第二混响时间估计值和第三混响时间估计值的均值确定为全局混响时间。
作为一个示例,在根据每个混响时间估计值,确定第一目标语音信号的全局混响时间时,可以先确定第一混响时间估计值是否小于或等于第一预设阈值,如第一预设阈值可以是250ms。在第一混响时间估计值小于或等于第一预设阈值的情况下,可以将第一混响时间估计值确定为全局混响时间。
若第一混响时间估计值大于第一预设阈值,则可以确定第二混响时间估计值和第三混响时间估计值是否均大于或等于第二预设阈值,如第一预设阈值可以是500ms。在第二混响时间估计值和第三混响时间估计值均大于或等于第二预设阈值的情况下,可以将第二混响时间估计值确定为全局混响时间。
否则,在第一混响时间估计值大于第一预设阈值,且第二混响时间估计值和第三混响时间估计值中,存在至少一个小于第二预设阈值的情况下,可以将第二混响时间估计值和第三混响时间估计值的均值确定为全局混响时间。
这样,根据第一混响时间估计值、第二混响时间估计值、第三混响时间估计值的具体数值大小,确定第一目标语音信号的全局混响时间,可以进一步提高全局混响时间的准确性,从而可以进一步提高调整后的回声传递函数长度的准确性,提高通话质量。
在一些实施例中,考虑到近端信号经过一次回声消除之后,虽然大部分回声会被消掉,但是由于回声传递函数对应的滤波器会存在一定的失调,会导致输出信号会残留小部分的回声,故而,可以通过二次回声消除抑制残留回声。相应的,上述回声传递函数长度可以包括第一回声传递函数长度和第二回声传递函数长度。上述步骤S150的具体实现方式可以如下:
根据调整后的第一回声传递函数长度,消除第一目标语音信号的回声,得到第二目标语音信号;
根据调整后的第二回声传递函数长度,消除第二目标语音信号的回声。
其中,第一回声传递函数长度可以是对第一目标语音信号进行第一次回声消除的回声传递函数长度,如第一回声传递函数长度可以是自适应滤波器长度。
第二回声传递函数长度可以是对第一目标语音信号进行第二次回声消除的回声传递函数长度,如第二回声传递函数长度可以是进行残留回声消除的滤波器长度。
作为一个示例,可以对第一目标语音信号进行二次回声消除,以保证回声消除效果。具体的,可以先根据调整后的第一回声传递函数长度,消除第一目标语音信号的回声,得到第一次回声消除后的语音信号,即第二目标语音信号。然后,再根据调整后的第二回声传递函数长度,对第二目标语音信号再次进行回声消除。如,可以是先通过调整后的自适应滤波器长度,对第一目标语音信号进行回声消除,得到第二目标语音信号,再通过调整后的残留回声消除的滤波器长度,对第二目标语音信号进行回声消除。
这样,一方面,采用两个回声传递函数长度对第一目标语音信号进行回声消除,可以进一步提高回声消除效果。另一方面,由于两个回声传递函数长度均是根据全局混响时间调整的,故而,调整后的两个回声传递函数长度更符合第一目标语音信号的实际情况,且如此可以实现两个滤波器的长度的动态调整,从而,可以进一步提高回声消除效果。
需要说明的是,本申请实施例提供的回声消除方法,执行主体可以为回声消除装置,或者,或者该回声消除装置中的用于执行加载回声消除方法的控制模块。本申请实施例中以回声消除装置执行加载回声消除方法为例,说明本申请实施例提供的回声消除方法。
为使本申请实施例提供的回声消除方法更清楚,下面结合图3对本申请实施例提供的回声消除方法进行说明。如图3所示,该回声消除方法可以包括:
确定第一目标语音信号的回声路径、特征提取、确定预设映射关系及多特征融合。
其中,特征提取,可以包括:对回声路径进行预处理得到回声路径的对数功率序列。再基于对数功率序列进行特征提取得到第一目标语音信号中与混响时间相关的第一功率衰减值、第二功率衰减值和平均功率拟合斜率。
确定预设映射关系,可以包括:通过统计模型基于实测样例库中的训练样例库和测试样例库进行训练,确定第一预设映射关系、第二预设映射关系和第三预设映射关系。
多特征融合,可以包括:可以根据第一功率衰减值对应的第一预设映射关系,确定第一功率衰减值对应的第一混响时间估计值;根据第二功率衰减值对应的第二预设映射关系,确定第二功率衰减值对应的第二混响时间估计值;根据平均功率拟合斜率对应的第三预设映射关系,确定平均功率拟合斜率对应的第三混响时间估计值。之后,再对第一混响时间估计值、第二混响时间估计值和第三混响时间估计值,进行融合估计,得到第一目标语音信号的全局混响时间。
其中,上述各步骤的具体实现原理和技术效果与上述各方法实施例类型,为简洁起见,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种回声消除装置,如图4,该回声消除装置400可以包括:
获取模块410,用于获取第一目标语音信号的多个混响特征,多个混响特征为与混响时间相关的多个信号特征;
第一确定模块420,用于根据第一目标语音信号的每个混响特征及其与混响时间估计值之间的预设映射关系,分别确定第一目标语音信号的每个混响特征对应的混响时间估计值;第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,为基于历史语音信号相应的混响特征和该混响特征对应的混响时间得到的映射关系;
第二确定模块430,用于根据第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定第一目标语音信号的全局混响时间;
调整模块440,用于根据全局混响时间,调整回声传递函数长度;
消除模块450,用于根据调整后的回声传递函数长度消除第一目标语音信号的回声。
在本申请实施例中,通过根据第一目标语音信号中与混响时间相关的多个混响特征各自对应的混响时间估计值确定全局混响时间,基于该全局混响时间调整回声传递函数长度,以根据调整后的回声传递函数长度消除第一目标语音信号的回声,且其中每个混响特征各自对应的混响时间估计值是根据每个混响特征及其与混响时间估计值之间的预设映射关系确定的。这样,基于第一目标语音信号的全局混响时间调整回声传递函数长度,可以实现回声传递函数长度的动态控制,使得回声传递函数的长度更符合实际需求。如此,不仅可以避免由于回声传递函数长度较长,导致的资源浪费,还可以避免由于回声传递函数长度较短导致的回声消除效果较差,从而可以更好的提高通话质量,提高用户体验。
在一些实施例中,获取模块410,可以包括:
第一确定单元,用于确定第一目标语音信号的回声路径;
处理单元,用于去除回声路径的功率中数值为零的功率,得到回声路径的对数功率序列;对数功率序列包括Q个序列段,Q为正整数;
获取单元,用于基于不同序列段中的对数功率,获取多个混响特征。
这样,基于对数功率序列的Q个序列段中的不同序列段的功率,获取上述多个混响特征,可以使得获取的多个混响特征更可以表征第一目标语音信号的不同序列段的功率特征,从而可以为全局混响时间的确定提供更准确的数据依据,进而可以进一步使得回声传递函数的长度更符合实际需求,提高通话质量和用户体验。
在一些实施例中,多个信号特征可以包括第一功率衰减值、第二功率衰减值和平均功率拟合斜率;
第一功率衰减值为Q个序列段中的前N个序列段的功率衰减值;第二功率衰减值为Q个序列段中第N-1个序列段之后的L个序列段的功率衰减值;平均功率拟合斜率基于对数功率序列的平均对数功率序列拟合得到。
在一些实施例中,获取单元,可以包括:
第一计算子单元,用于计算Q个序列段中的前N个序列段中,每相邻两个序列段的至少一个第一差异序列,N为正整数,N<Q;
第一确定子单元,用于根据第一差异序列,确定第一功率衰减值;
第二计算子单元,用于计算Q个序列段中的L个序列段中,每相邻两个序列段的至少一个第二差异序列,L个序列段为Q个序列段中第N-1个序列段之后的L个序列段,L为正整数;
第二确定子单元,用于根据第二差异序列,确定第二功率衰减值;
处理子单元,用于通过FIR滤波器对对数功率序列进行处理,得到对数功率序列的平均对数功率序列;
选取子单元,用于选取平均对数功率序列中属于预设区间范围内的连续功率序列段;
拟合子单元,用于根据连续功率序列段,拟合得到平均功率拟合斜率。
这样,基于对数功率序列的Q个序列段中的不同序列段确定第一功率衰减值、第二功率衰减值和平均功率拟合斜率,可以使得获取的混响特征能够更准确的表征第一目标语音信号的不同序列段的功率特征,为确定全局混响时间提供更准确的数据依据,进而可以进一步使得回声传递函数的长度更符合实际需求,提高通话质量和用户体验。
在一些实施例中,第二确定模块430,可以包括:
第二确定单元,用于在第一混响时间估计值小于或等于第一预设阈值的情况下,将第一混响时间估计值确定为全局混响时间;第一混响时间估计值为根据第一功率衰减值及第一功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;
第三确定单元,用于在第二混响时间估计值和第三混响时间估计值均大于或等于第二预设阈值的情况下,将第二混响时间估计值确定为全局混响时间;第二混响时间估计值为根据第二功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值,第三混响时间估计值为根据平均功率拟合斜率及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;
第四确定单元,用于在第一混响时间估计值大于第一预设阈值,且第二混响时间估计值和第三混响时间估计值中,存在至少一个小于第二预设阈值的情况下,将第二混响时间估计值和第三混响时间估计值的均值确定为全局混响时间。
这样,根据第一混响时间估计值、第二混响时间估计值、第三混响时间估计值的具体数值大小,确定第一目标语音信号的全局混响时间,可以进一步提高全局混响时间的准确性,从而可以进一步提高调整后的回声传递函数长度的准确性,提高通话质量。
在一些实施例中,回声传递函数长度可以包括第一回声传递函数长度和第二回声传递函数长度;
消除模块450,可以包括:
第一消除单元,用于根据调整后的第一回声传递函数长度,消除第一目标语音信号的回声,得到第二目标语音信号;
第二消除单元,用于根据调整后的第二回声传递函数长度,消除第二目标语音信号的回声。
这样,一方面,采用两个回声传递函数长度对第一目标语音信号进行回声消除,可以进一步提高回声消除效果。另一方面,由于两个回声传递函数长度均是根据全局混响时间调整的,故而,调整后的两个回声传递函数长度更符合第一目标语音信号的实际情况,且如此可以实现两个滤波器的长度的动态调整,从而,可以进一步提高回声消除效果。
本申请实施例中的回声消除装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的回声消除装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的回声消除装置能够实现图1至图3的方法实施例中回声消除装置实现的各个过程,为避免重复,这里不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备,如图5所示,该电子设备500可以包括处理器510,存储器509,存储在存储器509上并可在处理器510上运行的程序或指令,该程序或指令被处理器510执行时实现上述回声消除方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件。
本领域技术人员可以理解,电子设备500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器510,用于:
获取第一目标语音信号的多个混响特征;
根据第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,分别确定第一目标语音信号的每个混响特征对应的混响时间估计值;
根据第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定第一目标语音信号的全局混响时间;
根据全局混响时间,调整回声传递函数长度;
根据调整后的回声传递函数长度消除第一目标语音信号的回声。
在本申请实施例中,通过根据第一目标语音信号中与混响时间相关的多个混响特征各自对应的混响时间估计值确定全局混响时间,基于该全局混响时间调整回声传递函数长度,以根据调整后的回声传递函数长度消除第一目标语音信号的回声,且其中每个混响特征各自对应的混响时间估计值是根据每个混响特征及其与混响时间估计值之间的预设映射关系确定的。这样,基于第一目标语音信号的全局混响时间调整回声传递函数长度,可以实现回声传递函数长度的动态控制,使得回声传递函数的长度更符合实际需求。如此,不仅可以避免由于回声传递函数长度较长,导致的资源浪费,还可以避免由于回声传递函数长度较短导致的回声消除效果较差,从而可以更好的提高通话质量,提高用户体验。
可选地,处理器510,还用于:
确定第一目标语音信号的回声路径;
去除回声路径的功率中数值为零的功率,得到回声路径的对数功率序列;
基于不同序列段中的对数功率,获取多个混响特征。
这样,基于对数功率序列的Q个序列段中的不同序列段的功率,获取上述多个混响特征,可以使得获取的多个混响特征可以更好的表征第一目标语音信号的不同序列段的功率特征,从而可以为全局混响时间的确定提供更准确的数据依据,进而可以进一步使得回声传递函数的长度更符合实际需求,提高通话质量和用户体验。
可选地,处理器510,还用于:
计算Q个序列段中的前N个序列段中,每相邻两个序列段的至少一个第一差异序列;
根据第一差异序列,确定第一功率衰减值;
计算Q个序列段中的L个序列段中,每相邻两个序列段的至少一个第二差异序列;
根据第二差异序列,确定第二功率衰减值;
通过FIR滤波器对对数功率序列进行处理,得到对数功率序列的平均对数功率序列;
选取平均对数功率序列中属于预设区间范围内的连续功率序列段;
根据连续功率序列段,拟合得到平均功率拟合斜率。
这样,基于对数功率序列的Q个序列段中的不同序列段确定第一功率衰减值、第二功率衰减值和平均功率拟合斜率,可以使得获取的混响特征能够更准确的表征第一目标语音信号的不同序列段的功率特征,为确定全局混响时间提供更准确的数据依据,进而可以进一步使得回声传递函数的长度更符合实际需求,提高通话质量和用户体验。
可选地,处理器510,还用于:
在第一混响时间估计值小于或等于第一预设阈值的情况下,将第一混响时间估计值确定为全局混响时间;
在第二混响时间估计值和第三混响时间估计值均大于或等于第二预设阈值的情况下,将第二混响时间估计值确定为全局混响时间;
在第一混响时间估计值大于第一预设阈值,且第二混响时间估计值和第三混响时间估计值中,存在至少一个小于第二预设阈值的情况下,将第二混响时间估计值和第三混响时间估计值的均值确定为全局混响时间。
这样,根据第一混响时间估计值、第二混响时间估计值、第三混响时间估计值的具体数值大小,确定语音信号的全局混响时间,可以进一步提高全局混响时间的准确性,从而可以进一步提高调整后的回声传递函数长度的准确性,提高通话质量。
可选地,处理器510,还用于:
根据调整后的第一回声传递函数长度,消除第一目标语音信号的回声,得到第二目标语音信号;
根据调整后的第二回声传递函数长度,消除第二目标语音信号的回声。
这样,一方面,采用两个回声传递函数长度对第一目标语音信号进行回声消除,可以进一步提高回声消除效果。另一方面,由于两个回声传递函数长度均是根据全局混响时间调整的,故而,调整后的两个回声传递函数长度更符合第一目标语音信号的实际情况,且如此可以实现两个滤波器的长度的动态调整,从而,可以进一步提高回声消除效果。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述回声消除方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述回声消除方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (14)

1.一种回声消除方法,其特征在于,包括:
获取第一目标语音信号的多个混响特征,所述多个混响特征为与混响时间相关的多个信号特征;
根据所述第一目标语音信号的每个混响特征及其与混响时间估计值之间的预设映射关系,分别确定所述第一目标语音信号的每个混响特征对应的混响时间估计值;所述第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,为基于历史语音信号相应的混响特征和该混响特征对应的混响时间得到的映射关系;
根据所述第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定所述第一目标语音信号的全局混响时间;
根据所述全局混响时间,调整回声传递函数长度;
根据调整后的回声传递函数长度消除所述第一目标语音信号的回声。
2.根据权利要求1所述的方法,其特征在于,所述获取第一目标语音信号的多个混响特征,包括:
确定所述第一目标语音信号的回声路径;
去除所述回声路径的功率中数值为零的功率,得到所述回声路径的对数功率序列;所述对数功率序列包括Q个序列段,Q为正整数;
基于不同序列段中的对数功率,获取所述多个混响特征。
3.根据权利要求2所述的方法,其特征在于,所述多个混响特征包括第一功率衰减值、第二功率衰减值和平均功率拟合斜率;
所述第一功率衰减值为所述Q个序列段中的前N个序列段的功率衰减值;所述第二功率衰减值为所述Q个序列段中第N-1个序列段之后的L个序列段的功率衰减值;所述平均功率拟合斜率基于所述对数功率序列的平均对数功率序列拟合得到。
4.根据权利要求3所述的方法,其特征在于,所述基于不同序列段中的对数功率,获取所述多个混响特征,包括:
计算所述Q个序列段中的前N个序列段中,每相邻两个序列段的至少一个第一差异序列,N为正整数,N<Q;
根据所述第一差异序列,确定所述第一功率衰减值;
计算所述Q个序列段中的L个序列段中,每相邻两个序列段的至少一个第二差异序列,所述L个序列段为所述Q个序列段中第N-1个序列段之后的L个序列段,L为正整数;
根据所述第二差异序列,确定所述第二功率衰减值;
通过FIR滤波器对所述对数功率序列进行处理,得到所述对数功率序列的平均对数功率序列;
选取所述平均对数功率序列中属于预设区间范围内的连续功率序列段;
根据所述连续功率序列段,拟合得到所述平均功率拟合斜率。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定所述第一目标语音信号的全局混响时间,包括:
在第一混响时间估计值小于或等于第一预设阈值的情况下,将所述第一混响时间估计值确定为所述全局混响时间;所述第一混响时间估计值为根据所述第一功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;
在第二混响时间估计值和第三混响时间估计值均大于或等于第二预设阈值的情况下,将所述第二混响时间估计值确定为所述全局混响时间;所述第二混响时间估计值为根据所述第二功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值,所述第三混响时间估计值为根据所述平均功率拟合斜率及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;
在所述第一混响时间估计值大于所述第一预设阈值,且所述第二混响时间估计值和所述第三混响时间估计值中,存在至少一个小于所述第二预设阈值的情况下,将所述第二混响时间估计值和所述第三混响时间估计值的均值确定为所述全局混响时间。
6.根据权利要求1所述的方法,其特征在于,所述回声传递函数长度包括第一回声传递函数长度和第二回声传递函数长度;
所述根据调整后的回声传递函数长度消除所述第一目标语音信号的回声,包括:
根据调整后的所述第一回声传递函数长度,消除所述第一目标语音信号的回声,得到第二目标语音信号;
根据调整后的所述第二回声传递函数长度,消除所述第二目标语音信号的回声。
7.一种回声消除装置,其特征在于,包括:
获取模块,用于获取第一目标语音信号的多个混响特征,所述多个混响特征为与混响时间相关的多个信号特征;
第一确定模块,用于根据所述第一目标语音信号的每个混响特征及其与混响时间估计值之间的预设映射关系,分别确定所述第一目标语音信号的每个混响特征对应的混响时间估计值;所述第一目标语音信号的每个混响特征与混响时间估计值之间的预设映射关系,为基于历史语音信号相应的混响特征和该混响特征对应的混响时间得到的映射关系;
第二确定模块,用于根据所述第一目标语音信号的多个混响特征分别对应的混响时间估计值,确定所述第一目标语音信号的全局混响时间;
调整模块,用于根据所述全局混响时间,调整回声传递函数长度;
消除模块,用于根据调整后的回声传递函数长度消除所述第一目标语音信号的回声。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,包括:
第一确定单元,用于确定所述第一目标语音信号的回声路径;
处理单元,用于去除所述回声路径的功率中数值为零的功率,得到所述回声路径的对数功率序列;所述对数功率序列包括Q个序列段,Q为正整数;
获取单元,用于基于不同序列段中的对数功率,获取所述多个混响特征。
9.根据权利要求8所述的装置,其特征在于,所述多个混响特征包括第一功率衰减值、第二功率衰减值和平均功率拟合斜率;
所述第一功率衰减值为所述Q个序列段中的前N个序列段的功率衰减值;所述第二功率衰减值为所述Q个序列段中第N-1个序列段之后的L个序列段的功率衰减值;所述平均功率拟合斜率基于所述对数功率序列的平均对数功率序列拟合得到。
10.根据权利要求9所述的装置,其特征在于,所述获取单元,包括:
第一计算子单元,用于计算所述Q个序列段中的前N个序列段中,每相邻两个序列段的至少一个第一差异序列,N为正整数,N<Q;
第一确定子单元,用于根据所述第一差异序列,确定所述第一功率衰减值;
第二计算子单元,用于计算所述Q个序列段中的L个序列段中,每相邻两个序列段的至少一个第二差异序列,所述L个序列段为所述Q个序列段中第N-1个序列段之后的L个序列段,L为正整数;
第二确定子单元,用于根据所述第二差异序列,确定所述第二功率衰减值;
处理子单元,用于通过FIR滤波器对所述对数功率序列进行处理,得到所述对数功率序列的平均对数功率序列;
选取子单元,用于选取所述平均对数功率序列中属于预设区间范围内的连续功率序列段;
拟合子单元,用于根据所述连续功率序列段,拟合得到所述平均功率拟合斜率。
11.根据权利要求9或10所述的装置,其特征在于,所述第二确定模块,包括:
第二确定单元,用于在第一混响时间估计值小于或等于第一预设阈值的情况下,将所述第一混响时间估计值确定为所述全局混响时间;所述第一混响时间估计值为根据所述第一功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;
第三确定单元,用于在第二混响时间估计值和第三混响时间估计值均大于或等于第二预设阈值的情况下,将所述第二混响时间估计值确定为所述全局混响时间;所述第二混响时间估计值为根据所述第二功率衰减值及其与混响时间估计值之间的预设映射关系确定的混响时间估计值,所述第三混响时间估计值为根据所述平均功率拟合斜率及其与混响时间估计值之间的预设映射关系确定的混响时间估计值;
第四确定单元,用于在所述第一混响时间估计值大于所述第一预设阈值,且所述第二混响时间估计值和所述第三混响时间估计值中,存在至少一个小于所述第二预设阈值的情况下,将所述第二混响时间估计值和所述第三混响时间估计值的均值确定为所述全局混响时间。
12.根据权利要求7所述的装置,其特征在于,所述回声传递函数长度包括第一回声传递函数长度和第二回声传递函数长度;
所述消除模块,包括:
第一消除单元,用于根据调整后的所述第一回声传递函数长度,消除所述第一目标语音信号的回声,得到第二目标语音信号;
第二消除单元,用于根据调整后的所述第二回声传递函数长度,消除所述第二目标语音信号的回声。
13.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6任一所述的回声消除方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6任一所述的回声消除方法的步骤。
CN202110284766.7A 2021-03-17 2021-03-17 回声消除方法、装置、设备及存储介质 Active CN113077804B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110284766.7A CN113077804B (zh) 2021-03-17 2021-03-17 回声消除方法、装置、设备及存储介质
PCT/CN2022/080048 WO2022194011A1 (zh) 2021-03-17 2022-03-10 回声消除方法、装置、设备及存储介质
EP22770366.7A EP4310840A1 (en) 2021-03-17 2022-03-10 Echo cancellation method and apparatus, device, and storage medium
US18/369,134 US20240005940A1 (en) 2021-03-17 2023-09-15 Echo cancellation method and apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110284766.7A CN113077804B (zh) 2021-03-17 2021-03-17 回声消除方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113077804A true CN113077804A (zh) 2021-07-06
CN113077804B CN113077804B (zh) 2024-02-20

Family

ID=76612577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110284766.7A Active CN113077804B (zh) 2021-03-17 2021-03-17 回声消除方法、装置、设备及存储介质

Country Status (4)

Country Link
US (1) US20240005940A1 (zh)
EP (1) EP4310840A1 (zh)
CN (1) CN113077804B (zh)
WO (1) WO2022194011A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022194011A1 (zh) * 2021-03-17 2022-09-22 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211021A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 残響時間推定装置及び残響時間推定方法
US20110268283A1 (en) * 2010-04-30 2011-11-03 Honda Motor Co., Ltd. Reverberation suppressing apparatus and reverberation suppressing method
CN104685903A (zh) * 2012-10-09 2015-06-03 皇家飞利浦有限公司 用于音频干扰估计的方法和设备
CN107680603A (zh) * 2016-08-02 2018-02-09 电信科学技术研究院 一种混响时间估计方法及装置
CN112489680A (zh) * 2020-11-20 2021-03-12 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5645419B2 (ja) * 2009-08-20 2014-12-24 三菱電機株式会社 残響除去装置
CN111031448B (zh) * 2019-11-12 2021-09-17 西安讯飞超脑信息科技有限公司 回声消除方法、装置、电子设备和存储介质
CN113077804B (zh) * 2021-03-17 2024-02-20 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211021A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 残響時間推定装置及び残響時間推定方法
US20110268283A1 (en) * 2010-04-30 2011-11-03 Honda Motor Co., Ltd. Reverberation suppressing apparatus and reverberation suppressing method
CN104685903A (zh) * 2012-10-09 2015-06-03 皇家飞利浦有限公司 用于音频干扰估计的方法和设备
CN107680603A (zh) * 2016-08-02 2018-02-09 电信科学技术研究院 一种混响时间估计方法及装置
CN112489680A (zh) * 2020-11-20 2021-03-12 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022194011A1 (zh) * 2021-03-17 2022-09-22 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113077804B (zh) 2024-02-20
US20240005940A1 (en) 2024-01-04
EP4310840A1 (en) 2024-01-24
WO2022194011A1 (zh) 2022-09-22

Similar Documents

Publication Publication Date Title
US20200336602A1 (en) Detection of Acoustic Echo Cancellation
CN105791611B (zh) 回声消除方法、装置、终端以及存储介质
CN111951819B (zh) 回声消除方法、装置及存储介质
US9443528B2 (en) Method and device for eliminating echoes
CN111341336B (zh) 一种回声消除方法、装置、终端设备及介质
CN104980600A (zh) 非线性处理器阈值的自动调谐
CN106231145B (zh) 一种回声延时处理方法及回声延时处理装置
US8831210B2 (en) Method and system for detection of onset of near-end signal in an echo cancellation system
US20190132452A1 (en) Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
US20240005940A1 (en) Echo cancellation method and apparatus, device, and storage medium
CN110431624B (zh) 残余回声检测方法、残余回声检测装置、语音处理芯片及电子设备
CN113170024A (zh) 回声消除方法、延时估计方法、装置、存储介质及设备
CN111081246B (zh) 直播机器人唤醒方法、装置、电子设备及存储介质
CN111370015B (zh) 回声消除方法、装置、电子设备及存储介质
CN112289336A (zh) 音频信号处理方法和装置
CN111008130B (zh) 智能问答系统测试方法和装置
CN110021289B (zh) 一种声音信号处理方法、装置及存储介质
CN106297816B (zh) 一种回声消除的非线性处理方法和装置及电子设备
US10403301B2 (en) Audio signal processing apparatus for processing an input earpiece audio signal upon the basis of a microphone audio signal
CN111179931A (zh) 用于语音交互的方法、装置及家用电器
CN110265048B (zh) 回声消除方法、装置、设备及存储介质
CN109507645B (zh) 一种脉冲描述字的提取方法及装置
CN110265061B (zh) 对通话语音进行实时翻译的方法及设备
CN112367594B (zh) Aec调试方法、装置及计算机可读存储介质
CN112333339A (zh) 一种回声消除的测试方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant