CN111292760A - 发声状态检测方法及用户设备 - Google Patents

发声状态检测方法及用户设备 Download PDF

Info

Publication number
CN111292760A
CN111292760A CN201910388300.4A CN201910388300A CN111292760A CN 111292760 A CN111292760 A CN 111292760A CN 201910388300 A CN201910388300 A CN 201910388300A CN 111292760 A CN111292760 A CN 111292760A
Authority
CN
China
Prior art keywords
state
signal
filter
sound signal
sounding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910388300.4A
Other languages
English (en)
Other versions
CN111292760B (zh
Inventor
潘思伟
罗本彪
雍雅琴
孟建华
纪伟
于伟维
董斐
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201910388300.4A priority Critical patent/CN111292760B/zh
Publication of CN111292760A publication Critical patent/CN111292760A/zh
Application granted granted Critical
Publication of CN111292760B publication Critical patent/CN111292760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/24Arrangements for testing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

本公开涉及发声状态检测方法及用户设备,所述方法包括:利用远端声音信号及所述第一麦克风拾取的第一声音信号获得近端声音信号的估计信号;确定所述近端声音信号的估计信号与所述第二麦克风拾取的第二声音信号的功率比;利用所述功率比及预设阈值确定当前通话的发声状态;根据所述发声状态,对所述估计信号进行调节。本公开对发声状态的判断具有准确、抗干扰的特点,再根据发声状态对估计信号进行调节后,可以使得估计信号更接近于用户通话时发出的声音信号,从而提高通话质量及体验。

Description

发声状态检测方法及用户设备
技术领域
本公开涉及语音处理技术领域,尤其涉及一种发声状态检测方法及用户设备。
背景技术
在电话终端中,声学回声是由于扬声器和终端麦克风之间的耦合产生的,电话终端的麦克风拾取的声音信号不仅包含有用的用户发出的声音信号,而且还包含回声信号。如果不对麦克风拾取的声音信号进行处理,则回声信号及近端用户发出的声音信号会被传输到远端扬声器播放出来,远端通话者就会听到自己延迟后的声音,它会使通话者感到不舒服,从而影响通话的效果。当回声较大时,通话甚至无法正常进行。因此,必须采取有效措施来抑制回声,消除其影响,才能提高语音通信质量。
为了采取有效措施来抑制回声,有必要对通话状态进行判断,然而,相关技术判断通话状态的方法过于复杂,且在面临环境噪声或其他干扰信号时,往往无法准确判断通话状态。
因此,急需提出一种新的技术方案,以准确对通话状态进行判断,并提高抗干扰性。
发明内容
有鉴于此,本公开提出了一种发声状态检测方法,所述方法应用于用户设备中,所述用户设备包括第一麦克风、第二麦克风及扬声器,所述第一麦克风与所述扬声器之间的距离大于所述第二麦克风与所述扬声器之间的距离,所述方法包括:
利用远端声音信号及所述第一麦克风拾取的第一声音信号获得近端声音信号的估计信号;
确定所述近端声音信号的估计信号与所述第二麦克风拾取的第二声音信号的功率比;
利用所述功率比及预设阈值确定当前通话的发声状态,其中,所述发声状态为仅远端发声状态、仅近端发声状态及双端发声状态的其中之一;
根据所述发声状态,对所述估计信号进行调节。
在一种可能的实施方式中,所述预设阈值包括第一预设阈值及第二预设阈值,所述第一预设阈值小于所述第二预设阈值,其中,所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
在所述功率比小于所述第一预设阈值的情况下,确定所述发声状态为仅远端发声状态;或
在所述功率比大于所述第二预设阈值,且不存在远端声音信号的情况下,确定所述发声状态为仅近端发声状态;或
在所述功率比大于所述第一预设阈值,且存在远端声音信号的情况下,确定所述发声状态为双端发声状态。
在一种可能的实施方式中,所述方法还包括:
确定当前帧的多个频点对应的所述功率比的加权平均值;
所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
利用所述加权平均值及所述预设阈值确定当前通话中的发声状态。
在一种可能的实施方式中,所述用户设备还包括自适应滤波器、非线性滤波器,所述自适应滤波器用于对输入的声音信号进行自适应滤波处理,所述非线性滤波器用于对输入的声音信号进行非线性滤波处理,
利用远端声音信号及所述第一麦克风拾取的第一声音信号获得近端声音信号的估计信号,包括:
利用所述自适应滤波器对所述远端声音信号进行自适应滤波处理,得到回声估计信号;
在所述第一声音信号中减去所述回声估计信号,得到误差信号;
利用所述非线性滤波器对所述误差信号进行非线性滤波处理,得到所述近端声音信号的估计信号;
根据所述发声状态,对所述估计信号进行调节,包括:
根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,以对所述估计信号进行调节。
在一种可能的实施方式中,在所述发声状态为仅远端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0;
利用所述误差信号及所述远端声音信号对所述自适应滤波器的滤波系数进行更新。
在一种可能的实施方式中,在所述发声状态为仅近端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于关闭状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为1。
在一种可能的实施方式中,在所述发声状态为双端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0-1之间的值。
根据本公开的另一方面,提出了一种用户设备,所述用户设备包括:
第一麦克风、第二麦克风及扬声器,所述第一麦克风与所述扬声器之间的距离大于所述第二麦克风与所述扬声器之间的距离,所述第一麦克风用于拾取第一声音信号,所述第二麦克风用于拾取第二声音信号;
滤波器组件,用于利用远端声音信号及所述第一声音信号获得近端声音信号的估计信号;
双端发声检测器组件,连接于所述滤波器组件,被配置为:
确定所述近端声音信号的估计信号与所述第二声音信号的功率比;
利用所述功率比及预设阈值确定当前通话的发声状态,其中,所述发声状态为仅远端发声状态、仅近端发声状态及双端发声状态的其中之一;
根据所述发声状态,对所述估计信号进行调节。
在一种可能的实施方式中,所述预设阈值包括第一预设阈值及第二预设阈值,所述第一预设阈值小于所述第二预设阈值,其中,所述利用所述功率比及预设阈值确定当前通话的发声状态包括:
在所述功率比小于所述第一预设阈值的情况下,确定所述发声状态为仅远端发声状态;或
在所述功率比大于所述第二预设阈值,且不存在远端声音信号的情况下,确定所述发声状态为仅近端发声状态;或
在所述功率比大于所述第一预设阈值,且存在远端声音信号的情况下,确定所述发声状态为双端发声状态。
在一种可能的实施方式中,所述双端发声检测器组件被配置为确定当前帧的多个频点对应的所述功率比的加权平均值;
其中,所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
利用所述加权平均值及所述预设阈值确定当前通话中的发声状态。
在一种可能的实施方式中,所述滤波器组件包括自适应滤波器、加法器、非线性滤波器,所述自适应滤波器用于对输入的声音信号进行自适应滤波处理,所述非线性滤波器用于对自适应滤波处理后的声音信号进行非线性滤波处理,其中,
所述自适应滤波器用于对所述远端声音信号进行自适应滤波处理,得到回声估计信号;
所述加法器用于在所述第一声音信号中减去所述回声估计信号,得到误差信号;
所述非线性滤波器用于对所述误差信号进行非线性滤波处理,得到所述近端声音信号的估计信号;
所述根据所述发声状态,对所述估计信号进行调节,包括:
根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,以对所述估计信号进行调节。
在一种可能的实施方式中,在所述发声状态为仅远端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0;
利用所述误差信号及所述远端声音信号对所述自适应滤波器的滤波系数进行更新。
在一种可能的实施方式中,在所述发声状态为仅近端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于关闭状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为1。
在一种可能的实施方式中,在所述发声状态为双端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0-1之间的值。
通过以上方法,本公开可以利用远端声音信号及第一声音信号获得近端声音信号的估计信号,确定估计信号与第二声音信号的功率比,并利用功率比及预设阈值确定当前通话的发声状态,并且利用所述发声状态,对估计信号进行调节。本公开利用第一麦克风与第二麦克风与扬声器的距离不同的特性,以估计信号与第二麦克风拾取的第二声音信号的功率比为统计量,与预设阈值进行比较以确定当前通话的发声状态,可以降低环境噪声或其他干扰信号的干扰,对发声状态的判断具有准确、抗干扰的特点,再根据发声状态对估计信号进行调节后,可以使得估计信号更接近于用户通话时发出的声音信号,从而提高通话质量及体验。并且,由于利用了第一麦克风信号中的近端声音的估计信号,能够提供很好的收敛性,从而可提高双端检测的准确度和可靠性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出了根据本公开一实施方式的发声状态检测方法的流程图。
图2a示出了根据本公开一实施方式的应用场景示意图。
图2b示出了根据本公开一实施方式的用户设备的示意图。
图3示出了根据本公开一实施方式的发声检测的示意图。
图4示出了根据本公开一实施方式的发声状态检测方法的流程图。
图5示出了根据本公开一实施方式的发声状态检测及回声抑制策略的示意图。
图6示出了根据本公开一实施方式的免提通话模式下第一麦克风拾取的第一声音信号的示意图。
图7a及图7b示出了相关技术中对图6中第一段声音信号及第二段声音信号的处理结果示意图。
图8a及图8b示出了利用本公开技术方案对图6中第一段声音信号及第二段声音信号的处理结果示意图。
图9示出了根据本公开一实施方式的用户设备的示意图。
图10示出了根据本公开一实施方式的用户设备的装置800的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
请参阅图1,图1示出了根据本公开一实施方式的发声状态检测方法的流程图。
所述方法可以应用于用户设备中,所述用户设备包括第一麦克风、第二麦克风及扬声器,所述第一麦克风与所述扬声器之间的距离大于所述第二麦克风与所述扬声器之间的距离,如图1所示,所述方法包括:
步骤S110,利用远端声音信号及所述第一麦克风拾取的第一声音信号获得近端声音信号的估计信号;
步骤S120,确定所述近端声音信号的估计信号与所述第二麦克风拾取的第二声音信号的功率比;
步骤S130,利用所述功率比及预设阈值确定当前通话的发声状态,其中,所述发声状态为仅远端发声状态、仅近端发声状态及双端发声状态的其中之一;
步骤S140,根据所述发声状态,对所述估计信号进行调节。
通过以上方法,本公开可以利用远端声音信号及第一声音信号获得近端声音信号的估计信号,确定估计信号与第二声音信号的功率比,并利用功率比及预设阈值确定当前通话的发声状态,并且利用所述发声状态,对估计信号进行调节。本公开利用第一麦克风与第二麦克风与扬声器的距离不同的特性,以估计信号与第二麦克风拾取的第二声音信号的功率比为统计量,与预设阈值进行比较以确定当前通话的发声状态,可以降低环境噪声或其他干扰信号的干扰,对发声状态的判断具有准确、抗干扰的特点,再根据发声状态对估计信号进行调节后,可以使得估计信号更接近于用户通话时发出的声音信号,从而提高通话质量及体验。并且,由于利用了第一麦克风信号中的近端声音的估计信号,能够提供很好的收敛性,从而可提高双端检测的准确度和可靠性。
请参阅图2a,图2a示出了根据本公开一实施方式的应用场景示意图。
如图2a所示,远端用户设备101的麦克风102拾取远端声音信号103后将远端声音信号103送至近端用户设备115的扬声器104。直接回声105是由近端用户设备115的扬声器104发出而被近端用户设备115的麦克风108、109(第一麦克风和第二麦克风的示例)直接拾取,间接回声106是由近端用户设备115的扬声器104发出经环境反射而被近端用户设备115的麦克风108、109间接拾取。在拾取回声的同时,如存在近端用户发出的声音107(用户说话),则会被麦克风108、109同时拾取,分别构成上行输入信号110和111。经信道选择模块112处理后可输出处理后的上行信号113(选择方式包括但不限于仅选择输入信号110、仅选择输入信号111、信号110和111的加权叠加(空间滤波)等)。处理后的上行信号113被发送到远端用户设备101的扬声器114播放出来。
在一种可能的实施方式中,用户设备可以包括手机、平板等多种,所述第一麦克风、第二麦克风及扬声器的位置设置可以是多种多样的,只要满足第一麦克风与扬声器的距离大于第二麦克风与扬声器之间的距离即可。
请参阅图2b,图2b示出了根据本公开一实施方式的用户设备的示意图。
第一麦克风、第二麦克风、扬声器的设置可以包括但不限于如图2b所示的四种方案,在一种可能的实施方式中,扬声器203可以设置在用户设备的底部202上。
如图2b所示,在一种可能的实施方式中,用户设备204的第一麦克风208可以设置于顶部201的偏右侧,第二麦克风209可以设置于底部202的偏左侧。
在一种可能的实施方式中,用户设备205的第一麦克风210可以设置于顶部201的偏左侧,第二麦克风211可以设置于底部202的偏左侧。
在一种可能的实施方式中,用户设备206的第一麦克风212可以设置于顶部201的偏左侧,第二麦克风213可以设置于底部202的中间。
在一种可能的实施方式中,用户设备207的第一麦克风214可以设置于顶部201的偏右侧,第二麦克风215可以设置于底部202的中间。
在一种可能的实施方式中,第一麦克风可以作为用户设备的主麦克风,第二麦克风可以作为用户设备的辅麦克风。
应该明白的是,以上举例并非穷举,也不应视为是对本公开的限制,在其他的实施方式中,用户设备的第一麦克风、第二麦克风及扬声器的位置可以不同,只要满足第一麦克风与扬声器的距离大于第二麦克风与扬声器的距离即可。
在一种可能的实施方式中,步骤S110中近端声音信号的估计信号可以包括近端用户发出的近端声音信号的估计信号,所述估计信号可以作为近端用户设备发送给远端用户设备的声音信号。
在一种可能的实施方式中,步骤S120中的功率比,还可以是估计信号与第二声音信号的信号幅度比、能量比、功率谱密度(PSD)。
下面将对本公开所述的发声状态检测方法进行举例说明。
请参阅图3,图3示出了根据本公开一实施方式的发声检测的示意图。
如图3所示,在一种可能的实施方式中,所述用户设备还可以包括自适应滤波器(ADF)304、非线性滤波器(NLP)310,所述自适应滤波器304用于对输入的声音信号进行自适应滤波处理,所述非线性滤波器310用于对输入的声音信号进行非线性滤波处理。步骤S130可以视为基于第一麦克风及第二麦克风实现的双端发声检测器(Double-talk detector,DTD)。
步骤S110中利用远端声音信号及所述第一麦克风拾取的第一声音信号获得近端声音信号的估计信号可以包括:
利用所述自适应滤波器304对所述远端声音信号301进行自适应滤波处理,得到回声估计信号305;
利用加法器307在所述第一声音信号306中减去所述回声估计信号305,得到误差信号308;
利用所述非线性滤波器310对所述误差信号308进行非线性滤波处理,得到所述近端声音信号的估计信号311。
由于自适应滤波器304的长度和收敛性能的限值,误差信号308通常包含线性残余回声和非线性回声,在近端的用户发声的情况下,还会包含近端声音信号。对包含残余回声的误差信号308进行非线性滤波处理可用于实现进一步的回声抑制,进行非线性滤波处理的器件称之为非线性滤波器(NLP)310。经过非线性滤波器310滤波后,误差信号会被抑制,通常使较小的回声信号抑制到不可闻,从而估计得到更加纯净的估计信号311。
由于本公开的用户设备具有第一麦克风302及第二麦克风303,因此,可以利用第一麦克风的估计信号311、远端声音信号301及第二麦克风303拾取的第二声音信号314构建DTD312。
步骤S120“确定所述近端声音信号的估计信号与所述第二麦克风拾取的第二声音信号的功率比”,可以包括利用一下公式确定功率比PR(k,i):
Figure BDA0002055577130000101
其中,
Figure BDA0002055577130000102
表示估计信号311的功率谱密度PSD,Φy2y2(k,i)表示第二声音信号314的功率谱密度。
在当前示例中,所述功率比为估计信号311与第二声音信号314的功率谱密度之比,应该明白的是,所述功率比也可以是估计信号311与第二声音信号314的信号幅度之比、能量之比等。
假设经过自适应滤波和非线性滤波后,第一麦克风的回声信号已被消除,由此得到估计信号的PSD
Figure BDA0002055577130000111
必小于或等于第一麦克风输入信号的PSD Φy1y1(k,i)。
并且,由于所述第一麦克风与所述扬声器之间的距离大于所述第二麦克风与所述扬声器之间的距离,在免提通话状态下,第一麦克风拾取的第一声音信号的PSD与第二麦克风拾取的第二声音信号的PSD的功率比为:
PR1(k,i)=Φy1y1(k,i)/Φy2y2(k,i),其中,Φy1y1(k,i)为第一声音信号的功率谱密度,PR1(k,i)为功率比。
在仅远端发声段,作为声源的免提扬声器更接近第二麦克风,使得第一麦克风信号的PSD低于第二麦克风信号的PSD,从而有:
Φy1y1(k,i)<<Φy2y2(k,i),PR1(k,i)→0。
在仅近端发声段,免提通话时近端讲话者嘴部远离两个麦克风,并且可以假设讲话者嘴部与两个麦克风的距离近似相等,这使得两个麦克风的PSD水平大致相当,从而有:
Φy1y1(k,i)≈Φy2y2(k,i),PR1(k,i)→1。
在双端发声段,通过以仅远端的情况和仅近端的情况下的功率比为端点进行内插,可以推断出,在双端发声段,由于近端用户发出的声音信号的存在,功率比PR1(k,i)将介于0和1之间,具体大小取决于信回比(近端声音信号与回声信号的能量/功率比)。
根据对免提模式下,第一麦克风拾取的第一声音信号与第二麦克风拾取的第二声音信号的功率比的分析,结合估计信号的功率谱密度与第二声音信号的功率谱密度的关系,可以通过估计信号311与第二声音信号的功率及预设阈值确定当前通话的发声状态。
在一种可能的实施方式中,步骤S130中的所述预设阈值包括第一预设阈值及第二预设阈值,所述第一预设阈值小于所述第二预设阈值,其中,步骤S130利用所述功率比及预设阈值确定当前通话的发声状态,包括:
在所述功率比小于所述第一预设阈值的情况下(也即,PR(k,i)<thr1(k,i),其中,thr1(k,i)为所述第一预设阈值),确定所述发声状态为仅远端发声状态。
在所述功率比大于所述第二预设阈值,且不存在远端声音信号的情况下(也即,(PR(k,i)>thr2(k,i))&(无远端声音信号),其中,thr2(k,i)为第二预设阈值),确定所述发声状态为仅近端发声状态。
在所述功率比大于所述第一预设阈值,且存在远端声音信号的情况下(也即,(PR(k,i)>thr1(k,i))&(有远端声音信号)),确定所述发声状态为双端发声状态。
在一种可能的实施方式中,所述预设阈值可以根据仿真及试验结果确定。
在一种可能的实施方式中,可以利用语音活动检测器(VAD)来检测是否存在远端声音信号301,也可以通过设定能量阈值或幅度阈值(例如将获取的远端声音信号301的能量或幅度与能量阈值或幅度阈值进行比较),并利用检测的信号与能量阈值或幅度阈值进行比较来检测是否存在远端声音信号。本公开对如何确定是否存在远端声音信号的方法不做限定。
应该说明的是,如果要通过以上方法确定当前通话的发声状态,特别是在仅远端发声状态,需要满足近端声音信号中的用户发出的声音信号远远小于第二声音信号,也即:
Figure BDA0002055577130000121
其中,d2(n)代表第二麦克风信号接收到的回声信号,
Figure BDA0002055577130000122
表示近端声音信号中用户发出的声音信号,y2(n)表示第二声音信号。
因此,以上方法的实现与用户设备上第一麦克风、第二麦克风、扬声器的位置关系有关,且与通话模式也有关(免提通话)。当然,采用如图2b所示的用户设备中第一麦克风、第二麦克风、扬声器的布局方法可以满足以上条件,从而可以实现发声状态的准确判决,并降低干扰信号的影响。当所述第一麦克风与所述扬声器之间的距离大于所述第二麦克风与所述扬声器之间的距离,且在免提通话模式下,讲话者嘴部会与用户设备的两个麦克风均保持相对较远的距离(与手持模式相比),到达麦克风处的用户发出的声音信号
Figure BDA0002055577130000131
会有一定衰减。与此同时,如果第二麦克风与免提扬声器距离很近,就会使第二麦克风获得很大的回声信号d2(n),从而保证上式的成立和判据的有效。
在一种可能的实施方式中,步骤S120确定所述近端声音信号的估计信号与第二声音信号的功率比,可以是确定当前帧中每一个频点的功率比。
进一步地,在一种可能的实施方式中,所述方法还可以包括:
确定当前帧的多个频点对应的所述功率比的加权平均值
Figure BDA0002055577130000132
其中,αi代表加权系数,N为频点的数目,i为频点序号;
所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
利用所述加权平均值及所述预设阈值确定当前通话中的发声状态。
在一种可能的实施方式中,进行加权平均计算的加权系数可以根据需要确定,例如,在需要取算术平均值的情况下,加权系数αi可以为1/N。
通过对所述功率比应用加权平均的方法,可以降低噪声的干扰,提高发声状态检测的准确性。
在确定了当前通话中的发声状态后,本公开可以利用确定的发声状态对自适应滤波器、非线性滤波器的工作状态进行控制,从而实现在不同发声状态下的回声抑制,以对估计信号进行调节。
在一种可能的实施方式中,可以利用自适应滤波器、非线性滤波器对输入的声音信号进行全频带滤波处理。
请参阅图4,图4示出了根据本公开一实施方式的发声状态检测方法的流程图。
如图4所示,在一种可能的实施方式中,步骤S140可以包括:
步骤S1401,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,对所述估计信号进行调节。
通过以上方法,本公开根据发声状态控制自适应滤波器、非线性滤波器的工作状态,可以实现不同发声状态下的回声抑制,对估计信号进行调节,从而使得下一帧的估计信号更接近于用户发出的声音信号。
在一种可能的实施方式中,在所述发声状态为仅远端发声状态的情况下,步骤S140根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,可以包括:
控制策略A:控制所述自适应滤波器处于正常工作状态、以及允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0;
在这种情况下,步骤S140对所述估计信号进行调节,可以包括:
利用所述自适应滤波器对所述远端声音信号进行自适应滤波处理,得到回声估计信号;
在所述第一声音信号中减去所述回声估计信号,得到误差信号;
利用所述非线性滤波器对所述误差信号进行非线性滤波处理,得到所述近端声音信号的估计信号;
利用所述误差信号及所述远端声音信号对所述自适应滤波器的滤波系数进行更新。
在一种可能的实施方式中,滤波器系数可以用迭代递推方式进行自适应更新,自适应更新的算法可以采用最小均方算法(Least Mean Square,LMS)、归一化最小均方算法(normalized LMS)、投影仿射算法(APA)和递归最小二乘算法(RLS)等的至少一种。以LMS算法为例,可以利用LMS算法更新滤波器系数,使得在当前输入的远端声音信号下,误差信号达到目标值。
在仅远端发声状态,由于近端没有用户发出的声音信号(用户没有说话),因此可以确定,从第一麦克风拾取的第一声音信号和第二麦克风拾取的第二声音信号都只包括回声信号(及其他噪声信号),因此,通过控制所述自适应滤波器处于正常工作状态,并对自适应滤波器的滤波器系数进行自适应更新,可以使得滤波器系数逼近真实的声学回声路径,在下一帧信号来临时,通过自适应滤波器可以更加彻底地滤除回声信号。并且,通过将非线性滤波器的滤波增益设置为0,可以利用非线性滤波器隔绝输入的信号,在这种情况下,可以理解的是,不存在估计信号311(无近端用户发出的声音信号)。
在一种可能的实施方式中,在所述发声状态为仅近端发声状态的情况下,步骤S140根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制策略B:控制所述自适应滤波器处于关闭状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为1。
在这种情况下,步骤S140对所述估计信号进行调节,可以包括:
利用非线性滤波器对所述第一声音信号进行非线性滤波处理,得到所述近端声音信号的估计信号。
在发声状态为仅近端发声状态的情况下,远端参考信号与麦克风拾取的信号可能严重不匹配,难以用线性关系来描述,因此为了防止滤波器系数在迭代更新的过程中发散,本公开控制自适应滤波器为不允许更新自适应滤波器的滤波器系数,而将滤波器系数更新部分置零。并且,在仅近端发声状态下,由于无远端声音信号,因此,本公开将非线性滤波器的滤波增益设置为1,从而使得近端声音信号全部通过非线性滤波器,在这种情况,可以理解的是,估计信号近似为近端声音信号。
在一种可能的实施方式中,在所述发声状态为双端发声状态的情况下,步骤S140根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制策略C:控制所述自适应滤波器处于正常工作状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0-1之间的值。
在这种情况下,步骤S140对所述估计信号进行调节,可以包括:
利用所述自适应滤波器对所述远端声音信号进行自适应滤波处理,得到回声估计信号;
在所述第一声音信号中减去所述回声估计信号,得到误差信号;
利用所述非线性滤波器对所述误差信号进行非线性滤波处理,得到所述近端声音信号的估计信号。
在发声状态为双端发声状态的情况下,与仅近端发声状态类似的是,远端参考信号与麦克风拾取的信号可能严重不匹配,难以用线性关系来描述,因此为了防止滤波器系数在迭代更新的过程中发散,本公开控制自适应滤波器为不允许更新自适应滤波器的滤波器系数,而将滤波器系数更新部分置零。
在一种可能的实施方式中,在控制策略C,可以通过信号间的相关性来确定非线性滤波器的滤波增益。例如,可以计算第一麦克风302拾取的第一声音信号与误差信号308相关性,并根据相关性的大小确定非线性滤波器的滤波增益,当相关性较高(说明是语音信号的概率较高),则确定非线性滤波器的滤波增益越大(接近于1),反之,当相关性越低(说明是回声的概率较高),则确定非线性滤波器的滤波增益越小(接近于0)。
当然,以上描述是示例性的,在其他的实施方式中,也可以计算第一麦克风拾取的第一声音信号与远端声音信号的相关性,从而确定非线性滤波器的滤波增益,对此,本公开不做限定。
在一种可能的实施方式中,在控制策略C,可以通过语音-回声的能量比率(信回比)来确定非线性滤波器的滤波增益,可在频域内根据信回比来定义抑制程度(非线性滤波器的滤波增益),信回比越高,抑制越小(滤波增益越大,接近于1),反之,则越大(滤波增益越小,接近于0)。
通过以上方法,本公开可以根据发声状态对自适应滤波器、非线性滤波器的工作状态进行控制,以对估计信号进行调节,从而能够在提高回声抑制的同时,降低非线性滤波器引起的近端声音信号的损失(用户通话的声音信号)。并且,在仅近端发声状态及双端发声状态下,可以防止自适应滤波器系数在迭代更新的过程中发散,从而保证自适应滤波器的正常工作,提高对回声抑制的效果。
请参阅图5,图5示出了根据本公开一实施方式的发声状态检测及回声抑制策略的示意图。
如图5所示,从每一帧循环401开始,以双麦克风及远端声音信号构成双端发声检测器(DTD)403的输入信号402,经双端发声检测器403后形成双端检测统计量404(也即前述的功率比)。
当双端检测统计量404通过仅远端判决器405判断当前通话为仅远端发声状态时,输出第一标识406,执行控制策略(A)407,然后进入下次循环401。
当判断当前通话不为仅远端发声状态的情况下,输出第二标识408,进入仅近端判决器410进行判断,当判断当前通话为仅近端发声状态的情况下,输出第三标识410,执行控制策略(B)411,然后进入下次循环。
当判断当前通话不为仅近端发声状态的情况下,输出第四标识412,进入双讲判决器413,自动判断当前通话为双端发声状态,输出第五标识414,执行控制策略(C)415,然后进入下次循环401。
以上对发声状态的判断顺序以仅远端发声状态-仅近端发声状态-双端发声状态为例进行了说明,应该明白的是,本公开不限于此,其判断顺序可以根据需要设置。
以上对仅远端判决器405、仅近端判决器410、双讲判决器413分离于DTD403的情况进行了说明,应该明白的是,以上说明是示例性的,仅远端判决器405、仅近端判决器410、双讲判决器413可以集成在DTD403中或以其他形式出现,对此,本公开不做限制。
请参阅图6,图6示出了根据本公开一实施方式的免提通话模式下第一麦克风拾取的第一声音信号的示意图。
参阅图6,图6中的第一段(10-15s)段为仅近端发声状态的情况下采集的声音信号(仅包括用户发出的声音信号信号),第二段(17-21s段)为双端发声状态的情况下采集的声音信号(包括用户发出的声音信号和回声信号),且,第二段中近端声音信号中用户发出的声音信号与第一段的近端声音信号中的用户发出的声音信号一致,回声信号主要位于用户发出的声音信号中的每个段落之间,且回声信号的能量高于声音信号中用户发出的声音信号的能量。
请参阅图7a-7b,图7a及图7b示出了相关技术中对图6中第一段声音信号及第二段声音信号的处理结果示意图。
请参阅图8a-8b,图8a及图8b示出了利用本公开技术方案对图6中第一段声音信号及第二段声音信号的处理结果示意图。
参照相关技术对第一段声音信号(图7a)的处理,相关技术对第二段声音信号(图7b)中的回声信号消除的比较干净,但是,第二段声音信号被处理后,近端声音信号损失严重。
参阅图8a及图8b可知,应用了本公开的技术方案后,第二段声音信号(图8b)中的回声信号消除的比较干净,同时,根据与图8a的对比,第二段声音信号中的近端声音信号损失较小。
可见,根据以上方法,相较于相关技术,本公开可以在消除回声的同时降低双端发声状态下的用户发出的声音信号损失,可以提高通话时的语音输出质量,显著提升语音通信系统中的全双工通话体验。
请参阅图9,图9示出了根据本公开一实施方式的用户设备的示意图。
如图9所示,所述用户设备包括:
第一麦克风510、第二麦克风520及扬声器530,所述第一麦克风510与所述扬声器530之间的距离大于所述第二麦克风520与所述扬声器530之间的距离,所述第一麦克风510用于拾取第一声音信号,所述第二麦克风520用于拾取第二声音信号;
滤波器组件540,用于利用远端声音信号及所述第一声音信号获得近端声音信号的估计信号;
双端发声检测器组件550,连接于所述滤波器组件540和第二麦克风520,被配置为:
确定所述近端声音信号的估计信号与所述第二声音信号的功率比;
利用所述功率比及预设阈值确定当前通话的发声状态,其中,所述发声状态为仅远端发声状态、仅近端发声状态及双端发声状态的其中之一;
根据所述发声状态,对所述估计信号进行调节。
本公开的用户设备可以利用远端声音信号及第一声音信号获得近端声音信号的估计信号,确定估计信号与第二声音信号的功率比,并利用功率比及预设阈值确定当前通话的发声状态,并且利用所述发声状态,对估计信号进行调节。本公开利用第一麦克风与第二麦克风与扬声器的距离不同的特性,以估计信号与第二麦克风拾取的第二声音信号的功率比为统计量,与预设阈值进行比较以确定当前通话的发声状态,可以降低环境噪声或其他干扰信号的干扰,对发声状态的判断具有准确、抗干扰的特点,再根据发声状态对估计信号进行调节后,可以使得估计信号更接近于用户通话时发出的声音信号,从而提高通话质量及体验。并且,由于利用了第一麦克风信号中的近端声音的估计信号,能够提供很好的收敛性,从而可提高双端检测的准确度和可靠性。
在一种可能的实施方式中,所述预设阈值包括第一预设阈值及第二预设阈值,所述第一预设阈值小于所述第二预设阈值,其中,所述利用所述功率比及预设阈值确定当前通话的发声状态包括:
在所述功率比小于所述第一预设阈值的情况下,确定所述发声状态为仅远端发声状态;或
在所述功率比大于所述第二预设阈值,且不存在远端声音信号的情况下,确定所述发声状态为仅近端发声状态;或
在所述功率比大于所述第一预设阈值,且存在远端声音信号的情况下,确定所述发声状态为双端发声状态。
在一种可能的实施方式中,所述双端发声检测器组件被配置为确定当前帧的多个频点对应的所述功率比的加权平均值;
其中,所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
利用所述加权平均值及所述预设阈值确定当前通话中的发声状态。
在一种可能的实施方式中,所述滤波器组件包括自适应滤波器、加法器、非线性滤波器,所述自适应滤波器用于对输入的声音信号进行自适应滤波处理,所述非线性滤波器用于对输入的声音信号进行非线性滤波处理,其中,
所述自适应滤波器用于对所述远端声音信号进行自适应滤波处理,得到回声估计信号;
所述加法器用于在所述第一声音信号中减去所述回声估计信号,得到误差信号;
所述非线性滤波器用于对所述误差信号进行非线性滤波处理,得到所述近端声音信号的估计信号;
所述根据所述发声状态,对所述估计信号进行调节,包括:
根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,以对所述估计信号进行调节。
在一种可能的实施方式中,在所述发声状态为仅远端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0;
利用所述误差信号及所述远端声音信号对所述自适应滤波器的滤波系数进行更新。
在一种可能的实施方式中,在所述发声状态为仅近端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于关闭状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为1。
在一种可能的实施方式中,在所述发声状态为双端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0-1之间的值。
应该说明的是,以上用户设备时前述发声状态检测方法对应的装置,其具体介绍请参考之前的描述,在此不再赘述。
请参阅图10,图10示出了根据本公开一实施方式的用户设备的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和声音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由装置800的处理器820执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

1.一种发声状态检测方法,其特征在于,所述方法应用于用户设备中,所述用户设备包括第一麦克风、第二麦克风及扬声器,所述第一麦克风与所述扬声器之间的距离大于所述第二麦克风与所述扬声器之间的距离,所述方法包括:
利用远端声音信号及所述第一麦克风拾取的第一声音信号获得近端声音信号的估计信号;
确定所述近端声音信号的估计信号与所述第二麦克风拾取的第二声音信号的功率比;
利用所述功率比及预设阈值确定当前通话的发声状态,其中,所述发声状态为仅远端发声状态、仅近端发声状态及双端发声状态的其中之一;
根据所述发声状态,对所述估计信号进行调节。
2.根据权利要求1所述的方法,其特征在于,所述预设阈值包括第一预设阈值及第二预设阈值,所述第一预设阈值小于所述第二预设阈值,其中,所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
在所述功率比小于所述第一预设阈值的情况下,确定所述发声状态为仅远端发声状态;或
在所述功率比大于所述第二预设阈值,且不存在远端声音信号的情况下,确定所述发声状态为仅近端发声状态;或
在所述功率比大于所述第一预设阈值,且存在远端声音信号的情况下,确定所述发声状态为双端发声状态。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定当前帧的多个频点对应的所述功率比的加权平均值;
所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
利用所述加权平均值及所述预设阈值确定当前通话中的发声状态。
4.根据权利要求1所述的方法,其特征在于,所述用户设备还包括自适应滤波器、非线性滤波器,所述自适应滤波器用于对输入的声音信号进行自适应滤波处理,所述非线性滤波器用于对输入的声音信号进行非线性滤波处理,
利用远端声音信号及所述第一麦克风拾取的第一声音信号获得近端声音信号的估计信号,包括:
利用所述自适应滤波器对所述远端声音信号进行自适应滤波处理,得到回声估计信号;
在所述第一声音信号中减去所述回声估计信号,得到误差信号;
利用所述非线性滤波器对所述误差信号进行非线性滤波处理,得到所述近端声音信号的估计信号;
根据所述发声状态,对所述估计信号进行调节,包括:
根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,以对所述估计信号进行调节。
5.根据权利要求4所述的方法,其特征在于,在所述发声状态为仅远端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0;
利用所述误差信号及所述远端声音信号对所述自适应滤波器的滤波系数进行更新。
6.根据权利要求4所述的方法,其特征在于,在所述发声状态为仅近端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于关闭状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为1。
7.根据权利要求4所述的方法,其特征在于,在所述发声状态为双端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0-1之间的值。
8.一种用户设备,其特征在于,所述用户设备包括:
第一麦克风、第二麦克风及扬声器,所述第一麦克风与所述扬声器之间的距离大于所述第二麦克风与所述扬声器之间的距离,所述第一麦克风用于拾取第一声音信号,所述第二麦克风用于拾取第二声音信号;
滤波器组件,用于利用远端声音信号及所述第一声音信号获得近端声音信号的估计信号;
双端发声检测器组件,连接于所述滤波器组件,被配置为:
确定所述近端声音信号的估计信号与所述第二声音信号的功率比;
利用所述功率比及预设阈值确定当前通话的发声状态,其中,所述发声状态为仅远端发声状态、仅近端发声状态及双端发声状态的其中之一;
根据所述发声状态,对所述估计信号进行调节。
9.根据权利要求8所述的用户设备,其特征在于,所述预设阈值包括第一预设阈值及第二预设阈值,所述第一预设阈值小于所述第二预设阈值,其中,所述利用所述功率比及预设阈值确定当前通话的发声状态包括:
在所述功率比小于所述第一预设阈值的情况下,确定所述发声状态为仅远端发声状态;或
在所述功率比大于所述第二预设阈值,且不存在远端声音信号的情况下,确定所述发声状态为仅近端发声状态;或
在所述功率比大于所述第一预设阈值,且存在远端声音信号的情况下,确定所述发声状态为双端发声状态。
10.根据权利要求8所述的用户设备,其特征在于,所述双端发声检测器组件被配置为确定当前帧的多个频点对应的所述功率比的加权平均值;
其中,所述利用所述功率比及预设阈值确定当前通话的发声状态,包括:
利用所述加权平均值及所述预设阈值确定当前通话中的发声状态。
11.根据权利要求8所述的用户设备,其特征在于,所述滤波器组件包括自适应滤波器、加法器、非线性滤波器,所述自适应滤波器用于对输入的声音信号进行自适应滤波处理,所述非线性滤波器用于对自适应滤波处理后的声音信号进行非线性滤波处理,其中,
所述自适应滤波器用于对所述远端声音信号进行自适应滤波处理,得到回声估计信号;
所述加法器用于在所述第一声音信号中减去所述回声估计信号,得到误差信号;
所述非线性滤波器用于对所述误差信号进行非线性滤波处理,得到所述近端声音信号的估计信号;
所述根据所述发声状态,对所述估计信号进行调节,包括:
根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,以对所述估计信号进行调节。
12.根据权利要求11所述的用户设备,其特征在于,在所述发声状态为仅远端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0;
利用所述误差信号及所述远端声音信号对所述自适应滤波器的滤波系数进行更新。
13.根据权利要求11所述的用户设备,其特征在于,在所述发声状态为仅近端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于关闭状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为1。
14.根据权利要求11所述的用户设备,其特征在于,在所述发声状态为双端发声状态的情况下,根据所述发声状态控制所述自适应滤波器、所述非线性滤波器的工作状态,包括:
控制所述自适应滤波器处于正常工作状态、以及不允许更新自适应滤波器的滤波器系数,设置所述非线性滤波器的滤波增益为0-1之间的值。
CN201910388300.4A 2019-05-10 2019-05-10 发声状态检测方法及用户设备 Active CN111292760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910388300.4A CN111292760B (zh) 2019-05-10 2019-05-10 发声状态检测方法及用户设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910388300.4A CN111292760B (zh) 2019-05-10 2019-05-10 发声状态检测方法及用户设备

Publications (2)

Publication Number Publication Date
CN111292760A true CN111292760A (zh) 2020-06-16
CN111292760B CN111292760B (zh) 2022-11-15

Family

ID=71024145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910388300.4A Active CN111292760B (zh) 2019-05-10 2019-05-10 发声状态检测方法及用户设备

Country Status (1)

Country Link
CN (1) CN111292760B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964670A (zh) * 2009-07-21 2011-02-02 雅马哈株式会社 回声抑制方法及回声抑制设备
CN102223456A (zh) * 2010-04-14 2011-10-19 华为终端有限公司 回声信号处理方法及装置
CN104158990A (zh) * 2013-05-13 2014-11-19 英特尔Ip公司 用于处理音频信号的方法和音频接收电路
CN107483761A (zh) * 2016-06-07 2017-12-15 电信科学技术研究院 一种回波抑制方法及装置
CN108540680A (zh) * 2018-02-02 2018-09-14 广州视源电子科技股份有限公司 讲话状态的切换方法及装置、通话系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964670A (zh) * 2009-07-21 2011-02-02 雅马哈株式会社 回声抑制方法及回声抑制设备
CN102223456A (zh) * 2010-04-14 2011-10-19 华为终端有限公司 回声信号处理方法及装置
CN104158990A (zh) * 2013-05-13 2014-11-19 英特尔Ip公司 用于处理音频信号的方法和音频接收电路
CN107483761A (zh) * 2016-06-07 2017-12-15 电信科学技术研究院 一种回波抑制方法及装置
CN108540680A (zh) * 2018-02-02 2018-09-14 广州视源电子科技股份有限公司 讲话状态的切换方法及装置、通话系统

Also Published As

Publication number Publication date
CN111292760B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
US11587574B2 (en) Voice processing method, apparatus, electronic device, and storage medium
EP2783504B1 (en) Acoustic echo cancellation based on ultrasound motion detection
CN109361828B (zh) 一种回声消除方法、装置、电子设备及存储介质
US8842851B2 (en) Audio source localization system and method
US8811602B2 (en) Full duplex speakerphone design using acoustically compensated speaker distortion
US11875808B2 (en) Voice call method and apparatus, electronic device, and computer-readable storage medium
US9191519B2 (en) Echo suppressor using past echo path characteristics for updating
US9508357B1 (en) System and method of optimizing a beamformer for echo control
JP2010081004A (ja) エコーキャンセル装置、通信装置、及びエコーキャンセル方法
CN111556210B (zh) 通话语音处理方法与装置、终端设备和存储介质
CN106791245B (zh) 确定滤波器系数的方法及装置
CN113362843B (zh) 音频信号处理方法及装置
CN108540680B (zh) 讲话状态的切换方法及装置、通话系统
KR20150053621A (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
US9858944B1 (en) Apparatus and method for linear and nonlinear acoustic echo control using additional microphones collocated with a loudspeaker
CN111294473B (zh) 信号处理方法及装置
CN111292760B (zh) 发声状态检测方法及用户设备
CN112217948B (zh) 语音通话的回声处理方法、装置、设备及存储介质
CN113077808A (zh) 一种语音处理方法、装置和用于语音处理的装置
CN111383648B (zh) 一种回波消除方法和装置
CN113470675B (zh) 音频信号处理方法及装置
CN113345456B (zh) 回声分离方法、装置及存储介质
CN115883736A (zh) 回声消除方法、装置及存储介质
CN113470675A (zh) 音频信号处理方法及装置
CN116778943A (zh) 啸叫抑制方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant