CN111863001A - 一种多方通话系统中抑制背景噪声的方法 - Google Patents

一种多方通话系统中抑制背景噪声的方法 Download PDF

Info

Publication number
CN111863001A
CN111863001A CN202010551615.9A CN202010551615A CN111863001A CN 111863001 A CN111863001 A CN 111863001A CN 202010551615 A CN202010551615 A CN 202010551615A CN 111863001 A CN111863001 A CN 111863001A
Authority
CN
China
Prior art keywords
background noise
human voice
voice
time window
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010551615.9A
Other languages
English (en)
Inventor
叶平亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Hualiao Electric Technology Co ltd
Original Assignee
Guangzhou Hualiao Electric Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Hualiao Electric Technology Co ltd filed Critical Guangzhou Hualiao Electric Technology Co ltd
Priority to CN202010551615.9A priority Critical patent/CN111863001A/zh
Publication of CN111863001A publication Critical patent/CN111863001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

一种多方通话系统中抑制背景噪声的方法,它涉及语音处理技术领域。它包含录制、处理、发送、还原、播放等五大步骤,所述的含录制优选使用选择性较好的麦克风,仅需一个即可,此种麦克风具备这样的特点:距离近的声源产生的信号比较强,距离远的声源产生的信号相对弱,在录制并转化为数字化语音的过程中,无论是模拟语音的录制,还是数字化语音的生成,都做一些信号增强,或减弱,或自动控制增益。以该发明一种多方通话系统中抑制背景噪声的方法,能够以很低的计算处理开销,几乎没有额外的成本增加的情况下,实现在特定使用场景下可接受的降噪效果,甚至在一部分用户看来,效果会高于一般的通用背景噪声消除/抵消的方案。

Description

一种多方通话系统中抑制背景噪声的方法
技术领域
本发明涉及语音处理技术领域,具体涉及一种多方通话系统中抑制背景噪声的方法。
背景技术
通话系统是广电、演出等行业必不可少的一个重要硬件,对行业内的各种流程控制和质量有着重要的影响。随着行业规模大型化,参加制作的人员越来越多,分工不断细化;活动的场地也不再拘泥于一个演播室、一个剧场、一个体育馆甚至不在同一个城市或国家,可能是多个演播室或相隔很远的多个现场组成。这时就需要一个完善的通话系统把所有节目制作人员有机地联系在一起,对制片人、导演、现场导演、节目主持、摄像师、调音师、灯光、字幕操作、大屏幕插播、技术调控等各工种的工作进行有效的调度,是成功录制或直播的关键所在。
在此环境下,用户期望通话系统能像在安静的会议室开会一样,所有人都可以随时说话交流,指挥调度。然而使用现场往往有大量的环境噪声,并非安静场景,如果不加处理的话,耳机里会出现来自于多个人的在不同位置处的现场背景噪声的混叠,造成人声模糊、含混,混合在一起无法分离,对顺畅交流构成挑战。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种多方通话系统中抑制背景噪声的方法,以解决上述背景技术中提出的耳机里会出现来自于多个人的在不同位置处的现场背景噪声的混叠,造成人声模糊、含混,混合在一起无法分离,对顺畅交流构成挑战等问题,本发明能够以很低的计算处理开销,几乎没有额外的成本增加的情况下,实现在特定使用场景下可接受的降噪效果,甚至在一部分用户看来,效果会高于一般的通用背景噪声消除/抵消的方案。
为实现上述目的,本发明采用以下技术方案是:它包含录制、处理、发送、还原、播放等五大步骤,所述的含录制优选使用选择性较好的麦克风,仅需一个即可,此种麦克风具备这样的特点:距离近的声源产生的信号比较强,距离远的声源产生的信号相对弱,比如,指向性强的驻极体麦克风、MEMS麦克风,对距离敏感的动圈麦克风等都可以,如果不做特殊选择也可以,但按此要求选择麦克风会更容易适配以下描述的配置参数,在录制并转化为数字化语音的过程中,无论是模拟语音的录制,还是数字化语音的生成,都做一些信号增强,或减弱,或自动控制增益,这些环节的处理要求必须控制在下述步骤描述的背景噪声和人声的临界阈值范围以内;所述的处理即为多路同时通话系统往往会对人声进行预处理,比如预加重、降噪、背景噪声抵消、背景噪声减弱、抗风噪、啸叫抑制、EQ调节、回声消除等,这些环节都不得破坏背景噪声和人声的识别临界阈值范围;所述的发送、还原、播放即为通话系统中有用的部分仅来自于通话设备使用者的讲话声,环境中其他人的声音,音响、音乐、或其他各种背景噪声都不重要且不需要,将其完全消除的行为对用户来说是可接受的,甚至是被认为良好的结果,通话系统中指挥者和成员是具备良好使用秩序的,不会故意劣化全体通话效果,比如,摄像团队在工作时主要听从导播也就是指挥者讲话,团队成员在有需要的时候讲话,禁止团队成员故意做与团队协作无关的发出语音的行为,比如持续不断地咳嗽、自言自语、哼唱,与团队外其他成员闲聊(如有必要时应临时关闭自己的麦克),这些行为不会导致本发明不能工作,但会减弱其工作效果。
所述的一种多方通话系统中抑制背景噪声的方法根据通话系统的常见用户人群的使用习惯,多个典型使用场景的特点进行用户调查,该调查需在安静、一般、嘈杂、非常吵闹、震耳欲聋、裸耳无法忍受等各种等级的使用场景下反复进行,取得大量的数据,该数据应足以反映出通话系统的几乎全部的用户、几乎全部的使用场景,记录下述要求的数据并分析建模,提炼出如下系统参数:各种场景下针对特定的耳机/麦克风,麦克风距离嘴唇的典型距离相对合理的,可以支持的最小、最大的距离,比如,一般情况下此参数为0~10厘米范围,例如,一般场景1~5厘米,安静场景2~8厘米,嘈杂场景0~4厘米;各种场景下用户的典型发音音量相对合理的,可以支持的各种人群的、各种语句的最小、最大的音量,比如,假设其他参数全部调试完毕后,在麦克风距离嘴唇1cm为准,以嗓门较大较洪亮的人说“啊…”,以此录音音量数字化之后的最大值为100%参照,那么,一般情况下最小以1%为人声启动门限,安静环境和嘈杂环境分别可降低或提高,比如安静环境0.5%,嘈杂环境5%。
所述的一种多方通话系统中抑制背景噪声的方法针对特定的多种支持的耳机/麦克风,各种特定的常见使用场景,为每一种耳机在每一种场景下都制定出如下控制参数:背景噪声的典型的临界音量阈值、人声的典型的临界音量阈值、背景噪声的弱化系数、人声检测的最小时间窗口、人声活动的最大持续时间窗口、背景噪声抑制状态进入人声状态的平滑过渡时间窗口、人声活动结束进入背景噪声抑制的平滑过渡时间窗口,所述的背景噪声的典型的临界音量阈值在各种场景下,背景噪声绝大部分时间内都低于此值,比如一般情况下以0.5~1%为参照门限,安静环境和嘈杂环境相应降低或提高;所述的人声的典型的临界音量阈值在各种场景下,人声绝大部分时间内都高于此值,比如一般情况下以1%为参照门限,安静环境和嘈杂环境相应降低或提高;所述的背景噪声的弱化系数可以定义为百分比,0%表明不做任何弱化,100%表明完全消除噪声,此值一般设置为在特定场景下感受到比较舒适的噪声程度,也可以由用户自行设置,比如一般情况下以85~95%为参照门限,安静环境和嘈杂环境相应降低或提高,也可以设置为100%;所述的人声检测的最小时间窗口在各种常见的语言和字词,有意义的字词的发音的最小持续时间,比如一般字词的发音持续时间在100~400毫秒;所述的人声活动的最大持续时间窗口各种常见的语言中,在说话的特点都有字词之间的间隙,一句话和下一句话之间的换气、停顿,此参数表明,在特定的使用人群和环境下,一个人在一句话说完后长时间停顿,绝大部分的人都会认为他不再发言了,这个时间尺度,比如一般字词之间的间隔在0~300毫秒,一句话和下一句话之间的换气、停顿间隔在200~2000毫秒;所述的背景噪声抑制状态进入人声状态的平滑过渡时间窗口为改善状态切换的突兀感而设置,比如,可设置为50~100毫秒;所述的人声活动结束进入背景噪声抑制的平滑过渡时间窗口为改善状态切换的突兀感而设置,比如,可设置为50~100毫秒。
所述的一种多方通话系统中抑制背景噪声的方法在语音预处理的中间或最后环节进行背景噪声、人声活动的检测,有如下定义,人声活动连续窗口开始:检测到音量大于上述人声的典型的临界音量阈值,并且持续时间超过人声检测的最小时间窗口;背景噪声连续窗口开始:检测到音量小于背景噪声的典型的临界音量阈值,并且持续时间超过人声活动的最大持续时间窗口。
所述的一种多方通话系统中抑制背景噪声的方法需进行如下处理:在人声活动连续窗口内,不做任何处理;检测到背景噪声连续窗口开始,使用上述人声活动结束进入背景噪声抑制的平滑过渡时间窗口,进行连续处理,逐步减弱,直至完全进入背景噪声抑制状态;在背景噪声抑制状态,应用上述背景噪声的弱化系数,将背景噪声进行弱化,或完全消除;检测到人声活动连续窗口开始,使用上述背景噪声抑制状态进入人声状态的平滑过渡时间窗口,进行连续处理,逐步增强,直至完全进入将人声活动持续进行的状态。
采用上述技术方案后,本发明有益效果为:以该发明一种多方通话系统中抑制背景噪声的方法,解决了耳机里会出现来自于多个人的在不同位置处的现场背景噪声的混叠,造成人声模糊、含混,混合在一起无法分离,对顺畅交流构成挑战等问题,本发明能够以很低的计算处理开销,几乎没有额外的成本增加的情况下,实现在特定使用场景下可接受的降噪效果,甚至在一部分用户看来,效果会高于一般的通用背景噪声消除/抵消的方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的控制参数示意图。
附图标记说明:背景噪声的典型的临界音量阈值1、人声的典型的临界音量阈值2、背景噪声的弱化系数3、人声检测的最小时间窗口4、人声活动的最大持续时间窗口5、背景噪声抑制状态进入人声状态的平滑过渡时间窗口6、人声活动结束进入背景噪声抑制的平滑过渡时间窗口7。
具体实施方式
参看图1所示,本具体实施方式采用的技术方案是:它包含录制、处理、发送、还原、播放等五大步骤,所述的含录制优选使用选择性较好的麦克风,仅需一个即可,此种麦克风具备这样的特点:距离近的声源产生的信号比较强,距离远的声源产生的信号相对弱,比如,指向性强的驻极体麦克风、MEMS麦克风,对距离敏感的动圈麦克风等都可以,如果不做特殊选择也可以,但按此要求选择麦克风会更容易适配以下描述的配置参数,在录制并转化为数字化语音的过程中,无论是模拟语音的录制,还是数字化语音的生成,都做一些信号增强,或减弱,或自动控制增益,这些环节的处理要求必须控制在下述步骤描述的背景噪声和人声的临界阈值范围以内;所述的处理即为多路同时通话系统往往会对人声进行预处理,比如预加重、降噪、背景噪声抵消、背景噪声减弱、抗风噪、啸叫抑制、EQ调节、回声消除等,这些环节都不得破坏背景噪声和人声的识别临界阈值范围;所述的发送、还原、播放即为通话系统中有用的部分仅来自于通话设备使用者的讲话声,环境中其他人的声音,音响、音乐、或其他各种背景噪声都不重要且不需要,将其完全消除的行为对用户来说是可接受的,甚至是被认为良好的结果,通话系统中指挥者和成员是具备良好使用秩序的,不会故意劣化全体通话效果,比如,摄像团队在工作时主要听从导播也就是指挥者讲话,团队成员在有需要的时候讲话,禁止团队成员故意做与团队协作无关的发出语音的行为,比如持续不断地咳嗽、自言自语、哼唱,与团队外其他成员闲聊(如有必要时应临时关闭自己的麦克),这些行为不会导致本发明不能工作,但会减弱其工作效果。
进一步的,所述的一种多方通话系统中抑制背景噪声的方法根据通话系统的常见用户人群的使用习惯,多个典型使用场景的特点进行用户调查,该调查需在安静、一般、嘈杂、非常吵闹、震耳欲聋、裸耳无法忍受等各种等级的使用场景下反复进行,取得大量的数据,该数据应足以反映出通话系统的几乎全部的用户、几乎全部的使用场景,记录下述要求的数据并分析建模,提炼出如下系统参数:各种场景下针对特定的耳机/麦克风,麦克风距离嘴唇的典型距离相对合理的,可以支持的最小、最大的距离,比如,一般情况下此参数为0~10厘米范围,例如,一般场景1~5厘米,安静场景2~8厘米,嘈杂场景0~4厘米;各种场景下用户的典型发音音量相对合理的,可以支持的各种人群的、各种语句的最小、最大的音量,比如,假设其他参数全部调试完毕后,在麦克风距离嘴唇1cm为准,以嗓门较大较洪亮的人说“啊…”,以此录音音量数字化之后的最大值为100%参照,那么,一般情况下最小以1%为人声启动门限,安静环境和嘈杂环境分别可降低或提高,比如安静环境0.5%,嘈杂环境5%。
进一步的,所述的一种多方通话系统中抑制背景噪声的方法针对特定的多种支持的耳机/麦克风,各种特定的常见使用场景,为每一种耳机在每一种场景下都制定出如下控制参数:背景噪声的典型的临界音量阈值1、人声的典型的临界音量阈值2、背景噪声的弱化系数3、人声检测的最小时间窗口4、人声活动的最大持续时间窗口5、背景噪声抑制状态进入人声状态的平滑过渡时间窗口6、人声活动结束进入背景噪声抑制的平滑过渡时间窗口7,所述的背景噪声的典型的临界音量阈值1在各种场景下,背景噪声绝大部分时间内都低于此值,比如一般情况下以0.5~1%为参照门限,安静环境和嘈杂环境相应降低或提高;所述的人声的典型的临界音量阈值2在各种场景下,人声绝大部分时间内都高于此值,比如一般情况下以1%为参照门限,安静环境和嘈杂环境相应降低或提高;所述的背景噪声的弱化系数3可以定义为百分比,0%表明不做任何弱化,100%表明完全消除噪声,此值一般设置为在特定场景下感受到比较舒适的噪声程度,也可以由用户自行设置,比如一般情况下以85~95%为参照门限,安静环境和嘈杂环境相应降低或提高,也可以设置为100%;所述的人声检测的最小时间窗口4在各种常见的语言和字词,有意义的字词的发音的最小持续时间,比如一般字词的发音持续时间在100~400毫秒;所述的人声活动的最大持续时间窗口5各种常见的语言中,在说话的特点都有字词之间的间隙,一句话和下一句话之间的换气、停顿,此参数表明,在特定的使用人群和环境下,一个人在一句话说完后长时间停顿,绝大部分的人都会认为他不再发言了,这个时间尺度,比如一般字词之间的间隔在0~300毫秒,一句话和下一句话之间的换气、停顿间隔在200~2000毫秒;所述的背景噪声抑制状态进入人声状态的平滑过渡时间窗口6为改善状态切换的突兀感而设置,比如,可设置为50~100毫秒;所述的人声活动结束进入背景噪声抑制的平滑过渡时间窗口7为改善状态切换的突兀感而设置,比如,可设置为50~100毫秒。
进一步的,所述的一种多方通话系统中抑制背景噪声的方法在语音预处理的中间或最后环节进行背景噪声、人声活动的检测,有如下定义,人声活动连续窗口开始:检测到音量大于上述人声的典型的临界音量阈值2,并且持续时间超过人声检测的最小时间窗口4;背景噪声连续窗口开始:检测到音量小于背景噪声的典型的临界音量阈值1,并且持续时间超过人声活动的最大持续时间窗口5。
进一步的,所述的一种多方通话系统中抑制背景噪声的方法需进行如下处理:在人声活动连续窗口内,不做任何处理;检测到背景噪声连续窗口开始,使用上述人声活动结束进入背景噪声抑制的平滑过渡时间窗口7,进行连续处理,逐步减弱,直至完全进入背景噪声抑制状态;在背景噪声抑制状态,应用上述背景噪声的弱化系数3,将背景噪声进行弱化,或完全消除;检测到人声活动连续窗口开始,使用上述背景噪声抑制状态进入人声状态的平滑过渡时间窗口6,进行连续处理,逐步增强,直至完全进入将人声活动持续进行的状态。
采用上述技术方案后,本发明有益效果为:以该发明一种多方通话系统中抑制背景噪声的方法,解决了耳机里会出现来自于多个人的在不同位置处的现场背景噪声的混叠,造成人声模糊、含混,混合在一起无法分离,对顺畅交流构成挑战等问题,本发明能够以很低的计算处理开销,几乎没有额外的成本增加的情况下,实现在特定使用场景下可接受的降噪效果,甚至在一部分用户看来,效果会高于一般的通用背景噪声消除/抵消的方案。
本技术方案基于特定场合下使用的内部通话系统而提出,针对在相对嘈杂环境下,多人的团队协调情况下的解决办法,本技术方案不排斥同时使用其他的现有技术方案,允许其他方案与本方案的叠加使用,从而获得更好的效果,其他方法必须接受下面描述的约束,在此场景下,通话系统有如下假设,用户必须接受这些前提条件,否则就不能使用本方案描述的背景噪声消除的方法。

Claims (5)

1.一种多方通话系统中抑制背景噪声的方法,其特征在于:它包含录制、处理、发送、还原、播放等五大步骤,所述的含录制优选使用选择性较好的麦克风,仅需一个即可,此种麦克风具备这样的特点:距离近的声源产生的信号比较强,距离远的声源产生的信号相对弱,在录制并转化为数字化语音的过程中,无论是模拟语音的录制,还是数字化语音的生成,都做一些信号增强,或减弱,或自动控制增益,这些环节的处理要求必须控制在下述步骤描述的背景噪声和人声的临界阈值范围以内;所述的处理即为多路同时通话系统往往会对人声进行预处理;所述的发送、还原、播放即为通话系统中有用的部分仅来自于通话设备使用者的讲话声,环境中其他人的声音,音响、音乐、或其他各种背景噪声都不重要且不需要,将其完全消除的行为对用户来说是可接受的,甚至是被认为良好的结果,通话系统中指挥者和成员是具备良好使用秩序的,不会故意劣化全体通话效果。
2.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法,其特征在于:所述的一种多方通话系统中抑制背景噪声的方法根据通话系统的常见用户人群的使用习惯,多个典型使用场景的特点进行用户调查,该调查需在安静、一般、嘈杂、非常吵闹、震耳欲聋、裸耳无法忍受等各种等级的使用场景下反复进行,取得大量的数据,该数据应足以反映出通话系统的几乎全部的用户、几乎全部的使用场景,记录下述要求的数据并分析建模,提炼出如下系统参数:各种场景下针对特定的耳机/麦克风,麦克风距离嘴唇的典型距离相对合理的,可以支持的最小、最大的距离;各种场景下用户的典型发音音量相对合理的,可以支持的各种人群的、各种语句的最小、最大的音量。
3.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法,其特征在于:所述的一种多方通话系统中抑制背景噪声的方法针对特定的多种支持的耳机/麦克风,各种特定的常见使用场景,为每一种耳机在每一种场景下都制定出如下控制参数:背景噪声的典型的临界音量阈值(1)、人声的典型的临界音量阈值(2)、背景噪声的弱化系数(3)、人声检测的最小时间窗口(4)、人声活动的最大持续时间窗口(5)、背景噪声抑制状态进入人声状态的平滑过渡时间窗口(6)、人声活动结束进入背景噪声抑制的平滑过渡时间窗口(7),所述的背景噪声的典型的临界音量阈值(1)在各种场景下,背景噪声绝大部分时间内都低于此值;所述的人声的典型的临界音量阈值(2)在各种场景下,人声绝大部分时间内都高于此值;所述的背景噪声的弱化系数(3)可以定义为百分比,0%表明不做任何弱化,100%表明完全消除噪声,此值一般设置为在特定场景下感受到比较舒适的噪声程度,也可以由用户自行设置;所述的人声检测的最小时间窗口(4)在各种常见的语言和字词,有意义的字词的发音的最小持续时间;所述的人声活动的最大持续时间窗口(5)各种常见的语言中,在说话的特点都有字词之间的间隙,一句话和下一句话之间的换气、停顿,此参数表明,在特定的使用人群和环境下,一个人在一句话说完后长时间停顿,绝大部分的人都会认为他不再发言了,这个时间尺度;所述的背景噪声抑制状态进入人声状态的平滑过渡时间窗口(6)为改善状态切换的突兀感而设置;所述的人声活动结束进入背景噪声抑制的平滑过渡时间窗口(7)为改善状态切换的突兀感而设置。
4.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法,其特征在于:所述的一种多方通话系统中抑制背景噪声的方法在语音预处理的中间或最后环节进行背景噪声、人声活动的检测,有如下定义,人声活动连续窗口开始:检测到音量大于上述人声的典型的临界音量阈值(2),并且持续时间超过人声检测的最小时间窗口(4);背景噪声连续窗口开始:检测到音量小于背景噪声的典型的临界音量阈值(1),并且持续时间超过人声活动的最大持续时间窗口(5)。
5.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法,其特征在于:所述的一种多方通话系统中抑制背景噪声的方法需进行如下处理:在人声活动连续窗口内,不做任何处理;检测到背景噪声连续窗口开始,使用上述人声活动结束进入背景噪声抑制的平滑过渡时间窗口(7),进行连续处理,逐步减弱,直至完全进入背景噪声抑制状态;在背景噪声抑制状态,应用上述背景噪声的弱化系数(3),将背景噪声进行弱化,或完全消除;检测到人声活动连续窗口开始,使用上述背景噪声抑制状态进入人声状态的平滑过渡时间窗口(6),进行连续处理,逐步增强,直至完全进入将人声活动持续进行的状态。
CN202010551615.9A 2020-06-17 2020-06-17 一种多方通话系统中抑制背景噪声的方法 Pending CN111863001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010551615.9A CN111863001A (zh) 2020-06-17 2020-06-17 一种多方通话系统中抑制背景噪声的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010551615.9A CN111863001A (zh) 2020-06-17 2020-06-17 一种多方通话系统中抑制背景噪声的方法

Publications (1)

Publication Number Publication Date
CN111863001A true CN111863001A (zh) 2020-10-30

Family

ID=72986737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010551615.9A Pending CN111863001A (zh) 2020-06-17 2020-06-17 一种多方通话系统中抑制背景噪声的方法

Country Status (1)

Country Link
CN (1) CN111863001A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599142A (zh) * 2020-12-14 2021-04-02 北京百瑞互联技术有限公司 调节背景声与人声的蓝牙传输方法、设备及存储介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312938A (zh) * 1997-09-02 2001-09-12 夸尔柯姆股份有限公司 噪声抑制系统和方法
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101080766A (zh) * 2004-11-03 2007-11-28 声学技术公司 使用bark频带weiner滤波器和线性衰减的噪声降低和舒适噪声增益控制
CN107146628A (zh) * 2017-04-07 2017-09-08 宇龙计算机通信科技(深圳)有限公司 一种语音通话处理方法及移动终端
CN107580113A (zh) * 2017-08-18 2018-01-12 广东欧珀移动通信有限公司 提示方法、装置、存储介质及终端
CN108766453A (zh) * 2018-05-24 2018-11-06 江西午诺科技有限公司 语音降噪方法、装置、可读存储介质及移动终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312938A (zh) * 1997-09-02 2001-09-12 夸尔柯姆股份有限公司 噪声抑制系统和方法
CN101080766A (zh) * 2004-11-03 2007-11-28 声学技术公司 使用bark频带weiner滤波器和线性衰减的噪声降低和舒适噪声增益控制
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN107146628A (zh) * 2017-04-07 2017-09-08 宇龙计算机通信科技(深圳)有限公司 一种语音通话处理方法及移动终端
CN107580113A (zh) * 2017-08-18 2018-01-12 广东欧珀移动通信有限公司 提示方法、装置、存储介质及终端
CN108766453A (zh) * 2018-05-24 2018-11-06 江西午诺科技有限公司 语音降噪方法、装置、可读存储介质及移动终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599142A (zh) * 2020-12-14 2021-04-02 北京百瑞互联技术有限公司 调节背景声与人声的蓝牙传输方法、设备及存储介质
CN112599142B (zh) * 2020-12-14 2024-04-09 北京百瑞互联技术股份有限公司 调节背景声与人声的蓝牙传输方法、设备及存储介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法

Similar Documents

Publication Publication Date Title
CN102804805B (zh) 耳机装置及用于其的操作方法
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
CN111464905A (zh) 基于智能穿戴设备的听力增强方法、系统和穿戴设备
JP2005086365A (ja) 通話装置、会議装置および撮像条件調整方法
CN109104616B (zh) 一种直播间的语音连麦方法及客户端
Harkins et al. Technologies for communication: Status and trends
CN111863001A (zh) 一种多方通话系统中抑制背景噪声的方法
CN109218882A (zh) 耳机的环境声音监听方法及耳机
CN108965904B (zh) 一种直播间的音量调节方法及客户端
CN115482830B (zh) 语音增强方法及相关设备
CN114640938B (zh) 一种基于蓝牙耳机芯片的助听功能实现方法及蓝牙耳机
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
US20230115674A1 (en) Multi-source audio processing systems and methods
CN117480554A (zh) 语音增强方法及相关设备
WO2022181013A1 (ja) 会議システム
JP2008034979A (ja) 音声通信装置、および音声通信システム
JP2005181391A (ja) 音声処理装置および音声処理方法
JP4269854B2 (ja) 通話装置
JP3303446B2 (ja) 音声信号処理装置
JP3829485B2 (ja) 音声通話装置、音声通話システム、および音声通話方法
CN104301561A (zh) 一种智能会议电话机
JP2005148301A (ja) 音声処理装置と音声処理方法
CN204231481U (zh) 一种带嘴型识别的智能会议电话机
CN204231472U (zh) 一种带特征识别的智能会议电话机
Filho et al. From science fiction to science fact: a smart-house interface using speech technology and a photo-realistic avatar

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination