CN111863001A

CN111863001A - 一种多方通话系统中抑制背景噪声的方法

Info

Publication number: CN111863001A
Application number: CN202010551615.9A
Authority: CN
Inventors: 叶平亭
Original assignee: Guangzhou Hualiao Electric Technology Co ltd
Current assignee: Guangzhou Hualiao Electric Technology Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-30

Abstract

一种多方通话系统中抑制背景噪声的方法，它涉及语音处理技术领域。它包含录制、处理、发送、还原、播放等五大步骤，所述的含录制优选使用选择性较好的麦克风，仅需一个即可，此种麦克风具备这样的特点：距离近的声源产生的信号比较强，距离远的声源产生的信号相对弱，在录制并转化为数字化语音的过程中，无论是模拟语音的录制，还是数字化语音的生成，都做一些信号增强，或减弱，或自动控制增益。以该发明一种多方通话系统中抑制背景噪声的方法，能够以很低的计算处理开销，几乎没有额外的成本增加的情况下，实现在特定使用场景下可接受的降噪效果，甚至在一部分用户看来，效果会高于一般的通用背景噪声消除/抵消的方案。

Description

一种多方通话系统中抑制背景噪声的方法

技术领域

本发明涉及语音处理技术领域，具体涉及一种多方通话系统中抑制背景噪声的方法。

背景技术

通话系统是广电、演出等行业必不可少的一个重要硬件，对行业内的各种流程控制和质量有着重要的影响。随着行业规模大型化，参加制作的人员越来越多，分工不断细化；活动的场地也不再拘泥于一个演播室、一个剧场、一个体育馆甚至不在同一个城市或国家，可能是多个演播室或相隔很远的多个现场组成。这时就需要一个完善的通话系统把所有节目制作人员有机地联系在一起，对制片人、导演、现场导演、节目主持、摄像师、调音师、灯光、字幕操作、大屏幕插播、技术调控等各工种的工作进行有效的调度，是成功录制或直播的关键所在。

在此环境下，用户期望通话系统能像在安静的会议室开会一样，所有人都可以随时说话交流，指挥调度。然而使用现场往往有大量的环境噪声，并非安静场景，如果不加处理的话，耳机里会出现来自于多个人的在不同位置处的现场背景噪声的混叠，造成人声模糊、含混，混合在一起无法分离，对顺畅交流构成挑战。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种多方通话系统中抑制背景噪声的方法，以解决上述背景技术中提出的耳机里会出现来自于多个人的在不同位置处的现场背景噪声的混叠，造成人声模糊、含混，混合在一起无法分离，对顺畅交流构成挑战等问题，本发明能够以很低的计算处理开销，几乎没有额外的成本增加的情况下，实现在特定使用场景下可接受的降噪效果，甚至在一部分用户看来，效果会高于一般的通用背景噪声消除/抵消的方案。

为实现上述目的，本发明采用以下技术方案是：它包含录制、处理、发送、还原、播放等五大步骤，所述的含录制优选使用选择性较好的麦克风，仅需一个即可，此种麦克风具备这样的特点：距离近的声源产生的信号比较强，距离远的声源产生的信号相对弱，比如，指向性强的驻极体麦克风、MEMS麦克风，对距离敏感的动圈麦克风等都可以，如果不做特殊选择也可以，但按此要求选择麦克风会更容易适配以下描述的配置参数，在录制并转化为数字化语音的过程中，无论是模拟语音的录制，还是数字化语音的生成，都做一些信号增强，或减弱，或自动控制增益，这些环节的处理要求必须控制在下述步骤描述的背景噪声和人声的临界阈值范围以内；所述的处理即为多路同时通话系统往往会对人声进行预处理，比如预加重、降噪、背景噪声抵消、背景噪声减弱、抗风噪、啸叫抑制、EQ调节、回声消除等，这些环节都不得破坏背景噪声和人声的识别临界阈值范围；所述的发送、还原、播放即为通话系统中有用的部分仅来自于通话设备使用者的讲话声，环境中其他人的声音，音响、音乐、或其他各种背景噪声都不重要且不需要，将其完全消除的行为对用户来说是可接受的，甚至是被认为良好的结果，通话系统中指挥者和成员是具备良好使用秩序的，不会故意劣化全体通话效果，比如，摄像团队在工作时主要听从导播也就是指挥者讲话，团队成员在有需要的时候讲话，禁止团队成员故意做与团队协作无关的发出语音的行为，比如持续不断地咳嗽、自言自语、哼唱，与团队外其他成员闲聊（如有必要时应临时关闭自己的麦克），这些行为不会导致本发明不能工作，但会减弱其工作效果。

所述的一种多方通话系统中抑制背景噪声的方法根据通话系统的常见用户人群的使用习惯，多个典型使用场景的特点进行用户调查，该调查需在安静、一般、嘈杂、非常吵闹、震耳欲聋、裸耳无法忍受等各种等级的使用场景下反复进行，取得大量的数据，该数据应足以反映出通话系统的几乎全部的用户、几乎全部的使用场景，记录下述要求的数据并分析建模，提炼出如下系统参数：各种场景下针对特定的耳机/麦克风，麦克风距离嘴唇的典型距离相对合理的，可以支持的最小、最大的距离，比如，一般情况下此参数为0～10厘米范围，例如，一般场景1～5厘米，安静场景2～8厘米，嘈杂场景0～4厘米；各种场景下用户的典型发音音量相对合理的，可以支持的各种人群的、各种语句的最小、最大的音量，比如，假设其他参数全部调试完毕后，在麦克风距离嘴唇1cm为准，以嗓门较大较洪亮的人说“啊…”，以此录音音量数字化之后的最大值为100%参照，那么，一般情况下最小以1%为人声启动门限，安静环境和嘈杂环境分别可降低或提高，比如安静环境0.5%，嘈杂环境5%。

所述的一种多方通话系统中抑制背景噪声的方法针对特定的多种支持的耳机/麦克风，各种特定的常见使用场景，为每一种耳机在每一种场景下都制定出如下控制参数：背景噪声的典型的临界音量阈值、人声的典型的临界音量阈值、背景噪声的弱化系数、人声检测的最小时间窗口、人声活动的最大持续时间窗口、背景噪声抑制状态进入人声状态的平滑过渡时间窗口、人声活动结束进入背景噪声抑制的平滑过渡时间窗口，所述的背景噪声的典型的临界音量阈值在各种场景下，背景噪声绝大部分时间内都低于此值，比如一般情况下以0.5～1%为参照门限，安静环境和嘈杂环境相应降低或提高；所述的人声的典型的临界音量阈值在各种场景下，人声绝大部分时间内都高于此值，比如一般情况下以1%为参照门限，安静环境和嘈杂环境相应降低或提高；所述的背景噪声的弱化系数可以定义为百分比，0%表明不做任何弱化，100%表明完全消除噪声，此值一般设置为在特定场景下感受到比较舒适的噪声程度，也可以由用户自行设置，比如一般情况下以85～95%为参照门限，安静环境和嘈杂环境相应降低或提高，也可以设置为100%；所述的人声检测的最小时间窗口在各种常见的语言和字词，有意义的字词的发音的最小持续时间，比如一般字词的发音持续时间在100～400毫秒；所述的人声活动的最大持续时间窗口各种常见的语言中，在说话的特点都有字词之间的间隙，一句话和下一句话之间的换气、停顿，此参数表明，在特定的使用人群和环境下，一个人在一句话说完后长时间停顿，绝大部分的人都会认为他不再发言了，这个时间尺度，比如一般字词之间的间隔在0～300毫秒，一句话和下一句话之间的换气、停顿间隔在200～2000毫秒；所述的背景噪声抑制状态进入人声状态的平滑过渡时间窗口为改善状态切换的突兀感而设置，比如，可设置为50～100毫秒；所述的人声活动结束进入背景噪声抑制的平滑过渡时间窗口为改善状态切换的突兀感而设置，比如，可设置为50～100毫秒。

所述的一种多方通话系统中抑制背景噪声的方法在语音预处理的中间或最后环节进行背景噪声、人声活动的检测，有如下定义，人声活动连续窗口开始：检测到音量大于上述人声的典型的临界音量阈值，并且持续时间超过人声检测的最小时间窗口；背景噪声连续窗口开始：检测到音量小于背景噪声的典型的临界音量阈值，并且持续时间超过人声活动的最大持续时间窗口。

所述的一种多方通话系统中抑制背景噪声的方法需进行如下处理：在人声活动连续窗口内，不做任何处理；检测到背景噪声连续窗口开始，使用上述人声活动结束进入背景噪声抑制的平滑过渡时间窗口，进行连续处理，逐步减弱，直至完全进入背景噪声抑制状态；在背景噪声抑制状态，应用上述背景噪声的弱化系数，将背景噪声进行弱化，或完全消除；检测到人声活动连续窗口开始，使用上述背景噪声抑制状态进入人声状态的平滑过渡时间窗口，进行连续处理，逐步增强，直至完全进入将人声活动持续进行的状态。

采用上述技术方案后，本发明有益效果为：以该发明一种多方通话系统中抑制背景噪声的方法，解决了耳机里会出现来自于多个人的在不同位置处的现场背景噪声的混叠，造成人声模糊、含混，混合在一起无法分离，对顺畅交流构成挑战等问题，本发明能够以很低的计算处理开销，几乎没有额外的成本增加的情况下，实现在特定使用场景下可接受的降噪效果，甚至在一部分用户看来，效果会高于一般的通用背景噪声消除/抵消的方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的控制参数示意图。

附图标记说明：背景噪声的典型的临界音量阈值1、人声的典型的临界音量阈值2、背景噪声的弱化系数3、人声检测的最小时间窗口4、人声活动的最大持续时间窗口5、背景噪声抑制状态进入人声状态的平滑过渡时间窗口6、人声活动结束进入背景噪声抑制的平滑过渡时间窗口7。

具体实施方式

参看图1所示，本具体实施方式采用的技术方案是：它包含录制、处理、发送、还原、播放等五大步骤，所述的含录制优选使用选择性较好的麦克风，仅需一个即可，此种麦克风具备这样的特点：距离近的声源产生的信号比较强，距离远的声源产生的信号相对弱，比如，指向性强的驻极体麦克风、MEMS麦克风，对距离敏感的动圈麦克风等都可以，如果不做特殊选择也可以，但按此要求选择麦克风会更容易适配以下描述的配置参数，在录制并转化为数字化语音的过程中，无论是模拟语音的录制，还是数字化语音的生成，都做一些信号增强，或减弱，或自动控制增益，这些环节的处理要求必须控制在下述步骤描述的背景噪声和人声的临界阈值范围以内；所述的处理即为多路同时通话系统往往会对人声进行预处理，比如预加重、降噪、背景噪声抵消、背景噪声减弱、抗风噪、啸叫抑制、EQ调节、回声消除等，这些环节都不得破坏背景噪声和人声的识别临界阈值范围；所述的发送、还原、播放即为通话系统中有用的部分仅来自于通话设备使用者的讲话声，环境中其他人的声音，音响、音乐、或其他各种背景噪声都不重要且不需要，将其完全消除的行为对用户来说是可接受的，甚至是被认为良好的结果，通话系统中指挥者和成员是具备良好使用秩序的，不会故意劣化全体通话效果，比如，摄像团队在工作时主要听从导播也就是指挥者讲话，团队成员在有需要的时候讲话，禁止团队成员故意做与团队协作无关的发出语音的行为，比如持续不断地咳嗽、自言自语、哼唱，与团队外其他成员闲聊（如有必要时应临时关闭自己的麦克），这些行为不会导致本发明不能工作，但会减弱其工作效果。

进一步的，所述的一种多方通话系统中抑制背景噪声的方法根据通话系统的常见用户人群的使用习惯，多个典型使用场景的特点进行用户调查，该调查需在安静、一般、嘈杂、非常吵闹、震耳欲聋、裸耳无法忍受等各种等级的使用场景下反复进行，取得大量的数据，该数据应足以反映出通话系统的几乎全部的用户、几乎全部的使用场景，记录下述要求的数据并分析建模，提炼出如下系统参数：各种场景下针对特定的耳机/麦克风，麦克风距离嘴唇的典型距离相对合理的，可以支持的最小、最大的距离，比如，一般情况下此参数为0～10厘米范围，例如，一般场景1～5厘米，安静场景2～8厘米，嘈杂场景0～4厘米；各种场景下用户的典型发音音量相对合理的，可以支持的各种人群的、各种语句的最小、最大的音量，比如，假设其他参数全部调试完毕后，在麦克风距离嘴唇1cm为准，以嗓门较大较洪亮的人说“啊…”，以此录音音量数字化之后的最大值为100%参照，那么，一般情况下最小以1%为人声启动门限，安静环境和嘈杂环境分别可降低或提高，比如安静环境0.5%，嘈杂环境5%。

进一步的，所述的一种多方通话系统中抑制背景噪声的方法针对特定的多种支持的耳机/麦克风，各种特定的常见使用场景，为每一种耳机在每一种场景下都制定出如下控制参数：背景噪声的典型的临界音量阈值1、人声的典型的临界音量阈值2、背景噪声的弱化系数3、人声检测的最小时间窗口4、人声活动的最大持续时间窗口5、背景噪声抑制状态进入人声状态的平滑过渡时间窗口6、人声活动结束进入背景噪声抑制的平滑过渡时间窗口7，所述的背景噪声的典型的临界音量阈值1在各种场景下，背景噪声绝大部分时间内都低于此值，比如一般情况下以0.5～1%为参照门限，安静环境和嘈杂环境相应降低或提高；所述的人声的典型的临界音量阈值2在各种场景下，人声绝大部分时间内都高于此值，比如一般情况下以1%为参照门限，安静环境和嘈杂环境相应降低或提高；所述的背景噪声的弱化系数3可以定义为百分比，0%表明不做任何弱化，100%表明完全消除噪声，此值一般设置为在特定场景下感受到比较舒适的噪声程度，也可以由用户自行设置，比如一般情况下以85～95%为参照门限，安静环境和嘈杂环境相应降低或提高，也可以设置为100%；所述的人声检测的最小时间窗口4在各种常见的语言和字词，有意义的字词的发音的最小持续时间，比如一般字词的发音持续时间在100～400毫秒；所述的人声活动的最大持续时间窗口5各种常见的语言中，在说话的特点都有字词之间的间隙，一句话和下一句话之间的换气、停顿，此参数表明，在特定的使用人群和环境下，一个人在一句话说完后长时间停顿，绝大部分的人都会认为他不再发言了，这个时间尺度，比如一般字词之间的间隔在0～300毫秒，一句话和下一句话之间的换气、停顿间隔在200～2000毫秒；所述的背景噪声抑制状态进入人声状态的平滑过渡时间窗口6为改善状态切换的突兀感而设置，比如，可设置为50～100毫秒；所述的人声活动结束进入背景噪声抑制的平滑过渡时间窗口7为改善状态切换的突兀感而设置，比如，可设置为50～100毫秒。

进一步的，所述的一种多方通话系统中抑制背景噪声的方法在语音预处理的中间或最后环节进行背景噪声、人声活动的检测，有如下定义，人声活动连续窗口开始：检测到音量大于上述人声的典型的临界音量阈值2，并且持续时间超过人声检测的最小时间窗口4；背景噪声连续窗口开始：检测到音量小于背景噪声的典型的临界音量阈值1，并且持续时间超过人声活动的最大持续时间窗口5。

进一步的，所述的一种多方通话系统中抑制背景噪声的方法需进行如下处理：在人声活动连续窗口内，不做任何处理；检测到背景噪声连续窗口开始，使用上述人声活动结束进入背景噪声抑制的平滑过渡时间窗口7，进行连续处理，逐步减弱，直至完全进入背景噪声抑制状态；在背景噪声抑制状态，应用上述背景噪声的弱化系数3，将背景噪声进行弱化，或完全消除；检测到人声活动连续窗口开始，使用上述背景噪声抑制状态进入人声状态的平滑过渡时间窗口6，进行连续处理，逐步增强，直至完全进入将人声活动持续进行的状态。

本技术方案基于特定场合下使用的内部通话系统而提出，针对在相对嘈杂环境下，多人的团队协调情况下的解决办法，本技术方案不排斥同时使用其他的现有技术方案，允许其他方案与本方案的叠加使用，从而获得更好的效果，其他方法必须接受下面描述的约束，在此场景下，通话系统有如下假设，用户必须接受这些前提条件，否则就不能使用本方案描述的背景噪声消除的方法。

Claims

1.一种多方通话系统中抑制背景噪声的方法，其特征在于：它包含录制、处理、发送、还原、播放等五大步骤，所述的含录制优选使用选择性较好的麦克风，仅需一个即可，此种麦克风具备这样的特点：距离近的声源产生的信号比较强，距离远的声源产生的信号相对弱，在录制并转化为数字化语音的过程中，无论是模拟语音的录制，还是数字化语音的生成，都做一些信号增强，或减弱，或自动控制增益，这些环节的处理要求必须控制在下述步骤描述的背景噪声和人声的临界阈值范围以内；所述的处理即为多路同时通话系统往往会对人声进行预处理；所述的发送、还原、播放即为通话系统中有用的部分仅来自于通话设备使用者的讲话声，环境中其他人的声音，音响、音乐、或其他各种背景噪声都不重要且不需要，将其完全消除的行为对用户来说是可接受的，甚至是被认为良好的结果，通话系统中指挥者和成员是具备良好使用秩序的，不会故意劣化全体通话效果。

2.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法，其特征在于：所述的一种多方通话系统中抑制背景噪声的方法根据通话系统的常见用户人群的使用习惯，多个典型使用场景的特点进行用户调查，该调查需在安静、一般、嘈杂、非常吵闹、震耳欲聋、裸耳无法忍受等各种等级的使用场景下反复进行，取得大量的数据，该数据应足以反映出通话系统的几乎全部的用户、几乎全部的使用场景，记录下述要求的数据并分析建模，提炼出如下系统参数：各种场景下针对特定的耳机/麦克风，麦克风距离嘴唇的典型距离相对合理的，可以支持的最小、最大的距离；各种场景下用户的典型发音音量相对合理的，可以支持的各种人群的、各种语句的最小、最大的音量。

3.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法，其特征在于：所述的一种多方通话系统中抑制背景噪声的方法针对特定的多种支持的耳机/麦克风，各种特定的常见使用场景，为每一种耳机在每一种场景下都制定出如下控制参数：背景噪声的典型的临界音量阈值(1)、人声的典型的临界音量阈值(2)、背景噪声的弱化系数(3)、人声检测的最小时间窗口(4)、人声活动的最大持续时间窗口(5)、背景噪声抑制状态进入人声状态的平滑过渡时间窗口(6)、人声活动结束进入背景噪声抑制的平滑过渡时间窗口(7)，所述的背景噪声的典型的临界音量阈值(1)在各种场景下，背景噪声绝大部分时间内都低于此值；所述的人声的典型的临界音量阈值(2)在各种场景下，人声绝大部分时间内都高于此值；所述的背景噪声的弱化系数(3)可以定义为百分比，0%表明不做任何弱化，100%表明完全消除噪声，此值一般设置为在特定场景下感受到比较舒适的噪声程度，也可以由用户自行设置；所述的人声检测的最小时间窗口(4)在各种常见的语言和字词，有意义的字词的发音的最小持续时间；所述的人声活动的最大持续时间窗口(5)各种常见的语言中，在说话的特点都有字词之间的间隙，一句话和下一句话之间的换气、停顿，此参数表明，在特定的使用人群和环境下，一个人在一句话说完后长时间停顿，绝大部分的人都会认为他不再发言了，这个时间尺度；所述的背景噪声抑制状态进入人声状态的平滑过渡时间窗口(6)为改善状态切换的突兀感而设置；所述的人声活动结束进入背景噪声抑制的平滑过渡时间窗口(7)为改善状态切换的突兀感而设置。

4.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法，其特征在于：所述的一种多方通话系统中抑制背景噪声的方法在语音预处理的中间或最后环节进行背景噪声、人声活动的检测，有如下定义，人声活动连续窗口开始：检测到音量大于上述人声的典型的临界音量阈值(2)，并且持续时间超过人声检测的最小时间窗口(4)；背景噪声连续窗口开始：检测到音量小于背景噪声的典型的临界音量阈值(1)，并且持续时间超过人声活动的最大持续时间窗口(5)。

5.根据权利要求1所述的一种多方通话系统中抑制背景噪声的方法，其特征在于：所述的一种多方通话系统中抑制背景噪声的方法需进行如下处理：在人声活动连续窗口内，不做任何处理；检测到背景噪声连续窗口开始，使用上述人声活动结束进入背景噪声抑制的平滑过渡时间窗口(7)，进行连续处理，逐步减弱，直至完全进入背景噪声抑制状态；在背景噪声抑制状态，应用上述背景噪声的弱化系数(3)，将背景噪声进行弱化，或完全消除；检测到人声活动连续窗口开始，使用上述背景噪声抑制状态进入人声状态的平滑过渡时间窗口(6)，进行连续处理，逐步增强，直至完全进入将人声活动持续进行的状态。