CN107333093A - 一种声音处理方法、装置、终端及计算机可读存储介质 - Google Patents
一种声音处理方法、装置、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107333093A CN107333093A CN201710374354.6A CN201710374354A CN107333093A CN 107333093 A CN107333093 A CN 107333093A CN 201710374354 A CN201710374354 A CN 201710374354A CN 107333093 A CN107333093 A CN 107333093A
- Authority
- CN
- China
- Prior art keywords
- weight
- sound
- miaow head
- miaow
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000000052 comparative effect Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 10
- 230000000630 rising effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000005055 memory storage Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 241001269238 Data Species 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 206010021703 Indifference Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种声音处理方法、装置、终端及计算机可读存储介质,该方法包括:获取麦克风多个咪头采集的多个第一声音信号和多个第二声音信号;第一声音信号由第一声源产生,第二声音信号由第二声源产生;确定第一声源与多个咪头的相对位置以及第二声源与多个咪头的相对位置;为从多个咪头获取的多个第一声音信号分别配置第一组权重,为从多个咪头获取的多个第二声音信号配置第二组权重;利用第一组权重和第二组权重分别对从多个第一声音信号和多个第二声音信号进行混音处理。本发明可为混音处理自动选择采集方位,采集更多有效声音信号。
Description
技术领域
本发明涉及音频分析处理领域,具体涉及一种声音处理方法、装置、终端及计算机可读存储介质。
背景技术
在视频会议场景中,一般使用指向或者全向麦克风来进行声音采集。对于指向性麦克风拾音的范围是有限的,所以就需要多个指向性麦克风同时采集来满足扩展拾音范围,即通过多个独立的指向性麦克风采集音频到同一个会议终端设备,由调音台或会议终端集中混音,这种方式需要人工根据会场布置麦克风的位置,讲话的时候需要手动开关哑音键,使用非常不方便,体验比较差。
对于全向性麦克风可以进行广范围的拾音,但是全向麦克风采集声音的时候并不能区分哪些是现场与会者的声音,哪些是播放设备播放的远端与会者的声音,这样就导致同时采集到现场和远端的声音并同时以相同的倍数进行放大后传输,导致现场与会者的声音不够清晰,如果播放设备的音量过大,甚至会完全掩盖现场与会者的声音。
发明内容
有鉴于此,本发明实施例提供了一种声音处理方法、装置、终端及计算机可读存储介质,以解决现有技术中采用指向性麦克风拾音时,由于指向性麦克风拾音范围有限,需要人工根据会场布置麦克风的位置,操作不方便以及采用全向性麦克风拾音时,全向性麦克风无法有效分辨有效声源和噪声声源,而对有效声源和噪声声源发出的声音信号进行无差别的拾音,导致采集到的有效声源发出的声音信号质量较差的问题。
为此本发明第一方面,提供了一种声音处理方法,包括如下步骤:获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,所述多个第一声音信号由第一声源产生,所述多个第二声音信号由第二声源产生;确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置;为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重,其中,所述第一组权重为根据所述第一声源与所述多个咪头的相对位置确定的,所述第二组权重为根据所述第二声源与所述多个咪头的相对位置确定的;利用所述第一组权重和所述第二组权重分别对所述多个第一声音信号和所述多个第二声音信号进行混音处理。
可选地,确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置包括:获取所述多个第一声音信号的能量和所述多个第二声音信号的能量;将所述多个第一声音信号的能量相互比较,得到第一比较结果;将所述多个第二声音信号的能量相互比较,得到第二比较结果;根据所述第一比较结果确定所述多个咪头与所述第一声源的相对位置;根据所述第二比较结果确定所述多个咪头与所述第二声源的相对位置。
可选地,利用所述第一组权重和所述第二组权重分别对从所述多个第一声音信号和所述多个第二声音信号进行混音处理包括:由所述第一组权重和所述第二组权重计算得到所述多个咪头的混音权重,其中,每个咪头的混音权重用于表示该咪头采集到的声音信号在混音后的声音信号中的比重;根据所述多个咪头的混音权重对各个咪头获取的声音信号进行混音处理。
可选地,在所述第一声源为视频会议现场与会者,所述第二声源为会议终端播放设备时,为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重包括:在第一咪头与所述会议终端播放设备的距离小于其他各个咪头与所述会议终端播放设备的距离时,为从所述第一咪头获取的所述第二声音信号配置的权重小于为从其他各个咪头获取的所述第二声音信号配置的权重;和/或,在第二咪头与所述会议终端播放设备的距离大于其他各个咪头与所述会议终端播放设备的距离时,为从所述第二咪头获取的所述第二声音信号配置的权重大于为从其他各个咪头获取的所述第二声音信号配置的权重;和/或,在第三咪头与所述视频会议现场与会者的距离小于其他各个咪头与所述视频会议现场与会者的距离时,为从所述第三咪头获取的所述第一声音信号配置的权重大于为从其他各个咪头获取的所述第一声音信号配置的权重;和/或,在第四咪头与所述视频会议现场与会者的距离大于其他各个咪头与所述视频会议现场与会者的距离时,为从所述第四咪头获取的所述第一声音信号配置的权重小于为从其他各个咪头获取的所述第一声音信号配置的权重。
可选地,在所述第一声源为视频会议现场与会者,所述第二声源为会议终端播放设备时,获取多个咪头采集到的多个第一声音信号和多个第二声音信号包括:从所述会议终端播放设备获取参考音频信号;从所述多个咪头采集整体会场的声音信号;根据所述参考音频信号从所述整体会场的声音信号中分离中所述第一声音信号和所述第二声音信号。
本发明第二方面,提供了一种声音处理装置,包括:获取模块,用于获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,所述多个第一声音信号由第一声源产生,所述多个第二声音信号由第二声源产生;确定模块,用于确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置;分配模块,用于为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重,其中,所述第一组权重为根据所述第一声源与所述多个咪头的相对位置确定的,所述第二组权重为根据所述第二声源与所述多个咪头的相对位置确定的;处理模块,用于利用所述第一组权重和所述第二组权重分别对所述多个第一声音信号和所述多个第二声音信号进行混音处理。
可选地,所述确定模块包括:获取单元,用于获取所述多个第一声音信号的能量和所述多个第二声音信号的能量;比较单元,用于将所述多个第一声音信号的能量相互比较,得到第一比较结果;将所述多个第二声音信号的能量相互比较,得到第二比较结果;确定单元,用于根据所述第一比较结果确定所述多个咪头与所述第一声源的相对位置;根据所述第二比较结果确定所述多个咪头与所述第二声源的相对位置。
可选地,所述处理模块包括:计算单元,用于由所述第一组权重和所述第二组权重计算得到所述多个咪头的混音权重,其中,每个咪头的混音权重用于表示该咪头采集到的声音信号在混音后的声音信号中的比重;混音单元,用于根据所述多个咪头的混音权重对各个咪头获取的声音信号进行混音处理。
本发明第三方面,提供了一种终端,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述任一所述方法的步骤。
本发明第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述任一所述方法的步骤。
本发明技术方案,具有如下优点:
1.本发明实施例提供的声音处理方法及装置,获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,多个第一声音信号由第一声源产生,多个第二声音信号由第二声源产生;确定第一声源与多个咪头的相对位置以及第二声源与多个咪头的相对位置;为从多个咪头获取的多个第一声音信号分别配置第一组权重,为从多个咪头获取的多个第二声音信号配置第二组权重,其中,第一组权重为根据第一声源与多个咪头的相对位置确定的,第二组权重为根据第二声源与多个咪头的相对位置确定的;利用第一组权重和第二组权重分别对多个第一声音信号和多个第二声音信号进行混音处理。也就是说,咪头为来自不同位置声源的声音分配不同的权重,对不同声源的声音进行区别处理,可为混音处理自动选择采集方位,使得麦克风的采集范围尽量主动避开播放设备的播放方向,而尽可能采集现场与会者的声音,使得与会者的声音清晰。
2.通过麦克风咪头声音信号的能量并通过设置阈值进行比较,从而能较好地获取麦克风咪头相对于声源的位置;通过从会议终端播放设备获取实时的参考信号从而能够有效地将与会者的声音信号和终端的回声信号进行分离,为后续处理做好铺垫。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍:显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明实施例1中声音处理终端示意图;
图1B为本发明实施例1中声音处理方法的流程图;
图1C为本发明实施例1中声音处理方法的视频会议使用场景示意图;
图1D为本发明实施例1中声音处理方法的两种位置模型示意图;
图1E为本发明实施例1中声音处理方法的混音模块框图;
图1F为现有技术中各个咪头拾音范围示意图;
图1G为本发明实施例1中的各个咪头拾音范围示意图;
图1H现有技术中声音处理方法的流程图;
图2为本发明中实施例2中声音处理装置的一个具体示例的原理框图;
图3是本发明实施例提供的终端的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供了一种声音处理方法,该声音处理方法可以适用于各种声音处理终端,其中,该声音处理终端包括麦克风,该麦克风包括多个咪头,如图1A所示为声音处理终端的示意图,如图1B所示,该声音处理终端对声音的处理包括如下步骤:
S10:获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,多个第一声音信号由第一声源产生,多个第二声音信号由第二声源产生。
如图1C所示,数字麦克风通过音频播放接口将采集的音频数据输送到会议终端。第一声源为视频会议现场与会者,第二声源为会议终端播放设备,第一声音信号和第二声音信号分别是来自现场与会者的产生的声音信号和会议终端播放设备产生的声音信号。数字麦克风里的多个咪头同时采集这两种声音信号。
S20:确定所述第一声源与多个咪头的相对位置以及第二声源与多个咪头的相对位置。
结合麦克风使用的3个咪头进行采集为例,那么至少可以抽象成如图 1D的两种位置关系模型,即第一种位置关系是一个咪头正对着播放设备(例如,电视机)方向,第二种位置关系是一个咪头背对着电视机方向,而虚线表示麦克风可以采集的拾音范围。当然麦克风的咪头相对于第一声源和第二声源的位置信息并不限于上述两种正规的位置关系,咪头不是正对或者背对播放设备的各种位置关系都包含在其中。其中,步骤S10和步骤S20 没有严格的顺序限制,步骤S10可以在步骤S20之前也可以在步骤S20之后。
S30:为从多个咪头获取的多个第一声音信号分别配置第一组权重,为从多个咪头获取的多个第二声音信号配置第二组权重,其中,第一组权重为根据第一声源与所述多个咪头的相对位置确定的,所述第二组权重为根据第二声源与多个咪头的相对位置确定的。
在一个可选实施例中,例如在视频会议使用场景中,麦克风的每个咪头都可以得到两组权重,一组是与会者声音的权重,一组是回声的权重,而且每组权重值之和为1。继续以上述3个咪头的麦克风为例,当回声方位选择判断为咪头正对播放设备,该咪头的回声权重分配为0,另外两个为 0.5、0.5;方位判断为咪头背对播放设备,该咪头的回声权重分配为0.5,另外两个为0.25、0.25;与会者方位判断为咪头正对与会者,该咪头的与会者声音权重分配为0.6、另外两个为0.2、0.2;方位判断为咪头背对与会者,该咪头的会者声音权重分配为0,其他咪头分别为0.5、0.5。需要说明的是,上述权重值仅仅是为了清楚描述本实施例,并不对本发明有不当限定。
S40:根据上述第一组权重和上述第二组权重分别对多个第一声音信号和多个第二声音信号进行混音处理。
把麦克风的多个咪头采集的与会者声音数据和回声数据根据计算的混音权重结果进行混音处理,得到混音数据。
通过上述步骤,在视频会议场景中采用全向性麦克风对来自现场与会者和终端播放设备进行拾音过程中,根据各个声源的位置信息为来自各个声源的声音信号分配不同的权重,使用各个权重对其对应的声音信号进行区别处理,相比于现有技术中,全向性麦克风对现场与会者和终端播放设备进行无差别的拾音,导致现场与会者的声音不够清晰,本可选实施例的上述步骤自动选择采集方位,使得麦克风的采集范围尽量主动避开终端播放设备的播放方向,而尽可能采集现场与会者的声音信号,提高了与会者声音信号的清晰度。
上述步骤S20中涉及到,获取麦克风的多个咪头相对于第一声源和第二声源的位置信息,需要说明的是,可以通过多种方式获取到上述位置信息, 例如在一个可选实施例中,在首次安装全向性麦克风时已经按照预定位置进行了安装,即上述位置可以是预先获知的。
在另一个可选实施例中,将多个第一声音信号的能量相互比较,得到第一比较结果,根据第一比较结果确定所述多个咪头与上述第一声源的相对位置;将多个第二声音信号的能量相互比较,得到第二比较结果,根据第二比较结果确定多个咪头与上述第二声源的相对位置。上述声音信号的能量可以是声音信号的响度也可以是声音信号的频率。
具体地,根据第一比较结果确定多个咪头与上述第一声源的相对位置包括:确定多个第一声音信号中音量大于其他第一声音信号的音量达到第一预设阈值的第一声音信号对应的咪头与第一声源处于正对位置;确定多个第一声音信号中音量小于其他第一声音信号的音量达到第二预设阈值的第一声音信号对应的咪头与第一声源处于背对位置。
另一方面,根据第二比较结果确定多个咪头与上述第二声源的相对位置包括:确定多个第人二声音信号中音量大于其他第二声音信号的音量达到第三预设阈值的第二声音信号对应的咪头与第二声源处于正对位置;确定多个第人二声音信号中音量小于其他第二声音信号的音量达到第四预设阈值的第二声音信号对应的咪头与第二声源处于背对位置。
上述第一预设阈值、第二预设阈值、第三预设阈值和第四预设阈值均可以根据需要进行设置,可以相同,也可以不同。
位置不同的咪头同时采集到与会者的声音能量是不同的,同理三路回声的能量也不同。根据能量大小进行声音方位的判断,能量最大的即为声音的方位选择结果。这里以声音响度为6db为预设阈值简化为两种位置关系模型,第一种是如果一个咪头的回声(相当于上述第二声音信号)能量比其他两个咪头都大于6db以上,那么就认为这个咪头是正对播放设备方向;第二种是如果一个咪头的回声能量比其他两个咪头都小于6db以上,那么就认为这个咪头是背对播放设备方向;当两种情况都不满足时,以第二种条件优先判断作为默认方向选择。
上述步骤S30涉及到为多个咪头获取的多个第一声音信号分别配置第一组权重,为从多个咪头获取的多个第二声音信号配置第二组权重,在一个可选实施例中,在第一声源为视频会议现场与会者,第二声源为会议终端播放设备时,在第一咪头与会议终端播放设备的距离小于其他各个咪头与会议终端播放设备的距离时,为第一咪头获取的第二声音信号配置的权重小于为从其他各个咪头获取的第二声音信号配置的权重;例如,装有三个咪头的麦克风,第一咪头正对于会议终端播放设备,其距离会议终端播放设备的距离小于其他各个咪头与会议终端播放设备的距离,这时回声权重(第二声音信号的权重)分配为0,另外两个为0.5、0.5;在第二咪头与会议终端播放设备的距离大于其他各个咪头与会议终端播放设备的距离时,为从第二咪头获取的第二声音信号配置的权重大于为从其他各个咪头获取的第二声音信号配置的权重;例如,第二咪头背对于会议终端播放设备,其距离与会议终端播放设备的距离大于其他各个咪头与会议终端播放设备的距离,这时回声权重分配为0.5、0.25、0.25;在第三咪头与视频会议现场与会者的距离小于其他各个咪头与视频会议现场与会者的距离时,为从第三咪头获取的第一声音信号配置的权重大于为从其他各个咪头获取的第一声音信号配置的权重;例如,第三咪头正对于与会者,其与与会者的距离小于其他各个咪头与视频会议现场与会者的距离,这时与会者声音 (第一声音信号)权重分配为0.6、另外两个为0.2、0.2;在第四咪头与视频会议现场与会者的距离大于其他各个咪头与视频会议现场与会者的距离时,为从第四咪头获取的第一声音信号配置的权重小于为从其他各个咪头获取的第一声音信号配置的权重;例如,第四咪头背对于与会者,其与与会者的距离大于其他各个咪头与视频会议现场与会者的距离,这时与会者声音权重分配为0、0.5、0.5。
为了对来自不同声源的声音信号进行综合处理,在一个可选实施例中,在步骤S40之后,根据第一权重和第二权重获取咪头的混音权重,如图1E 所示,根据麦克风的各个咪头的混音权重对各个咪头获取的声音进行混音处理。例如,根据与会者声音权重和回声的权重进行二次计算,最终得到与会者的混音权重,可选地对应咪头的权重分别相加取平均,即为最后权重结果。具体地:
举例1:咪头A正对播放设备,背对与会者,那么回声权重结果为0、 0.5、0.5,与会者声音权重结果为0、0.5、0.5,最后混音权重结果为0、 0.5、0.5。
举例2:咪头A正对播放设备,咪头B正对与会者,那么回声权重结果为0、0.5、0.5,与会者声音权重结果为0.2、0.6、0.2,最后混音权重结果为0.1、0.55、0.35。
举例3:如果咪头A背对播放设备,正对与会者,那么回声权重结果为 0.5、0.25、0.25,与会者声音权重结果为0.6、0.2、0.2,最后混音权重结果为0.55、0.225、0.225。
举例4:咪头A背对播放设备,咪头B正对与会者,那么回声权重结果为0.5、0.25、0.25,与会者声音权重结果为0.2、0.6、0.2,最后混音权重结果为0.35、0.425、0.225。
最后把三个咪头的与会者声音数据根据计算的混音权重结果进行混音处理,得到混音数据。
显然,本发明实施例中所述的权重均是指对应的声音信号在混音后的音频的占比,权重越大,其对应的声音信号对混音后的音频影响越大。
在现有技术中对各个咪头采集到的声音信号不做处理的情况下,如图 1F所示,麦克风各个咪头对各个声源发出的声音信号进行无差别的拾音。经过上述实施例对各个咪头采集到的声音信号进行处理之后,各个咪头拾音范围如图1G所示。
如图1H得到混音数据以后,接下来对混音数据做后续的处理,优选地后续处理可以是通过级联环回装置产生的参考信号数据通过回声消除装置进行回音消除,就可以通过音频播放接口传送给会议终端通过播放设备播出。
步骤S10涉及到从上述咪头获取第一声音信号和第二声音信号,在一个可选实施例中,从会议终端播放设备获取参考音频信号,从咪头采集整体会场的声音信号,根据参考音频信号从整体会场的声音信号中分离中第一声音信号和第二声音信号。音频分离处理是基于回声抵消原理,对原算法不进行消除回声,而是同时保留回声信号和本地会场的其他信号,也不增加舒适背景噪声处理,以避免信噪比降低。如图1H所示,第一声源是发言人,第二声源是会议终端的播放设备。通过会议终端播放音频数据,一路传输给播放设备,使得会场人员听到会议语音;另一路传输给数字麦克风的级联回环控制装置,该装置负责同步复制多路信号数据,一路给本级麦克风的回声消除算法提供参考音频信号,还有一路给本级麦克风的智能混音模块提供参考信号。麦克风的多个咪头同时采集由发言人发出的本地语音和播放设备产生的回声,将采集的音频数据输入到智能混音模块,得到混音数据。
如图1E所示,咪头A、B和C采集到会场声音后,分别进行音频分离处理,即通过比对参考信号,将采集音频A、B和C进行与会者声音和回声的分离处理,这时得到6路数据,三个与会者声音,三个回声。
实施例2
本实施例提供一种声音处理的装置,如图2所示,数字麦克风通过音频播放接口将采集的音频数据输送到会议终端,具体的包括:获取模块10、确定模块20、分配模块30、处理模块40。
获取模块10,用于获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,所述多个第一声音信号由第一声源产生,所述多个第二声音信号由第二声源产生;
确定模块20,用于确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置;
进一步地,作为本实施例的一种优选实施方式,确定模块20包括:获取单元21、比较单元22和确定单元23。
获取单元21,用于获取所述多个第一声音信号的能量和所述多个第二声音信号的能量;
比较单元22,用于将所述多个第一声音信号的能量相互比较,得到第一比较结果;将所述多个第二声音信号的能量相互比较,得到第二比较结果;
确定单元23,用于根据所述第一比较结果确定所述多个咪头与所述第一声源的相对位置;根据所述第二比较结果确定所述多个咪头与所述第二声源的相对位置。
分配模块30,用于为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重,其中,所述第一组权重为根据所述第一声源与所述多个咪头的相对位置确定的,所述第二组权重为根据所述第二声源与所述多个咪头的相对位置确定的。
处理模块40,用于利用所述第一组权重和所述第二组权重分别对所述多个第一声音信号和所述多个第二声音信号进行混音处理。
作为本实施例的一种优选实施方式,处理模块40还包括:
计算单元41,用于由所述第一组权重和所述第二组权重计算得到所述多个咪头的混音权重,其中,每个咪头的混音权重用于表示该咪头采集到的声音信号在混音后的声音信号中的比重;
混音单元42,用于根据所述多个咪头的混音权重对各个咪头获取的声音信号进行混音处理。
请参阅图3,图3是本发明可选实施例提供的一种终端的结构示意图,如图3所示,该终端可以包括:至少一个处理器301,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口303,存储器304,至少一个通信总线302。其中,通信总线302用于实现这些组件之间的连接通信。其中,通信接口303可以包括显示屏(Display)、键盘(Keyboard),可选通信接口303还可以包括标准的有线接口、无线接口。存储器304可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器304可选的还可以是至少一个位于远离前述处理器301的存储装置。其中处理器301可以结合图2所描述的装置,存储器304中存储一组程序代码,且处理器301调用存储器304中存储的程序代码,以用于执行一种声音处理方法,即用于执行以下操作:
获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,所述多个第一声音信号由第一声源产生,所述多个第二声音信号由第二声源产生;
确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置;
为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重,其中,所述第一组权重为根据所述第一声源与所述多个咪头的相对位置确定的,所述第二组权重为根据所述第二声源与所述多个咪头的相对位置确定的;
利用所述第一组权重和所述第二组权重分别对所述多个第一声音信号和所述多个第二声音信号进行混音处理。
本发明实施例中,处理器301调用存储器304中的程序代码,还用于执行以下操作:
获取所述多个第一声音信号的能量和所述多个第二声音信号的能量;
将所述多个第一声音信号的能量相互比较,得到第一比较结果;将所述多个第二声音信号的能量相互比较,得到第二比较结果;
根据所述第一比较结果确定所述多个咪头与所述第一声源的相对位置;根据所述第二比较结果确定所述多个咪头与所述第二声源的相对位置。
本发明实施例中,处理器301调用存储器304中的程序代码,还用于执行以下操作:
由所述第一组权重和所述第二组权重计算得到所述多个咪头的混音权重,其中,每个咪头的混音权重用于表示该咪头采集到的声音信号在混音后的声音信号中的比重;
根据所述多个咪头的混音权重对各个咪头获取的声音信号进行混音处理。
本发明实施例中,处理器301调用存储器304中的程序代码,还用于执行以下操作:
在第一咪头与所述会议终端播放设备的距离小于其他各个咪头与所述会议终端播放设备的距离时,为从所述第一咪头获取的所述第二声音信号配置的权重小于为从其他各个咪头获取的所述第二声音信号配置的权重;和/或,
在第二咪头与所述会议终端播放设备的距离大于其他各个咪头与所述会议终端播放设备的距离时,为从所述第二咪头获取的所述第二声音信号配置的权重大于为从其他各个咪头获取的所述第二声音信号配置的权重;和/或,
在第三咪头与所述视频会议现场与会者的距离小于其他各个咪头与所述视频会议现场与会者的距离时,为从所述第三咪头获取的所述第一声音信号配置的权重大于为从其他各个咪头获取的所述第一声音信号配置的权重;和/或,
在第四咪头与所述视频会议现场与会者的距离大于其他各个咪头与所述视频会议现场与会者的距离时,为从所述第四咪头获取的所述第一声音信号配置的权重小于为从其他各个咪头获取的所述第一声音信号配置的权重。
本发明实施例中,处理器301调用存储器304中的程序代码,还可以执行以下操作:
从所述会议终端播放设备获取参考音频信号;
从所述多个咪头采集整体会场的声音信号;
根据所述参考音频信号从所述整体会场的声音信号中分离中所述第一声音信号和所述第二声音信号。
其中,通信总线302可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器304可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写: HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器304 还可以包括上述种类的存储器的组合。
其中,处理器301可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU 和NP的组合。
其中,处理器301还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写: ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD) 或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器304还用于存储程序指令。处理器301可以调用程序指令,实现如本申请实施例中图1B所示的声音处理方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的声音处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种声音处理方法,其特征在于,包括以下步骤:
获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,所述多个第一声音信号由第一声源产生,所述多个第二声音信号由第二声源产生;
确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置;
为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重,其中,所述第一组权重为根据所述第一声源与所述多个咪头的相对位置确定的,所述第二组权重为根据所述第二声源与所述多个咪头的相对位置确定的;
利用所述第一组权重和所述第二组权重分别对所述多个第一声音信号和所述多个第二声音信号进行混音处理。
2.根据权利要求1所述的声音处理方法,其特征在于,确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置包括:
获取所述多个第一声音信号的能量和所述多个第二声音信号的能量;
将所述多个第一声音信号的能量相互比较,得到第一比较结果;将所述多个第二声音信号的能量相互比较,得到第二比较结果;
根据所述第一比较结果确定所述多个咪头与所述第一声源的相对位置;根据所述第二比较结果确定所述多个咪头与所述第二声源的相对位置。
3.根据权利要求1所述的声音处理方法,其特征在于,利用所述第一组权重和所述第二组权重分别对从所述多个第一声音信号和所述多个第二声音信号进行混音处理包括:
由所述第一组权重和所述第二组权重计算得到所述多个咪头的混音权重,其中,每个咪头的混音权重用于表示该咪头采集到的声音信号在混音后的声音信号中的比重;
根据所述多个咪头的混音权重对各个咪头获取的声音信号进行混音处理。
4.根据权利要求1所述的声音处理方法,其特征在于,在所述第一声源为视频会议现场与会者,所述第二声源为会议终端播放设备时,为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重包括:
在第一咪头与所述会议终端播放设备的距离小于其他各个咪头与所述会议终端播放设备的距离时,为从所述第一咪头获取的所述第二声音信号配置的权重小于为从其他各个咪头获取的所述第二声音信号配置的权重;和/或,
在第二咪头与所述会议终端播放设备的距离大于其他各个咪头与所述会议终端播放设备的距离时,为从所述第二咪头获取的所述第二声音信号配置的权重大于为从其他各个咪头获取的所述第二声音信号配置的权重;和/或,
在第三咪头与所述视频会议现场与会者的距离小于其他各个咪头与所述视频会议现场与会者的距离时,为从所述第三咪头获取的所述第一声音信号配置的权重大于为从其他各个咪头获取的所述第一声音信号配置的权重;和/或,
在第四咪头与所述视频会议现场与会者的距离大于其他各个咪头与所述视频会议现场与会者的距离时,为从所述第四咪头获取的所述第一声音信号配置的权重小于为从其他各个咪头获取的所述第一声音信号配置的权重。
5.根据权利要求1至4中任一项所述的声音处理方法,其特征在于,在所述第一声源为视频会议现场与会者,所述第二声源为会议终端播放设备时,获取多个咪头采集到的多个第一声音信号和多个第二声音信号包括:
从所述会议终端播放设备获取参考音频信号;
从所述多个咪头采集整体会场的声音信号;
根据所述参考音频信号从所述整体会场的声音信号中分离中所述第一声音信号和所述第二声音信号。
6.一种声音处理装置,其特征在于,包括:
获取模块,用于获取麦克风多个咪头采集到的多个第一声音信号和多个第二声音信号;其中,所述多个第一声音信号由第一声源产生,所述多个第二声音信号由第二声源产生;
确定模块,用于确定所述第一声源与所述多个咪头的相对位置以及所述第二声源与所述多个咪头的相对位置;
分配模块,用于为从所述多个咪头获取的多个第一声音信号分别配置第一组权重,为从所述多个咪头获取的多个第二声音信号配置第二组权重,其中,所述第一组权重为根据所述第一声源与所述多个咪头的相对位置确定的,所述第二组权重为根据所述第二声源与所述多个咪头的相对位置确定的;
处理模块,用于利用所述第一组权重和所述第二组权重分别对所述多个第一声音信号和所述多个第二声音信号进行混音处理。
7.根据权利要求6所述的声音处理装置,其特征在于,所述确定模块包括:
获取单元,用于获取所述多个第一声音信号的能量和所述多个第二声音信号的能量;
比较单元,用于将所述多个第一声音信号的能量相互比较,得到第一比较结果;将所述多个第二声音信号的能量相互比较,得到第二比较结果;
确定单元,用于根据所述第一比较结果确定所述多个咪头与所述第一声源的相对位置;根据所述第二比较结果确定所述多个咪头与所述第二声源的相对位置。
8.根据权利要求6所述的声音处理装置,其特征在于,所述处理模块包括:
计算单元,用于由所述第一组权重和所述第二组权重计算得到所述多个咪头的混音权重,其中,每个咪头的混音权重用于表示该咪头采集到的声音信号在混音后的声音信号中的比重;
混音单元,用于根据所述多个咪头的混音权重对各个咪头获取的声音信号进行混音处理。
9.一种终端,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5中任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710374354.6A CN107333093B (zh) | 2017-05-24 | 2017-05-24 | 一种声音处理方法、装置、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710374354.6A CN107333093B (zh) | 2017-05-24 | 2017-05-24 | 一种声音处理方法、装置、终端及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107333093A true CN107333093A (zh) | 2017-11-07 |
CN107333093B CN107333093B (zh) | 2019-11-08 |
Family
ID=60192691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710374354.6A Active CN107333093B (zh) | 2017-05-24 | 2017-05-24 | 一种声音处理方法、装置、终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107333093B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109194906A (zh) * | 2018-11-06 | 2019-01-11 | 苏州科达科技股份有限公司 | 视频会议认证系统、方法、装置及存储介质 |
CN109346067A (zh) * | 2018-11-05 | 2019-02-15 | 珠海格力电器股份有限公司 | 语音信息的处理方法及装置、存储介质 |
CN109545242A (zh) * | 2018-12-07 | 2019-03-29 | 广州势必可赢网络科技有限公司 | 一种音频数据处理方法、系统、装置及可读存储介质 |
CN109672966A (zh) * | 2018-12-21 | 2019-04-23 | 歌尔股份有限公司 | 一种语音拾取方法、装置和系统 |
CN112908350A (zh) * | 2021-01-29 | 2021-06-04 | 展讯通信(上海)有限公司 | 一种音频处理方法、通信装置、芯片及其模组设备 |
CN113516993A (zh) * | 2021-03-31 | 2021-10-19 | 深圳鱼亮科技有限公司 | 一种基于无线声学传感器的阵列拾音系统及方法 |
WO2021237565A1 (zh) * | 2020-05-28 | 2021-12-02 | 深圳市大疆创新科技有限公司 | 音频处理方法、电子设备及计算机可读存储介质 |
WO2024078296A1 (zh) * | 2022-10-09 | 2024-04-18 | 华为技术有限公司 | 一种混音方法及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012079459A1 (zh) * | 2010-12-17 | 2012-06-21 | 中兴通讯股份有限公司 | 一种多话筒混音方法及装置 |
CN103076593A (zh) * | 2012-12-28 | 2013-05-01 | 中国科学院声学研究所 | 一种声源定位方法及装置 |
CN103220491A (zh) * | 2012-01-18 | 2013-07-24 | 哈曼贝克自动系统股份有限公司 | 用于操作会议系统的方法以及用于会议系统的装置 |
CN104157292A (zh) * | 2014-08-20 | 2014-11-19 | 杭州华为数字技术有限公司 | 抗啸叫音频信号处理方法和装置 |
CN104934037A (zh) * | 2015-06-02 | 2015-09-23 | 阔地教育科技有限公司 | 一种直录播互动系统中的音频处理方法及装置 |
CN105719653A (zh) * | 2016-01-28 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种混音处理方法和装置 |
-
2017
- 2017-05-24 CN CN201710374354.6A patent/CN107333093B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012079459A1 (zh) * | 2010-12-17 | 2012-06-21 | 中兴通讯股份有限公司 | 一种多话筒混音方法及装置 |
CN103220491A (zh) * | 2012-01-18 | 2013-07-24 | 哈曼贝克自动系统股份有限公司 | 用于操作会议系统的方法以及用于会议系统的装置 |
CN103076593A (zh) * | 2012-12-28 | 2013-05-01 | 中国科学院声学研究所 | 一种声源定位方法及装置 |
CN104157292A (zh) * | 2014-08-20 | 2014-11-19 | 杭州华为数字技术有限公司 | 抗啸叫音频信号处理方法和装置 |
CN104934037A (zh) * | 2015-06-02 | 2015-09-23 | 阔地教育科技有限公司 | 一种直录播互动系统中的音频处理方法及装置 |
CN105719653A (zh) * | 2016-01-28 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种混音处理方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346067A (zh) * | 2018-11-05 | 2019-02-15 | 珠海格力电器股份有限公司 | 语音信息的处理方法及装置、存储介质 |
CN109346067B (zh) * | 2018-11-05 | 2021-02-26 | 珠海格力电器股份有限公司 | 语音信息的处理方法及装置、存储介质 |
CN109194906A (zh) * | 2018-11-06 | 2019-01-11 | 苏州科达科技股份有限公司 | 视频会议认证系统、方法、装置及存储介质 |
CN109194906B (zh) * | 2018-11-06 | 2020-09-11 | 苏州科达科技股份有限公司 | 视频会议认证系统、方法、装置及存储介质 |
CN109545242A (zh) * | 2018-12-07 | 2019-03-29 | 广州势必可赢网络科技有限公司 | 一种音频数据处理方法、系统、装置及可读存储介质 |
CN109672966A (zh) * | 2018-12-21 | 2019-04-23 | 歌尔股份有限公司 | 一种语音拾取方法、装置和系统 |
WO2021237565A1 (zh) * | 2020-05-28 | 2021-12-02 | 深圳市大疆创新科技有限公司 | 音频处理方法、电子设备及计算机可读存储介质 |
CN112908350A (zh) * | 2021-01-29 | 2021-06-04 | 展讯通信(上海)有限公司 | 一种音频处理方法、通信装置、芯片及其模组设备 |
CN112908350B (zh) * | 2021-01-29 | 2022-08-26 | 展讯通信(上海)有限公司 | 一种音频处理方法、通信装置、芯片及其模组设备 |
CN113516993A (zh) * | 2021-03-31 | 2021-10-19 | 深圳鱼亮科技有限公司 | 一种基于无线声学传感器的阵列拾音系统及方法 |
WO2024078296A1 (zh) * | 2022-10-09 | 2024-04-18 | 华为技术有限公司 | 一种混音方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107333093B (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107333093A (zh) | 一种声音处理方法、装置、终端及计算机可读存储介质 | |
US10142484B2 (en) | Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants | |
US10237412B2 (en) | System and method for audio conferencing | |
US9820042B1 (en) | Stereo separation and directional suppression with omni-directional microphones | |
US20150302865A1 (en) | System and method for audio conferencing | |
US11782674B2 (en) | Centrally controlling communication at a venue | |
JP6163468B2 (ja) | 音響品質評価装置、音響品質評価方法、およびプログラム | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
WO2022228220A1 (zh) | 一种合唱音频的处理方法、设备及存储介质 | |
CN110060696B (zh) | 混音方法及装置、终端及可读存储介质 | |
CN117693791A (zh) | 言语增强 | |
US11741984B2 (en) | Method and apparatus and telephonic system for acoustic scene conversion | |
US11451905B1 (en) | System and method for multi-channel acoustic echo and feedback compensation | |
US20240031765A1 (en) | Audio signal enhancement | |
CN107750038B (zh) | 音量调节方法、装置、设备及存储介质 | |
US20230066600A1 (en) | Adaptive noise suppression for virtual meeting/remote education | |
JP2016045389A (ja) | データ構造、データ生成装置、データ生成方法、およびプログラム | |
CN112735455A (zh) | 声音信息的处理方法和装置 | |
JP2021022872A (ja) | 収音装置、収音プログラム、及び収音方法 | |
US10419851B2 (en) | Retaining binaural cues when mixing microphone signals | |
JP6126053B2 (ja) | 音響品質評価装置、音響品質評価方法、およびプログラム | |
WO2024087699A1 (zh) | 音频增强方法、装置、计算设备集群及可读存储介质 | |
US20230098333A1 (en) | Information processing apparatus, non-transitory computer readable medium, and information processing method | |
CN117995210A (zh) | 音频增强方法、装置、计算设备集群及可读存储介质 | |
CN112770222A (zh) | 音频处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |