CN113707165A - 音频处理方法、装置及电子设备和存储介质 - Google Patents

音频处理方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN113707165A
CN113707165A CN202111046004.XA CN202111046004A CN113707165A CN 113707165 A CN113707165 A CN 113707165A CN 202111046004 A CN202111046004 A CN 202111046004A CN 113707165 A CN113707165 A CN 113707165A
Authority
CN
China
Prior art keywords
audio data
audio
electronic device
target speaker
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111046004.XA
Other languages
English (en)
Inventor
韩俊宁
肖荣彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202111046004.XA priority Critical patent/CN113707165A/zh
Publication of CN113707165A publication Critical patent/CN113707165A/zh
Priority to US17/684,392 priority patent/US11902754B2/en
Priority to GB2205269.0A priority patent/GB2610459A/en
Priority to DE102022121955.0A priority patent/DE102022121955A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Abstract

本申请实施例公开了一种音频处理方法、装置及电子设备和存储介质,电子设备获得目标说话人佩戴的音频采集装置采集的目标说话人的第一音频数据,以及电子设备采集的目标说话人所处环境的第二音频数据后,根据目标说话人相对于电子设备的空间位置,将第一音频数据混合到第二音频数据中,得到目标音频数据;其中,该目标音频数据输出时目标说话人的声音与空间位置相匹配。保证了目标音频数据中目标说话人声音的空间效果的准确性。

Description

音频处理方法、装置及电子设备和存储介质
技术领域
本申请涉及音频处理技术领域,更具体地说,涉及一种音频处理方法、装置及电子设备和存储介质。
背景技术
随着视频录制和分享的流行,越来越多的人通过便携式设备(如手机,平板电脑等)拍摄视频并分享。然而,目前使用便携式设备在录制音/视频时,音频的录制效果并不理想,比如,当设备距离音/视频主角比较近时,可以清楚的录制主角的声音,但录音不能覆盖整个大的场景声音,即录音不能表达主角身处的环境。当设备距离主角比较远时,录像录音可以覆盖整个场景的声音,但是由于距离比较远,主角的声音会非常小或不清楚。
因此,如何在音/视频录制时既能覆盖整个大的场景声音,又能清楚的录制主角的声音,成为亟待解决的技术问题。
发明内容
本申请的目的是提供一种音频处理方法、装置及电子设备和存储介质,包括如下技术方案:
一种音频处理方法,用于电子设备,所述方法包括:
获得目标说话人的第一音频数据,以及所述目标说话人所处环境的第二音频数据;其中,所述第一音频数据由所述目标说话人佩戴的音频采集装置采集,所述第二音频数据由所述电子设备采集;
获得所述目标说话人相对于所述电子设备的空间位置;
根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,得到目标音频数据;其中,所述目标音频数据输出时所述目标说话人的声音与所述空间位置相匹配。
上述方法,优选的,所述第二音频数据根据所述电子设备的麦克风阵列采集的音频数据得到;
所述获得所述目标说话人相对于所述电子设备的空间位置,包括:
根据所述麦克风阵列采集的音频数据计算得到所述目标说话人相对于所述电子设备的空间位置。
上述方法,优选的,所述获得所述目标说话人相对于所述电子设备的空间位置,包括:
采集所述目标说话人的图像;
对所述图像进行处理,以确定所述目标说话人相对于所述电子设备的空间位置。
上述方法,优选的,所述根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,包括:
根据所述空间位置确定所述第一音频数据在所述电子设备中的音频参数;
按照所述音频参数将所述第一音频数据混合到所述第二音频数据中。
上述方法,优选的,所述空间位置包括:所述目标说话人相对于所述电子设备的方位和距离;
所述根据所述空间位置确定所述第一音频数据在所述电子设备中的音频参数,包括:
根据所述目标说话人相对于所述电子设备的方位和距离确定所述第一音频数据在所述第二音频数据中的各个音频通道的音频参数;
所述按照所述音频参数将所述第一音频数据混合到所述第二音频数据中,包括:
对应第二音频数据的每一个音频通道,将所述第一音频数据按照该音频通道对应的音频参数混合到该音频通道。
上述方法,优选的,所述音频参数包括如下至少一项:声压、相位、时延。
上述方法,优选的,所述获得目标说话人的第一音频数据,包括:
通过无线传输通道接收所述所述目标说话人佩戴的音频采集装置发送的所述第一音频数据。
一种音频处理装置,用于电子设备,所述装置包括:
音频数据获得模块,用于获得目标说话人的第一音频数据,以及所述目标说话人所处环境的第二音频数据;其中,所述第一音频数据由所述目标说话人佩戴的音频采集装置采集,所述第二音频数据由所述电子设备采集;
空间位置获得模块,用于获得所述目标说话人相对于所述电子设备的空间位置;
数据处理模块,用于根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,得到目标音频数据;其中,所述目标音频数据输出时所述目标说话人的声音与所述空间位置相匹配。
一种电子设备,包括:
存储器,用于存储程序;
处理器,用于调用并执行所述存储器中的所述程序,通过执行所述程序实现如上任一项所述的音频处理方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的音频处理方法的各个步骤。
通过以上方案可知,本申请提供的一种音频处理方法、装置及电子设备和存储介质,电子设备获得目标说话人佩戴的音频采集装置采集的目标说话人的第一音频数据,以及电子设备采集的目标说话人所处环境的第二音频数据后,根据目标说话人相对于电子设备的空间位置,将第一音频数据混合到第二音频数据中,得到目标音频数据;其中,该目标音频数据输出时目标说话人的声音与空间位置相匹配。由于第一音频数据是由目标说话人佩戴的音频采集装置采集的,从而保证第一音频数据的清晰性,而第二音频数据是由电子设备采集的,可以保证第二音频数据覆盖整个大的场景声音,按照目标说话人相对于电子设备的空间位置,将第一音频数据混合到第二音频数据后,保证混合的目标音频数据既能覆盖整个大的场景声音,又能清楚的输出目标说话人的声音,而且,目标音频数据输出时目标说话人的声音与空间位置相匹配,保证目标音频数据中目标说话人声音的空间效果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的音频处理方法的一种实现流程图;
图2为本申请实施例提供的根据空间位置,将第一音频数据混合到第二音频数据的一种实现流程图;
图3a为本申请实施例提供的基于具体的应用场景的音频处理方法的一种实现流程图;
图3b为本申请实施例提供的图3a中的主人公与电子设备间的相对位置关系示例图;
图4为本申请实施例提供的语音处理装置的一种结构示意图;
图5为本申请实施例提供的电子设备的一种结构示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的音频处理方法用于电子设备中,该电子设备可以是便携式电子设备,比如智能手机、平板电脑等。该电子设备可以采集音频数据。
如图1所示,为本申请实施例提供的音频处理方法的一种实现流程图,可以包括:
步骤S101:获得目标说话人的第一音频数据,以及目标说话人所处环境的第二音频数据;其中,第一音频数据由目标说话人佩戴的音频采集装置采集,第二音频数据由电子设备采集。
目标说话人配置的音频采集装置可以是有线/无线耳机或者有线/无线麦克风,由于佩戴在目标说话人身上,因此,可以清楚的录制到目标说话人的声音。而电子设备相对于目标说话人佩戴的音频采集装置来说,距离目标说话人的距离比较远,所以电子设备可以录制到目标说话人所处环境的声音(即大场景的声音)。
音频采集装置可以通过有线传输通道(比如,通用串行总线等)将第一音频数据发送给电子设备,或者,音频采集装置可以通过无线传输通道(比如,蓝牙,wifi等)将第一音频数据发送给电子设备。
目标说话人可以只有一个,也可以有多个。当有多个目标说话人时,每个说话人均佩戴有音频采集装置。
步骤S102:获得目标说话人相对于电子设备的空间位置。
目标说话人相对于电子设备的空间位置可以包括如下至少一种:目标说话人相对于电子设备的方位(即,目标说话人在电子设备的哪个方向上),以及目标说话人相对于电子设备的距离(即目标说话人与电子设备之间的距离)。
可以通过摄像头确定目标说话人相对于电子设备的空间位置,或者,可以通过麦克风阵列确定目标说话人相对于电子设备的空间位置。
当有多个目标说话人时,获得每个目标说话人相对于电子设备的空间位置。
步骤S103:根据上述空间位置,将第一音频数据混合到第二音频数据中,得到目标音频数据;其中,如果目标音频数据输出时目标说话人的声音与上述空间位置相匹配。
当有多个目标说话人时,根据每一个目标说话人相对于电子设备的空间位置,将每一个目标说话人的第一音频数据混合到第二音频数据中。即对于第i个目标说话人,根据第i个目标说话人相对于电子设备的空间位置,将第i个目标说话人的第一音频数据混合到第二音频数据中。也就是说,在目标说话人有多个的情况下,会有多个第一音频数据混合到第二音频数据中。
另外,在将第一音频数据混合到第二音频数据中时,可以先将第一音频数据和第二音频数据时序对齐,例如,基于第一音频数据与所述第二音频数据包括相同的音频信号(即,目标说话人所说的话语,既被用户佩戴的音频采集装置采集同时也被电子设备上的麦克风采集)进行时序对齐,然后,根据上述空间位置,将第一音频数据混合到第二音频数据中。
本申请实施例中,在将第一音频数据混合到第二音频数据中时,考虑了采集第一音频数据的音频采集装置相对于电子设备的方位,使得将第一音频数据混合到第二音频数据得到目标音频数据后,目标音频数据在输出时,目标说话人的声音与音频采集装置相对于电子设备的空间位置相匹配,具体体现为:假设目标说话人在电子设备的左侧5米的位置,则基于本申请的方案将第一音频数据混合到第二音频数据后得到的目标音频数据在输出时,使人听起来仍然感觉目标说话人在电子设备的左侧5米的位置。而如果不考虑音频采集装置相对于电子设备的空间位置,而是直接将第一音频数据混合到第二音频数据中,则得到的目标音频数据在输出时,有可能使人听起来好像目标说话人在电子设备的上方10米位置处说话。
基于本申请,由于第一音频数据是由目标说话人佩戴的音频采集装置采集的,从而保证第一音频数据的清晰性,而第二音频数据是由电子设备采集的,可以保证第二音频数据覆盖整个大的场景声音,按照目标说话人相对于电子设备的空间位置,将第一音频数据混合到第二音频数据后,保证混合的目标音频数据既能覆盖整个大的场景声音,又能清楚的输出目标说话人的声音,而且,目标音频数据输出时目标说话人的声音与空间位置相匹配,保证目标音频数据中目标说话人声音的空间效果的准确性。
在一可选的实施例中,上述第二音频数据可以是根据电子设备的麦克风阵列(包括至少三个麦克风)采集的音频数据得到的。
可选的,第二音频数据可以是电子设备通过麦克风阵列采集的360度全方向的音频数据,或者,可以是麦克风阵列采集的电子设备的左右两个方向音频数据,这样可以利用采集到音频数据生成3D立体音。其中,左右两个方向是指位于电子设备的相互平行的两个边的两侧,比如,左侧是指电子设备处于横屏状态的一个长边(记为第一长边)的外侧,右侧是指与电子设备的第一长边平行的另一个长边(第二长边)的外侧,或者,左侧是指电子设备处于横屏状态的一个短边(记为第一短边)的外侧,右侧是指与电子设备的第一短边平行的另一短边(记为第二短边)的外侧。
可选的,可以基于麦克风阵列在电子设备的左侧形成第一接收波束与所述左侧的空间范围对应,在电子设备的右侧生成第二接收波束与所述右侧的空间范围对应,则可以基于第一接收波束重点关注电子设备左侧的音源的信号,而抑制电子设备左侧以外的音源的信号,同理,可以基于第二接收波束重点关注电子设备右侧的音源的信号,而抑制电子设备右侧以外的音源的信号,从而可以生成3D立体音。
可选的,第二音频数据可以是基于电子设备的左右两个麦克风定向采集的音频信号,比如,左麦克风采集的是以左麦克风为中心向左侧扩散的60度范围内的音频的信号,右麦克风采集的是以右麦克风为中心向右侧扩散的60度范围内的音频的信号。
在一可选的实施例中所述提供的方法中,还包括确定目标说话人。通过电子设备上的多个麦克风构成的麦克风阵列确定相对于所述电子设备的空间范围存在的音源,该音源可以是一个也可以是多个。所述电子设备的声音定位追踪引擎按照预定条件,确定满足所述预定条件的音源作为目标说话人进行定位并追踪(即记录满足所述条件的音源的位置变化)。如果目标说话人边说话边移动,声音定位追踪引擎针对目标说话人是连续定位且记录的,以使得后续在第二音频数据中混合的目标说话人佩戴的音频采集装置所采集的第一音频数据也能够在空间上每个变化位置对应有第一音频数据的对应部分。实现目标音频数据输出时使得收听者能够感知目标说话人在空间中边移动边说话。其中,所述预定条件包括如下至少一种为音源的音量参数超过阈值;音源的音质参数超过阈值;多个音源中音量最大;多个音源中音质最好等等。
更进一步,确定目标说话人还可以通过电子设备的摄像头确定,比如,在视频录制的过程中,通过调启的摄像头或/和针对所述调启的摄像头的设置参数(对焦)确定目标说话人。因为在视频录制的场景中摄像头所对准的为目标说话人。具体而言,预先存储电子设备上集成的多个摄像头中每个摄像头的视场角(FOV)以及采集方向,如果任意一个摄像头被调启通过查询预存视场角(FOV)以及采集方向就能够确定被调启的摄像头相对于电子设备采集方向和采集范围,该被调启的摄像头的采集范围和采集方向作为所述声音定位追踪引擎的指示信息,所述声音定位追踪引擎基于所述指示信息确定目标的音源作为目标说话人;或者,所述声音定位追踪引擎基于所述指示信息确定满足所述预定条件的音源作为目标说话人
为了更精确确定目标说话人可以基于针对所述调启的摄像头的设置参数(对焦)进一步在基于被调启的摄像头所对应的采集范围和采集方向上确定更加准确的方向和采集范围。并且将该更加准确的方向和采集范围所述声音定位追踪引擎的指示信息。
在一可选的实施例中,上述获得目标说话人相对于电子设备的空间位置的一种实现方式可以为:
根据麦克风阵列采集的音频数据计算得到目标说话人相对于电子设备的空间位置。
可以根据麦克风阵列采集的音频数据识别目标说话人的方向,比如,通常的录制主角距离电子设备最近,可以将满足条件的声音所在的方向确定为目标说话人的方向,目标说话人的方向确定了,目标说话人的音频信号也就确定了。其中,满足条件的声音可以是满足如下至少一个条件的声音:音量最大、音质最好等。
然后根据目标说话人的声音到达麦克风阵列中各麦克风的时间,确定目标说话人的声音到达任意两个麦克风的时延,结合麦克风阵列中各麦克风的位置,及麦克风之间的相对位置关系,可以计算得到目标说话人的相对于电子设备的位置,然后基于目标说话人相对于电子设备的位置,以及电子设备的位置可以确定目标说话人与电子设备间的距离。
上述获得目标说话人相对于电子设备的空间位置的方案可以用于音频录制过程,也可以用于视频录制过程。
前述实施例中,在基于音频数据识别目标说话人的过程中,如果目标说话人的旁边有其他人(不是录制主角)的声音大于目标说话人的声音,则会将目标说话人切换为目标说话人旁边的人,影响音/视频的录制。因此,为了避免该问题,可以对方案做进一步的优化,可选的,
在录制音频或视频的过程中,检测到满足条件的新的音源时,根据图像采集装置采集的图像确定图像采集装置关注方向,若该关注方向与前述基于音频数据确定的目标说话人相对于电子设备的方向相同,则禁止将目标说话人切换为新的音源,若该关注方向与前述基于音频数据确定的目标说话人相对于电子设备的方向不同,则将目标说话人切换为新的音源。从而避免录制非录制主角的声音。
在一可选的实施例中,上述获得目标说话人相对于电子设备的空间位置的另一种实现方式可以为:
采集目标说话人(通常是距离摄像镜头最近的人,或者,是预先指定的一个人)的图像。可以基于双目摄像头采集目标说话人的图像。
对图像进行处理,以确定目标说话人相对于电子设备的空间位置。基于双目摄像头中两个摄像头之间的距离,摄像头的焦距,以及目标说话人在采集的图像中的位置,可以确定目标说话人相对于电子设备的距离,根据摄像头在电子设备中的朝向,以及电子设备的朝向,可以确定目标说话人相对于电子设备的方向。
这种获得目标说话人相对于电子设备的空间位置的方案也可以用于音频录制过程,当然也可以用于视频录制过程。当然,在音频录制过程中,由于用户不关注视频内容是什么,因此,可以不显示摄像头采集的图像,当然,为方便用户使用电子设备,可以在小窗口中显示其中一个摄像头采集的图像,以便于用户确定当前的录制对象是谁。
在一可选的实施例中,还可以包括:
在录制音频或视频的过程中,可以将图像采集装置的采集范围内的说话人确定目标说话人,基于此,可以利用图像采集装置采集的图像监测目标说话人是否发生变化(比如,是否由A目标说话人切换到B目标说话人等),在监测到目标说话人发生变化时,确定变化后的目标说话人相对于电子设备的方向,然后采集变化后的目标说话人相对于电子设备的方向上的第一音频数据,以及目标说话人所处环境的第二音频数据,获得变化后的目标说话人相对于电子设备的空间位置(可以基于麦克风阵列确定,也可以基于摄像头确定),根据该空间位置将变化后的目标说话人的第一音频数据混合到电子设备采集的第二音频数据中,得到目标音频数据。
在一可选的实施例中,上述根据空间位置,将第一音频数据混合到第二音频数据的一种实现流程图如图2所示,可以包括:
步骤S201:根据上述空间位置确定第一音频数据在电子设备中的音频参数。
第一音频数据在电子设备中的音频参数是指目标说话人的声音直接由电子设备采集时所应该有的音频参数。
可选的,音频参数可以包括但不限于以下至少一项:声压、相位、时延。其中,声压与距离相关,表征声音的大小,相位和时延与距离和方位均相关,表征声源相对于电子设备的方位。
通常电子设备中的音频数据分为左音频通道和右音频通道,因而,可以根据上述空间位置确定第一音频数据在第二音频数据中的各个音频通道的音频参数。每个音频通道的音频参数均可以包括但不限于以上列举的几项音频参数中的至少一项。
可选的,可以根据目标说话人相对于电子设备的方位和距离确定第一音频数据在第二音频数据中的各个音频通道音频参数。具体的,
可以根据目标说话人相对于电子设备的距离,以及人的两个耳朵之间的距离(该距离可以是预先通过对若干人进行统计分析得到人头模型的两个耳朵之间的距离),确定第一音频数据到达第二音频数据中的各个音频通道的声压,其中,声源距离人耳的距离越大,声压越小,声源距离人耳的距离越远,声压越大;可以根据目标说话人相对于电子设备的距离和方位确定目标说话人的的声音到达电子设备时在第二视音频数据中的各个音频通道的相位和时延。
步骤S202:按照音频参数将第一音频数据混合到第二音频数据中。
可选的,对应第二音频数据的每一个音频通道,将第一音频数据按照该音频通道对应的音频参数混合到该音频通道。
如图3a-3b所示,其中,图3a为本申请实施例提供的基于具体的应用场景的音频处理方法的一种实现流程图,图3b为本申请实施例提供的图3a中的主人公与电子设备间的相对位置关系示例图,该示例中,是对室外的一个多人活动场景进行拍摄的过程,该场景中,主人公(即离电子设备的摄像头最近的人)带着蓝牙耳机陈述对白,同时具有由多个麦克风(该示例中,为3个mic,即mic1,mic2,mic3)组成的麦克风阵列的电子设备(与主人公之间具有一定的距离)录制活动现场的视频,该示例中,三个麦克风用于录制场景声音(通常为3D声音),还用于对主人公进行定位。可以采用声音追踪定位引擎获得主人公的定位信息(即主人公相对于电子设备的空间位置),自动混音引擎可以基于主人公的定位信息将对白声音混入大场景3D声音中。
当然本申请实施例并不是仅适用于室外场景,本申请实施例也适用于室内场景,不仅适用于多人场景,也适用于单人且周围环境嘈杂的场景(比如,一个人在风雨天的室外录制视频等)。
与方法实施例相对应,本申请实施例还提供一种语音处理装置,本申请实施例提供的语音处理装置的一种结构示意图如图4所示,可以包括:
音频数据获得模块401,空间位置获得模块402和数据处理模块403;其中,
音频数据获得模块401用于获得目标说话人的第一音频数据,以及所述目标说话人所处环境的第二音频数据;其中,所述第一音频数据由所述目标说话人佩戴的音频采集装置采集,所述第二音频数据由所述电子设备采集;
空间位置获得模块402用于获得所述目标说话人相对于所述电子设备的空间位置;
数据处理模块403用于根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,得到目标音频数据;其中,所述目标音频数据输出时所述目标说话人的声音与所述空间位置相匹配。
本申请实施例提供的音频处理装置,由于第一音频数据是由目标说话人佩戴的音频采集装置采集的,从而保证第一音频数据的清晰性,而第二音频数据是由电子设备采集的,可以保证第二音频数据覆盖整个大的场景声音,按照目标说话人相对于电子设备的空间位置,将第一音频数据混合到第二音频数据后,保证混合的目标音频数据既能覆盖整个大的场景声音,又能清楚的输出目标说话人的声音,而且,目标音频数据输出时目标说话人的声音与空间位置相匹配,保证目标音频数据中目标说话人声音的空间效果的准确性。
在一可选的实施例中,所述第二音频数据根据所述电子设备的麦克风阵列采集的音频数据得到;
所述空间位置获得模块具体用于:
根据所述麦克风阵列采集的音频数据计算得到所述目标说话人相对于所述电子设备的空间位置。
在一可选的实施例中,所述空间位置获得模块具体用于:
采集所述目标说话人的图像;
对所述图像进行处理,以确定所述目标说话人相对于所述电子设备的空间位置。
在一可选的实施例中,所述数据处理模块具体用于:
根据所述空间位置确定所述第一音频数据在所述电子设备中的音频参数;
按照所述音频参数将所述第一音频数据混合到所述第二音频数据中。
在一可选的实施例中,所述空间位置包括:所述目标说话人相对于所述电子设备的方位和距离;
所述所述空间位置获得模块在根据所述空间位置确定所述第一音频数据在所述电子设备中的音频参数时,用于:
根据所述目标说话人相对于所述电子设备的方位和距离确定所述第一音频数据在所述第二音频数据中的各个音频通道的音频参数;
所述数据处理模块按照所述音频参数将所述第一音频数据混合到所述第二音频数据中时,用于:
对应第二音频数据的每一个音频通道,将所述第一音频数据按照该音频通道对应的音频参数混合到该音频通道。
在一可选的实施例中,所述音频参数包括如下至少一项:声压、相位、时延。
在一可选的实施例中,所述音频数据获得模块在获得目标说话人的第一音频数据时,用于:
通过无线传输通道接收所述所述目标说话人佩戴的音频采集装置发送的所述第一音频数据。
与方法实施例相对应,本申请还提供一种电子设备,该电子设备的一种结构示意图如图5所示,可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器3存储有程序,处理器1可调用存储器3存储的程序,所述程序用于:
获得目标说话人的第一音频数据,以及所述目标说话人所处环境的第二音频数据;其中,所述第一音频数据由所述目标说话人佩戴的音频采集装置采集,所述第二音频数据由所述电子设备采集;
获得所述目标说话人相对于所述电子设备的空间位置;
根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,得到目标音频数据;其中,所述目标音频数据输出时所述目标说话人的声音与所述空间位置相匹配。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获得目标说话人的第一音频数据,以及所述目标说话人所处环境的第二音频数据;其中,所述第一音频数据由所述目标说话人佩戴的音频采集装置采集,所述第二音频数据由所述电子设备采集;
获得所述目标说话人相对于所述电子设备的空间位置;
根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,得到目标音频数据;其中,所述目标音频数据输出时所述目标说话人的声音与所述空间位置相匹配。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频处理方法,用于电子设备,所述方法包括:
获得目标说话人的第一音频数据,以及所述目标说话人所处环境的第二音频数据;其中,所述第一音频数据由所述目标说话人佩戴的音频采集装置采集,所述第二音频数据由所述电子设备采集;
获得所述目标说话人相对于所述电子设备的空间位置;
根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,得到目标音频数据;其中,所述目标音频数据输出时所述目标说话人的声音与所述空间位置相匹配。
2.根据权利要求1所述的方法,所述第二音频数据根据所述电子设备的麦克风阵列采集的音频数据得到;
所述获得所述目标说话人相对于所述电子设备的空间位置,包括:
根据所述麦克风阵列采集的音频数据计算得到所述目标说话人相对于所述电子设备的空间位置。
3.根据权利要求1或2所述的方法,所述获得所述目标说话人相对于所述电子设备的空间位置,包括:
采集所述目标说话人的图像;
对所述图像进行处理,以确定所述目标说话人相对于所述电子设备的空间位置。
4.根据权利要求1所述的方法,所述根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,包括:
根据所述空间位置确定所述第一音频数据在所述电子设备中的音频参数;
按照所述音频参数将所述第一音频数据混合到所述第二音频数据中。
5.根据权利要求4所述的方法,所述空间位置包括:所述目标说话人相对于所述电子设备的方位和距离;
所述根据所述空间位置确定所述第一音频数据在所述电子设备中的音频参数,包括:
根据所述目标说话人相对于所述电子设备的方位和距离确定所述第一音频数据在所述第二音频数据中的各个音频通道的音频参数;
所述按照所述音频参数将所述第一音频数据混合到所述第二音频数据中,包括:
对应第二音频数据的每一个音频通道,将所述第一音频数据按照该音频通道对应的音频参数混合到该音频通道。
6.根据权利要求4所述的方法,所述音频参数包括如下至少一项:声压、相位、时延。
7.根据权利要求1所述的方法,所述获得目标说话人的第一音频数据,包括:
通过无线传输通道接收所述所述目标说话人佩戴的音频采集装置发送的所述第一音频数据。
8.一种音频处理装置,用于电子设备,所述装置包括:
音频数据获得模块,用于获得目标说话人的第一音频数据,以及所述目标说话人所处环境的第二音频数据;其中,所述第一音频数据由所述目标说话人佩戴的音频采集装置采集,所述第二音频数据由所述电子设备采集;
空间位置获得模块,用于获得所述目标说话人相对于所述电子设备的空间位置;
数据处理模块,用于根据所述空间位置,将所述第一音频数据混合到所述第二音频数据中,得到目标音频数据;其中,所述目标音频数据输出时所述目标说话人的声音与所述空间位置相匹配。
9.一种电子设备,包括:
存储器,用于存储程序;
处理器,用于调用并执行所述存储器中的所述程序,通过执行所述程序实现如权利要求1-7中任一项所述的音频处理方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的音频处理方法的各个步骤。
CN202111046004.XA 2021-09-07 2021-09-07 音频处理方法、装置及电子设备和存储介质 Pending CN113707165A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202111046004.XA CN113707165A (zh) 2021-09-07 2021-09-07 音频处理方法、装置及电子设备和存储介质
US17/684,392 US11902754B2 (en) 2021-09-07 2022-03-01 Audio processing method, apparatus, electronic device and storage medium
GB2205269.0A GB2610459A (en) 2021-09-07 2022-04-11 Audio processing method, apparatus, electronic device and storage medium
DE102022121955.0A DE102022121955A1 (de) 2021-09-07 2022-08-31 Audioverarbeitungsverfahren, audioverarbeitungsgerät, elektronische vorrichtung zur audioverarbeitung und speichermedium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111046004.XA CN113707165A (zh) 2021-09-07 2021-09-07 音频处理方法、装置及电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113707165A true CN113707165A (zh) 2021-11-26

Family

ID=78659053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111046004.XA Pending CN113707165A (zh) 2021-09-07 2021-09-07 音频处理方法、装置及电子设备和存储介质

Country Status (4)

Country Link
US (1) US11902754B2 (zh)
CN (1) CN113707165A (zh)
DE (1) DE102022121955A1 (zh)
GB (1) GB2610459A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598984A (zh) * 2022-01-11 2022-06-07 华为技术有限公司 立体声合成方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150230025A1 (en) * 2006-06-02 2015-08-13 Ideaworkx Llc Communication System and Method
US10110994B1 (en) * 2017-11-21 2018-10-23 Nokia Technologies Oy Method and apparatus for providing voice communication with spatial audio
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN111050269A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 音频处理方法和电子设备
CN111602414A (zh) * 2018-01-16 2020-08-28 谷歌有限责任公司 视频会议期间控制音频信号聚焦说话者
CN112037738A (zh) * 2020-08-31 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种音乐数据的处理方法、装置及计算机存储介质
CN112316427A (zh) * 2020-11-05 2021-02-05 腾讯科技(深圳)有限公司 语音播放方法、装置、计算机设备及存储介质
CN113035164A (zh) * 2021-02-24 2021-06-25 腾讯音乐娱乐科技(深圳)有限公司 歌声生成方法和装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030059061A1 (en) * 2001-09-14 2003-03-27 Sony Corporation Audio input unit, audio input method and audio input and output unit
DE60328335D1 (de) * 2002-06-07 2009-08-27 Panasonic Corp System zur Klangbildsteuerung
JP2013101248A (ja) * 2011-11-09 2013-05-23 Sony Corp 音声制御装置、音声制御方法、およびプログラム
GB2543276A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150230025A1 (en) * 2006-06-02 2015-08-13 Ideaworkx Llc Communication System and Method
US10110994B1 (en) * 2017-11-21 2018-10-23 Nokia Technologies Oy Method and apparatus for providing voice communication with spatial audio
CN111602414A (zh) * 2018-01-16 2020-08-28 谷歌有限责任公司 视频会议期间控制音频信号聚焦说话者
CN111050269A (zh) * 2018-10-15 2020-04-21 华为技术有限公司 音频处理方法和电子设备
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN112037738A (zh) * 2020-08-31 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种音乐数据的处理方法、装置及计算机存储介质
CN112316427A (zh) * 2020-11-05 2021-02-05 腾讯科技(深圳)有限公司 语音播放方法、装置、计算机设备及存储介质
CN113035164A (zh) * 2021-02-24 2021-06-25 腾讯音乐娱乐科技(深圳)有限公司 歌声生成方法和装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598984A (zh) * 2022-01-11 2022-06-07 华为技术有限公司 立体声合成方法和系统

Also Published As

Publication number Publication date
US11902754B2 (en) 2024-02-13
GB202205269D0 (en) 2022-05-25
US20230074395A1 (en) 2023-03-09
DE102022121955A1 (de) 2023-03-09
GB2610459A (en) 2023-03-08

Similar Documents

Publication Publication Date Title
US11838707B2 (en) Capturing sound
US10165386B2 (en) VR audio superzoom
US10848889B2 (en) Intelligent audio rendering for video recording
KR102378762B1 (ko) 지향성의 사운드 변형
JP4669041B2 (ja) ウェアラブル端末
CN108156561B (zh) 音频信号的处理方法、装置及终端
US10952012B2 (en) Displaying a location of binaural sound outside a field of view
WO2014161309A1 (zh) 一种移动终端实现声源定位的方法及装置
CN104995681A (zh) 多声道音频数据的视频分析辅助产生
CN111970625B (zh) 录音方法和装置、终端和存储介质
JP2022133366A (ja) 動画編集装置、動画編集方法及びプログラム
WO2016167007A1 (ja) 頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラム、音声再生装置
CN106302974B (zh) 一种信息处理的方法及电子设备
JP5754595B2 (ja) トランスオーラルシステム
CN107249166A (zh) 一种完全沉浸式的耳机立体声实现方法及系统
CN111551921A (zh) 一种声像联动的声源定向系统及方法
CN113573120B (zh) 音频的处理方法及电子设备、芯片系统及存储介质
CN113707165A (zh) 音频处理方法、装置及电子设备和存储介质
CN110677781A (zh) 利用编码光线引导扬声器阵列和麦克风阵列的系统和方法
WO2023231787A1 (zh) 音频处理方法和装置
WO2019174442A1 (zh) 拾音设备、声音输出方法、装置、存储介质及电子装置
KR20150114589A (ko) 피사체 재구성을 위한 장치 및 방법
JP6860178B1 (ja) 映像処理装置及び映像処理方法
WO2022161146A1 (zh) 视频录制方法及电子设备
CN116781817A (zh) 双耳拾音方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination