CN113873420A - 音频数据处理方法及装置 - Google Patents
音频数据处理方法及装置 Download PDFInfo
- Publication number
- CN113873420A CN113873420A CN202111145326.XA CN202111145326A CN113873420A CN 113873420 A CN113873420 A CN 113873420A CN 202111145326 A CN202111145326 A CN 202111145326A CN 113873420 A CN113873420 A CN 113873420A
- Authority
- CN
- China
- Prior art keywords
- audio data
- spatial
- sound effect
- information
- effect information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 191
- 230000009467 reduction Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000002265 prevention Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
Abstract
本申请公开了一种音频数据处理方法及装置,该方法包括:获取第一音频数据;对所述第一音频数据进行降噪处理,以生成第二音频数据;获取多个与所述第二音频数据相匹配的空间音效信息,其中,多个所述空间音效信息分别用于描述各声道的空间音效特性;将所述第二音频数据和多个所述空间音效信息按时序编码为第一数据流。
Description
技术领域
本申请涉及音频处理技术领域,特别涉及一种音频数据处理方法及装置。
背景技术
立体声能够提高音频的临场感、层次感和解析度。通常情况下,需要通过多个麦克风分别采集音频,对所采集的音频数据降噪处理后,将多路音频数据发送到扬声器一侧,通过多个扬声器分别播放相应的音频数据,以形成具有立体感的声音。
但由于降噪处理在一定程度上会消除音频数据中的空间音效,所以即使通过多个扬声器分别播放多路音频数据,所形成的声音仍然存在立体感较差的问题。而且,由于需要传输多路音频数据,导致数据传输量较大,不利于降低电子设备功耗。
发明内容
本申请提供了一种音频数据处理方法及装置,本申请实施例采用的技术方案如下:
本申请一方面提供了一种音频数据处理方法,包括:
获取第一音频数据;
对所述第一音频数据进行降噪处理,以生成第二音频数据;
获取多个与所述第二音频数据相匹配的空间音效信息,其中,多个所述空间音效信息分别用于描述各声道的空间音效特性;
将所述第二音频数据和多个所述空间音效信息按时序编码为第一数据流。
在一些实施例中,所述获取多个与所述第二音频数据相匹配的空间音效信息,包括:
基于所述第一音频数据,获取用于描述所述第一音频数据的音效特性的音效信息。
在一些实施例中,所述获取多个与所述第二音频数据相匹配的空间音效信息,还包括:
通过定位装置获取空间信息,其中,所述空间信息用于表征目标声源和所述第一音频数据的采集装置的空间位置关系;
基于所述音效信息和所述空间信息,生成多个所述空间音效信息。
在一些实施例中,所述获取第一音频数据,包括:
获取两个所述第一音频数据,两个所述第一音频数据分别由分布于不同位置的第一采集装置和第二采集装置所采集。
在一些实施例中,所述获取多个与所述第二音频数据相匹配的空间音效信息,包括:
基于两个所述第一音频数据,获取第一空间信息和第二空间信息,其中,所述第一空间信息用于表征目标声源和所述第一采集装置的空间位置关系,所述第二空间信息用于表征目标声源和所述第二采集装置的空间位置关系;
分别基于两个所述第一音频数据,获取第一音效信息和第二音效信息,其中,所述第一音效信息和所述第二音效信息分别用于描述相应的所述第一音频数据的音效特性;
基于所述第一空间信息和所述第一音效信息生成第一空间音效信息,并基于所述第二空间信息和所述第二音效信息生成第二空间音效信息。
在一些实施例中,所述对所述第一音频数据进行降噪处理,以生成第二音频数据,包括:
对所述第一音频数据进行降噪处理,消除所述第一音频数据中的空间音效特性,以生成所述第二音频数据。
在一些实施例中,所述对所述第一音频数据进行降噪处理,以生成第二音频数据,包括:
滤除所述第一音频数据中第一频率范围之外的音频数据,消减所述第一频率范围内非目标声源的音频数据,并保留所述第一频率范围内目标声源的音频数据,以形成所述第二音频数据;
其中,所述第一频率范围为所述目标声源所发声音的频率范围。
在一些实施例中,所述方法还包括:
将所述第一数据流发送至第一电子设备,以使所述第一电子设备基于所述第一数据流执行播放操作;
其中,所述播放操作包括对所述第一数据流进行解码,分别基于多个所述空间音效信息对所述第二音频数据进行处理,以形成多路声道信号,基于多路所述声道信号播放声音,以形成具有立体感的声音。
在一些实施例中,所述方法还包括:
分别获取多个所述空间音效信息的第一时间信息,其中,所述第一时间信息用于标识所述空间音效信息的时域范围;
基于第一时间信息,向所述第二音频数据添加第一标识;其中,所述第一标识用于指示所述第一电子设备基于相应的空间音效信息,对相应时域范围的所述第二音频数据进行处理,以形成所述声道信号。
本申请另一方面提供了一种音频数据处理装置,包括:
第一获取模块,用于获取第一音频数据;
降噪模块,用于对所述第一音频数据进行降噪处理,以生成第二音频数据;
第二获取模块,用于获取多个与所述第二音频数据相匹配的空间音效信息,其中,多个所述空间音效信息分别用于描述各声道的空间音效特性;
编码模块,用于将所述第一音频数据和多个所述空间音效信息按时序编码为第一数据流。
本申请实施例的音频数据处理方法,对获取的第一音频数据进行降噪处理以形成第二音频数据,获取多个与第二音频数据相匹配的空间音效信息,并将第二音频数据和多个空间音效信息按时序编码为第一数据流,如此,既实现了对第一音频数据进行降噪的目的,又通过获取多个空间音效信息,以及将多个空间音效信息和第二音频数据按时序编码为第一数据流,使得播放装置基于多个空间音效信息能够模拟第一音频数据的空间音效特性,播放具有空间感和立体感的声音,也即,既实现了降噪的目的,又保留了音频的空间音效特性。
附图说明
图1为本申请第一种实施例的音频数据处理方法的流程图;
图2为本申请第二种实施例的音频数据处理方法的流程图;
图3为本申请第三种实施例的音频数据处理方法的流程图;
图4为本申请第四种实施例的音频数据处理装置的结构框图;
图5为本申请第五种实施例的电子设备的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请第一种实施例提供了一种音频数据处理方法,用于对采集装置所采集的音频数据进行降噪处理,并为降噪处理后的音频数据配置各声道的空间音效信息,使得播放装置基于该音频数据和空间音效信息,能够播放具有立体感的声音,如此,既能够实现降噪的目的,又能够实现对空间音效特性的还原。
图1为本申请第一种实施例的音频数据处理方法的流程图,参见图1所示,本申请实施例的音频数据处理方法具体可包括如下步骤:
S101,获取第一音频数据。
其中,该第一音频数据为未经降噪处理的音频数据。可选的,可获取由单个采集装置采集的一路第一音频数据,也可获取多个采集装置同步采集的多路第一音频数据。
在实际应用时,可从采集装置处获取该第一音频数据。以实时通话场景为例,在采集装置实时采集第一音频数据的同时,该音频数据处理方法所应用的电子设备也实时的从采集装置处获取该第一音频数据,以实现对采集装置所采集的音频数据进行实时处理的目的,满足实时通话场景的需求。
也可从其他电子设备处获取该第一音频数据,或者也可从电子设备的本地存储装置中获取该第一音频数据。也即,采集装置采集的第一音频数据可存储在其他电子设备的存储装置中,或者存储在该音频数据处理方法所应用的电子设备的存储装置中,在需要对该第一音频数据进行处理时,可从存储装置中调取该第一音频数据。
S102,对第一音频数据进行降噪处理,以生成第二音频数据。
为消除噪声影响,需要消除第一音频数据中非目标声源的音频数据,并保留目标声源的音频数据,以形成第二音频数据。在具体实施时,可通过多种降噪方法对第一音频数据进行降噪处理,此处不对降噪方法的具体类型进行限定。
实际上,在消除噪声的同时,也会消除第一音频数据中的空间音效特性。以目标声源为人为例,则目标声源的音频数据即为语音数据,在消除非目标声源的音频数据时,不仅会消除环境中非语音部分,也会消除例如语音的堂音和残响等,使得所形成的第二音频数据缺少空间音效特性。
S103,获取多个与第二音频数据相匹配的空间音效信息,其中,多个空间音效信息分别用于描述各声道的空间音效特性。
该多个空间音效信息与第二音频数据相匹配,分别用于描述多个声道的空间音效特性,以使播放装置能够基于多个空间音效信息,对第一音频数据中目标声源的发声场景进行模拟,以期形成与目标声源的发声场景类似的立体感。具体的,播放装置可基于多个空间音效信息形成多路声道信号,多路声道信号分别与多个声道相对应,通过多个声道分别基于多路声道信号进行声音播放,就能够对第一音频数据所具有的空间音效特性进行还原和仿真,形成与声源的发声场景类似的立体感。
该多个空间音效信息至少包括两个空间音效信息。在包括两个空间音效信息时,这两个空间音效信息可分别用于描述左声道和右声道的空间音效特性。该多个空间音效信息可包括四个空间音效信息,四个空间音效信息可分别用于描述前左声道、前右声道、后左声道和后右声道的空间音效特性。在实际应用时,该多个空间音效信息也可包括更多个空间音效信息,例如,五个、七个或更多个。
该空间音效信息可基于第一音频数据来获取,例如,可从第一音频数据中提取,或者对第一音频数据的空间音效特性进行仿真形成。当然,该空间音效信息也可通过其他方式来获取,例如,在采集装置采集第一音频数据的同时,通过其他设备同步获取目标声源的场景信息,并基于场景信息获取空间音效信息。
S104,将第二音频数据和多个空间音效信息按时序编码为第一数据流。
在时序上,空间音效信息和第二音频数据具有严谨的对应关系,一个时间节点的空间音效信息仅用于对相同时间节点的第二音频数据进行处理。将第二音频数据和多个空间音效信息按时序编码为第一数据流,是指按照时间顺序对相应时间节点的空间音效信息和第二音频数据同步编码在一起形成第一数据流。如此,能够保证空间音效信息和第二音频数据在时序上的对应关系,实现同步传输,同步播放。而且,将第二音频数据和多个空间音效信息编码为第一数据流,有益于降低数据量,进而有益于降低电子设备的功耗和对通信带宽的需求。
本申请实施例的音频数据处理方法,对获取的第一音频数据进行降噪处理以形成第二音频数据,获取多个与第二音频数据相匹配的空间音效信息,并将第二音频数据和多个空间音效信息按时序编码为第一数据流,如此,既实现了对第一音频数据进行降噪的目的,又通过获取多个空间音效信息,以及将多个空间音效信息和第二音频数据按时序编码为第一数据流,使得播放装置基于多个空间音效信息能够模拟第一音频数据的空间音效特性,播放具有空间感和立体感的声音,也即,既实现了降噪的目的,又保留了音频的空间音效特性。
在一些实施例中,步骤S102,对第一音频数据进行降噪处理,以生成第二音频数据,可包括:
滤除第一音频数据中第一频率范围之外的音频数据,消减第一频率范围内非目标声源的音频数据,并保留第一频率范围内目标声源的音频数据,以形成第二音频数据。
其中,第一频率范围为目标声源所发声音的频率范围。以应用在即时通讯场景为例,目标声源是进行通话的人,此时,第一频率范围即为人所发出声音的频率范围。可选的,该第一频率范围可为例如100Hz至10kHz。如可对第一音频数据进行频域分析,在频域上,消除100Hz至10kHz之外的音频数据,并保留100Hz至10kHz之内的音频数据。继而,消减100Hz至10kHz之内的音频数据中非人声的音频数据,例如,消减汽车喇叭声、动物叫声或其他非人声的音频数据,保留语音数据。
本申请第二实施例提供了一种音频数据处理方法,以具有两个位于不同位置的第一采集装置和第二采集装置为例,对该音频数据处理方法进行说明,例如,针对具有两个位于不同位置的麦克风的电子设备。
图2为本申请第二种实施例的音频数据处理方法的流程图,参见图2所示,本申请实施例的音频数据处理方法具体可包括如下步骤:
S201,获取两个第一音频数据,两个第一音频数据分别由分布于不同位置的第一采集装置和第二采集装置所采集。
该第一采集装置和第二采集装置可为例如麦克风。以笔记本电脑为例,可在笔记本电脑的左侧和右侧分别设置左麦克风和右麦克风,在用户进行即时通讯时,可利用左麦克风和右麦克风同步采集音频数据,以获取两个第一音频数据。
S202,分别对两个第一音频数据进行降噪处理,并基于两个降噪处理后的第一音频处理合成第二音频数据。
也即,既对左麦克风所采集的第一音频数据进行降噪处理,也对右麦克风所采集的第一音频数据进行降噪处理,继而将两个降噪处理后的第一音频数据合成在一起,形成第二音频数据。这样,有益于提高目标声源的音频数据的完整性。
S203,基于两个第一音频数据,获取第一空间信息和第二空间信息,其中,第一空间信息用于表征目标声源和第一采集装置的空间位置关系,第二空间信息用于表征目标声源和第二采集装置的空间位置关系。
其中,第一空间信息和第二空间信息可包括例如相位信息、方位角信息等。可选的,可基于两个第一音频数据对目标声音进行定位,以获取目标声音的位置信息,继而,基于第一采集装置的位置信息,确定目标声源和第一采集装置的空间位置关系,并基于第二采集装置的位置信息,确定目标声源和第二采集装置的空间位置关系。例如,可基于两个第一音频数据,确定目标声源在世界坐标系中的坐标信息,并确定左麦克风和右麦克风在世界坐标系中的坐标信息,进而基于目标声源的坐标信息,以及左麦克风和右麦克风的坐标信息,获取第一空间信息和第二空间信息。
S204,分别基于两个第一音频数据,获取第一音效信息和第二音效信息,其中,第一音效信息和第二音效信息分别用于描述相应的第一音频数据的音效特性。
其中,第一音效信息和第二音效信息可包括例如响度、频率或其他音频参数。可分别从两个第一音频数据,提取其各自的第一音效信息和第二音效信息,例如,可分别提取两个第一音频数据的响度信息。如此,第一电子设备的两个播放装置能够播放出不同响度的声音,以形成响度差,从而还原目标声源的空间感。
S205,基于第一空间信息和第一音效信息生成第一空间音效信息,并基于第二空间信息和第二音效信息生成第二空间音效信息。
也即,空间音效信息包括两部分,一部分是表征目标声源和采集设备的空间位置关系的空间信息,另一部分是用于描述相应的第一音频数据的音效特性的音效信息,将这两部分组合在一起共同形成了空间音效信息。
可选的,可对第一音效信息和第一空间信息进行防损编码,以生成第一空间音效信息,并对第二音效信息和第二空间信息进行防损编码,以生成第二空间音效信息,以提高第一空间音效信息和第二空间音效信息的防损特性。
S206,将第二音频数据、第一空间音效信息和第二空间音效信息按时序编码为第一数据流。
本申请实施例的音频数据处理方法,获取两个第一音频数据,分别对这两个第一音频数据进行降噪处理,并将降噪处理后的第一音频数据合成在一起形成第二音频数据,有益于提高目标声源的音频数据的完整性;基于两个第一音频数据,获取空间信息和音效信息,由基于空间信息和音效信息形成空间音效信息,有益于提高空间音效特性的还原度。
需要说明的是,虽然本申请实施例以两个采集装置所采集的两个音频数据对该音频数据处理方法进行示例性说明,但是该音频数据处理方法也适用于具有更多个采集装置的应用场景,例如,针对设置有麦克风阵列的应用场景,可获取至少三个第一音频数据,可对至少三个第一音频数据进行处理以生成第二音频数据,并基于至少三个第一音频数据,获取至少三个空间音效信息,继而合成第一数据流。
在一些实施例中,该方法还包括:
S207,将第一数据流发送至第一电子设备,以使第一电子设备基于第一数据流执行播放操作;
其中,播放操作包括对第一数据流进行解码,分别基于多个空间音效信息对第二音频数据进行处理,以形成多路声道信号,基于多路声道信号播放声音,以形成具有立体感的声音。
也即,第一电子设备接收到第一流数据,对第一流数据进行解码,分别基于多个空间音效信息对第二音频数据进行处理,形成多路声道信号。例如,在第一电子设备具有左声道和右声道的情况下,可分别基于用于描述左声道和右声道的空间音效特性的空间音效信息对第二音频数据进行处理,以形成左声道信号和右声道信号,继而,通过左声道的播放装置基于左声道信号进行声音播放,并通过右声道的播放装置基于右声道信号进行声音播放,就能够形成具有立体感和空间感的声音。
在一些实施例中,该方法还可包括:
分别获取多个空间音效信息的第一时间信息,其中,第一时间信息用于标识空间音效信息的时域范围;
基于第一时间信息,向第二音频数据添加第一标识;其中,第一标识用于指示第一电子设备基于相应的空间音效信息,对相应时域范围的第二音频数据进行处理,以形成声道信号。
人耳之所以能够感受到立体感和空间感的一个重要原因即为,声音传递到左右耳时的响度差。在对声音传递到左右耳的响度差进行还原或仿真时,可分别通过左声道的播放装置和右声道的播放装置播放具有不同响度的声音,或者,可选择左声道的播放装置播放声音,右声道的播放装置不播放声音,以建立明显的声源位置感。这就会导致并不需要全时域的分别基于多个空间音效信息,分别对第二音频数据进行处理,在一些时域范围可能仅需要生成左声道信号,而不需要生成右声道信号。也即,仅需基于描述左声道的空间音效特性的空间音效信息,对第二音频数据进行处理,以生成左声道信号即可。
在此基础上,在获取到多个空间音效信息的基础上,可分别获取多个空间音效信息的第一时间信息,继而,分别基于各第一时间信息,在第二音频数据中添加第一标识。如此,第一电子设备可基于第一标识对第二音频数据进行处理,例如,在一些时段内,可仅基于第二音频数据和左声道的空间音效信息,生成左声道信号,以模拟声音在靠近左耳一侧,在另一些时段,可仅基于第二音频数据和右声道的空间音效信息,生成右声道信号,以模拟声音在靠近右耳一侧,在又一些时段,分别基于左声道的空间音效信息和右声道的空间音效信息,对第二音频数据进行处理,以分别生成左声道信号和右声道信号,以模拟目标声源在正前方或正后方。可选的,该第一标识可为例如时间戳,当然也可为其他标识。这样,既能够有效的还原空间音效特性,还能够降低第一电子设备的数据处理量,进而降低第一电子设备的功耗。
在一些实施例中,该方法还可包括:
获取第二音频数据的第二时间信息,其中,第二时间信息用于标识第二音频数据中目标声源的音频数据的时域范围;
基于第二时间信息,对空间音效信息进行处理,保留空间音效信息中位于第二时间信息所标识的时域范围内的信息内容,消除位于第二时间信息所标识的时域范围之外的信息内容。
也即,目标声源可能并不是全时域在发声,所以,第二音频数据中可能在部分时域范围具有目标声源的音频数据,在其余部分时域范围则不具有目标声源的音频数据。位于该其余部分时域范围的空间音效信息则属于无效信息,为降低数据量,可识别第二音频数据中目标声源的音频数据的时域范围,以获取第二时间信息,基于该第二时间信息,保留空间音效信息中的有效信息,去除空间音效信息中的无效信息,以降低空间音效信息的信息量。
本申请第三种实施例提供了一种音频数据处理方法,以具有单一采集装置,仅获取单个第一音频数据为例,对该音频数据处理方法进行说明,例如,针对具有单个麦克风的应用场景。
图3为本申请第三种实施例的音频数据处理方法的流程图,参见图3所示,本申请实施例的音频数据处理方法具体可包括如下步骤:
S301,获取第一音频数据。
由于本实施例针对具有单一采集装置的场景,所以,本实施例中仅获取一路第一音频数据。
S302,对第一音频数据进行降噪处理,以生成第二音频数据。
对第一音频数据进行降噪处理的方法与前述第一种实施例类似,此处不再赘述。
S303,基于第一音频数据,获取用于描述第一音频数据的音效特性的音效信息。
由于只获取到一路第一音频数据,所以,此处仅能够提取到一路用于描述第一音频数据的音效特性的音效信息。该音效信息可包括例如响度、频率、频谱特征等。
S304,通过定位装置获取空间信息,其中,空间信息用于表征目标声源和第一音频数据的采集装置的空间位置关系。
单一采集装置无法进行声音定位,所以,本实施例借助定位装置来获取能够表征目标声源和采集装置的空间位置关系的空间信息。可选的,可通过定位装置确定目标声源在世界坐标系中的位置信息,继而基于定位装置和采集装置之间的空间位置关系,即可确定目标声源和采集装置之间的空间位置关系,并获取空间信息。
该定位装置可为例如具有定位功能的图像采集装置,例如,深度摄像机,或者由两个以上的摄像机组成的定位组件。以笔记本电脑为例,笔记本电脑可能仅配置有一个麦克风,但笔记本电脑的显示端配置有深度摄像机,或者两个以上的摄像机,此时,可利用深度摄像机采集图像,来确定用户所在位置,或者可分别通过两个以上的摄像机采集图像,以共同确定用户所在位置。继而,基于摄像机和麦克风之间的位置关系,就能够确定用户和麦克风之间的空间位置关系,并获取空间信息。
需要说明的是,该定位装置采用具有定位功能的图像采集装置仅为示例,在具体实施时,也可采用其他具有定位功能的装置来获取空间信息,例如,全球定位系统中的终端设备等。
S305,基于音效信息和空间信息,生成多个空间音效信息。
由于本实施例中仅能够获取到一路音效信息和一路空间信息,所以,需要对音效信息和空间信息进行仿真处理,以生成多个空间音效信息。例如,基于这一路音效信息和一路空间信息进行仿真处理,以分别生成用于描述左声道的空间音效特性的空间音效信息,以及用于描述右声道的空间音效特性的空间音效信息。
可选的,可基于摄像机所采集的图像重构目标声源所在环境场景,基于空间信息确定目标声源在该环境场景中的位置,基于音效信息进行空间音效特性的仿真处理,以获取多个空间音效信息。
S306,将第二音频数据和多个空间音效信息按时序编码为第一数据流。
本申请实施例的音频数据处理方法,为单一采集装置的应用场景提供了可行的处理方式,在仅获取到一路第一音频数据的情况下,也能够获取到多个空间音效信息,通过将多个空间音效信息和第二音频数据按时序编码为第一数据流,也能够使得播放设备播放具有空间感和立体感的声音。
需要说明的是,针对单一采集装置的应用场景,也可仅获取能够表征目标声源和采集装置的空间位置关系的空间信息,基于空间信息进行空间音效特性仿真,以获取多个空间音效信息。
参见图4所示,本申请第四种实施例提供了一种音频数据处理装置,包括:
第一获取模块401,用于获取第一音频数据;
降噪模块402,用于对第一音频数据进行降噪处理,以生成第二音频数据;
第二获取模块403,用于获取多个与第二音频数据相匹配的空间音效信息,其中,多个空间音效信息分别用于描述各声道的空间音效特性;
编码模块404,用于将第一音频数据和多个空间音效信息按时序编码为第一数据流。
在一些实施例中,第二获取模块403具体用于:
基于第一音频数据,获取用于描述第一音频数据的音效特性的音效信息。
在一些实施例中,第二获取模块403还用于:
通过定位装置获取空间信息,其中,空间信息用于表征目标声源和第一音频数据的采集装置的空间位置关系;
基于音效信息和空间信息,生成多个空间音效信息。
在一些实施例中,第一获取模块401具体用于:
获取两个第一音频数据,两个第一音频数据分别由分布于不同位置的第一采集装置和第二采集装置所采集。
在一些实施例中,第二获取模块403具体用于:
基于两个第一音频数据,获取第一空间信息和第二空间信息,其中,第一空间信息用于表征目标声源和第一采集装置的空间位置关系,第二空间信息用于表征目标声源和第二采集装置的空间位置关系;
分别基于两个第一音频数据,获取第一音效信息和第二音效信息,其中,第一音效信息和第二音效信息分别用于描述相应的第一音频数据的音效特性;
基于第一空间信息和第一音效信息生成第一空间音效信息,并基于第二空间信息和第二音效信息生成第二空间音效信息。
在一些实施例中,降噪模块402具体用于:
对第一音频数据进行降噪处理,消除第一音频数据中的空间音效特性,以生成第二音频数据。
在一些实施例中,降噪模块402具体用于:
滤除第一音频数据中第一频率范围之外的音频数据,消减第一频率范围内非目标声源的音频数据,并保留第一频率范围内目标声源的音频数据,以形成第二音频数据;
其中,第一频率范围为目标声源所发声音的频率范围。
在一些实施例中,该音频数据处理装置还包括:
通信模块,用于将第一数据流发送至第一电子设备,以使第一电子设备基于第一数据流执行播放操作;
其中,播放操作包括对第一数据流进行解码,分别基于多个空间音效信息对第二音频数据进行处理,以形成多路声道信号,基于多路声道信号播放声音,以形成具有立体感的声音。
在一些实施例中,该音频数据处理装置还包括:
第三获取模块,用于分别获取多个空间音效信息的第一时间信息,其中,第一时间信息用于标识空间音效信息的时域范围;
标识模块,用于基于第一时间信息,向第二音频数据添加第一标识;其中,第一标识用于指示第一电子设备基于相应的空间音效信息,对相应时域范围的第二音频数据进行处理,以形成声道信号。
参见图5所示,本申请第五种实施例还提供了一种电子设备,至少包括存储器501和处理器502,存储器501上存储有程序,处理器502在执行存储器501上的程序时实现如上任一实施例的方法。
本领域技术人员应明白,本申请的实施例可提供为方法、电子设备、计算机可读存储介质或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。当通过软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
上述处理器可以是通用处理器、数字信号处理器、专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,简称GAL)或其任意组合。通用处理器可以是微处理器或者任何常规的处理器等。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
上述可读存储介质可为磁碟、光盘、DVD、USB、只读存储记忆体(ROM)或随机存储记忆体(RAM)等,本申请对具体的存储介质形式不作限定。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种音频数据处理方法,包括:
获取第一音频数据;
对所述第一音频数据进行降噪处理,以生成第二音频数据;
获取多个与所述第二音频数据相匹配的空间音效信息,其中,多个所述空间音效信息分别用于描述各声道的空间音效特性;
将所述第二音频数据和多个所述空间音效信息按时序编码为第一数据流。
2.根据权利要求1所述的方法,其中,所述获取多个空间音效信息,包括:
基于所述第一音频数据,获取用于描述所述第一音频数据的音效特性的音效信息。
3.根据权利要求2所述的方法,其中,所述获取多个与所述第二音频数据相匹配的空间音效信息,还包括:
通过定位装置获取空间信息,其中,所述空间信息用于表征目标声源和所述第一音频数据的采集装置的空间位置关系;
基于所述音效信息和所述空间信息,生成多个所述空间音效信息。
4.根据权利要求1所述的方法,其中,所述获取第一音频数据,包括:
获取两个所述第一音频数据,两个所述第一音频数据分别由分布于不同位置的第一采集装置和第二采集装置所采集。
5.根据权利要求4所述的方法,其中,所述获取多个与所述第二音频数据相匹配的空间音效信息,包括:
基于两个所述第一音频数据,获取第一空间信息和第二空间信息,其中,所述第一空间信息用于表征目标声源和所述第一采集装置的空间位置关系,所述第二空间信息用于表征目标声源和所述第二采集装置的空间位置关系;
分别基于两个所述第一音频数据,获取第一音效信息和第二音效信息,其中,所述第一音效信息和所述第二音效信息分别用于描述相应的所述第一音频数据的音效特性;
基于所述第一空间信息和所述第一音效信息生成第一空间音效信息,并基于所述第二空间信息和所述第二音效信息生成第二空间音效信息。
6.根据权利要求1所述的方法,其中,所述对所述第一音频数据进行降噪处理,以生成第二音频数据,包括:
对所述第一音频数据进行降噪处理,消除所述第一音频数据中的空间音效特性,以生成所述第二音频数据。
7.根据权利要求1所述的方法,其中,所述对所述第一音频数据进行降噪处理,以生成第二音频数据,包括:
滤除所述第一音频数据中第一频率范围之外的音频数据,消减所述第一频率范围内非目标声源的音频数据,并保留所述第一频率范围内目标声源的音频数据,以形成所述第二音频数据;
其中,所述第一频率范围为所述目标声源所发声音的频率范围。
8.根据权利要求1所述的方法,其中,所述方法还包括:
将所述第一数据流发送至第一电子设备,以使所述第一电子设备基于所述第一数据流执行播放操作;
其中,所述播放操作包括对所述第一数据流进行解码,分别基于多个所述空间音效信息对所述第二音频数据进行处理,以形成多路声道信号,基于多路所述声道信号播放声音,以形成具有立体感的声音。
9.根据权利要求8所述的方法,其中,所述方法还包括:
分别获取多个所述空间音效信息的第一时间信息,其中,所述第一时间信息用于标识所述空间音效信息的时域范围;
基于第一时间信息,向所述第二音频数据添加第一标识;其中,所述第一标识用于指示所述第一电子设备基于相应的空间音效信息,对相应时域范围的所述第二音频数据进行处理,以形成所述声道信号。
10.一种音频数据处理装置,包括:
第一获取模块,用于获取第一音频数据;
降噪模块,用于对所述第一音频数据进行降噪处理,以生成第二音频数据;
第二获取模块,用于获取多个与所述第二音频数据相匹配的空间音效信息,其中,多个所述空间音效信息分别用于描述各声道的空间音效特性;
编码模块,用于将所述第一音频数据和多个所述空间音效信息按时序编码为第一数据流。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111145326.XA CN113873420B (zh) | 2021-09-28 | 2021-09-28 | 音频数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111145326.XA CN113873420B (zh) | 2021-09-28 | 2021-09-28 | 音频数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113873420A true CN113873420A (zh) | 2021-12-31 |
CN113873420B CN113873420B (zh) | 2023-06-23 |
Family
ID=78992119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111145326.XA Active CN113873420B (zh) | 2021-09-28 | 2021-09-28 | 音频数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113873420B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1264533A (zh) * | 1997-07-16 | 2000-08-23 | 多尔拜实验特许公司 | 多声道低比特率编码解码方法和设备 |
CN101010723A (zh) * | 2004-08-25 | 2007-08-01 | 杜比实验室特许公司 | 空间音频编码中的多声道去相关 |
CN105323702A (zh) * | 2014-07-09 | 2016-02-10 | 九次元科技有限公司 | 混音方法及系统 |
CN105336333A (zh) * | 2014-08-12 | 2016-02-17 | 北京天籁传音数字技术有限公司 | 多声道声音信号编码方法、解码方法及装置 |
CN105959905A (zh) * | 2016-04-27 | 2016-09-21 | 北京时代拓灵科技有限公司 | 混合模式空间声生成系统与方法 |
US20160316297A1 (en) * | 2015-04-27 | 2016-10-27 | Lab9 Inc. | Multi-loudspeaker active noise cancelling headphone providing stereo effct and improved ambient noise reduction |
CN109121068A (zh) * | 2018-07-04 | 2019-01-01 | 广州视源电子科技股份有限公司 | 音效控制方法、装置及电子设备 |
EP3624463A1 (en) * | 2017-12-26 | 2020-03-18 | Guangzhou Kugou Computer Technology Co., Ltd. | Audio signal processing method and device, terminal and storage medium |
-
2021
- 2021-09-28 CN CN202111145326.XA patent/CN113873420B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1264533A (zh) * | 1997-07-16 | 2000-08-23 | 多尔拜实验特许公司 | 多声道低比特率编码解码方法和设备 |
CN101010723A (zh) * | 2004-08-25 | 2007-08-01 | 杜比实验室特许公司 | 空间音频编码中的多声道去相关 |
CN105323702A (zh) * | 2014-07-09 | 2016-02-10 | 九次元科技有限公司 | 混音方法及系统 |
CN105336333A (zh) * | 2014-08-12 | 2016-02-17 | 北京天籁传音数字技术有限公司 | 多声道声音信号编码方法、解码方法及装置 |
US20160316297A1 (en) * | 2015-04-27 | 2016-10-27 | Lab9 Inc. | Multi-loudspeaker active noise cancelling headphone providing stereo effct and improved ambient noise reduction |
CN105959905A (zh) * | 2016-04-27 | 2016-09-21 | 北京时代拓灵科技有限公司 | 混合模式空间声生成系统与方法 |
EP3624463A1 (en) * | 2017-12-26 | 2020-03-18 | Guangzhou Kugou Computer Technology Co., Ltd. | Audio signal processing method and device, terminal and storage medium |
CN109121068A (zh) * | 2018-07-04 | 2019-01-01 | 广州视源电子科技股份有限公司 | 音效控制方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113873420B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Quality assessment of acoustic environment reproduction methods for cinematic virtual reality in soundscape applications | |
CN106104680B (zh) | 将音频信道插入到声场的描述中 | |
US20220059123A1 (en) | Separating and rendering voice and ambience signals | |
KR20170106063A (ko) | 오디오 신호 처리 방법 및 장치 | |
US11317233B2 (en) | Acoustic program, acoustic device, and acoustic system | |
KR20150117693A (ko) | 다중 채널 오디오 데이터의 비디오 분석 지원형 생성 | |
JP5611970B2 (ja) | オーディオ信号を変換するためのコンバータ及び方法 | |
CN105723459B (zh) | 用于改进声频信号的感知的设备和方法 | |
US9838790B2 (en) | Acquisition of spatialized sound data | |
US20230298600A1 (en) | Audio encoding and decoding method and apparatus | |
KR20090066188A (ko) | 개인화된 머리전달함수를 이용한 3차원 오디오 신호 처리장치 및 그 방법과, 그를 이용한 고현장감 멀티미디어 재생시스템 | |
US20160044432A1 (en) | Audio signal processing apparatus | |
CN114915874B (zh) | 音频处理方法、装置、设备及介质 | |
CN108141693B (zh) | 信号处理设备、信号处理方法和计算机可读存储介质 | |
CN113873420B (zh) | 音频数据处理方法及装置 | |
WO2022262576A1 (zh) | 三维音频信号编码方法、装置、编码器和系统 | |
Hsu et al. | Model-matching principle applied to the design of an array-based all-neural binaural rendering system for audio telepresence | |
Fernandez et al. | A spatial enhancement approach for binaural rendering of head-worn microphone arrays | |
WO2012104297A1 (en) | Generation of user-adapted signal processing parameters | |
CN116939473A (zh) | 一种音频生成方法和相关装置 | |
Ando | Preface to the Special Issue on High-reality Audio: From High-fidelity Audio to High-reality Audio | |
WO2024212639A1 (zh) | 场景音频解码方法及电子设备 | |
WO2024212638A1 (zh) | 场景音频解码方法及电子设备 | |
US11218832B2 (en) | System for modelling acoustic transfer functions and reproducing three-dimensional sound | |
KR100932791B1 (ko) | 음상 외재화를 위한 머리전달함수 생성 방법과, 그를이용한 3차원 오디오 신호 처리 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |