CN117941378A - 音频信号的处理方法和装置 - Google Patents
音频信号的处理方法和装置 Download PDFInfo
- Publication number
- CN117941378A CN117941378A CN202280056514.1A CN202280056514A CN117941378A CN 117941378 A CN117941378 A CN 117941378A CN 202280056514 A CN202280056514 A CN 202280056514A CN 117941378 A CN117941378 A CN 117941378A
- Authority
- CN
- China
- Prior art keywords
- metadata
- audio
- processing
- audio signal
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 95
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 94
- 238000009877 rendering Methods 0.000 claims abstract description 42
- 230000015654 memory Effects 0.000 claims description 51
- 238000003860 storage Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 36
- 230000003068 static effect Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 238000004806 packaging method and process Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 17
- 238000013523 data management Methods 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本公开涉及一种音频信号的处理方法和装置,涉及数据处理技术领域。该处理方法,包括:获取ADM中的音频信号的第一音频元数据,第一音频元数据对应于第一元数据部分;获取ADM中不存在的音频信号的第二音频元数据,第二音频元数据对应于第二元数据部分;根据第一元数据部分和第二元数据部分,对音频信号进行音频渲染处理。
Description
相关申请的交叉引用
本申请是以PCT申请号为PCT/CN2021/114366,申请日为2021年8月24日的申请为基础,并主张其优先权,该PCT申请的公开内容在此作为整体引入本申请中。
本公开涉及数据处理技术领域,特别涉及一种音频信号的处理方法、音频信号的处理装置、芯片、非瞬时性计算机可读存储介质、计算机程序产品和计算机程序。
元数据(Metadata)是用来描述多媒体(如音频数据))内容载荷(asset payload)的结构化数据,从而用来辅助音频的生产编辑(Recording Edition)、内容采编(Contribution),传输分发(Transport Distribution)和消费呈现(Consumption presentation)等整个多媒体流程;标准化的元数据体系和系统对于构建高效、高质量的自动化多媒体生产和消费系统至关重要,有利于内容的一致性和可交互,有利于内容生产和消费各环节的兼容性和互操作性。
在相关技术中,国际上为了支持新一代空间3D音频,ITU(International Telecommunication Union,国际电信联盟)已经制定了音频数据模型标准ITU BS2076,用于规范3D音频内容的元数据表示规范。
发明内容
根据本公开的一些实施例,提供了一种音频信号的处理方法,包括:获取ADM(Audio Definition Model,音频定义模型)中的音频信号的第一音频元数据,第一音频元数据对应于第一元数据部分;获取ADM中不存在的音频信号的第二音频元数据,第二音频元数据对应于第二元数据部分;根据第一元数据部分和第二元数据部分,对音频信号进行音频渲染处理。
根据本公开的一些实施例,提供了一种音频信号的处理方法,包括:将通过第一数据管理模块获取的第一音频元数据,存储在第一元数据块,第一数据管理模块为ADM模块;将通过第二数据管理模块获取的第二音频元数据,存储在第二元数据块, 第二数据管理模块与第一数据管理模块不同;根据第一元数据块和第二元数据块,确定综合音频元数据。
根据本公开的另一些实施例,提供一种音频信号的处理装置,包括:获取单元,用于获取ADM中的音频信号的第一音频元数据,第一音频元数据对应于第一元数据部分,获取ADM中不存在的音频信号的第二音频元数据,第二音频元数据对应于第二元数据部分;处理单元,用于根据第一元数据部分和第二元数据部分,对音频信号进行音频渲染处理。
根据本公开的另一些实施例,提供一种音频信号的处理装置,包括:第一存储器,用于将ADM中的音频信号的第一音频元数据,存储在第一元数据部分;第二存储器,用于将获取的所述音频信号的第二音频元数据,存储在第二元数据部分;处理器,用于根据所述第一元数据部分和所述第二元数据部分,对所述音频信号进行音频渲染处理。
根据本公开的又一些实施例,提供一种芯片,包括:至少一个处理器和接口,接口,用于为至少一个处理器提供计算机执行指令,至少一个处理器用于执行计算机执行指令,实现上述任一个实施例的音频信号的处理方法。
根据本公开的又一些实施例,提供计算机程序,包括:指令,指令当由处理器执行时使处理器执行上述任一个实施例的音频信号的处理方法。
根据本公开的又一些实施例,提供一种电子设备,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例的音频信号的处理方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例的音频信号的处理方法。
根据本公开的再一些实施例,提供一种计算机程序产品,包括指令,指令当由处理器执行时实现本公开中的任一实施例的音频信号的处理方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图 中:
图1示出本公开的音频信号的处理方法的一些实施例的流程图;
图2a示出本公开的音频信号的处理方法的一些实施例的示意图;
图2b示出本公开的音频信号的处理方法的另一些实施例的示意图;
图3示出本公开的音频信号的处理方法的又一些实施例的示意图;
图4示出本公开的音频信号的处理装置的一些实施例的框图;
图5示出本公开的音频信号的处理装置的另一些实施例的框图;
图6示出本公开的音频信号的处理装置的又一些实施例的框图;
图7示出本公开的芯片的一些实施例的框图;
图8示出音频信号处理过程的一些实施例的示意图。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在研发新一代音频渲染技术时,已有的音频元数据模型存在数据支持范围不明确的技术问题,导致制作的3D音频互操作性受限,而且,元数据不易扩展,导致渲染和内容制作系统不易升级等技术问题。
因此,存在如下技术问题需要解决:用来描述3D音频制作和渲染阶段所需要的结构化元数据(Structured metadata);元数据系统设计(BDMD)、元数据属性 (attributes)和子元素(sub-elements)的细节;元数据如何跟渲染引擎(rendering engine)结合使用。
针对上述技术问题,本公开的元数据系统采用分层设计,支持BS.2076标准的<audioformatExtended>chunk(数据块)和可定制的扩展的<bdext>chunk(即<VRext>数据块)。这样,元数据系统既能通过<audioformatExtended>chunk实现前向兼容,又能通过<bdext>chunk实现后向扩展。从而,在对元数据标准化的同时,提供足够的灵活性,为新一代3D音频系统提供强大的表征能力。
图1示出本公开的音频信号的处理方法的一些实施例的流程图。
如图1所示,在步骤110中,获取ADM中的音频信号的第一音频元数据,第一音频元数据对应于第一元数据部分。例如,将通过第一数据管理模块获取音频信号的第一音频元数据,存储在第一元数据部分,第一数据管理模块为ADM模块。例如,第一元数据部分为BS.2076标准的<audioformatExtended>chunk。
在一些实施例中,从第一存储区域获取所述第一音频元数据中与音频内容相关的部分;从第二存储区域获取所述第一音频元数据中与音频内容无关的部分。例如,第一存储区域为本地存储区域,第二存储区域为远端存储区域。
在一些实施例中,远端存储区域能够提供离线更新能力,用于存储音频控制元数据中的公用数据部分。
在一些实施例中,第一音频元数据中与音频内容无关的部分包括音频控制元数据、音频格式元数据中的至少一项。
在一些实施例中,第一音频元数据中与音频内容相关的部分包括音频节目元数据、音频内容元数据、音频对象元数据中的至少一种。例如,音频节目元数据与音频内容元数据之间存在依赖关系,音频内容元数据与音频对象元数据之间存在依赖关系。
在一些实施例中,从动态元数据模块获取第一音频元数据中的动态元数据部分,从静态元数据模块获取第一音频元数据中的静态元数据部分。例如,第一音频元数据中的动态元数据部分包括音频块格式元数据;第一音频元数据中的静态元数据部分包括音频频道格式元数据。
在步骤120中,获取ADM中不存在的音频信号的第二音频元数据,第二音频元数据对应于第二元数据部分。例如,将通过第二数据管理模块获取音频信号的第二音频元数据,存储在第二元数据部分,第二数据管理模块与第一数据管理模块不同。例如,第二元数据部分为新配置的可定制、可扩展的<bdext>chunk。
在一些实施例中,第一音频元数据包括基础元数据,第一元数据部分包括<audioformat Extended>数据块,第一音频元数据包括扩展元数据,第二元数据部分包括<VRext>数据块。
在一些实施例中,基础元数据包括音频信号相关的内容的部分和控制信息的部分。
在一些实施例中,从第一存储区域获取所述第二音频元数据中与音频内容相关的部分;从第二存储区域获取所述第二音频元数据中与音频内容无关的部分。
在一些实施例中,第二音频元数据中与音频内容无关的部分包括音频控制元数据、音频格式元数据中的至少一项。
在一些实施例中,第二音频元数据中与音频内容相关的部分包括Presence(节目)元数据、instance(实例)元数据、Unit(单元)元数据。例如,Presence元数据与instance元数据之间存在依赖关系,Unit元数据与instance元数据之间存在聚合关系。
在一些实施例中,基础元数据包括音频节目元数据、音频内容元数据、音频对象元数据中的至少一种;扩展元数据包括Presence元数据、instance元数据、Unit元数据中的至少一种。
在一些实施例中,从动态元数据模块获取第二音频元数据中的动态元数据部分,从静态元数据模块获取所述第二音频元数据中的静态元数据部分。例如,第二音频元数据中的动态元数据部分包括动态控制元数据;第二音频元数据中的静态元数据部分包括静态控制元数据。
在一些实施例中,处理方法还包括步骤130。
在步骤130中,根据第一元数据部分和第二元数据部分,确定音频信号的完整音频元数据。例如,将第一元数据部分和所述第二元数据部分拼装为完整音频元数据。
在步骤140中,根据第一元数据部分和第二元数据部分,对音频信号进行音频渲染处理。例如,根据第一元数据部分和第二元数据部分,确定音频信号的完整音频元数据,根据完整音频元数据对音频信号进行音频渲染处理。
在一些实施例中,在第一元数据部分与所述第二元数据部分存在数据冲突或数据重复的情况下,将第一元数据部分中引起数据冲突或数据重复的第一音频元数据,确定为第一候选元数据,将第二元数据部分中引起数据冲突或数据重复的第二音频元数据,确定为第二候选元数据;在当前数据处理模式为兼容模式的情况下,利用第一候选元数据覆盖第二候选元数据,获取完整音频元数据;在当前数据处理模式为定制模式的情况下,利用第二候选元数据覆盖第一候选元数据,获取完整音频元数据。
在一些实施例中,在第一元数据部分与第二元数据部分存在数据冲突或数据重复的情况下,由渲染器确定用于解决数据冲突或数据重复的策略。
在一些实施例中,将完整音频元数据封装在元数据结构模块中,通过渲染控制器模块传递给渲染引擎进行音频渲染处理。
图2a示出本公开的音频信号的处理方法的一些实施例的示意图。
如图2a所示,为了跟目前主流的3D音频的元数据兼容,元数据在设计时兼容了ITU-R BS.2076 ADM,复用了其中针对内容和格式的属性和元素,用来传递bed,Object、HOA、Matrix和Binaural相关的输入内容和控制信息。基于渲染引擎的实验,对2076 ADM模型的属性和子元素做了一些兼容性的规定和限制,以便能让音频渲染效果可控,细节见图2中元数据的细节部分。
为了实现扩展性,对于在BS 2076中没有的元数据,通过扩展<bdext>数据块提供这部分元数据。在<bdext>数据块部分提供渲染引擎特有的元数据,发挥渲染引擎在音频制作和渲染环节独特的能力。细节见图2中元数据的细节部分。
在一些实施例中,<bdext>和<audioformatExtended>两部分存储的元数据在设计上可以是相互补充的,两部分存储的数据段不操作数据重复或者数据冲突。
在一些实施例中,如果<bdext>和<audioformatExtended>两部分存储的元数据存在存在和数据重复或数据冲突,可以提供两种模式的处理策略:兼容模式和定制模式。
在兼容模式下,<audioformatExtended>的配置起决定作用,覆盖掉<bdext>的字段配置;在定制模式下,<bdext>的配置起决定作用,覆盖掉<audioformatExtended>的字段配置。
图2b示出本公开的音频信号的处理方法的另一些实施例的示意图。
如图2b所示,为了适应云渲染的应用场景,MD(Metadata,元数据)系统支持云端存储一些配置,以减少本地文件大小。
例如,<audioformatExtended>中跟“*Format”相关的配置不依赖于内容,可以把渲染技术配置相关的一些“*Format”放在云端;<bdext>也可以把内容无关的元数据解耦放在云端,云端对内容无关的元数据进行配置、统一汇聚处理,将其放在<remoteformat>模块下。
图3示出本公开的音频信号的处理方法的又一些实施例的示意图。
如图3所示,元数据系统与渲染核心引擎结合,提供完整的沉浸式3D音频内容表达系统。
在一些实施例中,支持两种输入方式:BW64 wav和编码码流。例如,两种码流可以通过<audioformatExtended>中的"formatLabel"/"formatDefinition"或者<bdext>中的"Is_encoded"来区分。前者可以用在渲染引擎独立工作的场景,后者可以用在码流编解码的完整系统中。
在一些实施例中,从<audioformatExtended>和<bdext>拼装出完整的音频元数据,封装在MetaDataStruct(元数据结构)中通过RenderContoller(渲染控制器)传递给核心RenderEngine(渲染引擎),完成相应音频的渲染。
在上述实施例中,提供了一套完整的可以后向兼容(支持ITU BS 2076),并可扩展的3D音频元数据系统。有利于提升3D空间音频内容表达能力,结合自研渲染引擎,提供更沉浸逼真的空间音频体验。
提出了分层设计框架:音频内容(content/presence)和音频控制(format/control)分离;静态元数据(不随时间变化)和动态元数据模块化共存;音频控制数据可以抽离公用的部分放在远端能提供离线更新能力。
提出了云存储与文件存储融合的元数据系统,可以有效减小本地文件的大小;跟编解码系统结合,可以有效减小网络传输带宽。
图4示出本公开的音频信号的处理装置的一些实施例的框图。
如图4所示,音频信号的处理装置4包括第一存储器41、第二存储器43。
在一些实施例中,第一存储器41将通过第一数据管理模块获取音频信号的第一音频元数据,存储在第一元数据部分,第一数据管理模块为ADM模块;第二存储器42将通过第二数据管理模块获取的音频信号的第二音频元数据,存储在第二元数据部分,第二数据管理模块与第一数据管理模块不同。
在一些实施例中,处理装置4还包括处理单元(即处理器)42,用于根据第一元数据部分和第二元数据部分,确定音频信号的完整音频元数据。
存储器41将通过第一数据管理模块获取的第一音频元数据,存储在第一元数据部分;将通过第二数据管理模块获取的第二音频元数据,存储在第二元数据部分,第一数据管理模块为ADM模块,第二数据管理模块与第一数据管理模块不同。
在一些实施例中,存储器41从第一存储区域获取所述第一音频元数据中与音频内容相关的部分;从第二存储区域获取所述第一音频元数据中与音频内容无关的部分。例如,第一存储区域为本地存储区域,第二存储区域为远端存储区域。
在一些实施例中,远端存储区域能够提供离线更新能力,用于存储音频控制元数 据中的公用数据部分。
在一些实施例中,第一音频元数据中与音频内容无关的部分包括音频控制元数据、音频格式元数据中的至少一项。
在一些实施例中,第一音频元数据中与音频内容相关的部分包括音频节目元数据、音频内容元数据、音频对象元数据。例如,音频节目元数据与音频内容元数据之间存在依赖关系,音频内容元数据与音频对象元数据之间存在依赖关系。
在一些实施例中,存储器41从动态元数据模块获取第一音频元数据中的动态元数据部分,从静态元数据模块获取第一音频元数据中的静态元数据部分。例如,第一音频元数据中的动态元数据部分包括音频块格式元数据;第一音频元数据中的静态元数据部分包括音频频道格式元数据。
在一些实施例中,存储器41从第一存储区域获取所述第二音频元数据中与音频内容相关的部分;从第二存储区域获取所述第二音频元数据中与音频内容无关的部分。
在一些实施例中,存储器41第二音频元数据中与音频内容无关的部分包括音频控制元数据、音频格式元数据中的至少一项。
在一些实施例中,第二音频元数据中与音频内容相关的部分包括Presence元数据、instance(实例)元数据、Unit(单元)元数据。例如,Presence元数据与instance元数据之间存在依赖关系,Unit元数据与instance元数据之间存在聚合关系。
在一些实施例中,存储器41从动态元数据模块获取第二音频元数据中的动态元数据部分,从静态元数据模块获取所述第二音频元数据中的静态元数据部分。例如,第二音频元数据中的动态元数据部分包括动态控制元数据;第二音频元数据中的静态元数据部分包括静态控制元数据。
处理单元42根据第一元数据部分和第二元数据部分,确定完整音频元数据。
在一些实施例中,在第一元数据部分与所述第二元数据部分存在数据冲突或数据重复的情况下,处理单元42将第一元数据部分中引起数据冲突或数据重复的第一音频元数据,确定为第一候选元数据,处理单元42将第二元数据部分中引起数据冲突或数据重复的第二音频元数据,确定为第二候选元数据;在当前数据处理模式为兼容模式的情况下,处理单元42利用第一候选元数据覆盖第二候选元数据,获取完整音频元数据;在当前数据处理模式为定制模式的情况下,处理单元42利用第二候选元数据覆盖第一候选元数据,获取完整音频元数据。
在一些实施例中,处理单元42将完整音频元数据封装在元数据结构模块中,通过 渲染控制器模块传递给渲染引擎进行音频渲染处理。
在一些实施例中,音频信号的处理装置4包括:获取单元44,用于获取音频定义模型ADM中的音频信号的第一音频元数据,第一音频元数据对应于第一元数据部分,获取ADM中不存在的音频信号的第二音频元数据,第二音频元数据对应于第二元数据部分;处理单元42,用于根据第一元数据部分和第二元数据部分,对音频信号进行音频渲染处理。
图5示出本公开的音频信号的处理装置的另一些实施例的框图。
如图5所示,该实施例的音频元数据的处理5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的音频信号的处理方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
下面参考图6,其示出了适于用来实现本公开实施例的音频信号的处理装置的结构示意图。本公开实施例中的音频信号的处理装置可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的音频信号的处理装置仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图6示出本公开的音频信号的处理装置的又一些实施例的框图。
如图6所示,音频信号的处理装置可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备,但是应理解的是,并不要求 实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的音频信号的处理方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的音频信号的处理方法中限定的上述功能。
在一些实施例中,还提供了芯片,包括:至少一个处理器和接口,接口,用于为至少一个处理器提供计算机执行指令,至少一个处理器用于执行计算机执行指令,实现上述任一个实施例的音频信号的处理方法。
图7示出本公开的芯片的一些实施例的框图。
如图7所示,芯片的处理器70作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。处理器70的核心部分为运算电路,控制器704控制运算电路703提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实施例中,运算电路703内部包括多个处理单元(Process Engine,PE)。在一些实施例中,运算电路703是二维脉动阵列。运算电路703还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实施例中,运算电路703是通用的矩阵处理器。
例如,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器702中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器701中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)708中。
向量计算单元707可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。
在一些实施例中,向量计算单元能707将经处理的输出的向量存储到统一缓存器706。例如,向量计算单元707可以将非线性函数应用到运算电路703的输出,例如累加值的向量,用以生成激活值。在一些实施例中,向量计算单元707生成归一化的值、合并值,或二者均有。在一些实施例中,处理过的输出的向量能够用作到运算电路703的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器706用于存放输入数据以及输出数据。
存储单元访问控制器705(Direct Memory Access Controller,DMAC)将外部存储器中的输入数据搬运到输入存储器701和/或统一存储器706、将外部存储器中的权重数据存入权重存储器702,以及将统一存储器706中的数据存入外部存储器。
总线接口单元(Bus Interface Unit,BIU)510,用于通过总线实现主CPU、DMAC和取指存储器709之间进行交互。
与控制器704连接的取指存储器(instruction fetch buffer)709,用于存储控制器704使用的指令;
控制器704,用于调用指存储器709中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器706、输入存储器701、权重存储器702以及取指存储器709均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory,DDR SDRAM)、高带宽存储器(High Bandwidth Memory,HBM)或其他可读可写的存储器。
在一些实施例中,还提供了一种计算机程序,包括:指令,指令当由处理器执行时使处理器执行上述任一个实施例的音频信号的处理方法。
图8示出音频信号处理过程的一些实施例的示意图。
如图8所示,在生产侧,根据音频数据和音频源数据,利用音轨接口和通用音频元数据(如ADM扩展等)进行授权和元数据标记。例如,还可以进行标准化处理。
在一些实施例中,将生产侧的处理结果进行空间音频的编码和解码处理,得到压缩结果。
在消费侧,根据生产侧的处理结果(或压缩结果),利用音轨接口和通用音频元数据(如ADM扩展等)进行元数据恢复和渲染处理;对处理结果进行音频渲染处理后输入到音频设备。
在一些实施例中,音频处理的输入可以包括场景信息和元数据、基于目标的音频信号、FOA(First-Order Ambisonics,一阶立体声)、HOA(Higher-Order Ambisonics,高阶立体声)、立体声、环绕声等;音频处理的输入包括立体声音频输出等。
本领域内的技术人员应当明白,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。在使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或 计算机程序。在计算机上加载或执行计算机指令或计算机程序时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (25)
- 一种音频信号的处理方法,包括:获取音频定义模型ADM中的音频信号的第一音频元数据,所述第一音频元数据对应于第一元数据部分;获取所述ADM中不存在的所述音频信号的第二音频元数据,所述第二音频元数据对应于第二元数据部分;根据所述第一元数据部分和所述第二元数据部分,对所述音频信号进行音频渲染处理。
- 根据权利要求1所述的处理方法,其中,所述第一音频元数据包括基础元数据,所述第一元数据部分包括<audioformat Extended>数据块,所述第二音频元数据包括扩展元数据,所述第二元数据部分包括<VRext>数据块。
- 根据权利要求2所述的处理方法,其中,所述基础元数据包括所述音频信号相关的内容的部分和控制信息的部分。
- 根据权利要求1所述的处理方法,所述根据所述第一元数据部分和所述第二元数据部分,对所述音频信号进行音频渲染处理,包括:根据所述第一元数据部分和所述第二元数据部分,确定所述音频信号的完整音频元数据,根据所述完整音频元数据对所述音频信号进行音频渲染处理。
- 根据权利要求1所述的处理方法,其中,所述获取音频定义模型ADM中的音频信号的第一音频元数据包括:从第一存储区域获取所述第一音频元数据中与音频内容相关的部分;从第二存储区域获取所述第一音频元数据中与音频内容无关的部分;所述获取所述ADM中不存在的所述音频信号的第二音频元数据包括:从所述第一存储区域获取所述第二音频元数据中与音频内容相关的部分;从所述第二存储区域获取所述第二音频元数据中与音频内容无关的部分。
- 根据权利要求5所述的处理方法,其中,所述第一存储区域为本地存储区域,所述第二存储区域为远端存储区域。
- 根据权利要求5或6所述的处理方法,其中:所述第一音频元数据中与音频内容无关的部分包括音频控制元数据、音频格式元数据中的至少一项;所述第二音频元数据中与音频内容无关的部分包括音频控制元数据、音频格式元数据中的至少一项。
- 根据权利要求5或6所述的处理方法,其中:所述第一音频元数据中与音频内容相关的部分包括音频节目元数据、音频内容元数据、音频对象元数据中的至少一种;所述第二音频元数据中与音频内容相关的部分包括节目Presence元数据、实例instance元数据、单元Unit元数据中的至少一种。
- 根据权利要求8所述的处理方法,其中:所述音频节目元数据与所述音频内容元数据之间存在依赖关系,所述音频内容元数据与所述音频对象元数据之间存在依赖关系;所述Presence元数据与所述instance元数据之间存在依赖关系,所述Unit元数据与所述instance元数据之间存在聚合关系。
- 根据权利要求2所述的处理方法,其中:所述基础元数据包括音频节目元数据、音频内容元数据、音频对象元数据中的至少一种;所述扩展元数据包括Presence元数据、instance元数据、Unit元数据中的至少一种。
- 根据权利要求1-10任一项所述的处理方法,其中,所述获取音频定义模型ADM中的音频信号的第一音频元数据包括:获取所述第一音频元数据中的动态元数据部分和所述第一音频元数据中的静态 元数据部分;所述获取所述ADM中不存在的所述音频信号的第二音频元数据包括:获取所述第二音频元数据中的动态元数据部分和所述第二音频元数据中的静态元数据部分。
- 根据权利要求11所述的处理方法,其中:所述第一音频元数据中的动态元数据部分包括音频块格式元数据;所述第一音频元数据中的静态元数据部分包括音频频道格式元数据。
- 根据权利要求11所述的处理方法,其中:所述第二音频元数据中的动态元数据部分包括动态控制元数据;所述第二音频元数据中的静态元数据部分包括静态控制元数据。
- 根据权利要求6所述的处理方法,其中,所述远端存储区域能够提供离线更新能力,用于存储音频控制元数据中的公用数据部分。
- 根据权利要求4所述的处理方法,其中,所述根据所述第一元数据部分和所述第二元数据部分,确定所述音频信号的完整音频元数据包括:将所述第一元数据部分和所述第二元数据部分拼装为所述完整音频元数据。
- 根据权利要求4所述的处理方法,其中,所述根据所述第一元数据部分和所述第二元数据部分,确定所述音频信号的完整音频元数据包括:在所述第一元数据部分与所述第二元数据部分存在数据冲突或数据重复的情况下,由渲染器确定用于解决所述数据冲突或数据重复的策略。
- 根据权利要求16所述的处理方法,其中,所述由渲染器确定用于解决所述数据冲突或数据重复的策略包括:将所述第一元数据部分中引起数据冲突或数据重复的第一音频元数据,确定为第一候选元数据,将所述第二元数据部分中引起数据冲突或数据重复的第二音频元数据,确定为第二候选元数据;在当前数据处理模式为兼容模式的情况下,利用所述第一候选元数据覆盖所述第二候选元数据,获取所述完整音频元数据;在当前数据处理模式为定制模式的情况下,利用所述第二候选元数据覆盖所述第一候选元数据,获取所述完整音频元数据。
- 根据权利要求4所述的处理方法,其中,所述根据所述第一元数据部分和所述第二元数据部分,对所述音频信号进行音频渲染处理包括:将所述完整音频元数据封装在元数据结构模块中,通过渲染控制器模块传递给渲染引擎进行音频渲染处理。
- 一种音频信号的处理装置,包括:获取单元,用于获取音频定义模型ADM中的音频信号的第一音频元数据,所述第一音频元数据对应于第一元数据部分,获取所述ADM中不存在的所述音频信号的第二音频元数据,所述第二音频元数据对应于第二元数据部分;处理单元,用于根据所述第一元数据部分和所述第二元数据部分,对所述音频信号进行音频渲染处理。
- 根据权利要求19所述的处理装置,其中,所述处理器根据所述第一元数据部分和所述第二元数据部分,确定所述音频信号的完整音频元数据,根据所述完整音频元数据对所述音频信号进行音频渲染处理。
- 一种芯片,包括:至少一个处理器和接口,所述接口,用于为所述至少一个处理器提供计算机执行指令,所述至少一个处理器用于执行所述计算机执行指令,实现如权利要求1-18任一项所述的音频信号的处理方法。
- 一种音频信号的处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行权利要求1-18任一项所述的音频信号的处理方法。
- 一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-18任一项所述的音频信号的处理方法。
- 一种计算机程序产品,包括指令,所述指令当由处理器执行时使所述处理器执行根据权利要求1-18任一项所述的音频信号的处理方法。
- 一种计算机程序,包括:指令,所述指令当由处理器执行时使所述处理器执行权利要求1-18任一项所述的音频信号的处理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021114366 | 2021-08-24 | ||
CNPCT/CN2021/114366 | 2021-08-24 | ||
PCT/CN2022/114219 WO2023025143A1 (zh) | 2021-08-24 | 2022-08-23 | 音频信号的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117941378A true CN117941378A (zh) | 2024-04-26 |
Family
ID=85322438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280056514.1A Pending CN117941378A (zh) | 2021-08-24 | 2022-08-23 | 音频信号的处理方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117941378A (zh) |
WO (1) | WO2023025143A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101009629B1 (ko) * | 2003-03-13 | 2011-01-21 | 한국전자통신연구원 | 디지털 방송 프로그램 서비스를 제공하기 위한 확장메타데이터의 데이터 구조와 이를 이용한 적응적 프로그램서비스 제공 시스템 및 그 방법 |
JP5249408B2 (ja) * | 2008-04-16 | 2013-07-31 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
US10419866B2 (en) * | 2016-10-07 | 2019-09-17 | Microsoft Technology Licensing, Llc | Shared three-dimensional audio bed |
EP4123644A1 (en) * | 2018-04-11 | 2023-01-25 | Dolby International AB | 6dof audio decoding and/or rendering |
US20200013426A1 (en) * | 2018-07-03 | 2020-01-09 | Qualcomm Incorporated | Synchronizing enhanced audio transports with backward compatible audio transports |
-
2022
- 2022-08-23 WO PCT/CN2022/114219 patent/WO2023025143A1/zh active Application Filing
- 2022-08-23 CN CN202280056514.1A patent/CN117941378A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023025143A1 (zh) | 2023-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070496B (zh) | 图像特效的生成方法、装置和硬件装置 | |
KR101912177B1 (ko) | 음성 인식 동적 사전을 유지하기 위한 시스템 및 방법 | |
US20200112711A1 (en) | Electronic device and method for providing virtual device via at least portion of content | |
CN113094123A (zh) | 应用程序中功能的实现方法、装置、电子设备和存储介质 | |
US9612833B2 (en) | Handling compressed data over distributed cache fabric | |
US11734016B2 (en) | Method and apparatus for stateless parallel processing of tasks and workflows | |
CN111813465B (zh) | 一种信息获取方法、装置、介质和设备 | |
CN106688015B (zh) | 处理用于当解码图像时对于块的操作的参数 | |
CN113538208A (zh) | 图片加载方法及相关装置 | |
CN114625439A (zh) | 基于微前端架构的子应用运行方法、电子设备及存储介质 | |
CN112416303B (zh) | 软件开发工具包热修复方法、装置及电子设备 | |
CN117941378A (zh) | 音频信号的处理方法和装置 | |
KR20210055278A (ko) | 하이브리드 비디오 코딩 방법 및 시스템 | |
CN107294948A (zh) | 处理媒体数据的计算机实现方法、装置及数据处理系统 | |
CN104272285B (zh) | 用于渲染图形应用程序的方法和装置 | |
JP5968463B2 (ja) | データを別の記憶装置にコピーせずにデータソースによりバッファに格納されたデータを処理するためのポインタのスワッピング | |
CN112612427A (zh) | 一种车辆停靠点数据处理方法、装置、存储介质及终端 | |
CN111275828B (zh) | 三维装配体的数据处理方法、装置及电子设备 | |
CN110263797B (zh) | 骨架的关键点估计方法、装置、设备及可读存储介质 | |
WO2024051465A1 (zh) | 差分文件的还原方法及电子设备 | |
CN114647472B (zh) | 图片处理方法、装置、设备、存储介质和程序产品 | |
CN111754423B (zh) | 高模gpu蒙皮平滑处理方法、装置及电子设备 | |
WO2024051471A1 (zh) | 一种图像处理方法和电子设备 | |
WO2024046010A1 (zh) | 一种界面显示方法、设备及系统 | |
WO2023241544A1 (zh) | 组件预览的方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |