CN108600935A - 音频信号处理方法和设备 - Google Patents

音频信号处理方法和设备 Download PDF

Info

Publication number
CN108600935A
CN108600935A CN201810503225.7A CN201810503225A CN108600935A CN 108600935 A CN108600935 A CN 108600935A CN 201810503225 A CN201810503225 A CN 201810503225A CN 108600935 A CN108600935 A CN 108600935A
Authority
CN
China
Prior art keywords
filter
signal
brir
ears
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810503225.7A
Other languages
English (en)
Other versions
CN108600935B (zh
Inventor
吴贤午
李泰圭
郭真三
孙周亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wilus Institute of Standards and Technology Inc
Gcoa Co Ltd
Original Assignee
Wilus Institute of Standards and Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wilus Institute of Standards and Technology Inc filed Critical Wilus Institute of Standards and Technology Inc
Publication of CN108600935A publication Critical patent/CN108600935A/zh
Application granted granted Critical
Publication of CN108600935B publication Critical patent/CN108600935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及用于处理音频信号的方法和设备。所述方法包括:接收音频信号的比特流:解码包括在所述比特流中的所述音频信号;接收与用于双耳渲染所述音频信号的双耳室脉冲响应BRIR滤波器集合相对应的虚拟布局信息,所述虚拟布局信息包括有关基于所述BRIR滤波器集合确定的目标声道的信息;和基于所接收到的虚拟布局信息,将所解码的音频信号渲染为所述目标声道的信号。

Description

音频信号处理方法和设备
本申请是分案申请。本申请的母案申请的申请号为 201580014818.1,其国际申请日为2015年3月19日,国际申请号为 PCT/KR2015/002669,进入中国国家阶段的日期为2016年9月19日。
技术领域
本发明涉及用于处理音频信号的方法和设备,并且更具体地,涉 及将对象信号与声道信号合成并且有效地执行合成信号的双耳渲染的 用于处理音频信号的方法和设备。
背景技术
在现有技术中,3D音频统称为一系列信号处理、传输、编码和再 现技术,该一系列信号处理、传输、编码和再现技术用于通过向在环 绕音频中提供的水平面(2D)上的声音场景提供与高度方向对应的另 一轴,来提供出现在3D空间中的声音。具体地,为了提供3D音频, 应当使用比相关技术更多的扬声器,或者以其他方式,尽管使用了比 相关技术更少的扬声器,但是需要在不存在扬声器的虚拟位置处产生 声音图像的渲染技术。
预计3D音频将是与超高清(UHD)TV对应的音频解决方案,并 且预计3D音频将应用于各种领域,除了在演进为高品质的信息娱乐空 间的车辆中的声音之外,还包括影院音响、个人3DTV、平板装置、智 能手机和云游戏。
同时,作为提供给3D音频的声源的类型,可以存在基于声道的信 号和基于对象的信号。另外,可以存在基于声道的信号和基于对象的 信号被混合的声源,并且因此,用户可以具有新型的收听体验。
同时,在音频信号处理设备中,在用于处理基于声道的信号的声 道渲染器与用于处理基于对象的信号的对象渲染器之间,可能存在性 能差异。换言之,可以在基于声道的信号的基础上实现音频信号处理 设备的双耳渲染。在这种情况下,当基于声道的信号与基于对象的信 号被混合的声音场景被接收作为音频信号处理设备的输入时,可能无 法如期望那样通过双耳渲染来再现对应的声音场景。因此,需要解决 由于声道渲染器与对象渲染器之间的性能差异而可能发生的各种问 题。
发明内容
技术问题
本发明致力于提供一种用于处理音频信号的方法和设备,该方法 和设备可以通过实现与可以由双耳渲染器提供的空间分辨率相对应的 对象渲染器和声道渲染器来产生满足双耳渲染器的性能的输出信号。
本发明还是致力于实现一种滤波过程,该滤波过程在最小化在双 耳渲染中的音质损失的同时,要求具有非常小的计算量的高计算量, 以便在以立体声再现多声道或者多对象信号时保持原始信号的沉浸 感。
本发明还致力于在输入信号中包含失真时通过高质量滤波器来最 小化失真传播。
本发明还致力于实现具有非常大的长度的有限脉冲响应(FIR)滤 波器作为具有较小长度的滤波器。
本发明还致力于在使用缩小FIR的滤波器执行滤波时通过省略的 滤波系数来最小化截断部分(destructed part)的失真。
技术解决方案
为了实现这些目标,本发明提供如下用于处理音频信号的方法和 设备。
本发明的示例性实施例提供了一种用于处理音频信号的方法,包 括:接收包括多声道信号的输入音频信号;接收用于对该输入音频信 号进行滤波的截取子带滤波系数,该截取子带滤波系数是从用于该输 入音频信号的双耳滤波的双耳房间脉冲响应(BRIR)滤波系数获得的 子带滤波系数中的至少一些,并且基于通过至少部分地使用从对应的 子带滤波系数中提取的混响时间信息所获得的滤波器阶数信息来确定 截取子带滤波系数的长度;获得指示与输入音频信号的每个声道相对 应的BRIR滤波系数的矢量信息;以及基于该矢量信息,通过使用与相 关声道和子带相对应的截取子带滤波系数来对多声道信号的每个子带 信号进行滤波。
本发明的另一示例性实施例提供了一种用于处理音频信号以执行 对输入音频信号的双耳渲染的设备,包括:生成用于输入音频信号的 滤波器的参数化单元;以及双耳渲染单元,该双耳渲染单元接收包括 多声道信号的输入音频信号并且通过使用由参数化单元所生成的参数 来对输入音频信号进行滤波,其中,双耳渲染单元从参数化单元接收 用于对输入音频信号进行滤波的截取子带滤波系数,该截取子带滤波 系数是从用于该输入音频信号的双耳滤波的双耳房间脉冲响应(BRIR) 滤波系数获得的子带滤波系数中的至少一些,并且基于通过至少部分 地使用从对应的子带滤波系数中提取的混响时间信息所获得的滤波器 阶数信息来确定截取子带滤波系数的长度,获得指示与输入音频信号 的每个声道相对应的BRIR滤波系数的矢量信息,并且基于该矢量信 息,通过使用与相关声道和子带相对应的截取子带滤波系数来对多声 道信号的每个子带信号进行滤波。
在这种情况下,当在BRIR滤波器集合中存在具有与输入音频信 号的特定声道的位置信息匹配的位置信息的BRIR滤波系数时,矢量信 息可以指示相关BRIR滤波系数作为与特定声道相对应的BRIR滤波系 数。
此外,当在BRIR滤波器集合中不存在具有与输入音频信号的特 定声道的位置信息匹配的位置信息的BRIR滤波系数时,矢量信息可以 指示距特定声道的位置信息的最小几何距离的BRIR滤波系数作为与 特定声道相对应的BRIR滤波系数。
在这种情况下,几何距离可以是通过汇聚在两个位置之间的高度 偏差的绝对值以及在两个位置之间的方位偏差的绝对值所获得的值。
至少一个截取子带滤波系数的长度可以与另一子带的截取子带滤 波系数的长度不同。
本发明的又一示例性实施例提供了一种用于处理音频信号的方 法,包括:接收包括声道信号和对象信号中的至少一个的音频信号的 比特流;对包括在比特流中的每个音频信号进行解码;接收与用于音 频信号的双耳渲染的双耳房间脉冲响应(BRIR)滤波器集合相对应的 虚拟布局信息,该虚拟布局信息包括有关基于该BRIR滤波器集合确定 的目标声道的信息;以及基于该接收到的虚拟布局信息,将每个解码 的音频信号渲染为目标声道的信号。
本发明的又一示例性实施例提供了一种用于处理音频信号的设 备,包括:核心解码器,该核心解码器接收包括声道信号和对象信号 中的至少一个的音频信号的比特流并且对包括在该比特流中的每个音 频信号进行解码;以及渲染器,该渲染器接收与用于音频信号的双耳 渲染的双耳房间脉冲响应(BRIR)滤波器集合相对应的虚拟布局信息, 该虚拟布局信息包括有关基于该BRIR滤波器集合确定的目标声道的 信息并且基于该接收到的虚拟布局信息,将每个解码的音频信号渲染 为目标声道的信号。
在这种情况下,与虚拟布局信息相对应的位置集合可以是与BRIR 滤波器集合相对应的位置集合的子集,并且虚拟布局信息的位置集合 可以指示相应目标声道的位置信息。
可以从执行双耳渲染的双耳渲染器接收BRIR滤波器集合。
该设备可以进一步包括混合器,该混合器通过混合针对每个目标 声道被渲染为目标声道的信号的每个音频信号来输出用于每个目标信 道的输出信号。
该设备可以进一步包括:双耳渲染器,该双耳渲染器通过使用与 相关目标声道相对应的BRIR滤波器集合的BRIR滤波系数来对用于每 个目标声道的混合输出信号进行双耳渲染。
在这种情况下,双耳渲染器可以将BRIR滤波系数转换成多个子 带滤波系数,基于通过至少部分地使用从对应子带滤波系数中提取的 混响时间信息所获得的滤波器阶数信息来截取每个子带滤波系数,其 中,至少一个截取子带滤波系数的长度可以与另一子带的截取子带滤 波系数的长度不同,并且通过使用与相关声道和子带相对应的截取子 带滤波系数来对用于每个目标声道的混合输出信号的每个子带信号进 行滤波。
有益效果
根据本发明的示例性实施例,基于由双耳渲染器处理的数据集来 执行声道和对象渲染以实现有效的双耳渲染。
另外,当使用具有比声道更多的数据集的双耳渲染器时,可以实 现提供更加改善的音质的对象渲染。
另外,根据本发明的示例性实施例,当执行对多声道或者多对象 信号的双耳渲染时,可以显著减少计算量,同时最小化音质损失。
另外,能够对多声道或者多对象音频信号实现具有高音质的双耳 渲染,而在现有技术的低功率装置中已经不可能进行这种实时处理。
本发明提供了一种以小的计算量来有效地执行对包括音频信号的 各种类型的多媒体信号进行滤波的方法。
附图说明
图1是图示了根据本发明的示例性实施例的包括音频编码器和音 频解码器的整体音频信号处理系统的配置图。
图2是图示了根据多声道音频系统的示例性实施例的多声道扬声 器的配置的配置图。
图3是示意性地图示了在收听空间中构成3D声音场景的各个声音 对象的位置的图。
图4是图示了根据本发明的示例性实施例的音频信号解码器的框 图。
图5是图示了根据本发明的另一示例性实施例的音频解码器的框 图。
图6是图示了对例外对象执行渲染的本发明的示例性实施例的框 图。
图7是图示了根据本发明的示例性实施例的双耳渲染器的各个组 件的框图。
图8是图示了根据本发明的示例性实施例的用于双耳渲染的滤波 器生成方法的图。
图9是具体图示了根据本发明的示例性实施例的QTDL处理的图。
图10是图示了本发明的BRIR参数化单元的相应组件的框图。
图11是图示了本发明的VOFF参数化单元的相应组件的框图。
图12是图示了本发明的VOFF参数生成单元的详细配置的框图。
图13是图示了本发明的QTDL参数化单元的相应组件的框图。
图14是图示了用于生成用于逐框式快速卷积的FFT滤波系数的方 法的示例性实施例的图。
具体实施方式
考虑到本发明中的功能,在本说明书中使用的术语尽量采用目前 广泛使用的通用术语,但是,可以根据本领域的技术人员的意图、习 惯、或者新技术的出现来改变这些术语。此外,在特定情况下,可以 使用申请人任意选择的术语,并且在这种情况下,在本发明的对应描 述部分中,将公开这些术语的含义。此外,我们旨在发现应该不仅基 于术语的名称,还应该基于贯穿本本说明书的术语的实质意义和内容 来分析在本说明书中使用的术语。
图1是图示了根据本发明的示例性实施例的包括音频编码器和音 频解码器的整体音频信号处理系统的配置图。
根据图1,音频编码器1100对输入声音场景进行编码以生成比特 流。音频解码器1200可以接收所生成的比特流,并且通过使用根据本 发明的示例性实施例的用于处理音频信号的方法解码和渲染对应的比 特流来生成输出声音场景。在本说明书中,音频信号处理设备可以将 音频解码器1200指示为狭义的,但是本发明不限于此,并且音频信号 处理设备可以指示包括在音频解码器1200的具体组件或者包括音频编 码器1100和音频解码器1200的整体音频信号处理系统。
图2是图示了根据多声道音频系统的示例性实施例的多声道扬声 器的配置的配置图。
在该多声道音频系统中,可以使用多个扬声器声道以改善存在感, 并且具体地,可以在宽度、深度和高度方向上设置多个扬声器以在3D 空间中提供存在感。在图2中,作为示例性实施例,图示了22.2-声道 扬声器配置,但是本发明不限于声道的具体数目或者扬声器的具体配 置。参照图2,可以由具有顶层、中间层和底层的三个层来构成22.2- 声道扬声器集合。当TV屏幕的位置为正面时,在顶层上,在正面设置 三个扬声器,在中间位置设置三个扬声器,并且在环绕位置设置三个 扬声器,由此可以设置总共9个扬声器。此外,在中间层上,在正面 设置五个扬声器,在中间位置设置两个扬声器,并且在环绕位置设置 三个扬声器,由此可以设置总共10个扬声器。同时,在底层上,在正 面设置三个扬声器,并且可以提供两个LFE声道扬声器。
如上所述,需要大的计算量来传输和再现具有最多10个声道的多 声道信号。此外,当考虑到通信环境时,可能需要用于对应信号的高 压缩率。此外,在普通家庭中,具有诸如22.2声道的多声道扬声器系 统的用户极少,并且存在很多设置了具有2-声道或者5.1-声道设置的 系统的情况。因此,当共同传输给所有用户的信号是对多声道中的每 一个进行编码的信号时,需要再次将相关多声道信号转换成对应于2- 声道或者5.1-声道的多声道信号的过程。因此,可能会造成低通信效率, 并且由于需要存储22.2-声道脉冲编码调制(PCM)信号,所以甚至可 能在存储器管理中发生低效率的问题。
图3是示意性地图示了在收听空间中构成3D声音场景的相应声音 对象的位置的示意图。
如在图3中所图示的,在收听方52收听3D音频的收听空间50 中,可以使构成3D声音场景的各个声音对象51以点声源的形式分布 在不同的位置。此外,除了点声源之外,声音场景还可以包括平面波 声源或者环境声源。如上所述,需要一种有效的渲染方法来明确地向 收听方52提供在3D空间中不同地分布的对象和声源。
图4是图示了根据本发明的另一示例性实施例的音频解码器的框 图。本发明的音频解码器1200包括核心解码器10、渲染单元20、混 合器30和后处理单元40。
首先,核心解码器10对接收到的比特流进行解码,并且将该解码 的比特流传递至渲染单元20。在这种情况下,从核心解码器10输出并 且被传递至渲染单元的信号可以包括扩音器声道信号411、对象信号 412、SAOC声道信号414、HOA信号415和对象元数据比特流413。 用于在编码器中进行编码的核心编解码器可以用于核心解码器10,并 且例如,可以使用MP3、AAC、AC3或者基于联合语音和音频编码 (USAC)的编解码器。
同时,接收到的比特流可以进一步包括可以标识由核心解码器10 解码的信号是声道信号、对象信号还是HOA信号的标识符。此外,当 解码的信号是声道信号411时,在比特流中可以进一步包括可以标识 每个信号对应于多声道中的哪个声道(例如,对应于左边扬声器、对 应于后方右上扬声器等)的标识符。当解码的信号是对象信号412时, 可以另外获得指示将对应的信号在再现空间中哪个位置处被再现的信 息,如同通过解码对象元数据比特流413所获得的对象元数据信息425a 和425b。
根据本发明的示例性实施例,音频解码器执行灵活渲染以改善输 出音频信号的质量。该灵活渲染可以指基于实际再现环境的扩音器配 置(再现布局)或者双耳房间脉冲响应(BRIR)滤波器集合的虚拟扬 声器配置(虚拟布局)来转换解码的音频信号的格式的过程。通常, 在设置在实际起居室环境中的扬声器中,方位角和距离二者与标准建 议的不同。因为距扬声器的收听方的高度、方向、距离等不同于根据 标准建议的扬声器配置,所以当在扬声器的改变位置处再现原始信号 时,可能难以提供理想的3D声音场景。为了即使在不同扬声器配置中 也有效地提供内容制作者预期的声音场景,需要灵活渲染,该灵活渲染通过转换音频信号来根据在扬声器当中的位置差异校正该改变。
因此,渲染单元20通过使用再现布局信息或者虚拟布局信息来将 由核心解码器10解码的信号渲染为目标输出信号。该再现布局信息可 以指示目标声道的配置并且可以表示为再现环境的扩音器布局信息。 此外,可以基于在双耳渲染器200中使用的双耳房间脉冲响应(BRIR) 滤波器集合来获得虚拟布局信息,并且可以通过与BRIR滤波器集合相 对应的位置集合的子集来构成与虚拟布局相对应的位置集合。在这种 情况下,虚拟布局的位置集合指示各个目标声道的位置信息。渲染单 元20可以包括格式转换器22、对象渲染器24、OAM解码器25、SAOC 解码器26和HOA解码器28。渲染单元20根据解码的信号的类型,通过使用上述配置中的至少一个来执行渲染。
格式转换器22还可以被称为声道渲染器,并且将传输的声道信号 411转换成输出扬声器声道信号。即,格式转换器22执行在传输的声 道配置与要再现的扬声器声道配置之间的转换。当输出扬声器声道的 数目(例如,5.1声道)小于传输的声道的数目(例如,22.2声道), 或者传输的声道配置和要再现的声道配置彼此不同时,格式转换器22 执行声道信号411的向下混合或者转换。根据本发明的示例性实施例, 音频解码器可以通过使用在输入声道信号与输出扬声器声道信号之间 的组合来生成最优向下混合矩阵,并且通过使用该矩阵来执行行下混 合。此外,预渲染的对象信号可以被包括在由格式转换器22处理的声道信号411中。根据示例性实施例,在对音频信号进行解码之前,可 以将至少一个对象信号预渲染和混合为声道信号。通过格式转换器22, 可以将混合的对象信号与声道信号一起转换成输出扬声器声道信号。
对象渲染器24和SAOC解码器26对基于对象的音频信号执行渲 染。基于对象的音频信号可以包括离散对象波形和参数对象波形。在 离散对象波形的情况下,按照单声道波形向编码器提供各个对象信号, 并且编码器通过使用单通道元素(SCE)来传输各个对象信号。在参数 对象波形的情况下,多个对象信号被向下混合为至少一个声道信号, 并且相应对象的特征和特点之间的关系被表示为空间音频对象编码 (SAOC)参数。利用该核心编解码器来对对象信号进行向下混合和编 码,并且在这种情况下,所生成的参数信息被一起传输至解码器。
同时,当单独的对象波形或者参数对象波形被传输至音频解码器 时,可以一起传输与之相对应的压缩对象元数据。对象元数据通过以 时间和空间为单位量化对象属性来指定每个对象在3D空间中的位置 和增益值。渲染单元20的OAM解码器25接收压缩对象元数据比特流 413,并且对接收到的压缩对象元数据比特流413进行解码,并且将解 码的对象元数据比特流413传递至对象渲染器24和/或SAOC解码器 26。
对象渲染器24通过使用对象元数据信息425a来根据给定的再现 格式对每个对象信号412进行渲染。在这种情况下,可以基于对象元 数据信息425a来将每个对象信号412渲染为特定输出声道。SAOC解 码器26从SAOC声道信号414和参数信息来恢复对象/声道信号。此外, SAOC解码器26可以基于再现布局信息和对象元数据信息425b生成输 出音频信号。即,SAOC解码器26通过使用SAOC声道信号414来生 成解码的对象信号,并且执行将解码的对象信号映射成目标输出信号 的渲染。如上所述,对象渲染器24和SAOC解码器26可以将对象信 号渲染为声道信号。
HOA解码器28接收高阶立体混响(HOA)信号415和HOA附加 信息,并且对该HOA信号和HOA附加信息进行解码。HOA解码器28 通过独立等式来对声道信号或者对象信号建模以生成声音场景。当在 所生成的声音场景中选择扬声器的空间位置时,可以将声道信号或者对象信号渲染为扬声器声道信号。
同时,虽然在图4中未图示,但是当音频信号被传递至渲染单元 20的各个组件时,动态范围控制(DRC)可以作为预处理程序被执行。DRC将再现的音频信号的范围限制为预定水平,并且将小于预定阈值 的声音调大,而将大于预定阈值的声音调小。
将由渲染单元20处理的基于声道的音频信号和基于对象的音频 信号传递至混合器30。混合器30混合由渲染单元20的各个子单元渲 染的部分信号以生成混合器输出信号。当部分信号与在再现/虚拟布局 上的相同的位置匹配时,该部分信号彼此相加,并且当该部分信号与 不相同的位置匹配时,该部分信号被混合以输出分别对应于独立位置 的信号。混合器30可以确定在彼此相加的部分信号中是否发生频偏干 扰,并且进一步执行用于防止该频偏干扰的附加过程。此外,混合器 30调整基于声道的波形和渲染的对象波形的延迟,并且以样本为单位 汇聚所调整的波形。由混合器30汇聚的音频信号被传递至后处理单元 40。
后处理单元40包括扬声器渲染器100和双耳渲染器200。扬声器 渲染器100执行用于输出从混合器30传递的多声道和/或多对象音频信 号的后处理。后处理可以包括动态范围控制(DRC)、响度标准化(LN) 和峰值限制器(PL)。将扬声器渲染器100的输出信号传递至多声道 音频系统的扩音器以便输出。
双耳渲染器200生成多声道和/或多对象音频信号的双耳向下混合 信号。双耳向下混合信号是允许用位于3D中的虚拟声源来表示每个输 入声道/对象信号的2-声道音频信号。双耳渲染器200可以接收供应到 扬声器渲染器100的音频信号作为输入信号。双耳渲染可以基于双耳 房间脉冲响应(BRIR)来执行并且在时间域或者QMF域上执行。根 据示例性实施例,作为双耳渲染的后处理程序,可以附加地执行动态 范围控制(DRC)、响度规范化(LN)和峰值限制器(PL)。可以将 双耳渲染器200的输出信号传递和输出到诸如头戴耳机、耳机等的2- 声道音频输出装置。
<用于灵活渲染的渲染配置单元>
图5是图示了根据本发明的另一示例性实施例的音频解码器的框 图。在图5的示例性实施例中,相同的附图标记表示与图4的示例性 实施例相同的元件,并且将省略重复的描述。
参照图5,音频解码器1200-A可以进一步包括控制解码的音频信 号的渲染的渲染配置单元21。渲染配置单元21接收再现布局信息401 和/或BRIR滤波器集合信息402,并且通过使用该接收到的再现布局信 息401和/或BRIR滤波器集合信息402来生成用于渲染音频信号的目 标格式信息421。根据示例性实施例,渲染配置单元21可以获得实际 再现环境的扩音器配置作为再现布局信息401,并且基于此来生成目标 格式信息421。在这种情况下,目标格式信息421可以表示实际再现环 境的扩音器的位置(声道)或其子集、或者基于其组合的超集。
渲染配置单元21可以从双耳渲染器200获得BRIR滤波器集合信 息402,并且通过使用所获得的BRIR滤波器集合信息402来生成目标 格式信息421。在这种情况下,目标格式信息421可以表示双耳渲染器 200的BRIR滤波器集合支持的(即,可双耳渲染的)目标位置(声道) 或其子集或者基于其组合的超集。根据本发明的示例性实施例,BRIR 滤波器集合信息402可以包括不同于指示物理扩音器的配置的再现布 局信息401的目标位置或者包括更多目标位置。因此,当基于再现布 局信息401渲染的音频信号被输入到双子渲染器200中时,在渲染的 音频信号的目标位置与双耳渲染器200所支持的目标位置之间差异可 能发生。替代地,由核心解码器10解码的信号的目标位置可以通过 BRIR滤波器集合信息402来提供,而不能由再现布局信息401来提供。
因此,当最终输出音频信号是双耳信号时,本发明的渲染配置单 元21可以通过使用从双耳渲染器200获得的BRIR滤波器集合信息402 来生成目标格式信息421。渲染单元20基于再现布局信息401和双耳 渲染,通过使用所生成的目标格式信息421来执行对音频信号的渲染, 以最小化可能由于2-步渲染处理而导致的音质劣化现象。
同时,渲染配置单元21可以进一步获得有关最终输出音频信号的 类型的信息。当最终输出音频信号是扩音器信号时,渲染配置单元21 可以基于再现布局信息401来生成目标格式信息421,并且将所生成的 目标格式信息421传递至渲染单元20。此外,当最终输出音频信号是 双耳信号时,渲染配置单元21可以基于BRIR滤波器集合信息402来 生成目标格式信息421,并且将所生成的目标格式信息421传递至渲染 单元20。根据本发明的另一示例性实施例,渲染配置单元21可以进一 步获得指示由用户使用的音频系统或者用户的选择的控制信息403,并 且通过同时使用对应的控制信息403来生成目标格式信息421。
将所生成的目标格式信息421传递至渲染单元20。渲染单元20 的各个子单元可以通过使用从渲染配置单元21传递的目标格式信息 421来执行灵活渲染。即,格式转换器22基于目标格式信息421来将 解码的声道信号411转换为目标声道的输出信号。类似地,对象渲染 器24和SAOC解码器26分别通过使用目标格式信息421和目标元数 据425来将对象信号412和SAOC声道信号414转换成目标声道的输 出信号。在这种情况下,可以基于目标格式信息421来更新用于渲染 对象信号421的混合矩阵,并且对象信号24可以通过使用更新的混合 矩阵来将对象信号412渲染为输出声道信号。如上所述,可以通过将 音频信号映射成目标格式上的至少一个目标位置(即,目标声道)的 转换过程来执行渲染。
同时,甚至可以将目标格式信息421传递至混合器30并且可以将 其用于混合由渲染单元20的各个子单元所渲染的部分信号的过程。当 该部分信号与目标格式上的相同位置匹配时,该部分信号彼此相加, 并且当该部分信号与不相同的位置匹配时,该部分信号被混合为分别 对应于独立位置的输出信号。
根据本发明的示例性实施例,可以根据各种方法来设置目标格式。 首先,渲染配置单元21可以设置具有比所获得的再现布局信息401或 者BRIR滤波器集合信息402更高的空间分辨率的目标格式。即,渲染 配置单元21获得第一目标位置集合,该第一目标位置集合是由再现布 局信息401或者BRIR滤波器集合信息402指示的原始目标位置的集 合,并且组合一个或者多个原始目标位置以生成额外的目标位置。在 这种情况下,额外的目标位置可以包括通过在多个原始目标位置中的 内插所生成的位置、通过外推生成的位置等。通过所生成的额外的目 标位置的集合,可以配置第二目标位置集合。渲染配置单元21可以生成包括第一目标位置集合和第二目标位置集合的目标格式,并且将对 应的目标格式信息4210传递至渲染单元20。
渲染单元20可以通过使用包括额外的目标位置的高分辨率目标 格式信息421来对音频信号进行渲染。当通过使用高分辨率目标格式 信息421执行渲染时,渲染过程的分辨率被改善,并且因此,计算变 得容易并且改善了音质。渲染单元20可以通过对音频信号进行渲染来 获得映射到目标格式信息421的每个目标位置的输出信号。当获得映 射到第二目标位置集合的附加目标位置的输出信号时,渲染单元20可 以执行将相应输出信号重新渲染为用于第一目标位置集合的原始目标 位置的向下混合过程。在这种情况下,可以通过基于向量的幅度平移 (VBAP)或者幅度平移来实现向下混合过程。
作为用于设置目标格式的另一方法,渲染配置单元21可以设置具 有比所获得的BRIR滤波器集合信息402更低的空间分辨率的目标格 式。即,渲染配置单元21可以通过M个原始目标位置的子集或者其组 合来获得N(N<M)个缩小(abbreviated)的目标位置并且生成由该缩 小的目标位置构成的目标格式。渲染配置单元21可以向渲染单元20 传递对应的低分辨率目标格式信息421,并且渲染单元20可以通过使 用该低分辨率目标格式信息421来执行对音频信号的渲染。当通过使 用低分辨率目标格式信息421执行渲染时,可以减少渲染单元20的计 算量以及随后的双耳渲染器200的计算量。
作为用于设置目标格式的又一方法,渲染配置单元21可以为渲染 单元20的每个子单元设置不同的目标格式。例如,提供给格式转换器 20的目标格式和提供给对象渲染器24的目标格式可以彼此不同。当根 据每个子单元提供不同的目标格式时,针对每个子单元,可以控制计 算量或者可以改善音质。
渲染配置单元21可以不同地设置提供给渲染单元20的目标格式 和提供给混合器30的目标格式。例如,提供给渲染单元20的目标格 式可以具有比提供给混合器30的目标格式更高的空间分辨率。因此, 混合器30可以被实现为伴随向下混合具有高分辨率的输入信号的过 程。
同时,渲染配置单元21可以基于用户的选择和所使用的装置的环 境或者设置,来设置目标格式。渲染配置单元21可以通过控制信息403 来接收信息。在这种情况下,控制信息403基于可以由装置提供的计 算量性能和电能以及用户的选择中的至少一个而变化。
在图4和图5的示例性实施例中,图示了渲染单元20根据渲染目 标信号通过不同的子单元执行渲染,但是可以通过集成有所有或者一 些子单元的渲染器来实现渲染单元20。例如,可以通过一个集成渲染 器来实现格式转换器22和对象渲染器24。
根据本发明的示例性实施例,如图5中所示,可以将对象渲染器 24的输出信号中的至少一些输入到格式转换器22。输入到格式转换器 22中的对象渲染器24的输出信号可以用作用于解决在空间中的不匹配 的信息,该不匹配可能由于在对对象信号的灵活渲染和对声道信号的 灵活渲染的性能差异而在信号之间发生。例如,当对象信号412和声 道信号411被同时接收作为输入,并且期望提供两个信号被混合的形 式的声音场景时,用于各个信号的渲染过程彼此不同,并且因此,由 于在空间中的不匹配而导致容易发生失真。因此,根据本发明的示例 性实施例,当对象信号412和声道信号411被同时接收作为输入时,对象渲染器24可以基于目标格式信息421,在不独立执行灵活渲染的 情况下,向格式转换器22传递输出信号。在这种情况下,该传递至格 式转换器22的对象渲染器24的输出信号可以是与输入声道信号411 的声道格式相对应的信号。此外,格式转换器22可以将对象渲染器24 的输出声道混合至声道信号411,并且基于目标格式信息421对混合的 信号执行灵活渲染。
同时,在位于可用扬声器区域外的例外对象的情况下,难以仅通 过现有技术中的扬声器来再现内容制作者期望的声音。因此,当存在 例外对象时,对象渲染器24可以生成与该例外对象的位置相对应的虚 拟扬声器,并且通过使用实际扩音器信息和虚拟扬声器信息二者来执 行渲染。
图6是图示了对例外对象进行渲染的本发明的示例性实施例的框 图。在图6中,由附图标记401至609标示的实线点表示目标格式所 支持的各个目标位置,并且目标位置环绕的区域形成可以被渲染的输 出声道空间。此外,由附图标记611至613标示的虚线点表示目标格 式不支持的虚拟位置,并且可以表示由对象渲染器24生成的虚拟扬声 器的位置。同时,由S1 701至S1 704标示的星形点表示需要在特定对 象S沿着路径700移动时在特定时间渲染的空间再现位置。可以基于 对象元数据信息425来获得对象的空间再现位置。
在图6的示例性实施例中,可以基于对应的对象的再现位置是否 与目标格式的目标位置匹配来渲染对象信号。当对象的再现位置与特 定目标位置604匹配时,如S2 702,将对应的对象信号转换成与目标 位置604相对应的目标声道的输出信号。即,可以通过与目标声道的1: 1映射来渲染该对象信号。然而,当对象的再现位置位于输出声道空间 中,但不直接与目标位置匹配时,如S1 701,可以使对应的对象信号 分布至与再现位置相邻的多个目标位置的输出信号。例如,可以将S1 701的对象信号渲染为相邻目标位置601、602和603的输出信号。当 对象信号被映射到两个或者三个目标位置时,可以通过诸如基于矢量的幅度平移(VBAP)等方法将对应的对象信号渲染为每个目标声道的 输出信号。因此,可以通过与多个目标声道的1:N映射来渲染对象信 号。
同时,当对象的再现位置没有位于由目标格式配置的输出声道空 间中时,如S3703和S4 704,可以通过独立过程来渲染对应的对象。 根据示例性实施例,对象渲染器24可以将对应的对象投射到按照目标 格式配置的输出声道空间上,并且执行从投射的位置到相邻目标位置 的渲染。在这种情况下,针对从投射的位置到目标位置的渲染,可以 使用S1701或者S2 702的渲染方法。即,将S3 703和S4 704分别投 射到在输出声道空间中的P3和P4,并且可以将投射的P3和P4的信 号渲染为相邻目标位置604、605和607的输出信号。
根据另一示例性实施例,当对象的再现位置没有位于按照目标格 式配置的输出声道空间中时,对象渲染器24可以通过使用虚拟扬声器 的位置和目标位置来渲染对应的对象。首先,对象渲染器24将对应的 对象信号渲染为包括至少一个虚拟扬声器信号的输出信号。例如,当 对象的再现位置与虚拟扬声器的位置直接匹配时,如S4 704,将对应 的对象信号渲染为虚拟扬声器611的输出信号。然而,当不存在与对 象的再现位置匹配的虚拟扬声器时,如S3 703,可以将对应的对象信 号渲染为相邻虚拟扬声器611以及目标声道605和607的输出信号。 接下来,对象渲染器24将所渲染的虚拟扬声器信号重新渲染为目标声道的输出信号。即,可以将S3 703或者S4 704的对象信号被渲染成的 虚拟扬声器611的信号向下混合为相邻目标声道(例如,605、607) 的输出信号。
同时,如在图6中所示,目标格式可以包括通过组合原始目标位 置而生成的额外的目标位置621、622、623和624。如上描述地生成和 使用额外的目标位置以提高渲染的分辨率。
<双耳渲染器的细节>
图7是图示了根据本发明的示例性实施例的双耳渲染器的每个组 件的框图。如在图2中所图示的,根据本发明的示例性实施例的双耳 渲染器200可以包括BRIR参数化单元300、快速卷积单元230、后期 混响生成单元240、QTDL处理单元250以及混合器&组合器260。
双耳渲染器200通过执行对各种类型的输入信号的双耳渲染来生 成3D音频耳机信号(即,3D音频2-声道信号)。在这种情况下,输 入信号可以是包括声道信号(即,扩音器声道信号)、对象信号、和 HOA系数信号中的至少一个的音频信号。根据本发明的另一示例性实 施例,当双耳渲染器200包括特定解码器时,输入信号可以是前面提 到的音频信号的编码比特流。双耳渲染将解码的输入信号转换成双耳 向下混合信号,以使得能够在通过耳机收听对应的双耳向下混合信号 时体验环绕声。
根据本发明的示例性实施例的双耳渲染器200可以通过使用双耳 房间脉冲响应(BRIR)滤波器来执行双耳渲染。当使用BRIR的双耳 渲染被一般化时,双耳渲染是用于获取用于具有M个声道的多声道输 入信号的O输出信号的M-至-O处理。在这种过程期间,双耳滤波可 以被视为使用与每个输入声道和每个输出声道对应的滤波系数的滤 波。在图3中,原始滤波器集合H指从每个声道信号的扬声器位置到 左右耳的位置的传递函数。在一般的收听室中测量的传递函数,即, 在传递函数之中的混响空间,被称为双耳房间脉冲响应(BRIR)。相 反,为了不受再现空间的影响在消声室中测量的传递函数被称为头部 相关脉冲响应(HRIR),并且其传递函数被称为头部相关传递函数 (HRTF)。因此,与HRTF不同,BBIR包含再现空闲信息以及方向 信息。根据示例性实施例,可以通过使用HRTF和人工混响器来替代 BRIR。在本说明书中,对使用BRIR的双耳渲染进行了描述,但是本 发明不限于此,并且本发明甚至可以通过类似或者对应的方法,适用 于使用包括HRIR和HRIF的各种类型的FIR滤波器的双耳渲染。此外, 本发明可以适用于对输入信号的各种形式的滤波以及对音频信号的各 种形式的双耳渲染。同时,如上所述,BRIR可以具有96K个样本的长 度,并且由于通过使用不同的M*O个滤波器来执行多声道双耳渲染, 所以需要具有高计算复杂度的处理过程。
在本发明中,从狭义上讲,用于处理音频信号的设备可以指示在 图7中图示的双耳渲染器200或者双耳渲染单元220。然而,在本发明 中,从广义上讲,用于处理音频信号的设备可以指示包括双耳渲染器 的图4或者图5的音频信号解码器。此外,在下文中,在本说明书中, 将主要对多声道输入信号的示例性实施例进行描述,但是除非另有描 述,否则声道、多声道和多声道输入信号可以用作分别包括对象、多 对象和多对象输入信号的概念。此外,多声道输入信号还可以用作包 括HOA解码和渲染的信号的概念。
根据本发明的示例性实施例,双耳渲染器200可以对在QMF域中 执行对输入信号的双耳渲染。即,双耳渲染器200可以接收QMF域的 多声道(N个声道)的信号,并且通过使用QMF域的BRIR子带滤波 器来执行对该多声道的信号的双耳渲染。当通过OMF分析滤波器组的 第i个声道的第k个子带信号用xk,i(l)表示并且在子带域中的时间索引 由l表示时,可以通过下面给出的等式来表示在QMF域中的双耳渲染。
[等式1]
此处,m是L(左)或者R(右),并且是通过将时间域BRIR 滤波器转换成OMF域的子带滤波器来获得的。
即,可以通过将QMF域的声道信号或者对象信号划分成多个子带 信号并且利用与之对应的BRIR子带滤波器对各个子带信号进行卷积 的方法来执行双耳渲染,并且此后,对利用BRIR子带滤波器卷积的各 个子带信号进行加总。
BRIR参数化单元300转换并编辑用于在QMF域中的双耳渲染的 BRIR滤波系数,并且生成各种参数。首先,BRIR参数化单元300接 收用于多声道或者多对象的时间域BRIR滤波系数,并且将接收到的时 间域BRIR滤波系数转换成QMF域BRIR滤波系数。在这种情况下,QMF域BRIR滤波系数分别包括与多个频带相对应的多个子带滤波系 数。在本发明中,子带滤波器滤波系数指示QMF-转换的子带域的每个 BRIR滤波系数。在本说明书中,可以将子带滤波系数指定为BRIR子 带滤波系数。BRIR参数化单元300可以编辑QMF域的多个BRIR子 带滤波系数中的每一个,并且将所编辑的子带滤波系数传递至快速卷 积单元230等。根据本发明的示例性实施例,可以包括BRIR参数化单 元300,作为双耳渲染器220的组件,或者以其他方式作为独立设备被 提供。根据示例性实施例,包括除了BRIR参数化单元300的快速卷积 单元230、后期混响生成单元240、QTDL处理单元250以及混合器& 组合器260的组件可以归类为双耳渲染单元220。
根据示例性实施例,BRIR参数化单元300可以接收与虚拟再现空 间的至少一个位置相对应的BRIR滤波系数作为输入。虚拟再现空间的 每个位置可以与多声道系统的每个扬声器位置相对应。根据示例性实 施例,由BRIR参数化单元300接收的BRIR滤波系数中的每一个可以 与双耳渲染器200的输入信号中的每个声道或者每个对象直接匹配。 相反,根据本发明的另一示例性实施例,接收到的BRIR滤波系数中的 每一个可以具有独立于双耳渲染器200的输入信号的配置。即,由BRIR 参数化单元300接收的BRIR滤波系数中的至少一部分可以与双耳渲染 器200的输入信号不直接匹配,并且接收到的BRIR滤波系数的数目可以小于或者大于输入信号的声道和/或对象的总数。
BRIR参数化单元300还可以接收控制参数信息,并且基于接收到 的控制参数信息来生成用于双耳渲染的参数。如在下面描述的示例性 实施例中所描述的,控制参数信息可以包括复杂度-质量控制信息等, 并且可以用作用于BRIR参数化单元300的各种参数化过程的阈值。 BRIR参数化单元300基于输入值来生成双耳渲染参数,并且将所生成 的双耳渲染参数传递至双耳渲染单元220。当要改变输入BRIR滤波系 数或者控制参数信息时,BRIR参数化单元300可以重新计算双耳渲染 参数,并且将重新计算的双耳渲染参数传递至双耳渲染单元。
根据本发明的示例性实施例,BRIR参数化单元300转换并编辑与 双耳渲染器200的输入信号的每个声道或者每个对象相对应的BRIR滤 波系数,以将所转换和编辑的BRIR滤波系数传递至双耳渲染单元220。 对应的BRIR滤波系数可以是从用于每个声道或者每个对象的BRIR滤 波器集合中选择的匹配BRIR或者回退BRIR。可以通过针对每个声道 或者每个对象的BRIR滤波系数是否存在于虚拟再现空间中来确定 BRIR匹配。在这种情况下,可以从用信号通知声道布置的输入参数获 取每个声道(或者对象)的位置信息。当存在针对输入信号的相应声 道或者相应对象的位置中的至少一个的BRIR滤波系数时,BRIR滤波 系数可以是输入信号的匹配BRIR。然而,当不存在针对特定声道或者 对象的位置的BRIR滤波系数时,BRIR参数化单元300可以提供针对 与对应的声道或者对象最相似的位置的BRIR滤波系数,作为用于对应 声道或者对象的回退BRIR。
首先,当在BRIR滤波器集合中存在具有在距期望位置(特定声 道或对象)的预定范围内的高度和方位偏差的BRIR滤波系数时,可以 选择对应的BRIR滤波系数。换言之,可以选择具有与期望位置相同的 高度和距期望位置方位偏差在+/-20的BRIR滤波系数。当不存在与之 对应的BRIR滤波系数时,可以选择BRIR滤波器集合中的具有距期望 的位置的最小几何距离的BRIR滤波系数。即,可以选择最小化在对应 的BRIR的位置与期望位置之间的几何距离的BRIR滤波系数。此处, BRIR的位置表示与相关BRIR滤波系数相对应的扬声器的位置。此外, 两个位置之间的几何距离可以被定义为通过汇聚两个位置之间的高度 偏差的绝对值和方位偏差的绝对值所获得的值。同时,根据示例性实 施例,通过用于内插BRIR滤波系数的方法,BRIR滤波器集合的位置 可以与期望位置匹配。在这种情况下,内插的BRIR滤波系数可以被视 为BRIR滤波器集合的一部分。即,在这种情况下,可以实现BRIR滤波系数始终存在于期望位置处。
可以通过分开的矢量来传递与输入信号的每个声道或者每个对象 对应的BRIR滤波系数。矢量信息mconv指示与在BRIR滤波器集合中 的输入信号的每个声道或者对象对应的BRIR滤波系数。例如,当在 BRIR滤波器集合中存在具有与输入信号的特定声道的位置信息匹配 的位置信息的BRIR滤波系数时,矢量信息mconv将相关BRIR滤波系 数指示为与该特定声道对应的BRIR滤波系数。然而,当在BRIR滤波 器集合中不存在具有与输入信号的特定声道的位置信息匹配的位置信 息的BRIR滤波系数时,矢量信息mconv将离特定声道的位置信息的几 何距离最小的回退BRIR滤波系数指示为与该特定声道对应的BRIR滤 波系数。因此,参数化单元300可以通过使用矢量信息mconv来确定与 在整个BRIR滤波器集合中的输入音频信号的每个声道和对象对应的 BRIR滤波系数。
同时,根据本发明的另一示例性实施例,BRIR参数化单元300转 换并且编辑所有接收到的BRIR滤波系数以将转换和编辑后的BRIR滤 波系数传递至双耳渲染单元220。在这种情况下,可以由双耳渲染单元 220来进行与输入信号的每个声道和每个对象对应的BRIR滤波系数 (可替代地,编辑后的BRIR滤波系数)的选择程序。
当BRIR参数化单元300由除了双耳渲染单元220之外的装置构 成时,可以将由BRIR参数化单元300生成的双耳渲染参数作为比特流 传递至双耳渲染单元220。双耳渲染单元220可以通过将接收到的比特 流进行解码来获取双耳渲染参数。在这种情况下,传输的双耳渲染参 数包括在双耳渲染单元220的每个子单元中的处理所需要的各种参数, 并且可以包括转换或者编辑后的BRIR滤波系数、或者原始BRIR滤波 系数。
双耳渲染单元220包括快速卷积单元230、后期混响生成单元240、 和QTDL处理单元250,并且接收包括多声道和/或多对象信号的多音 频信号。在本说明书中,包括多声道和/或多对象信号的输入信号将被 称为多音频信号。图7图示了根据示例性实施例的双耳渲染单元220 接收QMF域的多声道信号,但是双耳渲染单元220的输入信号可以进 一步包括时间域多声道信号和时间域多对象信号。此外,当双耳渲染 单元220还包括特定解码器时,输入信号可以是多音频信号的编码后 的比特流。此外,在本说明书中,基于进行多音频信号的BRIR渲染的 案例对本发明进行了描述,但是本发明不限于此。即,由本发明提供 的特征不仅可以应用于BRIR,还可以应用于其它类型的渲染滤波器, 并且不仅可以应用于多音频信号,还可以应用于单个声道或者单个对 象的音频信号。
快速卷积单元230在输入信号与BRIR滤波器之间进行快速卷积 以处理用于输入信号的直达声和早期反射声。为此,快速卷积单元230 可以通过使用截取BRIR来进行快速卷积。该截取BRIR包括依赖于每 个子带频率截取的多个子带滤波系数并且由BRIR参数化单元300生 成。在这种情况下,依赖于对应子带的频率赖确定每个截取子带滤波 系数的长度。快速卷积单元230可以通过使用根据子带具有不同长度 的截取子带滤波系数来在频域中进行可变阶数滤波。即,针对每个频 带,可以在QMF域子带信号和与其对应的QMF域的截取子带滤波器 之间进行快速卷积。可以通过上面给出的矢量信息mconv来识别与每个 子带信号对应的截取子带滤波器。
后期混响生成单元240生成用于输入信号的后期混响信号。该后 期混响信号表示在由快速卷积单元230生成的直达声和早期反射声之 后的输出信号。后期混响生成单元240可以基于由从BRIR参数化单元 300传递的每个子带滤波系数确定的混响时间信息,来处理输入信号。 根据本发明的示例性实施例,后期混响生成单元240可以生成用于输 入音频信号的单声道或者立体声向下混合信号并且对生成的向下混合 信号进行后期混响处理。
QMF域抽头延迟线(QTDL)处理单元250处理在输入音频信号 之中的高频带中的信号。QTDL处理单元250从BRIR参数化单元300 接收至少一个参数,该参数与在高频带中的每个子带信号对应,并且 通过使用接收到的参数来在QMF域中进行抽头延迟线滤波。可以通过 在上面给出的矢量信息mconv来识别与每个子带信号对应的参数。根据 本发明的示例性实施例,双耳渲染器200基于预定的常数或者预定的 频带将输入音频信号分成低高频带信号和高频带信号,并且,分别可 以由快速卷积单元230和后期混响生成单元240对低高频带信号进行 处理,并且可以由QTDL处理单元250对高频带信号进行处理。
快速卷积单元230、后期混响生成单元240、和QTDL处理单元 250中的每一个输出2-声道QMF域子带信号。混合器&组合器260组 合并且混合快速卷积单元230的输出信号、后期混响生成单元240的 输出信号、和QTDL处理单元250的输出信号。在这种情况下,针对2声道的左输出信号和右输出信号中的每一个,单独地对输出信号进行 组合。双耳渲染器200对组合的输出信号进行QMF分析以在时间域中 生成最终的双耳输出音频信号。
<在频域中的可变阶数滤波(VOFF)>
图8是图示了根据本发明的示例性实施例的用于双耳渲染的滤波 器生成方法的示意图。转换成多个子带滤波器的FIR滤波器可以用于 在QMF域中的双耳渲染。根据本发明的示例性实施例,双耳渲染器的 快速卷积单元可以通过使用根据每个子带频率具有不同长度的截取子 带滤波器来在QMF域中进行可变阶数滤波。
在图8中,Fk表示用于快速卷积的截取子带滤波器以处理QMF 子带k的直达声和早期反射声。此外,Pk表示用于QMF子带k的后 期混响生成的滤波器。在这种情况下,截取子带滤波器Fk可以是从原 始子带滤波器截取的前滤波器,并且可以将其指定为前子带滤波器。此外,在截取原始子带滤波器之后,Pk可以是后滤波器,并且可以将 其指定为后子带滤波器。QMF域具有总共K个子带,并且根据示例性 实施例,可以使用64个子带。此外,N表示原始子带滤波器的长度(标 签号)并且NFilter[k]表示子带k的前子带滤波器的长度。在这种情况下, 长度NFilter[k]表示在下采样的QMF域中的标签号。
在使用BRIR滤波器进行渲染的情况下,可以基于从原始BRIR滤 波器提取的参数,即,用于每个子带滤波器的混响时间(RT)信息、 能量衰减曲线(EDC)值、能量衰减时间信息等,来确定用于每个子 带的滤波器阶数(即,滤波器长度)。由于取决于壁和天花板的材料的空气衰减和吸声程度根据各个频率而发生变化的声学特点,混响时 间可以根据频率而变化。一般情况下,具有较低频率的信号具有较长 的混响时间。由于长混响时间表示更多的信息保留在FIR滤波器的后 部分,因此,优选在正常地传递混响信息中截取对应的滤波器。因此, 至少部分地基于从对应的子带滤波器提取的特点信息(例如,混响时 间信息)来确定本发明的每个截取子带滤波器Fk的长度。
根据实施例,可以基于通过用于处理音频信号的设备获得的附加 信息,即,复杂性、复杂程度(剖面)、或者需要的解码器的质量信 息,来确定截取子带滤波器Fk的长度。可以根据用于处理音频信号或 者由用户直接输入的值的设备的硬件资源来确定复杂性。可以根据用 户的请求来确定质量,或者参照通过比特流或者包括在比特流中的其 它信息传输的值来确定质量。此外,还可以根据通过对传输的信号的 质量进行估计获得的值来确定质量,换言之,比特率高,可以将质量 视为质量越高。在这种情况下,每个截取子带滤波器的长度可以根据 复杂性和质量成比例地增加,并且可以随着针对各个频带得不同比率 而变化。此外,为了通过诸如FFT等高速处理来获得附加增益,可以 将每个截取子带滤波器的长短确定为对应的大小单元,举例来说,2的 幂的倍数。相反,当确定的截取子带滤波器的长度比实际子带滤波器 的总长度长时,可以将截取子带滤波器的长度调整为实际子带滤波器 的长度。
根据本发明的实施例的BRIR参数化单元生成与根据前面提到的 示例性实施例确定的截取子带滤波器的相应的长度对应的截取子带滤 波系数,并且将生成的截取子带滤波系数传递至快速卷积单元。快速 卷积单元通过使用截取子带滤波系数来在多音频信号的每个子带信号 的频域中进行可变阶数滤波(VOFF处理)。即,针对彼此不同的频带 的第一子带和第二子带,快速卷积单元通过将第一截取子带滤波系数 应用于第一子带信号来生成第一子带双耳信号,并且通过将第二截取 子带滤波系数应用于第二子带信号来生成第二子带双耳信号。在这种 情况下,第一截取子带滤波系数和第二截取子带滤波系数中的每一个 都可以独立地具有不同的长度并且从在时间域中的相同原型滤波器获 得。即,由于在时间域中的单个滤波器被转换成多个QMF子带滤波器 并且与相应子带对应的滤波器的长度发生了变化,因此,从单个原型 滤波器获取截取子带滤波器中的每一个。
同时,根据本发明的示例性实施例,可以将经过QMF转换的多个 子带滤波器分成多个组,并且可以对各个分成的组应用不同的处理。 例如,可以基于预定的频带(QMF条带i)来将多个子带分成具有低频 率的第一子带组(区1)和具有高频率的第二子带组(区2)。在这种 情况下,可以对第一子带组的输入子带信号进行VOFF处理,并且可 以对第二子带组的输入子带信号进行即将在下面描述的QTDL处理。
因此,BRIR参数化单元生成用于第一子带组的每个子带的截取子 带滤波器(前子带滤波器)系数并且将该前子带滤波系数传递至快速 卷积单元。快速卷积单元通过使用接收到的前子带滤波系数来进行第 一子带组的子带信号的VOFF处理。根据示例性实施例,还可以由后 期混响生成单元来进行第一子带组的子带信号的后期混响处理。此外, BRIR参数化单元从第二子带组的子带滤波系数中的每一个获取至少 一个参数,并且将获得的参数传递至QTDL处理单元。如在下面所描 述的,QTDL处理单元通过使用获得的参数来进行对第二子带组的每个 子带信号的抽头延迟线滤波。根据本发明的示例性实施例,可以基于预定的常数值来确定用于区分第一子带组和第二子带组的预定频率 (QMF频带i)或者根据传输的音频输入信号的比特流特点来确定。例 如,在使用SBR的音频信号的情况下,可以将第二子带组设置为与SBR 频带对应。
根据本发明的另一示例性实施例,如在图8中所图示的,可以基 于预定的第一频带(QMF频带i)和第二频带(QMF频带j)来将多个 子带分成三个子带组。即,可以将多个子带分成第一子带组(区1)(该 第一子带组(区1)是与第一频带相等或者低于第一频带的低频区)、 第二子带组区2(该第二子带组(区2)是高于第一频带并且与第二频 带相等或者低于第二频带的中频区)、和第三子带组(区3)(该第三 子带组(区3)是高于第二频带的高频区)。例如,当总共64个QMF 子带(子带索引0至63)被分成3个子带组时,第一子带组可以包括 具有索引0至31的总共32个子带;第二子带组可以包括具有索引32 至47的总共16个子带;以及第三子带组可以包括具有索引48至63 的子带。此处,因为子带频率变低,所以子带索引的值较低。
根据本发明的示例性实施例,只可以对第一子带组和第二子带组 的子带信号进行双耳渲染。即,如上所述,可以对第一子带组的子带 信号进行VOFF处理和后期混响处理,并且可以对第二子带组的子带 信号进行QTDL处理。此外,不可以对第三子带组的子带信号进行双 耳渲染。同时,用于进行双耳渲染的最大频率的信息(Kproc=48)和 用于进行卷积的频带的信息(Kconv=32)可以是预定的值,或者由BRIR 参数化单元确定以传递至双耳渲染单元。在这种情况下,将第一频带 (QMF频带i)设置为索引Kconv-1的子带并且将第二频带(QMF频 带j)设置为索引Kproc-1的子带。同时,可以通过原始BRIR输入的 采样频率、输入音频信号的采样频率等来改变用于进行卷积的最大频 带的信息(Kproc)和频带的信息(Kconv)的值。
同时,根据图8的示例性实施例,还可以基于从原始子带滤波器 以及前子带滤波器Fk提取的参数来确定后子带滤波器Pk的长度。即, 至少部分地基于在对应的子带滤波器中提取的特点信息来确定每个子 带的前子带滤波器和后子带滤波器的长度。例如,可以基于对应的子 带滤波器的第一混响信息来确定前子带滤波器的长度,并且可以基于 第二混响时间信息来确定后子带滤波器的长度。即,基于在原始子带 滤波器中的第一混响时间信息,前子带滤波器可以是在截取的前部分 处的滤波器,并且后子带滤波器可以是在第一混响时间与第二混响时 间之间的区对应的后部分处的滤波器,该区是在前子带滤波器之后的 区。根据示例性实施例,第一混响时间信息可以是RT20,并且第二混 响时间信息可以是RT60,但是本发明不限于此。
在第二混响时间内,存在将早期反射声部分转换为后期混响声部 分的部分。即,存在将具有确定特点的区转换为具有随机特点的区的 点,并且,在整个频带的BRIR方面,将该点称为混合时间。在混合时 间之前的区的情况下,主要存在针对每个位置提供方向性的信息,并 且该信息对每个声道都是唯一的。相反,由于后期混响部分针对每个 声道具有共同特征,因此,每次对多个声道进行处理可能是高效的。 因此,对每个子带的混合时间进行估计,以在混合时间之前通过VOFF 处理进行快速卷积,并且在混合时间之后通过后期混响处理来来反映 针对每个声道的共同特点的处理。
然而,从感知的观点看,在估计混合时间时,可能会由于偏置而 发生错误。因此,从质量的观点看,通过将VOFF处理部分的长度最 大化来进行快速卷积比通过估计精确的混合时间来基于对应的边界分 开地对VOFF处理部分和后期混响部分进行处理更好。因此,根据复 杂度-质量控制,VOFF处理部分的长度(即,前子带滤波器的长度) 可以比与混合时间对应的长度更长或者更短。
此外,为了减少每个子带滤波器的长度,除了前面提到的截取方 法之外,当特定子带的频率响应是单调的时,可以使用将对应子带的 滤波器减少到低阶数的建模。作为代表性的方法,存在使用频率采样 的FIR滤波建模,并且可以设计从最小二乘的观点看被最小化的滤波。
<高频频带的QTDL处理>
图9是图示了根据本发明的示例性实施例的更加具体地图示了 QTDL处理的框图。根据图9的示例性实施例,QTDL处理单元250通 过使用单抽头延迟线滤波器来对多声道输入信号X0,、X1、…、X_M-1 进行子带专用滤波。在这种情况下,假定多声道输入信号作为QMF域 的子带信号而被接收。因此,在图9的示例性实施例中,单抽头延迟 线滤波器可以对每个QMF子带进行处理。该单抽头延迟线滤波器针对 每个声道信号进行仅一个抽头的卷积。在这种情况下,可以基于从与 相关子带信号对应的BRIR子带滤波系数直接提取的参数来确定使用 的抽头。该参数包括待在单抽头延迟线滤波器中使用的抽头的延迟信 息、以及与其对应的增益信息。
在图9中,L_0、L_1、…L_M-1分别表示针对左耳M声道的BRIR 的延迟,并且R_0、R_1、…、R_M-1分别表示针对右耳M声道的BRIR 的延迟。在这种情况下,延迟信息表示在BRIR子带滤波系数中的最大 峰值(按照绝对值的顺序)的位置信息、实部的值、或者虚部的值。此外,在图9中,分别地,G_L_0、G_L_1、…、G_L_M-1表示与左声 道的相应延迟信息对应的增益,并且G_R_0、G_R_1、…、G_R_M-1 表示与右声道的相应延迟信息对应的增益。可以基于对应BRIR子带滤 波系数的总功率、与延迟信息对应的峰值的大小等,来确定每个增益 信息。在这种情况下,作为增益信息,可以使用在对全部子带滤波系 数进行能量补偿之后的对应峰值的加权值、以及在子带滤波系数中的 对应的峰值本身。通过使用对应峰值的加权值的实数和加权值的虚数 来获取增益信息。
同时,如上所述,可以仅对高频带的输入信号进行QTDL处理, 基于预定的常数或者预定的频道对该高频带的输入信号进行分类。当 将频带复制(SBR)应用于输入音频信号时,高频带可以与SBR频带 对应。用于对高频带有效编码的频带复制(SBR)是用于通过重新扩展 带宽来保证带宽与原始信号的长度一样长的工具,该带宽通过将在低 比特率编码中的高频带的信号扔出而变窄。在这种情况下,通过使用 进行了编码和传输的低频带的信息和通过编码器传输的高频带的附加 信息,来生成高频带。然而,由于不准确的谐波的生成,在通过使用 SBR生成的高频率组件中可能会发生失真。此外,SBR子带是高频子 带,并且如上所述,对应频带的混响时间非常短。即,SBR频带的BRIR 子带滤波器具有少量有效信息和高衰减率。因此,在与SBR频带对应 的高频带的BRIR渲染中,在对音质的计算复杂度方面,通过使用少量 的有效抽头来进行渲染可能比进行卷积更有效。
由单抽头延迟线滤波器滤波的多个声道信号被聚合为用于每个子 带的2-声道左输出信号Y_L和右输出信号Y_R。同时,在双耳渲染的 初始化过程期间,可以将用于QTDL处理单元250的每个单抽头延迟 线滤波器中使用的参数存储在存储器中,并且,可以在不对提取的参 数进行另外的操作的情况下,进行QTDL处理。
<BRIR参数化的细节>
图10是图示了根据本发明的示例性实施例的BRIR参数化单元的 相应组件的框图。如在图14中所图示的,BRIR参数化单元300可以 包括VOFF参数化单元320、后期混响参数化单元360、和QTDL参数 化单元380。BRIR参数化单元300接收时间域的BRIR滤波器集合作 为输入,并且BRIR参数化单元300的每个子单元通过使用接收到的 BRIR滤波器集合来生成用于双耳渲染的各种参数。根据示例性实施 例,BRIR参数化单元300还可以接收控制参数,并且基于接收到的控 制参数生成参数。
首先,VOFF参数化单元320生成在频域(VOFF)中的可变阶数 滤波需要的截取子带滤波系数、和由此产生的辅助参数。例如,VOFF 参数化单元320计算用于生成截取子带滤波系数的频带专用混响时间 信息、滤波器阶数信息等,并且确定用于对截取子带滤波系数进行逐 框式快速傅里叶变换的框的大小。可以强VOFF参数化单元320生成 的一些参数传递至后期混响参数化单元360和QTDL参数化单元380。 在这种情况下,传递的参数不限于VOFF参数化单元320的最终输出 值,并且可以包括根据VOFF参数化单元320的处理生成的参数,即, 时间域的截取BRIR滤波系数等。
后期混响参数化单元360生成后期混响生成需要的参数。例如, 后期混响参数化单元360可以生成向下混合子带滤波系数、IC值等。 此外,QTDL参数化单元380生成用于QTDL处理的参数。更详细地, QTDL参数化单元360从后期混响参数化单元320接收子带滤波系数, 并且通过使用接收到的滤波系数来在每个子带中生成延迟信息和增益 信息。在这种情况下,QTDL参数化单元380可以接收用于进行双耳渲 染的最大频带的Kproc信息和用于进行卷积的频带的信息Kconv作为 控制参数,并且为具有Kproc和Kconv的子带组的每个频带生成延迟 信息和增益信息作为边界。根据示例性实施例,可以将QTDL参数化 单元380提供为包括在VOFF参数化单元320中的组件。
将分别在VOFF参数化单元320、后期混响参数化单元360、和 QTDL参数化单元380中生成的参数传递双耳渲染单元(未图示)。根 据示例性实施例,后期混响参数化单元360和QTDL参数化单元分别 可以根据在双耳渲染单元中是否进行了后期混响处理和QTDL处理来 确定是否生成了参数。当在双耳双耳渲染单元中没有进行后期混响处 理和QTDL处理中的至少一个时,与其对应的后期混响参数化单元360 和QTDL参数化单元380可以不生成参数或者可以不将生成的参数传 输至双耳渲染单元。
图11是图示了本发明的VOFF参数化单元的相应组件的框图。如 图所示,VOFF参数化单元320可以包括传播时间计算单元322、QMF 转换单元324、和VOFF参数生成单元330。VOFF参数化单元320通 过使用接收到的时间域BRIR滤波系数来进行生成用于VOFF处理的截 取子带滤波系数的过程。
首先,传播时间计算单元322计算时间域BRIR滤波系数的传播 时间信息,并且基于计算得到的传播时间信息截取时间域BRIF滤波系 数。此处,传播时间信息表示从初始样本到BRIR滤波系数的直达声的 时间。传播时间计算单元322可以从时间域BRIR滤波系数截取与计算 得到的传播时间对应的部分,并且移除该截取的部分。
各种方法可以用于估计BRIR滤波系数的传播时间。根据示例性 实施例,可以基于第一点信息来估计传播时间,其中,示出了比与BRIR 滤波系数的最大峰值成比例的阈值大的能量值。在这种情况下,由于 从多声道输入的相应声道到收听器的所有距离彼此不同,因此,传播 时间可以针对每个声道而变化。然而,所有声道的传播时间的截取长 度需要彼此相同,以便通过使用BRIR滤波系数来进行卷积,在该卷积 中,在进行双耳渲染时截取传播时间,并且补偿利用延迟进行了双耳 渲染的最终信号。此外,当通过将相同的传播时间信息应用于每个声 道来进行截取时,可以降低在单独的声道中的错误发生概率。
根据本发明的示例性实施例,为了计算传播时间信息,可以首先 限定用于诸帧索引k的帧能量E(k)。当用于输入声道索引m的时v间域~
BRIR滤波系数、输出左/右声道索引i、和时间域的时隙索引v是hi,m时, 可以通过下面给出的等式来计算在第k个帧中的帧能量E(k)。
[等式2]
其中,NBRIR表示BRIR滤波器集合的总共的滤波器的数量;Nhop表示预定的跳数大小;以及Lfrm表示帧大小。即,针对相同的时间间 隔,可以将帧能量E(k)计算为用于每个声道的帧能量的平均值。
可以通过使用定义的帧能量E(k)通过在下面给出的等式来计算传 播时间pt。
[等式3]
即,传播时间计算单元322通过改变预定的跳数来测量帧能量, 并且识别帧能量大于预定阈值的第一帧。在这种情况下,可以将传播 时间确定为识别出的第一帧的中间点。同时,在等式3中,描述了将 阈值设置为比最大帧能量低60dB的值,但是本发明不限于此,并且可 以将阈值设置为与最大帧能量成比例的值或者与最大帧能量相差预定 值的值。
同时,可以基于输入BRIR滤波系数是否是头相关脉冲响应 (HRIR)滤波系数来改变跳数大小Nhop和帧大小Lfrm。在这种情况下, 可以从外部接收或者通过使用时间域BRIR滤波系数的长度来估计指 示输入BRIR滤波系数是否是HRIR滤波系数的信息flag_HRIR。一般情况下,早期反射声部分和后期混响部分的边界已知为80ms。因此, 当时间域BRIR滤波系数的长度是80ms或者更小时,将对应的BRIR 滤波系数确定为HRIR滤波系数(flag_HRIR=1),并且当时间域BRIR 滤波系数的长度大于80ms时,可以确定对应的BRIR滤波系数不是HRIR滤波系数(flag_HRIR=0)。当确定输入BRIR滤波系数是HRIR 滤波系数(flag_HRIR=1)时,可以将跳数大小Nhop和帧大小Lfrm设置 为比确定对应的BRIR滤波系数不是HRIR滤波系数(flag_HRIR=0) 时的值更小的值。例如,在flag_HRIR=0的情况下,可以分别将跳数大小Nhop和帧大小Lfrm设置为8个样本和32个样本,并且在 flag_HRIR=1的情况下,可以分别将跳数大小Nhop和帧大小Lfrm设置为 1个样本和8个样本。
根据本发明的示例性实施例,传播时间计算单元322可以基于计 算得到的传播时间信息来截取时间域BRIR滤波系数,并且将该截取的 BRIR滤波系数传递至QMF转换单元324。此处,截取BRIR滤波系数 指示在从原始BRIR滤波系数截取并且移除与传播时间对应的部分之 后剩余的滤波系数。传播时间计算单元322截取用于每个输入声道和 每个输出左/右声道的时间域BRIR滤波系数,并且将截取的时间域 BRIR滤波系数传递至QMF转换单元324。
QMF转换单元324在时间域与QMF之间进行输入BRIR滤波系 数的转换。即,QMF转换单元324接收时间域的截取的BRIR滤波系 数并且分别将接收到的BRIR滤波系数转换为与多个频带对应的多个 子带滤波系数。将转换后的子带滤波系数传递至VOFF参数生成单元330,并且VOFF参数生成单元330通过使用接收到的子带滤波系数来 生成截取子带滤波系数。当QMF域BRIR滤波系数而非时间域BRIR 滤波系数作为VOFF参数化单元320的输入而被接收时,该接收到的 QMF域BRIR滤波系数可以绕过QMF转换单元324。此外,根据另一 示例性实施例,当输入滤波系数是QMF域BRIR滤波系数时,在VOFF 参数化单元320中,可以省略QMF转换单元324。
图12是图示了图11的VOFF参数生成单元的详细配置的框图。 如图所示,VOFF参数生成单元330可以包括混响时间计算单元332、 滤波器阶数确定单元334、和VOFF滤波系数生成单元336。VOFF参 数生成单元330可以从图11的QMF转换单元324接收QMF域子带滤 波系数。此外,可以将包括进行双耳渲染的最大频带信息Kproc、进行 卷积的频带信息Kconv、预定的最大FFT大小信息等的控制参数输入 到VOFF参数生成单元330中。
首先,混响时间计算单元332通过使用接收到的子带滤波系数来 获取混响时间信息。可以将获得的混响时间信息传递至滤波器阶数确 定单元334,并且可以将该混响时间信息用于确定对应子带的滤波器阶 数。同时,由于根据测量环境在混响时间信息中可能存在偏置和偏差, 因此,可以通过使用与另一声道的相互关系来使用统一的值。根据示 例性实施例,混响时间计算单元332生成每个子带的平均混响时间信 息并且将生成的平均混响时间信息传递至滤波器阶数确定单元334。当 用于输入声道索引m、输出左/右声道索引i、和子带索引k的子带滤波 系数的混响时间信息是RT(k,m,i)时,可以通过下面给出的等式来 计算子带k的平均混响时间信息RTk
[等式4]
其中,NBRIR表示BRIR滤波器集合的总共滤波器的数量。
即,混响时间计算单元332从与多声道输入对应的每个子带滤波 系数提取混响时间信息RT(k,m,i),并且获取针对相同子带提取的 每个声道的混响时间信息RT(k,m,i)的平均值(即,平均混响时间 信息RTk)。可以将获得的平均混响时间信息RTk传递至滤波器阶数确 定单元334,并且滤波器阶数确定单元334可以通过使用传递的平均混 响时间信息RTk来确定应用于对应子带的单个滤波器阶数。在这种情 况下,该获得的平均混响时间信息可以包括RT20,并且根据示例性实 施例,可以包括其它混响时间信息,换言之,也可以获取RT30、RT60 等。同时,根据本发明的示例性实施例,混响时间计算单元332可以 向滤波器阶数确定单元334传递针对相同子带提取的每个声道的混响 时间信息的最大值和/或最小值作为对应子带的代表性混响时间信息。
接下来,滤波器阶数确定单元334基于获得的混响时间信息来确 定对应子带的滤波器阶数。如上所述,通过滤波器阶数确定单元334 获得的混响时间信息可以是对应子带的平均混响时间信息,并且,相 反,根据示例性实施例,可以获取具有每个声道的混响时间信息的最 大值和/或最小值的代表性混响时间信息。滤波器阶数可以用于确定用 于对应子带的双耳渲染的截取子带滤波系数的长度。
当在子带k中的平均混响时间信息是RTk时,可以过下面给出的 等式获取对应子带的滤波器阶数信息NFilter[k]。
[等式5]
即,可以通过将对应子带的平均混响时间信息的对数缩放近似整 数作为索引来将滤波器阶数信息确定为2的幂的值。换言之,可以通 过将按照对数标尺的对应子带的平均混响时间信息的四舍五入值、上 舍入值、或者下舍入值作为索引,来将滤波器阶数信息确定为2的幂 的值。当对应子带滤波系数的原始长度(即,到最后时隙nend的长度) 比在等式5中确定的值小时,可以用子带滤波系数的原始长度值nend来替代滤波器阶数信息。即,可以将滤波器阶数信息确定为通过等式5 确定的参考截取长度和子带滤波系数的原始长度中较小的一个值。
同时,可以按照对数标尺对取决于频率的能量衰减线性地取近似 值。因此,当使用曲线拟合方法时,可以确定每个子带的优化滤波器 阶数信息。根据本发明的示例性实施例,滤波器阶数确定单元334可 以通过使用多项式曲线拟合方法来获取滤波器阶数信息。为此,滤波 器阶数确定单元334可以获取用于平均混响时间信息的曲线拟合的至 少一个系数。例如,滤波器阶数确定单元334通过对数标尺的线型方 程来进行每个子带的平均混响时间信息的曲线拟合,并且获取对应线 型方程的斜率值‘a’和片段值‘b’。
可以通过使用获得的系数通过下面给出的等式来获取在子带k中 的曲线拟合的滤波器阶数信息N’Filter[k]。
[等式6]
即,可以通过将对应子带的平均混响时间信息的多项式曲线拟合 值的近似整数值用作索引,来将曲线拟合的滤波器阶数信息确定为2 的幂的值。换言之,可以通过将对应子带的平均混响时间信息的多项 式曲线拟合值的四舍五入值、上舍入值、或者下舍入值的2的幂的值 作为索引,来将曲线拟合的滤波器阶数信息确定为2的幂的值。当对 应子带滤波系数的原始长度,即,到最后时隙nend的长度,比在等式6 中确定的值小时,可以用子带滤波系数的原始长度值nend来替代滤波器 阶数信息。即,可以将滤波器阶数信息确定为通过等式6确定的参考 截取长度和子带滤波系数的原始长度中较小的一个值。
根据本发明的示例性实施例,基于原型BRIR滤波系数(即,时 间域的BRIR滤波系数)是否是HRIR滤波系数(flag_HRIR),可以 通过使用等式5和等式6中的任何一个来获取滤波器阶数信息。如上 所述,可以基于原型BRIR滤波系数的长度是否大于预定值来确定flag_HRIR的值。当原型BRIR滤波系数的长度大于预定值(即, flag_HRIR=0)时,根可以据在上面给出的等式6将滤波器阶数信息确 定为曲线拟合值。然而,当原型BRIR滤波系数的长度不大于预定值 (即,flag_HRIR=1)时,可以根据在上面给出的等式5将滤波器阶数 信息确定为非曲线拟合值。即,可以在不进行曲线拟合的情况下,基 于对应子带的平均混响时间信息来确定滤波器阶数信息。其原因在于, 由于HRIR不受房间的影响,因此,在HRIR中,能量延迟的趋势不明 显。
同时,根据本发明的示例性实施例,当获得第0个子带(即,子 带索引0)的滤波器阶数信息时,可以使用未进行曲线拟合的平均混响 时间信息。其原因在于,由于房间模式的影响等,第0个子带的混响 时间可以具有与另一子带的混响时间不同的趋势。因此,根据本发明 的示例性实施例,仅在flag_HRIR=0的情况下和在索引不为0的子带 中才可以使用根据等式6的曲线拟合滤波器阶数信息。
将根据在上面给出的示例性实施例确定的每个子带的滤波器阶数 信息传递至VOFF滤波系数生成单元336。VOFF滤波系数生成单元336 基于获得的滤波器阶数信息生成截取子带滤波系数。根据本发明的示 例性实施例,截取子带滤波系数可以由至少一个FFT滤波系数构成, 其中,通过用于逐框式快速卷积的预定框形式来进行快速傅里叶变换(FFT)。如在下面参照图14所描述的,VOFF滤波系数生成单元336 可以生成用于逐框式快速卷积的FFT滤波系数。
图13是图示了本发明的QTDL参数化单元的相应组件的框图。
如在图13中所图示的,QTDL参数化单元380可以包括峰值搜索 单元382和增益生成单元384。QTDL参数化单元380可以从VOFF参 数化单元320接收QMF域子带滤波系数。此外,QTDL参数化单元380 可以接收用于进行双耳渲染的最大频带的信息Kproc和用于进行卷积 的频带的信息Kconv作为控制参数,并且为具有Kproc与Kconv的子 带组(即,第二子带组)的每个频带生成延迟信息和增益信息作为边 界。
根据更详细的示例性实施例,如在下面所描述的,当用于输入声 道索引m、输出左/右声道索引i、子带索引k、和QMF域时隙索引n 的BRIR子带系数是时,可以如下获取延迟信息和增益信息
[等式7]
[等式8]
其中,nend表示对应的子带滤波系数的最后时隙。
即,参照等式7,延迟信息可以表示时隙的信息,其中,对应的 BRIR子带滤波系数具有最大的大小,并且这表示对应的BRIR子带滤 波系数的最大峰值的位置信息。此外,参照等式8,可以将增益信息确 定为通过将对应的BRIR子带滤波系数的总功率值乘以在最大峰值位 置处的BRIR子带滤波系数的符号而获得的值。
峰值搜索单元382基于等式7获取最大峰值位置,即第二子带组 的每个子带滤波系数的延迟信息。此外,增益单元384基于等式8获 取针对每个子带滤波系数的增益信息。等式7和等式8示出了获取延 迟信息和增益信息的等式的示例,但是,可以队用于计算每种信息的 等式的具体形式进行各种修改。
<逐框式快速卷积>
同时,根据本发明的示例性实施例,可以进行预定的逐框式快速 卷积,以便在效率和性能方面获得最佳的双耳效果。基于FFT的快速 卷积的特征在于:随着FFT大小增加,计算量减少,但是整体处理延 迟增加并且内存使用量增加。当将长度为1秒的BRIR快速卷积为长度 是对应长度的两倍的FFT大小时,在计算量方面是高效的,但是发生 了与1秒对应的延迟,并且需要与之对应的缓存和处理存储器。具有 长延迟时间的音频信号处理方法不适于进行实时数据处理等的应用。 由于帧是可以由音频信号处理设备进行解码的最小单元,因此,甚至 是在双耳渲染中,也优选地按照与帧单元对应的大小来进行逐框式快 速卷积。
图14图示了用于生成用于逐框式快速卷积的FFT滤波系数的方法 的示例性实施例。与前面提到的示例性实施例相似,在图14的示例性 实施例中,将原型FIR滤波器转换为K子带滤波器,并且Fk和Pk分 别表示子带k的截取子带滤波器(前子带滤波器)和后子带滤波器。 子带Band 0至Band K-1中的每一个可以表示在频域中的子带,即QMF 子带。在QMF域中,可以使用总共64个子带,但是本发明不限于此。 此外,N表示原始子带滤波器的长度(抽头的数量)并且NFilter[k]表示 子带k的前子带滤波器的长度。
与前面提到的示例性实施例一样,可以基于预定的频带(QMF子 带i)来将QMF域的多个子带分成具有低频率的第一子带组(区1)和 具有高频率的第二子带组(区2)。可替代地,可以基于预定的第一频 带(QMF频带i)和第二频带(QMF频带j)来将多个子带分成三个子 带组,即:第一子带组(区1)、第二子带组(区2)、和第三子带组 (区3)。在这种情况下,分别可以通过使用逐框式快速卷积来对第一 子带组的输入子带信号进行VOFF处理,并且可以对第二子带组的输 入子带信号进行QTDL处理。另外,可以不对第三子带组的子带信号进行渲染。根据示例性实施例,还可以对第一子带组的输入子带信号 进行后期混响处理。
参照图14,本发明的VOFF滤波系数生成单元336按照对应子带 中的预定框大小来进行截取子带滤波系数的快速傅里叶变换以生成 FFT滤波系数。在这种情况下,基于预定的最大FFT大小2L来确定在 每个子带k中的预定框的长度NFFT[k]。更详细地,可以通过下面的等 式来表达在子带k中的预定框的长度NFFT[k]。
[等式9]
其中,2L表示预定的最大FFT大小并且NFilter[k]表示子带k的滤 波器阶数信息。
即,可以将预定框的长度NFFT[k]确定为在是截取子带滤波系数的 两倍的值与预定的最大FFT大小2L之间的较小值。此处, 参考滤波器长度表示对应子带k中的滤波器阶数NFilter[k]的2的幂的形 式的真实值和近似值中的任何一个。即,当子带k的滤波器阶数具有2 的幂的形式时,将对应的滤波器阶数NFilter[k]用作在子带k中的参考滤波器长度,并且当子带k的滤波器阶数NFilter[k]不具有2的幂的形式(例 如,nend)时,将对应的滤波器阶数NFilter[k]的2的幂的形式的四舍五 入值、上舍入值或者下舍入值用作参考滤波器长度。同时,根据本发 明的示例性实施例,预定框的长度NFFT[k]和参考滤波器长度两者都可以是2的幂的值。
当是参考滤波器长度的两倍的值等于或者大于(或者,大于)最 大FFT大小2L时(如,图14的F0和F1),将对应子带的预定框长 度NFFT[0]和NFFT[1]中的每一个确定为最大FFT大小2L。然而,当是 参考滤波器长度的两倍的值小于(或者,等于或者小于)最大FFT大小2L小时(如,图14的F5),将对应子带的预定框长度NFFT[5]确定 为其是参考滤波器长度的两倍的值。如在下面描述的,由 于通过补零将截取子带滤波系数扩展为双倍长度,并且之后,进行了 快速傅里叶变换,因此,可以基于在是参考滤波器程度的两倍的值与 预定最大FFT大小2L之间的比较结果来确定用于快速傅里叶变换的框 的长度NFFT[k]。
如上所述,当确定了在每个子带中的框长度NFFT[k]时,VOFF滤 波系数生成单元336通过预定的框大小来对截取子带滤波系数进行快 速傅里叶变换。更详细地,VOFF滤波系数生成单元336按照预定的框 大小的一半NFFT[k]/2来划分截取子带滤波系数。在图14中图示的 VOFF处理部分的虚线边界所在的区域表示按照预定的框大小的一半 划分得到的子带滤波系数。接下来,BRIR参数化单元通过使用相应划 分的滤波系数来生成预定框大小的临时滤波系数。在这种情况下,临 时滤波系数的前半部分由划分的滤波系数构成,并且后半部分由补零 值构成。因此,通过使用预定框的半个长度NFFT[k]/2的滤波系数来生 成预定框的长度为NFFT[k]的临时滤波系数。接下来,BRIR参数化单元 对生成的临时滤波系数进行快速傅里叶变换以生成FFT滤波系数。生 成的FFT滤波系数可以用于对输入音频信号进行预定的逐框式快速卷 积。
如上所述,根据本发明的示例性实施例,VOFF滤波系数生成单 元336按照针对每个子带独立确定的框大小来对截取子带滤波系数进 行快速傅里叶变换以生成FFT滤波系数。因此,可以进行针对每个子 带使用不同数量的框的快速卷积。在这种情况下,在子带k中的框的 数量Nblk[k]可以满足以下等式。
[等式10]
其中,Nblk[k]是自然数。
即,可以将在子带k中的框的数量确定为通过将是对应子带中的 参考滤波器长度的两倍的值除以预定框的长度NFFT[k]而得到的值。
同时,根据本发明的示例性实施例,可以限制性地对第一子带组 的前子带滤波器Fk进行预定的逐框式FFT滤波系数的生成过程。同时, 根据示例性实施例,可以通过在上面描述的后期混响生成单元对第一 子带组的子带信号进行后期混响处理。根据本发明的示例性实施例, 可以基于原型BRIR滤波系数的长度是否大于预定值来对输入音频信 号进行后期混响处理。如上所述,可以通过指示原型BRIR滤波系数的 长度大于预定值的标志(即,flag_BRIR),来表示原型BRIR滤波系 数的长度是否大于预定值。当原型BRIR滤波系数的长度大于预定值时 (flag_BRIR=0),可以对输入音频信号进行后期混响处理。然而,当 原型BRIR滤波系数的长度不大于预定值时(flag_BRIR=1),可以不 对输入音频信号进行后期混响处理。
当未进行后期混响处理时,只可以对第一子带组的每个子带信号 进行VOFF处理。然而,针对VOFF处理指定的每个子带的滤波器阶 数(即,截取点)可以小于对应的子带滤波系数的总长度,因此,可 能发生能量不匹配。因此,为了防止能量比匹配,根据本发明的示例 性实施例,可以基于flag_BRIR信息来对截取子带滤波系数进行能量补 偿。即,当原型BRIR滤波系数的长度不大于预定值时(flag_BRIR=1), 可以将进行了能量补偿的滤波系数用作截取子带滤波系数或者构成该 截取子带滤波系数的每个FFT滤波系数。在这种情况下,可以通过将 直到基于滤波器阶数信息NFilter[k]的截取点的子带滤波系数除以直到 截取点的滤波功率,并且乘以对应的子带滤波系数的总滤波功率,来 进行能量补偿。可以将总滤波功率定义为从对应子带滤波系数的初始 样本滤波到最终样本nend的滤波系数的功率之和。
同时,根据本发明的示例性实施例,针对每个声道,可以将相应 的子带滤波系数的滤波器阶数设置为彼此不同。例如,可以将前声道 (其中,输入信号包括更多的能量)的滤波器阶数设置为高于后声道 (其中,输入信号包括相对较少的能量)的滤波器阶数。因此,针对 前声道,提高在双耳渲染之后反映的分辨率,并且,针对后声道,可 以低计算复杂度进行渲染。此处,前声道和后声道的分类不限于分配 给多声道输入信号的每个声道的声道名称,并且可以基于预定空间参 考将相应的声道分成前声道和后声道。此外,根据本发明的另外的示 例性实施例,可以基于预定空间参考将多声道的相应声道分成三个或 者更多个声道组,并且,针对每个声道组,可以使用不同的滤波器阶 数。可替代地,针对与相应声道对应的子带滤波系数的滤波器阶数, 可以使用基于在虚拟再现空间中的对应声道的位置信息应用了不同加 权值的值。
在上文中,已经通过详细的示例性实施例对本发明进行了描述, 但是,在不脱离本发明的目标和范围的情况下,本领域的技术人员可 以对本发明进行修改和改变。即,在本发明中,已经对针对多音频信 号的双耳渲染的示例性实施例进行了描述,但是甚至可以将本发明相 似地应用于或者扩展为包括视频信号以及音频信号的各种多媒体信 号。因此,据分析,本领域的技术人员通过详细描述可以容易地类推 的主题、以及本发明的示例性实施例都包括在本发明的权利要求书中。
发明的实施方式
如上所述,已经按照最佳实施方式对相关的特征进行了描述。
工业实用性
本发明可以适用于处理多媒体信号的各种形式的设备,包括用于 处理音频信号的设备和用于处理视频信号的设备等。
此外,本发明可以适用于生成用于音频信号处理和视频信号处理 的参数的参数化装置。

Claims (12)

1.一种用于处理音频信号的方法,所述方法包括:
接收音频信号的比特流:
解码包括在所述比特流中的所述音频信号;
接收与用于双耳渲染所述音频信号的双耳室脉冲响应(BRIR)滤波器集合相对应的虚拟布局信息,所述虚拟布局信息包括有关基于所述BRIR滤波器集合确定的目标声道的信息;和
基于所接收到的虚拟布局信息,将所解码的音频信号渲染为所述目标声道的信号。
2.根据权利要求1所述的方法,其中,与所述虚拟布局信息相对应的位置集合是与所述BRIR滤波器集合相对应的位置集合的子集,并且与所述虚拟布局信息相对应的位置集合指示相应目标声道的位置信息。
3.根据权利要求1所述的方法,其中,从执行所述双耳渲染的双耳渲染器接收所述BRIR滤波器集合。
4.根据权利要求1所述的方法,还包括:
通过混合渲染到相关目标声道的信号的音频信号来生成用于每个目标声道的输出信号。
5.根据权利要求4所述的方法,还包括:
通过使用与相关目标声道相对应的BRIR滤波器集合的BRIR滤波系数的集合来对用于每个目标声道的所混合的输出信号进行双耳渲染。
6.根据权利要求5所述的方法,其中,对所混合的输出信号进行所述双耳渲染还包括:
将所述BRIR滤波系数的集合转换成多个子带滤波系数集合;
基于通过至少部分地使用从对应子带滤波系数集合中提取的混响时间信息获得的滤波器阶数信息来截取每个子带滤波系数集合,其中,每个所截取的子带滤波系数集合的长度在频域中可变地确定;和
通过使用与其相对应的所截取的子带滤波系数集合来对所混合的输出信号的每个子带信号进行滤波。
7.一种用于处理音频信号的设备,包括:
核心解码器,所述核心解码器被配置为接收音频信号的比特流并且解码包括在所述比特流中的所述音频信号;和
渲染器,所述渲染器被配置为将所解码的音频信号渲染为目标声道的一个或多个信号,
其中,所述渲染器进一步被配置为:
接收与用于双耳渲染所述音频信号的双耳室脉冲响应(BRIR)滤波器集合相对应的虚拟布局信息,所述虚拟布局信息包括有关基于所述BRIR滤波器集合确定的目标声道的信息:和
基于所接收到的虚拟布局信息,将所解码的音频信号渲染为所述目标声道的信号。
8.根据权利要求7所述的设备,其中,与所述虚拟布局信息相对应的位置集合是与所述BRIR滤波器集合相对应的位置集合的子集,并且与所述虚拟布局信息相对应的位置集合指示相应目标声道的位置信息。
9.根据权利要求7所述的设备,其中,从执行所述双耳渲染的双耳渲染器接收所述BRIR滤波器集合。
10.根据权利要求7所述的设备,还包括:
混频器,所述混频器被配置为通过混合渲染到相关目标声道的信号的音频信号来生成用于每个目标声道的输出信号。
11.根据权利要求10所述的设备,还包括:
双耳渲染器,所述双耳渲染器被配置为通过使用与相关目标声道相对应的BRIR滤波器集合的BRIR滤波系数的集合来对用于每个目标声道的所混合的输出信号进行双耳渲染。
12.根据权利要求11所述的设备,其中,所述双耳渲染器进一步被配置为:
将所述BRIR滤波系数的集合转换成多个子带滤波系数集合;
基于通过至少部分地使用从对应子带滤波系数集合中提取的混响时间信息获得的滤波器阶数信息来截取每个子带滤波系数集合,其中,每个所截取的子带滤波系数集合的长度在频域中可变地确定;和
通过使用与其相对应的所截取的子带滤波系数集合来对所混合的输出信号的每个子带信号进行滤波。
CN201810503225.7A 2014-03-19 2015-03-19 音频信号处理方法和设备 Active CN108600935B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461955243P 2014-03-19 2014-03-19
US61/955,243 2014-03-19
KR20140033966 2014-03-24
KR10-2014-0033966 2014-03-24
CN201580014818.1A CN106105269B (zh) 2014-03-19 2015-03-19 音频信号处理方法和设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580014818.1A Division CN106105269B (zh) 2014-03-19 2015-03-19 音频信号处理方法和设备

Publications (2)

Publication Number Publication Date
CN108600935A true CN108600935A (zh) 2018-09-28
CN108600935B CN108600935B (zh) 2020-11-03

Family

ID=54144960

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810503225.7A Active CN108600935B (zh) 2014-03-19 2015-03-19 音频信号处理方法和设备
CN201580014818.1A Active CN106105269B (zh) 2014-03-19 2015-03-19 音频信号处理方法和设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580014818.1A Active CN106105269B (zh) 2014-03-19 2015-03-19 音频信号处理方法和设备

Country Status (5)

Country Link
US (6) US9832585B2 (zh)
EP (2) EP4294055A1 (zh)
KR (2) KR102149216B1 (zh)
CN (2) CN108600935B (zh)
WO (1) WO2015142073A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI830989B (zh) * 2020-03-13 2024-02-01 弗勞恩霍夫爾協會 使用有效的中間繞射路徑來渲染一音訊場景的設備及方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015041477A1 (ko) 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US10204630B2 (en) * 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
BR112016014892B1 (pt) 2013-12-23 2022-05-03 Gcoa Co., Ltd. Método e aparelho para processamento de sinal de áudio
EP4294055A1 (en) 2014-03-19 2023-12-20 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
CN108966111B (zh) 2014-04-02 2021-10-26 韦勒斯标准与技术协会公司 音频信号处理方法和装置
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
JP2018101452A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造
CN110603821A (zh) 2017-05-04 2019-12-20 杜比国际公司 渲染具有表观大小的音频对象
CN107039043B (zh) * 2017-06-08 2018-08-03 腾讯科技(深圳)有限公司 信号处理的方法及装置、多人会话的方法及系统
WO2019031652A1 (ko) * 2017-08-10 2019-02-14 엘지전자 주식회사 3차원 오디오 재생 방법 및 재생 장치
EP3704875B1 (en) 2017-10-30 2023-05-31 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
WO2019116890A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、並びにプログラム
US10872602B2 (en) 2018-05-24 2020-12-22 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems
US11272310B2 (en) * 2018-08-29 2022-03-08 Dolby Laboratories Licensing Corporation Scalable binaural audio stream generation
WO2020080099A1 (ja) * 2018-10-16 2020-04-23 ソニー株式会社 信号処理装置および方法、並びにプログラム
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
CN113808569B (zh) * 2021-11-19 2022-04-19 科大讯飞(苏州)科技有限公司 一种混响构建方法及其相关设备
CN116709159B (zh) * 2022-09-30 2024-05-14 荣耀终端有限公司 音频处理方法及终端设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
CN1277532A (zh) * 1999-06-10 2000-12-20 三星电子株式会社 多声道音频重放装置和方法
WO2007083958A1 (en) * 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for decoding a signal
CN101933344A (zh) * 2007-10-09 2010-12-29 荷兰皇家飞利浦电子公司 用于产生双声道音频信号的方法及装置
CN102165798A (zh) * 2008-09-25 2011-08-24 杜比实验室特许公司 用于单声道相容性和外放扬声器相容性的双耳滤波器
US20110286614A1 (en) * 2010-05-18 2011-11-24 Harman Becker Automotive Systems Gmbh Individualization of sound signals
CN102915738A (zh) * 2011-08-03 2013-02-06 三星电子株式会社 用于对多声道音频信号进行缩混的方法和设备
CN103329576A (zh) * 2011-01-05 2013-09-25 皇家飞利浦电子股份有限公司 音频系统及其操作方法
WO2014036121A1 (en) * 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
CN103634733A (zh) * 2008-07-31 2014-03-12 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5329587A (en) 1993-03-12 1994-07-12 At&T Bell Laboratories Low-delay subband adaptive filter
DE4328620C1 (de) 1993-08-26 1995-01-19 Akg Akustische Kino Geraete Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
WO1995034883A1 (fr) 1994-06-15 1995-12-21 Sony Corporation Processeur de signaux et dispositif de reproduction sonore
JP2985675B2 (ja) 1994-09-01 1999-12-06 日本電気株式会社 帯域分割適応フィルタによる未知システム同定の方法及び装置
JPH0879879A (ja) * 1994-09-08 1996-03-22 Victor Co Of Japan Ltd オーディオ信号処理装置
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
KR20010030608A (ko) 1997-09-16 2001-04-16 레이크 테크놀로지 리미티드 청취자 주변의 음원의 공간화를 향상시키기 위한 스테레오헤드폰 디바이스에서의 필터링 효과의 이용
FI118247B (fi) * 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US7680289B2 (en) 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
US7949141B2 (en) 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
KR100634506B1 (ko) 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7715575B1 (en) 2005-02-28 2010-05-11 Texas Instruments Incorporated Room impulse response
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
EP1740016B1 (en) 2005-06-28 2010-02-24 AKG Acoustics GmbH Method for the simulation of a room impression and/or sound impression
KR101370365B1 (ko) 2005-09-13 2014-03-05 코닌클리케 필립스 엔.브이. 3d 사운드를 발생시키기 위한 방법 및 디바이스
EP1927264B1 (en) 2005-09-13 2016-07-20 Koninklijke Philips N.V. Method of and device for generating and processing parameters representing hrtfs
CA2621175C (en) 2005-09-13 2015-12-22 Srs Labs, Inc. Systems and methods for audio processing
JP5587551B2 (ja) 2005-09-13 2014-09-10 コーニンクレッカ フィリップス エヌ ヴェ オーディオ符号化
US8443026B2 (en) 2005-09-16 2013-05-14 Dolby International Ab Partially complex modulated filter bank
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
EP1943642A4 (en) * 2005-09-27 2009-07-01 Lg Electronics Inc METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL
WO2007049643A1 (ja) 2005-10-26 2007-05-03 Nec Corporation エコー抑圧方法及び装置
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN101390443B (zh) 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
KR100754220B1 (ko) 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
EP1994796A1 (en) 2006-03-15 2008-11-26 Dolby Laboratories Licensing Corporation Binaural rendering using subband filters
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
US8374365B2 (en) 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
AR061807A1 (es) 2006-07-04 2008-09-24 Coding Tech Ab Compresor de filtro y metodo para fabricar respuestas al impulso de filtro de subbanda comprimida
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
US9496850B2 (en) 2006-08-04 2016-11-15 Creative Technology Ltd Alias-free subband processing
EP4325723A3 (en) 2006-10-25 2024-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating time-domain audio samples
CA2670864C (en) * 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5941610B2 (ja) * 2006-12-27 2016-06-29 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute トランスコーディング装置
KR20080076691A (ko) 2007-02-14 2008-08-20 엘지전자 주식회사 멀티채널 오디오신호 복호화방법 및 그 장치, 부호화방법및 그 장치
KR100955328B1 (ko) 2007-05-04 2010-04-29 한국전자통신연구원 반사음 재생을 위한 입체 음장 재생 장치 및 그 방법
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
KR100899836B1 (ko) 2007-08-24 2009-05-27 광주과학기술원 실내 충격응답 모델링 방법 및 장치
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
KR100971700B1 (ko) 2007-11-07 2010-07-22 한국전자통신연구원 공간큐 기반의 바이노럴 스테레오 합성 장치 및 그 방법과,그를 이용한 바이노럴 스테레오 복호화 장치
US8125885B2 (en) 2008-07-11 2012-02-28 Texas Instruments Incorporated Frequency offset estimation in orthogonal frequency division multiple access wireless networks
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
KR20100062784A (ko) 2008-12-02 2010-06-10 한국전자통신연구원 객체 기반 오디오 컨텐츠 생성/재생 장치
US8660281B2 (en) 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
US8718285B2 (en) * 2009-03-26 2014-05-06 Panasonic Corporation Decoding device, coding and decoding device, and decoding method
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
KR20120006060A (ko) 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
JP4893789B2 (ja) 2009-08-10 2012-03-07 ヤマハ株式会社 音場制御装置
US9432790B2 (en) 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
EP2365630B1 (en) 2010-03-02 2016-06-08 Harman Becker Automotive Systems GmbH Efficient sub-band adaptive fir-filtering
CA2792452C (en) 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
KR101844511B1 (ko) 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8693677B2 (en) 2010-04-27 2014-04-08 Freescale Semiconductor, Inc. Techniques for updating filter coefficients of an adaptive filter
KR20120013884A (ko) 2010-08-06 2012-02-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 신호 처리 시스템
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
CA3220202A1 (en) 2010-09-16 2012-03-22 Dolby International Ab Cross product enhanced subband block based harmonic transposition
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
EP2464145A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a downmixer
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
EP2503800B1 (en) 2011-03-24 2018-09-19 Harman Becker Automotive Systems GmbH Spatially constant surround sound
JP5704397B2 (ja) 2011-03-31 2015-04-22 ソニー株式会社 符号化装置および方法、並びにプログラム
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
EP2530840B1 (en) 2011-05-30 2014-09-03 Harman Becker Automotive Systems GmbH Efficient sub-band adaptive FIR-filtering
TWI575962B (zh) * 2012-02-24 2017-03-21 杜比國際公司 部份複數處理之重疊濾波器組中的低延遲實數至複數轉換
CN104604255B (zh) * 2012-08-31 2016-11-09 杜比实验室特许公司 基于对象的音频的虚拟渲染
WO2014111765A1 (en) * 2013-01-15 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
WO2014111829A1 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
WO2014145893A2 (en) * 2013-03-15 2014-09-18 Beats Electronics, Llc Impulse response approximation methods and related systems
US9674632B2 (en) 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015041477A1 (ko) 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
BR112016014892B1 (pt) 2013-12-23 2022-05-03 Gcoa Co., Ltd. Método e aparelho para processamento de sinal de áudio
EP4294055A1 (en) 2014-03-19 2023-12-20 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
CN108966111B (zh) 2014-04-02 2021-10-26 韦勒斯标准与技术协会公司 音频信号处理方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
CN1277532A (zh) * 1999-06-10 2000-12-20 三星电子株式会社 多声道音频重放装置和方法
WO2007083958A1 (en) * 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for decoding a signal
CN101933344A (zh) * 2007-10-09 2010-12-29 荷兰皇家飞利浦电子公司 用于产生双声道音频信号的方法及装置
CN103634733A (zh) * 2008-07-31 2014-03-12 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成
CN102165798A (zh) * 2008-09-25 2011-08-24 杜比实验室特许公司 用于单声道相容性和外放扬声器相容性的双耳滤波器
US20110286614A1 (en) * 2010-05-18 2011-11-24 Harman Becker Automotive Systems Gmbh Individualization of sound signals
CN103329576A (zh) * 2011-01-05 2013-09-25 皇家飞利浦电子股份有限公司 音频系统及其操作方法
CN102915738A (zh) * 2011-08-03 2013-02-06 三星电子株式会社 用于对多声道音频信号进行缩混的方法和设备
WO2014036121A1 (en) * 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI830989B (zh) * 2020-03-13 2024-02-01 弗勞恩霍夫爾協會 使用有效的中間繞射路徑來渲染一音訊場景的設備及方法

Also Published As

Publication number Publication date
US20170019746A1 (en) 2017-01-19
EP3122073A4 (en) 2017-10-18
US20200374644A1 (en) 2020-11-26
EP4294055A1 (en) 2023-12-20
CN108600935B (zh) 2020-11-03
WO2015142073A1 (ko) 2015-09-24
US10070241B2 (en) 2018-09-04
US10771910B2 (en) 2020-09-08
KR101782917B1 (ko) 2017-09-28
US20180048975A1 (en) 2018-02-15
CN106105269A (zh) 2016-11-09
US20190253822A1 (en) 2019-08-15
KR20170110739A (ko) 2017-10-11
KR102149216B1 (ko) 2020-08-28
US20210195356A1 (en) 2021-06-24
US20180359587A1 (en) 2018-12-13
US10321254B2 (en) 2019-06-11
US9832585B2 (en) 2017-11-28
EP3122073A1 (en) 2017-01-25
US11343630B2 (en) 2022-05-24
EP3122073B1 (en) 2023-12-20
US10999689B2 (en) 2021-05-04
KR20160124139A (ko) 2016-10-26
CN106105269B (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN106105269B (zh) 音频信号处理方法和设备
CN106165452B (zh) 音频信号处理方法和设备
CN105874819B (zh) 生成用于音频信号的滤波器的方法及其参数化装置
CN106416302B (zh) 生成用于音频信号的滤波器的方法及其参数化装置
CN105706468B (zh) 用于音频信号处理的方法和设备
KR102272099B1 (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210806

Address after: Seoul, South Kerean

Patentee after: WILUS INSTITUTE OF STANDARDS AND TECHNOLOGY Inc.

Patentee after: Gcoa Ltd.

Address before: Seoul, South Kerean

Patentee before: WILUS INSTITUTE OF STANDARDS AND TECHNOLOGY Inc.

TR01 Transfer of patent right