CN102132340B - 参数立体声转换系统和方法 - Google Patents

参数立体声转换系统和方法 Download PDF

Info

Publication number
CN102132340B
CN102132340B CN200980131721.3A CN200980131721A CN102132340B CN 102132340 B CN102132340 B CN 102132340B CN 200980131721 A CN200980131721 A CN 200980131721A CN 102132340 B CN102132340 B CN 102132340B
Authority
CN
China
Prior art keywords
data
phase
channel
frequency domain
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980131721.3A
Other languages
English (en)
Other versions
CN102132340A (zh
Inventor
J·汤普森
R·瑞姆斯
A·沃纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of CN102132340A publication Critical patent/CN102132340A/zh
Application granted granted Critical
Publication of CN102132340B publication Critical patent/CN102132340B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及参数立体声转换系统和方法。提供一种用于从相位调制立体声数据产生参数立体声数据的系统。相位差系统接收左声道数据和右声道数据并确定左声道数据和右声道数据之间的相位差。相位差加权系统接收相位差数据并产生加权数据以基于相位差数据调整左声道振幅数据和右声道振幅数据。幅值变更系统通过使用加权数据调整左声道振幅数据和右声道振幅数据以消除左声道数据和右声道数据中的相位数据。

Description

参数立体声转换系统和方法
相关申请
本申请要求在2007年8月17日提交的发明名称为“ParametricStereo Conversion System and Method”的美国临时申请60/965,227作为优先权,在此出于所有的目的加入其作为参考。
技术领域
本发明涉及音频编码器的领域,并且更特别地,涉及用于在不产生可在忽略相位数据时出现的音频伪信号或其它噪声的情况下,调节具有幅值和相位数据的多声道音频数据以对于幅值数据补偿相位数据的变化,以允许仅对于各声道传送幅值数据的系统和方法。
背景技术
在现有技术中,从包含相位和幅值数据的音频信号消除相位数据的多声道音频编码技术是已知的。这些技术包括使用用于模拟一般会包含相位信息的立体声的左声道信号和右声道信号之间的幅值的差值的参数立体声。虽然这种参数立体声不允许收听者体验如果在信号中还包含相位数据会被体验的具有全场深的立体声,但它确实提供一些在简单的单耳声音上提高声音质量的场深(诸如在各声道的振幅相同的情况下)。
从包含幅值和相位数据的多声道音频数据转换到仅包含幅值数据的多声道音频数据的一个问题是对相位数据的适当处理。如果简单地删除相位数据,那么将产生导致收听者不满意得到的只有幅值数据的音频伪信号。诸如高级音频编码(Advanced Audio Coding,AAC)系统的一些系统利用被接收器使用的旁带信息来补偿相位数据的消除,但是这些系统要求用户具有可处理旁带数据的特定接收器,并且还存在当在旁带数据中引入噪声信号时会出现的产生不令人满意的音频伪信号的问题。另外,当使用低位速率传送过程时,尝试对于高频率相位变动传送旁带数据可产生音频伪信号。
发明内容
根据本发明,提供用于处理多声道音频信号以对于幅值数据补偿相位数据的系统和方法,所述系统和方法通过将具有相位和幅值数据的音频数据转换成仅具有幅值数据的音频数据,克服了已知的问题。
特别地,提供不再需要旁带数据并提供对于可在转换处理中出现的音频伪信号补偿的、用于处理多声道音频信号以对于幅值数据补偿相位数据的系统和方法。
根据本发明的示例性实施例,提供一种用于从相位调制立体声数据产生参数立体声数据的系统。相位差系统接收左声道数据和右声道数据并确定左声道数据和右声道数据之间的相位差。相位差加权系统接收相位差数据并产生加权数据以基于相位差数据调整左声道振幅数据和右声道振幅数据。幅值变更系统通过使用加权数据调整左声道振幅数据和右声道振幅数据以消除左声道数据和右声道数据中的相位数据。
本发明提供许多重要的技术优点。本发明的一种重要的技术优点是,用于处理多声道音频信号以对于幅值数据补偿相位数据的系统和方法,所述方法和系统基于相位数据的变动使幅值数据平滑化,以避免产生当低位速率幅值数据被调整以包含高频率相位变动时会出现的音频伪信号。
结合附图阅读以下的详细描述,本领域技术人员将进一步理解本发明的优点和优越的特征及其其它重要的方面。
附图说明
图1是根据本发明的示例性实施例的用于将具有相位和幅值数据的多声道音频数据转换成仅具有幅值数据的多声道音频数据,诸如参数立体声的系统的示图;
图2是根据本发明的示例性实施例的相位差加权因子的示图;
图3是根据本发明的示例性实施例的相干空间调节系统的示图;
图4是根据本发明的示例性实施例的参数编码的方法的示图;
图5是根据本发明的示例性实施例的用于动态相位趋势校正的系统的示图;
图6是根据本发明的示例性实施例的用于执行谱平滑化的系统的示图;
图7是根据本发明的示例性实施例的用于功率补偿的强度再摇动(intensity re-panning)的系统的示图。
具体实施方式
在以下的描述中,在说明书和附图中,类似的部分由相同的附图标记表示。为了简明起见,附图没有按比例绘制并且某些部件可能以一般化或示意性的形式表示并且通过商业名称被识别。
图1是根据本发明的示例性实施例的用于将具有相位和幅值数据的多声道音频数据转换成仅具有幅值数据的多声道音频数据,诸如参数立体声的系统100的示图。系统100识别左右声道声音数据的相位差并将相位差转换成幅值差,以产生仅具有强度或幅值数据的立体声图像数据。类似地,在适当的情况下,也可以或者替代性地使用附加的声道。
系统100在时间频率转换系统102上接收时域右声道音频数据,并在时间频率转换系统104上接收时域左声道音频数据。在一个示例性实施例中,系统100可以以硬件、软件或硬件和软件的适当组合实现,并且可以是在数字系统处理器、通用处理平台或其它适当的平台上操作的一个或多个软件系统。如这里使用的那样,硬件系统可包含离散部件的组合、集成电路、专用集成电路、现场可编程门阵列或其它适当的硬件。软件系统可包含一个或多个对象、代理程序、线程、代码行、子程序、单独的软件应用、在两个或更多个软件应用中或在两个或更多个处理器上操作的两个或更多个代码行或其它适当的软件结构、或其它适当的软件结构。在一个示例性实施例中,软件系统可包含在通用的软件应用诸如操作系统中操作的一个或多个代码行或其它适当的软件结构,和在特定用途软件应用中操作的一个或多个代码行或其它适当的软件结构。
时间频率转换系统102和时间频率转换系统104分别将右和左声道时域音频数据转变成频域数据。在一个示例性实施例中,频域数据可包含对于诸如30毫秒的适当的时间周期,在诸如频率数据的1024个分区(bin)的采样周期上捕获的频率数据帧。频率数据的分区可在诸如20kHz的预定的频率范围上均匀分开,可集中于诸如Bark、均等矩形带宽(ERB)的预定的频带上,或者可以以其它的方式适当地分布。
时间频率转换系统102和时间频率转换系统104与相位差系统106耦合。如这里使用的那样,术语“被耦合”及其诸如“耦合”或“耦合到”的同根术语可包含物理连接(诸如导线、光纤或电信介质)、虚拟连接(诸如通过数据存储设备或超文本传输协议(HTTP)链接的随机分配的存储位置)、逻辑连接(诸如通过集成电路中的一个或多个半导体器件)或其它适当的连接。在一个示例性实施例中,通信介质可以为网络或其它适当的通信介质。
相位差系统106确定由时间频率转换系统102和时间频率转换系统104产生的频率数据帧中的频率区(frequency bin)之间的相位差。这些相位差表示一般会由收听者觉察并且可提高信号的立体声质量的相位数据。
相位差系统106与包含N-2帧缓冲器110、N-1帧缓冲器112和N帧缓冲器114的缓冲器系统108耦合。在一个示例性实施例中,缓冲器系统108可包含适当数量的帧缓冲器,以存储来自希望数量的帧的相位差数据。N-2帧缓冲器110对于由时间频率转换系统102和时间频率转换系统104转换的数据的第二先前帧存储从相位差系统106接收的相位差数据。类似地,N-1帧缓冲器112对于来自相位差系统106的相位差数据的先前帧存储相位差数据。N帧缓冲器114对于由相位差系统106产生的相位差的当前帧存储当前的相位差数据。
相位差系统116与N-2帧缓冲器110和N-1帧缓冲器112耦合,并且确定存储于这些缓冲器中的两组相位差数据之间的相位差。类似地,相位差系统118与N-1帧缓冲器112和N帧缓冲器114耦合,并且确定存储于这些缓冲器中的两组相位差数据之间的相位差。类似地,可以使用另外的相位差系统产生存储于缓冲器系统108中的适当数量的帧的相位差。
相位差系统120与相位差系统116和相位差系统118耦合,并且从各系统接收相位差数据,并且确定总相位差。在该示例性实施例中,确定频率数据的三个连续帧的相位差,以识别具有大相位差的频率区和具有较小相位差的频率区。也可以或替代性地使用另外的相位差系统,以确定相位差数据的预定数量的帧的总相位差。
相位差缓冲器122对于先前的三个帧的组存储来自相位差系统120的相位差数据。类似地,如果缓冲器系统108包含多于三个的帧差,那么相位差缓冲器122可存储另外的相位差数据。相位差缓冲器122还可以或者替代性地对于另外的先前的各组的相位差数据,诸如对于从帧(N-4、N-3、N-2)产生的组、从帧(N-3、N-2、N-1)产生的组、从帧(N-2、N-1、N)产生的组、从帧(N-1、N、N+1)产生的组或其他适当的相位差数据的组,存储相位差数据。
相位差加权系统124接收来自相位差缓冲器122的缓冲相位差数据和来自相位差系统120的当前相位差数据,并且应用相位差加权因子。在一个示例性实施例中,与表现一致的相位差的频率区相比,给予表现高的相位差程度的频率区更小的加权因子。以这种方式,可以使用频率差数据将幅值数据平滑化,以消除从在连续的帧之间表现高的相位差程度的频率区的变化,并对于在连续的帧之间表现较低的相位差的频率区提供强调。特别是在处理或产生低位速率音频数据的情况下,这种平滑化可有助于减少或消除可能由从具有相位和幅值数据的音频数据向仅具有幅值数据的音频数据(诸如参数立体声数据)的转换引入的音频伪信号。
幅值变更系统126从相位差加权系统124接收相位差加权因子数据,并且将幅值变更数据提供给从时间频率转换系统102和时间频率转换系统104转换的右声道和左声道数据。以这种方式,变更右声道和左声道音频的当前帧频率数据,以调整幅值校正相位差,从而允许在被用于产生立体声的左右幅值之间摇动(panning)。以这种方式,右声道和左声道之间的相位差被平滑化并被转换为振幅变更数据,以在不需要传输相位数据的情况下仅通过振幅模拟立体声或其它的多声道声音。类似地,可以使用缓冲系统缓冲被变更的频率数据的当前帧,以利用来自频率数据的(N-1、N、N+1)的组或数据的其它适当的组的数据。幅值变更系统126还可对于预定的频率区、多组频率区或者以其它适当的方式压缩或展开两个或更多个声道之间的幅值的差值,以使向收听者的表观段宽度(apparent stage width)变窄或变宽。
频率时间转换系统128和频率时间转换系统130从幅值变更系统126接收变更的幅值数据,并将频率数据转换成时间信号。以这种方式,分别由频率时间转换系统128和频率时间转换系统130产生的左声道和右声道数据处于同相位但是幅值变化,以仅通过使用强度模拟立体声数据,使得不需要存储、传送或以其它的方式处理相位数据。
在操作中,系统100处理包含相位和幅值数据的多声道音频数据,并产生仅具有幅值数据的多声道音频数据,以减少产生立体声或其它的多声道音频数据所需要传送的数据的量。通过以降低来自高频率相位变化的效果的方式,对于幅值数据补偿频率数据的变化,系统100消除当包含相位和幅值数据的音频数据被转换为仅包含幅值数据的音频数据时可产生的音频伪信号。以这种方式,消除当可用于传送音频数据的位速率比精确代表高频率相位数据所需要的位速率低时会另外引入的音频伪信号。
图2是根据本发明的示例性实施例的相位差加权因子200A和200B的示图。相位差加权因子200A和200B表示作为相位变动的函数向振幅数据施加的示例性的归一化的加权因子。在一个示例性实施例中,与表示较小程度的相位变动的频率区相比,用较低的归一化的加权因子加权表示高的相位变动程度的频率区,以平滑掉会导致参数立体声数据或其它的多声道数据不适当地表现立体声的可能的噪声或其它的音频伪信号。在一个示例性实施例中,可通过相位差加权系统124或其它适当的系统施加相位差加权因子200A和200B。可以变更加权的量,以适应期望的降低的音频数据的位速率。例如,当需要高的数据减少程度时,给予表现高的相位变动程度的频率区的加权可诸如以在相位差加权因子200A中表示的渐近的方式大大减小,并且当需要较低的数据减少程度时,诸如通过使用相位差加权因子200B,给予表现高的相位变动程度的频率区的加权可以不明显地减小。
图3是根据本发明的示例性实施例的相干空间调节系统300的示图。相干空间调节系统300可以以硬件、软件或硬件和软件的适当组合实现,并且可以是一个或多个离散的器件、在通用处理平台上操作的一个或多个系统或其它适当的系统。
相干空间调节系统300提供空间调节系统的示例性实施例,但是也可以或者替代性使用用于实现空间调节算法的其它适当的构架、系统、过程或基础结构。
相干空间调节系统300变更多声道音频信号的空间方面(即,系统300示出立体声调节系统),以减小音频压缩过程中的伪信号。首先通过减法器302差分立体声输入谱的相位谱以产生差值相位谱。通过乘法器304通过加权因子Y(K)=B1X(K)+B2X(K-1)-A1Y(K-1)加权差值相位谱,其中:
Y(K)=平滑化的频率区K幅值
Y(K-1)=平滑化的频率区K-1幅值
X(K)=频率区K幅值
X(K-1)=频率区K-1幅值
B1=加权因子
B2=加权因子
A1=加权因子;并且
B1+B2+A1=1
可基于观察、系统设计或其它适当的因素确定加权因子B1、B2和A1。在一个示例性实施例中,对于所有的频率区固定加权因子B1、B2和A1。类似地,可基于bark或其它适当的频率区分组变更加权因子B1、B2和A1
加权后的差值相位信号然后除以2,通过减法器308从输入相位谱0被减,并且通过加法器306与输入相位谱1相加。减法器308和加法器306的输出分别是输出调节相位谱0和1。
在操作中,相干空间调节系统300具有诸如用于参数立体声中的产生单相位谱带的效果。
图4是根据本发明的示例性实施例的参数编码的方法400的示图。方法400在402中开始,在402中,音频数据的N个声道被转换到频域。在一个示例性实施例中,诸如通过使用傅立叶变换或其它适当的变换,左右声道立体声数据可分别在预定的周期上被转换为频域数据帧。方法然后前进到404。
在404中,确定声道之间的相位差。在一个示例性实施例中,可比较左右声道音频数据的频率区,以确定左右声道之间的相位差。方法然后前进到406。
在406中,多个帧的相位差数据被存储于缓冲器中。在一个示例性实施例中,缓冲器系统可包含预定数量的用于存储相位差数据的缓冲器,可动态分配缓冲器,或者可以使用其它适当的过程。方法然后前进到408。
在408中,确定是否数据的M帧已被存储于缓冲器中。在一个示例性实施例中,M可等于3或任何其它适当的整数,以允许在希望数量的帧之间执行平滑化。如果在408中确定还未存储数据的M帧,那么方法返回402,否则,方法前进到410。
在410中,确定M-1帧和M帧之间的相位差。例如,如果M等于3,那么确定数据的第二帧和第三帧之间的相位差。方法然后前进到412,在412中,缓冲相位差数据。在一个示例性实施例中,可以硬件或软件产生预定数量的缓冲器,缓冲器系统可动态分配缓冲器数据存储区域,或者可以使用其它适当的过程。方法然后前进到414,在414中,M减1。方法然后前进到416,在416中,确定M是否等于0。例如,当M等于0时,那么已经处理数据的所有缓冲的帧。如果确定M不等于0,那么方法返回402。否则,方法前进到418。
在418中,确定缓冲的帧相位差值数据之间的相位差。例如,如果已经存储两个帧的相位差数据,那么确定这两个帧之间的差值。类似地,可以使用相位差数据的三个、四个或其它适当数量的帧之间的差值。方法然后前进到420,在420中,缓冲多帧差值数据。方法然后前进到422。
在422中,确定是否已存储预定数量的多帧缓冲值。如果确定还没有存储预定数量的多帧缓冲值,那么方法返回402。否则,方法前进到424。
在424中,产生用于先前和当前多帧缓冲器的相位差数据。例如,在存在两个多帧缓冲数据值的情况下,确定两个多帧缓冲器之间的相位差。类似地,在N大于2的情况下,也可确定当前和先前多帧缓冲器之间的相位差。方法然后前进到426。
在426中,基于相位差数据向频率数据的当前、先前或其它适当帧中的各频率区施加加权因子。例如,加权因子可向表现小的相位变动的频率区的幅值施加较高的权重,并且可将表现高的变动的频率区去强调,以减少音频伪信号、噪声或表现如果舍弃或者以其它的方式不考虑相位数据可在参数立体声数据中产生音频伪信号的相位数据的其它信息。可基于音频数据传送位速率的预定的减小选择加权因子,并且也可以或者替代性地基于频率区或频率区的多个分组改变这些加权因子。方法然后前进到428。
在428中,左右声道数据的加权后的频率数据从频率被转换到时域。在一个示例性实施例中,可基于音频数据的在前组的帧,对音频数据的当前组的帧执行平滑化处理。在另一示例性实施例中,可基于音频数据的在前的和后续的组的帧,对音频数据的先前的组的帧执行平滑化处理。类似地,也可以或者替代性地使用其它适当的处理。以这种方式,音频数据的声道表现已去除相位数据但相位数据已被转换为幅值数据的参数多声道质量,以在不需要存储或传送相位数据的情况下,并且在不产生可在声道之间的相位变动的频率超过可被可用的传送声道带宽容纳的频率时导致的音频伪信号的情况下,模拟多声道声音。
在操作中,方法400允许产生参数立体声或其它的多声道数据。方法400去除立体声或其它的多声道数据之间的频率差,并且将这些频率变动转换成幅值变动,以在不需要传送或以其它的方式处理左和右或其它多个声道之间的相位关系的情况下保留立体声或其它多声道声音的各方面。以这种方式,可以使用现有的接收器,以在不需要接收器补偿消除相位数据所需要的旁带数据或其它数据的情况下产生相位补偿的多声道音频数据。
图5是根据本发明的示例性实施例的用于动态相位趋势校正的系统500的示图。系统500可以以硬件、软件或硬件和软件的适当组合实现,并且可以是在通用处理平台上操作的一个或多个软件系统。
系统500包含可提供从立体声源产生或接收的左右声道时间信号的左时间信号系统502和右时间信号系统504或其它适当的系统。短时间傅立叶变换系统506和508分别与左时间信号系统502和右时间信号系统504耦合,并且执行时间信号的时间到频率域变换。也可以或者替代性地使用其它的变换,诸如傅立叶变换、离散余弦变换或其它适当的变换。
分别向三帧延迟系统510和520提供来自短时间傅立叶变换系统506和508的输出。分别向幅值系统512和518提供短时间傅立叶变换系统506和508的幅值输出。分别向相位系统514和516提供短时间傅立叶变换系统506和508的相位输出。可通过幅值系统512和518以及相位系统514和516执行附加的处理,或者这些系统可提供各未处理的信号或数据。
临界频带滤波器组522和524分别从幅值系统512和518接收幅值数据,并且滤波频率数据的预定的频带。在一个示例性实施例中,临界滤波器组522和524可基于心理声学滤波器(psycho-acousticfilter)将线性分开的频率区分组成非线性的频率区分组,所述心理声学滤波器基于频率区的知觉能量和诸如Bark频率级的人听觉响应,将频率区分组。在一个示例性实施例中,Bark频率级的范围可以为与人听觉的前24个临界频带对应的1~24个Bark。以赫兹为单位给予示例性的Bark频带边缘为0、100、200、300、400、510、630、770、920、1080、1270、1480、1720、2000、2320、2700、3150、3700、4400、5300、6400、7700、9500、12000、15500。以赫兹为单位的示例性的频带中心为50、150、250、350、450、570、700、840、1000、1170、1370、1600、1850、2150、2500、2900、3400、4000、4800、5800、7000、8500、10500、13500。
在该示例性实施例中,Bark频率级仅限定到15.5kHz。因而,该示例性Bark级的最高采样速率是Nyquist极限或31kHz。可以利用在19kHz上延伸的第25个示例性Bark频带(第24个Bark频带边缘和第23个临界带宽的和),使得可以使用40kHz的采样速率。类似地,诸如通过附加值20500和27000使得可以使用直到54kHz的采样速率,可以利用附加的Bark频带边缘。虽然人听觉一般不在20kHz上延伸,但是实际上比40kHz高的音频采样速率是常用的。
时间平滑化系统526从临界频带滤波器组522和524接收滤波的幅值数据,并从相位系统514和516接收相位数据,并且执行数据的时间平滑化。在一个示例性实施例中,诸如通过施加以下的算法或者以其它适当的方式,可以确定左右声道之间的相位增量:
P[m,k]=∠Xl[m,k]-∠Xr[m,k]
其中:
P=左右声道之间的相位差;
Xl=左立体声输入信号
Xr=右立体声输入信号
m=当前帧;和
k=频率区指数。
然后,诸如通过施加以下的算法或者以其它适当的方式,可以确定增量平滑化系数:
δ [ m , k ] = ( | ( P [ m + 1 , k ] - P [ m , k ] ) - ( P [ m , k ] - P [ m - 1 , k ] ) | 2 · π ) x
其中:
δ=平滑化系数;
x=控制平滑化偏置的参数(一般为1,可比1大以放大摇动,以及可以比1小以减小摇动);
P=左右声道之间的相位差;
m=当前帧;
k=频率区指数。
然后,诸如通过施加以下的算法或者以其它适当的方式,可以确定谱显性(dominance)平滑化系数:
D [ m , b ] = ( C l [ m , b ] 1 N Σ b = 0 N C l [ m , b ] ) · ( C r [ m , b ] 1 N Σ b = 0 N C r [ m , b ] )
其中:
D=平滑化系数;
C=临界频带能量(滤波器组的输出);
N=知觉频带(滤波器组的频带数量);
m=当前帧;和
b=频率带。
然后,诸如通过施加以下的算法或者以其它适当的方式,可以平滑化相位增量信号:
P[m,k]=D[m,k]·δ[m,k]·(P[m,k]-P[m-1,k])
其中:
δ=平滑化系数;
D=重新映射为线性等同频率的谱显性权重;和
P=左右声道之间的相位差。
谱平滑化系统528从时间平滑化系统接收输出,并且执行输出的谱平滑化,以诸如减少可产生不希望的音频伪信号的谱变动。
相位响应滤波器系统530接收谱平滑化系统528以及时间延迟系统510和520的输出,并且执行相位响应滤波。在一个示例性实施例中,诸如通过施加以下的算法或者以其它适当的方式,相位响应滤波器系统530可计算相位偏移系数:
Y l ( e jω ) = cos ( - 1 2 ∠ X ( e jω ) ) + j · sin ( - 1 2 ∠ X ( e jω ) )
Y r ( e jω ) = cos ( 1 2 ∠ X ( e jω ) ) + j · sin ( 1 2 ∠ X ( e jω ) )
其中:
Yl=左声道复滤波器系数;
Yr=右声道复滤波器系数;和
X=输入相位信号。
然后,诸如通过施加以下的算法或者以其它适当的方式,可滤波输入信号:
Hl(e)=Xl(e)·Yl(e)
Hr(e)=Xr(e)·Yr(e)
其中:
Yl=左复系数;
Yr=右复系数;
Xl=左立体声输入信号;
Xr=右立体声输入信号;
Hl=左相位偏移结果;和
Hr=右相位偏移结果。
逆短时间傅立叶变换系统532和534分别从相位响应滤波器系统530接收左右相位偏移数据,并且对数据执行逆短时间傅立叶变换。也可以或者替代性地使用其它的变换,诸如逆傅立叶变换、逆离散余弦变换或其它适当的变换。
左时间信号系统536和右时间信号系统538在低位速率声道上提供诸如用于传送的立体声信号的左右声道信号。在一个示例性实施例中,可以使用由左时间信号系统536和右时间信号系统538提供的处理后的信号,通过消除会以其它的方式产生不希望的音频伪信号的音频分量,以低位速率提供具有更高的音频质量的立体声声音数据。
图6是根据本发明的示例性实施例的用于执行谱平滑化的系统600的示图。系统600可以以硬件、软件或硬件和软件的适当组合实现,并且可以是在通用处理平台上操作的一个或多个软件系统。
系统600包含可诸如从时间平滑化系统502或其它适当的系统接收处理后的相位信号的相位信号系统602。余弦系统604和正弦系统606分别产生处理后的相位信号的相位的余弦和正弦值。零相位滤波器608和610分别执行余弦和正弦值的零相位滤波,并且相位估计系统612接收零相位滤波后的余弦和正弦数据,并产生谱平滑信号。
在操作中,系统600接收相位值从II变为-II的相位信号,这可难以使滤波器减少高频率分量。系统600将相位信号转换为正弦和余弦值,以允许使用零相位滤波器减少高频率分量。
图7是根据本发明的示例性实施例的用于功率补偿强度再摇动的系统700的示图。系统700可以以硬件、软件或硬件和软件的适当组合实现,并且可以是在通用处理平台上操作的一个或多个软件系统。
系统700包含可提供从立体声源产生或接收的左右声道时间信号的左时间信号系统702和右时间信号系统704或其它的适当的系统。短时间傅立叶变换系统706和710分别与左时间信号系统702和右时间信号系统704耦合,并执行时间信号的时间到频率域变换。也可以或者替代性地使用其它的变换,诸如傅立叶变换、离散余弦变换或者其它适当的变换。
强度再摇动系统708执行右和左声道变换信号的强度再摇动。在一个示例性实施例中,强度再摇动系统708可施加以下的算法或其它适当的处理:
M l ( e jω ) = ( X l ( e jω ) + X r ( e jω ) ) ( | ( X l ( e jω ) | | ( X l ( e jω ) | + | ( X r ( e jω ) | ) β
M r ( e jω ) = ( X r ( e jω ) + X l ( e jω ) ) ( | ( X r ( e jω ) | | ( X l ( e jω ) | + | ( X r ( e jω ) | ) β
其中:
Ml=左声道强度摇动信号;
Mr=右声道强度摇动信号;
Xl=左立体声输入信号;
Xr=右立体声输入信号;和
β=用于补偿由于去除左右信号之间的相位差导致的觉察的立体声衰减(collapse)的非线性选项(一般为1,可以比1大以增加摇动或者比1小以减小摇动)。
复合信号产生系统712从右和左声道变换信号以及左和右声道强度摇动信号产生复合信号。在一个示例性实施例中,复合信号产生系统712可施加以下的算法或其它适当的处理:
Cl(e)=(Xl(e)·(1-W(e)))+(Ml(e)·W(e))
Cr(e)=(Xr(e)·(1-W(e)))+(Mr(e)·W(e))
其中:
Cl=由频率依赖窗口(W)确定的、包含与强度摇动信号混合的原始信号的左声道复合信号;
Cr=由频率依赖窗口(W)确定的、包含与强度摇动信号混合的原始信号的右声道复合信号;
Xl=左立体声输入信号;
Xr=右立体声输入信号;
Ml=左强度摇动信号;
Mr=右强度摇动信号;
W=在不同的频率上确定混合的频率依赖窗口(跨过频率的变量旁路;如果为0,那么只有比零大的原始信号(例如,0.5)导致原始和强度摇动信号的混合)
功率补偿系统714从右和左声道变换信号以及左和右声道复合信号产生功率补偿信号。在一个示例性实施例中,功率补偿系统714可施加以下的算法或其它适当的处理:
Y l ( e jω ) = C l ( e jω ) ( | X l ( e jω ) | 2 + | X r ( e jω ) | 2 | C l ( e jω ) | 2 + | C r ( e jω ) | 2 )
Y r ( e jω ) = C r ( e jω ) ( | X l ( e jω ) | 2 + | X r ( e jω ) | 2 | C l ( e jω ) | 2 + | C r ( e jω ) | 2 )
其中:
Yl=左声道功率补偿信号;
Yr=右声道功率补偿信号;
Cl=左声道复合信号;
Cr=右声道复合信号;
Xl=左声道立体声输入信号;和
Xr=右声道立体声输入信号。
逆短时间傅立叶变换系统716和718从功率补偿系统714接收功率补偿数据,并对数据执行逆短时间傅立叶变换。也可以或者替代性地使用其它的变换,诸如逆傅立叶变换、逆离散余弦变换或其它适当的变换。
左时间信号系统720和右时间信号系统722在低位速率声道上提供诸如用于传送的立体声信号的左和右声道信号。在一个示例性实施例中,可以使用由左时间信号系统720和右时间信号系统722提供的处理后的信号,通过消除会以其它的方式产生不希望的音频伪信号的音频分量,以低位速率提供具有更高的音频质量的立体声声音数据。
虽然这里详细描述了本发明的系统和方法的示例性实施例,但是本领域技术人员可以理解,在不背离本发明的精神和范围的情况下,可以对于系统和方法提出各种变更方式和变化。

Claims (20)

1.一种用于从相位调制立体声数据产生参数立体声数据的系统,包括:
接收左声道音频数据和右声道音频数据并基于每个频率区的左声道音频数据和右声道音频数据之间的相位差产生多个频率区的相位差数据的相位差系统;
接收相位差数据并产生加权数据以基于相位差数据调整多个频率区中的每一个的左声道振幅数据以及多个频率区中的每一个的右声道振幅数据的相位差加权系统;和
通过使用加权数据调整左声道振幅数据和右声道振幅数据以消除左声道数据和右声道数据中的相位数据的幅值变更系统。
2.根据权利要求1所述的系统,其中,相位差系统接收左声道频域数据和右声道频域数据的多个帧。
3.根据权利要求2所述的系统,还包括存储左声道频域数据和右声道频域数据的两个或更多个相应的帧的相位差数据的缓冲器系统。
4.根据权利要求3所述的系统,还包括第一相位差系统和第二相位差系统,其中第二相位差系统接收左声道频域数据和右声道频域数据的第二和第三相应帧的左声道频域数据和右声道频域数据之间的相位差数据并确定左声道频域数据和右声道频域数据的第二和第三相应帧的相位差数据之间的第二相位差,而第一相位差系统接收左声道频域数据和右声道频域数据的第一和第二相应帧的左声道频域数据和右声道频域数据之间的相位差数据并确定左声道频域数据和右声道频域数据的第一和第二相应帧的相位差数据之间的第一相位差。
5.根据权利要求4所述的系统,其中,相位差加权系统接收左声道频域数据和右声道频域数据的两个或更多个相应的帧,并产生加权数据以基于第一相位差和第二相位差调整左声道振幅数据和右声道振幅数据。
6.根据权利要求5所述的系统,其中,幅值变更系统通过使用加权数据调整左声道频域数据和右声道频域数据的左声道振幅数据和右声道振幅数据以消除左声道频域数据和右声道频域数据中的相位数据。
7.根据权利要求6所述的系统,还包括将振幅调整后的左声道频域数据和振幅调整后的右声道频域数据转换成振幅调整后的左声道时域数据和振幅调整后的右声道时域数据的频域时域转换系统。
8.根据权利要求1所述的系统,其中,相位差系统施加以下的算法:
P[m,k]=∠Xl[m,k]-∠Xr[m,k]
其中:
P=左右声道之间的相位差;
Xl=左立体声输入信号;
Xr=右立体声输入信号;
m=当前帧;和
k=频率区指数。
9.一种用于从相位调制音频数据产生参数音频数据的方法,包括:
确定音频数据的两个或更多个声道中的多个频率区中的每一个之间的相位差;
基于相位差确定向音频数据的每个声道的多个频率区中的每一个施加的加权因子;
用加权因子调整音频数据的每个声道的每个频率区的振幅以消除音频数据的两个或更多个声道的相位数据。
10.根据权利要求9所述的方法,其中,确定音频数据的每个声道的多个频率区中的每一个之间的相位差包含:
将音频数据的两个或更多个声道从时域信号转换成频域数据的多个帧;和
确定频域数据的两个或更多个相应的帧之间的相位差。
11.根据权利要求10所述的方法,其中,基于相位差确定向音频数据的每个声道的多个频率区中的每一个施加的加权因子包含:基于频域数据的两个或更多个相应的帧之间的相位差确定向频域数据的一个或多个帧中的频率区施加的加权因子。
12.根据权利要求11所述的方法,其中,用加权因子调整音频数据的每个声道的每个频率区的振幅包含:用加权因子调整频域数据的一个或多个帧中的各频率区的振幅。
13.根据权利要求9所述的方法,其中,确定相位差包含施加以下的算法:
P[m,k]=∠Xl[m,k]-∠Xr[m,k]
其中:
P=左右声道之间的相位差;
Xl=左立体声输入信号
Xr=右立体声输入信号
m=当前帧;和
k=频率区指数。
14.一种用于从相位调制音频数据产生参数音频数据的系统,包括:
用于接收音频数据的声道并确定音频数据的两个或更多个声道的多个频率区之间的相位差的装置;
用于接收相位差数据并基于相位差数据产生音频数据的一个或多个声道的频率区的加权数据的装置;和
用于通过使用加权数据调整音频数据的一个或多个声道以消除音频数据的一个或多个声道中的相位数据的装置。
15.根据权利要求14所述的系统,其中,用于接收相位差数据的装置接收音频数据的两个或更多个声道的频域数据的多个帧。
16.根据权利要求15所述的系统,还包括:对于音频数据的两个或更多个声道的两个或更多个相应的帧频域数据,用于存储音频数据的两个或更多个声道之间的相位差数据的装置。
17.根据权利要求16所述的系统,还包括:对于音频数据的两个或更多个声道的两个或更多个相应的帧频域数据,用于确定音频数据的两个或更多个声道之间的两组或更多组存储的相位差数据之间的相位差的装置。
18.根据权利要求17所述的系统,还包括:对于音频数据的两个或更多个声道的两个或更多个相应的帧频域数据,用于产生加权数据以基于音频数据的两个或更多个声道之间两组或更多组存储的相位差数据之间的一个或多个相位差,调整音频数据的一个或多个声道的振幅数据的装置。
19.根据权利要求18所述的系统,还包括用于通过使用加权数据对于音频数据的一个或多个声道调整频域数据的一个或多个帧的振幅数据的装置。
20.根据权利要求19所述的系统,还包括用于将加权的频域数据转换到时域的装置。
CN200980131721.3A 2008-08-15 2009-08-14 参数立体声转换系统和方法 Expired - Fee Related CN102132340B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/192,404 US8385556B1 (en) 2007-08-17 2008-08-15 Parametric stereo conversion system and method
US12/192,404 2008-08-15
PCT/US2009/004674 WO2010019265A1 (en) 2008-08-15 2009-08-14 Parametric stereo conversion system and method

Publications (2)

Publication Number Publication Date
CN102132340A CN102132340A (zh) 2011-07-20
CN102132340B true CN102132340B (zh) 2012-10-03

Family

ID=41669154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980131721.3A Expired - Fee Related CN102132340B (zh) 2008-08-15 2009-08-14 参数立体声转换系统和方法

Country Status (9)

Country Link
US (1) US8385556B1 (zh)
EP (1) EP2313884B1 (zh)
JP (1) JP5607626B2 (zh)
KR (1) KR101552750B1 (zh)
CN (1) CN102132340B (zh)
HK (2) HK1150186A1 (zh)
PL (1) PL2313884T3 (zh)
TW (1) TWI501661B (zh)
WO (1) WO2010019265A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2345026A1 (en) * 2008-10-03 2011-07-20 Nokia Corporation Apparatus for binaural audio coding
EP2353160A1 (en) * 2008-10-03 2011-08-10 Nokia Corporation An apparatus
EP2326108B1 (en) * 2009-11-02 2015-06-03 Harman Becker Automotive Systems GmbH Audio system phase equalizion
RU2559899C2 (ru) 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
CN105594227B (zh) 2013-07-30 2018-01-12 Dts(英属维尔京群岛)有限公司 利用恒定功率成对平移的矩阵解码器
PL3444815T3 (pl) 2013-11-27 2020-11-30 Dts, Inc. Matrycowe miksowanie oparte na multiplecie dla wielokanałowego audio o dużej liczbie kanałów
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US10045145B2 (en) * 2015-12-18 2018-08-07 Qualcomm Incorporated Temporal offset estimation
US10491179B2 (en) * 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
CN107799121A (zh) * 2017-10-18 2018-03-13 广州珠江移动多媒体信息有限公司 一种无线广播音频的数字水印嵌入及检出方法
CN108962268B (zh) * 2018-07-26 2020-11-03 广州酷狗计算机科技有限公司 确定单声道的音频的方法和装置
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060029231A1 (en) * 2001-07-10 2006-02-09 Fredrik Henn Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US20070172071A1 (en) * 2006-01-20 2007-07-26 Microsoft Corporation Complex transforms for multi-channel audio
CN101010724A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频编码器
CN101036414A (zh) * 2004-08-31 2007-09-12 Dts公司 用相关输出混合声道的方法
US20080031463A1 (en) * 2004-03-01 2008-02-07 Davis Mark F Multichannel audio coding
US20080126104A1 (en) * 2004-08-25 2008-05-29 Dolby Laboratories Licensing Corporation Multichannel Decorrelation In Spatial Audio Coding

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
ATE315823T1 (de) 2002-02-18 2006-02-15 Koninkl Philips Electronics Nv Parametrische audiocodierung
WO2007109338A1 (en) * 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
US7639823B2 (en) 2004-03-03 2009-12-29 Agere Systems Inc. Audio mixing using magnitude equalization
JP3968450B2 (ja) * 2005-09-30 2007-08-29 ザインエレクトロニクス株式会社 ステレオ変調器およびそれを用いたfmステレオ変調器
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
CN101529504B (zh) * 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060029231A1 (en) * 2001-07-10 2006-02-09 Fredrik Henn Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US20080031463A1 (en) * 2004-03-01 2008-02-07 Davis Mark F Multichannel audio coding
US20080126104A1 (en) * 2004-08-25 2008-05-29 Dolby Laboratories Licensing Corporation Multichannel Decorrelation In Spatial Audio Coding
CN101010724A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频编码器
CN101036414A (zh) * 2004-08-31 2007-09-12 Dts公司 用相关输出混合声道的方法
US20070172071A1 (en) * 2006-01-20 2007-07-26 Microsoft Corporation Complex transforms for multi-channel audio

Also Published As

Publication number Publication date
EP2313884B1 (en) 2014-03-26
JP5607626B2 (ja) 2014-10-15
PL2313884T3 (pl) 2014-08-29
TWI501661B (zh) 2015-09-21
KR20110055651A (ko) 2011-05-25
HK1155549A1 (en) 2012-05-18
US8385556B1 (en) 2013-02-26
JP2012500410A (ja) 2012-01-05
HK1150186A1 (en) 2011-11-04
KR101552750B1 (ko) 2015-09-11
EP2313884A1 (en) 2011-04-27
CN102132340A (zh) 2011-07-20
EP2313884A4 (en) 2012-12-12
TW201016041A (en) 2010-04-16
WO2010019265A1 (en) 2010-02-18

Similar Documents

Publication Publication Date Title
CN102132340B (zh) 参数立体声转换系统和方法
US8971551B2 (en) Virtual bass synthesis using harmonic transposition
KR102154877B1 (ko) 협대역폭 디지털 신호 처리 시스템 및 방법
US6118879A (en) BTSC encoder
CN102947685B (zh) 用于减少环境噪声对收听者的影响的方法和装置
US7818079B2 (en) Equalization based on digital signal processing in downsampled domains
CN102149034A (zh) 声音增强设备及方法
EP2856777B1 (en) Adaptive bass processing system
CN107211209B (zh) 用于减小超声波音频系统中的失真的方法和系统
US20030044024A1 (en) Method and device for processing sound signals
CN102833665A (zh) 音频空间环境引擎
CN101505443A (zh) 一种虚拟重低音增强方法及系统
US20200120439A1 (en) Spectral defect compensation for crosstalk processing of spatial audio signals
US8705764B2 (en) Audio content enhancement using bandwidth extension techniques
EP2720477B1 (en) Virtual bass synthesis using harmonic transposition
CN1988738A (zh) 消除语音信号的装置及其方法
CN110915241B (zh) 子带空间音频增强
JP4906858B2 (ja) 帯域拡張装置及び方法
CN112566008A (zh) 音频上混方法、装置、电子设备和存储介质
US5588089A (en) Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
Väänänen et al. Efficient audio equalization using multirate processing
RU2807607C2 (ru) Банк аудиофильтров с малой задержкой и повышенной разрешающей способностью по частоте
Malathi et al. FPGA Implementation of Adaptive NMLS Algorithm: Timbre Based Filtering from Multiple Harmonics using FIR Filters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1155549

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1155549

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121003

Termination date: 20200814