CN108352164A - 将立体声信号时域下混合为主和辅声道的使用左和右声道之间的长期相关差的方法和系统 - Google Patents

将立体声信号时域下混合为主和辅声道的使用左和右声道之间的长期相关差的方法和系统 Download PDF

Info

Publication number
CN108352164A
CN108352164A CN201680062618.8A CN201680062618A CN108352164A CN 108352164 A CN108352164 A CN 108352164A CN 201680062618 A CN201680062618 A CN 201680062618A CN 108352164 A CN108352164 A CN 108352164A
Authority
CN
China
Prior art keywords
sound channel
channel
factor
beta
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680062618.8A
Other languages
English (en)
Other versions
CN108352164B (zh
Inventor
T.瓦尔兰科特
M.杰利内克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge Corp
Original Assignee
VoiceAge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VoiceAge Corp filed Critical VoiceAge Corp
Publication of CN108352164A publication Critical patent/CN108352164A/zh
Application granted granted Critical
Publication of CN108352164B publication Critical patent/CN108352164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的立体声声音信号编码方法和系统与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性。基于所述左声道的归一化相关性与所述右声道的归一化相关性,确定长期相关差。将该长期相关差转换为因子β,并且使用该因子β对所述左和右声道进行混合以产生主和辅声道,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。

Description

将立体声信号时域下混合为主和辅声道的使用左和右声道之 间的长期相关差的方法和系统
技术领域
本公开涉及立体声声音编码,具体但不排他地涉及能够按照低比特率和低延迟在复杂音频场景中产生好的立体声质量的立体声话音(speech)和/或音频编码。
背景技术
历史上,已利用仅具有一个换能器以仅向用户的一只耳朵输出声音的电话听筒(handset)来实现对话电话。最近十来年,用户已开始使用他们的便携式电话听筒结合头戴式受话器,来接收越过他们的双耳的声音,以主要收听音乐,并且有时收听话音。然而,当使用便携式电话听筒来传送和接收对话话音时,内容仍然是单声道的,但是当使用头戴式受话器时内容被呈现到用户的双耳。
利用参考文献[1](其全部内容通过引用合并在这里)中描述的最新3GPP话音编码标准,已显著改进了编码的声音的质量,例如通过便携式电话听筒传送和接收的话音和/或音频。下一自然步骤是传送立体声信息,使得接收机尽可能接近在通信链路的另一侧捕获的真实生活音频场景。
在音频编解码器中,例如如同参考文献[2](其全部内容通过引用合并在这里)中描述的,正常使用立体声信息的传送。
对于对话话音编解码器,单声道信号是规范。当传送单声道信号时,比特率通常需要加倍,因为使用单声道编解码器来编码左和右声道两者。这在大多数情景下工作良好,但是呈现了以下缺点,比特率加倍,并且不能充分利用两个声道(左和右声道)之间的任何潜在冗余。此外,为了在合理水平保持整体比特率,使用用于每一声道的非常低的比特率,由此影响整体声音质量。
可能的替换方案是使用参考文献[6](其全部内容通过引用合并在这里)中描述的所谓参数化立体声。参数化立体声发送诸如双耳时间差(ITD)或双耳强度差(IID)的信息。后一信息是按每个频带发送的,并且按照低比特率,与立体声传送相关联的比特预算不足够高到允许这些参数有效地工作。
传送平移因子(panning factor)可能有助于以低比特率创建基本的立体声效果,但这种技术无法保持周围环境并呈现固有的局限性。太快的平移因子的调节(adaptation)变得干扰听众,而太慢的平移因子的调节并不能反映说话者的真实位置,这使得在干扰说话者的情况下或者当背景噪声的波动重要时,难以获得良好的质量。当前,对于所有可能的音频场景编码具有适当(decent)质量的对话立体声话音需要用于宽带(WB)信号的约24kb/s的最小比特率;低于该比特率时,话音质量开始受损。
随着劳动力日益增长的全球化和工作团队在全球的分裂,存在改进通信的需求。例如,电话会议的参与者可能处于不同且遥远的位置。有些参与者可能会在他们的汽车中,其他人可能在大的消声室中或甚至在他们的客厅中。事实上,所有参与者都希望感觉好像他们进行面对面的讨论。在便携式设备中实现立体声话音(更一般的立体声声音),将是朝这个方向迈出的一大步。
发明内容
根据第一方面,本公开涉及一种在立体声声音信号编码系统中实现的、用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的方法。根据该方法,与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性,基于所述左声道的归一化相关性与所述右声道的归一化相关性,确定长期相关差,将该长期相关差转换为因子β,和使用该因子β对所述左和右声道进行混合以产生主和辅声道。该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
根据第二方面,提供了一种用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的系统,包括:归一化相关性分析器,用于与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性;基于所述左声道的归一化相关性与所述右声道的归一化相关性的长期相关差的计算器;将该长期相关差转换为因子β的转换器;和使用该因子β对左和右声道进行混合以产生主和辅声道的混合器,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
根据第三方面,提供了一种用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的系统,包括:至少一个处理器;和存储器,耦接到该处理器,并且包括非瞬时指令,所述指令当运行时促使该处理器实现:归一化相关性分析器,用于确定与该声音的单声道信号版本相关的、所述左声道和右声道的归一化相关性;基于所述左声道的归一化相关性与所述右声道的归一化相关性的长期相关差的计算器;将该长期相关差转换为因子β的转换器;和使用该因子β对左和右声道进行混合以产生主和辅声道的混合器,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
另一方面涉及一种用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的系统,包括:至少一个处理器;和存储器,耦接到该处理器,并且包括非瞬时指令,所述指令当运行时促使该处理器:与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性;基于所述左声道的归一化相关性与所述右声道的归一化相关性,确定长期相关差;将该长期相关差转换为因子β;和使用该因子β对左和右声道进行混合以产生主和辅声道,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
本公开还涉及一种处理器可读存储器,包括非瞬时指令,所述指令当运行时,促使处理器实现上述方法的操作。
通过阅读参考附图仅作为示例给出的其示意性实施例的以下非限制性描述,用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道方法和系统的前述和其他目的、优点和特征将变得更清楚。
附图说明
在附图中:
图1是立体声声音处理和通信系统的示意性框图,其描绘了在以下描述中公开的立体声声音编码方法和系统的实现的可能上下文;
图2是并发图示了根据第一模型(呈现为集成立体声设计)的立体声声音编码方法和系统的框图;
图3是并发图示了根据第二模型(呈现为嵌入式模型)的立体声声音编码方法和系统的框图;
图4是并发示出了图2和3的立体声声音编码方法的时域下混合操作的子操作、以及图2和3的立体声声音编码系统的声道混合器的模块的框图;
图5是示出了如何将线性化长期相关差映射到因子β和能量归一化因子ε的图表;
图6是示出了使用整个帧上的pca/klt方案和使用“余弦”映射函数之间的差别的多曲线图;
图7是示出了通过使用背景中具有办公室噪声的双耳麦克风设置、向小型回声室中已记录的立体声样本施加时域下混合、而产生的主声道、辅声道以及这些主声道和辅声道的谱的多曲线图;
图8是并发图示了立体声声音编码方法和系统的框图,具有立体声声音信号的主Y和辅X声道两者的编码的可能实现和优化;
图9是图示了图8的立体声声音编码方法和系统的LP滤波相干性分析操作和对应LP滤波相干性分析器的框图;
图10是并发图示了立体声声音解码方法和立体声声音解码系统的框图;
图11是图示了图10的立体声声音解码方法和系统的附加特征的框图;
图12是形成本公开的立体声声音编码系统和立体声声音解码器的硬件组件的示例配置的简化框图;
图13是并发图示了使用预调节因子以增强立体图像稳定性的、图2和3的立体声声音编码方法的时域下混合操作的子操作、以及图2和3的立体声声音编码系统的声道混合器的模块的其他实施例的框图;
图14是并发图示了时间延迟校正的操作和时间延迟校正器的模块的框图;
图15是并发图示了替换立体声声音编码方法和系统的框图;
图16是并发图示了音高相干性分析的子操作和音高相干性分析器的模块的框图;
图17是并发图示了具有时域和频域中的操作能力的使用时域下混合的立体声编码方法和系统的框图;和
图18是并发图示了具有时域和频域中的操作能力的使用时域下混合的其他立体声编码方法和系统的框图。
具体实施方式
本公开涉及来自具体但不排他的复杂音频场景的、例如话音和/或音频内容的立体声声音内容的现实表示(realistic representation)的、具有低比特率和低延迟的产生和传送。复杂音频场景包括以下情形,其中(a)麦克风记录的声音信号之间的相关性低,(b)存在背景噪声的重要波动,和/或(c)存在干扰说话者。复杂音频场景的示例包括具有A/B麦克风配置的大型无回声会议室、具有双耳麦克风的小型回声室、以及具有单声道/两边(mono/side)麦克风设置的小型回声室。所有这些房间配置能包括波动的背景噪声和/或干扰说话者。
诸如参考文献[7]中描述的3GPP AMR-WB+的已知立体声声音编解码器(其全部内容通过引用在此合并)对于编码不接近单声道模型的声音(特别是低比特率)是低效的。某些情况尤其难以使用现有立体声技术来编码。这样的情况包括:
-LAAB(具有A/B麦克风设置的大型无回声室);
-SEBI(具有双耳麦克风设置的小型回声室);和
-SEMS(具有单声道/两边麦克风设置的小型回声室)。
添加波动背景噪声和/或干扰说话者使得这些声音信号更难以使用专用于立体声的技术(诸如参数立体声)按照低比特率编码。编码这样的信号的缺陷在于使用两个单声道,由此使得正使用的比特率和网络带宽加倍。
最新的3GPP EVS对话话音标准提供从7.2kb/s到96kb/s的比特率范围用于宽带(WB)操作,并提供9.6kb/s到96kb/s的比特率范围用于超宽带(SWB)操作。这意味着使用EVS的三个最低双单声道比特率是用于WB操作的14.4、16.0和19.2kb/s以及用于SWB操作的19.2、26.3和32.8kb/s。尽管参考文献[3](其全部内容通过引用在此合并)中描述的部署的3GPP AMR-WB的话音质量在其先前(predecessor)编解码器上改进,但是噪声环境中7.2kb/s的编码话音的质量远远不透明,并所以能预期14.4kb/s的双单声道的话音质量也是有限的。按照这样的低比特率,比特率使用被最大化,使得尽可能经常地获得最佳可能话音质量。利用以下描述中公开的立体声声音编码方法和系统,用于对话立体声话音内容的最小总比特率(即使在复杂音频场景的情况下)应该是用于WB的大约13kb/s和用于SWB的大约15.0kb/s。按照比双单声道方案中使用的比特率更低的比特率,立体声话音的质量和清晰度(intelligibility)对于复杂音频场景大大改进。
图1是立体声声音处理和通信系统100的示意性框图,其描绘了在以下描述中公开的立体声声音编码方法和系统的实现的可能上下文。
图1的立体声声音处理和通信系统100支持立体声声音信号通过通信链路101的传送。通信链路101可包括例如线缆或光纤链路。作为选择,通信链路101可包括至少部分射频链路。射频链路通常支持诸如可利用蜂窝电话得到的需要共享带宽资源的多个同时通信。尽管没有示出,但是通信链路101可由记录和存储所编码的立体声声音信号用于稍后重放的处理和通信系统100的单一装置实现中的储存装置替代。
仍然参考图1,例如一对麦克风102和122产生例如在复杂音频场景中检测的原始模拟立体声声音信号的左103和右123声道。如以上描述中指示的,声音信号可具体但不排他地包括话音和/或音频。麦克风102和122可根据A/B、双耳或单声道/两边设置来排列。
原始模拟声音信号的左103和右123声道被供应到模数(A/D)转换器104,用于将它们转换为原始数字立体声声音信号的左105和右125声道。原始数字立体声声音信号的左105和右125声道也可被记录并从储存装置(未示出)供应。
立体声声音编码器106编码该数字立体声声音信号的左105和右125声道,由此产生在传递到可选误差校正编码器108的比特流107的形式下多路复用的编码参数的集合。在通过通信链路101传送得到的比特流111之前,可选误差校正编码器108(当存在时)向比特流107中的编码参数的二进制表示添加冗余。
在接收机侧,可选误差校正解码器109利用接收的数字比特流111中的上述冗余信息,来检测和校正可能在通过通信链路101的传送期间出现的误差,产生具有接收的编码参数的比特流112。立体声声音解码器110转换比特流112中的接收的编码参数,用于创建数字立体声声音信号的合成的左113和右133声道。立体声声音解码器110中重构的数字立体声声音信号的左113和右133声道在数模(D/A)转换器115中转换为模拟立体声声音信号的合成的左114和右134声道。
模拟立体声声音信号的合成的左114和右134声道分别在一对扬声器单元116和136中重放。作为选择,来自立体声声音解码器110的数字立体声声音信号的左113和右133声道也可被供应到储存装置(未示出)并在其中记录。
图1的原始数字立体声声音信号的左105和右125声道对应于图2、3、4、8、9、13、14、15、17和18的左L和右R声道。而且,图1的立体声声音编码器106对应于图2、3、8、15、17和18的立体声声音编码系统。
根据本公开的立体声声音编码方法和系统是双重的(two-fold);提供第一和第二模型。
图2是并发图示了根据第一模型(呈现为基于EVS内核的集成立体声设计)的立体声声音编码方法和系统的框图。
参考图2,根据第一模型的立体声声音编码方法包括时域下混合操作201、主声道编码操作202、辅声道编码操作203、和多路复用操作204。
为了执行时域下混合操作201,声道混合器251混合两个输入立体声声道(右声道R和左声道L)以产生主声道Y和辅声道X。
为了执行辅声道编码操作203,辅声道编码器253选择并使用最小数目的比特(最小比特率),以使用以下描述中定义的编码模式之一来编码辅声道X,并产生对应的辅声道编码的比特流206。关联的比特预算可取决于帧内容而每帧改变。
为了实现主声道编码操作202,使用主声道编码器252。辅声道编码器253将当前帧中用来编码辅声道X所使用的比特208的数目信令传输到主声道编码器252。能使用任何适当类型编码器作为主声道编码器252。作为非限制性示例,主声道编码器252能够是CELP类型编码器。在该示意性实施例中,主声道CELP类型编码器是传统EVS编码器的修改版本,其中修改EVS编码器以呈现更大比特率可伸缩性,以允许主和辅声道之间的灵活比特率分配。按照该方式,修改的EVS编码器将能够使用没有用来编码辅声道X的所有比特,用于利用对应比特率来编码主声道Y,并产生对应主声道编码的比特流205。
多路复用器254链接(concatenates)主声道比特流205和辅声道比特流206以形成多路复用的比特流207,以完成多路复用操作204。
在第一模型中,用来编码辅声道X的比特数目和对应比特率(比特流106中)小于用来编码主声道Y的比特数目和对应比特率(比特流205中)。这能被看作两个(2)可变比特率声道,其中两个声道X和Y的比特率之和表示恒定总比特率。该方案可具有不同特点(flavors),其在主声道Y上具有或多或少的重点(emphasis)。根据第一示例,当在主声道Y上投入最大重点时,辅声道X的比特预算被强烈强制为最小。根据第二示例,如果在主声道Y上投入较少重点,则可使得辅声道X的比特预算更恒定,这意味着辅声道X的平均比特率与第一示例相比稍微高一些。
需要提醒的是,输入数字立体声声音信号的右R和左L声道由可对应于在EVS处理中使用的帧的持续时间的给定持续时间的连续帧处理。每一帧取决于正使用的给定的帧的持续时间和采样速率,而包括右R和左L声道的多个样本。
图3是并发图示了根据第二模型(呈现为嵌入式模型)的立体声声音编码方法和系统的框图。
参考图3,根据第二模型的立体声声音编码方法包括时域下混合操作301、主声道编码操作302、辅声道编码操作303和多路复用操作304。
为了完成时域下混合操作301,声道混合器351混合两个输入的右R和左L声道以形成主声道Y和辅声道X。
在主声道编码操作302中,主声道编码器352编码主声道Y,以产生主声道编码的比特流305。而且,能使用任何适当类型的编码器作为主声道编码器352。作为非限制性示例,主声道编码器352能够是CELP类型编码器。在该示意性实施例中,主声道编码器352使用诸如传统EVS单声道编码模式或AMR-WB-IO编码模式的话音编码标准,这意味着当比特率与这样的解码器兼容时,比特流305的单声道部分将与传统EVS、AMR-WB-IO或传统AMR-WB解码器共同操作。取决于选择的编码模式,可需要主声道Y的一些调整用于通过主声道编码器352处理。
在辅声道编码操作303中,辅声道编码器353使用以下描述中定义的编码模式之一按照较低比特率对辅声道X进行编码。辅声道编码器353产生辅声道编码的比特流306。
为了执行多路复用操作304,多路复用器354链接主声道编码的比特流305和辅声道编码的比特流306,以形成多路复用的比特流307。这被称为嵌入模式,因为在可共同操作的比特流305的顶部添加与立体声关联的辅声道编码的比特流306。如这里在上面描述的,辅声道比特流306能在任意时刻从导致传统编解码器可解码的比特流的、多路复用的立体声比特流307(链接的比特流305和306)剥离(stripped-off),而最新版本的编解码器的用户仍能够享受完整的立体声解码。
上面描述的第一和第二模型事实上彼此接近。这两种模型之间的主要差别在于,在第一模型中,可能使用两个声道Y和X之间的动态比特分配,而在第二模型中,比特分配由于共同操作性考虑而更受限。
以下描述中给出用来实现上述第一和第二模型的实现和方案的示例。
1)时域下混合
如以上描述中表达的,按照低比特率操作的已知立体声模型在编码不接近单声道模型的话音时具有困难。传统方案使用例如Karhunen-Loève转换(klt),使用例如与主要成分分析(pca)关联的每一频带的相关,执行频域中(每一频带)的下混合,以获得两个向量,如参考文献[4]和[5]中描述的,其全部内容通过引用在此合并。这两个向量之一合并所有高度相关的内容,而另一向量定义不非常相关的所有内容。按照低比特率编码话音的最佳已知方法使用时域编解码器,例如CELP(代码激励线性预测)编解码器,其中已知频域方案不可直接应用。为此原因,尽管每一频带pca/klt背后的思想是有趣的,但是当内容是话音时,主声道Y需要转换回时域,并且在这样的转换之后,其内容看上去不再是传统话音,特别是在使用诸如CELP的话音特定模型的上述配置的情况下。这具有降低话音编解码器的性能的效果。此外,按照低比特率,话音编解码器的输入应尽可能接近编解码器的内部模型期望值。
以低比特率话音编解码器的输入应尽可能接近期望的话音信号的思想开始,已开发了第一技术。第一技术基于传统pca/klt方案的演进。尽管传统方案计算每一频带的pca/klt,但是第一技术直接在时域中的整个帧上计算它。这在活动话音片段期间充分工作,如果不存在背景噪声或干扰说话者的话。pca/klt方案确定哪个声道(左L或右R声道)包括最有用的信息,该声道被发送到主声道编码器。不幸的是,在存在背景噪声或者两个或更多人彼此谈话时,基于帧的pca/klt方案不可靠。pca/klt方案的原理涉及一个输入声道(R或L)或另一个的选择,这通常导致要编码的主声道的内容的剧烈改变。至少因为以上原因,第一技术不足够可靠,并因此,这里呈现第二技术,用于克服第一技术的不足,并允许输入声道之间的更平滑的转变。下面将参考图4-9来描述该第二技术。
参考图4,时域下混合201/301(图2和3)的操作包括以下子操作:能量分析子操作401、能量趋势分析子操作402、L和R声道归一化相关性分析子操作403、长期(LT)相关差计算子操作404、长期相关差到因子β转换和量化子操作405、以及时域下混合子操作406。
紧记低比特率声音(诸如话音和/或音频)编解码器的输入应尽可能均匀(homogeneous)的思想,能量分析子操作401由能量分析器451在声道混合器252/351中执行,以使用关系式(1)通过帧首先确定每一输入声道R和L的rms(均方根)能量:
其中下标L和R分别代表左和右声道,L(i)代表声道L的样本i,R(i)代表声道R的样本i,N对应于每帧的样本的数目,并且t代表当前帧。
能量分析器451然后使用关系式(2)利用关系式(1)的rms值来确定每一声道的长期rms值
其中t表示当前帧并且t-1表示先前帧。
为了执行能量趋势分析子操作402,声道混合器251/351的能量趋势分析器452使用长期rms值以使用关系式(3)来确定每一声道L和R中的能量的趋势
使用长期rms值的趋势作为以下信息,该信息示出麦克风所捕获的时间事件是否正消退(fading-out)或者它们是否正改变声道。长期rms值及其趋势也被用来确定长期相关差的收敛(convergence)速度α,如稍后将描述的那样。
为了执行声道L和R归一化相关性分析子操作403,L和R归一化相关性分析器453使用关系式(4)在帧t中计算针对声音(例如话音和/或音频)中的单声道信号版本m(i)归一化的左L和右R声道的每一个的相关性GL|R
其中如已经提及的,N对应于帧中的样本的数目,并且t代表当前帧。在当前实施例中,通过关系式1到4确定的所有归一化相关性和rms值对于整个帧在时域中计算。在另一种可能的配置中,能在频域中计算这些值。例如,适用于具有话音特性的声音信号的本文描述的技术能够是能在频域通用立体声音频编码方法与本公开中描述的方法之间切换的更大框架的一部分。在这种情况下,在频域中计算归一化相关性和rms值可在复杂性或代码重用方面呈现某些优势。
为了在子操作404中计算长期(LT)相关差,计算器454使用关系式(5)针对当前帧中的每个声道L和R,计算平滑的归一化相关性:
其中α是上述收敛速度。最后,计算器454使用关系式(6)确定长期(LT)相关差
在一个示例实施例中,取决于关系式(2)中计算的长期能量和关系式(3)中计算的长期能量的趋势,收敛速度α可以具有0.8或0.5的值。例如,当左L和右R声道的长期能量沿相同方向演变时,收敛速度α可以具有0.8的值,帧t处的长期相关差与帧t-1处的长期相关差之间的差异是低的(对于该示例实施例,低于0.31),并且左L和右R声道的长期rms值中的至少一个高于特定阈值(在该示例实施例中为2000)。这样的情况意味着两个声道L和R正在平滑演变,不存在从一个声道到另一个声道的能量的快速变化,并且至少一个声道包含有意义的能级。否则,当右R和左L声道的长期能量向不同方向演变时,当长期相关差之间的差异高时,或者当这两个右R和左L声道具有低能量时,α将被设置为0.5,以增加长期相关差的调节速度。
为了执行转换和量化子操作405,一旦在计算器454中已经适当地估计了长期相关差则转换器和量化器455就将该差值转换为量化的因子β,并将其供应到(a)主声道编码器252(图2)、(b)辅声道编码器253/353(图2和3)和(c)多路复用器254/354(图2和3),用于通过诸如图1的101的通信链路在多路复用的比特流207/307中传送到解码器。
因子β表示组合成一个参数的立体声输入的两个方面。首先,因子β表示组合在一起以创建主声道Y的右R声道和左L声道的每一个的比例或贡献,并且其次,它还能表示为了获得在能量域中与声音的单声道信号版本将看上去的那样接近的主声道、而应用于主声道Y的能量缩放因子。因此,在嵌入式结构的情况下,它允许主声道Y被单独解码,而不需要接收携带立体声参数的辅比特流306。也能使用这个能量参数以在其编码之前重新缩放辅声道X的能量,使得辅声道X的全局能量更接近辅声道编码器的最佳能量范围。如图2所示,也可使用本质上存在于因子β中的能量信息,以改进主声道与辅声道之间的比特分配。
可以使用索引将量化因子β传送给解码器。因为因子β能表示(a)左和右声道对主声道的各自贡献、和(b)有助于更有效地在主声道Y和辅声道X之间分配比特的、向主声道施加以获得声音的单声道信号版本、或相关性/能量信息的能量比例因子,向解码器传送的索引传达具有相同比特数的两个不同信息元素。
为了获得长期相关差与因子β之间的映射,在该示例实施例中,转换器和量化器455首先将长期相关差限制在-1.5至1.5之间,并然后将该长期相关差在0和2之间线性化,以得到时间线性化的长期相关差G′LR(t),如关系式(7)所示:
在替代实现中,可以通过将其值进一步限制在例如0.4和0.6之间,来判断仅使用填充有线性化的长期相关差G′LR(t)的空间的一部分。这种额外的限制将具有降低立体图像定位、以及节省一些量化比特的效果。根据设计选择,能考虑这个选项。
在线性化之后,转换器和量化器455使用关系式(8)执行线性化的长期相关差G′LR(t)向“余弦”域的映射:
为了执行时域下混合子操作406,时域下混合器456使用关系式(9)和(10)产生主声道Y和辅声道X作为右R和左L声道的混合:
Y(i)=R(i)·(1-β(t))+L(i)·β(t) (9)
X(i)=L(i)·(1-β(t))-R(i)·β(t) (10)
其中i=0、……、N-1是帧中的样本索引并且t是帧索引。
图13是并发示出使用预调节因子以增强立体图像稳定性的、图2和3的立体声声音编码方法的时域下混合操作201/301的子操作、以及图2和3的立体声声音编码系统的声道混合器251/351的模块的其他实施例的框图。在如图13所示的替代实现中,时域下混合操作201/301包括以下子操作:能量分析子操作1301、能量趋势分析子操作1302、L和R声道归一化相关性分析子操作1303、预调节因子计算子操作1304、将预调节因子应用于归一化相关性的操作1305、长期(LT)相关差计算子操作1306、增益到因子β转换和量化子操作1307、以及时域下混合子操作1308。
子操作1301、1302和1303基本上按照与图4的子操作401、402和403、以及分析器451、452和453相关的前述中所解释的相同方式,分别由能量分析器1351、能量趋势分析器1352、以及L和R归一化相关性分析器1353执行。
为了执行子操作1305,声道混合器251/351包括计算器1355,用于向根据关系式(4)的相关性GL|R)(GL(t)和GR(t))直接应用预调节因子ar,使得取决于两个声道的能量和特性,而平滑它们的演变。如果信号的能量低或者如果它具有一些无声(unvoiced)特性,则相关性增益的演变能更慢。
为了执行预调节因子计算子操作1304,声道混合器251/351包括预调节因子计算器1354,该预调节因子计算器1354被供应有(a)来自能量分析器1351的关系式(2)的长期左和右声道能量值、(b)先前帧的帧分类和(c)先前帧的语音活动信息。预调节因子计算器1354使用关系式(6a)计算预调节因子ar,其可取决于来自分析器1351的左和右声道的最小长期rms值在0.1和1之间被线性化:
在实施例中,系数Ma可以具有0.0009的值,系数Ba可以具有0.16的值。在变型中,例如,如果两个声道R和L的先前分类指示无声特性和活动信号,则预调节因子ar可以被强制为0.15。语音活动检测(VAD)拖尾(hangover)标志也可以用来确定帧的前一部分内容是活动段。
将预调节因子ar应用于左L和右R声道的归一化相关性GL|R(来自关系式(4)的GL(t)和GR(t))的操作1305与图4的操作404不同。代替通过向归一化相关性GL|R(GL(t)和GR(t))应用因子(1-α)、α是以上定义的收敛速度(关系式(5))、来计算长期(LT)平滑的归一化相关性,计算器1355使用关系式(11b)向左L和右R声道的归一化相关性GL|R(GL(t)和GR(t))直接应用预调节因子ar
计算器1355输出向长期(LT)相关差1356的计算器提供的调节的相关性增益τL|R。在图13的实现中,时域下混合201/301的操作(图2和3)包括与图4的子操作404、405和406分别类似的长期(LT)相关差计算子操作1306、长期相关差到因子β的转换和量化子操作1307、和时域下混合子操作1358。
在图13的实现中,时域下混合201/301的操作(图2和3)包括与图4的子操作404、405和406分别类似的长期(LT)相关差计算子操作1306、长期相关差到因子β转换和量化子操作1307、以及时域下混合子操作1358。
子操作1306、1307和1308分别由计算器1356、转换器和量化器1357以及时域下混合器1358基本上按照与前面关于子操作404、405和405、与计算器454、转换器和量化器455以及时域下混合器456的描述中解释的相同方式执行。
图5示出了如何将线性化长期相关差G′LR(t)映射到因子β和能量缩放。能观察到,对于1.0的线性化长期相关差G′LR(t),这意味着右R和左L声道能量/相关性几乎相同,因子β等于0.5并且能量归一化(重新缩放)因子ε为1.0。在该情况下,主声道Y的内容基本上是单声道混合物,并且辅声道X形成边声道。下面描述能量归一化(重新缩放)因子ε的计算。
另一方面,如果线性化长期相关差G′LR(t)等于2,这意味着大多数能量在左声道L中,则因子β为1,并且能量归一化(重新缩放)因子为0.5,这指示出主声道Y基本上包括集成设计实现中的左声道L、或者嵌入设计实现中的左声道L的缩减(downscaled)表示。在该情况下,辅声道X包括右声道R。在示例实施例中,转换器和量化器455或1357使用31个可能量化条目来量化因子β。因子β的量化版本使用5比特索引来表示,并且如上所述,被供应到多路复用器,用于集成在多路复用的比特流207/307中,并通过通信链路传送到解码器。
在实施例中,因子β也可以用作用于主声道编码器252/352和辅声道编码器253/353两者的指示符,以确定比特率分配。例如,如果β因子接近0.5,这意味着两个(2)输入声道能量/与单声道的相关性彼此接近,则将更多比特分配给辅声道X并将更少比特分配给主声道Y,除非如果两个声道的内容非常接近,则辅声道的内容将会实际上低能量,并且可能被看作不活动的,因此允许非常少的比特对其进行编码。另一方面,如果因子β接近于0或1,则比特率分配将有利于主声道Y。
图6示出了使用整个帧上的上述pca/klt方案(图6的上面两个曲线)和使用为了计算因子β在关系式(8)中开发的“余弦”函数(图6的下面曲线)之间的差别。本质上,pca/klt方案倾向于搜索最小值或最大值。这在图6的中间曲线所示的活动话音的情况下很好地工作,但是这对于具有背景噪声的话音来说实际上不能很好地工作,因为它趋于从0连续地切换到1,如图6的中间曲线所示。过度频繁地切换到端点0和1会在低比特率编码时导致大量伪像(artefacts)。潜在的解决方案本应该是消除(smooth out)pca/klt方案的判断,但这会对话音突发及其正确位置的检测产生负面影响,而关系式(8)的“余弦”函数在这方面更有效。
图7示出了通过使用背景中具有办公室噪声的双耳麦克风设置、向小型回声室中已记录的立体声样本施加时域下混合、而产生的主声道Y、辅声道X以及这些主声道Y和辅声道X的谱。在时域下混合操作之后,能看出两个声道仍具有相似谱形状,并且辅声道X仍具有与时间内容相似的话音,由此允许使用基于话音的模型来编码辅声道X。
在前面的描述中呈现的时域下混合可能在相位反相的右R和左L声道的特定情况下显示出一些问题。将右R和左L声道相加以获得单声道信号将导致右R和左L声道彼此抵消。为了解决这个可能的问题,在实施例中,声道混合器251/351将单声道信号的能量与右R声道和左L声道两者的能量进行比较。单声道信号的能量应该至少大于右R和左L声道之一的能量。否则,在该实施例中,时域下混合模型进入反相的特殊情况。在出现这种特殊情况时,因子β被强制为1,并且辅声道X被强制使用通用或无声模式编码,从而防止不活动编码模式,并确保辅声道X的正确编码。通过使用可用于传输因子β的最后比特组合(索引值),而将这种特殊情况(其中不应用能量重新缩放)信令传输到解码器(基本上,因为如上所述使用5个比特量化β并且使用31个条目(量化等级)用于量化,所以使用第32个可能的比特组合(条目或索引值)用于信令传输这种特殊情况)。
在替代实现中,可以将更多的重点投入在对于上文所述的下混合和编码技术次优的信号的检测上,例如在异相或接近异相信号的情况下。一旦检测到这些信号,如果需要,则可以调节底层编码技术。
典型地,对于如本文所述的时域下混合,当输入立体声信号的左L和右R声道异相时,在下混合处理期间可能发生一些抵消,这可导致次优质量。在上面的例子中,这些信号的检测是简单的,并且编码策略包括分开编码两个声道。但是有时候,利用特殊的信号(例如异相信号),仍然执行类似于单声道/边声道(β=0.5)的下混合可能更有效,其中将更大的重点投入在边声道上。鉴于这些信号的某些特殊处理可能是有益的,需要仔细执行这些信号的检测。此外,从如前述描述中描述的正常时域下混合模型和处理这些特殊信号的时域下混合模型的转变可以在非常低能量的区域中或者在两个声道的音高(pitch)不稳定的区域中触发,使得这两个模型之间的切换具有最小的主观效应。
L声道和R声道之间的时间延迟校正(TDC)(参见图17和18中的时间延迟校正器1750)或与参考文献[8]中描述的技术类似的技术(其全部内容通过引用并入本文)可以在进入下混合模块201/301、251/351之前执行。在这样的实施例中,因子β可在具有与上文已经描述的含义不同的含义的情况下结束(end-up)。对于这种类型的实现,在时间延迟校正按照预期进行操作的情况下,因子β可以变得接近0.5,这意味着时域下混合的配置接近单声道/边声道配置。通过时间延迟校正(TDC)的适当操作,边声道可以包括含有较少量重要信息的信号。在这种情况下,当因子β接近0.5时,辅声道X的比特率可以是最小的。另一方面,如果因子β接近0或1,这意味着时间延迟校正(TDC)可能没有恰当地克服延迟未对准情形,并且辅声道X的内容可能更复杂,因此需要更高的比特率。对于两种类型的实现,可以使用因子β和通过关联的能量归一化(重新缩放)因子ε,以改进主声道Y和辅声道X之间的比特分配。
图14是并发示出形成下混合操作201/301和声道混合器251/351的一部分的、异相信号检测的操作和异相信号检测器1450的模块的框图。如图14所示,异相信号检测的操作包括异相信号检测操作1401、切换位置检测操作1402和声道混合器选择操作1403,以在时域下混合操作201/301和异相特定时域下混合操作1404之间进行选择。这些操作分别由异相信号检测器1451、切换位置检测器1452、声道混合器选择器1453、先前描述的时域下声道混合器251/351、以及异相特定时域下声道混合器1454执行。
异相信号检测1401基于先前帧中主和辅声道之间的开环相关性。为此,检测器1451使用关系式(12a)和(12b)在先前帧中计算边声道信号s(i)和单声道信号m(i)之间的能量差Sm(t):
然后,检测器1451使用关系式(12c)计算长期边声道与单声道能量差
其中t指示当前帧,t-1指示先前帧,并且其中不活动内容可从语音活动性检测器(VAD)拖尾标志或者从VAD拖尾计数器导出。
除了长期边声道与单声道能量差之外,也考虑参考文献[1]的条款5.1.10中定义的每一声道Y和X的最后音高开环最大相关性CF|L,以判断何时将当前模型看作次优的。表示先前帧中的主声道Y的音高开环最大相关性,并且表示先前帧中的辅声道X的音高开环最大相关性。次优标记Fsub由切换位置检测器1452根据以下标准计算:
如果长期边声道与单声道能量差高于某一阈值,例如当时,如果音高开环最大相关性两者在0.85和0.92之间,这意味着这些信号具有好相关性,但是不象语音信号那样相关,则次优标记Fsub被设置为1,这指示左L和右R声道之间的异相条件。
否则,次优标记Fsub被设置为0,这指示左L和右R声道之间不存在异相条件。
为了在次优标记判断中增加一些稳定性,切换位置检测器1452实现关于每一声道Y和X的音高升降曲线(pitch contour)的标准。当在示例实施例中将次优标记Fsub的至少三个(3)连续实例设置为1并且主声道ppc9t-1)或辅声道psc(t-1)之一的最后帧的音高稳定性大于64时,切换位置检测器1452确定将使用声道混合器1454来编码次优信号。音高稳定性在于由切换位置检测器1452使用关系式(12d)计算的、参考文献[1]的5.1.10中定义的三个开环音高p0|1|2的绝对差之和:
ppc=|p1-p0|+|p2-p1|and psc=|p1-p0|+|p2-p1| (12d)
切换位置检测器1452向声道混合器选择器1453提供判断,声道混合器选择器1453因此接下来选择声道混合器251/351或声道混合器1454。声道混合器选择器1453实现滞后现象,使得当选择声道混合器1454时,该判断成立直到满足以下条件:例如20帧的多个连续帧被看作最优,主声道ppc(t-1)或辅声道psc(t-1)之一的最后帧的音高稳定性大于例如64的预定数目,并且长期边声道与单声道能量差低于或等于0。
2)主和辅声道之间的动态编码
图8是并发图示了立体声声音编码方法和系统的框图,具有立体声信号(诸如话音或音频)的主Y和辅X声道两者的编码的优化的可能实现。
参考图8,立体声声音编码方法包括由低复杂度预处理器851实现的低复杂度预处理操作801、由信号分类器852实现的信号分类操作802、由判断模块853实现的判断操作803、由四(4)子帧模型通用唯一编码模块854实现的四(4)子帧模型通用唯一编码操作804、由两(2)子帧模型编码模块855实现的两(2)子帧模型编码操作805、和由LP滤波相干性分析器856实现的LP滤波相干性分析操作806。
在由声道混合器351已执行了时域下混合301之后,在嵌入模型的情况下,(a)使用诸如传统EVS编码器或任何其他合适的传统声音编码器之类的传统编码器作为主声道编码器352,来编码主声道Y(主声道编码操作302)(应当记住,如在前面的描述中所提及的,能使用任何适当类型的编码器作为主声道编码器352)。在集成结构的情况下,专用话音编解码器被用作主声道编码器252。专用话音编码器252可以是基于可变比特率(VBR)的编码器,例如传统EVS编码器的修改版本,其已经被修改为具有更大的比特率可伸缩性,允许在每帧级别上的可变比特率的处置(同样应该记住的是,如在前面的描述中所提及的,能使用任何合适类型的编码器作为主声道编码器252)。这允许用于编码辅声道X的最小比特量在每一帧中变化,并且适应要编码的声音信号的特性。最后,辅声道X的签名将尽可能均匀。
辅声道X的编码(即较低能量/与单声道输入的相关性)被优化以使用最小比特率,特别是但不排他用于如同话音的内容。为此目的,辅声道编码能利用已在主声道Y中编码的参数,诸如LP滤波系数(LPC)和/或音高滞后807。具体地,如稍后所述地,判断在主声道编码期间计算的参数是否充分接近在辅声道编码期间计算的对应参数,以在辅声道编码期间重新使用。
首先,使用低复杂度预处理器851将低复杂度预处理操作801应用于辅声道X,其中响应于辅声道X计算LP滤波器、语音活动检测(VAD)和开环音高。后面的计算可以例如通过在EVS传统编码器中执行并在参考文献[1]的条款5.1.9、5.1.12和5.1.10中分别描述的那些来实现,如上所述,全部内容通过引用在此并入。如前面描述中提及的,由于可以使用任何合适类型的编码器作为主声道编码器252/352,所以上述计算可以通过在这样的主声道编码器中执行的那些来实现。
然后,信号分类器852分析辅声道X信号的特性,以使用与同一参考文献[1]的条款5.1.13的EVS信号分类函数的技术类似的技术,将辅声道X分类为无声、通用或不活动的。这些操作对于本领域的普通技术人员是已知的,并且为了简单起见能从标准3GPP TS26.445v.12.0.0中提取,但是也可以使用替代实现。
a.重新使用主声道LP滤波系数
比特率消耗的重要部分在于LP滤波系数(LPC)的量化。按照低比特率,LP滤波系数的完整量化能占据比特预算的近25%。鉴于辅声道X的频率内容通常与主声道Y的频率内容接近,但是具有最低的能级,因此有必要检验是否可能重用主声道Y的LP滤波系数。为了这样做,如图8所示,已开发了由LP滤波相干性分析器856实现的LP滤波相干性分析操作806,其中计算并比较几个参数,以验证是否重新使用主声道Y的LP滤波系数(LPC)807的可能性。
图9是图示了图8的立体声声音编码方法和系统的LP滤波相干性分析操作806和对应LP滤波相干性分析器856的框图.
如图9所示,图8的立体声声音编码方法和系统的LP滤波相干性分析操作806和对应的LP滤波相干性分析器856包括由LP滤波分析器953实现的主声道LP(线性预测)滤波分析子操作903、由加权滤波器954实现的加权子操作904、由LP滤波分析器962实现的辅声道LP滤波分析子操作912、由加权滤波器951实现的加权子操作901、由欧几里德距离分析器952实现的欧几里德距离分析子操作902、由残差滤波器963实现的残差滤波子操作913、由残差能量的计算器964实现的残差能量计算子操作914、由减法器965实现的减法子操作915、由能量的计算器960实现的声音(诸如话音和/或音频)能量计算子操作910、由辅声道残差滤波器956实现的辅声道残差滤波操作906、由残差能量的计算器957实现的残差能量计算子操作907、由减法器958实现的减法子操作908、由增益比计算器实现的增益比计算子操作911、由比较器966实现的比较子操作916、由比较器967实现的比较子操作917、由判断模块968实现的辅声道LP滤波器使用判断子操作918、以及由判断模块969实现的主声道LP滤波器重用判断子操作919。
参考图9,LP滤波分析器953对主声道Y执行LP滤波分析,而LP滤波分析器962对辅声道X执行LP滤波分析。对每个主Y和辅X声道执行的LP滤波分析与参考文献[1]第5.1.9款中描述的分析类似。
然后,来自LP滤波分析器953的LP滤波系数Ay被供应到残差滤波器956,用于辅声道X的第一残差滤波rY。以相同的方式,来自LP滤波分析器962的最优LP滤波系数Ax被供应到残差滤波器963,用于辅声道X的第二残差滤波rX。利用关系式(11)执行具有滤波系数AY或AX的残差滤波:
其中,在该示例中,sx表示辅声道,LP滤波器阶数是16,并且N是帧中样本的数目(帧尺寸),其通常是与12.8kHz采样率的20ms帧持续时间对应的256。
计算器910使用关系式(14)计算辅声道X中的声音信号的能量Ex
并且计算器957使用关系式(15)计算来自残差滤波器956的残差的能量Ery
减法器958从来自计算器960的声音能量减去来自计算器957的残差能量,以产生预测增益GY
按照相同方式,计算器964使用关系式(16)计算来自残差滤波器963的残差的能量Erx
并且减法器965从来自计算器960的声音能量减去该残差能量,以产生预测增益GX
计算器961计算增益比率GY/GX。比较器966比较该增益比率GY/GX与阈值τ,该阈值在该示例实施例中是0.92。如果该比率GY/GX小于阈值τ,则将比较的结果传送到判断模块968,判断模块968强制辅声道LP滤波系数的使用,用于编码辅声道X。
欧几里德距离分析器952执行LP滤波器相似性度量,诸如由LP滤波分析器953响应于主声道Y计算的线谱对lspY、和由LP滤波分析器962响应于辅声道X计算的线谱对lspX之间的欧几里德距离。如本领域普通技术人员所知,线谱对lspY和lspX表示量化域中的LP滤波系数。分析器952使用关系式(17)来确定欧几里德距离dist:
其中M表示滤波器阶数,并且lspY和lspX分别表示对于主Y和辅X声道计算的线谱对。
在分析器952中计算欧几里德距离之前,可能通过相应加权因子来加权两组线谱对lspY和lspX,使得对谱的某些部分投入或多或少的重点。也能使用其他LP滤波器表示来计算LP滤波器相似性度量。
一旦知道欧几里德距离dist,就在比较器967中将其与阈值σ进行比较。在示例实施例中,阈值σ具有0.08的值。当比较器966确定比率GY/GX等于或大于阈值τ、并且比较器967确定欧几里德距离dist等于或大于阈值σ时,将比较结果传送到判断模块968,判断模块968强制使用辅声道LP滤波系数用于编码辅声道X。当比较器966确定比率GY/GX等于或大于阈值τ、并且比较器967确定欧几里德距离dist小于阈值σ时,将这些比较的结果传送到判断模块969,判断模块969强制主声道LP滤波系数的重新使用,用于编码辅声道X。在后一种情况下,主声道LP滤波系数被重新使用作为辅声道编码的一部分。
在其中信号足够易于编码、也存在可用于编码LP滤波系数的静止比特率的特定情况下,例如在无声编码模式的情况下,能进行一些额外的测试,以限制主声道LP滤波系数的重用用于编码辅声道X。当利用辅声道LP滤波系数已经获得非常低的残差增益时,或者当辅声道X具有非常低的能级时,也可能强制重用主声道LP滤波系数。最后,能强制LP滤波系数的重用的变量τ、σ、残差增益水平或非常低的能级全部能根据可用的比特预算和/或根据内容类型来调节。例如,如果辅声道的内容被看作不活动的,则即使能量高,也可以判断重用主声道LP滤波系数。
b.辅声道的低比特率编码
由于主Y和辅X声道可以是右R和左L输入声道两者的混合,所以这暗示着即使辅声道X的能量内容低于主声道Y的能量内容,一旦执行声道的上混合,就可以感知编码伪影。为了限制这种可能的伪影,辅声道X的编码签名尽可能保持恒定,以限制任何意外的能量变化。如图7所示,辅声道X的内容具有与主声道Y的内容类似的特性,并且为此原因,已经开发了如同非常低比特率话音的编码模型。
返回参考图8,LP滤波相干性分析器856向判断模块853发送来自判断模块969的重新使用主声道LP滤波系数的判断、或来自判断模块968的使用辅声道LP滤波系数的判断。判断模块803然后判断当重新使用主声道LP滤波系数时、不量化辅声道LP滤波系数,并且当判断是使用辅声道LP滤波系数时、量化辅声道LP滤波系数。在后一种情况下,量化的辅声道LP滤波系数被发送到多路复用器254/354用于包含在多路复用的比特流207/307中。
在四(4)子帧模型通用唯一编码操作804和对应的四(4)子帧模型通用唯一编码模块854中,为了保持比特率尽可能低,仅当能重新使用来自主声道Y的LP滤波系数时、当信号分类器852将辅声道X分类为通用时、以及当输入右R和左L声道的能量靠近中心时(这意味着右R和左L声道两者的能量彼此接近),使用参考文献[1]的第5.2.3.1款中描述的ACELP搜索。然后使用在四(4)子帧模型通用唯一编码模块854中的ACELP搜索期间得到的编码参数,以构造辅声道比特流206/306,并将其发送到多路复用器254/354用于包含在多路复用方比特流207/307中。
否则,在两(2)子帧模型编码操作805和对应的两(2)子帧模型编码模块855中,当不能重新使用来自主声道Y的LP滤波系数时,使用半带(halp-band)模型以编码具有通用内容的辅声道X。对于不活动和无声内容,仅谱形状被编码。
在编码模块855中,不活动内容编码包括(a)频域谱带增益编码加噪声填充和(b)在需要时编码辅声道LP滤波系数,分别在参考文献[1]的(a)第5.2.3.5.7和5.2.3.5.11款和(b)第5.2.2.1款中描述。不活动内容能以低至1.5kb/s的比特率进行编码。
在编码模块855中,辅声道X无声编码类似于辅声道X不活动编码,除了无声编码使用额外数量的比特,来量化对于无声辅声道编码的辅声道LP滤波系数。
半带通用编码模型与参考文献[1]的第5.2.3.1款中描述的ACELP类似地构造,但是其仅与两个(2)子帧逐帧一起使用。由此,为了这样做,参考文献[1]的第5.2.3.1.1款中描述的残差、参考文献[1]的第5.2.3.1.4款中描述的自适应码本的存储器、和输入辅声道通过因子2被首先下采样。使用参考文献[1]的第5.4.4.2款中描述的技术,LP滤波系数也被修改以表示下采样域,代替12.8kHz采样频率。
在ACELP搜索之后,在激励的频域中执行带宽扩展。带宽扩展首先将较低谱带能量复制到较高带中。为了复制谱带能量,前9个(9)谱带的能量Gbd(i)如参考文献[1]的第5.2.3.5.7款描述的那样得到,并且后面的带如关系式(18)所示被填充:
Gbd(i)=Gbd(16-i-1),其中i=8,…,15. (18)
然后,使用关系式(19)使用较低波段频率内容来占据(populated)如参考文献[1]的第5.2.3.5.9款中描述的频域中表示的激励向量的高频内容fd(k):
fd(k)=fd(k-Pb),其中k=128,…,255, (19)
其中音高偏移Pb基于如参考文献[1]的第5.2.3.1.4.1款中描述的音高信息的倍数,并如关系式(20)中所示被转换为频率盒(bins)的偏移:
其中表示每个子帧的解码音高信息的平均值,Fs是内部采样频率,在该示例实施例中是12.8kHz,并且Fr是频率分辨率。
然后使用在两个(2)子帧模型编码模块855中执行的低速率不活动编码、低速率无声编码或半带通用编码期间得到的编码参数,来构造向多路复用器254/354发送的辅声道比特流206/306,以包括在多路复用的比特流207/307中。
c.辅声道低比特率编码的替换实现
辅声道X的编码可以按照不同的方式实现,具有相同的目标,即,使用最少的比特数,同时实现尽可能好的质量,并同时保持恒定的签名。与LP滤波系数和音高信息的潜在重新使用独立地,辅声道X的编码可部分由可用比特预算驱动。而且,两个(2)子帧模型编码(操作805)可以是半带或全带。在辅声道低比特率编码的这种替代实现中,能重新使用主声道的LP滤波系数和/或音高信息,并且能基于用于编码辅声道X可用的比特预算,来选择两个(2)子帧模型编码。此外,已经通过将子帧长度加倍而不是对其输入/输出参数进行下采样/上采样,而创建了下面呈现的2子帧模型编码。
图15是并发图示了替换立体声声音编码方法和替换立体声声音编码系统的框图。图15的立体声声音编码方法和系统包括图8的方法和系统的几个操作和模块,使用相同的附图标记标识,并且为了简明起见,这里不重复其描述。另外,图15的立体声声音编码方法包括在操作202/302在其编码之前应用于主声道Y的预处理操作1501、音高相干性分析操作1502、无声/不活动判断操作1504、无声/不活动编码判断操作1505以及2/4子帧模型判断操作1506。
子操作1501、1502、1503、1504、1505和1506分别由类似于低复杂度预处理器851的预处理器1551、音高相干性分析器1552、比特分配估计器1553、无声/不活动判断模块1554、无声/不活动编码判断模块1555和2/4子帧模型判断模块1556执行。
为了执行音高相干性分析操作1502,预处理器851和1551向音高相干性分析器1552提供主Y和辅X声道两者的开环音高,分别为OLpitchpri和OLpitchsec。在图16中更详细地示出了图15的音高相干性分析器1552,图16是并发图示了音高相干性分析操作1502的子操作和音高相干性分析器1552的模块的框图。
音高相干性分析操作1502对主声道Y和辅声道X之间的开环音高的相似性执行评估,以判断在编码辅声道X时在什么情况下能重新使用主开环音高。为此,音高相干性分析操作1502包括主声道开环音高加法器1651执行的主声道开环音高加法子操作1601和辅声道开环音高加法器1652执行的辅声道开环音高加法子操作1602。使用减法器1653从来自加法器1651的和中减去来自加法器1652的和(子操作1603)。来自子操作1603的减法结果提供立体声音高相干性。作为非限制性示例,子操作1601和1602中的总和基于每一声道Y和X可用的三(3)个先前的连续开环音高。能例如如参考文献[1]的第5.1.10款中所定义的那样计算开环音高。使用关系式(21)在子操作1601、1602和1603中计算立体声音高相干性Spc
其中pp|s(i)表示主Y和辅X声道的开环音高,并且i表示开环音高的位置。
当立体声音高相干性低于预定阈值Δ时,可以取决于可用比特预算而允许重新使用来自主声道Y的音高信息以编码辅声道X。此外,取决于可用比特预算,可能限制用于具有主Y和辅X声道两者的有声特性的信号的音高信息的重新使用。
为此,音高相干性分析操作1502包括由判断模块1654执行的判断子操作1604,判断模块1654考虑可用比特预算和声音信号的特性(例如由主声道和辅声道编码模式指示)。当判断模块1654检测到可用比特预算是足够的、或者主Y和辅X声道两者的声音信号不具有有声特性时,判断是编码与辅声道X相关的音高信息(1605)。
当判断模块1654为了编码辅声道X的音高信息的目的而检测到可用比特预算低时、或者当用于主Y和辅X声道两者的声音信号具有有声特性时,判断模块比较立体声音高相干性Spc与阈值Δ。当比特预算低时,与其中比特预算更重要(足以编码辅声道X的音高信息)的情况相比,阈值Δ被设置为更大的值。当立体声音高相干性Spc的绝对值小于或等于阈值Δ时,模块1654判断重新使用来自主声道Y的音高信息来编码辅声道X(1607)。当立体声音高相干性Spc的值高于阈值Δ时,模块1654判断编码辅声道X的音高信息(1605)。
确保声道具有有声特性增加了平滑音高演变的可能性,从而通过重新使用主声道的音高来降低添加伪影的风险。作为非限制性示例,当立体声比特预算低于14kb/s并且立体声音高相关性Spc低于或等于6(Δ=6)时,在编码辅声道X时能重新使用主音高信息。根据另一个非限制性示例,如果立体声比特预算高于14kb/s并且低于26kb/s,则主Y和辅X声道两者被看作有声的,并且立体声音高相干性Spc与较低的阈值Δ=3相比,这导致22kb/s的比特率的主声道Y的音高信息的较小重新使用率。
返回参考图15,向比特分配估计器1553供应来自声道混合器251/351的因子β、来自LP滤波相干性分析器856的重新使用主声道LP滤波系数或者使用和编码辅声道LP滤波系数的判断、以及由音高相干性分析器1552确定的音高信息。取决于主声道和辅声道编码要求,比特分配估计器1553向主声道编码器252/352提供用于编码主声道Y的比特预算,并向判断模块1556提供用于编码辅声道X的比特预算。在一个可能的实现中,对于非不活动的(INACTIVE)所有内容,总比特率的一部分被分配给辅声道。然后,辅声道比特率将增加一个量,该量与前面描述的能量归一化(重新缩放)因子ε有关:
Bx=BM+(0.25·ε-0.125)·(Bt-2·BM) (21a)
其中Bx表示分配给辅声道X的比特率,Bt表示可用的总立体声比特率,BM表示分配给辅声道的最小比特率,并且通常大约为总立体声比特率的20%。最后,ε表示上述能量归一化因子。因此,分配给主声道的比特率对应于总立体声比特率和辅声道立体声比特率之间的差值。在替换实现中,辅声道比特率分配可以被描述为:
其中Bx再次表示分配给辅声道X的比特率,Bt表示可用的总立体声比特率并且BM表示分配给辅声道的最小比特率。最后,εidx表示上述能量归一化因子的传送的索引。因此,分配给主声道的比特率对应于总立体声比特率和辅声道比特率之间的差值。在所有情况下,对于不活动内容,辅声道比特率被设置为对于给定一般接近2kb/s的比特率的辅声道的谱形状进行编码所需的最小比特率。
其间,信号分类器852将辅声道X的信号分类提供给判断模块1554。如果判断模块1554判断声音信号是不活动的或无声的,则无声/不活动编码模块1555向多路复用器254/354提供辅声道X的谱形状。作为选择,判断模块1554向判断模块1556通知何时声音信号既不是不活动的也不是无声的。对于这样的声音信号,使用用于编码辅声道X的比特预算,判断模块1556确定是否存在足够数量的可用比特,用于使用四(4)子帧模型通用唯一编码模块854来编码辅声道X;否则,判断模块1556选择使用两(2)子帧模型编码模块855来编码辅声道X。为了选择四子帧模型通用唯一编码模块,一旦所有其他部分被量化或重新使用,可用于辅声道的比特预算必须足够高,以至少将40比特分配到代数码本,包括LP系数和音高信息和增益。
从以上描述将理解的是,在四(4)子帧模型通用唯一编码操作804和对应的四(4)子帧模型通用唯一编码模块854中,为了尽可能低地保持比特率,使用参考文献[1]第5.2.3.1款中描述的ACELP搜索。在四(4)子帧模型通用唯一编码中,来自主声道的音高信息能被重新使用或不重新使用。然后使用在四(4)子帧模型通用唯一编码模块854中的ACELP搜索期间得到的编码参数,以构造辅声道比特流206/306,并且所述编码参数被发送到多路复用器254/354以包含在多路复用的比特流207/307中。
在替代的两(2)子帧模型编码操作805和对应的替代的两(2)子帧模型编码模块855中,与参考文献[1]的条款5.2.3.1中描述的ACELP类似地构造通用编码模型,但是其仅与两个(2)子帧逐帧一起使用。因此,为了这样做,子帧的长度从64个样本增加到128个样本,仍然保持内部采样率为12.8kHz。如果音高相干性分析器1552已经确定重新使用来自主声道Y的音高信息用于编码辅声道X,则计算主声道Y的前两个子帧的音高的平均值,并将其用作辅声道X的前半帧的音高估计值。类似地,计算主声道Y的后两个子帧的音高的平均值并用于辅声道X的后半帧。当从主声道Y重新使用时,对LP滤波系数进行插值,并且通过用第二和第四插值因子替代第一和第三插值因子,修改如参考文献[1]的条款5.2.2.1中所描述的LP滤波系数的插值,以适应两(2)子帧方案。
在图15的实施例中,通过可用于编码辅声道X的比特预算,来驱动在四(4)子帧和两(2)子帧编码方案之间判断的处理。如前所述,辅声道X的比特预算从不同的元素导出,例如可用的总比特预算、因子β或能量归一化因子ε、是否存在时间延迟校正(TDC)模块、是否重新使用LP滤波系数和/或来自主声道Y的音高信息的可能性。
当从主声道Y重新使用LP滤波系数和音高信息两者时、由辅声道X的两(2)子帧编码模型所使用的绝对最小比特率对于通用信号来说大约为2kb/s信号,而用于四(4)子帧编码方案的信号是大约3.6kb/s。对于类似ACELP的编码器,使用二(2)或四(4)子帧编码模型,质量的大部分来自能向代数码本(ACB)搜索分配的比特数,如参考文献[1]的条款5.2.3.1.5中定义的那样。
然后,为了使质量最大化,想法是比较可用于四(4)子帧代数码本(ACB)搜索和两(2)子帧代数码本(ACB)搜索的比特预算,然后考虑所有将编码的内容。例如,对于特定帧,如果存在可用于编码辅声道X的4kb/s(80比特/20ms帧),并且能在需要传送音高信息的同时重新使用LP滤波系数。然后从80比特中去除用于编码用于两(2)子帧和四(4)子帧两者的辅声道信令、辅声道音高信息、增益和代数码本的最小数量的比特,以获得可用于编码代数码本的比特预算。例如,如果至少40比特可用于编码四(4)子帧代数码本,则选择四(4)子帧编码模型,否则使用两(2)子帧方案。
3)近似来自部分比特流的单声道信号
如在前面的描述中所描述的,时域下混合是单声道友好的,这意味着在其中利用传统编解码器编码主声道Y(应该记住,如在前面的描述中提及的,能使用任何合适类型的编码器作为主声道编码器252/352)并且将立体声比特附加到主声道比特流的嵌入式结构的情况下,能剥离立体声比特,并且传统解码器能创建主观上接近假设单声道合成的合成。为此,在对主声道Y进行编码之前,在编码器侧需要简单的能量归一化。通过将主声道Y的能量重新缩放到足以接近声音的单声道信号版本的能量的值,利用传统解码器对主声道Y的解码能类似于通过传统解码器进行的声音的单声道信号版本的解码。能量归一化的函数直接链接到使用关系式(7)计算的线性化的长期相关差G′LR(t),并使用关系式(22)计算:
ε=-0.485·G′LR(t)2+0.9765·G′LR(t)+0.5. (22)
图5中示出了归一化的级别。实际上,代替使用关系式(22),使用查找表将归一化值ε与因子β的每个可能值(在该示例实施例中为31个值)相关。即使在使用集成模型编码立体声声音信号(例如话音和/或音频)时不需要这个额外步骤,当仅解码单声道信号而不解码立体声比特时,这可能是有帮助的。
4)立体声解码和上混合
图10是并发图示了立体声声音解码方法和立体声声音解码系统的框图。图11是图示了图10的立体声声音解码方法和立体声声音解码系统的附加特征的框图。
图10和11的立体声声音解码方法包括由解多路复用器1057实现的解多路复用操作1007、由主声道解码器1054实现的主声道解码操作1004、由辅声道解码器1055实现的辅声道解码操作1005、和由时域通道上混合器1056实现的时域上混合操作1006。辅声道解码操作1005包括如图11所示的由判断模块1151执行的判断操作1101、由四(4)子帧通用解码器1152实现的四(4)子帧通用解码操作1102、和由两(2)子帧通用/无声/不活动解码器1153实现的两(2)子帧通用/无声/不活动解码操作1103。
在立体声音频解码系统中,从编码器接收比特流1001。解多路复用器1057接收比特流1001并从中提取供应到主声道解码器1054、辅声道解码器1055和声道上混合器1056的主声道Y的编码参数(比特流1002)、辅声道X的编码参数(比特流1003)、以及因子β。如前所述,因子β被用作主声道编码器252/352和辅声道编码器253/353两者确定比特率分配的指示符,由此主声道解码器1054和辅声道解码器1055两者正重新使用因子β来适当地解码比特流。
主声道编码参数对应于接收的比特率处的ACELP编码模型,并且可以与传统或修改的EVS编码器相关(这里应该记住,如在前面的描述中所提及的,任何合适类型的编码器可以用作主声道编码器252)。向主声道解码器1054供应比特流1002,以使用类似于参考文献[1]的方法来解码主声道编码参数(编解码器模式1、β、LPC1、音高1、固定码本索引1和增益1,如图11所示),以产生解码的主声道Y’。
辅声道解码器1055使用的辅声道编码参数对应于编码第二声道X所使用的模型,并且可包括:
(a)具有来自主声道Y的LP滤波系数(LPC1)和/或其他编码参数(例如,音高滞后音高1)的重新使用的通用编码模型。辅声道解码器1055的四(4)子帧通用解码器1152(图11)被供应来自解码器1054的主声道Y的LP滤波系数(LPC1)和/或其它编码参数(例如,音高滞后音高1)和/或被供应比特流1003(图11中所示的β、音高2、固定码本索引2和增益2),并且使用与编码模块854(图8)的方法相反的方法来产生解码的辅声道X’。
(b)其他编码模型可以或者可以不重新使用来自主声道Y的LP滤波系数(LPC1)和/或其他编码参数(例如,音高滞后音高1),包括半带通用编码模型、低速率无声编码模型和低速率不活动编码模型。作为示例,不活动编码模型可以重新使用主声道LP滤波系数LPC1。向辅声道解码器1055的两(2)子帧通用/无声/不活动解码器1153(图11)供应来自主声道Y的LP滤波系数(LPC1)和/或其他编码参数(例如,音高滞后音高1)和/或来自比特流1003的辅声道编码参数(图11中所示的编码模式2、β、LPC2、音高2、固定码本索引2和增益2),并使用与编码模块855(图8)的方法相反的方法以产生解码的辅声道X’。
接收到的与辅声道X对应的编码参数(比特流1003)包含与正在使用的编码模型相关的信息(编解码器模式2)。判断模块1151使用该信息(编解码器模式2)以确定并向四(4)子帧通用解码器1152和两(2)子帧通用/无声/不活动解码器1153指示哪个编码模型将被使用。
在嵌入结构的情况下,因子β用来恢复在解码器侧的查找表(未示出)中存储的能量缩放索引,并且用来在执行时域上混合操作1006之前重新缩放主声道Y’。最后将因子β供应到声道上混合器1056,并用于对解码后的主Y’和辅X’声道进行上混合。使用关系式(23)和(24),执行时域上混合操作1006作为下混合关系式(9)和(10)的逆,以获得解码的右R’和左L’声道:
其中n=0、……、N-1是帧中的样本的索引,并且t是帧索引。
5)时域和频域编码的集成
对于其中使用频域编码模式的本技术的应用,还构想了在频域中执行时间下混合,以节省一些复杂度或简化数据流。在这种情况下,对所有谱系数应用相同的混合因子,以便保持时域下混合的优点。可以观察到,这与每个频带应用谱系数有所不同,如大多数频域下混合应用的情况那样。下混合器456可以适于计算关系式(25.1)和(25.2):
FY(k)=FR(k)·(1-β(t))+FL(k)·β(t) (25.1)
FX(k)=FL(k)·(1-β(t))-FR(k)·β(t), (25.2)
其中FR(k)表示右声道R的频率系数k,并且类似地,FL(k)表示左声道L的频率系数k。然后,通过应用逆频率变换来计算主Y和辅X声道,以获得下混合信号的时间表示。
图17和18示出了能够在主Y和辅X声道的时域和频域编码之间切换的、使用频域下混合的时域立体声编码方法和系统的可能实现。
图17示出了这种方法和系统的第一变型,图17是并发图示了具有时域和频域中的操作能力的、使用时域下混合的立体声编码方法和系统的框图。
在图17中,立体声编码方法和系统包括参照前面附图描述的、并且由相同的附图标记标识的许多先前描述的操作和模块。判断模块1751(判断操作1701)确定来自时间延迟校正器1750的左L’和右R’声道是应该在时域还是在频域中被编码。如果选择时域编码,则图17的立体声编码方法和系统基本上按照与之前附图的立体声编码方法和系统相同的方式操作,例如但不限于如图15的实施例中那样。
如果判断模块1751选择频率编码,则时间频率转换器1752(时间到频率转换操作1702)将左L’和右R’声道转换到频域。频域下混合器1753(频域下混合操作1703)输出主Y和辅X频域声道。通过频率-时间转换器1754(频率-时间转换操作1704)将频域主声道转换回时域,并将得到的时域主声道Y应用于主声道编码器252/352。通过传统参数和/或残差编码器1755(参数和/或残差编码操作1705)来处理来自频域下混合器1753的频域辅声道X。
图18是并发图示了具有时域和频域中的操作能力的、使用频域下混合的其他立体声编码方法和系统的框图。在图18中,该立体声编码方法和系统与图17的立体声编码方法和系统类似,并且将仅描述新的操作和模块。
时域分析器1851(时域分析操作1801)代替先前描述的时域声道混合器251/351(时域下混合操作201/301)。时域分析器1851包括图4的大部分模块,但没有时域下混合器456。由此,其作用大部分在于提供因子β的计算。该因子β被供应到预处理器851和频域到时域转换器1852和1853(频域到时域转换操作1802和1803),频域到时域转换操作1802和1803分别将从频域下混合器1753接收的频域辅X和主Y声道转换到时域,用于时域编码。因此,转换器1852的输出是提供给预处理器851的时域辅声道X,而转换器1852的输出是时域主声道Y,其被提供给预处理器1551和编码器252/352两者。
6)示例硬件配置
图12是形成上面描述的立体声声音编码系统和立体声声音解码系统的每一个的硬件组件的示例配置的简化框图。
立体声声音编码系统和立体声声音解码系统中的每一个可以实现为移动终端的一部分、便携式媒体播放器的一部分或者任何类似的设备。立体声声音编码系统和立体声声音解码系统中的每一个(在图12中标识为1200)包括输入1202、输出1204、处理器1206和存储器1208。
输入1202被配置为在立体声声音编码系统的情况下以数字或模拟形式接收输入立体声声音信号的左L和右R声道,或者在立体声声音解码系统的情况下接收比特流1001。输出1204被配置为在立体声声音编码系统的情况下供应多路复用的比特流207/307,或者在立体声声音解码系统的情况下供应解码的左声道L’和右声道R’。输入1202和输出1204可以在公共模块中实现,例如串行输入/输出设备。
处理器1206可操作地连接到输入1202、输出1204和存储器1208。处理器1206被实现为用于执行支持如图2、3、4、8、9、13、14、15、16、17和18所示的立体声声音编码系统以及如图10和11所示的立体声声音解码系统的每一系统的各个模块的功能的、代码指令的一个或多个处理器。
存储器1208可以包括用于存储可由处理器1206执行的代码指令的非瞬时存储器,具体地,包括非瞬时指令的处理器可读存储器,所述非瞬时指令当运行时,使得处理器实现本公开中描述的立体声声音编码方法和系统以及立体声声音解码方法和系统的操作和模块。存储器1208还可以包括随机存取存储器或(多个)缓冲器,以存储来自处理器1206执行的各种功能的中间处理数据。
本领域的普通技术人员将认识到立体声声音编码方法和系统以及立体声声音解码方法和系统的描述仅仅是说明性的,并不意欲以任何方式进行限制。受益于本公开的本领域普通技术人员将容易想到其他实施例。此外,可以定制所公开的立体声声音编码方法和系统以及立体声声音解码方法和系统,以针对现有的编码和解码立体声声音的需求和问题提供有价值的解决方案。
为了清楚起见,并未示出和描述立体声声音编码方法和系统以及立体声声音解码方法和系统的实现的所有常规特征。当然,将理解的是,在立体声声音编码方法和系统以及立体声声音解码方法和系统的任何这种实际实现的开发中,可能需要做出许多实现特定的判断,以实现开发者的特定目标,例如遵守与应用、系统、网络和业务相关的约束条件,并且这些特定目标将随着实现的不同以及开发人员的不同而变化。此外,将认识到,开发工作可能是复杂和耗时的,但是对于受益于本公开的声音处理领域的普通技术人员而言仍然是工程的常规任务。
根据本公开,可以使用各种类型的操作系统、计算平台、网络设备、计算机程序和/或通用目的机器,来实现这里描述的模块、处理操作和/或数据结构。另外,本领域的普通技术人员将认识到,也可以使用诸如硬连线设备、现场可编程门阵列(FPGA)、特定用途集成电路(ASIC)等的具有较少通用目的性质的设备。在包括一系列操作和子操作的方法由处理器、计算机或机器实现、并且这些操作和子操作可以作为处理器、计算机或机器可读取的一系列非瞬时代码指令存储的情况下,它们可以存储在有形和/或非瞬时介质上。
如本文所述的立体声声音编码方法和系统以及立体声声音解码方法和解码器的模块可以包括适于本文描述的目的的软件、固件、硬件或软件、固件或硬件的任何(多种)组合。
在这里描述的立体声声音编码方法和立体声声音解码方法中,可以按照各种顺序执行各种操作和子操作,并且一些操作和子操作可以是可选的。
尽管上文已经通过其非限制性的说明性实施例描述了本公开,但是这些实施例可以在所附权利要求的范围内随意修改,而不脱离本公开的精神和本质。
参考文献
以下参考文献在本申请中引用,并且其全部内容通过引用合并在这里。
[1]3GPP TS 26.445,v.12.0.0,“Codec for Enhanced Voice Services(EVS);Detailed Algorithmic Description”,Sep 2014.
[2]M.Neuendorf,M.Multrus,N.Rettelbach,G.Fuchs,J.Robillard,J.Lecompte,S.Wilde,S.Bayer,S.Disch,C.Helmrich,R.Lefevbre,P.Gournay,et al.,“The ISO/MPEGUnified Speech and Audio Coding Standard-Consistent High Quality for AllContent Types and at All Bit Rates”,J.Audio Eng.Soc.,vol.61,no.12,pp.956-977,Dec.2013.
[3]B.Bessette,R.Salami,R.Lefebvre,M.Jelinek,J.Rotola-Pukkila,J.Vainio,H.Mikkola,and K."The Adaptive Multi-Rate Wideband SpeechCodec(AMR-WB),"Special Issue of IEEE Trans.Speech and Audio Proc.,Vol.10,pp.620-636,November 2002.
[4]R.G.van der Waal&R.N.J.Veldhuis,”Subband coding of stereophonicdigital audio signals”,Proc.IEEE ICASSP,Vol.5,pp.3601-3604,April 1991
[5]Dai Yang,Hongmei Ai,Chris Kyriakakis and C.-C.Jay Kuo,“High-Fidelity Multichannel Audio Coding With Karhunen-Loève Transform”,IEEETrans.Speech and Audio Proc.,Vol.11,No.4,pp.365-379,July 2003.
[6]J.Breebaart,S.van de Par,A.Kohlrausch and E.Schuijers,“ParametricCoding of Stereo Audio”,EURASIP Journal on Applied Signal Processing,Issue 9,pp.1305-1322,2005
[7]3GPP TS 26.290 V9.0.0,“Extended Adaptive Multi-Rate–Wideband(AMR-WB+)codec;Transcoding functions(Release 9)”,September 2009.
[8]Jonathan A.Gibbs,“Apparatus and method for encoding a multi-channel audio signal”,US 8577045 B2

Claims (31)

1.一种在立体声声音信号编码系统中实现的、用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的方法,包括:
与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性;
基于所述左声道的归一化相关性与所述右声道的归一化相关性,确定长期相关差;
将该长期相关差转换为因子β;和
使用该因子β对所述左和右声道进行混合以产生主和辅声道,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
2.根据权利要求1的时域下混合方法,包括:
确定所述左和右声道的每一个的能量;
使用所述左声道的能量确定所述左声道的长期能量值,并使用所述右声道的能量确定所述右声道的长期能量值;和
使用所述左声道的长期能量值确定所述左声道中的能量的趋势,并使用所述右声道的长期能量值确定所述右声道中的能量的趋势。
3.根据权利要求2的时域下混合方法,其中确定长期相关差包括:
使用利用所述左和右声道中的能量的趋势所确定的长期相关差的收敛速度,来使得所述左和右声道的归一化相关性平滑;和
使用平滑的归一化相关性,来确定该长期相关差。
4.根据权利要求1到3的任一个的时域下混合方法,其中将该长期相关差转换为因子β包括:
对该长期相关差进行线性化;和
将所述线性化的长期相关差映射到给定函数,以产生因子β。
5.根据权利要求1到4的任一个的时域下混合方法,其中对左和右声道进行混合包括使用以下关系式,以从左声道和右声道产生主声道和辅声道:
Y(i)=R(i)·(1-β(t))+L(i)·β(t)
X(i)=L(i)·(1-β(t))-R(i)·β(t)
其中Y(i)表示主声道,X(i)表示辅声道,L(i)表示左声道,R(i)表示右声道,并且β(t)表示因子β。
6.根据权利要求1到5的任一个的时域下混合方法,其中该因子β表示(a)左和右声道对主声道的相应贡献,和(b)向主声道应用以获得声音的单声道信号版本的能量缩放因子两者。
7.根据权利要求1到6的任一个的时域下混合方法,包括对因子β进行量化,并将量化的因子β传送到解码器。
8.根据权利要求7的时域下混合方法,包括检测其中右和左声道反相的特殊情况,其中对因子β进行量化包括用向解码器传送的索引表示因子β,并且其中使用该索引的给定值以信令传输所述右和左声道反相的特殊情况。
9.根据权利要求7的时域下混合方法,其中:
使用索引将量化的因子β传送到解码器;和
该因子β表示(a)左和右声道对主声道的相应贡献,和(b)向主声道应用以获得声音的单声道信号版本的能量缩放因子两者,由此向解码器传送的索引利用相同数目比特传递两个不同信息元素。
10.根据权利要求1到9的任一个的时域下混合方法,包括与因子β的值相关地在辅声道上增加或减少用于时域下混合的重点。
11.根据权利要求10的时域下混合方法,包括:当不使用时域校正(TDC)时,当因子β接近0.5时,增加辅声道上的重点,并且当因子β接近1.0或0.0时,减少辅声道上的重点。
12.根据权利要求10的时域下混合方法,包括:当使用时域校正(TDC)时,当因子β接近0.5时,减少辅声道上的重点,并且当因子β接近1.0或0.0时,增加辅声道上的重点。
13.根据权利要求1、2和4到9的任一个的时域下混合方法,包括:在确定长期相关差之前,向所述左和右声道的归一化相关性直接应用预调节因子。
14.根据权利要求13的时域下混合方法,包括:响应于(a)长期左和右声道能量值、(b)先前帧的帧分类、和(c)来自先前帧的语音活动信息,来计算预调节因子。
15.一种用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的系统,包括:
归一化相关性分析器,用于与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性;
基于所述左声道的归一化相关性与所述右声道的归一化相关性的长期相关差的计算器;
将该长期相关差转换为因子β的转换器;和
使用该因子β对左和右声道进行混合以产生主和辅声道的混合器,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
16.根据权利要求15的时域下混合系统,包括:
能量分析器,用于确定(a)所述左和右声道的每一个的能量,和(b)使用所述左声道的能量确定所述左声道的长期能量值,并使用所述右声道的能量确定所述右声道的长期能量值;和
能量趋势分析器,用于使用所述左声道的长期能量值确定所述左声道中的能量的趋势,并使用所述右声道的长期能量值确定所述右声道中的能量的趋势。
17.根据权利要求16的时域下混合系统,其中所述长期相关差的计算器:
使用利用所述左和右声道中的能量的趋势所确定的长期相关差的收敛速度,来使得所述左和右声道的归一化相关性平滑;和
使用平滑的归一化相关性,来确定该长期相关差。
18.根据权利要求15到17的任一个的时域下混合系统,其中将该长期相关差转换为因子β的转换器:
对该长期相关差进行线性化;和
将所述线性化的长期相关差映射到给定函数,以产生因子β。
19.根据权利要求15到18的任一个的时域下混合系统,其中该混合器使用以下关系式,以从左声道和右声道产生主声道和辅声道:
Y(i)=R(i)·(1-β(t))+L(i)·β(t)
X(i)=L(i)·(1-β(t))-R(i)·β(t)
其中Y(i)表示主声道,X(i)表示辅声道,L(i)表示左声道,R(i)表示右声道,并且β(t)表示因子β。
20.根据权利要求15到19的任一个的时域下混合系统,其中该因子β表示(a)左和右声道对主声道的相应贡献,和(b)向主声道应用以获得声音的单声道信号版本的能量缩放因子两者。
21.根据权利要求15到20的任一个的时域下混合系统,包括因子β的量化器,其中将量化的因子β传送到解码器。
22.根据权利要求21的时域下混合系统,包括其中右和左声道反相的特殊情况的检测器,其中因子β的量化器用向解码器传送的索引表示因子β,并且其中使用该索引的给定值以信令传输所述右和左声道反相的特殊情况。
23.根据权利要求21的时域下混合系统,其中:
使用索引将量化的因子β传送到解码器;和
该因子β表示(a)左和右声道对主声道的相应贡献,和(b)向主声道应用以获得声音的单声道信号版本的能量缩放因子两者,由此向解码器传送的索引利用相同数目比特传递两个不同信息元素。
24.根据权利要求15到23的任一个的时域下混合系统,包括用于与因子β的值相关地在辅声道上增加或减少用于时域下混合的重点的部件。
25.根据权利要求24的时域下混合系统,包括:用于当不使用时域校正(TDC)时、当因子β接近0.5时、增加辅声道上的重点、并且当因子β接近1.0或0.0时、减少辅声道上的重点的部件。
26.根据权利要求24的时域下混合系统,包括:用于当使用时域校正(TDC)时、当因子β接近0.5时、减少辅声道上的重点、并且当因子β接近1.0或0.0时、增加辅声道上的重点的部件。
27.根据权利要求15、16和18-23的任一个的时域下混合系统,包括:预调节因子计算器,用于在确定长期相关差之前,向所述左和右声道的归一化相关性直接应用预调节因子。
28.根据权利要求27的时域下混合系统,其中所述预调节因子计算器响应于(a)长期左和右声道能量值、(b)先前帧的帧分类、和(c)来自先前帧的语音活动信息,来计算预调节因子。
29.一种用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的系统,包括:
至少一个处理器;和
存储器,耦接到该处理器,并且包括非瞬时指令,所述指令当运行时促使该处理器实现:
归一化相关性分析器,用于与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性;
基于所述左声道的归一化相关性与所述右声道的归一化相关性的长期相关差的计算器;
将该长期相关差转换为因子β的转换器;和
使用该因子β对左和右声道进行混合以产生主和辅声道的混合器,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
30.一种用于将输入立体声声音信号的右和左声道时域下混合为主和辅声道的系统,包括:
至少一个处理器;和
存储器,耦接到该处理器,并且包括非瞬时指令,所述指令当运行时促使该处理器:
与该声音的单声道信号版本相关地确定所述左声道和右声道的归一化相关性;
基于所述左声道的归一化相关性与所述右声道的归一化相关性,确定长期相关差;
将该长期相关差转换为因子β;和
使用该因子β对左和右声道进行混合以产生主和辅声道,其中该因子β确定在所述主和辅声道的产生时、所述左和右声道的相应贡献。
31.一种处理器可读存储器,包括非瞬时指令,所述指令当运行时,促使处理器实现权利要求1到14的任一个中阐述的方法的操作。
CN201680062618.8A 2015-09-25 2016-09-22 将立体声信号时域下混合为主和辅声道的使用左和右声道之间的长期相关差的方法和系统 Active CN108352164B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562232589P 2015-09-25 2015-09-25
US62/232,589 2015-09-25
US201662362360P 2016-07-14 2016-07-14
US62/362,360 2016-07-14
PCT/CA2016/051106 WO2017049397A1 (en) 2015-09-25 2016-09-22 Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels

Publications (2)

Publication Number Publication Date
CN108352164A true CN108352164A (zh) 2018-07-31
CN108352164B CN108352164B (zh) 2022-12-06

Family

ID=58385516

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201680062618.8A Active CN108352164B (zh) 2015-09-25 2016-09-22 将立体声信号时域下混合为主和辅声道的使用左和右声道之间的长期相关差的方法和系统
CN201680062546.7A Active CN108352162B (zh) 2015-09-25 2016-09-22 用于使用主声道的编码参数编码立体声声音信号以编码辅声道的方法和系统
CN202310177584.9A Pending CN116343802A (zh) 2015-09-25 2016-09-22 立体声声音解码方法和立体声声音解码系统
CN201680062619.2A Active CN108352163B (zh) 2015-09-25 2016-09-22 用于解码立体声声音信号的左和右声道的方法和系统

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN201680062546.7A Active CN108352162B (zh) 2015-09-25 2016-09-22 用于使用主声道的编码参数编码立体声声音信号以编码辅声道的方法和系统
CN202310177584.9A Pending CN116343802A (zh) 2015-09-25 2016-09-22 立体声声音解码方法和立体声声音解码系统
CN201680062619.2A Active CN108352163B (zh) 2015-09-25 2016-09-22 用于解码立体声声音信号的左和右声道的方法和系统

Country Status (17)

Country Link
US (8) US10325606B2 (zh)
EP (8) EP3699909A1 (zh)
JP (6) JP6804528B2 (zh)
KR (3) KR20180056662A (zh)
CN (4) CN108352164B (zh)
AU (1) AU2016325879B2 (zh)
CA (5) CA2997296C (zh)
DK (1) DK3353779T3 (zh)
ES (4) ES2904275T3 (zh)
HK (4) HK1253570A1 (zh)
MX (4) MX2018003703A (zh)
MY (2) MY188370A (zh)
PL (1) PL3353779T3 (zh)
PT (1) PT3353779T (zh)
RU (6) RU2728535C2 (zh)
WO (5) WO2017049398A1 (zh)
ZA (2) ZA201801675B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111988726A (zh) * 2019-05-06 2020-11-24 深圳市三诺数字科技有限公司 一种立体声合成单声道的方法和系统
CN112233682A (zh) * 2019-06-29 2021-01-15 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY188370A (en) 2015-09-25 2021-12-06 Voiceage Corp Method and system for decoding left and right channels of a stereo sound signal
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN117351965A (zh) * 2016-09-28 2024-01-05 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
CN110419079B (zh) 2016-11-08 2023-06-27 弗劳恩霍夫应用研究促进协会 用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器
CN108269577B (zh) * 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
WO2018189414A1 (en) * 2017-04-10 2018-10-18 Nokia Technologies Oy Audio coding
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
CN109300480B (zh) 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN109389984B (zh) * 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389987B (zh) 2017-08-10 2022-05-10 华为技术有限公司 音频编解码模式确定方法和相关产品
CN117292695A (zh) * 2017-08-10 2023-12-26 华为技术有限公司 时域立体声参数的编码方法和相关产品
CN113782039A (zh) * 2017-08-10 2021-12-10 华为技术有限公司 时域立体声编解码方法和相关产品
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
CN109427337B (zh) 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
RU2744362C1 (ru) * 2017-09-20 2021-03-05 Войсэйдж Корпорейшн Способ и устройство для эффективного распределения битового бюджета в celp-кодеке
CN109859766B (zh) * 2017-11-30 2021-08-20 华为技术有限公司 音频编解码方法和相关产品
CN110556118B (zh) * 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
CN110556119B (zh) * 2018-05-31 2022-02-18 华为技术有限公司 一种下混信号的计算方法及装置
CN114708874A (zh) 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
CN115831130A (zh) * 2018-06-29 2023-03-21 华为技术有限公司 立体声信号的编码方法、解码方法、编码装置和解码装置
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
EP3928315A4 (en) * 2019-03-14 2022-11-30 Boomcloud 360, Inc. SPATIALLY SENSITIVE MULTIBAND COMPRESSION SYSTEM WITH PRIORITY
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
CN112151045A (zh) 2019-06-29 2020-12-29 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
CA3146169A1 (en) * 2019-08-01 2021-02-04 Dolby Laboratories Licensing Corporation Encoding and decoding ivas bitstreams
CN110534120B (zh) * 2019-08-31 2021-10-01 深圳市友恺通信技术有限公司 一种移动网络环境下的环绕声误码修复方法
CN110809225B (zh) * 2019-09-30 2021-11-23 歌尔股份有限公司 一种应用于立体声系统的自动校准喇叭的方法
US10856082B1 (en) * 2019-10-09 2020-12-01 Echowell Electronic Co., Ltd. Audio system with sound-field-type nature sound effect
WO2021181746A1 (ja) * 2020-03-09 2021-09-16 日本電信電話株式会社 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
CN115280411A (zh) 2020-03-09 2022-11-01 日本电信电话株式会社 声音信号缩混方法、声音信号编码方法、声音信号缩混装置、声音信号编码装置、程序及记录介质
WO2021181473A1 (ja) * 2020-03-09 2021-09-16 日本電信電話株式会社 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
CN115244619A (zh) 2020-03-09 2022-10-25 日本电信电话株式会社 声音信号编码方法、声音信号解码方法、声音信号编码装置、声音信号解码装置、程序以及记录介质
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置
CN111599381A (zh) * 2020-05-29 2020-08-28 广州繁星互娱信息科技有限公司 音频数据处理方法、装置、设备及计算机存储介质
EP4243015A4 (en) * 2021-01-27 2024-04-17 Samsung Electronics Co Ltd AUDIO PROCESSING APPARATUS AND METHOD

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009200407A1 (en) * 2005-02-14 2009-02-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Parametric joint-coding of audio sources
US20090150162A1 (en) * 2004-11-30 2009-06-11 Matsushita Electric Industrial Co., Ltd. Stereo encoding apparatus, stereo decoding apparatus, and their methods
CN101826326A (zh) * 2009-03-04 2010-09-08 华为技术有限公司 一种立体声编码方法、装置和编码器
US20120224702A1 (en) * 2009-11-12 2012-09-06 Koninklijke Philips Electronics N.V. Parametric encoding and decoding

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01231523A (ja) * 1988-03-11 1989-09-14 Fujitsu Ltd ステレオ信号符号化装置
JPH02124597A (ja) * 1988-11-02 1990-05-11 Yamaha Corp 複数チャンネルの信号圧縮方法
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
EP1054575A3 (en) 1999-05-17 2002-09-18 Bose Corporation Directional decoding
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
AU2003209957A1 (en) * 2002-04-10 2003-10-20 Koninklijke Philips Electronics N.V. Coding of stereo signals
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
JP2005202248A (ja) 2004-01-16 2005-07-28 Fujitsu Ltd オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
BRPI0516201A (pt) * 2004-09-28 2008-08-26 Matsushita Electric Ind Co Ltd aparelho de codificação escalonável e método de codificação escalonável
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
CN101124740B (zh) * 2005-02-23 2012-05-30 艾利森电话股份有限公司 多声道音频信号编码和解码的方法和装置和音频传送系统
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US20090281798A1 (en) * 2005-05-25 2009-11-12 Koninklijke Philips Electronics, N.V. Predictive encoding of a multi channel signal
US8227369B2 (en) 2005-05-25 2012-07-24 Celanese International Corp. Layered composition and processes for preparing and using the composition
KR100857102B1 (ko) * 2005-07-29 2008-09-08 엘지전자 주식회사 인코딩된 오디오 신호 생성 및 처리 방법
KR101340233B1 (ko) * 2005-08-31 2013-12-10 파나소닉 주식회사 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
KR100866885B1 (ko) 2005-10-20 2008-11-04 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP2007183528A (ja) 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
BRPI0707969B1 (pt) * 2006-02-21 2020-01-21 Koninklijke Philips Electonics N V codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
CN101411214B (zh) * 2006-03-28 2011-08-10 艾利森电话股份有限公司 用于多信道环绕声音的解码器的方法和装置
CN103400583B (zh) 2006-10-16 2016-01-20 杜比国际公司 多声道下混对象编码的增强编码和参数表示
WO2008132826A1 (ja) * 2007-04-20 2008-11-06 Panasonic Corporation ステレオ音声符号化装置およびステレオ音声符号化方法
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
JP5883561B2 (ja) * 2007-10-17 2016-03-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ アップミックスを使用した音声符号器
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
US8103005B2 (en) 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
EP2264698A4 (en) 2008-04-04 2012-06-13 Panasonic Corp STEREO SIGNAL CONVERTER, STEREO SIGNAL INVERTER AND METHODS THEREOF
JP5555707B2 (ja) 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
BRPI1009467B1 (pt) * 2009-03-17 2020-08-18 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
US8666752B2 (en) 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
MY166169A (en) * 2009-10-20 2018-06-07 Fraunhofer Ges Forschung Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
BR112012025878B1 (pt) * 2010-04-09 2021-01-05 Dolby International Ab sistema decodificador, sistema codificador, método de decodificação e método de codificação.
US8463414B2 (en) * 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
PL2633521T3 (pl) * 2010-10-25 2019-01-31 Voiceage Corporation Kodowanie zwykłych sygnałów audio przy małych przepływnościach bitowych i małym opóźnieniu
ES2553398T3 (es) * 2010-11-03 2015-12-09 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
EP2834814B1 (en) * 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
ES2560402T3 (es) * 2012-04-05 2016-02-18 Huawei Technologies Co., Ltd Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2956935B1 (en) * 2013-02-14 2017-01-04 Dolby Laboratories Licensing Corporation Controlling the inter-channel coherence of upmixed audio signals
TWI774136B (zh) * 2013-09-12 2022-08-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
WO2015099424A1 (ko) * 2013-12-23 2015-07-02 주식회사 윌러스표준기술연구소 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
CN106463125B (zh) * 2014-04-25 2020-09-15 杜比实验室特许公司 基于空间元数据的音频分割
MY188370A (en) 2015-09-25 2021-12-06 Voiceage Corp Method and system for decoding left and right channels of a stereo sound signal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150162A1 (en) * 2004-11-30 2009-06-11 Matsushita Electric Industrial Co., Ltd. Stereo encoding apparatus, stereo decoding apparatus, and their methods
AU2009200407A1 (en) * 2005-02-14 2009-02-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Parametric joint-coding of audio sources
CN101826326A (zh) * 2009-03-04 2010-09-08 华为技术有限公司 一种立体声编码方法、装置和编码器
US20110317843A1 (en) * 2009-03-04 2011-12-29 Yue Lang Stereo encoding method, stereo encoding device, and encoder
EP2405424A1 (en) * 2009-03-04 2012-01-11 Huawei Technologies Co., Ltd. Stereo coding method, device and encoder
US20120224702A1 (en) * 2009-11-12 2012-09-06 Koninklijke Philips Electronics N.V. Parametric encoding and decoding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUE LANG等: "《Novel low complexity coherence estimation and synthesis algorithms for parametric stereo coding 》", 《2012 PROCEEDINGS OF THE 20TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO)》 *
吴连火: "《参数立体声编码的研究与实现》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111988726A (zh) * 2019-05-06 2020-11-24 深圳市三诺数字科技有限公司 一种立体声合成单声道的方法和系统
CN112233682A (zh) * 2019-06-29 2021-01-15 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置

Also Published As

Publication number Publication date
JP2021131569A (ja) 2021-09-09
RU2020125468A3 (zh) 2021-11-26
CA2997513A1 (en) 2017-03-30
EP3353777B1 (en) 2023-06-21
JP6976934B2 (ja) 2021-12-08
AU2016325879B2 (en) 2021-07-08
CA2997296A1 (en) 2017-03-30
JP2018533056A (ja) 2018-11-08
US20180268826A1 (en) 2018-09-20
US10325606B2 (en) 2019-06-18
EP3353780B1 (en) 2021-12-01
MY186661A (en) 2021-08-04
KR20180056661A (ko) 2018-05-29
KR102636424B1 (ko) 2024-02-15
CN108352164B (zh) 2022-12-06
EP3353778B1 (en) 2023-07-05
JP2018533057A (ja) 2018-11-08
WO2017049400A1 (en) 2017-03-30
JP6887995B2 (ja) 2021-06-16
US10522157B2 (en) 2019-12-31
HK1253569A1 (zh) 2019-06-21
RU2018114899A (ru) 2019-10-25
MY188370A (en) 2021-12-06
RU2018114899A3 (zh) 2020-02-25
ES2949991T3 (es) 2023-10-04
PT3353779T (pt) 2020-07-31
EP4235659A2 (en) 2023-08-30
EP3353778A4 (en) 2019-05-08
WO2017049399A1 (en) 2017-03-30
RU2018114898A (ru) 2019-10-25
US20180233154A1 (en) 2018-08-16
EP3353780A4 (en) 2019-05-22
CN108352162B (zh) 2023-05-09
PL3353779T3 (pl) 2020-11-16
KR102636396B1 (ko) 2024-02-15
US10319385B2 (en) 2019-06-11
HK1257684A1 (zh) 2019-10-25
KR20180059781A (ko) 2018-06-05
WO2017049398A1 (en) 2017-03-30
US20180277126A1 (en) 2018-09-27
EP3353777B8 (en) 2023-08-23
RU2763374C2 (ru) 2021-12-28
CN108352163B (zh) 2023-02-21
RU2729603C2 (ru) 2020-08-11
ES2809677T3 (es) 2021-03-05
RU2730548C2 (ru) 2020-08-24
JP7124170B2 (ja) 2022-08-23
CN108352162A (zh) 2018-07-31
US10984806B2 (en) 2021-04-20
JP2022028765A (ja) 2022-02-16
EP3353777A1 (en) 2018-08-01
CA2997296C (en) 2023-12-05
EP3699909A1 (en) 2020-08-26
EP3353784A4 (en) 2019-05-22
JP7140817B2 (ja) 2022-09-21
US11056121B2 (en) 2021-07-06
DK3353779T3 (da) 2020-08-10
EP3353779A1 (en) 2018-08-01
ZA202003500B (en) 2022-06-29
CN116343802A (zh) 2023-06-27
US20190237087A1 (en) 2019-08-01
EP4235659A3 (en) 2023-09-06
WO2017049397A1 (en) 2017-03-30
US10573327B2 (en) 2020-02-25
AU2016325879A1 (en) 2018-04-05
US20190228785A1 (en) 2019-07-25
ES2904275T3 (es) 2022-04-04
CN108352163A (zh) 2018-07-31
EP3353778A1 (en) 2018-08-01
WO2017049396A1 (en) 2017-03-30
ES2955962T3 (es) 2023-12-11
HK1259477A1 (zh) 2019-11-29
JP2018533058A (ja) 2018-11-08
RU2018114901A3 (zh) 2020-03-10
US20180286415A1 (en) 2018-10-04
JP7244609B2 (ja) 2023-03-22
EP3353777A4 (en) 2019-05-15
MX2021005090A (es) 2023-01-04
JP6804528B2 (ja) 2020-12-23
MX2018003242A (es) 2018-09-26
US20180261231A1 (en) 2018-09-13
US20190228784A1 (en) 2019-07-25
KR20180056662A (ko) 2018-05-29
JP2021047431A (ja) 2021-03-25
CA2997331A1 (en) 2017-03-30
RU2018114898A3 (zh) 2020-02-11
RU2728535C2 (ru) 2020-07-30
RU2020125468A (ru) 2020-09-24
RU2020124137A (ru) 2020-09-04
RU2765565C2 (ru) 2022-02-01
US10839813B2 (en) 2020-11-17
EP3353780A1 (en) 2018-08-01
EP3961623A1 (en) 2022-03-02
RU2020124137A3 (zh) 2021-11-12
HK1253570A1 (zh) 2019-06-21
EP3353784A1 (en) 2018-08-01
RU2764287C1 (ru) 2022-01-17
ZA201801675B (en) 2020-09-30
CA2997334A1 (en) 2017-03-30
CA2997331C (en) 2023-12-05
EP3353779B1 (en) 2020-06-24
EP3353779A4 (en) 2019-08-07
MX2021006677A (es) 2023-03-01
US10339940B2 (en) 2019-07-02
CA2997332A1 (en) 2017-03-30
RU2018114901A (ru) 2019-10-28
MX2018003703A (es) 2018-04-30

Similar Documents

Publication Publication Date Title
CN108352164A (zh) 将立体声信号时域下混合为主和辅声道的使用左和右声道之间的长期相关差的方法和系统
US20210027794A1 (en) Method and system for decoding left and right channels of a stereo sound signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1253570

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant