CN101809655B - 用于编码多信道音频信号的设备和方法 - Google Patents

用于编码多信道音频信号的设备和方法 Download PDF

Info

Publication number
CN101809655B
CN101809655B CN2008801087221A CN200880108722A CN101809655B CN 101809655 B CN101809655 B CN 101809655B CN 2008801087221 A CN2008801087221 A CN 2008801087221A CN 200880108722 A CN200880108722 A CN 200880108722A CN 101809655 B CN101809655 B CN 101809655B
Authority
CN
China
Prior art keywords
signal
sound signal
channel audio
multi channel
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008801087221A
Other languages
English (en)
Other versions
CN101809655A (zh
Inventor
乔纳森·阿拉斯泰尔·吉布斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of CN101809655A publication Critical patent/CN101809655A/zh
Application granted granted Critical
Publication of CN101809655B publication Critical patent/CN101809655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M3/00Conversion of analogue values to or from differential modulation
    • H03M3/30Delta-sigma modulation
    • H03M3/458Analogue/digital converters using delta-sigma modulation as an intermediate step
    • H03M3/466Multiplexed conversion systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种编码设备包括:帧处理器(105),该帧处理器(105)接收至少包括来自第一麦克风(101)的第一音频信号和来自第二麦克风(103)的第二音频信号的多信道音频信号。然后,ITD处理器(107)确定在第一音频信号和第二音频信号之间的间隔时间差,并且一组延迟装置(109、111)响应于间隔时间差信号通过延迟第一和第二音频信号中的至少一个来从多信道音频信号中生成补偿的多信道音频信号。然后,合并器(113)通过合并补偿的多信道音频信号的信道来生成单声道信号,并且单声道信号编码器(115)编码该单声道信号。可以基于确定在第一和第二音频信号之间的互相关通过算法来具体地地确定间隔时间差。

Description

用于编码多信道音频信号的设备和方法
技术领域
本发明涉及用于编码多信道音频信号的设备和方法,并且具体地但不排他性地,涉及将立体声语音信号下混合为用于通过诸如码激励线性预测编码器的单声道编码器编码的单声道信号。
背景技术
对于越来越多的应用和系统,音频信号的有效编码是必需的。例如,移动通信使用有效语音编码器来减少需要通过空中接口来传送的数据量。
例如,国际电信联盟(ITU)正在标准化被称为嵌入式可变比特速率编解码器(EV-VBR)的语音编码器,其可以以从8到64kbps范围的数据速率高质量地编码语音信号。该编码器以及许多其他的有效语音编码器使用码激励线性预测(CELP)技术来以操作的较低比特速率实现编码处理的高压缩比率。
在一些应用中,可能捕获多于一个的音频信号,并且特定地,可以使用两个麦克风来将立体声信号记录在音频系统中。例如,立体声记录通常可以在音频和视频会议以及广播应用中使用。
在许多多信道编码系统中,并且特定地,在许多多信道语音编码系统中,低水平的编码基于单信道的编码。在这样的系统中,多信道信号可以被转换为单声道信号,以供由编码器的较低层来进行编码。该单声道信号的生成称为下混合,这样的下混合可以与描述相对于单声道信号的立体声信号的各方面的参数相关联。特定地,下混合可以生成信道间时间差(ITD)信息,其表征在左右信道之间的定时差。例如,如果两个麦克风彼此远离,则来自比另一个更接近一个麦克风的扬声器的信号将以相对于第一个的延迟到达后一个麦克风。该ITD可以被确定,并且可以在解码器中被使用,以从单声道信号中再现立体声信号。因为已经发现ITD是对用于低于大约1kHz的频率的立体声位置(stereo location)的主要感知影响,所以ITD可以显著地改善再现的立体声立体感的质量。因此,还估计ITD是必需的。
传统地,通过将立体声信号相加在一起来生成单声道信号。然后,单声道信号被编码并且与ITD一起被传送到解码器。
例如,欧洲电信标准协会在它们的技术规范ETSI TS126290“扩展的自适应多速率-宽带(AMR-WB+)编解码器;转码功能”中已经定义了立体声信号下混合,其中,单声道信号如下简单地被确定为左右信道的平均值:
xML(n)=0.5(xLL(n)+xRL(n))
其中,xML(n)表示单声道信号的第n个样本,xLL(n)表示左信道信号的第n个样本,并且xRL(n)表示右信道信号的第n个样本。
在2004年10月5日至8日意大利那不勒斯的第七届国际数字音效会议会议录的第163-168页,H.Purnhagen的“MPEG-4中的低复杂度参数立体声编码(Low Complexity Parametric Stereo Coding in MPEG-4)”中提供了下混合的另一个示例。在该文献中,描述了一种下混合方法,该方法使用关于信道间的强度差(IID)的所获得的信息基于逐个频带的频率来获得作为进入的信道的加权和的输出单声道信号。特定地:
M[k,i]=glL[k,i]+grR[k,i]
其中,M]k,i]表示单声道信号的第k个频率槽(frequency bin)的第i个样本,L[k,i]表示左信道信号的第k个频率槽的第i个样本,并且R[k,i]表示右信道信号的第k个频率槽的第i个样本,gl是左信道权重,并且gr是右信道权重。
这样的方法的特征在于,它们引起具有高混响时间的单声道信号,或者具有高的复杂度和/或延迟的单声道信号。例如,下混合的AMR-WB+方法提供了其混响时间大约是房间的混响时间加两个麦克风之间的行程时间(flight time)的输出。在Purnhagen中提供的下混合具有高复杂度,并且施加了由于频率分析和重建而导致的延迟。
然而,许多单声道编码器提供了用于具有低混响时间的信号的最佳结果。例如,低比特速率CELP语音编码器和采用基于脉冲的激励来表示语音和音频信号的其他编码器,在存在有短混响时间的信号时执行得最佳。因此,编码器的性能和得到的编码的信号的质量往往并不是最好的。
因此,改善的系统将是有利的,并且具体地,允许提高的灵活性、便利的实施方式、改善的编码质量、改善的编码效率、降低的延迟和/或改善的性能的系统将是有利的。
发明内容
因此,本发明设法单个地或者以任何组合优选地减轻、缓和或者消除上述缺点的一个或多个。
根据本发明的一方面,提供了一种用于编码多信道音频信号的设备,所述设备包括:接收机,所述接收机用于接收所述多信道音频信号,所述多信道音频信号至少包括来自第一麦克风的第一音频信号和来自第二麦克风的第二音频信号;时间差单元,所述时间差单元用于确定在所述第一音频信号和所述第二音频信号之间的间隔时间差(intertime difference);延迟单元,所述延迟单元用于响应于所述间隔时间差通过延迟所述第一音频信号和所述第二音频信号中的至少一个,从所述多信道音频信号中生成补偿的多信道音频信号;单声道单元,所述单声道单元用于通过合并所述补偿的多信道音频信号的信道来生成单声道信号;以及单声道信号编码器,所述单声道信号编码器用于编码所述单声道信号。
本发明可以提供改善的多信道音频信号的编码。具体地,可以在许多实施例中实现针对给定的数据速率的改善的质量。本发明可以通过减少单声道下混合信号的混响时间来提供来自立体声信号的单声道下混合信号的改善的单声道编码。延迟单元可以根据哪个麦克风最接近(主)音频源来延迟第一音频信号或第二音频信号。间隔时间差可以是在从同一音频源始发的第一音频信号和第二音频信号的对应的音频分量之间的时间差的指示。用于生成单声道信号的单元可以被配置成将与第一音频信号和第二音频信号相对应的合并的多信道音频信号的两个信道相加。在一些实施例中,所述加法可以是加权加法。
根据本发明的可选特征,时间差单元被配置成确定针对多个时间补偿的在第一音频信号和第二音频信号之间的互相关性,并且响应于该互相关性来确定间隔时间差。
该特征可以允许改善的间隔时间差的确定。该特征可以改善编码的音频信号的质量,和/或可以便利实现和/或降低复杂度。具体地,该特征可以允许根据单声道信号和间隔时间差渲染的立体声信号的改善的立体声感知。互相关可以指示间隔时间差等于独立的互相关的时间补偿的概率。
根据本发明的另一个方面,提供了一种编码多信道音频信号的方法,所述方法包括:接收所述多信道音频信号,所述多信道音频信号至少包括来自第一麦克风的第一音频信号和来自第二麦克风的第二音频信号;确定在所述第一音频信号和所述第二音频信号之间的间隔时间差;响应于所述间隔时间差通过延迟所述第一音频信号和所述第二音频信号的至少一个,从所述多信道音频信号中生成补偿的多信道音频信号;通过合并所述补偿的多信道音频信号的信道来生成单声道信号;以及在单声道信号编码器中编码所述单声道信号。
从下述的实施例(多个)中,本发明的这些和其他方面、特征和优点将是显而易见的,并且参考下述的实施例(多个)来阐明本发明的这些和其他方面、特征和优点。
附图说明
将参考附图仅通过示例的方式来描述本发明的实施例,其中:
图1图示了根据本发明的一些实施例的用于编码多信道音频信号的设备的示例;
图2图示了根据本发明的一些实施例的用于估计间隔时间差的处理单元的示例;
图3图示了根据本发明的一些实施例的白化处理器的示例;
图4图示了根据本发明的一些实施例的用于网格状态机的状态更新的示例;以及
图5图示了根据本发明的一些实施例的用于编码多信道音频信号的方法的示例。
具体实施方式
下面的说明集中于本发明的实施例,本发明适用于使用单声道编码器来编码多信道音频信号,并且具体地适用于使用单声道CELP编码器来编码立体声语音信号。
图1图示了根据本发明的一些实施例的用于编码多信道音频信号的设备。在特定的示例中,将立体声语音信号下混合为单声道信号,并且使用单声道编码器来编码立体声语音信号。
该设备包括两个麦克风101、103,该两个麦克风101、103从该两个麦克风所位于的音频环境捕获音频信号。在该示例中,两个麦克风用于记录在房间中的语音信号,并且以高达3米的核距(internaldistance)来设置。在特定应用中,例如,麦克风101、103可以记录来自在房间中的多个人的语音信号,并且使用两个麦克风可以提供房间的更好的音频覆盖。
将麦克风101、103耦合到帧处理器105,该帧处理器105从第一和第二麦克风101、103分别接收第一和第二信号。帧处理器将信号分成顺序帧。在特定的示例中,采样频率是16k个样本/秒,并且帧的持续时间是20毫秒,引起每个帧包括320个样本。应当注意,因为该帧可能是与用于语音编码的帧相同的帧,或者可能例如在老的语音样本上执行帧处理,所以帧处理无需引起到语音路径的额外的延迟。
将帧处理器105耦合到ITD处理器107,该ITD处理器107被配置成确定在第一音频信号和第二音频信号之间的间隔时间差。间隔时间差是在一个信道中的信号相对于在另一个信道中的信号的延迟的指示。在该示例中,根据哪个信道相对于另一个信道被延迟,间隔时间差可以是正的或者负的。延迟通常由于在主语音源(即当前发声的扬声器)和麦克风101、103之间的差而发生。
还将ITD处理器107耦合到两个延迟装置109、111。第一延迟装置109被配置成将延迟引入第一音频信道,并且第二延迟装置109被配置成将延迟引入第二音频信道。引入的延迟量取决于估计的间隔时间差。而且,在特定的示例中,在任何给定的时间仅使用延迟装置中的一个。因此,根据估计的间隔时间差的符号,将延迟量引入到第一音频信号或者第二音频信号。将延迟量特定地设置为尽可能地接近估计的间隔时间差。因此,在延迟装置109、111的输出处的音频信号被紧密地时间对齐,并且将特定地具有通常接近0的间隔时间差。
将延迟装置109、111耦合到合并器113,合并器113通过合并补偿的多信道音频信号的信道,并且特定地通过合并来自延迟装置109、111的两个输出信号来生成单声道信号。在该示例中,合并器113是简单的加法单元,其将两个信号相加在一起。而且,在合并之前,通过因子0.5来调节信号,以便于保持单声道信号的幅度类似于独立信号的幅度。
因此,合并器113的输出是单声道信号,该单声道信号是两个捕获的信号的下混合。而且,由于间隔时间差的减少和延迟,所生成的单声道信号已经显著地降低了混响。
将合并器113耦合到单声道编码器115,该单声道编码器115执行单声道信号的单声道编码以生成编码的数据。在特定的示例中,单声道编码器是根据由国际电信联盟(ITU)标准化的嵌入式可变比特速率编解码器(EV-VBR)的码激励线性预测(CELP)编码器。
已知CELP编码器提供极为有效的编码,并且特定地,即使对于低数据速率也提供良好的语音质量。然而,CELP编码器对于具有高混响时间的信号往往也不运行,并且因此不适合于传统生成的单声道下混合的编码。然而,由于延迟补偿和得到的降低的混响,CELP单声道编码器可以在图1的设备中进行使用,以提供语音下混合单声道信号的非常有效的编码。应当认识到,这些优点特别适合于CELP单声道编码器,但是不限于此,并且可以适用于许多其他编码器。
将单声道编码器115耦合到输出复用器117,还将该输出复用器117耦合到ITD处理器107。在该示例中,输出复用器117将来自单声道编码器115的编码数据和来自ITD处理器117的表示间隔时间差的数据复用为单个输出比特流。将间隔时间差包括在比特流中可以辅助解码器从解码自编码数据的单声道信号中再现立体声信号。
因此,所述系统提供了改善的性能,并且可以具体地针对给定的数据速率来提供改善的音频质量。具体地,诸如CELP编码器的单声道编码器的改善的使用可以引起显著改善的质量。而且,所述功能易于实现,并且具有相对低的资源需要。
下文中,将参考图2来描述由ITD处理器107执行的间隔时间差估计。
由ITD处理器107使用的算法通过合并在第一和第二音频信号之间的互相关的连续观察来确定针对在信道之间的不同的可能时间补偿的间隔时间差的估计。在抽取的LPC剩余域中执行相关(correlation),以便于提供更明确的相关性,便利实现并且减少计算需求。在该示例中,处理互相关以得出与在-12ms和+12ms(±~4米)之间的每个可能的延迟相关联的概率,并且然后,使用修改的类维特比(Viterbi-like)算法来累加该概率。结果是具有内置(in-built)滞后的间隔时间差的估计。
ITD处理器107包括抽取处理器201,该抽取处理器201从帧处理器105接收两个信道的样本的帧。抽取处理器201首先执行在抽取之前的低通滤波。在特定的示例中,低通滤波器具有大约2kHz的带宽,并且使用4的抽取因子用于样本频率的16k样本/秒的信号,得到4k样本/秒的抽取。滤波和抽取的效果部分地减少了所处理的样本的数目,由此减少了计算需求。然而,另外,该方法允许间隔时间差估计集中于较低频率,其中,间隔时间差的感知重要性最显著。因此,滤波和抽取不仅减少了计算负担,还提供了保证间隔时间差估计与最敏感的频率相关的协同效应。
将抽取处理器201耦合到白化处理器203,该白化处理器203被配置成在相关之前将频谱白化算法应用于第一和第二音频信号。在有声语音或者音调语音的情况下,频谱白化导致两个信号的时域信号更接近类似一组冲击,由此允许后续的相关引起更明确的互相关值,并且特定地引起更窄的相关峰值(冲击的频率响应与平坦或者白频谱相对应,并且相反地,白频谱的时域表示是冲击)。
在特定的示例中,频谱白化包括:计算用于第一和第二音频信号的线性预测系数,并且响应于该线性预测系数来对第一和第二音频信号进行滤波。
在图3中示出了白化处理器203的元件。特定地,将来自抽取处理器201的信号馈送到LPC处理器301、303,该LPC处理器301、303确定用于两个信号的线性预测滤波器的线性预测系数(LPC)。应当认识到,用于确定LPC的不同算法对于本领域的技术人员来说是公知的,并且在不脱离本发明的情况下可以使用任何适当的算法。
在该示例中,将两个音频信号馈送到两个滤波器305、307,将两个滤波器305、307耦合到LPC处理器301、303。确定该两个滤波器,使得它们是通过LPC处理器301、303确定的线性预测滤波器的逆滤波器。特定地,LPC处理器301、303确定用于线性预测滤波器的逆滤波器的系数,并且将该两个滤波器的系数设置为这些值。
两个逆滤波器305、307的输出在有声语音的情况下类似多组冲击序列,并且由此允许执行比在语音域中可能的明显更为准确的互相关。
将白化处理器203耦合到相关器205,该相关器205被配置成确定针对多个时间补偿的在两个滤波器305、307的输出信号之间的互相关。
特定地,相关器可以确定值:
c t = Σ N x n · y n - 1
其中,t是时间补偿,x和y是两个信号的样本,并且N表示在特定帧中的样本。
针对一组可能的时间补偿来执行相关。在特定的示例中,针对与±12毫秒的最大时间补偿相对应的总共97个时间补偿来执行相关。然而,应当认识到,可以在其他实施例中使用其他组的时间补偿。
因此,相关器生成97个互相关值,其中,每个互相关与在两个信道之间的特定时间补偿相对应,并且因此与可能的间隔时间差相对应。互相关的值与针对特定的时间补偿的两个信号如何紧密匹配的指示相对应。因此,对于高互相关值,信号紧密地匹配,并且因此存在时间补偿是准确的间隔时间差估计的高概率。相反地,对于低互相关值,信号不紧密匹配,并且因此存在时间补偿是准确的间隔时间差估计的低概率。因此,对于每个帧,相关器205生成97个互相关值,其中,每个值是对应的时间补偿是正确的间隔时间差的概率的指示。
在该示例中,相关器205被配置成在互相关之前在第一和第二音频信号上执行开窗。特定地,以20ms的窗口来开窗该两个信号的每个帧样本块,该20ms的窗口包括14ms的矩形中心部分和在每端处的3ms的两个汉恩(Hann)部分。该开窗可以改善准确度,并且减少在相关窗口边缘处的边界效应的影响。
而且,在该示例中,归一化互相关。归一化特定地保证可以实现的最大互相关值(即当所述两个信号相同时)具有单一值。归一化支持相对独立于输入信号的信号电平和所测试的相关时间补偿的互相关值,由此提供更准确的概率指示。具体地,允许用于一系列帧的改善的比较和处理。
在简单实施例中,可以直接地评估相关器205的输出,并且可以将用于当前帧的间隔时间差设置为具有如由互相关值指示的最高概率的值。然而,这样的方法往往在语音信号从有声到无声到静音进行波动时提供不太可靠的输出,并且在所述示例中,相关器向状态处理器207进行馈送,状态处理器207处理用于多个状态的相关值,以提供更准确的间隔时间差估计。
在该示例中,相关值被用作对在状态处理器207中实现的维特比算法度量累加器的更新步骤。
因此,状态处理器207特定地实现度量累加器,其具有与时间补偿相对应的多个状态。每个状态因此表示时间补偿,并且具有相关联的累加度量值。
因此,以度量累加器形式的基于维特比的网格状态机存储用于针对其已经计算了相关值的时间补偿的每一个的度量值(即在特定示例中的97个状态/时间补偿)。每个状态/时间补偿特定地与概率度量相关联,该概率度量指示间隔时间差与该状态的时间补偿相对应的概率。
在每个帧中重新计算针对所有时间补偿的概率度量,以考虑已经针对当前帧确定的相关值。特定地,根据互相关来针对状态/时间补偿计算路径度量。在特定的示例中,通过应用公式log(0.5+pi)来将互相关转换到对数域中,其中,pi是第i个相关值(其由于归一化处理而在0和1之间,并且对应于与关联时间补偿的间隔时间差相对应的概率)。
在该示例中,从该时间补偿的前一概率度量和针对当前帧计算的补偿的相关值来确定对于给定的概率度量的贡献。另外,对应于间隔时间差随值改变的情况(即,使得最可能的状态从作为一个时间补偿的最可能的状态改变为作为另一个时间补偿的最可能的状态),从与相邻时间补偿相关联的相关值做出贡献。
基本上低于用于根据同一状态的路径的路径度量来加权用于根据与邻近的间隔时间差值相对应的相邻状态的路径的路径度量。特定地,实验已经示出了,对于相邻相关值被加权了比用于同一状态的互相关高了至少多5倍,已经发现了特别有利的性能。在特定示例中,通过因子0.009来加权邻近状态路径度量,并且通过因子0.982来加权同一状态的路径度量。
图4图示了用于网格状态机的帧t的度量更新的示例。在特定的示例中,根据来自包括时间t-1时的状态sn和时间t-1时的邻近状态sn-1和sn+1的先前的状态的子集的路径的路径度量来计算在时间t时状态sn的状态概率度量。特定地,通过下式来给出针对状态sn的状态概率度量:
S n t = S n t - 1 + P n t + P n - 1 t + P n + 1 t
其中,Px t是在帧t中从状态x到状态n的计算的加权路径度量。
在该示例中,通过从所有的状态概率度量中减去最低的状态概率度量来在每个帧中修改概率度量。这减轻了来自持续增加的状态概率度量的溢出问题。
在该示例中,对于包括补偿本身和邻近补偿的补偿的子集,仅包括对给定的时间补偿度量的贡献。然而,应当认识到,在其他实施例中,可以考虑时间补偿的其他子集。
在该示例中,在每个帧中更新用于网格状态机的状态度量。然而,与传统的维特比算法相反,状态处理器207不选择每个状态的优选路径,而是计算给定状态的状态概率度量作为来自进入该状态的所有路径的合并的贡献。而且,状态处理器207不通过网格执行追溯来确定仍然存在的路径。相反地,在该示例中,可以简单地选择当前的间隔时间差估计作为与当前具有最高的状态概率度量的状态相对应的时间补偿。因此,在状态机中不发生延迟。而且,由于概率状态度量取决于先前的值(和其他状态),因此固有地实现滞后。
特定地,将状态处理器207耦合到ITD处理器209,该ITD处理器209从与具有最高状态概率度量的状态相关联的时间补偿中来确定间隔时间差。特定地,可以将间隔时间差直接地设置为等于具有最高状态概率度量的状态的时间补偿。
将ITD处理器209耦合到延迟处理器211,该延迟处理器211确定要应用于延迟装置109、111的延迟。首先,延迟处理器211通过在抽取处理器201中应用的抽取因子来补偿间隔时间差。在简单的实施例中,可以将估计的间隔时间差给出作为抽取的样本数(例如以与250μs分辨率相对应的4kHz),并且这可以通过使其乘以抽取因子来被转换为非抽取的样本数(例如通过将其乘以因子4来转换为16kHz的样本)。
在该示例中,延迟处理器211设置用于两个延迟装置109、111的值。特定地,根据间隔时间差的符号,将延迟的一个设置为0,并且将另一个延迟装置设置为计算的非抽取的样本数。
用于计算间隔时间差的所述方法提供了改善的编码的信号的质量,并且具体地,在编码之前提供了降低的单声道信号的混响,由此改善了CELP单声道编码器115的操作和性能。
已经执行了特定的测试,其中,以不同的配置在具有一对麦克风的会议房间中记录了三个立体声测试信号。在第一配置中,相距1m地放置麦克风,并且两个男性交谈者在两个麦克风的每一个之外的轴上落座,并且记录测试会话。在第二配置中,相距3m地放置两个麦克风,并且该男性交谈者再一次在两个麦克风的每一个之外的轴上落座。在最后一个配置中,相距2m地放置麦克风,并且两个交谈者在麦克风的轴的宽侧,但是在面对两个麦克风的每一个的轴的相对侧上。在所有这些情况下,算法良好地跟踪延迟,并且当通过用于ITU-T EV-VBR编解码器的基线算法来编码得到的单声道信号时,在每种情况中都观察到在SEGSNR和WSEGSNR中的大约0.3dB的增益。
在一些实施例中,通过改变样本数来简单地实现从一个延迟到另一个的转变,适当的信号由延迟装置109、111延迟。然而,在一些实施例中,可以包括用于执行从一个延迟到另一个延迟的平滑转变。
特定地,设备可以被配置成通过生成第一信号和第二信号来从第一延迟转变成第二延迟,该第一信号在转变之前由延迟装置来进行延迟,该第二信号在转变之后由延迟装置来进行延迟。然后,合并第一和第二信号以生成合并的信号,该合并的信号包括来自在转变之前的信号和在转变之后的信号二者的贡献。逐渐地改变来自两个信号的贡献,使得贡献初始地主要或者排他地来自第一信号,而在转变结束时,贡献主要或者排他地来自第二信号。
因此,设备可以在延迟转变期间合成与初始和最后延迟相对应的两个信号。可以通过加权加法来合并该两个信号,该加权加法诸如:
s=a·s1+b·s2
其中,s1和s2表示第一和第二信号,并且a和b是在转变间隔(其可以特定地等于单个帧)期间修改的权重。特定地,值可以初始地被设置为a=1并且b=0,并且最后的值可以被设置为a=0和b=1。在这些值之间的转变可以根据任何适当的函数来执行,并且可以特定地在转变期间保持关系a+b=1。
因此,在这样的实施例中,通过合并用于两个延迟的信号并且在时域中从一个逐渐地转变为另一个来实现在不同的延迟之间的平滑转变。
在特定的示例中,应用20ms的半汉恩重叠相加窗口以保证尽可能地感觉不到从一个延迟到下一个延迟的转变。
图5图示了根据本发明的一些实施例的编码多信道音频信号的方法。
该方法在步骤501中发起,其中,接收多信道音频信号,该多信道音频信号至少包括来自第一麦克风的第一音频信号和来自第二麦克风的第二音频信号。
步骤501后是步骤503,其中,确定在第一音频信号和第二音频信号之间的间隔时间差。
步骤503后是步骤505,其中,响应于间隔时间差通过延迟第一和第二立体声信号中的至少一个,从多信道音频信号中生成补偿的多信道音频信号。
步骤505后是步骤507,其中,通过合并补偿的多信道音频信号的信道来生成单声道信号。
步骤507后是步骤509,其中,通过单声道信号编码器来编码单声道信号。
应当认识到,为了清晰,以上的描述已经参考不同的功能单元和处理器描述了本发明的实施例。然而,显然,在不偏离本发明的情况下,可以使用在不同的功能单元或者处理器之间的功能的任何适当分布。例如,图示为由分立的处理器或者控制器执行的功能可以由同一处理器或者控制器来执行。因此,对于特定功能单元的参考仅仅被看作对于用于提供所述功能的适当组件的参考,而不是指示严格的逻辑或者物理结构或者组织。
可以以任何适当的形式来实现本发明,任何适当形式包括硬件、软件、固件或者其任何组合。本发明可以可选地被至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以以任何适当的方式来物理地、功能上地和逻辑地实现本发明的实施例的元件和部件。事实上,可以在单个单元中、在多个单元中或者作为其他功能单元的一部分来实现功能。如此一来,本发明可以在单个单元中被实现,或者可以物理地或功能上地分布在不同的单元和处理器之间。
虽然已经结合一些实施例描述了本发明,但是不希望限于在此阐述的特定形式。相反地,本发明的范围仅由所附权利要求来限定。另外,虽然结合具体实施例描述了特征,但是本领域内的技术人员应当认识到,可以根据本发明来合并所述实施例的各种特征。在权利要求中,术语包括不排除存在其他元件或者步骤。
而且,虽然独立地列出,但是多个单元、组件、元件或者方法步骤可以由例如单个单元或者处理器来实现。另外,虽然可以在不同的权利要求中包括独立的特征,但是这些能够被有利地合并,并且包括在不同的权利要求中不意指特征的组合不是可行的和/或有利的。而且,将特征包括在一类权利要求中不意指限于该类,而是指示该特征适当地等同适用于其他权利要求类别。而且,在权利要求中的特征的顺序不意指该特征必须以其工作的任何特定顺序,并且特定地,方法权利要求中的独立步骤的顺序不意指必须以该顺序来执行步骤。相反地,可以以任何适当的顺序来执行步骤。

Claims (10)

1.一种用于编码多信道音频信号的设备,所述设备包括:
接收机,所述接收机用于接收所述多信道音频信号,所述多信道音频信号至少包括来自第一麦克风的第一音频信号和来自第二麦克风的第二音频信号;
时间差单元,所述时间差单元用于通过合并在所述第一音频信号和所述第二音频信号之间的互相关的观察的连续值来确定在所述第一音频信号和所述第二音频信号之间的间隔时间差,并且其中,归一化所述互相关来得到使用类维特比算法累加的状态概率以实现具有内置滞后的间隔时间差,并且所述类维特比算法计算每个给定状态的状态概率度量作为来自进入该状态的所有路径的合并的贡献;
延迟单元,所述延迟单元用于响应于所述间隔时间差信号通过延迟所述第一音频信号和所述第二音频信号中的至少一个,从所述多信道音频信号中生成补偿的多信道音频信号;
单声道单元,所述单声道单元用于通过合并所述补偿的多信道音频信号的信道来生成单声道信号;以及,
单声道信号编码器,所述单声道信号编码器用于编码所述单声道信号。
2.根据权利要求1所述的设备,其中,所述时间差单元被配置成确定针对多个时间补偿的在所述第一音频信号和所述第二音频信号之间的互相关,并且响应于所述互相关来确定所述间隔时间差。
3.根据权利要求2所述的设备,其中,所述时间差单元被配置成在所述互相关之前对所述第一音频信号和所述第二音频信号进行低通滤波。
4.根据权利要求2所述的设备,其中,所述时间差单元被配置成在所述互相关之前抽取所述第一音频信号和所述第二音频信号。
5.根据权利要求2所述的设备,其中,所述延迟单元被配置成针对抽取的抽取因子来补偿所述间隔时间差,以便于确定用于所述第一音频信号和所述第二音频信号中的至少一个的延迟。
6.根据权利要求2所述的设备,其中,所述时间差单元被配置成在所述互相关之前将频谱白化应用于所述第一音频信号和所述第二音频信号。
7.根据权利要求2所述的设备,其中,所述时间差单元被配置成在所述互相关之前执行所述第一音频信号和所述第二音频信号的开窗。
8.根据权利要求2所述的设备,其中,所述时间差单元包括:
网格状态机,所述网格状态机具有多个状态,所述多个状态的每个与所述多个时间补偿的时间补偿相对应;
路径单元,所述路径单元用于响应于所述互相关来确定用于所述网格状态机的状态的路径度量;
计算单元,所述计算单元用于响应于与从先前的状态到当前状态的路径相关联的路径度量来确定用于所述每个给定状态的状态概率度量;以及
用于响应于所述状态概率度量来确定所述间隔时间差的单元。
9.根据权利要求1所述的设备,其中,所述延迟单元被配置成,通过响应于第一延迟生成第一补偿的多信道音频信号和响应于第二延迟生成第二补偿的多信道音频信号来从所述第一延迟转变成所述第二延迟,并且合并所述第一补偿的多信道音频信号和所述第二补偿的多信道音频信号以生成所述补偿的多信道音频信号。
10.一种用于编码多信道音频信号的方法,所述方法包括:
接收所述多信道音频信号,所述多信道音频信号至少包括来自第一麦克风的第一音频信号和来自第二麦克风的第二音频信号;
通过合并在所述第一音频信号和所述第二音频信号之间的互相关的观察的连续值来确定在所述第一音频信号和所述第二音频信号之间的间隔时间差,并且其中,处理所述互相关来得到使用类维特比算法累加的概率,所述类维特比算法计算每个给定状态的状态概率度量作为来自进入该状态的所有路径的合并的贡献;
响应于所述间隔时间差信号通过延迟所述第一音频信号和所述第二音频信号中的至少一个,从所述多信道音频信号中生成补偿的多信道音频信号;
通过合并所述补偿的多信道音频信号的信道来生成单声道信号;以及,
在单声道信号编码器中编码所述单声道信号。
CN2008801087221A 2007-09-25 2008-09-09 用于编码多信道音频信号的设备和方法 Active CN101809655B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0718682.8 2007-09-25
GB0718682.8A GB2453117B (en) 2007-09-25 2007-09-25 Apparatus and method for encoding a multi channel audio signal
PCT/US2008/075703 WO2009042386A1 (en) 2007-09-25 2008-09-09 Apparatus and method for encoding a multi channel audio signal

Publications (2)

Publication Number Publication Date
CN101809655A CN101809655A (zh) 2010-08-18
CN101809655B true CN101809655B (zh) 2012-07-25

Family

ID=38670458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801087221A Active CN101809655B (zh) 2007-09-25 2008-09-09 用于编码多信道音频信号的设备和方法

Country Status (13)

Country Link
US (3) US8577045B2 (zh)
EP (1) EP2206110B1 (zh)
JP (1) JP5277508B2 (zh)
KR (1) KR101120913B1 (zh)
CN (1) CN101809655B (zh)
BR (1) BRPI0817982B1 (zh)
CA (1) CA2698600C (zh)
GB (1) GB2453117B (zh)
MX (1) MX2010002846A (zh)
MY (1) MY169423A (zh)
RU (1) RU2450369C2 (zh)
WO (1) WO2009042386A1 (zh)
ZA (1) ZA201001672B (zh)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2237267A4 (en) * 2007-12-21 2012-01-18 Panasonic Corp STEREOSIGNALUMSETZER, STEREOSIGNALWANDLER AND METHOD THEREFOR
BRPI1008915A2 (pt) * 2009-02-27 2018-01-16 Panasonic Corp dispositivo de determinação de tom e método de determinação de tom
CN102157152B (zh) 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
US8463414B2 (en) 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
US8923997B2 (en) 2010-10-13 2014-12-30 Sonos, Inc Method and apparatus for adjusting a speaker system
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
EP2671221B1 (en) 2011-02-03 2017-02-01 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
WO2013029225A1 (en) * 2011-08-29 2013-03-07 Huawei Technologies Co., Ltd. Parametric multichannel encoder and decoder
WO2013088208A1 (en) * 2011-12-15 2013-06-20 Nokia Corporation An audio scene alignment apparatus
US8811630B2 (en) 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9524098B2 (en) 2012-05-08 2016-12-20 Sonos, Inc. Methods and systems for subwoofer calibration
USD721352S1 (en) 2012-06-19 2015-01-20 Sonos, Inc. Playback device
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9690271B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US9668049B2 (en) 2012-06-28 2017-05-30 Sonos, Inc. Playback device calibration user interfaces
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US8965033B2 (en) 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
US8976959B2 (en) * 2012-11-21 2015-03-10 Clinkle Corporation Echo delay encoding
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
USD721061S1 (en) 2013-02-25 2015-01-13 Sonos, Inc. Playback device
JP6224827B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
CN103856869A (zh) * 2014-03-12 2014-06-11 深圳市中兴移动通信有限公司 音效处理方法和摄像装置
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US9367283B2 (en) 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
USD883956S1 (en) 2014-08-13 2020-05-12 Sonos, Inc. Playback device
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9973851B2 (en) 2014-12-01 2018-05-15 Sonos, Inc. Multi-channel playback of audio content
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
USD906278S1 (en) 2015-04-25 2020-12-29 Sonos, Inc. Media player device
USD886765S1 (en) 2017-03-13 2020-06-09 Sonos, Inc. Media playback device
USD920278S1 (en) 2017-03-13 2021-05-25 Sonos, Inc. Media playback device with lights
US20170085972A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Media Player and Media Player Design
USD768602S1 (en) 2015-04-25 2016-10-11 Sonos, Inc. Playback device
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US9460727B1 (en) * 2015-07-01 2016-10-04 Gopro, Inc. Audio encoder for wind and microphone noise reduction in a microphone array system
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
US9729118B2 (en) 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9877134B2 (en) * 2015-07-28 2018-01-23 Harman International Industries, Incorporated Techniques for optimizing the fidelity of a remote recording
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
US9736610B2 (en) 2015-08-21 2017-08-15 Sonos, Inc. Manipulation of playback device response using signal processing
US9712912B2 (en) 2015-08-21 2017-07-18 Sonos, Inc. Manipulation of playback device response using an acoustic filter
USD1043613S1 (en) 2015-09-17 2024-09-24 Sonos, Inc. Media player
CN108028985B (zh) 2015-09-17 2020-03-13 搜诺思公司 用于计算设备的方法
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
ES2904275T3 (es) 2015-09-25 2022-04-04 Voiceage Corp Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
US10074373B2 (en) * 2015-12-21 2018-09-11 Qualcomm Incorporated Channel adjustment for inter-frame temporal shift variations
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
WO2017125559A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
CN105897738B (zh) * 2016-05-20 2017-02-22 电子科技大学 一种用于多信道环境的实时流编码方法
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
USD851057S1 (en) 2016-09-30 2019-06-11 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10412473B2 (en) 2016-09-30 2019-09-10 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
USD827671S1 (en) 2016-09-30 2018-09-04 Sonos, Inc. Media playback device
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
CN106647103B (zh) * 2017-03-09 2019-12-06 电子科技大学 一种用于孤子自频移全光模数转换的编码装置及方法
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
US11741114B2 (en) * 2017-12-19 2023-08-29 ExxonMobil Technology and Engineering Company Data analysis platform
ES2909343T3 (es) * 2018-04-05 2022-05-06 Fraunhofer Ges Forschung Aparato, método o programa informático para estimar una diferencia de tiempo entre canales
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
US11670317B2 (en) 2021-02-23 2023-06-06 Kyndryl, Inc. Dynamic audio quality enhancement

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
CN1647155A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 空间声频的参数表示
CN1748247A (zh) * 2003-02-11 2006-03-15 皇家飞利浦电子股份有限公司 音频编码
EP1640971A1 (en) * 2004-09-23 2006-03-29 Harman Becker Automotive Systems GmbH Multi-channel adaptive speech signal processing with noise reduction

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
JPS58152542A (ja) * 1982-03-05 1983-09-10 株式会社東芝 X線診断装置
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
JP2762957B2 (ja) 1995-05-22 1998-06-11 日本電気株式会社 災害用電話システム、及び交換機、電話機
US5844947A (en) * 1995-12-28 1998-12-01 Lucent Technologies Inc. Viterbi decoder with reduced metric computation
KR100189906B1 (ko) * 1996-04-17 1999-06-01 윤종용 비터비 복호화방법 및 그 회로
US6236731B1 (en) * 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US6452985B1 (en) * 1998-03-18 2002-09-17 Sony Corporation Viterbi decoding apparatus and Viterbi decoding method
JP2000004495A (ja) * 1998-06-16 2000-01-07 Oki Electric Ind Co Ltd 複数マイク自由配置による複数話者位置推定方法
JP2000044995A (ja) 1998-07-29 2000-02-15 Toppan Printing Co Ltd インキローラー洗浄剤
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
ES2280736T3 (es) 2002-04-22 2007-09-16 Koninklijke Philips Electronics N.V. Sintetizacion de señal.
EP1523863A1 (en) * 2002-07-16 2005-04-20 Koninklijke Philips Electronics N.V. Audio coding
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
RU2005135650A (ru) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) Синтез аудиосигнала
US20070038439A1 (en) * 2003-04-17 2007-02-15 Koninklijke Philips Electronics N.V. Groenewoudseweg 1 Audio signal generation
ES2291939T3 (es) * 2003-09-29 2008-03-01 Koninklijke Philips Electronics N.V. Codificacion de señales de audio.
US7313720B1 (en) * 2004-02-12 2007-12-25 Network Appliance, Inc. Technique for increasing the number of persistent consistency point images in a file system
US20070168183A1 (en) * 2004-02-17 2007-07-19 Koninklijke Philips Electronics, N.V. Audio distribution system, an audio encoder, an audio decoder and methods of operation therefore
US7653155B1 (en) * 2004-11-04 2010-01-26 Sandia Corporation Using convolutional decoding to improve time delay and phase estimation in digital communications
WO2006070757A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
KR100936684B1 (ko) * 2005-01-13 2010-01-13 후지쯔 가부시끼가이샤 음 수신 장치
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7583808B2 (en) * 2005-03-28 2009-09-01 Mitsubishi Electric Research Laboratories, Inc. Locating and tracking acoustic sources with microphone arrays
JP4948401B2 (ja) * 2005-05-31 2012-06-06 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
EP1953736A4 (en) * 2005-10-31 2009-08-05 Panasonic Corp STEREO CODING DEVICE AND METHOD FOR PREDICTING STEREO SIGNAL
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
WO2007110103A1 (en) * 2006-03-24 2007-10-04 Dolby Sweden Ab Generation of spatial downmixes from parametric representations of multi channel signals
US7599441B2 (en) * 2006-06-20 2009-10-06 Newport Media, Inc. Low complexity soft-input Viterbi decoding for digital communication systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
CN1647155A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 空间声频的参数表示
CN1748247A (zh) * 2003-02-11 2006-03-15 皇家飞利浦电子股份有限公司 音频编码
EP1640971A1 (en) * 2004-09-23 2006-03-29 Harman Becker Automotive Systems GmbH Multi-channel adaptive speech signal processing with noise reduction

Also Published As

Publication number Publication date
GB2453117B (en) 2012-05-23
RU2450369C2 (ru) 2012-05-10
WO2009042386A4 (en) 2009-06-25
CN101809655A (zh) 2010-08-18
WO2009042386A1 (en) 2009-04-02
EP2206110B1 (en) 2017-01-11
JP5277508B2 (ja) 2013-08-28
RU2010116295A (ru) 2011-11-10
EP2206110A1 (en) 2010-07-14
GB0718682D0 (en) 2007-10-31
MX2010002846A (es) 2010-04-01
JP2010541007A (ja) 2010-12-24
US20110085671A1 (en) 2011-04-14
US20170116997A1 (en) 2017-04-27
MY169423A (en) 2019-04-03
US9570080B2 (en) 2017-02-14
KR101120913B1 (ko) 2012-02-27
CA2698600C (en) 2015-01-20
ZA201001672B (en) 2016-02-24
US20130282384A1 (en) 2013-10-24
BRPI0817982B1 (pt) 2020-05-05
EP2206110A4 (en) 2015-12-09
BRPI0817982A2 (pt) 2015-04-07
GB2453117A (en) 2009-04-01
CA2698600A1 (en) 2009-04-02
KR20100057666A (ko) 2010-05-31
US8577045B2 (en) 2013-11-05

Similar Documents

Publication Publication Date Title
CN101809655B (zh) 用于编码多信道音频信号的设备和方法
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
CN100559465C (zh) 保真度优化的可变帧长编码
US11664034B2 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
KR102550424B1 (ko) 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램
US8463414B2 (en) Method and apparatus for estimating a parameter for low bit rate stereo transmission
US20220351735A1 (en) Audio Encoding and Audio Decoding
US20240185865A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110113

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20110113

Address after: Illinois State

Applicant after: MOTOROLA MOBILITY, Inc.

Address before: Illinois State

Applicant before: Motorola, Inc.

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160425

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC