CN105474308A - 音频信号编码器 - Google Patents
音频信号编码器 Download PDFInfo
- Publication number
- CN105474308A CN105474308A CN201380078542.4A CN201380078542A CN105474308A CN 105474308 A CN105474308 A CN 105474308A CN 201380078542 A CN201380078542 A CN 201380078542A CN 105474308 A CN105474308 A CN 105474308A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- frame
- parameter
- subset
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 345
- 238000000034 method Methods 0.000 claims description 62
- 238000013139 quantization Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 238000006073 displacement reaction Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 11
- 238000011002 quantification Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 5
- 238000009434 installation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000007480 spreading Effects 0.000 description 4
- 238000003892 spreading Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 206010038743 Restlessness Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
一种设备包括:参数确定器,该参数确定器被配置成针对至少一个音频信号的帧确定帧音频信号多信道参数的集合;参数选择器,该参数选择器被配置成基于与所述帧音频信号多信道参数的集合的子集相关联的误差值针对所述帧选择所述帧音频信号多信道参数的集合的所述子集;以及参数编码器,该参数编码器被配置成基于所述帧音频信号多信道参数的集合的所选择的子集生成已编码帧音频信号多信道参数。
Description
技术领域
本申请涉及多信道或立体声音频信号编码器,且特别地但非排他地涉及在便携式设备中使用的多信道或立体声音频信号编码器。
背景技术
像语音或音乐这样的音频信号例如被编码以实现音频信号的有效传输或存储。
音频编码器和解码器(也称为编解码器)用于表示基于音频的信号,例如音乐和环境声(其在语音编码方面能够被称为背景噪声)。这些类型的编码器典型地不适用语音模式用于编码过程,而是他们使用用于表示所有类型的音频信号(包括语音)的过程。语音编码器和解码器(编解码器)能被认为是被优化用于语音信号并能够操作在固定或可变比特率的音频编解码器。
音频编解码器还能够被配置成以变化的比特率操作。在较低比特率,这样的音频编解码器可以被优化以在等同于纯语音编解码器的编码率来处理语音信号。在较高比特率,该音频编解码器可以以较高质量和性能来编码包括音乐、背景噪声和语音的任意信号。可变速率音频编解码器还能够实施嵌入式可缩放编码结构和比特流,其中另外的比特(特定量的比特通常称为层)改进在较低比特率的编码,且其中较高比特率的比特流可以被截短以得到较低比特率编码的比特流。这样的音频编解码器可以使用纯粹为语音信号设计的编解码器作为核心层或最低比特率编码。
音频编解码器被设计用于保持高(感觉上的)质量同时改进压缩比。因此不是波形匹配编码,而是常用的是使用各种参数机制来降低比特率。对于多信道音频,例如立体声信号,常用的是对单信道表示使用较大量可用比特率并利用使用相对少的比特的参数方法来编码立体声或多信道信号。
发明内容
根据第一方面提供了一种方法,该方法包括:针对至少一个音频信号的帧确定帧音频信号多信道参数的集合;基于与帧音频信号多信道参数的该集合的子集相关联的误差值选择帧音频信号多信道参数的该集合的该子集;以及基于帧音频信号多信道参数的集合的选择的子集生成已编码的帧音频信号多信道参数。
该方法还包括确定至少一个音频信号的该帧的编码比特率;并且其中基于与帧音频信号多信道参数的该集合的该子集相关联的误差值选择帧音频信号多信道参数的该集合的该子集可以包括进一步基于该至少一个音频信号的该帧的编码比特率选择帧音频信号多信道参数的该集合的该子集。
针对至少一个音频信号的帧确定帧音频信号多信道参数的集合可以包括确定该至少一个音频信号的至少两个信道之间的差集合,其中该差集合可以包括两个或更多差值,其中每个差值可以与定义该帧的资源的子部分相关联。
确定至少一个音频信号的至少两个信道之间的差集合可以包括确定以下至少一者:至少一个耳间时间差;以及至少一个耳间强度(level)差。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;以及时间段。
基于与帧音频信号多信道参数的集合的子集相关联的误差值针对该帧选择帧音频信号多信道参数的集合的子集可以包括:确定至少一个之前帧选择的子集;确定要被选择的元素数量;生成至少两个候选子集;从候选子集和至少一个之前帧选择的子集的组合生成重构集合;基于重构集合和帧音频信号多信道参数的集合生成误差值;以及选择所述至少两个候选子集中具有最小绝对误差值的一个候选子集。
该方法还可以包括:针对该选择的子集生成表示该选择的子集的至少一个参数;以及生成表示该选择的子集的已编码的至少一个参数。
针对选择的子集生成表示该选择的子集的至少一个参数可以包括以下至少一者:生成表示选择的子集中的第一选择的元素的第一参数;生成表示该子集中的连续元素的选择分配的分配参数;以及生成表示选择的子集中的元素数量的长度参数。
基于帧音频信号多信道参数的集合的选择的子集生成已编码帧音频信号多信道参数可以包括使用向量或标量量化码本生成至少一个帧音频信号多信道参数群组的码本索引。
使用向量或标量量化码本生成至少一个帧音频信号多信道参数的群组的码本索引可以包括:生成依据至少一个帧音频信号多信道参数的映射实例的频率分配的与至少一个帧音频信号多信道参数的相关联的索引的编码映射;以及依据该相关联索引对该编码映射进行编码。
依据相关联索引对该编码映射进行编码可以包括将Golomb-Rice(哥伦布-赖斯)编码应用到依据该相关联索引的编码映射。
这里描述的方法还可以包括:接收至少两个音频信号信道;从该至少两个音频信号信道且至少一个帧音频信号多信道参数确定更少量信道音频信号;生成包括该更少量信道的已编码的音频信号;以及将该已编码的音频信号和已编码的至少一个帧音频信号多信道参数进行组合。
根据第二方面,提供了一种方法,该方法包括:在一时段内接收包括至少一个帧缩混(downmix)音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数;恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合的任意元素;以及从至少一个帧缩混音频信号以及帧音频信号多信道参数的集合的子集与在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合的被恢复的元素的组合针对该帧生成至少两个信道音频信号。
该帧音频信号多信道参数的集合可以包括至少一个音频信号的至少两个信道之间的差的集合,该差的集合可以包括两个或更多差值,其中每个差值可以与定义该帧的资源的子部分相关联。
至少一个音频信号的至少两个信道之间的差的集合可以包括以下至少一者:至少一个耳间时间差;以及至少一个耳间强度差。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;和时间段。
已编码的音频信号还可以包括定义帧音频信号多信道参数的集合的子集的至少一个参数;其中恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合中的任意元素可以包括对定义帧音频信号多信道参数的集合的子集的至少一个参数进行解码以确定要被恢复的子集元素。
根据第三方面,提供了一种设备,该设备包括:用于针对至少一个音频信号的帧确定帧音频信号多信道参数的装置;用于基于与帧音频信号多信道参数的该集合的子集相关联的误差值针对该帧选择帧音频信号多信道参数的集合的该子集的装置;以及用于基于帧音频信号多信道参数的该集合的该选择的子集生成已编码帧音频信号多信道参数的装置。
该设备还可以包括用于确定至少一个音频信号的帧的编码比特率的装置,且其中用于基于与帧音频信号多信道参数的集合的子集相关联的误差针对帧选择帧音频信号多信道参数的集合的该子集的装置可以包括用于进一步基于该至少一个音频信号的帧的编码比特率选择帧音频信号多信道参数的集合的该子集的装置。
用于针对至少一个音频信号的帧确定帧音频信号多信道参数的集合的装置可以包括用于确定至少一个音频信号的至少两个信道之间的差的集合的装置,其中该差的集合可以包括两个或更多个差值,其中每个差值可以与定义该帧的资源的子部分相关联。
用于确定至少一个音频信号的至少两个信道之间的差的集合的装置可以包括以下至少一者:用于确定至少一个耳间时间差的装置;和用于确定至少一个耳间强度差的装置。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;和时间段。
用于基于与帧音频信号多信道参数的集合的子集相关联的误差针对该帧选择帧音频信号多信道参数的集合的该子集的装置可以包括:用于确定至少一个之前帧选择的子集的装置;用于确定要被选择的元素数量的装置;用于生成至少两个候选子集的装置;用于从候选子集和至少一个之前帧选择的子集的组合生成重构集合的装置;用于基于该重构集合和帧音频信号多信道参数的集合生成误差值的装置;以及用于选择所述至少两个候选子集中具有最小绝对误差值的一个候选子集的装置。
该设备还可以包括:用于针对所选择子集生成表示该所选子集的至少一个参数的装置;以及用于生成表示该所选子集的已编码的至少一个参数的装置。
用于针对所选子集生成表示该所选子集的至少一个参数的装置可以包括以下至少一者:用于生成表示所选子集中的第一被选择的元素的第一参数的装置;用于表示该子集中连续元素的选择分配的分配参数的装置;以及用于生成表示所选子集中的元素数量的长度参数的装置。
用于基于帧音频信号多信道参数的集合的所选子集生成已编码帧音频信号多信道参数的装置可以包括用于使用向量或标量量化码本生成至少一个帧音频信号多信道参数的群组的码本索引的装置。
用于使用向量或标量量化码本生成至少一个帧音频信号多信道参数的群组的码本索引的装置可以包括:用于生成依据至少一个帧音频信号多信道参数的映射实例的频率分配的与至少一个帧音频信号多信道参数的相关联的索引的第一编码映射的装置;以及用于依据该相关联对索引的该第一编码映射进行编码的装置。
用于依据该相关联索引对编码映射进行编码的装置可以包括用于将Golomb-Rice编码应用于依据该相关联的索引的编码映射的装置。
该设备还可以包括:用于接收至少两个音频信号信道的装置;用于从该至少两个音频信号信道和至少一个帧音频信号多信道参数确定更少量信道音频信号的装置;用于生成包括该更少量信道的已编码的音频信号的装置;以及用于将该已编码的音频信号和该已编码的至少一个帧音频信号多信道参数进行组合的装置。
根据第四方面,提供了一种设备,该设备包括:用于在一时段内接收包括至少一个帧缩混音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数的装置;用于恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数集合的任意元素的装置;以及用于从该至少一个帧缩混音频信号以及帧音频信号多信道参数的集合的子集与在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合的恢复的元素的组合针对该帧生成至少两个信道音频信号的装置。
帧音频信号多信道参数的集合可以包括至少一个音频信号的至少两个信道之间的差的集合,其中该差的集合可以包括两个或更多个差值,其中每个差值可以与定义该帧的资源的子部分相关联。
至少一个音频信号的至少两个信道之间的差的集合可以包括以下至少一者:至少一个耳间时间差;和至少一个耳间强度差。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;和时间段。
已编码的音频信号还可以包括定义帧音频信号多信道参数的集合的子集的至少一个参数;其中用于恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合中的任意元素的装置可以包括对定义帧音频信号多信道参数的集合的子集的至少一个参数进行解码以确定要被恢复的子集元素。
根据第五方面提供了一种设备,该设备包括至少一个处理器和包括用于一个或多个程序的计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置成使用该至少一个处理器使得该设备至少:针对至少一个音频信号的帧确定帧音频信号多信道参数的集合;基于与帧音频信号多信道参数的该集合的子集相关联的误差值选择帧音频信号多信道参数的该集合的该子集;以及基于选择的帧音频信号多信道参数的该集合的该子集生成已编码的帧音频信号多信道参数。
该设备还被使得确定至少一个音频信号的该帧的编码比特率;并且其中基于与帧音频信号多信道参数的该集合的该子集相关联的误差值选择帧音频信号多信道参数的该集合的该子集可以包括还基于该至少一个音频信号的该帧的该编码比特率选择帧音频信号多信道参数的该集合的该子集。
针对至少一个音频信号的帧确定帧音频信号多信道参数的集合可以使得该设备确定该至少一个音频信号的至少两个信道之间的差的集合,其中该差的集合可以包括两个或更多差值,其中每个差值可以与定义该帧的资源的子部分相关联。
确定至少一个音频信号的至少两个信道之间的差集合可以使得该设备确定以下至少一者:至少一个耳间时间差;以及至少一个耳间强度差。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;以及时间段。
基于与帧音频信号多信道参数的集合的子集相关联的误差值针对该帧选择帧音频信号多信道参数的集合的子集可以使得该设备:确定至少一个之前帧选择的子集;确定要被选择的元素数量;生成至少两个候选子集;从候选子集和至少一个之前帧选择的子集的组合生成重构集合;基于重构集合和帧音频信号多信道参数的集合生成误差值;以及选择所述至少两个候选子集中具有最小绝对误差值的一个候选子集。
该设备还可以被使得:针对该选择的子集生成表示该选择的子集的至少一个参数;以及生成表示该选择的子集的已编码的至少一个参数。
针对选择的子集生成表示该选择的子集的至少一个参数可以使得该设备执行以下至少一者:生成表示选择的子集中的第一选择的元素的第一参数;生成表示该子集中的连续元素的选择分配的分配参数;以及生成表示选择的子集中的元素数量的长度参数。
基于帧音频信号多信道参数的集合的选择的子集生成已编码帧音频信号多信道参数可以使得该设备使用向量或标量量化码本生成至少一个帧音频信号多信道参数群组的码本索引。
使用向量或标量量化码本生成至少一个帧音频信号多信道参数的群组的码本索引可以使得该设备:生成依据至少一个帧音频信号多信道参数的映射实例的频率分配的与至少一个帧音频信号多信道参数的相关联的索引的编码映射;以及依据该相关联的索引对该编码映射进行编码。
依据相关联的索引对该编码映射进行编码可以使得该设备将Golomb-Rice编码应用到依据该相关联索引的编码映射。
该设备还可以被使得:接收至少两个音频信号信道;从该至少两个音频信号信道且至少一个帧音频信号多信道参数确定更少量信道音频信号;生成包括该更少量信道的已编码的音频信号;以及将该已编码的音频信号和已编码的至少一个帧音频信号多信道参数进行组合。
根据第六方面,提供了一种设备,该设备包括至少一个处理器和包括用于一个或多个程序的计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置成使用该至少一个处理器使得该设备至少:在一时段内接收包括至少一个帧缩混音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数;恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合的任意元素;以及从至少一个帧缩混音频信号和帧音频信号多信道参数的集合的子集与在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合的被恢复的元素的组合针对该帧生成至少两个信道音频信号。
该帧音频信号多信道参数的集合可以包括至少一个音频信号的至少两个信道之间的差的集合,该差的集合可以包括两个或更多差值,其中每个差值可以与定义该帧的资源的子部分相关联。
至少一个音频信号的至少两个信道之间的差的集合可以包括以下至少一者:至少一个耳间时间差;以及至少一个耳间强度差。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;和时间段。
已编码的音频信号还可以包括定义帧音频信号多信道参数的集合的子集的至少一个参数;其中恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合中的任意元素可以包括对定义帧音频信号多信道参数的集合的子集的至少一个参数进行解码以确定要被恢复的子集元素。
根据第七方面提供了一种设备,该设备包括参数确定器,该参数确定器被配置成:针对至少一个音频信号的帧确定帧音频信号多信道参数的集合;参数选择器,该参数选择器被配置成基于与帧音频信号多信道参数的该集合的子集相关联的误差值选择帧音频信号多信道参数的该集合的该子集;以及参数编码器,该参数编码器被配置成基于选择的帧音频信号多信道参数的该集合的该子集生成已编码的帧音频信号多信道参数。
该设备还可以包括参数选择器确定器,该参数选择器确定器被配置成确定至少一个音频信号的该帧的编码比特率;并且其中该参数选择器被配置成还基于该至少一个音频信号的该帧的该编码比特率选择帧音频信号多信道参数的该集合的该子集。
参数确定器可以被配置成确定该至少一个音频信号的至少两个信道之间的差的集合,其中该差的集合可以包括两个或更多差值,其中每个差值可以与定义该帧的资源的子部分相关联。
参数确定器可以包括以下至少一者:耳间时间差确定器,被配置成确定至少一个耳间时间差;以及耳间强度差确定器,被配置成确定至少一个耳间强度差。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;以及时间段。
参数选择器确定器可以被配置成:确定至少一个之前帧选择的子集;确定要被选择的元素数量;生成至少两个候选子集;从候选子集和至少一个之前帧选择的子集的组合生成重构集合;基于重构集合和帧音频信号多信道参数的集合生成误差值;以及选择所述至少两个候选子集中具有最小绝对误差值的一个候选子集。
该参数编码器还可以包括:子集参数生成器,该子集参数生成器被配置成针对该选择的子集生成表示该选择的子集的至少一个参数;以及子集参数编码器,该子集参数编码器被配置成生成表示该选择的子集的已编码的至少一个参数。
子集参数生成器可以被配置成生成以下至少一者:表示选择的子集中的第一选择的元素的第一参数;表示该子集中的连续元素的选择分配的分配参数;以及表示选择的子集中的元素数量的长度参数。
参数编码器可以被配置成使用向量或标量量化码本生成至少一个帧音频信号多信道参数群组的码本索引。
参数编码器可以被配置成:生成依据至少一个帧音频信号多信道参数的映射实例的频率分配的与至少一个帧音频信号多信道参数的相关联的索引的编码映射;以及依据该相关联的索引对该编码映射进行编码。
被配置成依据相关联的索引对该编码映射进行编码的参数编码器可以被配置成将Golomb-Rice编码应用到依据该相关联索引的编码映射。
该设备还可以包括:输入,该输入被配置成接收至少两个音频信号信道;缩混信道生成器,该缩混信道生成器被配置成从该至少两个音频信号信道且至少一个帧音频信号多信道参数确定更少量信道音频信号;缩混信道编码器,该缩混信道编码器被配置成生成包括该更少量信道的已编码的音频信号;以及组合器,该组合器被配置成将该已编码的音频信号和已编码的至少一个帧音频信号多信道参数进行组合。
根据第八方面,提供了一种设备,包括:输入,被配置成在一时段内接收包括至少一个帧缩混音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数;参数集合编译器,被配置成恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合的任意元素;以及多信道生成器,被配置成从至少一个帧缩混音频信号和帧音频信号多信道参数的集合的子集与在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合的被恢复的元素的组合针对该帧生成至少两个信道音频信号。
该帧音频信号多信道参数的集合可以包括至少一个音频信号的至少两个信道之间的差的集合,该差的集合可以包括两个或更多差值,其中每个差值可以与定义该帧的资源的子部分相关联。
至少一个音频信号的至少两个信道之间的差的集合可以包括以下至少一者:至少一个耳间时间差;以及至少一个耳间强度差。
定义该帧的资源的子部分可以包括以下至少一者:子带频率;和时间段。
已编码的音频信号还可以包括定义帧音频信号多信道参数的集合的子集的至少一个参数;其中被配置成恢复在帧音频信号多信道参数的子集中没有出现的音频信号多信道参数的集合中的任意元素的参数集合编译器可以被配置成对定义帧音频信号多信道参数的集合的子集的至少一个参数进行解码以确定要被恢复的子集元素。
一种计算机程序产品可以使得设备执行上述的方法。
一种电子装置可以包括上述的设备。
一种芯片组可以包括上述的设备。
附图说明
为了更好理解本发明,通过示例方式参考附图,其中:
图1示意性示出了使用一些实施方式的电子装置;
图2示意性示出了根据一些实施方式的音频编解码器系统;
图3示意性示出了根据一些实施方式的如图2中示出的编码器;
图4示意性示出了根据一些实施方式的如在图3中示出的更详细的信道分析器;
图5示意性示出了根据一些实施方式的如在图3中示出的更详细的立体声参数编码器;
图6示出了示出根据一些实施方式的图3中示出的编码器的操作的流程图;
图7示出了示出根据一些实施方式的如图4中示出的信道分析器的操作的流程图;
图8示出了示出根据一些实施方式的如图4中示出的单信道参数编码器的操作的流程图;
图9示出了示出根据一些实施方式的如在图5中示出的立体声参数编码器的操作的流程图;
图10示意性示出了根据一些实施方式的如在他5中示出的频带确定器、参数编码器和参数选择器;
图11示出了示出根据一些实施方式的如在图10中示出的频带确定器、参数编码器和参数选择器的操作的流程图;
图12示意性示出了根据一些实施方式的如图2中示出的解码器;以及
图13示出了示出根据一些实施方式的如图12中示出的解码器的操作的流程图。
具体实施方式
下面更详细描述可能的立体声和多信道语音和音频编解码器,包括分层或可缩放可变速率语音和音频编解码器。但是当前的低比特率双耳扩展层产生差质量的解码双耳信号。这是由于缺少双耳参数(延迟和强度差)的量化的分辨率造成的或由于在已编码比特流中的子带的相应双耳参数不是表示所有的子带。这是因为双耳扩展的常规比特率约束导致参数的量化分辨率降低(且因此使得表示强度更少)或不是所有子带被相应参数表示。此外典型的强度差参数被编码,针对多至可用比特的子带,从较高子带开始向下,因此生成典型地不生成较低频率表示的双耳扩展。
这里描述的实施方式的概念是尝试生成立体声或多信道音频编码,其产生有效高质量和低比特率立体声(或多信道)信号编码。
因此这里描述的实施方式的概念是生成编码方案由此给定可用于至少一个帧的双耳扩展的比特数,信道差(例如强度差)被编码,从“第一”子带表示的子带开始直到“最后”子带(例如连续向下或向上进行)。逐帧确定“第一”子带选择,由此包括所选子带或其他参数和之前帧选择的子带的或参数的加权后的子带或其他参数的组合的重构帧最接近当前帧值。
由此,首先参考图1,其示出了示意性电子装置或设备10的示意性框图,其可以结合根据该申请的实施方式的编解码器。
该设备10可以是例如无线通信系统的移动终端或用户设备。在其他实施方式中,该设备10可以是音频-视频装置,例如视频相机、电视(TV)接收器、音频记录器或音频播放器(例如mp3记录器/播放器)、媒体记录器(还成为mp4记录器/播放器)或适合音频信号处理的任意计算机。
在一些实施方式中的电子装置或设备10包括麦克风11,其经由模拟数字转换器(ADC)14连接到处理器21。处理器21还经由数字模拟(DAC)转换器32连接到扬声器33。该处理器21还连接到收发信机(RX/TX)13,连接到用户接口(UI)15以及连接到存储器22。
处理器21在一些实施方式中能够被配置成执行各种程序代码。在一些实施方式中实施的程序代码包括如这里所述的多信道或立体声编码或解码代码。在一些实施方式中实施的程序代码23能够被存储在例如存储器22中以用于由处理器21在需要时获取。处理器22还能够提供用于存储数据的部分24,例如根据应用已经被编码的数据。
实施方式中的编码和解码代码能够以硬件和/或固件被实施。
用户接口15使得用户能够经由例如键盘输入命令给电子装置10,和/或例如经由显示器从电子装置10得到信息。在一些实施方式中,触摸屏可以提供用于用户接口的输入和输出功能。在一些实施方式中的设备10包括适用于实现例如经由无线通信网络与其他设备通信的收发信机13。
还可以理解设备10的结构能够在各种方式被补充或改变。
设备10的用户能够使用例如麦克风11,或麦克风阵列,其用于输入要被传送到一些其他设备或要被存储在存储器22的数据部分24中的语音或其他音频信号。在一些实施方式中相应应用能够为此由用户经由用户接口15被激活。在这些实施方式中该应用能够由处理器21执行,使得处理器21执行存储器22中存储的编码代码。
在一些实施方式中模拟数字转换器(ADC)14将输入模拟音频信号转换成数字音频信号并提供该数字音频信号给处理器21。在一些实施方式中,麦克风11能够包括集成麦克风和ADC功能并将数字音频信号直接提供给处理器用于处理。
在这样的实施方式中处理器21然后以如参考图2中示出的系统、图3至11示出的编码器和如图12和13示出的解码器所述的相同的方式处理数字音频信号。
在一些实施方式中产生的比特流能够被提供给收发信机13以用于传输到另一设备。可替换地,在一些实施方式中编码的音频数据能够被存储在处理器22的数据部分24中,例如用于之后的传输或用于相同设备10的之后表示。
在一些实施方式中设备10还能够经由收发信机13从另一设备接收具有相应编码数据的比特流。在该示例中,处理器21可以执行存储在存储器22中的解码程序代码。在这样的实施方式中处理器21解码接收到的数据,并提供该解码的数据给数字模拟转换器32。数字模拟转换器32将数字解码数据转换成模拟音频数据并能够在一些实施方式中经由扬声器33输出该模拟音频。在一些实施方式中解码程序代码的执行也能够由用户经由用户接口15调用的应用触发。
在一些实施方式中接收到的解码数据还能够被存储在存储器22的数据部分24,而不是经由扬声器33立即表示,例如用于之后的解码和表示或解码并转发到另一设备。
可以理解图3至5、10和12中描述的示意性结构和在图6至9、11和13中示出的方法步骤仅代表音频编解码器操作的部分且尤其是如在图1中示出的设备中实施的示意性示出的立体声编码器/解码器设备或方法的部分。
图2示出了实施方式使用的音频编解码器的一般性操作。一般的音频编码/解码系统包括编码器和解码器,如图中示意性示出。但是,可以理解一些实施方式能够实施编码器或解码器之一或编码器或解码器两者。图2示出的是系统102,具有编码器104由其是立体声编码器151、存储或媒体信道106以及解码器108。可以理解如上所述的一些实施方式能够包括或实施编码器104或解码器108之一或编码器104和解码器108两者。
编码器104压缩输入音频信号110,产生比特流112,其在一些实施方式能够被存储或通过媒体信道106被传输。此外编码器104能够包括立体声编码器151,作为总编码操作的部分。可以理解立体声编码器可以是总编码器104的部分或分开的编码模块。编码器104还能够包括编码多于两个音频信号的多信道编码器。
比特流112能够在解码器108内被接收。解码器108解压该比特流112并处理输出音频信号114。解码器108能够包括立体声解码器,作为总解码操作的部分。可以理解立体声解码器可以是总解码器108的部分或分开的解码模块。解码器108还能够包括解码多于两个音频信号的多信道解码器。与输入信号110有关的比特流112的比特率和输出音频信号114的质量是定义编码系统102的性能的主要特征。
图3示意性示出了根据一些实施方式的编码器104。图6示意性示出了根据一些实施方式的编码器104的操作的流程图。在这里提供的示例中,输入音频信号是两信道或立体声音频信号,其被分析且从单信道参数编码器生成单信道参数表示且从立体声参数编码器生成立体声编码参数。但是可以理解在一些实施方式中输入能够是被分析的任意数量的信道且缩混参数编码器生成缩混参数表示且信道扩展参数编码器生成扩展信道参数。
这里描述的实施方式的概念因此是确定并应用多信道(立体声)编码方法以产生有效高质量和低比特率实际生活的多信道(立体声)信号编码。为此关于图3示出了根据一些实施方式的示例编码器104。此外关于图6更详细示出了编码器104的操作。
在一些实施方式中编码器104包括帧分段器/变换器201。帧分段器/变换器201被配置成接收左和右(或更一般地任意多信道音频表示)输入音频信号并生成要被分析并编码的这些音频信号的频域表示。这些频域表示能够被传递给信道分析器203。
在一些实施方式中帧分段器/变换器能够被配置成将音频信号数据分段或分节成适合频域变换的分段或帧。在一些实施方式中帧分段器/变换器201还能够被配置成根据任意合适的窗口功能对音频信号数据的这些帧或分段加窗口。例如帧分段器/变换器201能够被配置成生成20ms的帧,其重叠之前和之后的帧10ms。
在一些实施方式中帧分段器/变换器能够被配置成对音频信号数据执行任意合适的时-频域变换。例如该时-频域变换能够是离散傅里叶变换(DFT)、快速傅里叶变换(FFT)、修正离散余弦变换(MDCT)。在以下示例中,使用快速傅里叶变换(FFT)。此外时-频域变换器的输出还能够被处理以生成每个输出信道音频信号数据的分开的频带域表示(子带表示)。这些频带能够以任意合适方式被安排。例如这些频带能够是线性间隔的,或是感觉上或心理声学上被分配的。
图6中步骤501示出了生成音频帧带频域表示的操作。
在一些实施方式中频域表示被传递到信道分析器203。
在一些实施方式中,编码器104能够包括信道分析器203或用于分析至少一个音频信号的装置。信道分析器203能够被配置成接收多信道或立体声输入的子带过滤表示。此外信道分析器203在一些实施方式中能够被配置成分析频域音频信号并确定关于立体声或多信道音频信号差的与每个子带相关联的参数。
在一些实施方式中生成的单信道(或缩混)信号或单信道(或缩混)参数能够被传递到单信道参数编码器204。
立体声参数(或更一般地多信道参数)能够被输出给立体声参数编码器205。
在这里描述的示例中,关于频域参数定义单信道(或缩混)和立体声(或信道扩展或多信道)参数,但是在一些实施方式中能够生成时域或其他域参数。
图6中的步骤503示出了确定立体声(或信道扩展或多信道)参数的操作。
关于图4,更详细描述了根据一些实施方式的示例信道分析器203。此外关于图7,描述了根据一些实施方式的如图4中示出的信道分析器203的操作。
在一些实施方式中,信道分析器/单信道编码器203包括移位(shift)确定器301或用于确定至少两个音频信号之间的移位的装置。移位确定器301被配置成选择子带的移位由此其在频域最大化信号与移位的信号之间的相关的实部。该移位(或最佳相关索引COR_IND[j])能够使用例如以下代码来确定。
其中值MAXSHIFT是最大允许移位(该值能够基于支持的麦克风结构型号或更简单地麦克风之间的距离),PI是π,COR_INIT是初始相关值或用于初始化相关计算的大负值,以及COR_BAND_START[]定义子带的起始点。这里使用的向量svec_re[]和svec_im[],即该向量的实部值和虚部值如下被定义:
图7中的步骤553示出了确定该相关值的操作。
在一些实施方式中相关值能够被传递给单信道信道编码器204并作为立体声信道参数给立体声参数编码器205且在一些实施方式中给移位差选择器705。
此外,在一些实施方式中该移位值被应用到音频信道中的一个以提供信道之间的时间校准。这些校准的信道音频信号在一些实施方式中能够被传递到相对能量信号强度确定器303。
图7中的步骤552示出了使用确定的移位值校准信道的操作。
在一些实施方式中,信道分析器/编码器203包括相对能量信号强度确定器303或用于确定至少两个音频信号之间的相对强度差的装置。相关能量信号强度确定器303被配置成接收输出的校准的频域表示并确定每个子带的信道对之间的相对信号强度。可以理解在以下示例中单对信道由合适的立体声信道分析器分析并被处理,但是可以理解在一些实施方式中该操作能够被扩展到任意数量的信道(换句话说多信道分析器或用于分析多个或两个或更多个信道的合适装置,以确定定义信道的参数或信道之间的差)。这能够通过例如合适的多信道配对产生能够如这里所述被分析的信道对来实现。
在一些实施方式中每个带的相对强度能够使用以下代码被计算。
其中L_FFT是FFT的长度和EPSILON是大于零的小值,用于防止零除问题。在这样的实施方式中相对能量信号强度确定器有效在每个子带生成每个信道(例如在立体声信道配置中左信道L和右信道R)的大小确定且然后用一个信道值除以另一信道值以生成相对值。在一些实施方式中,相对能量信号强度确定器303被配置成输出相对能量信号强度给单信道(或缩混)参数编码器204和立体声(或多信道或信道扩展)参数编码器205且在一些实施方式中到强度差选择器703。
图7中的步骤553示出了确定相对能量信号强度的操作。
在一些实施方式中,能够执行任意合适强度间(能量)和时间间(移位或延迟)差估计。例如对于每个帧能够有两个估计移位(延迟)和强度的窗口。因此例如如果每个帧是10ms则可以有两个窗口,其可以重叠且彼此延迟5ms。换句话说对于每个帧能够有确定的两个分开的延迟和强度差值,其能够被传递给编码器以用于编码。
此外在一些实施方式中,对于每个窗口,能够针对相关子带的每个来估计所述差。在一些实施方式中能够根据任意合适的方法确定子带的划分。
例如在一些实施方式中能够根据选择的带宽确定执行子带划分,其然后确定强度间(能量)和时间间(移位或延迟)差估计的次数。例如音频信号的生成能够基于输出信号被认为是宽带(WB)、超宽带(SWB)还是全带(FB)(其中带宽要求从宽带到全带的顺序增加)。在一些实施方式中,对于可能的带宽选择,能够有子带中的特定划分。因此例如时间或延迟差估计的FFT域的子带划分能够是:
宽带(WB)的ITD子带
constshortscale1024_WB[]=
{1,5,8,12,20,34,48,56,120,512};
超宽带(SWB)的ITD子带
constshortscale1024_SWB[]=
{1,2,4,6,10,14,17,24,28,60,256,512};
全带(FB)的ITD子带
constshortscale1024_FB[]=
{1,2,3,4,7,11,16,19,40,171,341,448/*~21kHz*/};
宽带(WB)的ILD子带
constshortscf_band_WB[]=
{1,8,20,32,44,60,90,110,170,216,290,394,512};
超宽带(SWB)的ILD子带
constshortscf_band_SWB[]=
{1,4,10,16,22,30,45,65,85,108,145,197,256,322,412,512};
全带(FB)的ILD子带
constshortscf_band_FB[]=
{1,3,7,11,15,20,30,43,57,72,97,131,171,215,275,341,391,448/*~21kHz*/};
换句话说,在一些实施方式中能够有延迟和强度差的不同的子带。
如图4中所示,编码器还能够包括单信道参数编码器204(或更一般地缩混参数编码器或用于编码至少一个缩混参数的装置)。图8中示出了示例单信道(缩混)参数编码器204的操作。
在一些实施方式中该设备包括单信道(或缩混)参数编码器204。在一些实施方式中单信道(或缩混)参数编码器204包括单信道(缩混)信道生成器/编码器305,被配置成从相对能量信号强度确定器303接收信道分析器值(例如相对能量信号强度)并从移位确定器301接收移位强度。此外在一些实施方式中,单信道(缩混)信道生成器/编码器305能够被配置成还接收输入立体声(多信道)音频信号。在一些实施方式中单信道(缩混)信道生成器/编码器305能够被配置成将移位(延迟)和强度差应用到立体声(多信道)音频信号以生成代表音频信号的“校准”单信道(或缩混)信道。换句话说单信道(缩混)信道生成器/编码器305能够生成表示校准的立体声(多信道)音频信号的单信道(或缩混)信道信号。例如在确定为左信道音频信号和右信道音频信号的一些实施方式中,左或右信道音频信号的一者根据确定的延迟差关于彼此被延迟且然后延迟的信道和其他信道音频信号被平均以生成单信道信号。但是可以理解在一些实施方式中能够实施任何合适的单信道生成方法。可以理解在一些实施方式中单信道生成器或用于生成音频信道的合适装置能够由‘减少’(或缩混)信道数生成器替代或辅助,其被配置成生成少于输入音频信道数量的输出音频信道。因此例如在输入音频信号信道数量大于两个的一些多信道音频信号示例中,‘单信道生成器’被配置成生成多于一个信道音频信号但是少于输入信道数量。
图8中的步骤555示出了从多信道信号生成单信道信号(或减少数量的信道)的操作。
在一些实施方式中单(缩混)信道生成器/编码器305然后能够使用任意合适的编码格式编码生成的单(缩混)信道音频信号(或减少数量的信道)。例如在一些实施方式中能够使用增强语音服务(EVS)单(或多个单)信道编码格式来编码单(缩混)信道音频信号,该形式可以包含自适应多速率-宽带(AMR-WB)编解码器的比特流互操作版本。
图8中的步骤557示出了编码单信道(或减少数量的信道)的操作。
已编码单(缩混)信道信号然后能够被输出。在一些实施方式中已编码单(缩混)信道信号被输出给复用器以与立体声参数编码器205的输出结合以形成单个流或输出。在一些实施方式中已编码单(缩混)信道信号分开地从立体声参数编码器205输出。
图6中的步骤504示出了确定单(缩混)信道信号和编码单(缩混)信道信号的操作。
在一些实施方式中编码器104包括立体声(或扩展或多信道)参数编码器205或用于编码扩展参数的装置。在以下示例中多信道参数编码器是立体声参数编码器205或用于编码多信道参数的合适装置。立体声参数编码器205能够被配置成接收信道分析器203确定的多信道参数,例如立体声(差)参数。在一些实施方式立体声参数编码器205则能够被配置成对该参数执行量化并此外编码该参数由此它们能被输出(被存储在设备上或传递给另外的设备)。
图6中的步骤505示出了量化并编码量化的立体声参数的操作。
关于图5更详细示出了示例立体声/多信道参数编码器205。此外关于图9示出了根据一些实施方式的立体声/多信道参数编码器205的操作。
在一些实施方式中立体声/多信道参数编码器205被配置成接收信道强度差(ILD)和信道延迟差(ITD)形式的立体声/多信道参数。
立体声/多信道参数在一些实施方式中能够被传递到强度差量化器703(针对ILD值)和移位差量化器705(针对ITD值)。
图9中的步骤401示出了接收立体声/多信道参数的操作。
在一些实施方式中立体声/多信道参数编码器205包括强度差量化器703(或用于量化强度差参数的装置)。强度差量化器703被配置成接收强度间差(ILD)帧立体声/多信道参数。强度差量化器703则被配置成量化子带的ILD参数。量化的强度差值能够被传递给强度差选择器和编码器704且还给参数选择确定器701。
此外在一些实施方式中立体声/多信道参数编码器205包括移位差量化器705(或用于量化移位差参数的装置)。移位差量化器705被配置成接收帧立体声/多信道参数的时间间差(TID)值。移位差量化器705然后能够被配置成量化子带差参数值并将这些值传递给移位差选择器和编码器706且还给参数选择确定器701。
图9中的步骤403示出了量化该参数值的操作。
在一些实施方式中立体声/多信道参数编码器205包括参数选择确定器701或用于确定参数选择标准的装置。参数选择确定器701被配置成确定参数选择标准,其能够被传递给差选择器和编码器以实现差参数的选择性编码。
在一些实施方式中参数选择确定器701被配置成确定被处理的当前帧是否是初始参考或第一个帧。
图9中的步骤403示出了确定当前处理的帧是否是第一个帧的操作。
在一些实施方式中参数选择确定器701确定当前帧是初始参考或第一个帧(换句话说没有存储任意之前的已编码参数),则参数选择确定器还能够被配置成生成参数选择标准(或用于确定选择标准的装置)以基于特定数量的选择的参数的候选选择参数和当前多信道参数(或其量化形式)最小化加权误差值。因此在一些实施方式中参数选择确定器701被配置成确定可用比特率或其他合适容量且因此确定能够针对用于该当前帧的该数量的比特编码的最大数量的选择的参数并从“第一个”参数到“最后一个”参数选择该最大数量的选择的参数,其中该“第一个”和因此该“最后一个”参数选择标准由误差值确定。
在以下示例中该误差基于接收的或未量化参数和选择的量化参数之间的差来确定。但是可以理解在一些实施方式中能够在量化参数和选择的接收的“未量化”参数之间或接收的(量化的或未量化)和选择的(量化的或未量化)参数的任意组合之间进行相同的误差分析。参数选择标准被配置成确定所确定的子带立体声/多信道参数中的哪些要被差选择器和编码器(例如强度差选择器和编码器704和移位差选择器和编码器706)选择并编码。
图9中的步骤406示出了基于一数量的选择的参数的最小化选择的和接收的参数之间的误差确定初始帧选择标准的操作。
在一些实施方式中根据任意合适的标准选择初始子带立体声/多信道参数。例如在一些实施方式中参数选择确定器701被配置成将初始帧选择标准确定为按频率降序的顺序选择算法。换句话说信道分析器生成每帧10个多信道参数,其中子带从最高频率到最低频率由索引1至10代表,然后针对第一个帧特定帧(i)第一数的子带被选择(例如前5个子带立体声/多信道参数1、2、3、4、5)。
在一些实施方式中参数选择确定器701确定当前帧不是初始参考或第一个帧(换句话说有存储的版本或存储之前已编码参数),则参数选择确定器还能够被配置成生成参数选择标准(或用于确定选择标准的装置)以基于针对特定数量的选择的参数的候选选择参数和任意之前帧选择和当前多信道参数(或其量化形式)最小化加权误差值。因此在一些实施方式中参数选择确定器701被配置成确定可用比特流或其他合适容量且一in次确定能够针对该当前帧的该数量的比特被编码的最大数量的选择的参数,并从“第一个”参数至“最后一个”参数选择最大数量的选择的参数,其中“第一个”和因此“最后一个”参数选择标准由该误差值确定。
如这里所述在以下示例中该误差基于接收的或未量化参数和重构的量化参数之间的差来确定。但是可以理解在一些实施方式中,能够在量化参数和重构的接收的“未量化”参数之间或接收的(量化的或未量化)和重构的(量化的或未量化)参数的任意组合之间进行该相同的误差分析。参数选择标准被配置成确定所确定的子带立体声/多信道参数中的哪些要被差选择器和编码器(例如强度差选择器和编码器704和移位差选择器和编码器706)选择并编码。
图9中的步骤405示出了基于最小化针对一数量的选择的参数的选择的和重构的参数之间的误差确定进一步帧选择标准的操作。
此外在一些实施方式中可以理解选择的子带或参数的数量能够在帧与帧之间不同。例如参数选择确定器701能够被配置成基于用于基于帧传输参数的可用带宽选择一数量的子带。
在一些实施方式中参数选择确定器701能够被配置成输出类似的或相同的确定的子带选择给移位差选择器和编码器704以及给强度差选择器和编码器706。但是可以理解在一些实施方式中参数选择确定器701与移位差值相比将不同的选择标准应用到强度差值。在一些实施方式中参数选择确定器701能够被配置成确定或应用限制的选择标准到强度差参数值并选择所有用于移位差参数值的子带,或反之亦然。此外在一些实施方式中强度差参数值和移位差参数值的确定的选择之间的差能够取决于参数编码和强度差参数值和移位差参数值的可用带宽。
参数选择确定器701然后能够输出选择标准(换句话说要被选择的子带)到移位差选择器和编码器706和强度差选择器和编码器704。
在一些实施方式中多信道参数编码器205包括强度差选择器和编码器704(或用于选择强度差参数的装置和用于编码选择的强度差参数的装置)。强度差选择器和编码器704被配置成接收强度间差(ILD)帧立体声/多信道参数并还从参数选择确定器701接收子带选择。强度差选择器和编码器704然后被配置成选择或过滤指示的子带的ILD参数。选择的强度差值能够被编码。
此外在一些实施方式中多信道参数编码器205包括移位差选择器和编码器706(或用于选择移位差参数的装置和用于编码选择的移位差参数的装置)。移位差选择器和编码器706被配置成从参数选择确定器701接收帧立体声/多信道参数的时间间差(ITD)值和选择标准值。相位差选择器和编码器706然后能够被配置成选择指示的子带差参数值且然后对其进行编码。
图9中的步骤407示出了基于选择标准选择或过滤差参数的操作。
在一些实施方式中,多信道参数编码器205强度差选择器和编码器704(或用于编码强度差参数的装置)被配置成以合适方式编码或量化选择的强度差参数并以已编码形式输出选择的强度和“第一”值。在一些实施方式中,这些能够与单信道/缩混已编码信号复用或分开被传递到解码器(或用于存储的存储器)。在一些实施方式中起始位置或“第一”索引能够使用稀疏分辨率被量化且此外Huffman编码能够用于使用尽可能少的比特编码最常用的起始位置。此外在一些实施方式中编码器能够被配置成接收并编码顺序选择,其中有多于一个可能的选择顺序可用且将其传递给解码器由此使得解码器能够重构选择顺序。该顺序选择能够类似地以Huffman编码进行熵编码。
在一些实施方式中,使用2维码本量化或编码差值或向量。但是在一些实施方式中强度差编码器能够被配置成基于确定的出现频率使用索引重映射并Golomb-Rice编码(或和其他合适熵编码)索引至以降低编码每个值所需的比特数的平均值。
类似地,多信道参数编码器205移位差选择器和编码器406(或用于编码移位差参数的装置)被配置成以合适方式(例如向量量化或其他形式)编码选择的移位差参数。此外在一些实施方式中,移位差选择器和编码器706被配置成编码该“第一”值。换句话说针对每个帧估计的当前帧的起始位置能够被编码。在一些实施方式中该起始位置或“第一”索引能够使用稀疏分辨率被量化且此外Huffman编码能够用于使用尽可能少的比特编码最常用的起始位置。此外在一些实施方式中,编码器能够被配置成接收和编码顺序选择,其中有多于一个选择的顺序可用并将其传递给解码器由此使得解码器重构该选择顺序。
图9中的步骤409示出了编码指示第一个已编码值的该帧的选择的参数和“第一”或索引值的操作。
此外图9中的步骤411示出了输出已编码选择的参数。
关于图10更详细示出了根据一些实施方式的参数选择确定器701的示例。此外关于图11通过流程图更详细描述了根据图10中示出的示例的参数选择确定器701的操作。
在一些实施方式中,参数选择确定器701包括比特率确定器(参数长度确定器)753。比特率确定器(参数长度确定器)753被配置成确定该帧的可用比特率或换句话说可用于编码当前帧的多信道参数的比特数。参数选择确定器然后能够从针对该帧的可用比特率或比特数确定能够针对该帧编码的参数数量。在一些实施方式中每个已编码参数所需的比特数基于已知函数被估计。
比特率确定器/参数长度确定器753能够输出能够被编码的参数数量(换句话说选择“长度”值)给第一参数选择器754。
图11中步骤451示出了确定用于针对该帧编码的比特率和参数数量的操作。
在一些实施方式中,参数选择确定器701包括帧存储器751。帧存储器751被配置成关于最近确定或选择的参数存储之前的帧参数的复本。帧存储器751因此能够被认为是可用参数的版本,其已经在解码器处可用同时当前帧被处理。
帧存储器751能够被配置成输出帧存储器的内容给帧加权处理器752。
图11中的步骤455示出了接收或获取之前的帧参数的操作。
此外在一些实施方式中参数选择确定器701包括帧加权处理器752。帧加权处理器从帧存储器751接收之前的帧参数并将加权因子应用到这些参数。例如在一些实施方式中帧加权因子是每个帧0.8乘数因子,其在加权的帧参数被传递给帧重构/误差确定器756之前被应用到帧存储器参数的每一个。可以理解在一些实施方式中没有之前的帧加权,换句话说帧加权因子是1。
图11中的步骤459示出了加权之前的帧参数的操作。
在一些实施方式参数选择确定器701包括第一参数选择器754。第一参数选择器754能够被配置成从参数长度确定器753接收针对当前帧被编码的该数量的参数。
在一些实施方式中,第一参数选择器754能够被配置成生成或确定第一选择值,换句话说要被选择并编码的第一参数,并还选择当前帧的其他参数,直到该顺序中的“最后一个”参数。在一些实施方式中,选择的顺序是模数递增索引选择,其中子带从该帧的“第一”选择的子带到该帧的“最后一个”选择的子带递减频率子带被选择,其中在该顺序中,达到最低频率子带,该顺序返回到最高频率子带并按频率降低的方式继续。
下面的示例示出了是降频率子带或升索引参数的选择顺序,其中子带从最高到最低频率被索引。例如其中有10个子带参数,指定b1作为最高频率子带参数,到b10作为最低频率子带参数,然后从b1开始的可能的3个参数选择是b1、b2、b3。可以理解选择顺序在一些实施方式中能够是任意合适的一个或多个顺序。例如在一些实施方式中选择顺序能够是递增频率子带(或递减索引参数选择,例如从b1开始的可能的3个参数选择是b1,b10,b9)。在一些实施方式中其他顺序选择能够在选择间具有间隙。例如,可替换的被索引的参数可以是降频率(对于从b1开始的3个奇数索引的参数=b1,b3,b5或从b2开始的3个偶数索引的参数=b2,b4,b6)或升频率(对于从b1开始的3个奇数索引的参数=b1,b8,b7或从b2开始的偶数索引的参数=b2,b10,b8)。在一些实施方式中选择顺序能够具有一致选择步骤(其能够是多于这里所述的2)或能够具有可变选择步骤。
在一些实施方式中选择顺序能够尝试使用频率范围的低和高部分之间的相关。因此在一些实施方式中该顺序能够被配置成选择第一个子带且然后选择该子带部分另一半中的相应子带(例如3参数选择能够是(b1[第一个选择的参数]、b6[该频率范围的低半部分中的相应参数]、b2[高带中的下一个选择]))。
在一些实施方式中,其中在单个帧中使用多于一个选择顺序,则第一参数选择器754被配置成将这指示给参数和索引选择器和编码器。
图11中的步骤457示出了生成或确定针对该帧的第一选择和选择的参数的操作。
在一些实施方式中第一参数选择器754能够输出要选择哪些参数的指示给参数和索引选择器/编码器,其能够生成候选参数输出以被传递给重构器/误差确定器756。该参数和索引选择器/编码器能够例如是强度差选择器/编码器704和/或移位差选择器/编码器。
在一些实施方式中参数选择确定器701包括帧重构器/误差确定器756。帧重构器/误差确定器756被配置成接收当前帧参数(或在一些实施方式中量化的当前帧参数,其中在量化参数之间进行误差确定)其还有候选当前帧选择的参数。
图11中的步骤458示出了接收帧参数和选择的参数的操作。
在一些实施方式中帧重构器/误差确定器756被配置成从选择的量化参数和加权的之前的帧参数生成重构帧。这是有效地生成解码器视点的操作,其中解码器接收选择的当前帧参数和任意之前参数(被加权的)。可以理解在一些实施方式中仅从选择的参数形成针对第一帧的重构帧。
图11中的步骤461示出了从选择的参数和(加权)之前的帧参数生成重构帧的操作。
此外在一些实施方式中帧重构器/误差确定器756被配置成确定重构参数和帧参数之间的误差值。在一些实施方式中该误差值能够是重构参数的向量和该参数的向量之间的距离。可以理解在一些实施方式中如这里所述误差值根据重构参数的向量和量化参数的向量之间的距离来确定。
图11中的步骤463示出了生成或确定重构的参数和帧参数之间的误差值的操作。
在一些实施方式中帧重构器/误差确定器756能够被配置成存储针对该第一索引值的该误差值(且在一些实施方式中选择顺序模式)。
在一些实施方式中帧重构器/误差确定器还能够确定是否已经进行了所有的“第一”选择。在一些实施方式中“第一”参数选择的搜索是穷尽搜索,换句话说所有可能的“第一”选择被测试且误差值被确定。在一些实施方式中该“第一”参数选择的搜索是尝试仅确定局部最小值。
图11中的步骤465示出了确定是否已经进行所有“可能的”第一参数选择的操作。
如果还有可能的第一选择,则帧传感器/误差确定器756能够被配置成将这个指示给第一参数选择器754,其生成另外“第一”参数和顺序选择并将该选择传递给参数索引选择器和编码器。
图11中的步骤406示出了选择“新的”第一参数值的操作且该操作回到图11中的步骤457示出的操作。
如果已经进行了所有“可能的”第一参数选择,则帧重构器/误差确定器756能够被配置成向第一参数选择器754指示第一参数值中的哪些具有最小误差值。第一参数选择器754然后能够将其输出给参数和索引选择器和编码器。
图11中的步骤467示出了基于最小误差值生成帧“第一”参数选择和其他选择的参数的操作。
在下面的部分中给出了使用强度差作为要编码的参数在当前帧的双耳扩展的一些实施方式的操作的示例。
在该示例中使用从“第一”表示的子带开始并按降频的顺序从第一帧选择,并对强度差进行编码。
此外,在该示例中能够根据以下量化强度{-10,-6,-4,-2,0,2,4,6,10}来量化强度参数。
在该示例中参数选择确定器确定有足够的比特用于向下编码仅5个子带强度参数且总共10个子带的量化强度值(从最高频率子带向下)是:
x{b1b2b3b4b5b6b7b8b9b10}={1.61.83.4-4.42.1-2.3-5.6-9.36.34.3}
x_hat{b1b2b3b4b5b6b7b8b9b10}={224-42-2-6-1064}
其中x_hat是x的量化版本。
根据第一实施方式,该第一参数选择器确定使用前5个参数的第一帧选择(换句话说第一个参数是b1且最后一个是b5且其余的使用空或0值)。在该示例中重构的参数值可以是:
recx{b1b2b3b4b5b6b7b8b9b10}={224-4200000}.
可以理解在一些实施方式中第一参数选择器确定第一帧选择5个参数但是搜索由diff=‖recx-x_hat‖确定的最小误差值。
在这样的实施方式中可能的选择和diff值是
且由此在一些实施方式中要被输出的第一帧选择的参数是
recx{b1b2b3b4b5b6b7b8b9b10}={00000-2-6-1064}
或
recx{b1b2b3b4b5b6b7b8b9b10}={200000-6-1064}
其中diff=||x-x_rec||2则要输出的第一帧选择的参数是
recx{b1b2b3b4b5b6b7b8b9b10}={00000-2-6-1064}
根据下表示出五个选择的参数的diff值:
但是在以下示例中“第一个”5个参数用于确定“第一个”选择的参数的下一个帧值。在一些实施方式中帧重构器/误差确定器756能够被配置成穷尽搜索过程,该过程考虑“第一个”选择的参数的每一个可能的值;并计算重构的参数值与原始或未量化的参数值之间的失真。
例如,如果以下帧数据是:
x=1.2,3.7,6.3,3.1,0.7,-2.1,-4.7,-8.4,5.2,0.1
其能够根据上面的量化表被量化成:
x_hat={24640-2-4-1060}。
在该示例中使用非量化帧数据确定误差值且是之前示例的平方。
diff=||x-x_rec||2
此外,在该示例中应用到当前存储的帧数据的加权因子当应用到之前帧时在插入到重构帧时是0.8。
在该示例中如果选择的“第一个”参数索引是6,且仅有4个参数要被编码,则重构的值可以是:
x_rec={1.61.63.23.21.6-2-4-1060}
且编码误差可以是||x-x_rec||2=18.71。
粗体值对应于选择的编码值;斜体值对应于从具有权值0.8的之前帧得到的值。
在一些实施方式中除了选择参数的起始点,例如使用一比特量化器能够量化没有给之前帧使用的值。在一些实施方式中该量化器可以对这些值降低权重,例如{0.9,0.4},这依据该值从之前帧起改变了多少。在有非常小改变的情况中,该值的权重降低得比值改变较大的情况要少。
在该示例中如果选择的“第一个”参数索引是7,且仅有4个参数要被编码,则重构的值可以是:
x_rec={1.61.63.23.21.60-4-1060}且编码误差可以是||x-x_rec||2=23.11。
该过程能够继续针对“第一个”参数的所有可能的值且给出最低编码或重构误差的值被选择且其值被编码。
在一些实施方式中加权的欧几里得距离能够用作误差值以给较高频率带更高权重,其对信道强度差更相关。
在一些实施方式中通过在稀疏网格上搜索例如两步法取值能够加速选择的“第一个”参数的值的搜索或优化。这是因为参数向量是通过交错来自两个连续窗口的值使得对应于相同子带的值彼此接近而被形成的。
此外在一些实施方式中基于最后一个帧的一般性重构的向量能够用于检测在哪里更好编码当前帧值。
例如使用之前示例一般性重构的向量可以是:
x_gen={1.61.63.23.21.600000}
其与以下相比:
x={1.23.76.33.10.7-2.1-4.7-8.45.20.1}
将给出以下的方差向量:
diff={0.164.419.610.010.814.4122.0970.5627.040.01}.
在该实施方式中4个连续分量的群组的总和被计算,从“第一”=1开始,直到“第一”=10,其提供部分求和值:
部分={14.8414.8427.3297.87124.10119.7097.7731.6214.1914.19}这允许帧重构器/误差确定器确定最佳选择是选择“第一”=5,对应于最大差124.10,其如果从位置5开始编码则可以被校正。
这些实施方式对应于在参数向量中找到与之前帧相比向量改变最多的部分。
总之用于确定当前帧的“第一个”参数的算法能够如下
1.初始化:
找到具有最大加权误差的子向量起始点
量化该子向量的起始点并量化这些最重要(选择的)值
将其余(即在之前阶段没有被量化的值)向量值设定为零
2.针对每个连续帧:
找到给出由于与之前帧相比改变的值的最大加权误差值的子向量起始点
编码该起始点并量化选择的子向量。选择的值能够被量化为其自身或与之前值的差被量化(所谓的安全网切换的预计量化器)。量化方法的选择能够使用一个或多个比特被编码。
其余的值(即在之前阶段没有量化的值)能够从之前帧被复制,具有固定尺度,或可替换地它们能够被缩放多个尺度。在后者情况中最优尺度信息由一个或多个比特编码。
为了完全示出编解码器的操作,图12和13示出了根据一些实施方式的解码器和该解码器的操作。在下面的示例中解码器是立体声解码器,被配置成接收单信道已编码的音频信号和立体声信道扩展或立体声参数,但是可以理解解码器是多信道解码器,被配置成接收任意数量的信道已编码的音频信号(缩混信道)和信道扩展参数。
在一些实施方式中解码器108包括单/缩混信道解码器1001(或用于解码缩混信道的装置)。单/缩混信道解码器1001在一些实施方式中被配置成接收已编码单/缩混信道信号。
图13中的步骤1101示出了接收已编码单/缩混信道音频信号的操作。
此外单/缩混信道解码器1001能够被配置成使用编码器中示出的单/缩混信道编码器的该逆过程解码该已编码单/缩混信道音频信号。
图13中的步骤1103示出了解码单/缩混信道的操作。
在一些实施方式中,解码器还被配置成将解码的单/缩混信号输出给立体声/多信道信道生成器1009由此该解码的单/缩混信号基本与来自参数集编译器1005的解码的立体声/多信道参数同时被同步或接收。
图13中的步骤1105示出了同步单/缩混到立体声/多信道参数的操作。
在一些实施方式中解码器108能够包括立体声/多信道信道解码器1003(或用于解码多信道或扩展参数的装置)。该立体声/多信道信道解码器1003被配置成接收已编码立体声/多信道参数。
图13中的步骤1102示出了接收已编码立体声/多信道参数的操作。
此外立体声/多信道信道解码器1003能够被配置成通过应用在编码器中应用的过程的逆过程来解码立体声/多信道信道信号。例如立体声/多信道信道解码器能够被配置成通过应用移位差编码器和强度差编码器的逆过程来输出解码的立体声/多信道参数。在一些实施方式中,立体声/多信道信道解码器1003能够被配置成接收指示能被解码的“第一”值的已编码索引值。此外立体声/多信道信道解码器1003能够被配置成接收已编码顺序模式或类型值,指示从“第一”参数值起的选择顺序,该“第一”参数值能够被解码并传递给参数集编译器。
图13中的步骤1104示出了解码立体声/多信道参数的操作。
立体声/多信道信道解码器1103还被配置成输出解码的主立体声/多信道参数(且在一些实施方式中“第一”参数值和选择顺序指示符或模式指示符)到参数集编译器1005。
在一些实施方式中解码器包括参数集编译器1005(或用于编译扩展参数集的装置)。参数集编译器1005被配置成接收解码的立体声/多信道参数并被配置成将任意之前的帧(或旧)立体声/多信道参数替换成新解码的帧参数,其中替换子带参数在解码的帧中。解码的帧中的替换子带参数的位置能够从被传递的索引值找到。此外在一些实施方式中子带参数的顺序能够从顺序选择值中找到。
图13中的步骤1106示出了将旧的立体声/多信道参数替换为解码的帧参数的操作(其中发生替换)。
因此参数集编译器1005包含立体声/多信道参数的集合,其包含来自最近接收的帧的所有子带立体声参数。这些参数能够被传递给立体声/多信道信道生成器1009。
图13中的步骤1108示出了输出编译的参数的“完成”集合。
在一些实施方式中,参数集编译器1005能够被配置成具有替换存储周期或到期周期,在该周期之后参数集编译器1005丢弃存储的立体声/多信道参数以防止过时的立体声/多信道参数被发送给立体声/多信道信道生成器1009。此外在一些实施方式中参数集编译器1005能够被配置成使用加权因子给之前的参数加权以降低“旧”数据对立体声/多信道信道生成器的影响。
在一些实施方式中解码器包括多信道/立体声信道生成器1009(或用于生成扩展信道音频信号的装置),被配置成接收解码的立体声/多信道(或扩展)参数和解码的单/缩混信道并重新生成多信道/立体声信道,换句话说将强度差(扩展参数)应用到单/缩混信道以生成第二个(或扩展的)信道。
图13中的步骤1009示出了从单/缩混信道和立体声/扩展参数生成立体声/多信道信道的操作。
虽然上述示例描述了在设备10内的编解码器内操作的该申请的实施方式,但可以理解下面描述的本发明可以作为任意音频(或语音)编解码器的部分来实施,包括任意可变比特率/自适应比特率音频(或语音)编解码器。因此例如,该申请的实施方式可以在音频编解码器中被实施,其可以通过固定或有线通信路径执行音频编码。
因此用户设备可以包括音频编解码器,例如上述该申请的实施方式中描述的音频编解码器。
可以理解术语用户设备是包含任意合适类型的无线用户设备,例如移动电话、便携式数据处理装置或便携式网页浏览器。
此外公共陆地移动网络(PLMN)的元件也可以包括如上所述的音频编解码器。
一般来说,应用的各种实施方式可以以硬件或专用电路、软件、逻辑或其任意组合的方式被实施。例如,一些方面可以以硬件实施,而其他方面可以以固件或控制器、微处理器或其他计算装置执行的软件来实施,但是本发明不限于此。虽然应用的各个方面可以被示出并被描述为框图、流程图,或使用一些其他图形表示,但是可以理解这里描述的这些框、设备、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算装置或其一些组合(作为非限制性示例)来实施。
该申请的实施方式可以通过移动装置的数据处理器(例如在处理器实体中)可执行的计算机软件,或通过硬件或通过软件和硬件的组合来实施。此外对此应当注意图中的逻辑流的任意框可以表示程序步骤,或互连逻辑电路,框或功能,或程序步骤和逻辑电路、框和功能的组合。
存储器可以是任何类型的适合局部技术环境且可以使用任意合适的数据存储技术来实施,例如基于半导体的存储装置、磁存储装置和系统、光学存储装置和系统、固定存储器和可移动存储器。数据处理器可以是任意类型的适合局部技术环境,且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器(作为非限制性示例)中的一者或多者。
该申请的实施方式可以在各种组件中实施,例如集成电路模块。集成电路的设计是大体上是高度自动化过程。复杂和有力的软件工具可用于将逻辑级设计转换成准备在半导体衬底上被蚀刻和形成的半导体电路设计。
程序,例如加利福尼亚州MountainView的Synopsys公司和加利福尼亚州圣荷西的CadenceDesign提供的软件使用成熟确立的设计规则以及预先存储的设计模块库在半导体芯片上自动设定半导体线路并定位组件。一旦半导体电路设计已经完成,则得到的标准化电子格式(例如Opus、GDSII等)的设计可以被传输给半导体制造设施或“fab”用于制造。
该申请中使用的术语“电路”指以下的所有:
(a)仅硬件电路实施(例如以仅模拟和/或数字电路实施)以及
(b)电路和软件(和/或固件)的组合,例如:(i)处理器的组合或或(ii)处理器/软件的部分(包括数字信号处理器)、软件和存储器,其一起工作以使得例如移动电话或服务器的设备只需各种功能以及
(c)电路,例如微处理器或微处理器的部分,其需要软件或固件进行操作,即使软件或估计不是实际存在的。
“电路”的该定义适用于该申请中的该术语的所有使用,包括任意权利要求。作为进一步示例,本申请中使用的术语“电路”还包括仅处理器(或多个处理器)或处理器的部分及其相应软件和/或固件的实施。术语“电路”还包括例如且如果适用于特定权利要求元素,基带集成电路或用于移动电话的应用处理器集成电路或服务器、蜂窝网络装置或其他网络装置中的类似集成电路。
上述描述通过示意性和非限制性示例提供了对本发明的示意性实施方式的全面和信息量大的描述。但是本领域技术人员在结合附图和权利要求书阅读上述描述后可以明白各种修改和修订。但是本发明的教导的所有这样和类似的修改将仍然落入权利要求书限定的本发明的范围中。
Claims (23)
1.一种方法,该方法包括:
针对至少一个音频信号的帧确定帧音频信号多信道参数的集合;
基于与所述帧音频信号多信道参数的集合的子集相关联的误差值针对所述帧选择所述帧音频信号多信道参数的集合的所述子集;以及
基于所述帧音频信号多信道参数的集合的所选择的子集生成已编码帧音频信号多信道参数。
2.如权利要求1所述的方法,该方法还包括确定所述至少一个音频信号的帧的编码比特率;并且其中基于与所述帧音频信号多信道参数的集合的子集相关联的误差值针对所述帧选择所述帧音频信号多信道参数的集合的所述子集包括进一步基于所述至少一个音频信号的所述帧的编码比特率选择所述帧音频信号多信道参数的集合的所述子集。
3.如权利要求1和2所述的方法,其中针对至少一个音频信号的帧确定帧音频信号多信道参数的集合包括确定所述至少一个音频信号的至少两个信道之间的差的集合,其中所述差的集合包括两个或更多差值,其中每个差值与定义所述帧的资源的子划分相关联。
4.如权利要求3所述的方法,其中确定所述至少一个音频信号的至少两个信道之间的差的集合包括确定以下至少一者:
至少一个耳间时间差;以及
至少一个耳间强度差。
5.如权利要求3和4所述的方法,其中定义所述帧的资源的所述子划分包括以下至少一者:
子带频率;以及
时间段。
6.如权利要求1至5所述的方法,其中基于与所述帧音频信号多信道参数的集合的子集相关联的误差值针对所述帧选择所述帧音频信号多信道参数的集合的所述子集包括:
确定至少一个之前帧选择的子集;
确定要被选择的元素的数量;
生成至少两个候选子集;
根据所述候选子集和所述至少一个之前帧选择的子集的组合生成重构的集合;
基于所述重构的集合和所述帧音频信号多信道参数的集合生成误差值;以及
选择所述至少两个候选子集中具有最小绝对误差值的一个候选子集。
7.如权利要求1至6所述的方法,该方法还包括:
针对所述选择的子集生成表示所述选择的子集的至少一个参数;以及
生成表示所述选择的子集的已编码的至少一个参数。
8.如权利要求7所述的方法,其中针对所述选择的子集生成表示所述选择的子集的至少一个参数包括以下至少一者:
生成表示在所述选择的子集中的第一选择的元素的第一参数;
生成表示所述子集中连续元素的选择分配的分配参数;以及
生成表示所述选择的子集中的元素数量的长度参数。
9.如权利要求1至8所述的方法,其中基于所述帧音频信号多信道参数的集合的所述选择的子集生成已编码帧音频信号多信道参数包括使用向量或标量量化码本生成所述至少一个帧音频信号多信道参数群组的码本索引。
10.如权利要求9所述的方法,其中使用向量或标量量化码本生成所述至少一个帧音频信号多信道参数群组的码本索引包括:
生成依据所述至少一个帧音频信号多信道参数的映射实例的频率分配的与针对所述至少一个帧音频信号多信道参数的相关联索引的编码映射;以及
依据所述相关联索引对所述编码映射进行编码。
11.如权利要求10所述的方法,其中依据所述相关联索引对所述编码映射进行编码包括将Golomb-Rice编码应用于依据所述相关联索引的所述编码映射。
12.如权利要求1至11所述的方法,该方法还包括:
接收至少两个音频信号信道;
从所述至少两个音频信号信道和至少一个帧音频信号多信道参数确定更少数量的信道音频信号;
生成包括所述更少数量的信道的已编码的音频信号;
组合已编码的音频信号和已编码的至少一个帧音频信号多信道参数。
13.一种方法,该方法包括:
在一时段内接收包括至少一个帧缩混音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数信号;
恢复所述音频信号多信道参数的集合中在所述帧音频信号多信道参数的子集中没有出现的任意元素;以及
根据所述至少一个帧缩混音频信号以及所述帧音频信号多信道参数的集合的子集与所述音频信号多信道参数的集合中恢复的所述音频信号多信道参数的子集中没有出现的元素的组合针对所述帧生成至少两个信道音频信号。
14.如权利要求13所述的方法,其中所述帧音频信号多信道参数的集合包括至少一个音频信号的至少两个信道之间的差的集合,其中所述差的集合包括两个或更多个差值,其中每个差值与定义所述帧的资源的子划分相关联。
15.如权利要求14所述的方法,其中所述至少一个音频信号的至少两个信道之间的所述差的集合包括以下至少一者:
至少一个耳间时间差;以及
至少一个耳间强度差。
16.如权利要求14和15所述的方法,其中定义所述帧的资源的所述子划分包括以下至少一者:
子带频率;以及
时间段。
17.如权利要求13至16所述的方法,其中所述已编码的音频信号还包括定义帧音频信号多信道参数的集合的子集的至少一个参数;其中恢复所述音频信号多信道参数的集合中在所述帧音频信号多信道参数的子集中没有出现的任意元素包括对定义帧音频信号多信道参数的集合的子集的所述至少一个参数进行解码以确定要被恢复的子集元素。
18.一种设备,该设备包括:
用于针对至少一个音频信号的帧确定帧音频信号多信道参数的集合的装置;
用于基于与所述帧音频信号多信道参数的集合的子集相关联的误差值针对所述帧选择所述帧音频信号多信道参数的集合的所述子集的装置;以及
用于基于所述帧音频信号多信道参数的集合的所选择的子集生成已编码帧音频信号多信道参数的装置。
19.一种设备,该设备包括:
用于在一时段内接收包括至少一个帧缩混音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数信号的装置;
用于恢复所述音频信号多信道参数的集合中在所述帧音频信号多信道参数的子集中没有出现的任意元素的装置;以及
用于根据所述至少一个帧缩混音频信号以及所述帧音频信号多信道参数的集合的子集与所述音频信号多信道参数的集合中恢复的所述帧音频信号多信道参数的子集中没有出现的元素的组合针对所述帧生成至少两个信道音频信号的装置。
20.一种设备,该设备包括至少一个处理器和包括用于一个或多个程序的计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置成使用所述至少一个处理器使得所述设备至少:
针对至少一个音频信号的帧确定帧音频信号多信道参数的集合;
基于与所述帧音频信号多信道参数的集合的子集相关联的误差值针对所述帧选择所述帧音频信号多信道参数的集合的所述子集;以及
基于所述帧音频信号多信道参数的集合的所选择的子集生成已编码帧音频信号多信道参数。
21.一种设备,该设备包括至少一个处理器和包括用于一个或多个程序的计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置成使用所述至少一个处理器使得所述设备至少:
在一时段内接收包括至少一个帧缩混音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数信号;
恢复所述音频信号多信道参数的集合中在所述帧音频信号多信道参数的子集中没有出现的任意元素;以及
根据所述至少一个帧缩混音频信号以及所述帧音频信号多信道参数的集合的子集与所述音频信号多信道参数的集合中恢复的所述帧音频信号多信道参数的子集中没有出现的元素的组合针对所述帧生成至少两个信道音频信号。
22.一种设备,该设备包括:
参数确定器,被配置成针对至少一个音频信号的帧确定帧音频信号多信道参数的集合;
参数选择器,被配置成基于与所述帧音频信号多信道参数的集合的子集相关联的误差值针对所述帧选择所述帧音频信号多信道参数的集合的所述子集;以及
参数编码器,被配置成基于所述帧音频信号多信道参数的集合的所选择的子集生成已编码帧音频信号多信道参数。
23.一种设备,该设备包括:
输入,被配置成在一时段内接收包括至少一个帧缩混音频信号的已编码的音频信号和包括帧音频信号多信道参数的集合的子集的至少一个多信道音频信号参数信号;
参数集编译器,被配置成恢复所述音频信号多信道参数的集合中在所述帧音频信号多信道参数的子集中没有出现的任意元素;以及
多信道生成器,被配置成根据所述至少一个帧缩混音频信号以及所述帧音频信号多信道参数的集合的子集与所述音频信号多信道参数的集合中恢复的所述帧音频信号多信道参数的子集中没有出现的元素的组合针对所述帧生成至少两个信道音频信号。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2013/054407 WO2014191793A1 (en) | 2013-05-28 | 2013-05-28 | Audio signal encoder |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105474308A true CN105474308A (zh) | 2016-04-06 |
Family
ID=51988083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380078542.4A Pending CN105474308A (zh) | 2013-05-28 | 2013-05-28 | 音频信号编码器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20160111100A1 (zh) |
EP (1) | EP3005351A4 (zh) |
KR (1) | KR20160015280A (zh) |
CN (1) | CN105474308A (zh) |
WO (1) | WO2014191793A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110235197A (zh) * | 2017-01-31 | 2019-09-13 | 诺基亚技术有限公司 | 立体声音频信号编码器 |
CN112970062A (zh) * | 2018-08-31 | 2021-06-15 | 诺基亚技术有限公司 | 空间参数信令 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731238B (zh) * | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN108269577B (zh) | 2016-12-30 | 2019-10-22 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
KR20240046634A (ko) * | 2019-03-29 | 2024-04-09 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060235679A1 (en) * | 2005-04-13 | 2006-10-19 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Adaptive grouping of parameters for enhanced coding efficiency |
KR20070051915A (ko) * | 2004-11-02 | 2007-05-18 | 코딩 테크놀러지스 에이비 | 스테레오 호환성의 멀티채널 오디오 코딩 |
CN101188878A (zh) * | 2007-12-05 | 2008-05-28 | 武汉大学 | 一种立体声音频信号的空间参数量化及熵编码方法及其所用系统结构 |
CN101223578A (zh) * | 2005-07-19 | 2008-07-16 | 弗劳恩霍夫应用研究促进协会 | 用于消除参数多通道音频编码与矩阵环绕多通道编码之间的差距的构思 |
US20120207311A1 (en) * | 2009-10-15 | 2012-08-16 | France Telecom | Optimized low-bit rate parametric coding/decoding |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
WO2007040353A1 (en) * | 2005-10-05 | 2007-04-12 | Lg Electronics Inc. | Method and apparatus for signal processing |
EP2144229A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Efficient use of phase information in audio encoding and decoding |
WO2010091736A1 (en) * | 2009-02-13 | 2010-08-19 | Nokia Corporation | Ambience coding and decoding for audio applications |
-
2013
- 2013-05-28 EP EP13885624.0A patent/EP3005351A4/en not_active Withdrawn
- 2013-05-28 CN CN201380078542.4A patent/CN105474308A/zh active Pending
- 2013-05-28 KR KR1020157036550A patent/KR20160015280A/ko not_active Application Discontinuation
- 2013-05-28 WO PCT/IB2013/054407 patent/WO2014191793A1/en active Application Filing
- 2013-05-28 US US14/893,604 patent/US20160111100A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070051915A (ko) * | 2004-11-02 | 2007-05-18 | 코딩 테크놀러지스 에이비 | 스테레오 호환성의 멀티채널 오디오 코딩 |
US20110211703A1 (en) * | 2004-11-02 | 2011-09-01 | Lars Villemoes | Stereo Compatible Multi-Channel Audio Coding |
US20060235679A1 (en) * | 2005-04-13 | 2006-10-19 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Adaptive grouping of parameters for enhanced coding efficiency |
CN101223578A (zh) * | 2005-07-19 | 2008-07-16 | 弗劳恩霍夫应用研究促进协会 | 用于消除参数多通道音频编码与矩阵环绕多通道编码之间的差距的构思 |
CN101188878A (zh) * | 2007-12-05 | 2008-05-28 | 武汉大学 | 一种立体声音频信号的空间参数量化及熵编码方法及其所用系统结构 |
US20120207311A1 (en) * | 2009-10-15 | 2012-08-16 | France Telecom | Optimized low-bit rate parametric coding/decoding |
Non-Patent Citations (2)
Title |
---|
ITU-U DRAFT: "《7kHz audio-coding within 64 kbit/s:New Annex X with stereo embedded extension》", 《ITU-T DRAFT》 * |
JURGEN HERRE ET AL.: "《MPEG Surround-The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding》", 《THE JOURNAL OF THE AUDIO ENGINEERING SOCIETY》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110235197A (zh) * | 2017-01-31 | 2019-09-13 | 诺基亚技术有限公司 | 立体声音频信号编码器 |
CN110235197B (zh) * | 2017-01-31 | 2024-01-26 | 诺基亚技术有限公司 | 立体声音频信号编码器 |
CN112970062A (zh) * | 2018-08-31 | 2021-06-15 | 诺基亚技术有限公司 | 空间参数信令 |
Also Published As
Publication number | Publication date |
---|---|
WO2014191793A1 (en) | 2014-12-04 |
EP3005351A4 (en) | 2017-02-01 |
US20160111100A1 (en) | 2016-04-21 |
EP3005351A1 (en) | 2016-04-13 |
KR20160015280A (ko) | 2016-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102084418B (zh) | 用于调整多通道音频信号的空间线索信息的设备和方法 | |
CN103915098B (zh) | 音频信号编码器 | |
US10199044B2 (en) | Audio signal encoder comprising a multi-channel parameter selector | |
US9659569B2 (en) | Audio signal encoder | |
AU2005337961A1 (en) | Audio compression | |
TW200931397A (en) | An encoder | |
EP2856776B1 (en) | Stereo audio signal encoder | |
CN107610710B (zh) | 一种面向多音频对象的音频编码及解码方法 | |
US9230551B2 (en) | Audio encoder or decoder apparatus | |
CN105474308A (zh) | 音频信号编码器 | |
CN104641414A (zh) | 立体声音频信号编码器 | |
CN112997248A (zh) | 确定空间音频参数的编码和相关联解码 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN102194458B (zh) | 频带复制方法、装置及音频解码方法、系统 | |
CN111710342B (zh) | 编码装置、解码装置、编码方法、解码方法及程序 | |
CN102792369A (zh) | 语音处理装置、语音处理方法和程序 | |
US9830919B2 (en) | Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method | |
EP2663978A1 (en) | An audio encoder/decoder apparatus | |
US20100280830A1 (en) | Decoder | |
WO2011114192A1 (en) | Method and apparatus for audio coding | |
WO2017148526A1 (en) | Audio signal encoder, audio signal decoder, method for encoding and method for decoding | |
GB2624869A (en) | Parametric spatial audio encoding | |
CN103733256A (zh) | 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160406 |
|
WD01 | Invention patent application deemed withdrawn after publication |