CN110853667B - 音频编码器 - Google Patents
音频编码器 Download PDFInfo
- Publication number
- CN110853667B CN110853667B CN201910955621.8A CN201910955621A CN110853667B CN 110853667 B CN110853667 B CN 110853667B CN 201910955621 A CN201910955621 A CN 201910955621A CN 110853667 B CN110853667 B CN 110853667B
- Authority
- CN
- China
- Prior art keywords
- time
- bandwidth extension
- fricative
- extension information
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 93
- 230000004044 response Effects 0.000 claims abstract description 41
- 230000002123 temporal effect Effects 0.000 claims description 60
- 230000003595 spectral effect Effects 0.000 claims description 56
- 238000004590 computer program Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 26
- 230000005236 sound signal Effects 0.000 description 20
- 238000007493 shaping process Methods 0.000 description 9
- 230000011664 signaling Effects 0.000 description 9
- 230000035807 sensation Effects 0.000 description 8
- 230000010076 replication Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000002592 echocardiography Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开涉及音频编码器。该基于输入音频信息提供编码音频信息的音频编码器,包括:带宽扩展信息提供器,配置为使用可变时间分辨率提供带宽扩展信息,及侦测器,配置为侦测摩擦音或破擦音的起始段。音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。可选地或者此外,响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。音频编码器及方法使用对应的概念。
Description
本申请是国际申请号为PCT/EP2014/051635、申请日为2014年1月28日、进入中国国家阶段日期为2015年9月24日、发明名称为“在摩擦音或破擦音的起始段或终止段的时间的接近处使用提高的时间分辨率的音频编码器、音频解码器、系统、方法及计算机程序”的PCT申请的中国国家阶段申请的分案申请,该中国国家阶段申请的申请号为201480018073.1。
技术领域
根据本发明的实施例是关于一种基于输入音频信息提供编码音频信息的音频编码器。
根据本发明的其他实施例是关于一种基于编码音频信息提供解码音频信息的音频解码器。
根据本发明的其他实施例是关于一种包括音频编码器及音频解码器的系统。
根据本发明的其他实施例是关于一种基于输入音频信息提供编码音频信息的方法。
根据本发明的其他实施例是关于一种基于编码音频信息提供解码音频信息的方法。
根据本发明的其他实施例是关于一种执行所述方法中的一个的计算机程序。
根据本发明的其他实施例是关于一种用于语音的音频带宽扩展中摩擦音或破擦音的起始段或终止段建模。
背景技术
近年来,对音频信号,特定而言,对语音信号的数字储存及传输的需求愈来愈大。在某些类似例如行动通讯应用的情况下,要求获得相对低的比特率。
然而,为了在比特率与音频质量(或语音质量)之间获得良好的平衡,存在方法来使用相对高的精度编码音频信号的低频部分(例如,最高达近似6kHz的频率部分),且依赖于带宽扩展重构音频内容的高频部分(例如,高于近似6kHz或7kHz的频率部分)。举例而言,带宽扩展可基于使用相对少的参数重构音频内容的高频部分,其中参数可例如以粗略方式描述频谱包络。
带宽扩展的熟知实行方案为带宽复制(SBR),此实行方案已在MPEG(动画专家组)中进行标准化。
举例而言,国际标准ISO/IEC 14496-3:200X(E)第4子部分中第4.6.18及4.6.19章中描述了有关带宽复制的某些细节。
此外,亦参阅了专利申请第US 2011/0099018 A1号,所述专利描述一种使用频谱倾斜受控式定帧计算带宽扩展数据的设备及方法。所述专利申请描述一种计算带宽扩展系统中音频信号的带宽扩展数据的设备,其中第一带宽用第一数目个位编码,且不同于第一带宽的第二带宽用第二数目个位编码,第二数目个位少于第一数目个位。设备具有可控带宽扩展参数计算器,所述可控带宽扩展参数计算器针对音频信号的第一序列帧以逐帧方式计算第二带宽的带宽扩展参数。每一帧具有可控开始时间瞬时。设备额外包括频谱倾斜侦测器,所述侦测器侦测音频信号的时间部分中的频谱倾斜且取决于频谱倾斜而信号传递音频信号的个别帧的开始时间瞬时。
然而,已发现在带宽扩展的许多已知方法中,摩擦音或破擦音存在的情况下所获得的听觉效果实质上有所劣化。举例而言,已知带宽扩展技术可能引起前回声及后回声。此外,在使用已知带宽扩展技术时,摩擦音或破擦音可能会听起来过于尖锐。
鉴于上述情形,需要创建允许改进的音频质量的带宽扩展概念。
发明内容
根据本发明的实施例创建一种基于输入音频信息提供编码音频信息的音频编码器。音频编码器包括配置为使用可变时间分辨率提供带宽扩展信息的带宽扩展信息提供器。音频编码器亦包括配置为侦测摩擦音或破擦音的起始段的侦测器。音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
根据本发明的此实施例基于如下发现,若针对侦测到摩擦音或破擦音的起始段的时间的整个环境,以高的时间分辨率提供带宽扩展信息,则可达成良好听觉质量。因此,以高的时间分辨率(至少关于带宽扩展信息)编码摩擦音或破擦音的整个起始段,所述整个起始段通常包括侦测到摩擦音或破擦音的起始段的时间的之前的特定时间扩展及实际侦测到摩擦音或破擦音的起始段的时间的之后的特定周期(时间扩展),从而有助于避免前回声且亦有助于避免不自然的听觉感觉。通常,无法非常精确地侦测到摩擦音或破擦音的起始段,因为摩擦音或破擦音的起始段的侦测常常基于临界交叉的侦测,而此交叉在摩擦音或破擦音的起始段的刚开始处显然并未出现。因此,(实际)侦测到摩擦音或破擦音的起始段的时间在时间上在摩擦音或破擦音的刚刚开始(或起始段)的后。因此,藉由确保至少针对(实际)侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期,以提高的时间分辨率(与「正常的」时间分辨率相比)提供带宽扩展信息,可达成:亦可以良好分辨率重现摩擦音或破擦音的起始段刚刚开始处的细节,其中已发现,甚至在摩擦音或破擦音的起始段刚刚开始处的此类细节对于良好听觉感觉而言重要。因此,藉由至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期,以提高的时间分辨率提供带宽扩展信息,不仅有助于避免前回声,亦使得能够重现摩擦音或破擦音的起始段的细节。类似地,藉由确保针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率提供带宽扩展信息,使得能够重现摩擦音或破擦音的起始段的细节,此类细节对于听力感觉而言重要。
因此,本文所描述的概念使得能够以高的时间分辨率重现摩擦音或破擦音的整个起始段,此有助于避免听力感觉的劣化,而此劣化例如由摩擦音或破擦音的起始段刚刚开始处或自摩擦音或破擦音的起始段至稳定信号部分的过渡处(带宽扩展信息的)过于粗略的时间分辨率引起。
在较佳实施例中,音频编码器配置为响应于侦测到摩擦音或破擦音的起始段,自用于提供带宽扩展信息的第一时间分辨率切换至用于提供带宽扩展信息的第二时间分辨率,其中第二时间分辨率高于第一时间分辨率。因此,执行用于提供带宽扩展信息的两个不同时间分辨率的间的切换,其中所述切换系由侦测到摩擦音或破擦音的起始段来控制。因此,创建一种简单控制方案,所述方案可容易地实施于音频编码器或音频解码器中。
在较佳实施例中,带宽扩展信息提供器配置为提供带宽扩展信息,以使得带宽扩展信息与具有相等时间长度的时间上规则的时间间隔(可形成用于提供带宽扩展信息的基础但可细分的时间网格)相关联。带宽扩展信息提供器配置为当使用第一时间分辨率(例如,相对较低的时间分辨率)时,针对具有给定时间长度的时间间隔提供带宽扩展信息的单个集合。此外,带宽扩展信息提供器可配置为当使用第二时间分辨率(例如,相对较高的时间分辨率)时,针对具有给定时间长度的时间间隔提供与子时间间隔相关联的带宽扩展信息的多个集合。
藉由将具有相等时间长度的时间上规则的时间间隔(例如,帧)用作用于提供带宽扩展信息的(基础)时间网格,音频编码器可得以容易地实施。举例而言,带宽扩展信息提供器仅需要在两个离散的时间分辨率的间切换,此切换可在无需过多工作量的情况下得以实施。举例而言,带宽扩展信息提供器可仅需实施以基于具有给定时间长度的时间间隔提供带宽扩展信息的单个集合,且基于具有给定时间长度的时间间隔的预定(及固定)数目个(具有相等长度)的子间隔提供带宽扩展信息的多个集合。因此,以下可例如为充分的:带宽扩展信息提供器配置为基于具有给定时间长度的时间间隔提供带宽扩展信息的单个集合,或基于四个子时间间隔提供带宽扩展信息的四个集合,所述等子时间间隔中的每一者的长度等于给定时间长度的四分的一。此外,藉由使用此类概念,提供带宽扩展信息的时间间隔期间信号传递可能要求的信号传递工作量可保持为小,因为仅需要在「粗略分辨率」(例如,针对具有给定时间长度的时间间隔的带宽扩展信息的单个集合)与「精细分辨率」(例如,与具有相等长度的n个子时间间隔相关联的带宽扩展信息的n个集合)的间进行选择。因此,提供用于提供带宽扩展信息的特定有效的概念。
在较佳实施例中,音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得与带宽扩展信息的一个集合相关联的至少一个子时间间隔紧接在另一子时间间隔的前,所述另一子时间间隔与带宽扩展信息的另一集合相关联且在所述另一子时间间隔期间侦测到摩擦音或破擦音的起始段,以使得在侦测到摩擦音或破擦音的起始段的子时间间隔的前的至少一个子时间间隔中使用提高的时间分辨率。因此,有可能甚至在摩擦音或破擦音的起始段刚刚开始处以高的时间分辨率提供带宽扩展信息,亦即,甚至在实际可侦测到摩擦音或破擦音的起始段的前以高的时间分辨率提供带宽扩展信息。
在较佳实施例中,音频编码器配置为若针对具有给定时间长度的给定时间间隔使用提高的时间分辨率提供带宽扩展信息,则将具有给定时间长度的给定时间间隔细分为具有相等长度的四个子时间间隔,以使得针对具有给定时间长度的给定时间间隔提供带宽扩展信息的四个集合(例如,带宽扩展参数的四个集合,每一集合与子时间间隔中的一者相关联)。因此,可达成带宽扩展信息的高的时间分辨率,因为带宽扩展信息的四个集合可例如针对四个子间隔独立地描述音频内容的高频信号部分的包络。因此,可考虑四个子时间间隔的高频信号部分的频谱包络的差异,因为带宽扩展信息的集合中的每一者可表示子时间间隔中的一者的高频部分的频率包络(或频谱包络)。
在较佳实施例中,音频编码器配置为若在第二时间间隔内侦测到摩擦音或破擦音的起始段且若侦测到摩擦音或破擦音的起始段的时间与第一时间间隔与第二时间间隔的间的边界的间的时间距离小于预定时间距离,则针对具有给定时间长度的第二时间间隔的前的具有给定时间长度的第一时间间隔,选择性地使用提高的时间分辨率提供带宽扩展信息。因此,甚至在侦测到摩擦音或破擦音的起始段的时间位于后续第二时间间隔(例如,后续第二帧)内的情况下,若假设摩擦音或破擦音的起始段刚刚开始处(通常位于实际侦测到摩擦音或破擦音的起始段的时间的前)位于第一时间间隔内,则以提高的时间分辨率(与「正常的」时间分辨率相比)提供第一时间间隔(例如,第一帧)的带宽扩展信息。因此,摩擦音或破擦音的整个起始段包括摩擦音或破擦音的起始段刚刚开始处及有可能甚至摩擦音或破擦音的起始段的前的一定时间量,经评估,针对所述整个起始段,提供带宽扩展信息时使用高的时间分辨率,从而形成良好语音重现。并非仅避免前回声,摩擦音或破擦音的起始段可得以精确重现而并无过量的尖锐度或其他实质假影。
在较佳实施例中,音频编码器配置为运行时间先行,以使得响应于在第二时间间隔内侦测到摩擦音或破擦音的起始段,针对具有给定时间长度的第二时间间隔的前的具有给定时间长度的第一时间间隔,使用提高的时间分辨率提供带宽扩展信息。因此,针对摩擦音或破擦音的整个起始段(及有可能甚至摩擦音或破擦音的起始段的前的较短时间周期),有可能以提高的时间分辨率提供带宽扩展信息,从而获得改进的音频质量。
在较佳实施例中,音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以相同的提高的时间分辨率提供带宽扩展信息。藉由使用相等的时间分辨率,与在侦测到摩擦音或破擦音的起始段的时间的前及的后使用不同时间分辨率的情况相比,带宽扩展信息的提供有所简化。此外,藉由针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,使用相同的提高的时间分辨率,信号传递工作量有所减少。
在较佳实施例中,音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得至少针对第一子时间间隔、第二子时间间隔及第三子时间间隔,以相同的提高的时间分辨率提供带宽扩展信息的集合,其中第一子时间间隔紧接在第二子时间间隔的前,其中在第二子时间间隔内侦测到摩擦音或破擦音的起始段,且其中第三子时间间隔紧跟在第二子时间间隔的后。因此,当提供带宽扩展信息的集合时,用相同的时间分辨率处理「嵌有」期间侦测到摩擦音或破擦音的起始段的第二子时间间隔的第一子时间间隔及第三子时间间隔。因此,当提供带宽扩展信息时,以高的时间分辨率处置摩擦音或破擦音的起始段的实质部分,或甚至摩擦音或破擦音的整个起始段。此外,藉由针对第一子时间间隔、第二子时间间隔及第三子时间间隔使用相同的(提高的,或「高的」)时间分辨率,编码及解码变简单,且信号传递管理负担(用于信号传递时间分辨率)变小。
在较佳实施例中,侦测器配置为侦测摩擦音或破擦音的终止段。在此种情况下,音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。根据本发明的此实施例基于如下发现,针对摩擦音或破擦音的终止段,亦应以高的时间分辨率执行带宽扩展。已发现,人类听觉实际上对于摩擦音或破擦音的终止段亦敏感,因此值得耗费比特率管理负担以高的时间分辨率(关于带宽扩展信息)编码摩擦音或破擦音的终止段。此外,已发现,在摩擦音或破擦音的终止段期间以低的时间分辨率提供带宽扩展信息通常会导致摩擦音或破擦音的终止段期间不当的尖锐听觉感觉,此感觉被视为假影。
此外,应注意,关于响应于摩擦音或破擦音的起始段而调整带宽扩展信息提供器所使用的时间分辨率,上文所提及的概念中的任何概念亦可有利地响应于侦测到摩擦音或破擦音的终止段而应用。换言的,上文所描述的概念可以类似方式应用,其中「摩擦音或破擦音的终止段」替代「摩擦音或破擦音的起始段」。
在较佳实施例中,侦测器配置为评估越零率,及/或能量比及/或频谱倾斜,以便侦测摩擦音或破擦音的起始段。已发现,上文提及的量(越零率,能量比,频谱倾斜)中的一或多者的评估达成摩擦音或破擦音的起始段的合理准确侦测。举例而言,上文提及的值中的一或多者,或自上文提及的量的组合导出的值可与临界值比较,以便侦测摩擦音或破擦音的存在。
在较佳实施例中,编码器配置为选择性地调整带宽扩展信息提供器所使用的时间分辨率,以使得仅针对语音信号部分而并非音乐信号部分,响应于侦测到摩擦音或破擦音的起始段,以提高的时间分辨率提供带宽扩展信息。此概念基于如下发现,与音乐信号部分的感觉相比,摩擦音或破擦音对语音的感觉更重要。因此,对于音乐信号部分而言,使用提高的时间分辨率提供带宽扩展信息可引起的比特率管理负担可得以避免,此有助于降低总比特率,或有助于针对音乐信号部分注重感觉上更重要的特征的编码。
在较佳实施例中,音频编码器配置为针对完全覆盖侦测到的摩擦音或破擦音的起始段的多个后续时间间隔,选择性地使用提高的时间分辨率提供带宽扩展信息。因此,甚至当使用带宽扩展时,以高的精度编码摩擦音或破擦音的起始段,以使得使用带宽扩展并未实质上劣化听觉感觉。
根据本发明的另一实施例创建一种基于输入音频信息提供编码音频信息的音频编码器。音频编码器包括配置为使用可变时间分辨率提供带宽扩展信息的带宽扩展信息提供器。音频编码器亦包括配置为侦测摩擦音或破擦音的终止段的侦测器。音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。
根据本发明的此实施例基于如下发现,摩擦音或破擦音的终止段对于音频内容的感觉而言亦重要,且因此应以高的时间分辨率进行编码。特定而言,根据本发明的此实施例基于如下发现,若以带宽扩展信息的不足时间分辨率编码摩擦音或破擦音的终止段,摩擦音或破擦音的终止段通常被视为「过于尖锐」。因此,藉由提高带宽扩展信息提供器所使用的时间分辨率,音频质量(例如语音信号的音频质量)可得以实质上改进。
在较佳实施例中,音频编码器配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。因此,有可能以提高的时间分辨率编码摩擦音或破擦音的整个终止段,尽管侦测器通常仅能够侦测到摩擦音或破擦音的终止段的中心,等等。
根据本发明的另一实施例创建一种基于编码音频信息提供解码音频信息的音频解码器。音频解码器配置为基于音频编码器所提供的带宽扩展信息执行带宽扩展,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。因此,音频解码器能够以高的时间分辨率重现摩擦音或破擦音的起始段的实质部分,或甚至摩擦音或破擦音的整个起始段。因此,音频解码器所执行的带宽扩展可良好地适于摩擦音或破擦音的存在,以使得可以良好感觉质量重现摩擦音或破擦音的起始段期间出现的音频内容的高频部分的频谱包络的改变。因此,达成良好听觉感觉。
在较佳实施例中,音频解码器可包括配置为基于解码音频信息侦测摩擦音或破擦音的起始段且自行决定关于用于带宽扩展的时间分辨率的调整的侦测器,所述摩擦音或破擦音的起始段表示音频内容的低频部分。本文关于音频编码器所论述的用于侦测摩擦音或破擦音的起始段的准则中的任何准则亦可应用于音频解码器(假设所要信息在音频解码器旁侧可用)。
然而,或者,音频解码器可配置为基于编码音频信息的旁侧信息调整用于带宽扩展的时间分辨率。
根据本发明的另一实施例创建一种基于编码音频信息提供解码音频信息的音频解码器。音频解码器配置为基于音频编码器所提供的带宽扩展信息执行带宽扩展,以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。
根据本发明的此实施例基于如下构想,藉由在摩擦音或破擦音的终止段期间以提高的时间分辨率执行带宽扩展,可达成良好音频质量。此外,实施例基于如下构想,摩擦音或破擦音的终止段通常扩展特定时间周期,其中侦测到摩擦音或破擦音的终止段的时间通常位于所述特定时间周期内。
根据本发明的另一实施例创建一种包括如上文所描述的音频编码器及音频解码器的系统,其中所述音频解码器配置为接收音频编码器所提供的编码音频信息,且基于编码音频信息提供解码音频信息。音频解码器配置为基于音频编码器所提供的带宽扩展信息执行带宽扩展,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展,及/或以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。
系统允许音频内容的编码及解码,其中藉由使用带宽扩展达成相对低的比特率,且其中藉由在摩擦音或破擦音的起始段的环境中及/或在摩擦音或破擦音的终止段的环境中使用提高的时间分辨率,确保摩擦音或破擦音的良好重现。
根据本发明的另一实施例创建一种基于输入音频信息提供编码音频信息的方法。方法包括使用可变时间分辨率提供带宽扩展信息且侦测摩擦音或破擦音的起始段。用于提供带宽扩展信息的时间分辨率经调整以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。此方法基于与上文所描述的音频编码器相同的考虑。
根据本发明的另一实施例创建一种基于输入音频信息提供编码音频信息的方法。方法包括使用可变时间分辨率提供带宽扩展信息且侦测摩擦音或破擦音的终止段。用于提供带宽扩展信息的时间分辨率经调整以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。此方法基于与上文所描述的音频编码器相同的考虑。
根据本发明的另一实施例创建一种基于编码音频信息提供解码音频信息的方法。方法包括基于音频编码器所提供的带宽扩展信息执行带宽扩展,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。此方法基于与上文所描述的音频解码器相同的考虑。
根据本发明的另一实施例创建一种基于编码音频信息提供解码音频信息的方法。方法包括基于音频编码器所提供的带宽扩展信息执行带宽扩展,以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。此方法基于与上文所描述的音频解码器相同的考虑。
根据本发明的另一实施例创建一种用于执行上文所描述的方法中的一者的计算机程序。
根据本发明的另一实施例创建一种编码音频信号,所述编码音频信号包括音频内容的低频部分的编码表示及带宽扩展参数的多个集合。至少针对音频内容中存在摩擦音或破擦音的起始段的时间的前的预定时间周期及针对音频内容中存在摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率提供带宽扩展参数。
根据本发明的另一实施例创建一种编码音频信号,所述编码音频信号包括音频内容的低频部分的编码表示及带宽扩展参数的多个集合。至少针对音频内容中存在摩擦音或破擦音的终止段的部分,以提高的时间分辨率提供带宽扩展参数。
所述等编码音频信号基于与上文所描述的音频编码器及上文所描述的音频解码器相同的考虑。
附图说明
下文将参阅附随的附图描述根据本发明的实施例:
图1示出根据本发明实施例的音频编码器的方块示意图;
图2示出以已知带宽扩展(BWE)帧的原始语音信号的光谱图及侦测到的摩擦音或破擦音边界;
图3示出以本发明带宽扩展(BWE)帧的原始语音信号的光谱图;
图4示出以已知带宽扩展(BWE)帧的编码语音的光谱图;
图5示出以本发明带宽扩展(BWE)帧的编码语音的光谱图;
图6示出根据本发明的实施例提供带宽扩展信息的集合所针对的时间间隔及子时间间隔的示意性表示;
图7示出根据本发明的实施例提供带宽扩展信息的集合所针对的时间间隔及子时间间隔的示意性表示;
图8示出根据本发明另一实施例的音频编码器的方块示意图;
图9示出根据本发明另一实施例的音频解码器的方块示意图;
图10示出根据本发明另一实施例的音频解码器的方块示意图;
图11示出根据本发明实施例的用于音频编码及音频解码的系统的方块示意图;
图12示出根据本发明实施例的基于输入音频信息提供编码音频信息的方法的流程图;以及
图13示出根据本发明实施例的基于输入音频信息提供解码音频信息的方法的流程图。
具体实施方式
1.根据图1的音频编码器
图1示出根据本发明实施例的音频编码器的方块示意图。
音频编码器100配置为接收输入音频信息110,且基于输入音频信息110提供编码音频信息112。
音频编码器100包括侦测器120,所述侦测器120可例如接收输入音频信息110。侦测器120配置为例如基于输入音频信息110侦测摩擦音或破擦音的起始段。侦测器120可提供时间分辨率调整信息122。
音频编码器100亦包括带宽扩展信息提供器130,所述带宽扩展信息提供器130配置为使用可变时间分辨率提供带宽扩展信息132。举例而言,带宽扩展信息提供器130可配置为接收输入音频信息(及可能的额外预处理音频信息)。此外,带宽扩展信息提供器130亦可配置为自侦测器120接收时间分辨率调整信息122。
音频编码器100亦可包括低频编码装置140,所述低频编码装置140可例如编码输入音频信息110所表示的音频内容的低频部分,从而提供输入音频信息110所表示的音频内容的低频部分的编码表示142。因此,编码音频信息112可包括带宽扩展信息132及音频内容的低频部分的编码表示142。然而,有关低频编码装置的细节并非本发明的重要部分。
下文将更详细描述音频编码器100的功能性。
低频编码装置140可编码输入音频信息110所表示的音频内容的低频部分。举例而言,音频内容中频率低于近似6kHz或低于近似7kHz(或低于任何其他预定频率限值)的部分可使用低频编码装置140编码。低频编码装置140可例如使用熟知音频编码技术中的任何一种,类似变换域编码或线性预测域编码。换言的,低频编码装置140可例如使用音频编码概念,所述概念可基于熟知「进阶音频编码」(AAC)或可基于熟知「线性预测编码」。举例而言,低频编码装置140可包括(或使用)修改的「进阶音频编码」,如国际标准ISO/IEC 23003-3中所描述的。或者或补充地,低频编码装置140可包括(或使用)线性预测编码,例如,如国际标准ISO/IEC 23003-3中所描述的。然而,低频编码装置140亦可包括(修改的或未修改的)「进阶音频编码」与线性预测域音频编码的间的切换。然而,应注意,原则上,音频信号的编码领域中已知的任何概念皆可用于低频编码装置140,以便提供输入音频信息所表示的音频内容的低频部分的编码表示142。
然而,带宽扩展信息提供器130可提供带宽扩展信息(例如,呈带宽扩展参数的形式),所述带宽扩展信息使得能够重构输入音频信息110所表示的音频内容的高频部分,所述高频部分并未由低频编码装置140所提供的编码表示142表示。举例而言,带宽扩展信息提供器130可配置为提供带宽复制参数中的某些或全部,所述等参数在国际标准ISO/IEC14496-3(或涉及ISO/IEC 14496-3的任何其他标准)中描述。
举例而言,带宽扩展信息提供器可配置为提供国际标准ISO/IEC 14496-3的「SBR工具」及/或「低延迟SBR」章节中所描述的参数中的某些或全部。举例而言,带宽扩展信息提供器130可配置为提供以下语法组件中的某些或全部:「sbr_extension_data()」、「sbr_header()」、「sbr_data()」、「sbr_single_channel_element()」、「sbr_channel_pair_element()」或其中所参考的其他比特流组件,例如国际标准ISO/IEC 14496-3中所界定的。换言的,带宽扩展信息提供器130可提供带宽复制参数,所述等带宽复制参数可例如粗略地描述输入音频信息110所表示的音频内容的高频部分的频谱包络。然而,带宽扩展信息提供器130亦可包括用于描述输入音频信息110所表示的音频内容的高频部分中的噪声的参数,及/或可包括用于描述输入音频信息110所表示的音频内容的高频部分中所包括的一或多个正弦信号的参数。另外,带宽扩展信息提供器130可例如提供大量配置参数,亦如国际标准ISO/IEC 14496-3中关于带宽复制工具所描述的。举例而言,带宽扩展信息提供器130可提供一或多个表示时间分辨率的参数,所述时间分辨率用于提供带宽扩展信息的集合,例如可藉以使用以提供表示输入音频信息所表示的音频内容的高频部分的频谱包络的更新参数集合的时间分辨率。举例而言,带宽扩展提供器130可提供控制参数,所述控制参数指示每音频帧提供频谱包络参数的一个集合还是四个集合。举例而言,带宽扩展信息提供器130所提供的控制参数可类似于或甚至等于语法组件「sbr_grid()」中的「FIXFIX」情况下提供的参数,如国际标准ISO/IEC 14496-3中所描述的。
然而,带宽扩展提供器130可或者配置为提供控制信息,所述控制信息类似于或甚至等于比特流组件「sbr_ld_grid()」中所包括的控制信息,所述比特流组件「sbr_ld_grid()」在例如国际标准ISO/IEC 14496-3的第4.6.19.3.2章中描述。
举例而言,2-位值可用于编码每音频帧带宽扩展信息提供器130提供包络形状参数的多少集合(比较,如ISO/IEC 14496-3的第4.6.19.3.2章中所描述的比特流组件「bs_num_env」)。
较佳地,信号传递可如针对「FIXFIX」情况所指示的执行,此在ISO/IEC 14496-3的第4.6.19章「低延迟SBR」中所描述。
结论如下,带宽扩展信息提供器130提供带宽扩展信息132,其中时间分辨率(例如,表示输入音频信息110所表示的音频内容的高频部分的频谱包络的更新参数的间的时间周期)取决于时间分辨率调整信息122而调整,所述时间分辨率调整信息122由侦测器120提供。因此,带宽扩展信息提供器130所使用的时间分辨率(例如,用于提供描述输入音频信息110所表示的音频内容的高频部分的频谱包络的更新参数集合)适用于输入音频信息110。
举例而言,音频编码器100配置为使得响应于侦测器120侦测到摩擦音或破擦音的起始段,提高带宽扩展信息提供器130所使用的时间分辨率(与正常的时间分辨率比较。然而,提高带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率提供带宽扩展信息(例如,带宽扩展信息的频谱包括参数)。因此,以带宽扩展信息的提高的时间分辨率编码摩擦音或破擦音的「整个」起始段(或摩擦音或破擦音的起始段的至少足够大部分)。因此,可以足够准确性编码(及解码)摩擦音或破擦音的起始段,以使得可听到的假影得以避免,且音频质量的劣化亦可得以避免。
因此,包括带宽扩展信息132且通常亦包括输入音频信息110所表示的音频内容的低频部分的编码表示142的编码音频信息112允许以良好质量解码输入音频信息110所表示的音频内容,同时所要求的比特率可维持为合理小。
此外,应注意,本文所描述的其他特征及功能性的任何特征及功能性亦可实施至音频编码器100。特定而言,音频编码器100可额外配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得响应于侦测到摩擦音或破擦音的终止段(其中侦测器110亦可配置为侦测摩擦音或破擦音的终止段),以提高的时间分辨率提供带宽扩展信息。
下文将参阅图2至图7描述有关音频编码器100的功能性的某些额外细节。
图2示出以已知带宽扩展帧的原始语音信号的光谱图及侦测到的摩擦音或破擦音边界。
横坐标210描述时间(就时区而言),且纵坐标212指定QMF次频带。因此,根据图2的表示200表示音频信号能量随时间在不同QMF次频带上的分布。
如图所示,洋红色垂直虚线指定已知带宽扩展帧的时间边界220a,220b,…。此外,黑色垂直虚线指定侦测到的摩擦音或破擦音边界230a,230b,230c,230d,…。侦测到的摩擦音或破擦音边界230a,230b,230c,230d,…可使用基于倾斜的侦测器侦测。如图所示,具有相等长度的时间间隔(可视为带宽扩展帧或通常视为帧)由(已知)带宽扩展帧的边界220a,…,220u界定。换言的,在根据文件D1的已知概念中,带宽扩展信息可与具有相等时间长度的时间上规则的时间间隔(由已知带宽扩展帧的边界分离)相关联。
如图所示,侦测到的摩擦音或破擦音边界可位于已知带宽扩展帧的两个后续边界所界定的时间间隔内某处。
然而,图2中所示出的已知带宽扩展帧方案并未虑及音频内容的高频部分的特定良好的重现,如稍后将描述。
图3示出以本发明带宽扩展帧的原始语音信号的光谱图(其中本发明带宽扩展帧由黑色垂直实线指示)。横坐标310描述就时区而言的时间,且纵坐标312描述就QMF次频带而言的频率。图3的光谱图300示出音频内容(或音频信号)的能量(或通常,强度)随频率(或随QMF次频带)及随时间的分布。如图所示,仍然存在规则(基本或基础)帧,所述帧由垂直线330a-330u指示,其中两个后续帧边界的间(例如,帧边界330a与330b的间,或帧边界330b与330c的间)的帧可视为具有相等长度的时间间隔。然而,应注意,响应于侦测到摩擦音或破擦音的起始段及响应于侦测到摩擦音或破擦音的终止段,提高时间分辨率。举例而言,在帧边界330b与330c的间的时间间隔中侦测到摩擦音或破擦音的起始段的作用如下:帧边界330b与330c的间的帧(或时间间隔)被细分为四个子帧(或子时间间隔)340a、340b、340c及340d。此外,应注意,响应于在帧边界330b与330c的间侦测到摩擦音或破擦音的起始段,不仅提高帧边界330b与330c的间的帧中的时间分辨率,亦提高帧边界330c与330d及帧边界330d与330e所定界的两个后续帧中的时间分辨率。因此,响应于在单个帧(或时间间隔)中侦测到摩擦音或破擦音的起始段,亦即在帧边界330b与330c所定界的时间间隔中侦测到摩擦音或破擦音的起始段,提高的时间分辨率应用至两个额外帧(亦即,帧边界330c与330d以及时间边界330d及330e所定界的帧)。因此,可以确保,在摩擦音或破擦音的整个起始段(或摩擦音或破擦音的起始段的至少大部分)的持续时间期间,使用提高的时间分辨率(与标准的时间分辨率比较)提供带宽扩展信息(或带宽扩展参数)。因此,解码器旁侧的带宽扩展可在摩擦音或破擦音的整个起始段期间以提高的时间分辨率执行,因为可针对子时间间隔中的每一者(例如,子时间间隔340a-340d中的每一者)提供带宽扩展参数的个别集合(例如,描述音频内容的高频部分的包络的参数)。此外,可以看出,响应于在帧边界330e与330f的间的帧中侦测到摩擦音或破擦音的终止段,将提高的时间分辨率应用至三个后续帧,亦即,帧边界330e与330f、帧边界330f与343g以及帧边界330g与330h所定界的帧。换言的,帧边界330e与330h的间的帧被细分为四个独立子帧(或子时间间隔),其中针对子帧(例如,子时间间隔)中的每一者提供带宽扩展参数的个别集合。因此,针对帧边界330e与330f所定界的时间间隔中侦测到的摩擦音或破擦音的整个终止段,可以提高的时间分辨率提供带宽扩展参数。
然而,在帧边界330h与330p的间,使用「正常的」时间分辨率(而非「提高的」时间分辨率)。此外,响应于在帧边界330p与330q所定界的帧(或时间间隔)中侦测到摩擦音或破擦音的起始段,针对帧边界330p与330s的间的帧,使用提高的时间分辨率提供带宽扩展信息。
类似地,响应于在帧边界330t与330u的间的帧(或时间间隔)中侦测到摩擦音或破擦音的终止段,针对帧边界330t与330w的间的帧(或时间间隔),使用提高的时间分辨率提供带宽扩展信息。
结论如下,在音频编码器100中使用均一(基础)帧提供带宽扩展信息,其中带宽扩展信息与具有相等时间长度的时间上规则的帧(时间间隔)相关联。
然而,带宽扩展信息提供器配置为在使用第一(「正常的」)时间分辨率时,针对帧(亦即,具有给定时间长度的时间间隔)提供带宽扩展信息的单个集合。举例而言,针对帧边界330a与330b的间的帧,提供带宽扩展信息的单个集合,且针对时间边界330h与330p的间的八个帧中的每一者,提供带宽扩展信息的单个集合。然而,带宽扩展信息提供器亦配置为在使用第二(「提高的」)时间分辨率时,针对具有给定时间长度的帧(时间间隔)提供与子时间间隔相关联的带宽扩展信息的多个集合。举例而言,针对帧边界330b与帧边界330h的间的六个帧中的每一者、针对帧边界330p与330s的间的三个帧中的每一者,且针对帧边界330t与330w的间的三个帧中的每一者,提供带宽扩展信息的四个集合。如图所示,以高的时间分辨率提供带宽扩展信息的帧中的每一者被细分为具有相等长度的四个子帧(或子时间间隔)(例如,子时间间隔340a至340d),其中针对子时间间隔中的每一者,提供带宽扩展参数的一个集合。此外,应注意,紧接期间侦测到摩擦音或破擦音的起始段的子时间帧的前或期间侦测到摩擦音或破擦音的终止段的子时间帧的前,通常存在至少一个子时间帧,针对所述至少一个子时间帧提供带宽扩展参数的一个集合。举例而言,若假设在帧边界330b与330c的间的帧的后一半中侦测到摩擦音或破擦音,则紧接期间侦测到摩擦音或破擦音的子时间帧的前存在至少两个子时间帧(位于帧边界330b与330c的间的帧的前一半中)。因此,甚至在实际侦测到摩擦音或破擦音的起始段或实际侦测到摩擦音或破擦音的终止段的时间的前,使用提高的时间分辨率提供带宽扩展参数。因此,可以高的时间分辨率处理(其中以高的时间分辨率提供带宽扩展参数)摩擦音或破擦音的「全部」起始段或摩擦音或破擦音的「全部」终止段。因此,音频解码器旁侧可能获得良好重现,所述音频解码器接收音频编码器100所提供的编码音频信息。
现参阅图4及图5,将描述音频编码器100优于已知音频编码器的某些优势。
图4示出以已知带宽扩展帧的编码语音的光谱图。横坐标410描述时间,且纵坐标412描述频率。此外,黄色椭圆指示已知带宽扩展帧所引起的典型假影。因此,图4的光谱图400描述语音信号的能量随频率及随时间的分布。
第一椭圆430描述由已知带宽扩展帧引起的前回声。此外,已知带宽扩展帧的作用如下:椭圆430中所示的起始段被视为非常强烈的起始段。
此外,第二椭圆440指出后回声,所述回声亦由已知带宽扩展帧引起。此外,椭圆440所指示的区域中的终止段通常被视为非常强烈的终止段,听起来会很不自然。
椭圆450示出来自基带的元音泄漏,所述泄漏亦由已知带宽扩展帧引起。
因此,如图所示,已知带宽扩展帧(例如,图2中所示的带宽扩展帧)产生许多假影。
图5示出以本发明带宽扩展帧的编码语音的光谱图(与图4的光谱图相比)。又,横坐标510描述时间,且纵坐标512描述频率,以使得光谱图500表示作为频率的函数及作为时间的函数的编码语音信号(或自编码语音信号导出的解码语音信号)的能量。如图所示,椭圆430、440及450所高显的问题区域得以实质上改进,如图4中指示。换言的,使用高的时间分辨率提供带宽扩展信息有助于减少或甚至避免前回声、摩擦音或破擦音的起始段的不当强烈感受、摩擦音或破擦音的终止段的后回声以及摩擦音或破擦音的终止段的不当强烈感受。此外,本发明中使用提高的时间分辨率亦有助于避免来自基带的元音泄漏,如图4中的椭圆450处所示出。
下文将参阅图6及图7解释有关提供带宽扩展信息的某些细节。
图6示出用于提供带宽扩展信息的时间间隔及子时间间隔的示意性表示。
时间轴线指定为610。如图所示,时间(由时间轴线610表示)细分为时间间隔620a、620b、620c、620d、620e及620f,所述等时间间隔可例如包括相等长度。时间间隔可视为帧。此外,侦测到摩擦音或破擦音的起始段(或终止段)的时间指定为tf。时间tf位于时间间隔(或帧)620e内。应注意,侦测到摩擦音或破擦音的起始段(或终止段)的时间可例如由侦测器120判定,且侦测到摩擦音或破擦音的起始段(或终止段)的时间通常可位于摩擦音或破擦音的起始段的实际开始不久的后或摩擦音或破擦音的终止段的实际开始不久的后。
如图6所示,针对时间间隔620a至620d及620f,以「正常的」(相对低的)分辨率提供带宽扩展信息。举例而言,针对时间间隔620a至620d及620f中的每一者,提供带宽扩展信息的一个集合。举例而言,针对时间间隔620a至620d及620f中的每一者,由带宽扩展参数的集合表示常见频谱形状(或频谱整形),以使得带宽扩展信息并不表示时间间隔620a至620d及620f的单个时间间隔内频谱形状(或频谱整形)的改变。相反,音频解码器100配置为调整带宽扩展信息提供器所使用的时间分辨率,以使得在时间间隔(或帧)620e中以提高的时间分辨率提供带宽扩展信息。因此,响应于在时间间隔620e内侦测到摩擦音或破擦音时间tf的起始段(或终止段),带宽扩展信息提供器130可将时间间隔620e细分为四个子时间间隔630a至630d。因此,针对子时间间隔630a至630d中的每一者,带宽扩展信息提供器可提供带宽扩展信息的一个集合。因此,针对子时间间隔630a提供的带宽扩展信息(例如,参数)的第一集合可描述将应用至子时间间隔630a的带宽扩展的频谱形状(或频谱整形),带宽扩展信息的第二集合可描述将应用至子时间间隔630b的带宽扩展的频谱形状或频谱整形,带宽扩展信息的第三集合可描述将应用至子时间间隔630c的带宽扩展的频谱形状或频谱整形,且带宽扩展信息的第四集合可描述将应用至子时间间隔630d的带宽扩展的频谱形状或频谱整形。因此,带宽扩展信息提供器130提供带宽扩展信息(或带宽扩展参数)的个别集合,以使得将应用至时间间隔630a至630d的带宽扩展的频谱形状或频谱整形独立地进行信号传递。因此,响应于在时间间隔620e内侦测到摩擦音或破擦音的起始段或终止段,针对时间间隔620e,以提高的时间分辨率(高于「正常的」或「低的」时间分辨率)编码频谱形状或频谱整形。然而,应注意,时间间隔630a至630d可具有相等长度(例如,就时间而言或就样本个数而言)。此外,应注意,以提高的时间分辨率提供带宽扩展信息已用于子时间间隔630a中,亦即,在侦测到摩擦音或破擦音的起始段或终止段的时间tf的前。此外,提高的时间分辨率亦用于子时间间隔630c中,亦即,在期间侦测到摩擦音或破擦音的起始段或终止段的时间间隔630b的后。因此,可以良好音频质量编码摩擦音或破擦音的起始段或终止段。
图7示出用于提供带宽扩展信息的时间分辨率的另一示意性表示。时间轴线指定为710。如图所示,存在时间间隔720a至720f。进一步如图所示,侦测到摩擦音或破擦音的起始段(或终止段)的时间指定为tf且位于时间间隔720e的第一四分的一内。如图所示,针对时间间隔720a、720b、720c及720f,以「正常的」或「低的」时间分辨率提供带宽扩展信息(例如,每时间间隔带宽扩展信息的一个集合或带宽扩展参数的一个集合)。然而,响应于在时间tf侦测到摩擦音或破擦音的起始段,音频编码器100调整带宽扩展信息提供器所使用的时间分辨率,以使得在时间间隔720d及720e期间使用「提高的」(或「高的」)时间分辨率。因此,针对时间间隔720的四个子时间间隔及时间间隔720e的四个子时间间隔,提供带宽扩展信息(或带宽扩展参数)的个别集合。因此在时间间隔720d及720e期间,以提高的频谱分辨率表示将用于带宽扩展(在音频解码器旁侧)的频谱包络或频谱包络整形。
举例而言,针对时间间隔720d及720e的每一子时间间隔,可提供带宽扩展参数的一个个别集合。
然而,应注意,提高的时间分辨率亦用于时间间隔720e的前(紧接在的前)的时间间隔720d,侦测到摩擦音或破擦音的起始段(或终止段)的时间位于时间间隔720e内。然而,如所要的,根据本发明,以提高的时间分辨率编码侦测到摩擦音或破擦音的起始段(或终止段)的时间间隔(或子时间间隔)的前的至少另一时间间隔(或子时间间隔),音频编码器100选择提高的时间分辨率提供(及编码)时间间隔720d的带宽扩展信息。因此,由于侦测到摩擦音或破擦音的起始段的时间位于时间间隔720e的第一子时间间隔内,音频解码器决定,亦应以高的时间分辨率处理(前一)时间间隔720d,以使得高的时间分辨率已应用至侦测到摩擦音或破擦音的起始段(或终止段)的子时间间隔的前的时间间隔(子时间间隔)。
相反,若仅在时间间隔720e的第二子间隔中侦测到摩擦音或破擦音的起始段(或终止段),则音频编码器会(可能)针对时间间隔720d(图6中所示的情形)选择低的时间分辨率提供带宽扩展信息。因此,自图7可了解,执行特定的「时间先行」,因为即使在帧并未要求提高的时间分辨率的情况下,仍选择提高的时间分辨率提供带宽扩展信息。
因此,甚至以高的时间分辨率处理摩擦音或破擦音的起始段的开始,其中摩擦音或破擦音的起始段的开始通常位于侦测器120实际侦测到摩擦音或破擦音的起始段的时间的前。因此,可达成具有良好感觉质量且无主要假影的音频重现。
总结如下:图3、图5、图6及图7示出可应用至根据本发明的音频编码器100的操作概念。然而,不同帧概念可实际使用足够长时间,只要确保至少针对侦测到摩擦音或破擦音的起始段(或摩擦音或破擦音的终止段)的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段(或摩擦音或破擦音的终止段)的时间的后的预定时间周期,以提高的时间分辨率(与正常的时间分辨率相比)提供带宽扩展信息。
应注意,图6及图7例如表示编码音频信号的结构。举例而言,编码音频信号可包括音频内容的低频部分的编码表示。此外,编码音频表示可包括带宽扩展参数的多个集合。
举例而言,针对帧620a至620d及620f中的每一者,可提供带宽扩展参数的一个集合。此外,针对帧720a、720b、720c及720f中的一者,可提供带宽扩展信息的一个集合。然而,至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,可以提高的时间分辨率提供带宽扩展参数的集合。举例而言,针对帧620e,以提高的时间分辨率提供带宽扩展参数的集合。举例而言,针对帧620e,可提供总计带宽扩展参数的四个集合,以使得提高侦测到摩擦音或破擦音的起始段或终止段的子帧630b的前的子帧630a中的时间分辨率。此外,针对子帧630c及630d,可提供带宽扩展参数的另外两个集合。
自图7可了解类似概念,其中针对帧620d及620e,以提高的时间分辨率提供带宽扩展参数的集合。
结论如下,至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,可以提高的时间分辨率提供带宽扩展参数。此外,针对音频内容中侦测到摩擦音或破擦音的终止段的部分,亦可以提高的时间分辨率提供带宽扩展参数。
2.根据图8的音频编码器
图8示出根据本发明实施例的音频编码器的方块示意图。
音频编码器800配置为接收输入音频信息810,且基于输入音频信息810提供编码音频信息812。
音频编码器800包括侦测器820,所述侦测器820配置为侦测摩擦音或破擦音的终止段。侦测器820例如提供时间分辨率调整信息822。此外,音频编码器800包括带宽扩展信息提供器830,所述带宽扩展信息提供器830配置为使用可变时间分辨率提供带宽扩展信息832。音频编码器配置为调整带宽扩展信息提供器830所使用的时间分辨率,以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率(与「正常的」时间分辨率相比)提供带宽扩展信息832。换言的,若侦测器820侦测到摩擦音或破擦音的终止段,提高带宽扩展信息提供器830所使用的时间分辨率,以使得以带宽扩展信息(或带宽扩展参数)832的相对高的(高于正常的)时间分辨率编码摩擦音或破擦音的终止段。此外,音频编码器800包括低频编码装置840,所述低频编码装置840可提供输入音频信息810所表示的音频内容的低频部分的编码表示842。
此外,应注意,侦测器820可类似于上文所描述的侦测器120,且带宽扩展信息提供器130可类似于(或甚至等同于)上文所描述的带宽扩展信息提供器130。此外,低频编码装置840类似于或甚至等同于上文所描述的低频编码装置140。
此外,音频编码器800配置为调整带宽扩展信息提供器830所使用的时间分辨率,以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息832。因此,以(至少带宽扩展信息的)高的时间分辨率编码摩擦音或破擦音的终止段,此有助于避免假影且形成自然的听觉感觉。
然而,应注意,音频编码器800可任择地具备上文关于音频编码器100以及亦关于图3、图5、图6及图7所描述的其他特征中的任何特征。此外,响应于侦测到摩擦音或破擦音的终止段而使用提高的时间分辨率所产生的优势可如图5所示。
此外,应注意,响应于侦测到摩擦音或破擦音的起始段及响应于侦测到摩擦音或破擦音的终止段,均可应用根据图6及图7的概念,且因此亦可应用至根据图8的音频编码器。
3.根据图9的音频解码器
图9示出根据本发明实施例的音频解码器的方块示意图。音频解码器900配置为接收编码音频信息910,且基于编码音频信息910提供解码音频信息912。音频解码器包括低频解码装置920,所述低频解码装置920可配置为提供编码音频信息910所表示的音频内容的低频部分的解码表示。举例而言,低频解码装置920可包括通用音频解码,例如如国际标准ISO/IEC 14496-3中所描述的。换言的,低频解码装置920可例如包括熟知MPEG-2「进阶音频编码」(AAC),且可例如解码音频内容中频率最高达近似6kHz或7kHz的低频部分。然而,低频解码装置920可使用任何其他解码概念,诸如例如,熟知CELP解码概念或熟知变换编码激励(TCX)解码。一般而言,低频解码装置920可使用任何通用音频解码概念或任何语音解码概念。音频解码器900亦包括带宽扩展装置930,所述带宽扩展装置930配置为基于音频编码器所提供且通常包括于编码音频信息910中的带宽扩展信息932执行带宽扩展。带宽扩展装置930通常可使用低频解码装置920所提供的信息。举例而言,带宽扩展装置930可配置为基于音频内容的解码低频部分(其中音频内容的解码低频部分由低频解码装置920提供)执行带宽复制(SBR)。举例而言,带宽扩展装置930可执行所谓的「SBR工具」或所谓的「低延迟SBR」的功能性,此例如在国际标准中ISO/IEC 14496-3中描述。
然而,音频解码器900可配置为至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。因此,甚至针对摩擦音或破擦音的起始段或摩擦音或破擦音的终止段,仍可达成良好音频质量。
应注意,用于带宽扩展的时间分辨率可使用包括于带宽扩展信息932的旁侧信息信号传递。举例而言,信号传递可如国际标准ISO/IEC 14496-3中第4.6.19章中所描述的执行。特定而言,时间分辨率的信号传递可如ISO/IEC 14496-3第4子部分中第4.6.19.3.2章中所描述的执行。因此,带宽扩展装置930可评估所述信号传递以决定应将何时间分辨率用于带宽扩展。
然而,或者,音频解码器可配置为基于可由低频解码装置920提供音频内容的解码低频部分侦测摩擦音或破擦音的起始段或摩擦音或破擦音的终止段。因此,音频解码器900可决定时间分辨率以类似于上文所描述的音频编码器的方式用于带宽扩展。在此类情况下,可能甚至无需使用任何额外旁侧信息来信号传递将用于带宽扩展的时间分辨率,此有助于降低比特率。
有关音频解码器900的功能性,应注意,功能性对应于根据图1的音频编码器100及根据图8的音频编码器800的功能性。换言的,在不存在摩擦音或破擦音的起始段或不存在摩擦音或破擦音的终止段的情况下,以「正常的」或相对「低的」时间分辨率执行带宽扩展,而在存在摩擦音或破擦音的起始段或存在摩擦音或破擦音的终止段的情况下,以「提高的」或相对「高的」时间分辨率执行带宽扩展。然而,至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,亦可使用提高的时间分辨率执行带宽扩展,以使得以带宽扩展的高的时间分辨率处理摩擦音或破擦音的整个起始段。因此,假影可得以避免。
4.根据图10的音频解码器
图10示出根据本发明另一实施例的音频解码器的方块示意图。
音频解码器1000配置为接收编码音频信息1010,且基于编码音频信息1010提供解码音频信息1012。音频解码器包括低频解码装置1020,所述低频解码装置1020可实质上等同于上文所描述的低频解码装置920。音频解码器1000包括带宽扩展装置1030,所述带宽扩展装置1030可实质上等同于上文所描述的带宽扩展装置930。然而,音频解码器1000配置为基于音频编码器所提供的带宽扩展信息1032执行带宽扩展,以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。因此,音频解码器1000提供以良好准确性表示摩擦音或破擦音的终止段的解码音频信息。因此,假影得以避免。
此外,应注意,上文关于音频解码器900所提供的解释亦应用至音频解码器1000。另外,应注意,音频解码器1000可补充有关于音频解码器900所描述的特征及功能性中的任何特征及功能性。此外,音频解码器1000(以及音频解码器900)可补充有本文关于音频解码器所描述的特征及功能性中的任何特征及功能性,因为音频解码对应于上文所描述的音频编码。
5.根据请求项11的系统
图11示出根据本发明实施例的系统的方块示意图。系统1100包括音频编码器1120,所述音频编码器1120配置为接收输入音频信息1110,且基于输入音频信息1110提供编码音频信息1130至音频解码器1140。音频解码器1140配置为基于编码音频信息1130提供解码音频信息1150。
然而,应注意,音频编码器1120可等同于关于图1所描述的音频编码器100或等同于关于图8所描述的音频编码器800。此外,音频解码器1140可等同于关于图9所描述的音频解码器900或等同于关于图10所描述的音频解码器1000。因此,音频解码器可配置为接收音频编码器所提供的编码音频信息,且基于编码音频信息提供解码音频信息1150,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展,及/或以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。因此,可达成摩擦音或破擦音的良好质量重现。
应注意,系统可补充有上文关于音频编码器及音频解码器所描述的特征及功能性中的任何特征及功能性。
6.根据图12的基于输入音频信息提供编码音频信息的方法
图12示出基于输入音频信息提供编码音频信息的方法的流程图。根据图12的方法1200包括侦测摩擦音或破擦音的起始段及/或摩擦音或破擦音的终止段(步骤1210)。方法亦包括使用可变时间分辨率提供1220带宽扩展信息。用于提供带宽扩展信息的时间分辨率可例如经调整以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。或者,用于提供带宽扩展信息的时间分辨率可经调整以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。
根据图12的方法1200基于与上文所描述的音频编码器相同的考虑。此外,方法1200可补充有本文关于音频编码器(及亦关于音频解码器)所描述的特征及功能性中的任何特征及功能性。
7.根据请求项13的提供解码音频信息的方法
图13示出根据本发明实施例的提供解码音频信息的方法的流程图。方法1300包括解码1310音频信息的低频部分,然而此部分并非方法的重要步骤。
方法1300亦包括基于音频编码器所提供的带宽扩展信息执行1320带宽扩展,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的起始段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展,及/或以使得至少针对侦测到摩擦音或破擦音的终止段的时间的前的预定时间周期及针对侦测到摩擦音或破擦音的终止段的时间的后的预定时间周期,以提高的时间分辨率执行带宽扩展。
方法1300基于与上文所描述的音频编码器及上文所描述的音频解码器相同的考虑。此外,应注意,方法1300可补充有本文关于音频解码器所描述的特征及功能性中的任何特征及功能性。此外,应注意,虑及解码过程实质上与编码过程相反,方法1300亦可补充有关于音频编码器所描述的特征及功能性中的任何特征及功能性。
8.结论
从上文解释得到如下结论,应注意,根据本发明的实施例系关于语音编码,且特定而言,系关于使用带宽扩展(BWE)技术的语音编码。根据本发明的实施例旨在藉由侦测语音信号内的摩擦音或破擦音并相应地调适带宽扩展参数驱动式后处理的时间分辨率(例如,藉由调适用于提供带宽扩展信息的集合的时间分辨率)而增强解码信号的感觉质量。根据本发明的实施例包括侦测语音信号的摩擦音或破擦音信号部分的起始段及终止段,并在所述等摩擦音或破擦音信号部分的整个起始段及终止段期间提供时间上细粒式带宽扩展后处理(其中带宽扩展处理可例如包括在音频编码器旁侧提供所述带宽扩展信息,且可包括在音频解码器旁侧执行带宽扩展)。藉此,出现前回声及后回声假影的机会减小,且可以细粒式带宽扩展参数建立摩擦音或破擦音信号部分的起始段及终止段的足够平缓的模型。藉此,摩擦音或破擦音的不良听觉尖锐度及在编码信号内出现恼人的前回声及后回声的情况得以避免。
根据本发明的实施例优于已知解决方案。举例而言,[1]中提出将带宽扩展参数帧的开始时间瞬时与频谱倾斜改变的时间点对准。频谱倾斜改变可能表示摩擦音或破擦音信号部分的起始段或突发终止段。[1]中提出的对准技术防止在带宽扩展方法内出现摩擦音或破擦音的前回声。然而,仅侦测到摩擦音或破擦音起始段且终止段被漏失。另外,上文提及的技术并未虑及个别摩擦音或破擦音的起始段及终止段频谱时间特征的细粒式建模。因此,此等摩擦音或破擦音的起始段及终止段的声音可能会刺耳且相当尖锐。
下文将描述根据本发明的某些实施例及态样。
举例而言,本发明的带宽扩展编码器包括摩擦音或破擦音侦测器及带宽扩展频谱时间分辨率切换器。
摩擦音或破擦音侦测器较佳能够侦测摩擦音或破擦音起始段及终止段。此类侦测器的适当的低计算复杂性实现方法可例如基于越零率(ZCR)及能量比的评估(有关细节,例如参阅参考文献[2]及[3])。侦测器可额外连接至语音/音乐鉴别器,以便将后续的本发明处理仅限制为语音信号。
在某些实施例中,侦测器的特定时间先行系所要或甚至要求的,从而能够及时切换带宽扩展分辨率,以使得在整个起始段及终止段信号部分长度期间,细粒式时间分辨率用于带宽扩展参数估计/合成中。起始段或终止段信号部分的持续时间可适应性地量测信号得到,或者假设固定为经验性判定值。举例而言,响应于侦测到摩擦音或破擦音起始段或摩擦音或破擦音终止段而以高的时间分辨率处理的时间间隔或子时间间隔的数目可为预定的,或取决于信号特征而调整。举例而言,侦测到的摩擦音或破擦音可在若干连续信号帧(例如,两个或三个帧)的群组期间启动高四倍的时间分辨率,所述群组完全覆盖侦测到的摩擦音或破擦音起始段或终止段。较佳地,但并非必须,高的时间分辨率信号帧的群组近似以侦测到的摩擦音或破擦音起始段或终止段为中心,从而覆盖起始段或终止段的整个持续时间。在瞬时适应性带宽扩展帧的情况下,由摩擦音或破擦音侦测所触发的信号帧的整个群组期间启动较高时间分辨率替代瞬时适应性帧。
下文将论述有关诸图的某些细节。
图2示出原始语音信号的光谱图,其中洋红色垂直虚线条描绘已知带宽扩展帧。黑色虚线条表示摩擦音或破擦音边界。
图3示出以本发明带宽扩展帧的原始语音信号的光谱图,所述帧适于黑色垂直实线所指示的摩擦音或破擦音边界。在已侦测到摩擦音或破擦音边界(起始段或终止段)的时间点,藉由在三个连续帧的群组期间切换至高四倍的分辨率而细化带宽扩展后处理的分辨率。
图4描绘使用已知带宽扩展帧编码的相同语音信号的所得光谱图。黄色椭圆指示已知带宽扩展帧所引起的假影(自左至右):A:前回声及强烈起始段;B:后回声及强烈终止段;C:归因于过于粗略的帧,自前一元音泄漏至建模的摩擦音或破擦音的能量泄漏。
图5描绘使用本发明带宽扩展帧编码的相同语音信号的所得光谱图。图4中所指示的问题区域得以实质上改进。
结论如下,本文所论述的光谱图指示音频质量可藉由应用根据本发明的概念而得以实质上改进。
进一步结论如下,根据本发明的实施例创建一种音频编码器,或一种音频编码方法,或一种相关计算机程序,如上文所描述。
根据本发明的其他实施例创建一种音频解码器,或一种音频解码方法,或一种相关计算机程序,如上文所描述。
此外,根据本发明的实施例创建一种编码音频信号或上面储存有编码音频信号的储存媒体,如上文所描述。
9.实行方案替代
尽管已就设备的情境描述某些方面,应明了,这些方面也表示对应方法的描述,其中方块或装置对应于方法步骤或方法步骤的特征。类似地,就方法步骤的情境描述的态样亦表示对应方块或项目或对应设备的特征。方法步骤中的某些或全部可由(或使用)硬件设备执行,例如微处理器、可规划计算机或电子电路。在某些实施例中,最重要的方法步骤中的某些一或多个可由此类设备执行。
本发明的编码音频信号可储存在数字储存媒体或可在传输媒体上传输,诸如无线传输媒体或有线传输媒体,诸如因特网。
取决于特定实行方案要求,本发明的实施例可实施于硬件或软件。可使用数字储存媒体执行实行方案,例如上面储存有电子可读取控制信号的软磁盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH内存,所述等信号与可规划计算机系统协作(或能够与的协作)以便执行个别方法。因此,数字储存媒体可为计算机可读取的。
根据本发明的某些实施例包括具有电子可读取控制信号的数据载体,所述信号能够与可规划计算机系统协作,以便执行本文所描述的方法中的一者。
通常,本发明的实施例可实施为带有程序代码的计算机程序产品,所述程序代码可操作以当计算机程序产品在计算机上运行时执行上述方法中的一者。程序代码可例如储存在机器可读取载体上。
其他实施例包括用于执行本文所描述的方法中的一者的计算机程序,所述计算机程序储存在机器可读取载体上。
换言之,因此,本发明方法的实施例为一种具有程序代码的计算机程序,所述程序代码用于当计算机程序在计算机上运行时执行本文所描述的方法中的一者。
因此,本发明方法的另一实施例为一种包括记录在上面的计算机程序的数据载体(或数字储存媒体或计算机可读取媒体),所述计算机程序用于执行本文中所描述的方法中的一者。数据载体、数字储存媒体或记录媒体通常为有形的和/或非易失性的。
因此,本发明方法的另一实施例为一种表示用于执行本文中所描述的方法中的一者的计算机程序的数据流或信号序列。数据流或信号序列可例如配置为经由通讯连接传递,例如经由因特网。
另一实施例包括处理部件,例如计算机或可规划逻辑设备,所述部件配置为或适于执行本文所描述的方法中的一者。
另一实施例包括一种上面安装有计算机程序的计算机,所述计算机程序用于执行本文所描述的方法中的一者。
根据本发明的另一实施例包括一种配置为将用于执行本文所描述的方法中的一者的计算机程序传递(例如,电子地或光学地)至接收器的设备或系统。接收器可例如为计算机、行动装置、内存装置或类似装置。设备或系统可例如包括用于将计算机程序传递至接收器的文件服务器。
在某些实施例中,可编程逻辑设备(例如,场可编程门阵列)可用于执行本文所描述的方法的功能性中的某些或全部。在某些实施例中,场可编程门阵列可与微处理器协作,以便执行本文所描述的方法中的一者。通常,方法较佳由任何硬设备执行。
本文所描述的设备可使用硬件设备或使用计算机或使用硬件设备与计算机的组合实施。
本文所描述的方法可使用硬件设备或使用计算机或使用硬件设备与计算机的组合执行。
针对本发明的原理,上文所描述的实施例仅为示意性的。应理解,本领域的其他技术人员将了解本文所描述的布置及细节的修改及变化。因此,本发明旨在仅限于待决专利申请请求保护的范围,而不限于本文实施例的描述及解释的方式展示的具体细节。
1.一种基于输入音频信息(112)提供编码音频信息(112)的音频编码器(100),所述音频编码器包括:
带宽扩展信息提供器(130),配置为使用可变时间分辨率提供带宽扩展信息(132);
侦测器(120),配置为侦测摩擦音或破擦音的起始段;
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间(tf)的之前的预定时间周期(630a)及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期(630c),以提高的时间分辨率提供带宽扩展信息。
2.根据实施方式1所述的音频编码器(100),其中,所述音频编码器配置为响应于所述侦测到摩擦音或破擦音的所述起始段,从用于所述提供所述带宽扩展信息的第一时间分辨率切换至用于所述提供所述带宽扩展信息的第二时间分辨率,
其中,所述第二时间分辨率高于所述第一时间分辨率。
3.根据实施方式1或2所述的音频编码器(100),其中,所述带宽扩展信息提供器配置为提供所述带宽扩展信息,以使得所述带宽扩展信息与具有相等时间长度的时间上规则的时间间隔(620a,620b,620c,620d,620e,620f;720a-720f)相关联,
其中,所述带宽扩展信息提供器配置为如果使用第一时间分辨率,则针对具有给定时间长度的时间间隔(620a,620b,620c,620d,620f;720a,720b,720c,720f)提供带宽扩展信息的单个集合,以及
其中,所述带宽扩展信息提供器配置为如果使用第二时间分辨率,则针对具有所述给定时间长度的时间间隔(620e;720d,720e)提供与子时间间隔(630a,630b,630c,630d)相关联的带宽扩展信息的多个集合。
4.根据实施方式3所述的音频编码器(100),其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得与带宽扩展信息的一个集合相关联的至少一个子时间间隔(630a;730d)紧接在另一子时间间隔(630b;730e)的前面,所述另一子时间间隔与带宽扩展信息的另一集合相关联且在所述另一子时间间隔期间(630b;730e)侦测到摩擦音或破擦音的起始段,
以使得在侦测到摩擦音或破擦音的起始段的所述子时间间隔(630b;730e)的之前的至少一个子时间间隔(630a;730d)中使用所述提高的时间分辨率。
5.根据实施方式3或4所述的音频编码器(100),其中,所述音频编码器配置为如果针对具有所述给定时间长度的所述给定时间间隔(620e;720d,720e)使用提高的时间分辨率提供所述带宽扩展信息,则将具有所述给定时间长度的给定时间间隔(620e;720d,720e)细分为具有相等长度的四个子时间间隔(630a-630d;730a-730h),
以使得针对具有所述给定时间长度的所述给定时间间隔提供带宽扩展信息的四个集合。
6.根据实施方式1到5任一项所述的音频编码器(100),
其中,所述音频编码器配置为针对具有所述给定时间长度的第二时间间隔(720e)的之前的具有给定时间长度的第一时间间隔(720d),选择性地使用提高的时间分辨率提供带宽扩展信息,
如果在所述第二时间间隔(720e)内侦测到摩擦音或破擦音的起始段且若侦测到所述摩擦音或破擦音的所述起始段的时间与所述第一时间间隔(720d)与所述第二时间间隔(720e)之间的边界之间的时间距离小于预定时间距离。
7.根据实施方式1到6任一项所述的音频编码器(100),
其中,所述音频编码器配置为执行时间先行,以使得响应于在所述第二时间间隔(720e)内侦测到摩擦音或破擦音的起始段,针对具有所述给定时间长度的第二时间间隔(720e)的之前的具有给定时间长度的第一时间间隔(720d),使用提高的时间分辨率提供带宽扩展信息。
8.根据实施方式1到7任一项所述的音频编码器(100),
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间(tf)的之前的预定时间周期(630a;730d)及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期(630c;730f),以相同的提高的时间分辨率提供带宽扩展信息。
9.根据实施方式1到8任一项所述的音频编码器(100),
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对第一子时间间隔(630a;730d)、第二子时间间隔(630b;730e)及第三子时间间隔(630c;730f),以相同的提高的时间分辨率提供带宽扩展信息的集合,
其中,所述第一子时间间隔紧接在所述第二子时间间隔的前面;
其中,在所述第二子时间间隔内侦测到摩擦音或破擦音的起始段;以及
其中,所述第三子时间间隔紧跟在所述第二子时间间隔的后面。
10.根据实施方式1到9任一项所述的音频编码器(100),
其中,所述侦测器配置为侦测摩擦音或破擦音的终止段;以及
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的一终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
11.根据实施方式1到10任一项所述的音频编码器(100),其中,所述侦测器配置为评估越零率,和/或能量比,和/或频谱倾斜,以便侦测摩擦音或破擦音的起始段。
12.根据实施方式1到11任一项所述的音频编码器(100),其中,所述侦测器配置为评估越零率,和/或能量比,和/或频谱倾斜,以便侦测摩擦音或破擦音的终止段。
13.根据实施方式1到12任一项所述的音频编码器(100),其中,所述音频编码器配置为选择性地调整所述带宽扩展信息提供器所使用的时间分辨率,以使得仅针对语音信号部分而并非音乐信号部分,响应于侦测到摩擦音或破擦音的起始段,以提高的时间分辨率提供带宽扩展信息。
14.根据实施方式1到13任一项所述的音频编码器(100),其中,所述音频编码器配置为响应于侦测到摩擦音或破擦音的起始段或响应于侦测到摩擦音或破擦音的终止段,针对覆盖侦测到摩擦音或破擦音的起始段的时间的多个后续时间间隔,选择性地使用提高的时间分辨率提供带宽扩展信息。
15.根据实施方式14所述的音频编码器(100),其中所述音频编码器配置为针对完全覆盖侦测到的摩擦音或破擦音的起始段的多个后续时间间隔,选择性地使用提高的时间分辨率提供带宽扩展信息。
16.一种基于输入音频信息(810)提供编码音频信息(812)的音频编码器(800),所述音频编码器包括:
带宽扩展信息提供器(830),配置为使用可变时间分辨率提供带宽扩展信息(832);
侦测器(820),配置为侦测摩擦音或破擦音的终止段;
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。
17.根据实施方式16所述的音频编码器(800),
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
18.一种基于一编码音频信息(910)提供解码音频信息(912)的音频解码器(900),
其中,所述音频解码器(900)配置为基于音频编码器所提供的带宽扩展信息(932)执行带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
19.一种基于编码音频信息(1010)提供解码音频信息(1012)的音频解码器(1000),
其中,所述音频解码器配置为基于音频编码器所提供的带宽扩展信息(1032)执行带宽扩展(1030),
以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
20.一种系统(1100),包括:
如请求项1至17中的一项的音频编码器(1120);以及
音频解码器(1140),配置为接收所述音频编码器所提供的所述编码音频信息(1130),且基于所述编码音频信息提供解码音频信息(1150),
其中,所述音频解码器配置为基于所述音频编码器所提供的所述带宽扩展信息执行带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展,或
以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
21.一种基于输入音频信息提供编码音频信息的方法(1200),所述方法包括:
使用可变时间分辨率提供(1220)带宽扩展信息;以及
侦测(1210)摩擦音或破擦音的起始段;
其中,用于提供所述带宽扩展信息的时间分辨率经调整以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
22.一种基于输入音频信息提供编码音频信息的方法(1200),所述方法包括:
使用可变时间分辨率提供(1220)带宽扩展信息;以及
侦测(1210)摩擦音或破擦音的终止段;
其中,用于提供所述带宽扩展信息的时间分辨率经调整以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。
23.一种基于编码音频信息提供解码音频信息的方法(1300),
其中,所述方法包括基于音频编码器所提供的带宽扩展信息执行(1320)带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
24.一种基于编码音频信息提供解码音频信息的方法(1300),
其中,所述方法包括基于音频编码器所提供的带宽扩展信息执行(1320)带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
25.一种计算机程序,当所述计算机程序在计算机上运行时执行如实施方式21到24中的一项的方法。
26.一种编码音频信号,包括:
音频内容的低频部分的编码表示;以及
带宽扩展参数的多个集合;
其中,至少针对所述音频内容中存在摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对所述音频内容中存在所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率提供所述带宽扩展参数。
27.一种编码音频信号,包括:
音频内容的低频部分的编码表示;以及
带宽扩展参数的多个集合;
其中在所述音频内容中存在摩擦音或破擦音的终止段的时间部分中,以提高的时间分辨率提供所述带宽扩展参数。
参考文献:
[1]美国专利第US 20110099018号,“用于使用频谱倾斜受控式帧计算带宽扩展数据的设备及方法”
[2]D.Ruinskiy和N.Dadush和Y.Lavner,“用于摩擦音及破擦音的自动侦测的基于频谱及纹理特征的系统”,在以色列的IEEE第26届电子电机工程师大会(IEEEI),第771-775页,2010。
[3]H.Fujihara和M.Goto,“三种用于改进音乐与歌词之间的自动同步化的技术:摩擦音侦测、填充模型,和用于声带活动侦测的新特征向量”,关于音频、语音及信号处理的IEEE国际大会,芝加哥,美国,2008。
Claims (27)
1.一种基于输入音频信息提供编码音频信息的音频编码器,所述音频编码器包括:
带宽扩展信息提供器,配置为使用可变时间分辨率提供带宽扩展信息;
侦测器,配置为侦测摩擦音或破擦音的起始段;
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
2.根据权利要求1所述的音频编码器,其中,所述音频编码器配置为响应于所述侦测到摩擦音或破擦音的所述起始段,从用于提供所述带宽扩展信息的第一时间分辨率切换至用于提供所述带宽扩展信息的第二时间分辨率,
其中,所述第二时间分辨率高于所述第一时间分辨率。
3.根据权利要求1所述的音频编码器,其中,所述带宽扩展信息提供器配置为提供所述带宽扩展信息,以使得所述带宽扩展信息与具有相等时间长度的时间上规则的时间间隔相关联,
其中,所述带宽扩展信息提供器配置为如果使用第一时间分辨率,则针对具有给定时间长度的时间间隔提供带宽扩展信息的单个集合,以及
其中,所述带宽扩展信息提供器配置为如果使用第二时间分辨率,则针对具有所述给定时间长度的时间间隔提供与子时间间隔相关联的带宽扩展信息的多个集合。
4.根据权利要求3所述的音频编码器,其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得与带宽扩展信息的一个集合相关联的至少一个子时间间隔紧接在另一子时间间隔的前面,所述另一子时间间隔与带宽扩展信息的另一集合相关联且在所述另一子时间间隔期间侦测到摩擦音或破擦音的起始段,
以使得在侦测到摩擦音或破擦音的起始段的所述子时间间隔的之前的至少一个子时间间隔中使用所述提高的时间分辨率。
5.根据权利要求3所述的音频编码器,其中,所述音频编码器配置为如果针对具有给定时间长度的给定时间间隔使用提高的时间分辨率提供所述带宽扩展信息,则将具有给定时间长度的给定时间间隔细分为具有相等长度的四个子时间间隔,
以使得针对具有所述给定时间长度的所述给定时间间隔提供带宽扩展信息的四个集合。
6.根据权利要求1所述的音频编码器,
其中,所述音频编码器配置为针对具有给定时间长度的第二时间间隔的之前的具有给定时间长度的第一时间间隔,选择性地使用提高的时间分辨率提供带宽扩展信息,
如果在所述第二时间间隔内侦测到摩擦音或破擦音的起始段且若侦测到所述摩擦音或破擦音的所述起始段的时间与所述第一时间间隔与所述第二时间间隔之间的边界之间的时间距离小于预定时间距离。
7.根据权利要求6所述的音频编码器,
其中,所述音频编码器配置为执行时间先行,以使得响应于在所述第二时间间隔内侦测到摩擦音或破擦音的起始段,针对具有给定时间长度的第二时间间隔的之前的具有给定时间长度的第一时间间隔,使用提高的时间分辨率提供带宽扩展信息。
8.根据权利要求1所述的音频编码器,
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以相同的提高的时间分辨率提供带宽扩展信息。
9.根据权利要求1所述的音频编码器,
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对第一子时间间隔、第二子时间间隔及第三子时间间隔,以相同的提高的时间分辨率提供带宽扩展信息的集合,
其中,所述第一子时间间隔紧接在所述第二子时间间隔的前面;
其中,在所述第二子时间间隔内侦测到摩擦音或破擦音的起始段;以及
其中,所述第三子时间间隔紧跟在所述第二子时间间隔的后面。
10.根据权利要求1所述的音频编码器,
其中,所述侦测器配置为侦测摩擦音或破擦音的终止段;以及
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的一终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
11.根据权利要求1所述的音频编码器,其中,所述侦测器配置为评估越零率,和/或能量比,和/或频谱倾斜,以便侦测摩擦音或破擦音的起始段。
12.根据权利要求1所述的音频编码器,其中,所述侦测器配置为评估越零率,和/或能量比,和/或频谱倾斜,以便侦测摩擦音或破擦音的终止段。
13.根据权利要求1所述的音频编码器,其中,所述音频编码器配置为选择性地调整所述带宽扩展信息提供器所使用的时间分辨率,以使得仅针对语音信号部分而并非音乐信号部分,响应于侦测到摩擦音或破擦音的起始段,以提高的时间分辨率提供带宽扩展信息。
14.根据权利要求1所述的音频编码器,其中,所述音频编码器配置为响应于侦测到摩擦音或破擦音的起始段或响应于侦测到摩擦音或破擦音的终止段,针对覆盖侦测到摩擦音或破擦音的起始段的时间的多个后续时间间隔,选择性地使用提高的时间分辨率提供带宽扩展信息。
15.根据权利要求14所述的音频编码器,其中所述音频编码器配置为针对完全覆盖侦测到的摩擦音或破擦音的起始段的多个后续时间间隔,选择性地使用提高的时间分辨率提供带宽扩展信息。
16.一种基于输入音频信息提供编码音频信息的音频编码器,所述音频编码器包括:
带宽扩展信息提供器,配置为使用可变时间分辨率提供带宽扩展信息;
侦测器,配置为侦测摩擦音或破擦音的终止段;
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。
17.根据权利要求16所述的音频编码器,
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
18.一种基于一编码音频信息提供解码音频信息的音频解码器,
其中,所述音频解码器配置为基于音频编码器所提供的带宽扩展信息执行带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
19.一种基于编码音频信息提供解码音频信息的音频解码器,
其中,所述音频解码器配置为基于音频编码器所提供的带宽扩展信息执行带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
20.一种基于输入音频信息提供编码音频信息的系统,包括:
如权利要求1至17中的一项的音频编码器;以及
音频解码器,配置为接收所述音频编码器所提供的所述编码音频信息,且基于所述编码音频信息提供解码音频信息,
其中,所述音频解码器配置为基于所述音频编码器所提供的所述带宽扩展信息执行带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展,或
以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
21.一种基于输入音频信息提供编码音频信息的方法,所述方法包括:
使用可变时间分辨率提供带宽扩展信息;以及
侦测摩擦音或破擦音的起始段;
其中,用于提供所述带宽扩展信息的时间分辨率经调整以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息。
22.一种基于输入音频信息提供编码音频信息的方法,所述方法包括:
使用可变时间分辨率提供带宽扩展信息;以及
侦测摩擦音或破擦音的终止段;
其中,用于提供所述带宽扩展信息的时间分辨率经调整以使得响应于侦测到摩擦音或破擦音的终止段,以提高的时间分辨率提供带宽扩展信息。
23.一种基于编码音频信息提供解码音频信息的方法,
其中,所述方法包括基于音频编码器所提供的带宽扩展信息执行带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的起始段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述起始段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
24.一种基于编码音频信息提供解码音频信息的方法,
其中,所述方法包括基于音频编码器所提供的带宽扩展信息执行带宽扩展,
以使得至少针对侦测到摩擦音或破擦音的终止段的时间的之前的预定时间周期及针对侦测到所述摩擦音或破擦音的所述终止段的所述时间的之后的预定时间周期,以提高的时间分辨率执行所述带宽扩展。
25.一种存储有计算机程序的计算机可读存储介质,当所述计算机程序在计算机上运行时使所述计算机执行如权利要求21到24中的一项的方法。
26.一种基于输入音频信息提供编码音频信息的音频编码器,所述音频编码器包括:
带宽扩展信息提供器,配置为使用可变时间分辨率提供带宽扩展信息;
侦测器,配置为侦测摩擦音的起始段或破擦音的起始段;
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得至少针对侦测到摩擦音的起始段或破擦音的起始段的时间之前的预定时间周期及针对侦测到所述摩擦音的起始段或所述破擦音的起始段的所述时间之后的预定时间周期,以提高的时间分辨率提供带宽扩展信息;
其中,所述带宽扩展信息提供器配置为提供所述带宽扩展信息,以使得所述带宽扩展信息与具有相等时间长度的时间上规则的时间间隔相关联,
其中,所述带宽扩展信息提供器配置为如果使用第一时间分辨率,则针对具有给定时间长度的时间间隔提供带宽扩展信息的单个集合,并且
其中,所述带宽扩展信息提供器配置为如果使用第二时间分辨率,则针对具有所述给定时间长度的时间间隔提供与子时间间隔相关联的带宽扩展信息的多个集合;
其中,所述音频编码器配置为调整所述带宽扩展信息提供器所使用的时间分辨率,以使得与带宽扩展信息的一个集合相关联的至少一个子时间间隔紧接在另一子时间间隔的前面,其中,在所述另一子时间间隔期间侦测到摩擦音的起始段或破擦音的起始段,
以使得在侦测到摩擦音的起始段或破擦音的起始段的所述另一子时间间隔之前的至少一个子时间间隔中,使用所述提高的时间分辨率;
其中,所述带宽扩展信息的另一集合与所述另一子时间间隔相关联。
27.一种基于输入音频信息提供编码音频信息的方法,所述方法包括:
使用可变时间分辨率提供带宽扩展信息;以及
侦测摩擦音的起始段或破擦音的起始段;
其中,调整用于提供所述带宽扩展信息的时间分辨率,以使得至少针对侦测到摩擦音的起始段或破擦音的起始段的时间之前的预定时间周期及针对侦测到所述摩擦音的起始段或所述破擦音的起始段的所述时间之后的预定时间周期,以提高的时间分辨率提供所述带宽扩展信息;
其中,提供所述带宽扩展信息,以使得所述带宽扩展信息与具有相等时间长度的时间上规则的时间间隔相关联,
其中,如果使用第一时间分辨率,则针对具有给定时间长度的时间间隔提供带宽扩展信息的单个集合,并且
其中,如果使用第二时间分辨率,则针对具有所述给定时间长度的时间间隔提供与子时间间隔相关联的带宽扩展信息的多个集合;
其中,调整所使用的时间分辨率,以使得与带宽扩展信息的一个集合相关联的至少一个子时间间隔紧接在另一子时间间隔的前面,其中,在所述另一子时间间隔期间侦测到摩擦音的起始段或破擦音的起始段,
以使得在侦测到摩擦音的起始段或破擦音的起始段的所述另一子时间间隔的之前的至少一个子时间间隔中,使用所述提高的时间分辨率;
其中,所述带宽扩展信息的另一集合与所述另一子时间间隔相关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955621.8A CN110853667B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758078P | 2013-01-29 | 2013-01-29 | |
US61/758,078 | 2013-01-29 | ||
CN201910955621.8A CN110853667B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器 |
CN201480018073.1A CN105190748B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、系统、方法及存储介质 |
PCT/EP2014/051635 WO2014118179A1 (en) | 2013-01-29 | 2014-01-28 | Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480018073.1A Division CN105190748B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、系统、方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853667A CN110853667A (zh) | 2020-02-28 |
CN110853667B true CN110853667B (zh) | 2023-10-27 |
Family
ID=50033506
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910955621.8A Active CN110853667B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器 |
CN201480018073.1A Active CN105190748B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、系统、方法及存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480018073.1A Active CN105190748B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、系统、方法及存储介质 |
Country Status (18)
Country | Link |
---|---|
US (2) | US10438596B2 (zh) |
EP (4) | EP4336501A3 (zh) |
JP (1) | JP6218855B2 (zh) |
KR (1) | KR101804649B1 (zh) |
CN (2) | CN110853667B (zh) |
AR (1) | AR094674A1 (zh) |
AU (1) | AU2014211474B2 (zh) |
BR (1) | BR112015018019B1 (zh) |
CA (2) | CA2899540C (zh) |
ES (2) | ES2659001T3 (zh) |
HK (2) | HK1218178A1 (zh) |
MX (1) | MX348916B (zh) |
PL (2) | PL3279894T3 (zh) |
PT (2) | PT2951815T (zh) |
RU (1) | RU2651425C2 (zh) |
SG (1) | SG11201505920RA (zh) |
TW (1) | TWI544480B (zh) |
WO (1) | WO2014118179A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924683B (zh) * | 2015-10-15 | 2021-03-30 | 华为技术有限公司 | 正弦编码和解码的方法和装置 |
US10157621B2 (en) * | 2016-03-18 | 2018-12-18 | Qualcomm Incorporated | Audio signal decoding |
KR102632136B1 (ko) * | 2017-04-28 | 2024-01-31 | 디티에스, 인코포레이티드 | 오디오 코더 윈도우 사이즈 및 시간-주파수 변환 |
EP4095855B1 (en) | 2018-01-17 | 2023-10-04 | Nippon Telegraph And Telephone Corporation | Decoding apparatus, encoding apparatus, and methods and programs therefor |
CN111602196B (zh) * | 2018-01-17 | 2023-08-04 | 日本电信电话株式会社 | 编码装置、解码装置、它们的方法及计算机可读记录介质 |
US11575407B2 (en) | 2020-04-27 | 2023-02-07 | Parsons Corporation | Narrowband IQ signal obfuscation |
WO2021261235A1 (ja) * | 2020-06-22 | 2021-12-30 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
US11849347B2 (en) | 2021-01-05 | 2023-12-19 | Parsons Corporation | Time axis correlation of pulsed electromagnetic transmissions |
WO2022150804A1 (en) * | 2021-01-05 | 2022-07-14 | Parsons Corporation | Method and system for time axis correlation of pulsed electromagnetic transmissions |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1156303A (zh) * | 1995-10-26 | 1997-08-06 | 索尼公司 | 语音编码方法和装置以及语音解码方法和装置 |
CN1185616A (zh) * | 1996-10-24 | 1998-06-24 | 索尼公司 | 音频带宽扩展系统和方法 |
CN1735926A (zh) * | 2003-01-10 | 2006-02-15 | 诺基亚有限公司 | 语音处理中用于人工扩展带宽的方法和设备 |
CN1742322A (zh) * | 2003-01-24 | 2006-03-01 | 索尼爱立信移动通讯股份有限公司 | 噪声减小和视听语音活动检测 |
CN1757060A (zh) * | 2003-03-15 | 2006-04-05 | 曼德斯必德技术公司 | Celp语音编码的话音指数控制 |
CN1985304A (zh) * | 2004-05-25 | 2007-06-20 | 诺基亚公司 | 用于增强型人工带宽扩展的系统和方法 |
CN101061535A (zh) * | 2005-07-13 | 2007-10-24 | 西门子公司 | 用于人工扩展语音信号的带宽的方法和装置 |
CN101141533A (zh) * | 2006-08-22 | 2008-03-12 | 哈曼贝克自动系统股份有限公司 | 用于提供具有扩展带宽的声音信号的方法和系统 |
CN101461146A (zh) * | 2004-03-26 | 2009-06-17 | 诺基亚公司 | 联网便携设备中的特征提取 |
CN101836253A (zh) * | 2008-07-11 | 2010-09-15 | 弗劳恩霍夫应用研究促进协会 | 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法 |
CN102089814A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
SE9903552D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
US7895034B2 (en) | 2004-09-17 | 2011-02-22 | Digital Rise Technology Co., Ltd. | Audio encoding system |
US8744862B2 (en) * | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
PL2186090T3 (pl) * | 2007-08-27 | 2017-06-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Detektor stanów przejściowych i sposób wspierający kodowanie sygnału audio |
US8373338B2 (en) | 2008-10-22 | 2013-02-12 | General Electric Company | Enhanced color contrast light source at elevated color temperatures |
KR101345695B1 (ko) * | 2008-07-11 | 2013-12-30 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법 |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
WO2010036061A2 (en) * | 2008-09-25 | 2010-04-01 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
KR101403115B1 (ko) * | 2008-10-08 | 2014-06-27 | 보이세지 코포레이션 | 다중 분해능 스위치드 오디오 부호화/복호화 방법 및 부호화/복호화기 |
CN101751926B (zh) * | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
KR101341115B1 (ko) * | 2009-10-21 | 2013-12-13 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 적응식 오버샘플링을 사용하는 고주파수 오디오 신호를 발생시키기 위한 장치 및 방법 |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
CN102419977B (zh) * | 2011-01-14 | 2013-10-02 | 展讯通信(上海)有限公司 | 瞬态音频信号的判别方法 |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
-
2014
- 2014-01-28 ES ES14702516.7T patent/ES2659001T3/es active Active
- 2014-01-28 JP JP2015554198A patent/JP6218855B2/ja active Active
- 2014-01-28 PL PL17191504T patent/PL3279894T3/pl unknown
- 2014-01-28 EP EP24153288.6A patent/EP4336501A3/en active Pending
- 2014-01-28 SG SG11201505920RA patent/SG11201505920RA/en unknown
- 2014-01-28 CA CA2899540A patent/CA2899540C/en active Active
- 2014-01-28 PT PT147025167T patent/PT2951815T/pt unknown
- 2014-01-28 PL PL14702516T patent/PL2951815T3/pl unknown
- 2014-01-28 AU AU2014211474A patent/AU2014211474B2/en active Active
- 2014-01-28 EP EP17191504.4A patent/EP3279894B1/en active Active
- 2014-01-28 CN CN201910955621.8A patent/CN110853667B/zh active Active
- 2014-01-28 KR KR1020157023517A patent/KR101804649B1/ko active IP Right Grant
- 2014-01-28 RU RU2015136773A patent/RU2651425C2/ru active
- 2014-01-28 MX MX2015009754A patent/MX348916B/es active IP Right Grant
- 2014-01-28 EP EP20159123.7A patent/EP3680899B1/en active Active
- 2014-01-28 EP EP14702516.7A patent/EP2951815B1/en active Active
- 2014-01-28 ES ES17191504T patent/ES2790733T3/es active Active
- 2014-01-28 CN CN201480018073.1A patent/CN105190748B/zh active Active
- 2014-01-28 WO PCT/EP2014/051635 patent/WO2014118179A1/en active Application Filing
- 2014-01-28 CA CA2961336A patent/CA2961336C/en active Active
- 2014-01-28 PT PT171915044T patent/PT3279894T/pt unknown
- 2014-01-28 BR BR112015018019-1A patent/BR112015018019B1/pt active IP Right Grant
- 2014-01-29 TW TW103103526A patent/TWI544480B/zh active
- 2014-01-29 AR ARP140100290A patent/AR094674A1/es active IP Right Grant
-
2015
- 2015-07-29 US US14/812,636 patent/US10438596B2/en active Active
-
2016
- 2016-05-27 HK HK16106049.0A patent/HK1218178A1/zh unknown
-
2018
- 2018-08-03 HK HK18110014.1A patent/HK1250834A1/zh unknown
-
2019
- 2019-08-12 US US16/538,500 patent/US11205434B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1156303A (zh) * | 1995-10-26 | 1997-08-06 | 索尼公司 | 语音编码方法和装置以及语音解码方法和装置 |
CN1185616A (zh) * | 1996-10-24 | 1998-06-24 | 索尼公司 | 音频带宽扩展系统和方法 |
CN1735926A (zh) * | 2003-01-10 | 2006-02-15 | 诺基亚有限公司 | 语音处理中用于人工扩展带宽的方法和设备 |
CN1742322A (zh) * | 2003-01-24 | 2006-03-01 | 索尼爱立信移动通讯股份有限公司 | 噪声减小和视听语音活动检测 |
CN1757060A (zh) * | 2003-03-15 | 2006-04-05 | 曼德斯必德技术公司 | Celp语音编码的话音指数控制 |
CN101461146A (zh) * | 2004-03-26 | 2009-06-17 | 诺基亚公司 | 联网便携设备中的特征提取 |
CN1985304A (zh) * | 2004-05-25 | 2007-06-20 | 诺基亚公司 | 用于增强型人工带宽扩展的系统和方法 |
CN101061535A (zh) * | 2005-07-13 | 2007-10-24 | 西门子公司 | 用于人工扩展语音信号的带宽的方法和装置 |
CN101676993A (zh) * | 2005-07-13 | 2010-03-24 | 西门子公司 | 用于人工扩展语音信号的带宽的方法和装置 |
CN101141533A (zh) * | 2006-08-22 | 2008-03-12 | 哈曼贝克自动系统股份有限公司 | 用于提供具有扩展带宽的声音信号的方法和系统 |
CN101836253A (zh) * | 2008-07-11 | 2010-09-15 | 弗劳恩霍夫应用研究促进协会 | 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法 |
CN102089814A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853667B (zh) | 音频编码器 | |
US10381012B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
EP3355305B1 (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
EP2124224A1 (en) | A method and an apparatus for processing an audio signal | |
RU2676870C1 (ru) | Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора | |
CN112037804B (zh) | 使用噪声填充的音频编码器、解码器、编码及解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |