CN102257564A - 音频编码装置、解码装置、方法、电路及程序 - Google Patents
音频编码装置、解码装置、方法、电路及程序 Download PDFInfo
- Publication number
- CN102257564A CN102257564A CN2010800036592A CN201080003659A CN102257564A CN 102257564 A CN102257564 A CN 102257564A CN 2010800036592 A CN2010800036592 A CN 2010800036592A CN 201080003659 A CN201080003659 A CN 201080003659A CN 102257564 A CN102257564 A CN 102257564A
- Authority
- CN
- China
- Prior art keywords
- fundamental tone
- parameter
- coding
- ratio
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000008859 change Effects 0.000 claims abstract description 70
- 230000005236 sound signal Effects 0.000 claims description 97
- 238000012545 processing Methods 0.000 claims description 58
- 230000014509 gene expression Effects 0.000 claims description 57
- 238000001514 detection method Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000002441 reversible effect Effects 0.000 description 49
- 230000036961 partial effect Effects 0.000 description 26
- 230000007704 transition Effects 0.000 description 17
- 230000009471 action Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 244000287680 Garcinia dulcis Species 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种编码装置(1),由以下部分构成:检测信息的基音轮廓分析部(101);动态时间规整部(102),根据检测到的所述信息,生成基音变化比(Tw_ratio:),该基音变化比的定义域的范围是包括范围(86a)在内的范围(86),该范围(86a)的基音变化比的音分数(cent)的绝对值为42以上;第1可逆编码部(103),对所生成的基音参数(102x)进行编码;时间规整部(104),按照所述信息使信号的基音移动;第2编码器,对进行移动后的信号进行编码(104x)。
Description
技术领域
本发明大致涉及变换音频编码系统,尤其涉及使用时间规整(time warp)技术对输入音频信号的基音频率(pitch frequency)进行移动(shift),由此提高编码效率和音质的变换音频编码系统。另外,该音频编码系统不仅适用于音频,也能够适用于语音信号,能够在手机和电话电视会议中使用。
背景技术
变换编码技术是为了高效率地对音频信号进行编码而设计的。在人们的讲话中,信号的基本频率在时刻变化着。因此,语音信号的能量在较宽的频带中扩散。并且,尤其是在低比特率时,利用变换编解码器对基音变化的语音信号进行编码是低效率的。另外,例如在现有技术[3]、[4]中,采用时间规整技术来弥补基音变化的影响。
图10是表示对基本频率进行移动的概念的示例的图。
时间规整技术被用来实现基音移动。图10的(a)栏的频谱是原来的频谱,图10的(b)栏的频谱是进行基音移动后的频谱。
在图10的(b)栏中,基本频率从200Hz移动到100Hz。这样,将下一帧的基音移动成为与在前帧的基音一致,由此使基音变稳定。
图11是表示进行基音移动后的频谱的图。
因此,信号能量按照图11所示进行集中。
图11的(a)栏的信号是扫频(sweep)信号。并且,图11的(b)栏的信号是进行基音移动后的信号,(b)栏中的基音成为固定基音。
另一方面,图11的(c)栏的两个频谱是指信号(a)和信号(b)的频谱。在图11的(c)栏中表示信号(b)的能量被限制在狭小频带中。
在此,上述的基音移动是使用重采样(re-sampling)方法实现的。为了维持稳定的基音,重采样率按照基音变化率而变化。并且,通过适用基音跟踪算法,能够得到输入帧的基音轮廓。
图8是说明1音频帧的分段的图。
如图8所示,帧被分段成为基音跟踪用的较小的区段。另外,此时的邻接区段可以重叠。即,例如在至少一个组合中,该组合中的相互邻接的两个区段中的一个区段(的一部分)可以与另一个区段(的一部分)重叠。
并且,目前作为现有示例有基于自相关的基音跟踪算法[1]、和基于频域的基音检测方法[2]。
各个区段具有与该区段对应的基音值。
图15是表示基音轮廓的计算的处理的图。
图15的(a)栏的信号是具有随时间而变化的基音的信号。从信号的1区段计算出一个基音值。基音轮廓是指基音值的链。
在进行时间规整的期间,重采样率与基音变化率成比例。
基音变化信息是从基音轮廓中抽取的。
另外,在测定该基音变化率时频繁使用音分和半音。
图12是表示音分(cent)和半音的长度的图。音分是根据邻接基音的基音比(pitch ratio)计算得到的。
[数式1]
按照基音变化率,对时域信号进行重采样。其它区段的基音被移动成参照基音,并得到稳定的基音。例如,如果下一个区段的基音比在前基音高,则与这两个基音之间的音分的差分成比例地设定更低的重采样率。否则,采样率必须更高。
另外,在此假设为能够调整声音再现速度的记录再现装置,通过降低高音的声音的再现速度,将音域移动到低频。这和与基音变化率成比例地对信号进行重采样的概念相似。
图13和图14表示采用时间规整方式的编码系统。
图13是编码器(编码器13A)的时间规整的框图。
图14是解码器(解码器14A)的时间规整的框图。
在进行变换编码之前,时域信号被实施时间规整。在解码器的逆时间规整中需要基音信息。因此,基音比必须通过编码器进行编码。
并且,在现有技术中,在进行这些基音比信息的编码时使用较小的固定表。在进行基音比的编码时使用较小的比特。但是,在信号的基音变化率较大时,较小的表具有界限,使得时间规整的性能下降。
但是,在使用较大的表时采用更多的比特,为了变换编码,不会留下足够的比特,因而音质也下降。目前,采用固定表的时间规整的效果是有限的。
另外,上述的处理(编码等)如在后面详细说明的那样,例如是与预计将会在未来制定的、ISO(International Organization for Standardization:国际标准化组织)等标准中的处理相同的处理。
现有技术文献
非专利文献1:[1]Milan Jelinek,“Wideband Speech Coding Advances inVMR-WB Standard”,IEEE Transactions on Audio,Speech and LanguageProcessing,Vo1.15,No.4 2007年5月
非专利文献2:[2]Xuejing Sun,“Pitch Detection and Voice QualityAnalysis Using Subharmonic-to-Harmonic Ratio”,IEEE ICASSP,333-336,Orlando 2002年
非专利文献3:[3]Bemd Edler,“A Time-warpped MDCT Approach ToSpeech Transform Coding”,AES 126th Convention,Munich,Germany 2000年5月
专利文献
专利文献1:[4]美国专利申请公开第2008/0004869(A1)号说明书(Juergen Herre,“Audio Encoder,Audio Decoder and Audio Processor Havinga Dynamically Variable Warping Characteristic”)
发明概要
发明要解决的技术问题
采用时间规整的动机是为了稳定1帧内的基音,实现编码效率的改善。时间规整在某种程度上依赖于基音跟踪的精度。
但是,基音轮廓检测的问题在于,由于信号的振幅和轨迹的变化而产生困难。即,为了改善基音检测精度,而导入了诸如平滑化、微调阈值参数这样的几个后处理方式,但这些方式要基于确定的数据库。
如果根据不准确的基音轮廓来采用时间规整,将使得音质下降,在发送时间规整信息时使用的比特成为浪费。因此,需要设计不将检测到的基音轮廓没有区分地作为指针的时间规整。
目前,现有技术的时间规整中,作为在过去就能够利用的技术,缺少对基音轮廓信息进行编码的有效方法。
在此,在现有技术中,为了表现基音轮廓,而采用了固定表。
并且,在基音大幅变化的情况下,较小的表就显得不够,而更大的表则需要使用更大的比特。因此,尤其是在低比特率的编码中存在成本升高的可能性。这是在发送时间规整参数时通过使用比特来改善编码效率的代价。
发明内容
因此,如果有更高效地对时间规整参数进行编码的方法,则能够将节约的比特用于变换编码中,因而能够提高音质,而且能够应对基音变化较大的信号。
将时间规整方式导入变换编码系统的简单方法是将时间规整方式直接与变换编码联系起来。在现有技术中,时间规整方式相对于变换编码是独立的。时间规整的目的在于提高变换编码的效率,所以从变换编码系统采用某种编码信息将有助于时间规整。目前采用时间规整的变换编码构造还需要改善。
另外,本发明的其它目的包括提供使基音变化比(参照图18的比值88)的定义域(変域)形成为合适的定义域(参照范围86)的编码装置、解码装置等。另外,其它目的包括提供一种编码装置等,能够在范围更宽的定义域的基音变化比(参照图18的比值88)时进行合适的处理,并且音质提高。另外,其它目的包括提供一种编码装置等,能够减小对基音(参照图16的基音822、比值83、图18的比值88等)进行编码得到的代码(参照图18的代码90)的数据(参照图22的数据90L)的数据量(例如平均量等)。另外,其它目的包括提供一种编码装置等,能够进行将会在未来制定的ISO等标准的处理,而且是进行比较合适的处理。
用于解决问题的手段
本发明的编码装置具有:基音检测器,检测输入音频信号的基音轮廓信息;基音参数产生器,根据检测到的所述基音轮廓信息,生成包括基音变化比(Tw_ratio、Tw_ratio_index:图18)的基音参数,该基音变化比(参照图18的Tw_ratio)的定义域(参照范围86)是包括如下范围(范围86a)在内的范围(范围86)的定义域(范围86),该范围(参照范围86a)的基音变化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)的音分数(cent:60、50、-40、-50、-60)的绝对值为42以上;第1编码器,对所生成的所述基音参数进行编码;基音移动器,按照所述基音轮廓信息,对所述输入音频信号的基音频率进行移动;第2编码器,对从所述基音移动器输出的已进行移动的音频信号进行编码;以及复用器,将从所述第1编码器输出的编码基音参数、和从所述第2编码器输出的对从所述基音移动器输出的所述音频信号进行编码而得到的数据进行组合,由此生成包括所述编码基音参数和该数据的比特流。
即,具体地讲,构成为下述的编码装置,在所述基音参数(参照图18的比值88)是绝对值比较小的音分数(参照图18的cent)的基音变化比的基音参数(参照比值88a)的情况下,所述第1编码器将该基音参数编码成为代码长度比较短的代码的编码基音参数(参照代码90a),在所述基音参数(参照图18的比值88)是绝对值比较大的音分数的基音变化比的基音参数(参照比值88b)的情况下,所述第1编码器将该基音参数编码成为代码长度比较长的代码的编码基音参数(参照代码90b)。
本发明的解码装置是对比特流进行解码的解码装置,该比特流包括已进行基音移动的音频信号的编码数据、和编码基音参数信息,该解码装置具有:解复用器,从要进行解码的所述比特流中,将该比特流中包含的所述编码数据和所述编码基音参数信息分别分离出来;第1解码器,根据分离出来的所述编码基音参数信息,生成包括基音变化比(Tw_ratio、Tw_ratio_index:图18)的解码基音参数,该基音变化比(参照图18的Tw_ratio)的定义域(参照范围86)是包括如下范围(范围86a)在内的范围(范围86)的定义域(范围86),该范围(范围86a)的基音变化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)的音分数(cent:60、50、-40、-50、-60)的绝对值为42以上;基音轮廓重建器,按照所生成的所述解码基音参数,将基音轮廓信息复原;第2解码器,对分离出来的所述编码数据进行解码,并生成已进行基音移动的所述音频信号;以及音频信号重建器,按照作为被复原后的所述基音轮廓信息的重建基音轮廓信息,将已进行基音移动的所述音频信号变换为原来的音频信号。
即,具体地讲,构成为下述的解码装置,在分离出来的所述编码基音参数信息是代码长度比较短的代码的编码基音参数信息的情况下,所述第1解码器将该编码基音参数信息解码成为绝对值比较小的音分数的基音变化比的基音参数,在分离出来的所述编码基音参数信息是代码长度比较长的代码的编码基音参数信息的情况下,所述第1解码器将该编码基音参数信息解码成为绝对值比较大的音分数的基音变化比的基音参数。
这样,也可以构成例如包括编码装置和解码装置的如下所述的信号处理系统(请同时参照实施方式的开头部分的说明等)。
即,在该信号处理系统中,所述编码装置是这样一种编码装置:所述基音移动器从第1信号生成该第1信号的基音被移动成为预先设定的基音的第2信号,所述第2编码器将所生成的所述第2信号编码成为第3信号,所述基音参数产生器计算用于确定进行移动前的所述第1信号的所述基音的基音变化比,所述第1编码器将所计算出的该基音变化比编码成为代码。
并且,所述解码装置是这样一种解码装置:所述第2解码器将所述第3信号解码成为所述第2信号,该第3信号是对从所述第1信号生成的、对将该第1信号的所述基音移动成为所述预先设定的基音后的所述第2信号进行编码而得到的,所述音频信号重建器从被解码后的所述第2信号生成所述第1信号,所述第1解码器将所述代码解码成为所述基音变化比,所述基音轮廓重建器计算利用被解码后的所述基音变化比确定的、生成该基音的所述第1信号的所述基音。
并且,关于所述基音变化比被实施编码再被解码成为该基音变化比的所述代码,在与该代码对应的所述基音变化比是相对于0音分的音程的差的两个基音之间的基音变化比具有较小差的第1基音变化比的情况下,所述代码是代码长度比较短的第1代码,在与该代码对应的所述基音变化比是相对于0音分的音程的差的两个基音之间的基音变化比具有较大差的第2基音变化比的情况下,所述代码是代码长度比较长的第2代码。
并且,关于对被实施移动后的所述第2信号进行编码得到的所述第3信号,由所述编码装置生成该第3信号、并由所述解码装置对其进行解码的动作只在下述情况下进行,即,只在进行移动前的所述第1信号的所述基音的所述基音变化比相对于0音分的所述基音变化比所具有的差为阈值以下的情况时进行,在该差大于所述阈值的情况下不进行上述动作,该阈值不是小于42音分的音程的值,而是42音分以上的较大音程的值。
即,如在上述说明的问题中叙述的那样,如果基音轮廓不正确,则有可能招致进行时间规整后的音质的下降。
因此,为了解决该问题,提出了动态时间规整方式。该动态时间规整方式是也考虑了谐音构造的时间规整方式。
在进行时间规整的期间,谐音与基音移动一起被修正,因而需要考虑在进行时间规整的期间的信号的谐音构造。
因此,所提出的谐音时间规整方式根据谐音构造的分析来修正基音轮廓,并且考虑在进行时间规整的期间的谐音构造,由此改善音质。
所提出的动态时间规整通过将进行时间规整前后的谐音构造进行对比,来评价时间规整的效率,并确定是否对对象帧采用时间规整。这将消除由于不正确的基音轮廓而带来的不准确性。
在现有技术中,对基音轮廓信息不进行压缩,而是直接发送给解码器。本发明提出了在动态时间规整中更高效地对时间规整参数进行编码的方法。可知为了进行时间规整,在对基音轮廓进行统计上的分析后,在信号帧内,只在基音发生变化的极少的位置将时间规整设为有效。
因此,如果只对采用了时间规整的部分的信息进行编码,效率将更高。
并且,由于基音变化值产生的概率不一样,所以在进行时间规整参数的编码时采用可逆编码,由此能够节约比特。
在所提出的动态时间规整中采用适用时间规整的位置的信息、和该位置的时间规整值。如在现有技术中记述的那样,使用固定表对基音轮廓整体进行编码,由此本发明节约了比特。
所提出的动态时间规整还与较宽范围的时间规整值对应。另外,所说对应是指能够进行适当的动作。所节约的比特将在进行变换编码时使用,而且利用较宽范围的时间规整值来改善音质。
另一方面,在许多的变换编码系统中,在进行立体声音频信号的编码时使用MS立体声模式(Mid Side Stereo Mode:中侧立体声模式)。本发明提出了通过使用来自变换编码系统的MS模式信息来改善时间规整的性能的新结构。在左右的声道具有相互类似的特性时,如果左右的信号采用相同的时间规整参数,则效率更高。在左右的声道大不相同时,如果共用时间规整,则编码效率有时会下降。因此,在本发明所提出的变换编码结构的时间规整中导入MS模式。
另外,例如也可以构成为如下所述的解码装置:对于由该解码装置接收的所述比特流(参照比特流106x、205i等),所述音频信号重建器只对一个帧(参照图16的帧84F)中的多个位置(参照区段841~84M)之中的该基音变化位置(参照图9的位置704p)的信号进行时间规整(基音移动),其它位置的信号包括用于确定未实施时间规整的基音变化位置(参照位置704p)的位置信息(数据102m:图9)。
发明效果
在本发明中说明的时间规整方式中,根据对音频信号的谐音构造进行分析得到的信息来修正基音轮廓,将时间规整处理前后的谐音构造进行比较,由此评价时间规整的效率。据此,确定是否应该对对象音频帧运用时间规整。通过该处理,能够防止由于检测到的基音轮廓信息的不正确性而带来的音质变差,能够提高音质。另外,在本发明的时间规整技术中,通过采用来自变换编码的MS立体声模式信息,能够改善音质和音频编码系统的编码效率。
基音变化比(参照图18的比值88)的定义域形成为合适的定义域(参照范围86)。
在更宽范围的定义域的基音变化比(参照图18的比值88)时进行合适的处理,能够提高音质。
能够减小对基音(参照图16的基音822、比值83、图18的比值88等)进行编码得到的代码(参照图18的代码90)的数据量(例如数据量的平均等)。
附图说明
图1是采用动态时间规整的编码器的框图。
图2是采用动态时间规整的解码器的框图。
图3是使用变更后的动态时间规整解码器的解码器的框图。
图4是采用使用MS模式的动态时间规整的编码器的框图。
图5是采用使用MS模式的动态时间规整的解码器的框图。
图6是使用MS模式并采用变更后的动态时间规整的编码器的框图。
图7是采用闭环动态时间规整的编码器的框图。
图8是说明1音频帧的分段的图。
图9是说明矢量C的计算的图。
图10是说明基音移动的图。
图11是基音移动后的频谱。
图12是说明音分和半音的图。
图13是编码器的时间规整的框图。
图14是解码器的时间规整的框图。
图15是说明基音轮廓的计算的图。
图16是基于对数刻度的频谱。
图17是说明采用谐音的基音移动的图。
图18是表示表的图。
图19是表示现有示例的表的图。
图20是表示编码装置和解码装置的图。
图21是表示处理的流程的流程图。
图22是表示现有示例和本装置各自的数据的图。
具体实施方式
下面,参照说明来说明用于实施本发明的方式。
设于实施方式的系统(图20的系统2S)中的实施方式的编码装置(编码装置1)是这样一种编码装置(编码装置1),该编码装置具有:基音检测器(基音轮廓分析块(基音轮廓分析部)101),检测输入音频信号(信号101i(图1):参照图11的信号811)的(确定该信号的基音(例如基音822(图15))的)基音轮廓信息(信息(基音)101x、基音822(图15));基音参数产生器(动态时间规整块102),根据检测到的所述基音轮廓信息(信息101x),生成包括基音变化比(Tw_ratio:图18)的基音参数(参数(基音变化比)102x、比值88(图18)),该基音变化比(Tw_ratio(图18)、比值83(图15)、比值88(图18))的定义域(范围86:图18)为包括如下范围(范围86a)在内的范围(范围86)的定义域(范围86),该范围(范围86a)的基音变化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)的音分数(cent:60、50、-40、-50、-60)的绝对值为42以上;第1编码器(可逆编码部103),对所生成的所述基音参数(参数102x)进行编码(使其成为代码90(图18));基音移动器(时间规整块104),按照所述基音信息轮廓(信息(基音)101x、基音822),对所述输入音频信号(信号(第1信号)101i)的基音频率(基音822:图15)进行移动(使其成为参照基音82r(图15));第2编码器(变换编码器块105),对从所述基音移动器输出的已进行移动的音频信号(第2信号104x)进行编码(使其成为已被编码的第3信号150x);以及复用器(复用器块(复用器电路)106),将从所述第1编码器(可逆编码块103)输出的编码基音参数(参数103x、代码90)、和从所述第2编码器(变换编码器块105)输出的已对从所述基音移动器输出的所述音频信号(信号(第2信号)104x)进行编码后的数据(第3信号105x)进行组合,由此生成包括所述编码基音参数和该数据的比特流(流106x)。
另外,1音分例如是指构成半音的100个音分的音程90j(图12)的百分之一的音程(两个基音(参照图15的两个基音821、822)之间的差分),换言之,是指1个八度(octave)的音程的一千二百分之一的音程。
另外,例如所生成的基音参数可以整体是基音变化比,也可以一部分基音参数是基音变化比。并且,一部分基音参数等是基音变化比的这种基音参数,可以是所生成的多个基音参数中的一个基音参数。
即,例如构成为下述的编码装置(编码装置1),在所述基音参数(比值88)是比较小的绝对值(0)的音分数(±0:参照图18的cent)的(音程宽度的两个基音(参照基音821、822(图15)的)基音变化比(例如1.0)的基音参数(比值88a)的情况下,所述第1编码器(可逆编码器103)将该基音参数(参数102x(图1)、比值88(图18))编码成为代码长度(长度1:参照图18的比特)比较短的代码(代码90a:“0”)的编码基音参数(代码90a),在所述基音参数(比值88)是比较大的绝对值(50)的音分数(+50)的基音变化比(1.0293:代码88b)的基音参数(代码88b)的情况下,所述第1编码器(可逆编码器103)将该基音参数编码成为代码长度(长度6:“111100”)比较长的代码(代码90b:“111100”)的编码基音参数(代码90b)。
并且,实施方式的解码装置(图2中的解码装置2)是对比特流(流205i(流106x))进行解码的解码装置(解码装置2),该比特流包括已进行基音移动的音频信号(第2信号203ib:图2)的编码数据(第3信号)204i、和编码基音参数信息(参数201i、代码90),该解码装置是这样一种解码装置(解码装置2),即该解码装置具有:解复用器(复用器块205),从要进行解码的所述比特流(流205i)中,将该比特流中包含的所述编码数据(图2中的第3信号204i(图1中的第3信号105x))和所述编码基音参数信息(参数201i、代码90)分别分离出来;第1解码器(可逆解码块201),根据分离出来的所述编码基音参数信息(参数201i、代码90),生成包括基音变化比(比值88、Tw_ratio_index、Tw_ratio:图18)的解码基音参数(参数202i、代码90),该基音变化比(比值88、Tw_ratio_index、Tw_ratio:图18)的定义域(范围86)为包括如下范围(范围86a)在内的范围(范围86)的定义域(范围86),该范围(86a)的基音变化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)的音分数(cent:60、50、-40、-50、-60)的绝对值为42以上;基音轮廓重建器(动态时间规整重建块202),按照所生成的所述解码基音参数(参数202i、代码90),将基音轮廓信息(信息203ia、基音822)复原;第2解码器(变换解码器块204),对分离出来的所述编码数据(信号204i、第3信号204i)进行解码,并生成已进行基音移动的所述音频信号(信号(第2信号)203ib);以及音频信号重建器(时间规整块203),按照被复原后的所述基音轮廓信息即重建基音轮廓信息(信息203ia、基音822),将已进行基音移动的所述音频信号(信号(第2信号)203ib)变换为(具有通过所述重建基音轮廓信息确定的基音的)原来的音频信号(第2信号203x)。
即,例如构成为下述的解码装置(解码装置2),在分离出来的所述编码基音参数信息(代码90(图18))是代码长度(长度1:参照图18的比特)比较短的代码(代码90a:“0”)的编码基音参数信息(代码90a)的情况下,所述第1解码器(可逆解码块201:图2)将该编码基音参数信息(参数201i(图2)、代码90(图18))解码成为绝对值(0)比较小的音分数(0:参照图18的cent)的基音变化比(1.0、比值88a)的基音参数(比值88a),在分离出来的所述编码基音参数信息(代码90(图18))是代码长度(代码90b,长度6:“111100”)比较长的代码(代码90b:“111100”)的编码基音参数信息(代码90b)的情况下,所述第1解码器(可逆解码块201:图2)将该编码基音参数信息(参数201i(图2)、代码90(图18))解码成为绝对值(50)比较大的音分数(50)的基音变化比(1.0293、比值88b)的基音参数(比值88b)。
即,也可以构成为例如包括编码装置(参照编码装置1(图1、图20等)、步骤S1(图21)等)和解码装置(参照解码装置2、步骤S2等)的如下所述的信号处理系统(信号处理系统2S)。
即,在该信号处理系统中,所述编码装置例如是这样一种编码装置(编码装置1:编码装置1a、1e、1f、1h、1i(图1、图3、图4、图6、图7等))等:所述基音移动器(时间规整部104)根据第1信号(第1信号101i、输入音频信号(前述):图1)生成该第1信号的基音(基音822:图15)被移动成为预先设定的基音(参照基音82r)的第2信号(第2信号104x、已实施移动的音频信号(前述)),所述第2编码器(变换编码器105)将所生成的所述第2信号(第2信号104x)编码成为第3信号(第3信号105x,对从基音移动器输出的所述音频信号进行编码得到的数据(前述)),所述基音参数产生器(基音参数生成部(动态时间规整块)102)计算用于确定进行移动前的所述第1信号(第1信号101i)的所述基音(基音822)的基音变化比(参数102x(图1)、比值88(图18)、Tw_ratio、Tw_ratio_index),所述第1编码器(可逆编码部103)将所计算的该基音变化比编码成为代码(代码90(图18)、参数(编码参数、编码基音参数)103x(图1))。
并且,所述解码装置例如是这样一种解码装置(解码装置2:解码装置2c、2g(图2、图5等))等:所述第2解码器(变换解码器204)将所述第3信号(第3信号204i(第3信号105x))解码成为所述第2信号(第2信号203ib(第2信号104x)),该第3信号是对根据所述第1信号(第1信号203x(第1信号101i))生成的、将该第1信号(第1信号203x)的所述基音(基音822:图15)移动成为所述预先设定的基音(参照基音82r)后的所述第2信号(第2信号203ib(第2信号104x))进行编码而得到的,所述音频信号重建器(时间规整部203)根据被解码后的所述第2信号(第2信号203ib)生成所述第1信号(第1信号203x),所述第1解码器(可逆解码部201)将所述代码(参数201i(参数103x)、代码90(图18))解码成为所述基音变化比(参数202i(参数102x)、比值88(比值88的序号)、Tw_ratio、Tw_ratio_index),所述基音轮廓重建器(202)计算利用被解码后的所述基音变化比(比值88)而确定的、生成该基音(基音822)的所述第1信号(第1信号203x)的所述基音(基音822)。
另外,这种信号处理系统的技术开发目前正在进行中(参照非专利文献1~4等),关于这种信号处理系统还有许多未知事项。
即,例如可以认为许多技术人员原本就不知道这种信号处理系统,还没有到达着手技术开发的阶段。
即,可以认为未来将会制定这种信号处理系统的标准(ISO(InternationalOrganization for Standardization)的标准等)。并且,可以期待在进行制定之后能够得到比较广泛的应用。
例如,该信号处理系统是未来制定的标准中的信号处理系统。
根据这种信号处理系统,例如,将已实施移动的第2信号(第2信号104x、203ib)编码成为第3信号(第3信号105x、204i),再将被编码后的第3信号解码成为该第2信号。由此,被实施从编码装置向解码装置的通信等的处理的声音的数据(第3信号)构成为数据量较小的数据等更加合适的数据。
另外,由此尽管声音的数据是这样小的数据量,但是也不需要降低音质,采用较高的音质即足以,进而能够提高音质。
而且,在计算基音变化比、并实施从第3信号进行解码得到的第2信号的移动时,进行向利用所计算出的基音变化比而确定的基音的移动,被实施移动的移动目标的基音能够可靠地成为合适的基音。
而且,对计算出的基音变化比进行编码使其成为代码,对被实施编码而得到的代码进行解码使其成为基音变化比,对于数据量小于基音变化比的数据量的代码进行通信等的处理,从而能够减小被实施处理的、基音的数据(基音变化比已被实施编码的代码(代码90))的数据量。
并且,在这种信号处理系统(编码装置1、解码装置2)中,关于所述基音变化比(比值88)被实施编码再被解码成为该基音变化比(比值88)的所述代码(代码90),在与该代码(代码90)对应的所述基音变化比(比值88)是相对于0音分的音程之差的两个基音之间的基音变化比(1.0的比值88x:图18)具有较小的差(0音分)的第1基音变化比(比值88a)的情况下,所述代码是指代码长度(长度1)比较短的第1代码(代码90a),在与该代码(代码90)对应的所述基音变化比(比值88)是相对于0音分的音程之差的两个基音之间的基音变化比(1.0的比值88x:图18)具有较大的差(50音分)的第2基音变化比(比值88b)的情况下,所述代码(代码90)是指代码长度比较长的第2代码(代码90b)。
即,发明者通过实验发现:在上述的差是较小的差的情况下,该差的基音变化比(比值88a)出现的出现频度较高,在上述的差是较大的差的情况下,该差的基音变化比(比值88b)出现的出现频度较低。
因此,也可以采用与这种差(是否接近0音分的比值8x(距离何种程度))对应的可变长度编码。由此,第3信号(信号105x、204i)的数据量减小,能够进一步充分减小被实施通信等的处理的、基音的数据(信号103x、201i)的数据量。
并且,具体地讲,例如在这种信号处理系统中,关于对已被实施移动的所述第2信号(信号104x、203i)进行编码得到的所述第3信号(第3信号204i、信号105x),由所述编码装置生成该第3信号、并由所述解码装置对其进行解码的动作(图21的S1、S2)只在下述情况下进行,即,只在进行移动前的所述第1信号(第1信号101i、203x)的所述基音(基音822)的所述基音变化比(比值88)相对于0音分的所述基音变化比(比值88x)所具有的差为阈值(图18中的max{1.0416-1=0.0416、1-0.9604=0.0396}=0.0416)以下的情况(“差”≤0.0416)时进行,在该差大于所述阈值的情况下(0.0146<“差”)不进行上述动作。
并且,例如该阈值不是小于42音分的音程的值(例如,图19的现有示例中的1.02285-1=0.02285等),而是42音分以上的较大音程的值(上述的0.0416等)。
即,这种用于切换是否进行前面叙述的动作的上述阈值,也可以是(与现有示例的阈值(参照图19中的上述“0.02285”)相比)更高的值(例如,图18中的max{1.0416-1=0.0416、1-0.9604=0.0396}=0.0416)。
即,进行前面叙述的动作的基音变化比(比值88)的范围(定义域),也可以是(相比现有示例的范围87)更大的范围86(图18)。
由此,对更大范围的定义域的基音变化比进行编码,编码得到的代码90的数据(图22的数据90L)的数据量更大。由此,能够避免被实施编码后的数据90L的数据量成为过少的数据量,例如比现有示例的利用固定长度的代码91进行编码得到的数据91L(图19)的数据量少(相当少)的数据量等,能够使数据90L的数据量成为比较接近的数据量(例如可以是相同数据量)等合适的数据量,使被实施编码后的数据量达到合适的数据量。
另外,这种例如基音变化比的定义域的范围(上述阈值)是合适的数据量即范围(阈值)等,即,由进行编码得到的代码90构成的数据(数据90L)的数据量达到与进行这种例如固定长度的编码时(现有示例)的数据(例如数据91L)的数据量比较接近的数据量等。
而且,发明者通过实验发现:基音变化比(比值88)是如下这样的基音变化比的情况(在某种程度上)很多,即:相对于前一个基音(基音821:图15)、音分数产生了(相比42音分)较大的范围86a的基音变化比的较大变化后的基音(基音822:图15)的基音变化比。
因此,即使是产生这种较大变化的基音变化比(比值88)时,该基音变化比也属于上述的更大范围的定义域(范围86),并生成第3信号105x,通过避免进行生成音质比第3信号105x的音质低的其它信号的处理等,能够提高音质。
由此,基音变化比的定义域能够成为合适的定义域,而且音质提高。
另外,这种例如图18所示的上述代码长度(长度1)较短的代码90a,是指小于42音分的范围87的基音变化比88a的代码90等。并且,例如代码长度(长度6)较长的代码90b是指42音分以上的范围86a的基音变化比88b的代码90等。
另外,与此相对,没有发现在现有示例(图19、图13、图14等)中较多地产生大于42音分的范围86a的音分数的基音变化比(参照比值88b)的情况,即,没有发现产生范围86a的基音变化比是音质降低的原因。因此,可以认为从现有示例(图19、图13、图14等)导出本技术的结构是比较困难的事情。
另外,该阈值(上述的说明中的“0.0416”)例如是属于基音变化比的定义域的范围(图18的范围86、1.0416~0.9604的范围)的各个值中、绝对值最大的音分数的值(1.0416)。即,通过这样使阈值成为较高的值(例如上述的“0.0416”),范围86不仅包含小于42的范围87(参照图19中的1.02285~0.982857),而且也包含42音分以上的范围86a(图18中的1.0416~1.0293和0.9772~0.9604的范围),能够成为更大的范围。
另外,通过这样组合进行多个处理(多个结构、多个技术特征),产生基于组合的相乘效果。
另外,被组合的多个处理的共同点是都被用作该相乘效果用的部分(部件),这些多个处理属于一个技术范围。
另一方面,在已知的现有示例(例如,参照图19、图13、图14等)中,在缺少这些多个处理中的一部分或者全部处理时,不会产生相乘效果。这一点可以认为是本发明与现有示例的不同之处。
另外,该实施方式是用于简单说明各个发明步骤的原理的方式。在此说明的具体示例的各种变形对本行业人员而言应该是很清楚的。
(第1实施方式)
在第1实施方式中提出了采用动态时间规整方式的编码装置。
图1是表示所提出的编码器(编码装置的)示例的图。
在图1中,左右的信号的1帧被发送给基音轮廓分析块即块101。并且,在101(基音轮廓分析块(基音轮廓分析部)101)中分别计算左右的声道(两个声道)的基音轮廓。即,计算各个声道的基音轮廓。另外,在此(基音轮廓分析部101)能够采用例如现有技术记载的基音轮廓检测算法。
并且,如前面叙述的图8所示,1帧被分段为M个重合的区段。在1帧内,从M个区段计算M个基音。
由块101抽取的、左右的声道的基音轮廓,被发送给动态时间规整块即块102。并且,块102根据所抽取的基音轮廓信息来生成基音参数,该基音轮廓信息包括各个音频帧中的基音变化区段信息(时间规整位置)、和与其对应的邻接区段的基音变化比(时间规整值)。下面,也把基音参数称为动态时间规整参数。
该动态时间规整参数被发送给可逆编码块即块103。可逆编码块还对时间规整值进行压缩,并生成编码时间规整参数。另外,在块103中采用例如普通的可逆编码技术。
然后,所生成的编码时间规整参数被发送给复用器(复用器块、复用器电路)即块106,并生成比特流。
动态时间规整参数被发送给时间规整块即块104。另外,在块104的处理中,例如也可以采用在现有技术中记载的技术。块104按照时间规整参数对输入信号进行重采样。关于立体声编码,按照对应的动态时间规整参数分别对左右的信号的基音进行移动(时间规整)。
进行时间规整后的信号被发送给变换编码器即块105。
编码信号及关联信息还被发送给复用器即块106。
另外,第1实施方式中的块101的输入信号不一定是立体声信号,也可以是单声道信号或者多声道信号。动态时间规整方式能够适用于所有数量的声道。
(效果)
在第1实施方式中,利用动态时间规整方式对基音轮廓进行处理,并生成动态时间规整参数。并且,所生成的动态时间规整参数表示适用时间规整的位置和该位置的时间规整值。根据本发明提出的动态时间规整方式,能够改善音质。并且也导入可逆编码,以便进一步削减在进行时间规整值的编码时使用的比特。
(第2实施方式)
在第2实施方式中,说明采用更高效地对时间规整参数进行编码的方式的动态时间规整方法。
如在记述发明要解决的技术问题的部分中说明的那样,由于信号的振幅和周期在变化着,所以基音检测成为困难的课题。即,如果在进行时间规整时直接使用基音轮廓信息,则基音轮廓的不正确性将影响到时间规整的性能。由于信号的谐音与进行时间规整时的基音移动成比例地被修正,所以需要考虑时间规整对谐音的影响。
在第2实施方式中说明的时间规整方法中,通过分析音频信号的谐音构造来修正基音轮廓,并生成更有效的动态时间规整参数。这包括三个部分。
第一,按照谐音构造来修正基音轮廓。
第二,对进行时间规整前后的谐音构造进行比较,由此评价时间规整的性能。
第三,采用更有效地表现动态时间规整参数的方式。
不是按照现有技术[3]和[4]记述的那样对基音轮廓整体进行编码,而是只对时间规整被设为有效的部位的位置信息进行编码,并通过可逆编码对该位置的时间规整值进行编码。
第一是修正基音轮廓。与第1实施方式相同地将音频帧分段为M个区段,以便进行基音计算。基音轮廓具有M个基音值(pitch1、pitch2、……pitchM)。在现有技术[3]和[4]中,将基音移动到参照基音值的附近。在进行时间规整后,得到稳定的参照基音。
在此,根据本发明所提出的动态时间规整,能够将信号的谐音移动到参照基音值的谐音附近。
图17是说明采用谐音的基音移动的图。
图17表示一例。另外,如图所示,在图17中,利用虚线(三处)示出了参照基音及各个参照基音的参照谐音。在图17中,检测到的基音与参照基音的谐音接近。并且,Δf1>Δf2表示下述的情况。即,Δf1>Δf2表示为了将检测到的基音移动为参照基音而采用更大的规整值(参照图17的Δf1),为了将检测到的基音移动为参照基音的谐音而采用更小的规整值(参照图17的Δf2)。
动态时间规整的处理能够修正基音轮廓,实现谐音成分的移动。下面详细说明该修正处理。
本发明所提出的动态时间规整将检测到的基音与参照基音的差分进行比较。
在此,下面的数2(数式2)中的pitchref表示参照基音值。并且,pitchi表示区段i的被检测到的基音值。
并且,如果pitchi>pitchref,则确认与pitchi更接近的是pitchref还是参照基音值的谐音kxpitchref。其中,k是整数,且k>1。
当存在满足下面的数式2的k的值的情况下,
[数式2]
|pitchi-pitchref|>|pitchi-k×pitchref|
值pitchi必须被移动为参照基音值的谐音即该k的值的“kxpitchref”。检测到的pitchi被修正为pitchi/2。
另一方面,如果pitchi<pitchref,则确认与pitchref更接近的是pitchi还是pitchref的谐音。如果存在满足下式的k,
[数式3]
|pitchi-pitchref|>|k×pitchi-pitchref|
pitchi的谐音必须被移动为参照基音。因此,pitchi被修正为kxpitchi。
第二是根据该修正后的基音轮廓来适用时间规整,将进行时间规整前后的谐音构造进行对比,由此评价性能。将进行时间规整前后的谐音成分之和用作第2实施方式中的性能评价基准。
区段i的基音值的谐音是按照下面所述进行计算的。
[数式4]
其中,q表示谐音成分的数。另外,在本实施方式中设q=3。并且,S(·)表示信号的频谱。并且,pitchi表示在基音轮廓pitch1、pitch2、……pitchM中检测到的基音值。
在进行时间规整后,计算谐音的和。
[数式5]
S’(·)表示进行时间规整后的信号的频谱。
在进行时间规整之前,信号由pitch1、pitch2、……pitchM的谐音构成。谐音比HR按照下面所述被定义为表示这些谐音成分之间的能量分布。
[数式6]
[数式7]
数式7由基音pitch1、pitch2、……pitchM的谐音之和构成。
在进行时间规整之后,按照下面所述计算谐音比HR’。
[数式8]
H’(pitchref)表示进行时间规整之后的参照基音的谐音之和。
[数式9]
数式9由进行时间规整之后的基音pitch1、pitch2、……pitchM的谐音之和构成。
在进行时间规整之后,可以期待能量被限制为参照基音。其它基音的能量降低。因此,可以期待HR’>HR。可以认为时间规整在HR’>HR时比较有效,对该帧采用时间规整。
在动态时间规整的第三部分中,采用有效的方式来生成动态时间规整参数。在帧内,帧中的基音变化位置不怎么多,所以能够设计分别对基音变化位置和值Δpi进行编码的有效方式。
首先,对被修正后的基音轮廓进行规范。然后,按照下面所述计算邻接的被修正后的基音的差分。
[数式10]
与现有技术[3]和[4]不同,动态时间规整不对下式所示的矢量全体进行编码,
[数式11]
而是采用矢量C来表示Δpi≠1的位置。该位置表示时间规整被设为有效的位置。只对Δpi≠1的这些时间规整值Δpi,利用可逆编码技术进行编码。
如果Δpi=1,将C(i)设定为1,否则将C(i)设定为0。矢量C的各个元素与被修正后的基音轮廓的1区段对应。
图9是说明矢量C的计算的处理的图。
图9表示矢量C的设定内容的一例。N被定义为基音变化、Δpi≠1的区段的数量。
采用动态方式对矢量C和Δpi≠1的时间规整值Δpi进行编码。并且,生成标志A来表示选择了哪个方式。
首先,确认该帧是否具有基音变化点。如果N=0,则表示没有基音变化点。标志A被设定为0,在这种情况下,只有标志A被发送给可逆编码块即块103。
如果具有一个以上的基音变化点,则必须将Δpi≠1的时间规整值Δpi和矢量C发送给解码器。
[数式12]
如果满足数式12,则意味着具有多个基音变化点,在这种情况下,直接对矢量和Δpi≠1的时间规整值Δpi进行编码比较有效。标志A被设定为1,在进行矢量C的编码时采用M比特。例如,关于矢量C=00001111,使用8比特来表示该矢量C。标志A、矢量C和Δpi≠1即Δpi被发送给可逆编码块103。
另一方面,如果N>0、而且满足数式13,
[数式13]
则意味着基音变化点的数量比较少。在这种情况下,直接对基音变化点的位置进行编码比较有效。标志A被设定为2,在矢量C中,在进行被标以0的位置的编码时采用log2M比特。
在进行基音变化点的数量N的编码时采用满足数式14的比特。
[数式14]
例如,关于矢量C=10111111,基音变化点的位置是2,在进行位置2的编码时采用3比特。标志A、基音变化点的数量N、基音变化位置和Δpi≠1即Δpi被发送给块103。
如前面所述,在对Δpi进行统计分析后,值Δpi的产生概率不一样,为了节约比特率,也可以采用可逆编码。另外,可逆编码103(可逆编码块103)的处理可以是算术编码或者霍夫曼编码,对所选择的基音比Δpi进行编码。在此,设Δpi≠1。
基于降低复杂性的目的,块102也可以只采用最初的两个方式。
(效果)
通过利用动态时间规整来进行时间规整,能够重建谐音构造。由于能量被限制为参照基音和其谐音成分,所以编码效率得到改善。根据评价方式,对基音检测的精度的依赖程度减小,编码系统的性能得到改善。对时间规整参数进行编码的有效方式通过减小比特率来改善音质,能够应对具有更大的基音变化率的信号的编码。
(第3实施方式)
在第3实施方式中提出了采用动态时间规整方式的解码装置。
图2是表示第3实施方式的框图的图。
解复用器即块205将输入比特流分割为编码时间规整参数、编码音频信号和相关联的变换编码器信息。
编码时间规整参数被发送给可逆解码块即块201。在该块中生成动态时间规整参数。
动态时间规整由标志、适用时间规整的位置的信息和与其对应的时间规整值Δpi构成。
动态时间规整信息被发送给动态时间规整重建块即块202。块202从动态时间规整参数中解码时间规整参数。
变换解码器即块204根据来自解复用器块205的变换编码器信息,对编码信号进行解码。块204对被实施时间规整后的信号进行解码。
时间规整块203接收通过进行时间规整而得到的信号,对输入信号适用时间规整。该时间规整处理与第1实施方式中的块104的处理相同。不按照时间规整参数和音频信号对信号进行规整。
(第4实施方式)
在第4实施方式中说明动态时间规整重建的具体示例。
通过动态时间规整重建而接收到的动态时间规整由标志、适用时间规整的位置的信息和与其对应的时间规整值Δpi构成。
首先确认标志。如果标志为0,则意味着不对对象帧适用时间规整。在这种情况下,所重建的基音轮廓矢量全部被设定为0。
如果标志为1,则意味着表示适用时间规整的位置的矢量C的编码中使用M比特。1比特对应于一个位置。1表示没有基音变换的标记,而0被赋予为时间规整的标记。通过计数矢量C中的0的数量,可以知道时间规整点N的总数。在该过程中,N次的规整值Δpi能够从缓冲器得到。Δpi对应于时间规整值。在此,设c(i)=0。
伪代码如下所示。
[数式15]
如果标志为2,则从缓冲器读出时间规整点的数量N。然后,从缓冲器读出N个时间规整点。最后,从缓冲器得到与时间规整点对应的基音比。伪代码如下所示。
[数式16]
按照下面所述重建被规范化后的基音轮廓。
[数式17]
pitchi=pitch_ratio(i)×pitchi-1
基音轮廓将在后面的时间规整中使用。
(第5实施方式)
在第5实施方式中提出了采用动态时间规整方式的其它编码装置。
图3是表示所提出的编码器的图。
图1所示的编码系统与图3所示的编码器之间的区别在于块306和307。图3中的可逆解码306的功能与图2中的201相同。动态时间规整重建块307与图2中的202相同。
通过采用图3所示的这种结构,编码器能够采用与解码器完全相同的时间规整参数。
第5实施方式提高了编码器的时间规整的精度。
(第6实施方式)
在第6实施方式中说明导入了中侧(mid side)立体声模式(MS模式)的编码装置。
图4是表示第6实施方式的编码装置的结构的图。
在许多的变换编解码器中,例如在进行AAC编解码器等的立体声音频信号的编码时频繁采用MS模式。
MS模式是对于频域来检测左右的声道的子带彼此的相似性。在左右的声道的子带相似时,MS立体声模式被设为有效。否则,MS模式被设为无效。
MS模式信息能够在许多的变换编码中使用,因此在进行动态时间规整时,能够利用MS模式信息来改善谐音时间规整的性能。
根据前面的图4,示出了采用来自变换编解码器的MS模式信息的结构。
左右的声道信号被发送给MS运算块即块401。MS运算块对频域来计算左右的信号之间的相似性。这与普通的变换编码中的MS检测相同。由块401生成1个标志。如果针对立体声音频信号的全部子带将MS模式设为有效,则标志被设定为1,否则标志被设定为0。
如果flag=1,在向下混频(down mix)块即块402中,将左右的声道信号向下混频为中信号和侧信号。中信号被发送给基音轮廓分析块即块403。
否则,将原来的立体声信号发送给块403。
基音轮廓分析块即块403与图1中的块102相同地计算基音轮廓信息。针对被向下混频后的信号,生成1组基音轮廓。否则,分别生成左右的信号的基音轮廓。
有关块404、405和406、408的说明,与有关块103、104和105、196的动作的说明相同。
(效果)
在第6实施方式中,对动态时间压缩进行变更,使更加适合于立体声编码。关于立体声编码,左右的声道有时具有不同的特性。在这种情况下,对不同的声道计算不同的时间规整参数。左右的声道有时也具有相似的特性。对两个声道使用相同的时间压缩参数比较合理。在左右的声道相似的情况下,通过使用相同的时间压缩参数的组,能够实现更高效的音频编码。
(第7实施方式)
在第7实施方式中说明与MS模式对应的解码装置。
图5是第7实施方式的解码装置的框图。
输入比特流被发送给解复用器块506。
块506的输出为编码时间压缩参数、变换编码器信息和编码信号。
变换解码器即块505按照变换编码器信息,对编码信号进行解码使其成为时间压缩信号,并抽取MS模式信息。
MS模式信息被发送给MS模式检测块504。
如果针对该帧的全部子带将MS模式设为有效,则针对时间压缩也将MS模式设为有效,标志被设定为1。否则,在进行谐音时间规整的重建时不使用MS模式,标志被设定为0。该MS模式标志被发送给谐音时间规整重建块502。
可逆解码块即块501对动态时间规整参数进行逆量化。
动态时间规整重建块502按照MS标志来重建时间规整参数。
如果M/S flag=1,则生成1组时间规整参数,否则,从动态时间规整参数生成2组时间规整参数。时间规整参数的生成处理与第2实施方式相同。
在时间规整块503中,如果M/S flag=1,则对被实施时间规整后的左信号和被实施时间规整后的右信号适用不同的时间规整参数。否则,对被实施时间规整后的立体声音频信号适用相同的时间规整参数。
(第8实施方式)
图6是使用MS模式并采用变更后的动态时间规整的编码器的框图。
按照图6所示对第4实施方式进行变更,以便提高编码器的时间规整的精度。
该变更与第3实施方式的变更相同。
在编码构造中追加可逆编码块608和动态时间规整重建块609。其目的在于使编码器使用与解码器相同的时间规整参数。有关块608和609的说明,与有关图5中的块501和502的说明相同。
(第9实施方式)
在第9实施方式中导入了具有闭环动态时间规整单元的编码装置。
图7是表示第9实施方式的编码装置的图。
第9实施方式的结构是在第8实施方式的结构的基础上追加了比较方案(scheme)(比较方案710)。在向图7中的复用器711发送时间编码信号以及规整参数之前,由比较方案710对编码信号进行确认。在进行时间规整的解码之后,判定整体音质是否被改善。
比较方案有各种类型。作为一例是将解码信号的SNR与原来的信号进行比较。
第一,由变换解码器对被实施时间规整后的编码信号进行解码。使用与图7中的708相同的时间规整参数,对被解码后的时间规整信号适用时间规整,并生成非规整信号。将非规整信号与原来的信号进行比较,由此计算SNR1。
第二,生成其它的编码信号,而不适用时间规整。由相同的变换解码器对该编码信号进行解码,将解码信号与原来的信号进行比较,由此计算SNR2。
第三,将SNR1和SNR2进行比较,由此进行确定。如果SNR1>SNR2,则选择时间规整,并向解码器发送第1编码信号、变换编码器信息和编码时间规整参数。否则,不选择时间规整,向解码器发送第2编码信号和变换编码器信息。
作为比较方案的其它方法,也能够对比特消耗进行比较,来取代SNR。
简而言之可以说明如下。即,时间规整技术是用于弥补音频编码系统中的基音变化的影响的。并且,为了改善时间规整的效率,提出了动态时间规整方式。本发明的时间规整方式根据谐音构造的分析来修正基音轮廓,并且考虑时间规整间的谐音构造,由此改善音质。动态时间规整方式将进行时间规整前后的谐音构造进行比较,由此评价时间规整的有效性,并确定是否应该对对象音频帧适用时间规整。由此,消除由于不正确的基音轮廓信息而带来的不正确性。动态时间规整还提供更高效地对时间规整参数进行编码的方法,使用从变换编码得到的MS模式信息,改善音质和编码效率。
另外,也可以构成这种编码装置1和解码装置2(信号处理系统2S、图1、图2、图20、图21等)。并且,例如在某个方面等也可以进行下述的动作。上述的处理中的一部分(或者全部)处理也可以是与下面说明的动作相同(相似)的动作。
即,也可以在编码装置1中进行下述的处理。
即,也可以从声音的信号101i(参照图1、图11中的信号811),生成将该信号101i的基音(例如参照图15中的基音822)移动为参照基音(前述:例如图15中的参照基音82r)的信号104x(参照图1、图11中的信号812)(时间规整部104、图21中的步骤S104)。
另外,这样也可以进行向移动目标的基音(参照基音等)的移动。并且,移动目标的基音也可以不是前面叙述的参照基音,而是参照基音的谐音(harmonics)等(参照数式2等)。
另外,具体地讲,信号101i(信号104x)也可以是例如立体声的2声道、5.1声道或者7.1声道等多声道的多个声道等的信号、多个声道中的一个声道的信号等。
并且,更具体地讲,信号101i也可以是例如多个区段(例如,参照图16所示的帧84F(图16)中包含的M个区段84(区段841~区段84M))的信号中的、一个或者一部分区段84的信号等。
另外,具体地讲,图16中的M的值也可以是例如16等。
并且,例如关于上述的参照基音(参照基音82r),相比对信号101i进行编码,对被移动为该参照基音后的信号104x进行编码将成为被实施更适合的编码的基音。
即,此处所说的适合,例如假设是指对进行移动后的信号104x进行编码得到的信号105x(图1)的数据量,小于假设对进行移动前的信号101i进行编码时的(在保持音质不变的状态下的)编码后的数据量,等等。即,例如较小的数据量是指音质与该数据量的数据的音质相同、而且比被保持音质的另一个数据的数据量小的数据量等。
即,例如参照基音是指通过信号101i的除区段(例如图15中的区段822s)之外的其它区段(例如与区段822s邻接的区段821s)的移动,与该其它区段的基音(基音821)的移动目标的基音(例如参照基音82r)相同的基音(例如参照基音82r)等。
并且,进行移动后的信号104x(图1)也可以被编码成为信号105x(变换编码器105,步骤S105)。
由此,进行移动后的信号104x在频谱方面容易进行编码,通过对容易进行编码的信号进行编码,与对不进行移动的信号(第1信号101i)进行编码相比,如果是相同音质,则能够减少进行编码所需要的数据量。
即,通过这样进行移动,能够避免直接对移动前的第1信号101i进行编码,对移动后的第2信号104x进行编码使其成为数据量比直接对第1信号101i进行编码得到的信号的数据量小的第3信号105x,采用数据量更小的第3信号105x作为第1信号101i的声音的已被编码的信号。
另一方面,也可以计算用于确定移动前的信号101i的基音(参照基音822(图15))的参数102x(前面叙述的动态时间规整参数、基音参数)(基音参数生成部102、步骤S102)。
另外,如前面所述,例如所计算出的参数102x也可以是预先设定的比值(图18中的比值88(Tw_ratio):前面叙述的基音变化比)。并且,所计算出的比值(比值88、参数102x)能够确定相比预先设定的基音(例如,参照图15中的基音821)只变化了该比值(参照图15所示的比值83)而得到的基音(基音822)(参照图15所示的比值83)。
另外,更具体地讲,例如比值88的数据是用于确定该比值88的序号(图中的Tw_ratio_index)的、序号的数据,通过确定待确定的序号的比值,也可以间接地确定比值。也可以计算这种序号的数据作为参数102x。
另外,在图15中,利用代码83的箭头线的前端位置,示意地图示了代码83所表示的比值是基音821与基音822之间的比值。
并且,所计算出的参数102x也可以是这样的参数,即,在(利用例如解码装置2等)对已被编码的声音的信号105x进行解码时,从对信号105x(图2中的信号204i)进行解码得到的信号(图2中的信号203ib(图1中的信号104x)),生成利用该参数102x确定的基音(参照:基音822)的信号(图2中的信号203x(图1中的信号101i))(进行逆向移动)。
另外,更具体地讲,也可以从编码装置1向进行解码的装置(解码装置2)进行该参数102x的通信,利用被通信的参数102x(参照图2中的信号201i)进行上述的处理。
由此,被解码后的信号(图2中的信号203x)的基音可靠地成为合适的基音(参照:基音822)。
另外,也可以同时利用这种声音的数据(图1中的信号104x、信号105x、图2中的信号203ib、信号204i)、和基音的数据(确定基音的参数102x),并利用声音的数据和基音的数据这两种数据。
但是,关于声音的数据认为不是利用从信号101i被实施编码再被解码成为信号203ib的、数据量较小的信号(图1中的信号105x、图2中的信号204i),并使声音的数据的数据量减小,而是更强烈地希望另一种基音的数据(图1中的参数102x、图2中的参数201i)的数据量减小。
因此,更具体地讲,例如也可以对所计算出的参数102x进行编码(可逆编码(Huffman(霍夫曼)编码或Arithmetic(算术)编码等))(可逆编码103、步骤S103),使其成为具有比参数102x的数据量小的数据量的编码后的参数103x(图1、图2中的参数201i)。
由此,通过也对参数102x(基音的参数)进行编码(可逆编码),也能够减小参数102x(基音的参数)的数据量。
但是,也存在与能够利用所计算出的参数102x(图1、图2中的参数204i)确定的基音(例如参照图15中的基音822)的区段(区段822s)的时刻相邻接的时刻的区段(前一个区段821s)的基音(基音821)。
因此,所计算出的参数102x也可以是用于确定邻接的(区段(区段821s)的)基音(基音821)、与该参数102x的基音(基音822)之间的比值(比值83、图18中的Tw_ratio)的参数,还可以计算(确定)该比值,并对所计算出的比值进行可逆编码,将对该比值进行可逆编码后的数据作为编码时间规整参数(参照前面的说明)。
即,也可以是,所计算出的参数102x用于确定相比邻接的基音(基音821),具有只变化了利用该参数102x确定的比值(图15中的比值83)的基音(基音822),并利用该比值间接地确定基音(基音822)。
但是,发明者通过进行实验发现:在比较多的情况下,以较高的频度(出现频度)产生与0音分的音程的变化的比值88x(1.0的比值:图18)比较接近的比值88a(例如比值88自身等),而另一方面,与比值88x比较远离的比值88b(例如图18所示的“1.0293”的比值等)以较低的频度产生。
即,发现产生(出现)比值88的频度是与该比值88是否接近0音分的比值88x相对应的频度(越接近0音分的比值88x时频度越高,越远离0音分的比值88x时频度越低)。
因此,也可以是,在所计算出的比值88(参数102x)是与0音分的比值88x比较接近的比值(比值88a:图18),而且是以比较高的出现频度而出现的比值88a的情况下,对该比值88(参数102x)进行编码使其成为代码长度(比特长度、长度)比较短的代码(代码(比特序列)90a(图18),例如长度为1的代码“0”(参照图18)等)。
并且,另一方面也可以是,在所计算出的比值88(参数102x)是与0音分的比值88x比较远离的比值(比值88b),而且是以比较低的出现频度而出现的比值88b的情况下,对该比值88(参数102x)进行编码使其成为代码长度比较长的代码(代码90b,例如图18所示的代码长度为6的代码“111110”)。
即,也可以是,对所计算出的各个比值88(参数102x:比值88a、比值88b等)进行可变长编码,使其成为与出现频度相对应的代码长度的可变长代码90(代码90a、90b等),该出现频度与该比值88是否接近0音分的比值88x(与比值88x的差为何种程度)相对应。
另外,具体地讲,例如也可以存储有使比值88(比值88a、比值88b等)与对应于该比值88的合适的可变长代码(代码90a、90b等)相对应的表103t(表的数据、表85:参照图18、图20、图1等)。
另外,具体地讲,该表103t也可以存储在例如可逆编码部103(第1基音处理部103A:参照图1、图20等)中。
并且,也可以是,利用所存储的表103t对该比值88进行编码,使其成为与所计算出的比值88(比值88a、比值88b:参数102x(图1))相对应的可变长代码90(代码90a、90b:参数103x(图1)),由此进行可变长编码。
由此,基音的被编码后的参数103x(代码90)的数据量进一步减小,能够间接地增加变换编码器能够使用的编码数据量,并且能够提高编码音质。
并且,也可以在解码装置2(图2等)中进行下述的处理。
即,也可以将对声音的信号203ib(信号104x:图1)进行编码得到的信号204i进行解码,使其成为信号203ib(信号104x)(变换解码器204、步骤S204)。另外,变换解码器的方式例如可以是诸如MPEG(Moving PictureExperts Group:运动图像专家组)-AAC(Advanced Audio Coding:高级音频编码)等那样的正交变换编码方式,还可以是ACELP(Algebraic CodeExcited Linear Prediction:代数码激励线性预测)等声音编码方式,还可以是其它方式等。
并且,更具体地讲,待解码的信号204i是指对信号203ib(信号104x)进行编码得到的信号204i(信号105x),该信号203ib(信号104x)是将从进行移动前的声音的信号203x(信号101i)生成的、该信号203x(信号101i)的基音(基音822)移动为参照基音(参照基音82r)后的信号。
即,待解码的信号204i也可以是例如利用上述的编码装置1进行编码后的信号105x。
即,更具体地讲,例如待解码的信号204i也可以是包含在从编码装置1向解码装置2进行通信的已实施编码的数据(图1的流106x、图2的流205i)中,并且从编码装置1向解码装置2进行通信的信号。
并且,从由信号204i进行解码得到的信号203ib,生成将已被解码的该信号203ib中的参照基音(参照基音82r)移动(逆向移动)为进行移动前的基音(基音822)的信号203x(时间规整部203、步骤S203)。
并且,更具体地讲,对编码时间规整参数201i进行可逆解码,并取得动态时间规整参数202i。利用所述TW_Ratio_Index表示所取得的动态时间规整参数202i。并且,根据表示所取得的动态时间规整参数202i及TW_Ratio_Index与TW_Ratio之间的关系的表103t,取得时间规整参数TW_Ratio。由时间规整电路(时间规整部)203按照所取得的TW_Ratio,将信号203ib变换(逆向移动)为相当于进行移动前的基音的非规整信号203x。
并且,具体地讲,也可以是,对比值88(参数202i、参数102x)进行编码得到的参数201i(图1中的参数103x),又被解码成为比值88(参数202i、参数102x),再进行向利用已被解码的比值88(参数202i)确定的基音(基音822)的移动(可逆解码部201、S201)。
由此,能够使基音的数据的数据量成为已被编码的数据(参数201i、参数103x)中的较小的数据量,并且也能够减小基音的数据的数据量。
并且,如前面所述,发明者发现在比值88是与0音分的比值88x较近的比值88a的情况下,比值88以较高的频度出现,在比值88是与0音分的比值88x较远的比值88b的情况下,比值88以较低的频度出现。
因此,也可以是,将比较短的代码90a解码成为与0音分的比值88x较近的比值88a,将比较长的代码90b解码成为与0音分的比值88x较远的比值88b。
即,也可以进行这种与出现频度相应的解码(基于该出现频度的可变长编码中的解码),该出现频度对应于是否接近0音分的比值88x。
另外,换言之,也可以是,在待解码的参数201i的代码90(图18)是与0音分的比值88x较近的比值88a的代码90(代码90a)的情况下,该代码90是较短的代码90a,在待解码的参数201i的代码90(图18)是与0音分的比值88x较远的比值88b的代码90(代码90b)的情况下,该代码90是较长的代码90b。
即,由此可以将较短的代码90a解码成为与0音分的比值88x较近的比值88a,将比较长的代码90b解码成为与0音分的比值88x较远的比值88b。
由此,能够更加充分地减小基音的数据的数据量。
另外,更具体地讲,例如存储与前面叙述的表103t(表85:图18)对应的解码表201t(图18、图2、图20等:表85)。
另外,更具体地讲,例如也可以将表201t存储在可逆解码部201(第2基音处理部201A:参照图2、图20等)中。
并且,也可以是,根据所存储的表201t对可变长代码90(已被编码的参数201t)进行解码使其成为相对应的比值88(参数202i),由此进行合适的解码处理。
另外,作为现有示例已经知道有下述的技术,利用长度为固定长度的固定长代码(图19中的3比特长度的固定长代码91(参照:代码91a、91b)),对基音的数据(参照比值88(图18)、图1中的参数(参数202(图2等)))进行固定长编码。
并且,按照前面叙述的在图16的说明中叙述的那样,例如将一个帧84F分割为16个区段84(区段841~84M、M=16)。
因此,在现有示例中,针对各个帧84F进行通信的数据9L(图22中的第1行第2列)包括例如与该帧84F的16个区段84对应的、16个固定长代码91(图22中的固定长代码91c、91d等),并具有比较大的数据量,即3比特×16个=48比特(参照图22的表的第1行第3列)。
与此相对,根据本实施方式的编码装置1、解码装置2,针对各个帧84F进行通信的数据90L(图22中的第2行、第3行)包括图22所示的利用15个字符“1”表示的15个长度1的代码90c。
并且,本实施方式的数据90L包括例如图22所示的利用1个字符“6”(在数据90Ls中是“4”)表示的、1个长度6(在数据90Ls中是长度4)的代码90d(数据90Ls的代码90ds、数据90Lt的代码90dt)。
这样,本实施方式的数据90L包括个数比较多(例如在图22的数据90L的示例中是15个)的、以较高的频度(例如,在图22的示例中是15/16的频度)出现的、长度较短(例如,参照图22中的代码9c的长度1和图18的表中的代码90a“0”的长度1等)的代码90c(图18中的代码90a)。
并且,数据90L包括个数比较少(例如在图22的示例中是1个)的、长度较长(例如,参照图22中的长度6个(在数据90Ls时是长度4)和图18的代码90b“111110”的长度6等)的代码90d(图18中的代码90b)。
即,如图所示,本系统的数据90L具有较小的数据量,例如,1×15+6×1=21比特(第3行的数据90Ls)、或者1×15+4×1的19比特(第2行)等。
因此,根据本系统,在各个帧84F的通信等的处理中的数据90L的数据量中、作为相对于现有示例中的数据91L(图22中的第1行)的数据量的减少幅度,能够期望产生48-21=27比特(第3行的数据90Lt)或者48-19=29比特(第2行的数据90Ls)等的减少幅度。
另外,这些减少幅度(27比特、29比特等)只是从理论上通过计算而设想的一例。即,上述的减少幅度的原理也可以用来实现与这些减少幅度(27比特、29比特)相同或者相似的减少幅度,还可以用来实现比较小的减少幅度等其它的减少幅度。
这样,根据本实施方式,需要进行减少的、数据量的减少幅度,能够达到比较大的减少幅度(例如上述的27比特、29比特等)。
并且,在本系统中还可以进行下述的动作。
图12表示构成半音的100音分(1音分是1个八度的一千二百分之一)的音程90j。这种半音的音程90j的百分之一的音程是1音分。另外,关于这一点也请参照例如图12所示的字符“100c”。
并且,在图18的表中的第1列(cent:音分)的各个行中,相互距离该行的比值88的两个基音(参照图15的基音821、822)之间的音程表示是1音分(cent)的几倍的音程,即表示该行的比值88的音程的音分数。
另外,例如在图18的表中的第3行(代码“111100”的行)中,示出了1.0293倍的比值88(参照比值83(图15))的音分数是50音分。
并且,范围861(图18:范围86a的一部分)表示相比0音分的比值88x(图18的第8行)为42音分以上的较大比值88(1.0293、1.0416)的范围(大于比值88x、而且与比值88的差的绝对值为42以上的范围)。
另一方面,范围862(范围86a的一部分)表示相比0音分的比值88x(图18的第8行)为-42音分以上的较小比值88(相比0音分的比值88x越小时,越远离42音分以上的比值88(0.9772、0.9715、0.9604))的范围(小于比值88x,而且与比值88的差的绝对值为42以上的范围)。
即,将范围861和范围862相加得到的范围86a表示与0音分的比值88x(第8行)的差的绝对值为42音分以上,与比值88x的距离为42音分以上的比值88的范围。
并且,范围87表示距比值88x的距离小于42音分的比值88的范围。
另外,关于该范围87,将在后面进行更详细的说明。
并且,比值88a(图15中的比值83a)是属于如图18所示的例如上述的小于42音分的范围87的比值88,比值88b(图15中的比值83b)是属于42音分以上的范围86a的比值88。
另外,关于形成比值83(图15、图18中的比值88)的两个基音(参照图15中的基音821、822)之间的差,如果该比值83是小于42音分的范围87的比值83a(比值88a),则该差是比较小的差,如果该比值83是42音分以上的范围86a的比值83b(比值88b),则该差是比较大的差。
并且,根据发明者的实验发现,不会停留于产生小于42音分的范围87的比值88a,而是产生这种较大差的两个基音(参照:基音821、822),并且有时出现42音分以上的范围87的比值88a。
另外,在此比值88a例如是与0音分的比值88x(Tw_ratio“1”)比较接近的比值88a(在图18中是指比值88x自身)。
并且,另一个比值88b是与比值88x比较远的比值88b。
即,如前面所述,例如与比值88a对应的代码90a(代码“0”)的长度(长度1),比与比值88b对应的代码90b(“111100”)的长度短。
因此,也可以是,例如在作为信号101i(图1)的比值88而计算出属于范围87的比值88a的情况下,生成与所计算出的比值88a对应的代码90a(图1中的参数103x)(编码装置1),对所生成的代码90a进行解码使其成为比值88a(图2中的参数202i)(解码装置2),并进行前面叙述的处理。
即,由此在比值88是属于范围87的比值88a的情况下,也可以进行前面叙述的处理,并利用移动来减小声音的数据(参照信号105x(图1)、信号204i(图2))的数据量。
另外,在作为信号101i的比值88计算出属于范围86a的比值88b的情况下,生成与比值88b对应的代码90b,对所生成的代码90b进行解码使其成为比值88b,并进行前面叙述的处理,也可以减小声音的数据(参照信号105x(图1)、信号204i(图2))的数据量。
因此,在计算出范围86a的比值88b的情况下,即在两个基音(基音822、821)之间的比值83为42音分以上的情况下,通过进行前面叙述的处理来减小声音的数据的数据量,能够更可靠地减小声音的数据的数据量。
即,不仅在比值83(图15)是小于42音分的比值83a、两个基音(参照图15中的基音822、821)之间的变化是较小的变化的情况下,在比值83(图15)是42音分以上的比值83b、两个基音(参照图15中的基音822、821)之间的变化是较大的变化的情况下,也能够减小声音的数据的数据量。即,与基音的变化(参照图15中的基音822、821)比较大还是比较小无关,都能够减小声音的数据的数据量,能够可靠地减小声音的数据的数据量。
另外,与此相对,在现有示例(图19)中,仅在两个基音(参照基音822、821)之间的比值89(图19)是属于小于42音分的范围87的比值的情况下,进行使数据量减小的处理,不能可靠地减小声音的数据的数据量。
这样,在本系统中,能够可靠地减小数据量,相对于现有示例(图19等)具有显著的先进性。
另外,这样根据本实施方式,用于进行合适的处理的范围从现有示例的比较狭小的范围(只包括范围87的范围),变为比该范围更大的范围(不仅包括范围87,一直包括到范围86a的范围86),用于进行合适的处理的范围成为更大的范围(范围87)。
前面叙述的范围87是如此被扩大的范围的一例。
即,根据发明者的目前的知识,在现有示例中用于进行合适的处理的范围(范围87)至少是只包含小于42音分的比值(参照比值88等)的范围。
并且,例如在如下所述的局面中也可以实现下述的动作及结构。即,存在具有如下两个位置的局面(编码帧),这两个位置是:在该位置704p(图9)的两个基音(参照图15中的基音822、821)之间的比值83p(图9)不是0音分的比值90x(图18)(的附近)的位置704p(前面叙述的基音变化的位置),以及,在该位置704q(图9)的比值83q(图9)是0音分的比值90x(的附近)的位置704q(前面叙述的基音不变化的位置)。并且,所构成的编码装置也可以是如下所述的编码装置,例如,在该编码帧中,存储具有基音变动的部位(图9中的704p)和没有基音变动的部位(图9中的704q)的各个位置(图9中的矢量C、102m),将该位置信息(矢量C、102m)、和基音变动点(704p)的TW_Ratio或者TW_Ratio_Index的信息发送给解码装置。这样,只需发送基音变动部位的TW_Ratio(或者TW_Ratio_Index)即可,能够利用最小必要限度的通信数据量(编码量)构成编码及解码装置。
这样,发现(前面叙述)当存在包括基音变化的位置704p和基音不变化的位置704q的多个位置704x的情况下,位置704x在大多数情况下是基音不变化的位置704q,是基音变化的位置704p的情况很少(极少)。
因此,参数102x(图1、图2中的参数202i)也可以包括例如用于确定变化的位置704p的数据102m(图9等)、和在利用数据102m而确定的变化的位置704p的比值83p(确定该比值83p的数据)。
并且,参数102x也可以将利用所包含的数据102m而确定的位置704p的比值(比值83p),确定为该参数102x所包含的(利用(上述)数据而确定的)比值83p。
并且,另一方面,参数102x也可以将除利用所包含的数据102m而确定的位置704p之外的其它位置(基音不变化的位置704q)的比值(比值83q),确定为例如0音分的比值90x(图18)等、基音不变化的位置704q的比值83q。
由此,与各个位置(位置704p、704q)的比值(比值83p、83q)哪个被确定无关地,但是参数102x只包含变化的位置704p的比值83p的数据、不包含不变化的位置704q的数据、也不包含许多位置(不变化的位置704q)的数据,因而能够充分减小基音的数据(图1中的参数102x、103x,图2中的204i、203ib)的数据量。
另外,公开了对输入解码装置2的这种信号204i(流205i)的基音(基音822、基音822的比值88)进行编码得到的代码(可变长代码90、数据90L(图20、图22))的格式(图18中的表85)。
在所公开的格式中,与0音分的比值88x比较接近的比值88a的代码(可变长代码90、代码90a)是长度更短(长度1)的代码90a(“0”),而与0音分的比值88x比较远离的比值88b的代码(可变长代码90、代码90b)是长度更长(长度6)的代码90b(“111100”)。
并且,公开了由解码装置2对所输入的该格式的代码(可变长代码90、数据90L)进行的处理(步骤)S2(图21)。
根据这种格式(图18)和步骤(处理S2),如前面所述,基音的数据(参数103x、203x)的数据量减小,其减少幅度是例如从图22中的第1行第3列的48比特到第2行第3列的21比特(第3行第3列的19比特)的减少幅度,基音的数据的数据量进一步减小。
并且,例如也可以制定记述了这种格式和步骤的标准文档的标准,使本技术能够得到更广泛的应用。
由此,在更广泛的情况下,能够使基音的数据量更少,能够更大地对产业发展做出贡献。
这样,根据本技术,将多个结构(可逆编码部103等)进行组合,能够产生来自组合的相乘效果。与此相对,在公知的现有示例(图13、图14、图19及其它技术等)中,缺少这些多个结构中的一部分或者全部,不会产生本技术的相乘效果。
这一点可以认为是本技术相对于现有示例具有先进性的内容。
另外,编码装置1的一部分(或者全部)也可以是安装了该编码装置1的一种以上功能的集成电路(例如,参照图20的集成电路1C)。并且,也可以构成为用于使作为该编码装置1的一部分(或者全部)的计算机执行该编码装置1的一种以上功能的计算机程序(参照程序1P)。
同样,也可以构成为安装了解码装置2的功能的集成电路(参照集成电路2C)、计算机程序(参照程序2P)等。
并且,也可以构成为存储了该计算机程序的存储介质,还可以构成为该计算机程序的数据的数据构造等。
并且,也可以将利用相互不同的多个实施方式的记述等彼此分开的部分的多个记述所公开的多个技术事项进行适当组合。也公开了利用这些多个记述进行组合得到的方式。
并且,关于简单的细节部分可以采用任何方式,例如可以采用添加了更进一步的改进发明的方式,在实际进行简单的实施时,也可以采用本领域技术人员容易想到的方式等。
另外,图21中的多个步骤(步骤S101和S104等)的执行顺序可以是能够实现适当的动作的范围内的任何顺序。例如,步骤S101的顺序可以在步骤S104的顺序的前面,也可以在其后面,还可以并行执行等,还可以是相同的顺序。
另外,关于通过处理而操作的范围可以考虑各种范围。并且,在本技术中,从这些各种范围中,选择上述的基音变化比(图18中的比值88、图19中的比值89)的定义域的范围(范围86、87),作为从更狭小的范围(现有示例中的范围87)扩大到更大范围(范围86)的范围。这种根据本技术实现的范围的选择不是容易想到的事情。
另外,也可以实施例如以下所述的各个装置等。
即,也可以构成为如下所述的解码装置,由该解码装置(解码装置2)接收到的所述比特流(比特流106x、205i)包括位置信息(例如图9中的数据102m),该位置信息用于确定一个帧(帧84F:图16)的多个位置(区段841~84M)中的基音变化位置(位置704p),只有该基音变化位置(位置704p)的信号,经由所述音频信号重建器(时间规整块(时间规整部)203)被实施时间规整(time warp)(进行时间规整的处理),其它位置的信号没有被实施时间规整(不进行时间规整的处理)。
并且,也可以构成为如下所述的编码装置,所述基音参数产生器(动态时间规整块102)根据检测到的所述基音轮廓信息(信息101x),生成包括基音变化位置(参照位置704p(图9)、102m)和所述基音变化比(参照比值83p)的所述基音参数(参数102x:例如用于确定基音变化位置的第1基音参数102x、和用于确定基音变化比的第2基音参数102x这两个基音参数102x等)。
即,也可以是,例如在多个位置中,只对基音变化位置的基音变化比的数据进行处理,对其它位置的基音变化比的数据不进行处理。
并且,如前面所述,例如基音变化位置的个数较小(较少),其它位置的个数比较多。
因此,只需进行个数较少的位置(基音变化位置)的数据的处理即可,能够减小进行处理的数据的数据量。
另外,也可以构成为还设有基音轮廓重建器(动态时间规整重建块307:图3)等的编码装置(编码装置1e:图3)等。
即,也可以构成为如下所述的编码装置(编码装置1e、基音轮廓分析部301~复用器电路308),该编码装置具有:第1解码器(可逆解码块306),从由所述第1编码器(可逆编码部303:图3(可逆编码部103:图1))输出的所述编码基音参数(参数303x:图3(参数103x)),生成包括解码基音变化位置(参照:位置704p(图9))和解码基音变化比(参照:比值83p)的解码基音参数(参数306x);以及基音轮廓重建器(动态时间规整重建块307),按照所生成的所述解码基音参数(参数306x),对基音轮廓信息(信息307x(参照信息301x))进行解码,所述基音移动器(时间规整块304)按照被解码后的所述基音轮廓信息(信息307x)即重建基音轮廓信息(信息307x),对所述输入音频信号(信号301i)的基音频率(基音822:图15)进行移动。
即,这样通过采用例如被复原后的信息307x作为在进行移动时使用的信息,能够采用与解码装置2使用的、由该解码装置2进行复原的信息相同的信息,能够采用更加合适的(精度良好)的信息。
并且,也可以构成为下述的编码装置(编码装置1f、MS运算部401~复用器电路408),该编码装置具有:MS模式选择器(MS运算块(MS运算部)401),确认是否对输入立体声音频信号(信号401i:图4)的各个音频帧适用中侧立体声模式(MS立体声模式),并生成表示适用所述MS立体声模式的标志(标志401x);以及向下混频器(向下混频块402),按照所生成的所述标志(标志401x),对所述输入立体声音频信号(信号401i)执行向下混频,所述基音检测器(基音轮廓分析块403)按照所生成的所述标志(标志401x),检测对所述输入立体声音频信号(信号401i)进行向下混频得到的向下混频信号(信号402a)、或者所述输入立体声音频信号(信号402b)的基音轮廓信息(信息403x),所述基音移动器(时间规整块406)按照所述基音轮廓信息(信息403x)和所述标志(标志401x),对所述输入立体声音频信号或者所述向下混频信号(信息402x(信号402a或者402b))的基音频率(参照:基音822(图15))进行移动。
即,也可以这样生成例如标志、并进行基于所生成的标志的处理。
由此,不管是利用MS立体声模式的情况还是不利用MS立体声模式的情况,在即使用户没有进行表示是否利用MS立体声模式的操作等时,只需进行与所生成的标志对应的处理,即可进行合适的处理。因此,不需要多余的操作,能够使操作变简单。
并且,也可以构成为如下所述的编码装置(编码装置1h、MS运算部601~复用器电路408),该编码装置具有:MS模式选择器(MS运算块601),按照输入立体声音频信号(信号601i:图6)来选择MS立体声模式,并生成表示适用所述MS立体声模式的标志(标志601x);向下混频器(向下混频块602),按照所生成的所述标志(标志601x),对所述输入立体声音频信号(信号601i)执行向下混频;第1解码器(可逆解码块608);以及基音轮廓重建器(动态时间规整重建块609),所述基音检测器(基音轮廓分析块603)按照所生成的所述标志(标志601x),检测对所述输入立体声音频信号(信号601i)进行向下混频得到的向下混频信号(信号602a)、或者所述输入立体声音频信号(信号602b)的基音轮廓信息(信息603x),所述第1解码器(可逆解码块608)从由所述第1编码器(可逆编码块605)输出的所述编码基音参数(参数605x),生成包括解码基音变化位置(参照:位置704p(图8))和解码基音变化比(参照:比值83p)的解码基音参数(参数608x),所述基音轮廓重建器(动态时间规整重建块609)按照所生成的所述解码基音参数(参数608x)和所述标志(标志601x),对重建基音轮廓信息(信息609x(参照信息603x))进行复原,所述基音移动器(时间规整块606)按照被复原后的所述重建基音轮廓信息(信息609x),对所述输入立体声音频信号或者所述向下混频信号(信号602x(信号602a或者602b))的基音频率进行移动。
由此,能够利用与解码装置2使用的信息相同的信息,能够在做到能利用更加合适的信息的同时、使操作变简单。
并且,也可以构成为如下所述的编码装置(编码装置1i、MS运算部701~复用器电路711),该编码装置具有用于确定是否使用所述基音移动器(图7中的时间规整块708)的比较单元(比较部、比较方案710),所述复用器(复用器块711)将编码数据(信号709x)和从所述比较单元输出的编码基音参数(参数710x)进行组合,由此生成比特流(流711x)。
即,也可以是,例如由比较方案710选择所生成的第3信号709x(第3信号105x(图1))、和其它信号中更加适合的信号(例如,SNR(Signal toNoise Ratio:信噪比,S/N比)更高、噪声更少的信号,或者数据量比较少的信号等),作为解码装置(解码装置2等)使用的信号。
另外,其它信号也可以是指例如记录了与利用第3信号709x记录的声音相同的声音的、除该第3信号709x之外的其它信号等。
即,更具体地讲,也可以分别计算第3信号709x的SNR(Signal to NoiseRatio:信噪比)、和其它信号的SNR,并根据计算出的两个SNR来进行上述的选择。
另外,计算出的SNR也可以是这样的值等,例如,该SNR的信号(第3信号709x、其它信号)与进行移动前的信号(参照图1中的信号101i等)之间的差,被视为该SNR的信号具有的噪声时的值。
由此,与存在第3信号709x不适合的情况无关地,在此时利用其它信号,来维持合适的信号被采用,能够更可靠地采用合适的信号。
并且,也可以构成为如下所述的基音参数产生器(动态时间规整块102),该基音参数产生器是设于编码装置(编码装置1)中的所述基音参数产生器(例如图1中的动态时间规整块102),通过将进行基音移动前的第1谐音构造与进行基音移动后的第2谐音构造进行比较,对所述基音轮廓(信息101x)进行修正,并确定是否应该利用该基音移动。
另外,也可以是,例如通过第1基音轮廓没有被修正,来决定利用该第1基音轮廓的基音移动,并且通过该第1基音轮廓被修正为第2基音轮廓,来决定利用该第2基音轮廓的基音移动。
并且,谐音构造(的数据)也可以是例如各个值包含信号的一个以上谐音中的、表示与该值对应的谐音的振幅的值即多个值而构成的数据等。
并且,也可以根据进行基音移动前的信号的谐音构造和进行基音移动后的信号的谐音构造,计算表示进行基音移动后的信号的质量的评价值。
并且,也可以是,在利用对第1基音轮廓的基音移动而计算出的评价值表示的质量,是比利用对第2基音轮廓的基音移动而计算出的评价值表示的质量高的质量的情况下,确定为第1基音轮廓没有被修正,在利用对第1基音轮廓的基音移动而计算出的评价值表示的质量,是比利用对第2基音轮廓的基音移动而计算出的评价值表示的质量低的质量的情况下(在其以下的情况下),确定为第1基音轮廓被修正。
由此,与存在第1基音轮廓的质量不是较高的质量的情况无关地,此时进行第2基音轮廓的处理,能够将进行基音移动后的信号的质量保持为较高的质量,能够可靠地提高信号的质量。
另一方面,关于实施方式的解码装置也可以构成为如下所述的解码装置(解码装置2c),所述第1解码器(可逆解码块201:图2)从分离出来的所述编码基音参数信息(参数201i),生成包括基音变化位置(参照:位置704p(图9))和所述基音变化比(参照:比值83p)的所述解码基音参数(参数202i:例如用于确定基音变化位置的第1参数202i、和用于确定基音变化比的第2参数202i这两个参数202i)。
并且,也可以构成为如下所述的解码装置(解码装置1g、可逆解码部501~复用器电路506),该解码装置(图5中的解码装置2g)对包括进行基音移动后的立体声音频信号(信号503ibL等:图5)的所述编码数据(信号505i:图5)在内的所述比特流(流506i)进行解码,该解码装置具有MS模式检测器(MS模式检测块504),所述第2解码器(变换解码器块505)对分离出来的所述编码数据(505i)进行解码,生成进行基音移动后的所述音频信号(信号503ibL等)和MS模式编码信息(信息504i),所述MS模式检测器(MS模式检测块504)按照所生成的所述MS模式编码信息(信息504i),检测MS模式是否被设为有效,并生成表示是否应该将MS模式设为有效的MS模式标志(标志504F:图5),所述基音轮廓重建器(动态时间规整重建部502)按照从所述第1解码器(可逆解码块501)输出的、所生成的所述解码基音参数(参数502i)和所生成的所述MS模式标志(标志504F),对基音轮廓信息(信息503ia)进行复原。
由此,检测MS模式是否被设为有效,不需用户进行表示是否被设为有效的多余操作,能够使操作更加简单。
另外,例如块是指所谓的功能块等。
产业上的可利用性
在编码装置1和解码装置2中实现上述的各个效果,这些编码装置1等的动作能够实现为更加合适的动作。
由此,进而在进行这些编码装置1等的生产、使用等的产业领域中,能够对产业的发展做出贡献。
标号说明
1编码装置;2解码装置;2S系统;101基音轮廓分析部;102动态时间规整部;103可逆编码部;104时间规整部;105变换编码器;106复用器;201可逆解码部;202动态时间规整重建部;203时间规整部;204变换解码器;205解复用器。
Claims (19)
1.一种编码装置,
该编码装置具有:
基音检测器,检测输入音频信号的基音轮廓信息;
基音参数产生器,根据检测到的所述基音轮廓信息,生成包括基音变化比的基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
第1编码器,对所生成的所述基音参数进行编码;
基音移动器,按照所述基音轮廓信息,对所述输入音频信号的基音频率进行移动;
第2编码器,对从所述基音移动器输出的已进行移动的音频信号进行编码;以及
复用器,将从所述第1编码器输出的编码基音参数、和从所述第2编码器输出的对从所述基音移动器输出的所述音频信号进行编码而得到的数据进行组合,由此生成包括所述编码基音参数和该数据的比特流。
2.根据权利要求1所述的编码装置,
所述基音参数产生器根据检测到的所述基音轮廓信息,生成包括基音变化位置和所述基音变化比的所述基音参数。
3.根据权利要求2所述的编码装置,
该编码装置具有:
第1解码器,根据从所述第1编码器输出的所述编码基音参数,生成包括解码基音变化位置和解码基音变化比的解码基音参数;以及
基音轮廓重建器,按照所生成的所述解码基音参数,将基音轮廓信息复原,
所述基音移动器按照作为被复原后的所述基音轮廓信息的重建基音轮廓信息,对所述输入音频信号的基音频率进行移动。
4.根据权利要求2或3所述的编码装置,
该编码装置具有:
MS模式选择器,确认对输入立体声音频信号的各个音频帧是否适用中侧立体声模式即MS立体声模式,并生成表示适用所述MS立体声模式的标志;以及
向下混频器,按照所生成的所述标志,对所述输入立体声音频信号执行向下混频,
所述基音检测器按照所生成的所述标志,检测对所述输入立体声音频信号进行向下混频得到的向下混频信号、或者所述输入立体声音频信号的基音轮廓信息,
所述基音移动器按照所述基音轮廓信息和所述标志,对所述输入立体声音频信号或者所述向下混频信号的基音频率进行移动。
5.根据权利要求2所述的编码装置,
该编码装置具有:
MS模式选择器,按照输入立体声音频信号来选择MS立体声模式,并生成表示适用所述MS立体声模式的标志;
向下混频器,按照所生成的所述标志,对所述输入立体声音频信号执行向下混频;
第1解码器;以及
基音轮廓重建器,
所述基音检测器按照所生成的所述标志,检测对所述输入立体声音频信号进行向下混频得到的向下混频信号、或者所述输入立体声音频信号的基音轮廓信息,
所述第1解码器根据由所述第1编码器输出的所述编码基音参数,生成包括解码基音变化位置和解码基音变化比的解码基音参数,
所述基音轮廓重建器按照所生成的所述解码基音参数和所述标志,对重建基音轮廓信息进行复原,
所述基音移动器按照被复原后的所述重建基音轮廓信息,对所述输入立体声音频信号或者所述向下混频信号的基音频率进行移动。
6.根据权利要求5所述的编码装置,
该编码装置具有用于确定是否使用所述基音移动器的比较单元,
所述复用器将编码数据和从所述比较单元输出的编码基音参数进行组合,由此生成所述比特流。
7.一种基音参数产生器,
该基音参数产生器是被设于根据权利要求1~6中任意一项所述的编码装置中的所述基音参数产生器,
该基音参数产生器将进行基音移动前的第1谐音构造与进行基音移动后的第2谐音构造进行比较,由此对所述基音轮廓进行修正,并确定是否应该利用该基音移动。
8.根据权利要求1~6中任意一项所述的编码装置,
在所述基音参数是绝对值比较小的音分数的基音变化比的基音参数的情况下,所述第1编码器将该基音参数编码成为代码长度比较短的代码的编码基音参数,
在所述基音参数是绝对值比较大的音分数的基音变化比的基音参数的情况下,所述第1编码器将该基音参数编码成为代码长度比较长的代码的编码基音参数。
9.一种解码装置,对比特流进行解码,该比特流包括已进行基音移动的音频信号的编码数据、和编码基音参数信息,
该解码装置具有:
解复用器,从要进行解码的所述比特流中,将该比特流中包含的所述编码数据和所述编码基音参数信息分别分离出来;
第1解码器,根据分离出来的所述编码基音参数信息,生成包括基音变化比的解码基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
基音轮廓重建器,按照所生成的所述解码基音参数,将基音轮廓信息复原;
第2解码器,对分离出来的所述编码数据进行解码,并生成已进行基音移动的所述音频信号;以及
音频信号重建器,按照作为被复原后的所述基音轮廓信息的重建基音轮廓信息,将已进行基音移动的所述音频信号变换为原来的音频信号。
10.根据权利要求9所述的解码装置,
所述第1解码器根据分离出来的所述编码基音参数信息,生成包括基音变化位置和所述基音变化比的所述解码基音参数。
11.根据权利要求10所述的解码装置,
该解码装置对包括进行基音移动后的立体声音频信号的所述编码数据在内的所述比特流进行解码,
该解码装置具有MS模式检测器,
所述第2解码器对分离出来的所述编码数据进行解码,生成进行基音移动后的所述立体声音频信号和MS模式编码信息,
所述MS模式检测器按照所生成的所述MS模式编码信息,检测MS模式是否被设为有效,并生成表示是否应该将MS模式设为有效的MS模式标志,
所述基音轮廓重建器按照从所述第1解码器输出的、所生成的所述解码基音参数和所生成的所述MS模式标志,对所述基音轮廓信息进行复原。
12.根据权利要求9~11中任意一项所述的解码装置,
在分离出来的所述编码基音参数信息是代码长度比较短的代码的编码基音参数信息的情况下,所述第1解码器将该编码基音参数信息解码成为绝对值比较小的音分数的基音变化比的基音参数,
在分离出来的所述编码基音参数信息是代码长度比较长的代码的编码基音参数信息的情况下,所述第1解码器将该编码基音参数信息解码成为绝对值比较大的音分数的基音变化比的基音参数。
13.一种信号处理系统,
包括权利要求8所述的编码装置和权利要求12所述的解码装置。
14.一种编码方法,
该编码方法包括:
基音检测工序,检测输入音频信号的基音轮廓信息;
基音参数产生工序,根据检测到的所述基音轮廓信息,生成包括基音变化比的基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
第1编码工序,对所生成的所述基音参数进行编码;
基音移动工序,按照所述基音轮廓信息,对所述输入音频信号的基音频率进行移动;
第2编码工序,对所述基音移动工序输出的已进行移动的音频信号进行编码;以及
复用工序,将所述第1编码工序输出的编码基音参数、和所述第2编码工序输出的对从所述基音移动器输出的所述音频信号进行编码而得到的数据进行组合,由此生成包括所述编码基音参数和该数据的比特流。
15.一种解码方法,对比特流进行解码,该比特流包括已进行基音移动的音频信号的编码数据、和编码基音参数信息,
该解码方法包括:
解复用工序,从要进行解码的所述比特流中,将该比特流中包含的所述编码数据和所述编码基音参数信息分别分离出来;
第1解码工序,根据分离出来的所述编码基音参数信息,生成包括基音变化比的解码基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
基音轮廓重建工序,按照所生成的所述解码基音参数,将基音轮廓信息复原;
第2解码工序,对分离出来的所述编码数据进行解码,并生成已进行基音移动的所述音频信号;以及
音频信号重建工序,按照作为被复原后的所述基音轮廓信息的重建基音轮廓信息,将已进行基音移动的所述音频信号变换为原来的音频信号。
16.一种集成电路,
该集成电路具有:
基音检测器,检测输入音频信号的基音轮廓信息;
基音参数产生器,根据检测到的所述基音轮廓信息,生成包括基音变化比的基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
第1编码器,对所生成的所述基音参数进行编码;
基音移动器,按照所述基音轮廓信息,对所述输入音频信号的基音频率进行移动;
第2编码器,对从所述基音移动器输出的已进行移动的音频信号进行编码;以及
复用器,将从所述第1编码器输出的编码基音参数、和从所述第2编码器输出的对从所述基音移动器输出的所述音频信号进行编码而得到的数据进行组合,由此生成包括所述编码基音参数和该数据的比特流。
17.一种集成电路,对比特流进行解码,该比特流包括已进行基音移动的音频信号的编码数据、和编码基音参数信息,
该集成电路具有:
解复用器,从要进行解码的所述比特流中,将该比特流中包含的所述编码数据和所述编码基音参数信息分别分离出来;
第1解码器,根据分离出来的所述编码基音参数信息,生成包括基音变化比的解码基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
基音轮廓重建器,按照所生成的所述解码基音参数,将基音轮廓信息复原;
第2解码器,对分离出来的所述编码数据进行解码,并生成已进行基音移动的所述音频信号;以及
音频信号重建器,按照作为被复原后的所述基音轮廓信息的重建基音轮廓信息,将已进行基音移动的所述音频信号变换为原来的音频信号。
18.一种计算机程序,用于使计算机执行以下工序:
基音检测工序,检测输入音频信号的基音轮廓信息;
基音参数产生工序,根据检测到的所述基音轮廓信息,生成包括基音变化比的基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
第1编码工序,对所生成的所述基音参数进行编码;
基音移动工序,按照所述基音轮廓信息,对所述输入音频信号的基音频率进行移动;
第2编码工序,对所述基音移动工序输出的已进行移动的音频信号进行编码;以及
复用工序,将所述第1编码工序输出的编码基音参数、和所述第2编码工序输出的对从所述基音移动器输出的所述音频信号进行编码而得到的数据进行组合,由此生成包括所述编码基音参数和该数据的比特流。
19.一种计算机程序,用于使计算机对比特流进行解码,该比特流包括已进行基音移动的音频信号的编码数据、和编码基音参数信息,
该计算机程序使所述计算机执行以下工序:
解复用工序,从要进行解码的所述比特流中,将该比特流中包含的所述编码数据和所述编码基音参数信息分别分离出来;
第1解码工序,根据分离出来的所述编码基音参数信息,生成包括基音变化比的解码基音参数,该比特变化比的定义域是包括如下范围在内的定义域,该范围的基音变化比的音分数的绝对值为42以上;
基音轮廓重建工序,按照所生成的所述解码基音参数,将基音轮廓信息复原;
第2解码工序,对分离出来的所述编码数据进行解码,并生成已进行基音移动的所述音频信号;以及
音频信号重建工序,按照作为被复原后的所述基音轮廓信息的重建基音轮廓信息,将已进行基音移动的所述音频信号变换为原来的音频信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-242302 | 2009-10-21 | ||
JP2009242302 | 2009-10-21 | ||
PCT/JP2010/006234 WO2011048815A1 (ja) | 2009-10-21 | 2010-10-21 | オーディオ符号化装置、復号装置、方法、回路およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102257564A true CN102257564A (zh) | 2011-11-23 |
CN102257564B CN102257564B (zh) | 2013-07-10 |
Family
ID=43900059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800036592A Expired - Fee Related CN102257564B (zh) | 2009-10-21 | 2010-10-21 | 音频编码装置、解码装置、方法、电路及程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8886548B2 (zh) |
EP (1) | EP2492911B1 (zh) |
JP (1) | JP5530454B2 (zh) |
CN (1) | CN102257564B (zh) |
WO (1) | WO2011048815A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112993A (zh) * | 2020-01-10 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
KR101400535B1 (ko) | 2008-07-11 | 2014-05-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩 |
US9950143B2 (en) | 2012-02-07 | 2018-04-24 | Marie Andrea I. Wilborn | Intravenous splint cover and associated methods |
US8855303B1 (en) * | 2012-12-05 | 2014-10-07 | The Boeing Company | Cryptography using a symmetric frequency-based encryption algorithm |
US9280313B2 (en) | 2013-09-19 | 2016-03-08 | Microsoft Technology Licensing, Llc | Automatically expanding sets of audio samples |
US9798974B2 (en) | 2013-09-19 | 2017-10-24 | Microsoft Technology Licensing, Llc | Recommending audio sample combinations |
US9257954B2 (en) * | 2013-09-19 | 2016-02-09 | Microsoft Technology Licensing, Llc | Automatic audio harmonization based on pitch distributions |
US9372925B2 (en) | 2013-09-19 | 2016-06-21 | Microsoft Technology Licensing, Llc | Combining audio samples by automatically adjusting sample characteristics |
CN106571145A (zh) * | 2015-10-08 | 2017-04-19 | 重庆邮电大学 | 一种语音模仿方法和装置 |
GB201621434D0 (en) | 2016-12-16 | 2017-02-01 | Palantir Technologies Inc | Processing sensor logs |
CN107181928A (zh) * | 2017-07-21 | 2017-09-19 | 苏睿 | 会议系统及数据传输方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60263377A (ja) * | 1984-06-08 | 1985-12-26 | Ricoh Elemex Corp | 音響信号の時間軸変換装置 |
JPS60263375A (ja) * | 1984-06-08 | 1985-12-26 | Ricoh Elemex Corp | 音響信号の時間軸変換装置 |
JPH10111694A (ja) * | 1996-10-08 | 1998-04-28 | Sony Corp | 音声信号多重化装置および方法 |
US20030088173A1 (en) * | 2000-03-14 | 2003-05-08 | Yoshimori Kassai | Mri sytem center and mri system |
CN1152365C (zh) * | 1998-11-24 | 2004-06-02 | 微软公司 | 音调跟踪装置和方法 |
CN1160704C (zh) * | 1999-12-28 | 2004-08-04 | 松下电器产业株式会社 | 音程变换装置 |
CN1281007C (zh) * | 2000-11-24 | 2006-10-18 | 松下电器产业株式会社 | 声音信号编码设备和方法 |
EP1806740A1 (en) * | 2004-10-27 | 2007-07-11 | Yamaha Corporation | Pitch converting apparatus |
CN101203907A (zh) * | 2005-06-23 | 2008-06-18 | 松下电器产业株式会社 | 音频编码装置、音频解码装置以及音频编码信息传输装置 |
CN101228573A (zh) * | 2005-07-27 | 2008-07-23 | 摩托罗拉公司 | 利用基音延迟曲线调整对信息信号编码的方法和装置 |
CN101501759A (zh) * | 2006-06-30 | 2009-08-05 | 弗劳恩霍夫应用研究促进协会 | 具有动态可变规整特性的音频编码器、音频解码器和音频处理器 |
CN101552005A (zh) * | 2008-04-03 | 2009-10-07 | 华为技术有限公司 | 编码方法、解码方法、系统及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268694A (ja) * | 2001-03-13 | 2002-09-20 | Nippon Hoso Kyokai <Nhk> | ステレオ信号の符号化方法及び符号化装置 |
FR2850781B1 (fr) * | 2003-01-30 | 2005-05-06 | Jean Luc Crebouw | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede |
SE0301272D0 (sv) * | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Adaptive voice enhancement for low bit rate audio coding |
US7840014B2 (en) * | 2005-04-05 | 2010-11-23 | Roland Corporation | Sound apparatus with howling prevention function |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US7734053B2 (en) * | 2005-12-06 | 2010-06-08 | Fujitsu Limited | Encoding apparatus, encoding method, and computer product |
US8218775B2 (en) * | 2007-09-19 | 2012-07-10 | Telefonaktiebolaget L M Ericsson (Publ) | Joint enhancement of multi-channel audio |
-
2010
- 2010-10-21 CN CN2010800036592A patent/CN102257564B/zh not_active Expired - Fee Related
- 2010-10-21 JP JP2011537144A patent/JP5530454B2/ja not_active Expired - Fee Related
- 2010-10-21 WO PCT/JP2010/006234 patent/WO2011048815A1/ja active Application Filing
- 2010-10-21 US US13/141,169 patent/US8886548B2/en not_active Expired - Fee Related
- 2010-10-21 EP EP10824667.9A patent/EP2492911B1/en not_active Not-in-force
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60263377A (ja) * | 1984-06-08 | 1985-12-26 | Ricoh Elemex Corp | 音響信号の時間軸変換装置 |
JPS60263375A (ja) * | 1984-06-08 | 1985-12-26 | Ricoh Elemex Corp | 音響信号の時間軸変換装置 |
JPH10111694A (ja) * | 1996-10-08 | 1998-04-28 | Sony Corp | 音声信号多重化装置および方法 |
CN1152365C (zh) * | 1998-11-24 | 2004-06-02 | 微软公司 | 音调跟踪装置和方法 |
CN1160704C (zh) * | 1999-12-28 | 2004-08-04 | 松下电器产业株式会社 | 音程变换装置 |
US20030088173A1 (en) * | 2000-03-14 | 2003-05-08 | Yoshimori Kassai | Mri sytem center and mri system |
CN1281007C (zh) * | 2000-11-24 | 2006-10-18 | 松下电器产业株式会社 | 声音信号编码设备和方法 |
EP1806740A1 (en) * | 2004-10-27 | 2007-07-11 | Yamaha Corporation | Pitch converting apparatus |
CN101203907A (zh) * | 2005-06-23 | 2008-06-18 | 松下电器产业株式会社 | 音频编码装置、音频解码装置以及音频编码信息传输装置 |
CN101228573A (zh) * | 2005-07-27 | 2008-07-23 | 摩托罗拉公司 | 利用基音延迟曲线调整对信息信号编码的方法和装置 |
CN101501759A (zh) * | 2006-06-30 | 2009-08-05 | 弗劳恩霍夫应用研究促进协会 | 具有动态可变规整特性的音频编码器、音频解码器和音频处理器 |
CN101552005A (zh) * | 2008-04-03 | 2009-10-07 | 华为技术有限公司 | 编码方法、解码方法、系统及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112993A (zh) * | 2020-01-10 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
CN113112993B (zh) * | 2020-01-10 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 一种音频信息处理方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011048815A1 (ja) | 2013-03-07 |
EP2492911B1 (en) | 2017-08-16 |
JP5530454B2 (ja) | 2014-06-25 |
US20110268279A1 (en) | 2011-11-03 |
EP2492911A1 (en) | 2012-08-29 |
WO2011048815A1 (ja) | 2011-04-28 |
CN102257564B (zh) | 2013-07-10 |
EP2492911A4 (en) | 2015-04-15 |
US8886548B2 (en) | 2014-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102257564B (zh) | 音频编码装置、解码装置、方法、电路及程序 | |
CN101297356B (zh) | 用于音频压缩的方法和设备 | |
RU2459282C2 (ru) | Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра | |
KR100561869B1 (ko) | 무손실 오디오 부호화/복호화 방법 및 장치 | |
CN101010724B (zh) | 音频编码器 | |
US7605722B2 (en) | Lossless audio coding/decoding apparatus and method | |
EP1498873B1 (en) | Improved excitation for higher band coding in a codec utilizing frequency band split coding methods | |
RU2007141934A (ru) | Адаптивная группировка параметров для улучшенной эффективности кодирования | |
CN105190747A (zh) | 用于空间音频对象编码中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法 | |
CN101878504A (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
CN102150203A (zh) | 一种用于把音频信号转换成参数化表示的装置和方法、一种用于修改参数化表示的装置和方法、一种用于合成音频信号的参数化表示的装置和方法 | |
CN102460570A (zh) | 用于对音频信号进行编码和解码的方法及设备 | |
CN102396024A (zh) | 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备 | |
US20140074489A1 (en) | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method | |
Wu et al. | An approach of steganography in G. 729 bitstream based on matrix coding and interleaving | |
CN104838442A (zh) | 用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法 | |
CN103098130B (zh) | 编码装置、解码装置、编码方法以及解码方法 | |
CN105659320A (zh) | 音频编码器和解码器 | |
CN103946918A (zh) | 语音信号编码方法、语音信号解码方法及使用其的装置 | |
KR20030011912A (ko) | 오디오 코딩 | |
CN102460574A (zh) | 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备 | |
US20160111100A1 (en) | Audio signal encoder | |
JP2006003580A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
US20120123788A1 (en) | Coding method, decoding method, and device and program using the methods | |
JP2002366195A (ja) | 音声符号化パラメータ符号化方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130710 Termination date: 20191021 |