CN103098130B - 编码装置、解码装置、编码方法以及解码方法 - Google Patents
编码装置、解码装置、编码方法以及解码方法 Download PDFInfo
- Publication number
- CN103098130B CN103098130B CN201180037861.1A CN201180037861A CN103098130B CN 103098130 B CN103098130 B CN 103098130B CN 201180037861 A CN201180037861 A CN 201180037861A CN 103098130 B CN103098130 B CN 103098130B
- Authority
- CN
- China
- Prior art keywords
- fundamental tone
- time
- flexible
- flexible parameter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000009975 flexible effect Effects 0.000 claims description 323
- 230000008859 change Effects 0.000 claims description 112
- 238000001514 detection method Methods 0.000 claims description 51
- 238000012937 correction Methods 0.000 claims description 21
- 230000001915 proofreading effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 abstract 4
- 230000002441 reversible effect Effects 0.000 description 62
- 238000006073 displacement reaction Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 20
- 230000015572 biosynthetic process Effects 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000012952 Resampling Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008676 import Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种编码装置(10),具备:基音模式检测部(101),其对输入语音信号的基音模式进行检测;动态时间伸缩部(102),基于基音模式决定基音节点数,生成第一时间伸缩参数,第一时间伸缩参数包含示出基音节点数、基音变化位置以及基音变化率的信息;第1编码器(103),对第一时间伸缩参数进行编码,生成编码时间伸缩参数;时间伸缩部(104),使用由第一时间伸缩参数得到的信息,以基音节点数的基音接近于规定的基准值的方式校正基音;第2编码器(105),对校正的基音的输入语音信号进行编码,生成编码语音信号;以及多路复用器(106),复用编码时间伸缩参数和编码语音信号,生成位流。
Description
技术领域
本发明涉及对所输入的语音信号进行编码、或者对所编码的语音信号进行解码的编码装置、解码装置、编码方法以及解码方法。
背景技术
编码装置是为了对语音信号有效地进行编码而设计的。在人讲话的情况下,也有时语音信号的基本频率(基音)发生变化。由此,语音信号的能量在更宽的频带传播。并且,声音信号编码装置对基音变化的语音信号进行编码特别是在低比特率中不是有效的。
因此,以往使用时间伸缩(Time Warping)技术对基音变化的影响进行补偿(例如,参照专利文献1和非专利文献1)。
具体地,使用时间伸缩技术实现基音的校正(基音移位)。图1A和图1B是示出使现有的基音移位的手法的一例的图。即,图1A是示出基音移位前的语音信号的波谱(spectrum)的图,图1B是示出基音移位后的语音信号的波谱的图。
如这些图所示,基音从图1A的200Hz移位到图1B的100Hz。这样,以使下一帧的基音与前一帧的基音一致的方式进行移位,由此基音一致。在该情况下,语音信号的能量如图2A~图2C所示那样收敛。
图2A是示出现有的语音信号的基音移位中的基音移位前的扫描信号的图。图2B是示出现有的语音信号的基音移位中的基音移位后的扫描信号的图。如这些图所示,进行基音移位,由此语音信号的基音为一定。
另外,图2C是示出现有的语音信号的基音移位中的基音移位前后的波谱的图。在此,该图的曲线图a示出基音移位前的波谱,该图的曲线图b示出基音移位后的波谱。如该图所示,基音移位后的能量在狭窄的带宽收敛。
在此,基音移位使用例如重新采样方法实现。为了维持一致的基音,重新采样的比例(以下设为重新采样速率)根据基音变化率而变化。在对帧进行编码时适用基音跟踪算法,由此得到该帧的基音模式。
具体地,将该帧分割为小的段(section)用于基音跟踪。邻接的段可以重合。作为基音跟踪算法,例如存在基于自相关的基音跟踪算法(例如,参照非专利文献2)和基于频带的基音检测方法(例如,参照非专利文献3)。
在各段有对应的基音的值。图3和图4是示出现有的语音信号的基音模式的计算手法的图。图3示出基音随时间变化。另外,如图4所示,1个基音的值由语音信号的1个段算出。此外,基音模式是将基音的值连结的模式。
在基音移位中,重新采样速率与基音变化率成比例。另外,示出基音变化率的信息根据基音模式进行提取。分和半音的经常被用于测定该基音变化率。图5是示出分和半音的尺度的图。分(cent,在该图中为c)按照如下由邻接的基音的基音比(基音变化率)算出。
【数式1】
按照基音变化率,将重新采样适用于语音信号。为了得到一致的基音,将其他段的基音移位到基准基音。例如,如果下一段的基音比前一基音高,则对与2个基音间的分差成比例的更低的速率设定重新采样速率。另外,在下一段的基音比前一基音低的情况下,将重新采样速率设定为高速率。
针对更高的音,当考虑通过降低再现速度能调整音频的再现速度的记录再现装置时,该音被移位到更低的频率。这与对与基音变化率成比例的信号进行重新采样的想法相同。
图6和图7是示出使用时间伸缩方式的编码装置和解码装置的图。如图6所示,编码装置使用基音比信息使输入信号进行时间伸缩后进行转换编码。另外,该基音比信息在进行图7所示的逆时间伸缩的解码装置中是必需的。
因此,基音比需要在编码装置中被编码。在现有技术中,对这些基音比信息进行编码需使用与小的基音比对应的固定表,另外,旨在能使用于对基音比进行编码的比特数有限的条件下,利用时间伸缩(Time Warping)处理提高编码音质。
现有技术文献
专利文献
专利文献1:美国专利申请公开第2008/0004869号说明书
非专利文献
非专利文献1:Bernd Edler、“A Time-warpped MDCT Approach ToSpeech Transform Coding”AES第126回会議、ミユンヘン、ドィツ、2000年5月
非专利文献2:Milan Jelinek、“Wideband Speech Coding Advancesin VMR-WB Standard”、IEEE Transactions on Audio、Speech andLanguage Processing、第15巻第4号、2007年5月
非专利文献3:Xuejing Sun、“Pitch Detection andVoice QualityAnalysis Using Subharmonic-to-Harmonic Ratio”、IEEE ICASSP、333-336、オ一ランド、2002年
发明内容
发明要解决的课题
通过使用时间伸缩手法,能在1帧内得到一致的基音,实现编码效率的提高。该时间伸缩手法在某种程度上依赖于基音跟踪的精度。但是,语音信号的振幅和周期变化,因此难以精度良好地检测基音模式。
为了提高基音模式的检测精度,导入平滑化、微调整阈值参数等几个后处理方式,但是这些方式基于特定的数据库。如果基于不正确的基音模式适用时间伸缩手法,则音质降低,为了发送时间伸缩信息,比特被浪费。因此,需要设计如不会盲目追随检测的基音模式的时间伸缩手法。
现在,现有技术中的时间伸缩手法没有对基音模式信息进行编码的有效的方法。在现有技术中,使用仅与小的变化率的基音模式对应的固定表。但是,在语音信号的基音变化率大的情况下,该固定表有界限,时间伸缩手法的性能降低。这样,在基音显著变化的情况下,当是小的固定表时则不充分,但是如果是与更大的基音变化率对应的固定表,表尺寸变大,因此需要使用更多的比特对基音比信息进行编码。
这特别是在低比特率的编码中代价变大。即,通过在发送时间伸缩信息时使用多的比特,能使编码效率提高,但是语音信号的编码用的比特不太残留,成为音质恶化的原因。
因此,如果能在时间伸缩手法中以更少的比特数有效地进行编码,则能将确保的多的比特使用于语音信号的编码。由此,即使是基音变化大的语音信号,也能使音质提高。
因此,本发明鉴于这样的问题,其目的在于提供如下编码装置、解码装置、编码方法以及解码方法:即使是基音变化大的语音信号,也能以少的比特数使音质提高。
用于解决课题的手段
为了达到上述目的,本发明的一方式所涉及的编码装置具备:基音模式检测部,对作为示出输入语音信号的规定期间的基音变化的信息的基音模式进行检测;动态时间伸缩部,基于所检测的所述基音模式,决定作为在所述规定期间检测的基音数量的基音节点数,生成第一时间伸缩参数,该第一时间伸缩参数包含示出决定的所述基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、作为所述基音变化位置上的基音变化的比率的基音变化率的信息;第1编码器,对生成的所述第一时间伸缩参数进行编码,生成编码时间伸缩参数;时间伸缩部,使用由生成的所述第一时间伸缩参数得到的信息,以所述基音节点数的基音接近于规定的基准值的方式对所述基音节点数的基音中的至少一个基音进行校正;第2编码器,对所述时间伸缩部校正的基音的所述输入语音信号进行编码,成编码语音信号;以及多路复用器,复用所述第1编码器生成的所述编码时间伸缩参数和所述第2编码器生成的所述编码语音信号,生成位流。
据此,编码装置基于检测的基音模式决定基音节点数,生成第一时间伸缩参数,第一时间伸缩参数包含示出该基音节点数、基音变化位置以及基音变化率的信息。并且,编码装置使用由第一时间伸缩参数得到的信息,以基音节点数的基音接近于规定的基准值的方式校正基音,生成位流,位流是对校正后的基音的输入语音信号进行了编码后的编码语音信号和对第一时间伸缩参数进行了编码后的编码时间伸缩参数进行了复用后的位流。这样,编码装置按照检测的基音模式决定最佳的基音节点数,从而生成第一时间伸缩参数,进行基音移位。因此,即使是基音变化大的语音信号,也不需要信息量大的固定表,因此不使用多的比特数就能进行编码。由此,即使是基音变化大的语音信号,该编码装置也能以少的比特数使音质提高。
另外,优选还具备解码部,对所述第1编码器生成的所述编码时间伸缩参数进行解码,生成第二时间伸缩参数,第二时间伸缩参数包含示出所述规定期间的基音模式中的基音节点数、基音变化位置以及基音变化率的信息,所述时间伸缩部使用所述解码部生成的所述第二时间伸缩参数对所述基音进行校正。
据此,编码装置对生成的编码时间伸缩参数进行解码,生成第二时间伸缩参数,第二时间伸缩参数包含示出基音节点数、基音变化位置以及基音变化率的信息,使用生成的第二时间伸缩参数校正基音。即,编码装置不是在基音移位中使用第一时间伸缩参数,而是使用对将第一时间伸缩参数编码的编码时间伸缩参数进行解码而生成的第二时间伸缩参数进行基音移位。在此,该第二时间伸缩参数是语音信号在解码装置中被解码时所使用的参数。因此,编码装置通过使用与在解码装置中所使用的参数相同的参数进行基音移位,由此能使解码时的时间扩展处理的计算精度提高。由此,即使是基音变化大的语音信号,该编码装置也能精度良好地进行编码,从而能以少的比特数使音质提高。
另外,优选所述输入语音信号具有2个声道的信号,所述编码装置还具备:M/S计算部,算出所述2个声道的信号中的基音模式的相似度,生成示出算出的所述相似度是否比规定值大的标志;缩混部,在生成的所述标志示出所述相似度比所述规定值大的情况下,输出将所述2个声道的信号缩混而得到的1个信号,在示出所述相似度为所述规定值以下的情况下,输出所述2个声道的信号,所述基音模式检测部对所述缩混部输出的信号分别检测基音模式。
据此,编码装置算出作为输入语音信号的2个声道的信号中的基音模式的相似度,在该相似度比规定值大的情况下,输出将2个声道的信号缩混而得到的1个信号,在该相似度为规定值以下的情况下,输出2个声道的信号。即,编码装置在2个声道的信号的基音模式的相似度高的情况下,基于1个信号的基音模式生成2个声道的信号共用的1个第一时间伸缩参数。这样,编码装置只要对1个第一时间伸缩参数进行编码用于对2个声道的信号进行编码即可,能减少使用的比特数。因此,即使是基音变化大的语音信号,该编码装置也能以少的比特数使音质提高。
另外,优选还具备比较部,对作为所述第2编码器生成的所述编码语音信号的第一编码信号和所述输入语音信号利用其他的编码方式进行编码的第二编码信号进行比较,所述比较部使用所述第1编码器生成的所述编码时间伸缩参数对所述第一编码信号进行解码,算出作为与所述输入语音信号的差分的第一差分,对所述第二编码信号进行解码,算出作为与所述输入语音信号的差分的第二差分,在所述第一差分比所述第二差分小的情况下,输出所述第一编码信号,所述多路复用器复用所述比较部输出的所述第一编码信号和所述编码时间伸缩参数,生成所述位流。
据此,编码装置对作为生成的编码语音信号的第一编码信号和利用其他的编码方式对输入语音信号进行了编码而得到的第二编码信号进行比较,在对第一编码信号进行解码而得到的信号与输入语音信号的差分比对第二编码信号进行解码而得到的信号与输入语音信号的差分小的情况下,输出第一编码信号。即,编码装置仅在编码的精度良好的情况下输出生成的编码语音信号。由此,即使是基音变化大的语音信号,该编码装置也精度良好地进行编码,由此能以少的比特数使音质提高。
另外,为了达到上述目的,本发明的一方式所涉及的解码装置具备:解多路复用器,从基音被校正的语音信号进行了编码的编码语音信号和用于校正基音的第一时间伸缩参数进行了编码的编码时间伸缩参数被复用的位流分离所述编码语音信号和所述编码时间伸缩参数;第1解码部,对所述编码时间伸缩参数进行解码,生成第二时间伸缩参数,第二时间伸缩参数包含示出作为在规定期间检测的基音的数量的基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、以及作为所述基音变化位置上的基音变化的比率的基音变化率的信息;第2解码部,对所述编码语音信号进行解码,生成语音信号,语音信号以所述基音节点数的基音接近于规定的基准值的方式被校正基音;以及时间伸缩部,使用所述第二时间伸缩参数,以所述基音节点数的基音返回到校正前的基音的方式对所述基音节点数的基音中的至少一个基音进行变更,由此将所述基音被校正的语音信号转换为校正前的语音信号。
据此,解码装置从位流中分离编码语音信号和编码时间伸缩参数,对编码时间伸缩参数进行解码,生成第二时间伸缩参数,第二时间伸缩参数包含示出基音节点数、基音变化位置以及基音变化率的信息。并且,解码装置对编码语音信号进行解码,生成基音被校正的语音信号,使用第二时间伸缩参数,以基音节点数的基音返回到校正前的基音的方式对基音进行变更,由此将语音信号转换为校正前的语音信号。这样,解码装置对编码时间伸缩参数进行解码,生成第二时间伸缩参数,使基音节点数的基音返回到基音移位前的基音,由此使语音信号返回到基音移位前的语音信号。因此,解码装置即使是对基音变化大的语音信号进行解码的情况,也不使用信息量大的固定表就对所生成的编码时间伸缩参数进行解码,因此不需要该信息量大的固定表。即,解码装置不使用多的比特数就能进行解码。由此,即使是基音变化大的语音信号,该解码装置也能以少的比特数使音质提高。
另外,优选所述语音信号具有2个声道的信号,所述解码装置还具备M/S模式检测部,M/S模式检测部生成示出所述2个声道的信号中的基音模式的相似度比规定值大的标志,所述第1解码部在所生成的所述标志示出所述相似度比所述规定值大的情况下,生成所述2个声道的信号共用的所述第二时间伸缩参数,在示出所述相似度为所述规定值以下的情况下,对所述2个声道的信号分别生成所述第二时间伸缩参数。
据此,解码装置在作为语音信号的2个声道的信号中的基音模式的相似度比规定值大的情况下,生成2个声道的信号共用的第二时间伸缩参数,在该相似度为规定值以下的情况下,对2个声道的信号分别生成第二时间伸缩参数。即,解码装置在2个声道的信号的基音模式的相似度高的情况下,生成1个第二时间伸缩参数。这样,解码装置只要使用1个第二时间伸缩参数用于对2个声道的信号进行解码即可,能减少使用的比特数。因此,即使是基音变化大的语音信号,该解码装置也能以少的比特数使音质提高。
另外,本发明不但能实现为这样的编码装置或者解码装置,而且也能实现为以该编码装置或者解码装置所包含的处理部进行的特征性的处理为步骤的编码方法或者解码方法。另外,也能实现为使计算机执行编码方法或者解码方法所包含的特征性的处理的程序、集成电路。并且,这样的程序通过CD-ROM等记录介质和因特网等传送介质使其流通是不言而喻的。
发明效果
根据本发明所涉及的编码装置,即使是基音变化大的语音信号,也能以少的比特数使音质提高。
附图说明
图1A是示出使现有的基音移位的手法的一例的图。
图1B是示出使现有的基音移位的手法的一例的图。
图2A是示出现有的语音信号的基音移位中的基音移位前的扫描信号的图。
图2B是示出现有的语音信号的基音移位中的基音移位后的扫描信号的图。
图2C是示出现有的语音信号的基音移位中的基音移位前后的波谱的图。
图3是示出现有的语音信号的基音模式的计算手法的图。
图4是示出现有的语音信号的基音模式的计算手法的图。
图5是示出分和半音的尺度的图。
图6是示出使用时间伸缩方式的编码装置和解码装置的图。
图7是示出使用时间伸缩方式的编码装置和解码装置的图。
图8是示出本发明的实施方式1所涉及的编码装置的功能性构成的框图。
图9是用于说明本发明的实施方式1所涉及的动态时间伸缩部决定的基音节点数的图。
图10是示出本发明的实施方式1所涉及的编码装置对输入语音信号进行编码的处理的一例的流程图。
图11是用于说明本发明的实施方式2所涉及的编码装置进行的动态时间伸缩方式的图。
图12是用于说明本发明的实施方式2所涉及的动态时间伸缩部生成的第一时间伸缩参数的图。
图13是示出本发明的实施方式3所涉及的解码装置的功能性构成的框图。
图14是示出本发明的实施方式3所涉及的解码装置对编码语音信号进行解码的处理的一例的流程图。
图15是示出本发明的实施方式5所涉及的编码装置的功能性构成的框图。
图16是示出本发明的实施方式6所涉及的编码装置的功能性构成的框图。
图17是示出本发明的实施方式7所涉及的解码装置的功能性构成的框图。
图18是示出本发明的实施方式8所涉及的编码装置的功能性构成的框图。
图19是示出本发明的实施方式9所涉及的编码装置的功能性构成的框图。
具体实施方式
以下一边参照附图一边对本发明的实施方式所涉及的编码装置和解码装置进行说明。
此外,以下说明的实施方式均示出本发明的优选的一具体例。以下的实施方式中所示的数值、构成要素、构成要素的配置位置以及连接方式、步骤、步骤的顺序等是一例,不是为了限定本发明。本发明仅由权利要求书进行限定。因此,对于以下的实施方式中的构成要素中示出本发明的最上位概念的独立权利要求所记载的构成要素,未必需要达到本发明的课题,而作为构成更优选方式的构成要素进行说明。
即,以下的实施方式仅仅是对各种创造性的原理进行说明的例子。在此所记载的内容的变形例可理解为对本领域技术人员来说是显而易见的。
(实施方式1)
在实施方式1中,提出使用动态时间伸缩(Dynamic TimeWarping)方式的编码装置。
图8是示出本发明的实施方式1所涉及的编码装置10的功能性构成的框图。
如该图所示,编码装置10是对作为所输入的语音信号的输入语音信号进行编码的装置,具备基音模式检测部101、动态时间伸缩部102、可逆编码器103、时间伸缩部104、转换编码器105以及多路复用器106。
基音模式检测部101对作为示出输入语音信号的规定期间的基音变化的信息的基音模式进行检测。
即,左右声道的输入语音信号各自的1帧被输入到基音模式检测部101。并且,基音模式检测部101对左右声道的输入语音信号的基音模式分别进行检测。基音模式检测算法记载于现有技术中。
动态时间伸缩部102基于基音模式检测部101检测的基音模式,决定作为在该规定期间检测的基音数量的基音节点数,并生成第一时间伸缩参数,该第一时间伸缩参数包含示出决定的基音节点数、作为在基音节点数的基音中产生基音变化的位置的基音变化位置、以及作为基音变化位置上的基音变化的比率的基音变化率的信息。
具体地,动态时间伸缩部102基于基音模式决定基音节点数M,如图9所示,将1帧分割为基音节点数M个重合的段。图9是用于说明本发明的实施方式1所涉及的动态时间伸缩部102决定的基音节点数的图。在此,基音节点数M的数值不受限定,但是优选对基音模式进行解析而得到的基音节点的最佳数量。
并且,动态时间伸缩部102由1帧内的基音节点数M个的段算出基音节点数M个基音。并且,动态时间伸缩部102由算出的基音节点数M个的基音取得基音变化位置,算出基音变化率。
这样,动态时间伸缩部102对基音模式进行处理,基于谐波结构生成包含表示基音节点数、基音变化位置以及基音变化率的信息在内的第一时间伸缩参数。
可逆编码器103是对动态时间伸缩部102生成的第一时间伸缩参数进行编码,生成编码时间伸缩参数的第1编码器。
即,第一时间伸缩参数被发送到可逆编码器103。并且,可逆编码器103对第一时间伸缩参数进行压缩,生成编码时间伸缩参数。并且,编码时间伸缩参数被发送到多路复用器106。
时间伸缩部104使用由动态时间伸缩部102生成的第一时间伸缩参数得到的信息,以基音节点数M个的基音接近于规定的基准值的方式对基音节点数M个的基音中的至少一个基音进行校正。
即,第一时间伸缩参数被发送到时间伸缩部104。时间伸缩部104的处理记载于现有技术中。时间伸缩部104根据第一时间伸缩参数对输入语音信号进行重新采样。在输入语音信号为立体声信号的情况下,左右信号根据对应的第一时间伸缩参数分别进行基音移位(时间伸缩)。
转换编码器105是对时间伸缩部104校正的基音的输入语音信号进行编码,生成编码语音信号的第2编码器。
即,进行了时间伸缩的左右声道的信号被发送到转换编码器105进行编码。并且,编码语音信号和转换编码器信息被发送到多路复用器106。
多路复用器106对作为第1编码器的可逆编码器103生成的编码时间伸缩参数、和作为第2编码器的转换编码器105生成的编码语音信号以及转换编码器信息进行复用,生成位流。
此外,输入到基音模式检测部101的输入语音信号不必是立体声信号,既可以是单声道信号也可以是多声道信号。基于编码装置10的动态时间伸缩方式也能适应于任意数量的声道。
接着,对由编码装置10对输入语音信号进行编码的处理进行说明。
图10是示出由本发明的实施方式1所涉及的编码装置10对输入语音信号进行编码的处理的一例的流程图。
如该图所示,首先,基音模式检测部101对输入语音信号的基音模式进行检测(S102)。
并且,动态时间伸缩部102基于基音模式检测部101检测的基音模式决定基音节点数(S104)。
并且,动态时间伸缩部102基于该基音模式生成第一时间伸缩参数,该第一时间伸缩参数包含示出决定的基音节点数、基音变化位置以及基音变化率的信息(S106)。
接着,可逆编码器103对动态时间伸缩部102生成的第一时间伸缩参数进行编码,生成编码时间伸缩参数(S108)。
另外,时间伸缩部104使用由动态时间伸缩部102生成的第一时间伸缩参数得到的信息,以基音节点数的基音接近于规定的基准值的方式对基音节点数的基音中的至少一个基音进行校正(S110)。
并且,转换编码器105对时间伸缩部104校正的基音的输入语音信号进行编码,生成编码语音信号(S112)。
并且,多路复用器106对可逆编码器103生成的编码时间伸缩参数、和转换编码器105生成的编码语音信号以及转换编码器信息进行复用,生成位流(S114)。
通过以上处理,编码装置10对输入语音信号进行编码的处理结束。
如在上述课题中所述,不正确的基音模式带来时间伸缩后的音质降低。动态时间伸缩方式是为了克服该课题而提出的。这是考虑了谐波结构的时间伸缩方式。即,在时间伸缩期间,谐波与基音移位一起被修正,需要在时间伸缩中考虑信号的谐波结构。并且,基于编码装置10的谐波时间伸缩方式是基于谐波结构的解析对基音模式进行修正。并且,该方式通过在时间伸缩中考虑谐波结构而改善音质。
这样,在实施方式1中,以动态时间伸缩方式对基音模式进行处理,生成用于动态时间伸缩的参数。该参数表示适用基音数量和时间伸缩的位置及其对应位置的时间伸缩值。通过提出的动态时间伸缩方式改善音质。另外,也导入可逆编码,而且削减对时间伸缩值进行编码的比特。
如上所述,根据本实施方式1所涉及的编码装置10,基于检测的基音模式决定基音节点数,生成第一时间伸缩参数,该第一时间伸缩参数包含示出该基音节点数、基音变化位置以及基音变化率的信息。并且,编码装置10使用由第一时间伸缩参数得到的信息,以基音节点数的基音接近于规定的基准值的方式对基音进行校正,生成位流,该位流是对校正的基音的输入语音信号进行了编码而得到的编码语音信号和对第一时间伸缩参数进行了编码而得到的编码时间伸缩参数进行复用而得到的位流。这样,编码装置10按照检测的基音模式决定最佳的基音节点数,由此生成第一时间伸缩参数,进行基音移位。因此,即使是基音变化大的语音信号,也不需要信息量大的固定表,因此不使用多的比特数就能进行编码。由此,即使是基音变化大的语音信号,编码装置10也能以少的比特数使音质提高。
(实施方式2)
在本实施方式2中,对动态时间伸缩方式进行说明,该动态时间伸缩方式具备对由编码装置10执行的、与谐波结构相应的基音模式进行修正的方式。
如在上述课题中说明的那样,由于语音信号的振幅和周期变化,因此基音模式的检测是难的课题。在直接使用基音模式信息用于时间伸缩的情况下,当基音模式不正确时,对时间伸缩的性能带来影响。因为在时间伸缩期间,信号的谐波与基音移位成比例地被修正,所以必须考虑时间伸缩对谐波的影响。
在本实施方式2中提出动态时间伸缩方式。通过对谐波结构进行解析而对基音模式进行修正,生成有效的第一时间伸缩参数。
该动态时间伸缩方式由3个段构成。第1部根据谐波结构对基音模式进行修正。第2部通过比较时间伸缩前后的谐波结构而评价时间伸缩的性能。第3部使用第一时间伸缩参数的有效的表现方式。并不是如在现有技术中描述的对基音模式整体进行编码,而是使用可逆编码对进行了时间伸缩的位置信息进行编码,对其对应位置的时间伸缩值进行编码。
在第1部,对基音模式进行修正。根据实施方式1,将帧分割为M个段用于算出基音。基音模式由M个基音值(pitch1,pitch2,…pitchM)构成。在现有技术中,使基音移位至基准基音附近。在时间伸缩后,得到一致的基准基音。
与此相对,在提出的动态时间伸缩方式中,能使信号的谐波移位至基准基音的谐波附近。图11中示出一例。图11是用于说明本发明的实施方式2所涉及的编码装置10进行的动态时间伸缩方式的图。
如该图所示,所检测的基音接近于基准基音的谐波。即,Δf1>Δf2,因此在使检测基音移位至基准基音的情况下需要使用大的伸缩值,但是在使检测基音移位至基准基音的谐波的情况下能使用小的伸缩值。
这样,在动态时间伸缩方式中,能对基音模式进行修正,能使谐波分量移位。以下描述修正处理。
首先,在动态时间伸缩方式中,比较检测基音与基准基音之差。具体地,在将基准基音设为pitchref、将段i的检测基音设为pitchi的情况下,如果pitchi>pitchref,则调查检测基音pitchi接近于基准基音pitchref还是接近于基准基音的谐波k×pitchref。在此,k是k>1的整数。
并且,如果存在满足下式的k,则使检测基音pitchi移位至基准谐波k×pitchref。检测基音pitchi被修正为k×pitchref。
【数式2】
|pitchi-pitchref|>|pitchi-k×pitchref|
另外,如果pitchi<pitchref,则调查基准基音pitchref接近于检测基音pitchi还是接近于检测基音pitchi的谐波。如果存在满足下式的k,则使检测基音pitchi的谐波移位至基准基音。因此,检测基音pitchi被修正为k×pitchi。
【数式3】
|pitchi-pitchref|>|k×pitchi-pitchref|
在第2部,基于该修正的基音模式适用时间伸缩,通过比较时间伸缩前后的谐波结构而评价性能。将时间伸缩前后的谐波分量之和用作本实施方式2中的性能评价的基准。
以下示出谐波的算出。
【数式4】
在此,q是谐波分量的数量。在本实施方式2中,推荐q=3。S()示出信号的波谱,pitchi是由基音模式所检测的基音pitch1、pitch2、…pitchM。
在时间伸缩后,谐波之和如下。
【数式5】
在此,S’()表示时间伸缩后的信号的波谱。
在时间伸缩前,信号由pitch1、pitch2、…pitchM的谐波构成。为了表示这些谐波分量间的能量分布而定义谐波比HR。
【数式6】
【数式7】
由基音pitch1、pitch2、…pitchM的谐波之和构成。
在时间伸缩后,谐波比HR’按如下算出。
【数式8】
H’(pitchref)是时间伸缩后的基准基音的谐波之和。
【数式9】
由时间伸缩后的基音pitch1,pitch2,…pitchM的谐波之和构成。
认为在时间伸缩后能量被基准基音限制,其他基音的能量被抑制。因此,认为HR’>HR。在HR’>HR、对该帧适用时间伸缩的情况下,视为时间伸缩是有效的。
动态时间伸缩的第3部使用有效的方式生成第一时间伸缩参数。1帧内的基音变化位置在1帧内不那么多,因此可以设计为:以有效的方式对基音变化位置和该值Δpi分别进行编码。
首先,使所修正的基音模式标准化。接着,计算邻接的修正基音的差分。
【数式10】
与现有技术的不同是如下方面:在动态时间伸缩方式中,对
【数式11】
的矢量整体不进行编码。使用矢量C示出Δpi≠1的位置。该位置是进行时间伸缩的位置。利用可逆编码器103仅对Δpi≠1的时间伸缩值Δpi进行编码。
如果Δpi=1,则将C(i)设定为1,否则将C(i)设定为0。矢量C的各要素与修正基音模式的一个段对应。图12中示出矢量C的设定例。图12是用于对本发明的实施方式2所涉及的动态时间伸缩部102生成的第一时间伸缩参数进行说明的图。
具体地,动态时间伸缩部102用以下的步骤1~3中的任一个所示的方式对矢量C(基音变化位置)和Δpi≠1的时间伸缩值(基音变化率)Δpi进行编码。此外,为了示出选择哪种方式,生成标志A。
步骤1:动态时间伸缩部102对对象帧是否有基音变化位置进行调查。如果N=0,表示没有基音变化位置。在此,N是基音变化位置的数,即是Δpi≠1的段的数。并且,动态时间伸缩部102将标志A设定为0。在该情况下,动态时间伸缩部102仅将标志A发送到可逆编码器103。
步骤2:如果对象帧有1以上的基音变化位置,动态时间伸缩部102需要将Δpi≠1的时间伸缩值Δpi和矢量C发送到可逆编码器103。
如果是
【数式12】
,这表示基音变化位置存在多个,但是在该状态的情况下,对矢量C和Δpi≠1的Δpi直接进行编码是更有效的。
在该情况下,将标志A设定为1,使用M比特对矢量C进行编码。例如,在矢量C=00001111的情况下,使用8比特表示该矢量C。动态时间伸缩部102将标志A、矢量C以及Δpi≠1的Δpi发送到可逆编码器103
步骤3:在N>0且满足下式的情况下,表示基音变化位置少。
【数式13】
在该情况下,对基音变化位置直接进行编码是更有效的。因此,将标志A设定为2,使用log2M比特对在矢量C中标记为0的位置进行编码。使用log2(M/log2M)比特对N、即基音变化位置数进行编码。
例如,在矢量C=10111111的情况下,基音变化位置是2。使用3比特对位置2进行编码。动态时间伸缩部102将标志A、基音变化位置数N、基音变化位置、以及Δpi≠1的Δpi发送到可逆编码器103。
当对Δpi统计性地进行解析时,值Δpi产生的概率不是均匀的,能使用可逆编码预先残留比特率。可逆编码器103利用算术编码、霍夫曼编码等对Δpi≠1的基音变化率Δpi进行编码。
此外,为了降低复杂度,动态时间伸缩部102只适用最初的2个方式(步骤1和2)即可。
在现有技术中,基音模式的信息不使用压缩方式地原样地被发送到译码器。在此,本申请发明人努力研究的结果是发现如下情况:当对时间伸缩的基音模式统计性地进行解析时,时间伸缩在信号的1帧内仅在基音变化的位置数点上进行。
因此,仅对适用了时间伸缩的信息进行编码是更有效的。并且,能根据产生基音变化的并不均匀的概率对第一时间伸缩参数进行编码,因此能使用可逆编码确保比特。
本动态时间伸缩方式由适用了时间伸缩的位置信息及其对应位置的时间伸缩值构成。因此,使用如现有技术所记载的固定表不对基音模式整体进行编码就可确保比特。另外,本动态时间伸缩方式即使是时间伸缩值更大的范围也能应对。所确保的比特使用于输入语音信号的编码,时间伸缩值的范围越大,音质被改善。
如上所述,根据本实施方式2中的动态时间伸缩方式,能以时间伸缩重新构成谐波结构。能量被基准基音及其谐波分量限制,因此编码效率被改善。另外,利用本方式,对基音检测的精度的依赖度降低,编码的性能被改善。对第一时间伸缩参数有效地进行编码的本方式通过削减比特率而使音质提高,所以能应对基音变化率更大的编码信号。
(实施方式3)
在本实施方式3中,提出具备动态时间伸缩方式的解码装置。图13是示出本发明的实施方式3所涉及的解码装置20的功能性构成的框图。
如该图所示,解码装置20是对在编码装置10中被编码的编码语音信号进行解码的装置,具备可逆译码器201、动态时间伸缩再构成部202、时间伸缩部203、转换译码器204以及解多路复用器205。
解多路复用器205将所输入的位流分离为编码时间伸缩参数、转换编码器信息以及编码语音信号。
在此,所输入的位流是编码装置10的多路复用器106输出的位流,具体地,是基音被校正的语音信号被编码而得到的编码语音信号、用于校正基音的第一时间伸缩参数被编码而得到的编码时间伸缩参数、以及转换编码器信息被复用而得到的位流。
可逆译码器201和动态时间伸缩再构成部202是对编码时间伸缩参数进行解码、生成第二时间伸缩参数的第1解码部,第二时间伸缩参数包含示出作为在规定期间检测的基音数量的基音节点数、作为在该基音节点数的基音中产生基音变化的位置的基音变化位置、作为该基音变化位置中的基音变化的比率的基音变化率的信息。
即,解多路复用器205将编码时间伸缩参数发送到可逆译码器201。并且,可逆译码器201对编码时间伸缩参数进行解码,生成解码时间伸缩参数。解码时间伸缩参数由标志、适用了时间伸缩的位置信息、以及与其对应的时间伸缩值Δpi构成。
另外,解码时间伸缩参数被发送到动态时间伸缩再构成部202。动态时间伸缩再构成部202由解码时间伸缩参数生成第二时间伸缩参数。
转换译码器204是对编码语音信号进行解码、生成语音信号的第2解码部,语音信号以基音节点数的基音接近于规定的基准值的方式被校正基音。
即,转换译码器204基于转换编码器信息从解多路复用器205接收编码语音信号。并且,转换译码器204对进行了时间伸缩的编码语音信号进行解码。
时间伸缩部203使用第二时间伸缩参数以基音节点数的基音返回到校正前的基音的方式对基音节点数的基音中的至少一个基音进行变更,由此将基音被校正的语音信号转换为校正前的语音信号。
即,时间伸缩部203接收第二时间伸缩参数,对所输入的进行了时间伸缩的左右声道的信号适用时间伸缩。时间伸缩的处理与实施方式1的时间伸缩部104同样。此外,根据第二时间伸缩参数,信号不伸缩。
接着,对解码装置20对编码语音信号进行解码的处理进行说明。
图14是示出本发明的实施方式3所涉及的解码装置20对编码语音信号进行解码的处理的一例的流程图。
如该图所示,首先,解多路复用器205从所输入的位流分离编码时间伸缩参数和编码语音信号(S202)。
并且,可逆译码器201和动态时间伸缩再构成部202对编码时间伸缩参数进行解码,生成第二时间伸缩参数,第二时间伸缩参数包含示出基音节点数、基音变化位置以及基音变化率的信息(S204)。
另外,转换译码器204对编码语音信号进行解码,生成语音信号,语音信号以基音节点数的基音接近于规定的基准值的方式被校正基音(S206)。
并且,时间伸缩部203使用第二时间伸缩参数以基音节点数的基音返回到校正前的基音的方式对基音节点数的基音中的至少一个基音进行变更,由此将基音被校正的语音信号转换为校正前的语音信号(S208)。
如上所述,解码装置20对编码语音信号进行解码的处理结束。
如上所述,根据本实施方式3所涉及的解码装置20,从位流分离编码语音信号和编码时间伸缩参数,对编码时间伸缩参数进行解码,生成第二时间伸缩参数,第二时间伸缩参数包含示出基音节点数、基音变化位置以及基音变化率的信息。并且,解码装置20对编码语音信号进行解码,生成基音被校正的语音信号,使用第二时间伸缩参数以基音节点数的基音返回到校正前的基音的方式对基音进行变更,由此将语音信号转换为校正前的语音信号。这样,解码装置20对编码时间伸缩参数进行解码,生成第二时间伸缩参数,使基音节点数的基音返回到基音移位前的基音,由此使语音信号返回到基音移位前的语音信号。因此,即使是对基音变化大的语音信号进行解码的情况,解码装置20也使用与基音变化率大的情况对应的扩展固定表,并且对扩展固定表的索引使用霍夫曼(Huffman)码等可逆可变长度码,由此对通过削减对索引进行编码时的比特数而得到的编码时间伸缩参数进行解码,因此解码装置20不使用多的比特数就能进行解码。由此,即使是基音变化大的语音信号,解码装置20也能以少的比特数使音质提高。
(实施方式4)
在本实施方式4中,说明对基音变化率进行编码的可逆编码器和解码的可逆译码器的详情。
动态时间伸缩再构成部202接收的解码时间伸缩参数由标志、适用了时间伸缩的位置信息、以及与其对应的时间伸缩值Δpi构成。
首先,动态时间伸缩再构成部202确认该标志。如果标志是0,是指对象帧不适用时间伸缩。在该情况下,将重新构成的基音模式的矢量全部设定为1。
如果标志是1,是指为了对示出适用时间伸缩的位置的矢量C进行编码而使用M比特。1个比特与1个位置一致。矢量C内的1表示没有基音变化,另一方面,矢量C内的0表示有基音变化。
并且,动态时间伸缩再构成部202对矢量C内有几个0进行计数,掌握基音变化位置的总数N。以下,N个时间伸缩值Δpi从缓冲器取得。Δpi与c(i)=0的时间伸缩值对应。时间伸缩值Δpi由可逆译码器进行解码。该模拟代码如下。
标准化基音模式按如下重新构成。
【数式14】
pitchi=pitch_ratio(i)×pitchi-1
该基音模式在后面的时间伸缩中使用。
(实施方式5)
在本实施方式5中提出具备动态时间伸缩方式的另一编码装置。图15是示出本发明的实施方式5所涉及的编码装置11的功能性构成的框图。
如该图所示,编码装置11具备基音模式检测部301、动态时间伸缩部302、可逆编码器303、时间伸缩部304、转换编码器305、可逆译码器306、动态时间伸缩再构成部307以及多路复用器308。
在此,图8所示的实施方式1的编码装置10和本实施方式5的编码装置11的不同在于编码装置11具有可逆译码器306和动态时间伸缩再构成部307。即,在实施方式1中,对时间伸缩部104的时间伸缩使用编码(量化)前的基音信息。该编码(量化)前的基音信息有时与解码装置20的解码基音信息不同。
具体地,动态时间伸缩部102生成的第一时间伸缩参数和第一时间伸缩参数被编码而得到的编码时间伸缩参数有时与由解码装置20进行解码而生成的第二时间伸缩参数不同。特别是第一时间伸缩参数所包含的基音变化率和第二时间伸缩参数所包含的基音变化率不同的可能性高。
因此,为了使编码的精度提高,在本实施方式5中,首先对第一时间伸缩参数进行编码,然后由可逆译码器306进行解码,由动态时间伸缩再构成部307重新构成第二时间伸缩参数。
此外,可逆译码器306的功能与图13所示的可逆译码器201同样。另外,动态时间伸缩再构成部307的功能与图13所示的动态时间伸缩再构成部202同样。
即,可逆译码器306和动态时间伸缩再构成部307是对可逆编码器303生成的编码时间伸缩参数进行解码、生成第二时间伸缩参数的解码部,第二时间伸缩参数包含示出规定期间的基音模式中的基音节点数、基音变化位置以及基音变化率的信息。
并且,时间伸缩部304使用可逆译码器306和动态时间伸缩再构成部307生成的第二时间伸缩参数对基音进行校正。
这样,编码装置11能使用与解码装置20完全相同的时间伸缩参数。
此外,本实施方式5的编码装置11具备的基音模式检测部301、动态时间伸缩部302、可逆编码器303、时间伸缩部304、转换编码器305以及多路复用器308分别具有与实施方式1的编码装置10具备的基音模式检测部101、动态时间伸缩部102、可逆编码器103、时间伸缩部104、转换编码器105以及多路复用器106同样的功能,因此详细的说明省略。
如上所述,根据本实施方式5所涉及的编码装置11,对生成的编码时间伸缩参数进行解码,生成第二时间伸缩参数,第二时间伸缩参数包含示出基音节点数、基音变化位置以及基音变化率的信息,使用生成的第二时间伸缩参数对基音进行校正。即,编码装置11在基音移位中不是使用第一时间伸缩参数,而是使用第二时间伸缩参数进行基音移位,第二时间伸缩参数通过对将第一时间伸缩参数编码而得到的编码时间伸缩参数进行解码而生成。在此,该第二时间伸缩参数是由解码装置20对语音信号解码时所使用的参数。因此,编码装置11使用与在解码装置中所使用的参数相同的参数进行基音移位,由此能使解码时的时间扩展处理的计算精度提高。由此,即使是基音变化大的语音信号,编码装置11也能精度良好地进行编码,由此能以少的比特数使音质提高。
(实施方式6)
在本实施方式6中,导入将主和子(M/S)模式组合的编码装置。图16是示出本发明的实施方式6所涉及的编码装置12的功能性构成的框图。
众多的编解码器中,M/S模式经常被使用于立体声信号、例如AAC编解码器。使用该M/S模式,利用频带的子带对左右声道子带的相似性进行检测。如果左右声道的子带相似,则M/S模式工作,如果不相似,则M/S模式不工作。
M/S模式的信息能利用于众多的转换编码,因此在动态时间伸缩方式中能使用M/S模式的信息改善谐波时间伸缩的性能。
具体地,如该图所示,编码装置12具备M/S计算部401、缩混部402、基音模式检测部403、动态时间伸缩部404、可逆编码器405、时间伸缩部406、转换编码器407以及多路复用器408。
在此,基音模式检测部403、动态时间伸缩部404、可逆编码器405、时间伸缩部406、转换编码器407以及多路复用器408分别具有与实施方式1的编码装置10具备的基音模式检测部101、动态时间伸缩部102、可逆编码器103、时间伸缩部104、转换编码器105以及多路复用器106同样的功能,详细的说明省略。
M/S计算部401算出输入语音信号具有的2个声道的信号中的基音模式的相似度,生成示出算出的相似度是否比规定值大的标志。
具体地,左右声道信号被发送到M/S计算部401。并且,M/S计算部401在频带中算出左右的信号的相似性。这与转换编码中的M/S模式的检测相同。并且,M/S计算部401生成1个标志。即,如果相对于立体声信号的全部子带,M/S模式工作,则M/S计算部401将该标志设定为1,否则将标志设定为0。
另外,缩混部402在M/S计算部401生成的标志示出该相似度比该规定值大的情况下,输出将该2个声道的信号缩混而得到的1个信号,在示出该相似度为该规定值以下的情况下,输出该2个声道的信号。
具体地,如果标志=1,则在缩混部402中使左右的信号混缩为主信号和子信号。主信号被发送到基音模式检测部403。另外,如果标志=1,则缩混部402将原来的立体声信号发送到基音模式检测部403。
并且,基音模式检测部403分别对缩混部402输出的信号检测基音模式。
具体地,基音模式检测部403接收原来的立体声信号或者立体声信号的缩混信号中的某个。基音模式检测部403在接收缩混信号的情况下对1组基音模式进行检测。基音模式检测部403在没有接收缩混信号的情况下对左右语音信号的基音模式分别进行检测。
这样,在本实施方式6中,能对动态时间伸缩方式进行改善使其更适合于立体声信号的编码。在对立体声信号进行编码的情况下,也有时特性在左右声道不同。在该情况下,针对不同声道算出另外的第一时间伸缩参数。另外,也有时左右声道的特性相似。在该情况下,两声道使用相同的第一时间伸缩参数是合理的。即,在左右声道的特性相似的情况下,使用相同的第一时间伸缩参数是更有效的。
如上所述,根据本实施方式6所涉及的编码装置12,算出作为输入语音信号的2个声道的信号中的基音模式的相似度,在该相似度比规定值大的情况下,输出使2个声道的信号缩混而得到的1个信号,在该相似度为规定值以下的情况下,输出2个声道的信号。即,编码装置12在2个声道的信号的基音模式的相似度高的情况下,基于1个信号的基音模式生成2个声道的信号共用的1个第一时间伸缩参数。这样,编码装置12只要对1个第一时间伸缩参数进行编码用于对2个声道的信号进行编码即可,能减少使用的比特数。因此,即使是基音变化大的语音信号,编码装置12也能以少的比特数使音质提高。
(实施方式7)
本实施方式7导入与M/S模式对应的解码装置。图17是示出本发明的实施方式7所涉及的解码装置21的功能性构成的框图。
如该图所示,解码装置21具备可逆译码器501、动态时间伸缩再构成部502、时间伸缩部503、M/S模式检测部504、转换译码器505以及解多路复用器506。
在此,解码装置21具备的可逆译码器501、动态时间伸缩再构成部502、时间伸缩部503、转换译码器505以及解多路复用器506具有与实施方式3中的解码装置20具备的可逆译码器201、动态时间伸缩再构成部202、时间伸缩部203、转换译码器204以及解多路复用器205同样的功能,因此详细的说明省略。
首先,输入位流被发送到解多路复用器506。并且,解多路复用器506输出编码时间伸缩参数、转换编码器信息以及编码语音信号。
并且,转换译码器505将编码语音信号解码为按照转换编码器信息进行了时间伸缩的信号,提取M/S模式信息。并且,转换译码器505将提取的M/S模式信息发送到M/S模式检测部504。
M/S模式检测部504生成示出语音信号具有的2个声道的信号中的基音模式的相似度是否比规定值大的标志。
具体地,如果M/S模式相对于帧的全部子带进行工作,M/S模式检测部504将标志设定为1,使得该M/S模式相对于时间伸缩也进行工作。否则M/S模式在谐波时间伸缩重新构成中不使用,因此M/S模式检测部504将标志设定为0。并且,M/S模式检测部504将M/S模式的标志发送到动态时间伸缩再构成部502。
动态时间伸缩再构成部502在M/S模式检测部504生成的标志示出该相似度比该规定值大的情况下,生成2个声道的信号共用的第二时间伸缩参数,在M/S模式检测部504生成的标志示出该相似度为该规定值以下的情况下,对2个声道的信号分别生成第二时间伸缩参数。
具体地,动态时间伸缩再构成部502按照该标志将利用可逆译码器501逆量化的解码时间伸缩参数重新构成为第二时间伸缩参数。
即,如果标志=1,动态时间伸缩再构成部502生成1组第二时间伸缩参数,如果标志不是1,生成2组第二时间伸缩参数。第二时间伸缩参数的生成工序与实施方式2中动态时间伸缩部102生成第一时间伸缩参数的工序同样。
如果标志=1,时间伸缩部503对时间伸缩的立体声信号适用相同的第二时间伸缩参数。另外,如果标志不是1,时间伸缩部503对左时间伸缩信号和右时间伸缩信号适用不同的第二时间伸缩参数。
如上所述,根据本实施方式7所涉及的解码装置21,在作为语音信号的2个声道的信号中的基音模式的相似度比规定值大的情况下,生成2个声道的信号共用的第二时间伸缩参数,在该相似度为规定值以下的情况下,对2个声道的信号分别生成第二时间伸缩参数。即,解码装置21在2个声道的信号的基音模式的相似度高的情况下,生成1个第二时间伸缩参数。这样,解码装置21只要使用1个第二时间伸缩参数用于对2个声道的信号进行解码即可,所以能减少使用的比特数。因此,即使是基音变化大的语音信号,解码装置21也能以少的比特数使音质提高。
(实施方式8)
本实施方式8改善实施方式6,提高解码装置中的时间伸缩的精度。改善点与实施方式5的改善点相同。图18是示出本发明的实施方式8所涉及的编码装置13的功能性构成的框图。
如该图所示,编码装置13具备M/S计算部601、缩混部602、基音模式检测部603、动态时间伸缩部604、可逆编码器605、时间伸缩部606、转换编码器607、可逆译码器608、动态时间伸缩再构成部609以及多路复用器610。
在此,M/S计算部601、缩混部602、基音模式检测部603、动态时间伸缩部604、可逆编码器605、时间伸缩部606、转换编码器607以及多路复用器610分别具有与实施方式6的编码装置12具备的M/S计算部401、缩混部402、基音模式检测部403、动态时间伸缩部404、可逆编码器405、时间伸缩部406、转换编码器407以及多路复用器408同样的功能,详细的说明省略。
即,在本实施方式8中,在实施方式6的构成中增加可逆译码器608和动态时间伸缩再构成部609。其目的与实施方式5同样,在于使得编码装置能利用与解码装置相同的第二时间伸缩参数。
此外,可逆译码器608和动态时间伸缩再构成部609具有与实施方式7的解码装置21中的可逆译码器501和动态时间伸缩再构成部502同样的功能,因此详细的说明省略。
(实施方式9)
在本实施方式9中导入具备闭环的动态时间伸缩方式的编码装置。图19是示出本发明的实施方式9所涉及的编码装置14的功能性构成的框图。
如该图所示,编码装置14具备M/S计算部701、缩混部702、基音模式检测部703、动态时间伸缩部704、可逆编码器705、可逆译码器706、动态时间伸缩再构成部707、时间伸缩部708、转换编码器709、比较部710以及多路复用器711。
此外,实施方式9的结构基于实施方式8的结构,但是增加了比较方式。即,编码装置14为在实施方式8的编码装置13的构成中追加了比较部710的构成。因此,关于除了编码装置14具备的比较部710以外的构成的详细的说明省略。
比较部710对作为转换编码器709生成的编码语音信号的第一编码信号和输入语音信号利用其他的编码方式进行了编码的第二编码信号进行比较。
即,比较部710在将编码语音信号和编码时间伸缩参数发送到多路复用器711之前确认编码语音信号。具体地,比较部710进行如下判断:在对时间伸缩进行解码后音质在整体上是否被改善。
具体地,比较部710使用可逆编码器705生成的编码时间伸缩参数对第一编码信号进行解码,算出作为与输入语音信号的差分的第一差分。另外,比较部710对第二编码信号进行解码,算出作为与输入语音信号的差分的第二差分。并且,比较部710在第一差分比第二差分小的情况下输出第一编码信号。
在此,比较部710能利用各种比较方式进行比较。作为其中的1例,有使解码信号的SNR(Signal-Noise Ratio:信噪比,SN比)与原来的信号进行比较的例子。
首先,比较部710利用转换译码器对进行了时间伸缩的编码语音信号进行解码。例如,比较部710如时间伸缩部708那样对解码的语音信号使用第二时间伸缩参数而适用时间伸缩。并且,比较部710对未伸缩的语音信号和原来的语音信号进行比较,由此算出SNR1。
接着,比较部710不适用时间伸缩就生成其他的编码语音信号。并且,比较部710利用相同的转换译码器对该编码语音信号进行解码,使该解码的语音信号与原来的语音信号比较,由此算出SNR2。
接着,比较部710对SNR1和SNR2进行比较,进行判断。如果SNR1>SNR2,比较部710选择时间伸缩,将第一编码信号、转换编码器信息以及编码时间伸缩参数发送到多路复用器711。
并且,多路复用器711复用比较部710输出的第一编码信号、转换编码器信息以及编码时间伸缩参数,生成位流。
另外,如果SNR1≤SNR2,则时间伸缩不被选择,比较部710将第二编码信号和转换编码器信息发送到多路复用器711。
此外,作为比较方式的另一方法,比较部710可以对使用的比特数进行比较来取代SNR。
这样,在本动态时间伸缩方式中,对时间伸缩前后的谐波结构进行比较,由此也进行时间伸缩的效果的评价,对时间伸缩是否适于对象帧进行判断。由此,能排出由于不正确的基音模式带来的错误。
如上所述,根据本实施方式9所涉及的编码装置14,对作为生成的编码语音信号的第一编码信号和输入语音信号利用其他的编码方式进行编码而得到的第二编码信号进行比较,在对第一编码信号进行解码而得到的信号和输入语音信号的差分比对第二编码信号进行解码而得到的信号和输入语音信号的差分小的情况下,输出第一编码信号。即,编码装置14仅在编码的精度良好的情况下输出生成的编码语音信号。由此,即使是基音变化大的语音信号,编码装置14也精度良好地进行编码,由此能以少的比特数使音质提高。
(实施方式10)
在本实施方式10中,提出在动态时间伸缩方式中使基音信息的长度可变的详细的手法。
设为本实施方式10的编码装置的结构与例如实施方式5中的编码装置11相同。此外,可以设为本实施方式10的编码装置的结构与上述的其他的实施方式相同。
本实施方式10中的编码装置11的动态时间伸缩部302对所检测的基音模式进行解析,决定基音节点的最佳数量。因此,基音节点数是可变的。为了示出基音节点数而使用长度指示符。下表示出基音节点数的长度指示符。
【表1】
指示符 | 节点数(M) |
0 | M0节点 |
1 | M1节点 |
2 | M2节点 |
3 | M3节点 |
...... | ...... |
N-1 | MN-1节点 |
并且,使用log2N比特对基音节点数的长度指示符进行编码。基音节点数M能根据编解码器的比特率灵活地应对,使得例如在64kbps的情况下M=16,在24kbps的情况下M=8或者2。另外,基音节点数M也能根据窗口尺寸等由编解码器生成的其他的参数而改变,使得例如在长窗口帧的情况下M=8,在短窗口帧的情况下M=4。
另外,下表示出基音节点数的长度指示符的一例。
【表2】
指示符 | 节点数(M) |
0(00) | 0节点 |
1(01) | 2节点 |
2(10) | 8节点 |
3(11) | 16节点 |
在该情况下,使用2比特对长度指示符进行编码。如果作为基音变化位置的节点是0,不进行时间伸缩,时间伸缩参数不在这以上进行编码。另外,如果作为基音变化位置的节点是M个,则使用M比特对定义为矢量C、相对于各位置的基音变化状态进行编码。在此,M能取得16、8以及2。如图12所示,1个比特与1个位置一致。为了示出如果在位置i上没有基音变化,则将C[i]设定为1,如果有基音变化,则为了表示在位置i上产生基音变化,将C[i]设定为0。
由可逆编码器303对C[i]是0的各节点上的基音变化值Δpi进行编码。
并且,可逆编码器303将示出基音节点数的被编码的长度指示符、示出基音变化位置的矢量C、以及基音变化率发送到多路复用器308。
这样,在本实施方式10中提出的方式使用示出基音节点的可变长度的长度指示符,由此使基于动态时间伸缩的编码进一步最佳化。
即,在现有技术中,由1帧算出一定数量的基音值。在此,本申请发明人努力研究的结果是,发现基音变化在短时间内不太发生。因此,具有与信号特性相应的适应数量的基音是更有效的。由此,能进一步残留比特数来改善音质。
(实施方式11)
在本实施方式11中,提出具备对时间伸缩参数的可变长度进行解码的方式的解码装置。例如,作为本实施方式11的解码装置的例子,能使用图13所示的解码装置20。
在本实施方式11中,时间伸缩节点的解码长度是可变的。这与在实施方式10中说明的编码装置对应,以下对实施方式11的解码装置的一例进行说明。
在实施方式11的解码装置20中,在分离位流后,将编码时间伸缩参数发送到可逆译码器201。根据实施方式10,长度指示符以log2N比特进行编码。可逆译码器201使用实施方式10中的基音节点数的长度指示符的表对基音节点数M进行解码。
在此,基音节点数M可以根据编解码器的比特率而不同,使得例如在64kbps的情况下M=16,在24kbps的情况下M=8或者2。另外,基音节点数M也能根据窗口尺寸等由编解码器生成的其他的参数而改变,使得例如在长窗口帧的情况下M=8,在短窗口帧的情况下M=4。
下表示出长度指示符的解码方式的一例。
【表3】
指示符 | 节点数(M) |
0(00) | 0节点 |
1(01) | 2节点 |
2(10) | 8节点 |
3(11) | 16节点 |
如果作为基音变化位置的节点是0,则不进行时间伸缩的,时间伸缩参数不在这以上进行被解码。
如果作为基音变化位置的节点是M个,则对M比特的基音变化位置矢量C进行解码。在此,M取得16、8以及2。1个比特与1个位置一致。在C[i]等于1的情况下,是指在位置i上没有基音变化。在C[i]等于0的情况下,是指如图12所示在位置i上有基音变化。
可逆译码器201在矢量C[i]是0的位置上对基音变化值Δpi进行解码。
该模拟代码记述为如下。
并且,标准化基音模式重新构成为如下。
【数式15】
pitchi=pitch_ratio(i)×pitchi-1
该基音模式在使时间伸缩后的语音信号的基音进行移位的时间伸缩部203内被利用。
以上对本发明的实施方式所涉及的编码装置和解码装置进行了说明,但是本发明并不限定于该实施方式。即,应当认为本次公开的实施方式在所有方面是例示而不是限制性的。本发明的范围不是由上述的说明而是由权利要求书示出,意图包含与权利要求书等同的意义和范围内的所有变更。
另外,本发明不仅能实现为这样的编码装置或者解码装置,而且也能实现为以该编码装置或者解码装置所包含的处理部进行的特征性处理为步骤的编码方法或者解码方法。另外,也能实现为使计算机执行编码方法或者解码方法所包含的特征性处理的程序。并且,这样的程序当然能通过CD-ROM等记录介质和因特网等传送介质进行流通。
另外,图8、15、16、18或者19的框图所示的编码装置、或者图13或者17的框图所示的解码装置的各功能模块可以实现为作为集成电路的LSI。这些可以单独地单芯片化,而且可以以包含一部分或者全部的方式单芯片化。
此外,在此设为LSI,但是根据集成度不同,也有时称为IC、系统LSI、超级(super)LSI、极(ultra)LSI。
另外,集成电路化的手法并不限于LSI,可以由专用电路或者通用处理器实现。可以利用在制造LSI后能编成程序的FPGA(FieldProgrammable Gate Array:现场可编程门阵列)、能重新构成LSI内部的电路单元的连接、设定的可重构处理器。
而且,如果利用半导体技术进步或者派生的不同技术置换为LSI的集成电路化的技术出现,当然可以使用该技术进行功能模块的集成化。可能有生物技术的适应等。
工业上的可利用性
本发明能适用于即使是基音变化大的语音信号也能以少的比特数使音质提高的编码装置等。
标号说明
10、11、12、13、14:编码装置
20、21:解码装置
101、301、403、603、703:基音模式检测部
102、302、404、604、704:动态时间伸缩部
103、303、405、605、705:可逆编码器
104、304、406、606、708:时间伸缩部
105、305、407、607、709:转换编码器
106、308、408、610、711:多路复用器
201、501:可逆译码器
202、502:动态时间伸缩再构成部
203、503:时间伸缩部
204、505:转换译码器
205、506:解多路复用器
306、608、706:可逆译码器
307、609、707:动态时间伸缩再构成部
401、601、701:M/S计算部
402、602、702:缩混部
504:M/S模式检测部
710:比较部
Claims (10)
1.一种编码装置,具备:
基音模式检测部,对作为示出输入语音信号的规定期间的基音变化的信息的基音模式进行检测;
动态时间伸缩部,对检测到的所述基音模式进行解析,基于解析结果决定作为在所述规定期间检测的最佳的基音数量的基音节点数,生成第一时间伸缩参数,该第一时间伸缩参数包含示出决定的所述基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、以及作为所述基音变化位置上的基音变化的比率的基音变化率的信息;
第1编码器,对生成的所述第一时间伸缩参数进行编码,生成编码时间伸缩参数;
时间伸缩部,使用由生成的所述第一时间伸缩参数得到的信息,以所述基音节点数的基音接近于规定的基准值的方式对所述基音节点数的基音中的至少一个基音进行校正;
第2编码器,对所述时间伸缩部校正后的基音的所述输入语音信号进行编码,生成编码语音信号;以及
多路复用器,对所述第1编码器生成的所述编码时间伸缩参数和所述第2编码器生成的所述编码语音信号进行复用,生成位流。
2.如权利要求1所述的编码装置,
还具备解码部,该解码部对所述第1编码器生成的所述编码时间伸缩参数进行解码,生成第二时间伸缩参数,该第二时间伸缩参数包含示出所述规定期间的基音模式中的基音节点数、基音变化位置以及基音变化率的信息,
所述时间伸缩部使用所述解码部生成的所述第二时间伸缩参数对所述基音进行校正。
3.如权利要求1或2所述的编码装置,
所述输入语音信号具有2个声道的信号,
所述编码装置还具备:
M/S计算部,算出所述2个声道的信号中的基音模式的相似度,生成示出算出的所述相似度是否比规定值大的标志;以及
缩混部,在所生成的所述标志示出所述相似度比所述规定值大的情况下,输出将所述2个声道的信号缩混而得到的1个信号,在示出所述相似度为所述规定值以下的情况下,输出所述2个声道的信号,
所述基音模式检测部对所述缩混部输出的信号分别检测基音模式。
4.如权利要求1或2所述的编码装置,
还具备比较部,对作为所述第2编码器生成的所述编码语音信号的第一编码信号和利用其他的编码方式对所述输入语音信号进行编码而得到的第二编码信号进行比较,
所述比较部使用所述第1编码器生成的所述编码时间伸缩参数对所述第一编码信号进行解码,算出作为与所述输入语音信号的差分的第一差分,
所述比较部对所述第二编码信号进行解码,算出作为与所述输入语音信号的差分的第二差分,
在所述第一差分比所述第二差分小的情况下,输出所述第一编码信号,
所述多路复用器对所述比较部输出的所述第一编码信号和所述编码时间伸缩参数进行复用,生成所述位流。
5.一种解码装置,具备:
解多路复用器,从位流中分离编码语音信号和编码时间伸缩参数,所述位流是将编码语音信号和编码时间伸缩参数复用后得到的位流,所述编码语音信号是将校正了基音后的语音信号进行编码而得到的编码语音信号,所述编码时间伸缩参数是将用于校正基音的第一时间伸缩参数进行编码而得到的编码时间伸缩参数;
第1解码部,对所述编码时间伸缩参数进行解码,生成第二时间伸缩参数,该第二时间伸缩参数包含示出作为在规定期间检测的基音的数量的基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、以及作为所述基音变化位置上的基音变化的比率的基音变化率的信息;
第2解码部,对所述编码语音信号进行解码,以所述基音节点数的基音接近于规定的基准值的方式生成校正了基音后的语音信号;以及
时间伸缩部,使用所述第二时间伸缩参数,以所述基音节点数的基音返回到校正前的基音的方式对所述基音节点数的基音中的至少一个基音进行变更,由此将校正了所述基音后的语音信号转换为校正前的语音信号。
6.如权利要求5所述的解码装置,
所述语音信号具有2个声道的信号,
所述解码装置还具备M/S模式检测部,生成示出所述2个声道的信号中的基音模式的相似度是否比规定值大的标志,
所述第1解码部在所生成的所述标志示出所述相似度比所述规定值大的情况下,生成所述2个声道的信号共用的所述第二时间伸缩参数,在示出所述相似度为所述规定值以下的情况下,对所述2个声道的信号分别生成所述第二时间伸缩参数。
7.一种编码方法,包含:
基音模式检测步骤,对作为示出输入语音信号的规定期间的基音变化的信息的基音模式进行检测;
动态时间伸缩步骤,对检测到的所述基音模式进行解析,基于解析结果决定作为在所述规定期间检测的最佳的基音数量的基音节点数,生成第一时间伸缩参数,该第一时间伸缩参数包含示出决定的所述基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、以及作为所述基音变化位置上的基音变化的比率的基音变化率的信息;
第1编码步骤,对生成的所述第一时间伸缩参数进行编码,生成编码时间伸缩参数;
时间伸缩步骤,使用由生成的所述第一时间伸缩参数得到的信息,以所述基音节点数的基音接近于规定的基准值的方式对所述基音节点数的基音中的至少一个基音进行校正;
第2编码步骤,对在所述时间伸缩步骤中校正的基音的所述输入语音信号进行编码,生成编码语音信号;以及
复用步骤,在所述第1编码步骤中生成的所述编码时间伸缩参数和在所述第2编码步骤中生成的所述编码语音信号进行复用,生成位流。
8.一种解码方法,包含:
分离步骤,从位流中分离编码语音信号和编码时间伸缩参数,所述位流是将编码语音信号和编码时间伸缩参数复用后得到的位流,所述编码语音信号是将校正了基音后的语音信号进行编码而得到的编码语音信号,所述编码时间伸缩参数是将用于校正基音的第一时间伸缩参数进行编码而得到的编码时间伸缩参数;
第1解码步骤,对所述编码时间伸缩参数进行解码,生成第二时间伸缩参数,该第二时间伸缩参数包含示出作为在规定期间检测的基音的数量的基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、以及作为所述基音变化位置上的基音变化的比率的基音变化率的信息;
第2解码步骤,对所述编码语音信号进行解码,以所述基音节点数的基音接近于规定的基准值的方式生成校正了基音的语音信号;以及
时间伸缩步骤,使用所述第二时间伸缩参数,以所述基音节点数的基音返回到校正前的基音的方式对所述基音节点数的基音中的至少一个基音进行变更,由此将校正了所述基音后的语音信号转换为校正前的语音信号。
9.一种集成电路,具备:
基音模式检测部,对作为示出输入语音信号的规定期间的基音变化的信息的基音模式进行检测;
动态时间伸缩部,对检测到的所述基音模式进行解析,基于解析结果决定作为在所述规定期间检测的最佳的基音数量的基音节点数,生成第一时间伸缩参数,该第一时间伸缩参数包含示出决定的所述基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、以及作为所述基音变化位置上的基音变化的比率的基音变化率的信息;
第1编码器,对生成的所述第一时间伸缩参数进行编码,生成编码时间伸缩参数;
时间伸缩部,使用由生成的所述第一时间伸缩参数得到的信息,以所述基音节点数的基音接近于规定的基准值的方式对所述基音节点数的基音中的至少一个基音进行校正;
第2编码器,对所述时间伸缩部校正后的基音的所述输入语音信号进行编码,生成编码语音信号;以及
多路复用器,对所述第1编码器生成的所述编码时间伸缩参数和所述第2编码器生成的所述编码语音信号进行复用,生成位流。
10.一种集成电路,具备:
解多路复用器,从位流中分离编码语音信号和编码时间伸缩参数,所述位流是将编码语音信号和编码时间伸缩参数复用后得到的位流,所述编码语音信号是将校正了基音后的语音信号进行编码而得到的编码语音信号,所述编码时间伸缩参数是将用于校正基音的第一时间伸缩参数进行编码而得到的编码时间伸缩参数;
第1解码部,对所述编码时间伸缩参数进行解码,生成第二时间伸缩参数,该第二时间伸缩参数包含示出作为在规定期间检测的基音的数量的基音节点数、作为在所述基音节点数的基音中发生基音变化的位置的基音变化位置、以及作为所述基音变化位置上的基音变化的比率的基音变化率的信息;
第2解码部,对所述编码语音信号进行解码,以所述基音节点数的基音接近于规定的基准值的方式生成校正了基音后的语音信号;以及
时间伸缩部,使用所述第二时间伸缩参数,以所述基音节点数的基音返回到校正前的基音的方式对所述基音节点数的基音中的至少一个基音进行变更,由此将校正了所述基音后的语音信号转换为校正前的语音信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010226681 | 2010-10-06 | ||
JP2010-226681 | 2010-10-06 | ||
PCT/JP2011/005615 WO2012046447A1 (ja) | 2010-10-06 | 2011-10-05 | 符号化装置、復号装置、符号化方法及び復号方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103098130A CN103098130A (zh) | 2013-05-08 |
CN103098130B true CN103098130B (zh) | 2014-11-26 |
Family
ID=45927452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180037861.1A Active CN103098130B (zh) | 2010-10-06 | 2011-10-05 | 编码装置、解码装置、编码方法以及解码方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9117461B2 (zh) |
EP (1) | EP2626856B1 (zh) |
JP (1) | JPWO2012046447A1 (zh) |
KR (1) | KR101809298B1 (zh) |
CN (1) | CN103098130B (zh) |
WO (1) | WO2012046447A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
CN103098130B (zh) * | 2010-10-06 | 2014-11-26 | 松下电器产业株式会社 | 编码装置、解码装置、编码方法以及解码方法 |
FR2972320B1 (fr) * | 2011-03-03 | 2013-10-18 | Ass Pour La Rech Et Le Dev De Methodes Et Processus Ind Armines | Codage de donnees sans perte pour communication bidirectionnelle dans une session collaborative d'echange de contenu multimedia |
KR20180050947A (ko) * | 2016-11-07 | 2018-05-16 | 삼성전자주식회사 | 대표 파형 제공 장치 및 방법 |
KR101925217B1 (ko) * | 2017-06-20 | 2018-12-04 | 한국과학기술원 | 가창 표현 이식 시스템 |
CN112151045B (zh) * | 2019-06-29 | 2024-06-04 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
CN113192517B (zh) * | 2020-01-13 | 2024-04-26 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111884A (zh) * | 2005-01-27 | 2008-01-23 | 森阔艺术有限公司 | 用于声学特征的同步修改的方法和装置 |
CN101501759A (zh) * | 2006-06-30 | 2009-08-05 | 弗劳恩霍夫应用研究促进协会 | 具有动态可变规整特性的音频编码器、音频解码器和音频处理器 |
CN101548318A (zh) * | 2006-12-15 | 2009-09-30 | 松下电器产业株式会社 | 编码装置、解码装置以及其方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108085A (ja) * | 1991-10-19 | 1993-04-30 | Ricoh Co Ltd | 音声合成装置 |
US5285498A (en) | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JP2002268694A (ja) * | 2001-03-13 | 2002-09-20 | Nippon Hoso Kyokai <Nhk> | ステレオ信号の符号化方法及び符号化装置 |
JP4047296B2 (ja) | 2004-03-12 | 2008-02-13 | 株式会社東芝 | 音声復号化方法及び音声復号化装置 |
WO2004090870A1 (ja) | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
WO2006079813A1 (en) | 2005-01-27 | 2006-08-03 | Synchro Arts Limited | Methods and apparatus for use in sound modification |
US7825321B2 (en) | 2005-01-27 | 2010-11-02 | Synchro Arts Limited | Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
JP2008262140A (ja) * | 2007-04-11 | 2008-10-30 | Arex:Kk | 音程変換装置及び音程変換方法 |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US8296131B2 (en) * | 2008-12-30 | 2012-10-23 | Audiocodes Ltd. | Method and apparatus of providing a quality measure for an output voice signal generated to reproduce an input voice signal |
CN103098130B (zh) * | 2010-10-06 | 2014-11-26 | 松下电器产业株式会社 | 编码装置、解码装置、编码方法以及解码方法 |
-
2011
- 2011-10-05 CN CN201180037861.1A patent/CN103098130B/zh active Active
- 2011-10-05 WO PCT/JP2011/005615 patent/WO2012046447A1/ja active Application Filing
- 2011-10-05 US US13/816,741 patent/US9117461B2/en active Active
- 2011-10-05 EP EP11830381.7A patent/EP2626856B1/en active Active
- 2011-10-05 JP JP2012537591A patent/JPWO2012046447A1/ja active Pending
- 2011-10-05 KR KR1020137001556A patent/KR101809298B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111884A (zh) * | 2005-01-27 | 2008-01-23 | 森阔艺术有限公司 | 用于声学特征的同步修改的方法和装置 |
CN101501759A (zh) * | 2006-06-30 | 2009-08-05 | 弗劳恩霍夫应用研究促进协会 | 具有动态可变规整特性的音频编码器、音频解码器和音频处理器 |
CN101548318A (zh) * | 2006-12-15 | 2009-09-30 | 松下电器产业株式会社 | 编码装置、解码装置以及其方法 |
Non-Patent Citations (4)
Title |
---|
JP特开平5-108085A 1993.04.30 * |
Milan Jelínek.Wideband Speech Coding Advances in VMR-WB Standard.《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》.2007,第15卷(第4期),1167-1179. * |
Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio;Xuejing Sun;《Acoustics, Speech, and Signal Processing (ICASSP),2002 IEEE International Conference on》;20010517;第1卷;I-333 - I-336 * |
Xuejing Sun.Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio.《Acoustics, Speech, and Signal Processing (ICASSP),2002 IEEE International Conference on》.2001,第1卷I-333 - I-336. * |
Also Published As
Publication number | Publication date |
---|---|
US9117461B2 (en) | 2015-08-25 |
EP2626856A4 (en) | 2017-07-19 |
EP2626856B1 (en) | 2020-07-29 |
CN103098130A (zh) | 2013-05-08 |
WO2012046447A1 (ja) | 2012-04-12 |
EP2626856A1 (en) | 2013-08-14 |
JPWO2012046447A1 (ja) | 2014-02-24 |
KR101809298B1 (ko) | 2017-12-14 |
US20130144611A1 (en) | 2013-06-06 |
KR20130116862A (ko) | 2013-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103098130B (zh) | 编码装置、解码装置、编码方法以及解码方法 | |
JP6518361B2 (ja) | オーディオ/音声符号化方法およびオーディオ/音声符号化装置 | |
EP1400954B1 (en) | Entropy coding by adapting coding between level and run-length/level modes | |
US11756560B2 (en) | Filling of non-coded sub-vectors in transform coded audio signals | |
US12027175B2 (en) | Transform encoding/decoding of harmonic audio signals | |
CN102272832B (zh) | 基于峰值检测的选择性缩放掩码计算 | |
BR122018077099B1 (pt) | método para decodificação de sinal de áudio e decodificador de sinal de áudio | |
CN106373583A (zh) | 基于理想软阈值掩模irm的多音频对象编、解码方法 | |
CN104737227A (zh) | 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法 | |
Huang et al. | Lossless audio compression in the new IEEE standard for advanced audio coding | |
US9830919B2 (en) | Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method | |
CN1182514C (zh) | 频谱的增强方法和装置 | |
US7426462B2 (en) | Fast codebook selection method in audio encoding | |
CN101350199A (zh) | 音频编码器及音频编码方法 | |
CN104269173A (zh) | 切换模式的音频带宽扩展装置与方法 | |
CN109427338B (zh) | 立体声信号的编码方法和编码装置 | |
JP2003233397A (ja) | オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置 | |
CN101388212A (zh) | 基于噪声整形的语音编解码方法、编解码装置 | |
KR101786863B1 (ko) | 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계 | |
Tahilramani et al. | A hybrid scheme of information hiding incorporating steganography as well as watermarking in the speech signal using Quantization index modulation (QIM) | |
JP2005004119A (ja) | 音響信号符号化装置及び音響信号復号化装置 | |
Singh et al. | An Enhanced Low Bit Rate Audio Codec Using Discrete Wavelet Transform | |
Fék et al. | Comparing scalar and lattice based encoding of wavelet coefficients in sinusoidal plus wavelet packet coding | |
Yahampath | Multiple-Description Multistage Vector Quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |