JP2012053493A - 音声復号装置、音声復号方法、及び音声復号プログラム - Google Patents

音声復号装置、音声復号方法、及び音声復号プログラム Download PDF

Info

Publication number
JP2012053493A
JP2012053493A JP2011271559A JP2011271559A JP2012053493A JP 2012053493 A JP2012053493 A JP 2012053493A JP 2011271559 A JP2011271559 A JP 2011271559A JP 2011271559 A JP2011271559 A JP 2011271559A JP 2012053493 A JP2012053493 A JP 2012053493A
Authority
JP
Japan
Prior art keywords
time envelope
frequency
unit
linear prediction
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011271559A
Other languages
English (en)
Other versions
JP4921611B2 (ja
Inventor
Kosuke Tsujino
孝輔 辻野
Kei Kikuiri
圭 菊入
Nobuhiko Naka
信彦 仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2011271559A priority Critical patent/JP4921611B2/ja
Publication of JP2012053493A publication Critical patent/JP2012053493A/ja
Application granted granted Critical
Publication of JP4921611B2 publication Critical patent/JP4921611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】SBRに代表される周波数領域での帯域拡張技術において、ビットレートを著しく増大させることなく、発生するプリエコー・ポストエコーを軽減し復号信号の主観的品質を向上させる。
【解決手段】周波数領域で表現された信号に対し、共分散法または自己相関法によって周波数方向に線形予測分析を行って線形予測係数を求め、さらに求められた線形予測係数に対しフィルタ強度の調整を行った後、調整後の係数により信号を周波数方向にフィルタ処理することにより、信号の時間エンベロープを変形する。
【選択図】図1

Description

本発明は、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、音声符号化プログラム及び音声復号プログラムに関する。
聴覚心理を利用して人間の知覚に不必要な情報を取り除くことにより信号のデータ量を数十分の一に圧縮する音声音響符号化技術は、信号の伝送・蓄積において極めて重要な技術である。広く利用されている知覚的オーディオ符号化技術の例として、“ISO/IEC MPEG”で標準化された“MPEG4 AAC”などを挙げることができる。
音声符号化の性能をさらに向上させ、低いビットレートで高い音声品質を得る方法として、音声の低周波成分を用いて高周波成分を生成する帯域拡張技術が近年広く用いられるようになった。帯域拡張技術の代表的な例は“MPEG4 AAC”で利用されるSBR(SpectralBand Replication)技術である。SBRでは、QMF(Quadrature MirrorFilter)フィルタバンクによって周波数領域に変換された信号に対し、低周波帯域から高周波帯域へのスペクトル係数の複写を行うことにより高周波成分を生成した後、複写された係数のスペクトル包絡とトーナリティを調整することによって高周波成分の調整を行う。帯域拡張技術を利用した音声符号化方式は、信号の高周波成分を少量の補助情報のみを用いて再生することができるため、音声符号化の低ビットレート化のために有効である。
SBRに代表される周波数領域での帯域拡張技術は、周波数領域で表現されたスペクトル係数に対してスペクトル包絡とトーナリティの調整を、スペクトル係数に対するゲインの調整、時間方向の線形予測逆フィルタ処理、ノイズの重畳によって行う。この調整処理により、スピーチ信号や拍手、カスタネットのような時間エンベロープの変化の大きい信号を符号化した際には復号信号においてプリエコー又はポストエコーと呼ばれる残響状の雑音が知覚される場合がある。この問題は、調整処理の過程で高周波成分の時間エンベロープが変形し、多くの場合は調整前より平坦な形状になることに起因する。調整処理により平坦になった高周波成分の時間エンベロープは符号前の原信号における高周波成分の時間エンベロープと一致せず、プリエコー・ポストエコーの原因となる。
同様のプリエコー・ポストエコーの問題は、“MPEG Surround”およびパラメトリックステレオに代表される、パラメトリック処理を用いたマルチチャネル音響符号化においても発生する。マルチチャネル音響符号化における復号器は復号信号に残響フィルタによる無相関化処理を施す手段を含むが、無相関化処理の過程において信号の時間エンベロープが変形し、プリエコー・ポストエコーと同様の再生信号の劣化が生じる。この課題に対する解決法として、TES(Temporal Envelope Shaping)技術が存在する(特許文献1)。TES技術では、QMF領域で表現された無相関化処理前の信号に対し周波数方向に線形予測分析を行い、線形予測係数を得た後、得られた線形予測係数を用いて無相関化処理後の信号に対し周波数方向に線形予測合成フィルタ処理を行う。この処理により、TES技術は無相関化処理前の信号の持つ時間エンベロープを抽出し、それに合わせて無相関化処理後の信号の時間エンベロープを調整する。無相関化処理前の信号は歪の少ない時間エンベロープを持つため、以上の処理により、無相関化処理後の信号の時間エンベロープを歪の少ない形状に調整し、プリエコー・ポストエコーの改善された再生信号を得ることができる。
米国特許出願公開第2006/0239473号明細書
以上に示したTES技術は、無相関化処理前の信号が歪の少ない時間エンベロープを持つことを利用したものである。しかし、SBR復号器では信号の高周波成分を低周波成分からの信号複写によって複製するため、高周波成分に関する歪の少ない時間エンベロープを得ることができない。この問題に対する解決法の一つとして、SBR符号器において入力信号の高周波成分を分析し、分析の結果得られた線形予測係数を量子化し、ビットストリームに多重化して伝送する方法が考えられる。これにより、SBR復号器において高周波成分の時間エンベロープに関する歪の少ない情報を含む線形予測係数を得ることができる。しかし、この場合、量子化された線形予測係数の伝送に多くの情報量が必要となり、符号化ビットストリーム全体のビットレートが著しく増大してしまうという問題を伴う。そこで、本発明の目的は、SBRに代表される周波数領域での帯域拡張技術において、ビットレートを著しく増大させることなく、発生するプリエコー・ポストエコーを軽減し復号信号の主観的品質を向上させることである。
本発明の音声符号化装置は、音声信号を符号化する音声符号化装置であって、前記音声信号の低周波成分を符号化するコア符号化手段と、前記音声信号の低周波成分の時間エンベロープを用いて、前記音声信号の高周波成分の時間エンベロープの近似を得るための時間エンベロープ補助情報を算出する時間エンベロープ補助情報算出手段と、少なくとも、前記コア符号化手段によって符号化された前記低周波成分と、前記時間エンベロープ補助情報算出手段によって算出された前記時間エンベロープ補助情報とが多重化されたビットストリームを生成するビットストリーム多重化手段と、を備える、ことを特徴とする。
本発明の音声符号化装置では、前記時間エンベロープ補助情報は、所定の解析区間内において前記音声信号の高周波成分における時間エンベロープの変化の急峻さを示すパラメータを表すのが好ましい。
本発明の音声符号化装置では、前記音声信号を周波数領域に変換する周波数変換手段を更に備え、前記時間エンベロープ補助情報算出手段は、前記周波数変換手段によって周波数領域に変換された前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って取得された高周波線形予測係数に基づいて、前記時間エンベロープ補助情報を算出するのが好ましい。
本発明の音声符号化装置では、前記時間エンベロープ補助情報算出手段は、前記周波数変換手段によって周波数領域に変換された前記音声信号の低周波側係数に対し周波数方向に線形予測分析を行って低周波線形予測係数を取得し、該低周波線形予測係数と前記高周波線形予測係数とに基づいて前記時間エンベロープ補助情報を算出するのが好ましい。
本発明の音声符号化装置では、前記時間エンベロープ補助情報算出手段は、前記低周波線形予測係数及び前記高周波線形予測係数のそれぞれから予測ゲインを取得し、当該二つの予測ゲインの大小に基づいて前記時間エンベロープ補助情報を算出するのが好ましい。
本発明の音声符号化装置では、前記時間エンベロープ補助情報算出手段は、前記音声信号から高周波成分を分離し、時間領域で表現された時間エンベロープ情報を当該高周波成分から取得し、当該時間エンベロープ情報の時間的変化の大きさに基づいて前記時間エンベロープ補助情報を算出するのが好ましい。
本発明の音声符号化装置では、前記時間エンベロープ補助情報は、前記音声信号の低周波成分に対し周波数方向への線形予測分析を行って得られる低周波線形予測係数を用いて高周波線形予測係数を取得するための差分情報を含むのが好ましい。
本発明の音声符号化装置では、前記音声信号を周波数領域に変換する周波数変換手段を更に備え、前記時間エンベロープ補助情報算出手段は、前記周波数変換手段によって周波数領域に変換された前記音声信号の低周波成分及び高周波側係数のそれぞれに対し周波数方向に線形予測分析を行って低周波線形予測係数と高周波線形予測係数とを取得し、当該低周波線形予測係数及び高周波線形予測係数の差分を取得することによって前記差分情報を取得するのが好ましい。
本発明の音声符号化装置では、前記差分情報は、LSP(Linear SpectrumPair)、ISP(Immittance Spectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(ImmittanceSpectrum Frequency)、PARCOR係数のいずれかの領域における線形予測係数の差分を表すのが好ましい。
本発明の音声符号化装置は、音声信号を符号化する音声符号化装置であって、前記音声信号の低周波成分を符号化するコア符号化手段と、前記音声信号を周波数領域に変換する周波数変換手段と、前記周波数変換手段によって周波数領域に変換された前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って高周波線形予測係数を取得する線形予測分析手段と、前記線形予測分析手段によって取得された前記高周波線形予測係数を時間方向に間引く予測係数間引き手段と、前記予測係数間引き手段によって間引きされた後の前記高周波線形予測係数を量子化する予測係数量子化手段と、少なくとも前記コア符号化手段による符号化後の前記低周波成分と前記予測係数量子化手段による量子化後の前記高周波線形予測係数とが多重化されたビットストリームを生成するビットストリーム多重化手段と、を備える、ことを特徴とする。
本発明の音声復号装置は、符号化された音声信号を復号する音声復号装置であって、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整手段と、前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を用いて、前記高周波生成手段によって生成された前記高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、を備えることを特徴とする。
本発明の音声復号装置では、前記高周波成分を調整する高周波調整手段を更に備え、前記周波数変換手段は、実数又は複素数の係数を持つ64分割QMFフィルタバンクであり、前記周波数変換手段、前記高周波生成手段、前記高周波調整手段は“ISO/IEC 14496-3”に規定される“MPEG4 AAC”におけるSBR復号器(SBR:SpectralBand Replication)に準拠した動作をするのが好ましい。
本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分に周波数方向の線形予測分析を行って低周波線形予測係数を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記低周波線形予測係数を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の前記高周波成分に対し前記時間エンベロープ調整手段によって調整された線形予測係数を用いて周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形するのが好ましい。
本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分の時間スロットごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に前記調整後の時間エンベロープ情報を重畳することにより高周波成分の時間エンベロープを変形するのが好ましい。
本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に前記調整後の時間エンベロープ情報を乗算することにより高周波成分の時間エンベロープを変形するのが好ましい。
本発明の音声復号装置では、前記時間エンベロープ補助情報は、線形予測係数の強度の調整に用いるためのフィルタ強度パラメータを表すのが好ましい。
本発明の音声復号装置では、前記時間エンベロープ補助情報は、前記時間エンベロープ情報の時間変化の大きさを示すパラメータを表すのが好ましい。
本発明の音声復号装置では、前記時間エンベロープ補助情報は、前記低周波線形予測係数に対する線形予測係数の差分情報を含むのが好ましい。
本発明の音声復号装置では、前記差分情報は、LSP(Linear SpectrumPair)、ISP(Immittance Spectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(ImmittanceSpectrum Frequency)、PARCOR係数のいずれかの領域における線形予測係数の差分を表すのが好ましい。
本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分に対し周波数方向の線形予測分析を行って前記低周波線形予測係数を取得するとともに、当該周波数領域の前記低周波成分の時間スロットごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記低周波線形予測係数を調整するとともに前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に対し前記時間エンベロープ調整手段によって調整された線形予測係数を用いて周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形するとともに当該周波数領域の前記高周波成分に前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を重畳することにより前記高周波成分の時間エンベロープを変形するのが好ましい。
本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分に対し周波数方向の線形予測分析を行って前記低周波線形予測係数を取得するとともに、当該周波数領域の前記低周波成分のQMFサブバンドサンプルごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記低周波線形予測係数を調整するとともに前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に対し前記時間エンベロープ調整手段による調整後の線形予測係数を用いて周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形するとともに当該周波数領域の前記高周波成分に前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を乗算することにより前記高周波成分の時間エンベロープを変形するのが好ましい。
本発明の音声復号装置では、前記時間エンベロープ補助情報は、線形予測係数のフィルタ強度と、前記時間エンベロープ情報の時間変化の大きさとの両方を示すパラメータを表すのが好ましい。
本発明の音声復号装置は、符号化された音声信号を復号する音声復号装置であって、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと線形予測係数とに分離するビットストリーム分離手段と、前記線形予測係数を時間方向に補間又は補外する線形予測係数補間・補外手段と、前記線形予測係数補間・補外手段によって補間又は補外された線形予測係数を用いて周波数領域で表現された高周波成分に周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形する時間エンベロープ変形手段と、を備える、ことを特徴とする。
本発明の音声符号化方法は、音声信号を符号化する音声符号化装置を用いた音声符号化方法であって、前記音声符号化装置が、前記音声信号の低周波成分を符号化するコア符号化ステップと、前記音声符号化装置が、前記音声信号の低周波成分の時間エンベロープを用いて、前記音声信号の高周波成分の時間エンベロープの近似を得るための時間エンベロープ補助情報を算出する時間エンベロープ補助情報算出ステップと、前記音声符号化装置が、少なくとも、前記コア符号化ステップにおいて符号化した前記低周波成分と、前記時間エンベロープ補助情報算出ステップにおいて算出した前記時間エンベロープ補助情報とが多重化されたビットストリームを生成するビットストリーム多重化ステップと、を備える、ことを特徴とする。
本発明の音声符号化方法は、音声信号を符号化する音声符号化装置を用いた音声符号化方法であって、前記音声符号化装置が、前記音声信号の低周波成分を符号化するコア符号化ステップと、前記音声符号化装置が、前記音声信号を周波数領域に変換する周波数変換ステップと、前記音声符号化装置が、前記周波数変換ステップにおいて周波数領域に変換した前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って高周波線形予測係数を取得する線形予測分析ステップと、前記音声符号化装置が、前記線形予測分析ステップにおいて取得した前記高周波線形予測係数を時間方向に間引く予測係数間引きステップと、前記音声符号化装置が、前記予測係数間引きステップにおける間引き後の前記高周波線形予測係数を量子化する予測係数量子化ステップと、前記音声符号化装置が、少なくとも前記コア符号化ステップにおける符号化後の前記低周波成分と前記予測係数量子化ステップにおける量子化後の前記高周波線形予測係数とが多重化されたビットストリームを生成するビットストリーム多重化ステップと、を備える、ことを特徴とする。
本発明の音声復号方法は、符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離ステップと、前記音声復号装置が、前記ビットストリーム分離ステップにおいて分離した前記符号化ビットストリームを復号して低周波成分を得るコア復号ステップと、前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップと、前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整ステップと、前記音声復号装置が、前記時間エンベロープ調整ステップにおける調整後の前記時間エンベロープ情報を用いて、前記高周波生成ステップにおいて生成した前記高周波成分の時間エンベロープを変形する時間エンベロープ変形ステップと、を備えることを特徴とする。
本発明の音声復号方法は、符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと線形予測係数とに分離するビットストリーム分離ステップと、前記音声復号装置が、前記線形予測係数を時間方向に補間又は補外する線形予測係数補間・補外ステップと、前記音声復号装置が、前記線形予測係数補間・補外ステップにおいて補間又は補外した前記線形予測係数を用いて、周波数領域で表現された高周波成分に周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形する時間エンベロープ変形ステップと、を備える、ことを特徴とする。
本発明の音声符号化プログラムは、音声信号を符号化するために、コンピュータ装置を、前記音声信号の低周波成分を符号化するコア符号化手段、前記音声信号の低周波成分の時間エンベロープを用いて、前記音声信号の高周波成分の時間エンベロープの近似を得るための時間エンベロープ補助情報を算出する時間エンベロープ補助情報算出手段、及び、少なくとも、前記コア符号化手段によって符号化された前記低周波成分と、前記時間エンベロープ補助情報算出手段によって算出された前記時間エンベロープ補助情報とが多重化されたビットストリームを生成するビットストリーム多重化手段、として機能させることを特徴とする。
本発明の音声符号化プログラムは、音声信号を符号化するために、コンピュータ装置を、前記音声信号の低周波成分を符号化するコア符号化手段、前記音声信号を周波数領域に変換する周波数変換手段、前記周波数変換手段によって周波数領域に変換された前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って高周波線形予測係数を取得する線形予測分析手段、前記線形予測分析手段によって取得された前記高周波線形予測係数を時間方向に間引く予測係数間引き手段、前記予測係数間引き手段によって間引きされた後の前記高周波線形予測係数を量子化する予測係数量子化手段、及び、少なくとも前記コア符号化手段による符号化後の前記低周波成分と前記予測係数量子化手段による量子化後の前記高周波線形予測係数とが多重化されたビットストリームを生成するビットストリーム多重化手段、として機能させることを特徴とする。
本発明の音声復号プログラムは、符号化された音声信号を復号するために、コンピュータ装置を、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段、前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段、前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段、前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段、前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段、前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整手段、及び、前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を用いて、前記高周波生成手段によって生成された前記高周波成分の時間エンベロープを変形する時間エンベロープ変形手段、として機能させることを特徴とする。
本発明の音声復号プログラムは、符号化された音声信号を復号するために、コンピュータ装置を、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと線形予測係数とに分離するビットストリーム分離手段、前記線形予測係数を時間方向に補間又は補外する線形予測係数補間・補外手段、及び、前記線形予測係数補間・補外手段によって補間又は補外された線形予測係数を用いて周波数領域で表現された高周波成分に周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形する時間エンベロープ変形手段、として機能させることを特徴とする。
本発明の音声復号装置では、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の前記高周波成分に対し周波数方向の線形予測フィルタ処理を行った後、前記線形予測フィルタ処理の結果得られた高周波成分の電力を前記線形予測フィルタ処理前と等しい値に調整するのが好ましい。
本発明の音声復号装置では、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の前記高周波成分に対し周波数方向の線形予測フィルタ処理を行った後、前記線形予測フィルタ処理の結果得られた高周波成分の任意の周波数範囲内の電力を前記線形予測フィルタ処理前と等しい値に調整するのが好ましい。
本発明の音声復号装置では、前記時間エンベロープ補助情報は、前記調整後の前記時間エンベロープ情報における最小値と平均値の比率であるのが好ましい。
本発明の音声復号装置では、前記時間エンベロープ変形手段は、前記周波数領域の高周波成分のSBRエンベロープ時間セグメント内での電力が時間エンベロープの変形の前と後で等しくなるように前記調整後の時間エンベロープの利得を制御した後に、前記周波数領域の高周波成分に前記利得制御された時間エンベロープを乗算することにより高周波成分の時間エンベロープを変形するのが好ましい。
本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分のQMFサブバンドサンプルごとの電力を取得し、さらにSBRエンベロープ時間セグメント内での平均電力を用いて前記QMFサブバンドサンプルごとの電力を正規化することによって、各QMFサブバンドサンプルへ乗算されるべきゲイン係数として表現された時間エンベロープ情報を取得するのが好ましい。
本発明の音声復号装置は、符号化された音声信号を復号する音声復号装置であって、前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、前記ビットストリームを分析して時間エンベロープ補助情報を生成する時間エンベロープ補助情報生成部と、前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整手段と、前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を用いて、前記高周波生成手段によって生成された前記高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、を備える、ことを特徴とする。
本発明の音声復号装置では、前記高周波調整手段に相当する、一次高周波調整手段と、二次高周波調整手段とを具備し、前記一次高周波調整手段は、前記高周波調整手段に相当する処理の一部を含む処理を実行し、前記時間エンベロープ変形手段は、前記一次高周波調整手段の出力信号に対し時間エンベロープの変形を行い、前記二次高周波調整手段は、前記時間エンベロープ変形手段の出力信号に対して、前記高周波調整手段に相当する処理のうち前記一次高周波調整手段で実行されない処理を実行するのが好ましく、前記二次高周波調整手段は、SBRの復号過程における正弦波の付加処理であるのが好ましい。
本発明によれば、SBRに代表される周波数領域での帯域拡張技術において、ビットレートを著しく増大させることなく、発生するプリエコー・ポストエコーを軽減し復号信号の主観的品質を向上できる。
第1の実施形態に係る音声符号化装置の構成を示す図である。 第1の実施形態に係る音声符号化装置の動作を説明するためのフローチャートである。 第1の実施形態に係る音声復号装置の構成を示す図である。 第1の実施形態に係る音声復号装置の動作を説明するためのフローチャートである。 第1の実施形態の変形例1に係る音声符号化装置の構成を示す図である。 第2の実施形態に係る音声符号化装置の構成を示す図である。 第2の実施形態に係る音声符号化装置の動作を説明するためのフローチャートである。 第2の実施形態に係る音声復号装置の構成を示す図である。 第2の実施形態に係る音声復号装置の動作を説明するためのフローチャートである。 第3の実施形態に係る音声符号化装置の構成を示す図である。 第3の実施形態に係る音声符号化装置の動作を説明するためのフローチャートである。 第3の実施形態に係る音声復号装置の構成を示す図である。 第3の実施形態に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態に係る音声復号装置の構成を示す図である。 第4の実施形態の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第1の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第1の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第1の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第1の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第2の実施形態の変形例に係る音声復号装置の構成を示す図である。 第2の実施形態の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第2の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第2の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第4の実施形態の他の変形例に係る音声復号装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。 第1の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。 第1の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。 第2の実施形態の変形例に係る音声符号化装置の構成を示す図である。 第2の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。 第4の実施形態に係る音声符号化装置の構成を示す図である。 第4の実施形態の変形例に係る音声符号化装置の構成を示す図である。 第4の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。
以下、図面を参照して、本発明に係る好適な実施形態について詳細に説明する。なお、図面の説明において、可能な場合には、同一要素には同一符号を付し、重複する説明を省略する。
(第1の実施形態)
図1は、第1の実施形態に係る音声符号化装置11の構成を示す図である。音声符号化装置11は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図2のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声符号化装置11を統括的に制御する。音声符号化装置11の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
音声符号化装置11は、機能的には、周波数変換部1a(周波数変換手段)、周波数逆変換部1b、コアコーデック符号化部1c(コア符号化手段)、SBR符号化部1d、線形予測分析部1e(時間エンベロープ補助情報算出手段)、フィルタ強度パラメータ算出部1f(時間エンベロープ補助情報算出手段)及びビットストリーム多重化部1g(ビットストリーム多重化手段)を備える。図1に示す音声符号化装置11の周波数変換部1a〜ビットストリーム多重化部1gは、音声符号化装置11のCPUが音声符号化装置11の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声符号化装置11のCPUは、このコンピュータプログラムを実行することによって(図1に示す周波数変換部1a〜ビットストリーム多重化部1gを用いて)、図2のフローチャートに示す処理(ステップSa1〜ステップSa7の処理)を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置11のROMやRAM等の内蔵メモリに格納されるものとする。
周波数変換部1aは、音声符号化装置11の通信装置を介して受信された外部からの入力信号を多分割QMFフィルタバンクにより分析し、QMF領域の信号q(k,r)を得る(ステップSa1の処理)。ただし、k(0≦k≦63)は周波数方向のインデックスであり、rは時間スロットを示すインデックスである。周波数逆変換部1bは、周波数変換部1aから得られたQMF領域の信号のうち、低周波側の半数の係数をQMFフィルタバンクにより合成し、入力信号の低周波成分のみを含むダウンサンプルされた時間領域信号を得る(ステップSa2の処理)。コアコーデック符号化部1cは、ダウンサンプルされた時間領域信号を符号化し、符号化ビットストリームを得る(ステップSa3の処理)。コアコーデック符号化部1cにおける符号化はCELP方式に代表される音声符号化方式に基づいてもよく、またAACに代表される変換符号化やTCX(Transform Coded Excitation)方式などの音響符号化に基づいてもよい。
SBR符号化部1dは、周波数変換部1aからQMF領域の信号を受け取り、高周波成分の電力・信号変化・トーナリティ等の分析に基づいてSBR符号化を行い、SBR補助情報を得る(ステップSa4の処理)。周波数変換部1aにおけるQMF分析の方法およびSBR符号化部1dにおけるSBR符号化の方法は、例えば文献“3GPP TS 26.404;Enhanced aacPlus encoder SBR part”に詳述されている。
線形予測分析部1eは、周波数変換部1aからQMF領域の信号を受け取り、この信号の高周波成分に対し周波数方向に線形予測分析を行って高周波線形予測係数a(n,r)(1≦n≦N)を取得する(ステップSa5の処理)。ただしNは線形予測次数である。また、インデックスrは、QMF領域の信号のサブサンプルに関する時間方向のインデックスである。信号線形予測分析には、共分散法又は自己相関法を用いることができる。a(n,r)を取得する際の線形予測分析は、q(k,r)のうちk<k≦63をみたす高周波成分に対して行う。ただしkはコアコーデック符号化部1cによって符号化される周波数帯域の上限周波数に対応する周波数インデックスである。また、線形予測分析部1eは、a(n,r)を取得する際に分析したのとは別の低周波成分に対して線形予測分析を行い、a(n,r)とは別の低周波線形予測係数a(n,r)を取得してもよい(このような低周波成分に係る線形予測係数は時間エンベロープ情報に対応しており、以下、第1の実施形態においては同様)。a(n,r)を取得する際の線形予測分析は、0≦k<kをみたす低周波成分に対するものである。また、この線形予測分析は0≦k<kの区間に含まれる一部の周波数帯域に対するものであってもよい。
フィルタ強度パラメータ算出部1fは、例えば、線形予測分析部1eによって取得された線形予測係数を用いてフィルタ強度パラメータ(フィルタ強度パラメータは時間エンベロープ補助情報に対応しており、以下、第1の実施形態においては同様)を算出する(ステップSa6の処理)。まず、a(n,r)から予測ゲインG(r)が算出される。予測ゲインの算出方法は、たとえば“音声符号化、守谷健弘著、電子情報通信学会編”に詳述されている。さらに、a(n,r)が算出されている場合には同様に予測ゲインG(r)が算出される。フィルタ強度パラメータK(r)は、G(r)が大きいほど大きくなるパラメータであり、例えば次の数式(1)に従って取得することができる。ただし、max(a,b)はaとbの最大値、min(a,b)はaとbの最小値を示す。
Figure 2012053493
また、G(r)が算出されている場合には、K(r)はG(r)が大きいほど大きくなり、G(r)が大きくなるほど小さくなるパラメータとして取得することができる。この場合のKは例えば次の数式(2)に従って取得することができる。
Figure 2012053493
K(r)は、SBR復号時に高周波成分の時間エンベロープを調整する強度を示すパラメータである。周波数方向の線形予測係数に対する予測ゲインは、分析区間の信号の時間エンベロープが急峻な変化を示すほど大きな値となる。K(r)は、その値が大きいほど、SBRによって生成された高周波成分の時間エンベロープの変化を急峻にする処理を強めるよう復号器に指示するためのパラメータである。なお、K(r)は、その値が小さいほど、SBRによって生成された高周波成分の時間エンベロープを急峻にする処理を弱めるよう復号器(例えば、音声復号装置21等)に指示するためのパラメータであってもよく、時間エンベロープを急峻にする処理を実行しないことを示す値を含んでも良い。また、各時間スロットのK(r)を伝送せずに、複数の時間スロットに対して代表するK(r)を伝送しても良い。同一のK(r)の値を共有する時間スロットの区間を決定するためには、SBR補助情報に含まれるSBRエンベロープの時間境界(SBR envelope time border)情報を用いることが望ましい。
K(r)は、量子化された後にビットストリーム多重化部1gに送信される。量子化の前に複数の時間スロットrについて例えばK(r)の平均をとることにより、複数の時間スロットに対して代表するK(r)を計算することが望ましい。また、複数の時間スロットを代表するK(r)を伝送する場合には、K(r)の算出を数式(2)のように個々の時間スロットを分析した結果から独立に行うのではなく、複数の時間スロットからなる区間全体の分析結果からそれらを代表するK(r)を取得してもよい。この場合のK(r)の算出は例えば次の数式(3)に従って行うことができる。ただし、mean(・)は、K(r)によって代表される時間スロットの区間内における平均値を示す。
Figure 2012053493
なお、K(r)を伝送する際には、“ISO/IEC 14496-3 subpart 4 General Audio Coding”に記載のSBR補助情報に含まれる逆フィルタモード情報と排他的に伝送しても良い。すなわち、SBR補助情報の逆フィルタモード情報を伝送する時間スロットに対してはK(r)を伝送せず、K(r)を伝送する時間スロットに対してはSBR補助情報の逆フィルタモード情報(“ISO/IEC 14496-3subpart 4 General Audio Coding”におけるbs_invf_mode)を伝送しなくてもよい。なお、K(r)又はSBR補助情報に含まれる逆フィルタモード情報のいずれを伝送するかを示す情報を付加してもよい。また、K(r)とSBR補助情報に含まれる逆フィルタモード情報とを組み合わせてひとつのベクトル情報として取り扱い、このベクトルをエントロピー符号化してもよい。この際、K(r)と、SBR補助情報に含まれる逆フィルタモード情報との値の組み合わせに制約を加えてもよい。
ビットストリーム多重化部1gは、コアコーデック符号化部1cによって算出された符号化ビットストリームと、SBR符号化部1dによって算出されたSBR補助情報と、フィルタ強度パラメータ算出部1fによって算出されたK(r)と、を多重化し、多重化ビットストリーム(符号化された多重化ビットストリーム)を、音声符号化装置11の通信装置を介して出力する(ステップSa7の処理)。
図3は、第1の実施形態に係る音声復号装置21の構成を示す図である。音声復号装置21は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置21の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図4のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置21を統括的に制御する。音声復号装置21の通信装置は、音声符号化装置11、後述の変形例1の音声符号化装置11a、又は、後述の変形例2の音声符号化装置から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置21は、図3に示すように、機能的には、ビットストリーム分離部2a(ビットストリーム分離手段)、コアコーデック復号部2b(コア復号手段)、周波数変換部2c(周波数変換手段)、低周波線形予測分析部2d(低周波時間エンベロープ分析手段)、信号変化検出部2e、フィルタ強度調整部2f(時間エンベロープ調整手段)、高周波生成部2g(高周波生成手段)、高周波線形予測分析部2h、線形予測逆フィルタ部2i、高周波調整部2j(高周波調整手段)、線形予測フィルタ部2k(時間エンベロープ変形手段)、係数加算部2m及び周波数逆変換部2nを備える。図3に示す音声復号装置21のビットストリーム分離部2a〜周波数逆変換部2nは、音声復号装置21のCPUが音声復号装置21の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声復号装置21のCPUは、このコンピュータプログラムを実行することによって(図3に示すビットストリーム分離部2a〜エンベロープ形状パラメータ算出部1nを用いて)、図4のフローチャートに示す処理(ステップSb1〜ステップSb11の処理)を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置21のROMやRAM等の内蔵メモリに格納されるものとする。
ビットストリーム分離部2aは、音声復号装置21の通信装置を介して入力された多重化ビットストリームを、フィルタ強度パラメータと、SBR補助情報と、符号化ビットストリームとに分離する。コアコーデック復号部2bは、ビットストリーム分離部2aから与えられた符号化ビットストリームを復号し、低周波成分のみを含む復号信号を得る(ステップSb1の処理)。この際、復号の方式は、CELP方式に代表される音声符号化方式に基づいてもよく、またAACやTCX(Transform Coded Excitation)方式などの音響符号化に基づいてもよい。
周波数変換部2cは、コアコーデック復号部2bから与えられた復号信号を多分割QMFフィルタバンクにより分析し、QMF領域の信号qdec(k,r)を得る(ステップSb2の処理)。ただし、k(0≦k≦63)は周波数方向のインデックスであり、rはQMF領域の信号のサブサンプルに関する時間方向のインデックスを示すインデックスである。
低周波線形予測分析部2dは、周波数変換部2cから得られたqdec(k,r)を時間スロットrの各々に関して周波数方向に線形予測分析し、低周波線形予測係数adec(n,r)を取得する(ステップSb3の処理)。線形予測分析は、コアコーデック復号部2bから得られた復号信号の信号帯域に対応する0≦k<kの範囲に対して行う。また、この線形予測分析は0≦k<kの区間に含まれる一部の周波数帯域に対するものであってもよい。
信号変化検出部2eは、周波数変換部2cから得られたQMF領域の信号の時間変化を検出し、検出結果T(r)として出力する。信号変化の検出は、例えば以下に示す方法によって行うことができる。
1.時間スロットrにおける信号の短時間電力p(r)を次の数式(4)によって取得する。
Figure 2012053493

2.p(r)を平滑化したエンベロープpenv(r)を次の数式(5)によって取得する。ただしαは0<α<1を満たす定数である。
Figure 2012053493

3.p(r)とpenv(r)とを用いてT(r)を次の数式(6)に従って取得する。ただしβは定数である。
Figure 2012053493

以上に示した方法は電力の変化に基づく信号変化検出の単純な例であり、他のもっと洗練された方法により信号変化検出を行ってもよい。また、信号変化検出部2eは省略してもよい。
フィルタ強度調整部2fは、低周波線形予測分析部2dから得られたadec(n,r)に対してフィルタ強度の調整を行い、調整された線形予測係数aadj(n,r)を得る(ステップSb4の処理)。フィルタ強度の調整は、ビットストリーム分離部2aを介して受信されたフィルタ強度パラメータKを用いて、たとえば次の数式(7)に従って行うことができる。
Figure 2012053493

さらに、信号変化検出部2eの出力T(r)が得られる場合には、強度の調整は次の数式(8)に従って行ってもよい。
Figure 2012053493
高周波生成部2gは、周波数変換部2cから得られたQMF領域の信号を低周波帯域から高周波帯域に複写し、高周波成分のQMF領域の信号qexp(k,r)を生成する(ステップSb5の処理)。高周波の生成は、“MPEG4 AAC”のSBRにおけるHFgenerationの方法に従って行う(“ISO/IEC 14496-3 subpart 4 General Audio Coding”)。
高周波線形予測分析部2hは、高周波生成部2gによって生成されたqexp(k,r)を時間スロットrの各々に関して周波数方向に線形予測分析し、高周波線形予測係数aexp(n,r)を取得する(ステップSb6の処理)。線形予測分析は、高周波生成部2gによって生成された高周波成分に対応するk≦k≦63の範囲に対して行う。
線形予測逆フィルタ部2iは、高周波生成部2gによって生成された高周波帯域のQMF領域の信号を対象とし、周波数方向にaexp(n,r)を係数とする線形予測逆フィルタ処理を行う(ステップSb7の処理)。線形予測逆フィルタの伝達関数は次の数式(9)の通りである。
Figure 2012053493

この線形予測逆フィルタ処理は、低周波側の係数から高周波側の係数に向かって行われてもよいし、その逆でもよい。線形予測逆フィルタ処理は、後段において時間エンベロープ変形を行う前に高周波成分の時間エンベロープを一旦平坦化しておくための処理であり、線形予測逆フィルタ部2iは省略されてもよい。また、高周波生成部2gからの出力に対して高周波成分への線形予測分析と逆フィルタ処理を行うかわりに、後述する高周波調整部2jからの出力に対して高周波線形予測分析部2hによる線形予測分析と線形予測逆フィルタ部2iによる逆フィルタ処理とを行ってもよい。さらに、線形予測逆フィルタ処理に用いる線形予測係数は、aexp(n,r)ではなく、adec(n,r)又はaadj(n,r)であってもよい。また、線形予測逆フィルタ処理に用いられる線形予測係数は、aexp(n,r)に対してフィルタ強度調整を行って取得される線形予測係数aexp,adj(n,r)であってもよい。強度調整は、aadj(n,r)を取得する際と同様、例えば、次の数式(10)に従って行われる。
Figure 2012053493
高周波調整部2jは、線形予測逆フィルタ部2iからの出力に対して高周波成分の周波数特性およびトーナリティの調整を行う(ステップSb8の処理)。この調整はビットストリーム分離部2aから与えられたSBR補助情報に従って行われる。高周波調整部2jによる処理は、“MPEG4 AAC”のSBRにおける“HF adjustment”ステップに従って行われるものであり、高周波帯域のQMF領域の信号に対し、時間方向の線形予測逆フィルタ処理、ゲインの調整及びノイズの重畳を行うことによる調整である。以上のステップにおける処理の詳細については“ISO/IEC 14496-3subpart 4 General Audio Coding”に詳述されている。なお、上記したように、周波数変換部2c、高周波生成部2g及び高周波調整部2jは、全て、“ISO/IEC 14496-3”に規定される“MPEG4 AAC”におけるSBR復号器に準拠した動作をする。
線形予測フィルタ部2kは、高周波調整部2jから出力されたQMF領域の信号の高周波成分qadj(n,r)に対し、フィルタ強度調整部2fから得られたaadj(n,r)を用いて周波数方向に線形予測合成フィルタ処理を行う(ステップSb9の処理)。線形予測合成フィルタ処理における伝達関数は次の数式(11)の通りである。
Figure 2012053493

この線形予測合成フィルタ処理によって、線形予測フィルタ部2kは、SBRに基づいて生成された高周波成分の時間エンベロープを変形する。
係数加算部2mは、周波数変換部2cから出力された低周波成分を含むQMF領域の信号と、線形予測フィルタ部2kから出力された高周波成分を含むQMF領域の信号とを加算し、低周波成分と高周波成分の双方を含むQMF領域の信号を出力する(ステップSb10の処理)。
周波数逆変換部2nは、係数加算部2mから得られたQMF領域の信号をQMF合成フィルタバンクによって処理する。これによって、コアコーデックの復号によって得られた低周波成分と、SBRによって生成され線形予測フィルタによって時間エンベロープが変形された高周波成分との双方を含む時間領域の復号した音声信号を取得し、この取得した音声信号を、内蔵する通信装置を介して外部に出力する(ステップSb11の処理)。なお、周波数逆変換部2nは、K(r)と“ISO/IEC 14496-3subpart 4 General Audio Coding”に記載のSBR補助情報の逆フィルタモード情報とが排他的に伝送された場合、K(r)が伝送されSBR補助情報の逆フィルタモード情報の伝送されない時間スロットに対しては、当該時間スロットの前後における時間スロットのうちの少なくとも一つの時間スロットに対するSBR補助情報の逆フィルタモード情報を用いて、当該時間スロットのSBR補助情報の逆フィルタモード情報を生成しても良く、当該時間スロットのSBR補助情報の逆フィルタモード情報をあらかじめ決められた所定のモードに設定しても良い。一方、周波数逆変換部2nは、SBR補助情報の逆フィルタデータが伝送されK(r)の伝送されない時間スロットに対しては、当該時間スロットの前後における時間スロットのうちの少なくとも一つの時間スロットに対するK(r)を用いて、当該時間スロットのK(r)を生成しても良く、当該時間スロットのK(r)を予め決められた所定の値に設定しても良い。なお、周波数逆変換部2nは、K(r)又はSBR補助情報の逆フィルタモード情報のいずれを伝送したかを示す情報に基づき、伝送された情報が、K(r)か、SBR補助情報の逆フィルタモード情報か、を判断しても良い。
(第1の実施形態の変形例1)
図5は、第1の実施形態に係る音声符号化装置の変形例(音声符号化装置11a)の構成を示す図である。音声符号化装置11aは、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11aを統括的に制御する。音声符号化装置11aの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
音声符号化装置11aは、図5に示すように、機能的には、音声符号化装置11の線形予測分析部1e、フィルタ強度パラメータ算出部1f及びビットストリーム多重化部1gにかえて、高周波周波数逆変換部1h、短時間電力算出部1i(時間エンベロープ補助情報算出手段)、フィルタ強度パラメータ算出部1f1(時間エンベロープ補助情報算出手段)及びビットストリーム多重化部1g1(ビットストリーム多重化手段)を備える。ビットストリーム多重化部1g1はビットストリーム多重化部1gと同様の機能を有する。図5に示す音声符号化装置11aの周波数変換部1a〜SBR符号化部1d、高周波周波数逆変換部1h、短時間電力算出部1i、フィルタ強度パラメータ算出部1f1及びビットストリーム多重化部1g1は、音声符号化装置11aのCPUが音声符号化装置11aの内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置11aのROMやRAM等の内蔵メモリに格納されるものとする。
高周波周波数逆変換部1hは、周波数変換部1aから得られたQMF領域の信号のうち、コアコーデック符号化部1cによって符号化される低周波成分に対応する係数を“0”に置き換えた後にQMF合成フィルタバンクを用いて処理し、高周波成分のみが含まれた時間領域信号を得る。短時間電力算出部1iは、高周波周波数逆変換部1hから得られた時間領域の高周波成分を短区間に区切ってその電力を算出し、p(r)を算出する。なお、代替的な方法として、QMF領域の信号を用いて次の数式(12)に従って短時間電力を算出してもよい。
Figure 2012053493
フィルタ強度パラメータ算出部1f1は、p(r)の変化部分を検出し、変化が大きいほどK(r)が大きくなるよう、K(r)の値を決定する。K(r)の値は、例えば、音声復号装置21の信号変化検出部2eにおけるT(r)の算出と同一の方法で行ってもよい。また、他のもっと洗練された方法により信号変化検出を行ってもよい。また、フィルタ強度パラメータ算出部1f1は、低周波成分と高周波成分の各々について短時間電力を取得した後に音声復号装置21の信号変化検出部2eにおけるT(r)の算出と同一の方法によって低周波成分及び高周波成分各々の信号変化Tr(r)、Th(r)を取得し、これらを用いてK(r)の値を決定してもよい。この場合、K(r)は例えば次の数式(13)に従って取得することができる。ただし、εは、例えば3.0などの定数である。
Figure 2012053493
(第1の実施形態の変形例2)
第1の実施形態の変形例2の音声符号化装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例2の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例2の音声符号化装置を統括的に制御する。変形例2の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
変形例2の音声符号化装置は、機能的には、音声符号化装置11のフィルタ強度パラメータ算出部1f及びビットストリーム多重化部1gにかえて、図示しない線形予測係数差分符号化部(時間エンベロープ補助情報算出手段)と、この線形予測係数差分符号化部からの出力を受けるビットストリーム多重化部(ビットストリーム多重化手段)とを備える。変形例2の音声符号化装置の周波数変換部1a〜線形予測分析部1e、線形予測係数差分符号化部、及び、ビットストリーム多重化部は、変形例2の音声符号化装置のCPUが変形例2の音声符号化装置の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、変形例2の音声符号化装置のROMやRAM等の内蔵メモリに格納されるものとする。
線形予測係数差分符号化部は、入力信号のa(n,r)と入力信号のa(n,r)を用い、次の数式(14)に従って線形予測係数の差分値a(n,r)を算出する。
Figure 2012053493
線形予測係数差分符号化部は、さらにa(n,r)を量子化し、ビットストリーム多重化部(ビットストリーム多重化部1gに対応する構成)へ送信する。このビットストリーム多重化部は、K(r)に代わりa(n,r)をビットストリームに多重化し、この多重化ビットストリームを内蔵する通信装置を介して外部に出力する。
第1の実施形態の変形例2の音声復号装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例2の音声復号装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例2の音声復号装置を統括的に制御する。変形例2の音声復号装置の通信装置は、音声符号化装置11、変形例1に係る音声符号化装置11a、又は、変形例2に係る音声符号化装置から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。
変形例2の音声復号装置は、機能的には、音声復号装置21のフィルタ強度調整部2fにかえて、図示しない線形予測係数差分復号部を備える。変形例2の音声復号装置のビットストリーム分離部2a〜信号変化検出部2e、線形予測係数差分復号部、及び、高周波生成部2g〜周波数逆変換部2nは、変形例2の音声復号装置のCPUが変形例2の音声復号装置の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、変形例2の音声復号装置のROMやRAM等の内蔵メモリに格納されるものとする。
線形予測係数差分復号部は、低周波線形予測分析部2dから得られたa(n,r)とビットストリーム分離部2aから与えられたa(n,r)を利用し、次の数式(15)に従って差分復号されたaadj(n,r)を得る。
Figure 2012053493
線形予測係数差分復号部は、このようにして差分復号されたaadj(n,r)を線形予測フィルタ部2kに送信する。a(n,r)は、数式(14)に示すように予測係数の領域での差分値であってもよいが、予測係数をLSP(Linear Spectrum Pair)、ISP(ImmittanceSpectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(Immittance Spectrum Frequency)、PARCOR係数などの別の表現形式に変換した後に差分をとった値であってもよい。この場合、差分復号も同じこの表現形式と同様となる。
(第2の実施形態)
図6は、第2の実施形態に係る音声符号化装置12の構成を示す図である。音声符号化装置12は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置12の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図7のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声符号化装置12を統括的に制御する。音声符号化装置12の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
音声符号化装置12は、機能的には、音声符号化装置11のフィルタ強度パラメータ算出部1f及びビットストリーム多重化部1gにかえて、線形予測係数間引き部1j(予測係数間引き手段)、線形予測係数量子化部1k(予測係数量子化手段)及びビットストリーム多重化部1g2(ビットストリーム多重化手段)を備える。図6に示す音声符号化装置12の周波数変換部1a〜線形予測分析部1e(線形予測分析手段)、線形予測係数間引き部1j、線形予測係数量子化部1k及びビットストリーム多重化部1g2は、音声符号化装置12のCPUが音声符号化装置12の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声符号化装置12のCPUは、このコンピュータプログラムを実行することによって(図6に示す音声符号化装置12の周波数変換部1a〜線形予測分析部1e、線形予測係数間引き部1j、線形予測係数量子化部1k及びビットストリーム多重化部1g2を用いて)、図7のフローチャートに示す処理(ステップSa1〜ステップSa5、及び、ステップSc1〜ステップSc3の処理)を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置12のROMやRAM等の内蔵メモリに格納されるものとする。
線形予測係数間引き部1jは、線形予測分析部1eから得られたa(n,r)を時間方向に間引き、a(n,r)のうち一部の時間スロットrに対する値と、対応するrの値を線形予測係数量子化部1kに送信する(ステップSc1の処理)。ただし、0≦i<Ntsであり、Ntsはフレーム中でa(n,r)の伝送が行われる時間スロットの数である。線形予測係数の間引きは、一定の時間間隔によるものであってもよく、また、a(n,r)の性質に基づく不等時間間隔の間引きであってもよい。例えば、ある長さを持つフレームの中でa(n,r)のG(r)を比較し、G(r)が一定の値を超えた場合にa(n,r)を量子化の対象とするなどの方法が考えられる。線形予測係数の間引き間隔をa(n,r)の性質によらず一定の間隔とする場合には、伝送の対象とならない時間スロットに対してはa(n,r)を算出する必要がない。
線形予測係数量子化部1kは、線形予測係数間引き部1jから与えられた間引き後の高周波線形予測係数a(n,r)と、対応する時間スロットのインデックスrを量子化し、ビットストリーム多重化部1g2に送信する(ステップSc2の処理)。なお、代替的な構成として、a(n,r)を量子化するかわりに、第1の実施形態の変形例2に係る音声符号化装置と同様に、線形予測係数の差分値a(n,r)を量子化の対象としてもよい。
ビットストリーム多重化部1g2は、コアコーデック符号化部1cで算出された符号化ビットストリームと、SBR符号化部1dで算出されたSBR補助情報と、線形予測係数量子化部1kから与えられた量子化後のa(n,r)に対応する時間スロットのインデックス{r}とをビットストリームに多重化し、この多重化ビットストリームを、音声符号化装置12の通信装置を介して出力する(ステップSc3の処理)。
図8は、第2の実施形態に係る音声復号装置22の構成を示す図である。音声復号装置22は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置22の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図9のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置22を統括的に制御する。音声復号装置22の通信装置は、音声符号化装置12から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。
音声復号装置22は、機能的には、音声復号装置21のビットストリーム分離部2a、低周波線形予測分析部2d、信号変化検出部2e、フィルタ強度調整部2f及び線形予測フィルタ部2kにかえて、ビットストリーム分離部2a1(ビットストリーム分離手段)、線形予測係数補間・補外部2p(線形予測係数補間・補外手段)及び線形予測フィルタ部2k1(時間エンベロープ変形手段)を備える。図8に示す音声復号装置22のビットストリーム分離部2a1、コアコーデック復号部2b、周波数変換部2c、高周波生成部2g〜高周波調整部2j、線形予測フィルタ部2k1、係数加算部2m、周波数逆変換部2n、及び、線形予測係数補間・補外部2pは、音声復号装置22のCPUが音声復号装置22の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声復号装置22のCPUは、このコンピュータプログラムを実行することによって(図8に示すビットストリーム分離部2a1、コアコーデック復号部2b、周波数変換部2c、高周波生成部2g〜高周波調整部2j、線形予測フィルタ部2k1、係数加算部2m、周波数逆変換部2n、及び、線形予測係数補間・補外部2pを用いて)、図9のフローチャートに示す処理(ステップSb1〜ステップSb2、ステップSd1、ステップSb5〜ステップSb8、ステップSd2、及び、ステップSb10〜ステップSb11の処理)を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置22のROMやRAM等の内蔵メモリに格納されるものとする。
音声復号装置22は、音声復号装置22のビットストリーム分離部2a、低周波線形予測分析部2d、信号変化検出部2e、フィルタ強度調整部2f及び線形予測フィルタ部2kにかえて、ビットストリーム分離部2a1、線形予測係数補間・補外部2p及び線形予測フィルタ部2k1を備える。
ビットストリーム分離部2a1は、音声復号装置22の通信装置を介して入力された多重化ビットストリームを、量子化されたa(n,r)に対応する時間スロットのインデックスrと、SBR補助情報と、符号化ビットストリームとに分離する。
線形予測係数補間・補外部2pは、量子化されたa(n,r)に対応する時間スロットのインデックスrをビットストリーム分離部2a1から受け取り、線形予測係数の伝送されていない時間スロットに対応するa(n,r)を、補間又は補外により取得する(ステップSd1の処理)。線形予測係数補間・補外部2pは、線形予測係数の補外を、例えば次の数式(16)に従って行うことができる。
Figure 2012053493

ただし、ri0は線形予測係数が伝送されている時間スロット{r}のうちrに最も近いものとする。また、δは0<δ<1を満たす定数である。
また、線形予測係数補間・補外部2pは、線形予測係数の補間を、例えば次の数式(17)に従って行うことができる。ただし、ri0<r<ri0+1を満たす。
Figure 2012053493
なお、線形予測係数補間・補外部2pは、線形予測係数をLSP(LinearSpectrum Pair)、ISP(Immittance Spectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(ImmittanceSpectrum Frequency)、PARCOR係数などの別の表現形式に変換した後に補間・補外し、得られた値を線形予測係数に変換して用いても良い。補間又は補外後のa(n,r)は線形予測フィルタ部2k1に送信され、線形予測合成フィルタ処理における線形予測係数として利用されるが、線形予測逆フィルタ部2iにおける線形予測係数として用いられてもよい。ビットストリームにa(n,r)ではなくa(n,r)が多重化されている場合、線形予測係数補間・補外部2pは、上記の補間又は補外処理に先立ち、第1の実施形態の変形例2に係る音声復号装置と同様の差分復号処理を行う。
線形予測フィルタ部2k1は、高周波調整部2jから出力されたqadj(n,r)に対し、線形予測係数補間・補外部2pから得られた、補間又は補外されたa(n,r)を用いて周波数方向に線形予測合成フィルタ処理を行う(ステップSd2の処理)。線形予測フィルタ部2k1の伝達関数は次の数式(18)の通りである。線形予測フィルタ部2k1は、音声復号装置21の線形予測フィルタ部2kと同様に、線形予測合成フィルタ処理を行うことによって、SBRにより生成された高周波成分の時間エンベロープを変形する。
Figure 2012053493
(第3の実施形態)
図10は、第3の実施形態に係る音声符号化装置13の構成を示す図である。音声符号化装置13は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置13の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図11のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声符号化装置13を統括的に制御する。音声符号化装置13の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。
音声符号化装置13は、機能的には、音声符号化装置11の線形予測分析部1e、フィルタ強度パラメータ算出部1f及びビットストリーム多重化部1gにかえて、時間エンベロープ算出部1m(時間エンベロープ補助情報算出手段)、エンベロープ形状パラメータ算出部1n(時間エンベロープ補助情報算出手段)及びビットストリーム多重化部1g3(ビットストリーム多重化手段)を備える。図10に示す音声符号化装置13の周波数変換部1a〜SBR符号化部1d、時間エンベロープ算出部1m、エンベロープ形状パラメータ算出部1n、及び、ビットストリーム多重化部1g3は、音声符号化装置13のCPUが音声符号化装置13の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声符号化装置13のCPUは、このコンピュータプログラムを実行することによって(図10に示す音声符号化装置13の周波数変換部1a〜SBR符号化部1d、時間エンベロープ算出部1m、エンベロープ形状パラメータ算出部1n、及び、ビットストリーム多重化部1g3を用いて)、図11のフローチャートに示す処理(ステップSa1〜ステップSa4、及び、ステップSe1〜ステップSe3の処理)を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置13のROMやRAM等の内蔵メモリに格納されるものとする。
時間エンベロープ算出部1mは、q(k,r)を受け取り、例えば、q(k,r)の時間スロットごとの電力を取得することによって、信号の高周波成分の時間エンベロープ情報e(r)を取得する(ステップSe1の処理)。この場合、e(r)は次の数式(19)に従って取得される。
Figure 2012053493
エンベロープ形状パラメータ算出部1nは、時間エンベロープ算出部1mからe(r)を受け取り、さらにSBR符号化部1dからSBRエンベロープの時間境界{b}を受け取る。ただし、0≦i≦Neであり、Neは符号化フレーム内のSBRエンベロープの数である。エンベロープ形状パラメータ算出部1nは、符号化フレーム内のSBRエンベロープの各々について、例えば次の数式(20)に従ってエンベロープ形状パラメータs(i)(0≦i<Ne)を取得する(ステップSe2の処理)。なお、エンベロープ形状パラメータs(i)は時間エンベロープ補助情報に対応しており、第3の実施形態において同様とする。
Figure 2012053493

ただし、
Figure 2012053493

上記の数式におけるs(i)はb≦r<bi+1を満たすi番目のSBRエンベロープ内におけるe(r)の変化の大きさを示すパラメータであり、時間エンベロープの変化が大きいほどe(r)は大きい値をとる。上記の数式(20)及び(21)は、s(i)の算出方法の一例であり、例えばe(r)のSMF(Spectral Flatness Measure)や、最大値と最小値の比等、を用いてs(i)を取得してもよい。この後、s(i)は量子化され、ビットストリーム多重化部1g3に伝送される。
ビットストリーム多重化部1g3は、コアコーデック符号化部1cによって算出された符号化ビットストリームと、SBR符号化部1dによって算出されたSBR補助情報と、s(i)とをビットストリームに多重化し、この多重化したビットストリームを、音声符号化装置13の通信装置を介して出力する(ステップSe3の処理)。
図12は、第3の実施形態に係る音声復号装置23の構成を示す図である。音声復号装置23は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置23の内蔵メモリに格納された所定のコンピュータプログラム(例えば、図13のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置23を統括的に制御する。音声復号装置23の通信装置は、音声符号化装置13から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。
音声復号装置23は、機能的には、音声復号装置21のビットストリーム分離部2a、低周波線形予測分析部2d、信号変化検出部2e、フィルタ強度調整部2f、高周波線形予測分析部2h、線形予測逆フィルタ部2i及び線形予測フィルタ部2kにかえて、ビットストリーム分離部2a2(ビットストリーム分離手段)、低周波時間エンベロープ算出部2r(低周波時間エンベロープ分析手段)、エンベロープ形状調整部2s(時間エンベロープ調整手段)、高周波時間エンベロープ算出部2t、時間エンベロープ平坦化部2u及び時間エンベロープ変形部2v(時間エンベロープ変形手段)を備える。図12に示す音声復号装置23のビットストリーム分離部2a2、コアコーデック復号部2b〜周波数変換部2c、高周波生成部2g、高周波調整部2j、係数加算部2m、周波数逆変換部2n、及び、低周波時間エンベロープ算出部2r〜時間エンベロープ変形部2vは、音声復号装置23のCPUが音声復号装置23の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声復号装置23のCPUは、このコンピュータプログラムを実行することによって(図12に示す音声復号装置23のビットストリーム分離部2a2、コアコーデック復号部2b〜周波数変換部2c、高周波生成部2g、高周波調整部2j、係数加算部2m、周波数逆変換部2n、及び、低周波時間エンベロープ算出部2r〜時間エンベロープ変形部2vを用いて)、図13のフローチャートに示す処理(ステップSb1〜ステップSb2、ステップSf1〜ステップSf2、ステップSb5、ステップSf3〜ステップSf4、ステップSb8、ステップSf5、及び、ステップSb10〜ステップSb11の処理)を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置23のROMやRAM等の内蔵メモリに格納されるものとする。
ビットストリーム分離部2a2は、音声復号装置23の通信装置を介して入力された多重化ビットストリームを、s(i)と、SBR補助情報と、符号化ビットストリームとに分離する。低周波時間エンベロープ算出部2rは、周波数変換部2cから低周波成分を含むqdec(k,r)を受け取り、e(r)を次の数式(22)に従って取得する(ステップSf1の処理)。
Figure 2012053493
エンベロープ形状調整部2sは、s(i)を用いてe(r)を調整し、調整後の時間エンベロープ情報eadj(r)を取得する(ステップSf2の処理)。このe(r)に対する調整は、例えば次の数式(23)〜(25)に従って行うことができる。
Figure 2012053493

ただし、
Figure 2012053493

Figure 2012053493

である。
上記の数式(23)〜(25)は調整方法の一例であり、eadj(r)の形状がs(i)によって示される形状に近づくような他の調整方法を用いてもよい。
高周波時間エンベロープ算出部2tは、高周波生成部2gから得られたqexp(k,r)を用いて時間エンベロープeexp(r)を次の数式(26)に従って算出する(ステップSf3の処理)。
Figure 2012053493
時間エンベロープ平坦化部2uは、高周波生成部2gから得られたqexp(k,r)の時間エンベロープを次の数式(27)に従って平坦化し、得られたQMF領域の信号qflat(k,r)を高周波調整部2jに送信する(ステップSf4の処理)。
Figure 2012053493
時間エンベロープ平坦化部2uにおける時間エンベロープの平坦化は省略されてもよい。また、高周波生成部2gからの出力に対して、高周波成分の時間エンベロープ算出と時間エンベロープの平坦化処理とを行うかわりに、高周波調整部2jからの出力に対して、高周波成分の時間エンベロープ算出と時間エンベロープの平坦化処理とを行ってもよい。さらに、時間エンベロープ平坦化部2uにおいて用いる時間エンベロープは、高周波時間エンベロープ算出部2tから得られたeexp(r)ではなく、エンベロープ形状調整部2sから得られたeadj(r)であってもよい。
時間エンベロープ変形部2vは、高周波調整部2jから得られたqadj(k,r)を時間エンベロープ変形部2vから得られたeadj(r)を用いて変形し、時間エンベロープが変形されたQMF領域の信号qenvadj(k,r)を取得する(ステップSf5の処理)。この変形は、次の数式(28)に従って行われる。qenvadj(k,r)は高周波成分に対応するQMF領域の信号として係数加算部2mに送信される。
Figure 2012053493
(第4の実施形態)
図14は、第4の実施形態に係る音声復号装置24の構成を示す図である。音声復号装置24は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24を統括的に制御する。音声復号装置24の通信装置は、音声符号化装置11又は音声符号化装置13から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。
音声復号装置24は、機能的には、音声復号装置21の構成(コアコーデック復号部2b、周波数変換部2c、低周波線形予測分析部2d、信号変化検出部2e、フィルタ強度調整部2f、高周波生成部2g、高周波線形予測分析部2h、線形予測逆フィルタ部2i、高周波調整部2j、線形予測フィルタ部2k、係数加算部2m及び周波数逆変換部2n)と、音声復号装置23の構成(低周波時間エンベロープ算出部2r、エンベロープ形状調整部2s及び時間エンベロープ変形部2v)とを備える。更に、音声復号装置24は、ビットストリーム分離部2a3(ビットストリーム分離手段)及び補助情報変換部2wを備える。線形予測フィルタ部2kと時間エンベロープ変形部2vの順序は図14に示すものと逆であってもよい。なお、音声復号装置24は、音声符号化装置11又は音声符号化装置13によって符号化されたビットストリームを入力とすることが望ましい。図14に示す音声復号装置24の構成は、音声復号装置24のCPUが音声復号装置24の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置24のROMやRAM等の内蔵メモリに格納されるものとする。
ビットストリーム分離部2a3は、音声復号装置24の通信装置を介して入力された多重化ビットストリームを、時間エンベロープ補助情報と、SBR補助情報と、符号化ビットストリームとに分離する。時間エンベロープ補助情報は、第1の実施形態において説明したK(r)、又は、第3の実施形態において説明したs(i)、であってもよい。また、K(r)、s(i)のいずれでもない他のパラメータX(r)であってもよい。
補助情報変換部2wは、入力された時間エンベロープ補助情報を変換し、K(r)とs(i)とを得る。時間エンベロープ補助情報がK(r)の場合、補助情報変換部2wは、K(r)をs(i)に変換する。補助情報変換部2wは、この変換を、例えばb≦r<bi+1の区間内でのK(r)の平均値
Figure 2012053493

を取得した後に、所定のテーブルを用いて、この数式(29)に示す平均値をs(i)に変換することによって行ってもよい。また、時間エンベロープ補助情報がs(i)の場合、補助情報変換部2wは、s(i)をK(r)に変換する。補助情報変換部2wは、この変換を、例えば所定のテーブルを用いてs(i)をK(r)に変換することによって行ってもよい。ただし、iとrはb≦r<bi+1の関係を満たすよう対応づけられるものとする。
時間エンベロープ補助情報がs(i)でもK(r)でもないパラメータX(r)の場合、補助情報変換部2wは、X(r)を、K(r)とs(i)とに変換する。補助情報変換部2wは、この変換を、例えば所定のテーブルを用いてX(r)をK(r)およびs(i)に変換することによって行うのが望ましい。また、補助情報変換部2wは、X(r)をSBRエンベロープ毎に1つの代表値を伝送するのが望ましい。X(r)をK(r)およびs(i)に変換するテーブルは互いに異なっていてもよい。
(第1の実施形態の変形例3)
第1の実施形態の音声復号装置21において、音声復号装置21の線形予測フィルタ部2kは、自動利得制御処理を含むことができる。この自動利得制御処理は、線形予測フィルタ部2kの出力のQMF領域の信号の電力を入力されたQMF領域の信号電力に合わせる処理である。利得制御後のQMF領域信号qsyn,pow(n,r)は、一般的には、次式により実現される。
Figure 2012053493

ここで、P(r),P(r)はそれぞれ以下の数式(31)及び数式(32)で表される。
Figure 2012053493

Figure 2012053493

この自動利得制御処理により、線形予測フィルタ部2kの出力信号の高周波成分の電力は線形予測フィルタ処理前と等しい値に調整される。その結果、SBRに基づいて生成された高周波成分の時間エンベロープを変形した線形予測フィルタ部2kの出力信号において、高周波調整部2jにおいて行われた高周波信号の電力の調整の効果が保たれる。なお、この自動利得制御処理は,QMF領域の信号の任意の周波数範囲に対して個別に行うことも可能である。個々の周波数範囲に対する処理は、それぞれ、数式(30)、数式(31)、数式(32)のnをある周波数範囲に限定することで実現できる。例えばi番目の周波数範囲はF≦n<Fi+1と表すことができる(この場合のiは、QMF領域の信号の任意の周波数範囲の番号を示すインデックスである)。Fは周波数範囲の境界を示し、“MPEG4 AAC”のSBRにおいて規定されるエンベロープスケールファクタの周波数境界テーブルであることが望ましい。周波数境界テーブルは“MPEG4 AAC”のSBRの規定に従い、高周波生成部2gにおいて決定される。この自動利得制御処理により、線形予測フィルタ部2kの出力信号の高周波成分の任意の周波数範囲内の電力は線形予測フィルタ処理前と等しい値に調整される。その結果、SBRに基づいて生成された高周波成分の時間エンベロープを変形した線形予測フィルタ部2kの出力信号で、高周波調整部2jにおいて行われた高周波信号の電力の調整の効果が周波数範囲の単位で保たれる。また、第1の実施形態の本変形例3と同様の変更を第4の実施形態における線形予測フィルタ部2kに加えてもよい。
(第3の実施形態の変形例1)
第3の実施形態の音声符号化装置13におけるエンベロープ形状パラメータ算出部1nは、以下のような処理で実現することもできる。エンベロープ形状パラメータ算出部1nは、符号化フレーム内のSBRエンベロープの各々について、次の数式(33)に従ってエンベロープ形状パラメータs(i)(0≦i<Ne)を取得する。
Figure 2012053493

ただし、
Figure 2012053493

はe(r)のSBRエンベロープ内での平均値であり、その算出方法は数式(21)に従う。ただし、SBRエンベロープとは、b≦r<bi+1を満たす時間範囲を示す。また、{b}は、SBR補助情報に情報として含まれている、SBRエンベロープの時間境界であり、任意の時間範囲、任意の周波数範囲の平均信号エネルギーを表すSBRエンベロープスケールファクタが対象とする時間範囲の境界である。また、min(・)はb≦r<bi+1の範囲における最小値を表す。従って、この場合には、エンベロープ形状パラメータs(i)は、調整後の時間エンベロープ情報のSBRエンベロープ内での最小値と平均値の比率を指示するパラメータである。また、第3の実施形態の音声復号装置23におけるエンベロープ形状調整部2sは、以下のような処理で実現することもできる。エンベロープ形状調整部2sは、s(i)を用いてe(r)を調整し、調整後の時間エンベロープ情報eadj(r)を取得する。調整の方法は次の数式(35)又は数式(36)に従う。
Figure 2012053493

Figure 2012053493

数式35は、調整後の時間エンベロープ情報eadj(r)のSBRエンベロープ内での最小値と平均値の比率が、エンベロープ形状パラメータs(i)の値と等しくなるようエンベロープ形状を調整するものである。また、上記した第3の実施形態の本変形例1と同様の変更を第4の実施形態に加えてもよい。
(第3の実施形態の変形例2)
時間エンベロープ変形部2vは、数式(28)に代わり、次の数式を利用することもできる。数式(37)に示すとおり、eadj,scaled(r)は、qadj(k,r)とqenvadj(k,r)のSBRエンベロープ内での電力が等しくなるよう調整後の時間エンベロープ情報eadj(r)の利得を制御したものである。また、数式(38)に示すとおり、第3の実施形態の本変形例2では、eadj(r)ではなくeadj,scaled(r)をQMF領域の信号qadj(k,r)に乗算してqenvadj(k,r)を得る。従って、時間エンベロープ変形部2vは、SBRエンベロープ内での信号電力が時間エンベロープの変形の前と後で等しくなるようにQMF領域の信号qadj(k,r)の時間エンベロープの変形を行うことができる。ただし、SBRエンベロープとは、b≦r<bi+1を満たす時間範囲を示す。また、{b}は、SBR補助情報に情報として含まれている、SBRエンベロープの時間境界であり、任意の時間範囲、任意の周波数範囲の平均信号エネルギーを表すSBRエンベロープスケールファクタが対象とする時間範囲の境界である。また、本発明の実施例中における用語“SBRエンベロープ”は、“ISO/IEC 14496-3”に規定される“MPEG4 AAC”における用語“SBRエンベロープ時間セグメント”に相当し、実施例全体を通して“SBRエンベロープ”は“SBRエンベロープ時間セグメント”と同一の内容を意味する。
Figure 2012053493

Figure 2012053493

また、上記した第3の実施形態の本変形例2と同様の変更を第4の実施形態に加えてもよい。
(第3の実施形態の変形例3)
数式(19)は下記の数式(39)であってもよい。
Figure 2012053493

数式(22)は下記の数式(40)であってもよい。
Figure 2012053493

数式(26)は下記の数式(41)であってもよい。
Figure 2012053493

数式(39)及び数式(40)にしたがった場合、時間エンベロープ情報e(r)は、QMFサブバンドサンプルごとの電力をSBRエンベロープ内での平均電力で正規化し、さらに平方根をとったものとなる。ただし、QMFサブバンドサンプルは、QMF領域信号において、同一の時間インデックス“r”に対応する信号ベクトルであり、QMF領域における一つのサブサンプルを意味する。また、本発明の実施形態全体において、用語”時間スロット”は”QMFサブバンドサンプル”と同一の内容を意味する。この場合、時間エンベロープ情報e(r)は、各QMFサブバンドサンプルへ乗算されるべきゲイン係数を意味することとなり、調整後の時間エンベロープ情報eadj(r)も同様である。
(第4の実施形態の変形例1)
第4の実施形態の変形例1の音声復号装置24a(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24aを統括的に制御する。音声復号装置24aの通信装置は、音声符号化装置11又は音声符号化装置13から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24aは、機能的には、音声復号装置24のビットストリーム分離部2a3に代わり、ビットストリーム分離部2a4(不図示)を備え、さらに、補助情報変換部2wに代わり、時間エンベロープ補助情報生成部2y(不図示)を備える。ビットストリーム分離部2a4は、多重化ビットストリームを、SBR補助情報と、符号化ビットストリームとに分離する。時間エンベロープ補助情報生成部2yは、符号化ビットストリームおよびSBR補助情報に含まれる情報に基づいて、時間エンベロープ補助情報を生成する。
あるSBRエンベロープにおける時間エンベロープ補助情報の生成には、例えば当該SBRエンベロープの時間幅(bi+1−b)、フレームクラス、逆フィルタの強度パラメータ、ノイズフロア、高周波電力の大きさ、高周波電力と低周波電力の比率、QMF領域で表現された低周波信号を周波数方向に線形予測分析した結果の自己相関係数または予測ゲインなどを用いることができる。これらのパラメータの一つ、または複数の値に基づいてK(r)またはs(i)を決定することで、時間エンベロープ補助情報を生成することができる。例えばSBRエンベロープの時間幅(bi+1−b)が広いほどK(r)またはs(i)が小さくなるよう、またはSBRエンベロープの時間幅(bi+1−b)が広いほどK(r)またはs(i)が大きくなるよう(bi+1−b)に基づいてK(r)またはs(i)を決定することで、時間エンベロープ補助情報を生成することができる。また、同様の変更を第1の実施形態及び第3の実施形態に加えてもよい。
(第4の実施形態の変形例2)
第4の実施形態の変形例2の音声復号装置24b(図15参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24bを統括的に制御する。音声復号装置24bの通信装置は、音声符号化装置11又は音声符号化装置13から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24bは、図15に示すとおり、高周波調整部2jにかえて、一次高周波調整部2j1と二次高周波調整部2j2とを備える。
ここで、一次高周波調整部2j1は、“MPEG4 AAC”のSBRにおける“HF adjustment”ステップにある、高周波帯域のQMF領域の信号に対する時間方向の線形予測逆フィルタ処理、ゲインの調整及びノイズの重畳処理による調整を行う。このとき、一次高周波調整部2j1の出力信号は、“ISO/IEC14496-3:2005”の“SBR tool”内、4.6.18.7.6節“Assembling HFsignals”の記述内における信号Wに相当するものとなる。線形予測フィルタ部2k(又は、線形予測フィルタ部2k1)および時間エンベロープ変形部2vは、一次高周波調整部の出力信号を対象に時間エンベロープの変形を行う。二次高周波調整部2j2は、時間エンベロープ変形部2vから出力されたQMF領域の信号に対し、“MPEG4 AAC”のSBRにおける“HF adjustment”ステップにある正弦波の付加処理を行う。二次高周波調整部の処理は、“ISO/IEC14496-3:2005”の“SBR tool”内、4.6.18.7.6節“Assembling HFsignals”の記述内における、信号Wから信号Yを生成する処理において、信号Wを時間エンベロープ変形部2vの出力信号に置き換えた処理に相当する。
なお、上記の説明では正弦波付加処理のみを二次高周波調整部2j2の処理としたが、“HF adjustment”ステップにある処理のいずれかを二次高周波調整部2j2の処理としてよい。また、同様な変形は、第1の実施形態、第2の実施形態、第3の実施形態に加えてもよい。この際、第1の実施形態および第2の実施形態は線形予測フィルタ部(線形予測フィルタ部2k,2k1)を備え、時間エンベロープ変形部を備えないため、一次高周波調整部2j1の出力信号に対して線形予測フィルタ部での処理を行った後、線形予測フィルタ部の出力信号を対象に二次高周波調整部2j2での処理を行う。
また、第3の実施形態は時間エンベロープ変形部2vを備え、線形予測フィルタ部を備えないため、一次高周波調整部2j1の出力信号に対して時間エンベロープ変形部2vでの処理を行った後、時間エンベロープ変形部2vの出力信号を対象に二次高周波調整部での処理を行う。
また、第4の実施形態の音声復号装置(音声復号装置24,24a,24b)において、線形予測フィルタ部2kと時間エンベロープ変形部2vの処理の順序は逆でもよい。すなわち、高周波調整部2jまたは一次高周波調整部2j1の出力信号に対して、時間エンベロープ変形部2vの処理を先に行い、次に、時間エンベロープ変形部2vの出力信号に対して線形予測フィルタ部2kの処理を行ってもよい。
また、時間エンベロープ補助情報は線形予測フィルタ部2kまたは時間エンベロープ変形部2vでの処理を行うか否かを指示する2値の制御情報を含み、この制御情報が線形予測フィルタ部2kまたは時間エンベロープ変形部2vでの処理を行うことを指示している場合に限って、フィルタ強度パラメータK(r)、エンベロープ形状パラメータs(i)、またはK(r)とs(i)の双方を決定するパラメータであるX(r)のいずれか一つ以上をさらに情報として含む形式をとってもよい。
(第4の実施形態の変形例3)
第4の実施形態の変形例3の音声復号装置24c(図16参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24cの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図17のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24cを統括的に制御する。音声復号装置24cの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24cは、図16に示すとおり、高周波調整部2jにかえて、一次高周波調整部2j3と二次高周波調整部2j4とを備え、さらに線形予測フィルタ部2kと時間エンベロープ変形部2vに代えて個別信号成分調整部2z1,2z2,2z3を備える(個別信号成分調整部は、時間エンベロープ変形手段に相当する)。
一次高周波調整部2j3は、高周波帯域のQMF領域の信号を、複写信号成分として出力する。一次高周波調整部2j3は、高周波帯域のQMF領域の信号に対して、ビットストリーム分離部2a3から与えられるSBR補助情報を利用して時間方向の線形予測逆フィルタ処理及びゲインの調整(周波数特性の調整)の少なくとも一方を行った信号を複写信号成分として出力してもよい。さらに、一次高周波調整部2j3は、ビットストリーム分離部2a3から与えられるSBR補助情報を利用してノイズ信号成分および正弦波信号成分を生成し、複写信号成分、ノイズ信号成分および正弦波信号成分を分離された形で各々出力する(ステップSg1の処理)。ノイズ信号成分および正弦波信号成分は、SBR補助情報の内容に依存し、生成されない場合があってもよい。
個別信号成分調整部2z1,2z2,2z3は、前記一次高周波調整部の出力に含まれる複数の信号成分の各々に対し処理を行う(ステップSg2の処理)。個別信号成分調整部2z1,2z2,2z3における処理は、線形予測フィルタ部2kと同様の、フィルタ強度調整部2fから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理であってもよい(処理1)。また、個別信号成分調整部2z1,2z2,2z3における処理は、時間エンベロープ変形部2vと同様の、エンベロープ形状調整部2sから得られた時間エンベロープを用いて各QMFサブバンドサンプルへゲイン係数を乗算する処理であってもよい(処理2)。また、個別信号成分調整部2z1,2z2,2z3における処理は、入力信号に対して線形予測フィルタ部2kと同様の、フィルタ強度調整部2fから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理を行った後、その出力信号に対してさらに時間エンベロープ変形部2vと同様の、エンベロープ形状調整部2sから得られた時間エンベロープを用いて各QMFサブバンドサンプルへゲイン係数を乗算する処理を行うことであってもよい(処理3)。また、個別信号成分調整部2z1,2z2,2z3における処理は、入力信号に対して時間エンベロープ変形部2vと同様の、エンベロープ形状調整部2sから得られた時間エンベロープを用いて各QMFサブバンドサンプルへゲイン係数を乗算する処理を行った後、その出力信号に対してさらに線形予測フィルタ部2kと同様の、フィルタ強度調整部2fから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理を行うことであってもよい(処理4)。また、個別信号成分調整部2z1,2z2,2z3は入力信号に対して時間エンベロープ変形処理を行わず、入力信号をそのまま出力するものであってもよい(処理5)また、個別信号成分調整部2z1,2z2,2z3における処理は、処理1〜5以外の方法で入力信号の時間エンベロープを変形するための何らかの処理を加えるものであってもよい(処理6)。また、個別信号成分調整部2z1,2z2,2z3における処理は、処理1〜6のうちの複数の処理を任意の順序で組み合わせた処理であってもよい(処理7)。
個別信号成分調整部2z1,2z2,2z3における処理は互いに同じでもよいが、個別信号成分調整部2z1,2z2,2z3は、一次高周波調整部の出力に含まれる複数の信号成分の各々に対し互いに異なる方法で時間エンベロープの変形を行ってもよい。例えば個別信号成分調整部2z1は入力された複写信号に対し処理2を行い、個別信号成分調整部2z2は入力されたノイズ信号成分に対して処理3を行い、個別信号成分調整部2z3は入力された正弦波信号に対して処理5を行うといったように、複写信号、ノイズ信号、正弦波信号の各々に対して互いに異なる処理を行ってよい。また、この際、フィルタ強度調整部2fとエンベロープ形状調整部2sは、個別信号成分調整部2z1,2z2,2z3の各々に対して互いに同じ線形予測係数や時間エンベロープを送信してもよいが、互いに異なる線形予測係数や時間エンベロープを送信してもよく、また個別信号成分調整部2z1,2z2,2z3のいずれか2つ以上に対して同一の線形予測係数や時間エンベロープを送信してもよい。個別信号成分調整部2z1,2z2,2z3の1つ以上は、時間エンベロープ変形処理を行わず、入力信号をそのまま出力するもの(処理5)であってもよいため、個別信号成分調整部2z1,2z2,2z3は全体として、一次高周波調整部2j3から出力された複数の信号成分の少なくとも一つに対し時間エンベロープ処理を行うものである(個別信号成分調整部2z1,2z2,2z3の全てが処理5である場合は、いずれの信号成分に対しても時間エンベロープ変形処理が行われないため、本発明の効果を有さない)。
個別信号成分調整部2z1,2z2,2z3のそれぞれにおける処理は、処理1から処理7のいずれかに固定されていてもよいが、外部から与えられる制御情報に基づいて、処理1から処理7のいずれを行うかが動的に決定されてもよい。この際、上記制御情報は多重化ビットストリームに含まれることが望ましい。また、上記制御情報は、特定のSBRエンベロープ時間セグメント、符号化フレーム、またはその他の時間範囲において処理1から処理7のいずれを行うかを指示するものであってもよく、また、制御の時間範囲を特定せず、処理1から処理7のいずれを行うかを指示するものであってもよい。
二次高周波調整部2j4は、個別信号成分調整部2z1,2z2,2z3から出力された処理後の信号成分を足し合わせ、係数加算部へ出力する(ステップSg3の処理)。また、二次高周波調整部2j4は、複写信号成分に対して、ビットストリーム分離部2a3から与えられるSBR補助情報を利用して時間方向の線形予測逆フィルタ処理及びゲインの調整(周波数特性の調整)の少なくとも一方を行ってもよい。
個別信号成分調整部は2z1,2z2,2z3は互いに協調して動作し、処理1〜7のいずれかの処理を行った後の2つ以上の信号成分を互いに足し合わせ、足し合わされた信号に対してさらに処理1〜7のいずれかの処理を加えて途中段階の出力信号を生成してもよい。この際には、二次高周波調整部2j4は、前記途中段階の出力信号と、前記途中段階の出力信号にまだ足しあわされていない信号成分を足し合わせ、係数加算部へ出力する。具体的には、複写信号成分に処理5を行い、雑音成分に処理1を加えた後にこれら2つの信号成分を互いに足し合わせ、足しあわされた信号に対してさらに処理2を加えて途中段階の出力信号を生成することが望ましい。この際には、二次高周波調整部2j4は、前記途中段階の出力信号に正弦波信号成分を足し合わせ、係数加算部へ出力する。
一次高周波調整部2j3は、複写信号成分、ノイズ信号成分、正弦波信号成分の3つの信号成分に限らず、任意の複数の信号成分を互いに分離された形で出力してもよい。この場合の信号成分は、複写信号成分、ノイズ信号成分、正弦波信号成分のうち2つ以上を足し合わせたものであってもよい。また、複写信号成分、ノイズ信号成分、正弦波信号成分のいずれかを帯域分割した信号であってもよい。信号成分の数は3以外であってもよく、この場合には個別信号成分調整部の数は3以外であってよい。
SBRによって生成される高周波信号は、低周波帯域を高周波帯域に複写して得られた複写信号成分と、ノイズ信号、正弦波信号の3つの要素から構成される。複写信号、ノイズ信号、正弦波信号の各々は、互いに異なる時間エンベロープを持つため、本変形例の個別信号成分調整部が行うように、各々の信号成分に対して互いに異なる方法で時間エンベロープの変形を行うことにより、本発明の他の実施例と比較し、復号信号の主観品質をさらに向上させることができる。特に、ノイズ信号は一般に平坦な時間エンベロープを持ち、複写信号は低周波帯域の信号に近い時間エンベロープを持つため、これらを分離して扱い、互いに異なる処理を加えることにより、複写信号とノイズ信号の時間エンベロープを独立に制御することが可能となり、これは復号信号の主観品質向上に有効である。具体的には、ノイズ信号に対しては時間エンベロープを変形させる処理(処理3または処理4)を行い、複写信号に対しては、ノイズ信号に対するものとは異なる処理(処理1または処理2)を行い、さらに、正弦波信号に対しては、処理5を行う(すなわち、時間エンベロープ変形処理を行わない)ことが好ましい。または、ノイズ信号に対しては時間エンベロープの変形処理(処理3または処理4)を行い、複写信号と正弦波信号に対しては、処理5を行う(すなわち、時間エンベロープ変形処理を行わない)ことが好ましい。
(第1の実施形態の変形例4)
第1の実施形態の変形例4の音声符号化装置11b(図44)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11bを統括的に制御する。音声符号化装置11bの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11bは、音声符号化装置11の線形予測分析部1eにかえて線形予測分析部1e1を備え、時間スロット選択部1pをさらに備える。
時間スロット選択部1pは、周波数変換部1aからQMF領域の信号を受け取り、線形予測分析部1e1での線形予測分析処理を施す時間スロットを選択する。線形予測分析部1e1は、時間スロット選択部1pより通知された選択結果に基づき、選択された時間スロットのQMF領域信号を線形予測分析部1eと同様に線形予測分析し、高周波線形予測係数、低周波線形予測係数のうち少なくともひとつを取得する。フィルタ強度パラメータ算出部1fは、線形予測分析部1e1において得られた、時間スロット選択部1pで選択された時間スロットの線形予測係数を用いてフィルタ強度パラメータを算出する。時間スロット選択部1pでの時間スロットの選択では、例えば後に記載の本変形例の復号装置21aにおける時間スロット選択部3aと同様の高周波成分のQMF領域信号の信号電力を用いた選択方法のうち少なくともひとつを用いてもよい。その際、時間スロット選択部1pにおける高周波成分のQMF領域信号は、周波数変換部1aから受け取るQMF領域の信号のうち、SBR符号化部1dにおいて符号化される周波数成分であることが望ましい。時間スロットの選択方法は、前記の方法を少なくともひとつ用いてもよく、さらには前記とは異なる方法を少なくともひとつ用いてもよく、さらにはそれらを組み合わせて用いてもよい。
第1の実施形態の変形例4の音声復号装置21a(図18参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置21aの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図19のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置21aを統括的に制御する。音声復号装置21aの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置21aは、図18に示すとおり、音声復号装置21の低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、及び線形予測逆フィルタ部2i、及び線形予測フィルタ部2kにかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び線形予測フィルタ部2k3を備え、時間スロット選択部3aをさらに備える。
時間スロット選択部3aは、高周波生成部2gにて生成された時間スロットrの高周波成分のQMF領域の信号qexp(k,r)に対して、線形予測フィルタ部2kにおいて線形予測合成フィルタ処理を施すか否かを判断し、線形予測合成フィルタ処理を施す時間スロットを選択する(ステップSh1の処理)。時間スロット選択部3aは、時間スロットの選択結果を、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、線形予測フィルタ部2k3に通知する。低周波線形予測分析部2d1では、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットr1のQMF領域信号を、低周波線形予測分析部2dと同様に線形予測分析し、低周波線形予測係数を取得する(ステップSh2の処理)。信号変化検出部2e1では、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットのQMF領域信号の時間変化を、信号変化検出部2eと同様に検出し、検出結果T(r1)を出力する。
フィルタ強度調整部2fでは、低周波線形予測分析部2d1において得られた、時間スロット選択部3aで選択された時間スロットの低周波線形予測係数に対してフィルタ強度調整を行い、調整された線形予測係数adec(n,r1)を得る。高周波線形予測分析部2h1では、高周波生成部2gによって生成された高周波成分のQMF領域信号を、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットr1に関して、高周波線形予測分析部2hと同様に、周波数方向に線形予測分析し、高周波線形予測係数aexp(n,r1)を取得する(ステップSh3の処理)。線形予測逆フィルタ部2i1では、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットr1の高周波成分のQMF領域の信号qexp(k,r)を、線形予測逆フィルタ部2iと同様に周波数方向にaexp(n,r1)を係数とする線形予測逆フィルタ処理を行う(ステップSh4の処理)。
線形予測フィルタ部2k3では、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットr1の高周波調整部2jから出力された高周波成分のQMF領域の信号qadj(k,r1)に対し、線形予測フィルタ部2kと同様に、フィルタ強度調整部2fから得られたaadj(n,r1)を用いて、周波数方向に線形予測合成フィルタ処理を行う(ステップSh5の処理)。また、変形例3に記載の線形予測フィルタ部2kへの変更を、線形予測フィルタ部2k3に加えてもよい。時間スロット選択部3aでの線形予測合成フィルタ処理を施す時間スロットの選択では、例えば高周波成分のQMF領域信号qexp(k,r)の信号電力が所定の値Pexp,Thよりも大きい時間スロットrをひとつ以上選択してもよい。qexp(k,r)の信号電力は次の数式で求めることが望ましい。
Figure 2012053493

ただし、Mは高周波生成部2gによって生成される高周波成分の下限周波数kより高い周波数の範囲を表す値であり、さらには高周波生成部2gによって生成される高周波成分の周波数範囲をk<=k<k+Mのように表してもよい。また、所定の値Pexp,Thは時間スロットrを含む所定の時間幅のPexp(r)の平均値でもよい。さらに所定の時間幅はSBRエンベロープでもよい。
また、高周波成分のQMF領域信号の信号電力がピークになる時間スロットが含まれるように選択してもよい。信号電力のピークは、例えば信号電力の移動平均値
Figure 2012053493

について
Figure 2012053493

が正の値から負の値に変わる時間スロットrの高周波成分のQMF領域の信号電力をピークとしてもよい。信号電力の移動平均値
Figure 2012053493

は、例えば次の式で求めることができる。
Figure 2012053493

ただし、cは平均値を求める範囲を定める所定の値である。また信号電力のピークは、前記の方法で求めてもよく、異なる方法により求めてもよい。
さらに、高周波成分のQMF領域信号の信号電力の変動が小さい定常状態から変動の大きい過渡状態になるまでの時間幅tが所定の値tthよりも小さく、当該時間幅に含まれる時間スロットを少なくともひとつ選択してもよい。さらに、高周波成分のQMF領域信号の信号電力の変動が大きい過渡状態から変動の小さい定常状態になるまでの時間幅tが所定の値tthよりも小さく、当該時間幅に含まれる時間スロットを少なくともひとつ選択してもよい。|Pexp(r+1)−Pexp(r)|が所定の値よりも小さい(または、所定の値と等しいまたは小さい)時間スロットrを前記定常状態とし、|Pexp(r+1)−Pexp(r)|が所定の値と等しいまたは大きい(または、所定の値よりも大きい)時間スロットrを前記過渡状態としてもよく、|Pexp,MA(r+1)−Pexp,MA(r)|が所定の値よりも小さい(または、所定の値と等しいまたは小さい)時間スロットrを前記定常状態とし、|Pexp,MA(r+1)−Pexp,MA(r)|が所定の値と等しいまたは大きい(または、所定の値よりも大きい)時間スロットrを前記過渡状態としてもよい。また過渡状態、定常状態は前記の方法で定義してもよく、異なる方法で定義してもよい。時間スロットの選択方法は、前記の方法を少なくともひとつ用いてもよく、さらには前記とは異なる方法を少なくともひとつ用いてもよく、さらにはそれらを組み合わせても良い。
(第1の実施形態の変形例5)
第1の実施形態の変形例5の音声符号化装置11c(図45)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11cの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11cを統括的に制御する。音声符号化装置11cの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11cは、変形例4の音声符号化装置11bの時間スロット選択部1p、及びビットストリーム多重化部1gにかえて、時間スロット選択部1p1、及びビットストリーム多重化部1g4を備える。
時間スロット選択部1p1は、第1の実施形態の変形例4に記載の時間スロット選択部1pと同様に時間スロットを選択し、時間スロット選択情報をビットストリーム多重化部1g4へ送る。ビットストリーム多重化部1g4は、コアコーデック符号化部1cによって算出された符号化ビットストリームと、SBR符号化部1dによって算出されたSBR補助情報と、フィルタ強度パラメータ算出部1fによって算出されたフィルタ強度パラメータとを、ビットストリーム多重化部1gと同様に多重化し、さらに時間スロット選択部1p1から受け取った時間スロット選択情報とを多重化し、多重化ビットストリームを、音声符号化装置11cの通信装置を介して出力する。前記時間スロット選択情報は、後に記載の音声復号装置21bにおける時間スロット選択部3a1が受け取る時間スロット選択情報であり、例えば選択する時間スロットのインデックスr1を含んでいてもよい。さらに、例えば時間スロット選択部3a1の時間スロット選択方法に利用されるパラメータでもよい。第1の実施形態の変形例5の音声復号装置21b(図20参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置21bの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図21のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置21bを統括的に制御する。音声復号装置21bの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。
音声復号装置21bは、図20に示すとおり、変形例4の音声復号装置21aのビットストリーム分離部2a、及び時間スロット選択部3aにかえて、ビットストリーム分離部2a5、及び時間スロット選択部3a1を備え、時間スロット選択部3a1に時間スロット選択情報が入力される。ビットストリーム分離部2a5では、多重化ビットストリームを、ビットストリーム分離部2aと同様に、フィルタ強度パラメータと、SBR補助情報と、符号化ビットストリームとに分離し、時間スロット選択情報をさらに分離する。時間スロット選択部3a1では、ビットストリーム分離部2a5から送られた時間スロット選択情報に基づいて時間スロットを選択する(ステップSi1の処理)。時間スロット選択情報は、時間スロットの選択に用いる情報であり、例えば選択する時間スロットのインデックスr1を含んでいてもよい。さらに、例えば変形例4に記載の時間スロット選択方法に利用されるパラメータでもよい。この場合、時間スロット選択部3a1には、時間スロット選択情報に加えて、図示されていないが高周波生成部2gにて生成された高周波成分のQMF領域信号も入力される。前記パラメータは、例えば前記時間スロットの選択のために用いる所定の値(例えば、Pexp,Th、tThなど)でもよい。
(第1の実施形態の変形例6)
第1の実施形態の変形例6の音声符号化装置11d(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11dの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11dを統括的に制御する。音声符号化装置11dの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11dは、変形例1の音声符号化装置11aの短時間電力算出部1iにかえて、図示しない短時間電力算出部1i1を備え、時間スロット選択部1p2をさらに備える。
時間スロット選択部1p2は、周波数変換部1aからQMF領域の信号を受け取り、短時間電力算出部1iでの短時間電力算出処理を施す時間区間に対応する時間スロットを選択する。短時間電力算出部1i1は、時間スロット選択部1p2より通知された選択結果に基づき、選択された時間スロットに対応する時間区間の短時間電力を、変形例1の音声符号化装置11aの短時間電力算出部1iと同様に算出する。
(第1の実施形態の変形例7)
第1の実施形態の変形例7の音声符号化装置11e(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置11eの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11eを統括的に制御する。音声符号化装置11eの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置11eは、変形例6の音声符号化装置11dの時間スロット選択部1p2にかえて、図示しない時間スロット選択部1p3を備える。さらに、ビットストリーム多重化部1g1にかえて、時間スロット選択部1p3からの出力をさらに受けるビットストリーム多重化部を備える。時間スロット選択部1p3は、第1の実施形態の変形例6に記載の時間スロット選択部1p2と同様に時間スロットを選択し、時間スロット選択情報をビットストリーム多重化部へ送る。
(第1の実施形態の変形例8)
第1の実施形態の変形例8の音声符号化装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例8の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例8の音声符号化装置を統括的に制御する。変形例8の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。変形例8の音声符号化装置は、変形例2に記載の音声符号化装置に加え、時間スロット選択部1pをさらに備える。
第1の実施形態の変形例8の音声復号装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例8の音声復号装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例8の音声復号装置を統括的に制御する。変形例8の音声復号装置の通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。変形例8の音声復号装置は、変形例2に記載の音声復号装置の低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、及び線形予測逆フィルタ部2i、及び線形予測フィルタ部2kにかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び線形予測フィルタ部2k3を備え、時間スロット選択部3aをさらに備える。
(第1の実施形態の変形例9)
第1の実施形態の変形例9の音声符号化装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例9の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例9の音声符号化装置を統括的に制御する。変形例9の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。変形例9の音声符号化装置は、変形例8に記載の音声符号化装置の時間スロット選択部1pにかえて、時間スロット選択部1p1を備える。さらに、変形例8に記載のビットストリーム多重化部にかえて、変形例8に記載のビットストリーム多重化部への入力に加えて時間スロット選択部1p1からの出力をさらに受けるビットストリーム多重化部を備える。
第1の実施形態の変形例9の音声復号装置(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の変形例9の音声復号装置の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって変形例9の音声復号装置を統括的に制御する。変形例9の音声復号装置の通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。変形例9の音声復号装置は、変形例8に記載の音声復号装置の時間スロット選択部3aにかえて、時間スロット選択部3a1を備える。さらに、ビットストリーム分離部2aにかえて、ビットストリーム分離部2a5のフィルタ強度パラメータにかえて前記変形例2に記載のa(n,r)を分離するビットストリーム分離部を備える。
(第2の実施形態の変形例1)
第2の実施形態の変形例1の音声符号化装置12a(図46)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置12aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置12aを統括的に制御する。音声符号化装置12aの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置12aは、音声符号化装置12の線形予測分析部1eにかえて、線形予測分析部1e1を備え、時間スロット選択部1pをさらに備える。
第2の実施形態の変形例1の音声復号装置22a(図22参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置22aの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図23のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置22aを統括的に制御する。音声復号装置22aの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置22aは、図22に示すとおり、第2の実施形態の音声復号装置22の高周波線形予測分析部2h、線形予測逆フィルタ部2i、線形予測フィルタ部2k1、及び線形予測補間・補外部2pにかえて、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、線形予測フィルタ部2k2、及び線形予測補間・補外部2p1を備え、時間スロット選択部3aをさらに備える。
時間スロット選択部3aは、時間スロットの選択結果を、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、線形予測フィルタ部2k2、線形予測係数補間・補外部2p1に通知する。線形予測係数補間・補外部2p1では、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットであり線形予測係数の伝送されていない時間スロットr1に対応するa(n,r)を、線形予測係数補間・補外部2pと同様に、補間又は補外により取得する(ステップSj1の処理)。線形予測フィルタ部2k2では、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットr1に関して、高周波調整部2jから出力されたqadj(n,r1)に対し、線形予測係数補間・補外部2p1から得られた、補間又は補外されたa(n,r1)を用いて、線形予測フィルタ部2k1と同様に、周波数方向に線形予測合成フィルタ処理を行う(ステップSj2の処理)。また、第1の実施形態の変形例3に記載の線形予測フィルタ部2kへの変更を、線形予測フィルタ部2k2に加えてもよい。
(第2の実施形態の変形例2)
第2の実施形態の変形例2の音声符号化装置12b(図47)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置12bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置11bを統括的に制御する。音声符号化装置12bの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置12bは、変形例1の音声符号化装置12aの時間スロット選択部1p、及びビットストリーム多重化部1g2にかえて、時間スロット選択部1p1、及びビットストリーム多重化部1g5を備える。ビットストリーム多重化部1g5は、ビットストリーム多重化部1g2と同様に、コアコーデック符号化部1cで算出された符号化ビットストリームと、SBR符号化部1dで算出されたSBR補助情報と、線形予測係数量子化部1kから与えられた量子化後の線形予測係数に対応する時間スロットのインデックスとを多重化し、さらに時間スロット選択部1p1から受け取る時間スロット選択情報をビットストリームに多重化し、多重化ビットストリームを、音声符号化装置12bの通信装置を介して出力する。
第2の実施形態の変形例2の音声復号装置22b(図24参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置22bの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図25のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置22bを統括的に制御する。音声復号装置22bの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置22bは、図24に示すとおり、変形例1に記載の音声復号装置22aのビットストリーム分離部2a1、及び時間スロット選択部3a、にかえて、ビットストリーム分離部2a6、及び時間スロット選択部3a1を備え、時間スロット選択部3a1に時間スロット選択情報が入力される。ビットストリーム分離部2a6では、ビットストリーム分離部2a1と同様に、多重化ビットストリームを、量子化されたa(n,r)と、これに対応する時間スロットのインデックスrと、SBR補助情報と、符号化ビットストリームとに分離し、時間スロット選択情報をさらに分離する。
(第3の実施形態の変形例4)第3の実施形態の変形例1に記載の
Figure 2012053493

は、e(r)のSBRエンベロープ内での平均値であってもよく、さらに別に定める値であってもよい。
(第3の実施形態の変形例5)
エンベロープ形状調整部2sは、前記第3の実施形態の変形例3に記載のとおり、調整後の時間エンベロープeadj(r)が例えば数式(28),数式(37)及び(38)のとおり、QMFサブバンドサンプルへ乗算されるゲイン係数であることを鑑み、eadj(r)を所定の値eadj,Th(r)により以下のように制限することが望ましい。
Figure 2012053493
(第4の実施形態)
第4の実施形態の音声符号化装置14(図48)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置14の内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置14を統括的に制御する。音声符号化装置14の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置14は、第1の実施形態の変形例4の音声符号化装置11bのビットストリーム多重化部1gにかえて、ビットストリーム多重化部1g7を備え、さらに音声符号化装置13の時間エンベロープ算出部1m、及びエンベロープ形状パラメータ算出部1nを備える。
ビットストリーム多重化部1g7は、ビットストリーム多重化部1gと同様に、コアコーデック符号化部1cによって算出された符号化ビットストリームと、SBR符号化部1dによって算出されたSBR補助情報とを多重化し、さらに、フィルタ強度パラメータ算出部によって算出されたフィルタ強度パラメータと、エンベロープ形状パラメータ算出部1nによって算出されたエンベロープ形状パラメータとを時間エンベロープ補助情報に変換して多重化し、多重化ビットストリーム(符号化された多重化ビットストリーム)を、音声符号化装置14の通信装置を介して出力する。
(第4の実施形態の変形例4)
第4の実施形態の変形例4の音声符号化装置14a(図49)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置14aの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置14aを統括的に制御する。音声符号化装置14aの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置14aは、第4の実施形態の音声符号化装置14の線形予測分析部1eにかえて、線形予測分析部1e1を備え、時間スロット選択部1pをさらに備える。
第4の実施形態の変形例4の音声復号装置24d(図26参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24dの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図27のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24dを統括的に制御する。音声復号装置24dの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24dは、図26に示すとおり、音声復号装置24の低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、及び線形予測逆フィルタ部2i、及び線形予測フィルタ部2kにかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び線形予測フィルタ部2k3を備え、時間スロット選択部3aをさらに備える。時間エンベロープ変形部2vは、線形予測フィルタ部2k3から得られたQMF領域の信号を、エンベロープ形状調整部2sから得られた時間エンベロープ情報を用いて、第3の実施形態、第4の実施形態、及びそれらの変形例の時間エンベロープ変形部2vと同様に変形する(ステップSk1の処理)。
(第4の実施形態の変形例5)
第4の実施形態の変形例5の音声復号装置24e(図28参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24eの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図29のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24eを統括的に制御する。音声復号装置24eの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24eは、図28に示すとおり、変形例5においては、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例4に記載の音声復号装置24dの高周波線形予測分析部2h1と、線形予測逆フィルタ部2i1を省略し、音声復号装置24dの時間スロット選択部3a、及び時間エンベロープ変形部2vにかえて、時間スロット選択部3a2、及び時間エンベロープ変形部2v1を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
時間エンベロープ変形部2v1は、時間エンベロープ変形部2vと同様に、高周波調整部2jから得られたqadj(k,r)をエンベロープ形状調整部2sから得られたeadj(r)を用いて変形し、時間エンベロープが変形されたQMF領域の信号qenvadj(k,r)を取得する。さらに、時間エンベロープ変形処理時に得られたパラメータ、または少なくとも時間エンベロープ変形処理時に得られたパラメータを用いて算出したパラメータを時間スロット選択情報として、時間スロット選択部3a2に通知する。時間スロット選択情報としては、数式(22)、数式(40)のe(r)またはその算出過程にて平方根演算をしない|e(r)|でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
Figure 2012053493

でのそれらの平均値である数式(24)の
Figure 2012053493

もあわせて時間スロット選択情報としてもよい。ただし、
Figure 2012053493

である。
さらに時間スロット選択情報としては、数式(26)、数式(41)のeexp(r)またはその算出過程にて平方根演算をしない|eexp(r)|でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
Figure 2012053493

でのそれらの平均値である
Figure 2012053493

もあわせて時間スロット選択情報としてもよい。ただし、
Figure 2012053493

Figure 2012053493

である。さらに時間スロット選択情報としては、数式(23)、数式(35)、数式(36)のeadj(r)またはその算出過程にて平方根演算をしない|eadj(r)|でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
Figure 2012053493

でのそれらの平均値である
Figure 2012053493

もあわせて時間スロット選択情報としてもよい。ただし、
Figure 2012053493

Figure 2012053493

である。さらに時間スロット選択情報としては、数式(37)のeadj,scaled(r)またはその算出過程にて平方根演算をしない|eadj,scaled(r)|でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
Figure 2012053493

でのそれらの平均値である
Figure 2012053493

もあわせて時間スロット選択情報としてもよい。ただし、
Figure 2012053493

Figure 2012053493

である。さらに時間スロット選択情報としては、時間エンベロープが変形された高周波成分に対応するQMF領域信号の時間スロットrの信号電力Penvadj(r)またはそれの平方根演算をした信号振幅値
Figure 2012053493

でもよく、さらにある複数時間スロット区間(例えばSBRエンベロープ)
Figure 2012053493

でのそれらの平均値である
Figure 2012053493

もあわせて時間スロット選択情報としてもよい。ただし、
Figure 2012053493

Figure 2012053493

である。ただし、Mは高周波生成部2gによって生成される高周波成分の下限周波数kより高い周波数の範囲を表す値であり、さらには高周波生成部2gによって生成される高周波成分の周波数範囲をk≦k<k+Mのように表してもよい。
時間スロット選択部3a2は、時間エンベロープ変形部2v1から通知された時間スロット選択情報に基づいて、時間エンベロープ変形部2v1にて時間エンベロープを変形された時間スロットrの高周波成分のQMF領域の信号qenvadj(k,r)に対して、線形予測フィルタ部2kにおいて線形予測合成フィルタ処理を施すか否かを判断し、線形予測合成フィルタ処理を施す時間スロットを選択する(ステップSp1の処理)。
本変形例における時間スロット選択部3a2での線形予測合成フィルタ処理を施す時間スロットの選択では、時間エンベロープ変形部2v1から通知された時間スロット選択情報に含まれるパラメータu(r)が所定の値uThよりも大きい時間スロットrをひとつ以上選択してもよく、u(r)が所定の値uThよりも大きいか等しい時間スロットrをひとつ以上選択してもよい。u(r)は、上記e(r)、|e(r)|、eexp(r)、|eexp(r)|、eadj(r)、|eadj(r)|、eadj,scaled(r)、|eadj,scaled(r)|、Penvadj(r)、そして、
Figure 2012053493

のうち少なくともひとつを含んでいてもよく、uThは、上記
Figure 2012053493

のうち少なくともひとつを含んでもよい。またuThは、時間スロットrを含む所定の時間幅(例えばSBRエンベロープ)のu(r)の平均値でもよい。さらに、u(r)がピークになる時間スロットが含まれるように選択してもよい。u(r)のピークは、前記第1の実施形態の変形例4における高周波成分のQMF領域信号の信号電力のピークの算出と同様に算出できる。さらに、前記第1の実施形態の変形例4における定常状態と過渡状態を、u(r)を用いて前記第1の実施形態の変形例4と同様に判断し、それに基づいて時間スロットを選択してもよい。時間スロットの選択方法は、前記の方法を少なくともひとつ用いてもよく、さらには前記とは異なる方法を少なくともひとつ用いてもよく、さらにはそれらを組み合わせてもよい。
(第4の実施形態の変形例6)
第4の実施形態の変形例6の音声復号装置24f(図30参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24fの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図29のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24fを統括的に制御する。音声復号装置24fの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24fは、図30に示すとおり、変形例6においては、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例4に記載の音声復号装置24dの信号変化検出部2e1と、高周波線形予測分析部2h1と、線形予測逆フィルタ部2i1を省略し、音声復号装置24dの時間スロット選択部3a、及び時間エンベロープ変形部2vにかえて、時間スロット選択部3a2、及び時間エンベロープ変形部2v1を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
時間スロット選択部3a2は、時間エンベロープ変形部2v1から通知された時間スロット選択情報に基づいて、時間エンベロープ変形部2v1にて時間エンベロープを変形された時間スロットrの高周波成分のQMF領域の信号qenvadj(k,r)に対して、線形予測フィルタ部2k3において線形予測合成フィルタ処理を施すか否かを判断し、線形予測合成フィルタ処理を施す時間スロットを選択し、選択した時間スロットを低周波線形予測分析部2d1と線形予測フィルタ部2k3に通知する。
(第4の実施形態の変形例7)
第4の実施形態の変形例7の音声符号化装置14b(図50)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声符号化装置14bの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声符号化装置14bを統括的に制御する。音声符号化装置14bの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置14bは、変形例4の音声符号化装置14aのビットストリーム多重化部1g7、及び時間スロット選択部1pにかえて、ビットストリーム多重化部1g6、および時間スロット選択部1p1を備える。
ビットストリーム多重化部1g6は、ビットストリーム多重化部1g7と同様に、コアコーデック符号化部1cによって算出された符号化ビットストリームと、SBR符号化部1dによって算出されたSBR補助情報と、フィルタ強度パラメータ算出部によって算出されたフィルタ強度パラメータとエンベロープ形状パラメータ算出部1nによって算出されたエンベロープ形状パラメータとを変換した時間エンベロープ補助情報とを多重化し、さらに時間スロット選択部1p1より受け取った時間スロット選択情報を多重化し、多重化ビットストリーム(符号化された多重化ビットストリーム)を、音声符号化装置14bの通信装置を介して出力する。
第4の実施形態の変形例7の音声復号装置24g(図31参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24gの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図32のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24gを統括的に制御する。音声復号装置24gの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24gは、図31に示すとおり、変形例4に記載の音声復号装置24dのビットストリーム分離部2a3、及び時間スロット選択部3aにかえて、ビットストリーム分離部2a7、及び時間スロット選択部3a1を備える。
ビットストリーム分離部2a7は、音声復号装置24gの通信装置を介して入力された多重化ビットストリームを、ビットストリーム分離部2a3と同様に、時間エンベロープ補助情報と、SBR補助情報と、符号化ビットストリームと、に分離し、さらに時間スロット選択情報とに分離する。
(第4の実施形態の変形例8)
第4の実施形態の変形例8の音声復号装置24h(図33参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24hの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図34のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24hを統括的に制御する。音声復号装置24hの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24hは、図33に示すとおり、変形例2の音声復号装置24bの低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、線形予測逆フィルタ部2i、及び線形予測フィルタ部2kにかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び線形予測フィルタ部2k3を備え、時間スロット選択部3aをさらに備える。一次高周波調整部2j1は、第4の実施形態の変形例2における一次高周波調整部2j1と同様に、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のいずれか一つ以上を行う(ステップSm1の処理)。二次高周波調整部2j2は、第4の実施形態の変形例2における二次高周波調整部2j2と同様に、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のいずれか一つ以上を行う(ステップSm2の処理)。二次高周波調整部2j2で行う処理は、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のうち、一次高周波調整部2j1で行われなかった処理とすることが望ましい。
(第4の実施形態の変形例9)
第4の実施形態の変形例9の音声復号装置24i(図35参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24iの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図36のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24iを統括的に制御する。音声復号装置24iの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24iは、図35に示すとおり、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例8の音声復号装置24hの高周波線形予測分析部2h1、及び線形予測逆フィルタ部2i1を省略し、変形例8の音声復号装置24hの時間エンベロープ変形部2v、及び時間スロット選択部3aにかえて、時間エンベロープ変形部2v1、及び時間スロット選択部3a2を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
(第4の実施形態の変形例10)
第4の実施形態の変形例10の音声復号装置24j(図37参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24jの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図36のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24jを統括的に制御する。音声復号装置24jの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24jは、図37に示すとおり、第1の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例8の音声復号装置24hの信号変化検出部2e1、高周波線形予測分析部2h1、及び線形予測逆フィルタ部2i1を省略し、変形例8の音声復号装置24hの時間エンベロープ変形部2v、及び時間スロット選択部3aにかえて、時間エンベロープ変形部2v1、及び時間スロット選択部3a2を備える。さらに、第4の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部2k3の線形予測合成フィルタ処理と時間エンベロープ変形部2v1での時間エンベロープの変形処理の順序を入れ替える。
(第4の実施形態の変形例11)
第4の実施形態の変形例11の音声復号装置24k(図38参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24kの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図39のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24kを統括的に制御する。音声復号装置24kの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24kは、図38に示すとおり、変形例8の音声復号装置24hのビットストリーム分離部2a3、及び時間スロット選択部3aにかえて、ビットストリーム分離部2a7、及び時間スロット選択部3a1を備える。
(第4の実施形態の変形例12)
第4の実施形態の変形例12の音声復号装置24q(図40参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24qの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図41のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24qを統括的に制御する。音声復号装置24qの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24qは、図40に示すとおり、変形例3の音声復号装置24cの低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、線形予測逆フィルタ部2i、及び個別信号成分調整部2z1,2z2,2z3にかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び個別信号成分調整部2z4,2z5,2z6を備え(個別信号成分調整部は、時間エンベロープ変形手段に相当する)、時間スロット選択部3aをさらに備える。
個別信号成分調整部2z4,2z5,2z6のうち少なくともひとつは、前記一次高周波調整部の出力に含まれる信号成分に関して、時間スロット選択部3aより通知された選択結果に基づき、選択された時間スロットのQMF領域信号に対して、個別信号成分調整部2z1,2z2,2z3と同様に、処理を行う(ステップSn1の処理)。時間スロット選択情報を用いて行う処理は、前記第4の実施形態の変形例3に記載の個別信号成分調整部2z1,2z2,2z3における処理のうち、周波数方向の線形予測合成フィルタ処理を含む処理のうち少なくともひとつを含むのが望ましい。
個別信号成分調整部2z4,2z5,2z6における処理は、前記第4の実施形態の変形例3に記載の個別信号成分調整部2z1,2z2,2z3の処理と同様に、互いに同じでもよいが、個別信号成分調整部2z4,2z5,2z6は、一次高周波調整部の出力に含まれる複数の信号成分の各々に対し互いに異なる方法で時間エンベロープの変形を行ってもよい。(個別信号成分調整部2z4,2z5,2z6の全てが時間スロット選択部3aより通知された選択結果に基づいて処理しない場合は、本発明の第4の実施形態の変形例3と同等になる)。
時間スロット選択部3aから個別信号成分調整部2z4,2z5,2z6のそれぞれに通知される時間スロットの選択結果は、必ずしも全てが同じである必要はなく、全てまたは一部が異なってもよい。
さらに、図40ではひとつの時間スロット選択部3aから個別信号成分調整部2z4,2z5,2z6のそれぞれに時間スロットの選択結果を通知する構成になっているが、個別信号成分調整部2z4,2z5,2z6のそれぞれ、または一部に対して異なる時間スロットの選択結果を通知する時間スロット選択部を複数有してもよい。またその際に、個別信号成分調整部2z4,2z5,2z6のうち、第4の実施形態の変形例3に記載の処理4(入力信号に対して時間エンベロープ変形部2vと同様の、エンベロープ形状調整部2sから得られた時間エンベロープを用いて各QMFサブバンドサンプルへゲイン係数を乗算する処理を行った後、その出力信号に対してさらに線形予測フィルタ部2kと同様の、フィルタ強度調整部2fから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理)を行う個別信号成分調整部に対する時間スロット選択部は、時間エンベロープ変形部から時間スロット選択情報を入力されて時間スロットの選択処理を行ってもよい。
(第4の実施形態の変形例13)
第4の実施形態の変形例13の音声復号装置24m(図42参照)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24mの内蔵メモリに格納された所定のコンピュータプログラム(例えば、図43のフローチャートに示す処理を行うためのコンピュータプログラム)をRAMにロードして実行することによって音声復号装置24mを統括的に制御する。音声復号装置24mの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24mは、図42に示すとおり、変形例12の音声復号装置24qのビットストリーム分離部2a3、及び時間スロット選択部3aにかえて、ビットストリーム分離部2a7、及び時間スロット選択部3a1を備える。
(第4の実施形態の変形例14)
第4の実施形態の変形例14の音声復号装置24n(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24nの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24nを統括的に制御する。音声復号装置24nの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24nは、機能的には、変形例1の音声復号装置24aの低周波線形予測分析部2d、信号変化検出部2e、高周波線形予測分析部2h、線形予測逆フィルタ部2i、及び線形予測フィルタ部2kにかえて、低周波線形予測分析部2d1、信号変化検出部2e1、高周波線形予測分析部2h1、線形予測逆フィルタ部2i1、及び線形予測フィルタ部2k3を備え、時間スロット選択部3aをさらに備える。
(第4の実施形態の変形例15)
第4の実施形態の変形例15の音声復号装置24p(不図示)は、物理的には図示しないCPU、ROM、RAM及び通信装置等を備え、このCPUは、ROM等の音声復号装置24pの内蔵メモリに格納された所定のコンピュータプログラムをRAMにロードして実行することによって音声復号装置24pを統括的に制御する。音声復号装置24pの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置24pは、機能的には、変形例14の音声復号装置24nの時間スロット選択部3aにかえて、時間スロット選択部3a1を備える。さらに、ビットストリーム分離部2a4にかえて、ビットストリーム分離部2a8(不図示)を備える。
ビットストリーム分離部2a8は、ビットストリーム分離部2a4と同様に、多重化ビットストリームを、SBR補助情報と、符号化ビットストリームとに分離し、さらに時間スロット選択情報とに分離する。
11,11a,11b,11c,12,12a,12b,13,14、14a,14b…音声符号化装置、1a…周波数変換部、1b…周波数逆変換部、1c…コアコーデック符号化部、1d…SBR符号化部、1e,1e1…線形予測分析部、1f…フィルタ強度パラメータ算出部、1f1…フィルタ強度パラメータ算出部、1g,1g1,1g2,1g3,1g4,1g5,1g6,1g7…ビットストリーム多重化部、1h…高周波周波数逆変換部、1i…短時間電力算出部、1j…線形予測係数間引き部、1k…線形予測係数量子化部、1m…時間エンベロープ算出部、1n…エンベロープ形状パラメータ算出部、1p、1p1…時間スロット選択部、21,22,23,24,24b,24c…音声復号装置、2a,2a1,2a2,2a3,2a5,2a6,2a7…ビットストリーム分離部、2b…コアコーデック復号部、2c…周波数変換部、2d,2d1…低周波線形予測分析部、2e,2e1…信号変化検出部、2f…フィルタ強度調整部、2g…高周波生成部、2h,2h1…高周波線形予測分析部、2i,2i1…線形予測逆フィルタ部、2j,2j1,2j2,2j3,2j4…高周波調整部、2k,2k1,2k2,2k3…線形予測フィルタ部、2m…係数加算部、2n…周波数逆変換部、2p,2p1…線形予測係数補間・補外部、2r…低周波時間エンベロープ計算部、2s…エンベロープ形状調整部、2t…高周波時間エンベロープ算出部、2u…時間エンベロープ平坦化部、2v,2v1…時間エンベロープ変形部、2w…補助情報変換部、2z1,2z2,2z3,2z4,2z5,2z6…個別信号成分調整部、3a,3a1,3a2…時間スロット選択部。

Claims (7)

  1. 符号化された音声信号を復号する音声復号装置であって、
    前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、
    前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、
    前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
    ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む処理のうち一部を前記高周波生成手段によって生成された前記高周波成分に対して実行して、出力信号を生成する一次高周波調整手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、
    前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換手段と、
    前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
    前記調整された時間エンベロープ情報を用いて、前記一次高周波調整手段によって生成された前記出力信号の時間エンベロープを変形して、出力信号を生成する時間エンベロープ変形手段と、
    前記時間エンベロープ変形手段によって生成された前記出力信号に対して、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む前記処理の他の一部を実行する二次高周波調整手段と、
    を備える音声復号装置。
  2. 符号化された音声信号を復号する音声復号装置であって、
    前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、
    前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
    ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む処理のうち一部を前記高周波生成手段によって生成された前記高周波成分に対して実行して、出力信号を生成する一次高周波調整手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、
    前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成部と、
    前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
    前記調整された時間エンベロープ情報を用いて、前記一次高周波調整手段によって生成された前記出力信号の時間エンベロープを変形して、出力信号を生成する時間エンベロープ変形手段と、
    前記時間エンベロープ変形手段によって生成された前記出力信号に対して、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む前記処理の他の一部を実行する二次高周波調整手段と、
    を備える音声復号装置。
  3. 前記二次高周波調整手段は、前記時間エンベロープ変形手段によって生成された前記出力信号に対して、SBRの復号過程における前記正弦波の付加処理を実行する、請求項1又は2に記載の音声復号装置。
  4. 符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、
    前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離ステップと、
    前記音声復号装置が、前記ビットストリーム分離ステップにおいて分離した前記符号化ビットストリームを復号して低周波成分を得るコア復号ステップと、
    前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、
    前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、
    前記音声復号装置が、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む処理のうち一部を前記高周波生成ステップにおいて生成した前記高周波成分に対して実行して、出力信号を生成する一次高周波調整ステップと、
    前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップと、
    前記音声復号装置が、前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換ステップと、
    前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整ステップであり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整ステップと、
    前記音声復号装置が、前記調整された時間エンベロープ情報を用いて、前記一次高周波調整ステップにおいて生成した前記出力信号の時間エンベロープを変形して、出力信号を生成する時間エンベロープ変形ステップと、
    前記音声復号装置が、前記時間エンベロープ変形ステップにおいて生成した前記出力信号に対して、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む前記処理の他の一部を実行する二次高周波調整ステップと、
    を含む音声復号方法。
  5. 符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、
    前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号ステップと、
    前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、
    前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、
    前記音声復号装置が、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む処理のうち一部を前記高周波生成ステップにおいて生成した前記高周波成分に対して実行して、出力信号を生成する一次高周波調整ステップと、
    前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップと、
    前記音声復号装置が、前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成ステップと、
    前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整ステップであり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整ステップと、
    前記音声復号装置が、前記調整された時間エンベロープ情報を用いて、前記一次高周波調整ステップにおいて生成した前記出力信号の時間エンベロープを変形して、出力信号を生成する時間エンベロープ変形ステップと、
    前記音声復号装置が、前記時間エンベロープ変形ステップにおいて生成した前記出力信号に対して、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む前記処理の他の一部を実行する二次高周波調整ステップと、
    を含む音声復号方法。
  6. 符号化された音声信号を復号するために、コンピュータ装置を、
    前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、
    前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、
    前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
    ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む処理のうち一部を前記高周波生成手段によって生成された前記高周波成分に対して実行して、出力信号を生成する一次高周波調整手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、
    前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換手段と、
    前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
    前記調整された時間エンベロープ情報を用いて、前記一次高周波調整手段によって生成された前記出力信号の時間エンベロープを変形して、出力信号を生成する時間エンベロープ変形手段と、
    前記時間エンベロープ変形手段によって生成された前記出力信号に対して、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む前記処理の他の一部を実行する二次高周波調整手段と、
    として機能させる、音声復号プログラム。
  7. 符号化された音声信号を復号するために、コンピュータ装置を、
    前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、
    前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
    ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む処理のうち一部を前記高周波生成手段によって生成された前記高周波成分に対して実行して、出力信号を生成する一次高周波調整手段と、
    前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、
    前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成部と、
    前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
    前記調整された時間エンベロープ情報を用いて、前記一次高周波調整手段によって生成された前記出力信号の時間エンベロープを変形して、出力信号を生成する時間エンベロープ変形手段と、
    前記時間エンベロープ変形手段によって生成された前記出力信号に対して、ゲインの調整、ノイズの重畳、及び、正弦波の付加処理を含む前記処理の他の一部を実行する二次高周波調整手段と、
    として機能させる音声復号プログラム。
JP2011271559A 2009-04-03 2011-12-12 音声復号装置、音声復号方法、及び音声復号プログラム Active JP4921611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011271559A JP4921611B2 (ja) 2009-04-03 2011-12-12 音声復号装置、音声復号方法、及び音声復号プログラム

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2009091396 2009-04-03
JP2009091396 2009-04-03
JP2009146831 2009-06-19
JP2009146831 2009-06-19
JP2009162238 2009-07-08
JP2009162238 2009-07-08
JP2011271559A JP4921611B2 (ja) 2009-04-03 2011-12-12 音声復号装置、音声復号方法、及び音声復号プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2010004419A Division JP4932917B2 (ja) 2009-04-03 2010-01-12 音声復号装置、音声復号方法、及び音声復号プログラム

Publications (2)

Publication Number Publication Date
JP2012053493A true JP2012053493A (ja) 2012-03-15
JP4921611B2 JP4921611B2 (ja) 2012-04-25

Family

ID=45906784

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2011271559A Active JP4921611B2 (ja) 2009-04-03 2011-12-12 音声復号装置、音声復号方法、及び音声復号プログラム
JP2012030289A Active JP5320475B2 (ja) 2009-04-03 2012-02-15 音声復号装置、音声復号方法、及び音声復号プログラム
JP2013146360A Active JP5588547B2 (ja) 2009-04-03 2013-07-12 音声復号装置、音声復号方法、及び音声復号プログラム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2012030289A Active JP5320475B2 (ja) 2009-04-03 2012-02-15 音声復号装置、音声復号方法、及び音声復号プログラム
JP2013146360A Active JP5588547B2 (ja) 2009-04-03 2013-07-12 音声復号装置、音声復号方法、及び音声復号プログラム

Country Status (1)

Country Link
JP (3) JP4921611B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017078860A (ja) * 2016-10-31 2017-04-27 株式会社Nttドコモ 音声符号化装置および音声符号化方法
JP2017204010A (ja) * 2012-04-27 2017-11-16 株式会社Nttドコモ 音声復号装置
US10410647B2 (en) 2014-03-24 2019-09-10 Ntt Docomo, Inc. Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program
CN110709926A (zh) * 2017-03-31 2020-01-17 弗劳恩霍夫应用研究促进协会 用于使用基于预测的整形后处理音频信号的装置和方法
CN113707156A (zh) * 2021-08-06 2021-11-26 武汉科技大学 一种用于车载的语音识别方法及系统
US11562760B2 (en) 2012-04-27 2023-01-24 Ntt Docomo, Inc. Audio decoding device, audio coding device, audio decoding method, audio coding method, audio decoding program, and audio coding program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001521648A (ja) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット スペクトル帯域複製を用いた原始コーディングの強化
JP2005521907A (ja) * 2002-03-28 2005-07-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 不完全なスペクトルを持つオーディオ信号の周波数変換に基づくスペクトルの再構築
WO2008046505A1 (de) * 2006-10-18 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines informationssignals
JP2008513848A (ja) * 2005-07-13 2008-05-01 シーメンス アクチエンゲゼルシヤフト 音声信号の帯域幅を疑似的に拡張するための方法および装置
JP2008535025A (ja) * 2005-04-01 2008-08-28 クゥアルコム・インコーポレイテッド 音声信号を帯域分割符合化する方法及び装置
JP2008536183A (ja) * 2005-04-15 2008-09-04 コーディング テクノロジーズ アクチボラゲット 無相関信号の包絡線整形

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001521648A (ja) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット スペクトル帯域複製を用いた原始コーディングの強化
JP2005521907A (ja) * 2002-03-28 2005-07-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 不完全なスペクトルを持つオーディオ信号の周波数変換に基づくスペクトルの再構築
JP2008535025A (ja) * 2005-04-01 2008-08-28 クゥアルコム・インコーポレイテッド 音声信号を帯域分割符合化する方法及び装置
JP2008536183A (ja) * 2005-04-15 2008-09-04 コーディング テクノロジーズ アクチボラゲット 無相関信号の包絡線整形
JP2008513848A (ja) * 2005-07-13 2008-05-01 シーメンス アクチエンゲゼルシヤフト 音声信号の帯域幅を疑似的に拡張するための方法および装置
WO2008046505A1 (de) * 2006-10-18 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines informationssignals

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017204010A (ja) * 2012-04-27 2017-11-16 株式会社Nttドコモ 音声復号装置
US11562760B2 (en) 2012-04-27 2023-01-24 Ntt Docomo, Inc. Audio decoding device, audio coding device, audio decoding method, audio coding method, audio decoding program, and audio coding program
US10410647B2 (en) 2014-03-24 2019-09-10 Ntt Docomo, Inc. Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program
US11437053B2 (en) 2014-03-24 2022-09-06 Ntt Docomo, Inc. Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program
JP2017078860A (ja) * 2016-10-31 2017-04-27 株式会社Nttドコモ 音声符号化装置および音声符号化方法
CN110709926A (zh) * 2017-03-31 2020-01-17 弗劳恩霍夫应用研究促进协会 用于使用基于预测的整形后处理音频信号的装置和方法
US11562756B2 (en) 2017-03-31 2023-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN110709926B (zh) * 2017-03-31 2023-08-15 弗劳恩霍夫应用研究促进协会 用于使用基于预测的整形后处理音频信号的装置和方法
CN113707156A (zh) * 2021-08-06 2021-11-26 武汉科技大学 一种用于车载的语音识别方法及系统
CN113707156B (zh) * 2021-08-06 2024-04-05 武汉科技大学 一种用于车载的语音识别方法及系统

Also Published As

Publication number Publication date
JP2013225152A (ja) 2013-10-31
JP2012093794A (ja) 2012-05-17
JP4921611B2 (ja) 2012-04-25
JP5320475B2 (ja) 2013-10-23
JP5588547B2 (ja) 2014-09-10

Similar Documents

Publication Publication Date Title
JP4932917B2 (ja) 音声復号装置、音声復号方法、及び音声復号プログラム
JP5588547B2 (ja) 音声復号装置、音声復号方法、及び音声復号プログラム
AU2012204076A1 (en) Speech encoding device, speech decoding device, speech encoding method, speech decoding method, speech encoding program, and speech decoding program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111212

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20111212

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20120112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120202

R150 Certificate of patent or registration of utility model

Ref document number: 4921611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250