JP6691440B2

JP6691440B2 - 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体

Info

Publication number: JP6691440B2
Application number: JP2016122446A
Authority: JP
Inventors: 仲大室; 祥子栗原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2020-04-28
Anticipated expiration: 2036-06-21
Also published as: JP2017227701A

Description

この発明は、デジタル通信ネットワークを利用した音声・音響信号（以下、単に音声とも呼ぶ）通信に関し、特に、入力音声を符号化する音声符号化技術および受信した音声符号から音声を生成する音声復号技術に関する。

アナログ電話を代表とする従来からの電話システムで伝送できる音声の周波数帯域は、およそ300Hzから3.4kHzである。これは用件を伝えるのに必要な音声品質と、伝送に必要な情報量とのバランスを考慮して、国際電気通信連合（ITU-T: International Telecommunication Union Telecommunication Standardization Sector）によって決められ、広く世界で採用されていることによる。一般に、周波数帯域の上限が4kHz以下の音声を狭帯域信号（または狭帯域音声、電話音声とも呼ぶ）、4kHzを超えて7kHz程度の音声を広帯域信号（または広帯域音声）と呼ぶ。音声をデジタル信号のパルス符号変調（PCM: Pulse Code Modulation）方式で表現する場合、サンプリング定理により、狭帯域信号は8kHzでサンプリングし、広帯域信号は16kHzでサンプリングすることが望ましい。これらのことから、8kHzでサンプリングされた信号を狭帯域信号と呼び、16kHzでサンプリングされた信号を広帯域信号と呼ぶこともある。

最近の音響技術の発展及びデジタル信号処理技術の進歩により、日常生活で使われる機器の音声の品質が向上している。このような状況において、電話の音声にも広帯域化を求める声がある。

デジタル通信ネットワークを利用して音声信号を効率的に伝送するために、音声符号化の手法が用いられる。狭帯域信号用の音声符号化（狭帯域音声符号化とも呼ぶ）には、ITU-T G.711やITU-T G.726などの国際標準方式がある。また、広帯域信号用の音声符号化（広帯域音声符号化とも呼ぶ）には、ITU-T G.711.1やITU-T G.722などの国際標準方式がある。音声通信を行う端末（以下、端末）は、いずれか一つ以上の音声符号化方式に対応した符号化装置と複号装置とを備える。端末が複数の音声符号化方式に対応しているときは、通信の開始時にその通信に用いる符号化方式を切り替える。従来、符号化方式の切り替えには、SIPやH.323と呼ばれる呼制御プロトコル（シグナリングとも呼ばれる）が用いられ、通信を行う端末同士が共通で対応する符号化方式を、あらかじめ決められた優先順位に基づいて選択していた。例えば、双方の端末がG.711.1とG.711に対応していれば広帯域音声符号化であるG.711.1で通信を行い、一方がG.711.1とG.711、他方がG.722とG.711に対応している場合は、両端末は広帯域音声に対応しているが、音声符号化はG.711が用いられ、狭帯域音声で通信を行う。

通信の開始時に呼制御プロトコルを用いて符号化方式を切り替えるのは、符号化方式間に互換性がないためであるが、呼制御プロトコルによる符号化方式の切り替えは、端末間の音声通信の確立を複雑化し、接続トラブルが発生する原因になっている。また、通信ネットワークとしてインターネットを利用するIP電話などでは、比較的自由に呼制御プロトコルによる符号化方式の切り換えができるが、従来から利用されている企業内通信網や通信事業者間相互接続網を経由する音声通信では、通信経路上にG.711しか通さない設備があると、端末が複数の符号化方式に対応していてもG.711しか利用できない問題がある。

この問題に対して、特許文献１には、G.711と完全な互換性を有する広帯域音声符号化が実現可能であることが記載されている。G.711と完全な互換性を有する広帯域音声符号化方式であれば、符号化方式の切り替え手続きは極めて簡略化され、通信経路上にG.711しか通さない設備があっても、広帯域音声を通過させることができる。

図１を参照して、特許文献１に記載された音声符号化装置を示す。音声符号化装置に入力された音声は入力バッファ８１に蓄積され、10ミリ秒〜20ミリ秒程度の長さのフレームに区切られて帯域分割フィルタ８２に送られる。帯域分割フィルタ８２は入力音声を低域音声と高域音声とに分割する。低域音声は低域音声符号化部８３へ送られ、高域音声は高域音声符号化部８４へ送られる。高域音声符号化部８４は、高域音声を符号化して高域符号を生成し、その高域符号を低域音声符号化部８３へ送る。低域音声符号化部８３は、低域音声と高域符号とを受け取り、G.711符号のLSB（Least Significant Bit）またはMSB（Most Significant Bit）に高域符号を1または0のビット列として埋め込んだ低域符号を生成し、その低域符号をパケット構成部８５へ送る。パケット構成部８５は、低域音声符号化部８３から低域符号を受け取り、その低域符号を用いてパケットを構成する。パケット送出部８６は、パケット構成部８５で作成されたパケットの情報を受け取り、音声パケットとしてパケット通信網に送出する。

図２を参照して、特許文献１に記載された音声復号装置を示す。音声符号化装置から出力された音声パケットは、音声復号装置のパケット受信部９１が受信し、受信バッファ９２へ蓄積される。受信バッファ９２から出力された音声パケットは低域音声復号部９４で復号される。また、高域符号抽出部９５は音声符号から高域符号を抽出する。高域音声復号部９６は、抽出された高域符号から高域音声成分を復号する。チェックサム検出部９３は、受信バッファ９２から出力された音声符号を、高域符号が低域符号のLSBまたはMSBに埋め込まれているかどうかの判定を行い、埋め込まれている場合には、スイッチ９７を高域音声復号部９６側にセットし、高域音声成分を帯域合成フィルタ９８に送る。チェックサム検出部９３での判定の結果、高域符号が低域符号のLSBまたはMSBに埋め込まれていないと判定された場合には、スイッチ９７を高域なし側にセットする。つまり、高域音声成分は生成されない。帯域合成フィルタ９８は、低域音声復号部９４の出力と、高域音声復号部９６の出力を広帯域の音声信号に合成して出力する。

特許第４７５８６８７号公報

しかしながら、特許文献１には、G.711と完全な互換性を有する広帯域音声符号化を実現するための一部の構成が記載されているにとどまる。具体的には、高域音声符号化部８４は、単に高域音声を符号化することだけが記載されており、高域音声復号部９６は、単に高域符号から高域音声成分を復号することだけが記載されている。G.711と完全な互換性を有する広帯域音声符号化を実現するためには、復号装置から再生される広帯域音声の品質が十分に良好であること、少なくともG.711方式で復号された狭帯域音声よりも高い品質の広帯域音声が再生できることが必要である。

この発明の目的は、上述のような点に鑑みて、広帯域音声の音声通信において、再生される広帯域音声の品質を向上することができる音声符号化技術を提供することである。

上記の課題を解決するために、この発明の第一の態様の音声符号化装置は、入力音声を低域音声と高域音声とに帯域分割する帯域分割部と、復号低域音声に基づいて高域音声を符号化して高域符号を生成する高域音声符号化部と、低域音声を符号化して高域符号を埋め込んだ低域符号を生成する低域音声符号化部と、低域符号を復号して復号低域音声を生成する低域音声復号部と、低域符号を音声符号として出力する符号送出部と、を含む。

この発明の第二の態様の音声復号装置は、第一の態様の音声符号化装置が出力する音声符号を受信する符号受信部と、音声符号を復号して復号低域音声を生成する低域音声復号部と、音声符号に埋め込まれた高域符号を抽出する高域符号抽出部と、復号低域音声に基づいて高域符号を復号して復号高域音声を生成する高域音声復号部と、復号低域音声と復号高域音声とを合成して復号音声を出力する帯域合成部と、を含む。

この発明によれば、音声符号化において、広帯域音声の再生に必要な情報をできるだけ損なわないようにしつつ少ないビットで高域音声を符号化することができる。また、音声復号において、聴覚的に品質劣化の少ない高域音声を生成することによって、高い品質の広帯域音声を再生することができる。すなわち、広帯域音声の音声通信において、再生される広帯域音声の品質を向上することができる。

図１は、従来の音声符号化装置の機能構成を例示する図である。図２は、従来の音声復号装置の機能構成を例示する図である。図３は、実施形態の音声符号化装置の機能構成を例示する図である。図４は、実施形態の音声復号装置の機能構成を例示する図である。図５は、実施形態の音声符号化方法の処理手続きを例示する図である。図６は、実施形態の音声復号方法の処理手続きを例示する図である。図７は、実施形態の高域音声符号化部の機能構成を例示する図である。図８は、実施形態の係数符号化部の機能構成を例示する図である。図９は、実施形態の高域音声復号部の機能構成を例示する図である。図１０は、実施形態の係数復号部の機能構成を例示する図である。図１１は、変形例１の高域音声復号部の機能構成を例示する図である。図１２は、変形例２の高域音声復号部の機能構成を例示する図である。図１３は、変形例２の周波数軸動的反転部の機能構成を例示する図である。図１４は、変形例３の高域音声符号化部の機能構成を例示する図である。図１５は、変形例４の高域音声復号部の機能構成を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

文中で使用する記号「⁻」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。

この発明の実施形態では、入力音声を音声符号に符号化して出力する音声符号化装置と、音声符号化装置により出力された音声符号を復号して復号音声を出力する音声復号装置とを説明する。音声符号化装置は、１フレーム分の入力音声を音声符号に変換して出力したら、次のフレームの入力音声の処理を行い、フレームの時間周期でこれを繰り返す。音声復号装置は、１フレーム分の音声符号を処理して復号音声を出力したら、次のフレームの音声符号の処理を行い、フレームの時間周期でこれを繰り返す。

実施形態の音声符号化装置は、図３に示すように、入力バッファ１１、帯域分割フィルタ（帯域分割部とも呼ぶ）１２、低域音声符号化部１３、高域音声符号化部１４、遅延部１５、低域音声復号部１６、および符号送出部１７を備える。この音声符号化装置が後述する各ステップの処理を行うことにより実施形態の音声符号化方法が実現される。

実施形態の音声復号装置は、図４に示すように、符号受信部２１、低域音声復号部２２、高域符号抽出部２３、遅延部２４、高域音声復号部２５、および帯域合成フィルタ（帯域合成部とも呼ぶ）２６を備える。この音声復号装置が後述する各ステップの処理を行うことにより実施形態の音声復号方法が実現される。

音声符号化装置および音声復号装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

図５を参照して、実施形態の音声符号化方法の処理手続きを説明する。

ステップＳ１１において、音声符号化装置へ音声が入力される。入力音声xは入力バッファ１１に蓄えられ、10ミリ秒〜20ミリ秒程度の長さのフレームに区切られ、帯域分割フィルタ１２に送られる。入力音声xは広帯域音声であり、サンプリング周波数が16kHzとする。入力音声xは、帯域分割フィルタ１２によって、サンプリング周波数が8kHzの低域音声x_Lと高域音声x_Hとに分割される。低域音声x_Lは低域音声符号化部１３へ送られ、高域音声x_Hは高域音声符号化部１４へ送られる。帯域分割フィルタ１２は、G.711.1やG.722で利用される直交ミラーフィルター（QMF: Quadrature Mirror Filter）を用いることができる。または、適当なローパスフィルタとハイパスフィルタを用いて、入力音声xにローパスフィルタをかけて1/2サンプル数に間引きした信号を低域音声x_Lとし、入力音声xにハイパスフィルタをかけて1/2サンプル数に間引きした信号を高域音声x_Hとしてもよい。

ステップＳ１２において、高域音声符号化部１４は、後述の低域音声復号部１６から受け取った復号低域音声x⁻ _Lを利用して高域音声x_Hを符号化し、高域符号c_Hを遅延部１５へ送る。高域音声符号化部１４の処理の詳細は後述する。遅延部１５は高域符号c_Hを１フレーム分記憶するメモリを持ち、１フレーム前の高域符号を低域音声符号化部１３へ送るとともに、受け取った高域符号を記憶する。なお、後述のように、遅延部１５は省略することができるため、高域音声符号化部１４の出力である高域符号と、遅延部１５の出力である１フレーム前の高域符号とは区別せず、単に高域符号c_Hと呼ぶこととする。

ステップＳ１３において、低域音声符号化部１３は、従来の音声符号化装置が備える低域音声符号化部８３と同じ構成を用いることができる。すなわち、低域音声x_Lと高域符号c_Hとを受け取り、G.711符号のLSBまたはMSBに高域符号を1または0のビット列として埋め込んだ低域符号c_Lを出力する。低域音声符号化部１３の出力は、符号送出部１７へ送られるとともに、低域音声復号部１６へも送られる。

ステップＳ１４において、低域音声復号部１６は、低域音声符号化部１３から受け取った低域符号c_Lを復号し、復号低域音声x⁻ _Lを高域音声符号化部１４へ送る。低域音声復号部１６は、従来の音声復号装置が備える低域音声復号部９４と同じ構成を用いることができる。

ステップＳ１５において、符号送出部１７は、低域音声符号化部１３から受け取った低域符号c_Lを音声符号として通信ネットワークに送出する。

音声符号化装置から送出された音声符号c_Lは、G.711と完全なビット互換性を有し、従来のG.711方式に対応した音声復号装置が音声符号c_Lを受信した場合は、G.711復号方式によって狭帯域音声を再生することができ、この発明の音声復号装置が音声符号c_Lを受信した場合は、後述する音声復号方法によって広帯域音声を再生することができる。また、音声符号c_Lは既存のG.711のみに対応した通信ネットワークを通過することができる。

図６を参照して、実施形態の音声復号方法の処理手続きを説明する。

ステップＳ２１において、符号受信部２１は、通信ネットワークから音声符号c_Lを受信し、低域音声復号部２２および高域符号抽出部２３へ送る。

ステップＳ２２において、低域音声復号部２２は、音声符号c_LをG.711方式で復号し、復号低域音声x⁻ _Lを遅延部２４へ送る。遅延部２４は復号低域音声x⁻ _Lを１フレーム分記憶するメモリを持ち、１フレーム前の復号低域音声を高域音声復号部２５および帯域合成フィルタ２６へ送るとともに、受け取った復号低域音声を記憶する。なお、後述のように、遅延部２４は省略することができるため、低域音声復号部２２の出力である復号低域音声と、遅延部２４の出力である１フレーム前の復号低域音声とは区別せず、単に復号低域音声x⁻ _Lと呼ぶこととする。

ステップＳ２３において、高域符号抽出部２３は、音声符号c_Lから高域符号c_Hを抽出する。高域符号抽出部２３の構成は、従来の高域符号抽出部９５と同じ構成を用いることができる。すなわち、G.711符号のLSBまたはMSBに埋め込まれた1または0のビット列を高域符号c_Hに戻す。高域符号c_Hは高域音声復号部２５へ送られる。

ステップＳ２４において、高域音声復号部２５は、復号低域音声x⁻ _Lを利用して高域符号c_Hを復号し、復号高域音声x⁻ _Hを帯域合成フィルタ２６へ送る。高域音声復号部２５の処理の詳細は後述する。

ステップＳ２５において、帯域合成フィルタ２６は、復号低域音声x⁻ _Lおよび復号高域音声x⁻ _Hから広帯域の復号音声x⁻を合成して出力する。帯域合成フィルタ２６は、帯域分割フィルタ１２と同様に、G.711.1やG.722で利用されている直交ミラーフィルター（QMF: Quadrature Mirror Filter）を用いることができる。

音声復号装置は、特許文献１に記載されているようにチェックサム検出部９３およびスイッチ９７を備えるように構成し、受信した音声符号c_Lに高域符号c_Hが埋め込まれているか否かを判定し、埋め込まれている場合は広帯域音声を出力し、埋め込まれていない場合は狭帯域音声を出力する切り替え処理を行うことも可能である。

音声符号化装置が備える遅延部１５および音声復号装置が備える遅延部２４は省略してもよい。音声符号化装置は、高域符号c_Hが埋め込まれた低域符号c_Lを復号して高域音声x_Hを符号化するフィードバック構造のため、遅延部１５を省略すると、音声符号化装置における復号低域音声x⁻ _Lと音声復号装置における復号低域音声x⁻ _Lとを一致させることができなくなる。しかしながら、そのずれは聴感上では区別がつかない程度の違いであり、実用上の問題は少ない。各遅延部を省略すると、音声通信における遅延時間を１フレーム分短くできる。

以下、音声符号化装置が備える高域音声符号化部１４の詳細な構成を説明する。高域音声符号化部１４は、図７に示すように、帯域分割フィルタ（高域帯域分割部とも呼ぶ）３１_H、帯域分割フィルタ（低域帯域分割部とも呼ぶ）３１_L、パワー計算部３２_H，３２_L、線形予測部３３_H，３３_L、相対ゲイン計算部３４、係数符号化部３５、ゲイン符号化部３６、およびマルチプレクサ（多重化部とも呼ぶ）３７を備える。

高域音声符号化部１４には、高域音声x_Hおよび復号低域音声x⁻ _Lが入力される。入力音声のサンプリング周波数が16kHz、フレーム長が10ミリ秒である場合を例として説明すると、高域音声x_Hおよび復号低域音声x⁻ _Lはともにサンプリング周波数が8kHz、フレーム長が10ミリ秒であり、１フレームのサンプル数は80サンプルとなる。

帯域分割フィルタ３１_Lは、復号低域音声x⁻ _Lをサンプリング周波数がそれぞれ4kHzのＬＬ帯域音声x⁻ _LLとＬＨ帯域音声x⁻ _LHとに分割する。帯域分割フィルタ３１_Lは、音声符号化装置の帯域分割フィルタ１２と同じものを用いてもよいし、帯域分割フィルタ１２とはタップ数や特性の異なる帯域分割フィルタを用いてもよい。ＬＬ帯域音声x⁻ _LLは高域音声符号化部１４では利用しないため、帯域分割フィルタ３１_LはＬＨ帯域音声x⁻ _LHのみを出力するように構成してもよい。ＬＨ帯域音声x⁻ _LHは、線形予測部３３_Lおよびパワー計算部３２_Lへ入力される。

線形予測部３３_Lは、ＬＨ帯域音声x⁻ _LHに線形予測分析を適用して、p次のＬＨ帯域線形予測係数a_LH(i)（ただし、i=1, 2, …, p）を出力する。ここで、pは一般に4〜10程度の値を用いる。なお、p次の線形予測係数はp個の値の組であるが、以下では、特定のiのときの線形予測係数を示す場合を除いて、インデックスiを省略し、単にa_LHと表記する。a_LHはベクトルとみなすこともでき、線形予測係数ベクトルとも呼ぶ。

パワー計算部３２_Lは、ＬＨ帯域音声x⁻ _LHの１フレーム分のパワーP_LHを計算する。このとき、前後のフレームを含めた平均パワー、例えば、１フレーム前の信号と１フレーム後の信号を合わせた３フレーム分のパワー、またはその1/3を１フレーム分のパワーとしてもよい。以下、１フレーム分のパワーの計算については同様とする。

帯域分割フィルタ３１_Hは、高域音声x_Hをサンプリング周波数がそれぞれ4kHzのＨＬ帯域音声x_HLとＨＨ帯域音声x_HHとに分割する。帯域分割フィルタ３１_Hは、音声符号化装置の帯域分割フィルタ１２と同じものを用いてもよいし、帯域分割フィルタ１２とはタップ数や特性の異なる帯域分割フィルタを用いてもよい。ＨＨ帯域音声x_HHは高域音声符号化部１４では利用しないため、帯域分割フィルタ３１_HはＨＬ帯域音声x_HLのみを出力するように構成してもよい。ＨＬ帯域音声x_HLは、線形予測部３３_Hおよびパワー計算部３２_Hへ入力される。

線形予測部３３_Hは、ＨＬ帯域音声x_HLに線形予測分析を適用して、p次のＨＬ帯域線形予測係数a_HL(i)（ただし、i=1, 2, …, p）を出力する。以下では、ＬＨ帯域線形予測係数a_LHと同様に、インデックスiを省略して単にa_HLと表記する。a_HLもa_LHと同様にベクトルとみなすことができ、線形予測係数ベクトルとも呼ぶ。

パワー計算部３２_Hは、ＨＬ帯域音声x_HLの１フレーム分のパワーP_HLを計算する。

相対ゲイン計算部３４は、次式で定義される相対ゲインG_HLを計算する。相対ゲインG_HLはＨＬ帯域音声x_HLのＬＨ帯域音声x⁻ _LHに対する相対ゲインであり、ＬＨ帯域音声x⁻ _LHの各サンプルに相対ゲインG_HLを乗じた信号のパワーが、ＨＬ帯域音声x_HLのパワーP_HLと同じになる。

係数符号化部３５は、ＬＨ帯域線形予測係数a_LHを用いてＨＬ帯域線形予測係数a_HLをM₁ビットで符号化し、係数符号c₁をゲイン符号化部３６およびマルチプレクサ３７へ送る。M₁の定め方については後述する。

ゲイン符号化部３６は、ＬＨ帯域線形予測係数a_LHおよび係数符号c₁を用いて相対ゲインG_HLをM₂ビットで符号化し、ゲイン符号c₂をマルチプレクサ３７へ送る。M₂の定め方については後述する。

M₁, M₂の定め方を説明する。特許文献１によれば、低域音声160サンプルあたり16ビット、すなわち80サンプルあたり8ビットの高域符号を低域符号に埋め込んでも、復号低域音声の主観品質は高域符号を埋め込まない場合に比べて劣化しないとされている。したがって、フレーム長が10ミリ秒（80サンプル）の場合は、M₁+M₂≦8となるように、M₁, M₂を決めるのがよい。一例として、M₁=4, M₂=4とする。

係数符号化部３５は、ＬＨ帯域線形予測係数a_LHとＨＬ帯域線形予測係数a_HLとには相関があることを利用して、ＨＬ帯域線形予測係数a_HLを符号化する。例えば、ＬＨ帯域線形予測係数a_LHの値からＨＬ帯域線形予測係数a_HLの値を推定し、ＨＬ帯域線形予測係数a_HLと推定値a'_HLとの誤差を符号化するとよい。なお、推定は音声データベースを用いた統計的な手法を用いる。

係数符号化部３５は、図８に示すように、ＬＳＰ変換部３５１、ＬＳＰ変換部３５２、ＬＳＰ推定部３５３、および誤差符号化部３５４を備える。ＬＳＰ変換部３５１は、ＨＬ帯域線形予測係数a_HLをＨＬ帯域線スペクトル対（以下、線スペクトル対をＬＳＰと呼ぶ）f_HLに変換する。ＬＳＰは線形予測パラメータの一種で、p次の線形予測係数とp次のＬＳＰは相互に変換が可能である。ＬＳＰの表記についても線形予測係数の表記と同様に、インデックスi（i=1, 2, …, p）を省略することとし、インデックスiを省略したときはベクトルとみなすことができる。ＬＳＰ変換部３５２は、ＬＨ帯域線形予測係数a_LHをＬＨ帯域ＬＳＰf_LHに変換する。ＬＳＰ推定部３５３は、ＬＨ帯域ＬＳＰf_LHを用いてＨＬ帯域ＬＳＰf_HLの値を推定する。推定ルールは、音声データベースを用いた統計的な手法を用いることができ、例えば、変換関数を定義しておいてもよいし、ＬＨ帯域ＬＳＰf_LHの分布とＨＬ帯域ＬＳＰf_HLの分布の対応関係を統計的に調べて定義しておいてもよい。誤差符号化部３５４は、ＨＬ帯域ＬＳＰf_HLとＨＬ帯域ＬＳＰの推定値f'_HLとの誤差を、例えばベクトル量子化の手法を使って符号化し、係数符号c₁を出力する。

ゲイン符号化部３６では、ＬＨ帯域線形予測係数a_LHと係数符号c₁との組み合わせと、相対ゲインG_HLとの間に相関があることを利用して、相対ゲインG_HLを符号化する。例えば、ＬＨ帯域線形予測係数a_LHと係数符号c₁との組み合わせから相対ゲインG_HLの値を推定し、相対ゲインG_HLと推定値G'_HLとの誤差を対数尺度（またはデシベル単位）で符号化するとよい。なお、推定は音声データベースを用いた統計的な手法を用いればよい。

マルチプレクサ３７は、係数符号化部３５の出力する係数符号c₁とゲイン符号化部３６の出力するゲイン符号c₂とを入力とし、高域符号c_Hとして出力する。

線形予測分析を含む音声の分析に関する詳細は、下記参考文献１に記載されている。
〔参考文献１〕古井貞煕著、「ディジタル音声処理」、東海大学出版会、pp. 60-98
以下、音声復号装置が備える高域音声復号部２５の詳細な構成を説明する。高域音声復号部２５は、図９に示すように、デマルチプレクサ（符号分離部とも呼ぶ）４０、帯域分割フィルタ（帯域分割部とも呼ぶ）４１、パワー計算部４２、線形予測部４３、逆フィルタ４４、複製部４５、係数復号部４６、相対ゲイン復号部４７、合成フィルタ４８、パワー計算部４９、ゲイン計算部５０、乗算部（ＨＬ帯域乗算部とも呼ぶ）５１、相対ゲイン予測部５２、係数予測部５３、乱数部５４、合成フィルタ５５、パワー計算部５６、ゲイン計算部５７、乗算部（ＨＨ帯域乗算部とも呼ぶ）５８、および帯域合成フィルタ（帯域合成部とも呼ぶ）５９を備える。

高域音声復号部２５には、復号低域音声x⁻ _Lおよび高域符号c_Hが入力される。高域符号c_Hは、デマルチプレクサ４０へ入力される。復号低域音声x⁻ _Lは、帯域分割フィルタ４１へ入力される。

帯域分割フィルタ４１は、高域音声符号化部１４の帯域分割フィルタ３１_Lと同じ構成とし、復号低域音声x⁻ _Lをサンプリング周波数がそれぞれ4kHzのＬＬ帯域音声x⁻ _LLとＬＨ帯域音声x⁻ _LHとに分割する。ＬＬ帯域音声x⁻ _LLは高域音声復号部２５では利用しないため、帯域分割フィルタ４１はＬＨ帯域音声x⁻ _LHのみを出力するように構成してもよい。ＬＨ帯域音声x⁻ _LHは、線形予測部４３およびパワー計算部４２へ入力される。

線形予測部４３は、ＬＨ帯域音声x⁻ _LHに線形予測分析を適用して、p次のＬＨ帯域線形予測係数a_LHを出力する。ＬＨ帯域線形予測係数a_LHは、逆フィルタ４４、係数復号部４６、相対ゲイン復号部４７、および係数予測部５３へ入力される。

パワー計算部４２は、高域音声符号化部１４のパワー計算部３２_Lと同様に、ＬＨ帯域音声x⁻ _LHの１フレーム分のパワーP_LHを計算する。パワーP_LHは、ゲイン計算部５０およびゲイン計算部５７へ入力される。

逆フィルタ４４は、ＬＨ帯域線形予測係数a_LHをフィルタ係数とするＦＩＲフィルタであり、ＬＨ帯域音声x⁻ _LHからＬＨ帯域線形予測残差e_LHを求め、複製部４５へ送る。ここで、x⁻ _LH(j)はＬＨ帯域音声x⁻ _LHの第jサンプルを、e_LH(j)はＬＨ帯域線形予測残差の第jサンプルを、j=1は現フレームの先頭サンプルを、j=Nは現フレームの最後のサンプルを表すとすると、e_LH(j)は次式で表される。

１フレームが80サンプルからなるときは、N=80である。なお、j-iが負のときは、過去のフレーム内のサンプル位置を現フレームの先頭サンプルを基準とした相対サンプル位置として表すものとする。１フレーム分のサンプル値の組を表すときは、インデックスjを省略して表記する。

複製部４５は、次式のように、ＬＨ帯域線形予測残差e_LHを複製してＨＬ帯域駆動音源e_HLを出力する。ＨＬ帯域駆動音源e_HLは、合成フィルタ４８へ入力される。

デマルチプレクサ４０は、高域符号c_Hを係数符号c₁とゲイン符号c₂とに分割する。係数符号c₁は、係数復号部４６、相対ゲイン復号部４７、相対ゲイン予測部５２、および係数予測部５３へ入力される。ゲイン符号c₂は、相対ゲイン復号部４７および相対ゲイン予測部５２へ入力される。

係数復号部４６は、ＬＨ帯域線形予測係数a_LHを用いて係数符号c₁を復号し、ＨＬ帯域復号線形予測係数a⁻ _HLを出力する。係数復号部４６は、図１０に示すように、ＬＳＰ変換部４６１、ＬＳＰ推定部４６２、再構成部４６３、および係数変換部４６４を備える。ＬＳＰ変換部４６１およびＬＳＰ推定部４６２は、係数符号化部３５のＬＳＰ変換部３５２およびＬＳＰ推定部３５３と同じである。再構成部４６３は、係数符号c₁およびＨＬ帯域ＬＳＰの推定値f'_HLを用いて、誤差符号化に対応する復号方法によって、ＨＬ帯域復号ＬＳＰf⁻ _HLを再構成する。係数変換部４６４は、ＨＬ帯域復号ＬＳＰf⁻ _HLをＨＬ帯域復号線形予測係数a⁻ _HLに変換して出力する。ＨＬ帯域復号線形予測係数a⁻ _HLは合成フィルタ４８へ入力される。

相対ゲイン復号部４７は、ＬＨ帯域線形予測係数a_LHと係数符号c₁との組み合わせを用いてゲイン符号c₂を復号し、復号相対ゲインG⁻ _HLを求める。復号相対ゲインG⁻ _HLはゲイン計算部５０へ入力される。復号方法は高域音声符号化部１４のゲイン符号化部３６の符号化方法に対応する方法を用い、例えば、ＬＨ帯域線形予測係数a_LHと係数符号c₁との組み合わせから相対ゲインG_HLの値を推定し、ゲイン符号c₂が表す誤差を相対ゲインの推定値G'_HLに対数尺度上で加算、もしくはリニア尺度で乗算する方法により、復号相対ゲインG⁻ _HLを求めることができる。

合成フィルタ４８は、係数復号部４６から受け取ったＨＬ帯域復号線形予測係数a⁻ _HLをフィルタ係数とするＩＩＲフィルタ（ＡＲフィルタとも呼ぶ）であり、ＨＬ帯域駆動音源e_HLからＨＬ帯域合成音声y_HLを出力する。ＨＬ帯域合成音声y_HLはパワー計算部４９および乗算部５１へ入力される。

パワー計算部４９は、ＨＬ帯域合成音声y_HLの１フレーム分のパワーP_HLを計算する。パワーP_HLはゲイン計算部５０へ入力される。

ゲイン計算部５０は、復号相対ゲインG⁻ _HL、パワーP_LH、およびパワーP_HLを用いて、次式で表されるゲインg_HLを計算する。ゲインg_HLは乗算部５１へ入力される。

乗算部５１は、ＨＬ帯域合成音声y_HLにゲインg_HLを乗じて、復号ＨＬ帯域音声x⁻ _HLを計算する。復号ＨＬ帯域音声x⁻ _HLは帯域合成フィルタ５９へ入力される。

相対ゲイン予測部５２は、係数符号c₁およびゲイン符号c₂を用いて、予測相対ゲインG⁻ _HHを予測して求める。予測相対ゲインG⁻ _HHはゲイン計算部５７へ入力される。

係数予測部５３は、ＬＨ帯域線形予測係数a_LHおよび係数符号c₁を用いて、ＨＨ帯域線形予測係数a⁻ _HHを予測して求める。ＨＨ帯域線形予測係数a⁻ _HHは合成フィルタ５５へ入力される。

乱数部５４は、ガウス乱数を生成し、１フレーム長の乱数信号列e_HHを出力する。乱数信号列e_HHは合成フィルタ５５へ入力される。

合成フィルタ５５は、ＨＨ帯域線形予測係数a⁻ _HHをフィルタ係数とするＩＩＲフィルタであり、乱数信号列e_HHからＨＨ帯域合成音声y_HHを出力する。ＨＨ帯域合成音声y_HHはパワー計算部５６および乗算部５８へ入力される。

パワー計算部５６は、ＨＨ帯域合成音声y_HHの１フレーム分のパワーP_HHを計算する。パワーP_HHはゲイン計算部５７へ入力される。

ゲイン計算部５７は、予測相対ゲインG⁻ _HH、パワーP_LH、およびパワーP_HHを用いて、次式で表されるゲインg_HHを計算する。ゲインg_HHは乗算部５７へ入力される。

乗算部５８は、ＨＨ帯域合成音声y_HHにゲインg_HHを乗じて、復号ＨＨ帯域音声x⁻ _HHを計算する。復号ＨＨ帯域音声x⁻ _HHは帯域合成フィルタ５９へ入力される。

帯域合成フィルタ５９は、高域音声符号化部１４の帯域分割フィルタ３１_Hに対応する（つまり逆変換としての）帯域合成フィルタであり、復号ＨＬ帯域音声x⁻ _HLおよび復号ＨＨ帯域音声x⁻ _HHを用いて、復号高域音声x⁻ _Hを生成し出力する。なお、復号ＨＬ帯域音声x⁻ _HLおよび復号ＨＨ帯域音声x⁻ _HHのサンプリング周波数はいずれも4kHzであり、復号高域音声x⁻ _Hのサンプリング周波数は8kHzである。

この発明における音声符号化装置および音声復号装置のポイントを説明する。

音声符号化装置では、広帯域音声を低域音声と高域音声とに帯域分割し、低域音声をさらにＬＬ帯域の信号とＬＨ帯域の信号とに、高域音声をさらにＨＬ帯域の信号とＨＨ帯域の信号とに帯域分割する。すなわち、広帯域音声は、ＬＬ帯域、ＬＨ帯域、ＨＬ帯域、ＨＨ帯域の４つの帯域に分割される。

復号低域音声の品質を低下させずに低域符号に高域音声の情報を埋め込むには、高域音声をできるだけ少ないビット数で符号化する必要がある。そこで、ＨＬ帯域のスペクトル包絡情報とパワーの情報を、復号低域音声の品質を低下させない程度の少ないビット数で符号化して、低域符号に埋め込む。これらの情報を少ないビット数で符号化するために、パラメータ間の相関を最大限利用して符号化する。このとき、ＨＨ帯域の情報は送らないこととする。

音声復号装置では、低域符号からＨＬ帯域のスペクトル包絡情報とパワーの情報を抽出し、ＨＬ帯域の信号とＨＨ帯域の信号とを生成する。一般に、線形予測を用いた音声符号化手法では、スペクトル包絡情報と、合成フィルタを駆動する音源情報と、パワーを表す情報とが必要であるが、音声符号化装置は合成フィルタを駆動する音源情報を送らないため、音声復号装置で得られる別の情報から合成フィルタを駆動する音源情報を擬似生成する必要がある。そこで、ＬＨ帯域の線形予測残差信号がＨＬ帯域の合成フィルタを駆動する音源情報と同じであるとみなし、ＬＨ帯域の線形予測残差信号でＨＬ帯域の合成フィルタを駆動することによりＨＬ帯域の信号を生成する。また、ＨＨ帯域については、音声符号化装置から情報を送らないため、音声復号装置で得られるＬＨ帯域およびＨＬ帯域の情報からＨＨ帯域の信号を擬似生成する。具体的には、ＨＨ帯域のスペクトル包絡情報とパワーを表す情報を、ＬＨ帯域およびＨＬ帯域の情報から統計的な手法によって予測し、合成フィルタはガウス乱数で駆動する。

上記手法により、高域音声は10ミリ秒あたり8ビットで表現され、音声復号装置から聴感的に十分に良好な品質の広帯域音声を再生することができる。なお、再生される広帯域音声は聴感的に良好な品質であるが、入力音声とのＳＮ比、特に高域のＳＮ比は高くない。ＳＮ比が高くないにもかかわらず聴感的に良好となるのは、人間の聴覚特性が、高域についてはスペクトル包絡とパワーが入力音声に近い状態で再現されていれば、線形予測の駆動音源、すなわちスペクトルの微細構造や位相には鈍感であることによる。また、高域のスペクトル包絡やパワーが少ないビットで再現性の高い符号化ができること、特にＨＨ帯域については情報を送らなくてもスペクトル包絡やパワーが再現できることは、高域のスペクトル包絡やパワーが低域のスペクトル包絡やパワーと高い相関を持つことを利用して実現している。

［変形例１］
図１１に、高域音声復号部２５の変形例を示す。変形例１の高域音声復号部２５Ａは、逆フィルタ４４と複製部４５との間に、周波数軸反転部６０を備える点が、実施形態の高域音声復号部２５との相違点である。

周波数軸反転部６０は、ＬＨ帯域線形予測残差e_LHの周波数軸を反転して、反転信号r_LHを複製部４５に送る。ＬＨ帯域線形予測残差e_LHはサンプリング周波数が4kHz、１フレームのサンプル数がNの時系列信号であり、0〜2kHzの信号成分を持つ。この信号の周波数軸を反転するとは、ＬＨ帯域線形予測残差e_LHの周波数(f)kHzの信号成分が反転信号r_LHの周波数(2-f)kHzの信号成分になるように時系列信号を変換することである。反転信号r_LHは、次式で表されるように、サンプリング周波数の1/2の周波数を持つ正弦波、すなわち2kHzの正弦波を乗算することによって得られる。

変形例１の複製部４５は、次式のように、反転信号r_LHを複製してＨＬ帯域駆動音源e_HLを合成フィルタ４８へ送る。

変形例１において、周波数軸反転処理を行う理由は、高域音声符号化部１４において、ＬＨ帯域音声x⁻ _LHとＨＬ帯域音声x_HLとの周波数軸が反転した関係にあることによる。つまり、例えば、直交ミラーフィルターを用いる帯域分割フィルタでは、分割後の低域側の信号は、入力信号と同じ周波数軸の向きであるのに対して、分割後の高域側の信号は、エイリアシングによって周波数軸が反転した信号として出力される。一方、実施形態の高域音声復号部２５では、ＬＨ帯域音声x⁻ _LHから得られる信号を複製して復号ＨＬ帯域音声x⁻ _HLを生成しているため、高域音声符号化部１４のＨＬ帯域音声x_HLと、高域音声復号部２５の復号ＨＬ帯域音声x⁻ _HLでは、人間の声帯振動に対応する音源信号の周波数軸の向きが逆になってしまう。その結果、声の高さ（基本周波数またはピッチ）が徐々に変化するような音声を、高域音声符号化部１４で符号化し、高域音声復号部２５で復号すると、音質が劣化する原因となる。

変形例１の高域音声復号部２５Ａを用いることにより、高域音声符号化部１４のＨＬ帯域音声x_HLと高域音声復号部２５Ａの復号ＨＬ帯域音声x⁻ _HLとの周波数軸の向きが同じになるため、音質劣化を低減することができる。

［変形例２］
図１２に、高域音声復号部２５の変形例を示す。変形例２の高域音声復号部２５Ｂは、逆フィルタ４４と複製部４５の間に、周波数軸反転部６０の代わりに周波数軸動的反転部６１を備える点が、変形例１の高域音声復号部２５Ａとの相違点である。

周波数軸動的反転部６１は、フレーム毎にＬＨ帯域線形予測残差e_LHの周波数軸を反転するか、反転せずそのままにするかを選択し、動的反転信号r^d _LHを出力する。周波数軸を反転するか、反転せずそのままにするかの選択は、ＬＨ帯域線形予測係数a_LHとＨＬ帯域復号線形予測係数a⁻ _HLとを用いて判定する。

周波数軸動的反転部６１は、図１３に示すように、ＬＳＰ変換部６１１_LH、ＬＳＰ変換部６１１_HL、ＬＳＰ周波数軸反転部６１２、距離計算部６１３_r、距離計算部６１３_e、比較部６１５、および周波数軸反転部６１４を備える。

ＬＳＰ変換部６１１_LHは、ＬＨ帯域線形予測係数a_LHをＬＨ帯域ＬＳＰf_LHに変換する。ＬＳＰ変換部６１１_HLは、ＨＬ帯域復号線形予測係数a⁻ _HLをＨＬ帯域復号ＬＳＰf⁻ _HLに変換する。距離計算部６１３_eは、あらかじめ定義した２つのＬＳＰ間の距離の定義に基づいて、ＬＨ帯域ＬＳＰf_LHとＨＬ帯域復号ＬＳＰf⁻ _HLとの距離dを計算する。ＬＳＰ間の距離の定義については、例えばユークリッド距離を用いることができるほか、重み付きユークリッド距離など、ＬＳＰのベクトル量子化法で一般的に用いられる距離の定義を用いればよい。

ＬＳＰ周波数軸反転部６１２は、ＬＨ帯域ＬＳＰf_LHの周波数軸を反転してＬＨ帯域反転ＬＳＰf^r _LHを出力する。ＬＳＰの周波数軸を反転するとは、ＬＳＰの値が0〜πの範囲で表現されているとすると、

である。ＬＳＰの値が0〜1の範囲に正規化されて表現されている場合には、

である。

距離計算部６１３_rは、距離計算部６１３_eと同じＬＳＰ間の距離の定義に基づいて、ＬＨ帯域反転ＬＳＰf^r _LHとＨＬ帯域復号ＬＳＰf⁻ _HLとの距離d_rを計算する。

周波数軸反転部６１４は、変形例１の高域音声復号部２５Ａが備える周波数軸反転部６０と同様に、ＬＨ帯域線形予測残差e_LHの周波数軸を反転して、反転信号r_LHを出力する。

比較部６１５は、距離dと距離d_rとを比較し、距離d_rの方が小さいときはスイッチ６１６を反転信号r_LH側にセットして反転信号r_LHを動的反転信号r^d _LHとして出力し、距離dの方が小さいときはスイッチ６１６をＬＨ帯域線形予測残差e_LH側にセットしてＬＨ帯域線形予測残差e_LHを動的反転信号r^d _LHとして出力する。

複製部４５は、動的反転信号r^d _LHを複製してＨＬ帯域駆動音源e_HLを合成フィルタ４８へ送る。

なお、上記では、ＬＨ帯域ＬＳＰf_LHの周波数軸を反転してＨＬ帯域復号ＬＳＰf⁻ _HLとの距離d_rを計算しているが、ＨＬ帯域復号ＬＳＰf⁻ _HLの周波数軸を反転してＬＨ帯域ＬＳＰf_LHとの距離をd_rとしても同じである。

変形例２において、周波数軸反転処理を動的に行う理由は、ＬＨ帯域音声x⁻ _LHにＬＨ帯域のスペクトル包絡の逆フィルタをかけて線形予測残差を求め、線形予測残差にＨＬ帯域のスペクトル包絡を表す合成フィルタをかけて復号ＨＬ帯域音声x⁻ _HLを得る処理において、逆フィルタはスペクトル包絡を平坦化する処理であり、合成フィルタはスペクトル包絡を畳み込む処理であり、逆フィルタと合成フィルタのスペクトル包絡の形状が似ていれば、復号ＨＬ帯域音声x⁻ _HLの品質劣化が少ないが、スペクトル包絡の形状が異なるほど、復号ＨＬ帯域音声x⁻ _HLのノイズ感が増すためである。そのために、変形例２では、ＬＨ帯域の線形予測係数とＨＬ帯域の線形予測係数とを用いて、ＬＨ帯域のスペクトル包絡とＨＬ帯域のスペクトル包絡との類似度と、ＬＨ帯域のスペクトル包絡の周波数軸を反転したものとＨＬ帯域のスペクトル包絡との類似度とを比較し、後者の方が類似度が高い場合には、ＬＨ帯域線形予測残差e_LHの周波数軸を反転し、ノイズ感の増加を防いでいる。

なお、ＬＳＰのベクトル量子化法で一般的に用いられる距離の定義については、下記参考文献２に記載されている。
〔参考文献２〕H.Ohmuro, T.Moriya, K.Mano, and S.Miki, “Coding of LSP Parameters Using Interframe Moving Average Prediction and Multi-Stage Vector Quantization”, IEICE TRANS. FUNDAMENTALS, Vol.E76-A, No.7, pp.1181-1183, 1993

［変形例３］
図１４に、高域音声符号化部１４の変形例を示す。変形例３の高域音声符号化部１４Ａは、周波数軸反転部３８_Hが帯域分割フィルタ３１_Hの前段に配置され、周波数軸反転部３８_Lが帯域分割フィルタ３１_LのＬＨ帯域音声出力の先に配置されている点が実施形態の高域音声符号化部１４との相違点である。

変形例１において、周波数軸反転部６０が必要となるのは、前述のように、帯域分割フィルタでは、分割後の低域側の信号は入力信号と同じ周波数軸の向きであるのに対して、分割後の高域側の信号はエイリアシングによって周波数軸が反転した信号として出力されるためである。したがって、音声符号化装置が実施形態の高域音声符号化部１４を備え、音声復号装置が変形例１の高域音声復号部２５Ａを備える構成と、音声符号化装置が変形例３の高域音声符号化部１４Ａを備え、音声復号装置が実施形態の高域音声復号部２５を備える構成とは等価となり、同等の性能が得られる。

［変形例４］
図１５に、高域音声復号部２５の変形例を示す。変形例４の高域音声復号部２５Ｃは、周波数軸反転部６２が帯域分割フィルタ４１のＬＨ帯域音声出力の先に配置され、周波数軸反転部６３が乗算部５８と帯域合成フィルタ５９との間に配置されている点が変形例２の高域音声復号部２５Ｂとの相違点である。

音声符号化装置が実施形態の高域音声符号化部１４を備え、音声復号装置が変形例２の高域音声復号部２５Ｂを備える構成と、音声符号化装置が変形例３の高域音声符号化部１４Ａを備え、音声復号装置が変形例４の高域音声復号部２５Ｃを備える構成とは等価となり、同等の性能が得られる。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１１入力バッファ
１２帯域分割フィルタ
１３低域音声符号化部
１４高域音声符号化部
１５遅延部
１６低域音声復号部
１７符号送出部
２１符号受信部
２２低域音声復号部
２３高域符号抽出部
２４遅延部
２５高域音声復号部
２６帯域合成フィルタ

Claims

入力音声を低域音声と高域音声とに帯域分割する帯域分割部と、
復号低域音声に基づいて上記高域音声を符号化して高域符号を生成する高域音声符号化部と、
上記低域音声を符号化して上記高域符号を埋め込んだ低域符号を生成する低域音声符号化部と、
上記低域符号を復号して上記復号低域音声を生成する低域音声復号部と、
上記低域符号を音声符号として出力する符号送出部と、
を含み、
上記高域音声符号化部は、
上記復号低域音声をＬＨ帯域音声とＬＬ帯域音声とに帯域分割する低域帯域分割部と、
上記高域音声をＨＬ帯域音声とＨＨ帯域音声とに帯域分割する高域帯域分割部と、
上記ＬＨ帯域音声のパワーと上記ＨＬ帯域音声のパワーとの比に基づく相対ゲインを求める相対ゲイン計算部と、
上記ＬＨ帯域音声の線形予測係数を用いて上記ＨＬ帯域音声の線形予測係数を符号化して係数符号を求める係数符号化部と、
上記ＬＨ帯域音声の線形予測係数と上記係数符号を用いて上記相対ゲインを符号化してゲイン符号を求めるゲイン符号化部と、
上記ゲイン符号と上記係数符号とを多重化して上記高域符号を出力する多重化部と、
を含むものである、
音声符号化装置。
請求項１に記載の音声符号化装置が出力する音声符号を受信する符号受信部と、
上記音声符号を復号して復号低域音声を生成する低域音声復号部と、
上記音声符号に埋め込まれた高域符号を抽出する高域符号抽出部と、
上記復号低域音声に基づいて上記高域符号を復号して復号高域音声を生成する高域音声復号部と、
上記復号低域音声と上記復号高域音声とを合成して復号音声を出力する帯域合成部と、
を含み、
上記高域音声復号部は、
上記復号低域音声をＬＨ帯域音声とＬＬ帯域音声とに帯域分割する帯域分割部と、
上記音声符号をゲイン符号と係数符号とに分離する符号分離部と、
上記ＬＨ帯域音声の線形予測係数を用いて上記係数符号を復号してＨＬ帯域復号線形予測係数を求める係数復号部と、
上記ＬＨ帯域音声の線形予測係数と上記係数符号とを用いて上記ゲイン符号を復号して復号相対ゲインを求める相対ゲイン復号部と、
上記ＬＨ帯域音声の線形予測係数と上記係数符号とを用いてＨＨ帯域線形予測係数を予測して求める係数予測部と、
上記ゲイン符号と上記係数符号とを用いて予測相対ゲインを予測して求める相対ゲイン予測部と、
上記ＬＨ帯域音声の線形予測係数をフィルタ係数として上記ＬＨ帯域音声から求めたＬＨ帯域線形予測残差を複製してＨＬ帯域駆動音源を求める複製部と、
上記ＨＨ帯域線形予測係数をフィルタ係数としてガウス乱数から求めたＨＨ帯域音声のパワーと上記ＬＨ帯域音声のパワーとの比に基づいて上記予測相対ゲインから算出したゲインを上記ＨＨ帯域音声に乗算して復号ＨＨ帯域音声を生成するＨＨ帯域乗算部と、
上記ＨＬ帯域復号線形予測係数をフィルタ係数として上記ＨＬ帯域駆動音源から求めたＨＬ帯域合成音声のパワーと上記ＬＨ帯域音声のパワーとの比に基づいて上記復号相対ゲインから算出したゲインを上記ＨＬ帯域合成音声に乗算して復号ＨＬ帯域音声を生成するＨＬ帯域乗算部と、
上記復号ＨＨ帯域音声と上記復号ＨＬ帯域音声とを合成して上記復号高域音声を出力する帯域合成部と、
を含むものである、
音声復号装置。
請求項２に記載の音声復号装置であって、
上記高域音声復号部は、上記ＬＨ帯域線形予測残差の周波数軸を反転した反転信号を生成する周波数軸反転部をさらに含み、
上記複製部は、上記反転信号を複製して上記ＨＬ帯域駆動音源を求めるものである、
音声復号装置。
請求項２に記載の音声復号装置であって、
上記高域音声復号部は、上記ＬＨ帯域音声の線形予測係数と上記ＨＬ帯域復号線形予測係数とに基づいてフレーム毎に上記ＬＨ帯域線形予測残差の周波数軸を反転するか否かを選択しながら上記ＬＨ帯域線形予測残差から動的反転信号を生成する周波数軸動的反転部をさらに含み、
上記複製部は、上記動的反転信号を複製して上記ＨＬ帯域駆動音源を求めるものである、
音声復号装置。
請求項４に記載の音声復号装置であって、
上記周波数軸動的反転部は、上記ＬＨ帯域音声の線形予測係数と上記ＨＬ帯域復号線形予測係数との距離dと、上記ＬＨ帯域音声の線形予測係数と上記ＨＬ帯域復号線形予測係数とのいずれか一方の周波数軸を反転したときの距離d_rとを求め、上記距離d_rが上記距離dよりも小さい場合には上記ＬＨ帯域線形予測残差の周波数軸を反転し、その他の場合には上記ＬＨ帯域線形予測残差の周波数軸を反転せずに、上記ＬＨ帯域線形予測残差から動的反転信号を生成するものである、
音声復号装置。
入力音声を低域音声と高域音声とに帯域分割する帯域分割部と、
復号低域音声に基づいて上記高域音声を符号化して高域符号を生成する高域音声符号化部と、
上記低域音声を符号化して上記高域符号を埋め込んだ低域符号を生成する低域音声符号化部と、
上記低域符号を復号して上記復号低域音声を生成する低域音声復号部と、
上記低域符号を音声符号として出力する符号送出部と、
を含み、
上記高域音声符号化部は、
上記復号低域音声を帯域分割したＬＨ帯域音声とＬＬ帯域音声のうちＬＨ帯域音声と、上記高域音声を帯域分割したＨＬ帯域音声とＨＨ帯域音声のうちＨＬ帯域音声と、のみを用いて、上記ＬＬ帯域音声と上記ＨＨ帯域音声を用いず、上記高域符号を生成する、
音声符号化装置。
帯域分割部が、入力音声を低域音声と高域音声とに帯域分割し、
高域音声符号化部が、復号低域音声に基づいて上記高域音声を符号化して高域符号を生成し、
低域音声符号化部が、上記低域音声を符号化して上記高域符号を埋め込んだ低域符号を生成し、
低域音声復号部が、上記低域符号を復号して上記復号低域音声を生成し、
符号送出部が、上記低域符号を音声符号として出力し、
上記高域音声符号化部は、
低域帯域分割部が、上記復号低域音声をＬＨ帯域音声とＬＬ帯域音声とに帯域分割し、
高域帯域分割部が、上記高域音声をＨＬ帯域音声とＨＨ帯域音声とに帯域分割し、
相対ゲイン計算部が、上記ＬＨ帯域音声のパワーと上記ＨＬ帯域音声のパワーとの比に基づく相対ゲインを求め、
係数符号化部が、上記ＬＨ帯域音声の線形予測係数を用いて上記ＨＬ帯域音声の線形予測係数を符号化して係数符号を求め、
ゲイン符号化部が、上記ＬＨ帯域音声の線形予測係数と上記係数符号を用いて上記相対ゲインを符号化してゲイン符号を求め、
多重化部が、上記ゲイン符号と上記係数符号とを多重化して上記高域符号を出力する、
音声符号化方法。
符号受信部が、請求項７に記載の音声符号化方法が出力する音声符号を受信し、
低域音声復号部が、上記音声符号を復号して復号低域音声を生成し、
高域符号抽出部が、上記音声符号に埋め込まれた高域符号を抽出し、
高域音声復号部が、上記復号低域音声に基づいて上記高域符号を復号して復号高域音声を生成し、
帯域合成部が、上記復号低域音声と上記復号高域音声とを合成して復号音声を出力し、
上記高域音声復号部は、
帯域分割部が、上記復号低域音声をＬＨ帯域音声とＬＬ帯域音声とに帯域分割し、
符号分離部が、上記音声符号をゲイン符号と係数符号とに分離し、
係数復号部が、上記ＬＨ帯域音声の線形予測係数を用いて上記係数符号を復号してＨＬ帯域復号線形予測係数を求め、
相対ゲイン復号部が、上記ＬＨ帯域音声の線形予測係数と上記係数符号とを用いて上記ゲイン符号を復号して復号相対ゲインを求め、
係数予測部が、上記ＬＨ帯域音声の線形予測係数と上記係数符号とを用いてＨＨ帯域線形予測係数を予測して求め、
相対ゲイン予測部が、上記ゲイン符号と上記係数符号とを用いて予測相対ゲインを予測して求め、
複製部が、上記ＬＨ帯域音声の線形予測係数をフィルタ係数として上記ＬＨ帯域音声から求めたＬＨ帯域線形予測残差を複製してＨＬ帯域駆動音源を求め、
ＨＨ帯域乗算部が、上記ＨＨ帯域線形予測係数をフィルタ係数としてガウス乱数から求めたＨＨ帯域音声のパワーと上記ＬＨ帯域音声のパワーとの比に基づいて上記予測相対ゲインから算出したゲインを上記ＨＨ帯域音声に乗算して復号ＨＨ帯域音声を生成し、
ＨＬ帯域乗算部が、上記ＨＬ帯域復号線形予測係数をフィルタ係数として上記ＨＬ帯域駆動音源から求めたＨＬ帯域合成音声のパワーと上記ＬＨ帯域音声のパワーとの比に基づいて上記復号相対ゲインから算出したゲインを上記ＨＬ帯域合成音声に乗算して復号ＨＬ帯域音声を生成し、
帯域合成部が、上記復号ＨＨ帯域音声と上記復号ＨＬ帯域音声とを合成して上記復号高域音声を出力する、
音声復号方法。
帯域分割部が、入力音声を低域音声と高域音声とに帯域分割し、
高域音声符号化部が、復号低域音声に基づいて上記高域音声を符号化して高域符号を生成し、
低域音声符号化部が、上記低域音声を符号化して上記高域符号を埋め込んだ低域符号を生成し、
低域音声復号部が、上記低域符号を復号して上記復号低域音声を生成し、
符号送出部が、上記低域符号を音声符号として出力し、
上記高域音声符号化部は、
上記復号低域音声を帯域分割したＬＨ帯域音声とＬＬ帯域音声のうちＬＨ帯域音声と、上記高域音声を帯域分割したＨＬ帯域音声とＨＨ帯域音声のうちＨＬ帯域音声と、のみを用いて、上記ＬＬ帯域音声と上記ＨＨ帯域音声を用いず、上記高域符号を生成する、
音声符号化方法。
請求項１または６に記載の音声符号化装置としてコンピュータを機能させるためのプログラム。
請求項２から５のいずれかに記載の音声復号装置としてコンピュータを機能させるためのプログラム。
請求項１または６に記載の音声符号化装置としてコンピュータを機能させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。
請求項２から５のいずれかに記載の音声復号装置としてコンピュータを機能させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。