JP2011518345A

JP2011518345A - スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング

Info

Publication number: JP2011518345A
Application number: JP2010550849A
Authority: JP
Inventors: ユー、ロンシャン; ラドハクリシュナン、レグナサン; アンダーソン、ロバート・エル; ダヴィッドソン、グラント・エー
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2008-03-14
Filing date: 2009-03-12
Publication date: 2011-06-23
Also published as: US8392179B2; US20110010168A1; CN101971251A; EP2269188A1; WO2009114656A1; CN101971251B; EP2269188B1

Abstract

本発明は、スピーチライク信号成分及びノンスピーチライク信号成分の両方を含むことがあるオーディオ信号のコーディングに関する。本発明は、ＬＰＣパラメータと、少なくとも１つのコードブックがノンスピーチライク信号に適した励振をもたらし、少なくとも１つのコードブックがピーチライク信号に適した励振をもたらす、コードベクトルを有する複数のコードブックと、それぞれがコードブックに関連づけられた複数の利得係数とにより制御される線型予測コーディング（ＬＰＣ）合成フィルタを採用する、符号励振線形予測（ＣＥＬＰ）オーディオエンコーディングとデコーディングの方法及び装置である。エンコーディングの方法及び装置は、オーディオ信号とコードブック励振から導き出した再構成したオーディオ信号との測度を最小にすることで、コードブックからコードベクトル及び／又は関連する利得係数を選択する。デコーディングの方法及び装置は、ＬＰＣパラメータ、コードベクトル、及び利得係数から、再構成した出力を生成する。

Description

（関連出願の相互参照）
本出願は、２００８年３月１４日出願の米国暫定特許出願番号６１／０６９，４４９に基づく優先権を主張する。この暫定特許出願はそのすべてを参照として本明細書に組み込むものとする。

本発明は、特に、同時的な及び／又は時間的に連続するスピーチライク信号成分及びノンスピーチライク信号成分を含むオーディオ信号のエンコーディング及びデコーディングの方法及び装置に関する。スピーチライク信号コンテンツ及びノンスピーチライク信号コンテンツの変化に応じてエンコーディング特性及びデコーディング特性を変化させることのできるオーディオエンコーダー及びオーディオデコーダーは、技術的に、しばしば「マルチモード」「コーディック」（ここで、「コーディック」はエンコーダー及びデコーダーとすることができる）と称される。本発明はまた、オーディオ信号のエンコーディング及びデコーディングのような方法を実施するために記録媒体に記録させたコンピュータプログラムに関する。

本明細書全般において、「スピーチライク信号」は、ａ）単一の強い周期性を持つ成分（「有声」スピーチライク信号）、ｂ）周期性のないランダムノイズ（「無声」スピーチライク信号）、又はｃ）このような信号タイプ間での変わり目、のいずれかを具備する信号を意味する。スピーチライク信号の例には、一人の話者からのスピーチ及び単一の楽器で演奏された音楽が含まれる。そして、ノンスピーチライク信号は、スピーチライク信号の特徴を有しない信号を意味する。ノンスピーチライク信号の例には、複数の楽器からの音楽信号及び異なる音の高さを持つ複数の話者（人間）の混ざり合ったスピーチが含まれる。

本発明の第１の特徴によれば、符号励振線形予測（ＣＥＬＰ）オーディオエンコーディングの方法は、ＬＰＣパラメータにより制御されるＬＰＣ合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも１つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも１つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、ＬＰＣパラメータを生成するためにオーディオ信号に線型予測コーディング（ＬＰＣ）分析を適用するステップと、オーディオ信号とコードブック励振から導き出した再構成したオーディオ信号との差異の測度を最小にすることで、少なくとも２つのコードブックからコードベクトル及び／又は関連する利得係数を選択するステップであって、これらのコードブックには、ノンスピーチライク信号に適した励振をもたらすコードブックと、スピーチライク信号に適した励振をもたらすコードブックとが含まれることを特徴とするステップと、オーディオ信号を再構成するためにＣＥＬＰオーディオデコーダーで使用可能な出力を生成するステップであって、該出力にはＬＰＣパラメータとコードベクトルと利得係数とが含まれることを特徴とするステップと、を具備する。前記最小にすることでは、再構成したオーディオ信号とオーディオ信号との差異を、クローズドループ方式で最小化することもできる。差異の測度は、知覚的に重み付けした測度とすることができる。

変化した形態において、そのコードブックの励振出力がスピーチライク信号よりノンスピーチライク信号に適するようなコードブックから導き出された信号は、線型予測コーディング合成フィルタでフィルタしなくてもよい。

ノンスピーチライク信号よりスピーチライクに適した励振出力をもたらす前記少なくとも１つのコードブックには、ノイズライクな励振を生成するコードブックと周期的励振を生成するコードブックとを含むことができ、励振出力がスピーチライク信号よりノンスピーチライク信号に適した励振をもたらす前記少なくとも１つの他のコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことができる。

この方法は、ＬＴＰパラメータを生成するためにオーディオ信号に長期予測（ＬＴＰ）分析を適用するステップであって、周期的励振を生成するコードブックは、ＬＴＰパラメータにより制御され、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取る適応コードブックであり、前記出力にはさらにＬＴＰパラメータが含まれることを特徴とするステップをさらに具備することができる。

前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とを時間遅れさせた結合のいずれかを受け取ることができ、前記出力には、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報をさらに含めることができる。

この方法は、オーディオ信号を複数の信号のクラスの１つにクラス分けするステップと、このクラス分けに応じて動作モードを選択するステップと、オープンループ手法により、励振出力に寄与させるために、１以上のコードブックを選択するステップをさらに具備することができる。

この方法は、動作モードを選択するための信頼性レベルを決定するステップであって、高信頼性レベルを含む少なくとも２つの信頼性レベルがあることを特徴とするステップと、オープンループ手法により、信頼性レベルが高いときのみ、もっぱら励振にのみ寄与する１以上のコードブックを選択するステップとを、さらに、具備することができる。

本発明のもう１つの特徴によれば、符号励振線形予測（ＣＥＬＰ）オーディオエンコーディングの方法は、ＬＰＣパラメータにより制御されるＬＰＣ合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも１つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも１つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離するステップと、ＬＰＣパラメータを生成するためにオーディオ信号のスピーチライク信号成分に線型予測コーディング（ＬＰＣ）分析を適用するステップと、コードベクトルの選択及び／又はノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらすコードブックに関連させた利得係数を変化させることにより、ＬＰＣ合成フィルタ出力とオーディオ信号のスピーチライク信号成分との差異を最小化するステップと、コードベクトルの選択及び／又はスピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックに関連させた利得係数を変化させるステップと、オーディオ信号の近似値を生成するためにＣＥＬＰオーディオデコーダーで用いることのできる出力をもたらすステップであって、該出力には、コードベクトルの選択及び／又は各コードブックと関連付けた利得と、ＬＰＣパラメータとが含まれることを特徴とするステップとを具備する。前記分離するステップでは、オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離することができる。

代替案の２つの変化した形態として、前記分離するステップでは、オーディオ信号からスピーチライク信号成分を分離し、オーディオ信号からスピーチライク信号成分を復元したものを減算することにより、ノンスピーチライク信号成分の近似値を導き出すことができ、又は、前記分離するステップでは、オーディオ信号からノンスピーチライク信号成分を分離し、オーディオ信号からノンスピーチライク信号成分を復元したものを減算することにより、スピーチライク信号成分の近似値を導き出すことができる。

第２の線型予測コーディング（ＬＰＣ）合成フィルタを用意することができ、このような第２の線型予測コーディング合成フィルタにより、ノンスピーチライク信号成分を復元したものをフィルタすることができる。

ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも１つのコードブックには、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含むことができ、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも１つのコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことができる。

この方法は、ＬＴＰパラメータを生成するためにオーディオ信号のスピーチライク信号成分に長期予測（ＬＴＰ）分析を適用するステップであって、この場合、周期的励振を生成するコードブックはＬＴＰパラメータにより制御される適応コードブックとし、前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取ることができる。

スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び／又は利得係数は、スピーチライク信号に応じて変化させることができる。

スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び／又は利得係数は、このノンスピーチライク信号とこのようなコードブックから復元された信号との差異を減少させるために変化することがある。

本発明の第３の特徴によれば、符号励振線形予測（ＣＥＬＰ）オーディオデコーディングは、ＬＰＣパラメータにより制御されるＬＰＣ合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも１つのコードブックはスピーチライク信号よりノンスピーチライク信号に適した励振をもたらし、他の少なくとも１つのコードブックはスピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とするコードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、パラメータとコードベクトルと利得係数とを受け取るステップと、少なくとも１つのコードブック励振出力からＬＰＣ合成フィルタのための励振信号を導き出すステップと、ＬＰＣフィルタの出力又はＬＰＣ合成フィルタの出力と１つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び／又は利得係数により制御される。

ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす少なくとも１つのコードブックには、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含むことができ、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす少なくとも１つの他のコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことができる。

周期的励振を生成するコードブックは、ＬＴＰパラメータにより制御される適応コードブックとすることができ、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取ることができ、前記方法は、ＬＴＰパラメータを受け取るステップをさらに具備することができる。

コードブックの全ての励振はＬＰＣフィルタに適用することができ、前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とだけを時間遅れさせた結合のいずれかを受け取ることができ、前記方法は、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報を受け取るステップをさらに具備することができる。

ＬＰＣフィルタの出力からオーディオ出力信号を導き出すステップにはポストフィルタを行うステップを含むことができる。

本発明の特徴に係るオーディオクラス分け階層決定ツリーの１つの例を示す。本発明の特徴に係るオーディオクラス分け階層決定ツリーのもう１つの例を示す。オーディオサンプルブロックを統計データに基づきクラス分けすることのできる、本発明の特徴に係るオーディオクラス分け階層決定ツリーのさらなる例を示す。スピーチライク信号及びノンスピーチライク信号の結合をエンコーダーにおいて、スピーチライク信号成分及びノンスピーチライク信号成分に分離し、それぞれ、スピーチライク信号エンコーダー及びノンスピーチライク信号エンコーダーによりエンコードし、それぞれ、デコーダーにおいて、スピーチライク信号デコーダー及びノンスピーチライク信号デコーダーによりデコードし、そして結合する方法を示す本発明の特徴によるエンコード方法デコード方法又は装置の概念的ブロック図である。図４ａで示した方法に対する代替的な方法で実施する信号の分離における、本発明の特徴に係るエンコード方法デコード方法又は装置の概念的ブロック図である。スピーチライク信号エンコーダー及びノンスピーチライク信号エンコーダーに共通する機能がそれぞれのエンコーダーから分離する、図４ａの構成の変形を示した発明の特徴によるエンコード方法デコード方法又は装置の概念的機能ブロック図である。スピーチライク信号とノンスピーチライク信号とを結合下信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離する前にエンコーダーにおいて、処理し、部分的にデコードした結合した信号をデコーダーで共通にデコードするために、スピーチライク信号エンコーダー及びノンスピーチライク信号エンコーダーに共通する要素がそれぞれのエンコーダーから分離する、図５ａの構成の変形を示した発明の特徴に係るエンコード方法デコード方法又は装置の概念的機能ブロック図である。図４，５ａ，５ｂ，７ｃ，及び７ｄに示した信号分離装置又は機能の実施に用いることのできる周波数分析ベースの信号分離方法又は装置の概念的機能ブロック図である。本発明の特徴に係る統合されたスピーチライク信号エンコーダー／ノンスピーチライク信号エンコーダーの実施例の第１の変形例の概念的機能ブロック図である。この変形例において、エンコーディングツールとパラメータの選択は、クローズドループ手法により全体的な復元誤差を最小限にすることで行うことができる。本発明の特徴に係る統合されたスピーチライク信号エンコーダー／ノンスピーチライク信号エンコーダーの実施例の第２の変形例の概念的機能ブロック図である。この変形例において、エンコーディングツールの選択は、信号のクラス分けの結果に応じて行うことができる。パラメータは、図７ａの例のような、クローズドループ手法により全体的な復元誤差を最小限にすることで行うことができる。本発明の特徴に係る統合されたスピーチライク信号エンコーダー／ノンスピーチライク信号エンコーダーの実施例の第３の変形例の概念的機能ブロック図である。この変形例では、信号分離を採用する。分離経路が（図４ｂの手法により）相互に依存する、図７ｃの変形例を示す概念的機能ブロック図である。図７ａ，７ｂ，７ｃ，７ｄの実施例のエンコーダー内の１つの例で用いることのできるデコーダーの概念的機能ブロック図である。該デコーダーは本質的に図７ａ及び７ｂの実施例のローカルデコーダーと同一である。図７ａ，７ｂ，７ｃ，７ｄの実施例のエンコーダー内の他の１つの例で用いることのできるデコーダーの概念的機能ブロック図である。

（発明の詳細な説明）
［コンテンツ分析に基づくオーディオのクラス分け］
オーディオコンテンツ分析は、オーディオセグメントをスピーチライク信号、ノンスピーチライク信号、等のようないくつかのオーディオのクラスの内の１つにクラス分けすることを手助けすることができる。入ってくるオーディオ信号の形式を知ることにより、オーディオエンコーダーは、特定のオーディオのクラスに適するモードを選択することにより、そのコーディングモードを信号特性の変更に適するようにすることができる。

入力オーディオ信号が圧縮データとして与えられると、第１のステップではこれを種々の長さのサンプルブロックに分割し、長いブロック長（ＡＡＣ（アドバンストオーディオコーディング）知覚コーディングの場合は、例えば、４２．６ミリセカンド）は、信号の変動の無い部分に用いることができ、短いブロック長（ＡＡＣの場合は、例えば、５．３ミリセカンド）は、信号の過渡的な部分又は信号の出だし部分に用いることができる。このＡＡＣサンプルブロック長は例示としてのみ示したものである。特定のサンプルブロック長が本発明にとって重要というわけではない。一般に、最適なサンプルブロック長は信号に依存する。代替的に、固定長のサンプルブロックを採用することもできる。次いで、各サンプルブロック（セグメント）は、スピーチライク、ノンスピーチライク、及びノイズライクのようないくつかのオーディオクラスの内の１つにクラス分けすることができる。分類器は、特定のオーディオクラスに属する入力セグメントの信頼度の高い類似性の測度を出力することもできる。信頼度が閾値より高ければ、閾値はユーザが決めるものであるが、オーディオエンコーダーは、特定のオーディオクラスをエンコードするのに適したエンコーディングツールで構成することができ、このようなツールはオープンループ手法で選択することができる。例えば、分析した入力信号が、高い信頼度でスピーチライクであるとのクラス分けがなされた場合、本発明の特徴に係るマルチモードオーディオエンコーダー又はマルチモードオーディオエンコーディング機能は、ＣＥＬＰベースのピーチライク信号コーディング方法を選択し、セグメントの圧縮を行うことができる。同様に、分析した入力信号が、高い信頼度でノンスピーチライクであるとのクラス分けがなされた場合、本発明の特徴に係るマルチモードオーディオエンコーダーは、ＡＡＣ、ＡＣ−３、又はそのエミュレーションのような知覚的変換エンコーダー又は知覚的変換エンコーディング機能を選択し、セグメントの圧縮を行うことができる。

一方、分類器の信頼度が低いとき、エンコーダーは、エンコーディングモードのクローズドループ手法による選択を選ぶことができる。クローズドループ手法による選択では、エンコーダーは使用可能なコーディングモードの各々を用いて入力セグメントをコード化する。ビット量が与えられると、知覚の質が最も高くなるようなコーディングモードを選択することができる。クローズドループモードの選択は、オープンループモードの選択よりコンピュータに負荷がかかることは明らかである。従って、オープンループベースの選択とクローズドループベースの選択とを切り替えるために分類器の信頼度の測度を用いることは、結果として、分類器の信頼度が高いときはいつでもコンピュータの負荷を節減することができる、モード選択上のハイブリッドなアプローチとなる。

図１及び図２は、本発明の特徴に係るオーディオクラス分け階層決定ツリーの２つの例を示す。例示の階層の各々に関して、オーディオクラスを識別した後、オーディオエンコーダーは、エンコーディングツール及びエンコーディングパラメータの観点から、そのオーディオに適したコーディングモードを適切に選択する。

図１のオーディオクラス分け階層決定ツリーの例において、入力オーディオは、第１の階層レベルでスピーチライク信号（決定ノード１０２）又はノンスピーチライク信号（決定ノード１０４）として最初に識別される。次いで、低い階層レベルで、スピーチライク信号は、音声スピーチライク信号及び非音声スピーチライク信号の混合（決定ノード１０６）と、音声スピーチライク信号（決定ノード１０８）と、非音声スピーチライク信号（決定ノード１１０）として識別される。ノンスピーチライク信号は、低い階層レベルで、ノンスピーチライク信号（決定ノード１１２）又はノイズとして識別される。このように、結果として、音声スピーチライク信号及び非音声スピーチライク信号の混合、音声スピーチライク信号、非音声スピーチライク信号、ノンスピーチライク信号、及びノイズの、５つのクラスになる。

図２のオーディオクラス分け階層例において、入力オーディオは、第１の階層レベルでスピーチライク信号（決定ノード２０２）と、ノンスピーチライク信号（決定ノード２０４）と、ノイズ（決定ノード２０６）として最初に識別される。スピーチライク信号は次に、低い階層レベルで、音声スピーチライク信号及び非音声スピーチライク信号の混合（決定ノード２０８）と、音声スピーチライク信号（決定ノード２１０）と、非音声スピーチライク信号（決定ノード２１２）として識別される。この低い階層レベルで、ノンスピーチライク信号は、ボーカル（決定ノード２１４）と、非ボーカル（決定ノード２１６）として識別される。このようにして、音声スピーチライク信号及び非音声スピーチライク信号の混合、音声スピーチライク信号、非音声スピーチライク信号、ボーカル、非ボーカル、及びノイズの、６つのクラスになる。

オーディオ信号をその統計量をベースにクラス分けすることも可能である。特に、異なる形式のオーディオ及びスピーチライク信号エンコーダー及びデコーダーは、ＬＰＣ分析、ＬＴＰ分析、ＭＤＣＴ変換、等のような豊富な信号処理セットを提供することができ、多くの場合、これらのツールの各々は、特定の統計的特性を持つ信号をコーディングするのに適しているだけかもしれない。例えば、ＬＴＰ分析は、スピーチライク信号の音声セグメントのような強い調波エネルギーを持つ信号をコーディングするのに非常に力のあるツールである。しかしながら、強い調波エネルギーを持たない他の信号に対して、ＬＴＰ分析を適用することにより、普通は、コーディングゲインを得ることはできない。スピーチライク信号／ノンスピーチライク信号コーディングツールと、適切か不適切かの信号タイプの不十分なリストを表１として以下に示す。ビットの経済的な仕様の観点から、使用可能なスピーチライク信号／ノンスピーチライク信号コーディングツールの適合性に基づきオーディオ信号セグメントをクラス分けし、各セグメントに正しいツールのセットを割り当てるのが好ましい。従って、本発明の特徴に係るオーディオクラス分け階層のさらなる例を図３に示す。オーディオエンコーダーは、コーディングツール及びコーディングパラメータの観点からそのオーディオのクラスに適したコーディングモードを選択する。

図３のオーディオクラス分け階層決定ツリーの例によれば、オーディオサンプルブロックはその統計量に基づき異なったタイプにクラス分けすることができる。各タイプは、スピーチライク信号／ノンスピーチライク信号コーディングツール又はこれらの組み合わせの特定のサブセットでコーディングするのに適しているであろう。

図３を参照して、オーディオセグメント３０２（セグメント）は、定常として又は過渡として識別される。定常セグメントは、低時間分解能窓３０４に適用され、過渡セグメントは高時間分解能窓３０６に適用される。高い調波エネルギーを有する窓化された定常セグメントは、ＬＴＰ分析「オン」（３０８）にて処理され、低い調波エネルギーを有する窓化された定常セグメントは、ＬＴＰ分析「オフ」（３１０）にて処理される。ブロック３０８から高い相関を持つ残差が得られたとき、そのセグメントはタイプ１（３１２）にクラス分けされる。ブロック３０８からノイズライクな残差が得られたとき、そのセグメントはタイプ２（３１４）にクラス分けされる。ブロック３１０から高い相関を持つ残差が得られたとき、そのセグメントはタイプ３（３１６）にクラス分けされる。ブロック３１０からノイズライクな残差が得られたとき、そのセグメントはタイプ４（３１８）にクラス分けされる。

図３の説明を続けると、高い調波エネルギーを有する窓化された過渡セグメントはＬＴＰ分析「「オン」（３２０）にて処理され、低い調波エネルギーを有する窓化された過渡セグメントはＬＴＰ分析「オフ」（３２２）にて処理される。ブロック３２０から高い相関を持つ残差が得られたとき、そのセグメントはタイプ５（３２４）にクラス分けされる。ブロック３２０からノイズライクな残差が得られたとき、そのセグメントはタイプ６（３２６）にクラス分けされる。ブロック３２２から高い相関を持つ残差が得られたとき、そのセグメントはタイプ７（３２８）にクラス分けされる。ブロック３２２からノイズライクな残差が得られたとき、そのセグメントはタイプ８（３３０）にクラス分けされる。

次のような例を考える。タイプ１では、定常的なオーディオが主要な調波成分を有する。主要な調波を除去した残差が依然としてサンプル間で相関を有するとき、そのオーディオセグメントは、ノンスピーチ信号のバックグランドと混じったスピーチライク信号の音声スピーチライク部分であろう。調波エネルギーを除去するための動作中のＬＴＰにより、この信号を長い分析窓でコード化し、ＭＤＣＴ変換コーディングのような変換コーディングにより残差をエンコードするのが最適であろう。タイプ３では、サンプル間で高い相関を有する定常的なオーディオであるが、顕著な調波構造を有しない。これは、ノンスピーチライク信号であることがあり。このような信号は、ＬＰＣ分析を行っても行わなくても、長い分析窓を採用するＭＤＣＴ変換コーディングにより、有利にコード化することができる。タイプ７は、過渡信号中にノイズライク統計量を有する、過渡的なオーディオ波形である。特定のサウンド効果におけるバーストノイズ又はスピーチライク信号中の閉鎖子音であり、短い分析窓で有利にエンコードすることができ、ガウスコードブックによりＶＱ（ベクトル量子化）することができる。

［オープンループモードとクローズドループモードとの切り替えで動作する信頼基準］
図１〜３に示した階層への例示した３つのオーディオクラス分けの選択を終えたあと、入力オーディオから抽出した特徴に基づいて選んだ信号タイプを検出するために分類器を組み立てなければならない。この目的に向けて、分類器を組み立てることの目的となる信号のそれぞれために、トレーニングデータを集めることができる。例えば、定常的で高い調波エネルギーを持ついくつかの例示的なオーディオセグメントを、図３のタイプ１の信号タイプを検出するために集めることができる。クラス分けを行う基準に基づいて、各オーディオサンプルブロックのために抽出した特徴の数をＭとする。特定の信号タイプを特徴付ける確立密度関数をモデル化するために混合ガウス分布モデル（ＧＭＭ）を用いることができる。Ｙを抽出した特徴を表現するＭ次元のランダムベクトルとする。Ｋは、混合係数、平均、及び分散を示すパラメータのセット、π、μ、及びＲの表記法で示した、混合ガウス分布の数を示す。パラメータの完全なセットは、Ｋとθ＝（π，μ，R)とで与えられる。全シーケンスＹ_ｎ（ｎ＝１，２．．．Ｎ）は以下のように表すことができる。

式１

ここで、Ｎは、モデル化した特定の信号タイプのトレーニング例から抽出した特性ベクトルの総計である。パラメータＫ及びθは、データの類似性（式（１）で表現）を最大化したパラメータを推定する、期待値最大化アルゴリズムを用いて推定した。

トレーニング中に、一旦各信号タイプに対するモデルパラメータを学習すると、トレーニングされた全モデルにおける（新しいオーディオセグメントにクラス分けされる）入力特性ベクトルの類似性が計算される。入力オーディオセグメントは、最大類似基準に基づき信号タイプのどれか１つに属するものとしてクラス分けすることができる。入力オーディオの特性ベクトルの類似性は、信頼基準としての役割も果たす。

原則として、信号タイプの各々に対してトレーニングデータを集めることができ、オーディオセグメントを表す特性のセットを抽出することができる。そして、機械の学習能力（生成的な（ＧＭＭ）又は差別的な（サポートベクターマシーン））を用いて、選択した特性空間において、信号タイプの決定境界を定めることをモデル化することができる。最後に、新しいどんな入力オーディオセグメントに対しても、学習により得られた決定境界からどれだけ離れているかを測定することができ、クラス分けの決定における信頼度を表すためにこの測定値を用いることができる。例えば、決定境界に近い入力特性ベクトルに対するクラス分けの決定は、決定境界から遠くはなれた特性ベクトルに対するよりも信頼度は小さくなるであろう。

このような信頼基準に対するユーザが定義した閾値を用いて、検出した信号タイプの信頼度が高いときオープンループモードを選択し、それ以外はクローズドループを選択することができる。

［マルチモードコーディングと結合した、信号分離を用いたスピーチライク信号オーディオコーディング］
本発明のさらなる特徴としてオーディオセグメントを１以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合、又は、スピーチライク信号成分とバックグラウンドノイズ成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライク信号成分又はバックグラウンドノイズに適したエンコーディングツールでノンスピーチライク信号成分又はバックグラウンド成分をコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図４ａに示す。その変形を図４ｂに示す。

図４ａに示すとおり、最初に、オーディオセグメント内のスピーチライク信号成分とノンスピーチライク信号成分とを、信号分離装置又は信号分離機能（信号分離装置）４０２により分離し、続いて、具体的にこれらのタイプの信号を対象としたエンコーディングツールを用いてコード化する。ビットは、信号分離装置４０２からの情報のみならず、成分信号の特性にも基づいて、適応結合ビット割当て機能又は適応結合ビット割当て装置（適応結合ビット割当て装置）４０４によりエンコーディングツールに割り当てられる。図４ａでは、２つの成分に分離することが示されているが、当業者は、信号分離装置４０２は信号を３つ以上の成分に分離すること、又は信号を図４ａに示したものとは異なる成分に分離することができることを理解するであろう。信号分離は、本発明に本質的なものではなく、信号分離のどのような方法をも用いることができることに留意すべきである。分離されたスピーチライク信号成分及び情報は、それらのビット割当て情報を含めて、スピーチライク信号エンコーダー又はスピーチライク信号エンコーディング機能（スピーチライク信号エンコーダー）４０６に適用される。分離されたノンスピーチライク信号成分及び、それらのビット割当てを含む情報は、ノンスピーチライク信号エンコーダー又はノンスピーチライク信号ンコーディング機能（ノンスピーチライク信号エンコーダー）４０８に適用される。エンコードされたスピーチライク信号、エンコードされたノンスピーチライク信号、及びそれらのビット割当てを含む情報は、エンコーダーから出力され、デコーダーに送られ、そこで、スピーチライク信号デコーダー又はスピーチライク信号デコーディング機能（スピーチライク信号デコーダー）４１０がスピーチライク信号成分をデコードし、ノンスピーチライク信号デコーダー又はノンスピーチライク信号デコーディング機能（ノンスピーチライク信号デコーダー）４１２がノンスピーチライク信号成分をデコードする。信号再結合装置又は信号再結合機能（信号再結合装置）４１４はスピーチライク信号成分とノンスピーチライク信号成分とを受け取りこれらを再結合する。好ましい実施の形態においては、信号再結合装置４１４は成分信号を線型結合させるが、パワー保存結合などの、成分信号を結合する他の方法も可能であり、本発明の技術範囲に含まれる。

図４ａの例の変形を図４ｂに例示する。図４ｂにおいて、セグメント内のスピーチライク信号を、スピーチライク信号とノンスピーチライク信号とを結合した信号から、信号分離装置又は信号分離機能（信号分離装置）４０２’（これは、２つの信号成分ではなく１つの信号成分の出力を必要とする点で信号分離装置４０２とは異なる）により、分離する。分離したスピーチライク信号成分は、特にスピーチライク信号を対象としたエンコーディングツール（スピーチエンコーダー）４０６を用いてコード化される。固定数のビットをスピーチライク信号エンコーディングに割り当てることができる。図４ｂの変形例において、ノンスピーチライク信号成分は、スピーチライク信号エンコーダー４０６を補完するものであり、スピーチデコーディング装置又はスピーチデコーディング処理（スピーチライク信号デコーダー）４０７において、スピーチライク信号成分をデコーディングし、結合した入力信号からこの信号成分を引き去る（線型減算装置又は線型減算機能を概略的に４０９に示した）ことにより取得することができる。減算演算により得られたこのノンスピーチ信号成分は、ノンスピーチライク信号エンコーディング装置又はノンスピーチライク信号エンコーディング機能（ノンスピーチライク信号エンコーダー）４０８’に適用される。エンコーダー４０８’は、ビットがエンコーダー４０６に使われなくても、用いることができる。代替的に、信号分離装置４０２’は、ノンスピーチライク信号成分を分離し、デコーディングした後、スピーチライク信号成分を取得するために、結合した入力信号からこれらの信号成分を減算することもできる。エンコードされたスピーチライク信号、エンコードされたノンスピーチライク信号、及びこれらの信号へのビット割当てを含む情報は、エンコーダーから出力され、デコーダーに送られ、そこで、スピーチライク信号デコーダー又はスピーチライク信号デコーディング機能（スピーチライク信号デコーダー）４１０がスピーチライク信号成分をデコードし、ノンスピーチライク信号デコーダー又はノンスピーチライク信号デコーディング機能（ノンスピーチライク信号デコーダー）４１２がノンスピーチライク信号成分をデコードする。信号再結合装置又は信号再結合機能（信号再結合装置）４１４は、スピーチライク信号成分とノンスピーチライク信号成分とを受け取り、これらを再結合する。好ましい実施の形態において、信号再結合装置４１４は、成分信号を線型結合するが、パワー保存結合のような成分信号を結合する他の方法も可能であり、本発明の技術範囲に含まれる。

図４ａ及び４ｂでは、各成分信号に用いられる独自のエンコーディングツールを示したが、多くの場合、複数の成分信号のそれぞれを処理するために１以上のエンコーディングツールを用いることは有益であろう。このような場合、図５ａの構成で生じるような、各成分信号に対して重複する動作を行うより、分離する前に結合した信号に共通のエンコーディングツールを適用し、次いで、図５ｂに示すように、独自のエンコーディングツールを分離した後の成分信号に適用することもできることが本発明のもう１つの特徴である。分離は２つのうちのどちらの方法でも行われる。ひとつの方法は、（例えば、図４ａ及び図７ｃに示したような）直接的な分離である。直接的な分離の場合、エンコーディング前に分離したスピーチライク信号成分とノンスピーチライク信号成分は、元の入力信号と同じである。（例えば図４ｂ及び図７ｄに示したような）もうひとつの方法によれば、ノンスピーチライク信号エンコーディングツールへの入力は、入力信号と（再構成した）エンコード／デコードされたスピーチライク信号との差（又は、代替的に、入力信号と（再構成した）エンコード／デコードされたノンスピーチライク信号との差）として生成される。どちらの場合でも、スピーチライク信号エンコーディングツール及びノンスピーチライク信号エンコーディングツールは、共通の骨組みに統合することができ、知覚的に動機付けられた歪み基準により結合した最適化が可能となる。このような興味深い骨組みは、図７ａ‐７ｄに示されている。

共通のエンコーディングツールにより処理を行うための具体的なタイプは、本発明にとって重要ではないが、例示的な共通のコーディングエンコーディングツールは、オーディオ帯域幅拡大である。多くのオーディオ帯域幅拡大方法は、当業者に知られており、本発明に用いるのに適している。さらに図５ａが単一の共通エンコーディングツールを示しているだけである一方、場合によっては、１つ以上の共通のエンコーディングツールを用いることが有益であることを理解すべきである。最後に、図４ａに示したシステムとともに、図５ａと図５ｂに示した構成は、成分信号の特性に基づきエンコーディングツールの性能を最大化するために、適応結合ビット割当て機能又は適応結合ビット割当て装置を持つ。

図５ａを参照して、この例において、信号分離装置（図４ａの信号分離装置に相当する）は入力信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離する。図５ａは、主として、スピーチライク信号エンコーダー又はスピーチライク信号エンコーディング機能（スピーチライク信号エンコーダー）５０８とノンスピーチライク信号エンコーダー又はノンスピーチライク信号エンコーディング機能（ノンスピーチライク信号エンコーダー）５１０に適用される前にスピーチライク信号成分とノンスピーチライク信号成分のそれぞれを処理する、共通エンコーダー又は共通エンコーディング機能（共通エンコーダー）５０４及び５０６が存在する点で、図４ａと異なる。共通エンコーダー５０４及び５０６は、お互いに共通するスピーチライク信号エンコーダー４０６の部分（図４ａ）と、ノンスピーチライク信号エンコーダー４０８の部分（図４ａ）とをエンコーディングすることができる。従って、スピーチライク信号エンコーダー５０８とノンスピーチライク信号エンコーダー５１０は、エンコーダー４０６及び４０８に共通するエンコーダー又はエンコーディング機能を持たない点でスピーチライク信号エンコーダー４０６とノンスピーチライク信号エンコーダー４０８と異なる。適応ビット割当て（図４ａの適応ビット割当て４０４に相当する）は、信号分離装置５０２からの情報と、共通エンコーダー５０４及び５０６からの出力信号を受け取る。エンコードされたスピーチライク信号、エンコードされたノンスピーチライク信号、及びこれらのビット割当てを含む情報は、図５ａのエンコーダーから出力され、デコーダーに送られ、そこで、スピーチライク信号デコーダー又はスピーチライク信デコーディング機能（スピーチライク信号デコーダー）５１４がスピーチライク信号成分を部分的にデコードし、ノンスピーチライク信号デコーダー又はノンスピーチライク信デコーディング機能（ノンスピーチライク信号デコーダー）５１６がノンスピーチライク信号成分を部分的にデコードする。第１と第２の共通デコーダー又はデコーディング機能（共通デコーダー）５１８及び５２０は、スピーチライク信号とノンスピーチライク信号のデコーディングを完成させる。この共通デコーダーは、相互に共通する、スピーチライク信号デコーダー４１０（図４）の一部及びノンスピーチライク信号デコーダー４１２（図４）の一部に対してデコーディングを行う。信号再結合装置又は信号再結合機能（信号再結合装置）５２２はスピーチライク信号とノンスピーチライク信号を受け取り、図４の再結合装置４１４と同様にしてこれらの信号を再結合する。

図５ｂを参照すると、この例は、共通エンコーダー又は共通エンコーディング機能（共通エンコーダー）５０１が信号分離装置５０２の前にあり、共通デコーダー又はデコーディング機能（共通デコーダー）５２４が信号再結合装置５２４の後にある点で、図５ａと異なる。従って、２つの実質的に同一の共通エンコーダーと２つの実質的に同一の共通デコーダーを採用するという冗長性が除かれている。

［信号分離装置の実施］
スピーチライク信号成分とノンスピーチライク信号成分とを結合したものからそれぞれの信号を分離するブラインド信号源分離（ＢＳＳ）技術は当業者に知られている（例えば以下に記載した文献７を参照）。一般に、これらの技術は、図４、５ａ、５ｂ、及び７ｃに示した信号分離装置又は信号分離機能に実装するために本発明に組み込むことができる。図６ａにおいて、周波数分析に基づく信号分離方法又は信号分離装置が記載されている。このような方法又は装置も、図４、５ａ、５ｂ、及び７ｃに示した信号分離装置又は信号分離機能に実装するために本発明に組み込むことができる。図６の方法又は装置において、結合したスピーチライク信号／ノンスピーチライク信号ｘ［ｎ］は、分析フィルターバンク又はフィルターバンク機能（分析フィルターバンク）６０２を用いて周波数領域に変換されＸ［ｉ，ｍ］を生成する（ここで「ｉ」は指数、「ｍ」はサンプル信号ブロックの指数である）。各周波数帯域ｉに対して、スピーチライク信号がこの周波数帯域に含まれている尤度を測定するために、スピーチライク信号検出装置が用いられる。０と１の間の値を持つ一対の分離利得係数は、尤度に従い、スピーチライク信号検出装置により測定される。一般にサブ帯域ｉがスピーチライク信号から強いエネルギーを含有する大きな尤度がある場合、スピーチライク信号利得Ｇｓ（ｉ）に０より１に近い値が割り当てられ、その他の場合に、１より０に近い値が割り当てられる。ノンスピーチライク信号利得Ｇｍ（ｉ）は、以下の逆の規則で割り当てられる。スピーチライク信号利得とノンスピーチライク信号利得の適用は、スピーチライク信号検出装置６０４出力のブロック６０６の乗算記号への適用によって、概略的に示される。これらそれぞれの分離利得は、周波数帯域信号Ｘ［ｉ，ｍ］に適用され、その結果生じた信号は、それぞれの分析フィルターバンク又は分析フィルターバンク機能（分析フィルターバンク）６０８及び６１０により逆変換し、それぞれ分離したスピーチライク信号とノンスピーチライク信号とを生成する。

［統合したマルチモードオーディオエンコーダー］
本発明に特徴に係る統合したマルチモードオーディオエンコーダーは、異なった入力信号を扱うことができるよう種々のエンコーディングツールを有する。与えられた入力信号に対してツール及びそのパラメータを選択する３つの異なる方法は以下の通りである。

１）知覚誤差を最小にするクローズドループ処理を用いる。

２）上記信号クラス分け技術を用い、クラス分け結果に基づきツールを選択する（図７ｂ、以下に記載）。

３）上記信号クラス分け技術を用い、クラス分けした信号を別のツールに送る（図７ｃ及び７ｄ、以下に記載）。入力信号をスピーチライク信号成分ストリームとノンスピーチライク信号成分ストリームに分離するために、信号分離ツールを加えることができる。

本発明の特徴に係る統合したスピーチライク信号／ノンスピーチライク信号エンコーダーの第１の変形例を、図７ａに示す。この変形例において、エンコーディングツールとそのパラメータは、クローズドループ技法で全体的な再構成誤差を最小にすることにより選定される。

図７ａの例を詳細に参照すると、入力スピーチライク信号／ノンスピーチライク信号は、例えばＰＣＭ（パルス符号変調）形式であり、長いブロック長を信号の定常的な部分に用い、短いブロック長を信号の過渡的な部分又は信号の開始期間に用いることのできるような、可変長さの信号サンプルブロックに入力信号を分割する機能又は装置である、「区分け」７１２に適用される。このような可変ブロック長への区分けは、それ自体は、当業者によく知られている。代替的に、固定長のサンプルブロックを採用することもできる。

この動作を理解するために、図７ａの例によるエンコーダーは、クローズドループの分析毎の合成技法を採用する、修正したＣＥＬＰエンコーダーと考えることができる。従来のＣＥＬＰエンコーダーのように、適応コードブック又は適応コードブック機能（適応コードブック）７１６、標準コードブック又は標準コードブック機能（標準コードブック）７１８、及びＬＰＣ合成フィルタ（ＬＰＣ合成フィルタ）７２０を含む、ローカルデコーダー又はローカルデコーディング機能（ローカルデコーダー）７１４が用意される。標準コードブックは、入ってきた信号の、周期性の無い「無声の」スピーチライクランダムノイズライク部分のコーディングに寄与し、ピッチ適応コードブックは、入ってきた信号の、強い周期成分を持つ「有声の」スピーチライク部分のコーディングに寄与する。従来のＣＥＬＰエンコーダーとは異なり、この例におけるエンコーダーは、多くの楽器からの音楽、及び（人の）話者からの、異なるピッチの混じり合ったスピーチのような、入ってきた信号のノンスピーチライク部分のコーディングに寄与する、構造化正弦関数コードブック又は構造化正弦関数コードブック機能（構造化正弦関数コードブック）７２２も採用する。さらにこのコードブックの詳細について以下に説明する。

また、従来のＣＥＬＰエンコーダーとは異なり、これらのコードブック（Ｇ_ａは適応コードブック、Ｇ_ｒは標準コードブック、Ｇ_ｓは構造化正弦関数コードブック）の各々は、すべてのコードブックからの可変比率の励振の選択を可能とする。制御ループには、ＬＰＣ合成フィルタ（装置又は機能）７２０の残差信号と入ってきた入力信号との差（この差は減算装置又は減算機能７２６により導き出される）が最小になるよう、例えば、２乗平均誤差技法を用いて、標準コードブック７１８の場合は、励振コードベクトルとそのベクトルに対するスカラー利得係数Ｇ_ｒを選択し、適応コードブック７１６の場合は、ＬＴＰピッチパラメータを適用した結果得られた励振コードベクトルに対するスカラー利得係数Ｇ_ａを選択し、構造化正弦関数コードブックの場合は、利得値Ｇ_ｓ（各正弦関数コードベクトルが、原則的に励振信号に寄与する）、「最小化」装置又は機能７２４が含まれる。コードブック利得Ｇ_ａ、Ｇ_ｒ、及びＧ_ｓは、ブロック７２８に適用した矢印により概略的に示されている。この図又は他の図において表示を簡単にするため、コードブックコードベクトルの選択については示されていない。ＭＳＥ（２乗平均誤差）計算装置又は同機能（最小化）７２４は、入力信号から参照用として受け取った心理音響モデルを採用する知覚的に意味のある方法で、元の信号とローカルでデコードした信号との歪みを最小化させるために動作する。さらに以下に説明するように、クローズドループの検索は、標準コードブックスカラー利得及び適応コードブックスカラー利得に対してのみ実用的であり、オープンループ技法は、正弦関数励振に寄与する多数の利得の観点から、構造化正弦関数コードブック利得ベクトルに必要となろう。

図７ａの例における他の従来のＣＥＬＰの要素には、区分けされた入力信号を分析し、適応コードブック７１６中のＬＴＰ（長期予測）抽出装置又はＬＴＰ抽出機能（ＬＴＰ抽出装置）７３２にピッチ期間の測度を適用する、ピッチ分析装置又はピッチ分析機能（ピッチ分析）７３０が含まれている。ピッチパラメータは、量子化装置又は量子化機能（Ｑ）７４１により量子化され、また、エンコード（例えばエントロピーエンコーディング）することができる。ローカルデコーダーにおいて、量子化された、そしておそらくエンコードされたパラメータは、必要に応じて、逆量子化装置又は逆量子化機能（Ｑ^−１）７４３により逆量子化され、そしてＬＴＰ抽出装置７３２に適用される。適応コードブック７１６には、その入力として、（１）適応コードブック励振と標準コードブック励振の組み合わせ、又は（２）適応コードブック励振、標準コードブック励振、及び、構造化正弦関数コードブック励振の組み合わせのいずれかを受け取る、ＬＴＰバッファ又はメモリー７３４装置又は機能（ＬＴＰバッファ）が含まれる。励振の組み合わせ（１）又は組み合わせ（２）の選択は、スイッチ７３６で概略的に示されている。組み合わせ（１）又は組み合わせ（２）の選択は、ゲインベクトルの決定に加えて、クローズドループによる最小化手法により行われる。従来のＣＥＬＰエンコーダーにあるように、ＬＰＣ合成フィルタ７２０パラメータは、適用され区分けされた入力信号を、ＬＰＣ分析装置又はＬＰＣ分析機能（ＬＰＣ分析）７３８により、分析することにより取得することができる。これらのパラメータは、次いで、量子化装置又は量子化機能（Ｑ）７４０により量子化し、そしてエンコード（例えばエントロピーエンコーディング）することができる。ローカルデコーダーにおいて、量子化された、そしておそらくエンコードされたパラメータは、必要に応じて、逆量子化装置又は逆量子化機能（Ｑ^−１）７４２により逆量子化され、そしてＬＰＣ合成フィルタ７２０に適用される。同様に、ＬＴＰパラメータは、量子化装置又は量子化機能（Ｑ）７４１により量子化し、そしてエンコード（例えばエントロピーエンコーディング）することができる。ローカルデコーダーにおいて、量子化された、そしておそらくエンコードされたパラメータは、必要に応じて、逆量子化装置又は逆量子化機能（Ｑ^−１）７４３により逆量子化され、そしてＬＴＰ抽出装置７３２に適用される。

図７ａの例の出力ビットストリームには、少なくとも（１）この例ではスイッチ７３６の位置だけである制御信号、スカラーゲインＧ_ａ及びＧ_ｒ、利得値Ｇ_ｓのベクトル、標準コードブック励振コードベクトル指標と適応コードブック励振コードベクトル指標、ピッチ分析７３０からのＬＴＰパラメータ、及びＬＰＣ分析７３８からのＬＰＣパラメータを含むことができる。ビットストリームの更新頻度は信号に依存させることができる。実際には、信号の区分けと同じ速さでビットストリーム成分の更新を行うことが有効である。通常は、このような情報は適切な方法でフォーマット化され、多重化され、適切な装置又は機能（マルチプレクサ）７０１により、エントロピーコード化されてビットストリームに入る。このような情報をデコーダーに伝達する他のどのような方法でも採用することができる。

図７ａの例の代替として、構造化正弦関数コードブックのゲイン調整された出力を、ＬＰＣ合成フィルタ７２０に適用する前に、他のコードブック励振と結合するのではなく、ＬＰＣ合成フィルタ７２０の出力と結合させることができる。この場合、スイッチ７３６の効果はなくなる。また、さらに以下に説明するようにこの代替案は修正したデコーダーの使用を必要とする。

本発明の特徴に係る統合したスピーチライク信号／ノンスピーチライク信号エンコーダーの第２の変形例を、図７ｂに示す。この変形例において、エンコーディングツールの選定は、信号のクラス分けの結果に応じて動作するモード選択ツールにより行われる。パラメータは、図７ａの例に示したようなクローズドループ技法で全体的な再構成誤差を最小にすることにより選定される。

説明を簡単にするために、図７ｂの例と図７ａの例との間の差異についてのみ説明する。一般的に図７ａに対応する装置及び機能は図７ｂにおいて同一の参照番号を付番する。一般的に対応する装置及び機能間での差異を以下に説明する。

図７ｂの例には、区分けされた入力スピーチライク信号／ノンスピーチライク信号が適用される信号クラス分け装置又は信号クラス分け機能（信号クラス分け）７５２が含まれる。信号クラス分け７５２は、図１〜３に関連して上述したクラス分けの仕組みのうちの１つ、又は信号のクラスを特定する他の適切なクラス分けの仕組みを採用する。信号クラス分け７５２はまた、信号のクラスの選択の信頼性のレベルも決定する。高レベルの低レベルの２つの信頼性のレベルとすることができる。モード選択装置又はモード選択機能（モード選択）７５４は、信号のクラスと信頼性のレベルの情報を受け取り、信頼性が高いとき、そのクラスに基づき、採用する１以上のコードブックを特定し、他の除外して１つ又は２つを選択する。信頼性のレベルが高いとき、モード選択７５４は、スイッチ７３６の位置も選択する。オープンループで選択したコードブックのコードブック利得ベクトルの選択は、クローズドループ手法で行われる。モード選択７５４の信頼性レベルが低いとき、図７ｂの例が図７ａの例と同じように動作する。モード選択７５４は、ピッチ（ＬＴＰ）分析とＬＰＣ分析（例えば、信号が顕著なピッチパターンを有しないとき）のどちらか一方又は両方のスイッチを切ることもできる。

図７ｂの例の出力ビットストリームには、少なくとも（１）この例では１つ以上のコードブックの選択が含まれる制御信号、それぞれの比率、スイッチ７３６の位置、ゲインＧ_ａ、Ｇ_ｒ、及びＧ_ｓ、コードブックコードベクトル指標、ピッチ分析７３０からのＬＴＰパラメータ、及びＬＰＣ分析７３８からのＬＰＣパラメータを含むことができる。通常は、このような情報は、適切な方法でフォーマット化され、多重化され、適切な装置又は機能（マルチプレクサ）７０１により、エントロピーコード化されてビットストリームに入る。このような情報をデコーダーに伝達する適切な他のどのような方法でも採用することができる。ビットストリームの更新頻度は信号に依存させることができる。実際には、信号の区分けと同じ速さでビットストリーム成分の更新を行うことが有効である。

図７ａの例のエンコーダーに対して、図７ｂの例のエンコーダーは過去の励振信号中の構造化正弦関数コードブック７２２からの寄与を含めるかどうかの決定について、さらなる柔軟性を有する。この決定は、オープンループ手法又はクローズドループ手法により行うことができる。（図７ａの例のような）クローズドループ手法において、エンコーダーは、構造化正弦関数コードブックからの寄与を含む過去の励振信号及び構造化正弦関数コードブックからの寄与を含まない過去の励振信号を試しに用いて、良いコーディング結果が得られる励振信号を選択する。オープンループ手法において、信号クラス分けの結果に基づき、モード選択５４により決定がなされる。

図７ｂの例の代替として、構造化正弦関数コードブックのゲイン調整された出力は、ＬＰＣ合成フィルタ７２０に適用する前に他のコードブック励振と結合させるのではなく、ＬＰＣ合成フィルタの出力と結合させてもよい。この場合、スイッチ７３６は、働かない。さらに、以下に説明するように、この代替例では修正したデコーダーの使用を必要とする。

本発明の特徴に係る統合したスピーチライク信号／ノンスピーチライク信号エンコーダーの第３の変形例を、図７ｃ及び７ｄに示す。この変形例においては、信号分離を採用する。図７ｃの下位の変形例において、（図４ａに示す形態で）分離経路は独立しており、図７ｄの下位の変形例において、（図４ｂに示す形態で）分離経路は相互依存している。説明を簡単にするために、図７ｃの例と図７ａの例との間の差異についてのみ説明する。また、説明を簡単にするために、以下の図７ｄの説明において、図７ｄの例と図７ｃの例との間の差異についてのみ説明する。一般的に図７ａに対応する装置及び機能は図７ｃ及び７ｄにおいて同一の参照番号を付番する。図７ｃ及び７ｄの説明のどちらにおいても、対応する装置及び機能間での差異を以下に説明する。

図７ｃの例の詳細を参照して、例えば、ＰＣＭフォーマットの、スピーチライク信号／ノンスピーチライク信号入力が、入力信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離する信号分離装置又は信号分離機能（信号分離）７６２に適用される。図６に示したような分離装置又は他の適切な信号成分分離装置を採用することができる。信号分離７６２には、本質的に図７ｂのモード選択７５４と類似の機能が含まれる。従って、信号分離７６２は、図７ｂのモード選択７５４により制御信号が生成されるのと同様に制御信号（図７ｃには示されていない）制御信号を生成することができる。このような制御信号は、信号分離の結果に基づいて、１以上のコードブックを停止させることができる。

スピーチライク信号成分とノンスピーチライク信号成分とに分離するので、図７ｃは図７ａとは多少異なっている。例えば、構造化正弦関数コードブックと関連づけられたクローズドループによる最小化は、適応コードブック及び標準コードブックと関連づけられたクローズドループによる最小化とは分離される。信号分離装置７６２からの分離された信号のそれぞれはそれ自身の区分け７１２に適用される。代替的に、１つの区分け７１２を信号分離７６２の前に採用することもできる。しかしながら、複数の区分け７１２の使用には、図示のとおり、分離し区分けした信号のそれぞれに独自のサンプルブロック長を持たせることができるという利点がある。従って、図７ｃに示すように、区分けしたスピーチライク信号成分は、ピッチ分析７３０及びＬＰＣ分析７３８に適用される。ピッチ分析７３０のピッチ出力は、量子化装置７４０及び逆量子化装置７４２を経由して、ローカルデコーダー７１４’（プライムマークは修正した要素を示す）内の適応コードブック７１６中の抽出装置７３２に適用される。ＬＰＣ分析７３８パラメータは、量子化装置７４０により量子化され（そしておそらくエンコードされ）そして逆量子化装置７４２内で逆量子化される（そしておそらく、必要に応じて、デコードされる）。結果生じたＬＰＣパラメータは、７２０−１及び７２０−２で示した、第１のＬＰＣ合成フィルタ７２０と第２のＬＰＣ合成フィルタ７２０の出現に適用される。７２０−２で示した、１つのＬＰＣフィルタは、構造化正弦関数コードブック７２２からの励振と関係付けられ、他（７２０−１で示した）は、標準コードブック７１６及び適応コードブック７１８からの励振と関係付けられる。複数のＬＰＣ合成フィルタ７２０及びそれに関連するクローズドループ要素は、図７ｃの信号分離のトポロジーから生じる。最小化７２４（７２４−１と７２４−２）及び減算装置７２６（７２６−１と７２６−２）が各ＬＰＣ合成フィルタ７２０と関連付けられ、各最小化７２４が、知覚的に関連性のある方法で最小化するためにそれに適用される（分離前の）入力信号を有するようにすることが、それに続く。最小化７２４−１は、概念的にブロック７２８−１に示すように、適応コードブックの利得及び標準コードブックの利得と、標準コードブック励振コードベクトルの選択とを制御する。最小化７２４−２は、概念的にブロック７２８−２に示すように、利得値の構造化正弦関数コードブックベクトルを制御する。

図７ｃの例の出力ビットストリームには、少なくとも（１）制御信号、（２）利得値Ｇａ，Ｇｒ，及びＧｓ、（３）標準コードブック励振コードベクトル指標、及び適応コードブック励振コードベクトル指標、（４）ピッチ分析７３０からのＬＴＰパラメータ、及び（５）ＬＰＣ分析７３８からのＬＰＣパラメータ、を含めることができる。制御信号は、図７ａ及び７ｂの例で示したのと同じ情報を含有することができるが、一部の情報（例えば、（図７ｂの７３６）のスイッチ位置）は固定することができる。一般にこのような情報（上記の４つの範疇）は、適切な方法でフォーマットされ、適切な装置又は機能（マルチプレクサ）７０１で、多重化され、そしてエントロピーコード化されて、ビットストリームとなる。このような情報をデコーダーに伝達する他のどのような方法でも採用することができる。ビットストリームの更新頻度は信号に依存させることができる。実際には、信号の区分けと同じ速さでビットストリーム成分の更新を行うことが有効である。

図７ｃの例の代替として、ＬＰＣ合成フィルタ７２０−２を省略することができる。図７ａ及び７ｂの代替の場合、この代替では、修正したデコーダーの使用が必要となる。

図７ｄの下位の変形例において、本発明の特徴に係る統合したスピーチライク信号／ノンスピーチライク信号エンコーダーの、信号分離を採用したもう１つの例を示す。図７ｄの下位の変形例において、分離経路は（図４ｂに示したような形態で）相互依存する。

図７ｄを参照して、入力信号をスピーチライク信号成分とノンスピーチライク信号成分に分離する信号分離７６２の代わりに、信号分離装置又は信号分離機能７６２’が入力信号からスピーチライク信号成分を分離する。分離していない入力信号成分と分離したスピーチライク信号成分とは、区分け装置又は区分け機能７１２で区分けされる。次に、次に、再構成したスピーチライク信号（ＬＰＣ合成フィルタ７２０−１の出力）が、減算装置７２７で、区分けされた分離していない入力信号から減算され、コード化するために分離したノンスピーチライク信号を生成する。コード化すべき分離した信号は、次いで、ＬＰＣ合成フィルタ７２０−２からの再構成したノンスピーチライク信号をそれから減算させ、ノンスピーチライク残差（誤差）信号を最小化装置又は最小化機能７２４’に適用させる。図７ｃの例の方法で、最小化７２４’では、スピーチライク信号残差（誤差）信号を減算装置７２６−１から受け取る。最小化７２４’では、また、区分けされた入力信号を、心理音響モデルに従い動作させることができるように、知覚的基準として受け取る。最小化７２４’では、２つの出力（１つは標準コードブック及び適応コードブックに関し、もう一つは正弦波コードブックに関する）２つの出力を制御することにより、それぞれの誤差入力信号を最小化する。最小化７２４’では、１つはスピーチライク信号誤差及び知覚的基準に応じて標準コードブック及び適応コードブックに制御出力を与える、もう一つは、ノンスピーチライク信号誤差及び知覚的基準に応じて正弦波コードブックに制御出力を与える、２つの独立した装置又は機能として実施することもできる。

図７ｄの例の代替として、ＬＰＣ合成フィルタ７２０−２を省略することができる。図７ａ，７ｂ，及び７ｃの代替の場合、この代替例では、修正したデコーダーを使うことが必要となる。

図７の３つの実施例の種々の関係は、以下の表を参照することでよく理解できよう。

［標準コードブック］
標準コードブックの目的は、スピーチライク信号又はスピーチライク信号ライクオーディオ信号、特にスピーチライク信号の「無声の」スピーチライクノイズ又は変則的な部分の励振を生成することである。標準コードブックの各項目には、長さＭ、ここでＭは分析窓の長さ、のコードブックベクトルが含まれる。従って、標準コードブックからの寄与ｅｒ［ｍ］は以下のように構成される。

式２

ここで、Ｃ_ｒ［ｉ，ｍ］，ｍ＝１，．．．，Ｍは、コードブックのｉ番目の項目、ｇ_ｒ［ｉ］は、標準コードブックのベクトル利得、そして、Ｎは、コードブックの全項目数である。経済的な理由により、利得ｇ_ｒ［ｉ］は、少量のビットでコード化可能なように選択した項目の内の限られた数（１又は２）にはゼロでない値を持たせることが一般的である。標準コードブックは、ガウス乱数発生器（ガウスコードブック）により、又は正規位置でのマルチパルスのベクトル（代数的コードブック）から、加えることができる。この種のコードブックを加える方法についての詳細な情報は、例えば、以下の引用した参考文献９に記載されている。

［構造化正弦関数コードブック］
構造化正弦関数コードブックの目的は、ハーモニック信号及び複数の楽器によるノンスピーチライク信号、ノンスピーチライク信号と有声音を一緒にした信号、及び複数の有声音のスピーチライク信号のような、複雑なスペクトル特性を持つ入力信号に適したスピーチライク信号励振信号及びノンスピーチライク信号励振信号を生成することである。ＬＰＣ合成フィルタ７２０の次数がゼロに設定され、正弦関数コードブックが排他的に用いられるとき、結果は、コーディックが知覚オーディオ変換コーディック（例えば、ＡＡＣ（アドバンスドオーディオコーディング）又は、ＡＣ−３エンコーダーを含む）を笑むレートすることのできるコーディックとなる。

構造化正弦関数コードブックは、種々の周波数と位相の正弦関数信号の項目の構成要素となる。このコードブックは、変換に基づく知覚的オーディオエンコーダーからの特徴を含めるために、従来のＣＥＬＰエンコーダーまで拡張することができる。このコードブックは、上述した信号のような、複雑すぎて標準コードブックにより効率的に生成することができないような、励振信号を生成する。好ましい実施の形態において、以下の正弦関数コードブックを用いることができ、コードブックベクトルは下記で与えられる。

式３

コードブックベクトルは、離散コサイン変換（ＤＣＴ）、又は、好ましくは修正離散コサイン変換（ＭＤＣＴ）のような、高速フーリエ変換（ＦＦＴ）のインパルス応答を表す。ここでｗ［ｍ］は窓関数である。正弦関数コードブックからの寄与ｅ_ｓ［ｍ］は下記で与えられる。

式４

従って、正弦関数コードブックからの寄与は、ＭＤＣＴ係数がベクトル利得ｇｓとなるインパルス応答の線形結合とすることができる。ここで、Ｃ_ｓ［ｉ，ｍ］，ｍ＝１，．．．，２Ｍは、コードブックのｉ番目の項目であり、ｇ_ｓ［ｉ］は、正弦関数コードブックのベクトル利得であり、そして、Ｎは、コードブックの全項目数である。このコードブックから生成された励振信号は、分析窓の２倍の長さを持つので、先のサンプルブックの２番目の半分の励振信号を現在のサンプルブロックの最初の半分に加えることにより最終的な励振信号が組み立てられるように、重複して加算する段階を用いるべきである。

［適応コードブック］
適応コードブックの目的は、スピーチライクオーディオ信号のための、特にスピーチライク信号の「有声の」スピーチライク部分のための励振を生成することである。場合によっては、残差信号、例えばスピーチ有声のセグメントが、時間（ピッチ）が経過した後、残差信号の波形を繰り返す、強い調和信号構造を呈することがある。この種の励振信号は、適応コードブックからの手助けにより効率的に生成することができる。図７ａ及び７ｂの例に示すように、適応コードブックは、先に生成された励振信号が記憶されているＬＴＰ（長期予測）バッファと、励振信号から検出したピッチ期間に従い、現在の励振信号を最もうまく表す過去の励振のＬＴＰバッファから、抽出すべきＬＴＰとを有する。従って、適応コードブックからの寄与ｅ_ｓ［ｍ］は、以下で与えられる。

式５

ここで、ｒ［ｍ−１−Ｄ］，ｍ＝１，．．．，Ｍは、コードブックのｉ番目の項目であり、ｇ_ａ［ｉ］は、標準コードブックのベクトル利得であり、そして、Ｌは、コードブックの全項目数である。加えて、Ｄはピッチ周期、ｒ［ｍ］は、ＬＴＰバッファに記憶された先に生成された励振信号である。図７及び７ｂの例からわかるように、エンコーダーは、過去の励振信号中の正弦関数コードブックからの寄与を含める、又は含めないのさらなる柔軟性を有する。前者の場合ｒ［ｍ］は、以下で与えることができる。

式６

後者の場合は、以下で与えることができる。

式７

コード化すべき現在のサンプルブロック（ｍ＝１，．．．，Ｍ）について、ｒ［ｍ］の値は、ｍ≦０に対してのみ求めることができる。ピッチ周期Ｄが分析窓長さＭより小さい場合は、ＬＴＰバッファの周期的拡張が必要となる。すなわち、

式８

最後に、ＬＰＣフィルタに対する励振信号ｅ［ｎ］は、上述の３つのコードブック、すなわち、

式９

で与えられる。

原則として、これは、これらの利得ベクトルの値について可能なすべての組み合わせを検索することで最適な利得ベクトルを決定することができるクローズドループ手法で行うことができる。しかし、実際には、このようなクローズドループ検索手法は、標準コードブックと適応コードブックに対してのみ実現可能であり、構造化正弦関数コードブックに対しては、可能な組み合わせが多すぎるので、実現可能ではない。この場合、最初に、標準コードブックと適応コードブックとをクローズドループ手法で検索する、順次的検索を用いることも可能であろう。構造化正弦関数利得ベクトルは、各コードブックの項目に対する利得を、他の２つのコードブックからの寄与を除去した後、コードブックの項目と残差信号との相関を量子化することにより決定する、オープンループ手法で決定することができる。

必要に応じて、デコーダーに送る前に、利得ベクトルのコンパクトな表現を取得するためにエントロピーエンコーダーを用いることができる。加えて、すべての利得がゼロになる利得ベクトルを、エスケープコードで効率的にコード化することができる。

［統合したマルチモードオーディオデコーダー］
図７ａ〜７ｄの例におけるどのエンコーダーとでも用いることのできるデコーダーを図７ａに示す。このデコーダーは本質的に図７ａ及び７ｂのローカルデコーダーと同じであり、従って、その構成要素には同じ参照番号を用いる（例えば、図８ａのＬＴＰバッファ８３４は、図７ａ及び７ｂのＬＴＰバッファ７３４に対応する）。従来のＣＥＬＰスピーチデコーダーにおけるものに類似する代替的な適応ポストフィルタ装置又はポストフィルタ機能（ポストフィルタリング）８０１を、スピーチライク信号の出力信号を処理するために加えることができる。図８ａを詳細に参照して、受け取ったビットストリームは、少なくとも、制御信号、ベクトル利得、Ｇ_ａ、Ｇ_ｒ、及びＧ_ｓ、ＬＴＰパラメータ、及びＬＰＣパラメータを出力するために、逆多重化され、デフォーマットされ、そしてデコードされる。

上述のとおり、正弦関数コードブック７２２により作られた励振が、（図７ａ〜７ｄのエンコーディングの例の修正として）ＬＰＣ合成フィルタリングなしの残差信号を作り出すために用いられるとき、修正したデコーダーを採用すべきである。そのようなデコーダーの例を図８ｂに示す。これは、正弦関数コードブック８２２の励振出力が、ＬＰＣフィルタされた適応コードブックの出力とＬＰＣフィルタされた標準コードブック出力とに、フィルタされた後に結合される点で、図８ａの例とは異なる。

［実施形態］
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの（例えば、プログラマブルロジックアレー）で実施することができる。特に記載がない限り、本発明の一部として含まれているアルゴリズム及び処理は本質的に、特定のコンピュータや他の装置と関連付けられるものではない。特に、種々の汎用機をこの記載に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置（例えば、集積回路）を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも１つのプロセッサ、少なくとも１つの記憶システム（揮発性及び非揮発性メモリー及び／又は記憶素子を含む）、少なくとも１つの入力装置又は入力ポート、及び少なくとも１つの出力装置又は出力ポートを具備する、１つ以上のプログラマブルコンピュータシステム上で実行される１つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、１以上の出力装置に適用される。

このようなプログラムの各々は、コンピュータシステムとの通信のために、必要とされるどんなコンピュータ言語（機械語、アセンブリ、又は、高級な、手続言語、論理型言語、又は、オブジェクト指向言語を含む）ででも実現することができる。いずれにせよ、言語はコンパイル言語であってもインタープリタ言語であってもよい。

このようなコンピュータプログラムの各々は、ここに記載の手順を実行するために、コンピュータにより記憶媒体又は記憶装置を読み込んだとき、コンピュータを設定し動作させるための、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより、読み込み可能な記憶媒体又は記憶装置（例えば、半導体メモリー又は半導体媒体、又は磁気又は光学媒体）に保存又はダウンロードすることが好ましい。本発明のシステムはまた、コンピュータプログラムにより構成されるコンピュータにより読み込み可能な記憶媒体として実行することを考えることもできる。ここで、この記憶媒体は、コンピュータシステムを、ここに記載した機能を実行するために、具体的にあらかじめ定めた方法で動作させる。

本発明の多くの実施の形態について記載した。しかしながら、本発明の精神と技術範囲を逸脱することなく多くの修正を加えることができることは明らかであろう。例えば、ここに記載したステップのいくつかの順序は独立であり、従って、記載とは異なる順序で実行することができる。

［参照としての編入］
以下の刊行物は参照としてそのすべてを本明細書に編入する。

（文献１）J.-H. Chen及び D. Wangによる、Proc. ICASSP-96, vol.1, May 1996、「Transform Predictive Coding of Wideband Speech Signals」
（文献２）S. Wangによる、Ph.D. Thesis, University of California, Santa Barbara, 1991、「Phonetic Segmentation Techniques for Speech Coding」
（文献３）A. Das、E. Paksoy、及びA. Gershoによる、Speech Coding and Synthesis, W.B. Kleijn and K.K.Paliwal Eds., Elsevier Science B.V., 1995、「Multimode and Variable-Rate Coding of Speech」
（文献４）B. Bessette、R. Lefebvre、及びR. Salamiによる、Proc. ICASSP-2005, March 2005、「Universal Speech/ Audio Coding using Hybrid ACELP/TCX Techniques」
（文献５）S. Ramprashadによる、IEEE Speech Coding Workshop, Helsinki, Finland, June 1999、「A Multimode Transform Predictive Coder (MTPC) for Speech and Audio」
（文献６）S. Ramprashadによる、IEEE Trans. On Speech and Audio Processing, March 2003、「The Multimode Transform Predictive Coding Paradigm」
（文献７）Shoji Makino（編集）、Te-Won Lee（編集）、Hiroshi Sawada（編集）、Springerによる、2007の「Blind Speech Separation (Signals and Communication Technology)」
（文献８）M. Yong、G. Davidson、及びA. Gershoによる、IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing, 1988、「Encoding of LPC Spectral Parameters Using Switched-Adaptive Interframe Vector Prediction」
（文献９）A. M. Kondozによる、「Digital speech coding for low bit rate communication system」第２版、セクション7.3.4、Wiley、2004
以下の米国特許はそのすべてを参照として本明細書に編入する。

Ubale、他の、米国特許5,778,335
Uvliden、他の、米国特許7,146,311Bl
Lelinek、他の、米国特許7,203,638B2
Uvliden、他の、米国特許7,194,408B2
Koishida、他の、米国特許6,658,383B2
Khalil、他の、米国特許6,785,645B2

本発明の第３の特徴によれば、符号励振線形予測（ＣＥＬＰ）オーディオデコーディングは、ＬＰＣパラメータにより制御されるＬＰＣ合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも１つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらし、他の少なくとも１つのコードブックはスピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とするコードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、パラメータとコードベクトルと利得係数とを受け取るステップと、少なくとも１つのコードブック励振出力からＬＰＣ合成フィルタのための励振信号を導き出すステップと、ＬＰＣフィルタの出力又はＬＰＣ合成フィルタの出力と１つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び／又は利得係数により制御される。

［マルチモードコーディングと結合した、信号分離を用いたスピーチライク信号オーディオコーディング］
本発明のさらなる特徴としてオーディオセグメントを１以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライクに適したエンコーディングツールでノンスピーチライクをコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図４ａに示す。その変形を図４ｂに示す。

［マルチモードコーディングと結合した、信号分離を用いたスピーチライク信号オーディオコーディング］
本発明のさらなる特徴としてオーディオセグメントを１以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合、又は、スピーチライク信号成分とバックグラウンドノイズ成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライク信号又はバックグラウンドノイズに適したエンコーディングツールでノンスピーチライク信号成分又はバックグラウンド成分をコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図４ａに示す。その変形を図４ｂに示す。

Claims

ＬＰＣパラメータにより制御されるＬＰＣ合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも１つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも１つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測（ＣＥＬＰ）オーディオエンコーディングの方法であって、該方法は、
ＬＰＣパラメータを生成するためにオーディオ信号に線型予測コーディング（ＬＰＣ）分析を適用するステップと、
前記オーディオ信号とコードブック励振から導き出した再構成したオーディオ信号と差異の測度を最小にすることで、少なくとも２つのコードブックからコードベクトル及び／又は関連する利得係数を選択するステップであって、これらのコードブックには、ノンスピーチライク信号に適した励振をもたらすコードブックと、スピーチライク信号に適した励振をもたらすコードブックとが含まれることを特徴とするステップと、
オーディオ信号を再構成するためにＣＥＬＰオーディオデコーダーで使用可能な出力を生成するステップであって、該出力にはＬＰＣパラメータとコードベクトルと利得係数とが含まれることを特徴とするステップと、
を具備することを特徴とする方法。
前記コードブックの励振出力から導き出した信号のいくつかは、前記線型予測コーディング合成フィルタによりフィルタされることを特徴とする請求項１に記載の方法。
コードブックの励振出力がノンスピーチライク信号よりスピーチライク信号に適するようなコードブックから導き出された信号が、前記線型予測コーディング合成フィルタでフィルタされることを特徴とする請求項２に記載の方法。
コードブックの励振出力がスピーチライク信号よりノンスピーチライク信号に適するようなコードブックから導き出された信号が、前記線型予測コーディング合成フィルタでフィルタされないことを特徴とする請求項３に記載の方法。
ノンスピーチライク信号よりスピーチライクに適した励振出力をもたらす前記少なくとも１つのコードブックには、ノイズライクな励振を生成するコードブックと周期的励振を生成するコードブックとを含み、励振出力がスピーチライク信号よりノンスピーチライク信号に適した励振をもたらす前記少なくとも１つの他のコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項１乃至請求項４のいずれか１項に記載の方法。
ＬＴＰパラメータを生成するために前記オーディオ信号に長期予測（ＬＴＰ）分析を適用するステップであって、周期的励振を生成するコードブックは、ＬＴＰパラメータにより制御され、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取る適応コードブックであり、前記出力にはさらにＬＴＰパラメータが含まれることを特徴とするステップをさらに具備することを特徴とする請求項５に記載の方法。
前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とを時間遅れさせた結合のいずれかを受け取ることができ、前記出力には、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報をさらに含めることができることを特徴とする請求項６に記載の方法。
オーディオ信号を複数の信号のクラスの１つにクラス分けするステップと、
このクラス分けに応じて動作モードを選択するステップと、
オープンループ手法により、励振出力に寄与させるために、１以上のコードブックを選択するステップと、
をさらに具備することを特徴とする請求項１乃至請求項７のいずれか１項に記載の方法。
前記動作モードを選択するステップの信頼性レベルを決定するステップであって、高信頼性レベルを含む少なくとも２つの信頼性レベルがあることを特徴とするステップと、オープンループ手法により、信頼性レベルが高いときのみ、排他的に励振に寄与する１以上のコードブックを選択するステップとを、さらに、具備することを特徴とする請求項８に記載の方法。
前記最小にすることは、再構成したオーディオ信号とクローズドループ中のオーディオ信号との差を最小にすることであることを特徴とする請求項１乃至請求項９のいずれか１項に記載の方法。
前記差異の測度は、知覚的に重み付けした測度であることを特徴とする請求項１乃至請求項１０のいずれか１項に記載の方法。
ＬＰＣパラメータにより制御されるＬＰＣ合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも１つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも１つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測（ＣＥＬＰ）オーディオエンコーディングの方法であって、該方法は、
オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離するステップと、
ＬＰＣパラメータを生成するために前記オーディオ信号のスピーチライク信号成分に線型予測コーディング（ＬＰＣ）分析を適用するステップと、
ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらすコードブックに関連させた、コードベクトルの選択及び／又は利得係数を変化させることにより、ＬＰＣ合成フィルタ出力とオーディオ信号のスピーチライク信号成分との差異を最小化するステップと、
スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックに関連させた、コードベクトルの選択及び／又は利得係数を変化させるステップと、
オーディオ信号の近似値を生成するためにＣＥＬＰオーディオデコーダーで用いることのできる出力をもたらすステップであって、該出力には、コードベクトルの選択及び／又は各コードブックと関連付けた利得と、ＬＰＣパラメータとが含まれることを特徴とするステップと、
を具備ことを特徴とする方法。
前記分離するステップでは、前記オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離することを特徴とする請求項１２に記載の方法。
前記分離するステップでは、前記オーディオ信号から前記スピーチライク信号成分を分離し、前記オーディオ信号からスピーチライク信号成分を復元したものを減算することにより、前記ノンスピーチライク信号成分の近似値を導き出すことを特徴とする請求項１２に記載の方法。
前記分離するステップでは、前記オーディオ信号から前記ノンスピーチライク信号成分を分離し、前記オーディオ信号からノンスピーチライク信号成分を復元したものを減算することにより、前記スピーチライク信号成分の近似値を導き出すことを特徴とする請求項１２に記載の方法。
第２の線型予測コーディング（ＬＰＣ）合成フィルタを用意するステップを具備し、該第２の線型予測コーディング合成フィルタにより、ノンスピーチライク信号成分を復元したものをフィルタすることを特徴とする請求項１２乃至請求項１５のいずれか１項に記載の方法。
ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも１つのコードブックには、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含むことができ、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも１つのコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項１２乃至請求項１６のいずれか１項に記載の方法。
ＬＴＰパラメータを生成するためにオーディオ信号のスピーチライク信号成分に長期予測（ＬＴＰ）分析を適用するステップを具備し、周期的励振を生成するコードブックはＬＴＰパラメータにより制御される適応コードブックであり、前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取ることを特徴とする請求項１７に記載の方法。
スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び／又は利得係数は、スピーチライク信号に応じて変化させることを特徴とする請求項１２に記載の方法。
スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び／又は利得係数は、このノンスピーチライク信号とこのようなコードブックから復元された信号との差異を減少させるために変化することを特徴とする請求項１２に記載の方法。
ＬＰＣパラメータにより制御されるＬＰＣ合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも１つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも１つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測（ＣＥＬＰ）オーディオエンコーディングの方法であって、該方法は、
パラメータとコードベクトルと利得係数とを受け取るステップと、
少なくとも１つのコードブック励振出力から前記ＬＰＣ合成フィルタのための励振信号を導き出すステップと、
前記ＬＰＣフィルタの出力又は前記ＬＰＣ合成フィルタの出力と前記１つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び／又は利得係数により制御されることを特徴とする方法。
ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも１つのコードブックは、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含み、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも１つの他のコードブックは、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項２１に記載の方法。
前記周期的励振を生成するコードブックは、ＬＴＰパラメータにより制御される適応コードブックであり、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取り、前記方法は、ＬＴＰパラメータを受け取るステップをさらに具備することを特徴とする請求項２２に記載の方法。
前記コードブックの全ての励振はＬＰＣフィルタに適用され、前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とだけを時間遅れさせた結合のいずれかを受け取り、前記方法は、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報を受け取るステップをさらに具備することを特徴とする請求項２３に記載の方法。
前記ＬＰＣフィルタの出力からオーディオ出力信号を導き出すステップにはポストフィルタを行うステップが含まれることを特徴とする請求項２１乃至請求項２３のいずれか１項に記載の方法。
請求項１乃至請求項２５のいずれか１項に記載の方法を実行することができるようにした装置。
請求項１乃至乃至請求項２５のいずれか１項に記載の方法をコンピュータに実行させるために、コンピュータ読み取り可能媒体に記憶させた、コンピュータプログラム。