JP4550289B2

JP4550289B2 - Ｃｅｌｐ符号変換

Info

Publication number: JP4550289B2
Application number: JP2000599012A
Authority: JP
Inventors: デジャコ、アンドリュー・ピー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-12
Filing date: 2000-02-14
Publication date: 2010-09-22
Anticipated expiration: 2020-02-14
Also published as: KR20010102004A; JP2002541499A; WO2000048170A9; KR100873836B1; KR20070086726A; WO2000048170A1; DE60011051T2; CN1347550A; HK1042979B; AU3232600A; EP1157375A1; CN1154086C; US6260009B1; KR100769508B1; US20010016817A1; ATE268045T1; HK1042979A1; DE60011051D1; EP1157375B1

Description

【０００１】
発明の背景
発明の分野
本発明は符号励振型線形予測（ＣＥＬＰ）音声処理に係わる。特に、本発明はディジタル音声パケットをあるＣＥＬＰフォーマットから別のＣＥＬＰフォーマットへ変換することに係わる。
【０００２】
関連技術
ディジタル技術による音声の伝送は、特に長距離ディジタル無線電話分野において広く行きわたってきた。これはまた復元音声の知覚的品質を保持するとともに通信路（チャンネル）で送信できる最小量の情報を決定するという関心を引き起こしてきた。音声を単に標本化してディジタル化して伝送するならば毎秒６４キロビット（ｋｂｐｓ）の程度のデータ率が通常のアナログ電話の音質を得るのに必要である。しかしながら、音声分析を用いて、適当な符号化、伝送、および受信機での再合成を行うことにより、データ率を顕著に低減することが達成できる。
【０００３】
人間の音声生成モデルに関するパラメータを取り出すことにより音声を圧縮する手法を使用する装置は一般にボコーダ（ｖｏｃｏｄｅｒ）と呼ばれている。この装置は、関連するパラメータを抽出するために入力音声を分析する符号器と、伝送通信路などの通信路で受信されるパラメータを用いて音声を再合成する復号器から構成される。音声は時間ブロック、または分析サブフレームに分割され、その間にパラメータが計算される。そしてパラメータは新サブフレーム毎に更新される。
【０００４】
線形予測に基づく時間領域符号器は今日用いられている最も一般的な音声符号器である。これらの手法は入力音声標本から過去の多くの（音声）標本に対する相関関係を抽出し、信号の非相関部分だけを符号化する。この手法で使用される基本的な線形予測フィルタは過去の標本の線形結合として現在の標本を予測する。この特殊な種類の符号化アルゴリズムの一例が、移動衛星会議講演集（１９９８年）のトーマスイートレメイン他の論文「４．８ｋｂｐｓ符号励振型線形予測符号器」に記述されている。
【０００５】
ボコーダの機能は、音声に固有の本来ある全ての冗長度を除去することによりディジタル化音声信号を低ビット率の信号に圧縮することである。一般に音声は唇と舌のフィルタ作用に主因する短期間の冗長度と、声帯の振動による長期間の冗長度を有する。ＣＥＬＰ符号器において、これらの操作は二つのフィルタ、すなわち短期間フォルマント・フィルタおよび長期間ピッチ・フィルタ、によりモデル化される。これらの冗長度が除去されると、残余の信号は白色ガウス雑音としてモデル化され、これもまた符号化される。
【０００６】
この手法の基本原理は二つのディジタル・フィルタのパラメータを計算することである。フォルマント・フィルタと呼ばれる（またＬＰＣ（線形予測係数）フィルタとして知られる）一方のフィルタは音声波形の短期間予測を行う。ピッチ・フィルタと呼ばれる他方のフィルタは音声波形の長期間予測を行う。最後に、これらのフィルタは励振されるが、これは波形が上述の二つのフィルタを励振するときコードブック中のいくつかの任意の励振波形のいずれかの一つが原音声に最も近く近似されるかを決定することにより行われる。かくして伝送パラメータは三つの条項、（１）ＬＰＣフィルタ、（２）ピッチ・フィルタ及び（３）コードブック励振に関係する。
【０００７】
ディジタル音声符号化（ｃｏｄｉｎｇ）は二つの部分に分けることができる；符号化（ｅｎｃｏｄｉｎｇ）と復号化（ｄｅｃｏｄｉｎｇ）で、ときには分析（ａｎａｌｙｓｉｓ）と合成（ｓｙｎｔｈｅｓｉｓ）ともいう。図１は、音声をディジタル符号化、伝送および復号化するためのシステム１００のブロック図である。このシステムは符号器１０２、通信路（チャンネル）１０４、および復号器１０６を含む。通信路（チャンネル）１０４は通信チャンネル、記憶媒体、等々であってもよい。符号器１０２はディジタル化入力音声を受信し、音声の特徴を表すパラメータを抽出し、そして通信路１０４に送られる源ビット・ストリームにこれらのパラメータを量子化する。復号器１０６は通信路１０４からビット・ストリームを受信し、受信ビット・ストリーム内の量子化特性を用いて出力波形を再構成する。
【０００８】
今日、多くのＣＥＬＰ符号化のいろいろなフォーマットが使用されている。ＣＥＬＰ符号化音声を旨く復号するために、復号器１０６は、信号を生成する符号器１０２と同じＣＥＬＰ符号化モデル（“フォーマット”としても引用する）を使用しなければならない。異なるＣＥＬＰフォーマットを使用する通信システムが音声データを共有しなければならないときは、音声信号をあるＣＥＬＰ符号化フォーマットから別のフォーマットに変換することが多くの場合望ましい。
【０００９】
この変換の通常の仕方は“タンデム符号化”として知られている。図２は入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換するためのタンデム符号化システム２００である。このシステムは入力ＣＥＬＰフォーマット復号器２０６と出力ＣＥＬＰフォーマット符号器２０２を含む。入力ＣＥＬＰフォーマット復号器２０６は、あるＣＥＬＰフォーマット（以下、“入力”フォーマットとして引用する）を用いて符号化された音声信号（以下、“入力”信号として引用する）を受信する。復号器２０６は音声信号を生成するために入力信号を復号する。出力ＣＥＬＰフォーマット符号器２０２は復号された音声信号を受信し、出力ＣＥＬＰフォーマット（以下、“出力”フォーマットとして引用する）を用いて出力フォーマットの出力信号を生成するために符号化を行う。この手法の主なる欠陥は多数の符号器および復号器を通る音声信号が知覚できる劣化を受けることである。
【００１０】
発明の概要
本発明はＣＥＬＰボコーダからＣＥＬＰボコーダへのパケット変換のための方法および装置である。この装置は、出力フォルマント・フィルタ係数を生成するため音声パケットの入力フォルマント・フィルタ係数を入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換するフォルマント・パラメータ変換器と、出力ピッチおよびコードブックのパラメータを生成するために音声パケットに対応する入力ピッチおよびコードブックのパラメータを入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換する励振パラメータ変換器を含む。フォルマント・パラメータ変換器は、入力フォルマント・フィルタ係数のモデル順序（ｏｒｄｅｒ）を入力ＣＥＬＰフォーマットのモデル順序から出力ＣＥＬＰフォーマットのモデル順序に変換するモデル順序変換器と、入力フォルマントフィルタ係数のタイム・ベースを入力ＣＥＬＰフォーマットのタイム・ベースから出力ＣＥＬＰフォーマットのタイム・ベースに変換するタイム・ベース変換器を含む。
【００１１】
この方法は、入力パケットのフォルマント・フィルタ係数を入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換するステップと、入力音声パケットのピッチおよびコードブックのパラメータを入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換するステップを含む。フォルマント・フィルタ係数を変換するステップは、フォルマント・フィルタ係数を入力ＣＥＬＰフォーマットから反射係数ＣＥＬＰフォーマットへ変換するステップ、反射係数のモデル順序を入力ＣＥＬＰフォーマットのモデル順序から出力ＣＥＬＰフォーマットのモデル順序に変換するステップ、そこで得られた係数を線スペクトル対（ＬＳＰ）ＣＥＬＰフォーマットに変換するステップ、得られた係数のタイム・ベースを入力ＣＥＬＰフォーマットのタイム・ベースから出力ＣＥＬＰフォーマットのタイム・ベースへ変換するステップ、および出力フォルマント・フィルタ係数を生成するために、得られた係数をＬＳＰフォーマットから出力ＣＥＬＰフォーマットに変換するステップを含む。ピッチおよびコードブックのパラメータを変換するステップは、標的信号を生成するために入力ピッチおよびコードブックのパラメータを用いて音声を合成するステップと、標的信号と出力フォルマント・フィルタ係数を用いて出力ピッチおよびコードブックのパラメータを検索するステップを含む。
【００１２】
この発明の長所はタンデム符号化変換により普通生じる知覚的音声品質の劣化を除去する点である。
【００１３】
本発明の特徴、目的、及び長所は、同様な参照符号が全体にわたり対応して同一である図面と関連して取られる以下に始まる詳細な記述からさらに明らかになるであろう。
【００１４】
好ましい実施例の詳細な説明
本発明の好ましい実施例を以下に詳細に論じる。特別な方法（ステップ）、構成および組合わせ方を論じるものの、これは例証の目的だけに行うものであることを理解すべきである。関連する技術分野に熟達する者は他の方法（ステップ）、構成および組合わせ方が本発明の精神および範囲から逸脱することなしに利用できることを認識するものである。本発明は、衛星および地上セルラ電話システムを含め、種々の情報および通信システムにおいて利用することができる。好ましき用途では、電話サービスのＣＤＭＡ無線スペクトル拡散通信システムがある。
【００１５】
本発明は二つの部分に分けて記述する。最初に、ＣＥＬＰ符号器およびＣＥＬＰ復号器を含めて、ＣＥＬＰコーデックを述べる。次に、好ましい実施例によりパケット変換器について述べる。
【００１６】
好ましい実施例を述べる前に、図１の典型的なＣＥＬＰシステムの装置を最初に説明する。この装置では、ＣＥＬＰ符号器１０２は音声信号を符号化するために分析・合成（ａｎａｌｙｓｉｓ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）法を用いている。この方法により、いくつかの音声パラメータは開ループ法で計算され、別の音声パラメータは試行錯誤による閉ループ様式で決定される。特に、ＬＰＣ係数は一組の方程式を解くことにより決定される。そしてＬＰＣ係数はフォルマント・フィルタに加えられる。その後、残りのパラメータ（コードブック・インデックス、コードブック利得、ピッチ・ラグ、およびピッチ利得）の推測値が音声信号を合成するためにフォルマント・フィルタとともに使用される。それから合成音声信号を実際の音声信号と比較して残りのパラメータのいずれの推測値が最も正確な音声信号を合成するかを決定する。
【００１７】
符号励振型線形予測（ＣＥＬＰ）復号器
音声復号手順はデータ・パケットを開いて、受信パラメータを逆量子化（ｕｎｑｕａｎｔｉｚｉｎｇ）し、そしてこれらのパラメータから音声信号を再構成することを含む。再構成は音声パラメータを用いて生成されたコードブック・ベクトルをフィルタ処理するものである。
【００１８】
図３はＣＥＬＰ復号器１０６のブロック図である。ＣＥＬＰ復号器１０６は、コードブック３０２、コードブック利得部３０４、ピッチ・フィルタ３０６、フォルマント・フィルタ３０８、および後フィルタ３１０からなる。各々のブロックの概要目的は以下に要約する。
【００１９】
ＬＰＣ合成フィルタとして引用されている、フォルマント・フィルタ３０８は音声器官の舌、歯および唇をモデル化するものと考えることができ、音声器官フィルタリングに起因する原音声の共振周波数近くに共振周波数を有する。フォルマント・フィルタ３０８は以下の式のディジタル・フィルタである。
【数１】
１／Ａ（ｚ）＝１−ａ_１ｚ^−１−・・・−ａ_ｎｚ^−ｎ
フォルマント・フィルタ３０８の係数ａ_１・・・ａ_ｎはフォルマント・フィルタ係数またはＬＰＣ係数として引用される。
【００２０】
ピッチ・フィルタ３０６は、有声音では声帯から来る周期的パルス列をモデル化するものとして考えられる。有声音は、声帯と肺からの空気の外力との間の複雑な非線形相互作用により生成される。有声音の例は“ｌｏｗ”のＯと“ｄａｙ”のＡである。無声音では、ピッチ・フィルタは基本的には入力を出力にそのまま通過させる。無声音は音声器官のどこかの先端の狭窄部を通して空気を出すことにより生成される。無声音の例は、舌と上歯の間の狭窄部により作られる“ｔｈｅｓｅ”のＴＨ、及び下唇と上歯の狭窄部により作られる“ｓｈｕｆｆｌｅ”のＦＦである。ピッチ・フィルタ３０６は以下の式のディジタル・フィルタである。
【数２】
１／Ｐ（ｚ）＝１／（１−ｂｚ^−Ｌ）＝１＋ｂｚ^−Ｌ＋ｂ^２ｚ^−２Ｌ＋・・・ここに、ｂはフィルタのピッチ利得に関連し、そしてＬはフィルタのピッチ・ラグである。
【００２１】
コードブック３０２は、無声音における騒雑音と有声音における声帯への励振をモデル化するものとして考えられる。背景雑音と無音中では、コードブック出力はランダム雑音に置き換えられる。コードブック３０２はコードブック・ベクトルとして参照される多数のデータ語を記憶する。コードブック・ベクトルはコード・インデックスＩにしたがって選択される。選択されたコードブック・ベクトルは、コードブック利得パラメータＧにしたがって利得部３０４により定められる。コードブック３０２は利得部３０４を含めてもよい。コードブックの出力はまたコードブック・ベクトルとして参照される。利得部３０４は、例えば、掛け算器として実施することができる。
【００２２】
後フィルタ３１０は、パラメータ量子化により付加された量子化雑音とコードブック内の欠陥を整形（ｓｈａｐｅ）するために使用される。この雑音は小信号エネルギを有する周波数帯では目立つが、大信号エネルギを有する周波数帯では気がつかない。この性質を利用して、後フィルタ３１０は知覚的には取るに足らない周波数範囲にはより多くの量子化雑音を、そして知覚的に重要な周波数範囲にはより少ない雑音を置くようにする。この後フィルタ処理は、ＩＣＡＳＳＰ会誌（１９８７）のジェイ−エイチチェンとエーガーショの論文“適応的後フィルタ処理による４８００ｂｐｓでの実時間ベクトルＡＰＣ音声符号化”およびＩＣＡＳＳＰ会誌８２９−３２頁（東京、日本、１９８７．４）のエヌエスジェイヤントおよびヴィラマモーティの論文“音声の適応的後フィルタ処理”でさらに論じられている。
【００２３】
一実施例においては、ディジタル化音声の各フレームは一またはそれ以上のサブフレームを含んでいる。各サブフレームについて、一組の音声パラメータが、合成音声・（ｎ）の一サブフレームを生成するためにＣＥＬＰ復号器１０６に印加される。音声パラメータはコードブック・インデックスＩ、コードブック利得Ｇ、ピッチ・ラグＬ、ピッチ利得ｂ、およびフォルマント・フィルタ係数ａ_１・・・ａ_ｎを含む。コードブック３０２の一ベクトルはインデックスＩにしたがって選択され、利得Ｇにしたがって定められ、そしてピッチ・フィルタ３０６およびフォルマント・フィルタ３０８を励振するために使用される。ピッチ・フィルタ３０６はピッチ利得ｂおよびピッチ・ラグＬにしたがって、選択されたコードブック・ベクトルに作動する。フォルマント・フィルタ３０８は、合成音声信号・（ｎ）を生成するためにフォルマント・フィルタ係数ａ_１・・・ａ_ｎにしたがってピッチ・フィルタ３０６により生成された信号に作動する。
【００２４】
符号励振型線形予測（ＣＥＬＰ）符号器
ＣＥＬＰ音声符号化の手順は、合成音声信号と入力ディジタル化音声信号の間の知覚される差異を最小にする復号器の入力パラメータを決定することからなる。パラメータの各組についての選択処理は次の小節に述べる。符号化手順は、関連技術分野に熟達した者には明らかなように、パラメータを量子化しそれらを伝送のためのデータ・パケットに束ねることを含む。
【００２５】
図４はＣＥＬＰ符号器１０２のブロック図である。ＣＥＬＰ符号器１０２はコードブック３０２、コードブック利得部３０４、ピッチ・フィルタ３０６、フォルマント・フィルタ３０８、知覚的重み付けフィルタ４１０、ＬＰＣ発生器４１２、集計器（ｓｕｍｍｅｒ）４１４、および最小化部４１６を含む。ＣＥＬＰ符号器１０２は多数のフレームおよびサブフレームに分割されたディジタル音声信号ｓ(ｎ)を受信する。各サブフレームについて、ＣＥＬＰ符号器１０２はそのサブフレームにおける音声信号を記述する一組のパラメータを生成する。これらのパラメータは量子化され、そしてＣＥＬＰ復号器１０６に送信される。ＣＥＬＰ復号器１０６は、上に述べたように、音声信号を合成するためにこれらのパラメータを使用する。
【００２６】
図４を参照すると、ＬＰＣ係数の生成は開ループ様式で実行される。入力音声標本ｓ（ｎ）の各サブフレームから、ＬＰＣ発生器４１２は関連技術分野において周知の方法によりＬＰＣ係数を計算する。これらのＬＰＣ係数はフォルマント・フィルタ３０８に供給される。
【００２７】
ピッチ・パラメータｂおよびＬとコードブック・パラメータＩおよびＧの計算は、しかしながら、分解・合成（ａｎａｌｙｓｉｓ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）法としてしばしば引用される、閉ループ様式で実行される。この方法によれば、音声信号・（ｎ）を合成するために、コードブックおよびピッチのパラメータの種々の仮定の候補値がＣＥＬＰ符号器に印加される。各推測の合成音声信号・（ｎ）は集計器（ｓｕｍｍｅｒ）４１４で入力音声信号ｓ（ｎ）と比較される。この比較から生じる誤差信号ｒ（ｎ）は最小化部４１６に供給される。最小化部４１６はコードブックおよびピッチの推測パラメータの種々の組み合わせを選択し、誤差信号ｒ（ｎ）を最小にする組み合わせを決定する。これらのパラメータ、およびＬＰＣ発生器４１２により生成されたフォルマント・フィルタ係数は量子化され、伝送のためにパケット化される。
【００２８】
図４に示した実施例において、入力音声標本ｓ（ｎ）は、知覚的重み付けフィルタ４１０により重み付けされ、それにより重み付けされた音声標本が加算器４１４の入力を集計するために供給される。知覚的重み付けは、少ない信号パワーしかない周波数における誤差を重み付けするのに利用される。雑音が知覚的に非常に目立つのはこれらの低信号パワーの周波数である。この知覚的重み付けはさらに“可変率ボコーダ”と題する米国特許第５，４１４，７９６号で論じられており、ここで全部そのまま引用文献として組み込まれる。
【００２９】
最小化部４１６は二段階でコードブックとピッチのパラメータの検索を行う。最初に、最小化部４１６はピッチ・パラメータを検索する。ピッチ検索の間はコードブックからの寄与はない（Ｇ＝０）。最小化部４１６においてはピッチ・ラグ・パラメータＬおよびピッチ利得パラメータｂの全ての可能な値がピッチ・フィルタ３０６に入力される。最小化部４１６は重み付けされた入力音声と合成音声の間の誤差ｒ（ｎ）を最小にするＬおよびｂの値を選択する。
【００３０】
ピッチ・ラグＬとピッチ利得ｂが見つかると、コードブック検索が同様に実行される。そして最小化部４１６はコードブック・インデックスＩとコードブック利得Ｇを生成する。コードブック・インデックスＩにしたがって選択された、コードブック３０２からの出力値は、ピッチ・フィルタ３０６で用いられる一連の値を生成するためコードブック利得部３０４においてコードブック利得Ｇで乗算される。最小化部４１６は誤差ｒ（ｎ）を最小にするコードブック・インデックスＩおよびコードブック利得Ｇを選択する。
【００３１】
一実施例においては、知覚的重み付けは、知覚的重み付けフィルタ４１０により入力音声と、フォルマント・フィルタ３０８内に組み込まれた重み付け関数により合成された音声の両方に適用される。別の実施例においては、知覚的重み付けフィルタ４１０は加算器４１４の後に置くことができる。
【００３２】
ＣＥＬＰボコーダからＣＥＬＰボコーダへのパケット変換
次の記述においては、変換される音声パケットは、“入力”されるコードブックとピッチのパラメータおよび“入力”フォルマント・フィルタ係数を指定する“入力”ＣＥＬＰフォーマットをもつ“入力”パケットとして引用する。同様に変換の結果は、“出力”されるコードブックとピッチのパラメータおよび“出力”フォルマント・フィルタ係数を指定する“出力”ＣＥＬＰフォーマットをもつ“出力”パケットとして引用する。このような変換の一つの有用な用途は音声信号を交換するためにインターネットに無線電話システムを接続することである。
【００３３】
図５は好ましい実施例にしたがってこの方法を示すフローチャートである。変換は三つの段階で行われる。第一段階では、ステップ５０２で示すように、入力音声パケットのフォルマント・フィルタ係数は入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換される。第二段階では、ステップ５０４で示すように、入力音声パケットのピッチとコードブックのパラメータが入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換される。第三段階においては、出力パラメータが出力ＣＥＬＰ量子化器で量子化される。
【００３４】
図６は好ましい実施例によるパケット変換器６００を示す。パケット変換器６００はフォルマント・パラメータ変換器６２０および励振パラメータ変換器６３０を含む。フォルマント・パラメータ変換器６２０は出力フォルマント・フィルタ係数を生成するため入力フォルマント・フィルタ係数を出力ＣＥＬＰフォーマットに変換する。フォルマント・パラメータ変換器６２０はモデル順序変換器６０２、タイム・ベース変換器６０４、およびフォルマント・フィルタ係数変換器６１０Ａ、Ｂ、Ｃを含む。励振パラメータ変換器６３０は出力するピッチとコードブックのパラメータを生成するため入力されたピッチとコードブックのパラメータを出力ＣＥＬＰフォーマットに変換する。励振パラメータ変換器６３０は音声合成器６０６および検索器６０８を含む。図７、８および９は好ましい実施例にしたがってフォルマント・パラメータ変換器の動作を示すフローチャートである。
【００３５】
入力音声パケットは変換器６１０Ａにより受信される。変換器６１０Ａは各入力音声パケットのフォルマント・フィルタ係数を入力ＣＥＬＰフォーマットからモデル順序変換に適したＣＥＬＰフォーマットに変換する。ＣＥＬＰフォーマットのモデル順序はそのフォーマットで用いられるフォルマント・フィルタ係数の数を記述する。好ましい実施例においては、ステップ７０２に示すように、入力フォルマント・フィルタ係数は反射係数フォーマットに変換される。反射係数フォーマットのモデル順序は入力フォルマント・フィルタ係数のモデル順序と同じになるように選択される。このような変換を行う方法は関連技術分野においては周知である。もちろん、入力ＣＥＬＰフォーマットが反射係数フォーマットのフォルマントフィルタ係数を用いていれば、この変換は不要である。
【００３６】
モデル順序変換器６０２は変換器６１０Ａから反射係数を受信し、ステップ７０４に示すように、反射係数数のモデル順序を入力ＣＥＬＰフォーマットのモデル順序から出力ＣＥＬＰフォーマットのモデル順序に変換する。モデル順序変換器６０２は補間器６１２およびデシメータ６１４を含む。入力ＣＥＬＰフォーマットのモデル順序が出力ＣＥＬＰフォーマットのモデル順序より低いときは、ステップ８０２に示すように、補間器６１２は付加係数を供給する補間動作を実行する。一実施例では、付加係数はゼロに設定される。入力ＣＥＬＰフォーマットのモデル順序が出力ＣＥＬＰフォーマットのモデル順序より高いときは、ステップ８０４に示すように、デシメータ６１４は係数の数を低減するためデシメーション（１／１０にする）動作を実行する。一実施例においては、不要な係数は単にゼロに置き換える。このような補間およびデシメーション動作は関連技術分野においては周知である。係数反射領域モデルにおいては、順序変換は比較的簡単であり、適当な選択ができる。勿論、入力および出力ＣＥＬＰフォーマットのモデル順序が同じであれば、モデル順序変換は不要である。
【００３７】
フォルマント・フィルタ係数変換器６１０Ｂはモデル順序変換器６０２から順序補正されたフォルマント・フィルタ係数を受信し、この係数を反射係数フォーマットからタイム・ベース変換に適したＣＥＬＰフォーマットに変換する。ＣＥＬＰフォーマットのタイム・ベースはフォルマント合成パラメータが標本化される率、即ちフォルマント合成パラメータの毎秒当たりのベクトル数を表す。好ましい実施例においては、ステップ７０６に示すように、反射係数は線スペクトル対（ＬＳＰ）フォーマットに変換される。このような変換を行う方法は関連技術分野においては周知である。
【００３８】
タイム・ベース変換器６０４は変換器６１０ＢからＬＳＰ係数を受信し、ステップ７０８に示すように、ＬＳＰ係数のタイム・ベースを入力ＣＥＬＰフォーマットのタイム・ベースから出力ＣＥＬＰフォーマットのタイム・ベースに変換する。タイム・ベース変換器６０４は補間器６２２およびデシメータ６２４を含む。入力ＣＥＬＰフォーマットのタイム・ベースが出力ＣＥＬＰフォーマットのタイム・ベースより低い（即ち、毎秒当たり少ない標本を用いる）ときは、ステップ９０２に示すように、補間器６２２は標本数を増やすために補間動作を実行する。入力ＣＥＬＰフォーマットのタイム・ベースが出力ＣＥＬＰフォーマットのタイム・ベースより高い（即ち、毎秒当たり多い標本を用いる）ときは、ステップ９０４に示すように、デシメータ６２４は標本数を低減するためにデシメーション動作を実行する。このような補間およびデシメーション動作は関連技術分野においては周知である。勿論、入力ＣＥＬＰフォーマットのタイム・ベースが出力ＣＥＬＰフォーマットのタイム・ベースと同じであれば、モデル順序変換は不要である。
【００３９】
フォルマント・フィルタ係数変換器６１０Ｃはタイム・ベース変換器６０４からタイム・ベース補正されたフォルマント・フィルタ係数を受信し、ステップ７１０に示すように、この係数を、出力フォルマント・フィルタ係数を生成するために、ＬＳＰフォーマットから出力ＣＥＬＰフォーマットに変換する。勿論、出力ＣＥＬＰフォーマットがＬＳＰフォーマットのフォルマント・フィルタ係数を用いていれば、この変換は不要である。量子化器６１１は変換器６１０Ｃから出力フォルマント・フィルタ係数を受信し、ステップ７１２に示すように、出力フォルマント・フィルタ係数を量子化する。
【００４０】
変換の第二段階においては、入力音声パケットのピッチおよびコードブックのパラメータ（また、“励振”パラメータとして引用される）は、ステップ５０４に示すように、入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換される。図１０は本発明の好ましい実施例にしたがって励振パラメータ変換器６３０の動作を示すフローチャートである。
【００４１】
図６を参照すると、音声合成器６０６は各入力音声パケットのピッチおよびコードブックのパラメータを受信する。音声合成器６０６は、ステップ１００２に示すように、フォルマント・パラメータ変換器６２０、および入力コードブックおよびピッチの励振パラメータにより生成された、出力フォルマント・フィルタ係数を用いて、“標的信号”として引用される、音声信号を生成する。そしてステップ１００４において、検索器６０８は、上述の、ＣＥＬＰ復号器１０６により用いられるものと同じ検索ルーチンを用いて出力コードブックおよびピッチのパラメータを得る。検索器６０８はこの出力パラメータを量子化する。
【００４２】
図１１は本発明の好ましい実施例にしたがって検索器６０８の動作を示すフローチャートである。この検索において、検索器６０８は、ステップ１１０４に示すように、候補信号を生成するためにフォルマント・パラメータ変換器６２０により生成された出力フォルマント・フィルタ係数と、音声合成器６０６および候補コードブックおよびピッチのパラメータにより生成された標的信号を使用する。検索器６０８は、ステップ１１０６に示すように、誤差信号を発生するため標的信号と候補信号を比較する。そしてステップ１１０８に示すように、検索器６０８は誤差信号を最小化するため候補コードブックおよびピッチのパラメータを変更する。誤差信号を最小化するピッチとコードブックの組み合わせは出力励振パラメータとして選択される。これらの処理方法は以下により詳細に述べる。
【００４３】
図１２は励振パラメータ変換器６３０をより詳細に示すものである。上に述べたように、励振パラメータ変換器６３０は音声合成器６０６および検索器６０８を含む。図１２を参照すると、音声合成器６０６はコードブック３０２Ａ、利得部３０４Ａ、ピッチ・フィルタ３０６Ａ、およびフォルマント・フィルタ３０８Ａを含む。音声合成器６０６は、復号器１０６について上に述べたように、励振パラメータおよびフォルマント・フィルタ係数に基づいて音声信号を生成する。特に、音声合成器６０６は入力励振パラメータおよび出力フォルマント・フィルタ係数を用いて標的信号ｓ_Ｔ（ｎ）を生成する。入力コードブック・インデックスＩ_Ｉはコードブック・ベクトルを生成するためにコードブック３０２Ａに適用される。コードブック・ベクトルは入力コードブック利得パラメータＧ_Ｉを用いて利得部３０４Ａにより定められる。ピッチ・フィルタ３０６Ａは定められたコードブック・ベクトル、および入力ピッチ利得とピッチ・ラグのパラメータｂ_ＩとＬ_Ｉを用いてピッチ信号を生成する。フォルマント・フィルタ３０８Ａはピッチ信号と、フォルマント・パラメータ変換器６２０により生成された出力フォルマント・フィルタ係数ａ_０１・・・ａ_０ｎとを用いて標的信号ｓ_Ｔを生成する。熟練者は、入力および出力励振パラメータのタイムベースが異なってもよいが、生成された励振信号は同じタイム・ベース（一実施例によれば、毎秒８０００励振標本）であることを認めるであろう。かくして、励振パラメータのタイム・ベース補間はこの処理においては本質的なものである。
【００４４】
検索器６０８は第二の音声合成器、集計器１２０２、および最小化部１２１６を含む。第二の音声合成器はコードブック３０２Ｂ、利得部３０４Ｂ、ピッチ・フィルタ３０６Ｂ、およびフォルマント・フィルタ３０８Ｂを含む。第二の音声合成器は、復号器１０６について上に述べたように、励振パラメータおよびフォルマント・フィルタ係数に基づいて音声信号を生成する。
【００４５】
特に、音声合成器６０６は候補励振パラメータおよびフォルマント・パラメータ変換器６２０により生成された出力フォルマント・フィルタ係数を用いて標的信号ｓ_Ｇ（ｎ）を生成する。推定コードブック・インデックスＩ_Ｇはコードブック・ベクトルを生成するためにコードブック３０２Ｂに適用される。コードブック・ベクトルは入力コードブック利得パラメータＧ_Ｇを用いて利得部３０４Ｂにより定められる。ピッチ・フィルタ３０６Ｂは定められたコードブック・ベクトル、および入力ピッチ利得とピッチ・ラグのパラメータｂ_ＧとＬ_Ｇを用いてピッチ信号を生成する。フォルマント・フィルタ３０８Ｂはピッチ信号と、出力フォルマント・フィルタ係数ａ_０１・・・ａ_０ｎとを用いて推定信号ｓ_Ｇ（ｎ）を生成する。
【００４６】
検索器６０８は候補および標的信号を比較して誤差信号ｒ（ｎ）を生成する。好ましい実施例においては、標的信号ｓ_Ｔ（ｎ）は集計器１２０２の和入力に与えられ、推定信号ｓ_Ｇ（ｎ）は集計器１２０２の差入力に与えられる。集計器１２０２の出力は誤差信号ｒ（ｎ）である。
【００４７】
誤差信号ｒ（ｎ）は最小化部１２１６に供給される。最小化部１２１６はコードブックおよびピッチのパラメータの種々の組み合わせを選択し、ＣＥＬＰ符号器１０２の最小化器４１６について上述したものと類似の仕方で誤差信号ｒ（ｎ）を最小化する組み合わせを決定する。この検索から生じるコードブックおよびピッチのパラメータは量子化され、出力ＣＥＬＰフォーマットにて音声パケットを生成するためにパケット変換器６００のフォルマント・パラメータ変換器により生成され、そして量子化されるフォルマント・フィルタ係数とともに使用される。
【００４８】
好ましい実施例の前述の記載は、この技術分野に熟達する者が本発明をなし、または利用することを可能ならしむるものである。これらの実施例に対する種々の変更はこの技術分野に熟達する者には直ちに明白であり、この中で限定されている一般原理は発明能力を用いることなく別の実施例に適用が可能である。かくして、本発明はこの中に示されている実施例に限定されるものではなく、ここに開示されている原理および新規な特徴と両立する広い範囲に合致するものである。
【図面の簡単な説明】
【図１】音声をディジタル符号化し、伝送しおよび復号するためのシステムのブロック図である。
【図２】入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換するためのタンデム符号化システムのブロック図である。
【図３】ＣＥＬＰ復号器のブロック図である。
【図４】ＣＥＬＰ符号器のブロック図である。
【図５】本発明の実施例によるＣＥＬＰボコーダからＣＥＬＰボコーダへのパッケット変換方法を示すフローチャートである。
【図６】本発明の実施例によるＣＥＬＰボコーダからＣＥＬＰボコーダへのパッケット変換器を示す図である。
【図７】本発明の実施例によるフォルマント・パラメータ変換器の動作を示すフローチャートである。
【図８】本発明の実施例によるフォルマント・パラメータ変換器の動作を示すフローチャートである。
【図９】本発明の実施例によるフォルマント・パラメータ変換器の動作を示すフローチャートである。
【図１０】本発明の実施例による励振パラメータ変換器の動作を示すフローチャートである。
【図１１】検索器の動作を示すフローチャートである。
【図１２】励振パラメータ変換器をさらに詳細に示す図である。
【符号の説明】
１００…システム１０２…ＣＥＬＰ符号器１０４…通信路１０６…ＣＥＬＰ復号器２００…タンデム符号化システム２０２…ＣＥＬＰフォーマット符号器２０６…ＣＥＬＰフォーマット復号器３０２…コードブック３０４…コードブック利得部３０６…ピッチ・フィルタ３０８…フォルマント・フィルタ３１０…後フィルタ４１２…ＬＰＣ発生器４１４…集計器４１６…最小化部６００…パケット変換器６０２…モデル順序変換器６０４…タイム・ベース変換器６０６…音声合成器６０８…検索器６１０Ａ．Ｂ．Ｃ…フォルマント・フィルタ係数変換器６１１…量子化器６１２…補間器６１４…デシメータ６２０…フォルマント・パラメータ変換器６２２…補間器６２４…デシメータ６３０…励振パラメータ変換器１２０２…集計器１２１６…最小化部

Claims

圧縮された音声パケットをある符号励振型線形予測（ＣＥＬＰ）フォーマットから別の符号励振型線形予測フォーマットに変換する装置であって、
出力フォルマント・フィルタ係数を生成するために、入力ＣＥＬＰフォーマットを有し、音声パケットに対応する入力フォルマント・フィルタ係数を出力ＣＥＬＰフォーマットに変換するフォルマント・パラメータ変換器；および
出力ピッチおよびコードブックのパラメータを生成するため、入力ＣＥＬＰフォーマットを有し、前記音声パケットに対応する入力ピッチおよびコードブックのパラメータを前記出力ＣＥＬＰフォーマットに変換する励振パラメータ変換器を含み、
なお、前記フォルマント・パラメータ変換器は：
前記入力フォルマント・フィルタ係数のモデル順序を前記入力ＣＥＬＰフォーマットのモデル順序から前記出力ＣＥＬＰフォーマットのモデル順序に変換するモデル順序変換器；および
前記入力フォルマント・フィルタ係数のタイム・ベースを前記入力ＣＥＬＰフォーマットのタイム・ベースから前記出力ＣＥＬＰフォーマットのタイム・ベースに変換するタイム・ベース変換器を含む、
前記励振パラメータ変換器は：
前記入力ピッチおよびコードブックのパラメータおよび前記出力フォルマント・フィルタ係数を用いて標的信号を生成する音声合成器；および
前記標的信号および前記出力フォルマント・フィルタ係数を用いて前記出力コードブックおよびピッチのパラメータのために検索を行う検索器を含む、装置。
前記検索器が：
推定励振パラメータおよび前記出力フォルマント・フィルタ係数を用いて推定信号を生成するさらなる音声合成器；
前記推定信号および前記標的信号に基づいて誤差信号を生成する結合器；および
前記誤差信号を最小化するため前記推定励振パラメータを変更する最小化部
を含む請求項１の装置。
前記モデル順序変換器がさらに：
第三の係数を生成するために前記音声合成器による使用に先立って前記入力フォルマント・フィルタ係数を第三のＣＥＬＰフォーマットに変換するフォルマント・フィルタ係数変換器を含む請求項１の装置。
前記モデル順序変換器がさらに：
前記入力ＣＥＬＰフォーマットの前記モデル順序が前記出力ＣＥＬＰフォーマットの前記モデル順序より小さいとき、順序補正係数を生成するため前記第三の係数を補間する補間器；および
前記入力ＣＥＬＰフォーマットの前記モデル順序が前記出力ＣＥＬＰフォーマットの前記モデル順序より大きいとき、前記順序補正係数を生成するため第三の係数を十分の一にするデシメータを含む請求項３の装置。
前記音声合成器が：
コードブック・ベクトルを生成するため前記入力コードブック・パラメータを使用するコードブック；
ピッチ信号を生成するため前記入力ピッチ・フィルタ・パラメータおよび前記コードブック・ベクトルを用いるピッチ・フィルタ；および
前記標的信号を生成するため前記出力フォルマント・フィルタ係数と前記ピッチ信号を用いるフォルマント・フィルタを含む請求項１の装置。
前記推定励振パラメータが推定ピッチ・フィルタ・パラメータおよび推定コードブック・パラメータを含み、前記さらなる音声合成器が：
さらなるコードブック・ベクトルを生成するため、前記推定コードブック・パラメータを使用するさらなるコードブック；
さらなるピッチ信号を生成するため、前記推定ピッチ・フィルタ・パラメータおよび前記さらなるコードブック・ベクトルを用いるピッチ・フィルタ；および
前記推定信号を生成するため、前記出力フォルマント・フィルタ係数と前記さらなるピッチ信号を用いるフォルマント・フィルタを含む請求項２の装置。
前記タイム・ベース変換器による使用の前に、前記入力フォルマント・フィルタ係数を第四のＣＥＬＰフォーマットに変換する第一のフォルマント・フィルタ係数変換器をさらに含む請求項１の装置。
前記タイム・ベース変換器の出力を前記第四のＣＥＬＰフォーマットから前記出力ＣＥＬＰフォーマットに変換する第二のフォルマント・フィルタ係数変換器をさらに含む請求項１の装置。
前記第三のＣＥＬＰフォーマットが反射係数ＣＥＬＰフォーマットである請求項３の装置。
前記第四のＣＥＬＰフォーマットが線スペクトル対ＣＥＬＰフォーマットである請求項７の装置。
圧縮された音声パケットをある符号励振型線形予測（ＣＥＬＰ）フォーマットから別の符号励振型線形予測フォーマットに変換する方法であって：
（ａ）フォルマント・パラメータ変換器が出力フォルマント・フィルタ係数を生成するために、音声パケットに対応する入力フォルマント・フィルタ係数を入力ＣＥＬＰフォーマットから出力ＣＥＬＰフォーマットに変換し；および
（ｂ）励振パラメータ変換器が出力ピッチおよびコードブックのパラメータを生成するため、前記音声パケットに対応する入力ピッチおよびコードブックのパラメータを前記入力ＣＥＬＰフォーマットから前記出力ＣＥＬＰフォーマットに変換するステップを含み；ステップ（ｂ）が：
(i)音声合成器が標的信号を生成するため前記入力ＣＥＬＰフォーマット中の前記入力ピッチおよびコードブックのパラメータおよび前記出力フォルマント・フィルタ係数を用いて音声を合成し；および
(ii)検索器が前記標的信号および前記出力フォルマント・フィルタ係数を用いて前記出力ピッチおよびコードブックのパラメータについて検索を行うことを含む方法。
ステップ（ａ）が：
（i）モデル順序変換器が前記入力フォルマント・フィルタ係数のモデル順序を前記入力ＣＥＬＰフォーマットのモデル順序から前記出力ＣＥＬＰフォーマットのモデル順序に変換し；および
（ii）タイム・ベース変換器が前記入力フォルマント・フィルタ係数のタイム・ベースを前記入力ＣＥＬＰフォーマットのタイム・ベースから前記出力ＣＥＬＰフォーマットのタイム・ベースに変換するステップを含む請求項１１の方法。
ステップ（i）が：
前記モデル順序変換器は、第三の係数を生成するために、前記入力フォルマント・フィルタ係数を前記入力ＣＥＬＰフォーマットから第三のＣＥＬＰフォーマットに変換し；および
前記モデル順序変換器は、順序補正係数を生成するために、前記第三の係数のモデル順序を前記入力ＣＥＬＰフォーマットのモデル順序から前記出力ＣＥＬＰフォーマットのモデル順序に変換するステップを含む請求項１２の方法。
ステップ（ii）が：
前記タイム・ベース検索器は、第四の係数を生成するために、前記順序補正係数を第四のフォーマットに変換し；
前記タイム・ベース検索器は、タイム・ベース補正係数を生成するために、前記第四の係数のタイム・ベースを前記入力ＣＥＬＰフォーマットのタイム・ベースから前記出力ＣＥＬＰフォーマットのタイム・ベースに変換し；および
前記タイム・ベース検索器は、前記出力フォルマント・フィルタ係数を生成するために、前記タイム・ベース補正係数を前記第四のフォーマットから前記出力ＣＥＬＰフォーマットに変換するステップを含む請求項１３の方法。
前記検索ステップ(ii)が：
前記検索器は、推定コードブックおよびピッチのパラメータおよび前記出力フォルマント・フィルタ係数を用いて推定信号を生成し；
前記検索器は、前記推定信号および前記標的信号に基づいて誤差信号を生成し；および
前記検索器は、前記誤差信号を最小化するため前記推定コードブックおよびピッチのパラメータを変更するステップを含む請求項１１の方法。
ステップ（i）はさらに：
前記モデル順序変換器内の補間器は、前記入力ＣＥＬＰフォーマットの前記モデル順序が前記出力ＣＥＬＰフォーマットの前記モデル順序より小さいとき、前記順序補正係数を生成するため前記第三の係数を補間し；および
前記モデル順序変換器内のデシメータは、前記入力ＣＥＬＰフォーマットの前記モデル順序が前記出力ＣＥＬＰフォーマットの前記モデル順序より大きいとき、前記順序補正係数を生成するため前記第三の係数を十分の一にするステップを含む請求項１４の方法。
前記モデル順序変換器の前記第三のＣＥＬＰフォーマットが反射係数ＣＥＬＰフォーマットである請求項１３の方法。
前記タイム・ベース変換器の前記第四のＣＥＬＰフォーマットが線スペクトル対ＣＥＬＰフォーマットである請求項１４の方法。