JPH05502517A

JPH05502517A - 最適化された信号エネルギパラメータを有するデジタル音声コーダ

Info

Publication number: JPH05502517A
Application number: JP2514552A
Authority: JP
Inventors: ジャーソン・イラ　アラン; ジャシウク・マーク　アントニ
Original assignee: モトローラ・インコーポレーテッド
Priority date: 1989-10-17
Filing date: 1990-10-09
Publication date: 1993-04-28
Also published as: EP0570365A1; US5490230A; EP0570365A4; AU652348B2; KR920704266A; WO1991006943A3; IL95753A; KR950013371B1; BR9007751A; CA2065731A1; NZ235702A; CN1051099A; CN1097816C; CA2065731C; AU6603190A; IL95753A0; WO1991006943A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】最適化された信号エネルギパラメータを有するデジタル音声コーグ技術分野この発明は、一般的には音声コーグに関し、かつより詳細にはゲイン修正可能な音声表現要素を用いるデジタル音声コーグに関する。

発明の背景音声コーグが技術上知られている。いくっがの音声コーグはアナログ音声サンプルをデジタル化表現に変換し、かつその後リニア予測符号化（ｌｉｎｅａｒ　ｐｒｅｄｉｃｔｉｖｅ　ｃｏｄｉｎｇ）を用いてスペクトル音声情報を表現する。

他の音声コーグは通常のリニア予測符号化技術に対し元の音声信号に関係する励起信号（ｅｘｃｉｔａｔｉｏｎ　ｓｉｇｎａｌ）を提供することにより改善を行う。

米国特許第４．８１７．１５７号は改良されたベクトル励起源を有するデジタル音声コーグを開示しており、該音声コーグにおいてはコードブック励起ベクトルのコードブックがアクセスされて利用可能な情報に最も適合するコードブック励起信号を選択し、かつ元の信号をより忠実に表現する復元音声信号を提供するために使用される。そのようなシステムにおいては、ピッチ励起情報およびコードブック励起情報が出力されかつ組合わされて複合信号を発生しこれは次に復元音声情報を８カするために使用される。

これらの信号を組合わせる前に、ゲインファクタが各々に適用され、各々の信号に関連するエネルギ量がこれらの構成部分によって表現される元の音声成分と関連するエネルギ量を表すようにする。

音声コーグは適切なピッチ励起およびコードブック励起情報を決定する時に適切なゲインファクタを決定し、かつこれらすべての要素に関する符号化情報は次にデコーダに提供されて元の音声情報の再構成を可能にする。一般に、従来技術の音声コーグはこのゲインファクタ情報をデコーダにディスクリート形式で提供していた。これは該情報を別個の識別可能なパケットで、あるいは（ベトクル量子化のような）他の形式で送信することにより達成され、送信の目的で組合わされるが、依然として実効的には互いに独立である。

従来技術の音声符号化技術はかなりの改善の余地を残している。上に述べたゲインファクタ送信方法はエラー保護を収容するためにかなりの量の送信媒体容量を必要とする（さもなければ、送信の間に生ずるエラーがゲイン情報を汚染し、かつこれが極めて望ましくない不正確な音声再生結果を生じ得る）。

従って、ゲインファクタ情報に対する増強された保護を同時に提供しながら、送信媒体に対する需要を低減する音声コーディングの方法の必要性が存在する。

発明の概要この必要性および他のものはここに開示された音声符号化方法の装置により実質的に満たされる。この音声符号化方法は、音声サンプルを表す第１の成分に対するゲインに関係する第１のゲイン値、およびその音声サンプルの第２の成分に対するゲインに関係する第２のゲイン値を含む、ゲイン情報を生成する結果となる。この方法によれば、これらのゲイン値は処理されて前記サンプルに対する総合的なエネルギ値に関係する第１のパラメータ、および前記サンプルに対する総合的なエネルギ値に対する第１および第２のゲイン値の内の少なくとも１つの相対的な寄与に、少なくとも部分的に、基づく第２のパラメータを提供する。

第１および第２のパラメータに関する情報は次にデコーダに送信される。

本発明の１つの実施例においては、前記ゲイン情報は少なくとも前記サンプルの第３の成分に対するゲインに関係する第３のゲイン値を含むことができる。該ゲイン値の処理は次に全体のエネルギ値に対する前記第１、第２、および、第３のゲイン値の内の異なる１つの相対的な寄与に、少なくとも部分的に、基づく第３のパラメータを生成する。

本発明の１つの実施例においては、前記第１および第２のパラメータ（そして、もしあれば、第３のパラメータ）がベクトル量子化されてコードを提供する。このコードは次にデコーダに送信される情報を構成する。

本発明の他の態様においては、コーグによって出力されるゲイン情報は音声信号に対するロングタームのエネルギ値（たとえば、音声情報の複数のサンプルまたは単一の所定のフレームに関するエネルギ値）に関係する第１の値、および信号のショートタームのエネルギ値（たとえば、所定のフレームの一部を構成する単一サンプルまたはサブフレーム）に関係する第２の値を含み、前記第２の値は特定のサンプルまたはサブフレームとともに使用するために第１の値を調整するため前記第１の値に適用できる訂正ファクタを構成する。前記第１の値は第１のレートでコーグからデコーダに送信され、かつ前記第２の値は第２のレートで送信され、この場合第２のレートは第１のレートよりもより頻繁である。このように構成することにより、より重要な情報（ロングタームのエネルギ値）がより小さな頻度で送信され、かつ従って送信媒体の容量に不当な影響を与えることなく比較的高度に保護された形式で送信できる。

より重要でない情報（ショートタームのエネルギ値）はより頻繁に送信されるが、それらは信号の再構成にとってより重要でないから、より大きな保護が必要でなくかつ従って送信媒体の容量に対する影響も同様に最小化される。

本発明の他の実施例においては、音声コーグ／デコーダのプラットフォームが無線機に配置される。

図面の簡単な説明第１図は、本発明に従って構成された励起源のブロック図である。

第２図は、本発明に従って構成された無線機のブロック図である。

発明を実施するための最良の形態１９８９年３月２８日に、ｌｒａ　Ｇｅｒｓｏｎに発行された、「改良されたベクトル励起源を有するデジタル音声コーグ」と題する、米国特許第４．８１７．１５７号は、コードブック励起コードベクトルのコードブックを含むベクトル励起源を使用するデジタル音声コーグを非常に詳細に説明している。

この発明はモトローラのＤＳＰ５６０００ファミリ装置のような適切なデジタル信号プロセッサを使用する音声コーグ（またはデコーダ）において実施することができる。

そのようなりＳＰの実施例のコンピュータ的な機能がブロック図等価回路として第１図に示されている。

ピッチ励起フィルタ状態（１０２）は中間ピッチ励起ベクトルを構成するピッチ励起信号を提供する。乗算器（１０６）はこのピッチ励起ベクトルを受信しかつゲイン（ＧＡＩＮ）１のスケールファクタを適用する。適切に構成された時、結果として得られる尺度変更された（ｓｃａｌｅｄ）ピッチ励起ベクトルは元の音声情報におけるピッチ情報のエネルギに対応するエネルギを有する。もし適性に構成されなければ、もちろん、ピッチ情報のエネルギは元のサンプルと異なり、かなりのエネルギの差異は結果として得られる再生された音声サンプルのかなりのひずみにつながり得る。

第１のコードブック（１０３）は１組の基本ベクトルを含み、これらはリニアに組合わされて複数の出力励起信号を形成する。コーグは一般にこれらのコードブック励起源のうち元の音声情報の対応する成分を最もよく表すものはどれでも選択する。デコーダは、もちろん、音声信号を再構成するためにコーグによって識別されるコードブック励起源はどれでも使用する。（ピッチ励起信号およびコードブック選択は、もちろん、処理されているサンプルに対する対応する成分の規定において識別される。）ピッチ励起情報についてと同様に、乗算器（１０７）はコードブック励起情報を受信しかつゲイン（ＧＡＩＮ）２をスケールファクタとして適用する。ゲイン２の適用はコードブック励起信号のエネルギを適切にスケーリングしてこの音声情報成分と一致する元の信号における実際のエネルギと対応させる。

もし必要であれば、この手法の特定の用途においては付加的な励起信号を含む付加的なコードブック（１０４）を用いることができる。これらの付加的なコードブックはまた適切なスケーリングファクタ（ゲイン（ＧＡＩＮ）３のような）を用いて適切な乗算器（１０８）によりスケーリングされ上にその概略を述べたのと同じ目的を達成する。

一旦与えられかつ適切にスケーリングされると、ピッチ励起およびコードブック励起情報は加算され（１０９）およびＬＰＧフィルタに提供されて出力音声信号を生成する。

コーグにおいては、この出力（ｒｅｓｕｌｔａｎｔ）信号は元の信号と比較され、かつこの処理が他のコードブック内容とともに繰返されて、元の信号に最もよく対応する出力信号を提供する励起源を識別する。ピッチおよびコードブック情報は次に符号化されかつ選択された送信媒体によってデコーダに送信される。デコーダにおいては、この出力信号はさらに処理されて前記デジタル情報を可聴形式にし、それにより音声信号の再構成を完了する。

本発明のこの実施例をコーグの見地から説明する前に、デコード処理を最初に説明することが有用であろう。

ゲイン制御（１０１）機能はゲイン１およびゲイン２情報（かつ、適切な用途においては、同様にゲイン３情報）を提供する。このゲイン情報は復元されたピッチ励起およびコードブック励起信号の実際のエネルギ、コーグによって提供されるロングタームのエネルギ値、およびロングタームのエネルギ値に対するショートタームの訂正値を供給するコーグによって与えられるゲインベクトルの関数として提供される。

ピッチ励起フィルタ状態部（１０２）およびコードブック（単数または複数）（１０３および１０４）（すなわち、プリコンポーネント）から出力されるピッチ励起およびコードブック励起信号のエネルギは容易にゲイン制御（１０１）によって決定できる。一般に、２つ（または３つ）の信号の間で分割されかつ総計で見られる、これらの信号のエネルギは元の信号のエネルギを適切に反映しないであろう。このエネルギ情報は従って必要とされるエネルギ修正量を決定するために知ることが必要である。このエネルギ修正はゲイン１およびゲイン２（もし適用可能であればゲイン３）を調整することにより達成される。この修正はサブフレームごとのベースで行われる。

デコーダにおけるピッチ励起およびコードブック励起信号のエネルギを計算するこのプロセスは重要な利点を提供する。特に、ピッチ励起信号の不適切なエネルギを生ずる結果となる前の送信エラーがデコーダにおけるピッチ励起のエネルギを排他的に計算することにより補償される。

この説明のために元の音声サンプル（または少なくとも゛　その一部）がデジタル化され、かつ結果として得られるデジタル情報が必要に応じてデータのフレームおよびサブフレームに分割されるものと想定し、これらはよく理解された従来技術に従って行われる。この説明においては、各フレームは４つのサブフレームからなるものと仮定する。このように構成することにより、ロングタームのエネルギ値は一般に単一フレームを表すエネルギ値となり、かつショートタームの修正値は単一のサブフレームに対応する修正ファクタを構成する。特定のサブフレームに関する概算の残留エネルギ（Ｅ　Ｅ）は一般に次の式によって決定できる。

ＥＥ＝Ｅ　（０）／　（（フィルタ電力ゲイン）（Ｎ　５ＵＢＳ））この場合、Ｅ（０）＝合計フレームに対する量子化されたロングターム信号エネルギ、かつ「フィルタ電力ゲイン」は、技術上よく理解されているように、フィルタにより課されるエネルギの増大に対応するＬＰＧフィルタ情報から計算でき、そしてＮ　５ＵＢＳはフレームごとのサブフレームの数である。

ゲイン１はまた次のようにして計算できる。

この場合、α−第１のベクトルパラメータ、β＝第２のベクトルパラメータ、そしてＥ　（０）＝重み付けされていないピッチェネルギ情報である。

αおよびβに関する詳細はコーディング機能を説明する場合に以下に述べる。Ｅ　（０）はピッチ励起フィルタ状態（１０２）により出力される信号のエネルギを構成する。

Ｅ　（０）は従って乗算器（１０６）を介して与えられるゲイン１の値によってスケーリングされる前のピッチ励起ベクトルに対するエネルギである。Ａの分母におけるＥｘ（０）は重み付けされないピッチ励起ベクトルにおけるエネルギを単位値（ｕｎｉｔｙ）に正規化し、一方Ａの分子は所望のエネルギをピッチ励起ベクトルに課する。分子においては、項ＥＥ（ロングターム信号エネルギに基づくサブフレームの残留エネルギの評価値）はαによってスケーリングされ励起信号におけるショートタームのエネルギと整合し、βはピッチ励起ベクトルによる組合わされた励起信号におけるエネルギの部分（ｆｒａｃｔｉｏｎ）を特定する。最後に、このような表現の平方根を取ることによりゲインを得る。

同様にして、ゲイン２は次のように計算できる。

αおよびβは上に述べたのと同じである。Ｅｘ（１）は第１のコードブック（１１１）から実際に出力されるエネルギに対応する重み付けされないコードブック励起情報を構成する。

ゲイン１およびゲイン２が上で決定されたように計算されると、ピッチ励起およびコードブック励起情報が適切に、共に互いに対するそれらの値に関し、かつ加算機能（１０９）の出力において与えられる複合結果として、適切にスケーリングされ、それにより信号の適切に復元された成分を提供する。１つまたそれ以上の付加的な励起コードブック（１０４）を使用するデコーダにおいては、付加的なスケールファクタ（たとえば、ゲイン３）は同様に決定できる。　本発明のコーグの実施例を次に説明する。

前に述べたように、量子化信号エネルギ値Ｅ　（０）はデジタル化された音声サンプルの完全なフレームに対して計算できる。この値はコーグからデコーダに適切に時々送信されデコーダにこの情報を提供する。この情報は、しかしながら、各々のサブフレームの情報とともに送信する必要はない。従って、このロングタームの情報はより頻繁でなくして送信することができ、この情報はエラーコーディングその他により比較的よく保護できる。これはより多くの送信容量を必要とするが、容量に対する全体的な影響はこの情報の比較的頻繁でない送信のために比較的良性のものである。

前にも述べたように、１つのフレームに関するロングタームのエネルギ情報はそのサブフレームにおけるエネルギをよりよく表すために各々の特定のサブフレームに対し修正されなければならない。この修正（ｍｏｄ　ｉ　ｆ　ｉ　ｃａ　ｔｔｏｎ）は、部分的には、ショートターム修正パラメータ、αの関数として行われる。

コーグはこれらのパラメータαおよびβを、次に、コーグにおいて出力されるピッチ励起およびコードブック励起情報信号のエネルギ内容の関数として出力する。特に、αはそれによってロングター、ムのエネルギ情報がスケーリングされて特定のサブフレームにおけるピッチ励起情報エネルギ、コードブック１励起、およびコードブック２励起の和を生成するスケールファクタを構成する。しかしながら、βは比率を構成し、この実施例では、βは問題のサブフレームに対するピッチ励起情報エネルギのピッチ励起情報、コードブック１、およびコードブック２励起に帰することができるエネルギの和に対する比率を構成する。同様にして、かつ第２のコードブックの存在を再び仮定すると、第３のパラメータπは第１のフードブックエネルギのエネルギのピッチ励起情報、コードブック１、およびコードブック２励起に帰することができるエネルギの和に対する比率を表すことができる。

このように処理することにより、第１のパラメータαは信号サンプルに対する全体のエネルギ値に関係し、かつ第２の（かつもし用いられておれば第３の）パラメータβは、少なくとも部分的に、全体のエネルギ値に対する励起信号の１つの相対的な寄与に関係する。従って、ある程度まで、パラメータα、βおよびπは互いに相関している。この相関関係はこのコーディングおよびデコーディング方法の性能およびエンコーディングの効率の改善に貢献する。

この実施例においては、コーグは実際には３つのパラメータα、βおよびπをデコーダに送信しない。その代り、これらのパラメータはベクトル量子化され、かつその結果を識別する代表的なコードがデコーダに送信される。コーグは元のベクトルを正確にエミュレートするベクトルを表すコードを送信できないであろうから、幾っがのエラーがこの点における表現に導入される。そのようなエラーの影響を最小にするために、コーグはそれにとって入手可能な各々のかつすべてのベクトルコードに対するエラー（ＥＲＲＯＲ）値を計算し、かつ最小のエラーを生ずるベクトルコードを選択する。（ここで例示のために単一のコードブックのフープを想定して、αおよびβに対する関係値を生成する）各々のベクトルコードに対し、このエラー値は次のように計算できる。

＋ψα（β（１−β））１／２＋にαβ＋λα（１−β）この場合、に＝ＥＥ−Ｅ　（０，０）／（Ｅ　（０））ＣＣｚ λ＝ＥＥ−Ｅ　（１，１）／　（Ｅ　（１））ＣＣｇ上の各式において、Ｅ　は理想的な信号におけるサブフ■ レームのエネルギを表す。従って、選択された代表的なパラメータが元のパラメータに近ければ近いほど、エラーは小さくなる。Ｅ　（０）は理想的な信号と重み付けられ　ｃたピッチ情報励起との間の訂正分を表す。Ｅ　（１）はｃ理想的な信号と重み付けられたコードブック励起との間の修正分を表す。Ｅ　（０，１）は重み付けられたピッチｃ情報励起と重み付けられたコードブック励起との間の修正分を表す。そして最後に、Ｅ　（０，０）は、重み付け　Ｃられたピッチ励起におけるエネルギを表し、かっＥ。。

（１，１）は重み付けられたコードブック励起におけるエネルギを表す。（重み付けられた励起は技術上知られているように知覚的重み付はフィルタによる処理の後の励起信号である。）最も小さなエラー値を生ずるベクトルコードが識別された時、そのベクトルコードは次にデコーダに送信される。

受信された時、デコーダは該ベクトルコードを用いてベクトルコードのデータベースにアクセスしかつそれによりα。

βおよびπ（もしあれば）のパラメータに対する値を復元し、これらのパラメータは次に上に述べたようにゲイン１、ゲイン２およびゲイン３（もし用いられておれば）を計算するために使用される。

この方法を用いることにより、数多くの重要な利点が得られる。たとえば、送信の間に比較的強く保護できる、ロングタームのエネルギ値は、ショートタームの修正ファクタ情報が失われあるいは汚染されていても、復元された音声情報がエネルギ情報の観点からほぼ適切に再構成または再現されることを保証する。デーコダにおけるピッチエネルギの計算、および補償はピッチ励起のエラーの伝搬を大幅に低減する。

さらに、α、β、およびπのパラメータによって表される元のゲイン情報の相互関係は情報のより大きな濃縮を可能にし、かつ同時にさらにこの情報の送信をサポートするための送信容量の要求を最小にする。その結果、この方法は送信容量の要求を同時に低減するとともに、改善された再構成音声結果を生み出す。

第２図においては、本発明を実施する無線機は音声符号化信号（２０１）を受信するためのアンテナ（２０２）を含む。ＲＦユニット（２０３）は受信信号を処理して音声符号化情報を復元する。この情報はパラメータデコーダ（２０４）に提供され該パラメータデコーダ（２０４）は種々の後続の処理のための制御パラメータを出力する。上に述べたような励起源（１００）がそれに与えられたパラメータを用いて励起信号を生成する。該励起源（１００）からのこの結果的に得られた励起信号はＬＰＧフィルタ（２０６）に提供され、該ＬＰＧフィルタ（２０６）は符号化情報に従って合成された音声信号を生成する。合成された音声信号は次にピッチポストフィルタ（２０７）でろ波され、かつスペクトル的ポストフィルタ（２０８）によりろ波されて再構成された音声の品質を向上させる。もし必要であれば、ポストエンファシスフィルタ（２０９）もまた含むことができ結果として得られる音声信号をさらに改善する。該音声信号は次にオーディオ処理ユニット（２１１）において処理されかつオーディオ変換器（２１２）により可聴的にされる。

国際調査報告 −ｖ−）１ｍ−＾”−ｋ　ｐｆｉ　ＩＴ　ｍ　ＩＴ　／　Ｉ’Ａ　＜’ｔ

Claims

【特許請求の範囲】

１．ある信号サンプルに対するゲイン情報に関係する情報を送信する方法であって、該ゲイン情報は、第１の成分に対するゲインに関係する第１のゲイン値、第２の成分に対するゲインに関係する少なくとも第２のゲイン値、を含み、前記方法は、Ａ）少なくとも前記信号サンプルを処理して、前記信号サンプルに対する全体的なエネルギ値に関係する第１のパラメータ、前記全体的なエネルギ値に対する前記第１および第２のゲイン値の内の少なくとも１つの相対的な寄与に、少なくとも部分的に、基づく第２のパラメータ、を提供する段階、Ｂ）前記第１および第２のパラメータに関係する情報を送信する段階、を具備することを特徴とするある信号サンプルに対するゲイン情報に関係する情報を送信する方法。
２．前記ゲイン情報は少なくとも第３の成分に対するゲインに関係する第３のゲイン値を含み、前記処理段階は前記全体的なエネルギ値に対する前記第１、第２および第３のゲイン値の内の異なる１つの相対的な寄与に、少なくとも部分的に、基づく第３のパラメータをさらに提供する段階を含み、前記情報を送信する段階は前記第３の成分に関係する情報の送信を含む、請求の範囲第１項に記載の方法。
３．前記処理段階は少なくとも前記第１のパラメータおよび第２のパラメータ情報をベクトル量子化しコードを発生する段階を含む請求の範囲第１項に記載の方法。
４．前記送信段階は前記コードを送信する段階を含む請求の範囲第３項に記載の方法。
５．さらに、時々、複数の信号サンプルに関係するロングタームのエネルギ値情報を送信する段階を含む請求の範囲第１項に記載の方法。
６．前記第１のパラメータはロングタームのエネルギ値情報に関係する修正ファクタを具備する請求の範囲第５項に記載の方法。
７．前記送信段階はさらに、Ｂ１）時々、前記第１の値に関係する情報を送信する段階、Ｂ２）前記時々よりはさらに頻繁に、前記第２の値に関係する情報を送信する段階、を具備する請求の範囲第１項に記載の方法。
８．ある信号の成分に対するゲイン情報に関係する情報を復元する方法であって、Ａ）前記信号の少なくとも１つの成分に対するエネルギに関係する少なくとも第１のパラメータを受信する段階、Ｂ）前記少なくとも１つの成分に対する成分規定情報を受信する段階、Ｃ）前記成分規定情報を処理して、エネルギ値を有する、プリコンポーネントを提供する段階、Ｄ）少なくとも前記第１のパラメータを使用しかつ、必要に応じて、前記プリコンポーネントのエネルギ値を修正し、前記信号の復元された成分を提供する段階、を具備することを特徴とするある信号の成分に対するゲイン情報に関係する情報を復元する方法。