JP4444749B2

JP4444749B2 - 減少レート、可変レートの音声分析合成を実行する方法及び装置

Info

Publication number: JP4444749B2
Application number: JP2004219254A
Authority: JP
Inventors: アンドリュー・ピー・デジャコ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1994-08-05
Filing date: 2004-07-27
Publication date: 2010-03-31
Anticipated expiration: 2015-08-01
Also published as: ZA956078B; DE69535723T2; FI120327B; EP1339044B1; FI961445A0; IL114819A0; WO1996004646A1; AU689628B2; BR9506307A; JP3611858B2; BR9506307B1; FI20070642A; MY137264A; JPH09503874A; CA2172062A1; KR100399648B1; US20010018650A1; AU3209595A; HK1015184A1; CN1144180C

Description

本発明は、通信に関する。具体的には、本発明は、斬新で且つ改良された線形予測（ＣＥＬＰ）符号化によって駆動された可変レート符号を実行する方法及び装置に関する。

デジタル技術による音声の伝送は、一般に普及しつつあり、特に、遠距離及びデジタル無線電話分野に普及している。これは、言い替えれば、チャネルを通じて送られてくる再構築された音声の感知される品質が保たれる最小限の情報量を決定するのに関心が持たれているということである。

もし、音声が、ただ単にサンプリング及びデジタル化によって伝送される場合には、毎秒６４キロビット（ｋｂｐｓ）程度のデータレートが、通常のアナログ電話の音声品質を達成するために必要とされる。しかしながら、音声解析の使用を通し、次に適切な符号化を行ない、伝送し、そして受信器において再合成することにより、データレートにおいて重要な低減を達成することができる。

音声を人間の音声生成のモデルに関連する抽出パラメータによって圧縮する技術を有する装置は、一般的にボコーダと呼ばれている。このような装置は、入ってくる音声を適切なパラメータを抽出するために解析する符号器と、伝送チャネルを介して受信するパラメータを使用することにより音声を再合成する復号器とから構成されている。正確であるためには、このモデルは常に変化していなければならない。このようなことから音声は、パラメータが計算されている間、時間のブロック或いは解析フレームに分割される。このパラメータは、次に、それぞれの新しいフレームのために更新される。

符号駆動線形予測符号化（ＣＥＬＰ）、確率的符号化或いはベクトル駆動音声符号化は、種々の種類の音声符号器のうちの１つである。この特殊な種類の符号化アルゴリズムの例は、ＴｈｏｍａｓＥ．Ｔｒｅｍａｉｎ等による１９８８年の移動衛星会議の会報の“４．８ｋｂｐｓ符号駆動線形予測符号器”の書類において述べられている。

ボコーダの機能は、デジタル化された音声信号を圧縮して、音声における本来の自然な冗長性の全てを除去することにより、低ビットレート信号にすることにある。一般的に、音声は、主に音声管のフィルタリング作用による短時間の冗長性及び、音声符号による音声管の励振による長期間の冗長性を有している。

ＣＥＬＰ符号器においては、これらの作用は、短期間ホルマントフィルタ及び長期間ピッチフィルタの２つのフィルタによってモデル化されている。
一度、これらの冗長性が取り除かれると、結果残余信号は白色ガウス雑音のようにモデル化され、また、符号化されなければならない。この技術の基礎は、人間の音声管モデルを使用した音声波形の短期間の予測を行なうＬＰＣフィルタと呼ばれるフィルタのパラメータを計算することにある。

加えて、音声のピッチに関連する長期間効果は、ピッチフイルタのパラメータの計算によってモデル化され、これは、本質的に人間の声帯を形に表わしている。
最後に、これらのフィルタは駆動される。この駆動は、波形が前に述べた２つのフィルタを駆動した時に、本来の音声に最も近いコードブックの結果における雑音駆動波形のうちの１つを決定することにより行なわれる。

このようなことから、転送パラメータは、（１）ＬＰＣフィルタ、（２）ピッチフィルタ及び（３）コードブック駆動の３つのパラメータに関連する。
音声分析合成技術のさらなる目的は、再構築される音声の品質を保ちながらチャネルを通じて送られてくる情報量を低減することを試みることにあるが、さらに低減を達成するためには他の技術が必要とされる。

情報送信量の低減に使用される以前の１つの技術は、音声活性ゲート動作である。この技術においては、音声の休止中の間、情報は伝送されない。この技術では、目的のデータ低減結果を達成することができるが、いくつかの欠陥に煩わされる。
多くのケースでは、単語の最初の部分の振幅制限によって、音声品質が低減される。非活性の間にチャネルをＯＦＦにするゲート動作の他の問題は、システムのユーザが、通常、音声に付随する背景雑音及びチャネルの品質レートが普通の電話呼び出しに比べて低くなってしまうことを感知してしまうことである。ゲート動作のさらなる問題は、背景において、時々発生する雑音が、音声が発生されていない時に送信器を作動してしまう場合があり、その結果、受信器において厄介な雑音のバーストとなる。

音声活性ゲートシステムにおいて合成された音声の品質を改善するために、合成された心地よい雑音が解読処理の間に加えられる。快適な雑音を加えることにより、品質についていくつかの改良が達成されるが、このことは、快適な雑音が、符号器において実際の背景雑音をモデルとしていないことから全体の品質についての大幅な改良ではない。

結果的に送信される必要のある情報を低減することに関するデータ圧縮を実現する好ましい技術は、可変レート音声分析合成を実施することである。音声は、本来、沈黙期間、すなわち、休止期間を含んでいるので、これらの期間を表わすために必要とされるデータ量は減らすことができる。

可変レート音声分析合成は、この事実をこれらの沈黙期間のためのデータレートの低減によって、最も効果的に活用する。
データ伝送における完全な停止とは対象的に、沈黙期間のデータレートにおける低減は、伝送された情報の低減を促進している間に音声活性ゲート動作に関連する問題を改善する。

ここに、参照のために引用され、本発明の譲受人に譲渡され、１９９３年１月１４日に出願された米国特許出願第０８／０４，４８４号（１９９５年５月９日発行、米国特許第５，４１４，７９６号）明細書の“可変レートボコーダ”に、ここで述べた種類の音声符号器の音声分析合成アルゴリズム、符号駆動線形予測音声符号化（ＣＥＬＰ）、確率的符号化或いはベクトル駆動音声符号化の詳細が述べられている。

このＣＥＬＰ技術は、それ自身が、ある意味で音声を表わすために必要とされるデータ量の効果的な低減を提供し、結果的に高品質の音声となる再合成を行なう。前に述べたボコーダのパラメータは、それぞれのフレームにおいて更新される。係属中の特許出願に詳しく述べられているこのボコーダは、周波数変化による可変出力データレート及びモデルパラメータの精度を提供する。

上述の特許出願の音声分析合成アルゴリズムは、音声の活性を基にした可変出力データレートの生成による従来のＣＥＬＰ技術と全く異なっている。この構成においては、音声の休止期間中に、パラメータが度々より少なく或いは低い精度で更新されるために定義される。この技術は、伝送されるべき情報量を大幅に低減することさえも可能にする。このデータレートを低減するために活用される現象は、音声活性要素であり、この音声活性要素は、会話の間中、話者が実際に話をしていることにより与えられる時間の平均レートである。典型的な、双方向の電話通話の平均データレートは、２倍以上低減される。音声における休止の間中、背景雑音のみがボコーダによって符号化されている。このような時においては、人間の音声管モデルに関連するいくつかのパラメータは、伝送される必要がない。

前に述べた従来の沈黙の間の伝送された情報量を制限することの取り組みは、音声活性ゲート動作と呼ばれており、この技術においては、沈黙の瞬間の間には、情報は伝送されない。
受信器側においては、この期間は合成された“快適雑音”で満たされている。反対に、可変レートボコーダは、連続的にデータを送信しており、係属している出願の例示的な実施の形態における可変レートボコーダのレートの範囲は、ほぼ８ｋｂｐｓと１ｋｂｐｓとの間である。データの連続伝送を行なうボコーダは、合成された“快適な雑音”の必要性を背景雑音の符号化とともに除去し、より自然な品質を合成された音声に提供する。従って、前に述べた特許出願の発明は、合成された音声品質における効果的な改良を提供し、これは、音声と背景との間の円滑な遷移を可能にすることによる音声活性ゲート動作である。

上述の特許出願の音声分析合成アルゴリズムは、音声における小休止を検出することが可能であり、その結果、有効な音声活性要素の減少を認識することができる。レート決定は、ハングオーバのないフレーム毎になされ、データレートは、一般的な２０ｍｓｅｃのフレーム継続時間の短さと同様に、音声における休止のために低くされる。従って、このような音節の間の休止が捕らえられる。句の間の長期間の休止だけではなく、短い休止も低いレートで符号化されることができるのと同様に、この技術は、伝統的に認識されているものにはできない音声活性要素の低減を行なう。

レート決定は、フレームを基礎として行なわれるので、音声活性ゲート動作システムのように、単語の最初の部分の振幅制限はない。音声の検出とデータの再転送との間の遅れのために、音声活性ゲート動作システムにおいて、この種の振幅制限が起こる。それぞれのフレームを基礎にしたレート決定の使用は、結果的に、全ての遷移が自然な音を有する音声となる。

ボコーダは、いつも伝送を行なっているので、話者の周囲の背景雑音は、連続的に受信端で聞こえており、その結果、音声の休止の間、より自然な音がもたらされる。本発明は、このような円滑な遷移に背景雑音を与える。
受話者に聞える話をしている間の背景は、音声活性ゲート動作システムにおける休止の間の合成された快適な雑音への突然の変化ではない。背景雑音は、伝送のために常に音声分析合成されているので、背景における興味ある出来事が全く明瞭に送信される。確かなケースにおいては、興味ある背景雑音までも高いレートで符号化される。

たとえば、誰かが背景において大きな声で話しているとき時、或いは街角に立っているユーザの近くで救急車を運転している場合には、最大レートで符号化が行なわれる。
しかしながら、一定の或いはゆっくりした変化の背景雑音は、遅いレートで符号化される。

可変レート音声分析合成の使用には、符号分割多重接続（ＣＤＭＡ）を基礎としたデジタルセルラー電話システムの容量を２倍以上増加する見込みがある。ＣＤＭＡ及び可変レート音声分析合成は、一義的に合わせられ、ＣＤＭＡにおいては、チャネル間の干渉は、いくつかのチャネルを減少させるデータ伝送レートのように、自動的に低下する。

反対に、ＴＤＭＡ或いはＦＤＭＡ等が考慮されたシステムにおいては、伝送スロットが割り当てられている。このようなシステムを採用することには、データ転送のレートをいくらか低下させることができるという利点があり、外部の発明が必要としない使用していないスロットの他のユーザヘの再割り付けの調和のために必要とされる。

このような方式における本質的な遅れは、長期の音声休止の間にのみチャネルが再割り付けされることを黙示している。従って、音声活性要素の全ての利点を得ることができない。しかしながら、外部の調和により、可変レート音声分析合成が、他に述べた理由により、システムにおいてはＣＤＭＡよりも有用である。

ＣＤＭＡシステムにおける音声品質は、特別なシステムの能力が要求されたときに、時々わずかに低下する。要約していえば、ボコーダは、全てが異なるレートで動作し、異なる音声品質を有する複数のボコーダとして考えられている。
その結果、音声品質は、データ転送の平均レートをさらに低減するために混ぜ合わされる。最初の実験は、フルレート及び２分の１のレートで音声分析合成された音声の混合を示しており、たとえば、最大可能データレートは、８ｋｂｐｓと４ｋｂｐｓとの間を基礎としたフレームによって変化させられ、この結果の音声の品質は、２分の１の可変レート、最大４ｋｂｐｓのものよりも良く、全可変レート、最大８ｋｂｐｓのものよりは良くない。

殆どの電話の会話においては、１人のみが同時に話していることが知られている。レートと連動している全二重電話のために追加の機能が設けられる。もし、リンクの一方の方向が最高の伝送レートで伝送を行なっていると、リンクの他の方向は最低のレートで伝送を行なうことが強制される。リンクの２つの方向の間の連動は、リンクのそれぞれの方向の５０％の平均利用より大きくならないように保証される。しかしながら、活性ゲート動作におけるレート連動のケースのように、チャネルのゲートが閉じられたとき、会話における話者の役割を引き継ぐために、話者を遮る受話者のための方法がない。上述の特許出願の音声分析合成方法は、音声分析合成レートを設定する制御信号によって、容易に適応レートの能力を提供する。

上述の特許出願において、ボコーダは、音声が存在するときのフルレート、あるいは音声が存在しないときの８分の１レートのいずれかで動作する。２分の１及び４分の１レートの音声分析合成アルゴリズムの手法は、能力に影響を与える特殊な条件あるいは他のデータが音声データと同時に転送された時のために確保される。

ここに参照のために引用され、本発明の譲受人に譲渡され、１９９３年９月８目に出願された係属中の米国特許出願第０８／１１８，４７３号明細書の“マルチユーザ通信システムにおける伝送データレートを決定する方法及び装置”に、ここで述べた可変レートボコーダによる符号化されたフレームの平均データレートを制限するシステム能力測定に従った通信システムによる方法が述べられている。

この装置は、低いレート、すなわち、２分の１のレートで符号化されるべきフルレートのフレームの一連の列において所定のフレームを強制することにより平均データレートを低減する。
このような方法によって、活性音声フレームのための符号化レートを低減するときの問題は、制限が入力音声のどの特徴にも一致せず、そして音声圧縮の品質が最適化されないということである。

ここに、参照のために引用され、本発明の譲受人に譲渡され、現在は、１９９４年８月２３日に発行された米国特許番号第５，３４１，４５６であり、１９９２年１２月２日に出願された係属中の米国特許出願第０７／９８４，６０２号明細書の“可変レートボコーダにおける音声符号化レートの決定方法”に、有声音から無声音を識別するための方法が述べられている。

この方法には、音声エネルギーの試験及び音声のスペクトルピッチ及び背景雑音から無声音を識別するためのスペクトルピッチの使用が開示されている。
入力音声の音声活性に完全に基づいて符号化レートを変化する可変レートボコーダは、活性音声の間中、動的に変化する複雑性或いは情報内容に基づく符号化レートを変化する可変レート符号器の圧縮効率を認識することができない。

入力波形の複雑性のために、符号化レートを整合させることにより、より効率的な音声符号器を設計することができる。さらに、可変レートボコーダの出力データレートを動的に調整することに努めるシステムが、望むべき平均データレートのための最適な音声品質を得るために、入力音声の特徴に従ってデータレートを変化する。

発明の概要
本発明は、所定の最大レートと所定の最小レートとの間のレートで符号化された音声フレームにより低減されたデータレートによって、活性音声フレームを符号化する新規かつ改良された方法及び装置である。
本発明は、活性音声動作モードの組を示す。本発明の例示的な実施の形態においては、４つの活性音声動作モード、フルレート音声、２分の１レート音声、無声音４分の１レート及び有声音４分の１レートがある。

本発明の目的は、入力音声の符号化効率レートを提供する符号化モードを選択するための最適化された方法を提供することにある。
本発明の第２の目的は、この動作モード選択に適した理想的なパラメータの組（即ち、パラメータのグループ）を認識し、このパラメータの組を生成する手段を提供することにある。本発明の第３の目的は、品質に関して最小限の犠牲の低レート符号化を可能にする２つの別々の状態の認識を提供することにある。この２つの状態は、無声音の存在及び時間的にマスクされた音声の存在である。本発明の第４の目的は、音声品質については、最小限の影響で音声符号器の平均出力データレートの動的調整を行うための方法を提供することにある。

本発明は、モード測定に関連するレート決定基準の組を提供する。第１のモード測定は、前の符号化フレームにおける目標整合信号と雑音信号とのレート（ＴＭＳＮＲ）であり、これは、どのようにしたら良く合成された音声が入力音声に整合するのかの情報、言い替えれば、どのようにしてうまく符号化モデルを実行するのかの情報を提供する。

第２のモード測定は、正規化自己相関機能（ＮＡＣＦ）であり、これは音声フレームの周期性を測定する。第３のモード測定は、零交差（ＺＣ）パラメータであり、これは、入力音声フレームにおける高周波の内容を測定する計算的に安価な方法である。第４のモード測定は、ＬＰＣモデルがその予測効率を保っているか否かを決定する予測利得差分（ＰＧＤ）である。第５の測定は、現在のフレームのエネルギーと平均のフレームエネルギーとを比較するエネルギー差分（ＥＤ）である。

本発明の例示的な実施の形態の音声分析合成アルゴリズムは、活性音声フレームの符号化モードを選択するための上に列挙された５つのモード測定を使用する。本発明のレート決定要素は、音声が無声音４分の１レートで符号化されるべきか否かを決定するために、第１の閾値に対するＮＡＣＦと第２の閾値に対するＺＣとを比較する。

もし、活性音声フレームが有声音フレームを含むと決定された場合には、ボコーダは、音声フレームが４分の１の有声音レートで符号化されるべきか否かを決定するために、パラメータＥＤを調べる。もし、音声が４分の１レートで符号化されないと決定された場合には、次に、ボコーダは、音声が２分の１のレートで符号化されるか否かをテストする。ボコーダは、音声フレームが２分の１のレートで符号化されるか否かを決定するために、ＴＭＳＮＲ，ＰＧＤ及びＮＡＣＦの値をテストする。もし、活性音声フレームが４分の１或いは２分の１レートで符号化されないと決定された場合には、フレームは、フルレートで符号化される。

さらなる目的は、レート要求に適応させるために閾値を動的に変化させる方法を提供することにある。１つ又はそれ以上のモード選択閾値を変化させることにより、平均伝送データレートを増加或いは減少させることが可能になる。閾値を動的に調整することにより、出力レートが調整されることができる。

本発明の特徴、目的及び利点は、図面と関連して理解される以下に述べる詳細な説明によって明らかになり、この詳細な説明において全体にわたって、それに対応する基準の特徴が認識される。

例示的な実施の形態においては、１６０の音声サンプルの音声フレームが符号化される。本発明の例示的な実施の形態においては、符号化は４つのデータレート、フルレート、２分の１レート、４分の１レート及び８分の１レートで行なわれる。
フルレートは、１４．４Ｋｂｐｓレートの出力データに対応する。２分の１レートは、７．２Ｋｂｐｓレートの出力データに対応する。４分の１レートは、３．６Ｋｂｐｓレートの出力データに対応する。８分の１レートは、１．８Ｋｂｐｓレートの出力データに対応し、沈黙の期間の間の伝送のために確保されている。

注目すべきことは、本発明は活性音声フレームの符号化にのみ関連することであり、このフレームは、活性音声フレームの中の現在の音声を得るために検出される。
音声の現状を検出する方法については、前に述べた米国特許出願第０８／００４，４８４号（米国特許第５，４１４，７９６号）及び第０７／９８４，６０２号（米国特許第５，３４１，４５６号）明細書に詳しく述べられている。

図１を参照すると、モード測定要素１２が活性音声フレームのための符号化レートを選択するレート決定論理１４によって使用される５つのパラメータの値を決定する。
例示的な実施の形態においては、モード測定要素１２は５つのパラメータを決定し、この５つのパラメータをレート決定論理１４に供給する。

レート決定論理１４は、モード測定要素１２から供給されたパラメータに基づいて、フルレート、２分の１レート、或いは４分の１レートの符号化レートを選択する。
レート決定論理１４は、生成された５つのパラメータに従って、４つの符号化モードのうち、１つを選択する。この４つの符号化モードは、フルレートモード、２分の１レートモード、４分の１の無声音レートモード及び４分の１の有声音レートモードを含んでいる。

４分の１の有声音レートモード及び４分の１の無声音レートモードは、同じレートでデータを供給するが、これは異なる符号化方法によって行なわれる。
２分の１レートモードは、定常的、周期的に十分にモデル化された音声を符号化するのに使用される。４分の１の無声音レート、４分の１の有声音レートの双方及び２分の１レートモードは、高い精度が要求されない音声の部分におけるフレームの符号化に利用される。

４分の１の無声音レートモードは、声を発していない音声の符号化に使用される。４分の１の有声音レートモードは、時間的にマスクされた音声フレームの符号化に使用される。
殆どのＣＥＬＰ音声符号器は、同時マスキングを利用しており、この同時マスキングにおいては、ある周波数の音声エネルギーが、同一の周波数及び聞き取れないような雑音の時間において外の雑音エネルギーをマスクしている。

可変レート音声符号器は、時間的マスキングを利用することができ、この時間的マスキングにおいては、低エネルギーのアクティブ音声フレームが先行する類似する周波数内容の高エネルギーの音声フレームによってマスクされる。
何故ならば、人間の耳は、種々の周波数帯域のエネルギーを時の経過とともに取り込み、低エネルギーのフレームは、低エネルギーのフレームの符号化の必要性を下げるために時間平均がとられるからである。

この聴覚の複数の現象の時間的マスキングを利用することにより、可変レート音声符号器はこのモードにおける音声の間、符号化レートを低減することが可能になる。
この精神聴覚学的現象は、Ｅ．Ｚｗｉｃｋｅｒ及びＨ．Ｆａｓｔ１による精神聴覚学のｐｐ．５６−１０１．に詳しく述べられている。

モード測定要素１２は、４つの入力信号を受信し、５つのモードパラメータを生成する。モード測定要素１２が受信する最初の信号は、Ｓ（ｎ）であり、このＳ（ｎ）は、符号化されていない音声サンプルである。
例示的な実施の形態においては、この音声サンプルは、１６０の音声サンプルを有するフレームから供給される。

モード測定要素１２に供給される音声フレームは、全てアクティブな音声を含んでいる。沈黙期間の間、本発明のアクティブ音声レート決定システムは、非活動状態にある。
モード測定要素１２が受信する２つめの信号は、合成音声信号Ｓ’（ｎ）であって、この合成音声信号Ｓ’（ｎ）は、可変レートＣＥＬＰ符号器の符号器の復号器からの解読された音声である。

符号器の復号器は、ＣＥＬＰ符号器を基にした合成による分析により、フィルタのパラメータとメモリとを更新する目的のために、符号化された音声のフレームを解読する。
このような復号器の設計は、良く知られている技術であり、前に述べた米国特許出願第０８／００４，４８４号（米国特許第５，４１４，７９６号）明細書に詳しく述べられている。

モード測定要素１２が受信する３つめの信号は、ホルマント残余信号ｅ（ｎ）である。このホルマント残余信号は、ＣＥＬＰ符号器の線形予測符号化（ＬＰＣ）フィルタによってフィルタリングされた音声信号Ｓ（ｎ）である。
ＬＰＣフィルタの設計及びこのようなフィルタによる信号のフィルタリングは、良く知られた技術であり、前に述べた米国特許出願第０８／００４，４８４号（米国特許第５，４１４，７９６号）明細書に詳しく述べられている。

モード測定要素１２が受信する４つめの信号は、Ａ（ｚ）であり、このＡ（ｚ）は、ＣＥＬＰ符号器と関連した聴感重み付けフィルタのフィルタタップ値である。
このタップ値の生成、及び聴感重み付けフィルタのフィルタリング動作は、良く知られた技術であり、前に述べた米国特許出願第０８／００４，４８４号（米国特許第５，４１４，７９６号）明細書に詳しく述べられている。

雑音レートのためのターゲットマッチング整合信号（ＳＮＲ）演算要素２は、合成された音声信号Ｓ’（ｎ）、音声サンプルＳ（ｎ）、及び１組の聴感重み付けフィルタのタップ値Ａ（ｚ）を受信する。
ターゲットマッチングＳＮＲ演算要素２は、ＴＭＳＮＲで示されるパラメータを供給し、このＴＭＳＮＲはどのようにしたらよく音声モデルが入力音声をトラッキングするかを示している。

ターゲットマッチングＳＮＲ演算要素２は、下記の（１）式と一致するＴＭＳＮＲを生成する。

ここで、添え字Ｗは、聴感重み付けフィルタによってフイルタリングされた信号を示している。
ここで、注意すべきことは、この測定は、ＮＡＣＦ，ＰＧＤ，ＥＤ，ＺＣが現在の音声のフレームにおいて計算されている間に、前の音声のフレームのために計算されることである。

ＴＭＳＮＲは、選択された符号化レートの機能により前の音声のフレームにおいて計算され、そして、複雑な計算であることから、符号化されたフレームの前のフレームにおいて計算される。
この聴感重み付けフィルタの設計及び実現は、良く知られた技術であり、前に述べた米国特許出願第０８／００４，４８４号（米国特許第５，４１４，７９６号）明細書に詳しく述べられている。また、この聴感重み付けは、音声フレームの聴感的に重要な特徴の重み付けに適していることに注目すべきである。しかしながら、この測定は、信号の聴感的重み付けをすること無しに、測定が行なわれることをイメージしている。

正規化自己相関演算要素４は、ホルマント残余信号、ｅ（ｎ）を受信する。この正規化自己相関演算要素４は、音声フレームにおけるサンプル周期の指示を供給するためのものである。
正規化自己相関演算要素４は、下記の（２）式に従ってＮＡＣＦで示されるパラメータを生成する。

ここで注意すべきことは、このパラメータの生成には、前のフレームの符号化からのホルマント残余信号のメモリが必要であることに留意すべきである。
このことは、現在のフレームの周期だけではなく、前のフレームとともに現在のフレームの周期のテストを行なうことを可能にする。

その理由は、最適な実施の形態においては、ホルマント残余信号、ｅ（ｎ）が音声サンプル、Ｓ（ｎ）の代わりに使用されており、このＮＡＣＦを生成するのに使用されるホルマント残余信号ｅ（ｎ）は、音声信号のホルマントの干渉を取り除くものである。

ホルマントフィルタを通過する音声信号は、音声エンベロープを平滑化するのに役に立ち、故に、結果信号が白色化される。
ここで、注意すべきことは、例示的実施例における遅れＴの値は、毎秒８０００サンプルのサンプリング周波数のための６６Ｈｚと４００Ｈｚとの間の周波数のピッチに対応する。

この遅れ値Ｔによって与えられるピッチ周波数は、下記の（３）式によって計算される。

ｆ_pitch＝ｆ_ｓ／Ｔ（３）
（但し、ｆ_ｓ、はサンプリング周波数）

ここで、注意すべきことは、周波数範囲は、１組の異なる遅れ値を単に選択することによって、拡大あるいは縮小される。

さらに、ここで注意すべきことは、本発明は、どんなサンプリング周波数にも等しく適用することができるということである。
零交差カウンター６は、音声サンプルＳ（ｎ）を受信し、音声サンプルの符号の変化の回数をカウントする。これは、音声信号における高周波部分を費用をかけずに計算する方法である。このカウンターは、以下の形のソフトウエアによるループで実現される。

ｃｎｔ＝０（４）
ｆｏｒｎ＝０，１５８（５）
ｉｆ（Ｓ（ｎ）・Ｓ（ｎ＋１）＜０）ｃｎｔ＋＋（６）

式４−６のループは連続する音声サンプル同士を掛合わせ、その積が２つの連続したサンプル同士の符号が異なることを示す零以下であるかどうかをテストする。このことによって、音声信号にＤＣ成分がないと推測する。信号からのＤＣ成分をどのように除去するかは良く知られている技術である。

予測利得差分要素８は、音声信号Ｓ（ｎ）及びホルマント残余信号ｅ（ｎ）を受信する。予測利得差分要素８は、ＰＧＤで示されるパラメータを生成し、このＰＧＤはＬＰＣモデルがその予測効率を保っているか否かを決定する。
予測利得差分要素８は、下記の式（７）に従って、予測利得、Ｐ_ｇ、を生成する。

現在のフレームの予測利得は、次に、下記の式（８）によって出カパラメータＰＧＤが生成されている場合に、前のフレームの予測利得と比較される。

ＰＧＤ＝１０・ｌｏｇ（（Ｐｇ（ｉ））／（Ｐｇ（ｉ−１））），（８）
（但し、ｉはフレーム番号を示す。）

最適な実施の形態においては、予測利得差分要素８は予測利得値Ｐｇ、を生成しない。ダービンの副産物であるＬＰＣ係数の生成は、予測利得Ｐｇであり、反復演算を必要としないものである。

フレームエネルギー差動要素１０は、現在のフレームの音声サンプルｓ（ｎ）を受信し、下記の（９）式に従った現在のフレームにおける音声信号のエネルギーを計算する。

この現在のフレームのエネルギーは、前のフレームのエネルギーの平均Ｅａｖｅと比較される。例示的な実施の形態において、このエネルギーの平均、Ｅａｖｅは、漏れ積分器の形によって生成される。

Ｅ_ave＝α・Ｅ_ave＋（１−α）・Ｅ_ｉ，（１０）
（但し、０＜α＜１）

係数αは、フレームの範囲を決定し、この係数αは、計算に関連するものである。例示的な実施の形態において、このαは、８フレームの時間定数を提供する０．８８２５がセットされる。フレームエネルギー差動要素１０は、下記の式（１１）に従って、パラメータＥＤを生成する。

ＥＤ＝１０・ｌｏｇ（Ｅ_ｉ／Ｅ_ave）（１１）

この５つのパラメータ、ＴＭＳＮＲ，ＮＡＣＦ，ＺＣ，ＰＧＤ及びＥＤは、レート決定論理１４に供給される。レート決定論理１４は、パラメータ及び予め設定されている選択規則に従って、次のフレームのサンプルのための符号化レートを選択する。今、図２を参照すると、レート決定論理要素１４のレート選択手順を示す流れ図が示されている。

ブロック１８において、レート決定手順が始まる。ブロック２０においては、正規化自己相関演算要素４の出力ＮＡＣＦが予め設定された閾値、ＴＨＲ１に対して比較され、零交差カウンターの出力が予め設定された第２の閾値、ＴＨＲ２に対して比較される。

もし、ＮＡＣＦがＴＨＲ１より小さく、且つＺＣがＴＨＲ２よりも大きい場合には、この流れは無声音４分の１レートとして音声を符号化するブロック２２に進む。
予め設定された閾値よりも小さいＮＡＣＦは、音声における周期性の欠如を示しており、予め設定された閾値よりも大きいＺＣは、音声における高周波部分を示すものである。

これら２つの状態の組み合わせは、フレームが無声音を含んでいることを示している。例示的な実施の形態において、ＴＨＲ１は０．３５，ＴＨＲ２は５０の零交差である。もし、ＮＡＣＦがＴＨＲ１よりも小さく或いはＺＣがＴＨＲ２より大きくない場合には、流れはブロック２４に進む。

ブロック２４においては、フレームエネルギー差動要素１０の出力、ＥＤが第３の閾値ＴＨＲ３と比較される。もし、ＥＤがＴＨＲ３よりも小さい場合には、ブロック２６において、現在の音声フレームは有声音４分の１レートとして符号化される。
もし、現在のフレームの間のエネルギーの差が閾値量よりも大きく平均よりも小さい場合には、時間的にマスクされた音声の状態が示される。例示的な実施の形態においては、ＴＨＲ３は−１４ｄＢである。もし、ＥＤがＴＨＲ３に到達しない場合には、流れはブロック２８に進む。

ブロック２８においては、ターゲット整合ＳＮＲ演算要素２の出力であるＴＭＳＮＲは、第４の閾値ＴＨＲ４と比較される。予測利得差分要素８の出力ＰＧＤは、第５の閾値ＴＨＲ５と比較され、正規化自己相関演算要素４の出力ＮＡＣＦは、第６の閾値ＴＨ６と比較される。

もし、ＴＭＳＮＲがＴＨＲ４を超え、ＰＧＤがＴＨＲ５より小さく、ＮＡＣＦがＴＨ６よりも大きい場合には、流れはブロック３０に進み、そして、音声が２分の１レートで符号化される。
ＴＭＳＮＲがその閾値を上回ることは、モデル及びモデル化されたその音声が前のフレームにおいてマッチングしていたことを示している。パラメータＰＧＤがその予め定められた閾値よりも小さいことは、ＬＰＣモデルがその予測効果を保ち続けていることを示している。パラメータＮＡＣＦがその予め定められた閾値を超えることは、フレームが前の音声フレームに対して周期的である周期的音声を含むことを示している。

例示的な実施の形態においては、ＴＨＲ４は最初に１０ｄＢにセットされ、ＴＨＲ５は−５ｄＢにセットされ、ＴＨＲ６は０．４にセットされる。ブロック２８において、もしＴＭＳＮＲがＴＨＲ４を超えず、或いはＰＧＤがＴＨＲ５を超えず、或いはＮＡＣＦがＴＨＲ６を超えない場合、流れはブロック３２に進み、そして現在の音声フレームがフルレートで符号化される。

閾値の動的な調整を行なうことにより、任意の全体的なデータレートを達成することができる。この全体的な活性化された音声平均データレートＲは、活性化音声フレームの解析窓Ｗで定義されることができる。

ここで、Ｒ_ｆは、フルレートで符号化されたフレームのデータレート、
Ｒ_ｈは、２分の１のレートで符号化されたフレームのデータレート、
Ｒ_ｑは、４分の１のレートで符号化されたフレームのデータレート、
Ｗ＝＃Ｒｆフレーム＋＃Ｒ_ｈフレーム＋＃Ｒｑフレーム。

それぞれの符号化レートとそのようなレートで符号化された多くのフレームとを掛け合わせ、そして、サンプルにおける全ての数のフレームで除算することにより、活性化した音声のサンプルの平均データレートが計算される。”Ｓ“の音から引き出されるような無声音の長い持続時間によって平均レート統計値が歪められることを防止するのに十分なほど、フレームのサンプルサイズＷを大きくとることが重要である。例示的な実施の形態において、平均レートを計算するためのフレームサンプルサイズＷは、４００フレームである。

２分の１のレートで符号化されるべきであったがフルレートで符号化されたフレームの数を増大させることによってこの平均データレートは減少し、逆に、フルレートで符号化されるべきであったが２分の１のレートで符号化されたフレームの数が増大することによって、この平均データレートは増大する。この好適な実施の形態において、この変化をもたらすために調整される閾値は、ＴＨＲ４である。例示的な実施の形態においては、ＴＭＳＮＲの値のヒストグラムが保存されている。例示的な実施の形態においては、この格納されたＴＭＳＮＲの値は、現在のＴＨＲ４の値からデシベルの整数値に量子化される。この種のヒストグラムを保存することにより、前の解析ブロックにおいて、どのくらいの数のフレームがフルレートから２分の１のレートに変化しているかを推定し、このフルレートから２分の１のレートヘの変化は、デシベルの整数値によって減少させられるＴＨＲ４である。

逆に言えば、どのくらいの数の２分の１のレートで符号化されたフレームがフルレートで符号化されたかの推定がデシベルの整数値によって増加させられる閾値となる。
２分の１レートフレームからフルレートフレームヘの変化するフレームの数を決定する方程式は、次の式によって決定される。

ここで、Δは、２分の１のレートで符号化され目標のレートを達成するためにフルレートで符号化されるべきフレームの数であり、
Ｗ＝＃Ｒ_ｆフレーム＋＃Ｒ_ｈフレーム＋＃Ｒ_ｑフレーム
ＴＭＳＮＲ_ＮＥＷ＝ＴＭＳＮＲ_ＯＬＤ＋（上述の（１３）式で定義されるＴＭＳＮＲ_ＯＬＤからΔフレームに到達するまでのｄＢ数の差）

ここで、注意すべきことは、ＴＭＳＮＲの初期値は、目標の関数であることが望ましい。Ｒ_ｆ＝１４．４ｋｂｐｓ，Ｒ_ｆ＝７．２ｋｂｐｓ，Ｒ_ｆ＝３．６ｋｂｐｓのシステムにおける目標レート８．７Ｋｂｐｓの例示的な実施の形態においては、ＴＭＳＮＲの初期値は１０ｄＢである。

ここで、注意すべきことは、ＴＭＳＮＲ値の閾値ＴＨＲ４からの距離のための数値への量子化は、２分の１或いは４分の１デシベルのように容易に細かく行なうことができ、或いは１．５或いは２デシベルのように荒く行うこともできる。
目標レートのどちらか一方が、レート決定論理要素１４のメモリ要素に格納されていることを想定しており、このようなケースにおいては、目標レートは、どちらかの動的に決定されるであろうＴＨＲ４値に従って静的値となるであろう。加えて、この初期目標値では、通信システムがレート命令信号を、システムの現在の記憶容量に基づいて、符号化レート選択装置に送信することを想定している。

このレート命令信号は、目標レート或いは平均レートにおける単なる増加或いは減少要求のどちらかを指定することができる。
もし、システムが目標レートを指定するものである場合には、このレートは、（１２）及び（１３）式にしたがってＴＨＲ４値を決定するために使用される。もし、このシステムが、ユーザが高い或いは低い転送レートの転送を行うべきことのみを指定している場合には、レート決定論理要素１４は、予め定められた増分によって変化するＴＨＲ４値によって変化され、或いはレートにおいて予め定められた増分増加或いは減少に従って増分変化を計算する。

ブロック２２及び２６は、有声音であることを示す音声サンプル或いは無声音であることを示す音声サンプルに基づいて、音声符号化を行なう方法の違いを示している。
この無声音は、摩擦音の形をとる音声及び“ｆ”、“ｓ”、“ｓｈ”、“ｔ”及び“ｚ”のような一定の音である。

４分の１レートの有声音は、時間的にマスクされた音声であり、周波数成分の近似した相対的に高音量の音声フレームに続く低音量音声フレームである。人間の耳は、高音量のフレームに続く低音量のフレームにおける音声の細かな点は聞くことができないので、４分の１レートによって音声を符号化することによって、ビットを節約することができる。

無声音の４分の１レート符号化の例示的な実施の形態においては、音声フレームは４つのサブフレームに分割される。
４つのサブフレームのそれぞれによって送信されるものは全て利得値Ｇ及びＬＰＣフィルタ係数Ａ（Ｚ）である。例示的な実施の形態においては、それぞれのサブフレームの利得を表現するために５ビットが転送される。復号器において、それぞれのサブフレームのためのコードブックの索引はランダムに選択される。このランダムに選択されたコードブックのベクトルは、転送された利得値によって掛け合わされ、そして、合成された無声音を生成するために、ＬＰＣフィルタＡ（Ｚ）を通過する。

４分の１レートの有声音の符号化は、音声フレームが２つのサブフレームに分割され、そして、ＣＥＬＰ符号器がコードブックの索引及び２つのサブフレームのそれぞれのための利得を決定する。この例示的な実施の形態においては、５つのビットがコードブックの索引を示すために割り当てられ、他の５つのビットが対応する利得値を指定するために割り当てられる。例示的な実施の形態において、４分の１レートの有声音の符号化のために使用されるコードブックは、２分の１及びフルレートの符号化のために使用されるコードブックのベクトルの部分組である。例示的な実施の形態においては、７つのビットは、フル及び２分の１のレート符号化モデルにおけるコードブックの索引を指定するために使用される。

図１においては、ブロックは、設計された機能を実現するための構造ブロック或いはデジタル信号プロセッサ（ＤＳＰ）或いは特定用途向け集積回路ＡＳＩＣの書き込みプログラムによって実現される機能を表わすブロックである。
前に述べた最適な実施の形態の説明は、この分野における当業者に本発明を完成し、或いは使用することを可能にする。これらの実施の形態を種々に改良することは、この分野における当業者にとっては容易であり、この中に定義されている一般的な原理が発明的才能を使用することなく他の実施の形態に適用される。

そのようなことから、本発明は、ここに示した実施の形態に限定されるものではなく、原理と一貫した最も広い範囲及びここに開示された新規な特徴と調和される。

本発明の符号化レート決定装置のブロックダイアグラムを示す図である。レート決定論理の符号化レート選択プロセスを示すフローチャートである。

符号の説明

２…ターゲットマッチング整合信号演算要素、４…正規化自己相関演算要素、６…零交差カウンター、８…予測利得差分要素、１０…フレームエネルギー差動要素、１２…モード測定要素、１４…レート決定論理要素

Claims

フルレート、２分の１レート、無声音４分の１レート及び有声音４分の１レートを有する所定の符号化レートの組から符号化レートを選択し、そして複数の音声サンプルを含む音声フレームをＣＥＬＰ符号器を用いて符号化する装置であって、
前記音声フレームの特徴を示すＣＥＬＰ符号器パラメータのグループを生成するために、前記音声サンプルおよび前記音声サンプルから得られた信号に応答する手段と、
前記パラメータのグループを受信し、そして前記ＣＥＬＰ符号器パラメータのグループのパラメータをしきい値と比較することにより所定のレート選択規則を用いて前記所定の符号化レートの組から符号化レートを選択する手段と、
を含む装置。
フルレート、２分の１レート、無声音４分の１レート及び有声音４分の１レートを有する所定の符号化レートの組から符号化レートを選択し、そして複数の音声サンプルを含む音声フレームをＣＥＬＰ符号器を用いて符号化する装置であって、
前記音声サンプルおよび前記音声サンプルから得られた信号に対応する前記音声のフレームの特徴を示すＣＥＬＰ符号器パラメータのグループを生成するモード測定計算器と、
前記ＣＥＬＰ符号器パラメータのグループを受信し、そして前記ＣＥＬＰ符号器パラメータのグループのパラメータをしきい値と比較することにより前記所定の符号化レートの組から符号化レートを選択するレート決定論理と、
を含む装置。
遠隔局が中央通信局と通信を行う通信システムにおいて、前記遠隔局から伝送されるＣＥＬＰ符号器音声フレームの伝送レートを動的に変化させるサブシステムであって、
前記音声フレームの特徴を示すＣＥＬＰ符号器パラメータのグループを生成するために、前記音声フレームおよび前記音声フレームから得られた信号に応答する手段と、
前記パラメータの組を受信し、レート命令信号に対応する閾値を生成するためにレート命令信号を受信し、前記ＣＥＬＰ符号器パラメータのグループのパラメータを前記閾値と比較し、そして前記比較に応じてフルレート、２分の１レート、無声音４分の１レート及び有声音４分の１レートを有する所定の符号化レートの組から符号化レートを選択する手段と、
を含むサブシステム。
遠隔局が中央通信局と通信を行う通信システムにおいて、前記遠隔局から伝送されるＣＥＬＰ符号器音声のフレームの伝送レートを動的に変化させるサブシステムであって、
前記音声サンプルおよび前記音声サンプルから得られた信号に対応する前記音声フレームの特徴を示すＣＥＬＰ符号器パラメータのグループを生成するモード測定計算器と、そして
前記ＣＥＬＰ符号器パラメータのグループを受信し、レート命令信号に対応する閾値を生成するためにレート命令信号を受信し、前記ＣＥＬＰ符号器パラメータのグループのパラメータを前記閾値と比較し、そして前記比較に応じてフルレート、２分の１レート、無声音４分の１レート及び有声音４分の１レートを有する所定の符号化レートの組から符号化レートを選択するレート決定論理と、
を含むサブシステム。
複数の音声サンプルを含む音声フレームをＣＥＬＰ符号器を用いて符号化するためにフルレート、２分の１レート、無声音４分の１レート及び有声音４分の１レートを有する所定の符号化レートの組から符号化レートを選択する方法であって、
前記音声サンプルおよび前記音声サンプルから得られた信号に対応する前記音声フレームの特徴を示すＣＥＬＰ符号器パラメータのグループを生成し、そして
前記ＣＥＬＰ符号器パラメータのグループのパラメータをしきい値と比較することにより前記ＣＥＬＰ符号器パラメータのグループに対応する前記所定の符号化レートの組から符号化レートを選択する
方法。
フルレートフレーム、２分の１レートフレーム、無声音４分の１レートフレーム及び有声音４分の１レートフレームを具備する所定の組の符号化フレームを有するボコーダについて音声フレームをＣＥＬＰ符号化する方法であって、
前記音声フレームにおける周期性を示す正規化自己相関測定と前記音声フレームの高周波部分の存在を示す零交差数とを決定するために前記音声フレームを評価するステップと、
前記正規化自己相関測定が第１の閾値未満であり、かつ前記零交差数が第２の閾値を超えている場合は、無声音４分の１レートのフレームを用いて前記音声フレームをＣＥＬＰ符号化するステップと、
を具備する音声フレームをＣＥＬＰ符号化する方法。
前記音声フレームが４分の１レートの無声音として符号化されていない場合、前記音声フレームのエネルギーとフレームの平均エネルギーとの間のエネルギーの変化を示すフレームエネルギー差分測定を決定するために前記音声フレームを評価するステップと、
前記フレームエネルギー差分測定が第３の閾値未満である場合、４分の１レートの有声音のための所定のＣＥＬＰ形式を用いて前記音声フレームを符号化するステップと、
をさらに具備する請求の範囲第６項記載の方法。
前記音声フレームが４分の１レートの有声音として符号化されていない場合、先の音声フレームとその音声フレームから得られた合成音声の整合度を示す目標整合信号対雑音比測定とホルマントのフレームからフレームヘの安定性を示す予測利得差分測定とを決定するために、前記音声フレームを評価するステップと、
前記目標整合信号対雑音比測定が第４のしきい値を超えており、かつ前記予測利得差分測定が所定の第５の閾値未満であり、かつ前記自己相関測定が所定の第６の閾値である場合、２分の１レートのための所定のＣＥＬＰ形式を用いて前記音声フレームを符号化するステップと、
をさらに具備する請求の範囲第７項記載の方法。
前記音声フレームが２分の１レート音声として符号化されていない場合、フルレートのための形式を用いて前記音声フレームを符号化するステップをさらに具備する請求の範囲第８項記載の方法。