JP2002509294A

JP2002509294A - 暗騒音条件下における音声符号化の方法

Info

Publication number: JP2002509294A
Application number: JP2000540536A
Authority: JP
Inventors: ス，フアン−ユ; ユエン，エリック・クウォク・ファン; ベンヤッシン，アディル; シッセン，ジェス
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 1998-01-13
Filing date: 1998-11-25
Publication date: 2002-03-26
Also published as: DE69808339T2; WO1999036906A1; EP1048024A1; EP1048024B1; US6205423B1; US6104994A; DE69808339D1; AU1537899A

Abstract

(57)【要約】暗騒音条件下における音声符号化の方法であって、活性音声セグメント中に合成による分析方法を用いる。しかしながら、暗騒音セグメントが検出されたときに適応符号ブック（ピッチ予測）寄与率を擬似ランダムシーケンスのソースとして用いて、暗騒音をより良く表わすようにしている。暗騒音セグメントが検出されたときに、改良された利得量子化方法も用いて、量子化された利得を用いた全励起のエネルギを量子化されていない利得を用いた全励起のエネルギと整合させている。

Description

【発明の詳細な説明】

【０００１】

【発明の背景】【発明の分野】

本発明は包括的には通信分野に関し、より特定的には符号化音声通信の分野に
関する。

【０００２】

【関連技術の説明】

２人以上の人間が会話している間、一般に、人間の耳の聴くという経験全体に
おいて周囲の暗騒音が伴なう。図１は、典型的な録音された会話のアナログ音波
１００を示しており、これは声の通信により生じる音声グループ１０４−１０８
とともに周囲の暗騒音信号１０２を含む。音声通信の送信、受信および記憶の技
術分野では、信号１００の符号化および復号化に対し異なる技術がいくつかある
。信号１００の符号化および復号化の技術の１つは、当業者には周知の合成によ
る分析符号化システムを用いることである。

【０００３】図２は、音声の符号化および復号化のための、先行技術の合成による分析シス
テム２００の一般的な全体ブロック図を示す。図１の信号１００の符号化および
復号化のための合成による分析システム２００は、分析ユニット２０４を対応す
る合成ユニット２２２とともに用いる。分析ユニット２０４は、符号励起線形予
測（ＣＥＬＰ）符号器といった合成による分析タイプの音声符号器を表わす。符
号励起線形予測符号器は、通信ネットワークおよび記憶容量の制約に合せるため
に中間のまたは低いビットレートで信号１００を符号化する１つの方法である。
ＣＥＬＰに基づく音声符号器の例として、本明細書に引用により援用する、近年
採用されている国際電気通信連合（International Telecommunication Union ( ＩＴＵ））Ｇ．７２９標準がある。

【０００４】音声を符号化するために、分析ユニット２０４のマイクロホン２０６は、図１
のアナログ音波１００を入力信号として受取る。マイクロホン２０６は、受取っ
たアナログ音波１００をアナログ−デジタル（Ａ／Ｄ）サンプラ回路２０８に出
力する。アナログ−デジタルサンプラ２０８は、アナログ音波１００をサンプリ
ングされたデジタル音声信号（離散的期間においてサンプリングされたもの）に
変換し、これが、音声信号のフォルマント構造（またはスペクトルエンベロープ
）および高調波構造それぞれを取出すために線形予測係数（ＬＰＣ）抽出器２１
０およびピッチ抽出器２１２に出力される。

【０００５】フォルマント構造は短期相関に相当し、高調波構造は長期相関に相当する。短
期相関は、得られた線形予測係数（ＬＰＣ）を係数とする時間変化フィルタによ
り説明できる。長期相関も、ピッチ抽出器から得られた係数を係数とする時間変
化フィルタにより説明できる。入来する音声信号をＬＰＣフィルタでフィルタリ
ングすることにより、短期相関が除去され、ＬＰＣ残差信号が生成される。残っ
た長期相関を除去するために、ピッチフィルタはこのＬＰＣ残差信号をさらに処
理する。得られた信号が全残差信号である。この残差信号を逆ピッチおよびＬＰ
Ｃフィルタ（合成フィルタとも呼ばれる）に通せば、元の音声信号が回復または
合成される。音声符号化のコンテクストでは、ビットレート低減のためにこの残
差信号を量子化（符号化）しなければならない。量子化された残差信号は励起信
号と呼ばれ、この信号は、元の音声信号に近い複製を生成するために量子化ピッ
チおよびＬＰＣ合成フィルタ双方に通される。音声の合成による分析ＣＥＬＰ符
号化のコンテクストでは、量子化された残差を、通常固定符号ブックと呼ばれる
符号ブック２１４から得る。この方法はＩＴＵＧ．７２９の文献に詳細に説明
されている。

【０００６】図２の固定符号ブック２１４は、記憶された、符号ベクトルと呼ばれるデジタ
ルパターンを特定数含む。通常は、固定符号ブック２１４を、当業者には既知で
ある何らかの知覚的な様式で残差信号を最もよく表わす符号ベクトルを得るため
に探索する。選択された符号ベクトルは、典型的には固定励起信号と呼ばれる。
残差信号を表わす最良の符号ベクトルを決定した後、固定符号ブックユニット２
１４はまた、固定励起信号の利得ファクタを計算する。次のステップは、固定励
起信号をピッチ合成フィルタに通すことである。これは通常、当業者には既知の
「閉ループ」様式で最適ピッチ利得および遅れを求めるために適応符号ブック探
索方法を用いて実現される。「閉ループ」方法または合成による分析は、整合す
べき信号をフィルタリングすることを意味する。最適ピッチ利得および遅れによ
り、いわゆる適応励起信号を生成することができる。次に、適応および固定符号
ブック励起双方に対して求めた利得ファクタを、「閉ループ」様式で、利得量子
化器２１６により、インデックスを備えたルックアップテーブルを用いて量子化
するが、これは当業者には周知の量子化案である。固定符号ブック２１４からの
最良の固定励起のインデックスは、量子化された利得、ピッチ遅れおよびＬＰＣ
係数とともに、記憶／送信器ユニット２１８に送られる。

【０００７】次に、分析ユニット２０４の記憶／送信器２１８（図２）は、全てが受信した
アナログ音波信号１００を表わすものである、ピッチ遅れ、ピッチ利得、線形予
測係数、固定励起符号ベクトルおよび固定励起符号ベクトル利得を、通信ネット
ワーク２２０を介して合成ユニット２２２に送信する。合成ユニット２２２は、
記憶／送信器２１８から受けた異なるパラメータを復号化し、合成された音声信
号を得る。人々が合成された音声信号を聞くことができるようにするため、合成
ユニット２２２は合成された音声信号をスピーカ２２４に出力する。

【０００８】図２を参照して先に述べた合成による分析システム２００を用いて、高品質の
音声符号器を実現することに成功している。当業者であれば自然音声を非常に低
いビットレートで高品質に符号化できることを理解できるであろう。低ビットレ
ートでの高品質符号化は、符号ベクトルが非常にまばらである（すなわち非ゼロ
エレメントがほとんどない）固定励起符号ブック２１４を用いることにより可能
である。たとえば、ＩＴＵ推薦Ｇ．７２９には非ゼロパルスが５ｍｓ当り４つし
かない。しかしながら、周囲の暗騒音により音声が転訛したとき、こうした符号
化システムの知覚される性能は劣化する。この劣化を修復できるのは、固定符号
ブック２１４が高密度の非ゼロ擬似ランダム符号ベクトルを含む場合およびＣＥ
ＬＰシステムにおける波形整合規準が緩和される場合のみである。

【０００９】マルチモード符号化および混合励起の使用を含む優れた解決策が、暗騒音条件
下における音声品質向上のために提案されている。しかしながら、通常こういっ
た解決策は、非常に複雑になるか伝送エラーが非常に生じやすいといった望まし
くない状況を招く。本発明はこの問題と戦うための簡単な解決策を提供する。

【００１０】

【発明の目的および概要】

本発明は、周囲に暗騒音があるときに符号化された音声の品質を向上させるた
めのシステムおよび方法を含む。ほとんどの合成による分析音声符号器にとって
、ピッチ予測寄与率は、有声セグメント中の音声の周期性を表わすことを意味す
る。ピッチ予測器のある実施例は、当業者には周知の適応符号ブックの形式であ
る。音声の暗騒音セグメントに対し、ピッチ予測寄与率が表わす長期相関は、不
十分であるかまたは存在しないことさえある。しかしながら、ピッチ予測寄与率
は、サンプル内容に富むため、暗騒音符号化にとってより適切な所望の擬似ラン
ダムシーケンスのための優れたソースを表わす。

【００１１】本発明は、入力信号の活性部分（活性の声）を入力信号の不活性部分（暗騒音
）から区別する分類器を含む。活性声セグメント中に、従来の合成による分析シ
ステムは符号化のために呼出される。しかしながら、暗騒音セグメント中に、本
発明は、ピッチ予測寄与率を適切な方法により求めた擬似ランダムシーケンスの
ソースとして用いる。本発明はまた、ピッチ予測寄与率に対し適切な利得ファク
タを求める。活性声セグメントおよび暗騒音セグメント双方に対して同じピッチ
予測器ユニットおよび対応する利得量子化器ユニットを用いるので、合成ユニッ
トを変更する必要がない。このことは、分析ユニットから合成ユニットに送信さ
れる情報のフォーマットが常に同じであることを意味しており、伝送エラーが生
じにくい。

【００１２】本明細書に組み込まれてその一部を構成する添付の図面は、本発明の実施例を
示し、その説明とともに本発明の原理を説明する役割を果たしている。

【００１３】

【好ましい実施例の詳細な説明】

周囲の暗騒音が存在するときに符号化された音声の品質を向上させるための本
発明、システム、および方法についての以下の詳細な説明において、本発明の十
分な理解のために多数の特定的な詳細を述べている。しかしながら、当業者にと
っては、こうした特定的な詳細がなくても本発明を実施し得ることが明らかであ
ろう。これ以外は、本発明の局面を不必要に理解し難くしないよう、周知の方法
、手順、構成要素および回路については詳細に説明していない。

【００１４】本発明は符号化音声通信の分野内で動作する。具体的に、図３は、本発明が動
作する、通信および記憶のために音声を符号化および復号化するのに用いる合成
による分析システム３００の一般的な全体図を示す。分析ユニット３０４は、暗
騒音を伴なう声通信を表現するものからなる信号である会話信号１００を受取る
。信号１００は、マイクロホン２０６により捕らえられ、Ａ／Ｄサンプラ回路２
０８によりデジタル音声信号にデジタル化される。このデジタル音声は分類器ユ
ニット３１０およびＬＰＣ抽出器２１０に出力される。

【００１５】図３の分類器ユニット３１０は、入力信号１００に含まれる非音声期間（たと
えば暗騒音のみの期間）を、音声期間から区別する。（Ｇ．７２９付録Ｂ推薦を
参照。分類器ユニット３１０のようなボイスアクティビティ検出器（ＶＡＤ）に
ついての説明がある。）分類器ユニット３１０は、入力信号１００の非音声期間
を決定すると、その表示を信号３２８としてピッチ抽出器３１４および利得量子
化器３１８に送る。ピッチ抽出器３１４は、信号３２８を用いてピッチ予測寄与
率を最良に求める。利得量子化器３１４は、信号３２８を用いて、ピッチ予測寄
与率および固定符号ブック寄与率に対する利得ファクタを最良に量子化する。

【００１６】図４は、本発明の実施例に従う図３のピッチ抽出器ユニット３１４の一実施例
である、ピッチ抽出器４００のブロック図を示す。信号３２８（分類器ユニット
３１０から得たもの）が、現在の信号３３０が活性声セグメントであることを示
す場合は、ピッチ予測ユニット探索４０６を用いる。従来の合成による分析方法
（例としてＧ．７２９推薦を参照）を用いて、ピッチ予測ユニット４０６は、現
在のセグメントのピッチ期間を発見し、適応符号ブックに基づいて寄与率を生成
する。次に、利得計算ユニット４０８は、対応する利得ファクタを計算する。

【００１７】信号３２８が、現在の信号３３０が暗騒音セグメントであることを示す場合は
、励起探索ユニット４０２が、擬似ランダム励起を最も良く表わす適応符号ブッ
クからの符号ベクトルを寄与率として選択する。この実施例では、最良の符号ベ
クトルを選択するために、利得基準化適応符号ブック寄与率のエネルギをＬＰＣ
残差信号３３０のエネルギと整合させる。具体的には、徹底的な探索を利用して
、以下のエラー規準を最小にする適応符号ブックのための最良のインデックスを
求める。式中Ｌは符号ベクトルの長さである。（式中indexはインデックスを意味し、residualは残差を意味する。）

【００１８】

【数１】

【００１９】この探索は励起探索ユニット４０２において実行され、次に、適応符号ブック
利得（ピッチ利得）Ｇ_indexを以下のようにして利得計算ブロック４０４において計算する。

【００２０】

【数２】

【００２１】活性声および暗騒音セグメント双方に対し同じ適応符号ブックを用いる。適応
符号ブックに対し最良のインデックスが発見されると（ピッチ遅れ）、適応符号
ブック利得ファクタが以下のようにして求められる。

【００２２】

【数３】

【００２３】ピッチ抽出器ユニット３１４および固定符号ブックユニット２１４がそれぞれ
最良のピッチ予測寄与率および符号ブック寄与率を求めると、対応する利得ファ
クタが利得量子化器ユニット３１８により量子化される。活性声セグメントに対
し、利得ファクタは従来の合成による分析方法を用いて量子化される。しかしな
がら、暗騒音セグメントについては、適応符号ブックを擬似ランダムシーケンス
のソースとして用いることにより得られる利点を完全なものにするためには異な
る利得量子化方法が必要である。しかしながら、この量子化技術は、ピッチ予測
寄与率を従来の方法を用いて得る場合でも用いることが可能であろう。以下の式
は、本発明の量子化方法を示しており、ここでは量子化された利得（Ｅ^q _cp）を用いた全励起のエネルギを、量子化されていない利得（Ｅ^uq _cp）を用いた全励起
のエネルギと整合させている。具体的に、徹底的な探索を行なって、以下のエラ
ー規準を最小にする量子化された利得を求めている。

【００２４】

【数４】

【００２５】活性声および暗騒音セグメント双方に対し同じ利得量子化器ユニット３１８を用
いる。

【００２６】活性声および暗騒音セグメント双方に対し同じ適応符号ブックおよび利得量子
化器テーブルを用いるため、合成ユニット２２２は変らないままである。このこ
とは、分析ユニット３０４から合成ユニット２２２に送信される情報のフォーマ
ットが常に同じであり、マルチモード符号化を用いるシステムと比較して送信エ
ラーが生じにくいことを意味している。

【００２７】図５（Ａ）および図５（Ｂ）は、利得基準化適応符号ブックおよび固定励起符
号ブック寄与率を組合せたものを示す。典型的な暗騒音セグメントに対し、図５
（Ａ）に示した信号は、従来の合成による分析システムにより生成された組合さ
れた寄与率である。同じ暗騒音セグメントに対し、図５（Ｂ）に示した信号は、
本発明により生成された組合された寄与率である。図５（Ｂ）の信号が図５（Ａ
）の信号よりもサンプル内容に富んでいることは明らかである。したがって、本
発明を用いて合成された暗騒音の品質は、知覚的に優れている。

【００２８】本発明の特定的な実施例の上記の説明は、例示および説明を目的として行なっ
ている。この説明は、全てを網羅すること、または本発明を開示した形態そのも
のに限定することを意図しているのではなく、明らかに、上記の教示から多数の
変形および修正が可能である。実施例を選択および説明した目的は、本発明の原
理およびその実際の応用を最良に説明することによって、当業者が、本発明およ
び種々の変形を伴なう種々の実施例を、意図する特定の用途に適するように最も
うまく利用できるようにすることである。本発明の範囲が前掲の特許請求の範囲
およびその等価物によって定められることが意図されている。

【図面の簡単な説明】

【図１】信号を通して周囲の暗騒音を含む典型的な音声会話のアナログ音
波を示す。

【図２】音声の符号化および復号化のための先行技術の合成による分析シ
ステムの一般的な全体ブロック図を示す。

【図３】本発明が動作する音声の符号化および復号化のための合成による
分析システムの一般的な全体図を示す。

【図４】図３の合成による分析システム内に位置する、本発明のある実施
例に従うピッチ抽出ユニットの一実施例のブロック図を示す。

【図５Ａ】典型的な暗騒音セグメントに対する、利得基準化適応符号ブッ
クおよび固定励起符号ブック寄与率を組合せたものを示す。

【図５Ｂ】典型的な暗騒音セグメントに対する、利得基準化適応符号ブッ
クおよび固定励起符号ブック寄与率を組合せたものを示す。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (71)出願人 4311 ＪａｍｂｏｒｅｅＲｏａｄ，ＮｅｗｐｏｒｔＢｅａｃｈ，Ｃａｌｉｆｏｒｎｉａ 92660−3095 ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ (72)発明者ユエン，エリック・クウォク・ファンアメリカ合衆国、92612 カリフォルニア州、アービン、ビア・ルッカ、25、ジィ・ 311 (72)発明者ベンヤッシン，アディルアメリカ合衆国、92606 カリフォルニア州、アービン、レジオ・アイル、1305 (72)発明者シッセン，ジェスアメリカ合衆国、92677 カリフォルニア州、ラグナ・ニゲル、パシフィック・アイランド・ドライブ、30252、ナンバー・201 Ｆターム(参考） 5D045 CA04 CA10 CC01 5J064 AA01 BA13 BB03 BB12 BC16 BC27 BD02

Claims

【特許請求の範囲】

【請求項１】音声符号化の方法であって、入力音声信号をデジタル化するステップと、前記デジタル化された入力音声信号内の活性声および暗騒音セグメントを検出
するステップと、前記デジタル化された入力音声信号の線形予測係数（ＬＰＣ）およびＬＰＣ残
差信号を求めるステップと、活性音声セグメントが検出されたときに合成による分析方法に従い前記線形予
測係数および前記デジタル化された入力音声信号からピッチ予測寄与率を求める
ステップと、暗騒音セグメントが検出されるたびに適応符号ブック寄与率を擬似ランダムシ
ーケンスのソースとして用いて前記線形予測係数および前記デジタル化された入
力音声信号からピッチ予測寄与率を求めるステップとを含む、音声符号化の方法
。
【請求項２】活性声セグメントが検出されたときに合成による分析方法に
従い適応符号ブック利得ファクタを計算するステップと、暗騒音セグメントが検出されたときに利得基準化適応符号ブック寄与率を前記
ＬＰＣ残差信号のエネルギと整合させることにより適応符号ブック利得ファクタ
を計算するステップとをさらに含む、請求項１に記載の方法。
【請求項３】活性声セグメントが検出されたときに合成による分析方法に
従い固定符号ブック利得ファクタおよび前期適応符号ブック利得ファクタを量子
化するステップと、暗騒音セグメントが検出されるたびに量子化された利得を用いた全励起のエネ
ルギを量子化されていない利得を用いた全励起のエネルギと整合させることによ
り前期固定符号ブック利得ファクタおよび前期適応符号ブック利得ファクタを量
子化するステップとをさらに含む、請求項２に記載の方法。
【請求項４】より良い暗騒音再生のために適応符号ブック寄与率を暗騒音
セグメントのための擬似ランダムシーケンスのソースとして用いる、暗騒音条件
下における音声符号化の方法。
【請求項５】音声符号化の方法であって、入力音声信号をデジタル化するステップと、前記デジタル化された入力音声信号内の活性声および暗騒音セグメントを検出
するステップと、前記デジタル化された入力音声信号の線形予測係数およびＬＰＣ残差信号を求
めるステップと、前記線形予測係数および前記デジタル化された音声信号からピッチ予測寄与率
を求めるステップと、活性声セグメントが検出されたときに合成による分析方法に従い固定符号ブッ
ク利得ファクタおよび適応符号ブック利得ファクタを量子化するステップと、暗騒音セグメントが検出されるたびに量子化された利得を用いた全励起のエネ
ルギを量子化されていない利得を用いた全励起のエネルギと整合させることによ
り前記固定符号ブック利得ファクタおよび前記適応符号ブック利得ファクタを量
子化するステップとを含む、音声符号化の方法。
【請求項６】固定符号ブック利得および適応符号ブック利得を量子化する
方法であって、活性声セグメントが検出されたときに合成による分析方法に従い固定符号ブッ
ク利得および適応符号ブック利得を量子化するステップと、暗騒音セグメントが検出されるたびに量子化された利得を用いた全励起のエネ
ルギを量子化されていない利得を用いた全励起のエネルギと整合させることによ
り前記固定符号ブック利得および前記適応符号ブック利得を量子化するステップ
とを含む、固定符号ブック利得および適応符号ブック利得を量子化する方法。