JP4230550B2

JP4230550B2 - 音声符号化方法及び装置、並びに音声復号化方法及び装置

Info

Publication number: JP4230550B2
Application number: JP28545897A
Authority: JP
Inventors: 和幸飯島; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1997-10-17
Filing date: 1997-10-17
Publication date: 2009-02-25
Anticipated expiration: 2017-10-17
Also published as: JPH11119798A

Description

【０００１】
【発明の属する技術分野】
本発明は、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートで符号化する音声符号化方法及び装置に関する。
【０００２】
また、本発明は、上記音声符号化方法及び装置によって符号化された符号化データを復号化する音声復号化方法及び装置に関する。
【０００３】
【従来の技術】
近年、伝送路を必要とする通信分野においては、伝送帯域の有効利用を実現するために、伝送しようとする入力信号の種類、例えば有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間のような種類によって、符号化レートを可変してから伝送することが考えられるようになった。
【０００４】
例えば、背景雑音区間と判断されると、符号化パラメータを全く送らずに、復号化装置側では、特に背景雑音を生成することをせずに、単にミュートすることが考えられた。
【０００５】
しかし、これでは通信相手が音声を発していればその音声には背景雑音が乗っているが、音声を発しないときには突然無音になってしまうことになるので不自然な通話となってしまう。
【０００６】
そのため、可変レートコーデックにおいては、背景雑音区間として判断されると符号化のパラメータのいくつかを送らずに、復号化装置側では過去のパラメータを繰り返し用いて背景雑音を生成するということを行っていた。
【０００７】
【発明が解決しようとする課題】
ところで、上述したように、過去のパラメータをそのまま繰り返し用いると、雑音自体がピッチを持つような印象を受け、不自然な雑音になることが多い。これは、レベルなどを変えても、線スペクトル対（ＬＳＰ）パラメータが同じである限り起こってしまう。
【０００８】
他のパラメータを乱数等で変えるようにしても、ＬＳＰパラメータが同一であると、不自然な感じを与えてしまう。
【０００９】
本発明は、上記実情に鑑みてなされたものであり、可変レート符号化を効率良く実現する音声符号化方法及び装置の提供を目的とする。
【００１０】
また、本発明は、上記実情に鑑みてなされたものであり、可変レート符号化を実現する音声符号化方法及び装置により符号化された符号化データを用いて、背景雑音を不自然感を緩和して生成できる音声復号化方法及び装置の提供を目的とする。
【００１１】
【課題を解決するための手段】
本発明に係る音声符号化方法は、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートで符号化する音声符号化方法であって、上記入力信号を時間軸上で所定の符号化単位で区分して各符号化単位で符号化を行って上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータを出力する音声符号化工程を備え、上記音声符号化工程は、上記判定結果が上記背景雑音区間を示すときには、背景雑音区間内の背景雑音用の音声符号化パラメータとして、上記背景雑音区間を示す上記基本パラメータを所定時間出力した後に、音声信号区間で用いられる無声音用の音声符号化パラメータを出力する。
【００１２】
ここで、上記音声符号化工程は、上記各区間の判定結果を基本パラメータとして上記所定時間中にも常に出力する。
【００１３】
また、上記音声符号化工程は、入力信号の短期予測残差を求める短期予測残差算出工程と、求められた短期予測残差をサイン波分析符号化するサイン波分析符号化工程又は上記入力信号を波形符号化により符号化する波形符号化工程とを備えてなる。
【００１４】
また、上記音声信号区間が有声音であるときには上記サイン波分析符号化工程により、無声音であるときには上記波形符号化工程により上記入力信号を符号化する。
【００１５】
また、上記音声符号化工程は、上記背景雑音区間中、又は１フレーム前が背景雑音区間であるときには上記短期予測残差算出工程にて差分量子化を行わない。
【００１６】
本発明に係る音声符号化装置は、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートで符号化する音声符号化装置であって、上記入力信号を時間軸上で所定の符号化単位で区分して各符号化単位で符号化を行って上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータを出力する音声符号化手段を備え、上記音声符号化手段は、上記判定結果が上記背景雑音区間を示すときには、背景雑音区間内の背景雑音用の音声符号化パラメータとして、上記背景雑音区間を示す上記基本パラメータを所定時間出力した後に、音声信号区間で用いられる無声音用の音声符号化パラメータを出力する。
【００１７】
本発明に係る音声復号化方法は、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートにより符号化して、上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータとして伝送されてきた音声符号化データを復号化する音声復号化方法であって、上記背景雑音区間を示す上記基本パラメータが所定時間伝送されてきた後に上記無声音用の音声符号化パラメータが伝送されてきた場合であって、この無声音用の音声符号化パラメータの所定のパラメータの値と、前回送られてきた無声音用の音声符号化パラメータの所定のパラメータの値とを比較して、当該無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータか否かを判定し、上記基本パラメータが上記背景雑音区間を示すとき及び上記無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータであると判定されたときには現在までに送られた無声音用の音声符号化パラメータを用いて上記背景雑音を生成し、背景雑音区間ではないと判断した場合には当該無声音用の音声符号化パラメータを用いて無声音を生成する。
【００１８】
このため、過去の例えば線形予測符号化パラメータをそのまま繰り返し使用することがなく、さらに過去に送られた線形予測符号化パラメータと補間しながら使うので、背景雑音の不自然感を緩和できる。
【００１９】
ここで、上記音声符号化データは、入力音声信号の短期予測残差を求める短期予測残差算出工程と、求められた短期予測残差をサイン波分析符号化するサイン波分析符号化工程又は上記入力音声信号を波形符号化工程により符号化する波形符号化工程とを備えてなる音声符号化工程により生成されている。
【００２０】
また、上記音声符号化データは、上記音声信号区間が有声音であるときには上記サイン波分析符号化工程により、無声音であるときには上記波形符号化工程により符号化されている。
【００２１】
また、上記所定時間中に背景雑音を生成するのに用いる過去のパラメータは、上記短期予測残差算出工程が算出した少なくとも短期予測符号化係数である
することのできる。
【００２２】
また、上記所定時間をおいて伝送されてきた複数種類のパラメータ中の上記波形符号化工程からの符号化出力の前回の値との差に応じて上記背景雑音を生成する。ここで、上記波形符号化工程からの符号化出力は、短期予測符号化係数に基づいたゲインインデックスである。
【００２３】
本発明に係る音声復号化装置は、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートにより符号化して、上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータとして伝送されてきた音声符号化データを復号化する音声復号化装置であって、上記背景雑音区間を示す上記基本パラメータが所定時間伝送されてきた後に上記無声音用の音声符号化パラメータが伝送されてきた場合であって、この無声音用の音声符号化パラメータの所定のパラメータの値と、前回送られてきた無声音用の音声符号化パラメータの所定のパラメータの値とを比較して、当該無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータか否かを判定し、上記基本パラメータが上記背景雑音区間を示すとき及び上記無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータであると判定されたときには現在までに送られた無声音用の音声符号化パラメータを用いて上記背景雑音を生成し、背景雑音区間ではないと判断した場合には当該無声音用の音声符号化パラメータを用いて無声音を生成する。
【００２４】
このため、過去の例えば線形予測符号化パラメータをそのまま繰り返し使用することがなく、さらに過去に送られた線形予測符号化パラメータと補間しながら使うので、背景雑音の不自然感を緩和できる。
【００２５】
【発明の実施の形態】
以下、本発明に係る音声符号化方法及び装置、並びに音声復号化方法及び装置の実施の形態について説明する。
【００２６】
この実施の形態は、本発明に係る音声符号化方法及び装置、並びに音声復号化方法及び装置を図１に示すように、音声符号化装置２０、並びに音声復号化装置３１として用いた携帯電話装置である。
【００２７】
この携帯電話装置において、本発明に係る音声符号化方法を適用した音声符号化装置２０は、有声音（Voiced：Ｖ）又は無声音（UnVoiced：ＵＶ）区間に分けられる音声信号区間と、背景雑音（Back grand noize：ＢＧＮ）区間からなる入力信号を、各区間の判定結果に基づいた可変レートで符号化する音声符号化装置であり、上記入力信号を時間軸上で所定の符号化単位で区分して各符号化単位で符号化を行って複数種類の音声符号化パラメータを出力する。
【００２８】
この音声符号化装置２０は、上記判定結果が上記背景雑音区間を示すときには、所定時間をおいて上記複数種類のパラメータを出力する。なお、上記判定結果を示すパラメータについては、基本パラメータ或いはモードビットとして上記所定時間中にも常に出力する。
【００２９】
ここで、入力信号が有声音（Ｖ）又は無声音（ＵＶ）区間であるか、又は背景雑音（ＢＧＮ）区間であるかは、入力信号判定部２１が判定する。
【００３０】
すなわち、この入力信号判定装置２１は、入力端子１から供給され、Ａ／Ｄ変換器１０でディジタル信号に変換された入力信号が、所定時間区間で有声音（Ｖ）、又は無声音（ＵＶ）であるか、又は背景雑音（ＢＧＮ）であるかを判定する。そして、上記無声音であることを示す“０”、上記背景雑音であることを示す“１”、第１有声音であることを示す“２”、又は第２有声音であることを示す“３”というＶ／ＵＶ判定の結果を示すidVUVパラメータを出力する。このidVUVパラメータは、上述したように基本パラメータ或いはモードビットとされて、上記所定時間中にも常に出力される。
【００３１】
この入力信号判定部２１での判定結果、すなわちidVUVパラメータにより、入力信号が背景雑音区間であることを音声符号化装置２０が把握すると、この音声符号化装置２０は、所定時間をおいて、後述するＵＶ用の複数種類のパラメータを出力する。
【００３２】
また、この携帯電話装置において、本発明に係る音声復号化方法を適用した音声復号化装置３１は、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートにより符号化して伝送されてきた音声符号化データを復号化する音声復号化装置であり、上記背景雑音区間中には、所定時間をおいて伝送されてきた複数種類のパラメータを用いて上記背景雑音を生成すると共に、上記所定時間中には過去に送られたパラメータを用いて上記背景雑音を生成する。
【００３３】
また、この携帯電話装置は、送信時には、マイクロホン１から入力された音声信号を、Ａ／Ｄ変換器１０によりディジタル信号に変換し、音声符号化装置２０により上記idVUVパラメータに基づいた可変レートの符号化を施し、伝送路符号化器２２により伝送路の品質が音声品質に影響を受けにくいように符号化した後、変調器２３で変調し、送信機２４で出力ビットに送信処理を施し、アンテナ共用器２５を通して、アンテナ２６から送信する。
【００３４】
また、受信時には、アンテナ２６で捉えた電波を、アンテナ共用器２５を通じて受信機２７で受信し、復調器２９で復調し、伝送路復号化器３０で伝送路誤りを訂正し、音声復号化装置３１で復号し、Ｄ／Ａ変換器３２でアナログ音声信号に戻して、スピーカ３３から出力する。
【００３５】
また、制御部３４は上記各部をコントロールし、シンセサイザ２８は送受信周波数を送信機２４、及び受信機２７に与えている。また、キーパッド３５及びＬＣＤ表示器３６はマンマシンインターフェースに利用される。
【００３６】
次に、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、入力信号判定部２１の判定結果idVUVパラメータに基づいて、可変レートで符号化する音声符号化装置２０について説明する。
【００３７】
先ず、可変レートエンコードを説明しておく。ＬＳＰ量子化インデクス、及び励起パラメータインデクスは、以下の表１に示すように、idVUV判定パラメータが“１”の背景雑音のときには、１フレーム２０msec当たり０ビットにしてしまう。idVUV判定パラメータが“０”の無声音、“２，３”の有声音のときには、そのまま20mseec当たり１８ビット、及び２０ビットとする。これにより可変レートエンコードが実現できる。
【００３８】
【表１】

【００３９】
ここで、idVUV判定パラメータの内の、Ｖ／ＵＶ判定出力となる２ビットは、常に符号化されている。なお、無声音時の励起パラメータインデクスとしては、後述する雑音符号帳のコードブックのシェイプインデクスと、ゲインインデクスが挙げられる。
【００４０】
この音声符号化装置の構成を図２、図３に示す。図２の音声符号化装置２０の基本的な考え方は、入力音声信号の短期予測残差例えばＬＰＣ（線形予測符号化）残差を求めてサイン波分析（sinusoidal analysis ）符号化、例えばハーモニックコーディング（harmonic coding ）を行う第１の符号化部１１０と、入力音声信号に対して位相伝送を行う波形符号化により符号化する第２の符号化部１２０とを有し、入力信号の有声音（Ｖ：Voiced）の部分の符号化には第１の符号化部１１０を用い、入力信号の無声音（ＵＶ：Unvoiced）の部分の符号化には第２の符号化部１２０を用いるようにすることである。
【００４１】
上記第１の符号化部１１０には、例えばＬＰＣ残差をハーモニック符号化やマルチバンド励起（ＭＢＥ）符号化のようなサイン波分析符号化を行う構成が用いられる。上記第２の符号化部１２０には、例えば合成による分析法を用いて最適ベクトルのクローズトループサーチによるベクトル量子化を用いた符号励起線形予測（ＣＥＬＰ）符号化の構成が用いられる。
【００４２】
図２の例では、入力端子１０１に供給された音声信号が、第１の符号化部１１０のＬＰＣ逆フィルタ１１１及びＬＰＣ分析・量子化部１１３に送られている。ＬＰＣ分析・量子化部１１３で得られたＬＰＣ係数あるいはいわゆるαパラメータは、ＬＰＣ逆フィルタ１１１に送られて、このＬＰＣ逆フィルタ１１１により入力音声信号の線形予測残差（ＬＰＣ残差）が取り出される。また、ＬＰＣ分析・量子化部１１３からは、後述するようにＬＳＰ（線スペクトル対）の量子化出力が取り出され、これが出力端子１０２に送られる。ＬＰＣ逆フィルタ１１１からのＬＰＣ残差は、サイン波分析符号化部１１４に送られる。サイン波分析符号化部１１４では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、上記入力信号判定部２１と同一構成の入力信号判定部１１５により入力信号の上記idVUVパラメータが求められる。サイン波分析符号化部１１４からのスペクトルエンベロープ振幅データはベクトル量子化部１１６に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部１１６からのコードブックインデクスは、スイッチ１１７を介して出力端子１０３に送られ、サイン波分析符号化部１１４からのピッチ出力は、スイッチ１１８を介して出力端子１０４に送られる。また、入力信号判定部１１５からのidVUV判定パラメータ出力は出力端子１０５に送られると共に、スイッチ１１７、１１８及び図３に示すスイッチ１１９の制御信号に使われる。スイッチ１１７、１１８は、上記制御信号により有声音（Ｖ）のとき上記インデクス及びピッチを選択して各出力端子１０３及び１０４からそれぞれ出力する。
【００４３】
また、上記ベクトル量子化部１１６でのベクトル量子化の際には、例えば、周波数軸上の有効帯域１ブロック分の振幅データに対して、ブロック内の最後のデータからブロック内の最初のデータまでの値を補間するようなダミーデータ，又は最後のデータ及び最初のデータを延長するようなダミーデータを最後と最初に適当な数だけ付加してデータ個数をＮ_F 個に拡大した後、帯域制限型のＯ_S 倍（例えば８倍）のオーバーサンプリングを施すことによりＯ_S 倍の個数の振幅データを求め、このＯ_S 倍の個数（（ｍ_MX＋１）×Ｏ_S 個）の振幅データを直線補間してさらに多くのＮ_M 個（例えば２０４８個）に拡張し、このＮ_M 個のデータを間引いて上記一定個数Ｍ（例えば４４個）のデータに変換した後、ベクトル量子化している。
【００４４】
図２の第２の符号化部１２０は、この例ではＣＥＬＰ（符号励起線形予測）符号化構成を有しており、雑音符号帳１２１からの出力を、重み付きの合成フィルタ１２２により合成処理し、得られた重み付き音声を減算器１２３に送り、入力端子１０１に供給された音声信号を聴覚重み付けフィルタ１２５を介して得られた音声との誤差を取り出し、この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳１２１でサーチするような、合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このＣＥＬＰ符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳１２１からのＵＶデータとしてのコードブックインデクスは、上記入力信号判定部１１５からのidVUV判定パラメータが無声音（ＵＶ）のときオンとなるスイッチ１２７を介して、出力端子１０７より取り出される。
【００４５】
また、スイッチ１２７の制御信号となるidVUV判定パラメータが“１”となり入力信号が背景雑音信号であると判定したときには、所定時間、例えば８フレーム分の時間をおいて無声音時の複数のパラメータ、例えば雑音符号帳１２１からのＵＶデータとしてのシェイプインデクスやゲインインデクスを送る。
【００４６】
次に、上記図２に示した音声信号符号化装置のより具体的な構成について、図３を参照しながら説明する。なお、図３において、上記図２の各部と対応する部分には同じ指示符号を付している。
【００４７】
この図３に示された音声信号符号化装置において、入力端子１０１に供給された音声信号は、ハイパスフィルタ（ＨＰＦ）１０９にて不要な帯域の信号を除去するフィルタ処理が施された後、ＬＰＣ（線形予測符号化）分析・量子化部１１３のＬＰＣ分析回路１３２と、ＬＰＣ逆フィルタ回路１１１とに送られる。
【００４８】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２は、入力信号波形の２５６サンプル程度の長さを１ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、１６０サンプル程度とする。サンプリング周波数ｆｓが例えば８ｋHzのとき、１フレーム間隔は１６０サンプルで２０ｍsec となる。
【００４９】
ＬＰＣ分析回路１３２からのαパラメータは、α→ＬＳＰ変換回路１３３に送られて、線スペクトル対（ＬＳＰ）パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば１０個、すなわち５対のＬＳＰパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このＬＳＰパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【００５０】
α→ＬＳＰ変換回路１３３からのＬＳＰパラメータは、ＬＳＰ量子化器１３４によりマトリクスあるいはベクトル量子化される。このとき、このＬＳＰ量子化器１３４は、リーキングファクタを有する差分ベクトル量子化（差分ＶＱ）を行っても良い。差分ＶＱの量子化効率はマトリクス量子化（ＭＱ）に比べると優れており、また、ＭＱのように量子化誤差が一方のフレームに偏ることがないため、滑らかで異音の少ない音声が得られる。しかし、差分ＶＱでは一度エラーが起こると、その影響がしばらく続くので、差分のリーク量を大目にとるようにしている。しかし、入力信号判定部１１５で、背景雑音と判断されたときには、ＬＳＰは送らないので、ＬＳＰ量子化器１３４では、差分量子化の一種である上記差分ＶＱを行わない。
【００５１】
このＬＳＰ量子化器１３４からの量子化出力、すなわちＬＳＰ量子化のインデクスは、スイッチ１１９によって切り換えられてから、端子１０２を介して取り出され、また量子化済みのＬＳＰベクトルは、ＬＳＰ補間回路１３６に送られる。ここで、スイッチ１１９は、上記入力信号判定部１１５からのidVUV判定フラグにより切り換えが制御され、例えば有声音（Ｖ）のときにオンとなる。
【００５２】
また、ＬＳＰ補間回路１３６は、２０ｍsec毎に量子化されたＬＳＰのベクトルを補間し、８倍のレートにする。すなわち、２．５ｍsec 毎にＬＳＰベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、ＬＰＣ係数が２０ｍsec 毎に急激に変化すると異音を発生することがあるからである。すなわち、２．５ｍsec 毎にＬＰＣ係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【００５３】
このような補間が行われた２．５ｍsec 毎のＬＳＰベクトルを用いて入力音声の逆フィルタリングを実行するために、ＬＳＰ→α変換回路１３７により、ＬＳＰパラメータを例えば１０次程度の直接型フィルタの係数であるαパラメータに変換する。このＬＳＰ→α変換回路１３７からの出力は、上記ＬＰＣ逆フィルタ回路１１１に送られ、このＬＰＣ逆フィルタ１１１では、２．５ｍsec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このＬＰＣ逆フィルタ１１１からの出力は、サイン波分析符号化部１１４、具体的には例えばハーモニック符号化回路、の直交変換回路１４５、例えばＤＦＴ（離散フーリエ変換）回路に送られる。
【００５４】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２からのαパラメータは、聴覚重み付けフィルタ算出回路１３９に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器１１６と、第２の符号化部１２０の聴覚重み付けフィルタ１２５及び聴覚重み付きの合成フィルタ１２２とに送られる。
【００５５】
ハーモニック符号化回路等のサイン波分析符号化部１１４では、ＬＰＣ逆フィルタ１１１からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Ａｍの算出、有声音（Ｖ）／無声音（ＵＶ）の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Ａｍの個数を次元変換して一定数にしている。
【００５６】
図３に示すサイン波分析符号化部１１４の具体例においては、一般のハーモニック符号化を想定しているが、特に、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化の場合には、同時刻（同じブロックあるいはフレーム内）の周波数軸領域いわゆるバンド毎に有声音（Voiced）部分と無声音（Unvoiced）部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、１ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のＶ／ＵＶとは、ＭＢＥ符号化に適用した場合には全バンドがＵＶのときを当該フレームのＵＶとしている。ここで上記ＭＢＥの分析合成手法については、本件出願人が先に提案した特願平４−９１４２２号明細書及び図面に詳細な具体例を開示している。
【００５７】
図３のサイン波分析符号化部１１４のオープンループピッチサーチ部１４１には、上記入力端子１０１からの入力音声信号が、またゼロクロスカウンタ１４２には、上記ＨＰＦ（ハイパスフィルタ）１０９からの信号がそれぞれ供給されている。サイン波分析符号化部１１４の直交変換回路１４５には、ＬＰＣ逆フィルタ１１１からのＬＰＣ残差あるいは線形予測残差が供給されている。オープンループピッチサーチ部１４１では、入力信号のＬＰＣ残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ１４６に送られて、後述するようなクローズドループによる高精度のピッチサーチ（ピッチのファインサーチ）が行われる。また、オープンループピッチサーチ部１４１からは、上記粗ピッチデータと共にＬＰＣ残差の自己相関の最大値をパワーで正規化した正規化自己相関最大値ｒ(p) が取り出され、入力信号判定部１１５に送られている。
【００５８】
直交変換回路１４５では例えばＤＦＴ（離散フーリエ変換）等の直交変換処理が施されて、時間軸上のＬＰＣ残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路１４５からの出力は、高精度ピッチサーチ部１４６及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部１４８に送られる。
【００５９】
高精度（ファイン）ピッチサーチ部１４６には、オープンループピッチサーチ部１４１で抽出された比較的ラフな粗ピッチデータと、直交変換部１４５により例えばＤＦＴされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部１４６では、上記粗ピッチデータ値を中心に、0.２〜0.５きざみで±数サンプルずつ振って、最適な小数点付き（フローティング）のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部１４６からのピッチデータについては、スイッチ１１８を介して出力端子１０４に送っている。
【００６０】
スペクトル評価部１４８では、ＬＰＣ残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部１４６及び聴覚重み付きのベクトル量子化器１１６に送られる。
【００６１】
入力信号判定部１１５は、オープンループピッチサーチ部１４１からの正規化自己相関最大値ｒ(p) と、ゼロクロスカウンタ１４２からのゼロクロスカウント値とに基づいて、当該フレームが上記有声音であるか、無声音であるか、あるいは背景雑音であるかの判定を行い、上記idVUV判定パラメータを出力する。この入力信号判定部１１５からの上記idVUV判定パラメータは、出力端子１０５を介して取り出されると共に、上述したように、スイッチ１１９及び、スイッチ１１７、１１８及び１２７の切り換え制御信号としても用いられる。
【００６２】
ところで、スペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部には、データ数変換（一種のサンプリングレート変換）部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ｜Ａ_m｜を一定の個数にするためのものである。すなわち、例えば有効帯域を３４００ｋHzまでとすると、この有効帯域が上記ピッチに応じて、８バンド〜６３バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ｜Ａ_m｜の個数ｍ_MX＋１も８〜６３と変化することになる。このためデータ数変換部では、この可変個数ｍ_MX＋１の振幅データを一定個数Ｍ個、例えば４４個、のデータに変換している。
【００６３】
このスペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部に設けられたデータ数変換部からの上記一定個数Ｍ個（例えば４４個）の振幅データあるいはエンベロープデータが、ベクトル量子化器１１６により、所定個数、例えば４４個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路１３９からの出力により与えられる。ベクトル量子化器１１６からの上記エンベロープのインデクスは、スイッチ１１７を介して出力端子１０３より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【００６４】
次に、第２の符号化部１２０について説明する。第２の符号化部１２０は、いわゆるＣＥＬＰ（符号励起線形予測）符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のＣＥＬＰ符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック（stochastic code book）１２１からの代表値出力である無声音のＬＰＣ残差に相当するノイズ出力を、ゲイン回路１２６を介して、聴覚重み付きの合成フィルタ１２２に送っている。重み付きの合成フィルタ１２２では、入力されたノイズをＬＰＣ合成処理し、得られた重み付き無声音の信号を減算器１２３に送っている。減算器１２３には、上記入力端子１０１からＨＰＦ（ハイパスフィルタ）１０９を介して供給された音声信号を聴覚重み付けフィルタ１２５で聴覚重み付けした信号が入力されており、合成フィルタ１２２からの信号との差分あるいは誤差を取り出している。なお、聴覚重み付けフィルタ１２５の出力から聴覚重み付き合成フィルタの零入力応答を事前に差し引いておくものとする。この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳１２１でサーチする。このような合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。
【００６５】
このＣＥＬＰ符号化構成を用いた第２の符号化部１２０からのＵＶ（無声音）部分用のデータとしては、雑音符号帳１２１からのコードブックのシェイプインデクスと、ゲイン回路１２６からのコードブックのゲインインデクスとが取り出される。雑音符号帳１２１からのＵＶデータであるシェイプインデクスは、スイッチ１２７ｓを介して出力端子１０７ｓに送られ、ゲイン回路１２６のＵＶデータであるゲインインデクスは、スイッチ１２７ｇを介して出力端子１０７ｇに送られている。
【００６６】
ここで、これらのスイッチ１２７ｓ、１２７ｇ及び上記スイッチ１１７、１１８は、上記入力信号判定部１１５からのidVUV判定パラメータによりオン／オフ制御され、スイッチ１１７、１１８は、現在伝送しようとするフレームの音声信号のidVUV判定パラメータが有声音（Ｖ）のときオンとなり、スイッチ１２７ｓ、１２７ｇは、現在伝送しようとするフレームの音声信号が無声音（ＵＶ）のときオンとなる。また、idVUV判定パラメータが背景雑音を表すとき、上記スイッチ１２７ｓ、１２７ｇは、８フレーム時間毎にオンとされ、上記シェイプインデクス、ゲインインデクスを出力する。また、上記スイッチ１１９も８フレーム時間毎にオンとされ、上記ＵＶ用のＬＳＰインデクスを出力する。これらが、上述したＵＶ用の複数種類のパラメータである。
【００６７】
図４には、上記入力信号判定部（図中、入力信号判定装置と記す。）１１５の詳細な構成を示す。すなわち、この入力信号判定部１１５は、入力端子１から実効（root mean square、r.m.s）値演算部２を介して入力された入力信号（実効値）の最小レベルを所定時間区間、例えば２０msecで検出し、この最小レベルを保持する最小レベル演算部４と、上記実効値演算部２からの入力信号実効値からリファレンスレベルを演算により求めるリファレンスレベル演算部５とを備え、最小レベル演算部４からの最小レベルとリファレンスレベル演算部５からのリファレンスレベルとに基づいて上記入力信号が所定時間区間で有声音（Voice）、又は無声音（UnVoice）であるか、又は背景雑音であるかを判定する。そして、上記無声音であることを示す“０”、上記背景雑音であることを示す“１”、第１有声音であることを示す“２”、又は第２有声音であることを示す“３”というＶ／ＵＶ判定の結果を示すidVUVパラメータを出力する。
【００６８】
また、この入力信号判定装置２１は、上記実効値演算部２からの入力信号実効値の所定時間区間分に対して仮に有声音（Ｖ）／無声音（ＵＶ）とを判定するＶ／ＵＶ判定部３を備え、最小レベル演算部４にＶ／ＵＶ判定結果を供給する。最小レベル演算部４は、このＶ／ＵＶ判定結果に基づいて上記最小レベルを演算する。
【００６９】
また、Ｖ／ＵＶ判定部３からのＶ／ＵＶ判定結果はパラメータ生成部８にも供給される。このパラメータ生成部８は、出力端子１０５から上記idVUVパラメータを出力する。
【００７０】
このパラメータ生成部８は、最小レベル演算部４からの最小レベルとリファレンスレベル演算部５からのリファレンスレベルとを比較する比較部７からの比較結果と、上記Ｖ／ＵＶ判定部３からのＶ／ＵＶ判定結果に基づいて上記idVUVパラメータを出力する。
【００７１】
以下、この入力信号判定装置２１の動作について説明する。
例えば、走行している電車の中では、背景雑音のレベルが高い。そこで、周りの雑音に合わせてしきい値（スレショルド）を決定することが望ましい。
【００７２】
そこで、上記最小レベル演算部４では、適当な所定時間区間で一番小さいレベルを最小レベルとし、その最小レベルを上記所定時間毎に更新していく。
【００７３】
図５は最小レベル演算部４のアルゴリズムを示すフローチャートである。このフローチャートでは、最小レベルの更新（トラッキング）を、最小レベル候補値cdLevのセットとクリア、及び最小レベルgmlのセットとクリアに大きく分けている。
【００７４】
先ず、ステップＳ１で、Ｖ／ＵＶ判定部３からのＶ／ＵＶ判定結果に基づいて有声音フレームの連続回数vContが４より多い整数となるかを判断する。すなわち、有声音Ｖと判断されたフレームが４より大きな整数回、つまり５フレーム連続したか否かを判断する。ここで、有声音フレームが５フレーム以上連続している場合は、音声区間に入っていると判断し、ステップＳ２に進み、最小レベル候補値cdLevをクリアする。このステップＳ２では、候補値が設定され続けた回数gmlSetStateは０である。一方、ステップＳ１で、有声音フレームの連続回数vContが４以下であると判断すると、ステップＳ３に進む。
【００７５】
ステップＳ３では、現在の入力信号の実効値演算部２を介した入力レベルlevが最小レベルの最低値MIN_GMLより小さいか否かを判断する。ここでいう、最小レベルの最低値MIN_GMLは、最小レベルgmlが０とならないように決定されている。ここで、入力レベルlevが最小レベルの最低値MIN_GMLより小さいと判断すると、ステップＳ４で上記最小レベルの最低値MIN_GMLを最小レベルgmlとして設定する。このステップＳ４では、候補値が設定され続けた回数gmlSetStateと、最小レベルが設定された後、候補値が設定されていない回数gmlResetStateとは０である。一方、ステップＳ３で現在の入力レベルlevは最小レベルの最低値MIN_GML以上であると判断するとステップＳ５に進む。
【００７６】
ステップＳ５では、現在の入力レベルlevが最小レベルgmlより小さいか否かを判断する。ここでＹＥＳとなれば、ステップＳ６に進む。すなわち、このステップＳ６は、上記ステップＳ３の判断で現在の入力レベルlevが最小レベルの最低値MIN_GML以上であり、さらに上記ステップＳ５で現在の入力レベルlevが最小レベルgmlより小さいと判断されたときに、その入力レベルlevを最小レベルgmlとして設定する。一方、このステップＳ５で現在の入力レベルlevが最小レベルgml以上であると判断すると、ステップＳ７に進む。
【００７７】
ステップＳ７では、現在の入力レベルが充分小さいか、候補値cdLevとの変動が小さいか否かを判断する。このステップＳ７では、現在の入力レベルが充分小さいか、候補値cdLevとの変動が小さいかという判断を、status０であるか否かで判断している。status０は、入力レベルlevが100.0以下というように充分小さいか、又は、入力レベルが500.0以下で候補値cdLev＊0.70より大きく、かつ候補値cdLev＊1.30より小さいというように候補値cdLevとの変動が小さいことを表す状態である。ここで、ＹＥＳを選択し、現在の入力レベルが充分小さいか、又は候補値cdLevとの変動が小さいと判断すると、候補値cdLevが更新される。一方、ＮＯを選択するとステップＳ１１に進む。
【００７８】
ステップＳ８では、候補値cdLevが更新され続けた回数gmlSetStateが７回以上であるか否か、すなわち候補値cdLevの更新が７フレーム連続するか否かを判断する。ここで、候補値cdLevの更新が７フレーム以上連続したと判断すれば、ステップＳ９に進み、そのときの入力レベルlevを最小レベルgmlとする。候補値cdLevの更新が６フレーム以内であれば、ＮＯとなり、ステップＳ１０で入力レベルlevを候補値cdLevとする。
【００７９】
一方、ステップＳ７での判断でＮＯとなった後に進んだステップＳ１１では、１フレーム過去の入力レベルprevLevと現在の入力レベルlevの変動が小さいか否かを判断する。この１フレーム過去の入力レベルprevLevと現在の入力レベルlevの変動が小さいか否かの判断は、status１であるか否かの判断で行っている。status１は、現在の入力レベルlevが100.0以下というように充分小さいか、又は現在の入力レベルlevが500.0以下で１フレーム過去の入力レベルprevLev＊0.70より大きく、かつ１フレーム過去の入力レベルprevLev＊1.30より小さいというように１フレーム過去の入力レベルprevLevとの変動が小さいことを表す状態である。ここで、ＹＥＳを選択し、現在の入力レベルが充分小さいか、又は１フレーム過去の入力レベルと現在の入力レベルの変動が小さい場合には、ステップＳ１２に進み、現在の入力レベルlevを最小レベル候補値cdLevに設定する。一方、ステップＳ１１で現在の入力レベルが小さくないか、又は１フレーム過去の入力レベルと現在の入力レベルの変動が小さくないと判断すると、ステップＳ１３に進む。
【００８０】
ステップＳ１３では、最小レベルが設定された後、候補値が設定されていない回数gmlResetStateが４０より大きいか否かを判断する。ここで、ＮＯとなり候補値が設定されていない回数gmlResetStateが４０以下であるときには、ステップＳ１４で最小レベル候補値cdLevをクリアし、予め定めた最小値をセットする。一方ここで、ＹＥＳとなり、候補値が設定されていない回数gmlResetStateが４０回を越えていると判断すると、ステップＳ１５に進み、最小レベルgmlは最小レベルの最低値MIN_GMLに設定される。
【００８１】
以上のように最小レベルはある時間保持され、順次更新される。
【００８２】
次に、リファレンスレベル演算部５の動作について図６を用いて説明する。このリファレンスレベル演算部５は、リファレンスレベルrefLevを次の（１）式で算出する。
【００８３】
refLev＝Ａ×max（lev,refLev）＋（1.0−Ａ）×min（lev,refLev）
・・・（１）
この（１）式において、入力端子６から与えるＡ＝０．７５としたときの入力レベルlevとリファレンスレベルrefLevとの関係を図６に示す。リファレンスレベルrefLevは、立ち上がりは入力レベルlevと同様に立ち上がるが、立ち下がりでは緩やかに減少していく。このため、上記リファレンスレベルを用いることで、音声信号区間において、瞬間的にたまたまレベルが下がった状態を背景雑音区間として判定してしまうことを防いでいる。このように、リファレンスレベル演算部５は、瞬間的なレベル変動に対してもある程度余裕を持たせるような滑らかなレベルを演算する。
【００８４】
比較部７は、最小レベル演算部４からの最小レベルに所定の定数Ｂを掛けたＢ×gmlと上記リファレンスレベル演算部５からのリファレンスレベルrefLevとを比較する。そして、その比較結果は、パラメータ生成部８に送られる。
【００８５】
パラメータ生成部８は、Ｖ／ＵＶ判定部３での判定結果により、Ｖと判定されたフレームについては、上記（１）式に示したリファレンスレベルrefLevが最小レベルgmlのＢ倍より小さいか否かを調べ、小さいときには背景雑音区間と判断する。ただし、過去のＶ／ＵＶ判断を調べ、Ｖのフレームが２フレーム以上連続している場合は音声区間が始まっているものとし、背景雑音区間と判断することはない。すなわち、現在のフレームがＶと判断されたときは、過去Ｖフレームが連続しているかを調べ、連続している場合には背景雑音モードに入らない。これは、Ｖフレームが連続しているときに背景雑音モードに入ると不連続感が生じるためである。
【００８６】
また、パラメータ生成部８は、Ｖ／ＵＶ判定部３からの判定結果がＵＶと判定されたフレームについては、Ｖの場合と同様に、リファレンスレベルrefLevが最小レベルgmlのＢ倍より小さいかを調べ、この条件を４回満たした場合、背景雑音区間と判断する。すなわち、ＵＶと判断された場合は、４フレーム連続で上記条件を満たした後、背景雑音区間と判断する。
【００８７】
なお、上記Ｂは適当な定数であり、ここでは２．０と定める。また、このような定数とせずに入力レベルlevの分散に比例した量とすることも考えられる。
【００８８】
そして、パラメータ生成部８は、出力端子１０５からidVUVパラメータを出力する。
【００８９】
このようにして、入力信号判定装置２１は、最小レベルgmlを更新しながら、それを元に音声信号区間と背景雑音区間とのしきい値（スレショルド）gml×Ｂを変化できるので、このスレショルドgml×ＢとリファレンスレベルrefLevを比較することにより音声信号区間と背景雑音区間との高精度な区別を可能とする。
【００９０】
ここで、図１に戻る。音声復号化装置３１は、他の携帯電話装置の上記音声符号化装置２０により可変レート符号化された上記符号化データをアンテナ２６、アンテナ共用器２５、受信機２７、復調器２９及び伝送路復号化器３０を介して受け取り、復号化する。
【００９１】
この音声復号化装置３１は、上述したように、音声符号化装置２０から上記所定時間中にも常に伝送されてくるidVUV判定パラメータに基づいて、上記符号化データを復号化する。特に、idVUV判定パラメータが背景雑音区間を示す“１”であれば、８フレーム分をおいて伝送されてきた上記複数種類のパラメータ、例えば雑音符号帳のシェイプインデクスや、ゲインインデクス、又はＬＳＰパラメータを用いて、背景雑音を生成すると共に、８フレーム中では過去に送られてきた線スペクトル対（ＬＳＰ）パラメータを補間して上記背景雑音を生成する。
【００９２】
実際に、音声復号化装置３１では、常に、前回送られたＬＳＰ（prevLsp1）と前々回送られたＬＳＰ（prevLsp2）を、例えばＲＡＭ内に保持している。
【００９３】
そして、上記idVUV判定パラメータが背景雑音モードに入ると、新たなＬＳＰは送られてこないので、prevLsp1、prevLsp2の更新を行ず、この二つのＬＳＰを線形補間することにより、現在のフレームのＬＳＰとし、背景雑音を形成する。
【００９４】
背景雑音モード中、８フレーム目に通常のＵＶとして音声符号化装置側からＵＶの全パラメータが送られてくるが、このときゲイン回路１２６からのゲインインデクスを調べ、インデックスが前回送られたインデックス＋２より小さければ、そのフレームの合成に用いるＬＳＰを前回送られたパラメータに置き換える。この動作については後述する。ただし、ゲインインデクスは小さい順にソートされているものとする。
【００９５】
このような音声復号化装置３１の構成を図７及び図８に示す。図７は、音声復号化装置３１の基本構成を示すブロック図である。
【００９６】
この図７において、入力端子２０２には上記図２の出力端子１０２からの上記ＬＳＰ（線スペクトル対）の量子化出力としてのコードブックインデクスが入力される。入力端子２０３、２０４、及び２０５には、上記図２の各出力端子１０３、１０４、及び１０５からの各出力、すなわちエンベロープ量子化出力としてのインデクス、ピッチ、及びＶ／ＵＶ判定出力がそれぞれ入力される。また、入力端子２０７には、上記図２の出力端子１０７からのＵＶ（無声音）用のデータとしてのインデクスが入力される。
【００９７】
入力端子２０３からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化され、ＬＰＣ残差のスペクトルエンベロープが求められて有声音合成部２１１に送られる。有声音合成部２１１は、サイン波合成により有声音部分のＬＰＣ（線形予測符号化）残差を合成するものであり、この有声音合成部２１１には入力端子２０４及び２０５からのピッチ及びidVUV判定パラメータも供給されている。有声音合成部２１１からの有声音のＬＰＣ残差は、ＬＰＣ合成フィルタ２１４に送られる。また、入力端子２０７からのＵＶデータのインデクスは、無声音合成部２２０に送られて、雑音符号帳を参照することにより無声音部分のＬＰＣ残差が取り出される。このＬＰＣ残差もＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４では、上記有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とがそれぞれ独立に、ＬＰＣ合成処理が施される。あるいは、有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とが加算されたものに対してＬＰＣ合成処理を施すようにしてもよい。ここで入力端子２０２からのＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３に送られて、ＬＰＣのαパラメータが取り出され、これがＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４によりＬＰＣ合成されて得られた音声信号は、出力端子２０１より取り出される。
【００９８】
ここで、入力端子２０５に供給されたidVUV判定パラメータと入力端子２０７に供給された上記ＵＶデータとしての雑音符号帳のシェイプインデクス及びゲインインデクスは、上記ＬＰＣパラメータ生成部２１３でのＬＰＣパラメータの再生を制御するＬＰＣパラメータ再生制御部２４０に送られる。
【００９９】
このＬＰＣ再生制御部２４０により制御され、ＬＰＣパラメータ再生部２１３は、背景雑音信号生成用のＬＰＣを生成し、ＬＰＣ合成フィルタ２１４に送る。
【０１００】
次に、図８は、上記図７に示した音声復号化装置３１のより具体的な構成を示している。この図８において、上記図７の各部と対応する部分には、同じ指示符号を付している。
【０１０１】
この図８において、入力端子２０２には、上記図２、３の出力端子１０２からの出力に相当するＬＳＰのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【０１０２】
このＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３のＬＳＰの逆ベクトル量子化器２３１に送られてＬＳＰ（線スペクトル対）データに逆ベクトル量子化され、スイッチ２４３を介してＬＳＰ補間回路２３２、２３３に送られてＬＳＰの補間処理が施された後、ＬＳＰ→α変換回路２３４、２３５でＬＰＣ（線形予測符号）のαパラメータに変換され、このαパラメータがＬＰＣ合成フィルタ２１４に送られる。ここで、ＬＳＰ補間回路２３２及びＬＳＰ→α変換回路２３４は有声音（Ｖ）用であり、ＬＳＰ補間回路２３３及びＬＳＰ→α変換回路２３５は無声音（ＵＶ）用である。またＬＰＣ合成フィルタ２１４は、有声音部分のＬＰＣ合成フィルタ２３６と、無声音部分のＬＰＣ合成フィルタ２３７とを分離している。すなわち、有声音部分と無声音部分とでＬＰＣの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるＬＳＰ同士を補間することによる悪影響を防止している。
【０１０３】
また、図８の入力端子２０３には、上記図２、図３のエンコーダ側の端子１０３からの出力に対応するスペクトルエンベロープ（Ａｍ）の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子２０４には、上記図２、図３の端子１０４からのピッチのデータが供給され、入力端子２０５には、上記図２、図３の端子１０５からのidVUV判定パラメータが供給されている。
【０１０４】
入力端子２０３からのスペクトルエンベロープＡｍのベクトル量子化されたインデクスデータは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部２１１のサイン波合成回路２１５に送られている。
【０１０５】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【０１０６】
サイン波合成回路２１５には、入力端子２０４からのピッチ及び入力端子２０５からの上記idVUV判定パラメータが供給されている。サイン波合成回路２１５からは、上述した図２、図３のＬＰＣ逆フィルタ１１１からの出力に相当するＬＰＣ残差データが取り出され、これが加算器２１８に送られている。このサイン波合成の具体的な手法については、例えば本件出願人が先に提案した、特願平４−９１４２２号の明細書及び図面、あるいは特願平６−１９８４５１号の明細書及び図面に開示されている。
【０１０７】
また、逆ベクトル量子化器２１２からのエンベロープのデータと、入力端子２０４、２０５からのピッチ、idVUV判定パラメータとは、有声音（Ｖ）部分のノイズ加算のためのノイズ合成回路２１６に送られている。このノイズ合成回路２１６からの出力は、重み付き重畳加算回路２１７を介して加算器２１８に送っている。これは、サイン波合成によって有声音のＬＰＣ合成フィルタへの入力となるエクサイテイション（Excitation：励起、励振）を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びＶ（有声音）とＵＶ（無声音）とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のＬＰＣ合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ、スペクトルエンベロープ振幅、フレーム内の最大振幅、残差信号のレベル等を考慮したノイズをＬＰＣ残差信号の有声音部分に加えているものである。
【０１０８】
加算器２１８からの加算出力は、ＬＰＣ合成フィルタ２１４の有声音用の合成フィルタ２３６に送られてＬＰＣの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ２３８ｖでフィルタ処理された後、加算器２３９に送られる。
【０１０９】
次に、図８の入力端子２０７ｓ及び２０７ｇには、上記図３の出力端子１０７ｓ及び１０７ｇからのＵＶデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部２２０に送られている。端子２０７ｓからのシェイプインデクスは、無声音合成部２２０の雑音符号帳２２１に、端子２０７ｇからのゲインインデクスはゲイン回路２２２にそれぞれ送られている。雑音符号帳２２１から読み出された代表値出力は、無声音のＬＰＣ残差に相当するノイズ信号成分であり、これがゲイン回路２２２で所定のゲインの振幅となり、窓かけ回路２２３に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。
【０１１０】
窓かけ回路２２３からの出力は、無声音合成部２２０からの出力として、ＬＰＣ合成フィルタ２１４のＵＶ（無声音）用の合成フィルタ２３７に送られる。合成フィルタ２３７では、ＬＰＣ合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ２３８ｕでフィルタ処理された後、加算器２３９に送られる。
【０１１１】
加算器２３９では、有声音用ポストフィルタ２３８ｖからの有声音部分の時間波形信号と、無声音用ポストフィルタ２３８ｕからの無声音部分の時間波形データとが加算され、出力端子２０１より取り出される。
【０１１２】
また、ＬＰＣパラメータ再生部２１３内部には、背景雑音信号生成用に用いられるＬＰＣパラメータを再生するためのＬＳＰ補間回路２４５と、ＬＳＰ→α変換回路２４７も上記スイッチ２４３の後段に設けられている。さらに、上記ＬＳＰの逆量子化器２３１により得られた上記prevLSP1とprevLSP2を保持しておくためのＲＡＭ２４４と、８フレームの間隔があいている上記prevLSP1とprevLSP2との補間をフレーム間隔に補正するためのフレーム補間部２４５も備えている。
【０１１３】
ＬＳＰ→α変換回路２４７からのBGN用のαパラメータは、ＬＰＣ合成フィルタ２１４の無声音部分のＬＰＣ合成フィルタ２３７に送られる。
【０１１４】
また、上記ＬＰＣパラメータ再生制御部２４０は、入力端子２０７ｇからの上記ＵＶデータ用のゲインインデスクが、前回送られたインデックス＋２より小さいか否かを判定するインデックス判定部２４２と、このインデクス判定部２４２からの判定結果と上記入力端子２０５から供給されるidVUV判定パラメータとに基づいて上記スイッチ２４３の切り換えを制御する切り換え制御部２４１とを備えてなる。
【０１１５】
上記idVUV判定パラメータが１であるとき、すなわち背景雑音区間であることを示す上記基本パラメータとなるモードビットを受信したときのこの音声復号化装置３１の動作を、図９に示すフローチャートを用いて説明する。
【０１１６】
先ず、ステップＳ２１でidVUV判定パラメータが１であるとき、ＬＰＣパラメータ再生制御部２４０の切り換え制御部２４１は、切り換えスイッチ２４３をオフにする。そして、ステップＳ２２に進み、ＬＳＰ補間回路２４６で上記ＲＡＭ２４４に保持されたPrevLSP１とPrevLSP2をフレーム補間回路２４５を通して得たフレーム毎の直線補間値を使ってBGN用のＬＳＰを求める。そして、このBGN用のＬＳＰは、UV用の合成フィルタ２３７に供給され、背景雑音が合成される。
【０１１７】
なお、音声符号化装置２０からは、背景雑音区間と判断されたフレームが連続８フレームとなると、次の９フレーム目は通常のＵＶデータ用のシェイプインデクス、ゲインインデクス及びＬＳＰパラメータが送られてくる。ここで、音声符号化装置２０では、９フレーム目に本当にidVUV判定パラメータがＵＶになることがないとは限らない。そこで、音声復号化装置３１側では、本当のＵＶ用データなのか、あるいは単に９フレーム目に送られたＵＶ用の全パラメータなのかを判断する必要がある。
【０１１８】
そこで、ＬＰＣパラメータ再生制御部２４０では、ステップＳ２３でidＶＵＶ＝０であるとき、ステップＳ２４に進み、インデクス判定部２４２により入力端子２０７ｇを介して送られてきたＵＶデータ用のゲインインデクスを調べ、ステップＳ２６のルーティンの処理か、ステップＳ２７の本来のＵＶの処理かを判断する。具体的には、上述したように、入力端子２０７ｇからの上記ＵＶデータ用のゲインインデスクが、前回送られたインデクス＋２より小さいか否かを判定する。９フレーム目に送られてきたＵＶデータ用のインデクスが音声としてのＵＶ用インデクスであれば前回送られたゲインインデクスのパラメータよりも大きいはずである。
【０１１９】
ステップＳ２４で上記ゲインインデクスが前回送られてきたインデクス＋２より小さいとなれば、これは９フレーム目に送られたＵＶデータ用の、すなわちルーティン用のデータであると判断し、ステップＳ２６に進み、切り換え制御部２４１により、スイッチ２４３をＬＳＰ補間回路２４６側に接続し、上記PrevLSP１とPrevLSP2を用いた直線補間により求めた値に変えて、ＵＶ用に送られたＬＳＰ逆量子化部２３１からのＬＳＰパラメータをＬＳＰ補間回路２４６に供給する。ＬＳＰ補間回路２４６では、このアップデートされたＬＳＰパラメータを、そのままＬＳＰ→α変換回路２４７に供給する。そして、ＬＳＰ→α変換回路２４７からのBGN用のαパラメータは、ＬＰＣ合成フィルタ２１４の無声音部分のＬＰＣ合成フィルタ２３７に送られ、９フレーム目には８フレーム間の背景雑音とは異なった背景雑音が得られることになる。このため、背景雑音の不自然さを緩和することができる。
【０１２０】
また、ステップＳ２４で上記ゲインインデクスが前回送られてきたインデクス＋２以上より大きいとなれば、これは９フレーム目に送られてきたのは、本当のＵＶ用のパラメータであると判断し、ステップＳ２７に進む。ステップＳ２７では、切り換え制御部２４１がスイッチ２４３をＵＶ用のＬＳＰ補間回路２３３に切り換えて、通常のＵＶ用のＬＳＰ補間により得られたＬＳＰを使った無声音の合成が行われる。
【０１２１】
一方、上記ステップＳ２３でidVUV判定パラメータが０でないと判断すると、ステップＳ２５に進み、ＵＶ用のＬＳＰからαパラメータを変換し、合成フィルタ２３６で有声音を合成する。
【０１２２】
以上のように、音声復号化装置３１では、idVUV判定パラメータが１であるとき、すなわち他の携帯電話装置の音声符号化装置が背景雑音区間を検出したときには、８フレームをおいて伝送されてきた複数種類のパラメータを用いて上記背景雑音を生成すると共に、上記８フレーム中には過去に送られたパラメータを用いて上記背景雑音を生成する。このため、背景雑音の不自然さを緩和することができる。また、９フレーム目に偶然に、本当の無声音区間が検出されて伝送されてきても、正確に判断できるので、高品質な音声を復号できる。
【０１２３】
ＬＳＰは８フレーム分のディレイが生じることになるが、背景雑音モード中は完全に滑らかに繋がることになり、急激にＬＳＰが変化して異音を発生することがなくなる。また、音声の子音部は背景雑音より高いレベルを有することが多いので、音声の子音部を誤って背景雑音として処理してしまうことを防げる。
【０１２４】
そして、再び背景雑音モードに入ったらprevLsp1、prevLsp2を線形補間することにより、現在のフレームのＬＳＰとする。
【０１２５】
ところで、モードビットが充分にあり、これを一つのモードとして送ることができれば、このような処理は必要ない。また、prevLsp1とprevLsp2の補間方法は線形補間以外にも様々なものが考えられる。
【０１２６】
【発明の効果】
本発明に係る音声符号化方法及び装置は、可変レート符号化を効率良く実現する。
【０１２７】
また、本発明に係る音声復号化方法及び装置は、可変レート符号化を実現する音声符号化方法及び装置により符号化された符号化データを用いて、背景雑音を不自然感を緩和して生成できる。
【図面の簡単な説明】
【図１】本発明に係る音声符号化方法及び装置、並びに音声復号化方法及び装置の実施の形態となる携帯電話装置の構成を示すブロック図である。
【図２】上記携帯電話装置を構成する音声符号化装置の基本的な構成を示すブロック図である。
【図３】上記図２に示した音声符号化装置の詳細な構成を示すブロック図である。
【図４】上記音声符号化装置内部にあって入力信号を判定する入力信号判定装置の構成を示すブロック図である。
【図５】上記図４に示した入力信号判定装置を構成する最小レベル演算部のアルゴリズムを説明するためのフローチャートである。
【図６】上記図４に示した入力信号判定装置を構成するリファレンスレベル演算部を説明するための特性図である。
【図７】上記携帯電話装置を構成する音声復号化装置の基本的な構成を示すブロック図である。
【図８】上記図７に示した音声復号化装置の詳細な構成を示すブロック図である。
【図９】上記音声復号化装置の動作を説明するためのフローチャートである。
【符号の説明】
２０音声符号化装置、２１、１１５入力信号判定部、３１音声復号化装置、２４０ＬＰＣパラメータ再生制御部、２４１切り換え制御部、２４２インデクス判定部

Claims

有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートで符号化する音声符号化方法であって、
上記入力信号を時間軸上で所定の符号化単位で区分して各符号化単位で符号化を行って上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータを出力する音声符号化工程を備え、
上記音声符号化工程は、上記判定結果が上記背景雑音区間を示すときには、背景雑音区間内の背景雑音用の音声符号化パラメータとして、上記背景雑音区間を示す上記基本パラメータを所定時間出力した後に、音声信号区間で用いられる無声音用の音声符号化パラメータを出力する音声符号化方法。
有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートで符号化する音声符号化装置であって、
上記入力信号を時間軸上で所定の符号化単位で区分して各符号化単位で符号化を行って上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータを出力する音声符号化手段を備え、
上記音声符号化手段は、上記判定結果が上記背景雑音区間を示すときには、背景雑音区間内の背景雑音用の音声符号化パラメータとして、上記背景雑音区間を示す上記基本パラメータを所定時間出力した後に、音声信号区間で用いられる無声音用の音声符号化パラメータを出力する音声符号化装置。
有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートにより符号化して、上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータとして伝送されてきた音声符号化データを復号化する音声復号化方法であって、
上記背景雑音区間を示す上記基本パラメータが所定時間伝送されてきた後に上記無声音用の音声符号化パラメータが伝送されてきた場合であって、この無声音用の音声符号化パラメータの所定のパラメータの値と、前回送られてきた無声音用の音声符号化パラメータの所定のパラメータの値とを比較して、当該無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータか否かを判定し、
上記基本パラメータが上記背景雑音区間を示すとき及び上記無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータであると判定されたときには現在までに送られた無声音用の音声符号化パラメータを用いて上記背景雑音を生成し、背景雑音区間ではないと判断した場合には当該無声音用の音声符号化パラメータを用いて無声音を生成する音声復号化方法。
有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、各区間の判定結果に基づいた可変レートにより符号化して、上記各区間の判定結果を示す基本パラメータと有声音用及び無声音用の符号化インデクスとを含む音声符号化パラメータとして伝送されてきた音声符号化データを復号化する音声復号化装置であって、
上記背景雑音区間を示す上記基本パラメータが所定時間伝送されてきた後に上記無声音用の音声符号化パラメータが伝送されてきた場合であって、この無声音用の音声符号化パラメータの所定のパラメータの値と、前回送られてきた無声音用の音声符号化パラメータの所定のパラメータの値とを比較して、当該無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータか否かを判定し、
上記基本パラメータが上記背景雑音区間を示すとき及び上記無声音用の音声符号化パラメータが背景雑音区間の音声符号化パラメータであると判定されたときには現在までに送られた無声音用の音声符号化パラメータを用いて上記背景雑音を生成し、背景雑音区間ではないと判断した場合には当該無声音用の音声符号化パラメータを用いて無声音を生成する音声復号化装置。