JPH09152897A

JPH09152897A - 音声符号化装置および音声符号化方法

Info

Publication number: JPH09152897A
Application number: JP7311994A
Authority: JP
Inventors: Hidetoshi Sekine; 英敏関根; Yoshiaki Asakawa; 吉章淺川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-11-30
Filing date: 1995-11-30
Publication date: 1997-06-10

Abstract

(57)【要約】【課題】４ｋｂｐｓ以下の低ビットレートでは高品質
な合成音声を得ることができない点。【解決手段】ＣＥＬＰ符号化方式等により音声の符号
化を行なう装置において、入力音声の周期成分を近似す
る長期予測ラグ選択部１０９の前に、入力音声の周期成
分の変動に係る特徴を検出する音響特性分析部１０６
と、この音響特性分析部１０６の検出結果に対応して、
所定の量だけ、長期予測ラグ選択部１０９における長期
予測の分析区間長を変化させる長期予測分析長決定部１
０７とを設け、入力音声の周期成分の変動に応じた長期
予測を行なうことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声の符号化技術
に係り、特に、低ビットレートで高品質な合成音声を得
るに好適な音声符号化装置および方法に関するものであ
る。

【０００２】

【従来の技術】高品質な合成音声を低ビットレートにお
いて得るための技術、すなわち、音声品質を低下させる
ことなく情報圧縮率を高くする技術として、合成音声と
原音声の重み付き誤差を評価し、その誤差を最小化する
ように符号化パラメータを決定する「合成による分析」
手法を取り入れた音声符号化技術が提案されている。そ
の代表的なものとして符号駆動線形予測符号化（ＣＥＬ
Ｐ）方式（例えば、M. R. Schroeder and B. S. Atal:
"Code-excited linear prediction (CELP)", Proc. IC
ASSP 85 (1985.3)）があり、この技術では、４．８ｋｂ
ｐｓで実用的な音声品質を達成している。また、ＣＥＬ
Ｐ方式の改良方式も多数提案されており、例えば、ベク
トル和駆動線形予測符号化（ＶＳＥＬＰ）方式（例え
ば、I. A. Gerson and M. A. Jasiuk: "Vector sum exc
ited linear prediction (VSELP) speech coding at 8k
bps", Proc. ICASSP 90 (1990.4)）は、処理量やメモリ
容量、ビット誤り耐性の点で優れている。

【０００３】現在、移動無線通信のディジタル化が本格
化し、周波数の有効活用の観点から、より低ビットレー
ト（４ｋｂｐｓ以下）の音声符号化技術の開発が望まれ
ている。しかし、ＣＥＬＰやＶＳＥＬＰを単純に低ビッ
トレート化した場合、復号音声の品質劣化が大きくな
り、低ビットレートにも限界がある。これはＣＥＬＰ符
号化方式で多く用いられている適応コードブック検索に
よる長期予測の精度が低下し、周期成分の再現性が低下
する結果、復号音声の雑音感が強くなるためである。こ
のような周期成分の予測誤りを防ぎ、長期予測の精度を
向上させる技術としては、予め入力音声の周期を分析し
た結果を長期予測時の情報として用いる技術や、隣接す
るフレーム間の周期成分の連続性を検出し、その結果に
よって検索を行なう周期を限定する技術などが用いられ
ている。

【０００４】ＣＥＬＰ符号化方式は、各符号化フレーム
内の平均的な波形を近似しているため、低ビットレート
化に伴う符号化フレームの延長により、フレーム内の波
形の変動が増え、平均的波形との誤差が増加してしま
う。これは長期予測の誤りを防ぐ技術を用いた符号化方
式でも同様に発生し、周期成分の平均的波形と実際の周
期波形との誤差は符号フレームの延長に伴って増加す
る。この現象は符号化フレーム内で一様な長期予測を行
っている場合には確実におき、より一層の音質向上を図
るためには、長期予測の精度を向上させることが必要で
ある。

【０００５】

【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、ＣＥＬＰやＶＳＥＬＰ等を単純
に４ｋｂｐｓ以下に低ビットレート化した場合、周期成
分の平均的波形と実際の周期波形との誤差が増加し、長
期予測の精度を向上させることができない点である。本
発明の目的は、これら従来技術の課題を解決し、４ｋｂ
ｐｓ以下のビットレートでも良好な音声品質とすること
が可能な音声符号化装置および方法を提供することであ
る。

【０００６】

【課題を解決するための手段】上記目的を達成するた
め、本発明の音声符号化装置は、（１）ＣＥＬＰ符号化
方式等、適応コードブック検索による長期予測を行なう
符号化方式により音声の符号化を行なう装置において、
入力音声の周期成分の変動に係る音響パラメータを抽出
する音響特性分析部１０６と、この音響特性分析部１０
６で抽出した音響パラメータに基づき、入力音声の周期
成分の変動を求め、この求めた変動に対応して、符号化
方式における長期予測の分析区間長を決定する長期予測
分析長決定部１０７とを設けることを特徴とする。ま
た、（２）上記（１）に記載の音声符号化装置におい
て、音響特性分析部１０６は、音響パラメータとして、
複数の周期ピッチ、ピッチ予測利得、対数断面積、フレ
ーム内平均エネルギー、および平均エネルギの変化量を
少なくとも含むことを特徴とする。また、（３）本発明
の音声符号化方法は、ＣＥＬＰ符号化方式を少なくとも
含む、適応コードブック検索による長期予測を行なう符
号化方式を用いて音声の符号化を行なう音声符号化方法
において、入力音声の周期成分の変動を求め、この求め
た入力音声の周期成分の変動に対応して、符号化方式に
おける長期予測の分析区間長を変化させることを特徴と
する。また、（４）上記（３）に記載の音声符号化方法
において、前回の音声フレームまでの符号化結果を求
め、この求めた符号化結果に基づき、入力音声の周期成
分の変動を求めることを特徴とする。また、（５）上記
（３）、もしくは、（４）のいずれかに記載の音声符号
化方法において、入力音声の特徴を表す音響パラメータ
を求め、この求めた音響パラメータに基づき、入力音声
の周期成分の変動を求めることを特徴とする。また、
（６）上記（５）に記載の音声符号化方法において、求
めた音響パラメータに基づき、入力音声の周期成分の平
均的波形と実際の周期波形との誤差を求め、この求めた
誤差に基づき、入力音声の周期成分の変動を求めること
を特徴とする。また、（７）上記（５）、もしくは、
（６）のいずれかに記載の音声符号化方法において、音
響パラメタとして、入力音声のピッチ周期の複数の候補
を求め、この求めたピッチ周期の候補と前符号化フレー
ムまでに選択された長期予測ラグを比較して、ピッチ周
期の変動を求め、変動が大きな場合、変動が小さな場合
よりも分析区間長を短くすることを特徴とする。また、
（８）上記（５）から（７）のいずれかに記載の音声符
号化方法において、音響パラメタとして、少なくとも長
期予想利得、フレーム内エネルギ、対数断面積比、零交
差数を含み、この音響パラメタに基づき、入力音声が有
声音であるか無声音であるかを判断し、入力音声が有声
音であれば、ピッチ周期の複数の候補の抽出、ピッチ周
期の変動の抽出、および分析区間長の決定を行なうこと
を特徴とする。また、（９）上記（５）から（８）のい
ずれかに記載の音声符号化方法において、音響パラメタ
として、フレームエネルギの変化を少なくとも含み、こ
の音響パラメタに基づき、入力音声が過度部であるか非
過度部であるかを判断し、入力音声が非過度部であれ
ば、ピッチ周期の複数の候補の抽出、ピッチ周期の変動
の抽出、および分析区間長の決定を行なうことを特徴と
する。また、（１０）上記（５）から（９）のいずれか
に記載の音声符号化方法において、音響パラメタとし
て、長期予測利得を少なくとも含み、この音響パラメタ
に基づき、入力音声に母音間の遷移部が含まれるか否か
を判断し、入力音声に母音間の遷移部が含まれていれ
ば、分析区間長を短縮した後、ピッチ周期の複数の候補
の抽出、ピッチ周期の変動の抽出、および分析区間長の
決定を行なうことを特徴とする。また、（１１）上記
（５）から（１０）のいずれかに記載の音声符号化方法
において、求めた入力音声のピッチ周期の複数の候補
を、符号化方式における長期予測ラグの予備選択結果と
して用いることを特徴とする。また、（１２）上記（１
１）に記載の音声符号化方法において、長期予測ラグの
複数の候補と、各々の候補に対して分析区間長を決定
し、決定した分析区間長に基づき、複数の長期予測ラグ
候補に対して長期予測を行ない、誤差が最も少なくなる
長期予測ラグと分析区間長の組み合わせを選択すること
を特徴とする。

【０００７】

【発明の実施の形態】本発明においては、ＣＥＬＰ符号
化等における長期予測の分析区間長を、入力音声の特徴
に対応して適応的に変化させることにより、入力音声の
周期成分の変動に応じた長期予測を可能とし、予測精度
を向上させ、合成音声の音質を向上させることができ
る。すなわち、音響特性分析部は、入力音声の分析を行
い、長期予測分析長決定部で用いる複数の音響的パラメ
ータを求める。音響的パラメータとしては、複数のピッ
チ周期、ピッチ予測利得、対数断面積比、フレーム内平
均エネルギ、平均エネルギの変化量等を用いる。このよ
うに複数の音響的パラメータを算出することにより、入
力音声の音響的特徴に適した符号化が可能となる。

【０００８】長期予測分析長決定部は、音響特性分析部
で選択されたピッチ周期の候補と前フレームまでに選択
された長期予測ラグを比較して周期性の連続性を検出
し、各ピッチ周期に対する長期予測利得と音響パラメー
タを総合して、長期予測分析を行う分析区間長を決定す
る。例えば、符号化フレームに母音間の遷移部が含まれ
る場合は、ピッチ周期の連続性はある程度良いが、長期
予測利得は低下する。この場合には分析区間長を短く
し、各母音のピッチ周期の分析を行う。また、定常部の
場合は、ほとんどピッチ周期が変化せず、長期予測利得
も大きくなり、分析区間長は長く設定する。このような
処理により、入力音声の特徴に応じた長期予測が可能と
なり、高精度の長期予測を効率的に行うことが可能とな
る。

【０００９】また、長期予測分析長決定部の結果に従っ
て、設定された分析区間長で適応符号帳を用いて長期予
測を行い、最適なピッチ周期(長期予測ラグ)を選択す
る。このように、分析区間長を適応的に変更することに
より、入力音声の周期成分の変動に応じた長期予測が可
能となり、４ｋｂｐｓ以下に低ビットレート化した場合
の合成音声の音質を向上させることが可能となる。

【００１０】

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図１は、本発明の音声符号化装置の本発明に
係る構成の一実施例を示すブロック図である。本実施例
の音声符号化装置は、ＣＥＬＰ符号化を行なうものであ
り、以下、信号の流れに沿って各処理部の概要を説明す
る。所定の標本化周波数（通常８ｋＨｚ）でＡ／Ｄ変換
されたディジタル音声信号１０１が入力されると、短期
予測分析部１０２は、この入力された音声をフレーム、
およびサブフレームに分割して分析し、短期的な周波数
特性を表すような短期予測係数を求める。すなわち、短
期予測分析部１０２は、フレームごとにスペクトルパラ
メータ（短期予測係数）を抽出し、短期予測係数量子化
部１０４に出力する。

【００１１】短期予測係数量子化部１０４は、短期予測
分析部１０２から受け取った短期予測係数を、あらかじ
め用意されている短期予測係数符号帳１０３に従い量子
化し、量子化した結果である符号と量子化後の短期予測
係数を出力する。聴覚重付け部１０５は、短期予測係数
量子化部１０４で量子化された短期予測係数などを用い
て、入力音声に人間の聴覚特性に基づいた重付け処理を
施す。すなわち、聴覚重み付け誤差を評価するための準
備として、入力音声に聴覚重み付けを行なう。尚、ここ
では重み付け合成フィルタにゼロ信号を入力し、零入力
応答を求め、重み付けられた入力信号から減算する。こ
れは、合成フィルタの内部状態に依存する過去の影響を
取り除くためである。さらに、重み付け合成フィルタの
インパルス応答も計算しておく。

【００１２】そして、本発明に係る音響特性分析部１０
６は、入力音声を分析して、周期成分つまりピッチ周期
の候補を複数選択しておくと共に、入力音声の音響的特
徴を示す複数のパラメータを算出する。ここで、音響的
パラメータとしては、ピッチ予測利得、フレーム内平均
エネルギ、平均エネルギの変化量、対数断面積比等があ
る。また、ピッチ周期は、後で行われる長期予測分析の
長期予測ラグの予備選択結果とする。選択したピッチ周
期は、長期予測分析長決定部１０７と長期予測ラグ選択
部１０９へ送り、また、算出した音響的パラメータは長
期予測分析長決定部１０７へ送る。

【００１３】本発明に係る長期予測分析長決定部１０７
は、音響特性分析部１０６から送られてきた複数の音響
パラメータを分析し、長期予測ラグ選択部１０８で行わ
れる長期予測の分析区間長を決定し、長期予測ラグ選択
部１０８へ出力する。すなわち、長期予測分析長決定部
１０７は、音響特性分析部１０６で選択されたピッチ周
期の各候補に対する長期予測利得や前フレームまでの長
期予測分析結果との連続性、入力信号の音響的パラメー
タを考慮し、長期予測分析を行う分析区間長を決定す
る。

【００１４】長期予測ラグ選択部１０８は、長期予測分
析長決定部１０７から送られてきた長期予測分析区間長
で、適応符号帳１０９を用いて長期予測分析を行ない、
入力音声の長期的な周期成分を最も精度良く近似する長
期予測ラグと利得を求める。そして、求めた長期予測ラ
グと分析区間長をもとに、復号化装置へ送信する長期予
測分析に関する符号を作成する。また、重み付けされた
入力信号から零入力応答を減算した信号から、さらに利
得を乗じた重み付け長期予測ベクトルを差し引いた信号
を作製して、統計音源検索部１１１に入力する。

【００１５】統計音源選択部１１１は、統計音源符号帳
１１２に含まれる統計音源ベクトルを短期予測係数量子
化部１０４で量子化した係数を用いた合成フィルタで処
理したベクトルと、入力音声から長期予測ラグ選択部１
０９で選択された長期予測ラグに対応する長期予測ベク
トルの成分を差し引いたベクトルとの誤差を計算し、誤
差が最小となる統計音源ベクトルを選択する。利得量子
化部１１３は、長期予測ラグ選択部１０９で選択した長
期予測ラグに対応する長期予測ベクトルと統計音源選択
部１１１で選択した統計音源ベクトルのそれぞれに掛け
合わせる利得を、合成フィルタ処理後の波形と入力音声
との誤差が最小となるよう、すなわち入力音声と選択さ
れた長期予測ベクトルと音源ベクトルの重み付け誤差が
最小になるよう、利得符号帳１１４の中から選択する。

【００１６】伝送符号作成部１１５は、短期予測係数量
子化部１０４、長期予測分析長決定部１０７、長期予測
ラグ選択部１０９、統計音源選択部１１１、利得量子化
部１１３のそれぞれの選択結果ａ、ｂ、ｃ、ｄ、ｅに応
じて送信路符号１１６を作成し、図２に示す復号部へ送
出する。すなわち、このようにして求めた短期予測係数
符号と長期予測に関する符号、統計音源ベクトル符号、
利得の量子化符号を伝送パラメータとして復号化装置へ
伝送する。

【００１７】図２は、図１における音声符号化装置から
の伝送パラメータを復号化する復号化装置の一構成例を
示すブロック図である。本実施例の復号化装置では、図
１における音声符号化装置が送出した伝送パラメータか
ら、短期予測係数、長期予測ベクトル、統計音源ベクト
ル、利得を復号し、長期予測ベクトルと統計音源ベクト
ルにそれぞれ利得を掛け合わせた後、足し合わせ、短期
予測係数をフィルタ係数とする合成フィルタに入力し、
処理することによって、復号化音声を得られる。

【００１８】すなわち、受信符号復号部２０２により、
受信符号２０１（伝送パラメータ）から、短期予測係数
情報ｆ、長期予測ラグに関する情報ｇ、統計音源情報
ｈ、利得情報ｉを復号化し、各復号部（短期予測係数復
号部２０４，長期予測ベクトル復号部２０６，統計音源
ベクトル復号部２０７，利得復号部２１０）へ送る。
尚、長期予測ラグに関する情報ｇには、長期予測ラグの
値のほかに、長期予測を行った分析区間長に関する情報
も含まれる。

【００１９】短期予測係数復号部２０４は、受信符号復
号部２０２から送られてきた短期予測係数情報ｆに従っ
て、短期予測係数符号帳２０３から短期予測係数を読み
出し、合成フィルタ処理部２１１へ送る。長期予測ベク
トル復号部２０６は、受信符号復号部２０２から送られ
てきた長期予測ラグに関する情報ｇを元に、適応符号帳
２０５を用いて長期予測ベクトルを復号する。統計音源
ベクトル復号部２０７は、受信符号復号部２０２から送
られてきた統計音源情報ｈに従って、統計音源符号帳２
０８から統計音源ベクトルを読み出して復号する。

【００２０】利得復号部２１０は、受信符号復号部２０
２から送られてきた利得情報ｉに従って、利得符号帳２
０９から利得情報を読み出し、乗算器Ｘ，Ｙに送出す
る。乗算器Ｘ，Ｙでは、利得復号部２１０からの利得情
報と長期予測ベクトルｊと統計音源ベクトルｋに掛け合
わせる。そして、それぞれ利得を掛け合わせた２つのベ
クトルは、加算器Ｚで足し合わされて合成フィルタ処理
部２１１に入力される。合成フィルタ処理部２１１は、
短期予測係数復号部２０４から送られてきた短期予測係
数ｍを係数とする合成フィルタを構成し、入力されたベ
クトルに合成フィルタ処理を行ない、復号音声２１２と
して出力する。

【００２１】以上、本実施例の概要を説明したので、次
に本発明に係る主要部、すなわち、図１における音響特
性分析部１０６と長期予測分析長決定部１０７の詳細な
機能について説明する。まず、音響特性分析部１０６
は、入力音声を分析して複数の音響パラメータを算出す
る。音響的パラメータとしては、複数のピッチ周期、ピ
ッチ予測利得、対数断面積比、フレーム内平均エネル
ギ、平均エネルギの変化量、零交差数等を用いる。音響
パラメータの内、ピッチ周期は、長期予測ラグ選択部１
０９で選択される長期予測ラグの予備選択結果としても
用いられる。これは、長期予測ラグの選択ミスを防ぐと
ともに、長期予測分析を行なう長期予測ラグの候補数を
削減することにより、長期予測分析に要する演算量を削
減する効果もある。次に、長期予測分析長決定部１０７
は、音響特性分析部１０６で求めた音響パラメータを分
析し、長期予測ラグ選択部１０９で長期予測を行なう分
析区間長を決定する。この分析区間長の決定動作例を図
３を用いて説明する。

【００２２】図３は、図１における長期予測分析長決定
部の本発明に係る動作例を示すフローチャートである。
図１の長期予測分析長決定部１０７は、まず、長期予測
利得やフレーム内エネルギ、対数断面積比、零交差数な
どを用いて有声音か、無声音かの判断を行う（ステップ
３０１）。これは音質面での長期予測の効果は有声音部
で大きく、無声音部では小さいため、効果の大きい有声
音部でのみ分析区間長の短縮を行うためである。

【００２３】次に、過渡部か非過渡部かを、フレームエ
ネルギの変化を用いて判断する（ステップ３０２）。過
渡部ではピッチ周期の変動は大きいものの、もともと無
声音部と同様長期予測による効果が小さいことから分析
区間長の短縮も行わない。次に、前符号化フレームとの
ピッチ周期の変動を抽出し（ステップ３０３）、変動が
大きな場合に分析区間長の短縮を行う（ステップ３０
４）。ピッチ周期の変動が小さい場合には、平均波形と
実際の入力音声との差は小さく、分析区間長を短くして
も効果は少ない（ステップ３０５）。以上３つの条件
（有声音、非過渡部、ピッチ周期の変動が大）を満たし
たとき、長期予測の分析区間長を短縮する（ステップ３
０４）。

【００２４】このような条件によって分析区間長の判断
を行うことは、入力音声の特徴に適した長期予測が可能
になるだけでなく、長期予測の分析区間長短縮に伴う最
適長期予測ラグ選択に必要な演算量の削減にもなる。一
般に長期予測の分析区間長の短縮により、予測誤差の評
価を行わなければならない長期予測ラグの組み合わせが
増加するため、演算量の増加は問題となるが、本実施例
では、長期予測の分析区間長を短くしても音質改善の効
果が少ないと推測される部分では、分析区間長の短縮を
行わないことにより、演算量が無駄に増加することを抑
えている。また、より一層の効果的な長期予測を可能と
するため、長期予測分析長決定部では、複数の長期予測
ラグ候補と、それぞれの候補に対して分析区間長を決定
し、図１の長期予測ラグ選択部１０９に出力することも
可能となる。この場合には、複数の長期予測ラグ候補に
対して長期予測を行ない、誤差が最も小さくなる長期予
測ラグと分析区間長の組み合わせを選択する。

【００２５】図１の長期予測ラグ選択部１０９は、図１
の適応符号帳１１０から長期予測ラグの予備選択結果と
長期予測分析区間長に対応した長期予測ベクトルを作成
し、重み付け合成フィルタ処理後、入力音声との誤差を
計算する。複数の長期予測ラグの内、前記の誤差が最小
となるものを最適な長期予測誤差として選択する。ここ
で適応符号帳１１０は過去の符号化結果を保持してお
り、これに合成フィルタを施すと合成音声が得られる。
また、前述のように、長期予測ラグの選択は誤差が最小
となる長期予測ラグを出力する方法が一般的だが、より
効果的な選択を行なうため、複数の長期予測ラグを選択
しておき、長期予測以降の処理である統計音源あるいは
統計音源と利得の量子化結果の組み合わせによる誤差を
評価し、トータルの誤差が最も小さくなる組み合わせを
選択するディレイドデシジョンを用いることも出来る。

【００２６】図４は、図１における音声符号化装置を設
けた送信装置および図２における復号化装置を設けた受
信装置の一構成例を示すブロックである。送信装置４０
０と受信装置４５０は無線通信を行なうものであり、送
信装置４００は、マイクなどの音声入力装置４０１から
入力された音声を、Ａ／Ｄ変換部４０２によりディジタ
ルデータに変換し、変換したディジタルデータを音声符
号化部４０３により伝送符号に変換する。音声符号化部
４０３で符号化した伝送符号を、無線部４０４に送り、
アンテナ４０５から受信機に向け電波４０６として送信
する。受信装置４５０は、送信装置４００から送られて
きた電波４５１をアンテナ４５２で受信し、無線部で伝
送符号まで復号する。復号した伝送符号を音声復号部４
５４で音声波形に復号する。そして、復号した音声波形
を、Ｄ／Ａ変換部４５５によりアナログ波形に変換し、
スピーカ等の出力装置４５６から出力する。

【００２７】以上、図１〜図４を用いて説明したよう
に、本実施例の音声合成装置では、ＣＥＬＰ符号化方式
等における長期予測の分析区間長を、入力音声の特徴に
対応して適応的に変化させるので、入力音声の周期成分
の変動に応じた長期予測ができ、予測精度を向上させ、
合成音声の音質を向上させることが可能である。このこ
とにより、ＣＥＬＰ符号器等を低ビットレート化したと
きに問題となる周期成分の再現性が改善し、４ｋｂｐｓ
以下のビットレートでも良好な音声品質とすることが可
能である。尚、本発明は、図１〜図４を用いて説明した
実施例に限定されるものではなく、その要旨を逸脱しな
い範囲において種々変更可能である。

【００２８】

【発明の効果】本発明によれば、ＣＥＬＰ符号器等を低
ビットレート化したときに問題となる周期成分の再現性
が改善され、４ｋｂｐｓ以下のビットレートでも良好な
音声品質を得ることが可能である。

【図面の簡単な説明】

【図１】本発明の音声符号化装置の本発明に係る構成の
一実施例を示すブロック図である。

【図２】図１における音声符号化装置からの伝送パラメ
ータを復号化する復号化装置の一構成例を示すブロック
図である。

【図３】図１における長期予測分析長決定部の本発明に
係る動作例を示すフローチャートである。

【図４】図１における音声符号化装置を設けた送信装置
および図２における復号化装置を設けた受信装置の一構
成例を示すブロックである。

【符号の説明】

１０１：入力音声、１０２：短期予測係数分析部、１０
３：短期予測係数符号帳、１０４：短期予測係数量子化
部、１０５：聴覚重み付け部、１０６：音響特性分析
部、１０７：長期予測分析長決定部、１０９：長期予測
ラグ選択部、１１０：適応符号帳、１１１：統計音源選
択部、１１２：統計音源符号帳、１１３：利得量子化
部、１１４：利得符号帳、１１５：伝送符号作成部、１
１６：送信符号、２０１：受信符号、２０２：受信符号
復号部、２０３：短期予測係数符号帳、２０４：短期予
測係数復号部、２０５：適応符号帳、２０６：長期予測
ベクトル復号部、２０７：統計音源ベクトル復号部、２
０８：統計音源符号帳、２０９：利得符号帳、２１０：
利得復号部、２１１：合成フィルタ処理部、２１２：復
号音声、４００：送信装置、４０１：音声入力装置、４
０２：Ａ／Ｄ変換部、４０３：音声符号化部、４０４：
無線部、４０５：送信アンテナ、４０６：送信電波、４
５０：受信装置、４５１：受信電波、４５２：受信アン
テナ、４５３：無線部、４５４：音声復号部、４５５：
Ｄ／Ａ変換部、４５６：音声出力装置。

Claims

【特許請求の範囲】

【請求項１】ＣＥＬＰ符号化方式を少なくとも含む、
適応コードブック検索による長期予測を行なう符号化方
式により音声の符号化を行なう装置において、入力音声
の周期成分の変動に係る音響パラメータを抽出する音響
特性分析手段と、該音響特性分析手段で抽出した音響パ
ラメータに基づき、上記入力音声の周期成分の変動を求
め、該求めた変動に対応して、上記符号化方式における
長期予測の分析区間長を決定する長期予測分析長決定手
段とを設けることを特徴とする音声符号化装置。
【請求項２】請求項１に記載の音声符号化装置におい
て、上記音響特性分析手段は、上記音響パラメータとし
て、複数の周期ピッチ、ピッチ予測利得、対数断面積、
フレーム内平均エネルギー、および平均エネルギの変化
量を少なくとも含むことを特徴とする音声符号化装置。
【請求項３】ＣＥＬＰ符号化方式を少なくとも含む、
適応コードブック検索による長期予測を行なう符号化方
式を用いて音声の符号化を行なう音声符号化方法におい
て、入力音声の周期成分の変動を求め、該求めた入力音
声の周期成分の変動に対応して、上記符号化方式におけ
る長期予測の分析区間長を変化させることを特徴とする
音声符号化方法。
【請求項４】請求項３に記載の音声符号化方法におい
て、前回の音声フレームまでの符号化結果を求め、該求
めた符号化結果に基づき、上記入力音声の周期成分の変
動を求めることを特徴とする音声符号化方法。
【請求項５】請求項３、もしくは、請求項４のいずれ
かに記載の音声符号化方法において、入力音声の特徴を
表す音響パラメータを求め、該求めた音響パラメータに
基づき、上記入力音声の周期成分の変動を求めることを
特徴とする音声符号化方法。
【請求項６】請求項５に記載の音声符号化方法におい
て、上記求めた音響パラメータに基づき、上記入力音声
の周期成分の平均的波形と実際の周期波形との誤差を求
め、該求めた誤差に基づき、上記入力音声の周期成分の
変動を求めることを特徴とする音声符号化方法。
【請求項７】請求項５、もしくは、請求項６のいずれ
かに記載の音声符号化方法において、上記音響パラメタ
として、上記入力音声のピッチ周期の複数の候補を求
め、該求めたピッチ周期の候補と前符号化フレームまで
に選択された長期予測ラグを比較して、ピッチ周期の変
動を求め、変動が大きな場合、変動が小さな場合よりも
上記分析区間長を短くすることを特徴とする音声符号化
方法。
【請求項８】請求項５から請求項７のいずれかに記載
の音声符号化方法において、上記音響パラメタとして、
少なくとも長期予想利得、フレーム内エネルギ、対数断
面積比、零交差数を含み、該音響パラメタに基づき、上
記入力音声が有声音であるか無声音であるかを判断し、
上記入力音声が有声音であれば、上記ピッチ周期の複数
の候補の抽出、ピッチ周期の変動の抽出、および分析区
間長の決定を行なうことを特徴とする音声符号化方法。
【請求項９】請求項５から請求項８のいずれかに記載
の音声符号化方法において、上記音響パラメタとして、
フレームエネルギの変化を少なくとも含み、該音響パラ
メタに基づき、上記入力音声が過度部であるか非過度部
であるかを判断し、上記入力音声が非過度部であれば、
上記ピッチ周期の複数の候補の抽出、ピッチ周期の変動
の抽出、および分析区間長の決定を行なうことを特徴と
する音声符号化方法。
【請求項１０】請求項５から請求項９のいずれかに記
載の音声符号化方法において、上記音響パラメタとし
て、長期予測利得を少なくとも含み、該音響パラメタに
基づき、上記入力音声に母音間の遷移部が含まれるか否
かを判断し、上記入力音声に母音間の遷移部が含まれて
いれば、上記分析区間長を短縮した後、上記ピッチ周期
の複数の候補の抽出、ピッチ周期の変動の抽出、および
分析区間長の決定を行なうことを特徴とする音声符号化
方法。
【請求項１１】請求項５から請求項１０のいずれかに
記載の音声符号化方法において、上記求めた入力音声の
ピッチ周期の複数の候補を、上記符号化方式における長
期予測ラグの予備選択結果として用いることを特徴とす
る音声符号化方法。
【請求項１２】請求項１１に記載の音声符号化方法に
おいて、上記長期予測ラグの複数の候補と、各々の候補
に対して分析区間長を決定し、該決定した分析区間長に
基づき、上記複数の長期予測ラグ候補に対して長期予測
を行ない、誤差が最も少なくなる長期予測ラグと分析区
間長の組み合わせを選択することを特徴とする音声符号
化方法。