JP6481271B2

JP6481271B2 - 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器

Info

Publication number: JP6481271B2
Application number: JP2014139817A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2014-07-07
Filing date: 2014-07-07
Publication date: 2019-03-13
Anticipated expiration: 2034-07-07
Also published as: JP2016018042A

Description

本発明は、音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器に関し、例えば、ＭＢＥ（Ｍｕｌｔｉ−ＢａｎｄＥｘｃｉｔａｔｉｏｎ；マルチバンド励振）系の音声符号化方式による符号化音声信号を復号する場合に適用して好適なものである。

データ伝送等の需要増加や周波数の逼迫が懸念されたことによる電波法の改正に伴い、簡易無線機を従来のアナログ方式からデジタル方式へ完全移行することが決まっている。このような流れを受けて、一般社団法人電波産業会によってデジタル方式の簡易無線機（以下、デジタル無線機と呼ぶ）の通信方式に対する標準規格が定められた。特定小電力無線機に多く採用されている変調方式４値ＦＳＫに対して、放送分野においては放送事業用４ＦＳＫ連絡無線方式（ＳＴＤ−Ｂ５４）、通信分野においては狭帯域デジタル通信方式（ＳＣＰＣ／４値ＦＳＫ方式）（ＳＴＤ−Ｔ１０２）の中で定められており、音声符号化方式はいずれも「ＤｉｇｉｔａｌＶｏｉｃｅＳｙｓｔｅｍ，Ｉｎｃ．（米国の会社）のＡＭＢＥ＋２ＥｎｈａｎｃｅｄＨａｌｆ−Ｒａｔｅを推奨する」とされている。なお、ＡＭＢＥ＋２（ＡＭＢＥ＋＋と表記されることがある）は、ＤｉｇｉｔａｌＶｏｉｃｅＳｙｓｔｅｍ，Ｉｎｃ．の商標である。

ＡＭＢＥ＋２は、雑音が多い環境でも復号音声が不自然になり難い長所と、低ビットレートでも安定した品質を提供できる長所とを有するが、声色を変質させる短所があり、「鼻が詰まった様な音声になる」ことも報告されている（非特許文献１）。

ＡＭＢＥ＋２は、音声符号化方式の一つであるＭＢＥ（Ｍｕｌｔｉ−ＢａｎｄＥｘｃｉｔａｔｉｏｎ）を応用させた方式であり、ＡＭＢＥは、ＡｄｖａｎｃｅｄＭＢＥを略したものである。ＡＭＢＥの他にもＩＭＢＥ（ｌｍｐｒｏｖｅｄＭＢＥ）と呼ばれる音声符号化方式がある。ＡＭＢＥ＋２を含むＡＭＢＥやＩＭＢＥは、いずれもＭＢＥが基本となっている。本願明細書では、ＭＢＥ、ＡＭＢＥ及びＩＭＢＥを「ＭＢＥ系の音声符号化方式」と称している。なお、単に、ＭＢＥ音声符号化方式と記載しているときは、音声符号化方式がＭＢＥであることを表している。

図９は、ＭＢＥ符号化方式に従っている、非特許文献２に記載の音声符号化装置の構成を示している。

図９において、音声符号化装置１００は、周波数変換手段１０１、初期ピッチ選択手段１０２、ピッチ改良手段１０３、有声包絡推定手段１０４、無声包絡推定手段１０５、有声／無声決定手段１０６、有声／無声選択手段１０７、多重化手段１０８及び量子化手段１０９を有する。

マイクロホン等で取り込んだ音声信号が図示しないＤ／Ａ変換器によってデジタル化された音声信号（以下、入力音声と呼ぶ）が音声符号化装置１００に入力される。周波数変換手段１０１は、入力音声をオーバーラップさせながら窓掛けＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）によって周波数スペクトルへと変換する。初期ピッチ選択手段１０２は、入力音声が完全な有声音であると仮定した場合の調波モデル誤差を最小化するという基準に基づいて、動的計画法を併用しながらピッチ周期（整数サンプル値）を選択し、得られた初期ピッチはピッチ改良手段１０３へ与えられる。ピッチ改良手段１０３は、上記調波モデル誤差がさらに小さくなるように、周波数変換手段１０１からの入力スペクトルに基づいて、整数サンプル値で表現されている初期ピッチを実数サンプル値で表現される、より高精度なピッチ周期へと更新する。

有声包絡推定手段１０４は、周波数変換手段１０１からの入力スペクトルとピッチ改良手段１０３からの実数ピッチに基づいて、上記調波モデル誤差を最小とする有声音に対する包絡情報を算出する。有声音に対する包絡情報は、調波成分ごとのパワー及び位相によって構成されている。無声包絡推定手段１０５は、入力スペクトルと実数ピッチに基づいて、各調波成分が雑音的であると仮定して、調波帯域ごとのパワーを算出して無声包絡情報とする。調波帯域は、有声音において各調波成分が占有する帯域のことであり、実数ピッチによって定義され、隣り合う調波帯域は重ならず、また離れてもいない。有声／無声決定手段１０６は、実数ピッチによって定義される調波帯域ごとに、入力スペクトルと有声包絡情報から算出される当該調波帯域の調波モデル誤差及び無声包絡情報に基づいて、当該調波帯域が有声音であるか無声音であるかを判定する。有声／無声選択手段１０７は、有声／無声情報に基づいて、調波帯域ごとに有声包絡情報又は無声包絡情報を択一的に選択する。

多重化手段１０８は、ピッチ情報、調波帯域ごとの有声／無声情報、及び、調波帯域ごとの包絡情報を一つの系列へとまとめる。量子化手段１０９は、符号化情報を量子化し（例えば、要素毎に定まっているビット数になるように量子化し）、得られたデジタル音声符号化情報を出力する。

図１０は、ＭＢＥ符号化方式に従っている、非特許文献２に記載の音声復号化装置の構成を示している。図１０に示す音声復号化装置２００は、上述した音声符号化装置１００に対向するものであり、音声符号化装置１００が出力したデジタル音声符号化情報が与えられる。

図１０において、音声復号化装置２００は、逆量子化手段２０１、多重分離手段２０２、有声／無声包絡分離手段２０３、調波発振手段２０４、補間手段２０５、雑音生成手段２０６、周波数変換手段２０７、包絡情報置換手段２０８、波形復元手段２０９及び加算手段２１０を有する。

図１０において、逆量子化手段２０１は、到来したデジタル音声符号化情報から、逆量子化によって、量子化前の符号化情報を推定する。多重分離手段２０２は、逆量子化された音声符号化情報を、ピッチ情報、有声／無声情報及び包絡情報へと多重分離する。

有声／無声包絡分離手段２０３は、多重分離された有声／無声情報に基づいて、包絡情報を、有声包絡情報と無声包絡情報とに分離する。有声包絡情報は、無声である調波帯域のパワーと位相がゼロとなっており、無声包絡情報は、有声である調波帯域のパワーがゼロとなっている。調波発振手段２０４は、ピッチ情報と有声包絡情報に基づいて、調波成分ごとに有声包括情報に応じた振幅と位相の正弦波信号を生成し、全ての調波成分の正弦波信号を足し合わせて有声音声を合成する。生成される正弦波信号は、振幅と位相が、有声包括情報に応じた振幅と位相を連続するように調整されているものである。

補間手段２０５は、無声包絡情報を、周波数変換手段２０７の周波数分解能に合わせて補間（例えば線形補間）し、無声振幅スペクトルを得る。雑音生成手段２０６は、周知のいずれかの方法で白色雑音を生成し、周波数変換手段２０７は、上述した周波数変換手段１０１と同じパラメータで白色雑音信号を周波数変換し、雑音スペクトルを得る。包絡情報置換手段２０８は、周波数変換手段２０７からの雑音スペクトルに補間手段２０５からの無声振幅スペクトルを乗じて無声スペクトルを算出する。波形復元手段２０９は、周波数変換手段２０７に対応したパラメータで無声スペクトルをＩＦＦＴし、かつ、オーバーラップ加算して無声音声を生成する。

加算手段２１０は、調波発振手段２０４からの有声音声と波形復元手段２０９からの無声音声とを加算して復号音声を得て出力する。

以上では、ＭＢＥ符号化方式に従っている音声符号化装置１００及び音声復号化装置２００の構成並びに動作を説明したが、ＡＭＢＥ符号化方式やＩＭＢＥ符号化方式も、音声パラメータの推定や、量子化の精度及び方法は異なるが、原理的には極めて似通っている。いずれのＭＢＥ系の音声符号化方式共に、雑音への耐性が高く、低ビットレートで安定した品質を提供できる。

"１５０ＭＨｚ帯アナログ簡易無線局用周波数におけるデジタル方式との周波数共用に関する調査検討報告書"，総務省北陸総合通信局調査研究会情報，２０１１年．ＤａｎｉｅｌＷ．ＧｒｉｆｆｉｎａｎｄＪａｅＳ．Ｌｉｍ，"ＭｕｌｔｉｂａｎｄＥｘｃｉｔａｔｉｏｎＶｏｃｏｄｅｒ，"ＩＥＥＥＴｒａｎｓ．ｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−３６，ｎｏ．８，ｐｐ．１２２３−１２３５，１９８８．

しかしながら、ＭＢＥ系の音声符号化方式は、非特許文献１に報告されている通り、復号音声が「鼻が詰まった様な音声」になり、明瞭性を損なう問題を有する。

そのため、上記問題に鑑みて、復号音声の明瞭性を改善する音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器が望まれている。

第１の本発明の音声復号化装置は、ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、（１）デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、（２）復号音声の破裂音を検出する破裂音検出手段と、（３）検出された破裂音を破裂化させる破裂化処理手段とを備え、破裂化処理手段は、破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、復号音声に所定の重み係数を乗じて出力し、破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、復号音声をそのまま出力し、重み係数は、無音部と破裂部始端と破裂部後半の３状態で構成され、無音部は０ｄＢより小さな値を持ち、破裂部始端で前記無音部の値から０ｄＢよりも大きな値へ増大し、破裂部後半で前記破裂部始端の０ｄＢより大きな値から０ｄＢへ減少することを特徴とする。

第２の本発明に係る音声復号化装置は、ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、（１）デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、（２）復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、（３）周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、（４）復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、（５）重心時刻と時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、（６）周波数領域破裂音検出手段の判定結果と破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、（７）破裂検定手段において破裂音であると判定したフレームを基準として、破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、復号音声に当該重み係数を乗じる破裂化処理手段とを備えることを特徴とする。

第３の本発明に係る音声復号化方法は、ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、（１）ＭＢＥ系復号手段が、デジタル音声符号化情報を復号化して復号音声を生成し、（２）破裂音検出手段が、復号音声の破裂音を検出し、（３）破裂化処理手段が、検出された破裂音を破裂化させ、破裂化処理手段は、破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、復号音声に所定の重み係数を乗じて出力し、破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、復号音声をそのまま出力し、重み係数は、無音部と破裂部始端と破裂部後半の３状態で構成され、無音部は０ｄＢより小さな値を持ち、破裂部始端で前記無音部の値から０ｄＢよりも大きな値へ増大し、破裂部後半で前記破裂部始端の０ｄＢより大きな値から０ｄＢへ減少することを特徴とする。

第４の本発明に係る音声復号化方法は、ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、（１）ＭＢＥ系復号手段が、デジタル音声符号化情報を復号化して復号音声を生成し、（２）周波数領域破裂音検出手段が、復号音声の破裂音を周波数領域で検出し、（３）重心時刻算出手段が、周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出し、（４）時間領域破裂音検出手段が復号音声の破裂音を時間領域で検出し、（５）破裂情報選択手段が、重心時刻と時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択し、（６）破裂検定手段が、周波数領域破裂音検出手段の判定結果と破裂情報とに基づいて、破裂音か否かを再判定し、（９）破裂化処理手段が、破裂検定手段において破裂音であると判定したフレームを基準として、破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、復号音声に当該重み係数を乗じることを特徴とする。

第５の本発明に係る音声復号化プログラムは、ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、コンピュータを、（１）デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、（２）復号音声の破裂音を検出する破裂音検出手段と、（３）検出された破裂音を破裂化させる破裂化処理手段として機能させ、破裂化処理手段は、破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、復号音声に所定の重み係数を乗じて出力し、破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、復号音声をそのまま出力し、重み係数は、無音部と破裂部始端と破裂部後半の３状態で構成され、無音部は０ｄＢより小さな値を持ち、破裂部始端で前記無音部の値から０ｄＢよりも大きな値へ増大し、破裂部後半で前記破裂部始端の０ｄＢより大きな値から０ｄＢへ減少することを特徴とする。

第６の本発明に係る音声復号化プログラムは、ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、コンピュータを、（１）デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、（２）復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、（３）周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、（４）復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、（５）重心時刻と時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、（６）周波数領域破裂音検出手段の判定結果と破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、（７）破裂検定手段において破裂音であると判定したフレームを基準として、破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、復号音声に当該重み係数を乗じる破裂化処理手段として機能させることを特徴とする。

第７の本発明に係る通信機器は、第１、第２の本発明に係る音声復号化装置を備えることを特徴とするものである。

本発明によれば、符号化によって失われた復号音声の無声破裂音を破裂化させて、当該復号音声の明瞭性を改善した音声を利用者に提供できる。

第１の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。重み係数の設計方法の例を示す図である。第２の実施形態に係る音声復号化装置構成を示す機能ブロック図である。第３の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。第４の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。第５の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。第６の実施形態に係る音声復号化装置の構成を示す機能ブロック国である。第７の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。ＭＢＥ系の音声符号化方式の符号化装置の構成を示す機能ブロック図である。ＭＢＥ系の音声符号化方式の復号化装置の構成を示す機能ブロック図である。無声破裂音の波形例を示して無声破裂音の音響現象を説明する図である。符号化前と復号化後の無声破裂音／ｋ／の波形例を示す図である。符号化前と復号化後の無声破裂音／ｔ／の波形例を示す図である。

（Ａ）各実施形態によって復号音声の明瞭性を改善できる理由
各実施形態の音声符号化装置の説明に先立ち、各実施形態の音声符号化装置によって、ＭＢＥ系の音声符号化方式の復号音声の明瞭性を改善できる理由を説明する。

まず、復号音声の明瞭性が損なわれる原因を考察する。入力音声と復号音声とを注意深く聴き比べた結果、無声破裂音（例えば、日本語では／ｋ／、／ｔ／、および／ｐ／）が不明瞭になっていることを見出した。ここで、無声破裂音とは、図１１に示すような特徴的な音響現象を有する音韻である。図１１は、日本語の「か（／ｋａ／）」の波形とその音響現象の説明を示した図である（引用：板橋秀一ら著『音声工学』森北出版株式会社、第１版、第２章、Ｐ．２７、図２．１３）。図１１に示すように、無声破裂音は、無音部、破裂部、気音部の３状態を有する。ただし、発声によっては気音部が存在しない場合もあり、そのような現象は特に／ｐ／に多い。

しかし、復号音声の波形を調査すると、この特徴的な音響現象が損なわれていることが確認できる。図１２と図１３は、それぞれ無声破裂音／ｋ／と／ｔ／に関する波形であり、何れも上段（図１２（Ａ）、図１３（Ａ））と下段（図１２（Ｂ）、図１３（Ｂ））がそれぞれ符号化前と復号化後の音声の波形を示している。何れも実線が波形であり、破線の四角形で囲んだ範囲が無声破裂音の範囲（破裂部と気音部）を表している。なお、図１２及び図１３の横軸は時間（単位はミリ秒）であり、縦軸は単位無しの振幅値である。

／ｋ／と／ｔ／の何れの波形でも、符号化前は無音部から破裂部に移行する際に振幅が急激に大きくなっているが（これを「破裂」と言い、破裂音と呼ばれる所以である。）、復号化後は破裂部と気音部の２状態の中で振幅が徐々に大きくなっている。つまり、復号音声の無声破裂音は、破裂していないため、復号音声は不明瞭になる。

次に、無声破裂音の特徴的な音響現象が損なわれるメカニズムを考察する。無声破裂音の破裂部と気音部の長さは、おおよそ５〜３０ｍｓ程度である。これに対して、ＭＢＥ系の音声符号化方式は、多くの場合、例えばフレーム長２０ｍｓを用いてハーフオーバーラップ（すなわちフレーム周期１０ｍｓ）で解析を行い、さらに無声音の位相情報を保存しない。

このようなフレーム処理では、短い時間で起きる無声破裂音の特徴的な音響現象を符号化情報に保持することができないため、復号音声に正しく再現できない。無声音の復号は、符号化と同様に、ハーフオーバーラップで雑音を生成・加算していくため、無声破裂音は緩やかに振幅が変化する無声音へと変質してしまう。

次に、本発明が復号音声の明瞭性をどのように改善するかを説明する。復号音声の無声破裂音は、符号化によって振幅の急激な変化が失われたが、パワースペクトルの包絡は失われていない。すなわち、振幅の急激な変化を再現すれば、復号音声の無声破裂音は正しい無声破裂音として知覚されるようになる。したがって、適当な方法で無声破裂音を検出し、検出された無声破裂音に振幅変調を施して無声破裂音らしい特徴的な音響現象を引き起こすことによって、無声破裂音がはっきりと聴き取れるようになり、復号音声の明瞭性が向上すると、本件発明者は考えた。

以上より、本発明は、復号音声の破裂音を検出し、振幅変調によって無声破裂音の特徴的な音響現象を再現することにより、復号音声の明瞭性を改善する。

（Ｂ）第１の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第１の実施形態を、図面を参照しながら詳細に説明する。

第１の実施形態の音声復号化装置は、ＭＢＥ系の音声符号化方式に従って復号するものであり、後述する第２の実施形態以降も同様である。第１〜第７の実施形態では、有声破裂音を扱わないため、便宜上、以下では「無声破裂音」を単に「破裂音」と呼ぶ。

（Ｂ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。

図１において、第１の実施形態に係る音声復号化装置１Ａは、受信手段１１、ＭＢＥ系復号手段１２、破裂音検出手段１３、破裂化処理手段１４を有する。

音声復号化装置１Ａは、ＭＢＥ系音声符号化方式で符号化されたデジタル符号化情報を復号し、得られた復号音声の明瞭性を改善するものである。ここで、音声復号化装置１Ａは、ハードウェアで構成することも可能であり、また、ＣＰＵとＣＰＵが実行するソフトウェア（音声復号化プログラム）で実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図１で表すことができる。

対向する音声符号化装置は、例えば図９に例示する構成を有し、ＭＢＥ系の音声符号化方式に従って符号化したデジタル音声符号化情報（以下、デジタル符号化情報と呼ぶ。）を、送信手段によって無線回線に送出する。なお、この実施形態では、デジタル符号化情報は、無線回線を通じて無線通信によって伝送される場合を例示するが、有線回線を通じて伝送されるものであっても良い。

受信手段１１は、無線通信によって伝送されたデジタル符号化情報を受信し、得られたデジタル符号化情報をＭＢＥ系復号手段１２に与えるものである。

第１の実施形態では、受信手段１１がデジタル無線機である場合を想定しており、さらに受信手段１１の処理を簡略化している。デジタル符号化情報の取得方法は、デジタル符号化情報を取得できるのであれば、例えば無線通信でなくても良く、有線通信であっても良い。また、いかなる通信手段においてもパケットロスを起こす可能性があるため、受信手段１１がパケットロスを補償する処理を行ない、その補償処理を施した情報をデジタル符号化情報として、ＭＢＥ系復号手段１２に与えられるようにしても良い。なお、ＭＢＥ系復号手段１２の種類によっては、ＭＢＥ系復号手段１２がパケットロス補償処理をも含むものもあり、その場合、受信手段１１による事前の補償処理は不要である。

ＭＢＥ系復号手段１２は、デジタル符号化情報を生成するのに使用した符号化方法に対応した復号方法を用いて、デジタル符号化情報を復号するものである。ＭＢＥ系復号手段１２による復号により得られた復号音声は、破裂音検出手段１３および破裂化処理手段１４に与えられる。ここで、ＭＢＥ系復号手段１２は、ＭＢＥ系の音声符号化方式を用いた復号手段であれば種々のものを広く適用することができる。例えば、図１０に示す復号装置（復号方法）を用いるようにしても良いし、又前述したＡＭＢＥ（ＡＭＢＥ＋２を含む）やＩＭＢＥを用いても良い。

破裂音検出手段１３は、ＭＢＥ系復号手段１２により復号された復号音声を取得し、復号音声を解析して、当該フレームが破裂音の破裂部始端を有するか否かを判定するものである。破裂音検出手段１３は、得られた判定結果（破裂真偽値と呼ぶ。）を破裂化処理手段１４に与える。

図１に示すように、破裂音検出手段１３は、短周期パワー算出部１５、パワー比算出部１６、破裂検出部１７を有する。

短周期パワー算出部１５は、ＭＢＥ系復号手段１２よりも短い周期で復号音声のパワーを算出するものであり、得られた短周期パワーは、パワー比算出部１６に与えられる。

パワー比算出部１６は、短周期パワー算出部１５から与えられた短周期パワーを、所定のルールで定められる基準パワーで除して、パワー比を算出するものであり、得られたパワー比は破裂検出部１７に与えられる。なお、パワー比算出部１６における基準パワーを定める所定のルールについては、動作の項で詳細に説明する。

破裂検出部１７は、与えられた短周期のパワー比が所定の閾値以上の値を有するか否かを判定して破裂真偽値を生成するものであり、得られた破裂真偽値は破裂音検出手段１３の出力として破裂化処理手段１４に与えられる。すなわち、当該短周期のパワー比が閾値を上回れば破裂真偽値を真（ＴＲＵＥ）とし、上回らなければ偽（ＦＡＬＳＥ）とする。

破裂化処理手段１４は、破裂音検出手段１３から与えられた破裂真偽値が真であるなら、ＭＢＥ系復号手段１２から与えられた復号音声に所定の重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、その得られた改善音声を出力する。当該振幅変調は、人工的に無音部と破裂部を生成する処理であって、当該振幅変調に用いる所定の重み係数は、後述する設計方法で予め計算しておく。

（Ｂ−２）第１の実施形態の動作
次に、第１の実施形態の音声復号化装置１Ａの動作を説明する。

対向する音声符号化装置は、ＭＢＥ系の音声符号化方式に従って符号化したデジタル符号化情報を、無線回線を通じて送信する。

無線通信されたデジタル符号化情報は、音声復号化装置１Ａの受信手段１１により受信される。受信されたデジタル符号化情報は、ＭＢＥ系復号手段１２により、ＭＢＥ系の音声符号化方式に対応する復号化方法により復号され、その得られた復号音声が、破裂音検出手段１３および破裂化処理手段１４に与えられる。

破裂音検出手段１３では、短周期パワー算出部１５が、ＭＢＥ系復号手段１２よりも短い周期で、復号音声のパワーを算出する。例えば、短周期パワーの算出周期を２ｍｓとすると、与えられた１０ｍｓフレーム分の復号音声から短周期パワーは５個算出される。短周期パワーの算出周期を２．５ｍｓとしてもよい。この短周期パワーは、パワー比算出部１６に与えられる。短周期パワーの算出周期は、例えば１ｍｓ〜５ｍｓの任意の時間長を設定することができるが、計算の都合上、（フレーム周期の整数分の１）倍の時間長が好適に用いられる。

パワー比算出部１６は、与えられた短周期パワーを、所定のルールで定められる基準パワーで除して、パワー比を算出する。得られたパワー比は破裂検出部１７に与えられる。

パワー比算出部１６において基準パワーを定める所定のルールは、過去のフレームの情報を使うか否かで方法が異なる。

例えば、過去のフレームを使わずに現在のフレームだけを使ってパワー比を算出する場合、パワー比を求めたい時刻の直前から当該フレーム内の最初の時刻までの短周期パワーの最小値を基準パワーとする方法が好適に用いられる。ただし、この方法ではフレーム内の最初のパワー比を算出できないため、当該パワー比は１とする。

また例えば、過去のフレームをも使ってパワー比を算出する場合、所定の参照時間幅を設定し、パワー比を求めたい時刻の直前から当該参照時間幅だけ前までの短周期パワーの最小値を基準パワーとする方法が好適に用いられる。

破裂検出部１７では、与えられた短周期のパワー比が所定の閾値以上の値を有するか否かを判定して破裂真偽値を生成する。得られた破裂真偽値は破裂音検出手段１３の出力として破裂化処理手段１４に与えられる。すなわち、破裂検出部１７は、当該短周期のパワー比が閾値を上回れば破裂真偽値を真（ＴＲＵＥ）とし、上回らなければ偽（ＦＡＬＳＥ）とする。当該閾値は無音部から破裂部への移行を検出ためのものであり、当該閾値は特に限定されるものではないが、１００〜１０００程度の値が好適に用いられる。

破裂化処理手段１４では、与えられた破裂真偽値が真であるなら、与えられた復号音声に所定の重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得る。その得られた改善音声は後段に出力される。

当該振幅変調は、人工的に無音部と破裂部を生成する処理であって、当該振幅変調に用いる所定の重み係数は予め所定の設計方法で計算しておく。

図２は、重み係数の設計の概念を示す図である。聴感上自然となるように、振幅は対数尺度（デシベル）で設計する。

まず、破裂部の前の無音部は、破裂部始端の破裂現象をより明瞭にするために、抑圧する。ここでは、ほぼ完全な無音とし、かつ破裂現象がより急激になるようにするために、無音部の最終的なゲインを−１００ｄＢとしている。

次に、破裂部始端は元の波形よりも十分大きなパワーを持つよう、９ｄＢまで増幅する。離散的でなく短時間に急激に増大させることで、波形が不連続になって余計な雑音が発生しないようにしている。最後に破裂部の後半は、音響現象が破裂部から気音部または母音へと移行する区間なので、徐々に０ｄＢへと近づける。

図２では、無音部を１０ｍｓ、破裂部始端を５ｍｓ、破裂部後半を１５ｍｓとしている。破裂音が検出されたフレームに破裂部始端を配置することを考慮すると、この重み係数による振幅変調を実現するためには、フレーム周期が１０ｍｓの場合、少なくとも１フレーム分の復号音声を保存しておく必要があり、結果として改善音声の出力は１フレーム分遅れる。

なお、無音部、破裂部始端、破裂部後半の長さは図２の通りでなくても良く、例えば無音部を５ｍｓとしても良い。この場合には、改善音声を遅延させることなく振幅変調を行うことができる。また、無音部がなくても、すなわち無音部を作らずに破裂部始端で０ｄＢから９ｄＢまで増幅させるようにしてもー定の効果が得られるので、そのような設計も適用することができる。

図２の示し方では、無音部の始めを０ｍｓとして表しているが、これは無音部の始めとフレームの始めとを一致させることを示唆するものではなく、破裂音が検出されたフレームに破裂部を形成しなければならないという条件を満たしている限りにおいては、重み係数の設計は時間方向に自由に平行移動できる。

（Ｂ−３）第１の実施形態の効果
第１の実施形態によれば、ＭＢＥ系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音を破裂化させるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。

（Ｃ）第２の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第２の実施形態を、図面を参照しながら説明する。

第１の実施形態では、復号音声の波形の振幅の時間変化に基づいて破裂音の検出を行う場合を示した。しかし、図１２と図１３を用いて説明したとおり、復号音声は破裂音らしい振幅の時間変化の情報が損なわれている可能性が高いため、そのような破裂音を検出することはできない。一方で、ＭＢＥ系の音声符号化方式は、周波数スペクトルのパワーを包絡情報として符号化しているので、パワースペクトルの再現性は高い。

そこで、第２の実施形態では、パワースペクトルを用いて破裂音を検出する。

（Ｃ−１）第２の実施形態の構成
図３は、第２の実施形態の復号音声の音質改善装置１Ｂの構成を示す機能ブロック図であり、第１の実施形態に係る図１との同一、対応の構成要素には同一符号を付して示している。

図３において、第２の実施形態の復号音声の音質改善装置１Ｂは、受信手段１１、ＭＢＥ系復号手段１２、破裂音検出手段２１、破裂化処理手段１４を有する。

第２の実施形態は、第１の実施形態に比較して、破裂音検出手段１３に代えて破裂音検出手段２１を設けている点が、第１の実施形態と異なっている。

破裂音検出手段２１は、ＭＢＥ系復号手段１２から与えられた復号音声を解析して、当該フレームが破裂音の破裂部始端を有するか否かを判定し、得られた判定結果（破裂真偽値と呼ぶ。）は破裂化処理手段１４に与えられる。すなわち、破裂音検出手段２１は、フレームの周波数特性の特徴情報のパターンマッチングを行って、当該フレームが破裂音の破裂部始端か否かを検出する方法である。

図３に示すように、破裂音検出手段２１は、周波数解析部２２、パターン識別部２３を有する。

周波数解析部２２は、ＭＢＥ系復号手段１２からの復号音声を取得し、フレーム毎の周波数スペクトルを算出して、フレーム毎のパワースペクトルを算出する。得られたパワースペクトルはパターン認識部２３へ与えられる。パワースペクトルを算出する方法は任意の方法を用いることができ、例えばＦＦＴ（ＦｉｒｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）やウェーブレット変換やフィルタバンクなどが適用できる。またウェーブレット変換やフィルタバンクを用いれば帯域の不等分割も可能だが、ここではフィルタバンクを用いた帯域の等分割が好適に用いられる。解析する帯域は、無意味な直流成分、ピッチ周波数がある帯域、音声符号化で抑圧されることが多い３４００Ｈｚ以上は不要なので、例えば帯域幅を４００Ｈｚとして、中心周波数を４００Ｈｚ、８００Ｈｚ、・・・、３２００Ｈｚとする８帯域のフィルタバンクが推奨される。

パターン識別部２３は、周波数解析部２２から与えられたパワースペクトルのパターン認識を行って当該フレームが破裂音であるか否かを判定し、その判定結果を破裂真偽値とし、得られた破裂真偽値は、破裂音検出手段２１の出力として破裂化処理手段１４に与えられる。ここで、パターン認識には様々な方法を適用することができ、例えば単純なパターンマッチングやニューラルネットワークなどを選択することができるが、サポートベクターマシンが好適に用いられる。

なお、以上ではパワースペクトルだけを用いるかのように書いたが、パターン認識部２３は帯域分割されていない復号音声自体のパワーをも加えてパターン認識しても良い。また、ここまで単一のフレームから得られたパワースペクトルだけを用いるかのように書いたが、パターン識別部２３は、過去のフレームを用いても良いし、出力を遅延させることで未来のフレームを用いても良い。また、任意の値を用いてパワー値を正規化しても良く、例えば現在のフレームの復号音声のパワーで他のパワー値を除することで正規化しても良い。

（Ｃ−２）第２の実施形態の動作
次に、第２の実施形態に係る音声復号化装置１Ｂの動作を説明する。音声復号化装置１Ｂの全体動作は、第１の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂音検出手段２１の動作を説明する。

ＭＢＥ系復号手段から出力された復号音声は、破裂音検出手段２１に与えられる。破裂音検出手段２１では、復号音声が、周波数解析部２２によって周波数解析が行われてフレーム毎のパワースペクトルが算出され、得られたフレーム毎のパワースペクトルはパターン認識部２３に与えられる。

破裂音検出手段２１のパターン認識部２３において、フレーム毎のパワースペクトルは、所定のパターン認識手法によってパターン認識が行われて、当該フレームが破裂音であるか否かが判定され、その判定結果が破裂真偽値として破裂化処理手段１４に与えられる。

そして、破裂化処理手段１４において、与えられた破裂真偽値が真であるなら、与えられた復号音声に所定の重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得る。その得られた改善音声は後段に出力される。

（Ｃ−３）第２の実施形態の効果
第２の実施形態によれば、ＭＢＥ系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。

（Ｄ）第３の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第３の実施形態を、図面を参照しながら説明する。

第２の実施形態では、破裂音が検出されたフレームはすべて破裂化させる構成を説明した。しかし、破裂部が例えば１０ｍｓを超えるような破裂音では、２フレーム連続で破裂音が検出される可能性がある。また、そもそもパターン認識のエラーによって２フレーム以上連続で破裂音が検出される可能性もある。このような場合、第２の実施形態の構成では１つの破裂音を２回破裂化させてしまう可能性がある。

そこで、第３の実施形態では、複数フレームが連続して破裂音と検出された場合にも１回しか破裂化させないようにする。

（Ｄ−１）第３の実施形態の構成
図４は、第３の実施形態に係る音声復号化装置１Ｃの構成を示す機能ブロック図である。図４において、第１の実施形態に係る図１および第２の実施形態に係る図３と同一、対応する構成要素には、同一符号を付して示している。

図４において、第３の実施形態の音声復号化装置１Ｃは、受信手段１１、ＭＢＥ系復号手段１２、破裂音検出手段２１、破裂化処理手段３１を有する。

第３の実施形態は、第２の実施形態と比較して、破裂化処理手段１４に代えて破裂化処理手段３１を設けている点が、第２の実施形態は異なっている。

破裂化処理手段３１は、破裂音検出手段２１からの破裂真偽値に基づいて、復号音声を破裂化させて、得られた改善音声を出力するものである。

図４に示すように、破裂化処理手段３１は、破裂検定部３２、振幅変調部３３を有する。

破裂検定部３２は、破裂音検出手段２１から与えられた破裂真偽値と、過去の破裂真偽値とを比較して、真値が連続しない補正破裂真偽値を生成し、得られた補正破裂真偽値は、振幅変調部３３に与えられる。

ここで、破裂検定部３２における補正破裂真偽値の生成方法を説明する。

まず、破裂検定部３２は１フレーム過去の破裂真偽値を記憶し、新たに現在のフレームの破裂真偽値が入力されると、破裂検定部３２は、記憶している過去の破裂真偽値と現在のフレームの破裂真偽値とを比較する。そして、過去の破裂真偽値が「偽」で現在の破裂真偽値が「真」である場合にのみ、破裂検定部３２は補正破裂真偽値を「真」として生成する。

なお、それ以外の場合、すなわち、（ａ）過去の破裂真偽値が「偽」で現在の破裂真偽値が「偽」である場合、（ｂ）過去の破裂真偽値が「真」で現在の破裂真偽値が「偽」である場合、（ｃ）過去の破裂真偽値が「真」で現在の破裂真偽値が「真」である場合、破裂検定部３２は補正破裂真偽値を「偽」として生成する。

補正破裂真偽値を生成した後、破裂検定部３２は、現在の破裂真偽値を過去の破裂真偽値に上書きして記憶する。

振幅変調部３３は、与えられた補正破裂真偽値が「真」であるなら、与えられた復号音声に所定の重み係数を乗じて振幅変調を施す。一方、補正破裂真偽値が「偽」であるなら、振幅変調部３３は復号音声をそのまま通過させて、改善音声を得る。この得られた改善音声は破裂化処理手段３１の出力として出力する。振幅変調部３３の動作は、２つ目の入力が破裂真偽値であるか補正破裂真偽値であるかを除けば、第１の実施形態に係る図１の破裂化処理手段１４と同一である。

以上のように、振幅変調を補正破裂真偽値に基づいて行うことで、誤って２フレーム以上連続して破裂化させてしまう誤りが起きなくなる。

（Ｄ−２）第３の実施形態の動作
次に、第３の実施形態に係る音声復号化装置１Ｃの動作を説明する。音声復号化装置１Ｃの全体動作は、第１および第２の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段３１の動作を説明する。

破裂音検出手段２１から出力された破裂真偽値は、破裂化処理手段３１の破裂検定部３２に与えられる。破裂化処理手段３１の破裂検定部３２において、与えられた現在のフレームの破裂真偽値は、過去のフレームの破裂真偽値と比較される。このとき、破裂検定部３２において、過去のフレームの破裂真偽値が偽であり、現在のフレームの破裂真偽値が真である場合、補正破裂真偽値を真として生成して出力する。一方、それ以外の場合には、補正破裂真偽値は偽として生成して出力する。その得られた補正破裂真偽値は、振幅変調部３３に与えられる。なお、破裂検定部３２において、生成された補正破裂真偽値は、過去のフレームの破裂真偽値に上書きされて記憶される。

破裂化処理手段３１の振幅変調部３３では、与えられた補正破裂真偽値が真であるなら、複製音声に所定の重み係数を乗じて振幅変調を施す。一方、補正破裂真偽値が偽であるなら、振幅変調部３３は復号音声をそのまま通過させて、改善音声を得る。この得られた改善音声は破裂化処理手段３１の出力として出力する。

（Ｄ−３）第３の実施形態の効果
第３の実施形態によれば、ＭＢＥ系の音声符号化方式の複号音声において、特徴的な音響現象が損なわれた破裂音を破裂化させ、かつ誤って連続して破裂化させることがないので、当該複号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。

（Ｅ）第４の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第４の実施形態を、図面を参照しながら説明する。

第１〜第３の実施形態では、固定された重み係数を用いていた。しかし、入力音声の破裂部は常にフレーム内の特定の位置で発生するわけではない。そのため、元々無音部であった部分や破裂部後半を破裂化させようとして十分な破裂化の効果が得られない可能性がある。

そこで、第４の実施形態では、復号音声の重心時刻に基づいて重み係数を時間方向に平行移動させることで、元々破裂部始端であった部分を正しく破裂化させるようにする。

なお、第４の実施形態の特徴は破裂化処理手段であり、破裂音検出手段には第１と第２の実施形態の何れの破裂音検出手段も用いることができるが、第４の実施形態では第２の実施形態の破裂音検出手段２１を用いる場合を例示する。

（Ｅ−１）第４の実施形態の構成
図５は、第４の実施形態の音声復号化装置の構成を示す機能ブロック図である。図５において、第１の実施形態に係る図１および第２の実施形態に係る図３との同一、対応の構成要素には同一符号を付して示している。

図５において、第４の実施形態に係る音声復号化装置１Ｄは、受信手段１１、ＭＢＥ系復号手段１２、破裂音検出手段２１、破裂化処理手段４１を有する。

第４の実施形態は、第２および第３の実施形態に比較して、破裂化処理手段１４に代えて破裂化処理手段４１を設けている点が、第２および第３の実施形態とは異なっている。

破裂化処理手段４１は、与えられた破裂真偽値に基づいて与えられた復号音声を破裂化させて、得られた改善音声を出力する。

破裂化処理手段４１は、非負値化部４２、重心時刻算出部４３、振幅変調部４４を有する。

破裂化処理手段４１に与えられた復号音声は、非負値化部４２および振幅変調部４４に与えられる。

非負値化部４２は、与えられた復号音声の各サンプルを非負値へと変換し、得られた非負値化信号は重心時刻算出部に与えられる。非負値へと変換する方法は、出力が非負値であれば任意の方法が適用できるが、絶対値が好適に用いられる。

重心時刻算出部４３は、与えられた非負値化信号のフレーム内でのエネルギーの重心の時刻を算出し、得られた重心時刻は振幅変調部４４に与えられる。重心時刻は（１）式で定義される独自の特徴量である。（１）式において、ｔは時刻、Ｔはフレーム長、Ｘ（ｔ）は非負値化信号、Ｃは重心時刻であり、ｔとＴの単位はサンプルである。また、便宜上、ここでのｔはフレーム内の相対的な時刻を表している。

振幅変調部４４は、重心時刻算出部４３から与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂音検出手段２１から与えられた破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段４１の出力として出力する。

重み係数の設計方法は、第１の実施形態の破裂化処理手段１４と同じであるが、重心時刻に基づいて事前に算出された重み係数を時間方向に平行移動するところが異なる。重み係数の平行移動は、重み係数のピーク位置を重心時刻に基づいて決定することで行う。ピーク位置の決定方法は、重心時刻をそのままピーク位置に一致させる方法が最も簡単なので好適に用いられるが、重心時刻は本来のピーク位置よりも内側に寄る（（１）式においてＣがＴ／２に近づく）傾向と後ろに寄る（（１）式においてＣがＴに近づく）傾向とがあることを考慮して、（２）式によって補正した重心時刻Ｃ’をピーク位置に一致させても良い。

以上のように、重心時刻に基づいて重み係数のピーク位置を変更することで、無音部や破裂部後半を破裂化させてしまうことで破裂化の効果が弱くなってしまう問題を回避できる。

（Ｅ−２）第４の実施形態の動作
次に、第４の実施形態に係る音声復号化装置１Ｄの動作を説明する。音声復号化装置１Ｄの全体動作は、第１および第２の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段４１の動作を説明する。

ＭＢＥ復号手段１２から出力された復号音声は、破裂化処理手段４１の非負値化部４２および振幅変調部４４に与えられる。非負値化部４２において、与えられた復号音声の各サンプルが非負値に変換され、得られた非負値化信号は重心時刻算出部４３に与えられる。

重心時刻算出部４３では、（１）式に従って、与えられた非負値化信号のフレーム内でのエネルギーの重心の時刻が算出され、得られた重心時刻は振幅変調部４４に与えられる。

振幅変調部４４では、与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、与えられた破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段４１の出力として出力する。

（Ｅ−３）第４の実施形態の効果
第４の実施形態によれば、ＭＢＥ系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。

（Ｆ）第５の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第５の実施形態を、図面を参照しながら説明する。

第４の実施形態では、復号音声のフレーム内の重心時刻に基づいて、重み係数を時間方向に平行移動させた。この方法は有効であるが、複数のフレームで連続して破裂音が検出された場合には破裂部後半の大部分が次のフレームにかかってしまい、重心時刻と重み係数のピーク位置との関連性が弱くなる恐れがある。

そこで、第５の実施形態では、連続して破裂音が検出されたフレーム数に基づいて重み係数のピーク位置を決定する。

（Ｆ−１）第５の実施形態の構成
図６は、第５の実施形態の音声復号化装置１Ｅの構成を示す機能ブロック図である。図６において、第１の実施形態に係る図１、第２の実施形態に係る図３、および第３の実施形態に係る図５との同一、対応の構成要素には同一符号を付して示している。

図６において、第５の実施形態の音声復号化装置１Ｅは、受信手段１１、ＭＢＥ系復号手段１２、破裂音検出手段２１、破裂化処理手段５１を有する。第５の実施形態は、第２〜４の実施形態に比較して、破裂化処理手段１４および５１に代えて破裂化処理手段５１を設けている点が、第２〜４の実施形態とは異なっている。

なお、第５の実施形態の特徴は破裂化処理手段５１であり、破裂音検出手段には第１と第２の実施形態の何れの破裂音検出手段も用いることができるが、第５の実施形態では第２の実施形態の破裂音検出手段２１を用いる場合を例示する。

破裂化処理手段５１は、与えられた破裂真偽値に基づいて与えられた復号音声を破裂化させて、得られた改善音声を出力する。

破裂化処理手段５１は、破裂検定部３２、検出回数算出部５３、破裂時刻推定部５４、振幅変調部５５を有する。

破裂化処理手段５１に与えられた復号音声は、振幅変調部５５に与えられ、破裂音検出手段２１からの破裂真偽値は、破裂検定部３２および検出回数算出部５３に与えられる。

破裂検定部３２の動作は、第３の実施形態のそれと同一であるため、説明を省略する。

検出回数算出部５３は、破裂音が連続して検出された回数をカウントし、得られた検出回数は破裂時刻推定部５４に与えられる。検出回数算出部５３の具体的な動作は、内部に検出回数カウンタを有しており、破裂音検出手段２１から与えられた破裂真偽値が真であれば当該機出回数カウンタを「１」増やし、当該破裂真偽値が偽であれば当該検出回数カウンタを「０」に戻し、現在の検出回数カウンタの値を検出回数として出力する。

破裂時刻推定部５４は、与えられた検出回数に基づいて、連続して破裂音が検出されたフレームの中で最初のフレームのどの時刻に破裂部のパワーのピーク位置があるかを推定し、得られた破裂時刻は振幅変調部５５に与えられる。

破裂時刻推定部５４にはアルゴリズム上の注意点がある。すなわち、最初に破裂音を検出したフレームを破裂化させるため、（現実的ではないが可能性の問題として）破裂音が長期間連続して検出され続けた場合、破裂真偽値が偽となるまで出力を遅延させ続けなければならない。このような問題が生じないように、所定の回数より大きい検出回数は無視する動作が必要となる。

以下、破裂部始端を含むフレームから破裂部後半が存在していると考えられる最後のフレームまでのフレーム数を、連続破裂フレーム数と呼ぶ。

破裂部は長くても３０ｍｓ程度であることから、フレーム周期が１０ｍｓの場合、連続破裂フレーム数は最大３フレーム程度と考えるのが妥当である。そこで、破裂時刻の算出は連続破裂フレーム数に基づいて行うものとして、過去の検出回数を１フレーム分だけ記憶するようにしておいて、現在の検出回数が「０」で且つ前回の検出回数が「１」または「２」である場合には現在の検出回数を連続破裂フレーム数とし、現在の検出回数が「３」である場合には今回の検出回数を連続破裂フレーム数とし、それ以外の場合には連続破裂フレーム数を「０」とする。

検出回数に基づく破裂時刻の算出は（３）式によって行う。（３）式において、Ｎは連続破裂フレーム数であり、Ｐは破裂時刻であり、Ｐ０は破裂時刻の最小値である。Ｐ０は０以上（Ｔ−１）未満の任意の値であるが、重み係数の設計における破裂部始端の長さが好適に用いられる。なお、Ｎ＝０の場合には重み係数による振幅変調は行われないため、Ｐは計算する必要がなく、例えば前回の値をそのまま保持しておく。

振幅変調部５５は、破裂時刻推定部５４から与えられた破裂時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部３２から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段５１の出力として出力する。

重み係数の設計方法は、第１の実施形態の破裂化処理手段１４と同じであるが、破裂時刻に基づいて事前に算出された重み係数を時間方向に平行移動するところが異なる。重み係数の平行移動は、重み係数のピーク位置を破裂時刻に一致させることで行う。

以上のように、連続して破裂音が検出された回数に基づいて重み係数のピーク位置を変更することで、破裂音が連続して検出された場合に連続して破裂化させてしまう問題と、無音部を破裂化させてしまうことで破裂化の効果が弱くなってしまう問題を回避できる。

（Ｆ−２）第５の実施形態の動作
次に、第５の実施形態に係る音声復号化装置１Ｅの動作を説明する。音声復号化装置１Ｅの全体動作は、第１〜第４の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段５１の動作を説明する。

破裂音検出手段２１から出力された破裂真偽値は、破裂化処理手段５１の破裂検定部３２および検出回数算出部５３に与えられる。

破裂化処理手段５１の破裂検定部３２では、第３の実施形態と同様にして、与えられた現在のフレームの破裂真偽値は、過去のフレームの破裂真偽値と比較して、補正破裂真偽値が生成される。得られた補正破裂真偽値は、振幅変調部５５に与えられる。

破裂化処理手段５１の検出回数算出部５３では、与えられた各フレームの破裂真偽値に基づいて破裂音が連続して検出された回数をカウントし、得られた検出回数が破裂時刻推定部５４に与えられる。

破裂時刻推定部５４では、与えられた検出回数に基づいて、連続して破裂音が検出されたフレームの中で最初のフレームのどの時刻に破裂部のパワーのピーク位置があるかを推定し、得られた破裂時刻は振幅変調部５５に与えられる。

振幅変調部５５では、破裂時刻推定部５４から与えられた破裂時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部３２から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段５１の出力として出力する。

（Ｆ−３）第５の実施形態の効果
第５の実施形態によれば、ＭＢＥ系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させ、かつ誤って連続して破裂化させることがないので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。

（Ｇ）第６の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第６の実施形態を、図面を参照しながら説明する。

第５の実施形態は、連続して破裂音が検出された場合にも最初に破裂音が検出されたフレームだけを破裂化させ、さらに破裂化させる位置も連続して破裂音が検出された回数に基づいて推定された破裂時間によって動的に設定できるが、当該連続して破裂音が検出された回数はパターン認識の精度に強く依存するために、破裂時間の推定結果が不安定になる問題がある。

そこで、第６の実施形態では、第４の実施形態の重心時刻と第５の実施形態の検出回数の両方に基づいて破裂時間を推定する。

（Ｇ−１）第６の実施形態の構成
図７は、第６の実施形態に係る音声復号化装置１Ｆの構成を示す機能ブロック図である。図７において、第１〜５の実施形態に係る図１、図３〜６との同一、対応の構成要素には同一符号を付して示している。

図７において、第６の実施形態に係る音声復号化装置１Ｆは、受信手段１１、ＭＢＥ系復号手段１２、破裂音検出手段２１、破裂化処理手段６１を有する。第６の実施形態は、第４および第５の実施形態に比較して、破裂化処理手段４１および５１に代えて破裂化処理手段６１を設けている点が、第４および第５の実施形態とは異なっている。

破裂化処理手段６１は、与えられた破裂真偽値に基づいて与えられた復号音声を破裂化させて、得られた改善音声を出力する。

破裂化処理手段６１は、破裂検定部３２、非負値化部４２、検出回数算出部５３、重心時刻算出部６２、振幅変調部６３を有する。

破裂化処理手段６１に与えられた復号音声は、非負値化部４２および振幅変調部６３に与えられ、同じく与えられた破裂真偽値は、破裂検定部３２および検出回数算出部５３に与えられる。

非負値化部４２の動作は、第４の実施形態のそれと同一であるため、説明を省略する。

検出回数算出部５３の動作は、第５の実施形態のそれと同一であるため、説明を省略する。

重心時刻算出部６２は、与えられた非負値化信号と検出回数に基づいて、連続して破裂音が検出されたフレームの中の重心時刻算出し、得られた重心時刻は振幅変調部６３に与えられる。

第４の実施形態の重心時刻算出部４３では、単一のフレームに対して重心時刻を算出したが、第６の実施形態の重心時刻算出部６２では連続破裂フレーム数分のフレームを用いて重心時刻を算出する。したがって、重心時刻Ｃは（４）式によって算出される。なお、ｔは破裂音が検出された最初のフレームからの相対的な時刻を表している。

なお、重心時刻算出部６２には、第５の実施形態の破裂時刻推定部５４と同じアルゴリズム上の注意点が存在する。そこで、連続破裂フレーム数は破裂時刻推定部５４と同じように設定する。

振幅変調部６３は、重心時刻算出部６２から与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部３２から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段６１の出力として出力する。

重み係数の設計方法は、第４の実施形態の振幅変調部４４と同じであるが、重心時刻が破裂音の最初に検出されたフレーム内に留まらない点が異なる。重み係数のピーク位置の決定方法は、第４の実施形態の振幅変調部４４と同様に重心時刻をそのままピーク位置に一致させる方法が最も簡単なので好適に用いられるが、重心時刻が本来のピーク位置よりも内側に寄る傾向と後ろに寄る傾向とを考慮して、（５）式によって補正した重心時刻Ｃ’をピーク位置に一致させても良い。

以上のように、破裂音が連続して検出された場合には複数のフレームに渡って重心時刻を算出し、得られた重心時刻に基づいて重み係数のピーク位置を変更することで、破裂音が連続して検出された場合に連続して破裂化させてしまう問題と、無音部を破裂化させてしまうことで破裂化の効果が弱くなってしまう問題を回避できる。

（Ｇ−２）第６の実施形態の動作
次に、第６の実施形態に係る音声復号化装置１Ｆの動作を説明する。音声復号化装置１Ｆの全体動作は、第１〜第５の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段６１の動作を説明する。

破裂音検出手段２１から出力された破裂真偽値は、破裂化処理手段６１の破裂検定部３２及び検出回数算出部５３に与えられる。

破裂化処理手段６１の破裂検定部３２では、与えられた現在のフレームの破裂真偽値は、過去のフレームの破裂真偽値と比較して、補正破裂真偽値が生成される。得られた補正破裂真偽値は、振幅変調部６３に与えられる。

破裂化処理手段６１の検出回数算出部５３では、与えられた各フレームの破裂真偽値に基づいて破裂音が連続して検出された回数をカウントし、得られた検出回数が重心時刻算出部６２に与えられる。

ＭＢＥ系復号手段１２から出力された復号音声は、破裂化処理手段６１の非負値化部４２および振幅変調部６３に与えられる。

破裂化処理手段６１の非負値化部４２によって、復号音声の各サンプルが非負値へと変換され、得られた非負値化信号は重心時刻算出部６２に与えられる。

重心時刻算出部６２では、与えられた非負値化信号と、破裂音が連続して検出された検出回数とに基づいて、連続して破裂音が検出されたフレームの中の重心時刻が算出され、得られた重心時刻が振幅変調部６３に与えられる。

振幅変調部６３では、重心時刻算出部６２から与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部３２から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段６１の出力として出力する。

（Ｇ−３）第６の実施形態の効果
以上のように、第６の実施形態によれば、ＭＢＥ系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させ、かつ誤って連続して破裂化させることがないので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。

（Ｈ）第７の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第７の実施形態を、図面を参照しながら説明する。

第２〜６の実施形態では、復号音声の破裂音は特徴的な音響現象が損なわれていることを前提として、パワースペクトルのみを用いて破裂音の検出を行っていた。しかし、すべての破裂音が損なわれているわけではなく、運よく入力音声の破裂音が精度よく再現されていることもある。そのような場合に、第２〜６の実施形態によって破裂化処理を行うと、改善音声の破裂音が過剰に強くなり、聴感上不自然に聴こえることがある。加えて、そのような場合には、パワースペクトルよりも時間波形を観察する方が、破裂音のパワーのピーク位置やピークの大きさまでもより正確に検出することができる。

そこで、第７の実施形態では、時間波形の観察による時間領域破裂音検出とパワースペクトルのパターン認識による破裂音検出とを同時に行い、その結果を適宜選択して用いる。

（Ｈ−１）第７の実施形態の構成
図８は、第７の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。図８において、第１〜６の実施形態に係る図１、図３〜７との同一、対応の構成要素には同一符号を付して示している。

図８において、第７の実施形態に係る音声復号化装置１Ｇは、受信手段１１、ＭＢＥ系復号手段１２、周波数領域破裂音検出手段７１、時間領域破裂音検出手段７２、破裂化処理手段７３を有する。

受信手段１１およびＭＢＥ系復号手段１２は、第１の実施形態のそれらと同一なので、説明を省略する。

周波数領域破裂音検出手段７１は、第２の実施形態の破裂音検出手段２１と同一なので、説明を省略する。ただし、次に説明する時間領域破裂音検出手段７２に対して、当該周波数領域破裂音検出手段７１はパワースペクトルのパターン認識を行うことで破裂音を検出することに注意されたい。

時間領域破裂音検出手段７２は、復号音声の時間波形を解析して破裂音に係る破裂部のパワーのピーク位置やピーク値の情報をまとめた破裂情報を抽出し、得られた破裂情報は破裂化処理手段７３に与えられる。

時間領域破裂音検出手段７２は、短周期パワー算出部１５、パワー比算出部１６、破裂情報抽出部７７を有する。

時間領域破裂音検出手段７２は、第１の実施形態の破裂音検出手段１３とほぼ同一だが、破裂検出部１７に代えて破裂情報抽出部７７を設けている点、破裂音検出手段１３が破裂真偽値を出力するのに対して時間領域破裂音検出手段７２は破裂情報を出力する点が第１の実施形態の破裂音検出手段１３と異なる。

破裂情報抽出部７７は、与えられたパワー比が最大となる時刻を探索して破裂時刻とし、破裂時刻におけるパワー比を破裂パワー比とし、破裂時刻と破裂パワー比を破裂情報としてまとめ、得られた破裂情報を時間領域破裂音検出手段７２の出力として破裂化処理手段７３に与える。

破裂化処理手段７３は、周波数領域破裂音検出手段７１より与えられた破裂真偽値および時間領域破裂音検出手段７２より与えられた破裂情報に基づいて、ＭＢＥ系復号手段１２より与えられた復号音声を破裂化させ、得られた改善音声を出力する。

破裂化処理手段７３は、非負値化部４２、検出回数算出部５３、重心時刻算出部６２、破裂検定部７４、破裂情報選択部７５、振幅変調部７６を有する。

非負値化部４２は、第４の実施形態のそれと同一なので、説明を省略する。

検出回数算出部５３は、第５の実施形態のそれと同一なので、説明を省略する。

重心時刻算出部６２は、第６の実施形態のそれと同一なので、説明を省略する。

破裂検定部７４は、与えられた破裂真偽値と破裂情報とに基づいて破裂真偽値を補正して補正破裂真偽値を生成し、得られた補正破裂真偽値は振幅変調部７６に与えられる。補正破裂真偽値は、破裂情報の破裂パワー比が所定の閾値以上であれば真とし、そうでない場合には破裂真偽値に基づいて第３の実施形態の破裂検定部３２と同様にして設定される。

破裂情報選択部７５は、破裂情報に基づいて重心時刻か破裂情報かを選択し、選択された情報は重み係数設計情報として振幅変調部７６に与えられる。情報の選択は、破裂情報の破裂パワー比に基づいて行う。すなわち、所定の閾値を設定しておいて、破裂パワー比が当該閾値より大きければ破裂情報を選択して重み係数設計情報とし、破裂パワー比が当該閾値より小さければ重心時刻を選択して重み係数設計情報とする。当該閾値は、破裂検定部７４で用いられる閾値と同じ値としても良いし、異なる値としても良いが、２つの閾値を同じ値とすることで破裂検定部７４と破裂情報選択部７５の動作を同期させる構成が好適に用いられる。

振幅変調部７６は、破裂情報選択部７５から与えられた重み係数設計情報に基づいて重み係数を設計した上で、破裂検定部７４から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段７３の出力として出力する。

重み係数設計情報が重心時刻である場合には、振幅変調部７６の動作は第６の実施形態の振幅変調部６３と同一である。

重み係数設計情報が破裂情報である場合には、破裂パワー比に応じて重み係数のピーク値を補正した後に、破裂時刻に基づいて第１の実施形態の破裂化処理手段１４と同様に重み係数を時間方向に平行移動する。重み係数のピーク値の補正は、予め設計された重み係数のピークゲイン（図２の例では９ｄＢ）と、破裂ピーク比のゲインとの合成ゲイン（対数尺度なら和、線形尺度なら積）が、元の重み係数のピークゲインを超えないようにする。すなわち、破裂ピーク比が９ｄＢ以上であれば重み係数は常に０ｄＢとし（すなわち破裂化させない）、破裂ピーク比が９ｄＢ未満であれば、元の重み係数のピークゲインと破裂ピーク比の合成ゲインが９ｄＢとなるように重み係数のピークゲインを補正する。例えば破裂ピーク比が４ｄＢであるなら、重み係数のピークゲインは５ｄＢとなるように補正される。

以上のように、時間領域破裂音検出手段の結果と周波数領域破裂音検出手段の結果を選択して使い分けることで、復号音声に破裂音の特徴的な音響現象が再現されている場合に過剰な破裂化がなされることを防ぐことができる。

（Ｈ−２）第７の実施形態の動作
次に、第7の実施形態に係る音声復号化装置１Ｇの動作を説明する。

ＭＢＥ系復号手段１２から出力された復号音声は、周波数領域破裂音検出手段７１、時間領域破裂音検出手段７２および破裂化処理手段７３に与えられる。

周波数領域破裂音検出手段７１では、第２の実施形態に係る破裂音検出手段２１と同様にして、復号音声の周波数解析が行われ、各フレームのパワースペクトルのパターン認識が行われて、当該フレームが破裂音の破裂部始端を有するか否かを判定し、得られた判定結果が破裂真偽値として破裂化処理手段７３の検出回数算出部５３および破裂検定部７４に与えられる。

時間領域破裂音検出手段７２では、与えられた復号音声の時間波形を解析して、破裂音に係る破裂部のパワーのピーク位置やピーク値の情報をまとめた破裂情報を抽出し、得られた破裂情報が破裂化処理手段７３の破裂検定部７４および破裂情報選択部７５に与えられる。

ここで、時間領域破裂音検出手段７２の破裂情報抽出部７７では、パワー比算出部１６によって算出されたパワー比が最大となる時刻を探索し、これを破裂時刻とする。そして、破裂時刻におけるパワー比を破裂パワー比とし、破裂時刻と破裂パワー比を破裂情報としてまとめ、得られた破裂情報を時間領域破裂音検出手段７２の出力として破裂化処理手段７３の破裂検定部７４および破裂情報選択部７５に与える。

破裂化処理手段７３の検出回数算出部５３では、与えられた各フレームの破裂真偽値に基づいて破裂音が連続して検出された回数をカウントし、得られた検出回数が重心時刻算出部６２に与えられる。

破裂化処理手段７３の非負化部４２では、与えられた復号音声の各サンプルを非負値へと変換し、得られた非負値化信号は重心時刻算出部６２に与えられる。

破裂化処理手段７３の重心時刻算出部６２では、与えられた非負値化信号と、破裂音が連続して検出された検出回数とに基づいて、連続して破裂音が検出されたフレームの中の重心時刻が算出され、得られた重心時刻が破裂情報選択部７５に与えられる。

破裂検定部７４では、与えられた破裂真偽値と破裂情報とに基づいて破裂真偽値を補正して補正破裂真偽値を生成し、得られた補正破裂真偽値は振幅変調部７６に与えられる。補正破裂真偽値は、破裂情報の破裂パワー比が所定の閾値以上であれば真とし、そうでない場合には破裂真偽値に基づいて第３の実施形態の破裂検定部３２と同様にして設定される。

破裂情報選択部７５は、時間領域破裂音検出手段７２からの破裂情報に基づいて、重心時刻算出部６２からの重心時刻か当該破裂情報かを選択する。このとき破裂情報の破裂パワー比が所定の閾値より大きければ、破裂情報が選択され、この破裂情報が重み係数設計情報として振幅変調部７６に出力され、破裂パワー比が当該閾値より小さければ重心時刻が選択され、この重心時刻が重み係数設計情報として振幅変調部７６に出力される。

振幅変調部７６では、与えられた重み係数設計情報に基づいて重み係数を設計した上で、破裂検定部７４から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段７３の出力として出力する。

（Ｈ−３）第７の実施形態の効果
以上のように、第７の実施形態によれば、ＭＢＥ系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより適切に破裂化させることができるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。

（Ｉ）他の実施形態
上記各実施形態においても種々の変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

上記各実施形態では、ＭＢＥ系復号手段からの復号音声の品質を改善する方法が１種類のものを示したが、複数の改善方法に対応できる構成とし、利用者が改善方法を選択できるようにしても良い。

また、複数の改善方法からの選択ではなく、改善方法を適用するか否かを利用者が選択できるようにしても良い。この選択を利用者が行うのではなく、自動的に行なうようにしても良い。例えば、復号音声について、パワー、各時数のＬＰＣ係数の平均値等の特性値を算出し、算出した特性値と閾値との比較により、上記各実施形態で説明した復号音声に対する改善方法を適用するか否かを定めるようにしても良い。

上記各実施形態では、音声を復号化する場合を示したが、音響を適用可能なＭＢＥ系符号化の場合であれば、音響の復号化に本発明の技術的思想を適用することができる。特許請求の範囲に記載の「音声」の用語には、このような場合の「音響」も含まれているものとする。

上記各実施形態の説明では言及しなかったが、音声復号化装置を構成する要素の装置やチップへの実装方法は任意である。例えば、ＭＢＥ系復号手段１２がＩＣチップで実現され、上記各実施形態の破裂音検出手段（周波数領域破裂音検出手段、時間領域破裂音検出手段を含む）、破裂化処理手段が、ＣＰＵにより実行されるソフトウェアとして構成されても良い。また、上記各実施形態の破裂音検出手段（周波数領域破裂音検出手段、時間領域破裂音検出手段を含む）、破裂化処理手段がＩＣチップ化されても良い。上記各実施形態の音声復号化装置は、デジタル無線機や有線回線に接続する通信機器に搭載されるものであっても良い。

１Ａ、１Ｂ、１Ｃ、１Ｄ、１Ｅ、１Ｆ、１Ｇ…音声復号化装置、１１…受信手段、１２…ＭＢＥ系復号手段、１３、２１…破裂音検出手段、１４、３１、４１、５１、６１、７７…破裂化処理手段、７１…周波数領域破裂音検出手段、７２…時間領域破裂音検出手段。

Claims

ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、
上記デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、
上記復号音声の破裂音を検出する破裂音検出手段と、
検出された上記破裂音を破裂化させる破裂化処理手段と
を備え、
上記破裂化処理手段は、
上記破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、上記復号音声に所定の重み係数を乗じて出力し、
上記破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、上記復号音声をそのまま出力し、
上記重み係数は、
無音部と破裂部始端と破裂部後半の３状態で構成され、
無音部は０ｄＢより小さな値を持ち、
破裂部始端で前記無音部の値から０ｄＢよりも大きな値へ増大し、
破裂部後半で前記破裂部始端の０ｄＢより大きな値から０ｄＢへ減少する
ことを特徴とする音声復号化装置。
上記破裂音検出手段は、
上記ＭＢＥ系復号手段の処理周期よりも短い周期でパワーを算出し、
得られた短周期パワーを所定のルールで定めた基準パワーで除して、
得られたパワー比が所定の閾値以上であれば破裂音であると判定する
ことを特徴とする請求項１に記載の音声復号化装置。
上記所定のルールは、
パワー比を算出する対象時刻に対して、
当該対象時刻が当該処理フレーム内の始端であれば当該対象時刻の短周期パワーを前記基準パワーとし、
当該対象時刻が当該処理フレーム内の始端より後であれば当該処理フレーム内の始端から当該対象時刻の直前までの短周期パワーの最小値を前記基準パワーとする
ことを特徴とする請求項２に記載の音声復号化装置。
上記所定のルールは、
パワー比を算出する対象時刻に対して、当該対象時刻より所定時間前から当該対象時刻の直前までの短周期パワーの最小値を前記基準パワーとする
ことを特徴とする請求項２に記載の音声復号化装置。
上記破裂音検出手段は、
上記ＭＢＥ系復号手段からの復号音声を周波数解析し、
得られたパワースペクトルに対してパターン認識を行って破裂音か否かを判定する
ことを特徴とする請求項１に記載の音声復号化装置。
上記破裂化処理手段は、
上記破裂音検出手段において２フレーム以上連続して破裂音を検出した場合に、最初に検出したフレームのみを基準に１回だけ上記重み係数を乗じる
ことを特徴とする請求項５に記載の音声復号化装置。
上記破裂化処理手段は、
上記復号音声をサンプルごとに非負値に変換し、
得られた非負値化信号の和に関するフレーム内の重心を算出し、
得られた重心時刻に基づいて上記重み係数を時間方向に平行移動してから復号音声に乗じる
ことを特徴とする請求項５に記載の音声復号化装置。
上記破裂化処理手段は、
上記破裂音検出手段において連続して破裂音を検出した回数に基づいて、上記重み係数を時間方向に平行移動してから復号音声に乗じる
ことを特徴とする請求項６に記載の音声復号化装置。
上記破裂化処理手段は、
上記復号音声をサンプルごとに非負値に変換し、
上記破裂音検出手段が連続して破裂音を検出した回数と同数のフレーム内の当該非負値化信号の和に関する重心を算出して得られる重心時刻とに基づいて、上記重み係数を時間方向に平行移動してから復号音声に乗じる
ことを特徴とする請求項６に記載の音声復号化装置。
ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、
上記デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、
上記復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、
上記周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の上記復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、
上記復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、
上記重心時刻と上記時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、
上記周波数領域破裂音検出手段の判定結果と上記破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、
上記破裂検定手段において破裂音であると判定したフレームを基準として、上記破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、上記復号音声に当該重み係数を乗じる破裂化処理手段と
を備えることを特徴とする音声復号化装置。
上記予め設計される所定の重み係数は、
無音部と破裂部始端と破裂部後半の３状態で構成され、
無音部は０ｄＢより小さな値を持ち、
破裂部始端で前記無音部の値から０ｄＢよりも大きな値へ増大し、
破裂部後半で前記破裂部始端の０ｄＢより大きな値から０ｄＢへ減少する
ことを特徴とする請求項１０に記載の音声復号化装置。
上記周波数領域破裂音検出手段は、
上記ＭＢＥ系復号手段を周波数解析し、
得られたパワースペクトルに対してパターン認識を行って破裂音か否かを判定する
ことを特徴とする請求項１０又は１１に記載の音声復号化装置。
上記時間領域破裂音検出手段は、
上記ＭＢＥ系復号手段の処理周期よりも短い周期でパワーを算出し、
得られた短周期パワーを所定のルールで定めた基準パワーで除して、
得られたパワー比が所定の閉値以上であれば破裂音であると判定する
ことを特徴とする請求項１０〜１２のいずれかに記載の音声復号化装置。
上記所定のルールは、
パワー比を算出する対象時刻に対して、
当該対象時刻が当該処理フレーム内の始端であれば当該対象時刻の短周期パワーを前記基準パワーとし、
当該対象時刻が当該処理フレーム内の姶端より後であれば当該処理フレーム内の始端から当該対象時刻の直前までの短周期パワーの最小値を上記基準パワーとする
ことを特徴とする請求項１３に記載の音声復号化装置。
上記所定のルールは、
パワー比を算出する対象時刻に対して、当該対象時刻より所定時間前から当該対象時刻の直前までの短周期パワーの最小値を前記基準パワーとする
ことを特徴とする請求項１３に記載の音声復号化装置。
ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、
ＭＢＥ系復号手段が、上記デジタル音声符号化情報を復号化して復号音声を生成し、
破裂音検出手段が、上記復号音声の破裂音を検出し、
破裂化処理手段が、検出された上記破裂音を破裂化させ、
上記破裂化処理手段は、
上記破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、上記復号音声に所定の重み係数を乗じて出力し、
上記破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、上記復号音声をそのまま出力し、
上記重み係数は、
無音部と破裂部始端と破裂部後半の３状態で構成され、
無音部は０ｄＢより小さな値を持ち、
破裂部始端で前記無音部の値から０ｄＢよりも大きな値へ増大し、
破裂部後半で前記破裂部始端の０ｄＢより大きな値から０ｄＢへ減少する
ことを特徴とする音声復号化方法。
ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、
ＭＢＥ系復号手段が、上記デジタル音声符号化情報を復号化して復号音声を生成し、
周波数領域破裂音検出手段が、上記復号音声の破裂音を周波数領域で検出し、
重心時刻算出手段が、上記周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の上記復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出し、
時間領域破裂音検出手段が上記復号音声の破裂音を時間領域で検出し、
破裂情報選択手段が、上記重心時刻と上記時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択し、
破裂検定手段が、上記周波数領域破裂音検出手段の判定結果と上記破裂情報とに基づいて、破裂音か否かを再判定し、
破裂化処理手段が、上記破裂検定手段において破裂音であると判定したフレームを基準として、上記破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、上記復号音声に当該重み係数を乗じる
ことを特徴とする音声復号化方法。
ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、
コンピュータを、
上記デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、
上記復号音声の破裂音を検出する破裂音検出手段と、
検出された上記破裂音を破裂化させる破裂化処理手段と
して機能させ、
上記破裂化処理手段は、
上記破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、上記復号音声に所定の重み係数を乗じて出力し、
上記破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、上記復号音声をそのまま出力し、
上記重み係数は、
無音部と破裂部始端と破裂部後半の３状態で構成され、
無音部は０ｄＢより小さな値を持ち、
破裂部始端で前記無音部の値から０ｄＢよりも大きな値へ増大し、
破裂部後半で前記破裂部始端の０ｄＢより大きな値から０ｄＢへ減少する
ことを特徴とする音声復号化プログラム。
ＭＢＥ系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、
コンピュータを、
上記デジタル音声符号化情報を復号化して復号音声を生成するＭＢＥ系復号手段と、
上記復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、
上記周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の上記復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、
上記復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、
上記重心時刻と上記時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、
上記周波数領域破裂音検出手段の判定結果と上記破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、
上記破裂検定手段において破裂音であると判定したフレームを基準として、上記破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、上記復号音声に当該重み係数を乗じる破裂化処理手段と
して機能させることを特徴とする音声復号化プログラム。
請求項１〜１５のいずれかに記載の音声復号化装置を備えることを特徴とする通信機器。