JP6481271B2 - 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 - Google Patents

音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 Download PDF

Info

Publication number
JP6481271B2
JP6481271B2 JP2014139817A JP2014139817A JP6481271B2 JP 6481271 B2 JP6481271 B2 JP 6481271B2 JP 2014139817 A JP2014139817 A JP 2014139817A JP 2014139817 A JP2014139817 A JP 2014139817A JP 6481271 B2 JP6481271 B2 JP 6481271B2
Authority
JP
Japan
Prior art keywords
burst
sound
speech
rupture
plosive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014139817A
Other languages
English (en)
Other versions
JP2016018042A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2014139817A priority Critical patent/JP6481271B2/ja
Publication of JP2016018042A publication Critical patent/JP2016018042A/ja
Application granted granted Critical
Publication of JP6481271B2 publication Critical patent/JP6481271B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器に関し、例えば、MBE(Multi−Band Excitation;マルチバンド励振)系の音声符号化方式による符号化音声信号を復号する場合に適用して好適なものである。
データ伝送等の需要増加や周波数の逼迫が懸念されたことによる電波法の改正に伴い、簡易無線機を従来のアナログ方式からデジタル方式へ完全移行することが決まっている。このような流れを受けて、一般社団法人電波産業会によってデジタル方式の簡易無線機(以下、デジタル無線機と呼ぶ)の通信方式に対する標準規格が定められた。特定小電力無線機に多く採用されている変調方式4値FSKに対して、放送分野においては放送事業用4FSK連絡無線方式(STD−B54)、通信分野においては狭帯域デジタル通信方式(SCPC/4値FSK方式)(STD−T102)の中で定められており、音声符号化方式はいずれも「Digital Voice System,Inc.(米国の会社)のAMBE+2 Enhanced Half−Rateを推奨する」とされている。なお、AMBE+2(AMBE++と表記されることがある)は、Digital Voice System,Inc.の商標である。
AMBE+2は、雑音が多い環境でも復号音声が不自然になり難い長所と、低ビットレートでも安定した品質を提供できる長所とを有するが、声色を変質させる短所があり、「鼻が詰まった様な音声になる」ことも報告されている(非特許文献1)。
AMBE+2は、音声符号化方式の一つであるMBE(Multi−Band Excitation)を応用させた方式であり、AMBEは、Advanced MBEを略したものである。AMBEの他にもIMBE(lmproved MBE)と呼ばれる音声符号化方式がある。AMBE+2を含むAMBEやIMBEは、いずれもMBEが基本となっている。本願明細書では、MBE、AMBE及びIMBEを「MBE系の音声符号化方式」と称している。なお、単に、MBE音声符号化方式と記載しているときは、音声符号化方式がMBEであることを表している。
図9は、MBE符号化方式に従っている、非特許文献2に記載の音声符号化装置の構成を示している。
図9において、音声符号化装置100は、周波数変換手段101、初期ピッチ選択手段102、ピッチ改良手段103、有声包絡推定手段104、無声包絡推定手段105、有声/無声決定手段106、有声/無声選択手段107、多重化手段108及び量子化手段109を有する。
マイクロホン等で取り込んだ音声信号が図示しないD/A変換器によってデジタル化された音声信号(以下、入力音声と呼ぶ)が音声符号化装置100に入力される。周波数変換手段101は、入力音声をオーバーラップさせながら窓掛けFFT(Fast Fourier Transform)によって周波数スペクトルへと変換する。初期ピッチ選択手段102は、入力音声が完全な有声音であると仮定した場合の調波モデル誤差を最小化するという基準に基づいて、動的計画法を併用しながらピッチ周期(整数サンプル値)を選択し、得られた初期ピッチはピッチ改良手段103へ与えられる。ピッチ改良手段103は、上記調波モデル誤差がさらに小さくなるように、周波数変換手段101からの入力スペクトルに基づいて、整数サンプル値で表現されている初期ピッチを実数サンプル値で表現される、より高精度なピッチ周期へと更新する。
有声包絡推定手段104は、周波数変換手段101からの入力スペクトルとピッチ改良手段103からの実数ピッチに基づいて、上記調波モデル誤差を最小とする有声音に対する包絡情報を算出する。有声音に対する包絡情報は、調波成分ごとのパワー及び位相によって構成されている。無声包絡推定手段105は、入力スペクトルと実数ピッチに基づいて、各調波成分が雑音的であると仮定して、調波帯域ごとのパワーを算出して無声包絡情報とする。調波帯域は、有声音において各調波成分が占有する帯域のことであり、実数ピッチによって定義され、隣り合う調波帯域は重ならず、また離れてもいない。有声/無声決定手段106は、実数ピッチによって定義される調波帯域ごとに、入力スペクトルと有声包絡情報から算出される当該調波帯域の調波モデル誤差及び無声包絡情報に基づいて、当該調波帯域が有声音であるか無声音であるかを判定する。有声/無声選択手段107は、有声/無声情報に基づいて、調波帯域ごとに有声包絡情報又は無声包絡情報を択一的に選択する。
多重化手段108は、ピッチ情報、調波帯域ごとの有声/無声情報、及び、調波帯域ごとの包絡情報を一つの系列へとまとめる。量子化手段109は、符号化情報を量子化し(例えば、要素毎に定まっているビット数になるように量子化し)、得られたデジタル音声符号化情報を出力する。
図10は、MBE符号化方式に従っている、非特許文献2に記載の音声復号化装置の構成を示している。図10に示す音声復号化装置200は、上述した音声符号化装置100に対向するものであり、音声符号化装置100が出力したデジタル音声符号化情報が与えられる。
図10において、音声復号化装置200は、逆量子化手段201、多重分離手段202、有声/無声包絡分離手段203、調波発振手段204、補間手段205、雑音生成手段206、周波数変換手段207、包絡情報置換手段208、波形復元手段209及び加算手段210を有する。
図10において、逆量子化手段201は、到来したデジタル音声符号化情報から、逆量子化によって、量子化前の符号化情報を推定する。多重分離手段202は、逆量子化された音声符号化情報を、ピッチ情報、有声/無声情報及び包絡情報へと多重分離する。
有声/無声包絡分離手段203は、多重分離された有声/無声情報に基づいて、包絡情報を、有声包絡情報と無声包絡情報とに分離する。有声包絡情報は、無声である調波帯域のパワーと位相がゼロとなっており、無声包絡情報は、有声である調波帯域のパワーがゼロとなっている。調波発振手段204は、ピッチ情報と有声包絡情報に基づいて、調波成分ごとに有声包括情報に応じた振幅と位相の正弦波信号を生成し、全ての調波成分の正弦波信号を足し合わせて有声音声を合成する。生成される正弦波信号は、振幅と位相が、有声包括情報に応じた振幅と位相を連続するように調整されているものである。
補間手段205は、無声包絡情報を、周波数変換手段207の周波数分解能に合わせて補間(例えば線形補間)し、無声振幅スペクトルを得る。雑音生成手段206は、周知のいずれかの方法で白色雑音を生成し、周波数変換手段207は、上述した周波数変換手段101と同じパラメータで白色雑音信号を周波数変換し、雑音スペクトルを得る。包絡情報置換手段208は、周波数変換手段207からの雑音スペクトルに補間手段205からの無声振幅スペクトルを乗じて無声スペクトルを算出する。波形復元手段209は、周波数変換手段207に対応したパラメータで無声スペクトルをIFFTし、かつ、オーバーラップ加算して無声音声を生成する。
加算手段210は、調波発振手段204からの有声音声と波形復元手段209からの無声音声とを加算して復号音声を得て出力する。
以上では、MBE符号化方式に従っている音声符号化装置100及び音声復号化装置200の構成並びに動作を説明したが、AMBE符号化方式やIMBE符号化方式も、音声パラメータの推定や、量子化の精度及び方法は異なるが、原理的には極めて似通っている。いずれのMBE系の音声符号化方式共に、雑音への耐性が高く、低ビットレートで安定した品質を提供できる。
"150MHz帯アナログ簡易無線局用周波数におけるデジタル方式との周波数共用に関する調査検討報告書",総務省 北陸総合通信局 調査研究会情報,2011年. Daniel W.Griffin and Jae S.Lim,"Multiband Excitation Vocoder,"IEEE Trans. on Acoustics, Speech and Signal Processing, Vol.ASSP−36, no.8, pp.1223−1235,1988.
しかしながら、MBE系の音声符号化方式は、非特許文献1に報告されている通り、復号音声が「鼻が詰まった様な音声」になり、明瞭性を損なう問題を有する。
そのため、上記問題に鑑みて、復号音声の明瞭性を改善する音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器が望まれている。
第1の本発明の音声復号化装置は、MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、(1)デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、(2)復号音声の破裂音を検出する破裂音検出手段と、(3)検出された破裂音を破裂化させる破裂化処理手段とを備え、破裂化処理手段は、破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、復号音声に所定の重み係数を乗じて出力し、破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、復号音声をそのまま出力し、重み係数は、無音部と破裂部始端と破裂部後半の3状態で構成され、無音部は0dBより小さな値を持ち、破裂部始端で前記無音部の値から0dBよりも大きな値へ増大し、破裂部後半で前記破裂部始端の0dBより大きな値から0dBへ減少することを特徴とする。
第2の本発明に係る音声復号化装置は、MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、(1)デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、(2)復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、(3)周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、(4)復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、(5)重心時刻と時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、(6)周波数領域破裂音検出手段の判定結果と破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、(7)破裂検定手段において破裂音であると判定したフレームを基準として、破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、復号音声に当該重み係数を乗じる破裂化処理手段とを備えることを特徴とする。
第3の本発明に係る音声復号化方法は、MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、(1)MBE系復号手段が、デジタル音声符号化情報を復号化して復号音声を生成し、(2)破裂音検出手段が、復号音声の破裂音を検出し、(3)破裂化処理手段が、検出された破裂音を破裂化させ、破裂化処理手段は、破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、復号音声に所定の重み係数を乗じて出力し、破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、復号音声をそのまま出力し、重み係数は、無音部と破裂部始端と破裂部後半の3状態で構成され、無音部は0dBより小さな値を持ち、破裂部始端で前記無音部の値から0dBよりも大きな値へ増大し、破裂部後半で前記破裂部始端の0dBより大きな値から0dBへ減少することを特徴とする。
第4の本発明に係る音声復号化方法は、MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、(1)MBE系復号手段が、デジタル音声符号化情報を復号化して復号音声を生成し、(2)周波数領域破裂音検出手段が、復号音声の破裂音を周波数領域で検出し、(3)重心時刻算出手段が、周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出し、(4)時間領域破裂音検出手段が復号音声の破裂音を時間領域で検出し、(5)破裂情報選択手段が、重心時刻と時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択し、(6)破裂検定手段が、周波数領域破裂音検出手段の判定結果と破裂情報とに基づいて、破裂音か否かを再判定し、(9)破裂化処理手段が、破裂検定手段において破裂音であると判定したフレームを基準として、破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、復号音声に当該重み係数を乗じることを特徴とする。
第5の本発明に係る音声復号化プログラムは、MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、コンピュータを、(1)デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、(2)復号音声の破裂音を検出する破裂音検出手段と、(3)検出された破裂音を破裂化させる破裂化処理手段として機能させ、破裂化処理手段は、破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、復号音声に所定の重み係数を乗じて出力し、破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、復号音声をそのまま出力し、重み係数は、無音部と破裂部始端と破裂部後半の3状態で構成され無音部は0dBより小さな値を持ち、破裂部始端で前記無音部の値から0dBよりも大きな値へ増大し、破裂部後半で前記破裂部始端の0dBより大きな値から0dBへ減少することを特徴とする。
第6の本発明に係る音声復号化プログラムは、MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、コンピュータを、(1)デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、(2)復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、(3)周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、(4)復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、(5)重心時刻と時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、(6)周波数領域破裂音検出手段の判定結果と破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、(7)破裂検定手段において破裂音であると判定したフレームを基準として、破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、復号音声に当該重み係数を乗じる破裂化処理手段として機能させることを特徴とする。
第7の本発明に係る通信機器は、第1、第2の本発明に係る音声復号化装置を備えることを特徴とするものである。
本発明によれば、符号化によって失われた復号音声の無声破裂音を破裂化させて、当該復号音声の明瞭性を改善した音声を利用者に提供できる。
第1の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。 重み係数の設計方法の例を示す図である。 第2の実施形態に係る音声復号化装置構成を示す機能ブロック図である。 第3の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。 第4の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。 第5の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。 第6の実施形態に係る音声復号化装置の構成を示す機能ブロック国である。 第7の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。 MBE系の音声符号化方式の符号化装置の構成を示す機能ブロック図である。 MBE系の音声符号化方式の復号化装置の構成を示す機能ブロック図である。 無声破裂音の波形例を示して無声破裂音の音響現象を説明する図である。 符号化前と復号化後の無声破裂音/k/の波形例を示す図である。 符号化前と復号化後の無声破裂音/t/の波形例を示す図である。
(A)各実施形態によって復号音声の明瞭性を改善できる理由
各実施形態の音声符号化装置の説明に先立ち、各実施形態の音声符号化装置によって、MBE系の音声符号化方式の復号音声の明瞭性を改善できる理由を説明する。
まず、復号音声の明瞭性が損なわれる原因を考察する。入力音声と復号音声とを注意深く聴き比べた結果、無声破裂音(例えば、日本語では/k/、/t/、および/p/)が不明瞭になっていることを見出した。ここで、無声破裂音とは、図11に示すような特徴的な音響現象を有する音韻である。図11は、日本語の「か(/ka/)」の波形とその音響現象の説明を示した図である(引用:板橋秀一ら著『音声工学』森北出版株式会社、第1版、第2章、P.27、図2.13)。図11に示すように、無声破裂音は、無音部、破裂部、気音部の3状態を有する。ただし、発声によっては気音部が存在しない場合もあり、そのような現象は特に/p/に多い。
しかし、復号音声の波形を調査すると、この特徴的な音響現象が損なわれていることが確認できる。図12と図13は、それぞれ無声破裂音/k/と/t/に関する波形であり、何れも上段(図12(A)、図13(A))と下段(図12(B)、図13(B))がそれぞれ符号化前と復号化後の音声の波形を示している。何れも実線が波形であり、破線の四角形で囲んだ範囲が無声破裂音の範囲(破裂部と気音部)を表している。なお、図12及び図13の横軸は時間(単位はミリ秒)であり、縦軸は単位無しの振幅値である。
/k/と/t/の何れの波形でも、符号化前は無音部から破裂部に移行する際に振幅が急激に大きくなっているが(これを「破裂」と言い、破裂音と呼ばれる所以である。)、復号化後は破裂部と気音部の2状態の中で振幅が徐々に大きくなっている。つまり、復号音声の無声破裂音は、破裂していないため、復号音声は不明瞭になる。
次に、無声破裂音の特徴的な音響現象が損なわれるメカニズムを考察する。無声破裂音の破裂部と気音部の長さは、おおよそ5〜30ms程度である。これに対して、MBE系の音声符号化方式は、多くの場合、例えばフレーム長20msを用いてハーフオーバーラップ(すなわちフレーム周期10ms)で解析を行い、さらに無声音の位相情報を保存しない。
このようなフレーム処理では、短い時間で起きる無声破裂音の特徴的な音響現象を符号化情報に保持することができないため、復号音声に正しく再現できない。無声音の復号は、符号化と同様に、ハーフオーバーラップで雑音を生成・加算していくため、無声破裂音は緩やかに振幅が変化する無声音へと変質してしまう。
次に、本発明が復号音声の明瞭性をどのように改善するかを説明する。復号音声の無声破裂音は、符号化によって振幅の急激な変化が失われたが、パワースペクトルの包絡は失われていない。すなわち、振幅の急激な変化を再現すれば、復号音声の無声破裂音は正しい無声破裂音として知覚されるようになる。したがって、適当な方法で無声破裂音を検出し、検出された無声破裂音に振幅変調を施して無声破裂音らしい特徴的な音響現象を引き起こすことによって、無声破裂音がはっきりと聴き取れるようになり、復号音声の明瞭性が向上すると、本件発明者は考えた。
以上より、本発明は、復号音声の破裂音を検出し、振幅変調によって無声破裂音の特徴的な音響現象を再現することにより、復号音声の明瞭性を改善する。
(B)第1の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第1の実施形態を、図面を参照しながら詳細に説明する。
第1の実施形態の音声復号化装置は、MBE系の音声符号化方式に従って復号するものであり、後述する第2の実施形態以降も同様である。第1〜第7の実施形態では、有声破裂音を扱わないため、便宜上、以下では「無声破裂音」を単に「破裂音」と呼ぶ。
(B−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。
図1において、第1の実施形態に係る音声復号化装置1Aは、受信手段11、MBE系復号手段12、破裂音検出手段13、破裂化処理手段14を有する。
音声復号化装置1Aは、MBE系音声符号化方式で符号化されたデジタル符号化情報を復号し、得られた復号音声の明瞭性を改善するものである。ここで、音声復号化装置1Aは、ハードウェアで構成することも可能であり、また、CPUとCPUが実行するソフトウェア(音声復号化プログラム)で実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
対向する音声符号化装置は、例えば図9に例示する構成を有し、MBE系の音声符号化方式に従って符号化したデジタル音声符号化情報(以下、デジタル符号化情報と呼ぶ。)を、送信手段によって無線回線に送出する。なお、この実施形態では、デジタル符号化情報は、無線回線を通じて無線通信によって伝送される場合を例示するが、有線回線を通じて伝送されるものであっても良い。
受信手段11は、無線通信によって伝送されたデジタル符号化情報を受信し、得られたデジタル符号化情報をMBE系復号手段12に与えるものである。
第1の実施形態では、受信手段11がデジタル無線機である場合を想定しており、さらに受信手段11の処理を簡略化している。デジタル符号化情報の取得方法は、デジタル符号化情報を取得できるのであれば、例えば無線通信でなくても良く、有線通信であっても良い。また、いかなる通信手段においてもパケットロスを起こす可能性があるため、受信手段11がパケットロスを補償する処理を行ない、その補償処理を施した情報をデジタル符号化情報として、MBE系復号手段12に与えられるようにしても良い。なお、MBE系復号手段12の種類によっては、MBE系復号手段12がパケットロス補償処理をも含むものもあり、その場合、受信手段11による事前の補償処理は不要である。
MBE系復号手段12は、デジタル符号化情報を生成するのに使用した符号化方法に対応した復号方法を用いて、デジタル符号化情報を復号するものである。MBE系復号手段12による復号により得られた復号音声は、破裂音検出手段13および破裂化処理手段14に与えられる。ここで、MBE系復号手段12は、MBE系の音声符号化方式を用いた復号手段であれば種々のものを広く適用することができる。例えば、図10に示す復号装置(復号方法)を用いるようにしても良いし、又前述したAMBE(AMBE+2を含む)やIMBEを用いても良い。
破裂音検出手段13は、MBE系復号手段12により復号された復号音声を取得し、復号音声を解析して、当該フレームが破裂音の破裂部始端を有するか否かを判定するものである。破裂音検出手段13は、得られた判定結果(破裂真偽値と呼ぶ。)を破裂化処理手段14に与える。
図1に示すように、破裂音検出手段13は、短周期パワー算出部15、パワー比算出部16、破裂検出部17を有する。
短周期パワー算出部15は、MBE系復号手段12よりも短い周期で復号音声のパワーを算出するものであり、得られた短周期パワーは、パワー比算出部16に与えられる。
パワー比算出部16は、短周期パワー算出部15から与えられた短周期パワーを、所定のルールで定められる基準パワーで除して、パワー比を算出するものであり、得られたパワー比は破裂検出部17に与えられる。なお、パワー比算出部16における基準パワーを定める所定のルールについては、動作の項で詳細に説明する。
破裂検出部17は、与えられた短周期のパワー比が所定の閾値以上の値を有するか否かを判定して破裂真偽値を生成するものであり、得られた破裂真偽値は破裂音検出手段13の出力として破裂化処理手段14に与えられる。すなわち、当該短周期のパワー比が閾値を上回れば破裂真偽値を真(TRUE)とし、上回らなければ偽(FALSE)とする。
破裂化処理手段14は、破裂音検出手段13から与えられた破裂真偽値が真であるなら、MBE系復号手段12から与えられた復号音声に所定の重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、その得られた改善音声を出力する。当該振幅変調は、人工的に無音部と破裂部を生成する処理であって、当該振幅変調に用いる所定の重み係数は、後述する設計方法で予め計算しておく。
(B−2)第1の実施形態の動作
次に、第1の実施形態の音声復号化装置1Aの動作を説明する。
対向する音声符号化装置は、MBE系の音声符号化方式に従って符号化したデジタル符号化情報を、無線回線を通じて送信する。
無線通信されたデジタル符号化情報は、音声復号化装置1Aの受信手段11により受信される。受信されたデジタル符号化情報は、MBE系復号手段12により、MBE系の音声符号化方式に対応する復号化方法により復号され、その得られた復号音声が、破裂音検出手段13および破裂化処理手段14に与えられる。
破裂音検出手段13では、短周期パワー算出部15が、MBE系復号手段12よりも短い周期で、復号音声のパワーを算出する。例えば、短周期パワーの算出周期を2msとすると、与えられた10msフレーム分の復号音声から短周期パワーは5個算出される。短周期パワーの算出周期を2.5msとしてもよい。この短周期パワーは、パワー比算出部16に与えられる。短周期パワーの算出周期は、例えば1ms〜5msの任意の時間長を設定することができるが、計算の都合上、(フレーム周期の整数分の1)倍の時間長が好適に用いられる。
パワー比算出部16は、与えられた短周期パワーを、所定のルールで定められる基準パワーで除して、パワー比を算出する。得られたパワー比は破裂検出部17に与えられる。
パワー比算出部16において基準パワーを定める所定のルールは、過去のフレームの情報を使うか否かで方法が異なる。
例えば、過去のフレームを使わずに現在のフレームだけを使ってパワー比を算出する場合、パワー比を求めたい時刻の直前から当該フレーム内の最初の時刻までの短周期パワーの最小値を基準パワーとする方法が好適に用いられる。ただし、この方法ではフレーム内の最初のパワー比を算出できないため、当該パワー比は1とする。
また例えば、過去のフレームをも使ってパワー比を算出する場合、所定の参照時間幅を設定し、パワー比を求めたい時刻の直前から当該参照時間幅だけ前までの短周期パワーの最小値を基準パワーとする方法が好適に用いられる。
破裂検出部17では、与えられた短周期のパワー比が所定の閾値以上の値を有するか否かを判定して破裂真偽値を生成する。得られた破裂真偽値は破裂音検出手段13の出力として破裂化処理手段14に与えられる。すなわち、破裂検出部17は、当該短周期のパワー比が閾値を上回れば破裂真偽値を真(TRUE)とし、上回らなければ偽(FALSE)とする。当該閾値は無音部から破裂部への移行を検出ためのものであり、当該閾値は特に限定されるものではないが、100〜1000程度の値が好適に用いられる。
破裂化処理手段14では、与えられた破裂真偽値が真であるなら、与えられた復号音声に所定の重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得る。その得られた改善音声は後段に出力される。
当該振幅変調は、人工的に無音部と破裂部を生成する処理であって、当該振幅変調に用いる所定の重み係数は予め所定の設計方法で計算しておく。
図2は、重み係数の設計の概念を示す図である。聴感上自然となるように、振幅は対数尺度(デシベル)で設計する。
まず、破裂部の前の無音部は、破裂部始端の破裂現象をより明瞭にするために、抑圧する。ここでは、ほぼ完全な無音とし、かつ破裂現象がより急激になるようにするために、無音部の最終的なゲインを−100dBとしている。
次に、破裂部始端は元の波形よりも十分大きなパワーを持つよう、9dBまで増幅する。離散的でなく短時間に急激に増大させることで、波形が不連続になって余計な雑音が発生しないようにしている。最後に破裂部の後半は、音響現象が破裂部から気音部または母音へと移行する区間なので、徐々に0dBへと近づける。
図2では、無音部を10ms、破裂部始端を5ms、破裂部後半を15msとしている。破裂音が検出されたフレームに破裂部始端を配置することを考慮すると、この重み係数による振幅変調を実現するためには、フレーム周期が10msの場合、少なくとも1フレーム分の復号音声を保存しておく必要があり、結果として改善音声の出力は1フレーム分遅れる。
なお、無音部、破裂部始端、破裂部後半の長さは図2の通りでなくても良く、例えば無音部を5msとしても良い。この場合には、改善音声を遅延させることなく振幅変調を行うことができる。また、無音部がなくても、すなわち無音部を作らずに破裂部始端で0dBから9dBまで増幅させるようにしてもー定の効果が得られるので、そのような設計も適用することができる。
図2の示し方では、無音部の始めを0msとして表しているが、これは無音部の始めとフレームの始めとを一致させることを示唆するものではなく、破裂音が検出されたフレームに破裂部を形成しなければならないという条件を満たしている限りにおいては、重み係数の設計は時間方向に自由に平行移動できる。
(B−3)第1の実施形態の効果
第1の実施形態によれば、MBE系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音を破裂化させるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。
(C)第2の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第2の実施形態を、図面を参照しながら説明する。
第1の実施形態では、復号音声の波形の振幅の時間変化に基づいて破裂音の検出を行う場合を示した。しかし、図12と図13を用いて説明したとおり、復号音声は破裂音らしい振幅の時間変化の情報が損なわれている可能性が高いため、そのような破裂音を検出することはできない。一方で、MBE系の音声符号化方式は、周波数スペクトルのパワーを包絡情報として符号化しているので、パワースペクトルの再現性は高い。
そこで、第2の実施形態では、パワースペクトルを用いて破裂音を検出する。
(C−1)第2の実施形態の構成
図3は、第2の実施形態の復号音声の音質改善装置1Bの構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応の構成要素には同一符号を付して示している。
図3において、第2の実施形態の復号音声の音質改善装置1Bは、受信手段11、MBE系復号手段12、破裂音検出手段21、破裂化処理手段14を有する。
第2の実施形態は、第1の実施形態に比較して、破裂音検出手段13に代えて破裂音検出手段21を設けている点が、第1の実施形態と異なっている。
破裂音検出手段21は、MBE系復号手段12から与えられた復号音声を解析して、当該フレームが破裂音の破裂部始端を有するか否かを判定し、得られた判定結果(破裂真偽値と呼ぶ。)は破裂化処理手段14に与えられる。すなわち、破裂音検出手段21は、フレームの周波数特性の特徴情報のパターンマッチングを行って、当該フレームが破裂音の破裂部始端か否かを検出する方法である。
図3に示すように、破裂音検出手段21は、周波数解析部22、パターン識別部23を有する。
周波数解析部22は、MBE系復号手段12からの復号音声を取得し、フレーム毎の周波数スペクトルを算出して、フレーム毎のパワースペクトルを算出する。得られたパワースペクトルはパターン認識部23へ与えられる。パワースペクトルを算出する方法は任意の方法を用いることができ、例えばFFT(First Fourier Transform)やウェーブレット変換やフィルタバンクなどが適用できる。またウェーブレット変換やフィルタバンクを用いれば帯域の不等分割も可能だが、ここではフィルタバンクを用いた帯域の等分割が好適に用いられる。解析する帯域は、無意味な直流成分、ピッチ周波数がある帯域、音声符号化で抑圧されることが多い3400Hz以上は不要なので、例えば帯域幅を400Hzとして、中心周波数を400Hz、800Hz、・・・、3200Hzとする8帯域のフィルタバンクが推奨される。
パターン識別部23は、周波数解析部22から与えられたパワースペクトルのパターン認識を行って当該フレームが破裂音であるか否かを判定し、その判定結果を破裂真偽値とし、得られた破裂真偽値は、破裂音検出手段21の出力として破裂化処理手段14に与えられる。ここで、パターン認識には様々な方法を適用することができ、例えば単純なパターンマッチングやニューラルネットワークなどを選択することができるが、サポートベクターマシンが好適に用いられる。
なお、以上ではパワースペクトルだけを用いるかのように書いたが、パターン認識部23は帯域分割されていない復号音声自体のパワーをも加えてパターン認識しても良い。また、ここまで単一のフレームから得られたパワースペクトルだけを用いるかのように書いたが、パターン識別部23は、過去のフレームを用いても良いし、出力を遅延させることで未来のフレームを用いても良い。また、任意の値を用いてパワー値を正規化しても良く、例えば現在のフレームの復号音声のパワーで他のパワー値を除することで正規化しても良い。
(C−2)第2の実施形態の動作
次に、第2の実施形態に係る音声復号化装置1Bの動作を説明する。音声復号化装置1Bの全体動作は、第1の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂音検出手段21の動作を説明する。
MBE系復号手段から出力された復号音声は、破裂音検出手段21に与えられる。破裂音検出手段21では、復号音声が、周波数解析部22によって周波数解析が行われてフレーム毎のパワースペクトルが算出され、得られたフレーム毎のパワースペクトルはパターン認識部23に与えられる。
破裂音検出手段21のパターン認識部23において、フレーム毎のパワースペクトルは、所定のパターン認識手法によってパターン認識が行われて、当該フレームが破裂音であるか否かが判定され、その判定結果が破裂真偽値として破裂化処理手段14に与えられる。
そして、破裂化処理手段14において、与えられた破裂真偽値が真であるなら、与えられた復号音声に所定の重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得る。その得られた改善音声は後段に出力される。
(C−3)第2の実施形態の効果
第2の実施形態によれば、MBE系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。
(D)第3の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第3の実施形態を、図面を参照しながら説明する。
第2の実施形態では、破裂音が検出されたフレームはすべて破裂化させる構成を説明した。しかし、破裂部が例えば10msを超えるような破裂音では、2フレーム連続で破裂音が検出される可能性がある。また、そもそもパターン認識のエラーによって2フレーム以上連続で破裂音が検出される可能性もある。このような場合、第2の実施形態の構成では1つの破裂音を2回破裂化させてしまう可能性がある。
そこで、第3の実施形態では、複数フレームが連続して破裂音と検出された場合にも1回しか破裂化させないようにする。
(D−1)第3の実施形態の構成
図4は、第3の実施形態に係る音声復号化装置1Cの構成を示す機能ブロック図である。図4において、第1の実施形態に係る図1および第2の実施形態に係る図3と同一、対応する構成要素には、同一符号を付して示している。
図4において、第3の実施形態の音声復号化装置1Cは、受信手段11、MBE系復号手段12、破裂音検出手段21、破裂化処理手段31を有する。
第3の実施形態は、第2の実施形態と比較して、破裂化処理手段14に代えて破裂化処理手段31を設けている点が、第2の実施形態は異なっている。
破裂化処理手段31は、破裂音検出手段21からの破裂真偽値に基づいて、復号音声を破裂化させて、得られた改善音声を出力するものである。
図4に示すように、破裂化処理手段31は、破裂検定部32、振幅変調部33を有する。
破裂検定部32は、破裂音検出手段21から与えられた破裂真偽値と、過去の破裂真偽値とを比較して、真値が連続しない補正破裂真偽値を生成し、得られた補正破裂真偽値は、振幅変調部33に与えられる。
ここで、破裂検定部32における補正破裂真偽値の生成方法を説明する。
まず、破裂検定部32は1フレーム過去の破裂真偽値を記憶し、新たに現在のフレームの破裂真偽値が入力されると、破裂検定部32は、記憶している過去の破裂真偽値と現在のフレームの破裂真偽値とを比較する。そして、過去の破裂真偽値が「偽」で現在の破裂真偽値が「真」である場合にのみ、破裂検定部32は補正破裂真偽値を「真」として生成する。
なお、それ以外の場合、すなわち、(a)過去の破裂真偽値が「偽」で現在の破裂真偽値が「偽」である場合、(b)過去の破裂真偽値が「真」で現在の破裂真偽値が「偽」である場合、(c)過去の破裂真偽値が「真」で現在の破裂真偽値が「真」である場合、破裂検定部32は補正破裂真偽値を「偽」として生成する。
補正破裂真偽値を生成した後、破裂検定部32は、現在の破裂真偽値を過去の破裂真偽値に上書きして記憶する。
振幅変調部33は、与えられた補正破裂真偽値が「真」であるなら、与えられた復号音声に所定の重み係数を乗じて振幅変調を施す。一方、補正破裂真偽値が「偽」であるなら、振幅変調部33は復号音声をそのまま通過させて、改善音声を得る。この得られた改善音声は破裂化処理手段31の出力として出力する。振幅変調部33の動作は、2つ目の入力が破裂真偽値であるか補正破裂真偽値であるかを除けば、第1の実施形態に係る図1の破裂化処理手段14と同一である。
以上のように、振幅変調を補正破裂真偽値に基づいて行うことで、誤って2フレーム以上連続して破裂化させてしまう誤りが起きなくなる。
(D−2)第3の実施形態の動作
次に、第3の実施形態に係る音声復号化装置1Cの動作を説明する。音声復号化装置1Cの全体動作は、第1および第2の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段31の動作を説明する。
破裂音検出手段21から出力された破裂真偽値は、破裂化処理手段31の破裂検定部32に与えられる。破裂化処理手段31の破裂検定部32において、与えられた現在のフレームの破裂真偽値は、過去のフレームの破裂真偽値と比較される。このとき、破裂検定部32において、過去のフレームの破裂真偽値が偽であり、現在のフレームの破裂真偽値が真である場合、補正破裂真偽値を真として生成して出力する。一方、それ以外の場合には、補正破裂真偽値は偽として生成して出力する。その得られた補正破裂真偽値は、振幅変調部33に与えられる。なお、破裂検定部32において、生成された補正破裂真偽値は、過去のフレームの破裂真偽値に上書きされて記憶される。
破裂化処理手段31の振幅変調部33では、与えられた補正破裂真偽値が真であるなら、複製音声に所定の重み係数を乗じて振幅変調を施す。一方、補正破裂真偽値が偽であるなら、振幅変調部33は復号音声をそのまま通過させて、改善音声を得る。この得られた改善音声は破裂化処理手段31の出力として出力する。
(D−3)第3の実施形態の効果
第3の実施形態によれば、MBE系の音声符号化方式の複号音声において、特徴的な音響現象が損なわれた破裂音を破裂化させ、かつ誤って連続して破裂化させることがないので、当該複号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。
(E)第4の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第4の実施形態を、図面を参照しながら説明する。
第1〜第3の実施形態では、固定された重み係数を用いていた。しかし、入力音声の破裂部は常にフレーム内の特定の位置で発生するわけではない。そのため、元々無音部であった部分や破裂部後半を破裂化させようとして十分な破裂化の効果が得られない可能性がある。
そこで、第4の実施形態では、復号音声の重心時刻に基づいて重み係数を時間方向に平行移動させることで、元々破裂部始端であった部分を正しく破裂化させるようにする。
なお、第4の実施形態の特徴は破裂化処理手段であり、破裂音検出手段には第1と第2の実施形態の何れの破裂音検出手段も用いることができるが、第4の実施形態では第2の実施形態の破裂音検出手段21を用いる場合を例示する。
(E−1)第4の実施形態の構成
図5は、第4の実施形態の音声復号化装置の構成を示す機能ブロック図である。図5において、第1の実施形態に係る図1および第2の実施形態に係る図3との同一、対応の構成要素には同一符号を付して示している。
図5において、第4の実施形態に係る音声復号化装置1Dは、受信手段11、MBE系復号手段12、破裂音検出手段21、破裂化処理手段41を有する。
第4の実施形態は、第2および第3の実施形態に比較して、破裂化処理手段14に代えて破裂化処理手段41を設けている点が、第2および第3の実施形態とは異なっている。
破裂化処理手段41は、与えられた破裂真偽値に基づいて与えられた復号音声を破裂化させて、得られた改善音声を出力する。
破裂化処理手段41は、非負値化部42、重心時刻算出部43、振幅変調部44を有する。
破裂化処理手段41に与えられた復号音声は、非負値化部42および振幅変調部44に与えられる。
非負値化部42は、与えられた復号音声の各サンプルを非負値へと変換し、得られた非負値化信号は重心時刻算出部に与えられる。非負値へと変換する方法は、出力が非負値であれば任意の方法が適用できるが、絶対値が好適に用いられる。
重心時刻算出部43は、与えられた非負値化信号のフレーム内でのエネルギーの重心の時刻を算出し、得られた重心時刻は振幅変調部44に与えられる。重心時刻は(1)式で定義される独自の特徴量である。(1)式において、tは時刻、Tはフレーム長、X(t)は非負値化信号、Cは重心時刻であり、tとTの単位はサンプルである。また、便宜上、ここでのtはフレーム内の相対的な時刻を表している。
Figure 0006481271
振幅変調部44は、重心時刻算出部43から与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂音検出手段21から与えられた破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段41の出力として出力する。
重み係数の設計方法は、第1の実施形態の破裂化処理手段14と同じであるが、重心時刻に基づいて事前に算出された重み係数を時間方向に平行移動するところが異なる。重み係数の平行移動は、重み係数のピーク位置を重心時刻に基づいて決定することで行う。ピーク位置の決定方法は、重心時刻をそのままピーク位置に一致させる方法が最も簡単なので好適に用いられるが、重心時刻は本来のピーク位置よりも内側に寄る((1)式においてCがT/2に近づく)傾向と後ろに寄る((1)式においてCがTに近づく)傾向とがあることを考慮して、(2)式によって補正した重心時刻C’をピーク位置に一致させても良い。
Figure 0006481271
以上のように、重心時刻に基づいて重み係数のピーク位置を変更することで、無音部や破裂部後半を破裂化させてしまうことで破裂化の効果が弱くなってしまう問題を回避できる。
(E−2)第4の実施形態の動作
次に、第4の実施形態に係る音声復号化装置1Dの動作を説明する。音声復号化装置1Dの全体動作は、第1および第2の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段41の動作を説明する。
MBE復号手段12から出力された復号音声は、破裂化処理手段41の非負値化部42および振幅変調部44に与えられる。非負値化部42において、与えられた復号音声の各サンプルが非負値に変換され、得られた非負値化信号は重心時刻算出部43に与えられる。
重心時刻算出部43では、(1)式に従って、与えられた非負値化信号のフレーム内でのエネルギーの重心の時刻が算出され、得られた重心時刻は振幅変調部44に与えられる。
振幅変調部44では、与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、与えられた破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段41の出力として出力する。
(E−3)第4の実施形態の効果
第4の実施形態によれば、MBE系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。
(F)第5の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第5の実施形態を、図面を参照しながら説明する。
第4の実施形態では、復号音声のフレーム内の重心時刻に基づいて、重み係数を時間方向に平行移動させた。この方法は有効であるが、複数のフレームで連続して破裂音が検出された場合には破裂部後半の大部分が次のフレームにかかってしまい、重心時刻と重み係数のピーク位置との関連性が弱くなる恐れがある。
そこで、第5の実施形態では、連続して破裂音が検出されたフレーム数に基づいて重み係数のピーク位置を決定する。
(F−1)第5の実施形態の構成
図6は、第5の実施形態の音声復号化装置1Eの構成を示す機能ブロック図である。図6において、第1の実施形態に係る図1、第2の実施形態に係る図3、および第3の実施形態に係る図5との同一、対応の構成要素には同一符号を付して示している。
図6において、第5の実施形態の音声復号化装置1Eは、受信手段11、MBE系復号手段12、破裂音検出手段21、破裂化処理手段51を有する。第5の実施形態は、第2〜4の実施形態に比較して、破裂化処理手段14および51に代えて破裂化処理手段51を設けている点が、第2〜4の実施形態とは異なっている。
なお、第5の実施形態の特徴は破裂化処理手段51であり、破裂音検出手段には第1と第2の実施形態の何れの破裂音検出手段も用いることができるが、第5の実施形態では第2の実施形態の破裂音検出手段21を用いる場合を例示する。
破裂化処理手段51は、与えられた破裂真偽値に基づいて与えられた復号音声を破裂化させて、得られた改善音声を出力する。
破裂化処理手段51は、破裂検定部32、検出回数算出部53、破裂時刻推定部54、振幅変調部55を有する。
破裂化処理手段51に与えられた復号音声は、振幅変調部55に与えられ、破裂音検出手段21からの破裂真偽値は、破裂検定部32および検出回数算出部53に与えられる。
破裂検定部32の動作は、第3の実施形態のそれと同一であるため、説明を省略する。
検出回数算出部53は、破裂音が連続して検出された回数をカウントし、得られた検出回数は破裂時刻推定部54に与えられる。検出回数算出部53の具体的な動作は、内部に検出回数カウンタを有しており、破裂音検出手段21から与えられた破裂真偽値が真であれば当該機出回数カウンタを「1」増やし、当該破裂真偽値が偽であれば当該検出回数カウンタを「0」に戻し、現在の検出回数カウンタの値を検出回数として出力する。
破裂時刻推定部54は、与えられた検出回数に基づいて、連続して破裂音が検出されたフレームの中で最初のフレームのどの時刻に破裂部のパワーのピーク位置があるかを推定し、得られた破裂時刻は振幅変調部55に与えられる。
破裂時刻推定部54にはアルゴリズム上の注意点がある。すなわち、最初に破裂音を検出したフレームを破裂化させるため、(現実的ではないが可能性の問題として)破裂音が長期間連続して検出され続けた場合、破裂真偽値が偽となるまで出力を遅延させ続けなければならない。このような問題が生じないように、所定の回数より大きい検出回数は無視する動作が必要となる。
以下、破裂部始端を含むフレームから破裂部後半が存在していると考えられる最後のフレームまでのフレーム数を、連続破裂フレーム数と呼ぶ。
破裂部は長くても30ms程度であることから、フレーム周期が10msの場合、連続破裂フレーム数は最大3フレーム程度と考えるのが妥当である。そこで、破裂時刻の算出は連続破裂フレーム数に基づいて行うものとして、過去の検出回数を1フレーム分だけ記憶するようにしておいて、現在の検出回数が「0」で且つ前回の検出回数が「1」または「2」である場合には現在の検出回数を連続破裂フレーム数とし、現在の検出回数が「3」である場合には今回の検出回数を連続破裂フレーム数とし、それ以外の場合には連続破裂フレーム数を「0」とする。
検出回数に基づく破裂時刻の算出は(3)式によって行う。(3)式において、Nは連続破裂フレーム数であり、Pは破裂時刻であり、P0は破裂時刻の最小値である。P0は0以上(T−1)未満の任意の値であるが、重み係数の設計における破裂部始端の長さが好適に用いられる。なお、N=0の場合には重み係数による振幅変調は行われないため、Pは計算する必要がなく、例えば前回の値をそのまま保持しておく。
Figure 0006481271
振幅変調部55は、破裂時刻推定部54から与えられた破裂時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部32から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段51の出力として出力する。
重み係数の設計方法は、第1の実施形態の破裂化処理手段14と同じであるが、破裂時刻に基づいて事前に算出された重み係数を時間方向に平行移動するところが異なる。重み係数の平行移動は、重み係数のピーク位置を破裂時刻に一致させることで行う。
以上のように、連続して破裂音が検出された回数に基づいて重み係数のピーク位置を変更することで、破裂音が連続して検出された場合に連続して破裂化させてしまう問題と、無音部を破裂化させてしまうことで破裂化の効果が弱くなってしまう問題を回避できる。
(F−2)第5の実施形態の動作
次に、第5の実施形態に係る音声復号化装置1Eの動作を説明する。音声復号化装置1Eの全体動作は、第1〜第4の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段51の動作を説明する。
破裂音検出手段21から出力された破裂真偽値は、破裂化処理手段51の破裂検定部32および検出回数算出部53に与えられる。
破裂化処理手段51の破裂検定部32では、第3の実施形態と同様にして、与えられた現在のフレームの破裂真偽値は、過去のフレームの破裂真偽値と比較して、補正破裂真偽値が生成される。得られた補正破裂真偽値は、振幅変調部55に与えられる。
破裂化処理手段51の検出回数算出部53では、与えられた各フレームの破裂真偽値に基づいて破裂音が連続して検出された回数をカウントし、得られた検出回数が破裂時刻推定部54に与えられる。
破裂時刻推定部54では、与えられた検出回数に基づいて、連続して破裂音が検出されたフレームの中で最初のフレームのどの時刻に破裂部のパワーのピーク位置があるかを推定し、得られた破裂時刻は振幅変調部55に与えられる。
振幅変調部55では、破裂時刻推定部54から与えられた破裂時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部32から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段51の出力として出力する。
(F−3)第5の実施形態の効果
第5の実施形態によれば、MBE系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させ、かつ誤って連続して破裂化させることがないので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。
(G)第6の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第6の実施形態を、図面を参照しながら説明する。
第5の実施形態は、連続して破裂音が検出された場合にも最初に破裂音が検出されたフレームだけを破裂化させ、さらに破裂化させる位置も連続して破裂音が検出された回数に基づいて推定された破裂時間によって動的に設定できるが、当該連続して破裂音が検出された回数はパターン認識の精度に強く依存するために、破裂時間の推定結果が不安定になる問題がある。
そこで、第6の実施形態では、第4の実施形態の重心時刻と第5の実施形態の検出回数の両方に基づいて破裂時間を推定する。
(G−1)第6の実施形態の構成
図7は、第6の実施形態に係る音声復号化装置1Fの構成を示す機能ブロック図である。図7において、第1〜5の実施形態に係る図1、図3〜6との同一、対応の構成要素には同一符号を付して示している。
図7において、第6の実施形態に係る音声復号化装置1Fは、受信手段11、MBE系復号手段12、破裂音検出手段21、破裂化処理手段61を有する。第6の実施形態は、第4および第5の実施形態に比較して、破裂化処理手段41および51に代えて破裂化処理手段61を設けている点が、第4および第5の実施形態とは異なっている。
破裂化処理手段61は、与えられた破裂真偽値に基づいて与えられた復号音声を破裂化させて、得られた改善音声を出力する。
破裂化処理手段61は、破裂検定部32、非負値化部42、検出回数算出部53、重心時刻算出部62、振幅変調部63を有する。
破裂化処理手段61に与えられた復号音声は、非負値化部42および振幅変調部63に与えられ、同じく与えられた破裂真偽値は、破裂検定部32および検出回数算出部53に与えられる。
非負値化部42の動作は、第4の実施形態のそれと同一であるため、説明を省略する。
破裂検定部32の動作は、第3の実施形態のそれと同一であるため、説明を省略する。
検出回数算出部53の動作は、第5の実施形態のそれと同一であるため、説明を省略する。
重心時刻算出部62は、与えられた非負値化信号と検出回数に基づいて、連続して破裂音が検出されたフレームの中の重心時刻算出し、得られた重心時刻は振幅変調部63に与えられる。
第4の実施形態の重心時刻算出部43では、単一のフレームに対して重心時刻を算出したが、第6の実施形態の重心時刻算出部62では連続破裂フレーム数分のフレームを用いて重心時刻を算出する。したがって、重心時刻Cは(4)式によって算出される。なお、tは破裂音が検出された最初のフレームからの相対的な時刻を表している。
Figure 0006481271
なお、重心時刻算出部62には、第5の実施形態の破裂時刻推定部54と同じアルゴリズム上の注意点が存在する。そこで、連続破裂フレーム数は破裂時刻推定部54と同じように設定する。
振幅変調部63は、重心時刻算出部62から与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部32から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段61の出力として出力する。
重み係数の設計方法は、第4の実施形態の振幅変調部44と同じであるが、重心時刻が破裂音の最初に検出されたフレーム内に留まらない点が異なる。重み係数のピーク位置の決定方法は、第4の実施形態の振幅変調部44と同様に重心時刻をそのままピーク位置に一致させる方法が最も簡単なので好適に用いられるが、重心時刻が本来のピーク位置よりも内側に寄る傾向と後ろに寄る傾向とを考慮して、(5)式によって補正した重心時刻C’をピーク位置に一致させても良い。
Figure 0006481271
以上のように、破裂音が連続して検出された場合には複数のフレームに渡って重心時刻を算出し、得られた重心時刻に基づいて重み係数のピーク位置を変更することで、破裂音が連続して検出された場合に連続して破裂化させてしまう問題と、無音部を破裂化させてしまうことで破裂化の効果が弱くなってしまう問題を回避できる。
(G−2)第6の実施形態の動作
次に、第6の実施形態に係る音声復号化装置1Fの動作を説明する。音声復号化装置1Fの全体動作は、第1〜第5の実施形態の場合と同様であるので、その説明は省略し、以下では、破裂化処理手段61の動作を説明する。
破裂音検出手段21から出力された破裂真偽値は、破裂化処理手段61の破裂検定部32及び検出回数算出部53に与えられる。
破裂化処理手段61の破裂検定部32では、与えられた現在のフレームの破裂真偽値は、過去のフレームの破裂真偽値と比較して、補正破裂真偽値が生成される。得られた補正破裂真偽値は、振幅変調部63に与えられる。
破裂化処理手段61の検出回数算出部53では、与えられた各フレームの破裂真偽値に基づいて破裂音が連続して検出された回数をカウントし、得られた検出回数が重心時刻算出部62に与えられる。
MBE系復号手段12から出力された復号音声は、破裂化処理手段61の非負値化部42および振幅変調部63に与えられる。
破裂化処理手段61の非負値化部42によって、復号音声の各サンプルが非負値へと変換され、得られた非負値化信号は重心時刻算出部62に与えられる。
重心時刻算出部62では、与えられた非負値化信号と、破裂音が連続して検出された検出回数とに基づいて、連続して破裂音が検出されたフレームの中の重心時刻が算出され、得られた重心時刻が振幅変調部63に与えられる。
振幅変調部63では、重心時刻算出部62から与えられた重心時刻に基づいて所定の重み係数を時間方向に平行移動した上で、破裂検定部32から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段61の出力として出力する。
(G−3)第6の実施形態の効果
以上のように、第6の実施形態によれば、MBE系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより確実に破裂化させ、かつ誤って連続して破裂化させることがないので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。
(H)第7の実施形態
次に、本発明に係る音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器の第7の実施形態を、図面を参照しながら説明する。
第2〜6の実施形態では、復号音声の破裂音は特徴的な音響現象が損なわれていることを前提として、パワースペクトルのみを用いて破裂音の検出を行っていた。しかし、すべての破裂音が損なわれているわけではなく、運よく入力音声の破裂音が精度よく再現されていることもある。そのような場合に、第2〜6の実施形態によって破裂化処理を行うと、改善音声の破裂音が過剰に強くなり、聴感上不自然に聴こえることがある。加えて、そのような場合には、パワースペクトルよりも時間波形を観察する方が、破裂音のパワーのピーク位置やピークの大きさまでもより正確に検出することができる。
そこで、第7の実施形態では、時間波形の観察による時間領域破裂音検出とパワースペクトルのパターン認識による破裂音検出とを同時に行い、その結果を適宜選択して用いる。
(H−1)第7の実施形態の構成
図8は、第7の実施形態に係る音声復号化装置の構成を示す機能ブロック図である。図8において、第1〜6の実施形態に係る図1、図3〜7との同一、対応の構成要素には同一符号を付して示している。
図8において、第7の実施形態に係る音声復号化装置1Gは、受信手段11、MBE系復号手段12、周波数領域破裂音検出手段71、時間領域破裂音検出手段72、破裂化処理手段73を有する。
受信手段11およびMBE系復号手段12は、第1の実施形態のそれらと同一なので、説明を省略する。
周波数領域破裂音検出手段71は、第2の実施形態の破裂音検出手段21と同一なので、説明を省略する。ただし、次に説明する時間領域破裂音検出手段72に対して、当該周波数領域破裂音検出手段71はパワースペクトルのパターン認識を行うことで破裂音を検出することに注意されたい。
時間領域破裂音検出手段72は、復号音声の時間波形を解析して破裂音に係る破裂部のパワーのピーク位置やピーク値の情報をまとめた破裂情報を抽出し、得られた破裂情報は破裂化処理手段73に与えられる。
時間領域破裂音検出手段72は、短周期パワー算出部15、パワー比算出部16、破裂情報抽出部77を有する。
時間領域破裂音検出手段72は、第1の実施形態の破裂音検出手段13とほぼ同一だが、破裂検出部17に代えて破裂情報抽出部77を設けている点、破裂音検出手段13が破裂真偽値を出力するのに対して時間領域破裂音検出手段72は破裂情報を出力する点が第1の実施形態の破裂音検出手段13と異なる。
破裂情報抽出部77は、与えられたパワー比が最大となる時刻を探索して破裂時刻とし、破裂時刻におけるパワー比を破裂パワー比とし、破裂時刻と破裂パワー比を破裂情報としてまとめ、得られた破裂情報を時間領域破裂音検出手段72の出力として破裂化処理手段73に与える。
破裂化処理手段73は、周波数領域破裂音検出手段71より与えられた破裂真偽値および時間領域破裂音検出手段72より与えられた破裂情報に基づいて、MBE系復号手段12より与えられた復号音声を破裂化させ、得られた改善音声を出力する。
破裂化処理手段73は、非負値化部42、検出回数算出部53、重心時刻算出部62、破裂検定部74、破裂情報選択部75、振幅変調部76を有する。
非負値化部42は、第4の実施形態のそれと同一なので、説明を省略する。
検出回数算出部53は、第5の実施形態のそれと同一なので、説明を省略する。
重心時刻算出部62は、第6の実施形態のそれと同一なので、説明を省略する。
破裂検定部74は、与えられた破裂真偽値と破裂情報とに基づいて破裂真偽値を補正して補正破裂真偽値を生成し、得られた補正破裂真偽値は振幅変調部76に与えられる。補正破裂真偽値は、破裂情報の破裂パワー比が所定の閾値以上であれば真とし、そうでない場合には破裂真偽値に基づいて第3の実施形態の破裂検定部32と同様にして設定される。
破裂情報選択部75は、破裂情報に基づいて重心時刻か破裂情報かを選択し、選択された情報は重み係数設計情報として振幅変調部76に与えられる。情報の選択は、破裂情報の破裂パワー比に基づいて行う。すなわち、所定の閾値を設定しておいて、破裂パワー比が当該閾値より大きければ破裂情報を選択して重み係数設計情報とし、破裂パワー比が当該閾値より小さければ重心時刻を選択して重み係数設計情報とする。当該閾値は、破裂検定部74で用いられる閾値と同じ値としても良いし、異なる値としても良いが、2つの閾値を同じ値とすることで破裂検定部74と破裂情報選択部75の動作を同期させる構成が好適に用いられる。
振幅変調部76は、破裂情報選択部75から与えられた重み係数設計情報に基づいて重み係数を設計した上で、破裂検定部74から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段73の出力として出力する。
重み係数設計情報が重心時刻である場合には、振幅変調部76の動作は第6の実施形態の振幅変調部63と同一である。
重み係数設計情報が破裂情報である場合には、破裂パワー比に応じて重み係数のピーク値を補正した後に、破裂時刻に基づいて第1の実施形態の破裂化処理手段14と同様に重み係数を時間方向に平行移動する。重み係数のピーク値の補正は、予め設計された重み係数のピークゲイン(図2の例では9dB)と、破裂ピーク比のゲインとの合成ゲイン(対数尺度なら和、線形尺度なら積)が、元の重み係数のピークゲインを超えないようにする。すなわち、破裂ピーク比が9dB以上であれば重み係数は常に0dBとし(すなわち破裂化させない)、破裂ピーク比が9dB未満であれば、元の重み係数のピークゲインと破裂ピーク比の合成ゲインが9dBとなるように重み係数のピークゲインを補正する。例えば破裂ピーク比が4dBであるなら、重み係数のピークゲインは5dBとなるように補正される。
以上のように、時間領域破裂音検出手段の結果と周波数領域破裂音検出手段の結果を選択して使い分けることで、復号音声に破裂音の特徴的な音響現象が再現されている場合に過剰な破裂化がなされることを防ぐことができる。
(H−2)第7の実施形態の動作
次に、第7の実施形態に係る音声復号化装置1Gの動作を説明する。
MBE系復号手段12から出力された復号音声は、周波数領域破裂音検出手段71、時間領域破裂音検出手段72および破裂化処理手段73に与えられる。
周波数領域破裂音検出手段71では、第2の実施形態に係る破裂音検出手段21と同様にして、復号音声の周波数解析が行われ、各フレームのパワースペクトルのパターン認識が行われて、当該フレームが破裂音の破裂部始端を有するか否かを判定し、得られた判定結果が破裂真偽値として破裂化処理手段73の検出回数算出部53および破裂検定部74に与えられる。
時間領域破裂音検出手段72では、与えられた復号音声の時間波形を解析して、破裂音に係る破裂部のパワーのピーク位置やピーク値の情報をまとめた破裂情報を抽出し、得られた破裂情報が破裂化処理手段73の破裂検定部74および破裂情報選択部75に与えられる。
ここで、時間領域破裂音検出手段72の破裂情報抽出部77では、パワー比算出部16によって算出されたパワー比が最大となる時刻を探索し、これを破裂時刻とする。そして、破裂時刻におけるパワー比を破裂パワー比とし、破裂時刻と破裂パワー比を破裂情報としてまとめ、得られた破裂情報を時間領域破裂音検出手段72の出力として破裂化処理手段73の破裂検定部74および破裂情報選択部75に与える。
破裂化処理手段73の検出回数算出部53では、与えられた各フレームの破裂真偽値に基づいて破裂音が連続して検出された回数をカウントし、得られた検出回数が重心時刻算出部62に与えられる。
破裂化処理手段73の非負化部42では、与えられた復号音声の各サンプルを非負値へと変換し、得られた非負値化信号は重心時刻算出部62に与えられる。
破裂化処理手段73の重心時刻算出部62では、与えられた非負値化信号と、破裂音が連続して検出された検出回数とに基づいて、連続して破裂音が検出されたフレームの中の重心時刻が算出され、得られた重心時刻が破裂情報選択部75に与えられる。
破裂検定部74では、与えられた破裂真偽値と破裂情報とに基づいて破裂真偽値を補正して補正破裂真偽値を生成し、得られた補正破裂真偽値は振幅変調部76に与えられる。補正破裂真偽値は、破裂情報の破裂パワー比が所定の閾値以上であれば真とし、そうでない場合には破裂真偽値に基づいて第3の実施形態の破裂検定部32と同様にして設定される。
破裂情報選択部75は、時間領域破裂音検出手段72からの破裂情報に基づいて、重心時刻算出部62からの重心時刻か当該破裂情報かを選択する。このとき破裂情報の破裂パワー比が所定の閾値より大きければ、破裂情報が選択され、この破裂情報が重み係数設計情報として振幅変調部76に出力され、破裂パワー比が当該閾値より小さければ重心時刻が選択され、この重心時刻が重み係数設計情報として振幅変調部76に出力される。
振幅変調部76では、与えられた重み係数設計情報に基づいて重み係数を設計した上で、破裂検定部74から与えられた補正破裂真偽値が真であるなら、与えられた復号音声に当該重み係数を乗じて振幅変調を施し、補正破裂真偽値が偽であるなら、復号音声をそのまま通過させて、改善音声を得、得られた改善音声を破裂化処理手段73の出力として出力する。
(H−3)第7の実施形態の効果
以上のように、第7の実施形態によれば、MBE系の音声符号化方式の復号音声において、特徴的な音響現象が損なわれた破裂音をより適切に破裂化させることができるので、当該復号音声の明瞭性を改善して聴き心地を向上させた音声を利用者に提供できる。
(I)他の実施形態
上記各実施形態においても種々の変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態では、MBE系復号手段からの復号音声の品質を改善する方法が1種類のものを示したが、複数の改善方法に対応できる構成とし、利用者が改善方法を選択できるようにしても良い。
また、複数の改善方法からの選択ではなく、改善方法を適用するか否かを利用者が選択できるようにしても良い。この選択を利用者が行うのではなく、自動的に行なうようにしても良い。例えば、復号音声について、パワー、各時数のLPC係数の平均値等の特性値を算出し、算出した特性値と閾値との比較により、上記各実施形態で説明した復号音声に対する改善方法を適用するか否かを定めるようにしても良い。
上記各実施形態では、音声を復号化する場合を示したが、音響を適用可能なMBE系符号化の場合であれば、音響の復号化に本発明の技術的思想を適用することができる。特許請求の範囲に記載の「音声」の用語には、このような場合の「音響」も含まれているものとする。
上記各実施形態の説明では言及しなかったが、音声復号化装置を構成する要素の装置やチップへの実装方法は任意である。例えば、MBE系復号手段12がICチップで実現され、上記各実施形態の破裂音検出手段(周波数領域破裂音検出手段、時間領域破裂音検出手段を含む)、破裂化処理手段が、CPUにより実行されるソフトウェアとして構成されても良い。また、上記各実施形態の破裂音検出手段(周波数領域破裂音検出手段、時間領域破裂音検出手段を含む)、破裂化処理手段がICチップ化されても良い。上記各実施形態の音声復号化装置は、デジタル無線機や有線回線に接続する通信機器に搭載されるものであっても良い。
1A、1B、1C、1D、1E、1F、1G…音声復号化装置、11…受信手段、12…MBE系復号手段、13、21…破裂音検出手段、14、31、41、51、61、77…破裂化処理手段、71…周波数領域破裂音検出手段、72…時間領域破裂音検出手段。

Claims (20)

  1. MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、
    上記デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、
    上記復号音声の破裂音を検出する破裂音検出手段と、
    検出された上記破裂音を破裂化させる破裂化処理手段と
    を備え
    上記破裂化処理手段は、
    上記破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、上記復号音声に所定の重み係数を乗じて出力し、
    上記破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、上記復号音声をそのまま出力し、
    上記重み係数は、
    無音部と破裂部始端と破裂部後半の3状態で構成され
    無音部は0dBより小さな値を持ち、
    破裂部始端で前記無音部の値から0dBよりも大きな値へ増大し、
    破裂部後半で前記破裂部始端の0dBより大きな値から0dBへ減少する
    ことを特徴とする音声復号化装置。
  2. 上記破裂音検出手段は、
    上記MBE系復号手段の処理周期よりも短い周期でパワーを算出し、
    得られた短周期パワーを所定のルールで定めた基準パワーで除して、
    得られたパワー比が所定の閾値以上であれば破裂音であると判定する
    ことを特徴とする請求項1に記載の音声復号化装置。
  3. 上記所定のルールは、
    パワー比を算出する対象時刻に対して、
    当該対象時刻が当該処理フレーム内の始端であれば当該対象時刻の短周期パワーを前記基準パワーとし、
    当該対象時刻が当該処理フレーム内の始端より後であれば当該処理フレーム内の始端から当該対象時刻の直前までの短周期パワーの最小値を前記基準パワーとする
    ことを特徴とする請求項に記載の音声復号化装置。
  4. 上記所定のルールは、
    パワー比を算出する対象時刻に対して、当該対象時刻より所定時間前から当該対象時刻の直前までの短周期パワーの最小値を前記基準パワーとする
    ことを特徴とする請求項に記載の音声復号化装置。
  5. 上記破裂音検出手段は、
    上記MBE系復号手段からの復号音声を周波数解析し、
    得られたパワースペクトルに対してパターン認識を行って破裂音か否かを判定する
    ことを特徴とする請求項1に記載の音声復号化装置。
  6. 上記破裂化処理手段は、
    上記破裂音検出手段において2フレーム以上連続して破裂音を検出した場合に、最初に検出したフレームのみを基準に1回だけ上記重み係数を乗じる
    ことを特徴とする請求項に記載の音声復号化装置。
  7. 上記破裂化処理手段は、
    上記復号音声をサンプルごとに非負値に変換し、
    得られた非負値化信号の和に関するフレーム内の重心を算出し、
    得られた重心時刻に基づいて上記重み係数を時間方向に平行移動してから復号音声に乗じる
    ことを特徴とする請求項に記載の音声復号化装置。
  8. 上記破裂化処理手段は、
    上記破裂音検出手段において連続して破裂音を検出した回数に基づいて、上記重み係数を時間方向に平行移動してから復号音声に乗じる
    ことを特徴とする請求項に記載の音声復号化装置。
  9. 上記破裂化処理手段は、
    上記復号音声をサンプルごとに非負値に変換し、
    上記破裂音検出手段が連続して破裂音を検出した回数と同数のフレーム内の当該非負値化信号の和に関する重心を算出して得られる重心時刻とに基づいて、上記重み係数を時間方向に平行移動してから復号音声に乗じる
    ことを特徴とする請求項に記載の音声復号化装置。
  10. MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化装置において、
    上記デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、
    上記復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、
    上記周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の上記復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、
    上記復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、
    上記重心時刻と上記時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、
    上記周波数領域破裂音検出手段の判定結果と上記破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、
    上記破裂検定手段において破裂音であると判定したフレームを基準として、上記破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、上記復号音声に当該重み係数を乗じる破裂化処理手段と
    を備えることを特徴とする音声復号化装置。
  11. 上記予め設計される所定の重み係数は、
    無音部と破裂部始端と破裂部後半の3状態で構成され、
    無音部は0dBより小さな値を持ち、
    破裂部始端で前記無音部の値から0dBよりも大きな値へ増大し、
    破裂部後半で前記破裂部始端の0dBより大きな値から0dBへ減少する
    ことを特徴とする請求項10に記載の音声復号化装置。
  12. 上記周波数領域破裂音検出手段は、
    上記MBE系復号手段を周波数解析し、
    得られたパワースペクトルに対してパターン認識を行って破裂音か否かを判定する
    ことを特徴とする請求項10又は11に記載の音声復号化装置。
  13. 上記時間領域破裂音検出手段は、
    上記MBE系復号手段の処理周期よりも短い周期でパワーを算出し、
    得られた短周期パワーを所定のルールで定めた基準パワーで除して、
    得られたパワー比が所定の閉値以上であれば破裂音であると判定する
    ことを特徴とする請求項1012のいずれかに記載の音声復号化装置。
  14. 上記所定のルールは、
    パワー比を算出する対象時刻に対して、
    当該対象時刻が当該処理フレーム内の始端であれば当該対象時刻の短周期パワーを前記基準パワーとし、
    当該対象時刻が当該処理フレーム内の姶端より後であれば当該処理フレーム内の始端から当該対象時刻の直前までの短周期パワーの最小値を上記基準パワーとする
    ことを特徴とする請求項13に記載の音声復号化装置。
  15. 上記所定のルールは、
    パワー比を算出する対象時刻に対して、当該対象時刻より所定時間前から当該対象時刻の直前までの短周期パワーの最小値を前記基準パワーとする
    ことを特徴とする請求項13に記載の音声復号化装置。
  16. MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、
    MBE系復号手段が、上記デジタル音声符号化情報を復号化して復号音声を生成し、
    破裂音検出手段が、上記復号音声の破裂音を検出し、
    破裂化処理手段が、検出された上記破裂音を破裂化させ
    上記破裂化処理手段は、
    上記破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、上記復号音声に所定の重み係数を乗じて出力し、
    上記破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、上記復号音声をそのまま出力し、
    上記重み係数は、
    無音部と破裂部始端と破裂部後半の3状態で構成され
    無音部は0dBより小さな値を持ち、
    破裂部始端で前記無音部の値から0dBよりも大きな値へ増大し、
    破裂部後半で前記破裂部始端の0dBより大きな値から0dBへ減少する
    ことを特徴とする音声復号化方法。
  17. MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化方法において、
    MBE系復号手段が、上記デジタル音声符号化情報を復号化して復号音声を生成し、
    周波数領域破裂音検出手段が、上記復号音声の破裂音を周波数領域で検出し、
    重心時刻算出手段が、上記周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の上記復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出し、
    時間領域破裂音検出手段が上記復号音声の破裂音を時間領域で検出し、
    破裂情報選択手段が、上記重心時刻と上記時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択し、
    破裂検定手段が、上記周波数領域破裂音検出手段の判定結果と上記破裂情報とに基づいて、破裂音か否かを再判定し、
    破裂化処理手段が、上記破裂検定手段において破裂音であると判定したフレームを基準として、上記破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、上記復号音声に当該重み係数を乗じる
    ことを特徴とする音声復号化方法。
  18. MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、
    コンピュータを、
    上記デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、
    上記復号音声の破裂音を検出する破裂音検出手段と、
    検出された上記破裂音を破裂化させる破裂化処理手段と
    して機能させ
    上記破裂化処理手段は、
    上記破裂音検出手段において当該処理フレームが破裂音であると判定された場合には、上記復号音声に所定の重み係数を乗じて出力し、
    上記破裂音検出手段において当該処理フレームが破裂音でないと判定された場合には、上記復号音声をそのまま出力し、
    上記重み係数は、
    無音部と破裂部始端と破裂部後半の3状態で構成され
    無音部は0dBより小さな値を持ち、
    破裂部始端で前記無音部の値から0dBよりも大きな値へ増大し、
    破裂部後半で前記破裂部始端の0dBより大きな値から0dBへ減少する
    ことを特徴とする音声復号化プログラム。
  19. MBE系の音声符号化方式に従って符号化されているデジタル符号化情報を復号する音声復号化プログラムにおいて、
    コンピュータを、
    上記デジタル音声符号化情報を復号化して復号音声を生成するMBE系復号手段と、
    上記復号音声の破裂音を周波数領域で検出する周波数領域破裂音検出手段と、
    上記周波数領域破裂音検出手段において連続して破裂音を検出した回数と同数のフレーム内の上記復号音声を、サンプルごとに非負値に変換して得られた非負値化信号の和に関する重心を算出して重心時刻を算出する重心時刻算出手段と、
    上記復号音声の破裂音を時間領域で検出する時間領域破裂音検出手段と、
    上記重心時刻と上記時間領域破裂音検出手段から得られた破裂情報とを、当該破裂情報に基づいて選択する破裂情報選択手段と、
    上記周波数領域破裂音検出手段の判定結果と上記破裂情報とに基づいて、破裂音か否かを再判定する破裂検定手段と、
    上記破裂検定手段において破裂音であると判定したフレームを基準として、上記破裂情報選択手段から得られた重み係数設計情報に基づいて予め設計された所定の重み係数を再設計して、上記復号音声に当該重み係数を乗じる破裂化処理手段と
    して機能させることを特徴とする音声復号化プログラム。
  20. 請求項1〜15のいずれかに記載の音声復号化装置を備えることを特徴とする通信機器。
JP2014139817A 2014-07-07 2014-07-07 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 Active JP6481271B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014139817A JP6481271B2 (ja) 2014-07-07 2014-07-07 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014139817A JP6481271B2 (ja) 2014-07-07 2014-07-07 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器

Publications (2)

Publication Number Publication Date
JP2016018042A JP2016018042A (ja) 2016-02-01
JP6481271B2 true JP6481271B2 (ja) 2019-03-13

Family

ID=55233308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014139817A Active JP6481271B2 (ja) 2014-07-07 2014-07-07 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器

Country Status (1)

Country Link
JP (1) JP6481271B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
JP4644876B2 (ja) * 2005-01-28 2011-03-09 株式会社国際電気通信基礎技術研究所 音声処理装置
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法

Also Published As

Publication number Publication date
JP2016018042A (ja) 2016-02-01

Similar Documents

Publication Publication Date Title
US9734835B2 (en) Voice decoding apparatus of adding component having complicated relationship with or component unrelated with encoding information to decoded voice signal
EP3118849B1 (en) Encoding device, decoding device, and method thereof
EP1775717B1 (en) Speech decoding apparatus and compensation frame generation method
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
US8063809B2 (en) Transient signal encoding method and device, decoding method and device, and processing system
EP2382622B1 (en) Method and apparatus for generating an enhancement layer within a multiple-channel audio coding system
EP2382626B1 (en) Selective scaling mask computation based on peak detection
EP2382621B1 (en) Method and appratus for generating an enhancement layer within a multiple-channel audio coding system
EP2382627B1 (en) Selective scaling mask computation based on peak detection
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
EP1785984A1 (en) Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
EP3182412B1 (en) Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
US20080069016A1 (en) Packet based echo cancellation and suppression
JP5773124B2 (ja) 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
WO2014051964A1 (en) Apparatus and method for audio frame loss recovery
JP5668923B2 (ja) 信号分析制御システム及びその方法と、信号制御装置及びその方法と、プログラム
EP4376304A2 (en) Encoder, decoder, encoding method, decoding method, and program
JP4365653B2 (ja) 音声信号送信装置、音声信号伝送システム及び音声信号送信方法
JP6481271B2 (ja) 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器
JP2005091749A (ja) 音源信号符号化装置、及び音源信号符号化方法
JP4287840B2 (ja) 符号化装置
JP2000134162A (ja) 帯域幅拡張方法及び装置
JP2004301954A (ja) 音響信号の階層符号化方法および階層復号化方法
GB2365297A (en) Data modem compatible with speech codecs
JPWO2009038115A1 (ja) 音声符号化装置、音声符号化方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190128

R150 Certificate of patent or registration of utility model

Ref document number: 6481271

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150