JPH10207491A

JPH10207491A - 背景音／音声分類方法、有声／無声分類方法および背景音復号方法

Info

Publication number: JPH10207491A
Application number: JP9010326A
Authority: JP
Inventors: Masahiro Oshikiri; 正浩押切; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-01-23
Filing date: 1997-01-23
Publication date: 1998-08-07
Anticipated expiration: 2017-01-23
Also published as: JPH11117213A; JP3331297B2

Abstract

(57)【要約】【課題】背景雑音のパワーが大きい状況下や、車や電車
の走行音、他人の話し声などのスペクルがフラットでな
い背景雑音下でも正確な分類が可能な背景音／音声分類
方法を提供する。【解決手段】入力端子１０１から入力されるディジタル
信号の入力信号を特徴量算出部１０２に与えて得られた
算出フレームパワーおよび算出ＬＳＰ係数と推定特徴量
更新部１０４で求められた推定フレームパワーおよび推
定ＬＳＰ係数の情報から、背景音／音声判定部１０３に
より入力信号が背景音か音声かを判定し、その後に推定
特徴量更新部１０４で次のフレームに備えて、特徴量算
出部１０２で求められたフレームパワーとＬＳＰ係数を
用いて推定フレームパワーおよび推定ＬＳＰ係数の更新
を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号の符号化
／復号化に際して、入力信号が背景音区間と音声区間の
いずれに属するかを判定する背景音／音声分類方法と、
入力信号が有声区間と無声区間のいずれに属するかを判
定する有声／無声分類方法および違和感のない背景音を
復号する背景音復号方法に関する。

【０００２】

【従来の技術】音声信号の高能率・低ビットレート符号
化は、移動体通信や企業内通信においてチャネル容量の
増加や通信コストの削減のための重要な技術である。音
声信号は、音声が存在しない背景音区間と、音声が存在
する音声区間とに分類することができる。音声通信を行
う上で意味のあるものは音声区間であり、背景音区間は
違和感の生じない限りビットレートを下げても構わな
い。背景音区間のビットレートを下げることにより、全
体的なビットレートを下げることができ、さらなるチャ
ネル容量の増加、通信コストの削減が図られる。

【０００３】この場合、背景音／音声分類に失敗し、例
えば音声区間が背景音区間と分類されてしまうと、音声
区間は低いビットレートで符号化されることになり、深
刻な音声劣化が生じてしまう。逆に、背景音区間が音声
区間と分類されると、全体的なビットレートが増加して
しまい、符号化効率が低減してしまう。このため、正確
な背景音／音声分類技術の確立が重要になる。

【０００４】従来の背景音／音声分類方法では、信号の
パワー情報の変化を監視して背景音区間と音声区間とを
分類している。例えば、J.F.Lynch Jr．氏らによる“Sp
eech/Silence Segmentation for Real-time Coding via
Rule Based Adaptive Endpoint Detection ”:Proc.IC
ASSP '87,pp.31.7.1-31.7.4 （文献１）によれば、入力
信号のフレームパワーで算出される音声メトリックと背
景音メトリックを用いて背景音／音声分類を行ってい
る。

【０００５】このように信号のパワー情報のみを使用し
て背景音区間と音声区間の分類を行う方法は、背景音が
ほとんど聞こえない静かな状況では特に問題は生じな
い。このような場合は、背景音区間の信号パワーに対し
て音声区間の信号パワーが十分に大きいため、音声区間
を容易に識別できるからである。しかし、実際には背景
音として大きな背景雑音が存在する状況もあり、このよ
うな状況では正確な背景音／音声分類を実現することは
できない。また、背景雑音は必ずしも白色雑音であると
は限らず、例えば車や電車の走行音、他人の話し声など
のスペクトルがフラットでない背景雑音も存在するが、
従来の背景音／音声分類方法ではこのような背景雑音の
下では適切な分類が非常に困難である。

【０００６】一方、音声信号の音声区間は母音に相当す
る周期性の強い有声区間と、子音に相当する周期性が低
く雑音的な無声区間に分類することができる。有声区間
と無声区間は信号の特質が明らかに異なるため、それぞ
れに適した符号化法とビットレートの設定を行うこと
で、さらなる高品質化、低レート化が可能になる。

【０００７】この場合、有声／無声分類に失敗し、有声
区間が無声区間に分類されたり、逆に無声区間が有声区
間に分類されてしまうと、深刻な音質劣化が生じたり、
不必要にビットレートが増加してしまうという問題が生
じる。このため、正確な音声／無声分類方法の確立が重
要になる。

【０００８】従来の有声／無声分類方法として、例えば
J.P.Campbell氏らによる“Voiced/Unvoiced Classifica
tion of Speech with Applications to the U.S. Gover
nment LPC-10E Algorithm ”;Proc.ICASSP '86, vol.1
pp.473-476（文献２）がある。この文献２では、音声の
音響パラメータを複数種類算出し、この音響パラメータ
の加重平均値を求め、この値を予め設定してある閾値と
比較して有声／無声分類を行っている。

【０００９】しかし、加重平均のために各音響パラメー
タに用いる重み値と閾値とのバランスが有声／無声分類
性能に大きく作用するのは明らかであり、最適な重み値
と閾値を決定するのは困難である。

【００１０】次に、従来の背景音復号法について説明す
る。背景音区間では前述のように全体的なビットレート
を低減するため、超低ビットレートで符号化を行ってい
る。例えば、E.Paksoy氏らによる“Variable Rate Spee
ch Coding with Phonetic Segmentation;Proc.ICASSP '
93,pp.II-155-158（文献３）では、背景音の符号化を僅
か１．０ｋｂｐｓというレートで行っている。復号側で
は、このように低いビットレートで表された復号パラメ
ータを用いて背景音を復号する。

【００１１】このような背景音区間の音声復号法では、
復号パラメータが超低ビットレートで表現されているた
め、各パラメータの更新周期が長くなってしまう。仮に
ゲインの復号パラメータの更新周期が長くなってしまう
と、背景音区間のゲインの変化が正しく追従できなくな
り、ゲインの大きさが不連続になってしまう。このよう
なゲインを用いて背景音を復号すると、ゲインの不連続
性が耳障りになり、主観品質が大きく低下してしまう結
果となる。

【００１２】

【発明が解決しようとする課題】上述したように、信号
のパワー情報のみを利用する従来の背景音／音声分類方
法では、大きな背景雑音が存在する状況では正確な背景
音／音声分類を実現することができず、また車や電車の
走行音、他人の話し声などスペクトルが白色でない背景
雑音が存在する状況下では、適切な分類が極めて難しい
という問題があった。

【００１３】また、音響パラメータの加重平均値と閾値
との比較を用いた従来の有声／無声分類方法では、各音
響パラメータに用いる重み値と閾値とのバランスにより
分類が不安定かつ不正確になるという問題があった。

【００１４】さらに、従来の背景音区間の音声復号法で
は、背景音の復号パラメータが超低ビットレートで表現
されているため、各パラメータの更新周期が長くなり、
特にゲインの復号パラメータの更新周期が長くない場合
には背景音区間のゲインの変化が正しく追従できなくな
ってゲインの大きさが不連続になると、主観品質が大き
く低下するという問題があった。

【００１５】本発明の主な目的は、背景雑音の大きさや
性質にかかわらず適切に背景音区間と音声区間の分類を
行うことを可能とした背景音／音声分類方法を提供する
ことにある。

【００１６】本発明の他の目的は、安定かつ正確に有声
区間と無声区間の分類ができる有声／無声分類方法を提
供することにある。

【００１７】本発明のもう一つの目的は、背景音の復号
パラメータが超低ビットレートで表現されている場合に
も主観品質に優れた背景音を復号することが可能な背景
音復号方法を提供することにある。

【００１８】

【課題を解決するための手段】上記の課題を解決するた
め、本発明に係る背景音／音声分類方法は、入力信号の
パワーおよびスペクトルの情報を特徴量として算出し、
この算出特徴量と背景音区間の推定パワーおよび推定ス
ペクトルの情報からなる推定特徴量とを比較することに
より、入力信号が音声および背景音のいずれに属するか
を判定することを基本的な特徴とする。

【００１９】より具体的には、算出特徴量と推定特徴量
との比較によりパワーおよびスペクトルの変動量を分析
し、これらパワーおよびスペクトルの変動量の分析結果
が共に背景音であることを示したときは入力信号が背景
音に属すると判定し、それ以外のときは音声に属すると
判定する。スペクトル情報は、例えばＬＳＰ係数により
更新される。

【００２０】パワー情報だけを用いて背景音／音声分類
を行う従来の方法では、背景雑音のパワーが大きいとき
に音声区間でパワーの小さな部分が背景音と判定されて
しまうという問題があったが、本発明のようにパワー情
報に加えてスペクトル情報を用いて背景音／音声分類を
行うと、パワーの小さな音声区間であっても背景音区間
のスペクトルと音声区間のスペクトルとでは明らかに異
なるため、音声区間を正確に判定することが可能にな
る。

【００２１】また、この背景音／音声分類方法において
は、推定特徴量を入力信号が背景音に属すると判定され
た場合と音声に属すると判定された場合とで異なる方法
により更新すると共に、入力信号が背景音に属すると判
定された場合の更新量を音声に属すると判定された場合
の更新量より小さくすることが好ましい。このようにす
ると、入力信号の音声区間が長時間続いても、推定特徴
量が入力信号の音声区間の特徴量の影響をほとんど受け
ることがないため、音声区間が長時間続いた後に背景音
に変化するような入力信号が与えられた場合でも、背景
音の識別が容易に可能となる。

【００２２】スペクトルの変動量の分析は、入力信号の
スペクトルの情報から求められるスペクトル包絡と背景
音区間の推定スペクトルの情報から求められるスペクト
ル包絡との間の歪（スペクトル歪み）の値と、予め設定
された閾値とを比較することにより、正確に行うことが
できる。これによって、より正確な背景音／音声の分類
が可能となる。

【００２３】また、この場合に推定パワーの情報に応じ
て閾値を変化させ、例えば推定パワーが小さいときは閾
値を大きく設定し、推定パワーが大きいときは閾値を小
さく設定するようにすれば、推定パワーの変化によるス
ペクトル変動量の変化によって判定を誤ることが少なく
なり、より一層正確に背景音／音声の分類を行うことが
できる。

【００２４】さらに、本発明においては入力信号が音声
および背景音のいずれに属するかの判定結果が音声から
背景音へ変化したとき、特定期間（これをハングオーバ
期間という）だけその判定結果を強制的に音声に変更さ
せるようにしてもよい。この場合、背景音区間の推定パ
ワーおよび推定スペクトルの情報を用いてハングオーバ
期間を変化させ、例えば推定フレームパワーが大きいと
きまたは推定スペクトルの情報から求められるスペクト
ル包絡のホルマントのスペクトルパワーが大きいときに
ハングオーバ時間を長く設定することにより、背景音の
パワーが大きいときや背景音のスペクトルが白色でない
場合の語尾切れが回避される。

【００２５】本発明に係る有声／無声分類方法は、音声
の特徴量に有声出現確率および無声出現確率をそれぞれ
対応付けて記述した有声出現確率テーブルおよび無声出
現確率テーブルを用意しておき、入力音声について算出
された特徴量をキーとして、これらの有声出現確率テー
ブルおよび無声出現確率テーブルを参照することにより
有声確率および無声確率を求め、これらの有声確率およ
び無声確率から入力音声が有声および無声のいずれに属
するかを判定することを特徴とする。

【００２６】このようにすると、例えば実音声データを
マニュアルで有声／無声判定し、それに基づいて有声出
現確率テーブルおよび無声出現確率テーブルを作成して
おくことにより、これらのテーブルを用いて最も確から
しい声質を判断することができるので、従来法のように
経験に基づいた重み値や閾値に分類の性能が左右される
という問題が回避され、安定で正確な有声／無声分類が
可能となる。

【００２７】さらに、本発明に係る背景音復号方法は、
背景音の合成のための合成フィルタを駆動する駆動信号
と該駆動信号に乗じるゲインおよび合成フィルタの情報
を復号して背景音の復号を行う際のゲインをスムージン
グすることを特徴とする。このようにして背景音の復号
を行うと、ゲインの変化が滑らかになることで、復号さ
れる背景音の主観品質が向上する。

【００２８】また、このようにゲインをスムージングす
る際、ゲインが増大するときは徐々にゲインを大きくさ
せ、ゲインが減少するときは急速にゲインを小さくさせ
るようにすれば、ゲインのスムージングで生じる不必要
なゲインの増大が回避され、さらに効果的に主観品質が
向上する。

【００２９】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。（第１の実施形態）図１に、本発明の第１の実施形態に
係る背景音／音声分類装置の構成を示す。同図におい
て、入力端子１０１には入力信号として例えばマイクロ
ホンで集音され、ディジタル化された音声信号が複数サ
ンプルを１フレームとしてフレーム単位で順次入力され
る。本実施形態では、１フレームを２４０サンプルとす
る。

【００３０】この入力信号は特徴量算出部１０２に与え
られ、入力信号を特徴付ける種々の特徴量が算出され
る。本実施形態では、算出特徴量としてパワー情報であ
るフレームパワーｐ_sと、スペクトル情報であるＬＳＰ
係数｛ω_s(i) ，ｉ＝１，…，ＮＰ｝を用いる場合につ
いて説明する。

【００３１】図２に、特徴量算出部１０２の構成を示
す。入力端子２０１からの入力信号ｓ(n) についてフレ
ームパワー算出部２０２でフレームパワーｐ_sが算出さ
れ、出力端子２０５から出力される。この算出フレーム
パワーｐ_sは、次式で定義される。

【００３２】

【数１】

【００３３】ここで、Ｎはフレーム長を表す。

【００３４】入力信号ｓ(n) は、ＬＰＣ係数分析部２０
３にも与えられる。ＬＰＣ係数分析部２０３は、例えば
自己相関法などの既存の技術を用いてＬＰＣ係数を求め
る。こうして求められたＬＰＣ係数はＬＰＣ係数変換部
２０４に渡され、ＬＳＰ係数｛ω_s(i) ，ｉ＝１，…，
ＮＰ｝に変換された後、出力端子２０６から出力され
る。

【００３５】特徴量算出部１０２で求められた算出フレ
ームパワーｐ_sおよび算出ＬＳＰ係数｛ω_s(i) ，ｉ＝
１，…，ＮＰ｝は背景音／音声判定部２０３に与えら
れ、それと同時に推定特徴量更新部１０４で求められた
推定フレームパワーｐ_eおよび推定ＬＳＰ係数｛ω
_e(i) ，ｉ＝１，…，ＮＰ｝も背景音／音声判定部２０
３に与えられる。背景音／音声判定部２０３では、これ
らの情報を基にして入力信号ｓ(n) が背景音か音声かが
判定され、その判定結果が出力端子１０５に出力され
る。

【００３６】このようにして背景音／音声判定部２０３
であるフレームについての背景音／音声の判定が行われ
た後、推定特徴量更新部１０４で次のフレームに備え
て、特徴量算出部１０２で求められた算出フレームパワ
ーｐ_sおよび算出ＬＳＰ係数｛ω_s(i) ，ｉ＝１…Ｎ
Ｐ｝を用いて推定フレームパワーｐ_eおよび推定ＬＳＰ
係数｛ω_e(i) ，ｉ＝１…ＮＰ｝の更新が行われる。

【００３７】以下、背景音／音声判定部１０３と推定特
徴量更新部１０４の詳細をさらに詳しく説明する。背景
音／音声判定部１０３の機能は、算出フレームパワーｐ
_sと算出ＬＳＰ係数｛ω_s(i) ，ｉ＝１…ＮＰ｝および
推定フレームパワーｐ_eと推定ＬＳＰ係数｛ω_e(i) ，
ｉ＝１…ＮＰ｝を入力として、判定結果として背景音判
定信号“０”および音声判定信号“１”のいずれかを出
力する関数として表現される。

【００３８】ｃ＝Ｆ（ｐ_s，ω_s(i) ，ｐ_e，ω_e(i) ）（２）ここで、Ｆは背景音と判定したときに“０”を音声と判
定したときに“１”を返す関数とする。

【００３９】この関数Ｆについて、具体例を用いて説明
する。関数Ｆは次のような手続きに従い実現される。ま
ず、最初にフレームパワーの変動量を分析し、次にＬＳ
Ｐ係数の変動量を分析する。そして、最後にフレームパ
ワーの変動量およびＬＳＰ係数の変動量の分析結果が共
に背景音と判断された場合にのみ背景音と判断して
“０”を返し、そうでない場合には音声と判断して
“１”を返す。

【００４０】図３に、背景音／音声判定部の構成を示
す。入力端子３０１から算出フレームパワーｐ_s、入力
端子３０２からは算出ＬＳＰ係数｛ω_s(i) ，ｉ＝１，
…，ＮＰ｝、入力端子３０３からは推定フレームパワー
ｐ_e、入力端子３０４からは推定ＬＳＰ係数｛ω_e(i)
，ｉ＝１，…，ＮＰ｝の情報がそれぞれ入力される。
フレームパワー変動量算出部３０５では、算出フレーム
パワーｐ_sと算出推定フレームパワーｐ_eを用いてフレ
ームパワー変動量に着目した背景音／音声判定を行う。

【００４１】次に、スペクトル変動量算出部３０６で
は、入力された算出ＬＳＰ係数｛ω_s(i) ，ｉ＝１，
…，ＮＰ｝と推定ＬＳＰ係数｛ω_e(i) ，ｉ＝１，…，
ＮＰ｝を用いてスペクトル変動量に着目した背景音／音
声判定を行う。一方、判定部３０７では、フレームパワ
ー変動量算出部３０５で判定された結果とスペクトル変
動量算出部３０６で判定された結果を総合的に判断し
て、両者とも背景音と判定されているなら背景音を、そ
うでなければ音声を最終的な判定結果として出力端子３
０８から出力する。

【００４２】次に、フレームパワー変動量の分析につい
て説明する。フレームパワー変動量の分析は次式に従い
行われ、次式が成り立つときパワー情報においてはその
フレームは背景音と判断される。逆に、次式が成り立た
ないときはそのフレームは音声と判断される。ｐ_s−ｘ・ｐ_e＜０（３）ここで、ｘは予め定められた正の定数を表し、推定フレ
ームパワーｐ_eをｘ倍した値と現フレームの算出フレー
ムパワーｐ_sとを比較することで、推定フレームパワー
より少なくともｘ倍以上のパワーを有するフレームを音
声と判定することができる。これにより、本来背景音で
あるフレームを音声と誤判定してしまうことを回避し、
安定した判定を行うことができる。

【００４３】また、ｘを算出フレームパワーｐ_sの大き
さに依存して適応的に変化させると、背景音のパワーが
大きく本来正しい判定が困難な場合でも十分に判定を行
うことができる。すなわち、算出フレームパワーｐ_sが
大きいときｘを小さくし、逆にフレームパワーｐ_sが小
さいときｘを大きく設定すると、誤判定が少なくなるの
で、そのようにｘを適応化させればよい。

【００４４】ＬＳＰ係数の変動量は、ＬＳＰ係数間のユ
ークリッド距離として定義され、次式に従って求められ
る。次式が成り立つとき、スペクトル情報においては、
そのフレームは背景音と判断される。逆に、次式が成り
立たない場合は音声と判断される。

【００４５】

【数２】

【００４６】Ｔ_fは、予め設定しておいた閾値である。

【００４７】このようにして、フレームパワーの変動量
およびＬＳＰ係数の変動量を評価して、両変動量が背景
音と判断されたとき、背景音／音声判定部１０３は背景
音／音声判定結果として背景音を表す判定信号である
“０”を出力する。これ以外のとき、すなわちフレーム
パワーの変動量とＬＳＰ係数の変動量のいずれか一方が
音声を表す場合、背景音／音声判定部１０３は背景音／
音声判定結果として音声を表す判定信号である“１”を
出力する。

【００４８】推定特徴量更新部１０４では、次フレーム
の入力に備えて推定特徴量の更新を行う。推定特徴量の
うち、推定フレームパワーｐ_eは次式に従い更新され
る。

【００４９】ｐ_e ^new＝（１−β）・ｐ_s＋β・ｐ_e（０≦β≦１）（５）ここで、ｐ_e ^newは次フレームに用いられる推定フレー
ムパワーを表す。またβは予め定められた定数である。

【００５０】推定ＬＳＰ係数｛ω_e(i) ，ｉ＝１，…，
ＮＰ｝の更新も同様に、次式に従い実現される。

【００５１】 ω_e ^new(i) ＝（１−γ）・ω_s(i) ＋γ・ω_e(i) （０≦γ≦１）（６）ここで、ω_e ^new(i) は次フレームに用いられる推定Ｌ
ＳＰ係数を表す。またγは予め定められた定数である。

【００５２】次に、本実施形態における処理の流れを図
４に示すフローチャート用いて説明する。最初に、フレ
ーム単位で入力される信号を分析して特徴量を算出する
（ステップＳ１０）。次に、現フレームの算出特徴量と
前フレームの処理の段階で求めておいた推定特徴量との
比較を行い、入力信号が背景音か音声のいずれに属する
かを判定する（ステップＳ１１）。最後に、現フレーム
で求められた算出特徴量を用いて推定特徴量を更新し、
次フレームの入力に備える（ステップＳ１２）。ここ
で、算出特徴量および推定特徴量としては、前述したよ
うにフレームパワーなどのパワー情報と、ＬＳＰ係数な
どのスペクトル情報と併用される点が従来と異なってい
る。

【００５３】本実施形態の効果を図５を用いて説明す
る。図５（ａ）に示すような入力信号に対して、パワー
情報だけを用いて背景音／音声判定を行うと、図５
（ｂ）に示すように背景雑音パワーの大きいときに音声
区間でパワーの小さな部分が背景音と判定されてしまう
という問題がある。

【００５４】これに対し、本実施形態のようにパワー情
報に加えてスペクトル情報を用いると、パワーの小さな
音声区間であっても背景音区間のスペクトルと音声区間
のスペクトルとでは明らかに異なるため、図５（ｃ）に
示すように音声区間を正確に判定することが可能とな
る。

【００５５】（第２の実施形態）図６に、本発明の第２
の実施形態に係る背景音／音声分類装置の構成を示す。
図６において、図１と同一の構成要素に同一の参照符号
を付して詳細な説明は省略する。本実施形態と第１の実
施形態の違いは、推定特徴量更新部１０４の実現法にあ
る。

【００５６】すなわち、本実施形態では背景音／音声判
定部１０３の判定結果に応じて、推定特徴量更新部１０
４での更新方法を切り替える。この場合、推定フレーム
パワーｐ_eの更新は次式に従う。ｐ_e ^new＝（１−β₀）・ｐ_s＋β₀・ｐ_e （７）ｐ_e ^new＝（１−β₁）・ｐ_s＋β₁・ｐ_e （８）式（７）は背景音／音声判定部１０３で背景音と判定さ
れたときの更新を表しており、式（８）は背景音／音声
判定部１０３で音声と判定されたときの更新を表してい
る。ただし、β₀とβ₁の間には、０≦β₀＜β₁≦１
の関係が成り立つものとする。

【００５７】同様に、推定ＬＳＰ係数｛ω_e(i) ，ｉ＝
１，…，ＮＰ｝の更新は、次の２式に従う。

【００５８】 ω_e ^new(i) ＝（１−γ₀）・ω_s(i) ＋γ₀・ω_e(i) （９） ω_e ^new(i) ＝（１−γ₁）・ω_s(i) ＋γ₁・ω_e(i) （１０）式（９）は背景音／音声判定部１０３で背景音と判定さ
れたときの更新を表しており、式（１０）は背景音／音
声判定部１０３で音声と判定されたときの更新を表して
いる。ただし、γ₀とγ₁の間には０≦γ₀＜γ₁≦１
の関係が成り立つものとする。

【００５９】以上の処理をまとめると、図７に示される
フローチャートのようになる。図７のステップＳ２０，
Ｓ２１は図４のステップＳ１０，Ｓ１１と同一なので、
ここでは説明を省略する。ステップＳ２２ではステップ
Ｓ２１の判定結果を受けて、ステップＳ２１で背景音と
判定された場合はステップＳ２３に進み、音声と判定さ
れた場合はステップＳ２４に進む。ステップＳ２３で
は、背景音と判定されたときの更新法を用いて推定特徴
量を更新し、次の入力フレームに備える。ステップＳ２
４では、音声と判定されたときの更新法を用いて推定特
徴量を更新し、次の入力フレームに備える。

【００６０】本実施形態の利点は、図８を用いて次のよ
うに説明できる。背景音／音声判定部１０３の結果に関
係なく常に同一の更新法を用いる場合、図８（ａ）に示
すように音声区間が長期にわたる入力信号が与えられる
と、推定特徴量が音声区間の特徴量に大きく影響を受け
てしまう。このため、図８（ｂ）に示すように、図８
（ａ）の入力信号が音声区間から背景音に変わっても、
推定特徴量は既に音声区間の特徴量に類似してしまって
いる、つまり背景音と異なるスペクトル情報を有してし
まうため、背景音を識別することが非常に困難になって
しまう。

【００６１】これに対して、本実施形態では図８（ｃ）
に示すように、背景音区間と音声区間とで推定特徴量の
更新法が異なり、かつ音声区間での更新量は小さく設定
してあるので、音声区間の特徴量に影響をほとんど受け
ない。そのため、音声区間が長時間続いた後に背景音に
変化する入力信号が与えられて背景音の識別は可能とな
り、より正確な背景音／音声判定が実現できる。

【００６２】（第３の実施形態）図９を用いて、本発明
の第３の実施形態に係る背景音／音声分類装置について
説明する。本実施形態の特徴は背景音／音声判定部１０
３の実現法にあり、先に説明した図１または図６で表さ
れる構成のどちらにも適用可能である。

【００６３】図９は、図３に示した背景音／音声判定部
１０３におけるスペクトル変動量算出部３０６において
算出ＬＳＰ係数｛ω_s(i) ，ｉ＝１，…，ＮＰ｝と推定
ＬＳＰ係数｛ω_e(i) ，ｉ＝１，…，ＮＰ｝との変動量
を求めるための構成を示すブロック図である。先の実施
形態では、ＬＳＰ係数の変動量は式（４）で定義される
ようにＬＳＰ係数間のユークリッド距離によって求めら
れている。これに対し、本実施形態では、ＬＳＰ係数を
スペクトル包絡に変換して、スペクトル包絡間のスペク
トル歪を求め、このスペクトル歪と予め定めてある閾値
と比較を行い背景音／音声判定を行う。

【００６４】式（４）に定義されるようなＬＳＰ係数間
のユークリッド距離は、本来の算出ＬＳＰ係数｛ω
_s(i) ，ｉ＝１，…，ＮＰ｝と推定ＬＳＰ係数｛ω
_e(i) ，ｉ＝１，…，ＮＰ｝間のスペクトルの変動量と
対応しないことがある。これはＬＳＰ係数の性質から、
ＬＳＰ係数はスペクトル包絡の山部の周波数に対応する
ものの、ＬＳＰ係数間のユークリッド距離という定義が
スペクトルの変動量とは一意に対応しないことに起因す
るものであり、正確な背景音／音声判定の妨げとなる。

【００６５】この点を改善するため、本実施形態では算
出ＬＳＰ係数｛ω_s(i) ，ｉ＝１，…，ＮＰ｝と推定Ｌ
ＳＰ係数｛ω_e(i) ，ｉ＝１，…，ＮＰ｝のスペクトル
包絡をそれぞれ求め、そのスペクトル歪を基に背景音／
音声判定を行うことにより、正確なスペクトル変動量を
求めることができ、より正確な背景音／音声判定が可能
になる。

【００６６】図９を用いて詳しく説明すると、入力端子
４０１から算出ＬＳＰ係数｛ω_s(i) ，ｉ＝１，…，Ｎ
Ｐ｝が入力され、ＬＳＰ変換部４０２に与えられる。Ｌ
ＳＰ変換部４０２では、既存の技術を使って算出ＬＳＰ
係数をＬＰＣ係数｛α_s(i)，ｉ＝１，…，ＮＰ｝へ変
換して求める。同様に、入力端子４０３から推定ＬＳＰ
係数｛ω_e(i) ，ｉ＝１，…，ＮＰ｝が入力されてＬＳ
Ｐ変換部４０４に与えられ、ＬＳＰ係数変換部４０４で
推定ＬＰＣ係数｛α_e(i) ，ｉ＝１，…，ＮＰ｝を変換
される。スペクトル歪算出部４０５では、算出ＬＰＣ係
数から構成される合成フィルタのスペクトル包絡と、推
定ＬＰＣ係数から構成される合成フィルタのスペクトル
包絡との対数領域での２乗誤差として定義されるスペク
トル歪ＳＤを次式により算出する。

【００６７】

【数３】

【００６８】Ｍはスペクトル包絡における周波数軸上の
解像度を表し、このＭを大きく設定するほど正確なスペ
クトル歪を求めることができる。また、式（１１）では
周波数軸上で等間隔に刻んだ場合のスペクトル歪を規定
しているが、刻み幅を非一様にすることも可能である。
例えば、低域のスペクトル変動量が重要である場合、低
域においては刻み幅を小さく設定し、高域では逆に刻み
幅を大きくすることで計算量の増加を回避し、かつ正確
なスペクトル変動量を求めることができる。

【００６９】式（１１）に従い求められたスペクトル歪
ＳＤは、スペクトル歪判定部４０６に与えられる。スペ
クトル歪判定部４０６では、スペクトル歪ＳＤと予め定
められた閾値Ｔ_sdとの比較を行い、次式が成立する場合
は背景音、成立しない場合は音声という判定結果を出力
端子４０７に出力する。ＳＤ＜Ｔ_sd （１２）（第４の実施形態）図１０を用いて、本発明の第４の実
施形態に係る背景音／音声分類装置について説明する。
本実施形態の特徴は、背景音／音声判定部１０３の他の
実現法にある。図１０において、図９と同一の構成要素
には同一の参照符号を付して、説明を省略すると、本実
施形態は推定フレームパワーｐ_eに依存して閾値Ｔ_sdの
大きさを適応的に切り替える点が第３の実施形態と異な
っている。

【００７０】すなわち、入力端子４０８から推定フレー
ムパワーｐ_sが与えられ、スペクトル歪判定部４０６に
入力される。スペクトル歪判定部４０６では、推定フレ
ームパワーｐ_eに応じて、予め用意しておいた複数個の
閾値から一つの閾値を選択して、次式に示すようにペク
トル歪ＳＤと比較を行う。ＳＤ＜Ｔ_sd(j) （ｊ＝１〜ＮＴ，ｊはｐ_eによって決定）（１３）ＮＴは予め用意しておいた閾値の数を表す。推定フレー
ムパワーｐ_eが小さいときは大きな閾値を設定し、逆に
推定フレームパワーｐ_eが大きいときは小さな閾値を設
定するようにすると効果的である。

【００７１】推定フレームパワーの大きさに関わらず常
に固定の閾値を用いる場合、次のような問題がある。推
定フレームパワーが小さいときに合わせてスペクトル歪
の閾値を設定した場合、すなわちスペクトル歪の閾値が
大きい値をとるとき、推定フレームパワーの大きな信号
が入力されると、音声区間と背景音区間のスペクトルの
変動量が小さいため、音声区間であっても背景音と判定
されてしまうという問題が生じてしまう。逆に、推定フ
レームパワーが小さいときに合わせてスペクトル歪の閾
値を設定した場合、すなわちスペクトル歪の閾値が小さ
い値をとると、推定フレームパワーの小さな信号が入力
されるたとき、音声区間と背景音区間とのスペクトル変
動量は大きいため、背景音区間であっても音声と判定さ
れてしまうという問題が生じてしまう。

【００７２】これに対し、本実施形態では先に説明した
ように、推定フレームパワーに応じて閾値を適応的に選
択することにより、このような問題を回避することがで
き、正確な背景音／音声分類を実現することができる。

【００７３】（第５の実施形態）次に、図１１を用いて
本発明の第５の実施形態に係る背景音／音声分類装置を
説明する。図１１において、図６と同一の構成要素には
同一の参照符号を付して説明を省略する。本実施形態
は、図６の構成にハングオーバ処理部１０６を追加した
点が第２の実施形態と異なる。このハングオーバ処理部
１０６は、背景音／音声判定部１０３で判定された結果
を監視し、音声区間から背景音に判定結果が変化したと
き、予め決められたフレーム数の期間（これをハングオ
ーバ期間という）だけ、強制的に背景音を音声区間とす
るように判定結果を変える機能を有する。

【００７４】一般に、背景音／音声分類に際しては、文
章の最後の部分（語尾）で音声区間を背景区間と判断し
てしまう誤判定を生じやすい。これは語尾の部分では音
声のパワーが小さくなることが多く、背景音のパワーと
の変動量が小さいことに起因する。この問題を回避する
ため、本実施形態ではハングオーバ処理部１０６を用い
て、音声から背景音に判定結果が変化したところから数
フレームを音声区間であるとみなして判定結果を出力す
る。また、本実施形態ではハングオーバ期間は推定パワ
ー情報と推定スペクトル情報に応じて適応的に変化する
という特徴を有する。

【００７５】以下、ハングオーバ処理部１０６について
図１２により詳しく説明する。図１２において、端子５
０１からは背景音／音声判定部１０３の判定結果が入力
される。この判定結果として、先に説明したように背景
音の場合は“０”、音声の場合は“１”の判定信号が入
力されるものとする。カウンタ５０７のカウンタ値が
“０”である場合、スイッチ５１０は端子５０８と接続
し、判定結果はそのまま出力端子５１１より出力され
る。通常、カウンタ５０７の値は“０”となっている。

【００７６】変化検出部５０４では、入力端子５０１か
ら入力される判定結果を監視しており、音声から背景音
（すなわち“１”→“０”）に変化したときスイッチ５
０６をオンにする。それ以外のときは、スイッチ５０６
はオフである。スイッチ５０６がオンとなると、そのと
きの推定フレームパワーｐ_eが入力端子５０２から入力
され、推定ＬＳＰ係数｛ω_e(i) ，ｉ＝１，…，ＮＰ｝
が入力端子５０３から入力される。

【００７７】ハングオーバ時間算出部５０５では、推定
フレームパワーｐ_eと推定ＬＳＰ係数｛ω_e(i) ，ｉ＝
１，…，ＮＰ｝を用いてハングオーバ時間を算出し、そ
の値をカウンタ値としてスイッチ５０６を経由してカウ
ンタ５０７に与える。カウンタ５０７は、カウンタ値が
“０”より大きいときスイッチ５１０を端子５０９と接
続させて、判定結果が音声となるように“１”を出力端
子５１１から出力させるようにする。カウンタ５０７
は、入力端子５０１から判定結果が入力される度に１つ
ずつデクリメントされる。ただし、カウンタ値は“０”
未満にならないようにカウンタ値が負の値をとったとき
“０”で置き換える。

【００７８】ハングオーバ時間算出部５０５は、ハング
オーバ時間ＨＯを次式（１４），（１５）のいずれかに
従い算出する。ＨＯ＝ＨＯ_p＋ＨＯ_LSP （１４）ＨＯ＝Ｍａｘ（ＨＯ_p，ＨＯ_LSP）（１５）ここで、ＨＯ_pは推定フレームパワーｐ_eから算出され
るハングオーバ時間、ＨＯ_LSPは推定ＬＳＰ係数から算
出されるハングオーバ時間をそれぞれ表す。また、Ｍａ
ｘ（）は最大値を返値とする関数である。

【００７９】ＨＯ_pは、推定フレームパワーｐ_eの値に
応じて予め用意されている複数個のハングオーバ時間か
ら１つを選択して決定することができる。また、ＨＯ
_LSPは推定ＬＳＰ係数｛ω_e(i) ，ｉ＝１，…，ＮＰ｝
が表すスペクトル包絡のピークの大きさに対応して、複
数個用意されているハングオーバ時間から１つを選択し
て決定される。スペクトル包絡のピークの大きさを表す
指標ｆｄは次式で定義される。

【００８０】

【数４】

【００８１】式（１６）によると、隣接する推定ＬＳＰ
係数が接近しているとき、つまりスペクトル包絡のピー
クが大きいとき、指標ｆｄは大きな値をとり、それに対
応してハングオーバ時間ＨＯ_LSPは長いものが選択され
る。逆に、指標ｆｄが小さな値をとる場合は、ハングオ
ーバ時間ＨＯ_LSPは短いものが選択される。

【００８２】本実施形態のように推定フレームパワーと
推定ＬＳＰ係数によってハングオーバ時間を適応的に伸
縮する方法では、次のような利点がある。先に説明した
ように、語尾部分ではパワーが落ちていることが多い。
そのため背景音のパワー（つまり推定フレームパワー）
が大きいと語尾切れが生じ易く、かつ長い時間に渡って
語尾切れが生じてしまう。また、背景で別の人間が話を
している状況や、例えば車や電車の通過音などが発生し
ている状況では、背景音のスペクトル包絡にピークが発
生し、これが本来の話者のスペクトル包絡に類似する
と、背景音に誤判定される場合がある。

【００８３】このような場合、つまり推定フレームパワ
ーが大きいときまたは推定ＬＳＰ係数が表すスペクトル
包絡のピークが大きいときには、ハングオーバ時間を長
く設定すると効果的である。

【００８４】本実施形態における処理の流れを図１３の
フローチャートを用いて説明する。図１３におけるステ
ップＳ３０、ステップＳ３１、ステップＳ３４、ステッ
プＳ３５、ステップＳ３６は、図７におけるステップＳ
２０、ステップＳ２１、ステップＳ２２、ステップＳ２
３、ステップＳ２４と同じなので、ここでは説明を省略
する。

【００８５】ステップＳ３１で入力信号が背景音か音声
のいずれに属するかを判定された後に、ステップＳ３２
でハングオーバ処理部を適用する条件を満足するかどう
かを判断する。ステップＳ３２での判断結果がＹｅｓの
場合、ステップＳ３３においてハングオーバ処理部を適
用してステップＳ３４に進む。ステップＳ３２での判断
結果がＮｏの場合、直接ステップＳ３４に進む。

【００８６】（第６の実施形態）次に、本発明の第６の
実施形態として有声／無声分類装置を図１４を参照して
説明する。

【００８７】入力端子６０１から信号が入力され、音響
パラメータ算出部６０２に与えられる。音響パラメータ
算出部６０２では、音声の特徴量であるＭ（Ｍ≧１）種
の音響パラメータが算出される。算出される音響パラメ
ータとしては、信号パワー、サブバンドに分割した後の
信号パワー、１次のＰＡＲＣＯＲ係数、ＬＰＣ予測ゲイ
ン、ピッチ予測ゲインなどが挙げられる。

【００８８】音響パラメータ算出部６０２で求められた
音響パラメータは、無声出現確率算出部６０３および有
声出現確率算出部６０６に与えられる。有声出現確率テ
ーブル６０４，６０５および無声出現確率テーブル６０
７，６０８は、音声の特徴量に有声出現確率および無声
出現確率を対応付けて記述したものであり、具体的には
予め実音声データをマニュアルで有声／無声判定を行
い、その判定結果を用いて作成されたものである。

【００８９】無声出現確率算出部６０３は、音響パラメ
ータの種類の数に相当するＭ個の無声出現確率テーブル
６０４，６０５を有し、与えられた音響パラメータをキ
ーとしてそれぞれに対応する無声出現確率テーブルを参
照することにより、各音響パラメータの無声確率｛φ_U
(m) ，ｍ＝１，…，Ｍ）を求める。

【００９０】同様に、有声出現確率算出部６０６も、音
響パラメータの種類数に相当するＭ個の有声出現確率テ
ーブル６０７，６０８を有し、与えられた音響パラメー
タをキーとしてそれぞれに対応する有声出現確率テーブ
ルを参照することにより、各音響パラメータの有声確率
｛φ_V(m) ，ｍ＝１，…，Ｍ｝を求める。

【００９１】有声／無声判定部６０９では、音声出現確
率算出部６０３で求められた各音響パラメータの無声確
率（φ_U(m) ，ｍ＝１，…，Ｍ｝と、有声出現確率算出
部６０６で求められた各音響パラメータの有声確率｛φ
_V(m) ，ｍ＝１，…，Ｍ｝とを用いて、入力信号が有声
に属するか無声に属するかを判定し、その判定結果を出
力端子６１０より出力する。有声／無声判定部６０９で
は、次式が成り立つ場合に無声、成り立たない場合に有
声と判定する。

【００９２】

【数５】

【００９３】また、有声、無声の判定に次の条件を用い
てもよい。 φ_U(m) ＞φ_V(m) （for all ｍ）（１８）この条件が満足されたときに無声、満足しないときは有
声と判定する。この条件を用いると、有声が判定されや
すくなる。このように、適用する分野に適した判定条件
を用いることが望ましい。

【００９４】本実施形態によると、実音声データをマニ
ュアルで有声／無声判定して作成した出現確率テーブル
を用いて、最も確からしい声質を判断するので、従来法
のように経験に基づいた重み値や閾値に分類の性能が左
右されるという問題を回避でき、安定で正確な有声／無
声判定が実現できる。

【００９５】（第７の実施形態）次に、本発明の第７の
実施形態を図１５を用いて説明する。本実施形態は、図
１１で説明した背景音／音声分類装置を音声符号化に適
用したものである。図１５において、図１１と同一部分
には同一の参照符号を付して説明を省略する。同図にお
いて、入力端子７０１には入力信号として例えばマイク
ロホンで集音され、ディジタル化された信号が複数サン
プルを１フレームとしてフレーム単位で順次入力され
る。

【００９６】本実施形態では、１フレームを２４０サン
プルとする。

【００９７】入力端子７０１からの入力信号は、図１１
に示した背景音／音声分類装置７０２に入力され、この
背景音／音声分類装置７０２内の背景音／音声判定部１
０３で判定された結果に基づいて切替器７０３が制御さ
れて、入力信号の符号化方法が切り替えられる。

【００９８】すなわち、判定結果が背景音であった場合
には、入力信号は背景音用符号化部７０４に与えられ
る。判定結果が音声であった場合には、入力信号は音声
用符号化部７０５に与えられる。背景音用符号化部７０
４は背景音に適した方法で符号化を行い、同様に音声用
符号化部７０５は音声に適した方法で符号化を行うこと
により、効率的に情報の圧縮を行うことができる。この
ようにして符号化して得られる符号化パラメータは、マ
ルチプレクサ７０７を介して出力端子７０８から出力さ
れる。

【００９９】（第８の実施形態）次に、本発明の第８の
実施形態を図１６を用いて説明する。本実施形態は、図
９で説明した背景音／音声分類装置と図１４で説明した
有声／無声分類装置を音声符号化に適用したものであ
る。図１６において、図１５と同一部分に同一の参照符
号を付して説明を省略する。

【０１００】入力端子８０１から入力される信号は、ま
ず背景音／音声分類装置８０２に与えられる。先に説明
したように、背景音／音声分類装置８０２で入力信号が
背景音か音声か判定される。その判定結果がセレクタ８
０４に送られ、背景音と判定された場合は、有声／無声
分類装置８０３の処理を実行せずに入力信号を背景音用
符号化部８０６に与えて符号化を行う。音声と判定され
た場合は、入力信号を有声／無声分類装置８０３に与
え、先に説明した手順に従い有声／無声判定を行う。

【０１０１】そして、有声／無声分類装置８０３の結果
をセレクタ８０４に与え、無声と判定されたときには入
力信号を無声音用符号化部８０８に与えて符号化を行
う。逆に、有声と判定されたときには有声音用符号化部
８０９に入力信号を与えて符号化を行う。

【０１０２】ここで、背景音用符号化部８０６、無声音
用符号化部８０８、有声音用符号化部８０９はそれぞれ
背景音、無声音、有声音に適した符号化部により構成さ
れているため、効率的な符号化が実現できる。このよう
にして得られた符号化パラメータは、マルチプレクサ８
１１を介して出力端子８１２より出力される。

【０１０３】（第９の実施形態）次に、本発明の第９の
実施形態を図１７を用いて説明する。本実施形態は、背
景音復号装置の実現に関するものである。入力端子９０
１から入力される符号化データはデマルチプレクサ９０
２で復号され、復号パラメータが求められる。本実施形
態では、復号パラメータは復号駆動信号パラメータ、復
号ゲインパラメータ、復号合成フィルタパラメータの３
種類であり、これとは別に背景音／音声判定信号がマル
チプレクサ９０２から出力される。

【０１０４】復号パラメータは、背景音／音声判定信号
により切り替えられる切替器９０３によって、背景音区
間では背景音復号部９０４に入力され、音声区間では音
声復号部９０５に入力される。音声復号部９０５は本発
明の要旨と関係がないため、ここでは背景音復号部９０
４についてのみ説明する。

【０１０５】背景音復号部９０４において、マルチプレ
クサ９０２からの復号駆動信号パラメータは駆動信号復
号部９０６に与えられ、駆動信号ｃ(n) が求められる。
同様に、ゲイン復号パラメータはゲイン復号部９０７に
与えられてゲインｇが復号される。ゲインｇはゲインス
ムージング部９０８に与えられ、滑らかに変化するよう
に修正（スムージング）されたゲインが得られる。ま
た、合成フィルタ復号パラメータは合成フィルタ復号部
９１０に与えられ、合成フィルタ９１１の特性が決定さ
れる。駆動信号ｃ(n) とスムージングされたゲインとが
乗算器８０９で乗じられ、合成フィルタ９１１に与えら
れる。合成フィルタ９１１では、フィルタリング処理に
より合成信号ｅ(n) を生成し、この合成信号ｅ(n) は背
景音／音声判定信号により切り替えられるスイッチ９１
２を介して出力端子９１３より出力される。音声区間で
は、音声復号部９０５で同様にして得られた合成信号が
スイッチ９１２を介して出力端子９１３より出力され
る。

【０１０６】次に、ゲインスムージング部９０８につい
て説明する。ゲインスムージング部９０８でのゲインの
スムージングは、次式に従い実現される。ｇｓ(n) ＝（１−ξ）・ｇ＋ξ・ｇｓ(n-1) （０≦ξ≦１）（１９）ここで、ｇは復号されたゲイン、ｇｓ(n) はスムージン
グ後のゲインをそれぞれ表し、ｎはサンプル位置を表
す。また、ξはスムージングの程度を制御する定数であ
る。

【０１０７】このようにゲインのスムージングを行う
と、ゲインの変化が滑らかになり、背景音の主観品質が
向上するという利点がある。

【０１０８】（第１０の実施形態）次に、本発明の第１
０の実施形態に係る背景音復号装置について説明する。
本実施形態は図１７の構成と同じなので、図１７を用い
て説明を行う。本実施形態は、ゲインスムージング部９
０８の処理に特徴がある。

【０１０９】第９の実施形態で説明したゲインスムージ
ングでは、常に固定の定数ξを使用してスムージングを
行っていた。図１８の破線は復号されたゲインｇの推移
を、また実線はスムージング後のゲインｇｓ(n) の推移
をそれぞれ表す。図１８から分かるように、復号ゲイン
ｇに比べてスムージング後のゲインｇｓ(n) は明らかに
滑らかに変化しているが、復号ゲインｇの値が小さくな
っても、スムージング後のゲインｇｓ(n) が小さくなる
には時間がかかってしまう。このため、不必要にゲイン
が大きくなってしまうところ（斜線部）が発生してしま
い、主観品質を損なう原因になる。

【０１１０】これに対して、本実施形態ではゲインのス
ムージングの方法を次の手続きに従い実現している。具
体的には、例えば復号ゲインｇが増大する方向に変化す
るときには、徐々に大きくなるようにゲインのスムージ
ングを行い、逆に復号ゲインｇが減少する方向に変化す
るときには、ゲインが急速に小さくなるようにゲインの
スムージングを行う。これを式で表すと、次のようにな
る。

【０１１１】ｇｓ(n) ＝（１−ξ_UP）・ｇ＋ξ_UP・ｇｓ（ｎ−１）（ｇ＞ｇｓ（ｎ−１）のとき）（２０）ｇｓ(n) ＝（１−ξ_DOWN）・ｇ＋ξ_DOWN・ｇｓ（ｎ−１）（ｇ≦ｇｓ（ｎ−１）のとき）（２１）ただし、（０≦ξ_DOWN＜ξ_UP≦１）本実施形態のスムージングによる効果を図１９を用いて
説明する。図１９から分かるように、復号ゲインｇとス
ムージング後のゲインｇｓ(n-1)を比較して、小さい方
のゲインの影響が強くなるようスムーング後のゲインｇ
ｓ(n) を決定しているため、図１８のように復号ゲイン
ｇが減少する方向に変化するときにスムージング後のゲ
インｇｓ(n) がいつまでも大きな値を引きずってしまう
という現象が解消されている（斜線部の面積が減少して
いる）。よって本実施形態を用いれば、ゲインが滑らか
に変化し、かつ不必要なゲインの増大を回避することが
でき、主観品質がさらに向上するという利点がある。

【０１１２】

【発明の効果】以上説明したように、本発明の背景音／
音声分類方法によれば、入力信号のパワーおよびスペク
トルの情報を特徴量として算出し、この算出特徴量と背
景音区間の推定パワーおよび推定スペクトルの情報から
なる推定特徴量とを比較することにより、入力信号が音
声および背景音のいずれに属するかを判定することによ
り、背景雑音のパワーが大きく相対的にパワーの小さな
音声区間であっても、背景音区間と音声区間のスペクト
ルが明らかに異なることから、音声区間を正確に判定す
ることができる。

【０１１３】この場合、推定特徴量を入力信号が背景音
に属すると判定された場合と音声に属すると判定された
場合とで異なる方法により更新し、入力信号が背景音に
属すると判定された場合の更新量を音声に属すると判定
された場合の更新量より小さくするようにすれば、入力
信号の音声区間が長時間続いても、推定特徴量が入力信
号の音声区間の特徴量の影響をほとんど受けることがな
く、音声区間が長時間続いた後に背景音に変化するよう
な入力信号が与えられた場合でも、背景音を正しく判定
することが可能となる。

【０１１４】また、スペクトルの変動量の分析を入力信
号のスペクトルの情報から求められるスペクトル包絡と
背景音区間の推定スペクトルの情報から求められるスペ
クトル包絡との間のスペクトル歪みの値と閾値との比較
により行うことにより、正確な分析が可能となり、より
正確な背景音／音声の分類ができる。そして、推定パワ
ーが小さいときは閾値を大きく設定し、推定パワーが大
きいときは閾値を小さく設定するようにすれば、推定パ
ワーの変化によるスペクトル変動量の変化によって判定
を誤ることが少なくなり、さらに正確に背景音／音声の
分類を行うことができる。

【０１１５】さらに、入力信号が音声および背景音のい
ずれに属するかの判定結果が音声から背景音へ変化した
とき、その判定結果を強制的に音声に変更させるハング
オーバ処理を行い、背景音区間の推定パワーおよび推定
スペクトルの情報を用いて、例えば推定フレームパワー
が大きいときや、推定スペクトルの情報から求められる
スペクトル包絡のホルマントのスペクトルパワーが大き
いとき、このハングオーバ時間を長く設定することによ
り、背景音のパワーが大きいときや背景音のスペクトル
が白色でない場合の起こる語尾切れを避けることができ
る。

【０１１６】本発明の有声／無声分類方法によれば、音
声の特徴量に有声出現確率および無声出現確率をそれぞ
れ対応付けて記述した有声出現確率テーブルおよび無声
出現確率テーブルを用意し、入力音声について算出され
た特徴量をキーとして、これらのテーブルを参照するこ
とで有声確率および無声確率を求め、これらの有声確率
および無声確率から入力音声が有声および無声のいずれ
に属するかを判定するため、実音声データをマニュアル
で有声／無声判定し、それに基づいて有声出現確率テー
ブルおよび無声出現確率テーブルを作成しておくことに
より、これらのテーブルを用いて最も確からしい声質を
判断することができるので、従来法のように経験に基づ
いた重み値や閾値に分類の性能が左右されるという問題
を解決して、安定で正確な有声／無声分類を行うことが
可能となる。

【０１１７】また、本発明の背景音復号方法によれば、
背景音の合成のための合成フィルタを駆動する駆動信号
とゲインおよび合成フィルタの情報を復号して背景音の
復号を行う際のゲインをスムージングすることによっ
て、復号される背景音の主観品質を向上させることがで
きる。さらに、このゲインのスムージングに際してゲイ
ンの増大時は徐々にゲインを大きくさせ、ゲインが減少
するときは急速にゲインを小さくさせるようにすること
で、ゲインのスムージングで生じる不必要なゲインの増
大を回避して、より一層効果的に主観品質の向上を図る
ことができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る背景音／音声分類方
法を適用した装置の構成を示すブロック図

【図２】同実施形態における特徴量算出部の構成を示す
ブロック図

【図３】同実施形態における背景音／音声判定部の構成
を示すブロック図

【図４】同実施形態の概略的な処理手順を示すフローチ
ャート

【図５】同実施形態の効果を説明するための図

【図６】本発明の他の実施形態に係る背景音／音声分類
方法を適用した装置の構成を示すブロック図

【図７】同実施形態の処理手順を示すフローチャート

【図８】同実施形態の効果を説明するための図

【図９】同実施形態におけるスペクトル変動量算出部の
構成を示すブロック図

【図１０】同実施形態におけるスペクトル変動量算出部
の別の構成を示すブロック図

【図１１】本発明の別の実施形態に係る背景音／音声分
類方法を適用した装置の構成を示すブロック図

【図１２】同実施形態におけるハングオーバ処理部の構
成を示すブロック図

【図１３】同実施形態の処理手順を示すフローチャート

【図１４】本発明の一実施形態に係る有声／無声分類方
法を適用した装置の構成を示すブロック図

【図１５】本発明の一実施形態に係る背景音／音声分類
方法を適用した音声符号化装置の構成を示すブロック図

【図１６】本発明の一実施形態に係る背景音／音声分類
方法および有声／無声分類方法を適用した音声符号化装
置の構成を示すブロック図

【図１７】本発明の一実施形態に係る背景音復号方法を
説明するための音声復号装置の構成を示すブロック図

【図１８】同実施形態の効果を説明するための図

【図１９】同実施形態の別の効果を説明するための図

【符号の説明】

１０２…特徴量算出部１０３…背景音／有声判定部１０４…推定特徴量更新部１０６…ハングオーバ処理部６０２…音響パラメータ産出部６０３…無声出現確率算出部６０４，６０５…無声出現確率テーブル６０６…有声出現確率算出部６０７，６０８…有声出現確率テーブル６０９…有声／無声判定部７０２…背景音／有声分類装置８０２…背景音／有声分類装置８０３…有声／無声分類装置９０４…背景音復号部９０５…音声復号部９０６…駆動信号復号部９０７…ゲイン復号部９０８…ゲインスムージング部９０９…乗算器９１０…合成フィル復号部９１１…合成フィルタ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＨ０３Ｍ 7/30 Ｈ０３Ｍ 7/30 Ｚ

Claims

【特許請求の範囲】

【請求項１】入力信号のパワーおよびスペクトルの情報
を特徴量として算出し、この算出特徴量と背景音区間の
推定パワーおよび推定スペクトルの情報からなる推定特
徴量とを比較することにより、前記入力信号が音声およ
び背景音のいずれに属するかを判定することを特徴とす
る背景音／音声分類方法。
【請求項２】入力信号のパワーおよびスペクトルの情報
を特徴量として算出し、この算出特徴量と背景音区間の
推定パワーおよび推定スペクトルの情報からなる推定特
徴量とを比較することによりパワーおよびスペクトルの
変動量を分析し、これらパワーおよびスペクトルの変動
量の分析結果が共に背景音であることを示したときは前
記入力信号が背景音に属すると判定し、それ以外のとき
は音声に属すると判定することを特徴とする背景音／音
声分類方法。
【請求項３】前記推定特徴量を前記入力信号が背景音に
属すると判定された場合と音声に属すると判定された場
合とで異なる方法により更新すると共に、前記入力信号
が背景音に属すると判定された場合の更新量を音声に属
すると判定された場合の更新量より小さくすることを特
徴とする請求項１または２に記載の背景音／音声分類方
法。
【請求項４】前記入力信号のスペクトルの情報から求め
られるスペクトル包絡と前記背景音区間の推定スペクト
ルの情報から求められるスペクトル包絡との間の歪の値
と、予め設定された閾値とを比較することにより、前記
スペクトルの変動量を分析することを特徴とする請求項
２に記載の背景音／音声分類方法。
【請求項５】前記入力信号のスペクトルの情報から求め
られるスペクトル包絡と前記背景音区間の推定スペクト
ルの情報から求められるスペクトル包絡との間の歪の値
と、予め設定された閾値とを比較することにより、前記
スペクトルの変動量を分析するとともに、前記推定パワ
ーの情報に応じて前記閾値を変化させることを特徴とす
る請求項２に記載の背景音／音声分類方法。
【請求項６】前記入力信号が音声および背景音のいずれ
に属するかの判定結果が音声から背景音へ変化したとき
特定期間だけ該判定結果を強制的に音声に変更させると
ともに、前記背景音区間の推定パワーおよび推定スペク
トルの情報を用いて前記特定期間を変化させることを特
徴とする請求項１または２に記載の背景音／音声分類方
法。
【請求項７】音声の特徴量に有声出現確率および無声出
現確率をそれぞれ対応付けて記述した有声出現確率テー
ブルおよび無声出現確率テーブルを用意しておき、入力音声について算出された特徴量をキーとして前記有
声出現確率テーブルおよび前記無声出現確率テーブルを
参照することにより有声確率および無声確率を求め、これら有声確率および無声確率から前記入力音声が有声
および無声のいずれに属するかを判定することを特徴と
する有声／無声分類方法。
【請求項８】背景音の合成のための合成フィルタを駆動
する駆動信号と該駆動信号に乗じるゲインおよび前記合
成フィルタの情報を復号して前記背景音の復号を行う背
景音復号方法において、前記ゲインをスムージングすることを特徴とする背景音
復号方法。
【請求項９】前記ゲインをスムージングする際、ゲイン
が増大するときは徐々にゲインを大きくさせ、ゲインが
減少するときは急速にゲインを小さくさせることを特徴
とする請求項８に記載の背景音復号方法。