JPH10207491A - 背景音/音声分類方法、有声/無声分類方法および背景音復号方法 - Google Patents

背景音/音声分類方法、有声/無声分類方法および背景音復号方法

Info

Publication number
JPH10207491A
JPH10207491A JP9010326A JP1032697A JPH10207491A JP H10207491 A JPH10207491 A JP H10207491A JP 9010326 A JP9010326 A JP 9010326A JP 1032697 A JP1032697 A JP 1032697A JP H10207491 A JPH10207491 A JP H10207491A
Authority
JP
Japan
Prior art keywords
background sound
estimated
spectrum
sound
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9010326A
Other languages
English (en)
Other versions
JP3331297B2 (ja
Inventor
Masahiro Oshikiri
正浩 押切
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP01032697A priority Critical patent/JP3331297B2/ja
Priority to US09/012,792 priority patent/US6202046B1/en
Priority to JP10114050A priority patent/JPH11117213A/ja
Publication of JPH10207491A publication Critical patent/JPH10207491A/ja
Priority to US09/726,562 priority patent/US6704702B2/en
Application granted granted Critical
Publication of JP3331297B2 publication Critical patent/JP3331297B2/ja
Priority to US10/675,947 priority patent/US7191120B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Road Paving Structures (AREA)

Abstract

(57)【要約】 【課題】背景雑音のパワーが大きい状況下や、車や電車
の走行音、他人の話し声などのスペクルがフラットでな
い背景雑音下でも正確な分類が可能な背景音/音声分類
方法を提供する。 【解決手段】入力端子101から入力されるディジタル
信号の入力信号を特徴量算出部102に与えて得られた
算出フレームパワーおよび算出LSP係数と推定特徴量
更新部104で求められた推定フレームパワーおよび推
定LSP係数の情報から、背景音/音声判定部103に
より入力信号が背景音か音声かを判定し、その後に推定
特徴量更新部104で次のフレームに備えて、特徴量算
出部102で求められたフレームパワーとLSP係数を
用いて推定フレームパワーおよび推定LSP係数の更新
を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号の符号化
/復号化に際して、入力信号が背景音区間と音声区間の
いずれに属するかを判定する背景音/音声分類方法と、
入力信号が有声区間と無声区間のいずれに属するかを判
定する有声/無声分類方法および違和感のない背景音を
復号する背景音復号方法に関する。
【0002】
【従来の技術】音声信号の高能率・低ビットレート符号
化は、移動体通信や企業内通信においてチャネル容量の
増加や通信コストの削減のための重要な技術である。音
声信号は、音声が存在しない背景音区間と、音声が存在
する音声区間とに分類することができる。音声通信を行
う上で意味のあるものは音声区間であり、背景音区間は
違和感の生じない限りビットレートを下げても構わな
い。背景音区間のビットレートを下げることにより、全
体的なビットレートを下げることができ、さらなるチャ
ネル容量の増加、通信コストの削減が図られる。
【0003】この場合、背景音/音声分類に失敗し、例
えば音声区間が背景音区間と分類されてしまうと、音声
区間は低いビットレートで符号化されることになり、深
刻な音声劣化が生じてしまう。逆に、背景音区間が音声
区間と分類されると、全体的なビットレートが増加して
しまい、符号化効率が低減してしまう。このため、正確
な背景音/音声分類技術の確立が重要になる。
【0004】従来の背景音/音声分類方法では、信号の
パワー情報の変化を監視して背景音区間と音声区間とを
分類している。例えば、J.F.Lynch Jr.氏らによる“Sp
eech/Silence Segmentation for Real-time Coding via
Rule Based Adaptive Endpoint Detection ”:Proc.IC
ASSP '87,pp.31.7.1-31.7.4 (文献1)によれば、入力
信号のフレームパワーで算出される音声メトリックと背
景音メトリックを用いて背景音/音声分類を行ってい
る。
【0005】このように信号のパワー情報のみを使用し
て背景音区間と音声区間の分類を行う方法は、背景音が
ほとんど聞こえない静かな状況では特に問題は生じな
い。このような場合は、背景音区間の信号パワーに対し
て音声区間の信号パワーが十分に大きいため、音声区間
を容易に識別できるからである。しかし、実際には背景
音として大きな背景雑音が存在する状況もあり、このよ
うな状況では正確な背景音/音声分類を実現することは
できない。また、背景雑音は必ずしも白色雑音であると
は限らず、例えば車や電車の走行音、他人の話し声など
のスペクトルがフラットでない背景雑音も存在するが、
従来の背景音/音声分類方法ではこのような背景雑音の
下では適切な分類が非常に困難である。
【0006】一方、音声信号の音声区間は母音に相当す
る周期性の強い有声区間と、子音に相当する周期性が低
く雑音的な無声区間に分類することができる。有声区間
と無声区間は信号の特質が明らかに異なるため、それぞ
れに適した符号化法とビットレートの設定を行うこと
で、さらなる高品質化、低レート化が可能になる。
【0007】この場合、有声/無声分類に失敗し、有声
区間が無声区間に分類されたり、逆に無声区間が有声区
間に分類されてしまうと、深刻な音質劣化が生じたり、
不必要にビットレートが増加してしまうという問題が生
じる。このため、正確な音声/無声分類方法の確立が重
要になる。
【0008】従来の有声/無声分類方法として、例えば
J.P.Campbell氏らによる“Voiced/Unvoiced Classifica
tion of Speech with Applications to the U.S. Gover
nment LPC-10E Algorithm ”;Proc.ICASSP '86, vol.1
pp.473-476(文献2)がある。この文献2では、音声の
音響パラメータを複数種類算出し、この音響パラメータ
の加重平均値を求め、この値を予め設定してある閾値と
比較して有声/無声分類を行っている。
【0009】しかし、加重平均のために各音響パラメー
タに用いる重み値と閾値とのバランスが有声/無声分類
性能に大きく作用するのは明らかであり、最適な重み値
と閾値を決定するのは困難である。
【0010】次に、従来の背景音復号法について説明す
る。背景音区間では前述のように全体的なビットレート
を低減するため、超低ビットレートで符号化を行ってい
る。例えば、E.Paksoy氏らによる“Variable Rate Spee
ch Coding with Phonetic Segmentation;Proc.ICASSP '
93,pp.II-155-158(文献3)では、背景音の符号化を僅
か1.0kbpsというレートで行っている。復号側で
は、このように低いビットレートで表された復号パラメ
ータを用いて背景音を復号する。
【0011】このような背景音区間の音声復号法では、
復号パラメータが超低ビットレートで表現されているた
め、各パラメータの更新周期が長くなってしまう。仮に
ゲインの復号パラメータの更新周期が長くなってしまう
と、背景音区間のゲインの変化が正しく追従できなくな
り、ゲインの大きさが不連続になってしまう。このよう
なゲインを用いて背景音を復号すると、ゲインの不連続
性が耳障りになり、主観品質が大きく低下してしまう結
果となる。
【0012】
【発明が解決しようとする課題】上述したように、信号
のパワー情報のみを利用する従来の背景音/音声分類方
法では、大きな背景雑音が存在する状況では正確な背景
音/音声分類を実現することができず、また車や電車の
走行音、他人の話し声などスペクトルが白色でない背景
雑音が存在する状況下では、適切な分類が極めて難しい
という問題があった。
【0013】また、音響パラメータの加重平均値と閾値
との比較を用いた従来の有声/無声分類方法では、各音
響パラメータに用いる重み値と閾値とのバランスにより
分類が不安定かつ不正確になるという問題があった。
【0014】さらに、従来の背景音区間の音声復号法で
は、背景音の復号パラメータが超低ビットレートで表現
されているため、各パラメータの更新周期が長くなり、
特にゲインの復号パラメータの更新周期が長くない場合
には背景音区間のゲインの変化が正しく追従できなくな
ってゲインの大きさが不連続になると、主観品質が大き
く低下するという問題があった。
【0015】本発明の主な目的は、背景雑音の大きさや
性質にかかわらず適切に背景音区間と音声区間の分類を
行うことを可能とした背景音/音声分類方法を提供する
ことにある。
【0016】本発明の他の目的は、安定かつ正確に有声
区間と無声区間の分類ができる有声/無声分類方法を提
供することにある。
【0017】本発明のもう一つの目的は、背景音の復号
パラメータが超低ビットレートで表現されている場合に
も主観品質に優れた背景音を復号することが可能な背景
音復号方法を提供することにある。
【0018】
【課題を解決するための手段】上記の課題を解決するた
め、本発明に係る背景音/音声分類方法は、入力信号の
パワーおよびスペクトルの情報を特徴量として算出し、
この算出特徴量と背景音区間の推定パワーおよび推定ス
ペクトルの情報からなる推定特徴量とを比較することに
より、入力信号が音声および背景音のいずれに属するか
を判定することを基本的な特徴とする。
【0019】より具体的には、算出特徴量と推定特徴量
との比較によりパワーおよびスペクトルの変動量を分析
し、これらパワーおよびスペクトルの変動量の分析結果
が共に背景音であることを示したときは入力信号が背景
音に属すると判定し、それ以外のときは音声に属すると
判定する。スペクトル情報は、例えばLSP係数により
更新される。
【0020】パワー情報だけを用いて背景音/音声分類
を行う従来の方法では、背景雑音のパワーが大きいとき
に音声区間でパワーの小さな部分が背景音と判定されて
しまうという問題があったが、本発明のようにパワー情
報に加えてスペクトル情報を用いて背景音/音声分類を
行うと、パワーの小さな音声区間であっても背景音区間
のスペクトルと音声区間のスペクトルとでは明らかに異
なるため、音声区間を正確に判定することが可能にな
る。
【0021】また、この背景音/音声分類方法において
は、推定特徴量を入力信号が背景音に属すると判定され
た場合と音声に属すると判定された場合とで異なる方法
により更新すると共に、入力信号が背景音に属すると判
定された場合の更新量を音声に属すると判定された場合
の更新量より小さくすることが好ましい。このようにす
ると、入力信号の音声区間が長時間続いても、推定特徴
量が入力信号の音声区間の特徴量の影響をほとんど受け
ることがないため、音声区間が長時間続いた後に背景音
に変化するような入力信号が与えられた場合でも、背景
音の識別が容易に可能となる。
【0022】スペクトルの変動量の分析は、入力信号の
スペクトルの情報から求められるスペクトル包絡と背景
音区間の推定スペクトルの情報から求められるスペクト
ル包絡との間の歪(スペクトル歪み)の値と、予め設定
された閾値とを比較することにより、正確に行うことが
できる。これによって、より正確な背景音/音声の分類
が可能となる。
【0023】また、この場合に推定パワーの情報に応じ
て閾値を変化させ、例えば推定パワーが小さいときは閾
値を大きく設定し、推定パワーが大きいときは閾値を小
さく設定するようにすれば、推定パワーの変化によるス
ペクトル変動量の変化によって判定を誤ることが少なく
なり、より一層正確に背景音/音声の分類を行うことが
できる。
【0024】さらに、本発明においては入力信号が音声
および背景音のいずれに属するかの判定結果が音声から
背景音へ変化したとき、特定期間(これをハングオーバ
期間という)だけその判定結果を強制的に音声に変更さ
せるようにしてもよい。この場合、背景音区間の推定パ
ワーおよび推定スペクトルの情報を用いてハングオーバ
期間を変化させ、例えば推定フレームパワーが大きいと
きまたは推定スペクトルの情報から求められるスペクト
ル包絡のホルマントのスペクトルパワーが大きいときに
ハングオーバ時間を長く設定することにより、背景音の
パワーが大きいときや背景音のスペクトルが白色でない
場合の語尾切れが回避される。
【0025】本発明に係る有声/無声分類方法は、音声
の特徴量に有声出現確率および無声出現確率をそれぞれ
対応付けて記述した有声出現確率テーブルおよび無声出
現確率テーブルを用意しておき、入力音声について算出
された特徴量をキーとして、これらの有声出現確率テー
ブルおよび無声出現確率テーブルを参照することにより
有声確率および無声確率を求め、これらの有声確率およ
び無声確率から入力音声が有声および無声のいずれに属
するかを判定することを特徴とする。
【0026】このようにすると、例えば実音声データを
マニュアルで有声/無声判定し、それに基づいて有声出
現確率テーブルおよび無声出現確率テーブルを作成して
おくことにより、これらのテーブルを用いて最も確から
しい声質を判断することができるので、従来法のように
経験に基づいた重み値や閾値に分類の性能が左右される
という問題が回避され、安定で正確な有声/無声分類が
可能となる。
【0027】さらに、本発明に係る背景音復号方法は、
背景音の合成のための合成フィルタを駆動する駆動信号
と該駆動信号に乗じるゲインおよび合成フィルタの情報
を復号して背景音の復号を行う際のゲインをスムージン
グすることを特徴とする。このようにして背景音の復号
を行うと、ゲインの変化が滑らかになることで、復号さ
れる背景音の主観品質が向上する。
【0028】また、このようにゲインをスムージングす
る際、ゲインが増大するときは徐々にゲインを大きくさ
せ、ゲインが減少するときは急速にゲインを小さくさせ
るようにすれば、ゲインのスムージングで生じる不必要
なゲインの増大が回避され、さらに効果的に主観品質が
向上する。
【0029】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。 (第1の実施形態)図1に、本発明の第1の実施形態に
係る背景音/音声分類装置の構成を示す。同図におい
て、入力端子101には入力信号として例えばマイクロ
ホンで集音され、ディジタル化された音声信号が複数サ
ンプルを1フレームとしてフレーム単位で順次入力され
る。本実施形態では、1フレームを240サンプルとす
る。
【0030】この入力信号は特徴量算出部102に与え
られ、入力信号を特徴付ける種々の特徴量が算出され
る。本実施形態では、算出特徴量としてパワー情報であ
るフレームパワーps と、スペクトル情報であるLSP
係数{ωs (i) ,i=1,…,NP}を用いる場合につ
いて説明する。
【0031】図2に、特徴量算出部102の構成を示
す。入力端子201からの入力信号s(n) についてフレ
ームパワー算出部202でフレームパワーps が算出さ
れ、出力端子205から出力される。この算出フレーム
パワーps は、次式で定義される。
【0032】
【数1】
【0033】ここで、Nはフレーム長を表す。
【0034】入力信号s(n) は、LPC係数分析部20
3にも与えられる。LPC係数分析部203は、例えば
自己相関法などの既存の技術を用いてLPC係数を求め
る。こうして求められたLPC係数はLPC係数変換部
204に渡され、LSP係数{ωs (i) ,i=1,…,
NP}に変換された後、出力端子206から出力され
る。
【0035】特徴量算出部102で求められた算出フレ
ームパワーps および算出LSP係数{ωs (i) ,i=
1,…,NP}は背景音/音声判定部203に与えら
れ、それと同時に推定特徴量更新部104で求められた
推定フレームパワーpe および推定LSP係数{ω
e (i) ,i=1,…,NP}も背景音/音声判定部20
3に与えられる。背景音/音声判定部203では、これ
らの情報を基にして入力信号s(n) が背景音か音声かが
判定され、その判定結果が出力端子105に出力され
る。
【0036】このようにして背景音/音声判定部203
であるフレームについての背景音/音声の判定が行われ
た後、推定特徴量更新部104で次のフレームに備え
て、特徴量算出部102で求められた算出フレームパワ
ーps および算出LSP係数{ωs (i) ,i=1…N
P}を用いて推定フレームパワーpe および推定LSP
係数{ωe (i) ,i=1…NP}の更新が行われる。
【0037】以下、背景音/音声判定部103と推定特
徴量更新部104の詳細をさらに詳しく説明する。背景
音/音声判定部103の機能は、算出フレームパワーp
s と算出LSP係数{ωs (i) ,i=1…NP}および
推定フレームパワーpe と推定LSP係数{ωe (i) ,
i=1…NP}を入力として、判定結果として背景音判
定信号“0”および音声判定信号“1”のいずれかを出
力する関数として表現される。
【0038】 c=F(ps ,ωs (i) ,pe ,ωe (i) ) (2) ここで、Fは背景音と判定したときに“0”を音声と判
定したときに“1”を返す関数とする。
【0039】この関数Fについて、具体例を用いて説明
する。関数Fは次のような手続きに従い実現される。ま
ず、最初にフレームパワーの変動量を分析し、次にLS
P係数の変動量を分析する。そして、最後にフレームパ
ワーの変動量およびLSP係数の変動量の分析結果が共
に背景音と判断された場合にのみ背景音と判断して
“0”を返し、そうでない場合には音声と判断して
“1”を返す。
【0040】図3に、背景音/音声判定部の構成を示
す。入力端子301から算出フレームパワーps 、入力
端子302からは算出LSP係数{ωs (i) ,i=1,
…,NP}、入力端子303からは推定フレームパワー
e 、入力端子304からは推定LSP係数{ωe (i)
,i=1,…,NP}の情報がそれぞれ入力される。
フレームパワー変動量算出部305では、算出フレーム
パワーps と算出推定フレームパワーpe を用いてフレ
ームパワー変動量に着目した背景音/音声判定を行う。
【0041】次に、スペクトル変動量算出部306で
は、入力された算出LSP係数{ωs(i) ,i=1,
…,NP}と推定LSP係数{ωe (i) ,i=1,…,
NP}を用いてスペクトル変動量に着目した背景音/音
声判定を行う。一方、判定部307では、フレームパワ
ー変動量算出部305で判定された結果とスペクトル変
動量算出部306で判定された結果を総合的に判断し
て、両者とも背景音と判定されているなら背景音を、そ
うでなければ音声を最終的な判定結果として出力端子3
08から出力する。
【0042】次に、フレームパワー変動量の分析につい
て説明する。フレームパワー変動量の分析は次式に従い
行われ、次式が成り立つときパワー情報においてはその
フレームは背景音と判断される。逆に、次式が成り立た
ないときはそのフレームは音声と判断される。 ps −x・pe <0 (3) ここで、xは予め定められた正の定数を表し、推定フレ
ームパワーpe をx倍した値と現フレームの算出フレー
ムパワーps とを比較することで、推定フレームパワー
より少なくともx倍以上のパワーを有するフレームを音
声と判定することができる。これにより、本来背景音で
あるフレームを音声と誤判定してしまうことを回避し、
安定した判定を行うことができる。
【0043】また、xを算出フレームパワーps の大き
さに依存して適応的に変化させると、背景音のパワーが
大きく本来正しい判定が困難な場合でも十分に判定を行
うことができる。すなわち、算出フレームパワーps
大きいときxを小さくし、逆にフレームパワーps が小
さいときxを大きく設定すると、誤判定が少なくなるの
で、そのようにxを適応化させればよい。
【0044】LSP係数の変動量は、LSP係数間のユ
ークリッド距離として定義され、次式に従って求められ
る。次式が成り立つとき、スペクトル情報においては、
そのフレームは背景音と判断される。逆に、次式が成り
立たない場合は音声と判断される。
【0045】
【数2】
【0046】Tf は、予め設定しておいた閾値である。
【0047】このようにして、フレームパワーの変動量
およびLSP係数の変動量を評価して、両変動量が背景
音と判断されたとき、背景音/音声判定部103は背景
音/音声判定結果として背景音を表す判定信号である
“0”を出力する。これ以外のとき、すなわちフレーム
パワーの変動量とLSP係数の変動量のいずれか一方が
音声を表す場合、背景音/音声判定部103は背景音/
音声判定結果として音声を表す判定信号である“1”を
出力する。
【0048】推定特徴量更新部104では、次フレーム
の入力に備えて推定特徴量の更新を行う。推定特徴量の
うち、推定フレームパワーpe は次式に従い更新され
る。
【0049】 pe new =(1−β)・ps +β・pe (0≦β≦1) (5) ここで、pe new は次フレームに用いられる推定フレー
ムパワーを表す。またβは予め定められた定数である。
【0050】推定LSP係数{ωe (i) ,i=1,…,
NP}の更新も同様に、次式に従い実現される。
【0051】 ωe new (i) =(1−γ)・ωs (i) +γ・ωe (i) (0≦γ≦1) (6) ここで、ωe new (i) は次フレームに用いられる推定L
SP係数を表す。またγは予め定められた定数である。
【0052】次に、本実施形態における処理の流れを図
4に示すフローチャート用いて説明する。最初に、フレ
ーム単位で入力される信号を分析して特徴量を算出する
(ステップS10)。次に、現フレームの算出特徴量と
前フレームの処理の段階で求めておいた推定特徴量との
比較を行い、入力信号が背景音か音声のいずれに属する
かを判定する(ステップS11)。最後に、現フレーム
で求められた算出特徴量を用いて推定特徴量を更新し、
次フレームの入力に備える(ステップS12)。ここ
で、算出特徴量および推定特徴量としては、前述したよ
うにフレームパワーなどのパワー情報と、LSP係数な
どのスペクトル情報と併用される点が従来と異なってい
る。
【0053】本実施形態の効果を図5を用いて説明す
る。図5(a)に示すような入力信号に対して、パワー
情報だけを用いて背景音/音声判定を行うと、図5
(b)に示すように背景雑音パワーの大きいときに音声
区間でパワーの小さな部分が背景音と判定されてしまう
という問題がある。
【0054】これに対し、本実施形態のようにパワー情
報に加えてスペクトル情報を用いると、パワーの小さな
音声区間であっても背景音区間のスペクトルと音声区間
のスペクトルとでは明らかに異なるため、図5(c)に
示すように音声区間を正確に判定することが可能とな
る。
【0055】(第2の実施形態)図6に、本発明の第2
の実施形態に係る背景音/音声分類装置の構成を示す。
図6において、図1と同一の構成要素に同一の参照符号
を付して詳細な説明は省略する。本実施形態と第1の実
施形態の違いは、推定特徴量更新部104の実現法にあ
る。
【0056】すなわち、本実施形態では背景音/音声判
定部103の判定結果に応じて、推定特徴量更新部10
4での更新方法を切り替える。この場合、推定フレーム
パワーpe の更新は次式に従う。 pe new =(1−β0 )・ps +β0 ・pe (7) pe new =(1−β1 )・ps +β1 ・pe (8) 式(7)は背景音/音声判定部103で背景音と判定さ
れたときの更新を表しており、式(8)は背景音/音声
判定部103で音声と判定されたときの更新を表してい
る。ただし、β0 とβ1 の間には、0≦β0 <β1 ≦1
の関係が成り立つものとする。
【0057】同様に、推定LSP係数{ωe (i) ,i=
1,…,NP}の更新は、次の2式に従う。
【0058】 ωe new (i) =(1−γ0 )・ωs (i) +γ0 ・ωe (i) (9) ωe new (i) =(1−γ1 )・ωs (i) +γ1 ・ωe (i) (10) 式(9)は背景音/音声判定部103で背景音と判定さ
れたときの更新を表しており、式(10)は背景音/音
声判定部103で音声と判定されたときの更新を表して
いる。ただし、γ0 とγ1 の間には0≦γ0 <γ1 ≦1
の関係が成り立つものとする。
【0059】以上の処理をまとめると、図7に示される
フローチャートのようになる。図7のステップS20,
S21は図4のステップS10,S11と同一なので、
ここでは説明を省略する。ステップS22ではステップ
S21の判定結果を受けて、ステップS21で背景音と
判定された場合はステップS23に進み、音声と判定さ
れた場合はステップS24に進む。ステップS23で
は、背景音と判定されたときの更新法を用いて推定特徴
量を更新し、次の入力フレームに備える。ステップS2
4では、音声と判定されたときの更新法を用いて推定特
徴量を更新し、次の入力フレームに備える。
【0060】本実施形態の利点は、図8を用いて次のよ
うに説明できる。背景音/音声判定部103の結果に関
係なく常に同一の更新法を用いる場合、図8(a)に示
すように音声区間が長期にわたる入力信号が与えられる
と、推定特徴量が音声区間の特徴量に大きく影響を受け
てしまう。このため、図8(b)に示すように、図8
(a)の入力信号が音声区間から背景音に変わっても、
推定特徴量は既に音声区間の特徴量に類似してしまって
いる、つまり背景音と異なるスペクトル情報を有してし
まうため、背景音を識別することが非常に困難になって
しまう。
【0061】これに対して、本実施形態では図8(c)
に示すように、背景音区間と音声区間とで推定特徴量の
更新法が異なり、かつ音声区間での更新量は小さく設定
してあるので、音声区間の特徴量に影響をほとんど受け
ない。そのため、音声区間が長時間続いた後に背景音に
変化する入力信号が与えられて背景音の識別は可能とな
り、より正確な背景音/音声判定が実現できる。
【0062】(第3の実施形態)図9を用いて、本発明
の第3の実施形態に係る背景音/音声分類装置について
説明する。本実施形態の特徴は背景音/音声判定部10
3の実現法にあり、先に説明した図1または図6で表さ
れる構成のどちらにも適用可能である。
【0063】図9は、図3に示した背景音/音声判定部
103におけるスペクトル変動量算出部306において
算出LSP係数{ωs (i) ,i=1,…,NP}と推定
LSP係数{ωe (i) ,i=1,…,NP}との変動量
を求めるための構成を示すブロック図である。先の実施
形態では、LSP係数の変動量は式(4)で定義される
ようにLSP係数間のユークリッド距離によって求めら
れている。これに対し、本実施形態では、LSP係数を
スペクトル包絡に変換して、スペクトル包絡間のスペク
トル歪を求め、このスペクトル歪と予め定めてある閾値
と比較を行い背景音/音声判定を行う。
【0064】式(4)に定義されるようなLSP係数間
のユークリッド距離は、本来の算出LSP係数{ω
s (i) ,i=1,…,NP}と推定LSP係数{ω
e (i) ,i=1,…,NP}間のスペクトルの変動量と
対応しないことがある。これはLSP係数の性質から、
LSP係数はスペクトル包絡の山部の周波数に対応する
ものの、LSP係数間のユークリッド距離という定義が
スペクトルの変動量とは一意に対応しないことに起因す
るものであり、正確な背景音/音声判定の妨げとなる。
【0065】この点を改善するため、本実施形態では算
出LSP係数{ωs (i) ,i=1,…,NP}と推定L
SP係数{ωe (i) ,i=1,…,NP}のスペクトル
包絡をそれぞれ求め、そのスペクトル歪を基に背景音/
音声判定を行うことにより、正確なスペクトル変動量を
求めることができ、より正確な背景音/音声判定が可能
になる。
【0066】図9を用いて詳しく説明すると、入力端子
401から算出LSP係数{ωs (i) ,i=1,…,N
P}が入力され、LSP変換部402に与えられる。L
SP変換部402では、既存の技術を使って算出LSP
係数をLPC係数{αs (i),i=1,…,NP}へ変
換して求める。同様に、入力端子403から推定LSP
係数{ωe (i) ,i=1,…,NP}が入力されてLS
P変換部404に与えられ、LSP係数変換部404で
推定LPC係数{αe (i) ,i=1,…,NP}を変換
される。スペクトル歪算出部405では、算出LPC係
数から構成される合成フィルタのスペクトル包絡と、推
定LPC係数から構成される合成フィルタのスペクトル
包絡との対数領域での2乗誤差として定義されるスペク
トル歪SDを次式により算出する。
【0067】
【数3】
【0068】Mはスペクトル包絡における周波数軸上の
解像度を表し、このMを大きく設定するほど正確なスペ
クトル歪を求めることができる。また、式(11)では
周波数軸上で等間隔に刻んだ場合のスペクトル歪を規定
しているが、刻み幅を非一様にすることも可能である。
例えば、低域のスペクトル変動量が重要である場合、低
域においては刻み幅を小さく設定し、高域では逆に刻み
幅を大きくすることで計算量の増加を回避し、かつ正確
なスペクトル変動量を求めることができる。
【0069】式(11)に従い求められたスペクトル歪
SDは、スペクトル歪判定部406に与えられる。スペ
クトル歪判定部406では、スペクトル歪SDと予め定
められた閾値Tsdとの比較を行い、次式が成立する場合
は背景音、成立しない場合は音声という判定結果を出力
端子407に出力する。 SD<Tsd (12) (第4の実施形態)図10を用いて、本発明の第4の実
施形態に係る背景音/音声分類装置について説明する。
本実施形態の特徴は、背景音/音声判定部103の他の
実現法にある。図10において、図9と同一の構成要素
には同一の参照符号を付して、説明を省略すると、本実
施形態は推定フレームパワーpe に依存して閾値Tsd
大きさを適応的に切り替える点が第3の実施形態と異な
っている。
【0070】すなわち、入力端子408から推定フレー
ムパワーps が与えられ、スペクトル歪判定部406に
入力される。スペクトル歪判定部406では、推定フレ
ームパワーpe に応じて、予め用意しておいた複数個の
閾値から一つの閾値を選択して、次式に示すようにペク
トル歪SDと比較を行う。 SD<Tsd(j) (j=1〜NT,jはpe によって決定) (13) NTは予め用意しておいた閾値の数を表す。推定フレー
ムパワーpe が小さいときは大きな閾値を設定し、逆に
推定フレームパワーpe が大きいときは小さな閾値を設
定するようにすると効果的である。
【0071】推定フレームパワーの大きさに関わらず常
に固定の閾値を用いる場合、次のような問題がある。推
定フレームパワーが小さいときに合わせてスペクトル歪
の閾値を設定した場合、すなわちスペクトル歪の閾値が
大きい値をとるとき、推定フレームパワーの大きな信号
が入力されると、音声区間と背景音区間のスペクトルの
変動量が小さいため、音声区間であっても背景音と判定
されてしまうという問題が生じてしまう。逆に、推定フ
レームパワーが小さいときに合わせてスペクトル歪の閾
値を設定した場合、すなわちスペクトル歪の閾値が小さ
い値をとると、推定フレームパワーの小さな信号が入力
されるたとき、音声区間と背景音区間とのスペクトル変
動量は大きいため、背景音区間であっても音声と判定さ
れてしまうという問題が生じてしまう。
【0072】これに対し、本実施形態では先に説明した
ように、推定フレームパワーに応じて閾値を適応的に選
択することにより、このような問題を回避することがで
き、正確な背景音/音声分類を実現することができる。
【0073】(第5の実施形態)次に、図11を用いて
本発明の第5の実施形態に係る背景音/音声分類装置を
説明する。図11において、図6と同一の構成要素には
同一の参照符号を付して説明を省略する。本実施形態
は、図6の構成にハングオーバ処理部106を追加した
点が第2の実施形態と異なる。このハングオーバ処理部
106は、背景音/音声判定部103で判定された結果
を監視し、音声区間から背景音に判定結果が変化したと
き、予め決められたフレーム数の期間(これをハングオ
ーバ期間という)だけ、強制的に背景音を音声区間とす
るように判定結果を変える機能を有する。
【0074】一般に、背景音/音声分類に際しては、文
章の最後の部分(語尾)で音声区間を背景区間と判断し
てしまう誤判定を生じやすい。これは語尾の部分では音
声のパワーが小さくなることが多く、背景音のパワーと
の変動量が小さいことに起因する。この問題を回避する
ため、本実施形態ではハングオーバ処理部106を用い
て、音声から背景音に判定結果が変化したところから数
フレームを音声区間であるとみなして判定結果を出力す
る。また、本実施形態ではハングオーバ期間は推定パワ
ー情報と推定スペクトル情報に応じて適応的に変化する
という特徴を有する。
【0075】以下、ハングオーバ処理部106について
図12により詳しく説明する。図12において、端子5
01からは背景音/音声判定部103の判定結果が入力
される。この判定結果として、先に説明したように背景
音の場合は“0”、音声の場合は“1”の判定信号が入
力されるものとする。カウンタ507のカウンタ値が
“0”である場合、スイッチ510は端子508と接続
し、判定結果はそのまま出力端子511より出力され
る。通常、カウンタ507の値は“0”となっている。
【0076】変化検出部504では、入力端子501か
ら入力される判定結果を監視しており、音声から背景音
(すなわち“1”→“0”)に変化したときスイッチ5
06をオンにする。それ以外のときは、スイッチ506
はオフである。スイッチ506がオンとなると、そのと
きの推定フレームパワーpe が入力端子502から入力
され、推定LSP係数{ωe (i) ,i=1,…,NP}
が入力端子503から入力される。
【0077】ハングオーバ時間算出部505では、推定
フレームパワーpe と推定LSP係数{ωe (i) ,i=
1,…,NP}を用いてハングオーバ時間を算出し、そ
の値をカウンタ値としてスイッチ506を経由してカウ
ンタ507に与える。カウンタ507は、カウンタ値が
“0”より大きいときスイッチ510を端子509と接
続させて、判定結果が音声となるように“1”を出力端
子511から出力させるようにする。カウンタ507
は、入力端子501から判定結果が入力される度に1つ
ずつデクリメントされる。ただし、カウンタ値は“0”
未満にならないようにカウンタ値が負の値をとったとき
“0”で置き換える。
【0078】ハングオーバ時間算出部505は、ハング
オーバ時間HOを次式(14),(15)のいずれかに
従い算出する。 HO=HOp +HOLSP (14) HO=Max(HOp ,HOLSP ) (15) ここで、HOp は推定フレームパワーpe から算出され
るハングオーバ時間、HOLSP は推定LSP係数から算
出されるハングオーバ時間をそれぞれ表す。また、Ma
x( )は最大値を返値とする関数である。
【0079】HOp は、推定フレームパワーpe の値に
応じて予め用意されている複数個のハングオーバ時間か
ら1つを選択して決定することができる。また、HO
LSP は推定LSP係数{ωe (i) ,i=1,…,NP}
が表すスペクトル包絡のピークの大きさに対応して、複
数個用意されているハングオーバ時間から1つを選択し
て決定される。スペクトル包絡のピークの大きさを表す
指標fdは次式で定義される。
【0080】
【数4】
【0081】式(16)によると、隣接する推定LSP
係数が接近しているとき、つまりスペクトル包絡のピー
クが大きいとき、指標fdは大きな値をとり、それに対
応してハングオーバ時間HOLSP は長いものが選択され
る。逆に、指標fdが小さな値をとる場合は、ハングオ
ーバ時間HOLSP は短いものが選択される。
【0082】本実施形態のように推定フレームパワーと
推定LSP係数によってハングオーバ時間を適応的に伸
縮する方法では、次のような利点がある。先に説明した
ように、語尾部分ではパワーが落ちていることが多い。
そのため背景音のパワー(つまり推定フレームパワー)
が大きいと語尾切れが生じ易く、かつ長い時間に渡って
語尾切れが生じてしまう。また、背景で別の人間が話を
している状況や、例えば車や電車の通過音などが発生し
ている状況では、背景音のスペクトル包絡にピークが発
生し、これが本来の話者のスペクトル包絡に類似する
と、背景音に誤判定される場合がある。
【0083】このような場合、つまり推定フレームパワ
ーが大きいときまたは推定LSP係数が表すスペクトル
包絡のピークが大きいときには、ハングオーバ時間を長
く設定すると効果的である。
【0084】本実施形態における処理の流れを図13の
フローチャートを用いて説明する。図13におけるステ
ップS30、ステップS31、ステップS34、ステッ
プS35、ステップS36は、図7におけるステップS
20、ステップS21、ステップS22、ステップS2
3、ステップS24と同じなので、ここでは説明を省略
する。
【0085】ステップS31で入力信号が背景音か音声
のいずれに属するかを判定された後に、ステップS32
でハングオーバ処理部を適用する条件を満足するかどう
かを判断する。ステップS32での判断結果がYesの
場合、ステップS33においてハングオーバ処理部を適
用してステップS34に進む。ステップS32での判断
結果がNoの場合、直接ステップS34に進む。
【0086】(第6の実施形態)次に、本発明の第6の
実施形態として有声/無声分類装置を図14を参照して
説明する。
【0087】入力端子601から信号が入力され、音響
パラメータ算出部602に与えられる。音響パラメータ
算出部602では、音声の特徴量であるM(M≧1)種
の音響パラメータが算出される。算出される音響パラメ
ータとしては、信号パワー、サブバンドに分割した後の
信号パワー、1次のPARCOR係数、LPC予測ゲイ
ン、ピッチ予測ゲインなどが挙げられる。
【0088】音響パラメータ算出部602で求められた
音響パラメータは、無声出現確率算出部603および有
声出現確率算出部606に与えられる。有声出現確率テ
ーブル604,605および無声出現確率テーブル60
7,608は、音声の特徴量に有声出現確率および無声
出現確率を対応付けて記述したものであり、具体的には
予め実音声データをマニュアルで有声/無声判定を行
い、その判定結果を用いて作成されたものである。
【0089】無声出現確率算出部603は、音響パラメ
ータの種類の数に相当するM個の無声出現確率テーブル
604,605を有し、与えられた音響パラメータをキ
ーとしてそれぞれに対応する無声出現確率テーブルを参
照することにより、各音響パラメータの無声確率{φU
(m) ,m=1,…,M)を求める。
【0090】同様に、有声出現確率算出部606も、音
響パラメータの種類数に相当するM個の有声出現確率テ
ーブル607,608を有し、与えられた音響パラメー
タをキーとしてそれぞれに対応する有声出現確率テーブ
ルを参照することにより、各音響パラメータの有声確率
{φV (m) ,m=1,…,M}を求める。
【0091】有声/無声判定部609では、音声出現確
率算出部603で求められた各音響パラメータの無声確
率(φU (m) ,m=1,…,M}と、有声出現確率算出
部606で求められた各音響パラメータの有声確率{φ
V (m) ,m=1,…,M}とを用いて、入力信号が有声
に属するか無声に属するかを判定し、その判定結果を出
力端子610より出力する。有声/無声判定部609で
は、次式が成り立つ場合に無声、成り立たない場合に有
声と判定する。
【0092】
【数5】
【0093】また、有声、無声の判定に次の条件を用い
てもよい。 φU (m) >φV (m) (for all m) (18) この条件が満足されたときに無声、満足しないときは有
声と判定する。この条件を用いると、有声が判定されや
すくなる。このように、適用する分野に適した判定条件
を用いることが望ましい。
【0094】本実施形態によると、実音声データをマニ
ュアルで有声/無声判定して作成した出現確率テーブル
を用いて、最も確からしい声質を判断するので、従来法
のように経験に基づいた重み値や閾値に分類の性能が左
右されるという問題を回避でき、安定で正確な有声/無
声判定が実現できる。
【0095】(第7の実施形態)次に、本発明の第7の
実施形態を図15を用いて説明する。本実施形態は、図
11で説明した背景音/音声分類装置を音声符号化に適
用したものである。図15において、図11と同一部分
には同一の参照符号を付して説明を省略する。同図にお
いて、入力端子701には入力信号として例えばマイク
ロホンで集音され、ディジタル化された信号が複数サン
プルを1フレームとしてフレーム単位で順次入力され
る。
【0096】本実施形態では、1フレームを240サン
プルとする。
【0097】入力端子701からの入力信号は、図11
に示した背景音/音声分類装置702に入力され、この
背景音/音声分類装置702内の背景音/音声判定部1
03で判定された結果に基づいて切替器703が制御さ
れて、入力信号の符号化方法が切り替えられる。
【0098】すなわち、判定結果が背景音であった場合
には、入力信号は背景音用符号化部704に与えられ
る。判定結果が音声であった場合には、入力信号は音声
用符号化部705に与えられる。背景音用符号化部70
4は背景音に適した方法で符号化を行い、同様に音声用
符号化部705は音声に適した方法で符号化を行うこと
により、効率的に情報の圧縮を行うことができる。この
ようにして符号化して得られる符号化パラメータは、マ
ルチプレクサ707を介して出力端子708から出力さ
れる。
【0099】(第8の実施形態)次に、本発明の第8の
実施形態を図16を用いて説明する。本実施形態は、図
9で説明した背景音/音声分類装置と図14で説明した
有声/無声分類装置を音声符号化に適用したものであ
る。図16において、図15と同一部分に同一の参照符
号を付して説明を省略する。
【0100】入力端子801から入力される信号は、ま
ず背景音/音声分類装置802に与えられる。先に説明
したように、背景音/音声分類装置802で入力信号が
背景音か音声か判定される。その判定結果がセレクタ8
04に送られ、背景音と判定された場合は、有声/無声
分類装置803の処理を実行せずに入力信号を背景音用
符号化部806に与えて符号化を行う。音声と判定され
た場合は、入力信号を有声/無声分類装置803に与
え、先に説明した手順に従い有声/無声判定を行う。
【0101】そして、有声/無声分類装置803の結果
をセレクタ804に与え、無声と判定されたときには入
力信号を無声音用符号化部808に与えて符号化を行
う。逆に、有声と判定されたときには有声音用符号化部
809に入力信号を与えて符号化を行う。
【0102】ここで、背景音用符号化部806、無声音
用符号化部808、有声音用符号化部809はそれぞれ
背景音、無声音、有声音に適した符号化部により構成さ
れているため、効率的な符号化が実現できる。このよう
にして得られた符号化パラメータは、マルチプレクサ8
11を介して出力端子812より出力される。
【0103】(第9の実施形態)次に、本発明の第9の
実施形態を図17を用いて説明する。本実施形態は、背
景音復号装置の実現に関するものである。入力端子90
1から入力される符号化データはデマルチプレクサ90
2で復号され、復号パラメータが求められる。本実施形
態では、復号パラメータは復号駆動信号パラメータ、復
号ゲインパラメータ、復号合成フィルタパラメータの3
種類であり、これとは別に背景音/音声判定信号がマル
チプレクサ902から出力される。
【0104】復号パラメータは、背景音/音声判定信号
により切り替えられる切替器903によって、背景音区
間では背景音復号部904に入力され、音声区間では音
声復号部905に入力される。音声復号部905は本発
明の要旨と関係がないため、ここでは背景音復号部90
4についてのみ説明する。
【0105】背景音復号部904において、マルチプレ
クサ902からの復号駆動信号パラメータは駆動信号復
号部906に与えられ、駆動信号c(n) が求められる。
同様に、ゲイン復号パラメータはゲイン復号部907に
与えられてゲインgが復号される。ゲインgはゲインス
ムージング部908に与えられ、滑らかに変化するよう
に修正(スムージング)されたゲインが得られる。ま
た、合成フィルタ復号パラメータは合成フィルタ復号部
910に与えられ、合成フィルタ911の特性が決定さ
れる。駆動信号c(n) とスムージングされたゲインとが
乗算器809で乗じられ、合成フィルタ911に与えら
れる。合成フィルタ911では、フィルタリング処理に
より合成信号e(n) を生成し、この合成信号e(n) は背
景音/音声判定信号により切り替えられるスイッチ91
2を介して出力端子913より出力される。音声区間で
は、音声復号部905で同様にして得られた合成信号が
スイッチ912を介して出力端子913より出力され
る。
【0106】次に、ゲインスムージング部908につい
て説明する。ゲインスムージング部908でのゲインの
スムージングは、次式に従い実現される。 gs(n) =(1−ξ)・g+ξ・gs(n-1) (0≦ξ≦1) (19) ここで、gは復号されたゲイン、gs(n) はスムージン
グ後のゲインをそれぞれ表し、nはサンプル位置を表
す。また、ξはスムージングの程度を制御する定数であ
る。
【0107】このようにゲインのスムージングを行う
と、ゲインの変化が滑らかになり、背景音の主観品質が
向上するという利点がある。
【0108】(第10の実施形態)次に、本発明の第1
0の実施形態に係る背景音復号装置について説明する。
本実施形態は図17の構成と同じなので、図17を用い
て説明を行う。本実施形態は、ゲインスムージング部9
08の処理に特徴がある。
【0109】第9の実施形態で説明したゲインスムージ
ングでは、常に固定の定数ξを使用してスムージングを
行っていた。図18の破線は復号されたゲインgの推移
を、また実線はスムージング後のゲインgs(n) の推移
をそれぞれ表す。図18から分かるように、復号ゲイン
gに比べてスムージング後のゲインgs(n) は明らかに
滑らかに変化しているが、復号ゲインgの値が小さくな
っても、スムージング後のゲインgs(n) が小さくなる
には時間がかかってしまう。このため、不必要にゲイン
が大きくなってしまうところ(斜線部)が発生してしま
い、主観品質を損なう原因になる。
【0110】これに対して、本実施形態ではゲインのス
ムージングの方法を次の手続きに従い実現している。具
体的には、例えば復号ゲインgが増大する方向に変化す
るときには、徐々に大きくなるようにゲインのスムージ
ングを行い、逆に復号ゲインgが減少する方向に変化す
るときには、ゲインが急速に小さくなるようにゲインの
スムージングを行う。これを式で表すと、次のようにな
る。
【0111】 gs(n) =(1−ξUP)・g+ξUP・gs(n−1) (g>gs(n−1)のとき) (20) gs(n) =(1−ξDOWN)・g+ξDOWN・gs(n−1) (g≦gs(n−1)のとき) (21) ただし、(0≦ξDOWN<ξUP≦1) 本実施形態のスムージングによる効果を図19を用いて
説明する。図19から分かるように、復号ゲインgとス
ムージング後のゲインgs(n-1)を比較して、小さい方
のゲインの影響が強くなるようスムーング後のゲインg
s(n) を決定しているため、図18のように復号ゲイン
gが減少する方向に変化するときにスムージング後のゲ
インgs(n) がいつまでも大きな値を引きずってしまう
という現象が解消されている(斜線部の面積が減少して
いる)。よって本実施形態を用いれば、ゲインが滑らか
に変化し、かつ不必要なゲインの増大を回避することが
でき、主観品質がさらに向上するという利点がある。
【0112】
【発明の効果】以上説明したように、本発明の背景音/
音声分類方法によれば、入力信号のパワーおよびスペク
トルの情報を特徴量として算出し、この算出特徴量と背
景音区間の推定パワーおよび推定スペクトルの情報から
なる推定特徴量とを比較することにより、入力信号が音
声および背景音のいずれに属するかを判定することによ
り、背景雑音のパワーが大きく相対的にパワーの小さな
音声区間であっても、背景音区間と音声区間のスペクト
ルが明らかに異なることから、音声区間を正確に判定す
ることができる。
【0113】この場合、推定特徴量を入力信号が背景音
に属すると判定された場合と音声に属すると判定された
場合とで異なる方法により更新し、入力信号が背景音に
属すると判定された場合の更新量を音声に属すると判定
された場合の更新量より小さくするようにすれば、入力
信号の音声区間が長時間続いても、推定特徴量が入力信
号の音声区間の特徴量の影響をほとんど受けることがな
く、音声区間が長時間続いた後に背景音に変化するよう
な入力信号が与えられた場合でも、背景音を正しく判定
することが可能となる。
【0114】また、スペクトルの変動量の分析を入力信
号のスペクトルの情報から求められるスペクトル包絡と
背景音区間の推定スペクトルの情報から求められるスペ
クトル包絡との間のスペクトル歪みの値と閾値との比較
により行うことにより、正確な分析が可能となり、より
正確な背景音/音声の分類ができる。そして、推定パワ
ーが小さいときは閾値を大きく設定し、推定パワーが大
きいときは閾値を小さく設定するようにすれば、推定パ
ワーの変化によるスペクトル変動量の変化によって判定
を誤ることが少なくなり、さらに正確に背景音/音声の
分類を行うことができる。
【0115】さらに、入力信号が音声および背景音のい
ずれに属するかの判定結果が音声から背景音へ変化した
とき、その判定結果を強制的に音声に変更させるハング
オーバ処理を行い、背景音区間の推定パワーおよび推定
スペクトルの情報を用いて、例えば推定フレームパワー
が大きいときや、推定スペクトルの情報から求められる
スペクトル包絡のホルマントのスペクトルパワーが大き
いとき、このハングオーバ時間を長く設定することによ
り、背景音のパワーが大きいときや背景音のスペクトル
が白色でない場合の起こる語尾切れを避けることができ
る。
【0116】本発明の有声/無声分類方法によれば、音
声の特徴量に有声出現確率および無声出現確率をそれぞ
れ対応付けて記述した有声出現確率テーブルおよび無声
出現確率テーブルを用意し、入力音声について算出され
た特徴量をキーとして、これらのテーブルを参照するこ
とで有声確率および無声確率を求め、これらの有声確率
および無声確率から入力音声が有声および無声のいずれ
に属するかを判定するため、実音声データをマニュアル
で有声/無声判定し、それに基づいて有声出現確率テー
ブルおよび無声出現確率テーブルを作成しておくことに
より、これらのテーブルを用いて最も確からしい声質を
判断することができるので、従来法のように経験に基づ
いた重み値や閾値に分類の性能が左右されるという問題
を解決して、安定で正確な有声/無声分類を行うことが
可能となる。
【0117】また、本発明の背景音復号方法によれば、
背景音の合成のための合成フィルタを駆動する駆動信号
とゲインおよび合成フィルタの情報を復号して背景音の
復号を行う際のゲインをスムージングすることによっ
て、復号される背景音の主観品質を向上させることがで
きる。さらに、このゲインのスムージングに際してゲイ
ンの増大時は徐々にゲインを大きくさせ、ゲインが減少
するときは急速にゲインを小さくさせるようにすること
で、ゲインのスムージングで生じる不必要なゲインの増
大を回避して、より一層効果的に主観品質の向上を図る
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る背景音/音声分類方
法を適用した装置の構成を示すブロック図
【図2】同実施形態における特徴量算出部の構成を示す
ブロック図
【図3】同実施形態における背景音/音声判定部の構成
を示すブロック図
【図4】同実施形態の概略的な処理手順を示すフローチ
ャート
【図5】同実施形態の効果を説明するための図
【図6】本発明の他の実施形態に係る背景音/音声分類
方法を適用した装置の構成を示すブロック図
【図7】同実施形態の処理手順を示すフローチャート
【図8】同実施形態の効果を説明するための図
【図9】同実施形態におけるスペクトル変動量算出部の
構成を示すブロック図
【図10】同実施形態におけるスペクトル変動量算出部
の別の構成を示すブロック図
【図11】本発明の別の実施形態に係る背景音/音声分
類方法を適用した装置の構成を示すブロック図
【図12】同実施形態におけるハングオーバ処理部の構
成を示すブロック図
【図13】同実施形態の処理手順を示すフローチャート
【図14】本発明の一実施形態に係る有声/無声分類方
法を適用した装置の構成を示すブロック図
【図15】本発明の一実施形態に係る背景音/音声分類
方法を適用した音声符号化装置の構成を示すブロック図
【図16】本発明の一実施形態に係る背景音/音声分類
方法および有声/無声分類方法を適用した音声符号化装
置の構成を示すブロック図
【図17】本発明の一実施形態に係る背景音復号方法を
説明するための音声復号装置の構成を示すブロック図
【図18】同実施形態の効果を説明するための図
【図19】同実施形態の別の効果を説明するための図
【符号の説明】
102…特徴量算出部 103…背景音/有声判定部 104…推定特徴量更新部 106…ハングオーバ処理部 602…音響パラメータ産出部 603…無声出現確率算出部 604,605…無声出現確率テーブル 606…有声出現確率算出部 607,608…有声出現確率テーブル 609…有声/無声判定部 702…背景音/有声分類装置 802…背景音/有声分類装置 803…有声/無声分類装置 904…背景音復号部 905…音声復号部 906…駆動信号復号部 907…ゲイン復号部 908…ゲインスムージング部 909…乗算器 910…合成フィル復号部 911…合成フィルタ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI H03M 7/30 H03M 7/30 Z

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】入力信号のパワーおよびスペクトルの情報
    を特徴量として算出し、この算出特徴量と背景音区間の
    推定パワーおよび推定スペクトルの情報からなる推定特
    徴量とを比較することにより、前記入力信号が音声およ
    び背景音のいずれに属するかを判定することを特徴とす
    る背景音/音声分類方法。
  2. 【請求項2】入力信号のパワーおよびスペクトルの情報
    を特徴量として算出し、この算出特徴量と背景音区間の
    推定パワーおよび推定スペクトルの情報からなる推定特
    徴量とを比較することによりパワーおよびスペクトルの
    変動量を分析し、これらパワーおよびスペクトルの変動
    量の分析結果が共に背景音であることを示したときは前
    記入力信号が背景音に属すると判定し、それ以外のとき
    は音声に属すると判定することを特徴とする背景音/音
    声分類方法。
  3. 【請求項3】前記推定特徴量を前記入力信号が背景音に
    属すると判定された場合と音声に属すると判定された場
    合とで異なる方法により更新すると共に、前記入力信号
    が背景音に属すると判定された場合の更新量を音声に属
    すると判定された場合の更新量より小さくすることを特
    徴とする請求項1または2に記載の背景音/音声分類方
    法。
  4. 【請求項4】前記入力信号のスペクトルの情報から求め
    られるスペクトル包絡と前記背景音区間の推定スペクト
    ルの情報から求められるスペクトル包絡との間の歪の値
    と、予め設定された閾値とを比較することにより、前記
    スペクトルの変動量を分析することを特徴とする請求項
    2に記載の背景音/音声分類方法。
  5. 【請求項5】前記入力信号のスペクトルの情報から求め
    られるスペクトル包絡と前記背景音区間の推定スペクト
    ルの情報から求められるスペクトル包絡との間の歪の値
    と、予め設定された閾値とを比較することにより、前記
    スペクトルの変動量を分析するとともに、前記推定パワ
    ーの情報に応じて前記閾値を変化させることを特徴とす
    る請求項2に記載の背景音/音声分類方法。
  6. 【請求項6】前記入力信号が音声および背景音のいずれ
    に属するかの判定結果が音声から背景音へ変化したとき
    特定期間だけ該判定結果を強制的に音声に変更させると
    ともに、前記背景音区間の推定パワーおよび推定スペク
    トルの情報を用いて前記特定期間を変化させることを特
    徴とする請求項1または2に記載の背景音/音声分類方
    法。
  7. 【請求項7】音声の特徴量に有声出現確率および無声出
    現確率をそれぞれ対応付けて記述した有声出現確率テー
    ブルおよび無声出現確率テーブルを用意しておき、 入力音声について算出された特徴量をキーとして前記有
    声出現確率テーブルおよび前記無声出現確率テーブルを
    参照することにより有声確率および無声確率を求め、 これら有声確率および無声確率から前記入力音声が有声
    および無声のいずれに属するかを判定することを特徴と
    する有声/無声分類方法。
  8. 【請求項8】背景音の合成のための合成フィルタを駆動
    する駆動信号と該駆動信号に乗じるゲインおよび前記合
    成フィルタの情報を復号して前記背景音の復号を行う背
    景音復号方法において、 前記ゲインをスムージングすることを特徴とする背景音
    復号方法。
  9. 【請求項9】前記ゲインをスムージングする際、ゲイン
    が増大するときは徐々にゲインを大きくさせ、ゲインが
    減少するときは急速にゲインを小さくさせることを特徴
    とする請求項8に記載の背景音復号方法。
JP01032697A 1997-01-23 1997-01-23 背景音/音声分類方法及び装置並びに音声符号化方法及び装置 Expired - Fee Related JP3331297B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP01032697A JP3331297B2 (ja) 1997-01-23 1997-01-23 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
US09/012,792 US6202046B1 (en) 1997-01-23 1998-01-23 Background noise/speech classification method
JP10114050A JPH11117213A (ja) 1997-01-23 1998-03-20 車歩道境界ブロック及びハンド、ジャキロックを有する装置。
US09/726,562 US6704702B2 (en) 1997-01-23 2000-12-01 Speech encoding method, apparatus and program
US10/675,947 US7191120B2 (en) 1997-01-23 2003-10-02 Speech encoding method, apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01032697A JP3331297B2 (ja) 1997-01-23 1997-01-23 背景音/音声分類方法及び装置並びに音声符号化方法及び装置

Publications (2)

Publication Number Publication Date
JPH10207491A true JPH10207491A (ja) 1998-08-07
JP3331297B2 JP3331297B2 (ja) 2002-10-07

Family

ID=11747103

Family Applications (2)

Application Number Title Priority Date Filing Date
JP01032697A Expired - Fee Related JP3331297B2 (ja) 1997-01-23 1997-01-23 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
JP10114050A Pending JPH11117213A (ja) 1997-01-23 1998-03-20 車歩道境界ブロック及びハンド、ジャキロックを有する装置。

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP10114050A Pending JPH11117213A (ja) 1997-01-23 1998-03-20 車歩道境界ブロック及びハンド、ジャキロックを有する装置。

Country Status (1)

Country Link
JP (2) JP3331297B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046789A1 (fr) * 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
WO2004010416A1 (ja) * 2002-07-24 2004-01-29 Nec Corporation 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
US7231345B2 (en) 2002-07-24 2007-06-12 Nec Corporation Method and apparatus for transcoding between different speech encoding/decoding systems
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008166976A (ja) * 2006-12-27 2008-07-17 Sharp Corp 音響音声再生装置
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2010525376A (ja) * 2007-03-29 2010-07-22 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置
JP2010181892A (ja) * 1998-08-24 2010-08-19 Mindspeed Technologies Inc 音声符号化用ゲイン平滑化
US7792669B2 (en) 2006-02-09 2010-09-07 Samsung Electronics Co., Inc. Voicing estimation method and apparatus for speech recognition by using local spectral information
JP2011123506A (ja) * 1998-12-21 2011-06-23 Qualcomm Inc 可変レートスピーチ符号化
CN103915086A (zh) * 2013-01-07 2014-07-09 华为技术有限公司 信息处理的方法、装置和系统
US10446173B2 (en) 2017-09-15 2019-10-15 Fujitsu Limited Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101273391B1 (ko) * 2013-02-13 2013-06-11 주식회사 대양컨설턴트 회동 포착형 항만 공사용 블럭

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010181892A (ja) * 1998-08-24 2010-08-19 Mindspeed Technologies Inc 音声符号化用ゲイン平滑化
JP2011203737A (ja) * 1998-08-24 2011-10-13 Mindspeed Technologies Inc 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化
JP2011123506A (ja) * 1998-12-21 2011-06-23 Qualcomm Inc 可変レートスピーチ符号化
WO2000046789A1 (fr) * 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
WO2004010416A1 (ja) * 2002-07-24 2004-01-29 Nec Corporation 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
US7231345B2 (en) 2002-07-24 2007-06-12 Nec Corporation Method and apparatus for transcoding between different speech encoding/decoding systems
CN1327410C (zh) * 2002-07-24 2007-07-18 日本电气株式会社 语音编解码方法之间的代码转换方法及装置
US7319953B2 (en) 2002-07-24 2008-01-15 Nec Corporation Method and apparatus for transcoding between different speech encoding/decoding systems using gain calculations
US7454345B2 (en) 2003-01-20 2008-11-18 Fujitsu Limited Word or collocation emphasizing voice synthesizer
US7792669B2 (en) 2006-02-09 2010-09-07 Samsung Electronics Co., Inc. Voicing estimation method and apparatus for speech recognition by using local spectral information
JP4690973B2 (ja) * 2006-09-05 2011-06-01 日本電信電話株式会社 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008166976A (ja) * 2006-12-27 2008-07-17 Sharp Corp 音響音声再生装置
JP2010525376A (ja) * 2007-03-29 2010-07-22 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP5446874B2 (ja) * 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
US8694308B2 (en) 2007-11-27 2014-04-08 Nec Corporation System, method and program for voice detection
CN103915086A (zh) * 2013-01-07 2014-07-09 华为技术有限公司 信息处理的方法、装置和系统
US10446173B2 (en) 2017-09-15 2019-10-15 Fujitsu Limited Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program

Also Published As

Publication number Publication date
JPH11117213A (ja) 1999-04-27
JP3331297B2 (ja) 2002-10-07

Similar Documents

Publication Publication Date Title
US6202046B1 (en) Background noise/speech classification method
JP3653826B2 (ja) 音声復号化方法及び装置
US6898566B1 (en) Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
JP3197155B2 (ja) ディジタル音声コーダにおける音声信号ピッチ周期の推定および分類のための方法および装置
KR100908219B1 (ko) 로버스트한 음성 분류를 위한 방법 및 장치
US6681202B1 (en) Wide band synthesis through extension matrix
KR102237718B1 (ko) 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP4218134B2 (ja) 復号装置及び方法、並びにプログラム提供媒体
WO1999030315A1 (fr) Procede et dispositif de traitement du signal sonore
JP4438127B2 (ja) 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
JP3331297B2 (ja) 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
JP2006502426A (ja) ソース制御された可変ビットレート広帯域音声の符号化方法および装置
KR20080093074A (ko) 오디오신호들의 분류
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2004501391A (ja) 可変レート音声符号器におけるフレーム消去補償方法
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
JP2010540990A (ja) 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置
JP4040126B2 (ja) 音声復号化方法および装置
KR20070019863A (ko) 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
EP1312075B1 (en) Method for noise robust classification in speech coding
US6915257B2 (en) Method and apparatus for speech coding with voiced/unvoiced determination
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JPH09244695A (ja) 音声符号化装置及び復号化装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080719

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090719

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100719

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110719

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120719

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130719

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees