JP2008257042A

JP2008257042A - 音声信号レベル表示装置およびその方法

Info

Publication number: JP2008257042A
Application number: JP2007100647A
Authority: JP
Inventors: Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-04-06
Filing date: 2007-04-06
Publication date: 2008-10-23

Abstract

【課題】各種装置等に音声信号を入力する際、ユーザに対して入力音声信号の大きさだけでなく、品質情報についても提示し、その提示情報に応じてユーザ自らが入力環境を適切に改善できるようにする。
【解決手段】音声信号入力部１０１から入力された音声信号のゲインを入力ゲイン調整部１０２で適正レベルに調整し、Ａ／Ｄ変換部１０３でディジタル信号に変換し、このディジタル信号について一定時間ごとに切り出したフレームごとに、第１信号レベル計算部１０４で第１信号レベルを計算するとともに、音声尤度計算部１０７でスペクトル特徴量計算部１０５において求めた上記ディジタル信号の特徴量とクリーン音声信号の確率モデル（ＧＭＭ）パラメータとから音声尤度値を計算する。そして、同一フレームの上記第１信号レベルと上記音声尤度値とを表示部１０８に表示する。
【選択図】図１

Description

本発明は、音声を入力する装置において入力信号のレベルを表示する、音声信号レベル表示装置およびその方法に関する。

マン・マシンインタフェースを考えたとき、音声を入力する装置には、マイクなどの信号入力手段から入力された信号のレベルをユーザに提示する手段を備えていることが望ましい。
ここで音声を入力する装置とは、例えば、一般の電話端末、電話会議用端末、ＴＶ会議用端末等の通信機器のほか、ＩＣレコーダー等の音声記録装置、音声認識機能を有する端末装置等である。また、専用装置ではなく、パソコンのアプリケーションソフトウェアとして実装されるものも含む。
入力信号レベルを表示することにより、ユーザは発声した音声が適切なレベルにあるか否かを知ることができる。

入力信号レベルが過小であると、入力音声と背景雑音とのＳＮ比（信号対雑音比）が低下する。一方、入力信号レベルが過大であると、クリッピングを起こして入力信号波形が歪む。このような状況下では、通信機器では受信側で送信側の音声を聞き取りにくくなるといった問題が発生し、また、音声認識装置では音声認識率が低下するといった問題が発生する。

入力信号レベルをユーザに提示することで、ユーザはそれを見ながら自らの声の大きさを調整したり、機器のゲインを調整したりすることができる。また、適正なレベルになるよう装置内部でゲインを自動的に調整する方法もある。
従来、入力信号レベルのユーザへの提示手段としては、例えばパワーや対数パワー、振幅などを短時間ごとに計算し、これをレベルメータにより提示するという手段があった。

また、ユーザに入力信号の状態をＳＮ比として提示することも考えられ、その方法としては、例えば２本のマイクを使用し、周囲の雑音の音圧と入力音声の音圧との比を表示するという手段〔特許文献１〕があった。
特開平５−２３１９２２号公報

従来の入力信号レベル表示は、入力信号のパワーや振幅について情報を与えていたが、入力信号の品質、特に、スペクトル情報に代表されるいわゆる音声らしさについて何ら情報を与えるものではなかった。

入力音声のスペクトル歪み、スペクトルに重畳する雑音に起因する音声品質の劣化は、例えば、近くの雑音源を排除したり、雑音原からマイクを遠ざけたり、機器内の雑音発生源を調べたり、またマイクとスピーカの配置を変えたりなどのユーザ自らの措置により、軽減が可能である。

しかしユーザは、そもそも自ら発声した音声が受信側や音声認識装置側へどのような品質で伝送され、どのような状況になっているかを知ることができなかったため、もし品質が悪い場合にも上記のような措置の採りようがなく、品質が悪いまま受信側や音声認識装置側に伝送されるという問題が生じていた。

この問題が実際にどのような場面で生じるか、以下に代表的な例を示す。
例えば、ＴＶ会議装置と共に設置される卓上マイク（バウンダリマイク）を使用した場合を考える。発言者が紙の資料を見ながら発言する際に、紙が卓上マイクに触れると紙が擦れる音と発言者の音声が重畳して収音され、受信側に不快な音が伝送される場合がある。発言者は紙がマイクに触れていることに気づかないことが多々あり、受信側から指摘されるまで不快な状態が継続するという問題が生じる。

また、ＴＶ会議や電話会議などの拡声通話においては、エコーキャンセラによるエコー防止が必須になる。マイクとスピーカの配置によっては、エコーキャンセラの機能が十分に働かず、エコーが回り込んで相手側に戻ってしまう場合（音響結合量が大きい場合）がある。エコー量が非常に大きい場合にはハウリングが生じるため発声者自身で検知できるが、エコー量が小さい場合は、周囲の微弱な雑音なのかエコーなのかは、パワーや振幅の表示だけでは判断が難しい。このような場合にも、受信側はエコーを聞きながら通話するという不快な状態が継続するという問題が生じる。

更に、コンタクトセンタ等でオペレータが顧客と対話する環境では、顧客満足度向上の観点から、オペレータの音声が明瞭に顧客に伝わることが重要である。しかし、オペレータが集約されたセンタにおいて、コール数がピークを迎えた時、オペレータの周囲は他のオペレータの音声やＰＣを操作する音や資料をめくる音等で騒然となる。そのような環境で埋没しているオペレータにとっては、周囲雑音がどの程度ヘッドセットマイクに回り込み、自らの音声がどの程度の品質で顧客側に伝送されているかを知ることは容易ではない。顧客がオペレータの音声を聞きづらいと感じれば、コミュニケーションがスムーズにできない等、顧客満足度の低下を招くという問題が生じる。

雑音環境下での収音対策として、入力信号中に含まれる雑音成分を推定して抑圧することでＳＮ比を改善する方法を併用する場合もある。雑音を抑圧する方法としては、スペクトルサブトラクション法やウィーナーフィルタ法等があるが、いずれの雑音抑圧方法をもってしても、音声に重畳した雑音を完全に取り去ることは現実的には不可能である。残留する雑音のレベルは、音声に混入した雑音の種類、性質、レベル等と雑音抑圧方法との関係で変動するが、いずれにしろユーザは残留する雑音のレベルを知ることができず、それゆえ、残留する雑音による品質劣化への対処のとりようがなかった。

また、ＳＮ比のレベルについては、上記の〔特許文献１〕の技術により知ることはできたが、そもそもＳＮ比は音声らしさ、即ち音声スペクトルの歪を計測するものではない。加えて、雑音観測用と入力音声用の２本のマイクが必要になり構成が複雑になること、１本で解決しようとすると音声入力前の事前の雑音観測が必要になり、上記の例の中で挙げた紙が擦れる雑音のように突然重畳した雑音に対して対応することができない。

それゆえ本発明の目的は、ユーザに対して入力音声信号の大きさだけでなく、品質情報についても提示し、その提示情報に基づきユーザ自らが入力環境を適切に改善できるようにすることにある。

本発明の音声信号レベル表示装置は、入力ゲイン調整部、Ａ／Ｄ変換部、第１信号レベル計算部、スペクトル特徴量計算部、音声モデル格納部、音声尤度計算部及び第１表示部から構成される。

入力ゲイン調整部は、音声信号が入力され、ゲインを調整して処理に適正なレベルで信号を出力する。

Ａ／Ｄ変換部は、上記信号が入力され、ディジタル信号に変換して出力する。

第１信号レベル計算部は、上記ディジタル信号が入力され、これを一定時間ごとに切り出したフレームごとに信号の大きさを計算して第１信号レベルを出力する。

スペクトル特徴量計算部は、上記ディジタル信号が入力され、これを上記一定時間ごとに切り出したフレームごとにスペクトル特徴量を計算して出力する。

音声モデル格納部は、クリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ：Gaussian Mixture Model）パラメータを記憶する。

音声尤度計算部は、上記スペクトル特徴量が入力され、上記確率モデルパラメータを用いて音声尤度値を計算して出力する。

第１表示部は、上記第１信号レベルと上記音声尤度値とが入力され、その両方を上記フレームごとに同時に表示する。

本発明の音声信号レベル表示装置によれば、ＧＭＭを基準として計算される入力音声信号の尤度値を通じ、ユーザに入力音声信号への雑音・歪みの付加状況（品質劣化度合い）を提示することができる。
そしてユーザは、その提示内容に応じて自らが入力環境を適切に改善できる。

以下、図面を参照しつつ、本発明の実施形態例について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を記してある。また、それらの名称、機能も同一であり、それらについての説明は繰り返さない。

〔第１実施形態〕
図１は、本発明の音声信号レベル表示装置１００の機能構成例である。また、図２は処理フローである。
音声信号レベル表示装置１００は、音声信号入力部１０１、入力ゲイン調整部１０２、Ａ／Ｄ変換部１０３、第１信号レベル計算部１０４、スペクトル特徴量計算部１０５、音声モデル格納部１０６、音声尤度計算部１０７及び第１表示部１０８から構成される。

音声信号入力部１０１は、信号のレベル・品質の表示対象とするアナログ音声信号Ｘ_０(t)を入力する部位である（Ｓ１）。
入力ゲイン調整部１０２は、上記アナログ音声信号Ｘ_０(t)が入力され、ゲインを調整して以降の処理が可能な強度の音声信号Ｘ(t)´を出力する（Ｓ２）。

Ａ／Ｄ変換部１０３は、上記音声信号Ｘ(t)´が入力され、ディジタル音声信号Ｘ(t)に変換して出力する（Ｓ３）。
また、ディジタル音声信号を利用する装置やソフトウェア、例えば、通信機器や音響装置、音声認識ソフトウェアなどに対しては、ここからディジタル音声信号を出力する。

第１信号レベル計算部１０４は、上記ディジタル音声信号Ｘ(t)が入力され、信号の時間的な変化をとらえるため、これを短時間窓（一般には１０〜３０ｍｓ程度）でフレームとして切り出し、このフレームごとに平均値をとるなどにより信号の大きさ（第１信号レベルＡ_１(t)）を計算して出力する（Ｓ４−ａ）。ここで、信号の大きさは例えば、パワー、対数パワー及び振幅等、任意の尺度で表して構わない。

スペクトル特徴量計算部１０５は、上記ディジタル音声信号Ｘ(t)が入力され、これを第１信号レベル計算部１０４の処理で用いたものと同じ短時間窓でフレームとして切り出し、このフレームごとにスペクトル特徴量ｘ_ｔ（Ｄ次元ベクトル）を計算して出力する（Ｓ４−ｂ１）。スペクトル特徴量としては、例えば、ＦＦＴの結果をフィルタバンクに通して得られる特徴量、音声認識処理のスペクトル特徴量として一般に用いられるＦＦＴケプストラム、線形予測分析（ＬＰＣ）によって得られるＬＰＣケプストラム等が挙げられる。また、これらの特徴量（ベクトル）時系列に対して別の短時間窓（一般には５０〜９０ｍｓ）を設定して、その窓中での特徴量の一次微係数（Δ成分）から得られる特徴量を用いることもできる。

音声モデル格納部１０６は、クリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータを記憶する。

ここで、クリーン音声信号とは雑音や歪みが存在しない音声信号をいう。また、ＧＭＭ（Gaussian Mixture Model）とは大量の音声データから得られるスペクトル特徴量の分布を複数（Ｍ個）の正規分布で表現した確率モデルであり、複数の正規分布で表現することから、単一の正規分布で表現するよりも複雑な特徴量分布を表現することができる。

Ｍ個の正規分布は、それぞれ平均ベクトルμ_ｉ、共分散行列Σ_ｉ及び重み係数ｗ_ｉの各パラメータにより表すことができる。μ_ｉはｉ番目の正規分布の平均ベクトル（Ｄ次元ベクトル）である。Σ_ｉはｉ番目の正規分布の共分散行列（Ｄ×Ｄ）で、対角共分散行列が用いられることが多い。ｗ_ｉはｉ番目の正規分布に対する重み係数である。

これらのパラメータは、雑音や歪みの無いクリーンな音声データを用いて、ＥＭアルゴリズムによる学習により生成する。様々な音声特徴量を学習するためにより多くの話者の音声で学習することが望ましい。また、音声の子音にはs、shのような雑音に近い音素があるため、学習データから母音区間だけを抽出して学習すると、より音声らしさが音声尤度値に表れる。また、母音特徴のみの学習になるため、混合正規分布数Ｍを削減でき、計算量を減らすことができる。ただし、この場合子音部分で音声尤度値が明らかに低下するため、音声尤度値の時系列に対して何らかのスムージング処理が必要になる。

音声尤度計算部１０７は、上記スペクトル特徴量ｘ_ｔが入力され、上記ＧＭＭパラメータμ_ｉ、Σ_ｉ及びｗ_ｉを用いて次式によりある時刻（フレーム）ｔにおける音声尤度値ｐ(ｘ_ｔ)を計算する（Ｓ４−ｂ２）。

上式により入力音声から得られるスペクトル特徴量ｘ_ｔと音声ＧＭＭとの尤度を計算すると、入力音声に雑音や歪みが無い場合は尤度が大きく、逆に入力音声に雑音が重畳している場合や歪みがある場合は尤度が小さくなる。つまり、尤度はクリーンな音声らしさを数値で表現しているといえる。
従って、ユーザに音声尤度値を提示することで、ユーザは入力中の音声にスペクトル的な雑音・歪み（品質劣化）がどの程度あるかを知ることができる。

なお、第１信号レベル計算処理（Ｓ４−ａ）と、スペクトル特徴量計算処理（Ｓ４−ｂ１）及び音声尤度計算処理（Ｓ４−ｂ２）とは並行処理が可能である。
第１表示部１０８は、上記第１信号レベルＡ_１(t)と上記音声尤度値ｐ(ｘ_ｔ)とが入力され、その両方を上記フレームごとに同時に表示する（Ｓ５−ａｂ）。

信号レベルと音声尤度値を同時に表示する方法には様々なものが考えられる。
例えば、図３のように棒グラフ形式で表示する方法がある。この場合、信号レベルについては信号レベルメータのレベル棒１１１の幅を変化させることにより表現する。一方、音声尤度値については、信号レベルメータの背景部１１２や枠部１１３の色を尤度値によって変化させることにより表現することが考えられる。このように色で表現する場合には、尤度値を予め決められた段階に従って色に変換してもよいし、尤度値に従って色を連続的に変化させてもよい。

また、図４のように信号レベルメータとは別に音声らしさを表現するためのシンボルを設けて図３の信号レベルメータと同時にこのシンボルの色を尤度値に従って変化させる方法や、数値表示部を設けて直接尤度値を表示する方法なども考えられる。

以上のように、本実施形態によればユーザは音声入力時に信号の入力レベルだけでなく雑音・歪みの付加状況（品質劣化度合い）を知ることができる。

そのため、例えば音声を発していない状態での入力レベルからパワーや振幅としての雑音の度合いを把握できるのはもちろん、入力レベルのみでは把握が難しい品質の劣化の度合いも把握できるため、これらの情報に基づいてマイクを雑音源から遠ざけたり、話者自らがマイクに近づいたりすることで、より良好なディジタル音声信号を通信機器や音響装置等に供給することができる。

〔第２実施形態〕
図５は、本発明の音声信号レベル表示装置２００の機能構成例である。また、図６は処理フローである。
音声信号レベル表示装置２００は、音声信号入力部１０１、入力ゲイン調整部１０２、Ａ／Ｄ変換部１０３、雑音抑圧部２０１、第１信号レベル計算部１０４、スペクトル特徴量計算部１０５、音声モデル格納部１０６、音声尤度計算部１０７及び第１表示部１０８から構成される。つまり、雑音抑圧部２０１以外は第１実施形態と同じ構成である。

雑音抑圧部２０１は、Ａ／Ｄ変換部１０３からのディジタル音声信号Ｘ(t)が入力され、雑音成分を抑圧して、雑音抑圧ディジタル音声信号Ｘ_Ｓ(t)を出力し（Ｓ６）、第１信号レベル計算部１０４及びスペクトル特徴量計算部１０５は、この雑音抑圧ディジタル音声信号Ｘ_Ｓ(t)を入力ディジタル音声信号として処理を行う。
また、ディジタル音声信号を利用する装置やソフトウェア、例えば、通信機器や音響装置、音声認識ソフトウェアなどに対しては、第１実施形態のようにＡ／Ｄ変換部１０３からではなく、ここからディジタル音声信号を出力する。

ここでの雑音抑圧法としては、例えば、スペクトルサブトラクション法やウィーナーフィルタ法等が利用できる。ここでは、代表的なスペクトルサブトラクション法について説明する。
時刻ｔのパワースペクトルの周波数ｆの雑音抑圧後のパワースペクトルＹ^Ｄ(t,f)は、式(2)のように計算される。

ここでＹ(t,f)は雑音が重畳した入力音声信号の時刻ｔ、周波数ｆのパワースペクトル、Ｎ(f)は推定された周波数ｆの時間平均雑音パワースペクトルである。また、αは雑音成分の抑圧の程度を調整するパラメータであるサブトラクション係数、βはフロアリング係数である。

一般に、スペクトルサブトラクション法に代表される雑音抑圧法は、周囲雑音が非定常的で雑音成分Ｎ(f)の推定精度が悪いと、雑音の消し残り（残留雑音）が増えたり、雑音成分を過剰に推定してしまうことで音声が歪んだりする場合があるが、周囲雑音が定常的で雑音が良好に抑圧されている状況下では、原音声に近い信号を生成することができる。

第２実施形態においては、第１実施形態の構成に雑音抑圧部を加えることで、第１実施形態と同様、入力音声信号の大きさ・品質についてユーザが逐次知ることができるのはもちろん、雑音が重畳した入力音声信号に対し雑音成分の抑圧がなされるため、ディジタル信号を利用する通信機器や音響装置等にＳＮ比の改善がなされた信号を供給できる。
〔第３実施形態〕
図７は、本発明の音声信号レベル表示装置３００の機能構成例である。また、図８は処理フローである。

音声信号レベル表示装置３００は、音声信号入力部１０１、入力ゲイン調整部１０２、Ａ／Ｄ変換部１０３、雑音抑圧部２０１、第１信号レベル計算部１０４、スペクトル特徴量計算部１０５、音声モデル格納部１０６、音声尤度計算部１０７、第１表示部１０８、第２信号レベル計算部３０１及び第２表示部３０２から構成される。つまり、第２実施形態の構成に第２信号レベル計算部３０１と第２表示部３０２を加えた構成である。

雑音抑圧部２０１は、Ａ／Ｄ変換部１０３からのディジタル音声信号Ｘ(t)が入力され、雑音成分を抑圧して、雑音抑圧ディジタル音声信号Ｘ_Ｓ(t)を出力し（Ｓ６）、第１信号レベル計算部１０４及びスペクトル特徴量計算部１０５は、この雑音抑圧ディジタル音声信号Ｘ_Ｓ(t)を入力ディジタル信号として処理を行う。

第２信号レベル計算部３０１は、上記ディジタル音声信号Ｘ(t)が入力され、これを第１信号レベル計算部１０４での処理で用いるものと同じ短時間窓でフレームとして切り出し、このフレームごとに平均値をとるなどにより信号の大きさ（第２信号レベルＡ_２(t)）を計算して出力する（Ｓ４−ｃ）。なお、信号の大きさを表す尺度は、比較対照を行うという観点から第１信号レベル計算部で適用するものと同じものとする。

第２表示部３０２は、上記第２信号レベルＡ_２(t)が入力され、これを同じフレームに係る第１表示部３０１への表示と同時に表示する（Ｓ５−ｃ）。

ユーザへの提示方法の例を図９に示す。入力信号用レベルメータ３１１と信号利用装置入力信号用レベルメータ３１２とを並べて表示する。入力信号用レベルメータ３１１は、第２表示部３０２のレベルメータであり、雑音抑圧前の信号レベルを逐次ユーザに提示する。信号利用装置入力信号用レベルメータ３１２は、実施形態１で説明した第１表示部１０８のレベルメータである。

第３実施形態においては、第２実施形態と同様、入力音声信号の大きさ・品質についてユーザが逐次知ることができるとともに、雑音が重畳した入力音声信号に対し雑音成分の抑圧がなされ、ディジタル音声信号を利用する通信機器や音響装置等にＳＮ比の改善がなされた信号を供給できる。それに加えて、更に雑音抑圧前のレベルメータと雑音抑圧後のレベルメータとを並べて表示することで、雑音抑圧部の動作状況についても把握することができる。

〔第４実施形態〕
図１０は、本発明の音声信号レベル表示装置４００の機能構成例である。また、図１１は処理フローである。
音声信号レベル表示装置４００は、音声信号入力部１０１、入力ゲイン調整部１０２、Ａ／Ｄ変換部１０３、雑音抑圧パラメータ生成部４０１、雑音抑圧部４０２、第１信号レベル計算部１０４、スペクトル特徴量計算部１０５、音声モデル格納部１０６、音声尤度計算部１０７及び第１表示部１０８から構成される。つまり、第２実施形態の構成に雑音抑圧パラメータ生成部４０１を加え、雑音抑圧部２０１の代わりに雑音抑圧部４０２を適用する構成である。

雑音抑圧パラメータ生成部４０１は、入力手段を有し、そこからの入力値に応じて雑音抑圧パラメータを生成して出力する（Ｓ７）。
雑音抑圧部４０２は、Ａ／Ｄ変換部１０３からのディジタル信号が入力され、雑音抑圧パラメータ生成部４０１で生成したパラメータに基づき、雑音成分を抑圧して、雑音抑圧ディジタル信号を出力する（Ｓ７）。

周囲の雑音が多い場合でも、雑音抑圧部による雑音抑圧機能が良好に動作している場合には音声尤度は大きくなり、良好な品質の信号を通信機器や録音装置等に提供できる。しかし、雑音が非定常的な場合や、雑音抑圧部による雑音成分の推定が適切に行われていない場合には雑音抑圧部の出力信号にスペクトル的な歪みや雑音が残留する。

そこで、歪みや雑音の状況に応じて雑音抑圧量を調整できるように、ユーザが適宜入力した値に応じて雑音抑圧パラメータを生成する雑音抑圧パラメータ生成部４０１を設けると共に、雑音抑圧部２０１に雑音抑圧パラメータ生成部４０１で生成したパラメータにより雑音抑圧量を変化できる機能を付加した雑音抑圧部４０２を設けた構成が、第４実施形態である。

雑音抑圧パラメータ生成部４０１へのユーザによる入力手段は、ツマミ、スライドスイッチ、ボタン等いかなる手段でも構わない。また、入力される値は連続的なものでも段階的なものでも構わない。

雑音抑圧パラメータは、例えば式(2)においてはサブトラクション係数αがそれにあたる。サブトラクション係数を大きくすると、雑音が重畳した入力信号から観測推定した雑音成分を強く除去することになる。逆に、サブトラクション係数を小さくすると、雑音が重畳した入力信号から観測推定した信号を弱く除去することになる。

第４実施形態においては、ユーザは第１表示部１０８に表示される信号レベル、音声尤度値を参照しながら適宜雑音抑圧量を調整できるため、より品質の良好なディジタル音声信号を通信機器や音響装置等に供給することができる。

〔第５実施形態〕
図１２は、本発明の音声信号レベル表示装置５００の機能構成例である。また、図１３は処理フローである。
音声信号レベル表示装置５００は、音声信号入力部１０１、ゲイン制御部５０１、入力ゲイン調整部５０２、Ａ／Ｄ変換部１０３、雑音抑圧パラメータ生成部５０３、雑音抑圧部４０２、第１信号レベル計算部１０４、スペクトル特徴量計算部１０５、音声モデル格納部１０６、音声尤度計算部１０７及び第１表示部１０８から構成される。つまり、第２実施形態の構成にゲイン制御部５０１を加え、入力ゲイン調整部１０２の代わりに入力ゲイン調整部５０２を、雑音抑圧パラメータ生成部４０１の代わりに雑音抑圧パラメータ生成部５０３をそれぞれ適用する構成である。

ゲイン制御部５０１は、第１信号レベルが入力され、そのレベルに応じて、ゲイン制御信号を出力する（Ｓ８）。
入力ゲイン調整部５０２は、上記入力音声信号が入力され、上記ゲイン制御信号に基づきゲインを調整して、以降の処理が可能な強度の音声信号を出力する（Ｓ８）。
雑音抑圧パラメータ生成部５０３は、上記音声尤度値が入力され、この入力値に応じて雑音抑圧パラメータを生成して出力する（Ｓ８）。

第４実施形態においては、雑音抑圧量の調整はユーザの入力操作により行うが、第５実施形態では音声尤度計算部で計算した音声尤度値を雑音抑圧パラメータ生成部にフィードバックして、この値に基づき雑音抑圧パラメータ生成部５０３が雑音抑圧パラメータを生成して雑音抑圧量の調整を行う。

また、第５実施形態においては入力信号のゲインの調整についても、現状の出力信号レベル（ここでは第１信号レベル）に基づきゲイン制御部５０１においてゲイン制御信号を生成・出力し、入力ゲイン調整部１０２にゲイン制御部５０１で生成したゲイン制御信号によりゲイン調整できる機能を付加した入力ゲイン調整部５０２にフィードバックしてゲインの調整を行う。

このようにフィードバックによる自動調整機能を設けることで、より品質の良好なディジタル信号を、人手を介すことなく通信機器や音響装置等に供給することができる。

本発明は、音声信号を各種装置等に入力する際に、より品質の良好な信号が入力されるようにしたい場合に有用である。

本発明の音声信号レベル表示装置の第１実施形態の構成図。本発明の音声信号レベル表示装置の第１実施形態の処理フロー図。本発明の第１表示部の表示例（その１）。本発明の第１表示部の表示例（その２）。本発明の音声信号レベル表示装置の第２実施形態の構成図。本発明の音声信号レベル表示装置の第２実施形態の処理フロー図。本発明の音声信号レベル表示装置の第３実施形態の構成図。本発明の音声信号レベル表示装置の第３実施形態の処理フロー図。本発明の音声信号レベル表示装置の第３実施形態における第１、第２表示部の表示例。本発明の音声信号レベル表示装置の第４実施形態の構成図。本発明の音声信号レベル表示装置の第４実施形態の処理フロー図。本発明の音声信号レベル表示装置の第５実施形態の構成図。本発明の音声信号レベル表示装置の第５実施形態の処理フロー図。

Claims

入力された音声信号のレベルを表示する音声信号レベル表示装置であり、
音声信号が入力され、ゲインを調整して処理に適正なレベルで信号を出力する入力ゲイン調整部と、
上記信号が入力され、ディジタル信号に変換して出力するＡ／Ｄ変換部と、
上記ディジタル信号が入力され、これを短時間窓で切り出したフレームごとに信号の大きさを計算して第１信号レベルを出力する第１信号レベル計算部と、
上記ディジタル信号が入力され、これを上記短時間窓で切り出したフレームごとにスペクトル特徴量を計算して出力するスペクトル特徴量計算部と、
クリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ：Gaussian Mixture Model）パラメータを記憶する音声モデル格納部と、
上記スペクトル特徴量が入力され、上記確率モデルパラメータを用いて音声尤度値を計算して出力する音声尤度計算部と、
上記第１信号レベルと上記音声尤度値とが入力され、その両方を上記フレームごとに同時に表示する第１表示部と、
を具備することを特徴とする音声信号レベル表示装置。
請求項１に記載の音声信号レベル表示装置において、更に、
上記Ａ／Ｄ変換部から出力されたディジタル信号が入力され、雑音成分を抑圧し、この雑音成分を抑圧したディジタル信号を上記第１信号レベル計算部及び上記スペクトル特徴量計算部に入力するディジタル信号として出力する雑音抑圧部を具備することを特徴とする音声信号レベル表示装置。
請求項２に記載の音声信号レベル表示装置において、更に、
上記Ａ／Ｄ変換部から出力されたディジタル信号が入力され、これを一定時間ごとに切り出したフレームごとに信号の大きさを計算して第２信号レベルを出力する第２信号レベル計算部と、
上記第２信号レベルが入力され、上記フレームごとに表示する第２表示部と、
を具備することを特徴とする音声信号レベル表示装置。
請求項２又は３のいずれかに記載の音声信号レベル表示装置において、更に、
入力手段を有し、そこからの入力操作に応じて雑音抑圧パラメータを生成して出力する雑音抑圧パラメータ生成部を具備し、
上記雑音抑圧部は、上記生成した雑音抑圧パラメータに応じて雑音成分抑圧量が可変であることを特徴とする音声信号レベル表示装置。
請求項４に記載の音声信号レベル表示装置において、
上記第１信号レベルが入力され、そのレベルに応じて上記入力ゲイン調整部がゲイン調整する度合いを制御するためのゲイン制御信号を出力するゲイン制御部を具備し、
上記入力ゲイン調整部は、上記ゲイン制御信号に基づきゲインを調整し、
上記雑音抑圧パラメータ生成部は、上記音声尤度値に応じて雑音抑圧パラメータを生成する、
ことを特徴とする音声信号レベル表示装置。
入力された音声信号のレベルを表示する音声信号レベル表示方法であり、
入力ゲイン調整部が、入力された音声信号のゲインを調整して処理に適正なレベルで信号を出力する入力ゲイン調整ステップと、
Ａ／Ｄ変換部が、上記信号をディジタル信号に変換するＡ／Ｄ変換ステップと、
第１信号レベル計算部が、上記ディジタル信号を短時間窓で切り出したフレームごとの信号の大きさである第１信号レベルを計算する第１信号レベル計算ステップと、
上記ディジタル信号を上記短時間窓で切り出したフレームごとにスペクトル特徴量を計算するスペクトル特徴量計算ステップと、
音声尤度計算部が、上記スペクトル特徴量とクリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータとから音声尤度値を計算する音声尤度計算ステップと、
第１表示部が、上記第１信号レベルと上記音声尤度値との両方を上記フレームごとに同時に表示する第１表示ステップと、
を実行することを特徴とする音声信号レベル表示方法。
請求項６に記載の音声信号レベル表示方法において、更に、
雑音抑圧部が、上記Ａ／Ｄ変換部から出力されたディジタル信号の雑音成分を抑圧し、この雑音成分を抑圧したディジタル信号を上記第１信号レベル計算部及び上記スペクトル特徴量計算部に入力するディジタル信号として出力する雑音抑圧ステップを実行することを特徴とする音声信号レベル表示方法。
請求項７に記載の音声信号レベル表示方法において、更に、
第２信号レベル計算部が、上記Ａ／Ｄ変換部から出力されたディジタル信号を一定時間ごとに切り出したフレームごとの信号の大きさである第２信号レベルを計算する第２信号レベル計算ステップと、
第２表示部が、上記第２信号レベルを上記フレームごとに表示する第２表示ステップと、
を実行することを特徴とする音声信号レベル表示方法。
請求項７又は８のいずれかに記載の音声信号レベル表示方法において、更に、
雑音抑圧パラメータ生成部が、入力手段からの入力操作に応じて雑音抑圧パラメータを生成する雑音抑圧パラメータ生成ステップを実行し、
上記雑音抑圧ステップにおいては、上記生成した雑音抑圧パラメータに応じて雑音成分抑圧量を変化させることを特徴とする音声信号レベル表示方法。
請求項９に記載の音声信号レベル表示方法において、
ゲイン制御部が、第１信号レベルに応じて上記入力ゲイン調整部がゲイン調整する度合いを制御するためのゲイン制御信号を出力するゲイン制御ステップを実行し、
上記入力ゲイン調整ステップにおいては、上記ゲイン制御信号に基づきゲインを調整し、
上記雑音抑圧パラメータ生成ステップにおいては、上記音声尤度値に応じて雑音抑圧パラメータを生成する
ことを特徴とする音声信号レベル表示方法。