JP2008257042A - 音声信号レベル表示装置およびその方法 - Google Patents

音声信号レベル表示装置およびその方法 Download PDF

Info

Publication number
JP2008257042A
JP2008257042A JP2007100647A JP2007100647A JP2008257042A JP 2008257042 A JP2008257042 A JP 2008257042A JP 2007100647 A JP2007100647 A JP 2007100647A JP 2007100647 A JP2007100647 A JP 2007100647A JP 2008257042 A JP2008257042 A JP 2008257042A
Authority
JP
Japan
Prior art keywords
signal level
signal
unit
input
noise suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007100647A
Other languages
English (en)
Inventor
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007100647A priority Critical patent/JP2008257042A/ja
Publication of JP2008257042A publication Critical patent/JP2008257042A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract


【課題】各種装置等に音声信号を入力する際、ユーザに対して入力音声信号の大きさだけでなく、品質情報についても提示し、その提示情報に応じてユーザ自らが入力環境を適切に改善できるようにする。
【解決手段】音声信号入力部101から入力された音声信号のゲインを入力ゲイン調整部102で適正レベルに調整し、A/D変換部103でディジタル信号に変換し、このディジタル信号について一定時間ごとに切り出したフレームごとに、第1信号レベル計算部104で第1信号レベルを計算するとともに、音声尤度計算部107でスペクトル特徴量計算部105において求めた上記ディジタル信号の特徴量とクリーン音声信号の確率モデル(GMM)パラメータとから音声尤度値を計算する。そして、同一フレームの上記第1信号レベルと上記音声尤度値とを表示部108に表示する。
【選択図】図1

Description

本発明は、音声を入力する装置において入力信号のレベルを表示する、音声信号レベル表示装置およびその方法に関する。
マン・マシンインタフェースを考えたとき、音声を入力する装置には、マイクなどの信号入力手段から入力された信号のレベルをユーザに提示する手段を備えていることが望ましい。
ここで音声を入力する装置とは、例えば、一般の電話端末、電話会議用端末、TV会議用端末等の通信機器のほか、ICレコーダー等の音声記録装置、音声認識機能を有する端末装置等である。また、専用装置ではなく、パソコンのアプリケーションソフトウェアとして実装されるものも含む。
入力信号レベルを表示することにより、ユーザは発声した音声が適切なレベルにあるか否かを知ることができる。
入力信号レベルが過小であると、入力音声と背景雑音とのSN比(信号対雑音比)が低下する。一方、入力信号レベルが過大であると、クリッピングを起こして入力信号波形が歪む。このような状況下では、通信機器では受信側で送信側の音声を聞き取りにくくなるといった問題が発生し、また、音声認識装置では音声認識率が低下するといった問題が発生する。
入力信号レベルをユーザに提示することで、ユーザはそれを見ながら自らの声の大きさを調整したり、機器のゲインを調整したりすることができる。また、適正なレベルになるよう装置内部でゲインを自動的に調整する方法もある。
従来、入力信号レベルのユーザへの提示手段としては、例えばパワーや対数パワー、振幅などを短時間ごとに計算し、これをレベルメータにより提示するという手段があった。
また、ユーザに入力信号の状態をSN比として提示することも考えられ、その方法としては、例えば2本のマイクを使用し、周囲の雑音の音圧と入力音声の音圧との比を表示するという手段〔特許文献1〕があった。
特開平5−231922号公報
従来の入力信号レベル表示は、入力信号のパワーや振幅について情報を与えていたが、入力信号の品質、特に、スペクトル情報に代表されるいわゆる音声らしさについて何ら情報を与えるものではなかった。
入力音声のスペクトル歪み、スペクトルに重畳する雑音に起因する音声品質の劣化は、例えば、近くの雑音源を排除したり、雑音原からマイクを遠ざけたり、機器内の雑音発生源を調べたり、またマイクとスピーカの配置を変えたりなどのユーザ自らの措置により、軽減が可能である。
しかしユーザは、そもそも自ら発声した音声が受信側や音声認識装置側へどのような品質で伝送され、どのような状況になっているかを知ることができなかったため、もし品質が悪い場合にも上記のような措置の採りようがなく、品質が悪いまま受信側や音声認識装置側に伝送されるという問題が生じていた。
この問題が実際にどのような場面で生じるか、以下に代表的な例を示す。
例えば、TV会議装置と共に設置される卓上マイク(バウンダリマイク)を使用した場合を考える。発言者が紙の資料を見ながら発言する際に、紙が卓上マイクに触れると紙が擦れる音と発言者の音声が重畳して収音され、受信側に不快な音が伝送される場合がある。発言者は紙がマイクに触れていることに気づかないことが多々あり、受信側から指摘されるまで不快な状態が継続するという問題が生じる。
また、TV会議や電話会議などの拡声通話においては、エコーキャンセラによるエコー防止が必須になる。マイクとスピーカの配置によっては、エコーキャンセラの機能が十分に働かず、エコーが回り込んで相手側に戻ってしまう場合(音響結合量が大きい場合)がある。エコー量が非常に大きい場合にはハウリングが生じるため発声者自身で検知できるが、エコー量が小さい場合は、周囲の微弱な雑音なのかエコーなのかは、パワーや振幅の表示だけでは判断が難しい。このような場合にも、受信側はエコーを聞きながら通話するという不快な状態が継続するという問題が生じる。
更に、コンタクトセンタ等でオペレータが顧客と対話する環境では、顧客満足度向上の観点から、オペレータの音声が明瞭に顧客に伝わることが重要である。しかし、オペレータが集約されたセンタにおいて、コール数がピークを迎えた時、オペレータの周囲は他のオペレータの音声やPCを操作する音や資料をめくる音等で騒然となる。そのような環境で埋没しているオペレータにとっては、周囲雑音がどの程度ヘッドセットマイクに回り込み、自らの音声がどの程度の品質で顧客側に伝送されているかを知ることは容易ではない。顧客がオペレータの音声を聞きづらいと感じれば、コミュニケーションがスムーズにできない等、顧客満足度の低下を招くという問題が生じる。
雑音環境下での収音対策として、入力信号中に含まれる雑音成分を推定して抑圧することでSN比を改善する方法を併用する場合もある。雑音を抑圧する方法としては、スペクトルサブトラクション法やウィーナーフィルタ法等があるが、いずれの雑音抑圧方法をもってしても、音声に重畳した雑音を完全に取り去ることは現実的には不可能である。残留する雑音のレベルは、音声に混入した雑音の種類、性質、レベル等と雑音抑圧方法との関係で変動するが、いずれにしろユーザは残留する雑音のレベルを知ることができず、それゆえ、残留する雑音による品質劣化への対処のとりようがなかった。
また、SN比のレベルについては、上記の〔特許文献1〕の技術により知ることはできたが、そもそもSN比は音声らしさ、即ち音声スペクトルの歪を計測するものではない。加えて、雑音観測用と入力音声用の2本のマイクが必要になり構成が複雑になること、1本で解決しようとすると音声入力前の事前の雑音観測が必要になり、上記の例の中で挙げた紙が擦れる雑音のように突然重畳した雑音に対して対応することができない。
それゆえ本発明の目的は、ユーザに対して入力音声信号の大きさだけでなく、品質情報についても提示し、その提示情報に基づきユーザ自らが入力環境を適切に改善できるようにすることにある。
本発明の音声信号レベル表示装置は、入力ゲイン調整部、A/D変換部、第1信号レベル計算部、スペクトル特徴量計算部、音声モデル格納部、音声尤度計算部及び第1表示部から構成される。
入力ゲイン調整部は、音声信号が入力され、ゲインを調整して処理に適正なレベルで信号を出力する。
A/D変換部は、上記信号が入力され、ディジタル信号に変換して出力する。
第1信号レベル計算部は、上記ディジタル信号が入力され、これを一定時間ごとに切り出したフレームごとに信号の大きさを計算して第1信号レベルを出力する。
スペクトル特徴量計算部は、上記ディジタル信号が入力され、これを上記一定時間ごとに切り出したフレームごとにスペクトル特徴量を計算して出力する。
音声モデル格納部は、クリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する。
音声尤度計算部は、上記スペクトル特徴量が入力され、上記確率モデルパラメータを用いて音声尤度値を計算して出力する。
第1表示部は、上記第1信号レベルと上記音声尤度値とが入力され、その両方を上記フレームごとに同時に表示する。
本発明の音声信号レベル表示装置によれば、GMMを基準として計算される入力音声信号の尤度値を通じ、ユーザに入力音声信号への雑音・歪みの付加状況(品質劣化度合い)を提示することができる。
そしてユーザは、その提示内容に応じて自らが入力環境を適切に改善できる。
以下、図面を参照しつつ、本発明の実施形態例について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を記してある。また、それらの名称、機能も同一であり、それらについての説明は繰り返さない。
〔第1実施形態〕
図1は、本発明の音声信号レベル表示装置100の機能構成例である。また、図2は処理フローである。
音声信号レベル表示装置100は、音声信号入力部101、入力ゲイン調整部102、A/D変換部103、第1信号レベル計算部104、スペクトル特徴量計算部105、音声モデル格納部106、音声尤度計算部107及び第1表示部108から構成される。
音声信号入力部101は、信号のレベル・品質の表示対象とするアナログ音声信号X(t)を入力する部位である(S1)。
入力ゲイン調整部102は、上記アナログ音声信号X(t)が入力され、ゲインを調整して以降の処理が可能な強度の音声信号X(t)´を出力する(S2)。
A/D変換部103は、上記音声信号X(t)´が入力され、ディジタル音声信号X(t)に変換して出力する(S3)。
また、ディジタル音声信号を利用する装置やソフトウェア、例えば、通信機器や音響装置、音声認識ソフトウェアなどに対しては、ここからディジタル音声信号を出力する。
第1信号レベル計算部104は、上記ディジタル音声信号X(t)が入力され、信号の時間的な変化をとらえるため、これを短時間窓(一般には10〜30ms程度)でフレームとして切り出し、このフレームごとに平均値をとるなどにより信号の大きさ(第1信号レベルA(t))を計算して出力する(S4−a)。ここで、信号の大きさは例えば、パワー、対数パワー及び振幅等、任意の尺度で表して構わない。
スペクトル特徴量計算部105は、上記ディジタル音声信号X(t)が入力され、これを第1信号レベル計算部104の処理で用いたものと同じ短時間窓でフレームとして切り出し、このフレームごとにスペクトル特徴量x(D次元ベクトル)を計算して出力する(S4−b1)。スペクトル特徴量としては、例えば、FFTの結果をフィルタバンクに通して得られる特徴量、音声認識処理のスペクトル特徴量として一般に用いられるFFTケプストラム、線形予測分析(LPC)によって得られるLPCケプストラム等が挙げられる。また、これらの特徴量(ベクトル)時系列に対して別の短時間窓(一般には50〜90ms)を設定して、その窓中での特徴量の一次微係数(Δ成分)から得られる特徴量を用いることもできる。
音声モデル格納部106は、クリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータを記憶する。
ここで、クリーン音声信号とは雑音や歪みが存在しない音声信号をいう。また、GMM(Gaussian Mixture Model)とは大量の音声データから得られるスペクトル特徴量の分布を複数(M個)の正規分布で表現した確率モデルであり、複数の正規分布で表現することから、単一の正規分布で表現するよりも複雑な特徴量分布を表現することができる。
M個の正規分布は、それぞれ平均ベクトルμ、共分散行列Σ及び重み係数wの各パラメータにより表すことができる。μはi番目の正規分布の平均ベクトル(D次元ベクトル)である。Σはi番目の正規分布の共分散行列(D×D)で、対角共分散行列が用いられることが多い。wはi番目の正規分布に対する重み係数である。
これらのパラメータは、雑音や歪みの無いクリーンな音声データを用いて、EMアルゴリズムによる学習により生成する。様々な音声特徴量を学習するためにより多くの話者の音声で学習することが望ましい。また、音声の子音にはs、shのような雑音に近い音素があるため、学習データから母音区間だけを抽出して学習すると、より音声らしさが音声尤度値に表れる。また、母音特徴のみの学習になるため、混合正規分布数Mを削減でき、計算量を減らすことができる。ただし、この場合子音部分で音声尤度値が明らかに低下するため、音声尤度値の時系列に対して何らかのスムージング処理が必要になる。
音声尤度計算部107は、上記スペクトル特徴量xが入力され、上記GMMパラメータμ、Σ及びwを用いて次式によりある時刻(フレーム)tにおける音声尤度値p(x)を計算する(S4−b2)。
Figure 2008257042
上式により入力音声から得られるスペクトル特徴量xと音声GMMとの尤度を計算すると、入力音声に雑音や歪みが無い場合は尤度が大きく、逆に入力音声に雑音が重畳している場合や歪みがある場合は尤度が小さくなる。つまり、尤度はクリーンな音声らしさを数値で表現しているといえる。
従って、ユーザに音声尤度値を提示することで、ユーザは入力中の音声にスペクトル的な雑音・歪み(品質劣化)がどの程度あるかを知ることができる。
なお、第1信号レベル計算処理(S4−a)と、スペクトル特徴量計算処理(S4−b1)及び音声尤度計算処理(S4−b2)とは並行処理が可能である。
第1表示部108は、上記第1信号レベルA(t)と上記音声尤度値p(x)とが入力され、その両方を上記フレームごとに同時に表示する(S5−ab)。
信号レベルと音声尤度値を同時に表示する方法には様々なものが考えられる。
例えば、図3のように棒グラフ形式で表示する方法がある。この場合、信号レベルについては信号レベルメータのレベル棒111の幅を変化させることにより表現する。一方、音声尤度値については、信号レベルメータの背景部112や枠部113の色を尤度値によって変化させることにより表現することが考えられる。このように色で表現する場合には、尤度値を予め決められた段階に従って色に変換してもよいし、尤度値に従って色を連続的に変化させてもよい。
また、図4のように信号レベルメータとは別に音声らしさを表現するためのシンボルを設けて図3の信号レベルメータと同時にこのシンボルの色を尤度値に従って変化させる方法や、数値表示部を設けて直接尤度値を表示する方法なども考えられる。
以上のように、本実施形態によればユーザは音声入力時に信号の入力レベルだけでなく雑音・歪みの付加状況(品質劣化度合い)を知ることができる。
そのため、例えば音声を発していない状態での入力レベルからパワーや振幅としての雑音の度合いを把握できるのはもちろん、入力レベルのみでは把握が難しい品質の劣化の度合いも把握できるため、これらの情報に基づいてマイクを雑音源から遠ざけたり、話者自らがマイクに近づいたりすることで、より良好なディジタル音声信号を通信機器や音響装置等に供給することができる。
〔第2実施形態〕
図5は、本発明の音声信号レベル表示装置200の機能構成例である。また、図6は処理フローである。
音声信号レベル表示装置200は、音声信号入力部101、入力ゲイン調整部102、A/D変換部103、雑音抑圧部201、第1信号レベル計算部104、スペクトル特徴量計算部105、音声モデル格納部106、音声尤度計算部107及び第1表示部108から構成される。つまり、雑音抑圧部201以外は第1実施形態と同じ構成である。
雑音抑圧部201は、A/D変換部103からのディジタル音声信号X(t)が入力され、雑音成分を抑圧して、雑音抑圧ディジタル音声信号X(t)を出力し(S6)、第1信号レベル計算部104及びスペクトル特徴量計算部105は、この雑音抑圧ディジタル音声信号X(t)を入力ディジタル音声信号として処理を行う。
また、ディジタル音声信号を利用する装置やソフトウェア、例えば、通信機器や音響装置、音声認識ソフトウェアなどに対しては、第1実施形態のようにA/D変換部103からではなく、ここからディジタル音声信号を出力する。
ここでの雑音抑圧法としては、例えば、スペクトルサブトラクション法やウィーナーフィルタ法等が利用できる。ここでは、代表的なスペクトルサブトラクション法について説明する。
時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルY(t,f)は、式(2)のように計算される。
Figure 2008257042
ここでY(t,f)は雑音が重畳した入力音声信号の時刻t、周波数fのパワースペクトル、N(f)は推定された周波数fの時間平均雑音パワースペクトルである。また、αは雑音成分の抑圧の程度を調整するパラメータであるサブトラクション係数、βはフロアリング係数である。
一般に、スペクトルサブトラクション法に代表される雑音抑圧法は、周囲雑音が非定常的で雑音成分N(f)の推定精度が悪いと、雑音の消し残り(残留雑音)が増えたり、雑音成分を過剰に推定してしまうことで音声が歪んだりする場合があるが、周囲雑音が定常的で雑音が良好に抑圧されている状況下では、原音声に近い信号を生成することができる。
第2実施形態においては、第1実施形態の構成に雑音抑圧部を加えることで、第1実施形態と同様、入力音声信号の大きさ・品質についてユーザが逐次知ることができるのはもちろん、雑音が重畳した入力音声信号に対し雑音成分の抑圧がなされるため、ディジタル信号を利用する通信機器や音響装置等にSN比の改善がなされた信号を供給できる。
〔第3実施形態〕
図7は、本発明の音声信号レベル表示装置300の機能構成例である。また、図8は処理フローである。
音声信号レベル表示装置300は、音声信号入力部101、入力ゲイン調整部102、A/D変換部103、雑音抑圧部201、第1信号レベル計算部104、スペクトル特徴量計算部105、音声モデル格納部106、音声尤度計算部107、第1表示部108、第2信号レベル計算部301及び第2表示部302から構成される。つまり、第2実施形態の構成に第2信号レベル計算部301と第2表示部302を加えた構成である。
雑音抑圧部201は、A/D変換部103からのディジタル音声信号X(t)が入力され、雑音成分を抑圧して、雑音抑圧ディジタル音声信号X(t)を出力し(S6)、第1信号レベル計算部104及びスペクトル特徴量計算部105は、この雑音抑圧ディジタル音声信号X(t)を入力ディジタル信号として処理を行う。
第2信号レベル計算部301は、上記ディジタル音声信号X(t)が入力され、これを第1信号レベル計算部104での処理で用いるものと同じ短時間窓でフレームとして切り出し、このフレームごとに平均値をとるなどにより信号の大きさ(第2信号レベルA(t))を計算して出力する(S4−c)。なお、信号の大きさを表す尺度は、比較対照を行うという観点から第1信号レベル計算部で適用するものと同じものとする。
第2表示部302は、上記第2信号レベルA(t)が入力され、これを同じフレームに係る第1表示部301への表示と同時に表示する(S5−c)。
ユーザへの提示方法の例を図9に示す。入力信号用レベルメータ311と信号利用装置入力信号用レベルメータ312とを並べて表示する。入力信号用レベルメータ311は、第2表示部302のレベルメータであり、雑音抑圧前の信号レベルを逐次ユーザに提示する。信号利用装置入力信号用レベルメータ312は、実施形態1で説明した第1表示部108のレベルメータである。
第3実施形態においては、第2実施形態と同様、入力音声信号の大きさ・品質についてユーザが逐次知ることができるとともに、雑音が重畳した入力音声信号に対し雑音成分の抑圧がなされ、ディジタル音声信号を利用する通信機器や音響装置等にSN比の改善がなされた信号を供給できる。それに加えて、更に雑音抑圧前のレベルメータと雑音抑圧後のレベルメータとを並べて表示することで、雑音抑圧部の動作状況についても把握することができる。
〔第4実施形態〕
図10は、本発明の音声信号レベル表示装置400の機能構成例である。また、図11は処理フローである。
音声信号レベル表示装置400は、音声信号入力部101、入力ゲイン調整部102、A/D変換部103、雑音抑圧パラメータ生成部401、雑音抑圧部402、第1信号レベル計算部104、スペクトル特徴量計算部105、音声モデル格納部106、音声尤度計算部107及び第1表示部108から構成される。つまり、第2実施形態の構成に雑音抑圧パラメータ生成部401を加え、雑音抑圧部201の代わりに雑音抑圧部402を適用する構成である。
雑音抑圧パラメータ生成部401は、入力手段を有し、そこからの入力値に応じて雑音抑圧パラメータを生成して出力する(S7)。
雑音抑圧部402は、A/D変換部103からのディジタル信号が入力され、雑音抑圧パラメータ生成部401で生成したパラメータに基づき、雑音成分を抑圧して、雑音抑圧ディジタル信号を出力する(S7)。
周囲の雑音が多い場合でも、雑音抑圧部による雑音抑圧機能が良好に動作している場合には音声尤度は大きくなり、良好な品質の信号を通信機器や録音装置等に提供できる。しかし、雑音が非定常的な場合や、雑音抑圧部による雑音成分の推定が適切に行われていない場合には雑音抑圧部の出力信号にスペクトル的な歪みや雑音が残留する。
そこで、歪みや雑音の状況に応じて雑音抑圧量を調整できるように、ユーザが適宜入力した値に応じて雑音抑圧パラメータを生成する雑音抑圧パラメータ生成部401を設けると共に、雑音抑圧部201に雑音抑圧パラメータ生成部401で生成したパラメータにより雑音抑圧量を変化できる機能を付加した雑音抑圧部402を設けた構成が、第4実施形態である。
雑音抑圧パラメータ生成部401へのユーザによる入力手段は、ツマミ、スライドスイッチ、ボタン等いかなる手段でも構わない。また、入力される値は連続的なものでも段階的なものでも構わない。
雑音抑圧パラメータは、例えば式(2)においてはサブトラクション係数αがそれにあたる。サブトラクション係数を大きくすると、雑音が重畳した入力信号から観測推定した雑音成分を強く除去することになる。逆に、サブトラクション係数を小さくすると、雑音が重畳した入力信号から観測推定した信号を弱く除去することになる。
第4実施形態においては、ユーザは第1表示部108に表示される信号レベル、音声尤度値を参照しながら適宜雑音抑圧量を調整できるため、より品質の良好なディジタル音声信号を通信機器や音響装置等に供給することができる。
〔第5実施形態〕
図12は、本発明の音声信号レベル表示装置500の機能構成例である。また、図13は処理フローである。
音声信号レベル表示装置500は、音声信号入力部101、ゲイン制御部501、入力ゲイン調整部502、A/D変換部103、雑音抑圧パラメータ生成部503、雑音抑圧部402、第1信号レベル計算部104、スペクトル特徴量計算部105、音声モデル格納部106、音声尤度計算部107及び第1表示部108から構成される。つまり、第2実施形態の構成にゲイン制御部501を加え、入力ゲイン調整部102の代わりに入力ゲイン調整部502を、雑音抑圧パラメータ生成部401の代わりに雑音抑圧パラメータ生成部503をそれぞれ適用する構成である。
ゲイン制御部501は、第1信号レベルが入力され、そのレベルに応じて、ゲイン制御信号を出力する(S8)。
入力ゲイン調整部502は、上記入力音声信号が入力され、上記ゲイン制御信号に基づきゲインを調整して、以降の処理が可能な強度の音声信号を出力する(S8)。
雑音抑圧パラメータ生成部503は、上記音声尤度値が入力され、この入力値に応じて雑音抑圧パラメータを生成して出力する(S8)。
第4実施形態においては、雑音抑圧量の調整はユーザの入力操作により行うが、第5実施形態では音声尤度計算部で計算した音声尤度値を雑音抑圧パラメータ生成部にフィードバックして、この値に基づき雑音抑圧パラメータ生成部503が雑音抑圧パラメータを生成して雑音抑圧量の調整を行う。
また、第5実施形態においては入力信号のゲインの調整についても、現状の出力信号レベル(ここでは第1信号レベル)に基づきゲイン制御部501においてゲイン制御信号を生成・出力し、入力ゲイン調整部102にゲイン制御部501で生成したゲイン制御信号によりゲイン調整できる機能を付加した入力ゲイン調整部502にフィードバックしてゲインの調整を行う。
このようにフィードバックによる自動調整機能を設けることで、より品質の良好なディジタル信号を、人手を介すことなく通信機器や音響装置等に供給することができる。
本発明は、音声信号を各種装置等に入力する際に、より品質の良好な信号が入力されるようにしたい場合に有用である。
本発明の音声信号レベル表示装置の第1実施形態の構成図。 本発明の音声信号レベル表示装置の第1実施形態の処理フロー図。 本発明の第1表示部の表示例(その1)。 本発明の第1表示部の表示例(その2)。 本発明の音声信号レベル表示装置の第2実施形態の構成図。 本発明の音声信号レベル表示装置の第2実施形態の処理フロー図。 本発明の音声信号レベル表示装置の第3実施形態の構成図。 本発明の音声信号レベル表示装置の第3実施形態の処理フロー図。 本発明の音声信号レベル表示装置の第3実施形態における第1、第2表示部の表示例。 本発明の音声信号レベル表示装置の第4実施形態の構成図。 本発明の音声信号レベル表示装置の第4実施形態の処理フロー図。 本発明の音声信号レベル表示装置の第5実施形態の構成図。 本発明の音声信号レベル表示装置の第5実施形態の処理フロー図。

Claims (10)

  1. 入力された音声信号のレベルを表示する音声信号レベル表示装置であり、
    音声信号が入力され、ゲインを調整して処理に適正なレベルで信号を出力する入力ゲイン調整部と、
    上記信号が入力され、ディジタル信号に変換して出力するA/D変換部と、
    上記ディジタル信号が入力され、これを短時間窓で切り出したフレームごとに信号の大きさを計算して第1信号レベルを出力する第1信号レベル計算部と、
    上記ディジタル信号が入力され、これを上記短時間窓で切り出したフレームごとにスペクトル特徴量を計算して出力するスペクトル特徴量計算部と、
    クリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する音声モデル格納部と、
    上記スペクトル特徴量が入力され、上記確率モデルパラメータを用いて音声尤度値を計算して出力する音声尤度計算部と、
    上記第1信号レベルと上記音声尤度値とが入力され、その両方を上記フレームごとに同時に表示する第1表示部と、
    を具備することを特徴とする音声信号レベル表示装置。
  2. 請求項1に記載の音声信号レベル表示装置において、更に、
    上記A/D変換部から出力されたディジタル信号が入力され、雑音成分を抑圧し、この雑音成分を抑圧したディジタル信号を上記第1信号レベル計算部及び上記スペクトル特徴量計算部に入力するディジタル信号として出力する雑音抑圧部を具備することを特徴とする音声信号レベル表示装置。
  3. 請求項2に記載の音声信号レベル表示装置において、更に、
    上記A/D変換部から出力されたディジタル信号が入力され、これを一定時間ごとに切り出したフレームごとに信号の大きさを計算して第2信号レベルを出力する第2信号レベル計算部と、
    上記第2信号レベルが入力され、上記フレームごとに表示する第2表示部と、
    を具備することを特徴とする音声信号レベル表示装置。
  4. 請求項2又は3のいずれかに記載の音声信号レベル表示装置において、更に、
    入力手段を有し、そこからの入力操作に応じて雑音抑圧パラメータを生成して出力する雑音抑圧パラメータ生成部を具備し、
    上記雑音抑圧部は、上記生成した雑音抑圧パラメータに応じて雑音成分抑圧量が可変であることを特徴とする音声信号レベル表示装置。
  5. 請求項4に記載の音声信号レベル表示装置において、
    上記第1信号レベルが入力され、そのレベルに応じて上記入力ゲイン調整部がゲイン調整する度合いを制御するためのゲイン制御信号を出力するゲイン制御部を具備し、
    上記入力ゲイン調整部は、上記ゲイン制御信号に基づきゲインを調整し、
    上記雑音抑圧パラメータ生成部は、上記音声尤度値に応じて雑音抑圧パラメータを生成する、
    ことを特徴とする音声信号レベル表示装置。
  6. 入力された音声信号のレベルを表示する音声信号レベル表示方法であり、
    入力ゲイン調整部が、入力された音声信号のゲインを調整して処理に適正なレベルで信号を出力する入力ゲイン調整ステップと、
    A/D変換部が、上記信号をディジタル信号に変換するA/D変換ステップと、
    第1信号レベル計算部が、上記ディジタル信号を短時間窓で切り出したフレームごとの信号の大きさである第1信号レベルを計算する第1信号レベル計算ステップと、
    上記ディジタル信号を上記短時間窓で切り出したフレームごとにスペクトル特徴量を計算するスペクトル特徴量計算ステップと、
    音声尤度計算部が、上記スペクトル特徴量とクリーン音声信号の複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから音声尤度値を計算する音声尤度計算ステップと、
    第1表示部が、上記第1信号レベルと上記音声尤度値との両方を上記フレームごとに同時に表示する第1表示ステップと、
    を実行することを特徴とする音声信号レベル表示方法。
  7. 請求項6に記載の音声信号レベル表示方法において、更に、
    雑音抑圧部が、上記A/D変換部から出力されたディジタル信号の雑音成分を抑圧し、この雑音成分を抑圧したディジタル信号を上記第1信号レベル計算部及び上記スペクトル特徴量計算部に入力するディジタル信号として出力する雑音抑圧ステップを実行することを特徴とする音声信号レベル表示方法。
  8. 請求項7に記載の音声信号レベル表示方法において、更に、
    第2信号レベル計算部が、上記A/D変換部から出力されたディジタル信号を一定時間ごとに切り出したフレームごとの信号の大きさである第2信号レベルを計算する第2信号レベル計算ステップと、
    第2表示部が、上記第2信号レベルを上記フレームごとに表示する第2表示ステップと、
    を実行することを特徴とする音声信号レベル表示方法。
  9. 請求項7又は8のいずれかに記載の音声信号レベル表示方法において、更に、
    雑音抑圧パラメータ生成部が、入力手段からの入力操作に応じて雑音抑圧パラメータを生成する雑音抑圧パラメータ生成ステップを実行し、
    上記雑音抑圧ステップにおいては、上記生成した雑音抑圧パラメータに応じて雑音成分抑圧量を変化させることを特徴とする音声信号レベル表示方法。
  10. 請求項9に記載の音声信号レベル表示方法において、
    ゲイン制御部が、第1信号レベルに応じて上記入力ゲイン調整部がゲイン調整する度合いを制御するためのゲイン制御信号を出力するゲイン制御ステップを実行し、
    上記入力ゲイン調整ステップにおいては、上記ゲイン制御信号に基づきゲインを調整し、
    上記雑音抑圧パラメータ生成ステップにおいては、上記音声尤度値に応じて雑音抑圧パラメータを生成する
    ことを特徴とする音声信号レベル表示方法。
JP2007100647A 2007-04-06 2007-04-06 音声信号レベル表示装置およびその方法 Pending JP2008257042A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007100647A JP2008257042A (ja) 2007-04-06 2007-04-06 音声信号レベル表示装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007100647A JP2008257042A (ja) 2007-04-06 2007-04-06 音声信号レベル表示装置およびその方法

Publications (1)

Publication Number Publication Date
JP2008257042A true JP2008257042A (ja) 2008-10-23

Family

ID=39980667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007100647A Pending JP2008257042A (ja) 2007-04-06 2007-04-06 音声信号レベル表示装置およびその方法

Country Status (1)

Country Link
JP (1) JP2008257042A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010286586A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
CN102314883A (zh) * 2010-06-30 2012-01-11 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
JP2013058820A (ja) * 2011-09-07 2013-03-28 Ehime Univ 声量表示端末及び声量表示プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158493A (ja) * 1991-12-10 1993-06-25 Fujitsu Ltd 音声認識装置
JPH0974596A (ja) * 1995-09-06 1997-03-18 Canon Inc 風雑音簡易モニタ装置
JPH11119696A (ja) * 1997-10-09 1999-04-30 Sony Corp ドットマトリクス表示装置によるレベル表示方法
JPH11126093A (ja) * 1997-10-24 1999-05-11 Hitachi Eng & Service Co Ltd 音声入力調整方法および音声入力システム
JPH11212595A (ja) * 1998-01-23 1999-08-06 Olympus Optical Co Ltd 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
JP2004309959A (ja) * 2003-04-10 2004-11-04 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2005257805A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 周期性ノイズ抑圧方法、周期性ノイズ抑圧装置、周期性ノイズ抑圧プログラム
JP2005284191A (ja) * 2004-03-30 2005-10-13 Advanced Telecommunication Research Institute International 音声波形データ表示装置及びそのためのコンピュータプログラム
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158493A (ja) * 1991-12-10 1993-06-25 Fujitsu Ltd 音声認識装置
JPH0974596A (ja) * 1995-09-06 1997-03-18 Canon Inc 風雑音簡易モニタ装置
JPH11119696A (ja) * 1997-10-09 1999-04-30 Sony Corp ドットマトリクス表示装置によるレベル表示方法
JPH11126093A (ja) * 1997-10-24 1999-05-11 Hitachi Eng & Service Co Ltd 音声入力調整方法および音声入力システム
JPH11212595A (ja) * 1998-01-23 1999-08-06 Olympus Optical Co Ltd 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
JP2004309959A (ja) * 2003-04-10 2004-11-04 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2005257805A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 周期性ノイズ抑圧方法、周期性ノイズ抑圧装置、周期性ノイズ抑圧プログラム
JP2005284191A (ja) * 2004-03-30 2005-10-13 Advanced Telecommunication Research Institute International 音声波形データ表示装置及びそのためのコンピュータプログラム
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010286586A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
CN102314883A (zh) * 2010-06-30 2012-01-11 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
CN102314883B (zh) * 2010-06-30 2013-08-21 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
JP2013058820A (ja) * 2011-09-07 2013-03-28 Ehime Univ 声量表示端末及び声量表示プログラム

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
Reddy et al. An individualized super-Gaussian single microphone speech enhancement for hearing aid users with smartphone as an assistive device
CN111149370B (zh) 会议系统中的啸叫检测
Uemura et al. Automatic optimization scheme of spectral subtraction based on musical noise assessment via higher-order statistics
US20090018826A1 (en) Methods, Systems and Devices for Speech Transduction
Marzinzik Noise reduction schemes for digital hearing aids and their use for the hearing impaired
EP3826012B1 (en) Method and device for evaluating performance of speech enhancement algorithm, electronic device and computer-readable storage medium
Ma et al. Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations
JP6371516B2 (ja) 音響信号処理装置および方法
JP2011033717A (ja) 雑音抑圧装置
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
CA2701439C (en) Measuring double talk performance
Rao et al. Smartphone-based real-time speech enhancement for improving hearing aids speech perception
Chao et al. Perceptual contrast stretching on target feature for speech enhancement
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
EP2151820B1 (en) Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
JP2008257042A (ja) 音声信号レベル表示装置およびその方法
Bhat et al. Formant frequency-based speech enhancement technique to improve intelligibility for hearing aid users with smartphone as an assistive device
Bhat et al. Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information
JP7383122B2 (ja) 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
US20090276220A1 (en) Measuring double talk performance
JP4527654B2 (ja) 音声通信装置
CN112133320A (zh) 语音处理装置及语音处理方法
Shankar et al. Smartphone-based single-channel speech enhancement application for hearing aids
Vaziri et al. Evaluating noise suppression methods for recovering the Lombard speech from vocal output in an external noise field

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110624

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120619