JP6077957B2 - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法、及び音声処理プログラム Download PDF

Info

Publication number
JP6077957B2
JP6077957B2 JP2013143078A JP2013143078A JP6077957B2 JP 6077957 B2 JP6077957 B2 JP 6077957B2 JP 2013143078 A JP2013143078 A JP 2013143078A JP 2013143078 A JP2013143078 A JP 2013143078A JP 6077957 B2 JP6077957 B2 JP 6077957B2
Authority
JP
Japan
Prior art keywords
distance
reverberation
unit
speech
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013143078A
Other languages
English (en)
Other versions
JP2015019124A (ja
Inventor
一博 中臺
一博 中臺
圭佑 中村
圭佑 中村
ランディ ゴメス
ランディ ゴメス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013143078A priority Critical patent/JP6077957B2/ja
Priority to US14/265,640 priority patent/US9646627B2/en
Publication of JP2015019124A publication Critical patent/JP2015019124A/ja
Application granted granted Critical
Publication of JP6077957B2 publication Critical patent/JP6077957B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。
室内で放射された音は、壁面や設置物で反射が繰り返されることによって残響が生じる。残響が付加されると周波数特性が原音声から変化するため音声認識率が低下することがある。また、過去に発された音声が現在発されている音声に重畳するため明瞭度が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。
例えば、特許文献1には、逆フィルタ処理部で適応的に同定した帰還経路のインパルス応答を用いて残響空間の伝達関数を求め、残響音声信号を伝達関数の大きさで除算することにより音源信号を復元する残響除去方法について記載されている。特許文献1に記載の残響除去方法では、残響のインパルスレスポンスを推定するが、残響時間は0.2〜2.0秒と比較的長いため、演算量が過大になり処理遅延が著しくなる。そのため、音声認識への応用が広がらなかった。
非特許文献1、2には、音響モデルを用いて算出した尤度に基づき、周波数帯域毎の補正係数を算出し、音響モデルを学習させる方法について記載されている。これらの方法では、残響環境下で収録した音声の各周波数帯域の成分を算出した補正係数で補正し、学習した音響モデルで音声認識を行う。
特許第4396449公報
R.Gomez and T.Kawahara,"Optimization of Dereverberation Parameters based on Likelihood of Speech Recognizer",INTERSPEECH, Speech & Language Processing,International Speech Communication Association,2009,1223−1226 R.Gomez and T.Kawahara,"Robust Speech Recognition based on Dereverberation Parameter Optimization using Acoustic Model Likelihood",IEEE Transactions on Audio, Speech & Language Processing,IEEE,2010,18(7),1708−1716
しかしながら、非特許文献1、2に記載の方法では、音源と収音部との位置関係が、補正係数や音響モデルを定めたときに用いたものと異なる場合、収録した音声から残響成分を適正に推定することができなかったため残響抑圧精度が低下していた。例えば、音源が発話者である場合には、移動することによって収音部で収録される音声の音量が変動するため残響成分の推定精度が低下することがあった。
本発明は上記の点に鑑みてなされたものであり、残響抑圧精度を向上する音声処理装置、音声処理方法、及び音声処理プログラムを提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音源からの音声を収録する収音部と、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、前記音源までの距離として前記収音部が収録した音声について最も尤度が高くなる音響モデルに対応した距離を定める距離取得部と、前記残響特性推定部が推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成部と、前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去部と、を備えることを特徴とする音声処理装置である。
(2)本発明のその他の態様は、前記残響特性推定部が、前記距離取得部が取得した距離に反比例する成分を含む残響特性を推定することを特徴とする(1)の音声処理装置である。
(3)本発明のその他の態様は、前記残響特性推定部が、予め計測した残響特性に基づいて定めた前記反比例する成分の寄与を示す係数を用いて前記残響特性を推定することを特徴とする(2)の音声処理装置である。
(4)本発明のその他の態様は、前記補正データ生成部が、予め定めた周波数帯域毎に前記補正データを生成し、前記残響除去部が、周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することを特徴とする(1)から(3)のいずれかの音声処理装置である
(5)本発明のその他の態様は、前記音声処理装置は、残響が付加された予め定めた距離からの音声を用いて学習された第1の音響モデルと、残響を無視できる環境での音声を用いて学習された第2の音響モデルから、前記距離取得部が取得した距離に応じた第3の音響モデルを予測する音響モデル予測部と、前記音響モデル予測部が予測した第3の音響モデルを用いて音声認識処理を行う音声認識部と、をさらに備えることを特徴とする(1)から(4)のいずれかの音声処理装置である。
(6)本発明のその他の態様は、音声処理装置における音声処理方法において、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得ステップと、前記距離取得ステップで取得した距離に応じた残響特性を推定する残響特性推定ステップと、前記残響特性推定ステップで推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成ステップと、前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去ステップと、を有する音声処理方法である。
(7)本発明のその他の態様は、音声処理装置のコンピュータに、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得手順、前記距離取得手順で取得した距離に応じた残響特性を推定する残響特性推定手順、前記残響特性推定手順で推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成手順、前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去手順、を実行させるための音声処理プログラムである。
上述した(1)、(6)又は(7)の構成によれば、収録された音声から、その都度取得した距離に応じて推定した残響特性が示す残響成分が除去されるので、残響抑圧精度が向上する。また、取得した音声に基づいて、予め学習した音響モデルを用いて音源から収音部までの距離を取得することができるため、距離の取得のためのハードウェアを備えずに残響抑圧精度が向上する。
上述した(2)の構成によれば、残響特性が音源から収音部までの距離に反比例する直接音成分を含むことを仮定することで、精度を損なうことなく少ない演算量で残響特性を推定することができる。
上述した(3)の構成によれば、その時点の残響特性をさらに少ない演算量で推定することができる。
上述した(4)の構成によれば、周波数帯域毎に推定した残響特性に基づいて残響成分が除去されるので、残響抑圧精度が向上する。
上述した(5)の構成によれば、音源から収音部までの取得された距離に基づいて予測された音響モデルが音声認識処理に用いられるため、その距離に応じた残響環境下での音声認識精度が向上する。
本発明の第1の実施形態に係る音声処理装置の配置例を示す平面図である。 本実施形態に係る音声処理装置の構成を示す概略ブロック図である。 係数算出処理の例を示すフローチャートである。 本実施形態に係る補正データ生成部の構成を示す概略ブロック図である。 本実施形態に係る音声処理を示すフローチャートである。 平均RTFの例を示す図である。 RTFの利得の例を示す図である。 音響モデルの一例を示す図である。 処理方法毎の単語認識率の一例を示す図である。 処理方式毎の単語認識率の他の例を示す図である。 処理方式毎の単語認識率の他の例を示す図である。 本発明の第2の実施形態に係る音声処理装置の構成を示す概略ブロック図である。 本実施形態に係る距離検出部の構成を示す概略ブロック図である。 本実施形態に係る距離検出処理を示すフローチャートである。 処理方法毎の単語認識率の一例を示す図である。 処理方法毎の単語認識率の他の例を示す図である。 距離の正答率の例を示す図である。 本実施形態の変形例に係る音声処理装置の構成を示す概略ブロック図である。 本変形例に係る音声処理を示すフローチャートである。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理装置11の配置例を示す平面図である。
この配置例では、残響環境として部屋Rmにおいて発話者Spが収音部12からの距離dだけ離れた位置に所在し、音声処理装置11が収音部12に接続されていることを示す。部屋Rmは、到来した音波を反射する内壁を有する。収音部12は、音源として発話者Spから直接到来した音声と、内壁を反射した音声を収録する。音源から直接到来した音声、反射した音声を、それぞれ直接音(direct sound)、反射音(reflection)と呼ぶ。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短く(例えば、約30ms以下)、反射回数が比較的少なくそれぞれの反射パターンが区別される区間は、初期反射(early reflection)と呼ばれる。反射音のうち、初期反射よりも経過時間が長く、反射回数が多くそれぞれの反射パターンを区別できない区間は、後期反射(late reflection)、後期残響(late reverberation)又は単に残響(reverberation)と呼ばれる。一般的に、初期反射と後期反射とを区分する時間は、部屋Rmの大きさによって異なるが、例えば、音声認識では処理単位となるフレーム長がその時間に相当する。前フレームで処理した直接音及び初期反射に係る後期反射が、現フレームの処理に影響するためである。
一般に、音源が収音部12に近接する(距離dが小さい)ほど、音源からの直接音が主となり相対的に残響の割合が少なくなる。以下の説明では、収音部12で収録される音声のうち、発話者Spが収音部12に近接しているために残響成分が無視できるほど少ない音声を近接発話音声(close−talking speech)と呼ぶことがある。つまり、近接発話音声は、残響成分を含まない又は無視できるほど少ない音声であるクリーン音声(clean speech)の一態様である。これに対し、発話者Spが収音部12から離れているために残響成分を有意に含んでいる音声を遠隔発話音声(distant−talking speech)と呼ぶことがある。従って、「遠隔」とは、必ずしも距離dが大きいことに限られない。
音声処理装置11は、距離検出部101(後述)が検出した音源から収音部12までの距離に応じた残響特性を推定し、推定した残響特性から残響成分の寄与を示す補正データを生成する。音声処理装置11は、生成した補正データに基づいて収録した音声の振幅を補正することにより残響成分を除去し、残響成分を除去した音声について音声認識処理を行う。以下の説明では、残響特性とは後期反射だけではなく、後期反射と初期反射との組み合わせの特性、又は後期反射と初期反射と直接音との組み合わせの特性も意味する。
ここで、音声処理装置11は、音源が収音部12に近接するほど相対的に残響の割合が少なくなるという残響特性を推定し、周波数によって残響成分の割合が異なるという特性を利用して残響成分を除去する。
これにより、残響特性を逐次に計測しなくても音源までの距離に応じた残響特性を推定できるので、入力音声に推定した残響特性を付与した残響を的確に推定することができる。音声処理装置11は、入力音声から推定した残響を除去して得られた残響除去音声の残響抑圧精度を向上ざせることができる。なお、以下の説明では、残響環境下で収録された音声や、残響成分を付加した音声を残響付加音声(reverbed speech)と総称する。
収音部12は、1個又は複数(N個、Nは0よりも大きい整数)のチャネルの音響信号を収録し、収録したNチャネルの音響信号を音声処理装置11に送信する。収音部12には、N個のマイクロホンがそれぞれ異なる位置に配置されている。収音部12は、収録したNチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Nが1よりも大きい場合には、チャネル間で同期がとれていればよい。収音部12の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。
次に、本実施形態に係る音声処理装置11の構成について説明する。
図2は、本実施形態に係る音声処理装置11の構成を示す概略ブロック図である。
音声処理装置11は、距離検出部(距離取得部)101、残響推定部102、音源分離部105、残響除去部106、音響モデル更新部(音響モデル予測部)107、及び音声認識部108を含んで構成される。
距離検出部101は、音源から収音部12の中心部までの距離d’を検出し、検出した距離d’を示す距離データを残響推定部102及び音響モデル更新部107に出力する。以下の説明では、距離検出部101が検出した距離d’と、予め定めた距離dや一般的な説明での距離dと、を区別する。距離検出部101は、例えば、赤外線センサを備える。その場合、距離検出部101は、距離の検出に用いる検出用信号として赤外線を放射し、音源からの反射波を受信する。距離検出部101は、放射した検出用信号と受信した反射波との間の遅延時間を検出する。距離検出部101は、検出した遅延時間と光速に基づいて音源までの距離を算出する。
距離検出部101は、音源までの距離を検出することができれば、赤外線センサの代わりに、超音波センサ等、他の検出手段を備えてもよい。また、距離検出部101は、音源分離部105に入力された音響信号のチャネル間の位相差と、各チャネルに対応するマイクロホンの位置に基づいて音源までの距離を算出してもよい。
残響推定部102は、距離検出部101から入力された距離データが示す距離d’に応じた残響特性を推定する。残響推定部102は、推定した残響特性を除去する(dereverbe)ための補正データを生成し、生成した補正データを残響除去部106に出力する。残響推定部102は、残響特性推定部103と補正データ生成部104とを含んで構成される。
残響特性推定部103は、予め定めた残響モデルに基づいて距離データが示す距離d’に応じた残響特性を推定し、推定した残響特性を示す残響特性データを補正データ生成部104に出力する。
ここで、残響特性推定部103は、残響特性の指標として距離検出部101から入力された距離データが示す距離d’に応じた残響伝達関数(RTF:Reverberation Transfer Function)A’(ω,d’)を推定する。RTFは、周波数ω毎の直接音のパワーに対する残響のパワーの比を示す係数である。
RTF A’(ω,d’)を推定する際、残響特性推定部103は、予め定めた距離dについて周波数ω毎に予め計測したRTF A(ω,d)を用いる。残響特性を推定する処理については後述する。
補正データ生成部104は、残響特性推定部103から入力された残響特性データと音源分離部105から入力された音源毎の音響信号に基づいて、各音源について予め定めた周波数帯域B毎に重み係数(weighting parameters)δb,mを算出する。ここで、mは、1からMの間の整数である。Mは予め定めた帯域数を示す1よりも大きい整数である。重み係数δb,mは、残響付加音声のパワーのうち残響の一部である後期反射のパワーの寄与を示す指標である。補正データ生成部104は、重み係数δb,mで補正した後期反射のパワーと残響付加音声のパワーの差が最小化されるように、重み係数δb,mを算出する。補正データ生成部104は、算出した重み係数δb,mを示す補正データを残響除去部106に出力する。補正データ生成部104の構成については、後述する。
音源分離部105は、収音部12から入力されたNチャネルの音響信号について音源分離処理を行って1個又は複数の音源の音響信号に分離する。音源分離部105は、分離した音源毎の音響信号を補正データ生成部104及び残響除去部106に出力する。
音源分離部105は、音源分離処理として、例えば、GHDSS(Geometric−constrained Highorder Decorrelation−based Source Separation)法を用いる。GHDSS法については、後述する。
なお、音源分離部105は、GHDSS法に代えて、例えば、音源方向を推定し、指定した音源方向に感度が最も高くなるように指向性を制御する適応ビームフォーミング法(adaptive beamforming)を用いてもよい。また、音源方向を推定する際、音源分離部105は、MUSIC(Multiple Signal Classification)法を用いてもよい。
残響除去部106は、音源分離部105から入力された音響信号を周波数帯域B毎の帯域成分に分離する。残響除去部106は、分離した帯域成分毎に残響推定部102から入力された補正データが示す重み係数δb,mを用いて、その帯域成分の振幅を補正することによって残響の一部である後期反射の成分を除去する。残響除去部106は、振幅を補正した帯域成分を周波数帯域B間で合成して残響が除去された音声(残響除去音声、dereverbed speech)を示す残響除去音声信号を生成する。残響除去部106は、入力された音響信号の振幅を補正する際に位相を変更しない。残響除去部106は、生成した残響除去音声信号を音声認識部108に出力する。
残響除去部106は、振幅を補正する際、残響除去音声信号の振幅|e(ω,t)|が例えば式(1)を満たすように算出する。
|e(ω,t)|=|r(ω,t)|−δb,m|r(ω,t)|
(|r(ω,t)|−δb,m|r(ω,t)|)が0より大きい場合)
|e(ω,t)|=β|r(ω,t)| (それ以外の場合) … (1)
式(1)において、r(ω,t)は、音響信号を周波数領域に変換した周波数領域係数を示す。式(1)の上段により音響信号のパワーから後期反射の成分が除去される。式(1)の下段において、βは下限係数(flooring coefficient)である。βは、1よりも0に近似した予め定めた正の微小な値(例えば、0.05)である。このように、β|r(ω,t)|の項を設けて最低限の振幅を維持することで異音が検知されにくくなる。
音響モデル更新部107には、近接発話音声を用いて学習して生成された音響モデルλ(c)と、予め定めた距離dで発話された遠隔発話音声を用いて尤度が最大化されるように学習して生成された音響モデルλ(d)とが予め記憶されている記憶部を備える。音響モデル更新部107は、記憶された2つの音響モデルλ(c)、λ(d)から距離検出部101から入力された距離データが示す距離d’に基づいて予測(predict)して音響モデルλ’を生成する。ここで、符号(c)、(d)は、それぞれ近接発話音声、遠隔発話音声を示す。予測とは、音響モデルλ(c)、λ(d)間での補間(interpolation)と、音響モデルλ(c)、λ(d)からの外挿(extrapolation)のいずれも含む概念である。音響モデル更新部107は、音声認識部108で用いていた音響モデルを、自部が生成した音響モデルλ’に更新する。音響モデルλ’を予測する処理については後述する。
音声認識部108は、残響除去部106から入力された残響除去音声信号について音響モデル更新部107が設定した音響モデルλ’を用いて音声認識処理を行い、発話内容(例えば、単語、文を示すテキスト)を認識し、認識した発話内容を示す認識データを外部に出力する。
ここで、音声認識部108は、残響除去音声信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル(static MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である。
音声認識部108は、算出した音響特徴量について音響モデル更新部107が設定した音響モデルλ’を用いて音素を認識する。音声認識部108は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を認識する。言語モデルは、音素列から単語や文を認識する際に用いられる統計モデルである。
(残響特性を推定する処理)
次に、残響特性を推定する処理について説明する。
残響特性推定部103は、例えば、式(2)、(3)を用いて距離d’に応じたRTF A’(ω,d’)を定める。
A’(ω,d’)=f(d’)A(ω,d) … (2)
式(2)において、f(d’)は、距離d’に依存する利得である。f(d’)は、式(3)で表される。
f(d’)=α/d’+α … (3)
式(3)において、α、αは、それぞれ距離d’に反比例する成分の寄与を示す係数、距離d’に依存しない一定の成分の寄与を示す係数である。
式(2)、(3)は、(i)部屋Rmにおいて音源の位置によってRTFの位相が変化しない、(ii)RTFの振幅は、距離d’に反比例して減衰する成分を含む、という仮定(i)(ii)に基づく。
具体的には、残響特性推定部103は、予め次に説明する処理を行って係数α、αを定めておく。
図3は、係数算出処理の例を示すフローチャートである。
(ステップS101)残響特性推定部103は、i個(iは、1よりも大きい整数、例えば、3個)のRTF A(ω,d)を予め測定しておく。距離d(iは、1からiまでの整数を示す)は、各々異なる距離である。例えば、収音部12が複数のマイクロホンを備える場合には、既知の出力音響信号に基づく音を再生したとき、残響特性推定部103は、各マイクロホンが収録した音響信号を用いてRTF A(ω,d)を取得することができる。その後、ステップS102に進む。
(ステップS102)残響特性推定部103は、取得したRTF A(ω,d)のそれぞれについて、周波数間で平均して平均RTF <A(d)>を算出する。残響特性推定部103は、平均RTF <A(d)>を算出する際、例えば、式(4)を用いる。
Figure 0006077957
式(4)において、|…|は、…の絶対値である。pは、各周波数を示すインデックス(frequency bin)である。p、pは、平均をとる予め定めた周波数区間の最高周波数、最低周波数を示すインデックスである。
その後、ステップS103に進む。
(ステップS103)残響特性推定部103は、平均RTF <A(d)>を式(2)、(3)で示される残響モデルに適合するように、係数(fitting parameters)α、αを算出する。残響特性推定部103は、α、αを算出する際、例えば、式(5)を用いる。
[α,α=([F[F])−1[F[F] … (5)
式(5)において、[…]は、ベクトル又は行列を示す。Tは、ベクトル又は行列の転置を示す。式(6)に示すように、[F]は、距離の逆数1/dと1からなるベクトルを各列に有する行列である。[F]は、平均RTF <A(d)>を各列に有するベクトルである。
Figure 0006077957
その後、図3に示す処理を終了する。
そして、残響特性推定部103は、式(5)、(6)を用いて算出した係数α、αを式(3)に代入して利得f(d’)を算出し、算出した利得f(d’)とステップS101で取得したRTF A(ω,d)の任意のいずれかを式(2)に代入して距離d’に応じたRTF A’(ω,d’)を定める。
(補正データ生成部104の構成)
次に、本実施形態に係る補正データ生成部104の構成について説明する。
図4は、本実施形態に係る補正データ生成部104の構成を示す概略ブロック図である。
補正データ生成部104は、後期反射特性設定部1041、残響特性設定部1042、2つの乗算部1043−1、1043−2、及び重み算出部1044を備える。これらの構成のうち、後期反射合成部1041、2つの乗算部1043−2、及び重み算出部1044は、重み係数δb,mを算出する際に用いられる。
後期反射特性設定部1041は、残響特性推定部103から入力された残響特性データが示すRTF A’(ω,d’)から後期反射特性として後期反射の伝達関数A’(ω,d’)を算出し、算出した後期反射の伝達関数A’(ω,d’)を乗算部1043−1に乗算係数として設定する。
ここで、後期反射特性設定部1041は、RTF A’(ω,d’)を時間領域に変換したインパルス応答を算出し、算出したインパルス応答から所定の経過時間(例えば、30ms)よりも後の成分を抽出する。後期反射特性設定部1041は、抽出した成分を周波数領域に変換して後期反射の伝達関数A’(ω,d’)を算出する。
残響特性設定部1042は、残響特性推定部103から入力された残響特性データが示すRTF A’(ω,d’)を乗算部1043−2に乗算係数として設定する。
乗算部1043−1、1043−2は、所定の音源(図示せず)からそれぞれ入力された音響信号を周波数領域に変換した周波数領域係数と、それぞれに設定された乗算係数を乗算し、残響付加音声の周波数領域係数r(ω,d’,t)、後期反射の周波数領域係数l(ω,d’,t)を算出する。ここで、tは、その時点におけるフレーム時刻を示す。音源として、クリーン音声を示す音響信号が記憶されているデータベースを用いてもよい。その音源による音声信号が再生される場合には、乗算部1043−1に音源から音響信号が直接入力されるようにし、乗算部1043−2に音源分離部105から入力された音響信号が入力されるようにしてもよい。乗算部1043−1、1043−2は、算出した残響付加音声の周波数領域係数r(ω,d’t)、後期反射の周波数領域係数l(ω,d’,t)を、それぞれ重み算出部1044に出力する。
重み算出部1044は、乗算部1043−1、1043−2から残響付加音声の周波数領域係数r(ω,d’t)、後期反射の周波数領域係数l(ω,d’t)がそれぞれ入力される。重み算出部1044は、周波数帯域Bm毎に残響付加音声の周波数領域係数r(ω,d’t)と後期反射の周波数領域係数l(ω,d’t)との間の平均二乗誤差(mean square error)Eが最も小さくなる重み係数δb,mを算出する。平均二乗誤差Eは、例えば、式(7)で表される。
Figure 0006077957
式(7)において、Tは、その時点までの予め定めた時間長(例えば、10秒)を示す。重み算出部1044は、周波数帯域B毎に算出した重み係数δb,mを示す補正データを残響除去部106に出力する。
(GHDSS法)
次に、GHDSS法について説明する。
GHDSS法は、収録された多チャネルの音響信号を音源毎の音響信号に分離する一つの方法である。この方法では、分離行列(separation matrix)[V(ω)]が逐次に算出され、入力音声ベクトル[x(ω)]に分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]が推定される。分離行列[V(ω)]は、各音源から収音部12の各マイクロホンまでの伝達関数を要素とする伝達関数行列[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素とするベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素とするベクトルである。
音源分離部105は、分離行列[V(ω)]を算出する際、分離尖鋭度(separation sharpness)JSS、幾何制約度(geometric constraints)JGCといった2つのコスト関数をそれぞれ最小化するように音源ベクトル[u(ω)]を算出する。
分離尖鋭度JSSは、1つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、式(8)で表される。
Figure 0006077957
式(8)において、||…||は、…のフロベニウスノルム(Frobenius norm)を示す。*は、ベクトル又は行列の共役転置(conjugate transpose)を示す。diag(…)は、…の対角要素からなる対角行列(diagonal matrix)を示す。
幾何制約度JGC(ω)は、音源ベクトル[u(ω)]の誤差の度合いを表す指標値であり、例えば、式(9)で表される。
Figure 0006077957
式(9)において、[I]は、単位行列(unit matrix)を示す。
(音響モデルを予測する処理)
次に、音響モデルを予測する処理について説明する。
音響モデルλ(d)は、音声認識部108において音響特徴量に基づいて音素を認識する際に用いられる。音響モデルλ(d)は、例えば、連続隠れマルコフモデル(continuous HMM:Hidden Markov Model)である。連続HMMは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して示される。音響モデルλ(d)は、例えば、正規分布毎の混合重み係数(mixture weight)[Cim (d)]、平均値(mean)μim (d)、共分散行列(covariance matrix)[Σim (d)]、遷移確率(transition probability)aij (d)といった統計量(statistics)で規定される。ここで、i、jは、それぞれ現在の状態、遷移先の状態を示すインデックスである。mは、上述した周波数帯域を示すインデックスである。音響モデルλ(c)も、音響モデルλ(d)と同じ種類の統計量[Cim (c)]、μim (c)、[Σim (c)]、aij (c)で規定される。
混合重み係数Cim (d)、平均値[μim (d)]、共分散行列[Σim (d)]、遷移確率aij (d)は、累積混合要素占有確率(probability of accumulated mixture component occupancy)Lim (d)、状態占有確率(probability of state occupancy)Lij (d)、平均(mean)[mij (d)]、分散(variance)[vij (d)]、といった十分統計量で表され、式(10)−(13)に示す関係を有する。
im (d)=Lim (d)/Σm=1 im (d) … (10)
[μim (d)]=[mij (d)]/Lim (d) … (11)
[Σim (d)]=[vij (d)]/Lim (d)−[μim (d)][μim (d) … (12)
ij (d)=Lij (d)/Σj=1 ij (d) … (13)
式(13)において、i、jは、それぞれ現在の状態、遷移先の状態を示すインデックスであり、Jは、遷移先の状態の数を示す。以下の説明では、累積混合要素占有確率Lim (d)、状態占有確率Lij (d)、平均[mij (d)]、分散[vij (d)]を事前確率(priors)β(d)と総称する。
音響モデル更新部107は、音響モデルλ(d)、λ(c)を用いて、音響モデルλ(d)を基準として距離d’に応じた係数τ(d’)で線形予測(補間又は外挿)して音響モデルλ’を生成する。音響モデル更新部107は、音響モデルλ’を生成する際、例えば、式(14)−(17)を用いる。
Figure 0006077957
Figure 0006077957
Figure 0006077957
Figure 0006077957
式(14)−(17)において、Lim (c)、Lij (c)、[mim (c)]、[vij (c)]は、それぞれ近接発話音声に係る音響モデルλ(c)での累積混合要素占有確率、状態占有確率、平均、分散であり、これらを事前確率β(c)と総称する。係数τ(d’)は、d’=0のとき0となり、d’が大きくなるほど係数τ(d’)が減少する関数である。また、d’が0に近づくほど係数τ(d’)は無限大に漸近する。
事前確率β(c)はパワーレベルが増加することに伴い増加するため、距離d’に応じて変動する。式(14)−(17)に示すように、これらの統計量に基づいて線形予測を行うことで音響モデルが高精度で予測される。
次に、本実施形態に係る音声処理について説明する。
図5は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS201)音源分離部105は、収音部12から入力されたNチャネルの音響信号について音源分離処理を行って1個又は複数の音源の音響信号に分離する。音源分離部105は、分離した音源毎の音響信号を補正データ生成部104及び残響除去部106に出力する。その後、ステップS202に進む。
(ステップS202)距離検出部101は、音源から収音部12の中心部までの距離d’を検出し、検出した距離d’を示す距離データを残響推定部102及び音響モデル更新部107に出力する。その後、ステップS203に進む。
(ステップS203)残響特性推定部103は、予め定めた残響モデルに基づいて距離データが示す距離d’に応じた残響特性を推定し、推定した残響特性を示す残響特性データを補正データ生成部104に出力する。その後、ステップS204に進む。
(ステップS204)補正データ生成部104は、残響特性推定部103から入力された残響特性データに基づいて、各音源について予め定めた周波数帯域B毎に重み係数δb,mを示す補正データを生成する。補正データ生成部104は、生成した補正データを残響除去部106に出力する。その後、ステップS205に進む。
(ステップS205)残響除去部106は、音源分離部105から入力された音響信号を周波数帯域B毎の成分に分離する。残響除去部106は、分離した帯域成分毎に残響推定部102から入力された残響除去データが示す重み係数δb,mを用いて残響の一部である後期反射の成分を除去する。残響除去部106は、残響が除去した残響除去音声信号を音声認識部108に出力する。その後、ステップS206に進む。
(ステップS206)音響モデル更新部107は、2つの音響モデルλ(c)、λ(d)から距離検出部101から入力された距離データが示す距離d’に基づいて予測して音響モデルλ’を生成する。音響モデル更新部107は、音声認識部108で用いていた音響モデルを、自部が生成した音響モデルλ’に更新する。その後、ステップS207に進む。
(ステップS207)音声認識部108は、残響除去部106から入力された残響除去音声信号について音響モデル更新部107が設定した音響モデルλ’を用いて音声認識処理を行って発話内容を認識する。その後、図5に示す処理を終了する。
(RTFの例)
次に、RTFの例について説明する。
図6は、平均RTFの例を示す図である。
横軸はサンプル数、縦軸は平均RTFを示す。この例では、1サンプルは、1フレームに相当する。図6において、距離dが0.5m、0.6m、0.7m、0.9m、1.0m、1.5m、2.0m、2.5mのそれぞれについて、平均RTFが曲線で示されている。平均RTFは、距離dが大きくなるに従って低下する。例えば、距離dが0.5m、1.0m、2.0mであるとき、平均RTFは、それぞれ1.4×10−8、0.33×10−8、0.08×10−8となり、距離dの増加に応じて減少する。また、距離dにかかわらず、第100サンプルよりも後のサンプルで、平均RTFがほぼ0に低下する。この点は、位相が距離dに依存しないこと、つまり上述した仮定(i)を裏付ける。
図7は、RTFの利得の例を示す図である。
横軸は距離、縦軸は利得を示す。この例では、RTFの利得について、実測値が+印で示され、上述した残響モデルによる推定値が実線で示される。実測値は、推定値の周囲に分散し、距離dが小さいほど分散が大きくなる傾向がある。しかしながら、各距離dでの実測値の最大値、最小値同士も距離dにほぼ反比例する。例えば、実測値の最大値は、距離0.5m、1.0、2.0m、それぞれについて3.6、1.7、0.8となる。従って、これらの実測値は、係数α、αを調整することで推定値に近似できる。この点は、上述した仮定(ii)を裏付ける。
(音響モデルの例)
次に、音響モデルの例について、説明する。
図8は、音響モデルの一例を示す図である。
横軸、縦軸は、それぞれ正規分布の混合数(pool of Gaussian mixtures)、混合要素占有数(mixture component occupancy)を示す。正規分布の混合数とは、その音響モデルで用いられる正規分布の数であり、以下では単に「混合数」と呼ぶ。混合要素占有数は、その音響モデルでの混合要素の数である。上述した累積混合要素占有確率は、混合要素占有数に基づいて定められる。一点破線、破線は、それぞれクリーン音声、遠隔発話音声についての混合要素占有数を示す。遠隔発話音声については、距離d=1.0m、1.5m、2.0m、2.5mそれぞれについて混合要素占有数が示されている。実線は、距離d’=1.5を目標距離として、クリーン音声の混合要素占有数と遠隔発話音声(距離d=2.5m)の混合要素占有数とが混合数毎に補間された混合要素占有数である。
図8に示す例では、混合数毎の混合要素占有数は、クリーン音声の場合に最も大きく、距離dが大きくなるにつれて低下する。混合要素占有数の混合数による依存性は、クリーン音声と遠隔発話音声との間で同様な傾向を示し、遠隔発話音声について音源までの距離dが異なるもの同士でも同様な傾向を示す。この例では、補間された混合要素占有数は、距離d=1.5mについての遠隔発話音声の混合要素占有数にほぼ合致する。このことは、既知のクリーン音声、既知の距離dの遠隔発話音声それぞれについての音響モデルから検出された距離d’に応じて補間された音響モデルが、その距離と同一の距離の遠隔発話音声についての音響モデルに近似することを示す。
(実験結果)
次に、本実施形態に係る音声処理装置11を用いて音声認識精度を検証した実験結果について説明する。
実験は、異なる残響特性を有する2つの実験室Rm1、Rm2で行った、実験室Rm1、Rm2の残響時間(reverberation time)T60は、240ms、640msである。各実験室において、4通りの距離d’(1,0m、1.5m、2.0m、2.5m)のそれぞれについて、話者に200回の発話を行わせ、単語認識率を観測した。認識対象の語彙数は2万語である。音声認識部108で用いた言語モデルは、標準単語トライグラムモデル(standard word trigram model)である。事前に取得したRTF A(ω,d)の個数iは、3個である。距離dは、0.5m、1.3m、3.0mである。収音部12が備えるマイクロホンの個数Nは、10個である。
音響モデルとして連続HMMの一種である、計8256個の正規分布からなるPTM(Phonetically Tied Mixture、音素内タイドミクスチャ)HMMを用いた。音響モデルを学習させる際に用いた、クリーン音声の学習用データベース(training database)として日本語新聞記事文(JNAS:Japanese Newspaper Article Sentence)コーパス(corpus)を用いた。
実験では、次の7通りの方法で発話された音声を処理し、処理した音声を用いて音声認識を行った。A.処理を行わない(unprocessed)、B.既存のブラインド残響除去(blind dereverberation)、C.従来のスペクトラルサブトラクション(非特許文献1、2)、D.残響除去部106による後期反射成分の除去(本実施形態)、E.実測したRTFの後期反射成分の除去、F.残響除去部106による後期反射成分の除去と音響モデル更新部107による音響モデルの更新(本実施形態)、G.Fについて各距離に応じて再学習した音響モデルの使用。
(単語認識率の例)
図9は、処理方法毎の単語認識率の一例を示す図である。
各行には発話された音声の処理方法(方法A−G)を示し、各列に部屋Rm1、Rm2それぞれについて、距離毎の単語認識率(単位は、%)が示されている。
部屋Rm1、Rm2との間では、残響時間がより長い部屋Rm2の方が、単語認識率が低い。また、同一の部屋同士では、距離が大きくなるほど単語認識率が低い。単語認識率は、方法A、B、C、D、E、F、Gの順に高くなる。例えば、部屋Rm1、距離d=2.5mの場合、本実施形態に係る方法Dでの47.7%は、非特許文献1に係る方法Cの44.6%よりも有意に高く、実測したRTFに係る方法Eの47.9%とほぼ同等である。即ち、検出された距離d’に応じて推定した残響の一部を除去することで単語認識率が向上することが示される。また、本実施形態に係る方法Fの54.0%は、方法Eの47.7%よりも有意に高く、再学習した音響モデルを用いた方法Gの55.2%とほぼ同等である。
次に、方法A、B、C、Dについて、さらに距離d’に応じて再学習した音響モデルを用いて音声認識処理を行い、単語認識率を観測した。
図10、図11は、単語認識率の他の例として、それぞれ部屋Rm1、Rm2で観測された処理方式毎の単語認識率を示す図である。
図10、図11ともに、横軸は方法A、B、C、Dを示し、縦軸は距離1.0m、1.5m、2.0m、2.5m間で平均した単語認識率を示す。比較のために、方法Fに係る単語認識率が破線で示されている。
図10、図11によれば、各部屋、各方法ともに、音響モデルの再学習によって単語認識率が向上する。特に、本実施形態に係る方法Dに係る単語認識率が68%(図10)、38%(図11)と、方法Fに係る単語認識率67%(図10)、37%(図11)と同等になる。このことは、音響モデルを検出された距離d’に応じて予測した音響モデルを用いることで、距離d’に応じた残響環境下で学習した学習モデルと同等の精度が得られることを示す。
以上に説明したように、本実施形態は、音源からの音声を収録する収音部(例えば、収音部12)と音源までの距離を取得する距離取得部(例えば、距離検出部101)と、取得した距離に応じた残響特性を推定する残響特性推定部(例えば、残響特性推定部103)を備える。また、本実施形態は、推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成部(例えば、補正データ生成部104)と、補正データに基づいて音声の振幅を補正することにより残響成分を除去する残響除去部(例えば、残響除去部106)を備える。
このため、収録された音声から、その都度取得した距離に応じて推定した残響特性が示す残響成分が除去されるので、残響抑圧精度が向上する。
また、本実施形態では、残響特性推定部が、取得した距離に反比例する成分を含む残響特性を推定するため、残響成分が音源から収音部までの距離に反比例する成分を含むと仮定することで、精度を損なうことなく少ない演算量で残響特性(例えば、後期反射による成分)を推定することができる。
また、本実施形態では、残響特性推定部が残響環境下で予め計測した残響特性に基づいて定めた反比例する成分の寄与を示す係数を用いて残響特性を推定するため、その時点での残響特性をさらに少ない演算量で推定することができる。また、かかる推定は、実時間で行うことができる。
また、本実施形態では、補正データ生成部が予め定めた周波数帯域毎に補正データを生成し、残響除去部が周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することにより、残響成分を除去する。そのため、周波数帯域毎に異なる残響特性(例えば、周波数が低いほど残響レベルが大きい)を考慮して残響成分が除去されるので、残響抑圧精度が向上する。
また、本実施形態は、残響が付加された予め定めた距離からの音声を用いて学習された第1の音響モデル(例えば、遠隔音響モデル)と、残響を無視できる環境での音声を用いて学習された第2の音響モデル(例えば、クリーン音響モデル)から、前記距離取得部が取得した距離に応じた音響モデルを予測する音響モデル予測部(例えば、音響モデル更新部107)を備える。また、本実施形態は、予測した音響モデルを用いて音声認識処理を行う音声認識部(例えば、音声認識部108)を備える。
これにより、音源から収音部までの距離に基づいて予測された音響モデルが音声認識処理に用いられるため、当該距離に応じた残響環境下での音声認識精度を向上することができる。例えば、後期反射による成分が除去されないときでも、初期反射等、反射による音響特徴量の変化が逐次に考慮されるので音声認識精度が向上する。
(第2の実施形態)
次に、本発明の第2の実施形態に係る音声処理装置11aの構成について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図12は、本実施形態に係る音声処理装置11aの構成を示す概略ブロック図である。
音声処理装置11aは、距離検出部101a、残響推定部102、音源分離部105、残響除去部106、音響モデル更新部107、及び音声認識部108を含んで構成される。即ち、音声処理装置11aは、音声処理装置11(図2)において距離検出部101に代えて距離検出部101aを備える。
距離検出部101aは、音源分離部105から入力された音源毎の音響信号に基づいて、その音源の距離d’を推定し、推定した距離d’を示す距離データを残響推定部102及び音響モデル更新部107に出力する。ここで、距離検出部101aには、所定の音響特徴量と音源から収音部までの距離との関係を示す統計量を含む距離モデルデータをそれぞれ異なる距離毎に記憶しておき、入力した音響信号に係る音響特徴量についての尤度が最大となる距離モデルデータを選択する。距離検出部101aは、選択した距離モデルデータに対応した距離d’を定める。
(距離検出部101aの構成)
図13は、本実施形態に係る距離検出部101aの構成を示す概略ブロック図である。
距離検出部101aは、特徴量算出部1011a、距離モデル記憶部1012a、及び距離選択部1013aを含んで構成される。
特徴量算出部1011aは、音源分離部105から入力された音響信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量T(u’)を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である。これらの係数を要素として含むベクトルは、特性ベクトル(feature vector)と呼ばれる。
特徴量算出部1011aは、算出した音響特徴量T(u’)を示す特徴量データを距離選択部1013aに出力する。
距離モデル記憶部1012aには、D個(Dは、1よりも大きい整数、例えば、5)の距離dのそれぞれに対応付けて距離モデルα(d)を記憶しておく。距離dは、例えば、0.5m、1.0m、1.5m、2.0m、2.5mである。距離モデルα(d)は、例えば、GMM(Gaussian Mixture Model、混合ガウスモデル)である。
GMMは、入力された音響特徴量に対する出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す音響モデルの一種である。従って、距離モデルα(d)は、混合重み係数、平均値、共分散行列といった統計量で規定される。各距離dについてGMMを学習させる際、距離モデル記憶部1012aでは、各距離dにおいて残響特性が付加された学習用音声信号を用いて尤度が最大となるように、これらの統計量を予め定めておく。
なお、混合重み係数、平均値、共分散行列は、HMMを構成する事前確率β(d)との間で式(10)−(12)に示す関係を有する。また、事前確率β(d)は、距離dの変化に応じて変化する係数である。そこで、各距離dについて学習用音声信号を用いて尤度が最大となるようにHMMを学習させ、学習によって得られた事前確率β(d)を用いて、GMMを構成してもよい。
距離選択部1013aは、特徴量算出部1011aから入力された特徴量データが示す音響特徴量T(u’)について距離モデル記憶部1012aに記憶された距離モデルα(d)のそれぞれについて、尤度P(T(u’)|α(d))を算出する。距離選択部1013aは、算出した尤度P(T(u’)|α(d))が最大となる距離モデルα(d)に対応する距離dを距離d’として選択し、選択した距離d’を示す距離データを残響推定部102及び音響モデル更新部107に出力する。
これにより、距離d’を計測するためのハードウェアを備えなくても収音部12から音源、例えば話者までの距離を推定し、推定した距離に応じた残響の抑圧が可能になる。
(距離検出処理)
次に、本実施形態に係る距離検出処理について説明する。本実施形態では、次に説明する処理を、図5に示す距離検出処理(ステップS202)の代わりに行う。
図14は、本実施形態に係る距離検出処理を示すフローチャートである。
(ステップS301)特徴量算出部1011aは、音源分離部105から入力された音響信号について予め定めた時間間隔毎に音響特徴量T(u’)を算出する。特徴量算出部1011aは、算出した音響特徴量T(u’)を示す特徴量データを距離選択部1013aに出力する。その後、ステップS302に進む。
(ステップS302)距離選択部1013aは、特徴量算出部1011aから入力された特徴量データが示す音響特徴量T(u’)について距離モデル記憶部1012aに記憶された距離モデルα(d)のそれぞれについて、尤度P(T(u’)|α(d))を算出する。その後、ステップS303に進む。
(ステップS303)距離選択部1013aは、算出した尤度P(T(u’)|α(d))が最大となる距離モデルα(d)に対応する距離dを距離d’として選択し、選択した距離d’を示す距離データを残響推定部102及び音響モデル更新部107に出力する。
その後、図14に示す処理を終了する。
なお、本実施形態では、音響モデル更新部107には、予め異なる距離dのそれぞれで発話された遠隔発話音声を用いて学習して生成された音響モデルλ(d)を記憶しておいてもよい。その場合、音響モデル更新部107は、距離検出部101aから入力された距離データに対応する音響モデルλ(d’)を読み出し、音声認識部108で用いられる音響モデルを読み出した音響モデルλ(d’)に更新する。
(実験結果)
次に、本実施形態に係る音声処理装置11aを用いて距離の推定及び音声認識精度を検証した実験結果について説明する。
実験は、上述の2つの実験室Rm1、Rm2で行った。各実験室において、5通りの距離d’(0.5m、1.0m、1.5m、2.0m、2.5m)のそれぞれについて、10名の話者に各々50回の発話を行わせ単語認識率を観測した。認識対象の語彙数は1000語である。音声認識部108で用いた言語モデルは、標準単語トライグラムモデル(standard word trigram model)である。上述のPTM HMMや距離の推定に用いるGMMを学習させる際、JNASコーパスを用いた。ここでは、混合数(Number of Gaussian mixtures)を256とした。混合数とは、GMMを構成する正規分布の数である。なお、その他の条件は、第1の実施形態で説明した実験の条件と同様である。
実験では、次の4通りの方法で発話された音声を処理し、処理した音声を用いて音声認識を行った。A.距離d’による補償を行わない(No compensation)、B.従来の推定したRTFを用いた残響補償(RTF compensation(Estimated))、C.従来の測定したRTFを用いた残響補償(RTF compensation(Measured))、D.距離検出部101aで推定した距離に応じた残響補償(本実施形態)。
(単語認識率の例)
図15、図16は、それぞれ処理方法毎の単語認識率の例を示す図である。
図15、図16ともに、横軸に距離d’、縦軸に単語認識率(単位は、%)を示す。
部屋Rm1、Rm2との間では、残響がより著しい部屋Rm2の方が、単語認識率が低い。また、同一の部屋については、距離が大きくなるほど単語認識率が低い。
単語認識率は、方法A、B、C、Dの順に高くなる。例えば、部屋Rm1、距離d=2.0mの場合、本実施形態に係る方法Dでの59%は、方法A、B、Cの37%、40%、43%よりも有意に高い。例えば、部屋Rm2、距離d=2.0mの場合、本実施形態に係る方法Dでの32%は、方法A、B、Cの−7%、2%、11%よりも有意に高い。
本実施形態に係る方法Dでは、推定した距離d’に応じて、その都度推定した後期反射成分を除去し、併せて推定した音響モデルを用いる。このことにより、RTFを用いても得られなかった高い精度を実現することが示される。
(混合数の検証)
上述した実験を行う前に、適切な混合数を定めるため、混合数による距離の正答率について行った検証について説明する。各試行では、音源の位置を予め定めた3箇所のいずれかをランダムに選択した。これらの3箇所のそれぞれを、Loc1、Loc2、Loc3と呼ぶ。これらの各位置に応じたGMMを予め生成しておいた。それぞれのGMMでの混合数は、2、4、8、16、32、64、128、256、512の9通りである。この9通りのそれぞれについて、距離の正答率を観測する。ここで、音源の位置と選択されたGMMが一致する場合を正答とし、それ以外の場合を誤答とする。
(距離の正答率の例)
図17は、距離の正答率の例を示す図である。
各行は、混合数を示し、各列は、部屋Rm1、Rm2それぞれについて各音源位置での正答率(単位は、%)が示されている。
部屋Rm1、Rm2との間では、残響時間がより長い部屋Rm2の方が、正答率が低い。また、同一の部屋同士では、混合数が多くなるほど正答率が低い。各部屋について、音源位置間での正答率には有意な差は生じていない。
例えば、Rm1、音源位置Loc1の場合、混合数2、4、8、16、32、64、128、256、512が増加すると、正答率は、10%、18%、29%、40%、57%、79%、90%、98%、98%と高くなる。但し、混合数が256を超えると、正答率の変化が飽和する。従って、混合数を256と定めることで推定精度を確保することができる。
以上に説明したように、本実施形態では、距離取得部(例えば、距離検出部101a)が、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、最も尤度が高くなる音響モデルに対応した距離を選択する。そのため、距離の取得のためのハードウェアを備えずに残響抑圧精度を向上することができる。また、残響を除去した音声を音声認識処理に用いることで音声認識精度が向上する。
(変形例)
上述した実施形態は、次に示す変形例のように変形されてもよい。
次の説明では、主に音声処理装置11a(図12)との差異点について述べる。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図18は、本変形例に係る音声処理装置11bの構成を示す概略ブロック図である。
音声処理装置11bは、距離検出部101a、残響推定部102、音源分離部105、残響除去部106、音響モデル更新部107、音声認識部108の他に、対話制御部109b及び音量制御部110bを備える。
対話制御部109bは、音声認識部108から入力された認識データに応じた応答データを取得し、取得した応答データが示す応答テキストについて既知のテキスト音声合成処理を行って応答テキストに応じた音声信号(応答音声信号)を生成する。対話制御部109bは、生成した応答音声信号を音量制御部110bに出力する。応答データとは、予め定めた認識データと、これに対応する応答テキストを示す応答データを対応付けたデータである。例えば、認識データを示すテキストが「お元気ですか?」である場合、応答データが示すテキストが「お陰様で元気です。」である。
ここで、対話制御部109bは、予め定めた認識データと応答データの組を対応付けて記憶しておいた記憶部と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部を備える。
音量制御部110bは、対話制御部109bから入力された応答音声信号の音量を、距離検出部101aから入力された距離データが示す距離d’に応じて制御する。音量制御部110bは、音量が制御された応答音声信号を音声再生部13に出力する。音量制御部110bは、例えば、距離d’と応答音声信号の平均振幅が比例するように音量を制御してもよい。収音部12と音声再生部13が一体化又は近接している場合には、音源としての話者の位置によらず、ほぼ一定の音量の音が提示される。
音声再生部13は、音量制御部110bから入力された応答音声信号に応じた音を再生する。音声再生部13は、例えば、スピーカである。
次に、本変形例に係る音声処理について説明する。
図19は、本変形例に係る音声処理を示すフローチャートである。
本変形例に係る音声処理は、ステップS201、S203−S207(図5)を有し、ステップS202の代わりにステップS202bを有し、さらに、ステップS208b、S209bを有する。ステップS202bは、図14に示した距離検出処理と同一の処理である。そして、ステップS207が終了した後、ステップS208bに進む。
(ステップS208b)対話制御部109bは、音声認識部108から入力された認識データに対応した応答データを取得し、取得した応答データが示す応答テキストについて既知のテキスト音声合成処理を用いて応答音声信号を生成する。その後、ステップS209bに進む。
(ステップS209b)音量制御部110bは、対話制御部109bから入力された応答音声信号の音量を制御し、音量が制御された応答音声信号を音声再生部13に出力する。
その後、図19に示す処理を終了する。
なお、上述した変形は、音声処理装置11(図2)に加えられてもよい。つまり、音声処理装置11は、対話制御部109b及び音量制御部110bをさらに備えてもよい。
音量制御部110bは、応答音声信号に限らず、他の音源から入力された音響信号(例えば、通信相手先の装置から受信した音響信号、音楽の音響信号、等)の音量を制御してもよい。その場合には、音声認識部108、対話制御部109bのいずれか又はその両者が省略されてもよい。これに応じて、図19に示す処理において、ステップS207、S208bのいずれか又はその両者が省略されてもよい。
また、音声認識部108は、検出した距離d’に応じて音声認識処理を停止するか否かを制御してもよい。例えば、検出した距離d’が予め定めた距離の閾値(例えば、3m)を超えるとき、音声認識部108は、音声認識処理を停止する。また、検出した距離d’がその閾値を下回るとき、音声認識部108は、音声認識処理を開始又は再開する。残響環境において距離d’が大きい場合には音声認識率が低下するが、そのような場合に音声認識処理を停止することにより、無用な処理を回避することができる。
このように、本変形例において距離取得部(例えば、距離検出部101a)は、予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、前記音声について最も尤度が高くなる音響モデルに対応した距離を選択する。そのため、距離d’を検出するためのハードウェアを具備せずに、検出した距離d’に応じた音量制御、音声認識処理の停止の要否に係る制御等、種々の制御を行うことができる。
なお、上述した実施形態、変形例において、収音部12が備えるマイクロホンの個数Nが1である場合には、音源分離部105は省略されてもよい。
上述した音声処理装置11、11a、11bは、収音部12と一体化されていてもよい。また、音声処理装置11bは、音声再生部13と一体化されていてもよい。
上述した音声処理装置11において、検出した距離d’を示す距離データを取得することができれば、距離検出部101は省略されていてもよい。音声処理装置11は、例えば、音源に装着可能な距離検出部(図示せず)が検出した距離d’を示す距離データを入力する距離入力部を備えていてもよい。距離入力部と上述した距離検出部101、101aを距離取得部と総称する。
なお、上述した実施形態における音声処理装置11、11a、11bの一部、例えば、距離検出部101a、残響推定部102、音源分離部105、残響除去部106、音響モデル更新部107、107a、音声認識部108、対話制御部109b、及び音量制御部110bをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置11、11a、11bに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音声処理装置11、11a、11bの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置11、11a、11bの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
11、11a、11b…音声処理装置、
101、101a…距離検出部(距離取得部)、102…残響推定部、
103…残響特性推定部、104…補正データ生成部、105…音源分離部、
106…残響除去部、107…音響モデル更新部(音響モデル予測部)、
108…音声認識部、109b…対話制御部、110b…音量制御部、
12…収音部、13…音声再生部

Claims (7)

  1. 音源からの音声を収録する収音部と
    予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、前記音源までの距離として前記収音部が収録した音声について最も尤度が高くなる音響モデルに対応した距離を定める距離取得部と、
    前記距離取得部が取得した距離に応じた残響特性を推定する残響特性推定部と、
    前記残響特性推定部が推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成部と、
    前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去部と、
    を備えることを特徴とする音声処理装置。
  2. 前記残響特性推定部は、前記距離取得部が取得した距離に反比例する成分を含む残響特性を推定することを特徴とする請求項1に記載の音声処理装置。
  3. 前記残響特性推定部は、予め計測した残響特性に基づいて定めた前記反比例する成分の寄与を示す係数を用いて前記残響特性を推定することを特徴とする請求項2に記載の音声処理装置。
  4. 前記補正データ生成部は、予め定めた周波数帯域毎に前記補正データを生成し、
    前記残響除去部は、周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することを特徴とする請求項1から請求項3のいずれかに記載の音声処理装置。
  5. 前記音声処理装置は、
    残響が付加された予め定めた距離からの音声を用いて学習された第1の音響モデルと、残響を無視できる環境での音声を用いて学習された第2の音響モデルから、前記距離取得部が取得した距離に応じた第3の音響モデルを予測する音響モデル予測部と、
    前記音響モデル予測部が予測した第3の音響モデルを用いて音声認識処理を行う音声認識部と、
    をさらに備えることを特徴とする請求項1から請求項のいずれかに記載の音声処理装置。
  6. 音声処理装置における音声処理方法において、
    予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得ステップと、
    前記距離取得ステップで取得した距離に応じた残響特性を推定する残響特性推定ステップと、
    前記残響特性推定ステップで推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成ステップと、
    前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去ステップと、
    を有する音声処理方法。
  7. 音声処理装置のコンピュータに、
    予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得手順、
    前記距離取得手順で取得した距離に応じた残響特性を推定する残響特性推定手順、
    前記残響特性推定手順で推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成手順、
    前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去手順、
    を実行させるための音声処理プログラム。
JP2013143078A 2013-07-08 2013-07-08 音声処理装置、音声処理方法、及び音声処理プログラム Active JP6077957B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013143078A JP6077957B2 (ja) 2013-07-08 2013-07-08 音声処理装置、音声処理方法、及び音声処理プログラム
US14/265,640 US9646627B2 (en) 2013-07-08 2014-04-30 Speech processing device, method, and program for correction of reverberation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013143078A JP6077957B2 (ja) 2013-07-08 2013-07-08 音声処理装置、音声処理方法、及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2015019124A JP2015019124A (ja) 2015-01-29
JP6077957B2 true JP6077957B2 (ja) 2017-02-08

Family

ID=52133398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013143078A Active JP6077957B2 (ja) 2013-07-08 2013-07-08 音声処理装置、音声処理方法、及び音声処理プログラム

Country Status (2)

Country Link
US (1) US9646627B2 (ja)
JP (1) JP6077957B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
JP6124949B2 (ja) * 2015-01-14 2017-05-10 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理システム
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
US11631421B2 (en) 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10796711B2 (en) * 2017-09-29 2020-10-06 Honda Motor Co., Ltd. System and method for dynamic optical microphone
CN111693139B (zh) * 2020-06-19 2022-04-22 浙江讯飞智能科技有限公司 声音强度测量方法、装置、设备及存储介质
EP4325479A1 (en) * 2021-04-12 2024-02-21 Panasonic Intellectual Property Corporation of America Acoustic feature value estimation method, acoustic feature value estimation system, program, and rendering method

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06236196A (ja) * 1993-02-08 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JPH09261133A (ja) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 残響抑圧方法および装置
JP3836815B2 (ja) * 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US7424118B2 (en) * 2004-02-10 2008-09-09 Honda Motor Co., Ltd. Moving object equipped with ultra-directional speaker
JP4396449B2 (ja) 2004-08-25 2010-01-13 パナソニック電工株式会社 残響除去方法及びその装置
WO2007058121A1 (ja) * 2005-11-15 2007-05-24 Nec Corporation 残響抑圧の方法、装置及び残響抑圧用プログラム
EP1993320B1 (en) * 2006-03-03 2015-01-07 Nippon Telegraph And Telephone Corporation Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
JP2007241304A (ja) * 2007-04-20 2007-09-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4532576B2 (ja) * 2008-05-08 2010-08-25 トヨタ自動車株式会社 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP2010103853A (ja) * 2008-10-24 2010-05-06 Panasonic Corp 音量監視装置及び音量監視方法
JP5079761B2 (ja) * 2009-09-01 2012-11-21 日本電信電話株式会社 直間比推定装置、音源距離測定装置、雑音除去装置、各装置の方法と、装置プログラム
JP5572445B2 (ja) * 2010-04-30 2014-08-13 本田技研工業株式会社 残響抑圧装置、及び残響抑圧方法
WO2011145030A1 (en) * 2010-05-20 2011-11-24 Koninklijke Philips Electronics N.V. Distance estimation using sound signals
KR101861590B1 (ko) * 2011-10-26 2018-05-29 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US20140122086A1 (en) * 2012-10-26 2014-05-01 Microsoft Corporation Augmenting speech recognition with depth imaging

Also Published As

Publication number Publication date
JP2015019124A (ja) 2015-01-29
US20150012269A1 (en) 2015-01-08
US9646627B2 (en) 2017-05-09

Similar Documents

Publication Publication Date Title
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6169910B2 (ja) 音声処理装置
US9972315B2 (en) Speech processing device, speech processing method, and speech processing system
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP5738020B2 (ja) 音声認識装置及び音声認識方法
US10283115B2 (en) Voice processing device, voice processing method, and voice processing program
US9858949B2 (en) Acoustic processing apparatus and acoustic processing method
JP6124949B2 (ja) 音声処理装置、音声処理方法、及び音声処理システム
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP5841986B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP2014145838A (ja) 音響処理装置及び音響処理方法
JP2006243290A (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP2017032857A (ja) 音声処理装置及び音声処理方法
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US9875755B2 (en) Voice enhancement device and voice enhancement method
JP7426686B2 (ja) 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
JP5172797B2 (ja) 残響抑圧装置とその方法と、プログラムと記録媒体
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
JP2020018015A (ja) 音響信号処理装置、方法及びプログラム
JP2005326673A (ja) 音声認識方法、その装置およびプログラム、その記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170113

R150 Certificate of patent or registration of utility model

Ref document number: 6077957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150