JP6077957B2 - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法、及び音声処理プログラム Download PDFInfo
- Publication number
- JP6077957B2 JP6077957B2 JP2013143078A JP2013143078A JP6077957B2 JP 6077957 B2 JP6077957 B2 JP 6077957B2 JP 2013143078 A JP2013143078 A JP 2013143078A JP 2013143078 A JP2013143078 A JP 2013143078A JP 6077957 B2 JP6077957 B2 JP 6077957B2
- Authority
- JP
- Japan
- Prior art keywords
- distance
- reverberation
- unit
- speech
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
(3)本発明のその他の態様は、前記残響特性推定部が、予め計測した残響特性に基づいて定めた前記反比例する成分の寄与を示す係数を用いて前記残響特性を推定することを特徴とする(2)の音声処理装置である。
上述した(2)の構成によれば、残響特性が音源から収音部までの距離に反比例する直接音成分を含むことを仮定することで、精度を損なうことなく少ない演算量で残響特性を推定することができる。
上述した(3)の構成によれば、その時点の残響特性をさらに少ない演算量で推定することができる。
上述した(4)の構成によれば、周波数帯域毎に推定した残響特性に基づいて残響成分が除去されるので、残響抑圧精度が向上する。
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理装置11の配置例を示す平面図である。
この配置例では、残響環境として部屋Rmにおいて発話者Spが収音部12からの距離dだけ離れた位置に所在し、音声処理装置11が収音部12に接続されていることを示す。部屋Rmは、到来した音波を反射する内壁を有する。収音部12は、音源として発話者Spから直接到来した音声と、内壁を反射した音声を収録する。音源から直接到来した音声、反射した音声を、それぞれ直接音(direct sound)、反射音(reflection)と呼ぶ。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短く(例えば、約30ms以下)、反射回数が比較的少なくそれぞれの反射パターンが区別される区間は、初期反射(early reflection)と呼ばれる。反射音のうち、初期反射よりも経過時間が長く、反射回数が多くそれぞれの反射パターンを区別できない区間は、後期反射(late reflection)、後期残響(late reverberation)又は単に残響(reverberation)と呼ばれる。一般的に、初期反射と後期反射とを区分する時間は、部屋Rmの大きさによって異なるが、例えば、音声認識では処理単位となるフレーム長がその時間に相当する。前フレームで処理した直接音及び初期反射に係る後期反射が、現フレームの処理に影響するためである。
これにより、残響特性を逐次に計測しなくても音源までの距離に応じた残響特性を推定できるので、入力音声に推定した残響特性を付与した残響を的確に推定することができる。音声処理装置11は、入力音声から推定した残響を除去して得られた残響除去音声の残響抑圧精度を向上ざせることができる。なお、以下の説明では、残響環境下で収録された音声や、残響成分を付加した音声を残響付加音声(reverbed speech)と総称する。
図2は、本実施形態に係る音声処理装置11の構成を示す概略ブロック図である。
音声処理装置11は、距離検出部(距離取得部)101、残響推定部102、音源分離部105、残響除去部106、音響モデル更新部(音響モデル予測部)107、及び音声認識部108を含んで構成される。
残響推定部102は、距離検出部101から入力された距離データが示す距離d’に応じた残響特性を推定する。残響推定部102は、推定した残響特性を除去する(dereverbe)ための補正データを生成し、生成した補正データを残響除去部106に出力する。残響推定部102は、残響特性推定部103と補正データ生成部104とを含んで構成される。
ここで、残響特性推定部103は、残響特性の指標として距離検出部101から入力された距離データが示す距離d’に応じた残響伝達関数(RTF:Reverberation Transfer Function)A’(ω,d’)を推定する。RTFは、周波数ω毎の直接音のパワーに対する残響のパワーの比を示す係数である。
RTF A’(ω,d’)を推定する際、残響特性推定部103は、予め定めた距離dについて周波数ω毎に予め計測したRTF A(ω,d)を用いる。残響特性を推定する処理については後述する。
音源分離部105は、音源分離処理として、例えば、GHDSS(Geometric−constrained Highorder Decorrelation−based Source Separation)法を用いる。GHDSS法については、後述する。
なお、音源分離部105は、GHDSS法に代えて、例えば、音源方向を推定し、指定した音源方向に感度が最も高くなるように指向性を制御する適応ビームフォーミング法(adaptive beamforming)を用いてもよい。また、音源方向を推定する際、音源分離部105は、MUSIC(Multiple Signal Classification)法を用いてもよい。
(|r(ω,t)|2−δb,m|r(ω,t)|2)が0より大きい場合)
|e(ω,t)|2=β|r(ω,t)|2 (それ以外の場合) … (1)
ここで、音声認識部108は、残響除去音声信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル(static MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である。
音声認識部108は、算出した音響特徴量について音響モデル更新部107が設定した音響モデルλ’を用いて音素を認識する。音声認識部108は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を認識する。言語モデルは、音素列から単語や文を認識する際に用いられる統計モデルである。
次に、残響特性を推定する処理について説明する。
残響特性推定部103は、例えば、式(2)、(3)を用いて距離d’に応じたRTF A’(ω,d’)を定める。
式(2)、(3)は、(i)部屋Rmにおいて音源の位置によってRTFの位相が変化しない、(ii)RTFの振幅は、距離d’に反比例して減衰する成分を含む、という仮定(i)(ii)に基づく。
図3は、係数算出処理の例を示すフローチャートである。
(ステップS101)残響特性推定部103は、id個(idは、1よりも大きい整数、例えば、3個)のRTF A(ω,di)を予め測定しておく。距離di(iは、1からidまでの整数を示す)は、各々異なる距離である。例えば、収音部12が複数のマイクロホンを備える場合には、既知の出力音響信号に基づく音を再生したとき、残響特性推定部103は、各マイクロホンが収録した音響信号を用いてRTF A(ω,di)を取得することができる。その後、ステップS102に進む。
その後、ステップS103に進む。
そして、残響特性推定部103は、式(5)、(6)を用いて算出した係数α1、α2を式(3)に代入して利得f(d’)を算出し、算出した利得f(d’)とステップS101で取得したRTF A(ω,di)の任意のいずれかを式(2)に代入して距離d’に応じたRTF A’(ω,d’)を定める。
次に、本実施形態に係る補正データ生成部104の構成について説明する。
図4は、本実施形態に係る補正データ生成部104の構成を示す概略ブロック図である。
補正データ生成部104は、後期反射特性設定部1041、残響特性設定部1042、2つの乗算部1043−1、1043−2、及び重み算出部1044を備える。これらの構成のうち、後期反射合成部1041、2つの乗算部1043−2、及び重み算出部1044は、重み係数δb,mを算出する際に用いられる。
ここで、後期反射特性設定部1041は、RTF A’(ω,d’)を時間領域に変換したインパルス応答を算出し、算出したインパルス応答から所定の経過時間(例えば、30ms)よりも後の成分を抽出する。後期反射特性設定部1041は、抽出した成分を周波数領域に変換して後期反射の伝達関数AL’(ω,d’)を算出する。
残響特性設定部1042は、残響特性推定部103から入力された残響特性データが示すRTF A’(ω,d’)を乗算部1043−2に乗算係数として設定する。
次に、GHDSS法について説明する。
GHDSS法は、収録された多チャネルの音響信号を音源毎の音響信号に分離する一つの方法である。この方法では、分離行列(separation matrix)[V(ω)]が逐次に算出され、入力音声ベクトル[x(ω)]に分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]が推定される。分離行列[V(ω)]は、各音源から収音部12の各マイクロホンまでの伝達関数を要素とする伝達関数行列[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素とするベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素とするベクトルである。
次に、音響モデルを予測する処理について説明する。
音響モデルλ(d)は、音声認識部108において音響特徴量に基づいて音素を認識する際に用いられる。音響モデルλ(d)は、例えば、連続隠れマルコフモデル(continuous HMM:Hidden Markov Model)である。連続HMMは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して示される。音響モデルλ(d)は、例えば、正規分布毎の混合重み係数(mixture weight)[Cim (d)]、平均値(mean)μim (d)、共分散行列(covariance matrix)[Σim (d)]、遷移確率(transition probability)aij (d)といった統計量(statistics)で規定される。ここで、i、jは、それぞれ現在の状態、遷移先の状態を示すインデックスである。mは、上述した周波数帯域を示すインデックスである。音響モデルλ(c)も、音響モデルλ(d)と同じ種類の統計量[Cim (c)]、μim (c)、[Σim (c)]、aij (c)で規定される。
事前確率β(c)はパワーレベルが増加することに伴い増加するため、距離d’に応じて変動する。式(14)−(17)に示すように、これらの統計量に基づいて線形予測を行うことで音響モデルが高精度で予測される。
図5は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS201)音源分離部105は、収音部12から入力されたNチャネルの音響信号について音源分離処理を行って1個又は複数の音源の音響信号に分離する。音源分離部105は、分離した音源毎の音響信号を補正データ生成部104及び残響除去部106に出力する。その後、ステップS202に進む。
(ステップS202)距離検出部101は、音源から収音部12の中心部までの距離d’を検出し、検出した距離d’を示す距離データを残響推定部102及び音響モデル更新部107に出力する。その後、ステップS203に進む。
(ステップS204)補正データ生成部104は、残響特性推定部103から入力された残響特性データに基づいて、各音源について予め定めた周波数帯域Bm毎に重み係数δb,mを示す補正データを生成する。補正データ生成部104は、生成した補正データを残響除去部106に出力する。その後、ステップS205に進む。
(ステップS206)音響モデル更新部107は、2つの音響モデルλ(c)、λ(d)から距離検出部101から入力された距離データが示す距離d’に基づいて予測して音響モデルλ’を生成する。音響モデル更新部107は、音声認識部108で用いていた音響モデルを、自部が生成した音響モデルλ’に更新する。その後、ステップS207に進む。
次に、RTFの例について説明する。
図6は、平均RTFの例を示す図である。
横軸はサンプル数、縦軸は平均RTFを示す。この例では、1サンプルは、1フレームに相当する。図6において、距離dが0.5m、0.6m、0.7m、0.9m、1.0m、1.5m、2.0m、2.5mのそれぞれについて、平均RTFが曲線で示されている。平均RTFは、距離dが大きくなるに従って低下する。例えば、距離dが0.5m、1.0m、2.0mであるとき、平均RTFは、それぞれ1.4×10−8、0.33×10−8、0.08×10−8となり、距離dの増加に応じて減少する。また、距離dにかかわらず、第100サンプルよりも後のサンプルで、平均RTFがほぼ0に低下する。この点は、位相が距離dに依存しないこと、つまり上述した仮定(i)を裏付ける。
横軸は距離、縦軸は利得を示す。この例では、RTFの利得について、実測値が+印で示され、上述した残響モデルによる推定値が実線で示される。実測値は、推定値の周囲に分散し、距離dが小さいほど分散が大きくなる傾向がある。しかしながら、各距離dでの実測値の最大値、最小値同士も距離dにほぼ反比例する。例えば、実測値の最大値は、距離0.5m、1.0、2.0m、それぞれについて3.6、1.7、0.8となる。従って、これらの実測値は、係数α1、α2を調整することで推定値に近似できる。この点は、上述した仮定(ii)を裏付ける。
次に、音響モデルの例について、説明する。
図8は、音響モデルの一例を示す図である。
横軸、縦軸は、それぞれ正規分布の混合数(pool of Gaussian mixtures)、混合要素占有数(mixture component occupancy)を示す。正規分布の混合数とは、その音響モデルで用いられる正規分布の数であり、以下では単に「混合数」と呼ぶ。混合要素占有数は、その音響モデルでの混合要素の数である。上述した累積混合要素占有確率は、混合要素占有数に基づいて定められる。一点破線、破線は、それぞれクリーン音声、遠隔発話音声についての混合要素占有数を示す。遠隔発話音声については、距離d=1.0m、1.5m、2.0m、2.5mそれぞれについて混合要素占有数が示されている。実線は、距離d’=1.5を目標距離として、クリーン音声の混合要素占有数と遠隔発話音声(距離d=2.5m)の混合要素占有数とが混合数毎に補間された混合要素占有数である。
次に、本実施形態に係る音声処理装置11を用いて音声認識精度を検証した実験結果について説明する。
実験は、異なる残響特性を有する2つの実験室Rm1、Rm2で行った、実験室Rm1、Rm2の残響時間(reverberation time)T60は、240ms、640msである。各実験室において、4通りの距離d’(1,0m、1.5m、2.0m、2.5m)のそれぞれについて、話者に200回の発話を行わせ、単語認識率を観測した。認識対象の語彙数は2万語である。音声認識部108で用いた言語モデルは、標準単語トライグラムモデル(standard word trigram model)である。事前に取得したRTF A(ω,di)の個数idは、3個である。距離diは、0.5m、1.3m、3.0mである。収音部12が備えるマイクロホンの個数Nは、10個である。
図9は、処理方法毎の単語認識率の一例を示す図である。
各行には発話された音声の処理方法(方法A−G)を示し、各列に部屋Rm1、Rm2それぞれについて、距離毎の単語認識率(単位は、%)が示されている。
部屋Rm1、Rm2との間では、残響時間がより長い部屋Rm2の方が、単語認識率が低い。また、同一の部屋同士では、距離が大きくなるほど単語認識率が低い。単語認識率は、方法A、B、C、D、E、F、Gの順に高くなる。例えば、部屋Rm1、距離d=2.5mの場合、本実施形態に係る方法Dでの47.7%は、非特許文献1に係る方法Cの44.6%よりも有意に高く、実測したRTFに係る方法Eの47.9%とほぼ同等である。即ち、検出された距離d’に応じて推定した残響の一部を除去することで単語認識率が向上することが示される。また、本実施形態に係る方法Fの54.0%は、方法Eの47.7%よりも有意に高く、再学習した音響モデルを用いた方法Gの55.2%とほぼ同等である。
図10、図11は、単語認識率の他の例として、それぞれ部屋Rm1、Rm2で観測された処理方式毎の単語認識率を示す図である。
図10、図11ともに、横軸は方法A、B、C、Dを示し、縦軸は距離1.0m、1.5m、2.0m、2.5m間で平均した単語認識率を示す。比較のために、方法Fに係る単語認識率が破線で示されている。
このため、収録された音声から、その都度取得した距離に応じて推定した残響特性が示す残響成分が除去されるので、残響抑圧精度が向上する。
また、本実施形態では、残響特性推定部が残響環境下で予め計測した残響特性に基づいて定めた反比例する成分の寄与を示す係数を用いて残響特性を推定するため、その時点での残響特性をさらに少ない演算量で推定することができる。また、かかる推定は、実時間で行うことができる。
また、本実施形態では、補正データ生成部が予め定めた周波数帯域毎に補正データを生成し、残響除去部が周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することにより、残響成分を除去する。そのため、周波数帯域毎に異なる残響特性(例えば、周波数が低いほど残響レベルが大きい)を考慮して残響成分が除去されるので、残響抑圧精度が向上する。
これにより、音源から収音部までの距離に基づいて予測された音響モデルが音声認識処理に用いられるため、当該距離に応じた残響環境下での音声認識精度を向上することができる。例えば、後期反射による成分が除去されないときでも、初期反射等、反射による音響特徴量の変化が逐次に考慮されるので音声認識精度が向上する。
次に、本発明の第2の実施形態に係る音声処理装置11aの構成について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図12は、本実施形態に係る音声処理装置11aの構成を示す概略ブロック図である。
音声処理装置11aは、距離検出部101a、残響推定部102、音源分離部105、残響除去部106、音響モデル更新部107、及び音声認識部108を含んで構成される。即ち、音声処理装置11aは、音声処理装置11(図2)において距離検出部101に代えて距離検出部101aを備える。
図13は、本実施形態に係る距離検出部101aの構成を示す概略ブロック図である。
距離検出部101aは、特徴量算出部1011a、距離モデル記憶部1012a、及び距離選択部1013aを含んで構成される。
特徴量算出部1011aは、算出した音響特徴量T(u’)を示す特徴量データを距離選択部1013aに出力する。
GMMは、入力された音響特徴量に対する出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す音響モデルの一種である。従って、距離モデルα(d)は、混合重み係数、平均値、共分散行列といった統計量で規定される。各距離dについてGMMを学習させる際、距離モデル記憶部1012aでは、各距離dにおいて残響特性が付加された学習用音声信号を用いて尤度が最大となるように、これらの統計量を予め定めておく。
これにより、距離d’を計測するためのハードウェアを備えなくても収音部12から音源、例えば話者までの距離を推定し、推定した距離に応じた残響の抑圧が可能になる。
次に、本実施形態に係る距離検出処理について説明する。本実施形態では、次に説明する処理を、図5に示す距離検出処理(ステップS202)の代わりに行う。
図14は、本実施形態に係る距離検出処理を示すフローチャートである。
(ステップS301)特徴量算出部1011aは、音源分離部105から入力された音響信号について予め定めた時間間隔毎に音響特徴量T(u’)を算出する。特徴量算出部1011aは、算出した音響特徴量T(u’)を示す特徴量データを距離選択部1013aに出力する。その後、ステップS302に進む。
(ステップS302)距離選択部1013aは、特徴量算出部1011aから入力された特徴量データが示す音響特徴量T(u’)について距離モデル記憶部1012aに記憶された距離モデルα(d)のそれぞれについて、尤度P(T(u’)|α(d))を算出する。その後、ステップS303に進む。
(ステップS303)距離選択部1013aは、算出した尤度P(T(u’)|α(d))が最大となる距離モデルα(d)に対応する距離dを距離d’として選択し、選択した距離d’を示す距離データを残響推定部102及び音響モデル更新部107に出力する。
その後、図14に示す処理を終了する。
次に、本実施形態に係る音声処理装置11aを用いて距離の推定及び音声認識精度を検証した実験結果について説明する。
実験は、上述の2つの実験室Rm1、Rm2で行った。各実験室において、5通りの距離d’(0.5m、1.0m、1.5m、2.0m、2.5m)のそれぞれについて、10名の話者に各々50回の発話を行わせ単語認識率を観測した。認識対象の語彙数は1000語である。音声認識部108で用いた言語モデルは、標準単語トライグラムモデル(standard word trigram model)である。上述のPTM HMMや距離の推定に用いるGMMを学習させる際、JNASコーパスを用いた。ここでは、混合数(Number of Gaussian mixtures)を256とした。混合数とは、GMMを構成する正規分布の数である。なお、その他の条件は、第1の実施形態で説明した実験の条件と同様である。
図15、図16は、それぞれ処理方法毎の単語認識率の例を示す図である。
図15、図16ともに、横軸に距離d’、縦軸に単語認識率(単位は、%)を示す。
部屋Rm1、Rm2との間では、残響がより著しい部屋Rm2の方が、単語認識率が低い。また、同一の部屋については、距離が大きくなるほど単語認識率が低い。
単語認識率は、方法A、B、C、Dの順に高くなる。例えば、部屋Rm1、距離d=2.0mの場合、本実施形態に係る方法Dでの59%は、方法A、B、Cの37%、40%、43%よりも有意に高い。例えば、部屋Rm2、距離d=2.0mの場合、本実施形態に係る方法Dでの32%は、方法A、B、Cの−7%、2%、11%よりも有意に高い。
本実施形態に係る方法Dでは、推定した距離d’に応じて、その都度推定した後期反射成分を除去し、併せて推定した音響モデルを用いる。このことにより、RTFを用いても得られなかった高い精度を実現することが示される。
上述した実験を行う前に、適切な混合数を定めるため、混合数による距離の正答率について行った検証について説明する。各試行では、音源の位置を予め定めた3箇所のいずれかをランダムに選択した。これらの3箇所のそれぞれを、Loc1、Loc2、Loc3と呼ぶ。これらの各位置に応じたGMMを予め生成しておいた。それぞれのGMMでの混合数は、2、4、8、16、32、64、128、256、512の9通りである。この9通りのそれぞれについて、距離の正答率を観測する。ここで、音源の位置と選択されたGMMが一致する場合を正答とし、それ以外の場合を誤答とする。
図17は、距離の正答率の例を示す図である。
各行は、混合数を示し、各列は、部屋Rm1、Rm2それぞれについて各音源位置での正答率(単位は、%)が示されている。
部屋Rm1、Rm2との間では、残響時間がより長い部屋Rm2の方が、正答率が低い。また、同一の部屋同士では、混合数が多くなるほど正答率が低い。各部屋について、音源位置間での正答率には有意な差は生じていない。
例えば、Rm1、音源位置Loc1の場合、混合数2、4、8、16、32、64、128、256、512が増加すると、正答率は、10%、18%、29%、40%、57%、79%、90%、98%、98%と高くなる。但し、混合数が256を超えると、正答率の変化が飽和する。従って、混合数を256と定めることで推定精度を確保することができる。
上述した実施形態は、次に示す変形例のように変形されてもよい。
次の説明では、主に音声処理装置11a(図12)との差異点について述べる。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図18は、本変形例に係る音声処理装置11bの構成を示す概略ブロック図である。
音声処理装置11bは、距離検出部101a、残響推定部102、音源分離部105、残響除去部106、音響モデル更新部107、音声認識部108の他に、対話制御部109b及び音量制御部110bを備える。
ここで、対話制御部109bは、予め定めた認識データと応答データの組を対応付けて記憶しておいた記憶部と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部を備える。
音声再生部13は、音量制御部110bから入力された応答音声信号に応じた音を再生する。音声再生部13は、例えば、スピーカである。
図19は、本変形例に係る音声処理を示すフローチャートである。
本変形例に係る音声処理は、ステップS201、S203−S207(図5)を有し、ステップS202の代わりにステップS202bを有し、さらに、ステップS208b、S209bを有する。ステップS202bは、図14に示した距離検出処理と同一の処理である。そして、ステップS207が終了した後、ステップS208bに進む。
(ステップS209b)音量制御部110bは、対話制御部109bから入力された応答音声信号の音量を制御し、音量が制御された応答音声信号を音声再生部13に出力する。
その後、図19に示す処理を終了する。
音量制御部110bは、応答音声信号に限らず、他の音源から入力された音響信号(例えば、通信相手先の装置から受信した音響信号、音楽の音響信号、等)の音量を制御してもよい。その場合には、音声認識部108、対話制御部109bのいずれか又はその両者が省略されてもよい。これに応じて、図19に示す処理において、ステップS207、S208bのいずれか又はその両者が省略されてもよい。
また、音声認識部108は、検出した距離d’に応じて音声認識処理を停止するか否かを制御してもよい。例えば、検出した距離d’が予め定めた距離の閾値(例えば、3m)を超えるとき、音声認識部108は、音声認識処理を停止する。また、検出した距離d’がその閾値を下回るとき、音声認識部108は、音声認識処理を開始又は再開する。残響環境において距離d’が大きい場合には音声認識率が低下するが、そのような場合に音声認識処理を停止することにより、無用な処理を回避することができる。
上述した音声処理装置11、11a、11bは、収音部12と一体化されていてもよい。また、音声処理装置11bは、音声再生部13と一体化されていてもよい。
上述した音声処理装置11において、検出した距離d’を示す距離データを取得することができれば、距離検出部101は省略されていてもよい。音声処理装置11は、例えば、音源に装着可能な距離検出部(図示せず)が検出した距離d’を示す距離データを入力する距離入力部を備えていてもよい。距離入力部と上述した距離検出部101、101aを距離取得部と総称する。
また、上述した実施形態における音声処理装置11、11a、11bの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置11、11a、11bの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
101、101a…距離検出部(距離取得部)、102…残響推定部、
103…残響特性推定部、104…補正データ生成部、105…音源分離部、
106…残響除去部、107…音響モデル更新部(音響モデル予測部)、
108…音声認識部、109b…対話制御部、110b…音量制御部、
12…収音部、13…音声再生部
Claims (7)
- 音源からの音声を収録する収音部と、
予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルを有し、前記音源までの距離として前記収音部が収録した音声について最も尤度が高くなる音響モデルに対応した距離を定める距離取得部と、
前記距離取得部が取得した距離に応じた残響特性を推定する残響特性推定部と、
前記残響特性推定部が推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成部と、
前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去部と、
を備えることを特徴とする音声処理装置。 - 前記残響特性推定部は、前記距離取得部が取得した距離に反比例する成分を含む残響特性を推定することを特徴とする請求項1に記載の音声処理装置。
- 前記残響特性推定部は、予め計測した残響特性に基づいて定めた前記反比例する成分の寄与を示す係数を用いて前記残響特性を推定することを特徴とする請求項2に記載の音声処理装置。
- 前記補正データ生成部は、予め定めた周波数帯域毎に前記補正データを生成し、
前記残響除去部は、周波数帯域毎の振幅をそれぞれ対応する周波数帯域の補正データを用いて補正することを特徴とする請求項1から請求項3のいずれかに記載の音声処理装置。 - 前記音声処理装置は、
残響が付加された予め定めた距離からの音声を用いて学習された第1の音響モデルと、残響を無視できる環境での音声を用いて学習された第2の音響モデルから、前記距離取得部が取得した距離に応じた第3の音響モデルを予測する音響モデル予測部と、
前記音響モデル予測部が予測した第3の音響モデルを用いて音声認識処理を行う音声認識部と、
をさらに備えることを特徴とする請求項1から請求項4のいずれかに記載の音声処理装置。 - 音声処理装置における音声処理方法において、
予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得ステップと、
前記距離取得ステップで取得した距離に応じた残響特性を推定する残響特性推定ステップと、
前記残響特性推定ステップで推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成ステップと、
前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去ステップと、
を有する音声処理方法。 - 音声処理装置のコンピュータに、
予め定めた複数の距離のそれぞれからの音声を用いて学習された音響モデルのそれぞれに対し収音部が収録した音声について尤度を算出し、音源までの距離として最も尤度が高くなる音響モデルに対応した距離を定める距離取得手順、
前記距離取得手順で取得した距離に応じた残響特性を推定する残響特性推定手順、
前記残響特性推定手順で推定した残響特性から残響成分の寄与を示す補正データを生成する補正データ生成手順、
前記補正データに基づいて前記音声の振幅を補正することにより前記音声から残響成分を除去する残響除去手順、
を実行させるための音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013143078A JP6077957B2 (ja) | 2013-07-08 | 2013-07-08 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US14/265,640 US9646627B2 (en) | 2013-07-08 | 2014-04-30 | Speech processing device, method, and program for correction of reverberation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013143078A JP6077957B2 (ja) | 2013-07-08 | 2013-07-08 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015019124A JP2015019124A (ja) | 2015-01-29 |
JP6077957B2 true JP6077957B2 (ja) | 2017-02-08 |
Family
ID=52133398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013143078A Active JP6077957B2 (ja) | 2013-07-08 | 2013-07-08 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9646627B2 (ja) |
JP (1) | JP6077957B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
US9312826B2 (en) | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
JP6124949B2 (ja) * | 2015-01-14 | 2017-05-10 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理システム |
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
US11631421B2 (en) | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
JP6646001B2 (ja) * | 2017-03-22 | 2020-02-14 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
US10796711B2 (en) * | 2017-09-29 | 2020-10-06 | Honda Motor Co., Ltd. | System and method for dynamic optical microphone |
CN111693139B (zh) * | 2020-06-19 | 2022-04-22 | 浙江讯飞智能科技有限公司 | 声音强度测量方法、装置、设备及存储介质 |
EP4325479A1 (en) * | 2021-04-12 | 2024-02-21 | Panasonic Intellectual Property Corporation of America | Acoustic feature value estimation method, acoustic feature value estimation system, program, and rendering method |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH09261133A (ja) * | 1996-03-25 | 1997-10-03 | Nippon Telegr & Teleph Corp <Ntt> | 残響抑圧方法および装置 |
JP3836815B2 (ja) * | 2003-05-21 | 2006-10-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
US7424118B2 (en) * | 2004-02-10 | 2008-09-09 | Honda Motor Co., Ltd. | Moving object equipped with ultra-directional speaker |
JP4396449B2 (ja) | 2004-08-25 | 2010-01-13 | パナソニック電工株式会社 | 残響除去方法及びその装置 |
WO2007058121A1 (ja) * | 2005-11-15 | 2007-05-24 | Nec Corporation | 残響抑圧の方法、装置及び残響抑圧用プログラム |
EP1993320B1 (en) * | 2006-03-03 | 2015-01-07 | Nippon Telegraph And Telephone Corporation | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium |
JP2007241304A (ja) * | 2007-04-20 | 2007-09-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP4532576B2 (ja) * | 2008-05-08 | 2010-08-25 | トヨタ自動車株式会社 | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム |
JP2010103853A (ja) * | 2008-10-24 | 2010-05-06 | Panasonic Corp | 音量監視装置及び音量監視方法 |
JP5079761B2 (ja) * | 2009-09-01 | 2012-11-21 | 日本電信電話株式会社 | 直間比推定装置、音源距離測定装置、雑音除去装置、各装置の方法と、装置プログラム |
JP5572445B2 (ja) * | 2010-04-30 | 2014-08-13 | 本田技研工業株式会社 | 残響抑圧装置、及び残響抑圧方法 |
WO2011145030A1 (en) * | 2010-05-20 | 2011-11-24 | Koninklijke Philips Electronics N.V. | Distance estimation using sound signals |
KR101861590B1 (ko) * | 2011-10-26 | 2018-05-29 | 삼성전자주식회사 | 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법 |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US20140122086A1 (en) * | 2012-10-26 | 2014-05-01 | Microsoft Corporation | Augmenting speech recognition with depth imaging |
-
2013
- 2013-07-08 JP JP2013143078A patent/JP6077957B2/ja active Active
-
2014
- 2014-04-30 US US14/265,640 patent/US9646627B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015019124A (ja) | 2015-01-29 |
US20150012269A1 (en) | 2015-01-08 |
US9646627B2 (en) | 2017-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6169910B2 (ja) | 音声処理装置 | |
US9972315B2 (en) | Speech processing device, speech processing method, and speech processing system | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
US10283115B2 (en) | Voice processing device, voice processing method, and voice processing program | |
US9858949B2 (en) | Acoustic processing apparatus and acoustic processing method | |
JP6124949B2 (ja) | 音声処理装置、音声処理方法、及び音声処理システム | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP4532576B2 (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
JP5841986B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP2014145838A (ja) | 音響処理装置及び音響処理方法 | |
JP2006243290A (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP2017032857A (ja) | 音声処理装置及び音声処理方法 | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
JP7426686B2 (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP5172797B2 (ja) | 残響抑圧装置とその方法と、プログラムと記録媒体 | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2020018015A (ja) | 音響信号処理装置、方法及びプログラム | |
JP2005326673A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161004 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6077957 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |