JP6261043B2 - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法、及び音声処理プログラム Download PDF

Info

Publication number
JP6261043B2
JP6261043B2 JP2014097622A JP2014097622A JP6261043B2 JP 6261043 B2 JP6261043 B2 JP 6261043B2 JP 2014097622 A JP2014097622 A JP 2014097622A JP 2014097622 A JP2014097622 A JP 2014097622A JP 6261043 B2 JP6261043 B2 JP 6261043B2
Authority
JP
Japan
Prior art keywords
reverberation
unit
speech
word
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014097622A
Other languages
English (en)
Other versions
JP2015064554A (ja
Inventor
ランディ ゴメス
ランディ ゴメス
一博 中臺
一博 中臺
武志 水本
武志 水本
圭佑 中村
圭佑 中村
Original Assignee
本田技研工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2013179196 priority Critical
Priority to JP2013179196 priority
Application filed by 本田技研工業株式会社 filed Critical 本田技研工業株式会社
Priority to JP2014097622A priority patent/JP6261043B2/ja
Publication of JP2015064554A publication Critical patent/JP2015064554A/ja
Application granted granted Critical
Publication of JP6261043B2 publication Critical patent/JP6261043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Description

本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。

室内で放射された音は、壁面や設置物で反射が繰り返されることによって残響が生じる。室内で収録される音声には、現在発されている音声に過去に発された音声による残響が付加される。収録された音声に対して音声認識処理を行うと原音声よりも音声認識率が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。

例えば、特許文献1には、観測時点以前に音源から出力された音のエネルギーが、観測された音のエネルギーに占める割合を、与えられた残響時間から推定する重み係数作成手段と、観測時点以前に出力された音のエネルギーを記憶するパワースペクトル記憶手段と、重み係数を用いて観測された音のエネルギーからパワースペクトル記憶手段に記憶された、観測時点以前に出力されたエネルギーを引き去る残響成分引き去り手段を備える残響除去装置について記載されている。この特許文献1に記載の技術では、観測された音のエネルギーから残響成分のみが引き去られる。

特開2011−065128号公報

一般に、発話された音声は、単語毎に音のエネルギーが異なるにもかかわらず、特許文献1に記載の技術では、音のエネルギーが残響時間に基づいて推定されており、単語間での差異が考慮されていない。そのため、現在観測された音のエネルギーから残響によるエネルギーを除去しきれないので音声認識精度が十分に向上できないことがあった。

本発明は上記の点に鑑みてなされたものであり、残響の影響を低減して音声認識精度を向上できる音声処理装置、音声処理方法、及び音声認識プログラムを提供する。

(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音声から認識単位を逐次に認識する音声認識部と、先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部と、前記音声認識部が認識した複数の認識単位からなる認識単位群に対応した残響影響度を前記残響影響度記憶部から選択する残響影響度選択部と、前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部と、を備える音声処理装置である。

(2)本発明の他の態様は、(1)の音声処理装置であって、前記残響抑圧部は、前記少なくとも一部の認識単位が認識された音声に残響成分の寄与を示す残響除去係数を乗じて得られた残響成分に、前記残響影響度で重み付けた残響成分を抑圧する。

(3)本発明の他の態様は、(1)又は(2)の音声処理装置であって、前記認識単位は、単語であることを特徴とする。

(4)本発明の他の態様は、(3)の音声処理装置であって、前記認識単位群は、2つの隣接する単語からなる単語対であって、前記残響影響度は、1つの単語が認識された音声による残響が後続する単語の音声に与える影響の度合いを示す係数であることを特徴とする。

(5)本発明の他の態様は、(4)の音声処理装置であって、前記残響影響度は、前記後続する単語の音声による残響成分のパワースペクトル密度の、前記1つの単語の音声のパワースペクトル密度の比であって、前記残響影響度記憶部は、前記残響影響度と、当該1つの単語と後続する単語とからなる単語対に係る音声のパワースペクトル密度とを対応付けて記憶し、前記残響影響度選択部は、前記音声認識部が認識した単語から単語対毎に、入力された音声のパワースペクトル密度が最も近似するパワースペクトル密度に対応した残響影響度を選択する。

(6)本発明の他の態様は、(1)又は(2)の音声処理装置であって、前記認識単位は、発話の状態であることを特徴とする。

(7)本発明の他の態様は、(6)の音声処理装置であって、前記認識単位群は、複数の隣接する状態からなる状態列であって、前記残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比であることを特徴とする。

(8)本発明の他の態様は、(6)又は(7)の音声処理装置であって、前記音声認識部は、所定の単語群が発話された音声から認識された状態列の尤度が高くなるように生成された音響モデルを参照して前記発話の状態を認識する。

(9)本発明の他の態様は、音声処理装置における音声処理方法において、入力された音声から認識単位を逐次に認識する音声認識過程と、前記音声認識過程で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択過程と、前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧過程と、を有する音声処理方法である。

(10)本発明の他の態様は、音声処理装置のコンピュータに、入力された音声から認識単位を逐次に認識する音声認識手順、前記音声認識手順で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択手順、前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧手順、を実行させるための音声処理プログラムである。

上述した(1)、(9)又は(10)の構成によれば、認識単位群の少なくとも一部の認識単位が認識された音声から、先行音声による残響が後続音声に与える影響を示す残響影響度で重みづけした残響成分が抑圧される。これにより、認識単位間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した(2)の構成によれば、少なくとも一部の認識単位が認識された音声に残響除去係数を乗じて求めた残響成分が、認識単位間で異なる残響の影響を考慮して残響の影響が除去されるため、音声認識精度をさらに向上することができる。

上述した(3)の構成によれば、単語間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した(4)の構成によれば、残響影響度に基づく残響抑圧を2つの隣接する単語対毎に行うことができるため、処理量が過大になることを抑制することができる。
上述した(5)の構成によれば、音声のパワースペクトル密度に基づいて残響影響度を選択し、選択した残響影響度を用いて残響抑圧を行うため、単語毎に異なる音声の周波数特性の変化が考慮される。そのため、音声認識精度をさらに向上することができる。

上述した(6)の構成によれば、発話の状態間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した(7)の構成によれば、複数の隣接する状態列により異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。
上述した(8)の構成によれば、音響モデルにおいて音声の物理的な特徴を示す音響特徴量と発話の状態とが対応付けられるので、状態列により音声の物理的な特徴の変化が表現される。そのため、発話の状態による音声の物理的な特徴の変化に応じて異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して行われる音声認識処理において音声認識精度を向上することができる。

本発明の第1の実施形態に係る音声処理システムの構成を示すブロック図である。 単語列と単語対の一例を示す図である。 ある単語が発話された区間の音声信号の強度の例を示す図である。 残響影響度データの例を示す図である。 残響特性推定部の構成を示すブロック図である。 残響影響度解析部の構成を示すブロック図である。 本発明の第1の実施形態に係る音声処理を示すフローチャートである。 本発明の第2の実施形態に係る音声処理システムの構成を示すブロック図である。 応答データの例を示す図である。 実験室における発話者と収音部の配置例を示す平面図である。 処理方法毎の音声認識率の一例を示す図である。 処理方法毎の音声認識率の他の例を示す図である。 本発明の第3の実施形態に係る音声処理システムの構成を示すブロック図である。 データ生成処理を示すフローチャートである。 音響モデル生成処理を示すブロック図である。 処理方法毎の音声認識率の一例を示す図である。 処理方法毎の音声認識率の他の例を示す図である。

(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置11及び収音部12を含んで構成される。
音声処理装置11は、後述するように、収音部12から入力された音声信号に基づいて発話された単語を逐次に認識し、認識した単語のうち、少なくとも1つの単語に係る音声による残響が、その後の単語に係る音声に与える影響を示す残響影響度を選択する。そして、音声処理装置11は、その少なくとも1つの単語に係る音声から、選択した残響影響度で重み付けした残響成分を抑圧する。

収音部12は、M個(Mは0よりも大きい整数)のチャネルの音声信号を収録し、収録した音声信号を音声処理装置11に送信する。収音部12は、収録した音声信号を無線で送信してもよいし、有線で送信してもよい。
Nが1よりも大きい場合には、送信の際にMチャネル間で音響信号が同期していればよい。収音部12の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部12は、音声処理装置11と一体化されていてもよいし、別体であってもよい。

ここで、残響とは、音源が音の放射を停止した後も音が到来する現象である。残響は、壁面や設置物で音波の反射が繰り返されることによって生じる。一般に、収音部12では、音源から直接到来した直接音(direct sound)と反射音(reflection)が重畳することによって、残響が付加された音声が収録される。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短い(例えば、約30ms以下)ために、反射回数が比較的少なくそれぞれの反射パターンが区別される部分は、初期反射(early reflection)と呼ばれる。反射音のうち、それよりも経過時間が長いために、反射回数が多くそれぞれの反射パターンを区別できない部分は、後期反射(late reflection)と呼ばれる。後期反射は、後期残響(late reverberation)、又は単に残響(reverberation)と呼ばれることがある。

残響が生じると、過去に発話された音声による残響が現在発話されている音声に重畳する。このため、残響が付加されていない音声よりも残響が付加された音声の方が、音声認識率が低下する。また、残響は、人間の聴覚上も、発話内容に対する明瞭度(intelligibility)を低下させる。以下の説明では、このような残響による悪影響を、残響の影響(smearing)と呼ぶ。また、残響が付加された音声、残響が除去された音声、残響成分が無視できるほど少ない音声を、それぞれ残響付加音声(reverberent speech)、残響除去音声(dereverberated speech)、クリーン音声(clean speech)、と呼ぶ。なお、残響の影響は、コンタミネーション(contamination)と呼ばれることもある。

次に、音声処理装置11の構成について説明する。
音声処理装置11は、残響特性推定部101、第1残響除去部102、第1音声認識部103、単語抽出部104、残響影響度記憶部105、残響影響度選択部106、第2残響除去部107、及び第2音声認識部108を含んで構成される。

残響特性推定部101は、収音部12から入力された音声信号に重畳されている残響の特性(残響特性)を推定する。残響特性推定部101は、残響特性を示す指標として、例えば、予め定めた周波数帯域b毎の残響除去係数(dereverberation parameter)δを推定する。ここで、bの値は、1からBの間の整数、Bは予め定めた周波数帯域の数を示す1よりも大きい整数である。残響除去係数δは、残響付加音声のパワーのうち後期反射のパワーの割合を示す指標である。残響特性推定部101は、推定した残響除去係数δを第1残響除去部102と第2残響除去部107に出力する。
残響特性推定部101の構成については後述する。

第1残響除去部102は、収音部12から入力された音声信号から、残響特性推定部101から入力された残響除去係数δに基づいて残響成分を除去する。第1残響除去部102は、残響成分を除去した残響除去音声信号を第1音声認識部103に出力する。ここで、第1残響除去部102は、例えば、式(1)を用いて、算出した周波数領域係数r(ω,m)と残響除去係数δに基づいて残響除去音声の周波数領域係数e(ω,m)を算出する。

式(1)において、|…|は、…の絶対値を示す。r(ω,m)は、入力された音響信号の第mフレームにおける周波数領域係数を示す。式(1)の上段が示す処理により音響信号のパワーから後期反射成分が除去される。式(1)の下段において、βはフロアリング係数(flooring coefficient)である。βは、1よりも0に近い予め定めた正の微小な値(例えば、0.05)である。このように、β|r(ω,m)|の項を設けることで、残響除去音声信号において最低限の振幅が維持されるので例えば、ミュージカルノイズ(musical noise)のような非線形雑音が生じにくくなる。第1残響除去部102は、算出した周波数領域係数e(ω,m)を時間領域に変換した残響除去音声信号を生成し、生成した残響除去音声信号を第1音声認識部103に出力する。
以下の説明では、第1残響除去部102が生成した残響除去音声信号を第1残響除去音声信号と呼び、後述する第2残響除去部107が生成した第2残響除去音声信号と区別する。

第1音声認識部103は、第1残響除去部102から入力された第1残響除去音声信号について音声認識処理を行い、発話内容(例えば、文を示すテキスト、つまり単語列)を認識し、認識した発話内容を示す認識データを単語抽出部104に出力する。
ここで、第1音声認識部103は、第1残響除去音声信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である。

第1音声認識部103は、算出した音響特徴量について予め設定された音響モデルλを用いて音素を認識する。音響モデルλは、例えば、連続隠れマルコフモデル(continuous HMM:Hidden Markov Model)である。連続HMMは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して表される。音響モデルλは、クリーン音声を用いて尤度が最大になるように学習されたものであってもよい。

第1音声認識部103は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を示す文を認識する(連続音声認識)。認識された文は、通常、複数の単語からなる単語列である。言語モデルは、音素列から単語や文を認識する際に用いられる統計モデルである。第1音声認識部103は、認識した単語列を示す認識データを生成し、生成した認識データを単語抽出部104に出力する。
以下の説明では、第1音声認識部103が生成した認識データを第1認識データと呼び、後述する第2音声認識部108が生成した第2認識データと区別する。

単語抽出部104は、第1音声認識部103から入力された第1認識データが示す単語列から予め定めたN個(Nは、1よりも大きい整数、例えば、2)の互いに隣接する単語からなる単語群を逐次に抽出する。「逐次に」とは、抽出される単語群によって形成される先頭の単語を、順次その直後の単語に変更することである。単語抽出部104は、収音部12から入力された音声信号から抽出した単語群に対応する区間の音声信号を抽出する。単語抽出部104は、抽出した単語群と、その単語群に対応する区間の音声信号を残響影響度選択部106に出力する。以下の説明では、主に、単語群が2個の隣接する単語からなる単語対(word pair)である場合を例にとる。単語列と単語対との関係については後述する。なお、以下の説明では、単語群に対応する区間の音声信号を「単語群区間音声信号」と呼び、単語対に対応する区間の音声信号を「単語対区間音声信号」と呼ぶことがある。

残響影響度記憶部105には、残響影響度データが予め記憶されている。残響影響度データは、ある1つの単語と後続する単語からなる単語対が認識された区間の音声信号の強度と、ある1つの単語に係る音声による残響が後続する単語に係る音声に与える影響の度合いを示す残響影響度とが対応付けられたデータである。強度を示す指標は、例えば、パワースペクトル密度(PSD:power spectral density)である。
残響影響度データの例や、残響影響度を算出する処理については後述する。

残響影響度選択部106には、単語抽出部104から単語対と単語対区間音声信号が入力される。残響影響度選択部106は、単語対区間音声信号の強度を算出し、算出した強度とその周波数特性の時間変化が最も近似する強度に対応した残響影響度を残響影響度記憶部105から選択する。残響影響度選択部106は、近似の度合いを示す指標として、例えば、式(2)に示す類似度(similarity)simを算出する。

式(2)において、<D(c)*(ω),Dtj(ω)>は、D(c)(ω)とDtj(ω)との相互相関(cross−correlation)を示す。D(c)(ω)は、残響影響度記憶部105に記憶された、クラスcに係る単語対に係る単語対音声信号のパワースペクトル密度を示す。クラスcとは、後述するように単語対をそれぞれ識別するインデックスである。*は、複素共役を示す。Dtj(ω)は、単語対tに係る単語対区間音声信号のパワースペクトル密度を示す。
従って、類似度simが大きいほどD(c)(ω)とDtj(ω)が近似し、類似度simが小さいほどD(c)(ω)とDtj(ω)が相違することを示す。
ここで、残響影響度選択部106は、例えば、式(3)を用いてパワースペクトル密度Dtj(ω)を算出する。

式(3)において、Mtjは単語対tが認識された区間のフレーム数を示す。P(ω,m)は、第mフレームにおける単語対区間音声信号(残響付加音声信号)のピリオドグラム(periodgram)、つまり周波数ωの成分の振幅の二乗値である。従って、パワースペクトル密度Dtj(ω)は、単語対tが認識された区間における周波数ωの成分の二乗値についての平均値である。
残響影響度選択部106は、選択した残響影響度と単語抽出部104から入力された単語対を第2残響除去部107に出力する。

このように、残響影響度選択部106は、認識された単語からなる単語対に対応する単語対区間音声信号の強度に基づいて残響影響度を選択する。そのため、残響環境で認識された単語の情報を用いずに、残響成分を含んだ残響付加音声信号の強度の特性を用い、その特性に応じた残響影響度が選択される。

第2残響除去部107は、収音部12から入力された音声信号のうち単語抽出部104から入力された単語対に対応する区間の音声信号を単語対区間音声信号として抽出する。第2残響除去部107は、抽出した単語対区間音声信号から、残響特性推定部101から入力された残響除去係数δと残響影響度選択部106から入力された残響影響度に基づいて残響成分を除去する。ここで、第2残響除去部107は、単語対区間音声信号と残響除去係数δを用いて残響成分を算出し、算出した残響成分について残響影響度を用いて重みづけを行う。第2残響除去部107は、重みづけがなされた残響成分を抽出した単語対区間音声信号から除去して第2残響除去音声信号を生成する。

第2残響除去部107は、例えば、式(4)を用いて、単語対区間音声信号の周波数領域係数と残響除去係数δと残響影響度に基づいて、第2残響除去音声信号の周波数領域係数を算出する。

式(4)において、e(ω,m,w)は、第2残響除去音声信号のうち、単語wが認識された区間の第mフレームにおける周波数領域係数を示す。r(ω,m,w)は、入力された音声信号のうち、単語wが認識された区間の第mフレームにおける周波数領域係数を示す。τは、単語wと後続する単語wj+1からなる単語対tが認識された区間の音声信号に係る残響影響度を示す。つまり、式(4)の上段の右辺の第2項は、単語wが認識された区間の第mフレームにおける単語対区間音声信号の周波数領域係数r(ω,m,w)の二乗値に残響除去係数δを乗じて残響成分の二乗値を推定し、推定した残響成分の二乗値にさらに残響影響度τで重みづけを行うことを示す。従って、式(4)は、そのフレームにおける単語対区間音声信号の周波数領域係数r(ω,m,w)の二乗値から残響影響度τで重みづけがなされた残響成分の二乗値を除去して、そのフレームの第2残響除去音声信号の周波数領域係数e(ω,m,w)を定めることを示す。

なお、式(4)の下段のように、β|r(ω,m,w)|の項を設けるのは、式(1)と同様に第2残響除去音声信号において最低限の振幅を維持することで異音を生じにくくするためである。第2残響除去部107は、算出した周波数領域係数e(ω,m,w)を時間領域に変換した第2残響除去音声信号を生成し、生成した第2残響除去音声信号を第2音声認識部108に出力する。

第2音声認識部108は、第2残響除去部107から入力された第2残響除去音声信号について音声認識処理を行うことで、発話内容を認識し、認識した発話内容を示す第2認識データを音声処理装置11の外部に出力する。
第2音声認識部108は、第1音声認識部103と同様な構成を有していてもよい。つまり、第2音声認識部108は、第2残響除去音声信号について予め定めた時間間隔毎に音響特徴量を算出し、算出した音響特徴量について予め設定された音響モデルを用いて音素を認識する。第2音声認識部108は、認識した音素からなる音素列について予め設定された言語モデルを用いて発話内容を示す文を逐次に認識し、認識した単語列を示す第2認識データを生成し、生成した第2認識データを出力する。

第2音声認識部108は、残響影響度選択部106で選択された残響影響度を用いて重みづけした残響成分が除去された第2残響除去音声信号について音声認識処理が行われる。残響影響度とは、1つの単語に係る音声による残響が後続する単語に係る音声に与える影響の度合いを示す係数であるところ、より先行する単語が認識された区間の音声信号に係る残響成分が抑圧された音声信号が用いられるので音声認識率が向上する。

なお、残響影響度選択部106は、選択した残響影響度と単語抽出部104から入力された単語対に加えて、単語対区間音声信号を第2残響除去部107に出力してもよい。この場合、第2残響除去部107は、残響影響度選択部106から入力された単語対区間音声信号から、残響特性推定部101から入力された残響除去係数δと残響影響度選択部106から入力された残響影響度に基づいて残響成分を除去する。ここで、第2残響除去部107は、入力された単語対区間音声信号と残響除去係数δを用いて残響成分を算出し、算出した残響成分について残響影響度を用いて重みづけを行う。第2残響除去部107は、重みづけがなされた残響成分を抽出した単語対区間音声信号から除去して第2残響除去音声信号を生成する。この場合も、第2音声認識部108では、音声認識処理において、より先行する単語が認識された区間の音声信号に係る残響成分が抑圧された音声信号が用いられるので音声認識率が向上する。

(単語列と単語対の例)
次に、単語抽出部104に入力された第1認識データが示す単語列と、単語抽出部104が抽出する単語対との一例を示す。
図2は、単語列と単語対の一例を示す図である。
図2の上段は、認識された単語w,w,w,…,w,wj+1,…からなる単語列を示す。図2の下段は、抽出された単語対t,t,…,t,…を示す。図2において左右方向は時刻を示す。つまり、左側よりも右側の単語もしくは単語対の方が、新たな単語もしくは単語対を示す。
ここで、単語対tは、単語列から抽出された単語w,wからなり、単語対tは、単語w,wからなり、単語対tは、単語w,wj+1からなることを示す。このようにして、単語抽出部104は、単語列から単語wと直後に後続する単語wj+1を抽出して単語対tを生成する処理を、新たに単語wj+1が入力される毎に繰り返す。

(音声信号の強度の例)
次に、音声信号の強度の例について説明する。
図3は、ある単語w,wj+1が発話された区間の音声信号の強度の例を示す図である。図3の上段は、クリーン音声の強度の指標としてピリオドグラムを示し、図3の下段は、残響付加音声のスペクトログラムを示す。図3では、縦軸、横軸は、それぞれ周波数、時刻を示す。図3の左方は単語wが発話された区間を示し、図3の右方は単語wj+1が発話された区間を示す。濃く示されている部分ほどパワーが大きく、薄く示されている部分ほどパワーが小さいことを示す。

図3の上段によれば、クリーン音声では、単語wj+1よりも単語wが発話されている区間の方が、パワーが大きい。特に、単語wが発話されている区間の後半には、0−1.3kHz、2.7−5.2kHzにおけるパワーが、他の周波数帯域におけるパワーよりも大きい。単語wj+1が発話されている区間になると、パワーは急激に低下し、0−1.3kHz、2.7−5.2kHzの帯域でパワーが他の周波数帯域におけるパワーよりも大きくなる現象が現れなくなる。

図3の下段によれば、残響付加音声でも、単語wj+1よりも単語wが発話されている区間の方が、全体としてパワーが大きい。しかし、単語wj+1が発話されている区間の前半では、単語wが発話されている区間で特定の周波数帯域でパワーが大きくなる現象が継続している。特に、周波数が低くなるほどその現象がより顕著に継続する。このように、残響付加音声は、ある単語wに係る音声による残響が、後続するwに係る音声に重畳することで残響の影響が生じる。この残響によって過去の強度が継続する現象を、エネルギーの転移(energy transfer)と呼ぶこともある。この現象は、前述した残響の影響の一つである。

(残響影響度データの例)
次に、残響影響度記憶部105に記憶される残響影響度データの例について説明する。
図4は、残響影響度データの例を示す図である。
図4に示す残響影響度データは、(1)クラスc(cは、1からCまでの整数、Cは予め定めた整数、例えば、10000)、(2)パワースペクトル密度D(c)(ω)、及び(3)残響影響度τ(c)が対応付けられているデータである。クラスcは、各単語対を識別するインデックスである。
図4に示す例では、例えば、クラス1に、パワースペクトル密度D(1)(ω)、残響影響度τ(1)が対応付けられている。
なお、後述するように、稀にしか現れない(infrequent)単語対については、より頻出する(frequent)単語対であって、かつ、パワースペクトル密度D(c)(ω)が最も近似する単語対に係るクラスcが用いられてもよい。これにより、音響的な特徴を損なわずにデータ量の肥大化を回避することができる。

(残響特性推定部の構成)
次に、残響特性推定部101の構成について説明する。
図5は、残響特性推定部101の構成を示すブロック図である。
残響特性推定部101は、特徴量算出部1011、残響モデル記憶部1012、尤度算出部1013、及び残響除去係数選択部1014を含んで構成される。

特徴量算出部1011は、収音部12から入力された音響信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量Tを算出する。音響特徴量Tは、例えば、静的メル尺度対数スペクトル(static MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である。これらの係数の組は特性ベクトル(feature vector)とも呼ばれる。
特徴量算出部1011は、算出した音響特徴量Tを示す特徴量データを尤度算出部1013に出力する。

残響モデル記憶部1012には、音源から収音部12までの距離r毎に予め生成した適応音響モデルπ[r]と残響除去係数δb,[r]とが対応付けられた残響モデルデータが記憶されている。
適応音響モデルπ[r]は、距離がrである音源からの残響付加音声で尤度が最大になるように学習された音響モデルである。適応音響モデルπ[r]は、混合ガウスモデル(GMM:Gaussian Mixture Model)である。GMMは、入力された音響特徴量に対する出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す音響モデルの一種である。つまり、GMMは、混合重み係数、平均値、共分散行列といった統計量で規定される。

ここで、距離rに係る適応音響モデルπ[r]を次のようにして取得しておいてもよい。まず、予めクリーン音声で尤度が最大になるように音響モデルπ(s)を学習しておく。また、予め定めた距離Rの音源からの残響付加音声で尤度が最大になるように音響モデルπ(R)を学習しておく。そして、音響モデルπ(s)の特徴量と、音響モデルπ(R)の特徴量を、距離rに基づいて補間(interpolation)又は外挿(extrapolation)して適応音響モデルπ[r]を生成する。

また、適応音響モデルπ[r]は、予め与えられた音響モデル、例えば、クリーン音声に係る音響モデルπ(s)から最大尤度線形回帰法(MLLR:Maximum Likelihood Linear Regression)を用いて生成しておいてもよい。
距離r毎の残響除去係数δb,[r]は、例えば、距離rの音源からの帯域bにおける後期反射のパワーを残響付加音声のパワーで除算して算出しておいてもよい。

尤度算出部1013は、特徴量算出部1011から入力された特徴量データが示す音響特徴量Tについて、残響モデル記憶部1012に記憶された音響モデルπ[r]のそれぞれについて尤度L(T|π[r])を算出し、算出した尤度L(T|π[r])を残響除去係数選択部1014に出力する。

残響除去係数選択部1014は、尤度算出部1013から入力された尤度L(T|π[r])のうち最大となる尤度max(P(T|π[r]))に係る残響除去係数δb,[r]を選択する。残響除去係数選択部1014は、選択した残響除去係数δb,[r]を残響除去係数δとして第1残響除去部102及び第2残響除去部107に出力する。

なお、適応音響モデルπ[r]や残響除去係数δb,[r]を取得する際に用いた残響付加音声に係る残響特性(例えば、RTF(Room Transfer Function、室内伝達関数))は、予め計測されたものであってもよい。また、その残響特性は、予め定めた関数(例えば、距離rに反比例する成分と一定の成分とを加算する関数)に基づいて算出されたものであってもよい。また、音声処理装置11は、残響特性を測定する残響特性測定部(図示せず)を備え、残響特性測定部が測定した残響特性を、適応音響モデルπ[r]や残響除去係数δb,[r]を取得する際に用いてもよい。また、音声処理装置11が残響特性測定部(図示せず)を備える場合には、残響特性推定部101は、残響特性測定部が測定した残響特性から第1残響除去部102及び第2残響除去部107へ出力すべき残響除去係数δを算出してもよい。

(残響影響度を算出する処理)
次に、残響影響度を算出する処理について説明する。残響影響度は、予め残響影響度解析部110で算出しておく。残響影響度解析部110は、音声処理装置11に内蔵されてもよいし、音声処理装置11とは別個の構成であってもよい。また、残響影響度解析部110は、必ずしも専用のハードウェアで構成されていなくてもよく、例えば、その処理がプログラムを実行することによりコンピュータで実現されてもよい。

図6は、残響影響度解析部110の構成を示すブロック図である。
残響影響度解析部110は、学習データ取得部1101、単語抽出部1102、中間データ記憶部1103、第1データ分割部1104、残響付加部1105、第2データ分割部1106、強度解析部1107、及び残響影響度算出部1108を含んで構成される。

学習データ取得部1101は、音声信号とその発話内容を示す単語列を対応付けた学習データを残響影響度解析部110の外部から取得する。発話内容を表現する言語は、自然言語であればいかなる言語、例えば、英語、日本語、等であってもよい。学習データに含まれる音声信号は、クリーン音声の音声信号である。学習データ取得部1101は、例えば、収音部12に近接した話者が発話した音声をクリーン音声として取得し、発話内容を示すテキストデータを音声信号と対応付けて学習データを構成してもよい。また、学習データ取得部1101は、既成の音声データベースを取得してもよい。取得された音声には、複数の話者がそれぞれ発話した音声が含まれてもよい。学習データ取得部1101は、取得した音声を示す音声信号と単語列を対応付けて単語抽出部1102に出力する。

単語抽出部1102は、学習データ取得部1101から入力された単語列から互いに隣接する単語からなる単語対を逐次に抽出する。単語抽出部1102は、学習データ取得部1101から入力された音声信号から抽出した単語対に対応する区間の音声信号を抽出する。単語抽出部1102は、抽出した単語対と、その単語対に対応する区間の音声信号とを対応付けた中間データ(intermediate data)を中間データ記憶部1103に順次記憶する。

第1データ分割部1104は、中間データ記憶部1103から中間データを読み出し、読み出した中間データを単語対毎に分割して各単語対とそれに対応する音声信号(クリーン音声)が対応付けられた第1単語対データを生成する。また、第1データ分割部1104は、読み出した中間データを各単語とそれに対応する音声信号(クリーン音声)が対応付けられた第1単語データを生成する。第1データ分割部1104は、生成した第1単語対データと第1単語データを強度解析部1107に出力する。

残響付加部1105は、中間データ記憶部1103から中間データを読み出し、読み出した中間データのうち音声信号を抽出し、抽出した音声信号に予め定めた残響特性を付加して残響付加音声を示す音声信号を生成する。残響付加部1105が付加する残響特性は、残響特性推定部101で用いられる残響特性と同様なものであれば、いかなる残響特性であってもよい。残響付加部1105は、中間データに含まれている音声信号を生成した音声信号(残響付加音声)に置き換え、音声信号を置き換えた中間データを第2データ分割部1106に出力する。

第2データ分割部1106は、残響付加部1105から入力された中間データを単語対毎に分割して各単語対とそれに対応する音声信号(残響付加音声)が対応付けられた第2単語対データを生成する。また、第2データ分割部1106は、入力された中間データを単語毎に分割して各単語とそれに対応する音声信号(クリーン音声)が対応付けられた第2単語データを生成する。第2データ分割部1106は、生成した第2単語対データと第2単語データを強度解析部1107に出力する。

強度解析部1107は、第1データ分割部1104から入力された第1単語対データならびに第1単語データ、第2データ分割部1106から入力された第2単語対データならびに第2単語データのそれぞれに含まれる音声信号の強度を示す指標を算出する。強度解析部1107は、その指標として、例えばスペクトル密度を算出する。

ここで、強度解析部1107は、第1単語対データに含まれる音声信号(クリーン音声)からピリオドグラムP(ω,m)を算出し、算出したピリオドグラムP(ω,m)を式(3)のP(ω,m)に代入する。これにより、単語対tに係るパワースペクトル密度Ds,tj(ω)が算出される。強度解析部1107は、第2単語対データに含まれる音声信号(残響付加音声)からピリオドグラムP(ω,m)を算出し、算出したピリオドグラムP(ω,m)について式(3)を用いて単語対tに係るパワースペクトル密度Dr,tj(ω)を算出する。

強度解析部1107は、第1単語データに含まれる音声信号(クリーン音声)からピリオドグラムP(ω,m)を算出し、算出したピリオドグラムP(ω,m)について式(5)を用いて単語wに係るパワースペクトル密度Ds,wj(ω)を算出する。

式(5)において、Mwjは単語wが発話された区間のフレーム数を示す。従って、パワースペクトル密度Ds,wj(ω)は、単語wが発話された区間における周波数ωの成分の二乗値についての平均値である。
強度解析部1107は、第2単語データに含まれる音声信号(残響付加音声)からピリオドグラムP(ω,m)を算出し、算出したピリオドグラムP(ω,m)を式(5)のP(ω,m)に代入して単語wに係るパワースペクトル密度Dr,wj(ω)を算出する。
なお、強度解析部1107は、同様に式(5)を用いて単語対tに含まれる単語wj+1に係るパワースペクトル密度Dr,wj+1(ω)、Ds,wj+1(ω)も算出する。

強度解析部1107は、単語対t毎に出現した頻度を計数する。強度解析部1107は、計数した頻度の降順に単語対tを順列させ、最も頻度が高い単語対から第C番目に頻度が高い単語対まで、それぞれクラスcとして1からCまでの整数を割り当ててもよい。これらのC個のクラスを基本クラス(base classes)と呼ぶ。それ以外の単語対tについては、それぞれクラスlとして1からL(Lは、出現した単語対tの種類の総数からCを減じた整数)までの整数を割り当てる。これらのクラスを希少単語対クラス(infrequent pairs classes)と呼ぶ。これにより、頻出する単語対に係るデータと希少な単語対に係るデータを分類する。

強度解析部1107は、希少単語対クラスに属する単語対のパワースペクトル密度Ds,tj(ω)のそれぞれについて、基本クラスに属する各単語対のパワースペクトル密度Ds,tj(ω)との類似度simを、例えば式(2)を用いて算出する。強度解析部1107は、希少単語対クラスに属する単語対のパワースペクトル密度Ds,tj(ω)のそれぞれについて、類似度が最も高い基本クラスに属する単語対のクラスcを選択する。これにより、希少単語対クラスに属する単語対と最もパワースペクトル密度Ds,tj(ω)が近似する単語対に係る基本クラスcが定められる。

強度解析部1107は、基本クラスに属する単語対tについて算出したパワースペクトル密度Dr,tj(ω)、Ds,wj(ω)、Dr,wj+1(ω)、Ds,wj+1(ω)を残響影響度算出部1108に出力する。これらのパワースペクトル密度は、これらに係る単語対tに割り当てられたクラスcと対応付けて出力される。

残響影響度算出部1108は、強度解析部1107から入力されたクラスc毎のパワースペクトル密度Ds,wj(ω)、Dr,wj+1(ω)、Ds,wj+1(ω)に基づいて残響影響度τ (c)を算出する。残響影響度算出部1108は、残響影響度τ (c)を算出する際、例えば、式(6)を用いる。

式(6)の分子は、単語wj+1に係る残響付加音声の強度からその単語に係るクリーン音声の強度を減じられた値、つまり単語wよりも後続する単語wj+1における残響の強度を示す値である。式(6)の分母は、単語wに係るクリーン音声の強度である。言い換えれば、残響影響度τ (c)は、単語wに係る残響が後続する単語wj+1に係る音声に与える影響の度合いを示す。
残響影響度算出部1108は、強度解析部1107から入力されたパワースペクトル密度Dr,tj(ω)と算出した残響影響度τ (c)を、パワースペクトル密度D(c)(ω)と算出した残響影響度τ(c)としてクラスcと対応付けて残響影響度データを生成する。残響影響度算出部1108は、生成した残響影響度データを残響影響度記憶部105に記憶する。

(残響除去の他の例)
上述では、第1残響除去部102、第2残響除去部107が、それぞれスペクトラルサブトラクション(spectral subtraction)法に基づいて残響付加音声信号から残響成分を除去する処理(式(1)、(4)参照)について説明した。但し、第1残響除去部102、第2残響除去部107は、これには限られず、それぞれウィーナフィルタリング法(Wiener filtering)に基づいて残響付加音声から残響成分を除去する処理を行ってもよい。ウィーナフィルタリング法では、残響成分と残響除去音声信号の相関がないものと仮定して、フィルタリングされた残響付加音声信号と残響除去音声信号との平均二乗誤差を最小にする線形フィルタ(ウィーナ重み(Wiener weighting)とも呼ばれる)を形成する処理である。形成した線形フィルタは、残響付加音声信号をフィルタリングして残響除去音声信号を生成するために用いられる。

ここで、音声処理装置11は、入力された音声信号が有音判定処理(VAD:Voice Activity Detection)を行う有音判定部(図示せず)を備える。有音判定処理は、音声信号が音声を含むか否かを判定(有音無音判定)する処理である。有音判定処理は、例えば、音声信号のパワーが予め定めた閾値よりも高く、かつ、零交差数(number of zero crossings)が予め定めた範囲(例えば、1秒当たり200回よりも多い)場合に有音と判定し、それ以外の場合、無音と判定する処理である。零交差数とは、時間領域の信号値が単位時間当たりに零を交差する回数、つまり、信号値が負値から正値、又は正値から負値に変化する回数である。

第1残響除去部102は、収音部12から入力された音声信号についてウェーブレット変換(wavelet transform)を行ってウェーブレット係数(wavelet coefficient)W(a)を算出する。ここで、aは、スケール(scale)を示す。スケールは、ウェーブレット変換に用いられる基底の特徴を示す係数である。第1残響除去部102は、算出したウェーブレット係数W(a)から周波数帯域bにおける第kウェーブレット係数wbkを算出する。ここで、第1残響除去部102は、有音判定部が直前に無音であると判定した区間の音声信号の周波数帯域bにおけるスケールaのパワーを後期反射成分のパワーl(a)と定める。第1残響除去部102は、有音であると判定した区間の音声信号の周波数帯域bにおけるスケールaのパワーから後期反射成分のパワーl(a)を差し引いて第1残響除去音声信号のパワーe(a)と定める。
第1残響除去部102は、例えば、式(7)を用いて周波数帯域bの線形フィルタκ’を算出する。

第1残響除去部102は、周波数帯域bにおける線形フィルタκ’と第kウェーブレット係数wbkに基づいて、例えば、式(8)を用いて、周波数帯域bの第1残響除去音声信号の第kウェーブレット係数wbk’を算出する。

そして、第1残響除去部102は、算出したウェーブレット係数wbk’から第1残響除去音声信号のパワーe(a)を合成する。また、第1残響除去部102は、音声信号(残響付加信号)のパワーから合成した第1残響除去音声信号のパワーe(a)を差し引いて後期反射成分のパワーl(a)を合成する。第1残響除去部102は、例えば、合成したパワーe(a)、l(a)と、有音無音判定に基づいて定めたパワーe(a)、l(a)との二乗誤差が最小となるように、残響除去係数δを定める。
第1残響除去部102は、定めた残響除去係数δに基づいて得られたウェーブレット係数wbk’について逆ウェーブレット変換を行って第1残響除去音声信号を生成し、生成した第1残響除去音声信号を第1音声認識部103に出力する。

第2残響除去部107も、上述した単語対区間音声信号についてウィーナフィルタリング法を用いて第2残響除去音声信号を生成し、生成した第2残響除去音声信号を第2音声認識部108に出力する。但し、第2残響除去部107は、式(7)、(8)に代えて、式(9)、(10)を用いる。

つまり、式(9)は、後期反射成分のパワーにさらに残響影響度τで重みづけをして帯域bの線形フィルタκ’’を算出することを示す。
式(10)は、線形フィルタκ’’を用いてウェーブレット係数wbk’’を算出することを示す。算出したウェーブレット係数wbk’’は、残響除去係数δを定めたうえで逆ウェーブレット変換を行って第2残響除去音声信号を生成する際に用いられる。

(音声処理)
次に、本実施形態に係る音声処理について説明する。
図7は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)残響特性推定部101、第1残響除去部102、単語抽出部104には、収音部12から音声信号が入力される。その後、ステップS102に進む。
(ステップS102)残響特性推定部101は、入力された音声信号に重畳されている残響の残響特性に係る残響除去係数δを推定する。残響特性推定部101は、推定した残響除去係数δを第1残響除去部102と第2残響除去部107に出力する。その後、ステップS103に進む。

(ステップS103)第1残響除去部102は、収音部12から入力された音声信号から、残響特性推定部101から入力された残響除去係数δに基づいて残響成分を除去する。第1残響除去部102は、残響成分を除去した第1残響除去音声信号を第1音声認識部103に出力する。その後、ステップS104に進む。
(ステップS104)第1音声認識部103は、第1残響除去部102から入力された第1残響除去音声信号について音声認識処理を行い、認識した発話内容を示す第1認識データを単語抽出部104に出力する。その後、ステップS105に進む。

(ステップS105)単語抽出部104は、第1音声認識部103から入力された第1認識データが示す単語列から単語対を逐次に抽出する。単語抽出部104は、収音部12から入力された音声信号から抽出した単語群に対応する区間の音声信号を抽出する。単語抽出部104は、抽出した単語対と、その単語対に対応する区間の音声信号を残響影響度選択部106に出力する。その後、ステップS106に進む。

(ステップS106)残響影響度選択部106には、単語抽出部104から単語対とその単語対に対応する区間の音声信号が入力される。残響影響度選択部106は、入力された音声信号のパワースペクトル密度を算出し、算出したパワースペクトル密度が最も近似するパワースペクトル密度に対応した残響影響度を残響影響度記憶部105から選択する。残響影響度選択部106は、選択した残響影響度と単語抽出部104から入力された単語対を第2残響除去部107に出力する。その後、ステップS107に進む。

(ステップS107)第2残響除去部107は、収音部12から入力された音声信号から単語抽出部104から入力された単語対に対応する区間の音声信号を単語対区間音声信号として抽出する。第2残響除去部107は、抽出した単語対区間音声信号と残響特性推定部101から入力された残響除去係数δを用いて残響成分を算出し、算出した残響成分を残響影響度選択部106から入力された残響影響度を用いて重みづけを行う。第2残響除去部107は、重みづけがなされた残響成分を単語対区間音声信号から除去して第2残響除去音声信号を生成する。その後、ステップS108に進む。
(ステップS108)第2音声認識部108は、第2残響除去部107から入力された第2残響除去音声信号について音声認識処理を行い、認識した発話内容を示す第2認識データを音声処理装置11の外部に出力する。その後、図7に示す処理を終了する。

このように、本実施形態は、入力された音声に基づいて発話された単語を逐次に認識する音声認識部(第1音声認識部103)と、少なくとも1つの単語の音声による残響がその後の単語の音声に与える影響を示す残響影響度と、当該少なくとも1つの単語と後続する単語とからなる単語群に係る音声の強度とを対応付けて記憶する残響影響度記憶部(残響影響度記憶部105)を備える。また、本実施形態は、前記音声認識部が認識した単語から予め定めた数の単語からなる単語群(例えば、単語対)毎に、入力された音声の強度が最も近似する強度に対応した残響影響度を前記残響影響度記憶部から選択する残響影響度選択部(残響影響度選択部106)を備える。
また、本実施形態は、前記単語群のうち前記少なくとも1つの単語に係る音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部(第2残響除去部107)と、を備える。

そのため、単語群のうち少なくとも1つの単語の音声から、当該少なくとも1つの単語の音声による残響がその後の単語の音声に与える影響を示す残響影響度で重みづけした残響成分が抑圧される。これにより、単語間の影響を考慮して残響抑圧が行われるので、音声認識精度を向上することができる。

(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して説明を援用する。
図8は、本実施形態に係る音声処理システム1aの構成を示すブロック図である。
音声処理システム1aは、音声処理装置11a、収音部12、及び音声再生部13aを含んで構成される。音声処理システム1aは、音声処理装置11aにおいて音声認識処理によって認識された発話内容に応じて、応答内容を示す音声信号を生成する対話システムである。

音声再生部13aは、音声処理装置11aから入力された音声信号に基づく音声を再生する。音声再生部13aは、例えば、スピーカである。
音声処理装置11aは、残響特性推定部101、第1残響除去部102、第1音声認識部103、単語抽出部104、残響影響度記憶部105、残響影響度選択部106、第2残響除去部107、第2音声認識部108、対話制御部120aを含んで構成される。即ち、音声処理装置11aは、音声処理装置11(図1)に対して更に対話制御部120aを含む。

対話制御部120aは、第2音声認識部108から入力された第2認識データに応じた応答データを取得する。対話制御部120aは、取得した応答データが示す応答テキストについて既知のテキスト音声合成処理を行い応答テキストに応じた音声信号(応答音声信号)を生成する。対話制御部120aは、生成した応答音声信号を音声再生部13aに出力する。
ここで、対話制御部120aは、認識データと応答データの組を対応付けて予め記憶しておいた記憶部(図示せず)と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部(図示せず)を備える。

応答データとは、予め定めた認識データと、これに対応する応答テキストを示す応答データを対応付けたデータである。ここで、応答データの例について説明する。
図9は、応答データの例を示す図である。
図9に示す応答データのうち、先頭にSp1等の文字が置かれた段落は認識データを示し、先頭にRb1等の文字が置かれた段落は応答データを示す。
例えば、最初の認識データ(Sp1)は、日本語で「やあ、昨日友達と寿司屋に行って、鮎を注文したんだ。その魚について教えてもらえないかな?」を意味する英語のテキストからなる認識データである。最初の応答データ(Rb1)は、日本語で「鮎は東南アジアでありふれていて、メロンやキュウリのような香りをもった独特な風味がある食用の魚だよ。」を意味する英語のテキストからなるデータである。この例では、対話制御部120aは、認識データの一部、例えば、「Sweetfish」を代入して応答データを生成する。

このように、本実施形態では、第1の実施形態に係る音声処理装置11と同様な構成を備えるので、残響付加音声について音声認識精度が向上する。そのため、認識された発話内容を示す認識データに対応する応答データが的確に選択されるため、より適確な対話を実現することができる。

(実験結果)
次に、上述した音声処理装置11aを用いて音声認識精度を検証した実験結果について説明する。
実験は、残響時間(RT:reverberation time)が240ms、640msである実験室A、Bで行った。
図10は、実験室Bにおける発話者(Speaker)Spと収音部12の配置例を示す平面図である。
実験室Bの内径は、縦5.5m、横4.8m、高さ4.0mである。
実験室Bでは、人型ロボット(humanoid robot)Rbの胴体に音声処理装置11aを内蔵し、ロボットの頭部に収音部12を内蔵した。収音部12は8個のマイクロホンからなるマイクロホンアレイであり、8個のうちの1個のマイクロホンで収録した音声信号を音声処理装置11aに入力させた。ここで、発話者Spが発声した音声について音声認識率を観測した。音声認識率は、収音部12から発話者Spまでの距離rが0.5m、1.0m、1.5m、2.0mのそれぞれについて観測した。なお、実験室Aも実験室Bと同様な大きさを有し、同様な発話者Spと収音部12の位置関係のもとで音声認識率を観測した。

実験では、認識対象の語彙は2000語であって、日本の伝統料理である寿司及び刺身を話題とする対話を行わせた(図9参照)。対話においては、発話者Sp毎にロボットRbに対する質問を発話させ、この発話に係る音声を音声処理装置11aに認識させる。そして、音声処理装置11aには、認識によって得られた認識データに対応する応答データに係る音声を再生される。ここで、対話制御部120aは、認識データの一部として、認識に成功した魚の名称を応答データに含める。そこで、再生された音声に、発話者Spが発話した事物として魚の名称が含まれるか否かによって、正誤を判断した。
なお、実験に参加した発話者数は20名であり、各発話者にはロボットRbに対して10個の質問を発話させた。

なお、第1音声認識部103、第2音声認識部108で用いた音響モデルは、英語のトライフォン(triphone)HMMである。学習用データとして英文の新聞記事を読み上げた音声が含まれるウォールストリートジャーナル(The Wall Street Journal)データベースを用いて、音響モデルを予め学習させておいた。

音声認識率は、次の6通りの方法で処理した音声信号を用いて観測した。A.処理を行わない(no enhanced)、B.既存のブラインド残響除去(blind dereverberation)、C.従来のウィーナフィルタリング法、D.ウィーナフィルタリング法に基づく第2残響除去部107による後期反射成分の除去(本実施形態)、E.従来のスペクトラルサブトラクション法、F.スペクトラルサブトラクション法に基づく第2残響除去部107による後期反射成分の除去(本実施形態)。

(音声認識率の例)
図11、図12は、処理方法毎の音声認識率の例を示す図である。
図11、図12には、それぞれ実験室A、Bで得られた認識率(単位は%)が示されている。各行は発話された音声の処理方法(方法A−F)を示し、各列は距離rを示す。
実験室A、B間では、残響時間がより長い実験室Bの方が、音声認識率が低い。また、同一の実験室同士については、距離が大きくなるほど音声認識率が低い。音声認識率は、概ね方法A、B、C、E、D、Fの順に高くなる。例えば、実験室B、距離r=2.0mの場合、本実施形態に係る方法Dでの65.4%は、従来技術に係る方法Cの55.2%よりも有意に高い。また、本実施形態に係る方法Fでの68.3%は、従来技術に係る方法Eの57.1%よりも有意に高い。この結果は、上述した残響影響度で後期反射成分に重みづけを行って残響除去処理を行うことで従来技術よりも音声認識率が向上することを示す。なお、図11(実験室A)の距離r=0.5m、1.0mのように残響の影響が少ない場合には、方法A−F間で音声認識率に有意な差は現れない。

(第3の実施形態)
以下、図面を参照しながら本発明の第3の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して説明を援用する。
図13は、本実施形態に係る音声処理システム1bの構成を示すブロック図である。
音声処理システム1bは、音声処理装置11b、収音部12b、及び音源分離部14bを含んで構成される。

収音部12bは、M(Mは1よりも大きい予め定めた整数)チャネルの音声信号を収録し、収録したMチャネルの音声信号を音源分離部14bに出力する。収音部12bは、M個のマイクロホンをそれぞれ異なる位置に備えたマイクロホンアレイである。なお、音声処理システム1bは、M=1で、かつ、図13に示す音源分離部14bが無い構成で実現されてもよい。

音源分離部14bは、収音部12bから入力されたMチャネルの音声信号として得られた最大S(Sは、1以上M以下の予め定めた整数)個の音源から到達した音声信号について音源分離処理を行って音源毎の音声信号に分離する。音源分離部14は、分離した音声信号のそれぞれについて有音判定処理を行い、音声区間を検出する。音源分離部14は、検出した音声区間に係る音声信号を音声処理装置11bに出力する。なお、音源分離部14bは、複数の音源について音声区間を検出した場合には、音源毎の音声区間を音声処理装置11bに出力してもよいし、最もパワーが大きい音源からの音声信号を音声処理装置11bに出力してもよい。

音源分離部14bは、音源分離処理として、例えば、GHDSS(Geometric−constrained Highorder Decorrelation−based Source Separation)法を用いる。GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(separation sharpness)JSS([V(ω)])と幾何制約度(geometric constraint)JGC([V(ω)])が、それぞれ低減するように分離行列V(ω)を適応的に算出する方法である。分離行列[V(ω)]は、収音部12から入力されたMチャネルの音声信号[x(ω)]=[x(ω),x(ω),…,x(ω)]に乗じることによって、Sチャネルの音源毎の音声信号(推定値ベクトル)[u’(ω)]=[u’(ω),u’(ω),…,u’(ω)]を算出するために用いられる行列である。ここで、[…]は、ベクトル又は行列であることを示す。[…]は、行列又はベクトルの転置を示す。

分離尖鋭度JSS([V(ω)])、幾何制約度JGC([V(ω)])は、それぞれ、式(11)、(12)のように表される。

式(11)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。φ([u’(ω)])は、音声信号[u’(ω)]の非線形関数、例えば、双曲線正接関数(hyperbolic tangent function)である。[…]は、行列又はベクトルの共役転置(conjugate transpose)を示す。diag[…]は、行列…の対角成分の総和を示す。従って、分離尖鋭度JSS([V(ω)])は、音声信号(推定値)のスペクトルのチャネル間非対角成分の大きさ、つまり、ある1つの音源が他の音源として誤って分離される度合いを表す指標値である。
式(12)において、[A(ω)]は、ある1つの音源からある1つのマイクロホンまでの伝達関数を要素として有する伝達関数行列を示す。[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音声信号(推定値)のスペクトルと音声信号(音源)のスペクトルとの誤差の度合いを表す指標値である。

音源分離部14bは、上述したように収音部12から入力されたMチャネルの音声信号[x(ω)]に分離行列[V(ω)]を乗じて、S個の音源からなる分離音声信号[u’(ω)]を算出する。

音声処理装置11bは、残響特性推定部101、第1残響除去部102、第1音声認識部103、状態列取得部104b、残響影響度記憶部105b、残響影響度選択部106b、第2残響除去部107b、及び第2音声認識部108を含んで構成される。

状態列取得部104bは、第1音声認識部103から音声認識処理で生成された状態列のうち、認識されたN個(Nは、予め定めた1よりも大きい整数、例えば、2)の互いに隣接する単語からなる単語群が認識された区間内の状態列を示す状態列情報を逐次に取得する。上述の実施形態では、第1音声認識部103による認識単位として単語が用いられたが、本実施形態では、認識単位として発話の状態が用いられ、互いに隣接した複数の状態からなる状態列が状態列取得部104bで用いられる。ここで、第1音声認識部103は、予め設定された音響モデルを参照して、フレーム毎に算出した音響特徴量から起こりうる可能性がある状態を特定する。第1音声認識部103は、特定された状態からなる状態列の候補毎に尤度を算出し、算出した尤度が最も高い状態列を判定する。
なお、以下の説明では第1音声認識部103で用いられる音響モデルを「第1音響モデル」と呼んで第2音声認識部108で用いられる音響モデル(第2音響モデル)と区別することがある。状態列取得部104bは、入力された状態列情報を残響影響度選択部106bに出力する。

残響影響度記憶部105bには、状態列情報と残響影響度τとがそれぞれ対応付けて構成された残響影響度データを予め記憶させておく。本実施形態では、残響影響度τは、その状態列に対応する区間における先行音声による残響の後続音声に与える影響の度合いを示すパラメータである。残響影響度τを算出する処理については、後述する。
残響影響度選択部106bは、状態列取得部104bから入力された状態列情報に対応する残響影響度τを残響影響度記憶部105bから選択する。残響影響度選択部106bは、入力された状態列情報が示す状態列と、残響影響度τと対応付けられた状態列情報が示す状態列との非類似度(例えば、ハミング距離)を算出し、算出した非類似度が最も小さい状態列に対応する残響影響度τを選択する。残響影響度選択部106bは、選択した残響影響度τを第2残響除去部107bに出力する。

第2残響除去部107bは、音源分離部14bから入力された音声信号のうち状態列取得部104bで取得された状態列に対応する区間の音声信号を状態列区間音声信号として抽出する。第2残響除去部107bは、抽出した状態列区間音声信号から、残響特性推定部101から入力された残響除去係数δと残響影響度選択部106bから入力された残響影響度τに基づいて残響成分を除去して第2残響除去音声信号を生成する。

第2残響除去部107bは、例えば、式(14)を用いて、状態列区間音声信号の周波数領域係数と残響除去係数δと残響影響度τに基づいて、第2残響除去音声信号の周波数領域係数を算出する。

式(14)において、e(ω,m,W)は、第2残響除去音声信号のうち、第1音声認識部103において単語群Wが認識された区間、つまり状態列取得部104bが取得した状態列に対応する区間における第mフレームにおける周波数領域係数を示す。r(ω,m,W)は、音源分離部14bから入力された音声信号のうち、状態列区間音声信号の第mフレームにおける周波数領域係数を示す。従って式(14)は、そのフレームにおける状態列区間音声信号の周波数領域係数r(ω,m,W)の二乗値から残響影響度τで重みづけがなされた残響成分の二乗値を除去して、そのフレームの第2残響除去音声信号の周波数領域係数e(ω,m,W)を定めることを示す。

なお、式(14)の下段のようにβ|r(ω,m,W)|の項を設けるのは、式(4)と同様に異音の発生を回避又は緩和するためである。
第2残響除去部107bは、算出した周波数領域係数e(ω,m,W)を時間領域に変換した第2残響除去音声信号を生成し、生成した第2残響除去音声信号を第2音声認識部108に出力する。

なお、残響影響度選択部106bは、選択した残響影響度τと状態列取得部104bから入力された状態列情報に加えて、その状態列に対応する区間内の状態列区間音声信号を第2残響除去部107bに出力してもよい。この場合、第2残響除去部107bは、残響影響度選択部106bから入力された状態列区間音声信号から、残響特性推定部101から入力された残響除去係数δと残響影響度選択部106bから入力された残響影響度τに基づいて残響成分を除去する。

(データ生成)
次に、上述した音声処理で用いられる各種のデータを生成(事前学習)するためのデータ生成処理について説明する。データ生成処理は、データ生成部150bにおいて予めオフラインで行われる。データ生成部150bは、音声処理装置11bに内蔵されてもよいし、音声処理装置11bとは別個の構成であってもよい。また、データ生成部150bは、必ずしも専用のハードウェアで構成されていなくてもよく、例えば、所定のプログラムをコンピュータで実行することによって構成されてもよい。

データ生成部150bは、各種のデータ、例えば、音声データベース、第1音響モデル、第2音響モデル、言語モデルを記憶する記憶媒体と、演算その他の処理を行う制御部を備える。制御部は、例えば、CPU(Central Processing Unit)である。制御部は、所定のプログラムを実行することにより後述する処理を実現する。

音声データベースには、学習用の音声信号として所定のN個の単語からなる単語群を発話内容として有するクリーン音声信号が、その発話内容と対応付けて複数個記憶されている。
第1音響モデル、第2音響モデルは、フレーム毎の音響特徴量から音素を推定する際に用いられる統計モデル、例えば、HMMである。
第1音響モデル、第2音響モデルは、それぞれ、音響特徴量と状態、ひいては音素との対応関係を与える統計モデルである。第1音響モデルでは、状態毎のGMMを含んで形成される。GMMは、上述したように、混合重み係数、平均値、共分散行列といった統計量で規定され、ある音響特徴量に対して状態毎の尤度を算出する際に用いられる。状態列は、発話された音素の状態の時系列であり、状態は、例えば、所定の音素について立ち上がり、定常、立ち下がりといった音の強弱といった強勢や、高低といった声調等を指すが、必ずしも一意に対応付けられていなくてもよい。各状態は、それぞれ統計モデルによりモデル化され、各音素は状態遷移により状態毎の統計モデルが連結して形成される統計モデルによりモデル化される。例えば、各状態の統計モデルがGMMで表されている場合、各音素の統計モデルは、これらのGMMが連結したHMMで表される。

言語モデルは、音素の時系列である音素列から単語群を認識する際に用いられる統計モデル、例えば、HMMである。言語モデルは、例えば、N−1個の先行語wi−N+1,…,wi−1)が与えられた場合に、次の単語wの出現確率を与える条件付き確率P(w|wi−N+1,wi−N+2,…,wi−1)(Nグラム)を含んで構成される。N個の単語からなる単語群の出現確率P(W)は、P(w|wi−N+1,wi−N+2,…,wi−1)をi=1からNまで掛け合わせることによって算出することができる。本実施形態では、言語モデルは予め定められたものであってもよい。

本実施形態では、データ生成部150bは、発話された音素の状態の時系列である状態列の尤度が高くなるように第1音響モデルλを更新することにより、音響特徴量と状態との対応関係を校正(realignment)する。事前学習では第1音響モデルλは、残響付加音声、クリーン音声のそれぞれについて生成され、残響付加音声について生成された第1音響モデルλが第1音声認識部103(図13)で用いられる。そして、データ生成部150bは、状態列毎に先行する発話による残響が現在発話された音声への影響を与える残響影響度τを算出し、状態列情報と残響影響度τとを対応付けた残響影響度データを生成する。

次に、第1音響モデルλ及び残響影響度データを生成するデータ生成処理について説明する。
図14は、データ生成処理を示すフローチャートである。
図14に示す処理を開始する前に、データ生成部150bには第1音響モデルλの初期値を記憶しておく。
(ステップS201)データ生成部150bは、所定の単語群Wを発話内容として有するクリーン音声信号、残響付加音声信号のそれぞれについて最適な状態列s’Wc、s’Wrを検索する。残響付加音声信号は、残響付加部1502b(図15、後述)で生成されたものであってもよい。ここで、データ生成部150bは、クリーン音声信号、残響付加音声信号のそれぞれについてフレーム毎の音響特徴量列を含んで構成される音響特徴量列f(c)、f(r)を算出する。データ生成部150bは、算出した音響特徴量列f(c)、f(r)のそれぞれについて第1音響モデルλを参照して、状態列の候補毎に尤度を算出する。データ生成部150bは、例えば、式(15)、(16)を用いて、算出した尤度が最も高い状態列を最適な状態列s’Wc、s’Wrとして選択する。

式(15)、(16)においてargmaxs∈SWc…は、…が最大である状態列sを示す。SWc、SWrは、それぞれクリーン音声信号、残響付加音声信号について、単語群Wに関してNグラムをサポートするHMMを用いて得られる可能性がある状態列の集合を示す。P(s|sj−1,f(c))、P(s|sj−1,f(r))は、それぞれ音響特徴量列f(c)、f(r)が与えられているとき、状態列内の第j−1番目の状態sj−1の次に第j番目の状態sが現れる出現確率を示す。その後、ステップS202に進む。

(ステップS202)データ生成部150bは、クリーン音声信号、残響付加音声信号のそれぞれについて、尤度が高くなるように第1音響モデルλを更新する。更新において、第1音響モデルλのパラメータ、例えば、混合重み係数、平均値、共分散行列が調整される。尤度が十分に高くなることで、音響特徴量と状態とが対応付けられる。その後、ステップS203に進む。
(ステップS203)データ生成部150bは、クリーン音声信号、残響付加音声信号のいずれについても、尤度の増加が収束したか否かを判定する。尤度の増加量が、例えば、予め定めた増加量の閾値よりも小さいか否かにより、尤度の増加が収束したか否かが判定される。
収束したと判定された場合(ステップS203 YES)、ステップS204に進む。収束していないと判定された場合(ステップS203 NO)、ステップS201に戻る。

(ステップS204)データ生成部150bは、各単語群Wについて得られた音響特徴量列f(c)、f(r)に基づいて、例えば、式(17)を用いて残響影響度τを算出する。

式(17)において、Oは、音響特徴量列f(c)、f(r)のフレーム数、oはフレーム番号を示す。pow(…)は、…から導出されるパワーを示す。即ち、式(17)は、残響のパワーの音声のパワーに対する比のフレーム間の平均値を残響影響度τとして算出することを示す。なお、同一の単語群が複数回出現した場合には、データ生成部150bは、各回の残響影響度τの平均値を採用する。データ生成部150bは、残響付加音声の状態列s’Wrを示す状態列情報と算出した残響影響度τを対応付けて残響影響度データを生成する。その後、ステップS205に進む。

(ステップS205)データ生成部150bは、生成した残響影響度データにおいて、単語群を形成するN個の単語のうち、所定の数(例えば、N−1個)の先行単語が共通である単語群に係る状態列s’Wr同士を各1つの単語群グループとしてグルーピングする。データ生成部150bは、各1つの単語群グループに属するいずれか1つの状態列s’Wrと、これに対応付けられた残響影響度τを採用し、その他の状態列s’Wrと残響影響度τを棄却する。従って、残響影響度データは、単語群グループ毎の状態列情報ならびに残響影響度τが対応付けられて形成される。これにより、残響影響度データの肥大化を抑制することができる。また、フレーム数の短い状態列s’Wrや、出現頻度が低い単語群については、参照データが少ないために残響影響度τの信頼性が低くなることを回避することができる。なお、データ生成部150bは、所定の数の先行単語が共通であって、かつ、後続単語(例えば、N個の単語のうち最後の1つの単語)に共通の1個又は複数の音素を含む単語群に係る状態列s’Wr同士を各1つの単語群グループとしてグルーピングしてもよい。共通の1個又は複数の音素を含む後続単語の組として、例えば、英語の“here”と“near”とからなる組が該当し、“fly”と“hello”とからなる組は該当しない。また、データ生成部150bは、各1つの単語群グループに属する残響影響度τの平均値を、その残響影響度τとして採用してもよい。その後、図14に示す処理を終了する。

次に、第1音響モデル及び第2音響モデルを生成する音響モデル生成処理について説明する。
図15は、音響モデル生成処理を示すブロック図である。
データ生成部150bは、所定のプログラムを動作することにより音声信号取得部1501b、残響付加部1502b、残響音声データ記憶部1503b、第1音響モデル生成部1504b、第1音響モデル記憶部1505b、音声認識部1506b、状態列取得部1507b、残響影響度記憶部1508b、残響影響度選択部1509b、残響除去部1510b、第2音響モデル生成部1511b、及び第2音響モデル記憶部1512bとして機能する。

音声信号取得部1501bは、音声データベースから個々のクリーン音声信号を取得し、取得したクリーン音声信号を残響付加部1502bに出力する。
残響付加部1502bは、音声信号取得部1501bから入力されたクリーン音声信号に室内伝達関数(RTF)を畳み込み残響付加音声信号を生成する。室内伝達関数は、その時点の室内で計測されたものでもよいし、所定のモデルに従って算出されたもの、例えば、上述した音源rからの距離に応じて算出されたものでもよい。残響付加部1502bは、生成した残響付加音声信号をその発話内容と対応付けて残響音声データ記憶部1503bに記憶する。

第1音響モデル生成部1504bは、残響音声データ記憶部1503bから読み取った残響付加音声信号とその発話内容に基づいて最適な第1音響モデルを生成する。第1音響モデルを生成する処理は、上述したデータ生成処理におけるステップS201−S203(図14)の処理に相当する。第1音響モデル生成部1504bは、生成した第1音響モデルを第1音響モデル記憶部1505bに記憶する。

音声認識部1506bは、第1音響モデル記憶部1505bに記憶した第1音響モデルと、上述した言語モデルを用いて残響音声データ記憶部1503bから読み取った残響付加音声信号について音声認識処理を行う。音声認識部1506bは、第1音声認識部103(図13)と同様に音声認識処理で生成した状態列を示す状態列情報を状態列取得部1507bに出力する。

状態列取得部1507bは、状態列取得部104b(図13)と同様に、音声認識部1506bから入力された状態列情報を残響影響度選択部1509bに出力する。

残響影響度記憶部1508bには、上述したデータ生成処理におけるステップS204又はステップS205(図14)で生成した残響影響度データを予め記憶しておく。
残響影響度選択部1509bは、残響影響度選択部106b(図13)と同様な処理を行って、状態列取得部1507bから入力された状態列情報に対応する残響影響度τを残響影響度記憶部1508bから選択する。残響影響度選択部1509bは、選択した残響影響度τを残響除去部1510bに出力する。

残響除去部1510bは、残響音声データ記憶部1503bから読み取った残響付加音声信号のうち状態列取得部1507bで取得された状態列に対応する区間の音声信号を状態列区間音声信号として抽出する。残響除去部1510bは、第2残響除去部107b(図13)と同様な処理を行って、抽出した状態列区間音声信号から残響除去係数δと残響影響度選択部1509bから入力された残響影響度τに基づいて残響成分を除去して残響除去音声信号を生成する。残響除去部1510bで用いられる残響除去係数δは、残響付加部1502bで用いられた室内伝達関数に基づいて定めることができる。残響除去部1510bは、生成した残響除去音声信号を第2音響モデル生成部1511bに出力する。

第2音響モデル生成部1511bは、残響除去部1510bから入力された残響除去音声信号とその発話内容に基づいて、その発話内容の尤度に基づいて最適、つまり尤度が最も高くなるように第2音響モデルを生成する。第2音響モデル生成部1511bは、生成した第2音響モデルを第2音響モデル記憶部1512bに記憶する。

このように、本実施形態に係る音声処理装置(例えば、音声処理装置11b)は、入力された音声から発話の状態を逐次に認識する音声認識部(例えば、第1音声認識部103)を備える。また、本実施形態に係る音声処理装置は、先行音声による残響が当該先行音声に後続する後続音声に与える影響を示す残響影響度と、先行音声と後続音声における状態の系列である状態列とを対応付けて記憶する残響影響度記憶部(例えば、残響影響度記憶部105b)を備える。また、本実施形態に係る音声処理装置は、音声認識部(例えば、第1音声認識部103)が認識した発話状態からなる状態列に最も近似する状態列に対応した残響影響度を残響影響度記憶部から選択する残響影響度選択部(例えば、残響影響度選択部106b)を備える。また、本実施形態に係る音声処理装置は、音声認識部(例えば、第1音声認識部103)が状態列を認識した音声から選択された残響影響度で重みづけした残響成分を抑圧する残響抑圧部(例えば、第2残響除去部107b)を備える。

この構成により、発話の状態間で異なる残響の影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して、例えば、第2音声認識部108で行われる音声認識処理において音声認識精度を向上することができる。
また、残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比であるため、複数の隣接する状態列により異なる残響のパワーの影響を考慮して残響抑圧が行われる。そのため、残響下で収録された音声に対して、例えば、第2音声認識部108で行われる音声認識処理において音声認識精度を向上することができる。

また、音声認識部は、所定の単語群が発話された音声から認識された状態列の尤度が高くなるように生成された音響モデルを参照して発話の状態を認識する。音響モデルにおいて音声の物理的な特徴を示す音響特徴量と発話の状態とが対応付けられるので、状態列を用いて音声の物理的な特徴の変化を表現することができる。そのため、発話の状態による物理的な特徴の変化に応じて異なる残響のパワーの影響を考慮して残響抑圧が行われるので、残響下で収録された音声に対して、例えば、第2音声認識部108で行われる音声認識処理において音声認識精度を向上することができる。
また、本実施形態では、残響影響度の選択で用いられる認識単位が、単語を形成する音素よりもさらに細分化された認識単位である。そのため、発話速度の差異、変化に応じて異なる残響の影響を考慮して残響抑圧が行われるので、認識単位が単語である場合や音素である場合よりも音声認識精度を向上することができる。

(実験結果)
次に、上述した音声処理装置11bを用いて音声認識精度を検証した実験結果について説明する。
上述の実験室A(RT(残響時間)=240ms)、B(RT=640ms)について図14、図15に示す処理を行って第1音響モデル、第2音響モデル、及び残響影響度データを予め生成しておいた。学習用データとして上述したウォールストリートジャーナルデータベースを用いて第1音響モデル、第2音響モデルを予め学習させておいた。

実験では、3000語の語彙を用いて連続音声認識処理を行って、音声認識率を観測した。音声処理装置11bで用いられた第1音響モデル、第2音響モデルは、いずれも各音素について3状態のHMMであり、言語モデルはNグラムに対応したHMMである。収音部12bとして、16チャネルのマイクロホンアレイが用いられ、試験データとして実験室A、Bのそれぞれにおいて収音部12bで収録した残響付加音声信号が用いられた。試験データを収録する際、各話者に収音部12bから離れた位置に20回ずつ発話させた。話者数は、20名、収音部12bから話者の距離Dは、1.0m、2.0m、3.0mの3通りである。各話者は、いずれもデータ生成処理には関わらなかった。

実験において試験データは次の8通りの方法のそれぞれを用いて処理され、処理されたデータを用いて音声認識率を観測した。A.未処理(No Processing)、B.ウェーブレット極値クラスタリングに基づく強調(Enhancement based on Wavelet Extrema Clustering)、C.線形予測残差に基づく強調(Enhancement based on Linear Prediction(LP) Residual)、D.従来のスペクトルサブトラクションによる残響抑圧(Previous Work Compensating only the Waveform)、E.本実施形態において推定した室内伝達関数を用い、残響影響度データの生成においてグルーピング(ステップS205、図14)を行わなかった場合(Proposed Method(Estimated RTF))、F.本実施形態において実測した室内伝達関数を用い、残響影響度データの生成においてグルーピング(ステップS205、図14)を行わなかった場合(Proposed Method(Matched RTF))、G.本実施形態において推定した室内伝達関数を用い、残響影響度データの生成においてグルーピング(ステップS205、図14)を行った場合(Proposed Method with N−gram Grouping in S205(Estimated RTF))、H.本実施形態において実測した室内伝達関数を用い、残響影響度データの生成においてグルーピング(ステップS205、図14)を行った場合(Proposed Method with N−gram Grouping in S205(Matched RTF))。

(音声認識率の例)
図16、図17は、処理方法毎の音声認識率の例を示す図である。
図16、図17は、それぞれ実験室A、Bにおいて得られた音声認識率を示す。距離Dは、1.0m、2.0m、3.0mの3通りであり、それぞれの場合で得られた音声認識率を(a)、(b)、(c)に示す。図16、図17ともに、縦軸、横軸は、それぞれ音声認識率(単位は%)、方法(方法A−H)を示す。

実験室A、B間では、残響時間がより長い実験室Bの方が、音声認識率が低い。また、同一の実験室同士については、距離Dが大きくなるほど音声認識率が低い。このことは、収録された音声信号に残響成分が多く含まれるほど音声認識率が低くなることを示す。また、音声認識率は、方法A、B、C、E、D、F、G、Hの順に高くなり、方法Hについて最も高い。例えば、実験室A(RT=240ms)、距離D=1.0mの場合(図16(a))、本実施形態に係る方法E−Hの84.3−86.4%は、従来技術に係る方法A−Dの79.0%−83.2%よりも有意に高い。また、実験室B(RT=640ms)、距離D=3.0mの場合(図17(c))、本実施形態に係る方法E−方法Hの40.1%−46.1%は、従来技術に係る方法A−Dの15.8%−36.5%よりも有意に高い。この結果は、認識された状態列に応じて選択された残響影響度で後期反射成分に重みづけを行って残響抑圧処理を行うことで従来技術よりも音声認識率が向上することを示す。

また、本実施形態に係る方法E、Fと方法G、Hとの間では、方法G、Hの方が、方法E、Fよりも音声認識率が有意に高い。例えば、実験室A(RT=240ms)、距離D=1.0mの場合(図16(a))、方法G、Hについて音声認識率はそれぞれ86.0%、86.4%であるのに対し、方法E、Fについて音声認識率はそれぞれ84.3%、84.5%である。また、実験室B(RT=640ms)、距離D=3.0mの場合(図17(c))、方法G、Hについて音声認識率はそれぞれ45.3%、46.1%であるのに対し、方法E、Fについて音声認識率はそれぞれ40.0%、40.8%である。この結果は、残響を与える先行単語が共通である単語群同士でグルーピングを行うことで、1グループあたりの状態列の標本数が多くなるため、後続単語が異なっても音響的な特徴を損なわずに共通した残響影響度を用いることで、その精度を高め、ひいては音声認識率を向上できることを示す。

なお、上述した実施形態では、主に単語群が互いに隣接する2つの単語からなる単語対である場合を例にとって説明したが、これには限られない。単語群は、3つ以上の隣接した単語からなる単語群であってもよい。その場合、残響影響度は、複数の係数からなり、複数の係数のそれぞれが、ある単語群に含まれる各単語に係る音声による残響が、当該各単語よりも後続する単語のそれぞれに係る音声に与える影響を示す係数であってもよい。そして、第2残響除去部107(図1)は、当該単語群のうち各単語に係る音声から当該各単語よりも後続する単語のそれぞれに係る音声について、対応する係数で重み付けした残響成分を抑圧する。
上述した第1実施形態、第2の実施形態では、認識単位として単語を用い、第3の実施形態では、認識単位として発話の状態を用いる場合を例にしたが、これには限られない。音声処理装置11、11a、11bは、単語または発話の状態に代えて、他の認識単位、例えば、音素を用いてもよい。

上述した第1の実施形態、第2の実施形態では、主に収音部12から1チャネルの音声信号が音声処理装置11、11aに入力される場合について説明したが、これには限られない。音声処理システム1、1aは、音源分離部14b(図13)を備え、音声処理装置11、11aには、収音部12に代え、音源分離部14bから音声信号が入力されてもよい。
また、音源分離部14bは、音源分離処理としてGHDSS法以外の方法、例えば、適応ビームフォーミング法(adaptive beamforming)を用いてもよい。適応ビームフォーミング法は、音源方向を推定し、推定した音源方向に感度が最も高くなるように指向性を制御する方法である。
なお、音声処理システム1b(図13)では、音源分離部14bが省略され、音声処理装置11bに収音部12bから音声信号が入力されるようにしてもよい。

また、音声処理装置11、11a、11bは、第1残響除去部102を省略し、第1音声認識部103に収音部12(又は収音部12b)から直接音声信号が入力されるようにしてもよい。
また、音声処理装置11、11a、11bは、第2音声認識部108を省略し、第2残響除去部107から音声処理装置11、11a、11bの外部に第2残響除去音声信号を出力してもよい。これにより、音声処理装置11、11a、11bの外部に置かれた音声認識部に出力された第2残響除去音声信号が供給されるようにしてもよい。
また、データ生成部150bは、グルーピングに係る処理(図14、ステップS205)を省略してもよい。

なお、上述した実施形態及び変形例における音声処理装置11、11a、11bの一部、例えば、残響特性推定部101、第1残響除去部102、第1音声認識部103、単語抽出部104、状態列取得部104b、残響影響度選択部106、106b、第2残響除去部107、107b、第2音声認識部108、及び対話制御部120aをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置11、11a、11bに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における音声処理装置11、11a、11bの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置11、11a、11bの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

11、11a、11b…音声処理装置、
101…残響特性推定部、
1011…特徴量算出部、1012…残響モデル記憶部、1013…尤度算出部、
1014…残響除去係数選択部、
102…第1残響除去部、103…第1音声認識部、
104…単語抽出部、104b…状態列取得部、105、105b…残響影響度記憶部、106、106b…残響影響度選択部、
107、107b…第2残響除去部、108…第2音声認識部、
110…残響影響度解析部、1101…学習データ取得部、1102…単語抽出部、
1103…中間データ記憶部、1104…第1データ分割部、1105…残響付加部、
1106…第2データ分割部、1107…強度解析部、1108…残響影響度算出部、
120a…対話制御部、
12、12b…収音部、13a…音声再生部、14b…音源分離部、
150b…データ生成部、1501b…音声信号取得部、1502b…残響付加部、
1503b…残響音声データ記憶部、1504b…第1音響モデル生成部、
1505b…第1音響モデル記憶部、1506b…音声認識部、
1507b…状態列取得部、1508b…残響影響度記憶部、
1509b…残響影響度選択部、1510b…残響除去部、
1511b…第2音響モデル生成部、1512b…第2音響モデル記憶部

Claims (10)

  1. 入力された音声から認識単位を逐次に認識する音声認識部と、
    先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部と、
    前記音声認識部が認識した複数の認識単位からなる認識単位群に対応した残響影響度を前記残響影響度記憶部から選択する残響影響度選択部と、
    前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧部と、
    を備える音声処理装置。
  2. 前記残響抑圧部は、前記少なくとも一部の認識単位が認識された音声に残響成分の寄与を示す残響除去係数を乗じて得られた残響成分に、前記残響影響度で重み付けた残響成分を抑圧する請求項1に記載の音声処理装置。
  3. 前記認識単位は、単語であることを特徴とする請求項1又は請求項2に記載の音声処理装置。
  4. 前記認識単位群は、2つの隣接する単語からなる単語対であって、
    前記残響影響度は、1つの単語が認識された音声による残響が後続する単語の音声に与える影響の度合いを示す係数であることを特徴とする請求項3に記載の音声処理装置。
  5. 前記残響影響度は、前記後続する単語の音声による残響成分のパワースペクトル密度の、前記1つの単語の音声のパワースペクトル密度の比であって、
    前記残響影響度記憶部は、前記残響影響度と、当該1つの単語と後続する単語とからなる単語対に係る音声のパワースペクトル密度とを対応付けて記憶し、
    前記残響影響度選択部は、前記音声認識部が認識した単語から単語対毎に、入力された音声のパワースペクトル密度が最も近似するパワースペクトル密度に対応した残響影響度を選択する請求項4に記載の音声処理装置。
  6. 前記認識単位は、発話の状態であることを特徴とする請求項1又は請求項2に記載の音声処理装置。
  7. 前記認識単位群は、複数の隣接する状態からなる状態列であって、
    前記残響影響度は、所定の状態列が認識された音声による残響のパワーの、当該音声のパワーに対する比である請求項6に記載の音声処理装置。
  8. 前記音声認識部は、所定の単語群が発話された音声から認識された状態列の尤度が高くなるように生成された音響モデルを参照して前記発話の状態を認識する請求項6又は請求項7に記載の音声処理装置。
  9. 音声処理装置における音声処理方法において、
    入力された音声から認識単位を逐次に認識する音声認識過程と、
    前記音声認識過程で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択過程と、
    前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧過程と、
    を有する音声処理方法。
  10. 音声処理装置のコンピュータに、
    入力された音声から認識単位を逐次に認識する音声認識手順、
    前記音声認識手順で認識した複数の認識単位からなる認識単位群に対応した残響影響度を先行音声による残響が前記先行音声に後続する後続音声に与える影響を示す残響影響度と、複数の認識単位からなる認識単位群とを対応付けて記憶する残響影響度記憶部から選択する残響影響度選択手順、
    前記認識単位群の少なくとも一部の認識単位が認識された音声から前記残響影響度で重み付けした残響成分を抑圧する残響抑圧手順、
    を実行させるための音声処理プログラム。
JP2014097622A 2013-08-30 2014-05-09 音声処理装置、音声処理方法、及び音声処理プログラム Active JP6261043B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013179196 2013-08-30
JP2013179196 2013-08-30
JP2014097622A JP6261043B2 (ja) 2013-08-30 2014-05-09 音声処理装置、音声処理方法、及び音声処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014097622A JP6261043B2 (ja) 2013-08-30 2014-05-09 音声処理装置、音声処理方法、及び音声処理プログラム
US14/446,581 US9336777B2 (en) 2013-08-30 2014-07-30 Speech processing device, speech processing method, and speech processing program

Publications (2)

Publication Number Publication Date
JP2015064554A JP2015064554A (ja) 2015-04-09
JP6261043B2 true JP6261043B2 (ja) 2018-01-17

Family

ID=52584438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014097622A Active JP6261043B2 (ja) 2013-08-30 2014-05-09 音声処理装置、音声処理方法、及び音声処理プログラム

Country Status (2)

Country Link
US (1) US9336777B2 (ja)
JP (1) JP6261043B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390723B1 (en) * 2014-12-11 2016-07-12 Amazon Technologies, Inc. Efficient dereverberation in networked audio systems
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
WO2017007848A1 (en) * 2015-07-06 2017-01-12 Dolby Laboratories Licensing Corporation Estimation of reverberant energy component from active audio source
US20170256270A1 (en) * 2016-03-02 2017-09-07 Motorola Mobility Llc Voice Recognition Accuracy in High Noise Conditions
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
US10127920B2 (en) * 2017-01-09 2018-11-13 Google Llc Acoustic parameter adjustment
US10339929B2 (en) * 2017-06-27 2019-07-02 Google Llc Speech recognition using acoustic features in conjunction with distance information

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1592282B1 (en) * 2003-02-07 2007-06-13 Nippon Telegraph and Telephone Corporation Teleconferencing method and system
JP3836815B2 (ja) * 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US20070094024A1 (en) * 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
CN101385386B (zh) * 2006-03-03 2012-05-09 日本电信电话株式会社 混响除去装置和混响除去方法
JP5645419B2 (ja) * 2009-08-20 2014-12-24 三菱電機株式会社 残響除去装置
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
JP5895501B2 (ja) * 2011-12-14 2016-03-30 三菱電機株式会社 音声認識装置および音声認識方法
US9386373B2 (en) * 2012-07-03 2016-07-05 Dts, Inc. System and method for estimating a reverberation time

Also Published As

Publication number Publication date
JP2015064554A (ja) 2015-04-09
US20150066500A1 (en) 2015-03-05
US9336777B2 (en) 2016-05-10

Similar Documents

Publication Publication Date Title
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
Feng et al. Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition
Vincent et al. The second ‘CHiME’speech separation and recognition challenge: An overview of challenge systems and outcomes
Vincent et al. The second ‘CHiME’speech separation and recognition challenge: Datasets, tasks and baselines
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
Srinivasan et al. Binary and ratio time-frequency masks for robust speech recognition
Giri et al. Improving speech recognition in reverberation using a room-aware deep neural network and multi-task learning
Kinoshita et al. Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction
US10134421B1 (en) Neural network based beam selection
Shinoda et al. A structural Bayes approach to speaker adaptation
JP4516527B2 (ja) 音声認識装置
US5611019A (en) Method and an apparatus for speech detection for determining whether an input signal is speech or nonspeech
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
EP0847041B1 (en) Method and apparatus for speech recognition performing noise adaptation
EP1515305B1 (en) Noise adaption for speech recognition
US6389395B1 (en) System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
US9009048B2 (en) Method, medium, and system detecting speech using energy levels of speech frames
Karpagavalli et al. A review on automatic speech recognition architecture and approaches
US9536523B2 (en) Method and system for identification of speech segments
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
Yoshioka et al. Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition
Chu et al. Reducing f0 frame error of f0 tracking algorithms under noisy conditions with an unvoiced/voiced classification frontend
US7552049B2 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
US7319959B1 (en) Multi-source phoneme classification for noise-robust automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171207

R150 Certificate of patent or registration of utility model

Ref document number: 6261043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150