JP2017067879A

JP2017067879A - 音声処理装置及び音声処理方法

Info

Publication number: JP2017067879A
Application number: JP2015190593A
Authority: JP
Inventors: 圭佑中村; Keisuke Nakamura; 一博中臺; Kazuhiro Nakadai
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-04-06
Anticipated expiration: 2035-09-29
Also published as: JP6532021B2; US20170092284A1; US9786295B2

Abstract

【課題】音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短くすることができる音声処理装置及び音声処理方法を提供する。【解決手段】特徴量取得部は音声信号のスペクトルをフレーム毎に取得し、発話状態判定部は前記音声信号に基づいてフレーム毎に発話状態を判定し、スペクトル正規化部は現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出する。本発明は、音声処理装置または音声処理方法として実施することができる。【選択図】図１

Description

本発明は、音声処理装置及び音声処理方法に関する。

音声認識処理は、一般的に、マイクロホンから入力された音響信号から所定の音声特徴量を求め、その音声特徴量と所定の統計モデルを用いて発話内容が特定する処理を含む。音声特徴量として、例えば、ＭＦＣＣ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）、ＭＦＬＳ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙｌｏｇ−ｓｐｅｃｔｒｕｍ）などが用いられることがある。マイクロホンで受音される音には、話者が発する音声（クリーン音声）に、残響や背景ノイズ等の種々の雑音が重畳されることがある。これらの雑音が重畳された音響信号に基づいて求められる音声特徴量が用いられると、音声認識率が低下する。

そこで、雑音の影響を軽減するために、音声特徴量を算出する前にフレーム毎のスペクトルを平均した平均スペクトルを用いて音声認識処理を行うことが提案されている。例えば、特許文献１に記載の音声認識装置は、音声データのパワースペクトルを算出し、音声の非認識時に平均スペクトルを算出して音響モデルを決定し、音声の認識時にパワースペクトルに対して決定した音響モデルに従って音声の各単語を認識する。

特開２０００−１７２２９１号公報

しかしながら、特許文献１に記載の音声認識装置は、発話区間の終了を待ってから平均スペクトルを演算する。そのため、発話が開始してから音声認識の終了までの時間が長くなりがちである。

本発明は上記の点に鑑みてなされたものであり、音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短くすることができる音声処理装置及び音声処理方法を提供する。

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、（１）音声信号のスペクトルをフレーム毎に取得する特徴量取得部と、前記音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定部と、現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化部と、を備える音声処理装置である。

（２）本発明の他の態様は、（１）の音声処理装置であって、前記スペクトル正規化部は、前記平均スペクトルとして、過去の発話における平均スペクトルを用いる。

（３）本発明の他の態様は、（１）の音声処理装置であって、前記スペクトル正規化部は、前記平均スペクトルとして、現発話の開始から現時点までの平均スペクトルを用いる。

（４）本発明の他の態様は、（３）の音声処理装置であって、音響環境を変化させるイベントを検出するイベント検出部を備え、前記スペクトル正規化部は、前記現時点までに取得した平均スペクトルとして、前記イベントの検出以降の平均スペクトルを用いる。

（５）本発明の他の態様は、（４）の音声処理装置であって、前記イベント検出部は、前記イベントに係る音を検出し、前記スペクトル正規化部は、前記現発話の開始から現時点までの平均スペクトルとして、前記イベント検出部が検出した音の平均スペクトルを用いる。

（６）本発明の他の態様は、（３）から（５）のいずれかの音声処理装置であって、前記スペクトル正規化部は、現発話の開始から所定時間までの間、前記現発話の開始から現時点までの平均スペクトルに代えて、過去の発話における平均スペクトルを用いる。

（７）本発明の他の態様は、（２）または（６）の音声処理装置であって、前記過去の発話は、現発話の直前の発話である。

（８）本発明の他の態様は、（２）または（６）の音声処理装置であって、予め記憶部に記憶された複数の発話である。

（９）本発明の他の態様は、（１）から（８）のいずれかの音声処理装置であって、複数のチャネルの音声信号に基づいて音源方向を定める音源定位部と、前記複数のチャネルの音声信号を前記音源方向からの伝達関数に基づいて音源毎の音声信号に分離して音源別音声信号を前記特徴量取得部に出力する音源分離部と、を備える。

（１０）本発明の他の態様は、音声処理装置における音声処理方法であって、音声信号のスペクトルをフレーム毎に取得する特徴量取得ステップと、前記音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定ステップと、現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化ステップと、を有する。

上述した（１）、（１０）の構成によれば、取得された音声信号のスペクトルから、音声以外の他の成分、例えば、定常的な背景雑音のスペクトルが除去され、発話によるスペクトルの時間変化が得られる。得られた成分について音声認識処理を行うことで、音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短縮することができる。

上述した（２）の構成によれば、現発話の終了を待たずに既に終了した発話における平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、現発話について音声認識の終了までにかかる時間を短縮することができる。

上述した（３）の構成によれば、現発話の既に取得した区間における平均スペクトルを、その時点におけるスペクトルの正規化に用いる平均スペクトルとして取得できる。そのため、現発話について音声認識の終了までにかかる時間を短縮することができる。また、その時点までの発話における音声以外の他の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差がさらに減少する。そのため、音声認識精度の低下がさらに抑制される。

上述した（４）の構成によれば、イベントの検出に伴い、その時点のスペクトルの正規化に用いる平均スペクトルが再設定される。そのため、イベントに起因する音響環境の変化による音声認識精度の低下を回避することができる。

上述した（５）の構成によれば、イベントにより発生した音の成分が正規化により除去されるので、発生した音による音声認識精度の低下を防ぐことができる。

上述した（６）の構成によれば、発話開始直後における時間経過に伴う平均スペクトルの変動が起こらないため、その変動による音声認識精度の低下を回避することができる。

上述した（７）の構成によれば、現発話に最も近い過去の発話における音声以外の他の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差が減少する。そのため、音声認識精度の低下が抑制される。

上述した（８）の構成によれば、多様な音響的特徴が平均化された平均スペクトルが正規化に用いられるので、話者や時間経過による音響的特徴に変動が生じても全体として音声認識精度の低下が抑制される。

上述した（９）の構成によれば、特定の方向に所在する音源からの音源別音声信号について、そのスペクトルから他の方向からの成分が除去される。その特定の方向からの発話によるスペクトルの時間変化の成分について音声認識処理を行うことで、さらに音声認識精度を向上させることができる。

第１の実施形態に係る音声処理システムの構成を示すブロック図である。第１の実施形態に係る音源分離部で分離された音源別音声信号のスペクトルの例を示す図である。第１の実施形態に係る平均スペクトル算出部で算出された平均スペクトルの例を示す図である。第１の実施形態に係るスペクトル正規化部で算出された正規化スペクトルの例を示す図である。第１の実施形態に係る音声処理を示すフローチャートである。第２の実施形態に係る音声処理装置の構成を示すブロック図である。第２の実施形態に係る音声処理を示すフローチャートである。第３の実施形態に係る音声処理装置の構成を示すブロック図である。第３の実施形態に係る音声処理を示すフローチャートである。実験により得られた単語正解精度の例を示す表である。平均スペクトルの他の例を示す図である。第４の実施形態に係る音声処理装置の構成を示すブロック図である。第４の実施形態に係る音声処理を示すフローチャートである。音声信号のスペクトルの例を示す図である。平均スペクトルの他の例を示す図である。第５の実施形態に係る音声処理装置の構成を示すブロック図である。第５の実施形態に係る音声処理を示すフローチャートである。正規化スペクトルの他の例を示す図である。第５の実施形態の一変形例の構成を示すブロック図である。第５の実施形態の他変形例の構成を示すブロック図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理システム１の構成を示すブロック図である。
音声処理システム１は、音声処理装置１０、入力部２０及び出力部３０を含んで構成される。

音声処理装置１０は、入力部２０から入力された音声信号について音声信号のスペクトルを所定の長さ（例えば、２０ｍｓ）を有するフレーム毎に取得する。音声処理装置１０は、入力された音声信号に基づいてフレーム毎に音声の発話状態を判定する。音声処理装置１０は、発話状態として、例えば、発話の開始、終了などを判定し、発話の開始から終了までの一連の発話を検出する。音声処理装置１０は、検出した現発話におけるフレーム毎のスペクトルを少なくとも現在までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出する。音声処理装置１０は、正規化スペクトルについて音声認識処理を行って発話内容を示す発話データを生成する。音声処理装置１０は、生成した発話データを出力部３０に出力する。

入力部２０は、音声信号を取得する。入力部２０は、例えば、Ｐ個（Ｐは、１以上の整数）の電気音響変換素子（マイクロホン）をそれぞれ異なる位置に配列して構成されるマイクロホンアレイである。入力部２０は、Ｐ個の電気音響変換素子が到来した音から生成したＰチャネルの音声信号を音声処理装置１０に出力する。入力部２０は、収録した音声信号を無線で音声処理装置１０に送信してもよいし、有線で送信してもよい。入力部２０の位置は、固定されていてもよいし、ロボット、車両等の移動体に設置され移動可能であってもよい。入力部２０は、音声処理装置１０と一体化されていてもよいし、別体であってもよい。なお、入力部２０は、他の機器からの音声信号が入力されるデータ入力インタフェースであってもよい。

出力部３０は、音声処理装置１０から入力された発話データまたはその情報を出力する。出力部３０は、例えば、文字、図形、画像などを表示するディスプレイ装置である。ディスプレイ装置は、発話データが示す発話内容の情報を、テキスト、画像など視認可能な形態で表示する。なお、出力部３０は、他の機器に発話データを出力するデータ出力インタフェースであってもよい。出力部３０は、入力部２０と一体に構成されたデータ入出力インタフェースであってもよい。

（音声処理装置の構成）
次に、音声処理装置１０の構成について説明する。
音声処理装置１０は、音源定位部１０１、音源追跡部１０２、音源分離部１０３、特徴量取得部１０４、発話状態判定部１０５、平均スペクトル算出部１０６、スペクトル正規化部１０７及び音声認識部１０８を含んで構成される。

音源定位部１０１は、入力部２０から入力されたＰチャネルの音声信号に基づいて音源の方向を予め定めた長さのフレーム（例えば、２０ｍｓ）毎に定める（音源定位）。音源定位部１０１は、音源定位において、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多重信号分類）法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部１０１は、空間スペクトルに基づいて音源毎の音源方向を定める。より具体的には、音源定位部１０１は、空間スペクトルを構成する方向毎のパワーが極大であり、所定のパワーの閾値よりも大きい方向を音源方向として定める。音源定位部１０１は、最大Ｐ−１個の音源それぞれの音源方向を定める。音源定位部１０１は、定めた音源毎の音源方向を示す音源方向情報とＰチャネルの音声信号を音源追跡部１０２に出力する。

音源追跡部１０２には、音源定位部１０１から音源方向情報とＰチャネルの音声信号が入力される。また、音源追跡部１０２には、発話状態判定部１０５から音源毎の発話状態を示す発話状態情報が入力される。音源追跡部１０２は、発話中であると判定された音源について、所定のフレーム数（例えば、３〜５フレーム）過去のフレームから直前のフレームまでに検出された過去の音源方向から所定範囲内に現フレームで検出された現在の音源方向があるか否かを判定する。音源追跡部１０２は、あると判定した現在の音源方向に係る音源を過去のフレームから継続している音源であると判定し、その過去の音源方向に現在の音源方向を後続させることによって音源毎の音源方向列を形成する（音源追跡）。音源追跡部１０２は、過去のいずれの音源方向から所定範囲外にあると判定された音源方向に係る音源を新たな音源であると判定する。これにより、現在の音源方向がいずれの音源方向列に係る音源の音源方向であるかが特定される。音源追跡部１０２は、音源毎の音源方向を示す音源方向情報及びＰチャネルの音声信号を音源分離部１０３に出力する。

音源分離部１０３には、音源追跡部１０２から音源方向情報とＰチャネルの音声信号が入力される。音源分離部１０３は、Ｐチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音声信号である音源別音声信号に分離する。音源分離部１０３は、音源別音声信号に分離する際、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。ＧＨＤＳＳ法は、分離行列（ｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）を逐次に算出し、各チャンネルの音声信号の周波数領域係数を要素とする入力音声ベクトルに分離行列を乗算して音源ベクトルを算出する処理を含む。分離行列は、各音源から入力部２０の各マイクロホンまでの伝達関数を要素とする伝達関数行列の擬似逆行列（ｐｓｅｕｄｏ−ｉｎｖｅｒｓｅｍａｔｒｉｘ）である。音源ベクトルは、各音源からの音源別音響信号の周波数領域係数を要素とするベクトルである。音源分離部１０３は、分離行列を算出する際、分離尖鋭度と幾何制約度といった２つのコスト関数をそれぞれ最小化する。分離尖鋭度は、１つの音源が他の音源として誤って分離される度合いを表す指標値である。幾何制約度は、音源ベクトルの誤差の度合いを表す指標値である。以下、フレームｆにおける音源ｋの音源別音声信号Ｓ_ｋ（ｆ）と表す。音源分離部１０３は、分離した音源毎の音源別音声信号を特徴量取得部１０４に出力する。

特徴量取得部１０４は、音源分離部１０３から入力された音源毎の音源別音声信号について所定の長さのフレーム毎に音声特徴量として周波数毎の強度であるスペクトルを算出する。特徴量取得部１０４は、音源毎に算出したスペクトルを平均スペクトル算出部１０６及びスペクトル正規化部１０７に出力する。また、特徴量取得部１０４は、音源毎の音源別音声信号を発話状態判定部１０５に出力する。

発話状態判定部１０５は、特徴量取得部１０４から入力された各フレームについての音源毎の音源別音声信号に基づいて音源毎の発話状態を判定する。発話状態判定部１０５は、音源毎の音源別音声信号について、例えば、既知のＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ；音声区間検出）を行い、音声区間と判定されるフレームについて発話状態が発話中であると判定し、非音声区間と判定されるフレームについて非発話中と判定する。発話状態判定部１０５は、新たに音声区間と判定される音源について発話状態が発話開始と判定し、新たに非音声区間と判定される音源について発話状態が発話終了と判定してもよい。発話状態判定部１０５は、例えば、フレーム毎のパワーが所定のパワーの閾値よりも大きく、かつ、零交差数（ｎｕｍｂｅｒｏｆｚｅｒｏｃｒｏｓｓｉｎｇｓ；ゼロクロス数）が所定の範囲内（例えば、１秒当たり３００〜１０００回）であるとき発話中と判定する。発話状態判定部１０５は、音源毎の発話状態を示す発話状態情報を音源追跡部１０２、平均スペクトル算出部１０６及びスペクトル正規化部１０７に出力する。

平均スペクトル算出部１０６には、特徴量取得部１０４から音源毎のスペクトルが入力され、発話状態判定部１０５から音源毎の発話状態情報が入力される。平均スペクトル算出部１０６は、発話状態情報に基づいて各音源の発話毎に平均スペクトルを算出し、算出した平均スペクトルを記憶する。
例えば、現発話ｋの直前の前発話ｋ−１に係るスペクトル平均の周波数毎の強度Ｘ_ｋ−１’は、式（１）に示すように前発話ｋ−１内のフレームｆ毎のスペクトルの周波数毎の強度Ｘ_ｋ−１（ｆ）のフレーム間平均値となる。

式（１）において、ｆ_ｋ−１ ^B、ｆ_ｋ−１ ^Ｅは、前発話ｋ−１の開始時点におけるフレーム番号、前発話ｋ−１の終了時点におけるフレーム番号、を示す。
平均スペクトル算出部１０６は、スペクトル正規化部１０７から平均スペクトル要求情報が入力されるとき、その応答として平均スペクトル要求情報で指定される音源について現発話よりも過去の発話の平均スペクトルをスペクトル正規化部１０７に出力する。過去の発話は、例えば、現発話の直前の発話である前発話であってもよいし、現発話よりも所定数前の発話であってもよい。

スペクトル正規化部１０７には、特徴量取得部１０４から音源毎のスペクトルが入力され、発話状態判定部１０５から音源毎の発話状態情報が入力される。スペクトル正規化部１０７は、その時点（現在）において発話状態情報が示す発話状態が発話中である音源について、その音源の過去の発話における平均スペクトルの要求を指示する平均スペクトル要求情報を平均スペクトル算出部１０６に出力する。スペクトル正規化部１０７には、その応答として平均スペクトル算出部１０６から過去の発話における平均スペクトルが入力される。スペクトル正規化部１０７は、その時点におけるスペクトルを平均スペクトルで正規化して正規化スペクトルを算出する。具体的には、スペクトル正規化部１０７は、その時点のフレームｆ_ｃにおける発話ｋの周波数毎の強度Ｘ_ｋ（ｆ_ｃ）を前発話ｋ−１における平均スペクトルの対応する周波数の強度Ｘ_ｋ−１’で減算する。
即ち、現発話ｋに係る正規化スペクトルの周波数毎の強度は、Ｘ_ｋ（ｆ_ｃ）−Ｘ_ｋ−１’と表される。スペクトル正規化部１０７は、その音源について算出した正規化スペクトルを音声認識部１０８に出力する。

音声認識部１０８は、スペクトル正規化部１０７から入力された正規化スペクトルから所定の音声特徴量を算出する。音声特徴量は、例えば、ＭＦＣＣ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔｓ、メル周波数ケプストラム係数）、ＭＦＬＳ（Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＬｏｇＳｐｅｃｔｒｕｍ、メル周波数対数スペクトル）、等である。音声認識部１０８は、算出した音声特徴量と予め自部に記憶された音声認識モデルを用いて音声認識処理を行う。音声認識モデルは、音響モデルと言語モデルを含む。音響モデルは、音声特徴量から１つまたは複数の音素からなる音素列を定めるために用いられる。音響モデルは、例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、隠れマルコフモデル）である。言語モデルは、音素列から構成される語句を定めるために用いられる。言語モデルは、例えば、ｎ−グラム（ｎ−ｇｒａｍ）である。音声認識部１０８は、算出した音声特徴量について音声認識モデルを用いて算出した尤度が最も高い語句を認識結果として定める。音声認識部１０８は、音源毎の認識結果としてその発話内容を示す発話データを出力部３０に出力する。

図２は、音源分離部１０３で分離された音源別音声信号のスペクトルの例を示す図である。図２は、ある発話の発話開始から発話終了までの音源別音声信号スペクトルの時間変化を示す。濃淡は、強度を表す。明るい部分ほど強度が高いことを示し、暗い部分ほど強度が低いことを示す。
図３は、平均スペクトル算出部１０６で算出された平均スペクトルの例を示す図である。この平均スペクトルは、図２に示す発話に対する前発話における平均スペクトルである。図３が表す横縞の模様は、発話区間内で周波数毎の濃淡が時刻によらず共通であること、つまり強度が発話区間内で共通であることを示す。
図４は、スペクトル正規化部１０７で算出された正規化スペクトルの例を示す図である。この正規化スペクトルは、図２に示すスペクトルについて図３に示すスペクトルを用いて正規化して得られる。図２を比較すると、図４に示すスペクトルは、正規化により定常的な背景雑音が除去され、発話に伴うスペクトルの時間変化が顕著であることを表す。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図５は、本実施形態に係る音声処理を示すフローチャートである。
（ステップＳ１０１）音源定位部１０１は、入力部２０からのＰチャネルの音声信号に基づいて音源の方向をフレーム毎に定める。その後、ステップＳ１０２に進む。
（ステップＳ１０２）音源追跡部１０２は、発話状態判定部１０５が発話中であると判定した音源毎に音源定位部１０１が定めた音源の方向を特定する。その後、ステップＳ１０３に進む。
（ステップＳ１０３）音源分離部１０３は、Ｐチャネルの音声信号を音源毎の音源方向に基づいて音源毎の音源別音声信号に分離する。その後、ステップＳ１０４に進む。
（ステップＳ１０４）特徴量取得部１０４は、音源毎の音源別音声信号についてスペクトルを算出する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）スペクトル正規化部１０７は、その時点のスペクトルを平均スペクトル算出部１０６が算出した過去の発話の平均スペクトルで正規化して正規化スペクトル算出する。平均スペクトル算出部１０６は、並行して発話状態判定部１０５が音源毎に発話中と判定した区間毎に平均スペクトルを算出する。その後、ステップＳ１０６に進む。
（ステップＳ１０６）音声認識部１０８は、音源毎に算出した正規化スペクトルについて音声認識処理を行って発話データを生成し、生成した発話データを出力部３０に出力する。その後、図５に示す処理を終了する。

以上に説明したように、本実施形態に係る音声処理装置１０は、音声信号のスペクトルをフレーム毎に取得する特徴量取得部１０４と、音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定部１０５を備える。また、音声処理装置１０は、現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化部１０７を備える。
この構成により、取得された音声信号のスペクトルから、音声以外の他の成分、例えば、定常的な背景雑音のスペクトルが除去され、発話によるスペクトルの時間変化が得られる。得られた成分について音声認識処理を行うことで、音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短縮することができる。

また、スペクトル正規化部１０７は、平均スペクトルとして、過去の発話における平均スペクトルを用いる。
この構成により、現発話の終了を待たずに既に終了した発話における平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、現発話について音声認識の終了までにかかる時間を短縮することができる。

また、スペクトル正規化部１０７は、過去の発話として、現発話の直前の発話である前発話における平均スペクトルを用いる。
この構成により、現発話に最も近い過去の発話における音声以外の他の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差が減少する。そのため、音声認識精度の低下が抑制される。

また、本実施形態に係る音声処理装置１０は、複数のチャネルの音声信号に基づいて音源方向を定める音源定位部１０１を備える。また、音声処理装置１０は、複数のチャネルの音声信号を音源方向からの伝達関数に基づいて音源毎の音声信号に分離して音源別音声信号を特徴量取得部に出力する音源分離部１０３を備える。
この構成により、特定の方向に所在する音源からの音源別音声信号について、そのスペクトルから、他の方向からの成分が除去される。その特定の方向からの発話によるスペクトルの時間変化の成分について音声認識処理を行うことで、さらに音声認識精度を向上させることができる。

（第２の実施形態）
次に、図面を参照しながら本発明の第２の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム１Ａは、音声処理装置１０Ａ、入力部２０及び出力部３０を含んで構成される。

図６は、本実施形態に係る音声処理装置１０Ａの構成を示すブロック図である。
音声処理装置１０Ａは、音声処理装置１０（図１）において平均スペクトル算出部１０６に代えて平均スペクトル記憶部１１１Ａを備え、スペクトル正規化部１０７に代えてスペクトル正規化部１０７Ａを備える。

平均スペクトル記憶部１１１Ａには、予め平均スペクトルを記憶しておく。記憶しておく平均スペクトルとして、複数の発話間のスペクトルを平均して算出される平均スペクトルを取得しておく。複数の発話間のスペクトルは、特定ユーザによる発話間のスペクトル、特定環境における発話間のスペクトル、不特定ユーザによる発話間のスペクトル及び不特定環境における発話間のスペクトルのいずれでもよい。特定ユーザによる発話間のスペクトルは、音声処理装置１０Ａが主にそのユーザの専用である場合に用いられてもよい。特定環境における発話間のスペクトルは、音声処理装置１０Ａが主にその環境での専用である場合に用いられてもよい、不特定ユーザによる発話間のスペクトルは、音声処理装置１０Ａのユーザが不特定である場合に用いられてもよい。不特定環境における発話間のスペクトルは、音声処理装置１０Ａが用いられる環境が不特定である場合に用いられてもよい。

スペクトル正規化部１０７Ａには、特徴量取得部１０４から音源毎のスペクトルが入力され、発話状態判定部１０５から音源毎の発話状態情報が入力される。スペクトル正規化部１０７Ａは、平均スペクトル記憶部１１１Ａから平均スペクトルを読み出し、発話状態情報が示す発話状態が発話中であると判定された音源毎に、その時点で入力されるスペクトルを読み出した平均スペクトルで正規化して正規化スペクトルを算出する。本実施形態で算出される現発話ｋに係る正規化スペクトルの周波数毎の強度は、Ｘ_ｋ（ｆ_ｃ）−Ｘ_Ａ’と表される。Ｘ_Ａ’は、複数の発話間のスペクトルを平均して算出される平均スペクトルの周波数毎の強度を示す。
スペクトル正規化部１０７Ａは、その音源について算出した正規化スペクトルを音声認識部１０８に出力する。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図７は、本実施形態に係る音声処理を示すフローチャートである。
図７に示す音声処理は、ステップＳ１０１−Ｓ１０４及びステップＳ１０６に加え、ステップＳ１０７Ａ及びステップＳ１０５Ａを有する。
図７に示す音声処理において、ステップＳ１０４の処理が終了した後、ステップＳ１０７Ａに進む。

（ステップＳ１０７Ａ）スペクトル正規化部１０７Ａは、平均スペクトル記憶部１１１Ａから予め記憶された平均スペクトルを読み出す。その後、ステップＳ１０５Ａに進む。
（ステップＳ１０５Ａ）スペクトル正規化部１０７Ａは、発話中であると判定された音源毎に、その時点のスペクトルを読み出した平均スペクトルで正規化して正規化スペクトルを算出する。その後、ステップＳ１０６に進む。

以上に説明したように、本実施形態に係るスペクトル正規化部１０７Ａは、予め平均スペクトル記憶部１１１Ａに記憶された複数の発話の平均スペクトルを用いる。
この構成により、多様な音響的特徴が平均化された平均スペクトルが正規化に用いられるので、話者や時間経過による音響的特徴に変動が生じても全体として音声認識精度の低下が抑制される。

（第３の実施形態）
次に、図面を参照しながら本発明の第３の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム１Ｂは、音声処理装置１０Ｂ、入力部２０及び出力部３０を含んで構成される。

図８は、本実施形態に係る音声処理装置１０Ｂの構成を示すブロック図である。
音声処理装置１０Ｂは、音声処理装置１０（図１）において平均スペクトル算出部１０６に代えて平均スペクトル算出部１０６Ｂを備え、スペクトル正規化部１０７に代えてスペクトル正規化部１０７Ｂを備える。

平均スペクトル算出部１０６Ｂには、特徴量取得部１０４から音源毎のスペクトルが入力され、発話状態判定部１０５から音源毎の発話状態情報が入力される。平均スペクトル算出部１０６Ｂは、発話状態情報が示す発話状態が発話中である各音源について、その時点の発話（現発話）の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。
即ち、現フレームｆ_ｃにおけるスペクトル平均の周波数毎の強度Ｘ_ｋ’は、式（２）に示すように現発話ｋの開始時点から現フレームｆ_ｃまでのフレームｆ毎のスペクトルの周波数毎の強度Ｘ_ｋ（ｆ）のフレーム間平均値となる。

式（２）において、ｆ_ｋ ^Bは、現発話ｋの開始時点におけるフレーム番号を示す。
平均スペクトル算出部１０６Ｂは、各音源について算出した平均スペクトルをスペクトル正規化部１０７Ｂに出力する。

スペクトル正規化部１０７Ｂには、特徴量取得部１０４から音源毎のスペクトルが入力され、平均スペクトル算出部１０６Ｂから音源毎の平均スペクトルが入力され、発話状態判定部１０５から音源毎の発話状態情報が入力される。スペクトル正規化部１０７Ｂは、特徴量取得部１０４からのその時点におけるスペクトルを、平均スペクトル算出部１０６Ｂからの逐次に算出された平均スペクトルで正規化して正規化スペクトルを算出する。スペクトル正規化部１０７Ｂは、その音源について算出した正規化スペクトルを音声認識部１０８に出力する。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図９は、本実施形態に係る音声処理を示すフローチャートである。
図９に示す音声処理は、ステップＳ１０１−Ｓ１０４及びステップＳ１０６に加え、ステップＳ１０７Ｂ及びステップＳ１０５Ｂを有する。
図９に示す音声処理において、ステップＳ１０４の処理が終了した後、ステップＳ１０７Ｂに進む。

（ステップＳ１０７Ｂ）平均スペクトル算出部１０６Ｂは、発話状態判定部１０５において発話状態が発話中であると判定した各音源について、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。その後、ステップＳ１０５Ｂに進む。
（ステップＳ１０５Ｂ）スペクトル正規化部１０７Ｂは、発話状態判定部１０５において発話中であると判定された音源毎に、その時点のスペクトルを逐次に算出された平均スペクトルで正規化して正規化スペクトルを算出する。その後、ステップＳ１０６に進む。

（評価実験）
次に、本実施形態に係る音声処理装置１０Ｂの性能を評価するために行った評価実験について説明する。評価実験は、残響時間ＲＴ２０が１．０ｓである実験室内において行われた、入力部２０として、人型ロボットの頭部に埋め込まれた８個のマイクロホンを有するマイクロホンアレイを用いた。音源の位置は、ロボットの頭部から１．５ｍ離れ、ロボットの正面を基準として左方２０°から右方２０°の範囲内の位置である。音源とは別個に並行して、ロボットの正面とは異なる方向であり、都度ランダムに異なる方向から雑音を提示した。音源として、８２４個の発話音声を用いた。音声信号の標本化周波数、周波数領域に変換する際の１フレーム内のＦＦＴ点数、フレームのシフト長は、それぞれ１６ＫＨｚ、５１２、１６０である。そして、各試行では、それぞれ１つの発話について音声認識処理が行われた。音声認識処理により得られた認識結果を集約して単語正解精度を求めた。比較のために、本実施形態の他、オフラインＳＭＮ（ＳｐｅｃｔｒａｌＭｅａｎＮｏｒｍａｌｉｚａｔｉｏｎ）、第１の実施形態、第２の実施形態についても同様の実験を行った。オフラインＳＭＮとは、オフライン処理により、各時点のスペクトルをその時点における発話の平均スペクトルで正規化して得られる正規化スペクトルについて音声認識を行う手法である。これに対し、第１の実施形態、第２の実施形態、本実施形態に係る音声処理は、いずれもオンラインで実行可能である。

図１０は、単語正解精度の例を示す表である。図１０において、各行は処理方法としてオフラインＳＭＮ、第１の実施形態、第２の実施形態、本実施形態を示す。各列は、単語正解精度の指標として、単語正解率（Ａｃｃ）、単語正解率（Ｃｏｒｒ）、置換誤り率（Ｓｕｂ）、削除誤り率（Ｄｅｌ）、挿入誤り率（Ｉｎｓ）を示す。
単語正解精度は、オンラインで実行可能な処理のうち本実施形態に係る処理について最も高く、第１の実施形態に係る処理、第２の実施形態に係る処理がこれに続く。本実施形態によれば、オフラインＳＭＮと同等の性能が得られる。例えば、単語正解率は、オフラインＳＭＮでは８０．２４％であるのに対し、本実施形態では８０．３４％である。単語認識率は、オフラインＳＭＮでは８５．９９％であるのに対し、本実施形態では８４．９４％である。この結果は、本実施形態では、正規化によってその時点における音響環境の影響が極力排除されるので、オンラインの音声認識精度が向上することを示す。

以上に説明したように、本実施形態に係るスペクトル正規化部１０７Ｂは、現発話の開始から現時点までの平均スペクトルをその時点におけるスペクトルの正規化に用いる。
この構成により、現発話の既に取得した区間における平均スペクトルを、その時点におけるスペクトルの正規化に用いる平均スペクトルとして取得できる。そのため、現発話について音声認識の終了までにかかる時間を短縮することができる。また、その時点までの発話における音声以外の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差がさらに減少する。そのため、音声認識精度の低下がさらに抑制される。

上述したように、第３の実施形態に係る平均スペクトル算出部１０６Ｂは、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。しかし、図１１の冒頭部分の枠線内の区間のように、現発話の発話時間からの経過時間が短い区間（例えば、数十ｍｓ以内）では、平均スペクトルが安定しない。この平均スペクトルの時間経過に伴う変化が音声認識精度に与える影響が無視できない。次に説明する第４の実施形態は、この点に鑑みてなされたものである。

（第４の実施形態）
次に、図面を参照しながら本発明の第４の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム１Ｃは、音声処理装置１０Ｃ、入力部２０及び出力部３０を含んで構成される。

図１２は、本実施形態に係る音声処理装置１０Ｃの構成を示すブロック図である。
音声処理装置１０Ｃは、音声処理装置１０Ｂ（図８）においてスペクトル正規化部１０７Ｂに代えてスペクトル正規化部１０７Ｃを備え、さらに平均スペクトル記憶部１１１Ｃを備える。

平均スペクトル記憶部１１１Ｃには、予め平均スペクトルを記憶しておく。記憶しておく平均スペクトルは、例えば、平均スペクトル記憶部１１１Ａと同様の複数の発話間のスペクトルを平均して算出される平均スペクトルである。また、記憶しておく平均スペクトルは、平均スペクトル算出部１０６Ｂが算出した過去の平均スペクトル、例えば、前発話の平均スペクトルであってもよい。

スペクトル正規化部１０７Ｃには、特徴量取得部１０４から音源毎のスペクトルが入力され、発話状態判定部１０５から発話状態情報が入力される。スペクトル正規化部１０７Ｃは、発話状態情報が示す発話状態が発話中である各音源について、現発話の開始時点からその時点までの経過時間が所定の経過時間の閾値（例えば、数十ｍｓ）を超えているか否かを判定する。超えていないと判定するとき、スペクトル正規化部１０７Ｃは、平均スペクトル記憶部１１１Ｃから平均スペクトルを読み出し、その時点における音源毎のスペクトルを読み出した平均スペクトルで正規化して正規化スペクトルを算出する。超えたと判定するとき、スペクトル正規化部１０７Ｃは、その時点において発話状態情報が示す発話状態が発話中である音源について、平均スペクトル算出部１０６Ｂから逐次に算出された平均スペクトルが入力される。スペクトル正規化部１０７Ｃは、その時点における音源毎のスペクトルを、それぞれ対応する音源について逐次に算出された平均スペクトルで正規化して正規化スペクトルを算出する。スペクトル正規化部１０７Ｃは、その音源について算出した正規化スペクトルを音声認識部１０８に出力する。

より具体的には、スペクトル正規化部１０７Ｃは、例えば、ｆ_ｃ−ｆ_ｋ ^Ｂ≦ｆ_{Ｔｈｒｅｓｈ}との関係を満たすか否かを判定する。左辺のｆ_ｃ−ｆ_ｋ ^Ｂは、現発話ｋの開始時点から現フレームｆ_ｃまでのフレーム数を示し、右辺のｆ_{Ｔｈｒｅｓｈ}は、所定のフレーム数の閾値を示す。この関係を満たすと判定されるときに算出される正規化スペクトルの周波数毎の強度は、Ｘ_ｋ（ｆ_ｃ）−Ｘ_Ａ’となる。この関係を満たさないと判定されるときに算出される正規化スペクトルの周波数毎の強度は、Ｘ_ｋ（ｆ_ｃ）−Ｘ_ｋ’となる。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図１３は、本実施形態に係る音声処理を示すフローチャートである。
図１３に示す音声処理は、ステップＳ１０１−Ｓ１０４及びステップＳ１０６に加え、ステップＳ１０７Ｂ、ステップＳ１０５Ｃ及びステップＳ１１１Ｃ−１１３Ｃを有する。
図１３に示す音声処理において、ステップＳ１０４の処理が終了した後、ステップＳ１０７Ｂに進む。

（ステップＳ１０７Ｂ）平均スペクトル算出部１０６Ｂは、発話状態判定部１０５において発話状態が発話中であると判定した各音源について、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。その後、ステップＳ１１１Ｃに進む。
（ステップＳ１１１Ｃ）スペクトル正規化部１０７Ｃは、発話状態判定部１０５において発話状態が発話中である各音源について、現発話の開始時点からの経過時間が所定の経過時間の閾値を超えているか否かを判定する。超えていると判定するとき（ステップＳ１１１ＣＹＥＳ）、ステップＳ１１２Ｃに進む。超えていないと判定するとき（ステップＳ１１１ＣＮＯ）、ステップＳ１１３Ｃに進む。
（ステップＳ１１２Ｃ）スペクトル正規化部１０７Ｃは、正規化に用いる平均スペクトルとして平均スペクトル算出部１０６Ｂが逐次に算出する平均スペクトルを選択する。その後、ステップＳ１０５Ｃに進む。

（ステップＳ１１３Ｃ）スペクトル正規化部１０７Ｃは、正規化に用いる平均スペクトルとして平均スペクトル記憶部１１１Ｃから読み出した平均スペクトルを選択する。その後、ステップＳ１０５Ｃに進む。
（ステップＳ１０５Ｃ）スペクトル正規化部１０７Ｃは、その時点における音源毎のスペクトルを、対応する音源についてステップＳ１１２Ｃ又はステップＳ１１３Ｃで選択した平均スペクトルで正規化して正規化スペクトルを算出する。スペクトル正規化部１０７Ｃは、算出した正規化スペクトルを音声認識部１０８に出力する。その後、ステップＳ１０６に進む。

以上に説明したように、本実施形態に係るスペクトル正規化部１０７Ｃは、現発話の開始から所定時間までの間、現発話の開始から現時点までの平均スペクトルに代えて、過去の発話における平均スペクトルを、その時点におけるスペクトルの正規化に用いる。
この構成により、発話開始直後における時間経過に伴う平均スペクトルの変動が起こらないため、その変動による音声認識精度の低下が解消される。

上述したように、第４の実施形態に係る平均スペクトル算出部１０６Ｃは、正規化に用いる平均スペクトルとして、現発話の開始時点からの経過時間が所定の経過時間の閾値までは、既に取得した平均スペクトルを用いる。平均スペクトル算出部１０６Ｃは、それ以降において現発話の開始時点から逐次に算出された平均スペクトルを用いる。しかしながら、発話中において音響環境が急激に変化する事象（イベント）が発生することがある。図１４は、発話中に発生するイベントとして、ロボットの動作による動作音（ロボット雑音）が発生する場合を例にして、音声処理装置１０Ｃに入力される音声信号のスペクトルの時間変化の一例を示す。イベントの前後において、スペクトルが異なるので、図１５に示すように、イベント発生後の平均スペクトルは、発話の開始時点からの平均スペクトルから有意に異なる。そのため、発話の開始時点からの経過時間が所定の経過時間の閾値を超えるか否かにより、正規化に用いる平均スペクトルを使い分けるだけでは、音響環境の変化による音声認識精度への影響を回避できないことがある。次に説明する第５の実施形態は、この点に鑑みてなされたものである。

（第５の実施形態）
次に、図面を参照しながら本発明の第５の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム１Ｄは、音声処理装置１０Ｄ、入力部２０及び出力部３０を含んで構成される。次に、本実施形態に係る音声処理装置１０Ｄの構成について説明する。

図１６は、本実施形態に係る音声処理装置１０Ｄの構成を示すブロック図である。
音声処理装置１０Ｄは、音声処理装置１０Ｃ（図１２）において平均スペクトル算出部１０６Ｂに代えて平均スペクトル算出部１０６Ｄを備え、さらにイベント検出部１１２Ｄを備える。

イベント検出部１１２Ｄは、音声処理装置１０Ｄの周囲の音響環境を変化させるイベントを検出する。音響環境の変化として、各種の機器の動作音、環境音等の発生、停止、それらの音響的特徴の変化、残響特性や音源（発話音声か否かによらない）からの伝達特性の変化、など音声認識部１０８への音声認識精度に有意な影響を与える事象がある。イベント検出部１１２Ｄは、イベント検出を示すイベント検出情報を平均スペクトル算出部１０６Ｄに出力する。なお、イベント検出部１１２Ｄは、音声認識処理に用いられる所定の音響特徴量、例えば、ＭＦＣＣ、ＭＦＬＳのいずれか又は両方の変化量が所定の変化量よりも大きいことをもって周囲の音響環境を変化させるイベントを検出してもよい。これらの音響特徴量は、特徴量取得部１０４において、音源分離部１０３が取得した音源別音声信号から算出可能である。

平均スペクトル算出部１０６Ｄは、平均スペクトル算出部１０６Ｂと同様に、発話状態判定部１０５からの発話状態情報が示す発話状態が発話中である各音源について、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。但し、平均スペクトル算出部１０６Ｄは、イベント検出部１１２Ｄからイベント検出情報が入力されるとき、算出した平均スペクトルを棄却し（リセット）、その後、平均スペクトルの算出を再開する。よって、平均スペクトル算出部１０６Ｄは、発話開始もしくはイベント検出後その時点までの各音源の平均スペクトルＸ_ｋ’を逐次に算出する。つまり、本実施形態では、スペクトル正規化部１０７Ｃが算出する正規化スペクトルの周波数毎の強度Ｘ_ｋ（ｆ_ｃ）−Ｘ_ｋ’について、平均スペクトルＸ_ｋ’の平均区間の開始時点のフレームは、現発話ｋの発話開始時点のフレーム（イベントが検出されない場合）もしくはイベント検出直後のフレーム（現発話ｋにおいてイベントが検出された場合）となる。平均スペクトル算出部１０６Ｄは、各音源について算出した平均スペクトルをスペクトル正規化部１０７Ｃに出力する。

（音声処理）
次に、本実施形態に係る音声処理について説明する。
図１７は、本実施形態に係る音声処理を示すフローチャートである。
図１７に示す音声処理は、ステップＳ１０１−Ｓ１０４、ステップＳ１０６、ステップＳ１０７Ｂ、ステップＳ１０５Ｃ、ステップＳ１１１Ｃ、ステップ１１３Ｃ、ステップＳ１１２Ｄ、ステップＳ１１４Ｄ、及びステップＳ１１５Ｄを有する。
図１７に示す音声処理のステップＳ１１１Ｃにおいて、スペクトル正規化部１０７Ｃは、発話状態判定部１０５において発話状態が発話中である音源について、現発話の開始時点からの経過時間が所定の経過時間の閾値を超えていると判定するとき（ステップＳ１１１ＣＹＥＳ）、ステップＳ１１４Ｄに進む。

（ステップＳ１１４Ｄ）イベント検出部１１２Ｄは、音声処理装置１０Ｄの周囲の音響環境を変化させるイベントを検出したか否かを判定する。検出したと判定されたとき（ステップＳ１１４ＤＹＥＳ）、ステップＳ１１５Ｄに進む。検出していないと判定されたとき（ステップＳ１１４ＤＮＯ）、ステップＳ１１２Ｄに進む。
（ステップＳ１１２Ｄ）平均スペクトル算出部１０６Ｄは、発話開始後その時点までの各音源の平均スペクトルを逐次に算出する。スペクトル正規化部１０７Ｃは、正規化に用いる平均スペクトルとして、平均スペクトル算出部１０６Ｂが発話開始後その時点まで逐次に算出される平均スペクトルを選択する。その後、ステップＳ１０５Ｃに進む。
（ステップＳ１１５Ｄ）平均スペクトル算出部１０６Ｄは、平均スペクトルの算出を再開する。スペクトル正規化部１０７Ｃは、正規化に用いる平均スペクトルとして、平均スペクトル算出部１０６Ｂがイベント検出後その時点まで逐次に算出される平均スペクトルを選択する。その後、ステップＳ１０５Ｃに進む。

よって、スペクトル正規化部１０７Ｃは、逐次に算出されるスペクトルを、音響環境を変化させるイベントが検出された時点から、その時点までの平均スペクトルで正規化された正規化スペクトルを算出することができる。そのため、イベントが検出された後であっても、正規化により環境雑音の成分が十分に相殺される。図１８は、正規化スペクトルの他の例を示す。この例では、イベントとしてロボットの動作音の前後をまたぐ区間内における周波数毎の強度が濃淡で示す。図１８に示す例では、図１４に示すその時点のスペクトルや、平均スペクトルのようにイベントの前後間で明確な強度の変化が認められない。このことは、イベント検出以降の平均スペクトルを用いた正規化により、全周波数帯域にわたりロボットの動作音等の環境雑音による成分が十分に抑圧されることを示す。従って、本実施形態に係る音声処理装置１０Ｄは、音響環境を変化させるイベントが検出される場合でも、音声認識性能を向上させることができる。

（変形例１）
本実施形態に係る音声処理装置１０Ｄは、次のように変形して実施可能である。
図１９は、本実施形態に係る音声処理システム１Ｄの変形例１の構成を示すブロック図である。音声処理システム１Ｄは、音声処理装置１０Ｄ、入力部２０、ロボット制御部２１Ｄ及び出力部３０を含んで構成される。
図１９に示す音声処理システム１Ｄは、ロボット（図示せず）に搭載される。入力部２０はロボットの頭部に格納され、出力部３０はロボットの胸部に設置される。音声処理装置１０Ｄ及びロボット制御部２１Ｄは、ロボットの本体に内蔵される。

ロボット制御部２１Ｄは、ロボットの動作を制御し、動作の際に取得した各種の信号を音声処理装置１０Ｄに出力する。より具体的には、ロボット制御部２１Ｄは、駆動部（モータ）によって駆動される関節の角度位置（ａｎｇｕｌａｒｐｏｓｉｔｉｏｎ）を計測するセンサ（エンコーダ）を備え、計測した各角度位置を表す動作信号を生成する。ロボット制御部２１Ｄは、また、合成音声を表す合成音声信号を生成する。ロボット制御部２１Ｄは、生成した動作信号及び合成音声信号を音声処理装置１０Ｄに出力する。

図１９に示す音声処理装置１０Ｄは、図１６に示す音声処理装置１０Ｄについて、さらにデータ入力部１１４Ｄ及び再生部１１７Ｄを含んで構成される。また、イベント検出部１１２Ｄは、動作検出部１１５Ｄと合成音声検出部１１６Ｄを含んで構成される。
データ入力部１１４Ｄは、ロボット制御部２１Ｄから入力される動作信号を動作検出部１１５Ｄに出力し、合成音声信号を合成音声検出部１１６Ｄに出力する。

動作検出部１１５Ｄは、データ入力部１１４Ｄからの動作信号の入力が検出されていない状態から、当該動作信号が入力される状態に変化するとき、ロボットの動作の開始をイベントとして検出する。また、データ入力部１１４Ｄから入力される動作信号の信号値の絶対値が所定の信号値の閾値よりも小さい状態から、動作信号の信号値が当該閾値よりも大きくなる状態に変化するとき、ロボットの動作の開始をイベントとして検出してもよい。動作検出部１１５Ｄは、検出したロボットの動作の開始を示すイベント検出情報を平均スペクトル算出部１０６Ｄに出力する。よって、ロボットの動作の開始されるとき、その動作音も新たに発生する。ロボットの動作開始を契機に、その時点以降において生ずる動作音に係る平均スペクトルをもって音源別音声信号のスペクトルが正規化される。

合成音声検出部１１６Ｄは、データ入力部１１４Ｄからの合成音声信号の入力が検出されていない状態から、当該合成音声信号が入力される状態に変化するとき、合成音声の発生（発話）開始をイベントとして検出する。また、データ入力部１１４Ｄから入力される
合成音声信号の信号値の絶対値が所定の信号値の閾値よりも小さい状態から、合成音声信号の信号値が当該閾値よりも大きくなる状態に変化するとき、合成音声の発生開始をイベントとして検出してもよい。合成音声検出部１１６Ｄは、検出した合成音声の発生開始を示すイベント検出情報を平均スペクトル算出部１０６Ｄに出力する。合成音声の発生開始を契機に、その時点以降において生ずる合成音声に係る平均スペクトルをもって、その都度算出される音源別音声信号のスペクトルが正規化される。合成音声検出部１１６Ｄは、入力された合成音声信号を再生部１１７Ｄに出力する。
再生部１１７Ｄは、合成音声検出部１１６Ｄから入力される合成音声信号に基づく合成音声を再生する。再生部１１７Ｄは、例えば、スピーカを含んで構成される。

なお、本変形例では、動作検出部１１５Ｄは、検出されたイベントに係る音の成分を推定し、推定した音のスペクトルを算出してもよい。その場合、平均スペクトル算出部１０６Ｄは、検出されたイベントに係る音の平均スペクトルを算出し、そのイベントに係る音源からの音源別音声信号のスペクトルについて算出した平均スペクトルを用いて正規化してもよい。例えば、イベントがロボットの動作である場合には、動作検出部１１５Ｄは、音源としてモータその他の動作機構の位置を、データ入力部１１４Ｄから入力された動作信号に基づいて判定することができる。予め入力部２０の位置を示す位置データを設定しておくことで、動作検出部１１５Ｄは、動作信号と位置データを参照して音源分離部１０３による音源毎の音源別音源信号のうち、動作音に係る音源別音源信号を特定することができる。動作検出部１１５Ｄは、例えば、特開２０１３−２０２５２号公報に記載の自己雑音推定法を用いて推定される動作音の音声信号のスペクトルの平均スペクトルを正規化に用いる平均スペクトルとして定めてもよい。

上述の自己雑音推定法は、次の手順を含む手法である。
（Ｓ１−１）動作検出部１１５Ｄは、該当音源について特徴量取得部１０４が算出した音源別音声信号のスペクトルについてパワースペクトルを算出し、算出したパワースペクトルに基づいて定常雑音レベルを算出する。定常雑音レベルを算出する手法として、例えば、ＨＲＬＥ（Ｈｉｓｔｏｇｒａｍ−ｂａｓｅｄＲｅｃｕｒｓｉｖｅＬｅｖｅｌＥｓｔｉｍａｔｉｏｎ）法を用いることができる。
（Ｓ１−２）発話状態判定部１０５が当該音源の発話状態が発話中ではないと判定するとき、動作検出部１１５Ｄは、（Ｓ１−１）において算出したパワースペクトルと雑音パワースペクトルに基づいて、音源別音源信号に対する音声成分利得を算出する。
（Ｓ１−３）動作検出部１１５Ｄは、音源別音声信号のスペクトルに算出した音声成分の利得を乗算して推定目標スペクトルを算出する。発話状態が発話中ではない場合には、推定目標スペクトルは、音源別音声信号から定常雑音成分が除去された非定常雑音成分のスペクトルに相当する。
（Ｓ１−４）発話状態が発話中であると判定されるとき、動作検出部１１５Ｄは、定常雑音レベルと非定常雑音レベルとを加算して動作音の音声信号のスペクトルを算出する。算出されたスペクトルが正規化に用いるスペクトルとして用いられる。発話状態が発話中である場合には、推定目標スペクトルは、非定常雑音成分と音声成分とが重畳した重畳成分のスペクトルに相当する。

（Ｓ１−５）動作検出部１１５Ｄは、自部が備える記憶部（図示せず）に記憶した特徴ベクトルのそれぞれについて、入力される動作信号が示す特徴ベクトルとの乖離の度合いを示す指標値、例えば、距離を算出する。特徴ベクトルは、上述した各関節の角度位置を要素として含むベクトルである。動作検出部１１５Ｄは、算出した距離のうち、最小距離が所定の距離の閾値よりも大きい場合、入力される動作信号が示す特徴ベクトルと算出した非定常雑音成分のスペクトルを対応付けて記憶部に記憶する。これにより、動作信号と非定常雑音成分との対応関係を与えるテンプレートが追加される。

（Ｓ１−６）動作検出部１１５Ｄは、最小距離が所定の距離の閾値以下である場合、最小距離を与える特徴ベクトルと、入力される動作信号が示す特徴ベクトルにそれぞれ重み係数を算出して得られる乗算値の和を新たな特徴ベクトルとして算出する。それぞれの重み係数は、１以下の正の実数であり、その合計値は１である。動作検出部１１５Ｄは、最小距離を与える特徴ベクトルを、新たに算出した特徴ベクトルに置き換えて記憶部に記憶する（テンプレート更新）。

なお、本変形例では、合成音声検出部１１６Ｄも、検出されたイベントに係る音の成分として、発生させた合成音声の成分を推定し、推定した音のスペクトルを算出してもよい。その場合も、平均スペクトル算出部１０６Ｄは、検出されたイベントに係る音の平均スペクトルを算出し、そのイベントに係る音源からの音源別音声信号のスペクトルについて算出した平均スペクトルを用いて正規化してもよい。再生部１１７Ｄの入力部２０に対する相対的な位置を示す位置データを予め設定しておくことで、合成音声検出部１１６Ｄは、位置データを参照して音源分離部１０３で得られた音源別音源信号から合成音声に係る音源別音源信号と、その他の音源に係る音源別音源信号とを識別することができる。

合成音声検出部１１６Ｄは、その他の音源（例えば、発話音声）に係る音源別音源信号と入力された合成音声信号に基づいて、再生部１１７Ｄから入力部２０までの伝達関数を既知の伝達関数推定方法を用いて周波数毎に算出する。合成音声検出部１１６Ｄは、算出した伝達関数にその他の音源に係るスペクトルを乗算して、その他の音源に係る音源別音源信号に重畳された合成音声信号の成分を、正規化に用いるスペクトルとして算出する。

（変形例２）
本実施形態に係る音声処理装置１０Ｄは、また次のように変形して実施可能である。
図２０は、本実施形態に係る音声処理システム１Ｄの変形例２の構成を示すブロック図である。音声処理システム１Ｄは、音声処理装置１０Ｄ、入力部２０、電子制御ユニット２２Ｄ及び出力部３０を含んで構成される。
図２０に示す音声処理システム１Ｄは、車両（図示せず）の車室内に設置される。入力部２０と出力部３０は、乗員の着座位置、例えば、運転席の前方正面に設置される。音声処理装置１０Ｄと電子制御ユニット２２Ｄは、例えば、運転席の前方下部のダッシュボードに設置される。音声処理装置１０Ｄと電子制御ユニット２２Ｄは、ＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ；コントローラエリアネットワーク）で接続され、相互間において各種のデータを送受信可能することができる。

電子制御ユニット（ＥＣＵ：ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）２２Ｄは、操作入力に応じて各種の動作機構の動作を制御する。動作機構には、例えば、パワーウィンドウの開閉機構、ドアの開閉機構、ワイパーの動作機構など、その動作による動作音を発生させる動作機構が含まれる。電子制御ユニット２２Ｄは、制御に係る動作機構とその動作を示す動作状態信号を生成し、生成した動作状態信号を音声処理装置１０Ｄに出力する。

音声処理装置１０Ｄのイベント検出部１１２Ｄは、電子制御ユニット２２Ｄからデータ入力部１１４Ｄを介して入力される動作状態信号の入力が検出されていない状態から、当該動作状態が入力される状態に変化するとき、動作機構の動作の開始をイベントとして検出する。イベント検出部１１２Ｄは、検出した動作機構の動作の開始を示すイベント検出情報を平均スペクトル算出部１０６Ｄに出力する。よって、動作機構の動作が開始されるとき、その動作音も新たに発生する。動作機構の動作開始を契機に、その時点以降において生ずる動作音に係る平均スペクトルをもって音源別音声信号のスペクトルが正規化される。

なお、本変形例においても、イベント検出部１１２Ｄは、動作機構が生じる動作音のスペクトルを上述した自己雑音推定法を用いて推定し、推定したスペクトルの平均スペクトルを正規化に用いる平均スペクトルとして定めてもよい。

なお、本実施形態に係る音声処理装置１０Ｄならびに変形例１、２に係る音声処理装置１０Ｄでは、イベント検出部１１２Ｄが、主に所定の動作の開始をイベントの発生として検出する場合を例にしたが、これには限られない。イベント検出部１１２Ｄは、動作の終了をイベントとして検出してもよい。例えば、ロボットや動作機構の動作の停止、合成音声の停止などがイベントとして検出されてもよい。これらの動作の停止を契機に、その時点以降において生じなくなった動作音の成分を含まない平均スペクトルをもって音源別音声信号のスペクトルが正規化される。

以上に説明したように、本実施形態に係る音声処理装置１０Ｄは、音響環境を変化させるイベントを検出するイベント検出部１１２Ｄを備える。スペクトル正規化部１０７Ｃは、現時点までの平均スペクトルとして、イベントの検出以降の平均スペクトルを用いる。
この構成により、イベントの検出に伴い、その時点のスペクトルの正規化に用いる平均スペクトルが再設定される。そのため、イベントに起因する音響環境の変化による音声認識精度の低下を回避することができる。

また、イベント検出部１１２Ｄは、イベントに係る音、例えば、動作音を検出し、スペクトル正規化部１０７Ｃは、現時点までの平均スペクトルとしてイベント検出部１１２Ｄが検出した音の平均スペクトルを用いる。
この構成により、イベントに伴って発生した音の成分が正規化により除去されるので、発生した音による音声認識精度の低下を防ぐことができる。

以上、図面を参照して本発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音声処理装置１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄにおいて、音源定位部１０１、音源追跡部１０２及び音源分離部１０３は省略されてもよい。その場合には、入力部２０は、少なくとも１チャネルの音声信号を取得できればよい。入力部２０は、取得した音声信号を特徴量取得部１０４に出力する。特徴量取得部１０４、発話状態判定部１０５、平均スペクトル算出部１０６、１０６Ｂ及びスペクトル正規化部１０７Ａ、１０７Ｂ、１０７Ｃは、音源毎の音源別音声信号について行うことに代え、入力部２０が取得した音声信号について行う。また、上述した実施形態ならびに変形例の構成は、相互に組み合わされてもよいし、その一部の構成が省略されてもよい。

なお、上述した実施形態における音声処理装置１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄの一部、例えば、音源定位部１０１、音源追跡部１０２、音源分離部１０３、特徴量取得部１０４、発話状態判定部１０５、平均スペクトル算出部１０６、１０６Ｂ、スペクトル正規化部１０７、１０７Ａ、１０７Ｂ、１０７Ｃ、音声認識部１０８、イベント検出部１１２Ｄ、動作検出部１１５Ｄ及び合成音声検出部１１６Ｄをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における音声処理装置１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音声処理装置１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、１Ａ、１Ｂ、１Ｃ、１Ｄ…音声処理システム、１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ…音声処理装置、１０１…音源定位部、１０２…音源追跡部、１０３…音源分離部、１０４…特徴量取得部、１０５…発話状態判定部、１０６、１０６Ｂ…平均スペクトル算出部、１０７、１０７Ａ、１０７Ｂ、１０７Ｃ…スペクトル正規化部、１０８…音声認識部、１１１Ａ、１１１Ｃ…平均スペクトル記憶部、１１２Ｄ…イベント検出部、１１４Ｄ…データ入力部、１１５Ｄ…動作検出部、１１６Ｄ…合成音声検出部、１１７Ｄ…再生部、２０…入力部、２１Ｄ…ロボット制御部、２２Ｄ…電子制御ユニット、３０…出力部

Claims

音声信号のスペクトルをフレーム毎に取得する特徴量取得部と、
前記音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定部と、
現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化部と、
を備える音声処理装置。
前記スペクトル正規化部は、前記平均スペクトルとして、過去の発話における平均スペクトルを用いる請求項１に記載の音声処理装置。
前記スペクトル正規化部は、前記平均スペクトルとして、現発話の開始から現時点までの平均スペクトルを用いる請求項１に記載の音声処理装置。
音響環境を変化させるイベントを検出するイベント検出部を備え、
前記スペクトル正規化部は、前記現時点までに取得した平均スペクトルとして、前記イベントの検出以降の平均スペクトルを用いる請求項３に記載の音声処理装置。
前記イベント検出部は、
前記イベントに係る音を検出し、
前記スペクトル正規化部は、前記現発話の開始から現時点までの平均スペクトルとして、前記イベント検出部が検出した音の平均スペクトルを用いる請求項４に記載の音声処理装置。
前記スペクトル正規化部は、現発話の開始から所定時間までの間、前記現発話の開始から現時点までの平均スペクトルに代えて、過去の発話における平均スペクトルを用いる請求項３から請求項５のいずれか一項に記載の音声処理装置。
前記過去の発話は、現発話の直前の発話である請求項２または請求項６に記載の音声処理装置。
前記過去の発話は、予め記憶部に記憶された複数の発話である請求項２または請求項６に記載の音声処理装置。
複数のチャネルの音声信号に基づいて音源方向を定める音源定位部と、
前記複数のチャネルの音声信号を前記音源方向からの伝達関数に基づいて音源毎の音声信号に分離して音源別音声信号を前記特徴量取得部に出力する音源分離部と、
を備える請求項１から請求項８のいずれか一項に記載の音声処理装置。
音声処理装置における音声処理方法であって、
音声信号のスペクトルをフレーム毎に取得する特徴量取得ステップと、
前記音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定ステップと、
現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化ステップと、
を有する音声処理方法。