JP6532021B2 - 音声処理装置及び音声処理方法 - Google Patents

音声処理装置及び音声処理方法 Download PDF

Info

Publication number
JP6532021B2
JP6532021B2 JP2015190593A JP2015190593A JP6532021B2 JP 6532021 B2 JP6532021 B2 JP 6532021B2 JP 2015190593 A JP2015190593 A JP 2015190593A JP 2015190593 A JP2015190593 A JP 2015190593A JP 6532021 B2 JP6532021 B2 JP 6532021B2
Authority
JP
Japan
Prior art keywords
speech
spectrum
unit
sound source
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015190593A
Other languages
English (en)
Other versions
JP2017067879A (ja
Inventor
圭佑 中村
圭佑 中村
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015190593A priority Critical patent/JP6532021B2/ja
Priority to US15/235,532 priority patent/US9786295B2/en
Publication of JP2017067879A publication Critical patent/JP2017067879A/ja
Application granted granted Critical
Publication of JP6532021B2 publication Critical patent/JP6532021B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Description

本発明は、音声処理装置及び音声処理方法に関する。
音声認識処理は、一般的に、マイクロホンから入力された音響信号から所定の音声特徴量を求め、その音声特徴量と所定の統計モデルを用いて発話内容が特定する処理を含む。音声特徴量として、例えば、MFCC(Mel−frequency Cepstrum Coefficients)、MFLS(Mel−frequency log−spectrum)などが用いられることがある。マイクロホンで受音される音には、話者が発する音声(クリーン音声)に、残響や背景ノイズ等の種々の雑音が重畳されることがある。これらの雑音が重畳された音響信号に基づいて求められる音声特徴量が用いられると、音声認識率が低下する。
そこで、雑音の影響を軽減するために、音声特徴量を算出する前にフレーム毎のスペクトルを平均した平均スペクトルを用いて音声認識処理を行うことが提案されている。例えば、特許文献1に記載の音声認識装置は、音声データのパワースペクトルを算出し、音声の非認識時に平均スペクトルを算出して音響モデルを決定し、音声の認識時にパワースペクトルに対して決定した音響モデルに従って音声の各単語を認識する。
特開2000−172291号公報
しかしながら、特許文献1に記載の音声認識装置は、発話区間の終了を待ってから平均スペクトルを演算する。そのため、発話が開始してから音声認識の終了までの時間が長くなりがちである。
本発明は上記の点に鑑みてなされたものであり、音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短くすることができる音声処理装置及び音声処理方法を提供する。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、(1)音声信号のスペクトルをフレーム毎に取得する特徴量取得部と、前記音声信号に基づいてフレーム毎に発話状態が発話中か否かを判定し、新たに発話中と判定されるフレームの発話状態を発話開始、新たに非発話中と判定されるフレームの発話状態を発話終了と判定する発話状態判定部と、現発話におけるフレーム毎のスペクトルを現フレームまでに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化部と、を備え、前記スペクトル正規化部は、前記平均スペクトルとして、現発話の開始から現フレームまでの平均スペクトルを用いる音声処理装置である。
(2)本発明の他の態様は、(1)の音声処理装置であって、音響環境を変化させるイベントを検出するイベント検出部を備え、前記スペクトル正規化部は、前記現フレームまでに取得した平均スペクトルとして、前記イベントの検出以降の平均スペクトルを用いる。
(3)本発明の他の態様は、(2)の音声処理装置であって、前記イベント検出部は、前記イベントに係る音を検出し、前記スペクトル正規化部は、前記現発話の開始から現フレームまでの平均スペクトルとして、前記イベント検出部が検出した音の平均スペクトルを用いる。
(4)本発明の他の態様は、(1)から(3)のいずれかの音声処理装置であって、前記スペクトル正規化部は、現発話の開始から所定時間までの間、前記現発話の開始から現フレームまでの平均スペクトルに代えて、過去の発話における平均スペクトルを用いる。
(5)本発明の他の態様は、(4)の音声処理装置であって、前記過去の発話は、現発話の直前の発話である。
(6)本発明の他の態様は、(4)の音声処理装置であって、予め記憶部に記憶された複数の発話である。
(7)本発明の他の態様は、(1)から(6)のいずれかの音声処理装置であって、複数のチャネルの音声信号に基づいて音源方向を定める音源定位部と、前記複数のチャネルの音声信号を前記音源方向からの伝達関数に基づいて音源毎の音声信号に分離して音源別音声信号を前記特徴量取得部に出力する音源分離部と、を備える。
(8)本発明の他の態様は、音声処理装置における音声処理方法であって、音声信号のスペクトルをフレーム毎に取得する特徴量取得ステップと、前記音声信号に基づいてフレーム毎に発話状態が発話中か否かを判定し、新たに発話中と判定されるフレームの発話状態を発話開始、新たに非発話中と判定されるフレームの発話状態を発話終了と判定する発話状態判定ステップと、現発話におけるフレーム毎のスペクトルを現フレームまでに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化ステップと、を有し、前記スペクトル正規化ステップにおいて、前記平均スペクトルとして、現発話の開始から現フレームまでの平均スペクトルが用いられる音声処理方法。
上述した(1)、(8)の構成によれば、取得された音声信号のスペクトルから、音声以外の他の成分、例えば、定常的な背景雑音のスペクトルが除去され、発話によるスペクトルの時間変化が得られる。得られた成分について音声認識処理を行うことで、音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短縮することができる。
また、現発話の既に取得した区間における平均スペクトルを、その時点におけるスペクトルの正規化に用いる平均スペクトルとして取得できる。そのため、現発話について音声認識の終了までにかかる時間を短縮することができる。また、その時点までの発話における音声以外の他の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差がさらに減少する。そのため、音声認識精度の低下がさらに抑制される。
上述した(2)の構成によれば、イベントの検出に伴い、その時点のスペクトルの正規化に用いる平均スペクトルが再設定される。そのため、イベントに起因する音響環境の変化による音声認識精度の低下を回避することができる。
上述した(3)の構成によれば、イベントにより発生した音の成分が正規化により除去されるので、発生した音による音声認識精度の低下を防ぐことができる。
上述した(4)の構成によれば、発話開始直後における時間経過に伴う平均スペクトルの変動が起こらないため、その変動による音声認識精度の低下を回避することができる。
上述した(5)の構成によれば、現発話に最も近い過去の発話における音声以外の他の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差が減少する。そのため、音声認識精度の低下が抑制される。
上述した(6)の構成によれば、多様な音響的特徴が平均化された平均スペクトルが正規化に用いられるので、話者や時間経過による音響的特徴に変動が生じても全体として音声認識精度の低下が抑制される。
上述した(7)の構成によれば、特定の方向に所在する音源からの音源別音声信号について、そのスペクトルから他の方向からの成分が除去される。その特定の方向からの発話によるスペクトルの時間変化の成分について音声認識処理を行うことで、さらに音声認識精度を向上させることができる。
第1の実施形態に係る音声処理システムの構成を示すブロック図である。 第1の実施形態に係る音源分離部で分離された音源別音声信号のスペクトルの例を示す図である。 第1の実施形態に係る平均スペクトル算出部で算出された平均スペクトルの例を示す図である。 第1の実施形態に係るスペクトル正規化部で算出された正規化スペクトルの例を示す図である。 第1の実施形態に係る音声処理を示すフローチャートである。 第2の実施形態に係る音声処理装置の構成を示すブロック図である。 第2の実施形態に係る音声処理を示すフローチャートである。 第3の実施形態に係る音声処理装置の構成を示すブロック図である。 第3の実施形態に係る音声処理を示すフローチャートである。 実験により得られた単語正解精度の例を示す表である。 平均スペクトルの他の例を示す図である。 第4の実施形態に係る音声処理装置の構成を示すブロック図である。 第4の実施形態に係る音声処理を示すフローチャートである。 音声信号のスペクトルの例を示す図である。 平均スペクトルの他の例を示す図である。 第5の実施形態に係る音声処理装置の構成を示すブロック図である。 第5の実施形態に係る音声処理を示すフローチャートである。 正規化スペクトルの他の例を示す図である。 第5の実施形態の一変形例の構成を示すブロック図である。 第5の実施形態の他変形例の構成を示すブロック図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置10、入力部20及び出力部30を含んで構成される。
音声処理装置10は、入力部20から入力された音声信号について音声信号のスペクトルを所定の長さ(例えば、20ms)を有するフレーム毎に取得する。音声処理装置10は、入力された音声信号に基づいてフレーム毎に音声の発話状態を判定する。音声処理装置10は、発話状態として、例えば、発話の開始、終了などを判定し、発話の開始から終了までの一連の発話を検出する。音声処理装置10は、検出した現発話におけるフレーム毎のスペクトルを少なくとも現在までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出する。音声処理装置10は、正規化スペクトルについて音声認識処理を行って発話内容を示す発話データを生成する。音声処理装置10は、生成した発話データを出力部30に出力する。
入力部20は、音声信号を取得する。入力部20は、例えば、P個(Pは、1以上の整数)の電気音響変換素子(マイクロホン)をそれぞれ異なる位置に配列して構成されるマイクロホンアレイである。入力部20は、P個の電気音響変換素子が到来した音から生成したPチャネルの音声信号を音声処理装置10に出力する。入力部20は、収録した音声信号を無線で音声処理装置10に送信してもよいし、有線で送信してもよい。入力部20の位置は、固定されていてもよいし、ロボット、車両等の移動体に設置され移動可能であってもよい。入力部20は、音声処理装置10と一体化されていてもよいし、別体であってもよい。なお、入力部20は、他の機器からの音声信号が入力されるデータ入力インタフェースであってもよい。
出力部30は、音声処理装置10から入力された発話データまたはその情報を出力する。出力部30は、例えば、文字、図形、画像などを表示するディスプレイ装置である。ディスプレイ装置は、発話データが示す発話内容の情報を、テキスト、画像など視認可能な形態で表示する。なお、出力部30は、他の機器に発話データを出力するデータ出力インタフェースであってもよい。出力部30は、入力部20と一体に構成されたデータ入出力インタフェースであってもよい。
(音声処理装置の構成)
次に、音声処理装置10の構成について説明する。
音声処理装置10は、音源定位部101、音源追跡部102、音源分離部103、特徴量取得部104、発話状態判定部105、平均スペクトル算出部106、スペクトル正規化部107及び音声認識部108を含んで構成される。
音源定位部101は、入力部20から入力されたPチャネルの音声信号に基づいて音源の方向を予め定めた長さのフレーム(例えば、20ms)毎に定める(音源定位)。音源定位部101は、音源定位において、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部101は、空間スペクトルに基づいて音源毎の音源方向を定める。より具体的には、音源定位部101は、空間スペクトルを構成する方向毎のパワーが極大であり、所定のパワーの閾値よりも大きい方向を音源方向として定める。音源定位部101は、最大P−1個の音源それぞれの音源方向を定める。音源定位部101は、定めた音源毎の音源方向を示す音源方向情報とPチャネルの音声信号を音源追跡部102に出力する。
音源追跡部102には、音源定位部101から音源方向情報とPチャネルの音声信号が入力される。また、音源追跡部102には、発話状態判定部105から音源毎の発話状態を示す発話状態情報が入力される。音源追跡部102は、発話中であると判定された音源について、所定のフレーム数(例えば、3〜5フレーム)過去のフレームから直前のフレームまでに検出された過去の音源方向から所定範囲内に現フレームで検出された現在の音源方向があるか否かを判定する。音源追跡部102は、あると判定した現在の音源方向に係る音源を過去のフレームから継続している音源であると判定し、その過去の音源方向に現在の音源方向を後続させることによって音源毎の音源方向列を形成する(音源追跡)。音源追跡部102は、過去のいずれの音源方向から所定範囲外にあると判定された音源方向に係る音源を新たな音源であると判定する。これにより、現在の音源方向がいずれの音源方向列に係る音源の音源方向であるかが特定される。音源追跡部102は、音源毎の音源方向を示す音源方向情報及びPチャネルの音声信号を音源分離部103に出力する。
音源分離部103には、音源追跡部102から音源方向情報とPチャネルの音声信号が入力される。音源分離部103は、Pチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音声信号である音源別音声信号に分離する。音源分離部103は、音源別音声信号に分離する際、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。GHDSS法は、分離行列(separation matrix)を逐次に算出し、各チャンネルの音声信号の周波数領域係数を要素とする入力音声ベクトルに分離行列を乗算して音源ベクトルを算出する処理を含む。分離行列は、各音源から入力部20の各マイクロホンまでの伝達関数を要素とする伝達関数行列の擬似逆行列(pseudo−inverse matrix)である。音源ベクトルは、各音源からの音源別音響信号の周波数領域係数を要素とするベクトルである。音源分離部103は、分離行列を算出する際、分離尖鋭度と幾何制約度といった2つのコスト関数をそれぞれ最小化する。分離尖鋭度は、1つの音源が他の音源として誤って分離される度合いを表す指標値である。幾何制約度は、音源ベクトルの誤差の度合いを表す指標値である。以下、フレームfにおける音源kの音源別音声信号S(f)と表す。音源分離部103は、分離した音源毎の音源別音声信号を特徴量取得部104に出力する。
特徴量取得部104は、音源分離部103から入力された音源毎の音源別音声信号について所定の長さのフレーム毎に音声特徴量として周波数毎の強度であるスペクトルを算出する。特徴量取得部104は、音源毎に算出したスペクトルを平均スペクトル算出部106及びスペクトル正規化部107に出力する。また、特徴量取得部104は、音源毎の音源別音声信号を発話状態判定部105に出力する。
発話状態判定部105は、特徴量取得部104から入力された各フレームについての音源毎の音源別音声信号に基づいて音源毎の発話状態を判定する。発話状態判定部105は、音源毎の音源別音声信号について、例えば、既知のVAD(Voice Activity Detection;音声区間検出)を行い、音声区間と判定されるフレームについて発話状態が発話中であると判定し、非音声区間と判定されるフレームについて非発話中と判定する。発話状態判定部105は、新たに音声区間と判定される音源について発話状態が発話開始と判定し、新たに非音声区間と判定される音源について発話状態が発話終了と判定してもよい。発話状態判定部105は、例えば、フレーム毎のパワーが所定のパワーの閾値よりも大きく、かつ、零交差数(number of zero crossings;ゼロクロス数)が所定の範囲内(例えば、1秒当たり300〜1000回)であるとき発話中と判定する。発話状態判定部105は、音源毎の発話状態を示す発話状態情報を音源追跡部102、平均スペクトル算出部106及びスペクトル正規化部107に出力する。
平均スペクトル算出部106には、特徴量取得部104から音源毎のスペクトルが入力され、発話状態判定部105から音源毎の発話状態情報が入力される。平均スペクトル算出部106は、発話状態情報に基づいて各音源の発話毎に平均スペクトルを算出し、算出した平均スペクトルを記憶する。
例えば、現発話kの直前の前発話k−1に係るスペクトル平均の周波数毎の強度Xk−1’は、式(1)に示すように前発話k−1内のフレームf毎のスペクトルの周波数毎の強度Xk−1(f)のフレーム間平均値となる。
式(1)において、fk−1 B、fk−1 は、前発話k−1の開始時点におけるフレーム番号、前発話k−1の終了時点におけるフレーム番号、を示す。
平均スペクトル算出部106は、スペクトル正規化部107から平均スペクトル要求情報が入力されるとき、その応答として平均スペクトル要求情報で指定される音源について現発話よりも過去の発話の平均スペクトルをスペクトル正規化部107に出力する。過去の発話は、例えば、現発話の直前の発話である前発話であってもよいし、現発話よりも所定数前の発話であってもよい。
スペクトル正規化部107には、特徴量取得部104から音源毎のスペクトルが入力され、発話状態判定部105から音源毎の発話状態情報が入力される。スペクトル正規化部107は、その時点(現在)において発話状態情報が示す発話状態が発話中である音源について、その音源の過去の発話における平均スペクトルの要求を指示する平均スペクトル要求情報を平均スペクトル算出部106に出力する。スペクトル正規化部107には、その応答として平均スペクトル算出部106から過去の発話における平均スペクトルが入力される。スペクトル正規化部107は、その時点におけるスペクトルを平均スペクトルで正規化して正規化スペクトルを算出する。具体的には、スペクトル正規化部107は、その時点のフレームfにおける発話kの周波数毎の強度X(f)を前発話k−1における平均スペクトルの対応する周波数の強度Xk−1’で減算する。
即ち、現発話kに係る正規化スペクトルの周波数毎の強度は、X(f)−Xk−1’と表される。スペクトル正規化部107は、その音源について算出した正規化スペクトルを音声認識部108に出力する。
音声認識部108は、スペクトル正規化部107から入力された正規化スペクトルから所定の音声特徴量を算出する。音声特徴量は、例えば、MFCC(Mel−frequency Cepstrum coefficients、メル周波数ケプストラム係数)、MFLS(Mel−frequency Log Spectrum、メル周波数対数スペクトル)、等である。音声認識部108は、算出した音声特徴量と予め自部に記憶された音声認識モデルを用いて音声認識処理を行う。音声認識モデルは、音響モデルと言語モデルを含む。音響モデルは、音声特徴量から1つまたは複数の音素からなる音素列を定めるために用いられる。音響モデルは、例えば、HMM(Hidden Markov Model、隠れマルコフモデル)である。言語モデルは、音素列から構成される語句を定めるために用いられる。言語モデルは、例えば、n−グラム(n−gram)である。音声認識部108は、算出した音声特徴量について音声認識モデルを用いて算出した尤度が最も高い語句を認識結果として定める。音声認識部108は、音源毎の認識結果としてその発話内容を示す発話データを出力部30に出力する。
図2は、音源分離部103で分離された音源別音声信号のスペクトルの例を示す図である。図2は、ある発話の発話開始から発話終了までの音源別音声信号スペクトルの時間変化を示す。濃淡は、強度を表す。明るい部分ほど強度が高いことを示し、暗い部分ほど強度が低いことを示す。
図3は、平均スペクトル算出部106で算出された平均スペクトルの例を示す図である。この平均スペクトルは、図2に示す発話に対する前発話における平均スペクトルである。図3が表す横縞の模様は、発話区間内で周波数毎の濃淡が時刻によらず共通であること、つまり強度が発話区間内で共通であることを示す。
図4は、スペクトル正規化部107で算出された正規化スペクトルの例を示す図である。この正規化スペクトルは、図2に示すスペクトルについて図3に示すスペクトルを用いて正規化して得られる。図2を比較すると、図4に示すスペクトルは、正規化により定常的な背景雑音が除去され、発話に伴うスペクトルの時間変化が顕著であることを表す。
(音声処理)
次に、本実施形態に係る音声処理について説明する。
図5は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)音源定位部101は、入力部20からのPチャネルの音声信号に基づいて音源の方向をフレーム毎に定める。その後、ステップS102に進む。
(ステップS102)音源追跡部102は、発話状態判定部105が発話中であると判定した音源毎に音源定位部101が定めた音源の方向を特定する。その後、ステップS103に進む。
(ステップS103)音源分離部103は、Pチャネルの音声信号を音源毎の音源方向に基づいて音源毎の音源別音声信号に分離する。その後、ステップS104に進む。
(ステップS104)特徴量取得部104は、音源毎の音源別音声信号についてスペクトルを算出する。その後、ステップS105に進む。
(ステップS105)スペクトル正規化部107は、その時点のスペクトルを平均スペクトル算出部106が算出した過去の発話の平均スペクトルで正規化して正規化スペクトル算出する。平均スペクトル算出部106は、並行して発話状態判定部105が音源毎に発話中と判定した区間毎に平均スペクトルを算出する。その後、ステップS106に進む。
(ステップS106)音声認識部108は、音源毎に算出した正規化スペクトルについて音声認識処理を行って発話データを生成し、生成した発話データを出力部30に出力する。その後、図5に示す処理を終了する。
以上に説明したように、本実施形態に係る音声処理装置10は、音声信号のスペクトルをフレーム毎に取得する特徴量取得部104と、音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定部105を備える。また、音声処理装置10は、現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化部107を備える。
この構成により、取得された音声信号のスペクトルから、音声以外の他の成分、例えば、定常的な背景雑音のスペクトルが除去され、発話によるスペクトルの時間変化が得られる。得られた成分について音声認識処理を行うことで、音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短縮することができる。
また、スペクトル正規化部107は、平均スペクトルとして、過去の発話における平均スペクトルを用いる。
この構成により、現発話の終了を待たずに既に終了した発話における平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、現発話について音声認識の終了までにかかる時間を短縮することができる。
また、スペクトル正規化部107は、過去の発話として、現発話の直前の発話である前発話における平均スペクトルを用いる。
この構成により、現発話に最も近い過去の発話における音声以外の他の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差が減少する。そのため、音声認識精度の低下が抑制される。
また、本実施形態に係る音声処理装置10は、複数のチャネルの音声信号に基づいて音源方向を定める音源定位部101を備える。また、音声処理装置10は、複数のチャネルの音声信号を音源方向からの伝達関数に基づいて音源毎の音声信号に分離して音源別音声信号を特徴量取得部に出力する音源分離部103を備える。
この構成により、特定の方向に所在する音源からの音源別音声信号について、そのスペクトルから、他の方向からの成分が除去される。その特定の方向からの発話によるスペクトルの時間変化の成分について音声認識処理を行うことで、さらに音声認識精度を向上させることができる。
(第2の実施形態)
次に、図面を参照しながら本発明の第2の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Aは、音声処理装置10A、入力部20及び出力部30を含んで構成される。
図6は、本実施形態に係る音声処理装置10Aの構成を示すブロック図である。
音声処理装置10Aは、音声処理装置10(図1)において平均スペクトル算出部106に代えて平均スペクトル記憶部111Aを備え、スペクトル正規化部107に代えてスペクトル正規化部107Aを備える。
平均スペクトル記憶部111Aには、予め平均スペクトルを記憶しておく。記憶しておく平均スペクトルとして、複数の発話間のスペクトルを平均して算出される平均スペクトルを取得しておく。複数の発話間のスペクトルは、特定ユーザによる発話間のスペクトル、特定環境における発話間のスペクトル、不特定ユーザによる発話間のスペクトル及び不特定環境における発話間のスペクトルのいずれでもよい。特定ユーザによる発話間のスペクトルは、音声処理装置10Aが主にそのユーザの専用である場合に用いられてもよい。特定環境における発話間のスペクトルは、音声処理装置10Aが主にその環境での専用である場合に用いられてもよい、不特定ユーザによる発話間のスペクトルは、音声処理装置10Aのユーザが不特定である場合に用いられてもよい。不特定環境における発話間のスペクトルは、音声処理装置10Aが用いられる環境が不特定である場合に用いられてもよい。
スペクトル正規化部107Aには、特徴量取得部104から音源毎のスペクトルが入力され、発話状態判定部105から音源毎の発話状態情報が入力される。スペクトル正規化部107Aは、平均スペクトル記憶部111Aから平均スペクトルを読み出し、発話状態情報が示す発話状態が発話中であると判定された音源毎に、その時点で入力されるスペクトルを読み出した平均スペクトルで正規化して正規化スペクトルを算出する。本実施形態で算出される現発話kに係る正規化スペクトルの周波数毎の強度は、X(f)−X’と表される。X’は、複数の発話間のスペクトルを平均して算出される平均スペクトルの周波数毎の強度を示す。
スペクトル正規化部107Aは、その音源について算出した正規化スペクトルを音声認識部108に出力する。
(音声処理)
次に、本実施形態に係る音声処理について説明する。
図7は、本実施形態に係る音声処理を示すフローチャートである。
図7に示す音声処理は、ステップS101−S104及びステップS106に加え、ステップS107A及びステップS105Aを有する。
図7に示す音声処理において、ステップS104の処理が終了した後、ステップS107Aに進む。
(ステップS107A)スペクトル正規化部107Aは、平均スペクトル記憶部111Aから予め記憶された平均スペクトルを読み出す。その後、ステップS105Aに進む。
(ステップS105A)スペクトル正規化部107Aは、発話中であると判定された音源毎に、その時点のスペクトルを読み出した平均スペクトルで正規化して正規化スペクトルを算出する。その後、ステップS106に進む。
以上に説明したように、本実施形態に係るスペクトル正規化部107Aは、予め平均スペクトル記憶部111Aに記憶された複数の発話の平均スペクトルを用いる。
この構成により、多様な音響的特徴が平均化された平均スペクトルが正規化に用いられるので、話者や時間経過による音響的特徴に変動が生じても全体として音声認識精度の低下が抑制される。
(第3の実施形態)
次に、図面を参照しながら本発明の第3の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Bは、音声処理装置10B、入力部20及び出力部30を含んで構成される。
図8は、本実施形態に係る音声処理装置10Bの構成を示すブロック図である。
音声処理装置10Bは、音声処理装置10(図1)において平均スペクトル算出部106に代えて平均スペクトル算出部106Bを備え、スペクトル正規化部107に代えてスペクトル正規化部107Bを備える。
平均スペクトル算出部106Bには、特徴量取得部104から音源毎のスペクトルが入力され、発話状態判定部105から音源毎の発話状態情報が入力される。平均スペクトル算出部106Bは、発話状態情報が示す発話状態が発話中である各音源について、その時点の発話(現発話)の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。
即ち、現フレームfにおけるスペクトル平均の周波数毎の強度X’は、式(2)に示すように現発話kの開始時点から現フレームfまでのフレームf毎のスペクトルの周波数毎の強度X(f)のフレーム間平均値となる。
式(2)において、f Bは、現発話kの開始時点におけるフレーム番号を示す。
平均スペクトル算出部106Bは、各音源について算出した平均スペクトルをスペクトル正規化部107Bに出力する。
スペクトル正規化部107Bには、特徴量取得部104から音源毎のスペクトルが入力され、平均スペクトル算出部106Bから音源毎の平均スペクトルが入力され、発話状態判定部105から音源毎の発話状態情報が入力される。スペクトル正規化部107Bは、特徴量取得部104からのその時点におけるスペクトルを、平均スペクトル算出部106Bからの逐次に算出された平均スペクトルで正規化して正規化スペクトルを算出する。スペクトル正規化部107Bは、その音源について算出した正規化スペクトルを音声認識部108に出力する。
(音声処理)
次に、本実施形態に係る音声処理について説明する。
図9は、本実施形態に係る音声処理を示すフローチャートである。
図9に示す音声処理は、ステップS101−S104及びステップS106に加え、ステップS107B及びステップS105Bを有する。
図9に示す音声処理において、ステップS104の処理が終了した後、ステップS107Bに進む。
(ステップS107B)平均スペクトル算出部106Bは、発話状態判定部105において発話状態が発話中であると判定した各音源について、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。その後、ステップS105Bに進む。
(ステップS105B)スペクトル正規化部107Bは、発話状態判定部105において発話中であると判定された音源毎に、その時点のスペクトルを逐次に算出された平均スペクトルで正規化して正規化スペクトルを算出する。その後、ステップS106に進む。
(評価実験)
次に、本実施形態に係る音声処理装置10Bの性能を評価するために行った評価実験について説明する。評価実験は、残響時間RT20が1.0sである実験室内において行われた、入力部20として、人型ロボットの頭部に埋め込まれた8個のマイクロホンを有するマイクロホンアレイを用いた。音源の位置は、ロボットの頭部から1.5m離れ、ロボットの正面を基準として左方20°から右方20°の範囲内の位置である。音源とは別個に並行して、ロボットの正面とは異なる方向であり、都度ランダムに異なる方向から雑音を提示した。音源として、824個の発話音声を用いた。音声信号の標本化周波数、周波数領域に変換する際の1フレーム内のFFT点数、フレームのシフト長は、それぞれ16KHz、512、160である。そして、各試行では、それぞれ1つの発話について音声認識処理が行われた。音声認識処理により得られた認識結果を集約して単語正解精度を求めた。比較のために、本実施形態の他、オフラインSMN(Spectral Mean Normalization)、第1の実施形態、第2の実施形態についても同様の実験を行った。オフラインSMNとは、オフライン処理により、各時点のスペクトルをその時点における発話の平均スペクトルで正規化して得られる正規化スペクトルについて音声認識を行う手法である。これに対し、第1の実施形態、第2の実施形態、本実施形態に係る音声処理は、いずれもオンラインで実行可能である。
図10は、単語正解精度の例を示す表である。図10において、各行は処理方法としてオフラインSMN、第1の実施形態、第2の実施形態、本実施形態を示す。各列は、単語正解精度の指標として、単語正解率(Acc)、単語正解率(Corr)、置換誤り率(Sub)、削除誤り率(Del)、挿入誤り率(Ins)を示す。
単語正解精度は、オンラインで実行可能な処理のうち本実施形態に係る処理について最も高く、第1の実施形態に係る処理、第2の実施形態に係る処理がこれに続く。本実施形態によれば、オフラインSMNと同等の性能が得られる。例えば、単語正解率は、オフラインSMNでは80.24%であるのに対し、本実施形態では80.34%である。単語認識率は、オフラインSMNでは85.99%であるのに対し、本実施形態では84.94%である。この結果は、本実施形態では、正規化によってその時点における音響環境の影響が極力排除されるので、オンラインの音声認識精度が向上することを示す。
以上に説明したように、本実施形態に係るスペクトル正規化部107Bは、現発話の開始から現時点までの平均スペクトルをその時点におけるスペクトルの正規化に用いる。
この構成により、現発話の既に取得した区間における平均スペクトルを、その時点におけるスペクトルの正規化に用いる平均スペクトルとして取得できる。そのため、現発話について音声認識の終了までにかかる時間を短縮することができる。また、その時点までの発話における音声以外の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差がさらに減少する。そのため、音声認識精度の低下がさらに抑制される。
上述したように、第3の実施形態に係る平均スペクトル算出部106Bは、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。しかし、図11の冒頭部分の枠線内の区間のように、現発話の発話時間からの経過時間が短い区間(例えば、数十ms以内)では、平均スペクトルが安定しない。この平均スペクトルの時間経過に伴う変化が音声認識精度に与える影響が無視できない。次に説明する第4の実施形態は、この点に鑑みてなされたものである。
(第4の実施形態)
次に、図面を参照しながら本発明の第4の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Cは、音声処理装置10C、入力部20及び出力部30を含んで構成される。
図12は、本実施形態に係る音声処理装置10Cの構成を示すブロック図である。
音声処理装置10Cは、音声処理装置10B(図8)においてスペクトル正規化部107Bに代えてスペクトル正規化部107Cを備え、さらに平均スペクトル記憶部111Cを備える。
平均スペクトル記憶部111Cには、予め平均スペクトルを記憶しておく。記憶しておく平均スペクトルは、例えば、平均スペクトル記憶部111Aと同様の複数の発話間のスペクトルを平均して算出される平均スペクトルである。また、記憶しておく平均スペクトルは、平均スペクトル算出部106Bが算出した過去の平均スペクトル、例えば、前発話の平均スペクトルであってもよい。
スペクトル正規化部107Cには、特徴量取得部104から音源毎のスペクトルが入力され、発話状態判定部105から発話状態情報が入力される。スペクトル正規化部107Cは、発話状態情報が示す発話状態が発話中である各音源について、現発話の開始時点からその時点までの経過時間が所定の経過時間の閾値(例えば、数十ms)を超えているか否かを判定する。超えていないと判定するとき、スペクトル正規化部107Cは、平均スペクトル記憶部111Cから平均スペクトルを読み出し、その時点における音源毎のスペクトルを読み出した平均スペクトルで正規化して正規化スペクトルを算出する。超えたと判定するとき、スペクトル正規化部107Cは、その時点において発話状態情報が示す発話状態が発話中である音源について、平均スペクトル算出部106Bから逐次に算出された平均スペクトルが入力される。スペクトル正規化部107Cは、その時点における音源毎のスペクトルを、それぞれ対応する音源について逐次に算出された平均スペクトルで正規化して正規化スペクトルを算出する。スペクトル正規化部107Cは、その音源について算出した正規化スペクトルを音声認識部108に出力する。
より具体的には、スペクトル正規化部107Cは、例えば、f−f ≦fThreshとの関係を満たすか否かを判定する。左辺のf−f は、現発話kの開始時点から現フレームfまでのフレーム数を示し、右辺のfThreshは、所定のフレーム数の閾値を示す。この関係を満たすと判定されるときに算出される正規化スペクトルの周波数毎の強度は、X(f)−X’となる。この関係を満たさないと判定されるときに算出される正規化スペクトルの周波数毎の強度は、X(f)−X’となる。
(音声処理)
次に、本実施形態に係る音声処理について説明する。
図13は、本実施形態に係る音声処理を示すフローチャートである。
図13に示す音声処理は、ステップS101−S104及びステップS106に加え、ステップS107B、ステップS105C及びステップS111C−113Cを有する。
図13に示す音声処理において、ステップS104の処理が終了した後、ステップS107Bに進む。
(ステップS107B)平均スペクトル算出部106Bは、発話状態判定部105において発話状態が発話中であると判定した各音源について、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。その後、ステップS111Cに進む。
(ステップS111C)スペクトル正規化部107Cは、発話状態判定部105において発話状態が発話中である各音源について、現発話の開始時点からの経過時間が所定の経過時間の閾値を超えているか否かを判定する。超えていると判定するとき(ステップS111C YES)、ステップS112Cに進む。超えていないと判定するとき(ステップS111C NO)、ステップS113Cに進む。
(ステップS112C)スペクトル正規化部107Cは、正規化に用いる平均スペクトルとして平均スペクトル算出部106Bが逐次に算出する平均スペクトルを選択する。その後、ステップS105Cに進む。
(ステップS113C)スペクトル正規化部107Cは、正規化に用いる平均スペクトルとして平均スペクトル記憶部111Cから読み出した平均スペクトルを選択する。その後、ステップS105Cに進む。
(ステップS105C)スペクトル正規化部107Cは、その時点における音源毎のスペクトルを、対応する音源についてステップS112C又はステップS113Cで選択した平均スペクトルで正規化して正規化スペクトルを算出する。スペクトル正規化部107Cは、算出した正規化スペクトルを音声認識部108に出力する。その後、ステップS106に進む。
以上に説明したように、本実施形態に係るスペクトル正規化部107Cは、現発話の開始から所定時間までの間、現発話の開始から現時点までの平均スペクトルに代えて、過去の発話における平均スペクトルを、その時点におけるスペクトルの正規化に用いる。
この構成により、発話開始直後における時間経過に伴う平均スペクトルの変動が起こらないため、その変動による音声認識精度の低下が解消される。
上述したように、第4の実施形態に係る平均スペクトル算出部106Cは、正規化に用いる平均スペクトルとして、現発話の開始時点からの経過時間が所定の経過時間の閾値までは、既に取得した平均スペクトルを用いる。平均スペクトル算出部106Cは、それ以降において現発話の開始時点から逐次に算出された平均スペクトルを用いる。しかしながら、発話中において音響環境が急激に変化する事象(イベント)が発生することがある。図14は、発話中に発生するイベントとして、ロボットの動作による動作音(ロボット雑音)が発生する場合を例にして、音声処理装置10Cに入力される音声信号のスペクトルの時間変化の一例を示す。イベントの前後において、スペクトルが異なるので、図15に示すように、イベント発生後の平均スペクトルは、発話の開始時点からの平均スペクトルから有意に異なる。そのため、発話の開始時点からの経過時間が所定の経過時間の閾値を超えるか否かにより、正規化に用いる平均スペクトルを使い分けるだけでは、音響環境の変化による音声認識精度への影響を回避できないことがある。次に説明する第5の実施形態は、この点に鑑みてなされたものである。
(第5の実施形態)
次に、図面を参照しながら本発明の第5の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Dは、音声処理装置10D、入力部20及び出力部30を含んで構成される。次に、本実施形態に係る音声処理装置10Dの構成について説明する。
図16は、本実施形態に係る音声処理装置10Dの構成を示すブロック図である。
音声処理装置10Dは、音声処理装置10C(図12)において平均スペクトル算出部106Bに代えて平均スペクトル算出部106Dを備え、さらにイベント検出部112Dを備える。
イベント検出部112Dは、音声処理装置10Dの周囲の音響環境を変化させるイベントを検出する。音響環境の変化として、各種の機器の動作音、環境音等の発生、停止、それらの音響的特徴の変化、残響特性や音源(発話音声か否かによらない)からの伝達特性の変化、など音声認識部108への音声認識精度に有意な影響を与える事象がある。イベント検出部112Dは、イベント検出を示すイベント検出情報を平均スペクトル算出部106Dに出力する。なお、イベント検出部112Dは、音声認識処理に用いられる所定の音響特徴量、例えば、MFCC、MFLSのいずれか又は両方の変化量が所定の変化量よりも大きいことをもって周囲の音響環境を変化させるイベントを検出してもよい。これらの音響特徴量は、特徴量取得部104において、音源分離部103が取得した音源別音声信号から算出可能である。
平均スペクトル算出部106Dは、平均スペクトル算出部106Bと同様に、発話状態判定部105からの発話状態情報が示す発話状態が発話中である各音源について、現発話の開始時点からその時点までのスペクトルを平均して逐次に平均スペクトルを算出する。但し、平均スペクトル算出部106Dは、イベント検出部112Dからイベント検出情報が入力されるとき、算出した平均スペクトルを棄却し(リセット)、その後、平均スペクトルの算出を再開する。よって、平均スペクトル算出部106Dは、発話開始もしくはイベント検出後その時点までの各音源の平均スペクトルX’を逐次に算出する。つまり、本実施形態では、スペクトル正規化部107Cが算出する正規化スペクトルの周波数毎の強度X(f)−X’について、平均スペクトルX’の平均区間の開始時点のフレームは、現発話kの発話開始時点のフレーム(イベントが検出されない場合)もしくはイベント検出直後のフレーム(現発話kにおいてイベントが検出された場合)となる。平均スペクトル算出部106Dは、各音源について算出した平均スペクトルをスペクトル正規化部107Cに出力する。
(音声処理)
次に、本実施形態に係る音声処理について説明する。
図17は、本実施形態に係る音声処理を示すフローチャートである。
図17に示す音声処理は、ステップS101−S104、ステップS106、ステップS107B、ステップS105C、ステップS111C、ステップ113C、ステップS112D、ステップS114D、及びステップS115Dを有する。
図17に示す音声処理のステップS111Cにおいて、スペクトル正規化部107Cは、発話状態判定部105において発話状態が発話中である音源について、現発話の開始時点からの経過時間が所定の経過時間の閾値を超えていると判定するとき(ステップS111C YES)、ステップS114Dに進む。
(ステップS114D)イベント検出部112Dは、音声処理装置10Dの周囲の音響環境を変化させるイベントを検出したか否かを判定する。検出したと判定されたとき(ステップS114D YES)、ステップS115Dに進む。検出していないと判定されたとき(ステップS114D NO)、ステップS112Dに進む。
(ステップS112D)平均スペクトル算出部106Dは、発話開始後その時点までの各音源の平均スペクトルを逐次に算出する。スペクトル正規化部107Cは、正規化に用いる平均スペクトルとして、平均スペクトル算出部106Bが発話開始後その時点まで逐次に算出される平均スペクトルを選択する。その後、ステップS105Cに進む。
(ステップS115D)平均スペクトル算出部106Dは、平均スペクトルの算出を再開する。スペクトル正規化部107Cは、正規化に用いる平均スペクトルとして、平均スペクトル算出部106Bがイベント検出後その時点まで逐次に算出される平均スペクトルを選択する。その後、ステップS105Cに進む。
よって、スペクトル正規化部107Cは、逐次に算出されるスペクトルを、音響環境を変化させるイベントが検出された時点から、その時点までの平均スペクトルで正規化された正規化スペクトルを算出することができる。そのため、イベントが検出された後であっても、正規化により環境雑音の成分が十分に相殺される。図18は、正規化スペクトルの他の例を示す。この例では、イベントとしてロボットの動作音の前後をまたぐ区間内における周波数毎の強度が濃淡で示す。図18に示す例では、図14に示すその時点のスペクトルや、平均スペクトルのようにイベントの前後間で明確な強度の変化が認められない。このことは、イベント検出以降の平均スペクトルを用いた正規化により、全周波数帯域にわたりロボットの動作音等の環境雑音による成分が十分に抑圧されることを示す。従って、本実施形態に係る音声処理装置10Dは、音響環境を変化させるイベントが検出される場合でも、音声認識性能を向上させることができる。
(変形例1)
本実施形態に係る音声処理装置10Dは、次のように変形して実施可能である。
図19は、本実施形態に係る音声処理システム1Dの変形例1の構成を示すブロック図である。音声処理システム1Dは、音声処理装置10D、入力部20、ロボット制御部21D及び出力部30を含んで構成される。
図19に示す音声処理システム1Dは、ロボット(図示せず)に搭載される。入力部20はロボットの頭部に格納され、出力部30はロボットの胸部に設置される。音声処理装置10D及びロボット制御部21Dは、ロボットの本体に内蔵される。
ロボット制御部21Dは、ロボットの動作を制御し、動作の際に取得した各種の信号を音声処理装置10Dに出力する。より具体的には、ロボット制御部21Dは、駆動部(モータ)によって駆動される関節の角度位置(angular position)を計測するセンサ(エンコーダ)を備え、計測した各角度位置を表す動作信号を生成する。ロボット制御部21Dは、また、合成音声を表す合成音声信号を生成する。ロボット制御部21Dは、生成した動作信号及び合成音声信号を音声処理装置10Dに出力する。
図19に示す音声処理装置10Dは、図16に示す音声処理装置10Dについて、さらにデータ入力部114D及び再生部117Dを含んで構成される。また、イベント検出部112Dは、動作検出部115Dと合成音声検出部116Dを含んで構成される。
データ入力部114Dは、ロボット制御部21Dから入力される動作信号を動作検出部115Dに出力し、合成音声信号を合成音声検出部116Dに出力する。
動作検出部115Dは、データ入力部114Dからの動作信号の入力が検出されていない状態から、当該動作信号が入力される状態に変化するとき、ロボットの動作の開始をイベントとして検出する。また、データ入力部114Dから入力される動作信号の信号値の絶対値が所定の信号値の閾値よりも小さい状態から、動作信号の信号値が当該閾値よりも大きくなる状態に変化するとき、ロボットの動作の開始をイベントとして検出してもよい。動作検出部115Dは、検出したロボットの動作の開始を示すイベント検出情報を平均スペクトル算出部106Dに出力する。よって、ロボットの動作の開始されるとき、その動作音も新たに発生する。ロボットの動作開始を契機に、その時点以降において生ずる動作音に係る平均スペクトルをもって音源別音声信号のスペクトルが正規化される。
合成音声検出部116Dは、データ入力部114Dからの合成音声信号の入力が検出されていない状態から、当該合成音声信号が入力される状態に変化するとき、合成音声の発生(発話)開始をイベントとして検出する。また、データ入力部114Dから入力される
合成音声信号の信号値の絶対値が所定の信号値の閾値よりも小さい状態から、合成音声信号の信号値が当該閾値よりも大きくなる状態に変化するとき、合成音声の発生開始をイベントとして検出してもよい。合成音声検出部116Dは、検出した合成音声の発生開始を示すイベント検出情報を平均スペクトル算出部106Dに出力する。合成音声の発生開始を契機に、その時点以降において生ずる合成音声に係る平均スペクトルをもって、その都度算出される音源別音声信号のスペクトルが正規化される。合成音声検出部116Dは、入力された合成音声信号を再生部117Dに出力する。
再生部117Dは、合成音声検出部116Dから入力される合成音声信号に基づく合成音声を再生する。再生部117Dは、例えば、スピーカを含んで構成される。
なお、本変形例では、動作検出部115Dは、検出されたイベントに係る音の成分を推定し、推定した音のスペクトルを算出してもよい。その場合、平均スペクトル算出部106Dは、検出されたイベントに係る音の平均スペクトルを算出し、そのイベントに係る音源からの音源別音声信号のスペクトルについて算出した平均スペクトルを用いて正規化してもよい。例えば、イベントがロボットの動作である場合には、動作検出部115Dは、音源としてモータその他の動作機構の位置を、データ入力部114Dから入力された動作信号に基づいて判定することができる。予め入力部20の位置を示す位置データを設定しておくことで、動作検出部115Dは、動作信号と位置データを参照して音源分離部103による音源毎の音源別音源信号のうち、動作音に係る音源別音源信号を特定することができる。動作検出部115Dは、例えば、特開2013−20252号公報に記載の自己雑音推定法を用いて推定される動作音の音声信号のスペクトルの平均スペクトルを正規化に用いる平均スペクトルとして定めてもよい。
上述の自己雑音推定法は、次の手順を含む手法である。
(S1−1)動作検出部115Dは、該当音源について特徴量取得部104が算出した音源別音声信号のスペクトルについてパワースペクトルを算出し、算出したパワースペクトルに基づいて定常雑音レベルを算出する。定常雑音レベルを算出する手法として、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いることができる。
(S1−2)発話状態判定部105が当該音源の発話状態が発話中ではないと判定するとき、動作検出部115Dは、(S1−1)において算出したパワースペクトルと雑音パワースペクトルに基づいて、音源別音源信号に対する音声成分利得を算出する。
(S1−3)動作検出部115Dは、音源別音声信号のスペクトルに算出した音声成分の利得を乗算して推定目標スペクトルを算出する。発話状態が発話中ではない場合には、推定目標スペクトルは、音源別音声信号から定常雑音成分が除去された非定常雑音成分のスペクトルに相当する。
(S1−4)発話状態が発話中であると判定されるとき、動作検出部115Dは、定常雑音レベルと非定常雑音レベルとを加算して動作音の音声信号のスペクトルを算出する。算出されたスペクトルが正規化に用いるスペクトルとして用いられる。発話状態が発話中である場合には、推定目標スペクトルは、非定常雑音成分と音声成分とが重畳した重畳成分のスペクトルに相当する。
(S1−5)動作検出部115Dは、自部が備える記憶部(図示せず)に記憶した特徴ベクトルのそれぞれについて、入力される動作信号が示す特徴ベクトルとの乖離の度合いを示す指標値、例えば、距離を算出する。特徴ベクトルは、上述した各関節の角度位置を要素として含むベクトルである。動作検出部115Dは、算出した距離のうち、最小距離が所定の距離の閾値よりも大きい場合、入力される動作信号が示す特徴ベクトルと算出した非定常雑音成分のスペクトルを対応付けて記憶部に記憶する。これにより、動作信号と非定常雑音成分との対応関係を与えるテンプレートが追加される。
(S1−6)動作検出部115Dは、最小距離が所定の距離の閾値以下である場合、最小距離を与える特徴ベクトルと、入力される動作信号が示す特徴ベクトルにそれぞれ重み係数を算出して得られる乗算値の和を新たな特徴ベクトルとして算出する。それぞれの重み係数は、1以下の正の実数であり、その合計値は1である。動作検出部115Dは、最小距離を与える特徴ベクトルを、新たに算出した特徴ベクトルに置き換えて記憶部に記憶する(テンプレート更新)。
なお、本変形例では、合成音声検出部116Dも、検出されたイベントに係る音の成分として、発生させた合成音声の成分を推定し、推定した音のスペクトルを算出してもよい。その場合も、平均スペクトル算出部106Dは、検出されたイベントに係る音の平均スペクトルを算出し、そのイベントに係る音源からの音源別音声信号のスペクトルについて算出した平均スペクトルを用いて正規化してもよい。再生部117Dの入力部20に対する相対的な位置を示す位置データを予め設定しておくことで、合成音声検出部116Dは、位置データを参照して音源分離部103で得られた音源別音源信号から合成音声に係る音源別音源信号と、その他の音源に係る音源別音源信号とを識別することができる。
合成音声検出部116Dは、その他の音源(例えば、発話音声)に係る音源別音源信号と入力された合成音声信号に基づいて、再生部117Dから入力部20までの伝達関数を既知の伝達関数推定方法を用いて周波数毎に算出する。合成音声検出部116Dは、算出した伝達関数にその他の音源に係るスペクトルを乗算して、その他の音源に係る音源別音源信号に重畳された合成音声信号の成分を、正規化に用いるスペクトルとして算出する。
(変形例2)
本実施形態に係る音声処理装置10Dは、また次のように変形して実施可能である。
図20は、本実施形態に係る音声処理システム1Dの変形例2の構成を示すブロック図である。音声処理システム1Dは、音声処理装置10D、入力部20、電子制御ユニット22D及び出力部30を含んで構成される。
図20に示す音声処理システム1Dは、車両(図示せず)の車室内に設置される。入力部20と出力部30は、乗員の着座位置、例えば、運転席の前方正面に設置される。音声処理装置10Dと電子制御ユニット22Dは、例えば、運転席の前方下部のダッシュボードに設置される。音声処理装置10Dと電子制御ユニット22Dは、CAN(Controller Area Network;コントローラエリアネットワーク)で接続され、相互間において各種のデータを送受信可能することができる。
電子制御ユニット(ECU:Electronic Control Unit)22Dは、操作入力に応じて各種の動作機構の動作を制御する。動作機構には、例えば、パワーウィンドウの開閉機構、ドアの開閉機構、ワイパーの動作機構など、その動作による動作音を発生させる動作機構が含まれる。電子制御ユニット22Dは、制御に係る動作機構とその動作を示す動作状態信号を生成し、生成した動作状態信号を音声処理装置10Dに出力する。
音声処理装置10Dのイベント検出部112Dは、電子制御ユニット22Dからデータ入力部114Dを介して入力される動作状態信号の入力が検出されていない状態から、当該動作状態が入力される状態に変化するとき、動作機構の動作の開始をイベントとして検出する。イベント検出部112Dは、検出した動作機構の動作の開始を示すイベント検出情報を平均スペクトル算出部106Dに出力する。よって、動作機構の動作が開始されるとき、その動作音も新たに発生する。動作機構の動作開始を契機に、その時点以降において生ずる動作音に係る平均スペクトルをもって音源別音声信号のスペクトルが正規化される。
なお、本変形例においても、イベント検出部112Dは、動作機構が生じる動作音のスペクトルを上述した自己雑音推定法を用いて推定し、推定したスペクトルの平均スペクトルを正規化に用いる平均スペクトルとして定めてもよい。
なお、本実施形態に係る音声処理装置10Dならびに変形例1、2に係る音声処理装置10Dでは、イベント検出部112Dが、主に所定の動作の開始をイベントの発生として検出する場合を例にしたが、これには限られない。イベント検出部112Dは、動作の終了をイベントとして検出してもよい。例えば、ロボットや動作機構の動作の停止、合成音声の停止などがイベントとして検出されてもよい。これらの動作の停止を契機に、その時点以降において生じなくなった動作音の成分を含まない平均スペクトルをもって音源別音声信号のスペクトルが正規化される。
以上に説明したように、本実施形態に係る音声処理装置10Dは、音響環境を変化させるイベントを検出するイベント検出部112Dを備える。スペクトル正規化部107Cは、現時点までの平均スペクトルとして、イベントの検出以降の平均スペクトルを用いる。
この構成により、イベントの検出に伴い、その時点のスペクトルの正規化に用いる平均スペクトルが再設定される。そのため、イベントに起因する音響環境の変化による音声認識精度の低下を回避することができる。
また、イベント検出部112Dは、イベントに係る音、例えば、動作音を検出し、スペクトル正規化部107Cは、現時点までの平均スペクトルとしてイベント検出部112Dが検出した音の平均スペクトルを用いる。
この構成により、イベントに伴って発生した音の成分が正規化により除去されるので、発生した音による音声認識精度の低下を防ぐことができる。
以上、図面を参照して本発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、音声処理装置10、10A、10B、10C、10Dにおいて、音源定位部101、音源追跡部102及び音源分離部103は省略されてもよい。その場合には、入力部20は、少なくとも1チャネルの音声信号を取得できればよい。入力部20は、取得した音声信号を特徴量取得部104に出力する。特徴量取得部104、発話状態判定部105、平均スペクトル算出部106、106B及びスペクトル正規化部107A、107B、107Cは、音源毎の音源別音声信号について行うことに代え、入力部20が取得した音声信号について行う。また、上述した実施形態ならびに変形例の構成は、相互に組み合わされてもよいし、その一部の構成が省略されてもよい。
なお、上述した実施形態における音声処理装置10、10A、10B、10C、10Dの一部、例えば、音源定位部101、音源追跡部102、音源分離部103、特徴量取得部104、発話状態判定部105、平均スペクトル算出部106、106B、スペクトル正規化部107、107A、107B、107C、音声認識部108、イベント検出部112D、動作検出部115D及び合成音声検出部116Dをコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置10、10A、10B、10C、10Dに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音声処理装置10、10A、10B、10C、10Dの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置10、10A、10B、10C、10Dの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、1A、1B、1C、1D…音声処理システム、10、10A、10B、10C、10D…音声処理装置、101…音源定位部、102…音源追跡部、103…音源分離部、104…特徴量取得部、105…発話状態判定部、106、106B…平均スペクトル算出部、107、107A、107B、107C…スペクトル正規化部、108…音声認識部、111A、111C…平均スペクトル記憶部、112D…イベント検出部、114D…データ入力部、115D…動作検出部、116D…合成音声検出部、117D…再生部、20…入力部、21D…ロボット制御部、22D…電子制御ユニット、30…出力部

Claims (8)

  1. 音声信号のスペクトルをフレーム毎に取得する特徴量取得部と、
    前記音声信号に基づいてフレーム毎に発話状態が発話中か否かを判定し、新たに発話中と判定されるフレームの発話状態を発話開始、新たに非発話中と判定されるフレームの発話状態を発話終了と判定する発話状態判定部と、
    現発話におけるフレーム毎のスペクトルを現フレームまでに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化部と、
    を備え、
    前記スペクトル正規化部は、前記平均スペクトルとして、現発話の開始から現フレームまでの平均スペクトルを用いる
    音声処理装置。
  2. 音響環境を変化させるイベントを検出するイベント検出部を備え、
    前記スペクトル正規化部は、前記現フレームまでに取得した平均スペクトルとして、前記イベントの検出以降の平均スペクトルを用いる請求項に記載の音声処理装置。
  3. 前記イベント検出部は、
    前記イベントに係る音を検出し、
    前記スペクトル正規化部は、前記現発話の開始から現フレームまでの平均スペクトルとして、前記イベント検出部が検出した音の平均スペクトルを用いる請求項に記載の音声処理装置。
  4. 前記スペクトル正規化部は、現発話の開始から所定時間までの間、前記現発話の開始から現フレームまでの平均スペクトルに代えて、過去の発話における平均スペクトルを用いる請求項から請求項のいずれか一項に記載の音声処理装置。
  5. 前記過去の発話は、現発話の直前の発話である請求項に記載の音声処理装置。
  6. 前記過去の発話は、予め記憶部に記憶された複数の発話である請求項に記載の音声処理装置。
  7. 複数のチャネルの音声信号に基づいて音源方向を定める音源定位部と、
    前記複数のチャネルの音声信号を前記音源方向からの伝達関数に基づいて音源毎の音声信号に分離して音源別音声信号を前記特徴量取得部に出力する音源分離部と、
    を備える請求項1から請求項のいずれか一項に記載の音声処理装置。
  8. 音声処理装置における音声処理方法であって、
    音声信号のスペクトルをフレーム毎に取得する特徴量取得ステップと、
    前記音声信号に基づいてフレーム毎に発話状態が発話中か否かを判定し、新たに発話中と判定されるフレームの発話状態を発話開始、新たに非発話中と判定されるフレームの発話状態を発話終了と判定する発話状態判定ステップと、
    現発話におけるフレーム毎のスペクトルを現フレームまでに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化ステップと、
    を有し、
    前記スペクトル正規化ステップにおいて、前記平均スペクトルとして、現発話の開始から現フレームまでの平均スペクトルが用いられる
    音声処理方法。
JP2015190593A 2015-09-29 2015-09-29 音声処理装置及び音声処理方法 Active JP6532021B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015190593A JP6532021B2 (ja) 2015-09-29 2015-09-29 音声処理装置及び音声処理方法
US15/235,532 US9786295B2 (en) 2015-09-29 2016-08-12 Voice processing apparatus and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015190593A JP6532021B2 (ja) 2015-09-29 2015-09-29 音声処理装置及び音声処理方法

Publications (2)

Publication Number Publication Date
JP2017067879A JP2017067879A (ja) 2017-04-06
JP6532021B2 true JP6532021B2 (ja) 2019-06-19

Family

ID=58406567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015190593A Active JP6532021B2 (ja) 2015-09-29 2015-09-29 音声処理装置及び音声処理方法

Country Status (2)

Country Link
US (1) US9786295B2 (ja)
JP (1) JP6532021B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102168974B1 (ko) 2016-05-10 2020-10-22 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
CN114758655A (zh) 2016-05-13 2022-07-15 谷歌有限责任公司 语音控制的隐藏字幕显示
WO2018155480A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
JP7075064B2 (ja) * 2018-03-09 2022-05-25 日本電気株式会社 信号源識別装置、信号源識別方法、プログラム
US11322019B2 (en) * 2019-10-23 2022-05-03 Zoox, Inc. Emergency vehicle detection
KR20210061115A (ko) * 2019-11-19 2021-05-27 엘지전자 주식회사 인공지능형 로봇 디바이스의 음성 인식 방법
CN112256234B (zh) * 2020-11-06 2021-07-23 易普森智慧健康科技(深圳)有限公司 一种控制音量的方法、装置及计算机可读介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990990A (ja) * 1995-09-25 1997-04-04 Kokusai Denshin Denwa Co Ltd <Kdd> 音声認識のための音響分析方法および装置
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
JP2000172291A (ja) * 1998-12-02 2000-06-23 Sony Corp 音声認識装置
JP2003271190A (ja) * 2002-03-15 2003-09-25 Matsushita Electric Ind Co Ltd 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
JP2010237269A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声認識装置、その方法及びそのプログラム

Also Published As

Publication number Publication date
US9786295B2 (en) 2017-10-10
US20170092284A1 (en) 2017-03-30
JP2017067879A (ja) 2017-04-06

Similar Documents

Publication Publication Date Title
JP6532021B2 (ja) 音声処理装置及び音声処理方法
US8131544B2 (en) System for distinguishing desired audio signals from noise
EP1760696B1 (en) Method and apparatus for improved estimation of non-stationary noise for speech enhancement
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
EP0911805A2 (en) Speech recognition method and speech recognition apparatus
US20090119096A1 (en) Partial speech reconstruction
US20190013008A1 (en) Voice recognition method, recording medium, voice recognition device, and robot
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6501259B2 (ja) 音声処理装置及び音声処理方法
US20110218803A1 (en) Method and system for assessing intelligibility of speech represented by a speech signal
EP1774516B1 (en) Normalization of cepstral features for speech recognition
JP6543848B2 (ja) 音声処理装置、音声処理方法及びプログラム
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Schulze-Forster et al. Joint phoneme alignment and text-informed speech separation on highly corrupted speech
Shahnawazuddin et al. Enhancing noise and pitch robustness of children's ASR
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
Herbig et al. Self-learning speaker identification for enhanced speech recognition
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP4556028B2 (ja) 発話主体同定装置及びコンピュータプログラム
JP7426686B2 (ja) 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法
JP2002516419A (ja) 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190510

R150 Certificate of patent or registration of utility model

Ref document number: 6532021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150