JP2008085613A

JP2008085613A - 音声認識装置、音声認識方法、移動体、及びロボット

Info

Publication number: JP2008085613A
Application number: JP2006262865A
Authority: JP
Inventors: Seisho Watabe; 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2006-09-27
Filing date: 2006-09-27
Publication date: 2008-04-10
Anticipated expiration: 2026-09-27
Also published as: JP5109319B2

Abstract

【課題】
正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供する。
【解決手段】
本発明にかかる音声認識装置は、音声検出マイク１２１と、接触型マイク１２２と、受音信号とに基づいて音声を認識する音声認識モジュール１２と、を備える音声認識装置であって、音声認識モジュール１２が、受音信号を周波数領域に変換してスペクトルを算出する周波数変換部２１と、スペクトルに対してフィルタバンク分析を行いフィルタバンク出力を算出するフィルタバンク分析部２２と、フィルタバンク出力に基づいて雑音成分減算出力を算出する雑音成分減算部２３と、雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部２４と、音声認識特徴量に基づいて音声認識を行なう音声認識部２５と、を備えたものである。
【選択図】図４

Description

本発明は、音声認識装置、音声認識方法、移動体、及びロボットに関し、特に詳しくは音声認識装置、及び音声認識方法、並びにその音声認識装置を用いた移動体、ロボットに関する。

利用者が発した音声に基づいて音声を認識して処理を行う音声認識装置が利用されている。このような音声認識装置では、利用者が発した音声を認識して、認識された音声情報に応じた処理を行っている。例えば、カーナビゲーションシステムでは、利用者が発した地名を認識して、その地名を目的地として設定する。あるいは、ロボットでは、ユーザが発した音声に応じて、所定の応答がなされる。このような音声処理装置では、利用者が発した音声に加えて、周囲の雑音（ノイズ）がマイクロフォンに受音されてしまう。従って、この雑音を除去することで、利用者が発した音声を正確に認識することができる。

このような雑音を低減するためのノイズ低減方法が開示されている（特許文献１参照）。このノイズ低減方法では、音声を受音するマイクとともに、振動を検出するセンサが使用されている。また、センサの出力信号からノイズ帯域を抽出するノイズ抽出手段が設けられている。そして、ノイズ抽出手段からの出力信号を参照入力信号とする時間領域の適応フィルタを用いて、マイクの出力信号からノイズを低減している。さらに、この時間領域の適応フィルタを更新して、ノイズを低減している。

特開２００５−５７４３７号公報

しかしながら、特許文献１のノイズ低減方法では、時間領域の適応フィルタを用いるため、フィルタ更新頻度、及び雑音推定精度の条件がシビアになる。よって、演算処理の負荷が大きくなり、リアルタイムの処理を行うことが困難になってしまうという問題点がある。さらに、上記のノイズ低減方法をロボットや車などの移動体に用いた場合、音声認識を誤ってしまうことがある。すなわち、ロボットや車などの移動体では、移動体の移動に伴って、ノイズが急激かつ頻繁に変化する。例えば、ロボットが歩行する、首を振る、車が加減速するタイミングでは、ノイズが急激に発生する。従って、上記の時間領域の適応フィルタでは、原信号に歪みが生じ、音声が誤認識されてしまうという問題点がある。

本発明は、かかる課題を解決するためになされたものであり、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することを目的とする。

本発明の第１の態様にかかる音声認識装置は、第１のマイクと、受音側を接触させて用いる接触型の第２のマイクと、前記第１のマイクから出力された第１の受音信号と、前記第２のマイクから出力された第２の受音信号とに基づいて音声を認識する音声認識モジュールと、を備える音声認識装置であって、前記音声認識モジュールが、前記第１の受音信号を周波数領域に変換して第１のスペクトルを算出し、かつ前記第２の受音信号を周波数領域に変換して第２のスペクトルを算出する周波数変換部と、前記第１のスペクトルに対してフィルタバンク分析を行い第１のフィルタバンク出力を算出し、かつ前記第２のスペクトルに対して前記フィルタバンク分析を行い第２のフィルタバンク出力を算出するフィルタバンク分析部と、前記第１及び第２のフィルタバンク出力に基づいて雑音成分を減算して、雑音成分減算出力を算出する雑音成分減算部と、前記雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部と、前記音声認識特徴量に基づいて音声認識を行なう音声認識部と、を備えたものである。これにより、簡便に音声を認識することができる。

本発明の第２の態様にかかる音声認識装置は、上記の音声認識装置であって、前記雑音成分減算部が、同じタイミングの雑音成分を含む第１及び第２のフィルタバンク出力に基づいて雑音成分を減算することを特徴とするものである。これにより、より正確に音声を認識することができる。

本発明の第３の態様にかかる音声認識装置は、上記の音声認識装置であって、前記接触型マイクがＮＡＭマイクロフォンであることを特徴とするものである。これにより、雑音成分を効果的に除去することができる。

本発明の第４の態様にかかる音声認識装置は、上記の音声認識装置であって、前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第１及び第２のスペクトルの周波数領域における面積に基づいて前記第１及び第２のフィルタバンク出力が算出されていることを特徴とするものである。

本発明の第５の態様にかかる移動体は、上記の音声認識装置を備えるものである。これにより、移動体における音声認識を簡便に行なうことができる。

本発明の第６の態様にかかる移動体は、上記の移動体であって、振動源となる駆動機構を備え、前記駆動機構に対して前記接触型マイクが取り付けられているものである。これにより、振動が急激に変化する場合でも、雑音成分を効果的に除去することができる。

本発明の第７の態様にかかるロボットは、上記の音声認識装置を備えたロボットであって、前記第１のマイクが外部環境の音を受音し、前記第２のマイクがロボット内部の音を受音し、前記第１のマイクからの第１の受音信号と、前記第２のマイクからの第２の受音信号とに基づいて、外部環境から得られた音声を認識することを特徴とするものである。これにより、ロボットにおける音声認識を簡便に行なうことができる。

本発明の第８の態様にかかるロボットは、上記のロボットであって、前記ロボットを駆動するためのモータが前記ロボット内部に設けられ、前記接触型マイクが前記モータに対して取り付けられているものである。これにより、モータ駆動に起因する雑音成分を効果的に除去することができる。

本発明の第９の態様にかかる移動体は、上記の移動体であって、振動源となる動力機構を備え、前記移動体が、前記動力機構としてエンジンを備えた自動車であることを特徴とするるものである。これにより、自動車における音声認識を簡便に行なうことができる。

本発明の第１０の態様にかかる移動体は、上記の移動体であって、前記接触型マイクが前記自動車のエンジンに対して取り付けられていることを特徴とするものである。これにより、エンジンに駆動に起因する雑音成分を効果的に除去することができる。

本発明の第１１の態様にかかる音声認識方法は、第１のマイクからの第１の受音信号を周波数領域に変化して、第１のスペクトルを算出するステップと、受音側を接触させて用いる接触型の第２のマイクからの第２の受音信号を周波数領域に変換して、第２のスペクトルを算出するステップと、前記第１のスペクトルにフィルタバンク分析を行い、第１のフィルタバンク出力を算出するステップと、前記第２のスペクトルにフィルタバンク分析を行い、第２のフィルタバンク出力を算出するステップと、前記第１及び第２のフィルタバンク出力に基づいて、雑音成分を減算して、雑音成分減算出力を算出するステップと、前記雑音成分減算出力を音声認識特徴量に変換するステップと、前記音声認識特徴量に基づいて音声認識を行なうステップとを備えたものである。

本発明の第１２の態様にかかる音声認識方法は、上記の音声認識方法であって、前記雑音成分減算出力を算出するステップでは、同じタイミングの雑音成分を含む第１及び第２のフィルタバンク出力に基づいて、雑音成分を減算することを特徴とするものである。これにより、より正確に音声を認識することができる。

本発明の第１３の態様にかかる音声認識方法は、上記の音声認識方法であって、前記フィルタバンクに含まれるフィルタでフィルタ処理された前記第１及び第２のスペクトルの周波数領域における面積に基づいて前記第１及び第２のフィルタバンク出力が算出されていることを特徴とするものである。これにより、簡便に雑音除去することができる。

本発明によれば、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することができる。

本実施の形態にかかる移動体について図１を用いて説明する。図１は移動体の構成を模式的に示す外観図である。本実施の形態では、移動体１００が、ユーザが発した音声に基づいて応答する対話ロボットとして説明する。移動体１００は、車輪２と、筐体３と、を備えている。そして、筐体３の内部には、車輪２と接続されたモータが設けられている。このモータが移動体１００を移動させるための駆動機構となる。モータを駆動することによって、車輪２が回転して、移動体１００が移動する。さらに、移動体１００は、音声検出マイク１２１、及び接触型マイク１２２を備えている。音声検出マイク１２１、及び接触型マイク１２２からの受音信号に基づいて音声認識処理を行う。そして、図示しないスピーカによって、認識された音声に応じた応答を返す。

次に、移動体１００の制御系について図２を用いて説明する。移動体１００は、制御部１０１、入出力部１０２、駆動部１０３、電源部１０４、及び外部記憶部１０５などを有している。これらは、例えば、筐体３の内部に設けられている。

入出力部１０２は、周囲の音を受音するための音声検出マイク１２１、及び接触型マイク１２２を備えている。さらに、移動体１００は、音声を出力してユーザと対話等を行なうためのスピーカ１２３、ユーザへの応答や感情等を表現するためのＬＥＤ１２４、タッチセンサなどからなるセンサ部１２５などを備える。

駆動部１０３は、モータ１３１及びモータ１３１を駆動するドライバ１３２などを有し、ユーザの指示などに従って車輪２を回転させる。これにより、移動体１００が所定の位置まで移動する。モータ１３１は移動体１００の内部に取り付けられている。電源部１０４は、バッテリ１４１及びその放充電を制御するバッテリ制御部１４２を有し、各部に電源を供給する。

外部記憶部１０５は、着脱可能なＨＤＤ、光ディスク、光磁気ディスク等からなり、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じて制御部１０１内のメモリ（不図示）等に供給する。

制御部１０１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、通信用のインターフェースなどを有し、移動体１００の各種動作を制御する。そして、この制御部１０１は、例えばＲＯＭに格納された制御プログラムに従って音声認識を行なう音声認識モジュール１２、認識結果に基づきユーザに発話動作をする音声発話モジュール１３を有する。

次に、音声検出マイク１２１と接触型マイク１２２の一例について説明する。例えば、音声検出マイク１２１として、コンデンサーマイクロフォンを用いることができる。音声検出マイク１２１は、ユーザの発した音声を受音する。すなわち、音声検出マイク１２１は空気振動を検出して、空気を伝播した音声を受音する。そして、音声検出マイク１２１は受音した音声に基づく受音信号を出力する。しかしながら、音声検出マイク１２１は、モータ１３１などによって発生する機械的な振動も検出してしまう。すなわち、モータ１３１が回転することによって発生する機械的な振動が空気を伝播して、音声検出マイク１２１で検出されてしまう。そこで、周囲の雑音（ノイズ）を低減するために接触型マイク１２２が設けられている。接触型マイク１２２は受音部が接触された状態で使用されるものである。この接触型マイク１２２として、例えば、ＮＡＭ（Non-Audible Murmur）マイクロフォンが用られる。ＮＡＭマイクである接触型マイク１２２は、通常の音声に加えて、非可聴つぶやき音を受音することができる。この接触型マイク１２２の構成について図３を用いて説明する。図３は、接触型マイク１２２の構成を示す側面断面図である。

接触型マイク１２２は、遮音カバー３１と、ゴム３２と、ソフトシリコーン３３と、コンデンサーマイクロフォン３４と、導線３５とを備えている。コンデンサーマイクロフォン３４は所定の間隔を隔てた２枚の電極を有している。そして、コンデンサーマイクロフォン３４は、電極間容量の変化で音声振動を検知する。すなわち、振動が加わると、コンデンサーマイクロフォン３４の電極間距離が変化する。これにより、コンデンサーの容量が変化するため、音声振動を検知することができる。コンデンサーマイクロフォン３４の反受音側からは、導線３５が延びている。この導線３５は複数設けられている。そして、導線３５を介して、コンデンサーマイクロフォン３４に所定の電圧を印加する。これにより、導線３５を介してコンデンサーマイクロフォン３４からの出力信号が電気信号として伝達される。コンデンサーマイクロフォン３４の受音側には、ソフトシリコーン３３が設けられている。そして、ソフトシリコーン３３とコンデンサーマイクロフォン３４とを収納するように遮音カバー３１が設けられている。遮音カバー３１は、例えば、金属、又は樹脂で形成される。遮音カバー３１の受音側は開口している。遮音カバー３１とソフトシリコーン３３との間には、ゴム３２が設けられている。なお、遮音カバー３１とソフトシリコーン３３の間には、ゴム３２の代わりに外部雑音を防音するための空間が形成されていてもよい。この遮音カバー３１によって、外部雑音が遮断される。

ここで、遮音カバー３１の受音側が開口されているため、接触型マイク１２２の受音側ではソフトシリコーン３３が露出している。このソフトシリコーン３３が露出している部分を受音部３０とする。接触型マイク１２２は、受音部３０が対象物に接触した状態で使用される。本実施の形態では、雑音を検出するため、振動源３６に受音部３０を接触させる。振動源３６が機械的に駆動すると、空気が振動するため、音声に対する雑音が発生する。この、機械的振動による雑音を効率よく検出するため、接触型マイクを振動源３６に直接接触させる。従って、振動源３６で発生した機械的振動は、ソフトシリコーン３３を伝播して、コンデンサーマイクロフォン３４で検出される。接触型マイク１２２は、受音部３０に対する機械的な振動を検出している。

このように、接触型マイク１２２を振動源３６と接触させる。ここで、本実施の形態にかかる移動体１００では、駆動用のモータ１３１が振動源３６となる。すなわち、モータ１３１が駆動すると、モータ１３１の回転によって空気が振動して雑音が発生する。この雑音は、音声検出マイク１２１に検出されてしまう。モータ１３１による雑音を除去するため、接触型マイク１２２を用いている。モータ１３１で発生する機械的振動が空気を介さずに、接触型マイク１２２で検出される。これにより、雑音を効率よく受音することができる。なお、接触型マイク１２２は、振動源３６に対して取り付けられていればよく、例えば、振動源３６となるモータ１３１に、剛体を介して接触させてもよい。具体的には、モータ１３１をモータカバーなどで囲む場合、接触型マイク１２２をモータカバーに接触させてもよい。

ここで、本実施の形態にかかる移動体１００は、ユーザ又はオペレータの呼びかけ等の音声を認識し、音声認識結果に基づき応答する対話ロボットである。そして、上記の音声検出マイク１２１、接触型マイク１２２、及び音声認識モジュール１２が音声認識装置を構成する。次に、本実施の形態にかかる音声認識装置について図３を用いて説明する。

図４は、音声認識装置の構成を示すブロック図である。音声認識装置は、音声検出マイク１２１と、接触型マイク１２２と、音声認識モジュール１２とを備えている。音声認識モジュール１２は、周波数変換部２１、フィルタバンク分析部２２、雑音成分減算部２３、及び認識特徴量変換部２４を備え、音声検出マイク１２１、及び接触型マイク１２２からの受音信号に対して所定の処理を行う。なお、音声検出マイク１２１から出力される信号を第１の受音信号とし、接触型マイク１２２から出力される受音信号を第２の受音信号とする。もちろん、受音信号は、アンプなどによって増幅されていてもよい。

周波数変換部２１は、周波数変換部２１ａ、及び周波数変換部２１ａを備えている。音声検出マイク１２１から出力された第１の受音信号は、周波数変換部２１ａで周波数領域に変換され、接触型マイク１２２から出力された第２の受音信号は、周波数変換部２１ｂで周波数領域に変換される。例えば、周波数変換部２１は、受音信号をＡＤ変換してデジタル信号にする。そして、デジタル化された離散的な受音信号に、離散フーリエ変換（ＤＦＴ）を行なう。例えば、周波数変換部２１は、高速フーリエ変換（ＦＦＴ）を行い、受音信号を周波数領域に変換する。これにより、受音信号のパワースペクトルが得られる。なお、第１の受音信号対応するパワースペクトルを第１のパワースペクトルとし、第２の受音信号に対応するパワースペクトルを第２のパワースペクトルとする。

フィルタバンク分析部２２は、複数のフィルタを有するフィルタバンクを用いて、パワースペクトルに対するフィルタバンク分析を行う。具体的には、フィルタバンク分析部２２ａが第１のパワースペクトルに対してフィルタバンク分析を行い、フィルタバンク分析部２２ｂが第２のパワースペクトルに対してフィルタバンク分析を行う。例えば、周波数変換部２１において、図５に示すパワースペクトルが得られたとする。なお、図５では、横軸が周波数ｆ（Ｈｚ）を示し、縦軸が信号強度（ｄＢ）を示している。そして、図５に示す三角形状のメルフィルタ（三角窓）を複数するフィルタバンクを用いて、フィルタバンク分析を行う。ここで、メルフィルタは、メル周波数上で等間隔に配置される。メル周波数とは、音の高低に対する人間の感覚尺度であり、次の式で表される。
Ｍｅｌ（ｆ）＝２５９５ｌｏｇ_１０（１＋ｆ／７００）

図５では、４つのメルフィルタが示されている。４つのメルフィルタはメル周波数上で等間隔に配置されている。そのため、実際の周波数上では周波数が高くなる程、三角形の底辺が長くなる。すなわち、周波数が高くなる程、１つのフィルタに含まれる帯域が広くなる。従って、高周波領域に対して鈍感になる。フィルタバンクに含まれる各フィルタは隣のフィルタの一部と重複する帯域を有している。このように、フィルタバンク分析部２２は異なる特性を有する複数のフィルタを用いてフィルタ処理を行う。なお、フィルタバンクに含まれるフィルタの数は４に限られるものではない。実際には１０〜数１０個のフィルタを用いることができる。例えば、１２個のフィルタを用いて、０Ｈｚ〜８Ｈｚまでを１２の帯域に分割している。また、メルフィルタ以外のフィルタを用いてフィルタバンク分析を行ってもよい。

フィルタバンク分析部２２は、パワースペクトルに対してフィルタバンク出力を求める。そのため、フィルタバンク分析部２２は、スペクトルパワー和を算出する。そのため、フィルタバンク分析部２２は、まず、パワースペクトルに対して各フィルタでフィルタ処理を行なう。すなわち、フィルタである三角窓によってパワースペクトルに重み付けを行なう。具体的には、三角形状のフィルタと、そのフィルタに含まれるパワースペクトルの値との積を離散的に求める。すなわち、フィルタに含まれる周波数毎に、信号強度とフィルタの積が算出される。ここでは、フィルタに含まれる離散的なパワースペクトルの値の数だけ、積が算出される。さらに、フィルタバンク分析部２２は、フィルタに含まれる帯域全体における積を足し合わせる。この積の和がスペクトルパワー和となる。従って、各フィルタ毎に、パワースペクトルに応じた一つのスペクトルパワー和が算出される。例えば、４つのフィルタを用いたフィルタバンク分析では、４つのスペクトルパワー和が算出される。そして、この４つのスペクトルパワー和がフィルタバンク出力となる。なお、スペクトルパワー和は、フィルタ処理されたパワースペクトルの周波数領域における面積を示してる。従って、スペクトルパワー和は、フィルタ処理されたパワースペクトルの周波数領域における面積に基づいた値となる。

このように、フィルタバンク分析部２２は、パワースペクトルに対してフィルタバンク分析を行い、フィルタバンク出力を算出する。ここで、第１のパワースペクトルに対するフィルタバンク出力を第１のフィルタバンク出力とし、第２のパワースペクトルに対するフィルタバンク出力を第２のフィルタバンク出力とする。なお、フィルタバンク分析部２２ａとフィルタバンク分析部２２ｂとでは、同じフィルタバンクが用いられている。よって、第１及び第２のフィルタバンク出力には、同じ数のスペクトルパワー和が含まれる。フィルタバンク出力に含まれるスペクトルパワー和は、受音信号の特徴に基づく（メル）周波数領域の成分となる

ここで、図４の説明に戻る。第１及び第２のフィルタバンク出力は、雑音成分減算部２３に入力される。雑音成分減算部２３は、第１のフィルタバンク出力から第２のフィルタバンク出力を成分減算することによって、第１のフィルタバンク出力から雑音成分を減算している。すなわち、雑音成分減算部２３は、雑音を低減するため、スペクトルパワー和の差を算出している。ここでは、対応するフィルタ毎に差が算出される。従って、フィルタバンク出力に含まれるスペクトルパワー和の数だけ、差が算出される。第１及び第２のフィルタバンク出力の差を雑音成分減算出力とする。例えば、各フィルタバンク出力に４つのスペクトルパワー和が含まれる場合、雑音成分減算出力には、４つの差が含まれる。

ここで、第２のフィルタバンク出力は、接触型マイク１２２からの受音信号に基づくものとなっている。接触型マイク１２２は、振動源３６と接触した状態で配置される。このため、接触型マイク１２２からの第２の受音信号はユーザの発した音声に比べて雑音による振動の強度が高くなっている。すなわち、第２の受音信号では、実際に認識したいユーザの音声に基づく信号成分（Ｓ）の影響は小さく、雑音成分（Ｎ）の影響が支配的になっている。一方、音声検出マイク１２１は、受音部が物体と接触していないコンデンサーマイクであるため、空気の振動を検出する。第１の受音信号では、ユーザの発した音声と雑音による振動とが同程度になる。すなわち、第１の受音信号では、信号成分（Ｓ）、及び雑音成分（Ｎ）が同様に影響を与える。雑音発生時の第１の受音信号には、信号成分（Ｓ）と雑音成分（Ｎ）とが同程度に含まれる。第２の受音信号では、雑音成分（Ｎ）の影響が支配的になっている。従って、第１の受音信号に対応する第１のフィルタバンク出力から第２の受音信号に対応する第２のフィルタバンク出力を減算すると、雑音成分（Ｎ）が低減される。このように、タイプの異なる２つのマイクを用いることによって、簡便に信号成分（Ｓ）から雑音成分（Ｎ）を減算することができる。

なお、雑音成分減算部２３で減算処理される第１及び第２のフィルタバンク出力には、同じタイミングにおける雑音成分が含まれていることが好ましい。すなわち、第１のフィルタバンク出力に含まれる雑音成分（Ｎ）が第２のフィルタバンク出力にも含まれるように、タイミングを調整している。例えば、音声検出マイク１２１と接触型マイク１２２の間の距離に応じて、第２の受音信号を遅延させて、同期させている。これにより、第１及び第２のフィルタバンク出力に同じタイミングでの雑音成分が含まれるようになり、確実に雑音成分（Ｎ）を除去することができる。従って、モータ１３１の動作に応じて雑音が急激かつ頻繁に変化した場合でも、雑音成分を確実に除去することが可能となる。

このように、雑音成分減算部２３はフィルタバンク出力に基づいて雑音成分減算処理を行っている。フィルタバンク出力を用いることによって、雑音成分減算の誤差を低減することができる。例えば、図６に示すように、実際に認識したい音声による信号成分（Ｓ）のスペクトルの真値を真値スペクトルＳｔとし、第１のパワースペクトルと第２のパワースペクトルとに基づいて推定された信号成分（Ｓ）のスペクトルを推定スペクトルＳｐとする。具体的には、理想的な状態で音声のみを受音した時のスペクトルが真値スペクトルＳｔとなり、第１のパワースペクトルと第２のパワースペクトルとの差が推定スペクトルＳｐとなる。なお、真値スペクトルＳｔと推定スペクトルＳｐは、フィルタバンクによってフィルタ処理されたものである。ここで、真値スペクトルＳｔと推定スペクトルＳｐとの間には、様々な要因から誤差が生じている。例えば、Ａ、Ｂ、Ｃの周波数においては、推定スペクトルＳｐの値と真値スペクトルＳｔの値にずれが生じている。しかしながら、雑音成分減算部２３では、スペクトルパワー和に基づいて雑音成分を減算している。これにより、各周波数での誤差が相殺され、誤差を低減することができる。すなわち、フィルタバンク分析部２２でスペクトルパワー和を求めているため、各周波数での誤差が相殺される。よって、各周波数での誤差が累積されることがなくなり、誤差が大きくなるのを防ぐことができる。よって、正確に雑音成分を除去することができる。

このように、雑音成分減算部２３はフィルタバンク出力に基づいて雑音成分減算処理を行っている。そして、図４に示すように、雑音成分減算部２３は雑音成分減算出力を認識特徴量変換部２４に出力する。認識特徴量変換部２４では、雑音成分減算出力を音声認識特徴量に変換する。そして、後述する音声認識部２５は、この音声認識特徴量に基づいて音声を認識する。ここでは、音声認識特徴量としてＭＦＣＣ（Mel Frequency Cepstrum Coefficient）を算出する。具体的には、スペクトルパワー和の対数（log）を取り、離散コサイン変換（DCT）を行なう。これにより、メル周波数領域のケプストラム係数を算出される。このような処理を行うことによって、ＭＦＣＣが音声認識特徴量となる。従って、第１及び第２の受音信号から音声認識特徴量が抽出される。

音声認識部２５は、音声認識特徴量に基づいて音声認識を行なう。具体的には、ＭＦＣＣに基づいてユーザが発した音声の単語等の認識を行なう。例えば、音素に応じたテンプレートを予め複数登録させておく。複数のテンプレートは、例えば、外部記憶部１０５にデータベースとして記憶されている。音声認識部２５は、雑音成分減算部２３からの音声認識特徴量がこのテンプレートにマッチングするか否かを判定する。これにより、ユーザが発生した音声をテキストとして認識することができる。さらに、上記の処理を所定の時間間隔（フレーム周期）毎に繰り返し行う。これにより、ユーザの発した単語等をテキストとして認識することができる。なお、音声認識特徴量から音声認識を行なう方法としては、公知の方法を用いることができ、必要に応じて適当な処理方法が選択される。

このように、本実施の形態では、フィルタバンク出力の差である雑音成分減算出力を音声認識特徴量に直接変換するため、雑音減算による遅延が非常に小さい。すなわち、スペクトルを再度時間領域に逆フーリエ変換することなく処理しているため、雑音減算処理に起因する遅延を小さくすることが可能となる。従って、同時刻の受音信号によって雑音低減することが可能になる。さらに、メル周波数領域のスペクトルパワー和が音声認識特徴量として用いられるため、処理負荷の増大を低減することができる。例えば、フィルタバンク分析では、１００未満のパラメータで処理が行われ、通常、多くとも数十程度のパラメータで処理が行われる。一方、従来技術の時間領域の適応フィルタを用いた場合、更新パラメータ数は、数百〜数千（典型的には、５１２〜２０４８）である。従って、リアルタイムでの雑音減算が可能となる。これにより、雑音が急激かつ頻繁に変化した場合でも、確実に雑音を除去することが可能となる。従って、急激に動作するモータ１３１を振動源として備える移動体１００に好適である。また、フィルタバンク処理であるため、細かな周波数帯の誤差の和が、フィルタバンク出力の誤差とは一致しない。そのため、厳密な雑音推定ができなくても音声認識精度の低下を防ぐことができる。このように、本実施の形態では、簡便かつ確実に雑音除去を行なうことができる。従って、音声認識の精度を向上することができる。さらに、各フィルタにおけるスペクトルパワー和に基づいて雑音成分減算を行なっているため、処理負荷が小さい。従って、リアルタイムでの雑音除去に好適である。

なお、上記の説明では、受音信号をメル周波数に変換したが、これに限るものではない。例えば、線形周波数に変換してもよい。また、フィルタとして三角窓を用いたが、これに限られるものではない。例えば、ハミング窓を用いることができる。

接触型マイク１２２としてＮＡＭマイクを用いたがこれに限られるものではない。例えば、ピエゾマイクを接触型マイク１２２として用いることも可能である。なお、接触型マイク１２２は、機械的な振動を検出するため、受音部を物体に接触させた状態で用いるタイプのものであれば、これら以外のマイクであってもよい。接触型マイク１２２の受音部３０にはソフトシリコーン３３以外の軟弾性材料を用いることができる。また、音声検出マイク１２１はコンデンサーマイクに限られるものではなく、例えば、ムービングコイル型やリボン型のダイナミックマイク、あるいはカーボンマイクなどの様々なマイクを用いることができる。

さらに、音声検出マイク１２１を複数設けても良い。例えば、音声検出マイク１２１をマイクロフォンアレイにしてもよい。この場合、音声の受音方向に応じてアレイ状に配列されたマイクロフォンの受音信号の位相を同期させてもよい。これにより、信号成分（Ｓ）が強調されるため、より正確に音声認識を行なうことができる。

次に、上記の音声認識装置によって、単語を認識した結果を簡単に説明する。なお、以下に説明する測定結果は、移動体１００であるロボットが静止した状態において、単語認識を行なったときの結果である。ここでは、ユーザが単語を発声した時の単語正解精度の測定を行なった時の結果について説明する。なお、単語正解精度とは、単語を発生し、発声した単語がテキストとして正確に認識される確率を示している。雑音減算処理を行わない場合、単語正解精度は、６４．７％であった。なお、この場合の音声検出マイクの数は１つである。また、雑音減算処理では、音声検出マイク１２１として、４個のマイクを用いた場合（以下、４マイク）と８個のマイクを用いた場合（以下、８マイク）の２通りの測定を行なった。接触型マイク１２２としてＮＡＭマイクロフォンを用いた場合、単語正解精度は６９．０６％、６８．４４％であった。また、接触型マイク１２２の代わりに接触型ではないコンデンサーマイクロフォンを用いて上記の雑音減算処理を行った場合、単語正解精度は、６６．９９％（４マイク）、６６．１５％（８マイク）であった。従って、ＮＡＭマイクロフォンを接触型マイク１２２として用いることにより、単語正確精度を向上することができた。なお、上記の測定において、単語正解精度の上限値は、７６．０４％である。

上記の音声認識装置は、ロボットや車などの移動体１００に好適である。すなわち、雑音が急激かつ頻繁に変化するような移動体１００でも、正確に音声認識を行なうことができる。この場合、移動体１００に設けられた駆動機構が駆動すると振動が発生するため、この駆動機構が振動源３６となる。従って、駆動機構に対して、接触型マイク１２２を取り付けることが好ましい。駆動機構としては、ロボットを駆動するためのモータ１３１や、自動車の動力機構であるエンジンなどがある。例えば、接触型マイク１２２をエンジンやモータなどに接触させる。あるいは、接触型マイク１２２を、振動源３６に連結されている剛体と接触させてもよい。例えば、モータ１３１のカバーや、モータが固定されている移動体１００の筐体３に接触させてもよい。この場合、接触型マイク１２２を音声検出マイク１２１の近傍に配置することができる。そのため、音声検出マイク１２１で検出される雑音成分と同じ雑音成分を接触型マイク１２２で検出することができる。なお、自動車に音声認識装置を搭載する場合、例えば、接触型マイク１２２をエンジンカバーに接触させる。もちろん、ハイブリッド自動車や電気自動車に設けられているモータやモータカバーに接触型マイク１２２を取り付けてもよい。また、１つの移動体１００の振動源３６毎に接触型マイク１２２と取り付けてもよい。そした、複数の接触型マイク１２２からの信号に基づいて雑音減算処理を行ってもよい。すなわち、ロボットが複数のモータ１３１を有する場合、それぞれのモータ１３１に対して接触型マイク１２２を取り付けてもよい。そして、音声検出マイク１２１で外部環境の音を受音し、接触型マイク１２２でロボット内部のモータの音を受音する。そして、上記の雑音低減処理を行った後、外部環境から得られる音声の内容を認識する。このような音声認識装置を自動車にカーナビゲーションシステムに用いることで、確実に操作を行なうことができる。よって、カーナビゲーションシステムの利便性を向上することができる。

本発明の実施の形態にかかる移動体の構成を示す図である。本発明の実施の形態にかかる移動体の制御部の構成を示すブロック図である。本発明の実施の形態にかかる移動体に用いられるＮＡＭマイクの構成を示す側面断面図である。本発明の実施の形態にかかる移動体の音声認識装置の構成を示すブロック図である。本発明の実施の形態にかかる移動体の音声認識モジュールに用いられるフィルタバンクを示す図である。本発明の実施の形態１の移動体のフィルタバンク出力での誤差を示す図である。

符号の説明

２車輪、３筐体
１２音声認識モジュール、１３音声発話モジュール、
２１周波数変換部、２２フィルタバンク分析部、２３雑音成分減算部、
２４認識特徴量変換部、２５音声認識部、１００移動体
１０１制御部、１０２入出力部、１０３駆動部、１０４電源部、
１０５外部記憶部、１２１音声検出マイク、１２２接触型マイク、
１２３スピーカ、１２４ＬＥＤ、１２５センサ部、１３１モータ、
１３２ドライバ、１４３バッテリ、１４４バッテリ制御部

Claims

第１のマイクと、
受音側を接触させて用いる接触型の第２のマイクと、
前記第１のマイクから出力された第１の受音信号と、前記第２のマイクから出力された第２の受音信号とに基づいて音声を認識する音声認識モジュールと、を備える音声認識装置であって、
前記音声認識モジュールが、
前記第１の受音信号を周波数領域に変換して第１のスペクトルを算出し、かつ前記第２の受音信号を周波数領域に変換して第２のスペクトルを算出する周波数変換部と、
前記第１のスペクトルに対してフィルタバンク分析を行い第１のフィルタバンク出力を算出し、かつ前記第２のスペクトルに対して前記フィルタバンク分析を行い第２のフィルタバンク出力を算出するフィルタバンク分析部と、
前記第１及び第２のフィルタバンク出力に基づいて雑音成分を減算して、雑音成分減算出力を算出する雑音成分減算部と、
前記雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部と、
前記音声認識特徴量に基づいて音声認識を行なう音声認識部と、を備えた音声認識装置。
前記雑音成分減算部が、同じタイミングの雑音成分を含む第１及び第２のフィルタバンク出力に基づいて雑音成分を減算することを特徴とする請求項１に記載の音声認識装置。
前記接触型マイクがＮＡＭマイクロフォンであることを特徴とする請求項１又は２に記載の音声認識装置。
前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第１及び第２のスペクトルの周波数領域における面積に基づいて前記第１及び第２のフィルタバンク出力が算出されていることを特徴とする請求項１乃至３のいずれかに記載の音声認識装置。
請求項１乃至４のいずれかに記載の音声認識装置を備える移動体。
振動源となる駆動機構を備え、
前記駆動機構に対して前記接触型マイクが取り付けられている請求項５に記載の移動体。
請求項１乃至４のいずれかに記載の音声認識装置を備えたロボットであって、
前記第１のマイクが外部環境の音を受音し、
前記第２のマイクがロボット内部の音を受音し、
前記第１のマイクからの第１の受音信号と、前記第２のマイクからの第２の受音信号とに基づいて、外部環境から得られた音声を認識することを特徴とするロボット。
前記ロボットを駆動するためのモータが前記ロボット内部に設けられ、
前記接触型マイクが前記モータに対して取り付けられていることを特徴とする請求項７に記載のロボット。
振動源となる動力機構を備え、
前記移動体が、前記動力機構としてのエンジンを備えた自動車であることを特徴とする請求項５に記載の移動体。
前記接触型マイクが前記自動車のエンジンに対して取り付けられていることを特徴とする請求項９に記載の移動体。
第１のマイクからの第１の受音信号を周波数領域に変化して、第１のスペクトルを算出するステップと、
受音側を接触させて用いる接触型の第２のマイクからの第２の受音信号を周波数領域に変換して、第２のスペクトルを算出するステップと、
前記第１のスペクトルにフィルタバンク分析を行い、第１のフィルタバンク出力を算出するステップと、
前記第２のスペクトルにフィルタバンク分析を行い、第２のフィルタバンク出力を算出するステップと、
前記第１及び第２のフィルタバンク出力に基づいて、雑音成分を減算して、雑音成分減算出力を算出するステップと、
前記雑音成分減算出力を音声認識特徴量に変換するステップと、
前記音声認識特徴量に基づいて音声認識を行なうステップとを備えた音声認識方法。
前記雑音成分減算出力を算出するステップでは、同じタイミングの雑音成分を含む第１及び第２のフィルタバンク出力に基づいて、雑音成分を減算することを特徴とする請求項１１に記載の音声認識方法。
前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第１及び第２のスペクトルの周波数領域における面積に基づいて前記第１及び第２のフィルタバンク出力が算出されていることを特徴とする請求項１１又は１２に記載の音声認識方法。