JP2008085613A - 音声認識装置、音声認識方法、移動体、及びロボット - Google Patents

音声認識装置、音声認識方法、移動体、及びロボット Download PDF

Info

Publication number
JP2008085613A
JP2008085613A JP2006262865A JP2006262865A JP2008085613A JP 2008085613 A JP2008085613 A JP 2008085613A JP 2006262865 A JP2006262865 A JP 2006262865A JP 2006262865 A JP2006262865 A JP 2006262865A JP 2008085613 A JP2008085613 A JP 2008085613A
Authority
JP
Japan
Prior art keywords
microphone
filter bank
noise component
speech recognition
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006262865A
Other languages
English (en)
Other versions
JP5109319B2 (ja
Inventor
Seisho Watabe
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2006262865A priority Critical patent/JP5109319B2/ja
Publication of JP2008085613A publication Critical patent/JP2008085613A/ja
Application granted granted Critical
Publication of JP5109319B2 publication Critical patent/JP5109319B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】
正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供する。
【解決手段】
本発明にかかる音声認識装置は、音声検出マイク121と、接触型マイク122と、受音信号とに基づいて音声を認識する音声認識モジュール12と、を備える音声認識装置であって、音声認識モジュール12が、受音信号を周波数領域に変換してスペクトルを算出する周波数変換部21と、スペクトルに対してフィルタバンク分析を行いフィルタバンク出力を算出するフィルタバンク分析部22と、フィルタバンク出力に基づいて雑音成分減算出力を算出する雑音成分減算部23と、雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部24と、音声認識特徴量に基づいて音声認識を行なう音声認識部25と、を備えたものである。
【選択図】 図4

Description

本発明は、音声認識装置、音声認識方法、移動体、及びロボットに関し、特に詳しくは音声認識装置、及び音声認識方法、並びにその音声認識装置を用いた移動体、ロボットに関する。
利用者が発した音声に基づいて音声を認識して処理を行う音声認識装置が利用されている。このような音声認識装置では、利用者が発した音声を認識して、認識された音声情報に応じた処理を行っている。例えば、カーナビゲーションシステムでは、利用者が発した地名を認識して、その地名を目的地として設定する。あるいは、ロボットでは、ユーザが発した音声に応じて、所定の応答がなされる。このような音声処理装置では、利用者が発した音声に加えて、周囲の雑音(ノイズ)がマイクロフォンに受音されてしまう。従って、この雑音を除去することで、利用者が発した音声を正確に認識することができる。
このような雑音を低減するためのノイズ低減方法が開示されている(特許文献1参照)。このノイズ低減方法では、音声を受音するマイクとともに、振動を検出するセンサが使用されている。また、センサの出力信号からノイズ帯域を抽出するノイズ抽出手段が設けられている。そして、ノイズ抽出手段からの出力信号を参照入力信号とする時間領域の適応フィルタを用いて、マイクの出力信号からノイズを低減している。さらに、この時間領域の適応フィルタを更新して、ノイズを低減している。
特開2005−57437号公報
しかしながら、特許文献1のノイズ低減方法では、時間領域の適応フィルタを用いるため、フィルタ更新頻度、及び雑音推定精度の条件がシビアになる。よって、演算処理の負荷が大きくなり、リアルタイムの処理を行うことが困難になってしまうという問題点がある。さらに、上記のノイズ低減方法をロボットや車などの移動体に用いた場合、音声認識を誤ってしまうことがある。すなわち、ロボットや車などの移動体では、移動体の移動に伴って、ノイズが急激かつ頻繁に変化する。例えば、ロボットが歩行する、首を振る、車が加減速するタイミングでは、ノイズが急激に発生する。従って、上記の時間領域の適応フィルタでは、原信号に歪みが生じ、音声が誤認識されてしまうという問題点がある。
本発明は、かかる課題を解決するためになされたものであり、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することを目的とする。
本発明の第1の態様にかかる音声認識装置は、第1のマイクと、受音側を接触させて用いる接触型の第2のマイクと、前記第1のマイクから出力された第1の受音信号と、前記第2のマイクから出力された第2の受音信号とに基づいて音声を認識する音声認識モジュールと、を備える音声認識装置であって、前記音声認識モジュールが、前記第1の受音信号を周波数領域に変換して第1のスペクトルを算出し、かつ前記第2の受音信号を周波数領域に変換して第2のスペクトルを算出する周波数変換部と、前記第1のスペクトルに対してフィルタバンク分析を行い第1のフィルタバンク出力を算出し、かつ前記第2のスペクトルに対して前記フィルタバンク分析を行い第2のフィルタバンク出力を算出するフィルタバンク分析部と、前記第1及び第2のフィルタバンク出力に基づいて雑音成分を減算して、雑音成分減算出力を算出する雑音成分減算部と、前記雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部と、前記音声認識特徴量に基づいて音声認識を行なう音声認識部と、を備えたものである。これにより、簡便に音声を認識することができる。
本発明の第2の態様にかかる音声認識装置は、上記の音声認識装置であって、前記雑音成分減算部が、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて雑音成分を減算することを特徴とするものである。これにより、より正確に音声を認識することができる。
本発明の第3の態様にかかる音声認識装置は、上記の音声認識装置であって、前記接触型マイクがNAMマイクロフォンであることを特徴とするものである。これにより、雑音成分を効果的に除去することができる。
本発明の第4の態様にかかる音声認識装置は、上記の音声認識装置であって、前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とするものである。
本発明の第5の態様にかかる移動体は、上記の音声認識装置を備えるものである。これにより、移動体における音声認識を簡便に行なうことができる。
本発明の第6の態様にかかる移動体は、上記の移動体であって、振動源となる駆動機構を備え、前記駆動機構に対して前記接触型マイクが取り付けられているものである。これにより、振動が急激に変化する場合でも、雑音成分を効果的に除去することができる。
本発明の第7の態様にかかるロボットは、上記の音声認識装置を備えたロボットであって、前記第1のマイクが外部環境の音を受音し、前記第2のマイクがロボット内部の音を受音し、前記第1のマイクからの第1の受音信号と、前記第2のマイクからの第2の受音信号とに基づいて、外部環境から得られた音声を認識することを特徴とするものである。これにより、ロボットにおける音声認識を簡便に行なうことができる。
本発明の第8の態様にかかるロボットは、上記のロボットであって、前記ロボットを駆動するためのモータが前記ロボット内部に設けられ、前記接触型マイクが前記モータに対して取り付けられているものである。これにより、モータ駆動に起因する雑音成分を効果的に除去することができる。
本発明の第9の態様にかかる移動体は、上記の移動体であって、振動源となる動力機構を備え、前記移動体が、前記動力機構としてエンジンを備えた自動車であることを特徴とするるものである。これにより、自動車における音声認識を簡便に行なうことができる。
本発明の第10の態様にかかる移動体は、上記の移動体であって、前記接触型マイクが前記自動車のエンジンに対して取り付けられていることを特徴とするものである。これにより、エンジンに駆動に起因する雑音成分を効果的に除去することができる。
本発明の第11の態様にかかる音声認識方法は、第1のマイクからの第1の受音信号を周波数領域に変化して、第1のスペクトルを算出するステップと、受音側を接触させて用いる接触型の第2のマイクからの第2の受音信号を周波数領域に変換して、第2のスペクトルを算出するステップと、前記第1のスペクトルにフィルタバンク分析を行い、第1のフィルタバンク出力を算出するステップと、前記第2のスペクトルにフィルタバンク分析を行い、第2のフィルタバンク出力を算出するステップと、前記第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算して、雑音成分減算出力を算出するステップと、前記雑音成分減算出力を音声認識特徴量に変換するステップと、前記音声認識特徴量に基づいて音声認識を行なうステップとを備えたものである。
本発明の第12の態様にかかる音声認識方法は、上記の音声認識方法であって、前記雑音成分減算出力を算出するステップでは、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算することを特徴とするものである。これにより、より正確に音声を認識することができる。
本発明の第13の態様にかかる音声認識方法は、上記の音声認識方法であって、前記フィルタバンクに含まれるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とするものである。これにより、簡便に雑音除去することができる。
本発明によれば、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することができる。
本実施の形態にかかる移動体について図1を用いて説明する。図1は移動体の構成を模式的に示す外観図である。本実施の形態では、移動体100が、ユーザが発した音声に基づいて応答する対話ロボットとして説明する。移動体100は、車輪2と、筐体3と、を備えている。そして、筐体3の内部には、車輪2と接続されたモータが設けられている。このモータが移動体100を移動させるための駆動機構となる。モータを駆動することによって、車輪2が回転して、移動体100が移動する。さらに、移動体100は、音声検出マイク121、及び接触型マイク122を備えている。音声検出マイク121、及び接触型マイク122からの受音信号に基づいて音声認識処理を行う。そして、図示しないスピーカによって、認識された音声に応じた応答を返す。
次に、移動体100の制御系について図2を用いて説明する。移動体100は、制御部101、入出力部102、駆動部103、電源部104、及び外部記憶部105などを有している。これらは、例えば、筐体3の内部に設けられている。
入出力部102は、周囲の音を受音するための音声検出マイク121、及び接触型マイク122を備えている。さらに、移動体100は、音声を出力してユーザと対話等を行なうためのスピーカ123、ユーザへの応答や感情等を表現するためのLED124、タッチセンサなどからなるセンサ部125などを備える。
駆動部103は、モータ131及びモータ131を駆動するドライバ132などを有し、ユーザの指示などに従って車輪2を回転させる。これにより、移動体100が所定の位置まで移動する。モータ131は移動体100の内部に取り付けられている。電源部104は、バッテリ141及びその放充電を制御するバッテリ制御部142を有し、各部に電源を供給する。
外部記憶部105は、着脱可能なHDD、光ディスク、光磁気ディスク等からなり、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じて制御部101内のメモリ(不図示)等に供給する。
制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信用のインターフェースなどを有し、移動体100の各種動作を制御する。そして、この制御部101は、例えばROMに格納された制御プログラムに従って音声認識を行なう音声認識モジュール12、認識結果に基づきユーザに発話動作をする音声発話モジュール13を有する。
次に、音声検出マイク121と接触型マイク122の一例について説明する。例えば、音声検出マイク121として、コンデンサーマイクロフォンを用いることができる。音声検出マイク121は、ユーザの発した音声を受音する。すなわち、音声検出マイク121は空気振動を検出して、空気を伝播した音声を受音する。そして、音声検出マイク121は受音した音声に基づく受音信号を出力する。しかしながら、音声検出マイク121は、モータ131などによって発生する機械的な振動も検出してしまう。すなわち、モータ131が回転することによって発生する機械的な振動が空気を伝播して、音声検出マイク121で検出されてしまう。そこで、周囲の雑音(ノイズ)を低減するために接触型マイク122が設けられている。接触型マイク122は受音部が接触された状態で使用されるものである。この接触型マイク122として、例えば、NAM(Non-Audible Murmur)マイクロフォンが用られる。NAMマイクである接触型マイク122は、通常の音声に加えて、非可聴つぶやき音を受音することができる。この接触型マイク122の構成について図3を用いて説明する。図3は、接触型マイク122の構成を示す側面断面図である。
接触型マイク122は、遮音カバー31と、ゴム32と、ソフトシリコーン33と、コンデンサーマイクロフォン34と、導線35とを備えている。コンデンサーマイクロフォン34は所定の間隔を隔てた2枚の電極を有している。そして、コンデンサーマイクロフォン34は、電極間容量の変化で音声振動を検知する。すなわち、振動が加わると、コンデンサーマイクロフォン34の電極間距離が変化する。これにより、コンデンサーの容量が変化するため、音声振動を検知することができる。コンデンサーマイクロフォン34の反受音側からは、導線35が延びている。この導線35は複数設けられている。そして、導線35を介して、コンデンサーマイクロフォン34に所定の電圧を印加する。これにより、導線35を介してコンデンサーマイクロフォン34からの出力信号が電気信号として伝達される。コンデンサーマイクロフォン34の受音側には、ソフトシリコーン33が設けられている。そして、ソフトシリコーン33とコンデンサーマイクロフォン34とを収納するように遮音カバー31が設けられている。遮音カバー31は、例えば、金属、又は樹脂で形成される。遮音カバー31の受音側は開口している。遮音カバー31とソフトシリコーン33との間には、ゴム32が設けられている。なお、遮音カバー31とソフトシリコーン33の間には、ゴム32の代わりに外部雑音を防音するための空間が形成されていてもよい。この遮音カバー31によって、外部雑音が遮断される。
ここで、遮音カバー31の受音側が開口されているため、接触型マイク122の受音側ではソフトシリコーン33が露出している。このソフトシリコーン33が露出している部分を受音部30とする。接触型マイク122は、受音部30が対象物に接触した状態で使用される。本実施の形態では、雑音を検出するため、振動源36に受音部30を接触させる。振動源36が機械的に駆動すると、空気が振動するため、音声に対する雑音が発生する。この、機械的振動による雑音を効率よく検出するため、接触型マイクを振動源36に直接接触させる。従って、振動源36で発生した機械的振動は、ソフトシリコーン33を伝播して、コンデンサーマイクロフォン34で検出される。接触型マイク122は、受音部30に対する機械的な振動を検出している。
このように、接触型マイク122を振動源36と接触させる。ここで、本実施の形態にかかる移動体100では、駆動用のモータ131が振動源36となる。すなわち、モータ131が駆動すると、モータ131の回転によって空気が振動して雑音が発生する。この雑音は、音声検出マイク121に検出されてしまう。モータ131による雑音を除去するため、接触型マイク122を用いている。モータ131で発生する機械的振動が空気を介さずに、接触型マイク122で検出される。これにより、雑音を効率よく受音することができる。なお、接触型マイク122は、振動源36に対して取り付けられていればよく、例えば、振動源36となるモータ131に、剛体を介して接触させてもよい。具体的には、モータ131をモータカバーなどで囲む場合、接触型マイク122をモータカバーに接触させてもよい。
ここで、本実施の形態にかかる移動体100は、ユーザ又はオペレータの呼びかけ等の音声を認識し、音声認識結果に基づき応答する対話ロボットである。そして、上記の音声検出マイク121、接触型マイク122、及び音声認識モジュール12が音声認識装置を構成する。次に、本実施の形態にかかる音声認識装置について図3を用いて説明する。
図4は、音声認識装置の構成を示すブロック図である。音声認識装置は、音声検出マイク121と、接触型マイク122と、音声認識モジュール12とを備えている。音声認識モジュール12は、周波数変換部21、フィルタバンク分析部22、雑音成分減算部23、及び認識特徴量変換部24を備え、音声検出マイク121、及び接触型マイク122からの受音信号に対して所定の処理を行う。なお、音声検出マイク121から出力される信号を第1の受音信号とし、接触型マイク122から出力される受音信号を第2の受音信号とする。もちろん、受音信号は、アンプなどによって増幅されていてもよい。
周波数変換部21は、周波数変換部21a、及び周波数変換部21aを備えている。音声検出マイク121から出力された第1の受音信号は、周波数変換部21aで周波数領域に変換され、接触型マイク122から出力された第2の受音信号は、周波数変換部21bで周波数領域に変換される。例えば、周波数変換部21は、受音信号をAD変換してデジタル信号にする。そして、デジタル化された離散的な受音信号に、離散フーリエ変換(DFT)を行なう。例えば、周波数変換部21は、高速フーリエ変換(FFT)を行い、受音信号を周波数領域に変換する。これにより、受音信号のパワースペクトルが得られる。なお、第1の受音信号対応するパワースペクトルを第1のパワースペクトルとし、第2の受音信号に対応するパワースペクトルを第2のパワースペクトルとする。
フィルタバンク分析部22は、複数のフィルタを有するフィルタバンクを用いて、パワースペクトルに対するフィルタバンク分析を行う。具体的には、フィルタバンク分析部22aが第1のパワースペクトルに対してフィルタバンク分析を行い、フィルタバンク分析部22bが第2のパワースペクトルに対してフィルタバンク分析を行う。例えば、周波数変換部21において、図5に示すパワースペクトルが得られたとする。なお、図5では、横軸が周波数f(Hz)を示し、縦軸が信号強度(dB)を示している。そして、図5に示す三角形状のメルフィルタ(三角窓)を複数するフィルタバンクを用いて、フィルタバンク分析を行う。ここで、メルフィルタは、メル周波数上で等間隔に配置される。メル周波数とは、音の高低に対する人間の感覚尺度であり、次の式で表される。
Mel(f)=2595log10(1+f/700)
図5では、4つのメルフィルタが示されている。4つのメルフィルタはメル周波数上で等間隔に配置されている。そのため、実際の周波数上では周波数が高くなる程、三角形の底辺が長くなる。すなわち、周波数が高くなる程、1つのフィルタに含まれる帯域が広くなる。従って、高周波領域に対して鈍感になる。フィルタバンクに含まれる各フィルタは隣のフィルタの一部と重複する帯域を有している。このように、フィルタバンク分析部22は異なる特性を有する複数のフィルタを用いてフィルタ処理を行う。なお、フィルタバンクに含まれるフィルタの数は4に限られるものではない。実際には10〜数10個のフィルタを用いることができる。例えば、12個のフィルタを用いて、0Hz〜8Hzまでを12の帯域に分割している。また、メルフィルタ以外のフィルタを用いてフィルタバンク分析を行ってもよい。
フィルタバンク分析部22は、パワースペクトルに対してフィルタバンク出力を求める。そのため、フィルタバンク分析部22は、スペクトルパワー和を算出する。そのため、フィルタバンク分析部22は、まず、パワースペクトルに対して各フィルタでフィルタ処理を行なう。すなわち、フィルタである三角窓によってパワースペクトルに重み付けを行なう。具体的には、三角形状のフィルタと、そのフィルタに含まれるパワースペクトルの値との積を離散的に求める。すなわち、フィルタに含まれる周波数毎に、信号強度とフィルタの積が算出される。ここでは、フィルタに含まれる離散的なパワースペクトルの値の数だけ、積が算出される。さらに、フィルタバンク分析部22は、フィルタに含まれる帯域全体における積を足し合わせる。この積の和がスペクトルパワー和となる。従って、各フィルタ毎に、パワースペクトルに応じた一つのスペクトルパワー和が算出される。例えば、4つのフィルタを用いたフィルタバンク分析では、4つのスペクトルパワー和が算出される。そして、この4つのスペクトルパワー和がフィルタバンク出力となる。なお、スペクトルパワー和は、フィルタ処理されたパワースペクトルの周波数領域における面積を示してる。従って、スペクトルパワー和は、フィルタ処理されたパワースペクトルの周波数領域における面積に基づいた値となる。
このように、フィルタバンク分析部22は、パワースペクトルに対してフィルタバンク分析を行い、フィルタバンク出力を算出する。ここで、第1のパワースペクトルに対するフィルタバンク出力を第1のフィルタバンク出力とし、第2のパワースペクトルに対するフィルタバンク出力を第2のフィルタバンク出力とする。なお、フィルタバンク分析部22aとフィルタバンク分析部22bとでは、同じフィルタバンクが用いられている。よって、第1及び第2のフィルタバンク出力には、同じ数のスペクトルパワー和が含まれる。フィルタバンク出力に含まれるスペクトルパワー和は、受音信号の特徴に基づく(メル)周波数領域の成分となる
ここで、図4の説明に戻る。第1及び第2のフィルタバンク出力は、雑音成分減算部23に入力される。雑音成分減算部23は、第1のフィルタバンク出力から第2のフィルタバンク出力を成分減算することによって、第1のフィルタバンク出力から雑音成分を減算している。すなわち、雑音成分減算部23は、雑音を低減するため、スペクトルパワー和の差を算出している。ここでは、対応するフィルタ毎に差が算出される。従って、フィルタバンク出力に含まれるスペクトルパワー和の数だけ、差が算出される。第1及び第2のフィルタバンク出力の差を雑音成分減算出力とする。例えば、各フィルタバンク出力に4つのスペクトルパワー和が含まれる場合、雑音成分減算出力には、4つの差が含まれる。
ここで、第2のフィルタバンク出力は、接触型マイク122からの受音信号に基づくものとなっている。接触型マイク122は、振動源36と接触した状態で配置される。このため、接触型マイク122からの第2の受音信号はユーザの発した音声に比べて雑音による振動の強度が高くなっている。すなわち、第2の受音信号では、実際に認識したいユーザの音声に基づく信号成分(S)の影響は小さく、雑音成分(N)の影響が支配的になっている。一方、音声検出マイク121は、受音部が物体と接触していないコンデンサーマイクであるため、空気の振動を検出する。第1の受音信号では、ユーザの発した音声と雑音による振動とが同程度になる。すなわち、第1の受音信号では、信号成分(S)、及び雑音成分(N)が同様に影響を与える。雑音発生時の第1の受音信号には、信号成分(S)と雑音成分(N)とが同程度に含まれる。第2の受音信号では、雑音成分(N)の影響が支配的になっている。従って、第1の受音信号に対応する第1のフィルタバンク出力から第2の受音信号に対応する第2のフィルタバンク出力を減算すると、雑音成分(N)が低減される。このように、タイプの異なる2つのマイクを用いることによって、簡便に信号成分(S)から雑音成分(N)を減算することができる。
なお、雑音成分減算部23で減算処理される第1及び第2のフィルタバンク出力には、同じタイミングにおける雑音成分が含まれていることが好ましい。すなわち、第1のフィルタバンク出力に含まれる雑音成分(N)が第2のフィルタバンク出力にも含まれるように、タイミングを調整している。例えば、音声検出マイク121と接触型マイク122の間の距離に応じて、第2の受音信号を遅延させて、同期させている。これにより、第1及び第2のフィルタバンク出力に同じタイミングでの雑音成分が含まれるようになり、確実に雑音成分(N)を除去することができる。従って、モータ131の動作に応じて雑音が急激かつ頻繁に変化した場合でも、雑音成分を確実に除去することが可能となる。
このように、雑音成分減算部23はフィルタバンク出力に基づいて雑音成分減算処理を行っている。フィルタバンク出力を用いることによって、雑音成分減算の誤差を低減することができる。例えば、図6に示すように、実際に認識したい音声による信号成分(S)のスペクトルの真値を真値スペクトルStとし、第1のパワースペクトルと第2のパワースペクトルとに基づいて推定された信号成分(S)のスペクトルを推定スペクトルSpとする。具体的には、理想的な状態で音声のみを受音した時のスペクトルが真値スペクトルStとなり、第1のパワースペクトルと第2のパワースペクトルとの差が推定スペクトルSpとなる。なお、真値スペクトルStと推定スペクトルSpは、フィルタバンクによってフィルタ処理されたものである。ここで、真値スペクトルStと推定スペクトルSpとの間には、様々な要因から誤差が生じている。例えば、A、B、Cの周波数においては、推定スペクトルSpの値と真値スペクトルStの値にずれが生じている。しかしながら、雑音成分減算部23では、スペクトルパワー和に基づいて雑音成分を減算している。これにより、各周波数での誤差が相殺され、誤差を低減することができる。すなわち、フィルタバンク分析部22でスペクトルパワー和を求めているため、各周波数での誤差が相殺される。よって、各周波数での誤差が累積されることがなくなり、誤差が大きくなるのを防ぐことができる。よって、正確に雑音成分を除去することができる。
このように、雑音成分減算部23はフィルタバンク出力に基づいて雑音成分減算処理を行っている。そして、図4に示すように、雑音成分減算部23は雑音成分減算出力を認識特徴量変換部24に出力する。認識特徴量変換部24では、雑音成分減算出力を音声認識特徴量に変換する。そして、後述する音声認識部25は、この音声認識特徴量に基づいて音声を認識する。ここでは、音声認識特徴量としてMFCC(Mel Frequency Cepstrum Coefficient)を算出する。具体的には、スペクトルパワー和の対数(log)を取り、離散コサイン変換(DCT)を行なう。これにより、メル周波数領域のケプストラム係数を算出される。このような処理を行うことによって、MFCCが音声認識特徴量となる。従って、第1及び第2の受音信号から音声認識特徴量が抽出される。
音声認識部25は、音声認識特徴量に基づいて音声認識を行なう。具体的には、MFCCに基づいてユーザが発した音声の単語等の認識を行なう。例えば、音素に応じたテンプレートを予め複数登録させておく。複数のテンプレートは、例えば、外部記憶部105にデータベースとして記憶されている。音声認識部25は、雑音成分減算部23からの音声認識特徴量がこのテンプレートにマッチングするか否かを判定する。これにより、ユーザが発生した音声をテキストとして認識することができる。さらに、上記の処理を所定の時間間隔(フレーム周期)毎に繰り返し行う。これにより、ユーザの発した単語等をテキストとして認識することができる。なお、音声認識特徴量から音声認識を行なう方法としては、公知の方法を用いることができ、必要に応じて適当な処理方法が選択される。
このように、本実施の形態では、フィルタバンク出力の差である雑音成分減算出力を音声認識特徴量に直接変換するため、雑音減算による遅延が非常に小さい。すなわち、スペクトルを再度時間領域に逆フーリエ変換することなく処理しているため、雑音減算処理に起因する遅延を小さくすることが可能となる。従って、同時刻の受音信号によって雑音低減することが可能になる。さらに、メル周波数領域のスペクトルパワー和が音声認識特徴量として用いられるため、処理負荷の増大を低減することができる。例えば、フィルタバンク分析では、100未満のパラメータで処理が行われ、通常、多くとも数十程度のパラメータで処理が行われる。一方、従来技術の時間領域の適応フィルタを用いた場合、更新パラメータ数は、数百〜数千(典型的には、512〜2048)である。従って、リアルタイムでの雑音減算が可能となる。これにより、雑音が急激かつ頻繁に変化した場合でも、確実に雑音を除去することが可能となる。従って、急激に動作するモータ131を振動源として備える移動体100に好適である。また、フィルタバンク処理であるため、細かな周波数帯の誤差の和が、フィルタバンク出力の誤差とは一致しない。そのため、厳密な雑音推定ができなくても音声認識精度の低下を防ぐことができる。このように、本実施の形態では、簡便かつ確実に雑音除去を行なうことができる。従って、音声認識の精度を向上することができる。さらに、各フィルタにおけるスペクトルパワー和に基づいて雑音成分減算を行なっているため、処理負荷が小さい。従って、リアルタイムでの雑音除去に好適である。
なお、上記の説明では、受音信号をメル周波数に変換したが、これに限るものではない。例えば、線形周波数に変換してもよい。また、フィルタとして三角窓を用いたが、これに限られるものではない。例えば、ハミング窓を用いることができる。
接触型マイク122としてNAMマイクを用いたがこれに限られるものではない。例えば、ピエゾマイクを接触型マイク122として用いることも可能である。なお、接触型マイク122は、機械的な振動を検出するため、受音部を物体に接触させた状態で用いるタイプのものであれば、これら以外のマイクであってもよい。接触型マイク122の受音部30にはソフトシリコーン33以外の軟弾性材料を用いることができる。また、音声検出マイク121はコンデンサーマイクに限られるものではなく、例えば、ムービングコイル型やリボン型のダイナミックマイク、あるいはカーボンマイクなどの様々なマイクを用いることができる。
さらに、音声検出マイク121を複数設けても良い。例えば、音声検出マイク121をマイクロフォンアレイにしてもよい。この場合、音声の受音方向に応じてアレイ状に配列されたマイクロフォンの受音信号の位相を同期させてもよい。これにより、信号成分(S)が強調されるため、より正確に音声認識を行なうことができる。
次に、上記の音声認識装置によって、単語を認識した結果を簡単に説明する。なお、以下に説明する測定結果は、移動体100であるロボットが静止した状態において、単語認識を行なったときの結果である。ここでは、ユーザが単語を発声した時の単語正解精度の測定を行なった時の結果について説明する。なお、単語正解精度とは、単語を発生し、発声した単語がテキストとして正確に認識される確率を示している。雑音減算処理を行わない場合、単語正解精度は、64.7%であった。なお、この場合の音声検出マイクの数は1つである。また、雑音減算処理では、音声検出マイク121として、4個のマイクを用いた場合(以下、4マイク)と8個のマイクを用いた場合(以下、8マイク)の2通りの測定を行なった。接触型マイク122としてNAMマイクロフォンを用いた場合、単語正解精度は69.06%、68.44%であった。また、接触型マイク122の代わりに接触型ではないコンデンサーマイクロフォンを用いて上記の雑音減算処理を行った場合、単語正解精度は、66.99%(4マイク)、66.15%(8マイク)であった。従って、NAMマイクロフォンを接触型マイク122として用いることにより、単語正確精度を向上することができた。なお、上記の測定において、単語正解精度の上限値は、76.04%である。
上記の音声認識装置は、ロボットや車などの移動体100に好適である。すなわち、雑音が急激かつ頻繁に変化するような移動体100でも、正確に音声認識を行なうことができる。この場合、移動体100に設けられた駆動機構が駆動すると振動が発生するため、この駆動機構が振動源36となる。従って、駆動機構に対して、接触型マイク122を取り付けることが好ましい。駆動機構としては、ロボットを駆動するためのモータ131や、自動車の動力機構であるエンジンなどがある。例えば、接触型マイク122をエンジンやモータなどに接触させる。あるいは、接触型マイク122を、振動源36に連結されている剛体と接触させてもよい。例えば、モータ131のカバーや、モータが固定されている移動体100の筐体3に接触させてもよい。この場合、接触型マイク122を音声検出マイク121の近傍に配置することができる。そのため、音声検出マイク121で検出される雑音成分と同じ雑音成分を接触型マイク122で検出することができる。なお、自動車に音声認識装置を搭載する場合、例えば、接触型マイク122をエンジンカバーに接触させる。もちろん、ハイブリッド自動車や電気自動車に設けられているモータやモータカバーに接触型マイク122を取り付けてもよい。また、1つの移動体100の振動源36毎に接触型マイク122と取り付けてもよい。そした、複数の接触型マイク122からの信号に基づいて雑音減算処理を行ってもよい。すなわち、ロボットが複数のモータ131を有する場合、それぞれのモータ131に対して接触型マイク122を取り付けてもよい。そして、音声検出マイク121で外部環境の音を受音し、接触型マイク122でロボット内部のモータの音を受音する。そして、上記の雑音低減処理を行った後、外部環境から得られる音声の内容を認識する。このような音声認識装置を自動車にカーナビゲーションシステムに用いることで、確実に操作を行なうことができる。よって、カーナビゲーションシステムの利便性を向上することができる。
本発明の実施の形態にかかる移動体の構成を示す図である。 本発明の実施の形態にかかる移動体の制御部の構成を示すブロック図である。 本発明の実施の形態にかかる移動体に用いられるNAMマイクの構成を示す側面断面図である。 本発明の実施の形態にかかる移動体の音声認識装置の構成を示すブロック図である。 本発明の実施の形態にかかる移動体の音声認識モジュールに用いられるフィルタバンクを示す図である。 本発明の実施の形態1の移動体のフィルタバンク出力での誤差を示す図である。
符号の説明
2 車輪、3 筐体
12 音声認識モジュール、13 音声発話モジュール、
21 周波数変換部、22 フィルタバンク分析部、23 雑音成分減算部、
24 認識特徴量変換部、25 音声認識部、100移動体
101 制御部、102 入出力部、103 駆動部、104 電源部、
105 外部記憶部、121 音声検出マイク、122 接触型マイク、
123 スピーカ、124 LED、125 センサ部、131 モータ、
132 ドライバ、143 バッテリ、144 バッテリ制御部

Claims (13)

  1. 第1のマイクと、
    受音側を接触させて用いる接触型の第2のマイクと、
    前記第1のマイクから出力された第1の受音信号と、前記第2のマイクから出力された第2の受音信号とに基づいて音声を認識する音声認識モジュールと、を備える音声認識装置であって、
    前記音声認識モジュールが、
    前記第1の受音信号を周波数領域に変換して第1のスペクトルを算出し、かつ前記第2の受音信号を周波数領域に変換して第2のスペクトルを算出する周波数変換部と、
    前記第1のスペクトルに対してフィルタバンク分析を行い第1のフィルタバンク出力を算出し、かつ前記第2のスペクトルに対して前記フィルタバンク分析を行い第2のフィルタバンク出力を算出するフィルタバンク分析部と、
    前記第1及び第2のフィルタバンク出力に基づいて雑音成分を減算して、雑音成分減算出力を算出する雑音成分減算部と、
    前記雑音成分減算出力を音声認識特徴量に変換する認識特徴量変換部と、
    前記音声認識特徴量に基づいて音声認識を行なう音声認識部と、を備えた音声認識装置。
  2. 前記雑音成分減算部が、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて雑音成分を減算することを特徴とする請求項1に記載の音声認識装置。
  3. 前記接触型マイクがNAMマイクロフォンであることを特徴とする請求項1又は2に記載の音声認識装置。
  4. 前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とする請求項1乃至3のいずれかに記載の音声認識装置。
  5. 請求項1乃至4のいずれかに記載の音声認識装置を備える移動体。
  6. 振動源となる駆動機構を備え、
    前記駆動機構に対して前記接触型マイクが取り付けられている請求項5に記載の移動体。
  7. 請求項1乃至4のいずれかに記載の音声認識装置を備えたロボットであって、
    前記第1のマイクが外部環境の音を受音し、
    前記第2のマイクがロボット内部の音を受音し、
    前記第1のマイクからの第1の受音信号と、前記第2のマイクからの第2の受音信号とに基づいて、外部環境から得られた音声を認識することを特徴とするロボット。
  8. 前記ロボットを駆動するためのモータが前記ロボット内部に設けられ、
    前記接触型マイクが前記モータに対して取り付けられていることを特徴とする請求項7に記載のロボット。
  9. 振動源となる動力機構を備え、
    前記移動体が、前記動力機構としてのエンジンを備えた自動車であることを特徴とする請求項5に記載の移動体。
  10. 前記接触型マイクが前記自動車のエンジンに対して取り付けられていることを特徴とする請求項9に記載の移動体。
  11. 第1のマイクからの第1の受音信号を周波数領域に変化して、第1のスペクトルを算出するステップと、
    受音側を接触させて用いる接触型の第2のマイクからの第2の受音信号を周波数領域に変換して、第2のスペクトルを算出するステップと、
    前記第1のスペクトルにフィルタバンク分析を行い、第1のフィルタバンク出力を算出するステップと、
    前記第2のスペクトルにフィルタバンク分析を行い、第2のフィルタバンク出力を算出するステップと、
    前記第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算して、雑音成分減算出力を算出するステップと、
    前記雑音成分減算出力を音声認識特徴量に変換するステップと、
    前記音声認識特徴量に基づいて音声認識を行なうステップとを備えた音声認識方法。
  12. 前記雑音成分減算出力を算出するステップでは、同じタイミングの雑音成分を含む第1及び第2のフィルタバンク出力に基づいて、雑音成分を減算することを特徴とする請求項11に記載の音声認識方法。
  13. 前記フィルタバンク分析に用いられるフィルタでフィルタ処理された前記第1及び第2のスペクトルの周波数領域における面積に基づいて前記第1及び第2のフィルタバンク出力が算出されていることを特徴とする請求項11又は12に記載の音声認識方法。
JP2006262865A 2006-09-27 2006-09-27 音声認識装置、音声認識方法、移動体、及びロボット Expired - Fee Related JP5109319B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006262865A JP5109319B2 (ja) 2006-09-27 2006-09-27 音声認識装置、音声認識方法、移動体、及びロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006262865A JP5109319B2 (ja) 2006-09-27 2006-09-27 音声認識装置、音声認識方法、移動体、及びロボット

Publications (2)

Publication Number Publication Date
JP2008085613A true JP2008085613A (ja) 2008-04-10
JP5109319B2 JP5109319B2 (ja) 2012-12-26

Family

ID=39356019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006262865A Expired - Fee Related JP5109319B2 (ja) 2006-09-27 2006-09-27 音声認識装置、音声認識方法、移動体、及びロボット

Country Status (1)

Country Link
JP (1) JP5109319B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8755537B2 (en) 2010-10-07 2014-06-17 Toyota Jidosha Kabushiki Kaisha Microphone unit and sound collecting device
JP2018052425A (ja) * 2016-09-30 2018-04-05 本田技研工業株式会社 移動体制御装置、及び移動体
CN108682428A (zh) * 2018-08-27 2018-10-19 珠海市微半导体有限公司 机器人语音控制系统和机器人对语音信号的处理方法
CN112489669A (zh) * 2020-11-30 2021-03-12 北京融讯科创技术有限公司 一种音频信号处理方法、装置、设备和介质
CN116801456A (zh) * 2023-08-22 2023-09-22 深圳市创洺盛光电科技有限公司 Led灯具的智能化控制方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172900A (ja) * 1989-12-01 1991-07-26 Ricoh Co Ltd 音声コマンド入力装置
JPH0488400A (ja) * 1990-08-01 1992-03-23 Clarion Co Ltd 車載用音声認識装置
JPH1123358A (ja) * 1997-06-17 1999-01-29 Aerospat Soc Natl Ind 流体が流れるパイプ内のノイズを測定するための装置
JPH1185185A (ja) * 1997-09-05 1999-03-30 Oki Electric Ind Co Ltd 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
JP2001134286A (ja) * 1999-11-08 2001-05-18 Denso Corp 雑音抑圧装置、音声認識システム及び記録媒体
JP2001215990A (ja) * 2000-01-31 2001-08-10 Japan Science & Technology Corp ロボット聴覚装置
JP2002258893A (ja) * 2001-02-28 2002-09-11 Nippon Hoso Kyokai <Nhk> 雑音推定装置、雑音除去装置及び記憶媒体
JP2003195886A (ja) * 2001-12-26 2003-07-09 Sony Corp ロボット
JP2005309366A (ja) * 2004-03-25 2005-11-04 Nec Corp 信号処理方法および信号処理装置
JP2005326497A (ja) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、音声認識装置、音声認識プログラム、記録媒体
JP2006149805A (ja) * 2004-11-30 2006-06-15 Asahi Kasei Corp Nam音対応玩具装置、nam音対応玩具システム
JP2006163231A (ja) * 2004-12-10 2006-06-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP2006215228A (ja) * 2005-02-03 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2006243290A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172900A (ja) * 1989-12-01 1991-07-26 Ricoh Co Ltd 音声コマンド入力装置
JPH0488400A (ja) * 1990-08-01 1992-03-23 Clarion Co Ltd 車載用音声認識装置
JPH1123358A (ja) * 1997-06-17 1999-01-29 Aerospat Soc Natl Ind 流体が流れるパイプ内のノイズを測定するための装置
JPH1185185A (ja) * 1997-09-05 1999-03-30 Oki Electric Ind Co Ltd 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
JP2001134286A (ja) * 1999-11-08 2001-05-18 Denso Corp 雑音抑圧装置、音声認識システム及び記録媒体
JP2001215990A (ja) * 2000-01-31 2001-08-10 Japan Science & Technology Corp ロボット聴覚装置
JP2002258893A (ja) * 2001-02-28 2002-09-11 Nippon Hoso Kyokai <Nhk> 雑音推定装置、雑音除去装置及び記憶媒体
JP2003195886A (ja) * 2001-12-26 2003-07-09 Sony Corp ロボット
JP2005309366A (ja) * 2004-03-25 2005-11-04 Nec Corp 信号処理方法および信号処理装置
JP2005326497A (ja) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、音声認識装置、音声認識プログラム、記録媒体
JP2006149805A (ja) * 2004-11-30 2006-06-15 Asahi Kasei Corp Nam音対応玩具装置、nam音対応玩具システム
JP2006163231A (ja) * 2004-12-10 2006-06-22 Internatl Business Mach Corp <Ibm> 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP2006215228A (ja) * 2005-02-03 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2006243290A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8755537B2 (en) 2010-10-07 2014-06-17 Toyota Jidosha Kabushiki Kaisha Microphone unit and sound collecting device
JP2018052425A (ja) * 2016-09-30 2018-04-05 本田技研工業株式会社 移動体制御装置、及び移動体
US20180093625A1 (en) 2016-09-30 2018-04-05 Honda Motor Co., Ltd. Mobile unit control device and mobile unit
CN107878465A (zh) * 2016-09-30 2018-04-06 本田技研工业株式会社 移动体控制装置和移动体
US10569727B2 (en) 2016-09-30 2020-02-25 Honda Motor Co., Ltd. Mobile unit control device and mobile unit
CN108682428A (zh) * 2018-08-27 2018-10-19 珠海市微半导体有限公司 机器人语音控制系统和机器人对语音信号的处理方法
CN112489669A (zh) * 2020-11-30 2021-03-12 北京融讯科创技术有限公司 一种音频信号处理方法、装置、设备和介质
CN112489669B (zh) * 2020-11-30 2024-02-23 北京融讯科创技术有限公司 一种音频信号处理方法、装置、设备和介质
CN116801456A (zh) * 2023-08-22 2023-09-22 深圳市创洺盛光电科技有限公司 Led灯具的智能化控制方法

Also Published As

Publication number Publication date
JP5109319B2 (ja) 2012-12-26

Similar Documents

Publication Publication Date Title
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
US11475907B2 (en) Method and device of denoising voice signal
CN103229517B (zh) 包括多个音频传感器的设备及其操作方法
JP4868999B2 (ja) 音声認識方法、音声認識装置及びコンピュータプログラム
US8812312B2 (en) System, method and program for speech processing
JP5109319B2 (ja) 音声認識装置、音声認識方法、移動体、及びロボット
US9105270B2 (en) Method and apparatus for audio signal enhancement in reverberant environment
JP2011191423A (ja) 発話認識装置、発話認識方法
US20110301945A1 (en) Speech signal processing system, speech signal processing method and speech signal processing program product for outputting speech feature
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
Bharath et al. New replay attack detection using iterative adaptive inverse filtering and high frequency band
JP2008070878A (ja) 音声信号前処理装置、音声信号処理装置、音声信号前処理方法、及び音声信号前処理用のプログラム
JP2019020678A (ja) ノイズ低減装置および音声認識装置
JP2000310993A (ja) 音声検出装置
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
US20030046069A1 (en) Noise reduction system and method
JP4325044B2 (ja) 音声認識システム
JP2008070877A (ja) 音声信号前処理装置、音声信号処理装置、音声信号前処理方法、及び音声信号前処理用のプログラム
Higa et al. Robust ASR based on ETSI Advanced Front-End using complex speech analysis
JP5867209B2 (ja) 音除去装置、音検査装置、音除去方法、及び音除去プログラム
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
Thakur et al. Design of Hindi key word recognition system for home automation system using MFCC and DTW
JP5867199B2 (ja) 雑音推定装置、雑音推定方法及び雑音推定用コンピュータプログラム
JP7378770B2 (ja) 評価装置、評価方法、及び評価プログラム
JP2666296B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120924

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5109319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees