JP5709955B2

JP5709955B2 - ロボットおよび音声認識装置ならびにプログラム

Info

Publication number: JP5709955B2
Application number: JP2013204228A
Authority: JP
Inventors: 金澤　宏幸; 宏幸金澤; 古結　義浩; 義浩古結; 浅野　伸; 伸浅野; 日浦　亮太; 亮太日浦; 宮内　均; 均宮内
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2015-04-30
Anticipated expiration: 2029-01-22
Also published as: JP2013257598A

Description

本発明は、音声認識機能を有するロボットに係り、特に、音声認識を行う音声認識装置およびそのプログラムに関するものである。

従来、一般的家庭向けの対話型ロボットでは、雑音が存在する環境で常時ユーザの呼びかけに対応することが要求されている。しかしながら、ユーザの指令であるか、テレビ・ラジオなどの生活雑音であるかを判断することは非常に難しく、テレビ・ラジオ等の生活雑音をユーザによる指令であると誤って認識することも少なくない。
上述した誤認識の解決策として、例えば、常時適正な音声区間を用いて音声認識を実施することが提案されている。

特表２００２−５０７０１０号公報

しかしながら、適切な音声区間によって音声認識を行ったとしても、音声区間において音声認識したい言葉である目的音が発せられる前に雑音が入ってしまった場合には、雑音も目的音の一部として取り扱われてしまい、音声認識ができないということがあった。

本発明は、上記問題を解決するためになされたもので、音声認識の精度を向上させることのできるロボットおよび音声認識装置ならびにプログラムを提供することを目的とする。

上記課題を解決するために、本発明は以下の手段を採用する。
本発明は、音声をデジタル化して音声データを出力する音声入力部と、前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置とを備え、前記音声認識装置は、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第１処理部を備え、各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施するロボットを提供する。

このような構成によれば、少なくとも２つの音声認識処理部を時間差で並行して作動させることが可能となる。このように、音声認識処理部の音声認識開始時期をずらして作動させるので、一方の音声認識処理部によって認識される音声データに雑音が含まれてしまい、音声認識に失敗した場合でも、他方の音声認識処理部においては雑音の入っていない目的音のみの音声データを認識対象として取り扱わせることが可能となる。
これにより、音声認識が成功する確率を高めることができ、音声認識の精度を向上させることができる。また、音声認識の精度が向上することにより、ロボットの誤動作確率を低減させることが可能となる。
また、例えば、一回の入力で音声認識が出来なかった場合、同じ言葉がユーザによって再度発せられることがある。このような場合に、音声認識に成功するまで、各音声認識処理部が繰り返し音声認識を実施することで、目的音を的確に捕らえる機会を増やすことができ、音声認識の精度を向上させることができる。

上記ロボットにおいて、各前記音声認識処理部は、一定の時間間隔で順番に作動を開始することが好ましい。

このように、全ての音声認識処理部をそれぞれ異なるタイミングで作動させることにより、雑音が入っていたとしても、いずれかの音声認識処理部によって的確に目的音を捕らえて音声認識を行うことが可能となる。この結果、音声認識が成功する確率を更に高めることができる。

上記ロボットにおいて、各前記音声認識処理部は、いずれかの音声認識処理部によって音声認識が成功した場合に、音声認識を停止して待機状態となることとしてもよい。

このように、いずれかの音声認識処理部によって音声認識がされた場合には、全ての音声認識処理部が待機状態となるので、作動を繰り返し続けることによる計算機の能力の無駄な消費を回避することができる。

上記ロボットにおいて、前記音声認識装置は、複数の前記音声認識処理部のうち、少なくとも１つの音声認識処理部と同じタイミングで音声認識を開始する少なくとも１つの補助音声認識処理部を更に備えることとしてもよい。

音声認識処理部と補助音声認識処理部とを同じ期間にわたって並行して走らせるので、音声認識の精度を更に高めることができる。

上記ロボットは、前記音声認識装置による音声認識結果に対応する応答動作を実行する応答動作実行部を備えることとしてもよい。

本発明は、音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置であって、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第１処理部を備え、各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の所定の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施する音声認識装置を提供する。

本発明は、音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識をコンピュータに実行させるためのプログラムであって、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識プログラムを有し、各前記音声認識プログラムは、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識プログラムが作動している期間内に、一の前記音声認識プログラムが音声認識を開始し、該他の前記音声認識プログラムによって音声認識が失敗した場合に、該一の前記音声認識プログラムによって、前記他の前記音声認識プログラムで用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識プログラムによって音声認識が成功するまで繰り返し音声認識を実施するプログラムを提供する。

本発明によれば、音声認識の精度を向上させることができるという効果を奏する。

本発明の第１の実施形態に係るロボットの正面図である。図１に示したロボットの左側面図である。ロボットが備える各種構成要素のうち、音声認識に関連の深い構成要素を抽出して示したブロック図である。音声認識装置が備える機能を展開して示した機能ブロック図である。音声認識装置のハードウェア構成を示した図である。本発明の第１の実施形態に係る音声認識装置の作動を説明するためのタイミングチャートである。応答動作実行部が備える機能を展開して示した機能ブロック図である。本発明の第１の実施形態に対応する従来の音声認識装置の動作例を示したタイミングチャートである。本発明の第２の実施形態に係る音声認識装置の作動を説明するためのタイミングチャートである。本発明の第２の実施形態に対応する従来の音声認識装置の動作例を示したタイミングチャートである。

以下に、本発明に係るロボットの一実施形態について、図面を参照して説明する。
〔第１の実施形態〕
図１は、本発明の第１の実施形態に係るロボットの正面図、図２は、図１に示したロボットの左側面図である。
図１および図２に示すように、ロボット本体１には、頭部２と、この頭部２を下方から支持する胸部３と、この胸部３の右側に設けられた右腕部４ａ、胸部３の左側に設けられた左腕部４ｂと、胸部３の下方に接続された腰部５と、この腰部５の下方に接続されたスカート部６と、このスカート部６の下方に接続された脚部７とが設けられている。

頭部２には、頭頂部近傍に全方位カメラ１１が一つ設けられている。この全方位カメラ１１の外周に沿って複数の赤外線ＬＥＤ１２が所定の間隔で円環上に配置されている。
頭部２の前面の中央近傍には、図１に示すように、前方を撮像するための前方カメラ１３が正面視して右側に一つ、マイクロフォン１４が正面視して左側に一つ、それぞれ設けられている。

胸部３の前面の中央近傍には、モニタ１５が一つ設けられている。このモニタ１５の上方には、人を検知するための超音波距離センサ１６が一つ設けられている。モニタ１５の下方には、電源スイッチ１７が一つ設けられている。超音波距離センサ１６の上方には、２つのスピーカ１８が左右に一つずつ設けられている。また、図２に示すように、胸部３の背面には、荷物を収納することができるランドセル部３３が設けられている。ランドセル部３３には、上部に設けたヒンジ周りに回動可能な開閉扉３３ａが設けられている。図１に示すように、胸部３の左右の肩部には、マンマシンインターフェースとして機能する肩スイッチ１９がそれぞれ一つずつ設けられている。肩スイッチ１９には、例えば、タッチセンサが採用されている。

右腕部４ａおよび左腕部４ｂには、多関節構造が採用されている。右腕部４ａ、左腕部４ｂにおいて、胸部３との接続部近傍には、体や物の挟み込みを検知して腕の動作を止めるための脇スイッチ２０がそれぞれ設けられている。図１に示すように、右腕部４ａの手のひら部分には、マンマシンインターフェースとして機能する握手スイッチ２１が内蔵されている。これら脇スイッチ２０や握手スイッチ２１には、例えば、押圧センサが採用される。

腰部５の前面の中央近傍には、人を検知するための超音波距離センサ２２が左右に一つずつ設けられている。これら超音波距離センサ２２の下方には、複数の赤外センサ２３が配列されたセンサ領域２４が設けられている。これら赤外線センサ２３は、ロボット本体１の下方前方にある障害物等を検出するためのものである。図１および図２に示すように、腰部５の下方には、前面および背面において、音源方向を検出するためのマイクロフォン２５が左右に一つずつ、計４つ設けられている。図２に示すように、腰部５の側面の左右には、本体を持ち上げるときに使用する取手部２６がそれぞれ一つずつ設けられている。取手部２６は、凹所とされており、操作者の手が挿入できるようになっている。

スカート部６の前面下方には、段差を検出するための赤外線センサ２７が、中央および左右に計３つ設けられている。図２に示すように、スカート部６の背面には、充電コネクタ２８が設けられている。

図１に示すように、脚部７の前面には、側方の距離を検出するための赤外線センサ２９が左右に一つずつ設けられている。これら赤外線センサ２９は、主に段差検出に用いられるものである。
図２に示すように、脚部７の背面には、充電ステーションにロボット本体１を位置固定するためのフック３０が設けられている。脚部７は、走行用車輪３１および４つのボールキャスタ３２を備えた台車とされている。

このようなロボットは、ロボット本体１に内蔵されたバッテリからの電源供給により、作業空間を自律的に移動することが可能な構成を備えており、一般家庭等の屋内を作業空間として人間と共存し、例えば、一般家庭内でロボットの所有者や操作者などのユーザの生活を補助・支援・介護するための各種サービスを提供するために用いられる。
そのため、ロボット１は、ユーザとの会話を実現させる会話機能のほか、ユーザの行動を見守ったり、ユーザの行動を補助したり、ユーザと一緒に行動したりする機能を備えている。このような機能は、例えば、後述するロボット本体１の内部に内蔵されたマイクロコンピュータ等からなる制御装置により実現されるものである。制御装置には、図１および図２に示した各種カメラや各種センサ等が接続されており、カメラからの画像情報やセンサからのセンサ検出情報を取得し、これらの情報に基づいて各種プログラムを実行することにより、上述した各種機能を実現させる。なお、ロボット本体１の形状としては、図１および図２に示した形状に限られず、愛玩用に動物を模したものなど、種々のものを採用することが可能である。

次に、本発明の特徴部分であるロボット１が備える音声認識機能について説明する。音声認識機能は上述した会話機能を実現させるために必要となる機能であり、上述した制御装置内に設けられた音声認識装置等により実現されるものである。
図３は、ロボット１が備える各種構成要素のうち、音声認識に関連の深い構成要素を抽出して示したブロック図である。図３に示すように、ロボット１は、マイクロフォン（音声入力部）１４、音声認識装置５０、および応答動作実行部５１を備えている。

マイクロフォン１４は、ユーザの音声や電話のベル、呼び鈴、テレビ・ラジオ等の生活雑音を取り込み、これらの音声を電気信号に変換した音声データを音声認識装置５０へ出力する。音声認識装置５０は、マイクロフォン１４から入力された音声データを認識し、その音声結果を応答動作実行部５１へ出力する。応答動作実行部５１は、音声認識装置５０による判断結果に応じた応答動作を実行する。

以下、図３に示した音声認識装置５０について詳しく説明する。
音声認識装置５０は、図４に示すように、マイクロフォン１４から入力された音声データを認識する第１処理部６１と、音声認識結果の候補として予想される単語を辞書として第１処理部６１に与える第２処理部（例えば、アプリケーションソフトウェアを実行して種々の処理を実現させるアプリケーション部）６２とを備えている。

音声認識装置５０は、コンピュータシステム（計算機システム）であり、図５に示すように、ＣＰＵ（中央演算装置）７１、ＲＡＭ（Random Access Memory）等の主記憶装置７２、補助記憶装置７３などで構成されている。
補助記憶装置７３は、コンピュータ読み取り可能な記録媒体であり、例えば、上記第１処理部６１および第２処理部６２の処理を実現させるための各種プログラムが格納されている。そして、ＣＰＵ７１がこの補助記憶装置７３に記録されている各種プログラムを読み出して、情報の加工・演算処理を実行することにより、後述する各種処理を実現させる。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。

第１処理部６１は、図６に示すように、３つの音声認識エンジン（音声認識処理部）ＳＲ１、ＳＲ２、ＳＲ３を備えている。なお、本実施形態では、３つの音声認識エンジンを備える場合を例示しているが、音声認識エンジンの数は限定されず、２つ以上設けられていればよい。

各音声認識エンジンＳＲ１〜ＳＲ３は、第２処理部６２から与えられる辞書に登録されている単語と音声データとを照合し、所定の正解確信度を超える照合結果が得られた場合に、その照合結果を音声認識結果として第２処理部６２に出力する。
ここで、所定の正解確信度とは、マイクロフォン１４からの音声が照合された辞書データと同一であると判断する基準値である。

各音声認識エンジンＳＲ１〜ＳＲ３は、少なくとも１つの音声認識エンジンが他の音声認識エンジンと異なるタイミングで音声認識を開始するようになっている。本実施形態では、各音声認識エンジンＳＲ１〜ＳＲ３は、既定の順序に従って、所定の時間間隔で作動する。具体的には、図６に示すように、音声認識エンジンＳＲ１が作動を開始した後、所定の時間経過後に、音声認識エンジンＳＲ２が作動を開始し、更に、その所定時間経過後に音声認識エンジンＳＲ３が作動を開始する。このとき、所定の時間間隔は、各音声認識エンジンが音声認識を行う期間である音声認識期間（図６においては、Ｔ１からＴ６の期間などに相当）よりも短く設定されている。
これにより、複数の音声認識エンジンを異なる開始タイミングで多重に作動させることができ、雑音が混じっていた場合でも目的音のみを確実に捕らえて音声認識する機会を増加させることが可能となる。この結果、音声認識が成功する確率を高めることができ、音声認識精度を高めることができる。

また、各音声認識エンジンＳＲ１〜ＳＲ３は、音声認識期間が経過したときに、他の音声認識エンジンによる音声認識が成功していない場合には、音声認識を再開させる。これにより、いずれかの音声認識エンジンによって音声認識が行われるまで、各音声認識エンジンＳＲ１、ＳＲ２、ＳＲ３が所定の時間間隔で繰り返し音声認識を実施することとなる。
なお、いずれかの音声認識エンジンによって音声認識が成功した場合には、いずれの音声認識エンジンも作動を停止し、第２処理部６２から次の辞書が与えられるまで待機状態となる。

第２処理部６２は、音声認識結果の候補として予想される単語を辞書として作成し、作成した辞書を第１処理部５１に与える辞書作成部ＳＤ１を有している。
本実施形態に係るロボット１は、ユーザと対話することやユーザによって何らかの指示がされた場合にその指示に応じた行動をすることを目的としている。従って、例えば、ユーザから入力される音声をその時々の動作状況（例えば、対話の状況等）によって予測することが可能となる。

例えば、ロボット１がユーザに対して「これを移動させますか。」と聞いた場合には、ユーザからの回答の候補として、「はい」「いいえ」などが推測できる。第２処理部６２の辞書作成部ＳＤ１は、ロボット１の各種対話モードと入力音声の候補が登録されている辞書とを対応付けて保有しており、現在進行している対話モードに応じた辞書を選択して、第１処理部５１に与える。
このように、入力される音声の候補を予め絞り、候補となる単語が登録された辞書を第１処理部６１に与えるので、第１処理部６１における音声認識の精度を高めることが可能となる。

次に、図３に示した応答動作実行部５１について詳しく説明する。
応答動作実行部５１は、図７に示すように、会話シナリオ実行部６６および代替動作実行部６７を備えている。この応答動作実行部５１は、例えば、小型のマイクロコンピュータと、会話動作、代替応答動作等の各種応答動作を実現させるための手順が記載されたアプリケーションプログラムを保有しており、音声認識装置５０から受け付けた音声認識結果に応じたアプリケーションプログラムを読み出して実行することにより、後述のような会話シナリオ実行部６６や代替動作実行部６７による各種機能を実現させる。

会話シナリオ実行部６６は、音声認識装置５０から受け付けた音声認識結果に応じた会話シナリオを作成し、この合成音声データに基づく音声信号をロボット本体１が備えるスピーカ１８（図１、図２参照）へ出力することにより、合成音声データに応じた発話を行う。
代替動作実行部６７は、音声認識装置５０から音声認識失敗に関する情報を受け付けたときに、周囲の物音を検知した旨を示す代替動作を実現させるものである。

上記代替動作としては、例えば、短時間（数十ミリ秒乃至数秒）で完結する動作または発話が好ましい。動作であれば、例えば、首をかしげる、首を振る、周囲を見回す、目を開閉させる等の１つの動きで完結するものが一例として挙げられ、発話であれば、「ふぅ」、「クピッ」、「んー」などの数個の文字で構成されるものが一例として挙げられる。

次に、上述した音声認識装置５０の一動作例について図６を参照して説明する。
ここでは、図６に示すように、目的音の前に雑音が入っている場合の音声認識について一例を挙げて説明する。

まず、第２処理部６２の辞書作成部ＳＤ１は、予め登録されている複数の辞書の中から入力が期待される音声の候補が登録された辞書を選択し、この辞書を第１処理部６１に出力する（図６の時刻Ｔ１）。
第１処理部６１は、第２処理部６２から辞書を受け取ると、最初の音声認識エンジンＳＲ１を作動させる（図６の時刻Ｔ１）。これにより、最初の音声認識エンジンＳＲ１による音声認識が開始される。ここで、音声認識エンジンＳＲ１の音声認識期間（時刻Ｔ１からＴ６の期間）において、雑音が入力されていることから、この雑音により、認識エンジン１による音声認識は失敗する。音声認識に失敗したことが判明すると、音声認識エンジンＳＲ１は、音声認識に失敗したことを示すガベージを第２処理部６２に出力し、その後、認識エンジンＳＲ１は待機状態となる（図６の時刻Ｔ２）。

次に、認識エンジンＳＲ１の作動開始から所定時間が経過することにより、認識エンジンＳＲ２が作動を開始する（図６の時刻Ｔ３）。これにより、認識エンジンＳＲ２による音声認識が開始される。
続いて、認識エンジンＳＲ２の作動開始から所定時間が経過することにより、認識エンジンＳＲ３が作動を開始する（図６の時刻Ｔ４）。

次に、認識エンジンＳＲ２が音声認識に成功すると、その音声認識結果が第２処理部６２に出力される（図６の時刻Ｔ５）。また、これと同時に、音声認識中であった認識エンジンＳＲ２およびＳＲ３は、音声認識を中止し、待機状態となる。

第２処理部６２は、第１処理部６１から入力された音声認識結果を応答動作実行部５１に出力する。応答動作実行部５１において、入力された音声認識結果は会話シナリオ実行部６６に与えられる。音声認識結果を受け付けた会話シナリオ実行部６６では、音声認識結果に対応するシナリオ音声データをスピーカ１８へ出力する。これにより、ユーザからの音声入力に対応する適切な発話がなされることとなる。

なお、図６では音声認識に成功した場合を例に挙げているが、音声認識に失敗した場合には、音声認識に失敗した旨の情報が音声認識装置５０から応答動作実行部５１に出力される。応答動作実行部５１において、音声認識に失敗した旨の情報は、代替動作実行部６７に与えられる。これにより、代替動作実行部６７は、首をかしげる、「んー」等の発声などの代替動作を実行する。

以上、説明してきたように、本実施形態に係るロボット１、音声認識装置５０およびプログラムによれば、各音声認識エンジンＳＲ１、ＳＲ２、ＳＲ３を所定の時間間隔で並列して作動させるので、雑音が混じっていた場合でも、いずれかの音声認識エンジンによって目的音のみを確実に捕らえさせることが可能となる。この結果、音声認識が成功する確率を高めることができ、音声認識の精度を向上させることが可能となる。
更に、音声認識の精度が向上することにより、ロボット１の誤動作確率を低減させることが可能となる。

図８に従来の音声認識装置の動作例を示す。図８に示すように、従来の音声認識装置は、音声認識エンジンを１つしか有していないため、初めの音声認識期間において雑音を捕らえてしまうと音声認識に失敗してしまい、その旨の情報を示すガベージを第２処理部１６２に出力する（図８の時刻Ｔ２）。このガベージの通知を受けると、第２処理部１６２は先ほどと同じ辞書を音声認識エンジンに再度与える。これにより、音声認識エンジンによる音声認識が再開されるが（図８の時刻Ｔ３）、このときには目的音の途中から音声認識が開始されるので、２度目の音声認識においても失敗し、ガベージが出力されることとなる（図８の時刻Ｔ４）。このように、従来の音声認識装置では、音声認識に失敗してしまう場合であっても、本実施形態に係る音声認識装置であれば、図６に示すように確実に目的音を捕らえて、音声認識を行うことができる。

なお、本実施形態では、いずれかの音声認識エンジンによって音声認識が成功するまで音声認識を繰り返し行うこととしたが、この例に限られない。例えば、各々の音声認識エンジンＳＲ１〜ＳＲ３は、自身の音声認識期間が終了したときに作動を停止することとしてもよい。また、繰り返し作動する回数を予め登録しておき、その回数繰り返し作動したら、作動を停止することとしてもよい。

〔第１の参考実施形態〕
次に、本発明の第１の参考実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本参考実施形態に係るロボットが第１の実施形態と異なる点は、図９に示すように、第２処理部６１´が複数の辞書作成部ＳＤ１、ＳＤ２を備える点、第１処理部６１´の各音声認識エンジンＳＲ１〜ＳＲ３が状況に応じて複数の辞書を用いて音声認識を実施する点である。

例えば、異なる目的音が時間差で入力されることが予測される場合には、それぞれのタイミングで入力が予測される音声の候補を登録した辞書を作成し、これらを適切なタイミングで第１処理部６１´に与えることが必要となる。
具体例としては、ロボット１においては、常に「ワカマル」という呼びかけがあるか否かを判断するとともに、「ニュースを読んで」、「天気を教えて」などのようなロボット１に対する指示に関する音声入力をその都度認識するという要求がある。
このような場合、音声が入力された場合には、「ワカマル」という辞書に基づく音声認識を常に作動させる必要があるとともに、ロボット１のその時々の動作状況に応じた辞書を作成する必要がある。

本参考実施形態に係る音声認識装置は、このように複数の辞書が必要となる場合でもそれぞれの音声認識を実現させることを目的としている。以下、本参考実施形態の音声認識装置について、第１の実施形態と共通する点については説明を省略し、異なる点について主に説明する。

図９に示すように、第２処理部６２´は、２つの辞書作成部ＳＤ１、ＳＤ２を有している。各辞書作成部ＳＤ１、ＳＤ２は、全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を第１処理部６１´に与える。また、各辞書作成部ＳＤ１、ＳＤ２は、自身が第１処理部６１´に与えた辞書に対する音声認識結果が入力されるまで、または、自身が第１処理部６１´に対して該辞書を与えてから所定の時間が経過するまで入力信号待ち状態となる。

第１処理部６１´の各音声認識エンジンＳＲ１〜ＳＲ３は、自身が作動を開始する時点で入力信号待ち状態にある辞書作成部ＳＤ１、ＳＤ２から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を第２処理部６２´に出力する。

このような構成を備える音声認識装置においては、まず、辞書作成部ＳＤ１において入力音声として期待される単語が登録された辞書Ａが作成され、第１処理部６１´に与えられる。このとき、辞書作成部ＳＤ１は入力信号待ち状態となる。
第１処理部６１´は、この辞書Ａを受け付けると、音声認識エンジンＳＲ１を作動させ、辞書Ａを使用した音声認識を開始させる（図９の時刻Ｔ１）。

続いて、辞書作成部ＳＤ２において入力音声として期待される単語が登録された辞書Ｂが作成され、第１処理部６１´に与えられる（図９の時刻Ｔ２）。このとき、辞書作成部ＳＤ２は入力信号待ち状態となる。また、辞書Ａと辞書Ｂとの内容は一部または全てが異なっている。
第１処理部６１´では、音声認識エンジンＳＲ１の作動開始から所定時間が経過したことにより、音声認識エンジンＳＲ２が作動を開始する。ここで、音声認識エンジンＳＲ２の作動開始時において、入力信号待ち状態である辞書作成部は、ＳＤ１とＳＤ２の２つである。従って、音声認識エンジンＳＲ２は、辞書Ａと辞書Ｂとを使用した音声認識を開始する（図９の時刻Ｔ３）。

次に、音声認識エンジンＳＲ２の作動開始から所定時間が経過したことにより、音声認識エンジンＳＲ３が作動を開始する。このとき、入力信号待ち状態である辞書作成部は、ＳＤ１とＳＤ２の２つであるため、音声認識エンジンＳＲ３は、辞書Ａと辞書Ｂとを使用した音声認識を開始する（図９の時刻Ｔ４）。
続いて、辞書Ａが第１処理部に与えられてから既定の期間が経過したことにより、辞書Ａがタイムアウトとなる。これにより、辞書Ａを出力した辞書作成部ＳＤ１は入力信号待ち状態から待機状態に遷移する（図９の時刻Ｔ５）。
次に、音声認識エンジンＳＲ１の作動開始から所定の音声認識期間が経過することにより、音声認識エンジンＳＲ１は一度作動を停止するが、未だに辞書Ｂについてはタイムアウトしておらず、かつ、他の音声認識エンジンＳＲ２、ＳＲ３によっても音声認識が成功していないことから、音声認識エンジンＳＲ１は再度作動を開始する。このとき、信号入力待ち状態である辞書作成部は、ＳＤ２の１つのみであるので、音声認識エンジンＳＲ１は辞書Ｂを用いた音声認識を開始する（図９の時刻Ｔ６）。そして、同様に、辞書Ｂがタイムアウトになるまで、或いは、いずれかの音声認識エンジンによって音声認識が成功するまで（図９の時刻Ｔ８）、各音声認識エンジンＳＲ２、ＳＲ３、ＳＲ１の作動停止および再開が繰り返し行われる（図９の時刻Ｔ７）。

以上説明してきたように、本参考実施形態に係るロボットおよび音声認識装置ならびにプログラムによれば、第２処理部６２´が複数の辞書作成部ＳＤ１、ＳＤ２を備えるので、異なる目的音が時間差で入力されることが予測される場合に、それぞれのタイミングで入力が予測される音声の候補を登録した辞書を作成し、これらを適切なタイミングで第１処理部６１´に与えることが可能となる。
また、第１処理部６１´において、各音声認識エンジンＳＲ１〜ＳＲ３は、入力信号待ち状態にある辞書作成部ＳＤ１、ＳＤ２によって作成された辞書を全て用いて音声認識を行うので、異なる辞書が時間差で発生した場合でも柔軟に対応して音声認識を継続して行うことが可能となる。これにより、目的音が異なるタイミングで連続的に入力されるような場合であっても、それぞれの目的音を的確に捕らえて認識することが可能となる。

図１０に従来の音声認識装置の動作の一例を示す。図１０に示すように、従来の音声認識装置では、初めに辞書Ａが音声認識エンジンに与えられ、この辞書Ａに関する音声認識が行われている途中で他の辞書Ｂが与えられると、辞書Ａに関する今までの音声認識を打ち切り、辞書Ａおよび辞書Ｂを用いた音声認識を再度開始する（図１０の時刻Ｔ２）。次に、辞書Ａがタイムアウトになると、その旨を第２処理部１６２´に通知し、辞書Ａと辞書Ｂとを使用した音声認識を打ち切り、辞書Ｂのみを用いた音声認識を再開する（図１０の時刻Ｔ３）。そして、辞書Ｂがタイムアウトになると、その旨を第２処理部１６２´に通知し、辞書Ｂを使用した音声認識を終了する（図１０の時刻Ｔ４）。

本参考実施形態に係る音声認識装置では、辞書が追加された場合でも、既に作動を開始している音声認識エンジンについては、そのまま音声認識を継続して行うので、図１０に示すように、音声認識の途中で音声認識を打ち切ることがない。従って、各音声について適切な辞書を用いた音声認識を継続して行うことが可能となる。

〔第２の実施形態〕
次に、本発明の第２の実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本実施形態に係るロボットが第１の実施形態、第１の参考実施形態と異なる点は、各音声認識エンジンＳＲ１、ＳＲ２、ＳＲ３とそれぞれ同じタイミングで音声認識を開始する補助音声認識エンジン（図示略）を備えている点である。

本実施形態では、音声認識エンジンＳＲ１と全く同じタイミングで作動する補助音声認識エンジンＳＲ１´、音声認識エンジンＳＲ２と全く同じタイミングで作動する補助音声認識エンジンＳＲ２´、音声認識エンジンＳＲ１と全く同じタイミングで作動する補助音声認識エンジンＳＲ３´をそれぞれ備えている。
ここで、補助音声認識エンジンＳＲ１´は、音声認識エンジンＳＲ１と種別が異なる音声認識エンジンであることが好ましい。例えば、メーカや音声認識の手法が異なる等である。

本実施形態に係るロボットおよび音声認識装置ならびにプログラムによれば、複数の音声認識エンジンを同じタイミングで走らせることにより、音声認識が成功する確率を高めることができる。
なお、同じタイミングで作動する音声認識エンジンと補助音声認識エンジンとで音声認識結果が異なっていた場合には、照合確率の高い方を優先させるとよい。
また、１つの音声認識エンジンに対する補助音声認識エンジンは、複数設けられていてもよい。例えば、音声認識エンジンＳＲ１に対して複数の補助音声認識エンジンが設けられていてもよい。また、全ての音声認識エンジンに対して補助音声認識エンジンがそれぞれ設けられている必要はなく、補助音声認識エンジンを設けるか否か、また、いくつ設けるかについては、任意に決定することが可能である。

なお、上述した各実施形態においては、図１、図２に示したようなロボット１に適用された場合を想定して本発明の音声認識装置について説明したが、本発明に係る音声認識装置は、このようなロボット以外の装置、例えば、ユーザとの対話が実現されるような汎用装置に広く適用されるものである。

１４マイクロフォン
５０音声認識装置
５１応答動作実行部
６１、６１´ 第１処理部
６２、６２´ 第２処理部
６６会話シナリオ実行部
６７代替動作実行部
７１ＣＰＵ
７２主記憶装置
７３補助記憶装置

Claims

音声をデジタル化して音声データを出力する音声入力部と、
前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置と
を備え、
前記音声認識装置は、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第１処理部を備え、
各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施するロボット。
各前記音声認識処理部は、一定の時間間隔で順番に作動を開始する請求項１に記載のロボット。
各前記音声認識処理部は、いずれかの音声認識処理部によって音声認識が成功した場合に、音声認識を停止して待機状態となる請求項１または請求項２に記載のロボット。
前記音声認識装置は、少なくとも１つの音声認識処理部と同じタイミングで音声認識を開始する少なくとも１つの補助音声認識処理部を更に備える請求項１から請求項３のいずれかに記載のロボット。
前記音声認識装置による音声認識結果に対応する応答動作を実行する応答動作実行部を備える請求項１から請求項４のいずれかに記載のロボット。
音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置であって、
前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第１処理部を備え、
各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の所定の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施する音声認識装置。
音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識をコンピュータに実行させるためのプログラムであって、
前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識プログラムを有し、
各前記音声認識プログラムは、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識プログラムが作動している期間内に、一の前記音声認識プログラムが音声認識を開始し、該他の前記音声認識プログラムによって音声認識が失敗した場合に、該一の前記音声認識プログラムによって、前記他の前記音声認識プログラムで用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識プログラムによって音声認識が成功するまで繰り返し音声認識を実施するプログラム。