JP2015150620A

JP2015150620A - ロボット制御システムおよびロボット制御プログラム

Info

Publication number: JP2015150620A
Application number: JP2014023373A
Authority: JP
Inventors: 仁土川; Hitoshi Tsuchikawa; 一穂有田; Kazuo Arita; 岡本　学; Manabu Okamoto; 学岡本; 吾郎井前; Goro Imae; 啓之佐藤; Hiroyuki Sato; 茂木　学; Manabu Mogi; 学茂木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-02-10
Filing date: 2014-02-10
Publication date: 2015-08-24

Abstract

【課題】音声認識の状態をユーザに伝達することで、音声認識を誤った場合におけるユーザの心証の悪化を和らげることができるロボット制御システムおよびロボット制御プログラムを提供する。
【解決手段】本発明のロボット制御システム１は、音声が入力される音声入力部１００と、音声入力部１００に入力された音声を認識するとともに音声認識の信頼度を算出する音声認識部２００と、音声認識部２００により算出された音声認識の信頼度に応じて相違するロボットモーションを作成するロボットモーション作成部３００と、ロボットモーション作成部３００により作成されたロボットモーションに応じてロボットを駆動するロボット駆動部４１０とを有し、本発明のロボット制御プログラムは、ロボット制御システム１における音声認識ステップ、ロボットモーション作成ステップをコンピュータに実行させる。
【選択図】図１

Description

本発明は、例えばヒューマノイドロボットやバーチャルロボットなどのロボットの作動制御に用いられるロボット制御システムおよびロボット制御プログラムに関し、特に、音声対話システムと共に使用されるものに関する。

近年、音声認識技術の向上に伴い、音声認識技術を用いた様々な商品やサービスが提供されてきている。例えばスマートフォン（多機能携帯電話）の普及に伴い、ＮＴＴドコモ社の「しゃべってコンシェル（登録商標）」やアップル社の「Ｓｉｒｉ（登録商標）」などに代表されるような音声対話システムを利用した検索サービスが広く利用されるようになってきている（非特許文献１参照）。

一方、ロボット分野では、ヒューマノイドロボット（人型ロボット）に人間らしい振る舞いをさせる研究が数多くなされている（非特許文献２参照）。また、国内では、小型のヒューマノイドロボットを用いた競技会がいくつも開催されるなど、その存在は身近になってきており、さらに、数多くのロボットの市販品が発売されるなど、こちらも一般社会への浸透が急速に進んでいる。

河原達也、「話し言葉による音声対話システム」、情報処理学会誌、２００４年１０月、Ｖｏｌ．４５、ＮＯ．１０、ｐ．１０２７−１０３１梶田秀司、「ヒューマノイドはただの機械ですが？」、日本ロボット学会誌、２０１３年１１月、Ｖｏｌ．３１、ＮＯ．９、ｐ．８３０−８３２

入力された音声を認識し、認識した音声に対して応答を行う従来の音声対話システムでは、例えば、音声認識の結果を一度画面に表示し、その上で、検索結果等の応答内容を画面に表示するインターフェースがとられている。

しかしながら、現在の技術では、音声認識によって音声を１００％正確に認識することはできず、音声認識結果に誤りが含まれることがあるので、音声認識の信頼度が低い場合には、思いもよらない音声認識結果が画面に表示されて、ユーザを驚かせ、またはいらいらさせて、その心証を悪化させることがあった。

本発明は、このような課題に鑑みてなされたものであり、その目的は、音声を認識する際に、その音声認識の状態（信頼度の高い音声認識ができているか、または信頼度の低い音声認識しかできていないのか）をユーザに伝達して、音声認識を誤った場合におけるユーザの心証の悪化を和らげることができるロボット制御システムおよびロボット制御プログラムを提供することにある。

本発明のロボット制御システムは、ユーザの音声が入力される音声入力部と、前記音声入力部に入力された音声を音声認識するとともに該音声認識の信頼度を算出する音声認識部と、前記音声認識部により算出された音声認識の信頼度に応じて異なるロボットモーションを作成するロボットモーション作成部と、前記ロボットモーション作成部により作成されたロボットモーションに応じてロボットを駆動するロボット駆動部と、を有することを特徴とする。

本発明のロボット制御プログラムは、入力された音声を音声認識するとともに該音声認識の信頼度を算出する音声認識ステップと、前記音声認識ステップにより算出された音声認識の信頼度に応じて異なるロボットモーションを作成するロボットモーション作成ステップと、をコンピュータに実行させることを特徴とする。

本発明によれば、人と人との会話において、相手の表情や仕草等を見て話がうまく伝わっているか否かを判断し、上手く伝わっていないと判断した場合には言い直したり言い方を変えたりするのと同様に、ユーザ等の問いかけに応答する際に、人や動物のような身体性を持ったロボットや端末等の画像内で人や動物のように振舞うバーチャルロボット（エージェント）に、音声認識の信頼度に応じて相違する動作をさせることで、音声認識の状態をユーザにそれとなく伝えて、音声認識の誤りにより誤った応答が行なわれた場合におけるユーザの心証の悪化を和らげることができる。

本発明の一実施の形態であるロボット制御システムの構成を概略で示すブロック図である。図１に示すロボット制御システムの処理手順を示すフローチャート図である。図１に示すロボット制御システムの変形例の構成を概略で示すブロック図である。図３に示すロボット制御システムの処理手順を示すフローチャート図である。

以下、本発明の一実施の形態であるロボット制御システム１について、図面を参照しつつ詳細に例示説明する。

図１に示すように、ロボット制御システム１は、音声入力部１００、音声認識部２００、ロボットモーション作成部３００およびロボット部４００を備える。

音声入力部１００は、例えばマイクで構成される。このロボット制御システム１に対して発せられたユーザ等の音声はこの音声入力部１００からロボット制御システム１に入力される。音声入力部１００は、入力された音声を音声データとして取得し、取得した音声データを音声認識部２００に送る。

音声認識部２００は、音声入力部１００から入力された音声データに対して音声認識を行う。つまり、音声認識部２００は、音声入力部１００から入力された音声データを解析し、その音声の内容を文字データとして取り出すことができる。

音声認識部２００が行う音声認識の手法としては、例えば、入力された音声データに対して音響処理を行った後、認識すべき語彙、単語間の接続のしやすさ、規則を表す言語モデルなどの言語的制約を考慮して音声認識を行う方法など、任意の手法を用いることができる。

音声認識部２００は、その音声認識の結果つまり文字データを処理部５００に送る。

処理部５００は、音声認識部２００から音声認識の結果が入力されると、その音声認識の結果に応じた応答処理を行う。例えば、処理部５００は、音声認識部２００から音声認識の結果が入力されると、その入力された音声認識の結果に対する回答を作成し、スピーカーに対して当該回答を音声として発する指令を送るなどの、種々の応答処理を行う。

音声認識部２００は、上記した音声認識に加えて、当該音声認識を行う際の音声認識の信頼度を算出する。

音声認識部２００により行われる音声認識の信頼度の算出手法としては、例えば、上記音声認識において単語系列を得る段階、もしくは、音声認識において得られた単語を含む連続した単語の系列の各単語に対して、言語的制約を用いて、（意味があると思われる）文として認識されるかの言語的妥当性の評価を行うことで信頼度を出力する手法など、任意の手法を用いることができる。このような音声認識の信頼度を算出する具体的手法としては、例えば、特開２００５−２７５３４８号公報に記載の方法を用いることができる。本実施の形態では、音声認識の信頼度は、信頼度の算出の際に算出される各評価のスコア等に基づき、信頼度が高いほど大きい数値データとして算出される。

音声認識部２００は、算出した音声認識の信頼度２１０をロボットモーション作成部３００に送る。

ロボットモーション作成部３００は、音声認識部２００から音声認識の信頼度２１０が入力されるとロボットモーションを作成する。このとき、ロボットモーション作成部３００は、音声認識の信頼度２１０に応じて異なるロボットモーションを作成する。ロボットモーション作成部３００は、作成したロボットモーションをロボットのモーションデータ３１０としてロボット部４００に送る。

より具体的には、ロボットモーション作成部３００は、音声認識部２００から入力された音声認識の信頼度２１０が予め実験等に基づいて設定された所定の閾値よりも低いときには、例えば、首をかしげる動作、相手の発話をより注意深く聞くように耳をそばだてる動作、うつむいた姿勢となる動作といった、人が相手の話を聞き取れなかった時に行うような、自信なく話を聞いている動作や相手の発話をより傾聴するような動作をロボットに行わせるロボットモーションを作成し、モーションデータ３１０をロボット部４００に送るように構成することができる。なお、このロボットモーションは、上記した首をかしげる動作、発話者の話をより注意深く聞くように耳をそばだてる動作、うつむいた姿勢となる動作の少なくとも何れか１つを含んだものでもよく、または上記各動作を任意に組み合わせたものとすることもできる。

また、ロボットモーション作成部３００は、音声認識部２００から入力された音声認識の信頼度２１０が予め実験等に基づいて設定された所定の閾値よりも高い場合には、例えば、ユーザの方に真っ直ぐ向く動作、顔を所定の角度だけ上に向ける動作、胸を張る動作、といった自信を持って話を聞いている動作をロボットに行わせるロボットモーションを作成し、そのモーションデータ３１０をロボット部４００に送るように構成することができる。なお、このロボットモーションは、上記したユーザの方に真っ直ぐ向く動作、顔を所定の角度だけ上に向ける動作、胸を張る動作の少なくとも何れか１つを含んだものでもよく、または上記各動作を任意に組み合わせたものとすることもできる。

ロボット部４００は、例えば頭部、胴部、腕部等を備えるとともに、これら各部を駆動するロボット駆動部としてのアクチュエータ４１０を備えたヒューマノイドロボット（人型ロボット）として構成される。アクチュエータ４１０は、ロボットモーション作成部３００からロボット部４００に入力されたロボットのモーションデータ３１０つまりロボットモーションに従ってロボット部４００を作動させるように構成される。つまり、ロボットモーション作成部３００からロボットのモーションデータ３１０がロボット部４００に入力されると、ロボット部４００は、アクチュエータ４１０により駆動されてモーションデータ３１０に従ったロボットモーションで動作をする。このような構成により、音声認識部２００による音声認識の信頼度２１０が所定の閾値よりも低いときには、ロボット部４００に、人が相手の話を聞き取れなかった時に行うような自信なく話を聞いているような動作をさせ、音声認識部２００による音声認識の信頼度２１０が所定の閾値よりも高いときには、ロボット部４００に自信を持って話を聞いているような動作をさせることができる。

ロボットモーション作成部３００からロボット部４００に送られるロボットのモーションデータ３１０は、音声認識部２００から音声認識の信頼度２１０が入力される度にロボットモーション作成部３００において新たに作成されるものとすることができる。また、ロボットモーション作成部３００からロボット部４００に送られるロボットのモーションデータ３１０は、音声認識部２００から音声認識の信頼度２１０が入力されたときに、予め設定されている複数の既存のロボットモーションの中からその信頼度２１０に適合したものとして選択されるものとし、またはこの選択したロボットモーションに状況に合わせて修正を加えたものとすることもできる。

図２は、図１に示すロボット制御システムの処理手順を示すフローチャート図である。次に、本発明の一実施の形態であるロボット制御システム１の処理手順について、図２に示すフローチャート図に基づいて説明する。

まず、このロボット制御システム１に対してユーザが発した音声が音声入力部１００に入力されると（入力ステップＳ１）、音声認識部２００が音声入力部１００に入力された音声を音声認識する音声認識ステップＳ２が行われる。この音声認識ステップＳ２においては、例えば音響処理ステップＳ２−１、単語系列の取得ステップＳ２−２および文の認識ステップＳ２−３が行われる。

また、この音声認識ステップＳ２においては、単語系列の取得ステップＳ２−２および文の認識ステップＳ２−３における言語的妥当性の評価に基づいてこの音声認識の信頼度が算出される。

次に、音声認識ステップＳ２により算出された音声認識の信頼度に応じて異なるロボットモーションを作成するロボットモーション作成ステップＳ３が行われる。このロボットモーション作成ステップＳ３においては、まず、音声認識ステップＳ２により算出された音声認識の信頼度が所定の閾値よりも高いか低いかが判断される（ステップＳ３−１）。そして、ステップＳ３−１において信頼度が所定の閾値よりも高いと判断された場合には、ロボットモーション作成部３００は、自身を持った雰囲気を伝える動作つまり自信を持って話を聞いている動作を行なうロボットモーションを作成する（ステップＳ３−２）。反対に、ステップＳ３−１において信頼度が所定の閾値よりも低いと判断された場合には、ロボットモーション作成部３００は、人が相手の話を聞き取れなかった時に行うような自身がない雰囲気を伝える動作つまり自信なく話を聞いている動作を行なうロボットモーションを作成する（ステップＳ３−３）。このように、ロボットモーション作成ステップＳ３においては、音声認識ステップＳ２により算出された音声認識の信頼度の閾値に対する高低に応じて、異なるロボットモーションがロボットモーション作成部３００により作成される。

ロボットモーション作成ステップＳ３により作成されたロボットモーションがロボット部４００に送られると、アクチュエータ４１０が、ロボット部４００をロボットモーション作成部３００から送られてきたロボットモーションに応じて動作するよう駆動するロボット駆動ステップＳ４が行われる。

また、音声認識ステップＳ２で得られた音声認識の結果は、処理部５００に入力され、音声認識結果に対する応答等の所定の処理ステップＳ５が行われる。この処理ステップＳ５は、ロボット駆動ステップＳ４の後に行われるのが好ましいが、ロボット駆動ステップＳ４の途中に行うようにしたり、ロボット駆動ステップＳ４と同時に行うようにしたりすることもできる。

このような処理手順により、ロボット部４００は、音声認識ステップＳ２における音声認識の信頼度が所定の閾値よりも低い場合には、人が相手の話を聞き取れなかった時に行うような自信なく話を聞いている動作を行ない、音声認識ステップＳ２における音声認識の信頼度が所定の閾値よりも高い場合には、自信を持って話を聞いている動作を行なうことができる。

したがって、ユーザは、自身が発した音声に対してロボット（ロボット部４００）が行う上記動作を見て、自身が発した言葉をロボット制御システム１が理解したか否かを、文字等による直接的な提示ではなく、ロボットの動作によるなんとなくの雰囲気で、やわらかく無意識に近い状態で知ることができる。これにより、人と人との会話において、ほぼ無意識で行われているような自然な状況把握と同様の状況把握を、ロボットに対しても行えるため、ユーザにロボット制御システム１を備えたロボットに対して、より自然な会話を行わせることができる。

本発明のロボット制御システム１は、ＣＰＵ（中央演算処理装置）および記憶手段（メモリ）を備えたコンピュータ（不図示）を有し、音声認識部２００、ロボットモーション作成部３００および処理部５００を、このコンピュータ上で動作するソフトウェア処理として実行させる構成とすることもできる。この場合、ロボット部４００は、アクチュエータ４１０が上記コンピュータに制御されることにより動作する構成とすることもできる。

本発明のロボット制御プログラムは、このロボット制御システム１のコンピュータに設けられた記憶手段に格納され、当該コンピュータに上記の音声認識ステップＳ２およびロボットモーション作成ステップＳ３を実行させることができる。

図３は図１に示すロボット制御システムの変形例の構成を概略で示すブロック図であり、図４は図３に示すロボット制御システムの処理手順を示すフローチャート図である。

図３に示す変形例のロボット制御システム２は、図１に示すロボット制御システム１の構成に追加して、カメラ６００と相対位置算出部７００を備える。本変形例におけるカメラ６００および相対位置算出部７００は、ユーザの顔に対するロボットの相対位置を検出する相対位置検出部を構成する。

カメラ６００はロボットの位置およびユーザの顔方向を特定するためのものであり、図示する場合では、ロボットを写すためにロボットに向けられるカメラ６０１とユーザを写すためにユーザに向けられるカメラ６０２とを備える。

相対位置算出部７００は、カメラ６００が撮影したカメラ画像（映像）つまりカメラ６０１が撮影したカメラ画像とカメラ６０２が撮影したカメラ画像から、ユーザの顔に対するロボットの相対位置を算出する。相対位置算出部７００によりユーザの顔に対するロボットの相対位置が算出されると、その算出結果はロボットモーション作成部３００に入力される。

ロボットモーション作成部３００は、相対位置算出部７００から入力されたユーザの顔に対するロボットの相対位置に基づいてロボットの顔を向かせる方向を計算し、当該計算により決定された方向に顔を向かせるロボットモーションを作成することができる。このロボットモーションは、顔の向きだけでなく他の動作を含むものとすることもできる。

次に、本変形例のロボット制御システム２の処理手順について、図４に示すフローチャート図に基づいて説明する。

まず、このロボット制御システム２に対してユーザ等の対話者が発した音声が音声入力部１００に入力されると（入力ステップＳ１）、音声認識部２００が音声入力部１００に入力された音声を音声認識する音声認識ステップＳ２が行われる。この音声認識ステップＳ２においては、例えば音響処理ステップＳ２−１、単語系列の取得ステップＳ２−２および文の認識ステップＳ２−３が行われる。

一方で、画像入力ステップＳ３においてカメラ６００（カメラ６０１、カメラ６０２）が撮影したカメラ画像が相対位置算出部７００に入力される。そして、カメラ画像が相対位置算出部７００に入力されると、相対位置算出ステップＳ４において、相対位置算出部７００により、入力されたカメラ画像から、ユーザの顔に対するロボットの相対位置が算出される。

次に、音声認識ステップＳ２により算出された音声認識の信頼度に応じて異なるロボットモーションを作成するロボットモーション作成ステップＳ５が行われる。このロボットモーション作成ステップＳ５においては、そのロボットモーションを作成するにあたり、相対位置算出ステップＳ４において算出されたユーザの顔に対するロボットの相対位置が考慮されて当該ロボットモーションにおけるロボットの顔の向きが設定される。

ロボットモーション作成ステップＳ５においては、まず、音声認識ステップＳ２により算出された音声認識の信頼度が所定の閾値よりも高いか低いかが判断される（ステップＳ５−１）。そして、ステップＳ５−１において信頼度が所定の閾値よりも高いと判断された場合には、ロボットモーション作成部３００は、相対位置算出ステップＳ４において算出されたユーザの顔に対するロボットの相対位置を考慮して、自信を持って話を聞いている動作を行なうロボットモーションを作成する（ステップＳ５−２）。反対に、ステップＳ５−１において信頼度が所定の閾値よりも低いと判断された場合には、ロボットモーション作成部３００は、相対位置算出ステップＳ４において算出されたユーザの顔に対するロボットの相対位置を考慮して、人が相手の話を聞き取れなかった時に行うような自信なく話を聞いている動作を行なうロボットモーションを作成する（ステップＳ５−３）。このように、ロボットモーション作成ステップＳ３においては、音声認識ステップＳ２により算出された音声認識の信頼度の閾値に対する高低に対応するとともに、相対位置算出ステップＳ４において算出されたユーザの顔に対するロボットの相対位置を考慮して、異なるロボットモーションがロボットモーション作成部３００により作成される。

次に、ロボットモーション作成ステップＳ５により作成されたロボットモーションがロボット部４００に送られると、アクチュエータ４１０が、ロボット部４００をロボットモーション作成部３００から送られてきたロボットモーションに応じて動作するよう駆動するロボット駆動ステップＳ６が行われる。

また、音声認識ステップＳ２で得られた音声認識の結果は、処理部５００に入力され、音声認識結果に対する応答等の所定の処理ステップＳ７が行われる。この処理ステップＳ７は、ロボット駆動ステップＳ６の後に行われるのが好ましいが、ロボット駆動ステップＳ６の途中に行うようにしたり、ロボット駆動ステップＳ４と同時に行うようにしたりすることもできる。

このような処理手順により、図３、図４に示す変形例においても、図１、図２に示す場合と同様に、ロボット部４００は、音声認識ステップＳ２における音声認識の信頼度が所定の閾値よりも低い場合には、人が相手の話を聞き取れなかった時に行うような自信なく話を聞いている動作を行ない、音声認識ステップＳ２における音声認識の信頼度が所定の閾値よりも高い場合には、自信を持って話を聞いている動作を行なうことができる。

また、図３、図４に示す変形例では、上記効果に加えて、ユーザの顔に対するロボットの相対位置を考慮することにより、ユーザの顔方向に対してより正確にロボットの顔を所望の方向に向けることができる。例えば、ロボットに自信を持って話を聞いている動作を行なわせる際には、ロボットの顔または顔と体の両方をより正確にユーザの方に真っ直ぐ向けることができ、または、ユーザの顔を基準とした適切な角度でロボットの顔を上に向けることができる。さらに、例えば、ロボットに自信なく話を聞いている動作を行なわせる際には、ユーザの顔を基準とした適切な角度でロボットの首をかしげさせることができ、または、ロボットの顔や体をユーザの顔を基準とした適切な角度でうつむかせることができる。このように、ユーザの顔に対するロボットの相対位置を考慮してロボットモーションの作成を行うことにより、ロボット動作によるユーザへの意思伝達性を高めることができる。さらに、ロボットがその体をユーザの方に向けることができない場合においても、ロボットの顔だけをユーザの顔の方に向けて、ユーザに対して自信を持って話を聞いている動作や自身なく話しを聞いている動作を行うこともできる。このように、ロボットの顔や体をユーザの方向に向けることにより、ユーザに対するロボット動作による意思伝達をより効果的に行うことができる。ただし、ロボットの顔や体を上下に向ける際には、上記したユーザの顔を基準とするに限らず、水平方向を基準とすることもできる。

なお、本変形例では、ロボット部４００を写すためのカメラ６０１とユーザを写すためのカメラ６０２とを用意してロボットとユーザの相対位置を算出するようにしているが、１台のカメラ６００で両方を写すようにしてもよい。

また、本変形例では、ロボットとユーザの顔方向の相対位置を検出するための相対位置検出部の構成として、カメラ６００が撮影したカメラ画像から相対位置算出部７００がロボットとユーザの顔方向の相対位置を算出する構成を採用しているが、これに限らず、無線タグや超音波センサなどを用いてロボットとユーザの顔方向の相対位置を測定する構成とするなど、相対位置検出部の検出手段として種々の構成を採用することができる。

本変形例においても、ロボット制御システム２が、ＣＰＵ（中央演算処理装置）および記憶手段（メモリ）を備えたコンピュータ（不図示）を有し、音声認識部２００、ロボットモーション作成部３００、処理部５００および相対位置算出部７００を、このコンピュータ上で動作するソフトウェア処理として実行させる構成とすることもできる。この場合、ロボット部４００は、アクチュエータ４１０が上記コンピュータに制御されることにより動作する構成とすることもできる。

本発明のロボット制御プログラムは、上記変形例のロボット制御システム２に合わせて、当該ロボット制御システム２のコンピュータに、上記の音声認識ステップＳ２およびロボットモーション作成ステップＳ５を実行させるような構成とすることもできる。

本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

例えば、前記実施の形態には、実体のあるビジブル型のロボットに本発明のロボット制御システム１、２を適用した例を記載しているが、これに限らず、スマートフォン等の電子機器の画面上に表示するバーチャルなロボットやアバター等、人や動物を模したエージェントに対して本発明のロボット制御システム１、２を適用することもできる。

このように、ロボットを電子機器の画面上に表示されるバーチャルなエージェント（ロボット）とする場合には、ロボット制御システム１、２は、ＣＰＵおよび記憶手段を備えた電子機器において、音声認識部２００、ロボットモーション作成部３００、処理部５００および相対位置算出部７００等を、この電子機器上で動作するソフトウェア処理として実行する構成とすることができる。また、この場合、ロボット駆動部も同様に、電子機器によりソフトウェア処理として実行されて、画面上に表示されたエージェントをロボットモーション作成部３００により作成されたロボットモーションに応じて動作させる構成とすることができる。このように、バーチャル型のロボットであるエージェントに対して本発明のロボット制御システム１、２を適用した場合においても、音声認識ステップＳ２における音声認識の信頼度が所定の閾値よりも低い場合には、画面上に表示されたエージェントが自信なく話を聞いている動作を行ない、音声認識ステップＳ２における音声認識の信頼度が所定の閾値よりも高い場合には、画面上に表示されたエージェントが自信を持って話を聞いている動作を行なうことにより、ユーザは、このエージェントの動作から、自身が発した言葉をロボット制御システム１、２が理解したか否かを認識することができる。

また、表情を変化させる機構を有する実体を有するロボットや、バーチャルなロボットやエージェントの場合、顔の向きや腕部、胴部の動作等によるジェスチャに限らず、その表情を変えることによって音声認識の状態を表現する構成とすることもできる。

また、前記実施の形態では、１つの所定の閾値に対して音声認識の信頼度が低いときに、ロボットを自信なく話しを聞いているように動作させ、当該閾値に対して音声認識の信頼度が高いときに、ロボットを自信を持って話を聞いているように動作させるようにしているが、自身なく話しを聞いているように動作させる際の判断基準となる低信頼度側の閾値と、自信を持って話を聞いているように動作させる際の判断基準となる高信頼度側の閾値とを別の値に設定し、音声認識の信頼度がこれらの低信頼度側の閾値と高信頼度側の閾値との間に、ロボットに「何もさせない」範囲を設ける構成とすることもできる。

１、２ロボット制御システム
１００音声入力部
２００音声認識部
３００ロボットモーション作成部
４００ロボット部
４１０アクチュエータ（ロボット駆動部）
５００処理部
６００カメラ
６０１ロボットに向けられたカメラ
６０２ユーザに向けられたカメラ
７００相対位置算出部

Claims

ユーザの音声が入力される音声入力部と、
前記音声入力部に入力された音声を音声認識するとともに該音声認識の信頼度を算出する音声認識部と、
前記音声認識部により算出された音声認識の信頼度に応じて異なるロボットモーションを作成するロボットモーション作成部と、
前記ロボットモーション作成部により作成されたロボットモーションに応じてロボットを駆動するロボット駆動部と、を有することを特徴とするロボット制御システム。
前記音声認識部により算出された音声認識の信頼度が所定の閾値よりも低いときに、前記ロボットモーション作成部が、前記ロボットを自信なく話しを聞いているように動作させ、または前記ロボットを相手の発話をより傾聴するように動作させるロボットモーションを作成する、請求項１に記載のロボット制御システム。
前記ロボットを、自信なく話しを聞いているように動作させ、または相手の発話をより傾聴するように動作させるロボットモーションは、前記ロボットの首をかしげる動作、前記ロボットの耳をそばだてる動作、または前記ロボットをうつむいた姿勢とする動作の、少なくとも何れか１つまたはこれらの組み合わせである、請求項２に記載のロボット制御システム。
前記音声認識部により算出された音声認識の信頼度が所定の閾値よりも高いときに、前記ロボットモーション作成部が、前記ロボットを自信を持って話を聞いているように動作させるロボットモーションを作成する、請求項１〜３の何れか１項に記載のロボット制御システム。
前記ロボットを、自信を持って話を聞いているように動作させるロボットモーションは、前記ロボットをユーザの方に真っ直ぐ向く動作、前記ロボットの顔を上に向ける動作、または前記ロボットの胸を張る動作の、少なくとも何れか１つまたはこれらの組み合わせである、請求項４に記載のロボット制御システム。
ユーザの顔に対する前記ロボットの相対位置を検出する相対位置検出部をさらに有し、
前記相対位置検出部により検出されたユーザの顔に対する前記ロボットの相対位置に基づいて、前記ロボットモーション作成部が、ロボットモーションにおける前記ロボットの顔の向きを設定する、請求項１〜５の何れか１項に記載のロボット制御システム。
入力された音声を音声認識するとともに該音声認識の信頼度を算出する音声認識ステップと、
前記音声認識ステップにより算出された音声認識の信頼度に応じて異なるロボットモーションを作成するロボットモーション作成ステップと、
をコンピュータに実行させることを特徴とするロボット制御プログラム。