JP2017068592A

JP2017068592A - ロボット、ロボット制御装置、ロボット制御方法、及びプログラム

Info

Publication number: JP2017068592A
Application number: JP2015193389A
Authority: JP
Inventors: 智子小堀; Tomoko Kobori; 小川　隆; Takashi Ogawa; 隆小川
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2017-04-06

Abstract

【課題】クイズ等の問いかけをするロボットであって回答者が複数の場合の状況判断を適切に行い、適切な発話やアクションを行うことが可能なロボット、ロボット制御装置、ロボット制御方法、及びプログラムを提供する。【解決手段】ロボット２は問題ＤＢ３１から問題を取得して音声処理部２０９等によって読み上げる。また複数の回答者による回答の様子を撮影した画像を取得し、画像認識処理により回答者から得られる複数の回答を認識する。また複数の回答から回答者全体の１つの回答を決定し、決定した回答に対する応答（発話やアクション）を多数決、比率、或いは回答者属性等の所定の条件に基づいて決定し、決定された応答を実行する。これにより、回答者が複数の場合の状況判断をロボット２に適切に行わせ、適切な発話やアクションを行わせることが可能となる。【選択図】図１

Description

本発明は、ロボット、ロボット制御装置、ロボット制御方法、及びプログラムに関し、詳細には、対話型ロボットを制御する技術に関する。

近年、人との対話が可能なロボットが開発されている。この種のロボットは、対話のための音声認識機能や発話機能を持つ他、対話相手の表情や音声感情、明るさや温度等の周囲の状況を音声・画像認識エンジンや各種のセンサにより読み取ることができる。また読み取った内容に応じてロボット自身の感情も変化させ、ディスプレイで感情を可視化したり、感情に応じた発話を実行する機能を持つものもある。また、ロボットの頭や腕、腰等に可動部を設け、対話や指令の内容に応じたアクションを行わせることも可能となっている。

例えば特許文献１には、ロボットにユーザと共に映像を視聴しているかのようなアクションを実行させるロボット制御方法について記載されている。このロボット制御方法では、ソーシャルメディアサーバから視聴中の番組に関するコメントを取得し、ロボットに設定されたパーソナリティと一致するパーソナリティ一致話者のコメントからロボットに発話させる発話内容を決定するとともに、発話内容の対話状態とロボットの感情状態に基づいてロボットに実行させるアクション内容をアクションデータベースから抽出して、視聴中の番組の内容に応じたアクションをロボットに実行させている。

特開２０１５−１４８７０１号公報

しかしながら、特許文献１のロボット制御方法は、ロボットの発話内容やアクションの内容をソーシャルメディアサーバから得た情報に基づいて決定するものであり、ロボットの前の多数の視聴者の状況から判断するものではない。例えば、ロボットがイベント会場等でクイズ形式のコンテンツを複数の来場者に対して実施する場合、来場者の反応や状況をリアルタイムに判断し、適切な応答をロボットに行わせることで、来場者に興味を持たせ集客力を向上させたいといった要望がある。

本発明は、クイズ等の問いかけをするロボットであって回答者が複数の場合の状況判断を適切に行い、適切な発話やアクションを行うことが可能なロボット、ロボット制御装置、ロボット制御方法、及びプログラムを提供することを目的とする。

前述した課題を解決するため第１の発明は、問題を提示する問題提示手段と、複数の回答者による回答の様子を撮影した画像を取得する画像取得手段と、前記画像を解析し、前記回答者から得られる複数の回答を認識する認識手段と、前記回答に対する応答を所定の条件に基づき決定する応答決定手段と、決定された応答を実行する応答手段と、を備えることを特徴とするロボットである。

第１の発明によれば、ロボットは問題を提示し、複数の回答者による回答の様子を撮影した画像を取得し、取得した画像を解析して回答者から得られる複数の回答を認識する。また回答に対する応答を所定の条件に基づき決定し、決定された応答を実行する。
これにより、例えばイベント会場や教室等のように複数の回答者がいる場合でも、状況に適した判断を行って、適切な発話やアクションを行うことが可能なロボットを提供できる。

第１の発明において、前記応答決定手段は前記複数の回答から１つの回答を導出し、導出された１つの回答に対する応答を決定することが望ましい。また前記応答決定手段は前記問題が択一式の場合は多数決または回答の比率に基づいて１つの回答を導出し、導出された１つの回答に対する応答を決定してもよい。これにより、複数の回答者による様々な回答から回答者全体で１つの回答を求め、求めた１つの回答に対する応答をロボットに行わせることが可能となる。

また、前記認識手段は、各回答者の属性を認識し、前記応答決定手段は前記回答者の属性に基づいて複数の回答から１つの回答を導出し、導出された１つの回答に対する応答を決定してもよい。これにより、回答者の性別や年齢等の属性を重視して複数の回答から１つの回答を得ることが可能となる。
また、前記応答決定手段は当該ロボットに近い位置にいる回答者の回答に基づいて１つの回答を導出し、導出された１つの回答に対する応答を決定してもよい。これにより興味を示してロボットに近づいた回答者の回答に対して優先的に応答できる。

また、第１の発明において、前記回答はマーカを用いて提示されるものとすれば、回答の画像認識を容易に行うことができ、認識精度も向上する。

また、前記問題を提示してから前記応答を決定するまでの間に待機時間を設け、前記待機時間経過後に前記認識手段による回答の認識を行うことが望ましい。これにより、多数の回答を得るまで待機し、その後ロボットに状況判断を行わせ、状況に応じた応答を行わせることができる。

第２の発明は、対話型ロボットを制御するロボット制御装置であって、前記ロボットに問題を提示させる問題提示手段と、複数の回答者による回答の様子を撮影した画像を取得する画像取得手段と、前記画像を解析し、前記回答者から得られる複数の回答を認識する認識手段と、前記回答に対する応答を所定の条件に基づき決定する応答決定手段と、決定された応答を前記ロボットに実行させるよう制御する応答手段と、を備えることを特徴とするロボット制御装置である。

第２の発明によれば、ロボット制御装置によってロボットを制御することによりロボットに問題を提示させ、複数の回答者による回答の様子を撮影した画像を取得し、取得した画像を解析して回答者から得られる複数の回答を認識し、回答に対する応答を所定の条件に基づき決定し、決定した応答をロボットに実行させることができる。これにより、例えばイベント会場や教室等、複数の回答者がいる場所等でロボットに問題を提示させ、回答の状況判断を適切に行い、適切な発話やアクションをロボットに行わせることが可能となる。

第３の発明は、ロボットが問題を提示するステップと、前記ロボットが複数の回答者による回答の様子を撮影した画像を取得するステップと、前記ロボットが前記画像を解析し前記回答者から得られる複数の回答を認識するステップと、前記ロボットが前記回答に対する応答を所定の条件に基づき決定するステップと、決定された応答を前記ロボットが実行するステップと、を含むことを特徴とするロボット制御方法である。

第３の発明によれば、ロボットは問題を提示し、複数の回答者による回答の様子を撮影した画像を取得し、取得した画像を解析して回答者から得られる複数の回答を認識する。また回答に対する応答を所定の条件に基づき決定し、決定された応答を実行する。これにより、例えばイベント会場や教室等、複数の回答者がいる場所等でロボットに問題を提示させ、複数の回答者による回答の状況判断を適切に行い、適切な発話やアクションをロボットに行わせることが可能となる。

第４の発明は、ロボットを、第１の発明のロボットとして機能させるプログラムである。第４の発明により、ロボットを第１の発明のロボットとして機能させることが可能となる。

本発明により、クイズ等の問いかけをするロボットであって回答者が複数の場合の状況判断を適切に行い、適切な発話やアクションを行うことが可能なロボット、ロボット制御装置、ロボット制御方法、及びプログラムを提供できる。

ロボット制御システム１のシステム構成及びクイズ問題の提示・回答の概念を示す図ロボット２の内部構成図コンピュータ３（ロボット制御装置）の内部構成図本発明に係るロボット制御に関する機能構成図条件テーブル２４１のデータ構成図応答決定テーブル３３１のデータ構成図問題ＤＢ３１のデータ構成図ロボット２が実行するクイズ応答処理の流れを説明するフローチャート

以下、図面に基づいて本発明の好適な実施形態について詳細に説明する。
図１は、ロボット制御システム１のシステム構成の一例を示す図である。ロボット制御システム１は、ロボット２、コンピュータ３、カメラ４、ディスプレイ７を備えて構成される。ロボット２、カメラ４、ディスプレイ７はコンピュータ３に通信接続され、コンピュータ３により各装置の動作が連携するよう制御される。ロボット２、カメラ４、ディスプレイ７とコンピュータ３との通信接続の形態は、有線、無線を問わない。ディスプレイ７はロボット２の問題提示と連携して映像を表示するためのものであり、ロボット２が音声のみで問題を読み上げる場合はディスプレイ７を省略してよい。また、カメラ４は回答者６ａ〜６ｈが回答する様子を撮影するものであるが、カメラ４に替えてロボット２に内蔵されるカメラ２１０を用いて回答の様子を撮影することもできる。その場合はカメラ４を省略してよい。また回答者６ａ〜６ｈの人数や並び方、ディスプレイ７との位置関係等は図１の例に限定されない。

図１は、ロボット２が読み上げたクイズ等の問題に対し、複数の回答者６ａ〜６ｈがマーカ５ａ〜５ｈを用いて回答している様子を表している。カメラ４またはロボット２に内蔵されるカメラ２１０は回答者６ａ〜６ｈ及びマーカ５ａ〜５ｈの画像を撮影し、撮影した画像をロボット２に入力する。ディスプレイ７はコンピュータ３に制御され、ロボット２による問題読み上げや応答のタイミングに同期して関連する映像等を表示する。コンピュータ３は、カメラ４による画像の取得やディスプレイ７の表示制御を行う他、ロボット２の動作とカメラ４及びディスプレイ７の動作のタイミングが同期するよう制御する。

ロボット２は、対話型のロボットである。図２に示すように、ロボット２は、制御部２０１、記憶部２０２、入力部２０３、表示部２０４、メディア入出力部２０５、通信Ｉ／Ｆ２０６、可動部駆動機構２０７、周辺機器Ｉ／Ｆ部２０８、音声処理部２０９、カメラ２１０、マイク２１１、センサ２１２、及びスピーカ２１３がバス２２０を介して接続されて構成される。

制御部２０１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等により構成される。ＣＰＵは、記憶部２０２、ＲＯＭ、記録媒体等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス２２０を介して接続された各部を駆動制御する。

制御部２０１のＣＰＵは、クイズ応答処理（図８参照）を実行する。この処理の詳細については後述する。

ＲＯＭは、ロボット２のブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持する。ＲＡＭは、ロードしたプログラムやデータを一時的に保持するとともに、制御部２０１が各種処理を行うために使用するワークエリアを備える。

記憶部２０２は、制御部２０１が実行するプログラムや、プログラム実行に必要なデータ、オペレーティングシステム等が格納されている。これらのプログラムコードは、制御部２０１により必要に応じて読み出されてＲＡＭに移され、ＣＰＵに読み出されて実行される。

また記憶部２０２は、問題ＤＢ（データベース）３１、発話ＤＢ（データベース）３２、アクションＤＢ（データベース）３３等のデータベースや、制御部２０１が回答を決定する際に参照される条件テーブル２４１等を有する（図４参照）。問題ＤＢ３１、発話ＤＢ３２、アクションＤＢ３３、条件テーブル２４１の詳細については後述する。

入力部２０３は、例えばタッチパネル等の入力装置や各種操作ボタン等を含み、入力されたデータを制御部２０１へ出力する。
表示部２０４は、例えば液晶パネル等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路で構成され、制御部２０１の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力部２０３のタッチパネルは表示部２０４のディスプレイと一体的に構成される。

メディア入出力部２０５は、例えば、磁気ディスク、光ディスク、半導体メモリ等の記録媒体（メディア）等のドライブ装置であり、データの入出力を行う。

通信Ｉ／Ｆ２０６は、ネットワーク８との通信を媒介するインタフェースである。ネットワーク８は、ＬＡＮ（Local Area Network）や、より広域に通信接続されたＷＡＮ（Wide Area Network）、またはインターネット等の公衆の通信回線、基地局等を含む。ネットワーク８との通信接続は有線、無線を問わない。ロボット２はネットワーク８を介してＷｅｂサーバにアクセスし、各種のプログラムやデータを送受信可能である。

可動部駆動機構２０７は、ロボット２の頭部、首、肩、腕、腰、脚等に設けられた可動部を駆動する機構及び駆動装置を含む。可動部駆動機構２０７の動作は制御部２０１により制御される。制御部２０１は記憶部２０２のアクションＤＢ３３から可動部制御シーケンスを読み出し、各可動部駆動機構２０７に対して制御信号を送り、各駆動部を動作させる。

周辺機器Ｉ／Ｆ（インタフェース）部２０８は、周辺機器を接続させるためのポートであり、周辺機器Ｉ／Ｆ部２０８を介して周辺機器とのデータの送受信を行う。周辺機器との接続形態は有線、無線を問わない。ロボット２は周辺機器Ｉ／Ｆ部２０８を介してコンピュータ３等と通信接続可能となる。

音声処理部２０９は、音声合成部、音声認識部等を含む。音声合成部は、制御部２０１からの指令に基づき、文字情報（テキストデータ）に対応する合成音声データを生成し、スピーカ２１３に合成音声を出力する。合成音声は、予め記憶部２０２の発話ＤＢ３２に格納されている文字情報と音声データとの対応関係に基づいて生成される。音声合成部により、ロボット２による問題文の読み上げや回答に対する発話等を実現する。

音声認識部は、マイク２１１から入力された音声データ（例えば、人の音声）について音声認識処理を実施し、音声データに対応する文字情報（テキストデータ）を生成し、制御部２０１に入力する。制御部２０１は音声認識部により入力された文字情報に基づいて人の話の内容を認識したり、周囲の状況を判断したりし、ロボット２の感情を変化させたり、アクションや発話の内容を決定する。

カメラ２１０は、ロボット２に内蔵される例えばＣＣＤ（Charge-Coupled Device）カメラ等であり、周囲の様子を撮影する。カメラ２１０により撮影された画像は制御部２０１に入力される。制御部２０１はカメラ２１０から入力された画像を認識し（画像認識処理）、周囲の状況を判断したり、認識結果に応じて感情を変化させたり、発話やアクションを決定したりする。

マイク２１１は、外部の音声を入力し、制御部２０１に送る。
スピーカ２１３は、音声処理部２０９の音声合成部により生成された合成音声を出力したり、制御部２０１からの指令に基づきアラーム音等の所定の音声を出力したりする。

センサ２１２は、３Ｄセンサ、タッチセンサ、ジャイロセンサ、ソナーセンサ、レーザセンサ、バンパーセンサ、赤外線センサ等の各種のセンサを含む。各センサは検出した信号を制御部２０１に入力する。制御部２０１は各センサからの入力信号に応じて感情を変化させたり、ロボット２の発話の内容やアクションを決定したりする。
バス２２０は、制御信号、データ信号等の授受を媒介する経路である。

コンピュータ３は、ロボット制御システム１全体の動作を制御する制御装置であり、カメラ４による画像の取得やディスプレイ７の表示制御を行う。また、ロボット２の動作とカメラ４及びディスプレイ７の動作のタイミングが同期するよう制御する。

図３に示すように、コンピュータ３は、制御部３０１、記憶部３０２、メディア入出力部３０３、周辺機器Ｉ／Ｆ部３０４、入力部３０６、表示部３０７、通信Ｉ／Ｆ３０８がバス３０９を介して接続されて構成される。

制御部３０１は、ＣＰＵ、ＲＯＭ、ＲＡＭ等により構成される。ＣＰＵは、記憶部３０２、ＲＯＭ、記録媒体等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス３０９を介して接続された各部を駆動制御する。

制御部３０１のＣＰＵは、ロボット２が実行するクイズ応答処理（図８参照）と連携してカメラ４による撮影制御やディスプレイの表示制御を行う。

ＲＯＭは、コンピュータ３のブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持する。ＲＡＭは、ロードしたプログラムやデータを一時的に保持するとともに、制御部３０１が各種処理を行うために使用するワークエリアを備える。

記憶部３０２は、制御部３０１が実行するプログラムや、プログラム実行に必要なデータ、オペレーティングシステム等が格納されている。これらのプログラムコードは、制御部３０１により必要に応じて読み出されてＲＡＭに移され、ＣＰＵに読み出されて実行される。

メディア入出力部３０３は、例えば、磁気ディスク、光ディスク、半導体メモリ等の記録媒体（メディア）等のドライブ装置であり、データの入出力を行う。

周辺機器Ｉ／Ｆ（インタフェース）部３０４は、周辺機器を接続させるためのポートであり、周辺機器Ｉ／Ｆ部３０４を介して周辺機器とのデータの送受信を行う。周辺機器との接続形態は有線、無線を問わない。周辺機器Ｉ／Ｆ部３０４を介してコンピュータ３に、ロボット２、カメラ４、及びディスプレイ７等を通信接続できる。

入力部３０６は、例えばキーボード、マウス、タッチパネル等の入力装置であり、入力されたデータを制御部３０１へ出力する。

表示部３０７は、例えば液晶パネル等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路で構成され、制御部３０１の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力部３０６のタッチパネルは表示部３０７のディスプレイと一体的に構成される。また、表示部３０７は外付けのディスプレイ７としてもよい。制御部３０１は表示部３０７またはディスプレイ７に対して表示情報を送り、表示させる。

通信Ｉ／Ｆ３０８は、ネットワーク８との通信を媒介するインタフェースである。コンピュータ３はネットワーク８上のＷｅｂサーバから各種のプログラムやデータを送受信可能である。

バス３０９は、制御信号、データ信号等の授受を媒介する経路である。

次に、図４を参照してロボット２（ロボット制御システム１）の機能構成について説明する。

ロボット２は、問題提示部２１、画像取得部２２、画像認識部２３、応答決定部２４、応答部２５、問題ＤＢ３１、条件テーブル２４１、発話ＤＢ３２、及びアクションＤＢ３３を備える。

問題提示部２１は、問題の読み上げ、問題に関する映像の表示制御等を行う。すなわち問題提示部２１は、問題ＤＢ３１から問題データを取得し、問題データに含まれる問題文に対応する合成音声を音声処理部２０９により生成して、ロボット２に読み上げ（音声出力）させる。また、問題データに関連する映像や回答の選択肢等の映像データがある場合は、問題提示部２１はロボット２の表示部２０４やディスプレイ７に表示データを表示させる。

画像取得部２２は、ロボット２に内蔵されるカメラ２１０または外付けのカメラ４により撮影された複数の回答者６ａ〜６ｈによる回答の様子を撮影した画像を取得する。回答は、ＡＲマーカ等のマーカ５ａ〜５ｈを用いて提示されることが望ましいが、必ずしもマーカ５ａ〜５ｈを用いなくてもよく、回答者６ａ〜６ｈのジェスチャ等としてもよい。マーカ５ａ〜５ｈを用いる場合には、画像認識を容易に行うことが可能となり、認識精度が向上する。

画像認識部２３は、画像取得部２２により取得した画像を解析し、回答者６ａ〜６ｈから得られる複数の回答を認識する。回答がマーカ５ａ〜５ｈにより得られる場合は、提示されたマーカ５ａ〜５ｈを読み取り、各回答者６ａ〜６ｈの回答を認識する。またマーカ５ａ〜５ｈを用いない場合は、回答者６ａ〜６ｈのジェスチャを画像認識部２３によって認識し、回答を得てもよい。

応答決定部２４は、画像認識部２３により認識された回答に対して、ロボット２が実行する応答（発話、アクション等）を所定の条件に基づき決定する。複数の回答者６ａ〜６ｈがいるため、画像認識部２３では複数の回答を得ている。応答決定部２４は複数の回答から所定の条件に従って複数の回答の代表とする１つの回答を導出し、導出された１つの回答に対する応答を決定する。

１つの回答を導出する条件は、図５の条件テーブル２４１に示すようにいくつかのパターンが記憶部２０２に記憶され、出題毎にどの条件を適用するかが設定される。或いは、ロボット２の操作者がどの条件を適用するかを、出題毎、或いは日時や来場者等の状況に応じて設定してもよい。またロボット２の制御部２０１が、どの条件を適用するかを問題や回答者６ａ〜６ｈの状況等に応じて動的に設定してもよい。

図５に示す条件テーブル２４１には、（１）多数決、（２）比率、（３）回答者属性、（４）回答者位置、…等の条件が格納されている。

（１）多数決の場合：問題が「○」「×」の二択または「１」「２」「３」…のような選択肢からの選択のように、各回答者がそれぞれ１つの回答を選択する択一式の問題の場合は、応答決定部２４は、複数の回答から多数決により１つの回答を導出する。多数決では、最も多い回答を会場にいる回答者全体の総意とする。多数決で○と×が同数の場合は、そのままの数を回答者の総意としてもよいが、あえて○（または×）を回答者の総意としてもよい。
（２）比率の場合：問題が択一式の場合、応答決定部２４は、複数の回答の比率から１つの回答を導出してもよい。その場合、最も少ない回答を回答者の総意としてもよいし、多い方から２番目の回答等のように、出題者側が設定した条件で回答者の総意とする回答を決定してもよい。また、例えば、○と×の比率が６：４の場合、その比率に従い○を回答者の総意としたり、あえて比率が少ない×を回答者の総意としてもよい。

（３）回答者属性：回答者の属性に基づいて１つの回答を導出する場合、画像認識部２３は取得した画像から、各回答者の性別や年齢等の属性を推定する。そして推定した属性を条件として、条件に合致する回答者の回答を選び、回答者全体の総意として採用する。条件は問題毎に設定したり、ランダムに設定したりしてもよい。例えば、ベテランによる回答が確からしいと判断できる問題では、回答を決定する条件を「４０歳以上」等とすればよい。

（４）回答者位置：ロボット２に近い位置にいる回答者の回答を回答者全体の総意として採用する。ステージ前方（ロボット２に近い位置）にいる回答者が問題に興味を示しているとみなし、画像認識によりロボット２と各回答者との距離を求め、最も近い位置にいる回答者の回答を採用する。この場合、興味を示している回答者の回答を選ぶことができる。

なお、上述の（１）〜（４）は複数の回答の中から１つの回答を導出するための条件の例であり、条件はこれらに限定されない。（１）〜（４）の条件を組み合わせてもよい。また複数の回答の中から応答決定部２４がランダムに１つの回答を選択してもよい。また条件テーブル２４１に保持された条件以外の条件を状況に応じてユーザが入力するようにしてもよい。

また、応答決定部２４は導出した１つの回答に対する応答を決定する。応答決定部２４は、例えばアクションＤＢ３３に格納される応答決定テーブル３３１を参照して回答に対する応答を決定する。応答は、音声処理部２０９による発話や可動部駆動機構２０７によるロボット２の動作（アクション）、表示部２０４によるロボット２の感情表現等を含む。

図６に応答決定テーブル３３１に設定されるデータの内容を示す。応答決定テーブル３３１には、回答の状態（正解、不正解、ヒント、回答要求、その他等）と応答の動作名と発話の内容とが紐づけられて格納される。応答の動作名は、例えば、「うなずく」、「腕で○を描く」、「首を横に振る」等のアクションを識別するための識別情報である。発話の内容は、「正解」、「そのとおり」、「残念」等のように、回答の状態や動作に応じた発話の内容（テキストデータ）が設定される。

また、応答決定部２４は画像認識部２３による画像認識の結果、回答数が少ない場合等、所定の条件を満たさない場合は、その状況に対する応答を決定する。例えば、問題のヒントを読み上げたり、「わかった人はいるかな？」等のように回答を要求する発話やアクションを行うよう決定する。

問題ＤＢ３１には、ロボット２が提示する複数の問題データが格納される。図７に示すように、問題データには、問題文（テキストデータ）と、問題についてのヒント（テキストデータ）及び解答のデータが含まれる。問題文やヒント文には、それぞれ読み上げる文章のデータや読み上げ時に再生する映像や音楽、ロボット２が行うアクションの動作名等が含まれる。問題ＤＢ３１に記憶されるデータは、メディア入出力部２０５を介してメディアから取り込んでもよいし、コンピュータ３から入力されてもよいし、ネットワーク８を介してダウンロードしたものでもよい。
また各問題について、複数の回答が得られた場合にどのように回答を決定するかを定めた回答決定条件が設定されるようにしてもよい。回答決定条件の値は、条件テーブル２４１（図５）に格納される条件の条件ＩＤに対応している。

発話ＤＢ３２は、文字情報（テキストデータ）と音声データとが対応づけて格納される。音声処理部２０９は、発話ＤＢ３２に格納された文字情報と音声データとの対応関係に基づいて合成音声を生成し、スピーカ２１３から出力することでロボット２による発話を実現する。発話ＤＢ３２には、定型文の音声データや、ロボット２の感情状態に応じて発話の抑揚や語尾を変化させるための発話変換データ等が格納されるようにしてもよい。

アクションＤＢ３３は、応答決定部２４がロボット２の応答（発話内容やアクション内容）を決定する際に参照する応答決定テーブル３３１（図６）と、各応答についてのロボット２の制御シーケンスを記載した制御シーケンステーブルとが格納される。制御シーケンステーブルには、応答の動作名とロボット２の可動部制御シーケンスとを紐づけたデータが格納される。動作名は、応答決定テーブル３３１と対応する識別情報であり、一連の可動部制御シーケンスをロボット２が実行した際のロボット動作の様子を示している。可動部制御シーケンスは、制御対象とする各可動部の駆動箇所と値等（例えば頭部チルト角０度、右腕チルト角０度等）のリストである。

応答部２５は、応答決定部２４により決定された応答（発話やアクション等）をロボット２が実行するよう制御する。

次に、図８を参照してロボット２が実行するクイズ応答処理の流れの一例を説明する。クイズ応答処理の開始に際し、カメラ４またはロボット２の内蔵カメラ２１０は、周囲の状況を撮影し、撮影した画像データをロボット２に入力しているものとする。

図８に示すように、ロボット２はまず出題を行う（ステップＳ１０１）。ロボット２の制御部２０１（問題提示部２１）は問題ＤＢ３１から問題データを取得し、音声処理部２０９による発話処理を行って問題文を読み上げる。発話処理では、問題文に含まれる単語の音声を発話ＤＢ３２から取得し、合成音声を生成して発話させる。また発話処理では、ロボット２に設定されている性別や性格を考慮するほか、時間帯や気温等の周囲の状況をセンサから判断し、そのときのロボット２の感情に合わせて合成音声を生成することが望ましい。例えば、語尾等を出題時の状況等に合わせて変化させることが望ましい。

なお、ロボット２による問題文の読み上げのタイミングに合わせて、コンピュータ３によってディスプレイ７を制御し、問題に関する映像や音声をディスプレイ７から出力してもよい。

次に、ロボット２の制御部２０１（画像取得部２２）は周囲の状況を取得する。周囲の状況は、各種のセンサ２１２による検知信号の他、カメラ４により撮影された画像から取得可能である（ステップＳ１０２）。所定の待機時間が経過すると（ステップＳ１０３；Ｙｅｓ）、制御部２０１（画像認識部２３）は取得した画像について画像認識処理を行う（ステップＳ１０４）。

ステップＳ１０４の画像認識処理では、画像に含まれる回答（マーカ５ａ〜５ｈ）の数及び内容を読み取る。或いは回答者のジェスチャ等を読み取るようにしてもよい。制御部２０１（応答決定部２４）は、回答数が所定の条件を満たすか否かを判定し（ステップＳ１０５）、回答数が所定の条件（ある閾値より少ない等）を満たさない場合は（ステップＳ１０５；Ｎｏ）、ヒントの提示や回答要求といった応答を行うよう決定する（ステップＳ１０６）。制御部２０１（応答部２５）は、問題ＤＢ３１から問題に紐づけられたヒントデータを読み出して音声処理部２０９により読み上げたり、回答を要求するような発話やアクションを実行させる。

その後、ステップＳ１０２に戻り、ロボット２の制御部２０１（画像取得部２２）は周囲の状況を取得する。所定の待機時間が経過すると（ステップＳ１０３；Ｙｅｓ）、制御部２０１（画像認識部２３）は取得した画像について画像認識処理を行う（ステップＳ１０４）。ステップＳ１０４の画像認識処理で、回答数が所定の条件を満たしたと判定された場合は（ステップＳ１０５；Ｙｅｓ）、制御部２０１（応答決定部２４）は、取得した画像データ等から状況を判断し、応答を決定する（ステップＳ１０７）。

ステップＳ１０７では、複数の回答が得られているので、まず制御部２０１は複数の回答から１つの回答を導出する。回答の導出方法は、上述したように例えば、（１）問題が択一式の場合、多数決または回答の比率に基づいて１つの回答を導出したり、（２）回答者の属性に基づいて１つの回答を導出したり、（３）ロボット２に近い位置にいる回答者の回答に基づいて１つの回答を導出したりする方法等が考えられる。

更に、１つの回答が導出されると、制御部２０１は導出した回答に応じた応答を決定する（ステップＳ１０７）。例えば、導出した回答が正解であれば、「正解」という発話を行ったり、○を描くアクション等を行わせる。また導出した回答が不正解であれば、ロボット２に「残念」と発話させ、「うつむく」アクションを行わせる。なお、応答を決定する際、回答の正解や不正解、或いは回答者の反応に応じてロボット２の感情状態を変化させ、感情を考慮した発話やアクションを実行させるようにしてもよい。

制御部２０１は、ステップＳ１０７で決定された応答に応じて、音声処理部２０９による発話や、可動部駆動機構２０７によるアクションを実行する（ステップＳ１０８）。

以上説明したように、ロボット２は問題ＤＢ３１から問題を取得して音声処理部２０９等によって読み上げる。また複数の回答者による回答の様子を撮影した画像を取得し、画像認識処理により回答者から得られる複数の回答を認識する。また複数の回答から回答者全体の１つの回答を決定し、決定した回答に対する応答（発話やアクション）を多数決、比率、或いは回答者属性等の所定の条件に基づいて決定し、決定された応答を実行する。これにより、回答者が複数の場合の状況判断をロボット２に適切に行わせ、適切な発話やアクションを行わせることが可能となる。

なお、図４ではロボット２内の制御部２０１及び記憶部２０２に、ロボット制御システム１が備える各機能部（問題提示部２１、画像取得部２２、画像認識部２３、応答決定部２４、応答部２５、問題ＤＢ３１、条件テーブル２４１、発話ＤＢ３２、アクションＤＢ３３等）が設けられるものとしているが、ロボット２とは別に設けられるコンピュータ３にこれらの各部やデータを設けるものとしてもよい。また、各機能部の処理はプログラムによって実行されるものとしてもよい。これらの処理に関するプログラムはロボット２の記憶部２０２またはコンピュータ３の記憶部３０２に記憶されものとしてもよいし、ネットワーク８を介してロボット２またはコンピュータ３にインストールすることも可能である。

以上、添付図面を参照して、本発明に係るロボット、ロボット制御装置、ロボット制御方法等の好適な実施形態について説明したが、本発明は係る例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１……………………ロボット制御システム
２……………………ロボット
２０１………………制御部
２１…………………問題提示部
２２…………………画像取得部
２３…………………画像認識部
２４…………………応答決定部
２４１………………条件テーブル
２５…………………応答部
３……………………コンピュータ
３０１………………制御部
３１…………………問題ＤＢ
３２…………………発話ＤＢ
３３…………………アクションＤＢ
３３１………………応答決定テーブル
４……………………カメラ
５ａ〜５ｈ…………マーカ
６ａ〜６ｈ…………回答者
７……………………ディスプレイ
８……………………ネットワーク

Claims

問題を提示する問題提示手段と、
複数の回答者による回答の様子を撮影した画像を取得する画像取得手段と、
前記画像を解析し、前記回答者から得られる複数の回答を認識する認識手段と、
前記回答に対する応答を所定の条件に基づき決定する応答決定手段と、
決定された応答を実行する応答手段と、
を備えることを特徴とするロボット。
前記応答決定手段は前記複数の回答から１つの回答を導出し、導出された１つの回答に対する応答を決定することを特徴とする請求項１に記載のロボット。
前記応答決定手段は前記問題が択一式の場合は多数決または回答の比率に基づいて１つの回答を導出し、導出された１つの回答に対する応答を決定することを特徴とする請求項１に記載のロボット。
前記認識手段は、各回答者の属性を認識し、
前記応答決定手段は前記回答者の属性に基づいて複数の回答から１つの回答を導出し、導出された１つの回答に対する応答を決定することを特徴とする請求項１に記載のロボット。
前記応答決定手段は当該ロボットに近い位置にいる回答者の回答に基づいて１つの回答を導出し、導出された１つの回答に対する応答を決定することを特徴とする請求項１に記載のロボット。
前記回答はマーカを用いて提示されることを特徴とする請求項１から請求項５のいずれかに記載のロボット。
前記問題を提示してから前記応答を決定するまでの間に待機時間を設け、
前記待機時間経過後に前記認識手段による回答の認識を行うことを特徴とする請求項１から請求項４のいずれかに記載のロボット。
対話型ロボットを制御するロボット制御装置であって、
前記ロボットに問題を提示させる問題提示手段と、
複数の回答者による回答の様子を撮影した画像を取得する画像取得手段と、
前記画像を解析し、前記回答者から得られる複数の回答を認識する認識手段と、
前記回答に対する応答を所定の条件に基づき決定する応答決定手段と、
決定された応答を前記ロボットに実行させるよう制御する応答手段と、
を備えることを特徴とするロボット制御装置。
ロボットが問題を提示するステップと、
前記ロボットが複数の回答者による回答の様子を撮影した画像を取得するステップと、
前記ロボットが前記画像を解析し前記回答者から得られる複数の回答を認識するステップと、
前記ロボットが前記回答に対する応答を所定の条件に基づき決定するステップと、
決定された応答を前記ロボットが実行するステップと、
を含むことを特徴とするロボット制御方法。
ロボットを、請求項１に記載のロボットとして機能させるプログラム。