JP2008168375A

JP2008168375A - ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム

Info

Publication number: JP2008168375A
Application number: JP2007002736A
Authority: JP
Inventors: Hitoshi Morikawa; 仁志森川
Original assignee: SKY Co Ltd
Current assignee: SKY Co Ltd
Priority date: 2007-01-10
Filing date: 2007-01-10
Publication date: 2008-07-24

Abstract

【課題】ジェスチャーを交えながらユーザと会話することができるようにする。
【解決手段】会話集データベース１から音声認識処理部６により解析された言葉に応答する台詞を表現する音声データを検索する音声データ検索部７と、ジェスチャーデータベース３から台詞に対応するジェスチャーを実現する制御データを検索する制御データ検索部８とを設け、音声再生部９が音声データ検索部７により検索された音声データにしたがって音声を出力し、体制御部１０が制御データ検索部８により検索された制御データにしたがって体を動かすようにする。
【選択図】図１

Description

この発明は、ジェスチャーを交えながらユーザと会話するボディランゲージロボットと、そのボディランゲージロボットの制御方法及び制御プログラムとに関するものである。

現在、ジェスチャーを交えながらユーザと会話するボディランゲージロボットは開発されていないが、ユーザと会話する会話ロボットは、例えば、以下の特許文献１に開示されている。
以下の特許文献１に開示されている会話ロボットは、親近感のある会話を実現するために、ユーザが話しかけてくると、ユーザの顔を認識し、体をユーザの顔の正面に向けてから、ユーザと会話するようにしている。

特開２００４−３４２７４号公報（段落番号［００１８］から［００２１］、図１）

従来の会話ロボットは以上のように構成されているので、体をユーザの顔の正面に向けてからユーザと会話することができる。しかし、ユーザと会話する際、ロボットの台詞に対応するジェスチャーを交えることができないため、ユーザにロボットの台詞を感覚的に伝えることができず、ロボットが音声を出力するだけでは、ユーザと会話が成立しないことがあるなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、ジェスチャーを交えながらユーザと会話することができるボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラムを得ることを目的とする。

請求項１記載の発明に係るボディランゲージロボットは、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段と、ユーザが発している音声を入力する音声入力手段と、音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析手段と、台詞データ記憶手段から言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索手段と、検索手段により検索された台詞データにしたがって台詞を出力する台詞出力手段と、検索手段により検索された制御データにしたがって体を動かす体制御手段とを備えるようにしたものである。

請求項１記載の発明によれば、ジェスチャーを交えながらユーザと会話することができる効果が得られる。

請求項２記載の発明に係るボディランゲージロボットは、言葉解析手段により解析された言葉の発話速度を検出する発話速度検出手段を設け、台詞出力手段が発話速度検出手段により検出された発話速度に応じた速度で台詞を出力し、体制御手段が発話速度検出手段により検出された発話速度に応じた速度で体を動かすようにしたものである。

請求項２記載の発明によれば、ユーザの発話に応じた速度でロボットが応答することができるようになり、その結果、例えば、ボディランゲージロボットが英会話のレッスンに使用されるような場合には、英会話の習熟度に応じた対応ができる効果が得られる。

請求項３記載の発明に係るボディランゲージロボットは、ユーザの挙動を検出する挙動検出手段を設け、体制御手段が挙動検出手段により検出された挙動に応じて体の動きを調整するようにしたものである。

請求項３記載の発明によれば、ロボットの挙動をユーザの挙動に近づけることができるようになり、その結果、ユーザとロボットの親近感を高めて、英会話などの学習効果を高めることができる効果が得られる。

請求項４記載の発明に係るボディランゲージロボットは、言葉解析手段により解析された言葉が台詞出力手段から出力された台詞を聞き取ることができない旨を示している場合、台詞出力手段が上記台詞を再出力するとともに、体制御手段が体を再度動かすようにしたものである。

請求項４記載の発明によれば、ユーザがロボットの応答を確実に確認することができる効果が得られる。

請求項５記載の発明に係るボディランゲージロボットは、台詞出力手段が前回より大きな音で台詞を再出力するとともに、体制御手段が前回より大きく体を動かすようにしたものである。

請求項５記載の発明によれば、さらに、ユーザがロボットの応答を確実に確認することができる効果が得られる。

請求項６記載の発明に係るボディランゲージロボットは、台詞出力手段が台詞を再出力する際、前回より台詞の出力速度を下げるようにしたものである。

請求項６記載の発明によれば、さらに、ユーザがロボットの応答を確実に確認することができる効果が得られる。

請求項７記載の発明に係るボディランゲージロボットは、体制御手段が体を再度動かす際、前回より体の動作速度を下げるように動作させるものである。

請求項７記載の発明によれば、さらに、ユーザがロボットの応答を確実に確認することができる効果が得られる。

請求項８記載の発明に係るボディランゲージロボットは、音声入力手段に対する音声の入力方向を検出する入力方向検出手段を設け、体制御手段が入力方向検出手段により検出された音声の入力方向に体を向けてから体を動かすようにしたものである。

請求項８記載の発明によれば、ロボットに対する親近感を高めることができる効果が得られる。

請求項９記載の発明に係るボディランゲージロボットの制御方法は、音声入力手段がユーザが発している音声を入力する音声入力ステップと、言葉解析手段が音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析ステップと、検索手段がユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、検索手段がユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索ステップと、台詞出力手段が検索手段により検索された台詞データにしたがって台詞を出力する台詞出力ステップと、体制御手段が検索手段により検索された制御データにしたがって体を動かす制御ステップとを備えるようにしたものである。

請求項９記載の発明によれば、ジェスチャーを交えながらユーザと会話することができる効果が得られる。

請求項１０記載の発明に係るボディランゲージロボットの制御プログラムは、ユーザが発している音声を入力する音声入力処理手順と、音声入力処理手順により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析処理手順と、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から言葉解析処理手順により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索処理手順と、検索処理手順により検索された台詞データにしたがって台詞を出力する台詞出力処理手順と、検索処理手順により検索された制御データにしたがって体を動かす体制御処理手順とを備えるようにしたものである。

請求項１０記載の発明によれば、ジェスチャーを交えながらユーザと会話することができる効果が得られる。

この発明によれば、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段と、台詞データ記憶手段から言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、制御データ記憶手段から台詞に対応するジェスチャーを実現する制御データを検索する検索手段とを設け、台詞出力手段が検索手段により検索された台詞データにしたがって台詞を出力し、体制御手段が検索手段により検索された制御データにしたがって体を動かすように構成したので、ジェスチャーを交えながらユーザと会話することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１によるボディランゲージロボットの内部を示す構成図であり、図１において、会話集データベース１はユーザの言葉に応答する台詞を表現する音声データ（台詞データ）を記憶しているメモリである。なお、会話集データベース１は台詞データ記憶手段を構成している。
対応関係データベース２はユーザの言葉に応答する台詞に対応するジェスチャー番号を記憶しているメモリである。
ジェスチャーデータベース３はジェスチャー番号に対応するジェスチャーを実現する制御データを記憶しているメモリである。
なお、対応関係データベース２及びジェスチャーデータベース３から制御データ記憶手段が構成されている。
図１では、会話集データベース１、対応関係データベース２及びジェスチャーデータベース３がボディランゲージロボットの内部に実装されているものを示しているが、会話集データベース１、対応関係データベース２及びジェスチャーデータベース３がボディランゲージロボットの外部に設置されていてもよい。

マイク４はユーザが発している音声を入力して、その音声を音声入力部５に出力する。
音声入力部５はマイク４から出力された音声を示す音声信号を音声認識処理部６に出力する。
なお、マイク４及び音声入力部５から音声入力手段が構成されている。

音声認識処理部６は音声入力部５から出力された音声信号に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する。なお、音声認識処理部６は言葉解析手段を構成している。
音声データ検索部７は会話集データベース１に記憶されている音声データの中から、音声認識処理部６により解析された言葉に応答する台詞を表現する音声データを検索する処理を実施する。
制御データ検索部８は対応関係データベース２に記憶されているジェスチャー番号の中から、音声データ検索部７により検索された音声データが表現する台詞に対応するジェスチャー番号を検索したのち、ジェスチャーデータベース３に記憶されている制御データの中から、そのジェスチャー番号に対応するジェスチャーを実現する制御データを検索する処理を実施する。
なお、音声データ検索部７及び制御データ検索部８から検索手段が構成されている。

音声再生部９はスピーカやアンプなどから構成されており、タイミング発生部１１から出力されるタイミング信号に同期して、音声データ検索部７により検索された音声データを再生して、音声（台詞）を出力する処理を実施する。なお、音声再生部９は台詞出力手段を構成している。
体制御部１０はタイミング発生部１１から出力されるタイミング信号に同期して、制御データ検索部８により検索された制御データにしたがって例えばロボットの肩、肘、指、首などに搭載されているアクチュエータを制御することにより、例えばロボットの上肢、指や首などを動かす処理を実施する。なお、体制御部１０は体制御手段を構成している。
タイミング発生部１１は音声再生部９と体制御部１０の同期を確立するために、タイミング信号（例えば、所定周波数のパルス信号や、開始トリガ信号など）を音声再生部９及び体制御部１０に出力する。

図１の例では、ボディランゲージロボットの構成要素である音声入力部５、音声認識処理部６、音声データ検索部７、制御データ検索部８、音声再生部９、体制御部１０及びタイミング発生部１１がそれぞれ専用のハードウェア（例えば、ＣＰＵなどのＩＣを実装している半導体集積回路基板）で構成されていることを想定しているが、予め、音声入力部５、音声認識処理部６、音声データ検索部７、制御データ検索部８、音声再生部９、体制御部１０及びタイミング発生部１１の処理内容（音声入力処理手順、言葉解析処理手順、検索処理手順、台詞出力処理手順、体制御処理手順）を記述している制御プログラムをメモリに格納し、音声入力部５、音声認識処理部６、音声データ検索部７、制御データ検索部８、音声再生部９、体制御部１０及びタイミング発生部１１の代わりに、コンピュータのＣＰＵが当該メモリに格納されている制御プログラムを実行するようにしてもよい。

図２はこの発明の実施の形態１によるボディランゲージロボットを示す正面図であり、図３はこの発明の実施の形態１によるボディランゲージロボットを示す側面図である。
図２及び図３では、上肢、指や首を動かしてジェスチャーを行うボディランゲージロボットの例を示している。
図２，３において、ボディランゲージロボットの首２２には、頭２１を左右に回転させるアクチュエータや頭２１を傾げさせるアクチュエータなどが搭載されている。
ボディランゲージロボットの上腕部２３ａ，２３ｂは一端が可動自在に肩関節部２５ａ，２５ｂに取り付けられており、下腕部２４ａ，２４ｂは一端が可動自在に肘関節部２６ａ，２６ｂに取り付けられている。
また、ボディランゲージロボットの指２７ａ，２７ｂは一端が可動自在に手首関節部２８ａ，２８ｂに取り付けられている。

肩関節部２５ａ，２５ｂは体制御部１０の指示の下、例えば、上腕部２３ａ，２３ｂを矢印Ａ方向に回転させるアクチュエータや、上腕部２３ａ，２３ｂを矢印Ｂ方向にスイングさせるアクチュエータなどからなる機械要素である。
肘関節部２６ａ，２６ｂは体制御部１０の指示の下、例えば、下腕部２４ａ，２４ｂを矢印Ｃ方向に回転させるアクチュエータなどからなる機械要素である。
手首関節部２８ａ，２８ｂは体制御部１０の指示の下、例えば、指２７ａ，２７ｂを上げたり下げたりさせるアクチュエータなどからなる機械要素である。
なお、ボディランゲージロボットの胸部３０にはマイク４が埋め込まれ、ボディランゲージロボットの口２９には音声出力部９のスピーカが埋め込まれている。
ローラ３１はロボットの向きや位置を変える脚部である。

図４はこの発明の実施の形態１によるボディランゲージロボットの会話集データベース１に記憶されている台詞例を示す説明図である。
図５はこの発明の実施の形態１によるボディランゲージロボットの対応関係データベース２に記憶されている台詞とジェスチャー番号の対応関係例を示す説明図である。
図６はこの発明の実施の形態１によるボディランゲージロボットのジェスチャーデータベース３に記憶されているジェスチャー番号に対応するジェスチャー例を示す説明図である。
図７はこの発明の実施の形態１によるボディランゲージロボットの制御方法を示すフローチャートである。

次に動作について説明する。
ユーザがボディランゲージロボットに向かって発話すると（ステップＳＴ１）、ボディランゲージロボットのマイク４がユーザの音声を入力して、その音声を音声入力部５に出力する（ステップＳＴ２）。
音声入力部５は、マイク４から音声を受けると、その音声を示す音声信号を音声認識処理部６に出力する（ステップＳＴ３）。

音声認識処理部６は、音声入力部５から音声信号を受けると、その音声信号に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する（ステップＳＴ４）。
ここで、図８は音声認識処理部６の内部を示す構成図である。
以下、図８を参照して、音声認識処理部６の処理内容を具体的に説明する。

音声認識処理部６の特徴抽出部４１は、音声入力部５から音声信号を受けると、その音声信号に対して、例えば、ＬＰＣ分析を実行することにより、その音声信号の対数パワー、１６次ケプストラム係数、Δ対数パワー及びΔ１６次ケプストラム係数を含む３４次元の特徴パラメータを抽出する。
音声認識処理部６の音素照合部４２は、特徴抽出部４１が特徴パラメータを抽出すると、ＨＭＭメモリ４３に格納されている隠れマルコフモデル（隠れマルコフモデルは、複数の状態と、各状態間の遷移を示す弧とから構成されており、各弧には状態間の遷移確率と入力コード（特徴パラメータ）に対する出力確率が格納されている）を用いて音素照合処理を実施することにより、その特徴パラメータから音素データを生成する。

音声認識処理部６の音声認識部４４は、音素照合部４２が音素データを生成すると、言語モデル格納部４５に格納されている統計的言語モデルを参照して、例えば、ＯｎｅＰａｓｓＤＰアルゴリズムを実行する。
即ち、音声認識部４３は、その音素データについて左から右方向に、後戻りなしに処理して、より高い生起確率の単語を音声認識結果（ユーザの言葉）に決定する音声認識処理を実施する。

ここでは、音声認識処理部６が図８のように構成されている例を示したが、これはあくまでも一例であり、他の音声認識処理方法を用いて、ユーザの言葉を解析するようにしてもよいことは言うまでもない。

音声データ検索部７は、音声認識処理部６がユーザの言葉を解析すると、会話集データベース１に記憶されている音声データの中から、ユーザの言葉に応答する台詞（ロボットの台詞）を表現する音声データを検索する（ステップＳＴ５）。
例えば、音声認識処理部６により解析されたユーザの言葉が“I'm fine thank you”であれば、図４に示すように、“What's up?”または“What's new?”が、ユーザの言葉に応答する台詞に相当する。
この例のように、ユーザの言葉に応答する台詞が複数存在する場合、いずれかの台詞をランダムに選択するようにしてもよいし、例えば、天気や気温などの周りの状況に応じて台詞の選択方法を決定してもよい。
ユーザの言葉に応答する台詞が存在しない場合（ステップＳＴ６）、ユーザの発話待ちの状態に戻る。
なお、台詞を表現する音声データは、音声再生部９が読み取り可能なデータ形式であれば、如何なるデータ形式でもよい。

制御データ検索部８は、音声データ検索部７がユーザの言葉に応答する台詞を表現する音声データを検索すると（ステップＳＴ６）、図５の対応関係データベース２に記憶されているジェスチャー番号の中から、その音声データが表現する台詞（ロボットの台詞）に対応するジェスチャー番号を検索する（ステップＳＴ７）。
例えば、ロボットの台詞が“What's up?”であれば、ジェスチャー番号“７”を検索し、ロボットの台詞が“What's new?”であれば、ジェスチャー番号“８”を検索する。
また、ロボットの台詞が、例えば、“I'm fine?”であれば、ジェスチャー番号“５”とジェスチャー番号“１５”を検索するが、このようにロボットの台詞に対応するジェスチャー番号が複数存在する場合、いずれかのジェスチャー番号をランダムに選択するようにしてもよいし、例えば、天気や気温などの周りの状況に応じてジェスチャー番号の選択方法を決定してもよい。
なお、制御データ検索部８は、音声データ検索部７によりロボットの台詞が無い音声データとして、例えば、“無音情報５”が検索されたような場合でも、その無音情報５に対応するジェスチャー番号“３４”を検索する。

また、制御データ検索部８は、ロボットの台詞に対応するジェスチャー番号を検索すると、図６のジェスチャーデータベース３に記憶されている制御データの中から、そのジェスチャー番号に対応するジェスチャーを実現する制御データを検索する（ステップＳＴ８）。
例えば、ロボットの台詞に対応するジェスチャー番号が“７”であれば、ジェスチャー「手のひらを上にして相手に手を向ける」を実現する制御データを検索する。

なお、ジェスチャーを実現する制御データは、例えば、下記に示すように、実現するジェスチャーに応じて首２２、肩関節部２５ａ，２５ｂ、肘関節部２６ａ，２６ｂ、手首関節部２８ａ，２８ｂなどのアクチュエータの回転角度を指示する指令値である。
（θ１，α１，α２，β１，β２，γ１，γ２）
＝（３５°，８２°，９５°，４５°，４８°，６８°，７０°）
ただし、θ１は首２２の回転角度
α１，α２は肩関節部２５ａ，２５ｂの回転角度
β１，β２は肘関節部２６ａ，２６ｂの回転角度
γ１，γ２は手首関節部２８ａ，２８ｂの回転角度

音声再生部９は、音声データ検索部７がユーザの言葉に応答する台詞を表現する音声データを検索すると、タイミング発生部１１から出力されるタイミング信号に同期して、その音声データを再生することにより、スピーカからユーザに向けて音声（台詞）を出力する（ステップＳＴ９）。
体制御部１０は、制御データ検索部８が制御データを検索し、音声再生部９が音声データの再生を開始すると、その音声再生部９における音声データの再生に合わせながら、ロボットの上肢、指や首などを動かすため、タイミング発生部１１から出力されるタイミング信号に同期して、その制御データにしたがって首２２、肩関節部２５ａ，２５ｂ、肘関節部２６ａ，２６ｂ、手首関節部２８ａ，２８ｂに搭載されているアクチュエータを制御することにより、ロボットの上肢、指や首などを動かす処理を実施する（ステップＳＴ１０）。
ユーザとロボットの会話は、例えば、図示せぬスイッチでロボットの電源をオフしない限り、継続的に行われる（ステップＳＴ１１）。

以上で明らかなように、この実施の形態１によれば、ユーザの言葉に応答する台詞を表現する音声データを記憶している会話集データベース１と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶しているジェスチャーデータベース３と、会話集データベース１から音声認識処理部６により解析された言葉に応答する台詞を表現する音声データを検索する音声データ検索部７と、ジェスチャーデータベース３から台詞に対応するジェスチャーを実現する制御データを検索する制御データ検索部８とを設け、音声再生部９が音声データ検索部７により検索された音声データにしたがって音声を出力し、体制御部１０が制御データ検索部８により検索された制御データにしたがって体を動かすように構成したので、ジェスチャーを交えながらユーザと会話することができるようになり、その結果、ロボットが音声を出力するだけでは、伝えきれないニュアンスをユーザに伝えることができる。そのため、例えば、ボディランゲージロボットが英会話のレッスンに使用されるような場合には、英会話の習熟度を高めることができる効果を奏する。

実施の形態２．
図９はこの発明の実施の形態２によるボディランゲージロボットの内部を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
発話速度検出部１２は音声認識処理部６により解析された言葉の発話速度を検出する処理を実施する。なお、発話速度検出部１２は発話速度検出手段を構成している。

上記実施の形態１では、音声再生部９における音声データの再生速度と、体制御部１０におけるアクチュエータの制御速度が予め調整されており、ユーザの言葉の発話速度にかかわらず、常に一定の速度で、音声データの再生やアクチュエータの制御が行われるものについて示したが、ユーザの言葉の発話速度に応じて音声データの再生速度やアクチュエータの制御速度を調整するようにしてもよい。
具体的には、以下の通りである。

発話速度検出部１２は、音声認識処理部６における音声認識処理を監視して、ユーザの言葉の発話速度Ｖを検出する。
即ち、発話速度検出部１２は、音声認識処理部６における音声認識処理を監視して、ユーザの言葉の発話時間を計測する。
例えば、音声認識処理部６により解析されたユーザの言葉が“I'm fine thank you”であれば、“I'm fine thank you”の発話時間を計測する。ここでは、説明の便宜上、１．２秒であるとする。

発話速度検出部１２は、ユーザの言葉の発話時間を計測すると、下記に示すように、“I'm fine thank you”という言葉の基本発話時間（例えば、１．１秒に設定されているものとする）に対するユーザの発話時間の遅れ具合Ｒを計算する。
Ｒ＝（（基本発話時間−ユーザの発話時間）／基本発話時間）×１００％
＝（（１．２−１．１）／１．２）×１００％
＝８．３％
発話速度検出部１２は、言葉の基本発話時間に対するユーザの発話時間の遅れ具合Ｒを計算すると、下記に示すように、その言葉の基本発話速度Ｖ_refに遅れ具合Ｒを乗算し、その乗算結果をユーザの言葉の発話速度Ｖとして、音声再生部９及び体制御部１０に出力する。
Ｖ＝Ｖ_ref×Ｒ

音声再生部９は、発話速度検出部１２からユーザの言葉の発話速度Ｖを受けると、例えば、その発話速度Ｖに比例する再生速度で音声データを再生する。
体制御部１０は、発話速度検出部１２からユーザの言葉の発話速度Ｖを受けると、例えば、その発話速度Ｖに比例する制御速度でアクチュエータを制御する。

ここでは、音声再生部９が発話速度検出部１２により検出された発話速度Ｖに比例する再生速度で音声データを再生し、体制御部１０が発話速度検出部１２により検出された発話速度Ｖに比例する制御速度でアクチュエータを制御するものについて示したが、タイミング発生部１１が発話速度検出部１２により検出された発話速度Ｖに応じてタイミング信号のパルス発生周期を変更することにより、音声再生部９における音声データの再生速度及び体制御部１０におけるアクチュエータの制御速度を変更するようにしてもよい。
例えば、タイミング発生部１１から出力されるタイミング信号のパルス発生周期が長くなれば、音声再生部９における音声データの再生速度及び体制御部１０におけるアクチュエータの制御速度が遅くなる。一方、タイミング発生部１１から出力されるタイミング信号のパルス発生周期が短くなれば、音声再生部９における音声データの再生速度及び体制御部１０におけるアクチュエータの制御速度が速くなる。

以上で明らかなように、この実施の形態２によれば、音声認識処理部６により解析された言葉の発話速度を検出する発話速度検出部１２設け、音声再生部９が発話速度検出部１２により検出された発話速度Ｖに応じた速度で音声を再生し、体制御部１０が発話速度検出部１２により検出された発話速度Ｖに応じた速度でロボットの体を動かすように構成したので、ユーザの発話に応じた速度でロボットが応答することができるようになり、その結果、例えば、ボディランゲージロボットが英会話のレッスンに使用されるような場合には、英会話の習熟度に応じた対応ができる効果を奏する。

実施の形態３．
図１０はこの発明の実施の形態３によるボディランゲージロボットの内部を示す構成図であり、図において、図９と同一符号は同一または相当部分を示すので説明を省略する。
挙動検出部１３は例えばユーザを撮影するカメラを実装しており、ユーザが発話しているとき（音声認識処理部６によりユーザの言葉が解析されているとき）、そのカメラの映像を解析してユーザの挙動を検出する処理を実施する。なお、挙動検出部１３は挙動検出手段を構成している。

上記実施の形態２では、体制御部１０が発話速度検出部１２により検出された発話速度Ｖに応じた速度でロボットの体を動かすものについて示したが、ユーザの挙動に応じてロボットのジェスチャーを調整するようにしてもよい。
具体的には、以下の通りである。

挙動検出部１３は、ユーザが発話しているとき（音声認識処理部６によりユーザの言葉が解析されているとき）、例えば、内蔵しているカメラがユーザを撮影すると、今回撮影されたカメラの映像と、前回撮影されたカメラの映像とを比較して、映像中のユーザの動きを検出する。
即ち、挙動検出部１３は、双方の映像からユーザの映像部分を切り出し、例えば、２つのユーザの映像の重なり面積Ｓ１と、重なっていない面積Ｓ２とを算出する。
挙動検出部１３は、映像の重なり面積Ｓ１と、重なっていない面積Ｓ２とを算出すると、下記に示すように、重なっていない面積Ｓ２の割合Ｃを計算する。
Ｃ＝Ｓ２／（Ｓ１＋Ｓ２）
挙動検出部１３は、重なっていない面積Ｓ２の割合Ｃを計算すると、重なっていない面積Ｓ２の割合Ｃが大きいほど、ユーザの動きが大きいと判断し、その割合Ｃに比例する動き情報Ｍ（ユーザの動きの大きさを示す情報）を体制御部１０に出力する。

体制御部１０は、上記実施の形態１，２と同様に、制御データ検索部８により検索された制御データにしたがってアクチュエータを制御するが、挙動検出部１３から出力された動き情報Ｍが大きい程、ロボットの動きが大きくなるようにアクチュエータを制御する。
例えば、右手を上に１０ｃｍ上げるようなジェスチャーを実現する制御データを受けているとき、動き情報Ｍが例えば“１．５”であれば、１５ｃｍ（＝１０ｃｍ×１．５）上げるようなジェスチャーを実現する。

以上で明らかなように、この実施の形態３によれば、ユーザの挙動を検出する挙動検出部１３を設け、体制御部１０が挙動検出部１３により検出された挙動に応じて体の動きを調整するように構成したので、ロボットの挙動をユーザの挙動に近づけることができるようになり、その結果、ユーザとロボットの親近感を高めて、英会話などの学習効果を高めることができる効果を奏する。

実施の形態４．
上記実施の形態１〜３では、音声再生部９が音声データ検索部７により検索された音声データにしたがって音声を出力するものについて示したが、音声再生部９が音声を出力したのち、再度、ユーザが発話して、音声認識処理部６により解析されたユーザの言葉が、音声再生部９から出力された音声を聞き取ることができない旨を示している場合、音声再生部９が上記音声を再出力し、体制御部１０が前回と同一の動きを再現するようにしてもよい。
図１１はこの発明の実施の形態４によるボディランゲージロボットの内部を示す構成図である。

具体的には、以下の通りである。
音声再生部９が音声を出力したのち、ユーザがボディランゲージロボットに向かって発話すると、上記実施の形態１と同様に、ボディランゲージロボットのマイク４がユーザの音声を入力して、その音声を音声入力部５に出力する。
音声入力部５は、マイク４から音声を受けると、上記実施の形態１と同様に、その音声を示す音声信号を音声認識処理部６に出力する。

音声認識処理部６は、音声入力部５から音声信号を受けると、上記実施の形態１と同様に、その音声信号に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する。
音声認識処理部６は、ユーザの言葉が、例えば“音声を聞き取ることができない”（予め、設定されているＮＧの場合の言葉）旨を示している場合、図１１に示すように、再出力指令を音声再生部９及び体制御部１０に出力する。

音声再生部９は、音声認識処理部６から再出力指令を受けると、前回出力した音声と同じ音声を再度出力する。なお、音声再生部９は、前回と同じ音声を再度出力する際、音声の聞き取りを容易にするため、前回より大きな音声で出力する。あるいは、前回より音声の出力速度を下げるようにする。
体制御部１０は、音声認識処理部６から再出力指令を受けると、前回と同一の動きを再現する。なお、体制御部１０は、前回と同一の動きを再現する際、前回より大きく体を動動作させるようにする。また、この際、前回より体の動作速度を下げるよう動作させ、ユーザがロボットの応答を確実に確認できるようにしてもよい。

以上で明らかなように、この実施の形態４によれば、音声認識処理部６により解析された言葉が音声再生部９から出力された音声を聞き取ることができない旨を示している場合、音声再生部９が上記音声を再出力するとともに、体制御部１０が体を再度動かすように構成したので、ユーザがロボットの応答を確実に確認することができる効果を奏する。

実施の形態５．
図１２はこの発明の実施の形態５によるボディランゲージロボットの内部を示す構成図であり、図１３はこの発明の実施の形態５によるボディランゲージロボットの音声入力部１４を示す構成図である。
図において、図１１と同一符号は同一または相当部分を示すので説明を省略する。
音声入力部１４は例えば相互に指向方向が異なる複数の指向性マイク１４ａと入力方向検出部１４ｂから構成されており、複数の指向性マイク１４ａが音声を入力すると、入力方向検出部１４ｂが複数の指向性マイク１４ａのうち、最も高い音圧を検出した指向性マイク１４ａの音声信号を音声認識処理部６に出力するとともに、その指向性マイク１４ａの指向方向を音声の入力方向として体制御部１０に出力する処理を実施する。
なお、音声入力部１４は音声入力手段及び入力方向検出手段を構成している。

上記実施の形態１〜４では、体制御部１０が制御データ検索部８により検索された制御データにしたがって体を動かすものについて示したが、音声入力部１４の入力方向検出部１４ｂが音声の入力方向を検出し、体制御部１０が音声の入力方向にロボットの体を向けてから、制御データにしたがって体を動かすようにしてもよい。
具体的には、以下の通りである。

音声入力部１４には、図１３に示すように、相互に指向方向が異なる複数の指向性マイク１４ａが実装されている。
音声入力部１４における複数の指向性マイク１４ａは、ユーザがボディランゲージロボットに向かって発話すると、ユーザの音声を入力して、その音声信号を入力方向検出部１４ｂに出力する。
ただし、複数の指向性マイク１４ａは相互に指向方向が異なるので、ユーザに正対する位置にある指向性マイク１４ａが最も高い音圧を検出する。
図１３の例では、最も下に図示している指向性マイク１４ａが最も高い音圧を検出する。

音声入力部１４の入力方向検出部１４ｂは、複数の指向性マイク１４ａから音声信号を受けると、それらの音声信号の音圧を相互に比較し、最も高い音圧を検出している指向性マイク１４ａを特定する。
入力方向検出部１４ｂは、最も高い音圧を検出している指向性マイク１４ａを特定すると、その指向性マイク１４ａから出力された音声信号を音声認識処理部６に出力する。
また、入力方向検出部１４ｂは、最も高い音圧を検出している指向性マイク１４ａの指向方向を音声の入力方向として体制御部１０に出力する。

体制御部１０は、制御データ検索部８が制御データを検索すると、上記実施の形態１〜４と同様に、その制御データにしたがって体を動かすが、この実施の形態５では、音声入力部１４の入力方向検出部１４ｂから出力された音声の入力方向にロボットが正対するように、ロボットのローラ３１を制御してから、その制御データにしたがってアクチュエータを制御して体を動かすようにする。

以上で明らかなように、この実施の形態５によれば、音声の入力方向を検出する音声入力部１４を設け、体制御部１０が音声入力部１４により検出された音声の入力方向に体を向けてから体を動かすように構成したので、ロボットに対する親近感を高めることができる効果を奏する。

実施の形態６．
上記実施の形態１〜５では、ジェスチャーデータベース３がユーザの言葉に応答する台詞を表現する音声データ（ジェスチャー番号）に対応するジェスチャーを実現する制御データを記憶しているものについて示したが、ジェスチャーデータベース３がユーザの言葉に応答する台詞を表現する手話を実現する制御データを記憶するようにしてもよい。
この場合、体制御部１０は、ロボットの手を動かして、音声再生部９が再生している音声と同じ意味を表現する手話（ジェスチャー）を行うことになる。
これにより、ユーザの耳に障害がある場合や、ユーザが手話を勉強する場合でも、ロボットを利用することができる効果を奏する。

この発明の実施の形態１によるボディランゲージロボットの内部を示す構成図である。この発明の実施の形態１によるボディランゲージロボットを示す正面図である。この発明の実施の形態１によるボディランゲージロボットを示す側面図である。この発明の実施の形態１によるボディランゲージロボットの会話集データベース１に記憶されている台詞例を示す説明図である。この発明の実施の形態１によるボディランゲージロボットの対応関係データベース２に記憶されている台詞とジェスチャー番号の対応関係例を示す説明図である。この発明の実施の形態１によるボディランゲージロボットのジェスチャーデータベース３に記憶されているジェスチャー番号に対応するジェスチャー例を示す説明図である。この発明の実施の形態１によるボディランゲージロボットの制御方法を示すフローチャートである。音声認識処理部６の内部を示す構成図である。この発明の実施の形態２によるボディランゲージロボットの内部を示す構成図である。この発明の実施の形態３によるボディランゲージロボットの内部を示す構成図である。この発明の実施の形態４によるボディランゲージロボットの内部を示す構成図である。この発明の実施の形態５によるボディランゲージロボットの内部を示す構成図である。この発明の実施の形態５によるボディランゲージロボットの音声入力部１４を示す構成図である。

符号の説明

１会話集データベース（台詞データ記憶手段）
２対応関係データベース（制御データ記憶手段）
３ジェスチャーデータベース（制御データ記憶手段）
４マイク（音声入力手段）
５音声入力部（音声入力手段）
６音声認識処理部（言葉解析手段）
７音声データ検索部（検索手段）
８制御データ検索部（検索手段）
９音声再生部（台詞出力手段）
１０体制御部（体制御手段）
１１タイミング発生部
１２発話速度検出部（発話速度検出手段）
１３挙動検出部（挙動検出手段）
１４音声入力部（音声入力手段、入力方向検出手段）
１４ａ指向性マイク
１４ｂ入力方向検出部
２１頭
２２首
２３ａ，２３ｂ上腕部
２４ａ，２４ｂ下腕部
２５ａ，２５ｂ肩関節部
２６ａ，２６ｂ肘関節部
２７ａ，２７ｂ指
２８ａ，２８ｂ手首関節部
２９口
３０胸部
３１ローラ
４１特徴抽出部
４２音素照合部
４３ＨＭＭメモリ
４４音声認識部
４５言語モデル格納部

Claims

ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段と、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段と、ユーザが発している音声を入力する音声入力手段と、上記音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析手段と、上記台詞データ記憶手段から上記言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、上記制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索手段と、上記検索手段により検索された台詞データにしたがって台詞を出力する台詞出力手段と、上記検索手段により検索された制御データにしたがって体を動かす体制御手段とを備えたボディランゲージロボット。
言葉解析手段により解析された言葉の発話速度を検出する発話速度検出手段を設け、台詞出力手段が上記発話速度検出手段により検出された発話速度に応じた速度で台詞を出力し、体制御手段が上記発話速度検出手段により検出された発話速度に応じた速度で体を動かすことを特徴とする請求項１記載のボディランゲージロボット。
ユーザの挙動を検出する挙動検出手段を設け、体制御手段が上記挙動検出手段により検出された挙動に応じて体の動きを調整することを特徴とする請求項１または請求項２記載のボディランゲージロボット。
言葉解析手段により解析された言葉が台詞出力手段から出力された台詞を聞き取ることができない旨を示している場合、上記台詞出力手段が上記台詞を再出力するとともに、体制御手段が体を再度動かすことを特徴とする請求項１から請求項３のうちのいずれか１項記載のボディランゲージロボット。
台詞出力手段が前回より大きな音で台詞を再出力するとともに、体制御手段が前回より大きく体を動かすことを特徴とする請求項４記載のボディランゲージロボット。
台詞出力手段は、台詞を再出力する際、前回より台詞の出力速度を下げることを特徴とする請求項４記載のボディランゲージロボット。
体制御手段は、体を再度動かす際、前回より体の動作速度を下げることを特徴とする請求項４記載のボディランゲージロボット。
音声入力手段に対する音声の入力方向を検出する入力方向検出手段を設け、体制御手段が上記入力方向検出手段により検出された音声の入力方向に体を向けてから体を動かすことを特徴とする請求項１から請求項７のうちのいずれか１項記載のボディランゲージロボット。
音声入力手段がユーザが発している音声を入力する音声入力ステップと、言葉解析手段が上記音声入力手段により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析ステップと、検索手段がユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から上記言葉解析手段により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索ステップと、台詞出力手段が上記検索手段により検索された台詞データにしたがって台詞を出力する台詞出力ステップと、体制御手段が上記検索手段により検索された制御データにしたがって体を動かす制御ステップとを備えたボディランゲージロボットの制御方法。
ユーザが発している音声を入力する音声入力処理手順と、上記音声入力処理手順により入力された音声に対する音声認識処理を実施して、その音声内容であるユーザの言葉を解析する言葉解析処理手順と、ユーザの言葉に応答する台詞を表現する台詞データを記憶している台詞データ記憶手段から上記言葉解析処理手順により解析された言葉に応答する台詞を表現する台詞データを検索するとともに、ユーザの言葉に応答する台詞に対応するジェスチャーを実現する制御データを記憶している制御データ記憶手段から上記台詞に対応するジェスチャーを実現する制御データを検索する検索処理手順と、上記検索処理手順により検索された台詞データにしたがって台詞を出力する台詞出力処理手順と、上記検索処理手順により検索された制御データにしたがって体を動かす体制御処理手順とをコンピュータに実行させるためのボディランゲージロボットの制御プログラム。