JP2011227236A

JP2011227236A - 音声対話装置

Info

Publication number: JP2011227236A
Application number: JP2010095770A
Authority: JP
Inventors: Sachie Sakata; さち恵坂田
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2010-04-19
Filing date: 2010-04-19
Publication date: 2011-11-10
Anticipated expiration: 2030-04-19
Also published as: JP5405381B2

Abstract

【課題】中断した発話を円滑に再開する音声対話装置を提供する。
【解決手段】音声対話装置（コミュニケーションロボット）は、音声合成部２１ａによって、発話情報に基づいて音声出力（発話）する。音声対話装置は、音声入力部２１ｂによって音声の入力を検出すると、発話中断処理手段４７３ａによって音声合成部２１ａによる発話を中断させる。次に、音声対話装置は、応答行動選択手段４７３ｃによって、中断の原因となった入力音声に対する応答行動を選択して実行する。そして、音声対話装置は、再開位置決定手段４７３ｂによって、応答行動の実行状況に応じて、中断させた発話情報おける発話の再開位置を決定し、決定した再開位置から発話を再開させる。
【選択図】図８

Description

本発明は、人間との音声による対話が可能な音声対話装置に係り、音声対話装置が発話中であっても、周囲の状況に応じて発話を中断させて応答し、応答後に元の発話を再開させる音声対話装置に関する。

音声対話装置は、コミュニケーションロボットやカーナビゲーション装置などに搭載されている。例えば、このような音声対話装置が製品などの説明を行うときは、従来はシナリオが固定的であり、人間が自由なタイミングで質問などをしても、音声対話装置は応答することができなかった。
また、発話を中断させた後、発話を再開させるときに、音声対話装置は、中断させた発話文の最初からしか発話を再開できなかった。例えば、特許文献１（段落００２０、図３参照）には、中断させた対話を再開させるときに、最後に応答した発話内容を再び発話させる音声対話装置が記載されている。

特開平１１−１２６０８９号公報

特許文献１に記載された音声対話装置では、中断から再開までの時間が長い場合には、中断前の発話を繰り返すことで、対話対象である人物に発話内容を思い出しやすくすることができる。しかし、特許文献１に記載された発明は、短時間の中断であった場合でも、その人物は再度同じ発話を聞くことになり、発話が冗長になるためにストレスを感じることがあるという問題があった。

本発明はかかる課題に鑑みてなされたものであり、本発明の目的は、中断させた発話を円滑に再開させる音声対話装置を提供することである。

前記した目的を達成するために、請求項１に記載の音声対話装置は、外部情報取得手段と、音声出力部と、音声出力中断処理手段と応答行動選択手段と再開位置決定手段とを有する応答行動制御手段と、を備える構成とした。

かかる構成によれば、音声対話装置は、外部情報取得手段によって周囲状況としての外部情報を取得する。ここで、外部情報とは、例えば、周囲の音声を採音した音声データや周囲にいる人物を特定する個人識別情報、周囲を撮影した画像データなどと、これらのデータや情報を解析して得られる音量や発話内容、人物のいる方向を示す情報などのことである。

また、音声対話装置は、音声出力部によって、発話情報に基づいて音声出力（発話）する。音声対話装置は、音声出力中断処理手段によって、外部情報取得手段で取得した外部情報に基づいて、音声出力部が音声出力中の場合は、音声出力部による音声出力を中断させる。
そして、音声対話装置は、音声出力部による音声出力を中断させた場合には、応答行動選択手段によって、音声出力部による音声出力の中断の原因となった状況に対する応答行動を選択する。
そして、音声対話装置は、この中断の原因となった状況に対する応答行動を実行後に、再開位置決定手段によって、この応答行動の実行状況に応じて、音声出力部による音声出力を中断させた発話情報における再開位置を決定する。
そして、音声対話装置は、応答行動制御手段によって、再開位置決定手段で決定した再開位置から、音声出力部による音声出力を中断させた発話情報の音声出力部による音声出力を再開させる。
これによって、音声対話装置は、外部情報に基づいて把握される状況に応じて、適宜に音声出力部による音声出力を中断して応答し、応答後にこの応答の実行状況に応じて音声出力部による音声出力が中断された元の発話情報の、音声出力部による音声出力を再開する。

請求項２に記載の音声対話装置は、請求項１に記載の音声対話装置において、外部情報取得手段として、入力された音声を分析して、少なくとも音量を含む音声分析結果を外部情報として出力する音声入力部を含むように構成した。

かかる構成によれば、音声対話装置は、外部情報取得手段である音声入力部によって、入力された音声を分析して、少なくとも音量を含む音声分析結果を出力する。そして、音声対話装置は、音声出力中断処理手段によって、音声入力部から出力された音量を含む音声分析結果に基づいて、例えば、一定値以上の音量の音声入力があった場合に、音声出力部による音声出力を中断させる。

請求項３に記載の音声対話装置は、請求項１または請求項２に記載の音声対話装置において、音声中断処理手段は、外部情報に基づいて、音声出力部による発話情報の音声出力を、即時に中断させるか、発話情報において意味のまとまりによって定められる区切りの末尾で中断させるかを決定するように構成した。

かかる構成によれば、音声対話装置は、音声出力部による音声出力を中断させる状況になった場合に、音声中断処理手段によって、さらに、外部情報に基づく状況に応じて、中断タイミングとして、即時に中断させるか、発話情報において意味のまとまりによって定められる区切りの末尾で中断させるかを決定する。そして、音声対話装置は、音声出力中断処理手段によって、この決定されたタイミングで音声出力部による音声出力を中断させる。

請求項４に記載の音声対話装置は、請求項１ないし請求項３の何れか一項に記載の音声対話装置において、外部情報取得手段として、入力された音声を音声認識して少なくとも単語を含む音声認識結果を外部情報として出力する音声認識部を少なくとも含むように構成した。

かかる構成によれば、音声対話装置は、外部情報取得手段である音声認識部によって、入力された音声を音声認識して、入力された音声に含まれる発話内容である単語を少なくとも含む音声認識結果を出力する。そして、音声対話装置は、音声出力中断処理手段により音声出力部による音声出力を中断させると、応答行動選択手段によって、音声認識部から出力された単語を含む音声認識結果に基づいて、例えば、単語（発話内容）に対する回答を、応答行動として選択する。そして、音声対話装置は、応答行動制御手段によって、応答行動選択手段で選択した応答行動を実行させる。

請求項５に記載の音声対話装置は、請求項４に記載の音声対話装置において、応答行動制御手段は、回答要否判定手段をさらに有するように構成した。

かかる構成によれば、音声対話装置は、回答要否判定手段によって、少なくとも音声認識部から出力された音声認識結果を含む情報に基づいて、この音声認識の対象となった入力された音声に対して回答する必要があるか不要かを判定する。音声対話装置は、回答要否判定手段による判定結果である回答要否判定結果が回答必要の場合には、応答行動選択手段によって、応答行動として音声認識結果に対する回答を行うことを選択する。一方、音声対話装置は、回答要否判定結果が回答不要の場合には、応答行動選択手段によって、応答行動として予め定められた所定の発話を含む所定の応答行動を行うことを選択する。そして、音声対話装置は、応答行動選択手段によって、選択した応答行動を実行する。

請求項６に記載の音声対話装置は、請求項１ないし請求項５の何れか一項に記載の音声対話装置において、再開位置決定手段は、少なくとも応答行動を実行するために音声出力部による音声出力が中断された時間の長さである中断時間長に基づいて再開位置を決定するように構成した。

かかる構成によれば、音声対話装置は、応答行動選択手段により選択した応答行動を実行した後に、この応答行動の割り込みによって中断された音声出力部による音声出力の中断時間長に基づいて、音声出力部による音声出力が中断された発話情報における再開位置を適応的に決定する。そして、音声対話装置は、応答行動制御手段によって、再開位置決定手段で決定した再開位置から音声出力部による音声出力が中断された発話情報の、音声出力部による音声出力を再開させる。

請求項７に記載の音声対話装置は、請求項６に記載の音声対話装置において、再開位置決定手段は、中断時間長が、予め定められた所定の閾値を超えるかどうかで、再開位置を決定するように構成した。

かかる構成によれば、音声対話装置は、再開位置決定手段によって、中断時間長が予め定められた所定の閾値を超える場合には、音声出力部による音声出力が中断された発話情報における先頭を再開位置として決定し、中断時間長が所定の閾値以下の場合には、意味のまとまりによって定められる区切りの先頭であって音声出力部による音声出力が中断された発話情報における中断位置の直前の区切りの先頭を再開位置として決定する。そして、音声対話装置は、応答行動制御手段によって、再開位置決定手段で決定した再開位置から音声出力部による音声出力が中断された発話情報の、音声出力部による音声出力を再開させる。

請求項８に記載の音声対話装置は、請求項５に記載の音声対話装置において、再開位置決定手段は、回答要否判定結果に応じて、再開位置を決定するように構成した。

かかる構成によれば、音声対話装置は、再開位置決定手段によって、回答要否判定手段による判定結果である回答要否判定結果が回答必要の場合には、音声出力部による音声出力が中断された発話情報における先頭を再開位置として決定し、回答要否判定結果が回答不要の場合には、意味のまとまりによって定められる少なくとも１つの単語を含んで構成される区切りの先頭であって音声出力部による音声出力が中断された発話情報における中断位置の直前の区切りの先頭を再開位置に決定する。そして、音声対話装置は、応答行動制御手段によって、再開位置決定手段で決定した再開位置から、音声出力部による音声出力が中断された発話情報の、音声出力部による音声出力を再開させる。

請求項９に記載の音声対話装置は、請求項７または請求項８に記載の音声対話装置において、区切りは、１つまたは複数の文節によって構成するようにした。

かかる構成によれば、音声対話装置は、再開位置決定手段によって、音声出力部による音声出力が中断された発話情報の再開位置を決定する際に、発話情報の先頭以外から再開するように決定する場合は、１つまたは複数の文節によって構成される区切りを単位とした再開位置を決定する。そして、音声対話装置は、応答行動制御手段によって、再開位置決定手段が決定した再開位置である、発話情報の先頭か、または発話情報において音声出力部による音声出力が中断された位置を含む区切りの先頭、すなわち文節の先頭から音声出力部による音声出力を再開させる。

請求項１０に記載の音声対話装置は、請求項９に記載の音声対話装置において、区切りは、係り受けによって意味のまとまりがある１つまたは複数の文節によって構成するようにした。

かかる構成によれば、音声対話装置は、再開位置決定手段によって、音声出力部による音声出力が中断された発話情報の再開位置を決定する際に、発話情報の先頭以外から再開するように決定する場合は、係り受けによって意味のまとまりがある１つまたは複数の文節によって構成される区切りを単位とした再開位置を決定する。そして、音声対話装置は、応答行動制御手段によって、再開位置決定手段が決定した再開位置である、発話情報の先頭か、または発話情報において音声出力部による音声出力が中断された位置を含む区切りの先頭、すなわち係り受けによって意味のまとまりがある文節群の先頭から音声出力部による音声出力を再開させる。

請求項１に記載の発明によれば、音声対話装置は、周囲の状況に対する応答の実行状況に応じて、適応的に音声出力の再開位置を決定するため、対話対象にストレスを感じさせることなく中断させた音声出力を円滑に再開させることができる。
請求項２に記載の発明によれば、音声対話装置は、少なくとも音量に基づいて音声出力を中断させるため、対話対象である人物の音声による質問などに対して、音声出力を中断させて迅速に応答することができる。

請求項３に記載の発明によれば、音声対話装置は、外部の状況に応じて音声出力を中断させるタイミングを適応的に決定するため、不用意に音声出力が中断されず、対話対象である人物は、違和感なく音声対話装置による音声出力を聴取することができる。
請求度４に記載の発明によれば、音声対話装置は、音声出力を中断させて、対話対象である人物の発話内容を音声認識した音声認識結果に応じた応答行動をするため、固定したシナリオに限定されず、自由なタイミングで対話対象と対話を行うことができる。
請求項５に記載の発明によれば、音声対話装置は、少なくとも音声認識結果に基づく回答要否判定結果に応じて応答行動を選択するため、例えば、対話対象である人物の相槌などの回答不要な音声が入力されたために音声出力を中断させた場合と、回答が必要な音声が入力されたために音声出力を中断させた場合とで、それぞれに適切な応答行動を行うため、対話対象である人物は、相槌や独り言などを誤って発声した場合でも、音声対話装置と円滑に対話することができる。

請求項６に記載の発明によれば、音声対話装置は、中断させた音声出力を再開させる際に、この音声出力に割り込んで実行した応答行動に要した時間である中断時間長に応じて、適応的に音声出力の再開位置を決定するため、再開された音声出力を聴取する人物は、ストレスなく容易に内容を理解することができる。
請求項７に記載の発明によれば、音声対話装置は、中断時間が長い場合は、音声出力を中断させた発話情報の先頭から音声出力を再開させ、中断時間が短い場合は、音声出力を中断させた意味のまとまりがある区切りの先頭から音声出力を再開させる。このため、再開した音声出力を聴取する人物は、中断時間が長い場合には、容易に内容を理解することができ、中断時間が短い場合には、同じ音声の繰り返しが低減されて冗長に感じることなく、かつ容易に内容を理解することができる。
請求項８に記載の発明によれば、音声対話装置は、回答要否判定結果が回答必要な場合には、音声出力を中断させた発話情報の先頭から音声出力を再開させ、回答要否判定結果が回答不要な場合には、音声出力を中断させた意味のまとまりがある区切りの先頭から音声出力を再開させる。このため、回答という比較的中断時間が長くなる応答行動の割り込み後には、発話情報の先頭から再開された音声出力を聴取する人物は、容易に内容を理解することができる。一方、所定の応答行動という比較的中断時間が短い応答行動の割り込み後には、同じ音声の繰り返しが低減されて再開された音声出力を聴取する人物は、冗長に感じることなく、かつ容易に内容を理解することができる。

請求項９に記載の発明によれば、音声対話装置は、発話情報の途中から音声出力を再開させる場合でも、少なくとも文節の先頭から音声出力を再開させるため、再開された音声出力を聴取する人物は容易に内容を理解することができる。
請求項１０に記載の発明によれば、音声対話装置は、発話情報の途中から音声出力を再開させる場合でも、係り受けによって意味のつながりがある区切りの先頭から音声出力を再開させるため、再開された音声出力を聴取する人物はさらに容易に内容を理解することができる。

本発明の実施形態に係るロボットを含むロボットシステムの構成を模式的に示す図である。ロボットによる自己位置検出およびオブジェクト検出の一例を模式的に示す図である。図１に示したロボットシステムで用いられるローカル地図の一例を示す図である。図１に示した管理用コンピュータの記憶手段に記憶されたタスク情報データベースの構成の一例を示す図である。図１に示した管理用コンピュータの記憶手段に記憶されたタスクスケジュールテーブルの構成の一例を示す図である。本発明の実施形態に係るロボットの構成を示すブロック図である。図６に示した本発明の実施形態に係るロボットの主制御部および記憶部の構成を示すブロック図である。図７に示した本発明の実施形態に係る応答行動制御手段の構成を示すブロック図である。本発明の実施形態に係るルールデータベースの構成の一例を示す図である。本発明の実施形態に係る動作データベースの構成の一例を示す図である。本発明の実施形態に係る状況データベースの構成の一例を示す図である。本発明の実施形態に係る発話データを説明するための図であり、（ａ）は発話文の一例を示し、（ｂ）は発話データの構成の一例を示す。本発明の実施形態に係る中断位置情報および再開位置情報を説明するための図であり、（ａ）は中断位置情報の構成の一例を示し、（ｂ）は再開位置情報の構成の一例を示す。本発明の実施形態に係る回答要否判定手段の構成を示すブロック図である。本発明の実施形態に係る単語信頼度を説明するための図であり、（ａ）は単語信頼度を算出した様子を示す一例であり、（ｂ）は単語信頼度を算出した様子を示す他の例である。本発明の実施形態に係る回答要否判定手段における判定閾値の決定方法を説明するための図である。本発明の実施形態に係るロボットの音声入力に対する応答行動の制御処理の流れを示すフロー図である。図１７に示した本発明の実施形態に係るロボットの音声入力に対する応答行動の制御処理のフロー図における対話状況に応じた次の行動を選択する処理の流れを示すフロー図である。

以下、図面を参照して本発明の音声対話装置を実施するための形態について詳細に説明する。本実施形態における音声対話装置は、音声による対話が可能なコミュニケーションロボット（以下「ロボット」という）の形態をしている。
まず、本発明の実施形態に係るロボットを含むロボット制御システムＡの全体構成について図１を参照して説明する。

（ロボット制御システムＡの構成）
図１に示すように、ロボット制御システムＡは、ロボットＲと、このロボットＲと無線通信によって接続された基地局１と、この基地局１とロボット専用ネットワーク２を介して接続された管理用コンピュータ３と、この管理用コンピュータ３にネットワーク４を介して接続された端末５とから構成される。

図１に示すように、このロボット制御システムＡは、移動機能を備えた複数のロボットＲ_Ａ，Ｒ_Ｂ，Ｒ_Ｃ（ただし、ロボットを特定しない場合は、単にロボットＲという）を有しており、各ロボットＲは、管理用コンピュータ３においてロボットＲごとに予め設定されたタスクの実行計画（タスクスケジュール）に従って、タスクを実行する。

ここでは、自律移動型の２足歩行ロボットを一例として説明する。
ロボットＲは、管理用コンピュータ３から入力された実行命令に従ってタスクを実行するものであり、ロボットＲがタスクを実行する領域として予め設定されたタスク実行エリア内に、少なくとも一台配置されている。
ここで、図１には、来訪者を会議室などの所定の場所に案内するという内容のタスク（案内タスク）を実行中のロボットＲ_Ａと、荷物をある人に渡すという内容のタスク（荷物配達タスク）を実行中のロボットＲ_Ｂと、新たなタスクが割り当てられるまで待機中のロボットＲ_Ｃとが、例示されている。また、この例では、タスク実行エリア内に、３箇所のバッテリ補給エリアＢ_１，Ｂ_２，Ｂ_３が設けられており、ロボットＲは必要に応じてバッテリ充電（バッテリ充電タスク）を行うことができる。

ロボットＲは、図２に示すように、頭部Ｒ１、腕部Ｒ２、脚部Ｒ３、胴部Ｒ４および背面格納部Ｒ５を有しており、胴部Ｒ４にそれぞれ接続された頭部Ｒ１、腕部Ｒ２、脚部Ｒ３は、それぞれアクチュエータ（駆動手段）により駆動され、自律移動制御部５０（図６参照）により２足歩行の制御がなされる。この２足歩行についての詳細は、例えば、特開２００１−６２７６０号公報に開示されている。

このロボットＲは、例えば、案内タスクを実行するときには、人物Ｈを所定の案内領域（オフィスや廊下などの移動領域）で案内する。ここでは、ロボットＲは、周囲に光（例えば、赤外光、紫外光、レーザ光など）および電波を発信して周辺領域に、タグＴを備えた人物Ｈが存在するか否かを検知し、検知した人物Ｈの位置を特定して接近し、タグＴに基づいて、人物Ｈが誰であるのかという個人識別を行う。このタグＴは、ロボットＲが人物の位置（距離および方向）を特定するために発する赤外光および電波を受信する。このタグＴは、受信した赤外光に含まれる受光方向を示す信号と、受信した電波に含まれるロボットＩＤとに基づいて、タグ識別番号（発話者識別情報）を含む受信報告信号を生成し、当該ロボットＲに返信する。この受信報告信号を受信したロボットＲは、受信報告信号に基づいて、タグＴを装着した人物Ｈまでの距離と方向とを認識し、当該人物Ｈに接近することができる。

ロボットＲは、あるタスク（例えば案内タスクや荷物配達タスクなど）を実行するために案内領域内を自律移動する場合に、レーザスリット光または赤外線を照射して、路面状態あるいは路面上のマークを探索するようになっている。すなわち、ロボットＲは、自己が移動領域内のどこを移動しているかを把握し、通常の移動領域内にいる場合はレーザスリット光を路面に照射して路面の段差、うねり、障害物の有無などを検出し、マークＭの設置領域内にいる場合は、赤外線を路面に照射してマークＭを検出し、自己位置の確認・補正などを行うようになっている。ここで、マークＭは、例えば赤外線を再帰的に反射する反射材料で構成された部材である。また、マークＭは位置データを有しており、当該位置データは地図データに含まれる形で記憶部３０（図６参照）に記憶されている。なお、地図データは、案内領域内の特定の場所に設置されたマークＭの位置データと、当該位置データに所定の幅（範囲）を持たせたマークＭの設置領域に関するデータとを含んでいる。また、マークＭの設置領域とは、マークＭから所定距離の範囲内にある領域をいい、例えば、マークＭを中心とした半径が１〜３ｍの円形領域や、マークＭの手前（ロボット側）３ｍの矩形領域などのように任意に設定される。

図１に戻って、ロボット制御システムＡの構成の説明を続ける。
基地局１は、ロボットＲと管理用コンピュータ３との間のデータ交換を仲介するものである。
具体的には、基地局１は、管理用コンピュータ３から出力された実行命令をロボットＲに送信するとともに、ロボットＲから送信されたロボットＲの状態に関するデータ（ステータス情報）やロボットＲが実行命令を受信したことを示す信号（受信報告信号）を受信して、管理用コンピュータ３に出力するものである。
基地局１は、ロボットＲと管理用コンピュータ３との間のデータ交換を確実に行えるようにするために、タスク実行エリア内に少なくとも一つ設けられている。
なお、タスク実行エリアが建物の数フロアに亘って設定されている場合には、フロアごとに設けられていることが好ましく、一つの基地局１では総てのタスク実行エリアをカバーできない場合には、複数の基地局１がタスク実行エリア内に設けられていることが好ましい。

ロボット専用ネットワーク２は、基地局１と、管理用コンピュータ３と、ネットワーク４とを接続するものであり、ＬＡＮ（Local Area Network）などにより実現されるものである。

管理用コンピュータ３は、複数のロボットＲを管理するものであり、基地局１、ロボット専用ネットワーク２を介してロボットＲの移動・発話などの各種制御を行うとともに、ロボットＲに対して必要な情報を提供する。ここで、必要な情報とは、検知された人物の氏名や、ロボットＲの周辺の地図（ローカル地図）などがこれに相当し、これらの情報は、管理用コンピュータ３の記憶部３ａに記憶されている。

ここでは、案内領域３０１は、図３に示すように、建物のあるフロアの長方形の領域である。ロボットＲやロボットＲが案内すべき人物は、案内領域３０１の出入口３０２の外側の廊下３０３を通って案内領域３０１に入る。出入口３０２の内側には、ホール３０４が広がっており、ホール３０４の奥の隅には受付３０５が配置され、案内領域３０１の壁側には個室として仕切られた複数の会議室３０６（３０６ａ，３０６ｂ，３０６ｃ）が設けられている。受付３０５は、Ｌ字型のカウンタテーブル３０５ａと、受付スタッフが配置されるカウンタスペース３０５ｂとから成る。カウンタスペース３０５ｂには、基地局１が設置されている。なお、管理用コンピュータ３は、通路や部屋などのローカル地図の情報を位置座標データと関連づけて登録したローカルマップ（ローカル地図データ）と、ローカルマップを集積したタスク実行エリアの地図情報であるグローバルマップとを記憶部３ａ（図１参照）に保持している。

また、管理用コンピュータ３は、ロボットＲに実行させるタスクに関する情報（タスクデータ）を記憶するタスク情報データベースを記憶部３ａ（図１参照）に保持している。
図４に示すように、タスク情報データベース４００には、タスクごとに割り当てられた固有の識別子であるタスクＩＤ、タスクの優先度、タスクの重要度、タスクを実行させるロボットの識別子であるロボットＩＤ、案内や運搬（荷物配達）などのタスクの内容、タスク実行エリア内におけるタスクを開始する位置（開始位置）、タスク実行エリア内におけるタスクを終了する位置（終了位置）、タスクの実行に要する時間（所要時間）、そしてタスクの開始予定時刻（開始時刻）、タスクの終了予定時刻（終了時刻）、そしてタスクの状態などが、情報項目として含まれている。

また、管理用コンピュータ３は、ロボットＲに実行させるタスクの実行計画（タスクスケジュール）を、ロボットＲごとに設定するものである。
図５に示すように、タスクスケジュールテーブル５００は、ロボットＲに実行させるタスクの実行順位、タスク情報データベース４００（図４参照）に登録されたタスクを特定するためのタスクＩＤ、タスクの優先度、タスクの内容、そしてタスクの状態を情報項目として含むテーブルである。
このタスクスケジュールテーブル５００では、これら情報項目が、タスク実行エリア内に配置されたロボットＲごとに整理されており、どの様なタスクが、どのような順番で各ロボットＲに割り当てられているのかを把握できるようになっている。

再び、図１に戻って、ロボット制御システムＡの構成の説明を続ける。
端末５は、ネットワーク４を介して管理用コンピュータ３に接続し、管理用コンピュータ３の記憶部３ａに、人物に関する情報などを登録する、もしくは登録されたこれらの情報を修正するものである。また、端末５は、ロボットＲに実行させるタスクの登録や、管理用コンピュータ３において設定されるタスクスケジュールの変更や、ロボットＲの動作命令の入力などを行うものである。

以下、ロボットＲについて詳細に説明する。

［ロボット］
ロボットＲは、頭部Ｒ１、腕部Ｒ２、脚部Ｒ３、胴部Ｒ４および背面格納部Ｒ５に加えて（図２参照）、これら各部Ｒ１〜Ｒ５の適所に、図６に示すように、カメラＣ，Ｃ、スピーカＳ、マイクＭＣ，ＭＣ、画像処理部１０、音声処理部２０、記憶部３０、主制御部４０、自律移動制御部５０、無線通信部６０、バッテリ７０、対象検知部８０、および周辺状態検知部９０を有する。
さらに、ロボットＲは、ロボットＲの向いている方向を検出するジャイロセンサＳＲ１や、予め設定された地図上におけるロボットＲの存在する位置座標を取得するためのＧＰＳ（Global Positioning System）受信器ＳＲ２を有している。

［カメラ］
カメラ（視覚センサ）Ｃ，Ｃは、ロボットＲの前方移動方向側の映像をデジタルデータとして取り込むことができるものであり、例えば、カラーＣＣＤ（Charge-Coupled Device）カメラが使用される。カメラＣ，Ｃは、左右に平行に並んで配置され、撮影した画像は画像処理部１０に出力される。このカメラＣ，Ｃと、スピーカＳおよびマイクＭＣ，ＭＣは、いずれも頭部Ｒ１の内部に配設される。スピーカＳは、音声処理部２０で音声合成された所定の音声を出力する（発話する）ことができる。

［画像処理部］
画像処理部１０は、カメラＣ，Ｃが撮影した画像（撮影画像）を処理して、撮影された画像からロボットＲの周囲の状況を把握するため、周囲の障害物や人物の認識を行う部分である。この画像処理部１０は、ステレオ処理部１１ａ、移動体抽出部１１ｂおよび顔認識部１１ｃを含んで構成される。

ステレオ処理部１１ａは、左右のカメラＣ，Ｃが撮影した２枚の画像の一方を基準としてパターンマッチングを行い、左右の画像中の対応する各画素の視差を計算して視差画像を生成し、生成した視差画像および元の画像を移動体抽出部１１ｂに出力する。なお、この視差は、ロボットＲから撮影された物体までの距離を表すものである。

移動体抽出部１１ｂは、ステレオ処理部１１ａから出力されたデータに基づき、撮影した画像中の移動体を抽出するものである。移動する物体（移動体）を抽出するのは、移動する物体が人物であると推定して、人物の認識をするためである。
移動体の抽出をするために、移動体抽出部１１ｂは、過去の数フレーム（コマ）の画像を記憶しており、最も新しいフレーム（画像）と、過去のフレーム（画像）とを比較して、パターンマッチングを行い、各画素の移動量を計算し、移動量画像を生成する。そして、視差画像と、移動量画像とから、カメラＣ，Ｃから所定の距離範囲内で、移動量の多い画素がある場合に、人物があると推定し、その所定距離範囲のみの視差画像として、移動体を抽出し、顔認識部１１ｃへ移動体の画像を出力する。

顔認識部１１ｃは、抽出した移動体の一部分の大きさ、形状などから顔領域および顔の位置を認識する。なお、顔認識部１１ｃは、同様にして、抽出した移動体の一部分の大きさ、形状などから手の位置も認識する。
顔認識部１１ｃによって認識された顔の位置は、ロボットＲが移動するときの情報として、また、その人とのコミュニケーションを取るため、主制御部４０に出力される。

この画像処理部１０は、外部情報取得手段として機能することができ、主制御部４０に出力された顔認識結果は、外部情報として主制御部４０を介して記憶部３０に記憶される。

なお、本実施形態において、外部情報とはロボットＲの周囲状況を示す情報を指し、外部情報取得手段とは外部情報を取得する手段を指す。また、外部情報には、画像データのようにカメラなどのセンサ出力そのものである情報と、顔認識結果のようにセンサ出力を解析や加工をして得られる情報とが含まれるものとする。本実施形態では、画像処理手段１０、音声処理手段２０の各部、対象検知手段８０、および周辺状態検知部９０が外部情報取得手段に含まれる。その他の外部情報については、各外部情報取得手段の説明とともに後記する。

［音声処理部］
音声処理部２０は、音声合成部２１ａと、音声入力部２１ｂと、音声認識部２１ｃと、音源定位部２１ｄとを含んで構成される。

音声合成部（音声出力部）２１ａは、主制御部４０が決定し、出力してきた発話行動の指令に基づき、発話内容を示す文字情報（テキストデータ）を含む発話データ（発話情報）から音声データを生成し、スピーカＳに音声を出力する部分である。音声データの生成には、予め記憶部３０に記憶している文字情報（テキストデータ）と音声データとの対応関係を利用する。なお、音声データは、管理用コンピュータ３から取得され、記憶部３０に保存される。

音声入力部２１ｂは、マイクＭＣ，ＭＣから入力される音声信号をデジタル化した音声データに変換する。音声入力部２１ｂは、変換した音声データを音声認識部２１ｃに出力する。
また、音声入力部２１ｂは、変換した音声データを分析し、入力された音声データに音声（人物の音声）が含まれているかどうか、すなわち音声が存在するかどうかを検出する。さらにまた、音声入力部２１ｂは、検出した音声の音量を算出するとともに、順次入力される音声データに、継続して音声が存在する時間を示す音声継続長を算出する。音声入力部２１ｂは、音声の存在の検出結果、音量および音声継続長を音声分析結果として主制御部４０に出力する。

音声認識部２１ｃは、音声入力部２１ｂから音声データを入力し、入力した音声データから単語を音声認識して文字情報（テキストデータ）を生成し、主制御部４０に出力するものである。なお、音声データと文字情報（テキストデータ）との対応関係は、記憶部３０に予め記憶されている。

また、音声認識部２１ｃは、音声認識した単語ごとに、単語の音声認識の信頼度を示す単語信頼度を算出して主制御部４０に出力する。単語信頼度は、入力した音声データを、例えば、音声認識の分野では公知のＨＭＭ（隠れマルコフモデル）を用いてモデル化された単語モデルに当てはめた場合に、その単語であることの確からしさを示す尤度に基づいて算出することができる。

このような単語信頼度を算出する音声認識エンジンとしては、例えば、オープンソースソフトウェアであるＪｕｌｉｕｓ音声認識システムを利用することができる。
（http://julius.sourceforge.jp/index.php?q=doc/cm.html参照）

さらに、音声認識部２１ｃは、音声認識した発話ごとに、発話ごとの音量と、発話ごとの継続時間である発話長とを算出する。音声認識部２１ｃは、算出した音量と発話長とを主制御部４０に出力する。

音声認識部２１ｃは、この音量を、次のようにして算出することができる。まず、音声データを、例えば１０ｍｓ程度の所定の長さ（フレーム長）の音声フレームに分割する。そして、音声フレームごとのパワースペクトルを算出することにより、その音声フレームにおける音量を求めることができる。そして、当該発話区間における音量の最大値や平均値を算出して当該発話における音量として用いることができる。
また、発話長は、当該発話区間に含まれる音声フレーム数を計数し、フレーム長に乗ずることにより算出することができる。
なお、音声認識部２１ｃは、音声入力部２１ｂから音声データに加えて、音量および音声継続長を入力して、これらに基づいて発話毎の音量や発話長を算出するようにしてもよい。これによって音声入力部２１ｂと重複する計算を省略することができる。

音源定位部２１ｄは、マイクＭＣ，ＭＣ間の音圧差および音の到達時間差に基づいて音源位置（ロボットＲが認識する平面状の位置）を特定し、主制御部４０に出力するものである。音源位置は、例えば、ロボットＲの立っている方向（ｚ軸方向）周りの回転角θ_ｚで表される。

なお、音声入力部２１ｂ、音声認識部２１ｃおよび音源定位部２１ｄは、それぞれ外部情報取得手段として機能することができ、主制御部４０に出力された音の存在や音量などの音声分析結果、単語や単語信頼度などの音声認識結果、音源位置などは、外部情報として主制御部４０によって記憶部３０に記憶される。

[記憶部]
記憶部３０は、例えば、一般的なハードディスク等から構成され、管理用コンピュータ３から送信された必要な情報（ローカル地図データ、発話データなど）を記憶するものである。また、記憶部３０は、後記するように、主制御部４０の各種動作を行うために必要な情報を記憶している。

[主制御部]
主制御部４０は、画像処理部１０、音声処理部２０、記憶部３０、自律移動制御部５０、無線通信部６０、対象検知部８０、および周辺状態検知部９０を統括制御するものである。また、ジャイロセンサＳＲ１、およびＧＰＳ受信器ＳＲ２が検出したデータは、主制御部４０に出力され、ロボットＲの行動を決定するために利用される。この主制御部４０は、例えば、管理用コンピュータ３と通信を行うための制御、管理用コンピュータ３から取得したタスク実行命令に基づいて所定のタスクを実行するための制御、ロボットＲを目的地に移動させるための制御、人物を識別するための制御、人物と対話するための制御を行うために、種々の判断を行ったり、各部の動作のための指令を生成したりする。
また、主制御部４０は、画像処理部１０、音声処理部２０、対象検知部８０、および周辺状態検知部９０などの外部情報取得手段から入力した画像処理結果や音声認識結果などの外部状況を把握するための外部情報を、記憶部３０に記憶される状況ＤＢ（状況データベース）に格納する。状況ＤＢについては後記する。

［自律移動制御部］
自律移動制御部５０は、主制御部４０の指示に従い頭部Ｒ１、腕部Ｒ２、脚部Ｒ３および胴部Ｒ４を駆動するものである。この自律移動制御部５０は、図示を省略するが、頭部Ｒ１の首関節を駆動させる首制御部、腕部Ｒ２の手の先の指関節を駆動させる手制御部、腕部Ｒ２の肩関節、肘関節、手首関節を駆動させる腕制御部、脚部Ｒ３に対して胴部Ｒ４を水平方向に回転駆動させる腰制御部、脚部Ｒ３の股関節、膝関節、足首関節を駆動させる足制御部を有している。これら首制御部、手制御部，腕制御部、腰制御部および足制御部は、頭部Ｒ１、腕部Ｒ２、脚部Ｒ３および胴部Ｒ４を駆動するアクチュエータに駆動信号を出力する。

［無線通信部］
無線通信部６０は、管理用コンピュータ３とデータの送受信を行う通信装置である。無線通信部６０は、公衆回線通信装置６１ａおよび無線通信装置６１ｂを有する。
公衆回線通信装置６１ａは、携帯電話回線やＰＨＳ（Personal Handyphone System）回線などの公衆回線を利用した無線通信手段である。一方、無線通信装置６１ｂは、IEEE802.11b規格に準拠するワイヤレスＬＡＮなどの、近距離無線通信による無線通信手段である。
無線通信部６０は、管理用コンピュータ３からの接続要求に従い、公衆回線通信装置６１ａまたは無線通信装置６１ｂを選択して管理用コンピュータ３とデータ通信を行う。

バッテリ７０は、ロボットＲの各部の動作や処理に必要な電力の供給源である。このバッテリ７０は、充填式の構成をもつものが使用される。ロボットＲは、バッテリ補給エリア（図１参照）でバッテリ７０の充電器に嵌合され、バッテリ充電される。

［対象検知部］
対象検知部８０は、ロボットＲの周囲にタグＴを備える人物が存在するか否かを検知するものである。対象検知部８０は、複数の発光部８１（図６では１つのみ表示した）を備える。これら発光部８１は、例えば、ＬＥＤから構成され、ロボットＲの頭部Ｒ１外周に沿って前後左右などに配設される（図示は省略する）。対象検知部８０は、発光部８１から、各発光部８１を識別する発光部ＩＤを示す信号を含む赤外光をそれぞれ発信するとともに、この赤外光を受信したタグＴから受信報告信号を受信する。いずれかの赤外光を受信したタグＴは、その赤外光に含まれる発光部ＩＤに基づいて、受信報告信号を生成するので、ロボットＲは、この受信報告信号に含まれる発光部ＩＤを参照することにより、当該ロボットＲから視てどの方向にタグＴが存在するかを特定することができる。また、対象検知部８０は、タグＴから取得した受信報告信号の電波強度に基づいて、タグＴまでの距離を特定する機能を有する。したがって、対象検知部８０は、受信報告信号に基づいて、タグＴの位置（距離および方向）を、人物の位置として特定することができる。さらに、対象検知部８０は、発光部８１から赤外光を発光するだけではなく、ロボットＩＤを示す信号を含む電波を図示しないアンテナから発信する。これにより、この電波を受信したタグＴは、赤外光を発信したロボットＲを正しく特定することができる。

また、タグＴは、それぞれタグＴを備えた人物に対応付けられた固有のタグ識別番号（個人識別情報）を有しており、このタグ識別番号を受信報告信号に含ませてロボットＲに送信する。そして、ロボットＲは、タグＴから送信された受信報告信号に含まれるタグ識別番号によって、タグＴを備えた人物を特定することができる。
対象検知部８０は、タグＴから受信したタグ識別番号を主制御部４０に出力する。

なお、対象検知部８０およびタグＴについての詳細は、例えば、特開２００６−１９２５６３号公報に開示されている。この対象検知部８０は、外部情報取得手段として機能することができ、主制御部４０に出力されたタグ識別番号は、外部情報として主制御部４０によって記憶部３０に記憶される。

［周辺状態検知部］
周辺状態検知部９０は、ロボットＲの周辺状態を検知するものであり、ジャイロセンサＳＲ１やＧＰＳ受信器ＳＲ２によって検出された自己位置データを取得可能になっている。また、周辺状態検知部９０は、探索域に向かってスリット光を照射するレーザ照射部９１と、探索域に向かって赤外線を照射する赤外線照射部９２と、スリット光または赤外線が照射された探索域を撮像する床面カメラ９３とを有する。この周辺状態検知部９０は、床面カメラ９３で撮像したスリット光画像（スリット光が照射されたときの画像）を解析して路面状態を検出する。また、周辺状態検知部９０は、床面カメラ９３で撮像した赤外線画像（赤外線が照射されたときの画像）を解析してマークＭ（図２参照）を検出し、検出されたマークＭの位置（座標）からマークＭとロボットＲとの相対的な位置関係を計算する。周辺状態検知部９０は、検出した路面状態やマークＭとロボットＲとの相対的な位置関係などの情報を主制御部４０に出力する。なお、周辺状態検知部９０についての詳細は、例えば、特開２００６−１６７８４４号公報に開示されている。この周辺状態検知部９０は、外部情報取得手段として機能することができ、主制御部４０に出力された路面状態や相対的な位置関係情報は、外部情報として主制御部４０によって記憶部３０に記憶される。

［主制御部の構成］
次に、図７を参照（適宜図６参照）してロボットＲの主制御部４０の構成を説明する。
主制御部４０は、静止障害物統合部４１と、オブジェクトデータ統合部４２と、行動パターン部４３と、身振り統合部４４と、内部状態検出部４５と、行動計画管理部４６とを備えている。

静止障害物統合部４１は、周辺状態検知部９０で検知されたロボットＲの周辺状態に関する情報を統合し、行動パターン部４３に出力するものである。例えば、静止障害物統合部４１が、ロボットＲの進路の床面に段ボール箱などの障害物を検知した場合や、床面の段差を検知した場合には、行動パターン部４３は、この統合された障害物情報に基づいて、図示しない局所回避モジュールによって迂回経路を探索する。

オブジェクトデータ統合部４２は、ロボットＲの姿勢データ、画像処理部１０、対象検知部８０および音源定位部２１ｄからの入力データに基づいて、対象物（オブジェクト）に関する識別データ（オブジェクトデータ）を統合し、この統合したオブジェクトデータを記憶部３０のオブジェクトデータ記憶手段３１に出力するものである。これにより、オブジェクトデータ記憶手段３１には、オブジェクトデータをオブジェクト別かつ時刻別に記録したデータであるオブジェクトマップが生成される。

行動パターン部４３は、行動パターンを実行するための各種プログラム（モジュール）を格納するとともに、この行動パターンを実行するときに、記憶部３０を参照して、行動パターンに反映するものである。

また、行動パターン部４３は、応答行動制御手段４７を含んで構成されている。応答行動制御手段４７は、ロボットＲが発話中に音声入力部２１ｂによって音声の入力を検出したときに、ロボットＲの発話を中断させ、この音声に対する応答行動を実行し、その後に中断させた元の発話を再開させるものである。応答行動制御手段４７の詳細については後記する。

本実施形態では、図７に示すように、記憶部３０に、オブジェクトデータ記憶手段３１のほかに、ローカル地図データ記憶手段３２と、ルールＤＢ（ルールデータベース）記憶手段３３と、発話情報記憶手段３４と、応答状況記憶手段３５とを備えている。また、応答状況記憶手段３５は、状況ＤＢ（状況データベース）記憶手段３６と内部状態記憶手段３７とを備えている。

ローカル地図データ記憶手段３２は、図３を参照して説明したロボットＲの周辺の地図（ローカル地図）を記憶するものである。このローカル地図は、例えば、管理用コンピュータ３から取得される。

ルールＤＢ記憶手段３３は、各種行動パターンに対応したシナリオ（台本）、状況に応じた行動を選択するためのルール（ルールＤＢ）、ルールを実行するための具体的な動作内容や発話内容（動作ＤＢ（動作データベース））等を記憶するものである。ここでルールとは、ロボットＲが発現する動作についての決まりごとを示す。またシナリオは、例えば、歩行中に人物や障害物（オブジェクト）に遭遇したときにオブジェクトの１ｍ手前で立ち止まるといったもの、立ち止まってから１０秒後に腕部Ｒ２を所定位置まで上げるといったものなど動作に関するものと、発話に関するものとがある。また、ルールＤＢ記憶手段３３は、所定の発話を行うときに頭部Ｒ１、腕部Ｒ２、脚部Ｒ３および胴部Ｒ４のうちの少なくとも１つの部位を移動させる身体動作である身振りを指定する予め作成されたシナリオを記憶する。
なお、ルールＤＢ記憶手段３３が記憶する動作ＤＢについては後記する。

発話情報記憶手段３４は、ロボットＲの発話に用いられる情報である発話データ（発話情報）を記憶するものである。発話情報記憶手段３４は、各種行動パターンに対応したシナリオで定められた発話データを記憶する。ここで、発話データは、例えば、挨拶を示す定型文「○○さん、こんにちは」、確認を示す定型文「これを、△△さんへ渡すのですね」、相手の発話に対して回答が分からない（回答不能である）ことを示す応答語「ん？」等が含まれる。また、発話情報記憶手段３４は、ルールＤＢ記憶手段３３に記憶された製品や技術説明などのプレゼンテーションのシナリオに沿った発話データ等を記憶している。これらの発話データは、例えば、管理用コンピュータ３から送信される。
なお、発話情報記憶手段３４が記憶する発話データ（発話情報）の構成については後記する。

応答状況記憶手段３５は、現在状況に関する情報を記憶するものであり、ロボットＲの周囲状況を記憶する状況ＤＢ記憶手段３６と、ロボットＲの内部状態を記憶する内部状態記憶手段３７とを備えている。

状況ＤＢ記憶手段３６は、外部情報取得手段である画像処理部１０、音声入力部２１ｂ、音声認識部２１ｃ、対象検知部８０などによって取得した外部情報に基づいてロボットＲが把握したロボットＲの周囲の現在状況に関する情報（状況ＤＢ）を記憶するものである。本実施形態では、状況ＤＢは、カメラＣ，Ｃを介して入力された画像を処理する画像処理部１０の処理結果、マイクＭＣ，ＭＣを介して入力された音声を分析する音声入力部２１ｂの処理結果、マイクＭＣ，ＭＣを介して入力された音声の内容を認識する音声認識部２１ｃの処理結果、対象検知部８０によるタグＴの認識結果、タグＴで特定される対話対象となる人物の発話の際の平均音量などを含む周囲状況を格納する。
この状況ＤＢの具体例については後記する。

内部状態記憶手段３７は、ロボットＲの内部状態を示す情報を記憶するものである。本実施形態では、内部状態記憶手段３７に記憶される内部状態には、ロボットＲが発話を中断したときの中断位置を示す中断位置情報と、発話を再開するときの再開位置を示す再開位置情報とが含まれる。
なお、内部状態記憶手段３７に記憶される中断位置情報および再開位置情報については後記する。

行動パターン部４３は、オブジェクトデータ記憶手段３１、ローカル地図データ記憶手段３２、ルールＤＢ記憶手段３３、発話情報記憶手段３４、状況ＤＢ記憶手段３６、内部状態記憶手段３７を適宜利用して様々な場面や状況に応じた行動パターンを実行するモジュールを備えている。モジュールの例としては、目的地移動モジュール、局所回避モジュール、デリバリモジュール、案内モジュール、人対応モジュール、応答行動制御モジュールなどがある。

目的地移動モジュールは、ロボットＲの現在位置から、例えば、タスク実行エリア内のタスク実行位置等の目的地までの経路探索（例えばノード間の経路を探索）および移動を行うものである。この目的地移動モジュールは、地図データと現在位置とを参照しつつ、目的地までの最短距離を求める。
局所回避モジュールは、歩行中に障害物が検知されたときに、静止障害物統合部４１で統合された障害物情報に基づいて、障害物を回避する迂回経路を探索するものである。

デリバリモジュールは、荷物配達タスクを実行するときに動作するものであり、物品の運搬を依頼する人物（依頼人）から物品を受け取る（把持する）動作や、受け取った物品を受取人に渡す（物品を手放す）動作を実行するものである。
案内モジュールは、例えば、タスク実行エリア内の案内開始地点に来訪した来訪客を案内領域３０１（図３参照）の受付３０５にいる受付スタッフのもとへ案内するタスクを実行するものである。

人対応モジュールは、例えば、物品運搬タスクや案内タスクの実行時に所定のシナリオに基づいて、発話、姿勢の変更、腕部Ｒ２の上下移動や把持等を行うものである。なお、人対応モジュールは、タスクの実行にかかわらず、軽い挨拶やお天気の話題等を、目的をもって意図的に発話することもできる。

また、人対応モジュールには、様々な人に挨拶を行うという動作を実行する出会い応対モジュールや、特定の相手に向けて説明や質疑応答などのサービスを実行するプレゼンＱＡ（プレゼンテーションと質疑応答）モジュールなどのサブモジュールが含まれている。

応答行動制御モジュールは、例えば人対応モジュールなどの発話を含むタスクの実行時において、ロボットＲが発話中に音声入力を検出したときに、この音声入力に対する応答行動を制御するためのモジュールである。応答行動制御モジュールは、このような応答行動を行う必要があるときに行動パターン部４３によって起動され、起動によって行動パターン部４３に応答行動制御手段４７が生成される。応答行動制御手段４７の詳細については後記する。

身振り統合部４４は、対象とする人物に対して行う発話に対応した身振りをルールＤＢ記憶手段３３から抽出し、抽出した身振りを指定するコマンドを自律移動制御部５０に出力するものである。頭部Ｒ１の動作による身振りは、例えば、頭部Ｒ１を下方に傾けることで「お辞儀」、「礼」、「同意」、「謝罪」等を表示する動作や、頭部Ｒ１を左右に傾ける（かしげる）ことで「分からない」という意思表示を伝える動作が含まれる。また、腕部Ｒ２の動作による身振りは、例えば、腕部Ｒ２を上げることで「喜び」、「賞賛」等を表示する動作や、腕部Ｒ２を下方左右に広げることや握手を行うことで「歓迎」という意思表示を伝える動作が含まれる。また、脚部Ｒ３の動作による身振りは、例えば、その場で駆け足をすることで「喜び」、「元気」等の意思表示を伝える動作が含まれる。

内部状態検出部４５は、ロボットＲの内部状態を検出するものである。本実施形態では、内部状態検出部４５は、充電状況（充電器に嵌合されたか否かを示す情報）およびバッテリ７０の残量を検出する。また、内部状態検出部４５は、ロボットＲの状態（現在位置、充電状況、バッテリ残量、タスク実行状況など）に関するデータを所定時間間隔ごとにステータス情報として生成する。また、内部状態検出部４５は、生成したステータス情報を無線通信部６０を介して管理用コンピュータ３に出力する。そして、管理用コンピュータ３は、入力されたステータス情報を記憶部３ａに格納された図示しないロボット情報データベースにロボットＲごとに登録する。

行動計画管理部４６は、行動パターン部４３が備える各種モジュールを所定のスケジュールで実行する行動計画を管理するものである。本実施形態では、行動計画管理部４６は、管理用コンピュータ３から取得したタスク実行命令に基づいて予め定められたタスクを実行するための行動計画を管理し、現在実行すべき作業に必要なモジュールを適宜選択する。

応答行動制御手段４７は、ロボットＲが音声合成部２１ａによってスピーカＳから発話（音声出力）を実行する場合において、外部情報として、マイクＭＣ，ＭＣを介して音声入力部２１ｂに音声入力があったときに、この音声入力に対して、発話の中断、音声への応答、発話の再開などの応答行動を制御するための制御手段である。
なお、本実施形態では、応答行動制御手段４７は、ロボットＲが発話を含むタスクを実行する際に行動パターン部４３によって生成され、音声入力の状況や入力された音声の音声認識処理の状況などを、例えば数ミリ秒程度の周期で常時監視して、その時々の状況に応じた行動を実行するものである。

［応答行動制御手段の構成］
次に、図８を参照（適宜図６および図７参照）して、応答行動制御手段４７の詳細な構成について説明する。
応答行動制御手段４７は、図８に示すように、即時中断判定手段４７１と、回答要否判定手段４７２と、応答行動決定手段４７３と、行動コマンド実行管理手段４７４とを備え、さらに応答行動決定手段４７３は、発話中断処理手段４７３ａと、再開位置決定手段４７３ｂと、応答行動選択手段４７３ｃとを備えて構成されている。

応答行動制御手段４７は、前記した各構成手段によって、記憶部３０（図７参照）に記憶された各種の情報に基づいて、前記した音声入力に対する応答行動の実行を制御する。音声入力部２１ｂから出力される音声の存在、音量、音声継続長などの音声分析結果や、音声認識部２１ｃから出力される単語や単語信頼度などの音声認識結果と、記憶部３０に記憶された各種の情報に基づき、対象検知部８０から出力されるタグ識別番号に対応付けられた人物（発話者）に関する情報を考慮して、この応答行動を制御する。

まず、応答行動制御手段４７が用いる記憶部３０に記憶された各種の情報について、適宜に図面を参照して説明する。

記憶部３０に備えられたルールＤＢ記憶手段（ルールデータベース記憶手段）３３は、前記したようにルールＤＢ（ルールデータベース）と動作ＤＢ（動作データベース）とを記憶している。
ルールＤＢは、状況に応じた発話および動作のうちの少なくとも１つの実行命令を含むルールを複数格納したものである。

ここで、ルールＤＢおよび動作ＤＢの具体例について図９および図１０を参照して説明する。
図９に示すように、ルールＤＢ９００は、項目として、ルールＩＤ、ルール内容、動作ＩＤを有している。
ルールＩＤおよび動作ＩＤは、それぞれ各ルールおよび各動作を識別するための識別子である。ルール内容は、動作ＩＤで示される動作を実行する状況（条件）を示したものである。例えば、ルールＩＤ＝「１」で示されるルールは、「大きな音がした（＝マイククリップ）」場合に、「びっくりする」動作である動作ＩＤ＝「４」で示される動作を実行するものである。ここで、動作ＩＤで示される動作内容は、図１０に示す動作ＤＢに定められている。
また、ルールＩＤ＝「７」で示されるルールは、回答不要（または回答不能）な音声入力があったときに、首を傾げて「ん？」と発話するという動作ＩＤ＝「１１」で定められた動作を行うものである。
なお、ルールＩＤ＝「Ｘ」のルールは、ルール内容として「何もしない」ことを示す特別ルールである。

また、図１０に示すように、動作ＩＤ１０００は、項目として、動作ＩＤと、動作内容と、可動部の部位の一例として頭、掌、腰、腕および口と、を有している。ここで、部位は、例えば、頭（頭部Ｒ１）、掌や腕（腕部Ｒ２）、腰（脚部Ｒ３、胴部Ｒ４）、口（スピーカＳ）を指す。
例えば、動作ＩＤ＝「５」は、頭、腰および腕を使用することで、「顔と体とをターゲットに向けて手を挙げる」動作を行うことを示す。
また、動作ＩＤ＝「１１」は、首（頭）を傾けながら、「ん？」と発話する動作を行うことを示し、入力した音声に対して回答不要（または回答不能）と判定したときに行う応答行動として選択される動作である。

なお、動作ＩＤ＝「７」，「８」については、詳細は図示していないが、自律移動制御部５０によって動かす腕部Ｒ２の関節の自由度や各関節の回転角度ごとに動作を定めたため、異なる動作ＩＤを付与した。ここで、関節の自由度は、関節を前後方向に曲げる、上下方向に曲げる、回転させる等の動きを示す。なお、腕部Ｒ２以外の部位にも同様に設定できる。
また、動作ＩＤ＝「９」，「１０」については、詳細は図示していないが、音声合成部２１ａによって合成する音声の音量ごとに、異なる動作ＩＤを付与した。なお、図１０に示した動作以外に、例えば、「腰をひねる」、「腕をぶらぶら振る」、「手指を閉じたり開いたりする」、「把持した旗等の物品を振る」等の動作を含んでもよい。

図８に戻って、記憶部３０に記憶された各種の情報について説明を続ける。
記憶部３０に備えられた状況ＤＢ記憶手段３６は、ロボットＲ（図６参照）の周囲状況である外部情報のデータベースである状況ＤＢ（状況データベース）と、平均音量ＤＢ（平均音量データベース）とを記憶している。
状況ＤＢ記憶手段３６は、内部状態記憶手段３７とともに、ロボットＲ（図６参照）が応答行動を制御するために必要な内外の状況に関する情報を記憶するための応答状況記憶手段３５を構成している。

ここで、図１１を参照して状況ＤＢの具体例について説明する。
図１１に示すように、本実施形態における状況ＤＢ１１００は、項目として、状況ＩＤと、状況内容と、現在表示とを有している。ここで、状況ＩＤは、各状況を識別するための識別子であり、状況内容は、「画像異常」、「誰もいない」などの状況を示している。また、現在表示は、現在の状況を示すものである。現在表示が「ｏｎ／ｏｆｆ」で示しされるものは、「ｏｎ」または「ｏｆｆ」の状態をとり、「ｏｎ」が状況内容に該当する場合を示し、「ｏｆｆ」が状況内容に該当しない場合を示す。例えば、状況ＩＤ＝「４」では、「小さな音がした」場合の現在表示が「ｏｎ」となり、それ以外の音がしないか大きな音がした場合は現在表示が「ｏｆｆ」となる。

また、状況ＩＤ＝「１０」である「音量」のように、現在表示が「値」となっているものは、具体的な数値として状況が示される。
さらにまた、状況ＩＤ＝「１２」の「音声認識結果」のように、現在表示が「構造データ」となっているものは、状況が単一の数値ではなく複数の数値などによって構成されて示されることを示す。

平均音量ＤＢは、ロボットＲ（図６参照）の対話対象となるタグＴを備えた人物ごとの発話時の平均的な音量である平均音量が、対話対象たる人物を識別するタグ識別番号に対応付られて格納されている。
この平均音量は、個々の人物ごとに、予め種々の場面での音声を採集して、その平均音量を算出して平均音量ＤＢに格納しておく。また、入力された音声の音量をタグ識別番号に対応付けて、逐次に音量履歴として記憶しておき、音量履歴からこれまで蓄積された音量の平均を算出して平均音量として用いるようにしてもよい。

図８に戻って、記憶部３０に記憶された各種の情報やデータについて説明を続ける。
記憶部３０に備えられた発話情報記憶手段３４は、前記したように発話データ（発話情報）を記憶している。
ここで、発話データの構成の具体例について図１２を参照して説明する。
本実施形態における発話データは、図１２（ａ）に示すように、例えば発話文１００のように、文を単位として構成され、区切りＫ１〜Ｋ３に分割された構造を有するものである。そして、発話の実行制御は、区切りＫ１〜Ｋ３単位で行われる。
なお、発話データは、挨拶文のような定型文や製品説明のシナリオにおける説明文のように予め作成されて発話情報記憶手段３６に記憶されているものと、対話状況に応じて適宜に単語を組み合わせてロボットＲ（図６参照）が作成するものとが含まれる。

ここで、区切りとは、ある程度の意味のまとまりがあることによって定められる発話の実行単位であり、発話の中断位置や再開位置を定めるための単位となる。
本実施形態では、意味まとまりによって定められる区切りＫ１〜Ｋ３として、係り受けを考慮した文節のまとまり（文節の集合体）を単位とする。しかし、これに限定されるものではなく、単語を最小の単位とすることができる。この他に、例えば、文節を単位とした区切りに分割してもよく、文を単位とした区切りに分割してもよい。また、区切りの単位を、例えば「係り受けを考慮した文節」のみとするのではなく、意味内容のまとまりや長さを考慮して、文節、単語、文などを単位とする区切りを混在させるようにしてもよい。

以下、本実施形態における区切りＫ１〜Ｋ３について順を追って説明する。
図１２（ａ）に示した例では、「これまで２８の都道府県で活動を行ってきました。」が１つの発話文１００である。これを単語（品詞）に分割すると、「これまで」「２８」「の」「都道府県」「で」「活動」「を」「行って」「き」「まし」「た」「。」となる。

また、発話文１００を、少なくとも１つの自律語を含む１または複数の品詞からなる単位である文節に分割すると、「これまで」「２８の」「都道府県で」「活動を」「行って」「きました。」となる。

さらに、発話文１００を、文節と文節との間の修飾関係である係り受けを考慮し、意味のまとまりがある１つまたは複数の文節を１つにまとめるように分割すると、「これまで」「２８の都道府県で」「活動を行ってきました。」となる。

本実施形態における発話文１００は、係り受けを考慮した文節のまとまりごとに分割した区切りＫ１〜Ｋ３から構成されている。

本実施形態では、発話を中断した後に、発話を再開する場合には、区切りＫ１〜Ｋ３を単位として再開位置を決定する。このため、区切りＫ１〜Ｋ３として、ある程度の意味のまとまりがある単位とすることが好ましい。これによって、ロボットＲ（図６参照）が２番目以降の区切りＫ２またはＫ３の先頭から発話を再開したときにも、発話を聴取する対話対象が、発話内容を理解し易くすることができる。

特に、発話を中断させてから、応答行動の実行後に中断させた発話の再開を開始するまでの時間である中断時間が短い場合には、発話文１００の先頭（すなわち１番目の区切りＫ１の先頭）から再開せず、中断が発生した２番目以降の区切りＫ２またはＫ３の先頭から発話を再開することで、発話の繰り返しが抑制されるため対話対象に冗長性を感じさせず、かつ対話対象に発話内容を容易に理解させることができる。

図１２（ｂ）は、図１２（ａ）に示した区切りＫ１〜Ｋ３に分割された発話文１００を含む発話データ１１０の構成例を示したものである。
図１２（ｂ）に示した発話データ１１０は、項目として、発話文１００を識別するための識別子である発話文ＩＤと、区切り数と、区切り番号ごとの発話内容とを有している。

なお、本実施形態では、１つの発話文１００が１つの発話データ１１０に含まれるように構成したが、文の長さや意味のつながりを考慮して、複数の発話文を１つの発話データに含めるようにしてもよい。

また、本実施形態では、発話データ１１０は、各区切りＫ１〜Ｋ３に対応するデータをそれぞれ独立した項目として分割する構成したが、各区切りＫ１〜Ｋ３の境界に、例えば、スペース（空白文字）「」、コンマ「，」、コロン「：」、セミコロン「；」などを分離記号として発話文中に挿入することで分割位置を示すようにしてもよい。
さらにまた、区切りを予め定めずに、発話時に発話文１００を適宜に構成し、構成した発話文１００を形態素解析して自動的に区切りＫ１〜Ｋ３に分割するようにしてもよい。

図８に戻って、記憶部３０に記憶された各種の情報について説明を続ける。
記憶部３０に備えられた内部状態記憶手段３７は、ロボットＲ（図６参照）の内部状態を示す情報として、発話状態に関する情報である中断位置情報および再開位置情報を含んで記憶している。
ここで、中断位置情報および再開位置情報の具体例について図１３を参照（適宜図１２参照）して説明する。
図１３（ａ）に示すように、中断位置情報１２０は、項目として、中断した発話データを識別するための発話文ＩＤと、発話文１００において発話が中断された位置を示す中断位置とを有する。中断位置は、発話文１００を構成する区切り単位で識別される。このため、中断が発生した区切りＫ１〜Ｋ３に対応する区切り番号が設定される。例えば、図１３（ａ）に示した例では、区切り番号＝「２」に対応する区切りＫ２の途中または区切り末で発話が中断されたことを示す。

また、図１３（ｂ）に示すように、再開位置情報１３０は、項目として、再開する発話データを識別するための発話文ＩＤと、発話文１００において発話を再開する位置を示す再開位置とを有する。再開位置は、中断位置と同様に発話文１００を構成する区切り単位で設定される。このため、再開する区切りＫ１〜Ｋ３に対応する区切り番号が設定される。

図８に戻って、応答行動制御手段４７の構成について説明を続ける。
即時中断判定手段４７１は、ロボットＲ（図６参照）が発話中に音声入力があったときに、その発話を即時中断するかどうかを、音量や音声継続長などの入力された音声の状況に基づいて判定する手段である。

即時中断判定手段４７１は、状況ＤＢ記憶手段３６から状況ＤＢに格納されている外部情報である音声入力部２１ｂから出力された音量および音声継続長と、対象検知部８０で検知されたタグ識別番号と、音声認識部２１ｃから音声認識結果が出力されたかどうかとを、例えば、数ミリ秒程度の周期で定期的に入力する。また、即時中断判定手段４７１は、このタグ識別番号で特定される人物を入力された音声の発話者とみなして、状況ＤＢ記憶手段３６から、タグ識別番号に対応付けて平均音量ＤＢに格納されているこの発話者の平均音量を入力する。そして、即時中断判定手段４７１は、入力した音量をこの平均音量で除した値が予め定められた値（例えば、１）以上の場合に、発話を即時中断すると判定し、この即時中断判定結果を発話中断処理手段４７３ａに出力する。
これは、一定以上の音量による発話は、回答が必要である可能性が高いからである。

なお、本実施形態では、平均音量は人物が装着しているタグＴ（図６参照）を識別するタグ識別番号に基づいて発話者である人物を特定し、この人物を特定するタグ識別番号に対応付けて状況ＤＢに格納されている平均音量を入力するようにしたが、これに限定されるものではない。例えば、オブジェクトデータ統合部４２（図７参照）によって統合される人物を示すオブジェクトデータによって人物を特定し、この人物が発話したときの音量を、この人物を特定するオブジェクトデータに対応付けて状況ＤＢ記憶手段３６にこの人物の音量の履歴として記憶しておく。そして、この人物が再度発話したときに、このオブジェクトデータに対応付けられて状況ＤＢ記憶手段３６に記憶されている過去に発話したときの音量の平均を算出して平均音量を取得するようにしてもよい。
これによって、タグＴ（図６参照）を装着していない人物であっても、２回目以降の発話では、平均音量を参照することができる。
また、ロボットＲ（図６参照）の近傍に複数の人物がいて、各人物のタグ識別番号の認識が困難な場合でも、音源定位部２１ｄ（図６参照）から出力される音源定位情報に基づいて、発話を行った人物のオブジェクトデータを特定することができる。そして、特定したオブジェクトデータに対応付けてこの発話の音量を状況ＤＢ記憶手段３６にこの人物の音量の履歴として記憶しておくことにより、一度発話を行った人物に対しては、タグ識別番号を特定できなくとも、２度目以降の発話の際にはこの人物の平均音量を参照することができる。

また、即時中断判定手段４７１は、音量と平均音量の比が前記した予め定められた値より小さい場合であっても、音声入力部２１ｂから入力した音声継続長が予め定められた値以上の場合には、即時中断すると判定する。この予め定められ音声継続長としては、回答が不要な相槌などの発話における音声継続長の分布を考慮して、経験的に、例えば１．５秒程度とすることができる。音声継続長を考慮して即時中断の判定をするのは、小さな音量による発話であっても、音声継続長が長い場合は回答が必要である可能性が高いからである。

なお、本実施形態では、音量と平均音量との比および音声継続長に基づいて即時中断の判定を行うようにしたが、これに限定されるものではなく、何れか一方のみに基づいて判定してもよい。また、音量と平均音量との比ではなく、単にそのときの音量に基づいて判定してもよい。

回答要否判定手段４７２は、音声認識部２１ｃから音声認識結果が出力されたときに、この音声認識結果に基づいて、入力された音声に対して回答する必要があるかどうかを判定する手段である。
回答要否判定手段４７２は、状況ＤＢ記憶手段３６に記憶されている状況ＤＢを定期的に参照し、音声認識部２１ｃから音声認識結果が出力されたかどうかを監視する。回答要否判定手段４７２は、音声認識部２１ｃから音声認識結果が出力されたことを検知すると、状況ＤＢ記憶手段３６から、状況ＤＢに格納されている音声認識結果である単語、単語信頼度、音量および発話長と、対象検知部８０が検知した対話対象である人物を特定するタグ識別番号とを入力する。また、回答要否判定手段４７２は、状況ＤＢ記憶手段３６から、このタグ識別番号に対応付けられて平均音量ＤＢに格納されている平均音量を入力する。回答要否判定手段４７２は、音声認識結果を含むこれらの情報に基づいて、入力された音声に対して回答が必要かどうかを判定し、判定した結果である回答要否判定結果を再開位置決定手段４７３ｂおよび応答行動選択手段４７３ｃに出力する。
なお、回答要否判定手段４７２の詳細な構成については後記する。

応答行動決定手段４７３は、発話中断処理手段４７３ａと再開位置決定手段４７３ｂと応答行動選択手段４７３ｃとを備えて構成されている。応答行動決定手段４７３は、これらの構成手段によって、即時中断判定手段４７１から入力した即時中断判定結果と、回答要否判定手段４７２から入力した回答要否判定結果と、応答状況記憶手段３５に記憶されている各種の情報とに基づいて、ロボットＲ（図６参照）の発話の中断、入力された音声に対する応答、および中断した発話の再開という応答行動の内容を決定して実行する手段である。

発話中断処理手段４７３ａは、即時中断判定手段４７１から入力した即時中断判定結果に基づいて、発話の中断処理を行う手段である。また、発話中断処理手段４７３ａは、ロボットＲ（図６参照）が発話中に、音声認識部２１ｃから音声認識結果が出力された場合にも即時中断を行う。

発話中断処理手段４７３ａは、即時中断判定結果が「即時中断する」との判定結果の場合は、発話を即時に中断させることを示す中断コマンドである即時中断コマンドを行動コマンド実行管理手段４７４に出力して発話の中断を即時に実行させる。
一方、即時中断判定結果が「即時中断しない」との判定結果の場合は、発話中断処理手段４７３ａは、音声が入力されたときに発話中の区切りＫ１〜Ｋ３（図１２参照）の発話が完了したところ（区切り末）で発話を中断させることを示す中断コマンドである区切り末中断コマンドを行動コマンド実行管理手段４７４に出力して、区切り末での発話の中断を実行させる。
なお、中断すべき発話が音声出力以外の身振りなどの動作を伴うときには、発話とともに動作も中断させる。また、以下の説明において発話を中断させるときも、同様に発話の中断とともに動作も中断させるものとする。

また、発話中断処理手段４７３ａは、状況ＤＢ記憶手段３６に記憶されている状況ＤＢを監視することで、即時中断判定結果に従って区切り末での発話中断が予定されている場合であっても、音声認識部２１ｃから音声認識結果が出力されたことを検知すると、即時中断コマンドを行動コマンド実行管理手段４７４に出力して発話の中断を実行させる。
これによって、ロボットＲ（図６参照）は、音声認識結果に基づいて迅速かつ適切に応答することができる。

なお、発話中断処理手段４７３ａは、音声認識結果の出力を検知した場合に、その音声認識結果が相槌などの予め定められた回答不要語に該当するかどうかを判定し、回答不要語の場合は即時中断せず、回答不要語でない場合は即時中断を実行させるようにしてもよい。

また、本実施形態では、発話中断処理手段４７３ａは、即時中断判定結果が「即時中断しない」であった場合は、発話中の区切り末で発話を中断させることとしたが、これに限定されるものではない。例えば、即時中断判定手段４７１によって、即時中断判定結果を「即時中断する」か「即時中断しない」かの２段階ではなく、音量や音声継続長などに応じて、順次に「即時中断する」「区切り末で中断する」「文末で中断する」「中断しない」のように多段階に判定するようにし、この判定結果に従って発話を中断させるようにしてもよい。また、中断を判定するときの状況を示すその他の外部情報に基づいて、発話データにおける、より適切な位置での発話を中断させるようにしてもよい。

再開位置決定手段４７３ｂは、回答要否判定手段４７２から入力した回答要否判定結果と、行動コマンド実行管理手段４７４によって作成され内部状態記憶手段３７に記憶されている中断位置情報１２０（図１３参照）とに基づいて、中断させた発話を再開させるときに、中断した発話文１００におけるどの区切りＫ１〜Ｋ３（図１２参照）から発話を再開させるかを決定する手段である。

回答要否判定結果が「回答必要」の場合には、入力された音声に対する回答を行った後に発話が再開されるため、中断からの時間経過が比較的長くなる。このため、再開位置決定手段４７３ｂは、発話が中断された発話文１００の先頭の区切りＫ１を示す区切り番号＝「１」を再開位置として再開位置情報１３０（図１３参照）を作成する。再開位置決定手段４７３ｂは、作成した再開位置情報１３０（図１３参照）を、行動コマンド実行管理手段４７４を介して内部状態記憶手段３７に記憶する。これによって、比較的長い時間の経過後であっても、対話対象である人物に元の発話内容を容易に思い出させることができ、円滑に元の発話内容に復帰させることができる。

一方、回答要否判定結果が「回答不要」の場合には、入力された音声に対する回答を行わず、音声の入力は検知したが回答しないことを示す所定の応答行動（首を傾げながら、「ん？」と発話する）を行った後に発話が再開されるため、中断からの時間経過が比較的短くなる。このため、再開位置決定手段４７３ｂは、内部状態記憶手段３７に記憶されている中断位置情報１２０（図１３参照）において、発話が中断された発話文１００の区切り（図１２に示した例では区切りＫ２）を示す区切り番号＝「２」を再開位置とする再開位置情報１３０（図１３参照）を作成する。再開位置決定手段４７３ｂは、作成した再開位置情報１３０（図１３参照）を、行動コマンド実行管理手段４７４を介して内部状態記憶手段３７に記憶する。これによって、比較的短い時間の経過後での発話の再開であるため、対話対象である人物に冗長な感じをさせることなく、円滑に元の発話内容に復帰させることができる。

応答行動選択手段４７３ｃは、回答要否判定結果と音声認識結果とに基づいて、入力された音声に対する応答行動の内容を選択するとともに、入力された音声に対する応答行動を実行後に、中断された元の発話を再開させる手段である。

応答行動選択手段４７３ｃは、回答要否判定手段４７２から回答要否判定結果を入力し、状況ＤＢ記憶手段３６から状況ＤＢに格納されている音声認識結果である単語（文字情報）を入力する。
応答行動選択手段４７３ｃは、回答要否判定結果が「回答必要」の場合には、音声認識結果である単語（文字情報）を解析して、この解析結果に応じた回答内容としての行動内容を、ルールＤＢ記憶手段３３に記憶されたシナリオの中から選択し、選択した行動内容を行動コマンド実行管理手段４７４に出力して実行させる。

一方、回答要否判定結果が「回答不要」の場合には、応答行動選択手段４７３ｃは、回答しないことを示す所定の行動である「首を傾げながら「ん？」と発話する」に対応する動作ＩＤ＝「１１」を、ルールＤＢ記憶手段３３に記憶されている動作ＤＢ１０００（図１０参照）から選択する。そして、応答行動選択手段４７３ｃは、選択したこの行動内容を行動コマンド実行管理手段４７４に出力して実行させる。

また、応答行動選択手段４７３ｃは、応答行動の終了後に再開コマンドを行動コマンド実行管理手段４７４に出力し、中断されている発話の再開を実行させる。

行動コマンド実行管理手段４７４は、応答行動決定手段４７３を構成する各手段から入力した中断コマンド、再開コマンドおよび行動内容に従って、音声合成部２１ａおよび身振り統合部４４に各種コマンドを出力することで、応答行動決定手段４７３から指示された行動を実行する手段である。

行動コマンド実行管理手段４７４は、発話中断処理手段４７３ａから即時中断コマンドまたは区切り末中断コマンドを入力し、発話や動作の実行状態に応じて、音声合成部２１ａおよび身振り統合部４４に中断コマンドを出力して発話および動作を中断させる。行動コマンド実行管理手段４７４は、発話を中断させたときは、中断させた発話の位置を示す中断位置情報を内部状態記憶手段３７に記憶する。

また、行動コマンド実行管理手段４７４は、再開位置決定手段４７３ｂから再開位置情報を入力し、入力した再開位置情報を内部状態記憶手段３７に記憶する。

さらに、行動コマンド実行管理手段４７４は、応答行動選択手段４７３ｃから応答行動の内容を示す行動内容を入力し、行動内容で指示された発話データを発話情報記憶手段３４から入力する。そして、行動コマンド実行管理手段４７４は、発話データを音声合成部２１ａに出力して発話を実行させる。同時に行動内容に動作が伴う場合は、行動コマンド実行管理手段４７４は、動作内容を身振り統合部４４に出力してこの動作を実行させる。
また、行動コマンド実行管理手段４７４は、音声合成部２１ａおよび身振り統合部４４から、それぞれに出力した発話データおよび動作内容の実行の終了を通知する発話終了信号および動作終了信号を入力する。

ここで、身振り統合部４４は、行動コマンド実行管理手段４７４から入力した動作内容に対応して、ロボットＲ（図６参照）の各可動部の動作を制御する自律移動制御部５０に動作を指示する動作コマンドを出力し、自律移動制御部５０から動作コマンドに対する動作の終了を通知する動作終了信号を入力する。そして、身振り統合部４４は、自律移動制御部５０から動作終了信号を入力すると、行動コマンド実行管理手段４７４に対して動作終了信号を出力する。

また、本実施形態では、行動コマンド実行管理手段４７４は、音声合成部２１ａおよび身振り統合部４４に対して、それぞれ発話および動作の区切りごとに出力して実行させるものとする。
行動コマンド実行管理手段４７４は、音声合成部２１ａおよび身振り統合部４４に対して中断コマンドを出力することによって、発話および発話に伴う動作を即時中断させることができる。また、行動コマンド実行管理手段４７４は、現在発話中および動作中の区切りに対しては中断コマンドを出力せず、次の区切りに対応する発話データおよび動作内容の音声合成部２１ａおよび身振り統合部４４への出力を中止することにより、現在発話中および動作中の区切り末で発話および動作を中断させることができる。
このように、行動コマンド実行管理手段４７４は、発話および動作の実行および中断を区切り単位で管理することで、発話および動作の中断処理を実行した場合の中断位置を認識することができる。

なお、発話に伴う動作の区切りについては詳細な説明は省略するが、発話の区切りと同様とすることができる。本実施形態では、簡単のため、発話の区切りと動作の区切りとを同じタイミングで設定するものとして説明するが、それぞれ独立して設定するようにしてもよい。

さらに、行動コマンド実行管理手段４７４は、応答行動選択手段４７３ｃから再開コマンドを入力し、内部状態記憶手段３７に記憶されている再開位置情報を入力し、この再開位置情報によって指示される区切りの発話データを音声合成部２１ａに出力し、発話を再開させる。この発話が動作を伴う場合には、同様にして、再開位置情報によって指示される区切りの動作内容を身振り統合部４４に出力して、中断された動作を発話と同時に再開させる。

本実施形態では、行動コマンド実行管理手段４７４は、応答行動選択手段４７３ｃから入力した再開コマンドに従って、内部状態記憶手段３７に記憶されている再開位置情報を入力して再開位置を認知するようにしたが、これに限定されるものではない。
例えば、再開位置決定手段４７３ｂは回答要否判定結果に基づいて、回答要否判定結果が「回答必要」の場合は「先頭」を、回答要否判定結果が「回答不要」の場合は「中断位置」を中断された発話の再開位置の条件として決定し、決定した再開位置の条件を応答行動選択手段４７３ｃに出力する。応答行動選択手段４７３ｃは、再開位置決定手段４７３ｂから入力した再開位置の条件を示す「先頭」または「中断位置」を再開コマンドに付加して行動コマンド実行管理手段４７４に出力するようにする。そして、行動コマンド実行管理手段４７４は、再開コマンドに付加された再開位置の条件が「先頭」である場合は、内部状態記憶手段３７に記憶されている中断位置情報に設定されている発話文ＩＤ（図１３（ａ）参照）の発話データの先頭の区切りから発話を再開し、再開コマンドに付加された再開位置の条件が「中断位置」である場合は、内部状態記憶手段３７に記憶されている中断位置情報で設定されている発話文ＩＤ（図１３（ａ）参照）の発話データの中断位置の区切りから発話を再開するようにすればよい。この場合は、再開位置情報の作成は不要である。

次に、図１４を参照（適宜図６参照）して、回答要否判定手段４７２の詳細な構成について説明する。
図１４に示すように、回答要否判定手段４７２は、音量係数算出手段４７２ａと、発話長係数算出手段４７２ｂと、単語信頼度平均算出手段４７２ｃと、判定閾値設定手段４７２ｄと、単語信頼度判定手段４７２ｅと、回答不要語判定手段４７２ｆと、総合判定手段４７２ｇとを備えて構成されている。

音量係数算出手段４７２ａは、音声認識結果である単語信頼度に基づく平均スコアに対する補正係数である音量係数を、音量と平均音量とに基づいて算出する手段である。
音量係数算出手段４７２ａは、状況ＤＢ記憶手段３６から、状況ＤＢに格納されている音声認識部２１ｃが音声認識結果の一部として出力した音量と、対象検知部８０が検知したタグ識別番号とを入力する。また、音量係数算出手段４７２ａは、入力したタグ識別番号で特定される人物を、対話対象である入力された音声の発話者とみなして、状況ＤＢ記憶手段３６から、タグ識別番号に対応付られて平均音量ＤＢに格納されているこの対話対象の平均音量を入力する。そして、この音量と平均音量とから音量係数を算出し、算出した音量係数を単語信頼度判定手段４７２ｅに出力する。

ここで、音量係数について説明する。
ロボットＲ（図６参照）が発話中に対話対象となる人物が発話する場合、音量が小さい場合は回答が不要な相槌や独り言などであることが多く、音量が大きい場合は回答が必要な質問や要求などであることが多い。そこで、本実施形態では、単語信頼度平均算出手段４７２ｃが算出する平均スコアに基づいて回答の要否を判定する際に、音量の大小で平均スコアを補正するための音量係数を、式（１−１）によって算出するものである。
（音量係数）＝（音量）／（音量基準値）・・・式（１−１）

式（１−１）において、音量は個人差が大きいため、本実施形態では、音量基準値として対話対象ごとに設定された平均音量を用いるようにしている。
なお、音量の単位は［ｄＢ（デシベル）］を用いることができるが、これに限定されるものではない。

また、個々の発話者において、その発話者の音量は、それほど大きく変化せず、±６［ｄＢ］程度である。このため、音量係数の算出を、式（１−１）に替えて、式（１−２）を用いて行うようにしてもよい。但し、式（１−２）において、音量基準値はその発話者の平均音量を用い、音量の単位は［ｄＢ］である。
（音量係数）＝｛６−（（音量基準値）−（音量））｝／６・・・式（１−２）

式（１−２）によれば、入力された音声の音量が音量基準値である平均音量に等しいとき、音量係数は「１．０」となる。一方、音量が実質的な下限である（平均音量−６）［ｄＢ］のとき、音量係数は「０．０」となる。他方、音量が実質的な上限である（平均音量＋６）［ｄＢ］のとき、音量係数は「２．０」となる。このように、式（１−２）を用いることによって、音量の変化に対応して敏感に、かつ適切な範囲の音量係数を算出することができる。

なお、前記した音量係数の算出において、「音量」として用いる値は、音声認識の対象となった一連の音声区間における音量の最大値や平均値を用いることができる。

発話長係数算出手段４７２ｂは、音声認識結果である単語信頼度に基づく平均スコアに対する補正係数である発話長係数を、発話長に基づいて算出する手段である。
発話長係数算出手段４７２ｂは、状況ＤＢ記憶手段３６から、状況ＤＢに格納されている音声認識部２１ｃが出力した音声認識の対象となった一連の音声の継続時間である発話長を入力する。そして、発話長係数算出手段４７２ｂは、この発話長と予め定められた基準発話長とから発話長係数を算出し、算出した発話長係数を単語信頼度判定手段４７２ｅに出力する。

ここで、発話長係数について説明する。
ロボットＲ（図６参照）が発話中に対話対象となる人物が発話する場合、発話長が短い場合は回答が不要な相槌や独り言などであることが多く、発話長が長い場合は回答が必要な質問や要求などであることが多い。そこで、本実施形態では、前記した音量係数とともに、単語信頼度平均算出手段４７２ｃが算出する平均スコアに基づいて回答の要否を判定する際に、発話長の長短で平均スコアを補正するための発話長係数を、式（２）によって算出するものである。
（発話長係数）＝（発話長）／（基準発話長）・・・式（２）

なお、式（２）において、基準発話長は、相槌などの回答が不要な発話の発話長の分布に基づいて、経験的に１．５秒程度とすることができる。

単語信頼度平均算出手段４７２ｃは、音声認識結果である一連の入力された音声に含まれるすべての単語の単語信頼度の平均である平均スコアを算出する手段である。
単語信頼度平均算出手段４７２ｃは、状況ＤＢ記憶手段３６から、状況ＤＢに格納されている音声認識部２１ｃが音声認識結果として出力した一連の音声に含まれるすべての単語についての単語信頼度を入力し、これらの単語ごとに算出された単語信頼度の平均である平均スコアを、式（３）によって算出する。
（平均スコア）＝Σ（単語信頼度）／（単語数）・・・式（３）
単語信頼度平均算出手段４７２ｃは、算出した平均スコアを単語信頼度判定手段４７２ｅに出力する。

ここで、図１５を参照（適宜図１４参照）して、単語信頼度に基づく回答要否の判定手法について説明する。
音声認識部２１ｃは、マイクＭＣ，ＭＣ（図６参照）を介して入力された対話対象の一連の音声を音声認識し、この一連の音声に含まれる単語とともに、単語ごとに音声認識の信頼度示す単語信頼度を算出する。

図１５は、このときの単語と単語信頼度とが出力される様子を示したものである。図１５（ａ）は入力した音声を正しく認識した場合の一例であり、「、開発のエピソードを教えて。」を単語ごとに分割し、単語信頼度が算出されている。このときの平均スコアは０．４６１である。

一方、図１５（ｂ）は、入力した音声を誤って認識した場合の一例である。ここでは、入力した音声である「へー、そうなの。」の中に、音声認識のための単語モデルとして登録されていない未知語が含まれるため、登録された単語モデルの中から最も確からしい単語が選択されて、「ふーん」「。」「拾う」「の」「。」と５つの単語に分割され、単語ごとに単語信頼度が算出されている。このときの平均スコアは０．１８０である。

このように、誤って音声認識されたときには、個々の単語の単語信頼度には高いものが含まれることもあるが、平均スコアは比較的低くなる。逆に、正しく音声認識できたときには、個々の単語の中には低い単語信頼度のものも含まれるが、平均スコアは比較的高くなる。そのため、平均スコアを用いることで、より精度よく音声認識の成否を判定することができる。

ロボットＲ（図６参照）が発話中になされる対話対象である人物の発話は、相槌や独り言のような回答を必要としない発話の場合は、発音や意味が不明瞭であることが多いため、音声認識の信頼度が低くなりがちである。逆に、質問や要求のように回答を必要とする発話の場合には、発音や意味が明瞭で音声認識の信頼度が高いことが多い。
そこで、本実施形態では、平均スコアの大きさに基づいて回答の要否を判定するものである。

図１４に戻って、回答要否判定手段４７２の説明を続ける。
判定閾値設定手段４７２ｄは、単語信頼度判定手段４７２ｅにおいて、平均スコア、音量係数および発話長係数に基づく回答の要否判定を行うための判定閾値を設定する手段である。判定閾値設定手段４７２ｄは、予め定められた判定閾値を単語信頼度判定手段４７２ｅに出力する。

ここで、図１６を参照（適宜図１４参照）して、単語信頼度に基づく回答要否の判定のための判定閾値を定める手法について説明する。

判定閾値を定めるために、まず、回答が必要な発話と回答が不要な発話とについて、予め回答の要否を正しく定めた正解付きの教示データ（音声データ）を準備する。そして、それぞれの教示データについての発話を音声認識して単語信頼度の平均である平均スコアを算出する。

図１６は、前記した教示データを用いて実験した結果を概念的に示したものである。図１６において、回答が必要な場合の平均スコアの分布Ｄ１を破線で示し、回答が不要な場合の平均スコアの分布Ｄ２を実線で示している。ここで、分布Ｄ１と分布Ｄ２とが交わる位置における平均スコアを判定閾値として用いる。これによって、要否何れかの方に誤判定が偏ることなく、精度よく要否判定を行うことができる。

なお、教示データは、性別や年齢など発話する人物の属性、発話内容（語彙）、音量、発話長（発話のスピード）などが異なる種々のデータからなる。
また、平均スコアに基づいて回答要否を判定する際に、平均スコアに前記した音量係数や発話長係数を乗じた評価値に基づいて回答要否を判定する場合には、判定閾値を定めるための実験データとして、前記した平均スコアに替えて、平均スコアに音量係数や発話長係数を乗じた評価値を用いるようにすればよい。これによって、音量係数や発話長係数を用いる場合の判定閾値を適切に定めることができる。

図１４に戻って、回答要否判定手段４７２の説明を続ける。
単語信頼度判定手段４７２ｅは、単語信頼度を利用して回答要否の判定を行う手段である。
単語信頼度判定手段４７２ｅは、音量係数算出手段４７２ａから入力した音量係数と、発話長係数算出手段４７２ｂから入力した発話長係数と、単語信頼度平均算出手段４７２ｃから入力した平均スコアと、判定閾値設定手段４７２ｄから入力した判定閾値とに基づいて回答要否の判定を行い、単語信頼度を利用した判定結果である単語信頼度判定結果を総合判定手段４７２ｇに出力する。

本実施形態では、単語信頼度判定手段４７２ｅは、単語信頼度を利用した回答要否の判定において、単語信頼度の平均である平均スコアを音量係数と発話長係数とによって補正した評価値を、式（４）によって算出して用いる。
（評価値）＝（平均スコア）×（音量係数）×（発話長係数）・・・式（４）

そして、単語信頼度判定手段４７２ｅは、式（４）で算出された評価値が、判定閾値以上の場合は回答が必要と判定し、判定閾値未満の場合は「回答不要」と判定する。
なお、本実施形態では、評価値として平均スコアに音量係数と発話長係数とを乗じて算出して用いるようにしたが、これに限定されるものではなく、平均スコアをそのまま用いてもよく、音量係数のみ、または発話長係数のみを乗じて算出して用いるようにしてもよい。この場合、評価値の算出方法に応じた判定閾値を判定閾値設定手段４７２ｄに設定するようにすればよい。
また、本実施形態では、単語信頼度の平均スコアに基づいて、回答要否の判定を行うようにしたが、これに限定されるものではなく、音声認識の結果の信頼度を示す他の評価値（スコア）に基づいて回答要否の判定を行うようにしてもよい。

回答不要語判定手段４７２ｆは、音声認識された単語が回答不要語に該当するかどうかで回答要否を判定する手段である。
回答不要語判定手段４７２ｆは、状況ＤＢ記憶手段３６から、状況ＤＢに格納されている音声認識部２１ｃが出力した単語を入力し、入力した単語が予め定められた回答不要語に該当するかどうかを記憶部３０（図６参照）に記憶されている回答不要語ＤＢ（不図示）を検索して判定する。回答不要語判定手段４７２ｆは、判定した結果である回答不要語判定結果を総合判定手段４７２ｇに出力する。

回答不要語判定手段４７２ｆは、状況ＤＢ記憶手段３６に記憶されている状況ＤＢに格納されている音声認識部２１ｃが出力したすべての単語が回答不要語に該当する場合は、「回答不要」と判定する。また、少なくとも１つの単語が回答不要語でない場合には、「回答必要」と判定する。

総合判定手段４７２ｇは、単語信頼度判定手段４７２ｅから入力した単語信頼度判定結果と、回答不要語判定手段４７２ｆから入力した回答不要語判定結果とに基づいて、最終的な回答要否を判定し、その判定結果を回答要否判定結果として再開位置決定手段４７３ｂ（図８参照）および応答行動選択手段４７３ｃ（図８参照）に出力する。

ここで、総合判定手段４７２ｇは、単語信頼度判定結果が「回答不要」の場合には、質問や要求が不明確であり回答不能である場合に該当するため、回答不要語判定結果に関わらず、「回答不要」と最終判定する。また、総合判定手段４７２ｇは、単語信頼度判定結果が「回答必要」の場合であっても、回答不要語判定結果が「回答不要」の場合は、発話は明確であるが、回答不要の場合に該当するため、「回答不要」と最終判定する。そして、総合判定手段４７２ｇは、単語信頼度判定結果が「回答必要」の場合で、かつ回答不要語判定結果が「回答必要」の場合は、「回答必要」と最終判定する。

なお、本実施形態では、外部情報取得手段として音声入力部２１ｂおよび音声認識部２１ｃを用いて、これらの外部情報取得手段によって取得される音声に関する外部情報に基づいて発話の中断を行うようにしたが、これに限定されるものではない。例えば、外部情報取得手段として画像処理部１０によって取得される外部情報に基づき、停電や目隠しなどのいたずらをされた場合を想定し、画像が真っ暗になった場合（画像異常）に即時中断するように判定するようにしてもよく、対象検知部８０や周辺状態検知部９０によって取得されるタグ識別番号や場所の情報に基づいて、特定の人物が近づいた場合や、特定の場所に来たときを条件として発話の中断を判定するようにしてもよい。また、これらの外部情報と音声に関する外部情報とを組み合わせて総合的に判定するようにしてもよい。
また、対話履歴や対話対象である人物の位置などを条件として、発話の中断を判定するようにしてもよい。
そして、これらの外部情報に基づく状況の発生に対して発話を中断した後、中断の原因となった状況に応答し、この応答に要した時間に応じて中断した元の発話の再開位置を決定するようにしてもよい。
さらにまた、中断の原因となった状況に対する応答に要した時間に替えて、またはこれに加えて、前記した種々の外部情報を参照して発話を再開するときの再開位置の決定をするようにしてもよい。

また、本実施形態では、応答行動制御手段４７は、外部情報を状況ＤＢ記憶手段３６に記憶された状況ＤＢを介して入力するようにしたが、これに限定されるものではなく、外部情報を外部情報取得手段から直接入力するようにしてもよい。

［ロボットの動作］
次に、図６に示したロボットＲの動作について、主として応答行動制御手段４７の動作を中心に図１７を参照（適宜図６から図８参照）して説明する。
応答行動制御手段４７は、ロボットＲが音声合成部２１ａを介してスピーカＳから発話（音声出力）を実行する場合において、外部情報として、マイクＭＣ，ＭＣを介して音声入力部２１ｂに音声の入力（人物の音声の入力）があったときに、この入力された音声に対して、発話の中断、音声への回答、発話の再開などの応答行動を行う必要があるときに行動パターン部４３によって予め起動される。応答行動制御手段４７は、稼働中は、例えば数ミリ秒程度の周期で、図１７に示す処理を繰り返し実行するものである。
また、状況ＤＢ記憶手段３６に記憶されている状況ＤＢに格納される音声分析結果や音声認識結果などの外部情報は、音声入力部２１ｂや音声認識部２１ｃなどの外部情報取得手段によって時々刻々に変化する。応答行動制御手段４７は、時々刻々に変化する状況ＤＢに格納された外部情報を、前記したように周期的に参照して、適宜に外部情報に応じた応答行動を実行するものである。

図１７に示すように、まず、応答行動制御手段４７は、発話中断処理手段４７３ａによって、状況ＤＢ記憶手段３６に記憶されている状況ＤＢを参照して、音声認識結果が音声認識部２１ｃから出力されたかどうかを確認する（ステップＳ１０）。

音声認識結果が出力されている場合は（ステップＳ１０でＹｅｓ）、応答行動制御手段４７は、行動コマンド実行管理手段４７４によってロボットＲが発話中かどうかを確認する（ステップＳ２１）。ロボット発話中の場合は（ステップＳ２１でＹｅｓ）、応答行動制御手段４７は、発話中断処理手段４７３ａから行動コマンド実行管理手段４７４に即時の発話中断を指示するコマンドである即時中断コマンドを出力させる。即時中断コマンドを入力した行動コマンド実行管理手段４７４は、音声合成部２１ａおよび身振り統合部４４に速やかに中断コマンドを出力する（ステップＳ２２）。これによって、ロボットＲによる発話および発話に伴う身振りなどの動作が即時中断される。
そして、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、発話の中断位置を示す中断位置情報を作成して内部状態記憶手段３７に記憶する（ステップＳ２３）。

一方、ロボットＲが発話中でない場合は（ステップＳ２１でＮｏ）、音声認識部２１ｃから音声認識結果が出力される前に、既に発話が中断された状態が該当するため、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、中断位置を示す中断位置情報を作成して内部状態記憶手段３７に記憶する（ステップＳ２３）。
なお、ステップＳ２３において、発話データの区切りの途中で即時中断された場合は、その区切りを中断位置とし、発話データの区切り末で中断された場合は、区切り末まで発話されたこの区切りを中断位置として示す中断位置情報が作成される。

ステップＳ２３で中断位置情報を内部状態記憶手段３７に記憶すると、応答行動制御手段４７は、回答要否判定手段４７２および応答行動選択手段４７３ｃによって、状況ＤＢ記憶手段３６に記憶から、状況ＤＢに格納されているステップＳ１０で確認された音声認識結果である単語、単語信頼度、発話長および音量に基づいて、音声認識結果に応じた応答の行動内容を選択する（ステップＳ２４）。

ステップＳ２４の処理を詳細に説明すると、応答行動制御手段４７は、まず、回答要否判定手段４７２によって、音声認識結果に基づいて回答要否判定を行い、回答要否判定結果を応答行動選択手段４７３ｃに出力する。そして応答行動制御手段４７は、応答行動選択手段４７３ｃによって、回答要否判定手段４７２から入力した回答要否判定結果と前記した音声認識結果である単語（文字情報）とに基づいて、音声認識の対象となった入力された音声に対する応答の行動内容を選択する。

ここで、回答要否判定結果が「回答不要」の場合は、応答行動制御手段４７は、応答行動選択手段４７３ｃによって、ルールＤＢ記憶手段３３に記憶されている動作ＤＢを検索し、予め定められた応答行動である「首を傾げながら、「ん？」と発話する」という短い発話による応答の行動内容を選択する。

一方、回答要否判定結果が「回答必要」の場合は、応答行動制御手段４７は、応答行動選択手段４７３ｃによって、音声認識結果である単語（文字情報）を解析し、質問内容を理解する。そして、理解した質問内容に対して適切な回答のシナリオを、ルールＤＢ記憶手段３３を検索して選択する。そして、この選択したシナリオの行動内容に従って、入力された音声に対して回答するという応答の行動内容を選択する。
例えば、音声認識された質問内容が「燃費は？」であったとすると、応答行動制御手段４７は、応答行動選択手段４７３ｃによって、燃費に関する説明のためのシナリオを行動内容としてルールＤＢ記憶手段３３から選択する。また、回答が予め定められた所定の時間よりも長く要する場合には、シナリオの最後に、例えば、「元の説明に戻ります。」のように、中断された発話に戻ることを示す発話を行うようにするのが望ましい。これによって、対話対象である人物にストレスを与えることなく、円滑に元の発話を再開させることができる。

ステップＳ２４で音声認識結果に応じた応答の行動内容を選択すると、応答行動制御手段４７は、応答行動選択手段４７３ｃによって、ステップＳ２４で選択した応答の行動内容を行動コマンド実行管理手段４７４に出力し、この行動内容を実行させる（ステップＳ１５）。

なお、ステップＳ２４において回答不要の入力された音声に対する応答の行動内容を選択した場合は、首を傾げながら、「ん？」と発話後に、対話対象からの再度の音声の入力がないか確認するために、例えば、１．５秒程度待機することが望ましい。そして、待機中に対話対象からの再度の音声の入力がない場合は、ステップＳ１３において、中断された元の発話を再開する行動が選択されることになる。これによって、応答行動制御手段４７は、対話対象からの再度の音声の入力があった場合に、対話対象である人物にストレスを与えることなく、この新たに入力された音声に対する応答行動を行うことができる。

次に、ステップＳ１０において、音声認識結果が出力されていない場合（ステップＳ１０でＮｏ）、応答行動制御手段４７は、即時中断判定手段４７１によって、状況ＤＢ記憶手段３６に記憶されている状況ＤＢを参照して、音声入力部２１ｂが出力した音声分析結果である音声の存在を示す情報を確認する（ステップＳ１１）。

人物の音声が存在する場合は（ステップＳ１１でＹｅｓ）、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、ロボットＲが発話中かどうかを確認する（ステップＳ１６）。

ロボットＲが発話中の場合は（ステップＳ１６でＹｅｓ）、応答行動制御手段４７は、即時中断判定手段４７１によって、状況ＤＢ記憶手段３６に記憶されている状況ＤＢを参照し、音声入力部２１ｂが出力した音声分析結果である音量および音声継続長、ならびに対象検知部８０が出力したタグ識別番号を入力する。続いて、応答行動制御手段４７は、即時中断判定手段４７１によって、状況ＤＢ記憶手段３６に記憶された平均音量ＤＢを参照して、このタグ識別番号に対応付けられた平均音量を入力する。そして、応答行動制御手段４７は、即時中断判定手段４７１によって、音量と平均音量との比および音声継続長の値の少なくとも一方が、それぞれ予め定められた所定の値より大きい場合には「即時中断する」と判定し（ステップＳ１７でＹｅｓ）、それ以外の場合は「即時中断しない」と判定する（ステップＳ１７でＮｏ）。

即時中断すると判定した場合は（ステップＳ１７でＹｅｓ）、応答行動制御手段４７は、即時中断判定手段４７１から「即時中断する」という即時中断判定結果を発話中断処理手段４７３ａに出力することで、発話を即時中断するという行動を選択する（ステップＳ１８）。
ステップＳ１８で即時中断する行動を選択すると、応答行動制御手段４７は、選択した行動である発話の即時中断を実行するために、発話中断処理手段４７３ａによって、即時に発話の中断を指示する即時中断コマンドを行動コマンド実行管理手段４７４に出力し、さらに行動コマンド実行管理手段４７４によって中断コマンドを音声合成部２１ａおよび身振り統合部４４に出力する。これによって、発話および発話に伴う動作が即時中断される（ステップＳ１５）。

一方、即時中断しないと判定した場合は（ステップＳ１７でＮｏ）、応答行動制御手段４７は、即時中断判定手段４７１から「即時中断しない」という即時中断判定結果を発話中断処理手段４７３ａに出力することで、発話を即時中断せず、区切り末で発話を中断するという行動を選択する（ステップＳ１９）。
ステップＳ１９で区切り末で発話を中断する行動を選択すると、応答行動制御手段４７は、選択した行動である発話の区切り末での発話の中断を実行するために、発話中断処理手段４７３ａによって、区切り末での発話の中断を指示する区切り末中断コマンドを行動コマンド実行管理手段４７４に出力する。このとき、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって音声合成部２１ａおよび身振り統合部４４には中断コマンドは出力せず、かつ次の区切りの発話データおよび動作内容の音声合成部２１ａおよび身振り統合部４４への出力を中止する。これによって、現在発話中の区切りの発話および発話に伴う動作が終了した時点で発話および発話に伴う動作が中断される（ステップＳ１５）。

また、ステップＳ１６において、ロボットＲが発話中でない場合（ステップＳ１６でＮｏ）、応答行動制御手段４７は、音声認識結果が入力されるまで待機するという行動を選択する（ステップＳ２０）。
応答行動制御手段４７は、選択した行動の実行である待機をする（ステップＳ１５）。なお、待機とは、次の区切りの発話データが残っている場合でも、行動コマンド実行管理手段４７４によって次の区切りの発話データおよび動作内容の出力をせず、積極的には処理を実行しないことを意味する。

次に、ステップＳ１１において、音声データに人物の音声が存在しない場合は（ステップＳ１１でＮｏ）、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、ロボットＲが発話中かどうかを確認する（ステップＳ１２）。

ロボットＲが発話中の場合は（ステップＳ１２Ｙｅｓ）、応答行動制御手段４７は、その発話を継続するという行動を選択する（ステップＳ１４）。
応答行動制御手段４７は、選択した行動である発話の継続を実行する（ステップＳ１５）。なお、発話の継続とは、行動コマンド実行管理手段４７４による中断コマンドの出力をせず、積極的には処理を実行しないことを意味する。

一方、ロボットＲが発話中でない場合は（ステップＳ１２でＮｏ）、応答行動制御手段４７は、対話状態に応じた次の行動を選択する（ステップＳ１３）。対話状態に応じた次の行動とは、例えば、現在のシナリオに基づく発話の継続や、中断された発話の再開である。このステップＳ１３の詳細については後記する。

そして、応答行動制御手段４７は、対話状態に応じて選択した次の行動を実行する（ステップＳ１５）。

次に、図１８を参照（適宜図６から図８および図１７参照）して、図１７に示したフロー図におけるステップＳ１３である「対話状況に応じた次の行動を選択」する処理の詳細について説明する。

図１８に示すように、この処理では、まず、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、ロボットＲの発話が中断された状態かどうかを確認する（ステップＳ３０）。

ここで、ロボットＲの発話が中断された状態である場合は（ステップＳ３０でＹｅｓ）、発話の中断の原因となった入力された音声に対する応答行動としての発話が終了した直後の状態が該当する。この場合は、応答行動制御手段４７は、応答行動選択手段４７３ｃによって、直前に実行した中断の原因となった入力された音声に対する応答行動における発話が、短い発話かどうかを確認する（ステップＳ３４）。ここで、短い発話とは、回答不要な入力された音声に対する応答行動（例えば、「首を傾げて、「ん？」と発話する」）における発話が該当する。

直前の発話が短い発話である場合は（ステップＳ３４でＹｅｓ）、応答行動制御手段４７は、再開位置決定手段４７３ｂによって、回答要否判定結果と内部状態記憶手段３７に記憶されている中断位置情報とに基づいて、再開位置を決定し、この再開位置を示す再開位置情報を行動コマンド実行管理手段４７４を介して内部状態記憶手段３７に記憶する（ステップＳ３６）。
ここで、回答要否判定結果は「回答不要」であるから、再開位置決定手段４７３ｂは、再開位置として、中断された元の発話データにおいて、発話が中断された区切りから発話を再開するように再開位置情報を作成する。

そして、応答行動制御手段４７は、再開位置決定手段４７３ｂから行動コマンド実行管理手段４７４に対して再開コマンドを出力させることで、中断された元の発話が再開される（ステップＳ１５、図１７参照）。ここで、応答行動制御手段４７は、再開コマンドを入力した行動コマンド実行管理手段４７４によって、内部状態記憶手段３７に記憶されている再開位置情報に従って、発話情報記憶手段３４から発話データを取得する。そして、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、再開位置に該当する区切りの発話データを音声合成部２１ａに出力する。

一方、直前の発話が短い発話でない場合は（ステップＳ３４でＮｏ）、応答行動制御手段４７は、再開位置決定手段４７３ｂによって、回答要否判定結果と内部状態記憶手段３７に記憶されている中断位置情報とに基づいて、再開位置を決定し、この再開位置を示す再開位置情報を作成して行動コマンド実行管理手段４７４を介して内部状態記憶手段３７に記憶する（ステップＳ３５）。
ここで、回答要否判定結果は「回答必要」であるから、再開位置決定手段４７３ｂは、再開位置として、中断された元の発話データにおいて、先頭の区切りのから発話を再開するように再開位置情報を作成する。
この場合の、応答行動制御手段４７の処理は、再開位置情報の内容が異なる以外は、ステップＳ３６と同様であるから、詳細な説明は省略する。

なお、本実施形態では、ステップＳ３４の「直前の発話が短い発話かどうか」の判定において、回答要否判定結果に応じて「短い発話である」か否かを判定するようにしたが、これに限定されるものではなく、回答の要否に関わらず、実際に応答行動に要した時間を計測して判定するようにしてもよい。例えば、回答としての発話が「はい」「いいえ」のように、予め定められた所定の時間より短い場合は、「短い発話である」と判定するようにしてもよい。

また、本実施形態では、入力された音声に対する応答行動において発話をする場合がある。そして、この応答行動としての発話中に新たに音声の入力があった場合には、２重またはそれ以上の多重の発話の中断状態が発生する。このような多重の発話の中断状態から発話を再開する場合は、最初に中断された発話を再開するものとする。

次に、ロボットＲの発話が中断された状態でない場合は（ステップＳ３０でＮｏ）、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、現在実行中のシナリオにおける発話の残りがあるかどうかを確認する（ステップＳ３１）。

発話の残りがある場合は（ステップＳ３１でＹｅｓ）、応答行動制御手段４７は、行動コマンド実行管理手段４７４によって、次の区切りの発話データおよび発話に伴う動作内容を選択し（ステップＳ３３）、音声合成部２１ａおよび身振り統合部４４に出力して、この区切りの発話および動作を実行させる（ステップＳ１５、図１７参照）。

一方、発話の残りがない場合は（ステップＳ３１でＮｏ）、行動パターン部４３は、これまでの対話状態や外部状況や行動のスケジュールなどに応じて、新たな次の行動（タスク）を選択する（ステップＳ３２）。このとき、応答行動制御手段４７は、新たな次の行動による発話が開始されるまでは、実質的に待機することになる。

以上、本発明の実施形態について説明したが、本発明は前記した実施形態に限定されるものではない。
本実施形態では、音声対話装置を、２足歩行可能な自律移動型のコミュニケーションロボットとして説明したが、これに限定されず、車輪で移動する自律移動型ロボットへの応用も可能である。また、脚部などの移動手段を有さない据え置き型や携帯型の音声対話装置としてもよく、カーナビゲーション装置のように、自動車などの移動体に搭載可能な音声対話装置としてもよい。さらに、頭部や腕部のような可動部を有さない音声対話装置としてもよい。そして可動部の替わりに画像表示手段を備えている場合には、例えば、首を傾げる動作に替えて、首を傾げる動作を行う人物の映像を画像表示手段に表示するようにしてもよく、単に「？」マークを画像表示手段に大きく表示するようにしてもよい。

Ａロボットシステム
Ｒロボット（コミュニケーションロボット）（音声対話装置）
Ｒ１頭部
Ｒ２腕部
Ｒ３脚部
Ｒ４胴体部
Ｒ５背面格納部
１基地局
２ロボット専用ネットワーク
３管理用コンピュータ
３ａ記憶部
４ネットワーク
５端末
１０画像処理部（外部情報取得手段）
２０音声処理部
２１ａ音声合成部（音声出力部）
２１ｂ音声入力部（外部情報取得手段）
２１ｃ音声認識部（外部情報取得手段）
２１ｄ音源定位部（外部情報取得手段）
３０記憶部
３１オブジェクトデータ記憶手段
３２ローカル地図データ記憶手段
３３ルールＤＢ記憶手段
３４発話情報記憶手段
３５応答状況記憶手段
３６状況ＤＢ記憶手段
３７内部状態記憶手段
４０主制御部
４１静止障害物統合部
４２オブジェクトデータ統合部
４３行動パターン部
４４身振り統合部
４５内部状態検出部
４６行動計画管理部
４７応答行動制御手段
５０自律移動制御部
６０無線通信部
７０バッテリ
８０対象検知部（外部情報取得手段）
９０周辺状態検知部（外部情報取得手段）
１００発話文
１１０発話データ（発話情報）
１２０中断位置情報
１３０再開位置情報
４７１即時中断判定手段
４７２回答要否判定手段
４７２ａ音量係数算出手段
４７２ｂ発話長係数算出手段
４７２ｃ単語信頼度平均算出手段
４７２ｄ判定閾値設定手段
４７２ｅ単語信頼度判定手段
４７２ｆ回答不要語判定手段
４７２ｇ総合判定手段
４７３応答行動決定手段
４７３ａ発話中断処理手段
４７３ｂ再開位置決定手段
４７３ｃ応答行動選択手段
４７４行動コマンド実行管理手段
Ｃカメラ
Ｋ１、Ｋ２、Ｋ３区切り
ＭＣマイク
Ｓスピーカ
ＳＲ１ジャイロセンサ
ＳＲ２ＧＰＳ受信器

Claims

周囲状況としての外部情報を取得する外部情報取得手段と、
発話情報に基づいて音声出力する音声出力部と、
前記音声出力部による前記発話情報に基づく音声出力を中断させ、前記中断に対する応答行動を選択し、前記選択した応答行動を実行した後に前記中断させた前記発話情報に基づく音声出力を再開させる応答行動制御手段と、
を備えた音声対話装置であって、
前記応答行動制御手段は、
前記外部情報取得手段が取得した外部情報に基づいて前記音声出力部による前記発話情報に基づく音声出力を中断させる音声出力中断処理手段と、
前記外部情報に基づいて前記応答行動を選択する応答行動選択手段と、
前記応答行動の実行状況に応じて、前記発話情報における音声出力を再開する位置である再開位置を決定する再開位置決定手段と、
を有することを特徴とする音声対話装置。
前記外部情報取得手段は、入力された音声を分析して少なくとも音量を含む音声分析結果を前記外部情報として出力する音声入力部を少なくとも備え、
前記音声出力中断処理手段は、少なくとも前記音声入力部が出力した前記音声分析結果に基づいて前記音声出力部による音声出力を中断させることを特徴とする請求項１に記載の音声対話装置。
前記音声出力中断処理手段は、前記外部情報に基づいて、前記音声出力部による前記発話情報に基づく音声出力を即時に中断させるか、または前記発話情報における意味のまとまりによって定められる区切りであって、前記音声出力部により音声出力中の前記区切りの末尾で前記音声出力部による音声出力を中断させるかを決定することを特徴とする請求項１または請求項２に記載の音声対話装置。
前記外部情報取得手段は、入力された音声を音声認識して少なくとも単語を含む音声認識結果を前記外部情報として出力する音声認識部をさらに備え、
前記応答行動選択手段は、少なくとも前記音声認識結果を含む前記外部情報に基づいて応答行動の内容を選択することを特徴とする請求項１ないし請求項３の何れか一項に記載の音声対話装置。
前記応答行動制御手段は、少なくとも前記音声認識結果に基づいて、当該音声認識された入力音声に対して回答する必要があるか不要かを判定する回答要否判定手段をさらに有し、
前記応答行動選択手段は、前記回答要否判定手段による判定結果である回答要否判定結果が回答必要の場合には、前記応答行動として前記音声認識結果に対する回答を行うことを選択し、前記回答要否判定結果が回答不要の場合には、前記応答行動として予め定められた所定の発話を含む所定の応答行動を行うことを選択することを特徴とする請求項４に記載の音声対話装置。
前記再開位置決定手段は、少なくとも前記応答行動を実行するために前記音声出力部による音声出力が中断された時間の長さである中断時間長に基づいて前記再開位置を決定することを特徴とする請求項１ないし請求項５の何れか一項に記載の音声対話装置。
前記再開位置決定手段は、前記中断時間長が、予め定められた所定の閾値を超える場合には、前記音声出力部による音声出力が中断された発話情報における先頭を前記再開位置として決定し、前記中断時間長が前記所定の閾値以下の場合には、意味のまとまりによって定められる区切りの先頭であって前記音声出力部による音声出力が中断された発話情報における中断位置の直前の前記区切りの先頭を前記再開位置として決定することを特徴とする請求項６に記載の音声対話装置。
前記再開位置決定手段は、前記回答要否判定結果が回答必要の場合には、前記音声出力部による音声出力が中断された発話情報における先頭を前記再開位置として決定し、前記回答要否判定結果が回答不要の場合には、意味のまとまりによって定められる少なくとも１つの単語を含んで構成される区切りの先頭であって前記音声出力部による音声出力が中断された発話情報における中断位置の直前の前記区切りの先頭を前記再開位置として決定することを特徴とする請求項５に記載の音声対話装置。
前記区切りは、１つまたは複数の文節によって構成されることを特徴とする請求項７または請求項８に記載の音声対話装置。
前記区切りは、係り受けによって意味のまとまりがある１つまたは複数の文節によって構成されることを特徴とする請求項９に記載の音声対話装置。