JP2019053351A

JP2019053351A - 応対装置、コンピュータプログラム及び応対方法

Info

Publication number: JP2019053351A
Application number: JP2017175121A
Authority: JP
Inventors: 昌希内田; Masaki Uchida; 靖寿松葉; Yasuhisa Matsuba
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2019-04-04

Abstract

【課題】人との対話を自然な形で終了することが可能な応対装置等を提供すること。【解決手段】応対装置は、動画像又は音声を取得する取得部と、取得部で取得した動画像又は音声に基づいて、別れの行動を検知する検知部と、別れの行動を検知した場合、所定の応答動作を行う応答部とを備える。【選択図】図１

Description

本発明は、ジェスチャー又は発話に対する応対を行う応対装置等に関する。

従来、ロボットが人のジェスチャーを認識すると、予めジェスチャーと対応付けた命令を実行するというマンマシンインタラクション技術が提案されている（特許文献１等）。

特開２０１１−６５６５２号公報

しかし、ジェスチャーは単なる命令の代替である。人と対話を行うシステムにおいて、人が対話を打ち切るジェスチャーをしても、対話を自然な形で終了することは困難である。

本発明は、このような事情に鑑みてなされたものである。本発明の目的は対話を自然な形で終了することが可能な応対装置等を提供することである。

本発明に係る応対装置は、動画像又は音声を取得する取得部と、取得部にて取得した動画又は音声に基づいて、別れの行動を検知する検知部と、別れの行動を検知した場合、所定の応答動作を行う応答部とを備えることを特徴とする。

本発明にあっては、人が対話を打ち切るジェスチャーに対応して、対話を自然な形で終了することが可能となる。

対話装置のハードウェア構成例を示すブロック図である。対話処理の手順例を示すフローチャートである。動作履歴テーブルの一例を示す説明図である。ジェスチャー認識処理の手順例を示すフローチャートである。終了処理の手順例を示すフローチャートである。終了処理の手順の他の例を示すフローチャートである。対話ロボットのハードウェア構成例を示すブロック図である。終了処理の手順の他の例を示すフローチャートである。対話処理の手順の他の例を示すフローチャートである。終了処理の手順の他の例を示すフローチャートである。対話処理の手順の他の例を示すフローチャートである。終了処理の手順の他の例を示すフローチャートである。

以下実施の形態を、図面を参照して説明する。

まず、以下の説明で用いる用語について説明する。「表示」とは「何かを示すこと」をいう。表示は視覚表示又は聴覚表示を想定している。しかしそれに限らず、「表示」には触覚などの他の感覚を利用したものも含む。表示の際、例えば視覚表示のみのように単一の表示ではなく、視覚表示及び聴覚表示のように複合表示でもよい。「別れの行動」とは、人が別れる際に行われる定型的な動作や発話をいう。別れの行動の動作（ジェスチャー、身振り）例は手を挙げる、手を左右に振るなどである。別れの行動の発話例は「さようなら」、「またね」、「バイバイ」、「では、これで」、「ご機嫌よう」などである。「応答」とは、対話相手の発話や身振りに対して、何らかの返答を行うことをいう。応答は例えば、表示装置などに文字を表示したり、スピーカから音声を発したりすることにより行う。応答はそれに限らない。人型ロボットではアーム（腕）を使った手振りや身振りをと応答としてもよい。複数の応答を組み合わせてもよい。例えば、アームを振りながら、「バイバイ」という音声を発する。

（実施の形態１）
図１は対話装置（応対装置）１のハードウェア構成例を示すブロック図である。対話装置１は近傍にいる人と対話を行うものである。対話装置１は接客や案内を行うサービスロボットに組み込まれている。それに限らず、広告や売り場案内などを表示するデジタルサイネージと一体化してもよい。

対話装置１はＣＰＵ（検知部、シナリオ取得部、属性取得部、履歴取得部）（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、撮像部１４、マイク１５、応答部１６、大容量記憶部１７及び読み取り部１８を含む。各構成はバスＢで接続されている。

ＣＰＵ１１はＲＯＭ１２に記憶された制御プログラム（コンピュータプログラム）１Ｐにしたがい、ハードウェア各部を制御する。ＲＡＭ１３は例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）、ＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）又はフラッシュメモリである。ＲＡＭ１３はＣＰＵ１１によるプログラムの実行時に発生するデータを一時的に記憶する。

撮像部１４は例えばＣＣＤ（Ｃｈａｒｇｅ−ＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラ又はＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭＯＳ）カメラ等である。撮像部１４はＣＣＤ又はＣＭＯＳ等を介して入力された光信号を光電変換することにより画像データ（動画像を含む）を取得する。撮像部１４は対話装置１近傍の様子を撮影する。マイク１５はダイナミックマイク、コンデンサーマイク、圧電マイクなどのマイクロフォンである。マイク１５は音波を音声データに変換する。マイク１５は対話装置１近傍の音を収集する。

応答部１６は応答を行うための構成を含む。応答部１６は例えば、表示パネル１６１、スピーカ１６２を含む。表示パネル１６１はＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）パネル又はＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）パネル等である。表示パネル１６１は対話に係るメッセージなどを表示する。スピーカ１６２は表示パネル１６１に表示した文字メッセージを音声出力する。また、スピーカ１６２は表示パネル１６１に表示したメッセージなどに関する説明音声や、対話相手に表示パネル１６１を見るように促す音声などを出力する。

大容量記憶部１７は、例えばハードディスク又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などである。大容量記憶部１７は対話用のシナリオや対話装置１が設置されている施設の情報などの各種データを記憶する。

シナリオは、対話装置１からの発話と当該発話に対して想定される対話相手の複数の応答とを対応付け、さらに各応答に対する対話装置１からの発話を、各応答に対応付けたデータである。発話−応答、応答−発話の組を複数組み合わせることで、まとまりのある対話のシナリオが構成される。

施設の情報は、施設内の案内図や施設の利用案内などである。小売店舗の場合は、店舗内の売り場の案内図やお買い得情報などである。

また、制御プログラム１Ｐを大容量記憶部１７に記憶してもよい。読み取り部１８はＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）−ＲＯＭを含む可搬型記憶媒体１ａを読み取る。ＣＰＵ１１が読み取り部１８を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、大容量記憶部１７に記憶してもよい。また、半導体メモリ１ｂから、ＣＰＵ１１が制御プログラム１Ｐを読み込んでもよい。

次に、対話装置１が行う処理について説明する。図２は対話処理の手順例を示すフローチャートである。対話装置１のＣＰＵ１１は、撮像部１４を介して画像を取得する（ステップＳ１）。ＣＰＵ１１は取得した画像を解析する（ステップＳ２）。ＣＰＵ１１はテンプレートマッチング等により、取得した画像に写り込んでいる物体を抽出する。ＣＰＵ１１は解析により人体を検知したか否かを判定する（ステップＳ３）。ＣＰＵ１１は人体を検知していないと判定した場合（ステップＳ３でＮＯ）、対話中であるか否かを判定する（ステップＳ４）。ＣＰＵ１１は対話中でないと判定した場合（ステップＳ４でＮＯ）、処理をステップＳ１へ戻す。ＣＰＵ１１は対話中であると判定した場合（ステップＳ４でＹＥＳ）、処理をステップＳ９へ移す。対話中に人体を検知しなくなるのは、対話相手が別れの行動をせずにいなくなった場合である。ＣＰＵ１１は人体を検知したと判定した場合（ステップＳ３でＹＥＳ）、対話中であるか否かを判定する（ステップＳ５）。ＣＰＵ１１は対話中でないと判定した場合（ステップＳ５でＮＯ）、対話を開始する（ステップＳ６）。対話は大容量記憶部１７に記憶されたシナリオを用いて行う。ＣＰＵ１１は処理をステップＳ１へ戻す。ＣＰＵ１１は対話中であると判定した場合（ステップＳ５でＹＥＳ）、ジェスチャー認識を行う（ステップＳ７）。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしているか否かを判定する（ステップＳ８）。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしていないと判定した場合（ステップＳ８でＮＯ）、処理をステップＳ１へ戻す。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしていると判定した場合（ステップＳ８でＹＥＳ）、終了処理を行う（ステップＳ９）。ＣＰＵ１１は対話処理を終了する。

画像解析による人体の検知は公知の技術で実現可能であるので、説明を省略する。人体の検知にあたっては、写り込んでいる人の状態も判定してもよい。そして、画像に写り込んでいる人がいたとしても、その人が対話装置１から所定距離以上離れている場合など、対話が不可能と推測されるときは、人体を検知してないと判定してもよい。

次に、図２のステップＳ７のジェスチャー認識処理について、説明する。図３は動作履歴テーブル１７１の一例を示す説明図である。動作履歴テーブル１７１はＲＡＭ１３又は大容量記憶部１７に記憶する。動作履歴テーブル１７１に記憶するデータは、ジェスチャー認識処理において使用される一時的なものである。動作履歴テーブル１７１は座標値列、ｃｏｕｎｔ列及び検知時刻列を含む。座標値列は手のひらの位置を示す座標値を記憶する。ここでいう手のひらは対話相手の手のひらである。ｃｏｕｎｔ列は手のひらを検知した回数を記憶する。検知時刻列は直近に手のひらを検知した時刻を記憶する。

図４はジェスチャー認識処理の手順例を示すフローチャートである。ＣＰＵ１１は手のひらを検知したか否かを判定する（ステップＳ２１）。ＣＰＵ１１は手のひらを検知したと判定した場合（ステップＳ２１でＹＥＳ）、手のひらの位置の座標、検知時刻及びｃｏｕｎｔの値を動作履歴テーブル１７１に保存する（ステップＳ２２）。ｃｏｕｎｔの値は０を設定する。ＣＰＵ１１は撮像部１４を介して画像を取得する（ステップＳ２３）。ＣＰＵ１１は画像の解析を行い、その結果、手のひらを検出したか否かを判定する（ステップＳ２４）。ＣＰＵ１１は手のひらを検出したと判定した場合（ステップＳ２４でＹＥＳ）、所定時間経過したか否かを判定する（ステップＳ２５）。ＣＰＵ１１は所定時間経過したと判定した場合（ステップＳ２５でＹＥＳ）、処理をステップＳ２２に戻す。ＣＰＵ１１は所定時間経過していないと判定した場合（ステップＳ２５でＮＯ）、手のひらの移動距離が閾値以下であるか否かを判定する（ステップＳ２６）。手のひらの移動距離は、ステップＳ２３で取得した画像における手のひらの位置の座標と、動作履歴テーブル１７１に保存している手のひらの位置の座標とから求める。ＣＰＵ１１は手のひらの移動距離が閾値を超えていると判定した場合（ステップＳ２６でＮＯ）、処理をステップＳ２２に戻す。ステップＳ２５でＹＥＳ又はステップＳ２６でＮＯと判定した場合は、別の手のひらが検知されたと判定すべきだからである。ＣＰＵ１１は手のひらの移動距離が閾値以下であると判定した場合（ステップＳ２６でＹＥＳ）、動作履歴テーブル１７１に保存している手のひらの位置の座標と検知時刻とを最新の値に更新するとともに、ｃｏｕｎｔの値を１増加させる（ステップＳ２７）。ＣＰＵ１１はｃｏｕｎｔの値が閾値を超えたか否かを判定する（ステップＳ２８）。ＣＰＵ１１はｃｏｕｎｔの値が閾値を超えていないと判定した場合（ステップＳ２８でＮＯ）、処理をステップＳ２３に戻す。ＣＰＵ１１はｃｏｕｎｔの値が閾値を超えたと判定した場合（ステップＳ２８でＹＥＳ）、戻り値に「別れの行動」を設定する（ステップＳ２９）。ＣＰＵ１１はジェスチャー認識処理を終了し、処理を呼び出し元に戻す。ＣＰＵ１１は手のひらを検出していないと判定した場合（ステップＳ２４でＮＯ）、所定時間経過したか否かを判定する（ステップＳ３０）。ＣＰＵ１１は所定時間経過していないと判定した場合（ステップＳ３０でＮＯ）、処理をステップＳ２３に戻す。ＣＰＵ１１は所定時間経過したと判定した場合（ステップＳ３０でＹＥＳ）、戻り値に「別れの行動でない」を設定する（ステップＳ３１）。ＣＰＵ１１はジェスチャー認識処理を終了し、処理を呼び出し元に戻す。ＣＰＵ１１は手のひらを検出していないと判定した場合（ステップＳ２１でＮＯ）、ジェスチャーの意味判定を行う（ステップＳ３２）。ＣＰＵ１１はジェスチャーの意味が別れの行動であるか否かを判定する（ステップＳ３３）。ＣＰＵ１１はジェスチャーの意味が別れの行動であると判定した場合（ステップＳ３３でＹＥＳ）、処理をステップＳ２９に移す。ＣＰＵ１１はジェスチャーの意味が別れの行動でないと判定した場合（ステップＳ３３でＮＯ）、処理をステップＳ３１に移す。

ステップＳ３３で別れの行動であると判定されるジェスチャーは手を振る動作（いわゆるバイバイ）以外の動作である。例えば、１回手を挙げて下ろす動作、相手に手の平側を向けて軽いグー・パーを２〜３回素早く繰り返す動作である。別れの行動を示すジェスチャーは、国、地域、性別などにより異なる場合もある。どのようなジェスチャーを別れの行動と判定するかは、対話装置１の設置場所により定める。

図４のステップＳ２２以降はバイバイの動作を検出する。バイバイの動作では、数秒間に手のひらを複数回検知のされるはずである。また、手のひらの位置はある範囲内を往復運動するはずである。このような前提のもと、ステップＳ２５及びステップＳ３０の所定時間、ステップＳ２６の閾値及びステップＳ２８の閾値を、実験等により定める。

ステップＳ２１、Ｓ２４で行う手のひらの検知は、例えば、ＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量を用いてＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）で識別する。

続いて、終了処理について説明する。終了処理は対話相手が別れのジェスチャーをして対話終了を望んだとき、対話中に突然対話相手がいなくなったときに実行される処理である。図５は終了処理の手順例を示すフローチャートである。ＣＰＵ１１は別れの行動を認識したか否かを判定する（ステップＳ４１）。別れの行動を認識したか否かは終了処理が開始前に判定している。ここでは、引数又はグローバル変数で渡されたフラグの値で判定可能であるとする。ＣＰＵ１１は別れの行動を認識していないと判定した場合（ステップＳ４１でＮＯ）、応答をクリアする（ステップＳ４２）。この場合、対話相手は突然いなくなったので、対話を終了し、応答部１６の表示パネル１６１の表示内容をクリアしたり、スピーカから発する音声メッセージを停止したりする。ＣＰＵ１１は別れの行動を認識したと判定した場合（ステップＳ４１でＹＥＳ）、別れのメッセージを表示する（ステップＳ４３）。例えば、「さようなら。また遊んで下さいね。」、「困ったことがあったら話しかけて下さいね。」などである。別れのメッセージの表示に関しては、対話の終了シナリオが大容量記憶部１７に記憶してある。ＣＰＵ１１は終了シナリオに基づいて、別れのメッセージを表示する。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。

本実施の形態では、対話相手がバイバイなどの別れの行動を示すジェスチャーをした場合、それを検出して、対話の終了する表示を行う。それにより、対話を自然な形で終了することが可能となる。

（実施の形態２）
本実施の形態は終了処理を実施の形態１から変更した形態に関する。その他の構成は実施の形態１と同様である。本実施の形態では、別れの行動をした対話相手に対して、いわゆるオウム返しのように、応答として、同様な別れの行動を行う。図６は終了処理の手順の他の例を示すフローチャートである。ＣＰＵ１１は別れの行動を認識したか否かを判定する（ステップＳ５１）。ＣＰＵ１１は別れの行動を認識していないと判定した場合（ステップＳ５１でＮＯ）、応答をクリアする（ステップＳ５２）。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。ステップＳ５１、ステップＳ５２は、それぞれ図５のステップＳ４１、ステップＳ４２と同様である。ＣＰＵ１１は別れの行動を認識したと判定した場合（ステップＳ５１でＹＥＳ）、認識した行動を表示する（ステップＳ５３）。例えば、対話相手が手を振るバイバイの挨拶をした場合、対話装置１は手を振る映像を表示パネル１６１に表示する。この際、対話相手が手を振った回数と同じ回数分の映像を表示してもよい。「バイバイ」という文字を表示パネル１６１に表示してもよい。「バイバイ」という音声をスピーカ１６２から発してもよい。対話相手が手を振る身振りのみで、「バイバイ」という声を発しなかった場合には、表示パネル１６１に手を振る映像のみを表示し、スピーカからの出力をしなくてもよい。

本実施の形態において、対話装置１はオウム返しのように対話相手と同じ別れの行動をするので、対話相手に親しみを感じさせることが可能となる。それにより、次回以降、対話装置１は対話相手との対話がより円滑に行うことが可能となる。その結果、アンケートなどの情報収集が容易に行える。

（実施の形態３）
本実施の形態は終了処理を実施の形態１から変更した形態に関する。その他の構成は実施の形態１と同様である。但し、本実施の形態において、対話装置１は移動可能な対話ロボット（応答装置）に組み込まれているものとする。そして、当該対話ロボットはショッピングモールや百貨店など比較的大きな小売店舗に配置されているものとする。当該対話ロボットは対話相手と対話を行いながら、行動をともにしている。

図７は対話ロボット１００のハードウェア構成例を示すブロック図である。図７において、図１に示した対話装置１と同様な構成は同一の符合を付し、詳しい説明を省略する。対話ロボット１００は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、撮像部１４、マイク１５、応答部１６、大容量記憶部１７、位置検出部１９及び移動機構２０を含む。各構成はバスＢで接続されている。応答部１６は表示パネル１６１、スピーカ１６２及びアーム１６３を含む。アーム１６３は人間の腕を模した構成である。アーム１６３は人間と同様な手振りが可能である。大容量記憶部１７は地図情報や案内情報などを記憶する。地図情報は対話ロボット１００が配置されている店舗内の地図である。案内情報は当該店舗の売り場、トイレ、出入口に関する情報などである。位置検出部１９は対話ロボット自身の位置を検出する。位置検出部１９はＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）受信機により得られる緯度、経度を検出する。また、位置検出部１９は各所に設置されたビーコンから送信されている位置情報を含むビーコン電波を受信機で受信し、ビーコン電波に含まれる位置情報に基づいて、位置を検出する。これらの方法に限らず、他の位置検出方法を採用してもよい。移動機構２０は車輪及びモータ等を含み、対話ロボット１００を移動させる。

図８は終了処理の手順の他の例を示すフローチャートである。ＣＰＵ１１は別れの行動を認識したか否かを判定する（ステップＳ６１）。ＣＰＵ１１は別れの行動を認識していないと判定した場合（ステップＳ６１でＮＯ）、応答をクリアする（ステップＳ６２）。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。ステップＳ６１、ステップＳ６２は、それぞれ図５のステップＳ４１、ステップＳ４２と同様である。ＣＰＵ１１は別れの行動を認識したと判定した場合（ステップＳ６１でＹＥＳ）、ＣＰＵ１１は現地位置を、位置検出部１９を介して取得する（ステップＳ６３）。ＣＰＵ１１は対話相手の行動判定を行う（ステップＳ６４）。行動判定は、現在位置や向かっている方向などにより行う。ＣＰＵ１１は行動判定の結果、対話相手が退店しようとしているか否か判定する（ステップＳ６５）。ＣＰＵ１１は対話相手が退店しようとしていると判定した場合（ステップＳ６５でＹＥＳ）、出口案内を出力する（ステップＳ６６）。出口案内は現在位置から出口までの経路地図を表示パネル１６１に表示する。経路の説明をスピーカ１６２で音声表示してもよい。ＣＰＵ１１は対話相手が退店しようとしていないと判定した場合（ステップＳ６５でＮＯ）、店舗案内を出力する（ステップＳ６７）。店舗案内は例えば近くの売り場の案内や本日のセール情報などである。店舗案内は出口案内と同様に、表示パネル１６１やスピーカ１６２で表示する。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。

本実施の形態では、対話の終了時に退店しようとしている対話相手に対しては出口案内を行い、まだ在店している対話相手に対しては店舗案内をする。それにより対話相手に対話装置１の有用性を感じさせることが可能となる。その結果、対話相手は次回の来店時にも、対話装置１と対話する確率が高まるので、対話ロボット１００の稼働率を高めることが可能となる。

（実施の形態４）
本実施の形態は、対話相手の属性により別れの行動への応答を変化させる形態に関する。ここでは属性の一例として年齢を取り上げる。また、対話ロボット１００が行う処理が異なるのみで、ハードウェアの構成は上述の実施の形態と同様である。本実施の形態において、対話相手の年齢が８歳以下の場合、バイバイなどの別れの行動は、対話ロボット１００の気を引くためのものであり、別れを意味していないことがあり得る。また、対話相手が複数人で、９歳以上の対話相手及び８歳以下の対話相手が含まれる場合、別れの行動をしたのが８歳以下の対話相手であるときは、対話を終了させないものとする。ここで、対話相手の年齢が８歳以下の場合、対話ロボット１００の気を引くために、バイバイなどの別れの行動をすると考えるからである。なお、９歳以上８歳以下というのは一例であり、他の年齢が適切な場合は変更してもよい。

図９は対話処理の手順の他の例を示すフローチャートである。対話ロボット１００のＣＰＵ１１は、撮像部１４を介して画像を取得する（ステップＳ７１）。ＣＰＵ１１は取得した画像を解析する（ステップＳ７２）。ＣＰＵ１１はテンプレートマッチング等により、取得した画像に写り込んでいる物体を抽出する。ＣＰＵ１１は解析により人体を検知したか否かを判定する（ステップＳ７３）。ＣＰＵ１１は人体を検知していないと判定した場合（ステップＳ７３でＮＯ）、対話中であるか否かを判定する（ステップＳ７４）。ＣＰＵ１１は対話中でないと判定した場合（ステップＳ７４でＮＯ）、処理をステップＳ７１へ戻す。ＣＰＵ１１は対話中であると判定した場合（ステップＳ７４でＹＥＳ）、処理をステップＳ８３へ移す。ＣＰＵ１１は人体を検知したと判定した場合（ステップＳ７３でＹＥＳ）、対話中であるか否かを判定する（ステップＳ７５）。ＣＰＵ１１は対話中でないと判定した場合（ステップＳ７５でＮＯ）、対話を開始する（ステップＳ７６）。ＣＰＵ１１は処理をステップＳ７１へ戻す。ＣＰＵ１１は対話中であると判定した場合（ステップＳ７５でＹＥＳ）、対話相手が複数人であるか否かを判定する（ステップＳ７７）。ＣＰＵ１１は対話相手が複数人であると判定した場合（ステップＳ７７でＹＥＳ）、対話相手それぞれの年齢判定を行う（ステップＳ７８）。年齢の判定は、例えば、画像中から人物の顔を検出・解析することにより行う。年齢の判定は公知の技術により実現可能であるので、説明を省略する。ＣＰＵ１１は対話相手の中に９歳以上の人がいるか否かを判定する（ステップＳ７９）。ＣＰＵ１１は対話相手の中に９歳以上の人がいると判定した場合（ステップＳ７９でＹＥＳ）、ジェスチャー認識を行う（ステップＳ８０）。ジェスチャー認識処理については、実施の形態１と同様で、図４に示したとおりである。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしているか否かを判定する（ステップＳ８１）。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしていないと判定した場合（ステップＳ８１でＮＯ）、処理をステップＳ７１へ戻す。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしていると判定した場合（ステップＳ８１でＹＥＳ）、別れの行動をしている対話相手が８歳以下であるか否かを判定する（ステップＳ８２）。ＣＰＵ１１は別れの行動をしている対話相手が８歳以下であると判定した場合（ステップＳ８２でＹＥＳ）、対話を継続すべきと判定し、処理をステップＳ７１に戻す。
ＣＰＵ１１は別れの行動をしている対話相手が８歳以下でないと判定した場合（ステップＳ８２でＮＯ）、終了処理を行う（ステップＳ８３）。ＣＰＵ１１は対話相手が複数人でないと判定した場合（ステップＳ７７でＮＯ）、対話相手の年齢の判定を行う（ステップＳ８４）。年齢の判定は上述したように公知の技術で実現可能である。ＣＰＵ１１はジェスチャー認識を行う（ステップＳ８５）。ジェスチャー認識処理については、上述したように実施の形態１と同様で、図４に示したとおりである。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしているか否かを判定する（ステップＳ８６）。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしていないと判定した場合（ステップＳ８６でＮＯ）、処理をステップＳ７１へ戻す。ＣＰＵ１１はジェスチャー認識の結果、対話相手が別れの行動をしていると判定した場合（ステップＳ８６でＹＥＳ）、処理をステップＳ８３に移す。ＣＰＵ１１はステップＳ８３を実行後、対話処理を終了する。ＣＰＵ１１は対話相手の中に９歳以上の人がいないと判定した場合（ステップＳ７９でＮＯ）、ステップＳ８５以降を実行する。

図１０は終了処理の手順の他の例を示すフローチャートである。ＣＰＵ１１は別れの行動を認識したか否かを判定する（ステップＳ９１）。ＣＰＵ１１は別れの行動を認識していないと判定した場合（ステップＳ９１でＮＯ）、応答をクリアする（ステップＳ９２）。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。ステップＳ９１、ステップＳ９２は、それぞれ図５のステップＳ４１、ステップＳ４２と同様である。ＣＰＵ１１は別れの行動を認識したと判定した場合（ステップＳ９１でＹＥＳ）、ＣＰＵ１１は別れの行動をしている対話相手が８歳以下であるか否かを判定する（ステップＳ９３）。ＣＰＵ１１は別れの行動をしている対話相手が８歳以下であると判定した場合（ステップＳ９３でＹＥＳ）、認識した行動を表示する（ステップＳ９４）。具体例は上述したステップＳ５３と同様である。それらに加えてアーム１６３を用いた行動を行ってもよい。対話相手が手を振っている場合は、アーム１６３を振る。その際、振り幅や振り速度を対話相手に合わせるようにしてもよい。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。ＣＰＵ１１は別れの行動をしている対話相手が８歳以下でないと判定した場合（ステップＳ９３でＮＯ）、現地位置を取得する（ステップＳ９５）。ＣＰＵ１１は対話相手の行動判定を行う（ステップＳ９６）。ＣＰＵ１１は行動判定の結果、対話相手が退店しようとしているか否か判定する（ステップＳ９７）。ＣＰＵ１１は対話相手が退店しようとしていると判定した場合（ステップＳ９７でＹＥＳ）、出口案内を出力する（ステップＳ９８）。ＣＰＵ１１は対話相手が退店しようとしていないと判定した場合（ステップＳ９７でＮＯ）、店舗案内を出力する（ステップＳ９９）。ステップＳ９５からステップＳ９９の処理は、それぞれ図８のステップＳ６３からステップＳ６７の処理と同様である。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。

本実施の形態では、対話ロボット１００は、年齢判定により別れの行動をしている対話相手がある年齢（８歳）以下の場合、別れの意図ではなく、気を引くため動作と判定する。そして、対話ロボット１００は、対話相手と同様な行動を返す。それにより、ある年齢以下の対話相手にも親しみを感じさせることが可能となる。また、対話相手が複数であって、親子のように大人とある年齢以下の子ども場合、子どもの対話相手が行った別れの行動では対話を終了しない。それにより、大人の対話相手が対話を継続する意思があるにも関わらず、対話を終了してしまうという不具合を避けることが可能となる。

（実施の形態５）
本実施の形態は、対話相手が別れの行動した場合に、対話の継続を試みる形態に関する。それまでと異なる対話内容を提示する。例えば、対話履歴に基づく、インセンティブを表示する。対話履歴は例えば、対話時間の長さ、アンケートの質問に対する回答数などである。対話履歴は対話中に随時、大容量記憶部（履歴記憶部）１７などに記憶する。本実施の形態は、対話装置１が行う処理が異なるのみで、ハードウェアの構成は実施の形態１と同様である。

図１１は対話処理の手順の他の例を示すフローチャートである。図１１において、ステップＳ１からステップＳ８は、図２に示したステップＳ１からステップＳ８と同様なので、説明を省略する。ステップＳ９で行う終了処理の詳細は後述するが、終了処理において、対話相手の引き止めを試みる。終了処理の後、ＣＰＵ１１は対話相手の引き止めに成功したか否かを判定する（ステップＳ１０）。ＣＰＵ１１は対話相手の引き止めに成功したと判定した場合（ステップＳ１０でＹＥＳ）、対話を再開し（ステップＳ１１）、処理をステップＳ１に戻す。ＣＰＵ１１は対話相手の引き止めに失敗したと判定した場合（ステップＳ１０でＮＯ）、対話処理を終了する。

図１２は終了処理の手順の他の例を示すフローチャートである。ＣＰＵ１１は別れの行動を認識したか否かを判定する（ステップＳ１１１）。ＣＰＵ１１は別れの行動を認識していないと判定した場合（ステップＳ１１１でＮＯ）、応答をクリアする（ステップＳ１２０）。ＣＰＵ１１は処理をステップＳ１１９に移す。ステップＳ１１１、ステップＳ１２０は、それぞれ図５のステップＳ４１、ステップＳ４２と同様である。ＣＰＵ１１は別れの行動を認識したと判定した場合（ステップＳ１１１でＹＥＳ）、ＣＰＵ１１は別れの行動をしている対話相手が８歳以下であるか否かを判定する（ステップＳ１１２）。ＣＰＵ１１は別れの行動をしている対話相手が８歳以下であると判定した場合（ステップＳ１１２でＹＥＳ）、認識した行動を表示する（ステップＳ１２１）。ＣＰＵ１１は処理をステップＳ１１９に移す。ＣＰＵ１１は別れの行動をしている対話相手が８歳以下でないと判定した場合（ステップＳ１１２でＮＯ）、対話時間を取得する（ステップＳ１１３）。対話時間は例えば、対話開始してからの経過時間（応対時間）である。ＣＰＵ１１は取得した対話時間をもとに対話相手に付与可能なインセンティブを取得する（ステップＳ１１４）。インセンティブは例えば、金銭的価値を持つポイントや割引券である。ＣＰＵ１１はインセンティブを出力する（ステップＳ１１５）。例えば、ＣＰＵ１１は、スピーカ１６２で次のような音声表示を行う。ＣＰＵ１１は、「お話ししてくれたお礼にプレゼントをあげるね。もっとお話ししてくれたら、プレゼントはもっとよいものになるかもよ。」と表示する。ＣＰＵ１１は引き止めに成功したか否かを判定する（ステップＳ１１６）。ＣＰＵ１１は、表示パネル１６１にインセンティブの内容と、話しを続けるか否かを入力するための、「はい」／「いいえ」ボタンを表示する。対話相手が「はい」を選択した場合は対話を続ける意思があり、引き止めに成功したと、ＣＰＵ１１は判定する。対話相手が「いいえ」を選択した場合は、対話を続ける意思がなく、引き止めに失敗したと、ＣＰＵ１１は判定する。ＣＰＵ１１は引き止めに成功したと判定した場合（ステップＳ１１６でＹＥＳ）、戻り値に「成功」を設定する（ステップＳ１１７）。ＣＰＵ１１は引き止めに失敗したと判定した場合（ステップＳ１１６でＮＯ）、別れのメッセージを表示する（ステップＳ１１８）。別れのメッセージには、インセンティブの取得方法を含める。例えば、インセンティブを付与するインターネットサイトのＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を含む２次元コードを表示する。対話相手は２次元コードにより、インセンティブ付与サイトにアクセスし、インセンティブ（例えば、割引券の画像）を取得する。ＣＰＵ１１は戻り値に「失敗」を設定する（ステップＳ１１９）。ＣＰＵ１１は終了処理を終了し、処理を呼び出し元に戻す。

本実施の形態では、対話相手が別れの行動をした場合、対話装置１は引き止めを行う。それにより、対話相手と十分な対話が可能となる。例えば、対話の内容がアンケートであって、対話相手についての情報を収集している場合、十分な情報を収集することが可能となる。この場合、上述の説明では、対話装置１は必ず引き止めをするが、対話が十分なときは引き止めはしなくてもよい。上述の説明では対話装置１として説明したが、本実施の形態は対話ロボット１００でも実現可能である。上述では、対話時間でインセンティブを定めるとしたが、それに限らない。対話内容で定めてよい。例えば、アンケートを行っている場合は、回答をした質問の数や、回答の長さなどにより、インセンティブを定めてもよい。

上述の対話処理では、別れの行動の判定を対話している人のジェスチャーのみで行ったが、それに限らない。対話相手の発話をマイク１５で収集し、音声認識により別れの行動の発話がされているかを判定してもよい。さらに、ジェスチャー及び発話の両方の認識を行い、別れの行動がされているかを判定してもよい。

各実施の形態で記載されている技術的特徴（構成要件）はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１対話装置
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４撮像部
１５マイク
１６応答部
１６１表示パネル
１６２スピーカ
１６３アーム
１７大容量記憶部
１７１動作履歴テーブル
１８読み取り部
１Ｐ制御プログラム
１ａ可搬型記憶媒体
１ｂ半導体メモリ

Claims

動画像又は音声を取得する取得部と、
前記取得部にて取得した動画像又は音声に基づいて、別れの行動を検知する検知部と、
別れの行動を検知した場合、所定の応答動作を行う応答部と
を備えることを特徴とする応対装置。
前記検知部は、手を振る動作を検知する
ことを特徴とする請求項１に記載の応対装置。
記憶部から対話のシナリオを取得するシナリオ取得部を備え、
該シナリオ取得部は、前記検知部が別れの行動を検知した場合、前記記憶部から終了シナリオを取得し、
前記応答部は取得した前記終了シナリオに基づいた応答を行う
ことを特徴とする請求項１又は請求項２に記載の応対装置。
前記応答部は前記検知部が検知した別れの行動を応答動作して行う
ことを特徴とする請求項１から請求項３のいずれか一項に記載の応対装置。
位置情報を取得する位置検出部を備え、
前記位置検出部の取得した位置に基づいて、前記応答部による所定の応答動作を行うか否かの判定を行う
ことを特徴とする請求項３に記載の応対装置。
前記検知部が検知した前記別れの行動を発した人の属性を取得する属性取得部を備え、
前記シナリオ取得部は、前記属性取得部の取得した属性に基づいて、前記属性に対応付けられた前記終了シナリオを取得する
ことを特徴とする請求項３に記載の応対装置。
別れの行動までの応対時間に応じたインセンティブを提示する
ことを特徴とする請求項３に記載の応対装置。
対話履歴を記憶する履歴記憶部より前記別れの行動を取得するまでの履歴を取得し、対話内容に基づいて、前記インセンティブの内容を定める
ことを特徴とする請求項７に記載の応対装置。
前記所定の応答動作は、それまでと異なる対話内容を提示する
ことを特徴とする請求項３に記載の応対装置。
コンピュータに、
動画像又は音声を取得し、
取得した動画像又は音声に基づいて、別れの行動を検知し、
別れの行動を検知した場合、所定の応答を行わせる命令を出力する
処理を行わせることを特徴とするコンピュータプログラム。
コンピュータが、
動画像又は音声を取得し、
取得した動画像又は音声に基づいて、別れの行動を検知し、
別れの行動を検知した場合、所定の応答を行う
ことを特徴とする応対方法。