JP2016093279A - Control apparatus, control apparatus operation method, and computer program - Google Patents
Control apparatus, control apparatus operation method, and computer program Download PDFInfo
- Publication number
- JP2016093279A JP2016093279A JP2014230741A JP2014230741A JP2016093279A JP 2016093279 A JP2016093279 A JP 2016093279A JP 2014230741 A JP2014230741 A JP 2014230741A JP 2014230741 A JP2014230741 A JP 2014230741A JP 2016093279 A JP2016093279 A JP 2016093279A
- Authority
- JP
- Japan
- Prior art keywords
- user
- image
- mode
- robot
- presentation device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Manipulator (AREA)
- Rehabilitation Tools (AREA)
Abstract
Description
本発明は、回想療法に必要な事前準備や実施の時間を自動化によって低減することを目的としてなされた画像提示装置およびロボットの制御技術に関するものである。 The present invention relates to an image presentation apparatus and a robot control technology that are intended to reduce the time required for preparation and execution necessary for reminiscence therapy by automation.
従来、回想療法を実施する際は、療法を行う高齢者に対して適切な質問を投げかけたり、高齢者の会話を促すきっかけとなる写真を提示したり、高齢者の対話に対して適切な頷きや相槌を打ったりなどを行うことで、高齢者が対話を継続しやすい状態を演出する必要があった。そのため、回想療法を実施するスキルを持った人材(セラピスト)の形成、回想療法を実施するためのセラピストの稼働の確保、高齢者の会話を促すための写真の準備など、実施のために多くの人的リソースを必要としていた。 Conventionally, when performing reminiscence therapy, it is possible to ask appropriate questions to elderly people who are receiving therapy, present pictures that encourage conversations by elderly people, and appropriately speak to elderly people. It was necessary to produce a state in which elderly people can continue to interact with each other by hitting and competing. For this reason, there are many things to implement, such as the formation of human resources (therapists) with skills to implement reminiscence therapy, ensuring the operation of therapists to implement reminiscence therapy, and preparing photos to encourage conversation among the elderly. Needed human resources.
従来技術において、回想療法を支援する方法の1つとして非特許文献1のような、思い出ビデオと遠隔TV電話による回想療法支援が提案されている。非特許文献1の手法では、高齢者の昔の写真をスライドショーにした思い出ビデオを遠隔地からセラピストが操作しながら回想療法を実施することで、セラピストが直接対面することなく離れた場所からの回想療法を実現している。しかしながら、本手法に必要な思い出ビデオの作成には、あらかじめ高齢者と関係のある写真を選び、写真をPCに取り込んだあとで写真の地名や人名、撮影日時などをアノテーションデータとして取り込む必要がある。そのため、回想療法を実施する各個人に向けた思い出ビデオの作成は容易ではなく実施における課題の1つとなっていた。また遠隔TV電話による回想療法の実施は、セラピストが直接高齢者宅に訪れる必要が無くなった点で移動に必要な時間を削減できる一方、回想療法実施時には遠隔地でセラピストが療法を実施する必要があり、依然として人的稼働を必要にする点で課題が残っていた。
In the prior art, as one of the methods for supporting reminiscence therapy, reminiscence therapy support using a memory video and a remote videophone as in Non-Patent
また特許文献1では、回想療法を受ける各ユーザに対して、”いつ”を示す時間属性と、”どこで”を示す空間属性と、”何を”を示す対象属性と、”どうしたのか”を示す行動属性とのそれぞれの値をイベントデータベースとして登録することで、イベントデータベースから質問文を生成し、質問をユーザに実施することで回想療法を実施する方法が提案されている。しかしながら、本手法は各ユーザの行動をイベントデータベースに登録する必要があり、自動取得のためには各種センサをユーザや環境に取り付けるなどの方法を取る必要がある。さらに、自動取得する場合においても“何を”を示す対象属性と“どうしたのか”を示す行動属性を自動取得することは一般に容易ではない。そのため、ユーザまたは環境にイベント自動抽出のためのセンサ機器などの設備を十分に整えるか、介護者による日々のイベントの登録を各ユーザ毎に行う必要があり、課題が残っていた。
In
また従来技術では人間同士における対話の内容に応じて画像表示装置で表示する画像を切り替える[特許文献2]のような発明の提案が行われていた。しかしながら、これら従来技術を回想療法に適用する場合、回想を行いやすくする画像刺激を予め用意せずとも会話に応じて高齢者に画像刺激が提供できる利点があるが、回想療法の実施中はセラピストが高齢者に付き添う必要があり、また高齢者が表示された画像に対して話を展開したい場合にも画像表示が切り替わってしまうため、付添者または高齢者自身が端末を操作する必要があり、どちらかが装置の利用方法を覚え、会話の流れを停止しないように適切に各々が操作をする必要があった。 Further, in the prior art, an invention such as [Patent Document 2] has been proposed in which an image to be displayed on an image display device is switched in accordance with the content of dialogue between humans. However, when these conventional techniques are applied to reminiscence therapy, there is an advantage that image stimuli can be provided to elderly people according to conversation without preparing image stimuli that facilitate recollection in advance. Needs to be accompanied by the elderly, and when the elderly wants to expand the story on the displayed image, the image display will be switched, so the attendant or the elderly themselves must operate the device, One of them learned how to use the device, and each had to operate appropriately so as not to stop the flow of conversation.
本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、回想療法に必要な事前準備や実施の時間を自動化によって低減することにある。 This invention is made | formed in view of said subject, The place made into the objective is to reduce the prior preparation required for reminiscence therapy, and the time of implementation by automation.
上記の課題を解決するために、第1の本発明は、ユーザにより使用される画像提示装置およびロボットを制御する制御装置であって、前記ユーザによる発話および前記ユーザが向ける注意の方向に基づいて、前記制御装置の動作モードを回想促進モード、対話モードおよび表示画像対話モードの中で切り替え、前記画像提示装置および前記ロボットを連動させて制御する手段を備えることを特徴とする。 In order to solve the above-described problems, a first aspect of the present invention is an image presentation device used by a user and a control device for controlling a robot, based on the utterance by the user and the direction of attention directed by the user. The operation mode of the control device is switched between a recollection promotion mode, a dialogue mode, and a display image dialogue mode, and the image presentation device and the robot are controlled in conjunction with each other.
例えば、前記回想促進モードのときは、前記ロボットが前記ユーザに向くように制御し、前記ユーザに回想を開始させるための質問文を前記ロボットが発話するように制御し、前記対話モードのときは、前記ユーザの発話から得た検索単語列により検索した画像を前記画像提示装置が切り替えて表示するように制御し、前記ロボットが前記ユーザに向くように制御し、前記ユーザに傾聴している動作を前記ロボットが実行するように制御し、前記表示画像対話モードのときは、前記ユーザの発話から得た検索単語列により検索した画像を前記画像提示装置が継続して表示するように制御し、前記継続して表示される前記画像を表示する前記画像提示装置の方に前記ロボットが向くように制御し、前記検索単語列に応じた発話テキストを前記ロボットが発話するように制御する。 For example, in the recollection promotion mode, the robot is controlled so as to face the user, and the robot is controlled to speak a question sentence for causing the user to start recollection. The operation of controlling the image presentation device to switch and display the image searched by the search word string obtained from the user's utterance, and controlling the robot to face the user and listening to the user Is controlled so that the robot executes, and in the display image dialogue mode, the image presentation device is controlled to continuously display an image searched by a search word string obtained from the user's utterance, The robot is controlled so that the robot faces the image presentation device that displays the continuously displayed image, and the utterance text corresponding to the search word string is Tsu door is controlled so as to speak.
例えば、前記回想促進モードのときは、前記ユーザの発話を検知した場合は、前記対話モードに遷移し、前記対話モードのときは、前記ユーザが前記画像提示装置に注意を向けることを開始したと検知した場合は、前記表示画像対話モードに遷移する一方、前記ユーザの発話が一定時間以上ないことを検知した場合は、前記回想促進モードに遷移し、前記表示画像対話モードのときは、前記ユーザが前記画像提示装置に注意を向けることを終了したと検知した場合は、前記対話モードに遷移する一方、前記ユーザの発話が一定時間以上ないことを検知した場合は、前記回想促進モードに遷移する。 For example, when the user's utterance is detected in the recollection promotion mode, the mode changes to the dialogue mode, and in the dialogue mode, the user starts to pay attention to the image presentation device. When detected, the display image dialogue mode is changed, while when the user's utterance is detected not to exceed a certain time, the recollection promotion mode is changed. When the display image dialogue mode is selected, the user is changed to the display image dialogue mode. Transitions to the dialogue mode when detecting that the user has finished paying attention to the image presentation device, while transitioning to the recollection promotion mode when it is detected that the user's utterance has not exceeded a predetermined time. .
例えば、前記対話モードにおいて、前記ユーザによる対話が停止している区間の長さが、予め定められた第1の閾値より長いという第1の条件と、前記ユーザの顔または視線の少なくとも一方が前記画像提示装置に向いており且つ前記ユーザによる対話が継続している区間の長さが、予め定められた第2の閾値より長いという第2の条件とが充足した場合に、前記ユーザが前記画像提示装置に注意を向けることを開始したと判定する。 For example, in the dialog mode, at least one of the first condition that the length of the section in which the dialog by the user is stopped is longer than a predetermined first threshold, and the user's face or line of sight is the When the user satisfies the second condition that the length of the section that is suitable for the image presentation device and the conversation by the user continues is longer than a predetermined second threshold, the user It determines with having started paying attention to a presentation apparatus.
例えば、前記表示画像対話モードにおいて、前記ユーザの顔または視線の少なくとも一方が前記画像提示装置に向いている状態が終了したことを検知してからの時間の長さが、予め定められた閾値より長いという条件が充足した場合に、前記ユーザが前記画像提示装置に注意を向けることを終了したと判定する。 For example, in the display image dialogue mode, the length of time after detecting that the state where at least one of the user's face or line of sight is facing the image presentation device has ended is greater than a predetermined threshold value. When the long condition is satisfied, it is determined that the user has finished paying attention to the image presentation device.
第2の本発明は、ユーザにより使用される画像提示装置およびロボットを制御する制御装置の動作方法であって、前記制御装置が、前記ユーザによる発話および前記ユーザが向ける注意の方向に基づいて、前記制御装置の動作モードを回想促進モード、対話モードおよび表示画像対話モードの中で切り替え、前記画像提示装置および前記ロボットを連動させて制御する。 A second aspect of the present invention is an operation method of a control device for controlling an image presentation device and a robot used by a user, wherein the control device is based on the direction of the utterance by the user and the direction of attention directed by the user. The operation mode of the control device is switched among a recall promotion mode, a dialogue mode, and a display image dialogue mode, and the image presentation device and the robot are controlled in conjunction with each other.
第3の本発明は、第1の本発明に係る制御装置としてコンピュータを機能させるためのコンピュータプログラムである。 The third aspect of the present invention is a computer program for causing a computer to function as the control device according to the first aspect of the present invention.
本発明によれば、回想療法に必要な事前準備や実施の時間を自動化によって低減することができる。 ADVANTAGE OF THE INVENTION According to this invention, the advance preparation required for reminiscence therapy and the time of implementation can be reduced by automation.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
本実施の形態では、少ない事前準備で、かつ回想療法実施時にセラピストを必要せず注意に応じて適切に表示内容を切り替える手法を提案する。 In the present embodiment, a method is proposed that switches display contents appropriately according to attention with little advance preparation and without the need of a therapist when performing reminiscence therapy.
図1は、本実施の形態に係る制御装置1の概略構成を示すブロック図である。図2は、制御装置1および他の機器の配置を示す図である。
FIG. 1 is a block diagram showing a schematic configuration of a
制御装置1は、ユーザUにより使用される画像提示装置2およびロボット3を制御する装置であって、ユーザUによる発話およびユーザUが向ける注意の方向に基づいて、制御装置1の動作モードを回想促進モード、対話モードおよび表示画像対話モードの中で切り替え、画像提示装置2およびロボット3を連動させて制御する。
The
制御装置1は、その制御を行うために、マイク4、画像提示装置側のカメラ5、ロボット側のカメラ6、外部画像検索装置7に対し、ケーブルや通信回線(インターネットなど)を介して接続される。カメラ5は、画像提示装置2に十分近い位置に配置されるものとする。カメラ6は、ロボット3に十分近い位置に配置されるものとする。マイク4は、指向性を持ち、ロボット3が発話する音声は計測しないものとする。外部画像検索装置7は、1台に限定しないものとする。
In order to perform the control, the
マイク4は、ユーザUの音声を取得するものである。カメラ5、6は、ユーザUの顔・視線方向を計測するためのものであり、Webカメラや、深度計測可能なカメラなどである。ロボット3は、音声出力および顔の向きの調整が可能なものである。なお、制御装置1、画像提示装置2、マイク4、カメラ5、6は、ロボット3に含まれていてもよい。また、カメラ5、6は、顔の方向と視線方向の一方を計測するために用いてもよい。また、ロボット3の音声は別の装置から出力してもよい。
The
制御装置1は、取得されたユーザの音声に対し音声認識を行う音声認識器101と、音声認識結果に対して検索単語を抽出する検索単語抽出器102と、外部画像検索装置7に対して検索単語による画像検索を行い結果を取得する対話関連画像検索器103と、検索結果の画像を画像提示装置2に表示する表示画像操作器104と、ユーザUの注意対象を判定する注意対象判定器105と、入力に応じて画像提示装置2とロボット3の動作を変更する動作モード判定器106と、ロボット3を操作するロボット動作生成器107と、ロボット3が質問を行う際に参照する回想開始質問文記憶装置108と、外部画像検索装置7から取得した画像が記憶される収集画像記憶装置109と、注意対象結果を記憶する注意対象結果記憶装置110と、現在の動作モードを記憶する現在動作モード記憶装置111とを備える。
The
音声認識器101からロボット動作生成器107までは、ソフトウェアモジュールであり、その他は、制御装置1内の記憶装置(ハードウェア)である。検索単語抽出器102は、例えば、音声認識結果の文章から固有名詞を抽出する機能を有する。
The
制御装置1は、動作モードを回想促進モード、対話モード、表示画像対話モードのいずれかに切り替えて動作し、各動作モードに応じて画像提示装置2、ロボット3の動作を変更する。
The
図3は、回想促進モードでの動作例を示す図である。図4、図5、図6は、対話モードでの動作例を示す図である。図7は、表示画像対話モードでの動作例を示す図である。図8は、動作モードの遷移例を示す図である。図9は、動作モードの遷移図である。 FIG. 3 is a diagram illustrating an operation example in the recollection promotion mode. 4, 5, and 6 are diagrams illustrating an operation example in the interactive mode. FIG. 7 is a diagram illustrating an operation example in the display image dialogue mode. FIG. 8 is a diagram illustrating an example of transition of the operation mode. FIG. 9 is a transition diagram of the operation mode.
回想促進モードの際、制御装置1は、ロボット3の顔がユーザUに向くように制御し、前記ユーザに回想を開始させるための質問文をロボット3が発話するように制御する。
In the recollection promotion mode, the
回想促進モードは、ユーザUの発話が検知されていない限り継続し、ロボット3はユーザUの顔・視線の存在を検知し、ユーザUに対して回想のきっかけとなる質問の発話を行う(図3(1))。
The recollection promotion mode continues unless the user U's utterance is detected, and the
回想促進モードでは、ロボット3は例えば、「子供の頃旅に行った場所で1番楽しかった場所について教えてよ」のような質問対話をユーザUに投げかける。ロボット3の質問に対してユーザUが返答の発話を行った場合は、動作モードを対話モードに推移させる。
In the recollection promotion mode, for example, the
対話モードでは、制御装置1が、ユーザUの発話により得た検索単語列により検索した画像を画像提示装置2が切り替えて表示するように制御し、ロボット3の顔がユーザUに向くように制御し、ユーザに傾聴している動作をロボット3が実行するように制御する。
In the interactive mode, the
対話モードは、ユーザUの発話が検知されている限り継続し、ユーザUの発話文から検索単語を抽出し(図4(2))、検索単語を元に画像検索を実施(図5(4))、検索結果の画像を画像提示装置2に一定時間表示する。1つの検索単語から複数の画像が検索結果として得られた場合は、一定時間で複数の検索結果の画像を切り替える(図6(5))。発話文中に複数の検索単語が抽出された場合は、其々で画像検索を実施、得られた複数の検索単語による複数の検索結果の画像を一定時間で切り替え表示する(図6(5))。
The dialogue mode continues as long as the user U's utterance is detected, and a search word is extracted from the user U's utterance sentence (FIG. 4 (2)), and an image search is performed based on the search word (FIG. 5 (4)). )), The image of the search result is displayed on the
また、対話モードでは、ロボット3はユーザUの発話に対してうなずきや相槌、認識した単語のオウム返しから構成される傾聴動作を実施する(図4(3))。
Further, in the dialogue mode, the
対話モードにおいて、一定時間以上のユーザUによる発話停止を検知した場合は動作モードを回想促進モードに戻す(図8(10))。また、対話モードにおいて、ユーザUが画像提示装置2に注意を向けたことを検知した場合は、動作モードを表示画像対話モードに移行する。
In the dialogue mode, when it is detected that the user U has stopped speaking for a certain time or longer, the operation mode is returned to the recall promotion mode (FIG. 8 (10)). In the interactive mode, when it is detected that the user U has paid attention to the
表示画像対話モードでは、制御装置1は、ユーザUの発話により得た検索単語列により検索した画像を画像提示装置2が継続して表示するように制御し、継続して表示される画像を表示する画像提示装置2にロボット3の顔が向くように制御し、検索単語列に応じた発話テキストをロボット3が発話するように制御する。
In the display image dialogue mode, the
表示画像対話モードは、ユーザUの表示画像に対する注意を検知する限り継続する。表示画像対話モードでは、画像提示装置2の画像切り替えを停止し、注意が画像提示装置2に向いたと判定されたタイミングでの画像提示を維持する(図7(6))。
The display image interaction mode continues as long as the user U's attention to the display image is detected. In the display image dialogue mode, the image switching of the
また、表示画像対話モードでは、ロボット3も表示画像に応じた発話、動作を実施する。表示画像に応じた発話、動作では、ロボット3の視線方向(顔やロボット全体)を画像提示装置2に向ける、ロボット3が現在表示されている画像の検索単語「N」を用いて“これはNなの? もっとこれのお話聞きたい”のような質問文を生成し、ロボット3に発話させる。
In the display image dialogue mode, the
表示画像対話モードでは、提示内容が停止した時は提示内容に応じた発話動作に切り替える(図7(7))。 In the display image dialogue mode, when the presentation content is stopped, the speech operation is switched according to the presentation content ((7) in FIG. 7).
また、表示画像対話モードでは、ユーザUの画像提示装置2への注意の終了を検知した場合は、動作モードを対話モードに戻し、画像の切り替えを再開する(図8(8))。また、対話モードでは、うなずきや相槌やオウム返しなどの傾聴動作を実施する(図8(9))。
Further, in the display image dialogue mode, when the end of attention of the user U to the
また、表示画像対話モードでは、ユーザUの会話が一定時間停止したことを検知した場合は、動作モードを回想促進モードに戻し、回想のきっかけとなる質問の発話を行う(図8(10))。 Further, in the display image dialogue mode, when it is detected that the conversation of the user U has been stopped for a certain period of time, the operation mode is returned to the recall promotion mode, and a question that triggers the recall is uttered (FIG. 8 (10)). .
上記のように、回想促進モードのときは、ユーザUの発話を検知した場合は、対話モードに遷移する。 As described above, in the recollection promotion mode, when the user U's utterance is detected, the mode transitions to the dialogue mode.
また、対話モードのときは、ユーザUが画像提示装置2に注意を向けることを開始したと検知した場合は、表示画像対話モードに遷移する一方、ユーザUの発話が一定時間以上ないことを検知した場合は、回想促進モードに遷移する。
Further, in the interactive mode, when it is detected that the user U has started to pay attention to the
また、表示画像対話モードのときは、ユーザUが画像提示装置2に注意を向けることを終了したと検知した場合は、対話モードに遷移する一方、ユーザUの発話が一定時間以上ないことを検知した場合は、回想促進モードに遷移する。
Further, in the display image dialogue mode, when it is detected that the user U has finished paying attention to the
制御装置1は、上記の各動作モードとモード遷移に加えて、ユーザUの注意対象が表示画像に向けられたことを判定するアルゴリズムを持つ。一般的に人は対話中に対話内容の思考や、対話相手との親密度の調整や、会話番を保持するため、視線を対話相手から外す行為を行うことが知られている。そのため、単純に視線方向がロボット3から外れ画像提示装置2に向けられたか否かを注意対象判断の基準とすると、ユーザUが表示画像に対して注意を向けていないのにもかかわらず表示画像に注意が向けられたと誤判定してしまう可能性が高まる。そこで、ユーザUの表示画像への注意遷移検知の精度を向上させるためのアルゴリズムを用いる。
The
図10は、ユーザUが画像提示装置2に注意を向けることを開始したことの検知に用いる変数を示す図である。
FIG. 10 is a diagram illustrating variables used to detect that the user U has started to pay attention to the
本アルゴリズムには、2つのスレッショルド値(閾値)と2つの変数を用いる。対話切り替え区間判定スレッショルドtTnextと、表示画像注意遷移判定スレッショルドttoVは0以上の実数であり、一方の変数である対話停止区間の長さtTstopは対話検知停止から次の対話検知が始まるまでの区間の長さであり、他方の変数である対話開始からの表示画像への顔・視線方向検知兼対話検知継続区間の長さtVandTは、対話開始が検出されてから表示画像への顔・視線検知または対話検知のいずれかが停止するまでの区間の長さである。つまり、tVandTは、ユーザUの顔・視線方向が画像提示装置2に向いており且つユーザUによる対話が継続している区間の長さである。対話開始の検出にはtTnextとtTstopを用いる。tTnext<tTstopである場合、tTstopの最後の時刻を対話開始時刻とする。続いて、対話開始時刻からtVandTを検出する。ttoV<tVandTを満たす場合、ユーザUが画像提示装置2に注意を向けることを開始したと判定する。
In this algorithm, two threshold values (threshold values) and two variables are used. The dialogue switching section judgment threshold t Tnext and the display image attention transition judgment threshold t toV are real numbers of 0 or more, and one of the variables, the conversation stop section length t Tstop, is from the dialog detection stop until the next dialog detection starts. The length t VandT of the face / gaze direction detection / dialogue direction continuation detection to the display image from the start of dialogue, which is the other variable, is the face to the display image after the start of dialogue is detected. -This is the length of the interval until either gaze detection or dialogue detection stops. That is, t VandT is the length of a section in which the face / line-of-sight direction of the user U faces the
また、制御装置1は、上記のように、ユーザUが画像提示装置2に注意を向けることを開始したと検知する際の判定のアルゴリズムに加え、同様にユーザの注意対象判定器に関して、ユーザUが画像提示装置2に注意を向けることを終了したと検知する際の判定のアルゴリズムを持つ。
In addition to the determination algorithm when detecting that the user U has started to pay attention to the
図11は、ユーザUが画像提示装置2に注意を向けることを終了したことの検知に用いる変数を示す図である。
FIG. 11 is a diagram illustrating variables used for detecting that the user U has finished paying attention to the
本アルゴリズムには、1つのスレッショルド値(閾値)と1つの変数を用いる。表示画像注意終了判定スレッショルドtnoVは0以上の実数であり、変数である表示画像への顔・視線検知が停止してからの時間の長さtVstopつまり、ユーザUの顔・視線方向が画像提示装置2に向いている状態が終了したことを検知してからの時間の長さtVstopが、tnoVに対してtnoV<tVstopを満たす場合、ユーザUが画像提示装置2に注意を向けることを終了したと判定する。
This algorithm uses one threshold value (threshold) and one variable. The display image attention end determination threshold t noV is a real number greater than or equal to 0, and the time t Vstop after the detection of the face / gaze on the variable display image is stopped, that is, the face / gaze direction of the user U is the image. the length of time t Vstop state facing the
ここで、図1に示す制御装置1内でやり取りされるデータについて述べる。
(1)音声入力は、マイク4により計測された時刻と結びついた音の波形データのストリームである。
(2)顔・視線方向入力は、カメラ5、6により取得された画像から得られる、最大1人の各カメラに対する.顔・視線方向であり、顔の水平方向角θface_x、顔の垂直方向角θface_y、視線の水平方向角θeye_x、視線の垂直方向角θeye_yから構成される。ユーザUの顔と視線が共に正面がカメラの方向を向きカメラ光軸と水平である場合は、θface_x=0、θface_y=0、θeye_x=0、θeye_y=0であるものとし、それぞれ角度に応じて-90~90までの値をとる。人の顔・視線方向を取る方法としては、例えばオムロン社のOkao-Visionなどが挙げられる。
(3)注意対象結果は、“画像提示装置への注意”、“ロボットへの注意”、“注意対象該当無し”の3つの何れかの文字列と時刻が結びついた情報とする。
(4)注意対象結果ログは、注意対象結果を1つ以上まとめた情報とする。
(5)動作モード結果と前回動作モード結果は、“表示画像対話モード”、“対話モード“、”回想促進モード“の何れかの文字列情報とする。
(6)質問文文字列は、会話内容を記述した文字列とする。
(7)参照情報更新は、回想開始質問文記憶装置108の中の指定したIDの最終呼び出し時刻を書き換える命令情報である。
(8)発話文字列は、音声入力結果から生成した文字列情報とする。
(9)検索単語列は、固有名詞の文字列情報である。
(10)画像データは、写真やイラストを表す画像ファイルとする。
(11)画像検索単語ペアは、画像関連単語と画像データの組とする。
(12)収集画像情報は、1組の画像表示時刻、画像記憶時刻、画像関連単語、画像データとする。
(13)画像情報更新命令は、収集画像記憶装置109内の現在表示フラグと画像表示時刻を書き換え更新するための命令とする。
(14)画像表示命令は、画像データを画像提示装置2に表示させる命令とする。
(15)ロボット制御情報は、ロボット3に実行させるモーション指示と発話テキストから構成され、ロボット3は画像提示装置2に顔を向ける動作、ユーザ方向に顔を向ける動作、首を縦に振る動作が予め設定されており、ロボット制御情報で何れか1つを指定することで動作を実行でき、またロボット制御情報の発話テキストを受け取ると、テキストに対し音声合成を行い、音声出力を実行できるものとする。
Here, data exchanged in the
(1) The voice input is a stream of sound waveform data associated with the time measured by the
(2) Face / line-of-sight direction input is the face / line-of-sight direction for each of a maximum of one camera obtained from images acquired by the
(3) The attention object result is information in which any one of the three character strings “attention to image presentation device”, “attention to robot”, and “not applicable to attention object” is associated with the time.
(4) The attention object result log is information in which one or more attention object results are collected.
(5) The operation mode result and the previous operation mode result are character string information of “display image dialog mode”, “interaction mode”, or “recollection promotion mode”.
(6) The question sentence character string is a character string describing conversation contents.
(7) The reference information update is command information for rewriting the last call time of the specified ID in the recollection start question
(8) The speech character string is character string information generated from the voice input result.
(9) The search word string is character string information of proper nouns.
(10) The image data is an image file representing a photograph or illustration.
(11) The image search word pair is a set of an image related word and image data.
(12) Collected image information is a set of image display time, image storage time, image-related word, and image data.
(13) The image information update command is a command for rewriting and updating the current display flag and the image display time in the collected
(14) The image display command is a command for causing the
(15) The robot control information is composed of motion instructions to be executed by the
図12は、回想開始質問文記憶装置108の情報の構成を示す図である。
FIG. 12 is a diagram showing a configuration of information in the recollection start question
回想開始質問文記憶装置108は、ユーザUに回想を開始させるべくユーザUに対して発せられる複数の回想開始質問文のそれぞれにつき、その識別情報であるID、最終呼び出し時刻、回想開始質問文を含むレコードを備える。IDは、各回想開始質問文に固有の数値データである。最終呼び出し時刻は、時刻情報から構成され、回想開始質問文記憶装置108から各回想開始質問文が最後に参照された時刻を示す。1度も呼び出しが無い回想開始質問文においては、最終呼び出し時刻はnullとなる。回想開始質問文は例に示す様な対話のテキスト情報である。
The recollection start
図13は、収集画像記憶装置109の情報の構成を示す図である。
FIG. 13 is a diagram illustrating a configuration of information in the collected
収集画像記憶装置109は、各画像データにつき、その識別情報であるID、現在表示フラグ、画像表示時刻、画像関連単語、画像データを含む収集画像情報を記憶する。現在表示フラグは、画像提示装置2に現在表示されている画像を表し、1つの収集画像情報の現在表示フラグだけがtrueとなる。画像表示時刻は、現在表示フラグがtrueになった時刻を表す。画像記録時刻は、画像検索単語ペアが収集画像記憶装置109に登録された時間を表す。画像関連単語は、画像検索単語と一致する文字列である。
The collected
図14は、現在動作モード記憶装置111の情報の構成を示す図である。
FIG. 14 is a diagram illustrating a configuration of information in the current operation
現在動作モード記憶装置111は、現在の動作モードを示す現在動作モードを記憶する。図では、現在動作モードが表示画像対話モードを示すが、対話モードや回想促進モードを示す場合もある。
The current operation
図15は、注意対象結果記憶装置110の情報の構成を示す図である。
FIG. 15 is a diagram illustrating a configuration of information in the attention object
注意対象結果記憶装置110は、ユーザUによる注意の対象を時系列で検出した結果のそれぞれにつき、注意対象結果と更新時刻を含む情報を記憶する。注意対象結果は、注意の対象が画像提示装置2である場合は、”画像提示装置への注意”であり、注意の対象がロボット3である場合は、”ロボットへの注意”であり、注意の対象がない場合は、”注意対象該当無し”である。更新時刻は、各注意対象結果が注意対象結果記憶装置110に追加された時刻を示す。
The attention object
図16は、音声認識器101の処理のフローチャートである。
FIG. 16 is a flowchart of processing of the
音声認識器101は、音声入力を受ける限り、以下の処理を繰り返し実施する。
As long as the
S101では、音声入力を受信する。音声入力が受信されていたら処理をS102に進める。 In S101, a voice input is received. If a voice input has been received, the process proceeds to S102.
S102では、S101で取得した音声入力において発話区間が継続しているか否かを判定する。音における人の発話区間を識別する手法としては様々な手法が一般に知られており、例えば非特許文献2の方法が挙げられる。音声入力の中で発話区間として区切られる部分がある場合は、音声入力開始から区切り部分までをS103へ送り、残りの音声入力はキューとして保持し次回の音声入力取得の際は保持した音声入力に続く形で情報を追加し、発話区間の継続は無いものとして処理をS103に進める。発話区間として区切られる部分が無い場合は全ての音声入力をキューとして保持し、処理をS101に戻し追加の音声入力受信を待つ。
In S102, it is determined whether or not the speech section is continued in the voice input acquired in S101. Various methods are generally known as a method for identifying a person's utterance section in sound, and for example, the method of
S103では、S102から送られた発話区間の音声入力に対して音声認識によるテキスト化を行い、テキスト化を行ったら処理をS104に進める。 In S103, the speech input sent from S102 is converted to text by speech recognition, and if the text is converted, the process proceeds to S104.
S104では、音声認識結果が文字列を含むか否かを判定する。テキスト化されたデータに文字列が含まれていなかった場合は処理をS101に戻す。文字列が含まれていた場合は処理をS105に進める。 In S104, it is determined whether or not the speech recognition result includes a character string. If the text data contains no character string, the process returns to S101. If a character string is included, the process proceeds to S105.
S105では、検索単語抽出器102に対し、音声認識結果(テキスト化された文字列)を発話文字列として送信する。発話文字列を送信したら処理を終了する。
In S105, the speech recognition result (text string) is transmitted to the
図17は、検索単語抽出器102の処理のフローチャートである。
FIG. 17 is a flowchart of the processing of the
検索単語抽出器102は、音声認識器101から発話文字列を受信した際に、以下の処理を開始する。
When the
S201では、音声認識器101から発話文字列を受信する。受信が完了したら処理をS202に進める。
In S201, the utterance character string is received from the
S202では、S201において受信した発話文字列が固有名詞を含むか否かを判定する。テキストから固有名詞を抽出する方式には様々な方式が提案されており、非特許文献3などを用いることができる。固有名詞が1つ以上含まれていた場合は、処理をS203に進める。固有名詞が1つも含まれていなかった場合は処理をS201に戻す。
In S202, it is determined whether or not the utterance character string received in S201 includes a proper noun. Various methods for extracting proper nouns from text have been proposed, and
S203では、発話文字列に含まれる固有名詞からランダムで1つ選択し、選択された固有名詞を検索単語列として対話関連画像検索器103に送信する。送信を行ったら処理を終了する。
In S203, one of the proper nouns included in the utterance character string is selected at random, and the selected proper noun is transmitted as a search word string to the dialogue related
図18は、注意対象判定器105の処理のフローチャートである。
FIG. 18 is a flowchart of the processing of the attention
S301では、画像提示装置側のカメラ5から顔・視線方向入力θface_x、θface_y、θeye_x、θeye_yを受信する。これらは、カメラ5に対し顔・視線共に正面を向いた時に0度となる値である。θface_x、θeye_xはそれぞれカメラ5の正面から水平方向に顔方向と視線方向が何度傾いているかを表し、θface_y、θeye_yはそれぞれカメラ5の正面から垂直方向に顔方向と視線方向が何度傾いているかを表す。受信が完了したら処理をS302に進める.
S302では、ユーザの顔・視線方向が画像提示装置2に向いているか否かを判定する。判定には視線と顔が顔・視線方向を取得したカメラの方向を向いているか否かを判定するスレッショルドをθTHREASHOLD_x、θTHREASHOLD_yの値を設定する。これら値は0~90までの正の実数とする。2つの条件式
In S301, the face / gaze direction inputs θ face_x , θ face_y , θ eye_x , θ eye_y are received from the
In S302, it is determined whether or not the face / line-of-sight direction of the user is facing the
を共に満たす場合、ユーザの顔・視線方向が画像提示装置を向いていると判定し処理をS303に進める。2つの条件式のうち何れか、または両方の条件を満たしていない場合は処理をS304に進める。なお、2つの条件式の一方のみを用いてもよい。つまり、ユーザの顔の方向が画像提示装置2
を向いているか否かのみを判定してもよく、ユーザの視線の方向が画像提示装置2を向いているか否かのみを判定してもよい。
If both are satisfied, it is determined that the user's face / gaze direction is facing the image presentation device, and the process proceeds to S303. If either or both of the two conditional expressions are not satisfied, the process proceeds to S304. Only one of the two conditional expressions may be used. That is, the direction of the user's face is the
It may be determined only whether or not the user is facing, or only whether or not the direction of the user's line of sight is facing the
S303では、注意対象結果記憶装置110に対し、注意対象結果として、”画像提示装置への注意”を追加する。追加の際は、追加の際の時刻を更新時刻として利用する。追加を行ったら処理を終了する。
In S303, “attention to the image presentation device” is added to the attention object
S304では、ユーザ側のカメラ6からユーザの顔・視線方向入力θ’face_x、θ’face_y、θ’eye_x、θ’eye_yを受信する。これらはカメラ6に対し顔・視線共に正面を向いた時に0度となる値である。θ’face_x、θ’eye_xはそれぞれカメラ6の正面から水平方向に顔方向と視線方向が何度傾いているかを表し、θ’face_y、θ’eye_yはそれぞれカメラ6の正面から垂直方向に顔方向と視線方向が何度傾いているかを表す。受信が完了したら処理をS305に進める。 In S304, the user's face / gaze direction input θ ′ face_x , θ ′ face_y , θ ′ eye_x , θ ′ eye_y is received from the camera 6 on the user side. These values are 0 degrees when both the face and line of sight face the camera 6. θ ′ face_x and θ ′ eye_x represent how much the face direction and the line-of-sight direction are inclined in the horizontal direction from the front of the camera 6, respectively, and θ ′ face_y and θ ′ eye_y are the face directions in the vertical direction from the front of the camera 6, respectively. And how many times the line-of-sight direction is tilted. When reception is completed, the process proceeds to S305.
S305では、ユーザの顔・視線方向がロボット3に向いているか否かを判定する。ここでは、2つの条件式
In S305, it is determined whether or not the face / line-of-sight direction of the user is facing the
を満たすか否かを判定する。2つの条件式を共に満たす場合は、ユーザの顔・視線方向がロボット3に向いていると判定し、処理をS306に進める。2つの条件式のうち何れか、または両方の条件を満たしていない場合は処理をS307に進める。なお、2つの条件式の一方のみを用いてもよい。つまり、ユーザの顔の方向が画像提示装置2を向いているか否かのみを判定してもよく、ユーザの視線の方向が画像提示装置2を向いているか否かのみを判定してもよい。
It is determined whether or not the above is satisfied. If both of the two conditional expressions are satisfied, it is determined that the user's face / gaze direction is facing the
S306では、注意対象結果記憶装置110に対し、注意対象結果として、”ロボットへの注意”を追加する。追加の際は、追加の際の時刻を更新時刻として利用する。追加を行ったら処理を終了する。
In S306, “attention to robot” is added to the attention object
S307では、注意対象結果記憶装置110に対し、注意対象結果として、”注意対象該当無し”を追加する。追加の際は、追加の際の時刻を更新時刻として利用する。追加を行ったら処理を終了する。
In S307, “not applicable to caution target” is added to the caution target
図19は、動作モード判定器106の処理のフローチャートである。
FIG. 19 is a flowchart of the process of the operation
動作モード判定器106は、音声入力がある場合、以下の処理を繰り返し実行する。
The operation
S401では、マイク4から新しい音声入力を一定時間分受信する。受信が完了したら処理をS402に進める。
In S401, a new voice input is received from the
S402では、注意対象結果記憶装置110から注意対象判定結果ログを読み出す。取得が完了したら処理をS403に進める。
In S402, the attention object determination result log is read from the attention object
S403では、現在動作モード記憶装置111に記憶された動作モードを読み出す。以下、この動作モードを前回動作モード結果という。前回動作モード結果を読み出したら、処理をS404に進める
S404では、マイク4から受信した一定時間分の音声入力に発話区間があるか否かを判定する。発話区間がない場合は処理をS411に進める。ある場合は処理をS405に進める。
In S403, the operation mode stored in the current operation
In S404, it is determined whether or not there is an utterance section in the voice input for a certain time received from the
S405では、S403において受信した前回動作モード結果の動作モードが表示画像対話モードであるか否かを判定する。表示画像対話モードである場合は処理をS407に進める。表示画像対話モードでなかった場合は処理をS406に進める。 In S405, it is determined whether or not the operation mode of the previous operation mode result received in S403 is the display image dialogue mode. If it is in the display image interactive mode, the process proceeds to S407. If it is not the display image interactive mode, the process proceeds to S406.
S406では、S403において前回動作モード結果の動作モードが対話モードであるか否かを判定する。対話モードである場合は処理をS408に進める。対話モードでなかった場合は処理をS410に進める。 In S406, it is determined in S403 whether or not the operation mode of the previous operation mode result is the interactive mode. If it is in the interactive mode, the process proceeds to S408. If not in the interactive mode, the process proceeds to S410.
S407では、注意判定結果ログに基づいてユーザの画像提示装置への注意終了を検知する。注意判定結果ログにおける各注意対象結果の更新時刻の中で、最も時刻が新しく注意対象結果が画像提示装置への注意であるものの更新時刻をt0とする。このとき、本計算時の時刻をtnowとすると直近の表示画像への顔・視線検知が停止してからの時間tVstopは時刻tnowとt0の差としてtVstop=tnow−t0のように計算される。そして、表示画像注意終了判定スレッショルドtnoVに対してtnoV<tVstopを満たす場合、ユーザの表示画像に対する注意が終了したと判定する。注意が終了したと判定された場合は処理をS408に進める。それ以外の場合は処理をS409に進める.
S408では、注意判定結果ログと一定時間の音声入力とに基づいてユーザの画像提示装置への注意開始を検知する。
In S407, the end of the user's attention to the image presentation device is detected based on the attention determination result log. Of the update times of the respective attention target results in the attention determination result log, the update time of the latest time that is the attention target result is attention to the image presentation device is t 0 . At this time, if the time at the time of this calculation is t now , the time t Vstop after the detection of the face / gaze on the most recent display image is stopped as the difference between the time t now and t 0 , t Vstop = t now −t 0 It is calculated as follows. If t noV <t Vstop is satisfied with respect to the display image attention end determination threshold t noV , it is determined that the user's attention to the display image has ended. If it is determined that the attention has ended, the process proceeds to S408. Otherwise, the process proceeds to S409.
In S408, the user's attention start to the image presentation device is detected based on the attention determination result log and the voice input for a certain period of time.
まず一定時間の音声入力内の発話区間の抽出を行い、非発話区間から発話区間へ変化のあった箇所を抽出し、その各時刻をtst_iとする(iは抽出された箇所が音声入力の開始からみて何か所目にあたるかを示す整数値)、1か所も抽出が行われなかった場合は処理をS410に進める。次に、音声入力において各時刻tst_iの直前の非発話区間の長さをそれぞれtstop_iとする。各tstop_iと対話切り替え区間判定スレッショルドtTnextを比較した際に、tTnext<tstop_iとなる非発話区間から発話区間へ変化のあった箇所iの時刻tst_iをTst_jとする(jは抽出された箇所の中で更にtTnext<tstop_iを満たす箇所が、音声入力の開始からみて何か所目にあたるかを示す整数値)。Tst_jに該当する箇所が1か所もなかった場合は処理をS410に進める。 First, an utterance section in a voice input for a certain period of time is extracted, a place where there has been a change from a non-speech section to a utterance section is extracted, and each time is set to t st_i (where i is the place where the extracted part is a voice input) (An integer value indicating what point is seen from the start) If no extraction is performed, the process proceeds to S410. Then, the length of the non-speech section immediately before the time t ST_i and t Stop_i respectively in the speech input. When each t stop — i is compared with the dialogue switching interval determination threshold t Tnext , the time t st — i of the portion i where the change from the non-speech interval where t Tnext <t stop — i is satisfied to the utterance interval is defined as T st — j (j is extracted) Integer value indicating whether a portion satisfying t Tnext <t stop — i corresponds to what point from the start of voice input). If there is no place corresponding to T st — j , the process proceeds to S410.
次に注意判定結果ログからTst_jより前の時刻で最も新しい更新時刻を持つ注意対象結果を起点のDj0として、注意判定結果ログ内で最新の更新結果をもつ注意対象結果までを古い順にDj0、Dj1、…、Djnとする。更にDj0、Dj1、…、Djnに対して、注意対象結果が”画面提示装置への注意”であるという条件を満たすか否かを、Dj0から更新時刻の古い順に調査し始めて条件を満たさなかったログをDjkとする。この時、全て条件を満たす場合はk=n、条件を満たすものが1つもない場合はk=0とする。更に、非発話区間から発話区間へ変化のあった箇所の各時刻Tst_jに対して、次に発話区間から非発話区間に変化する時刻をTet_jとする。この時、Tst_jの次に発話区間から非発話区間に変化することなく音声入力が終了した場合は音声入力の終了時刻をTet_jとする。最後にDjkの更新時刻Tjkとしたとき、TjkとTet_jで時刻の新しい方をTj_endとし、表示画像注意遷移判定スレッショルドttoVに対してttoV<Tst_j−Tj_endとなる抽出箇所jがある場合、処理をS409に進める。該当する抽出箇所が無い場合、処理をS410に進める。 Next, from the attention determination result log, the attention object result having the latest update time at the time before T st — j is set as the starting point D j0 , and the attention object result having the latest update result in the attention determination result log is sorted in chronological order. j0, D j1, ..., and D jn. Furthermore, for D j0 , D j1 ,..., D jn , whether or not the condition that the result of attention is “attention to the screen display device” is satisfied is started by checking from D j0 to the oldest update time. Let D jk be the log that does not satisfy. At this time, if all the conditions are satisfied, k = n, and if none satisfy the conditions, k = 0. Further, for each time T st_j where there is a change from the non-speaking section to the speaking section, the time when the next changing from the speaking section to the non-speaking section is Tet_j . At this time, the T Et_j the end time of the audio input when the audio input is terminated without changing the next speech segment of T St_j the non-spoken section. Finally when the update time T jk of D jk to the newer time at T jk and T Et_j and T J_end, a t toV <T st_j -T j_end the display image note transition determination threshold t Tov extraction If there is a part j, the process proceeds to S409. If there is no corresponding extraction location, the process proceeds to S410.
S409では、現在動作モード記憶装置111の現在動作モードを表示画像対話モードに更新し、ロボット動作生成器107と表示画像操作器104に動作モード結果を送信する。更新および送信が終了したら処理を終了する。
In S409, the current operation mode of the current operation
S410では、現在動作モード記憶装置111の現在動作モードを対話モードに更新し、ロボット動作生成器107と表示画像操作器104に動作モード結果を送信する。更新および送信が終了したら処理を終了する。
In S410, the current operation mode of the current operation
S411では、現在動作モード記憶装置111の現在動作モードを回想促進モードに更新し、ロボット動作生成器107と表示画像操作器104に動作モード結果を送信し、更新および送信が終了したら処理を終了する。
In S411, the current operation mode of the current operation
図20は、対話関連画像検索器103の処理のフローチャートである。
FIG. 20 is a flowchart of the process of the dialogue related
対話関連画像検索器103は、検索単語列を受信した際に以下の処理を実行する。
The dialogue related
S501では、検索単語抽出器102から検索単語列を受信する。受信が完了したら処理をS502に進める.
S502では、検索単語列を外部画像検索装置7に送信する。送信が完了したら処理をS503に進める。
In S501, a search word string is received from the
In S502, the search word string is transmitted to the external image search device 7. When the transmission is completed, the process proceeds to S503.
S503では、外部画像検索装置7から、検索単語列により検索された画像の画像データを受信する。受信が完了したら処理をS504に進める。 In S503, the image data of the image searched by the search word string is received from the external image search device 7. When reception is completed, the process proceeds to S504.
S504では、対話関連画像検索器103から受信した各画像データと検索単語列をペア(画像検索単語ペア)として収集画像記憶装置109に保存する。保存が完了したら処理を終了する。
In S504, each image data received from the dialogue related
図21は、ロボット動作生成器107の処理のフローチャートである。
FIG. 21 is a flowchart of the process of the
ロボット動作生成器107は、動作モード結果を受信した場合、以下の処理を実行する。
When receiving the operation mode result, the
S601では、動作モード判定器106から動作モード結果を受信する。受信が完了したら処理をS602に進める。
In S601, the operation mode result is received from the operation
S602では、S601で受信した動作モード結果が表示画像対話モードか否かを判定する。結果が表示画像対話モードであった場合は処理をS605に進める。それ以外の場合は処理をS603に進める。 In S602, it is determined whether or not the operation mode result received in S601 is the display image dialogue mode. If the result is the display image interactive mode, the process proceeds to S605. Otherwise, the process proceeds to S603.
S603では、ロボット3の顔がユーザUに向くようにロボット3を制御するためのロボット制御情報をロボット3に送信する。送信が完了したら処理をS604に進める。なお、ロボット3自体またはロボット3の視線がユーザUに向くようにしてもよい。
In S603, robot control information for controlling the
S604では、S601で受信した動作モード結果が対話モードか否かを判定する。動作モード結果が対話モードであった場合は処理をS611に進める。それ以外の場合は処理をS615に進める。 In S604, it is determined whether or not the operation mode result received in S601 is the interactive mode. If the operation mode result is the interactive mode, the process proceeds to S611. Otherwise, the process proceeds to S615.
S605では、ロボット3の顔が画像提示装置2の方を向くようにロボット3を制御するためのロボット制御情報をロボット3に送信する。送信が完了したら処理をS606に進める。なお、ロボット3自体またはロボット3の視線が画像提示装置2の方に向くようにしてもよい。
In S605, robot control information for controlling the
S606では、マイク4から音声入力を一定時間受信する。音声入力の受信が終了したら処理をS607に進める。
In S606, a voice input is received from the
S607では、まず、音声入力中の発話区間を求める処理を実行する。更に、正の実数で表される発話継続を判定する時間を表すスレッショルドtkeep_talkを予め設定しておき、受信した音声入力の最後からtkeep_talk以上の非発話区間が存在する場合は処理をS609に進める。それ以外の場合は処理をS608に進める。 In S607, first, processing for obtaining an utterance section during voice input is executed. Further, a threshold t keep_talk representing a time for determining continuation of speech expressed by a positive real number is set in advance, and if there is a non-speech interval of t keep_talk or more from the end of the received voice input, the process proceeds to S609. Proceed. In other cases, the process proceeds to S608.
S608では、首を縦に振る(うなずく)動作をロボット3にさせるためのロボット制御情報をロボット3に送信する。送信が完了したら処理を終了する。
In S608, robot control information for causing the
S609では、表示画像操作器104から表示画像検索単語を受信し、受信が完了したら処理をS610に進める。
In S609, the display image search word is received from the display
S610では、S609で受信した表示画像検索単語Wordnow_vを用いて発話テキストを作成する。発話テキスト作成には定型文に表示画像検索単語を当てはめることで実現でき例えば、“ねぇねぇ、ぼくはWordnow_vについて凄い興味があるから、もう少し教えて欲しいな。”のように作成することができる。発話テキスト作成が終了したら、発話テキストを音声合成して出力するようにロボット3を動作させるための発話テキストを含むロボット制御情報をロボット3に送信する。送信が終了したら処理を終了する。
In S610, an utterance text is created using the display image search word Word now_v received in S609. Utterance text can be created by applying display image search words to a fixed sentence. For example, “Hey, I 'm very interested in Wordnow_v , so I want you to tell me a little more.” . When the utterance text creation is completed, the robot control information including the utterance text for operating the
S611では、マイク4から音声入力を一定時間受信する。音声入力の受信が終了したら処理をS612に進める。
In S611, a voice input is received from the
S612では、S607と同様にまず音声入力中の発話区間を求める処理を実行する。更に、S607と同様に発話継続を判定する時間を表すスレッショルドtkeep_talkを予め設定しておき、受信した音声入力の最後からtkeep_talk以上の非発話区間が存在する場合は処理をS613に進める。それ以外の場合は処理をS614に進める。 In S612, as in S607, first, processing for obtaining an utterance section during voice input is executed. Further, similarly to S607, a threshold t keep_talk indicating the time for determining the continuation of utterance is set in advance, and if there is a non-speech interval of t keep_talk or more from the end of the received voice input, the process proceeds to S613. Otherwise, the process proceeds to S614.
S613では、首を縦に振る(うなずく)動作をロボット3にさせるためのロボット制御情報をロボット3に送信する。送信が完了したら処理を終了する。
In S613, robot control information for causing the
S614では、ロボット3にあいづちをうたせかつ発話テキストを音声合成して出力(発話)させるための発話テキストを含むロボット制御情報をロボット3に送信する。発話テキストとしては、”それで、それで?”など予め決められたものを用いる。送信が終了したら処理を終了する。
In S 614, robot control information including the utterance text for uttering the
S615では、まず、回想開始質問文記憶装置108から回想開始質問文を質問文文字列として読み出す。その際は最終呼び出し時刻を参照しnullのものの回想開始質問文を読み出す。nullのものが存在しなかった場合は、回想開始質問文記憶装置108内において最も古い最終呼び出し時刻をもつ回想開始質問文を読み出す。読み出したら、その回想開始質問文のIDの最終呼び出し時刻を現在時刻の値に変更するように参照情報更新を回想開始質問文記憶装置108に送信する。送信が完了したら処理をS616に進める。
In S615, first, the recollection start question sentence is read out from the recollection start question
S616では、S615で読み出した質問文文字列をロボット3に発話テキストとして音声合成させ出力(発話)させるための質問文文字列を含むロボット制御情報をロボット3に送信する。送信が終了したら処理を終了する。
In S616, the robot control information including the question sentence character string for causing the
図22は、表示画像操作器104の処理のフローチャートである。
FIG. 22 is a flowchart of processing of the display
表示画像操作器104は動作モード結果を受信した場合、以下の処理を実行する。
When the display
S701では、動作モード判定器106から動作モード結果を受信する。受信が完了したら処理をS702に進める。
In S701, the operation mode result is received from the
S702では、S701で受信した動作モード結果が表示画像対話モードか否かを判定する。動作モード結果が表示画像対話モードであった場合は処理をS703に進める。それ以外の場合は処理をS705に進める。 In S702, it is determined whether or not the operation mode result received in S701 is the display image dialogue mode. If the operation mode result is the display image interaction mode, the process proceeds to S703. Otherwise, the process proceeds to S705.
S703では、収集画像記憶装置109を参照し、現在表示フラグがtrueの収集画像情報を読み出す。収集画像情報を読み出したら処理をS704に進める。
In S703, the collected
S704では、S703で読み出した収集画像情報に含まれる画像関連単語を表示画像検索単語としてロボット動作生成器107に送信する。送信が終了したら処理を終了する。
In S704, the image related word included in the collected image information read in S703 is transmitted to the
S705では、S701で受信した動作モード結果が対話モードであるか否かを判定する。動作モード結果が対話モードであった場合は処理をS706に進める。それ以外の場合は処理を終了する.
S706では、収集画像記憶装置109を参照し、現在表示フラグがtrueの収集画像情報を読み出す。読み出しが終了したら処理をS707に進める。
In S705, it is determined whether or not the operation mode result received in S701 is the interactive mode. If the operation mode result is the interactive mode, the process proceeds to S706. Otherwise, the process ends.
In S706, the collected
S707では、収集画像情報の画像表示時刻と現在時刻を比較し、現在時刻が画像表示時刻から一定時間以上経過しているか否かを判定する。一定時間以上経過している場合は処理をS708に処理を進める。経過していない場合は処理をS713に進める。 In S707, the image display time of the collected image information is compared with the current time, and it is determined whether or not the current time has passed a certain time from the image display time. If the predetermined time has elapsed, the process proceeds to S708. If not, the process proceeds to S713.
S708では、収集画像記憶装置109を参照し、現在時刻から画像記録時刻が一定時間以内でかつ画像表示時刻がnullの収集画像情報を探索する。検索が終了したなら処理をS709に進める。
In S708, the collected
S709では、S708の条件に満たす収集画像情報が1つ以上あるか否かを判定する。取得された収集画像情報が1つもなかった場合は処理をS713に進める。それ以外の場合は処理をS710に進める。 In S709, it is determined whether there is one or more collected image information satisfying the condition of S708. If there is no acquired collected image information, the process proceeds to S713. In other cases, the process proceeds to S710.
S710では、S708で取得された収集画像情報の中からランダムで1つを選択する。選択が終了したら処理をS711に進める。 In S710, one is randomly selected from the collected image information acquired in S708. When the selection is completed, the process proceeds to S711.
S711では、S710で選択された収集画像情報の画像データを画像表示命令としてロボット動作生成器107に送信する。送信が完了したら処理をS712に進める。
In S711, the image data of the collected image information selected in S710 is transmitted to the
S712では、まず収集画像記憶装置109の現在表示フラグがtrueとなっている情報をfalseに変更し、S710で選択された収集画像情報の現在表示フラグをtrueに変更する画像情報更新命令を収集画像記憶装置109に送信する。さらにS710で選択された収集画像情報の画像表示時刻を現在時刻に変更する画像情報更新命令を送信する.送信が終了したら処理を終了する。
In S712, first, the information in which the current display flag of the collected
S713では、S706で読み出した収集画像情報の画像関連単語を表示画像検索単語としてロボット動作生成器107に送信する。送信が終了したら処理を終了する。
In S713, the image related words of the collected image information read out in S706 are transmitted to the
以上のように、本実施の形態に係る制御装置1は、ユーザUにより使用される画像提示装置2およびロボット3を制御する制御装置であって、ユーザUによる発話およびユーザUが向ける注意の方向に基づいて、制御装置1の動作モードを回想促進モード、対話モードおよび表示画像対話モードの中で切り替え、画像提示装置2およびロボット3を連動させて制御することを特徴とする。
As described above, the
具体的には、回想促進モードのときは、ロボット3がユーザUに向くように制御し、ユーザUに回想を開始させるための質問文をロボットUが発話するように制御し、対話モードのときは、ユーザUの発話から得た検索単語列により検索した画像を画像提示装置2が切り替えて表示するように制御し、ロボット3がユーザUに向くように制御し、ユーザUに傾聴している動作をロボット3が実行するように制御し、表示画像対話モードのときは、ユーザUの発話から得た検索単語列により検索した画像を画像提示装置2が継続して表示するように制御し、継続して表示される画像を表示する画像提示装置2の方にロボット3が向くように制御し、検索単語列に応じた発話テキストをロボット3が発話するように制御する。
Specifically, in the recollection promotion mode, the
さらに具体的には、回想促進モードのときは、ユーザUの発話を検知した場合は、対話モードに遷移し、対話モードのときは、ユーザUが画像提示装置に注意を向けることを開始したと検知した場合は、表示画像対話モードに遷移する一方、ユーザUの発話が一定時間以上ないことを検知した場合は、回想促進モードに遷移し、表示画像対話モードのときは、ユーザUが画像提示装置2に注意を向けることを終了したと検知した場合は、対話モードに遷移する一方、ユーザUの発話が一定時間以上ないことを検知した場合は、回想促進モードに遷移する。
More specifically, when the user U's utterance is detected in the recollection promotion mode, the mode transitions to the dialogue mode, and in the dialogue mode, the user U starts to pay attention to the image presentation device. When it detects, it changes to display image dialog mode, On the other hand, when it detects that there is no utterance of user U for a fixed time or more, it changes to recollection promotion mode. When it is detected that attention to the
さらに具体的には、対話モードにおいて、ユーザUによる対話が停止している区間の長さ(tTstop)が、予め定められた第1の閾値(tTnext)より長いという第1の条件と、ユーザUの顔または視線の少なくとも一方が画像提示装置2に向いており且つユーザUによる対話が継続している区間の長さ(tVandT)が、予め定められた第2の閾値(ttoV)より長いという第2の条件とが充足した場合に、ユーザUが画像提示装置2に注意を向けることを開始したと判定する。
More specifically, in the interactive mode, the first condition that the length (t Tstop ) of the section in which the dialogue by the user U is stopped is longer than a predetermined first threshold value (t Tnext ); A length (t VandT ) of a section in which at least one of the face or line of sight of the user U faces the
また、表示画像対話モードにおいて、ユーザUの顔または視線の少なくとも一方が画像提示装置2に向いている状態が終了したことを検知してからの時間の長さ(tVstop)が、予め定められた閾値(tnoV)より長いという条件が充足した場合に、ユーザUが画像提示装置2に注意を向けることを終了したと判定する。
Further, in the display image interaction mode, the length of time (t Vstop ) after detecting that the state where at least one of the user U's face or line of sight is facing the
制御装置1によれば、これらの技術の1つまたは組み合わせにより、回想療法に必要な事前準備や実施の時間を低減することができる。
According to the
なお、制御装置1としてコンピュータを機能させるためのコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録でき、また、インターネットなどの通信網を介して伝送させて、広く流通させることができる。
The computer program for causing the computer to function as the
1 制御装置
2 画像提示装置
3 ロボット
4 マイク
5、6 カメラ
7 外部画像検索装置
101 音声認識器
102 検索単語抽出器
103 対話関連画像検索器
104 表示画像操作器
105 注意対象判定器
106 動作モード判定器
107 ロボット動作生成器
108 回想開始質問文記憶装置
109 収集画像記憶装置
110 注意対象結果記憶装置
DESCRIPTION OF
Claims (7)
前記ユーザによる発話および前記ユーザが向ける注意の方向に基づいて、前記制御装置の動作モードを回想促進モード、対話モードおよび表示画像対話モードの中で切り替え、前記画像提示装置および前記ロボットを連動させて制御する手段
を備えることを特徴とする制御装置。 A control device for controlling an image presentation device and a robot used by a user,
Based on the utterance by the user and the direction of attention directed by the user, the operation mode of the control device is switched between the recall mode, the dialogue mode, and the display image dialogue mode, and the image presentation device and the robot are interlocked. A control apparatus comprising: means for controlling.
前記対話モードのときは、前記ユーザの発話から得た検索単語列により検索した画像を前記画像提示装置が切り替えて表示するように制御し、前記ロボットが前記ユーザに向くように制御し、前記ユーザに傾聴している動作を前記ロボットが実行するように制御し、
前記表示画像対話モードのときは、前記ユーザの発話から得た検索単語列により検索した画像を前記画像提示装置が継続して表示するように制御し、前記継続して表示される前記画像を表示する前記画像提示装置の方に前記ロボットが向くように制御し、前記検索単語列に応じた発話テキストを前記ロボットが発話するように制御する
ことを特徴とする請求項1記載の制御装置。 When in the recollection promotion mode, the robot is controlled to face the user, and the robot is controlled to speak a question sentence for starting the recollection.
In the interactive mode, control is performed so that the image presentation device switches and displays an image searched based on a search word string obtained from the user's utterance, and the robot is controlled to face the user. Control the robot to perform the action of listening to
In the display image dialogue mode, the image presentation device is controlled to continuously display an image searched by a search word string obtained from the user's utterance, and the continuously displayed image is displayed. The control device according to claim 1, wherein the robot is controlled so that the robot faces the image presentation device, and the utterance text corresponding to the search word string is controlled to speak.
前記対話モードのときは、前記ユーザが前記画像提示装置に注意を向けることを開始したと検知した場合は、前記表示画像対話モードに遷移する一方、前記ユーザの発話が一定時間以上ないことを検知した場合は、前記回想促進モードに遷移し、
前記表示画像対話モードのときは、前記ユーザが前記画像提示装置に注意を向けることを終了したと検知した場合は、前記対話モードに遷移する一方、前記ユーザの発話が一定時間以上ないことを検知した場合は、前記回想促進モードに遷移する
ことを特徴とする請求項1または2記載の制御装置。 In the recollection promotion mode, if the user's utterance is detected, transition to the dialogue mode,
In the interactive mode, when it is detected that the user has started to pay attention to the image presentation device, the display image interactive mode is transitioned to while the user's utterance is not detected for a certain period of time. If you do, transition to the recall mode,
In the display image dialogue mode, when it is detected that the user has finished paying attention to the image presentation device, the user makes a transition to the dialogue mode while detecting that the user's utterance has not exceeded a predetermined time. When it does, it changes to the recollection promotion mode. The control device according to claim 1 or 2 characterized by things.
前記ユーザによる対話が停止している区間の長さが、予め定められた第1の閾値より長いという第1の条件と、前記ユーザの顔または視線の少なくとも一方が前記画像提示装置に向いており且つ前記ユーザによる対話が継続している区間の長さが、予め定められた第2の閾値より長いという第2の条件とが充足した場合に、前記ユーザが前記画像提示装置に注意を向けることを開始したと判定する
ことを特徴とする請求項3記載の制御装置。 In the interactive mode,
The first condition that the length of the section in which the user's dialogue is stopped is longer than a predetermined first threshold, and at least one of the user's face or line of sight is suitable for the image presentation device. And when the 2nd condition that the length of the section where the dialog by the user is continuing is longer than the predetermined 2nd threshold is satisfied, the user pays attention to the image presentation device. The control device according to claim 3, wherein it is determined that the operation is started.
前記ユーザの顔または視線の少なくとも一方が前記画像提示装置に向いている状態が終了したことを検知してからの時間の長さが、予め定められた閾値より長いという条件が充足した場合に、前記ユーザが前記画像提示装置に注意を向けることを終了したと判定する
ことを特徴とする請求項3記載の制御装置。 In the display image interaction mode,
When the condition that the length of time after detecting that the state in which at least one of the user's face or line of sight is facing the image presentation device has ended is longer than a predetermined threshold is satisfied, The control device according to claim 3, wherein it is determined that the user has finished paying attention to the image presentation device.
前記制御装置が、前記ユーザによる発話および前記ユーザが向ける注意の方向に基づいて、前記制御装置の動作モードを回想促進モード、対話モードおよび表示画像対話モードの中で切り替え、前記画像提示装置および前記ロボットを連動させて制御する
ことを特徴とする制御装置の動作方法。 An operation method of an image presentation device used by a user and a control device for controlling a robot,
The control device switches the operation mode of the control device among a recollection promotion mode, a dialogue mode and a display image dialogue mode based on the utterance by the user and the direction of attention directed by the user, the image presentation device and the An operation method of a control device characterized by controlling the robot in conjunction with each other.
The computer program for functioning a computer as a control apparatus in any one of Claims 1 thru | or 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014230741A JP2016093279A (en) | 2014-11-13 | 2014-11-13 | Control apparatus, control apparatus operation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014230741A JP2016093279A (en) | 2014-11-13 | 2014-11-13 | Control apparatus, control apparatus operation method, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016093279A true JP2016093279A (en) | 2016-05-26 |
Family
ID=56069857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014230741A Pending JP2016093279A (en) | 2014-11-13 | 2014-11-13 | Control apparatus, control apparatus operation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016093279A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109262606A (en) * | 2017-07-18 | 2019-01-25 | 松下知识产权经营株式会社 | Device, method, program and robot |
JP2019018336A (en) * | 2017-07-18 | 2019-02-07 | パナソニックIpマネジメント株式会社 | Device, method, program, and robot |
-
2014
- 2014-11-13 JP JP2014230741A patent/JP2016093279A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109262606A (en) * | 2017-07-18 | 2019-01-25 | 松下知识产权经营株式会社 | Device, method, program and robot |
JP2019018336A (en) * | 2017-07-18 | 2019-02-07 | パナソニックIpマネジメント株式会社 | Device, method, program, and robot |
US11220008B2 (en) | 2017-07-18 | 2022-01-11 | Panasonic Intellectual Property Management Co., Ltd. | Apparatus, method, non-transitory computer-readable recording medium storing program, and robot |
JP7075168B2 (en) | 2017-07-18 | 2022-05-25 | パナソニックホールディングス株式会社 | Equipment, methods, programs, and robots |
CN109262606B (en) * | 2017-07-18 | 2023-10-27 | 松下知识产权经营株式会社 | Apparatus, method, recording medium, and robot |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854527B2 (en) | Electronic device and method of controlling speech recognition by electronic device | |
US11241789B2 (en) | Data processing method for care-giving robot and apparatus | |
AU2018204246B2 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
CN111415677B (en) | Method, apparatus, device and medium for generating video | |
JP7243625B2 (en) | Information processing device and information processing method | |
US10776977B2 (en) | Real-time lip synchronization animation | |
KR100998566B1 (en) | Method And Apparatus Of Translating Language Using Voice Recognition | |
US20180182375A1 (en) | Method, system, and apparatus for voice and video digital travel companion | |
US11017551B2 (en) | System and method for identifying a point of interest based on intersecting visual trajectories | |
TW201913300A (en) | Human-computer interaction method and human-computer interaction system | |
EP3373301A1 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
US20190251350A1 (en) | System and method for inferring scenes based on visual context-free grammar model | |
WO2021232876A1 (en) | Method and apparatus for driving virtual human in real time, and electronic device and medium | |
CN109697978B (en) | Method and apparatus for generating a model | |
CN111459452A (en) | Interactive object driving method, device, equipment and storage medium | |
JP2023055910A (en) | Robot, dialogue system, information processing method, and program | |
JP2021043258A (en) | Control system and control method | |
JP6772839B2 (en) | Information processing equipment, information processing methods and programs | |
KR20190109651A (en) | Voice imitation conversation service providing method and sytem based on artificial intelligence | |
JP2016093279A (en) | Control apparatus, control apparatus operation method, and computer program | |
JP6629172B2 (en) | Dialogue control device, its method and program | |
JP6798258B2 (en) | Generation program, generation device, control program, control method, robot device and call system | |
CN113205569A (en) | Image drawing method and device, computer readable medium and electronic device | |
WO2018043137A1 (en) | Information processing device and information processing method | |
JP6645779B2 (en) | Dialogue device and dialogue program |