JP2018185362A - Robot and control method of the same - Google Patents
Robot and control method of the same Download PDFInfo
- Publication number
- JP2018185362A JP2018185362A JP2017085336A JP2017085336A JP2018185362A JP 2018185362 A JP2018185362 A JP 2018185362A JP 2017085336 A JP2017085336 A JP 2017085336A JP 2017085336 A JP2017085336 A JP 2017085336A JP 2018185362 A JP2018185362 A JP 2018185362A
- Authority
- JP
- Japan
- Prior art keywords
- robot
- user
- voice
- speech
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、ロボットおよびその制御方法に関する。 The present invention relates to a robot and a control method thereof.
ユーザと対話するロボットが普及しつつあるが、ロボットの発話中にユーザが発話すると、音声認識処理の精度が低下し、会話が成立しなくなる場合がある。ユーザの発した音声を認識するための音声認識処理に対して、ロボットの発話がノイズとして入力されてしまうためである。 Robots that interact with users are becoming widespread, but if a user speaks while the robot is speaking, the accuracy of the speech recognition process may be reduced and the conversation may not be established. This is because the speech of the robot is input as noise for the speech recognition processing for recognizing the speech uttered by the user.
このため、ユーザが発話する場合には、ロボットをタッチするなどして、ロボットの発話を停止させ、その後でユーザ音声の音声認識処理を実行していた。 For this reason, when the user utters, the robot utterance is stopped by touching the robot or the like, and then the voice recognition processing of the user voice is executed.
ロボットではないが、対話型の案内装置では、音声認識処理の認識率を向上させるために、トークスイッチの押下によりユーザの発話を検知した場合は、対話型案内装置の案内(発話)を停止する(特許文献1)。 Although not a robot, an interactive guidance device stops guidance (utterance) of an interactive guidance device when a user's utterance is detected by pressing a talk switch in order to improve the recognition rate of voice recognition processing. (Patent Document 1).
一方、適応フィルタやエコーキャンセルなどの処理を搭載し、発話と音声認識とを同時に処理できるようにしたロボットも知られている(特許文献2)。 On the other hand, there is also known a robot equipped with processing such as an adaptive filter and echo cancellation so that speech and voice recognition can be processed simultaneously (Patent Document 2).
なお、ロボットではないが、ユーザの口元の動きを検知することにより、ユーザの発話開始を判定するナビゲーション装置も知られている(特許文献3)。 In addition, although it is not a robot, the navigation apparatus which determines a user's speech start by detecting the motion of a user's mouth is also known (patent document 3).
特許文献1に記載の従来技術では、何らかの操作により音声入力を開始する指示があった場合、案内装置の音量を低減もしくは消音させ、ノイズ推定区間が終了したときに音声入力の許可を報知する。しかし、ユーザは、発話を希望するたびに、案内装置に何らかの操作を行って案内装置自身の発話(自己発話)を停止させる必要があるため、手間がかかるばかりか、対話のテンポが悪くなり、不自然な対話になりやすい。 In the prior art described in Patent Document 1, when there is an instruction to start voice input by some operation, the volume of the guidance device is reduced or silenced, and the permission of voice input is notified when the noise estimation section ends. However, every time the user wants to speak, it is necessary to stop the utterance of the guidance device itself (self-speaking) by performing some operation on the guidance device. Prone to unnatural dialogue.
特許文献2に記載の従来技術では、音声認識処理に入力される信号のうち自己発話による信号を、適応フィルタやエコーキャンセルを用いて除去できるため、自己発話中であってもユーザの発話を認識することができる。しかし、適応フィルタやエコーキャンセルといった処理を用いても自己発話中のユーザの音声を正確に認識するのは難しく、かつ、適応フィルタやエコーキャンセルの実装には手間がかかり、コストも増大する。特に、メモリサイズやCPU(Central Processing Unit)などのリソースが限られる安価で小型なロボットに、画像処理(顔認識)、音声認識、動作などの基本的制御処理に加えて、適応フィルタなどの処理を実装するのは容易ではない。 In the prior art described in Patent Document 2, a signal by self-speech among signals input to speech recognition processing can be removed using an adaptive filter or echo cancellation, so that the user's speech is recognized even during self-speech. can do. However, it is difficult to accurately recognize the voice of the user who is currently speaking even if processing such as an adaptive filter or echo cancellation is used, and implementation of the adaptive filter or echo cancellation takes time and costs. In particular, in addition to basic control processing such as image processing (face recognition), voice recognition, and motion, processing such as adaptive filters is added to inexpensive and small robots with limited resources such as memory size and CPU (Central Processing Unit). Is not easy to implement.
特許文献3に記載の従来技術では、ユーザの発話動作(口元の動き)を検知することにより音声認識処理を開始させるため、音声認識処理を開始するための特別な操作は不要である。しかし、ユーザの口元の動作のみでユーザの発話を検知するのは難しい。 In the prior art described in Patent Literature 3, since the voice recognition process is started by detecting the user's speech movement (movement of the mouth), a special operation for starting the voice recognition process is unnecessary. However, it is difficult to detect the user's utterance only by the movement of the user's mouth.
本発明は、上記の課題に鑑みてなされたもので、その目的は、自己の発話中でもユーザの発話に応答して対話することができるようにしたロボットおよびその制御方法を提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a robot capable of interacting in response to a user's utterance even during his / her utterance and a control method thereof.
本発明の一つの観点に係るロボットは、ユーザと対話するロボットであって、ユーザの顔画像を解析する画像解析部と、周囲の音声から音源方向の推定と音声認識処理とを行う音声解析部と、音声解析部による音声認識処理の開始と停止を判定する起動判定部と、音声認識処理の認識結果に応じてメッセージを生成し発話する発話生成部と、を備え、起動判定部は、発話生成部の動作状態と画像解析部によるユーザの顔画像の解析結果と音声解析部による音源方向の推定結果とから、ユーザが話しかけていることを示す所定の条件を満たす場合に、発話生成部による発話を一時停止させ、音声解析部による音声認識処理を起動させる。 A robot according to one aspect of the present invention is a robot that interacts with a user, an image analysis unit that analyzes a user's face image, and a voice analysis unit that performs sound source direction estimation and voice recognition processing from surrounding sounds And an activation determination unit that determines the start and stop of voice recognition processing by the voice analysis unit, and an utterance generation unit that generates a message and utters according to the recognition result of the voice recognition process. When the predetermined condition indicating that the user is speaking is satisfied based on the operation state of the generation unit, the analysis result of the face image of the user by the image analysis unit, and the estimation result of the sound source direction by the voice analysis unit, the utterance generation unit The speech is paused and the speech recognition process by the speech analysis unit is started.
所定の条件とは、発話生成部が発話中であり、ユーザの顔が正面に位置する状態で、画像解析部によるユーザの顔画像の解析結果がユーザの口元の動作を示す画像であり、かつ音声解析部による音源方向の推定結果が前方を示す場合であってもよい。 The predetermined condition is an image in which the utterance generation unit is speaking, the user's face is located in front, and the analysis result of the user's face image by the image analysis unit indicates the operation of the user's mouth, and The estimation result of the sound source direction by the voice analysis unit may indicate the front.
本体部に対して可動する可動部を備えており、起動判定部は、音声認識処理の開始を示す所定の音声認識開始動作を、可動部に実現させるものであってもよい。 The movable part movable with respect to a main-body part may be provided, and the starting determination part may implement | achieve the predetermined speech recognition start operation | movement which shows the start of a speech recognition process in a movable part.
発話生成部の動作中は、音声認識処理の停止を示す音声認識停止動作を、可動部を動作させることにより実現させてもよい。 During the operation of the utterance generation unit, a speech recognition stop operation that indicates the stop of the speech recognition process may be realized by operating the movable unit.
音声認識開始動作は、音声認識停止動作を停止させることであってもよい。 The voice recognition start operation may be to stop the voice recognition stop operation.
音声解析部による音声認識処理の結果に対応するメッセージを発話生成部が生成できる場合は、メッセージを発話してユーザと新たな会話を開始し、音声解析部による音声認識処理の結果に対応するメッセージを発話生成部が生成できない場合は、一時停止した発話を発話生成部により再開させてもよい。 If the utterance generation unit can generate a message corresponding to the result of the speech recognition processing by the speech analysis unit, the message is uttered, a new conversation with the user is started, and the message corresponding to the result of the speech recognition processing by the speech analysis unit If the utterance generation unit cannot generate the utterance, the utterance generation unit may resume the paused utterance.
本発明の他の観点に従うロボットの制御方法は、ユーザと対話するロボットをロボット制御部により制御する方法であって、ロボット制御部は、ロボットの発話中にユーザが発話したか監視し、ユーザによる発話を検出した場合、発話を一時停止すると共に、ロボットの発話中に実施していた、少なくともロボットの可動部を動かすことで音声認識処理の停止を示す音声認識停止動作を一時停止させ、ユーザの発する音声を取得し、取得したユーザの音声を音声認識処理し、音声認識処理の結果に対応するメッセージを生成可能か判定し、メッセージを生成できると判定した場合は、メッセージを発話してユーザと新たな会話を開始し、メッセージを生成できないと判定した場合は、一時停止させた発話を再開させるとともに、音声認識停止動作を再開させる。 A robot control method according to another aspect of the present invention is a method in which a robot that interacts with a user is controlled by a robot controller, and the robot controller monitors whether the user has spoken during the utterance of the robot. When an utterance is detected, the utterance is paused, and at the same time, the voice recognition stop operation indicating that the voice recognition processing is stopped is paused by moving at least the movable part of the robot, which is performed during the robot's utterance. The voice to be uttered is acquired, the voice of the acquired user is subjected to voice recognition processing, it is determined whether a message corresponding to the result of the voice recognition processing can be generated, and if it is determined that the message can be generated, the message is uttered and the user When it is determined that a new conversation is started and a message cannot be generated, the paused speech is resumed and voice recognition is stopped. To resume the work.
本実施形態では、後述の通り、ユーザ(話者)の顔の正面を見た状態で、ロボット1の発話中に、ユーザの口元が動いていることと、ユーザの方向から音声が到来することとを同時に検出した場合に、ロボット1の発話を一時停止し、音声認識を開始する。これにより、ロボット1の発話中(自己発話中)にユーザが割り込んで発話した場合でも、ユーザの発話を認識して自然な対話を継続することができる。なお、以下では、ロボット1の発話を一時的に停止させることを、「一時停止」または「中断」と表現する。 In the present embodiment, as will be described later, the user's mouth is moving and the voice comes from the user's direction while the robot 1 is speaking while looking at the front of the user's (speaker) face. Are simultaneously detected, the utterance of the robot 1 is temporarily stopped and voice recognition is started. Thereby, even when the user interrupts and speaks while the robot 1 is speaking (during self-speaking), it is possible to recognize the user's speech and continue a natural conversation. Hereinafter, temporarily stopping the speech of the robot 1 is expressed as “pause” or “interrupt”.
図1は、ロボット1の全体構成を示す。ロボット1は、ユーザとコミュニケーションすることのできる、いわゆるコミュニケーションロボットとして構成される。ロボット1は、例えば、一般家庭、オフィス、各種商業施設、病院、介護施設、保育園、幼稚園、学校などで、ユーザと対話したり、運動して遊んだりすることができる。以下、ロボット1と対話を通じてコミュニケーションする者をユーザと呼ぶ。 FIG. 1 shows the overall configuration of the robot 1. The robot 1 is configured as a so-called communication robot that can communicate with a user. The robot 1 can interact with a user or exercise and play in, for example, a general home, an office, various commercial facilities, a hospital, a care facility, a nursery school, a kindergarten, and a school. Hereinafter, a person who communicates with the robot 1 through dialogue is referred to as a user.
ロボット1は、一つまたは複数のアプリケーション(サービス)を備える。アプリケーションとは、例えば、ニュース、レクリエーション、クイズ、ゲーム、体操、ダンス等である。アプリケーションに対応付けられているコマンドをユーザが発すると、ロボット1はその音声を認識し、コマンドに応じたアプリケーションを実行する。 The robot 1 includes one or a plurality of applications (services). Examples of applications include news, recreation, quizzes, games, gymnastics, and dance. When the user issues a command associated with the application, the robot 1 recognizes the voice and executes the application corresponding to the command.
ロボット1は、ロボット制御部10と、ロボット本体11とに大別できる。ロボット制御部10は、ロボット本体11を制御するもので、その詳細は後述する。ロボット本体11は、例えば、胴体12と、両脚13R,13Lと、両手14R,14Lと、頭部15とを備える。以下、左右を区別しない場合、両脚13、両手14と呼ぶ。胴体12は「本体部」に該当する。両脚13,両手14,頭部15は、胴体12に対して可動に設けられており、「可動部」に該当する。
The robot 1 can be roughly divided into a
ロボット制御部10は、ロボット本体11に設けられる。ロボット1には、後述するカメラ121やマイク120などが設けられる。
The
ロボット制御部10は、例えば、マイクロプロセッサ(以下CPU)101、メモリ102、SSD(Solid State Drive)103、統合制御部104、音声信号処理部105、画像認識部106、音声合成部107、音声出力部108、LED(Light Emitting Diode)駆動部109、音声認識起動判定部110、音声認識部111、辞書データベース112、音響モデル113、言語モデル114、発話生成部115、発話データベース116、アクチュエータ制御部117、アクチュエータ駆動部118、モーションデータベース119、図示せぬ通信部や電源部等を備える。
The
CPU101は、メモリ102またはSSD103に格納されているコンピュータプログラムや動作制御データを読み込んで実行することにより、例えば、ニュース、レクリエーション、クイズ、ダンス、体操等のアプリケーションを実行する。本実施例では、補助記憶装置としてSSD103を用いるが、SSD以外の記憶装置を用いてもよい。
The
統合制御部104は、音声認識部111の音声認識結果がコマンドである場合に、コマンドに応じた動作の開始をLED駆動部109、発話生成部115、アクチュエータ制御部117などの対応する各処理部へ指示する機能である。統合制御部104は、音声認識の結果がコマンド以外の言葉である場合、ユーザの言葉を発話生成部115へ送る。
When the voice recognition result of the voice recognition unit 111 is a command, the
音声信号処理部105と音声認識部111とは、「音声解析部」に該当する。音声信号処理部105は、複数のマイク120から音信号を取得し、解析する。マイク120は、例えば、ロボット本体11のうち左右の両耳に該当する部分と、首に該当する部分の前後にそれぞれ1つずつ設けられている。つまり、ロボット1には、音源の方向を推定できるように、複数のマイク120が異なる場所に設けられている。
The voice
音声信号処理部105は、例えば、特徴ベクトル抽出部1051と、音源方向推定部1052を備える。なお、図中では「部」という言葉を適宜省略している。
The audio
特徴ベクトル抽出部1051は、マイク120で取得した音声から音声認識のための特徴量を特徴ベクトルとして抽出する。抽出された特徴ベクトルは、音声認識部111へ送られる。なお、特徴ベクトル抽出部1051は、音源方向推定部1052による音源方向の推定結果を利用してビームフォーミングを行い、音源方向から到来する音声を強調した信号に基づいて特徴ベクトルを生成することもできる。これにより、ロボット1に話しかけているユーザの音声の特徴量をより明確に抽出することができる。
The feature vector extraction unit 1051 extracts a feature amount for speech recognition from the speech acquired by the
音源方向推定部1052は、音源からの音波が各マイク120へ到達する時間の差を解析することで、音源の方向を推定する。音源の方向の推定結果は、音声認識起動判定部110へ送られる。例えば、ロボット本体11の左右の耳部に実装した2つのマイク120で受音した音声信号の到来時間差を算出することにより、音源方向を推定することができる(遅延時間推定法)。さらに、ロボット本体11の首部の前後に実装した2つのマイク120が受音した音声信号の強弱により、音声が到来した方向の前後を区別することができる。なお、4つの全てのマイク120で受音した音声信号の到来時間差を算出して、音源方向を推定しても良い。
The sound source
画像認識部106は、「画像解析部」に該当し、カメラ121で撮像した画像データ(以下、画像とも呼ぶ)を解析する。画像認識部106の解析結果は、音声認識起動判定部110へ送られる。カメラ121は、例えば、ロボット頭部15の正面(ロボットの顔に当たる領域)に少なくとも一つ設けられる。画像認識部106は、例えば、顔検出部1061と、口元動作検出部1062とを有する。
The
顔検出部1061は、カメラ121から取得した画像からユーザの顔(人間の顔)を抽出する。詳しくは、顔検出部1061は、矩形で検出する顔領域と、鼻と口の位置を示す座標および顔向きを出力する。
The face detection unit 1061 extracts the user's face (human face) from the image acquired from the
口元動作検出部1062は、カメラ121で連続して撮影した画像に基づいて、ユーザの口元の動きの有無を検出する。詳しくは、連続して撮影した画像から、顔検出部1061の検出した鼻や口などの座標を利用して、ユーザの口元に動きがあるか判定する。
The mouth
音声合成部107は、発話生成部115から入力されるメッセージ(応答文など)に対応する音声信号を合成する。音声合成部107で合成された音声信号は、音声出力部108を介してスピーカ122から外部へ出力される。
The
LED駆動部109は、ロボット本体11に設けられたLED123を駆動する。LED123は、例えば、ロボット頭部15の正面(顔に該当する領域)に少なくとも一つ設けることができる。これに代えて、例えば、ロボット頭部15の背面、首部の周辺、胴体12の胸部分などにLEDを設けてもよい。さらには、LED123に代えて、あるいはLED123と共に、液晶ディスプレイ、 OLED(Organic Light Emitting Diode)などの表示部、発光部を設けることもできる。
The
音声認識起動判定部110は、「起動判定部」に該当する。以下、起動判定部110とも呼ぶ。起動判定部110は、各マイク120から受音した音声とカメラ121で撮像した画像とに基づいて、ユーザ(話者)の状況を推定し、音声認識処理の開始または停止について判定する。起動判定部110の判定結果に基づいて、特徴ベクトル抽出部1051と音声認識部111とは、その作動を開始または停止させる。
The speech recognition
音声認識部111は、音声信号処理部105から取得する特徴ベクトル等に基づいて、音声を認識する。音声認識部111は、例えば、辞書データベース112と、音響モデル113と、言語モデル114とを利用することができる。
The speech recognition unit 111 recognizes speech based on feature vectors acquired from the speech
音響モデル113は、テキストの読みとテキストを発音したときの波形とを対応づけて記憶したデータベースであり、どのような波形の音がどのような単語として認識されるかを定義する。言語モデル114は、言語ごとの単語の並べ方(文法)などを記憶したデータベースである。辞書データベース112は、一般的な辞書のデータを保持する。例えば、辞書データベース112、音響モデル113、言語モデル114を言語ごとに用意することで、多言語に対応することもできる。
The
発話生成部115は、音声認識部111の認識した言葉に対応する応答文(メッセージ)を生成し、音声合成部107等を介してスピーカ122から外部へ出力させる。詳しくは、発話生成部115は、発話データベース116を参照して、認識された言葉に応答する文例を選択し、選択した文例から応答文を生成する。
The
アクチュエータ制御部117は、アクチュエータ駆動部118を介して複数のアクチュエータ124に接続されており、各アクチュエータ124を制御する。アクチュエータ124としては、例えば、各部の関節を動かすためのDCサーボモータ等がある。これに限らず、例えば、超音波モータ、圧電アクチュエータ、ソレノイド等をアクチュエータとして用いてもよい。以下、アクチュエータの例として関節モータを挙げて説明する。そこで、関節モータに符号124を付して関節モータ124と呼ぶことがある。
The
アクチュエータ制御部117は、統合制御部104から指示された動作を実現するために、モーションデータベース119を参照して、各部の関節モータ124を制御する。モーションデータベース119には、各種の動作に対応する関節モータ124の制御情報(回転角、回転時間、回転速度、シーケンス)が登録されている。
The
ここで、統合制御部104は、起動判定部110が、音声認識処理を開始すべきと判定すると、アクチュエータ制御部117に対して、音声認識開始モーション1191を実行するよう指示する。一方、統合制御部104は、起動判定部110が、音声認識処理を停止すべきと判定すると、アクチュエータ制御部117に対して、音声認識停止モーション1192を実行するよう指示する。
Here, when the
音声認識開始モーション1191は、音声認識処理を開始するタイミングで実行されるモーションであり、「音声認識開始動作」に該当する。音声認識停止モーション1192は、音声認識処理を停止するタイミング(つまり、発話を開始するタイミング)で実行されるモーションであり、「音声認識停止動作」に該当する。音声認識停止モーション1192は、ロボット1の自己発話中に実施されるモーションであるため、発話モーションと呼ぶこともできる。
The voice
音声認識開始モーション1191,音声認識停止モーション1192では、例えば、ロボット本体11の可動部を動かしたり、LED123を点灯させたりすることで、ユーザの注意を喚起することができる。
In the voice
ユーザは、音声認識処理の開始タイミングおよび停止タイミングを、ロボット1の動作を通じて体験的に習得することができる。ユーザは、音声認識開始モーション1191を視認することで、音声認識処理が開始されたことを知ることができ、適切なタイミングで発話することができる。ユーザは、音声認識停止モーション1192を視認することで、音声認識処理が停止されていることを知ることができる。ロボット1の性能に関心の少ないユーザであっても、自分の発話が認識されたか否かと、これらのモーション1191,1192との関係とを経験することができるため、ロボット1の性能に適した話し方を自然に学習することが期待できる。
The user can learn the start timing and stop timing of the voice recognition processing through the operation of the robot 1 through experience. By visually recognizing the voice
音声認識開始モーション1191の例を説明する。音声認識開始モーション1191では、例えば、自己発話中は腕14を動かしており、音声認識処理の開始時には腕14の動きを停止させるという動作を行うことで、音声認識処理の開始を知らせる。腕14の動作停止に代えて、あるいは腕14の動作停止と共に、音源のユーザに耳を傾けるような仕草をすることで、音声認識処理の開始を知らせてもよい。
An example of the voice
音声認識停止モーション1192の例を説明する。音声認識停止モーション1192では、例えば、音声認識処理中は腕14を動かさないでおき、音声認識処理を停止させて自己発話が開始されると腕14の動きを開始するという動作を行うことで、音声認識処理の停止を知らせる。腕14の動作開始に代えて、あるいは腕14の動作開始と共に、音声認識処理中に音源のユーザへ耳を傾けていた仕草を停止し、通常状態に戻してもよい。腕14以外の他の可動部、例えば脚13や頭部15を動作させて音声認識の開始または停止をユーザに知らせることもできる。
An example of the voice
なお、音声認識開始モーション1191では、上述のように、可動部としての腕14の動作(例えば、腕を上下に振る動作。腕振りモーションとも呼ぶ)を停止させるが、関節モータ124を所定の位置で停止させる制御を行ってもよいし、関節モータ124をブレーキモードで停止させてもよい。
In the voice
本実施例の音声認識開始モーション1191では DCサーボモータとして構成される関節モータ124の内部のHブリッジをショートさせることで、モータではなく発電機として機能させる。これにより、DCサーボモータの停止制御時のノイズを低減して、音声認識処理の精度低下を抑制できる。さらに、DCサーボモータを停止制御する場合は、停止させる角度を指定して駆動を指示する必要があり、制御処理が煩雑で時間がかかるが、ブレーキモードの場合は、Hブリッジをショートさせるだけでよく、簡単かつ速やかに停止させることができる。さらに、ブレーキモード時では、DCサーボモータを回転させるために負荷が必要となるため、腕14が重力により自然に回転する量を抑制できる。
In the voice
図2を参照して、本実施例による対話制御処理を説明する。全体の流れは別の実施例で後述する。 With reference to FIG. 2, the dialogue control process according to the present embodiment will be described. The overall flow will be described later in another embodiment.
まず最初の状態で、ロボット1は発話中であるとする(S10)。ロボット1は、例えば、ニュースを読み上げたり、ユーザと会話しているものとする。ロボット1の発話中、つまり自己発話中では、発話モーション(音声認識停止モーション1192)が実行されている。 First, it is assumed that the robot 1 is speaking in the initial state (S10). It is assumed that the robot 1 reads out news or is talking to the user, for example. During the speech of the robot 1, that is, during the self-speech, a speech motion (voice recognition stop motion 1192) is executed.
ロボット制御部10は、ユーザによるロボット1への話しかけを判定するための所定条件が成立したか監視している(S11)。所定の条件とは、例えば、ユーザの顔の向きが所定の方向を向いており、ユーザの口元に動きが検出されており、マイク120で検出した音声の音源の方向がロボット1の正面前方にあること、である。詳しくは、ユーザの顔がロボット1の正面にあり、ユーザの口元が動いており、ロボット1の正面前方から音声が検出された場合である。ここで、本明細書において、ロボット1の正面前方とは、ロボット1の胴体を基準にしたものではなく、ロボット1に搭載されたカメラ121で撮影可能な方向(画角撮影範囲)を言う。「ユーザの顔が正面に位置する場合」の例については、図6,図7で後述する。
The
所定の条件が成立した場合は、ロボット1の自己発話中に、ユーザが話しかけ始めた状態であると推定することができる。これら顔の向き、口元の動き、音源の方向の検出タイミングが一致する場合に、所定の条件が成立したものとして判定する(S11)。誤検知を抑制し、対話が中断するのを防止するためである。タイミングが一致しているか否かは、例えば、音声データのタイムスタンプと画像データのタイムスタンプとの差が所定時間内に収まるか否かで判定できる。 When the predetermined condition is satisfied, it can be estimated that the user has started speaking while the robot 1 is speaking. When the detection timings of the face direction, the mouth movement, and the sound source direction coincide with each other, it is determined that a predetermined condition is satisfied (S11). This is to suppress false detections and prevent the conversation from being interrupted. Whether the timings match can be determined, for example, by determining whether the difference between the time stamp of the audio data and the time stamp of the image data falls within a predetermined time.
ロボット制御部10は、所定の条件が成立したと判定すると(S11:YES)、音声認識処理を開始したことを、ロボット1の持つ表現能力を駆使してユーザへ知らせる(S12)。ロボット制御部10は、例えば、自己発話を一時停止し、発話モーションを停止し、ユーザへの短い問いかけ動作を行い、かつ、音声入力待ちを示すLED表示を行い、そして、各マイク120を通じて音声を収集する(S12)。
When the
ここで、発話モーションの停止は、音声認識停止モーション1192を停止させることを意味する。ユーザへの短い問いかけ動作では、例えば、「ん?」のような短い言葉であって、対話の最中に突然発せられたとしても対話の流れをあまり妨げないと思われる言葉を発する。音声入力待ちを示すLED表示では、例えば、LED123を青く点灯させることで、音声入力待ちであることをユーザに知らせる。
Here, the stop of the speech motion means that the speech
ロボット制御部10は、ユーザの顔がロボット1の正面に見えている状態で、各マイク120から音声を収集できるか判定する(S13)。ユーザの顔がロボット1の正面に見えている状態で音声を収集できない場合(S13:NO)、ロボット制御部10は、音声の収集開始から所定時間t1が経過したか判定する(S14)。
The
この所定時間t1は、例えば2,3秒等の数秒程度に設定することができる。無音状態が続いた場合は、ステップS12で一時停止させたロボット1の発話(自己発話)を直ちに再開させるためである。所定の時間t1を短く設定することで、所定の条件が偶然成立したような場合に、対話が長時間途切れるのを防止することができ、一時停止させた発話に自然に復帰させることができる。 The predetermined time t1 can be set to about several seconds such as a few seconds. This is because when the silent state continues, the utterance (self-utterance) of the robot 1 temporarily stopped in step S12 is immediately resumed. By setting the predetermined time t1 short, it is possible to prevent the conversation from being interrupted for a long time when the predetermined condition is satisfied by chance, and it is possible to naturally return to the paused utterance.
ロボット制御部10は、音声の収集を開始してから所定時間t1が経過するまでステップS13を繰り返す(S14:NO)。所定時間t1が経過しても音声を収集できない場合(S14:YES)、ロボット制御部10は、ステップS12で一時停止させた自己発話を再開し(S15)、ステップS10へ戻る。
The
自己発話を再開するステップS15では、発話モーション(音声認識停止モーション1192)を再開させると共に、LED123を例えば赤く点灯させることで、音声認識処理を停止したことをユーザへ知らせる。
In step S15 for resuming self-speech, the speech motion (speech recognition stop motion 1192) is resumed, and the
一方、ロボット制御部10は、所定時間t1が経過する前に、ユーザの顔がロボット1の正面に見えている状態で、各マイク120から音声を収集できる場合(S13:YES)、音声認識処理を開始する(S16)。
On the other hand, when the
なお、図示は省略しているが、ロボット1の内部で音声認識処理の全てを行う必要はなく、少なくとも一部の処理をロボット1の外部に設けられた音声認識処理サーバで実行してもよい。外部のサーバで音声認識処理の全部または一部を実行する場合、音声認識処理の結果が出るまで多少の時間を要する。そこで、ステップS16では、ロボット頭部15を前に傾ける等して頷く動作(頷きモーション)を実行してもよい。ロボット1が頷きモーションを実行することで、音声認識処理に時間がかかった場合でも、間を持たせることができ、自然な対話を継続できる。なお、音声認識処理の全てをロボット1内で実行する場合であっても、音声認識処理中に頷きモーションを実行することで、ユーザに対し、ユーザの言葉に耳を傾けているように演出することができる。
Although not shown, it is not necessary to perform all of the speech recognition processing inside the robot 1, and at least a part of the processing may be executed by a speech recognition processing server provided outside the robot 1. . When all or part of the voice recognition process is executed by an external server, it takes some time until the result of the voice recognition process is obtained. Therefore, in step S16, an operation of moving the
ロボット制御部10は、音声認識の結果が出たか判定する(S17)。音声認識結果が出ない場合(S17:NO)、ロボット制御部10は、ステップS16での音声認識処理の開始から所定時間t2が経過したか判定する(S18)。ロボット制御部10は、音声認識の結果が出るまで、所定時間t2だけ待機する。
The
所定時間t2は、ステップS14で述べた所定時間t1よりも長い値(例えば10秒程度)に設定することができる。ユーザによるロボット1への話しかけが行われている可能性の高い状況下では、比較的長い時間t2だけ待機することで、ユーザからの話しかけ(割込み)を受け入れて、新たな対話へ導くことができる。もしも、ステップS18の待機時間t2を短く設定すると、ユーザが話しかけようとした動作がキャンセルされる可能性が高くなり、かえって自然な対話を阻害するおそれがある。 The predetermined time t2 can be set to a value (for example, about 10 seconds) longer than the predetermined time t1 described in step S14. Under a situation where there is a high possibility that the user is talking to the robot 1, by waiting for a relatively long time t2, it is possible to accept a talk (interrupt) from the user and lead to a new conversation. . If the waiting time t2 in step S18 is set short, there is a high possibility that the operation that the user tried to talk to is canceled, and there is a possibility that natural dialogue will be hindered.
ロボット制御部10は、所定時間t2が経過する前に、音声認識結果を得た場合(S17:YES)、音声認識された言葉に対応するメッセージを発話生成部115が生成できるか否か判定する(S19)。
When the speech recognition result is obtained before the predetermined time t2 has elapsed (S17: YES), the
詳しくは、ロボット制御部10は、音声認識された言葉を形態素解析し、形態素解析の結果と一致するキーワードが発話データベース116に記憶されているか判定することで、有効な会話の可能な音声を認識したか判定する(S19)。
Specifically, the
音声認識された言葉が発話データベース116に記憶されているキーワードを含む場合(S19:YES)、ロボット制御部10は、認識した音声に基づいて、ユーザと新しい会話を開始する(S20)。
When the speech-recognized word includes a keyword stored in the utterance database 116 (S19: YES), the
これに対し、ロボット制御部10は、ステップS16で音声認識された言葉が発話データベース116に記憶されているキーワードを一つも含んでいない場合、即ち、有効な会話が可能な音声を認識できなかった場合(S19:NO)、ステップS15に移り、一時停止させていたロボット1の発話を再開させる。
On the other hand, the
図3は、図2で述べた処理の一つの具体例を示すタイムチャートである。図示は省略するが、最初にユーザが「明日の天気を教えて」といった内容の発言をし、ロボット1がこの発言に応答して天気予報データをネットワーク上の天気予報サーバ等から収集して応答する場合を例に挙げて説明する。 FIG. 3 is a time chart showing one specific example of the processing described in FIG. Although illustration is omitted, the user first makes a statement such as “Tell me about tomorrow's weather”, and the robot 1 responds to this statement by collecting weather forecast data from a weather forecast server or the like on the network. An example of the case will be described.
ケース(a)では、ロボット1は、例えば、「今朝の関東地方は晴れのようです」といったニュースを自己発話W1として読み上げているものとする。なお、ロボット1は、図示せぬ通信機能を用いて、外部のニュース配信サイトなどの情報源から情報を適宜取得できる。 In case (a), it is assumed that the robot 1 reads, for example, a news such as “This morning in the Kanto region seems to be sunny” as a self-utterance W1. The robot 1 can appropriately acquire information from an information source such as an external news distribution site using a communication function (not shown).
ケース(b)は、ロボット1の自己発話W1中に、ユーザがロボット1に話しかけ始めたような状況が偶然出現した場合、つまり、図2のステップS11で述べた所定の条件が一時的に成立した場合を示す。 In the case (b), when a situation in which the user starts talking to the robot 1 appears by chance during the self-utterance W1 of the robot 1, that is, the predetermined condition described in step S11 in FIG. 2 is temporarily established. Shows the case.
ケース(b)では、所定の条件が成立すると、ロボット1は、自己発話W1を一時的に中断し、短い応答「ん?」を発する(図2のS12)。これと同時に、ロボット1は、腕14を上下動させるなどの音声認識停止モーション1192を停止し、音声認識処理を開始する(S12)。しかし、音声認識処理を開始後に、音声を取得できない無音時間が所定時間t1継続すると(図2のS14でYES)、音声認識処理を停止し、中断された発話W1aをその続きW1bから再開する(図2のS15)。
In the case (b), when a predetermined condition is satisfied, the robot 1 temporarily suspends the self-utterance W1 and issues a short response “?” (S12 in FIG. 2). At the same time, the robot 1 stops the voice
つまり、ケース(b)のように、ユーザから話しかけられたと仮に誤って判定した場合でも、ロボット1は「ん?」というごく短く自然な応答を返し、一瞬だけ耳をそばだてるかのような反応を示してから速やかに元の発話に復帰する。したがって、ロボット1の発話が中断前部分W1aと中断後部分W1bとに分かれた場合でも、不自然さをユーザに与える可能性を低減できる。 In other words, even if it is erroneously determined that the user has spoken, as in case (b), the robot 1 returns a very short and natural response of “n?” And reacts as if the ears are stood away for a moment. Return to the original utterance promptly after showing. Therefore, even when the utterance of the robot 1 is divided into the pre-interruption part W1a and the post-interruption part W1b, the possibility of giving the user unnaturalness can be reduced.
ケース(c)は、所定の条件が成立したので「ん?」という応答を発し、音声認識処理を開始したが、所定時間t2内に認識可能な音声を収集できなかった場合を示す(図2のS17でNO、S18でYES)。 Case (c) shows a case where a predetermined condition is satisfied, a response “n?” Is issued, and voice recognition processing is started, but no recognizable voice can be collected within a predetermined time t2 (FIG. 2). NO at S17 and YES at S18).
ケース(c)では、音声認識処理の開始から所定時間t2が経過した後、ロボット1は、中断された発話を中断位置から再開する(S15)。なお、音声認識停止モーション1192と音声認識開始モーション1191との切替については、図2で述べたので、ここでは割愛する。
In the case (c), after a predetermined time t2 has elapsed from the start of the speech recognition process, the robot 1 resumes the suspended utterance from the suspended position (S15). Note that switching between the voice
ケース(d)は、所定の条件が成立して「ん?」という応答を発し、音声認識処理を開始したが、有効な会話の可能な音声を収集できなかった場合、即ち、発話データベース116に登録されているキーワードに対応する音声を認識できなかった場合を示す(図2のS17でYES、S19でNO)。ユーザの音声からキーワードを抽出できなかった場合、ロボット1は、中断された発話を中断位置から再開する(S15)。
In the case (d), when a predetermined condition is satisfied and a response “n?” Is issued and the speech recognition processing is started, but speech capable of valid conversation cannot be collected, that is, in the
ケース(e)は、ロボット1の発話中に検出されたユーザからの話しかけに対応して、ロボット1が新たな話題に転じる場合を示す。 Case (e) shows a case where the robot 1 turns to a new topic in response to a conversation from the user detected during the speech of the robot 1.
ロボット1が「ん?」という短い応答を発した後、ユーザから収集した音声に有効な会話の可能なキーワードが含まれている場合(図2のS19でYES)、ロボット1は、ユーザから話しかけられた音声に応じて新しい会話W2を開始する(図2のS20)。最初の発話W1の残り部分W1bは、発話されない。 After the robot 1 issues a short response “No?”, If the voice collected from the user includes a keyword capable of effective conversation (YES in S19 in FIG. 2), the robot 1 talks to the user. A new conversation W2 is started according to the received voice (S20 in FIG. 2). The remaining portion W1b of the first utterance W1 is not uttered.
ケース(e)では、ユーザからの話しかけに対応して、新たな話題に移ることができ、円滑なコミュニケーションを継続することができる。 In the case (e), it is possible to move to a new topic in response to the conversation from the user, and smooth communication can be continued.
このように本実施例のロボット1は、音声認識中に、(1)ユーザの顔または音声を検出不能の場合(S13:NO)、(2)検出した音声を認識できない場合(S17:NO)、(3)音声認識した言葉に対応した会話ができない場合(S19:NO)、のいずれかの状態になると、音声認識処理を停止し、音声認識開始モーション1191から音声認識停止モーション1192へ切り替わる。
As described above, during the speech recognition, the robot 1 of the present embodiment (1) cannot detect the user's face or voice (S13: NO), and (2) cannot detect the detected voice (S17: NO). (3) When the conversation corresponding to the speech-recognized word cannot be made (S19: NO), the speech recognition process is stopped and the speech
なお、新しい会話が開始された場合(S20)、ロボット1の発話中では音声認識処理は停止される。ロボット1の発話が終わった後、音声認識停止モーション1192から音声認識開始モーション1191に切り替わり、音声認識が開始される。
When a new conversation is started (S20), the speech recognition process is stopped while the robot 1 is speaking. After the utterance of the robot 1 is finished, the voice
このように構成される本実施例によれば、所定の条件が成立した場合(話者であるユーザの顔の正面を見ている自己発話中に、ユーザの口元が動いており、かつロボット1の正面前方から音声が入力される場合)、ロボット1の発話を一時停止し、音声認識処理を開始する。したがって、本実施例によれば、自己発話中に音声認識可能な機能(バージイン機能)を用いずに、自己発話中のユーザからの話しかけに自然に応対することができ、円滑なコミュニケーションを行うことができる。 According to this embodiment configured as described above, when a predetermined condition is satisfied (the user's mouth is moving during self-speaking while looking in front of the user's face as a speaker), and the robot 1 When the voice is input from the front of the robot 1), the speech of the robot 1 is paused and the voice recognition process is started. Therefore, according to the present embodiment, it is possible to respond naturally to the conversation from the user during the self-speaking without using the function (barge-in function) capable of recognizing the voice during the self-speaking, and perform smooth communication. Can do.
本実施例によれば、リソースの制約が大きいためにバージイン機能を備えるのが難しい安価なロボットであっても、自己発話中のユーザからの話しかけに対応できる。したがって、コストをあまり増大させずにロボット1の対話性能を向上することができる。 According to the present embodiment, even an inexpensive robot that is difficult to provide a barge-in function due to large resource constraints can cope with a conversation from a user who is speaking. Therefore, it is possible to improve the interactive performance of the robot 1 without increasing the cost so much.
本実施例によれば、ユーザの顔の向きと口元の動きと音声到来方向との条件が全て揃ったときに、ユーザがロボット1に向かって話していると判断するため、ユーザの発話を精度よく検出することができ、話題の変化に追従することができる。 According to the present embodiment, when all the conditions of the user's face direction, mouth movement, and voice arrival direction are all determined, it is determined that the user is speaking toward the robot 1, so that the user's utterance is accurate. It can detect well and follow changes in the topic.
本実施例によれば、ロボット1の発話を一時停止し、音声認識処理を開始する際に音声認識が可能状態になったことを示す音声認識開始モーション1191を実施する。このため、ユーザは、ロボットが発話モード(音声認識停止モード)から音声認識モードへ切り替わるタイミングを自然に学習できる。ユーザは、音声認識モードに移行するまでは音声認識されないという体験を通して、ロボット1の発話中にいきなり重要な言葉を発しても無駄になるといったロボット1の性能に応じた発話方法(割込み方法)を学習することができる。これにより、ユーザが自然にロボットとの対話をスムーズに行えるようになるという効果を期待できる。
According to the present embodiment, the speech
本実施例では、音声認識処理の開始を知らせるために音声認識開始モーション1191を実行し、発話中に動かしていた部位(例えば腕14)の動きを停止させる。これにより、本実施例によれば、自然な対話動作の中で、ユーザにモードが切り替わったことを知らせることができる。
In this embodiment, the voice
本実施例によれば、ロボット1の自己発話中にユーザから発せられた言葉の音声認識結果が、ロボット1の応答可能な話題の範囲(発話データベース116に記憶されているキーワードの範囲)である場合、その新しい話題に応答し、一方、応答可能な話題の範囲ではない場合、または音声認識できなかった場合は一時停止した自己発話をその続きから再開する。これにより、移り気なユーザの興味に合わせて対話を継続することができ、ユーザが意味不明な音を発した場合等には、会話のテンポをあまり崩すことなく、元の話題に復帰してコミュニケーションを継続することができる。 According to the present embodiment, the speech recognition result of words uttered by the user during the self-speaking of the robot 1 is the topic range (the keyword range stored in the utterance database 116) that the robot 1 can respond to. In the case of responding to the new topic, on the other hand, if it is not within the range of the topic that can be responded or if speech recognition is not possible, the paused self-utterance is resumed from the continuation. As a result, the conversation can be continued according to the interest of the mobile user, and when the user emits an unclear sound, the communication returns to the original topic without disrupting the conversation tempo. Can continue.
本実施例によれば、音声認識処理を停止してロボット1の発話を開始するときに、ユーザの音声を認識しない状態になったことを示す音声認識停止モーション1192を実行するため、ユーザは、ロボット1が音声認識モードから発話モード(音声認識停止モード)へ切り替わるタイミングを自然に学習できる。
According to the present embodiment, when the speech recognition process is stopped and the utterance of the robot 1 is started, the user executes the speech
本実施例によれば、音声認識開始モーション1191では、腕14などの可動部を停止させるため、関節モータ124の作動音をマイク120が収集するのを防止し、音声認識の精度を高めることができる。
According to the present embodiment, in the voice
本実施例によれば、腕14の停止時に、関節モータ124をブレーキモードで停止させるため、電気エネルギを消費せずに重力に抗して停止状態を保持することができる。
According to the present embodiment, when the arm 14 is stopped, the
図4を用いて第2実施例を説明する。本実施例を含む以下の各実施例は第1実施例の変形例に該当するため、第1実施例との相違を中心に述べる。本実施例では、ロボット1の周囲のユーザ数に応じて、第1実施例で述べた対話制御方法、即ち、ロボット1の自己発話中にユーザから話しかけられた場合に対応する対話処理(以下、割込み対応対話制御処理)の起動を制御する。 A second embodiment will be described with reference to FIG. Each of the following embodiments including this embodiment corresponds to a modification of the first embodiment, and therefore, differences from the first embodiment will be mainly described. In this embodiment, according to the number of users around the robot 1, the dialogue control method described in the first embodiment, that is, the dialogue processing corresponding to the case where the user speaks during the self-speaking of the robot 1 (hereinafter, referred to as the dialogue processing) Controls the activation of the interrupt handling dialog control process).
図4は、本実施例に係るロボット1の実行する処理の一部を示す。ロボット制御部10は、カメラ121で撮影した画像やマイク120で収集した音声から、ロボット1の周囲の環境を取得する(S30)。例えば、ロボット制御部10は、カメラ121を搭載した頭部15を所定角度水平方向に回動させることで、ロボット1の周囲に存在するユーザの画像を見渡すようにして取得する。
FIG. 4 shows a part of processing executed by the robot 1 according to the present embodiment. The
ロボット制御部10は、ステップS30で取得した画像等から会話対象となり得るユーザの候補を検出する(S31)。ロボット制御部10は、例えば、ユーザの顔画像の大きさなどからロボット1との距離を推定し、ロボット1から所定距離内に位置するユーザであって、ロボット1の正面付近に存在するユーザを、ロボット1と会話可能なユーザの候補として検出する(S31)。
The
ロボット制御部10は、ステップS31で検出したユーザ数が、あらかじめ設定された閾値ThU以下であるか判定する(S32)。会話可能なユーザ数が閾値ThU以下である場合(S32:YES)、ロボット制御部10は、第1実施例で述べた割込み対応対話制御処理(図2のS10〜S20)を実行可能にセットする(S33)。
The
一方、会話可能なユーザ数が閾値ThUよりも多い場合(S32:NO)、ロボット制御部10は、ステップS33をスキップする。したがって、ロボット1は、割込み対応対話制御処理を実行することができない。
On the other hand, when the number of users who can talk is larger than the threshold value ThU (S32: NO), the
割込み対応対話制御処理の実施可否を決定した後、ロボット制御部10は、ユーザと対話する(S34)。ロボット制御部10は、ユーザが「クイズ」や「ダンス」などのアプリケーションの実行を要求するコマンドを発話した場合、そのコマンドに応じたアプリケーションを実行する。
After determining whether or not to execute the interrupt-corresponding dialog control process, the
このように構成される本実施例も第1実施例と同様の作用効果を奏する。さらに本実施例では、ロボット1と対話可能なユーザ数が閾値ThU以下の場合に、第1実施例で述べた割込み対応対話制御処理を実行可能とする。したがって、ロボット1が、閾値ThUよりも多い数のユーザを相手にして「レクリエーション」などを実行する場合に、ロボット1の司会進行などが周囲のユーザの発言に妨げられるのを抑制することができる。 Configuring this embodiment like this also achieves the same operational effects as the first embodiment. Furthermore, in this embodiment, when the number of users who can interact with the robot 1 is equal to or less than the threshold value ThU, the interrupt handling dialog control process described in the first embodiment can be executed. Therefore, when the robot 1 performs “recreation” or the like with more users than the threshold ThU, it is possible to suppress the progress of the moderator of the robot 1 from being disturbed by the speech of surrounding users. .
図5を用いて第3実施例を説明する。本実施例では、アプリケーションの種類に応じて、割込み対応対話制御処理の実行可否を決定する。 A third embodiment will be described with reference to FIG. In this embodiment, whether or not to execute the interrupt-compatible dialog control process is determined according to the type of application.
図5は、本実施例に係るロボット1が実行する処理の一部を示す。ロボット制御部10は、モードを判定する(S40)。ここでは、モードとして、例えば、自由会話モード(S41,S42)、ニュースモード(S43,S44)、レクリエーションモード(S45,S46)、充電要求モード(S47,S48)などがあるとする。
FIG. 5 shows a part of processing executed by the robot 1 according to the present embodiment. The
自由会話モードでは、ロボット1は、ユーザと自由に会話する。ニュースモードは、ユーザが「ニュースを読んで」などのコマンドを発話した場合に実施される。ニュースモードでは、ロボット制御部10は図外のニュース配信サーバからニュースを取得し、取得したニュースを読み上げる。
In the free conversation mode, the robot 1 has a free conversation with the user. The news mode is performed when the user utters a command such as “read news”. In the news mode, the
レクリエーションモードは、ロボット1の管理者(例えば、ロボット1の設置された施設のロボット担当者など)が事前に日時を決めて設定することができる。レクリエーションモードは、例えば、介護施設、学校、病院、スーパーマーケット、百貨店、遊園地などで実行される。レクリエーションモードでは、ロボット1が司会を務め、「体操」、「合唱」、「クイズ大会」などのプログラムを実行する。 The recreation mode can be set by a manager of the robot 1 (for example, a robot person in charge at a facility where the robot 1 is installed) by determining the date and time in advance. The recreation mode is executed in, for example, a nursing facility, a school, a hospital, a supermarket, a department store, an amusement park, and the like. In the recreation mode, the robot 1 serves as a moderator and executes programs such as “gymnastics”, “choral”, and “quiz competition”.
充電要求モードは、ロボット1の蓄電池(図示せず)のSOC(State Of Charge)が所定の閾値まで低下し、充電が必要になった場合に実行される。充電要求モードになると、ロボット制御部10は、充電が必要であることをLED123の点灯などで管理者に通知する。
The charge request mode is executed when the SOC (State Of Charge) of the storage battery (not shown) of the robot 1 is lowered to a predetermined threshold value and charging is necessary. When the charging request mode is set, the
ロボット制御部10は、自由会話モードの場合(S41:YES)、割込み対応対話制御処理を実行可能な状態で、ユーザと自由に対話する(S42)。
In the free conversation mode (S41: YES), the
ロボット制御部10は、ニュースモードの場合(S43:YES)、割込み対応対話制御処理を実行可能な状態で、ニュースを読み上げる(S44)。
In the news mode (S43: YES), the
ロボット制御部10は、レクリエーションモードの場合(S45:YES)、割込み対応対話制御処理を実行しない状態で、レクリエーションの司会を務める(S46)。
In the recreation mode (S45: YES), the
ロボット制御部10は、充電要求モードの場合(S47:YES)、割込み対応対話制御処理を実行しない状態で、管理者に対して充電を要求する(S48)。
In the charge request mode (S47: YES), the
このように構成される本実施例も第1実施例と同様の作用効果を奏する。さらに、本実施例では、モードに応じて(アプリケーションの種類に応じて)、割込み対応対話制御処理の実行可否を決定するため、ロボット1は、状況に応じてユーザとコミュニケーションを取ることができる。 Configuring this embodiment like this also achieves the same operational effects as the first embodiment. Furthermore, in the present embodiment, the robot 1 can communicate with the user according to the situation because it determines whether or not to execute the interrupt-corresponding dialog control process according to the mode (according to the type of application).
例えば、レクリエーションモードでは、多くのユーザを相手にすることが多いため、もしも割込み対応対話制御処理を実行可能に設定すると、ユーザの発話によりロボット1の司会進行が頻繁に中断されてしまい、円滑なレクリエーション活動を行うことができないおそれがある。 For example, in the recreation mode, many users are often dealt with. Therefore, if the interrupt-corresponding dialogue control process is set to be executable, the moderation of the robot 1 is frequently interrupted by the user's speech, and smooth Recreational activities may not be possible.
充電要求モードでは、蓄電池の残量が少なくなっているため、ユーザからの話しかけにいちいち対応していたのでは蓄電池の残量がより早くなくなってしまい、ロボット1の機能が停止するおそれがある。 In the charge request mode, since the remaining amount of the storage battery is low, the remaining amount of the storage battery is lost earlier if the user responds to the talks one by one, and the function of the robot 1 may stop.
しかし、本実施例では、割込み対応対話制御処理を実行すべきモードと、実行しないモードとにわけてロボット1を制御するため、ロボット1の置かれた状況に応じて円滑なコミュニケーションを実現することができる。 However, in this embodiment, since the robot 1 is controlled in a mode in which the interrupt-corresponding dialogue control process should be executed and a mode in which it is not executed, smooth communication is realized according to the situation where the robot 1 is placed. Can do.
図6,図7を参照して第4実施例を説明する。本実施例では、「所定の条件」について詳細に説明する。 A fourth embodiment will be described with reference to FIGS. In this embodiment, the “predetermined condition” will be described in detail.
上述の通り、ユーザが話しかけていることを示す所定の条件を満たす場合に、発話生成部115による発話を一時停止させ、音声解析部(105,111)による音声認識処理を起動させる。
As described above, when a predetermined condition indicating that the user is speaking is satisfied, the utterance by the
所定の条件とは、上述の通り、発話生成部115が発話中であり、ユーザの顔が正面に位置する状態で、画像解析部としての画像認識部106によるユーザの顔画像の解析結果がユーザの口元の動作を示す画像であり、かつ音声解析部による音源方向の推定結果が前方を示す場合である。
As described above, the predetermined condition is that the
図6に示すように、「ユーザの顔が正面に位置する状態」とは、ユーザがロボット1を見ている状態である。詳しくは、ユーザがロボット1を見ている状態とは、ロボット1のカメラ121で撮影可能な範囲(画角撮影範囲)において、ユーザの顔の正面がロボット1の方向を向いている状態である。ロボット1のカメラ121がユーザの正面の顔を撮影できればよいため、ユーザがロボット1の真正面に位置する場合(図6のA)に限らず、真正面以外の位置であっても画角撮影範囲内にユーザの正面の顔が位置する場合(図6のB,C)も含む。
As shown in FIG. 6, “the state where the user's face is located in front” is a state where the user is looking at the robot 1. Specifically, the state in which the user is looking at the robot 1 is a state in which the front of the user's face is facing the direction of the robot 1 in a range that can be photographed by the
図7の説明図に示すように、ユーザの顔が画角撮影範囲内に位置していても、ユーザがロボット1の方を向いていない場合(図7のD)、「ユーザの顔が正面に位置する状態」には含まない。また、ユーザはロボット1の方を向いているが、画角撮影範囲から外れている場合(図7のE)、「ユーザの顔が正面に位置する場合」に含まない。 As shown in the explanatory diagram of FIG. 7, when the user's face is located within the field angle shooting range but the user is not facing the robot 1 (D in FIG. 7), “the user's face is the front It is not included in the “state located at”. Further, when the user faces the robot 1 but is out of the field angle shooting range (E in FIG. 7), it is not included in “when the user's face is located in front”.
したがって、「ユーザの顔が正面に位置する場合」の具体例は、図6のA〜Cと図7のA’およびB’が該当し、図7のD,Eは該当しない。図示はしないが、画角撮影範囲内のユーザがロボット1に背を向けている場合や、ユーザが天井を見上げていたり床を見ている場合も、「ユーザの顔が正面に位置する場合」には該当しない。 Therefore, a specific example of “when the user's face is located in front” corresponds to A to C in FIG. 6 and A ′ and B ′ in FIG. 7, and D and E in FIG. 7 do not correspond. Although not shown, even when the user within the field-of-view photographing range is turning his back to the robot 1 or when the user is looking up at the ceiling or looking at the floor, “when the user's face is in front” Not applicable.
なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。ロボットは、人型である必要はなく、例えば犬、猫、鳥、魚などの動物、ひまわり、トウモロコシなどの植物、円柱、ポリゴン、立方体などの幾何学状物体でもよい。 The present invention is not limited to the above-described embodiment. A person skilled in the art can make various additions and changes within the scope of the present invention. The robot does not need to be humanoid, and may be a geometric object such as an animal such as a dog, a cat, a bird, or a fish, a plant such as a sunflower or corn, a cylinder, a polygon, or a cube.
1:ロボット、10:ロボット制御部、11:ロボット本体、12:胴体、13L,13R:脚、14L,14R:手、15:頭部、104:統合制御部、105:音声信号処理部、106:画像認識部、110:音声認識起動判定部、111:音声認識部、115:発話生成部、116:発話データベース、119:モーションデータベース 1: Robot, 10: Robot controller, 11: Robot body, 12: Body, 13L, 13R: Leg, 14L, 14R: Hand, 15: Head, 104: Integrated controller, 105: Audio signal processor, 106 : Image recognition unit, 110: voice recognition activation determination unit, 111: voice recognition unit, 115: utterance generation unit, 116: utterance database, 119: motion database
Claims (8)
ユーザの顔画像を解析する画像解析部と、
周囲の音声から音源方向の推定と音声認識処理とを行う音声解析部と、
前記音声解析部による前記音声認識処理の開始と停止を判定する起動判定部と、
前記音声認識処理の認識結果に応じてメッセージを生成し発話する発話生成部と、
を備え、
前記起動判定部は、前記発話生成部の動作状態と前記画像解析部によるユーザの顔画像の解析結果と前記音声解析部による音源方向の推定結果とから、ユーザが話しかけていることを示す所定の条件を満たす場合に、前記発話生成部による発話を一時停止させ、前記音声解析部による音声認識処理を起動させる、
ロボット。 A robot that interacts with the user,
An image analysis unit for analyzing a user's face image;
A speech analysis unit that performs sound source direction estimation and speech recognition processing from surrounding speech,
An activation determination unit that determines start and stop of the speech recognition processing by the speech analysis unit;
An utterance generator that generates a message and utters according to the recognition result of the voice recognition process;
With
The activation determination unit is a predetermined state indicating that the user is speaking from the operation state of the utterance generation unit, the analysis result of the user's face image by the image analysis unit, and the estimation result of the sound source direction by the voice analysis unit. If the condition is satisfied, temporarily stop the utterance by the utterance generation unit, and activate the speech recognition processing by the speech analysis unit,
robot.
請求項1に記載のロボット。 The predetermined condition is an image in which the utterance generation unit is uttering and the user's face is located in front, and the analysis result of the user's face image by the image analysis unit indicates the operation of the user's mouth. There is a case where the estimation result of the sound source direction by the voice analysis unit indicates the front,
The robot according to claim 1.
前記起動判定部は、前記音声認識処理の開始を示す所定の音声認識開始動作を、前記可動部に実現させる、
請求項2に記載のロボット。 It has a movable part that can move relative to the main body,
The activation determination unit causes the movable unit to realize a predetermined voice recognition start operation indicating the start of the voice recognition process.
The robot according to claim 2.
請求項3に記載のロボット。 During the operation of the utterance generation unit, a speech recognition stop operation indicating stop of the speech recognition process is realized by operating the movable unit.
The robot according to claim 3.
請求項4に記載のロボット。 The voice recognition start operation is to stop the voice recognition stop operation.
The robot according to claim 4.
前記音声解析部による音声認識処理の結果に対応するメッセージを前記発話生成部が生成できない場合は、前記一時停止した発話を前記発話生成部により再開させる、
請求項1または2のいずれか一項に記載のロボット。 If the utterance generation unit can generate a message corresponding to the result of the voice recognition processing by the voice analysis unit, utter the message and start a new conversation with the user,
If the utterance generation unit cannot generate a message corresponding to the result of the speech recognition processing by the voice analysis unit, the utterance generation unit resumes the paused utterance,
The robot according to claim 1 or 2.
前記起動判定部は、前記発話生成部が前記一時停止した発話を再開させる場合に、前記音声認識処理の停止を示す音声認識停止動作を、前記可動部を動作させることにより実現させる、
請求項6に記載のロボット。 It has a movable part that can move relative to the main body,
The activation determination unit, when the utterance generation unit resumes the paused utterance, realizes a voice recognition stop operation indicating the stop of the voice recognition processing by operating the movable unit,
The robot according to claim 6.
前記ロボット制御部は、
前記ロボットの発話中にユーザが発話したか監視し、
ユーザによる発話を検出した場合、発話を一時停止すると共に、前記ロボットの発話中に実施していた、少なくとも前記ロボットの可動部を動かすことで音声認識処理の停止を示す音声認識停止動作を一時停止させ、
ユーザの発する音声を取得し、
前記取得したユーザの音声を音声認識処理し、
前記音声認識処理の結果に対応するメッセージを生成可能か判定し、
前記メッセージを生成できると判定した場合は、前記メッセージを発話してユーザと新たな会話を開始し、
前記メッセージを生成できないと判定した場合は、前記一時停止させた発話を再開させるとともに、前記音声認識停止動作を再開させる、
ロボットの制御方法。 A method of controlling a robot that interacts with a user by a robot control unit,
The robot controller is
Monitoring whether the user speaks during the utterance of the robot,
When the user's utterance is detected, the utterance is paused and the voice recognition stop operation indicating that the voice recognition process is stopped by moving at least the movable part of the robot, which is performed during the utterance of the robot, is paused. Let
Get the voice that the user utters,
Voice recognition processing is performed on the acquired user voice,
Determining whether a message corresponding to the result of the voice recognition process can be generated;
If it is determined that the message can be generated, utter the message to start a new conversation with the user,
When it is determined that the message cannot be generated, the speech that has been paused is resumed and the speech recognition stop operation is resumed.
Robot control method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017085336A JP2018185362A (en) | 2017-04-24 | 2017-04-24 | Robot and control method of the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017085336A JP2018185362A (en) | 2017-04-24 | 2017-04-24 | Robot and control method of the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018185362A true JP2018185362A (en) | 2018-11-22 |
Family
ID=64355801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017085336A Pending JP2018185362A (en) | 2017-04-24 | 2017-04-24 | Robot and control method of the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018185362A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020230784A1 (en) * | 2019-05-13 | 2020-11-19 | 株式会社Preferred Networks | Control device, robot, control method, and control program |
JP2020201322A (en) * | 2019-06-06 | 2020-12-17 | 株式会社日立製作所 | Guide robot system and conversation generation method |
WO2021093526A1 (en) * | 2019-11-12 | 2021-05-20 | 苏州宝时得电动工具有限公司 | Land-based autonomous mobile robot, and notification sound control method |
WO2021117441A1 (en) * | 2019-12-10 | 2021-06-17 | ソニーグループ株式会社 | Information processing device, control method for same, and program |
JP2021117580A (en) * | 2020-01-23 | 2021-08-10 | 株式会社ミクシィ | Information processing device and program |
JP2022529868A (en) * | 2019-04-29 | 2022-06-27 | グーグル エルエルシー | Motorized computing device that autonomously adjusts device location and / or interface orientation according to automated assistant requests |
WO2022172393A1 (en) * | 2021-02-12 | 2022-08-18 | 三菱電機株式会社 | Voice recognition device and voice recognition method |
JP7413521B2 (en) | 2019-10-28 | 2024-01-15 | エーアイ スピーチ カンパニー リミテッド | How to switch human-machine interaction mode |
-
2017
- 2017-04-24 JP JP2017085336A patent/JP2018185362A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022529868A (en) * | 2019-04-29 | 2022-06-27 | グーグル エルエルシー | Motorized computing device that autonomously adjusts device location and / or interface orientation according to automated assistant requests |
US11727931B2 (en) | 2019-04-29 | 2023-08-15 | Google Llc | Motorized computing device that autonomously adjusts device location and/or orientation of interfaces according to automated assistant requests |
JP7386876B2 (en) | 2019-04-29 | 2023-11-27 | グーグル エルエルシー | A motorized computing device that autonomously adjusts device location and/or interface orientation according to automated assistant requests. |
WO2020230784A1 (en) * | 2019-05-13 | 2020-11-19 | 株式会社Preferred Networks | Control device, robot, control method, and control program |
JP2020201322A (en) * | 2019-06-06 | 2020-12-17 | 株式会社日立製作所 | Guide robot system and conversation generation method |
JP7413521B2 (en) | 2019-10-28 | 2024-01-15 | エーアイ スピーチ カンパニー リミテッド | How to switch human-machine interaction mode |
WO2021093526A1 (en) * | 2019-11-12 | 2021-05-20 | 苏州宝时得电动工具有限公司 | Land-based autonomous mobile robot, and notification sound control method |
WO2021117441A1 (en) * | 2019-12-10 | 2021-06-17 | ソニーグループ株式会社 | Information processing device, control method for same, and program |
JP2021117580A (en) * | 2020-01-23 | 2021-08-10 | 株式会社ミクシィ | Information processing device and program |
JP7436804B2 (en) | 2020-01-23 | 2024-02-22 | 株式会社Mixi | Information processing device and program |
WO2022172393A1 (en) * | 2021-02-12 | 2022-08-18 | 三菱電機株式会社 | Voice recognition device and voice recognition method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018185362A (en) | Robot and control method of the same | |
US10930303B2 (en) | System and method for enhancing speech activity detection using facial feature detection | |
US11922095B2 (en) | Device selection for providing a response | |
JP7038210B2 (en) | Systems and methods for interactive session management | |
JP6505748B2 (en) | Method for performing multi-mode conversation between humanoid robot and user, computer program implementing said method and humanoid robot | |
CN102903362A (en) | Integrated local and cloud based speech recognition | |
JP7119896B2 (en) | Communication robot and communication robot control program | |
US20180154513A1 (en) | Robot | |
US20180009118A1 (en) | Robot control device, robot, robot control method, and program recording medium | |
EP3459608A1 (en) | Robot | |
JP4622384B2 (en) | ROBOT, ROBOT CONTROL DEVICE, ROBOT CONTROL METHOD, AND ROBOT CONTROL PROGRAM | |
JP2009241166A (en) | Robot remote operation system | |
JPWO2019187834A1 (en) | Information processing equipment, information processing methods, and programs | |
JP2024023193A (en) | Information processing device and information processing method | |
JP5206151B2 (en) | Voice input robot, remote conference support system, and remote conference support method | |
JP2023095918A (en) | Robot, method for controlling robot, and program | |
WO2016206647A1 (en) | System for controlling machine apparatus to generate action | |
JP2007155986A (en) | Voice recognition device and robot equipped with the same | |
JP2004234631A (en) | System for managing interaction between user and interactive embodied agent, and method for managing interaction of interactive embodied agent with user | |
Oliveira et al. | An active audition framework for auditory-driven HRI: Application to interactive robot dancing | |
US20220288791A1 (en) | Information processing device, information processing method, and program | |
Martinson et al. | Improving human-robot interaction through adaptation to the auditory scene | |
JP7176244B2 (en) | Robot, robot control method and program | |
JP5324956B2 (en) | Road guidance robot | |
JP2022529868A (en) | Motorized computing device that autonomously adjusts device location and / or interface orientation according to automated assistant requests |