JP2022006610A - Social capacity generation device, social capacity generation method, and communication robot - Google Patents
Social capacity generation device, social capacity generation method, and communication robot Download PDFInfo
- Publication number
- JP2022006610A JP2022006610A JP2020108946A JP2020108946A JP2022006610A JP 2022006610 A JP2022006610 A JP 2022006610A JP 2020108946 A JP2020108946 A JP 2020108946A JP 2020108946 A JP2020108946 A JP 2020108946A JP 2022006610 A JP2022006610 A JP 2022006610A
- Authority
- JP
- Japan
- Prior art keywords
- person
- information
- social
- unit
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title abstract description 19
- 241000282414 Homo sapiens Species 0.000 claims abstract description 48
- 230000009471 action Effects 0.000 claims abstract description 44
- 230000033001 locomotion Effects 0.000 claims abstract description 34
- 230000002996 emotional effect Effects 0.000 claims abstract description 28
- 230000003993 interaction Effects 0.000 claims abstract description 21
- 230000001149 cognitive effect Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 29
- 230000006399 behavior Effects 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 11
- 230000008921 facial expression Effects 0.000 claims description 10
- 241000282412 Homo Species 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 description 17
- 239000003795 chemical substances by application Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000002787 reinforcement Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000000052 comparative effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 230000019771 cognition Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 206010016531 fetishism Diseases 0.000 description 1
- 239000003205 fragrance Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002889 sympathetic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Landscapes
- Toys (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、社会的能力生成装置、社会的能力生成方法、およびコミュニケーションロボットに関する。 The present invention relates to a social ability generation device, a social ability generation method, and a communication robot.
今日、スマートスピーカーやコミュニケーションロボットの開発が進められている。このようなシステムでは、指示に応じて、照明をオン状態またはオフ状態にする、カレンダーにアクセスする、メールを読む、予定を設定するなどの機能に焦点を当てられている。このようなシステムでは、指示の入力が、例えばタッチパネルによる選択、音声による定められているコマンド等に限られており、人との関係を構築することが困難である。 Today, smart speakers and communication robots are being developed. Such systems focus on features such as turning lights on or off, accessing calendars, reading emails, and setting appointments, depending on instructions. In such a system, the input of instructions is limited to, for example, selection by a touch panel, commands defined by voice, and the like, and it is difficult to build a relationship with a person.
このため、人との関係を持てるシステムが望まれている。例えば特許文献1には、コンパニオンデバイスと人と対話に対して、人をデバイスとの対話や操作に関わらせるシステムが提案されている。特許文献1に記載の技術では、コンパニオンデバイスが、利用者との発話や行動を検出して、移動、グラフィック、音、光、芳香を通して表現し、親交的存在を提供する。
Therefore, a system that can have a relationship with people is desired. For example,
しかしながら、特許文献1に記載の技術では、ロボットと人との間に感情的な繋がりを形成することが困難であった。
However, with the technique described in
本発明は、上記の問題点に鑑みてなされたものであって、ロボットと人との間に感情的な繋がりを形成することができる社会的能力生成装置、社会的能力生成方法、およびコミュニケーションロボットを提供することを目的とする。 The present invention has been made in view of the above problems, and is a social ability generation device, a social ability generation method, and a communication robot capable of forming an emotional connection between a robot and a human. The purpose is to provide.
(1)上記目的を達成するため、本発明の一態様に係る社会的能力生成装置は、人に関する人情報を取得し、取得した前記人情報から人に関する特徴情報を抽出し、コミュニケーションを行うコミュニケーション装置と人の間に生じる働きかけを認知し、人と人との間に生じる働きかけを認知する認知手段と、抽出された前記人に関する特徴情報を用いて、人の感情的な相互作用をマルチモーダルによって学習する学習手段と、学習された前記人の感情的な相互作用情報に基づいて、行動を生成する動作生成手段と、を備える。 (1) In order to achieve the above object, the social ability generation device according to one aspect of the present invention acquires human information about a person, extracts characteristic information about a person from the acquired personal information, and communicates. Multimodal human emotional interaction using cognitive means that recognize the action that occurs between the device and the person and the action that occurs between the person and the extracted characteristic information about the person. It is provided with a learning means learned by the above and a motion generating means for generating an action based on the learned emotional interaction information of the person.
(2)また、本発明の一態様に係る社会的能力生成装置において、前記学習手段は、暗黙的な報酬と、明示的な報酬とを用いて学習を行い、前記暗黙的な報酬は、前記人に関する特徴情報を用いて、マルチモーダルによって学習された報酬であり、前記明示的な報酬は、前記動作生成手段によって生成された前記コミュニケーション装置の前記人に対する行動を評価した結果に基づく報酬であるようにしてもよい。 (2) Further, in the social ability generation device according to one aspect of the present invention, the learning means performs learning using an implicit reward and an explicit reward, and the implicit reward is the above-mentioned. It is a reward learned by multimodal using characteristic information about a person, and the explicit reward is a reward based on the result of evaluating the behavior of the communication device generated by the motion generating means with respect to the person. You may do so.
(3)また、本発明の一態様に係る社会的能力生成装置において、音響信号を収音する収音部と、利用者を含む画像を撮影する撮影部と、を備え、前記認知手段は、収音された前記音響信号に対して音声認識処理を行って音声に関する特徴情報を抽出し、撮影された画像に対して画像処理を行って画像に含まれる人行動に関する特徴情報を抽出し、前記人に関する特徴情報は、前記音声に関する特徴情報と、前記人行動に関する特徴情報を含み、前記音声に関する特徴情報は、音声信号、声の大きさの情報、声の抑揚の情報、発話の意味のうち少なくとも1つであり、前記人行動に関する特徴情報は、人の表情情報、人が行ったジェスチャー情報、人の頭部姿勢情報、人の顔向き情報、人の視線情報、および人と人との間の距離のうち少なくとも1つであるようにしてもよい。 (3) Further, in the social ability generation device according to one aspect of the present invention, the cognitive means includes a sound collecting unit that collects an acoustic signal and a photographing unit that captures an image including a user. The picked-up acoustic signal is subjected to voice recognition processing to extract characteristic information related to voice, and the captured image is subjected to image processing to extract characteristic information related to human behavior contained in the image. The characteristic information related to a person includes the characteristic information related to the voice and the characteristic information related to the human behavior, and the characteristic information related to the voice includes a voice signal, information on the volume of the voice, information on the intonation of the voice, and the meaning of the speech. The characteristic information related to the person's behavior is at least one, and the characteristic information regarding the person's behavior includes the person's facial expression information, the person's gesture information, the person's head posture information, the person's face orientation information, the person's line of sight information, and the person and person. It may be at least one of the distances between them.
(4)また、本発明の一態様に係る社会的能力生成装置において、前記学習手段は、社会規範、社会構成要素、心理学的な知見、および人文学的な知見を用いて学習するようにしてもよい。 (4) Further, in the social ability generation device according to one aspect of the present invention, the learning means is to learn using social norms, social components, psychological findings, and humanistic findings. You may.
(5)上記目的を達成するため、本発明の一態様に係る社会的能力生成方法は、認知手段が、人に関する人情報を取得し、取得した前記人情報から人に関する特徴情報を抽出し、コミュニケーションを行うコミュニケーション装置と人の間に生じる働きかけを認知し、人と人との間に生じる働きかけを認知し、学習手段が、抽出された前記人に関する特徴情報を用いて、人の感情的な相互作用をマルチモーダルによって学習し、動作生成手段が、学習された前記人の感情的な相互作用情報に基づいて、行動を生成する。 (5) In order to achieve the above object, in the social ability generation method according to one aspect of the present invention, the cognitive means acquires human information about a person, extracts characteristic information about a person from the acquired human information, and then extracts the characteristic information about the person. The communication device that communicates and the action that occurs between people are recognized, the action that occurs between people is recognized, and the learning means uses the extracted characteristic information about the person to make the person emotional. The interaction is learned in a multimodal manner, and the action generation means generates an action based on the learned emotional interaction information of the person.
(6)上記目的を達成するため、本発明の一態様に係るコミュニケーションロボットは、人に関する人情報を取得し、取得した前記人情報から人に関する特徴情報を抽出し、コミュニケーションを行うコミュニケーション装置と人の間に生じる働きかけを認知し、人と人との間に生じる働きかけを認知する認知手段と、抽出された前記人に関する特徴情報を用いて、人の感情的な相互作用をマルチモーダルによって学習する学習手段と、学習された前記人の感情的な相互作用情報に基づいて、行動を生成する動作生成手段と、を備える。 (6) In order to achieve the above object, the communication robot according to one aspect of the present invention acquires human information about a person, extracts characteristic information about a person from the acquired human information, and communicates with a communication device and a person. Multimodal learning of human emotional interactions using cognitive means that recognize the actions that occur between people and the actions that occur between people and the extracted characteristic information about the person. It includes a learning means and a motion generating means for generating an action based on the learned emotional interaction information of the person.
(7)また、本発明の一態様に係るコミュニケーションロボットは、表示部を備え、前記動作生成手段は、人に対して肯定的な感情を最大化させる振る舞いをさせることで人との関係を良い状態を維持する画像を生成し、生成した前記画像を前記表示部に表示させるようにしてもよい。 (7) Further, the communication robot according to one aspect of the present invention is provided with a display unit, and the motion generating means has a good relationship with a person by causing the person to behave in a way that maximizes positive emotions. An image that maintains the state may be generated, and the generated image may be displayed on the display unit.
(1)~(7)によれば、ロボットと人との間に感情的な繋がりを形成することができる。
(2)によれば、多くの教示データを用いずに学習を行うことができる。
(3)によれば、人の反応に基づく多くの情報を取得できる。
(4)によれば、社会的にインテリジェントで、社会シナリオをナビゲートすることができる。
(7)によれば、人に対して肯定的な感情を最大化させる振る舞いをさせることができ、人との関係を良い状態を維持することができる。
According to (1) to (7), an emotional connection can be formed between a robot and a human.
According to (2), learning can be performed without using a lot of teaching data.
According to (3), a lot of information based on human reaction can be obtained.
According to (4), it is socially intelligent and can navigate social scenarios.
According to (7), it is possible to make a person behave in a way that maximizes positive emotions, and it is possible to maintain a good relationship with the person.
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings used in the following description, the scale of each member is appropriately changed in order to make each member recognizable.
<概要>
図1は、本実施形態に係るコミュニケーションロボット1のコミュニケーション例を示す図である。図1のように、コミュニケーションロボット1は、個人または複数の人2とのコミュニケーションを行う。コミュニケーションは、主に対話g11と仕草g12(動作)でる。動作は、実際の動作に加え、表示部に表示される画像によって表現する。また、コミュニケーションロボット1は、利用者にインターネット回線等を介して電子メールが送信された際、電子メールを受信し電子メールが届いたことと内容を知らせる(g14)。また、コミュニケーションロボット1は、例えば電子メールに返答が必要な場合に、アドバイスが必要か利用者とコミュニケーションをとって提案g14を行う。コミュニケーションロボット1は、返答を送信する(g15)。また、コミュニケーションロボット1は、例えば利用者の予定に合わせて、予定日時や場所に応じた場所の天気予報の提示g19を行う。
<Overview>
FIG. 1 is a diagram showing a communication example of the
本実施形態では、ロボットと人との間に感情的な繋がりを形成ことができるようにロボットの社会的能力を生成して、例えば人の反応や行動に応じて人とのコミュニケーションを行う。そして、本実施形態では、人とロボットが感情のレベルで共感してコミュニケーションを行うようにする。本実施形態では、いわば人とペットとの間のコミュニケーションのようなものを、社会規範等も学習することで実現する。本実施形態では、コミュニケーションにおいて、利用者の社会的背景(バックグラウンド)、人と人とのやりとり等を学習することで、上記を実現する。 In the present embodiment, the social ability of the robot is generated so that an emotional connection can be formed between the robot and the human, and communication with the human is performed according to, for example, the reaction or behavior of the human. Then, in the present embodiment, the human and the robot sympathize with each other at the emotional level and communicate with each other. In this embodiment, so to speak, communication between a person and a pet is realized by learning social norms and the like. In the present embodiment, the above is realized by learning the social background (background) of the user, the interaction between people, and the like in communication.
<コミュニケーションロボット1の構成例>
次に、コミュニケーションロボット1の構成例を説明する。
図2は、本実施形態に係るコミュニケーションロボット1の構成例を示すブロック図である。図2のように、コミュニケーションロボット1は、受信部101、撮影部102、収音部103、センサ104、社会的能力生成装置100、記憶部106、第1データベース107、第2データベース109、表示部111、スピーカー112、アクチュエータ113、および送信部114を備えている。
<Configuration example of
Next, a configuration example of the
FIG. 2 is a block diagram showing a configuration example of the
社会的能力生成装置100は、認知部105(認知手段)、学習部108(学習手段)、および動作生成部110(動作生成手段)を備えている。
動作生成部110は、画像生成部1101、音声生成部1102、駆動部1103、送信情報生成部1104を備えている。
The social
The
<コミュニケーションロボット1の機能、動作>
次に、コミュニケーションロボット1の各機能部の機能、動作について、図1を参照して説明する。
<Functions and operations of
Next, the functions and operations of each functional unit of the
受信部101は、ネットワークを介して、例えばインターネットから情報(例えば電子メール、ブログ情報、ニュース、天気予報等)を取得し、取得した情報を認知部105と動作生成部110に出力する。または、受信部101は、例えば第1データベース107がクラウド上にある場合、クラウド上の第1データベース107から情報を取得し、取得した情報を認知部105に出力する。
The receiving
撮影部102は、例えばCMOS(Complementary Metal Oxide Semiconductor;相補性金属酸化膜半導体)撮影素子、またはCCD(Charge Coupled Device;電荷結合素子)撮影素子等である。撮影部102は、撮影した画像(人に関する情報である人情報;静止画、連続した静止画、動画)を認知部105と動作生成部110に出力する。なお、コミュニケーションロボット1は、撮影部102を複数備えていてもよい。この場合、撮影部102は、例えばコミュニケーションロボット1の筐体の前方と後方に取り付けられていてもよい。
The photographing
収音部103は、例えば複数のマイクロホンで構成されるマイクロホンアレイである。収音部103は、複数のマイクロホンが収音した音響信号(人情報)を認知部105と動作生成部110に出力する。なお、収音部103は、マイクロホンが収音した音響信号それぞれを、同じサンプリング信号でサンプリングされて、アナログ信号からデジタル信号に変換した後、認知部105に出力するようにしてもよい。
The
センサ104は、例えば環境の温度を検出する温度センサ、環境の照度を検出する照度センサ、コミュニケーションロボット1の筐体の傾きを検出するジャイロセンサ、コミュニケーションロボット1の筐体の動きを検出する加速度センサ、気圧を検出する気圧センサ等である。センサ104は、検出した検出値を認知部105と動作生成部110に出力する。
The
記憶部106は、例えば、認知部105が認識すべき項目、認識の際に用いられる各種値(しきい値、定数)、認識を行うためのアルゴリズム等を記憶する。
The
第1データベース107は、例えば、音声認識の際に用いられる言語モデルデータベースと音響モデルデータベースと対話コーパスデータベースと音響特徴量、画像認識の際に用いられる比較用画像データベースと画像特徴量、等を格納する。なお、各データ、特徴量については後述する。なお、第1データベース107は、クラウド上に置かれていてもよく、ネットワークを介して接続されていてもよい。
The
第2データベース109は、学習時に用いられる、例えば社会構成要素、社会規範、社会的慣習、心理学、人文学等、人と人との関係性に関するデータを格納する。なお、第2データベース109は、クラウド上に置かれていてもよく、ネットワークを介して接続されていてもよい。
The
社会的能力生成装置100は、コミュニケーションロボット1と人の間に生じる働きかけ、または複数人の間に生じる働きかけを認知し、認知した内容と第2データベース109が格納するデータとに基づいて人間の感情的な相互作用を学習する。そして、社会的能力生成装置100は、学習した内容からコミュニケーションロボット1の社会的能力を生成する。なお、社会能力とは、例えば、人と人との間で行われる対話、行動、理解、共感等、人と人との間の相互作用を行う能力である。
The social
認知部105は、コミュニケーションロボット1と人の間に生じる働きかけ、または複数人の間に生じる働きかけを認知する。認知部105は、撮影部102が撮影した画像、収音部103が収音した音響信号、およびセンサ104が検出した検出値を取得する。なお、認知部105は、受信部101が受信した情報を取得するようにしてもよい。認知部105は、取得した情報と、第1データベース107に格納されているデータに基づいて、コミュニケーションロボット1と人の間に生じる働きかけ、または複数人の間に生じる働きかけを認知する。なお、認知方法については後述する。認知部105は、認知した認知結果(音に関する特徴量、人行動に関する特徴情報)を学習部108に出力する。なお、認知部105は、撮影部102が撮影した画像に対して周知の画像処理(例えば、二値化処理、エッジ検出処理、クラスタリング処理、画像特徴量抽出処理等)を行う。認知部105は、取得した音響信号に対して、周知の音声認識処置(音源同定処理、音源定位処理、雑音抑圧処理、音声区間検出処理、音源抽出処理、音響特徴量算出処理等)を行う。認知部105は、認知された結果に基づいて、取得された音響信号から対象の人または動物または物の音声信号(または音響信号)を抽出して、抽出した音声信号(または音響信号)を認識結果として動作生成部110に出力する。認知部105は、認知された結果に基づいて、取得された画像から対象の人または物の画像を抽出して、抽出した画像を認識結果として動作生成部110に出力する。
The
学習部108は、認知部105が出力する認知結果と、第2データベース109に格納されているデータを用いて、人間の感情的な相互作用を学習する。学習部108は、学習によって生成されたモデルを記憶する。なお、学習方法については後述する。
The
動作生成部110は、受信部101から受信された情報、撮影部102から撮影された画像、収音部103から収音された音響信号、および認知部105から認識結果を取得する。動作生成部110は、学習された結果と、取得された情報とに基づいて、利用者に対する行動(発話、仕草、画像)を生成する。
The
画像生成部1101は、学習された結果と、取得された情報とに基づいて、表示部111に表示させる出力画像(静止画、連続した静止画、または動画)を生成し、生成した出力画像を表示部111に表示させる。これにより、動作生成部110は、表示部111に表情のようなアニメーションを表示させ、利用者へ提示する画像を提示させて、利用者とのコミュニケーションを取る。表示される画像は、人の目の動きに相当する画像、人の口の動きに相当する画像、利用者の目的地などの情報(地図、天気図、天気予報、お店や行楽地の情報等)、インターネット回線を介して利用者にTV電話してきた人の画像等である。
The
音声生成部1102は、学習された結果と、取得された情報とに基づいて、スピーカー112に出力させる出力音声信号を生成し、生成した出力音声信号をスピーカー112に出力させる。これにより、動作生成部110は、スピーカー112から音声信号を出力させて、利用者とのコミュニケーションを取る。出力される音声信号は、コミュニケーションロボット1に割り当てられている声による音声信号、インターネット回線を介して利用者にTV電話してきた人の音声信号等である。
The
駆動部1103は、学習された結果と、取得された情報とに基づいて、アクチュエータ113を駆動するための駆動信号を生成し、生成した駆動信号でアクチュエータ113を駆動する。これにより、動作生成部110は、コミュニケーションロボット1の動作を制御することで感情等を表現させ、利用者とのコミュニケーションを取る。
The
送信情報生成部1104は、学習された結果と、取得された情報とに基づいて、例えば利用者がネットワークを会話している他の利用者へ、利用者が送信したい送信情報(音声信号、画像)を生成し、生成した送信情報を送信部114から送信させる。
The transmission
表示部111は、液晶画像表示装置、または有機EL(Electro Luminescence)画像表示装置等である。表示部111は、社会的能力生成装置100の画像生成部1101が出力する出力画像を表示する。
The
スピーカー112は、社会的能力生成装置100の音声生成部1102が出力する出力音声信号を出力する。
The
アクチュエータ113は、社会的能力生成装置100の駆動部1103が出力する駆動信号に応じて動作部を駆動する。
The
送信部114は、社会的能力生成装置100の送信情報生成部1104が出力する送信情報を、ネットワークを介して送信先に送信する。
The
<コミュニケーションロボット1の外形例>
次に、コミュニケーションロボット1の外形例を説明する。
図3は、本実施形態に係るコミュニケーションロボット1の外形例を示す図である。図3の正面図g101、側面図g102の例では、コミュニケーションロボット1は3つの表示部111(111a、111b、111c)を備えている。また図3の例では、撮影部102aは表示部111aの上部に取り付けられ、撮影部102bは表示部111bの上部に取り付けられている。表示部111a、111bは、人の目に相当し、かつ画像情報を提示する。スピーカー112は、筐体120の人の口に相当する画像を表示する表示部111cの近傍に取り付けられている。収音部103は、筐体120に取り付けられている。
<Outline example of
Next, an external example of the
FIG. 3 is a diagram showing an outline example of the
また、コミュニケーションロボット1は、ブーム121を備える。ブーム121は、筐体120に可動部131を介して可動可能に取り付けられている。ブーム121には、水平バー122が可動部132を介して回転可能に取り付けられている。
また、水平バー122には、表示部111aが可動部133を介して回転可能に取り付けられ、表示部111bが可動部134を介して回転可能に取り付けられている。
なお、図3に示したコミュニケーションロボット1の外形は一例であり、これに限らない。
Further, the
Further, the
The outer shape of the
<第1データベースが格納するデータ>
次に、第1データベースが格納するデータ例を説明する。
言語モデルデータベースは、言語モデルを格納する。言語モデルは、任意の文字列について、それが日本語文等である確率を付与する確率モデルである。また、言語モデルは、例えば、Nグラムモデル、隠れマルコフモデル、最大エントロピーモデル等のいずれかである。
<Data stored in the first database>
Next, an example of data stored in the first database will be described.
The language model database stores the language model. The language model is a probability model that gives the probability that an arbitrary character string is a Japanese sentence or the like. The language model is, for example, an N-gram model, a hidden Markov model, a maximum entropy model, or the like.
音響モデルデータベースは、音源モデルを格納する。音源モデルは、収音された音響信号を音源同定するために用いるモデルである。 The acoustic model database stores the sound source model. The sound source model is a model used for identifying the sound source of the collected acoustic signal.
音響特徴量とは、収音された音響信号を高速フーリエ変換(Fast Fourier Transform)を行って周波数領域の信号に変換した後、算出された特徴量である。音響特徴量は、例えば、静的メル尺度対数スペクトル(MSLS:Mel-Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーを、所定時間(例えば、10ms)毎に算出される。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。 The acoustic feature amount is a feature amount calculated after the pickled acoustic signal is converted into a signal in the frequency domain by performing a fast Fourier transform (Fast Fourier Transform). The acoustic feature amount is calculated, for example, a static Mel-Scale Log Spectram (MSLS), a delta MSLS, and one delta power at predetermined time intervals (for example, 10 ms). The MSLS is obtained by using a spectral feature as a feature for speech recognition and performing an inverse discrete cosine transform on the MFCC (Mel Frequency Cepstrum Deficient).
対話コーパスデータベースは、対話コーパスを格納する。対話コーパスとは、コミュニケーションロボット1と利用者とが、対話を行う際に使用するコーパスであり、例えば対話内容に応じたシナリオである。
The dialogue corpus database stores the dialogue corpus. The dialogue corpus is a corpus used when the
比較用画像データベースは、例えばパターンマッチングの際に用いられる画像を格納する。パターンマッチングの際に用いられる画像は、例えば、利用者の画像、利用者の家族の画像、利用者のペットの画像、利用者の友人や知り合いの画像等を含む。 The comparison image database stores, for example, images used for pattern matching. The image used for pattern matching includes, for example, an image of a user, an image of a user's family, an image of a user's pet, an image of a user's friend or acquaintance, and the like.
画像特徴量は、例えば人物や物の画像から、周知の画像処理によって抽出された特徴量である。
なお、上述した例は一例であり、第1データベース107は他のデータを格納していてもよい。
The image feature amount is, for example, a feature amount extracted from an image of a person or an object by a well-known image process.
The above-mentioned example is an example, and the
<認知、学習、社会的能力の流れ>
次に、本実施形態の社会的能力生成装置100が行う認知と学習の流れについて説明する。図4は、本実施形態の社会的能力生成装置100が行う認知と学習と社会的能力の流れを示す図である。
<Flow of cognition, learning, and social ability>
Next, the flow of cognition and learning performed by the social
認識結果201は、認知部105によって認識された結果の一例である。認識結果201は、例えば対人関係、対人相互関係等である。
The
マルチモーダル学習、理解211は、学習部108によって行われる学習内容例である。学習方法212は、機械学習等である。また、学習対象213は、社会構成要素、社会模範、心理学、人文学等である。
The multimodal learning and
社会的能力221は、社会技能であり、例えば共感、個性化、適応性、情緒的アホーダンス等である。
<認識するデータ>
次に、認知部105が認識するデータ例を説明する。
図5は、本実施形態に係る認知部105が認識するデータ例を示す図である。本実施形態では、図5のように個人データ301と、対人関係データ351を認識する。
<Data to be recognized>
Next, an example of data recognized by the
FIG. 5 is a diagram showing an example of data recognized by the
個人データは、1人の中でおきる行動であり、撮影部102と収音部103によって取得されたデータと、取得されたデータに対して音声認識処理、画像認識処理等を行ったデータである。個人データは、例えば、音声データ、音声処理された結果である意味データ、声の大きさ、声の抑揚、発話された単語、表情データ、ジェスチャーデータ、頭部姿勢データ、顔向きデータ、視線データ、共起表現データ、生理的情報(体温、心拍数、脈拍数等)等である。なお、どのようなデータを用いるかは、例えばコミュニケーションロボット1の設計者が選択してもよい。この場合、例えば、実際の2人のコミュニケーションまたはデモンストレーションに対して、コミュニケーションロボット1の設計者が、コミュニケーションにおいて個人データのうち重要な特徴を設定するようにしてもよい。また、認知部105は、取得された発話と画像それぞれから抽出された情報に基づいて、個人データとして、利用者の感情を認知する。この場合、認知部105は、例えば声の大きさや抑揚、発話継続時間、表情等に基づいて認知する。そして本実施形態のコミュニケーションロボット1は、利用者の感情を良い感情を維持する、利用者との関係を良い関係を維持するように働きかけるように制御する。
Personal data is an action that occurs in one person, and is data acquired by the photographing
ここで、利用者の社会的背景(バックグラウンド)の認知方法例を説明する。
認知部105は、取得した発話と画像と第1データベース107が格納するデータとに基づいて、利用者の国籍、出身地等を推定する。認知部105は、取得した発話と画像と第1データベース107が格納するデータとに基づいて、利用者の起床時間、外出時間、帰宅時間、就寝時間等の生活スケジュールを抽出する。認知部105は、取得した発話と画像と生活スケジュールと第1データベース107が格納するデータとに基づいて、利用者の性別、年齢、職業、趣味、経歴、嗜好、家族構成、信仰している宗教、コミュニケーションロボット1に対する愛着度等を推定する。なお、社会的背景は変化する場合もあるため、コミュニケーションロボット1は、会話と画像と第1データベース107が格納するデータとに基づいて、利用者の社会的背景に関する情報を更新していく。なお、感情的な共有を可能とするために、社会的背景やコミュニケーションロボット1に対する愛着度は、年齢や性別や経歴等の入力可能なレベルに限らず、例えば、時間帯に応じた感情の起伏や話題に対する声の大きさや抑揚等に基づいて認知する。このように、認知部105は、利用者が自信で気づいていないことについても、日々の会話と会話時の表情等に基づいて学習していく。
Here, an example of how to recognize the social background of the user will be described.
The
対人関係データは、利用者と他の人との関係に関するデータである。このように対人関係データを用いることで、社会的なデータを用いることができる。対人関係のデータは、例えば、人と人との距離、対話している人同士の視線が交わっているか否か、声の抑揚、声の大きさ等である。人と人との距離は後述するように、対人関係によって異なる。例えば夫婦や友達であれば対人関係がL1であり、ビジネスマン同士の対人関係はL1よりも大きいL2である。 Interpersonal relationship data is data related to the relationship between a user and another person. By using interpersonal relationship data in this way, social data can be used. The interpersonal relationship data is, for example, the distance between people, whether or not the lines of sight of the people who are interacting with each other intersect, the intonation of the voice, the loudness of the voice, and the like. The distance between people depends on the interpersonal relationship, as will be described later. For example, in the case of a couple or a friend, the interpersonal relationship is L1, and the interpersonal relationship between businessmen is L2, which is larger than L1.
なお、例えば、実際の2人のコミュニケーションまたはデモンストレーションに対して、コミュニケーションロボット1の設計者が、コミュニケーションにおいて対人データのうち重要な特徴を設定するようにしてもよい。なお、このような個人データ、対人関係データ、利用者の社会的背景に関する情報は、第1データベース107または記憶部106に格納する。
For example, the designer of the
また、認知部105は、利用者が複数人の場合、例えば利用者とその家族の場合、利用者毎に個人データを収集して学習し、人毎に社会的背景を推定する。なお、このような社会的背景は、例えばネットワークと受信部101を介して取得してもよく、その場合、利用者が例えばスマートフォン等で自分の社会的背景を入力または項目を選択するようにしてもよい。
Further, the
ここで、対人関係データの認知方法例を説明する。
認知部105は、取得した発話と画像と第1データベース107が格納するデータとに基づいて、コミュニケーションが行われている人と人との距離(間隔)を推定する。認知部105は、取得した発話と画像と第1データベース107が格納するデータとに基づいて、コミュニケーションが行われている人の視線が交わっているか否かを検出する。認知部105は、取得した発話と第1データベース107が格納するデータとに基づいて、発話内容、声の大きさ、声の抑揚、受信した電子メール、送信した電子メール、送受信した電子メールの送受信先の相手に基づいて、友人関係、仕事仲間、親戚親子関係を推定する。
Here, an example of a method of recognizing interpersonal relationship data will be described.
The
なお、認知部105は、使用される初期状態において、第1データベース107が記憶するいくつかの社会的背景や個人データの初期値の組み合わせの中から、例えばランダムに1つを選択して、コミュニケーションを開始するようにしてもよい。そして、認知部105は、ランダムに選択した組み合わせによって生成された行動によって、利用者とのコミュニケーションが継続しにくい場合、別の組み合わせを選択しなおすようにしてもよい。
In the initial state in which the
<学習手順>
本実施形態では、認知部105によって認識された個人データ301と対人関係データ351と、第2データベース109が格納するデータを用いて、学習部108が学習を行う。
<Learning procedure>
In the present embodiment, the
ここで、社会的構成と社会規範について説明する。人々が社会的な相互作用に参加する空間において、例えば人と人とのキャリによって、対人関係が異なる。例えば、人との間隔が0~50cmの関係は親密(Intimate)な関係であり、人との間隔が50~1mの関係は個人的(Personal)な関係である。人との間隔が1~4mの関係は社会的(Social)な関係であり、人との間隔が4mの以上の関係は公的(Public)な関係である。このような社会規範は、学習時に、仕草や発話が社会規範に合致しているか否かを報酬(暗示的な報酬)として用いられる。 Here, the social structure and social norms will be explained. In a space where people participate in social interactions, interpersonal relationships differ, for example, depending on the carry between people. For example, a relationship with a person having a distance of 0 to 50 cm is an intimate relationship, and a relationship with a person having a distance of 50 to 1 m is a personal relationship. A relationship with a distance of 1 to 4 m from a person is a social relationship, and a relationship with a distance of 4 m or more from a person is a public relationship. At the time of learning, such social norms are used as rewards (suggestive rewards) as to whether or not gestures and utterances conform to social norms.
また、対人関係は、学習時に報酬の特徴量の設定によって、利用される環境や利用者に応じたものに設定するようにしてもよい。具体的には、ロボットが苦手な人には、あまり話しかけないようなルールとし、ロボットが好きな人には積極的に話しかけるルールに設定するなど、複数の親密度の設定を設けるようにしてもよい。そして、実環境において、利用者の発話と画像を処理した結果に基づいて、利用者が、どのタイプであるかを認知部105が認知して、学習部108がルールを選択するようにしてもよい。
Further, the interpersonal relationship may be set according to the environment to be used and the user by setting the feature amount of the reward at the time of learning. Specifically, even if you set multiple intimacy settings, such as setting a rule that does not talk much to people who are not good at robots and a rule that actively talks to people who like robots. good. Then, in the actual environment, the
また、人間のトレーナーは、コミュニケーションロボット1の行動を評価し、自分が知っている社会構成や規範に応じた報酬(暗示的な報酬)を提供するようにしてもよい。
Further, the human trainer may evaluate the behavior of the
<第2データベースが格納するデータ>
次に、第2データベースが格納するデータ例を説明する。
社会構成要素は、例えば、年齢、性別、職業、複数の人の間の関係(親子、夫婦、恋人、友達、知り合い、仕事仲間、ご近所の人、先生と生徒等)である。
<Data stored in the second database>
Next, an example of data stored in the second database will be described.
Social components are, for example, age, gender, occupation, relationships between multiple people (parents and children, couples, lovers, friends, acquaintances, colleagues, neighbors, teachers and students, etc.).
社会規範は、個人、複数の人の間のルールやマナーであり、年齢、性別、職業、複数の人の間の関係に応じた発話、仕草等が関連づけられている。 Social norms are rules and manners between individuals and multiple people, and are associated with utterances, gestures, etc. according to age, gender, occupation, and relationships between multiple people.
心理学に関するデータは、例えば、これまでの実験や検証で得られている知見(例えば母親と幼児との愛着関係、エディプスコンプレックス等のコンプレックス、条件反射、フェティシズム等)のデータである。 The data related to psychology are, for example, data of findings obtained by experiments and verifications so far (for example, attachment relationship between mother and infant, complex such as Oedipus complex, conditioned reflex, fetishism, etc.).
人文学に関するデータは、例えば宗教的なルール、慣習、国民性、地域性、国や地域における特徴的な行為や行動や発話等のデータである。例えば、日本人の場合は、同意の際に、言葉で言わずに頷くことで同意を表す等のデータである。また、人文学に関するデータは、例えば、国や地域によって、何を重要視し、何を優先するか等のデータである。 Data on the humanities are, for example, data on religious rules, customs, national character, regional character, characteristic acts, behaviors, and utterances in a country or region. For example, in the case of Japanese people, when consenting, the data is such that consent is expressed by nodding without saying it in words. In addition, the data on the humanities is, for example, data on what is emphasized and what is prioritized depending on the country or region.
図6は、比較例における生データを用いて深層強化学習を行うシステム例を示す図である。
比較例では、撮影された画像901と収音された音響信号901それぞれの生データ902を学習に用いる場合は、深層強化学習903を行う必要がある。この比較例のシステムは、実現が困難である。理由は、深層強化学習のための教示データを充分に集める必要があるが、集めるのが困難である。集めるのが困難な理由は、生データの中に必要な特徴が現れる回数が限られるためである。
FIG. 6 is a diagram showing an example of a system for performing deep reinforcement learning using raw data in a comparative example.
In the comparative example, when the
このため、本実施形態では、生データ(音声信号、画像)を学習に直接用いず、生データから特徴量を検出し、その特徴量を学習に用いることで深層強化学習では無く強化学習ですむ。 Therefore, in this embodiment, the raw data (voice signal, image) is not directly used for learning, but the feature amount is detected from the raw data and the feature amount is used for learning, so that reinforcement learning is required instead of deep reinforcement learning. ..
図7は、本実施形態に係る動作生成部110が用いるエージェント作成方法例を示す図である。
符号300が示す領域は、入力からエージェントを作成、出力(エージェント)までの流れを示す図である。
撮影部102が撮影した画像と収音部103が収音した情報310は、人(利用者、利用者の関係者、他人)に関する情報と、人の周りの環境情報である。撮影部102と収音部103によって取得された生データ302は、認知部105に入力される。
FIG. 7 is a diagram showing an example of an agent creation method used by the
The area indicated by
The image taken by the photographing
認知部105は、入力された生データ302から複数の情報(声の大きさ、声の抑揚、発話内容、発話された単語、利用者の視線、利用者の頭部姿勢、利用者の顔向き、利用者の生態情報、人と人との距離、人と人との視線が交わっているか否か、等)を抽出、認識する。認知部105は、抽出、認識された複数の情報を利用して、例えばニューラルネットワークを用いてマルチモーダル理解を行う。
認知部105は、例えば音声信号および画像の少なくとも1つに基づいて、個人を識別し、識別した個人に識別情報(ID)を付与する。認知部105は、音声信号および画像の少なくとも1つに基づいて、識別した人ごとの動作を認知する。認知部105は、例えば画像に対して周知の画像処理と追跡処理を行って、識別した人の視線を認識する。認知部105は、例えば音声信号に対して音声認識処理(音源同定、音源定位、音源分離、発話区間検出、雑音抑圧等)を行って音声を認識する。認知部105は、例えば画像に対して周知の画像処理を行って、識別した人の頭部姿勢を認識する。認知部105は、例えば撮影された画像に2人が撮影されている場合、発話内容、撮影された画像における2人の間隔等に基づいて、対人関係を認知する。認知部105は、例えば撮影された画像と収音された音声信号それぞれを処理した結果に応じて、コミュニケーションロボット1と利用者との社会的な距離を認知する(推定する)。
The
The
学習部108は、深層学習では無く、強化学習304を行う。強化学習では、最も関連性の高い特徴(社会構成や社会規範を含む)を選択するように学習を行う。この場合は、マルチモーダル理解で用いた複数の情報を特徴として入力に用いる。学習部108の入力は、例えば、生データそのものか、名前ID(識別情報)、顔の影響、認識したジェスチャー、音声からのキーワード等である。学習部108の出力は、コミュニケーションロボットの行動である。出力される行動は、目的に応じて定義したいものであればよく、例えば、音声応答、ロボットのルーチン、ロボットが回転するための向きの角度などである。なお、マルツモーダル理解において、検出にニューラルネットワーク等を用いてもよい。この場合は、身体の異なるモダリティを用いて、人間の活動を検出しますようにしてもよい。また、どの特徴を用いるかは、例えばコミュニケーションロボット1の設計者が、予め選択するようにしてもよい。さらに、本実施形態では、学習時に、暗示的な報酬と明示的な報酬を用いることで、社会的な模範や社会構成概念を取り込むことができる。強化学習した結果が出力であり、エージェント305である。このように、本実施形態では、動作生成部110が用いるエージェントを作成する。
The
符号350が示す領域は、報酬の使用方法を示す図である。
暗黙的の報酬362は、暗黙的反応を学習するために使われる。この場合、生データ302には利用者の反応が含まれ、この生データ302を上述したマルチモーダル理解303する。学習部108は、暗黙的の報酬362と第2データベース109が格納する社会模範等を用いて、暗黙的反応システム372を生成する。なお、暗黙の報酬は、強化学習によって得られたものでもよく、人間が与えてもよい。また、暗黙的反応システムは、学習によって獲得されるモデルであってもよい。
The area indicated by
The
明示的反応の学習には、例えば人間のトレーナーが、コミュニケーションロボット1の行動を評価し、自分の知っている社会構成や社会規範に応じた報酬361を与える。なお、エージェントは、入力に対して、報酬が最大となる行動を採用する。これにより、エージェントは、ユーザーに対して肯定的な感情を最大化させるような振る舞い(発話、仕草)を採用する。
For learning the explicit reaction, for example, a human trainer evaluates the behavior of the
学習部108は、この明示的の報酬361を用いて、明示的反応システム371を生成する。なお、明示的反応システムは、学習によって獲得されるモデルであってもよい。なお、明示的な報酬は、利用者が、コミュニケーションロボット1の行動を評価して与えるようにしてもよく、利用者の発話や行動(仕草、表情等)に基づいて、コミュニケーションロボット1が、例えば利用者が望んでいた行動を取れたか否か等に基づいて報酬を推定するようにしてもよい。
学習部108は、動作時、これらの学習モデルを用いてエージェント305を出力する。
The
The
なお、本実施形態では、利用者の反応である明示的な報酬を、暗示的な報酬より優先する。この理由は、利用者の反応の方が、コミュニケーションにおいては信頼度が高いためである。 In this embodiment, the explicit reward, which is the reaction of the user, is prioritized over the implicit reward. The reason for this is that the user's reaction is more reliable in communication.
<処理手順例>
次に、処理手順例を説明する。図8は、本実施形態に係る社会的能力生成処理の手順例を示すフローチャートである。
<Processing procedure example>
Next, an example of the processing procedure will be described. FIG. 8 is a flowchart showing a procedure example of the social capacity generation process according to the present embodiment.
(ステップS11)認識部105は、撮影部102が撮影した画像と、収音部103が収音した音響信号を取得する。
(Step S11) The
(ステップS12)認識部105は、音響信号から音声に関する特徴情報を認識または検出あるいは抽出し、画像から人に関する特徴情報を認識または検出あるいは抽出する。なお、音声に関する特徴情報は、音声信号、声の大きさの情報、声の抑揚の情報、発話の意味のうち少なくとも1つである。人に関する特徴情報は、人の表情情報、人が行ったジェスチャー情報、人の頭部姿勢情報、人の顔向き情報、人の視線情報のうち少なくとも1つである。
(Step S12) The
(ステップS13)認知部105は、取得した情報と、第1データベース107に格納されているデータに基づいて、コミュニケーションロボット1と人の間に生じる働きかけ、または複数人の間に生じる働きかけを認知する。
(Step S13) The
(ステップS14)学習部108は、認知部105が出力する認知結果と、第2データベース109に格納されているデータを用いて、人間の感情的な相互作用を学習する。
(Step S14) The
(ステップS15)動作生成部110は、学習された結果と、取得された情報とに基づいて、利用者に対する行動(発話、仕草、画像)を生成する。
(Step S15) The
<コミュニケーションロボット1と人とのコミュニケーション>
次に、コミュニケーションロボット1と人とのコミュニケーション例を説明する。
コミュニケーションロボット1の発話のタイミングは、初期値として、例えば帰宅時、起床時等に設定しておく。そして、コミュニケーションを繰り返していくことで、コミュニケーションロボット1が発話を開始するタイミングを学習していくようにしてもよい。
あるいは、コミュニケーションロボット1は、利用者の発話や行動に応じて、発話を開始するようにしてもよい。この場合、コミュニケーションロボット1は、スマートスピーカー等で採用されているコマンドに応じて会話を開始するのではなく、例えば、利用者がコミュニケーションロボット1に話しかけていることや利用者の表情や顔向き(顔がコミュニケーションロボット1を見ている等)や部屋の明かりが点灯した等を認知して会話を開始する。また、コミュニケーションロボット1は、例えば、利用者の発話内容、利用者の表情等を認知して会話を終了する。そして、コミュニケーションロボット1は、利用者の社会的背景(含む年齢、性別)、およびコミュニケーションロボット1に対する愛着等に応じて、発話の開始タイミングと終了タイミングを切り替えるようにしてもよい。
<Communication between
Next, an example of communication between the
The timing of the utterance of the
Alternatively, the
コミュニケーションロボット1と利用者のコミュニケーション例を、図9~図12を用いて説明する。
図9は、本実施形態に係るコミュニケーションロボット1と利用者のコミュニケーション例を示す図である。図9の例は、利用者の帰宅時に、コミュニケーションロボット1が話しかけ、利用者との会話が行われている様子を示している。コミュニケーションの際、コミュニケーションロボット1は、人との関係を良い状態を維持するように行動(発話、仕草、画像提示)する。なお、コミュニケーションロボット1は、駆動部1103とアクチュエータ113によってブーム水平バー等を駆動してジェスチャーや仕草を制御する。
An example of communication between the
FIG. 9 is a diagram showing an example of communication between the
図10と図11は、本実施形態に係るコミュニケーションロボット1と利用者のコミュニケーション時に表示部に表示される画像例を示す図である。
図10の例は、表示部111aと111bに愛着を表すハートマークを表示し、表示部111cに笑っている口の画像に相当する画像を表示した例である。
図11の例は、予定日の場所をイメージするイラストと、当日の天気予報を提示し、スピーカー112によって天気予報を発話して読み上げている例である。なお、図11の例では、場所をイメージするイラストを提示する例を示したが、コミュニケーションロボット1は、予定の場所の画像(写真または動画)を受信部101を介して取得し、取得した画像を提示するようにしてもよい。
このように、表示部111には、人に対して肯定的な感情を最大化させる振る舞いをさせることで人との関係を良い状態を維持する画像を表示させる。これにより、本実施形態によれば、人に対して肯定的な感情を最大化させる振る舞いをさせることができ、人との関係を良い状態を維持することができる。
10 and 11 are diagrams showing an example of an image displayed on the display unit during communication between the
The example of FIG. 10 is an example in which a heart mark indicating attachment is displayed on the
The example of FIG. 11 is an example in which an illustration imagining the place of the scheduled date and the weather forecast of the day are presented, and the weather forecast is spoken and read aloud by the
In this way, the
図12は、本実施形態に係る利用者の友達とのコミュニケーション時のコミュニケーションロボット1によるコミュニケーション例を示す図である。図12の例では、コミュニケーションロボット1は、利用者との対話によって、利用者の友達にメッセージを送信する。利用者の友達が所持する端末200は、このメッセージを受信して表示部に表示させる(g301)。そして、端末200は、利用者の友達の操作結果に応じて、利用者への返信g302をコミュニケーションロボット1へ送信する。コミュニケーションロボット1は、端末200から受信した情報に基づいて、利用者の友達からの返信を動作(発話、仕草、画像提示)で提示する。
FIG. 12 is a diagram showing an example of communication by the
上述した例では、コミュニケーションロボット1は、音声と動作(仕草)と画像を用いて利用者とのコミュニケーションを行う例を説明したが、これに限らない。利用者とのコミュニケーションを行うために、コミュニケーションロボット1が用いる出力手段は、2つ以上用いることが好ましく、音声と動作(仕草)と画像のうち2つ以上であればよい。または、出力手段は、例えばテキストと動作、テキストと音声等であってもよい。また、コミュニケーションロボット1に対して、利用者に飽きさせないため、出力手段は複数であることが好ましい。
In the above-mentioned example, the
また、コミュニケーションロボット1への利用者からの入力は、上述した音声と画像に限らない。利用者の行動を取得できればよく、他の情報も取得するようにしてもよい。他の情報とは、例えば、利用者がコミュニケーションロボット1に触れた、叩いた等の接触情報等である。
Further, the input from the user to the
以上のように本実施形態では、コミュニケーションロボット1と人の間に生じる働きかけ、もしくは複数人の間に生じる働きかけをコミュニケーションロボット1が認知するようにした。そして、本実施形態では、認知した内容から人間の感情的な相互作用を機械学習と心理学、社会的慣習、人文科学などから学習し、学習した内容からロボットの社会的能力を生成するようにした。また、本実施形態では、学習において、暗示的な報酬に加え得て明示的な報酬を用いるようにした。
As described above, in the present embodiment, the
これにより本実施形態によれば、人との感情的な相互作用に基づいたロボットの社会的スキルの生成を行うことが出来る。本実施形態によれば、人々との関係を育む家のソーシャルロボット、エージェントを提供することができる。本実施形態によれば、機械と人間の共感的なコミュニケーションと相互作用を生むことができる。本実施形態によれば、ペットフレンドのような「マシン」フレンドの概念またはロボットの友達を提供することができる。本実施形態によれば、社会的にインテリジェントで、社会シナリオをナビゲートできるマシンを提供することができる。これにより、本実施形態によれば、ロボットと人との間に感情的な繋がりを形成することができる。
また、本実施形態によれば、収音された音響信号、撮影された画像それぞれから特徴を抽出して、抽出した特徴を用いて強化学習させるようにしたので、生データを用いた深層機械学習のように多くの教示データを用いずに学習を行わせることができる。
Thereby, according to the present embodiment, it is possible to generate social skills of the robot based on emotional interaction with humans. According to this embodiment, it is possible to provide a social robot and an agent of a house that fosters relationships with people. According to this embodiment, it is possible to generate sympathetic communication and interaction between machines and humans. According to this embodiment, it is possible to provide a concept of a "machine" friend such as a pet friend or a robot friend. According to this embodiment, it is possible to provide a machine that is socially intelligent and can navigate social scenarios. Thereby, according to the present embodiment, it is possible to form an emotional connection between the robot and the human.
Further, according to the present embodiment, features are extracted from each of the picked-up acoustic signal and the captured image, and reinforcement learning is performed using the extracted features. Therefore, deep machine learning using raw data is performed. It is possible to perform learning without using a lot of teaching data as in.
<変形例>
なお、実施形態では、コミュニケーションを行う装置の例としてコミュニケーションロボット1を説明するが、本実施形態は、他の装置、例えば車載のナビゲーション装置、スマートフォン、タブレット端末等にも適用可能である。例えばスマートフォンに適用する場合は、スマートフォンの表示部上に、例えば図3のようなコミュニケーションロボット1の静止画を表示させ、音声によるコミュニケーションを主とするようにしてもよい。または、スマートフォンの表示部上に、コミュニケーションロボット1の仕草をアニメーションで表示させるようにしてもよい。
<Modification example>
In the embodiment, the
図13は、本実施形態のコミュニケーションロボットを車両内のカーナビケーションシステム300に適用した例を示す図である。なお、カーナビケーションシステム300は、スマートフォン、タブレット端末等であってもよい。
カーナビケーションシステム300は、表示部にコミュニケーションロボットの画像を表示させる。この場合、コミュニケーションロボットは、エージェントとして動作する。そして、エージェントは、カーナビケーションシステム300が備える撮影部、収音部、表示部、スピーカー等を用いて、コミュニケーションロボット1の機能(除く駆動部、アクチュエータ等)を実現する。
FIG. 13 is a diagram showing an example in which the communication robot of the present embodiment is applied to the
The
カーナビケーションシステム300に適用する場合は、表示部に表示されるコミュニケーションロボットは静止画であってもアニメーションであってもよい。この場合、エージェントは、少なくとも音声による対話を応答として行う。この場合であっても、コミュニケーションの際、エージェントは、人との関係を良い状態を維持するように行動(発話、仕草、画像提示)する。
When applied to the
図14は、本実施形態に係るカーナビゲーションに適用した場合に家庭内の各種装置との接続例を示す図である。なお、図14においても、カーナビケーションシステム300は、スマートフォン、タブレット端末等であってもよい。なお、カーナビケーションシステム300は通信部(受信部と送信部)を備え、自宅の各装置はネットワークを介して接続されているとする。カーナビゲーションシステム300に適用されているエージェントは、利用者とのコミュニケーションに応じて、例えば駐車場のシャッターの開閉401、炊飯器の動作開始指示402、エアーコンの動作開始指示や温度等の設定指示403、部屋等の電灯の点灯開始指示404、および自動芝刈り機の動作開始指示405等を行う。なお、エージェントは、単に動作指示を行うのではなく、利用者との発話に応じて、何時に帰宅予定であるか、利用者の好みの温度設定、利用者の好みの部屋の明るさ設定をコミュニケーション伊予って学習し、これらを学習した結果にも基づいて、帰宅時にこれらの作業が終了しているように、それぞれ最適なタイミングや設定指示を行うようにしてもよい。
FIG. 14 is a diagram showing an example of connection with various devices in the home when applied to the car navigation system according to the present embodiment. In addition, also in FIG. 14, the
なお、本発明における社会的能力生成装置100の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより社会的能力生成装置100が行う全ての処理または一部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
A program for realizing all or part of the functions of the social
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Further, the program may be transmitted from a computer system in which this program is stored in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the "transmission medium" for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the above program may be for realizing a part of the above-mentioned functions. Further, a so-called difference file (difference program) may be used, which can realize the above-mentioned function in combination with a program already recorded in the computer system.
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1…コミュニケーションロボット、101…受信部、102…撮影部、103…収音部、104…センサ、100…社会的能力生成装置、106…記憶部、107…第1データベース、109…第2データベース、111…表示部、112…スピーカー、113…アクチュエータ、114…送信部、105…認知部、108…学習部、110…動作生成部、1101…画像生成部、1102…音声生成部、1103…駆動部、1104…送信情報生成部 1 ... Communication robot, 101 ... Receiver unit, 102 ... Imaging unit, 103 ... Sound pickup unit, 104 ... Sensor, 100 ... Social ability generator, 106 ... Storage unit, 107 ... First database, 109 ... Second database, 111 ... Display unit, 112 ... Speaker, 113 ... Actuator, 114 ... Transmission unit, 105 ... Cognitive unit, 108 ... Learning unit, 110 ... Motion generation unit, 1101 ... Image generation unit, 1102 ... Sound generation unit, 1103 ... Drive unit 1,104 ... Transmission information generation unit
Claims (7)
抽出された前記人に関する特徴情報を用いて、人の感情的な相互作用をマルチモーダルによって学習する学習手段と、
学習された前記人の感情的な相互作用情報に基づいて、行動を生成する動作生成手段と、
を備える社会的能力生成装置。 Acquires human information about a person, extracts characteristic information about a person from the acquired person information, recognizes the action that occurs between the communication device that communicates and the person, and recognizes the action that occurs between people. Cognitive means and
A learning means for learning the emotional interaction of a person by multimodal using the extracted characteristic information about the person, and
An action generation means that generates an action based on the learned emotional interaction information of the person,
A social capacity generator equipped with.
前記暗黙的な報酬は、前記人に関する特徴情報を用いて、マルチモーダルによって学習された報酬であり、
前記明示的な報酬は、前記動作生成手段によって生成された前記コミュニケーション装置の前記人に対する行動を評価した結果に基づく報酬である、
請求項1に記載の社会的能力生成装置。 The learning means learns using an implicit reward and an explicit reward.
The implicit reward is a reward learned by multimodal using the characteristic information about the person.
The explicit reward is a reward based on the result of evaluating the behavior of the communication device generated by the motion generating means with respect to the person.
The social ability generation device according to claim 1.
利用者を含む画像を撮影する撮影部と、を備え、
前記認知手段は、収音された前記音響信号に対して音声認識処理を行って音声に関する特徴情報を抽出し、撮影された画像に対して画像処理を行って画像に含まれる人行動に関する特徴情報を抽出し、
前記人に関する特徴情報は、前記音声に関する特徴情報と、前記人行動に関する特徴情報を含み、
前記音声に関する特徴情報は、音声信号、声の大きさの情報、声の抑揚の情報、発話の意味のうち少なくとも1つであり、
前記人行動に関する特徴情報は、人の表情情報、人が行ったジェスチャー情報、人の頭部姿勢情報、人の顔向き情報、人の視線情報、および人と人との間の距離のうち少なくとも1つである、
請求項1または請求項2に記載の社会的能力生成装置。 A sound collecting part that collects acoustic signals and
Equipped with a shooting unit that shoots images including users,
The cognitive means performs voice recognition processing on the picked-up acoustic signal to extract characteristic information related to voice, and performs image processing on the captured image to perform characteristic information on human behavior included in the image. Extracted,
The characteristic information regarding the person includes the characteristic information regarding the voice and the characteristic information regarding the human behavior.
The characteristic information related to voice is at least one of a voice signal, voice loudness information, voice intonation information, and the meaning of utterance.
The characteristic information related to human behavior is at least one of a person's facial expression information, a person's gesture information, a person's head posture information, a person's face orientation information, a person's line of sight information, and a distance between people. One,
The social ability generation device according to claim 1 or 2.
社会規範、社会構成要素、心理学的な知見、および人文学的な知見を用いて学習する、
請求項1から請求項3のいずれか1項に記載の社会的能力生成装置。 The learning means is
Learn using social norms, social components, psychological and humanistic findings,
The social ability generation device according to any one of claims 1 to 3.
学習手段が、抽出された前記人に関する特徴情報を用いて、人の感情的な相互作用をマルチモーダルによって学習し、
動作生成手段が、学習された前記人の感情的な相互作用情報に基づいて、行動を生成する、
社会的能力生成方法。 The cognitive means acquires human information about a person, extracts characteristic information about the person from the acquired human information, recognizes the action that occurs between the communication device that communicates and the person, and occurs between the person. Recognize the work,
The learning means multimodally learns the emotional interaction of a person using the extracted characteristic information about the person.
The motion generation means generates an action based on the learned emotional interaction information of the person.
How to generate social ability.
抽出された前記人に関する特徴情報を用いて、人の感情的な相互作用をマルチモーダルによって学習する学習手段と、
学習された前記人の感情的な相互作用情報に基づいて、行動を生成する動作生成手段と、
を備えるコミュニケーションロボット。 Acquires human information about a person, extracts characteristic information about a person from the acquired person information, recognizes the action that occurs between the communication device that communicates and the person, and recognizes the action that occurs between people. Cognitive means and
A learning means for learning the emotional interaction of a person by multimodal using the extracted characteristic information about the person, and
An action generation means that generates an action based on the learned emotional interaction information of the person,
Communication robot equipped with.
前記動作生成手段は、人に対して肯定的な感情を最大化させる振る舞いをさせることで人との関係を良い状態を維持する画像を生成し、生成した前記画像を前記表示部に表示させる、
請求項6に記載のコミュニケーションロボット。 Equipped with a display
The motion generating means generates an image that maintains a good relationship with a person by causing the person to behave in a way that maximizes positive emotions, and displays the generated image on the display unit.
The communication robot according to claim 6.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020108946A JP7425681B2 (en) | 2020-06-24 | 2020-06-24 | Social ability generation device, social ability generation method, and communication robot |
EP21829758.8A EP4144425A4 (en) | 2020-06-24 | 2021-06-22 | Behavior control device, behavior control method, and program |
US17/923,921 US20230173683A1 (en) | 2020-06-24 | 2021-06-22 | Behavior control device, behavior control method, and program |
PCT/JP2021/023545 WO2021261474A1 (en) | 2020-06-24 | 2021-06-22 | Behavior control device, behavior control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020108946A JP7425681B2 (en) | 2020-06-24 | 2020-06-24 | Social ability generation device, social ability generation method, and communication robot |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022006610A true JP2022006610A (en) | 2022-01-13 |
JP7425681B2 JP7425681B2 (en) | 2024-01-31 |
Family
ID=80110329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020108946A Active JP7425681B2 (en) | 2020-06-24 | 2020-06-24 | Social ability generation device, social ability generation method, and communication robot |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7425681B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007125645A (en) | 2005-11-04 | 2007-05-24 | Hitachi Ltd | Robot movement editing system |
JP5815458B2 (en) | 2012-04-20 | 2015-11-17 | 日本電信電話株式会社 | Reward function estimation device, reward function estimation method, and program |
US20180117762A1 (en) | 2015-08-14 | 2018-05-03 | Sphero, Inc. | Data exchange system |
JP6517762B2 (en) | 2016-08-23 | 2019-05-22 | ファナック株式会社 | A robot system that learns the motion of a robot that a human and a robot work together |
JP2020089947A (en) | 2018-12-06 | 2020-06-11 | ソニー株式会社 | Information processing device, information processing method, and program |
KR20190100090A (en) | 2019-08-08 | 2019-08-28 | 엘지전자 주식회사 | Robot and method for recognizing mood using same |
-
2020
- 2020-06-24 JP JP2020108946A patent/JP7425681B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP7425681B2 (en) | 2024-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100384B2 (en) | Intelligent device user interactions | |
US11126825B2 (en) | Natural language interaction for smart assistant | |
US20220284896A1 (en) | Electronic personal interactive device | |
CN110998725B (en) | Generating a response in a dialog | |
KR102334942B1 (en) | Data processing method and device for caring robot | |
US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
US11200902B2 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
US20190251701A1 (en) | System and method for identifying a point of interest based on intersecting visual trajectories | |
US20190251350A1 (en) | System and method for inferring scenes based on visual context-free grammar model | |
US20230173683A1 (en) | Behavior control device, behavior control method, and program | |
WO2019221894A1 (en) | Intelligent device user interactions | |
WO2023017732A1 (en) | Storytelling information creation device, storytelling robot, storytelling information creation method, and program | |
JP7425681B2 (en) | Social ability generation device, social ability generation method, and communication robot | |
WO2020087534A1 (en) | Generating response in conversation | |
WO2023017745A1 (en) | Communication robot, communication robot control method, and program | |
WO2023017753A1 (en) | Learning device, learning method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7425681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |