JP2023131824A - Information processing device, control program, and control method - Google Patents
Information processing device, control program, and control method Download PDFInfo
- Publication number
- JP2023131824A JP2023131824A JP2022036795A JP2022036795A JP2023131824A JP 2023131824 A JP2023131824 A JP 2023131824A JP 2022036795 A JP2022036795 A JP 2022036795A JP 2022036795 A JP2022036795 A JP 2022036795A JP 2023131824 A JP2023131824 A JP 2023131824A
- Authority
- JP
- Japan
- Prior art keywords
- user
- operator
- expression
- avatar
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000010365 information processing Effects 0.000 title claims abstract description 34
- 230000014509 gene expression Effects 0.000 claims abstract description 95
- 230000008921 facial expression Effects 0.000 claims description 185
- 230000033001 locomotion Effects 0.000 claims description 31
- 230000001815 facial effect Effects 0.000 claims description 26
- 230000005540 biological transmission Effects 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 19
- 230000002349 favourable effect Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 4
- 101150110219 moody gene Proteins 0.000 claims 2
- 230000002040 relaxant effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 81
- 238000010586 diagram Methods 0.000 description 25
- 238000004891 communication Methods 0.000 description 17
- 230000004886 head movement Effects 0.000 description 16
- 210000003128 head Anatomy 0.000 description 15
- 238000013500 data storage Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000037303 wrinkles Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002889 sympathetic effect Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
この発明は、情報処理装置、制御プログラムおよび制御方法に関し、特にたとえば、通信可能に接続される端末の利用者と音声で対話する操作者が使用する、情報処理装置、制御プログラムおよび制御方法に関する。 The present invention relates to an information processing device, a control program, and a control method, and more particularly to an information processing device, a control program, and a control method used by an operator who interacts by voice with a user of a communicably connected terminal.
この種の従来の情報処理装置の一例が特許文献1に開示されている。特許文献1に開示される情報処理システムでは、ユーザが商品に関することや、ショッピングサイトの利用方法に関することについて相談したい場合、ユーザは呼出ボタンを押下することで、オペレータを呼び出して相談することが可能である。ユーザ端末とオペレータ端末が接続されると、オペレータ端末には、ユーザ端末に表示されたウェブサイトが現在の表示態様で表示される。また、ユーザ端末には、ウェブサイトに、オペレータの画像またはこれに同期したアバター画像が表示される。したがって、オペレータは、ユーザに対して身振り手振りを用いながら接客する。 An example of this type of conventional information processing device is disclosed in Patent Document 1. In the information processing system disclosed in Patent Document 1, when a user wants to consult about a product or how to use a shopping site, the user can press a call button to call and consult an operator. It is. When the user terminal and the operator terminal are connected, the website displayed on the user terminal is displayed on the operator terminal in the current display mode. Furthermore, an image of the operator or an avatar image synchronized therewith is displayed on the website on the user terminal. Therefore, the operator serves the user while using gestures and gestures.
上記の特許文献1では、ショッピングサイト画面以外のウェブサイト画面や、他の個人情報など、ユーザが意図しない画面がオペレータ端末に映り込むことがない。つまり、オペレータ端末には、ユーザの画像またはこれに同期したアバター画像が表示されることが無く、オペレータはユーザまたはこれに同期したアバターの顔を見ることができないため、対話し難い。このため、ユーザの画像をオペレータ端末に表示することが考えられるが、ユーザのプライバシーを侵害する虞がある。また、ユーザの画像に同期したアバター画像を表示することも考えられるが、オペレータがより対話し易くするためには改善の余地がある。 In Patent Document 1 mentioned above, screens that are not intended by the user, such as website screens other than the shopping site screen and other personal information, are not reflected on the operator terminal. In other words, the user's image or the avatar image synchronized therewith is not displayed on the operator terminal, and the operator cannot see the face of the user or the avatar synchronized therewith, making it difficult to interact with the operator. For this reason, it is conceivable to display the user's image on the operator terminal, but there is a risk that the user's privacy may be violated. It is also possible to display an avatar image synchronized with the user's image, but there is still room for improvement in order to make it easier for the operator to interact.
それゆえに、この発明の主たる目的は、新規な、情報処理装置、制御プログラムおよび制御方法を提供することである。 Therefore, the main object of the present invention is to provide a novel information processing device, control program, and control method.
また、この発明の他の目的は、相手と対話し易くすることができる、情報処理装置、制御プログラムおよび制御方法を提供することである。 Another object of the present invention is to provide an information processing device, a control program, and a control method that make it easier to interact with the other party.
第1の発明は、利用者と対話する操作者が発話した音声である操作者音声を検出する音声検出手段、操作者の顔画像を撮影する撮影手段、音声検出手段によって操作者音声を検出している場合に、撮影手段によって撮影された操作者の顔画像に基づいて操作者の表情を認識する第1認識手段、第1認識手段によって認識された操作者の表情が所定の第1の表情である場合に、所定の第1の表情と同じ表情を表現する、対話の相手である利用者に対応するアバターの画像を表示装置に表示するアバター表示手段、および音声検出手段によって検出された操作者音声を利用者が使用する利用者側端末に送信する送信手段を備える、情報処理装置である。 The first invention detects the operator's voice using a voice detecting means for detecting the operator's voice, which is the voice uttered by the operator who interacts with the user, a photographing means for photographing the face image of the operator, and a voice detecting means. a first recognition means for recognizing the operator's facial expression based on a facial image of the operator photographed by the photographing means; the facial expression of the operator recognized by the first recognition means is a predetermined first facial expression; , an operation detected by the avatar display means for displaying on a display device an image of an avatar corresponding to the user who is the other party of the dialogue, expressing the same facial expression as the predetermined first facial expression, and the voice detection means. The information processing apparatus includes a transmitting means for transmitting user voice to a user terminal used by the user.
第2の発明は、第1の発明に従属し、所定の第1の表情は、微笑む表情および悲しい表情である。 A second invention is dependent on the first invention, and the predetermined first facial expressions are a smiling facial expression and a sad facial expression.
第3の発明は、第1または第2の発明に従属し、音声検出手段によって操作者音声を検出している場合に、操作者音声に基づいて頷きのタイミングであるかどうかを判断するタイミング判断手段、およびタイミング判断手段によって頷きのタイミングであることが判断された場合に、アバターに頷き動作を実行させるアバター制御手段をさらに備える。 A third invention is dependent on the first or second invention, and provides a timing judgment for determining whether or not it is time to nod based on the operator's voice when the operator's voice is detected by the voice detection means. The apparatus further includes avatar control means for causing the avatar to perform a nodding motion when the timing determining means determines that it is time to nod.
第4の発明は、第1から第3の発明までのいずれかに従属し、利用者側端末から送信された利用者の顔画像を受信する受信手段、および音声検出手段によって操作者音声を検出していない場合に、受信手段によって受信された利用者の顔画像に基づいて利用者の表情を認識する第2認識手段をさらに備え、アバター表示手段は、第2認識手段によって認識された利用者の表情が所定の第2の表情である場合に、所定の第2の表情と同じ表情を操作者に好意的に変更してアバターに表現させる。 A fourth invention is dependent on any one of the first to third inventions, and detects operator voice by a receiving means for receiving a user's face image transmitted from a user side terminal and a voice detecting means. The avatar display means further includes a second recognition means for recognizing the user's facial expression based on the user's facial image received by the receiving means when the avatar display means recognizes the facial expression of the user recognized by the second recognition means. When the facial expression of is a predetermined second facial expression, the same facial expression as the predetermined second facial expression is changed favorably by the operator and the avatar is made to express the same facial expression.
第5の発明は、第4の発明に従属し、所定の第2の表情は、微笑む表情および不機嫌な表情であり、第2認識手段は、利用者の微笑む表情および不機嫌な表情の度合をさらに認識し、アバター表示手段は、利用者の表情が微笑む表情である場合に、微笑みの度合を強調してアバターに表現させ、利用者の表情が不機嫌な表情である場合に、不機嫌の度合を緩和してアバターに表現させる。 A fifth invention is dependent on the fourth invention, wherein the predetermined second expression is a smiling expression and a displeased expression, and the second recognition means further determines the degree of the user's smiling expression and displeased expression. The avatar display means emphasizes the degree of smile and causes the avatar to express it when the user's facial expression is a smiling expression, and reduces the degree of displeasure when the user's facial expression is a displeased expression. and have the avatar express it.
第6の発明は、第1から第3の発明までのいずれかに従属し、利用者側端末から送信された利用者の表情を受信する受信手段をさらに備え、アバター表示手段は、音声検出手段によって操作者音声を検出していない場合に、受信手段によって受信された利用者の表情が所定の第2の表情である場合に、所定の第2の表情と同じ表情を操作者に好意的に変更してアバターに表現させる。 A sixth invention is dependent on any one of the first to third inventions, and further comprises a receiving means for receiving the user's facial expression transmitted from the user side terminal, and the avatar displaying means is a voice detecting means. If the user's facial expression received by the receiving means is a predetermined second facial expression when the operator's voice is not detected by Change it and let the avatar express it.
第7の発明は、第6の発明に従属し、所定の第2の表情は、微笑む表情および不機嫌な表情であり、受信手段は、利用者の微笑む表情および不機嫌な表情の度合をさらに受信し、アバター表示手段は、利用者の表情が微笑む表情である場合に、微笑みの度合を強調してアバターに表現させ、利用者の表情が不機嫌な表情である場合に、不機嫌の度合を緩和してアバターに表現させる。 A seventh invention is dependent on the sixth invention, wherein the predetermined second expression is a smiling expression and a displeased expression, and the receiving means further receives the degree of the user's smiling expression and displeased expression. When the user's facial expression is a smiling expression, the avatar display means emphasizes the degree of smile and causes the avatar to express it, and when the user's facial expression is a displeased expression, the avatar display means reduces the degree of displeasure. Let the avatar express it.
第8の発明は、第1から第5までのいずれかに従属し、受信手段によって受信された利用者の顔画像に基づいて利用者の視線を検出する視線検出手段をさらに備え、アバター表示手段は、視線検出手段によって検出された利用者の視線に合わせてアバターの視線を設定し、音声検出手段によって操作者音声を検出していない場合に、視線検出手段によって検出された利用者の視線が正面を向いている時間が第1所定時間を経過すると、利用者の視線に関係無く、アバターの視線を第2所定時間逸らす。 An eighth invention is dependent on any one of the first to fifth aspects, further comprising a line of sight detection means for detecting the user's line of sight based on the user's face image received by the receiving means, and avatar display means. sets the avatar's line of sight to match the user's line of sight detected by the line of sight detection means, and when the voice detection means does not detect the operator's voice, the user's line of sight detected by the line of sight detection means When the avatar faces forward for a first predetermined time period, the avatar's line of sight is averted for a second predetermined time period, regardless of the user's line of sight.
第9の発明は、第6または第7の発明に従属し、受信手段は利用者の視線をさらに受信し、アバター表示手段は、受信した利用者の視線に合わせてアバターの視線を設定し、音声検出手段によって操作者音声を検出していない場合に、視線検出手段によって検出された利用者の視線が正面を向いている時間が第1所定時間を経過すると、利用者の視線に関係無く、アバターの視線を第2所定時間逸らす。 A ninth invention is dependent on the sixth or seventh invention, wherein the receiving means further receives the user's line of sight, and the avatar display means sets the avatar's line of sight in accordance with the received user's line of sight, When the voice detecting means does not detect the operator's voice, if the time during which the user's line of sight detected by the line of sight detection means is facing forward has passed the first predetermined time, regardless of the user's line of sight, Avert the avatar's line of sight for a second predetermined period of time.
第10の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、利用者と対話する操作者が発話した音声である操作者音声を検出する音声検出ステップ、操作者の顔画像を撮影する撮影ステップ、音声検出ステップにおいて操作者音声を検出している場合に、撮影ステップにおいて撮影した操作者の顔画像に基づいて操作者の表情を認識する認識ステップ、認識ステップにおいて認識した操作者の表情が所定の表情である場合に、所定の表情と同じ表情を表現する、対話の相手である利用者に対応するアバターの画像を表示装置に表示するアバター表示ステップ、および音声検出ステップにおいて検出した操作者音声を利用者が使用する利用者側端末に送信する送信ステップを実行させる、制御プログラムである。 A tenth invention is a control program executed by an information processing device, which includes a voice detection step for detecting an operator voice, which is a voice uttered by an operator interacting with a user, in a processor of the information processing device, and an operation. a recognition step for recognizing the facial expression of the operator based on the facial image of the operator photographed in the photographing step when the operator's voice is detected in the photographing step of photographing a facial image of the operator; an avatar displaying step of displaying, when the facial expression of the operator recognized in step is a predetermined facial expression, an image of an avatar that expresses the same facial expression as the predetermined facial expression and corresponds to the user who is the other party of the dialogue; This is a control program that executes a transmitting step of transmitting the operator's voice detected in the voice detecting step to a user terminal used by the user.
第11の発明は、情報処理装置の制御方法であって、(a)利用者と対話する操作者が発話した音声である操作者音声を検出するステップ、(b)操作者の顔画像を撮影するステップ、(c)ステップ(a)において操作者音声を検出している場合に、撮影ステップにおいて撮影した操作者の顔画像に基づいて操作者の表情を認識するステップ、(d)ステップ(c)において認識した操作者の表情が所定の表情である場合に、所定の表情と同じ表情を表現する、対話の相手である利用者に対応するアバターの画像を表示装置に表示するステップ、および(e)ステップ(a)において検出した操作者音声を利用者が使用する利用者側端末に送信するステップを含む、制御方法である。 An eleventh invention is a method for controlling an information processing device, comprising: (a) detecting operator voice, which is voice uttered by an operator interacting with a user; (b) photographing a face image of the operator. (c) when the operator voice is detected in step (a), recognizing the facial expression of the operator based on the facial image of the operator photographed in the photographing step; (d) step (c) If the facial expression of the operator recognized in ) is a predetermined facial expression, displaying on a display device an image of an avatar corresponding to the user who is the other party of the interaction and expressing the same facial expression as the predetermined facial expression; e) A control method including the step of transmitting the operator voice detected in step (a) to a user-side terminal used by a user.
この発明によれば、対話の相手である利用者と対話し易くすることができる。 According to this invention, it is possible to facilitate dialogue with the user who is the other party of the dialogue.
この発明の上述の目的、その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above objects, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
<第1実施例>
図1を参照して、この第1実施例の情報処理システム10は利用者側端末12を含み、利用者側端末12は、ネットワーク14を介して、操作者側端末16およびサーバ18に通信可能に接続される。
<First example>
Referring to FIG. 1, an
なお、この第1実施例では、1台の利用者側端末12および1台の操作者側端末16を示すが、実際には、複数台の利用者側端末12および複数台の操作者側端末16が設けられ、後述するように、1台の利用者側端末12と、この1台の利用者側端末12からの要求に応じてサーバ18によって選択された1台の操作者側端末16の間でチャットまたはトークの処理が行われる。
Although this first embodiment shows one
利用者側端末12は、サーバ18によって提供される所定のサービスを利用する利用者によって使用され、操作者側端末16は、利用者に応対する操作者によって使用される。
The
利用者側端末12は、情報処理装置であり、一例として、汎用のスマートフォンであり、ブラウザ機能を備えている。他の例では、利用者側端末12として、タブレットPC、ノート型PCまたはデスクトップ型PCなどの他の汎用の端末を用いることもできる。
The
ネットワーク14は、インターネットを含むIP網(または、IPネットワーク)と、このIP網にアクセスするためのアクセス網(または、アクセスネットワーク)とから構成される。アクセス網としては、公衆電話網、携帯電話網、有線LAN、無線LAN、CATV(Cable Television)等を用いることができる。
The
操作者側端末16は、利用者側端末12とは異なる他の情報処理装置であり、一例として、汎用のノート型PCまたはデスクトップ型PCであるが、他の例では、スマートフォンまたはタブレットPCなどの他の汎用の端末を用いることもできる。
The operator-
サーバ18は、利用者側端末12および操作者側端末16とは異なるその他の情報処理装置であり、汎用のサーバを用いることができる。したがって、サーバ18は、CPU18aおよび記憶部(HDD、ROMおよびRAMを含む)18bを備えるとともに、通信インタフェースおよび入出力インタフェースなどのコンポーネントを備える。第1実施例では、サーバ18は、所定のサービスを提供するサイトを運営する。
The
図2は図1に示した利用者側端末12の電気的な構成を示すブロック図である。図2に示すように、利用者側端末12はCPU20を含み、CPU20は、内部バスを介して、記憶部22、通信インタフェース(以下、「通信I/F」という)24および入出力インタフェース(以下、「入出力I/F」という)26に接続される。
FIG. 2 is a block diagram showing the electrical configuration of the
CPU20は、利用者側端末12の全体的な制御を司る。ただし、CPU20に代えて、CPU機能、GPU(Graphics Processing Unit)機能等の複数の機能を含むSoC(System-on-a-chip)を設けてもよい。記憶部22は、HDD、ROMおよびRAMを含む。ただし、HDDに代えて、または、HDD、ROMおよびRAMに加えて、SSD等の不揮発性メモリが使用されてもよい。
The
通信I/F24は、CPU20の制御の下、ネットワーク14を介して、操作者側端末16およびサーバ18などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信I/F24としては、無線LANまたはBluetooth(登録商標)等の無線インタフェースを使用することもできる。
The communication I/
入出力I/F26には、入力装置28および表示装置30、マイク32およびスピーカ34が接続されている。入力装置28は、タッチパネルおよびハードウェアのボタンである。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。後述する操作者側端末16についても同様である。
An
ただし、利用者側端末12として、ノート型PCまたはデスクトップ型PCが用いられる場合には、入力装置28として、キーボードおよびコンピュータマウスが使用される。
However, when a notebook PC or a desktop PC is used as the
また、表示装置30は、LCDまたは有機EL表示装置である。上記のタッチパネルは、表示装置30の表示面上に設けられてもよいし、タッチパネルが表示装置30と一体的に形成されたタッチパネルディスプレイが設けられてもよい。このことは、後述する操作者側端末16についても同様である。
Further, the
入出力I/F26は、入力装置28から入力された操作データ(または、操作情報)をCPU20に出力するとともに、CPU20によって生成された画像データを表示装置30に出力して、画像データに対応する画面または画像を表示装置30に表示させる。ただし、外部のコンピュータ(たとえば、操作者側端末16またはサーバ18)から受信した画像データがCPU20によって出力される場合もある。
The input/output I/
また、入出力I/F26は、マイク32で検出された利用者の音声をデジタルの音声データに変換してCPU20に出力するとともに、CPU20によって出力される音声データをアナログの音声信号に変換してスピーカ34から出力させる。ただし、第1実施例では、CPU20から出力される音声データは、操作者側端末16から受信した音声データである。
In addition, the input/output I/
また、利用者側端末12は、センサインタフェース(センサI/F)36およびカメラ38を備えている。CPU20は、バスおよびセンサI/F36を介してカメラ38に接続される。カメラ38は、CCDまたはCMOSのような撮像素子を用いたカメラである。
The
なお、図2に示す利用者側端末12の電気的な構成は一例であり、限定される必要はない。
Note that the electrical configuration of the
また、利用者側端末12がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、第1実施例では、そのような通話は行わないため、図示は省略してある。このことは、後述する操作者側端末16がスマートフォンである場合についても同じである。
Furthermore, when the
図3は図1に示した操作者側端末16の電気的な構成を示すブロック図である。図3に示すように、操作者側端末16はCPU50を含み、CPU50は、内部バスを介して、記憶部52、通信I/F54および入出力I/F56に接続される。
FIG. 3 is a block diagram showing the electrical configuration of the
CPU50は、操作者側端末16の全体的な制御を司る。ただし、CPU50に代えて、CPU機能、GPU機能等の複数の機能を含むSoCを設けてもよい。記憶部52は、HDD、ROMおよびRAMを含む。ただし、HDDに代えて、または、HDD、ROMおよびRAMに加えて、SSD等の不揮発性メモリが使用されてもよい。
The
通信I/F54は、CPU50の制御の下、ネットワーク14を介して、利用者側端末12およびサーバ18などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信I/F54としては、無線LANまたはBluetooth(登録商標)等の無線インタフェースを使用することもできる。
The communication I/
入出力I/F56には、入力装置58および表示装置60、マイク62およびスピーカ64が接続されている。マイク62およびスピーカ64は、操作者が利用者との間で音声通話するために使用するマイク付きのヘッドセットを構成する。
An
また、入力装置58としては、キーボードおよびコンピュータマウスが用いられる。ただし、操作者側端末16として、スマートフォンまたはタブレットPCが用いられる場合には、入力装置58として、タッチパネルおよびハードウェアのボタンが設けられる。また、表示装置60は、LCDまたは有機EL表示装置である。
Further, as the
入出力I/F56は、入力装置58から入力された操作データ(または、操作情報)をCPU50に出力するとともに、CPU50によって生成された画像データを表示装置60に出力して、画像データに対応する画面を表示装置60に表示させる。
The input/output I/
また、入出力I/F56は、マイク62で検出された操作者の音声をデジタルの音声データに変換してCPU50に出力するとともに、CPU50によって出力される音声データをアナログの音声信号に変換してスピーカ64から出力させる。ただし、第1実施例では、CPU50から出力される音声データは、利用者側端末12から受信した音声データである。
In addition, the input/output I/
また、操作者側端末16は、センサI/F66およびカメラ68を備えている。CPU50は、バスおよびセンサI/F66を介してカメラ68に接続される。カメラ68は、CCDまたはCMOSのような撮像素子を用いたカメラである。
Further, the
このような情報処理システム10では、利用者が利用者側端末12を使用して、サーバ18が提供する所定のサービスのウェブ画面100を見て、ショッピング等を行う。ウェブ画面100の前面には、操作者(オペレータ)とチャットまたはトークでコミュニケーションするためのボタン110およびボタン112が表示される。
In such an
ただし、ウェブ画面100は、ウェブブラウザを起動し、所定のURLを入力することにより、表示装置30に表示される。ウェブ画面100は、所定のサービスのウェブサイト(または、ウェブページ)の画面である。図4では、或るオンラインショッピングのウェブ画面100の例が示される。一例として、所定のサービスは、オンラインショッピングであるが、チャットまたはトークで、利用者の問い合わせに対して応対(応答)することができる、任意のオンラインサービスである。
However, the web screen 100 is displayed on the
また、ボタン110およびボタン112は、所定の条件を満たした場合に表示されるようにしてもよい。所定の条件は、利用者がボタン110およびボタン112の表示を指示したこと、利用者の操作が長時間(たとえば、30秒から数分)以上無いこと、表示装置30に表示中のウェブ画面100において同じ位置または似たような場所(近くの位置)を繰り返し指示または継続して指示していること、所定のサービスにおいて複数回(たとえば、3回)同じウェブ画面100に戻ってくることである。
Further, the
利用者がボタン110をオンすると、利用者にチャットサービスが提供され、利用者とサーバ18によって選択された操作者の間でチャットが行われる。つまり、利用者側端末12と操作者側端末16の間でテキストによるメッセージの送受信が行われる。チャットサービスは既に周知であり、また、本願発明の本質的な内容ではないため、説明を省略する。一例として、特開2020-86677号に開示されたチャットサービスを用いることができる。ただし、操作者が応対することに代えて、チャットボットが応対することもできる。
When the user turns on the
また、利用者がボタン112をオンすると、利用者はオンラインショッピングのサイトの利用方法および商品に関する問い合わせを、サーバ18によって選択された操作者に対して音声で行うことができる。
Further, when the user turns on the
この場合、操作者に対応するアバターの画像が利用者側端末12の表示装置30に表示される。一例として、操作者に対応するアバターの画像は、人間を模したキャラクタの顔を含む一部または全身の画像であり、ウェブ画面100の前面に表示される。また、操作者に対応するアバターの画像は、操作者の音声の出力に合せて動作される。アバターは、口を動かしたり、首を動かしたり、瞬きしたり、顔の表情を変えたりする。ただし、アバターの画像が、人間を模したキャラクタの上半身または全身の画像である場合には、アバターは、さらに、身振り手振りする。
In this case, an image of an avatar corresponding to the operator is displayed on the
なお、操作者に対応するアバターの画像の表示およびその制御は本願発明の本質的な内容ではなく、公知技術を採用することができるため、説明を省略する。 Note that the display of the image of the avatar corresponding to the operator and its control are not essential contents of the present invention, and a known technique can be adopted, so a description thereof will be omitted.
ただし、操作者に対応するアバターの画像を表示することに代えて、操作者の画像を表示するようにしてもよい。 However, instead of displaying the image of the avatar corresponding to the operator, an image of the operator may be displayed.
上述したような情報処理システム10においては、操作者は、利用者の映像を見ながら利用者と対話するか、利用者の映像を見ずに利用者と対話することが一般的である。
In the
前者の場合には、操作者は、利用者の映像を見ることができ、しかも、利用者の表情を認識することができるため、利用者と対話し易い。しかし、利用者の映像を表示するため、利用者のプライバシーを守るためには改善の余地がある。 In the former case, the operator can easily interact with the user because he or she can see the user's image and recognize the user's facial expressions. However, since the video of the user is displayed, there is room for improvement in order to protect the privacy of the user.
また、後者の場合には、利用者のプライバシーを守ることは出来ていると考えられるが、操作者は利用者の映像を見ることができないため、対話し難いという問題がある。 In the latter case, although it is considered that the user's privacy can be protected, there is a problem in that it is difficult for the operator to interact with the user because the operator cannot see the user's image.
したがって、第1実施例では、利用者のプライバシーを守りつつ、利用者と対話し易くするために、利用者に対応するアバターの画像を操作者側端末16の表示装置60に表示し、アバターの表情(第1実施例では、顔の表情)、アバターの視線およびアバターの動作を制御するようにしてある。
Therefore, in the first embodiment, in order to facilitate interaction with the user while protecting the user's privacy, an image of the avatar corresponding to the user is displayed on the
図5は、操作者側端末16の表示装置60に表示される、利用者に対応するアバターの画像210の一例を示す。図5に示すように、四角形の表示枠200内に、アバターの画像210が表示される。利用者に対応するアバターの画像210は、人間を模したキャラクタの顔を含む一部の画像である。より具体的には、アバターの画像210は、人間の頭部(顔を含む)、首および肩の一部の画像である。
FIG. 5 shows an example of an
ただし、アバターの画像210が、人間を模したキャラクタの上半身または全身の画像である場合には、アバターは、さらに、身振り手振りする。詳細な説明は省略するが、この場合、後述するように、アバターの表情を制御する場合には、身振り手振りも制御される。
However, if the
また、利用者側端末12の表示装置30に表示されたウェブ画面100と同じウェブ画面100を表示装置60に表示し、このウェブ画面100の前面に、表示枠200および利用者に対応するアバターの画像210が表示されるようにすることもできる。
In addition, a web screen 100 that is the same as the web screen 100 displayed on the
この場合、利用者側端末12の表示装置30に表示されているウェブサイトのURLと、ウィンドウサイズと、カーソルの位置座標を含む表示情報が、利用者側端末12においてボタン112がオンされたときにサーバ18に送信され、さらに、応対する操作者すなわち操作者側端末16が選択されたときに、サーバ18からこの操作者側端末16に送信される。ただし、表示情報は、通信が開始されてからトークが開始されるまでの間に、利用者側端末12から操作者側端末16に直接送信されてもよい。
In this case, display information including the website URL, window size, and cursor position coordinates displayed on the
アバターの画像210は、利用者が予め選択したアバターまたは操作者が予め選択したアバターについての画像である。利用者が予め選択したアバターについての画像が表示される場合には、アバターの種類が、利用者側端末12からサーバ18を介して、または、利用者側端末12から直接、操作者側端末16に通知される。
The
また、第1実施例では、操作者側端末16は、利用者に対応するアバターに、操作者に好意的な表情または共感する表情を表現させる。また、操作者側端末16は、利用者に対応するアバターを、操作者が喋り難い状況を回避するように動作させる。
Further, in the first embodiment, the
具体的には、操作者が発話していない場合には、操作者側端末16は、利用者の表情または利用者の視線および頭部の動きに基づいて、利用者に対応するアバターの表情および視線および頭部(首)の動きを制御する。ただし、一部の利用者の表情については、強調または緩和して利用者に対応するアバターに反映される。また、利用者に対応するアバターの視線は、利用者の視線とは関係無く制御される場合もある。
Specifically, when the operator is not speaking, the
第1実施例では、利用者の表情が微笑む表情である場合には、微笑みの度合を大きくして、利用者に対応するアバターに微笑む表情を表現させる。つまり、利用者の微笑みが強調されたアバターの画像210が表示される。また、利用者の表情が不機嫌な表情である場合には、不機嫌の度合を小さくして、利用者に対応するアバターに不機嫌な表情を表現させる。つまり、利用者の不機嫌さが緩和されたアバターの画像210が表示される。このように、利用者に対応するアバターの表情を制御することで、利用者の表情を好意的に変更した度合で利用者に対応するアバターを表現させる。
In the first embodiment, when the user's facial expression is a smiling expression, the degree of smiling is increased and the avatar corresponding to the user is made to express a smiling expression. In other words, an
微笑みが強調される度合(以下、「強調度合」)および不機嫌さが緩和される度合(以下、「緩和度合」)のパラメータ(以下、「設定パラメータ」という)については、操作者によって予め設定される。 The parameters (hereinafter referred to as "setting parameters") for the degree to which a smile is emphasized (hereinafter referred to as "emphasis degree") and the degree to which displeasure is alleviated (hereinafter referred to as "relaxation degree") are set in advance by the operator. Ru.
ただし、強調度合および緩和度合の各設定パラメータについては、自動的に設定されてもよい。この場合、一例として、利用者の微笑みの度合が低い場合には、強調度合が大きく設定され、利用者の微笑みの度合が高い場合には、強調度合が低く設定される。また、一例として、利用者の不機嫌さの度合が低い場合には、緩和度合が小さく設定され、利用者の不機嫌さの度合が高い場合には、緩和度合が大きく設定される。 However, each setting parameter of the degree of emphasis and the degree of relaxation may be automatically set. In this case, as an example, when the degree of the user's smile is low, the degree of emphasis is set high, and when the degree of the user's smile is high, the degree of emphasis is set low. Further, as an example, when the user's degree of moodiness is low, the relaxation degree is set to be small, and when the user's moodiness is high, the relaxation degree is set to be large.
また、第1実施例では、利用者の視線に応じて利用者に対応するアバターの視線が制御され、利用者の視線が正面を向いており、正面を向いている時間が第1所定時間(たとえば、数秒~10秒程度)以上継続した場合には、利用者の視線に関係無く、第2所定時間(たとえば、第1所定時間の所定の割合)利用者に対応するアバターの視線を逸らす。つまり、視線を逸らすように、利用者に対応するアバターを動作させる(つまり、制御する)ことで、利用者に対応するアバターは操作者に対する威圧感の無い動作を行い、操作者が喋り難い状況を回避することができる。所定の割合のパラメータもまた、上記の設定パラメータに含まれ、操作者によって予め設定される。 Further, in the first embodiment, the line of sight of the avatar corresponding to the user is controlled according to the user's line of sight, and the user's line of sight is facing the front, and the time period for which the user is facing the front is the first predetermined time ( For example, if it continues for more than a few seconds to 10 seconds, the avatar corresponding to the user averts its line of sight for a second predetermined period of time (for example, a predetermined percentage of the first predetermined time), regardless of the user's line of sight. In other words, by moving (in other words, controlling) the avatar corresponding to the user so as to avert the user's line of sight, the avatar corresponding to the user can move in a way that does not feel intimidating to the operator, making it difficult for the operator to speak. can be avoided. The predetermined ratio parameter is also included in the above setting parameters and is preset by the operator.
ただし、利用者と操作者が対話中の利用者の視線は、利用者の顔画像に基づいて検出される。顔画像から視線を検出する方法は既に周知であるため、その説明は省略することにする。 However, the user's line of sight during a conversation between the user and the operator is detected based on the user's facial image. Since the method of detecting the line of sight from a face image is already well known, its explanation will be omitted.
また、利用者の頭部の動きは次のように検出(推定)される。利用者の顔の向きが、カメラ38に正対する利用者の顔画像の向きを基準として、現在の顔の向きが現在の顔画像に基づいて算出され、現在の顔の向きに基づいて利用者の頭部の動きが検出(または、推定)される。ただし、顔の向きは、顔画像から抽出した複数の顔の特徴点の動きで検出することができる。説明は省略するが、操作者の顔の向きを算出し、頭部の動きを検出する場合も同様である。
Further, the movement of the user's head is detected (estimated) as follows. The orientation of the user's face is based on the orientation of the user's face image directly facing the
利用者の視線および頭部の動きは、上述したように、利用者に対応するアバターの視線および頭部(首)の動きに反映される。このことは、利用者が発話している場合も同様である。 As described above, the user's line of sight and head movement are reflected in the line of sight and head (neck) movement of the avatar corresponding to the user. This also applies when the user is speaking.
また、操作者が発話していない場合には、利用者が発話することもある。利用者が発話している場合には、利用者の音声の出力に合わせて利用者に対応するアバターの口唇部が動かされる。以下、利用者に対応するアバターが、利用者の音声の出力に合わせて口唇部を動かすことを発話動作と呼ぶことがある。 Further, if the operator is not speaking, the user may speak. When the user is speaking, the lips of the avatar corresponding to the user are moved in accordance with the output of the user's voice. Hereinafter, the movement of the lips of the avatar corresponding to the user in accordance with the output of the user's voice may be referred to as a speaking action.
また、操作者が発話している場合には、操作者側端末16は、操作者の表情に基づいて利用者に対応するアバターの表情を制御するとともに、操作者が発話する音声に基づいて利用者に対応するアバターの動作を制御する場合がある。
Further, when the operator is speaking, the
第1実施例では、操作者側端末16は、操作者の表情を認識し、操作者の表情と同じ表情をアバターに表現させる。具体的には、操作者の表情が微笑む表情である場合には、利用者に対応するアバターに微笑む表情を表現させる。また、操作者の表情が悲しい表情である場合には、利用者に対応するアバターに悲しい表情を表現させる。つまり、操作者が発話している場合には、アバターを操作者に共感させる。
In the first embodiment, the
この第1実施例では、微笑みの度合および悲しみの度合のパラメータは、操作者によって予め設定され、上記の設定パラメータに含まれる。ただし、微笑みの度合および悲しみの度合のパラメータは、操作者の微笑みの度合および悲しみの度合に応じて設定することもできる。 In this first embodiment, the parameters of the degree of smile and the degree of sadness are set in advance by the operator and are included in the above-mentioned setting parameters. However, the parameters for the degree of smile and the degree of sadness can also be set according to the degree of smile and the degree of sadness of the operator.
上述したように、利用者および操作者の表情は、それぞれ、顔画像に基づいて認識され、認識された表情がアバターの画像210で表現される。利用者および操作者の表情は、それぞれ、対話中における利用者および操作者の顔画像に基づいて認識することができる。
As described above, the facial expressions of the user and the operator are recognized based on the facial images, and the recognized facial expressions are expressed in the
顔画像を用いて、利用者および操作者のような人間の表情を認識する方法はすでに公知であるため、その方法の説明については省略する。一例として、「小林 宏、原 文雄:ニューラルネットワークによる人の基本表情認識、計測自動制御学会論文集 Vol.29, No.1, 112/118(1993)」、「小谷中陽介、本間経康、酒井正夫、阿部健一:ニューラルネットワークを用いた顔表情認識、東北大医保健学科紀要 13(1):23~32, 2004」および「西銘 大喜、遠藤 聡志、當間 愛晃、山田 孝治、赤嶺 有平:畳み込みニューラルネットワークを用いた表情表現の獲得と顔特徴量の分析、人工知能学会論文誌 32巻5号FZ(2017年)」などに開示された公知技術を用いることができる。 Since a method for recognizing facial expressions of people such as users and operators using facial images is already known, a description of the method will be omitted. For example, "Hiroshi Kobayashi, Fumio Hara: Basic human facial expression recognition using neural networks, Proceedings of the Society of Instrument and Control Engineers Vol. 29, No. 1, 112/118 (1993)", "Yosuke Koyanaka, Tsuneyasu Honma, Masao Sakai, Kenichi Abe: Facial expression recognition using neural networks, Bulletin of the Department of Medicine and Health Sciences, Tohoku University 13(1):23-32, 2004” and “Daiki Nishime, Satoshi Endo, Yoshiaki Toma, Koji Yamada, Arihei Akamine It is possible to use known techniques such as those disclosed in "Acquisition of facial expressions and analysis of facial features using convolutional neural networks, Journal of the Japanese Society for Artificial Intelligence, Vol. 32, No. 5, FZ (2017)."
また、他の公知技術では、顔画像から抽出した特徴点に基づいて人間の表情を認識する手法として、特開2020-163660号公報に開示された技術を用いることもできる。 In addition, as another known technique, the technique disclosed in Japanese Patent Application Laid-open No. 2020-163660 can also be used as a method of recognizing human facial expressions based on feature points extracted from facial images.
ただし、人間の顔画像に基づいて表情を認識するために必要な回路コンポーネントおよびデータは適宜操作者側端末16に設けられる。また、顔画像に基づいて表情を認識する装置(以下、「認識装置」という)をクラウド上に設けて、認識装置に顔画像を送信し、表情の認識結果を推定装置から受け取るようにしてもよい。
However, circuit components and data necessary for recognizing facial expressions based on a human face image are provided in the
また、度合の異なる複数の表情(この第1実施例では、微笑む表情、不機嫌な表情および悲しい表情)をニューラルネットワークに学習させておくことにより、表情の認識のみならず、表情の度合も認識(または、推定)することができる。また、表情を認識したときのニューラルネットワークの出力の差に基づいて、表情の度合を認識することもできる。たとえば、無表情の顔画像についての出力と、認識された表情についての出力の差に基づいて表情の度合が認識される。一例として、表情の度合は、0-100%の間で認識される。 In addition, by having the neural network learn multiple facial expressions with different degrees of intensity (in this first embodiment, a smiling expression, a displeased expression, and a sad expression), it is possible to recognize not only facial expressions but also the degree of expression ( or estimated). Furthermore, it is also possible to recognize the degree of facial expression based on the difference in the output of the neural network when facial expressions are recognized. For example, the degree of facial expression is recognized based on the difference between the output for an expressionless facial image and the output for a recognized facial expression. As an example, the degree of facial expression is recognized between 0-100%.
また、特開2020-163660号公報の方法を用いて人間の表情を認識する場合には、顔画像から抽出された特徴点の差(距離)に基づいて、表情の度合を認識(または、推定)することもできる。たとえば、無表情の顔画像から抽出された各特徴点に対する、表情の認識に使用した利用者の顔画像から抽出された各特徴点についての距離を算出し、算出した距離に基づいて表情の度合が決定される。距離は、各特徴点について算出されるため、表情の度合は、たとえば、算出された複数の距離についての平均値、最大値または分散に基づいて決定される。 Furthermore, when recognizing human facial expressions using the method disclosed in Japanese Patent Application Laid-open No. 2020-163660, the degree of facial expression is recognized (or estimated) based on the difference (distance) between feature points extracted from facial images. ) can also be done. For example, the distance between each feature point extracted from an expressionless face image and each feature point extracted from the user's face image used for expression recognition is calculated, and the degree of expression is determined based on the calculated distance. is determined. Since the distance is calculated for each feature point, the degree of facial expression is determined based on, for example, the average value, maximum value, or variance of the plurality of calculated distances.
図6(A)は、アバターの微笑む表情についての度合の違いを説明するための図であり、図6(B)は、アバターの不機嫌な表情についての度合の違いを説明するための図であり、図6(C)は、アバターの悲しい表情についての度合の違いを説明するための図である。 FIG. 6(A) is a diagram for explaining the difference in the degree of the avatar's smiling expression, and FIG. 6(B) is a diagram for explaining the difference in the degree of the avatar's displeased expression. , FIG. 6(C) is a diagram for explaining the difference in the degree of sad expression of the avatar.
微笑む表情、不機嫌な表情および悲しい表情は、それぞれ、その度合(または、大きさ)を最小(0%)から最大(100%)まで複数の段階(たとえば、20段階)で設定可能である。アバターの顔の表情は、各表情および各表情の度合について、眉毛(位置、形状)、眉間のしわ(寄り具合)、眼(黒目の大きさ、目尻の上げ下げ具合)、瞼(開き具合)、ほうれい線(寄り具合)、および口(位置、形状および開き具合)の各部位についてのパラメータ(以下、「表情パラメータ」という)で決定される。 The degree (or magnitude) of each of the smiling, displeased, and sad expressions can be set in multiple levels (for example, 20 levels) from minimum (0%) to maximum (100%). The avatar's facial expressions include each expression and the degree of each expression: eyebrows (position, shape), wrinkles between the eyebrows (how close they are), eyes (size of the iris, how the outer corners of the eyes are raised and lowered), eyelids (how open they are), It is determined by parameters (hereinafter referred to as "facial expression parameters") for each part of the nasolabial folds (degree of approach) and mouth (position, shape, and degree of opening).
上述したように、利用者および操作者のような人間の表情の度合を0-100%の間で認識し、アバターの表情を0-100%の度合で表現するため、この第1実施例では、表情パラメータは、人間の表情の度合に合わせて決定される。したがって、顔画像から認識された人間の表情と同じ表情を同じ度合で表現されたアバターの画像210はその人間と同様の表情になる。
As mentioned above, in order to recognize the degree of facial expressions of humans such as users and operators between 0 and 100%, and to express the facial expressions of avatars at a degree of 0 to 100%, in this first embodiment, , facial expression parameters are determined according to the degree of human facial expression. Therefore, the
図6(A)-図6(C)に示す例では、左端(すなわち、無表情)から右端に向かうに従って表情の度合が大きくされ、左端に近づくに従って表情の度合が小さくされる。図6(A)-図6(C)では、各表情について、表現の度合が中くらい(普通)である場合と、表現の度合が最大である場合についてのアバターの画像210を示してある。
In the examples shown in FIGS. 6A to 6C, the degree of facial expression increases from the left end (that is, expressionless) toward the right end, and decreases as the left end is approached. 6(A) to 6(C) show
ただし、上記の無表情のアバターの画像210が、微笑む表情、不機嫌な表情および悲しい表情の各々について表情の度合が最低である場合のアバターの画像210である。
However, the above
また、図示は省略するが、上述したように、各感情の度合は複数の段階に設定されているため、各段階の表情を有するアバターの画像210を表示することが可能である。
Furthermore, although not shown, since the degree of each emotion is set to multiple levels as described above, it is possible to display the
さらに、各表情は20段階で設定可能であるため、上述した強調度合および緩和度合、微笑み度合および悲しみの度合の設定パラメータは、5%刻みで設定可能である。 Furthermore, since each facial expression can be set in 20 levels, the setting parameters for the degree of emphasis, degree of relaxation, degree of smile, and degree of sadness described above can be set in 5% increments.
なお、無表情のアバターでは、しわが無く、顔が左右対称に設定される。このようにデザインすることで、性別が判断し難くなり、男性または女性に偏った好みを持つ利用者にも受け入れられるアバターになる。また、しわが無く、左右対称に設定された特徴の無い顔にすることで、少しのしわを作るだけで、笑顔またはしかめ面のような表情を簡単に表現することができ、その表情の強さも簡単に制御することができる。 Note that an expressionless avatar has no wrinkles and a symmetrical face. By designing in this way, it becomes difficult to determine the gender of the avatar, and the avatar becomes acceptable to users who have biased preferences toward men or women. In addition, by creating a featureless face with no wrinkles and symmetrical features, you can easily express facial expressions such as a smile or a frown just by creating a few wrinkles, and the strength of that facial expression can be increased. It can also be easily controlled.
また、第1実施例では、操作者が発話している場合には、操作者側端末16は、適宜のタイミングで、利用者に対応するアバターに頷き動作を行わせる。つまり、操作者が喋り難い状況が回避される。
Further, in the first embodiment, when the operator is speaking, the
具体的には、操作者の音声が途切れたタイミング、または、操作者が利用者に同意を求めている内容を発話したタイミングで、利用者に対応するアバターに頷き動作を行わせる。操作者の音声が途切れたことは、操作者の音声の音量が予め設定される所定のレベル以下である状態が第3所定時間(たとえば、数msec)継続した場合に判断される。また、操作者が利用者に同意を求めている内容を発話したことは、操作者の音声を認識し、操作者が予め設定される所定の同意を求める内容を発話しているかどうかで判断される。同意を求める内容は、「~ですよね」および「よろしいですか」などである。 Specifically, the avatar corresponding to the user is caused to nod at the timing when the operator's voice is interrupted or at the timing when the operator utters the content for which consent is requested from the user. It is determined that the operator's voice has been interrupted when the volume of the operator's voice remains below a predetermined level for a third predetermined period of time (for example, several milliseconds). In addition, whether the operator has uttered the content for which consent is being requested from the user is determined by recognizing the operator's voice and determining whether or not the operator has uttered the content for which consent is requested from the user. Ru. Contents for which consent is requested include "Isn't it..." and "Are you sure?".
ただし、利用者に対応するアバターが頷き動作を行わず、操作者の表情が利用者に対応するアバターに反映されない場合には、利用者の表情、利用者の視線および利用者の頭部の動きが利用者に対応するアバターに反映される。また、利用者に対応するアバターが頷き動作を行わず、操作者の表情が利用者に対応するアバターに反映される場合には、利用者の視線および利用者の頭部の動きが利用者に対応するアバターに反映される。さらに、利用者に対応するアバターが頷き動作を行う場合には、利用者の表情が利用者に対応するアバターに反映される。 However, if the avatar corresponding to the user does not make a nodding motion and the operator's facial expression is not reflected in the avatar corresponding to the user, the user's facial expression, the user's line of sight, and the user's head movements will be reflected on the avatar corresponding to the user. In addition, if the avatar corresponding to the user does not nod and the operator's facial expression is reflected on the avatar corresponding to the user, the user's line of sight and the movement of the user's head may be It will be reflected on the corresponding avatar. Further, when the avatar corresponding to the user performs a nodding motion, the facial expression of the user is reflected on the avatar corresponding to the user.
また、操作者が発話している場合にも、利用者が発話することもある。この場合にも、利用者の音声の出力に合わせて利用者に対応するアバターは発話動作を行う。 Further, even when the operator is speaking, the user may also speak. In this case as well, the avatar corresponding to the user performs a speaking motion in accordance with the output of the user's voice.
図7は操作者側端末16に内蔵される記憶部(ここでは、RAM)52のメモリマップ300の一例を示す。RAMは、CPU50のワーク領域およびバッファ領域として使用される。図7に示すように、RAMは、プログラム記憶領域302およびデータ記憶領域304を含む。プログラム記憶領域302には、この第1実施例の操作者側端末16で実行される全体的な処理についての制御プログラムが記憶されている。
FIG. 7 shows an example of a memory map 300 of the storage unit (here, RAM) 52 built in the
制御プログラムは、操作検出プログラム302a、撮影プログラム302b、音検出プログラム302c、音声認識プログラム302d、通信プログラム302e、画像生成プログラム302f、画像出力プログラム302g、アバター制御プログラム302h、表情認識プログラム302i、視線および頭部の動き検出プログラム302jおよび音出力プログラム302kなどを含む。
The control programs include an
操作検出プログラム302aは、操作者の操作に従って入力装置58から入力される操作データ304aを検出し、データ記憶領域304に記憶するためのプログラムである。撮影プログラム302bは、カメラ68で画像を撮影し、撮影した撮影画像データを送信データ304bとしてデータ記憶領域304に記憶するとともに、撮影画像データ304iをデータ記憶領域304に記憶するためのプログラムである。
The
音検出プログラム302cは、マイク62から入力される音声を検出し、対応する音声データを送信データ304bとしてデータ記憶領域304に記憶するとともに、音声データ304kをデータ記憶領域304に記憶するためのプログラムである。音声認識プログラム302dは、音検出プログラム302cに従って検出した音声を音声認識するためのプログラムである。音声認識のために必要な辞書データについては図示を省略するが、操作者側端末16の記憶部(ここでは、HDDまたはROM)52に記憶される。
The
通信プログラム302eは、外部の機器、この第1実施例では、利用者側端末12およびサーバ18と有線または無線で通信(データの送信および受信)するためのプログラムである。
The
画像生成プログラム302fは、表示装置60に表示するための各種の画面の全部または一部に対応する画像(アバターの画像210を含む)の画像データを、画像生成データ304dを用いて生成するためのプログラムである。画像出力プログラム302gは、画像生成プログラム302fに従って生成した画像データを表示装置60に出力するためのプログラムである。
The
アバター制御プログラム302hは、利用者に対応するアバターを制御するためのプログラムである。この第1実施例では、CPU50は、アバター制御プログラム302hに従って、アバターの表情を変化させたり、アバターを動作(発話動作および頭部(首)の動作)させたり、アバターの視線を移動させたりする。
The
表情認識プログラム302iは、利用者および操作者の表情を認識するためのプログラムである。上述したように、利用者側端末12から受信した撮影画像データに基づいて利用者の表情およびその度合が認識される。また、操作者側端末16のカメラ68で撮影された撮影画像データ304iに基づいて操作者の表情が認識される。
The facial expression recognition program 302i is a program for recognizing facial expressions of users and operators. As described above, the user's facial expression and its degree are recognized based on the captured image data received from the
視線および頭部の動き検出プログラム302jは、利用者側端末12から受信した撮影画像データに基づいて利用者の視線および頭部の動きを検出するためのプログラムである。音出力プログラム302kは、利用者側端末12から受信した利用者の音声データをスピーカ64に出力するためのプログラムである。
The line of sight and head
図示は省略するが、プログラム記憶領域302には、操作者側端末16のオペレーティングシステムなどのミドルウェア、ブラウザ機能を実行するためのプログラムおよび各種のアプリケーションプログラムなどの他のプログラムも記憶される。
Although not shown, the
図8は図7に示したRAMのデータ記憶領域304の具体的な内容の一例を示す図である。図8に示すように、データ記憶領域304には、操作データ304a、送信データ304b、受信データ304c、画像生成データ304d、表情パラメータデータ304e、設定パラメータデータ304f、利用者表情データ304g、利用者視線および頭部の動きデータ304h、撮影画像データ304i、操作者表情データ304jおよび音声データ304kなどが記憶される。
FIG. 8 is a diagram showing an example of specific contents of the
操作データ304aは、操作検出プログラム302aに従って検出された操作データである。送信データ304bは、利用者側端末12に送信するデータであり、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データである。
The
受信データ304cは、利用者側端末12から送信され、受信したデータであり、チャットにおける利用者の質問内容についてのテキストデータ、トークにおける利用者の質問内容についての音声データおよび利用者側端末12のカメラ38で撮影された撮影画像データである。また、受信データ304cは、サーバ18から送信される利用者側端末12の接続情報データを含む。
The received
画像生成データ304dは、操作者側端末16の表示装置60に表示される各種の画面を生成するためのデータであり、アバターの画像210を生成するためのデータを含む。アバターの画像210を生成するためのデータは、アバターの静止した状態の画像データおよび首の動きについてのデータを含む。首の動きは、発話時の首の動きおよび頷く時の首の動きである。ただし、複数種類のアバターが設けられるため、アバターの静止した状態の画像データはアバター毎に記憶され、選択されたアバターの画像データが使用される。
The
表情パラメータデータ304eは、微笑む表情、不機嫌な表情および悲しい表情の各々について、表情の度合を最小から最大まで複数の段階で変化させるための各部位の表情パラメータについてのデータである。ただし、複数のアバターが設けられるため、表情パラメータについてのデータはアバター毎に記憶され、選択されたアバターについての表情パラメータが使用される。
The facial
設定パラメータデータ304fは、強調度合、緩和度合、微笑み度合、悲しみ度合および所定の割合の各設定パラメータについてのデータである。
The setting
利用者表情データ304gは、利用者側端末12から受信した撮影画像データから認識した利用者の表情およびその度合を示すデータである。利用者視線および頭部の動きデータ304hは、利用者側端末12から受信した撮影画像データから算出した利用者の視線および利用者の頭部の動きを示すデータである。
The user
撮影画像データ304iは、カメラ68で撮影した画像データである。操作者表情データ304jは、撮影画像データ304iから認識した操作者の表情を示すデータである。音声データ304kは、音検出プログラム302cに従って検出された操作者の音声についてのデータであり、操作者の音声を認識するために用いられる。
The photographed image data 304i is image data photographed by the
図示は省略するが、データ記憶領域304には、制御処理を実行するために必要な他のデータが記憶されたり、タイマ(カウンタ)およびフラグが設けられたりする。
Although not shown, the
また、図示は省略するが、利用者側端末12は操作者側端末16との間でチャットまたはトークを行うため、利用者側端末12の記憶部(ここでは、RAM)22には、操作者側端末16のRAMに記憶されるプログラムおよびデータのうち、チャットまたはトークに必要なプログラムおよびデータと同様のプログラムおよびデータが記憶される。
Although not shown, since the
具体的には、利用者側端末12のRAMのプログラム記憶領域には、操作検出プログラム、撮影プログラム、音検出プログラム、通信プログラム、画像生成プログラム、画像出力プログラムおよび音出力プログラムなどが記憶される。
Specifically, the program storage area of the RAM of the
操作検出プログラムは、利用者の操作に従って入力装置28から入力される操作データを検出し、記憶部22のデータ記憶領域に記憶するためのプログラムである。撮影プログラムは、カメラ38で画像を撮影し、撮影した画像についての撮影画像データを送信データとしてデータ記憶領域に記憶するためのプログラムである。音検出プログラムは、マイク32から入力される音声を検出し、検出した音声についての音声データを送信データとしてデータ記憶領域に記憶するためのプログラムである。
The operation detection program is a program for detecting operation data input from the
通信プログラムは、外部の機器、この第1実施例では、操作者側端末16およびサーバ18と有線または無線で通信するためのプログラムである。画像生成プログラムは、表示装置30に表示するための各種の画面に対応する画像データを、画像生成データを用いて生成するためのプログラムである。画像出力プログラムは、画像生成プログラムに従って生成した画像データを表示装置30に出力するためのプログラムである。音出力プログラムは、受信した操作者の音声データを出力するためのプログラムである。
The communication program is a program for communicating with external equipment, in this first embodiment, the
また、記憶部22のデータ記憶領域には、操作データ、送信データ、受信データおよび画像生成データなどが記憶される。
Further, the data storage area of the
操作データは、操作検出プログラムに従って検出された操作データである。送信データは、操作者側端末16およびサーバ18に送信するデータである。操作者側端末16に送信するデータは、チャットにおける利用者の質問内容についてのテキストデータ、トークにける利用者の質問内容についての音声データおよびカメラ38で撮影した撮影画像データである。サーバ18に送信するデータは、オンラインショッピングに関するブラウザ上の操作データ(ボタン110および112についての操作データを含む)である。
The operation data is operation data detected according to the operation detection program. The transmission data is data to be transmitted to the
受信データは、操作者側端末16またはサーバ18から送信され、受信したデータである。操作者側端末16から受信したデータは、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データである。ただし、操作者側端末16で撮影された撮影画像データを受信する場合もある。また、サーバ18から受信したデータは、ブラウザに表示するデータおよびサーバ18によって選択された操作者側端末16の接続情報データである。
The received data is data transmitted and received from the
画像生成データは、利用者側端末12の表示装置30に表示される各種の画面を生成するためのデータである。
The image generation data is data for generating various screens displayed on the
なお、記憶部52には、利用者側端末12のオペレーティングシステムなどのミドルウェア、ブラウザ機能を実行するためのプログラムに加え、利用者とチャットまたはトークを実行するために必要な他のプログラムおよびデータも記憶される。
Note that, in addition to middleware such as the operating system of the
図9-図12は操作者側端末16のCPU50の制御処理を示すフロー図である。図13は操作者側端末16のCPU50の送受信処理を示すフロー図である。図14は利用者側端末12のCPU20の送受信処理を示すフロー図である。
9 to 12 are flowcharts showing control processing of the
図示は省略するが、CPU50は、制御処理および送受信処理と並行して、操作者の操作を検出する処理、操作者の画像を撮影する処理および操作者の音声を検出する処理を実行する。
Although not shown, the
図9に示すように、操作者側端末16のCPU50は、制御処理を開始すると、ステップS1で、利用者に対応するアバターの画像210を表示する。つまり、CPU50は、利用者に対応するアバターの画像210を含む表示枠200の画像データを生成し、生成した画像データを表示装置60に出力する。
As shown in FIG. 9, when the
次のステップS3では、利用者の表情を認識する。ここでは、CPU50は、受信データ304cに含まれる撮影画像データを取得し、取得した撮影画像データに含まれる利用者の顔画像から表情およびその度合を認識し、対応する利用者表情データ304gを記憶(更新)する。
In the next step S3, the facial expression of the user is recognized. Here, the
次のステップS5では、利用者の視線および頭部の動きを検出する。ここでは、CPU50は、ステップS3で取得した撮影画像データに含まれる利用者の顔画像から利用者の視線および頭部の動きを検出し、対応する利用者視線および頭部の動きデータ304hを記憶(更新)する。
In the next step S5, the user's line of sight and head movement are detected. Here, the
ただし、取得した撮影画像データに利用者の顔画像が含まれていない場合には、表情は認識されず、利用者の視線および頭部の動きも検出されない。 However, if the acquired photographic image data does not include a facial image of the user, facial expressions will not be recognized, and the user's line of sight and head movements will not be detected.
続いて、ステップS7では、操作者が発話しているかどうかを判断する。ここでは、CPU50は、マイク62で音声を検出しているかどうかを判断する。ステップS7で“YES”である場合には、つまり、操作者が発話している場合には、図11に示すステップS25に進む。
Subsequently, in step S7, it is determined whether the operator is speaking. Here, the
一方、ステップS7で“NO”であれば、つまり、操作者が発話していない場合には、図10に示すステップS9で、利用者が微笑んだかどうかを判断する。ここでは、CPU50は、ステップS3で認識した利用者の表情が微笑みであるかどうかを判断する。
On the other hand, if "NO" in step S7, that is, if the operator is not speaking, it is determined in step S9 shown in FIG. 10 whether the user smiles. Here, the
ステップS9で“YES”であれば、つまり、利用者が微笑んだと判断すると、ステップS11で、アバターの画像210を、ステップS5で検出した利用者の視線に合わせ、強調した微笑む表情で表示させて、図12に示すステップS49に進む。ステップS11では、CPU50は、利用者が微笑んだ度合よりも高い度合で微笑むようにアバターの表情を生成する。ただし、高くする度合は、予め設定された強調度合のパラメータで決定される。
If "YES" in step S9, that is, if it is determined that the user has smiled, then in step S11, the
一方、ステップS9で“NO”であれば、つまり、利用者が微笑んでいないと判断すると、ステップS13で、利用者が不機嫌な顔をしたかどうかを判断する。ここでは、CPU50は、ステップS3で認識した利用者の表情が不機嫌な顔であるかどうかを判断する。
On the other hand, if "NO" in step S9, that is, if it is determined that the user is not smiling, it is determined in step S13 whether or not the user has a displeased face. Here, the
ステップS13で“YES”であれば、つまり、利用者が不機嫌な顔をしたと判断すれば、ステップS15で、アバターの画像210を、ステップS5で検出した利用者の視線に合わせ、緩和した不機嫌な表情で表示させて、ステップS49に進む。ステップS15では、CPU50は、利用者の不機嫌な表情の度合よりも低い度合でアバターに不機嫌な表情を生成する。ただし、低くする度合は、予め設定された緩和度合のパラメータで決定される。
If "YES" in step S13, that is, if it is determined that the user made a displeased face, in step S15, the
一方、ステップS13で“NO”であれば、つまり、利用者が不機嫌な顔をしていないと判断すれば、ステップS17で、ステップS3で認識した利用者の表情をアバターに反映する。つまり、アバターの画像210を、利用者の表情で表示する。
On the other hand, if "NO" in step S13, that is, if it is determined that the user does not have a displeased face, then in step S17, the facial expression of the user recognized in step S3 is reflected on the avatar. In other words, the
続くステップS19では、アバターの視線を逸らすかどうかを判断する。ここでは、CPU50は、利用者が第1所定時間(たとえば、数秒~10秒程度)以上正面を向いているかどうかを判断する。図示は省略したが、利用者の視線が正面を向いている場合に、その時間がカウントされ、正面以外を向いている場合にはカウントされない。また、利用者が正面以外を向いた後に再度正面を向いた場合には、最初から正面を向いている時間がカウントされる。
In the following step S19, it is determined whether to avert the avatar's line of sight. Here, the
ステップS19で“YES”であれば、つまり、視線を逸らすことを判断すれば、ステップS21で、アバターの視線を正面から逸らして、ステップS49に進む。ステップS21では、CPU50は、アバターの視線を第2所定時間正面以外に向ける。第2所定時間は、第1所定時間の所定の割合(たとえば、1割程度)に設定される。所定の割合は、予め設定された所定の割合のパラメータで決定される。また、アバターが視線を逸らす方向すなわち正面以外の方向は予め設定されている複数の方向のうちからランダムに選択または確率で抽選される。
If "YES" in step S19, that is, if it is determined that the avatar's line of sight is to be averted, in step S21, the avatar's line of sight is averted from the front, and the process proceeds to step S49. In step S21, the
一方、ステップS19で“NO”であれば、つまり、視線を逸らすことを判断しなければ、ステップS23で、アバターの画像210を、利用者の視線に合わせて、ステップS49に進む。
On the other hand, if "NO" in step S19, that is, if it is not determined to avert the user's line of sight, in step S23, the
上述したように、操作者が発話している場合には、ステップS7で“YES”となり、図11に示すステップS25で、カメラ68の撮影画像を取得して、ステップS27で、操作者の表情を認識する。ただし、上述したように、操作者を撮影する処理は、制御処理と並行して実行されており、ステップS25では、CPU50は現在の撮影画像データ304iを取得する。また、ステップS27では、CPU50は、撮影画像データ304iに含まれる操作者の顔画像から表情およびその度合を認識し、対応する操作者表情データ304jを記憶(更新)する。
As described above, if the operator is speaking, the answer is "YES" in step S7, the image taken by the
続いて、ステップS29では、頷くタイミングであるかどうかを判断する。ここでは、CPU50は、操作者の音声が途切れたタイミングであるか、操作者が利用者に同意を求めている内容を発話したタイミングであるかどうかを判断する。
Subsequently, in step S29, it is determined whether it is the timing to nod. Here, the
図示は省略するが、CPU50は、ステップS29の処理を実行するとき、操作者の音声を音声認識する処理も実行する。
Although not shown, when executing the process of step S29, the
ステップS29で“YES”であれば、つまり、頷くタイミングである場合には、ステップS31で、アバターに頷き動作を実行させ、ステップS33で、利用者に対応するアバターを利用者の視線に合わせ、利用者の表情を利用者に対応するアバターに反映して、ステップS49に進む。つまり、アバターの画像210を、利用者の視線に合わせ、利用者の表情で表示させる。
If "YES" in step S29, that is, if it is time to nod, the avatar is caused to perform a nodding motion in step S31, and in step S33, the avatar corresponding to the user is aligned with the user's line of sight, The user's facial expression is reflected on the avatar corresponding to the user, and the process advances to step S49. In other words, the
一方、ステップS29で“NO”であれば、つまり、頷くタイミングでない場合には、ステップS35で、操作者が微笑んだかどうかを判断する。ここでは、CPU50は、ステップS27で認識した操作者の顔の表情が微笑みであるかどうかを判断する。
On the other hand, if "NO" in step S29, that is, if it is not the timing to nod, it is determined in step S35 whether or not the operator has smiled. Here, the
ステップS35で“YES”であれば、つまり、操作者が微笑んだと判断すると、ステップS37で、予め設定された微笑みの度合で微笑む表情をアバターに表現させて、ステップS45に進む。ステップS37では、CPU50は、予め設定された微笑みの度合で微笑むようにアバターの表情を生成する。ただし、微笑みの度合は、設定パラメータデータ304fに含まれる微笑みの度合のパラメータで決定される。
If "YES" in step S35, that is, if it is determined that the operator has smiled, in step S37, the avatar is made to express a smiling expression with a preset smile level, and the process proceeds to step S45. In step S37, the
一方、ステップS35で“NO”であれば、つまり、操作者が微笑んでいないと判断すると、ステップS39で、操作者が悲しい顔をしたかどうかを判断する。ここでは、CPU50は、ステップS27で認識した操作者の顔の表情が悲しみであるかどうかを判断する。
On the other hand, if "NO" in step S35, that is, if it is determined that the operator is not smiling, it is determined in step S39 whether or not the operator has a sad face. Here, the
ステップS39で“NO”であれば、つまり、操作者が悲しい顔をしていないと判断すると、ステップS41で、利用者の表情を利用者に対応するアバターに反映して、ステップS45に進む。 If "NO" in step S39, that is, if it is determined that the operator does not have a sad face, the user's facial expression is reflected in the avatar corresponding to the user in step S41, and the process proceeds to step S45.
一方、ステップS39で“YES”であれば、つまり、操作者が悲しい顔をしたと判断すると、ステップS43で、予め設定された悲しみの度合で悲しむ表情をアバターに表現させて、ステップS45に進む。ステップS43では、CPU50は、予め設定された悲しみの度合で悲しむようにアバターの表情を生成する。ただし、悲しみの度合は、設定パラメータデータ304fに含まれる悲しみの度合のパラメータで決定される。
On the other hand, if "YES" in step S39, that is, if it is determined that the operator made a sad face, in step S43, the avatar is made to express a sad expression with a preset degree of sadness, and the process proceeds to step S45. . In step S43, the
ステップS45では、利用者に対応するアバターの視線を利用者の視線に合わせる。続くステップS47では、利用者の頭部の動きを利用者に対応するアバターに反映して、図12に示すステップS49に進む。 In step S45, the line of sight of the avatar corresponding to the user is aligned with the line of sight of the user. In the following step S47, the movement of the user's head is reflected on the avatar corresponding to the user, and the process proceeds to step S49 shown in FIG. 12.
図12に示すように、ステップS49では、利用者が発話しているかどうかを判断する。ここでは、CPU50は、受信データ304cに、利用者の音声データが含まれているかどうかを判断する。
As shown in FIG. 12, in step S49, it is determined whether the user is speaking. Here, the
ステップS49で“YES”であれば、つまり、利用者が発話している場合には、ステップS51で、利用者の音声を出力するとともに、利用者に対応するアバターに発話動作を実行させて、ステップS55に進む。ステップS51では、CPU50は、受信した利用者の音声データをスピーカ64から出力するとともに、この音声データに合せて、アバターの画像210の口唇部を動かすとともに、アバターの画像210の頭部(首)を動かす。つまり、利用者に対応するアバターが実際にしゃべっているように表現される。
If "YES" in step S49, that is, if the user is speaking, in step S51, the user's voice is output, and the avatar corresponding to the user is made to perform a speaking action, The process advances to step S55. In step S51, the
一方、ステップS49で“NO”であれば、つまり、利用者が発話していない場合には、ステップS53で、利用者の頭部の動きを利用者に対応するアバターに反映して、ステップS55に進む。 On the other hand, if "NO" in step S49, that is, if the user is not speaking, the movement of the user's head is reflected in the avatar corresponding to the user in step S53, and step S55 Proceed to.
ステップS55では、終了かどうかを判断する。ここでは、CPU50は、操作者が制御処理を終了することを指示したり、利用者が対話を終了したりしたかどうかを判断する。
In step S55, it is determined whether the process is finished. Here, the
ステップS55で“NO”であれば、つまり、終了でなければ、図9に示したステップS1に戻る。したがって、アバターの画像210が更新される。一方、ステップS55で“YES”であれば、つまり、終了であれば、制御処理を終了する。
If "NO" in step S55, that is, if the process is not finished, the process returns to step S1 shown in FIG. Therefore, the
図13に示すように、CPU50は、送受信処理を開始すると、ステップS71で、利用者側端末12と通信を開始する。続くステップS73では、操作者の音声を検出したかどうかを判断する。ステップS73で“NO”であれば、つまり、操作者の音声を検出していなければ、ステップS77に進む。
As shown in FIG. 13, when the
一方、ステップS73で“YES”であれば、つまり、操作者の音声を検出していれば、ステップS75で、操作者の音声を利用者側端末12に送信して、ステップS77に進む。
On the other hand, if "YES" in step S73, that is, if the operator's voice is detected, the operator's voice is transmitted to the
ステップS77では、利用者側端末12からデータを受信したかどうかを判断する。ステップS77で“NO”であれば、つまり、利用者側端末12からデータを受信していない場合には、ステップS81に進む。
In step S77, it is determined whether data has been received from the
一方、ステップS77で“YES”であれば、つまり、利用者側端末12からデータを受信している場合には、ステップS79で、受信したデータを記憶して、ステップS81に進む。
On the other hand, if "YES" in step S77, that is, if data is being received from the
ステップS81では、終了かどうかを判断する。ここでは、CPU50は、操作者が送受信処理を終了することを指示したり、利用者が対話を終了したりしたかどうかを判断する。
In step S81, it is determined whether the process is finished. Here, the
ステップS81で“NO”であれば、つまり、終了でなければ、ステップS73に戻る。一方、ステップS81で“YES”であれば、つまり、終了であれば、利用者側端末12との送受信処理を終了する。
If "NO" in step S81, that is, if the process is not finished, the process returns to step S73. On the other hand, if "YES" in step S81, that is, if it is finished, the transmission/reception process with the
図14に示すように、利用者側端末12のCPU20は送受信処理を開始すると、ステップS101で、操作者側端末16との通信を開始する。次のステップS103では、利用者の音声を検出したかどうかを判断する。
As shown in FIG. 14, when the
ステップS103で“NO”であれば、つまり、利用者の音声を検出していなければ、ステップS107に進む。一方、ステップS103で“YES”であれば、つまり、利用者の音声を検出していれば、ステップS105で、検出した音声を操作者側端末16に送信して、ステップS107に進む。
If "NO" in step S103, that is, if the user's voice is not detected, the process advances to step S107. On the other hand, if "YES" in step S103, that is, if the user's voice is detected, the detected voice is transmitted to the
ステップS107では、撮影画像を取得する。次のステップS109では、撮影画像を操作者側端末16に送信する。続いて、ステップS111で、操作者の音声を受信したかどうかを判断する。
In step S107, a photographed image is acquired. In the next step S109, the photographed image is transmitted to the
ステップS111で“NO”であれば、つまり、操作者の音声を受信していなければ、ステップS115に進む。一方、ステップS111で“YES”であれば、つまり、操作者の音声を受信していれば、ステップS113で、操作者の音声を出力して、ステップS115に進む。 If "NO" in step S111, that is, if the operator's voice is not received, the process advances to step S115. On the other hand, if "YES" in step S111, that is, if the operator's voice is being received, the operator's voice is output in step S113, and the process proceeds to step S115.
ステップS115では、終了かどうかを判断する。ここでは、CPU20は、利用者が送受信処理を終了することを指示したり、操作者が対話を終了したりしたかどうかを判断する。
In step S115, it is determined whether the process is finished. Here, the
ステップS115で“NO”であれば、つまり、終了でなければ、ステップS103に戻る。一方、ステップS115で“YES”であれば、つまり、終了であれば、操作者側端末16との送受信処理を終了する。
If "NO" in step S115, that is, if the process is not finished, the process returns to step S103. On the other hand, if "YES" in step S115, that is, if it is finished, the transmission/reception process with the
第1実施例によれば、操作者側端末の表示装置に利用者に対応するアバターを表示することで、利用者のプライバシーを守るとともに、操作者が発話している場合には、操作者の表情と同じ表情で利用者に対応するアバターを表現させるので、つまり、アバターが共感してくれるので、操作者は対話の相手である利用者と対話し易い。このため、利用者に応対し易くすることができる。 According to the first embodiment, by displaying an avatar corresponding to the user on the display device of the operator side terminal, the privacy of the user is protected, and when the operator is speaking, the avatar corresponding to the user is displayed. Since the avatar corresponding to the user is expressed with the same facial expression as the user's facial expression, in other words, the avatar empathizes with the user, making it easier for the operator to interact with the user. This makes it easier to respond to users.
また、第1実施例によれば、操作者が発話していない場合には、利用者の表情を操作者に好意的な表情でアバターを表現させるので、操作者が喋り易い状況を作ることができる。したがって、利用者に応対し易くすることができる。 Further, according to the first embodiment, when the operator is not speaking, the avatar is made to express the user's facial expression with a favorable expression for the operator, so it is possible to create a situation where the operator can easily speak. can. Therefore, it is possible to easily respond to users.
さらに、第1実施例によれば、操作者が発話していない場合には、適宜アバターの視線を逸らすことで、アバターに威圧感の無い動作を行わせるので、操作者が喋り易い状況を作ることができる。したがって、利用者に応対し易くすることができる。 Furthermore, according to the first embodiment, when the operator is not speaking, the avatar averts the avatar's line of sight as appropriate to make the avatar perform non-threatening movements, thereby creating a situation in which the operator can easily speak. be able to. Therefore, it is possible to easily respond to users.
なお、第1実施例では、操作者が発話していない場合には、利用者の表情と同じ表情を操作者に対して好意的に変更してアバターに表現させる処理を実行したり、適宜視線を逸らす処理を実行したりし、操作者が発話している場合には、操作者の表情と同じ表情をアバターに表現させる処理を実行したり、適宜頷き動作を行わせる処理を実行したりしたが、これらすべての処理が実行される必要はない。いずれか1つまたは2つ以上の処理が実行された場合にも、操作者は利用者と対話し易い。各処理を実行するかどうかを操作者が設定し、実行しない処理については、図9-図12に示した制御処理においてスキップされる。 In the first embodiment, when the operator is not speaking, the avatar changes the same facial expression as the user's facial expression to be favorable to the operator, or changes the line of sight as appropriate. If the operator is speaking, the avatar may express the same facial expression as the operator's, or make the avatar nod as appropriate. However, it is not necessary for all of these processes to be performed. Even when one or more processes are executed, the operator can easily interact with the user. The operator sets whether or not to execute each process, and processes that are not executed are skipped in the control process shown in FIGS. 9 to 12.
一例として、操作者が発話していない場合に、利用者の表情と同じ表情を操作者に対して好意的に変更してアバターに表現させる処理を実行しない場合には、ステップS7で“NO”の場合に、図10に示すステップS9およびS13の処理がスキップされ、ステップS17の処理に移行される。したがって、ステップS11およびステップS15の処理が実行されることはない。なお、この場合には、利用者側端末12から撮影画像データを送信しなくてもよい。
For example, if the operator is not speaking and the avatar does not want to perform a process of changing the same facial expression as the user's facial expression to make it more favorable to the operator, select "NO" in step S7. In this case, the processes of steps S9 and S13 shown in FIG. 10 are skipped, and the process proceeds to step S17. Therefore, the processes of step S11 and step S15 are never executed. Note that in this case, it is not necessary to transmit the photographed image data from the
また、操作者発話していない場合に、適宜視線を逸らす処理を実行しない場合には、ステップS17の処理を実行した場合に、ステップS19の処理がスキップされ、ステップS23の処理に移行される。 Further, if the operator does not speak and the process of averting the line of sight is not performed, the process of step S19 is skipped and the process proceeds to step S23 when the process of step S17 is executed.
さらに、操作者が発話している場合に、操作者の表情と同じ表情をアバターに表現させる処理を実行しない場合には、ステップS29で“NO”の場合に、ステップS35およびS39の処理がスキップされ、ステップS41の処理に移行される。したがって、ステップS37およびS43が実行されることはない。 Furthermore, if the operator does not want to perform the process of making the avatar express the same facial expression as the operator's facial expression when the operator is speaking, if "NO" in step S29, the processes of steps S35 and S39 are skipped. The process then proceeds to step S41. Therefore, steps S37 and S43 are never executed.
さらにまた、操作者が発話している場合に、適宜頷き動作を行わせる処理を実行しない場合には、ステップS27の処理が実行されると、ステップS29の処理がスキップされ、ステップS35に移行する。したがって、ステップS31およびS33の処理が実行されることはない。 Furthermore, if the process of causing the operator to nod appropriately while speaking is not executed, once the process of step S27 is executed, the process of step S29 is skipped and the process moves to step S35. . Therefore, the processes of steps S31 and S33 are never executed.
説明は省略するが、2つ以上の処理を実行しない場合には、上記のように、該当する処理がスキップされる。 Although the explanation is omitted, if two or more processes are not executed, the corresponding process is skipped as described above.
なお、第1実施例では、利用者および操作者の表情を顔画像から認識するようにしたが、これに限定される必要はない。利用者および操作者の表情は、利用者および操作者の音声からそれぞれ認識することもできる。音声から人間の表情を推定する手法としては、公知技術を用いることができる。たとえば、特開2021-12285号および「森 大毅:音声から感情・態度の理解、電子情報通信学会誌 Vol. 101, No. 9, 2018」などに開示された技術を用いることができる。 Note that in the first embodiment, the facial expressions of the user and the operator are recognized from the facial images, but there is no need to be limited to this. The facial expressions of the user and the operator can also be recognized from the voices of the user and the operator, respectively. Known techniques can be used as a method for estimating human facial expressions from voice. For example, the technology disclosed in Japanese Patent Application Laid-Open No. 2021-12285 and "Daiki Mori: Understanding Emotions and Attitudes from Speech, Journal of the Institute of Electronics, Information and Communication Engineers Vol. 101, No. 9, 2018" can be used.
また、第1実施例では、操作者が発話している場合には、操作者の表情を認識し、予め設定された微笑みの度合で、利用者に対応するアバターに微笑む表情を表現させたり、予め設定された悲しみの度合で、利用者に対応するアバターに悲しい表情を表現させたりしたが、これに限定される必要はない。操作者の顔画像から、操作者の表情の度合を認識することも可能であるため、認識した操作者の表情の度合で、アバターに微笑む表情または悲しい表情を表現させるようにしてもよい。 Further, in the first embodiment, when the operator is speaking, the operator's facial expression is recognized, and the avatar corresponding to the user is made to express a smiling expression with a preset smile level, Although the avatar corresponding to the user expresses a sad expression based on a preset degree of sadness, the present invention is not limited to this. Since it is possible to recognize the degree of the operator's facial expression from the operator's face image, the avatar may be made to express a smiling expression or a sad expression based on the recognized degree of the operator's facial expression.
さらに、第1実施例では、操作者の音声が途切れたタイミング、または、操作者が利用者に同意を求めている内容を発話したタイミングで、利用者に対応するアバターに頷き動作を行わせるようにしたが、これに限定される必要はない。頷く動作が多い場合または少ない場合には、操作者が発話し難い場合もあるため、頷く動作を行う頻度を設定することも可能である。頷く動作を行う頻度は、設定パラメータとして記憶される。頷く動作を行う頻度が少なくされた場合には、操作者の音声が途切れたタイミング、または、操作者が利用者に同意を求めている内容を発話したタイミングになった場合でも、少なくする割合に応じて、頷く動作が実行されない。一方、頷く動作を行う頻度が少なくされた場合には、操作者の音声が途切れたタイミング、または、操作者が利用者に同意を求めている内容を発話したタイミングになった場合だけでなく、多くする割合に応じて、直前の頷きの動作から第4所定時間(たとえば、0.5秒から数秒)経過した場合にも頷く動作が実行される。 Furthermore, in the first embodiment, the avatar corresponding to the user is made to nod when the operator's voice is interrupted or when the operator utters the content for which the user is requested to consent. However, there is no need to be limited to this. If the number of nods is large or small, it may be difficult for the operator to speak, so it is also possible to set the frequency of nodding. The frequency of nodding is stored as a setting parameter. If the frequency of nodding is reduced, even if the operator's voice is interrupted or the operator has uttered the content for which the user is requesting consent, the frequency of nodding will be reduced. Accordingly, the nodding action is not performed. On the other hand, if the frequency of nodding is reduced, it will occur not only when the operator's voice is interrupted or when the operator utters the content for which the user is requesting consent. Depending on the increasing rate, the nodding motion is also performed when a fourth predetermined time (for example, from 0.5 seconds to several seconds) has elapsed since the previous nodding motion.
さらにまた、第1実施例では、利用者の表情を操作者に対して好意的に変更した度合で利用者に対応するアバターを表現させることにより、操作者が対話し易い状況を作るようにしたが、これに限定される必要はない。利用者が強面または不機嫌そうに見える顔であり、怒りの表情または不機嫌な表情が認識された場合には、怒りまたは不機嫌の度合を低減したり、喜びの表情に変換したりして、操作者が対話し易い状況を作るようにしてもよい。怒りまたは不機嫌の度合を低減すること、または、喜びの表情に変換することは、操作者が設定したり、解除したりできるようにしてもよい。ただし、低減する怒りまたは不機嫌の度合は設定パラメータに設定される。このように、利用者の表情を操作者に対して好意的に変更した度合で利用者に対応するアバターを表現させたり、利用者の表情を操作者に対して好意的な表情に変更して利用者に対応するアバターを表現させたりするようにしてもよい。 Furthermore, in the first embodiment, a situation is created in which it is easy for the operator to interact by having the user express an avatar corresponding to the degree to which the user's facial expression has been changed in a way that is favorable to the operator. However, it is not necessary to be limited to this. If the user's face looks tough or displeased and an angry or displeased expression is recognized, the operator can reduce the degree of anger or displeasure or change the expression to a happy one. It is also possible to create a situation where it is easy for people to interact with each other. The operator may be able to set or cancel the reduction of the degree of anger or displeasure, or the conversion to a happy expression. However, the degree of anger or displeasure to be reduced is set in a configuration parameter. In this way, the degree to which the user's facial expression is changed to be favorable toward the operator is expressed as the corresponding avatar, or the user's facial expression is changed to a favorable facial expression toward the operator. It may also be possible to have the user express a corresponding avatar.
<第2実施例>
第2実施例では、利用者側端末12で、利用者の表情を認識するとともに、利用者の視線および頭部の動きを検出し、認識した利用者の表情および検出した利用者の視線および頭部の動きを操作者側端末16に送信するようにした以外は、第1実施例と同じであるため、異なる内容について説明し、重複した説明についての説明は省略する。
<Second example>
In the second embodiment, the user-
したがって、第2実施例では、表情認識プログラム302iは、利用者側端末12にも記憶される。また、視線および頭部の動き検出プログラム302jは、利用者側端末12に記憶され、操作者側端末16から削除される。
Therefore, in the second embodiment, the facial expression recognition program 302i is also stored in the
具体的には、図13に示すように、操作者側端末16のCPU50の制御処理の一部が変更され、図14に示すように、利用者側端末12のCPU20の送受信処理の一部が変更される。
Specifically, as shown in FIG. 13, part of the control processing of the
第2実施例では、CPU50の制御処理から、ステップS5の利用者の表情を認識する処理と、ステップS7の利用者の視線を検出処理が削除される。
In the second embodiment, the process of recognizing the user's facial expression in step S5 and the process of detecting the user's line of sight in step S7 are deleted from the control process of the
また、第2実施例では、CPU20の送受信処理から、ステップS109の撮影画像を操作者側端末16に送信する処理が削除され、ステップS107とS111の間に、利用者の表情を認識するステップS121の処理、利用者の視線および頭部の動きを検出するステップS123の処理および利用者の表情および視線および頭部の動きを操作者側端末16に送信するステップS125の処理がその順番で追加される。
Further, in the second embodiment, the process of transmitting the photographed image in step S109 to the
第2実施例においても、第1実施例と同様に、対話の相手である利用者と対話し易く、利用者に応対し易くすることができる。 In the second embodiment, as in the first embodiment, it is possible to easily interact with the user who is the other party of the dialog, and to respond to the user.
なお、上述の各実施例では、利用者側端末および操作者側端末がネットワークを介して通信するようにしたが、利用者側端末および操作者側端末はネットワークおよびサーバを介して通信するようにしてもよい。この場合、サーバは、利用者側端末から操作者側端末に送信した画像データを受信した場合に、受信した画像データに基づいて、利用者の表情を認識するとともに、利用者の視線および頭部の動きを検出して、受信した画像データに代えて、利用者の表情、利用者の視線および利用者の頭部の動きについてのデータを操作者側端末に送信するようにしてもよい。 In each of the above embodiments, the user terminal and the operator terminal communicate via the network, but the user terminal and the operator terminal communicate via the network and the server. It's okay. In this case, when the server receives image data sent from the user terminal to the operator terminal, the server recognizes the user's facial expression based on the received image data, and also recognizes the user's line of sight and head position. , and instead of the received image data, data regarding the user's facial expression, the user's line of sight, and the movement of the user's head may be transmitted to the operator side terminal.
また、上述の各実施例では、ショッピングサイトの利用者とこの利用者に応対する操作者が対話する場合について説明したが、これに限定される必要はない。2人または3人以上の参加者がビデオ通話またはウェブ会議する場合に、対話する相手または会議に参加する他の参加者の各々に対応するアバターの画像を、各参加者が使用する端末の表示装置に表示し、各アバターを上述の実施例で示した方法で個別に制御するようにしてもよい。 Further, in each of the above-described embodiments, a case has been described in which a user of a shopping site and an operator who serves the user interact, but the present invention is not limited to this. When two or more participants are in a video call or web conference, the device used by each participant displays an avatar image corresponding to each person with whom to interact or other participants participating in the conference. The information may be displayed on the device and each avatar may be individually controlled using the method shown in the above embodiment.
さらに、上述の各実施例で示したフロー図の各ステップは同じ結果が得られる場合には、処理する順番を変更することが可能である。 Furthermore, the order of processing of each step in the flowcharts shown in each of the above embodiments can be changed if the same result is obtained.
さらにまた、上述の各実施例で挙げた各種の画面、具体的数値はいずれも単なる例示であり、必要に応じて適宜変更可能である。 Furthermore, the various screens and specific numerical values mentioned in each of the above-mentioned embodiments are merely examples, and can be changed as necessary.
10 …情報処理システム
12 …利用者側端末
14 …ネットワーク
16 …操作者側端末
18 …サーバ
18a、20、50 …CPU
18b、22、52 …記憶部
24、54 …通信I/F
26、56 …入出力I/F
28、58 …入力装置
30、60 …表示装置
32、62 …マイク
34、64 …スピーカ
36、66 …センサI/F
38、68 …カメラ
10...
18b, 22, 52...
26, 56...Input/output I/F
28, 58...
38, 68...camera
Claims (11)
前記操作者の顔画像を撮影する撮影手段、
前記音声検出手段によって前記操作者音声を検出している場合に、前記撮影手段によって撮影された前記操作者の顔画像に基づいて前記操作者の表情を認識する第1認識手段、
前記第1認識手段によって認識された前記操作者の表情が所定の第1の表情である場合に、前記所定の第1の表情と同じ表情を表現する、対話の相手である前記利用者に対応するアバターの画像を表示装置に表示するアバター表示手段、および
前記音声検出手段によって検出された前記操作者音声を前記利用者が使用する利用者側端末に送信する送信手段を備える、情報処理装置。 voice detection means for detecting operator voice, which is voice uttered by an operator interacting with a user;
a photographing means for photographing a face image of the operator;
a first recognition means for recognizing the facial expression of the operator based on a facial image of the operator photographed by the photographing means when the voice of the operator is detected by the voice detecting means;
When the facial expression of the operator recognized by the first recognition means is a predetermined first facial expression, the user who is the other party of the interaction expresses the same facial expression as the predetermined first facial expression. An information processing device comprising: avatar display means for displaying an image of an avatar on a display device; and transmission means for transmitting the operator voice detected by the voice detection means to a user terminal used by the user.
前記タイミング判断手段によって前記頷きのタイミングであることが判断された場合に、前記アバターに頷き動作を実行させるアバター制御手段をさらに備える、請求項1または2記載の情報処理装置。 a timing determining means for determining whether or not it is the timing of the nod based on the operator's voice when the voice of the operator is detected by the voice detecting means; 3. The information processing apparatus according to claim 1, further comprising avatar control means for causing the avatar to perform a nodding motion when it is determined that this is the case.
前記音声検出手段によって前記操作者音声を検出していない場合に、前記受信手段によって受信された前記利用者の顔画像に基づいて前記利用者の表情を認識する第2認識手段をさらに備え、
前記アバター表示手段は、前記第2認識手段によって認識された前記利用者の表情が所定の第2の表情である場合に、前記所定の第2の表情と同じ表情を前記操作者に好意的に変更して前記アバターに表現させる、請求項1から3までのいずれかに記載の情報処理装置。 a receiving means for receiving the user's face image transmitted from the user-side terminal; and a receiving means for receiving the user's face image transmitted from the user-side terminal; further comprising a second recognition means for recognizing the user's facial expression based on the facial image,
When the user's facial expression recognized by the second recognition device is a predetermined second facial expression, the avatar display means displays the same facial expression as the predetermined second facial expression favorably to the operator. The information processing device according to any one of claims 1 to 3, wherein the information processing device is changed and expressed by the avatar.
前記第2認識手段は、前記利用者の微笑む表情および不機嫌な表情の度合をさらに認識し、
前記アバター表示手段は、前記利用者の表情が前記微笑む表情である場合に、微笑みの度合を強調して前記アバターに表現させ、前記利用者の表情が前記不機嫌な表情である場合に、不機嫌の度合を緩和して前記アバターに表現させる、請求項4記載の情報処理装置。 The predetermined second expression is a smiling expression and a displeased expression,
The second recognition means further recognizes the degree of a smiling expression and a displeased expression of the user,
The avatar display means causes the avatar to emphasize the degree of smile when the user's facial expression is the smiling expression, and displays a moody expression when the user's facial expression is the displeased expression. 5. The information processing apparatus according to claim 4, wherein the avatar is made to express the expression by relaxing the degree of expression.
前記アバター表示手段は、前記音声検出手段によって前記操作者音声を検出していない場合に、前記受信手段によって受信された前記利用者の表情が所定の第2の表情である場合に、前記所定の第2の表情と同じ表情を前記操作者に好意的に変更して前記アバターに表現させる、請求項1から3までのいずれかに記載の情報処理装置。 further comprising receiving means for receiving the facial expression of the user transmitted from the user-side terminal,
The avatar display means displays the predetermined second expression when the user's facial expression received by the receiving means is a predetermined second expression when the voice detection means does not detect the operator voice. 4. The information processing apparatus according to claim 1, wherein the avatar is made to express the same facial expression as the second facial expression in a manner favorable to the operator.
前記受信手段は、前記利用者の微笑む表情および不機嫌な表情の度合をさらに受信し、
前記アバター表示手段は、前記利用者の表情が前記微笑む表情である場合に、微笑みの度合を強調して前記アバターに表現させ、前記利用者の表情が前記不機嫌な表情である場合に、不機嫌の度合を緩和して前記アバターに表現させる、請求項6記載の情報処理装置。 The predetermined second expression is a smiling expression and a displeased expression,
The receiving means further receives the degree of smiling expression and displeased expression of the user,
The avatar display means causes the avatar to emphasize the degree of smile when the user's facial expression is the smiling expression, and displays a moody expression when the user's facial expression is the displeased expression. 7. The information processing apparatus according to claim 6, wherein the avatar expresses the expression by relaxing the degree of expression.
前記アバター表示手段は、前記視線検出手段によって検出された前記利用者の視線に合わせて前記アバターの視線を設定し、前記音声検出手段によって前記操作者音声を検出していない場合に、前記視線検出手段によって検出された前記利用者の視線が正面を向いている時間が第1所定時間を経過すると、前記利用者の視線に関係無く、前記アバターの視線を第2所定時間逸らす、請求項1から5までのいずれかに記載の情報処理装置。 Further comprising a line of sight detection means for detecting the line of sight of the user based on the facial image of the user received by the receiving means,
The avatar display means sets the line of sight of the avatar according to the line of sight of the user detected by the line of sight detection means, and when the voice detection means does not detect the operator voice, the line of sight detection means From claim 1, wherein when the time during which the user's line of sight is facing forward, as detected by the means, has elapsed for a first predetermined time, the line of sight of the avatar is averted for a second predetermined time regardless of the user's line of sight. 5. The information processing device according to any one of items 5 to 5.
前記アバター表示手段は、受信した前記利用者の視線に合わせて前記アバターの視線を設定し、前記音声検出手段によって前記操作者音声を検出していない場合に、前記視線検出手段によって検出された前記利用者の視線が正面を向いている時間が第1所定時間を経過すると、前記利用者の視線に関係無く、前記アバターの視線を第2所定時間逸らす、請求項6または7記載の情報処理装置。 The receiving means further receives the user's line of sight,
The avatar display means sets the line of sight of the avatar in accordance with the received line of sight of the user, and when the voice detection means does not detect the operator voice, the avatar display means sets the line of sight of the avatar according to the received line of sight of the user, and when the voice detection means does not detect the operator voice, the line of sight detected by the line of sight detection means is set. 8. The information processing apparatus according to claim 6, wherein when the user's line of sight faces forward for a first predetermined period of time, the avatar's line of sight is averted for a second predetermined period of time regardless of the user's line of sight. .
前記情報処理装置のプロセッサに、
利用者と対話する操作者が発話した音声である操作者音声を検出する音声検出ステップ、
前記操作者の顔画像を撮影する撮影ステップ、
前記音声検出ステップにおいて前記操作者音声を検出している場合に、前記撮影ステップにおいて撮影した前記操作者の顔画像に基づいて前記操作者の表情を認識する認識ステップ、
前記認識ステップにおいて認識した前記操作者の表情が所定の表情である場合に、前記所定の表情と同じ表情を表現する、対話の相手である前記利用者に対応するアバターの画像を表示装置に表示するアバター表示ステップ、および
前記音声検出ステップにおいて検出した前記操作者音声を前記利用者が使用する利用者側端末に送信する送信ステップを実行させる、制御プログラム。 A control program executed on an information processing device,
A processor of the information processing device,
a voice detection step of detecting operator voice, which is voice uttered by an operator interacting with a user;
a photographing step of photographing a face image of the operator;
a recognition step of recognizing the facial expression of the operator based on the facial image of the operator photographed in the photographing step when the operator's voice is detected in the voice detecting step;
If the facial expression of the operator recognized in the recognition step is a predetermined facial expression, displaying on a display device an image of an avatar corresponding to the user, who is the other party of the dialogue, and which expresses the same facial expression as the predetermined facial expression. and a transmitting step of transmitting the operator's voice detected in the voice detecting step to a user terminal used by the user.
(a)利用者と対話する操作者が発話した音声である操作者音声を検出するステップ、
(b)前記操作者の顔画像を撮影するステップ、
(c)前記ステップ(a)において前記操作者音声を検出している場合に、前記撮影ステップにおいて撮影した前記操作者の顔画像に基づいて前記操作者の表情を認識するステップ、
(d)前記ステップ(c)において認識した前記操作者の表情が所定の表情である場合に、前記所定の表情と同じ表情を表現する、対話の相手である前記利用者に対応するアバターの画像を表示装置に表示するステップ、および
(e)前記ステップ(a)において検出した前記操作者音声を前記利用者が使用する利用者側端末に送信するステップを含む、制御方法。 A method for controlling an information processing device, the method comprising:
(a) detecting operator voice, which is voice uttered by an operator interacting with a user;
(b) photographing a face image of the operator;
(c) when the operator voice is detected in the step (a), recognizing the facial expression of the operator based on the facial image of the operator photographed in the photographing step;
(d) If the facial expression of the operator recognized in step (c) is a predetermined facial expression, an image of an avatar corresponding to the user, who is the other party of the dialogue, expressing the same facial expression as the predetermined facial expression. and (e) transmitting the operator's voice detected in step (a) to a user terminal used by the user.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022036795A JP2023131824A (en) | 2022-03-10 | 2022-03-10 | Information processing device, control program, and control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022036795A JP2023131824A (en) | 2022-03-10 | 2022-03-10 | Information processing device, control program, and control method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023131824A true JP2023131824A (en) | 2023-09-22 |
Family
ID=88064945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022036795A Pending JP2023131824A (en) | 2022-03-10 | 2022-03-10 | Information processing device, control program, and control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023131824A (en) |
-
2022
- 2022-03-10 JP JP2022036795A patent/JP2023131824A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948241B2 (en) | Robot and method for operating same | |
CN110609620B (en) | Human-computer interaction method and device based on virtual image and electronic equipment | |
CN108363706B (en) | Method and device for man-machine dialogue interaction | |
EP2597868B1 (en) | Enhanced interface for voice and video communications | |
JP7323098B2 (en) | Dialogue support device, dialogue support system, and dialogue support program | |
JP2016018313A (en) | Program, information processing apparatus, communication system, and communication method | |
JP6543891B2 (en) | Communication aid device, communication aid system, communication aid method and program | |
JP2023131824A (en) | Information processing device, control program, and control method | |
JP7106097B2 (en) | telepresence system | |
JP2014030865A (en) | Sight line control device, sight line control method, sight line control program, and terminal equipment | |
JP2023131825A (en) | Information processing device, control program, and control method | |
CN111292743B (en) | Voice interaction method and device and electronic equipment | |
JP2023072110A (en) | Information processing device, control program and control method | |
JP2021086474A (en) | Avatar control system | |
WO2023080105A1 (en) | Online terminal and program | |
JP2023072111A (en) | Information processing apparatus, control program, control method, and information processing system | |
WO2022215725A1 (en) | Information processing device, program, and information processing method | |
US12118652B2 (en) | Text-description based generation of avatars for artificial intelligence characters | |
WO2023233482A1 (en) | Conversation support device, conversation support method, and program | |
JP2024088982A (en) | Information processing device, information processing system, control program, and control method | |
JP2023147481A (en) | Information processing apparatus, information processing system, control program, and control method | |
JP7123028B2 (en) | Information processing system, information processing method, and program | |
JP2024088983A (en) | Information processing system and information processing method | |
KR100799160B1 (en) | Method for coordinating robot and messenger and device thereof | |
JP2022100996A (en) | Conversation control apparatus, conversation control method, and computer program |