JP2021111239A - Providing system, providing method, providing device, and computer program - Google Patents
Providing system, providing method, providing device, and computer program Download PDFInfo
- Publication number
- JP2021111239A JP2021111239A JP2020003983A JP2020003983A JP2021111239A JP 2021111239 A JP2021111239 A JP 2021111239A JP 2020003983 A JP2020003983 A JP 2020003983A JP 2020003983 A JP2020003983 A JP 2020003983A JP 2021111239 A JP2021111239 A JP 2021111239A
- Authority
- JP
- Japan
- Prior art keywords
- user
- emotion
- unit
- concentration
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 67
- 238000004590 computer program Methods 0.000 title claims description 9
- 230000008451 emotion Effects 0.000 claims abstract description 664
- 230000005540 biological transmission Effects 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 description 128
- 238000012545 processing Methods 0.000 description 99
- 238000013528 artificial neural network Methods 0.000 description 54
- 238000000926 separation method Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 21
- 230000002996 emotional effect Effects 0.000 description 14
- 238000012417 linear regression Methods 0.000 description 12
- 238000007477 logistic regression Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 238000007637 random forest analysis Methods 0.000 description 12
- 238000012706 support-vector machine Methods 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 8
- 238000010191 image analysis Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 206010015535 Euphoric mood Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本開示は、提供システム、提供方法、提供装置、及びコンピュータプログラムに関する。 The present disclosure relates to a providing system, a providing method, a providing device, and a computer program.
従来、ネットワークを介してユーザ同士がコミュニケーションを図る電子会議システムが提案されている(例えば、特許文献1参照)。 Conventionally, an electronic conference system has been proposed in which users communicate with each other via a network (see, for example, Patent Document 1).
特許文献1に記載のような電子会議システムでは、通常のフェイストゥーフェイスの会議と比較して、対話相手の顔が画面上に小さく映ったりだとか、互いの目線が合いにくいなどの理由により、互いの意思疎通が図りにくい。このため、会議の生産性が低くなるという課題がある。
In an electronic conference system as described in
また、話者に対して反対の意見を持っていたとしても、目上の人に対しては意見を言い出しにくく、建設的な議論にならない場合もある。 In addition, even if you have an opinion against the speaker, it may be difficult to give an opinion to your superiors, and it may not be a constructive discussion.
これは、ネットワーク越しの会話では、聞き手の感情が話者に伝わりにくいという事情からであると考えられる。 This is thought to be due to the fact that it is difficult for the listener's emotions to be conveyed to the speaker in conversations over the network.
本開示は、このような事情に鑑みてなされてものであり、ユーザ同士の円滑なコミュニケーションを支援する提供システム、提供方法、提供装置、及びコンピュータプログラムを提供することを目的とする。 The present disclosure has been made in view of such circumstances, and an object of the present disclosure is to provide a providing system, a providing method, a providing device, and a computer program that support smooth communication between users.
本開示の一態様に係る提供システムは、話者である第1ユーザの音声を聴取する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。 The providing system according to one aspect of the present disclosure includes an image acquisition unit that acquires an image of the second user, which is obtained by photographing a second user who listens to the voice of the first user who is a speaker. A determination unit that determines at least one of the emotion and concentration of the second user based on the video of the second user, and a providing unit that provides the determination result by the determination unit to the first user. ..
本開示の他の態様に係る提供方法は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得するステップと、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断するステップと、前記判断するステップにおける判断結果を、前記第1ユーザに提供するステップとを含む。 The providing method according to another aspect of the present disclosure includes a step of acquiring the video of the second user, which is obtained by photographing the second user who views the voice and video of the first user who is the speaker, and the acquisition. It includes a step of determining at least one of the emotion and concentration of the second user based on the video of the second user, and a step of providing the determination result in the determination step to the first user. ..
本開示の他の態様に係る提供装置は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。 The providing device according to another aspect of the present disclosure includes a video acquisition unit that acquires the video of the second user, which is obtained by photographing the second user who views the voice and video of the first user who is the speaker. A determination unit that determines at least one of the emotion and concentration of the second user based on the acquired video of the second user, and a providing unit that provides the determination result by the determination unit to the first user. And.
本開示の他の態様に係るコンピュータプログラムは、コンピュータを、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部として機能させる。 The computer program according to another aspect of the present disclosure is a video for acquiring the video of the second user, which is obtained by photographing the computer with a second user who watches the voice and video of the first user who is a speaker. The acquisition unit, a determination unit that determines at least one of the emotion and concentration of the second user based on the acquired video of the second user, and the determination result by the determination unit are provided to the first user. To function as a provider.
なお、コンピュータプログラムを、CD−ROM(Compact Disc-Read Only Memory)等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。また、本開示は、提供装置の一部又は全部を実現する半導体集積回路として実現したり、提供装置を含む提供システムとして実現したりすることもできる。 Needless to say, computer programs can be distributed via computer-readable non-temporary recording media such as CD-ROMs (Compact Disc-Read Only Memory) and communication networks such as the Internet. Further, the present disclosure can be realized as a semiconductor integrated circuit that realizes a part or all of the providing device, or can be realized as a providing system including the providing device.
本開示によると、ユーザ同士の円滑なコミュニケーションを支援することができる。 According to the present disclosure, it is possible to support smooth communication between users.
[本開示の実施形態の概要]
最初に本開示の実施形態の概要を列記して説明する。
(1)本開示の一実施形態に係る提供システムは、話者である第1ユーザの音声を聴取する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。
[Summary of Embodiments of the present disclosure]
First, an outline of the embodiments of the present disclosure will be listed and described.
(1) The providing system according to the embodiment of the present disclosure is an image acquisition unit that acquires an image of the second user, which is obtained by photographing a second user who listens to the voice of the first user who is a speaker. A determination unit that determines at least one of the emotion and concentration of the second user based on the acquired video of the second user, and a determination result by the determination unit are provided to the first user. It has a part.
この構成によると、第1ユーザの発話内容の聞き手である第2ユーザの感情及び集中度の少なくとも一方の判断結果が、第1ユーザに提供される。このため、第1ユーザは、自分の発話内容に対し、第2ユーザがどのような感情を抱いているか、又は第2ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第1ユーザは、例えば、発話内容に対して否定的な感情を抱く第2ユーザに対して質問を行ったり、第2ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。 According to this configuration, the determination result of at least one of the emotion and the concentration of the second user who is the listener of the utterance content of the first user is provided to the first user. Therefore, the first user can know what kind of emotion the second user has with respect to the content of his / her utterance, or whether the second user concentrates on listening to the story. On the other hand, the first user asks a question to the second user who has a negative feeling about the utterance content, or changes the topic when the second user is not concentrated. It can be performed. This makes it possible to support smooth communication between users.
(2)好ましくは、前記提供システムは、さらに、前記第2ユーザの音声を取得する音声取得部を備え、前記判断部は、取得された前記第2ユーザの映像及び音声に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する。 (2) Preferably, the providing system further includes an audio acquisition unit that acquires the audio of the second user, and the determination unit is based on the acquired video and audio of the second user. 2 Judge at least one of the user's emotions and concentration.
この構成によると、第2ユーザの音声を考慮して第2ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第2ユーザの映像だけを用いて感情及び集中度の少なくとも一方を判断する場合に比べ、第2ユーザの感情又は集中度を高精度で判断することができる。 According to this configuration, at least one of the emotion and the degree of concentration of the second user can be determined in consideration of the voice of the second user. Therefore, the emotion or concentration of the second user can be determined with higher accuracy than in the case of determining at least one of the emotion and the concentration of the second user using only the video of the second user.
(3)さらに好ましくは、前記提供システムは、ネットワークを介して相互に接続される第1装置及び第2装置を備え、前記第1装置は、前記第1ユーザの音声及び映像を取得する第1取得部と、取得された前記第1ユーザの音声及び映像を前記第2装置に送信する第1送信部と、前記第2装置から、前記第2ユーザの音声及び映像を受信する第1受信部と、受信された前記第2ユーザの音声及び映像と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、前記第2装置は、前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、取得された前記第2ユーザの音声及び映像を前記第1装置に送信する第2送信部と、前記第1装置から、前記第1ユーザの音声及び映像を受信する第2受信部と、受信された前記第1ユーザの音声及び映像を出力する第2出力部とを含む。 (3) More preferably, the provided system includes a first device and a second device connected to each other via a network, and the first device acquires audio and video of the first user. An acquisition unit, a first transmission unit that transmits the acquired audio and video of the first user to the second device, and a first reception unit that receives the audio and video of the second user from the second device. The second device includes a first output unit as the providing unit that outputs the received audio and video of the second user and the determination result by the determination unit. A second acquisition unit as the audio acquisition unit and the video acquisition unit that acquires audio and video, a second transmission unit that transmits the acquired audio and video of the second user to the first device, and the above. It includes a second receiving unit that receives the audio and video of the first user from the first device, and a second output unit that outputs the received audio and video of the first user.
この構成によると、第1ユーザと第2ユーザとの間でネットワーク越しに対話を行い、第2ユーザの感情及び集中度の少なくとも一方の判断結果を第1ユーザに提供することができる。このため、例えば、第1ユーザを会議の進行役とする電子会議システムにおいて、第1ユーザが第2ユーザの感情又は集中度を把握しながら、第2ユーザに適宜意見を求めたりしながら議事を進行することができる。これにより、議論を建設的なものとし、生産性の高い会議を実現することができる。なお、判断部は、第2ユーザの場合と同様に、第1ユーザの音声及び映像から第1ユーザの感情及び集中度の少なくとも一方を判断し、第2装置の第2出力部が、第1ユーザの感情及び集中度の少なくとも一方の判断結果を出力するようにしてもよい。これにより、第1ユーザ及び第2ユーザは、相互に相手の感情又は集中度を把握することができる。 According to this configuration, it is possible to have a dialogue between the first user and the second user over the network and provide the first user with the determination result of at least one of the emotion and the concentration of the second user. Therefore, for example, in an electronic conference system in which the first user is the facilitator of the conference, the first user grasps the emotion or concentration of the second user and asks the second user for opinions as appropriate. You can proceed. This makes the discussion constructive and enables highly productive meetings. As in the case of the second user, the determination unit determines at least one of the emotion and concentration of the first user from the audio and video of the first user, and the second output unit of the second device is the first. The judgment result of at least one of the user's emotion and concentration may be output. As a result, the first user and the second user can mutually grasp the emotions or the degree of concentration of the other party.
(4)また、前記判断部は、前記第1装置に備えられ、前記第1受信部が受信した前記第2ユーザの音声及び映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断してもよい。 (4) Further, the determination unit is provided in the first device, and at least one of the emotion and concentration of the second user is based on the audio and video of the second user received by the first receiving unit. May be judged.
この構成によると、第1装置が、第2装置から送信される第2ユーザの音声及び映像に基づいて、第2ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第1装置は、第2ユーザの音声及び映像と第2ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第2ユーザの音声及び映像と第2ユーザの感情又は集中度とを正確に対応付けて第1ユーザに提供することができる。 According to this configuration, the first device can determine at least one of the emotion and concentration of the second user based on the audio and video of the second user transmitted from the second device. Therefore, the first device can accurately synchronize the audio and video of the second user with the emotion or concentration of the second user. As a result, the audio and video of the second user can be accurately associated with the emotion or concentration of the second user and provided to the first user.
(5)また、前記提供システムは、ネットワークを介して相互に接続される第1装置及び第2装置を備え、前記第1装置は、前記第1ユーザの音声を取得する第1取得部と、取得された前記第1ユーザの音声を前記第2装置に送信する第1送信部と、前記第2装置から、前記第2ユーザの音声を受信する第1受信部と、受信された前記第2ユーザの音声と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、前記第2装置は、前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、取得された前記第2ユーザの音声を前記第1装置に送信する第2送信部と、前記第1装置から、前記第1ユーザの音声を受信する第2受信部と、受信された前記第1ユーザの音声を出力する第2出力部とを含み、前記判断部は、前記第2装置に備えられ、前記第2取得部が取得した前記第2ユーザの音声及び映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断し、前記第2送信部は、さらに、前記判断部による判断結果を送信し、前記第1受信部は、さらに、前記判断部による判断結果を受信し、前記第1出力部は、前記第1受信部が受信した前記判断部による判断結果を出力してもよい。 (5) Further, the provided system includes a first device and a second device connected to each other via a network, and the first device includes a first acquisition unit for acquiring the voice of the first user. The first transmitting unit that transmits the acquired voice of the first user to the second device, the first receiving unit that receives the acquired voice of the second user from the second device, and the second that has been received. The second device acquires the voice and video of the second user, including the first output unit as the providing unit, which outputs the voice of the user and the judgment result by the determination unit. A second acquisition unit as a unit and the video acquisition unit, a second transmission unit that transmits the acquired voice of the second user to the first device, and the voice of the first user from the first device. The second receiving unit for receiving and the second output unit for outputting the received voice of the first user are included, and the determining unit is provided in the second device and acquired by the second acquisition unit. Based on the audio and video of the second user, at least one of the emotion and the degree of concentration of the second user is determined, and the second transmission unit further transmits the determination result by the determination unit and receives the first reception. The unit may further receive the determination result by the determination unit, and the first output unit may output the determination result by the determination unit received by the first receiving unit.
この構成によると、第2装置から第1装置に第2ユーザの映像を送信することなく、第2装置が第2ユーザの感情及び集中度の少なくとも一方の判断結果を、第2ユーザの音声とともに第1装置に送信することができる。このため、第2装置から第1装置への伝送データを削減しつつ、第2ユーザの感情又は集中度の判断結果を第1装置に送信することができる。また、第2装置から第1装置へ映像を送信する必要がない。このため、例えば、第1出力部は、第2ユーザの映像の代わりに、第2ユーザの感情に基づく表情を有する第2ユーザのアバターを表示装置に出力することもできる。これにより、第2ユーザのプライバシーを保護することもできる。 According to this configuration, the second device determines at least one of the emotions and the concentration of the second user together with the voice of the second user without transmitting the image of the second user from the second device to the first device. It can be transmitted to the first device. Therefore, it is possible to transmit the determination result of the emotion or the degree of concentration of the second user to the first device while reducing the transmission data from the second device to the first device. Further, it is not necessary to transmit the video from the second device to the first device. Therefore, for example, the first output unit can output the avatar of the second user having a facial expression based on the emotion of the second user to the display device instead of the video of the second user. Thereby, the privacy of the second user can also be protected.
(6)また、前記第2装置は、さらに、前記第2ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、前記第2ユーザに対して発言を促す発言促進部を備えてもよい。 (6) Further, the second device may further include a speech promotion unit that prompts the second user to speak based on the determination result of at least one of the emotion and the concentration of the second user. ..
この構成によると、例えば、第2ユーザが第1ユーザの発話内容に対して否定的な感情を抱いていたり、第2ユーザが集中していない場合などに、第2ユーザに発言を促すことができる。これにより、議論を有意義なものとし、ユーザ同士の円滑なコミュニケーションを支援することができる。 According to this configuration, for example, when the second user has a negative feeling toward the utterance content of the first user, or when the second user is not concentrated, the second user can be prompted to speak. can. This makes the discussion meaningful and supports smooth communication between users.
(7)また、前記提供システムは、さらに、前記判断部による判断結果に基づいて、前記第1ユーザと前記第2ユーザとの対話における前記第2ユーザの貢献度を算出する算出部を備えてもよい。 (7) Further, the providing system further includes a calculation unit that calculates the degree of contribution of the second user in the dialogue between the first user and the second user based on the judgment result by the judgment unit. May be good.
この構成によると、第2ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、第2ユーザの対話における貢献度を算出することができる。例えば、対話に集中していた第2ユーザの貢献度を高く算出したり、軽蔑や嫌悪の感情が低く、喜びや驚きの感情が高い第2ユーザの貢献度を高く算出したりすることが可能である。 According to this configuration, the degree of contribution in the dialogue of the second user can be calculated based on the judgment result of at least one of the emotion and the degree of concentration of the second user. For example, it is possible to calculate the contribution of the second user who was concentrating on the dialogue high, or to calculate the contribution of the second user who has low feelings of contempt and disgust and high feelings of joy and surprise. Is.
(8)また、前記判断部は、さらに、前記第2ユーザの感情及び集中度の少なくとも一方の判断結果の履歴に基づいて、当該第2ユーザの感情及び集中度の少なくとも一方の判断結果を補正してもよい。 (8) Further, the judgment unit further corrects the judgment result of at least one of the emotion and concentration of the second user based on the history of the judgment result of at least one of the emotion and concentration of the second user. You may.
この構成によると、感情又は集中度の判断結果をスコアにより表現した場合に、感情の起伏や集中度の変化が相対的に小さい第2ユーザの各スコアと、感情の起伏や集中度の変化が相対的に大きい第2ユーザの各スコアとを正規化又は標準化することができる。これにより、第2ユーザ間で感情又は集中度を正確に比較することができる。 According to this configuration, when the judgment result of emotion or concentration is expressed by a score, each score of the second user in which the change in emotional ups and downs and concentration is relatively small, and the change in emotional ups and downs and concentration are Each score of the relatively large second user can be normalized or standardized. This makes it possible to accurately compare emotions or concentration levels among the second users.
(9)本開示の他の実施形態に係る提供方法は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得するステップと、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断するステップと、前記判断するステップにおける判断結果を、前記第1ユーザに提供するステップとを含む。 (9) The providing method according to another embodiment of the present disclosure acquires the video of the second user obtained by photographing the second user who views the voice and video of the first user who is the speaker. The first user is provided with a step of determining at least one of the emotion and concentration of the second user based on the step and the acquired video of the second user, and a determination result in the determination step. Including steps.
この構成は、上述の提供システムが備える特徴的な処理部に対応するステップを含む。このため、この構成によると、上述の提供システムと同様の作用及び効果を奏することができる。 This configuration includes steps corresponding to the characteristic processing units included in the above-mentioned providing system. Therefore, according to this configuration, the same operation and effect as the above-mentioned providing system can be obtained.
(10)本開示の他の実施形態に係る提供装置は、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える。 (10) The providing device according to another embodiment of the present disclosure acquires the video of the second user obtained by photographing the second user who views the voice and video of the first user who is the speaker. Based on the video acquisition unit and the acquired video of the second user, a determination unit that determines at least one of the emotion and concentration of the second user, and a determination result by the determination unit are transmitted to the first user. It has a providing unit to provide.
この構成によると、第1ユーザの発話内容に聞き手である第2ユーザの感情及び集中度の少なくとも一方の判断結果が、第1ユーザに提供される。このため、第1ユーザは、自分の発話内容に対し、第2ユーザがどのような感情を抱いているか、又は第2ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第2ユーザは、例えば、発話内容に対して否定的な感情を抱く第2ユーザに対して質問を行ったり、第2ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。 According to this configuration, the judgment result of at least one of the emotion and the concentration of the second user who is the listener is provided to the first user in the utterance content of the first user. Therefore, the first user can know what kind of emotion the second user has with respect to the content of his / her utterance, or whether the second user concentrates on listening to the story. On the other hand, the second user asks a question to the second user who has a negative feeling about the utterance content, or changes the topic when the second user is not concentrated. It can be performed. This makes it possible to support smooth communication between users.
(11)本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、前記判断部による判断結果を、前記第1ユーザに提供する提供部として機能させる。 (11) The computer program according to another embodiment of the present disclosure is obtained by photographing a second user who watches the voice and video of the first user who is a speaker, and the video of the second user. A determination unit that determines at least one of the emotion and concentration of the second user based on the acquired video of the second user, and a determination result by the determination unit. 1 Make it function as a provider to provide to users.
この構成によると、コンピュータを、上述の提供装置として機能させることができる。このため、上述の提供装置と同様の作用及び効果を奏することができる。 According to this configuration, the computer can function as the above-mentioned providing device. Therefore, the same operation and effect as the above-mentioned providing device can be obtained.
[本開示の実施形態の詳細]
以下、本開示の実施形態について、図面を参照しながら説明する。なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定するものではない。また、以下の実施形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。
[Details of Embodiments of the present disclosure]
Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. It should be noted that all of the embodiments described below show a specific example of the present disclosure. Numerical values, shapes, materials, components, arrangement positions and connection forms of components, steps, step order, and the like shown in the following embodiments are examples, and do not limit the present disclosure. Further, among the components in the following embodiments, the components not described in the independent claims are components that can be arbitrarily added. Further, each figure is a schematic view and is not necessarily exactly illustrated.
また、同一の構成要素には同一の符号を付す。それらの機能及び名称も同様であるため、それらの説明は適宜省略する。 Further, the same components are designated by the same reference numerals. Since their functions and names are the same, their description will be omitted as appropriate.
<実施形態1>
〔提供システムの全体構成〕
図1は、本開示の実施形態1に係る提供システムの概略構成を示す図である。提供システム1は、相互にネットワーク3を介して接続された第1装置2、第2装置4及び感情・集中力データベース(以下、「感情・集中力DB」という。)5を備える。
<
[Overall configuration of the provided system]
FIG. 1 is a diagram showing a schematic configuration of a provision system according to the first embodiment of the present disclosure. The providing
第1装置2は、例えば、第1拠点にいる1又は複数の第1ユーザの映像データ(以下、「映像」という。)及び音声データ(以下、「音声」という。)を取得し、取得した第1ユーザの映像及び音声に基づいて第1ユーザごとに第1ユーザの感情及び集中度の少なくとも一方を判断する。第1装置2は、第1ユーザの映像及び音声と、第1ユーザの感情及び集中度の少なくとも一方とを第2装置4に送信することにより第2装置4に提供する。第1装置2は、例えば、企業の一の事業所である第1拠点に設置される。
The first device 2 acquires, for example, video data (hereinafter, referred to as “video”) and audio data (hereinafter, referred to as “audio”) of one or a plurality of first users in the first base. At least one of the emotion and concentration of the first user is determined for each first user based on the video and audio of the first user. The first device 2 provides the
第2装置4は、第1装置2から、第1装置2が送信する上記データを受信する。第2装置4は、受信した第1ユーザの映像をディスプレイに表示し、受信した第1ユーザの音声をスピーカーから出力する。また、第2装置4は、受信した第1ユーザの感情及び集中度の少なくとも一方をディスプレイに表示する。ディスプレイ及びスピーカーは、第2装置4に内蔵されていてもよいし、有線又は無線により接続されていてもよい。
The
第2装置4は、例えば、第2拠点にいる1又は複数の第2ユーザの映像及び音声を取得し、取得した第2ユーザの映像及び音声に基づいて、第2ユーザごとに第2ユーザの感情及び集中度の少なくとも一方を判断する。第2装置4は、第2ユーザの映像及び音声と、第2ユーザの感情及び集中度の少なくとも一方とを第1装置2に送信することにより第1装置2に提供する。第2装置4は、例えば、上記企業の他の事業所である第2拠点に設置される。
The
第1装置2は、第2装置4から、第2装置4が送信する上記データを受信する。第1装置2は、受信した第2ユーザの映像をディスプレイに表示し、受信した第2ユーザの音声をスピーカーから出力する。また、第1装置2は、受信した第2ユーザの感情及び集中度の少なくとも一方をディスプレイに表示する。ディスプレイ及びスピーカーは、第1装置2に内蔵されていてもよいし、外部接続されていてもよい。
The first device 2 receives the data transmitted by the
感情・集中力DB5は、第1装置2及び第2装置4のそれぞれで判断されたユーザごとの感情又は集中度の判断結果の履歴を記憶する。
The emotion /
〔第1装置2の構成〕
図2は、本開示の実施形態1に係る第1装置2の機能的構成を示すブロック図である。
[Structure of First Device 2]
FIG. 2 is a block diagram showing a functional configuration of the first device 2 according to the first embodiment of the present disclosure.
第1装置2は、映像取得部21と、映像符号化部22と、映像解析部23と、音声取得部24と、音声符号化部25と、音声解析部26と、多重化部27と、感情・集中力判断部28と、第1送信部29と、第1受信部30と、分離部31と、映像復号化部32と、音声復号化部33と、感情・集中力処理部34と、表示・出力部35とを備える。
The first device 2 includes a
第1装置2は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、通信インタフェース、入出力インタフェース等を備える一般的なコンピュータにより実現することができる。例えば、HDDに記録されたコンピュータプログラムをRAM上に展開し、CPU上で実行することにより、各処理部21〜35は機能的に実現される。ただし、各処理部21〜35の一部又は全部がLSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェアにより実現されていてもよい。
The first device 2 is realized by a general computer equipped with a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), an HDD (Hard Disk Drive), a communication interface, an input / output interface, and the like. be able to. For example, by expanding the computer program recorded in the HDD on the RAM and executing it on the CPU, each processing
映像取得部21は、第1取得部として機能し、第1装置2に内蔵又は有線もしくは無線により接続されたカメラからカメラが撮影した映像を取得する。映像取得部21は、取得した映像を、映像符号化部22及び映像解析部23に出力する。
The
映像符号化部22は、映像取得部21から映像を受け、当該映像を所定の符号化方法に従い符号化する。例えば、映像符号化部22は、映像が4K映像又は8K映像の場合には、H.265/HEVC(High Efficiency Video Coding)に従って映像を符号化する。映像符号化部22は、符号化済み映像を多重化部27に出力する。
The
映像解析部23は、映像取得部21から映像を受け、映像に映っているユーザ(以下、「第1ユーザ」という)と第1ユーザの映像中の位置とを特定する。例えば、映像解析部23は、顔認識アルゴリズムを用いて映像中の第1ユーザを特定する。ただし、第1ユーザを識別するための情報(例えば、ユーザ名)と映像中の第1ユーザの位置を第1装置2の操作者が外部入力により指定するものであってもよい。
The
映像解析部23は、当該映像を解析することにより第1ユーザの感情及び集中度を判断する。つまり、映像解析部23は、入力映像に基づいて、感情の種類ごとに、感情の度合いを数値化した感情スコアを算出する。映像解析部23が解析対象とする感情の種類は、例えば、怒り、軽蔑、嫌悪、驚き、恐怖、喜び、悲しみ、驚き、幸せ、不快などである。映像解析部23は、感情の種類ごとに設けられた識別器を用いて、当該識別器に映像を入力することにより第1ユーザの感情スコアを算出する。
The
識別器として、例えば、映像を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives an image as an input and outputs an emotion score can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's video and emotion score as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
また、映像解析部23は、入力映像に基づいて、ユーザの集中の度合いを数値化した集中度を算出する。つまり、映像解析部23は、識別器に映像を入力することにより第1ユーザの集中度を算出する。
Further, the
識別器として、例えば、映像を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives an image as an input and outputs a degree of concentration can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's image and concentration as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
なお、映像解析部23は、映像中に複数の第1ユーザが含まれる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
When a plurality of first users are included in the video, the
映像解析部23は、第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、算出した第1ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部28に出力する。
The
音声取得部24は、第1取得部として機能し、第1装置2に内蔵又は有線もしくは無線により接続されたマイクから第1ユーザの音声を取得する。音声取得部24は、取得した第1ユーザの音声を、音声符号化部25及び音声解析部26に出力する。
The
音声符号化部25は、音声取得部24から音声を受け、当該音声を所定の符号化方法に従い符号化する。例えば、音声符号化部25は、MPEG−4 AACに従い音声を符号化する。音声符号化部25は、符号化済み音声を多重化部27に出力する。
The
音声解析部26は、音声取得部24から音声を受け、音声を発している第1ユーザを特定する。第1ユーザの特定は、例えば、事前に登録された音声データに基づき、話者を識別することにより行ってもよい。音声解析部26は、例えば、音声から話者の声紋を分析し、隠れマルコフモデル、ニューラルネットワーク、決定木などの識別手法を用いて話者を特定する。ただし、第1ユーザが発話する際に、第1ユーザを識別するための情報を第1ユーザ又は第1装置2の操作者が外部入力するものであってもよい。
The
音声解析部26は、当該音声を解析することにより第1ユーザの感情及び集中度を判断する。つまり、音声解析部26は、入力音声に基づいて、感情の種類ごとに、感情スコアを算出する。音声解析部26が解析対象とする感情の種類は、映像解析部23が解析対象とする感情の種類と同様である。音声解析部26は、感情の種類ごとに設けられた識別器を用いて、当該識別器に音声を入力することにより感情スコアを算出する。
The
識別器として、例えば、音声を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives voice as an input and outputs an emotion score can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's voice and emotion score as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
また、音声解析部26は、入力音声に基づいて、第1ユーザの集中度を算出する。
In addition, the
識別器として、例えば、音声を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives voice as an input and outputs a degree of concentration can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's voice and concentration as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
なお、音声解析部26は、音声中に複数の第1ユーザが含まれる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
When a plurality of first users are included in the voice, the
音声解析部26は、第1ユーザを識別するための情報と、算出した第1ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部28に出力する。
The
多重化部27は、映像符号化部22及び音声符号化部25から符号化済み映像及び符号化済み音声をそれぞれ受け、符号化済み映像及び符号化済み音声を多重化することにより、多重化データを生成する。例えば、多重化部27は、MPEG−H MMT(MPEG Media Transport)に従って多重化を行う。多重化部27は、生成した多重化データを第1送信部29に出力する。
The multiplexing
感情・集中力判断部28は、映像解析部23から第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。また、感情・集中力判断部28は、音声解析部26から第1ユーザを識別するための情報と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。
The emotion /
感情・集中力判断部28は、映像解析部23及び音声解析部26から受けた第1ユーザの感情の種類ごとの感情スコアに基づいて、第1ユーザの感情を判断する。例えば、感情・集中力判断部28は、感情の種類ごとに、映像解析部23から受けた第1ユーザの当該種類に対応する感情スコアと、音声解析部26から受けた第1ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
The emotion /
なお、感情スコアの算出方法はこれに限定されるものではない。例えば、感情・集中力判断部28は、感情の種類ごとに設けられた識別器を用いて、第1ユーザの感情スコアを算出してもよい。具体的には、感情・集中力判断部28は、各感情の種類の識別器に映像解析部23から受けた第1ユーザの当該種類に対応する感情スコアと、音声解析部26から受けた第1ユーザの当該種類に対応する感情スコアとを入力することにより、当該感情の種類に対する第1ユーザの感情スコアを算出する。
The method of calculating the emotion score is not limited to this. For example, the emotion /
識別器として、例えば、映像に基づき算出された感情スコアと音声に基づき算出された感情スコアを入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された感情スコア及び音声に基づき算出された感情スコアと、ニューラルネットワークの設計者が判断した感情スコアとを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives an emotion score calculated based on video and an emotion score calculated based on audio as input and outputs an emotion score can be used. In this multi-layer neural network, for example, the emotion score calculated based on the video and the emotion score calculated based on the voice and the emotion score determined by the designer of the neural network are used as teacher data, and the parameters of the multi-layer neural network are deep-layered. It is constructed by performing machine learning such as learning. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
また、感情・集中力判断部28は、映像解析部23及び音声解析部26から受けた第1ユーザの感情の種類ごとの集中度に基づいて、第1ユーザの集中度を判断する。例えば、感情・集中力判断部28は、映像解析部23から受けた第1ユーザの集中度と、音声解析部26から受けた第1ユーザの集中度とを単純加算又は重みづけ加算することで、第1ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
Further, the emotion /
なお、集中度の算出方法はこれに限定されるものではない。例えば、感情・集中力判断部28は、識別器を用いて、第1ユーザの集中度を算出してもよい。具体的には、感情・集中力判断部28は、識別器に映像解析部23から受けた第1ユーザの集中度と、音声解析部26から受けた第1ユーザの集中度とを入力することにより、第1ユーザの集中度を算出する。
The method of calculating the degree of concentration is not limited to this. For example, the emotion /
識別器として、例えば、映像に基づき算出された集中度と音声に基づき算出された集中度を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された集中度及び音声に基づき算出された集中度と、ニューラルネットワークの設計者が判断した集中度とを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives the concentration level calculated based on the video and the concentration level calculated based on the audio as inputs and outputs the concentration level can be used. In this multi-layer neural network, for example, the concentration calculated based on the video and the concentration calculated based on the sound and the concentration determined by the designer of the neural network are used as training data, and the parameters of the multi-layer neural network are deep-layered. It is constructed by performing machine learning such as learning. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
なお、感情・集中力判断部28は、第1ユーザが複数いる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
When there are a plurality of first users, the emotion /
感情・集中力判断部28は、算出した感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを、第1ユーザの識別子及び算出時刻と対応付けて感情・集中力DB5に書き込む。なお、第1ユーザの識別子には、第1ユーザを識別するための情報(例えば、ユーザ名)と、第1ユーザの映像中の位置情報とが含まれるものとする。
The emotion /
なお、感情・集中力判断部28は、第1ユーザの感情スコアの履歴に基づいて、算出した第1ユーザの感情スコアを補正してもよい。例えば、感情・集中力判断部28は、感情の種類ごとに、過去一定期間の第1ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの標準偏差及び平均を算出する。感情・集中力判断部28は、以下の式1に従い、感情の種類ごとに、算出した第1ユーザの感情スコアを、算出した感情スコアの標準偏差及び平均を用いて標準化する。これにより、第1ユーザ間で感情スコアを標準化することができる。
The emotion /
標準化された感情スコア=(算出した感情スコア−感情スコアの平均)
/感情スコアの標準偏差 …(式1)
Standardized emotion score = (calculated emotion score-average emotion score)
/ Standard deviation of emotion score ... (Equation 1)
また、感情・集中力判断部28は、感情スコアの標準化の代わりに、感情スコアの正規化を行ってもよい。例えば、感情・集中力判断部28は、感情の種類ごとに、過去一定期間の第1ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの最大値及び最小値を算出する。感情・集中力判断部28は、以下の式2に従い、感情の種類ごとに、算出した第1ユーザの感情スコアを、算出した感情スコアの最大値及び最小値を用いて正規化する。これにより、第1ユーザ間で感情スコアを正規化することができる。
Further, the emotion /
正規化された感情スコア=(感情スコア−感情スコアの最小値)
/(感情スコアの最大値−感情スコアの最小値) …(式2)
Normalized emotion score = (emotion score-minimum emotion score)
/ (Maximum emotional score-Minimum emotional score) ... (Equation 2)
また、感情・集中力判断部28は、第1ユーザの集中度の履歴に基づいて、算出した第1ユーザの集中度を補正してもよい。例えば、感情・集中力判断部28は、過去一定期間の第1ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の標準偏差及び平均を算出する。感情・集中力判断部28は、以下の式3に従い、算出した第1ユーザの集中度を、算出した集中度の標準偏差及び平均を用いて標準化する。これにより、第1ユーザ間で集中度を標準化することができる。
In addition, the emotion /
標準化された集中度=(算出した集中度−集中度の平均)
/集中度の標準偏差 …(式3)
Standardized concentration = (calculated concentration-average concentration)
/ Standard deviation of concentration ratio ... (Equation 3)
また、感情・集中力判断部28は、集中度の標準化の代わりに、集中度の正規化を行ってもよい。例えば、感情・集中力判断部28は、過去一定期間の第1ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の最大値及び最小値を算出する。感情・集中力判断部28は、以下の式4に従い、感情の種類ごとに、算出した第1ユーザの集中度を、算出した集中度の最大値及び最小値を用いて正規化する。これにより、第1ユーザ間で集中度を正規化することができる。
Further, the emotion /
正規化された集中度=(集中度−集中度の最小値)
/(集中度の最大値−集中度の最小値) …(式4)
Normalized concentration = (concentration-minimum concentration)
/ (Maximum concentration-Minimum concentration) ... (Equation 4)
感情・集中力判断部28は、算出した感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを、第1ユーザの識別子及び算出時刻と合わせて第1送信部29に出力する。
The emotion /
第1送信部29は、多重化部27から多重化データを受け、感情・集中力判断部28から第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを受ける。第1送信部29は、受けたこれらのデータを、第2装置4に送信する。
The
第1受信部30は、第2装置4から符号化済み映像及び符号化済み音声が多重化された多重化データと、感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを受信する。なお、これらのデータには、第2ユーザの識別子と、第2ユーザの感情スコア及び集中度の算出時刻とが付加されている。第1受信部30は、第2装置4から受信したこれらのデータのセットを分離部31に出力する。なお、第2ユーザの識別子には、第2ユーザを識別するための情報(例えば、ユーザ名)と、第2ユーザの映像中の位置情報とが含まれているものとする。
The
分離部31は、第1受信部30からデータセットを受け、データセットを分離する。つまり、分離部31は、データセットに含まれる多重化データを符号化済み映像および符号化済み音声に分離し、分離した符号化済み映像および符号化済み音声を映像復号化部32及び音声復号化部33にそれぞれ出力する。また、分離部31は、データセットから第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコアと集中度とを分離し、分離したこれらのデータを感情・集中力処理部34に出力する。
The
映像復号化部32は、分離部31から符号化済み映像を受け、当該映像を所定の復号化方法に従い復号化する。復号化方法は、第2装置4における映像の符号化方法に対応する方法とする。例えば、映像が4K映像又は8K映像の場合であって、第2装置4がH.265/HEVCに従って映像を符号化した場合には、映像復号化部32は、H.265/HEVCに従って符号化済み映像を復号化する。映像復号化部32は、復号化した映像を感情・集中力処理部34及び表示・出力部35に出力する。
The
音声復号化部33は、分離部31から符号化済み音声を受け、当該音声を所定の復号化方法に従い復号化する。復号化方法は、第2装置4における音声の符号化方法に対応する方法とする。例えば、第2装置4がMPEG−4 AACに従い音声を符号化した場合には、音声復号化部33は、MPEG−4 AACに従い音声を復号化する。音声復号化部33は、復号化した音声を表示・出力部35に出力する。
The
感情・集中力処理部34は、分離部31から第2ユーザの識別子及び計測時刻と、第2ユーザの感情の種類ごとの感情スコア及び集中度とを受ける。また、感情・集中力処理部34は、映像復号化部32から映像を受ける。
The emotion /
感情・集中力処理部34は、これらのデータから、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力処理部34は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力処理部34は、幸せな感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力処理部34は、不快な感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
The emotion /
また、感情・集中力処理部34は、例えば、映像から第2ユーザの映像を切り出し、切り出した映像の隣に、第2ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
Further, the emotion /
感情・集中力処理部34は、作成した表示用データを表示・出力部35に出力する。
The emotion /
表示・出力部35は、提供部及び第1出力部として機能し、音声復号化部33から音声を受け、音声をスピーカーから出力する。
The display /
また、表示・出力部35は、映像復号化部32から映像を受け、感情・集中力処理部34から表示用データを受け、表示用データを映像に重畳させ、重畳後の映像をディスプレイに表示させる。
Further, the display /
図3は、ディスプレイに表示される映像の一例を示す図である。 FIG. 3 is a diagram showing an example of an image displayed on the display.
映像は、映像表示領域60と感情履歴通知領域61とを含む。映像表示領域60には、映像復号化部32から受けた映像が表示される。ここでは、第2ユーザであるユーザ71A〜71Cが表示されている。また、ユーザ71A〜71Cの近傍には、感情・集中力処理部34から受けた表示用データに示されるアイコン72A〜72Cがそれぞれ表示されている。アイコン72A及び72Cは幸せな感情に対応したアイコンであり、アイコン72Bは不快な感情に対応したアイコンである。つまり、ユーザ71A及びユーザ71Cの幸せな感情についての感情スコアは80以上であり、アイコン72Bの不快な感情についての感情スコアは80以上であることが示されている。
The video includes a
感情履歴通知領域61には、映像から切り出されたユーザ71A〜71Cの映像が表示されている。また、その隣には、第2ユーザごとに判断結果73A〜73Cが表示されている。判断結果73A〜73Cは、ユーザ71A〜71Cから検出された感情及び感情の計測時刻と、集中度とがそれぞれ示されている。例えば、判断結果73Aは、14:10:25にユーザ71Aの幸せな感情についての感情スコアが80以上になったことと、その時の集中度が80%であることとを示している。また、判断結果73Bは、14:08:10にユーザ71Bの不快な感情についての感情スコアが80以上になったことと、その時の集中度が60%であることとを示している。さらに、判断結果73Cは、14:07:50にユーザ71Cの幸せな感情についての感情スコアが80以上になったことと、その時の集中度が90%であることとを示している。なお、判断結果73A〜73Cは、計測時刻の集中度ではなく、現在時刻の集中度を示してもよい。
In the emotion
〔第2装置4の構成〕
図4は、本開示の実施形態1に係る第2装置4の機能的構成を示すブロック図である。第2装置4の構成は、第1装置2の構成と対をなす。
[Structure of the second device 4]
FIG. 4 is a block diagram showing a functional configuration of the
第2装置4は、映像取得部41と、映像符号化部42と、映像解析部43と、音声取得部44と、音声符号化部45と、音声解析部46と、多重化部47と、感情・集中力判断部48と、第2送信部49と、第2受信部50と、分離部51と、映像復号化部52と、音声復号化部53と、感情・集中力処理部54と、表示・出力部55とを備える。
The
第2装置4は、CPU、ROM、RAM、HDD、通信インタフェース、入出力インタフェース等を備える一般的なコンピュータにより実現することができる。例えば、HDDに記録されたコンピュータプログラムをRAM上に展開し、CPU上で実行することにより、各処理部21〜35は機能的に実現される。ただし、各処理部41〜55の一部又は全部がLSI、ASIC、FPGA等のハードウェアにより実現されていてもよい。
The
映像取得部41は、第2取得部として機能し、第2装置4に内蔵又は有線もしくは無線により接続されたカメラからカメラが撮影した映像を取得する。映像取得部41は、取得した映像を、映像符号化部42及び映像解析部43に出力する。
The
映像符号化部42は、映像取得部41から映像を受け、当該映像を所定の符号化方法に従い符号化する。例えば、映像符号化部42は、映像が4K映像又は8K映像の場合には、H.265/HEVC(High Efficiency Video Coding)に従って映像を符号化する。映像符号化部42は、符号化済み映像を多重化部47に出力する。
The
映像解析部43は、映像取得部41から映像を受け、映像に映っているユーザ(以下、「第2ユーザ」という)と第2ユーザの映像中の位置とを特定する。例えば、映像解析部43は、顔認識アルゴリズムを用いて映像中の第2ユーザを特定する。ただし、第2ユーザを識別するための情報(例えば、ユーザ名)と映像中の第2ユーザの位置を第2装置4の操作者が外部入力により指定するものであってもよい。
The
映像解析部43は、判断部として機能し、当該映像を解析することにより第2ユーザの感情及び集中度を判断する。つまり、映像解析部43は、入力映像に基づいて、感情の種類ごとに、感情の度合いを数値化した感情スコアを算出する。映像解析部43が解析対象とする感情の種類は、例えば、怒り、軽蔑、嫌悪、驚き、恐怖、喜び、悲しみ、驚き、幸せ、不快などである。映像解析部43は、感情の種類ごとに設けられた識別器を用いて、当該識別器に映像を入力することにより第2ユーザの感情スコアを算出する。
The
識別器として、例えば、映像を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives an image as an input and outputs an emotion score can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's video and emotion score as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
また、映像解析部43は、入力映像に基づいて、ユーザの集中の度合いを数値化した集中度を算出する。つまり、映像解析部43は、識別器に映像を入力することにより第2ユーザの集中度を算出する。
Further, the
識別器として、例えば、映像を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの映像及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives an image as an input and outputs a degree of concentration can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's image and concentration as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
なお、映像解析部43は、映像中に複数の第2ユーザが含まれる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
When a plurality of second users are included in the video, the
映像解析部43は、第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、算出した第2ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部48に出力する。
The
音声取得部44は、第2取得部として機能し、第2装置4に内蔵又は有線もしくは無線により接続されたマイクから第2ユーザの音声を取得する。音声取得部44は、取得した第2ユーザの音声を、音声符号化部45及び音声解析部46に出力する。
The
音声符号化部45は、音声取得部44から音声を受け、当該音声を所定の符号化方法に従い符号化する。例えば、音声符号化部45は、MPEG−4 AACに従い音声を符号化する。音声符号化部45は、符号化済み音声を多重化部47に出力する。
The
音声解析部46は、音声取得部44から音声を受け、音声を発している第2ユーザを特定する。第2ユーザの特定は、例えば、事前に登録された音声データに基づき、話者を識別することにより行ってもよい。音声解析部46は、例えば、音声から話者の声紋を分析し、隠れマルコフモデル、ニューラルネットワーク、決定木などの識別手法を用いて話者を特定する。ただし、第2ユーザが発話する際に、第2ユーザを識別するための情報を第2ユーザ又は第2装置4の操作者が外部入力するものであってもよい。
The
音声解析部46は、判断部として機能し、当該音声を解析することにより第2ユーザの感情及び集中度を判断する。つまり、音声解析部46は、入力音声に基づいて、感情の種類ごとに、感情スコアを算出する。音声解析部46が解析対象とする感情の種類は、映像解析部43が解析対象とする感情の種類と同様である。音声解析部46は、感情の種類ごとに設けられた識別器を用いて、当該識別器に音声を入力することにより感情スコアを算出する。
The
識別器として、例えば、音声を入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び感情スコアを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives voice as an input and outputs an emotion score can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's voice and emotion score as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
また、音声解析部46は、入力音声に基づいて、第2ユーザの集中度を算出する。
In addition, the
識別器として、例えば、音声を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、ユーザの音声及び集中度を教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives voice as an input and outputs a degree of concentration can be used. This multi-layer neural network is constructed, for example, by performing machine learning such as deep learning on the parameters of the multi-layer neural network using the user's voice and concentration as teacher data. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
なお、音声解析部46は、音声中に複数の第2ユーザが含まれる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
When a plurality of second users are included in the voice, the
音声解析部46は、第2ユーザを識別するための情報と、算出した第2ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部48に出力する。
The
多重化部47は、映像符号化部42及び音声符号化部45から符号化済み映像及び符号化済み音声をそれぞれ受け、符号化済み映像及び符号化済み音声を多重化することにより、多重化データを生成する。例えば、多重化部47は、MPEG−H MMTに従って多重化を行う。多重化部47は、生成した多重化データを第2送信部49に出力する。
The multiplexing
感情・集中力判断部48は、映像解析部43から第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。また、感情・集中力判断部48は、音声解析部46から第2ユーザを識別するための情報と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。
The emotion /
感情・集中力判断部48は、判断部として機能し、映像解析部43及び音声解析部46から受けた第2ユーザの感情の種類ごとの感情スコアに基づいて、第2ユーザの感情を判断する。例えば、感情・集中力判断部48は、感情の種類ごとに、映像解析部43から受けた第2ユーザの当該種類に対応する感情スコアと、音声解析部46から受けた第2ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
The emotion /
なお、感情スコアの算出方法はこれに限定されるものではない。例えば、感情・集中力判断部48は、感情の種類ごとに設けられた識別器を用いて、第2ユーザの感情スコアを算出してもよい。具体的には、感情・集中力判断部48は、各感情の種類の識別器に映像解析部43から受けた第2ユーザの当該種類に対応する感情スコアと、音声解析部46から受けた第2ユーザの当該種類に対応する感情スコアとを入力することにより、当該感情の種類に対する第2ユーザの感情スコアを算出する。
The method of calculating the emotion score is not limited to this. For example, the emotion /
識別器として、例えば、映像に基づき算出された感情スコアと音声に基づき算出された感情スコアを入力として受け、感情スコアを出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された感情スコア及び音声に基づき算出された感情スコアと、ニューラルネットワークの設計者が判断した感情スコアとを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives an emotion score calculated based on video and an emotion score calculated based on audio as input and outputs an emotion score can be used. In this multi-layer neural network, for example, the emotion score calculated based on the video and the emotion score calculated based on the voice and the emotion score determined by the designer of the neural network are used as teacher data, and the parameters of the multi-layer neural network are deep-layered. It is constructed by performing machine learning such as learning. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
また、感情・集中力判断部48は、映像解析部43及び音声解析部46から受けた第2ユーザの感情の種類ごとの集中度に基づいて、第2ユーザの集中度を判断する。例えば、感情・集中力判断部48は、映像解析部43から受けた第2ユーザの集中度と、音声解析部46から受けた第2ユーザの集中度とを単純加算又は重みづけ加算することで、第2ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
Further, the emotion /
なお、集中度の算出方法はこれに限定されるものではない。例えば、感情・集中力判断部48は、識別器を用いて、第2ユーザの集中度を算出してもよい。具体的には、感情・集中力判断部48は、識別器に映像解析部43から受けた第2ユーザの集中度と、音声解析部46から受けた第2ユーザの集中度とを入力することにより、第2ユーザの集中度を算出する。
The method of calculating the degree of concentration is not limited to this. For example, the emotion /
識別器として、例えば、映像に基づき算出された集中度と音声に基づき算出された集中度を入力として受け、集中度を出力する多層ニューラルネットワークを用いることができる。この多層ニューラルネットワークは、例えば、映像に基づき算出された集中度及び音声に基づき算出された集中度と、ニューラルネットワークの設計者が判断した集中度とを教師データとして、多層ニューラルネットワークのパラメータを深層学習等の機械学習を行うことにより構築される。なお、識別器は多層ニューラルネットワークに限定されるものではなく、例えば、線形回帰モデル、ロジスティック回帰モデル、サポートベクターマシン、ランダムフォレスト、Ada Boost、ナイーブベイズ、k近傍法等の他の識別器を用いることができる。 As the discriminator, for example, a multi-layer neural network that receives the concentration level calculated based on the video and the concentration level calculated based on the audio as inputs and outputs the concentration level can be used. In this multi-layer neural network, for example, the concentration calculated based on the video and the concentration calculated based on the sound and the concentration determined by the designer of the neural network are used as training data, and the parameters of the multi-layer neural network are deep-layered. It is constructed by performing machine learning such as learning. The classifier is not limited to the multi-layer neural network, and other classifiers such as a linear regression model, a logistic regression model, a support vector machine, a random forest, AdaBoost, a naive bays, and a k-nearest neighbor method are used. be able to.
なお、感情・集中力判断部48は、第2ユーザが複数いる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
When there are a plurality of second users, the emotion /
感情・集中力判断部48は、算出した感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを、第2ユーザの識別子及び算出時刻と対応付けて感情・集中力DB5に書き込む。なお、第2ユーザの識別子には、第2ユーザを識別するための情報(例えば、ユーザ名)と、第2ユーザの映像中の位置情報とが含まれるものとする。
The emotion /
なお、感情・集中力判断部48は、第2ユーザの感情スコアの履歴に基づいて、算出した第2ユーザの感情スコアを補正してもよい。例えば、感情・集中力判断部48は、感情の種類ごとに、過去一定期間の第2ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの標準偏差及び平均を算出する。感情・集中力判断部48は、上述の式1に従い、感情の種類ごとに、算出した第2ユーザの感情スコアを、算出した感情スコアの標準偏差及び分散を用いて標準化する。これにより、第2ユーザ間で感情スコアを標準化することができる。
The emotion /
また、感情・集中力判断部48は、感情スコアの標準化の代わりに、感情スコアの正規化を行ってもよい。例えば、感情・集中力判断部48は、感情の種類ごとに、過去一定期間の第2ユーザの感情スコアを感情・集中力DB5から読み出し、読み出した感情スコアに基づいて、感情スコアの最大値及び最小値を算出する。感情・集中力判断部48は、上述の式2に従い、感情の種類ごとに、算出した第2ユーザの感情スコアを、算出した感情スコアの最大値及び最小値を用いて正規化する。これにより、第2ユーザ間で感情スコアを正規化することができる。
Further, the emotion /
また、感情・集中力判断部48は、第2ユーザの集中度の履歴に基づいて、算出した第2ユーザの集中度を補正してもよい。例えば、感情・集中力判断部48は、過去一定期間の第2ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の標準偏差及び平均を算出する。感情・集中力判断部48は、上述の式3に従い、算出した第2ユーザの集中度を、算出した集中度の標準偏差及び平均を用いて標準化する。これにより、第2ユーザ間で集中度を標準化することができる。
In addition, the emotion /
また、感情・集中力判断部48は、集中度の標準化の代わりに、集中度の正規化を行ってもよい。例えば、感情・集中力判断部48は、過去一定期間の第2ユーザの集中度を感情・集中力DB5から読み出し、読み出した集中度に基づいて、集中度の最大値及び最小値を算出する。感情・集中力判断部48は、上述の式4に従い、感情の種類ごとに、算出した第2ユーザの集中度を、算出した集中度の最大値及び最小値を用いて正規化する。これにより、第2ユーザ間で集中度を正規化することができる。
Further, the emotion /
感情・集中力判断部48は、算出した感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを、第2ユーザの識別子及び算出時刻と合わせて第2送信部49に出力する。
The emotion /
第2送信部49は、多重化部47から多重化データを受け、感情・集中力判断部48から第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの第2ユーザの感情スコアと、第2ユーザの集中度とを受ける。第2送信部49は、受けたこれらのデータを、第1装置2に送信する。
The
第2受信部50は、第1装置2から符号化済み映像及び符号化済み音声が多重化された多重化データと、感情の種類ごとの第1ユーザの感情スコアと、第1ユーザの集中度とを受信する。なお、これらのデータには、第1ユーザの識別子と、第1ユーザの感情スコア及び集中度の算出時刻とが付加されている。第2受信部50は、第1装置2から受信したこれらのデータのセットを分離部51に出力する。なお、第1ユーザの識別子には、第1ユーザを識別するための情報(例えば、ユーザ名)と、第1ユーザの映像中の位置情報とが含まれているものとする。
The
分離部51は、第2受信部50からデータセットを受け、データセットを分離する。つまり、分離部51は、データセットに含まれる多重化データを符号化済み映像および符号化済み音声に分離し、分離した符号化済み映像および符号化済み音声を映像復号化部52及び音声復号化部53にそれぞれ出力する。また、分離部51は、データセットから第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコアと集中度とを分離し、分離したこれらのデータを感情・集中力処理部54に出力する。
The
映像復号化部52は、分離部51から符号化済み映像を受け、当該映像を所定の復号化方法に従い復号化する。復号化方法は、第1装置2における映像の符号化方法に対応する方法とする。例えば、映像が4K映像又は8K映像の場合であって、第1装置2がH.265/HEVCに従って映像を符号化した場合には、映像復号化部52は、H.265/HEVCに従って符号化済み映像を復号化する。映像復号化部52は、復号化した映像を感情・集中力処理部54及び表示・出力部55に出力する。
The
音声復号化部53は、分離部51から符号化済み音声を受け、当該音声を所定の復号化方法に従い復号化する。復号化方法は、第1装置2における音声の符号化方法に対応する方法とする。例えば、第1装置2がMPEG−4 AACに従い音声を符号化した場合には、音声復号化部53は、MPEG−4 AACに従い音声を復号化する。音声復号化部53は、復号化した音声を表示・出力部55に出力する。
The
感情・集中力処理部54は、分離部51から第1ユーザの識別子及び計測時刻と、第1ユーザの感情の種類ごとの感情スコア及び集中度とを受ける。また、感情・集中力処理部54は、映像復号化部52から映像を受ける。
The emotion /
感情・集中力処理部54は、これらのデータから、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力処理部54は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力処理部54は、幸せな感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力処理部54は、不快な感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
The emotion /
また、感情・集中力処理部54は、例えば、映像から第1ユーザの映像を切り出し、切り出した映像の隣に、第1ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
Further, the emotion /
感情・集中力処理部54は、作成した表示用データを表示・出力部55に出力する。
The emotion /
表示・出力部55は、第2出力部として機能し、音声復号化部53から音声を受け、音声をスピーカーから出力する。
The display /
また、表示・出力部55は、映像復号化部52から映像を受け、感情・集中力処理部54から表示用データを受け、表示用データを映像に重畳させ、重畳後の映像をディスプレイに表示させる。
Further, the display /
〔提供システム1の処理フロー〕
図5は、本開示の実施形態1に係る提供システム1による、第1装置2から第2装置4への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
[Processing flow of providing system 1]
FIG. 5 is a sequence diagram showing an example of a procedure for providing the emotion and concentration of the first user from the first device 2 to the
第1装置2の映像取得部21は、カメラから映像を取得する(S1)。
The
第1装置2の音声取得部24は、マイクから音声を取得する(S2)。
The
第1装置2の映像解析部23は、ステップS1において取得された映像を解析することにより、映像から第1ユーザを特定し、第1ユーザの位置、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S3)。
The
第1装置2の音声解析部26は、ステップS2において取得された音声を解析することにより、音声から第1ユーザを特定し、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S4)。
The
第1装置2の感情・集中力判断部28は、ステップS3において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS4において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S5)。
The emotion /
第1装置2の映像符号化部22は、ステップS1において取得された映像を符号化する(S6)。
The
第1装置2の音声符号化部25は、ステップS2において取得された音声を符号化する(S7)。
The
第1装置2の多重化部27は、ステップS6において符号化された映像と、ステップS7において符号化された音声とを多重化し、多重化データを生成する(S8)。
The multiplexing
第1装置2の第1送信部29は、ステップS8において生成された多重化データと、ステップS5において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度に第1ユーザの識別子及び算出時刻が付加されたデータセットを、第2装置4に送信する。第2装置4の第2受信部50は、当該データセットを受信する(S9)。
The
第2装置4の第2受信部50は、ステップS9において受信されたデータセットを、符号化済み映像、符号化済み音声、第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに分離する(S10)。
The
第2装置4の映像復号化部52は、ステップS10において分離された符号化済み映像を復号化する(S11)。
The
第2装置4の音声復号化部53は、ステップS10において分離された符号化済み音声を復号化する(S12)。
The
第2装置4の感情・集中力処理部54は、ステップS11において復号化された映像と、ステップS10において分離された第1ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第1ユーザの感情及び集中度を表示するための表示用データを作成する(S13)。
The emotion /
第2装置4の表示・出力部55は、ステップS13において作成された表示用データをステップS11において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S14)。
The display /
第2装置4の表示・出力部55は、ステップS12において復号された音声をスピーカーから出力する(S15)。
The display /
図5に示した処理を実行することにより、第1ユーザの感情及び集中度が第2ユーザに提供されることになる。 By executing the process shown in FIG. 5, the emotion and concentration of the first user are provided to the second user.
図6は、本開示の実施形態1に係る提供システム1による、第2装置4から第1装置2への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
FIG. 6 is a sequence diagram showing an example of a procedure for providing the emotion and concentration of the second user from the
第2装置4の映像取得部41は、カメラから映像を取得する(S21)。
The
第2装置4の音声取得部44は、マイクから音声を取得する(S22)。
The
第2装置4の映像解析部43は、ステップS21で取得された映像を解析することにより、映像から第2ユーザを特定し、第2ユーザの位置、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S23)。
The
第2装置4の音声解析部46は、ステップS22において取得された音声を解析することにより、音声から第2ユーザを特定し、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S24)。
The
第2装置4の感情・集中力判断部48は、ステップS23において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS24において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S25)。
The emotion /
第2装置4の映像符号化部42は、ステップS21において取得された映像を符号化する(S26)。
The
第2装置4の音声符号化部45は、ステップS22において取得された音声を符号化する(S27)。
The
第2装置4の多重化部47は、ステップS26において符号化された映像と、ステップS27において符号化された音声とを多重化し、多重化データを生成する(S28)。
The multiplexing
第2装置4の第2送信部49は、ステップS28において生成された多重化データと、ステップS25において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度に第2ユーザの識別子及び算出時刻が付加されたデータセットを、第1装置2に送信する。第1装置2の第1受信部30は、当該データセットを受信する(S29)。
The
第1装置2の第1受信部30は、ステップS29において受信されたデータセットを、符号化済み映像、符号化済み音声、第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに分離する(S30)。
The
第1装置2の映像復号化部32は、ステップS30において分離された符号化済み映像を復号化する(S31)。
The
第1装置2の音声復号化部33は、ステップS30において分離された符号化済み音声を復号化する(S32)。
The
第1装置2の感情・集中力処理部34は、ステップS31において復号化された映像と、ステップS30において分離された第2ユーザの識別子及び算出時刻が付加された感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第2ユーザの感情及び集中度を表示するための表示用データを作成する(S33)。
The emotion /
第1装置2の表示・出力部35は、ステップS33において作成された表示用データをステップS31において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S34)。
The display /
第1装置2の表示・出力部35は、ステップS32において復号された音声をスピーカーから出力する(S35)。
The display /
図6に示した処理を実行することにより、第2ユーザの感情及び集中度が第1ユーザに提供されることになる。 By executing the process shown in FIG. 6, the emotion and concentration of the second user are provided to the first user.
〔実施形態1の効果等〕
実施形態1によると、第1ユーザの発話内容の聞き手である第2ユーザの感情及び集中度の少なくとも一方の判断結果が、第1ユーザに提供される。このため、第1ユーザは、自分の発話内容に対し、第2ユーザがどのような感情を抱いているか、又は第2ユーザが集中して話を聞いているかなどを知ることができる。これに対し、第1ユーザは、例えば、発話内容に対して否定的な感情を抱く第2ユーザに対して質問を行ったり、第2ユーザが集中していない場合には話題を変えるなどの対策を行うことができる。これにより、ユーザ同士の円滑なコミュニケーションを支援することができる。
[Effects of
According to the first embodiment, the determination result of at least one of the emotion and the concentration of the second user who is the listener of the utterance content of the first user is provided to the first user. Therefore, the first user can know what kind of emotion the second user has with respect to the content of his / her utterance, or whether the second user concentrates on listening to the story. On the other hand, the first user asks a question to the second user who has a negative feeling about the utterance content, or changes the topic when the second user is not concentrated. It can be performed. This makes it possible to support smooth communication between users.
同様に、第2ユーザの発話内容の聞き手である第1ユーザの感情及び集中度の少なくとも一方の判断結果が、第2ユーザに提供される。これにより、第2ユーザも、第1ユーザと同様の対策を行うことが可能である。 Similarly, the judgment result of at least one of the emotion and the concentration of the first user who is the listener of the utterance content of the second user is provided to the second user. As a result, the second user can take the same measures as the first user.
また、第2ユーザの音声を考慮して第2ユーザの感情及び集中度の少なくとも一方が判断される。このため、第2ユーザの映像だけを用いて感情及び集中度の少なくとも一方を判断する場合に比べ、第2ユーザの感情又は集中度を高精度で判断することができる。第1ユーザの感情及び集中度の判断においても同様である。 In addition, at least one of the emotions and the degree of concentration of the second user is determined in consideration of the voice of the second user. Therefore, the emotion or concentration of the second user can be determined with higher accuracy than in the case of determining at least one of the emotion and the concentration of the second user using only the video of the second user. The same applies to the judgment of the emotion and concentration of the first user.
また、第1ユーザと第2ユーザとの間でネットワーク3越しに対話を行い、第2ユーザの感情及び集中度の少なくとも一方の判断結果を第1ユーザに提供することができる。このため、例えば、第1ユーザを会議の進行役とする電子会議システムにおいて、第1ユーザが第2ユーザの感情又は集中度を把握しながら、第2ユーザに適宜意見を求めたりしながら議事を進行することができる。これにより、議論を建設的なものとし、生産性の高い会議を実現することができる。なお、第1装置2は、第2ユーザの場合と同様に、第1ユーザの音声及び映像から第1ユーザの感情及び集中度の少なくとも一方を判断し、第2装置4が、第1ユーザの感情及び集中度の少なくとも一方の判断結果をディスプレイに表示する。これにより、第1ユーザ及び第2ユーザは、相互に相手の感情又は集中度を把握することができる。
Further, it is possible to have a dialogue between the first user and the second user over the network 3 and provide the first user with a judgment result of at least one of the emotion and the concentration of the second user. Therefore, for example, in an electronic conference system in which the first user is the facilitator of the conference, the first user grasps the emotion or concentration of the second user and asks the second user for opinions as appropriate. You can proceed. This makes the discussion constructive and enables highly productive meetings. As in the case of the second user, the first device 2 determines at least one of the emotion and concentration of the first user from the audio and video of the first user, and the
また、第1装置2で第1ユーザの感情及び集中度を判断し、第2装置4で第2ユーザの感情及び集中度を判断している。このため、第1装置2は、第2装置4に映像を送信しないようにしてもよく、第2装置4は、第1装置2に映像を送信しないようにしてもよい。これにより、第1装置2から第2装置4への伝送データを削減しつつ、第1ユーザの感情又は集中度の判断結果を第2装置4に送信することができる。また、第2装置4から第1装置2への伝送データを削減しつつ、第2ユーザの感情又は集中度の判断結果を第1装置2に送信することができる。
Further, the first device 2 determines the emotion and concentration of the first user, and the
なお、第1装置2の感情・集中力処理部34は、第2ユーザの感情に基づく表情を有する第2ユーザのアバターを表示させるための表示用データを作成してもよい。同様に、第2装置4の感情・集中力処理部54は、第1ユーザの感情に基づく第1ユーザのアバターを表示させるための表示用データを作成してもよい。これにより、ユーザの映像の代わりにアバターを表示させることができるため、第2ユーザ及び第1ユーザのプライバシーを保護することもできる。
The emotion /
また、第1装置2の感情・集中力判断部28及び第2装置4の感情・集中力判断部48は、過去のユーザの感情スコア及び集中度に基づいて、感情スコア及び集中度を標準化することができる。つまり、感情の起伏や集中度の変化が相対的に小さいユーザの各スコアと、感情の起伏や集中度の変化が相対的に大きいユーザの各スコアとを標準化することができる。これにより、ユーザ間で感情又は集中度を正確に比較することができる。
Further, the emotion /
<実施形態2>
実施形態1では、第1装置2が第1ユーザの感情及び集中度を判断し、第2装置4が第2ユーザの感情及び集中度を判断した。実施形態2では、第1装置2が第2ユーザの感情及び集中度を判断し、第2装置4が第1ユーザの感情及び集中度を判断する例について説明する。
<Embodiment 2>
In the first embodiment, the first device 2 determines the emotion and concentration of the first user, and the
実施形態2に係る提供システム1の構成は実施形態1と同様である。
The configuration of the
〔第1装置2の構成〕
図7は、本開示の実施形態2に係る第1装置2の機能的構成を示すブロック図である。
[Structure of First Device 2]
FIG. 7 is a block diagram showing a functional configuration of the first device 2 according to the second embodiment of the present disclosure.
第1装置2は、映像取得部21と、映像符号化部22と、音声取得部24と、音声符号化部25と、多重化部27と、第1送信部29と、第1受信部30と、分離部31と、映像復号化部32と、音声復号化部33と、映像解析部23と、音声解析部26と、感情・集中力判断部28と、表示・出力部35とを備える。
The first device 2 includes a
映像取得部21、映像符号化部22、音声取得部24、音声符号化部25及び多重化部27の処理は、実施形態1と同様である。
The processing of the
第1送信部29は、多重化部27から多重化データを受け、当該多重化データを第2装置4に送信する。
The
第1受信部30は、第2装置4から符号化済み映像及び符号化済み音声が多重化された多重化データを受信する。第1受信部30は、受信した多重化データを分離部31に出力する。
The
分離部31は、第1受信部30から多重化データを受け、多重化データを符号化済み映像および符号化済み音声に分離する。分離部31は、分離した符号化済み映像および符号化済み音声を映像復号化部32及び音声復号化部33にそれぞれ出力する。
The
映像復号化部32及び音声復号化部33の処理は、実施形態1と同様である。映像復号化部32は、映像取得部として機能し、復号化した映像を映像解析部23及び感情・集中力判断部28に出力し、音声復号化部33は、音声取得部として機能し、復号化した音声を音声解析部26に出力する。
The processing of the
映像解析部23は、映像復号化部32から映像を受け、映像に映っている第2ユーザと第2ユーザの映像中の位置とを特定する。また、映像解析部23は、判断部として機能し、当該映像を解析することにより第2ユーザの感情及び集中度を判断する。映像解析部23は、第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、算出した第2ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部28に出力する。なお、映像解析部23の処理は、処理の対象とするユーザが第2ユーザである点を除いて実施形態1の映像解析部23と同様である。
The
音声解析部26は、音声復号化部33から音声を受け、音声を発している第2ユーザを特定する。また、音声解析部26は、判断部として機能し、当該音声を解析することにより、第2ユーザの感情及び集中度を判断する。音声解析部26は、第2ユーザを識別するための情報と、算出した第2ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部28に出力する。なお、音声解析部26の処理は、処理の対象とするユーザが第2ユーザである点を除いて実施形態1の音声解析部26と同様である。
The
感情・集中力判断部28は、映像解析部23から第2ユーザを識別するための情報及び第2ユーザの映像中の位置と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。また、感情・集中力判断部28は、音声解析部26から第2ユーザを識別するための情報と、第2ユーザの感情の種類ごとの感情スコア及び第2ユーザの集中度を受ける。
The emotion /
感情・集中力判断部28は、判断部として機能し、映像解析部23及び音声解析部26から受けた第2ユーザの感情の種類ごとの感情スコアに基づいて、第2ユーザの感情を判断する。例えば、感情・集中力判断部28は、感情の種類ごとに、映像解析部23から受けた第2ユーザの当該種類に対応する感情スコアと、音声解析部26から受けた第2ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
The emotion /
また、感情・集中力判断部28は、映像解析部23及び音声解析部26から受けた第2ユーザの感情の種類ごとの集中度に基づいて、第2ユーザの集中度を判断する。例えば、感情・集中力判断部28は、映像解析部23から受けた第2ユーザの集中度と、音声解析部26から受けた第2ユーザの集中度とを単純加算又は重みづけ加算することで、第2ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
Further, the emotion /
なお、感情・集中力判断部28は、第2ユーザが複数いる場合には、第2ユーザごとに感情スコア及び集中度を算出する。
When there are a plurality of second users, the emotion /
また、感情・集中力判断部28は、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力判断部28は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力判断部28は、幸せな感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力判断部28は、不快な感情についての感情スコアが80以上である第2ユーザに対して、当該第2ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
In addition, the emotion /
また、感情・集中力判断部28は、例えば、映像から第2ユーザの映像を切り出し、切り出した映像の隣に、第2ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
Further, the emotion /
感情・集中力判断部28は、作成した表示用データを表示・出力部35に出力する。
The emotion /
表示・出力部35の処理は、実施形態1の表示・出力部35と同様である。
The processing of the display /
〔第2装置4の構成〕
図8は、本開示の実施形態2に係る第2装置4の機能的構成を示すブロック図である。
[Structure of the second device 4]
FIG. 8 is a block diagram showing a functional configuration of the
第2装置4は、映像取得部41と、映像符号化部42と、音声取得部44と、音声符号化部45と、多重化部47と、第2送信部49と、第2受信部50と、分離部51と、映像復号化部52と、音声復号化部53と、映像解析部43と、音声解析部46と、感情・集中力判断部48と、表示・出力部55とを備える。
The
映像取得部41、映像符号化部42、音声取得部44、音声符号化部45及び多重化部47の処理は、実施形態1と同様である。
The processing of the
第2送信部49は、多重化部47から多重化データを受け、当該多重化データを第1装置2に送信する。
The
第2受信部50は、第1装置2から符号化済み映像及び符号化済み音声が多重化された多重化データを受信する。第2受信部50は、受信した多重化データを分離部51に出力する。
The
分離部51は、第2受信部50から多重化データを受け、多重化データを符号化済み映像および符号化済み音声に分離する。分離部51は、分離した符号化済み映像および符号化済み音声を映像復号化部52及び音声復号化部53にそれぞれ出力する。
The
映像復号化部52及び音声復号化部53の処理は、実施形態1と同様である。映像復号化部52は、復号化した映像を映像解析部43及び感情・集中力判断部48に出力し、音声復号化部53は、復号化した音声を音声解析部46に出力する。
The processing of the
映像解析部43は、映像復号化部52から映像を受け、映像に映っている第1ユーザと第1ユーザの映像中の位置とを特定する。また、映像解析部43は、当該映像を解析することにより第1ユーザの感情及び集中度を判断する。映像解析部43は、第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、算出した第1ユーザの感情の種類ごとの感情スコア及び集中度とを感情・集中力判断部48に出力する。なお、映像解析部43の処理は、処理の対象とするユーザが第1ユーザである点を除いて実施形態1の映像解析部43と同様である。
The
音声解析部46は、音声復号化部53から音声を受け、音声を発している第1ユーザを特定する。また、音声解析部46は、当該音声を解析することにより、第1ユーザの感情及び集中度を判断する。音声解析部46は、第1ユーザを識別するための情報と、算出した第1ユーザの感情の種類ごとの感情スコアと、集中度とを感情・集中力判断部48に出力する。なお、音声解析部46の処理は、処理の対象とするユーザが第1ユーザである点を除いて実施形態1の音声解析部46と同様である。
The
感情・集中力判断部48は、映像解析部43から第1ユーザを識別するための情報及び第1ユーザの映像中の位置と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。また、感情・集中力判断部48は、音声解析部46から第1ユーザを識別するための情報と、第1ユーザの感情の種類ごとの感情スコア及び第1ユーザの集中度を受ける。
The emotion /
感情・集中力判断部48は、映像解析部43及び音声解析部46から受けた第1ユーザの感情の種類ごとの感情スコアに基づいて、第1ユーザの感情を判断する。例えば、感情・集中力判断部48は、感情の種類ごとに、映像解析部43から受けた第1ユーザの当該種類に対応する感情スコアと、音声解析部46から受けた第1ユーザの当該種類に対応する感情スコアとを単純加算又は重みづけ加算することで、当該種類の感情スコアを算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの感情スコアに応じて変化させてもよい。
The emotion /
また、感情・集中力判断部48は、映像解析部43及び音声解析部46から受けた第1ユーザの感情の種類ごとの集中度に基づいて、第1ユーザの集中度を判断する。例えば、感情・集中力判断部48は、映像解析部43から受けた第1ユーザの集中度と、音声解析部46から受けた第1ユーザの集中度とを単純加算又は重みづけ加算することで、第1ユーザの集中度を算出する。なお、重みづけ加算の重みは、あらかじめ設定されていてもよいし、2つの集中度に応じて変化させてもよい。
Further, the emotion /
なお、感情・集中力判断部48は、第1ユーザが複数いる場合には、第1ユーザごとに感情スコア及び集中度を算出する。
When there are a plurality of first users, the emotion /
また、感情・集中力判断部48は、ディスプレイに表示するための表示用データを作成する。例えば、感情・集中力判断部48は、感情の種類ごとに感情スコアを所定の閾値で閾値処理することにより、感情に対応した表示用のアイコンの表示用データを作成する。例えば、感情・集中力判断部48は、幸せな感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に幸せな感情に対応したアイコンを表示させるための表示用データを作成する。また、感情・集中力判断部48は、不快な感情についての感情スコアが80以上である第1ユーザに対して、当該第1ユーザの映像中の位置の近傍に不快な感情に対応したアイコンを表示させるための表示用データを作成する。
In addition, the emotion /
また、感情・集中力判断部48は、例えば、映像から第1ユーザの映像を切り出し、切り出した映像の隣に、第1ユーザの感情及び集中度の計測時刻、検出した感情及び集中度を表示するための表示用データを作成する。
Further, the emotion /
感情・集中力判断部48は、作成した表示用データを表示・出力部55に出力する。
The emotion /
表示・出力部55の処理は、実施形態1の表示・出力部55と同様である。
The processing of the display /
〔提供システム1の処理フロー〕
図9は、本開示の実施形態2に係る提供システム1による、第1装置2から第2装置4への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
[Processing flow of providing system 1]
FIG. 9 is a sequence diagram showing an example of a procedure for providing the emotion and concentration of the first user from the first device 2 to the
第1装置2は、図4に示したのと同様のステップS1、S2、S6〜S8の処理を実行する。 The first device 2 executes the same processes of steps S1, S2, and S6 to S8 as shown in FIG.
第1装置2の第1送信部29は、ステップS8において生成された多重化データを第2装置4に送信し、第2装置4の第2受信部50は当該多重化データを受信する(S16)。
The
第2装置4の分離部51は、ステップS16において受信された多重化データを符号化済み映像及び符号化済み音声に分離する(S10)。
The
第2装置4は、図4に示したのと同様のステップS11及びS12の処理を実行する。
The
第2装置4の映像解析部43は、ステップS11において復号された映像を解析することにより、映像から第1ユーザを特定し、第1ユーザの位置、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S17)。
The
第2装置4の音声解析部46は、ステップS12において復号された音声を解析することにより、音声から第1ユーザを特定し、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S18)。
The
第2装置4の感情・集中力判断部48は、ステップS17において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS18において決定された第1ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第1ユーザの感情の種類ごとの感情スコア及び集中度を決定する。また、感情・集中力判断部48は、ステップS11において復号化された映像と、決定された第1ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第1ユーザの感情及び集中度を表示するための表示用データを作成する(S19)。
The emotion /
第2装置4の表示・出力部55は、ステップS19において作成された表示用データをステップS11において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S14)。
The display /
第2装置4の表示・出力部55は、ステップS12において復号された音声をスピーカーから出力する(S15)。
The display /
図9に示した処理を実行することにより、第1ユーザの感情及び集中度が第2ユーザに提供されることになる。 By executing the process shown in FIG. 9, the emotion and concentration of the first user are provided to the second user.
図10は、本開示の実施形態2に係る提供システム1による、第2装置4から第1装置2への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
FIG. 10 is a sequence diagram showing an example of a procedure for providing the emotion and concentration of the second user from the
第2装置4は、図5に示したのと同様のステップS21、S22、S26〜S28の処理を実行する。
The
第2装置4の第2送信部49は、ステップS28において生成された多重化データを第1装置2に送信し、第1装置2の第1受信部30は当該多重化データを受信する(S36)。
The
第1装置2の分離部31は、ステップS36において受信された多重化データを符号化済み映像及び符号化済み音声に分離する(S30)。
The
第1装置2は、図5に示したのと同様のステップS31及びS32の処理を実行する。 The first device 2 executes the same processes of steps S31 and S32 as shown in FIG.
第1装置2の映像解析部23は、ステップS31において復号された映像を解析することにより、映像から第2ユーザを特定し、第2ユーザの位置、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S37)。
The
第1装置2の音声解析部26は、ステップS32において復号された音声を解析することにより、音声から第2ユーザを特定し、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する(S38)。
The
第1装置2の感情・集中力判断部28は、ステップS37において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度と、ステップS38において決定された第2ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、第2ユーザの感情の種類ごとの感情スコア及び集中度を決定する。また、感情・集中力判断部28は、ステップS31において復号化された映像と、決定された第2ユーザの感情の種類ごとの感情スコア及び集中度とに基づいて、ディスプレイに第2ユーザの感情及び集中度を表示するための表示用データを作成する(S39)。
The emotion /
第1装置2の表示・出力部55は、ステップS39において作成された表示用データをステップS31において復号された映像に重畳させ、重畳後の映像をディスプレイに表示させる(S34)。
The display /
第1装置2の表示・出力部55は、ステップS32において復号された音声をスピーカーから出力する(S35)。
The display /
図10に示した処理を実行することにより、第2ユーザの感情及び集中度が第2ユーザに提供されることになる。 By executing the process shown in FIG. 10, the emotion and concentration of the second user are provided to the second user.
〔実施形態2の効果等〕
実施形態2によると、第1装置2が、第2装置4から送信される第2ユーザの音声及び映像に基づいて、第2ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第1装置2は、第2ユーザの音声及び映像と第2ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第2ユーザの音声及び映像と第2ユーザの感情又は集中度とを正確に対応付けて第1ユーザに提供することができる。
[Effects of Embodiment 2 and the like]
According to the second embodiment, the first device 2 can determine at least one of the emotion and the degree of concentration of the second user based on the audio and video of the second user transmitted from the
また、第2装置4が、第1装置2から送信される第1ユーザの音声及び映像に基づいて、第1ユーザの感情及び集中度の少なくとも一方を判断することができる。このため、第2装置4は、第1ユーザの音声及び映像と第1ユーザの感情又は集中度との同期を正確に取ることができる。これにより、第1ユーザの音声及び映像と第1ユーザの感情又は集中度とを正確に対応付けて第2ユーザに提供することができる。
In addition, the
<実施形態3>
実施形態1及び2に示した提供システム1では、相手側の装置を利用するユーザの感情又は集中度をユーザに提示することはできるのの、当該感情又は集中度に基づいた処理はなされていない。
<Embodiment 3>
In the providing
実施形態3では、ユーザの感情又は集中度に基づいて、所定の処理を実行する例について説明する。具体的には、感情及び集中度の少なくとも一方の判断結果に基づいて、ユーザに対して発言を促す提供システム1について説明する。
In the third embodiment, an example of executing a predetermined process based on the emotion or the degree of concentration of the user will be described. Specifically, the providing
実施形態3に係る提供システム1の構成は実施形態1と同様である。
The configuration of the
〔第1装置2の構成〕
図11は、本開示の実施形態3に係る第1装置2の機能的構成を示すブロック図である。実施形態3に係る第1装置2の構成は、実施形態1と同様である。ただし、感情・集中力処理部34の処理結果が第1送信部29に入力される点が、実施形態1と異なる。
[Structure of First Device 2]
FIG. 11 is a block diagram showing a functional configuration of the first device 2 according to the third embodiment of the present disclosure. The configuration of the first device 2 according to the third embodiment is the same as that of the first embodiment. However, it differs from the first embodiment in that the processing result of the emotion /
感情・集中力処理部34は、発言促進部として機能し、分離部31から受けた第2ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第2ユーザに発言を促すか否かを決定する。例えば、感情・集中力処理部34は、集中度と所定の閾値とを比較し、第2ユーザに発言を促すか否かを決定する。より具体的には、感情・集中力処理部34は、集中度が所定の閾値(例えば、30)未満の第2ユーザに対して発言を促すことを決定する。
Whether the emotion /
また、感情・集中力処理部34は、所定の種類の感情と所定の閾値とを比較し、第2ユーザに発言を促すか否かを決定してもよい。例えば、感情・集中力処理部34は、怒りの感情が所定の閾値(例えば、90)以上の第2ユーザに対して発言を促すことを決定する。また、感情・集中力処理部34は、喜びの感情が所定の閾値(例えば、30)未満の第2ユーザに対して発言を促すことを決定する。
Further, the emotion /
感情・集中力処理部34は、発言を促す第2ユーザを特定した(第2ユーザの識別子を含む)発言促進指示信号を第1送信部29に出力する。
The emotion /
第1送信部29は、感情・集中力処理部34から発言促進指示信号を受け、当該発言促進指示信号を第2装置4に送信する。
The
一方、第2装置4から発言を促進する第1ユーザを特定した発言促進指示信号が送信された場合には、第1受信部30は、当該信号を受信し、分離部31に出力する。
On the other hand, when a speech promotion instruction signal identifying the first user who promotes speech is transmitted from the
分離部31は、第1受信部30から受けたデータに発言促進指示信号が含まれている場合には、当該信号を感情・集中力処理部34に出力する。
When the data received from the
感情・集中力処理部34は、分離部31から発言促進指示信号を受けた場合には、発言促進指示信号に示される第1ユーザに発言を促すための表示用データ作成し、表示・出力部35に出力する。例えば、感情・集中力処理部34は、第1ユーザのユーザ名が「A」である場合には、「Aさんは何か意見ありませんか?」などのようなメッセージの表示用データを作成する。
When the emotion /
表示・出力部35は、感情・集中力処理部34から表示用データを受け、当該表示用データをディスプレイに表示させる。
The display /
図12は、本開示の実施形態3に係る第2装置4の機能的構成を示すブロック図である。実施形態3に係る第2装置4の構成は、実施形態1と同様である。ただし、感情・集中力処理部54の処理結果が第2送信部49に入力される点が、実施形態1と異なる。
FIG. 12 is a block diagram showing a functional configuration of the
感情・集中力処理部54は、分離部51から受けた第1ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第1ユーザに発言を促すか否かを決定する。例えば、感情・集中力処理部54は、集中度と所定の閾値とを比較し、第1ユーザに発言を促すか否かを決定する。より具体的には、感情・集中力処理部54は、集中度が所定の閾値(例えば、30)未満の第1ユーザに対して発言を促すことを決定する。
The emotion /
また、感情・集中力処理部54は、所定の種類の感情と所定の閾値とを比較し、第1ユーザに発言を促すか否かを決定してもよい。例えば、感情・集中力処理部54は、怒りの感情が所定の閾値(例えば、90)以上の第1ユーザに対して発言を促すことを決定する。また、感情・集中力処理部54は、喜びの感情が所定の閾値(例えば、30)未満の第1ユーザに対して発言を促すことを決定する。
Further, the emotion /
感情・集中力処理部54は、発言を促す第1ユーザを特定した(第1ユーザの識別子を含む)発言促進指示信号を第2送信部49に出力する。
The emotion /
第2送信部49は、感情・集中力処理部54から発言促進指示信号を受け、当該発言促進指示信号を第1装置2に送信する。
The
一方、第1装置2から発言を促進する第2ユーザを特定した発言促進指示信号が送信された場合には、第2受信部50は、当該信号を受信し、分離部51に出力する。
On the other hand, when a speech promotion instruction signal specifying a second user who promotes speech is transmitted from the first device 2, the
分離部51は、第2受信部50から受けたデータに発言促進指示信号が含まれている場合には、当該信号を感情・集中力処理部54に出力する。
When the data received from the
感情・集中力処理部54は、分離部51から発言促進指示信号を受けた場合には、発言促進指示信号に示される第2ユーザに発言を促すための表示用データ作成し、表示・出力部55に出力する。例えば、感情・集中力処理部54は、第2ユーザのユーザ名が「B」である場合には、「Bさんは何か意見ありませんか?」などのようなメッセージの表示用データを作成する。
When the emotion /
表示・出力部55は、感情・集中力処理部54から表示用データを受け、当該表示用データをディスプレイに表示させる。
The display /
〔提供システム1の処理フロー〕
図13は、本開示の実施形態3に係る提供システム1による、第1装置2から第2装置4への第1ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
[Processing flow of providing system 1]
FIG. 13 is a sequence diagram showing an example of a procedure for providing the emotion and concentration of the first user from the first device 2 to the
提供システム1は、図5に示した実施形態1と同様のステップS1からS15までの処理を実行する。
The providing
第2装置4の感情・集中力処理部54は、ステップS10において分離された第1ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第1ユーザに発言を促すか否かを決定し、発言を促す第1ユーザを特定した発言促進指示信号を第2送信部49に出力する(S41)。
Whether or not the emotion /
第2装置4の第2送信部49は、発言促進指示信号を第1装置2に送信し、第1装置2の第1受信部30は、当該信号を受信する(S42)。
The
第1装置2の分離部31は、ステップS42において受信された発言促進信号を感情・集中力処理部34に出力し、感情・集中力処理部34は、発言促進指示信号に示される第1ユーザに発言を促すための表示用データ作成し、表示・出力部35に出力する。表示・出力部35は、感情・集中力処理部34から表示用データを受け、当該表示用データをディスプレイに表示させる(S43)。
The
図14は、本開示の実施形態3に係る提供システム1による、第2装置4から第1装置2への第2ユーザの感情及び集中度の提供処理の手順の一例を示すシーケンス図である。
FIG. 14 is a sequence diagram showing an example of a procedure for providing the emotion and concentration of the second user from the
提供システム1は、図6に示した実施形態1と同様のステップS21からS35までの処理を実行する。
The providing
第1装置2の感情・集中力処理部34は、ステップS30において分離された第2ユーザの感情の種類ごとの感情スコアと、集中度とに基づいて、第2ユーザに発言を促すか否かを決定し、発言を促す第2ユーザを特定した発言促進指示信号を第1送信部29に出力する(S44)。
Whether or not the emotion /
第1装置2の第1送信部29は、発言促進指示信号を第2装置4に送信し、第2装置4の第2受信部50は、当該信号を受信する(S45)。
The
第2装置4の分離部51は、ステップS45において受信された発言促進信号を感情・集中力処理部54に出力し、感情・集中力処理部54は、発言促進指示信号に示される第2ユーザに発言を促すための表示用データ作成し、表示・出力部55に出力する。表示・出力部55は、感情・集中力処理部54から表示用データを受け、当該表示用データをディスプレイに表示させる(S46)。
The
〔実施形態3の効果等〕
実施形態3によると、例えば、第2ユーザが第1ユーザの発話内容に対して否定的な感情を抱いていたり、第2ユーザが集中していない場合などに、第2ユーザに発言を促すことができる。同様に、第1ユーザが第2ユーザの発話内容に対して否定的な感情を抱いていたり、第1ユーザが集中していない場合などに、第1ユーザに発言を促すことができる。これにより、議論を有意義なものとし、ユーザ同士の円滑なコミュニケーションを支援することができる。
[Effects of Embodiment 3 and the like]
According to the third embodiment, for example, when the second user has a negative feeling toward the utterance content of the first user, or when the second user is not concentrated, the second user is urged to speak. Can be done. Similarly, when the first user has a negative feeling toward the utterance content of the second user, or when the first user is not concentrated, the first user can be urged to speak. This makes the discussion meaningful and supports smooth communication between users.
なお、第1装置2の感情・集中力処理部34は、第2ユーザに発言を促すか否かを決定したが、第1ユーザに発言を促すか否かを決定してもよい。つまり、感情・集中力処理部34は、感情・集中力判断部28から、第1ユーザの感情スコア及び集中度を取得し、取得した感情スコア及び集中度に基づいて、第1ユーザに発言を促すか否かを決定する。感情・集中力処理部34は、決定した結果に基づいて、第1ユーザに発言を促すための表示用データ作成し、表示・出力部35に出力する。
Although the emotion /
同様に、第2装置4の感情・集中力処理部54は、第2ユーザに発言を促すかを決定してもよい。つまり、感情・集中力処理部54は、感情・集中力判断部48から、第2ユーザの感情スコア及び集中度を取得し、取得した感情スコア及び集中度に基づいて、第2ユーザに発言を促すか否かを決定する。感情・集中力処理部54は、決定した結果に基づいて、第2ユーザに発言を促すための表示用データ作成し、表示・出力部55に出力する。
Similarly, the emotion /
<実施形態の変形例>
上述の実施形態において、会議に参加する第1ユーザ及び第2ユーザのそれぞれについて、第1ユーザと第2ユーザとの対話における各ユーザの貢献度を算出してもよい。
<Modified example of the embodiment>
In the above-described embodiment, for each of the first user and the second user who participate in the conference, the degree of contribution of each user in the dialogue between the first user and the second user may be calculated.
例えば、図2又は図11に示した第1装置2の構成において、感情・集中力判断部28は、第1ユーザの感情の種類ごとの感情スコアと集中度とに基づいて第1ユーザの貢献度を算出してもよい。例えば、感情・集中力判断部28は、会議における第1ユーザの平均の集中度を算出し、平均集中度が大きい程、値が大きくなるような変換式に従い貢献度を算出してもよい。感情・集中力判断部28は、算出した第1ユーザの貢献度を、第1ユーザの識別子とともに感情・集中力DB5に書き込む。
For example, in the configuration of the first device 2 shown in FIG. 2 or FIG. 11, the emotion /
同様に、図4又は図12に示した第2装置4の構成において、感情・集中力判断部48が、第2ユーザの貢献度を算出し、算出結果を感情・集中力DB5に書き込んでもよい。
Similarly, in the configuration of the
また、図7に示した第1装置2の構成において、感情・集中力判断部28が、第2ユーザの貢献度を算出し、算出結果を感情・集中力DB5に書き込んでもよい。
Further, in the configuration of the first device 2 shown in FIG. 7, the emotion /
また、図8に示した第2装置4の構成において、感情・集中力判断部48が、第1ユーザの貢献度を算出し、算出結果を感情・集中力DB5に書き込んでもよい。
Further, in the configuration of the
本変形例によると、ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、ユーザの対話における貢献度を算出することができる。例えば、対話に集中していたユーザの貢献度を高く算出したり、軽蔑や嫌悪の感情が低く、喜びや驚きの感情が高いユーザの貢献度を高く算出したりすることが可能である。 According to this modification, the degree of contribution in the user's dialogue can be calculated based on the judgment result of at least one of the user's emotion and the degree of concentration. For example, it is possible to calculate a high degree of contribution of a user who has concentrated on dialogue, or to calculate a high degree of contribution of a user who has low feelings of contempt and disgust and high feelings of joy and surprise.
[付記]
以上、本開示の実施形態に係る提供システム1について説明したが、本開示は、この実施形態に限定されるものではない。
[Additional Notes]
Although the
上記各装置は、複数のコンピュータにより実現されてもよい。 Each of the above devices may be realized by a plurality of computers.
上記各装置の一部又は全部の機能がクラウドコンピューティングによって提供されてもよい。つまり、各装置の一部又は全部の機能がクラウドサーバにより実現されていてもよい。 Some or all the functions of each of the above devices may be provided by cloud computing. That is, some or all the functions of each device may be realized by the cloud server.
さらに、上記実施形態及び上記変形例の少なくとも一部を任意に組み合わせてもよい。 Further, at least a part of the above-described embodiment and the above-described modification may be arbitrarily combined.
今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。 The embodiments disclosed this time should be considered to be exemplary in all respects and not restrictive. The scope of the present disclosure is indicated by the scope of claims, not the above-mentioned meaning, and is intended to include all modifications within the meaning and scope equivalent to the scope of claims.
1 提供システム
2 第1装置
3 ネットワーク
4 第2装置
5 感情・集中力DB
21 映像取得部(第1取得部)
22 映像符号化部
23 映像解析部(判断部)
24 音声取得部(第1取得部)
25 音声符号化部
26 音声解析部(判断部)
27 多重化部
28 感情・集中力判断部(判断部)
29 第1送信部(提供部)
30 第1受信部
31 分離部
32 映像復号化部(映像取得部)
33 音声復号化部(音声取得部)
34 感情・集中力処理部(発言促進部、算出部)
35 表示・出力部(提供部、第1出力部)
41 映像取得部(映像取得部、第2取得部)
42 映像符号化部
43 映像解析部(判断部)
44 音声取得部(音声取得部、第2取得部)
45 音声符号化部
46 音声解析部(判断部)
47 多重化部
48 感情・集中力判断部(判断部)
49 第2送信部(提供部)
50 第2受信部
51 分離部
52 映像復号化部
53 音声復号化部
54 感情・集中力処理部
55 表示・出力部(第2出力部)
60 映像表示領域
61 感情履歴通知領域
71A ユーザ
71B ユーザ
71C ユーザ
72A アイコン
72B アイコン
72C アイコン
73A 判断結果
73B 判断結果
73C 判断結果
1 Provided system 2 1st device 3
21 Video acquisition section (1st acquisition section)
22
24 Voice acquisition unit (1st acquisition unit)
25
27
29 First transmitter (provider)
30 First receiving
33 Voice decoding unit (voice acquisition unit)
34 Emotion / Concentration Processing Department (Speech Promotion Department, Calculation Department)
35 Display / output section (providing section, first output section)
41 Video acquisition unit (video acquisition unit, second acquisition unit)
42
44 Voice acquisition unit (voice acquisition unit, second acquisition unit)
45
47
49 Second transmitter (provider)
50
60
Claims (11)
取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える、提供システム。 A video acquisition unit that acquires the video of the second user, which is obtained by photographing the second user who listens to the voice of the first user who is the speaker.
A judgment unit that determines at least one of the emotion and concentration of the second user based on the acquired video of the second user.
A providing system including a providing unit that provides a determination result by the determining unit to the first user.
前記判断部は、取得された前記第2ユーザの映像及び音声に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する、請求項1に記載の提供システム。 The provided system further includes a voice acquisition unit that acquires the voice of the second user.
The providing system according to claim 1, wherein the determination unit determines at least one of the emotion and the degree of concentration of the second user based on the acquired video and audio of the second user.
前記第1装置は、
前記第1ユーザの音声及び映像を取得する第1取得部と、
取得された前記第1ユーザの音声及び映像を前記第2装置に送信する第1送信部と、
前記第2装置から、前記第2ユーザの音声及び映像を受信する第1受信部と、
受信された前記第2ユーザの音声及び映像と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、
前記第2装置は、
前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、
取得された前記第2ユーザの音声及び映像を前記第1装置に送信する第2送信部と、
前記第1装置から、前記第1ユーザの音声及び映像を受信する第2受信部と、
受信された前記第1ユーザの音声及び映像を出力する第2出力部とを含む、請求項2に記載の提供システム。 The provided system includes a first device and a second device connected to each other via a network.
The first device is
The first acquisition unit that acquires the audio and video of the first user, and
A first transmission unit that transmits the acquired audio and video of the first user to the second device, and
A first receiving unit that receives audio and video of the second user from the second device, and
The first output unit as the providing unit, which outputs the received audio and video of the second user and the determination result by the determination unit, is included.
The second device is
The audio acquisition unit, the second acquisition unit as the video acquisition unit, and the second acquisition unit that acquires the audio and video of the second user.
A second transmission unit that transmits the acquired audio and video of the second user to the first device, and
A second receiving unit that receives the audio and video of the first user from the first device, and
The providing system according to claim 2, further comprising a second output unit that outputs the received audio and video of the first user.
前記第1装置は、
前記第1ユーザの音声を取得する第1取得部と、
取得された前記第1ユーザの音声を前記第2装置に送信する第1送信部と、
前記第2装置から、前記第2ユーザの音声を受信する第1受信部と、
受信された前記第2ユーザの音声と、前記判断部による判断結果とを出力する、前記提供部としての第1出力部とを含み、
前記第2装置は、
前記第2ユーザの音声及び映像を取得する、前記音声取得部及び前記映像取得部としての第2取得部と、
取得された前記第2ユーザの音声を前記第1装置に送信する第2送信部と、
前記第1装置から、前記第1ユーザの音声を受信する第2受信部と、
受信された前記第1ユーザの音声を出力する第2出力部とを含み、
前記判断部は、前記第2装置に備えられ、前記第2取得部が取得した前記第2ユーザの音声及び映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断し、
前記第2送信部は、さらに、前記判断部による判断結果を送信し、
前記第1受信部は、さらに、前記判断部による判断結果を受信し、
前記第1出力部は、前記第1受信部が受信した前記判断部による判断結果を出力する、請求項2に記載の提供システム。 The provided system includes a first device and a second device connected to each other via a network.
The first device is
The first acquisition unit that acquires the voice of the first user, and
A first transmission unit that transmits the acquired voice of the first user to the second device, and
A first receiving unit that receives the voice of the second user from the second device, and
The first output unit as the providing unit, which outputs the received voice of the second user and the determination result by the determination unit, is included.
The second device is
The audio acquisition unit, the second acquisition unit as the video acquisition unit, and the second acquisition unit that acquires the audio and video of the second user.
A second transmission unit that transmits the acquired voice of the second user to the first device, and
A second receiving unit that receives the voice of the first user from the first device, and
Including a second output unit that outputs the received voice of the first user.
The determination unit determines at least one of the emotion and concentration of the second user based on the audio and video of the second user acquired by the second acquisition unit, which is provided in the second device.
The second transmission unit further transmits the determination result by the determination unit.
The first receiving unit further receives the determination result by the determination unit, and receives the determination result.
The providing system according to claim 2, wherein the first output unit outputs a determination result by the determination unit received by the first receiving unit.
前記第2ユーザの感情及び集中度の少なくとも一方の判断結果に基づいて、前記第2ユーザに対して発言を促す発言促進部を備える、請求項3から請求項5のいずれか1項に記載の提供システム。 The second device further
The invention according to any one of claims 3 to 5, further comprising a speech promotion unit that prompts the second user to speak based on the determination result of at least one of the emotion and concentration of the second user. Offering system.
前記判断部による判断結果に基づいて、前記第1ユーザと前記第2ユーザとの対話における前記第2ユーザの貢献度を算出する算出部を備える、請求項3から請求項6のいずれか1項に記載の提供システム。 The provided system further
Any one of claims 3 to 6, further comprising a calculation unit that calculates the degree of contribution of the second user in the dialogue between the first user and the second user based on the judgment result by the determination unit. Provided system described in.
取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断するステップと、
前記判断するステップにおける判断結果を、前記第1ユーザに提供するステップとを含む、提供方法。 A step of acquiring the video of the second user, which is obtained by photographing the second user who watches the audio and video of the first user who is the speaker.
A step of determining at least one of the emotion and concentration of the second user based on the acquired video of the second user, and
A providing method including a step of providing a determination result in the determination step to the first user.
取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
前記判断部による判断結果を、前記第1ユーザに提供する提供部とを備える、提供装置。 An image acquisition unit that acquires the image of the second user, which is obtained by photographing the second user who views the sound and image of the first user who is the speaker.
A judgment unit that determines at least one of the emotion and concentration of the second user based on the acquired video of the second user.
A providing device including a providing unit that provides a determination result by the determining unit to the first user.
話者である第1ユーザの音声及び映像を視聴する第2ユーザを撮影することにより得られる、前記第2ユーザの映像を取得する映像取得部と、
取得された前記第2ユーザの映像に基づいて、前記第2ユーザの感情及び集中度の少なくとも一方を判断する判断部と、
前記判断部による判断結果を、前記第1ユーザに提供する提供部として機能させるための、コンピュータプログラム。 Computer,
An image acquisition unit that acquires the image of the second user, which is obtained by photographing the second user who views the sound and image of the first user who is the speaker.
A judgment unit that determines at least one of the emotion and concentration of the second user based on the acquired video of the second user.
A computer program for causing the determination result by the determination unit to function as a provision unit to be provided to the first user.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020003983A JP2021111239A (en) | 2020-01-14 | 2020-01-14 | Providing system, providing method, providing device, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020003983A JP2021111239A (en) | 2020-01-14 | 2020-01-14 | Providing system, providing method, providing device, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021111239A true JP2021111239A (en) | 2021-08-02 |
Family
ID=77060011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020003983A Pending JP2021111239A (en) | 2020-01-14 | 2020-01-14 | Providing system, providing method, providing device, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021111239A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023032056A1 (en) * | 2021-08-31 | 2023-03-09 | 株式会社I’mbesideyou | Video analysis system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005277462A (en) * | 2004-03-22 | 2005-10-06 | Fujitsu Ltd | Conference support system, proceeding forming method, and computer program |
JP2010183444A (en) * | 2009-02-06 | 2010-08-19 | Fuji Xerox Co Ltd | Information processing apparatus, and voice correction program |
WO2016178329A1 (en) * | 2015-05-07 | 2016-11-10 | ソニー株式会社 | Information processing system, control method, and storage medium |
JP2019061594A (en) * | 2017-09-28 | 2019-04-18 | 株式会社野村総合研究所 | Conference support system and conference support program |
JP2019071515A (en) * | 2017-10-06 | 2019-05-09 | 富士ゼロックス株式会社 | Communication device, communication system, and program |
-
2020
- 2020-01-14 JP JP2020003983A patent/JP2021111239A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005277462A (en) * | 2004-03-22 | 2005-10-06 | Fujitsu Ltd | Conference support system, proceeding forming method, and computer program |
JP2010183444A (en) * | 2009-02-06 | 2010-08-19 | Fuji Xerox Co Ltd | Information processing apparatus, and voice correction program |
WO2016178329A1 (en) * | 2015-05-07 | 2016-11-10 | ソニー株式会社 | Information processing system, control method, and storage medium |
JP2019061594A (en) * | 2017-09-28 | 2019-04-18 | 株式会社野村総合研究所 | Conference support system and conference support program |
JP2019071515A (en) * | 2017-10-06 | 2019-05-09 | 富士ゼロックス株式会社 | Communication device, communication system, and program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023032056A1 (en) * | 2021-08-31 | 2023-03-09 | 株式会社I’mbesideyou | Video analysis system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361770B2 (en) | Detecting user identity in shared audio source contexts | |
US10706873B2 (en) | Real-time speaker state analytics platform | |
US11216784B2 (en) | Systems and methods for automating validation and quantification of interview question responses | |
US10068588B2 (en) | Real-time emotion recognition from audio signals | |
US20160379643A1 (en) | Group Status Determining Device and Group Status Determining Method | |
US20170270930A1 (en) | Voice tallying system | |
US11184412B1 (en) | Modifying constraint-based communication sessions | |
US9053096B2 (en) | Language translation based on speaker-related information | |
US9293133B2 (en) | Improving voice communication over a network | |
US20080240379A1 (en) | Automatic retrieval and presentation of information relevant to the context of a user's conversation | |
JP2005277462A (en) | Conference support system, proceeding forming method, and computer program | |
JP2017009825A (en) | Conversation state analyzing device and conversation state analyzing method | |
JP6238083B2 (en) | Information processing apparatus, server, information processing method, and information processing system | |
Samareh et al. | Detect depression from communication: How computer vision, signal processing, and sentiment analysis join forces | |
JP2017010309A (en) | Decision-making support apparatus and decision-making method | |
US20220231873A1 (en) | System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation | |
KR20210156145A (en) | A voice recognition and emotion recognition based interactive conversation system using AI and AR technology | |
JP2021111239A (en) | Providing system, providing method, providing device, and computer program | |
WO2021210332A1 (en) | Information processing device, information processing system, information processing method, and program | |
TW202223804A (en) | Electronic resource pushing method and system | |
JP2010086356A (en) | Apparatus, method and program for measuring degree of involvement | |
Jiao et al. | Objective intelligibility assessment by automated segmental and suprasegmental listening error analysis | |
CN114566187B (en) | Method of operating a system comprising an electronic device, electronic device and system thereof | |
JP6285377B2 (en) | Communication skill evaluation feedback device, communication skill evaluation feedback method, and communication skill evaluation feedback program | |
JP7313518B1 (en) | Evaluation method, evaluation device, and evaluation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230418 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231010 |