JP2021033359A - Emotion estimation device, emotion estimation method, program, information presentation device, information presentation method and emotion estimation system - Google Patents
Emotion estimation device, emotion estimation method, program, information presentation device, information presentation method and emotion estimation system Download PDFInfo
- Publication number
- JP2021033359A JP2021033359A JP2019148936A JP2019148936A JP2021033359A JP 2021033359 A JP2021033359 A JP 2021033359A JP 2019148936 A JP2019148936 A JP 2019148936A JP 2019148936 A JP2019148936 A JP 2019148936A JP 2021033359 A JP2021033359 A JP 2021033359A
- Authority
- JP
- Japan
- Prior art keywords
- person
- information
- evaluation value
- emotion
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 271
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000011156 evaluation Methods 0.000 claims abstract description 123
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 230000002996 emotional effect Effects 0.000 claims description 69
- 238000003384 imaging method Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 56
- 230000008921 facial expression Effects 0.000 description 40
- 230000008569 process Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 17
- 238000005259 measurement Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000001815 facial effect Effects 0.000 description 11
- 230000006399 behavior Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 240000004050 Pentaglottis sempervirens Species 0.000 description 3
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011514 reflex Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000036626 alertness Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 210000003403 autonomic nervous system Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、感情推定装置、感情推定方法、プログラム、情報提示装置、情報提示方法及び感情推定システムに関する。 The present invention relates to an emotion estimation device, an emotion estimation method, a program, an information presentation device, an information presentation method, and an emotion estimation system.
特許文献1には、表情の時系列画像に基づき、計算機により表情の測定を行い表情の機械認識を行う表情認識装置が提案されている。 Patent Document 1 proposes a facial expression recognition device that measures facial expressions with a computer based on time-series images of facial expressions and performs machine recognition of facial expressions.
前記特許文献1を含め、ある1台のカメラ(撮像装置)によって撮像されたヒトの顔画像から、その顔の表情種別や感情表出強度を推定する技術(以下「表情推定」技術)が既存に知られている。特に、近年では深層学習(Deep Learning)の登場により、その推定(識別)精度が向上してきた。 A technique for estimating the facial expression type and emotional expression intensity of a human face image captured by a single camera (imaging device) including the above-mentioned Patent Document 1 (hereinafter referred to as "facial expression estimation" technique) already exists. Is known for. In particular, in recent years, with the advent of deep learning, the accuracy of its estimation (identification) has improved.
一方で、実環境(In the Wild環境)での画像認識技術においては、理想的な実験室統制環境と比較して、表情推定処理における外乱要因、たとえばカメラと被写体間の位置関係性に基づく見えの変化、照明変動、オクルージョン等により、表情推定の精度(を含む認識処理の性能)が下がってしまうという課題がある。 On the other hand, in the image recognition technology in the real environment (In the Wild environment), the appearance is based on the disturbance factor in the facial expression estimation processing, for example, the positional relationship between the camera and the subject, as compared with the ideal laboratory control environment. There is a problem that the accuracy of facial expression estimation (including the performance of recognition processing) is lowered due to changes in the image, lighting fluctuation, occlusion, and the like.
そこで本発明は、感情推定の精度を向上させることが可能な技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique capable of improving the accuracy of emotion estimation.
上記問題を解決するために、本発明のある観点によれば、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、を備える、感情推定装置が提供される。 In order to solve the above problem, according to a certain viewpoint of the present invention, a mapping processing unit for associating a plurality of person area images in which the same person is captured from a plurality of viewpoints and photographing each of the plurality of person area images. Comprehensive emotion that generates comprehensive estimated emotion information of the person based on the evaluation value calculation unit that calculates the evaluation value of the condition, the estimated emotion information generated from each of the plurality of person area images, and the evaluation value. An emotion estimation device including an estimation unit is provided.
前記対応付け処理部は、前記複数の人物領域画像それぞれに写る前記人物の空間における位置情報に基づいて、前記複数の人物領域画像を対応付けてもよい。 The association processing unit may associate the plurality of person area images based on the position information in the space of the person reflected in each of the plurality of person area images.
前記対応付け処理部は、前記複数の人物領域画像それぞれの撮影時刻に基づいて、前記複数の人物領域画像を対応付けてもよい。 The association processing unit may associate the plurality of person area images based on the shooting times of the plurality of person area images.
前記総合感情推定部は、前記評価値に基づいて複数の推定感情情報それぞれの重みを算出し、前記推定感情情報と前記重みとに基づいて、前記総合的な推定感情情報を生成してもよい。 The comprehensive emotion estimation unit may calculate the weight of each of the plurality of estimated emotion information based on the evaluation value, and generate the comprehensive estimated emotion information based on the estimated emotion information and the weight. ..
前記総合感情推定部は、前記撮影条件の優先順位および前記評価値に基づいて、前記重みを算出してもよい。 The comprehensive emotion estimation unit may calculate the weight based on the priority of the imaging conditions and the evaluation value.
前記総合感情推定部は、前記評価値間の正規化に基づいて前記重みを算出してもよい。 The comprehensive emotion estimation unit may calculate the weight based on the normalization between the evaluation values.
前記評価値算出部は、当該複数の推定感情情報それぞれの推定における尤度に基づいて前記評価値を設定してもよい。 The evaluation value calculation unit may set the evaluation value based on the likelihood in the estimation of each of the plurality of estimated emotion information.
前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物と前記人物領域画像を撮像するカメラとの角度または距離に基づいて、前記人物領域画像の撮影条件の評価値を設定してもよい。 The evaluation value calculation unit determines the evaluation value of the shooting condition of the person area image based on the angle or distance between the person and the camera that captures the person area image in response to each of the plurality of person area images. It may be set.
前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物に対する光照射度合い、および、前記人物の撮像遮蔽度合いの少なくともいずれか一方に基づいて、前記人物領域画像の撮影条件の評価値を設定してもよい。 The evaluation value calculation unit corresponds to each of the plurality of person area images, and based on at least one of the degree of light irradiation to the person and the degree of imaging shielding of the person, the shooting conditions of the person area image. The evaluation value of may be set.
前記評価値算出部は、前記複数の人物領域画像それぞれに対応して、前記人物領域画像の解像度および画像品質の少なくともいずれか一方に基づいて、前記人物領域画像の撮影条件の評価値を設定してもよい。 The evaluation value calculation unit sets the evaluation value of the shooting condition of the person area image based on at least one of the resolution and the image quality of the person area image corresponding to each of the plurality of person area images. You may.
また、本発明の他の観点によれば、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付けることと、前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、を含む、感情推定方法が提供される。 Further, according to another viewpoint of the present invention, associating a plurality of person area images obtained by capturing the same person from a plurality of viewpoints and calculating an evaluation value of shooting conditions for each of the plurality of person area images. An emotion estimation method including the generation of comprehensive estimated emotion information of the person based on the estimated emotion information generated from each of the plurality of person area images and the evaluation value is provided. ..
また、本発明の他の観点によれば、コンピュータを、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、を備える感情推定装置として機能させるためのプログラムが提供される。 Further, according to another viewpoint of the present invention, the computer has a matching processing unit for associating a plurality of person area images in which the same person is captured from a plurality of viewpoints, and shooting conditions for each of the plurality of person area images. An evaluation value calculation unit that calculates an evaluation value, and a comprehensive emotion estimation unit that generates comprehensive estimated emotion information of the person based on the estimated emotion information generated from each of the plurality of person area images and the evaluation value. A program for functioning as an emotion estimation device is provided.
また、本発明の他の観点によれば、複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御する制御部を備える、情報提示装置が提供される。 Further, according to another viewpoint of the present invention, the evaluation value of the shooting conditions of each of the plurality of person area images associated with the same person being imaged from the plurality of viewpoints is calculated, and each of the plurality of person area images is calculated. It is provided with a control unit that controls so that when the comprehensive estimated emotion information of the person is generated based on the estimated emotion information generated from the above and the evaluation value, the comprehensive estimated emotion information is presented. , An information presentation device is provided.
前記制御部は、前記人物が写る人物領域画像が提示されるように制御するとともに、前記人物領域画像において前記人物が写る座標に応じた位置に前記総合的な推定感情情報が重畳されるように制御してもよい。 The control unit controls so that the person area image in which the person appears is presented, and the comprehensive estimated emotion information is superimposed on the position corresponding to the coordinates in which the person appears in the person area image. You may control it.
また、本発明の他の観点によれば、複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御することを含む、情報提示方法が提供される。 Further, according to another viewpoint of the present invention, the evaluation value of the shooting conditions of each of the plurality of person area images associated with the same person being imaged from the plurality of viewpoints is calculated, and each of the plurality of person area images is calculated. When the comprehensive estimated emotional information of the person is generated based on the estimated emotional information generated from the above and the evaluation value, the comprehensive estimated emotional information is controlled to be presented. Information presentation methods are provided.
また、本発明の他の観点によれば、コンピュータを、複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御する制御部を備える、情報提示装置として機能させるためのプログラムが提供される。 Further, according to another viewpoint of the present invention, the evaluation value of the shooting conditions of each of the plurality of person area images associated with the same person being imaged from a plurality of viewpoints is calculated by the computer, and the plurality of persons. Control to control so that when the comprehensive estimated emotion information of the person is generated based on the estimated emotion information generated from each of the region images and the evaluation value, the comprehensive estimated emotion information is presented. A program for functioning as an information presenting device is provided.
また、本発明の他の観点によれば、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、を備える、感情推定装置と、前記総合的な推定感情情報が提示されるように制御する制御部を備える、情報提示装置と、を有する、感情推定システムが提供される。 Further, according to another viewpoint of the present invention, the associating processing unit for associating a plurality of person area images in which the same person is captured from a plurality of viewpoints and the evaluation value of the shooting conditions of the plurality of person area images are determined. An evaluation value calculation unit to be calculated, and a comprehensive emotion estimation unit that generates comprehensive estimated emotion information of the person based on the estimated emotion information generated from each of the plurality of person area images and the evaluation value. Provided is an emotion estimation system including an emotion estimation device and an information presentation device including a control unit for controlling the comprehensive estimated emotion information to be presented.
また、本発明の他の観点によれば、複数の視点から同一の人物が撮像された複数の人物領域画像を対応付けることと、前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、前記総合的な推定感情情報が提示されるように制御することと、含む、感情推定方法が提供される。 Further, according to another viewpoint of the present invention, associating a plurality of person area images obtained by capturing the same person from a plurality of viewpoints and calculating an evaluation value of shooting conditions for each of the plurality of person area images. And, based on the estimated emotion information generated from each of the plurality of person area images and the evaluation value, the comprehensive estimated emotion information of the person is generated, and the comprehensive estimated emotion information is presented. Emotion estimation methods are provided, including controlling and including.
以上説明したように本発明によれば、感情推定の精度を向上させることが可能な技術が提供される。 As described above, according to the present invention, there is provided a technique capable of improving the accuracy of emotion estimation.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
また、本明細書及び図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。 Further, in the present specification and the drawings, a plurality of components having substantially the same or similar functional configurations are distinguished by adding different alphabets after the same reference numerals. However, if it is not necessary to distinguish each of a plurality of components having substantially the same or similar functional configurations, only the same reference numerals are given.
(0.概要)
前記特許文献1には、表情の時系列画像に基づき、計算機により表情の測定を行い表情の機械認識を行う表情認識装置が提案されている。
(0. Overview)
Patent Document 1 proposes a facial expression recognition device that measures facial expressions with a computer based on time-series images of facial expressions and performs machine recognition of facial expressions.
前記特許文献1を含め、ある1台のカメラ(撮像装置)によって撮像されたヒトの顔画像(または身体画像)から、その顔の表情(または行動しぐさ)の種別や感情表出強度を推定する技術(以下「表情推定」技術)が既存に知られている。特に、近年では深層学習(Deep Learning)の登場により、その推定(識別)精度が向上してきた。 From the human face image (or body image) captured by one camera (imaging device) including the above-mentioned Patent Document 1, the type of facial expression (or behavioral behavior) and the emotional expression intensity of the face are estimated. Technology (hereinafter referred to as "facial expression estimation" technology) is already known. In particular, in recent years, with the advent of deep learning, the accuracy of its estimation (identification) has improved.
一方で、実環境(In the Wild環境)での画像認識においては、理想的な実験室統制環境と比較して、表情推定処理における外乱要因、たとえばカメラと被写体間の位置関係性に基づく見えの変化、照明変動、オクルージョン等により、表情推定の精度が下がってしまうという課題がある。 On the other hand, in image recognition in a real environment (In the Wild environment), compared to an ideal laboratory control environment, the appearance is based on disturbance factors in facial expression estimation processing, for example, the positional relationship between the camera and the subject. There is a problem that the accuracy of facial expression estimation is lowered due to changes, lighting fluctuations, occlusion, and the like.
さらに近年、遠隔環境において、離れた拠点に備えられた複数のカメラ映像を常時共有することにより、離れていてもあたかも一緒に働いているかのような協働環境を実現させるテレワークシステムが開発されている(非特許文献1:徳満昌之・野中雅人、超臨場感テレワークシステムの開発、OKIテクニカルレビュー、Vol.84(1)、pp.32−35、2017)。遠隔環境では同室環境と比較して離れた相手の状況、たとえば「感情」が把握し難く感じられる問題があるが(非特許文献2:有本泰子ほか、オンラインコミュニケーションにおけるモダリティ統制下の情動理解、日本音響学会2014年秋季研究発表会講演論文集、pp.385−386、2014)、前記の「表情推定技術」を利用し、表情の推定情報を生成して遠隔地の相手に情報提示することで、その問題も軽減できると考えられる。 Furthermore, in recent years, a telework system has been developed that realizes a collaborative environment as if working together even if they are separated by constantly sharing images from multiple cameras installed at remote locations in a remote environment. (Non-Patent Document 1: Masayuki Tokumatsu and Masato Nonaka, Development of Super Realistic Telework System, OKI Technical Review, Vol.84 (1), pp.32-35, 2017). In a remote environment, there is a problem that it is difficult to grasp the situation of the other party, for example, "emotion" compared to the room environment (Non-Patent Document 2: Yasuko Arimoto et al., Emotional understanding under modality control in online communication, Proceedings of the 2014 Autumn Meeting of the Acoustic Society of Japan, pp.385-386, 2014), using the above-mentioned "facial expression estimation technology" to generate facial expression estimation information and present it to a remote partner. Therefore, it is thought that the problem can be alleviated.
しかしながら、実環境のオフィスでは前記の照明変動や各種室内設備のカメラ内映り込みによるオクルージョンが高確率で発生し、推定感情情報の精度を低下させる。そこで、前記テレワークシステムが備える複数のカメラを利用することで、当該課題の解決を試みる。 However, in an office in a real environment, occlusion due to the above-mentioned lighting fluctuation and reflection in the camera of various indoor equipment occurs with high probability, and the accuracy of the estimated emotion information is lowered. Therefore, we try to solve the problem by using a plurality of cameras included in the telework system.
本実施形態は、複数のカメラと、顔画像から表情推定処理を行うサーバと、を備えた「複数視点映像による顔表情推定システム」であって、前記サーバは、複数のカメラ画像間で推定対象の撮像データまたは抽出データの対応付けを行う「感情人物照合部」、複数のカメラそれぞれの撮影条件を比較し複数の推定感情情報それぞれの評価値を算出する「撮像条件比較部」、複数の推定感情情報それぞれの評価値から最終的な推定感情情報を算出する「総合感情推定部」を備える。複数視点のカメラによる多重の表情推定処理を実現できることにより、従来の単一のカメラ画像に基づく表情推定技術と比較して、高精度の表情推定を実現できる。 The present embodiment is a "facial expression estimation system using a plurality of viewpoint images" including a plurality of cameras and a server that performs facial expression estimation processing from a facial image, and the server is an estimation target among a plurality of camera images. "Emotional person matching unit" that associates the captured data or extracted data of the camera, "Imaging condition comparison unit" that compares the shooting conditions of each of multiple cameras and calculates the evaluation value of each of the multiple estimated emotional information, and multiple estimations. Emotion information A "comprehensive emotion estimation unit" that calculates the final estimated emotion information from each evaluation value is provided. By realizing multiple facial expression estimation processes using a camera having a plurality of viewpoints, it is possible to realize highly accurate facial expression estimation as compared with the conventional facial expression estimation technology based on a single camera image.
(1.第1の実施形態)
続いて、図1を参照して、本発明の実施形態に係る情報通信システム(感情推定システム)の概略的な構成を説明する。
(1. First Embodiment)
Subsequently, with reference to FIG. 1, a schematic configuration of an information communication system (emotion estimation system) according to the embodiment of the present invention will be described.
図1は、本実施形態に係る情報通信システムの概略的な構成の一例を示す説明図である。図1を参照すると、本情報通信システムは、感情推定サーバ(感情推定装置)100、複数のカメラ200、情報提示端末(情報提示装置)300及びLAN50を含み、その一部(たとえば複数のカメラ200)はオフィス400内に存在しても構わない。また、オフィス400内には本情報通信システムの一部の他に、一例としてユーザー900、障害物500及び照明600が存在している。複数のカメラ200の撮影範囲は互いに重複していても構わない。
FIG. 1 is an explanatory diagram showing an example of a schematic configuration of an information communication system according to the present embodiment. Referring to FIG. 1, the information communication system includes an emotion estimation server (emotion estimation device) 100, a plurality of
図2は、本実施形態に係る感情推定サーバ100、カメラ200、情報提示端末300(以下、感情推定サーバ100、カメラ200及び情報提示端末300それぞれを区別せずに「本実施形態に係る装置」と言う場合がある。)のハードウェア構成の一例を示すブロック図である。なお、前記の各装置のすべてに下記のハードウェア構成のすべてが備えられている必要はなく(たとえば感情推定サーバ100に直接的にセンサが備えられている必要はない)、後述する各装置の機能構成を実現できるハードウェアモジュールが適宜限定して備えられてもよい。
FIG. 2 shows the “device according to the present embodiment” without distinguishing each of the
図2を参照すると、本実施形態に係る装置は、バス801、CPU(Central Processing Unit)803、ROM(Read Only Memory)805、RAM(Random Access Memory)807、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817、スピーカ819を備える。CPU803は、本実施形態に係る装置における様々な処理を実行する。また、ROM805は、本実施形態に係る装置における処理をCPU803に実行させるためのプログラム及びデータを記憶する。また、RAM807は、CPU803の処理の実行時に、プログラム及びデータを一時的に記憶する。
Referring to FIG. 2, the apparatus according to the present embodiment includes a
バス801は、CPU803、ROM805及びRAM807を相互に接続する。バス801には、さらに、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817及びスピーカ819が接続される。バス801は、例えば、複数の種類のバスを含む。一例として、バス801は、CPU803、ROM805及びRAM807を接続する高速バスと、前記高速バスよりも低速の1つ以上の別のバスを含む。
The
記憶装置809は、本実施形態に係る装置内で一時的または恒久的に保存すべきデータを記憶する。記憶装置809は、例えば、ハードディスク(Hard Disk)等の磁気記憶装置であってもよく、または、EEPROM(Electrically Erasable and Programmable Read
Only Memory)、フラッシュメモリ(flash memory)、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)及びPRAM(Phase change Random Access Memory)等の不揮発性メモリ(nonvolatile memory)であってもよい。
The
It may be a non-volatile memory such as Only Memory, flash memory, MRAM (Magnetoresistive Random Access Memory), FeRAM (Ferroelectric Random Access Memory) and PRAM (Phase change Random Access Memory).
通信インタフェース811は、本実施形態に係る装置が備える通信手段であり、ネットワークを介して(あるいは直接的に)外部装置と通信する。通信インタフェース811は、無線通信用のインタフェースであってもよく、この場合に、例えば、通信アンテナ、RF回路及びその他の通信処理用の回路を含んでもよい。また、通信インタフェース811は、有線通信用のインタフェースであってもよく、この場合に、例えば、LAN端子、伝送回路及びその他の通信処理用の回路を含んでもよい。
The
センサ813は、たとえばカメラ、マイクロフォン、生体センサ、その他のセンサまたはそれらの複合である。カメラは、被写体を撮像するもので、例えば光学系、撮像素子及び画像処理回路を含む。マイクロフォンは、周囲の音を収音するもので、前記音を電気信号へ変換し前記電気信号をデジタルデータに変換する。
The
入力装置815は、タッチパネル、マウス、視線検出装置等である。表示装置817は、本実施形態に係る装置からの出力画像(すなわち表示画面)を表示するもので、例えば液晶、有機EL(Organic Light-Emitting Diode)、CRT(Cathode Ray Tube)等を用いて実現され得る。スピーカ819は、音声を出力するもので、デジタルデータを電気信号に変換し前記電気信号を音声に変換する。
The
次に、図3を参照して、本実施形態に係る「カメラ200」の機能構成の一例を説明する。カメラ200は、実世界の計測データを生成する機能を有し、ユーザー900を含むオフィス400内の撮像画像(動画像であってもよく、画像には映像が含まれ得る)や、ユーザー900の各種行動・生理反応等(表情、身振り、音声等を含む)を外的に計測して、取得したセンサデータを後述する感情推定サーバ100へ送信する。
Next, an example of the functional configuration of the “
図3は、本実施形態に係るカメラ200の機能構成の一例を示すブロック図である。図3を参照すると、カメラ200は、通信部210、計測部220及び制御部230を備える。なお、図3には図示していないが、カメラ200は、計測データを保存するための記憶部や、内部動作状況をユーザーに示すための表示部等をさらに備えていてもよい。
FIG. 3 is a block diagram showing an example of the functional configuration of the
通信部210は、他の装置と通信する。たとえば、通信部210は、LAN50に直接的に接続され、感情推定サーバ100と通信する。また、他のカメラ200と通信してもよい。なお、通信部210は、通信インタフェース811により実装され得る。
The
計測部220は、実世界の計測データ(たとえばオフィス400内の俯瞰的画角の撮映像)や、ユーザー900の行動や生理反応を外的に計測してデータを取得する。前記行動や生体反応のデータは、たとえば、カメラにより計測されるオフィス400内移動行動、顔表情や身体姿勢の状態内容を含む画像データ、マイクロフォンにより計測される音声データである。さらには、人体の撮像データにおける肌の色の微細な変化から推定する脈拍データ、眼の撮像データから推定する視線運動データや瞳孔径データ、前記カメラに赤外線サーモグラフィ機能が備えられていれば計測できる皮膚温分布データ等、ユーザーの自律神経系活動情報を反映する高次の生理指標データであってもよい。
The
前記推定の処理は、後述する制御部230によりカメラ200内で行われてもよいし、カメラ200から後述する感情推定サーバ100へ生の測定データを送信し感情推定サーバ100内で行われてもよい。なお、計測部220は、センサ813により実装され得る。
The estimation process may be performed in the
制御部230は、カメラ200の様々な機能を提供する。制御部230は、前記計測データを、後述する計測対象のユーザー900の位置情報のデータや、計測データを計測した時刻情報のデータと紐づけ、通信部210を介して感情推定サーバ100へ送信してもよい。カメラ200は、計測だけでなく、前処理、特徴抽出処理、推定を含む解析処理までを実施してもよく、その場合の各種演算処理を制御部230が行ってもよい。なお、制御部230は、CPU803、ROM805及びRAM807により実装され得る。
The
カメラ200は、撮像範囲内に含まれるユーザー900の位置を推定する機能を有していてもよい。たとえば、カメラ200にレーザレンジファインダの機能も搭載されており、撮像範囲の3次元計測機能を有していてもよい。また、カメラ200が汎用的な単眼カメラであっても、撮像対象人物の3次元実空間における存在位置を推定する方法は既存に複数あり、公知の方法である(たとえば、非特許文献3:大澤達哉ほか、映像モニタリングのための人物追跡技術、NTT技術ジャーナル、19(8)、pp.17−20、2007)。
The
本発明の実施形態では、カメラ200は、たとえばオフィス内の固定設置利用であってもよく、その場合、カメラの内部または外部パラメータの情報(カメラの3次元空間内位置、姿勢、撮像方向、画角、撮像範囲等の情報を含む)に係るデータは既知として、前記カメラパラメータのデータをカメラ200や感情推定サーバ100が予め記憶部に有しており、前記データを撮像対象人物の位置推定に利用してもよい(すなわち、前記データ及びカメラ200からの取得データに基づいて撮像対象人物の位置が推定されてもよい)。
In the embodiment of the present invention, the
さらに、カメラ200は、たとえば自動車に設置された車載カメラであってもよい。この場合も、カメラ200は自動車周囲環境の撮像データや前記自動車の位置(GPS(Global Positioning System)、デッドレコニング、高精度地図、SLAM(Simultaneous Localization And Mapping)等で算出されてもよい)や姿勢の情報をリアルタイムに取得し、前記カメラの外部パラメータの情報を生成してもよい。また、複数のカメラ200は複数の自動車にそれぞれ設置されたカメラであって、前記複数のカメラ200は複数の自動車間の車々間通信によってお互いの位置関係情報を生成してもよい。
Further, the
次に、図4を参照して、本実施形態に係る「感情推定サーバ100」の機能構成の一例を説明する。図4は、本実施形態に係る感情推定サーバ100の機能構成の一例を示すブロック図である。図4を参照すると、感情推定サーバ100は、通信部110、記憶部120及び制御部130を備える。
Next, an example of the functional configuration of the “
通信部110は、他の装置と通信する。たとえば、通信部110は、LAN50に直接的に接続され、カメラ200や情報提示端末300と通信する。なお、通信部110は、通信インタフェース811により実装され得る。
The
記憶部120は、感情推定サーバ100の動作のためのプログラム及びデータを記憶する。記憶部120は、感情推定辞書DB121及び感情人物位置DB122を含む。
前記データには、センサデータ(本実施形態では、たとえばユーザー900を含む画像のデータ)からユーザーの感情(感情には表情やしぐさの種別や強度も含まれ得る)を推定(識別)処理するための学習済の感情推定モデル(感情認識辞書)のデータが含まれる。前記感情推定モデルは、予め取得されたセンサデータ(たとえば多数の人物の顔表情を含む画像)と、前記センサデータ取得時の撮像対象人物の感情の正解情報のデータとを紐づけて学習処理し生成される。前記感情の正解情報は、学習処理フェーズにおいて前記人物から質問紙法等により計測されても構わない。また、感情推定モデルはユーザー900の各個人毎、所定期間毎、ユーザー900の行動種別毎等でデータを分類および分割しそれぞれ学習処理させることで生成され、条件に応じた複数の感情推定モデルが存在しても構わない。
The
In order to estimate (identify) the user's emotions (the emotions may include the type and intensity of facial expressions and gestures) from the sensor data (in the present embodiment, for example, image data including the user 900). Contains data from the trained emotion estimation model (emotion recognition dictionary). The emotion estimation model performs learning processing by associating the sensor data acquired in advance (for example, an image including facial expressions of a large number of persons) with the data of the correct answer information of the emotions of the person to be imaged at the time of acquiring the sensor data. Will be generated. The correct answer information of the emotion may be measured from the person by the questionnaire method or the like in the learning processing phase. In addition, the emotion estimation model is generated by classifying and dividing the data for each individual of the
なお、センサデータから人物の個人感情を推定する方法は公知(たとえば特開2012−59107号公報)であるため、本稿ではこれ以上の説明は省略する。前記感情推定モデルは感情推定辞書DB121に記憶される。後述する感情人物位置DB122には、後述するユーザー900の推定感情情報と前記ユーザー900のオフィス400内の位置情報が対応付けて記憶される。なお、記憶部120は、記憶装置809により実装され得る。
Since a method for estimating a person's personal emotion from sensor data is known (for example, Japanese Patent Application Laid-Open No. 2012-59107), further description thereof will be omitted in this paper. The emotion estimation model is stored in the emotion
制御部130は、感情推定サーバ100の様々な機能を提供する。制御部130は、顔検出部131、感情推定部133、感情人物照合部135、撮影条件比較部137及び総合感情推定部139を含む。なお、制御部130は、CPU803、ROM805及びRAM807により実装され得る。
The
顔検出部131は、各カメラ200の撮像画像から、顔検出技術によりユーザー900の顔画像の領域を特定し、切り出して(抽出して)記憶部120に記憶する。顔画像は、前記撮像画像のユーザー900の顔が写る領域であり、人物の身体が写る領域の画像(人物領域画像)の一例に相当する。この時、後述する感情人物照合部135が、顔画像とそのユーザー900の位置情報を対応付けて記憶部120の感情人物位置DB122に記憶させても構わない。なお、顔検出技術は公知の方法が既存に複数あるため説明を省略する(たとえば、非特許文献4:山下隆義ほか、顔の検出・表情の認識技術、映像情報メディア学会誌、62(5)、pp.708−713、2008)。
The
感情推定部133は、ユーザー900からカメラ200及び通信部110を介して取得した行動の画像データや生体反応の計測データ(センサデータ)に基づいて、ユーザー900毎の個人感情の推定モデルデータおよびそれにより推定(識別)された推定感情情報を生成する。また、感情推定部133は、前記生成した推定モデルデータと推定感情情報を記憶部120に記憶させる機能を有する。また、前記推定感情情報の生成処理はカメラ200で行われてもよく、感情推定サーバ100はカメラ200から前記画像データではなく推定感情情報を受信しても構わない。
The
ここで、個人感情とその推定方法について説明を補足する。個人感情は、一例として「人が心的過程の中で行うさまざまな情報処理のうちで、人、物、出来事、環境についてする評価的な反応」(Ortony et al.,1988;大平,2010)と定義される。感情の具体的な種類としては、心理学者Paul Ekmanによる表情に対応する基本感情ベースの離散型モデル上での幸福、驚き、恐れ、怒り、嫌悪、悲しみや、心理学者James A. Russellによる快度及び覚醒度の感情次元ベースの連続型モデルにおける喜怒哀楽の象限などが知られている。他の連続型モデルとしては、Watsonによるポジティブまたはネガティブ感情、Wundtによる3軸モデル(快度、興奮度、緊張度)、Plutchikによる4軸のモデルなどもある。その他、応用的・複合的な感情としては、困惑度、関心度、メンタルストレス、集中度、疲労感、多忙度、創造性、リラックス/緊張度、モチベーション、共感度、信頼度などが挙げられる。さらに、業務活動において集団の雰囲気として体感されるイキイキ感なども高次な感情の一種といえる。本発明における感情の定義の有効範囲は、前述の基本感情よりも広く、ユーザーのあらゆる内部「状態」やユーザーの周囲環境や文脈等の影響も加味した「状況」も含むものである。一例として、ポジティブ感情やその度合いは、快度そのものや、快度と覚醒度を合わせたもの、基本感情における幸福の強度の大きさ、もしくは恐れ、怒り、嫌悪、悲しみ等の強度の小ささ等を指標としてあらわされてもよい。 Here, the explanation of personal feelings and their estimation methods is supplemented. Personal emotions are, for example, "evaluative reactions to people, things, events, and the environment among various information processes that people perform in their mental processes" (Ortony et al., 1988; Ohira, 2010). Is defined as. Specific types of emotions include happiness, surprise, fear, anger, disgust, sadness, and psychologist James A. on a basic emotion-based discrete model that corresponds to facial expressions by psychologist Paul Ekman. The quadrants of emotions and sorrows in the emotional dimension-based continuous model of pleasure and alertness by Russel are known. Other continuous models include positive or negative emotions by Watson, 3-axis models by Wund (pleasure, excitement, tension), and 4-axis models by Plutchik. Other applied / complex emotions include confusion, interest, mental stress, concentration, fatigue, busyness, creativity, relaxation / tension, motivation, empathy, and reliability. Furthermore, the liveliness that is experienced as a group atmosphere in business activities can be said to be a type of higher-level emotion. The effective range of the definition of emotion in the present invention is wider than the above-mentioned basic emotion, and includes all internal "states" of the user and "situations" that take into account the influence of the user's surrounding environment and context. As an example, the positive emotion and its degree are the degree of rapidity itself, the combination of the degree of pleasure and the degree of arousal, the magnitude of the intensity of happiness in the basic emotion, or the magnitude of the intensity of fear, anger, disgust, sadness, etc. May be expressed as an index.
ある人物がどのような感情とどの程度にあるかは、たとえば質問紙法を用いることで、前記人物の文字、文章、記号による言語的報告によって求めることができる。前記質問紙としては“Affect Grid”や“SAM scale”などがよく知られている。しかしながら、質問紙を用いた計測方法では回答作業が必要になるため、業務など何か別の作業を行っている日常生活においては計測それ自体が本来の目的作業に支障を及ぼしてしまう可能性がある。 What kind of emotion and how much a person has can be determined by linguistic reporting of the person's letters, sentences, and symbols, for example, by using the questionnaire method. Well-known examples of the questionnaire include "Affect Grid" and "SAM scale". However, since the measurement method using the questionnaire requires answering work, the measurement itself may interfere with the original purpose work in daily life where some other work such as work is performed. is there.
そこで、本情報通信システムにおいて、感情推定部133は、前述のカメラ200や情報提示端末300により計測される行動や生体反応のデータに基づいて(質問紙法等で求めた)感情を機械的に推定処理する。前記推定処理を行うためには、予め学習処理によって生成された感情推定モデルのデータが必要となる。感情推定モデルは、たとえば、ある時点・状況における前記行動や生体反応のデータと前記質問紙の回答データからなる訓練データとを対応づけたデータの群から生成される。たとえば、オフィスに埋め込まれた無数のカメラやマイクロフォン、ウェアラブル活動量計から計測されたユーザーの顔表情、音声、心拍活動、皮膚電気活動等の行動・生体データと、前記ユーザーの主観的感情を質問紙回答した正解データとが対応づけられて訓練データとされる。前記行動・生体データは、センサからの計測値が変換された学習処理用の特徴量データであってもよい。
Therefore, in this information communication system, the
特徴量データは、顔の代表的特徴点の位置や各2点間を結ぶ直線の距離や成す角度であってもよい。あるいは、特徴量データは、音声の基本周波数、パワー、平均発話速度、一次ケプストラム係数の最高値と標準偏差であってもよい。あるいは、特徴量データは、心拍数や拍動間隔の平均値や標準偏差、心拍変動性であってもよい。あるいは、特徴量データは、皮膚コンダクタンス水準の平均値や標準偏差や増減低下率などであってもよい。これらの特徴量データはどのように使用されてもよく、ある時点における絶対値として使用されてもよいし、2時点間の相対的な変化率として使用されてもよい。 The feature amount data may be the position of a representative feature point of the face, the distance of a straight line connecting each of the two points, or the angle formed. Alternatively, the feature data may be the fundamental frequency, power, average speech speed, maximum value and standard deviation of the first-order cepstrum coefficient of speech. Alternatively, the feature amount data may be the average value of the heart rate or the beat interval, the standard deviation, or the heart rate variability. Alternatively, the feature amount data may be an average value of the skin conductance level, a standard deviation, an increase / decrease rate, or the like. These feature data may be used in any way, as an absolute value at a certain time point, or as a relative rate of change between two time points.
前記訓練データを用いた感情推定モデルの生成には、学習の手法として、たとえば既知のSVM(Support Vector Machine)や深層学習(Deep Learning)法が用いられてもよいし、単純に回帰分析法が利用されてもよい。また、学習モデルはユーザー個人毎に生成されてもよいし、複数のユーザーの訓練データを用いて人間に共通的なモデルが生成されてもよい。感情推定部133は、得られた感情推定モデルのデータを用いることで、ある人物の行動・生体データから個人感情を推定できるようになる。
For the generation of the emotion estimation model using the training data, for example, a known SVM (Support Vector Machine) or deep learning method may be used as a learning method, or a regression analysis method is simply used. It may be used. Further, the learning model may be generated for each individual user, or a model common to humans may be generated using training data of a plurality of users. The
感情推定サーバ100(たとえば、感情推定部133)は、上述の個人感情推定処理のための訓練データや感情の推定モデル自体を生成する機能を有していてもよい。さらに、訓練データのための前述の特徴量データの生成は、感情推定サーバ100ではなくカメラ200や情報提示端末300の方で行い、カメラ200や情報提示端末300が、前記特徴量データを感情推定サーバ100へ送信するようにしてもよい。本実施形態では特に、前述の特許文献1のように、人物(ユーザー900)の顔画像を入力としその表情(Ekmanの6基本表情等)の識別結果の推定感情情報を出力とするような感情推定方法を主に想定している。
The emotion estimation server 100 (for example, the emotion estimation unit 133) may have a function of generating training data for the above-mentioned personal emotion estimation process or the emotion estimation model itself. Further, the above-mentioned feature amount data for the training data is generated not by the
感情人物照合部135は、複数のカメラ200から取得されたユーザー900の複数視点からの顔画像同士を対応付ける処理を行う対応付け処理部として機能する。この時、あるユーザー900個人を基準とした対応付けを行いたいため、たとえばオフィス400内に2名のユーザー900Aとユーザー900Bがいた場合には、前記ユーザー900Aとユーザー900Bそれぞれの顔画像(抽出画像)を互いに対応付けないことが必要である(ユーザー900Aとユーザー900Bの個人感情は互いに異なるため)。感情人物照合部135は、対応付けられた顔画像(抽出画像)同士の関係性の情報を記憶部120に記憶させてもよい。なお、顔画像同士の対応付けには、顔画像同士が直接的に対応付けられる場合だけではなく、複数の顔画像それぞれから得られる推定感情情報同士が直接対応付けられる場合も含められ得る。
The emotional
オフィス400にユーザーが900Aと900Bの2名おり、両名を撮像範囲内に捉えるカメラが200Aと200Bの2台あった場合、ユーザー900Aの顔画像はカメラ200Aと200Bそれぞれで撮られた2視点分ある。このとき、たとえばカメラ200Aとカメラ200Bとによって撮像されたユーザー900Aの顔画像をそれぞれ、顔画像900A−200A、顔画像900A−200Bとする。同様に、ユーザー900Bの顔画像としても、顔画像900B−200A、顔画像900B−200Bの2視点分が得られる。この時、顔画像900A−200Aと顔画像900A−200Bを対応付け、顔画像900B−200Aと顔画像900B−200Bを対応付けるのが正しい処理となる。それ以外の撮像・推定対象人物が異なる組み合わせ、たとえば顔画像900A−200Aと顔画像900B−200Bを対応付ける処理は、本実施形態においては誤りであり、これを避ける必要がある。
If there are two users, 900A and 900B, in the
前記顔画像の正しい対応付けを行うため、感情人物照合部135はユーザー900の位置情報を利用してもよい。すなわち、感情人物照合部135は、複数の顔画像それぞれに写るユーザーの空間における位置情報に基づいて、複数の顔画像を対応付けてもよい。たとえば、感情人物照合部135は、複数の顔画像それぞれに写るユーザーの位置同士が所定の範囲内に収まる場合に複数の顔画像を対応付けてもよい前述のように、オフィス400内に設置された各カメラ200は、撮像範囲内に含まれるユーザー900の位置を推定する機能を有していてもよい。物理空間内のある3次元位置に複数の人物が重なって存在することはできないため、ある3次元位置に存在するユーザー900は一意に定まる。感情人物照合部135は、ユーザー900毎に顔画像と位置情報とを対応付けて感情人物位置DB122に記憶させてもよい。なお、前記位置情報は3次元以外、たとえば水平面等上の2次元位置の情報でも構わない。
In order to correctly associate the face images, the emotional
たとえば、前述の顔画像900A−200Aと顔画像900A−200Bが位置情報A(例:X=0、Y=0、Z=0)に対応付けられており、顔画像900B−200Aと顔画像900B−200Bが位置情報B(例:X=2000、Y=3000、Z=0)に対応付けられていれば、感情人物照合部135は、それぞれ等しい位置情報に対応付けられた顔画像同士の対応付けを行ってもよい。すなわち、感情人物照合部135は、同一の位置情報Aに対応付けられている顔画像900A−200Aと顔画像900A−200Bとを対応付け、同一の位置情報Bに対応付けられている顔画像900B−200Aと顔画像900B−200Bとを対応付けてもよい。
For example, the above-mentioned face image 900A-200A and face image 900A-200B are associated with position information A (example: X = 0, Y = 0, Z = 0), and the face image 900B-200A and face image 900B are associated with each other. If −200B is associated with position information B (eg, X = 2000, Y = 3000, Z = 0), the emotional
なお、本実施形態では位置情報に基づく複数視点の画像や推定感情情報の対応付けを主に想定し説明したが、その他、感情人物照合部135は、公知の複数カメラ間人物対応付け技術(Person Re−identification)を用い、たとえば各人物の属性情報(人物の年齢、性別、服装など)や見た目のアピアランス情報(肌の色、服の色などといった人物の外観に関する情報)を利用した対応付け処理を行っても構わない。また、感情人物照合部135は、公知の顔認識技術を用い、個人同定情報を利用した対応付け処理を行っても構わない。
In the present embodiment, the correspondence between the image of a plurality of viewpoints based on the position information and the estimated emotion information has been mainly assumed and described, but in addition, the emotion
ここで、図5を参照して、前述した感情人物位置DB122について説明する。図5は、後述する感情人物照合部135によって紐づけ処理され記憶部120に記憶される感情人物位置DB122のデータテーブルの一例を説明するための説明図である。図5のデータテーブルには、データID、撮像カメラID、(ユーザー900の)人物位置、(ユーザー900の)人物ID、(ユーザー900の)推定感情情報、その他の情報(たとえば、タイムスタンプ、評価値など)のデータが記憶されている。
Here, the above-mentioned emotional
データIDは、各データを一意に識別するための識別情報である。撮像カメラIDは、本実施形態に係る情報通信システムに含まれる複数のカメラ200の各機体を一意に識別するための識別情報であり、どの撮影条件のカメラ200から取得したセンサデータであるかの情報を得るために利用され得る。人物位置は、前記撮像カメラIDのカメラ200から撮像されたユーザー900のオフィス400内の前記物理空間内のある3次元位置の情報を含む。人物IDは、前記ユーザー900を一意に識別するための識別情報を含み、特にオフィス400内に複数のユーザー900が存在した場合に必要な情報である。推定感情情報は、前述の感情推定部133により推定された前記ユーザー900の推定感情情報である。
The data ID is identification information for uniquely identifying each data. The imaging camera ID is identification information for uniquely identifying each of the plurality of
その他の情報は、たとえば、後述する撮影条件比較部137による撮影条件の評価値や、前記カメラ200から取得したセンサデータの取得時刻(撮影時刻)を示すタイムスタンプデータを含む。上記では、ユーザー900の位置情報を利用して顔画像同士の対応付けを行う例について説明したが、感情人物照合部135は、ユーザー900の位置情報に加えて、あるいは、ユーザー900の位置情報の代わりにタイムスタンプデータを利用してもよい。これによって、同一の人物が写る顔画像同士が正しく対応付けられる可能性が高まる。すなわち、感情人物照合部135は、複数の顔画像それぞれのタイムスタンプデータに基づいて、複数の顔画像を対応付けてもよい。たとえば、感情人物照合部135は、複数の顔画像それぞれのタイムスタンプデータ同士が所定の範囲内に収まる場合に複数の顔画像を対応付けてもよい。
Other information includes, for example, an evaluation value of shooting conditions by the shooting
なお、タイムスタンプデータは、それぞれの顔画像を撮影するカメラ200によって付与されてよいが、複数のカメラ間において同じタイミングに付与されるタイムスタンプデータにずれが生じないよう、複数のカメラ間で同期をとる仕組みが設けられるのが望ましい。たとえば、複数のカメラそれぞれと通信可能なタイム管理サーバが存在する場合、タイム管理サーバによって複数のカメラそれぞれに対して同一時刻が通知されることによって同期がとられてもよい。タイム管理サーバの機能は、感情推定サーバ100が有してもよいし、感情推定サーバ100とは別のサーバが有してもよい。
The time stamp data may be given by the
図5では、たとえば、データIDが「0001」のデータと、データIDが「0002」のデータとは、撮像カメラIDが「C01」のカメラ200から同一時刻T1(同一タイムスタンプデータ)に生成されたデータで、しかし異なる2名のユーザー900についてのデータであってもよい。
In FIG. 5, for example, the data having the data ID “0001” and the data having the data ID “0002” are generated from the
撮影条件比較部137は、感情人物照合部135によって対応付けられたユーザー900の複数視点からの複数の顔画像に対して、それぞれの撮影条件の評価値を算出する評価値算出部として機能する。前記撮影条件の評価値としては、感情推定処理における外乱要因、たとえば人物の撮像方向や姿勢による見えの変化、照明変動、オクルージョン等の影響が小さく、それらによる推定精度の低下が小さい条件ほど高い(好ましい)値が付けられるものとする。
The shooting
前記外乱要因と評価値設定の例として、顔方向の要因では、通常正面顔に近い撮影条件ほど顔の正規化処理と歪みの影響が少なくて済み、高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像に写るユーザー900と顔画像を撮像するカメラ200との角度に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、カメラ200の撮影光軸と対象のユーザー900の顔の真正面の軸の成す角度が小さいほど、撮影条件に対して高い評価値を付けてよい。
As an example of the disturbance factor and the evaluation value setting, as for the face direction factor, the more the shooting condition is closer to the front face, the less the influence of the face normalization process and the distortion is required, and the facial expression estimation process can be realized with high accuracy. Therefore, the shooting
また、照明変動の要因では、顔の正面に対して一様に照明があたり顔領域内の照明による陰影差が小さいほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、人物に対する光照射度合いに基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の解析によって得られた明度分布から顔領域内の陰影差を算出し、陰影差が小さいほど、撮影条件に対して高い評価値を付けてよい。
Further, as a factor of illumination fluctuation, the facial expression estimation process can be realized with higher accuracy as the illumination is uniformly applied to the front surface of the face and the shadow difference due to the illumination in the face region is smaller. Therefore, the shooting
さらに、オクルージョンの要因では、顔画像上の遮蔽される領域面積(遮蔽面積)が小さいほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、人物の遮蔽度合いに基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の解析によって得られた遮蔽面積が小さいほど、撮影条件に対して高い評価値を付けてよい。なお、遮蔽面積は、顔画像から抽出されたもののその抽出処理の尤度が所定値よりも低かった顔の特徴点、または、顔画像から抽出されなかった顔の特徴点に関する情報(たとえば、特徴点の数、特徴点の位置、特徴点の分布など)に基づいて算出されてよい。
Further, as an occlusion factor, the smaller the shielded area (shielded area) on the face image, the more accurate the facial expression estimation process can be realized. Therefore, the shooting
その他、画像情報量の要因では、カメラ200とユーザー900の距離がより近いことにより、顔画像(顔領域)の画素数が多いほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像に写るユーザー900と顔画像を撮像するカメラ200との距離に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、カメラ200と対象のユーザー900との距離が小さいほど、撮影条件に対して高い評価値を付けてよい。
In addition, as a factor of the amount of image information, since the distance between the
また、画像情報量の要因では、カメラ200の撮像画素数が多いことにより、顔画像(顔領域)の画素数が多いほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像の解像度に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の解像度が高いほど、撮影条件に対して高い評価値を付けてよい。
Further, as a factor of the amount of image information, since the number of images captured by the
画像品質の要因では、画像データの(非可逆の)圧縮率が低く画像品質が高いほど画像ノイズが少なく高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像の画像品質(たとえば圧縮処理に伴い発生する画像ノイズの強さ)に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の画像品質が高いほど、撮影条件に対して高い評価値を付けてよい。
As a factor of image quality, the lower the (lossy) compression rate of the image data and the higher the image quality, the less the image noise and the more accurate the facial expression estimation process can be realized. Therefore, the shooting
前記の撮影条件の評価値に関する記載は例であり、それ以外にも表情推定処理の精度が高くなるように外乱要因の影響を大きく抑えられる撮影条件ほど高い評価値が付けられてよい(表情推定処理における外乱要因についての解説は、たとえば、非特許文献5:Wang, M. & Deng, W., Deep face recognition: A survey,
https://arxiv.org/abs/1804.06655)。
The above description regarding the evaluation value of the shooting condition is an example, and in addition to this, a higher evaluation value may be given to the shooting condition in which the influence of the disturbance factor can be greatly suppressed so that the accuracy of the facial expression estimation process becomes higher (facial expression estimation). For a description of disturbance factors in processing, for example, Non-Patent Document 5: Wang, M. & Deng, W., Deep face recognition: A survey,
https://arxiv.org/abs/1804.06655).
また、撮影条件比較部137は、前記外乱要因の影響の小ささではなく、より直接的に、感情推定部133がユーザー900の顔画像から感情推定処理する際に求められる「尤度」の高さに応じて前記撮影条件の評価値を定めてもよい。すなわち、撮影条件比較部137は、複数の推定感情情報それぞれの推定における尤度に基づいて評価値を設定してもよい。より具体的に、撮影条件比較部137は、推定感情情報の推定における尤度が高いほど、撮影条件に対して高い評価値をつけてもよい。通常、外乱要因の影響が大きいほど尤度も小さくなる。なお、尤度とは、たとえば、算出された推定感情情報の尤もらしさを表す情報であり、または、算出された推定感情情報の蓋然性を0〜1の間で数値化した確率であってもよい。
Further, the shooting
図1の例で説明すると、ユーザー900に対し、顔の真正面に近い位置の撮影条件のカメラ200Aと比較して顔の斜め方向から撮影しているカメラ200Bの顔画像の方が撮影条件の評価値は低くなる。また、カメラ200Cはカメラ200Bよりも、ユーザー900の顔の真正面から離れた角度から撮影している上にユーザー900の位置から遠く(距離が大きく)、加えて障害物500がユーザー900との間に存在しオクルージョンが発生している。そのため、カメラ200Bよりカメラ200Cの顔画像の方が撮影条件の評価値は低くなる。全体では、撮影条件の評価値の高さは、カメラ200A>カメラ200B>カメラ200C、の顔画像の順になるであろう。同様に、照明600も評価値に影響を与える(陰影差が出ないように一様に照明が当たる方が、評価値が高い)。
Explaining with the example of FIG. 1, for the
総合感情推定部139は、感情人物照合部135によって対応付けられたあるユーザー900の複数視点からの複数の顔画像それぞれから感情推定部133によって推定された推定感情情報と、撮影条件比較部137によって算出された評価値とに基づいて、あるユーザー900の総合的な推定感情情報を算出する。
The comprehensive
快−不快感情に関する感情推定を例として説明する。オフィス400のカメラ200A、200B、200Cの撮像画像から、顔検出部131によって、ユーザー900の顔画像900A−200Aと顔画像900A−200Bと顔画像900A−200Cが抽出されると、感情人物照合部135によってこれらの顔画像が対応付けられる。撮影条件比較部137により、顔画像900A−200Aと顔画像900A−200Bと顔画像900A−200Cの撮影条件に対して、3倍、2倍、1倍高い(好ましい)評価値が付けられたとする。また、感情推定部133によって、顔画像900A−200Aに対応する推定感情情報が快、900A−200Bに対応する推定感情情報が不快、900A−200Cに対応する推定感情情報が快(説明簡略化のため本例では感情の強度は考えない)であると推定されたとする。
An emotion estimation related to pleasant-unpleasant feelings will be described as an example. When the face image 900A-200A, face image 900A-200B, and face image 900A-200C of the
かかる場合、
推定感情情報が「快」であるのは、
900A−200A:評価値「3倍」、900A−200C:評価値「1倍」の場合であるため、推定感情情報「快」の合計評価値は、3倍+1倍=4倍と算出される。
推定感情情報が「不快」であるのは、
900A−200B:評価値「2倍」の場合であるため、推定感情情報「不快」の合計評価値は、2倍である。
In such a case
The reason why the estimated emotional information is "pleasant" is
900A-200A: Evaluation value "3 times", 900A-200C: Evaluation value "1 times", so the total evaluation value of the estimated emotion information "pleasant" is calculated as 3 times + 1 times = 4 times. ..
Estimated emotional information is "unpleasant"
900A-200B: Since the evaluation value is "double", the total evaluation value of the estimated emotion information "discomfort" is double.
したがって、「快」の合計感情値:「不快」の合計評価値=4:2であるため、「快」の合計評価値の方が高いため、総合感情推定部139は、ユーザー900の総合的な推定感情情報を「快」と算出する。このように、総合感情推定部139は、推定感情情報の値ごとに、顔画像900A−200Aと顔画像900A−200Bと顔画像900A−200Cそれぞれの撮影条件の評価値を合計して、合計評価値が最大となる推定感情情報を代表値として選択し、ユーザー900の総合的な推定感情情報としてもよい。
Therefore, since the total emotion value of "pleasant": the total evaluation value of "discomfort" = 4: 2, the total evaluation value of "pleasant" is higher. Estimated emotional information is calculated as "pleasant". In this way, the comprehensive
なお、ここでは、合計評価値が最大となる推定感情情報を総合的なユーザー900の総合的な推定感情情報とする場合を主に想定した。しかし、感情の強度を考える場合には、総合感情推定部139は、各推定感情情報の値に対して対応する評価値を乗じた値を、複数の推定感情情報について合計し、合計して得られた値を総合的なユーザー900の総合的な推定感情情報として算出してもよい。かかる算出方法を上記の例に適用すると、ユーザー900の総合的な推定感情情報は、下記の式(1)のように表現される。
Here, it is mainly assumed that the estimated emotional information having the maximum total evaluation value is used as the comprehensive estimated emotional information of the
総合的な推定感情情報=3×(900A−200Aの推定感情情報)+2×(900A−200Bの推定感情情報)+1×(900A−200Cの推定感情情報) ・・・(1) Comprehensive estimated emotion information = 3 × (estimated emotion information of 900A-200A) + 2 × (estimated emotion information of 900A-200B) + 1 × (estimated emotion information of 900A-200C) ・ ・ ・ (1)
さらに、撮影条件比較部137によって算出された評価値は、総合感情推定部139によってそのまま使われなくてもよい。たとえば、総合感情推定部139は、顔画像900A−200Aと顔画像900A−200Bと顔画像900A−200Cそれぞれの撮影条件の評価値に基づいて、900A−200Aの推定感情情報と900A−200Bの推定感情情報と900A−200Cの推定感情情報それぞれの重みを算出してもよい。そして、総合感情推定部139は、これらの重みとこれらの推定感情情報とに基づいて、ユーザー900の総合的な推定感情情報を算出してもよい。
Further, the evaluation value calculated by the photographing
一例として、総合感情推定部139は、評価値間の正規化に基づいて重みを算出してもよい。より具体的に、総合感情推定部139は、撮影条件比較部137によって算出された評価値を、顔画像900A−200Aと顔画像900A−200Bと顔画像900A−200Cとについての合計が1になるように調整することによって、重みを算出してもよい。そして、総合感情推定部139は、算出した重みを対応する推定感情情報の値に乗じてもよい。たとえば、式(1)に示された評価値である3倍、2倍、1倍は、3/6、2/6、1/6となり、式(1)は、下記の(2)のように置き換えられる。
As an example, the comprehensive
総合的な推定感情情報=(3/6)×(900A−200Aの推定感情情報)+(2/6)×(900A−200Bの推定感情情報)+(1/6)×(900A−200Cの推定感情情報) ・・・(2) Comprehensive estimated emotion information = (3/6) × (estimated emotion information of 900A-200A) + (2/6) × (estimated emotion information of 900A-200B) + (1/6) × (900A-200C) Estimated emotion information) ・ ・ ・ (2)
また、前記した例では、1種類の撮影条件を主に考慮してユーザー900の総合的な推定感情情報を算出する場合を説明した。しかし、複数種類の撮影条件を考慮してユーザー900の総合的な推定感情情報を算出することも可能である。かかる場合であっても、同一の種類の撮影条件についての総合的な推定感情情報は、前記した例と同様に算出されればよい。異なる種類の撮影条件同士は、等価として扱われて重みが算出されてもよいし、撮影条件に優先順位が設けられていてもよく、優先順位に基づいて重みが算出されてもよい。
Further, in the above-mentioned example, the case where the comprehensive estimated emotion information of the
すなわち、総合感情推定部139は、撮影条件の優先順位および評価値に基づいて、重みを算出する。たとえば、総合感情推定部139は、異なる撮影条件の評価値同士が同じ値であっても、優先順位がより高い撮影条件の評価値の重みを大きく算出すればよい。たとえば、撮影条件の優先順位は、あらかじめ手動によって設定されてもよいし、たとえば重回帰分析における標準回帰係数や寄与率等の情報、ニューラルネットワークの学習によって得られた重み(Weight)の分布や特徴量選択等の情報に基づいて、システムによって自動的に設定されてもよい。
That is, the comprehensive
さらに、総合感情推定部139は、複数のカメラ200からの入力データに対応する複数のパターン認識やニューラルネットワークからのアンサンブル学習や特徴量のconcat処理を行うことにより、前記総合的な推定感情情報を算出してもよい。
Further, the comprehensive
次に、本実施形態に係る「情報提示端末300」の機能構成の一例を説明する。情報提示端末300は、ユーザー910(図1)からの入力に応じて他のユーザー900へ通信要求処理を行ったり、該他のユーザー900の総合的な推定感情情報を取得して該ユーザー910へ情報提示したりすることができる。
Next, an example of the functional configuration of the "
一例として、情報提示端末300は汎用的なスマートフォンやタブレット端末であってもよい。また、図1では情報提示端末300は1名のユーザー910に対応して1台存在するように図示されているが、複数のユーザー910に共用される共有型端末であってもよい。さらに別の一例として、情報提示端末300は、映像通信機能付の現金自動預け払い機VTM(Video Teller Machine)、駅自動券売機、ビジュアルコールセンターシステム等の表示部付の筐体装置などから送信される計測データに基づく顧客の感情推定情報をサポート担当者に提示する端末であってもよい。
As an example, the
図6は、本実施形態に係る情報提示端末300の機能構成の一例を示すブロック図である。図6を参照すると、情報提示端末300は、通信部310、記憶部320、制御部330、入力部340及び提示部350を備える。
FIG. 6 is a block diagram showing an example of the functional configuration of the
通信部310は、他の装置と通信する。たとえば、通信部310は、LAN50に直接的に接続され、感情推定サーバ100と通信する。なお、通信部310は、通信インタフェース811により実装され得る。
The
記憶部320は、情報提示端末300の動作のためのプログラム及びデータを記憶する。なお、記憶部320は、記憶装置809により実装され得る。
The
制御部330は、情報提示端末300の様々な機能を提供する。なお、制御部330は、CPU803、ROM805及びRAM807により実装され得る。
The
入力部340は、ユーザー910からの入力を受け付ける。そして、入力部340は、入力結果を制御部330へ提供する。前記ユーザー910からの入力とは、たとえば、他のユーザー900を通信要求相手として指定するもので、該他のユーザー900の識別情報を選択すること等によって実現される。なお、入力部340は、入力装置815により実装され得る。
The
提示部350は、制御部330による制御に従って、ユーザーによって知覚され得る情報の提示を行う。本発明の実施形態においては、提示部350がユーザーによって視覚的に知覚される表示画面を表示する場合を主に想定する。かかる場合、提示部350は、表示装置823により実現され得る。しかし、提示部350がユーザーの聴覚によって知覚される情報を提示する場合、提示部350は、スピーカにより実現されてもよい。あるいは、提示部350がユーザーの触覚や嗅覚によって知覚される情報を提示する場合、提示部350は、触覚または嗅覚提示装置により実現されてもよい。
The
たとえば、提示部350は、ユーザー910が入力部340から指定した他のユーザー900に対応する総合的な推定感情情報を情報提示する。提示部350は、コミュニケーションメディアの一例としての拠点俯瞰動画像において他のユーザー900の人物像が映っている領域の近傍の領域に該他のユーザー900の総合的な推定感情情報を表示させてもよい。このとき、提示部350は、該他のユーザー900の総合的な推定感情情報とともに、この総合的な推定感情情報の推定精度を提示してもよい。かかる推定精度は、前記した個々の推定感情情報に基づく総合的な推定感情情報の算出と同様な手法によって、個々の推定感情情報の推定精度に基づいて算出されてもよい。
For example, the
また、前記総合的な推定感情情報と総合的な推定感情情報の推定精度は、たとえば感情推定サーバ100の記憶部120や情報提示端末300の記憶部320に蓄積保存されてもよい。その場合、制御部330は、該蓄積されたデータに基づいて、総合的な推定感情情報および総合的な推定感情情報の推定精度それぞれの履歴情報を、たとえば時系列グラフ等に加工して提示部350に画面表示してもよい。
Further, the comprehensive estimated emotion information and the estimation accuracy of the comprehensive estimated emotion information may be stored and stored in, for example, the
図7は、情報提示端末300の提示部350によって提示された表示画面の一例を説明するための説明図である。前記表示画面には、たとえばコミュニケーションメディアとしてカメラ200により俯瞰的に撮像された動画像が表示されており、該動画像の中央付近の画面領域にはユーザー900の人物像が映っている。さらに、制御部330は、動画像(人物領域画像)においてユーザー900が写る座標に応じた位置に総合的な推定感情情報が重畳されるように制御する。より具体的に、前記ユーザー900の人物像の近傍位置には前記ユーザー900に紐づけられた総合的な推定感情情報、総合的な推定感情情報の推定精度、およびそれらの履歴情報が画面表示されている。
FIG. 7 is an explanatory diagram for explaining an example of a display screen presented by the
前記ユーザー900の人物像と、ユーザー900の総合的な推定感情情報、総合的な推定感情情報の推定精度およびそれらの履歴情報とが近傍位置に表示されることで、情報提示端末300の提示部350を見るユーザーは、コミュニケーションメディアと推定された情報とを関連づけて認知しやすくなる。この近傍位置への表示機能は、特にひとつのコミュニケーションメディアに複数のユーザーの情報が含まれている場合等に有効である。コミュニケーションメディアとユーザー900の総合的な推定感情情報、総合的な推定感情情報の推定精度とを併せてデータとして扱い、それらデータの情報が相互に関連し合って効果を発揮する点が本コミュニケーションシステムの特徴のひとつである。
The presentation unit of the
ここで、近傍位置は特に限定されない。たとえば、近傍位置は、ユーザー900の人物像の位置を基準として所定の距離以内の位置であってもよい。なお、図7に示した例では、ユーザー900の総合的な推定感情情報、総合的な推定感情情報の推定精度およびそれらの履歴情報とユーザー900の識別情報とを含んだ表示領域が吹き出し形状によって表示されている。これによって、各情報とユーザーとの関連が把握しやすくなる。しかし、表示領域の形状は吹き出し形状に限定されない。
Here, the neighborhood position is not particularly limited. For example, the neighborhood position may be a position within a predetermined distance with respect to the position of the person image of the
なお、ここではコミュニケーションメディアがリアルタイムに伝送されたデータである場合を主に想定した。しかし、変形例として、前述のコミュニケーションメディアは必ずしもリアルタイム伝送されたデータではなくてもよく、たとえば「録画」や「録音」された過去のメディアデータであっても構わない。 Here, it is mainly assumed that the communication medium is data transmitted in real time. However, as a modification, the communication media described above does not necessarily have to be data transmitted in real time, and may be, for example, "recorded" or "recorded" past media data.
前述のように、本発明の実施形態に係るコミュニケーションシステムは新しい電話システムであることも想定しており、一機能として遠隔地の協働メンバーの過去の様子を伺えてもよい。このとき、たとえばユーザー900は、過去の録画人物映像データおよび該過去の録画人物映像データに紐づけられた該過去の総合的な推定感情情報、総合的な推定感情情報の推定精度を、情報提示端末300を介して感情推定サーバ100の記憶部120から取得できてもよい。
As described above, it is assumed that the communication system according to the embodiment of the present invention is a new telephone system, and one function may be to ask the past state of collaborative members in remote areas. At this time, for example, the
たとえばユーザー910が、情報提示端末300を介して、現在から2時間前の時点のユーザー900の録画人物映像データと総合的な推定感情情報、総合的な推定感情情報の推定精度とを関連づけて取得できてもよい。このような場合、2時間後のリアルタイムの時点では本コミュニケーションシステム内にユーザー900がすでに不在になっている等の可能性もある。しかし、前記過去のメディアデータを取得する場合には必ずしも複数のユーザーがシステム内に同時に存在する必要はなく、1名のユーザーしか本コミュニケーションシステムを使用していない場合でもよい。
For example, the
続いて、図8を参照して、本実施形態に係る情報処理動作の例を説明する。図8は、本実施形態に係る情報通信システムの動作フローの一例を示す説明図である。図8に示したように、ステップS1101で、感情推定サーバ100の顔検出部131は、カメラ200の撮像画像から、ユーザー900の顔画像の領域を特定し、切り出して(抽出して)記憶部120に記憶する。ステップS1103で、感情推定サーバ100の顔検出部131は、複数のカメラ200の撮像画像から顔検出されたか否かを判定する。
Subsequently, an example of the information processing operation according to the present embodiment will be described with reference to FIG. FIG. 8 is an explanatory diagram showing an example of an operation flow of the information communication system according to the present embodiment. As shown in FIG. 8, in step S1101, the
ステップS1103の処理で複数のカメラ200の撮像画像から顔検出された場合(S1103:YES)は、ステップS1105で、感情推定サーバ100の感情人物照合部135は、前記複数のカメラ200から取得されたユーザー900の複数視点からの顔画像を対応付ける処理を行う。ステップS1107で、感情推定サーバ100の撮影条件比較部137は、S1105で対応付けられたユーザー900の複数視点からの複数の顔画像に対して、それぞれの撮影条件の評価値を算出する。
When the face is detected from the images captured by the plurality of
ステップS1109で、感情推定サーバ100の総合感情推定部139は、感情人物照合部135で対応付けられたあるユーザー900の複数視点からの複数の顔画像に基づく推定感情情報と、撮影条件比較部137により算出された評価値とに基づいて、あるユーザー900の総合的な推定感情情報を算出する。このとき、推定感情情報の値ごとに評価値が合計され、合計評価値が最大となる推定感情情報がユーザー900の総合的な推定感情情報として選択されてもよい。あるいは、評価値から重みが算出され、重みと推定感情情報とに基づいてユーザー900の総合的な推定感情情報が算出されてもよい。
In step S1109, the comprehensive
また、ステップS1103の処理で、複数のカメラ200の撮像画像から顔検出されず単一のカメラ200の撮像画像からのみ顔検出された場合(S1103:NO)は、ステップS1111で、総合感情推定部139はあるユーザー900の単一視点からの顔画像と、その感情情報とから、あるユーザー900の推定感情情報を算出する。このとき、総合感情推定部139は、感情推定部133によって推定された推定値をそのまま用いてもよいし、撮影条件比較部137により得られる撮影条件の評価値の情報に基づき感情推定部133の推定値に修正を加えてもよい(たとえば、外乱要因の大きさに応じて感情推定部133の推定値を変更や増減させてもよい)。
Further, in the process of step S1103, when the face is not detected from the images captured by the plurality of
以上により、感情推定サーバ100は、オフィス400内の複数のカメラから得られるユーザー900の撮像画像を基に、単一カメラの場合と比較して、各種外乱要因の影響を抑えたより高い推定精度の推定感情情報を得ることができる。
As described above, the
(2.まとめ)
以上のように、本発明の実施形態によれば、複数のカメラから得られる複数視点の画像に基づき総合的な感情推定処理を行うことで、従来の単一カメラによる感情推定処理と比較して高い精度の感情推定が実現される。
(2. Summary)
As described above, according to the embodiment of the present invention, by performing the comprehensive emotion estimation process based on the images of the plurality of viewpoints obtained from the plurality of cameras, the emotion estimation process is compared with the conventional emotion estimation process by the single camera. Highly accurate emotion estimation is realized.
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 Although the preferred embodiments of the present invention have been described in detail with reference to the accompanying drawings, the present invention is not limited to such examples. It is clear that a person having ordinary knowledge in the field of technology to which the present invention belongs can come up with various modifications or modifications within the scope of the technical idea described in the claims. , These are also naturally understood to belong to the technical scope of the present invention.
100 感情推定サーバ
110 通信部
120 記憶部
121 感情推定辞書DB
122 感情人物位置DB
130 制御部
131 顔検出部
133 感情推定部
135 感情人物照合部
137 撮影条件比較部
139 総合感情推定部
200 カメラ
210 通信部
220 計測部
230 制御部
300 情報提示端末
310 通信部
320 記憶部
330 制御部
340 入力部
350 提示部
500 障害物
600 照明
100
122 Emotional person position DB
130
Claims (18)
前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、
を備える、感情推定装置。 A mapping processing unit that associates multiple person area images in which the same person is captured from multiple viewpoints,
An evaluation value calculation unit that calculates an evaluation value of shooting conditions for each of the plurality of person area images, and an evaluation value calculation unit.
A comprehensive emotion estimation unit that generates comprehensive estimated emotion information of the person based on the estimated emotion information generated from each of the plurality of person area images and the evaluation value.
Emotion estimation device.
請求項1に記載の感情推定装置。 The association processing unit associates the plurality of person area images with each other based on the position information in the space of the person reflected in each of the plurality of person area images.
The emotion estimation device according to claim 1.
請求項1または2に記載の感情推定装置。 The association processing unit associates the plurality of person area images with each other based on the shooting times of the plurality of person area images.
The emotion estimation device according to claim 1 or 2.
請求項1〜3のいずれか一項に記載の感情推定装置。 The comprehensive emotion estimation unit calculates the weight of each of the plurality of estimated emotion information based on the evaluation value, and generates the comprehensive estimated emotion information based on the estimated emotion information and the weight.
The emotion estimation device according to any one of claims 1 to 3.
請求項4に記載の感情推定装置。 The comprehensive emotion estimation unit calculates the weight based on the priority of the shooting conditions and the evaluation value.
The emotion estimation device according to claim 4.
請求項4に記載の感情推定装置。 The comprehensive emotion estimation unit calculates the weight based on the normalization between the evaluation values.
The emotion estimation device according to claim 4.
請求項1〜6のいずれか一項に記載の感情推定装置。 The evaluation value calculation unit sets the evaluation value based on the likelihood in the estimation of each of the plurality of estimated emotion information.
The emotion estimation device according to any one of claims 1 to 6.
請求項1〜7のいずれか一項に記載の感情推定装置。 The evaluation value calculation unit determines the evaluation value of the shooting condition of the person area image based on the angle or distance between the person and the camera that captures the person area image in response to each of the plurality of person area images. Set,
The emotion estimation device according to any one of claims 1 to 7.
請求項1〜8のいずれか一項に記載の感情推定装置。 The evaluation value calculation unit corresponds to each of the plurality of person area images, and based on at least one of the degree of light irradiation to the person and the degree of imaging shielding of the person, the shooting conditions of the person area image. Set the evaluation value of
The emotion estimation device according to any one of claims 1 to 8.
請求項1〜9のいずれか一項に記載の感情推定装置。 The evaluation value calculation unit sets the evaluation value of the shooting condition of the person area image based on at least one of the resolution and the image quality of the person area image corresponding to each of the plurality of person area images. ,
The emotion estimation device according to any one of claims 1 to 9.
前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、
を含む、感情推定方法。 Corresponding multiple person area images in which the same person is captured from multiple viewpoints
To calculate the evaluation value of the shooting conditions for each of the plurality of person area images,
To generate comprehensive estimated emotional information of the person based on the estimated emotional information generated from each of the plurality of person area images and the evaluation value.
Emotion estimation methods, including.
複数の視点から同一の人物が撮像された複数の人物領域画像を対応付ける対応付け処理部と、
前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、
を備える感情推定装置として機能させるためのプログラム。 Computer,
A mapping processing unit that associates multiple person area images in which the same person is captured from multiple viewpoints,
An evaluation value calculation unit that calculates an evaluation value of shooting conditions for each of the plurality of person area images, and an evaluation value calculation unit.
A comprehensive emotion estimation unit that generates comprehensive estimated emotion information of the person based on the estimated emotion information generated from each of the plurality of person area images and the evaluation value.
A program for functioning as an emotion estimation device.
情報提示装置。 The evaluation value of the shooting conditions of each of the plurality of person area images associated with the same person being imaged from a plurality of viewpoints is calculated, and the estimated emotion information generated from each of the plurality of person area images and the evaluation value are combined with each other. When the comprehensive estimated emotional information of the person is generated based on the above, a control unit for controlling the comprehensive estimated emotional information to be presented is provided.
Information presentation device.
前記人物が写る人物領域画像が提示されるように制御するとともに、前記人物領域画像において前記人物が写る座標に応じた位置に前記総合的な推定感情情報が重畳されるように制御する、
請求項13に記載の情報提示装置。 The control unit
It is controlled so that the person area image in which the person appears is presented, and the comprehensive estimated emotion information is superimposed on the position corresponding to the coordinates in which the person appears in the person area image.
The information presenting device according to claim 13.
情報提示方法。 The evaluation value of the shooting conditions of each of the plurality of person area images associated with the same person being imaged from a plurality of viewpoints is calculated, and the estimated emotion information generated from each of the plurality of person area images and the evaluation value are combined with each other. When the comprehensive estimated emotional information of the person is generated based on the above, the comprehensive estimated emotional information is controlled to be presented.
Information presentation method.
複数の視点から同一の人物が撮像されて対応付けられた複数の人物領域画像それぞれの撮影条件の評価値が算出され、前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報が生成されると、前記総合的な推定感情情報が提示されるように制御する制御部を備える、
情報提示装置として機能させるためのプログラム。 Computer,
The evaluation value of the shooting conditions of each of the plurality of person area images associated with the same person being imaged from a plurality of viewpoints is calculated, and the estimated emotion information generated from each of the plurality of person area images and the evaluation value are combined with each other. When the comprehensive estimated emotional information of the person is generated based on the above, a control unit for controlling the comprehensive estimated emotional information to be presented is provided.
A program to function as an information presentation device.
前記複数の人物領域画像それぞれの撮影条件の評価値を算出する評価値算出部と、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成する総合感情推定部と、
を備える、感情推定装置と、
前記総合的な推定感情情報が提示されるように制御する制御部を備える、
情報提示装置と、
を有する、感情推定システム。 A mapping processing unit that associates multiple person area images in which the same person is captured from multiple viewpoints,
An evaluation value calculation unit that calculates an evaluation value of shooting conditions for each of the plurality of person area images, and an evaluation value calculation unit.
A comprehensive emotion estimation unit that generates comprehensive estimated emotion information of the person based on the estimated emotion information generated from each of the plurality of person area images and the evaluation value.
Emotional estimation device and
A control unit for controlling the comprehensive estimated emotional information to be presented is provided.
Information presentation device and
Emotion estimation system.
前記複数の人物領域画像それぞれの撮影条件の評価値を算出することと、
前記複数の人物領域画像それぞれから生成される推定感情情報と前記評価値とに基づいて、前記人物の総合的な推定感情情報を生成することと、
前記総合的な推定感情情報が提示されるように制御することと、
含む、感情推定方法。
Corresponding multiple person area images in which the same person is captured from multiple viewpoints
To calculate the evaluation value of the shooting conditions for each of the plurality of person area images,
To generate comprehensive estimated emotional information of the person based on the estimated emotional information generated from each of the plurality of person area images and the evaluation value.
Controlling the presentation of the comprehensive estimated emotional information
Emotion estimation methods, including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148936A JP7306152B2 (en) | 2019-08-14 | 2019-08-14 | Emotion estimation device, emotion estimation method, program, information presentation device, information presentation method, and emotion estimation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148936A JP7306152B2 (en) | 2019-08-14 | 2019-08-14 | Emotion estimation device, emotion estimation method, program, information presentation device, information presentation method, and emotion estimation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033359A true JP2021033359A (en) | 2021-03-01 |
JP7306152B2 JP7306152B2 (en) | 2023-07-11 |
Family
ID=74678243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019148936A Active JP7306152B2 (en) | 2019-08-14 | 2019-08-14 | Emotion estimation device, emotion estimation method, program, information presentation device, information presentation method, and emotion estimation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7306152B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024004210A1 (en) * | 2022-07-01 | 2024-01-04 | 富士通株式会社 | Information processing program, information processing method, and information processing device |
JP7443283B2 (en) | 2021-03-29 | 2024-03-05 | 公益財団法人鉄道総合技術研究所 | Wakefulness estimation method, wakefulness estimation device, and wakefulness estimation program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012059107A (en) * | 2010-09-10 | 2012-03-22 | Nec Corp | Emotion estimation device, emotion estimation method and program |
JP2014229012A (en) * | 2013-05-21 | 2014-12-08 | 沖電気工業株式会社 | Person attribute estimation apparatus, and person attribute estimation method and program |
JP2016001447A (en) * | 2014-06-12 | 2016-01-07 | キヤノン株式会社 | Image recognition system, image recognition device, image recognition method and computer program |
-
2019
- 2019-08-14 JP JP2019148936A patent/JP7306152B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012059107A (en) * | 2010-09-10 | 2012-03-22 | Nec Corp | Emotion estimation device, emotion estimation method and program |
JP2014229012A (en) * | 2013-05-21 | 2014-12-08 | 沖電気工業株式会社 | Person attribute estimation apparatus, and person attribute estimation method and program |
JP2016001447A (en) * | 2014-06-12 | 2016-01-07 | キヤノン株式会社 | Image recognition system, image recognition device, image recognition method and computer program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7443283B2 (en) | 2021-03-29 | 2024-03-05 | 公益財団法人鉄道総合技術研究所 | Wakefulness estimation method, wakefulness estimation device, and wakefulness estimation program |
WO2024004210A1 (en) * | 2022-07-01 | 2024-01-04 | 富士通株式会社 | Information processing program, information processing method, and information processing device |
Also Published As
Publication number | Publication date |
---|---|
JP7306152B2 (en) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11937929B2 (en) | Systems and methods for using mobile and wearable video capture and feedback plat-forms for therapy of mental disorders | |
US20200175262A1 (en) | Robot navigation for personal assistance | |
CN110291489A (en) | The efficient mankind identify intelligent assistant's computer in calculating | |
JP2023171650A (en) | Systems and methods for identifying persons and/or identifying and quantifying pain, fatigue, mood and intent with protection of privacy | |
Alvarez et al. | Behavior analysis through multimodal sensing for care of Parkinson’s and Alzheimer’s patients | |
Chen et al. | A fall detection system based on infrared array sensors with tracking capability for the elderly at home | |
CN109765991A (en) | Social interaction system is used to help system and non-transitory computer-readable storage media that user carries out social interaction | |
Poppe et al. | AMAB: Automated measurement and analysis of body motion | |
JP6930277B2 (en) | Presentation device, presentation method, communication control device, communication control method and communication control system | |
JP7438653B2 (en) | Emotional information management server device, emotional information management method, program and information communication system | |
JP7306152B2 (en) | Emotion estimation device, emotion estimation method, program, information presentation device, information presentation method, and emotion estimation system | |
Cheng et al. | Computer-aided autism spectrum disorder diagnosis with behavior signal processing | |
CN109986553B (en) | Active interaction robot, system, method and storage device | |
US20190050881A1 (en) | Method and apparatus for rewarding reaction of simulation participant | |
Malekmohamadi et al. | Low-cost automatic ambient assisted living system | |
WO2021094330A1 (en) | System and method for collecting behavioural data to assist interpersonal interaction | |
JP7266984B2 (en) | Server equipment | |
JP2005199373A (en) | Communication device and communication method | |
Adibuzzaman et al. | In situ affect detection in mobile devices: a multimodal approach for advertisement using social network | |
JP2004280673A (en) | Information providing device | |
EP3776537A1 (en) | Intelligent assistant device communicating non-verbal cues | |
JP2020024117A (en) | Information management server, information management method, program, information presentation terminal, and information communication system | |
US20240215882A1 (en) | Systems and Methods for Using Mobile and Wearable Video Capture and Feedback Plat-Forms for Therapy of Mental Disorders | |
US20230027320A1 (en) | Movement Disorder Diagnostics from Video Data Using Body Landmark Tracking | |
Ramadoss et al. | Research Article Computer Vision for Human-Computer Interaction Using Noninvasive Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230411 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230530 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7306152 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |