JP2021015362A - Interactive device, information processing method, and information processing program - Google Patents
Interactive device, information processing method, and information processing program Download PDFInfo
- Publication number
- JP2021015362A JP2021015362A JP2019128549A JP2019128549A JP2021015362A JP 2021015362 A JP2021015362 A JP 2021015362A JP 2019128549 A JP2019128549 A JP 2019128549A JP 2019128549 A JP2019128549 A JP 2019128549A JP 2021015362 A JP2021015362 A JP 2021015362A
- Authority
- JP
- Japan
- Prior art keywords
- user
- data
- unit
- person
- teacher data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 14
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000002452 interceptive effect Effects 0.000 title abstract description 3
- 238000003384 imaging method Methods 0.000 claims abstract description 55
- 230000004044 response Effects 0.000 claims abstract description 41
- 230000009467 reduction Effects 0.000 claims description 2
- 230000007423 decrease Effects 0.000 abstract 1
- 230000003993 interaction Effects 0.000 abstract 1
- 238000013499 data model Methods 0.000 description 57
- 238000004891 communication Methods 0.000 description 47
- 238000010276 construction Methods 0.000 description 39
- 238000012545 processing Methods 0.000 description 34
- 238000007726 management method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 17
- 239000006185 dispersion Substances 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001507 sample dispersion Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、対話装置、情報処理方法および情報処理プログラムに関する。 The present invention relates to an interactive device, an information processing method and an information processing program.
人物を撮影した撮像データを教師データとして生成したモデルを用いて、人物の推定を行う情報処理装置が利用されている(例えば、特許文献1、2参照)。
An information processing device that estimates a person using a model generated as teacher data of imaged data obtained by photographing a person is used (see, for example,
人物の推定は様々な局面で利用されており、例えば、推定した人物との対話を行う対話装置が提案されている。このような対話装置において、人物の推定精度を向上するには、姿勢、方向、服装や人物の周囲の明るさ等の様々な撮影条件下における撮像データを教師データとして人物推定に用いるモデルを生成するとともに、生成した当該モデルについて教師データの更新を適宜行うことが好ましい。しかしながら、教師データの更新には様々な撮影条件の下でユーザの撮影を行うこととなるため、ユーザにとって負担となっていた。 The estimation of a person is used in various aspects, and for example, a dialogue device for performing a dialogue with the estimated person has been proposed. In such a dialogue device, in order to improve the estimation accuracy of a person, a model is generated in which imaging data under various shooting conditions such as posture, direction, clothes and brightness around the person are used as teacher data for person estimation. At the same time, it is preferable to update the teacher data for the generated model as appropriate. However, updating the teacher data requires shooting the user under various shooting conditions, which is a burden on the user.
開示の技術の1つの側面は、人物の推定に用いるモデルの教師データを更新する際におけるユーザの負担を軽減できる対話装置、情報処理方法および情報処理プログラムを提供することを目的とする。 One aspect of the disclosed technique is to provide a dialogue device, an information processing method and an information processing program that can reduce the burden on the user in updating the teacher data of the model used for estimating a person.
開示の技術の1つの側面は、次のような対話装置によって例示される。本対話装置は、カメラに映ったユーザを推定し、推定した前記ユーザとの対話を行う対話装置である。本対話装置は、複数の撮影条件の下で人物を撮影した複数の撮像データを教師データとして用いて生成した人物推定モデルと、前記カメラに映ったユーザを前記人物推定モデルを用いて推定する推定部と、推定した人物を示す情報を含む問いかけを出力する対話部と、前記問いかけに対する応答が前記ユーザと前記推定した人物とが異なることを示す場合に、前記教師データのいずれかと前記カメラに前記ユーザが映った際に取得した撮像データとを、前記教師データとする撮像データの撮影条件毎の出現頻度のばらつきが減少するように入れ替える更新部と、を備える。 One aspect of the disclosed technique is exemplified by the following dialogue device. This dialogue device is a dialogue device that estimates a user captured by a camera and performs a dialogue with the estimated user. This dialogue device estimates a person estimation model generated by using a plurality of imaging data obtained by photographing a person under a plurality of shooting conditions as teacher data, and an estimation that estimates a user captured by the camera using the person estimation model. When the unit, the dialogue unit that outputs a question including information indicating the estimated person, and the response to the question indicate that the user and the estimated person are different, one of the teacher data and the camera It is provided with an update unit that replaces the imaging data acquired when the user is photographed so as to reduce the variation in the appearance frequency of the imaging data as the teacher data for each imaging condition.
開示の技術は、人物の推定に用いるモデルの教師データを更新する際におけるユーザの負担を軽減することができる。 The disclosed technique can reduce the burden on the user in updating the teacher data of the model used for estimating the person.
実施形態に係る対話装置は、カメラに映ったユーザを推定し、推定した前記ユーザとの対話を行う対話装置である。本対話装置は、例えば、以下の構成を有する。
複数の撮影条件の下で人物を撮影した複数の撮像データを教師データとして用いて生成した人物推定モデルと、
前記カメラに映ったユーザを前記人物推定モデルを用いて推定する推定部と、
推定した人物を示す情報を含む問いかけを出力する対話部と、
前記問いかけに対する応答が前記ユーザと前記推定した人物とが異なることを示す場合に、前記教師データのいずれかと前記カメラに前記ユーザが映った際に取得した撮像データとを、前記教師データとする撮像データの撮影条件毎の出現頻度のばらつきが減少するように入れ替える更新部と、を備える。
The dialogue device according to the embodiment is a dialogue device that estimates a user captured by a camera and performs a dialogue with the estimated user. The dialogue device has, for example, the following configuration.
A person estimation model generated by using multiple imaging data of a person photographed under multiple shooting conditions as teacher data, and
An estimation unit that estimates the user captured by the camera using the person estimation model,
A dialogue section that outputs questions that include information indicating the estimated person,
When the response to the question indicates that the user and the estimated person are different, one of the teacher data and the imaging data acquired when the user is photographed by the camera are used as the teacher data. It is provided with an update unit that is replaced so that the variation in the appearance frequency of the data for each shooting condition is reduced.
対話装置は、例えば、ユーザとの間で音声によるコミュニケーションを行う。対話装置では、複数の撮影条件の下で人物を撮影した複数の撮像データを教師データとして用いて生成した人物推定モデルを備える。人物推定モデルは、例えば、ディープラーニング等の機械学習によって生成される。カメラは、例えば、Charge Coupled Device(CCD)センサやComplementary Metal Oxide Semiconductor(CMOS)センサを備えるデジタルカメラである。カメラは、映ったユーザの画像をデジタルイメージとした撮像データを生成する。 The dialogue device, for example, performs voice communication with the user. The dialogue device includes a person estimation model generated by using a plurality of imaging data obtained by photographing a person under a plurality of photographing conditions as teacher data. The person estimation model is generated by machine learning such as deep learning. The camera is, for example, a digital camera equipped with a Charge Coupled Device (CCD) sensor and a Complementary Metal Oxide Sensor (CMOS) sensor. The camera generates imaging data in which the captured user's image is used as a digital image.
推定部は、カメラに映ったユーザの推定を人物推定モデルを用いて行う。推定部は、例えば、人物推定モデルを用いた推定の結果として、推定した人物を示す情報を取得する。人物を示す情報としては、例えば、氏名、苗字、名前、ニックネーム等を挙げることができる。 The estimation unit estimates the user captured by the camera using a person estimation model. The estimation unit acquires, for example, information indicating the estimated person as a result of estimation using the person estimation model. Examples of the information indicating the person include a name, a surname, a first name, a nickname, and the like.
対話部は、推定した人物を示す情報を含む問いかけを出力する。問いかけは、例えば、挨拶やスケジュールの通知等であり、具体的には、「こんにちは、Aさん」、「Aさん、明日はXXのイベントがあります」といった文言を挙げることができる。 The dialogue unit outputs a question including information indicating the estimated person. Question is, for example, a greeting and schedule of the notification, such as, in particular, "Hello, Mr. A", "Mr. A, tomorrow there is a XX of the event" can be mentioned wording such.
前記問いかけに対する応答が前記ユーザと前記推定した人物とが異なることを示す場合としては、問いかけに含まれる推定した人物を示す情報を否定する応答を挙げることができる。例えば、「こんにちは、Aさん」という問いかけに対して、「いいえ、私はBです」という応答は、問いかけに含まれる「Aさん」を応答において否定していることで、前記ユーザと前記推定した人物とが異なることを示す。このようにユーザと推定した人物とが異なる場合には、人物推定モデルを用いた人物の推定精度が低いと考えられるため、更新部は人物推定モデルの教師データの入れ替えを行う。 As a case where the response to the question indicates that the user and the estimated person are different, a response denying the information indicating the estimated person included in the question can be mentioned. For example, for the question of "Hello, Mr. A", a response of "No, I am B", that has denied in response to "Mr. A" that is included in the question, was the estimated and the user Indicates that the person is different. When the user and the estimated person are different in this way, it is considered that the estimation accuracy of the person using the person estimation model is low, so that the update unit replaces the teacher data of the person estimation model.
更新部16は、撮影条件毎の出現頻度のばらつきが減少するように教師データを入れ替えることで、人物推定モデルの生成に用いる撮像データを様々な撮影条件下で撮影されたものとすることができる。その結果、本対話装置は、様々な条件下における人物の推定精度を高めることができる。また、本対話装置は、ユーザとの対話の中で取得した撮像データを用いて教師データの入れ替えを行うため、ユーザに対して姿勢等を指示しなくとも良いため、教師データの入れ替えの際におけるユーザの負担を軽減することができる。
By exchanging the teacher data so that the variation in the appearance frequency for each shooting condition is reduced, the updating
本対話装置において、前記対話部は、前記ユーザからの指示への応答として、前記推定した人物を示す情報を含む問いかけを出力してもよい。すなわち、ユーザとの対話における第一声は、本対話装置からではなく、ユーザからであってもよい。 In the dialogue device, the dialogue unit may output a question including information indicating the estimated person as a response to an instruction from the user. That is, the first voice in the dialogue with the user may be from the user, not from the dialogue device.
本対話装置において、前記推定部は、前記問いかけに応答したユーザを前記カメラに再度撮影させ、再度撮影させた撮像データを用いて前記ユーザの推定をさらに行ってもよい。問いかけに応答したユーザは、問いかけに応答する前とは異なる姿勢や位置であると考えられる。このように姿勢や位置が変化したユーザについて推定を行い、推定結果に基づく教師データの更新が行われることで、様々な撮影条件における教師データを人物推定モデルの生成に用いることができる。 In the present dialogue device, the estimation unit may make the camera take a picture of the user who responded to the question again, and further estimate the user using the imaged data taken again. The user who responded to the question is considered to have a different posture and position than before responding to the question. By estimating the user whose posture and position have changed in this way and updating the teacher data based on the estimation result, the teacher data under various shooting conditions can be used to generate a person estimation model.
本対話装置において、前記更新部は、前記カメラに撮影させた撮像データと入れ替えることで前記撮影条件毎の出現頻度のばらつきを減少させることができる教師データが複数ある場合、前記撮影条件毎の出現頻度のばらつきを減少させる減少量が多い教師データを優先して前記カメラに撮影させた撮像データと入れ替える対象としてもよい。このような特徴を有することで、撮影条件それぞれについてバランスよく集めた撮像データを人物推定モデルの教師データとすることができる。 In the present dialogue device, when there is a plurality of teacher data capable of reducing the variation in the appearance frequency for each shooting condition by replacing the imaging data captured by the camera, the updating unit appears for each shooting condition. The teacher data having a large amount of reduction that reduces the variation in frequency may be prioritized and replaced with the imaging data captured by the camera. By having such a feature, the imaging data collected in a well-balanced manner for each shooting condition can be used as the teacher data of the person estimation model.
本対話装置において、前記更新部は、前記カメラに撮影させた撮像データを入れ替えることで前記撮影条件毎の出現頻度のばらつきを減少させることができる教師データが複数ある場合、より古い時期に撮影された教師データを優先して前記カメラに撮影させた撮像データと入れ替える対象としてもよい。ユーザの顔は時間の経過とともに変化するため、古い撮像データは教師データとして有効ではないと考えられる。このような特徴を有することで、古い教師データを新しい撮像データに入れ替えることができ、人物推定モデルを現在のユーザの推定に適したものとすることができる。 In this dialogue device, the updating unit is photographed at an older time when there is a plurality of teacher data capable of reducing the variation in the appearance frequency for each shooting condition by exchanging the imaging data captured by the camera. The teacher data may be prioritized and replaced with the imaging data captured by the camera. Since the user's face changes over time, it is considered that the old imaging data is not valid as teacher data. By having such a feature, the old teacher data can be replaced with the new imaging data, and the person estimation model can be suitable for the estimation of the current user.
本対話装置において、前記更新部は、前記問いかけに対する応答が前記ユーザと前記推定した人物とが一致している場合であっても、前回の教師データの入れ替えから所定期間が経過している場合には、前記教師データのいずれかと前記カメラに撮影させた撮像データとを、前記教師データとする撮像データの撮影条件毎の出現頻度のばらつきが減少するように入れ替えてもよい。このような特徴によっても、古い教師データを新しい撮像データに入れ替えることができ、人物推定モデルを現在のユーザの推定に適したものとすることができる。 In this dialogue device, even if the response to the question is the same between the user and the estimated person, the update unit is used when a predetermined period has passed since the previous replacement of the teacher data. May replace any of the teacher data with the imaging data captured by the camera so as to reduce the variation in the appearance frequency of the imaging data as the teacher data for each imaging condition. These features also allow the old teacher data to be replaced with new imaging data, making the person estimation model suitable for the estimation of the current user.
実施形態は、上記対話装置が実行する情報処理方法および情報処理プログラムとして把握することもできる。 The embodiment can also be grasped as an information processing method and an information processing program executed by the dialogue device.
以下、図面を参照して、実施形態についてさらに説明する。以下に示す実施形態の構成は例示であり、開示の技術は実施形態の構成に限定されない。 Hereinafter, embodiments will be further described with reference to the drawings. The configurations of the embodiments shown below are examples, and the disclosed technology is not limited to the configurations of the embodiments.
<実施形態>
実施形態では、カメラに映ったユーザを推定し、推定したユーザとの対話を行うコミュニケーション装置について説明する。図1は、実施形態に係るコミュニケーション装置の
ハードウェア構成の一例を示す図である。図1に例示されるコミュニケーション装置1は、Central Processing Unit(CPU)101、主記憶部102、補助記憶部103、カメラ104、マイクロフォン105、スピーカー106、計時部107、センサ108および接続バスB1を含む情報処理装置である。CPU101、主記憶部102、補助記憶部103、カメラ104、マイクロフォン105、スピーカー106、計時部107およびセンサ108は、接続バスB1によって相互に接続されている。コミュニケーション装置1は、「対話装置」の一例である。
<Embodiment>
In the embodiment, a communication device that estimates the user captured by the camera and interacts with the estimated user will be described. FIG. 1 is a diagram showing an example of a hardware configuration of a communication device according to an embodiment. The
CPU101は、マイクロプロセッサユニット(MPU)、プロセッサとも呼ばれる。CPU101は、単一のプロセッサに限定される訳ではなく、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のCPU101がマルチコア構成を有していても良い。CPU101が実行する処理のうち少なくとも一部は、CPU101以外のプロセッサ、例えば、Digital Signal Processor(DSP)、Graphics Processing Unit(GPU)、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われても良い。また、CPU101が実行する処理のうち少なくとも一部は、集積回路(IC)、その他のディジタル回路によって実行されてもよい。また、CPU101の少なくとも一部にアナログ回路が含まれても良い。集積回路は、Large Scale Integrated circuit(LSI)、Application Specific Integrated Circuit(ASIC)、プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field−Programmable Gate Array(FPGA)を含む。CPU101は、プロセッサと集積回路との組み合わせであっても良い。組み合わせは、例えば、マイクロコントローラユニット(MCU)、System−on−a−chip(SoC)、システムLSI、チップセットなどと呼ばれる。コミュニケーション装置1では、CPU101が補助記憶部103に記憶されたプログラムを主記憶部102の作業領域に展開し、プログラムの実行を通じて周辺装置の制御を行う。これにより、コミュニケーション装置1は、所定の目的に合致した処理を実行することができる。主記憶部102および補助記憶部103は、コミュニケーション装置1が読み取り可能な記録媒体である。
The
主記憶部102は、CPU101から直接アクセスされる記憶部として例示される。主記憶部102は、Random Access Memory(RAM)およびRead
Only Memory(ROM)を含む。
The
Includes Only Memory (ROM).
補助記憶部103は、各種のプログラムおよび各種のデータを読み書き自在に記録媒体に格納する。補助記憶部103は外部記憶装置とも呼ばれる。補助記憶部103には、オペレーティングシステム(Operating System、OS)、各種プログラム、各種テーブル等が格納される。外部装置等には、例えば、コンピュータネットワーク等で接続された、他の情報処理装置および外部記憶装置が含まれる。
The
補助記憶部103は、例えば、Erasable Programmable ROM(EPROM)、Embedded Multi Media Card(eMMC)、ソリッドステートドライブ(Solid State Drive、SSD)、ハードディスクドライブ(Hard Disk Drive、HDD)等である。また、補助記憶部103は、例えば、Compact Disc(CD)ドライブ装置、Digital
Versatile Disc(DVD)ドライブ装置、Blu−ray(登録商標)
Disc(BD)ドライブ装置等であってもよい。
The
Versail Disc (DVD) drive device, Blu-ray®
It may be a Disc (BD) drive device or the like.
カメラ104は、動画および静止画の少なくとも一方を撮影可能な撮像装置である。カメラ104は、例えば、CCDセンサやCMOSセンサを備えるデジタルカメラである。
カメラ104は、例えば、撮影した撮像データのExchangeable Image
File Format(Exif)データに、計時部107から取得した撮影日時を格納してもよい。カメラ104は、例えば、コミュニケーション装置1の正面側(ユーザに向けられる側)に配置される。
The
The
The shooting date and time acquired from the
マイクロフォン105は、ユーザからの音声による操作指示等を受け付ける入力部である。マイクロフォン105によって入力された音声は、音声解析されて氏名等の情報が抽出される。コミュニケーション装置1は、マイクロフォン105に加えて、または、マイクロフォン105に代えて、他の入力部を備えてもよい。他の入力部としては、例えば、キーボード、ポインティングデバイス、タッチパネル、加速度センサ等を挙げることができる。
The microphone 105 is an input unit that receives voice operation instructions and the like from the user. The voice input by the microphone 105 is voice-analyzed to extract information such as a name. The
スピーカー106は、音声を出力する出力部である。コミュニケーション装置1は、スピーカー106に加えて、または、スピーカー106に代えて、他の出力部を備えてもよい。他の出力部としては、例えば、Cathode Ray Tube(CRT)ディスプレイ、Liquid Crystal Display(LCD)、Plasma Display Panel(PDP)、Electroluminescence(EL)パネルあるいは有機ELパネルといった出力デバイスを例示できる。本実施形態に係るコミュニケーション装置1では、マイクロフォン105とスピーカー106とを備えることで、ユーザとの音声によるコミュニケーション(対話)を可能とする。
The speaker 106 is an output unit that outputs audio. The
計時部107は、時刻情報を生成する回路である。計時部107は、例えば、コミュニケーション装置1が内蔵する時計である。
The
センサ108は、人の接近を検知するセンサである。センサ108としては、人感センサを挙げることができる。人感センサは、例えば、赤外線、超音波、可視光を用いて、人の接近を検知する。可視光を用いて人の接近を検知する場合、センサ108として照度センサを採用してもよい。
The
<コミュニケーション装置1の処理ブロック>
図2は、実施形態に係るコミュニケーション装置の処理ブロックの一例を示す図である。コミュニケーション装置1は、撮影部11、推定部12、対話部13、判定部14、算出部15、更新部16、初期構築部17、判定データモデル18および管理データベース19を備える。コミュニケーション装置1は、主記憶部102に実行可能に展開されたコンピュータプログラムをCPU101が実行することで、上記コミュニケーション装置1の、撮影部11、推定部12、対話部13、判定部14、算出部15、更新部16、初期構築部17、判定データモデル18および管理データベース19等の各部としての処理を実行する。
<Processing block of
FIG. 2 is a diagram showing an example of a processing block of the communication device according to the embodiment. The
判定データモデル18は、ユーザを撮影した撮像データから顔領域を抽出した顔画像データを教師データのセット(教師データセット)として、例えば、ディープラーニング等の機械学習によって構築される学習モデルである。判定データモデル18は、例えば、教師データセットをサポートベクターマシン(SVM)等の分類器に入力して構築される。判定データモデル18は、後述する推定部12によるユーザの推定に用いられる。判定データモデル18は、例えば、ユーザごとに構築され、ユーザの氏名をモデル名とすることができる。ユーザの撮影により取得した撮像データと判定データモデル18とを照合させることで、ユーザの氏名が取得される。判定データモデル18は、「人物推定モデル」の一例である。
The
管理データベース19は、判定データモデル18の教師データとした顔画像データを管
理するデータベースである。図3は、実施形態において、管理データベースが格納する撮影条件管理テーブルの一例を示す図である。図3に例示される撮影条件管理テーブル191は、例えば、撮影されたユーザ毎に作成される。撮影条件管理テーブル191のそれぞれには、例えば、ユーザの氏名をラベルとして付すことができる。撮影条件管理テーブル191のそれぞれは、ラベルとして付されたユーザの氏名によって特定される。なお、撮影条件管理テーブル191のそれぞれに付すラベルがユーザの氏名に限定されるわけではなく、ユーザごとに一意に決定される情報であればユーザの氏名以外の数値や文字列等の情報であってもよい。撮影条件管理テーブル191は、撮影部11が取得した撮像データから抽出した顔画像データのうち、判定データモデル18の教師データとした顔画像データそれぞれの撮影条件を管理する。
The
図3に例示される撮影条件管理テーブル191は、「PID」、「撮影日」および「撮影条件」の各項目を含む。「PID」には、カメラ104がユーザを撮影することで取得した撮像データから抽出した顔画像データを一意に識別するID情報が格納される。「撮影日」には、撮影を行った日、すなわち、顔画像データの抽出元となる撮像データを生成した日が格納される。「撮影条件」には、撮影を行った際の撮影条件を示す情報が格納される。図3の例では、「撮影条件」は、「向き」、「距離」および「明暗」の3つのカテゴリを含む。「向き」には、撮影されたユーザの顔の向きを示す情報が格納される。図3では、「向き」として、「正面」、「左」、「右」、「上」および「下」の5方向が例示される。「距離」には、コミュニケーション装置1とユーザとの距離を示す情報が格納される。図3では、「距離」として、「遠」、「中」、「近」の3段階が例示される。「明暗」には、撮影時におけるユーザの周囲の明るさを示す情報が格納される。図3では、「明暗」として、「明」、「中」、「暗」の3段階が例示される。「向き」の5方向、「距離」の3段階、「明暗」の3段階のそれぞれの基準は、例えば、カメラ104のf値や焦点距離等の特性に合わせて適宜決定すればよい。図3では、「向き」、「距離」、「明暗」のそれぞれについて、撮像データが該当する項目のビットがオンにされる。例えば、「PID」が1である撮像データでは、顔の向きが「正面」、コミュニケーション装置1とユーザとの距離が「中」、ユーザの周囲の明るさが「中」であることが理解できる。
The shooting condition management table 191 illustrated in FIG. 3 includes each item of "PID", "shooting date", and "shooting condition". The "PID" stores ID information that uniquely identifies the face image data extracted from the imaging data acquired by the
撮影条件管理テーブル191は、さらに、「合計」、「分散」および「分散合計」の各項目を含む。「合計」には、撮影条件の各項目について、該当する撮像データの数の合計が格納される。「分散」には、撮影条件毎の出現頻度のばらつきを示す情報(指標)が格納される。撮影条件毎のばらつきを示す指標としては、例えば、分散、標準偏差、変動係数等を挙げることができる。分散は、不偏分散および標本分散のいずれが用いられてもよい。本実施形態では、撮影条件毎のばらつきを示す指標として「分散」を採用するが、他の指標を用いてもよい。図3の例では、「分散」として、「撮影条件」に含まれる3つのカテゴリのうち、「向き」についての分散と、「距離」についての分散と、「明暗」についての分散が例示される。「分散合計」には、これらの分散の合計値が格納される。すなわち、「分散合計」の値が小さければ小さいほど、「向き」、「距離」および「明暗」のそれぞれのカテゴリに属する教師データの数が可及的に等しくなっていることが示される。また、「分散」の値が小さければ小さいほど、当該カテゴリ内における条件(例えば、「距離」カテゴリにおける「遠」、「中」、「近」)それぞれに属する教師データの数が可及的に等しくなっていることが示される。 The shooting condition management table 191 further includes each item of "total", "dispersion", and "variance total". In "total", the total number of corresponding imaging data is stored for each item of shooting conditions. In the "dispersion", information (index) indicating the variation in the appearance frequency for each shooting condition is stored. Examples of the index showing the variation for each shooting condition include variance, standard deviation, coefficient of variation, and the like. As the dispersion, either unbiased dispersion or sample dispersion may be used. In the present embodiment, "dispersion" is adopted as an index showing the variation for each shooting condition, but other indexes may be used. In the example of FIG. 3, as "dispersion", among the three categories included in "shooting conditions", the variance for "direction", the variance for "distance", and the variance for "light and darkness" are exemplified. .. The total value of these variances is stored in the "variance total". That is, the smaller the value of "total variance", the more equal the number of teacher data belonging to each of the "direction", "distance" and "light and dark" categories is. Also, the smaller the value of "variance", the more the number of teacher data belonging to each condition in the category (for example, "far", "medium", "near" in the "distance" category) is possible. It is shown that they are equal.
撮影部11は、センサ108がユーザの接近を検知すると、カメラ104を用いてユーザを撮影する。撮影部11は、カメラ104の撮影によって取得した撮像データに含まれる顔領域を検出し、当該顔領域を抽出した顔画像データを取得する。顔領域は少なくともユーザの顔(頭部)を含む領域であり、ユーザの顔とその周囲を含んでもよい。撮影部11は、取得した顔画像データを、顔画像データを一意に識別するPIDと対応付けて補助記憶部103に記憶させる。
When the
推定部12は、判定データモデル18を用いて、撮影部11がカメラ104を用いて撮影した人物の推定を行う。推定部12は、例えば、撮影部11が取得した顔画像データと判定データモデル18とを照合し、人物の氏名を推定する。推定部12は、「推定部」の一例である。
The
対話部13は、推定部12が推定したユーザとの対話を行う。対話部13は、例えば、推定部12が推定した人物の氏名を含む問いかけを出力する。対話部13は、例えば、問いかけとしてユーザの氏名を含む挨拶をスピーカー106から出力する。対話部13は、問いかけに対するユーザからの応答をマイクロフォン105を介して取得する。対話部13は、例えば、取得したユーザからの応答を音声解析して、応答に含まれる氏名を取得する。対話部13は、「対話部」の一例である。
The
判定部14は、対話部13が取得したユーザからの応答を基に、応答したユーザと推定部12が推定した人物とが一致しているか否かを判定する。判定部14は、問いかけに含まれる氏名と対話部13が取得した氏名とが一致しない場合に、応答したユーザと推定部12が推定した人物とは一致しないと判定する。また、判定部14は、問いかけに含まれる氏名と、対話部13が取得した氏名とが一致する場合に、応答したユーザと推定部12が推定した人物とが一致すると判定する。なお、判定部14は、問いかけに含まれる氏名を否定しない応答を対話部13が受信したときに、応答したユーザと推定部12が推定した人物とは一致すると判定してもよい。
The
応答したユーザと推定部12が推定した人物とが一致しない具体例としては、対話部13が「おはようございます、A山B太郎さん」との問いかけを出力し、当該問いかけに対する応答として「いいえ、私はC田D男です」との応答をユーザから取得した場合を挙げることができる。この場合、ユーザの応答に含まれる氏名「C田D男」は、問いかけに含まれる氏名「A山B太郎」と一致しない。換言すれば、ユーザの応答は、推定部12が推定した氏名とは異なる氏名を含む。そこで、判定部14は、応答したユーザと推定部12が推定した人物とは一致しないと判定する。
As a specific example in which the responding user and the person estimated by the
また、応答したユーザと推定部12が推定した人物とが一致している具体例としては、対話部13が「おはようございます、A山B太郎さん」との問いかけを出力し、当該問いかけに対する応答として「はい、おはようございます」や「はい、おはようございます、A山B太郎です」との応答をユーザから取得した場合を挙げることができる。この場合、ユーザの応答は、問いかけに含まれる氏名を否定していない。そこで、判定部14は、応答したユーザと推定部12が推定した人物とは一致していると判定する。
Further, as a specific example in which the responding user and the person estimated by the
算出部15は、撮影条件管理テーブル191を参照して、判定データモデル18の教師データとした顔画像データの撮影条件毎の出現頻度のばらつきを示す指標を算出する。撮影条件毎の出現頻度のばらつきを示す指標は、上記の通り、分散、標準偏差、変動係数等を挙げることができ、本実施形態では「分散」を採用する。算出部15は、算出した分散を撮影条件管理テーブル191に記憶させる。
The
更新部16は、応答したユーザと推定部12が推定した人物とが一致しないと判定部14が判定した場合に、判定データモデル18の構築に用いる教師データの更新を行う。更新部16は、ユーザからの応答に含まれる氏名を取得する。更新部16は、取得した氏名に対応する判定データモデル18を補助記憶部103から読み出す。更新部16は、撮影部11が取得した顔画像データを用いて、教師データの撮影条件の分散が小さくなるように、読み出した判定データモデル18の教師データの更新を行う。換言すれば、更新部16は、様々な撮影条件の下で撮影された教師データを用いて判定データモデル18が構築
されるように、教師データの更新を行う。教師データの更新は、例えば、判定データモデル18の教師データのうち、いずれかの教師データを撮影部11が取得した顔画像データと入れ替えることで行う。
When the
更新部16は、補助記憶部103から読み出した判定データモデル18の教師データのうち、入れ替えの対象となる教師データを特定する。更新部16は、例えば、判定データモデル18の教師データのそれぞれを撮影部11が取得した顔画像データと入れ替えた場合における撮影条件の分散を算出部15に算出させる。更新部16は、算出させた撮影条件の分散が入れ替え前よりも小さい値となる教師データを入れ替え対象として特定する。更新部16は、好ましくは、撮影部11が取得した顔画像データと入れ替えることで撮影条件の分散が最も小さくなる教師データを入れ替え対象として特定する。更新部16は、特定した教師データを撮影部11が取得した顔画像データと入れ替えることで、新たな教師データセットを作成する。更新部16は、新たな教師データセットを、例えば、SVM等の分類器に入力することで、判定データモデル18を更新する。なお、更新部16は、判定データモデル18の構築に用いた教師データのいずれを撮影部11が取得した顔画像データと入れ替えても撮影条件の分散が小さくならない場合、教師データの入れ替えを実行しなくともよい。
The
ここで、更新部16が入れ替えの対象となる教師データを特定する処理の具体例について説明する。図4は、実施形態において、撮影部が取得した顔画像データの撮影条件の一例を示す図である。図4では、図3と同様に、「PID」、「撮影日」および「撮影条件」の各項目を含み、「撮影条件」の項目は、「向き」、「距離」および「明暗」の各項目を含む。「PID」、「撮影日」および「撮影条件」の各項目は、図3と同一であるため、その説明を省略する。更新部16は、撮影条件管理テーブル191に登録されている撮像データ(すなわち、教師データ)のそれぞれについて、撮影部11が取得した顔画像データと入れ替えた場合の分散を算出部15に算出させる。
Here, a specific example of the process for the
図5は、教師データを入れ替えた場合における分散の一例を示す図である。図5では、説明のため、教師データのそれぞれについて、撮影部11が取得した顔画像データと入れ替えた場合における分散合計が「更新後分散」として撮影条件管理テーブル191とともに例示される。図5を参照すると、いずれの教師データを入れ替え対象としても、現在の分散合計「42.7」よりも改善される(分散合計が小さくなる)ことが理解できる。そのため、更新部16は、教師データのいずれを更新対象として特定してもよい。
FIG. 5 is a diagram showing an example of dispersion when the teacher data is exchanged. In FIG. 5, for the sake of explanation, the total variance when the teacher data is replaced with the face image data acquired by the photographing
さらに、図5を参照すると、例えば、PID「1」またはPID「16」の教師データを撮像部11が取得した顔画像データと入れ替えると、分散合計は「42.7」となり、入れ替え後の分散合計の値を最も小さくすることができる。すなわち、入れ替えによって、撮影条件毎の出現頻度のばらつきを最も小さくすることができる。そのため、PID「1」またはPID「16」の教師データを入れ替え対象として特定することがより好ましいといえる。
Further, referring to FIG. 5, for example, when the teacher data of PID "1" or PID "16" is replaced with the face image data acquired by the
PID「1」およびPID「16」の教師データのように、入れ替え後の分散合計を最も小さくする教師データが複数存在する場合には、更新部16は、例えば、撮影日時が最も古い教師データを入れ替え対象として特定してもよい。図5の場合、PID「1」の教師データの撮影日時は「2017年7月9日」であり、PID「16」の教師データの撮影日時は「2017年7月7日」である。PID「16」の教師データの方がPID「1」の教師データよりも撮影日時が古いため、更新部16はPID「16」の教師データを入れ替え対象として特定すればよい。更新部16は、「更新部」の一例である。
When there are a plurality of teacher data that minimize the total variance after replacement, such as the teacher data of PID "1" and PID "16", the
初期構築部17は、様々な撮影条件の下でカメラ104に撮影させた複数の撮像データ
を教師データセットとして、判定データモデル18の初期構築を行う。初期構築部17は、例えば、ユーザから初期構築開始を指示された場合に、判定データモデル18の初期構築を開始する。判定データモデル18の初期構築は、例えば、ユーザを推定するためのモデルを新規に構築することを含む。初期構築部17は、例えば、ユーザに対して、「右を向いてください」、「もっと近づいてください」等の指示をスピーカー106から出力して撮影を行うことで、様々な撮影条件における撮像データを取得する。初期構築部17は、カメラ104にユーザを撮影させて取得した撮像データに対して顔認識処理を行い、撮像データからユーザの顔が撮影された顔画像データを抽出する。初期構築部17は、抽出した顔画像データを顔画像データを一意に識別するPIDと対応付けて補助記憶部103に記憶させる。初期構築部17は、このように補助記憶部103に記憶させた複数の顔画像データを教師データセットとしてSVM等の分類器に入力して、判定データモデル18の初期構築を行う。
The
初期構築部17は、構築した判定データモデル18を補助記憶部103に記憶させる。なお、補助記憶部103の記憶容量は有限であることから、判定データモデル18が使用することができる補助記憶部103の容量には制限がある。そのため、判定データモデル18の構築に用いる教師データの数には制限が生じる。判定データモデル18の構築に用いる教師データの数は、補助記憶部103の容量に応じて適宜定めればよい。本実施形態では、例えば、判定データモデル18の構築に用いる教師データの数は「20」とする。
The
初期構築部17は、さらに、顔画像データのそれぞれについて、撮影条件を判定する。撮影条件は、例えば、撮影条件管理テーブル191について図3を用いて例示した、「向き」、「距離」および「明暗」を挙げることができる。初期構築部17は、例えば、撮影条件「向き」については、顔画像データにおける顔の輪郭と目、鼻、口の位置関係から正面向き、左向き、右向き、上向き、下向きを判定する。初期構築部17は、例えば、撮影条件「距離」については、顔画像データの画像サイズ(画素数)の大きさを基に、「遠」、「中」、「近」のいずれに該当するかを判定する。初期構築部17は、例えば、撮影条件「明暗」については、顔画像データの輝度分布を用いて、「明」、「中」、「暗」のいずれに該当するかを判定する。初期構築部17は、顔画像データのPID、撮像データの撮影日時および判定した撮影条件とを対応付けて、撮影条件管理テーブル191に記憶させる。
The
<処理フロー>
以上説明した実施形態に係るコミュニケーション装置1の処理フローについて図面を参照して説明する。
<Processing flow>
The processing flow of the
(判定データベース18の初期構築)
図6は、実施形態における判定データベースの初期構築の処理フローを示す図である。図6の処理フローは、例えば、ユーザから初期構築開始を指示された場合に開始される。以下、図6を参照して、実施形態における判定データベース18の初期構築の処理フローについて説明する。
(Initial construction of judgment database 18)
FIG. 6 is a diagram showing a processing flow of initial construction of the determination database in the embodiment. The processing flow of FIG. 6 is started, for example, when the user instructs the start of initial construction. Hereinafter, the processing flow of the initial construction of the
T1では、初期構築部17は、ユーザに対する指示(例えば、「右を向いてください」、「もっと近づいてください」等)をスピーカー106から出力し、カメラ104にユーザの撮影を実行させる。T2では、初期構築部17は、T1で撮影した撮像データから顔領域の検出を行う。T3では、初期構築部17、T1で撮影した撮像データに顔が含まれているか否かを判定する。すなわち、初期構築部17は、T2で顔領域の検出ができたか否かを判定する。撮像データに顔が含まれている場合(T3でYES)、処理はT4に進められる。撮像データに顔が含まれていない場合(T3でNO)、処理はT1に進められる。
In T1, the
T4では、初期構築部17は、T1で撮影した撮像データから顔画像データを抽出する。T5では、初期構築部17は、T4で抽出した顔画像データの撮影条件を抽出する。初期構築部17は、例えば、T4で抽出した顔画像データを解析して、ユーザの顔の向き、コミュニケーション装置1とユーザとの距離、ユーザの周囲の明るさ(照度)等の撮影条件を抽出する。
In T4, the
T6では、初期構築部17は、T1で撮影した撮影データの撮影日時を取得する。初期構築部17は、例えば、撮像データのExifデータから撮影日時を取得する。T7では、初期構築部17は、T4で抽出した顔画像データと当該顔画像データを一意に識別するPIDとを対応付けて補助記憶部103に記憶させる。
In T6, the
T8では、初期構築部17は、T5で抽出した撮影条件、T6で取得した撮影日時および顔画像データを一意に識別するPIDとを対応付けて、撮影条件管理テーブル191を更新する。T1からT8の処理は、例えば、20回繰り返し実行されることで、様々な撮影条件下で撮影された20枚の顔画像データが収集される。
In T8, the
T9では、初期構築部17は、T6で補助記憶部103に記憶させた20枚の顔画像データを教師データセットとしてSVM等の分類器に入力して、判定データモデル18を構築する。
In T9, the
(判定データモデル18の更新)
図7および図8は、実施形態における、判定データモデルの更新処理の処理フローの一例を示す図である。図7の「A」は図8の「A」と接続し、図7の「B」は図8の「B」と接続する。以下、図7および図8を参照して、判定データモデル18の更新処理の処理フローの一例について説明する。
(Update of judgment data model 18)
7 and 8 are diagrams showing an example of the processing flow of the determination data model update processing in the embodiment. “A” in FIG. 7 is connected to “A” in FIG. 8, and “B” in FIG. 7 is connected to “B” in FIG. Hereinafter, an example of the processing flow of the update processing of the
T1からT4の処理は、処理の主体が初期構築部17からセンサ108によってユーザの接近を検知した撮影部11に代わることを除いて、図6のT1からT3の処理と同一である。そのため、その説明を省略する。
The processing of T1 to T4 is the same as the processing of T1 to T3 in FIG. 6, except that the main body of the processing is replaced by the photographing
T11では、推定部12は、T4で抽出した顔画像データを基に、判定データモデル18を用いて、ユーザの氏名を推定する。判定データモデル18は、例えば、図6を参照して説明した初期構築処理によって構築済みである。
In T11, the
T12では、対話部13は、T11で推定したユーザの氏名を含む問いかけをスピーカー106から出力する。問いかけは、例えば、挨拶であってもよい。対話部13は、例えば、「おはようございます、A山B太郎さん」という音声による問いかけをスピーカー106から出力する。対話部13は、スピーカー106から出力した問いかけに対するユーザからの応答をマイクロフォン105を介して受信する。対話部13は、マイクロフォン105を介して受信した応答からユーザの氏名を取得する。
At T12, the
T13では、判定部14は、T12で対話部13が受信した応答を基に、T11において推定部12が推定したユーザの氏名が妥当であったか否かを判定する。妥当である場合(T13でYES)、判定データモデル18の更新は行わずに処理は終了する。妥当ではない場合(T13でNO)、処理はT4に進められる。
In T13, the
T5からT7の処理は、処理の主体が初期構築部17から更新部16に代わることを除いて、図6のT4からT6の処理と同一であるため、その説明を省略する。T14では、更新部16は、T12で取得したユーザの氏名がラベルとして付与された撮影条件管理テ
ーブル191を特定する。更新部16は、特定した撮影条件管理テーブル191に登録済みの教師データのそれぞれについて、T4で抽出した顔画像データと入れ替えたときの撮影条件の分散合計を、算出部15に算出させる。更新部16は、T2で抽出された顔画像データと入れ替えたときにおける撮影条件の分散合計が入れ替え前における分散合計以下となる教師データを入れ替え対象の教師データとして特定する。
Since the processing of T5 to T7 is the same as the processing of T4 to T6 in FIG. 6 except that the main body of the processing is changed from the
なお、更新部16は、どの教師データと入れ替えても、撮影条件の分散合計が入れ替え前よりも大きい値となる場合、更新対象となる教師データは無いと判定してもよい。更新対象となる教師データがある場合(T14でYES)、処理はT15に進められる。更新対象となる教師データが無い場合(T14でNO)、判定データモデル18の更新は行わずに処理は終了する。
Note that the
T15では、更新部16は、T12で取得したユーザの氏名をモデル名とした判定データモデル18の教師データのうち、T14で特定した教師データと、T4で抽出した顔画像データとを入れ替えて、新たな教師データセットを決定する。T16では、更新部16は、T15で決定した教師データセットをSVMに入力して、判定データモデル18の更新を行う。
In T15, the
<実施形態の作用効果>
実施形態では、コミュニケーション装置1は、撮像部11が撮影させた撮像データ(顔画像データ)を基にユーザを推定し、推定したユーザの氏名を含む問いかけを行う。推定した人物とユーザとが異なることを当該問いかけに対する応答が示す場合、コミュニケーション装置1は、判定データモデル18に用いる教師データの撮影条件の分散合計が
入れ替え前の分散合計以下となるように、撮像部11が撮影させた撮像データと教師データのいずれかとの入れ替えを行う。すなわち、実施形態によれば、撮影条件に係る指示をユーザに対して出さなくとも、ユーザとの対話の中で判定データモデル18の更新を行うことができるため、判定データモデル18の更新に係るユーザへの負担を軽減することができる。
<Action and effect of the embodiment>
In the embodiment, the
実施形態によるコミュニケーション装置1は、ディスプレイを備えていない場合であっても、判定データモデル18の更新に係るユーザへの負担を軽減することができる。例えば、コミュニケーション装置1がディスプレイを有している場合、ユーザは判定データモデル18の教師データとした顔画像データが様々な撮影条件の下で撮影されたものか否か(すなわち、撮影条件の分散が小さいか否か)をディスプレイを用いて確認し、教師データとして不足する撮影条件を把握することができる。一方、コミュニケーション装置1がディスプレイを備えていない場合には、教師データとした顔画像データの確認をユーザは行うことは困難となる。実施形態によれば、様々な撮影条件の下で撮影された顔画像データが教師データとなるように更新部16が更新を行うため、ユーザが確認および修正を行わなくとも、人物の推定に好適な判定データモデル18を構築することができる。
The
ここで、分散は教師データの撮影条件毎のばらつきを示すため、更新部16は、撮影条件毎の出現頻度のばらつきを減少させるように、撮像部11が撮影させた撮像データと教師データのいずれかとの入れ替えを行うということもできる。このように教師データが入れ替えられることで、判定データモデル18は様々な撮影条件の下で撮影された撮像データ(顔画像データ)を教師データとすることができる。このような教師データを基に判定データモデル18が構築されるため、コミュニケーション装置1は、様々な条件下におけるユーザの推定精度を高めることができる。
Here, since the variance indicates the variation of the teacher data for each shooting condition, the updating
また、上記のように教師データが入れ替えられるため、教師データの数が所定数(実施形態では20)に制限されていても、更新部16は、その制限された数の中で、様々な撮
影条件の下撮影された撮像データを教師データとして判定データモデル18を構築することができる。そのため、実施形態によれば、教師データの数が制限されていても、ユーザの推定精度を高めることができる。また、所定数に制限された教師データを基に判定データモデル18が構築されるため、教師データの数に制限を設けない場合と比較して、主記憶部102や補助記憶部103の利用効率を高めることができる。
Further, since the teacher data is replaced as described above, even if the number of teacher data is limited to a predetermined number (20 in the embodiment), the
実施形態では、図5のT2で取得した顔画像データと入れ替えた後の分散が同じ値となる教師データが複数存在する場合には、更新部16は、撮影日時が最も古い教師データを入れ替え対象として特定する。ユーザの顔は、成長や老化等の影響により時間の経過とともに変化する。実施形態では、撮影日時が古い教師データを優先して入れ替えることで、コミュニケーション装置1による人物の推定精度を高めることができる。
In the embodiment, when there are a plurality of teacher data having the same variance after replacement with the face image data acquired in T2 of FIG. 5, the
<第1変形例>
実施形態では、撮影条件の分散合計を基に、図7のT4で取得した顔画像データと教師データとの入れ替えを行う。第1変形例では、撮影条件中の複数のカテゴリ毎に算出した分散を基に、図7のT4で取得した顔画像データと教師データとの入れ替えを行う。実施形態と同一の構成については同一の符号を付し、その説明を省略する。以下、図面を参照して、第1変形例について説明する。
<First modification>
In the embodiment, the face image data acquired in T4 of FIG. 7 and the teacher data are exchanged based on the total variance of the shooting conditions. In the first modification, the face image data acquired in T4 of FIG. 7 and the teacher data are exchanged based on the variance calculated for each of a plurality of categories in the shooting conditions. The same components as those in the embodiment are designated by the same reference numerals, and the description thereof will be omitted. Hereinafter, the first modification will be described with reference to the drawings.
図9は、第1変形例に係るコミュニケーション装置の処理ブロックの一例を示す図である。図9に例示さえるコミュニケーション装置1aは、更新部16に代えて更新部16aを備える点で、実施形態に係るコミュニケーション装置1とは異なる。
FIG. 9 is a diagram showing an example of a processing block of the communication device according to the first modification. The communication device 1a illustrated in FIG. 9 is different from the
更新部16aは、管理データベース19の撮影条件管理テーブル191を参照して、撮影条件の各カテゴリ(図3の例では「向き」、「距離」および「明暗」)のうち、最も分類が大きいカテゴリを特定する。更新部16aは、図5のT2で取得した顔画像データと入れ替えることで、特定したカテゴリについての分類を入れ替え前以下の値とすることができる教師データを特定する。更新部16aは、特定した教師データを図5のT2で取得した顔画像データと入れ替えて、新たな教師データセットを決定する。更新部16aは、決定した新たな教師データセットをSVMに入力して、判定データモデル18を更新する。
The
第1変形例によれば、撮影条件のカテゴリ毎の分散を基に入れ替え対象となる教師データの入れ替えを行うことで、他のカテゴリと比較して推定精度が低くなるカテゴリにおける推定精度の改善を行うことができる。 According to the first modification, by exchanging the teacher data to be exchanged based on the variance of each category of shooting conditions, the estimation accuracy in the category where the estimation accuracy is lower than that of other categories can be improved. It can be carried out.
<その他の変形>
実施形態では、「おはようございます、A山B太郎さん」といったユーザの氏名を含む挨拶が対話部13による問いかけの一例として挙げられたが、対話部13による問いかけはあいさつに限定されるわけではない。対話部13による問いかけは、例えば、「A山B太郎さん、昨日の健康データをお知らせします」と呼びかけるものでもよい。また、呼びかけに対してコミュニケーション装置1の方向に向いたユーザを撮像部11が撮影し、推定部12によるユーザの推定をさらに再度実行してもよい。推定部12が再度実行した推定の結果が「A山B太郎」とは異なる「C田D男」となった場合、更新部16によって「C田D男」に対応する判定データモデル18の教師データを更新してもよい。
<Other variants>
In the embodiment, a greeting including the user's name such as "Good morning, Mr. A mountain B Taro" is given as an example of the question by the
コミュニケーション装置1は、ユーザのスケジュールや趣味等の情報を補助記憶部103に保持しておき、保持したこれらの情報を基にユーザに問いかけを行ってもよい。コミュニケーション装置1は、例えば、ユーザ「A山B太郎」が昨日コンサートに行ったことを補助記憶部103に保持している場合、「昨日のコンサートは楽しかったですか?」と
の問いかけをスピーカー106から出力する。コンサートに行ったことを、例えば、「はい、楽しかったです」とコンサートに行ったことを否定しない応答を受信すると、ユーザが「A山B太郎」であるとした推定は妥当であったと判定できる。また、コミュニケーション装置1は、例えば、「いいえ、コンサートは行ってないです」といったコンサートに行ったことを否定する応答を受信すると、ユーザが「A山B太郎」であるとした推定が妥当ではなかったと判定できる。
The
このようなスケジュールや趣味等の情報を用いる他の例として、推定部12が推定した人物の昨日の歩数が10000歩である場合を挙げることができる。この場合、対話部13は「昨日はよく歩きましたね10000歩です」との問いかけを出力する。この問いかけに対する応答として「そうですね。いい運動になった」との応答を受信した場合には、判定部14は推定部12による推定が妥当であると判定できる。また、「いいえ、そんなに歩いてないです」との応答を受信した場合には、判定部14は推定部12による推定が妥当ではなかったと判定できる。
As another example of using such information such as schedule and hobbies, the case where the number of steps of the person estimated by the
スケジュールや趣味等の情報を用いる例として、さらに、推定部12が推定したユーザ(A山B太郎)の好きなXXについてのイベントが明日開催される場合を挙げることができる。この場合、対話部13は「A山B太郎さんの大好きなXXのイベントが明日開催されますよ」との問いかけを出力する。この問いかけに対する応答として「今回はパスしよう」とのXXが好きであるという「A山B太郎」の趣味を否定しない応答を受信した場合には、判定部14は推定部12による推定が妥当であると判定できる。また、「私はXXは好きじゃないです」というXXが好きであるという「A山B太郎」の趣味を否定する応答を受信した場合には、判定部14は推定部12による推定が妥当ではなかったと判定できる。なお、XXに関するイベントの開催日等の情報は、コミュニケーション装置1がインターネット等の情報源を適宜検索して取得すればよい。
As an example of using information such as schedules and hobbies, there is a case where an event about the user's favorite XX estimated by the estimation unit 12 (A mountain B Taro) is held tomorrow. In this case, the
また、コミュニケーション装置1は、ユーザからの指示に対する応答に問いかけを含めてもよい。コミュニケーション装置1は、例えば、ユーザから「照明つけて」との指示に対して、「はい、A山B太郎さん、了解です」との応答を返してもよい。この場合、ユーザから「いいえ、私はC田D男です」といったA山B太郎であることを否定する応答を受信すると、ユーザが「A山B太郎」であるとした推定が妥当ではなかったと判定できる。なお、コミュニケーション装置1は、ユーザから所定時間内に応答がなかった場合には、推定した氏名をユーザが否定しないため、ユーザが「A山B太郎」であるとした推定が妥当であると判定してもよい。同様の例として、ユーザから「昨日の歩数教えて」との指示を受信したときに、「はい。A山B太郎さんの歩数をお知らせします」と応答してもよい。
Further, the
コミュニケーション装置1は、様々な撮影条件の顔画像データを取得するために、ユーザに対して運動を促す指示を行ってもよい。運動を促す指示としては、例えば、ユーザに対して「少し運動しましょう。ゆっくり3回首をぐるっと回してください」や「少し運動しましょう。10秒間ぎゅっと目をつむってください」等を挙げることができる。
The
コミュニケーション装置1は、推定部12による推定が妥当な場合であっても、判定データモデル18の教師データが所定期間(例えば、1年間)入れ替えられていない場合、教師データの入れ替えを実行してもよい。上記の通り、ユーザの顔は成長や老化等の影響により時間の経過とともに変化するため、ある程度の期間の経過とともに教師データを入れ替えることで、推定部12による推定精度を高く維持できると考えられる。
Even if the estimation by the
実施形態では、推定部12が推定した人物の氏名を含む問いかけを対話部13は出力する。しかしながら、対話部13が出力する問いかけは、ユーザの氏名ではなく、推定した
人物を示す情報を含んでもよい。推定した人物を示す情報は、例えば、ユーザの苗字、ユーザの名前、ユーザのニックネーム等を挙げることができる。
In the embodiment, the
実施形態では、撮影条件のカテゴリとして、「向き」、「距離」、「明暗」の3つを挙げたが、これらに代えて、または、これらに加えて、他のカテゴリを撮影条件に含めてもよい。他のカテゴリとしては、例えば、「帽子の有無」、「眼鏡の有無」、「表情」等を挙げることができる。また、実施形態では、撮影条件の各カテゴリについて、「向き」を5方向、「距離」を3段階、「明暗」を3段階としたが、撮影条件の各カテゴリをさらに細かく区分けしてもよいし、より大まかに区分けしてもよい。 In the embodiment, three categories of shooting conditions are listed, "direction", "distance", and "light and darkness", but instead of or in addition to these, other categories are included in the shooting conditions. May be good. Other categories include, for example, "presence or absence of a hat", "presence or absence of eyeglasses", "expression" and the like. Further, in the embodiment, for each category of shooting conditions, "direction" is set to 5 directions, "distance" is set to 3 levels, and "light and darkness" is set to 3 levels, but each category of shooting conditions may be further subdivided. However, it may be divided more roughly.
以上で開示した実施形態や変形例はそれぞれ組み合わせることができる。 The embodiments and modifications disclosed above can be combined with each other.
<<コンピュータが読み取り可能な記録媒体>>
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させる情報処理プログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
<< Computer-readable recording medium >>
An information processing program that enables a computer or other machine or device (hereinafter, computer or the like) to realize any of the above functions can be recorded on a recording medium that can be read by the computer or the like. Then, by causing a computer or the like to read and execute the program of this recording medium, the function can be provided.
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、Compact Disc Read Only Memory(CD−ROM)、Compact Disc−Recordable(CD−R)、Compact Disc−ReWriterable(CD−RW)、Digital Versatile Disc(DVD)、ブルーレイディスク(BD)、Digital Audio Tape(DAT)、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。 Here, a recording medium that can be read by a computer or the like is a recording medium that can store information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from the computer or the like. To say. Among such recording media, those that can be removed from a computer or the like include, for example, a flexible disk, a photomagnetic disk, a Compact Disc Read Only Memory (CD-ROM), a Compact Disc-Recordable (CD-R), and a Compact Disc-ReWriterable. (CD-RW), Digital Versaille Disc (DVD), Blu-ray Disc (BD), Digital Audio Tape (DAT), 8 mm tape, memory cards such as flash memory, and the like. In addition, there are hard disks, ROMs, and the like as recording media fixed to computers and the like.
1、1a・・・コミュニケーション装置
11・・・撮影部
12・・・推定部
13・・・対話部
14・・・判定部
15・・・算出部
16、16a・・・更新部
17・・・初期構築部
18・・・判定データモデル
19・・・管理データベース
191・・・撮影条件管理テーブル
101・・・CPU
102・・・主記憶部
103・・・補助記憶部
104・・・カメラ
105・・・マイクロフォン
106・・・スピーカー
107・・・計時部
108・・・センサ
1, 1a ...
102 ...
Claims (8)
複数の撮影条件の下で人物を撮影した複数の撮像データを教師データとして用いて生成した人物推定モデルと、
前記カメラに映ったユーザを前記人物推定モデルを用いて推定する推定部と、
推定した人物を示す情報を含む問いかけを出力する対話部と、
前記問いかけに対する応答が前記ユーザと前記推定した人物とが異なることを示す場合に、前記教師データのいずれかと前記カメラに前記ユーザが映った際に取得した撮像データとを、前記教師データとする撮像データの撮影条件毎の出現頻度のばらつきが減少するように入れ替える更新部と、を備える、
対話装置。 It is a dialogue device that estimates the user captured by the camera and performs a dialogue with the estimated user.
A person estimation model generated by using multiple imaging data of a person photographed under multiple shooting conditions as teacher data, and
An estimation unit that estimates the user captured by the camera using the person estimation model,
A dialogue section that outputs questions that include information indicating the estimated person,
When the response to the question indicates that the user and the estimated person are different, one of the teacher data and the imaging data acquired when the user is photographed by the camera are used as the teacher data. It is equipped with an update unit that replaces data so that the variation in appearance frequency for each shooting condition is reduced.
Dialogue device.
請求項1に記載の対話装置。 The dialogue unit outputs a question including information indicating the estimated person as a response to the instruction from the user.
The dialogue device according to claim 1.
請求項1または2に記載の対話装置。 The estimation unit causes the camera to take a picture of the user who responded to the question again, and further estimates the user using the imaged data taken again.
The dialogue device according to claim 1 or 2.
請求項1から3のいずれか一項に記載の対話装置。 When there are a plurality of teacher data capable of reducing the variation in the appearance frequency for each shooting condition by replacing the imaging data captured by the camera, the updating unit reduces the variation in the appearance frequency for each shooting condition. The teacher data with a large amount of reduction is prioritized and replaced with the imaged data captured by the camera.
The dialogue device according to any one of claims 1 to 3.
請求項1から4のいずれか一項に記載の対話装置。 When there are a plurality of teacher data capable of reducing the variation in the appearance frequency for each shooting condition by exchanging the imaging data captured by the camera, the updating unit gives priority to the teacher data captured at an older time. The target is to be replaced with the imaged data taken by the camera.
The dialogue device according to any one of claims 1 to 4.
請求項1から5のいずれか一項に記載の対話装置。 Even if the response to the question is the same between the user and the estimated person, the update unit will use the teacher data if a predetermined period has passed since the previous replacement of the teacher data. And the imaging data captured by the camera are replaced so that the variation in the appearance frequency of the imaging data as the teacher data for each imaging condition is reduced.
The dialogue device according to any one of claims 1 to 5.
前記カメラに映ったユーザを、複数の撮影条件の下で人物を撮影した複数の撮像データを教師データとして用いて生成した人物推定モデルを用いて推定し、
推定した人物を示す情報を含む問いかけを出力し、
前記問いかけに対する応答が前記ユーザと前記推定した人物とが異なることを示す場合に、前記教師データのいずれかと前記カメラに前記ユーザが映った際に取得した撮像データとを、前記教師データとする撮像データの撮影条件毎の出現頻度のばらつきが減少するように入れ替える、
情報処理方法。 A computer that estimates the user captured by the camera and interacts with the estimated user
The user captured by the camera is estimated by using a person estimation model generated by using a plurality of imaging data of a person photographed under a plurality of shooting conditions as teacher data.
Outputs a question containing information indicating the estimated person,
When the response to the question indicates that the user and the estimated person are different, one of the teacher data and the imaging data acquired when the user is photographed by the camera are used as the teacher data. Replace the data so that the variation in the frequency of appearance for each shooting condition is reduced.
Information processing method.
前記カメラに映ったユーザを、複数の撮影条件の下で人物を撮影した複数の撮像データを教師データとして用いて生成した人物推定モデルを用いて推定させ、
推定した人物を示す情報を含む問いかけを出力させ、
前記問いかけに対する応答が前記ユーザと前記推定した人物とが異なることを示す場合に、前記教師データのいずれかと前記カメラに前記ユーザが映った際に取得した撮像データとを、前記教師データとする撮像データの撮影条件毎の出現頻度のばらつきが減少するように入れ替えさせる、
情報処理プログラム。
To a computer that estimates the user in the camera and interacts with the estimated user
The user captured by the camera is estimated by using a person estimation model generated by using a plurality of imaging data of a person photographed under a plurality of shooting conditions as teacher data.
Output a question containing information indicating the estimated person,
When the response to the question indicates that the user and the estimated person are different, one of the teacher data and the imaging data acquired when the user is photographed by the camera are used as the teacher data. Replace the data so that the variation in appearance frequency for each shooting condition is reduced.
Information processing program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019128549A JP2021015362A (en) | 2019-07-10 | 2019-07-10 | Interactive device, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019128549A JP2021015362A (en) | 2019-07-10 | 2019-07-10 | Interactive device, information processing method, and information processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021015362A true JP2021015362A (en) | 2021-02-12 |
Family
ID=74530892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019128549A Pending JP2021015362A (en) | 2019-07-10 | 2019-07-10 | Interactive device, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021015362A (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004302644A (en) * | 2003-03-28 | 2004-10-28 | Sony Corp | Face identification device, face identification method, recording medium and robot device |
JP2007034872A (en) * | 2005-07-29 | 2007-02-08 | Matsushita Electric Ind Co Ltd | Face authentication device, face authentication system and face authentication method |
JP2013167986A (en) * | 2012-02-15 | 2013-08-29 | Hitachi Ltd | Image recognition system and image recognition method |
JP2017037375A (en) * | 2015-08-07 | 2017-02-16 | キヤノン株式会社 | Imaging apparatus and control method thereof |
JP2018107538A (en) * | 2016-12-23 | 2018-07-05 | シャープ株式会社 | Information processing device, control method of information processing device, and control program |
JP2018181157A (en) * | 2017-04-19 | 2018-11-15 | 株式会社日立製作所 | Person authentication device |
-
2019
- 2019-07-10 JP JP2019128549A patent/JP2021015362A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004302644A (en) * | 2003-03-28 | 2004-10-28 | Sony Corp | Face identification device, face identification method, recording medium and robot device |
JP2007034872A (en) * | 2005-07-29 | 2007-02-08 | Matsushita Electric Ind Co Ltd | Face authentication device, face authentication system and face authentication method |
JP2013167986A (en) * | 2012-02-15 | 2013-08-29 | Hitachi Ltd | Image recognition system and image recognition method |
JP2017037375A (en) * | 2015-08-07 | 2017-02-16 | キヤノン株式会社 | Imaging apparatus and control method thereof |
JP2018107538A (en) * | 2016-12-23 | 2018-07-05 | シャープ株式会社 | Information processing device, control method of information processing device, and control program |
JP2018181157A (en) * | 2017-04-19 | 2018-11-15 | 株式会社日立製作所 | Person authentication device |
Non-Patent Citations (1)
Title |
---|
"音声対話型AI帳票における顔認証による本人確認", 情報処理学会 研究報告 コンシューマ・デバイス&システム(CDS),2018−CDS−022, JPN6023017541, 24 May 2018 (2018-05-24), ISSN: 0005051386 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5864783B2 (en) | Method and apparatus for operator absent image capture | |
US20130177296A1 (en) | Generating metadata for user experiences | |
JP2021524975A (en) | Invoking automation assistant features based on detected gestures and gaze | |
US10719695B2 (en) | Method for pushing picture, mobile terminal, and storage medium | |
US8626782B2 (en) | Pattern identification apparatus and control method thereof | |
TWI255141B (en) | Method and system for real-time interactive video | |
US11392213B2 (en) | Selective detection of visual cues for automated assistants | |
US11500519B2 (en) | Media content detection and management | |
EP3419020A1 (en) | Information processing device, information processing method and program | |
CN112235635B (en) | Animation display method, animation display device, electronic equipment and storage medium | |
EP4173256A1 (en) | Travel-based augmented reality content for images | |
CN111695422A (en) | Video tag acquisition method and device, storage medium and server | |
US11468883B2 (en) | Messaging system with trend analysis of content | |
US20220187959A1 (en) | Timeline media content navigation system | |
JP2003533768A (en) | Memory support device | |
KR20210145214A (en) | Context Media Filter Search | |
KR20160106649A (en) | Evaluation of augmented reality skins | |
US11477397B2 (en) | Media content discard notification system | |
CN109977390A (en) | A kind of method and device generating text | |
CN111134686A (en) | Human body disease determination method and device, storage medium and terminal | |
JP2021015362A (en) | Interactive device, information processing method, and information processing program | |
CN117971154A (en) | Multimodal response | |
US20220360740A1 (en) | Video teleconference curated user profile picture | |
CN110688011B (en) | Dynamic list construction based on modalities of a multi-modality client device | |
WO2020039753A1 (en) | Information processing device for determining degree of security risk of macro |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220630 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231031 |