本発明の実施形態に係る情報処理システムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
<システム概要>
図1は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムは、施設100に設置された一又は複数のカメラ1が撮影した画像をサーバ装置3へ送信し、カメラ1から受信した画像をサーバ装置3がユーザの端末装置5へ送信するシステムである。図示の例では、施設100として保育園又は幼稚園等が示されている。保育園又は幼稚園等の施設100に設置されたカメラ1は、例えば所定の周期で繰り返し自動的に施設100内の撮影、施設100を利用する利用者(本例では子供)の撮影を行っている。カメラ1は携帯電話通信網及びインターネット等のネットワークを介した通信を行う機能を備えており、カメラ1は撮影した画像をサーバ装置3へ送信する。
サーバ装置3は、ネットワークを介してカメラ1から画像を受信し、受信した画像を記憶装置に記憶して蓄積する。またサーバ装置3は、施設100の利用者(本例では子供、子供の保護者又は保育士等)に対応付けられたスマートフォン又はPC(パーソナルコンピュータ)等の端末装置5へ、蓄積した画像を送信する。これにより例えば保育園又は幼稚園等の施設100に子供を預けている保護者は、施設100で過ごす子供の様子をカメラ1にて撮影した画像を自身の端末装置5にて閲覧することができる。また例えば施設100の保育士等は、子供の写真を撮影するという業務を行うことなく、施設100で過ごす子供の様子をカメラ1にて撮影した画像を端末装置5にて取得することができ、例えばフォトアルバムの作成又は施設100内での写真の掲示等を行うことができる。
例えば施設100に設置されたカメラ1が1日に自動的に撮影する画像は数千枚~数十万枚であり、この大量の撮影画像の全てを利用者に提供しても、利用者が画像の管理等を行うことは容易ではない。そこで本実施の形態に係る情報処理システムでは、カメラ1が撮影した大量の画像から適宜に画像を選別し、例えば1日に数十枚~数百枚の画像をサーバ装置3が記憶して蓄積する。またサーバ装置3は、蓄積した画像の中から例えば利用者毎に適した画像を選択して端末装置5へ送信する。これにより利用者が端末装置5にて閲覧又は取得等する画像は、1日に数十枚~数百枚程度となる。なお画像の枚数は一例であって、これに限るものではない。
またカメラ1が撮影した大量の画像の全てをサーバ装置3へ送信する場合、カメラ1及びサーバ装置3の間の通信量が増大し、ネットワークの通信負荷が増大する虞がある。そこで本実施の形態に係る情報処理システムでは、画像処理及び情報処理等を行うことが可能なカメラ1を用いて、カメラ1にて画像を選別する処理を行い、大量の画像から選別された小量の画像のみをサーバ装置3へ送信する。撮影した全ての画像に対して枚数を例えば百分の一に低減してカメラ1からサーバ装置3へ送信することで、カメラ1及びサーバ装置3の間のネットワークの負荷は、全ての画像を送信する場合と比較して百分の一程度に低減することが期待できる。
本実施の形態に係るカメラ1は、例えば撮影した画像から人(子供)を検出する処理を行い、人が写されている画像を選別し、人が写されていない画像を除去する。またカメラ1は、人が写されている画像のうち、例えば写されている人がおむつをしている画像、着替え中の画像又は裸の画像等のように、プライバシーに関して不適切な画像を除去してもよい。またカメラ1は、人が写されている画像について人の顔を検出する処理、顔の表情を検出する処理、及び、顔の向きを検出する処理等を行い、これらの処理結果に基づいて画像の選別を行ってもよい。これにより例えばカメラ1は、正面を向いた笑顔が写された画像を選別してサーバ装置3へ送信することができる。なおカメラ1は、これら以外の種々の条件に基づいてサーバ装置3へ送信する画像の選別を行ってよい。
本実施の形態に係るサーバ装置3は、カメラ1から受信した画像を記憶して蓄積すると共に、これらの画像に対して種々の画像処理及び情報処理を行い、利用者の端末装置5へ画像を送信する。例えばサーバ装置3は、画像に写された人がどのような行動をしているかを判断する行動認識の処理を行い、子供がハイハイをしている画像又は食事をしている画像等のように特定シーンの画像を選別して端末装置5へ送信してもよい。また例えばサーバ装置3は、画像に写された人が誰であるかを判断する処理を行い、子供が写された画像をその保護者の端末装置5へ送信してもよい。また例えばサーバ装置3は、画像全体に対して写されている人が小さい場合に、画像からこの人が写された画像領域を抽出し、抽出した画像領域の解像度を高めて拡大する画像処理を行って、拡大した画像を端末装置5へ送信してもよい。なおサーバ装置3は、これら以外の種々の条件に基づいて端末装置5へ送信する画像の選別を行ってよい。
また本実施の形態に係る情報処理システムでは、利用者毎にこの利用者が写された画像が選別された数をカウントし、利用者毎の画像の数が均一となるように、画像の選別を行う。利用者毎の画像数を均一化する処理は、カメラ1が行ってもよく、サーバ装置3が行ってもよい。本実施の形態に係る情報処理システムでは、カメラ1が利用者毎の画像数を均一化するよう選別した画像をサーバ装置3へ送信すると共に、サーバ装置3においても利用者毎の画像数を均一化するよう選別して画像を記憶する。これは、1つの施設100に複数のカメラ1が設置されている場合に、各カメラ1で均一化を行うと共に、サーバ装置3が複数のカメラ1から受信した画像を対象に均一化を行うことを想定している。1つの施設100に1つのカメラ1のみが設置される場合には、カメラ1又はサーバ装置3のいずれか一方でのみ均一化を行ってもよい。
サーバ装置3から端末装置5への画像の送信は、どのような態様で行われてもよい。例えばサーバ装置3は、1日の定められた時刻に、その日に撮影された画像を端末装置5へ送信してもよい。これは、いわゆるプッシュ型の情報送信の方法である。また例えば、サーバ装置3は日時等に基づいて画像を分類して記憶し、端末装置5からの要求に応じてサーバ装置3が画像を送信してもよい。これは、いわゆるプル型の情報送信の方法であり、端末装置5は送信を要求する画像についての条件を指定することが可能であってもよい。条件には、例えば撮影された日時を指定する条件、笑顔又は泣き顔等の表情を指定する条件、ハイハイ又は食事等の行動を指定する条件、及び、我が子等の特定の人を指定する条件等が含まれ得る。サーバ装置3は、蓄積した画像の中から、指定された条件を満たす画像を選別して要求元の端末装置5へ送信する。
また本実施の形態に係る情報処理システムでは、利用者が自ら撮影した画像を条件として与えることにより、この画像に写された人と同じ人(同じ又は類似の特徴を有する人)が写された画像の送信をサーバ装置3に要求することができる。利用者は例えば我が子を撮影した画像を端末装置5に読み込ませる操作を行い、端末装置5はこの画像に写された人の特徴を抽出する処理を行い、抽出した特徴を示すデータをサーバ装置3へ送信する。サーバ装置3は、端末装置5から受信した特徴のデータに基づいて、記憶した画像に写された人の特徴との比較を行い、特徴が一致する又は類似する人が写された画像を選別して端末装置5へ送信する。これにより、利用者が多くの画像の中から所望の人が写された画像を取得することを容易化することが期待できる。
なお本例では保育園又は幼稚園等の施設100にて子供の撮影を行う場合について説明したが、本実施の形態に係る情報処理システムの適用は保育園又は幼稚園等の施設100に限られない。施設100は、例えば遊園地又はテーマパーク等の商業施設であってもよく、また例えばスポーツ又はイベント等が開催される会場等の施設であってもよく、また例えば利用者の自宅であってもよい。またカメラ1による撮影対象は、人でなくてもよく、例えば動物園の動物又は自宅のペット等であってもよい。
<装置構成>
図2は、本実施の形態に係るカメラ1の構成を示すブロック図である。本実施の形態に係るカメラ1は、いわゆるエッジカメラ、AI(Artificial Intelligence)エッジカメラ又はエッジAIカメラ等の名称で呼ばれ得る装置であり、画像の撮影を行う撮影部11と共に、高度な演算処理を行う情報処理装置20を装置内に備えている。
撮影部11は、レンズ及び撮像素子等を備えて構成されている。撮像素子は、例えばCCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)等であり、レンズが収束した像を撮影し、撮影により得られる画像のデータを出力する。本実施の形態において撮影部11は、撮影により得られる画像のデータを圧縮することなく、例えばビットマップ形式等のような非圧縮の画像データとして情報処理装置20へ出力する。
情報処理装置20は、カメラ1の各部の動作を制御すると共に、撮影部11の撮影により得られた画像を利用する種々の処理を行う。本実施の形態に係る情報処理装置20は、処理部21、入出力部22、記憶部23及び通信部24等を備えて構成されている。処理部21は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)又はGPU(Graphics Processing Unit)等の演算処理装置、ROM(Read Only Memory)、及び、RAM(Random Access Memory)等を用いて構成されている。処理部21は、記憶部23に記憶されたプログラム23aを読み出して実行することにより、撮影部11による撮影を制御する処理、及び、撮影により得られた画像を選別する処理等の種々の処理を行う。
入出力部22は、撮影部11との間でデータの入出力を行う。入出力部22は、例えば信号線を介して撮影部11と接続されており、信号線を介したシリアル通信又はパラレル通信等によりデータの入出力を行う。入出力部22は、処理部21から与えられた制御命令等のデータを撮影部11へ送信すると共に、撮影部11から入力された画像のデータを処理部21へ与える。
記憶部23は、例えばフラッシュメモリ又はEEPROM(Electrically Erasable Programmable Read Only Memory)等の不揮発性のメモリ素子を用いて構成されている。記憶部23は、処理部21が実行する各種のプログラム、及び、処理部21の処理に必要な各種のデータを記憶する。本実施の形態において記憶部23は、処理部21が実行するプログラム23aを記憶する。また記憶部23は、撮影部11が撮影した画像のデータ等を記憶してもよい。
本実施の形態においてプログラム23aは、例えばカメラ1の製造段階において記憶部23に書き込まれる。また例えばプログラム23aは、遠隔のサーバ装置等が配信するものをカメラ1が通信にて取得してもよい。また例えばプログラム23aは、メモリカード又は光ディスク等の記録媒体に記録された態様で提供され、カメラ1は記録媒体からプログラム23aを読み出して記憶部23に記憶してもよい。また例えばプログラム23aは、記録媒体に記録されたものを書込装置が読み出してカメラ1の記憶部23に書き込んでもよい。プログラム23aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体に記録された態様で提供されてもよい。
通信部24は、携帯電話通信網、無線LAN(Local Area Network)又はインターネット等のネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部24は、サーバ装置3との間で通信を行い、撮影部11が撮影した画像のデータをサーバ装置3へ送信する。通信部24は、処理部21から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部21へ与える。
また本実施の形態に係るカメラ1の処理部21には、記憶部23に記憶されたプログラム23aを処理部21が読み出して実行することにより、人検出部21a、不適切画像検出部21b、顔検出部21c、表情向き検出部21d、画像選別部21e及び画像送信処理部21f等がソフトウェア的な機能部として実現される。
人検出部21aは、撮影部11が撮影した画像に写された人を検出する処理を行う。また本実施の形態に係るカメラ1は、撮影部11から取得した非圧縮の撮影画像のデータを基に、この画像を圧縮した圧縮画像のデータを生成し、生成した圧縮画像を基に人検出部21aが人を検出する処理を行う。人検出部21aは、例えば予め機械学習がなされた学習モデルを用いて、画像から人を検出する。学習モデルは、例えば画像のデータを入力として受け付けて、この画像に含まれる人が写された画像領域(を示す座標等のデータ)を出力するように予め機械学習がなされる。学習モデルは、例えば画像のデータと、この画像に含まれる人が写された画像領域を示すデータとが対応付けられた教師データを用いて機械学習がなされる。また保育園又は幼稚園等の施設100にて撮影された画像を基に検出する対象の人を子供とする場合、子供が写された画像データを用いて教師データを作成することにより、子供の検出精度を高めることが期待できる。人検出部21aは、撮影部11が撮影した画像を圧縮した圧縮画像を学習モデルへ入力し、学習モデルが出力する人の検出結果を取得して、取得した検出結果を顔検出部21cへ与える。また人検出部21aは、画像から人が検出されなかった場合、即ち画像に人が写されていない場合、この画像を除去して後続の処理の対象から外す。
不適切画像検出部21bは、撮影部11が撮影した画像から不適切と判断される画像を検出して除去する処理を行う。本実施の形態において不適切な画像は、例えば施設100として保育園又は幼稚園等にカメラ1が設置される場合、子供がおむつをしている姿が映された画像、裸(上半身のみ裸又は下半身のみ裸等を含む)の姿の子供が写された画像、及び、着替え中の子供が写された画像等のように、写された子供のプライバシー等に関わる画像が含まれる。不適切画像検出部21bは、例えば予め機械学習がなされた学習モデルを用いて、画像が不適切であるか否かを判定する。学習モデルは、例えば画像のデータを入力として受け付けて、この画像がどの程度適切であるかを示す適切度等の数値を出力するように予め機械学習がなされる。学習モデルは、例えば画像のデータと、この画像が適切であるか否かを示すラベル(適切であればラベル1、不適切であればラベル0など)とを対応付けた教師データを用いて機械学習がなされる。不適切な画像の特徴を学習モデルに予め学習させておくことで、不適切な画像と同じ又は類似する特徴を有する画像を学習モデルが判別することが可能となる。本実施の形態において不適切画像検出部21bは、撮影部11が撮影した非圧縮の画像のデータを学習モデルへ入力し、学習モデルが出力する適切度を取得し、取得した適切度が予め定められた閾値を超えるか否かに応じて画像が適切であるか否かを判断する。不適切画像検出部21bは、適正ではない、即ち不適切であると判断した画像を除去して後続の処理の対象から外す。
顔検出部21cは、人検出部21aによる人検出結果を利用して、撮影部11が撮影した画像に写された人の顔を検出する処理を行う。顔検出部21cは、例えば予め機械学習がなされた学習モデルを用いて、画像から人の顔を検出する。学習モデルは、例えば画像のデータと人検出結果とを入力として受け付けて、この画像に含まれる人の顔が写された画像領域を出力するように予め機械学習がなされる。又は、画像から人が写された画像領域を抽出したデータを学習モデルへの入力としてもよい。学習モデルは、例えば画像のデータ及び人検出結果のデータと、この画像に含まれる人の顔が写された画像領域を示すデータとが対応付けられた教師データを用いて機械学習がなされる。顔検出部21cは、撮影部11が撮影した非圧縮の画像のデータと、人検出部21aによる人検出結果のデータとを学習モデルへ入力し、学習モデルが出力する人の顔の検出結果を取得して、取得した検出結果を表情向き検出部21dへ与える。
表情向き検出部21dは、顔検出部21cによる人の顔の検出結果を利用して、検出された人の顔の表情を検出する処理、及び、検出された人の顔の向きを検出する処理を行う。本実施の形態において表情向き検出部21dは、顔の表情として笑顔を検出するものとするが、これに限るものではなく、笑顔以外の表情を検出してもよい。表情を検出する処理において表情向き検出部21dは、例えば予め機械学習がなされた学習モデルを用いて、画像に写された人の顔の表情を検出する。学習モデルは、例えば画像のデータと顔検出結果とを入力として受け付けて、この画像に写された人の顔の表情が笑顔である確信度を出力するように予め機械学習がなされる。又は、画像から人の顔が写された画像領域を抽出したデータを学習モデルへの入力としてもよい。学習モデルは、例えば画像のデータ及び顔検出結果のデータと、この画像に写された人の顔の表情が笑顔であるか否かを示すラベル(笑顔であればラベル1、笑顔でなければラベル0など)とを対応付けた教師データを用いて機械学習がなされる。本実施の形態において表情向き検出部21dは、撮影部11が撮影した非圧縮の画像のデータと顔検出部21cによる顔検出の結果のデータとを学習モデルへ入力し、学習モデルが出力する笑顔の確信度を取得し、取得した確信度が予め定められた閾値を超えるか否かに応じて、表情が笑顔であるか否かを判断する。
また顔の向きを検出する処理において表情向き検出部21dは、例えば検出された人の顔から目、口及び鼻等の位置を検出し、検出した各部位の位置関係などに基づいて顔の向きを判断する。表情向き検出部21dは、例えば正面向きを0°とし、左右に±90°の範囲で顔の向きを角度の数値として出力してもよく、また例えば顔の向きが正面を向いているか否かを二値情報として出力してもよく、また例えば顔の向きが正面である確信度を出力してもよく、これら以外の情報を顔の向きの検出結果として出力してもよい。
又は、表情向き検出部21dは、予め機械学習がなされた学習モデルを用いて、人の顔の向きを検出してもよい。学習モデルは、例えば画像のデータと顔検出結果とを入力として受け付けて、この画像に写された人の顔の向きが正面である確信度を出力するように予め機械学習がなされる。又は、画像から人の顔が写された画像領域を抽出したデータを学習モデルへの入力としてもよい。学習モデルは、例えば画像のデータ及び顔検出結果のデータと、この画像に写された人の顔の向きが正面であるか否かを示すラベル(正面であればラベル1、正面でなければラベル0など)とを対応付けた教師データを用いて機械学習がなされる。本実施の形態において表情向き検出部21dは、撮影部11が撮影した非圧縮の画像のデータと顔検出部21cによる顔検出の結果のデータとを学習モデルへ入力し、学習モデルが出力する顔の向きが正面である確信度を取得し、取得した確信度が予め定められた閾値を超えるか否かに応じて、顔の向きが正面であるか否かを判断する。
画像選別部21eは、表情向き検出部21dが検出した人の顔の表情及び向きに基づいて、サーバ装置3へ送信する画像と、サーバ装置3へ送信せずに除去する画像とを選別する処理を行う。本実施の形態において画像選別部21eは、例えば画像に写された人の顔が正面を向いており、且つ、表情が笑顔である画像をサーバ装置3へ送信する画像とし、これ以外の画像を除去する。なお画像の選別の条件は一例であって、これに限るものではない。画像選別部21eは、送信するものと選別した画像を、画像送信処理部21fへ与える。
画像送信処理部21fは、画像選別部21eが送信すると選別した画像をサーバ装置3へ送信する処理を行う。また画像送信処理部21fは、送信する画像について、人検出部21aによる人の検出結果、顔検出部21cによる顔の検出結果、表情向き検出部21dによる顔の表情及び向きの検出結果に関するデータを取得し、取得したこれらのデータをいわゆるメタデータとして画像に付してサーバ装置3へ送信する。また画像に付すデータには、画像の撮影日時、カメラ1に付されたカメラID、及び、カメラ1が設置された施設100の施設ID等の情報が含まれ得る。
なお、本実施の形態に係るカメラ1が用いる種々の学習モデルの機械学習は、カメラ1が行ってもよく、カメラ1以外の装置が行ってもよい。学習モデルは、入力値に対して所定の演算を行い、演算結果を出力するものであり、記憶部23にはこの演算を規定する関数の係数及び閾値等のデータが学習モデルとして記憶される。学習モデルは、例えば複数のニューロンが相互に結合したニューラルネットワークの構造をなす。ニューロンは複数の入力に対して演算を行い、演算結果として1つの値を出力する素子である。ニューロンは、演算に用いられる重み付けの係数及び閾値等の情報を有している。ニューラルネットワークの学習モデルは、一又は複数のデータの入力を受け付ける入力層と、入力層にて受け付けられたデータに対して演算処理を行う中間層と、中間層の演算結果を集約して一又は複数の値を出力する出力層とを備えている。深層学習及び強化学習等の機械学習の処理は、予め与えられた多数の教師データを用いて、ニューラルネットワークを構成する各ニューロンの係数及び閾値等に適切な値を設定する処理である。カメラ1が用いる学習モデルは、例えばニューラルネットワークの学習モデルに対して教師データを用いた深層学習がなされた学習済のモデルであり、例えば勾配降下法、確率的勾配降下法又は誤差逆伝播法等の手法により学習がなされる。なお学習モデルを機械学習する処理の詳細は、既存の技術であるため省略する。また学習モデルはニューラルネットワークの構造でなくてもよく、例えばSVM(Support Vector Machine)又は決定木等であってもよい。
また本実施の形態においてカメラ1は、人検出部21aによる人の検出処理を撮影した画像を圧縮した圧縮画像で行い、これ以外の処理については非圧縮の画像で行う。カメラ1からサーバ装置3へ送信する画像は、非圧縮の画像のデータである。ただし、人検出部21aの検出処理を非圧縮の画像で行ってもよく、不適切画像検出部21b、顔検出部21c又は表情向き検出部21dの検出処理を圧縮画像で行ってもよい。カメラ1からサーバ装置3へ送信する画像は非圧縮であることが好ましいが、圧縮画像であってもよい。又は、カメラ1からサーバ装置3へ可逆圧縮の方式で画像を圧縮して送信してもよく、この場合にはサーバ装置3にて受信した圧縮画像を展開する処理を行って元の画像を取得する。
図3は、本実施の形態に係るサーバ装置3の構成を示すブロック図である。本実施の形態に係るサーバ装置3は、処理部31、記憶部(ストレージ)32及び通信部(トランシーバ)33等を備えて構成されている。なお本実施の形態においては、1つのサーバ装置にて処理が行われるものとして説明を行うが、複数のサーバ装置が分散して処理を行ってもよい。
処理部31は、CPU、MPU又はGPU等の演算処理装置、ROM及びRAM等を用いて構成されている。処理部31は、記憶部32に記憶されたサーバプログラム32aを読み出して実行することにより、カメラ1から受信した画像を選別する処理、選別した画像を記憶して蓄積する処理、及び、選別した画像を利用者の端末装置5へ送信する処理等の種々の処理を行う。
記憶部32は、例えばハードディスク等の大容量の記憶装置を用いて構成されている。記憶部32は、処理部31が実行する各種のプログラム、及び、処理部31の処理に必要な各種のデータを記憶する。本実施の形態において記憶部32は、処理部31が実行するサーバプログラム32aを記憶すると共に、カメラ1から受信した画像を記憶して蓄積する画像記憶部32bと、利用者に関する情報を記憶するユーザDB(データベース)32cとが設けられている。
本実施の形態においてサーバプログラム32aは、メモリカード又は光ディスク等の記録媒体99に記録された態様で提供され、サーバ装置3は記録媒体99からサーバプログラム32aを読み出して記憶部32に記憶する。ただし、サーバプログラム32aは、例えばサーバ装置3の製造段階において記憶部32に書き込まれてもよい。また例えばサーバプログラム32aは、遠隔の他のサーバ装置等が配信するものをサーバ装置3が通信にて取得してもよい。例えばサーバプログラム32aは、記録媒体99に記録されたものを書込装置が読み出してサーバ装置3の記憶部32に書き込んでもよい。サーバプログラム32aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体99に記録された態様で提供されてもよい。
画像記憶部32bは、カメラ1から受信し、サーバ装置3にて選別された画像を記憶する。画像記憶部32bは、例えばカメラ1が設置された施設100のID、カメラ1が複数設置される場合には各カメラ1のID、及び、画像が撮影された日時等により複数の画像を分類して記憶する。なお本実施の形態においては、カメラ1からサーバ装置3へ非圧縮の画像が送信されるが、受信した画像に対するサーバ装置3の各種の検出及び判定等の処理を終えた後であれば、画像記憶部32bに記憶する画像及び端末装置5へ送信する画像は受信した画像を圧縮した画像であってもよい。
ユーザDB32cは、本実施の形態に係る情報処理システムが提供するサービスについて利用登録を行った利用者に関する情報を記憶するデータベースである。ユーザDB32cには、例えば利用者として保護者の名前及びID等、子供の名前及びID等、施設100のID、並びに、画像の送信先(例えば端末装置5のID又はメールアドレス等)の情報が対応付けて記憶される。またユーザDB32cには、カメラ1による撮影の被写体となり得る人、本例において子供の顔写真等の画像又はこのような画像から抽出された子供の特徴に関するデータ等が記憶されてもよい。
サーバ装置3の通信部33は、携帯電話通信網、無線LAN及びインターネット等を含むネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部33は、ネットワークNを介して、カメラ1及び端末装置5との間で通信を行う。通信部33は、処理部31から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部31へ与える。
なお記憶部32は、サーバ装置3に接続された外部記憶装置であってよい。またサーバ装置3は、複数のコンピュータを含んで構成されるマルチコンピュータであってよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。またサーバ装置3は、上記の構成に限定されず、例えば可搬型の記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、又は、画像を表示する表示部等を含んでもよい。
また本実施の形態に係るサーバ装置3には、記憶部32に記憶されたサーバプログラム32aを処理部31が読み出して実行することにより、画像受信処理部31a、行動判定部31b、ID付与部31c、画像選別部31d、画像補正部31e及び画像送信処理部31f等が、ソフトウェア的な機能部として処理部31に実現される。
画像受信処理部31aは、カメラ1が送信する画像を通信部33にて受信する処理を行う。例えば画像受信処理部31aは、受信した画像に付されたデータに基づいて、画像の撮影日時、撮影したカメラ1のID及びカメラ1が設置された施設100のID等に対応付けて、画像を分類して記憶部32に一時的に記憶する。なお画像受信処理部31aによって記憶部32に一時的に記憶された画像は、画像選別処理により選別がなされ、記憶部32の画像記憶部32bに記憶して蓄積されるか、又は、記憶部32から消去される。
行動判定部31bは、カメラ1から受信した画像に写された人がどのような行動を行っているかを判定する処理を行う。行動判定部31bは、例えば予め機械学習がなされた学習モデルを用いて、画像に写された人の行動を判定する。学習モデルは、例えば画像のデータを入力として受け付け、この画像に写された人の行動が所定の行動である確信度を出力するように予め機械学習がなされる。本実施の形態においては、所定の行動として例えばハイハイをしている確信度を出力する学習モデル、及び、食事をしている確信度を出力する学習モデル等のように、行動毎に学習モデルが予め作成される。学習モデルは、例えば画像のデータと、この画像に写された人が所定の行動を行っているか否かを示すラベルとを対応付けた教師データを用いて機械学習がなされる。本実施の形態において行動判定部31bは、カメラ1から受信した画像のデータを各学習モデルへ入力し、学習モデルが出力する各行動の確信度を取得する。行動判定部31bは、複数の行動に関する確信度を比較し、最も確信度が高い行動を、画像に写された人が行っている行動と判定する。行動判定部31bは、判定結果に関するデータを画像に付す。
ID付与部31cは、カメラ1から受信した画像に写された人を識別するIDを付与する処理を行う。ID付与部31cは、例えば画像に写された人の顔の特徴量を抽出し、ユーザDB32cに登録された顔の画像又はこの画像から抽出した特徴量との比較を行う。ID付与部31cは、カメラ1の画像に写された人の顔の特徴量と一致する又は類似する特徴量がユーザDB32cに登録されている利用者(子供)を検索し、該当する利用者のIDをこの画像に付す。ID付与部31cは、例えば顔の画像を入力として受け付けて、この顔の特徴量として多次元のベクトル情報を出力する学習モデルを用いて、カメラ1が撮影した画像に写された人の顔の特徴量の抽出を行う。ユーザDB32cに顔の特徴量を登録する際にも、同じ学習モデルを用いることができる。ID付与部31cは、例えば2つの特徴量に対応する2つのベクトルの距離等を算出し、この距離が閾値以下であり、且つ、距離が最も小さいものを、顔の特徴が一致する又は類似すると判断することができる。
画像選別部31dは、カメラ1から受信し、行動判定部31bによる行動判定及びID付与部31cによるID付与が行われた画像について、この画像に付された情報に基づく選別を行う。なお本実施の形態において画像選別部31dは、行動判定部31b及びID付与部31cの処理により付される情報のみではなく、カメラ1にて行われて種々の処理に基づいて画像に付された情報を利用して、この画像を記憶するか除去するかの選別を行う。画像選別部31dは、画像に付された情報に含まれる例えば笑顔の確信度、顔の向きに関する確信度、及び、行動判定に関する確信度等の情報に基づいて、この画像に対するスコアリング(採点)を行って、画像のスコアが閾値を超えるか否かに基づいて選別を行う。スコアリングは、例えば笑顔の確信度が0~1の範囲である場合に、確信度を10倍して小数点以下を四捨五入して得られる0~10の値を笑顔のスコアとすることができる。行動判定部31bは、複数の情報に基づいてそれぞれスコアリングを行い、複数のスコアの合計値を画像のスコアとすることができる。なおスコアリングの方法はこれに限るものではなく、種々の方法が採用され得る。行動判定部31bは、例えば笑顔のスコアを20点満点とし、顔の向きのスコアを10点満点とするなど、情報の種類に応じた重み付けを行ってもよい。
また画像選別部31dは、ID付与部31cが付与したIDに基づいて、利用者(子供)毎に撮影された画像の枚数をカウントし、1日等の所定期間に画像記憶部32bに記憶して蓄積する画像数を均一化するように、選別する画像の枚数を調整する。本実施の形態において画像選別部31dは、利用者毎の画像の枚数調整を、上記のスコアリングにおいて算出した画像のスコアと比較する閾値を増減することで行う。画像選別部31dは、例えばカメラ1により撮影された(カメラ1から受信した)画像の枚数が少ない利用者について、スコアと比較する閾値の値を下げることで、この利用者が写された画像が選別される可能性を高め、選別される画像の数を増加させる。また画像選別部31dは、画像が多い利用者について、スコアと比較する閾値を上げることで、この利用者が写された画像が選別される可能性を低減し、選別される画像の数を減少させる。
画像選別部31dは、各画像について算出したスコアと閾値とを比較し、閾値を超えるスコアが付された画像を画像記憶部32bに記憶して蓄積する。なお画像選別部31dによる画像の選別は、例えばカメラ1からの画像を受信する都度に、受信した画像に対して行ってもよく、また例えば1日に1回等の所定のタイミングでその日に受信した画像についてまとめて行ってもよい。いずれの場合であっても、サーバ装置3は、カメラ1から受信した画像を、画像選別部31dによる選別がなされるまで記憶部32に一時的に記憶しておく。画像選別部31dは、スコア及び閾値との比較に基づく選別の結果、画像記憶部32bに記憶しないと判断した画像については、記憶部32から消去(除去)してよい。
画像補正部31eは、カメラ1から受信した画像に対する画像補正の処理を行う。画像補正部31eは、例えばカメラ1から受信した画像がピンボケ等により不鮮明である場合に、画像を鮮明化する画像処理を行う。また画像補正部31eは、例えば画像の端に写されている利用者について、この利用者及び周囲の所定範囲の画像領域を抽出し、抽出した画像領域を拡大して新たな画像として扱う。このときに画像補正部31eは、拡大した画像の画質が低減することを抑制すべく、画素間の画素値を補間して解像度を増す技術、いわゆる超解像度技術を用いた画像の拡大を行う。なお超解像度技術は、既存の技術であるため詳細な説明が省略するが、近年では深層学習を用いた超解像度技術が普及しており、本実施の形態に係るサーバ装置3もこの超解像度技術を用いてよい。また画像補正部31eによる画像の補正は、どのようなタイミングで行われてもよく、例えばカメラ1から画像を受信したタイミングで行われてもよく、また例えば画像選別部31dにより画像記憶部32bに記憶すると選別された後のタイミングで行われてもよい。
画像送信処理部31fは、画像記憶部32bに記憶した画像を利用者の端末装置5へ送信する処理を行う。画像送信処理部31fは、どのようなタイミングで、どのような方法で、どの程度の枚数の画像を端末装置5へ送信してもよい。例えば画像送信処理部31fは、1日に1回の所定タイミングで、子供が撮影された画像を、この子供の保護者の端末装置5へ送信してもよい。このときに画像送信処理部31fは、ID付与部31cが画像に付したIDに基づいて、画像に写された利用者(子供)が誰であるかをユーザDB32cに登録されたIDを参照して判断し、この利用者に対応付けられた端末装置5へ画像を送信する。また例えば画像送信処理部31fは、端末装置5からの要求に基づいて画像記憶部32bから画像を読み出して要求元の端末装置5へ画像を送信してもよい。
図4は、本実施の形態に係る端末装置5の構成を示すブロック図である。本実施の形態に係る端末装置5は、処理部51、記憶部(ストレージ)52、通信部(トランシーバ)53、表示部(ディスプレイ)54及び操作部55等を備えて構成されている。端末装置5は、対象者を見守る家族又は後見人等のユーザが使用する装置であり、例えばスマートフォン、タブレット型端末装置又はパーソナルコンピュータ等の情報処理装置を用いて構成され得る。
処理部51は、CPU又はMPU等の演算処理装置、ROM及び等を用いて構成されている。処理部51は、記憶部52に記憶されたプログラム52aを読み出して実行することにより、サーバ装置3から送信される画像を受信する処理、受信した画像を表示する処理、及び、サーバ装置3が記憶している画像を検索する処理等の種々の処理を行う。
記憶部52は、例えばフラッシュメモリ等の不揮発性のメモリ素子を用いて構成されている。記憶部52は、処理部51が実行する各種のプログラム、及び、処理部51の処理に必要な各種のデータを記憶する。本実施の形態において記憶部52は、処理部51が実行するプログラム52aを記憶している。本実施の形態においてプログラム52aは遠隔のサーバ装置等により配信され、これを端末装置5が通信にて取得し、記憶部52に記憶する。ただしプログラム52aは、例えば端末装置5の製造段階において記憶部52に書き込まれてもよい。例えばプログラム52aは、メモリカード又は光ディスク等の記録媒体98に記録されたプログラム52aを端末装置5が読み出して記憶部52に記憶してもよい。例えばプログラム52aは、記録媒体98に記録されたものを書込装置が読み出して端末装置5の記憶部52に書き込んでもよい。プログラム52aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体98に記録された態様で提供されてもよい。
通信部53は、携帯電話通信網、無線LAN及びインターネット等を含むネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部53は、ネットワークNを介して、サーバ装置3との間で通信を行う。通信部53は、処理部51から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部51へ与える。
表示部54は、液晶ディスプレイ等を用いて構成されており、処理部51の処理に基づいて種々の画像及び文字等を表示する。操作部55は、ユーザの操作を受け付け、受け付けた操作を処理部51へ通知する。例えば操作部55は、機械式のボタン又は表示部54の表面に設けられたタッチパネル等の入力デバイスによりユーザの操作を受け付ける。また例えば操作部55は、マウス及びキーボード等の入力デバイスであってよく、これらの入力デバイスは端末装置5に対して取り外すことが可能な構成であってもよい。
また本実施の形態に係る端末装置5は、記憶部52に記憶されたプログラム52aを処理部51が読み出して実行することにより、画像受信処理部51a及び画像検索処理部51b等がソフトウェア的な機能部として処理部51に実現される。なおプログラム52aは、本実施の形態に係る情報処理システムに専用のプログラムであってもよく、インターネットブラウザ又はウェブブラウザ等の汎用のプログラムであってもよい。
画像受信処理部51aは、サーバ装置3が送信する画像を通信部53にて受信する処理を行う。画像受信処理部51aは、例えばサーバ装置3がプッシュ送信する画像を受信した場合に、表示部54にメッセージ表示等を行うことによって、画像の受信を通知する処理を行う。また画像受信処理部51aは、サーバ装置3から受信した画像を記憶部52に記憶すると共に、表示部54に表示する処理を行う。
画像検索処理部51bは、サーバ装置3が画像記憶部32bに記憶して蓄積した複数の画像の中から、利用者が望む条件の画像を検索するための処理を行う。画像検索処理部51bは、例えば検索条件の入力画面を表示部54に表示して、利用者による検索条件の入力を受け付ける。画像検索処理部51bは、例えば笑顔の画像、ハイハイ等の特定の行動をしている画像、又は、特定の日時の画像等のように、利用者から種々の検索条件の入力を受け付ける。画像検索処理部51bは、受け付けた検索条件を含む検索要求をサーバ装置3へ送信する。この検索要求に応じてサーバ装置3が検索条件に適合する画像を画像記憶部32bから抽出し、抽出した一又は複数の画像を要求元の端末装置5へ送信する。画像検索処理部51bは、サーバ装置3から検索結果として送信された画像を受信して、表示部54に表示する。
<カメラ1による画像選別処理>
本実施の形態に係る情報処理システムでは、施設100に設置されたカメラ1が周期的に撮影を行っている。カメラ1の撮影周期は、例えば1秒に1回~1分に1回等とすることができる。なお本実施の形態においてカメラ1は、静止画像として撮影を行うものとするが、動画像として撮影を行ってもよく、この場合には撮影周期は動画像のフレームレート等により定まる。またカメラ1は、1日中(24時間)に亘って継続的に撮影を行ってもよいが、例えば施設100の営業時間内等に限って撮影を行ってもよい。カメラ1による撮影の開始及び停止は、例えば予め時刻が設定されてもよく、また例えば施設100の従業員の操作等によって行われてもよい。
本実施の形態に係るカメラ1は、撮影した画像が所定の条件(第1の条件)を満たすか否かを判定することによって画像を選別し、所定の条件を満たすと判定した画像をサーバ装置3へ送信し、所定の条件を満たさないと判定した画像を破棄(除去)する。本実施の形態においてカメラ1が判定する条件には、画像中に人が写されていること、不適切な画像ではない事、画像中に写された人の顔の表情が笑顔であること、及び、顔の向きが正面向きであること等の条件が含まれる。
図5は、本実施の形態に係るカメラ1が行う画像選別処理の手順を示すフローチャートである。本実施の形態に係るカメラ1の処理部21は、撮影部11にて撮影を行う(ステップS1)。処理部21は、撮影により得られた画像を記憶部23に一時的に記憶する(ステップS2)。処理部21の人検出部21aは、撮影した画像を圧縮した圧縮画像を生成する(ステップS3)。なお画像を圧縮する方法には、どのような方法が採用されてもよい。人検出部21aは、生成した圧縮画像を基に、この画像に写されている人を検出する人検出処理を行う(ステップS4)。このときに人検出部21aは、画像から人を検出する学習済の学習モデルを利用し、圧縮画像を学習モデルへ入力して、学習モデルが出力する検出結果を取得する。なお人検出処理の終了後、人検出部21aは生成した圧縮画像を破棄してよい。人検出部21aは、ステップS4の処理の結果に基づいて、撮影画像に人が写されているか否かを判定する(ステップS5)。人が写されていない場合(S5:NO)、人検出部21aは、記憶部23に一時的に記憶した撮影画像を除去して(ステップS12)、ステップS1へ処理を戻す。
撮影画像に人が写されている場合(S5:YES)、処理部21の不適切画像検出部21bは、撮影画像が不適切な画像であるか否かを判定する(ステップS6)。このときに不適切画像検出部21bは、画像の適切度を出力する学習済の学習モデルを用い、撮影部11が撮影した(非圧縮の)画像を学習モデルへ入力し、学習モデルが出力する適切度を取得する。不適切画像検出部21bは、取得した適切度が閾値を超えない画像を不適切と判定することができる。撮影画像が不適切であると判定した場合(S6:YES)、不適切画像検出部21bは、記憶部23に一時的に記憶した撮影画像を除去して(ステップS12)、ステップS1へ処理を戻す。
撮影画像が不適切ではないと判定した場合(S6:NO)、処理部21の顔検出部21cは、ステップS4の人検出処理の結果に基づいて、撮影画像から人の顔を検出する顔検出処理を行う(ステップS7)。このときに顔検出部21cは、画像及び人の検出結果に基づいてこの画像に写された人の顔を検出する学習済の学習モデルを利用し、撮影部11が撮影した(非圧縮の)画像を学習モデルへ入力し、学習モデルが出力する顔検出結果を取得する。
次いで、処理部21の表情向き検出部21dは、ステップS7の顔検出処理の結果に基づいて、人の顔の表情を検出する処理を行う(ステップS8)。ここで本実施の形態において表情向き検出部21dは、撮影画像に写された人の表情が笑顔である確信度を算出する。表情向き検出部21dは、画像に写された人の表情が笑顔である確信度を出力する学習済の学習モデルを利用し、撮影部11が撮影した(非圧縮の)画像を学習モデルへ入力し、学習モデルが出力する笑顔の確信度を取得する。表情向き検出部21dは、取得した確信度が閾値を超えるか否かに応じて、画像に写された人の表情が笑顔であるか否かを判定することができる。
また表情向き検出部21dは、ステップS7の顔検出処理の結果に基づいて、人の顔の向きを検出する処理を行う(ステップS9)。ここで本実施の形態において表情向き検出部21dは、撮影画像に写された人の顔が正面向きである確信度を算出する。表情向き検出部21dは、画像に写された人の顔の向きが正面である確信度を出力する学習済の学習モデルを利用し、撮影部11が撮影した(非圧縮の)画像を学習モデルへ入力し、学習モデルが出力する確信度を取得する。表情向き検出部21dは、取得した確信度が閾値を超えるか否かに応じて、画像に写された人の顔の向きが正面であるか否かを判定することができる。
処理部21の画像選別部21eは、ステップS8の表情検出処理の結果及びステップS9の顔の向き検出処理の結果に基づいて、画像に写された人の顔が笑顔であり且つ正面を向いているか否かを判定する(ステップS10)。画像に写された人の顔が笑顔であり且つ正面を向いている場合(S10:YES)、処理部21の画像送信処理部21fは、この画像をサーバ装置3へ送信し(ステップS11)、ステップS1へ処理を戻す。なおこのときに画像送信処理部21fが送信する画像のデータは、撮影部11が撮影した非圧縮の画像であり、ステップS4の人検出処理、ステップS7の顔検出処理、ステップS8の表情検出処理及びステップS9の向き検出処理等の結果に関する情報がメタデータとして付されたものである。また、画像に写された人の顔が笑顔ではない又は正面を向いていない場合(S10:NO)、画像選別部21eは、この画像を除去して(ステップS12)、ステップS1へ処理を戻す。
なお本実施の形態に係るカメラ1が画像を選別する際に判定する条件は、画像中に人が写されていること、不適切な画像ではない事、画像中に写された人の顔の表情が笑顔であること、及び、顔の向きが正面向きであることに限らない。例えばカメラ1が撮影を行う周期が短い場合、同じシーンを撮影した類似の画像が複数枚撮影され、これら複数枚の画像が全て条件を満たすと判定されてサーバ装置3へ送信されることが生じ得る。そこでカメラ1は、時系列的に連続する画像について、同じシーンであるか否かの判定を行い、同じシーンを撮影した複数の画像についてはこの中から代表の1枚を選別してサーバ装置3へ送信してもよい。
図6は、カメラ1による同一シーン判定を説明するための模式図である。本実施の形態に係るカメラ1は、時系列的に連続する2つの画像を比較し、両画像に写されている人の数の変化と、写されている人の画像間での移動距離とに基づいて、2つの画像が同一シーンであるか否かを判定する。本実施の形態においてカメラ1は、2つの画像において写されている人の数が変化しておらず、且つ、写されている人の画像間での移動距離が閾値以下である場合に、2つの画像が同一シーンであると判定する。またカメラ1は、2つの画像において写されている人の数が変化するか、又は、写されている人の画像間での移動距離が閾値を超える場合に、2つの画像が同一シーンではないと判定する。
例えばカメラ1は、図6上段に示した時刻t1に撮影された画像1と、図6中段に示した次の時刻t2に撮影された画像2とを比較し、両画像には共に2人の人が写されており、各人の移動距離が閾値以下であると判定して、画像1及び画像2は同一シーンであると判断することができる。また例えば図6中段に示した時刻t2に撮影された画像2と、図6下段に示した次の時刻t3に撮影された画像3とを比較し、画像3に写されている人が3人に増えていること、及び、画像2から画像3の間での人の移動距離が閾値を超えることを判定し、画像2及び画像3は同一シーンではないと判断することができる。
カメラ1は、同一シーンであると判断した複数の画像について、複数の画像から1つの画像を選別する処理を行う。このときにカメラ1は、例えば各画像について笑顔の確信度及び正面を向いている確信度等に基づくスコアリングを行い、最も高いスコアが付された画像を選別する。なお画像の選別方法は、スコアリングによるものに限らず、どのような方法が採用されてもよい。例えば時系列で連続する複数の画像について、最初のタイミング、中央のタイミング又は最後のタイミング等の所定タイミングの画像を選別してもよい。また例えば、画像に写されている人の大きさ、画像全体の面積に対する人が占める割合等に基づいて画像を選別してもよい。
また、カメラ1は、画像に写されている人の顔の特徴を抽出することで人を識別し、1日等の所定期間に撮影された人毎にサーバ装置3へ送信する画像として選別した画像の枚数をカウントし、所定期間にサーバ装置3へ送信する画像数を均一化するように、選別する画像の枚数を調整してもよい。なおカメラ1による人の顔の識別は、施設100の利用者の誰であるかまでを識別する必要はない(即ち、サーバ装置3のユーザDB32cに登録された利用者との一致を判断する必要はない)。カメラ1は、例えば撮影した画像に対して笑顔の確信度及び正面を向いている確信度等に基づくスコアリングを行い、スコアが閾値を超える画像をサーバ装置3へ送信する。このときにカメラ1は、人毎にカウントした画像の枚数に基づいて、例えばサーバ装置3へ送信した画像の枚数が多い人についてはスコアと比較する閾値を上げ、枚数が少ない人については閾値を下げる等の処理を行うことで、サーバ装置3へ送信する画像の枚数を調整することができる。なお送信する画像の枚数の調整方法はこれに限るものではなく、どのような方法が採用されてもよい。
また、カメラ1は、サーバ装置3へ送信する画像に対して、人の検出結果、人の顔の検出結果、顔の表情の検出結果及び顔の向きの検出結果等の情報をメタデータとして付す処理を行う。図7は、カメラ1が送信する画像に付すメタデータの一例を示す模式図である。本例においてカメラ1は、「画像名」、「撮影日時」、「子供フラグ」、「顔検出結果」、「笑顔の確信度」及び「正面の確信度」等の情報をメタデータとして画像に付してサーバ装置3へ送信する。「画像名」は、カメラ1が撮影した画像に対して一意に付される名称であり、例えば所定の文字及び数字等を組み合わせた文字列が適宜に設定される。なお「画像名」はメタデータに含まれていなくてもよい。また撮影日時に基づく名称を画像名とする場合には、メタデータに「撮影日時」の情報が含まれていなくてもよい。「撮影日時」は、撮影部11により画像が撮影された日時を示す情報であり、カメラ1内の時計機能等に基づいて情報が付される。
「人検出結果」は、カメラ1の人検出部21aによる検出結果の情報である。本例では画像中に人が検出された領域を、x座標、y座標、幅(w)及び高さ(h)の4つの値で示している。「顔検出結果」は、カメラ1の顔検出部21cによる検出結果の情報である。本例では人検出結果と同様に、画像中に検出された人の顔の領域を、x座標、y座標、幅(w)及び高さ(h)の4つの値で示している。なお画像に複数の人が検出された場合には、人検出結果及び顔検出結果として複数の領域の情報が画像に付されてよい。
「子供フラグ」は、検出された人が子供であるか、大人であるかを示すフラグである。例えばカメラ1は、撮影した画像に写された人が子供であるか大人であるかを判定する処理を行ってもよく、この処理を行う場合に処理結果として子供であるか否かを示すフラグをメタデータとして画像に付してもよい。画像に写された人が子供であるか否かの判定は、例えば画像に写された人の大きさ、身長等を算出して行うことができ、また例えば学習済の学習モデルを利用して子供であるか否かの判定を行ってもよい。学習モデルは、例えば画像及び人検出結果を入力として受け付けて、画像に写された人が子供である確信度を出力するように予め機械学習が行われたものとすることができる。なお本実施の形態においては、保育園又は幼稚園等の施設100にて子供の写真を撮影することを目的としており、画像に写されている人が大人であると判定された場合には、サーバ装置3へ送信せずに破棄してもよく、この場合には顔検出、表情検出及び向き検出等の処理を行わなくてよい。
「笑顔の確信度」は、カメラ1の表情向き検出部21dによる表情検出の結果の情報であり、0から1までの数値情報である。同様に、「正面の確信度」は、カメラ1の表情向き検出部21dによる顔の向き検出の結果の情報であり、0から1までの数値情報である。これらの数値情報は、検出処理に用いる学習済の学習モデルが出力する値である。
<サーバ装置3による画像選別処理>
本実施の形態に係る情報処理システムでは、施設100に設置された一又は複数のカメラ1が撮影して選別した画像をサーバ装置3へ送信する。カメラ1からの画像を受信したサーバ装置3は、受信した画像が所定の条件(第2の条件)を満たすか否かを判定することによって画像を選別し、所定の条件を満たすと判定した画像を画像記憶部32bに記憶して蓄積すると共に、利用者の端末装置5へ送信する処理を行う。本実施の形態においてサーバ装置3は、カメラ1が画像に付したメタデータに含まれる情報及びサーバ装置3が画像に基づいて判定した種々の判定結果に基づくスコアリングを行い、各画像について算出したスコアが閾値を超えることを条件として画像を選別する。スコアリングには、カメラ1による人の顔の表情及び向き等の検出結果、並びに、サーバ装置3による行動判定の結果等の情報が用いられる。
図8は、本実施の形態に係るサーバ装置3が行う画像選別処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置3の処理部31の画像受信処理部31aは、施設100に設置された一又は複数のカメラ1から画像を受信したか否かを判定する(ステップS21)。画像を受信していない場合(S21:NO)、画像受信処理部31aは、カメラ1からの画像を受信するまで待機する。
カメラ1からの画像を受信した場合(S21:YES)、処理部31の行動判定部31bは、受信した画像に写された人の行動を判定する処理を行う(ステップS22)。このときに行動判定部31bは、画像に写された人が所定の行動を行っている確信度を出力する学習済の学習モデルを複数用い、複数の行動についての確信度を取得し、確信度をメタデータとして画像に付す。次いで処理部31のID付与部31cは、画像に写された人を識別するIDをメタデータとして画像に付与する処理を行う(ステップS23)。このときにID付与部31cは、画像から写されている人の顔の特徴量を抽出し、ユーザDB32cに登録されている利用者の特徴量との比較を行うことで、画像に写されている人と登録済の利用者のIDとの対応を判定する。
次いで処理部31の画像選別部31dは、画像にメタデータとして付された種々の条件に基づいて画像選別処理を行う(ステップS24)。このときに画像選別部31dは、画像に付された種々の条件に基づいて、この画像に対するスコアリングを行い、画像のスコアが閾値を超えるか否かに基づいて画像を選別する。画像選別処理の結果に基づき、画像選別部31dは、この画像を記憶部32の画像記憶部32bに記憶するか否かを判定する(ステップS25)。記憶しないと判定した場合(S25:NO)、画像選別部31dは、この画像を破棄して(ステップS26)、ステップS21へ処理を戻す。
画像を記憶すると判定した場合(S25:YES)、処理部31の画像補正部31eは、必要に応じて画像の補正処理を行う(ステップS27)。ここで画像補正部31eは、不鮮明な画像を鮮明化する画像処理、画像の所定範囲を抽出して拡大する処理、超解像度技術により解像度を高める処理等を行う。次いで処理部31は、画像補正がなされた画像を記憶部32の画像記憶部32bに記憶して(ステップS28)、ステップS21へ処理を戻す。また本フローチャートにおいてサーバ装置3は、カメラ1から画像を受信する毎に、受信した画像を選別しているが、これに限るものではなく、受信した画像を全て記憶しておき、例えば1日に1回の所定タイミングで記憶しておいた全ての画像について選別を行い、不要な画像を破棄してもよい。
本実施の形態に係るサーバ装置3は、例えばカメラ1がメタデータとして画像に付した笑顔の確信度及び顔の向きが正面である確信度と、ステップS22による行動判定にて得られる所定の行動に関する確信度とに基づいて、画像のスコアリングを行う。例えばサーバ装置3は、画像に写されている人がより笑顔でより正面を向いている程、画像に高いスコアを与えることができる。また例えばサーバ装置3は、複数の行動について最も確信度が高い行動がいずれであるかに基づいて画像にスコアを与えることができる。この場合にサーバ装置3は、例えばハイハイの行動に10点、食事の行動に9点、…等のように行動毎に定められたスコアを与えてもよく、また例えば最も高い確信度を10倍した値をスコアとしてもよく、これら以外の方法でスコアを決定してもよい。
また更にサーバ装置3は、例えば人検出結果及び顔検出結果等に基づいて、画像に写されている人の人数、人が写されている位置、及び、写されている人の大きさ等に基づいてスコアを与えてもよい。例えばサーバ装置3は、画像の端に人が小さく写されている場合にはこの画像に対するスコアを低減し、画像の中央に人が大きく写されている場合にはこの画像に対するスコアを増加させることができる。
また本実施の形態に係るサーバ装置3は、例えば1日等の所定期間において、画像記憶部32bに記憶する画像として選別した画像の枚数を、この画像に写されている利用者(子供)毎にカウントし、記憶する画像数を均一化するように、選別する画像の枚数を調整する。サーバ装置3は、上記のように画像に対するスコアリングを行って、画像に対するスコアが閾値を超えるか否かにより画像を選別するが、例えば画像の枚数が少ない利用者が写された画像については、スコアとの比較を行う閾値を低減することで、この利用者が写された画像が選別されて画像記憶部32bに記憶される可能性を高める。また例えばサーバ装置3は、画像選別を1日の終わり等の所定タイミングで一括して行う構成である場合、利用者毎に写された画像のスコア順に所定枚数の画像を選択し、この所定枚数の画像を画像記憶部32bに記憶する画像として選別してもよい。
なお本実施の形態に係る情報処理システムでは、利用者毎の画像の枚数調整をカメラ1及びサーバ装置3の両方で行うことができる。ただしサーバ装置3は、複数のカメラ1が施設100に設置されている場合には、複数のカメラ1から画像を受信する。サーバ装置3は、複数のカメラ1から受信する画像の全てを対象に、利用者毎の画像数のカウントを行って、利用者毎の画像の枚数調整を行うことができる。これに対してカメラ1は、自身が撮影した画像について利用者毎の画像の枚数調整を行う。
なおサーバ装置3は、上記以外のどのような基準を用いて画像のスコアリングを行ってもよい。またサーバ装置3は、スコアリングを行わずに画像の選別を行ってよい。サーバ装置3による画像の選別方法には、どのような方法が採用されてもよい。サーバ装置3は、一又は複数のカメラ1から受信した画像を所定の条件に従って選別し、選別した画像を画像記憶部32bに記憶して蓄積すると共に、利用者(保護者)の端末装置5へ送信する。
図9は、本実施の形態に係るサーバ装置3が行う画像送信処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置3の処理部31の画像送信処理部31fは、例えば1日に1回の画像を送信するタイミングに至ったか否かを判定する(ステップS41)。画像の送信タイミングに至った場合(S41:YES)、画像送信処理部31fは、記憶部32の画像記憶部32bに選別して記憶された画像を読み出す(ステップS42)。画像送信処理部31fは、読み出した画像を対応する端末装置5へ送信し(ステップS43)、ステップS41へ処理を戻す。なおこのときに画像送信処理部31fは、読み出した画像に付されたメタデータに基づいて、この画像に写されている利用者(子供)に対応付けて登録された端末装置5をユーザDB32cから検索し、この端末装置5へ画像を送信する。
画像の送信タイミングに至っていない場合(S41:NO)、画像送信処理部31fは、端末装置5から画像の検索要求を受信したか否かを判定する(ステップS44)。検索要求を受信していない場合(S44:NO)、画像送信処理部31fは、ステップS41へ処理を戻す。検索要求を受信した場合(S44:YES)、画像送信処理部31fは、受信した検索要求に含まれる画像の検索条件を取得する(ステップS45)。処理部31の画像選別部31dは、ステップS45にて取得した検索条件に該当する画像を、画像記憶部32bに記憶された画像の中から選別する(ステップS46)。画像送信処理部31fは、画像記憶部32bから選別された画像を、検索要求の要求元の端末装置5へ送信して(ステップS47)、ステップS41へ処理を戻す。
<端末装置5による画像検索処理>
本実施の形態に係る情報処理システムでは、施設100に設置されたカメラ1が撮影した画像から、カメラ1及びサーバ装置3により選別された画像が利用者の端末装置5へ送信される。例えばカメラ1は午前6時から午後6時まで撮影を行い、サーバ装置3はその日に選別された画像を午後7時に端末装置5へ送信する。端末装置5は、サーバ装置3から送信された画像を受信した場合に、受信した旨を利用者に通知すると共に、利用者の操作等に応じて受信した画像を表示部54に表示する。
また本実施の形態に係る情報処理システムでは、利用者が端末装置5を操作して、サーバ装置3の画像記憶部32bに記憶して蓄積された画像を検索し、検索条件に該当する画像を取得して端末装置5に表示させることができる。端末装置5は、例えばメニュー画面において画像の検索の項目が選択された場合に、表示部54に検索条件の設定画面を表示して、利用者による検索条件の入力を受け付ける。
図10は、端末装置5が表示する検索条件設定画面の一例を示す模式図である。図示の検索条件設定画面では、最上部に「検索条件設定」のタイトル文字列が表示され、その下方に設定可能な一又は複数の条件が並べて表示されている。端末装置5は、例えば「登録画像使用」の条件を使用するか否かの設定を受け付けるチェックボックスを検索条件設定画面に表示する。「登録画像使用」の条件は、例えば保護者が子供を自身で撮影した画像を予め登録しておき、登録された画像に写された人と同じ又は類似する特徴を有する人が写された画像を検索するための条件である。本例では、チェックボックス及び「登録画像使用」の文字列の隣に、「画像登録」のラベルが付されたボタンが表示されており、このボタンに対する操作が行われた場合に端末装置5は、画像の選択画面又は撮影画面等を表示して登録用の画像を取得し、取得した画像又はこの画像から抽出した特徴量をサーバ装置3へ送信して、サーバ装置3のユーザDB32cに画像の登録を行う。
また本例では、「表情設定」として、「笑顔」及び「泣き顔」等の表情を選択するチェックボックスが検索条件設定画面に表示されている。また本例では、「行動設定」として、「ハイハイ」及び「食事」等の行動を選択するチェックボックスが検索条件設定画面に表示されている。端末装置5は、これらのチェックボックスに対するチェックの有無により、表情及び行動に関する検索条件の設定を受け付ける。
なお図示の検索条件設定画面は一例であってこれに限るものではなく、設定可能な選択条件は図示のもの以外に様々な条件が採用され得る。例えば、画像が撮影された日時、画像に対する人の大きさ(占有率)、又は、画像に含まれる人の数等の種々の条件が設定可能であってよい。
端末装置5は、検索条件設定画面にて設定された検索条件に関する情報を含む検索要求をサーバ装置3へ送信する。サーバ装置3は、端末装置5からの検索要求に含まれる検索条件に基づいて画像記憶部32bに記憶された画像を選別し、要求元の端末装置5へ選別した画像を送信する(図9のステップS44~S47参照)。サーバ装置3から検索結果として一又は複数の画像を受信した端末装置5は、受信した画像を例えばリスト状又はマトリクス状等に並べて一覧表示する。このときに端末装置5は、例えば検索条件と検索結果の画像との一致度等を算出し、算出した一致度の順に複数の画像を並べて表示してもよい。また画像を表示する順序に関する条件を利用者が設定可能であってもよい。例えば端末装置5は、検索条件として「笑顔」が設定されている場合、笑顔の確信度が高い画像から順に、複数の画像を並べて表示することができる。
図11は、本実施の形態に係る端末装置5が行う処理の手順を示すフローチャートである。本実施の形態に係る端末装置5の処理部51の画像受信処理部51aは、例えば1日に1回等の所定タイミングでサーバ装置3が送信する画像を受信したか否かを判定する(ステップS61)。所定タイミングで送信される画像を受信した場合(S61:YES)、画像受信処理部51aは、例えば端末装置5の表示部54に画像を受信した旨を通知するメッセージを表示する(ステップS62)。画像受信処理部51aは、表示したメッセージに対する利用者の操作として、受信した画像を表示する操作を受け付けたか否かを判定する(ステップS63)。画像を表示する操作を受け付けない場合(S63:NO)、画像受信処理部51aは、ステップS61へ処理を戻す。画像を表示する操作を受け付けた場合(S63:YES)、画像受信処理部51aは、サーバ装置3から受信した一又は複数の画像を表示部54に表示して(ステップS64)、ステップS61へ処理を戻す。
所定タイミングで送信される画像を受信していない場合(S61:NO)、処理部51の画像検索処理部51bは、利用者による画像の検索条件の設定を受け付けたか否かを判定する(ステップS65)。検索条件の設定を受け付けていない場合(S65:NO)、画像検索処理部51bは、ステップS61へ処理を戻す。検索条件の設定を受け付けた場合(S65:YES)、画像検索処理部51bは、受け付けた検索条件を含む画像の検索要求をサーバ装置3へ送信する(ステップS66)。画像検索処理部51bは、検索要求に応じたサーバ装置3からの検索結果を受信したか否かを判定する(ステップS67)。検索結果を受信していない場合(S67:NO)、画像検索処理部51bは、検索結果を受信するまで待機する。検索結果を受信した場合(S67:YES)、画像検索処理部51bは、検索結果としたサーバ装置3から受信した一又は複数の画像を表示部54に表示して(ステップS68)、ステップS61へ処理を戻す。
<まとめ>
以上の構成の本実施の形態に係る情報処理システムでは、カメラ1の情報処理装置20が、撮影部11が撮影した画像から所定の対象を検出し、所定の対象が含まれる画像が第1の条件を満たすか否かを判定し、第1の条件を満たす画像を選別してサーバ装置3へ送信し、サーバ装置3に第2の条件を満たす画像を選別させる。カメラ1にて第1の条件に基づく画像の選別を予め行うことによって、カメラ1からサーバ装置3へ送信する画像の量を低減することが期待できる。なお撮影した画像から検出する所定の対象は、人でなくてもよく、例えば動植物で会ってもよい。
また本実施の形態に係る情報処理システムでは、カメラ1の情報処理装置20が、所定の対象として人を画像から検出し、人の検出結果に基づいて画像から人の顔を検出し、顔の検出結果に基づいて顔の表情又は向きを検出する。カメラ1にて行う画像の選別に用いられる第1の条件には、人の顔の表情又は向きに関する条件が含まれる。これにより画像に写されている人の表情又は向きについて、不適な画像を予め除去し、適切な画像のみをカメラ1からサーバ装置3へ送信することができる。
また本実施の形態に係る情報処理システムでは、カメラ1の情報処理装置20が、人の検出結果に基づいて、撮影した画像から人のプライバシーに関する不適切な画像を除去する。これにより、プライバシーに関する不適切な画像を予め除去することができ、カメラ1からサーバ装置3へ不適切な画像が送信されることを抑制できる。
また本実施の形態に係る情報処理システムでは、カメラ1の情報処理装置20が、撮影部11が撮影した画像を圧縮した圧縮画像を生成して人の検出を行い、人の顔の検出、顔の表情又は向きの検出等を非圧縮の画像に基づいて行い、非圧縮の画像をカメラ1からサーバ装置3へ送信する。これにより、比較的に精度が要求されない処理については圧縮画像を用いて高速な処理を行い、それ以外の処理については非圧縮の画像に基づいた高精度の処理を行うことが期待できる。また非圧縮の画像をカメラ1からサーバ装置3へ送信することによって、サーバ装置3が高精度の処理を行うことが期待できる。
また本実施の形態に係る情報処理システムでは、カメラ1の情報処理装置20が、画像に対して行った検出及び判定等の結果に関する情報をメタデータとして画像に付してサーバ装置3へ送信する。これによりカメラ1から画像を受信したサーバ装置3は、カメラ1で行われた検出及び判定等の結果を利用して処理を行うことができる。
また本実施の形態に係る情報処理システムでは、カメラ1の情報処理装置20が、画像に写された人毎に画像の数をカウントし、人毎の選別する画像の数が同程度となるように画像の選別を行うことを第1の条件とする。これにより、カメラ1にて撮影された複数の画像について、人毎の画像数を均一化して画像を選別してサーバ装置3へ送信することができる。
また本実施の形態に係る情報処理システムでは、サーバ装置3が、カメラ1の情報処理装置20から受信した画像に含まれる人の行動を判定し、判定結果に基づいて第2の条件を満たす画像の選別を行う。これにより、カメラ1の撮影画像に写された人の行動に基づいて、画像の選別することができる。
また本実施の形態に係る情報処理システムでは、カメラ1の情報処理装置20による検出又は判定等の結果に関する情報をサーバ装置3が取得し、取得した情報に基づいて画像のスコアリングを行い、各画像のスコアに基づいて画像を選別する。これによりサーバ装置3は、自身で行った検出又は判定等のみでなく、カメラ1にて行われた検出又は判定等の結果を用いれ画像の選別を行うことができる。
また本実施の形態に係る情報処理システムでは、画像に写された人を識別するID等の識別情報をサーバ装置3がメタデータとして画像に付す。これにより、サーバ装置3の画像記憶部32bに記憶された各画像に写されている利用者を容易に判断して抽出等を行うことができる。
また本実施の形態に係る情報処理システムでは、サーバ装置3が、画像に写された人毎に画像の数をカウントし、人毎の選別する画像の数が同程度となるように画像の選別を行うことを第2の条件とする。これにより、一又は複数のカメラ1にて撮影されてサーバ装置3へ送信された複数の画像について、人毎の画像数を均一化して画像を選別して画像記憶部32bに記憶することができる。
また本実施の形態に係る情報処理システムでは、サーバ装置3が、画像から人が写された画像領域を抽出し、抽出した画像領域の解像度を高めた画像を生成する。これにより、画像中に写された人を拡大した画像を生成することができ、拡大による画質の低下等を抑制することができる。
また本実施の形態に係る情報処理システムでは、カメラ1が施設100の撮影を行い、サーバ装置3が施設100の利用者を識別するID等の識別情報を画像に付し、施設100の利用者に対応付けられた端末装置5へ、この利用者に関する識別情報が付された画像を送信する。これによりサーバ装置3は、各利用者が写された画像を適切な端末装置5へ送信することができる。
なお本実施の形態においては、カメラ1を設置する施設100を保育園又は幼稚園等とし、カメラ1が施設100を利用する子供の撮影を行う構成を示したが、施設100は保育園又は幼稚園等に限らず、どのような施設であってもよい。施設100は屋内又は屋外のいずれのものであってもよい。また本実施の形態においては、カメラ1の撮影部11及び情報処理装置20が一体の構成を示したが、これに限るものではなく、カメラ1の撮影部11及び情報処理装置20は別体で会ってもよい。例えばカメラ1及び情報処理装置20が有線又は無線で接続され、カメラ1が撮影した画像を情報処理装置20へ与え、情報処理装置20が第1の条件に基づいて画像を選別してサーバ装置3へ送信してもよい。
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。