JP7292980B2 - 情報管理装置、撮像装置、制御方法、並びにプログラム - Google Patents

情報管理装置、撮像装置、制御方法、並びにプログラム Download PDF

Info

Publication number
JP7292980B2
JP7292980B2 JP2019104794A JP2019104794A JP7292980B2 JP 7292980 B2 JP7292980 B2 JP 7292980B2 JP 2019104794 A JP2019104794 A JP 2019104794A JP 2019104794 A JP2019104794 A JP 2019104794A JP 7292980 B2 JP7292980 B2 JP 7292980B2
Authority
JP
Japan
Prior art keywords
learning
imaging device
image data
predetermined
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019104794A
Other languages
English (en)
Other versions
JP2020197995A (ja
JP2020197995A5 (ja
Inventor
俊司 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019104794A priority Critical patent/JP7292980B2/ja
Priority to US16/892,190 priority patent/US11308356B2/en
Publication of JP2020197995A publication Critical patent/JP2020197995A/ja
Priority to US17/692,329 priority patent/US11809991B2/en
Publication of JP2020197995A5 publication Critical patent/JP2020197995A5/ja
Application granted granted Critical
Publication of JP7292980B2 publication Critical patent/JP7292980B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習機能を有する装置間で教師データを共有する技術に関する。
近年、機械学習を中心としたAI(Artificial Intelligence)技術の開発が盛んに行われている。このような学習機能をカメラに適用し、撮影画像に含まれる物体(被写体)を自動で認識する技術の開発も進められている。
学習の精度を上げるためには、その物体が何であるかという正解ラベルを伴った画像(教師画像)を大量に用意する必要がある。ここで、正解ラベルと教師画像のペアのことを教師データ(teaching data)と呼ぶ。
特許文献1には、十分な教師データを集めて共通記憶装置に蓄積し、集めた教師データを他の装置に開示レベルに応じて開示する技術が開示されている。
特開2017-142739号公報
学習機能をカメラに適用する場合、ユーザの好みにあった自動認識機能が求められる。これは、カメラによって求められる学習モデルや教師データが異なることを意味する。しかしながら、特許文献1には、所望の教師データを選定する方法や、教師データの共有先のカメラを選定する方法については記載されていない。このため、カメラごとに所望の教師データを選定したり、教師データを共有するカメラを選定したりするなどの追加の作業が必要となる。
本発明は、上記課題に鑑みてなされ、その目的は、教師データの選定や共有先の選定を自動で実行できるようにする技術を実現することである。
上記課題を解決し、目的を達成するために、本発明の情報管理装置は、撮影画像から被写体を認識する学習機能を有する複数の撮像装置と通信する通信手段と、前記通信手段による前記複数の撮像装置との通信を制御する制御手段と、を有し、前記制御手段は、前記通信手段を介して所定の撮像装置から当該所定の撮像装置で前記撮影画像から生成された教師画像データを用いて所定の被写体を認識する学習処理を実行したことを示す所定の情報を受信した場合、前記複数の撮像装置の中から前記所定の撮像装置を除く他の撮像装置であって、前記教師画像データを用いて前記所定の被写体を認識する学習処理を実行させる前記他の撮像装置を選定し、定された前記他の撮像装置に対して前記所定の情報に含まれる前記教師画像データを送信するように制御する。
本発明によれば、教師データの選定や共有先の選定を自動で実行できるようになる。
実施形態1のシステム構成図。 実施形態1、2の管理テーブルを例示する図。 実施形態1、2のカメラの構成を例示するブロック図。 実施形態1の管理サーバの構成を例示するブロック図。 実施形態1のシステムにおける学習処理のシーケンスを例示する図。 実施形態1、2のカメラの表示画面を例示する図。 実施形態1、2のニューラルネットワークを用いた画像の学習処理を説明する図。 実施形態1のシステムにおける学習被写体更新処理のシーケンスを例示する図。 実施形態2のシステム構成図。 実施形態2のシステムにおける学習処理シーケンスを例示する図。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[実施形態1]以下、実施形態1について説明する。
以下では、本実施形態の情報管理装置および情報処理装置として管理サーバおよびデジタルカメラが通信可能に接続されたシステムの例について説明する。なお、本実施形態の情報処理装置はデジタルカメラに限らず、携帯電話やその一種であるスマートフォン、タブレット、パーソナルコンピュータ(PC)、PDA(Personal Digital Assistant)などのカメラ機能を有する他の装置にも適用可能である。
<システム構成>まず、図1を参照して、本実施形態のシステム構成について説明する。
本実施形態のシステムは、管理サーバ100とカメラ101~105を含む。カメラ101~カメラ105(カメラA~E)は、管理サーバ100と互いに通信可能である。本実施形態では、管理サーバ100がインターネット上に設置され、カメラ101~105がインターネットなどのネットワークに接続可能な通信機能を備えることを前提としているが、必ずしも通信機能を内蔵する構成でなくてもよく、例えば、無線LAN通信機能を備え、スマートフォンのようなテザリング機能を備える機器を介して管理サーバ100との通信を行う構成でもよい。
カメラ101~105はそれぞれ、固有の学習モデルを備え、撮像画像と教師データを利用して被写体を認識する学習機能を備える。ユーザは、カメラの学習モデルに対して所望の被写体(被写体が含まれる画像)を学習対象として登録することができる。これにより、例えば撮影時には好みの被写体に対して自動的にフォーカスを合わせたり、撮影後には好みの被写体を含む撮影画像のみを特定のフォルダに自動的に分類して保存したりすることができる。ユーザにより好みの被写体は異なるため、ユーザごとのカメラにおいて学習の内容、すなわち学習モデルは異なる。画像の学習には、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)と呼ばれる、機械学習の分野で知られている手法を用いる。学習処理の詳細については、図7で後述する。
カメラ101~105は、それぞれ学習対象の被写体を共通とするカメラ同士でグループを構成する。グループ構成に関する情報は、管理サーバ100によって管理される。
図2(a)は、管理サーバ100によって管理される、グループ構成を示す情報(以下、グループ管理テーブルと表記する)を例示している。図2(a)に示すように、グループXは、カメラA、B、C(101、102、103)で構成され、グループ共通の学習被写体ラベルは「たろう」と「はなこ」である。一方、グループYは、カメラA、D、E(101、104、105)で構成され、グループ共通の学習被写体ラベルは「カワセミ」である。学習被写体ラベルとは、学習対象の被写体画像を一意に示すための情報である。グループXは、例えばカメラAのユーザ(以下、ユーザAと表記する。他のカメラのユーザも、対応するカメラと同じアルファベットで表記する。)の親族で構成されるグループであり、ユーザAは「たろう」と「はなこ」の父親、ユーザBは母親、ユーザCは祖父である。「たろう」と「はなこ」は、グループXの共通の学習対象である被写体画像を示すラベルである。一方グループYは、例えば野鳥撮影の趣味グループで構成されるグループであり、ユーザA、ユーザD、ユーザEは、趣味グループのメンバである。「カワセミ」は、グループYの共通の学習対象の被写体画像を示すラベルである。
図2(b)は、管理サーバ100によって管理される、各カメラの学習モデルがサポート可能な教師画像のデータ仕様に関わる情報(以下、教師画像データ仕様管理テーブルと表記する)を例示している。教師画像のデータ仕様は、解像度とデータ形式に関する仕様を含む。図2(b)に示すように、カメラごとの学習モデルによって学習に利用することができる教師画像のデータ仕様は異なる。
管理サーバ100は、固有の学習モデルを備え、各カメラ101~105から送信される教師画像データに対してクラスタリングを行う機能を備える。クラスタリングとは、教師なし学習とも呼ばれ、画像の特徴点を抽出し、所定の基準で類似する画像のまとまり(クラスタ)に分類することである。管理サーバ100は、クラスタリングによって、グループ共通の学習被写体ラベルを自動更新する機能を備える。自動更新処理の詳細については図8で後述する。
<カメラの構成>次に、図3を参照して、実施形態1のシステムにおけるカメラ101~105の構成および機能について説明する。
制御部300は、後述する不揮発性メモリ301に記憶される制御プログラムを実行することによりカメラ全体を制御する。制御部300は、1つまたは複数のCPUやMPUなどのプロセッサを含む。
不揮発性メモリ301は、制御部300のCPUが実行する各種の制御プログラムやパラメータを格納するROM(Read Only Memory)である。
ワークメモリ302は、制御部300のCPUによる各種の処理に必要なプログラムやデータを一時記憶するRAM(Random Access Memory)である。なお、制御部300が装置全体を制御する代わりに、複数のハードウェアが処理を分担することで、装置全体を制御してもよい。
記憶媒体I/F(インターフェース)303は、後述する記憶媒体304に対するアクセスを制御する。記憶媒体I/F303は、制御部300の制御に従い、ワークメモリ302と記憶媒体304との間のデータ転送処理を実行する。
記憶媒体304は、例えば、カメラに内蔵されたハードディスクやメモリカード、あるいはカメラに着脱可能なハードディスク、メモリカード、USBフラッシュメモリ、DVD、ブルーレイディスクなどを含む。
操作部305は、ユーザの操作を受け付け、入力された情報を制御部300に通知する。操作部305は、タッチパネル、ボタンスイッチ、十字キーなどの入力デバイスである。
表示部306は、カメラの動作状態や画像などを表示する。表示部306は、LCDやLEDなどから構成される。また、表示部306はスピーカなどの音声出力が可能な機能を有してもよい。
通信部307は、管理サーバ100や他のカメラなどの外部装置と接続したり、インターネットなどの外部ネットワークに接続したりするインターフェースである。本実施形態では、通信部307は管理サーバ100や他のカメラと接続し、管理サーバ100との間で撮影した画像データや学習通知(教師データ)などを送受信する。
撮像部308は、光学レンズ、CMOSイメージセンサ、デジタル画像処理部などを備え、光学レンズを介して入力されるアナログ信号をデジタルデータに変換して画像データを生成する。撮像部308によって生成された画像データは、所定の形式に変換され、記憶媒体304に画像ファイルとして格納される。
なお、図3に示すハードウェア構成は一例であり、本実施形態のカメラ101~105は図に示すハードウェア構成以外のハードウェア構成を備えていてもよい。
内部バス309はカメラの各部300~303、305~308をデータの授受が可能に接続する。
<管理サーバの構成>次に、図4を参照して、実施形態1のシステムにおける管理サーバ100の構成および機能について説明する。
制御部400は、後述する不揮発性メモリ401に記憶される制御プログラムを実行することによりサーバ全体を制御する。制御部400は、1つまたは複数のCPUやMPUなどのプロセッサを含む。
不揮発性メモリ401は、制御部400のCPUが実行する各種の制御プログラムやパラメータを格納するROM(Read Only Memory)である。
ワークメモリ402は、制御部400のCPUによる各種の処理に必要なプログラムやデータを一時記憶するRAM(Random Access Memory)である。なお、制御部400が装置全体を制御する代わりに、複数のハードウェアが処理を分担することで、装置全体を制御してもよい。
記憶媒体I/F(インターフェース)403は、後述する記憶媒体404に対するアクセスを制御する。記憶媒体I/F403は、制御部400の制御に従い、ワークメモリ402と記憶媒体404との間のデータ転送処理を実行する。記憶媒体404は、例えば、大容量の記憶領域を備えるハードディスクなどである。
操作部405は、ユーザの操作を受け付け、入力された情報を制御部400に通知する。操作部05は、ボタンスイッチ、キーボード、マウスなどの入力デバイスである。
表示部406は、サーバの動作状態などを表示する。表示部406は、LCDなどから構成される。また、表示部406はスピーカなどの音声出力が可能な機能を有してもよい。
通信部407は、カメラ101~105などの外部装置と接続したり、インターネットなどの外部ネットワークに接続したりするインターフェースである。本実施形態では、通信部407はカメラ101~105と接続し、各カメラ101~105との間で撮影した画像データや学習通知(教師データ)などを送受信する。
内部バス409は管理サーバ100の各部400~403、405~407をデータの授受が可能に接続する。
<学習処理シーケンス>次に、図5を参照して、実施形態1のシステムを構成するカメラA101~E105のうち、カメラA101~C103が画像の学習を行う場合の管理サーバ100とカメラA101~C103の処理シーケンスの例について説明する。
以下では、図1に示したシステム構成において、あるカメラが被写体の学習を実行した場合に、同じ被写体の学習を所望する(つまり、学習被写体ラベルが同じ)他のカメラにおいて、同じレベルの学習を実行させるための処理シーケンスを説明する。
図5は、例えば、カメラA101が被写体「たろう」を学習した場合に、同じレベルの学習をカメラB102およびカメラC103において実行可能となるように、カメラA101が被写体「たろう」の学習において生成した教師画像データを管理サーバ100に送信し、管理サーバ100からカメラB102およびカメラC103に送信する処理シーケンスを例示している。
S501において、カメラA101は、「たろう」の学習を実行する(第1の学習モード)。学習処理は、教師画像データを生成する処理、教師画像データを利用して学習を実行する処理、の2つパートに分かれる。
まず、教師データを生成する処理について説明する。ユーザAは、カメラA101の表示部306に、学習対象の画像ファイル、すなわち「たろう」が写っている画像ファイルを表示させ、操作部305を介して教師画像として登録する領域を指定し、指定した領域に対して学習被写体ラベルの情報として「たろう」を入力する。図6(a)は、教師画像を登録するときのカメラA101の操作画面600を例示している。操作画面600は、カメラA101の表示部306の表示画面を示している。指定領域601は、ユーザによって指定された、教師画像として登録する領域を示している。ラベル情報602は、ユーザによって入力された学習被写体ラベルの情報を示している。このようにユーザは操作画面600において登録領域を指定する操作とラベル情報の入力する操作を行うことにより、教師画像と学習被写体ラベル情報のペアからなる教師データが生成される。
次に、教師データを利用して学習を実行する処理について説明する。学習処理は、前述したようにCNNを用いて行われる。図7は、CNNを用いた画像の学習処理を説明する図である。
画像701は、図6(a)で説明した操作によって生成された教師画像データに対応する画像である。教師画像データ701は、上記教師データを生成する処理において、図2(b)に示すカメラA101の学習モデルのサポート可能な教師画像のデータ仕様に合わせて生成されるので、本実施形態では、解像度は300x300、データ形式はJPEGとなる。
図7において、CNN700は、機能部702~704を備える。機能部702は、入力された教師画像データ701に対して、畳み込み処理とプーリング処理を繰り返す処理層である。畳み込み処理は、元の画像からフィルタを用いて特徴点を凝縮する処理である。プーリング処理は重要な特徴点の情報を維持しながら画像を縮小する処理である。機能部703は、畳み込み処理とプーリング処理の繰り返した結果として得られる特徴マップである。機能部704は、多層で構成される全結合層である。特徴マップ703の各ピクセルの情報を入力データとして入力し、所定の重み係数を乗算して次の層のすべてのノードに出力する。この処理を複数の隠れ中間層を介して繰り返し、最終的な出力結果を得る。本実施形態では、最終的な結果として出力されるデータは、被写体が「たろう」である確率となる。フィードバック705では、全結層704から得られた結果である「たろう」である確率が上がるようにフィードバック705が実行される。フィードバック705は学習の根幹となる処理であり、最終結果が出力されるごとに繰り返し実行される。フィードバック705を実行することにより、処理層702の畳み込み処理で用いられるフィルタの内容や、全結層704における重み係数などが調整される。
S502において、カメラA101は、管理サーバ100に対して学習を実行したことを示す学習通知を送信する。学習通知には、学習に利用した教師データが含まれる。教師データとは、図7で説明した教師画像データ701と学習被写体ラベル情報「たろう」のペアを示す。
S503において、管理サーバ100は、カメラA101より送信された学習通知を受信し、学習通知に含まれる教師データを取得する。
S504において、管理サーバ100は、S503で受信した学習通知に含まれる教師データを共有するカメラを選定する処理を実行する。管理サーバ100は、図2(a)に示したグループ管理テーブルを参照し、教師データの送信元であるカメラが所属するグループにおいて、取得した教師データに含まれる学習被写体ラベル情報がグループ共通の学習対象となっているグループがあるか否かを判定する。管理サーバ100は、該当するグループがある場合は、そのグループに所属するカメラにおける、送信元のカメラを除くカメラを、共有先のカメラとして選定する。このため、条件によっては共有先のカメラが選定されない場合もあり、その場合は教師データの共有は行われず、処理を終了する。本ステップでは、カメラA101が所属するグループはグループXとグループYであり、そのうち学習被写体ラベル情報「たろう」がグループ共通となっているグループはグループXであるため、カメラB102とカメラC103が共有先のカメラとして選定される。
S505において、管理サーバ100は、S504で選定したカメラの学習モデルに入力可能な形式になるように、共有する教師データを加工する。管理サーバ100は、図2(b)に示した教師画像データ仕様の管理テーブルを参照し、共有先がカメラB102の場合には解像度は200x200、データ形式はJPEGになるよう加工し、共有先がカメラC103の場合には解像度は300x300、データ形式はPNGになるように教師データを加工する。
S506において、管理サーバ100は、カメラB102に、学習を要求する学習要求を送信する。学習要求には、S505でカメラB102への送信用に加工された教師データが含まれる。
S507において、カメラB102は、管理サーバ100から送信された学習要求を受信し、学習要求に含まれる教師データを取得する。
S508において、カメラB102は、管理サーバ100から受信した学習要求に応じて、S507で取得した教師データを利用して学習を実行する(第2の学習モード)。カメラB102では、S501でカメラA101が実行した学習と同じレベルの学習が実行可能となる。
S509において、管理サーバ100は、カメラC103に、学習を要求する学習要求を送信する。学習要求には、S505でカメラC103への送信用に加工された教師データが含まれる。
S510において、カメラC103は、管理サーバ100から送信された学習要求を受信し、学習要求に含まれる教師データを取得する。
S511において、カメラC103は、管理サーバ100から受信した学習要求に応じて、S510で取得した教師データを利用して学習を実行する(第2の学習モード)。カメラC103では、S501でカメラA101が実行した学習と同じレベルの学習が実行可能となる。
なお、S509からS511までの処理は、必ずしもS506からS508までの処理の後に実行される必要はなく、同時並行で実行するようにしてもよい。
また、S508およびS511では、S507、S510で管理サーバ100から受信した学習要求に応じて第2の学習モードにおける学習を実行する前に、学習を実行するか否かをユーザに確認し、ユーザの許可を得た場合のみ学習を実行するようにしてもよい。図6(b)は、管理サーバ100からの学習要求に応じた第2の学習モードにおける学習を実行するか否かをユーザが選択可能なカメラB102、C103の操作画面を例示している。操作画面603は、カメラB102、C103の表示部306に表示される。画像604は、管理サーバ100から受信した教師画像データを示している。ボタン605、606は表示画面603のタッチパネル上に表示される。ボタン605は学習を実行する場合に選択され、ボタン606は学習を実行しない場合に選択される。ユーザは、管理サーバ100からの学習要求に応じた第2の学習モードにおける学習を実行しない場合には、図6(b)の操作画面603においてボタン606を選択すればよい。これにより、管理サーバ100からの学習要求に応じて実行される第2の学習モードにおける学習機能を無効化することができる。
また、図5では、カメラA101が教師データを送信し、カメラB102およびカメラC103が教師データを受信する処理を例示したが、カメラA101は、他のカメラの教師データを受信することも可能である。同様に、カメラB102およびカメラC103は、自身が学習に利用した教師データを他のカメラに提供することも可能である。
<学習被写体の更新シーケンス>次に、図8を参照して、図2(a)で示したグループ管理テーブルにて管理されるグループ共通の学習被写体を自動更新する処理シーケンスについて説明する。
図8は、グループYに所属する全てのカメラが野鳥のキジの学習を100回数以上実行した場合に、グループYの共通の学習被写体ラベルとして新たに「キジ」を追加する処理シーケンスを例示している。
S801において、カメラA101は、キジの画像の学習を実行する。S80の処理は、例えばユーザAがキジを撮影したタイミングで実行される。学習処理の詳細については、S501において説明した通りである。
S802において、カメラA101は、管理サーバ100に対して学習を実行したことを示す学習通知を送信する。学習通知には、学習で利用した教師データが含まれる。教師データとは、キジの画像が含まれる教師画像データと、学習被写体ラベル情報「キジ」のペアを含む。
S803において、管理サーバ100は、カメラA101より送信された学習通知を受信し、学習通知に含まれる教師データを取得する。
S804において、管理サーバ100は、S803で受信した教師画像データに対してクラスタリング(教師なし学習)を実行し、クラスタ単位で学習通知の受信履歴を更新する。図2(c)は、各カメラA~Eからの学習通知の受信履歴を管理する情報(以下、学習通知管理テーブルと表記する)を例示している。図示のように、学習通知の受信履歴は、クラスタごとに管理される。00004のクラスタIDは、本ステップでのクラスタリングによって分類された教師画像データの識別子である。ラベルの列に記載された「キジ」は、本ステップでのクラスタリングの対象である教師画像データの学習被写体ラベル情報「キジ」に対応する。学習通知回数には、クラスタIDに対応する教師画像データを含む学習通知を受信した回数が、カメラごとに記録、更新される。カメラA101の列に記載された125回は、「キジ」に類似する教師画像データを含む学習通知を、現在までにカメラA101から125回受信したことを示し、本ステップによって124回から125回に更新されたことを示している。
S805からS808では、S801からS804と同様の処理をカメラD104について行う。
S809からS812では、801からS804と同様の処理を、カメラE105について行う。
図2(d)は、S808、S812において更新された学習通知管理テーブルを例示している。図2(d)は、図2(c)と比較して、クラスタIDが00004の、カメラD104の学習通知回数と、カメラE105の学習通知回数がそれぞれプラス1に更新されている。これにより、グループYに所属する全てのカメラが「キジ」の学習を100回数以上実行したことになる。
S813において、管理サーバ100は、「キジ」をグループYの共通の学習被写体として新たに追加する。図2(e)は、S813において更新されたグループ管理テーブルを例示している。図2(e)に示すように、グループYの共通の学習被写体として「キジ」が追加される。
実施形態1によれば、カメラ101~105と管理サーバ100とで構成されるシステムにおいて、あるカメラA101が被写体の学習を実行した場合に、管理サーバ100が同じ被写体の学習を所望する他のカメラB102、C103を自動で選定し、学習に利用した教師データを共有することができる。これにより、共有先のカメラB102、C103において同じレベルの学習を実行することが可能となる。
また、管理サーバ100が各カメラA101~E105の学習状況に応じて学習被写体を自動更新することにより、カメラごとに学習被写体が変化した場合でも、常に最適な被写体を学習対象として選定することが可能となる。
[実施形態2]次に、実施形態2について説明する。
実施形態1では、カメラと管理サーバから構成されるシステムを説明した。これに対して、実施形態2では、管理サーバを含まない、カメラのみで構成されるシステムについて説明する。なお、以下では、実施形態1との相違点を中心に説明を行い、実施形態1と共通する内容については説明を省略する。
<システム構成>まず、図9を参照して、実施形態2のシステム構成について説明する。
本実施形態のシステムは、カメラ101~105(カメラA~)が互いに通信可能に接続されて構成される。本実施形態では、カメラ101~105が、インターネットなどのネットワークを介して互いに通信可能な機能を備えていることを前提にしているが、必ずしもインターネット通信機能を内蔵する構成でなくてもよく、例えば、無線LAN通信機能を備え、スマートフォンのようなテザリング機能を備える機器を介してカメラ間で通信を行う構成でもよい。また、図示していないが、ネットワーク上にカメラ間通信の経路制御を行うための中継サーバを配置し、中継サーバを介して通信する構成としてもよい。
カメラ101~105は、実施形態1と同様に、固有の学習モデルを備え、教師データを利用して画像を学習する機能を備える。また、カメラ101~105は、実施形態1と同様に、学習対象の被写体を共通とするカメラ同士でグループを構成する。本実施形態では、各カメラ101~105がグループ管理テーブルを管理する。グループ管理テーブルの仕様は、実施形態1の図2(a)と同様である。また、教師画像データ仕様管理テーブルも、実施形態1の図2(b)と同様である。また、本実施形態のカメラの構成および機能は実施形態1と同様である。
<学習処理シーケンス>次に、図10を参照して、実施形態2のシステムを構成するカメラA101~E105のうちカメラA101~C103が画像の学習を行う場合のカメラA101~C103の処理シーケンスの例について説明する。
以下では、図9に示したシステム構成において、あるカメラが被写体の学習を実行した場合に、同じ被写体の学習を所望する(つまり、学習被写体ラベルが同じ)他のカメラにおいて、同じレベルの学習を実行させるための処理シーケンスを説明する。
図10は、例えば、カメラA101が被写体「たろう」を学習した場合に、同じレベルの学習をカメラB102およびカメラC103において実行可能となるように、カメラA101が被写体「たろう」の学習において生成した教師画像データを、カメラB102およびカメラC103に送信する処理シーケンスを例示している。
S1001において、カメラA101は、「たろう」の学習を実行する。学習処理の詳細は、図5のS501で説明した通りである。
S1002において、カメラA101は、S1001で学習に利用した教師データを共有するカメラを選定する処理を実行する。共有先の選定処理は、カメラA101が図5のS504と同様の処理を実行する。
S1003において、カメラA101は、S1002で選定したカメラの学習モデルに入力可能な形式になるように、共有する教師データを加工する。教師データの加工処理は、カメラA101が図5のS505と同様の処理を実行する。
S1004において、カメラA101は、カメラB102に、学習を要求する学習要求を送信する。学習要求には、S1003でカメラB102への送信用に加工された教師データが含まれる。
S1005において、カメラB102は、カメラA101から送信された学習要求を受信し、学習要求に含まれる教師データを取得する。
S1006において、カメラB102は、S1005で取得した教師データを利用して学習を実行する。カメラB102では、S1001でカメラA101が実行した学習と同じレベルの学習が実行可能となる。
S1007において、カメラA101は、カメラC103に、学習を要求する学習要求を送信する。学習要求には、S1003でカメラC103への送信用に加工された教師データが含まれる。
S1008において、カメラC103は、カメラA101から送信された学習要求を受信し、学習要求に含まれる教師データを取得する。
S1009において、カメラC103は、S1008で取得した教師データを利用して学習を実行する。カメラC103では、S1001でカメラA101が実行した学習と同じレベルの学習が実行可能となる。
なお、S1004からS1006までの処理は、必ずしもS1007からS1009までの処理のに実行される必要はなく、同時並行で実行するようにしてもよい。
また、S1006およびS1009では、図5のS508およびS511と同様に、カメラA101から受信した学習要求に応じて学習を実行する前に、学習を実行するか否かをユーザに確認し、ユーザの許可を得た場合のみ学習を実行するようにしてもよい。
また、図10では、カメラA101が教師データを送信し、カメラB102およびカメラC103が教師データを受信する処理を例示したが、カメラA101は、他のカメラの教師データを受信することも可能である。同様に、カメラB102およびカメラC103は、自身が学習に利用した教師データを他のカメラに提供することも可能である。
また、各カメラが、他のカメラから受信した学習要求に応じて、実施形態1の図8で説明した学習被写体の更新シーケンスを実行するように構成してもよい。
実施形態2によれば、カメラ101~105から構成されるシステムにおいて、あるカメラA101が被写体の学習を実行した場合に、そのカメラA101が、同じ被写体の学習を所望する他のカメラB102、C103を自動で選定し、学習に利用した教師データを共有することができる。これにより、共有先のカメラB102、C103において同じレベルの学習を実行することが可能となる。
なお、実施形態1および2では、カメラ101~105が学習機能を備える構成を例に挙げて説明を行ったが、これに限られるものではない。カメラ101~105のそれぞれに対応するエッジコンピュータやサーバが存在し、これらのエッジコンピュータやサーバが学習機能を備えるようにしてもよい。これらエッジコンピュータやサーバが学習することにより得られた、被写体を認識するためのパラメータを、対応するカメラ101~105に送信し、カメラ101~105はこのパラメータを用いて被写体を認識する。この場合、管理サーバ100は、カメラ101~105の代わりに、カメラ101~105に対応するエッジコンピュータやサーバの選定を行うことになる。
[他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100…管理サーバ、101~105…カメラA~E、300、400…制御部、307、407…通信部

Claims (19)

  1. 撮影画像から被写体を認識する学習機能を有する複数の撮像装置と通信する通信手段と、
    前記通信手段による前記複数の撮像装置との通信を制御する制御手段と、を有し、
    前記制御手段は、
    前記通信手段を介して所定の撮像装置から当該所定の撮像装置で前記撮影画像から生成された教師画像データを用いて所定の被写体を認識する学習処理を実行したことを示す所定の情報を受信した場合、前記複数の撮像装置の中から前記所定の撮像装置を除く他の撮像装置であって、前記教師画像データを用いて前記所定の被写体を認識する学習処理を実行させる前記他の撮像装置を選定し、
    定された前記他の撮像装置に対して前記所定の情報に含まれる前記教師画像データを送信するように制御することを特徴とする情報管理装置。
  2. 所定の情報は、前記教師画像データと前記所定の被写体を示すラベル情報とを含むことを特徴とする請求項1に記載の情報管理装置。
  3. 前記制御手段は、前記複数の撮像装置について学習対象の被写体を共通にする装置を同じグループとして管理し、
    前記所定の撮像装置と同じグループに属する他の撮像装置を、前記教師画像データを用いて前記所定の被写体を認識する学習処理を実行させる他の撮像装置として選定することを特徴とする請求項1または2に記載の情報管理装置。
  4. 前記制御手段は、選定された前記他の撮像装置において利用できる形式に前記教師画像データを加工することを特徴とする請求項3に記載の情報管理装置。
  5. 前記制御手段は、前記複数の撮像装置ごとに前記所定の情報を受信した回数を記録するテーブルを有し、
    前記テーブルに記録された前記複数の撮像装置ごとの被写体のラベル情報のうち受信した回数が基準を超える被写体を、前記所定の撮像装置が属するグループに共通の学習対象の被写体として新たに追加することを特徴とする請求項1から4のいずれか1項に記載の情報管理装置。
  6. 撮影画像から被写体を認識する学習機能を有する撮像装置であって、
    前記撮影画像から生成された教師画像データであって、前記撮像装置において実行された所定の被写体を認識する学習処理に用いられた前記教師画像データを管理する情報管理装置と通信する通信手段と、
    前記通信手段を介して、前記教師画像データを用いて所定の被写体を認識する学習処理を実行したことを示す所定の情報であって、前記教師画像データを含む情報を前記情報管理装置に送信する制御手段と、を有することを特徴とする撮像装置。
  7. 所定の情報は、前記教師画像データと前記所定の被写体を示すラベル情報とを含むことを特徴とする請求項6に記載の撮像装置。
  8. 前記学習機能は、前記撮影画像から生成された教師画像データを用いて学習する第1の学習モードと、前記情報管理装置からの学習要求に応じて当該情報管理装置から受信した教師画像データを用いて学習する第2の学習モードとを含むことを特徴とする請求項7に記載の撮像装置。
  9. 前記学習機能は、前記第2の学習モードを無効化することが可能であり、
    前記制御手段は、前記第2の学習モードが無効化されている場合には、前記第2の学習モードにおける学習を実行しないことを特徴とする請求項8に記載の撮像装置。
  10. 撮影画像から被写体を認識する学習機能を有する撮像装置であって、
    前記学習機能を有する他の撮像装置と通信する通信手段と、
    前記撮影画像から生成された教師画像データを用いて所定の被写体を認識する学習処理を実行したことを示す所定の情報を前記通信手段を介し前記他の撮像装置に送信する制御手段と、を有し、
    前記制御手段は、
    複数の前記他の撮像装置の中から前記教師画像データを用いて前記所定の被写体を認識する学習処理を実行させる他の撮像装置を選定し、
    前記通信手段を介して、選定した前記他の撮像装置に対して前記所定の情報に含まれる教師画像データを送信するように制御することを特徴とする撮像装置。
  11. 所定の情報は、前記教師画像データと前記所定の被写体を示すラベル情報とを含むことを特徴とする請求項10に記載の撮像装置。
  12. 前記制御手段は、前記通信手段を介して、前記他の撮像装置から当該他の撮像装置で学習処理を実行したことを示す所定の情報を受信し、
    前記学習機能は、前記撮影画像から生成された教師画像データを用いて学習する機能と、前記他の撮像装置から受信した前記所定の情報に含まれる教師画像データを用いて学習する機能とを含むことを特徴とする請求項11に記載の撮像装置。
  13. 前記制御手段は、学習対象の被写体を共通にする他の撮像装置を同じグループとして管理し、
    記同じグループに属する他の撮像装置を、前記教師画像データを用いて前記所定の被写体を認識する学習処理を実行させる他の撮像装置として選定することを特徴とする請求項10から12のいずれか1項に記載の撮像装置。
  14. 前記制御手段は、選定された前記他の撮像装置において利用できる形式に前記教師画像データを加工することを特徴とする請求項10から13のいずれか1項に記載の撮像装置。
  15. 撮影画像から被写体を認識する学習機能を有する複数の撮像装置と通信する通信手段を有し、前記通信手段による前記複数の撮像装置との通信を制御する情報管理装置の制御方法であって、
    前記制御方法は、
    前記通信手段を介して所定の撮像装置から当該所定の撮像装置で前記撮影画像から生成された教師画像データを用いて所定の被写体を認識する学習処理を実行したことを示す所定の情報を受信した場合、前記複数の撮像装置の中から前記所定の撮像装置を除く他の撮像装置であって、前記教師画像データを用いて前記所定の被写体を認識する学習処理を実行させる前記他の撮像装置を選定するステップと、
    定された前記他の撮像装置に対して前記所定の情報に含まれる前記教師画像データを送信するステップと、を有することを特徴とする制御方法。
  16. 撮影画像から被写体を認識する学習機能を有する撮像装置の制御方法であって、
    前記撮影画像から生成された教師画像データであって、前記撮像装置において実行された所定の被写体を認識する学習処理に用いられた前記教師画像データを管理する情報管理装置と通信するステップと、
    前記教師画像データを用いて所定の被写体を認識する学習処理を実行したことを示す所定の情報であって、前記教師画像データを含む情報を前記情報管理装置に送信するステップと、を有することを特徴とする制御方法。
  17. 撮影画像から被写体を認識する学習機能を有する撮像装置の制御方法であって、
    前記撮像装置は、
    前記学習機能を有する他の撮像装置と通信する通信手段と、
    前記撮影画像から生成された教師画像データを用いて所定の被写体を認識する学習処理を実行したことを示す所定の情報を前記通信手段を介し前記他の撮像装置に送信する制御手段と、を有し、
    前記制御方法は、
    複数の前記他の撮像装置の中から前記教師画像データを用いて前記所定の被写体を認識する学習処理を実行させる他の撮像装置を選定するステップと、
    前記通信手段を介して、選定した前記他の撮像装置に対して前記所定の情報に含まれる教師画像データを送信するステップと、を有することを特徴とする制御方法。
  18. コンピュータを請求項1から5のいずれか1項に記載の情報管理装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
  19. コンピュータを請求項6から14のいずれか1項に記載の撮像装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
JP2019104794A 2019-06-04 2019-06-04 情報管理装置、撮像装置、制御方法、並びにプログラム Active JP7292980B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019104794A JP7292980B2 (ja) 2019-06-04 2019-06-04 情報管理装置、撮像装置、制御方法、並びにプログラム
US16/892,190 US11308356B2 (en) 2019-06-04 2020-06-03 Information management apparatus, information processing apparatus, and control method thereof
US17/692,329 US11809991B2 (en) 2019-06-04 2022-03-11 Information management apparatus, information processing apparatus, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019104794A JP7292980B2 (ja) 2019-06-04 2019-06-04 情報管理装置、撮像装置、制御方法、並びにプログラム

Publications (3)

Publication Number Publication Date
JP2020197995A JP2020197995A (ja) 2020-12-10
JP2020197995A5 JP2020197995A5 (ja) 2022-06-14
JP7292980B2 true JP7292980B2 (ja) 2023-06-19

Family

ID=73649698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019104794A Active JP7292980B2 (ja) 2019-06-04 2019-06-04 情報管理装置、撮像装置、制御方法、並びにプログラム

Country Status (2)

Country Link
US (2) US11308356B2 (ja)
JP (1) JP7292980B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252507A (ja) 2011-06-02 2012-12-20 Panasonic Corp 人物属性推定システム、人物属性推定装置、及び人物属性推定方法
JP2014085795A (ja) 2012-10-23 2014-05-12 Toshiba Corp 学習画像収集装置、学習装置及び対象物検出装置
JP2015135552A (ja) 2014-01-16 2015-07-27 株式会社デンソー 学習システム、車載装置、及び、サーバ
JP2016509301A (ja) 2013-01-17 2016-03-24 マイクロソフト テクノロジー ライセンシング,エルエルシー ユーザーが生成した知識による協調学習

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6624963B2 (ja) 2016-02-12 2019-12-25 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP6914724B2 (ja) * 2017-05-17 2021-08-04 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2019012632A1 (ja) * 2017-07-12 2019-01-17 株式会社ソニー・インタラクティブエンタテインメント 認識処理装置、認識処理方法及びプログラム
EP3853764A1 (en) * 2018-09-20 2021-07-28 NVIDIA Corporation Training neural networks for vehicle re-identification
US11138469B2 (en) * 2019-01-15 2021-10-05 Naver Corporation Training and using a convolutional neural network for person re-identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252507A (ja) 2011-06-02 2012-12-20 Panasonic Corp 人物属性推定システム、人物属性推定装置、及び人物属性推定方法
JP2014085795A (ja) 2012-10-23 2014-05-12 Toshiba Corp 学習画像収集装置、学習装置及び対象物検出装置
JP2016509301A (ja) 2013-01-17 2016-03-24 マイクロソフト テクノロジー ライセンシング,エルエルシー ユーザーが生成した知識による協調学習
JP2015135552A (ja) 2014-01-16 2015-07-27 株式会社デンソー 学習システム、車載装置、及び、サーバ

Also Published As

Publication number Publication date
US20200387749A1 (en) 2020-12-10
US20220198220A1 (en) 2022-06-23
JP2020197995A (ja) 2020-12-10
US11809991B2 (en) 2023-11-07
US11308356B2 (en) 2022-04-19

Similar Documents

Publication Publication Date Title
WO2012137397A1 (ja) コンテンツ処理装置、コンテンツ処理方法、コンテンツ処理プログラム、及び集積回路
CN102549591A (zh) 共享面部训练数据
US20190012347A1 (en) Information processing device, method of processing information, and method of providing information
JP7292980B2 (ja) 情報管理装置、撮像装置、制御方法、並びにプログラム
JP6915371B2 (ja) 制御装置、制御プログラム、学習データ作成方法、及び学習方法
EP4285292A1 (en) Distributed machine learning with new labels using heterogeneous label distribution
WO2018211602A1 (ja) 学習装置、推定装置、学習方法及びプログラム
JP2022083290A (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP2021089660A (ja) システムおよびその制御方法、並びにプログラム
US20210241105A1 (en) Inference apparatus, inference method, and storage medium
JP2023113444A (ja) 画像処理装置、画像処理方法及びプログラム
JP2020197995A5 (ja)
KR102238796B1 (ko) 저작자 정보 통합 수집 방법, 장치 및 시스템
JP2021060630A (ja) 中間サーバ装置、情報処理装置、通信方法
JP7215621B1 (ja) 情報処理装置、情報処理システム、機器管理方法及びプログラム
GB2572949A (en) Neural network
JP2020140600A (ja) 仲介端末、通信システム、入力システム、仲介制御方法、及びプログラム
JP7400719B2 (ja) 学習装置、識別装置およびプログラム
WO2021033666A1 (ja) 画像認識モデルを用いた識別子情報推論のための電子装置、方法、プログラム及びシステム
US20220167168A1 (en) Apparatus management system, management target apparatus, and management method
JP7139991B2 (ja) 情報処理システム、方法、および情報処理装置
US20220391686A1 (en) Dynamic obstacle avoidance during media capture
JP2018018384A (ja) 推定装置、推定方法、及び推定プログラム
JP2023017434A (ja) 画像処理装置、通信装置、制御方法、及びプログラム
JP2023040466A (ja) 情報処理装置、方法、プログラム、およびシステム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230607

R151 Written notification of patent or utility model registration

Ref document number: 7292980

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151