JP7186120B2

JP7186120B2 - 画像ファイル生成装置

Info

Publication number: JP7186120B2
Application number: JP2019060849A
Authority: JP
Inventors: 哲也豊田; 勝池田; 英明吉田; 修野中
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2022-12-08
Anticipated expiration: 2039-03-27
Also published as: JP2020160896A; US11281940B2; US20200311474A1

Description

本発明は、深層学習等の機械学習装置に推論モデルの生成を依頼する際に使用される画像ファイルを生成するための画像ファイル生成装置に関する。

種々の情報を蓄積し、この蓄積した情報に基づいて、異常事態が発生した場合に、蓄積された情報の中から関連情報を検索し、この関連情報に基づいて対処するようにした情報提示方法が知られている。例えば、特許文献１には、監視対象の状態を示す監視情報を取得し、この監視情報を記憶部に蓄積し、記憶部に蓄積された監視情報に基づいて、情報提示のトリガとなる事象の発生を検出する情報提示装置が提案されている。この情報提示装置は、事象が検出されると、この事象に関連した関連情報を検索し、関連情報に基づいて情報の提示を行う。この情報提示装置は、異常等の事象が発生した場合に、その事象に対応できる可能性の高い情報を自動的に提示することができる。また、近年、教師データを用いて深層学習を行うことによって推論モデルを生成し、この推論モデルによって、入力画像に対して推論を行うことも提案されている。

特開２０１７－１０７５０９号公報

上述の特許文献１は、監視画像に基づいて問題が発生していることを検出する、解決策を提示することができる。しかし、蓄積部に記憶されている情報のみしか対応策を提示することができない。そこで、推論モデルを用いた推論を利用することにより、種々の問題に柔軟に対応することが可能となる。しかし、ユーザの意図に沿った推論モデルを生成するのは、容易ではなかった。

本発明は、このような事情を鑑みてなされたものであり、ユーザの関心事に答えられるような推論モデルを生成する際に有用な教師データを生成可能な画像ファイル生成装置を提供することを目的とする。

上記目的を達成するため第１の発明に係る画像ファイル生成装置は、画像に基づいて変換された画像データを入力する画像入力部と、ユーザの分類された関心事が推論結果として出力できるように、選択的に整理された情報を、上記画像データに対応するアノテーション関係情報として入力し、該アノテーション関係情報をメタデータとして、教師用データとする上記画像データに添付し、ファイル化するファイル生成部と、を具備し、上記ファイル生成部は、時間の経過に応じた結果を上記アノテーション関係情報に含めて教師用データを生成する。

第２の発明に係る画像ファイル生成装置は、上記第１の発明において、上記ユーザの関心事が上記選択的に整理された情報となるように、推論モデル生成用のアノテーション情報が選択可能な情報信号を含む。

第３の発明に係る画像ファイル生成装置は、上記第１の発明において、上記アノテーション関係情報は、（１）良し悪し情報、（２）判定するものが画像か事象かの情報、（３）良し悪し判定が主観か客観かの情報、（４）判断タイミングが撮影タイミングかそれ以外かの情報、（５）良し悪し判定が画像全体か画像部分か対象物かの情報、（６）教師データとするかテストデータとするかの情報、の少なくとも１つの項目の中で選択された情報を含む。

第４の発明に係る画像ファイル生成装置は、上記第３の発明において、上記アノテーション関係情報は、さらに、推論モデルの用途を指定するための用途情報もしくは関連画像群情報の少なくともいずれか１つを含む。
第５の発明に係る画像ファイル生成装置は、上記第３の発明において、上記画像データに基づいて上記画像を表示すると共に、上記アノテーション関係情報に係るアイコンを表示する表示部と、上記アイコンを選択するための選択部と、を有し、上記ファイル生成部は、上記選択部によって選択された上記アノテーション関係情報をメタデータとして、上記画像データに添付してファイル化する。

第６の発明に係る画像ファイル生成装置は、上記第５の発明において、上記表示部に表示される上記アイコンは、上記教師用データとして使用しないことを指示するためのアイコンも含む。

第７の発明に係る画像ファイル生成装置は、上記第５の発明において、上記画像入力部として撮像部を有し、上記表示部は、上記撮像部によって上記画像データを取得した後に、確認用に上記画像と上記アイコンを所定時間の間、撮影画像を表示し、上記ファイル生成部は、上記所定時間の間表示され、上記選択部によって選択されたアイコンに基づいて、上記メタデータを添付したファイルを生成する。

第８の発明に係る画像ファイル生成装置は、上記第１の発明において、上記画像入力部として撮像部を有し、上記撮像部から出力される画像データに、時間の経過を示す情報を関連付けて記録する記録部を有し、上記ファイル生成部は、上記画像の対象物に変化が生じた際に、上記記録部に記録されている変化開始前の基準時刻における画像データに、上記結果に応じた上記アノテーション関係情報を添付してファイルを生成する。
第９の発明に係る画像ファイル生成装置は、上記第１の発明において、上記ファイル生成部によって生成されたファイルを外部の学習装置に送信するための通信部を有する。

本発明によれば、ユーザの関心事に答えられるような推論モデルを生成する際に有用な教師データを生成可能な画像ファイル生成装置を提供することができる。

本発明の一実施形態に係る画像ファイル生成システムの主として電気的構成を示すブロック図である。本発明の一実施形態に係る画像ファイル生成システムの主として電気的構成を示すブロック図である。本発明の一実施形態に係る学習システムにおいて、画像と、それから起こる事象の関係を推論する例を示す図である。本発明の一実施形態に係る学習システムにおいて、画像と、それから起こる事象の関係から、撮影チャンスを推論する例を示す図である。本発明の一実施形態に係る学習システムにおいて、レックビューの表示時にユーザが画像を評価する様子を示す図である。本発明の一実施形態に係る学習システムにおいて、生成された推論モデルを用いて、推論を行った際の表示画像を示す図である。本発明の一実施形態に係る学習システムにおいて、撮影対象物を評価することを示す図である。本発明の一実施形態に係る学習システムにおいて、ユーザの行為の結果を評価する様子を示す図である。本発明の一実施形態に係る学習システムにおいて、カメラの制御動作を示すフローチャートである。本発明の一実施形態に係る学習システムにおいて、カメラの制御動作を示すフローチャートである。

ユーザが特定の関心事に対して推論モデルを利用したいとき、特定の視覚的なシーンに対して、何か情報を得たいというニーズが増加する。そこで画像を見ながら簡単に教師データを生成しようという要望が生じる。しかし、個々のユーザの意図に沿った推論モデルを生成するためには、特定の規格化を行い、単純化しななければ作業が複雑になる。以下の本発明の一実施形態に示すような例のような工夫を行うことにより、それぞれのシーンで、個々のユーザの様々な関心事に答えられる推論モデルを簡単に生成することが可能となる。

以下、本発明の一実施形態として、カメラ、学習部、および画像ファイル生成部とからなる画像ファイル生成システムについて説明する。この実施形態の概略は、以下の通りである。カメラは撮像部を有し、撮像部は画像を画像データに変換し、表示部は画像データに基づいて撮影後に確認用にクイックビュー画像を表示する。画像表示の際に、ユーザの関心事に関係する情報（例えば、図４に示す例では、「良い教師」「悪い教師」）を示すアイコンが表示される。ユーザが、画像についての判断結果に応じてアイコンを選択すると、この選択されたアイコンに基づくアノテーション用メタデータ付き画像ファイルが生成される。もちろん、アイコン等によって表示された項目内における二者択一ではなく、項目内の留意点や項目内の軸、あるいは項目内の特徴指定、項目内の方向性や重みなど、（例えば、良し悪し項目の）レベルを入力できる仕様でも良い。

図１Ａおよび図１Ｂは、本実施形態に係る画像ファイル生成システムの全体を示すブロック図である。この画像ファイル生成システムは、カメラ１００、画像ファイル生成部２００、および学習部３００を有する。

カメラ１００は、概略、いわゆるデジタルカメラであり、撮像部１０３を有し、この撮像部１０３によって被写体像を画像データに変換し、この変換された画像データに基づいて、被写体像を本体の背面に配置した表示部１０６にライブビュー表示する。撮影者はライブビュー表示を観察することによって、構図やシャッタタイミングを決定する。本撮影の指示操作時には、画像データが記録部１０５に記録される。記録部１０５に記録された画像データは、再生モードを選択すると、表示部１０６に再生表示することができる。

図１Ｂに記載のカメラ１００の詳細な構成について説明する。カメラ１００は、制御部１０１、操作部１０２、撮像部１０３、推論エンジン１０４、記録部１０５、表示部１０６、通信部１０７を有する。

操作部１０２は、ユーザがカメラに指示するための入力インターフェースである。操作部１０２は、レリーズ釦、電源スイッチ等の各種スイッチ、撮影モード設定用のモード設定ダイヤル等の各種ダイヤル、タッチ操作可能なタッチパネル等、種々の入力用の操作部材を有する。操作部１０２によって検出された操作部材の操作状態は、制御部１０１に出力される。操作部１０３（タッチパネルを含む）によって、後述する表示部１０６に表示するアイコンＩＣ１～ＩＣ３、ＩＣ１１～ＩＣ１３を選択することができる（図４～図６参照）。操作部１０２は、アイコンを選択するための選択部として機能する。

撮像部１０３は、光学系１０３ａと撮像素子１０３ｂを有する。光学系１０３ａは、撮影対象である被写体の光学像を形成するための光学レンズであり、フォーカスレンズやズームレンズ等を有する。撮像素子１０３ｂは光学像を光電変換し、画像信号を出力する。この他、撮像部１０３は、撮像制御回路、画像信号処理回路、絞り、シャッタ等の種々の回路や素子を有する。画像信号は、画像信号処理回路によってデジタルの画像データに変換され、制御部１０１および推論エンジン１０４等に出力される。撮像部１０３は、画像を画像データに変換し、該画像データを出力する撮像部として機能する（図８ＡのＳ３参照）。撮像部１０３は、画像に基づいて変換された画像データを入力する画像入力部（画像入力インターフェース）として機能する。

推論エンジン１０４は、推論モデルを記憶し、記憶された推論モデルを用いて、撮像部１０３から入力された画像データに対して推論を行う。推論モデルは、後述する学習部３００によって生成された推論モデルを、通信部１０７を通じて入力し、記憶する。推論エンジン１０４は、ネットワーク・デザイン１０４ａと管理情報１０４ｂを有する。

ネットワーク・デザイン１０４ａは、入力層と出力層の間に中間層（ニューロン）が配置されている。入力層には撮像部１０３によって取得された画像データが入力される。中間層としては、何層かのニューロンが配置されている。ニューロンの層の数は設計上適宜決められ、また各層におけるニューロンの数も設計上適宜決められる。中間層Ｎは、学習部３００によって生成された推論モデルに基づいて、重み付けがなされる。出力層には、入力層に入力された画像に応じて、画像評価情報が出力される。深層学習については、入出力モデル化部３０４を説明する際に一緒に説明する。

管理情報１０４ｂは、推論エンジン１０４内のメモリに記憶された情報である。管理情報１０４ｂは、ネットワーク構造、ウェイト、教師データ情報を含む。このうち、ネットワーク構造は、ネットワーク・デザイン１０４ａのニューロンの構造を規定するための情報である。ウェイトは、各ニューロンと各ニューロンの結合の重み付けに関する情報である。教師データ情報は、教師データの作成元、バージョン情報、教師データを作成したデータ母集合に関する情報等、教師データに関する情報である。これらの管理情報１０４ｂは、推論エンジン１０４内のメモリ以外にも、カメラ１００内の他のメモリに記憶するようにしてもよい。

記録部１０５は、電気的に書き換え可能な不揮発性メモリである。記録部１０５には、撮像部１０３から出力され、画像処理部１０１ｄによって記録用に画像処理が施された画像データ１０５ａを記憶する。この画像データ１０５ａは読み出され、画像処理部１０１ｄによって再生表示用の画像処理が施されたのちに、表示部１０６に再生表示される。

また、記録部１０５は、画像データ１０５ａの記憶領域の一部に、アノテーション用メタデータ付き画像ファイル１０５ｂを有する。アノテーション用メタデータ付き画像ファイル１０５ｂは、後述するように、深層学習の再に使用する教師データである。すなわち、図２ないし図８を用いて後述するように、撮影した際に、ユーザが画像データに教師データとして使用するために、アノテーションを行う。アノテーション用メタデータ付き画像ファイル１０５ｂは、このアノテーションが付された画像データである。

また、記録部１０５は、画像を記録するのみならず、様々なプログラムやパラメータなどを記録してもよく、本実施形態の特徴たる、「機械学習を依頼するための書式」の情報を記録してもよい。この情報は学習依頼部２００に学習を依頼するための機能であり、学習依頼部２００等と連携できるような記録を行えばよい。例えば、学習依頼部２００が、カメラ１００から受信した画像が、ユーザの意図する用途の推論モデル用の教師データとなるような設定をユーザが行いやすいように、表示制御部１０１ｆと連携して行ってもよい。表示例としては、図２や図３に示すようなタグ情報のように一覧表示でもよく、図４から図７に示すような項目別表示でもよい。

また、後述する図２、図３、および図７に示す例においては、時間の経過に応じた結果、例えば、猫が急に飛び出す、猫の表情や構図が良くなる、または車が事故を起こす等に基づいてアノテーション関係情報とする場合がある。このような情報を含めたアノテーション用メタデータ付き画像ファイルをファイル作成部１０１ａｂが作成し、アノテーション用メタデータ付き画像ファイル１０５ｂとして記録される。記録部１０５は、撮像部から出力される画像データに、時間の経過を示す情報を関連付けて記録する記録部として機能する。

表示部１０６は、ＬＣＤモニタ、有機ＥＬ等のディスプレイを有し、カメラ１００の外装に配置されており、または接眼部を通して観察可能な電子ビューファインダ（ＥＶＦ）である。表示部１０６には、撮像部１０３によって取得された画像に基づくライブビュー画像が表示され、また撮影後に撮影画像の確認用に所定時間の間、撮影画像が表示される（クイックレビューともいう）。また表示部１０６には、記録部１０５に記録された画像が再生表示され、また推論エンジン１０４による推論結果が表示される。

また、表示部１０６には、ライブビュー画像以外にも、例えば、図２、図３に示されるようなメタデータＭＤ１～ＭＤ３、図４～図６に示されるようなアイコンＩＣ１～ＩＣ３、ＩＣ１１～ＩＣ１３、図５～図７に示されるような推論結果に基づくアドバイスＭＥ１～ＭＥ６等が表示される。表示部１０６は、画像データに基づいて画像を表示すると共に、アノテーション関係情報に係るアイコンを表示する表示部として機能する（例えば、図８ＡのＳ１１参照）。また、表示部に表示されるアイコンは、アノテーション関係情報として使用しないことを指示するためのアイコンも含んでもよい（例えば、図４のアイコンＩＣ３参照）。表示部は、撮像部によって画像データを取得した後に、確認用に画像とアイコンを所定時間の間、撮影画像を表示する。

通信部１０７は、送信および受信を行うための通信回路を有する。通信部１０７は、学習依頼部２００内の通信部Ｂ２０３と通信を行うことができ、また学習部３００内の通信部Ａ３０５ａとも通信を行うことができる。通信部１０７は、ファイル作成部１０１ａｂにおいて作成されたアノテーション用メタデータ付き画像ファイルを、学習部３００に送信する通信部として機能する（例えば、図８ＢのＳ４７参照）。

制御部１０１は、ＣＰＵ（Central Processing Unit：中央処理装置）等を含み、種々の周辺回路を含むＡＳＩＣ（Application Specific Integrated Circuit：特定用途向け集積回路）で構成されたプロセッサである。制御部１０１は、記録制御部１０１ａ、設定制御部１０１ｂ、通信制御部１０１ｃ、画像処理部１０１ｄ、パラメータ制御部１０１ｅ、表示制御部１０１ｆを有する。これらの各部は、ハードウエア回路によって実現され、また一部はＣＰＵと不揮発性メモリに記憶されたプログラムに従って実現する。制御部１０１は、ＣＰＵとプログラムに従って、カメラ１００の全体を制御する。

また、制御部１０１内には、計時機能を有する時計部を有する。この時計部は、連続的な時間情報を取得する時計部として機能する。また、制御部１０１は、カメラ内の加速度センサ等、種々のセンサ（不図示）からの情報を入力するセンサ情報取得部を有し、これらのセンサの情報を取得する。このセンサ情報取得部は、連続的な時間に従って画像以外のセンサ情報を取得する。

記録制御部１０１ａは、記録部１０５に記録する画像データ等の記録を制御する。すなわち、撮像部１０３によって取得され、画像処理部１０１ｄによって処理された画像データの記録を制御する。

記録制御部１０１ａ内には、ファイル作成部１０１ａｂを有する。ファイル作成部１０１ａｂは、前述のアノテーション用メタデータ付き画像ファイル１０５ｂを作成する。このファイル作成部１０１ａｂは、画像記録する際に、画像データとその他の補助データ（アノテーション関係情報）を関連付けて画像ファイルを作成する。この画像ファイルは、機械学習の教師データとしての情報として画像関連情報を所定の規則に従ってデータを定義し、また整理することによって作成される。このファイル作成部１０１ａｂによって作成された画像ファイルは、記録部１０５内の領域にアノテーション用メタデータ付きの画像ファイル１０５ｂとして記録される。

上述のその他の補助データとしてのアノテーション関係情報は、ユーザの関心事、すなわちユーザが興味を持つ情報である。ファイル作成部１０１ａｂは、ユーザが手動でまたは自動的にアノテーション関係情報を入力するので、このアノテーション関係情報に基づいて、メタデータを作成し、画像データに添付してファイルを作成する。ユーザが手動でアノテーション関係情報を入力する方法としては、例えば、図４～図６において説明するようにアイコンをタッチ操作することによって入力してもよい。また、十字釦等によってアイコンを選択してもよく、その他、テキストを直接入力するようにしてもよい。また、制御部１０１内の画像処理部１０１ｄ等が画像を解析し、また図示しないセンサ等のセンサ出力に基づいて、アイコン関係情報を取得するようにしても良い。

ファイル作成部１０１ａｂは、ユーザの分類された関心事が推論結果として出力できるように、選択的に整理された情報を、上記画像データに対応するアノテーション関係情報として入力し、このアノテーション関係情報をメタデータとして、教師用データとする画像データに添付し、ファイル化するファイル作成部として機能する（例えば、図８ＡのＳ２５等参照）。ユーザの関心事が選択的に整理された情報となるように、推論モデル生成用のアノテーション情報が選択可能な情報信号を含んでいる（例えば、図２のメタデータＭＤ１，図３のメタデータＭＤ２、ＭＤ３、図４、図５および図６のアイコンＩＣ１～ＩＣ３参照）。ファイル作成部は、選択部によって選択されたアノテーション関係情報をメタデータとして、画像データに添付してファイル化する。ファイル作成部は、画像表示（例えば、クイックレビュー）を行うために所定時間の間表示され、選択部によって選択されたアイコンに基づいて、メタデータを添付したファイルを生成する（例えば、図４～図６のアイコンＩＣ、図８ＡのＳ２５参照）。

上述の選択的に整理された情報は、ユーザの関心事の入力として落ちや漏れがないように項目ごとに整理されている。また選択的に整理された情報は、学習装置への入力情報として規格化されて、情報の受け渡し際のインターフェースの整合性を良くするものである。本実施形態においては、項目が複数に分けられて整理されているが、すべての項目をユーザが選択する必要はなく、特定の項目のみを選ぶような仕様にも出来る。また、選択された項目の中の良し悪しや、客観、主観といった選択スイッチ（項目内の留意点や項目内の軸、あるいは項目内の特徴指定、項目内の方向性や重みなど）は単純に二者択一である必要はなく、度合いを入力するようなものでもよく、スライドバーやダイヤルなどで設定できるようにしてもよい。選択的に整理することは、項目ごとに数値を選択するという概念も含むものである。つまり、ユーザの分類された関心事が推論結果として出力できるように、項目として選択的に整理された情報を、画像データに対応するアノテーション関係情報として入力していると表現してもよく、項目別に整理された情報を、画像データに対応するアノテーション関係情報として入力していると表現してもよい。

ファイル作成部は、時間の経過に応じた結果をアノテーション関係情報に含めて教師用データを生成する（図２（ｂ）、図３（ｂ）、図８ＡのＳ２３、Ｓ２５参照）。ファイル作成部は、画像の対象物に変化が生じた際に、記録部に記録されている変化開始前の基準時刻における画像データに、結果に応じたアノテーション関係情報を添付してファイルを生成する（図２（ｂ）、図３（ｂ）、図７、図８ＡのＳ２３、Ｓ２５参照）。また、アノテーション関係情報についてみれば、ユーザの関心事が選択的に整理された情報となるように、推論モデル生成用のアノテーション関係情報が選択可能な情報信号を含んでいる。

アノテーション関係情報とは、例えば、以下のような情報である。
（ａ）その画像が、どのような用途の教師データか。
（ｂ）その教師データが良いことの推論用か、悪いことの推論用かを示した良し悪し情報。
（ｃ）その学習結果による推論や判定するものがその画像に関係するものか、画像そのものではなく、それに付随した事象かといった画像か事象か情報か。
（ｄ）先の良し悪し判定が主観によるものか客観的にそうなのか。
（ｅ）その良し悪しが判断されたタイミングが撮影前か、撮影そのものか、撮影後かといった判断タイミング。
（ｆ）その他に同様学習に使える画像があるかを示した関連画像群情報。
（ｇ）先の良し悪し判定が画像全体か画像部分か対象物かといった情報（画像内の位置指定情報）。
（ｈ）この画像をそのまま教師データとするかテストデータ（秘匿参考データ）等の情報。

これらのアノテーション関係情報について、整理が正しくされて装置間の受け渡しが出来る事が望ましく、これらの情報を項目ごとに、あるいは表形式などで整理した記録部を設ける事が望ましい。これが整理されていないと、ユーザは正しい項目ごとの特徴を指定等することが出来ず、落ちや漏れがあったり、同様の教師データを集めることが出来なくなったりするので、ユーザの関心事を反映した正しい学習結果を得ることが出来ない。総じてユーザの関心事が満たされる項目ごとに整理することによって、ユーザは正しく関心事を装置やシステムに入力したり確認したりすることが出来る。もちろん、全項目を確認する必要はなく、予め決まっている項目のみを入力してもよい。例えば、「この写真が好きな度合いを入力してください」という表示の後の数値入力などは、項目としては良い悪いの項目の重みを設定しているだけだが、これは主観に決まっており、その画像そのものであることに決まっている。こうした手動入力（音声などでも良い）で操作しない項目以外の項目が予め定まっている仕様でもよい。

このように、項目を整理して、それぞれの項目内の留意点や項目内の軸、あるいは項目内の特徴指定、項目内の方向性や重みなどを単純化して規格化すれば、多くのユーザから簡単に同じ学習用途の画像を集めて、豊富な教師データ群を形成することが出来る。画像データも特徴量のみにしたりリサイズしたりして管理すれば、個々の教師データは容量を少なくした取り扱いのしやすいデータあるいはファイルにすることが出来る。これらの工夫を行うことによって、学習時のスピードを速くすることが出来る。また、近年、教師データの質などによって、推論モデルが期待の出力を行わない事が問題になってきている。しかし、上述したようにデータを管理しやすくすることによって、質の悪いデータを排除することが出来る。教師データとして公開されたものが、改ざんされて悪用されるような問題もデータの規格化、単純化や見える化されるので、対応が取りやすくなる。また、分散システムによる相互監視などのシステムを利用することが可能となる。

設定制御部１０１ｂは、カメラ１００における各種設定を行う。各種設定としては、撮影モード等の設定や、推論エンジン１０４による推論の設定を行う。この設定された推論の内容は、仕様として、学習依頼部２００または学習部３００に送信される。仕様として、例えば、猫の写真を撮る際に、猫の目にピントを合わせ、可愛く撮れるようなアドバイスが欲しい場合に、ユーザが操作部１０２によって要望を入力すると、設定制御部１０１ｂは、このアドバイスを受けるに相応しい推論モデルを取得できるような設定を行う。

通信制御部１０１ｃは、通信部１０７による通信の制御を行う。学習依頼部２００や学習部３００は、インターネットを通じて接続可能である。通信制御部１０１ｃは、通信部１０７によって、学習依頼部２００および学習部３００と通信を行う際に、通信先、送信する情報、受信する情報等を設定する。

画像処理部１０１ｄは、画像処理回路を有し、撮像部１０３によって取得した画像データに対して、種々の画像処理を施す。例えば、画像処理回路は、画像データに対して露出補正やノイズ処理、ＷＢゲイン補正、輪郭強調、偽色補正等の様々な基本的な画像処理を施す。さらに、画像処理回路は、上述の画像処理を施した画像データに対して、ライブビュー画像表示用の画像処理を施し、また記録データ形式に変換する処理（現像処理）も行う。さらに、推論エンジン１０４による推論結果に基づく表示等も行う。

パラメータ制御部１０１ｅは、パラメータ制御回路を有し、撮影を行うための種々のパラメータ、例えば、絞り、シャッタ速度、ＩＳＯ感度、焦点距離等のパラメータを制御する。

表示制御部１０１ｆは、表示制御回路を有し、表示部１０６における表示の制御を行う。すなわち、１０１ｆは、画像処理部１０１ｄによって処理された画像データに基づく画像の表示を制御する。また、メニュー画面等の表示制御も行う。このメニュー表示は、一例として、図２（ｃ）や図３（ｃ）（ｄ）に図示した教師データ用のアノテーション情報を一覧表示するよう形式であってもよい。あるいはそれを一覧ではなく、図４～図７に示すような項目別設定が可能な形式であってもよく、種々の形式を含む。メニュー表示は、記録部１０５に整理されて記録された学習項目（ユーザの意図、関心事）を視認性、あるいは操作性よく表示するものである。また、この学習項目は学習依頼部２００内の仕様設定部２０４と連携しているので、機能の分担を行ってもよい。必要に応じて、学習依頼部２００側に、メニュー表示項目の情報を記録しておき、必要に応じて表示部１０６に表示できるようにしてもよい。

次に、図１Ａに記載の学習依頼部２００について説明する。学習依頼部２００は、例えば、インターネットを通じて、学習部３００やカメラ１００等に接続可能なサーバである。学習依頼部２００は、制御部２０１、画像分類記録部２０２、通信部Ｂ２０３、および仕様設定部２０４を有する。この学習依頼部２００は、カメラ１００によって取得された画像データから作成した教師データを記録するためのデータベース（画像分類記録部２０２）を有し、この記録されている画像データに基づく基準教師データ２０２ｂ、テストデータ２０２ｃを用いた推論を、学習部３００に依頼する。

画像分類記録部２０２は、電気的書き換え可能なメモリを有し、対象物種類Ａ画像群２０２ａを記録している。画像分類記録部２０２は、対象物を複数の分類に分けて画像データ等を記録している。図１Ａには、分類としては、対象物Ａのみを記載しているが、学習依頼部２００において適宜分類付けを行い、複数の対象物を分類分けして記録してもよい。対象部種類Ａ画像群２０２ａには、基準教師データ２０２ｂと、テストデータ２０２ｃが記録されている。

基準教師データ２０２ｂは、深層学習を行い、推論モデルを作成するための教師データである。教師データは、画像データと、この画像データに対してアノテーションによって付された情報からなる。例えば、猫の画像がある場合に、この猫であることを示す情報および猫の目の位置情報がアノテーションによって付されている。これらの基準教師データを用いて、深層学習を行うことによって、画像に猫がいれば、猫の目の位置を探し出す推論モデルを生成することができる。この基準教師データ２０２ｂには、猫等の分類情報が付与されている。

テストデータ２０２ｃは、基準教師データを用いて生成した推論モデルの信頼性を検出するために使用する教師データである。テストデータも、例えば、猫の目の位置を探し出す推論モデルであれば、基準教師データと同様に、画像に猫がいれば、猫の目の位置を示す情報が関連付けて記録されている。すなわち、教師データは学習部３００が推論モデルを作成する際に使用するデータであり、一方、テストデータは推論モデルをテストする際に使用するデータである。ユーザがカメラ１００で撮影する際に、テストデータを作成するようにしてもよい。また、ユーザによってカメラ１００で撮影された画像に限らず、学習依頼部２００が独自に収集したテストデータであってもよい。このテストデータ２０２ｃにも、猫等の分類情報が付与されている。

通信部Ｂ２０３は、送信および受信を行うための通信回路を有する。通信部Ｂ２０３は、カメラ１００内の通信部１０７と通信を行うことができ、また学習部３００内の通信部Ｂ３０５ｂとも通信を行うことができる。

仕様設定部２０４は、学習依頼部２００から学習部３００に深層学習によって推論モデルの生成を依頼する際に、その推論モデルの仕様を設定する。例えば、画像に猫がいればその猫の目の位置にピントが合ったり、また可愛く撮影できるような推論モデルの仕様を設定する。この設定された仕様は、通信部Ｂ２０３を通じて、学習部３００に送信され、この仕様に基づいて、学習部３００は推論モデルを生成する。なお、カメラ１００において、仕様を設定し、学習依頼部２００に推論モデル生成の仲介が依頼された場合には、カメラ１００からの仕様を、学習部３００に転送する。

ここで例示したような猫の目の判定は、画面内の特定の部位を探す、いわばユーザの主観とは関係せずに客観的な推論をすればよい、これに対して、可愛い猫の画像となると、特定の部位というより画面全体において表現される主観的な推論が必要となる。また、猫が可愛いと感ずる瞬間ではなく、可愛い仕草をする直前に、このことを知らせるための推論をして欲しいというニーズもある。このニーズに対しては、現在の画像そのものではなく、今後、そうした画像が得られるであろうという未来の推論といった別種の推論モデルが必要となる。

このように様々な要望を整理しないと、ユーザが求めるような正しい推論モデルを得ることは出来ない。そこで、仕様設定部２０４が、適度に規格化された設定を受け付けて、ユーザの意図を正しく反映した推論モデルを得るための学習の仕様を設定できるようにしている。仕様設定部２０４内には、仕様設定記録部２０４ａが設けられている。この仕様設定記録部２０４ａは、電気的に書き換え可能なメモリを有し、ユーザの求める推論モデルの仕様をパターン化して分類して記録しており、ユーザに推論モデルの仕様を提示可能にしている。予め、各整理された各項目を選べるように、分類された情報がここに記録されている。仕様設定記録部２０４ａには、項目別に二者択一が可能な選択が可能なように、できるだけ概念が対となって対称的に並べて表示できるように、あるいは０か１で単純化して管理（そうでなくともよい）できるように項目内分類が行われて、これらの情報が記録されている。このように、対称的な項目内分類を可能にするように、学習時の教師データ画像の仕様の項目が、仕様設定記録部２０４ａに整理され記録されている。

上述したような項目別整理を行うことによって、いわば要求仕様の符号化、あるいは単純記載化が可能になる。仕様をそのまま記録するより、上述したような類型化し、単純化した符号に変換して取り扱った方が、要求事項の要所を表しながら記載が単純化され、容量も減り、管理が容易になる。例えばブロックチェーンのブロックを利用する際に、教師データの取り扱いや管理が容易になる。ブロックチェーンを利用する時は、画像データやメタデータを統合データとしてもよく、ユーザの関心事が整理されて推論結果として出力できるように、アノテーション関係情報として入力可能にしている。このアノテーション関係情報をメタデータとして、画像データに添付した統合データをブロックチェーン管理する時のブロックとして生成すれば、ブロックチェーンでも扱うのが簡単になる。もちろんブロックチェーンならずとも分散管理や中央集権管理のシステムを採用してもインフラ構築や運営の負担を減らすことが出来る。

仕様設定部２０４はカメラの表示制御部１０１ｆと連携し、表示部１０６に、図２や図３で説明するような表示を行う。この表示によって、表示中の画像が、どのような推論モデルの学習に使用する教師データにするかを設定可能にしている。つまり、図２（ｃ）や図３（ｃ）（ｄ）内のメタデータ部ＭＤ１～ＭＤ３においてスラッシュで示したように、様々な仕様をわかりやすく二者択一のデータとして整理できるような表示を行うことが可能となっている。設定仕様は一覧表示してもよく、図４～図７に示すように項目ごとに表示してもよい。

設定仕様を表示部１０６に表示すると、ユーザがこれを見ながら、どのような意図の推論モデルが欲しいかを設定することが出来る。例えば、後述する図２、図３に示すように、設定仕様の選択が単純であれば、多くの項目を分かり易く一覧で表示することができ、いずれを選択したか、あるいは選択されていないかを直感的に把握することができる。本実施形態においては、画像入力時に、ユーザの関心事が推論結果として出力できるようするために、画像データに対するアノテーション関係情報として入力できるようにしている。このアノテーション情報は規格化し易いように、選択可能に整理された情報としている。アノテーション関係情報をメタデータとして、教師用データとする画像データに添付すれば、この画像は簡単に教師データ化が可能となる。

アノテーション関係情報は、（１）その画像から得られる情報が、良い事象か悪い事象か、あるいはその画像が良い画像の教師データか悪い画像の教師データかを示す良し悪し情報、（２）判定するものが画像か事象かの情報、（３）これらの判定が主観か客観かの情報、（４）画像から得られる事象などが、その画像と同時に起こっている事象かそうでないかを示す、判断タイミングの情報（撮影タイミングかそれ以外かの情報）、（５）良し悪し判定が画像全体か画像部分か対象物かの情報、（６）教師データとするかテストデータとするかの情報である。上述の（１）～（６）の少なくとも１つの項目において、選択可能な情報とし、そこで選択された情報をアノテーション用に含むようにすればよい。また、複数の判断がなされる推論モデルを生成する場合には、優先度を選択できるようにしてもよい。この場合、アノテーション関係情報は、さらに、推論モデルの用途を指定するための用途情報もしくは関連画像群情報の少なくともいずれかを含むようにすれば、複数の教師データを集めて高精度で推論可能な推論モデルを得ることが出来る。

上述したような工夫によって、画像を入力して推論するための推論モデルを生成する際に使用する、学習用の教師データに付されるアノテーション情報について、ユーザの関心事として選択的に整理された情報として利用できる。個々のユーザが持つそれぞれの関心事に対応した推論モデルを生成するには、ユーザの手元にある画像を使用して、推論モデルの仕様を決定するのが手っ取り早く分かり易い。しかし、単純に画像（ファイル）から教師データを生成しようとすると、多種多様な要望をこまごまと記載しなければならず、一般のユーザには難易度が高い。このため、仕様設定の規格化を行えば難易度が低くになり、個々のユーザの様々な関心事に答えられる推論モデルを生成することが可能となる。なお、このような仕様設定は、学習依頼部２００が必ずしも全てを司る必要はなく、カメラ１００など端末側が仕様設定の管理を行い、また学習依頼部２００と連携してもよい。

推論エンジン２０５は、推論モデルを記憶し、記憶された推論モデルを用いて、入力された画像データに対して推論を行う。推論モデルは、後述する学習部３００によって生成され推論モデルを、通信部Ｂ３０５ｂを通じて入力し、記憶する。推論エンジン２０５は、推論エンジン１０４と同様に、ネットワーク・デザインを有し、管理情報１０４ｂと同様の管理情報を記憶するようにしてもよい。また、入出力モデル化部３０４内の信頼性判定部３０４ａと同様の信頼性判定部を有していてもよい。

推論エンジン２０５内のネットワーク・デザインは、ネットワーク・デザイン１０４ａと同様に、入力層と出力層の間に中間層（ニューロン）が配置されている。入力層には画像データが入力される。中間層としては、何層かのニューロンが配置されている。ニューロンの層の数は設計上適宜決められ、また各層におけるニューロンの数も設計上適宜決められる。中間層は、学習部３００によって生成された推論モデルに基づいて、重み付けがなされる。出力層には、入力層に入力された画像に応じて、画像評価情報が出力される。深層学習については、入出力モデル化部３０４と一緒に説明する。

制御部２０１は、ＣＰＵ（Central Processing Unit：中央処理装置）等を含み、種々の周辺回路を含むＡＳＩＣ（Application Specific Integrated Circuit：特定用途向け集積回路）で構成されたプロセッサである。制御部２０１は、ＣＰＵとプログラムに従って、学習依頼部２００の全体を制御する。なお、仕様設定部２０４は、制御部２０１内のＣＰＵとプログラムによって実現してもよく、また通信部Ｂ２０３等を制御する通信制御部等、各種の機能を有してもよい。

次に、学習部３００について説明する。学習部３００は、例えば、インターネットを通じて、学習依頼部２００やカメラ１００等に接続可能なサーバであり、カメラ１００、学習依頼部２００等、外部から依頼を受けて、推論モデルを生成する。学習部３００は、制御部３０１、母集合作成部３０２、基準教師データ記録部３０３、入出力モデル化部３０４、通信部Ａ３０５ａ、および通信部Ｂ３０５ｂを有する。この学習部３００は、カメラ１００または学習依頼部２００から依頼された仕様に従って、教師データを用いて推論モデルを生成する。この生成した推論モデルは、通信部Ａ３０５ａ、通信部Ｂ３０５ｂを通じて外部の機器（学習依頼部２００、カメラ１００）に送信される。

基準教師データ記録部３０３は、電気的に書き換え可能な不揮発性メモリであり、学習依頼部２００から送信されてきた基準教師データ２０２ｂを記録する。また、カメラ１００によって教師データが作成された場合には、この教師データを記録する。後述するように、カメラ１００または学習依頼部２００から推論モデルの生成を依頼されている場合には、母集合作成部３０２は教師データ（学習用データ）を生成する際に、基準教師データを含めて教師データを作成し、または教師データを参考にし、教師データを作成する。

母集合作成部３０２は、深層学習を行う際の母集合（教師データ、学習用データ）を作成する。母集合作成部３０２は、制御部３０１内のプロセッサによって、ハードウエア的にデータベースから母集合となる教師データを作成してもよく、また制御部３０１内のプロセッサによって、ソフトウエア的にデータベースから母集合となる教師データを作成してもよい。母集合作成部３０２は、学習部３００内に深層学習に使用できる画像データや、また他のサーバ等に蓄積された画像データ等を用いて、深層学習用の教師データを作成する。前述したように、カメラ１００または学習依頼部２００から推論モデルの生成を依頼されている場合には、基準教師データ記録部３０３に記録されている基準教師データを含めて、または基準教師データを参考にし、深層学習用の母集合（教師データ）を作成する。教師データは、入出力設定３０２ａの情報が付与されている。すなわち、教師データは、深層学習の際に入力するデータと、出力結果（正解）が予め設定されている。

入出力モデル化部３０４は、機械学習用プロセッサを有し、所謂人工知能（ＡＩ）を用いて深層学習を行い、推論モデルを生成する。具体的には、入出力モデル化部３０４は、母集合作成部３０２によって作成された画像データの母集合を用い、推論モデルを深層学習によって生成する。深層学習（ディープラーニング）は、入出力の関係を学習可能な関数近似器である。

入出力モデル化部３０４は、推論エンジン１０４のネットワーク・デザイン１０４ａと同様の構成を有する。入力層に母集合作成部３０２に作成された画像データを入力する。また、出力層に、画像の評価結果、例えば、教師データ（正解）を与える。入力と出力が一致するように、ネットワーク・デザイン内の各ニューロンの結合の強さ（重み付け）を算出することによって推論モデルを生成する。なお、本実施形態においては、入出力モデル化部３０４は、深層学習によって推論モデルを生成するが、深層学習に限られず、機械学習であればよい。また、推論モデル化部３０３は、ネットワーク・デザイン等のハードウエア回路でなくても、制御部３０１内のプロセッサによって、ソフトウエア的に推論モデルを生成してもよい。

また、入出力モデル化部３０４は、信頼性判定部３０４ａを有する。信頼性判定部３０４ａは、入出力モデル化部３０４によって生成された推論モデルの信頼性を判定する。信頼性の判定は、例えば、ＬＯＳＳ値等を算出し行う。ＬＯＳＳ値は、予め正解（例えば、挿入時ＯＫまたはＮＧ）が分かっている練習問題で深層学習を行った場合に、深層学習で生成された推論モデルでの推論結果と、予め分かっている正解との差異である。

ここで、深層学習について、説明する。「深層学習（ディープ・ラーニング）」は、ニューラル・ネットワークを用いた「機械学習」の過程を多層構造化したものである。情報を前から後ろに送って判定を行う「順伝搬型ニューラル・ネットワーク」が代表的なものである。順伝搬型ニューラル・ネットワークは、最も単純なものでは、Ｎ１個のニューロンで構成される入力層、パラメータで与えられるＮ２個のニューロンで構成される中間層、判別するクラスの数に対応するＮ３個のニューロンで構成される出力層の３層があればよい。入力層と中間層、中間層と出力層の各ニューロンはそれぞれが結合加重で結ばれ、中間層と出力層はバイアス値が加えられることによって、論理ゲートを容易に形成できる。

ニューラル・ネットワークは、簡単な判別を行うのであれば３層でもよいが、中間層を多数にすることによって、機械学習の過程において複数の特徴量の組み合わせ方を学習することも可能となる。近年では、９層～１５２層のものが、学習にかかる時間や判定精度、消費エネルギーの観点から実用的になっている。また、画像の特徴量を圧縮する、「畳み込み」と呼ばれる処理を行い、最小限の処理で動作し、パターン認識に強い「畳み込み型ニューラル・ネットワーク」を利用してもよい。また、複雑な情報を扱え、順番や順序によって意味合いが変わる情報分析に対応し、情報を双方向に流れる「再帰型ニューラル・ネットワーク」（全結合リカレントニューラルネット）を利用してもよい。

これらの技術を実現するために、ＣＰＵやＦＰＧＡ（Field Programmable Gate Array）等の従来からある汎用的な演算処理回路を使用してもよい。しかし、これに限らず、ニューラル・ネットワークの処理の多くが行列の掛け算であることから、行列計算に特化したＧＰＵ（Graphic Processing Unit）やTensor Processing Unit（TPU）と呼ばれるプロセッサを利用してもよい。近年ではこのような人工知能（ＡＩ）専用ハードの「ニューラル・ネットワーク・プロセッシング・ユニット（ＮＰＵ）」がＣＰＵ等その他の回路とともに集積し、組み込み可能に設計され、処理回路の一部になっている場合もある。

その他、機械学習の方法としては、例えば、サポートベクトルマシン、サポートベクトル回帰という手法もある。ここでの学習は、識別器の重み、フィルター係数、オフセットを算出するものあり、これ以外にも、ロジスティック回帰処理を利用する手法もある。機械に何かを判定させる場合、人間が機械に判定の仕方を教える必要がある。本実施形態においては、画像の判定を、機械学習によって導出する手法を採用したが、そのほか、人間が経験則・ヒューリスティクスによって獲得したルールを適応するルールベースの手法を用いてもよい。

通信部Ａ３０５ａと通信部Ｂ３０５ｂは、共に送信および受信を行うための通信回路を有する。通信部Ａ３０５ａは、カメラ１００内の通信部１０７と通信を行うことができる。通信部Ｂ３０５ｂは、学習依頼部２００内の通信部Ｂ２０３と通信を行うことができる。

制御部３０１は、ＣＰＵ（Central Processing Unit：中央処理装置）等を含み、種々の周辺回路を含むＡＳＩＣ（Application Specific Integrated Circuit：特定用途向け集積回路）で構成されたプロセッサである。制御部３０１は、ＣＰＵとプログラムに従って、学習部３００の全体を制御する。なお、母集合作成部３０２および入出力モデル化部３０４は、制御部３０１内のＣＰＵとプログラムによって実現してもよく、また通信部Ａ３０５ａ、通信部Ｂ３０５ｂ等を制御する通信制御部等、各種の機能を有してもよい。

次に、図２を用いて、撮影時にアノテーション（メタデータの付与）を行う例について説明する。図２に示す例では、画像とそれから起こる事象の関係を推論する例を説明する。つまり、画像は観賞やそこに記録されたものの記録のためではなく、これから起こる事象の原因となる状況を表したものであるとして使用される。すなわち、実際に画像に示されたことが何に（どんな事象に）繋がるかを予測するための学習に画像を利用する。

図２に示す例は、自動車走行方向を撮像し、いわばドライブレコーダーにデジタルカメラ１００を利用する。図２（ａ）に示すように、ドライバが車を運転しており、車の前方をモニタするカメラ１００が配置されている。カメラ１００の撮影画角内に、猫４１１が特定のタイミングで特定の大きさで特定の場所に現れた場合（また、その向きが走行方向を向いている場合）、急ブレーキをかけなければならない可能性がある。そのような可能性は猫４１１のスピードなどによっても変化する。そこで、本実施形態においては、カメラ１００によって取得した画像に、写った猫の姿勢４１１などを、ＡＩによって推論し、危険度を知らせる。

特定の仕様の撮影レンズを想定すれば、猫４１１の撮影画像内の大きさが距離情報になる。画像と急ブレーキ特有の加速度をカメラ１００に内蔵されている、あるいは車に搭載されている加速度センサ（Ｇセンサ）などで検出する。図２（ｂ）のグラフは、横軸に時間をとり、縦軸に加速度の変化を示す。また、グラフの上側には、カメラ１００によって取得された画像を時間の流れに沿って並べてある。この図において、時刻０ｓｅｃは、ドライバが危険を感じて急ブレーキをかけたタイミングであり、時刻（－Ｙｓｅｃ）は、０ｓｅｃよりもＹｓｅｃ前であり、基準となるタイミングである。

このような加速度変化がある場合に、撮像された画像に加速度情報等の情報を記録する。図２（ｃ）に、この情報をメタデータＭＤ１として画像Ｐ１１に関連付けた危険予告用の教師データ（画像ファイル）を示す。図２（ｄ）は、（加速度変化）情報付きの画像Ｐ１１を教師データとし、推論モデルを作る例を示す。このような教師データで得られた推論モデルでは、図２（ａ）に示すように、事前にユーザに音声や表示などで、急ブレーキの予想を伝え、それに備える心構えなり回避行動をとることを促す車載システムを提供可能である。

図２（ｃ）は、このようなシーンで検出して欲しい画像（があらわす事象）を画像ファイルにして、メタデータに教師データにする際、あるいはテストデータにする際のメタデータ（ファイル）ＭＤ１の構成例を示す。簡略化した構成図であるが、図２（ｃ）には、いくつかの主な書き込み情報例を示す。何の用途かというと（アクシデント等の）「予測」で要注意すべき例なので、「ＮＧ」とした。したがって、また、この画像を見て、画像そのものの品質等を確認する用途ではないので、これは、何かの「事象」の学習用である、とした。また、主観的な判定ではなく急ブレーキという事象が起こりうるという客観的な考察であるゆえ、「客観」であることを示した。また、このタイミングではなく、続いて起こることを学習するゆえ、タイミングは「３秒」としている。つまり、このような画像のメタデータは、３秒の経過後に改めて画像に付与されるような工夫が必要となる。また、図示していないが、メタデータＭＤ１には、外部依頼学習用の教師データとするか、秘匿参考データとするかの情報も作成するとよい。

撮像部１０３によって得られた画像データは、図２（ｃ）に示すように、スラッシュで表示することによって、二者択一のデータとして整理可能となっている。このような表示を行っているため、ユーザは容易に選択することができ、コンピュータ等の制御手段にとっても扱いやすく、また、設定を記録するにも小容量で済むといったメリットが得られる。また、図２（ｃ）に示すように、選択が単純であれば、多くの項目を分かり易く一覧で表示しやすく、いずれを選択したか、あるいは選択されているかが直感的に把握しやすい。つまり、画像を利用して推論モデルを得る、あるいは推論モデルを使用する時に、推論モデルがどのようなものであるかが分かり易くなる。これは、ユーザが推論モデルに期待するユーザの関心事の推論を分類しているためである。

このように、本実施形態においては、画像入力時に、ユーザの関心事が推論結果として出力できるようするために、画像データに対するアノテーション関係情報として入力できるようにしている。このアノテーション情報は規格化し易いように、選択可能に整理された情報としている。アノテーション関係情報をメタデータとして、教師用データとする画像データに添付すれば、この画像は簡単に教師データ化が可能となる。アノテーション結果と画像が離れ離れにならないようにするために、画像データとメタデータ（補い合うデータ）の関係にすればよく、本実施形態においては、画像ファイル化している。

アノテーション関係情報は、（１）その画像から得られる情報が、良い事象か悪い事象か、あるいは、その画像が良い画像の教師データか悪い画像の教師データかを示す良し悪し情報、（２）判定するものが画像か事象かの情報、（３）これらの判定が主観か客観かの情報、（４）画像から得られる事象などが、その画像と同時に起こっている事象かそうでないかを示す、判断タイミングの情報（撮影タイミングかそれ以外かの情報）、（５）良し悪し判定が画像全体か画像部分か対象物かの情報、（６）教師データとするかテストデータとするかの情報である。上述の（１）～（６）の少なくとも１つの項目において、選択可能な情報とし、そこで選択された情報をアノテーション用に含むようにすればよい。また、複数の判断がなされる推論モデルを生成する場合には、優先度を選択できるようにしてもよい。この場合、アノテーション関係情報は、さらに、推論モデルの用途を指定するための用途情報もしくは関連画像群情報の少なくともいずれかを含むようにすれば、複数の教師データを集めて高精度で推論可能な推論モデルを得ることが出来る。

上述したような工夫によって、画像を入力して推論するための推論モデルを生成する際に使用する、学習用の教師データに付されるアノテーション情報について、ユーザの関心事として選択的に整理された情報として利用できる。つまり、選択可能な情報信号を含む画像ファイル生成装置を提供でき、この画像ファイル生成装置は、様々な用途の推論モデルを作成可能な画像データやその規格を作ることが出来る。個々のユーザが持つそれぞれの関心事に対応した推論モデルを生成するには、「百聞は一見にしかず」であり、ユーザの手元にある画像を使用して、推論モデルの仕様を決定するのが手っ取り早く分かり易い。しかし、単純に画像（ファイル）から教師データを生成しようとすると、多種多様な要望をこまごまと記載しなければならず、一般のユーザには難易度が高い。個々のユーザの意図に沿った推論モデルを生成するには、本実施形態で説明するような規格化を行えば容易になり、個々のユーザの様々な関心事に答えられる推論モデルを生成することが可能となる。

図２（ｃ）に示すようなメタデータが関連付けれた画像データを教師データとして、図２（ｄ）に示す入出力モデル化部３０４内のネットワーク・デザイン３０４ｄにおいて、深層学習することによって、推論モデルを生成することができる。この推論モデルは、時刻（－Ｙｓｅｃ）における画像に対して、危険が迫っていることの警告を行うことができる。

次に、図３を用いて、撮影時にアノテーション（メタデータの付与）を行う他の例について説明する。図３は、図２と同様の予測関連の学習例である。図３は、図２と同様の考え方でありながら、アクシデント予想ではなく、「手本」となるような画像の撮影チャンスがあるかどうかの予測を推論モデルで行う。したがって、撮影チャンスという事象を予測しているともいえる。このため、画像に写っている対象物の猫の画像が撮れるかどうかということで画像予測のメタデータが画像データに関連付けられている。

猫の歩き方を見て、これは、これから座ったり寝転んだりするであろうことが、例えば、飼い主であれば予測できる場合がある。このような予測は推論が可能と考えられ、飼い主以外のユーザには貴重な情報となる。これがないと待つ価値があるかどうかわからず、結局、撮影のチャンスを失う。一般に、猫が丸くなった時の写真は、猫の写真で人気の姿勢であるため手本画像とする。必ずしも上手なものでなくとも、このような画像を撮影したいというサンプル、あるいはその種のとなってカメラメーカにとっても参考になる。

図３は、猫が丸くなった時の画像が出来るタイミングが近いかどうかをユーザに伝える例である。これによって、ユーザの待機時間の無駄を節約等できる。図３（ａ）は、ユーザがカメラ１００によって猫４１１を撮影する様子を示す。図１３（ｂ）は、時間毎に撮影画像を並べ、またそのときの画像に対する満足度の経時的変化を示す。時刻（－Ｘｓｅｃ）は基準時刻を示し、０ｓｅｃはユーザの画像に対する満足度が大きくなるタイミングを示す。

図３（ｃ）（ｄ）は、画像データに関連付けられる教師データ用メタデータの例を示す。図３（ｃ）は、時刻（－Ｘｓｅｃ）において撮影された画像Ｐ１２であり、教師データ用メタデータＭＤ２が作成され、画像Ｐ１２のデータに関連付けられる。図３（ｄ）は、基準時刻である時刻（０ｓｅｃ）において撮影された画像Ｐ１３であり、教師データ用メタデータＭＤ３が作成され、画像Ｐ１２のデータに関連付けられる。

撮影の決定的瞬間の画像そのものも、これはユーザが良いと思って撮影した画像ですよ、という教師データとなるので、主観的にＯＫの画像としてメタデータは記載される。図２と同様に、ある特定の状況において推論して欲しい未来が予測できるような学習が出来るように、図２（ｂ）に示すように、時刻（－Ｘｓｅｃ）におけるタイミングで、実際の撮影に先立って得た画像を図３（ｄ）に示すように画像ファイルにしている。ここでのメタデータに、この画像ファイルを教師データにする際、あるいはテストデータにする際のファイル構成例を示す。なお、ユーザが画像を外部に出すリスクや心情的な抵抗感があるかどうかを手動設定や音声入力等で教師データにするか参考データにするか決めてよい。これは、対象物が猫ならば良いが、人物だと肖像権があってまずい、といった判断を自動または手動で行うことが出来る。顔検出によって、対象物が人かそれ以外かは判定できる。対象物が人の場合には、顔がわからないような補正を施してもよく、また人をアバター化して教師データにしてもよい。

図３（ｃ）（ｄ）に、簡略化した構成図であるが、いくつかの主な書き込み情報例を示す。何の用途かというとベストショットタイミングが来るよ、という吉兆の例なので、ＯＫとした。したがって、また、この画像を見て、画像そのものの出来栄えを確認する用途なので、これは、何か画像関連の学習用である、とした。また、主観的な良し悪しによってベストショットとしているゆえ、「主観」であることを示した。このベストショットタイミングそのもの画像は図３（ｃ）に示すようにタイミング情報は０とした。これから起こるチャンスに関連する図３（ｄ）のような画像のファイルには、この撮影タイミングにおける何かではなく、続いて起こることを図３（ｅ）のような推論モデルを得るために学習するゆえ、タイミングは例えば３秒後としている。また、図示していないが、メタデータＭＤ１には、外部依頼学習用の教師データとするか、秘匿参考データとするかの情報も作成するとよい。このような画像ファイルを作成するにも、このような画像のメタデータは、３秒の経過後に改めて画像に付与されるような工夫が必要となる。

図３（ｃ）（ｄ）に示すような、撮影ガイド用に画像ファイルを作成すると、このメタデータが関連付けれた画像データを教師データとして、図３（ｅ）に示す入出力モデル化部３０４内のネットワーク・デザイン３０４ｄにおいて、深層学習することによって、推論モデルを生成することができる。この推論モデルは、時刻（－Ｘｓｅｃ）における画像に対して、ベストタイミングまで、どの位待てばよいかをアドバイスすることができる。

撮像部１０３において取得した画像データは、図３（ｃ）（ｄ）に示すメタデータＭＤ２、ＭＤ３においてスラッシュで表示したように、二者択一のデータとして整理可能となっている。このような表示を行っているため、ユーザが容易に選択でき、またコンピュータなど制御手段にとっても扱いやすく、記録するにも小容量で済むといったメリットが得られる。選択が単純であれば、多くの項目を分かり易く一覧で表示でき、いずれを選択したか、あるいはいずれが選択されていないかを直感的に把握できる。つまり、画像を利用した推論モデルを得る、あるいは画像を利用した推論モデルを使用する時に、その推論モデルがどのようなものであるかが分かり易くなる。つまり、メタデータＭＤ２、ＭＤ３の選択は、ユーザが推論モデルに期待するユーザの関心事を分類しているということである。

このように、本実施形態においては、画像入力時に、ユーザの関心事が推論結果として出力できるようにするために、画像データに対するアノテーション関係情報として入力できるようにしている。このアノテーション関係情報は規格化し易いように、選択可能に整理された情報としている。アノテーション関係情報をメタデータとして、教師用データとする画像データに添付すれば、この画像データは簡単に教師データ化が可能となる。このアノテーション結果と画像データが離れ離れにならないようにするために、メタデータ（補い合うデータ）の関係にすればよく、本実施形態においては、画像ファイル化している。

アノテーション関係情報は、図２の場合と同様に、前述した（１）～（６）の少なくとも１つの項目において、選択可能な情報とし、そこで選択された情報をアノテーション用に含むようにすればよい。また、複数の判断がなされる推論モデルを生成する場合にも、図２の場合と同様に、優先度を選択できるようにしてもよい。

上述したような工夫によって、画像を入力して推論モデルを生成する際に使用する、学習用の教師データに付されるアノテーション情報について、ユーザの関心事として選択的に整理された情報として利用できる。つまり、選択可能な情報信号を含む画像ファイル生成装置を提供でき、この画像ファイル生成装置は、様々な用途の推論モデルを作成可能な画像データやその規格を作ることが出来る。

個々のユーザが持つそれぞれの関心事に対応した推論モデルを生成するには、百聞は一見にしかずで、ユーザの手元にある画像を仕様して、推論モデルの仕様を決定するのが手っ取り早く分かり易い。しかし、単純に画像（ファイル）から教師データを生成しようとすると、多種多様な要望をこまごまと記載しなければならず、一般のユーザには難易度が高かい。個々のユーザの意図に沿った推論モデルを生成するには、本実施形態で説明するような規格化を行えば容易になり、個々のユーザの様々な関心事に答えられる推論モデルを生成することが可能となる。

次に、図４を用いて、撮影時に行うアノテーションの別の例を示す。この図４に示す例は、ユーザが撮影後に表示部１０６に表示されたレックビュー画像を見て、ユーザの関心事（意図）が反映したアノテーションを画像データに関連付けるようにしている。レックビュー画像は、撮影終了後に撮影者が撮影画像を確認するために所定時間の間、表示される画像である。なお、このアノテーション付けは、レックビューの表示時に限らず、記録部１０５に記録された画像を再生表示する際に行っても勿論構わない。

図４に例示するように、その画像を良い画像の例とするか悪い画像の例とするかは、ユーザは撮影時には考えていないのが通常である。単に教師データにしなければ、という意志ばかりが働いてしまうと、機械学習を行う場合に、ユーザの意図が伝わらず、必要とされない学習モデルが出来てしまう可能性がある。例えば、こんな画像はもう撮りたくない（同じ間違いはしない）、と思って教師データ化する場合と、これはたまたま良いのが撮れたから、これからは成功率を上げようと思って教師データ化する場合があることを、ユーザに理解してもらい、正しい教師データ化を行ってもらう必要がある。

そこで、ユーザが求めているような正しい推論モデルを得られるように、図１Ａに示す仕様設定部２０４が、カメラ１００の表示制御部１０１ｆと連携して、適度に規格化された設定を受け付けるようにしている。これにより、ユーザの意図を正しく反映した推論モデルを得るための学習の仕様が、設定できる。つまり、図２（ｃ）や図３（ｃ）（ｄ）内のメタデータ部ＭＤ１～ＭＤ３においてスラッシュで示したように、様々な仕様を分かり易く二者択一のデータとして整理できるような表示を行うことが可能としている。図４においては、更に、そもそも教師データにする気はないという意志も入れられる例を示している。図４では、項目ごとに大きくアイコンを表示した例を示しているが、設定仕様はこれに限らず、例えば、一覧表示してもよい。後述する図５、図６においても図４と同様に、項目を対となる概念で分類し、二者択一的に選択できるようにしている。これらの項目は、カメラ１００に設けられたタッチパネルやスイッチによって切り替えるようにしてもよい。

図４において、表示画像ＩＤ１～ＩＤ４は、表示部１０６に表示されたレックビュー画像である。表示画像ＩＤ１～ＩＤ３の画面中に３つのアイコンＩＣ１～ＩＣ３が表示される。アイコンＩＣ１は教師データとして良い教師画像を意味し、アイコンＩＣ２は教師データとして悪い教師画像を意味し、アイコンＩＣ３は教師画像データとして使用しないことを意味する。

表示画像ＩＤ１は、猫４１１ａが適正露光で、しかも構図もユーザの好みで撮影された例である。このような画像であることから、ユーザは、撮影する際に、良い画像として教師データにしてもよいと考える。そこで、ユーザは、「良い教師データ」であることを示すアイコンＩＣ１を選択する。この選択方法としては、表示部１０６にタッチパネルが設定してあれば、ユーザがタッチ操作によって選択してもよく、また操作部１０２内の十字釦を操作することによってアイコンＩＣ１を選択してもよい。

表示画像ＩＤ１に対して、ユーザがアイコンＩＣ１（「良い教師」）を選択すると、次に、画像ＩＤ４が表示部１０６に表示される。この画像ＩＤ４は、画像の分類付けを行うための画面であり、アイコンＩＣ１１～ＩＣ１３が表示される。すなわち、アイコンＩＣ１１は分類として「ペット」を設定し、アイコンＩＣ１２は分類として「風景」を設定し、アイコンＩＣ１３は分類として「ポートレート」を設定する。カメラ１００の制御部１０１は、表示画像の画像解析を行い、分類の候補としてアイコンＩＣ１１～１３を表示すればよい。ユーザ自らの意図に沿った分類を選択すればよい。

次に、表示画像ＩＤ２は、猫４１１ｂの構図は悪くはないが、露光が適正で撮影されなかった例である。このような画像であることから、ユーザは、撮影する際の悪い画像として教師データにしても良いと考える。そこで、ユーザは、「悪い教師データ」であることを示すアイコンＩＣ２を選択する。この選択方法はアイコンＩＣ１の場合と同様、タッチ操作や操作部材の操作等によって行えばよい。悪い教師データとして使用する場合であっても、表示画像ＩＤ４と同様に、ペット等の分類付けを行う。

表示画像ＩＤ３は、猫４１１ｃの露光は適正ではないが、構図に面白みのある例である。ユーザは、このような画像を、撮影する際の良い画像として教師データとしても良いと考える。そこで、ユーザは、「良い教師データ」であることを示すアイコンＩＣ１を選択する。この選択方法はアイコンＩＣ１の場合と同様、タッチ操作や操作部材の操作等によって行えばよい。この例は、ユーザの主観によって選択されるもので、自動判定が難しいといえる。このため、図４（ｃ）に示すように、良し悪し判定をしやすい表示を行って、正しい意図を学習依頼可能にしたことが望ましい。

ユーザが、アイコンＩＣ１～ＩＣ３のいずれかを選択すると、画像データに対して、アイコンＩＣ１～ＩＣ３に応じたアノテーションが関連付けられ、アノテーション用メタデータ付き画像ファイル１０５ｂとして、記録部１０５に記録される。カメラ１００は、このアノテーション用メタデータ付き画像データを教師データとして、学習依頼部２００を通じて、または直接学習部３００に送信する。学習部３００の入出力モデル化部３０４は、このアノテーションが付された教師データを用いて、推論モデルを生成する。この推論モデルは、ユーザの主観的評価に沿ったモデルとなる。

次に、図５を用いて、教師データと、教師データを用いて生成した推論モデルによる推論結果の表示について説明する。図５において、表示画像ＩＤ１～ＩＤ３に対して、ユーザがアイコンＩＣ１～ＩＣ３のいずれを選択し、教師データにアノテーションを行う。前述したように、このアノテーション付きの画像データを用いて推論モデルが生成され、この推論モデルが、カメラ１００の推論エンジン１０４に記憶され、撮像部１０３によって取得された画像に対して、推論を行うことができる。

表示画像ＩＤ５、ＩＤ６は、撮像部１０３によって取得された画像に対して、推論結果を表示している様子を示す。表示画像ＩＤ５に写っている猫４１１ｄは、ユーザの好みの構図であり、適正露出であることから、推論モデルによる推論結果、撮影を勧めるアドバイスＭＥ１、すなわち「今、撮れば！」が表示される。一方、表示画像ＩＤ６に写っている猫４１１ｅは、ユーザの好みの構図ではないことから、撮影を勧めないアドバイスＭＥ２、すなわち「構図よくない！」が表示される。

図４および図５に示した例は、撮影画像が教師データとして使用するにあたって、良いか悪いかについて、ユーザが評価する例であった。言い換えると、ユーザの主観的評価を、メタデータとして画像データに関連付ける例であった。図６に示す例は、対象物の客観的な良し悪しを、撮影画像に対してアノテーションし、このアノテーション用メタデータ付き画像データを生成する例である。

図６において、表示部１０６の表示画面には、図４、図５と同様に、アイコンＩＣ１～ＩＣ３が表示されている。表示画像ＩＤ７には、ミカン４１３ａが表示されており、このミカン４１３ａは良品である。良品であるか否かは、別の検査装置によって判定してもよく、またユーザが目視検査によって判定してもよい。ユーザは表示画像ＩＤ７が表示されている表示画面において、質が良いミカンであることを示すアイコンＩＣ１、すなわち「良い教師」を選択する。

また、表示画像ＩＤ８には、ミカン４１３ｂが表示されており、このミカン４１３ｂは不良品である。不良品であるか否かは、別の検査装置によって判定してもよく、またユーザが目視検査によって判定してもよい。ユーザは表示画像ＩＤ８が表示されている表示画面において、質が悪いミカンであることを示すアイコンＩＣ２、すなわち「悪い教師」を選択する。

表示画像ＩＤ７、ＩＤ８においても、ユーザが、アイコンＩＣ１～ＩＣ３のいずれかを選択すると、画像データに対して、アイコンＩＣ１～ＩＣ３に応じたアノテーションが関連付けられ、アノテーション用メタデータ付き画像ファイル１０５ｂとして、記録部１０５に記録される。カメラ１００は、このアノテーション用メタデータ付き画像データを教師データとして、学習依頼部２００を通じて、または直接学習部３００に送信する。学習部３００の入出力モデル化部３０４は、このアノテーションが付された教師データを用いて、推論モデルを生成する。この推論モデルは、対象物の客観的評価に沿ったモデルとなる。

表示画像ＩＤ９、ＩＤ１０は、撮像部１０３によって取得された画像に対して、推論結果を表示している様子を示す。表示画像ＩＤ９に写っているミカン４１３ｃは、推論エンジン１０４による推論結果は等級５の良品であることから、推論結果表示ＭＥ３として、「等級５」が表示される。一方、表示画像ＩＤ１０に写っているミカン４１３ｄは、推論エンジン１０４による推論結果は廃棄すべき不良品であることから、推論結果表示ＭＥ４として、「廃棄」が表示される。

次に、図７を用いて、将来を予測する推論を行い、この推論結果を表示する例について説明する。図２（ｃ）や図３（ｃ）（ｄ）内のメタデータ部ＭＤ１～ＭＤ３において、様々な仕様をわかりやすく二者択一のデータとして整理するために、スラッシュを用いて表示することについて説明した。また、図４～図６を用いて、様々な仕様を分かり易く二者択一の形式で選択できるような表示について説明した。図７では、必ずしも複数の選択肢からの選択をしなくてもよい例を説明する。ユーザが選ばなくても、こういう場合は、自動的に二者択一などが出来るはずという例である。項目が予め整理されているので、簡単な二者択一や、項目選択、項目内の仕様選択は容易に自動判定できることを示している。

図７に示す例では、経時的に画像を記録しておき、良い結果や悪い結果が発生した場合に、ユーザは過去の画像に結果を、アノテーションとして関連付けて教師データを生成する。この教師データを用いて、深層学習を行い、推論モデルを生成する。この推論モデルをカメラ１００の推論エンジン１０４に記憶し、撮像部１０３によって取得された画像に対して、推論結果を表示する。

図７において、記録画像ＲＩ１は、時刻Ｔ１において撮影され、記録部１０５に記録された画像である。時刻Ｔ１より後の時刻Ｔ２において、事故が発生し、記録画像ＲＩ２はその時の画像である。すなわち、時刻Ｔ１における画像ＲＩ１は、車４１５ａが走行している状態を示す画像である。また、時刻Ｔ２における画像は、車４１５ｂが事故を起こしてしまった状態を示す画像である。そこで、画像ＲＩ１には、時刻Ｔ２において事故を起こしてしまったことから、簡単にロジックベースで、あるいは推論でもよいが、「事故判定」＝「悪い教師データ」を、アノテーションとしてメタデータに記録することが出来る。同様の例としては、図２に示したような急ブレーキをかける動作なども、客観的に危険なものとして分類してもよい。このように客観的な問題を解決するための教師データであれば、様々なセンサを活用した状況認識によって、特定の項目の二者択一は簡単に行うことができる。

なお、図７には、図５、図６に示すような、ユーザがアノテーションを付与するためのアイコンＩＣ１～ＩＣ４が表示されていないが、これらのアノテーションを付与するためのアイコンを表示するようにしてもよい。また、事故の瞬間に、画面を見ながら手動で設定するのは現実的ではないが、もちろん、事故以外であれば、手動入力も可能である。「事故＝悪いこと」以外にも、ユーザが満足した声を出した、といった音声を検出するによって、良し悪しを自動選択することは簡単である、また、すぐにユーザによって消去された画像は悪い画像として、また多くの候補の中から厳選されて残った画像は良い画像として分類することも容易である。また、ピントや露出や構図はずれなども、良し悪しの自動判定に利用できる。

記録画像ＲＩ１、ＲＩ２のようなアノテーション用メタデータ付きの画像データを多数、用いて、深層学習を行い、推論モデルを生成する。表示画像ＩＤ１１、ＩＤ１２に対して、推論モデルを用いて推論エンジン１０４は、将来について予測する。表示画像ＩＤ１１の場合には、車４１５ｄが事故を起こす等の悪い事態が予測されないことから、推論結果表示ＭＥ５として、「大丈夫」が表示される。一方、表示画像ＩＤ１２の場合には、車４１５ｅが事故を起こす等の悪い状態が予測されることから、推論結果表示ＭＥ６として、「危ない！」が表示される。

なお、記録画像ＲＩ３は、車４１５ｃが斜面を走行しており、このような状態の画像は、深層学習に使用しない方がよい。そこで、記録画像ＲＩ３のアノテーションとしては、教師データと使用しないことを示す「使うな」を付する。このように、全ての記録画像ＲＩに対して、教師データとしてアノテーションを付するのではなく、使用しないものある。このため、記録画像ＲＩ２とＲＩ３のように、アノテーションを付するか付さないかの切り分けを行う。

次に、図８Ａおよび図８Ｂに示すフローチャートを用いて、図２ないし図７に示すようなメタデータを付与可能なカメラの制御動作について説明する。この動作はカメラ１００内の制御部１０１内のＣＰＵがメモリに記憶されたプログラムに従って実現する。

図２および図３における動作は、撮影タイミングに起こることではなく、続いて起こることを学習するような教師データになる、画像ファイルを作成するには、画像のメタデータを、所定時間の経過後に改めて画像に付与されるような工夫が必要となる。図８Ａおよび図８Ｂに示すフローチャートは、このようなメタデータ付与が可能なカメラ制御（ファイル作成装置）を実現する。また、このフローチャートでは、図２および図３に示したように加速度情報など他のセンサ情報を利用したり参照したりする。これらの情報は、カメラ１００に内蔵センサでもよく、またＩｏＴを利用して他の装置内のセンサと連携するようにしてもよい。以下、図８のフローチャートについて説明する。

図８Ａに示すフローが開始すると、まず、撮影モードか否かを判定する（Ｓ１）。カメラ１００には、再生モード、撮影モード、推論モデル取得モード等の種々のモードが設定可能である。このステップでは、制御部１０１内の設定制御部１０１ｂが、撮影モードが設定されているか否かを判定する。

ステップＳ１における判定の結果、撮影モードであった場合には、画像の入力等を行う（Ｓ３）。ここでは、撮像部１０３によって画像を取得し、また前述したように加速度情報等を他のセンサによって入力する。さらに、図２（ｂ）、図３（ｂ）に示したような経時変化を測定するために、計時動作を開始する。また、撮像部１０３によって取得したコマ数を記録する。なお、撮影は動画撮影であってもよく、また連写撮影であってもよい。

画像入力等を行うと、次に、関連辞書があるか否かを判定する（Ｓ５）。関連辞書は、カメラでの撮影シーンに応じた推論モデルであり、現在の撮影対象に適した推論モデルが推論エンジン１０４に設定されているか否かを判定する。

ステップＳ５における判定の結果、関連辞書がある場合には、推論を実行する（Ｓ７）。ここでは、ステップＳ３において取得した画像データを推論エンジン１０４に入力し、推論を実行する。例えば、図４ないし図７を用いて説明したように、撮影時（その後の再生時）にアノテーション用メタデータ付きの画像データを作成しておき、入出力モデル化部３０４が、この画像データを教師データとして使用し、推論モデルを生成しておく。このステップＳ７では、入出力モデル化部３０４によって生成された推論モデルを用いて推論を実行する。

次に、推論の結果の信頼性を判定する（Ｓ９）。この判定の結果、信頼性が高い場合には、ガイド表示を行う（Ｓ１１）。ここでは、図２（ａ）、図３（ａ）に示すような警告表示や撮影ガイドを表示する。また、図５に示すように、推論結果に応じて、撮影を勧めるアドバイスＭＥ１や、撮影を勧めないアドバイスＭＥ２を表示される。さらに、図６に示すように、推論結果に応じて、対象物が良品であるか不良品であるかを示すアドバイスＭＥ３、ＭＥ４を表示する。さらに、図７に示すように、推論結果に応じて、将来を予測するようなアドバイスＭＥ５、ＭＥ６を表示する。

ガイド表示を行うと、次に、センサ出力に特徴があるか否かを判定する（Ｓ１３）。ここでは、ステップＳ３において入力したセンサ出力を参照し、センサ出力に特徴がある場合、あるいは特徴的な変動パターンから特定のイベントを推定できるか否かを判定する。なお、センサ出力に限らず、例えば、画像に猫が入ってきた等、画像解析の結果に基づいて判定してもよい。

ステップＳ１３における判定の結果、センサ出力に特徴がある場合には、基準時間化を行う（Ｓ１３）。ここでは、あるイベントが起こった時刻を基準時刻として、以後の経過時間を計測できるように、自動的に基準時刻を設定し、計時を開始する。例えば、図２に示す例では、車が急ブレーキを踏んだタイミングが基準時刻であり、図７に示す例では、時刻Ｔ２において事故が発生したタイミングが基準時刻である。

基準時刻を設定し、計時を開始すると、次に、記録画像の経時結果補正、用途判定、センサ情報、イベント、その他仕様等の記録を行う（Ｓ１７）。この処理は、センサ出力をトリガとして、メタデータの記録を行う。すなわち、すでに記録されている画像のメタデータに時間情報を追記可能とする。このステップＳ１７では、センサ出力情報そのものや、それに基づいて得られたイベント情報などをメタデータとして記録する。記録画像の経時結果補正は、時系列的に記録されている画像について、ステップＳ１５において基準時刻が決まると、その基準時刻からの経過時間に沿って画像を整理する。また、用途は仕様等から設定する。例えば、急ブレーキ特有情報が加速度センサや速度センサや位置情報センサ変化情報などから得られた場合は、センサデータがどのような値（変化）になったから、このイベント（例えば、猫が飛び出して来た）が検出された、等を記録してもよい。このステップでの記録は、ユーザが手動で行ってもよいが、センサ出力に特徴があった場合に、自動的に行うのがよい。

ステップＳ１７において記録を行うと、またはステップＳ１３における判定の結果、センサ出力に特徴がない場合には、次に静止画撮影か否かを判定する（Ｓ１９）。ここでは、撮影がなされる条件も、必ずしもレリーズスイッチ操作に限らなくてもよく、例えば、センサデータなどの結果によってもよい。レリーズスイッチ操作以外の場合には、如何なる操作によって、ステップＳ１９において、静止画撮影と判定したかを記録してもよい。このようなセンサデータや操作によって検出されたイベントと画像の関連付けによって、画像ファイルのメタデータが変わる。

ステップＳ１９における判定の結果、静止画撮影の場合には、撮影を行い、撮影の結果取得した画像データを記録する（Ｓ２１）。次に、ステップＳ１５と同様に、基準時間化を行う（Ｓ２３）。ユーザがレリーズ釦等の操作を行った場合であり、この時刻を基準にして画像の整理を行う。

続いて、ステップＳ１７と同様に、記録画像の経時結果補正、用途判定、センサ情報、イベント、その他の仕様等を記録する（Ｓ２５）。図３において説明した、猫が丸まった写真を撮影する場合には、基準時刻はレリーズタイミングにすればよく、このステップＳ２５で設定する。これらの処理によって、図２に示したような急ブレーキ直前画像集などが作成でき、ビッグデータとなって教師データ化することが出来る。ここでのメタデータの記録は、ユーザが手動で行ってもよいが、カメラが自動的に記録することができる。

また、静止画の撮影後に、図４に示したように、アイコンＩＣ１～ＩＣ４を表示し、ユーザの主観に基づいてアノテーション用メタデータを画像データに付与できるようにしてもよい。同様に、静止画の撮影後に、図６に示したように、アイコンＩＣ１～ＩＣ４を表示し、客観的な評価結果に基づいてアノテーション用メタデータを画像データに付与できるようにしてもよい。さらに、図２、図３や図７に示した例のように、連続的に撮影された画像に対して、アノテーション用メタデータを画像データに付与するようにしてもよい。

ステップＳ１に戻り、このステップにおける判定の結果、撮影モードでない場合には、再生モードか否かを判定する（Ｓ３１）。この判定の結果、再生モードであった場合には、一覧表示を行う（Ｓ３３）。ここでは、記録部１０５に記録されている画像データを読み出し、表示部１０６に一覧表示する。続いて、選択再生を行う（Ｓ３５）。ユーザが一覧表示の中から拡大表示を選択するので、このステップではいずれの画像が選択されたかを判定する。

続いて、お気に入り操作がなされたか否かを判定する（Ｓ３７）。本実施形態においては、ユーザが再生した記録画像を見ながら、ユーザ自ら、あるいは確認した人がイベントのタイミングを記録したい場合には、操作部１０２によって、お気に入り操作を行う。このステップでは、この操作がなされたか否かを判定する。お気に入り操作がなされた場合には、基準時間が設定される（Ｓ３９）。ここでは、再生画像に記録されている時間（タイミング）を基準時間とし、この基準をどこに設定するかをマニュアル入力する。

続いて、記録されている各画像の経時結果補正、用途判定、センサ情報、イベント、その他の仕様が記録される（Ｓ４１）。ステップＳ１７、Ｓ２５においても、同様のメタデータが記録されているが、このステップでは、ユーザの手動入力が主となる。もちろん、再生画像に記録されているメタデータを維持してもよく、手動入力されたメタデータのみを書き換えてもよい。

ステップＳ３１に戻り、このステップにおける判定の結果、再生モードでなかった場合には、推論モデルの依頼か否かを判定する（Ｓ４３）。カメラ１００から学習部３００に直接、推論モデルを依頼するか否かを判定する。この判定の結果推論モデルを依頼する場合には、推論モデルの対象物を特定し（Ｓ４５）、学習部３００に推論モデルの生成のための学習を依頼する（Ｓ４７）。ここでは、通信部１０７から、特定のイベント予測用の教師画像として、メタデータ付き画像を学習装置に送信するようにしてもよい。例えば、図２～図７において、ファイル作成部１０１ａｂが作成した画像ファイル（アノテーション用メタデータ付き画像ファイル）を送信してもよい。また、画像ファイルを送信する場合に、ファイル作成部１０１ａｂが特定のイベントが注意を促すべきイベントか否かの情報をメタデータとして付与して送信してもよい。

ステップＳ４３における判定の結果、推論モデルの依頼でない場合には、推論モデルの取得か否かを判定する（Ｓ４９）。ステップＳ４７において学習を依頼すると、学習部３００は推論モデルを生成し、カメラ１００に返信してくる。ここでは、返信されてくる推論モデルを取得するか否かを判定する。ステップＳ４９における判定の結果、推論モデルの取得の場合には、推論モデルを取得し記録する（Ｓ５１）。このように新しく得た推論モデルは、次から次への実地研修を行う働き手のようなもので、実際に即したユーザの意にかなった改良版の推論モデルとなっており、この推論モデルを使用するユーザの満足度は益々向上する。十分に向上した場合は、追加学習をしないようにする設定にすればよい。これもメタデータに記載できるようにしてもよい。

また、余計な追加学習を行うことによって、かえって、本来の狙いと異なる仕様の推論モデルになってしまうことも考えられる。そこで、前のバージョンに戻せるように、推論モデルをバージョン管理した方が良い。追加学習の際、どのバージョンに対して追加するかという問題もあるが、それをメタデータに記載してもよい。これは、利用中の推論モデルのバージョンをメタデータとして記録しておくといった解決法を採用してもよい。メタデータを管理するために、ファイル作成部１０１ａｂ（メタデータ付与部）は、生成された画像ファイルを外部の学習装置に送信して追加学習を依頼する際に、追加学習を施す推論モデルを表す識別情報を付与するとよい。

本フローの動作において、一部の処理を簡略化して図示している。例えば、仕様設定の部分などは、最初に行ってもよいが（例えば、ドライブレコーダーとして使う時は急ブレーキ予測用の仕様とするなど）、このフローでは、画像ファイルを作る際に手動入力できるような部分を強調している（Ｓ１７、Ｓ２５、Ｓ４１等のタイミングでユーザが設定してもよい）。また、Ｓ３において入力された画像に基づいて、何か推論できる場合はＳ１１においてガイド表示を行う。この場合、関連の推論モデル（辞書）があって、信頼性が高いことを、本当に意味のある結果だけをガイド表示している。

ステップＳ３７における判定の結果、お気に入り操作等がない場合、またステップＳ４１において記録等を行うと、またはステップＳ５１において推論モデルを取得し、これを記録すると、またはステップＳ４９における判定の結果、推論モデルを取得しない場合には、ステップＳ１に戻る。

このように、カメラ制御のフローにおいては、撮像部から画像データを入力し、この画像データに基づいて画像を表示する（Ｓ３）。静止画撮影がなされると、撮影画像を表示し、その際にアイコンＩＣ１～ＩＣ３、ＩＣ１１～ＩＣ１３等も表示する（図２～図７参照）。そして、ユーザがアイコンを選択すると、そのアイコンに基づいて、アノテーション用メタデータ付きの画像ファイルが生成される（Ｓ２５参照）。画像ファイルが生成されると、学習部３００に送信され（Ｓ４７）、推論モデルが生成される。この生成された推論モデルを受信すると（Ｓ５１）、画像を入力した際に推論を行い（Ｓ７）、推論結果に基づいてガイド表示を行う（Ｓ１１）。

本発明の一実施形態においては、画像を画像データに変換し、この画像データを出力し（Ｓ３）、分類されたユーザの関心事が推論結果として出力できるように、選択的に整理された情報を、画像データに対応するアノテーション関係情報として入力し、このアノテーション関係情報をメタデータとして、画像データに添付してファイル化している（図１Ｂのファイル作成部１０１ａｂ、Ｓ２５参照）。このため、ユーザの関心事に答えられるような推論モデルを生成する際に有用な教師データを生成することができる。

なお、本発明の一実施形態においては、カメラ１００と学習依頼部２００と学習部３００の組み合わせからなるシステムについて説明した。しかし、この組み合わせに限らず、カメラ１００が学習依頼部２００の機能を合わせ持っていてもよく、また学習依頼部２００が学習部３００の機能を有していてもよい。

また、本発明の一実施形態においては、メタデータは特定の情報を補足したり説明したりするデータであるので、その特定の情報（画像）を補足しやすいように同じファイル内に記録していた。しかし、これに限らず、別のファイル、データ、フォルダ等で記録されていても良い。データの名称等によって管理したり、特定のシステムで不可分に管理するようにしたものでも良い。

また、ユーザが特定の関心事に対して推論モデルを利用したいとき、特定の視覚的なシーンに対して、何かの情報を得たいというニーズが増加してくる。このような場合に、画像を参考に簡単に教師データを生成しようとすると、特定の規格化によって単純化しないと、作業が複雑になり現実的ではなかった。しかし、本発明の一実施形態に示すような工夫をすることによって、それぞれのシーンで、個々のユーザの様々な関心事に答えられる推論モデルを簡単に生成するための、教師データの作成を容易にすることで可能となる。

また、本発明の好ましい実施形態においては、学習装置における学習は、深層学習を行っていたが、これに限らず、機械学習等の人工知能を利用した学習であればよい。また、近年は、様々な判断基準を一括して判定できるような人工知能が用いられる事が多く、ここで示したフローチャートの各分岐などを一括して行うような改良もまた、本発明の範疇に入るものであることは言うまでもない。

また、本発明の一実施形態においては、学習部３００内においては、母集合作成部３０２、基準教師データ記録部３０３、入出力モデル化部３０４、通信部Ａ３０５ａ、通信部Ｂ３０５ｂ等を、制御部３０１とは別体の構成としていた。また学習依頼部２００内においては、画像分類記録部２０２、通信部Ｂ２０３、仕様設定部２０４、推論エンジン２０５６等を、制御部２０１と別体の構成としていた。さらに、カメラ１００内において、操作部１０２、撮像部１０３、推論エンジン１０４、記録部１０５、表示部１０６等を、制御部１０１とは別体の構成としていた。しかし、これに限らず、各部の全部または一部をソフトウエアで構成し、制御部１０１、２０１、３０１内のＣＰＵによって実行するようにしても勿論かまわない。また、制御部１０１内の各部を、制御部の外にハードウエア回路によって設けてもよい。

また、各制御部内に設けられたＣＰＵは、これに限らず、コントローラとしての機能を果たす素子であればよく、上述した各部の処理は、ハードウエアとして構成された１つ以上のプロセッサが行うようにしてもよい。例えば、各部は、それぞれが電子回路として構成されたプロセッサであっても構わないし、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路で構成されたプロセッサにおける各回路部であってもよい。または、１つ以上のＣＰＵで構成されるプロセッサが、記録媒体に記録されたコンピュータプログラムを読み込んで実行することによって、各部としての機能を実行するようにしても構わない。また、上述の各部は、ヴェリログ（Verilog）によって記述されたプログラム言語に基づいて生成されたゲート回路等のハードウエア構成でもよく、またＤＳＰ（Digital Signal Processor）等のソフトを利用したハードウエア構成を利用してもよい。これらは適宜組み合わせてもよいことは勿論である。

また、本発明の一実施形態においては、カメラ１００として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもミラーレスカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話、スマートフォン、携帯情報端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、ゲーム機器等に内蔵されるカメラ、医療用カメラ、顕微鏡等の科学機器用のカメラ、自動車搭載用カメラ、監視用カメラでも構わない。撮像部はもちろん別体でもよく、別の撮像部から来た画像に対してアノテーション関係の情報を付与するようにしてもよい。撮像部が一体の場合は、撮影者とアノテーション者が同じ人であるというような保証にはなりえるが、生体認証などでそれを担保して著作権などを保証してもよい。同じ人である必要はない。

また、各サーバ（学習部３００および学習依頼部２００）内で管理される様々なデータやその一部データは、実施形態中で示した中央集権型のデータベースで管理しても良く、また非中央集権型（分散型）のブロックチェーンのようなデータベースによって相互監視型で管理しても良い。中央集権型は、何かのトラブルが発生した時に、システムの障害修復までの間、このデータ管理が出来なくなるが、分散型であれば、障害を軽微にすることが出来る。

データの管理を行うにあたって、データの信頼性を確保することは重要である。教師データ化されることを期待して公開したデータが、改ざんの恐れがあるすると、せっかくの善意のユーザの努力が台無しになることがある。また、ユーザもこのあたりの保証がないと、教師データ公開をするモチベーションが低下してしまう。しかし、本実施形態のように、項目を整理して、それぞれの項目内の留意点や項目内の軸、あるいは項目内の特徴指定、項目内の方向性や重みなどを単純化して規格化すれば、ユーザの意図を正しく反映して、学習時のスピードを速くすることが出来る上、監視システムによる質の担保もしやすくなる。さらに画像データも特徴量のみにしたりリサイズしたりして管理すれば、個々の教師データは容量を少なくした取り扱いのしやすいデータあるいはファイルにすることが出来る。

このような統合データは、例えば、分散システムによる相互監視などのシステムにおいて、利用可能となる。近年、教師データの質などによって、推論モデルが期待の出力を行わない事が問題になっている。しかし、本実施形態のように、データを管理しやすくすることによって、質の悪いデータの流通や拡散を阻止し、多くのユーザが安心してシステムを利用して、豊富な教師データ群を形成することが出来る。つまり、入力された画像データについて、分類されたユーザの関心事が推論結果として出力できるように、項目として整理された情報を、画像データに対応するアノテーション関係情報として入力し、このアノテーション関係情報をメタデータとして、画像データに添付した統合データをブロックチェーン管理する時のブロックとして生成することを特徴とする画像ファイル生成方法を提供できる。

ブロックチェーンでは、管理するデータに変更があると、その処理内容等をブロック単位にして暗号化し、各データベースに分散することで全員がその情報を共有できるようにしている（分散型台帳）。このブロックにはネットワークの識別用の数字や、ブロックサイズ、ヘッダ情報などがまとめられている。ブロックチェーンでは、ブロック（つまりデータベースで管理される情報をまとめたもの）が新しく生成される時に、一つ前に生成されたブロックのデータを一部含むように設計され、すべての処理履歴が一つの鎖となって繋がっていくのでチェーンと名付けられている。

つまり、ブロックとブロックの間の繋がりや関係性を持たせるために、新しいブロックのヘッダに一つ前のブロックのヘッダの一部が暗号化されて組み込まれている。この新しいブロックのヘッダには、一つ前のブロックのヘッダを、ハッシュ関数を用いて暗号化した「ハッシュ値」と「処理記録」、それから、「ナンス」という任意のデータが組み込まれている。ハッシュ値はデータを要約するものであり、かつ、データ変更によって大きく変化するので改竄が困難になっている。また、このハッシュ値に特別なルールによる制約を設ければ、ハッシュ値がそれを満たすようにするための追加データ、「ナンス」（Number used once：一時利用の使い捨て数字の略）を決める必要がある。

ナンスを探す作業をマイニングと呼び、作業者をマイナーと呼ぶが、正しいナンスを求めたマイナーがブロックを繋げられ、かつ、報酬を受け取れるようにすれば仮想通貨のような経済的インセンティブを合わせた運営も可能となる。この「ナンス」とハッシュが一緒に使われることで、より通貨の信頼性を高めることができる。ユーザが提供した教師データ候補を、ブロックチェーンのブロックとすれば、それがどこで使われたかを管理することができ、このブロックを後で加工できないように相互監視することもできる。

分散的に取引を記録していくためには、分散されたコンピュータ（ノード）を操作（分散保有しているその他のノードとのデータ同一性が保証）する参加者にインセンティブが必要なため、仮想通貨を利用しているが、他のインセンティブが与えられたり、データ同一性保証の仕組みが簡単化できれば仮想通貨を前提にする必要はない。例えば、複数台のパソコンにブロックチェーン用の相互監視のソフトウエアが存在すればよい。

また、近年は、様々な判断基準を一括して判定できるような人工知能が用いられる事が多く、ここで示したフローチャートの各分岐などを一括して行うような改良もまた、本発明の範疇に入るものであることは言うまでもない。そうした制御に対して、ユーザが善し悪しを入力可能であれば、ユーザの嗜好を学習して、ユーザが望むように、本願で示した実施形態をカスタマイズすることが可能である。

また、本明細書において説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを通じてダウンロードしたものでもよい。

また、本発明の一実施形態においては、フローチャートを用いて、本実施形態における動作を説明したが、処理手順は、順番を変えてもよく、また、いずれかのステップを省略してもよく、ステップを追加してもよく、さらに各ステップ内における具体的な処理内容を変更してもよい。

また、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず」、「次に」等の順番を表現する言葉を用いて説明したとしても、特に説明していない箇所では、この順で実施することが必須であることを意味するものではない。

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１００・・・カメラ、１０１・・・制御部、１０１ａ・・・記録制御部、１０１ａｂ・・・ファイル作成部、１０１ｂ・・・設定制御部、１０１ｃ・・・通信制御部、１０１ｄ・・・画像処理部、１０１ｅ・・・パラメータ制御部、１０１ｆ・・・表示制御部、１０２・・・操作部、１０３・・・撮像部、１０３ａ・・・光学系、１０３ｂ・・・撮像素子、１０４・・・推論エンジン、１０４ａ・・・ネットワーク・デザイン、１０４ｂ・・・管理情報、１０５・・・記録部、１０５ａ・・・画像データ、１０５ｂ・・・アノテーション用メタデータ付き画像ファイル、１０６・・・表示部、１０７・・・通信部、２００・・・学習依頼部、２０１・・・制御部、２０２・・・画像分類記録部、２０２ａ・・・対象物種類Ａ画像群、２０２ｂ・・・基準教師データ、２０２ｃ・・・テストデータ、２０３・・・通信部、２０４・・・仕様設定部、２０４ａ・・・仕様設定記録部、３００・・・学習部、３０１・・・制御部、３０２・・・母集合作成部、３０２ａ・・・入出力設定部、３０３・・・基準教師データ記録部、３０４・・・入出力モデル化部、３０４ａ・・・信頼性判定部、３０４ｂ・・・入力部、３０４ｃ・・・出力部、３０４ｄ・・・ネットワーク・デザイン、３０５ａ・・・通信部Ａ、３０５ｂ・・・通信部Ｂ、４１１・・・猫、４１３・・・ミカン、４１５・・・車

Claims

画像に基づいて変換された画像データを入力する画像入力部と、
ユーザの分類された関心事が推論結果として出力できるように、選択的に整理された情報を、上記画像データに対応するアノテーション関係情報として入力し、該アノテーション関係情報をメタデータとして、教師用データとする上記画像データに添付し、ファイル化するファイル生成部と、
を具備し、
上記ファイル生成部は、時間の経過に応じた結果を上記アノテーション関係情報に含めて教師用データを生成することを特徴とする画像ファイル生成装置。
上記ユーザの関心事が上記選択的に整理された情報となるように、推論モデル生成用のアノテーション関係情報が選択可能な情報信号を含むことを特徴とする請求項１に記載の画像ファイル生成装置。
上記アノテーション関係情報は、
（１）良し悪し情報、
（２）判定するものが画像か事象かの情報、
（３）良し悪し判定が主観か客観かの情報、
（４）判断タイミングが撮影タイミングかそれ以外かの情報、
（５）良し悪し判定が画像全体か画像部分か対象物かの情報
（６）教師データとするかテストデータとするかの情報
の少なくとも１つの項目の中で選択された情報を含むことを特徴とする請求項１に記載の画像ファイル生成装置。
上記アノテーション関係情報は、さらに、推論モデルの用途を指定するための用途情報もしくは関連画像群情報の少なくともいずれか１つを含むことを特徴とする請求項１に記載の画像ファイル生成装置。
上記画像データに基づいて上記画像を表示すると共に、上記アノテーション関係情報に係るアイコンを表示する表示部と、
上記アイコンを選択するための選択部と、
を有し、
上記ファイル生成部は、上記選択部によって選択された上記アノテーション関係情報をメタデータとして、上記画像データに添付してファイル化することを特徴とする請求項１に記載の画像ファイル生成装置。
上記表示部に表示される上記アイコンは、上記教師用データとして使用しないことを指示するためのアイコンも含むことを特徴とする請求項５に記載の画像ファイル生成装置。
上記画像入力部として撮像部を有し、
上記表示部は、上記撮像部によって上記画像データを取得した後に、確認用に上記画像と上記アイコンを所定時間の間、撮影画像を表示し、
上記ファイル生成部は、上記所定時間の間表示され、上記選択部によって選択されたアイコンに基づいて、上記メタデータを添付したファイルを生成する、
ことを特徴とする請求項５に記載の画像ファイル生成装置。
上記画像入力部として撮像部を有し、
上記撮像部から出力される画像データに、時間の経過を示す情報を関連付けて記録する記録部を有し、
上記ファイル生成部は、上記画像の対象物に変化が生じた際に、上記記録部に記録されている変化開始前の基準時刻における画像データに、上記結果に応じた上記アノテーション関係情報を添付してファイルを生成する、
ことを特徴とする請求項１に記載の画像ファイル生成装置。
上記ファイル生成部によって生成されたファイルを外部の学習装置に送信するための通信部を有することを特徴とする請求項１に記載の画像ファイル生成装置。