JP7387104B1

JP7387104B1 - 撮像装置および撮像装置の制御方法

Info

Publication number: JP7387104B1
Application number: JP2022174141A
Authority: JP
Inventors: 総一松田; 拓之徳永; けい山橋
Original assignee: Leap Mind Inc
Current assignee: Leap Mind Inc
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-11-28
Anticipated expiration: 2042-10-31
Also published as: JP2024065329A; WO2024095692A1

Abstract

【課題】取得した画像に対して高効率、かつ、高速に機械学習に係る演算を行う撮像装置及びその制御方法を提供する。【解決手段】撮像装置１０００は、複数の演算層を含む第１の機械学習モデルを用いて複数の画素から得られる信号を処理するための第１の機械学習演算手段２００と、第１の機械学習演算手段によって処理された信号に対して所定の画像処理を行う画像処理手段４００と、画像処理手段の結果である画像データを保持するための保持手段８００と、第１の機械学習モデルと異なる第２の機械学習モデルを用いて、保持された画像データを処理するための第２の機械学習演算手段９００と、を備える。第１の機械学習モデルは少なくとも畳み込み演算を行う畳み込み演算層の演算結果に対して量子化演算を行う量子化演算層を含む。【選択図】図１

Description

本発明は、撮像装置および撮像装置の制御方法に関する。

近年、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、並列的に多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

特開２０１８－０７７８２９号公報

一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識や画質改善処理等が行われている。このような畳み込みニューラルネットワークを実現するためには、高速性や省電力性以外にも高い汎用性を備えるアクセラレータが必要となる。しかし、それぞれの性能はトレードオフの関係であり、特に汎用性を高めるためには一定の冗長性が必要であり、回路規模または消費電力に対しての演算効率性の低下につながる。そのため、ＣＮＮを処理するアクセラレータには高速性や省電力性に加えて汎用性も望まれている。

上記事情を踏まえ、本発明は、ＩｏＴ機器として画像を取得可能な撮像装置であり、取得した画像に対して高効率かつ高速に機械学習に係る演算を行う撮像装置および機械学習に係る演算を行う回路やモデルを高効率かつ高速に動作させるための撮像装置の制御方法を提供することを目的とする。

上記課題を解決するために、この発明は以下の手段を提案している。
本発明の実施形態に係る撮像装置は、被写体像を電気信号に変換するための複数の画素を備えるイメージセンサを備える撮像装置であって、複数の演算層を含む第１の機械学習モデルを用いて前記複数の画素から得られる信号を処理するための第１の機械学習演算手段と、前記第１の機械学習演算手段によって処理された信号に対して所定の画像処理を行う画像処理手段と、前記画像処理手段の結果である画像データを保持するための保持手段と、前記第１の機械学習モデルと異なる第２の機械学習モデルを用いて前記保持手段に保持された画像データを処理するための第２の機械学習演算手段とを備え、前記第１の機械学習モデルは少なくとも畳み込み演算を行う第１の畳み込み演算層の演算結果である行列の各要素に対して低ビット化するための量子化演算を行う量子化演算層と、前記量子化演算層の演算結果に基づいて畳み込み演算を行う第２の畳み込み演算層を含むことを特徴とする。

本発明の撮像装置および撮像装置の制御方法は、ＩｏＴ機器として画像を取得可能な撮像装置であり、取得した画像に対して高効率かつ高速に機械学習に係る演算を行う撮像装置および機械学習に係る演算を行う回路やモデルを高効率かつ高速に動作させるための撮像装置の制御方法を提供することができる。

第１の実施形態に係る撮像装置の機能ブロック図である。第１の実施形態に係るセンサの機能ブロック図である。第１の実施形態に係る第１機械学習演算部の機能ブロック図である。第１の実施形態に係るバッファの動作を説明するためのタイミングチャートである。第１の実施形態に係る機械学習モデルのネットワーク構造を示した図である。第１の実施形態に係る第２機械学習演算部の機能ブロック図である。第１の実施形態に係る特徴抽出部における各演算層を示した図である。第１の実施形態に係る撮像装置の制御方法を説明するためのフローチャートである。第２の実施形態に係る撮像装置の機能ブロック図である。第２の実施形態に係るバッファ及びＩＳＰの動作を説明するためのタイミングチャートである。

（第１の実施形態）
本発明の実施形態について、図１から図８を参照して説明する。図１は、本実施形態に係る撮像装置１０００を示す図である。

［撮像装置１０００］
図１は本実施形態に係る撮像装置の機能ブロック図である。同図を参照しながら、本実施形態に係る撮像装置１０００について説明する。撮像装置１０００はレンズ等の光学部材等の所定の集光装置によって生成される被写体像を取得するための装置で、一例としてデジタルカメラ、監視カメラおよび車載カメラ等であるが、スマートフォンやロボット等であって撮像手段を備える装置であれば本発明を適用することができる。なお、本実施形態に係る発明はバッテリー駆動などの消費電力量が限定されている組み込み機器などの製品に適用することが好適である。

本実施形態の撮像装置１０００は、センサ１００、第１機械学習演算部２００、センサＩ／Ｆ３００、ＩＳＰ４００、入出力部５００、表示部６００、ＣＰＵ７００、メモリ８００、第２機械学習演算部９００を含む。

センサ１００は、不図示の光学手段により結像された被写体像を光電変換により電気信号に変換する個体撮像素子である。一例として、ＣＭＯＳイメージセンサである。本実施形態のセンサ１００は図２で示すように、複数の画素１１０を少なくとも２０００×１５００画素よりも多い画素数を備える。それぞれの画素には１１０には所定のカラーフィルターを備えており、本実施形態のセンサ１００はいわゆるベイヤー配列のカラーフィルターを備える。また、センサ１００は、後述するＣＰＵ７００が制御する不図示のセンサ制御部が生成する同期信号のタイミングに基づいて、光電変換により取得したアナログ的な電気信号をデジタル値へ変換するアナログデジタル変換回路（ＡＤＣ）１２０を備える。さらに、アナログデジタル変換回路１２０の変換後の多ビットのデジタル信号を高速で出力可能な多チャンネルの高速Ｉ／Ｆ１３０を備える。

ここで、本実施形態においてセンサ１００が備えるアナログデジタル変換回路１２０は、各画素値を１２ｂｉｔ以上のデジタル値へ変換可能な分解能を備え、不図示のセンサ制御部からの制御により複数の駆動モードで動作する。一例として、センサ１００が備える全ての画素１１０からの信号をローリングシャッター動作で読み出し１２ｂｉｔのデジタル値を出力するモードや、センサ１００が備える一部の画素１１０からの信号を一部加算または間引きをして読み出し１０ｂｉｔのデジタル値を出力するモードなどを備えてもよい。また、高画質動画モードとして、４Ｋまたは８Ｋフォーマットの画素数を１秒間に３０フレームまたは６０フレームを出力するモードを備えてもよい。なお、センサ１００が出力する各画素１１０の信号はいわゆるＲＡＷ画像データであって、１２ｂｉｔまたは１４ｂｉｔのビット精度を備える情報を含む。

第１機械学習演算部２００は、センサ１００の出力である多ビットのデジタル値であるＲＡＷ画像データを入力とし、この入力に対して所定の機械学習モデルによる演算を実行するための演算部である。図３は、第１機械学習演算部２００の機能ブロック図である。第１機械学習演算部２００は、バッファ２１０、前処理部２２０、第１推論部２３０、後処理部２４０を含む。

バッファ２１０は、センサ１００の出力を受けとり一時的に保持するバッファである。本実施形態のセンサ１００は水平同期信号（ＨＤ）の周期で所定の単位画素の画素値を繰り返し出力する。一例として、センサ１００は一つの水平同期信号周期で１行分の画素値を順次出力する。つまり、センサ１００が１５００行の画素１１０を備える場合には、１水平同期において８ｂｉｔよりも多い１２ｂｉｔまたは１４ｂｉｔの画素値を１５００個分出力する。そして、水平同期信号周期の１５００周期分の期間で１フレーム分の画素値を出力することになる。特に、機械学習モデルで画像を処理する場合には畳み込み演算を用いるため、複数行分の画素値を保持する必要がある。そのため、バッファ２１０には３行以上の複数行の画素値を保持することが可能な容量を有する。

図４は、バッファ２１０の動作を説明するためのタイミングチャートである。本実施形態においては説明の簡略化のため、１行分の画素値をバッファ２１０に保持する例を示す。センサ１００は垂直同期信号ＶＤの周期で１画面分の画素値を出力する。そして、垂直同期信号ＶＤの周期は複数の水平同期信号ＨＤの周期に分割され、センサ１００は水平同期信号ＨＤの周期に基づいて所定の単位（例えば１行分）の画素値を出力する。図４Ａにおいて、センサ１００から出力される画素値のデータ出力タイミングを示す。センサ１００は水平同期信号ＨＤのタイミングに同期して、期間Ｔａにおいて画素Ａ、画素Ｂ、画素Ｃのように画素値データを順次出力する。センサ１００は画素値データを出力した期間Ｔａの後は、各ブロックの電源を切るなど省電力動作を行う。そのため、複数の出力ＣＨなどを用いて高速データ転送を行うことで、期間Ｔａが短くなればなるほどセンサ１００における電力削減につながる。図４Ｂにおいて、バッファ２１０から出力される画素値のデータ出力タイミングを示す。水平同期信号ＨＤのタイミングに同期して、期間Ｔｂにおいて画素値のデータが順次読み出される。なお、バッファ２１０より後段においては、処理するデータレートのピーク値が遅くなればなるほど電力削減につながる。そのため、バッファ２１０より読み出す際にデータレートの変換を行うことが好ましい。つまり、バッファ２１０において、読み出す際のデータレートを、水平同期信号ＨＤの周期の中で入力時のピークのデータレートよりも遅くすることにより、処理効率を向上する効果が得られる。

図４において、バッファ２１０は１行分の画素値を保持する例を説明したが、これに限られるものではなく、後述の第１推論部２３０において複数行のデータが必要な場合には複数行を保持するようにしてもよい。例えば、第１推論部２３０において、３×３の重みを演算に用いる場合等においては、少なくとも３行分を保持するようにしてもよい。なお、バッファ２１０に保持する単位は行単位でなくてもよく、センサ１００が所定の領域を単位として画素値を出力する場合には、当該領域を保持する単位としてもよい。

図３において、前処理部２２０はバッファ２１０の出力を入力として、所定の処理を行う。前処理部２２０が行う処理の例としては、バッファ２１０に保持された画素値の並び替え、欠陥画素の補正、黒レベル補正、固定パターンノイズ補正等である。後述する第１推論部２３０の前段において所定の処理を実行することにより第１推論部２３０における処理精度を向上させることができる。前処理部２２０における所定の処理はルールベースの処理であり、欠陥画素の補正は周辺画素との比較に基づいて行われ、固定パターンノイズの補正は黒レベルから算出される補正値に基づいて行われる。

第１推論部２３０は、機械学習モデルを用いた推論処理により画素値の補正を行う処理回路を含む。本実施形態において第１推論部２３０に含まれる機械学習モデルは、事前に撮像された画像に基づいて学習を済ませた状態で組み込まれる。例えば、機械学習モデルにより画像におけるノイズを低減するように学習する場合には、同一被写体かつ同一露出で、ノイズの少ない低感度での画像と、ノイズの多い高感度の画像を用意し、ノイズの少ない画像を教師データとしてノイズの多い画像を推論することで学習することが可能となる。なお、機械学習モデルはノイズを低減する学習以外にもまたは加えて、画像中のブレの低減や光学的な収差の低減などにおいても画像の品質を向上するように学習を行ってもよい。なお、第1推論部２３０に含まれる機械学習モデルは一例として、Ｕ－ＮＥＴ構造等のネットワーク構造を有するるニューラルネットワークであってもよい。

ここで、第１推論部２３０に含まれる機械学習モデルには複数の演算層が含まれる多層構造を有し、各層においては重みを用いた畳み込み演算を行う。図５は、第１推論部２３０に含まれる機械学習モデルのネットワーク構造を示した図である。第１推論部２３０に含まれる機械学習モデルは入力層２３１、畳み込み演算層２３２、量子化演算層２３３、出力層２３４を含み、畳み込み演算層２３２および量子化演算層２３３については複数層（ｎ個）を含み、各層は交互に接続されているが、一部の層を飛び越して接続されてもよい。また機械学習モデルには、全結合層やプーリング層などの他の機能を有する層をさらに有してもよい。なお、第１機械学習演算部２００に含まれる機械学習モデルは第１の機械学習モデルに相当する。

入力層２３１には、入力信号ＩＮが入力される。入力信号ＩＮは、前処理部２２０の出力に基づき生成される複数の画素値に対応する信号であり、本実施形態においては８ｂｉｔ以上のビット精度を有する信号である。入力層は各入力信号ＩＮを複数の要素を備えるベクトルに変換する。変換されたベクトルは１層目の畳み込み演算層２３２－１の入力とされる。

畳み込み演算層２３２は、入力されたベクトルまたは複数のベクトルを結合したテンソル（以下、アクティベーションという。）に対して重みＷを用いた畳み込み演算を行う。特に、本実施形態の畳み込み演算層２３２においては、演算に用いるアクティベーション又は重みＷは８ｂｉｔ以下に量子化されている。一例として、アクティベーションは８ｂｉｔ、重みＷは１ｂｉｔに量子化された値で行う。このように、量子化された低ビットで演算を行うことで、パラメータ自体を保持するメモリの小容量化、演算回路の省スペース化、演算速度の向上などの効果を得ることができる。なお、アクティベーションに関しては、演算負荷の低減等を目的として２ｂｉｔまで量子化するようにしてもよい。

量子化演算層２３３は、畳み込み演算層２３２における畳み込み演算結果を入力として、所定の関数を用いて量子化する演算を行う。量子化された畳み込み演算結果は次の畳み込み演算層２３２の入力となる。本実施形態において、畳み込み演算層２３２から出力される畳み込み演算結果である行列の各要素は１６ｂｉｔの整数であり、その量子化結果は入力信号ＩＮよりも低ビットであり、一例として８ｂｉｔの整数である。この場合、以下の式１に示す関数を用いて量子化される。なお、量子化方法としては、関数を用いずに複数の閾値またはテーブル等を用いてもよい。２ｂｉｔへ量子化する場合には３つの閾値のと比較により実現することができる。

図５に示されるように、複数の畳み込み演算層２３２と量子化演算層２３３により繰り返し演算を実行し、ｎ回目の畳み込み演算層２３２－ｎの結果は出力層２３４に入力される。出力層２３４は機械学習モデルにおける演算結果の出力を行う。

図３において、後処理部２４０は第１推論部２３０の演算結果を入力として、所定の処理を行い、水平同期信号に同期して演算結果のデータの出力を行う。本実施形態において、後処理部２４０が行う処理の例としては、画素値の並び替え、画素値の加算や間引き、シリアル信号変換、ヘッダ情報や同期信号の付加等である。後処理部２４０の処理によって、後段のブロックへ高速なデータ転送が可能となる。

なお、第１機械学習演算部２００の各機能の全てまたは一部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）又はＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアを用いて実現されてもよい。第１機械学習演算部２００は多くの演算資源が必要になる畳み込み演算において、その要素を量子化することで演算資源を削減することが可能である。センサ１００と後述するＩＳＰ４００との接続は多チャンネルの高速通信で行われるため、大規模な演算回路を配置することはその通信の遅延となる懸念があった。しかし量子化技術を用いることにより、この演算回路の小規模化を図ることが可能となり、複数層を備える機械学習モデルでの演算が可能となる。
例えば、第１機械学習演算部２００の各機能を構成するために、プログラム処理を実行するプロセッサと、ニューラルネットワークに関する演算を実行するアクセラレータとを組み合わせてもよい。具体的には、畳み込み演算や量子化演算を繰り返し実行するためのニューラルネットワーク演算用アクセラレータを、プロセッサと組み合わせて用いてもよい。

図１の説明に戻り、撮像装置１０００の構成についてさらに詳細に説明する。本実施形態において、センサＩ／Ｆ３００、ＩＳＰ４００、入出力部５００、表示部６００、ＣＰＵ７００、メモリ８００、第２機械学習演算部９００は同一のシリコンチップ上に構成され、それぞれは高速の内部バスＩＢと接続されている。なお、十分に高速なデータ通信が行うことができる通信手段を用いる場合には、同一のシリコンチップ上に構成されていなくてもよい。

センサＩ／Ｆ３００は、第１機械学習演算部２００の出力を受けて、内部バスＩＢにデータを出力する。一例として、センサＩ／Ｆ３００は、第１機械学習演算部２００から受け付けたデータを、後段の処理に用いられるようにメモリ８００に出力する。また、別の例として、センサＩ／Ｆ３００は、第１機械学習演算部２００から受け付けたデータに対して、所定の画像処理を実行するために後述するＩＳＰ４００に出力する。なお、センサＩ／Ｆ３００においてデータ形式の変換等を行うために一時的にデータを保持するためのバッファを設けるようにしてもよい。

ＩＳＰ４００は、センサ１００で取得された画素値に基づくデータ（以下、画像データという。）に対して所定の画像処理を選択的に実施する画像処理部である。一例としては、デモザイク処理、符号化圧縮処理、色調整処理、ガンマ補正処理などを行う。それぞれの処理はパイプライン化されており、入力される画像データに対して一貫して処理を実行し、処理結果を出力する。ＩＳＰ４００における処理結果は、入出力部５００を介して外部に出力されてもよいし、表示部６００に表示されてもよい。

入出力部５００は、撮像装置１０００と不図示の外部装置との間で画像データ等の通信を行う。通信方法としては、ケーブル等を用いる有線手段であってもよいし、ケーブル等を用いない無線通信であってもよい。また、入出力部５００は画像データ以外に外部装置から動作指示等を含むコマンドや撮像装置１０００において動作する機械学習モデルや各種パラメータ等のプログラムを受信するようにしてもよい。

表示部６００は、撮像装置１０００で撮像した画像データ等を表示するためのディスプレイを含み、画像データ以外にも所定のＵＩ／ＵＸや通知等を表示する。また、表示部６００のディスプレイ上にタッチパネルを設けることにより操作部として利用してもよい。

ＣＰＵ７００は、撮像装置１０００の各ブロックを統括的に制御するプロセッサを含む制御部である。ＣＰＵ７００は、メモリ８００に事前に保存されているプログラムを実行することで、様々な機能を実現する。一例として、不図示の操作部からのユーザー指示に基づいて、撮像装置１０００の動作モードを切り替える制御を行う。動作モードには静止画モード、動画モード、夜景モード等が含まれる。また、ＣＰＵ７００は動作モードに応じて、メモリ８００に事前に保持された機械学習モデルを第１機械学習演算部２００または第２機械学習演算部９００に設定をすることで、機械学習演算の制御を行う。また、ＣＰＵ７００は制御部として撮像装置１０００を制御するためのクロックや同期信号の生成及び供給を行うセンサ制御部を含む構成としてもよい。

メモリ８００は、ＤＲＡＭ等で構成され、複数の保存領域には撮像装置１０００の全体を制御するためのファームウェア、ＵＩデータ、動作モードに関するデータ、機械学習モデルに関するデータ等を保持する。本実施形態において、機械学習モデルに関するデータには、ネットワーク情報、重み、量子化パラメータ等が含まれる。また、メモリ８００は画像データを保持するための領域を含み、演算途中のバッファ領域および撮像された静止画や動画のデータを保持する記憶領域等も含まれる。本実施形態においてメモリ８００は画像データを含む各種データやプログラムを保持する保持手段に相当する。

第２機械学習演算部９００は、ＩＳＰ４００によって処理された後の画像データを入力とし、この入力に対して所定の機械学習モデルによる演算を実行するための演算部である。図６は、第２機械学習演算部９００の機能ブロック図である。第２機械学習演算部９００は、特徴抽出部９１０、第２推論部９２０、出力処理部９３０を含む。各ブロックはＣＰＵ７００と同じか又は逓倍されたクロック信号に基づいて処理を行う。第２機械学習演算部９００に含まれる機械学習モデルはＵ－ＮＥＴ構造とは異なる、例えばＴｒａｎｓｆｏｒｍｅｒ構造、再帰型ニューラルネットワーク構造等のネットワーク構造を有してもよい。

特徴抽出部９１０は、機械学習モデルを用いた特徴抽出処理を行う処理回路を含む。本実施形態においては、事前に撮像された画像に基づいて学習を済ませた状態で組み込まれている。例えば、画像中の物体検出を行う機械学習モデルにより意図した物体を検出するように学習する場合には、アノテーションされた複数の画像を用意し、アノテーション結果を教師データとして物体を検出することで学習することが可能となる。なお、機械学習モデルは物体検出以外にも、姿勢検知、物体認識、物体追跡、画像中のブレの低減や光学的な収差の低減する画像の品質を向上する学習をするようにしてもよい。畳み込み演算層Ｌを複数備え、それぞれにおいて順次演算を実行する。演算を実行した結果は特徴量マップとして出力する。

図７は、本実施形態の特徴抽出部９１０における各演算層Ｌを示した図である。特徴抽出部９１０には、入力される画像データに対して畳み込み演算を行う層とプーリング演算を行う層とにより繰り返し演算が行われる。本実施形態における特長量抽出部９１０においては、演算が行われるにつれ、元の画像データの縦横方向に対応するサイズは減少する。一方で、奥行き方向またはチャンネル方向のサイズは増加する。このような演算を実行する場合に、適切に特徴量を抽出するためには数行の画像データでは十分ではなく、画面全体の画像データが必要となる。そのため、第２機械学習演算部９００は、メモリ８００に保持された画像データを入力とすることが好ましい。

第２推論部９２０は、特徴抽出部９１０によって生成された特徴マップに基づいて、機械学習モデルを用いて画像データ内に所定の被写体が写っているかを検出する推論演算を行う。具体的には、事前に検出対象を意図して学習をしたクラスに対する尤度を出力する。検出対象であるクラスの一例としては、人物や車両等があり、特定の物体を検出対象としてもよいし、同時に複数種類を検出できるようにしてもよい。また、クラス以外にも検出対象が存在する領域の座標をバウンディングボックスとして出力できるようにしてもよい。

出力処理部９３０は、第２推論部９２０が出力した各クラスの尤度に基づいて最終的な検出結果を出力する。具体的には、複数のクラスに対する尤度から最も高いクラスを選択し、当該クラスを最終的な検出結果とする。また、全てのクラスに対しての尤度が一定値よりも低い場合には検出する対象が画像データ中に含まれていなかったとする。

なお、第２機械学習演算部９００で行う演算は８ｂｉｔ以上のビット精度を有し、一例として１６ｂｉｔの浮動少数による演算である。このため、ＧＰＵ等の汎用的な環境で利用できる機会学習のモデルを容易に実装することが可能となり高い汎用性を実現できる。

なお、第２機械学習演算部９００の各機能の全てまたは一部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）又はＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアを用いて実現されてもよい。
例えば、第２機械学習演算部９００の各機能を構成するために、プログラム処理を実行するプロセッサと、ニューラルネットワークに関する演算を実行するアクセラレータとを組み合わせてもよい。具体的には、畳み込み演算等を繰り返し実行するためのニューラルネットワーク演算用アクセラレータを、プロセッサと組み合わせて用いてもよい。

図８は撮像装置１０００の撮像動作を説明するためのフローチャートである。本フローチャートの各処理は、ＣＰＵ７００が備えるプロセッサがメモリ８００に事前に記憶されている所定のプログラムを実行し、撮像装置１０００の各ブロックを制御することで実現される。撮像装置１０００において電源ボタンが押下されるまたは、所定のカメラアプリケーションが起動することで本フローチャートの動作が開始される。

処理が開始されるとステップＳ８００においてＣＰＵ７００は、撮像処理を開始するか否かの判定を行う。具体的には撮像モードへの遷移指示または不図示の操作部に含まれるシャッターボタン等の撮影開始指示の有無などにより、撮像を行うためのユーザー指示を受け付けるまで待機する。そして、撮像を行う指示を受け付けた場合において、次のステップへ処理を進める。

ステップＳ８１０においてＣＰＵ７００は、センサ１００に対して不図示のセンサ制御部を経由して露光を開始するように制御を行う。具体的には、センサ１００への電源及びクロック信号の供給、垂直同期信号又は水平同期信号の供給、及びセンサ１００内の制御レジスタへのパラメータの書き込み等を行う。ここで、制御レジスタには露光時間やゲイン等の露出に関するレジスタ、画素加算や間引き読み出し等の読み出し制御に関するレジスタを含む。そして、制御レジスタに書き込まれたパラメータに基づいてセンサ１００の画素１１０で発生した電荷のリセット動作及び光電荷の蓄積動作を行い、各画素から順次信号の読み出しが行われる。画素１１０での露光制御が終了した後に、次のステップへ処理を進める。

センサ１００の画素１１０で発生した電荷のリセット動作及び光電荷の蓄積動作及び読み出し動作についてさらに説明を行う。本実施形態において、説明のためセンサ１００からの信号読み出しはローリングシャッター動作で読み出されるとし、画素１１０からは１行単位で信号が読み出されるものとする。なお、読み出し方法及び読み出し単位は一例にすぎない。異なる例として、読み出し方式としてはグローバルシャッター動作で露光及び読み出しが行われてもよいし、読み出し単位として複数行または所定のブロック領域を一単位としてもよい。

ステップＳ８２０においてＣＰＵ７００は、ステップＳ８００においてセンサ１００に対して設定したパラメータ及び事前に取得した露出情報に基づいて、露出条件を判定する。より詳細には撮像に用いたＩＳＯ感度が所定以上か否かを判定する。本実施形態においては、撮像に用いたＩＳＯ感度がＩＳＯ３２００よりも大きい場合にはステップＳ８３０に処理を進め、ＩＳＯ３２００以下の場合にはステップＳ８４０に処理を進める。なお、本ステップにおける判定対象として、ＩＳＯ感度ではなくセンサ１００に設定したアナログゲイン値もしくはデジタルゲイン値、露光時間またはこれらの組み合わせとしてもよい。それぞれの判定条件は各画素１１０から得られる信号に含まれるノイズ量が一定以上か否かを判定するための条件であり、一例として温度やセンサ１００の種類などノイズ量が増加する可能性がある条件を追加して判定してもよい。

ステップＳ８３０においてＣＰＵ７００は、第１機械学習演算部２００を制御し、各画素１１０から得た信号に対して機械学習モデルを用いた演算処理を行う。本実施形態における機械学習モデルは信号のノイズ量を低減するように事前に学習されており、ＣＰＵ７００は当該機械学習モデルのパラメータを第１機械学習演算部２００に含まれるレジスタ等に設定することで演算を制御する。そして、第１機械学習演算部２００での演算が終了した後に、次のステップへ処理を進める。なお、本実施形態において、機械学習モデルのパラメータには畳み込み演算に用いる重みパラメータ、畳み込み演算結果を量子化するための量子化パラメータ、第１機械学習演算部２００に含まれる各ブロックを制御するためのコマンド等が含まれる。

本実施形態において、各画素１１０から得る信号にノイズが多く含まれる露出条件などの場合において第１機械学習演算部２００を制御し各信号の信号品質の改善を行い、より適切な画像データを得ることが可能となる。一方で、信号に含まれるノイズ成分が少ない露出条件などの場合において、第１機械学習演算部２００において信号品質の改善を行う必要がない場合には、第１機械学習演算部２００での処理を行わずに後段処理を行うことで、応答速度の向上や省電力化を行うことができる。

なお、本実施形態においては説明のためにＩＳＯ感度が一定以上か否かに基づいて第１機械学習演算部２００での処理を行うか否かを制御する例を示したが、これに限られるものではない。別の例として、ノイズ量又は各ＩＳＯ感度に応じて学習された複数の機械学習モデルを露出条件に応じて切り替えるように第１機械学習演算部２００での処理を制御してもよい。より詳細にはＩＳＯ感度がＩＳＯ８００からＩＳＯ３２００の間の場合には、ＩＳＯ１６００相当のノイズが重畳された画像に基づいて学習された機械学習モデルを用い、ＩＳＯ感度がＩＳＯ３２００以上の場合にはＩＳＯ３２００相当のノイズが重畳された画像に基づいて学習された機械学習モデルを用いるように制御するようにしてもよい。なお、３つ以上の機械学習モデルを切り替えてもよいし、機械学習モデルを切り替えるのではなく学習パラメータなどのパラメータの一部のみを切り替えるようにしてもよい。
また、機械学習モデルにおいてブレを低減するように学習した場合には、ブレが発生する可能性がある露光時間に応じて制御するようにしてもよい。一例として、露光時間が１／１５秒よりも長い場合には機械学習モデルを用いた処理を行うように制御するようにしてもよい。

ステップＳ８４０においてＣＰＵ７００は、ＩＳＰ４００を制御して画像データに対して所定の画像処理を実施する。本実施形態においては、少なくともデモザイク処理および符号化圧縮処理を実行する。当該処理によりＩＳＰ４００は、第１機械学習演算部２００で処理されたＲＡＷ画像データを処理してデータ保存用又は表示用の圧縮符号化されたデータを生成し、次のステップへ処理を進める。圧縮符号化されたデータの例としてはＪＰＥＧ形式、ＢＭＰ形式等の静止画用のデータフォーマットだけでなく、ＭＰＥＧ形式、Ｈ．２６４形式またはＨ．２６５形式等の動画用のデータフォーマットであってもよい。なお、ＩＳＰ４００の処理として第２機械学習演算部９００における演算処理を実行しやすくするために圧縮符号化されたデータに対して、切り出し、サイズ変更、変形、合成などの加工処理を実行するようにしてもよい。

ステップＳ８５０においてＣＰＵ７００は、第２機械学習演算部９００を制御し、圧縮符号化されたデータに対して機械学習モデルを用いた演算処理を行う。本実施形態における機械学習モデルは画像内に所定の検出対象が存在するか否かを検出するための演算を行う。ＣＰＵ７００は当該機械学習モデルのパラメータを第２機械学習演算部９００に含まれるレジスタ等に設定することで演算を制御する。そして、第２機械学習演算部９００での演算が終了した後に、次のステップへ処理を進める。なお、本実施形態において、機械学習モデルのパラメータには畳み込み演算に用いる重みパラメータ、第２機械学習演算部９００に含まれる各ブロックを制御するためのコマンド等が含まれる。また、本実施形態において示したように、圧縮符号化されたデータに対して第２機械学習演算部９００が処理を行う場合には、処理対象である画像データ自体のデータ量が削減されているためメモリ８００における必要な記憶容量を抑えることができる。

本実施形態において、画像データに含まれる対象に応じてＩＳＰ４００など撮像装置１０００の各ブロックの制御を行う場合において、第２機械学習演算部９００を制御し適切に対象の検出を行い、より適切な制御を実現することが可能となる。また、検出結果に応じて撮像装置１０００の各ブロックを制御する場合において、複数の機械学習モデルを切り替えるように制御してもよい。一例として、検出結果に応じて不図示の光学部の焦点位置を制御する場合には、検出対象までの距離を検出する機械学習モデルを用いてもよい。また、検出対象に応じてＩＳＰ４００における画像処理を切り替える場合には、画像データ中の検出対象が占める領域を検出する機械学習モデルを用いてもよい。また、検出対象の姿勢等をユーザーインターフェースとして撮像装置１０００を制御する場合には、検出対象の姿勢を検知する機械学習モデルを用いてもよい。また、人物等の認証を行う場合には人体の少なくとも一部を検出する機械学習モデルを用いてもよい。

本実施形態において、第２機械学習演算部９００において用いられる機械学習モデルは様々な機能を実現する必要があるため、第２機械学習演算部９００に対して求められる能力としては、演算精度や演算速度に加えて高い汎用性が挙げられる。このため、第２機械学習演算部９００においては、回路の冗長性も必要になる。

ステップＳ８６０においてＣＰＵ７００は、第２機械学習演算部９００における機械学習モデルを用いた演算の結果として検出対象を検出したか否かを判定する。検出対象を検出した場合には、ステップＳ８７０に処理を進め、検出結果を表示部６００に表示する。一方で、検出対象を検出できなかった場合には、ステップＳ８８０に処理を進める。本実施形態においては、第２機械学習演算部９００における機械学習モデルの演算結果を表示部６００に表示する例を示したが、これに限られるものではない。第２機械学習演算部９００における機械学習モデルの演算結果を撮像装置１０００のいずれのブロックの制御に用いるかによって、ステップＳ８６０及びステップＳ８７０における処理を置き換えることが可能である。なお、本実施形態においては、ステップＳ８５０乃至ステップＳ８７０までの処理を１度行う例を示したが、所定回数を繰り返すように制御してもよい。

ステップＳ８８０においてＣＰＵ７００は、撮像動作を終了するか否かを判定する。より詳細には、ＣＰＵ７００はユーザーによる撮像終了指示やアプリケーションの終了指示に基づいて本フローチャートの処理を終了するか否かを判定し、終了判定がなされるまでは本フローチャートの処理を繰り返し実行する。

以上、本実施形態の撮像装置１０００及びその制御方法について各図面を用いて説明した通り、それぞれ特製の異なる演算手段である第１機械学習演算部２００及び第２機械学習演算部９００を備えることにより、処理の高速性及び汎用性について両立させることができる。通常の機械学習に関する演算は、サーバー等の大規模な処理装置が必要なほど大量な多ビットの積和演算を並列に実行することが必要である。演算量を低減するための手法として量子化処理を行う手法があるが、量子化によってビット精度が低下すれば、それに伴って演算精度が低下するという新たな課題が生じる。また、機械学習の演算において、実行するタスクを特定の内容や範囲に限定することで量子化による演算精度の低下が抑えられる場合もある。言い換えればこれらは、組み込み機器等の消費電力量や演算資源に制限があるエッジデバイスにおいて、機械学習に関する様々な演算を高精度に実行可能である汎用性の要求と、回路規模や消費電力量を抑えるための高い演算効率の要求の両方を満たすことが非常に難しい課題であることを示している。

本実施形態の撮像装置１０００は汎用性と演算効率の両立の課題に対して、各画素から得られる信号を画素ごとに処理することに特化した第１機械学習演算部２００をパイプライン的にセンサ１００とＩＳＰ４００の間に配置して演算の効率性を高めつつ、さらに高い汎用性を備える第２機械学習演算部をＩＳＰ４００の後段に配置している。言い換えれば、第１機械学習演算部２００は、同期信号に基づいてセンサ１００から出力される単位で量子化演算を含む機械学習モデルによる処理を実行することで、メモリ消費量を抑えつつ低遅延かつ高効率な演算を実行している。さらに機械学習モデルが実行するタスクをノイズ低減等の画素単位の処理に限定することで量子化演算による演算精度低下を抑えることが可能となる。また、センサ１００から出力された信号には多ビットの情報が含まれるため、画質改善に係る画像処理を実行するために好適である。そして、第２機械学習演算部９００をさらに備えることにより、全体として様々な機械学習モデルにおけるタスクに対応するべく汎用性も維持することが可能となる。

（第２の実施形態）
第１の実施形態においては、第１機械学習演算部２００と内部バスＩＢとをセンサＩ／Ｆ３００を介して接続する例を示した。図９は第２の実施形態に係る撮像装置１１００の機能ブロック図を示した図である。第１の実施形態における撮像装置１０００と同一の構成については同一の符号を用いて示しており、その説明は省略する場合がある。

撮像装置１１００において第１の実施形態の撮像装置１０００と異なる個所は、第１機械学習演算部２００と内部バスＩＢとの接続形態である。センサ１００と第１機械学習演算部２００とは、センサ１００における高速Ｉ／Ｆ１３０を介する高速多チャンネル通信方式により第１の実施形態と同様に接続されている。一方で、第１機械学習演算部２００撮像装置１１００の各機能ブロックとは高速通信可能な内部バスＩＢにより接続されている。言い換えれば、本実施形態において、第１機械学習演算部２００、ＩＳＰ４００、入出力部５００、表示部６００、ＣＰＵ７００、メモリ８００、第２機械学習演算部９００は同一のシリコンチップ上に構成され、それぞれは高速の内部バスＩＢと接続されている。

図１０は、本実施形態係るバッファ２１０及びＩＳＰ４００の動作を説明するためのタイミングチャートである。本実施形態においては１行分の画素値をバッファする例を示す。図１０Ａにおいて、センサ１００から出力される画素値のデータ出力タイミングを示す。水平同期信号のタイミングに同期して、期間Ｔａにおいて画素値データを順次出力する。そして、図１０Ｂにおいて、バッファ２１０から出力される画素値のデータ出力タイミングを示す。水平同期信号のタイミングに同期して、期間Ｔｂにおいて画素値データを順次出力する。バッファ２１０より後段においては、処理するデータレートが遅くなればなるほど電力削減につながる。そのため、バッファ２１０より読み出すデータレートは入力時のデータレートよりも遅くなっている。図１０Ｃにおいて、ＩＳＰ４００における画像データに対する画像処理の実行タイミングを示す。第１機械学習演算部２００において処理された結果は図１０Ｂで示したタイミングより遅延してＩＳＰ４００に入力される（期間Ｔｃ１）。そして、期間Ｔｃ２において入力された画像データより順次パイプライン的に処理が行われる。

図１０において、バッファ２１０は１行分の画素値を保持する例を説明したが、これに限られるものではなく、第１推論部２３０やＩＳＰ４００において複数行のデータが必要な場合には複数行を保持するようにしてもよい。例えば、第１推論部２３０において、３×３の重みを演算に用いる場合等においては、少なくとも３行分を保持するようにしてもよい。また、ＩＳＰ４００において７行分の画像データが必要な場合等においては、少なくとも７行分を保持するようにしてもよい。

図１０に示した通り、第１機械学習演算部２００を内部バスＩＢへ直接接続することにより、画像データをパイプライン的に処理することが可能となる。これにより撮像装置１１００における全体の処理レートを向上させることができる。

以上、本発明の第二実施形態について図面を参照して詳述したが、具体的な構成はこの
実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれ
る。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構
成することが可能である。

（変形例１）
例えば、上記実施形態に記載の第１機械学習演算部２００及び第２機械学習演算部９００において演算対象となるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、第１機械学習演算部２００及び第２機械学習演算部９００に入力されるデータは、光センサ、温度計、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）計測器、角速度計測器、風速計などの物理量測定器における測定結果などと組み合わせてもよい。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

（変形例２）
撮像装置１０００または撮像装置１１００は、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。ＰｏｗｅｒｏｎＥｔｈｅｒｎｅｔ（ＰｏＥ）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。
例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

（変形例３）
第１機械学習演算部２００及び第２機械学習演算部９００は、その一部または全部を一つ以上のプロセッサを用いて実現してもよい。例えば、第１機械学習演算部２００及び第２機械学習演算部９００は、入力層または出力層の一部または全部をプロセッサによるソフトウェア処理により実現してもよい。ソフトウェア処理により実現する入力層または出力層の一部は、例えば、データの正規化や変換である。これにより、様々な形式の入力形式または出力形式に対応できる。なお、プロセッサで実行するソフトウェアは、通信手段や外部メディアを用いて書き換え可能に構成してもよい。

（変形例４）
第２機械学習演算部９００における処理の一部をクラウド上のＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＧＰＵ）等を組み合わせることで実現してもよい。第２機械学習演算部９００は、撮像装置１０００または撮像装置１１００で行った処理に加えて、クラウド上でさらに処理を行ったり、クラウド上での処理に加えて処理を行ったりすることで、より複雑な処理を少ないリソースで実現できる。

（変形例５）
第１機械学習演算部２００と第２機械学習演算部９００とでは、量子化演算を含むか否かにおいて差分があるため、それぞれで動作する機械学習モデルについて学習方法を異ならせるようにしてもよい。一例として、第１機械学習演算部２００において動作する機械学習モデルは量子化演算を含むネットワークを生成した後に量子化演算を含んだ形で学習する学習ステップを含む方法（以下、ＱＡＴ方式という。）を採用することが好適である。このようにＱＡＴ方式で学習することにより、量子化による演算精度の低下を低減することが可能となる。一方で、ＱＡＴ方式は学習方法や学習パラメータの設計などが必要になるため、汎用性が低下する場合がある。そのため、第２機械学習演算部９００において動作する機械学習モデルにおいてはＱＡＴ方式を用いずに学習することが好ましい。このように第１機械学習演算部２００および第２機械学習演算部９００のいずれかで用いるかどうかで機械学習モデルの学習方法を決定することが好ましい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

１００イメージセンサ
２００第１機械学習演算部
３００センサＩ／Ｆ
４００ＩＳＰ
５００入出力部
６００表示部
７００ＣＰＵ
８００メモリ
９００第２機械学習演算部
１０００第１の実施形態に係る撮像装置
１１００第２の実施形態に係る撮像装置

Claims

被写体像を電気信号に変換するための複数の画素を備えるイメージセンサを備える撮像装置であって、
複数の演算層を含む第１の機械学習モデルを用いて前記複数の画素から得られる信号を処理するための第１の機械学習演算手段と、
前記第１の機械学習演算手段によって処理された信号に対して所定の画像処理を行う画像処理手段と、
前記画像処理手段の結果である画像データを保持するための保持手段と、
前記第１の機械学習モデルと異なる第２の機械学習モデルを用いて前記保持手段に保持された画像データを処理するための第２の機械学習演算手段とを備え、
前記第１の機械学習モデルは少なくとも畳み込み演算を行う第１の畳み込み演算層の演算結果である行列の各要素に対して低ビット化するための量子化演算を行う量子化演算層と、前記量子化演算層の演算結果に基づいて畳み込み演算を行う第２の畳み込み演算層を含むことを特徴とする撮像装置。
前記第２の機械学習モデルは前記第1の機械学習モデルとは異なるネットワーク構造を備え、少なくとも畳み込み演算を行う畳み込み演算層と畳み込み演算結果に対してプーリング演算を行うプーリング層とを含むことを特徴とする請求項１に記載の撮像装置。
前記イメージセンサを制御するための同期信号を生成するための制御手段をさらに備え、
前記第１の機械学習演算手段における処理は前記同期信号に同期して行われることを特徴とする請求項１に記載の撮像装置。
前記第１の機械学習演算手段は前記第１の機械学習モデルを用いて処理した結果をさらに後処理するための後処理手段を含み、
前記後処理手段は前記同期信号に基づいて前記第１の機械学習モデルを用いて処理した結果に対してヘッダ情報または同期信号を付加する処理を行うことを特徴とする請求項３に記載の撮像装置。
前記第１の機械学習モデルに含まれる量子化演算層は畳み込み演算層の演算結果を８ｂｉｔ以下の値に量子化することを特徴とする請求項１に記載の撮像装置。
前記イメージセンサは前記複数の画素におけるアナログ信号をデジタル信号に変換する変換手段をさらに備え、
前記第１の機械学習モデルに含まれる量子化演算層は畳み込み演算層の演算結果を前記変換手段による分解能以下の値に量子化することを特徴とする請求項１に記載の撮像装置。
前記画像処理手段において行う所定の画像処理には少なくともデモザイク処理及び符号化圧縮処理を含むことを特徴とする請求項１に記載の撮像装置。
前記第１の機械学習モデルは前記複数の画素の信号に含まれるノイズを低減するための推論演算を行い、
前記第２の機械学習モデルは前記画像データにおいて所定の検出対象を検出する処理を行うことを特徴とする請求項１に記載の撮像装置。
前記画像処理手段の結果である画像データを表示するための表示手段をさらに備え、
前記表示手段は前記表示手段に表示する画像データに対応する前記第２の機械学習モデルにおける検出対象の検出結果を表示することを特徴とする請求項８に記載の撮像装置。
前記第１の機械学習演算手段は前記イメージセンサが出力する所定の単位で前記複数の画素の信号に対する推論演算を行い、
前記第２の機械学習演算手段は前記保持手段に保持された画像データの単位で所定の検出対象を検出する処理を行うことを特徴とする請求項１に記載の撮像装置。
前記所定の単位には８ｂｉｔ以上の画素値が１５００以上含まれ、
前記第１の機械学習演算手段及び前記画像処理手段は前記単位に基づいてパイプライン的に順次処理を行うことを特徴とする請求項１０に記載の撮像装置。
前記第１の機械学習演算手段は前記イメージセンサが出力する所定の単位で前記複数の画素の信号を一時的に保持するバッファ手段をさらに備え、
前記第１の機械学習演算手段が前記バッファ手段に一時的に保持された前記複数の画素の信号に対して第１の機械学習モデルを用いた処理を行うために読み出すデータレートは、前記バッファ手段に入力する際の前記複数の画素の信号のデータレートより遅いことを特徴とする請求項１０または１１に記載の撮像装置。
前記第１の機械学習演算手段は複数の機械学習モデルを切り替えるための切り替え手段をさらに備え、
前記第１の機械学習演算手段は前記イメージセンサにおける露出条件に基づいて機械学習モデルを切り替えることを特徴とする請求項１に記載の撮像装置。
前記第２の機械学習演算手段は複数の機械学習モデルを切り替えるための切り替え手段をさらに備え、
前記第２の機械学習演算手段において切り替える複数の機械学習モデルは人体の少なくとも一部を検出する機械学習モデルを含むことを特徴とする請求項１３に記載の撮像装置。
前記第１の機械学習演算手段は複数の機械学習モデルを切り替えるための切り替え手段をさらに備え、
前記第１の機械学習演算手段は動作モードに基づいて機械学習モデルを切り替えることを特徴とする請求項１に記載の撮像装置。
前記動作モードには静止画モード、動画モードおよび夜景モードのうち少なくとも一つを含むことを特徴とする請求項１５に記載の撮像装置。
前記第１の機械学習演算手段における前記第１の機械学習モデルは、前記第２の機械学習モデルとは異なる学習方法を用いて外部装置において事前に学習された学習済みの機械学習モデルであって、
前記学習方法には前記第１の機械学習モデルに量子化演算を含んだ形で行う学習ステップが含まれていることを特徴とする請求項１に記載の撮像装置。
被写体像を電気信号に変換するための複数の画素を備えるイメージセンサを備える撮像装置の制御方法であって、
複数の演算層を含む第１の機械学習モデルを用いて前記複数の画素の信号を処理するための第１の機械学習演算ステップと、
前記第１の機械学習演算ステップによって処理された信号に対して所定の画像処理を行う画像処理ステップと、
前記画像処理ステップの結果である画像データを保持するための保持ステップと、
前記第１の機械学習モデルと異なる第２の機械学習モデルを用いて前記保持ステップに保持された画像データを処理するための第２の機械学習演算ステップとを備え、
前記第１の機械学習モデルは少なくとも畳み込み演算を行う第１の畳み込み演算ステップの演算結果である行列の各要素に対して低ビット化するための量子化演算を行う量子化演算ステップと、前記量子化演算ステップの演算結果に基づいて畳み込み演算を行う第２の畳み込み演算ステップを含むことを特徴とする撮像装置の制御方法。