JP2021009439A

JP2021009439A - 画像処理システム及びプログラム。

Info

Publication number: JP2021009439A
Application number: JP2019121427A
Authority: JP
Inventors: 前田　昌雄; Masao Maeda; 昌雄前田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-01-28
Also published as: US11146710B2; US20200412912A1

Abstract

【課題】画像データに色空間識別情報が付されていない場合であっても、当該画像データの色空間を特定できるようにする。【解決手段】色空間の異なる画像データを扱う画像処理システムが、画像データとそのメタデータを入力データとし、色空間識別情報を教師データとして機械学習を行う学習手段を備える。機械学習においては、前記入力データから予測した色空間と前記色空間識別情報によって特定される色空間とのずれが最小となるように学習モデルを最適化する。【選択図】図８

Description

本発明は、様々な色空間の画像データを扱う画像処理システムに関する。

デジタルカメラなどの撮像装置で撮影した画像を、プリンタやディスプレイなどの画像出力デバイスで出力する際、デバイス間の色再現性の違いを効率良く吸収するために標準的な色空間を用いる方法が従来より提案されている（特許文献１）。近年は、従来からあるｓＲＧＢ、ＡｄｏｂｅＲＧＢに加え、ＤｉｓｐｌａｙＰ３といった様々な標準色空間が登場し、デバイス間での画像ファイルのやり取りに用いられている。

特開平７−２７４０２５号公報

例えばスマートフォンやデジタルカメラで撮影した画像をプリンタで印刷するケースにおいて、プリンタに入力される画像データで使用されている標準色空間を識別するための情報（色空間識別情報）が付されている場合と付されていない場合とがある。プリンタ側では、画像データに色空間識別情報が付されていれば、それによって特定される標準色空間に応じて、自装置が使用する色空間（デバイス依存色空間）に適切に変換することができる。しかしながら、色空間識別情報が付されていない場合には、予め決めた所定の標準色空間と決め打ちして変換を行わざるを得ず、結果的に正しい色空間変換処理を行えない場合がある。

本開示に係る、色空間の異なる画像データを扱う画像処理システムは、画像データとそのメタデータを入力データとし、色空間識別情報を教師データとして機械学習を行う学習手段であって、前記入力データから予測した色空間と前記色空間識別情報によって特定される色空間とのずれが最小となるように学習モデルを最適化する、学習手段を有することを特徴とする。

本開示の技術によれば、画像データに対する色空間を適切に特定させることが可能になる。

画像処理システムの構成の一例を示す図クラウドサーバ及びエッジサーバのハードウェア構成を示すブロック図（ａ）はスマートフォンの外観図、（ｂ）はスマートフォンの内部構成を示すブロック図（ａ）はプリンタの外観図、（ｂ）はプリンタ６００の内部構成を示すブロック図画像処理システムのソフトウェア構成を示すブロック図（ａ）は学習モデルを利用して学習を行う際の入出力の構造を示す概念図、（ｂ）は学習済みモデルを利用して推定を行う際の入出力の構造を示す概念図（ａ）及び（ｂ）は、ＪＰＥＧフォーマットの画像ファイルのデータ構造を示す図（ａ）は学習フェーズにおける入出力の説明図、（ｂ）は推定フェーズにおける入出力の説明図学習フェーズにおける画像処理システム全体の動きを示すシーケンス図推定フェーズにおける画像処理システム全体の動きを示すシーケンス図プリンタにおける処理の流れを示すフローチャートエッジサーバにおける処理の流れを示すフローチャートクラウドサーバにおける処理の流れを示すフローチャート変形例に係る、画像処理システム全体の動きを示すシーケンス図

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

［実施形態１］
（画像処理システムの全体構成）
図１は、本実施形態に係る、画像処理システム１００の構成の一例を示す図である。画像処理システム１００は、ローカルエリアネットワーク（ＬＡＮ）１０２及びインターネット１０４で接続された、クラウドサーバ２００、エッジサーバ３００及びデバイス群４００から構成される。デバイス群４００には、ネットワーク接続が可能な各種のデバイス、例えばパーソナルコンピュータやワークステーションなどのクライアント端末４０１、デジタルカメラ４０２、スマートフォン５００、プリンタ６００が含まれる。これら以外にもネットワーク接続可能な機器、例えば冷蔵庫やテレビ、エアコンなどの家電製品も含まれ得る。デバイス群４００はＬＡＮ１０２で相互に接続され、ＬＡＮ１０２に設置されているルータ１０３を介してインターネット１０４と接続することが可能である。ルータ１０３は、ＬＡＮ１０２とインターネット１０４を接続する機器として図示されているが、ＬＡＮ１０２を構成する無線ＬＡＮアクセスポイント機能を持たせることも可能である。この場合、デバイス群４００に含まれる各デバイスは、有線ＬＡＮでルータ１０３と接続する以外にも、無線ＬＡＮを介してＬＡＮ１０２に参加するように構成することができる。例えばプリンタ６００やクライアント端末４０１は有線ＬＡＮで接続し、スマートフォン５００やデジタルカメラ４０２は無線ＬＡＮで接続するように構成することも可能である。デバイス群４００及びエッジサーバ３００は、ルータ１０３を介して接続されたインターネット１０４を経由してクラウドサーバ２００と相互に通信することが可能である。エッジサーバ３００とデバイス群４００は、ＬＡＮ１０２を経由して相互に通信することが可能である。本実施形態では、クラウドサーバ２００とデバイス群４００との間にエッジサーバ３００を配置している。そして、エッジサーバ３００に対して学習及び推定のリクエストを行うプリンタ６００は、クラウドサーバ２００に対しては直接アクセスしない構成としている。このように、学習や推定のリクエストを発行するデバイスが、その近くに配置されたエッジサーバ３００のみにアクセスするシステム構成を採用することにより、効率的なデータ処理が可能になる。なお、エッジサーバ３００は、ネットワークにおいてクラウドサーバ２００よりも近い位置に配置されている。また、デバイス群４００のデバイス同士も、ＬＡＮ１０２を経由して相互に通信することが可能である。また、スマートフォン５００とプリンタ６００は、近距離無線通信１０１によって通信可能である。近距離無線通信１０１としては、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格やＮＦＣ規格に則った無線通信を利用するものが考えられる。またスマートフォン５００は、携帯電話回線網１０５とも接続されており、この回線網１０５を介してクラウドサーバ２００と通信することもできる。なお、図１に示す構成は、画像処理システムの構成の一例を示すものであって、これに限定されない。例えば、ルータ１０３がアクセスポイント機能を備えている例を示したが、アクセスポイントはルータ１０３と異なる装置で構成してもよい。また、エッジサーバ３００とデバイス群４００に含まれる各デバイスとの間の接続は、ＬＡＮ１０２以外の接続手段を用いるものであってもよい。例えばＬＰＷＡ、ＺｉｇＢｅｅ、Ｂｌｕｅｔｏｏｔｈ、ＲＦＩＤなどの無線通信や、ＵＳＢなどの有線通信などを用いるものであってもよい。

（サーバのハードウェア構成）
図２は、クラウドサーバ２００及びエッジサーバ３００のハードウェア構成を示すブロック図である。本実施形態では、クラウドサーバ２００とエッジサーバ３００とは、共通のハードウェア構成を有するものとする。サーバ２００／３００は、装置全体の制御を行うメインボード２１０、ネットワーク接続ユニット２０１、ハードディスクユニット２０２からなる。また、メインボード２１０は、ＣＰＵ２１１、内部バス２１２、プログラムメモリ２１３、データメモリ２１４、ネットワーク制御回路２１５、ハードディスク制御回路２１６、ＧＰＵ２１７を有する。

ＣＰＵ２１１は、ネットワーク制御回路２１５を介してネットワーク接続ユニット２０１を制御することで、インターネット１０４やＬＡＮ１０２などのネットワークと接続し、他の装置との通信を行う。また、ＣＰＵ２１１は、ハードディスク制御回路２１６を介して、ハードディスクユニット２０２にデータを書き込んだり、格納されているデータを読み出したりする。ハードディスクユニット２０２には、プログラムメモリ２１３にロードして使用されるＯＳや各種の制御用ソフトウェア、各種データが格納される。ＧＰＵ２１７は、各種演算処理を、ＣＰＵ２１１に代わって或いは協働して実行する。ＧＰＵ２１７はデータをより多く並列処理することができる。そのため、ディープラーニングのように、学習モデルを用いて複数回に渡って学習を行う場合の演算処理に向いている。本実施形態では、クラウドサーバ２００にて学習プログラムを実行する際には、ＣＰＵ２１１とＧＰＵ２１７が協働して演算を行うものとする。なお、本実施形態では、クラウドサーバ２００とエッジサーバ３００とは共通のハードウェア構成を有するものとして説明したが、両者の構成は異なっていてもよい。例えば、クラウドサーバ２００にはＧＰＵ２１７を搭載するが、エッジサーバ３００には搭載しない構成であってもよい。また、クラウドサーバ２００が搭載するＧＰＵ２１７とエッジサーバ３００が搭載するＧＰＵ２１７とが、異なる性能であってもよい。

（スマートフォンのハードウェア構成）
図３（ａ）は、スマートフォン５００の外観図である。ここで、スマートフォンは、電話機能の他、カメラ、ネットブラウザ、メールといった機能を搭載した多機能型の携帯電話を指す。近距離無線通信ユニット５０１は、所定距離内にいる通信相手の近距離無線通信ユニットと通信を行うためのユニットである。無線ＬＡＮユニット５０２は、無線ＬＡＮを利用してＬＡＮ１０２と接続して通信を行うためのユニットである。回線接続ユニット５０３は、携帯電話回線に接続して通信を行うためのユニットである。タッチパネルディスプレイ５０４は、スマートフォン５００の前面に備えられており、ＬＣＤ方式の表示機構とタッチパネル方式の操作機構を兼ね備えている。タッチパネルディスプレイ５０４上に表示されたボタン状の操作パーツへのタッチ操作を検知すると、ボタンが押下されたイベントが発行される。電源ボタン５０５は、スマートフォンの電源のオン及びオフをする際に用いる。

図３（ｂ）は、スマートフォン５００の内部構成を示すブロック図である。図３（ｂ）には、上述の近距離無線通信ユニット５０１、無線ＬＡＮユニット５０２、回線接続ユニット５０３、タッチパネルディスプレイ５０４に加え、スマートフォン５００の全体を制御するメインボード５１０が示されている。メインボード５１０は、ＣＰＵ５１１、内部バス５１２、プログラムメモリ５１３、データメモリ５１４（画像メモリ５２０を含む）、各種制御回路５１５〜５１８、カメラ部５１９、不揮発性メモリ５２１を有する。

ＣＰＵ５１１は、無線ＬＡＮ制御回路５１５を介して無線ＬＡＮユニット５０２を制御することで、他の通信端末装置との間で無線ＬＡＮ通信を行う。また、ＣＰＵ５１１は、近距離無線通信制御回路５１６を介して近距離無線通信ユニット５０１を制御することで、他の近距離無線通信端末との間でデータの送受信を行う。また、ＣＰＵ５１１は、回線制御回路５１７を介して回線接続ユニット５０３を制御することで、携帯電話回線網１０５に接続し、通話やデータ送受信を行う。また、ＣＰＵ５１１は、操作部制御回路５１８を制御することで、タッチパネルディスプレイ５０４に所望の表示を行ったり、ユーザからの操作を受け付けたりする。さらに、ＣＰＵ５１１は、カメラ部５１９を制御して撮影を行うことができる。撮影画像データはデータメモリ５１４内の画像メモリ５２０に格納される。また、カメラ部５１９の撮影画像データ以外にも、ＬＡＮ１０２や近距離無線通信１０１などを通じて外部から取得した画像データを画像メモリ５２０に格納したり、逆に外部に送信したりすることも可能である。不揮発性メモリ５２１はフラッシュメモリ等で構成され、電源オフ後でも保存しておきたいデータを格納する。例えば電話帳データや、各種通信接続情報や過去に接続したデバイス情報などの他、保存しておきたい画像データ、あるいはスマートフォン５００に各種機能を実現するアプリケーションソフトウェアなどが格納される。

（プリンタのハードウェア構成）
図４（ａ）は、プリンタ６００の外観図である。図４（ａ）に示すプリンタ６００は、スキャナその他の機能を兼ね備えたマルチファンクションプリンタ（ＭＦＰ）である。原稿台６０１は、ガラス状の透明な台であり、原稿を載せてスキャナで読み取る時に使用する。原稿台圧板６０２は、スキャナで読み取りを行う際に原稿が浮かないように原稿台６０１に押しつけると共に、外光がスキャナユニットに入らないようにするためのカバーである。また、原稿台圧板６０２の上部には、操作パネル、近距離無線通信ユニット、無線ＬＡＮアンテナが設けられている。印刷用紙挿入口６０３は、様々なサイズの用紙をセットする挿入口である。ここにセットされた用紙は一枚ずつ印刷部に搬送され、所望の印刷を行って印刷用紙排出口６０４から排出される。

図４（ｂ）は、プリンタ６００の内部構成を示すブロック図である。図４（ｂ）には、プリンタ６００の全体を制御するメインボード６１０、無線ＬＡＮユニット６０８、近距離無線通信ユニット６０６、操作パネル６０５が示されている。メインボード６１０は、ＣＰＵ６１１、内部バス６１２、プログラムメモリ６１３、データメモリ６１４（画像メモリ６１６を含む）、スキャナ６１５、印刷部６１７、各種制御回路６１８〜６２０を有する。

ＣＰＵ６１１は、スキャナ部６１５を制御して原稿を光学的に読み取り、得られたスキャン画像データを画像メモリ６１６に格納する。また、ＣＰＵ６１１は、印刷部３１７を制御して、画像メモリ６１６に格納されている画像データを印刷することができる。また、ＣＰＵ６１１は、無線ＬＡＮ通信制御部６１８を介して無線ＬＡＮユニット６０８を制御することで、他の通信端末装置と無線ＬＡＮ通信を行う。また、ＣＰＵ６１１は、近距離無線通信制御回路６１９を介して近距離無線通信ユニット６０６を制御することで、他の近距離無線通信端末との間でデータの送受信を行う。また、ＣＰＵ６１１は、操作部制御回路６２０を制御することで、操作パネル６０５にプリンタ６００の状態表示や機能選択メニューの表示を行ったり、ユーザからの操作を受け付けたりする。操作パネル６０５にはバックライトが備えられており、ＣＰＵ６１１は操作部制御回路６２１を介してバックライトの点灯、消灯を制御する。

（画像処理システムのソフトウェア構成）
図５は、画像処理システム１００のソフトウェア構成を示すブロック図である。本図では、画像処理システム１００が有するソフトウェア構成のうち、画像データの色空間の学習及び推定に関わるモジュールのみ記載している。本図において、その他の機能に関わるモジュール（ＯＳ、各種のミドルウェア、メンテナンス用アプリケーション等）は省略している。

クラウドサーバ２００は、リクエスト制御モジュール２５０、学習用データ生成モジュール２５１、学習モジュール２５２の３つのソフトウェアモジュール及び学習モデル２５３を備える。リクエスト制御モジュール２５０は、エッジサーバ３００のリクエスト制御モジュール３５０から送られてくる学習リクエストを受信する。また、学習によって学習モデル２５３が更新された場合に更新後の学習モデル２５３をエッジサーバ３００に送信する。学習用データ生成モジュール２５１は、学習リクエストに係る画像ファイルから、学習モジュール２５２が処理可能な学習用データを生成する。ここで、学習用データは、学習モジュール２５２の入力データＸと、学習結果の正解を示す教師データＴとの組からなるデータである。学習モジュール２５２は、学習用データ生成モジュール２５１から受け取った学習用データを用いて学習を実行する。学習モデル２５３は、学習モジュール２５２が行った学習の結果を蓄積していくことでその内容が変化していく（学習モデル２５３の更新）。本実施形態では、機械学習の手法の一つである深層学習（ディープラーニング）を行う場合を例に説明を行うこととする。ディープラーニングでは、中間層を２つ以上持つニューラルネットワークの各ノード間の重み付けパラメータを最適化する。これにより、入力データを分類したり、評価値を決定したりすることが出来る。学習結果が反映された更新後の学習モデル２５３は、学習済みモデルとしてエッジサーバ３００に配信され、推定処理で用いられる。この際、更新後の学習モデル２５３の全部を配信してもよいし、推定に必要な一部分だけを抜き出して配信してもよい。

エッジサーバ３００は、リクエスト制御モジュール３５０と推定モジュール３５１の２つのソフトウェアモジュール及び学習済モデル３５２を備える。リクエスト制御モジュール３５０は、各デバイスから受信した学習リクエストを、学習対象の画像ファイルと共にクラウドサーバ２００に転送する処理を行う。また、エッジサーバ３００が自ら収集した画像ファイルを、学習リクエストと共にクラウドサーバ２００に送信することもできる。さらに、リクエスト制御モジュール３５０は、各デバイスから推定リクエストを受信する。そして、推定モジュール３５１は、推定リクエストに付随する画像データを入力データＸとして、上述の学習済モデル３５２を用いて推定を実行する。本実施形態では、色空間識別情報が付されていない画像データの色空間が推定される。推定結果は、リクエスト制御モジュール３５０によって、推定リクエストの送信元デバイス（本実施形態ではプリンタ６００）に返される。

プリンタ６００は、機械学習アプリケーション４５０とリクエストモジュール４５１を有する。機械学習アプリケーション４５０は、機械学習による学習・推定の仕組みを利用するためのアプリケーションである。リクエストモジュール４５１は、エッジサーバ３００に対し学習または推定の実行をリクエストするモジュールである。学習フェーズでは、機械学習アプリケーション４５０からの指示により、学習対象の画像ファイルと共に学習リクエストをエッジサーバ３００に送信する。また、推定フェーズでは、機械学習アプリケーション４５０からの指示により、推定対象の画像ファイルと共に推定リクエストをエッジサーバ３００に送信し、さらにエッジサーバ３００から返される推定結果を受信する。なお、本実施形態ではプリンタ６００が、学習と推定のリクエストを発行する構成としている。デバイス群４００に含まれる他のデバイスから、学習と推定のリクエストを発行する構成とする場合には、当該他のデバイスが上述の機械学習アプリケーション４５０とリクエストモジュール４５１を備えることになる。
本実施形態では、クラウドサーバ２００にて学習を行いその学習結果を蓄積した学習モデル２５３をエッジサーバ３００に学習済モデル３５２として配信してエッジサーバ３００にて推定を行う構成としているが、この形態に限定されるものではない。学習と推定を画像処理システム内のどこで実行するかは、ハードウェア資源の配分や計算量、データ通信量などを考慮して決定すればよい。或いはハードウェア資源の配分や計算量、データ通信量の増減に応じて動的に変更できるような構成でもよい。

（学習フェーズと推定フェーズの概要）
続いて、ディープラーニングにおける学習フェーズと推定フェーズについて簡単に説明する。図６（ａ）は上述の学習モデル２５３を利用して学習を行う際の入出力の構造を示す概念図、同（ｂ）は上述の学習済モデル３５２を利用して推定を行う際の入出力の構造を示す概念図である。

図６（ａ）において、入力データＸ_ｔは学習モデル２５３のニューラルネットワークの入力層におけるデータである。入力データＸ_ｔを、学習モデル２５３を用いて認識した結果として出力データＹ_ｔが出力される。学習フェーズでは、入力データＸ_ｔの認識結果の正解データとして、教師データＴが与えられる。出力データＹ_ｔと教師データＴとを損失関数に与えることにより、認識結果に対する正解データからのずれ量Ｌが得られる。そして、多数の入力データＸ_ｔについて得られたずれ量Ｌが小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する（誤差逆伝播法）。本実施形態では、機械学習の手法としてディープラーニングを想定しているが、他の種類の機械学習アルゴリズム（例えば、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなど）にも適用することができる。

図６（ｂ）において、入力データＸ_ｉは、学習済モデル３５２のニューラルネットワークの入力層におけるデータである。入力データＸ_ｉを、学習済モデル３５２を用いて認識した結果として出力データＹ_ｉが出力される。推定フェーズでは、この出力データＹ_ｉを推定結果として利用する。ここでは、推定フェーズの学習済モデル３５２は、学習フェーズの学習モデル２５３と同等のニューラルネットワークを備えるものとして説明した。しかし、これに限定される必要はなく、学習モデル２５３から推定フェーズで必要な部分のみを抽出したものを学習済モデル３５２として用意することもできる。これによって学習済モデル３５２のデータ量を削減したり、推定フェーズの処理時間を短縮したりすることが可能である。

（課題の確認）
本実施形態では、スマートフォン５００で撮影を行って得られた画像データをプリンタ６００に送信して印刷する場面において、当該画像データにその色空間を示す色空間識別情報が付されていない場合、機械学習を用いてその色空間を推定する。通常、撮像装置で撮影して得られた画像データには、当該撮像装置の色再現特性に合わせたり、当該画像データを利用する装置での色再現特性に合わせたりするため、ｓＲＧＢやＡｄｏｂｅＲＧＢなど様々な種類の標準色空間が用いられる。そして、どの標準色空間を使用するかによって、画像データの画素値が同一であっても再現すべき色が異なってくる。そのため、プリンタ６００で印刷処理を行う際には、入力画像データに用いられている色空間を特定し、それに合わせた色空間変換処理等の画像処理を行う必要がある。しかしながら、画像ファイルの作成方法やその送受信の方法によっては、受信した画像データに色空間識別情報が付されておらず、色空間を特定できない場合がある。そこで、本実施形態では、プリンタ６００が入力画像データを印刷処理する場面において、色空間識別情報によって当該入力画像データの色空間を特定できる場合は、機械学習を行って学習モデルを更新する。そして、入力画像データに色空間識別情報が付されておらず、その色空間が特定できない場合は、学習済モデルを用いて色空間を推定する。

（画像ファイルのデータ構造）
画像処理システム１００の詳しい説明に入る前に、プリンタ６００に入力される画像ファイルのデータ構造について説明する。図７の（ａ）及び（ｂ）は、ＪＰＥＧフォーマットの画像ファイルのデータ構造を示す図である。図７（ａ）は、画像ファイル７００の全体構造を示す。画像ファイル７００には、画像データ７０２の他に、ＪＰＥＧ情報とＥｘｉｆ情報が格納されるヘッダ情報（メタデータ）７０１が存在し、そこには様々な情報が格納されている。図７（ｂ）は、ヘッダ情報７０１に格納されるＥｘｉｆ情報の一例を示す。ヘッダ情報７０１の中には、色空間識別情報として、ｓＲＧＢであるか否かを示すフラグ情報（「１」であればｓＲＧＢ、「０」であればそれ以外）が格納されており、当該フラグ情報によってｓＲＧＢかどうかが特定される。

なお、色空間識別情報は、ヘッダ情報７０１の一部ではなく、画像ファイル７００とは別個のメタデータファイルとして構成されていてもよい。また、色空間識別情報は、特定の標準色空間であるか否かを示すフラグ情報に限定されるものではない。例えば、ＥＸＩＦ情報から以下の４条件の成立が確認できた場合には、ＡｄｏｂｅＲＧＢであると類推することが可能である。
条件１：上記フラグ情報の値が“０”である（ｓＲＧＢではない）
条件２：ホワイトポイントが、x=0.31, y=0.33（D65）である
条件３：ＲＧＢ光源が、r.x=0.64, r.y=0.33, g.x=0.21, g.y=0.33, b.x=0.15, b.y=0.03である
条件４：ガンマ値が、2.2である

上記のように、特定の標準色空間を類推可能な複数の情報の組み合わせも、色空間識別情報となり得る。

図８（ａ）は、本実施形態の学習フェーズにおける入出力の説明図である。入力データＸ_ｔは、画像ファイル７００の全部、すなわち、ヘッダ情報７１０と画像データ７０２とを含む全てのデータであり、ヘッダ情報７０１には前述の色空間識別情報が含まれる。そして、学習モデル２５３においては、画像データ７０２から抽出可能な情報、例えば画素値の分布やオブジェクトの形状などに着目して、色空間の予測が行われる。さらに、上述のヘッダ情報７０１に含まれる撮影時の情報（シャッタースピード、絞り、ＩＳＯ感度、ストロボ発光の有無、ホワイトバランスの設定など）を利用して、色空間の予測を行ってもよい。なお、本実施形態では、色空間識別情報が付されていない画像データにおける色空間を、学習済みモデルを用いて推定することを目的としている。そのため、ヘッダ情報７０１に含まれる色空間識別情報８００を、教師データＴとしてのみ使用し、学習モデル２５３における色空間の予測段階では無視する。つまり、本実施形態の学習フェーズでは、多数の画像ファイル７００を入力として用いて、色空間を予測して分類し、教師データＴである色空間識別情報８００で特定される色空間とのずれ量Ｌが最小となるように繰り返し学習が行われる。例えば、出力データＹ_ｔの一例は、ｓＲＧＢである確率がＸＸ％、ＡｄｏｂｅＲＧＢである確率がＹＹ％、ＤｉｓｐｌａｙＰ３である確率がＺＺ％である。こうして、学習モデル２５３が更新される。なお、本実施形態における教師データＴは、正解の色空間を特定可能なデータあればよい。すなわち、教師データＴとしての色空間識別情報８００は、前述のとおり、フラグ情報のような単一の情報でもよいし、複数の情報の組合せでもよい。

図８（ｂ）は、本実施形態の推定フェーズの入出力の説明図である。入力データＸ_ｉは、画像ファイル７００の全部、すなわち、ヘッダ情報７０１と画像データ７０２とを含む全てのデータである。ただし、学習フェーズにおける入力データＸ_ｔとは異なり、ヘッダ情報７０１には色空間識別情報８００を含まない。学習済モデル３５２による推定の結果として得られる出力データＹ_ｉは、入力データＸ_ｉで使用されていると見込まれる色空間を特定する情報である。プリンタ６００は、出力データＹ_ｉによって特定される色空間に従って、入力画像データに対する色空間変換処理など必要な画像処理を行う。なお、この場合の色空間変換処理とは、入力画像データの色空間をプリンタ６００が持つ色再現特性に合わせて変換する処理を指す。

（画像処理システム全体の動き）
続いて、本実施形態に係る画像処理システム１００全体の動きについて説明する。

＜学習フェーズ＞
図９は、学習フェーズにおける画像処理システム１００全体の動きを示すシーケンス図である。以下、図９に沿って、本実施形態の学習フェーズにおける動きを説明する。

まず、スマートフォン５００からプリンタ６００に対して印刷ジョブが送信される（Ｓ９０１）。印刷ジョブには前述の画像ファイルが含まれている。印刷ジョブを受信したプリンタ６００は、画像ファイルを解析する（Ｓ９０２）。いま、画像ファイルには色空間識別情報が含まれているものとする。解析結果に基づき、プリンタ６００は、学習リクエストをエッジサーバ３００に送信する（Ｓ９０３）。その後、プリンタ６００は、画像ファイル内の画像データに対して、色空間変換処理を行う。この際、ヘッダ情報７０１に格納されている色空間識別情報によって特定される色空間に基づく最適な変換が、画像データに対して行われる。そして、プリンタ６００は、色空間変換処理済の画像データを用いて、印刷処理を実行する（Ｓ９０５）。

一方、プリンタ６００からの学習リクエストを受信したエッジサーバ３００は、当該学習リクエストをクラウドサーバ２００に転送する（Ｓ９０６）。それを受信したクラウドサーバ２００では、まず、受信した学習リクエストに付随する画像ファイルから前述の学習用データが生成される（Ｓ９０７）。次に、学習用データを用いた学習が実行される（Ｓ９０８）。例えば、分類型の学習の場合、ｓＲＧＢである確率が８９％、ＡｄｏｂｅＲＧＢである確率が２％、ＤｉｓｐｌａｙＰ３である確率が０．１％といったような学習結果が得られることになる。そして、このような学習結果に基づき、学習モデル２５３が更新される（Ｓ９０９）。具体的には、上述のような分類型の出力結果と教師データＴとしての色空間識別情報によって特定される色空間との乖離（ずれ量Ｌ）が０に近くなるように、学習モデル２５３のパラメータの調整がなされる。ここで、例えば、ヘッダ情報に含まれる色空間識別情報が示す色空間であり、例えば、ｓＲＧＢであったとする。その結果、ｓＲＧＢとのずれ量が１１％であると特定され、このずれ量が０％となるように学習モデル２５３のパラメータの調整がなされる。こうして学習が完了すると、クラウドサーバ２００は、更新後の学習モデル２５３（或いはその一部）を、学習済モデル３５２としてエッジサーバ３００へ配信する（Ｓ９１０）。クラウドサーバ２００から学習済モデル３５２を受信したエッジサーバ３００は、自身の持つ学習済モデル３５２にその内容を反映し記憶（学習済みモデルの更新）する。これにより、以降の推定フェーズでは更新後の学習済モデル３５２が用いられることになる。

＜推定フェーズ＞
図１０は、推定フェーズにおける画像処理システム１００全体の動きを示すシーケンス図である。以下、図１０に沿って、本実施形態の推定フェーズにおける動きを説明する。

まず、スマートフォン５００からプリンタ６００に対して印刷ジョブが送信される（Ｓ１００１）。印刷ジョブには前述の画像ファイルが含まれている。印刷ジョブを受信したプリンタ６００は、画像ファイルを解析する（Ｓ１００２）。いま、画像ファイルには色空間識別情報が含まれていないものとする。解析結果に基づき、プリンタ６００は、色空間の推定リクエストを画像ファイルと共にエッジサーバ３００に送信する（Ｓ１００３）。

エッジサーバ３００は、受け取った推定リクエストに従い、学習済モデル３５２を用いた推定処理を行う。具体的には、受信した画像ファイルに含まれる画像データの色空間を、学習済モデル３５２を用いて推定する処理が実行される（Ｓ１００４）。この際、学習済モデル３５２が分類型の学習によって得られたものであれば、分類型の推定結果が出力されることになる。例えば、上述の分類型の学習結果と同様、ｓＲＧＢである確率が９０％、ＡｄｏｂｅＲＧＢである確率が１％、ＤｉｓｐｌａｙＰ３である確率が０．２％といった具合である。こうして推定が完了すると、エッジサーバ３００は、プリンタ６００に推定結果を送信する（１００５）。

色空間の推定結果を受け取ったプリンタ６００は、入力画像ファイル内の画像データに対して、推定結果に従って（分類型の場合、複数の色空間候補のうち最も確率の高い色空間の画像データであると特定して）、色空間変換処理を実行する（Ｓ１００６）。そして、プリンタ６００は、色空間変換処理済の画像データを用いて、印刷処理を実行する（Ｓ１００７）。なお、１００５において、エッジサーバ３００が推定結果として、最も確立の高い色空間情報を通知しても良い。つまり、上述の実施形態では、エッジサーバ３００が、推定結果としてｓＲＧＢである確率が９０％、ＡｄｏｂｅＲＧＢである確率が１％、ＤｉｓｐｌａｙＰ３である確率が０．２％を取得する。これらから最も確立の高いｓＲＧＢが推定結果として出力されても良い。

（プリンタにおける処理の流れ）
図１１は、プリンタ６００における処理の流れを示すフローチャートである。この処理は、プリンタ６００の電源投入に応答して、ＣＰＵ６１１がプログラムメモリ６１３に格納された機械学習アプリケーション４５０に対応する制御プログラムを実行することにより実現される。なお、図１１に示すフローチャートは、本実施形態に関わる処理について記載しており、その他の処理については図示を省略している。また、以下の説明において記号「Ｓ」はステップを表す。

Ｓ１１０１では、装置内各部の初期化処理が実行される。続くＳ１１０２では、スマートフォン５００などの外部装置から印刷ジョブを受信したかどうかのチェック処理が実行される。印刷ジョブの受信が検知されるまで、本ステップが所定の間隔で繰り返し実行される。そして、印刷ジョブの受信が検知されるとＳ１１０３へ進む。

Ｓ１１０３では、受信した印刷ジョブに含まれている画像ファイルの解析処理が実行される。本実施形態では、画像ファイルは印刷ジョブに含まれて送られてくることを前提としているが、これに限定されない。例えば、印刷ジョブには画像ファイルの格納場所を示すアドレス情報が含まれており、プリンタ６００がアドレス情報を参照して格納場所にアクセスして画像ファイルを取得する構成であってもよい。あるいは既にプリンタ６００のデータメモリ６１６に保持している画像ファイルを利用して印刷する構成であってもよい。

Ｓ１１０４では、Ｓ１１０３で解析した画像ファイルのヘッダ情報に、前述の色空間識別情報が含まれているか否かがチェックされる。色空間識別情報が含まれていた場合にはＳ１１０５へ進み、含まれていない場合にはＳ１１０６へ進む。

Ｓ１１０５では、リクエストモジュール４５１によって、前述した学習をクラウドサーバ２００に実行させるための学習リクエストが、画像ファイルと共にエッジサーバ３００に対して送信される。学習リクエストの送信後はＳ１１０８へ進む。

Ｓ１１０６では、リクエストモジュール４５１によって、前述した推定をエッジサーバ３００に実行させるための推定リクエストが、画像ファイルと共にエッジサーバ３００に対して送信される。そして、Ｓ１１０７では、送信した推定リクエストに対するレスポンスとしての推定結果を受信したかどうかがチェックされる。このチェック処理は、Ｓ１１０２と同様、推定結果の受信が検知されるまで所定の間隔で繰り返し実行される。そして、推定結果の受信が検知されるとＳ１１０８へ進む。

Ｓ１１０８では、画像ファイル内の画像データに対して色空間変換処理が実行される。この際、Ｓ１１０５から本ステップへと進んだ場合には、画像ファイルのヘッダ情報に格納されている色空間識別情報で特定される色空間から、プリンタ６００における印刷処理に適した色空間へと変換される。一方、Ｓ１１０７から本ステップへと進んだ場合には、エッジサーバ３００から受信した推定結果に基づき特定される色空間から、プリンタ６００における印刷処理に適した色空間へと変換される。

最後に、Ｓ１１０９では、印刷部６１７により印刷処理が実行される。以上がプリンタ６００における処理の流れである。なお、本実施形態では、画像ファイルの解析（Ｓ１１０３）をプリンタ側で行っているが、画像ファイルの解析もサーバ側で行うように構成してもよい。それとは逆に、学習及び推論を含むすべての処理をプリンタ側で行うように構成してもよい。

（エッジサーバにおける処理の流れ）
図１２は、エッジサーバ３００における処理の流れを示すフローチャートである。この処理は、エッジサーバ３００の電源投入に応答して、ＣＰＵ２１１がハードディスクユニット２０２に格納された制御プログラムをプログラムメモリ２１３に展開して実行することにより実現される。なお、図１２に示すフローチャートは、本実施形態に関わる処理について記載しており、その他の処理については図示を省略している。また、以下の説明において記号「Ｓ」はステップを表す。

Ｓ１２０１では、装置内各部の初期化処理が実行される。続くＳ１２０２〜Ｓ１２０４では、リクエスト制御モジュール３５０によって、外部からの各種命令の受信をチェックする処理が所定の間隔で繰り返し実行される。

プリンタ６００からの学習リクエストの受信を検知した場合（Ｓ１２０２でＹｅｓ）は、Ｓ１２０５へ進み、受信した学習リクエストをクラウドサーバ２００に転送する処理が実行される。

プリンタ６００からの推定リクエストの受信を検知した場合（Ｓ１２０３でＹｅｓ）は、Ｓ１２０６へ進み、受信した推定リクエストに対応する推定が実行される。具体的には、推定モジュール３５１によって、推定リクエストと共に送られてきた画像ファイルに含まれる画像データの色空間を推定する処理が、学習済モデル３５２を用いて実行される。推定が完了すると、Ｓ１２０７へ進み、推定結果をそのリクエスト元のプリンタ６００に送信する。

クラウドサーバ２００から学習済モデル３５２の受信を検知した場合（Ｓ１２０４でＹｅｓ）は、Ｓ１２０８へ進み、受信した学習済モデル３５２の内容を、既存の学習済モデル３５２に反映する（学習済みモデルの更新）。これにより、以降の推定リクエストに対しては更新後の学習済モデル３５２が用いられるようになる。

以上がエッジサーバ３００における処理の流れである。

（クラウドサーバにおける処理の流れ）
図１３は、クラウドサーバ２００の処理内容を示すフローチャートである。この処理は、クラウドサーバ２００の電源投入に応答して、ＣＰＵ２１１がハードディスクユニット２０２に格納された制御プログラムをプログラムメモリ２１３に展開して実行することにより実現される。なお、図１３に示すフローチャートは、本実施形態に関わる処理について記載しており、その他の処理については図示を省略している。また、以下の説明において記号「Ｓ」はステップを表す。

Ｓ１３０１では、装置内各部の初期化処理が実行される。続くＳ１３０２では、リクエスト制御モジュール２５０によって、エッジサーバ３００からの学習リクエストの受信をチェックする処理が所定の間隔で繰り返し実行される。そして、学習リクエストの受信が検知されるとＳ１３０３へ進む。

Ｓ１３０３では、学習用データ生成モジュール２５１によって、学習用データ（入力データＸ_ｔとしての画像データと、教師データＴとしての色空間識別情報との組からなるデータ）が生成される。続く１３０４では、生成した学習用データを基に、学習モジュール２５２によって、学習モデル２５３に対する学習が実行される。続くＳ１３０５では、学習結果が学習モデル２５３に反映され、学習モデル２５３が更新される。

Ｓ１３０６では、リクエスト制御モジュール２５０によって、更新後の学習モデル２５３が学習済モデル３５２としてエッジサーバ３００へ送信される。

以上がクラウドサーバ２００における処理の流れである。

（変形例）
なお、本実施形態では、学習リクエストを受信する都度、学習を実行する構成であったが、これに限定されない。例えば、受信した学習リクエストを保存しておき、学習リクエストの受信とは非同期のタイミングで学習を実行するように構成してもよい。また、学習済モデルの配信を、学習の都度行う代わりに、所定の間隔で定期的に配信したり、またはエッジサーバ３００からの配信リクエストに応じて配信するように構成してもよい。

また、本実施形態では、入力画像ファイルから色空間識別情報が取得できるかどうかに応じて、プリンタ６００が学習リクエスト又は推定リクエストのいずれかをエッジサーバ３００に対して発行した。しかしながら、学習リクエストを発行する主体と推定リクエストを発行する主体とが異なっていてもよい。図１４は、デジタルカメラ４０２からの学習リクエストに応じて学習が実行される場合の、画像処理システム１００全体の動きを示すシーケンス図である。デジタルカメラ４０２を用いた撮影が行われると（Ｓ１４０１）、当該デジタルカメラ４０２において、事前に設定された色空間に従った画像データと、その色空間識別情報を含むヘッダ情報とからなる画像ファイルが生成される。その後、デジタルカメラ４０２は、エッジサーバ３００に対して学習リクエストを送信する（Ｓ１４０２）。以降の処理の流れは、前述の図９の場合と同じである。すなわち、学習リクエストを受信したエッジサーバ３００は、当該学習リクエストをクラウドサーバ２００に転送する（Ｓ１４０３）。そして、クラウドサーバ２００は、受信した学習リクエストに付随する画像ファイルから学習用データを生成し（Ｓ１４０４）、当該学習用データを用いた学習を実行する（Ｓ１４０５）。そして、学習結果に基づき、学習モデル２５３を更新し（Ｓ１４０６）、更新後の学習モデル２５３を学習済モデル３５２としてエッジサーバ３００へ配信する（Ｓ１４０７）。クラウドサーバ２００から学習済モデル３５２を受信したエッジサーバ３００は、自身の持つ学習済モデル３５２にその内容を反映し記憶する。このような構成とすることで、デジタルカメラ４０２で撮影が行われる毎に学習が行われて学習モデル２５３が更新され、印刷時にはその学習結果を用いた推定を行うことができる。この場合、より大量の学習用データを収集することが可能になり、より精度の高い推定を行うことができる。なお、デジタルカメラ４０２は一例であって、スマートフォン５００でもよいし、その両方であってもよい。さらに多くのデバイス４００から広く学習用データを集めるように構成することで、より精度の高い推定が可能になる。

以上のとおり本実施形態によれば、プリンタにて印刷ジョブを実行する際に、印刷の対象となる画像データの色空間識別情報が得られない場合であっても、適切な色空間変換処理を行うことが可能になる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、１または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。

プロセッサーまたは回路は、中央演算処理装置（ＣＰＵ）、マイクロプロセッシングユニット（ＭＰＵ）、グラフィクスプロセッシングユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートウェイ（ＦＰＧＡ）を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ（ＤＳＰ）、データフロープロセッサ（ＤＦＰ）、またはニューラルプロセッシングユニット（ＮＰＵ）を含みうる。

記憶媒体は、非一時的なコンピュータ可読媒体とも称することができる。また、記憶媒体は、１または複数のハードディスク（ＨＤ）、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、分散コンピューティングシステムの記憶装置を含みうる。また、記憶媒体は、光ディスク（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、またはブルーレイディスク（ＢＤ、登録商標））、フラッシュメモリデバイス、及びメモリカードを含みうる。

１００画像処理システム
２５２学習モジュール
２５３学習モデル
３５１推定モジュール
３５２学習済みモデル
４５０機械学習アプリケーション
８００色空間識別情報

Claims

色空間の異なる画像データを扱う画像処理システムにおいて、
画像データとそのメタデータを入力データとし、色空間識別情報を教師データとして機械学習を行う学習手段であって、前記入力データから予測した色空間と前記色空間識別情報によって特定される色空間とのずれが最小となるように学習モデルを最適化する、学習手段を有することを特徴とする画像処理システム。
前記画像データは、撮像装置で撮影を行って得られた画像データであり、
前記学習モデルは、前記画像データにおける画素値の分布に着目して色空間を予測する学習モデルであることを特徴とする請求項１に記載の画像処理システム。
前記画像データは、撮像装置で撮影を行って得られた画像データであり、
前記学習モデルは、前記画像データにおけるオブジェクトの形状に着目して色空間を予測する学習モデルであることを特徴とする請求項１に記載の画像処理システム。
前記画像データは、撮像装置で撮影を行って得られた画像データであり、
前記学習モデルは、前記メタデータに含まれる撮影時の情報に着目して色空間を予測する学習モデルであることを特徴とする請求項１に記載の画像処理システム。
前記色空間識別情報は、特定の色空間であるか否かを示すフラグ情報であることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理システム。
前記色空間識別情報は、特定の色空間であることを類推可能な、前記メタデータに含まれる撮影時の条件に関する複数の情報の組み合わせであることを特徴とする請求項２乃至４のいずれか１項に記載の画像処理システム。
画像データとそのメタデータを入力データとし、当該入力データにおける画像データの色空間を、前記機械学習によって得られた学習済みモデルを用いて推定する推定手段をさらに有することを特徴とする請求項１乃至６のいずれか１項に記載の画像処理システム。
前記画像処理システムは、複数の装置で構成され、
前記複数の装置のうち少なくとも１つの装置が、前記学習手段を有し、
前記複数の装置のうち少なくとも１つの装置が、前記推定手段を有する、
ことを特徴とする請求項７に記載の画像処理システム。
前記複数の装置には、入力された画像データを印刷処理するプリンタが含まれ、
前記プリンタは、前記入力された画像データに前記色空間識別情報が付されていない場合、
前記推定手段を有する装置に対し、前記入力された画像データとそのメタデータと共に前記推定の実行をリクエストし、
推定結果に基づき、前記入力された画像データの色空間を特定して、前記プリンタにて扱う色空間の画像データに変換し、
前記変換を行った後の画像データを用いて印刷処理を行う
ことを特徴とする請求項８に記載の画像処理システム。
前記複数の装置には、入力された画像データを印刷処理するプリンタが含まれ、
前記プリンタは、前記入力された画像データに前記色空間識別情報が付されている場合、前記学習手段を有する装置に対し、前記入力された画像データとそのメタデータと共に前記機械学習の実行をリクエストする、ことを特徴とする請求項８に記載の画像処理システム。
前記複数の装置は、ネットワークを介して相互に接続され、かつ、前記複数の装置には、入力された画像データを印刷処理するプリンタが含まれ、
前記推定手段を有する装置は、前記ネットワークにおいて、前記推定手段を有する装置よりも前記プリンタに近い位置に配置されることを特徴とする請求項８乃至１０のいずれか１項に記載の画像処理システム。
前記複数の装置には、入力された画像データを印刷処理するプリンタが含まれ、
前記プリンタは、前記学習手段を有する装置に対する前記機械学習のリクエストを、前記推定手段を有する装置を介して行う、
ことを特徴とする請求項８乃至１１のいずれか１項に記載の画像処理システム。
色空間に関する情報を出力するための学習済モデルを備えるシステムにおいて、
画像データとそのメタデータが入力データとして前記学習済モデルに入力された場合に出力される色空間に関する情報を取得する取得手段と、
前記取得された色空間に関する情報に基づいて画像データを処理する処理手段を備えることを特徴とする画像処理システム。
コンピュータを、請求項１乃至１３のいずれか１項に記載の画像処理システムの各手段として機能させるためのプログラム。