JP2024033913A

JP2024033913A - 入力情報生成装置、画像処理装置及び入力情報生成方法

Info

Publication number: JP2024033913A
Application number: JP2022137834A
Authority: JP
Inventors: 宏能地; Hiroshi Nochi; ピヤワトスワンウイタヤ; Suwanvithaya Piyawat
Original assignee: Leap Mind Inc
Current assignee: Leap Mind Inc
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-13

Abstract

【課題】軽量な演算で低品質動画を高品質動画に変換する。【解決手段】入力情報生成装置は、動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得部と、取得した複数フレームの前記入力画像の画素値を、複数の２ビットの入力データに変換する入力変換部と、変換された複数の入力データを１つの合成データに合成する合成部と、合成された前記合成データを出力する出力部とを備える。【選択図】図５

Description

本発明は、入力情報生成装置、画像処理装置及び入力情報生成方法に関する。

撮像装置により画像を撮像する際、周囲の光量が十分でない場合や、シャッタースピード、絞り又はＩＳＯ感度等の撮像装置の設定が適切でない場合には、低品質画像となってしまう場合がある。既に撮像された低品質画像を、画像処理により高品質画像に変換する技術があった。例えば、機械学習を用いて低品質画像を高品質画像に画像処理する技術があった（例えば、特許文献１を参照）。このような技術分野においては、画像を高画質化させることが最優先の要求事項である。

米国特許第１０６２３７５６号明細書

ここで、上述したような従来技術を動画に応用し、動画を構成する各フレームの画質を高画質化することにより、低品質動画を高品質動画に変換することが考えられる。撮像装置により撮像された動画をリアルタイムで高画質化する場合、画像処理に時間を要してしまうと動画のフレームレートが犠牲になるといった問題が生じる場合がある。すなわち、低品質動画を高品質動画に変換する場合は、フレーム画像の高画質化のみを優先させることができず、軽量な画像処理によりフレームレートを維持することが求められる。更に、動画の高画質化処理はエッジデバイス上で行われることもあり、エッジデバイスの処理能力を考慮すると、画像処理の軽量化に対する強い要求があった。

そこで本発明は、軽量な演算で低品質動画を高品質動画に変換可能な技術の提供を目的とする。

（１）本発明の一態様は、動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得部と、取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換部と、変換された複数の入力データを１つの合成データに合成する合成部と、合成された前記合成データを出力する出力部とを備える入力情報生成装置である。

（２）本発明の一態様は、上記（１）に記載の入力情報生成装置において、前記動画はカラー動画であり、前記画像取得部は、１つのフレームから各色の画素値を複数の異なる画像として取得し、前記入力変換部は、１つのフレームから取得された複数の画像それぞれについて、前記入力データに変換するものである。

（３）本発明の一態様は、上記（１）又は（２）に記載の入力情報生成装置において、前記画像取得部は、前記動画を構成するフレームのうち、前記対象フレームの前後それぞれに連続して隣接する複数のフレームの画像を取得するものである。

（４）本発明の一態様は、上記（１）から（３）のいずれかに記載の入力情報生成装置において、前記画像取得部は、前記出力部により前記対象フレームについての前記合成データが出力された後、前記対象フレームに隣接するフレームを前記対象フレームとして、少なくとも前記対象フレームを含む複数フレームを前記入力画像として取得するものである。

（５）本発明の一態様は、上記（１）から（４）のいずれかに記載の入力情報生成装置は、前記画像取得部により取得された複数フレームのうち、前記対象フレーム以外のフレームである隣接フレームの画素値に基づいた演算を行うことにより、複数の前記隣接フレームを１つの統合フレームに統合する統合部を更に備え、前記入力変換部は、前記対象フレームの画素値を、前記入力データに変換し、更に前記統合フレームの画素値を、前記入力データに変換し、前記合成部は、前記対象フレームに基づき変換された複数の前記入力データと、前記統合フレームに基づき変換された複数の前記入力データとを１つの前記合成データに合成するものである。

（６）本発明の一態様は、上記（５）に記載の入力情報生成装置において、前記統合部は、複数の前記隣接フレームの画素値の平均値を前記統合フレームの画素値とするものである。

（７）本発明の一態様は、上記（６）に記載の入力情報生成装置において、前記統合部は、複数の前記隣接フレームのうち、前記対象フレームからの時間的距離に応じた加重平均を算出することにより前記統合フレームの画素値を算出するものである。

（８）本発明の一態様は、上記（６）に記載の入力情報生成装置において、前記統合部は、前記動画を構成するフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外するものである。

（９）本発明の一態様は、上記（５）に記載の入力情報生成装置は、前記動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する平均値一時記憶部を更に備え、前記統合部は、前記平均値一時記憶部に記憶された値と、前記対象フレームとに基づく演算により前記統合フレームの画素値を算出するものである。

（１０）本発明の一態様は、上記（９）に記載の入力情報生成装置は、前記動画の撮像条件を取得する撮像条件取得部と、取得された前記撮像条件に応じて前記平均値一時記憶部に記憶された前記平均値を調整する調整部を更に備えるものである。

（１１）本発明の一態様は、上記（９）に記載の入力情報生成装置は、前記平均値一時記憶部に記憶された値と、前記対象フレームの画素値とを比較する比較部を更に備え、前記統合部は、前記比較部により比較された結果、差分が所定値以下である場合、前記平均値一時記憶部に記憶された値と前記対象フレームとに基づく移動平均を算出することにより前記統合フレームの画素値を算出し、差分が所定値以下でない場合、前記対象フレームの画素値を前記統合フレームの画素値とするものである。

（１２）本発明の一態様は、上記（５）に記載の入力情報生成装置は、前記統合部は、前記画像取得部により取得された前記隣接フレームのうちランダムに特定されたフレームを前記統合フレームとするものである。

（１３）本発明の一態様は、上記（１）から上記（１２）のいずれかに記載の入力情報生成装置と、前記入力情報生成装置により出力された前記合成データを入力情報とする畳み込みニューラルネットワークとを備える画像処理装置である。

（１４）本発明の一態様は、動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得工程と、取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換工程と、変換された複数の入力データを１つの合成データに合成する合成工程と、合成された前記合成データを出力する出力工程とを有する入力情報生成方法である。

本発明によれば、軽量な演算で低品質動画を高品質動画に変換することができる。

第１の実施形態に係る高品質動画生成システムの機能構成の一例を示すブロック図である。第１の実施形態に係る畳み込みニューラルネットワークの一例を示す図である。第１の実施形態に係る動画を構成するフレームについて示す図である。第１の実施形態に係る入力情報生成方法の概要について説明するための図である。第１の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。第１の実施形態に係る入力変換部の機能構成の一例を示すブロック図である。第２の実施形態に係る入力情報生成方法の概要について説明するための図である。第２の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。第３の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。第４の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。

以下、本発明の態様に係る入力情報生成装置、画像処理装置及び入力情報生成方法について、好適な実施の形態を掲げ、添付の図面を参照しながら詳細に説明する。なお、本発明の態様は、これらの実施の形態に限定されるものではなく、多様な変更または改良を加えたものも含まれる。つまり、以下に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものが含まれ、以下に記載した構成要素は適宜組み合わせることが可能である。また、本発明の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。また、以下の図面においては、各構成をわかりやすくするために、各構造における縮尺および数等を、実際の構造における縮尺および数等と異ならせる場合がある。

まず、本実施形態の前提となる事項について説明する。本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法は、ノイズが重畳した低品質な動画情報を入力として、ノイズを取り除いた高品質な動画情報を生成する。低品質動画には低画質動画が含まれ、高品質動画には高画質動画が含まれる。高品質動画とは、一例として、低ＩＳＯ感度、長秒露光により撮像される画質の高い動画を例示することができる。低品質動画とは、一例として、高ＩＳＯ感度、短秒露光により撮像される画質の低い動画を例示することができる。

以下の説明においては低品質動画の一例としてノイズによる画質劣化について説明するが、本実施形態は、ノイズ以外であっても、動画の品質を低下させる事項に対して広く適用可能である。動画の品質を低下させる事項としては、光学収差による解像度の低下もしくは色ずれ、手ブレや被写体ブレによる解像度の低下、暗電流や回路起因による黒レベルの不均一、高輝度被写体によるゴーストやフレア、信号レベル異常等を例示することができる。また、ノイズには画素ごとに発生するランダムノイズ以外にも、画像の水平方向又は垂直方向に発生するスジ状のノイズ、画像中に固定パターンで発生するノイズ等を含む。また、連続するフレーム間で変動するフリッカ状のノイズ等の動画特有のノイズを含んでもよい。本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法は、動画に含まれる各フレームを、フレームごとに画像処理することにより、フレームの画質を向上させ、動画としての高品質化を行う。

なお、高品質化の対象となる入力動画は、撮像装置によって撮像された動画が用いられてもよいし、予め用意されていた動画が用いられてもよい。以下の説明において、低品質動画を低画質動画又はノイズ動画と記載する場合がある。また、以下の説明において、高品質動画を高画質動画と記載する場合がある。

また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）イメージセンサを用いたＣＣＤカメラにより撮像された動画であってもよい。また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサを用いたＣＭＯＳカメラにより撮像された画像であってもよい。また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、カラー動画であってもよいし、モノクロ動画であってもよい。また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、赤外線センサを用いた赤外線カメラなど非可視光成分を取得することにより撮像された動画であってもよい。

［第１の実施形態］
まず、図１から図６を参照しながら、第１の実施形態について説明する。
図１は、第１の実施形態に係る高品質動画生成システムの機能構成の一例を示すブロック図である。同図を参照しながら、高品質動画生成システム１の機能構成の一例について説明する。高品質動画生成システム１は、撮像装置１００と、入力情報生成装置１０と、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）とをその機能として備える。入力情報生成装置１０及びＣＮＮ２００は、撮像装置１００により撮像された動画を構成する各フレームを画像処理する。入力情報生成装置１０及びＣＮＮ２００は、事前に学習が行われた学習済みモデルを含む。以下の説明において、入力情報生成装置１０とＣＮＮ２００とを備える構成を、画像処理装置２と記載する場合がある。なお、高品質動画生成システム１は画像処理装置２の出力を圧縮符号化する符号化部、及び符号化部によって圧縮符号化された結果を保持する所定のメモリを備える構成としてもよい。

撮像装置１００は、動画を撮像する。撮像装置１００により撮像される動画は、高品質化の対象となる低品質動画である。撮像装置１００は、例えば暗い（光量の少ない）箇所に設置された監視カメラ等であってもよい。撮像装置１００は、例えば光量不足による低品質動画を撮像する。撮像装置１００は、撮像した動画を、入力情報生成装置１０に出力する。撮像装置１００により撮像された動画は、画像処理装置２への入力となる。したがって、撮像装置１００から入力情報生成装置１０に出力される動画を、動画情報ＩＭと記載する場合がある。

なお、撮像装置１００と画像処理装置２とは、いずれもスマートフォンやタブレット端末等の筐体内に存在してもよい。すなわち、高品質動画生成システム１は、エッジデバイスを構成する要素として存在してもよい。また、撮像装置１００は、所定の通信ネットワークを介して画像処理装置２と接続されていてもよい。すなわち、高品質動画生成システム１は、所定の通信ネットワークを介して構成要素同士が互いに接続されることにより存在してもよい。
また、撮像装置１００は複数のレンズ及び当該複数のレンズにそれぞれ対応する複数のイメージセンサを備える構成であってもよい。このような構成の具体例として、撮像装置１００は、異なる画角の画像を取得するように複数のレンズ及びイメージセンサを備える構成を例示することができる。このように構成された撮像装置１００によれば、それぞれのイメージセンサから取得される画像は、空間的に互いに隣接しているということができる。高品質動画生成システム１は、動画のような時間的に互いに隣接している複数の画像のみならず、空間的に互いに隣接している複数の画像に対しても適用可能である。

入力情報生成装置１０は、撮像装置１００から動画情報ＩＭを取得する。入力情報生成装置１０は、取得した動画情報ＩＭに基づいて入力情報ＩＮを生成する。入力情報ＩＮは、動画情報ＩＭを構成するフレームごとに生成される。入力情報ＩＮは、対象となるフレームと、当該フレームに基づいて決定される他のフレームに基づいて生成されてもよい。当該フレームに基づいて決定される他のフレームとは、対象となるフレームに時間的に隣接するフレームであってもよい。

ＣＮＮ２００は、入力情報生成装置１０により出力されたデータを入力情報ＩＮとする畳み込みニューラルネットワークである。ＣＮＮ２００の一例について、図２を参照しながら説明する。

図２は、第１の実施形態に係るＣＮＮ２００の一例を示す図である。同図を参照しながら、ＣＮＮ２００の詳細について詳細に説明する。ＣＮＮ２００は、多層構造を有するニューラルネットワークである。ＣＮＮ２００は、入力情報ＩＮが入力される入力層２１０と、畳み込み演算を行う畳み込み層２２０と、プーリングを行うプーリング層２３０と、出力層２４０とを含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２２０とプーリング層２３０とは交互に連結される。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。なお、プーリング層２３０には畳み込み層２２０の演算結果を低ビット化するための量子化演算を行う量子化層を含んでもよい。具体的には、量子化層は、畳み込み層２２０における畳み込み演算の結果が１６ビットである場合に、量子化層において畳み込み演算の結果を８ビット以下にビット数を削減する演算を行う。

入力層２１０には、入力情報ＩＮが入力される。入力情報ＩＮは、入力画像に基づき生成される。当該入力画像は、動画を構成するフレーム画像である。本実施形態に係る入力情報生成装置１０は、入力画像から入力情報ＩＮを生成するものである。本実施形態において、入力情報ＩＮの要素は、例えば２ビットの符号なし整数（０，１，２，３）であってもよい。また、入力データの要素は、例えば、４ビットや８ビットの整数でもよい。

畳み込み層２２０は、入力層２１０に入力された入力情報ＩＮに対して畳み込み演算を行う。畳み込み層２２０は、低ビットの入力情報ＩＮに対して畳み込み演算を行う。畳み込み層２２０は、所定の畳み込み演算を行った結果、プーリング層２３０に対して所定の出力データを出力する。

プーリング層は、畳み込み層２２０により畳み込み演算が行われた結果に基づき、ある領域の代表値を抽出する。具体的には、プーリング層２３０は、畳み込み層２２０により出力された畳み込み演算の出力データに対して、平均プーリングやＭＡＸプーリング等の演算を実施して、畳み込み層２２０の出力データを圧縮する。

出力層２４０は、ＣＮＮ２００の結果を出力する層である。出力層２４０は、例えば、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力してもよい。出力層２４０の前段に備えられるレイヤは、畳み込み層２２０であってもよいし、プーリング層２３０であってもよいし、その他のレイヤであってもよい。

図３は、第１の実施形態に係る動画を構成するフレームについて示す図である。同図を参照しながら、入力情報生成装置１０が入力情報ＩＮの生成に用いるフレームについて説明する。同図には、動画を構成する複数の連続するフレームを示す。同図に示すフレームＦ１からフレームＦ７は、動画を構成する複数の連続するフレームの一例である。
なお、各フレームは圧縮符号化されていないＲＡＷ画像であって、各画素は１２ビット又は１４ビットで表現される。そして、各フレームの画素数は１９２０×１０８０又は４０９６×２１６０等の所定の動画フォーマットを満たすために必要な画素数を備える。なお、本実施形態において、ＣＮＮ２００での処理対象をＲＡＷ画像として説明するが、これに限られるものではない。処理対象の画像が十分に信号成分を含んでいる場合には圧縮符号化等の処理を行った画像を対象としてもよい。

入力情報生成装置１０は、対象となるフレームである対象フレームＴＦと、対象フレームＴＦに隣接するフレームである隣接フレームＡＦとに基づき、入力情報ＩＮを生成する。隣接フレームＡＦは、例えば対象フレームＴＦの前又は後に連続して隣接するフレームである。図示する一例では、対象フレームＴＦの前後２フレームずつを隣接フレームＡＦとしている。すなわち、対象フレームＴＦをフレームＦ４とした場合、フレームＦ２、フレームＦ３、フレームＦ５及びフレームＦ６が隣接フレームＡＦとなる。

なお、隣接フレームＡＦの枚数はこの一例に限定されず、対象フレームＴＦの前後１フレームずつや３フレームずつ等であってもよい。また、隣接フレームＡＦは、対象フレームＴＦの前後に隣接する場合の一例に限定されず、例えば対象フレームＴＦの前又は後のいずれか一方に隣接するフレームのみであってもよい。また、隣接フレームＡＦは、対象フレームＴＦと連続している必要はなく、例えばフレームＦ４を対象フレームＴＦとした場合、フレームＦ４とは連続していないフレームＦ２及びフレームＦ６等であってもよい。

図４は、第１の実施形態に係る入力情報生成方法の概要について説明するための図である。同図を参照しながら、入力情報生成装置１０による入力情報ＩＮの生成方法について説明する。同図には、時刻ｔ－２におけるフレームと、時刻ｔ－１におけるフレームと、時刻ｔにおけるフレームと、時刻ｔ＋１におけるフレームと、時刻ｔ＋２におけるフレームとが示されている。時刻ｔにおけるフレームが、上述した対象フレームＴＦに該当し、時刻ｔ－２、時刻ｔ－１、時刻ｔ＋１及び時刻ｔ＋２におけるフレームが、隣接フレームＡＦに該当する。なお、各フレームは多数の画素を含むため、全体を同時に処理する回路は大規模になってしまう。そのため、ＣＮＮ２００において処理を行う場合には各フレームを所定のサイズに分割することが好ましい。本実施形態においては、一例として２５６×２５６のサイズを一つのパッチとして複数に分割した場合について例示する。

各フレームは、Ｒ（赤；Ｒｅｄ）、Ｇ（緑；Ｇｒｅｅｎ）×２チャネル、Ｂ（青；Ｂｌｕｅ）の４チャネルの画像データを含んで構成される。入力情報生成装置１０は、各チャネルの量子化及びベクトル化を行う。入力情報生成装置１０は、例えば各チャネルの画像データから、９チャネルのベクトル化されたデータを生成する。すなわち、入力情報生成装置１０は、１つのフレームから４チャネル×９チャネル＝３６チャネルのデータを生成する。９チャネルのデータとは、互いに異なる閾値を用いて画素値が量子化されたものであってもよい。入力情報生成装置１０は、対象フレームＴＦ及び隣接フレームＡＦ（図視する一例では合計５フレーム）から生成された５フレーム×３６チャネル＝１８０チャネルのデータを合成（ｃｏｎｃａｔ）する。入力情報生成装置１０は、合成した１８０チャネルのデータを入力情報ＩＮとして、ＣＮＮ２００の入力層に対して出力する。

なお、図示する一例では、１フレームを構成する４チャネルの画像データを用いて入力情報ＩＮを生成する場合について説明したが、本実施形態の態様はこの一例に限定されない。入力情報生成装置１０は、例えば、ＲＧＢを含む３チャネルのデータに基づいて入力情報ＩＮを生成してもよい。また、図示する一例では、画像データに基づき量子化及びベクトル化を行うことにより９チャネルのデータを生成する場合について説明したが、本実施形態の態様はこの一例に限定されない。生成されるデータ数は、合成後に効率的な演算が可能となる数であることが好適である。入力情報生成装置１０は、例えば、１フレームを構成するＮチャネル（Ｎは１以上の自然数）の画像データそれぞれについて、Ｍチャネル（Ｍは１以上の自然数）のデータを生成することによりＮチャネル×Ｍチャネルのデータを生成してもよい。なお、Ｎ×Ｍの値は、３２（又は６４）の倍数に近い値であることが好適である。

図５は、第１の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら入力情報生成装置１０の機能構成の一例について説明する。入力情報生成装置１０は、画像取得部１１と、入力変換部１２と、合成部１３と、出力部１４とを備える。入力情報生成装置１０は、バスで接続された不図示のＣＰＵ（Central Processing Unit）、ＲＯＭ（Read only memory）又はＲＡＭ（Random access memory）等の記憶装置等を備える。入力情報生成装置１０は、入力情報生成プログラムを実行することによって画像取得部１１と、入力変換部１２と、合成部１３と、出力部１４とを備える装置として機能する。

なお、入力情報生成装置１０の各機能の全てまたは一部は、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field-Programmable Gate Array）等のハードウェアを用いて実現されてもよい。入力情報生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。入力情報生成プログラムは、電気通信回線を介して送信されてもよい。

図示する一例において、撮像装置１００により撮像された動画の動画情報ＩＭが記憶されるメモリを第１メモリＭ１と記載し、入力情報生成装置１０により生成された入力情報ＩＮが記憶されるメモリを第２メモリＭ２と記載する。第１メモリＭ１及び第２メモリＭ２は、ＲＯＭ又はＲＡＭ等の記憶装置である。

画像取得部１１は、第１メモリＭ１に記憶された動画情報ＩＭのうち、処理に用いる入力画像が含まれる画像情報ＩＭＤを取得する。具体的には、画像取得部１１は、動画を構成する複数のフレームのうち、入力情報ＩＮの生成の対象となる対象フレームＴＦを少なくとも含む複数フレームを入力画像として取得する。画像取得部１１は、一例として、対象フレームＴＦに加えて、隣接フレームＡＦを入力画像として取得する。隣接フレームＡＦとは、対象フレームＴＦの前後それぞれに連続して隣接する複数のフレームであってもよい。

なお、撮像装置１００により撮像された動画がカラー動画である場合、画像取得部１１は、１つのフレームから各色の画素値を複数の異なる画像として取得する。例えば撮像装置１００が、ベイヤー配列を採用したイメージセンサを用いたものである場合、画像取得部１１は、１つのフレームからＲＧＧＢからなる４チャネルの画像情報を取得する。画像取得部１１により取得される画像の画素値は、多ビットの要素を含む。

入力変換部１２は、画像取得部１１から画像情報ＩＭＤを取得する。入力変換部１２は、画像情報ＩＭＤに含まれる複数フレームの入力画像の画素値を、それぞれ複数の閾値との比較に基づいて低ビットの入力データＩＮＤに変換する。入力画像はＲＡＷ画像であり、その画素値は、多ビット（例えば１２ビット又は１４ビット等）の要素を含むため、画像取得部１１は、複数の閾値に基づいて、入力画像の画素値を示すビット数（例えば８ビット）以下のビット数（例えば、２ビットまたは１ビット）の入力データＩＮＤに変換する。入力変換部１２は、変換した入力データＩＮＤを合成部１３に出力する。

なお、画像情報ＩＭＤに、ＲＧＢ各色の画像情報が含まれる場合、入力変換部１２は、それぞれについて変換を行う。すなわち入力変換部１２は、１つのフレームから取得された複数の画像それぞれについて、入力データＩＮＤに変換する。

図６は、第１の実施形態に係る入力変換部の機能構成の一例を示すブロック図である。同図を参照しながら、入力変換部１２の機能の詳細について説明する。同図に示すように、入力変換部１２は、複数の変換部１２１と、閾値記憶部１２２とを備える。図示する一例では、入力変換部１２は、複数の変換部１２１の一例として、変換部１２１－１と、変換部１２１－２と、…、変換部１２１－ｎ（ｎは１以上の自然数）とを備える。入力変換部１２が備える変換部１２１の数は、入力変換部１２が１チャネルの入力画像から生成する入力データＩＮＤの数であってもよい。すなわち、入力変換部１２が１チャネルの入力画像を９チャネルの入力データＩＮＤに変換する場合、入力変換部１２は、変換部１２１－１乃至変換部１２１－９の９つの変換部１２１を備える。

図示する一例において、入力画像の画像データは、ｘ軸方向及びｙ軸方向の各要素として８ビットより多いビット数を備える多値を画素データとする行列的なデータ構造を備えるものとする。この入力画像の画像データを入力変換部１２により変換すると、各要素は量子化され、低ビット（例えば、８ビット以下の２ビットまたは１ビット）の入力データになる。

変換部１２１は、入力画像の各要素と所定の閾値とを比較する。変換部１２１は、比較結果に基づいて入力画像の各要素を量子化する。変換部１２１は、例えば１２ビットの入力画像を２ビット又は１ビットの値に量子化する。変換部１２１は、変換後のビット数に応じた数の閾値と比較することにより、量子化を行ってもよい。例えば１ビットへの変換であれば閾値は１つであれば足りるし、２ビットへの変換であれば、３つの閾値が用いられてもよい。換言すれば、変換部１２１が行う量子化が１ビット量子化の場合には１つの閾値が用いられ、２ビット量子化の場合には３つの閾値が用いられてもよい。なお、８ビット等の多数の閾値が必要な場合は、閾値ではなく関数またはテーブル等を用いて量子化を行ってもよい。

それぞれの変換部１２１は、同じ要素に対して独立した閾値を用いて量子化を行う。つまり、入力変換部１２は、１チャネルの入力に対して、変換部１２１の数に対応する要素を含むベクトルを演算結果（入力データＩＮＤ）として出力する。なお、変換部１２１の出力であって変換した結果のビット精度は、入力画像のビット精度等に基づいて適宜変更されてもよい。

閾値記憶部１２２は、変換部１２１により行われる演算に用いられる複数の閾値を記憶する。閾値記憶部１２２に記憶された閾値は所定の値であり、複数の変換部１２１のそれぞれに対応して設定される。なお、それぞれの閾値は学習対象のパラメータであってもよく、学習ステップにおいて決定及び更新されてもよい。

なお、図示する一例では、複数の変換部１２１に対して入力画像の同一の要素が入力される例を示したが、入力変換部１２の態様はこれに限定されない。例えば、入力画像が色成分を含む３チャンネル以上の要素を含む画像データである場合には、変換部１２１を対応する複数のグループに分け、それぞれのグループに対して対応する要素を入力して変換してもよい。また、色成分以外であっても、所定の変換部１２１に入力する要素に対して事前に何らかの変換処理を加えてもよいし、事前処理の有無によっていずれの変換部１２に入力するかを切り替えてもよい。また、入力画像の全ての要素に対して変換処理を行わなくてもよく、例えば入力画像内の特定の要素である特定色に対応する要素に対してのみ変換処理を行なってもよい。

なお、変換部１２１の個数は固定でなくてもよく、ニューラルネットワークの構造またはハードウェア情報に合わせて適宜決定されてもよい。なお、変換部１２１による量子化による演算精度の低下を補う必要がある場合には、変換部１２１の個数は入力画像の各要素のビット精度以上に設定することが好適である。より一般的には、量子化前後による入力画像のビット精度の差分以上に変換部１２１の個数を設定することが好適である。具体的には画素値が８ビットで示される入力画像を１ビットに量子化する場合には、変換部１２１の個数は差分である７ビットに相当する７個以上（例えば、１６個や３２個）に設定することが好適である。

図５に戻り、合成部１３は、変換された複数の入力データＩＮＤを１つのデータに合成（ｃｏｎｃａｔ）する。複数の入力データが合成されたデータを、合成データＣＤとも記載する。合成部１３による合成処理とは、複数の入力データＩＮＤを１つのデータに並べる（又は接続する）処理であってもよい。
出力部１４は、合成部１３により合成された合成データＣＤを出力する。合成データＣＤは、一時的に第２メモリＭ２に記憶されてもよい。合成データＣＤとは、すなわち、ＣＮＮ２００の入力層２１０に入力される入力情報ＩＮである。

入力情報生成装置１０は、対象フレームＴＦについて入力情報ＩＮを生成した後、当該対象フレームＴＦの次のフレームについて、入力情報ＩＮを生成する。次のフレームとは、当該対象フレームＴＦに時間的に連続するフレームであってもよい。すなわち、画像取得部１１は、出力部１４により対象フレームＴＦについての合成データＣＤが出力された後、対象フレームＴＦを１フレーム分シフトさせて、対象フレームＴＦに隣接するフレームを対象フレームＴＦとして取得する。このように、入力情報生成装置１０は、少なくとも対象フレームＴＦを含む複数フレームを入力画像として取得し、合成データＣＤを生成していく。

入力情報生成装置１０は、動画情報ＩＭに含まれる全てのフレームについて、入力情報ＩＮを生成していく。なお、上述した一例では、入力情報生成装置１０が動画情報ＩＭに含まれるすべてのフレームについて入力情報ＩＮを生成する場合の一例について説明したが、本実施形態の態様はこの一例に限定されない。入力情報生成装置１０は、例えば、所定のフレームおきに入力情報ＩＮを生成してもよい。また、高品質動画生成システム１は動画情報ＩＭに基づいて高品質動画に変換するが、出力形式は動画形式に限定されない。例えば、高品質動画生成システム１は、動画から静止画を生成してもよい。すなわち、高品質動画生成システム１は、動画から抜き出すフレームを対象フレームＴＦとすることにより、動画情報ＩＭに含まれるフレームを抜き出して静止画を生成する場合においても、本実施形態を適用することができる。

［第１の実施形態のまとめ］
以上説明した実施形態によれば、入力情報生成装置１０は、画像取得部１１を備えることにより動画を構成するフレームのうち、入力情報ＩＮＤの生成の対象となる対象フレームＴＦを少なくとも含む複数フレームを入力画像として取得する。また、入力情報生成装置１０は、入力変換部１２を備えることにより、取得した複数フレームの入力画像の画素値を、複数の閾値との比較に基づいて、入力画像の画素値を示すビット数（例えば１２ビット）より少ないビット数（例えば８ビット以下の２ビット又は１ビット）の入力データＩＮＤに変換する。また、入力情報生成装置１０は、合成部１３を備えることにより、変換された複数の入力データＩＮＤを１つの合成データＣＤに合成し、出力部１４を備えることにより、合成された合成データＣＤを出力する。すなわち、本実施形態によれば、入力情報生成装置１０は、対象フレームＴＦを少なくとも含む複数の画像から得た複数の入力データＩＮＤを合成し入力情報ＩＮを生成する。生成された入力情報ＩＮは、ＣＮＮ２００の入力層２１０に入力される。

ここで、入力情報ＩＮとは、各要素において入力画像より低ビットの情報である。ＣＮＮ２００は、入力画像に代えて入力情報ＩＮを処理することにより、低ビットの情報を処理することができるようになる。したがって、本実施形態によれば、ＣＮＮ２００の処理を軽量化することができる。また、入力情報ＩＮとは、複数の画像に基づいて生成された情報である。したがって、入力情報ＩＮに基づいて動画を高品質化させた場合、対象フレームＴＦに隣接する複数のフレームについても考慮した処理を行うことができるようになるため、高精度でノイズを除去することができるようになる。したがって、本実施形態によれば、軽量な演算で低品質動画を高品質動画に変換することができる。なお、ＣＮＮ２００の処理は、ノイズ除去に限定されるものではない。

また、上述した実施形態によれば、処理の対象である動画はカラー動画であるため、動画情報ＩＭには、例えばＲＧＢ各色の画素値が含まれる。画像取得部１１は、１つのフレームから各色の画素値を複数の異なる画像として取得し、入力変換部１２は、１つのフレームから取得された複数の画像それぞれについて、異なる入力データＩＮＤとして変換する。したがって、本実施形態によれば、より高精度な画像処理をすることができる。したがって、本実施形態によれば、更に高精度でノイズを除去することができる。

また、上述した実施形態によれば、画像取得部１１は、動画を構成する複数のフレームのうち、対象フレームＴＦの前後それぞれに連続して隣接する複数のフレームの画像を取得する。本実施形態によれば、対象フレームＴＦの前後に隣接するフレームの情報に基づいて入力情報ＩＮを生成するため、より高精度な画像処理をすることができる。したがって、本実施形態によれば、高精度でノイズを除去することができる。

また、上述した実施形態によれば、画像取得部１１は、出力部１４により対象フレームＴＦについての合成データＣＤが出力された後、対象フレームＴＦに隣接するフレームを対象フレームＴＦとして、少なくとも対象フレームＴＦを含む複数フレームを入力画像として取得する。すなわち、入力情報生成装置１０は、対象フレームＴＦを次々にシフトさせていくことにより、動画に含まれる複数のフレームそれぞれについて入力情報ＩＮを生成する。したがって、本実施形態によれば、低品質動画を高品質動画に変換することができる。

［第２の実施形態］
次に、図７及び図８を参照しながら第２の実施形態について説明する。まず、第２の実施形態において解決しようとする課題について説明する。第１の実施形態に係る入力情報生成装置１０は、対象フレームＴＦと隣接フレームＡＦとを含む複数フレームを読み出し、複数フレームそれぞれについて量子化を行う。したがって、第１の実施形態に係る入力情報生成装置１０によれば、量子化を行うフレーム数が多く、第１層目の演算負荷が大きくなってしまっていた。第２の実施形態においては、この問題を解決し、さらに演算負荷を軽くしようとするものである。

図７は、第２の実施形態に係る入力情報生成方法の概要について説明するための図である。同図を参照しながら、第２の実施形態に係る入力情報生成装置１０Ａによる入力情報ＩＮの生成方法について説明する。同図には、対象フレームＴＦとして時刻ｔにおけるフレームが示されている。また、同図には、隣接フレームＡＦとして、時刻ｔ－２におけるフレームと、時刻ｔ－１におけるフレームと、時刻ｔ＋１におけるフレームと、時刻ｔ＋２におけるフレームとが示されている。

各フレームは、ＲＧＧＢの４チャネルの画像データを含んで構成される。入力情報生成装置１０Ａは、対象フレームＴＦについて各チャネルの量子化及びベクトル化を行う。また、入力情報生成装置１０Ａは、隣接フレームＡＦの平均画像について各チャネルの量子化及びベクトル化を行う。すなわち、第２の実施形態においては、隣接フレームＡＦそれぞれについての量子化及びベクトル化を行うのではなく、隣接フレームＡＦの平均画像について量子化及びベクトル化を行う点において第１の実施形態とは異なる。

図視する一例では、ＲＧＧＢの４チャネルの画像データそれぞれを１６チャネルのデータに変換している。したがって、１つのフレームから４チャネル×１６チャネル＝６４チャネルのデータが生成される。入力情報生成装置１０Ａは、対象フレームＴＦと、隣接フレームＡＦの平均画像とについて、それぞれ６４チャネルのデータに変換するため、合計１２８チャネルのデータが生成される。

平均化処理は、画素値の単純平均を求めることにより行われてもよい。また、入力情報生成装置１０Ａは、色ごとの平均を求めることにより、色ごとの平均画像を生成してもよい。すなわち、入力情報生成装置１０Ａは、時刻ｔ－２乃至時刻ｔ＋２の隣接フレームＡＦにおけるフレームのＲ画像に基づく平均画像を生成し、時刻ｔ－２乃至時刻ｔ＋２の隣接フレームＡＦにおけるフレームのＧ画像に基づく平均画像を生成し、時刻ｔ－２乃至時刻ｔ＋２の隣接フレームＡＦにおけるフレームのＢ画像に基づく平均画像を生成してもよい。

なお、図示する一例では、隣接フレームＡＦの平均を求めた後に、量子化及びベクトル化を行っているが、本実施形態の態様はこの一例に限定されさない。入力情報生成装置１０Ａは、例えば、量子化及びベクトル化を行った後に、平均を求めるよう構成されていてもよい。

対象フレームＴＦの量子化及びベクトル化が行われ、隣接フレームＡＦの平均画像について量子化及びベクトル化が行われた後、これらを合成することにより入力情報ＩＮが生成される。図視する一例では、１２８チャネルのデータが生成されている。合成された入力情報ＩＮは、第１の実施形態に係る情報量より少ない。一方で、対象フレームＴＦを表現するデータは第１の実施形態と比較すると多くなっている。

図８は、第２の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら入力情報生成装置１０Ａの機能構成の一例について説明する。入力情報生成装置１０Ａは、統合部１５を更に備え、入力変換部１２に代えて入力変換部１２Ａを、合成部１３に代えて合成部１３Ａを備える点において入力情報生成装置１０とは異なる。入力情報生成装置１０Ａの説明において、入力情報生成装置１０と同様の構成については同様の符号を付すことにより説明を省略する場合がある。

統合部１５は、画像取得部１１から隣接フレームＡＦに関する情報を取得する。隣接フレームＡＦとは、画像取得部１１により取得された複数フレームのうち、対象フレームＴＦ以外のフレームである。統合部１５は、隣接フレームＡＦの画素値に基づいた演算を行うことにより、複数の隣接フレームＡＦを、１つの統合フレームＩＦに統合する処理を行う。統合部１５は、演算した結果得られた統合フレームＩＦを入力変換部１２Ａに出力する。

統合部１５は、例えば隣接フレームＡＦの単純平均を求めることにより、統合処理を行ってもよい。この場合、統合部１５は、例えば複数の隣接フレームＡＦの画素値の平均値を統合フレームＩＦの画素値とする。

なお、本実施形態に係る統合部１５の統合処理の態様は、単純平均を求める場合の一例に限定されない。統合部１５は、例えば、加重平均を求めることにより統合処理を行ってもよい。加重平均は、対象フレームＴＦからの時間的距離に応じて求められる。統合部１５は、例えば、時刻ｔから時間的に遠い時刻ｔ－２及び時刻ｔ＋２におけるフレームの画素値には１より小さい０．７を乗じることにより重みを小さくし、時刻ｔから時間的に近い時刻ｔ－１及び時刻ｔ＋１におけるフレームの画素値には１より大きい１．３を乗じることにより重みを大きくしてもよい。すなわち、統合部１５は、複数の隣接フレームＡＦのうち、対象フレームＴＦからの時間的距離に応じた加重平均を算出することにより統合フレームＩＦの画素値を算出してもよい。加重平均を用いて統合することにより、隣接フレームＡＦの対象フレームＴＦに対する寄与度を、統合フレームＩＦに反映させることができる。なお、乗じる重みの大きさは、対象フレームＴＦからの時間的距離が同じであっても、対象フレームＴＦの前後のいずれであるかに応じて異なっていてもよい。例えば、隣接フレームＡＦが対象フレームＴＦの前である場合は重みを大きくし、隣接フレームＡＦが対象フレームＴＦの後である場合は重みを小さくしてもよい。

入力変換部１２Ａは、画像取得部１１から取得した対象フレームＴＦの画素値を、複数の閾値との比較に基づいて入力データＩＮＤに変換する。更に入力変換部１２Ａは、統合部１５から取得した統合フレームＩＦの画素値を、複数の閾値との比較に基づいて入力データに変換する。入力変換部１２Ａは、変換した入力データＩＮＤを合成部１３Ａに出力する。

合成部１３Ａは、対象フレームＴＦに基づき変換された複数の入力データＩＮＤと、統合フレームＩＦに基づき変換された複数の入力データＩＮＤとを１つの合成データＣＤに合成する。合成された入力情報ＩＮは、第１の実施形態に係る情報量より少ない。

［第２の実施形態のまとめ］
以上説明した実施形態によれば、入力情報生成装置１０Ａは、統合部１５を更に備えることにより、隣接フレームＡＦの画素値に基づいた演算を行い、複数の隣接フレームＡＦを１つの統合フレームＩＦに統合する。また、入力変換部１２Ａは、対象フレームＴＦの画素値を複数の閾値との比較に基づいて入力データＩＮＤに変換し、更に統合フレームＩＦの画素値を複数の閾値との比較に基づいて入力データＩＮＤに変換する。また、合成部１３Ａは、対象フレームＴＦに基づき変換された複数の入力データＩＮＤと、統合フレームＩＦに基づき変換された複数の入力データＩＮＤとを１つの合成データＣＤに合成する。すなわち、入力情報生成装置１０Ａは、隣接フレームＡＦを対象フレームＴＦのように量子化及びベクトル化を行うのではなく、複数の隣接フレームＡＦに基づいた統合フレームＩＦを求め、統合フレームＩＦの量子化及びベクトル化を行う。したがって、合成部１３Ａにより合成された入力情報ＩＮは、第１の実施形態に係る情報量より少なくなり、第１層目の演算負荷を軽くすることができる。

また、上述した実施形態によれば、統合部１５は、複数の隣接フレームＡＦの画素値の平均値を統合フレームＩＦの画素値とする。すなわち、統合部１５は、隣接フレームＡＦの単純平均を統合フレームＩＦとする。したがって、本実施形態によれば、容易な演算により、第１の実施形態に係る入力情報ＩＮより少ない情報量の入力情報ＩＮを生成することができ、第１層目の演算負荷を軽くすることができる。

また、上述した実施形態によれば、統合部１５は、複数の隣接フレームＡＦのうち、対象フレームＴＦからの時間的距離に応じた加重平均を算出することにより統合フレームＩＦの画素値を算出する。したがって、本実施形態によれば、隣接フレームＡＦの対象フレームＴＦに対する寄与度を考慮して、統合フレームＩＦを生成することができる。したがって、入力情報生成装置１０Ａにより生成された入力情報ＩＮを用いれば、ＣＮＮ２００は、より精度よく画像処理をおこなうことができる。

［第３の実施形態］
次に、図９を参照しながら第３の実施形態について説明する。まず、第３の実施形態において解決しようとする課題について説明する。第２の実施形態に係る入力情報生成装置１０Ａは、統合部１５を備えることにより、隣接フレームＡＦの平均値を算出していた。対象フレームＴＦが１フレームずつシフトしていく場合、毎フレームで平均値を算出することは、処理の重複が発生し効率的でない。したがって、第３の実施形態においては、この問題を解決し、さらに演算負荷を軽くしようとするものである。

図９は、第３の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら入力情報生成装置１０Ｂの機能構成の一例について説明する。入力情報生成装置１０Ｂは、平均値一時記憶部１６と、撮像条件取得部１７と、調整部１８とを更に備え、統合部１５に代えて統合部１５Ｂを備える点において入力情報生成装置１０Ａとは異なる。入力情報生成装置１０Ｂの説明において、入力情報生成装置１０Ａと同様の構成については同様の符号を付すことにより説明を省略する場合がある。

平均値一時記憶部１６は、動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する。平均値一時記憶部１６が記憶する値は、統合部１５Ｂにより演算される。統合部１５Ｂは、画像取得部１１から対象フレームＴＦについての情報を取得し、平均値一時記憶部１６から記憶値ＳＶを取得する。統合部１５Ｂは、対象フレームＴＦと、平均値一時記憶部１６に記憶された値である記憶値ＳＶとに基づく演算により、統合フレームＩＦの画素値を算出する。統合部１５Ｂは、算出した値を演算値ＣＶとして平均値一時記憶部１６に記憶させる。すなわち、統合部１５Ｂが新たな対象フレームＴＦの演算を行うごとに平均値一時記憶部１６に記憶される値は更新されていく。このような演算を繰り返すことにより、入力情報生成装置１０Ｂは、対象フレームＴＦに基づき移動平均を計算する。なお、第１フレーム目の演算については、平均値一時記憶部１６にまだ記憶値ＳＶが存在しないため、統合部１５Ｂは、対象フレームＴＦのみに基づいて演算を行ってもよい。

撮像条件取得部１７は、撮像装置１００から、動画の撮像条件を取得する。撮像条件取得部１７により取得される動画の撮像条件とは、例えば、シャッタースピード、絞り又はＩＳＯ感度等の撮像装置の設定であってもよい。また、撮像条件取得部１７により取得される動画の撮像条件には、撮像装置１００の操作や駆動に関するその他の情報が含まれていてもよい。

調整部１８は、撮像条件取得部１７により取得された撮像条件に応じて、平均値一時記憶部１６に記憶された値（平均値）を調整する。ここで、撮像装置１００の撮像条件が変更したような場合、対象フレームＴＦの画素値と、過去の移動平均値との関係が変わってしまう。例えば、撮像装置１００の設定変更により、ＩＳＯ感度が２倍に変更されたような場合は、過去の移動平均値より対象フレームＴＦの画素値の方が明るくなるため、移動平均値が急に暗くなってしまう。したがって、撮像装置１００の設定変更により、ＩＳＯ感度が２倍に変更されたような場合は、平均値一時記憶部１６に記憶された値を２倍にすることにより、引き続き統合部１５Ｂは、平均値一時記憶部１６に記憶された値を活用しながら、移動平均値を演算し続けることができる。

また、動画の撮影シーンが切り替わったような場合に、過去のフレームとの間で移動平均を求めてしまうと、ＣＮＮ２００により、適切に対象フレームＴＦに関する画像処理が行えなくなってしまう場合がある。したがって、動画の撮影シーンが切り替わったような場合は、過去のフレームとの移動平均を求めない方が好適である。調整部１８は、動画の撮影シーンが切り替わったような場合は、平均値一時記憶部１６に記憶された値をリセットすることにより、統合部１５Ｂにより新たに移動平均値を算出し始めるよう構成されていてもよい。動画の撮影シーンが変わったか否かは、撮像装置１００の電源ボタンのＯＮ／ＯＦＦや、撮影ボタン又は停止ボタンのＯＮ／ＯＦＦ等に基づいて判定されてもよい。

なお、動画に含まれる複数のフレームのうち、輝度変化が大きいフレームが挿入される場合がある。輝度変化が大きいフレームが挿入される要因としては、撮像角度の変更等に伴い光源を撮像してしまった場合や、自動車のヘッドライトが映り込んだ場合等が考えられる。このような場合、統合部１５Ｂは、複数のフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外してもよい。輝度変化が大きいフレームを平均値の演算対象から除外することにより、移動平均値が、輝度変化が大きいフレームに引きずられてしまうことを抑止することができる。輝度変化が大きいか否かを判定する場合の一例として、直前の対象フレームＴＦの画素値と、演算対象となる対象フレームＴＦの画素値との比較を行うことにより、差分が閾値以下であるか否かを判定してもよい。

［第３の実施形態のまとめ］
以上説明した実施形態によれば、入力情報生成装置１０Ｂは、平均値一時記憶部１６を更に備えることにより、動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する。また、入力情報生成装置１０Ｂによれば、統合部１５Ｂは、平均値一時記憶部１６に記憶された値と、対象フレームＴＦとに基づく演算により統合フレームＩＦの画素値を算出する。すなわち、入力情報生成装置１０Ｂは、対象フレームＴＦと、記憶された移動平均値に基づき、統合フレームＩＦの画素値を演算する。したがって、入力情報生成装置１０Ｂは、入力情報生成装置１０Ａよりも演算の負荷が軽い。よって、本実施形態によれば、更に演算負荷を軽くすることができる。

また、上述した実施形態によれば、統合部１５Ｂは、動画を構成する複数のフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外する。したがって、本実施形態によれば、突発的に輝度変化が大きくなったような場合に、当該フレームを移動平均値の演算から除外することにより、統合フレームＩＦの画素値が、突発的に輝度変化が大きくなったようなフレームの画素値に引きずられてしまうことを抑止することができる。

また、上述した実施形態によれば、入力情報生成装置１０Ｂは、撮像条件取得部１７を更に備えることにより動画の撮像条件を取得し、調整部１８を更に備えることにより取得された撮像条件に応じて平均値一時記憶部１６に記憶された平均値を調整する。したがって、本実施形態によれば、撮像条件の変化に応じた平均値を調整することができる。よって、本実施形態によれば、撮像条件に変化が生じた場合であっても、移動平均値を算出し続けることができる。

［第４の実施形態］
次に、図１０を参照しながら第４の実施形態について説明する。まず、第４の実施形態において解決しようとする課題について説明する。第３の実施形態に係る入力情報生成装置１０Ｂは、平均値一時記憶部１６を備えることにより、移動平均を算出していた。第３の実施形態によれば、統合部１５Ｂは、画像全体の移動平均を算出する。入力情報生成装置１０Ｂは対象フレームＴＦと移動平均に基づいて入力データＩＮを生成し、ＣＮＮ２００は生成された入力データＩＮに基づいて動画のノイズ除去を行う。統合部１５Ｂは画像全体の移動平均を算出するため、動画の一部に動いている被写体が撮影されている場合、ノイズ除去の結果、動いている被写体が撮影されている一部において残像が発生するといった問題が生じる場合があった。第４の実施形態においては、この問題を解決しようとするものである。

図１０は、第４の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら、第４の実施形態に係る入力情報生成装置１０Ｃの機能構成の一例について説明する。入力情報生成装置１０Ｃは、比較部１９を更に備え、統合部１５Ｂに代えて統合部１５Ｃを備える点において、入力情報生成装置１０Ｂとは異なる。入力情報生成装置１０Ｃは、入力情報生成装置１０Ｂと同様に撮像条件取得部１７及び調整部１８を備えていてもよいが、備えていなくてもよい。図示する一例では、入力情報生成装置１０Ｃが撮像条件取得部１７及び調整部１８を備えない場合の一例について説明する。入力情報生成装置１０Ｃの説明において入力情報生成装置１０Ｂと同様の構成については同様の符号を付すことにより説明を省略する場合がある。

比較部１９は、平均値一時記憶部１６から記憶値ＳＶを取得し、統合部１５Ｃから対象フレームＴＦを取得する。比較部１９は、取得した平均値一時記憶部１６に記憶された記憶値ＳＶと、対象フレームＴＦの画素値とを比較する。比較部１９は、画像全体を比較してもよいし、画素ごとに比較してもよいし、複数画素から構成されるパッチごとに比較してもよい。比較部１９は、比較した結果を比較結果ＣＲとして統合部１５Ｃに出力する。比較結果ＣＲには、画素値の差分が含まれていてもよいし、当該差分と所定の閾値とを比較した結果についての情報が含まれていてもよい。

統合部１５Ｃは、比較部１９から比較結果ＣＲを取得し、平均値一時記憶部１６から記憶値ＳＶを取得する。統合部１５Ｃは、比較部１９により比較された結果である比較結果ＣＲに基づき、差分が所定値以下である場合、平均値一時記憶部１６に記憶された記憶値ＳＶと対象フレームＴＦの平均値とに基づく移動平均を算出する。統合部１５Ｃは、算出した値を統合フレームＩＦの画素値とする。また、統合部１５Ｃは、比較部１９により比較された結果である比較結果ＣＲに基づき、差分が所定値以下でない場合、対象フレームＴＦの画素値を統合フレームＩＦの画素値とする。

統合部１５Ｃによる統合処理は、画像全体で行われてもよいし、画素ごとに行われてもよいし、複数画素から構成されるパッチごとに行われてもよい。統合処理が画素ごと又はパッチごとに行われる場合、統合フレームＩＦの画素値は、差分が所定値以下の箇所（すなわち動きが小さい箇所）については移動平均値となり、差分が所定値以下でない箇所（すなわち動きが大きい箇所）については対象フレームＴＦの画素値となる。統合部１５Ｃは、演算した結果を、演算値ＣＶとして平均値一時記憶部１６に記憶させる。入力情報生成装置１０Ｃによれば、動きが大きい被写体は平均画像に取り込まず、動きが小さい背景は平均画像に取り込む。入力情報生成装置１０Ｃによる演算は、選択平均ということもできる。

なお、統合部１５Ｃが行う処理の変形例として、平均画像に取り込むか取り込まないかの二者択一とする代わりに、係数を乗じることを行ってもよい。例えば、統合部１５Ｃは、比較部１９により比較された結果である比較結果ＣＲに基づき、差分が所定値以下である場合、平均値一時記憶部１６に記憶された記憶値ＳＶに所定の係数（例えば０．９）を乗じた値と、対象フレームＴＦの平均値とに基づく移動平均を算出し、統合フレームＩＦの画素値としてもよい。また、統合部１５Ｃは、比較部１９により比較された結果である比較結果ＣＲに基づき、差分が所定値以下でない場合、平均値一時記憶部１６に記憶された記憶値ＳＶに所定の係数（例えば０．１）を乗じた値と、対象フレームＴＦの平均値とに基づく移動平均を算出し、統合フレームＩＦの画素値としてもよい。

［第４の実施形態のまとめ］
以上説明した実施形態によれば、入力情報生成装置１０Ｃは、比較部１９を更に備えることにより、平均値一時記憶部１６に記憶された記憶値ＳＶと、対象フレームＴＦの画素値とを比較する。統合部１５Ｃは、比較部１９により比較された結果、差分が所定値以下である場合、平均値一時記憶部１６に記憶された記憶値ＳＶと対象フレームＴＦとに基づく移動平均を算出することにより統合フレームＩＦの画素値を算出する。また、統合部１５Ｃは、比較部１９により比較された結果、差分が所定値以下でない場合、対象フレームＴＦの画素値を統合フレームＩＦの画素値とする。すなわち、入力情報生成装置１０Ｃによれば、動きが大きい被写体と、動きが小さい背景とを区別し、選択的に平均処理を行うことにより統合フレームＩＦの画素値を決定する。入力情報生成装置１０Ｃは、対象フレームＴＦと統合フレームＩＦとに基づき、入力データＩＮを生成する。したがって、本実施形態によれば、動きが大きい箇所については、隣接フレームＡＦの画素値が統合フレームＩＦの画素値に反映されないため、残像が発生するといった問題を抑止することができる。

なお、上述した実施形態２から実施形態４では、統合フレームＩＦの画素値を決定するための所定の演算を要し、処理が重くなってしまう場合がある。処理を更に軽量化するため、対象フレームＴＦに隣接するフレーム（例えば前後２フレームずつ）のうちいずれか１フレームを所定のアルゴリズムにより特定し、統合フレームＩＦとしてもよい。所定のアルゴリズムとは、対象フレームＴＦに隣接するフレームのうちいずれか１フレームをランダムに特定するものであってもよい。この場合、統合部１５は、画像取得部１１により取得された隣接フレームＡＦのうち、ランダムに特定されたフレームを統合フレームＩＦとする。

なお、本実施形態の態様は、上述した第１の実施形態から第４の実施形態のいずれかの態様に限定されず、所定の条件に基づいて、第１の実施形態から第４の実施形態のいずれかを選択的に用いるものであってもよい。所定の条件とは、動画の撮影条件や、撮影モード、露出条件、被写体の種類等であってもよい。

なお、これまで、対象フレームＴＦを高品質化するために、隣接フレームＡＦを用いて演算を行う例を示したが、ＣＮＮ２００に含まれる学習済みモデルを学習する場合においても、第１乃至第４の実施形態のいずれか一つと同様に、対象フレームＴＦだけでなく、隣接フレームＡＦを用いて学習を行うことが好ましい。学習に関する演算は、必ずしも画像処理装置２において実行される必要はなく、専用の学習装置において事前に学習したパラメータ等の結果を学習済みモデルとしてＣＮＮ２００に含めてもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…高品質動画生成システム、２…画像処理装置、１０…入力情報生成装置、１１…画像取得部、１２…入力変換部、１３…合成部、１４…出力部、１５…統合部、１６…平均値一時記憶部、１７…撮像条件取得部、１８…調整部、１９…比較部、１００…撮像装置、２００…ＣＮＮ、２１０…入力層、２２０…畳み込み層、２３０…プーリング層、２４０…出力層、ＩＭ…動画情報、ＩＮ…入力情報、ＴＦ…対象フレーム、ＡＦ…隣接フレーム、ＩＦ…統合フレーム、Ｍ１…第１メモリ、Ｍ２…第２メモリ、ＩＭＤ…画像情報、ＩＮＤ…入力データ、ＣＤ…合成データ、ＳＶ…記憶値、ＣＶ…演算値、ＣＲ…比較結果

Claims

動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得部と、
取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換部と、
変換された複数の入力データを１つの合成データに合成する合成部と、
合成された前記合成データを出力する出力部と
を備える入力情報生成装置。
前記動画はカラー動画であり、
前記画像取得部は、１つのフレームから各色の画素値を複数の異なる画像として取得し、
前記入力変換部は、１つのフレームから取得された複数の画像それぞれについて、前記入力データに変換する
請求項１に記載の入力情報生成装置。
前記画像取得部は、前記動画を構成するフレームのうち、前記対象フレームの前後それぞれに連続して隣接する複数のフレームの画像を取得する
請求項１に記載の入力情報生成装置。
前記画像取得部は、前記出力部により前記対象フレームについての前記合成データが出力された後、前記対象フレームに隣接するフレームを前記対象フレームとして、少なくとも前記対象フレームを含む複数フレームを前記入力画像として取得する
請求項１に記載の入力情報生成装置。
前記画像取得部により取得された複数フレームのうち、前記対象フレーム以外のフレームである隣接フレームの画素値に基づいた演算を行うことにより、複数の前記隣接フレームを１つの統合フレームに統合する統合部を更に備え、
前記入力変換部は、前記対象フレームの画素値を、前記入力データに変換し、更に前記統合フレームの画素値を、前記入力データに変換し、
前記合成部は、前記対象フレームに基づき変換された複数の前記入力データと、前記統合フレームに基づき変換された複数の前記入力データとを１つの前記合成データに合成する
請求項１に記載の入力情報生成装置。
前記統合部は、複数の前記隣接フレームの画素値の平均値を前記統合フレームの画素値とする
請求項５に記載の入力情報生成装置。
前記統合部は、複数の前記隣接フレームのうち、前記対象フレームからの時間的距離に応じた加重平均を算出することにより前記統合フレームの画素値を算出する
請求項６に記載の入力情報生成装置。
前記統合部は、前記動画を構成するフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外する
請求項６に記載の入力情報生成装置。
前記動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する平均値一時記憶部を更に備え、
前記統合部は、前記平均値一時記憶部に記憶された値と、前記対象フレームとに基づく演算により前記統合フレームの画素値を算出する
請求項５に記載の入力情報生成装置。
前記動画の撮像条件を取得する撮像条件取得部と、
取得された前記撮像条件に応じて前記平均値一時記憶部に記憶された前記平均値を調整する調整部を更に備える
請求項９に記載の入力情報生成装置。
前記平均値一時記憶部に記憶された値と、前記対象フレームの画素値とを比較する比較部を更に備え、
前記統合部は、前記比較部により比較された結果、差分が所定値以下である場合、前記平均値一時記憶部に記憶された値と前記対象フレームとに基づく移動平均を算出することにより前記統合フレームの画素値を算出し、差分が所定値以下でない場合、前記対象フレームの画素値を前記統合フレームの画素値とする
請求項９に記載の入力情報生成装置。
前記統合部は、前記画像取得部により取得された前記隣接フレームのうちランダムに特定されたフレームを前記統合フレームとする
請求項５に記載の入力情報生成装置。
請求項１から請求項１２のいずれか一項に記載の入力情報生成装置と、
前記入力情報生成装置により出力された前記合成データを入力情報とする畳み込みニューラルネットワークと
を備える画像処理装置。
動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得工程と、
取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換工程と、
変換された複数の入力データを１つの合成データに合成する合成工程と、
合成された前記合成データを出力する出力工程と
を有する入力情報生成方法。