JP6856952B2

JP6856952B2 - 複数のビデオフレームを利用してｃｎｎのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置

Info

Publication number: JP6856952B2
Application number: JP2019160651A
Authority: JP
Inventors: ゲヒョンキム; ヨンジュンキム; インスキム; ハクギョンキム; ウンヒョンナム; ソクフンブ; ミョンチョルソン; ドンフンヨ; ウジュリュ; テウンジャン; ギョンジュンジョン; ホンモジェ; ホジンジョ
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2018-09-05
Filing date: 2019-09-03
Publication date: 2021-04-14
Anticipated expiration: 2039-09-03
Also published as: EP3620985B1; KR20200027887A; EP3620985A1; CN110879962A; KR102279399B1; CN110879962B; JP2020038669A; US10318842B1

Description

本発明は、複数のビデオフレームを利用してＣＮＮのパラメータを最適化するための学習方法、学習装置とこれを利用したテスト方法とテスト装置に関する。より詳細には、（ａ）ＣＮＮ学習装置が、トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得する段階；（ｂ）前記ＣＮＮ学習装置が、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値を各々参照にして第１ロスを算出する段階；及び（ｃ）前記ＣＮＮ学習装置が、前記第１ロスをバックプロパゲーションすることにより、前記ＣＮＮの少なくとも一つのパラメータを最適化する段階；を含むことを特徴とするＣＮＮ学習方法及び学習装置、そしてそれに基づくＣＮＮテスト方法及びテスト装置に関する。

ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されれば、これを犬の写真だとコンピュータが分類するようにしたのである。

データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン（ＳＶＭ）」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔といえる。

ディープ・コンボリューション・ニューラル・ネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮｓ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮｓは、文字の認識問題を解くために９０年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげである。このようなディープＣＮＮは２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。

図１は従来技術でＣＮＮを利用し、写真から検出しようとする多様な出力の例を示す。

具体的に、分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）は写真から検出しようとするクラスの種類、例えば、図１に示されているように、検出された物体（Ｏｂｊｅｃｔ）が人か、羊か、犬かを識別する検出方法であり、検出(Ｄｅｔｅｃｔｉｏｎ)は写真から検出しようとするクラスのすべての物体をそれぞれバウンディングボックス形態で検出する方法の一つであり、セグメンテーション(Ｓｅｇｍｅｎｔａｔｉｏｎ)は、写真で特定物体の領域を他の物体の領域と区分して分割する方法だ。最近、ディープラーニング技術が脚光を浴び、分類、検出、セグメンテーションもディープラーニングを多く利用する傾向にある。

図２は従来技術でＣＮＮを利用した検出方法を簡略に示した図である。

図２を参照すれば、学習装置は、入力イメージの入力を受けて、複数のフィルター（またはコンボリューションレイヤー）で数回のコンボリューション演算を遂行して特徴マップ(ＦｅａｔｕｒｅＭａｐ)を獲得して、この特徴マップを検出レイヤー（ＤｅｔｅｃｔｉｏｎＬａｙｅｒ）に通過させ、少なくとも一つのバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を得た後、これをフィルタリングレイヤー（ＦｉｌｔｅｒｉｎｇＬａｙｅｒ）に通過させて最終検出結果値を得る。このように検出された結果を、人があらかじめラベル付け（Ａｎｎｏｔａｔｉｏｎ）しておいた原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）と比較して、獲得されたロス値を利用してバックプロパゲーションを行うことにより、検出結果値が原本正解値にますます近づくように学習装置は漸進的に学習することになる。

一方、動画等の連続したフレーム（又は連続したフレームに準ずる互いに近い複数のフレーム）では、同じ又は類似した位置にある物体に対しては、二つのフレームともに同じ物体として検出するのが正常である。ところが、この場合、動画で連続したあるいはある程度隣接した２つのフレーム（例えば、両フレーム間に閾値以下のフレームのみ存在する場合の両フレーム）で同じ位置の特徴値の差が大きく、検出やセグメンテーションで二つのフレームいずれにも存在する類似した物体を検出する際に、一つのフレームでは物体検出に成功するが、他のフレームでは物体検出に失敗する場合が発生し得る。

本発明は、前述した問題点をすべて解決することをその目的とする。

本発明の他の目的は、動画の隣接したフレームの間で、あるフレームでは物体検出に成功するのに対し、他のフレームでは同一または類似した位置にある物体に対して物体検出に失敗する問題を解決することを目的とする。

また、本発明のもう一つの目的は、ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）で隣接したフレームの間で特徴値を類似させるように作られ得る方法を提供することをまたの目的とする。

本発明の一態様によれば、複数のビデオフレームを利用してＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する方法において、（ａ）ＣＮＮ学習装置が、トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得する段階；（ｂ）前記ＣＮＮ学習装置が、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値を各々参照にして第１ロスを算出する段階；及び（ｃ）前記ＣＮＮ学習装置が、前記第１ロスをバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）することにより、前記ＣＮＮの少なくとも一つのパラメータを最適化する段階；を含むことを特徴とするＣＮＮ学習方法が提供される。

一例として、前記（ｂ）段階において、前記ＣＮＮ学習装置は、（ｉ）前記第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）値の差異をもとに、第２−１ロスを算出して、（ｉｉ）前記第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに、第２−２ロスを算出し、前記（ｃ）段階において、前記ＣＮＮ学習装置は、前記第２−１ロス及び前記第２−２ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とするＣＮＮ学習方法が提供される。

一例として、前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールド（ｒｅｃｅｐｔｉｖｅｆｉｅｌｄ）が共通領域をどれだけ含んでいるかを示すことを特徴とする方法が提供される。

一例として、前記第１ロス（ｌ_Ｃ）は以下の数式で表現され、

ここで、ｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ）は、前記第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は、前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値であることを特徴とする方法が提供される。

一例として、前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数）で表されることを特徴とする方法が提供される。

一例として、前記オプティカルフローがｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（Ｉ）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（ＩＩ）（ｉ）前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は、前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出され、（ＩＩＩ）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする方法が提供される。

一例として、前記ＣＮＮ学習装置は、（ｉ）前記第ｔ−ｋ入力イメージを利用して前記第ｔ−ｋ特徴マップ及び前記第ｔ−ｋ出力値を獲得するための第１ＣＮＮ及び（ｉｉ）前記第ｔ入力イメージを利用して前記第ｔ特徴マップ及び前記第ｔ出力値を獲得するための第２ＣＮＮを含み、前記第２ＣＮＮは前記第１ＣＮＮと同一パラメータを有するように構成され、前記（ｂ）段階において、前記ＣＮＮ学習装置は、前記第１ＣＮＮで算出された前記第２−１ロスと、前記第２ＣＮＮで算出された前記第２−２ロスとを合わせた第２ロスを算出して、前記（ｃ）段階において、前記ＣＮＮ学習装置は、前記第１ロス及び前記第２ロスを前記第１ＣＮＮでバックプロパゲーションすることにより、前記第１ＣＮＮの前記パラメータを最適化して、前記第１ＣＮＮの前記最適化されたパラメータを前記第２ＣＮＮの前記パラメータに反映することを特徴とするＣＮＮ学習方法が提供される。

一例として、前記（ｃ）段階で、次の数式を通じて統合ロスが算出され、統合ロス＝ｌ_{ｄ（ｔ−ｋ）}＋ｌ_ｄ（ｔ）＋λ_ｃ×ｌ_ｃ、ここでｌ_{ｄ（ｔ−ｋ）}は、前記第２−１ロス、ｌ_ｄ（ｔ）は、前記第２−２ロス、ｌ_ｃは、前記第１ロス、λ_ｃは定数を表し、前記統合のロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とする方法が提供される。

一実施例では、前記第ｔ−ｋ出力値と前記第ｔ出力値はそれぞれ前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップに対して、デコンボリューション演算を少なくとも一回遂行して生成され、前記第ｔ−ｋ出力及び前記第ｔ出力は、物体検出及びセグメンテーションの一つであることを特徴とする方法が提供される。

本発明の他の態様によると、入力イメージとしてのテストイメージに対するＣＮＮテスト方法において、（ａ）ＣＮＮ学習装置を利用して（ｉ）トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージに対してコンボリューション演算を少なくとも一回遂行して前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得するプロセス；（ｉｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値を各々参照にして第１ロスを算出するプロセス；及び（ｉｉｉ）前記第１ロスをバックプロパゲーションすることにより、前記ＣＮＮ学習装置の少なくとも一つのパラメータを最適化するプロセス；を経て学習された前記ＣＮＮ学習装置のパラメータが獲得された状態で、テスト装置が、前記テストイメージを獲得する段階；及び（ｂ）前記テスト装置が、前記学習されたＣＮＮ学習装置の前記パラメータを利用し、前記獲得されたテストイメージに対し、所定の演算を遂行してテスト用の結果値を出力する段階；を含むことを特徴とするＣＮＮテスト方法が提供される。

一例として、前記（ｉｉ）プロセスで、前記ＣＮＮ学習装置は、前記第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに第２−１ロスを算出して、前記第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに第２−２ロスを算出し、前記（ｉｉｉ）プロセスで、前記ＣＮＮ学習装置は、前記第２−１及び前記第２−２ロスをバックプロパゲーションすることにより前記ＣＮＮの前記パラメータを最適化することを特徴とするＣＮＮテスト方法が提供される。

一例として、前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするＣＮＮテスト方法が提供される。

ここで、ｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ）は、前記第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は、前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値であることを特徴とするＣＮＮテスト方法が提供される。

一例として、前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数）で表されることを特徴とするＣＮＮテスト方法が提供される。

一例として、前記オプティカルフローがｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（Ｉ）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（ＩＩ）（ｉ）前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は、前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出され、（ＩＩＩ）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とするＣＮＮテスト方法が提供される。

本発明の他の態様によれば、複数のビデオフレームを利用してＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する装置において、トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージを獲得する通信部；（Ｉ）前記第ｔ−ｋ入力イメージと、前記第ｔ入力イメージに対して、コンボリューション演算を少なくとも一回遂行し、前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得するプロセス；（ＩＩ）前記第ｔ−ｋ特徴マップと、前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照にして第１ロスを算出するプロセス；及び(ＩＩＩ) 前記第１ロスをバックプロパゲーションすることにより、前記ＣＮＮの少なくとも一つのパラメータを最適化するプロセス；を遂行するプロセッサ；を含むことを特徴とするＣＮＮ学習装置が提供される。

一例として、前記（ＩＩ）プロセスにおいて、前記プロセッサは、（ｉ）前記第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに、第２−１ロスを算出して、（ｉｉ）前記第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに、第２−２ロスを算出し、前記（ＩＩＩ）プロセスにおいて、前記プロセッサは、前記第２−１ロス及び前記第２−２ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とするＣＮＮ学習装置が提供される。

一例として、前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするＣＮＮ学習装置が提供される。

ここで、ｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ）は、第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値であることを特徴とするＣＮＮ学習装置が提供される。

一例として、前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数）で表されることを特徴とするＣＮＮ学習装置が提供される。

一例として、前記オプティカルフローがｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（１）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（２）（ｉ）前記第ｔ−ｋ特徴マップの前記i番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は、前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出され、（３）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とするＣＮＮ学習装置が提供される。

一例として、前記ＣＮＮ学習装置は、（ｉ）前記第ｔ−ｋ入力イメージを利用して前記第ｔ−ｋ特徴マップ及び前記第ｔ−ｋ出力値を獲得するための第１ＣＮＮ及び（ｉｉ）前記第ｔ入力イメージを利用して前記第ｔ特徴マップ及び前記第ｔ出力値を獲得するための第２ＣＮＮを含み、前記第２ＣＮＮは、前記第１ＣＮＮと同一のパラメータを有するように構成され、前記（ＩＩ）プロセスにおいて、前記プロセッサは、前記第１ＣＮＮで算出された前記第２−１ロスと、前記第２ＣＮＮで算出された前記第２−２ロスを合わせた第２のロスを算出して、前記（ＩＩＩ）プロセッサで、前記プロセスは、前記第１ロス及び前記第２ロスを前記第１ＣＮＮでバックプロパゲーションすることにより、前記第１ＣＮＮの前記パラメータを最適化して、前記第１ＣＮＮの前記最適化されたパラメータを前記第２ＣＮＮの前記パラメータに反映することを特徴とするＣＮＮ学習装置が提供される。

一例として、前記（ＩＩＩ）プロセスは、次の数式を通じて統合ロスが算出され、統合ロス＝ｌ_{ｄ（ｔ−ｋ）}＋ｌ_ｄ（ｔ）＋λ_ｃ×ｌ_ｃ、ここでｌ_{ｄ（ｔ−ｋ）}は、前記第２−１ロス、ｌ_ｄ（ｔ）は、前記第２−２ロス、ｌ_ｃは、前記第１ロス、λ_ｃは定数を表し、前記統合のロスをバックプロパゲーションすることにより、前記ＣＮＮのパラメータを最適化することを特徴とするＣＮＮ学習装置が提供される。

一例として、前記第ｔ−ｋ出力値と前記第ｔ出力値はそれぞれ前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップに対して、デコンボリューション演算を少なくとも一回遂行して生成され、前記第ｔ−ｋ出力及び前記第ｔ出力は、物体検出及びセグメンテーションの一つであるものを特徴とするＣＮＮ学習装置が提供される。

本発明のまた他の態様によると、入力イメージとしてのテストイメージに対するＣＮＮテストを遂行するＣＮＮテスト装置において、ＣＮＮ学習装置を利用して（ｉ）トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージに対してコンボリューション演算を少なくとも一回遂行して前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと第ｔフレームに対応する第ｔ特徴マップを獲得するプロセス；（ｉｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値を各々参照にして第１ロスを算出するプロセス；及び（ｉｉｉ）前記第１ロスをバックプロパゲーションすることにより、前記ＣＮＮ学習装置の少なくとも一つのパラメータを最適化するプロセス；を経て学習された前記ＣＮＮ学習装置のパラメータが獲得された状態で、ＣＮＮテスト装置が、前記テストイメージを獲得する通信部；及び前記学習されたＣＮＮ学習装置の前記パラメータを利用し、前記獲得されたテストイメージに対し、所定の演算を遂行してテスト用の結果値を出力するプロセスを遂行するプロセッサ；を含むことを特徴とするＣＮＮテスト装置が提供される。

一例として、前記（ｉｉ）プロセスにおいて、前記ＣＮＮ学習装置は、前記第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに、第２−１ロスを算出して、前記第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに第２−２ロスを算出し、前記（ｉｉｉ）プロセスで、前記ＣＮＮ学習装置は、前記第２−１ロス及び前記第２−２ロスをバックプロパゲーションすることにより前記ＣＮＮの前記パラメータを最適化することを特徴とするＣＮＮテスト装置が提供される。

一例として、前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするＣＮＮテスト装置が提供される。

ここで、ｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ）は、前記第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は、前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値であることを特徴とするＣＮＮテスト装置が提供される。

一例として、前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数）で表されることを特徴とするＣＮＮテスト装置が提供される。

一例として、前記オプティカルフローがｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（Ｉ）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（ＩＩ）（ｉ）前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出され、（ＩＩＩ）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とするＣＮＮテスト装置が提供される。

本発明によれば、ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）で隣接するフレーム間で特徴値が類似して作られ得るようにし、動画の隣接フレームの間で、あるフレームでは物体検出に成功するのに対し、他のフレームでは同一の位置にある物体に対して物体検出に失敗する状況を防止する効果がある。

また、本発明によれば、隣接する２つのフレームのオプティカルフローを求め、両フレームの特徴間の差を減少させ、隣接したフレーム間の特徴値が類似して維持されることで、各フレーム間の物体検出性能を高める効果がある。

図１は従来技術でＣＮＮを利用し、写真から検出しようとする多様な出力の例を表した図面である。図２は従来技術でＣＮＮを利用した検出方法を簡略に表した図面である。図３は本発明によって複数のビデオフレームを利用してＣＮＮのパラメータを学習する過程を示したフローチャートである。図４は、本発明によって複数のビデオフレームを入力イメージにしたセグメンテーション過程でＣＮＮのパラメータを学習する過程を図式化した図面である。図５は、本発明によって複数のビデオフレームを入力イメージとした検出過程でＣＮＮのパラメータを学習する過程を図式化した図面である。図６はレセプティブフィールドを説明するための図面である。図７はオプティカルフローを説明するための図面である。図８は、図４の学習過程を通じて得たＣＮＮのパラメータを利用してセグメンテーションを遂行するためのテストの過程を図式化した図面である。図９は、図４の学習過程を通じて得たＣＮＮのパラメータを利用して検出するためのテスト過程を図式化した図面である。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互に排他的である必要はないことが理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開始された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得て、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。

本明細書で「隣接したフレーム」、「連続したフレーム」の意味は必ずしも物理的にすぐ隣り合わせのフレームを意味するものではなく、二つのフレームの間に閾値以下のフレームのみが含まれて連続することに準ずるものと判断される各フレームを意味し得ることを明かしておく。

図３は本発明によって複数のビデオフレームを利用してＣＮＮのパラメータを学習する過程を示したフローチャートである。

図３を参照すれば、本発明にかかるＣＮＮ学習方法は、第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと第ｔフレームに対応する第ｔ入力イメージを学習装置に入力する段階Ｓ０１、第ｔ−ｋ入力イメージと第ｔ入力イメージから各々第ｔ−ｋ特徴マップ及び第ｔ特徴マップを獲得する段階Ｓ０２、第ｔ−ｋ特徴マップと第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照にして第１ロスを算出する段階Ｓ０３、第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに第２−１ロスを算出して、第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに第２−２ロスを算出する段階Ｓ０４、第１ロス、第２−１ロス及び第２−２ロスをバックプロパゲーションすることにより、ＣＮＮのパラメータを最適化する段階Ｓ０５を含む。ここで、ｋは１であり得るが、これに限定されるものではない。

図４は、本発明によって複数のビデオフレームを入力イメージとしたセグメンテーション過程でＣＮＮのパラメータを学習する過程を図式化した図である。

また、図５は、本発明によって複数のビデオフレームを入力イメージとした検出過程でＣＮＮのパラメータを学習する過程を図式化した図である。

以下、図４及び図５を参照して、本発明にかかる連続したフレームの特徴値を類似させるように学習するセグメンテーションと検出のためのＣＮＮ学習過程を具体的に説明する。

まず、第ｔ−ｋフレームに該当する第ｔ−ｋ入力イメージと第ｔフレームに該当する第ｔ入力イメージを学習装置に入力する段階Ｓ０１で、学習装置がトレーニングイメージとして、第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージの入力を受ける。このとき、第ｔ−ｋフレームと第ｔフレームは１つの動画の中に存在するフレームであり得る。

また、第ｔ−ｋ入力イメージと第ｔ入力イメージから各々第ｔ−ｋ特徴マップ及び第ｔ特徴マップを獲得する段階Ｓ０２で、図４及び図５に示されているように、ＣＮＮ学習装置が第ｔ−ｋ入力イメージと第ｔ入力イメージに対して各々コンボリューション演算を少なくとも一回遂行して第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと第ｔフレームに対応する第ｔ特徴マップを獲得する。

ここで、図４及び図５を参照すれば、前記ＣＮＮ学習装置は、（ｉ）前記第ｔ−ｋ入力イメージを利用して前記第ｔ−ｋ特徴マップ及び前記第ｔ−ｋ出力値を獲得するための第１ＣＮＮ４１０、５１０及び（ｉｉ）前記第ｔ入力イメージを利用して前記第ｔ特徴マップ及び前記第ｔ出力値を獲得するための第２ＣＮＮ４２０、５２０を含み、前記第２ＣＮＮは前記第１ＣＮＮと同一パラメータを有するように構成され得る。また、他の実施例では、一つのＣＮＮが第ｔ−ｋ入力イメージにコンボリューション演算を少なくとも一回遂行して第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップを獲得した後に、第ｔ入力イメージに対してコンボリューション演算を少なくとも一回遂行して第ｔフレームに対応する第ｔ特徴マップを順次獲得し得る。

また、第ｔ−ｋ特徴マップと第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参考にして第１ロスを算出する段階Ｓ０３で、（ｉ）第ｔ−ｋ特徴マップと第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に、（ｉｉ）これに対応する第１ロス重み付け値を掛けて前記第１ロス（コンティニュイティロス、ｌ_Ｃ）を算出する。ここで、第１ロス重み付け値は、第ｔ−ｋ特徴マップと第ｔ特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示す。

一般的に、学習過程は単純に各々のネットワークの目的によって、物体セグメンテーションネットワークではセグメンテーションロス（ｌ_Ｓ）を減らす方向で、物体検出ネットワークでは検出ロス（ｌ_ｄ）を減らす方向でのみ学習するが、本発明では、コンティニュイティロス（ｌ_Ｃ）を加えて連続したフレーム間の類似した物体を示す特徴が類似した値を有するようにする。

本発明の一実施例において、前記コンティニュイティロス（ｌ_Ｃ）は以下の数式で表現できる。
［数式１］

ここで、ｆ_ｔ−ｋ（ｉ）は、第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ）は、第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は、二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値になる。この時、前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップのｉ番目の特徴と、前記第ｔ特徴マップのｊ番目の特徴に対応する前記実際の入力イメージの二つレセプティブフィールド内のピクセルの数）と定義され得る。

以下では、図６及び図７を参照して前記第１ロス重み付け値を具体的に説明すると、次のとおりである。

図６はレセプティブフィールドを説明するための図面であり、図７はオプティカルフローを説明するための図面である。

図６に示されているように、各々の特徴は各々に対応するレセプティブフィールドを有している。レセプティブフィールドとは、当該特徴を計算するのにイメージで用いられるピクセル領域をいう。図６の上段左側は第ｔ−ｋフレーム６１０を表し、その中間の小さいボックス表示部は、第ｔ−ｋフレーム内の特定の特徴（第ｔ−ｋ特徴マップ６１１で、黒い色で表示した部分の特徴）の値を計算するのに用いられたピクセル領域を示す。また、図６の上段右側は第ｔフレーム６２０を表し、その中間の小さいボックス表示部は、第ｔフレームの中の特定の特徴（第ｔ特徴マップ６２１で、黒い色で表示した部分の特徴）の値を計算するのに用いられたピクセル領域を示す。

ここで、第１ロス重み付け値（ｗ_ｉ，ｊ）は２つのフレームの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを利用して計算するが、前記数式１は共通領域が増加することで、第１ロス重み付け値（ｗ_ｉ，ｊ）は１に近づき、共通領域が減少することで第１ロス重み付け値（ｗ_ｉ，ｊ）は０に近づくように設計された。例えば、第ｔ−ｋ特徴マップ６１１の黒い色で表示した部分に対応される特徴の値が１０００．０で、第ｔ特徴マップ６２１の黒い色で表示した部分に対応される特徴の値が７００．０として、二つのレセプティブフィールドが３０％の領域が重なった場合、両特徴の間の距離（φｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は１０００−７００＝３００になって、二つのレセプティブフィールドがどれほど類似しているかを表す第１ロス重み付け値（ｗ_ｉ，ｊ）は０．３になる。従って、コンティニュイティロス（第１ロス) 計算過程で、第ｔ−ｋ特徴マップのｉ番目の特徴と第ｔ特徴マップのｊ番目の特徴間の類似性は０．３＊（１０００−７００)＝９０になる。また、二つの特徴マップ間のすべての特徴の間でこのような計算過程を遂行し、これらを合算すれば、コンティニュイティロス（第１ロス）が算出され得る。

以下で、図７を参照して第１ロス重み付け値（ｗ_ｉ，ｊ）を求める過程を詳しく説明すると、次のとおりである。

前述のように、第１ロス重み付け値（ｗ_ｉ，ｊ）は、（オプティカルフローによって連結されたピクセルの数）／（二つのレセプティブフィールド内のピクセルの数）のように表される。ここで、オプティカルフローによって連結されたピクセルの数を計算するため、第ｔ−ｋフレームから第ｔフレームの方向７１０のフォワードオプティカルフロー（ｏ＿ｆｏｒｗａｒｄ）と第ｔフレームから第ｔ−ｋ方向７２０のバックワードオプティカルフロー（ｏ＿ｂａｃｋｗａｒｄ）を計算する。そして、ｏ＿ｆｏｒｗａｒｄを利用して、第ｔ−ｋフレームの各ピクセルが第ｔフレームのどのピクセルとマッチングされるのかを確認し、マッチングされたピクセルの中で、ｆ_ｔ（ｊ）（第ｔ特徴マップのｊ番目の特徴）のレセプティブフィールドの中に含まれているピクセル数を計算する。次に、ｏ＿ｆｏｒｗａｒｄも前記の方式でｆ_ｔ（ｊ）のレセプティブフィールドの中にマッチングされるピクセル数を計算する。二つのピクセル数の合計が、オプティカルフローによって連結されたピクセルの数になる。

すなわち、（ｉ）ｏ＿ｆｏｒｗａｒｄを利用して、第ｔ−ｋ特徴マップのｉ番目の特徴に対応する第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中から、第ｔ特徴マップのｊ番目の特徴に対応する第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数を計算して、（ｉｉ）ｏ＿ｂａｃｋｗａｒｄを利用して、第ｔ特徴マップのｊ番目の特徴に対応する第ｔ入力イメージのレセプティブフィールドのピクセルの中で、第ｔ−ｋ特徴マップのｉ番目の特徴に対応する第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数を計算して、（ｉｉｉ）第１ピクセル数及び前記第２ピクセル数を合計してオプティカルフローによって連結されたピクセルの数を算出する。

これと同じ方式で、コンティニュイティロス（第１ロス；ｌ_Ｃ）を算出すると、二つの特徴マップの特徴の間の距離が増加してレセプティブフィールドの間の類似性が増加することで、コンティニュイティロスも増加する。つまり、二つの特徴マップのレセプティブフィールドが互いに類似している時は、二つの特徴マップの特徴の間の距離の値が小さくなってこそコンティニュイティロスが小さくなる。もし、二つの特徴マップのレセプティブフィールドが相互類似してなければ、二つの特徴マップの特徴の間の距離の値が大きいか小さいかに関係なくコンティニュイティロスは影響を受けない。

再度図３を参照すると、第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに、第２−１ロスを算出して、第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに、第２−２ロスを算出する段階Ｓ０４を遂行する。Ｓ０４段階で、図４および図５に示されているように、ＣＮＮがセグメンテーションネットワークである場合、所定回数のデコンボリューション演算などを通じて生成された第ｔ−ｋ出力値は、第ｔ−ｋフレームのセグメンテーション出力値となって、第ｔ−ｋ原本正解と比較して第２−１ロスを算出する。図４の上段部分で、第ｔ−ｋ原本正解値は、特定物体のバウンダリーをほぼ正確に区分して分割している反面、第ｔ−ｋフレームのセグメンテーション出力値は、特定物体のバウンダリーを大まかに区分して分割している。同様に、第ｔ出力値は第ｔフレームのセグメンテーション出力値となって第ｔ原本正解と比較して第２−２ロスを算出する。図４の下段部分で、第ｔ原本正解値は、特定物体のバウンダリーをほぼ正確に区分して分割している反面、第ｔフレームのセグメンテーション出力値は、特定物体のバウンダリーを大まかに区分して分割している。

一方、ＣＮＮが物体検出ネットワークである場合、所定回数のデコンボリューション演算などを通じて生成された第ｔ−ｋ出力値は、第ｔ−ｋフレームの物体検出値となって第ｔ−ｋ原本正解と比較して第２−１ロスを算出する。図５の上段部分で、第ｔ−ｋフレームの検出出力は、第ｔ−ｋ原本正解値よりタイトではないバウンディングボックスを有する。同様に、第ｔ出力値は第ｔフレームの検出出力になって、第ｔフレームの検出出力と第ｔ原本正解値を参照して第２−２ロスを算出する。図５の下段部分で、第ｔフレームの検出出力は第ｔ原本正解値よりタイトではないバウンディングボックスを有する。

ここで、第２−１ロスは、第１ＣＮＮで算出して、第２−２ロスは、第２ＣＮＮで算出し得る。もし、ＣＮＮが一つなら学習装置は、第ｔ−ｋ出力値と第２−１ロスを算出した後に、第ｔ出力値と第２−２ロスを逐次的に算出し得る。

一方、他の実施例で、学習装置は、第１ＣＮＮで算出された第２−１ロスと第２ＣＮＮで算出された第２−２ロスを合わせた第２ロスも算出し得る。図４で第２ロス（ｌ_ｓ）は、第２−１セグメンテーションロス（ｌ_{ｓ（ｔ−ｋ）}）や第２−２セグメンテーションロス（ｌ_ｓ（ｔ））の和で算出され、図５で第２ロス（ｌ_ｄ）は第２−１検出ロス（ｌ_{ｄ（ｔ−ｋ）}）や第２−２検出ロス（ｌ_ｄ（ｔ））の和で算出される。

そして、第１ロス、第２−１ロス及び第２−２ロスをバックプロパゲーションしてＣＮＮのパラメータを最適化する段階Ｓ０５を遂行し得る。Ｓ０５段階において、前記コンティニュイティロス（ｌ_ｃ）を第１ＣＮＮのエンコーダレイヤーにバックプロパゲーションして第１ＣＮＮのエンコーダレイヤーのパラメータを最適化し、第２−１セグメンテーションロス（ｌ_{ｓ（ｔ−ｋ）}）や第２−２セグメンテーションロス（ｌ_ｓ（ｔ））の和または第２−１検出ロス（ｌ_{ｄ（ｔ−ｋ）}）や第２−２検出ロス（ｌ_ｄ（ｔ））の和を第１ＣＮＮのデコーダーレイヤー及びエンコーダレイヤーにバックプロパゲーションして、第１ＣＮＮのデコーダーレイヤー及びエンコーダレイヤーのパラメータを最適化する。そして、最適化された第１ＣＮＮのパラメータは、第２ＣＮＮのパラメータに反映される。

一方、本発明の他の実施例で、第２−１ロスは第１ＣＮＮの最適化に利用し、第２−２ロスは、第２ＣＮＮの最適化に利用することもあるが、第１ＣＮＮ及び第２ＣＮＮが同一の方法で最適化されることが好ましい。第１ロス（コンティニュイティロス）は共通的に一つだけ算出されるため、ある一つのＣＮＮだけを学習し、これを他のＣＮＮに反映すれば充分だろう。すなわち、第２−１セグメンテーションロス（ｌ_{ｓ（ｔ−ｋ）}）又は第２−１検出ロス（ｌ_{ｄ（ｔ−ｋ）}）は、第１ＣＮＮのデコーダーレイヤー及びエンコーダレイヤーにバックプロパゲーションして、前記第１ＣＮＮのパラメータを最適化して、最適化された第１ＣＮＮのパラメータを第２ＣＮＮのパラメータに反映でき得る。また、他の例では、第２−１セグメンテーションロス（ｌ_{ｓ（ｔ−ｋ）}）又は第２−１検出ロス（ｌ_{ｄ（ｔ−ｋ）}）は第１ＣＮＮのデコーダーレイヤー及びエンコーダレイヤーにバックプロパゲーションして第１ＣＮＮのパラメータを最適化し、第２−２セグメンテーションロス（ｌ_ｓ（ｔ））又は第２−２検出ロス（ｌ_ｄ（ｔ））は第２ＣＮＮのデコーダーレイヤー及びエンコーダレイヤーにバックプロパゲーションをして第２ＣＮＮのパラメータを最適化し得る。

また、他の実施例で、第１ロス、第２−１ロス及び第２−２ロスは以下の数式を通じて統合ロスとして算出され得る。
［数式２］
統合ロス＝ｌ_{ｄ（ｔ−ｋ）}＋ｌ_ｄ（ｔ）＋λ_ｃ×ｌ_ｃ、
ここでｌ_{ｄ（ｔ−ｋ）}は、第２−１ロス、ｌ_ｄ（ｔ）は、第２−２ロス、ｌ_ｃは、第１ロス、λ_ｃは、定数である。

そして、このように算出された統合ロスを第１ＣＮＮを通じてバックプロパゲーションして第１ＣＮＮのパラメータを最適化することができる。このような学習過程を通じてＣＮＮのパラメータが最適化されれば、テスト装置は最適化されたパラメータを含むＣＮＮを利用する。

テスト装置は、図８及び図９に示されているように、ロス算出部分を除去して使うことができる。

図８及び図９では、各々の物体セグメンテーションテストネットワークと物体検出テストネットワークが一つのイメージのみ入力を受けて演算する過程を示したが、本発明にかかるテスト装置は、動画など連続したフレームの入力を逐次的に受けて、逐次的に各イメージのセグメンテーションや物体検出結果を算出し得る。この場合、本発明にかかるディープニューラルネットワークでは、隣接するフレームの間に特徴値を類似させるようにし、動画の隣接した各フレームの間では特定の物体に対して連続的に失敗なく検出し得る効果が得られ得る。また、本発明によれば、隣接した２つのフレームのオプティカルフローを求め、隣接したフレーム間の特徴値が類似して維持されることで、各フレーム間の物体検出性能を高め得る効果がある。

本発明技術分野の通常の技術者に理解され、前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージといったイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得て、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ（及び／またはメモリ）によって保有／維持でき得て、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。

以上で説明された本発明にかかる実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記のハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されことがあり、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記の説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

複数のビデオフレームを利用してＣＮＮ(ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のパラメータを学習する方法において、
（ａ）ＣＮＮ学習装置が、トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得する段階；
（ｂ）前記ＣＮＮ学習装置が、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第１ロスを算出する段階；及び（ｃ）前記ＣＮＮ学習装置が、前記第１ロスをバックプロパゲーション(ｂａｃｋｐｒｏｐａｇａｔｉｏｎ)することにより、前記ＣＮＮの少なくとも一つのパラメータを最適化する段階；
を含み、
前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールド（ｒｅｃｅｐｔｉｖｅｆｉｅｌｄ）が共通領域をどれだけ含んでいるかを示すことを特徴とするＣＮＮ学習方法。
前記（ｂ）段階で、
前記ＣＮＮ学習装置は、（ｉ）前記第ｔ−ｋ特徴マップを参照して生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解(ＧｒｏｕｎｄＴｒｕｔｈ)値の差異をもとに第２−１ロスを算出して、（ｉｉ）前記第ｔ特徴マップを参照して生成された第ｔ出力値と第ｔ原本正解値の差異をもとに、第２−２ロスを算出し、
前記（ｃ）段階で、
前記ＣＮＮ学習装置は、前記第２−１ロス及び前記第２−２ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とする請求項１に記載のＣＮＮ学習方法。
前記第１ロス（ｌ_Ｃ）は以下の数式で表現され、

ここでｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ）は、前記第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は、前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値であることを特徴とする請求項１に記載の方法。
前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、
ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数）
で表されることを特徴とする請求項３に記載の方法。
前記オプティカルフローが、ｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（Ｉ）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（ＩＩ）（ｉ）前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は、前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出され、（ＩＩＩ）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項４に記載の方法。
前記ＣＮＮ学習装置は、（ｉ）前記第ｔ−ｋ入力イメージを利用して前記第ｔ−ｋ特徴マップ及び前記第ｔ−ｋ出力値を獲得するための第１ＣＮＮ及び（ｉｉ）前記第ｔ入力イメージを利用して前記第ｔ特徴マップ及び前記第ｔ出力値を獲得するための第２ＣＮＮを含み、
前記第２ＣＮＮは、前記第１ＣＮＮと同一パラメータを有するように構成され、
前記（ｂ）段階で、
前記ＣＮＮ学習装置は、前記第１ＣＮＮで算出された前記第２−１ロスと、前記第２ＣＮＮで算出された前記第２−２ロスとを合わせた第２ロスを算出して、
前記（ｃ）段階で、
前記ＣＮＮ学習装置は、前記第１ロス及び前記第２ロスを前記第１ＣＮＮでバックプロパゲーションすることにより、前記第１ＣＮＮの前記パラメータを最適化して、前記第１ＣＮＮの前記最適化されたパラメータを前記第２ＣＮＮの前記パラメータに反映することを特徴とする請求項２に記載のＣＮＮ学習方法。
前記（ｃ）段階で、
次の数式により統合ロスが算出され、
統合ロス＝ｌ_{ｄ（ｔ−ｋ）}＋ｌ_ｄ（ｔ）＋λ_ｃ×ｌ_ｃ、
ここでｌ_{ｄ（ｔ−ｋ）}は、前記第２−１ロス、ｌ_ｄ（ｔ）は、前記第２−２ロス、ｌ_ｃは、前記第１ロス、λ_ｃは、定数を表し、
前記統合ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とする請求項２に記載の方法。
前記第ｔ−ｋ出力値と前記第ｔ出力値は、それぞれ前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップに対してデコンボリューション演算を少なくとも一回遂行して生成され、
前記第ｔ−ｋ出力及び前記第ｔ出力は物体検出及びセグメンテーションの一つであることを特徴とする請求項２に記載の方法。
入力イメージとしてのテストイメージに対するＣＮＮのテスト方法において、
（ａ）ＣＮＮ学習装置を利用して、（ｉ）トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得するプロセス；（ｉｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第１ロスを算出するプロセス；及び（ｉｉｉ）前記第１ロスをバックプロパゲーションすることにより、前記ＣＮＮの少なくとも一つのパラメータを最適化するプロセス；を経て学習された前記ＣＮＮのパラメータが獲得された状態で、テスト装置が、前記のテストイメージを獲得する段階；及び
（ｂ）前記テスト装置が、前記学習されたＣＮＮの前記パラメータを利用して前記獲得されたテストイメージに対して所定の演算を行ってテスト用結果値を出力する段階；
を含み、
前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするＣＮＮテスト方法。
前記（ｉｉ）プロセスで、
前記ＣＮＮ学習装置は、前記第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに第２−１ロスを算出して、前記第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに第２−２ロスを算出し、
前記（ｉｉｉ）プロセスで、
前記ＣＮＮ学習装置は、前記第２−１ロス及び前記第２−２ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とする請求項９に記載のＣＮＮテスト方法。
前記第１ロス（ｌ_Ｃ）は以下の数式で表現され、

ここで、ｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ
）は、前記第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は
、前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値
であることを特徴とする請求項９に記載のＣＮＮテスト方法。
前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、
ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数）
で表されることを特徴とする請求項１１に記載のＣＮＮテスト方法。
前記オプティカルフローがｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（Ｉ）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（ＩＩ）（ｉ）前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出され、（ＩＩＩ）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項１２に記載のＣＮＮテスト方法。
複数のビデオフレームを利用してＣＮＮ(ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ)のパラメータを学習する装置において、
トレーニングイメージとして第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージを獲得する通信部；
（Ｉ）前記第ｔ−ｋ入力イメージと、前記第ｔ入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得するプロセス；（ＩＩ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第１ロスを算出するプロセス；及び（ＩＩＩ）前記第１ロスをバックプロパゲーションすることにより、前記ＣＮＮの少なくとも一つのパラメータを最適化するプロセス；を遂行するプロセッサ；
を含み、
前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするＣＮＮ学習装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、（ｉ）前記第ｔ−ｋ特徴マップを参照して生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに、第２−１ロスを算出して、（ｉｉ）前記第ｔ特徴マップを参照して生成された第ｔ出力値と第ｔ原本正解値の差異をもとに第２−２ロスを算出し、
前記（ＩＩＩ）プロセスで、
前記のプロセッサは、前記第２−１及び前記第２−２ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とする請求項１４に記載のＣＮＮ学習装置。
前記第１ロス（ｌ_Ｃ）は以下の数式で表現され、

ここで、ｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのｉ番目の特徴であり、ｆ_ｔ（ｊ）は、前記第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は、前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値であることを特徴とする請求項１４に記載のＣＮＮ学習装置。
前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、
ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数）
で表されることを特徴とする請求項１６に記載のＣＮＮ学習装置。
前記オプティカルフローがｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（１）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（２）（ｉ）前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は、前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出されて、（３）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項１７に記載のＣＮＮ学習装置。
前記ＣＮＮ学習装置は、（ｉ）前記第ｔ−ｋ入力イメージを利用して前記第ｔ−ｋ特徴マップ及び前記第ｔ−ｋ出力値を獲得するための第１ＣＮＮ及び（ｉｉ）前記第ｔ入力イメージを利用して前記第ｔ特徴マップ及び前記第ｔ出力値を獲得するための第２ＣＮＮを含み、
前記第２ＣＮＮは、前記第１ＣＮＮと同一パラメータを有するように構成され、
前記（ＩＩ）プロセスで、
前記のプロセッサは、前記第１ＣＮＮで算出された前記第２−１ロスと、前記第２ＣＮＮで算出された前記第２−２ロスとを合わせた第２のロスを算出して、
前記（ＩＩＩ）プロセスで、
前記プロセッサは、前記第１ロス及び前記第２ロスを前記第１ＣＮＮでバックプロパゲーションすることにより、前記第１ＣＮＮの前記パラメータを最適化して、前記第１ＣＮＮの前記最適化されたパラメータを前記第２ＣＮＮの前記パラメータに反映することを特徴とする請求項１５に記載のＣＮＮ学習装置。
前記（ＩＩＩ）プロセスは、下記の数式により統合ロスが算出され、
統合ロス＝ｌ_{ｄ（ｔ−ｋ）}＋ｌ_ｄ（ｔ）＋λ_ｃ×ｌ_ｃ、
ここでｌ_{ｄ（ｔ−ｋ）}は、前記第２−１ロス、ｌ_ｄ（ｔ）は、前記第２−２ロス、ｌ_ｃは、前記第１ロス、λ_ｃは、定数を表し、
前記統合ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とする請求項１５に記載のＣＮＮ学習装置。
前記第ｔ−ｋ出力値と前記第ｔ出力値は、それぞれ前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップに対してデコンボリューション演算を少なくとも一回遂行して生成され、
前記第ｔ−ｋ出力及び前記第ｔ出力は、物体検出及びセグメンテーションの一つであるものを特徴とする請求項１５に記載のＣＮＮ学習装置。
入力イメージとしてのテストイメージに対するＣＮＮテストを遂行するＣＮＮテスト装置において、
ＣＮＮ学習装置を利用して（ｉ）トレーニングイメージとして、第ｔ−ｋフレームに対応する第ｔ−ｋ入力イメージと、前記第ｔ−ｋフレームに後行するフレームである第ｔフレームに対応する第ｔ入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第ｔ−ｋフレームに対応する第ｔ−ｋ特徴マップと前記第ｔフレームに対応する第ｔ特徴マップを獲得するプロセス；（ｉｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照にして、第１ロスを算出するプロセス；及び（ｉｉｉ）前記第１ロスをバックプロパゲーションすることにより、前記ＣＮＮ学習装置の少なくとも一つのパラメータを最適化するプロセス；を経て学習された前記ＣＮＮのパラメータが獲得された状態で、テスト装置が、前記テストイメージを獲得する通信部；及び
前記学習されたＣＮＮの前記パラメータを利用して前記獲得されたテストイメージに対して所定の演算を行ってテスト用結果値を出力するプロセスを実行するプロセッサ；
を含み、
前記第１ロスは、（ｉ）前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの各特徴の間の少なくとも一つの距離の値の各々に（ｉｉ）これに対応する第１ロス重み付け値を掛けて算出するものの、前記第１ロス重み付け値は、前記第ｔ−ｋ特徴マップと前記第ｔ特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするＣＮＮテスト装置。
前記（ｉｉ）プロセスで、
前記ＣＮＮ学習装置は、前記第ｔ−ｋ特徴マップを参照にして生成された第ｔ−ｋ出力値と第ｔ−ｋ原本正解値の差異をもとに、第２−１ロスを算出して、前記第ｔ特徴マップを参照にして生成された第ｔ出力値と第ｔ原本正解値の差異をもとに、第２−２ロスを算出し、
前記（ｉｉｉ）プロセスで、
前記ＣＮＮ学習装置は、前記第２−１ロス及び前記第２−２ロスをバックプロパゲーションすることにより、前記ＣＮＮの前記パラメータを最適化することを特徴とする請求項２２に記載のＣＮＮテスト装置。
前記第１ロス（ｌ_Ｃ）は以下の数式で表現され、

ここでｆ_ｔ−ｋ（ｉ）は、前記第ｔ−ｋ特徴マップのi番目の特徴であり、ｆ_ｔ（ｊ）は、前記第ｔ特徴マップのｊ番目の特徴であり、φ（ｆ_ｔ−ｋ（ｉ），ｆ_ｔ（ｊ））は、前記二つの特徴間の距離であり、ｗ_ｉ，ｊは、これに対応する前記第１ロス重み付け値であることを特徴とする請求項２２に記載のＣＮＮテスト装置。
前記第１ロス重み付け値（ｗ_ｉ，ｊ）は、
ｗ_ｉ，ｊ＝（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数）／（前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴と、前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項２４に記載のＣＮＮテスト装置。
前記オプティカルフローがｏ＿ｆｏｒｗａｒｄ及びｏ＿ｂａｃｋｗａｒｄを含んでいる状態で、（Ｉ）前記第ｔ−ｋ特徴マップから前記第ｔ特徴マップへのオプティカルフローを示す前記ｏ＿ｆｏｒｗａｒｄ及び前記第ｔ特徴マップから前記第ｔ−ｋ特徴マップへのオプティカルフローを示す前記ｏ＿ｂａｃｋｗａｒｄが算出され、（ＩＩ）（ｉ）前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールド内に入ってくる第１ピクセル数は、前記ｏ＿ｆｏｒｗａｒｄを利用して算出され、（ｉｉ）前記第ｔ特徴マップの前記ｊ番目の特徴に対応する前記第ｔ入力イメージのレセプティブフィールドのピクセルの中で前記第ｔ−ｋ特徴マップの前記ｉ番目の特徴に対応する前記第ｔ−ｋ入力イメージのレセプティブフィールド内に入ってくる第２ピクセル数は、前記ｏ＿ｂａｃｋｗａｒｄを利用して算出され、（ＩＩＩ）前記第１ピクセル数及び前記第２ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項２５に記載のＣＮＮテスト装置。