JP6715358B2

JP6715358B2 - 人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、装置、プログラム及びその映像学習方法

Info

Publication number: JP6715358B2
Application number: JP2019012692A
Authority: JP
Inventors: ウパク，ミン
Original assignee: Crowdworks Inc Korea
Current assignee: Crowdworks Inc Korea
Priority date: 2018-09-27
Filing date: 2019-01-29
Publication date: 2020-07-01
Anticipated expiration: 2039-01-29
Also published as: US11295169B2; JP2020052999A; KR102015939B1; WO2020067632A1; US20210241031A1

Description

本発明は、人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、その装置、プログラム及びその映像学習方法に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）とは、機械から生成された知能を意味する。人間の知能により可能な思考、学習などをコンピュータが行えるようにする方法を研究するコンピュータ工学及び情報技術の一つの分野であって、コンピュータが人間の知能的な行動を摸倣できるようにすることをいう。

人工知能は、持続的に研究開発が行われており、イメージの知能化から音声及びテキストの知能化へ、現在はビデオ映像の知能化に関する研究開発が行われているため、急速に成長しており、ビデオ映像の知能化が産業に与える波及効果は非常に大きい。

人工知能学習のための学習データを生成する過程において、獲得したデータを前処理する作業は、学習データを製作する時間のうち約７０〜８０％を占める。

また、ビデオ映像データの量は、従来のイメージ又は音声データの量と比較して、数十倍から数百倍まで差がある。

韓国登録特許公報第１０-１８８８６４７号

ビデオ映像データを用いて学習データの生成は、従来のイメージ又は音声データを用いた学習データの生成と比較して膨大なデータ容量のため、データの前処理作業における時間とコストが非常に増大するという問題がある。

そこで、本発明は上記事情に鑑みてなされたものであって、その目的は、データの前処理作業における時間とコストを最小化できる人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を提供することにある。

本発明が解決しようとする課題は、以上で言及された課題に限定されず、言及されていない他の課題は、以下の記載から通常の技術者が明確に理解できるはずである。

上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法は、コンピュータにより実行される方法であって、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階とを含む。

前記学習対象フレームイメージ選定段階は、検出された前記１つ以上の学習対象オブジェクトのうち予め定められた数以上の前記学習対象オブジェクトの移動量が前記予め定められた基準以上である場合には、前記第ｎフレームイメージを前記学習対象フレームイメージとして選定し、そうでない場合には、前記第ｎフレームイメージを前記学習対象フレームイメージとして選定しない。

上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法は、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階を更に含む。

前記学習用動画セット生成段階で前記学習対象フレームイメージは、前記フレームイメージ抽出段階で前記１つ以上の学習対象オブジェクトが検出される前のフレームイメージであり、前記学習用動画セット生成段階は、前記学習対象フレームイメージ上で前記予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出するオブジェクト検出段階と、前記学習対象フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階とを更に含む。

前記学習用動画セット生成段階で前記学習対象フレームイメージは、前記学習対象オブジェクト検出段階で前記１つ以上の学習対象オブジェクトが検出されたフレームイメージであり、前記学習用動画セット生成段階は、前記学習対象フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階を更に含む。

上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習方法は、コンピュータにより実行される方法であって、学習用動画セットを用いて人工知能映像学習を行う段階を含み、前記学習用動画は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階と、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階と、を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法によって生成されることを特徴とする。

上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部とを含む。

上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部を更に含む。

上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習装置は、学習用動画セットを用いて人工知能映像学習を行う人工知能映像学習実行部を含み、前記学習用動画は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部と、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部と、を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置により生成されることを特徴とする。

上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリングプログラムは、ハードウェアであるコンピュータを用いて、上述した方法のうち何れか１つの方法を実行するために記録媒体に格納される。

本発明のその他の具体的な事項は、詳細な説明及び図面に含まれている。

本発明によれば、動画の学習データの生成において動画データのうち一部のみを学習データとして選定することによって、データの前処理作業における時間及びコストを最小化できるという効果を奏する。

また、本発明によれば、学習データの選定において不要なデータは低減し、必要なデータのみを選定することができる。

更に、本発明によれば、学習対象オブジェクトと背景とを区分して学習対象オブジェクトの変化量を正確に測定できる。

本発明の効果は、以上で言及された効果に制限されず、言及されていない他の効果は、以下の記載から通常の技術者が明確に理解できる。

本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。本発明の学習対象オブジェクトの移動量を測定するための方法を説明する図である。本発明の学習対象フレームイメージの選定方法を説明する図である。本発明の一実施形態に係る学習対象フレームイメージのサンプリング過程を説明する図である。学習用動画セットを生成する段階を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。本発明の学習対象フレームイメージが、学習対象オブジェクトが検出される前のフレームイメージである場合、学習用動画セットを生成する段階を説明する順序図である。

本発明の利点及び特徴、そしてそれらを達成する方法は、添付の図面と共に詳細に後述されている実施形態を参照すれば明確になる。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態で実現することができる。但し、本実施形態は、本発明の開示を完全なものにし、本発明が属する技術分野における通常の知識を有する者に本発明の範囲を完全に理解させるために提供されるものであり、本発明は特許請求の範囲の範囲により定義される。

本明細書で用いられた用語は、実施形態を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数型は特に言及しない限り複数型も含む。明細書で用いられる「含む（ｃｏｍｐｒｉｓｅｓ）」及び／又は「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素以外に１つ以上の他の構成要素の存在又は追加を排除しない。明細書全体に亘って同一の図面符号は同一の構成要素を示し、「及び／又は」は言及された構成要素のぞれぞれ及び１つ以上のあらゆる組み合わせを含む。たとえ、「第１」、「第２」などが多様な構成要素を示すために用いられていても、当然、これらの構成要素はこれらの用語により制限されない。これらの用語は、単に１つの構成要素を他の構成要素と区別するために用いる。従って、以下で言及される第１構成要素は、当然、本発明の技術思想内で第２構成要素であってもよい。

他の定義がなければ、本明細書で用いられる全ての用語（技術及び科学的用語を含む）は、本発明が属する技術分野における通常の知識を有する者が共通して理解できる意味として使用できる。また、一般に用いられる辞典に定義されている用語は、特に明白に定義されていない限り、理想的に又は過度に解釈されない。

空間的に相対的な用語である「の下（ｂｅｌｏｗ）」、「の真下（ｂｅｎｅａｔｈ）」、「下部（ｌｏｗｅｒ）」、「の上（ａｂｏｖｅ）」、「上部（ｕｐｐｅｒ）」などは、図示されているように、１つの構成要素と他の構成要素との相関関係を容易に記述するために使用される。空間的に相対的な用語は、図示されている方向に加えて、使用時又は動作時に構成要素の互いに異なる方向を含む用語として理解されるべきである。例えば、図示されている構成要素をひっくり返す場合、他の構成要素の「の下（ｂｅｌｏｗ）」又は「の真下（ｂｅｎｅａｔｈ）」と記述されている構成要素は、他の構成要素の「の上（ａｂｏｖｅ）」に置くことができる。従って、例示的な用語である「下」は下と上の方向を何れも含む。構成要素は他の方向にも向けることができ、これにより空間的に相対的な用語はその向きによって解釈できる。

以下、添付の図面を参照し、本発明の実施形態を詳細に説明する。

図１は、本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。

図１を参照すれば、本発明の一実施形態に係る動画の学習対象フレームイメージサンプリング方法は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階（Ｓ１００）、受信したオリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階（Ｓ２００）、それぞれのフレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階（Ｓ３００）、それぞれのフレームイメージ上で学習対象オブジェクトを除いた背景を除去する背景除去段階（Ｓ４００）、第ｎフレームイメージ上の検出された１つ以上の学習対象オブジェクトそれぞれの移動量を測定する学習対象オブジェクト移動量測定段階（Ｓ５００）、及び、１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階（Ｓ６００）を含む。

オリジナル動画受信段階（Ｓ１００）で、オリジナル動画は、各種カメラなどで収集される動画を含む。

一実施形態として、自動車の自律走行のための人工知能映像学習データを生成するためにオリジナル動画を受信する場合、オリジナル動画は、車両用ブラックボックスの映像、自動車が通行できる道路を撮影しているＣＣＴＶ映像又は自律走行のための学習データの生成のためにカメラを取り付けた自動車から獲得した動画など、自律走行のための学習データの生成が可能な動画が全て含まれ、前記例に限定されない。

他の実施形態として、病変又は疾患を診断するための人工知能映像学習データを生成するためにオリジナル動画を受信する場合、オリジナル動画は、各種医療用映像機器により獲得された動画を含み、例えば、コンピュータ断層撮影（Ｃｏｍｐｕｔｅｒｔｏｍｏｇｒａｐｈｙ、ＣＴ）画像、核磁気共鳴コンピュータ断層撮影（ＮｕｃｌｅａｒＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＣｏｍｐｕｔｅｄＴｏｍｏｇｒａｐｈｙ、ＮＭＲ-ＣＴ）画像、陽電子放射断層撮影（ＰｏｓｉｔｒｏｎＥｍｉｓｓｉｏｎＴｏｍｏｇｒａｐｈｙ；ＰＥＴ）画像、ＣＢＣＴ（ｃｏｎｅｂｅａｍＣＴ）、電子ビーム断層撮影（Ｅｌｅｃｔｒｏｎｂｅａｍｔｏｍｏｇｒａｐｈｙ）画像、Ｘ線（Ｘ-Ｒａｙ）、磁気共鳴画像（ＭａｒｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＩｍａｇｉｎｇ）などが含まれるが、医療用映像機器により獲得された動画は全て含まれ、前記例に限定されない。

更に他の実施形態として、犯罪現場を検知するための人工知能映像学習データを生成するためにオリジナル動画を受信する場合、オリジナル動画は、公共施設により設置されたＣＣＴＶ及び個人で設置したＣＣＴＶなどにより獲得された動画を含む。

フレームイメージ抽出段階（Ｓ２００）は、受信したオリジナル動画からコンピュータ又はユーザの設定により定められた数のフレームイメージを抽出する。

受信したオリジナル動画から定められた数のフレームイメージを抽出することは、予め定められた時間の区間で予め定められた数のフレームを抽出することを意味し、例えば、コンピュータは、１秒当たり３０フレーム又は１秒当たり６０フレームを抽出することができ、ユーザ又はコンピュータにより予め定められた基準に従ってフレームを抽出することは何れも含まれ、前記例に限定されない。

学習対象オブジェクト検出段階（Ｓ３００）は、抽出されたフレームイメージそれぞれに対して学習対象オブジェクトを検出する段階であって、抽出されたフレームイメージのそれぞれから１つ以上の学習対象オブジェクトを検出する。検出される学習対象オブジェクトは１つ以上の類型を含む。

学習対象オブジェクトの種類としては、例えば、人、自動車、自転車、建物、電信柱、オートバイ、木、花、子犬、猫、道路、交通表示板、過速防止用段差、ロードコーン、車線などを含み、前記例に限定されず、オブジェクトとして識別が可能なものを何れも含む。

各学習対象オブジェクトの類型としては、例えば、前面、後面、右側面、左側面などを含み、各学習対象オブジェクトの類型は前記例に限定されず、前記例よりも細分化させて区分することができ、前記例とは全く異なる類型として区分することもできる。

学習対象オブジェクトの検出として、１つ以上の類型の１つ以上のオブジェクトを検出することは、オブジェクト検出アルゴリズムを用いて実行される。オブジェクト検出アルゴリズムは、例えば、Ｒ-ＣＮＮモデルを含む。

背景除去段階（Ｓ４００）は、抽出したフレームイメージ上で検出された学習対象オブジェクトを除いたものなどを背景として処理し、背景部分を全て除去するものである。

フレームイメージ上で背景を除去する方法としては、一実施形態として背景に該当する領域を０又は１に処理して除去する。

学習対象オブジェクト移動量測定段階（Ｓ５００）は、背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された１つ以上の学習対象オブジェクトの位置と、第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された１つ以上の学習対象オブジェクトの位置を比較し、第ｎフレームイメージ上の検出された１つ以上の学習対象オブジェクトそれぞれの移動量を測定する段階である。

学習対象オブジェクト移動量の測定に関する具体的な実施形態は、図２で後述する。

学習対象フレームイメージ選定段階（Ｓ６００）は、第ｎフレームイメージ上の検出された１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して、第ｎフレームイメージを学習対象フレームイメージとして選定する。

学習対象フレームイメージの選定に関する具体的な方法は、図３及び図４で後述する。

図２は、本発明の学習対象オブジェクトの移動量を測定するための方法を説明する図である。

図２を参照して、学習対象オブジェクト移動量測定段階（Ｓ５００）での移動量の測定方法について説明する。

図２の（ａ）は第ｎ-１フレームイメージ１１、図２の（ｂ）は第ｎフレームイメージ１２を示している。

学習対象オブジェクトの移動量の測定は、第ｎ-１フレームイメージ１１上での学習対象オブジェクト２１と第ｎフレームイメージ１２上での学習対象オブジェクト２２の位置を比較するものである。

第ｎ-１フレームイメージ１１上での学習対象オブジェクト２１と第ｎフレームイメージ１２上での学習対象オブジェクト２２は同一の形態のオブジェクトであって、学習対象オブジェクトの同一の位置に該当する部分をまず選定する。

学習対象オブジェクトの同一の位置に該当する部分の選定は、コンピュータが第ｎ-１フレームイメージ１１上の学習対象オブジェクト２１で特定部分をＡとして選定したとするとき、第ｎフレームイメージ１２上の学習対象オブジェクト２２上でＡと同一の位置に該当する部分をＡ’として選定する。

コンピュータは、学習対象オブジェクトの同一の位置に該当する部分を選定し、第ｎ-１フレームイメージ１１と第ｎフレームイメージ１２を同一の平面上に置いた後、Ａ及びＡ’に対する座標を抽出する。

コンピュータは、Ａ及びＡ’に対する座標を抽出した後、Ａ座標及びＡ’座標の差を用いて移動量を測定する。

図３は、本発明の学習対象フレームイメージの選定方法を説明する図である。

図３を参照すれば、学習対象フレームイメージの選定方法は、検出された１つ以上の学習対象オブジェクトのうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上であるかを判断し（Ｓ６１０）、検出された１つ以上の学習対象オブジェクトのうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上である場合には、第ｎフレームイメージを学習対象フレームイメージとして選定し（Ｓ６１１）、検出された１つ以上の学習対象オブジェクトのうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上に該当しない場合には、第ｎフレームイメージを学習対象フレームイメージとして選定しない（Ｓ６１２）。

学習対象オブジェクトの移動量の基準を設定し、予め定められた基準以上のものに該当するフレームイメージのみ、学習対象フレームイメージとして選定することによって、不要なデータを低減し、必要なデータのみを選定できる。

従って、学習対象フレームイメージは、抽出されたフレームイメージが何れも学習対象フレームイメージとして選定されず、オブジェクトの移動量が少ないため、学習において影響が大きくないデータを除き、一部のみ学習対象フレームイメージとして選定されることによって、学習データセットを、データの量が膨大であるにも拘らず、迅速、且つ、正確に生成できる。

更に、学習データセットが不要なデータを除去して生成されることによって、学習にかかる時間も短縮できる。

図４は、本発明の一実施形態に係る学習対象フレームイメージのサンプリング過程を説明する図である。

図４を参照すれば、図４の（ａ）はフレームイメージ抽出段階（Ｓ２００）により抽出されたフレームイメージ１０を示しており、フレームイメージ１０は学習対象オブジェクト２０及び背景３０を含む。

図４の（ｂ）は、図４の（ａ）であるフレームイメージ１０において、背景除去段階（Ｓ４００）により背景３０が除去されたことを示す図であって、フレームイメージ１０は学習対象オブジェクト２０のみを含む。

図４の（ｃ）は、第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された１つ以上の学習対象オブジェクト２１の位置と、第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された１つ以上の学習対象オブジェクト２２の位置を比較することを示す図である。

コンピュータは、それぞれの学習対象オブジェクト２１、２２間の比較により学習対象オブジェクトの移動量を測定できる。

学習対象オブジェクト２１、２２の位置比較により、移動量を測定した後、コンピュータは、検出された１つ以上の学習対象オブジェクト２０のうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上である場合には、第ｎフレームイメージを学習対象フレームイメージとして選定し、そうでない場合には、第ｎフレームイメージを学習対象フレームイメージとして選定しない。

一実施形態として、コンピュータは、第１フレームイメージ上で検出された学習対象オブジェクトと第２フレームイメージ上で検出された学習対象オブジェクトの移動量を比較し、移動量が予め定められた基準以上である場合には、第２フレームイメージを学習対象フレームイメージとして選定する。移動量が予め定められた基準以上に該当しない場合には、第２フレームイメージを学習対象フレームイメージとして選定しない。

学習対象フレームイメージを選定する段階では、選定され抽出されたフレームイメージの全てを比較する。

従って、コンピュータは、第２フレームイメージを学習対象フレームイメージとして選定又は選定しないことに止まらず、再び第２フレームイメージ上で検出された学習対象オブジェクトと第３フレームイメージ上で検出された学習対象オブジェクトの移動量を比較し、移動量が予め定められた基準以上である場合には、第３フレームイメージを学習対象フレームイメージとして選定する。

フレームイメージ上のオブジェクトの移動量を測定し、学習対象フレームイメージとして選定又は選定しない段階は、第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された１つ以上の学習対象オブジェクトと第ｎ-１フレームイメージ上の検出された１つ以上の学習対象オブジェクトの位置を比較するものであって、抽出された全てのフレームイメージ上の検出された１つ以上の学習対象オブジェクトに対して比較を実行して、学習対象フレームとして選定又は選定しないことを完了するまで繰り返される。

また、学習対象オブジェクト２０は１つ以上であってもよく、コンピュータは、１つのフレームイメージ１０上に複数の学習対象オブジェクト２０がある場合にも、それぞれの学習対象オブジェクト２０を比較して移動量を測定する。

１つのフレームイメージ１０上に複数の学習対象オブジェクト２０が含まれる場合には、一実施形態として、コンピュータは、複数の学習対象オブジェクト２０全部の移動量を測定し、予め定められた数の学習対象オブジェクト２０の移動量が予め定められた基準以上である場合、該当フレームイメージ１０を学習対象フレームイメージとして選定する。

他の実施形態として、コンピュータは、複数の学習対象オブジェクト２０全部の移動量を測定し、複数の学習対象オブジェクト２０全部の移動量が予め定められた基準以上である場合、該当フレームイメージ１０を学習対象フレームイメージとして選定する。

更に他の実施形態として、コンピュータは、複数の学習対象オブジェクト２０のうち予め定められた数の学習対象オブジェクト２０の移動量のみを測定し、測定した学習対象オブジェクト２０の移動量のうち予め定められた数の学習対象オブジェクト２０の移動量が予め定められた基準以上である場合、該当フレームイメージ１０を学習対象フレームイメージとして選定する。

更に別の実施形態として、コンピュータは、複数の学習対象オブジェクト２０のうち予め定められた数の学習対象オブジェクト２０の移動量のみを測定し、測定した学習対象オブジェクト２０全部の移動量が予め定められた基準以上である場合、該当フレームイメージ１０を学習対象フレームイメージとして選定する。

図４の（ｃ）の移動量の測定により選定された学習対象フレームイメージは、図４の（ｄ）のように、抽出されたフレームイメージ１１、１２、１３、１４、１５の中から学習対象フレームイメージ１２、１４として選定される。

図５は、学習用動画セットを生成する段階を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。

図６は、本発明の学習対象フレームイメージが、学習対象オブジェクトが検出される前のフレームイメージである場合、学習用動画セットを生成する段階を説明する順序図である。

図５を参照すれば、本発明の動画の学習対象フレームイメージサンプリング方法は、選定された学習対象フレームイメージを加工処理して学習用動画セットを生成する段階（Ｓ７００）を更に含む。

選定された学習対象フレームイメージを加工処理して学習用動画セットを生成する段階（Ｓ７００）で、学習対象フレームイメージは、学習対象オブジェクトが検出される前のフレームイメージ又は学習対象オブジェクトが検出されたフレームイメージを含む。

図６を参照すれば、学習対象フレームイメージが、学習対象オブジェクトが検出される前のフレームイメージである場合、学習用動画セットを生成する段階（Ｓ７００）は、学習対象フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する段階（Ｓ７１０）及び学習対象フレームイメージ上の検出された１つ以上の学習対象オブジェクトに対して注釈化処理を行う段階（Ｓ７２０）を含む。

学習対象フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する段階（Ｓ７１０）は、上述した図１の学習対象オブジェクトを検出する段階（Ｓ３００）と同一に適用される。

学習対象オブジェクトが検出される前のフレームイメージである学習対象フレームイメージが、学習対象オブジェクトを検出する段階を経るようになるのは、その後に行われる学習対象フレームイメージ上の学習対象オブジェクトに対して注釈化処理を行い、これを用いて学習用動画セットを生成するためである。

学習対象フレームイメージ上の検出された１つ以上の学習対象オブジェクトに対して注釈化処理を行う段階（Ｓ７２０）で、注釈化処理は、ラベリング（ｌａｂｅｌｉｎｇ）、カラーリング（ｃｏｌｏｒｉｎｇ）又はレイヤリング（ｌａｙｅｒｉｎｇ）を含み、学習対象オブジェクトが何かを表示することは何れも注釈化処理に含めることができる。

学習対象フレームイメージ上の検出された１つ以上の学習対象オブジェクトは、例えば、ボックス（ｂｏｘ）などの形態であって、領域が区分されるように表示されている。

従って、学習対象オブジェクトとして区分されて表示された領域に対して、各オブジェクトが何かについての説明を作成でき、ラベリング（ｌａｂｅｌｉｎｇ）は、簡単には１つの単語で作成でき、１つの単語ではない文章で詳細に作成することもできる。

１つ以上のユーザが直接ラベリングを行うことができ、コンピュータがユーザからラベリング命令を受けて入力することができる。

ユーザがラベリングを行う場合、ラベリングの方法としては、直接説明を作成するか、複数のタブの中から選択することもできる。

また、コンピュータが学習によって以前にラベリングされたオブジェクトと現在のラベリング対象オブジェクトが同一であると判断される場合には、コンピュータは、現在のラベリング対象オブジェクトに対して以前のオブジェクトと同様にラベリングすることができる。

カラーリング（ｃｏｌｏｒｉｎｇ）又はレイヤリング（ｌａｙｅｒｉｎｇ）によって注釈化処理を行う場合にも、ラベリングと同一に１つ以上のユーザが直接カラーリング又はレイヤリングを行うことができ、コンピュータがユーザからカラーリング又はレイヤリング命令を受けて入力することができる。

また、コンピュータが学習によって以前にカラーリング又はレイヤリングされたオブジェクトと現在のカラーリング又はレイヤリング対象オブジェクトが同一であると判断される場合には、コンピュータは、現在のカラーリング又はレイヤリング対象オブジェクトに対して以前のオブジェクトと同様にカラーリング又はレイヤリングすることができる。

一方、学習対象フレームイメージが、１つ以上の学習対象オブジェクトが検出されたフレームイメージである場合、学習用動画セットを生成する段階（Ｓ７００）は、学習対象フレームイメージ上の検出された１つ以上の学習対象オブジェクトに対して注釈化処理を行う段階（Ｓ７２０）を含む。

検出された１つ以上の学習対象オブジェクトに対して注釈化処理を行う段階（Ｓ７２０）は、上述した内容と同一である。

本発明の他の実施形態に係る人工知能映像学習方法は、学習用動画セットを用いて人工知能映像学習を行う段階を含み、学習用動画は、上述した人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法によって生成された学習用動画である。

従って、学習用動画の生成のための方法は、上述した人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法と同一に適用され、本発明の他の実施形態に係る人工知能映像学習方法は、生成された学習用動画セットを用いて人工知能映像学習を行う。

本発明の更に他の実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、オリジナル動画受信部、フレームイメージ抽出部、学習対象オブジェクト検出部、背景除去部、オブジェクトの移動量測定部及び学習対象フレームイメージ選定部を含む。

オリジナル動画受信部は、人工知能映像学習のためにオリジナル動画を受信する。

フレームイメージ抽出部は、受信したオリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出する。

学習対象オブジェクト検出部は、オブジェクト検出アルゴリズムを用いてそれぞれのフレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する。

背景除去部は、それぞれの前記フレームイメージ上で学習対象オブジェクトを除いた背景を除去する。

オブジェクトの移動量測定部は、背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された１つ以上の学習対象オブジェクトの位置と第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された１つ以上の学習対象オブジェクトの位置を比較し、第ｎフレームイメージ上の検出された１つ以上の学習対象オブジェクトそれぞれの移動量を測定する。

学習対象フレームイメージ選定部は、第ｎフレームイメージ上の検出された１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して第ｎフレームイメージを学習対象フレームイメージとして選定する。

本発明の更に別の実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部を更に含む。

人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置の各構成は、図１〜図６の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法で説明した内容と同一に適用される。

本発明の更に他の実施形態に係る人工知能映像学習装置は、学習用動画セットを用いて人工知能映像学習を行う人工知能映像学習実行部を含み、学習用動画は、上述した人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置により生成される学習用動画である。

本発明の実施形態と関連して説明された方法又はアルゴリズムの段階は、ハードウェアで直接実現するか、ハードウェアにより実行されるソフトウェアモジュールで実現するか、又はこれらの結合により実現することができる。ソフトウェアモジュールは、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、ハードディスク、脱着型ディスク、ＣＤ-ＲＯＭ又は本発明が属する技術分野において周知されている任意の形態のコンピュータ読み取り可能な記録媒体に存在することもできる。

以上、添付の図面を参照して本発明の実施形態を説明したが、本発明が属する技術分野における通常の技術者は、本発明がその技術的思想や必須の特徴を変更することなく、他の具体的な形態で実施され得ることが理解できるはずである。従って、以上で記述した実施形態はあらゆる面で例示的なものであり、制限的ではないものとして理解すべきである。

１０フレームイメージ
２０学習対象オブジェクト
３０背景

Claims

コンピュータにより実行される方法であって、
人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、
受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、
オブジェクト検出アルゴリズムを用いて、それぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、
それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、
背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、
前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階と、
を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
前記学習対象フレームイメージ選定段階は、
検出された前記１つ以上の学習対象オブジェクトのうち予め定められた数以上の前記学習対象オブジェクトの移動量が前記予め定められた基準以上である場合には、前記第ｎフレームイメージを前記学習対象フレームイメージとして選定し、そうでない場合には、前記第ｎフレームイメージを前記学習対象フレームイメージとして選定しないことを特徴とする請求項１に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階を更に含むことを特徴とする請求項１に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
前記学習用動画セット生成段階で前記学習対象フレームイメージは、
前記フレームイメージ抽出段階で前記１つ以上の学習対象オブジェクトが検出される前のフレームイメージであり、
前記学習用動画セット生成段階は、
前記学習対象フレームイメージ上で前記予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出するオブジェクト検出段階と、
前記学習対象フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階と、
を更に含むことを特徴とする請求項３に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
前記学習用動画セット生成段階で前記学習対象フレームイメージは、
前記学習対象オブジェクト検出段階で前記１つ以上の学習対象オブジェクトが検出されたフレームイメージであり、
前記学習用動画セット生成段階は、
前記学習対象フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階を更に含むことを特徴とする請求項３に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
コンピュータにより実行される方法であって、
学習用動画セットを用いて人工知能映像学習を行う段階を含み、
前記学習用動画は、
人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、
受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、
オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、
それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、
背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、
前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階と、
選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階と、
を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法によって生成される人工知能映像学習方法。
人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、
受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、
オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、
それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、
背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、
前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部と、
を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置。
選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部を更に含むことを特徴とする請求項７に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置。
学習用動画セットを生成する学習対象フレームイメージサンプリング装置と、
前記学習用動画セットを用いて人工知能映像学習を行う人工知能映像学習実行部を含む人工知能映像学習装置と、を備え、
前記学習対象フレームイメージサンプリング装置は、
人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、
受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、
オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた１つ以上の類型の１つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、
それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、
背景が除去された第ｎ（ｎは２以上の自然数）フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、前記第ｎフレームイメージの直前の背景が除去された第ｎ-１フレームイメージ上の検出された前記１つ以上の学習対象オブジェクトの位置と、を比較し、前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、
前記第ｎフレームイメージ上の検出された前記１つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第ｎフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部と、
選定された前記学習対象フレームイメージを加工処理して前記学習用動画セットを生成する学習用動画セット生成部と、
を含む、
人工知能映像学習システム。
ハードウェアであるコンピュータを用いて、請求項１〜５の何れか一項に記載の方法を実行するために記録媒体に格納された人工知能映像学習のための動画の学習対象フレームイメージサンプリングプログラム。