JP2023135607A

JP2023135607A - マルチスケールオブジェクト探知装置及び方法

Info

Publication number: JP2023135607A
Application number: JP2022211881A
Authority: JP
Inventors: ハンジュンキム，; Han Jun Kim; ソンヨンホ，; Seon Yeong Heo; ドンクァンキム，; Dong Kwan Kim
Original assignee: Industry Academic Cooperation Foundation of Yonsei University; University Industry Foundation UIF of Yonsei University
Current assignee: Industry Academic Cooperation Foundation of Yonsei University; University Industry Foundation UIF of Yonsei University
Priority date: 2022-03-15
Filing date: 2022-12-28
Publication date: 2023-09-28
Also published as: US20230298309A1; EP4246463A1; KR20230134846A

Abstract

【課題】オブジェクト探知を効率的に実行するマルチスケールオブジェクト探知装置及び方法を提供する。【解決手段】本発明のマルチスケールオブジェクト探知装置は、複数の連続する画像フレームを獲得する画像フレーム獲得部と、複数の連続する画像フレームの内、前の画像フレームから抽出された少なくとも１つの第１主要領域に基づいて現在の画像フレームから少なくとも１つの第２主要領域を抽出する主要領域抽出部と、現在の画像フレームに対する第１オブジェクト認識過程及び少なくとも１つの第２主要領域に対する第２オブジェクト認識過程を実行するマルチスケールオブジェクト認識部と、第１オブジェクト認識過程及び第２オブジェクト認識過程のそれぞれの結果を併合するオブジェクト認識併合部と、を備える。【選択図】図５

Description

本発明は、無人飛行体のオブジェクト探知技術に関し、より詳細には、前のフレームで推定した情報を用いて現在のフレームでオブジェクト探知を効率的に実行するマルチスケールオブジェクト探知装置及び方法に関する。

近年、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）技術の発達に起因して映像からオブジェクトを探知する技術に対する要求及び研究が増加している。従来のオブジェクト探知技術は、主に一枚の画像に基づいて与えられた画像に現れるオブジェクトを探知する技術が主になっていたが、最近ではこれを拡張してビデオでのオブジェクト探知に対する要求が増大している。

特に、ドローン（ｄｒｏｎｅ）のような無人飛行体に適用されるオブジェクト（物体）感知システムの場合、入力として連続ビデオフレームが使用される。オブジェクト探知の場合、入力として使用される画像のサイズは実行時間及び精度に多くの影響を与え、一般にドローンが要求する目標探知時間を満たすために画像のサイズを縮小する方法が使用されている。

但し、探知時間を確保するために画像のサイズを縮小する場合、オブジェクト探知の精度が低下するという問題が発生する。

韓国公開特許第１０－２０１７－００２１６３８号公報

本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、前のフレームで推定した情報を用いて現在のフレームでオブジェクト探知を効率的に実行するマルチスケールオブジェクト探知装置及び方法を提供することにある。

上記目的を達成するためになされた本発明の一態様によるマルチスケールオブジェクト探知装置は、複数の連続する画像フレームを獲得する画像フレーム獲得部と、前記複数の連続する画像フレームの内、前の画像フレームから抽出された少なくとも１つの第１主要領域に基づいて現在の画像フレームから少なくとも１つの第２主要領域を抽出する主要領域抽出部と、前記現在の画像フレームに対する第１オブジェクト認識過程及び前記少なくとも１つの第２主要領域に対する第２オブジェクト認識過程を実行するマルチスケールオブジェクト認識部と、前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程のそれぞれの結果を併合するオブジェクト認識併合部と、を備える。

前記画像フレーム獲得部は、順次ビデオフレームを分析し、時系列的に連続する類似の背景を有する画像フレームを抽出して前記複数の連続する画像フレームを決定し得る。
前記主要領域抽出部は、前記現在の画像フレームで前記少なくとも１つの第１主要領域の位置を決定して前記少なくとも１つの第２主要領域を決定し得る。
前記主要領域抽出部は、前記少なくとも１つの第１主要領域のそれぞれで基準オブジェクトを選別し、前記現在の画像フレームに前記基準オブジェクトを整合させて前記少なくとも１つの第２主要領域を整列させ得る。
前記主要領域抽出部は、前記マルチスケールオブジェクト認識部から前記少なくとも１つの第１主要領域のフィードバック受け得る。
前記マルチスケールオブジェクト認識部は、前記第１オブジェクト認識過程において、前記現在の画像フレームに関するダウンサンプリングを実行した後、第１オブジェクトを検出し得る。
前記マルチスケールオブジェクト認識部は、第１オブジェクトの検出を通じて前記第１オブジェクトの位置及びクラスを決定し得る。
前記マルチスケールオブジェクト認識部は、前記第２オブジェクト認識過程において、前記少なくとも１つの第２主要領域から相対的に高い精度で前記第２オブジェクトの位置及びクラスを決定し得る。
前記マルチスケールオブジェクト認識部は、前記第１オブジェクト認識過程を第１プロセッサに割り当て、前記第２オブジェクト認識過程を第２プロセッサに割り当てて前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程を並列に実行し得る。
前記オブジェクト認識併合部は、前記第１オブジェクト認識過程を通じて抽出された第１オブジェクトに前記第２オブジェクト認識過程を通じて抽出された第２オブジェクトを併合して、前記現在の画像フレームに対する全オブジェクトを探知し得る。

上記目的を達成するためになされた本発明の一態様によるマルチスケールオブジェクト探知方法は、複数の連続する画像フレームを獲得する画像フレーム獲得ステップと、前記複数の連続する画像フレームの内、前の画像フレームから抽出された少なくとも１つの第１主要領域に基づいて現在の画像フレームから少なくとも１つの第２主要領域を抽出する主要領域抽出ステップと、前記現在の画像フレームに対する第１オブジェクト認識過程及び前記少なくとも１つの第２主要領域に対する第２オブジェクト認識過程を実行するマルチスケールオブジェクト認識ステップと、前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程のそれぞれの結果を併合するオブジェクト認識併合ステップと、を有する。

前記主要領域抽出ステップは、前記マルチスケールオブジェクト認識ステップから前記少なくとも１つの第１主要領域のフィードバックを受けるステップを含み得る。
前記マルチスケールオブジェクト認識ステップは、前記第１オブジェクト認識過程において、前記現在の画像フレームに関するダウンサンプリングを実行した後、第１オブジェクトを検出するステップを含み得る。
前記マルチスケールオブジェクト認識ステップは、前記第２オブジェクト認識過程において、前記少なくとも１つの第２主要領域から相対的に高い精度で前記第２オブジェクトの位置及びクラスを決定するステップを含み得る。
前記マルチスケールオブジェクト認識ステップは、前記第１オブジェクト認識過程を第１プロセッサに割り当て、前記第２オブジェクト認識過程を第２プロセッサに割り当てて前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程を並列に実行するステップを含み得る。

開示する技術は以下の効果を有する。但し、特定の実施形態が以下の効果を全て含むべきであるか、又は以下の効果のみを含むべきであるという意味ではないため、開示する技術の権利範囲はこれによって制限されるものと理解すべきではない。

本発明によるマルチスケールオブジェクト探知装置及び方法によれば、前のフレームから推定された情報を用いて現在のフレームでオブジェクト探知を効率的に実行することができ、単一の画像フレームに対してオブジェクト探知を並列に計算するため、低コストで高精度の結果を提供することができる。

また、本発明によるマルチスケールオブジェクト探知装置及び方法によれば、ドローンのような無人飛行体の組込みシステム（Ｅｍｂｅｄｄｅｄｓｙｓｔｅｍ）環境において、限られた電力及びコンピューティングパワーを用いて、低コストで高精度のオブジェクト探知を提供することができ、特に消費電力を低減して無人飛行体が更に長い時間飛行しながらオブジェクトをリアルタイムで探知することができる。

本発明によるマルチスケールオブジェクト探知システムを説明する図である。本発明によるマルチスケールオブジェクト探知装置のシステム構成を説明する図である本発明によるマルチスケールオブジェクト探知装置の機能的構成を説明する図である。本発明によるマルチスケールオブジェクト探知方法を説明するフローチャートである。本発明によるマルチスケールオブジェクト探知装置の動作過程を説明する図である。本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。

本発明は、下記の研究課題をもって支援を受けて出願された。
〔本発明を支援した国家研究開発事業〕
〔課題固有番号〕１７１１１５２７１８
〔課題番号〕２０２０－０－０１３６１－００３
〔省庁名〕科学技術情報通信部
〔課題管理（専門）機関名〕情報通信企画評価院
〔研究事業名〕情報通信放送革新人材養成（Ｒ＆Ｄ）
〔研究課題名〕人工知能大学院支援（延世大学）
〔貢献率〕１／１
〔課題遂行機関名〕延世大学産学協力団
〔研究期間〕２０２２．０１．０１～２０２２．１２

本発明の実施形態の説明は構造的又は機能的説明のためのものに過ぎず、本発明の権利範囲は本明細書に記載の実施形態によって限定されるものと解釈すべきではない。即ち、実施形態は、様々な変更が可能であり、様々な形態を有するため、本発明の権利範囲は技術的思想を実現することができる均等物を含むものと理解すべきである。更に、本発明で提示する目的又は効果は、特定の実施形態がそれらを全て含むべきであるか又はそのような効果のみを含むべきであるという意味ではないため、本発明の権利範囲はこれによって限定されるものと理解すべきではない。

一方、本明細書で説明する用語の意味は、以下のように理解すべきである。

「第１」、「第２」などの用語は、ある構成要素を他の構成要素から区別するためのものであり、これらの用語によって権利範囲が限定されるべきではない。例えば、第１構成要素は第２構成要素と命名され得、同様に第２構成要素も第１構成要素と命名され得る。

ある構成要素が他の構成要素に「接続されて」いると言及する場合、その他の構成要素に直接接続されることもあるが、中間に他の構成要素が存在することもあると理解すべきである。一方、ある構成要素が他の構成要素に「直接接続されている」と言及する場合、中間に他の構成要素が存在しないことを理解すべきである。一方、構成要素間の関係を説明する他の表現、即ち「～の間」及び「すぐに～の間」、又は「～に隣接する」及び「～に直接隣接する」なども同様に解釈すべきである。

単数の表現は、文脈上明らかに異なる意味を持たない限り、複数の表現を含むものと理解すべきであり、「含む」又は「有する」などの用語は、実施する特徴、数字、ステップ、動作、構成要素、部品、又はそれらを組み合わせたものが存在することを指定しようとするものであり、１つ又は複数の他の特徴、数字、ステップ、動作、構成要素、部品、又はそれらを組み合わせたものの存在又は追加の可能性を予め排除しないものと理解すべきである。

各ステップにおいて、判別符号（例えば、ａ、ｂ、ｃなど）は説明の便宜のために使用されるものであり、判別符号は各ステップの順序を説明するものではなく、各ステップは文脈上明らかに特定の順序を記載していない限り、明記された順序とは異なるように起きることがある。即ち、各ステップは、明記された順序と同じように起きることもあり、実質的に同時に実行され得、逆の順序通り実行されることもある。

本発明はコンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードとして実現され得、コンピュータ読み取り可能な記録媒体はコンピュータシステムによって読み取り可能なデータが貯蔵されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ貯蔵装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークに接続されたコンピュータシステムに分散され、分散方式でコンピュータ読み取り可能なコードが貯蔵されて実行され得る。

ここで使用する全ての用語は、異なるように定義がない限り、本発明が属する分野において通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に使用される辞書で定義されている用語は、関連技術の文脈上有する意味に一致するものと解釈すべきであり、本明細書で明白に定義されていない限り、理想的又は過度に形式的な意味を有するものと解釈すべきではない。

以下、本発明を実行するための形態の具体例を、図面を参照しながら詳細に説明する。

図１は、本発明によるマルチスケールオブジェクト探知システムを説明する図である。

図１を参照すると、マルチスケールオブジェクト探知システム１００は、無人飛行体１１０、マルチスケールオブジェクト探知装置１３０、及びデータベース１５０を含む。

無人飛行体１１０は、ユーザの操作なしに自律走行可能な飛行装置に該当する。例えば、無人飛行体１１０は、ドローン（ｄｒｏｎｅ）などを含む。無人飛行機１１０は、自律飛行中に周辺の画像を撮影するためのカメラモジュールを含み、撮影された映像を貯蔵するための貯蔵手段及び外部に伝送するための通信手段を含んで実現される。

また、無人飛行体１１０は、マルチスケールオブジェクト探知システム１００を構成する１つの装置としてマルチスケールオブジェクト探知装置１３０と連動して動作する。無人飛行体１１０は、マルチスケールオブジェクト探知装置１３０と連動するための専用プログラム又はアプリケーション（又はアプリ、ａｐｐ）をインストールして実行し、ネットワークを介してマルチスケールオブジェクト探知装置１３０に接続される。

マルチスケールオブジェクト探知装置１３０は、本発明によるマルチスケールオブジェクト探知方法を実行するコンピュータ又はプログラムに該当するサーバで実現される。更に、マルチスケールオブジェクト探知装置１３０は、ユーザ端末又は無人飛行体１１０と有線ネットワーク又はブルートゥース（登録商標）、ＷｉＦｉ、ＬＴＥなどのような無線ネットワークで接続され、ネットワークを介してユーザ端末又は無人飛行体１１０とデータを送・受信する。更に、マルチスケールオブジェクト探知装置１３０は、関連する動作を実行するために独立した外部システム（図１には示していない）に接続して動作するように実現される。

一方、図１において、マルチスケールオブジェクト探知装置１３０は、無人飛行体１１０とは独立した装置として示されているが、必ずしもこれに限定されず、論理的な演算装置として無人飛行体１１０に含まれて実現され得ることは勿論である。例えば、マルチスケールオブジェクト探知装置１３０は、無人飛行体１１０内の組込みシステムに含まれて実現され、それにより、無人飛行体１１０は、本発明によるマルチスケールオブジェクト探知方法を直接実行して、独立的なオブジェクト探知を実行することもできる。

データベース１５０は、マルチスケールオブジェクト探知装置１３０の動作過程で必要な様々な情報を貯蔵する貯蔵装置に該当する。例えば、データベース１５０は、オブジェクト探知のための映像の画像フレームに関する情報を貯蔵し、オブジェクト探知モデル又は学習データに関する情報を貯蔵するが、必ずしもこれに限定されず、マルチスケールオブジェクト探知装置１３０が本発明によるマルチスケールオブジェクト探知方法を実行する過程で様々な形態で収集又は加工された情報を貯蔵し得る。

一方、図１において、データベース１５０は、マルチスケールオブジェクト探知装置１３０とは独立的な装置として示されているが、必ずしもこれに限定されず、論理的な貯蔵装置としてマルチスケールオブジェクト探知装置１３０に含まれて実現され得ることは勿論である。

図２は、本発明によるマルチスケールオブジェクト探知装置のシステム構成を説明する図である。

図２を参照すると、マルチスケールオブジェクト探知装置１３０は、プロセッサ２１０、メモリ２３０、ユーザ入出力部２５０、及びネットワーク入出力部２７０を含む。

プロセッサ２１０は、本発明によるマルチスケールオブジェクト探知手順を実行し、このような過程で読み取られるか又は書き込まれるメモリ２３０を管理し、メモリ２３０にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールする。プロセッサ２１０は、マルチスケールオブジェクト探知装置１３０の動作の全体を制御し、メモリ２３０、ユーザ入出力部２５０、及びネットワーク入出力部２７０に電気的に接続され、これらの間のデータの流れを制御する。プロセッサ２１０は、マルチスケールオブジェクト探知装置１３０のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で実現される。

メモリ２３０は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）又はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような不揮発性メモリとして実現され、マルチスケールオブジェクト探知装置１３０に必要なデータ全体を貯蔵するために使用される補助記憶装置を含み、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような揮発性メモリで実現された主記憶装置を含む。更に、メモリ２３０は、電気的に接続されたプロセッサ２１０によって実行されることによって、本発明によるマルチスケールオブジェクト探知方法を実行する命令の集合を貯蔵する。

ユーザ入出力部２５０は、ユーザ入力を受信するための環境とユーザに特定の情報を出力するための環境とを含み、例えばタッチパッド、タッチスクリーン、画像キーボード、ポインティングデバイスなどのアダプタを含む入力装置、及びモニタ又はタッチスクリーンのようなアダプタを含む出力装置を含む。一実施形態で、ユーザ入出力部２５０は、リモート接続を介して接続されたコンピューティングデバイスに該当し、そのような場合、マルチスケールオブジェクト探知装置１３０は独立したサーバとして実行する。

ネットワーク入出力部２７０は、ネットワークを介して無人飛行体１１０に接続するための通信環境を提供し、例えばＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＶＡＮ（ＶａｌｕｅＡｄｄｅｄＮｅｔｗｏｒｋ）などの通信用のアダプタを含む。また、ネットワーク入出力部２７０は、データの無線伝送のためにＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの近距離通信機能又は４Ｇ以上の無線通信機能を提供するように実現される。

図３は、本発明によるマルチスケールオブジェクト探知装置の機能的構成を説明する図である。

図３を参照すると、マルチスケールオブジェクト探知装置１３０は、画像フレーム獲得部３１０、主要領域抽出部３３０、マルチスケールオブジェクト認識部３５０、オブジェクト認識併合部３７０、及び制御部３９０を含む。本発明の実施形態によるマルチスケールオブジェクト探知装置１３０は、上記の構成を同時に全て含むべきものではなく、各々の実施形態による上記の構成の内の一部を省略するか、又は上記の構成の内の一部若しくは全てを選択的に含めて実現することもできる。以下、各構成の動作を具体的に説明する。

画像フレーム獲得部３１０は、複数の連続的な画像フレームを獲得する。ここで、複数の連続的な画像フレームは、基本的に単一の画像から抽出されるが、必ずしもこれに限定されないことは勿論である。画像フレーム獲得部３１０は、無人飛行体１１０と連動する場合、無人飛行体１１０によって撮影された画像を介して複数の連続的な画像フレームを抽出する。また、画像フレーム獲得部３１０は、ユーザ端末によって提供される画像フレームに基づいて複数の連続的な画像フレームを獲得することもできる。画像フレーム獲得部３１０によって獲得された画像フレームは、データベース１５０に貯蔵されて管理される。

一実施形態において、画像フレーム獲得部３１０は、順次ビデオフレームを分析して時系列的に連続する類似の背景を有する画像フレームを抽出して複数の連続的な画像フレームを決定する。画像フレーム獲得部３１０は、単一の画像から連続するフレームを抽出することもでき、必要に応じて映像を構成するビデオフレームの中から画像フレームを選別的に抽出することもある。

例えば、画像フレーム獲得部３１０は、順次ビデオフレームの中から同じ時間間隔で連続的な画像フレームを抽出し、順次ビデオフレームの内の画像間の類似度に基づいて類似の背景を有する画像フレームを時系列順に選択して連続的な画像フレームを抽出する。

主要領域抽出部３３０は、連続的な画像フレームの内、前の画像フレームから抽出された少なくとも１つの第１主要領域に基づいて、現在の画像フレームから少なくとも１つの第２主要領域を抽出する。ここで、主要領域は、画像フレーム内でオブジェクトが存在すると推定される領域に該当し、第１及び第２主要領域は、それぞれ前及び現在の画像フレームでオブジェクトが存在すると推定される領域に該当する。第１及び第２主要領域は、該当する画像フレーム内に複数で存在する。

更に、第１及び第２主要領域は、画像フレーム内にオブジェクトが存在すると推定される領域の集合として表現される。即ち、１つの主要領域内で複数のオブジェクトを探知し、主要領域をオブジェクトの密集度や数などに基づいて決定する。主要領域抽出部３３０は、連続的な画像フレーム間でオブジェクトの位置変化が大きくないという事実に基づいて、前の画像フレームから導出された主要領域情報から現在の画像フレームにおける主要領域を決定する。特に、ドローンのような無人飛行体１１０で撮影された映像の場合、地上で撮影された画像と比較してオブジェクトの座標変化が相対的に小さいことから、前の画像フレームから抽出される主要領域に関する情報は非常に効果的で有る。

一実施形態において、主要領域抽出部３３０は、現在の画像フレームで少なくとも１つの第１主要領域の位置を決定して、少なくとも１つの第２主要領域を決定する。第１主要領域は前の画像フレームで定義された画像領域であるため、主要領域抽出部３３０は現在の画像フレーム上で第１主要領域に対応する位置を決定する。

例えば、主要領域抽出部３３０は、第１主要領域内に存在するオブジェクトが現在の画像フレームでも検出された場合、当該オブジェクト位置に基づいて第１主要領域の位置を決定する。主要領域抽出部３３０は、検出されたオブジェクト位置に基づいて第１主要領域の大きさに対応する領域を新たに定義して第２主要領域として決定する。このとき、第１主要領域の大きさは第１主要領域内のオブジェクト位置に基づいて領域境界までの相対的距離で表現され、主要領域抽出部３３０は現在の画像フレーム上で決定されたオブジェクト位置に基づいて相対的距離に従って領域境界を決定することによって第２主要領域を決定する。

一実施形態において、主要領域抽出部３３０は、少なくとも１つの第１主要領域のそれぞれで基準オブジェクトを選別し、現在の画像フレームに基準オブジェクトを整合させて少なくとも１つの第２主要領域を整列させる。第１主要領域内に同時に複数のオブジェクトが存在する場合、主要領域抽出部３３０は、複数のオブジェクトの中からいずれか１つを選択して基準オブジェクトとして決定する。このとき、基準オブジェクトは、複数のオブジェクトの内、オブジェクトの大きさ又は周辺との色差などを基準に決定する。

例えば、基準オブジェクトは、オブジェクトの中で最大サイズのオブジェクトであるか、又は周辺との色差が最も大きいオブジェクトに該当する。即ち、主要領域抽出部３３０は、第１主要領域内で最もよく識別できるオブジェクトを基準オブジェクトとして決定し、現在の画像フレーム上における位置がより正確に一致するようにする。また、主要領域抽出部３３０は、１つの画像フレーム内で複数の第１主要領域が存在する場合、各第１主要領域について第２主要領域を決定し、各主要領域に対する基準オブジェクトに基づいて現在の画像フレーム上で第２主要領域を整列させる。

一実施形態において、主要領域抽出部３３０は、マルチスケールオブジェクト認識部３５０から少なくとも１つの第１主要領域のフィードバックを受ける。マルチスケールオブジェクト認識部３５０は前の画像フレームに対するオブジェクトを認識する過程でオブジェクトが複数存在する第１主要領域に関する情報を生成し、主要領域抽出部３３０は現在の画像フレームに対する第２主要領域を決定する過程で前の画像フレームに対してマルチスケールオブジェクト認識部３５０が生成した情報をフィードバック情報として受信する。即ち、複数の連続的な画像フレームの場合、連続するフレーム間にオブジェクトの位置の類似性が存在することに基づいて、主要領域抽出部３３０は、現在の画像フレームに対して動作を実行するための前の画像フレームに対して、マルチスケールオブジェクト認識部３５０が生成した情報を活用する。

マルチスケールオブジェクト認識部３５０は、現在の画像フレームに対する第１オブジェクト認識過程及び少なくとも１つの第２主要領域に対する第２オブジェクト認識過程を実行する。マルチスケールオブジェクト認識部３５０は、オブジェクト探知の精度を高めるために様々なスケールでオブジェクト探知動作を実行する。ここで、第１オブジェクト認識過程は、現在の画像フレームの全体を対象として実行されるオブジェクト認識動作に該当する。第２オブジェクト認識過程は、現在の画像フレーム上で定義される少なくとも１つの第２主要領域を対象として実行されるオブジェクト認識動作に該当する。従って、第１オブジェクト認識過程を通じて現在の画像フレーム全体におけるオブジェクト探知の結果を生成し、第２オブジェクト認識過程を通じて第２主要領域におけるオブジェクト探知の結果を生成する。

一実施形態において、マルチスケールオブジェクト認識部３５０は、第１オブジェクト認識過程で現在の画像フレームに関するダウンサンプリングを実行した後、第１オブジェクトを検出する。第１オブジェクト認識過程が現在の画像フレーム全体を対象として行われることから、マルチスケールオブジェクト認識部３５０は、オブジェクト探知の実行時間を短縮するために画像フレームに対するダウンサンプリングを行う。即ち、ダウンサンプリングを通じてオブジェクト探知のための領域の絶対的なサイズを減らす。マルチスケールオブジェクト認識部３５０は、ダウンサンプリングを通じて画像の解像度を減らすことによって第１オブジェクトの検出結果を迅速に生成することができる。

一実施形態において、マルチスケールオブジェクト認識部３５０は、第１オブジェクトの検出を通じて第１オブジェクトの位置（ｌｏｃａｔｉｏｎ）及びクラス（ｃｌａｓｓ）を決定する。即ち、マルチスケールオブジェクト認識部３５０は、オブジェクト探知の結果として、第１オブジェクトに関する位置情報及びクラス分類情報を生成する。この時、第１オブジェクトに関する位置及びクラス情報は、オブジェクト探知モデル又はアルゴリズムによって異なる。

一実施形態において、マルチスケールオブジェクト認識部３５０は、第２オブジェクト認識過程において、少なくとも１つの第２主要領域から相対的に高い精度で第２オブジェクトの位置及びクラスを決定する。第２オブジェクト認識過程は、現在の画像フレーム上で定義される第２主要領域で第２オブジェクトを検出する動作に該当する。第２主要領域のサイズが現在の画像フレームのサイズより相対的に小さいことから、マルチスケールオブジェクト認識部３５０は、第２主要領域の現在の解像度に基づいてオブジェクト探知動作を実行する。結果的に、第２オブジェクト認識過程は、相対的に高い精度のオブジェクト探知結果を生成する。また、第２オブジェクト認識過程も、第２オブジェクトに関する位置及びクラス情報をオブジェクト探知結果として生成する。

一実施形態において、マルチスケールオブジェクト認識部３５０は、第２主要領域の数が既設定された第１閾値を超える場合、第２主要領域の一部に対してのみ第２オブジェクト認識過程を実行する。例えば、第２主要領域の数が多く、第１オブジェクト認識過程よりも更に多くの実行時間が予想される場合、マルチスケールオブジェクト認識部３５０は、第２主要領域をサイズ順に整列させた後、上位ｎ個（ｎは、自然数）の第２主要領域に対してのみ第２オブジェクト認識過程を選択的に行う。

一実施形態において、マルチスケールオブジェクト認識部３５０は、第２主要領域のサイズが既設定された第２閾値を超える場合、当該第２主要領域については第２オブジェクト認識過程を省略する。例えば、第２主要領域のサイズが現在の画像フレームのサイズの２／３以上である場合、マルチスケールオブジェクト認識部３５０は、当該第２主要領域を除いた残りの第２主要領域についてのみ第２オブジェクト認識過程を実行する。

一実施形態において、マルチスケールオブジェクト認識部３５０は、第１オブジェクト認識過程を第１プロセッサに割り当て、第２オブジェクト認識過程を第２プロセッサに割り当てて第１及び第２オブジェクト認識過程を並列的に実行する。第１オブジェクト認識過程は現在の画像フレームの全体を対象として実行される点で高い演算能力を必要とし、第２オブジェクト認識過程は現在の画像フレームの一部の領域を対象として実行される点で相対的に低い演算能力が必要である。例えば、第１オブジェクト認識過程を処理する第１プロセッサはグラフィック処理ユニット（ＧＰＵ）に該当し、第２オブジェクト認識過程を処理する第２プロセッサは中央処理ユニット（ＣＰＵ）に該当する。特に、マルチスケールオブジェクト認識部３５０は、ＧＰＵ及びＣＰＵを活用して第１及び第２オブジェクト認識過程を並列的に実行する。

オブジェクト認識併合部３７０は、第１及び第２オブジェクト認識過程のそれぞれの結果を併合する。オブジェクト認識併合部３７０は、第１及び第２オブジェクト認識過程で検出された結果を統合して、単一過程よりも高い精度の検出結果を生成する。第１及び第２オブジェクト認識過程の併合には様々な方法を活用することができる。

一実施形態において、オブジェクト認識併合部３７０は、第１オブジェクト認識過程を通じて抽出された第１オブジェクトに第２オブジェクト認識過程を通じて抽出された第２オブジェクトに併合して、現在の画像フレームに対するオブジェクト全体のオブジェクトを探知する。即ち、第１オブジェクトには第２オブジェクトを含め、オブジェクト認識併合部３７０は、第１オブジェクトの内、第２オブジェクトに重複するオブジェクトについては第２オブジェクトに置き換えて併合動作を処理する。

一実施形態において、オブジェクト認識併合部３７０は、第１オブジェクト認識過程を介して抽出された第１オブジェクトの内、第２オブジェクト認識過程を介して抽出された第２オブジェクトに重複するオブジェクトに対して、位置情報を第２オブジェクトの位置に置き換え、クラス情報を第１及び第２オブジェクト間のクラスの一致比率に従って決定する。例えば、オブジェクト認識併合部３７０は、重複するオブジェクトの数に対するクラスの一致数の割合が０．５を超える場合、第１オブジェクトのクラス情報をそのまま適用し、そうでない場合第２オブジェクトのクラス情報に置き換えて適用する。

制御部３９０は、マルチスケールオブジェクト探知装置１３０の全体的な動作を制御し、画像フレーム獲得部３１０、主要領域抽出部３３０、マルチスケールオブジェクト認識部３５０、及びオブジェクト認識併合部３７０との間の制御フロー又はデータフローを管理する。

図４は、本発明によるマルチスケールオブジェクト探知方法を説明するフローチャートである。

図４を参照すると、マルチスケールオブジェクト探知装置１３０は、画像フレーム獲得部３１０を介して複数の連続的な画像フレームを獲得する（ステップＳ４１０）。マルチスケールオブジェクト探知装置１３０は、主要領域抽出部３３０を介して連続的な画像フレームの内、前の画像フレームから抽出された少なくとも１つの第１主要領域に基づいて現在の画像フレームで少なくとも１つの第２主要領域を抽出する（ステップＳ４３０）。

また、マルチスケールオブジェクト探知装置１３０は、マルチスケールオブジェクト認識部３５０を介して現在の画像フレームに対する第１オブジェクト認識過程、及び少なくとも１つの第２主要領域に対する第２オブジェクト認識過程を実行する（ステップＳ４５０）。マルチスケールオブジェクト探知装置１３０は、オブジェクト認識併合部３７０を介して第１及び第２オブジェクト認識過程のそれぞれの結果を併合する（ステップＳ４７０）。即ち、マルチスケールオブジェクト探知装置１３０は、第１及び第２オブジェクト認識過程のそれぞれの結果を併合して、現在の画像フレームのオブジェクト探知結果を生成する。

図５は、本発明によるマルチスケールオブジェクト探知装置の動作過程を説明する図である。

図５を参照すると、マルチスケールオブジェクト探知装置１３０は、現在の画像フレーム（ＣｕｒｒｅｎｔＩｍａｇｅＦｒａｍｅ）を入力として受け取り、オブジェクト探知結果（ＤｅｔｅｃｔｉｏｎＲｅｓｕｌｔｓ）として探知されたオブジェクトの位置及びクラスを出力として生成する。この時、オブジェクトの位置は、画像フレーム上にバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）として視覚化されて表示され、オブジェクトのクラスはバウンディングボックスの近くに一緒に出力される。一方、マルチスケールオブジェクト探知装置１３０は、画像フレーム獲得部３１０を介して複数の連続的な画像フレームを獲得する。

また、マルチスケールオブジェクト探知装置１３０は、現在の画像フレームでオブジェクトが存在すると推定される領域である主要領域（ＣｒｉｔｉｃａｌＲｅｇｉｏｎ）を抽出する。マルチスケールオブジェクト探知装置１３０は、主要領域抽出部３３０を介して現在の画像フレームから少なくとも１つの第２主要領域を抽出する。一実施形態において、主要領域抽出部３３０は、マルチスケールオブジェクト認識部３５０から少なくとも１つの第１主要領域（ＣｒｉｔｉｃａｌＭａｓｋ）のフィードバックを受け、第２主要領域の抽出過程に活用する。

また、マルチスケールオブジェクト探知装置１３０は、現在の画像フレーム（ＦｕｌｌＩｍａｇｅ）及び少なくとも１つの第２主要領域（ＣｒｉｔｉｃａｌＲｅｇｉｏｎ）に対してオブジェクト探知を独立的に実行する。この時、現在の画像フレームに対する第１オブジェクト認識過程はＧＰＵを介して実行され、少なくとも１つの第２主要領域に対する第２オブジェクト認識過程はＣＰＵを介して実行される。即ち、第１及び第２オブジェクト認識過程がそれぞれ異なる演算ユニットによって処理されることから、該当する過程は並列的に実行される。

更に、第１オブジェクト認識過程のオブジェクト探知結果に基づいて第１主要領域を決定し、以降、次の画像フレームに対するオブジェクト探知過程に活用する。即ち、第１オブジェクト認識過程は、オブジェクト探知（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）過程及び第１主要領域推論（ＣｒｉｔｉｃａｌＭａｓｋＩｎｆｅｒｅｎｃｅ）過程を含む。このとき、オブジェクト探知過程は、ＳＳＤ－ＭｏｂｉｌｅＮｅｔＶ２を介して行われるが、必ずしもこれに限定されないことは勿論である。これにより、画像フレーム内でオブジェクトが存在する領域及びオブジェクトのクラスをオブジェクト探知結果として生成する。

更に、マルチスケールオブジェクト探知装置１３０は、第１及び第２オブジェクト認識過程で生成されたオブジェクト探知結果を併合して、現在の画像フレームに対するオブジェクト探知結果を最終的に生成する。特に、マルチスケールオブジェクト探知装置１３０は、ドローンのようなオブジェクト探知のリアルタイム性が要求される環境で、画像フレームの一部の領域に対して相対的に高い精度を提供するオブジェクト探知を並列的に実行してオブジェクト探知のリアルタイム性による精度の損失を補う。

図６～図８は、本発明の一実施形態によるマルチスケールオブジェクト探知方法を説明する図である。

図６を参照すると、既存のオブジェクト探知の場合、元の画像を対象に限られた時間内にオブジェクト探知を実行するために、画像のサイズを小さくする動作を本質的に行う。即ち、オブジェクト探知は、ＣＰＵよりも演算能力の高いＧＰＵを介して主に処理され、ダウンサンプリングを通じて画像の絶対的サイズを減らすことでオブジェクト探知の実行時間を短縮する方法が用いられる。但し、この場合、ダウンサンプリング過程で画像情報の損失が発生することから、オブジェクト探知の精度が低くなるという問題が発生する。

図７及び図８を参照すると、ＧＰＵでオブジェクト探知が行われる過程でオブジェクトが多数存在する領域を導出し、マルチスケールオブジェクト探知方法は、その領域をオブジェクト探知に活用して精度減少問題を解決する。即ち、図８と同様に、前の画像フレームから導出された領域情報を現在の画像フレームに適用し、ＣＰＵ及びＧＰＵを同時に使用して、それぞれ異なるスケールの画像フレームに対するオブジェクト探知を並列的に実行する。マルチスケールオブジェクト探知方法は、複数のオブジェクトが存在すると推測された領域に対してのみ選択的なオブジェクト探知を更に実行して、オブジェクト探知の精度を補完する。

以上、本発明の実施形態について図面を参照しながら詳細に説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の技術思想から逸脱しない範囲内で多様に変更実施することが可能である。

１００マルチスケールオブジェクト探知システム
１１０無人飛行体
１３０マルチスケールオブジェクト探知装置
１５０データベース
２１０プロセッサ
２３０メモリ
２５０ユーザ入出力部
２７０ネットワーク入出力部
３１０画像フレーム獲得部
３３０主要領域抽出部
３５０マルチスケールオブジェクト認識部
３７０オブジェクト認識併合部
３９０制御部

Claims

複数の連続する画像フレームを獲得する画像フレーム獲得部と、
前記複数の連続する画像フレームの内、前の画像フレームから抽出された少なくとも１つの第１主要領域に基づいて現在の画像フレームから少なくとも１つの第２主要領域を抽出する主要領域抽出部と、
前記現在の画像フレームに対する第１オブジェクト認識過程及び前記少なくとも１つの第２主要領域に対する第２オブジェクト認識過程を実行するマルチスケールオブジェクト認識部と、
前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程のそれぞれの結果を併合するオブジェクト認識併合部と、を備えることを特徴とするマルチスケールオブジェクト探知装置。
前記画像フレーム獲得部は、順次ビデオフレームを分析し、時系列的に連続する類似の背景を有する画像フレームを抽出して前記複数の連続する画像フレームを決定することを特徴とする請求項１に記載のマルチスケールオブジェクト探知装置。
前記主要領域抽出部は、前記現在の画像フレームで前記少なくとも１つの第１主要領域の位置を決定して前記少なくとも１つの第２主要領域を決定することを特徴とする請求項１に記載のマルチスケールオブジェクト探知装置。
前記主要領域抽出部は、前記少なくとも１つの第１主要領域のそれぞれで基準オブジェクトを選別し、前記現在の画像フレームに前記基準オブジェクトを整合させて前記少なくとも１つの第２主要領域を整列させることを特徴とする請求項３に記載のマルチスケールオブジェクト探知装置。
前記主要領域抽出部は、前記マルチスケールオブジェクト認識部から前記少なくとも１つの第１主要領域のフィードバックを受けることを特徴とする請求項１に記載のマルチスケールオブジェクト探知装置。
前記マルチスケールオブジェクト認識部は、前記第１オブジェクト認識過程において、前記現在の画像フレームに関するダウンサンプリングを実行した後、第１オブジェクトを検出することを特徴とする請求項１に記載のマルチスケールオブジェクト探知装置。
前記マルチスケールオブジェクト認識部は、前記第１オブジェクトの検出を通じて前記第１オブジェクトの位置及びクラスを決定することを特徴とする請求項６に記載のマルチスケールオブジェクト探知装置。
前記マルチスケールオブジェクト認識部は、前記第２オブジェクト認識過程において、前記少なくとも１つの第２主要領域から相対的に高い精度で前記第２オブジェクトの位置及びクラスを決定することを特徴とする請求項６に記載のマルチスケールオブジェクト探知装置。
前記マルチスケールオブジェクト認識部は、前記第１オブジェクト認識過程を第１プロセッサに割り当て、前記第２オブジェクト認識過程を第２プロセッサに割り当てて前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程を並列に実行することを特徴とする請求項１に記載のマルチスケールオブジェクト探知装置。
前記オブジェクト認識併合部は、前記第１オブジェクト認識過程を通じて抽出された第１オブジェクトに前記第２オブジェクト認識過程を通じて抽出された第２オブジェクトを併合して、前記現在の画像フレームに対する全オブジェクトを探知することを特徴とする請求項１に記載のマルチスケールオブジェクト探知装置。
複数の連続する画像フレームを獲得する画像フレーム獲得ステップと、
前記複数の連続する画像フレームの内、前の画像フレームから抽出された少なくとも１つの第１主要領域に基づいて現在の画像フレームから少なくとも１つの第２主要領域を抽出する主要領域抽出ステップと、
前記現在の画像フレームに対する第１オブジェクト認識過程及び前記少なくとも１つの第２主要領域に対する第２オブジェクト認識過程を実行するマルチスケールオブジェクト認識ステップと、
前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程のそれぞれの結果を併合するオブジェクト認識併合ステップと、を有することを特徴とするマルチスケールオブジェクト探知方法。
前記主要領域抽出ステップは、前記マルチスケールオブジェクト認識ステップから前記少なくとも１つの第１主要領域のフィードバックを受けるステップを含むことを特徴とする請求項１１に記載のマルチスケールオブジェクト探知方法。
前記マルチスケールオブジェクト認識ステップは、前記第１オブジェクト認識過程において、前記現在の画像フレームに関するダウンサンプリングを実行した後、第１オブジェクトを検出するステップを含むことを特徴とする請求項１１に記載のマルチスケールオブジェクト探知方法。
前記マルチスケールオブジェクト認識ステップは、前記第２オブジェクト認識過程において、前記少なくとも１つの第２主要領域から相対的に高い精度で前記第２オブジェクトの位置及びクラスを決定するステップを含むことを特徴とする請求項１３に記載のマルチスケールオブジェクト探知方法。
前記マルチスケールオブジェクト認識ステップは、前記第１オブジェクト認識過程を第１プロセッサに割り当て、前記第２オブジェクト認識過程を第２プロセッサに割り当てて前記第１オブジェクト認識過程及び前記第２オブジェクト認識過程を並列に実行するステップを含むことを特徴とする請求項１１に記載のマルチスケールオブジェクト探知方法。