JP6715358B2 - 人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、装置、プログラム及びその映像学習方法 - Google Patents

人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、装置、プログラム及びその映像学習方法 Download PDF

Info

Publication number
JP6715358B2
JP6715358B2 JP2019012692A JP2019012692A JP6715358B2 JP 6715358 B2 JP6715358 B2 JP 6715358B2 JP 2019012692 A JP2019012692 A JP 2019012692A JP 2019012692 A JP2019012692 A JP 2019012692A JP 6715358 B2 JP6715358 B2 JP 6715358B2
Authority
JP
Japan
Prior art keywords
learning
frame image
learning target
image
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019012692A
Other languages
English (en)
Other versions
JP2020052999A (ja
Inventor
ウ パク,ミン
ウ パク,ミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crowdworks Inc Korea
Original Assignee
Crowdworks Inc Korea
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crowdworks Inc Korea filed Critical Crowdworks Inc Korea
Publication of JP2020052999A publication Critical patent/JP2020052999A/ja
Application granted granted Critical
Publication of JP6715358B2 publication Critical patent/JP6715358B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、その装置、プログラム及びその映像学習方法に関する。
人工知能(Artificial Intelligence、AI)とは、機械から生成された知能を意味する。人間の知能により可能な思考、学習などをコンピュータが行えるようにする方法を研究するコンピュータ工学及び情報技術の一つの分野であって、コンピュータが人間の知能的な行動を摸倣できるようにすることをいう。
人工知能は、持続的に研究開発が行われており、イメージの知能化から音声及びテキストの知能化へ、現在はビデオ映像の知能化に関する研究開発が行われているため、急速に成長しており、ビデオ映像の知能化が産業に与える波及効果は非常に大きい。
人工知能学習のための学習データを生成する過程において、獲得したデータを前処理する作業は、学習データを製作する時間のうち約70〜80%を占める。
また、ビデオ映像データの量は、従来のイメージ又は音声データの量と比較して、数十倍から数百倍まで差がある。
韓国登録特許公報第10-1888647号
ビデオ映像データを用いて学習データの生成は、従来のイメージ又は音声データを用いた学習データの生成と比較して膨大なデータ容量のため、データの前処理作業における時間とコストが非常に増大するという問題がある。
そこで、本発明は上記事情に鑑みてなされたものであって、その目的は、データの前処理作業における時間とコストを最小化できる人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を提供することにある。
本発明が解決しようとする課題は、以上で言及された課題に限定されず、言及されていない他の課題は、以下の記載から通常の技術者が明確に理解できるはずである。
上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法は、コンピュータにより実行される方法であって、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階とを含む。
前記学習対象フレームイメージ選定段階は、検出された前記1つ以上の学習対象オブジェクトのうち予め定められた数以上の前記学習対象オブジェクトの移動量が前記予め定められた基準以上である場合には、前記第nフレームイメージを前記学習対象フレームイメージとして選定し、そうでない場合には、前記第nフレームイメージを前記学習対象フレームイメージとして選定しない。
上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法は、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階を更に含む。
前記学習用動画セット生成段階で前記学習対象フレームイメージは、前記フレームイメージ抽出段階で前記1つ以上の学習対象オブジェクトが検出される前のフレームイメージであり、前記学習用動画セット生成段階は、前記学習対象フレームイメージ上で前記予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出するオブジェクト検出段階と、前記学習対象フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階とを更に含む。
前記学習用動画セット生成段階で前記学習対象フレームイメージは、前記学習対象オブジェクト検出段階で前記1つ以上の学習対象オブジェクトが検出されたフレームイメージであり、前記学習用動画セット生成段階は、前記学習対象フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階を更に含む。
上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習方法は、コンピュータにより実行される方法であって、学習用動画セットを用いて人工知能映像学習を行う段階を含み、前記学習用動画は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階と、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階と、を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法によって生成されることを特徴とする。
上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部とを含む。
上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部を更に含む。
上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習装置は、学習用動画セットを用いて人工知能映像学習を行う人工知能映像学習実行部を含み、前記学習用動画は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部と、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部と、を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置により生成されることを特徴とする。
上述した課題を解決するための本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリングプログラムは、ハードウェアであるコンピュータを用いて、上述した方法のうち何れか1つの方法を実行するために記録媒体に格納される。
本発明のその他の具体的な事項は、詳細な説明及び図面に含まれている。
本発明によれば、動画の学習データの生成において動画データのうち一部のみを学習データとして選定することによって、データの前処理作業における時間及びコストを最小化できるという効果を奏する。
また、本発明によれば、学習データの選定において不要なデータは低減し、必要なデータのみを選定することができる。
更に、本発明によれば、学習対象オブジェクトと背景とを区分して学習対象オブジェクトの変化量を正確に測定できる。
本発明の効果は、以上で言及された効果に制限されず、言及されていない他の効果は、以下の記載から通常の技術者が明確に理解できる。
本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。 本発明の学習対象オブジェクトの移動量を測定するための方法を説明する図である。 本発明の学習対象フレームイメージの選定方法を説明する図である。 本発明の一実施形態に係る学習対象フレームイメージのサンプリング過程を説明する図である。 学習用動画セットを生成する段階を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。 本発明の学習対象フレームイメージが、学習対象オブジェクトが検出される前のフレームイメージである場合、学習用動画セットを生成する段階を説明する順序図である。
本発明の利点及び特徴、そしてそれらを達成する方法は、添付の図面と共に詳細に後述されている実施形態を参照すれば明確になる。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態で実現することができる。但し、本実施形態は、本発明の開示を完全なものにし、本発明が属する技術分野における通常の知識を有する者に本発明の範囲を完全に理解させるために提供されるものであり、本発明は特許請求の範囲の範囲により定義される。
本明細書で用いられた用語は、実施形態を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数型は特に言及しない限り複数型も含む。明細書で用いられる「含む(comprises)」及び/又は「含んでいる(comprising)」は、言及された構成要素以外に1つ以上の他の構成要素の存在又は追加を排除しない。明細書全体に亘って同一の図面符号は同一の構成要素を示し、「及び/又は」は言及された構成要素のぞれぞれ及び1つ以上のあらゆる組み合わせを含む。たとえ、「第1」、「第2」などが多様な構成要素を示すために用いられていても、当然、これらの構成要素はこれらの用語により制限されない。これらの用語は、単に1つの構成要素を他の構成要素と区別するために用いる。従って、以下で言及される第1構成要素は、当然、本発明の技術思想内で第2構成要素であってもよい。
他の定義がなければ、本明細書で用いられる全ての用語(技術及び科学的用語を含む)は、本発明が属する技術分野における通常の知識を有する者が共通して理解できる意味として使用できる。また、一般に用いられる辞典に定義されている用語は、特に明白に定義されていない限り、理想的に又は過度に解釈されない。
空間的に相対的な用語である「の下(below)」、「の真下(beneath)」、「下部(lower)」、「の上(above)」、「上部(upper)」などは、図示されているように、1つの構成要素と他の構成要素との相関関係を容易に記述するために使用される。空間的に相対的な用語は、図示されている方向に加えて、使用時又は動作時に構成要素の互いに異なる方向を含む用語として理解されるべきである。例えば、図示されている構成要素をひっくり返す場合、他の構成要素の「の下(below)」又は「の真下(beneath)」と記述されている構成要素は、他の構成要素の「の上(above)」に置くことができる。従って、例示的な用語である「下」は下と上の方向を何れも含む。構成要素は他の方向にも向けることができ、これにより空間的に相対的な用語はその向きによって解釈できる。
以下、添付の図面を参照し、本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。
図1を参照すれば、本発明の一実施形態に係る動画の学習対象フレームイメージサンプリング方法は、人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階(S100)、受信したオリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階(S200)、それぞれのフレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階(S300)、それぞれのフレームイメージ上で学習対象オブジェクトを除いた背景を除去する背景除去段階(S400)、第nフレームイメージ上の検出された1つ以上の学習対象オブジェクトそれぞれの移動量を測定する学習対象オブジェクト移動量測定段階(S500)、及び、1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階(S600)を含む。
オリジナル動画受信段階(S100)で、オリジナル動画は、各種カメラなどで収集される動画を含む。
一実施形態として、自動車の自律走行のための人工知能映像学習データを生成するためにオリジナル動画を受信する場合、オリジナル動画は、車両用ブラックボックスの映像、自動車が通行できる道路を撮影しているCCTV映像又は自律走行のための学習データの生成のためにカメラを取り付けた自動車から獲得した動画など、自律走行のための学習データの生成が可能な動画が全て含まれ、前記例に限定されない。
他の実施形態として、病変又は疾患を診断するための人工知能映像学習データを生成するためにオリジナル動画を受信する場合、オリジナル動画は、各種医療用映像機器により獲得された動画を含み、例えば、コンピュータ断層撮影(Computer tomography、CT)画像、 核磁気共鳴コンピュータ断層撮影(Nuclear Magnetic Resonance Computed Tomography、NMR-CT)画像、陽電子放射断層撮影(Positron Emission Tomography;PET)画像、CBCT(conebeamCT)、 電子ビーム断層撮影(Electron beam tomography)画像、X線(X-Ray)、磁気共鳴画像(Margnetic Resonance Imaging)などが含まれるが、医療用映像機器により獲得された動画は全て含まれ、前記例に限定されない。
更に他の実施形態として、犯罪現場を検知するための人工知能映像学習データを生成するためにオリジナル動画を受信する場合、オリジナル動画は、公共施設により設置されたCCTV及び個人で設置したCCTVなどにより獲得された動画を含む。
フレームイメージ抽出段階(S200)は、受信したオリジナル動画からコンピュータ又はユーザの設定により定められた数のフレームイメージを抽出する。
受信したオリジナル動画から定められた数のフレームイメージを抽出することは、予め定められた時間の区間で予め定められた数のフレームを抽出することを意味し、例えば、コンピュータは、1秒当たり30フレーム又は1秒当たり60フレームを抽出することができ、ユーザ又はコンピュータにより予め定められた基準に従ってフレームを抽出することは何れも含まれ、前記例に限定されない。
学習対象オブジェクト検出段階(S300)は、抽出されたフレームイメージそれぞれに対して学習対象オブジェクトを検出する段階であって、抽出されたフレームイメージのそれぞれから1つ以上の学習対象オブジェクトを検出する。検出される学習対象オブジェクトは1つ以上の類型を含む。
学習対象オブジェクトの種類としては、例えば、人、自動車、自転車、建物、電信柱、オートバイ、木、花、子犬、猫、道路、交通表示板、過速防止用段差、ロードコーン、車線などを含み、前記例に限定されず、オブジェクトとして識別が可能なものを何れも含む。
各学習対象オブジェクトの類型としては、例えば、前面、後面、右側面、左側面などを含み、各学習対象オブジェクトの類型は前記例に限定されず、前記例よりも細分化させて区分することができ、前記例とは全く異なる類型として区分することもできる。
学習対象オブジェクトの検出として、1つ以上の類型の1つ以上のオブジェクトを検出することは、オブジェクト検出アルゴリズムを用いて実行される。オブジェクト検出アルゴリズムは、例えば、R-CNNモデルを含む。
背景除去段階(S400)は、抽出したフレームイメージ上で検出された学習対象オブジェクトを除いたものなどを背景として処理し、背景部分を全て除去するものである。
フレームイメージ上で背景を除去する方法としては、一実施形態として背景に該当する領域を0又は1に処理して除去する。
学習対象オブジェクト移動量測定段階(S500)は、背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された1つ以上の学習対象オブジェクトの位置と、第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された1つ以上の学習対象オブジェクトの位置を比較し、第nフレームイメージ上の検出された1つ以上の学習対象オブジェクトそれぞれの移動量を測定する段階である。
学習対象オブジェクト移動量の測定に関する具体的な実施形態は、図2で後述する。
学習対象フレームイメージ選定段階(S600)は、第nフレームイメージ上の検出された1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して、第nフレームイメージを学習対象フレームイメージとして選定する。
学習対象フレームイメージの選定に関する具体的な方法は、図3及び図4で後述する。
図2は、本発明の学習対象オブジェクトの移動量を測定するための方法を説明する図である。
図2を参照して、学習対象オブジェクト移動量測定段階(S500)での移動量の測定方法について説明する。
図2の(a)は第n-1フレームイメージ11、図2の(b)は第nフレームイメージ12を示している。
学習対象オブジェクトの移動量の測定は、第n-1フレームイメージ11上での学習対象オブジェクト21と第nフレームイメージ12上での学習対象オブジェクト22の位置を比較するものである。
第n-1フレームイメージ11上での学習対象オブジェクト21と第nフレームイメージ12上での学習対象オブジェクト22は同一の形態のオブジェクトであって、学習対象オブジェクトの同一の位置に該当する部分をまず選定する。
学習対象オブジェクトの同一の位置に該当する部分の選定は、コンピュータが第n-1フレームイメージ11上の学習対象オブジェクト21で特定部分をAとして選定したとするとき、第nフレームイメージ12上の学習対象オブジェクト22上でAと同一の位置に該当する部分をA’として選定する。
コンピュータは、学習対象オブジェクトの同一の位置に該当する部分を選定し、第n-1フレームイメージ11と第nフレームイメージ12を同一の平面上に置いた後、A及びA’に対する座標を抽出する。
コンピュータは、A及びA’に対する座標を抽出した後、A座標及びA’座標の差を用いて移動量を測定する。
図3は、本発明の学習対象フレームイメージの選定方法を説明する図である。
図3を参照すれば、学習対象フレームイメージの選定方法は、検出された1つ以上の学習対象オブジェクトのうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上であるかを判断し(S610)、検出された1つ以上の学習対象オブジェクトのうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上である場合には、第nフレームイメージを学習対象フレームイメージとして選定し(S611)、検出された1つ以上の学習対象オブジェクトのうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上に該当しない場合には、第nフレームイメージを学習対象フレームイメージとして選定しない(S612)。
学習対象オブジェクトの移動量の基準を設定し、予め定められた基準以上のものに該当するフレームイメージのみ、学習対象フレームイメージとして選定することによって、不要なデータを低減し、必要なデータのみを選定できる。
従って、学習対象フレームイメージは、抽出されたフレームイメージが何れも学習対象フレームイメージとして選定されず、オブジェクトの移動量が少ないため、学習において影響が大きくないデータを除き、一部のみ学習対象フレームイメージとして選定されることによって、学習データセットを、データの量が膨大であるにも拘らず、迅速、且つ、正確に生成できる。
更に、学習データセットが不要なデータを除去して生成されることによって、学習にかかる時間も短縮できる。
図4は、本発明の一実施形態に係る学習対象フレームイメージのサンプリング過程を説明する図である。
図4を参照すれば、図4の(a)はフレームイメージ抽出段階(S200)により抽出されたフレームイメージ10を示しており、フレームイメージ10は学習対象オブジェクト20及び背景30を含む。
図4の(b)は、図4の(a)であるフレームイメージ10において、背景除去段階(S400)により背景30が除去されたことを示す図であって、フレームイメージ10は学習対象オブジェクト20のみを含む。
図4の(c)は、第n(nは2以上の自然数)フレームイメージ上の検出された1つ以上の学習対象オブジェクト21の位置と、第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された1つ以上の学習対象オブジェクト22の位置を比較することを示す図である。
コンピュータは、それぞれの学習対象オブジェクト21、22間の比較により学習対象オブジェクトの移動量を測定できる。
学習対象オブジェクト21、22の位置比較により、移動量を測定した後、コンピュータは、検出された1つ以上の学習対象オブジェクト20のうち予め定められた数以上の学習対象オブジェクトの移動量が予め定められた基準以上である場合には、第nフレームイメージを学習対象フレームイメージとして選定し、そうでない場合には、第nフレームイメージを学習対象フレームイメージとして選定しない。
一実施形態として、コンピュータは、第1フレームイメージ上で検出された学習対象オブジェクトと第2フレームイメージ上で検出された学習対象オブジェクトの移動量を比較し、移動量が予め定められた基準以上である場合には、第2フレームイメージを学習対象フレームイメージとして選定する。移動量が予め定められた基準以上に該当しない場合には、第2フレームイメージを学習対象フレームイメージとして選定しない。
学習対象フレームイメージを選定する段階では、選定され抽出されたフレームイメージの全てを比較する。
従って、コンピュータは、第2フレームイメージを学習対象フレームイメージとして選定又は選定しないことに止まらず、再び第2フレームイメージ上で検出された学習対象オブジェクトと第3フレームイメージ上で検出された学習対象オブジェクトの移動量を比較し、移動量が予め定められた基準以上である場合には、第3フレームイメージを学習対象フレームイメージとして選定する。
フレームイメージ上のオブジェクトの移動量を測定し、学習対象フレームイメージとして選定又は選定しない段階は、第n(nは2以上の自然数)フレームイメージ上の検出された1つ以上の学習対象オブジェクトと第n-1フレームイメージ上の検出された1つ以上の学習対象オブジェクトの位置を比較するものであって、抽出された全てのフレームイメージ上の検出された1つ以上の学習対象オブジェクトに対して比較を実行して、学習対象フレームとして選定又は選定しないことを完了するまで繰り返される。
また、学習対象オブジェクト20は1つ以上であってもよく、コンピュータは、1つのフレームイメージ10上に複数の学習対象オブジェクト20がある場合にも、それぞれの学習対象オブジェクト20を比較して移動量を測定する。
1つのフレームイメージ10上に複数の学習対象オブジェクト20が含まれる場合には、一実施形態として、コンピュータは、複数の学習対象オブジェクト20全部の移動量を測定し、予め定められた数の学習対象オブジェクト20の移動量が予め定められた基準以上である場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
他の実施形態として、コンピュータは、複数の学習対象オブジェクト20全部の移動量を測定し、複数の学習対象オブジェクト20全部の移動量が予め定められた基準以上である場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
更に他の実施形態として、コンピュータは、複数の学習対象オブジェクト20のうち予め定められた数の学習対象オブジェクト20の移動量のみを測定し、測定した学習対象オブジェクト20の移動量のうち予め定められた数の学習対象オブジェクト20の移動量が予め定められた基準以上である場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
更に別の実施形態として、コンピュータは、複数の学習対象オブジェクト20のうち予め定められた数の学習対象オブジェクト20の移動量のみを測定し、測定した学習対象オブジェクト20全部の移動量が予め定められた基準以上である場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
図4の(c)の移動量の測定により選定された学習対象フレームイメージは、図4の(d)のように、抽出されたフレームイメージ11、12、13、14、15の中から学習対象フレームイメージ12、14として選定される。
図5は、学習用動画セットを生成する段階を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法を説明する順序図である。
図6は、本発明の学習対象フレームイメージが、学習対象オブジェクトが検出される前のフレームイメージである場合、学習用動画セットを生成する段階を説明する順序図である。
図5を参照すれば、本発明の動画の学習対象フレームイメージサンプリング方法は、選定された学習対象フレームイメージを加工処理して学習用動画セットを生成する段階(S700)を更に含む。
選定された学習対象フレームイメージを加工処理して学習用動画セットを生成する段階(S700)で、学習対象フレームイメージは、学習対象オブジェクトが検出される前のフレームイメージ又は学習対象オブジェクトが検出されたフレームイメージを含む。
図6を参照すれば、学習対象フレームイメージが、学習対象オブジェクトが検出される前のフレームイメージである場合、学習用動画セットを生成する段階(S700)は、学習対象フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する段階(S710)及び学習対象フレームイメージ上の検出された1つ以上の学習対象オブジェクトに対して注釈化処理を行う段階(S720)を含む。
学習対象フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する段階(S710)は、上述した図1の学習対象オブジェクトを検出する段階(S300)と同一に適用される。
学習対象オブジェクトが検出される前のフレームイメージである学習対象フレームイメージが、学習対象オブジェクトを検出する段階を経るようになるのは、その後に行われる学習対象フレームイメージ上の学習対象オブジェクトに対して注釈化処理を行い、これを用いて学習用動画セットを生成するためである。
学習対象フレームイメージ上の検出された1つ以上の学習対象オブジェクトに対して注釈化処理を行う段階(S720)で、注釈化処理は、ラベリング(labeling)、カラーリング(coloring)又はレイヤリング(layering)を含み、学習対象オブジェクトが何かを表示することは何れも注釈化処理に含めることができる。
学習対象フレームイメージ上の検出された1つ以上の学習対象オブジェクトは、例えば、ボックス(box)などの形態であって、領域が区分されるように表示されている。
従って、学習対象オブジェクトとして区分されて表示された領域に対して、各オブジェクトが何かについての説明を作成でき、ラベリング(labeling)は、簡単には1つの単語で作成でき、1つの単語ではない文章で詳細に作成することもできる。
1つ以上のユーザが直接ラベリングを行うことができ、コンピュータがユーザからラベリング命令を受けて入力することができる。
ユーザがラベリングを行う場合、ラベリングの方法としては、直接説明を作成するか、複数のタブの中から選択することもできる。
また、コンピュータが学習によって以前にラベリングされたオブジェクトと現在のラベリング対象オブジェクトが同一であると判断される場合には、コンピュータは、現在のラベリング対象オブジェクトに対して以前のオブジェクトと同様にラベリングすることができる。
カラーリング(coloring)又はレイヤリング(layering)によって注釈化処理を行う場合にも、ラベリングと同一に1つ以上のユーザが直接カラーリング又はレイヤリングを行うことができ、コンピュータがユーザからカラーリング又はレイヤリング命令を受けて入力することができる。
また、コンピュータが学習によって以前にカラーリング又はレイヤリングされたオブジェクトと現在のカラーリング又はレイヤリング対象オブジェクトが同一であると判断される場合には、コンピュータは、現在のカラーリング又はレイヤリング対象オブジェクトに対して以前のオブジェクトと同様にカラーリング又はレイヤリングすることができる。
一方、学習対象フレームイメージが、1つ以上の学習対象オブジェクトが検出されたフレームイメージである場合、学習用動画セットを生成する段階(S700)は、学習対象フレームイメージ上の検出された1つ以上の学習対象オブジェクトに対して注釈化処理を行う段階(S720)を含む。
検出された1つ以上の学習対象オブジェクトに対して注釈化処理を行う段階(S720)は、上述した内容と同一である。
本発明の他の実施形態に係る人工知能映像学習方法は、学習用動画セットを用いて人工知能映像学習を行う段階を含み、学習用動画は、上述した人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法によって生成された学習用動画である。
従って、学習用動画の生成のための方法は、上述した人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法と同一に適用され、本発明の他の実施形態に係る人工知能映像学習方法は、生成された学習用動画セットを用いて人工知能映像学習を行う。
本発明の更に他の実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、オリジナル動画受信部、フレームイメージ抽出部、学習対象オブジェクト検出部、背景除去部、オブジェクトの移動量測定部及び学習対象フレームイメージ選定部を含む。
オリジナル動画受信部は、人工知能映像学習のためにオリジナル動画を受信する。
フレームイメージ抽出部は、受信したオリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出する。
学習対象オブジェクト検出部は、オブジェクト検出アルゴリズムを用いてそれぞれのフレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する。
背景除去部は、それぞれの前記フレームイメージ上で学習対象オブジェクトを除いた背景を除去する。
オブジェクトの移動量測定部は、背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された1つ以上の学習対象オブジェクトの位置と第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された1つ以上の学習対象オブジェクトの位置を比較し、第nフレームイメージ上の検出された1つ以上の学習対象オブジェクトそれぞれの移動量を測定する。
学習対象フレームイメージ選定部は、第nフレームイメージ上の検出された1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して第nフレームイメージを学習対象フレームイメージとして選定する。
本発明の更に別の実施形態に係る人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置は、選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部を更に含む。
人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置の各構成は、図1〜図6の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法で説明した内容と同一に適用される。
本発明の更に他の実施形態に係る人工知能映像学習装置は、学習用動画セットを用いて人工知能映像学習を行う人工知能映像学習実行部を含み、学習用動画は、上述した人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置により生成される学習用動画である。
本発明の実施形態と関連して説明された方法又はアルゴリズムの段階は、ハードウェアで直接実現するか、ハードウェアにより実行されるソフトウェアモジュールで実現するか、又はこれらの結合により実現することができる。ソフトウェアモジュールは、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、脱着型ディスク、CD-ROM又は本発明が属する技術分野において周知されている任意の形態のコンピュータ読み取り可能な記録媒体に存在することもできる。
以上、添付の図面を参照して本発明の実施形態を説明したが、本発明が属する技術分野における通常の技術者は、本発明がその技術的思想や必須の特徴を変更することなく、他の具体的な形態で実施され得ることが理解できるはずである。従って、以上で記述した実施形態はあらゆる面で例示的なものであり、制限的ではないものとして理解すべきである。
10 フレームイメージ
20 学習対象オブジェクト
30 背景

Claims (10)

  1. コンピュータにより実行される方法であって、
    人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、
    受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、
    オブジェクト検出アルゴリズムを用いて、それぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、
    それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、
    背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、
    前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階と、
    を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
  2. 前記学習対象フレームイメージ選定段階は、
    検出された前記1つ以上の学習対象オブジェクトのうち予め定められた数以上の前記学習対象オブジェクトの移動量が前記予め定められた基準以上である場合には、前記第nフレームイメージを前記学習対象フレームイメージとして選定し、そうでない場合には、前記第nフレームイメージを前記学習対象フレームイメージとして選定しないことを特徴とする請求項1に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
  3. 選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階を更に含むことを特徴とする請求項1に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
  4. 前記学習用動画セット生成段階で前記学習対象フレームイメージは、
    前記フレームイメージ抽出段階で前記1つ以上の学習対象オブジェクトが検出される前のフレームイメージであり、
    前記学習用動画セット生成段階は、
    前記学習対象フレームイメージ上で前記予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出するオブジェクト検出段階と、
    前記学習対象フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階と、
    を更に含むことを特徴とする請求項3に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
  5. 前記学習用動画セット生成段階で前記学習対象フレームイメージは、
    前記学習対象オブジェクト検出段階で前記1つ以上の学習対象オブジェクトが検出されたフレームイメージであり、
    前記学習用動画セット生成段階は、
    前記学習対象フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトに対して注釈化処理を行う注釈化処理段階を更に含むことを特徴とする請求項3に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法。
  6. コンピュータにより実行される方法であって、
    学習用動画セットを用いて人工知能映像学習を行う段階を含み、
    前記学習用動画は、
    人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信段階と、
    受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出段階と、
    オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出段階と、
    それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去段階と、
    背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定段階と、
    前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定段階と、
    選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成段階と、
    を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法によって生成される人工知能映像学習方法。
  7. 人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、
    受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、
    オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、
    それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、
    背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、
    前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部と、
    を含む人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置。
  8. 選定された前記学習対象フレームイメージを加工処理して学習用動画セットを生成する学習用動画セット生成部を更に含むことを特徴とする請求項7に記載の人工知能映像学習のための動画の学習対象フレームイメージサンプリング装置。
  9. 学習用動画セットを生成する学習対象フレームイメージサンプリング装置と、
    前記学習用動画セットを用いて人工知能映像学習を行う人工知能映像学習実行部を含む人工知能映像学習装置と、を備え、
    前記学習対象フレームイメージサンプリング装置は、
    人工知能映像学習のためのオリジナル動画を受信するオリジナル動画受信部と、
    受信した前記オリジナル動画から予め定められた時間区間当たりに予め定められた数のフレームイメージを抽出するフレームイメージ抽出部と、
    オブジェクト検出アルゴリズムを用いてそれぞれの前記フレームイメージ上で予め定められた1つ以上の類型の1つ以上の学習対象オブジェクトを検出する学習対象オブジェクト検出部と、
    それぞれの前記フレームイメージ上で前記学習対象オブジェクトを除いた背景を除去する背景除去部と、
    背景が除去された第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、前記第nフレームイメージの直前の背景が除去された第n-1フレームイメージ上の検出された前記1つ以上の学習対象オブジェクトの位置と、を比較し、前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量を測定するオブジェクトの移動量測定部と、
    前記第nフレームイメージ上の検出された前記1つ以上の学習対象オブジェクトそれぞれの移動量の測定結果と予め定められた基準を比較して前記第nフレームイメージを学習対象フレームイメージとして選定する学習対象フレームイメージ選定部と、
    選定された前記学習対象フレームイメージを加工処理して前記学習用動画セットを生成する学習用動画セット生成部と、
    を含む、
    人工知能映像学習システム
  10. ハードウェアであるコンピュータを用いて、請求項1〜5の何れか一項に記載の方法を実行するために記録媒体に格納された人工知能映像学習のための動画の学習対象フレームイメージサンプリングプログラム。
JP2019012692A 2018-09-27 2019-01-29 人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、装置、プログラム及びその映像学習方法 Active JP6715358B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180114986A KR102015939B1 (ko) 2018-09-27 2018-09-27 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법
KR10-2018-0114986 2018-09-27

Publications (2)

Publication Number Publication Date
JP2020052999A JP2020052999A (ja) 2020-04-02
JP6715358B2 true JP6715358B2 (ja) 2020-07-01

Family

ID=67775356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019012692A Active JP6715358B2 (ja) 2018-09-27 2019-01-29 人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、装置、プログラム及びその映像学習方法

Country Status (4)

Country Link
US (1) US11295169B2 (ja)
JP (1) JP6715358B2 (ja)
KR (1) KR102015939B1 (ja)
WO (1) WO2020067632A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179159B (zh) * 2019-12-31 2024-02-20 北京金山云网络技术有限公司 消除视频中目标影像的方法、装置、电子设备及存储介质
KR102405297B1 (ko) * 2020-02-19 2022-06-07 주식회사 에이모 인공지능을 이용한 크라우드 아웃소싱 작업 검수 대상 샘플링 방법 및 장치
KR20230017628A (ko) 2021-07-28 2023-02-06 김남식 인공지능 학습용 이미지 추출 및 학습 플랫폼
KR102510733B1 (ko) * 2022-08-10 2023-03-16 주식회사 에이모 영상에서 학습 대상 이미지 프레임을 선별하는 방법 및 장치
KR20240061407A (ko) 2022-10-31 2024-05-08 (주)비타소프트 고화질 동영상으로부터 효율적으로 배경을 제거하기 위한 인공지능 기술 기반의 고해상도 배경 제거 방법
CN115798020A (zh) * 2023-01-29 2023-03-14 北京林业大学 一种基于人工智能的中小学生学习投入度检测方法与系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944681A (ja) * 1995-08-01 1997-02-14 Matsushita Electric Ind Co Ltd 移動物体領域検出装置
KR101970611B1 (ko) * 2012-08-14 2019-04-19 에스케이 텔레콤주식회사 프레임률에 따라 학습률을 가변하는 이동객체 검출장치 및 방법
JP2014085795A (ja) * 2012-10-23 2014-05-12 Toshiba Corp 学習画像収集装置、学習装置及び対象物検出装置
KR101537559B1 (ko) * 2013-12-30 2015-07-20 전자부품연구원 객체 검출 장치, 차량용 객체 검출 장치 및 이들의 방법
JP6188592B2 (ja) * 2014-01-21 2017-08-30 三菱電機株式会社 物体検出装置、物体検出方法、および物体検出プログラム
US10083378B2 (en) * 2015-12-28 2018-09-25 Qualcomm Incorporated Automatic detection of objects in video images
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
JP6617085B2 (ja) * 2016-08-31 2019-12-04 株式会社デンソーアイティーラボラトリ 物体状況推定システム、物体状況推定装置、物体状況推定方法、及び物体状況推定プログラム
JP2018081545A (ja) * 2016-11-17 2018-05-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像データ抽出装置及び画像データ抽出方法
KR101888647B1 (ko) 2017-01-25 2018-08-14 서울대학교산학협력단 이미지 분류 장치 및 방법
KR101900185B1 (ko) * 2017-02-20 2018-09-18 연세대학교 산학협력단 객체 인식을 위한 영상 학습 방법 및 장치
US10861168B2 (en) * 2017-09-07 2020-12-08 Comcast Cable Communications, Llc Relevant motion detection in video
US11025942B2 (en) * 2018-02-08 2021-06-01 Samsung Electronics Co., Ltd. Progressive compressed domain computer vision and deep learning systems
US11450009B2 (en) * 2018-02-26 2022-09-20 Intel Corporation Object detection with modified image background

Also Published As

Publication number Publication date
US11295169B2 (en) 2022-04-05
JP2020052999A (ja) 2020-04-02
KR102015939B1 (ko) 2019-08-28
WO2020067632A1 (ko) 2020-04-02
US20210241031A1 (en) 2021-08-05

Similar Documents

Publication Publication Date Title
JP6715358B2 (ja) 人工知能映像学習のための動画の学習対象フレームイメージサンプリング方法、装置、プログラム及びその映像学習方法
CN106845374B (zh) 基于深度学习的行人检测方法及检测装置
CN106980871B (zh) 应用到道路场景图像的低保真分类器和高保真分类器
CN109190508B (zh) 一种基于空间坐标系的多摄像头数据融合方法
US20180053318A1 (en) Image Target Tracking Method and System Thereof
CN112614119B (zh) 医学图像感兴趣区域可视化方法、装置、存储介质和设备
JP2018535496A (ja) ビデオ録画方法、サーバー、システム及び記憶媒体
CN110163188B (zh) 视频处理以及在视频中嵌入目标对象的方法、装置和设备
JP6700373B2 (ja) ビデオ動画の人工知能のための学習対象イメージパッケージング装置及び方法
CN110648331B (zh) 用于医学图像分割的检测方法、医学图像分割方法及装置
JP2021533506A (ja) ビデオ異常検出のためのシステム及び方法並びに記憶媒体
JP2018181273A (ja) 画像処理装置及びその方法、プログラム
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
Modasshir et al. Autonomous 3d semantic mapping of coral reefs
CN113780257B (zh) 多模态融合弱监督车辆目标检测方法及系统
KR102195850B1 (ko) 딥러닝 기반 혈관 구분 방법 및 시스템
Zhang et al. TPMv2: An end-to-end tomato pose method based on 3D key points detection
CN109493370A (zh) 一种基于空间偏移学习的目标跟踪方法
CN111339934A (zh) 一种融合图像预处理与深度学习目标检测的人头检测方法
CN113924580A (zh) 深度神经网络可视化
CN111652080A (zh) 基于rgb-d图像的目标跟踪方法和装置
CN112906677B (zh) 基于改进型ssd网络的行人目标检测与重识别方法
Krajewski et al. VeGAN: Using GANs for augmentation in latent space to improve the semantic segmentation of vehicles in images from an aerial perspective
JP2019016983A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
Vasudevan et al. Multi-layered Object Identification and Detection Using Deep CNN Detector

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200608

R150 Certificate of patent or registration of utility model

Ref document number: 6715358

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250