JP6681965B2 - Apparatus and method for extracting learning target image for autonomous driving - Google Patents
Apparatus and method for extracting learning target image for autonomous driving Download PDFInfo
- Publication number
- JP6681965B2 JP6681965B2 JP2018218142A JP2018218142A JP6681965B2 JP 6681965 B2 JP6681965 B2 JP 6681965B2 JP 2018218142 A JP2018218142 A JP 2018218142A JP 2018218142 A JP2018218142 A JP 2018218142A JP 6681965 B2 JP6681965 B2 JP 6681965B2
- Authority
- JP
- Japan
- Prior art keywords
- learning target
- image
- learning
- original road
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000005070 sampling Methods 0.000 claims description 76
- 238000000605 extraction Methods 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Description
本発明は、自律走行のための学習対象イメージ抽出装置及び方法に関する。 The present invention relates to a learning target image extraction device and method for autonomous driving.
近年、人工知能(Artificial Intelligence、AI)のトレンドは、音声及びテキスト認識からビデオ映像認識へ技術的に変わりつつある。ビデオ映像認識は、自律走行自動車の制御、ブラックボックス映像、CCTV映像の分析及び医療映像の判読などに用いることができ、多様な産業において波及効果が非常に大きい。その中でも、レベル4の自律走行自動車の研究開発において、全世界的に1、600億km分のビデオ映像データが必要であり、都市別に1億km分の映像が必要であると判断されている。また、ビデオ映像の認識は、収集されたビデオ映像データを、映像の知能化に用いるために別途の加工作業を必要とするが、加工作業は人の認知能力に基づいて手作業で行われ、多くの時間とコストが発生する。 In recent years, the trend of artificial intelligence (AI) is technically changing from voice and text recognition to video image recognition. Video image recognition can be used for controlling autonomous vehicles, analyzing black box images, CCTV images, and interpreting medical images, and has a great ripple effect in various industries. Among them, in the research and development of level 4 autonomous vehicles, it is judged that 160 billion km of video image data is required worldwide and 100 million km of image is required for each city. . In addition, recognition of video images requires a separate processing operation to use the collected video image data for intelligence of the images, but the processing operations are performed manually based on human cognitive ability, It takes a lot of time and cost.
そこで、本発明は、上記事情に鑑みてなされたものであって、その目的は、自律走行のための学習対象イメージ抽出装置及び方法を提供することにある。 Therefore, the present invention has been made in view of the above circumstances, and an object thereof is to provide a learning target image extraction device and method for autonomous traveling.
本発明が解決しようとする課題は、上記された課題に限定されず、言及されていない他の課題は、以下の記載から通常の技術者が明確に理解できるはずである。 Problems to be solved by the present invention are not limited to the problems described above, and other problems not mentioned above should be clearly understandable by a person skilled in the art from the following description.
上述した課題を解決するための本発明の一側面に係る自律走行のための学習対象イメージ抽出装置及び方法は、オリジナル道路走行映像を受信するオリジナル動画受信段階と、前記オリジナル道路走行映像のメタデータに基づいて抽出数を決定し、前記オリジナル道路走行映像から前記決定された数のフレームイメージを抽出する1次サンプリング段階と、前記決定された数のフレームイメージそれぞれが第1学習対象オブジェクトを含んでいるか否か、及び、前記第1学習対象オブジェクトの移動量に基づいて、前記決定された数のフレームイメージから1つ以上の学習対象フレームイメージを抽出する2次サンプリング段階と、を含み、前記オリジナル道路走行映像の前記メタデータは、前記オリジナル道路走行映像と関連する前記車両のGPS情報、前記車両の移動速度情報及び前記オリジナル道路走行映像の撮影時間のうち1つ以上を含む。 An apparatus and method for extracting a learning target image for autonomous driving according to an aspect of the present invention for solving the above-described problems include an original moving image receiving step of receiving an original road driving image and metadata of the original road driving image. A primary sampling step of determining an extraction number based on the first road image and extracting the determined number of frame images from the original road running image; and each of the determined number of frame images includes a first learning target object. Whether or not there is a second sampling step of extracting one or more learning target frame images from the determined number of frame images based on the movement amount of the first learning target object. The metadata of the road driving image is related to the vehicle associated with the original road driving image. GPS information, including one or more of the imaging time of the moving speed information and the original road traveling image of the vehicle.
一実施形態において、前記1次サンプリング段階は、前記オリジナル道路走行映像と関連する地域の密集変数を算出する密集変数算出段階を更に含み、前記オリジナル道路走行映像と関連する地域の前記密集変数に更に基づいて前記抽出数を決定する。 In one embodiment, the primary sampling step further includes a congestion variable calculation step of calculating a congestion variable of an area associated with the original road driving image, and further including a congestion variable calculation step of calculating a congestion variable of the area associated with the original road traveling image. Based on this, the number of extractions is determined.
一実施形態において、前記密集変数算出段階は、前記オリジナル道路走行映像と関連する地域の人口統計データ又は車両統計データのうち1つ以上を用いて、前記オリジナル道路走行映像と関連する地域の密集変数を算出する。 In one embodiment, the crowded variable calculating step uses one or more of demographic data or vehicle statistical data of a region associated with the original road driving image to collect a crowded variable of the region associated with the original road driving image. To calculate.
一実施形態において、前記2次サンプリング段階は、オブジェクト検出アルゴリズムを用いて、それぞれの前記決定された数のフレームイメージ上で予め定められた1つ以上の類型の1つ以上の前記第1学習対象オブジェクトを検出する第1学習対象オブジェクト検出段階と、第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の第1学習対象オブジェクトの位置と、前記第nフレームイメージの直前の第n−1フレームイメージ上の検出された前記1つ以上の第1学習対象オブジェクトの位置と、を比較し、前記第nフレームイメージ上の検出された前記1つ以上の第1学習対象オブジェクトそれぞれの移動量を測定する第1学習対象オブジェクト移動量測定段階を含む。 In one embodiment, the secondary sampling step uses an object detection algorithm to generate one or more first learning targets of one or more predetermined types on each of the determined number of frame images. A first learning target object detecting step of detecting an object, a detected position of the one or more first learning target objects on the n-th (n is a natural number of 2 or more) frame image, and the n-th frame image The position of the one or more first learning target objects detected on the immediately preceding (n−1) th frame image is compared, and the detected one or more first learning targets on the nth frame image are compared. The method includes a first learning target object movement amount measuring step of measuring a movement amount of each object.
一実施形態において、前記2次サンプリング段階は、それぞれの前記決定された数のフレームイメージ上で前記第1学習対象オブジェクトを除外した背景を除去する背景除去段階を更に含む。 In one embodiment, the secondary sampling step further includes a background removal step of removing a background excluding the first learning target object on each of the determined number of frame images.
一実施形態において、前記1つ以上の学習対象フレームイメージを加工処理して学習用データセットを生成する学習用データセット生成段階を更に含む。 In one embodiment, the method further includes a learning data set generation step of processing the one or more learning target frame images to generate a learning data set.
一実施形態において、前記学習用データセット生成段階は、前記学習対象フレームイメージ上で予め定められた1つ以上の類型の1つ以上の第2学習対象オブジェクトを検出する第2学習対象オブジェクト検出段階と、前記学習対象フレームイメージ上の検出された前記1つ以上の第2学習対象オブジェクトに対して注釈化処理を行う学習対象オブジェクト注釈化段階と、を含む。 In one embodiment, the learning data set generating step includes a second learning target object detecting step of detecting one or more second learning target objects of one or more predetermined types on the learning target frame image. And a learning target object annotating step of performing annotation processing on the one or more second learning target objects detected on the learning target frame image.
一実施形態において、前記学習用データセット生成段階は、前記学習用データセットの有効性を検証する有効性検証段階を更に含む。 In one embodiment, the learning data set generating step further includes a validity verification step of verifying the validity of the learning data set.
上述した課題を解決するための本発明の他の側面に係る自律走行のための学習対象イメージ抽出装置は、自律走行のための人工知能学習対象イメージ生成装置において、オリジナル道路走行映像を受信するオリジナル道路走行映像受信部、前記オリジナル道路走行映像のメタデータに基づいて抽出数を決定し、前記オリジナル道路走行映像から前記決定された数のフレームイメージを抽出する第1サンプリング部、及び前記決定された数のフレームイメージそれぞれが第1学習対象オブジェクトを含んでいるか否か、及び、前記第1学習対象オブジェクトの移動量に基づいて、前記決定された数のフレームイメージから1つ以上の学習対象フレームイメージを抽出する第2サンプリング部を含み、前記オリジナル道路走行映像の前記メタデータは、前記オリジナル道路走行映像と関連する前記車両のGPS情報、前記車両の移動速度情報及び前記オリジナル道路走行映像の撮影時間のうち1つ以上を含む。 A learning target image extracting device for autonomous traveling according to another aspect of the present invention for solving the above-mentioned problem is an artificial intelligence learning target image generating device for autonomous traveling, which receives an original road traveling image. A road traveling image receiving unit, a first sampling unit that determines an extraction number based on the metadata of the original road traveling image, and extracts the determined number of frame images from the original road traveling image, and the determined One or more learning target frame images from the determined number of frame images based on whether or not each of the number of frame images includes the first learning target object and the movement amount of the first learning target object. And a second sampling unit for extracting the meta data of the original road driving image. Includes one or more of the original road travel video and related GPS information of the vehicle, the imaging time of the moving speed information and the original road traveling image of the vehicle.
本発明のその他の具体的な事項は、詳細な説明及び図面に含まれている。 Other specific details of the invention are included in the detailed description and drawings.
本発明の自律走行のための学習対象イメージ抽出装置及び方法によれば、第1サンプリング部は、オリジナル道路走行映像のメタデータに基づいてオリジナル道路走行映像を1次サンプリングするため、その後に行われる2次サンプリング段階及び学習用データセット生成段階でデータを処理するのにかかるコストと時間を画期的に短縮でき、自律走行のための学習対象イメージを抽出する効率を上げることができるという効果を奏する。 According to the learning target image extraction device and method for autonomous driving of the present invention, the first sampling unit performs primary sampling of the original road traveling image based on the metadata of the original road traveling image, and therefore is performed thereafter. The cost and time required for processing the data in the secondary sampling stage and the learning data set generating stage can be remarkably reduced, and the efficiency of extracting the learning target image for autonomous traveling can be improved. Play.
また、第2サンプリング部は、第1学習対象オブジェクトの移動量の基準を設定し、事前に決定された基準以上のものに該当するフレームイメージを学習対象フレームイメージとして選定することによって、不要なフレームイメージは低減し、必要なフレームイメージのみを選定することができる。 In addition, the second sampling unit sets a reference of the movement amount of the first learning target object and selects a frame image corresponding to a predetermined reference or more as a learning target frame image, thereby eliminating unnecessary frames. The image is reduced and only the required frame image can be selected.
更に、1次サンプリング及び2次サンプリングを通じて核心的なフレームイメージのみを学習対象フレームイメージとして抽出することによって、学習対象フレームイメージの数が少ないにも拘らず、サンプリングのないフレームイメージに対して同等な水準の性能を有する自律走行のための学習対象イメージが抽出されるようにすることができる。 Further, by extracting only the core frame images as the learning target frame images through the primary sampling and the secondary sampling, it is possible to obtain the same frame images without sampling, although the number of learning target frame images is small. A learning target image for autonomous driving having a level of performance can be extracted.
本発明の効果は、上記された効果に限定されず、言及されていない他の効果は、以下の記載から通常の技術者が明確に理解できるはずである。 The effects of the present invention are not limited to the effects described above, and other effects that are not mentioned should be clearly understood by those of ordinary skill in the art from the following description.
本発明の利点及び特徴、そしてそれらを達成する方法は、添付の図面と共に詳細に後述されている実施形態を参照すれば明確になるはずである。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態で実現することができる。但し、本実施形態は、本発明の開示を完全なものにし、本発明が属する技術分野における通常の技術者に本発明の範囲を完全に理解させるために提供されるものであり、本発明は特許請求の範囲により定義されるに過ぎない。 The advantages and features of the present invention, and the manner of achieving them, will be apparent with reference to the embodiments described in detail below in connection with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, and can be implemented in various forms different from each other. However, the present embodiment is provided to complete the disclosure of the present invention and to allow a person skilled in the art to which the present invention belongs to fully understand the scope of the present invention. It is defined only by the claims that follow.
本明細書で用いられる用語は、実施形態を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数型は特に言及しない限り複数型も含む。明細書で用いられる「含む(comprises)」及び/又は「含んでいる(comprising)」は、言及された構成要素以外に1つ以上の他の構成要素の存在又は追加を排除しない。明細書全体に亘って同一の図面符号は同一の構成要素を示し、「及び/又は」は言及された構成要素のそれぞれ及び1つ以上のあらゆる組み合わせを含む。たとえ「第1」「第2」などが多様な構成要素を叙述するために用いられていても、これらの構成要素はこれらの用語により限定されないのは当然である。これらの用語は、単に1つの構成要素を他の構成要素と区別するために用いる。従って、以下で言及される第1構成要素は、本発明の技術的思想内で第2構成要素であり得ることは当然である。 The terms used in the present specification are for the purpose of describing the embodiments and are not intended to limit the present invention. In this specification, the singular forms also include the plural forms unless otherwise specified. As used herein, “comprises” and / or “comprising” does not exclude the presence or addition of one or more other components than those mentioned. Like reference numerals refer to like elements throughout the specification, and "and / or" includes each and every combination of one or more of the referenced elements. Of course, even though "first", "second", etc. are used to describe various components, these components are not limited by these terms. These terms are only used to distinguish one element from another. Therefore, it goes without saying that the first component referred to below can be the second component within the technical idea of the present invention.
他の定義がなければ、本明細書で用いられる全ての用語(技術及び科学的用語を含む)は、本発明が属する技術分野における通常の技術者が共通して理解できる意味として使用され得る。また、一般に用いられる辞典に定義されている用語は、明白に特に定義されていない限り、理想的に又は過度に解釈されない。 Unless defined otherwise, all terms (including technical and scientific terms) used herein have the meaning commonly understood by one of ordinary skill in the art to which this invention belongs. Also, terms defined in commonly used dictionaries are not to be interpreted ideally or excessively, unless explicitly defined otherwise.
以下、添付の図面を参照し、本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
図1は、本発明の一実施形態に係る自律走行のための学習対象イメージ抽出方法の概略的なフローチャートである。 FIG. 1 is a schematic flowchart of a learning target image extraction method for autonomous driving according to an exemplary embodiment of the present invention.
図1を参照すれば、自律走行のための学習対象イメージ抽出方法は、オリジナル動画受信段階(S100)と、1次サンプリング段階(S200)と、2次サンプリング段階(S300)と、を含む。 Referring to FIG. 1, the learning target image extraction method for autonomous driving includes an original moving image receiving step (S100), a primary sampling step (S200), and a secondary sampling step (S300).
段階S100で、オリジナル道路走行映像受信部610は、オリジナル道路走行映像を受信する。オリジナル道路走行映像は、車両内外部、車道などに設けられたカメラで収集される動画である。例えば、自動車の自律走行のための人工知能映像学習データを生成するためにオリジナル道路走行映像を受信する場合、オリジナル道路走行映像は、自律走行のための学習データの生成のためにカメラを取り付けた自動車から獲得した動画など、自律走行のための学習データの生成が可能な映像が全て含まれることができ、これに限定されない。
In operation S100, the original road running
段階S200で、第1サンプリング部620は、オリジナル道路走行映像のメタデータに基づいて抽出数を決定し、オリジナル道路走行映像から決定された数のフレームイメージを抽出する。オリジナル道路走行映像のメタデータは、オリジナル道路走行映像と関連する車両のGPS情報、車両の移動速度情報、及び、オリジナル道路走行映像の撮影時間のうち1つ以上を含む。
In operation S200, the
一実施形態において、第1サンプリング部620は、オリジナル道路走行映像のメタデータの車両のGPS情報に基づいて、車両のGPS情報が事前に決定された地域に含まれる場合、該当地域に相応する数のフレームイメージを抽出する。例えば、第1サンプリング部620は、車両が繁華なA地域にある場合、1秒当たりに30フレームを抽出し、車両が閑静なB地域にある場合、1秒当たりに15フレームを抽出できる。
In an exemplary embodiment, the
一実施形態において、第1サンプリング部620は、オリジナル道路走行映像のメタデータの車両移動速度情報に基づいて、車両の移動速度が事前に決定された速度範囲に含まれる場合、該当速度範囲に相応する数のフレームイメージを抽出する。例えば、第1サンプリング部620は、車両の移動速度が比較的高速な100km/hである場合、1秒当たりに30フレームを抽出し、車両の移動速度が比較的低速な50km/hである場合、1秒当たりに15フレームを抽出できる。
In an exemplary embodiment, the
一実施形態において、第1サンプリング部620は、オリジナル道路走行映像のメタデータの撮影時間に基づいて、車両の移動時間が事前に決定された時間範囲に含まれる場合、該当時間範囲に相応する数のフレームイメージを抽出する。例えば、第1サンプリング部620は、車両の移動時間が混雑する出/退勤時間である7時から9時、又は、18時から20時までの場合、1秒当たりに30フレームを抽出し、車両の移動時間が閑散な明け方である1時から5時までの場合、1秒当たりに15フレームを抽出できる。
In an exemplary embodiment, the
他の実施形態において、第1サンプリング部620は、オリジナル道路走行映像のメタデータの撮影時間に相応する天気情報に基づいて、天気情報が事前に決定された天気に含まれる場合、該当天気に相応する数のフレームイメージを抽出する。例えば、第1サンプリング部620は、撮影時間に相応する天気情報が曇り、強風、暴雨、大雪などである場合、1秒当たりに30フレームを抽出し、天気情報が晴れである場合、1秒当たりに15フレームを抽出できる。
In another embodiment, if the weather information is included in the predetermined weather based on the weather information corresponding to the shooting time of the metadata of the original road driving image, the
段階S300で、第2サンプリング部630は、決定された数のフレームイメージそれぞれが第1学習対象オブジェクトを含んでいるか否か、及び、第1学習対象オブジェクトの移動量に基づいて、決定された数のフレームイメージから1つ以上の学習対象フレームイメージを抽出する。2次サンプリング段階(S300)は、図5で更に具体的に説明する。
In operation S300, the
図2は、本発明の一実施形態に係る図1の1次サンプリング段階により抽出されたフレームイメージの例示図である。 FIG. 2 is an exemplary diagram of a frame image extracted by the primary sampling stage of FIG. 1 according to an exemplary embodiment of the present invention.
図2を参照すれば、フレームイメージは、1次サンプリング段階(S200)により、例えば、60fps(frame per second)、30fps、又は、1fpsにて抽出できる。 Referring to FIG. 2, the frame image may be extracted at a rate of 60 fps (frame per second), 30 fps, or 1 fps according to the first sampling step (S200).
段階S200で、第1サンプリング部620は、オリジナル道路走行映像のメタデータに基づいて抽出数を決定し、オリジナル道路走行映像から決定された数のフレームイメージを抽出する。例えば、オリジナル道路走行映像のフレームレート(frame rate)が60fpsである場合、第1サンプリング部620は、オリジナル道路走行映像のメタデータによって、1秒当たりに60個、30個又は1個のフレームを抽出できる。
In operation S200, the
段階S200で、第1サンプリング部620は、オリジナル道路走行映像のメタデータに基づいてオリジナル道路走行映像を1次サンプリングするため(即ち、不要なデータを除去して2次サンプリング段階に伝達されるデータの量を減少させるため)、後に行われる2次サンプリング段階(S300)及び学習用データセット生成段階(S500)でデータを処理するのにかかるコストと時間を画期的に短縮することができる。
In operation S200, the
図3は、図1の2次サンプリング段階の概略的なフローチャートである。 FIG. 3 is a schematic flowchart of the secondary sampling stage of FIG.
図3を参照すれば、2次サンプリング段階(S300)は、第1学習対象オブジェクト検出段階(S310)と、第1学習対象オブジェクト移動量測定段階(S320)と、を含む。 Referring to FIG. 3, the secondary sampling step (S300) includes a first learning target object detecting step (S310) and a first learning target object movement amount measuring step (S320).
段階S310で、第2サンプリング部630は、オブジェクト検出アルゴリズムを用いて、それぞれの決定された数のフレームイメージ上で予め定められた1つ以上の類型の1つ以上の第1学習対象オブジェクトを検出する。
In operation S310, the
第1学習対象オブジェクトは、フレームイメージに含まれているオブジェクトである。フレームイメージには1つ以上の第1学習対象オブジェクトが含まれ、1つ以上の類型の第1学習対象オブジェクトが含まれる。例えば、第1学習対象オブジェクトは、人、自動車、自転車、建物、電信柱、オートバイ、木、花、子犬、猫、道路、交通表示板、過速防止用段差、ロードコーン、車線などを含むことができるが、前記例に限定されず、オブジェクトとして区別が可能なものを全て含む。また、第1学習対象オブジェクトの類型は、オブジェクトの前面、後面、右側面、左側面などを含むが、各学習対象オブジェクトの類型は、前記例に限定されず、前記例よりも細分化させて区分することができ、前記例とは全く異なる類型として区分することができる。 The first learning target object is an object included in the frame image. The frame image includes one or more first learning target objects, and includes one or more types of first learning target objects. For example, the first learning target object includes a person, an automobile, a bicycle, a building, a telephone pole, a motorcycle, a tree, a flower, a puppy, a cat, a road, a traffic display board, an overspeed preventing step, a road cone, a lane, and the like. However, the present invention is not limited to the above example, and includes all objects that can be distinguished as objects. Further, the type of the first learning target object includes the front surface, the rear surface, the right side surface, the left side surface, etc. of the object, but the type of each learning target object is not limited to the above example, and can be subdivided from the above example. It can be classified and can be classified as a completely different type from the above example.
第1学習対象オブジェクト検出で1つ以上の類型の1つ以上のオブジェクトを検出することは、オブジェクト検出アルゴリズムを用いて検出することであり、オブジェクト検出アルゴリズムは、R-CNNモデルを含むことができるが、これに限定されない。 Detecting one or more objects of one or more types in the first learning target object detection is detection using an object detection algorithm, and the object detection algorithm may include an R-CNN model. However, it is not limited to this.
段階S320で、第2サンプリング部630は、第n(nは2以上の自然数)フレームイメージ上の検出された1つ以上の第1学習対象オブジェクトの位置と、第nフレームイメージの直前の第n−1フレームイメージ上の検出された1つ以上の第1学習対象オブジェクトの位置を比較し、第nフレームイメージ上の検出された1つ以上の第1学習対象オブジェクトそれぞれの移動量を測定する。
In operation S320, the
学習対象フレームイメージを抽出する方法は、検出された1つ以上の第1学習対象オブジェクトの移動量が事前に決定された基準以上かを判断し、検出された1つ以上の第1学習対象オブジェクトのうち予め定められた数以上の第1学習対象オブジェクトの移動量が事前に決定された基準以上である場合、該当フレームイメージを学習対象フレームイメージとして選定する。しかし、検出された1つ以上の第1学習対象オブジェクトのうち予め定められた数以上の第1学習対象オブジェクトの移動量が事前に決定された基準以上に該当しない場合、該当フレームイメージを学習対象フレームイメージとして選定しない。 The method of extracting the learning target frame image is performed by determining whether the movement amount of the detected one or more first learning target objects is equal to or more than a predetermined reference and detecting the detected one or more first learning target objects. If the amount of movement of the first learning target object equal to or more than a predetermined number is equal to or greater than the predetermined reference, the corresponding frame image is selected as the learning target frame image. However, if the movement amount of a predetermined number or more of the first learning target objects among the detected one or more first learning target objects does not correspond to a predetermined criterion or more, the corresponding frame image is targeted for learning. Do not select as a frame image.
第1学習対象オブジェクトの移動量の基準を設定し、事前に決定された基準以上のものに該当するフレームイメージを学習対象フレームイメージとして選定することによって、不要なフレームイメージは低減し、必要なフレームイメージのみを選定することができる。 By setting the reference of the moving amount of the first learning target object and selecting the frame image corresponding to the predetermined reference or more as the learning target frame image, unnecessary frame images are reduced and necessary frame images are reduced. Only images can be selected.
従って、学習対象フレームイメージは、抽出されたフレームイメージの全てが学習対象フレームイメージとして選定されず、オブジェクトの移動量が少なく、学習において影響を大きく及ぼさないフレームイメージを除いて残ったフレームイメージのみが、学習対象フレームイメージとして選定されることによって、以後の段階で学習データセットの量を低減することができる。従って、人工知能モジュールを学習するにおいて、量が減少した学習データセットを用いて、学習にかかる時間が短縮されることができる。 Therefore, in the learning target frame image, all the extracted frame images are not selected as the learning target frame images, the moving amount of the object is small, and only the remaining frame images are excluded, which does not have a great influence on the learning. , The amount of the learning data set can be reduced in the subsequent stages by selecting the learning target frame image. Therefore, in learning the artificial intelligence module, the learning time can be shortened by using the learning data set having the reduced amount.
他の実施形態において、第2サンプリング部630は、フレームイメージから交通統制オブジェクトの有無を判断し、該当交通統制オブジェクトが事前に決定された基準に符合する場合、交通統制オブジェクトに更に基づいて、フレームイメージから1つ以上の学習対象フレームイメージを抽出する。交通統制オブジェクトは、フレームイメージ上の信号機、交通安全標識、交通安全線、及び、道路附帯施設などであり得るが、これに限定されない。例えば、第2サンプリング部630は、フレームイメージから信号機が検出され、該当信号機が赤色から緑色へ変わる場合、該当フレームイメージ全部を学習対象フレームとして抽出し、該当信号機が赤色に維持される場合、1秒当たりのフレームイメージの数を半分にして該当フレームイメージの中から一部のみを学習対象フレームとして抽出できる。
In another embodiment, the
他の実施形態において、第2サンプリング部630は、オリジナル道路走行映像を撮影する時に、車両の内部音及び外部音のうち少なくとも1つを抽出し、車両の内部音及び外部音の周波数が所定の基準範囲にある場合、車両の内部音及び外部音のうち少なくとも1つに更に基づいて、フレームイメージから1つ以上の学習対象フレームイメージを抽出する。例えば、第2サンプリング部630は、ブラックボックスの道路走行映像からオーディオデータを抽出し、該当オーディオデータから悲鳴の声が検出される場合、1秒当たりに30個の学習対象フレームを抽出し、何らの音も検出されない場合、1秒当たりに15個の学習対象フレームを抽出できる。
In another embodiment, the
第1学習対象オブジェクト移動量測定段階(S320)は、図4で具体的に説明する。 The first learning target object movement amount measuring step (S320) will be described in detail with reference to FIG.
図4は、図1の2次サンプリング段階で第1学習対象オブジェクトの移動量を測定するための方法を説明する例示図である。 FIG. 4 is an exemplary diagram illustrating a method for measuring the movement amount of the first learning target object in the secondary sampling stage of FIG. 1.
図4を参照すれば、第1学習対象オブジェクト移動量測定段階(S320)での移動量測定方法が示される。図4(a)は、第n−1フレームイメージ11、図4(b)は、第nフレームイメージ12を示す。
Referring to FIG. 4, a movement amount measuring method in the first learning object movement amount measuring step (S320) is shown. FIG. 4A shows the (n-1)
第1学習対象オブジェクトの移動量の測定は、第n−1フレームイメージ11上での第1学習対象オブジェクト21と、第nフレームイメージ12上での第1学習対象オブジェクト22の位置と、を比較するものである。
The movement amount of the first learning target object is measured by comparing the position of the first
第n−1フレームイメージ11上での第1学習対象オブジェクト21と第nフレームイメージ12上での第1学習対象オブジェクト22は、同一形態のオブジェクトであって、第1学習対象オブジェクトの同一位置に該当する部分をまず選定する。
The first
第1学習対象オブジェクトの同一位置に該当する部分の選定は、コンピュータが第n−1フレームイメージ11上の第1学習対象オブジェクト21において特定部分を「A」と選定したとするとき、第nフレームイメージ12上の第1学習対象オブジェクト22上において「A」と同一位置に該当する部分を「A’」として選定する。
When the computer selects the specific portion as “A” in the first
コンピュータは、第1学習対象オブジェクトの同一位置に該当する部分を選定した後、第n−1フレームイメージ11と第nフレームイメージ12を同一平面上に置いた後、「A」及び「A’」に対する座標を抽出する。
The computer selects a portion corresponding to the same position of the first learning target object, places the (n-1)
コンピュータは、「A」及び「A’」に対する座標を抽出した後、「A」の座標と「A’」の座標の差を用いて移動量を測定する。 After extracting the coordinates for “A” and “A ′”, the computer measures the amount of movement using the difference between the coordinates of “A” and the coordinates of “A ′”.
図5は、背景除去段階が追加された図1の2次サンプリング段階の概略的なフローチャートである。 FIG. 5 is a schematic flow chart of the secondary sampling stage of FIG. 1 with the addition of a background removal stage.
図5を参照すれば、背景除去段階(S330)は、第1学習対象オブジェクト検出段階(S310)の後に実行される。 Referring to FIG. 5, the background removal step (S330) is performed after the first learning target object detection step (S310).
段階S330で、第2サンプリング部630は、それぞれの決定された数のフレームイメージ上で第1学習対象オブジェクトを除いた背景を除去する。
In operation S330, the
背景除去段階(S330)は、フレームイメージ上で検出された第1学習対象オブジェクトを除いたものを背景として処理し、背景部分を全て除去する。背景部分の除去は、背景に該当する領域のピクセルの値をnull状態にするか、所定の特殊な値で処理することを含むことができる。例えば、背景に該当する領域のピクセルのグレー(gray)を0グレー又は256グレーで処理することができるが、これに限定されない。 In the background removal step (S330), the object excluding the first learning target object detected on the frame image is processed as a background, and the background portion is entirely removed. The removal of the background portion may include setting a pixel value of a region corresponding to the background to a null state or processing the pixel value with a predetermined special value. For example, the gray of the pixel in the area corresponding to the background may be processed as 0 gray or 256 gray, but is not limited thereto.
背景除去段階(S330)が追加された2次サンプリング段階(S300)は、図6で具体的に説明する。 The secondary sampling step (S300) to which the background removal step (S330) is added will be described in detail with reference to FIG.
図6は、背景除去段階が追加された図1の2次サンプリング段階で背景が除去されたフレームイメージを用いて、第1学習対象オブジェクトの移動量を測定するための方法を説明する例示図である。 FIG. 6 is an exemplary diagram illustrating a method for measuring a movement amount of a first learning target object using a frame image in which the background is removed in the secondary sampling step of FIG. 1 to which a background removal step is added. is there.
図6を参照すれば、図6(a)は1次サンプリング段階(S200)により抽出されたフレームイメージ10を示しており、フレームイメージ10は第1学習対象オブジェクト20及び背景30を含む。
Referring to FIG. 6, FIG. 6A illustrates the
図6を参照すれば、図6(b)は、図6(a)であるフレームイメージ10で背景除去段階(S330)により背景30が除去されたことを示す図であって、フレームイメージ10は第1学習対象オブジェクト20のみを含む。
Referring to FIG. 6, FIG. 6B is a view illustrating that the
図6を参照すれば、図6(c)は、第n(nは2以上の自然数)フレームイメージ上の検出された1つ以上の第1学習対象オブジェクト21の位置と、第nフレームイメージの直前の背景が除去された第n−1フレームイメージ上の検出された1つ以上の第1学習対象オブジェクト22の位置とを比較することを示す図である。 Referring to FIG. 6, FIG. 6C illustrates positions of one or more first learning target objects 21 detected on an n-th (n is a natural number of 2 or more) frame image and an n-th frame image. It is a figure which shows comparing with the position of one or more 1st learning target objects 22 detected on the n-1st frame image from which the background just before was removed.
コンピュータは、それぞれの第1学習対象オブジェクト21、22間の比較を通じて、第1学習対象オブジェクトの移動量を測定できる。 The computer can measure the movement amount of the first learning target object by comparing the first learning target objects 21 and 22.
第1学習対象オブジェクト21、22の位置比較を通じて移動量を測定した後、コンピュータは、検出された1つ以上の第1学習対象オブジェクト20のうち、予め定められた数以上の第1学習対象オブジェクトの移動量が予め定められた基準以上の場合は、第nフレームイメージを学習対象フレームイメージとして選定し、そうでない場合には、第nフレームイメージを学習対象フレームイメージとして選定しない。 After measuring the amount of movement by comparing the positions of the first learning target objects 21 and 22, the computer determines a predetermined number or more of the first learning target objects 20 among the detected one or more first learning target objects 20. If the amount of movement is equal to or greater than a predetermined reference, the nth frame image is selected as a learning target frame image, and if not, the nth frame image is not selected as a learning target frame image.
例えば、コンピュータは、第1フレームイメージ上で検出された第1学習対象オブジェクトと第2フレームイメージ上で検出された第1学習対象オブジェクトの移動量とを比較して、移動量が予め定められた基準以上の場合は、第2フレームイメージを学習対象フレームイメージとして選定する。移動量が予め定められた基準以上に該当しない場合には、第2フレームイメージを学習対象フレームイメージとして選定しない。 For example, the computer compares the movement amount of the first learning target object detected on the first frame image with the movement amount of the first learning target object detected on the second frame image, and the movement amount is predetermined. If it is equal to or more than the reference, the second frame image is selected as the learning target frame image. When the amount of movement does not correspond to the predetermined reference or more, the second frame image is not selected as the learning target frame image.
また、コンピュータは、第2フレームイメージを学習対象フレームイメージとして選定又は選定しないことに止まらず、再び第2フレームイメージ上で検出された第1学習対象オブジェクトと第3フレームイメージ上で検出された第1学習対象オブジェクトの移動量を比較し、移動量が予め定められた基準以上の場合には、第3フレームイメージを学習対象フレームイメージとして選定する。 Further, the computer is not limited to selecting or not selecting the second frame image as the learning target frame image, and again, the first learning target object detected on the second frame image and the first learning target object detected on the third frame image. The movement amount of one learning target object is compared, and when the movement amount is equal to or more than a predetermined reference, the third frame image is selected as the learning target frame image.
フレームイメージ上の第1学習対象オブジェクトの移動量を測定し、学習対象フレームイメージとして選定又は選定しない段階は、第n(nは2以上の自然数)フレームイメージ上の検出された1つ以上の第1学習対象オブジェクトと第n−1フレームイメージ上の検出された1つ以上の第1学習対象オブジェクトの位置を比較することによって、抽出された全てのフレームイメージ上の検出された1つ以上の第1学習対象オブジェクトに対して比較し、学習対象フレームとして選定又は選定しないことが完了するまで繰り返される。 The step of measuring the amount of movement of the first learning target object on the frame image and selecting or not selecting it as the learning target frame image is the n-th (n is a natural number of 2 or more) one or more detected ones. By comparing the positions of the one learning target object and the detected one or more first learning target objects on the (n-1) th frame image, the detected one or more first learning target objects on all the extracted frame images. This is repeated until one learning target object is compared and selection or non-selection as a learning target frame is completed.
第1学習対象オブジェクト20は1つ以上であって、コンピュータは1つのフレームイメージ10上に複数の第1学習対象オブジェクト20がある場合、それぞれの第1学習対象オブジェクト20を比較して、それぞれの第1学習対象オブジェクト20の移動量を測定する。
When there are one or more first learning target objects 20 and the computer has a plurality of first learning target objects 20 on one
例えば、1つのフレームイメージ10上に複数の第1学習対象オブジェクト20を含む場合、コンピュータは、複数の第1学習対象オブジェクト20全部の移動量を測定し、予め定められた数の第1学習対象オブジェクト20の移動量が予め定められた基準以上の場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
For example, when a plurality of first learning target objects 20 are included in one
一実施形態において、コンピュータは、複数の第1学習対象オブジェクト20全部の移動量を測定し、複数の第1学習対象オブジェクト20全部の移動量が予め定められた基準以上の場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
In one embodiment, the computer measures the movement amount of all of the plurality of first learning target objects 20, and when the movement amount of all of the plurality of first learning target objects 20 is equal to or more than a predetermined reference, the
他の実施形態において、コンピュータは、複数の第1学習対象オブジェクト20のうち予め定められた数の第1学習対象オブジェクト20の移動量のみを測定し、測定した第1学習対象オブジェクト20の移動量うち予め定められた数の第1学習対象オブジェクト20の移動量が予め定められた基準以上の場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
In another embodiment, the computer measures only the movement amount of a predetermined number of first learning target objects 20 among the plurality of first learning target objects 20, and measures the measured movement amount of the first
更に他の実施形態において、コンピュータは、複数の第1学習対象オブジェクト20のうち予め定められた数の第1学習対象オブジェクト20の移動量のみを測定し、測定した第1学習対象オブジェクト20全部の移動量が予め定められた基準以上の場合、該当フレームイメージ10を学習対象フレームイメージとして選定する。
In yet another embodiment, the computer measures only the movement amount of a predetermined number of first learning target objects 20 among the plurality of first learning target objects 20, and measures all the measured first learning target objects 20. When the amount of movement is equal to or greater than the predetermined standard, the
図6(c)の移動量測定により選定された学習対象フレームイメージは、図4の(d)に示すように、抽出されたフレームイメージ11、12、13、14、15の中から選定された学習対象フレームイメージ12、14として選定される。
The learning target frame image selected by the movement amount measurement in FIG. 6C is selected from the extracted
図7は、本発明の他の実施形態に係る密集変数算出段階が追加された自律走行のための学習対象イメージ抽出方法の概略的なフローチャートである。 FIG. 7 is a schematic flowchart of a learning target image extraction method for autonomous driving to which a congestion variable calculation step is added according to another embodiment of the present invention.
図7を参照すれば、密集変数算出段階(S400)は、オリジナル動画受信段階(S100)の後に実行される。 Referring to FIG. 7, the congestion variable calculation step (S400) is performed after the original moving image reception step (S100).
段階S400で、密集変数算出部640は、オリジナル道路走行映像と関連する地域の密集変数を算出する。密集変数は、特定地域と関連して人口又は車両が密集している程度を示す。例えば、密集変数が相対的に高ければ、該当地域の自律走行のためには相対的に多くのデータの学習が必要であると解析できる。密集変数算出部640は、特定地域に対する人口統計データ又は車両統計データのうち1つ以上を用いて特定地域の密集変数を算出する。人口統計データは、道路走行映像が撮影された位置及び時間に対応する人口密度、人口分布及び流動人口のうち少なくとも1つを含むことができるが、これに限定されない。また、車両統計データは、道路走行映像が撮影された位置及び時間に対応する車両登録台数、時間帯別の交通量統計及び公共交通手段分布のうち少なくとも1つを含むことができるが、これに限定されない。密集変数算出部640は、オリジナル道路走行映像と関連する地域の人口統計データ又は車両統計データのうち1つ以上を用いてオリジナル道路走行映像と関連する地域の密集変数を算出する。
In operation S400, the congestion
第1サンプリング部620は、メタデータ以外にもオリジナル道路走行映像と関連する地域の密集変数に更に基づいて抽出数を決定し、オリジナル道路走行映像から決定された数のフレームイメージを抽出する。
The
一実施形態において、第1サンプリング部620は、密集変数が所定の基準以上である場合、フレームイメージを所定の基準以上の数で抽出する。例えば、密集変数が1ないし10の値を有することができると仮定する。第1サンプリング部620は、密集変数が10で比較的高い地域では1秒当たり30個のフレームイメージを抽出し、密集変数が5で比較的低い地域では1秒当たり15個のフレームイメージを抽出できる。
In an exemplary embodiment, the
第1サンプリング部620は、公共データサーバを介して人口統計データ又は車両統計データに該当する密集変数の提供を受けることができるが、これに限定されない。
The
図8は、本発明の他の実施形態に係る学習用データセット生成段階が追加された自律走行のための学習対象イメージ抽出方法の概略的なフローチャートである。 FIG. 8 is a schematic flowchart of a learning target image extraction method for autonomous driving to which a learning data set generating step is added according to another embodiment of the present invention.
図8を参照すれば、学習用データセット生成段階(S500)は、2次サンプリング段階(S300)の後に実行される。 Referring to FIG. 8, the learning data set generating step (S500) is performed after the secondary sampling step (S300).
段階S500で、学習用データセット生成部650は、1つ以上の学習対象フレームイメージを加工処理して学習用データセットを生成する。段階S500は、図9で具体的に説明する。
In step S500, the learning data
図9は、図8の学習用データセット生成段階の概略的なフローチャートである。 FIG. 9 is a schematic flowchart of the learning data set generation step of FIG.
図9を参照すれば、学習用データセット生成段階(S500)は、第2学習対象オブジェクト検出段階(S510)と、第2学習対象オブジェクト注釈化段階(S520)と、を含む。 Referring to FIG. 9, the learning data set generating step (S500) includes a second learning target object detecting step (S510) and a second learning target object annotating step (S520).
段階S510で、学習用データセット生成部650は、学習対象フレームイメージ上で予め定められた1つ以上の類型の1つ以上の第2学習対象オブジェクトを検出する。
In step S510, the learning data
第2学習対象オブジェクトは、学習対象フレームイメージに含まれているオブジェクトである。学習対象フレームイメージには、1つ以上の第2学習対象オブジェクトが含まれ、1つ以上の類型の第1学習対象オブジェクトが含まれる。例えば、第2学習対象オブジェクトは、人、自動車、自転車、建物、電信柱、オートバイ、木、花、子犬、猫、道路、交通表示板、過速防止用段差、ロードコーン、車線などを含むことができるが、前記例に限定されず、オブジェクトとして区別が可能なものを全て含む。また、第2学習対象オブジェクトの類型は、オブジェクトの前面、後面、右側面、左側面などを含むが、各学習対象オブジェクトの類型は前記例に限定されず、前記例よりも細分化させて区分することができ、前記例とは全く異なる類型として区分することができる。 The second learning target object is an object included in the learning target frame image. The learning target frame image includes one or more second learning target objects and one or more types of first learning target objects. For example, the second learning target object includes a person, an automobile, a bicycle, a building, a telephone pole, a motorcycle, a tree, a flower, a puppy, a cat, a road, a traffic display board, a step for preventing overspeed, a road cone, a lane, and the like. However, the present invention is not limited to the above example, and includes all objects that can be distinguished as objects. Further, the type of the second learning target object includes the front surface, the rear surface, the right side surface, the left side surface, etc. of the object, but the type of each learning target object is not limited to the above example, and is divided into more subdivided categories than the above example. And can be classified as a completely different type from the above example.
上述した段階S300で、第1学習対象オブジェクトの検出が、人工知能の学習のためのイメージの選別、即ち、学習対象フレームイメージの選別のためのものであったのであれば、段階S510で、第2学習対象オブジェクトの検出は、注釈化処理のための対象の選別のためのものである。 If it is determined in step S300 that the detection of the first learning target object is to select an image for learning artificial intelligence, that is, to select a learning target frame image, in step S510, 2 The detection of the learning target object is for selecting the target for the annotation process.
第2学習対象オブジェクトの検出で1つ以上の類型の1つ以上のオブジェクトを検出することは、オブジェクト検出アルゴリズムを用いて検出することであり、オブジェクト検出アルゴリズムは、R-CNNモデルを含むことができるが、これに限定されない。 Detecting one or more objects of one or more types in the detection of the second learning target object is to detect using an object detection algorithm, and the object detection algorithm may include an R-CNN model. Yes, but not limited to.
段階S520で、学習用データセット生成部650は、学習対象フレームイメージ上の検出された1つ以上の第2学習対象オブジェクトに対して、注釈化処理を行う。
In step S520, the learning data
注釈化処理は、学習対象フレームイメージ上の検出された第2学習対象オブジェクトを説明するデータの生成作業を意味する。注釈化処理は、第2学習対象オブジェクトに対してラベリング(labeling)、カラーリング(coloring)又はレイヤリング(layering)を行うことを含む。また、第2学習対象オブジェクトが何であるかを表示することは、全て注釈化処理として含めることができる。例えば、学習対象フレームイメージ上の検出された1つ以上の第2学習対象オブジェクトは、ボックス(box)などの形態により領域を区分して表示することができる。注釈化処理は、自動処理されるツールを活用することができる。 The annotation process means a work of generating data for explaining the detected second learning target object on the learning target frame image. The annotation process includes performing labeling, coloring, or layering on the second learning target object. Displaying what the second learning target object is can be included as an annotation process. For example, the one or more second learning target objects detected on the learning target frame image can be displayed by dividing the area according to a form such as a box. The annotation process can utilize tools that are automatically processed.
第2学習対象オブジェクトとして区分されて表示された領域に対して、各第2学習対象オブジェクトが何であるかの説明を作成することができ、ラベリングは、1つの単語で作成されてもよく、1つの単語ではない、文章で詳細に作成されてもよい。 An explanation of what each second learning target object is can be created for a region that is divided and displayed as a second learning target object, and the labeling may be created by one word. It may be created in detail in sentences, not in one word.
注釈化処理は、1つ以上の作業者がラベリング、カラーリング又はレイヤリングした情報をデータベース化し、コンピュータにより学習されたモジュールを生成し、学習されたモジュールにより、新しく入ってきた学習対象フレームイメージ上の第2学習対象オブジェクトがデータベース化された第2学習対象オブジェクトと類似しているかを判断することによって、該当第2学習対象オブジェクトにラベリング、カラーリング又はレイヤリングを行うことができる。 The annotation process creates a database of the information labeled, colored or layered by one or more workers, generates a module learned by a computer, and uses the learned module on the newly input learning target frame image. It is possible to perform labeling, coloring, or layering on the second learning target object by determining whether the second learning target object is similar to the second learning target object stored in the database.
他の実施形態において、学習用データセット生成部650は、映像処理を用いて学習対象フレームイメージ上の検出された1つ以上の第2学習対象オブジェクトの重要度を判断し、重要度が所定の基準以上である場合、該当第2学習対象オブジェクトに対する注釈情報を生成できる。学習用データセット生成部650は、1つ以上の第2学習対象オブジェクトがある場合、重要度が高い第2学習対象オブジェクトに対してのみ注釈情報を生成できる。例えば、学習対象フレームイメージ上に自動車、信号機がある場合、該当自動車、信号機を重要度が高いと判断し、該当学習自動車、信号機に対してのみ注釈情報を生成できる。
In another embodiment, the learning data
図10は、有効性検証段階が追加された図8の学習用データセット生成段階の概略的なフローチャートである。 FIG. 10 is a schematic flowchart of the learning data set generation step of FIG. 8 to which the validity verification step is added.
図10を参照すれば、有効性検証段階(S530)は、学習対象オブジェクト注釈化段階の後に実行される。 Referring to FIG. 10, the validation step (S530) is performed after the learning target object annotation step.
段階S530で、検査者は、学習用データセットの有効性を検証する。検査者端末は、自律走行のための学習対象イメージ抽出装置600から学習用データセットを受信する。段階S530は、図11で具体的に説明する。
In step S530, the inspector verifies the validity of the training data set. The inspector terminal receives the learning data set from the learning target
図11は、図10の有効性検証段階の概略的なフローチャートである。 FIG. 11 is a schematic flowchart of the validity verification step of FIG.
図11を参照すれば、有効性検証段階(S530)は、学習用データセットの検査を要請する段階(S531)と、学習用データセットを検査する段階(S532と、)を含む。 Referring to FIG. 11, the validity verification step (S530) includes a step of requesting the examination of the learning data set (S531) and a step of examining the learning data set (S532).
段階S531で、自律走行のための学習対象イメージ抽出装置600は、検査者端末に検査を要請する。
In step S531, the learning target
段階S532で、検査者端末を介して、検査者は、学習用データセットを受信して検査を行う。 In step S532, the inspector receives the learning data set and performs the inspection via the inspector terminal.
一実施形態において、検査者端末は学習用データセットの検査結果、学習用データセットの信頼度が所定の基準以上である場合、該当学習用データセットと該当信頼度を自律走行のための学習対象イメージ抽出装置600に送信する。従って、自律走行のための学習対象イメージ抽出装置600は、該当学習用データセットが人工知能モジュールに対して使用することに適したデータセットであることを確認することができる。
In one embodiment, when the inspection result of the learning data set, the reliability of the learning data set is equal to or higher than a predetermined reference, the inspector terminal determines the learning data set and the corresponding reliability as learning targets for autonomous driving. The image is transmitted to the
一実施形態において、学習用データセットの検査結果、学習用データセットの信頼度が所定の基準未満である場合、該当学習用データセットを返却する。その後、検査者端末は、自律走行のための学習対象イメージ抽出装置600に該当学習用データセットの再作業を要請する。自律走行のための学習対象イメージ抽出装置600により再作業された学習用データセットは、段階S531ないしS532の段階により再検査を受ける。
In one embodiment, when the inspection result of the learning data set and the reliability of the learning data set are less than a predetermined standard, the corresponding learning data set is returned. Then, the inspector terminal requests the learning target
図12は、本発明の他の実施形態に係る自律走行のための学習対象イメージ抽出装置の概略的な構成図である。 FIG. 12 is a schematic configuration diagram of a learning target image extraction apparatus for autonomous traveling according to another embodiment of the present invention.
図12を参照すれば、自律走行のための学習対象イメージ抽出装置600は、オリジナル道路走行映像受信部610と、第1サンプリング部620と、第2サンプリング部630と、密集変数算出部640と、学習用データセット生成部650と、を含む。
Referring to FIG. 12, the learning target
図12の自律走行のための学習対象イメージ抽出装置600の構成要素は、図1ないし図11を参照して説明した方法の構成要素に対応する。オリジナル道路走行映像受信部610はオリジナル動画受信段階(S100)を実行し、第1サンプリング部620は1次サンプリング段階(S200)を実行し、第2サンプリング部630は2次サンプリング段階(S300)を実行し、密集変数算出部640は密集変数算出段階(S400)を実行し、学習用データセット生成部650は学習用データセット生成段階(S500)を実行できる。以下、装置600の各構成要素の機能又は動作を説明するにおいて重複する説明は省略する。
The components of the learning target
オリジナル道路走行映像受信部610は、オリジナル道路走行映像を受信する。
The original road traveling
第1サンプリング部620は、オリジナル道路走行映像のメタデータに基づいて抽出数を決定し、オリジナル道路走行映像から決定された数のフレームイメージを抽出する。
The
オリジナル道路走行映像のメタデータは、オリジナル道路走行映像と関連する車両のGPS情報、車両の移動速度情報及びオリジナル道路走行映像の撮影時間のうち1つ以上を含む。 The metadata of the original road traveling image includes one or more of GPS information of the vehicle related to the original road traveling image, moving speed information of the vehicle, and shooting time of the original road traveling image.
第2サンプリング部630は、決定された数のフレームイメージそれぞれが第1学習対象オブジェクトを含んでいるか否か及び第1学習対象オブジェクトの移動量に基づいて、決定された数のフレームイメージから1つ以上の学習対象フレームイメージを抽出する。
The
密集変数算出部640は、オリジナル道路走行映像と関連する地域の密集変数を算出する。
The congestion
学習用データセット生成部650は、1つ以上の学習対象フレームイメージを加工処理して学習用データセットを生成する。
The learning data
本発明の実施形態と関連して説明された方法又はアルゴリズムの段階は、ハードウェアで直接実現するか、ハードウェアにより実行されるソフトウェアモジュールで実現するか、又はこれらの結合により実現することができる。ソフトウェアモジュールは、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、脱着型ディスク、CD-ROM又は本発明が属する技術分野における周知されている任意の形態のコンピュータ読み取り可能な記録媒体に存在することもできる。 The steps of the method or algorithm described in connection with the embodiments of the present invention may be implemented directly in hardware, a software module executed by hardware, or a combination thereof. . The software module is a RAM (Random Access Memory), a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Programmable Erasable ROM), a hard disk (ROM), a flash memory (FRAM). The present invention can also be present in a computer-readable recording medium in any form well known in the technical field to which the present invention belongs.
以上、添付の図面を参照して本発明の実施形態を説明したが、本発明が属する技術分野における通常の技術者は、本発明がその技術的思想や必須の特徴を変更することなく、他の具体的な形態で実施され得ることが理解できるはずである。従って、以上で記述した実施形態は全ての面で例示的なものであり、制約的ではないものとして理解すべきである。 Although the embodiments of the present invention have been described above with reference to the accompanying drawings, a person skilled in the art to which the present invention pertains does not change the technical idea or essential features of the present invention, and It should be understood that it can be implemented in a specific form of. Therefore, the embodiments described above are to be understood as being illustrative in all aspects and not restrictive.
600 自律走行のための学習対象イメージ抽出装置
610 オリジナル道路走行映像受信部
620 第1サンプリング部
630 第2サンプリング部
640 密集変数算出部
650 学習用データセット生成部
600 Learning Target Image Extraction Device for
Claims (10)
前記オリジナル道路走行映像のメタデータに基づいて抽出数を決定し、前記オリジナル道路走行映像から前記決定された数のフレームイメージを抽出する1次サンプリング段階と、
前記決定された数のフレームイメージそれぞれが第1学習対象オブジェクトを含んでいるか否か、及び、前記第1学習対象オブジェクトの移動量に基づいて、前記決定された数のフレームイメージから1つ以上の学習対象フレームイメージを抽出する2次サンプリング段階と、を含み、
前記オリジナル道路走行映像の前記メタデータは、前記オリジナル道路走行映像を撮影した車両のGPS情報、前記車両の移動速度情報及び前記オリジナル道路走行映像の撮影時間のうち1つ以上を含む、自律走行のための学習対象イメージ抽出方法。 Original video receiving stage to receive the original road driving video,
A primary sampling step of determining an extraction number based on the metadata of the original road driving image and extracting the determined number of frame images from the original road driving image;
Based on whether or not each of the determined number of frame images includes a first learning target object, and based on the amount of movement of the first learning target object, one or more of the determined number of frame images are selected. A second sampling stage for extracting a frame image to be learned,
The metadata of the original road driving image includes one or more of GPS information of the vehicle that captured the original road driving image , moving speed information of the vehicle, and a shooting time of the original road driving image. Method of learning target image for learning.
前記オリジナル道路走行映像と関連する地域の密集変数を算出する密集変数算出段階を更に含み、
前記オリジナル道路走行映像と関連する地域の前記密集変数に更に基づいて、前記抽出数を決定することを特徴とする請求項1に記載の自律走行のための学習対象イメージ抽出方法。 The primary sampling step is
Further comprising a crowded variable calculating step of calculating a crowded variable of an area associated with the original road driving image,
The method for extracting a learning target image for autonomous driving according to claim 1, wherein the extraction number is determined further based on the congestion variable of an area related to the original road driving image.
前記オリジナル道路走行映像と関連する地域の人口統計データ又は車両統計データのうち1つ以上を用いて、前記オリジナル道路走行映像と関連する地域の密集変数を算出することを特徴とする請求項2に記載の自律走行のための学習対象イメージ抽出方法。 The dense variable calculation step includes
The crowded variable of the area related to the original road driving image is calculated by using at least one of demographic data or vehicle statistical data of the area related to the original road driving image. A method for extracting a learning target image for the autonomous driving described above.
オブジェクト検出アルゴリズムを用いてそれぞれの前記決定された数のフレームイメージ上で予め定められた1つ以上の類型の1つ以上の前記第1学習対象オブジェクトを検出する第1学習対象オブジェクト検出段階と、
第n(nは2以上の自然数)フレームイメージ上の検出された前記1つ以上の第1学習対象オブジェクトの位置と前記第nフレームイメージの直前の第n−1フレームイメージ上の検出された前記1つ以上の第1学習対象オブジェクトの位置とを比較し、前記第nフレームイメージ上の検出された前記1つ以上の第1学習対象オブジェクトそれぞれの移動量を測定する第1学習対象オブジェクト移動量測定段階と、
を含むことを特徴とする請求項1に記載の自律走行のための学習対象イメージ抽出方法。 The secondary sampling step includes
A first learning target object detecting step of detecting one or more first learning target objects of one or more predetermined types on each of the determined number of frame images using an object detection algorithm;
The detected position of the one or more first learning target objects on the n-th (n is a natural number of 2 or more) frame image and the detected position on the (n-1) -th frame image immediately before the n-th frame image. A first learning target object movement amount that compares the positions of one or more first learning target objects and measures the movement amount of each of the detected one or more first learning target objects on the n-th frame image Measurement stage,
The learning target image extraction method for autonomous traveling according to claim 1, further comprising:
それぞれの前記決定された数のフレームイメージ上で前記第1学習対象オブジェクトを除いた背景を除去する背景除去段階を更に含むことを特徴とする請求項4に記載の自律走行のための学習対象イメージ抽出方法。 The secondary sampling step includes
The learning target image for autonomous driving according to claim 4, further comprising: a background removal step of removing a background excluding the first learning target object on each of the determined number of frame images. Extraction method.
前記学習対象フレームイメージ上で予め定められた1つ以上の類型の1つ以上の第2学習対象オブジェクトを検出する第2学習対象オブジェクト検出段階と、
前記学習対象フレームイメージ上の検出された前記1つ以上の第2学習対象オブジェクトに対して注釈化処理を行う学習対象オブジェクト注釈化段階と、
を含むことを特徴とする請求項6に記載の自律走行のための学習対象イメージ抽出方法。 The learning data set generating step includes
A second learning target object detecting step of detecting one or more second learning target objects of one or more predetermined types on the learning target frame image;
A learning target object annotation step of performing annotation processing on the one or more second learning target objects detected on the learning target frame image;
The learning target image extraction method for autonomous driving according to claim 6, further comprising:
前記学習用データセットの有効性を検証する有効性検証段階を更に含むことを特徴とする請求項7に記載の自律走行のための学習対象イメージ抽出方法。 The learning data set generating step includes
The method of claim 7, further comprising an effectiveness verification step of verifying the effectiveness of the learning data set.
前記オリジナル道路走行映像のメタデータに基づいて抽出数を決定し、前記オリジナル道路走行映像から前記決定された数のフレームイメージを抽出する第1サンプリング部と、
前記決定された数のフレームイメージそれぞれが第1学習対象オブジェクトを含んでいるか否か、及び、前記第1学習対象オブジェクトの移動量に基づいて、前記決定された数のフレームイメージから1つ以上の学習対象フレームイメージを抽出する第2サンプリング部と、を含み、
前記オリジナル道路走行映像の前記メタデータは、前記オリジナル道路走行映像を撮影した車両のGPS情報、前記車両の移動速度情報及び前記オリジナル道路走行映像の撮影時間のうち1つ以上を含む、自律走行のための学習対象イメージ抽出装置。 An original road running video receiving unit that receives the original road running video,
A first sampling unit that determines an extraction number based on the metadata of the original road running video and extracts the determined number of frame images from the original road running video;
Based on whether or not each of the determined number of frame images includes a first learning target object, and based on the movement amount of the first learning target object, one or more of the determined number of frame images are selected. A second sampling unit for extracting a learning target frame image,
The metadata of the original road driving image includes one or more of GPS information of the vehicle that captured the original road driving image , moving speed information of the vehicle, and the shooting time of the original road driving image. Image extraction device for learning.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0045506 | 2018-04-19 | ||
KR20180045507 | 2018-04-19 | ||
KR20180045506 | 2018-04-19 | ||
KR10-2018-0045507 | 2018-04-19 | ||
KR1020180135240A KR102015947B1 (en) | 2018-04-19 | 2018-11-06 | Method for extracting image of learning object for autonomous driving and apparatus thereof |
KR10-2018-0135240 | 2018-11-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019192201A JP2019192201A (en) | 2019-10-31 |
JP6681965B2 true JP6681965B2 (en) | 2020-04-15 |
Family
ID=68387882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018218142A Active JP6681965B2 (en) | 2018-04-19 | 2018-11-21 | Apparatus and method for extracting learning target image for autonomous driving |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6681965B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781778B (en) * | 2021-09-03 | 2022-09-06 | 新奇点智能科技集团有限公司 | Data processing method and device, electronic equipment and readable storage medium |
CN115719325B (en) * | 2022-12-07 | 2023-11-17 | 钧捷科技(北京)有限公司 | Unmanned road condition image processing system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014059729A (en) * | 2012-09-18 | 2014-04-03 | Toshiba Corp | Object detection and identification unit and method for the same, and dictionary data generation method used for object detection and identification |
JP6188592B2 (en) * | 2014-01-21 | 2017-08-30 | 三菱電機株式会社 | Object detection apparatus, object detection method, and object detection program |
JP6103265B2 (en) * | 2015-05-25 | 2017-03-29 | マツダ株式会社 | Pedestrian image acquisition device for vehicles |
JP2017162438A (en) * | 2016-03-11 | 2017-09-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Danger prediction method |
JP6615066B2 (en) * | 2016-07-29 | 2019-12-04 | エヌ・ティ・ティ・コムウェア株式会社 | Information processing apparatus, information processing method, and program |
JP6617085B2 (en) * | 2016-08-31 | 2019-12-04 | 株式会社デンソーアイティーラボラトリ | Object situation estimation system, object situation estimation apparatus, object situation estimation method, and object situation estimation program |
-
2018
- 2018-11-21 JP JP2018218142A patent/JP6681965B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019192201A (en) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102015947B1 (en) | Method for extracting image of learning object for autonomous driving and apparatus thereof | |
JP6700373B2 (en) | Apparatus and method for learning object image packaging for artificial intelligence of video animation | |
KR102373456B1 (en) | Learning method and learning device, and testing method and testing device for detecting parking spaces by using point regression results and relationship between points to thereby provide an auto-parking system | |
CN110188807B (en) | Tunnel pedestrian target detection method based on cascading super-resolution network and improved Faster R-CNN | |
CN108986465B (en) | Method, system and terminal equipment for detecting traffic flow | |
KR102094341B1 (en) | System for analyzing pot hole data of road pavement using AI and for the same | |
CN110032947B (en) | Method and device for monitoring occurrence of event | |
CN113343461A (en) | Simulation method and device for automatic driving vehicle, electronic equipment and storage medium | |
CN107909012B (en) | Real-time vehicle tracking detection method and device based on disparity map | |
CN110889421A (en) | Target detection method and device | |
CN115223130B (en) | Multi-task panoramic driving perception method and system based on improved YOLOv5 | |
CN114267082B (en) | Bridge side falling behavior identification method based on depth understanding | |
JP6681965B2 (en) | Apparatus and method for extracting learning target image for autonomous driving | |
US20200384989A1 (en) | Method for the improved detection of objects by a driver assistance system | |
CN114926791A (en) | Method and device for detecting abnormal lane change of vehicles at intersection, storage medium and electronic equipment | |
CN116665188B (en) | Bus image system data analysis method | |
CN117152414A (en) | Target detection method and system based on scale attention auxiliary learning method | |
CN110210324B (en) | Road target rapid detection early warning method and system | |
CN108960181B (en) | Black smoke vehicle detection method based on multi-scale block LBP and hidden Markov model | |
CN113361299A (en) | Abnormal parking detection method and device, storage medium and electronic equipment | |
CN114359859A (en) | Method and device for processing target object with shielding and storage medium | |
CN103218916B (en) | Method and system for detecting red light running based on complex high-dynamic environmental modeling | |
CN114999183B (en) | Traffic intersection vehicle flow detection method | |
WO2023170912A1 (en) | Information processing device, generation method, information processing method, and computer-readable medium | |
US20240020964A1 (en) | Method and device for improving object recognition rate of self-driving car |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6681965 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |