JP2022095024A - 学習データ生成装置、学習データ生成方法及びコンピュータプログラム - Google Patents
学習データ生成装置、学習データ生成方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022095024A JP2022095024A JP2020208102A JP2020208102A JP2022095024A JP 2022095024 A JP2022095024 A JP 2022095024A JP 2020208102 A JP2020208102 A JP 2020208102A JP 2020208102 A JP2020208102 A JP 2020208102A JP 2022095024 A JP2022095024 A JP 2022095024A
- Authority
- JP
- Japan
- Prior art keywords
- generation
- data
- learning data
- learning
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 22
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 230000001629 suppression Effects 0.000 description 6
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/10—Selection of transformation methods according to the characteristics of the input images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
【課題】誤検出を効率的に抑制することができる学習データ生成装置を提供する。【解決手段】学習データ生成装置は、教師データを含む学習データを取得するデータ取得手段と、前記学習データと生成条件に基づいて生成学習データを生成する生成手段と、を有し、前記生成手段は、前記生成学習データを生成する際に、正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換することを特徴とする。【選択図】 図1
Description
本発明は、画像から物体検出を行うための学習データ生成装置等に関する。
監視カメラに映る被写体の数をカウントすることを目的として、画像中の被写体を検出することが行われており、その際に、例えば、人物を被写体とする場合には、顔検出や頭部検出、動体検出などが行われている。
物体検出を用いた被写体数のカウントにおいては、可能な限り物体の未検出・誤検出を抑制し、正確な物体数を求めることが望ましい。しかし、被写体に類似する物体(例えば、人物をカウントしたい場合は、マネキンやポスターに印刷された人物)が画像中に存在すると、被写体として誤検出する場合が多い。
物体検出における誤検出を抑制するための取り組みとして、特許文献1や非特許文献1がある。特許文献1では、既存の学習データから被写体領域を抽出し、異なる背景画像に合成した画像を学習データに追加することで、背景変化に対するロバスト性を向上している。また、非特許文献1では、既存の学習データに対して、ランダムパッチを合成し、複数の正解データに拡張することで、見えの変化に対するロバスト性を向上している。
一方、物体領域を検出する技術としては、近年、CNN(Convolutional Neural Network)を活用した深層学習手法が多数開発されている。非特許文献2には、CNNを用いた物体検出技術として、物体を内包する矩形と物体の種別を正解とし物体の位置、サイズ、種別を学習させる方法が開示されている。
Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, Yi Yang, "Random Erasing Data Augmentation", CVPR2017
Joseph Redmon, Ali Farhadi, "YOLOv3: An Incremental Improvement", CVPR2018
特許文献1、非特許文献1のいずれも、既存の学習データを複数の正例データに拡張する手段である。しかしながら、検出を抑制すべき対象が、被写体に類似している場合、多数の非被写体の画像を必要とするため、非被写体の誤検出を抑制することが難しかった。また、非特許文献2においても、同様の問題があった。
本発明は、このような問題点に鑑みなされたものであり、誤検出を効率的に抑制することができる学習データ生成装置を提供することを特徴とする。
上記目的を達成するための一手段として、本発明の学習データ生成装置は、
教師データを含む学習データを取得するデータ取得手段と、
前記学習データと生成条件に基づいて生成学習データを生成する生成手段と、
を有し、
前記生成手段は、前記生成学習データを生成する際に、正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換することを特徴とする。
教師データを含む学習データを取得するデータ取得手段と、
前記学習データと生成条件に基づいて生成学習データを生成する生成手段と、
を有し、
前記生成手段は、前記生成学習データを生成する際に、正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換することを特徴とする。
以上の構成からなる本発明によれば、誤検出を効率的に抑制することができる学習データ生成装置を実現することができる。
以下、添付図面を参照して、本発明の好適な実施の形態について実施例を用いて説明する。また、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。
なお、本実施例で説明する学習装置は、物体検出を行うためのモデルを、CNNを用いて構築するものであり、人物を内包する矩形を検出対象とする例を説明する。
なお、本実施例で説明する学習装置は、物体検出を行うためのモデルを、CNNを用いて構築するものであり、人物を内包する矩形を検出対象とする例を説明する。
図1は、本実施例における学習装置100の概略構成を示すブロック図である。101は物体特性管理手段、102は入力手段、103は生成条件決定手段、104はデータ取得手段、105は生成手段、106は学習手段、107は評価手段、108は表示手段である。
図2は、学習装置100のハードウェア構成の一例を示す図である。
学習装置100は、CPU201、RAM202、ROM203、ネットワークI/F部204、HDD205、及びデータバス206を備える。CPU201は、ROM203に記憶された制御用コンピュータプログラムを読み出してRAM202にロードし、各種制御処理を実行する。RAM202は、CPU201の実行するプログラムや、ワークメモリ等の一時記憶領域として用いられる。
学習装置100は、CPU201、RAM202、ROM203、ネットワークI/F部204、HDD205、及びデータバス206を備える。CPU201は、ROM203に記憶された制御用コンピュータプログラムを読み出してRAM202にロードし、各種制御処理を実行する。RAM202は、CPU201の実行するプログラムや、ワークメモリ等の一時記憶領域として用いられる。
ネットワークI/F部204は、学習装置100を、インターネットを介して他の装置との間で各種情報を送受信する。HDD205は、画像データや特徴量データ、各種プログラム等を格納する。ネットワークI/F部204を介して外部装置から受信した画像データ等は、データバス206を介してCPU201、RAM202、及びROM203に送受信される。
CPU201がROM203やHDD205に格納された画像処理プログラムを実行することによって、画像データに対する画像処理が実現される。なお、CPUとは異なる1又は複数の専用のハードウェアを有し、CPUによる処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、GPU(グラフィックスプロセッシングユニット)、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、及びDSP(デジタルシグナルプロセッサ)などがある。
また、HDD205は、ネットワークI/F部204を介して外部装置からデータの入力が可能であり、すでに画像データを含む大量のファイルが格納されているものとする。
なお、入力手段102は例えばキーボードやマウスやタッチパネル等であり、表示手段108は例えば液晶ディスプレイ等の表示装置を含み、入力手段102や表示手段108もデータバス206に接続されている。
なお、入力手段102は例えばキーボードやマウスやタッチパネル等であり、表示手段108は例えば液晶ディスプレイ等の表示装置を含み、入力手段102や表示手段108もデータバス206に接続されている。
物体特性管理手段101は、誤検知を起こしやすい物体、即ちユーザーが検出を抑制したい物体のカテゴリ情報と特性および生成条件を対応付けて管理する。
図3は実施例に係る物体特性管理部で管理するデータの例を示す図である。カテゴリとは、物体の種別を表しており、マネキン、洋服、ポスター、鏡の像、傘を差した人物、などの情報である。また、特性情報とは、部位の有無、部位の色、温度の高低、深度の形状を表しており、頭部がない、肌領域が白い、温度が低い、深度が変面、などの情報である。
図3は実施例に係る物体特性管理部で管理するデータの例を示す図である。カテゴリとは、物体の種別を表しており、マネキン、洋服、ポスター、鏡の像、傘を差した人物、などの情報である。また、特性情報とは、部位の有無、部位の色、温度の高低、深度の形状を表しており、頭部がない、肌領域が白い、温度が低い、深度が変面、などの情報である。
生成条件とは、誤検知を起こしやすい(ユーザーが検出を抑制したい)物体の学習データ(教師データ)に適用する画像変換の内容(ルール)を表しており、頭部領域を背景画素で塗りつぶす、などの情報である。図3の物体特性管理テーブル300では、カテゴリ=「マネキン」に対して、特性=「頭部がない、肌の色が白い、温度が低い」と生成条件=「頭部領域を背景画素で塗りつぶす」とが対応付けて管理されている。
入力手段102は、ユーザーから後述の入力情報を取得し、入力情報を生成条件決定手段103に提供する。入力情報とは、ユーザーが、例えば物体特性管理テーブル300のデータを参照しつつ設定したデータである。即ち、例えば、検出を抑制したい物体のカテゴリ情報を表す抑制物体カテゴリ情報、ユーザーが検出を抑制したくない物体のカテゴリ情報を表す非抑制物体カテゴリ情報を含む。更に、ユーザーが検出を抑制したい物体の特性情報を表す抑制物体特性情報、ユーザーが検出を抑制したくない物体の特性情報を表す非抑制物体特性情報、ユーザーが適用したい生成条件を表す生成条件、の少なくとも1つ以上の組み合わせを含む。
なお、入力情報に、生成条件に関するパラメータを含ませてもよい。生成条件に関するパラメータとは、生成条件に応じて画像変換を行う際のパラメータであり、変換を行う領域のサイズ、色、温度、深度の角度、深度の形状、などの情報である。図3に示した生成条件はその一例である。ユーザーは表示手段108でプレビュー画像等を確認しながら前述の入力情報を作成することができる。表示手段108におけるプレビュー画像等については後述する。
生成条件決定手段103は、入力手段102から提供されるユーザーによる入力情報および物体特性管理手段101で管理されるデータに基づいて、学習データに適用する生成条件を決定し、生成条件リストを作成する。生成条件リストとは、生成条件をリスト化したものである。また、生成条件決定手段103は、作成した生成条件リストを生成手段105に提供する。
ここで、生成条件リストの作成方法について説明する。まず、入力情報に抑制物体カテゴリ情報または抑制物体特性情報が含まれていた場合、対応する生成条件を物体特性管理手段101から取得し、生成条件リストに追加する。
また、入力情報に生成条件そのものが含まれていた場合、その生成条件を生成条件リストに追加する。さらに、入力情報に非抑制物体カテゴリ情報または非抑制物体特性情報が含まれていた場合、対応する生成条件を物体特性管理手段101から一旦取得しても、該当する生成条件を生成条件リストから除外する。
また、入力情報に生成条件そのものが含まれていた場合、その生成条件を生成条件リストに追加する。さらに、入力情報に非抑制物体カテゴリ情報または非抑制物体特性情報が含まれていた場合、対応する生成条件を物体特性管理手段101から一旦取得しても、該当する生成条件を生成条件リストから除外する。
データ取得手段104は、CNNの学習に利用する、教師データを含む学習データを取得する。データ取得手段104は取得した学習データを生成手段105に提供する。図4は、実施例に係る学習データの例を示す図である。画像400には検出対象401が写っており、GroundTruthとして矩形情報402が対応づいている。矩形情報402が存在する場合、正例(正事例)として学習が行われる。
データ取得手段104から取得される画像400は例えばRGB画像である。しかし、可視光センサで取得できるRGB画像、深度センサで取得できる深度画像または温度センサで取得できる温度画像の少なくとも1つ以上の組み合わせであればよい。図5は実施例に係る深度センサで取得した画像の例を示す図である。色の濃淡が深度を表しており、色が薄いほど深度が浅いことを表している。深度画像は例えば視差を有する2つの撮像素子の画素からの出力によって得ることができる。
図6は実施例に係る温度センサで取得した画像の例を示す図である。色の濃淡が温度を表しており、色が薄いほど温度が高いことを表している。温度画像は赤外光に感度を有する撮像素子によって取得することができる。なお、可視光センサ、深度センサ、温度センサは一つの撮像素子の撮像面の中に、それぞれ可視光を検出するための画素、深度を検出するための画素、温度を検出するための画素を2次元的に所定のピッチで配置することによって構成したものであっても良い。
或いは可視光センサ、深度センサ、温度センサの少なくとも1つを別の2次元センサとして構成し、それぞれのセンサで同じ被写体を撮像して、それぞれの画像出力を取得しても良い。
なお、データ取得手段104はそのような教師データとしての学習データの画像を記憶する画像データベースを含むが、画像を取得するための画像センサを含んでいても良い。また学習データは教師データ以外のデータを含んでいても良い。
なお、データ取得手段104はそのような教師データとしての学習データの画像を記憶する画像データベースを含むが、画像を取得するための画像センサを含んでいても良い。また学習データは教師データ以外のデータを含んでいても良い。
生成手段105は、生成条件決定手段103から提供される生成条件リストにおける生成条件と、データ取得手段104から提供される学習データに基づいて生成学習データを生成する。生成手段105は生成した生成学習データを学習手段106に提供する。次に生成学習データの生成方法について説明する。
まず、生成手段105は、取得した学習データを、所定の割合で、通常学習利用、変換学習利用、評価利用に割り当てる。
次に、生成手段105は、変換学習利用の学習データに含まれる学習画像について、生成条件決定手段103から提供される生成条件リストに含まれる生成条件を適用し、生成学習画像を得る。学習画像がN枚かつ生成条件がM個のとき、生成する変換学習画像の枚数は、全組み合わせのN×M枚となる。
次に、生成手段105は、変換学習利用の学習データに含まれる学習画像について、生成条件決定手段103から提供される生成条件リストに含まれる生成条件を適用し、生成学習画像を得る。学習画像がN枚かつ生成条件がM個のとき、生成する変換学習画像の枚数は、全組み合わせのN×M枚となる。
図7は実施例に係る頭部領域を塗りつぶした画像の例を示す図であり、図4の画像400について、生成条件「頭部領域を背景画素で塗りつぶす」を適用した画像700を示している。図8は実施例に係る人物領域の色を変換した画像の例を示す図であり、画像400について、生成条件「肌領域を白で塗りつぶす」を適用した画像800を示している。図9は実施例に係る深度を平面に変換した画像の例を示す図であり、図5の深度画像500について、生成条件「画像全体を平面にする」を適用した画像900を示している。図10は実施例に係る被写体領域の温度を低く変換した画像の例を示す図であり、図6の温度画像600について、「被写体の温度を下げる」を適用した画像1000を示している。
このように、生成手段は、特定部位を塗りつぶす画像変換、特定部位の色を変更する画像変換、深度情報を特定のパターンに置き換える画像変換、検出対象の温度を変更する画像変換の少なくとも1つを行う。
図7~図10に示すような生成条件を適用したとき、生成手段105は、生成条件を適用した変換学習画像に対応する正例(正事例)のラベルを負例(負事例)に変換したデータを生成する。即ち、生成手段105は、生成学習データを生成する際に、正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換する。具体的には、例えば図4の学習データにおける矩形情報402を削除する。
図7~図10に示すような生成条件を適用したとき、生成手段105は、生成条件を適用した変換学習画像に対応する正例(正事例)のラベルを負例(負事例)に変換したデータを生成する。即ち、生成手段105は、生成学習データを生成する際に、正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換する。具体的には、例えば図4の学習データにおける矩形情報402を削除する。
さらに、生成手段105は、通常学習利用に割り当てた学習データと、変換学習利用に割り当てかつ生成条件を適用して生成された学習データを統合して、生成学習データとして、学習手段106に提供する。また、評価利用に割り当てた学習データを評価データとして評価手段107に提供する。
学習手段106は、一般的な物体検出CNNの学習における処理と同様の処理を行うものであり、生成手段105から提供される学習データを用いて所定のCNNを学習する。学習手段106は、学習済みのCNNモデルを評価手段107に提供する。
評価手段107は、一般的な物体検出CNNの評価における処理と同様の処理を行うものであり、学習手段106から提供される学習済みのCNNモデルと、生成手段105から提供される評価用データに基づいて、検出精度の評価を実施する。
評価手段107は、一般的な物体検出CNNの評価における処理と同様の処理を行うものであり、学習手段106から提供される学習済みのCNNモデルと、生成手段105から提供される評価用データに基づいて、検出精度の評価を実施する。
具体的には、評価データに含まれるGroundTruthと学習済みのCNNモデルの推論結果をIoU(Intersection over Union)に基づいて、正検出、未検出、誤検出に分類し、TP(TruePositve)、TN(TrueNegative)、FP(FalsePositve)、FN(FalseNegative)の数からF値を求める。
また、誤検出および未検出となった例について、被写体の部位の有無、部位の色、深度情報、温度情報を求め、誤検出物体特性および未検出物体特性として生成条件決定手段103に提供する。
生成条件決定手段103は、評価手段107から取得した誤検出物体特性および未検出物体特性に基づいて、生成条件リストを修正する。
生成条件決定手段103は、評価手段107から取得した誤検出物体特性および未検出物体特性に基づいて、生成条件リストを修正する。
生成条件リストを修正方法について説明する。生成条件決定手段103は、評価手段107から取得した誤検出物体特性に対応する生成条件を物体特性管理手段101から取得する。取得した生成条件を生成条件リストに追加する。次に、生成条件決定手段103は、評価手段107から取得した未検出物体特性に対応する生成条件を物体特性管理手段101から取得する。取得した生成条件を生成条件リストから除外する。
表示手段108は、ユーザーによる入力情報の生成のサポートを行うために、生成条件の設定内容および生成結果を表示する。
図11は、実施例に係る生成条件を入力、生成結果を確認するUIの例を示す図であり、表示手段108上で生成条件を入力、生成結果を確認、生成条件を設定するための生成条件設定UI1100の例を示している。ユーザーは表示手段に表示された生成結果に基づき、データ取得手段104で取得する学習データを、学習データ展開ボタン1101で指定することができる。
図11は、実施例に係る生成条件を入力、生成結果を確認するUIの例を示す図であり、表示手段108上で生成条件を入力、生成結果を確認、生成条件を設定するための生成条件設定UI1100の例を示している。ユーザーは表示手段に表示された生成結果に基づき、データ取得手段104で取得する学習データを、学習データ展開ボタン1101で指定することができる。
また、入力手段102によって、指定するカテゴリ、特性、変換条件、パラメータ等の生成条件を生成条件設定テーブル1102上で指定し設定することができる。生成条件設定テーブル1102は、物体特性管理手段101に記憶されている物体特性管理テーブル300に基づくものである。
ユーザーは、生成条件設定テーブル1102の各行をクリックすることで、非設定、抑制条件として設定、非抑制条件として設定、非設定の順にサイクリックに戻すことができ、複数の抑制条件および非抑制条件を設定することが可能である。また、設定完了後、生成ボタン1103をクリックすることで生成手段105のプロセスが起動する。
表示手段108を用いて、ユーザーは生成学習データのプレビューを行うことができる。生成結果確認画面1104は、生成ボタン1103をクリックした場合に生成手段105にて生成された生成学習データを例えば解像度の低い小さな画面サイズで表示する。これによって演算負荷を減らすことができる。ユーザーは生成結果確認画面1104に表示される生成した正例と負例を確認し、生成条件を修正することができる。
なお、生成条件設定テーブル1102に表示される、物体特性管理手段101のカテゴリとは、物体の種別を表す情報であればよく、特定の種別情報に限定されるものではない。また、特性情報とは、物体の特性を表す情報であればよく、図11に示されるような特定の特性情報に限定するものではない。さらに、生成条件とは、画像変換の内容を表す情報であればよく、図11に示されるような特定の生成条件に限定するものではない。
生成手段105は、学習データを通常学習利用、変換学習利用に割り当てる際に、1つの学習データを通常学習利用、変換学習利用の双方に割り当ててもよい。また、評価利用のデータは不図示の評価データ取得手段から取得し、学習データは評価利用に割り当てなくてもよい。
生成手段105の学習画像に適用する生成条件は、少なくとも1つ以上の組み合わせであればよく、複数の生成条件を1枚の画像に適用してもよいし、所定の学習画像に対して適用しない生成条件があってもよい。各生成条件で生成する画像枚数の割合は、入力手段102からユーザー入力を取得して決定してもよいし、生成条件決定手段103において生成条件リストに追加された頻度に基づき決定してもよい。
生成手段105における、生成学習データの一部の正例ラベルから負例ラベルへの変換は、学習手段106にて負例として扱われるような変換であればよく、特定の変換方法に限定されない。例えば負例であることを示すフラグを付与するような変換であっても良い。
また、表示手段108の生成条件の表示方法は、生成条件ごとにプルダウンを用意して非設定、抑制条件として設定、非抑制条件として設定、を選べるようにしてもよいし、ラジオボタンを用意して選択できるようにしてもよい。
また、表示手段108の生成条件の表示方法は、生成条件ごとにプルダウンを用意して非設定、抑制条件として設定、非抑制条件として設定、を選べるようにしてもよいし、ラジオボタンを用意して選択できるようにしてもよい。
つまり、カテゴリ、物体の特性、生成条件、パラメータを指定できるUIであればよく、図11に示されるような特定のUIに限定されない。
表示手段108のプレビュー用の生成結果確認画面1104は、生成した負例の全画像を並べて表示してもよいし、生成手段105の処理前に生成イメージをプレビューしてもよい。つまり、生成手段105による生成前に生成イメージをユーザーが目視で確認できる表示方法であればよく、図11に示されるような特定の方法に限定されるものではない。
表示手段108のプレビュー用の生成結果確認画面1104は、生成した負例の全画像を並べて表示してもよいし、生成手段105の処理前に生成イメージをプレビューしてもよい。つまり、生成手段105による生成前に生成イメージをユーザーが目視で確認できる表示方法であればよく、図11に示されるような特定の方法に限定されるものではない。
次に図12は、実施例の全体フローチャートであり、図12を用いて、上述の動作フローを説明する。まず、ステップS1201で、入力手段102を用いて抑制対象物体のカテゴリ情報を入力する。次にステップS1202で、生成条件決定手段103は、抑制対象物体のカテゴリ情報を用いて、物体特性管理手段101から対応する生成条件を取得する。
次にステップS1203で、生成条件決定手段103は、取得した生成条件に基づいて、抑制対象物体の画像に所定の変換処理をするための変換ルールを決定することで生成条件リストを生成する。次にステップS1204で、データ取得手段104を用いて学習データを、データ取得手段104に含まれる不図示の記憶媒体から取得する。即ち、ステップS1204は、教師データとしての学習データを取得するデータ取得ステップとして機能している。
次にステップS1205で、生成手段105は、学習データと生成条件リストを用いて学習データを上記の変換ルールに基づいて変換し、生成学習データを生成すると共に評価データを作成する。即ち、ステップS1205は学習データと生成条件に基づいて生成学習データを生成する生成ステップとして機能している。
次にステップS1206で生成条件を適用した学習画像についてGroundTruthのラベルを負例に変換した、即ち、例えば図4の矩形情報402を消したデータを生成する。次にステップS1207で、学習手段106は、一部のラベルが負例に変換された生成学習データを用いて物体検出CNNを学習し、学習済みCNNモデルを生成する。
次にステップS1208で、評価手段107は、学習済みCNNモデルと評価データを用いて、CNNモデルの推論結果の評価を行う。即ち、TP(TruePositve)、TN(TrueNegative)、FP(FalsePositve)、FN(FalseNegative)の数からF値を求める。
次にステップS1209で、評価結果があらかじめ設定した目標性能(例えばF値が所定値以下)を達成していればステップS1212で処理を終了し、達成していない場合はステップS1210に進む。次にステップS1210では評価結果に基づいて、誤検出した物体の特性情報等を分析し、誤検出物体のカテゴリ情報やその特性等を求める。次にステップS1211で、生成条件決定手段103は誤検出物体の特性情報に基づいて、生成条件リストにおける生成条件、即ち、どのカテゴリ情報の物体に対してどのような画像変換をするかという変換ルールを修正する。
以上、本発明をその好適な実施例に基づいて詳述してきたが、本発明は上記実施例に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。
また、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
なお、本実施例における制御の一部または全部を上述した実施例の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して学習データ生成装置に供給するようにしてもよい。そしてそのデータ生成装置におけるコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。
101 物体特性管理手段
102 入力手段
103 生成条件決定手段
104 データ取得手段
105 生成手段
106 学習手段
107 評価手段
108 表示手段
300 物体特性管理テーブル
400 画像
401 検出対象
402 矩形情報
500 深度画像
600 温度画像
700 部位塗りつぶし画像
701 頭部領域
800 部位色変換画像
900 深度変換画像
1000 温度変換画像
1100 生成条件設定UI
1101 学習データ展開ボタン
1102 生成条件設定テーブル
1103 生成ボタン
1104 生成結果確認画面
102 入力手段
103 生成条件決定手段
104 データ取得手段
105 生成手段
106 学習手段
107 評価手段
108 表示手段
300 物体特性管理テーブル
400 画像
401 検出対象
402 矩形情報
500 深度画像
600 温度画像
700 部位塗りつぶし画像
701 頭部領域
800 部位色変換画像
900 深度変換画像
1000 温度変換画像
1100 生成条件設定UI
1101 学習データ展開ボタン
1102 生成条件設定テーブル
1103 生成ボタン
1104 生成結果確認画面
Claims (11)
- 教師データを含む学習データを取得するデータ取得手段と、
前記学習データと生成条件に基づいて生成学習データを生成する生成手段と、
を有し、
前記生成手段は、前記生成学習データを生成する際に、正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換することを特徴とする学習データ生成装置。 - 前記生成手段は、前記正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換することによって、前記生成学習データの一部のラベルを前記正事例から負事例に変換することを特徴とする請求項1に記載の学習データ生成装置。
- 前記生成手段は、特定部位を塗りつぶす画像変換、前記特定部位の色を変更する画像変換、深度情報を特定のパターンに置き換える画像変換、検出対象の温度を変更する画像変換の少なくとも1つを行うことを特徴とする請求項1または2に記載の学習データ生成装置。
- さらに、抑制物体または非抑制物体のカテゴリ情報を入力する入力手段を有することを特徴とする請求項1~3のいずれか1項に記載の学習データ生成装置。
- さらに、抑制物体または非抑制物体の特性を入力する入力手段を有することを特徴とする請求項1~4のいずれか1項に記載の学習データ生成方法。
- さらに、物体のカテゴリ情報および前記生成条件を管理する物体特性管理手段を有することを特徴とする請求項1~5のいずれか1項に記載の学習データ生成装置。
- さらに、生成した前記学習データを用いてCNNを学習する学習手段と、
前記学習手段で学習した前記CNNを評価する評価手段と、
を有することを特徴とする請求項1~6のいずれか1項に記載の学習データ生成装置。 - さらに、前記評価手段で誤検出した物体の特性情報に基づいて前記生成条件を修正することを特徴とする請求項7に記載の前記学習データ生成装置。
- さらに、前記生成条件の設定内容および生成結果を表示する表示手段と、
前記表示手段に表示された前記生成結果に基づき前記生成条件を設定するためのUIを有することを特徴とする請求項1~8のいずれか1項に記載の学習データ生成装置。 - 教師データとしての学習データを取得するデータ取得ステップと、
前記学習データと生成条件に基づいて生成学習データを生成する生成ステップと、
を有し、
前記生成ステップは、前記生成学習データを生成する際に、正事例の教師データを予め設定されたルールに応じて負事例の教師データに変換することを特徴とする学習データ生成方法。 - 請求項1~9のいずれか1項に記載の前記学習データ生成装置の各手段をコンピュータにより制御するためのコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020208102A JP2022095024A (ja) | 2020-12-16 | 2020-12-16 | 学習データ生成装置、学習データ生成方法及びコンピュータプログラム |
US17/512,796 US11775612B2 (en) | 2020-12-16 | 2021-10-28 | Learning data generating apparatus, learning data generating method, and non-transitory computer readable-storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020208102A JP2022095024A (ja) | 2020-12-16 | 2020-12-16 | 学習データ生成装置、学習データ生成方法及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022095024A true JP2022095024A (ja) | 2022-06-28 |
Family
ID=81941559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020208102A Pending JP2022095024A (ja) | 2020-12-16 | 2020-12-16 | 学習データ生成装置、学習データ生成方法及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11775612B2 (ja) |
JP (1) | JP2022095024A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022095024A (ja) * | 2020-12-16 | 2022-06-28 | キヤノン株式会社 | 学習データ生成装置、学習データ生成方法及びコンピュータプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4875810A (en) | 1985-10-21 | 1989-10-24 | Canon Kabushiki Kaisha | Apparatus for controlling fine particle flow |
EP0600709B1 (en) | 1992-12-01 | 2000-03-29 | Canon Kabushiki Kaisha | Range-image processing apparatus and method |
US5619619A (en) * | 1993-03-11 | 1997-04-08 | Kabushiki Kaisha Toshiba | Information recognition system and control system using same |
JP3115508B2 (ja) * | 1995-06-21 | 2000-12-11 | シャープ株式会社 | カラー画像処理装置 |
JP3768665B2 (ja) | 1997-12-12 | 2006-04-19 | キヤノン株式会社 | 周波信号生成回路及び振動型アクチュエータの駆動装置 |
US6229402B1 (en) | 1998-05-28 | 2001-05-08 | Canon Kabushiki Kaisha | Driving circuit for vibration type actuator apparatus |
JP2000331013A (ja) * | 1999-05-19 | 2000-11-30 | Matsushita Electric Ind Co Ltd | 情報問いあわせ支援装置及び情報問いあわせ支援方法 |
JP2004129458A (ja) | 2002-10-07 | 2004-04-22 | Canon Inc | 振動型アクチュエータの制御装置、振動型アクチュエータシステム、振動型アクチュエータの制御方法 |
JP2005078376A (ja) * | 2003-08-29 | 2005-03-24 | Sony Corp | 対象物検出装置、対象物方法、及びロボット装置 |
JP4541785B2 (ja) | 2003-09-01 | 2010-09-08 | キヤノン株式会社 | 振動型アクチュエータ駆動制御装置および振動型アクチュエータ駆動制御方法 |
JP4314088B2 (ja) | 2003-09-25 | 2009-08-12 | キヤノン株式会社 | 振動型アクチュエータの制御装置および制御方法、振動型アクチュエータを駆動源とする装置 |
AU2010220015A1 (en) * | 2009-03-03 | 2010-09-10 | Fujifilm Corporation | Image processing device and method, and program |
EP3291052B1 (en) * | 2015-04-30 | 2022-10-05 | Sony Group Corporation | Image processing device, image processing method, and program |
JP6525912B2 (ja) * | 2016-03-23 | 2019-06-05 | 富士フイルム株式会社 | 画像分類装置、方法およびプログラム |
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
US10346721B2 (en) | 2017-11-01 | 2019-07-09 | Salesforce.Com, Inc. | Training a neural network using augmented training datasets |
US11321618B2 (en) * | 2018-04-25 | 2022-05-03 | Om Digital Solutions Corporation | Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method |
JP2020091302A (ja) * | 2018-12-03 | 2020-06-11 | 本田技研工業株式会社 | 感情推定装置、感情推定方法、およびプログラム |
JP7409080B2 (ja) * | 2019-12-27 | 2024-01-09 | 富士通株式会社 | 学習データ生成方法、学習データ生成プログラムおよび情報処理装置 |
JP2022095024A (ja) * | 2020-12-16 | 2022-06-28 | キヤノン株式会社 | 学習データ生成装置、学習データ生成方法及びコンピュータプログラム |
-
2020
- 2020-12-16 JP JP2020208102A patent/JP2022095024A/ja active Pending
-
2021
- 2021-10-28 US US17/512,796 patent/US11775612B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220188572A1 (en) | 2022-06-16 |
US11775612B2 (en) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Garlandini et al. | Evaluating the effectiveness and efficiency of visual variables for geographic information visualization | |
US10127199B2 (en) | Automatic measure of visual similarity between fonts | |
US20110227914A1 (en) | Generation of a depth map | |
CN101430633A (zh) | 屏幕分辨率改变时保持至少一个窗口视觉外观的方法和装置 | |
US9099007B1 (en) | Computerized processing of pictorial responses in evaluations | |
JP2001273091A (ja) | 多重解像度画像解析による指示位置検出 | |
US11269950B2 (en) | Analysis for framework assessment | |
JP2005500590A (ja) | カメラビュー内の制御可能なディスプレイの可視点のロバスト決定方法 | |
GB2541582A (en) | Hint based spot healing techniques | |
GB2578947A (en) | Unified digital content selection system for vector and raster graphics | |
JP2022095024A (ja) | 学習データ生成装置、学習データ生成方法及びコンピュータプログラム | |
Incoul et al. | Comparing paper and digital topographic maps using eye tracking | |
US7512289B2 (en) | Apparatus and method for examination of images | |
US8594384B2 (en) | Method and system for measuring text-rendering quality | |
US10430458B2 (en) | Automated data extraction from a chart from user screen selections | |
JP2023063324A5 (ja) | ||
TWI482147B (zh) | 影像處理方法及影像顯示裝置 | |
JP6070829B2 (ja) | 表示制御装置、情報処理装置、表示制御方法、表示制御プログラム及び情報処理システム | |
CN113360690A (zh) | 图片筛选方法、系统、设备及存储介质 | |
Rushmeier et al. | Perceptual measures for effective visualizations | |
WO2021100158A1 (ja) | 電子帳票作成装置、電子帳票作成方法、及びプログラム | |
DE102019107103A1 (de) | Verfahren und system zur objektsegmentierung in einer mixed-reality- umgebung | |
JP2020024555A (ja) | 漫画データセット生成装置及び漫画データセット生成プログラム | |
JP5673128B2 (ja) | 可変印刷検査装置及び可変印刷検査プログラム | |
Dospinescu et al. | Integrated Applications with Laser Technology. |