JP2018173814A - 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 - Google Patents
画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 Download PDFInfo
- Publication number
- JP2018173814A JP2018173814A JP2017071447A JP2017071447A JP2018173814A JP 2018173814 A JP2018173814 A JP 2018173814A JP 2017071447 A JP2017071447 A JP 2017071447A JP 2017071447 A JP2017071447 A JP 2017071447A JP 2018173814 A JP2018173814 A JP 2018173814A
- Authority
- JP
- Japan
- Prior art keywords
- teacher data
- image processing
- unit
- image
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 160
- 238000000034 method Methods 0.000 title claims description 95
- 238000003672 processing method Methods 0.000 title claims description 11
- 230000000873 masking effect Effects 0.000 claims abstract description 91
- 238000012360 testing method Methods 0.000 claims description 78
- 238000013135 deep learning Methods 0.000 claims description 38
- 238000013500 data storage Methods 0.000 description 51
- 238000013528 artificial neural network Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 30
- 230000011218 segmentation Effects 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 4
- 238000004886 process control Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 235000016623 Fragaria vesca Nutrition 0.000 description 1
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000220225 Malus Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19167—Active pattern learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
また、カメラによる画像認識において、検出不要とした画像のマスクパターンを用意し、カメラ画像をマスクすることにより誤認識を防止する方法が提案されている(例えば、特許文献2参照)。
教師データのバリエーションを増やしても、バリエーションに片寄り(重複)がある場合、ディープラーニングにより教師データの固有の特徴部分以外の部分を学習してしまい、処理に時間がかかるうえ、認識率が却って低下する可能性がある。例えば、2種類の自動車を学習する際に、一方はフロントガラス越しに搭乗者が見える教師データのみ、他方は搭乗者が見えない教師データのみであったとすると、搭乗者の有無を特徴として学習してしまうおそれがある。
前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部を、有する画像処理装置である。
なお、本発明の「画像処理装置」における指定部、教師データ生成部等が行う制御は、本発明の「画像処理方法」を実施することと同義であるので、本発明の「画像処理装置」の説明を通じて本発明の「画像処理方法」の詳細についても明らかにする。また、本発明の「画像処理プログラム」は、ハードウェア資源としてのコンピュータ等を用いることにより、本発明の「画像処理装置」として実現させることから、本発明の「画像処理装置」の説明を通じて本発明の「画像処理プログラム」の詳細についても明らかにする。
また、「教師データ生成装置」における指定部及び教師データ生成部が行う制御は、本発明の「教師データ生成方法」を実施することと同義であるので、「教師データ生成装置」の説明を通じて本発明の「教師データ生成方法」の詳細についても明らかにする。また、「教師データ生成プログラム」は、ハードウェア資源としてのコンピュータ等を用いることにより、「教師データ生成装置」として実現させることから、「教師データ生成装置」の説明を通じて「教師データ生成プログラム」の詳細についても明らかにする。
画像処理装置は、認識対象の教師データの画像における意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分の少なくとも一部を指定する指定部と、指定された当該固有の特徴部分以外の部分の少なくとも一部をマスクして認識対象のマスク済み教師データを生成する教師データ生成部とを有し、さらに、学習部及び推論部を有することが好ましい。
教師データ生成部は、固有の特徴部分以外の部分の複数がマスクされている場合、前記複数のマスクのうちの一部のマスクを外したマスク済み教師データをさらに生成することが好ましい。
テストデータ生成部は、固有の特徴部分以外の部分の複数がマスクされている場合、前記複数のマスクのうちの一部のマスクを外したマスク済みテストデータをさらに生成することが好ましい。
ここで、認識対象以外固有の特徴部分を判別する方法(特徴部分の特徴量を取得する方法)としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、SIFT(Scale−Invariant Feature Transform)、SURF(Speed−Upped Robust Feature)、RIFF(Rotation−Invariant Fast Feature)、HOG(Histograms of Oriented Gradients)等の手法により得る方法などが挙げられる。
固有の特徴部分以外の部分は、認識対象に応じて異なり一概には規定できないが、具体的には意図しない特徴部分であって、学習が不要な部分であり、例えば、自動車を分類する場合には、固有の数字が表されたナンバープレート、搭乗者が映り込む可能性のあるフロントガラス、反射の態様が車両によって異なるヘッドライトなどが挙げられる。
また、動物を分類する場合には、首輪やタグなどが挙げられる。人が飼っている動物とそうでないもので首輪やタグを特徴と認識して誤って学習する可能性がある。
また、衣類を分類する場合には、人間やマネキンなどが挙げられる。衣類のみの写真と、人間やマネキンが衣類を着た状態の写真とでは、衣類を着ている人やマネキンを特徴と認識して誤って学習する可能性がある。
画像認識技術では、画像データから対象物となる輪郭を抽出し、背景から分離した上で、その対象物が何であるかを分析する。
画像認識技術を応用した技術としては、例えば、OCR(Optical Character Recognition)、顔認証、虹彩認証などが挙げられる。
画像認識技術では、ピクセルの集合である画像データから、ある種のパターンを取り出し、そこから意味を読み取るという処理を行う。パターンの分析によって対象物の意味を抽出することをパターン認識と呼ぶ。パターン認識は、画像認識だけでなく、音声認識や言語解析などにも用いられる。
以下、実施例1の画像処理装置について説明する。この画像処理装置は、認識対象の教師データを用いて画像認識を行う装置である。
実施例1では、作業者により、意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分のマスキングを行う指定部及び教師データ生成部を有する画像処理装置の一例について説明する。
指定部5は、マウスやトラックボール等のポインティングデバイスやキーボード等を含む不図示の入力装置を用いることにより作業者によって入力される、意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分であるマスク指定領域を指定する。
このマスク指定領域については、ソフトウェアが指定してもよく、SIFT、SURF、RIFF、HOG、又はこれらの組み合わせを用いることができる。
教師データ生成部10は、指定部5によって指定されるマスク指定領域をマスクして認識対象のマスク済み教師データを生成する。
学習部200は、教師データ生成部10で生成したマスク済み教師データを用いて学習を行う。
推論部300は、学習部200で求めた学習済み重みを用いて推論(テスト)を行う。
学習時には、マスク済み教師データを用いることにより、固有の特徴部分以外の部分を学習しない学習済み重みを得ることができる。
推論時には、作業者によりマスクすることは現実的でないため、例えば、テストデータはマスクせずに推論を実行するか、自動的にテストデータに対して自動的にマスクをしてもよい。
図4に示すように、教師データ生成部10は、指定部5が指定した教師データにおける意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分の少なくとも一部をマスクして認識対象のマスク済み教師データを生成し、マスク済み教師データ格納部12に格納する。
ここで、指定部5及び教師データ生成部10の構成は、本発明に関する「教師データ生成装置」に該当し、指定部5及び教師データ生成部10を実施する処理は、本発明の「教師データ生成方法」に該当し、指定部5及び教師データ生成部10の処理をコンピュータに実行させるプログラムは、本発明に関する「教師データ生成プログラム」に該当する。
指定部5は、指定制御部8の制御により、教師データ格納部11に格納されている全ての教師データの画像に対して、マスク指定領域テーブル13に従って、マスク領域データを作成し、マスク領域データ格納部15に格納すると共に、マスキング処理部16を実行する。指定制御部8の処理は、作業者又はソフトウェアが実施する。
作業者は、マスク指定領域テーブル13に従ってマスク領域データを作成し、マスクIDとともにマスク領域データ格納部15に格納する。
例えば、車両では、以下の表2に示すようなマスク指定領域テーブルが挙げられる。
例えば、車両では、以下の表3に示すようなテーブルが挙げられる。
マスキングの方法としては、例えば、単色での塗りつぶし、ガウシアンフィルタによるぼかし、などが挙げられる。
マスキング方法によって、学習結果は異なるものになる。なお、複数のパターンで学習を実施し、最もよいマスキング方法を選択することが好ましい。
マスキング処理部16は、マスキング処理制御部17に制御されている。
マスキング処理制御部17は、教師データ格納部11の全ての教師データを、マスク領域データ格納部15のマスク情報に基づき、マスク処理し、マスク済み教師データをマスク済み教師データ格納部12へ格納する。
学習部200は、教師データ生成部10で生成したマスク済み教師データを用いて学習を行う。
図10は、学習部全体の一例を示すブロック図であり、図11は、学習部全体の他の一例を示すブロック図である。
教師データ生成部10で生成したマスク済み教師データを用いて行う学習は、通常のディープラーニング学習と同様にして行うことができる。
学習の終了条件は、ニューラルネットワークに入力しているか、又は損失関数208が閾値を下回ったかで決定される。
学習済み重み202を有していないと判定すると、ディープラーニング学習部204が、構築したニューラルネットワークにニューラルネットワーク定義201で指定されたアルゴリズムに従い、初期値を設定すると、処理をS506に移行する。一方、学習済み重み202を有していると判定すると、ディープラーニング学習部204が、構築したニューラルネットワークに学習済み重み202を設定すると、処理をS506に移行する。なお、初期値は、ニューラルネットワーク定義201に記載されている。
推論部300は、学習部200で求めた学習済み重みを用いて推論(テスト)を行う。
図13は、推論部全体の一例を示すブロック図であり、図14は、推論部全体の他の一例を示すブロック図である。
テストデータ格納部301を用いた推論は、通常のディープラーニング推論と同様にして行うことができる。
テストデータ格納部301は、推論用のテストデータを格納する。テストデータは入力データ(画像)のみである。
ニューラルネットワーク定義302は、学習部200のニューラルネットワーク定義201と基本的な構造は共通する。
学習済み重み303は、推論は学習した成果を評価するため、必ず与える。
ディープラーニング推論部304は、学習部200のディープラーニング学習部204に対応する。
この結果から、実施例1の画像処理装置を用いることにより、教師データの固有の特徴分を学習できるようになった。
実施例1において、教師データ生成部10で生成したマスク済み教師データが、複数のマスクを有する場合、複数のマスクのうちの一部のみをマスクする点以外は、実施例1と同様にすることにより、実施例2の画像処理装置を実現した。
これは、実施例1において、図9のS404における処理で全てのマスク指定領域について行うマスク処理を、1つ以上のランダムなマスク指定領域についてマスクするように変更することで実現した。
実施例3の画像処理装置は、実施例1の画像処理装置で作成したマスク領域データ格納部15を用い、自動的にマスキングを行って、得られたマスク済み教師データを用いて学習を行うと共に、自動的にマスキングを行って、得られたマスク済みテストデータを用いて推論を行った以外は、実施例1と同様であるため、既に説明した同一の構成については、同じ参照符号を付してその説明を省略する。
セマンティックセグメンテーションの実装としては、以下のものが知られている。
・FCN(https://people.eecs.berkeley.edu/〜jonlong/shelhamer_fcn.pdf)
・deconvnet(http://cvlab.postech.ac.kr/research/deconvnet/)
・DeepMask(https://github.com/facebookresearch/deepmask)
例えば、図8に示す例では、意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分としてナンバープレートやヘッドライトのマスクを出力することができる。
ニューラルネットワークの入出力のペアは、学習の入力データ及び推論ラベルに対応するため、教師データ格納部11から入力データが、実施例1のマスク領域データ格納部15から推論ラベルが取得でき、セマンティックセグメンテーションのための教師データを構成できる。
マスク領域データ格納部15としては、実施例1で作業者が作成したものを用いる。即ち、実施例1のマスク領域データをマスキング学習部21の教師データの正解データとして用いる。
テストデータ生成部31は、認識対象のテストデータの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域をマスクして認識対象のマスク済みテストデータを生成する。
図18は、実施例3のマスキング学習部21の一例を示すブロック図である。
マスキング学習部21は、入力データとして教師データ格納部11の教師画像と、入力データの教師画像と教師データIDで対応づけられたマスク情報において、マスク領域のマスクIDとマスク領域ビットマップを正解ラベルとする教師データを用いて、セマンティックセグメンテーションによる学習を実施する。
セマンティックセグメンテーションニューラルネットワーク定義28は、多層構造のニューラルネットワーク(ディープニューラルネットワーク)の種別がセマンティックセグメンテーションである点以外は、通常のニューラルネットワーク定義と同様であり、作業者の指定値である。
図19は、実施例3の自動マスキング部23の一例を示すブロック図である。
自動マスキング部23は、実施例1の図6に示す教師データ生成部10のうち、マスク領域データ格納部15の作成を、マスキング学習部21で学習したセマンティックセグメンテーションを用いたディープラーニング推論部304により置き換えた構成である。
なお、マスキング処理部16によるマスキング処理は、実施例1と同様である。
学習部200は、実施例1のマスク済み教師データを用いた学習部200と同様である。
推論部300は、テストデータ(画像)を用い、セマンティックセグメンテーションディープラーニング推論部によりテストデータに自動でマスキング処理すること以外は、通常の推論と同様の処理を行う。
マスキングの自動化により、推論時のマスキングが可能になり、推論時に学習時と同等のマスキングがされることによって、認識率の向上が図れる。
テストデータ格納部301は、推論用のテストデータ(画像)を格納している。
テストデータ生成部31は、自動マスキング用学習済み重み22を用いてセマンティックセグメンテーションを実施し、マスク済みテストデータ32を生成する。
なお、ニューラルネットワーク定義302及び学習済み重み303は、実施例1の推論部と同様である。
テストデータ生成部31は、テストデータ格納部301からテストデータ(画像)33を受け取り、自動マスキング用学習済み重み22を用いてセマンティックセグメンテーションを実施し、マスク済みテストデータ32を出力する。
マスク済み画像生成部36は、実施例1のマスキング処理部におけるマスク済み画像生成部19と同様である。
実施例3において、テストデータ生成部31で生成したマスク済みテストデータが複数のマスクを有している場合には、複数のマスクのうちの一部のマスクを外したマスク済みテストデータをさらに生成した以外は、実施例3と同様である実施例4の画像処理装置を得た。
ここで、上記のマスク済みテストデータについては、必ず1箇所はマスクされているテストデータである。
なお、複数がマスクされたマスク済みテストデータから一部のマスクを選択して外す方法としては、例えば、乱数を用いたランダムな処理によりマスク済みテストデータから一部のマスクを選択する方法などが挙げられる。
実施例5の画像処理装置は、実施例3において、推論部の対象をストリーミング動画とし、リアルタイム及び/又は非リアルタイムで推論を実施する以外は、実施例3と同様であるため、既に説明した同一の構成については、同じ参照符号を付してその説明を省略する。
実施例5では、実施例3の推論部300において、テストデータ格納部301をストリーミング動画に変更した構成をとる。これにより、ディープラーニングでの推論処理をリアルタイムで行う必要がない場合などのために推論契機の制御機構を備える。
推論実施契機制御方式41は、作業者指定のパラメータであり、定期的なイベントの推論の契機を以下のとおり規定し、推論制御部43へ発信する。
・全フレーム
・一定間隔
・推論イベント発生器に依存
(付記1)
認識対象の教師データを用いて画像認識を行う画像処理装置において、
前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部と、
を有することを特徴とする画像処理装置。
(付記2)
前記画像処理装置において、
複数の前記マスク指定領域がマスクされている場合、前記教師データ生成部が、前記複数のマスク指定領域のうち一部のマスクを外したマスク済み教師データをさらに生成する付記1に記載の画像処理装置。
(付記3)
前記画像処理装置はさらに、
前記教師データ生成部が生成したマスク済み教師データを用いて学習を行う学習部を有する付記1又は2に記載の画像処理装置。
(付記4)
前記画像処理装置はさらに、
前記学習部が生成した学習済み重みを用いて推論を行う推論部を有する付記3に記載の画像処理装置。
(付記5)
前記画像処理装置はさらに、
前記認識対象のテストデータの画像におけるマスク指定領域をマスクして、前記マスク済みテストデータを生成するテストデータ生成部を有する付記1から3のいずれか一項に記載の画像処理装置。
(付記6)
前記画像処理装置において、
複数の前記マスク指定領域がマスクされている場合、前記テストデータ生成部が、前記複数のマスク指定領域のうちの一部のマスクを外したマスク済みテストデータをさらに生成する付記5に記載の画像処理装置。
(付記7)
前記画像処理装置はさらに、
前記テストデータ生成部が生成したマスク済みテストデータを用いて推論を行う推論部を有する付記5又は6に記載の画像処理装置。
(付記8)
前記画像処理装置において、
前記画像認識は、ディープラーニングの手法により行われる付記1から7のいずれか一項に記載の画像処理装置。
(付記9)
認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理方法において、
前記画像処理装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
前記画像処理装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする画像処理方法。
(付記10)
認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理プログラムにおいて、
前記画像処理装置が有する指定部に、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定させ、
前記画像処理装置が有する教師データ生成部に、前記指定部が指定したマスク指定領域をマスクさせ、マスク済み教師データを生成させることを特徴とする画像処理プログラム。
(付記11)
認識対象の画像認識を行うための教師データを生成する教師データ生成装置を用いた教師データ生成方法において、
前記教師データ生成装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
前記教師データ生成装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする教師データ生成方法。
(付記12)
前記教師データ生成方法において、
複数の前記マスク指定領域がマスクされている場合、前記教師データ生成部が、前記複数のマスク指定領域のうち一部のマスクを外したマスク済み教師データをさらに生成する付記11に記載の教師データ生成方法。
(付記13)
認識対象の画像認識を行うための教師データを生成する教師データ生成装置において、
前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部と、
を有することを特徴とする教師データ生成装置。
(付記14)
認識対象の教師データを用いて画像認識を行う教師データ生成装置の教師データ生成プログラムにおいて、
前記教師データ生成装置が有する指定部に、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定させ、
前記教師データ生成装置が有する教師データ生成部に、前記指定部が指定したマスク指定領域をマスクさせ、マスク済み教師データを生成させることを特徴とする教師データ生成プログラム。
8 指定制御部
10 教師データ生成部
11 教師データ格納部
12 マスク済み教師データ格納部
13 マスク指定領域テーブル
15 マスク領域データ格納部
16 マスキング処理部
17 マスキング処理制御部
19 マスク済み画像生成部
21 マスキング学習部
23 自動マスキング部
31 テストデータ生成部
100 画像処理装置
200 学習部
300 推論部
Claims (11)
- 認識対象の教師データを用いて画像認識を行う画像処理装置において、
前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部と、
を有することを特徴とする画像処理装置。 - 前記画像処理装置において、
複数の前記マスク指定領域がマスクされている場合、前記教師データ生成部が、前記複数のマスク指定領域のうち一部のマスクを外したマスク済み教師データをさらに生成する請求項1に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記教師データ生成部が生成したマスク済み教師データを用いて学習を行う学習部を有する請求項1又は2に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記学習部が生成した学習済み重みを用いて推論を行う推論部を有する請求項3に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記認識対象のテストデータの画像におけるマスク指定領域をマスクして、前記マスク済みテストデータを生成するテストデータ生成部を有する請求項1から3のいずれか一項に記載の画像処理装置。 - 前記画像処理装置において、
複数の前記マスク指定領域がマスクされている場合、前記テストデータ生成部が、前記複数のマスク指定領域のうちの一部のマスクを外したマスク済みテストデータをさらに生成する請求項5に記載の画像処理装置。 - 前記画像処理装置はさらに、
前記テストデータ生成部が生成したマスク済みテストデータを用いて推論を行う推論部を有する請求項5又は6に記載の画像処理装置。 - 前記画像処理装置において、
前記画像認識は、ディープラーニングの手法により行われる請求項1から7のいずれか一項に記載の画像処理装置。 - 認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理方法において、
前記画像処理装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
前記画像処理装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする画像処理方法。 - 認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理プログラムにおいて、
前記画像処理装置が有する指定部に、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定させ、
前記画像処理装置が有する教師データ生成部に、前記指定部が指定したマスク指定領域をマスクさせ、マスク済み教師データを生成させることを特徴とする画像処理プログラム。 - 認識対象の画像認識を行うための教師データを生成する教師データ生成装置を用いた教師データ生成方法において、
前記教師データ生成装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
前記教師データ生成装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする教師データ生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017071447A JP2018173814A (ja) | 2017-03-31 | 2017-03-31 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
US15/921,779 US20180285698A1 (en) | 2017-03-31 | 2018-03-15 | Image processing apparatus, image processing method, and image processing program medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017071447A JP2018173814A (ja) | 2017-03-31 | 2017-03-31 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018173814A true JP2018173814A (ja) | 2018-11-08 |
Family
ID=63670776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017071447A Pending JP2018173814A (ja) | 2017-03-31 | 2017-03-31 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180285698A1 (ja) |
JP (1) | JP2018173814A (ja) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020111048A1 (ja) * | 2018-11-26 | 2020-06-04 | 大日本印刷株式会社 | コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法 |
JP2020087165A (ja) * | 2018-11-29 | 2020-06-04 | 富士通株式会社 | 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法 |
WO2020145146A1 (ja) * | 2019-01-09 | 2020-07-16 | 日本電信電話株式会社 | 推論処理装置および推論処理方法 |
JP2020126363A (ja) * | 2019-02-01 | 2020-08-20 | 株式会社小松製作所 | 画像処理システム、画像処理方法、学習済みモデルの生成方法、および学習用データセット |
JP2020135465A (ja) * | 2019-02-20 | 2020-08-31 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび認識装置 |
JPWO2020204051A1 (ja) * | 2019-04-02 | 2020-10-08 | ||
WO2020261392A1 (ja) * | 2019-06-25 | 2020-12-30 | 三菱電機株式会社 | 学習装置、物体検出装置および学習方法 |
WO2021019865A1 (ja) * | 2019-07-28 | 2021-02-04 | 株式会社アドバンテスト | 検査装置、検査方法、および、検査プログラム、ならびに、学習装置、学習方法、および、学習プログラム |
JP2021026685A (ja) * | 2019-08-08 | 2021-02-22 | セコム株式会社 | 対象物認識装置、対象物認識方法、及び対象物認識プログラム |
JP2021033376A (ja) * | 2019-08-15 | 2021-03-01 | 沖電気工業株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2021130995A1 (ja) * | 2019-12-26 | 2021-07-01 | 日本電気株式会社 | データ生成装置、学習システム、データ拡張方法、およびプログラム記録媒体 |
WO2021130888A1 (ja) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | 学習装置、推定装置および学習方法 |
JP2021149924A (ja) * | 2020-03-18 | 2021-09-27 | マルハニチロ株式会社 | 計数システム |
JP2022007000A (ja) * | 2020-06-25 | 2022-01-13 | 株式会社Screenホールディングス | 画像処理装置、外観検査装置、学習済みパラメータ、画像処理方法、およびプログラム |
JP7299542B1 (ja) | 2022-05-18 | 2023-06-28 | キヤノンマーケティングジャパン株式会社 | 情報処理システム及びその制御方法、プログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6333871B2 (ja) * | 2016-02-25 | 2018-05-30 | ファナック株式会社 | 入力画像から検出した対象物を表示する画像処理装置 |
US20200242771A1 (en) * | 2019-01-25 | 2020-07-30 | Nvidia Corporation | Semantic image synthesis for generating substantially photorealistic images using neural networks |
JP7279526B2 (ja) * | 2019-05-31 | 2023-05-23 | 富士通株式会社 | 解析プログラム、解析装置及び解析方法 |
JP7243486B2 (ja) * | 2019-06-27 | 2023-03-22 | トヨタ自動車株式会社 | 学習装置、歩行訓練システム、方法、及びプログラム |
DE102020126953B3 (de) * | 2020-10-14 | 2021-12-30 | Bayerische Motoren Werke Aktiengesellschaft | System und Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210651A (ja) * | 2014-04-25 | 2015-11-24 | サントリーシステムテクノロジー株式会社 | 商品識別システム |
JP2017054450A (ja) * | 2015-09-11 | 2017-03-16 | キヤノン株式会社 | 認識装置、認識方法及び認識用プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209966A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 画像処理装置および方法、並びにプログラム |
US8903167B2 (en) * | 2011-05-12 | 2014-12-02 | Microsoft Corporation | Synthesizing training samples for object recognition |
WO2016145516A1 (en) * | 2015-03-13 | 2016-09-22 | Deep Genomics Incorporated | System and method for training neural networks |
US10346727B2 (en) * | 2016-10-28 | 2019-07-09 | Adobe Inc. | Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media |
US10242449B2 (en) * | 2017-01-04 | 2019-03-26 | Cisco Technology, Inc. | Automated generation of pre-labeled training data |
-
2017
- 2017-03-31 JP JP2017071447A patent/JP2018173814A/ja active Pending
-
2018
- 2018-03-15 US US15/921,779 patent/US20180285698A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210651A (ja) * | 2014-04-25 | 2015-11-24 | サントリーシステムテクノロジー株式会社 | 商品識別システム |
JP2017054450A (ja) * | 2015-09-11 | 2017-03-16 | キヤノン株式会社 | 認識装置、認識方法及び認識用プログラム |
Non-Patent Citations (2)
Title |
---|
JIFENG DAI ET AL: "Convolutional feature masking for joint object and stuff segmentation", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6021005817, 12 June 2015 (2015-06-12), US, pages 3992 - 4000, XP032793852, ISSN: 0004597747, DOI: 10.1109/CVPR.2015.7299025 * |
竹田 史章,大松 繁: "ランダムマスクを前処理機構に有する小規模ニューラルネットワークによる貨幣識別技術", 電気学会論文誌C, vol. 114, no. 1, JPN6021005818, 20 January 1994 (1994-01-20), JP, pages 87 - 92, ISSN: 0004450790 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020111048A1 (ja) * | 2018-11-26 | 2020-06-04 | 大日本印刷株式会社 | コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法 |
JPWO2020111048A1 (ja) * | 2018-11-26 | 2021-10-21 | 大日本印刷株式会社 | コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法 |
JP7220062B2 (ja) | 2018-11-29 | 2023-02-09 | 富士通株式会社 | 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法 |
JP2020087165A (ja) * | 2018-11-29 | 2020-06-04 | 富士通株式会社 | 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法 |
WO2020145146A1 (ja) * | 2019-01-09 | 2020-07-16 | 日本電信電話株式会社 | 推論処理装置および推論処理方法 |
JP7365122B2 (ja) | 2019-02-01 | 2023-10-19 | 株式会社小松製作所 | 画像処理システムおよび画像処理方法 |
JP2020126363A (ja) * | 2019-02-01 | 2020-08-20 | 株式会社小松製作所 | 画像処理システム、画像処理方法、学習済みモデルの生成方法、および学習用データセット |
US12094151B2 (en) | 2019-02-01 | 2024-09-17 | Komatsu Ltd. | Image processing system, image processing method, learned model generation method, and data set for learning |
JP2020135465A (ja) * | 2019-02-20 | 2020-08-31 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび認識装置 |
JP7086878B2 (ja) | 2019-02-20 | 2022-06-20 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび認識装置 |
WO2020204051A1 (ja) * | 2019-04-02 | 2020-10-08 | 富士フイルム株式会社 | 画像処理装置とその作動方法および作動プログラム、運用装置とその作動方法および作動プログラム、並びに機械学習システム |
US12062184B2 (en) | 2019-04-02 | 2024-08-13 | Fujifilm Corporation | Image processing apparatus, and operation method and operating program thereof, operating apparatus, and operation method and operating program thereof, and machine learning system |
JP7138780B2 (ja) | 2019-04-02 | 2022-09-16 | 富士フイルム株式会社 | 画像処理装置とその作動方法および作動プログラム、運用装置とその作動方法および作動プログラム、並びに機械学習システム |
JPWO2020204051A1 (ja) * | 2019-04-02 | 2020-10-08 | ||
JP6945772B1 (ja) * | 2019-06-25 | 2021-10-06 | 三菱電機株式会社 | 学習装置、物体検出装置および学習方法 |
WO2020261392A1 (ja) * | 2019-06-25 | 2020-12-30 | 三菱電機株式会社 | 学習装置、物体検出装置および学習方法 |
WO2021019865A1 (ja) * | 2019-07-28 | 2021-02-04 | 株式会社アドバンテスト | 検査装置、検査方法、および、検査プログラム、ならびに、学習装置、学習方法、および、学習プログラム |
JPWO2021019865A1 (ja) * | 2019-07-28 | 2021-02-04 | ||
US11244443B2 (en) | 2019-07-28 | 2022-02-08 | Advantest Corporation | Examination apparatus, examination method, recording medium storing an examination program, learning apparatus, learning method, and recording medium storing a learning program |
TWI849144B (zh) * | 2019-07-28 | 2024-07-21 | 日商愛德萬測試股份有限公司 | 檢查裝置、檢查方法及記錄了檢查程式之記錄媒體、以及學習裝置、學習方法及記錄了學習程式之記錄媒體 |
JP7190047B2 (ja) | 2019-07-28 | 2022-12-14 | 株式会社アドバンテスト | 検査装置、検査方法、および、検査プログラム、ならびに、学習装置、学習方法、および、学習プログラム |
JP7349288B2 (ja) | 2019-08-08 | 2023-09-22 | セコム株式会社 | 対象物認識装置、対象物認識方法、及び対象物認識プログラム |
JP2021026685A (ja) * | 2019-08-08 | 2021-02-22 | セコム株式会社 | 対象物認識装置、対象物認識方法、及び対象物認識プログラム |
JP2021033376A (ja) * | 2019-08-15 | 2021-03-01 | 沖電気工業株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP7334801B2 (ja) | 2019-12-25 | 2023-08-29 | 日本電気株式会社 | 学習装置、学習方法および学習プログラム |
WO2021130888A1 (ja) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | 学習装置、推定装置および学習方法 |
JPWO2021130888A1 (ja) * | 2019-12-25 | 2021-07-01 | ||
WO2021130995A1 (ja) * | 2019-12-26 | 2021-07-01 | 日本電気株式会社 | データ生成装置、学習システム、データ拡張方法、およびプログラム記録媒体 |
JP2021149924A (ja) * | 2020-03-18 | 2021-09-27 | マルハニチロ株式会社 | 計数システム |
JP7479961B2 (ja) | 2020-06-25 | 2024-05-09 | 株式会社Screenホールディングス | 画像処理装置、外観検査装置、画像処理方法、およびプログラム |
JP2022007000A (ja) * | 2020-06-25 | 2022-01-13 | 株式会社Screenホールディングス | 画像処理装置、外観検査装置、学習済みパラメータ、画像処理方法、およびプログラム |
JP7299542B1 (ja) | 2022-05-18 | 2023-06-28 | キヤノンマーケティングジャパン株式会社 | 情報処理システム及びその制御方法、プログラム |
JP2023169922A (ja) * | 2022-05-18 | 2023-12-01 | キヤノンマーケティングジャパン株式会社 | 情報処理システム及びその制御方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20180285698A1 (en) | 2018-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018173814A (ja) | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 | |
CN109426801B (zh) | 一种车道线实例检测方法和装置 | |
EP3654248A1 (en) | Verification of classification decisions in convolutional neural networks | |
KR102306658B1 (ko) | 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치 | |
TW201706918A (zh) | 作爲供神經網路的訓練準則的濾波器特異性 | |
JP2018163554A (ja) | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 | |
US11436436B2 (en) | Data augmentation system, data augmentation method, and information storage medium | |
JP2016534709A (ja) | 顕微鏡画像内の個々の細胞を分類および識別するための方法およびシステム | |
US11403560B2 (en) | Training apparatus, image recognition apparatus, training method, and program | |
Shenavarmasouleh et al. | Drdr: Automatic masking of exudates and microaneurysms caused by diabetic retinopathy using mask r-cnn and transfer learning | |
JP2018026122A5 (ja) | ||
KR102370910B1 (ko) | 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법 | |
KR20190078899A (ko) | 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법 | |
KR20190072074A (ko) | 악성 코드 검출 방법 및 시스템 | |
US11403491B2 (en) | Object recognition from images using cad models as prior | |
DE102021208927A1 (de) | System und verfahren zur strassenzeichen-ground-truth-erstellung mit einem wissensgraphen und maschinellem lernen | |
KR102506222B1 (ko) | 비전 데이터 수집, 학습, 배포 및 추론 방법 및 시스템 | |
WO2019076867A1 (en) | SEMANTIC SEGMENTATION OF AN OBJECT IN AN IMAGE | |
KR20230099941A (ko) | 자기 지도학습과 복사-붙이기 데이터 증강을 이용한 건설객체 분할모델 일반화방법 및 일반화시스템 | |
CN115393625A (zh) | 从粗略标记进行图像分段的半监督式训练 | |
Choodowicz et al. | Hybrid algorithm for the detection and recognition of railway signs | |
US20220215228A1 (en) | Detection method, computer-readable recording medium storing detection program, and detection device | |
Wang et al. | Artificial aging of faces by support vector machines | |
KR20210089044A (ko) | 물체 인식을 위한 학습 데이터를 선택하는 방법 및 상기 방법을 이용하여 학습된 물체 인식 모델을 이용하여 물체를 인식하는 물체 인식 장치 | |
Sikand et al. | Using Classifier with Gated Recurrent Unit-Sigmoid Perceptron, Order to Get the Right Bird Species Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210921 |