JP2018173814A - 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 - Google Patents

画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 Download PDF

Info

Publication number
JP2018173814A
JP2018173814A JP2017071447A JP2017071447A JP2018173814A JP 2018173814 A JP2018173814 A JP 2018173814A JP 2017071447 A JP2017071447 A JP 2017071447A JP 2017071447 A JP2017071447 A JP 2017071447A JP 2018173814 A JP2018173814 A JP 2018173814A
Authority
JP
Japan
Prior art keywords
teacher data
image processing
unit
image
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017071447A
Other languages
English (en)
Inventor
吾郎 山田
Goro Yamada
吾郎 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017071447A priority Critical patent/JP2018173814A/ja
Priority to US15/921,779 priority patent/US20180285698A1/en
Publication of JP2018173814A publication Critical patent/JP2018173814A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19167Active pattern learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】教師データの画像における固有の特徴部分以外の部分を学習することを防止でき、認識率の向上を効率よく図れる画像処理装置等の提供。【解決手段】認識対象の教師データを用いて画像認識を行う画像処理装置において、認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部を、有する画像処理装置である。【選択図】図2

Description

本発明は、画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法に関する。
今日、人工知能分野における機械学習のなかでもディープラーニング(deep learning;深層学習)は、特に画像認識の分野で目覚ましい成果を上げている。しかし、画像認識に限らず、ディープラーニングは様々なバリエーションを持った大量の教師データを必要とする点が実用化における課題となる。そのような大量の教師データを揃えることは、時間面及びコスト面並びに著作権の権利処理の面から現実的に難しいことが多く、教師データが不十分な場合には学習が十分に行われず、認識精度が上がらないという問題がある。
このため、例えば、クレーン車の障害物の検出において、周囲を監視する画像からクレーン車自身の部分をマスクして画像表示することで、障害物の誤認識を防止する方法が提案されている(例えば、特許文献1参照)。
また、カメラによる画像認識において、検出不要とした画像のマスクパターンを用意し、カメラ画像をマスクすることにより誤認識を防止する方法が提案されている(例えば、特許文献2参照)。
特開2016−13887号公報 特開2007−156693号公報
しかしながら、先行技術文献は、いずれも教師データの画像における意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分をマスクしてバリエーションを増やし、かつバリエーションの片寄りの少ない(重複したバリエーションの少ない)教師データを生成することを意図したものではない。
教師データのバリエーションを増やしても、バリエーションに片寄り(重複)がある場合、ディープラーニングにより教師データの固有の特徴部分以外の部分を学習してしまい、処理に時間がかかるうえ、認識率が却って低下する可能性がある。例えば、2種類の自動車を学習する際に、一方はフロントガラス越しに搭乗者が見える教師データのみ、他方は搭乗者が見えない教師データのみであったとすると、搭乗者の有無を特徴として学習してしまうおそれがある。
一つの側面では、教師データの画像における固有の特徴部分以外の部分を学習することを防止でき、認識率の向上を効率よく図れる画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法を提供することを目的とする。
一つの実施態様では、認識対象の教師データを用いて画像認識を行う画像処理装置において、
前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部を、有する画像処理装置である。
一つの側面では、教師データの画像において、学習することが不要な固有の特徴部分以外の部分を学習することを防止でき、認識率の向上を図れる画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法を提供することができる。
図1は、画像処理装置全体のハードウェア構成の一例を示すブロック図である。 図2は、画像処理装置全体の一例を示すブロック図である。 図3は、画像処理装置全体の処理の一例を示すフローチャートである。 図4は、指定部及び教師データ生成部を含む全体の一例を示すブロック図である。 図5は、指定部及び教師データ生成部を含む全体の処理の流れの一例を示すフローチャートである。 図6は、指定部及び教師データ生成部の一例を示すブロック図である。 図7は、指定部及び教師データ生成部の処理の流れの一例を示すフローチャートである。 図8は、マスキング処理部の一例を示すブロック図である。 図9は、マスキング処理部の処理の流れの一例を示すフローチャートである。 図10は、学習部全体の一例を示すブロック図である。 図11は、学習部全体の他の一例を示すブロック図である。 図12は、学習部全体の処理の流れの一例を示すフローチャートである。 図13は、推論部全体の一例を示すブロック図である。 図14は、推論部全体の他の一例を示すブロック図である。 図15は、推論部全体の処理の流れの一例を示すフローチャートである。 図16は、実施例3の画像処理装置全体の一例を示すブロック図である。 図17は、実施例3の画像処理装置全体の処理の流れの一例を示すフローチャートである。 図18は、実施例3の画像処理装置のマスキング学習部の一例を示すブロック図である。 図19は、実施例3の画像処理装置の自動マスキング部の一例を示すブロック図である。 図20は、実施例3の推論部全体の一例を示すブロック図である。 図21は、実施例3のテストデータ生成部の一例を示すブロック図である。 図22は、実施例3のテストデータ生成部の処理の流れの一例を示すブロック図である。 図23は、実施例5の推論部全体の一例を示すブロック図である。 図24は、実施例5の推論部全体の処理の流れの一例を示すフローチャートである。
以下、本発明の一実施形態について説明するが、本発明は、これらの実施形態に何ら限定されるものではない。
なお、本発明の「画像処理装置」における指定部、教師データ生成部等が行う制御は、本発明の「画像処理方法」を実施することと同義であるので、本発明の「画像処理装置」の説明を通じて本発明の「画像処理方法」の詳細についても明らかにする。また、本発明の「画像処理プログラム」は、ハードウェア資源としてのコンピュータ等を用いることにより、本発明の「画像処理装置」として実現させることから、本発明の「画像処理装置」の説明を通じて本発明の「画像処理プログラム」の詳細についても明らかにする。
また、「教師データ生成装置」における指定部及び教師データ生成部が行う制御は、本発明の「教師データ生成方法」を実施することと同義であるので、「教師データ生成装置」の説明を通じて本発明の「教師データ生成方法」の詳細についても明らかにする。また、「教師データ生成プログラム」は、ハードウェア資源としてのコンピュータ等を用いることにより、「教師データ生成装置」として実現させることから、「教師データ生成装置」の説明を通じて「教師データ生成プログラム」の詳細についても明らかにする。
本発明の画像処理装置は、認識対象の教師データを用いて画像認識を行う装置であり、画像認識はディープラーニングの手法により行われることが好ましい。
画像処理装置は、認識対象の教師データの画像における意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分の少なくとも一部を指定する指定部と、指定された当該固有の特徴部分以外の部分の少なくとも一部をマスクして認識対象のマスク済み教師データを生成する教師データ生成部とを有し、さらに、学習部及び推論部を有することが好ましい。
固有の特徴部分以外の部分のマスキングは、学習前及び推論前の少なくともいずれかに行うことが好ましい。教師データ生成部で生成したマスク済み教師データを用いて学習を行い。テストデータ生成部で生成したマスク済みテストデータを用いて推論を行う。
教師データ生成部は、固有の特徴部分以外の部分の複数がマスクされている場合、前記複数のマスクのうちの一部のマスクを外したマスク済み教師データをさらに生成することが好ましい。
テストデータ生成部は、固有の特徴部分以外の部分の複数がマスクされている場合、前記複数のマスクのうちの一部のマスクを外したマスク済みテストデータをさらに生成することが好ましい。
固有の特徴部分以外の部分とは、認識対象に応じて異なる認識対象を認識する部分以外の部分であり、固有の特徴部分以外の部分は、認識対象の教師データ画像に存在しない場合もあり、固有の特徴部分以外の部分が1つであっても、複数存在しても構わない。
ここで、認識対象以外固有の特徴部分を判別する方法(特徴部分の特徴量を取得する方法)としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、SIFT(Scale−Invariant Feature Transform)、SURF(Speed−Upped Robust Feature)、RIFF(Rotation−Invariant Fast Feature)、HOG(Histograms of Oriented Gradients)等の手法により得る方法などが挙げられる。
固有の特徴部分以外の部分は、認識対象に応じて異なり一概には規定できないが、具体的には意図しない特徴部分であって、学習が不要な部分であり、例えば、自動車を分類する場合には、固有の数字が表されたナンバープレート、搭乗者が映り込む可能性のあるフロントガラス、反射の態様が車両によって異なるヘッドライトなどが挙げられる。
また、動物を分類する場合には、首輪やタグなどが挙げられる。人が飼っている動物とそうでないもので首輪やタグを特徴と認識して誤って学習する可能性がある。
また、衣類を分類する場合には、人間やマネキンなどが挙げられる。衣類のみの写真と、人間やマネキンが衣類を着た状態の写真とでは、衣類を着ている人やマネキンを特徴と認識して誤って学習する可能性がある。
認識対象のマスク済み教師データは、認識対象の教師データの画像における意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分の少なくとも一部をマスクした教師データであり、固有の特徴部分以外の部分の全部をマスクしてもよく、一部をマスクしてもよい。また、固有の特徴部分以外の部分が、複数存在する場合には、複数の固有の特徴部分以外の部分のうち少なくとも1つをマスクしていればよく、全ての部分をマスクしてもよい。
認識対象とは、認識したい(分類したい)対象を意味する。認識対象としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、各種画像(例えば、人間の顔、鳥、犬、猫、猿、イチゴ、リンゴ、汽車、電車、自動車(バス、トラック、自家用車等)、船、飛行機等、図形、文字等の人間の視覚により検知できるものなどが挙げられる。
教師データとは、教師ありディープラーニングで用いられる「入力データ」と「正解ラベル」とのペアである。「入力データ」を多数のパラメータを有するニューラルネットワークに入力することでディープラーニング学習を実施し、推論ラベルと正解ラベルとの差(学習中重み)を更新し、学習済み重みを求める。したがって、教師データの形態は、学習したい問題(以下、「タスク」と称することもある)に依存する。いくつかの教師データの例を下記の表1に挙げる。
ディープラーニングは、人間の脳のニューロンを模した多層構造のニューラルネットワーク(ディープニューラルネットワーク)を用いた機械学習手法の一種であり、データの特徴を自動的に学習できる手法である。
画像認識技術は、画像データの画像内容を分析して、その形状を認識する技術である。
画像認識技術では、画像データから対象物となる輪郭を抽出し、背景から分離した上で、その対象物が何であるかを分析する。
画像認識技術を応用した技術としては、例えば、OCR(Optical Character Recognition)、顔認証、虹彩認証などが挙げられる。
画像認識技術では、ピクセルの集合である画像データから、ある種のパターンを取り出し、そこから意味を読み取るという処理を行う。パターンの分析によって対象物の意味を抽出することをパターン認識と呼ぶ。パターン認識は、画像認識だけでなく、音声認識や言語解析などにも用いられる。
以下の実施例では、本発明の「画像処理装置」について具体的に説明するが、本発明は、この実施例に何ら限定されるものではない。
(実施例1)
以下、実施例1の画像処理装置について説明する。この画像処理装置は、認識対象の教師データを用いて画像認識を行う装置である。
実施例1では、作業者により、意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分のマスキングを行う指定部及び教師データ生成部を有する画像処理装置の一例について説明する。
ここで、図1は、画像処理装置100のハードウェア構成の一例を示す図である。画像処理装置100の後述するストレージ装置7には画像処理プログラムが記録されており、後述のCPU(Central Processing Unit)1及びGPU(Graphics Processing Unit)3が当該プログラムを読出して実行することにより、後述の指定部5、教師データ生成部10、テストデータ生成部31、学習部200、及び推論部300として動作する。
この図1の画像処理装置100は、CPU1、RAM(Random Access Memory)2、GPU3、及びVRAM(Video Random Access Memory)4を備える。また、画像処理装置100は、モニタ6、及びストレージ装置7が接続されている。
CPU1は、ストレージ装置7などに格納された指定部5、教師データ生成部10、テストデータ生成部31、学習部200、及び推論部300の各種プログラムを実行するユニットである。
RAM2は、揮発性メモリであり、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memoryなどを含む。
GPU3は、教師データ生成部10におけるマスク済み教師データ、テストデータ生成部31におけるマスク済みテストデータを生成する際に必要な計算処理を実行するユニットである。
VRAM4は、モニタ等のディスプレイに画像を表示するために必要なデータを保持するためのメモリ領域であり、グラフィックスメモリ、又はビデオメモリとも呼ばれる。専用のデュアルポートのものもあれば、メインメモリと同じDRAMやSRAMを利用したものもある。
モニタ6は、教師データ生成部10で生成したマスク済み教師データ、テストデータ生成部31で生成したマスク済みテストデータを確認するために用いる。なお、ネットワークを介して接続された他の端末からマスク済み教師データを確認できる場合は、モニタ6は不要である。
ストレージ装置7は、補助記憶装置であり、画像処理装置100にインストールされた各種プログラムや、各種プログラムが実行されることで生成されるデータ等を記録するコンピュータ読み取り可能な記憶装置である。
画像処理装置100は、図示を省略しているが、グラフィックコントローラ、キーボードやマウス、タッチパッド、トラックボール等の入出力インターフェース、ネットワークに接続するためのネットワークインターフェースなどを備えている。
次に、図2は、実施例1の画像処理装置全体の一例を示すブロック図である。この図2の画像処理装置100は、指定部5、教師データ生成部10、学習部200、及び推論部300を備えている。
指定部5は、マウスやトラックボール等のポインティングデバイスやキーボード等を含む不図示の入力装置を用いることにより作業者によって入力される、意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分であるマスク指定領域を指定する。
このマスク指定領域については、ソフトウェアが指定してもよく、SIFT、SURF、RIFF、HOG、又はこれらの組み合わせを用いることができる。
教師データ生成部10は、指定部5によって指定されるマスク指定領域をマスクして認識対象のマスク済み教師データを生成する。
学習部200は、教師データ生成部10で生成したマスク済み教師データを用いて学習を行う。
推論部300は、学習部200で求めた学習済み重みを用いて推論(テスト)を行う。
学習時には、マスク済み教師データを用いることにより、固有の特徴部分以外の部分を学習しない学習済み重みを得ることができる。
推論時には、作業者によりマスクすることは現実的でないため、例えば、テストデータはマスクせずに推論を実行するか、自動的にテストデータに対して自動的にマスクをしてもよい。
ここで、図3は、画像処理装置全体の処理の流れの一例を示すフローチャートである。以下、図2を参照して、画像処理装置全体の処理の流れについて説明する。
ステップS101では、マウスやトラックボール等のポインティングデバイスやキーボード等を用いることにより作業者によって入力される、学習することが不要な当該画像における固有の特徴部分以外の部分であるマスク指定領域が指定部5によって指定される。そして、ステップS101におけるマスク指定領域の指定が完了すると、処理をS102に移行する。若しくは、このマスク指定領域については、ソフトウェアが指定してもよい。
ステップS102では、教師データ生成部10が、指定部5による固有の特徴部分以外の部分の指定に基づいて認識対象のマスク済み教師データを生成すると、処理をS103に移行する。
ステップS103では、学習部200が、教師データ生成部10で生成したマスク済み教師データを用いて学習を行い、学習済み重みを得ると、処理をS104に移行する。
ステップS104では、推論部300が、得られた学習済み重みを用いて推論を行い、推論ラベル(推論結果)を出力すると、本処理を終了する。
以下、画像処理装置100における指定部5、教師データ生成部10、学習部200、及び推論部300について、具体的に説明する。
<指定部、教師データ生成部>
図4に示すように、教師データ生成部10は、指定部5が指定した教師データにおける意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分の少なくとも一部をマスクして認識対象のマスク済み教師データを生成し、マスク済み教師データ格納部12に格納する。
ここで、指定部5及び教師データ生成部10の構成は、本発明に関する「教師データ生成装置」に該当し、指定部5及び教師データ生成部10を実施する処理は、本発明の「教師データ生成方法」に該当し、指定部5及び教師データ生成部10の処理をコンピュータに実行させるプログラムは、本発明に関する「教師データ生成プログラム」に該当する。
画像認識の認識率を高めるには、教師データのバリエーションを増やすことが重要であるが、教師データのバリエーションを増やしてもバリエーションに片寄り(バリエーションに重複)があると、本来は学習が不要な固有の特徴部分以外の部分を学習してしまい十分な認識率が得られないので、意図しない特徴部分である固有の特徴部分以外の部分をマスクしたマスク済み教師データを生成することにより、固有の特徴部分以外の部分を学習することを防止でき、認識率を向上させることができる。
教師データ格納部11は、マスクしていない教師データを格納しており、格納されている教師データは、それぞれ教師データIDで識別できるように管理されている。
マスク済み教師データ格納部12は、マスク済みの教師データを格納する。格納されているマスク済み教師データは、元となる教師データIDで教師データ格納部11の教師データと対応づけされている。
ここで、図5は、指定部及び教師データ生成部を含む全体の処理の流れの一例を示すフローチャートである。以下、図4を参照して、指定部及び教師データ生成部を含む全体の処理の流れについて説明する。
ステップS201では、マウスやトラックボール等のポインティングデバイスやキーボード等を用いることにより作業者によって入力される、学習することが不要な当該画像における固有の特徴部分以外の部分であるマスク指定領域が指定部5によって指定され、処理をS202に移行する。若しくは、このマスク指定領域については、ソフトウェアが指定してもよく、SIFT、SURF、RIFF、HOG、又はこれらの組み合わせを用いることができる。
ステップS202では、教師データ生成部10が、教師データ格納部11の教師データを入力として、指定部5による固有の特徴部分以外の部分の指定に基づき、マスク済み教師データを生成すると、処理をS203に移行する。
ステップS204では、教師データ生成部10が、マスク済み教師データをマスク済み教師データ格納部12に格納すると、本処理を終了する。
次に、図6は、指定部及び教師データ生成部の一例を示すブロック図である。
指定部5は、指定制御部8の制御により、教師データ格納部11に格納されている全ての教師データの画像に対して、マスク指定領域テーブル13に従って、マスク領域データを作成し、マスク領域データ格納部15に格納すると共に、マスキング処理部16を実行する。指定制御部8の処理は、作業者又はソフトウェアが実施する。
マスク指定領域テーブル13は、教師データの画像における、学習することが不要な固有の特徴部分以外の部分であるマスク指定領域と、それに対応するマスクIDを記載したテーブルである。
作業者は、マスク指定領域テーブル13に従ってマスク領域データを作成し、マスクIDとともにマスク領域データ格納部15に格納する。
例えば、車両では、以下の表2に示すようなマスク指定領域テーブルが挙げられる。
作業者は、ナンバープレートには固有の数字が表されており、車両の固有の特徴部分ではないと指定した。作業者は、フロントガラスには搭乗者が映り込む可能性があり、車両の固有の特徴部分ではないと指定した。作業者は、ヘッドライトには反射の態様が車両によって異なるため、車両の固有の特徴部分ではないと指定した。なお、SIFT、SURF、RIFF、又はHOGにおいても作業者の指定と同様の結果となった。
マスク領域データ格納部15は、教師データに対応したマスク指定領域のビットマップと、マスクIDとのペアを格納する。1つの教師データIDにつき、0又は複数のマスク指定領域のビットマップと、マスクIDとのペアが存在する。
例えば、車両では、以下の表3に示すようなテーブルが挙げられる。
マスキング処理部16は、教師データ格納部11に格納されている全ての教師データについて、これらに対応づけられたマスク領域データを、指定されたアルゴリズムでマスキングする。
マスキングの方法としては、例えば、単色での塗りつぶし、ガウシアンフィルタによるぼかし、などが挙げられる。
マスキング方法によって、学習結果は異なるものになる。なお、複数のパターンで学習を実施し、最もよいマスキング方法を選択することが好ましい。
ここで、図7は、教師データ生成部の処理の流れの一例を示すフローチャートである。以下、図6を参照して、教師データ生成部の処理の流れについて説明する。
ステップS301では、指定制御部8としての作業者又はソフトウェアが、教師データ格納部11から、教師画像1枚を取り出すと、処理をS302に移行する。
ステップS302は、作業者が、取り出した教師画像にマスク指定領域テーブル13に含まれるマスク指定領域が存在するかを判断すると、処理をS303に移行する。若しくは、ソフトウェアにより、自動的に教師画像にマスク指定領域テーブル13に含まれるマスク指定領域が存在するかを判定してもよい。
ステップS303では、作業者が、教師画像に未マスクのマスク指定領域があるか否かを判定する。作業者が、未マスクのマスク指定領域がないと判断すると、処理をS306に移行する。一方、作業者が、未マスクのマスク指定領域があると判断すると、処理をS304に移行する。若しくは、ソフトウェアにより、自動的に未マスクのマスク指定領域の有無を判定してもよい。
ステップS304では、作業者又はソフトウェアが、教師画像と同じサイズのマスク指定領域ビットマップファイルを作成すると、処理をS305に移行する。
ステップS305では、作業者が、作成したマスク指定領域ビットマップファイルを、マスク指定領域テーブル13の教師データID及びマスクIDと紐づけて、マスク領域データ格納部15へ格納すると、処理をS303に移行する。若しくは、ソフトウェアにより、マスク領域ビットマップファイルを、自動的にマスク指定領域テーブル13の教師データID及びマスクIDと紐づけて、マスク領域データ格納部15へ格納してもよい。
ステップS306では、作業者が、全ての教師画像を処理したか否かを判断する。作業者が、全ての教師画像を処理していないと判断すると、処理をS301に移行する。一方、作業者が、全ての教師画像を処理したと判断すると、処理をS307に移行する。若しくは、ソフトウェアにより、全ての教師画像を処理したか否かを判定してもよい。
ステップS307では、作業者又はソフトウェアが、マスキング処理部16を実行すると、処理をS308に移行する。
ステップS308では、マスキング処理部16が、マスク領域データ格納部15と、それに対応するマスク領域ビットマップから、マスク済み教師データを生成すると、処理をS309に移行する。
ステップS309では、マスキング処理部16が、マスク済み教師データを、マスク済み教師データ格納部12へ格納すると、本処理を終了する。
図8は、マスキング処理部16の一例を示すブロック図である。
マスキング処理部16は、マスキング処理制御部17に制御されている。
マスキング処理制御部17は、教師データ格納部11の全ての教師データを、マスク領域データ格納部15のマスク情報に基づき、マスク処理し、マスク済み教師データをマスク済み教師データ格納部12へ格納する。
マスキングアルゴリズム18は、作業者の入力パラメータであり、マスキングの処理方法に関するアルゴリズム(単色塗りつぶし、ぼかし)を指定する。
マスク済み画像生成部19は、1つの元ビットマップ画像(教師画像)と複数の2値マスク領域ビットマップ画像を入力とし、マスキングアルゴリズム18に従って、教師画像にマスク領域ビットマップ画像をマスク処理したマスク済み教師画像20を生成する。
ここで、図9は、マスキング処理部の処理の流れの一例を示すフローチャートである。以下、図8を参照して、マスキング処理部の処理の流れについて説明する。
ステップS401では、作業者又はソフトウェアにより、教師データ格納部11から、マスキング処理制御部17へ教師データが入力されると、処理がS402に移行する。
ステップS402では、マスキング処理制御部17が、マスク領域データ格納部15から、教師データが持つ教師データIDに対応するマスク領域データを全て取得すると、処理をS403に移行する。
ステップS403では、マスキング処理制御部17が、入力された教師データの入力データと、マスク領域データの集合の全てのビットマップをマスク済み画像生成部19へ出力すると、処理をS404に移行する。
ステップS404では、マスク済み画像生成部19が、入力された教師データの入力データに対し、全てのマスク領域について、作業者入力のマスキングアルゴリズムに従いマスク処理を実施し、マスク済み教師画像を出力すると、処理をS405に移行する。
ステップS405では、マスキング処理制御部17が、入力された教師データのうち、入力データをマスク済み教師画像20に変更したものをマスク済み教師データ格納部12へ格納すると、本処理を終了する。
以上により、教師データの画像における固有の特徴部分以外の部分を学習することを防止でき、認識率の向上を図れる教師データが生成される。生成された教師データは、以下に説明する学習部及び推論部に好適に用いられる。
<学習部>
学習部200は、教師データ生成部10で生成したマスク済み教師データを用いて学習を行う。
図10は、学習部全体の一例を示すブロック図であり、図11は、学習部全体の他の一例を示すブロック図である。
教師データ生成部10で生成したマスク済み教師データを用いて行う学習は、通常のディープラーニング学習と同様にして行うことができる。
図10に示すマスク済み教師データ格納部12には、教師データ生成部10で生成した入力データ(画像)と正解ラベルとのペアであるマスク済み教師データが格納されている。
ニューラルネットワーク定義201は、多層構造のニューラルネットワーク(ディープニューラルネットワーク)の種別、多数のニューロン同士がどのようにつながっているのかという構造を定義したファイルであり、作業者の指定値である。
学習済み重み202は、作業者の指定値であり、学習を開始する際に、予め学習済み重みを与えておくことが通常行われており、学習済み重みは、ニューラルネットワークの各ニューロンの重みを格納したファイルである。なお、学習において学習済み重みは必須ではない。
ハイパーパラメータ203は、学習に関するパラメータ群であり、学習を何回行うのか、学習中の重みをどのような幅で更新するのかなどが格納されているファイルである。
学習中重み205は、学習中のニューラルネットワークの各ニューロンの重みを表し、学習することで更新される。
図11に示すようにディープラーニング学習部204は、マスク済み教師データ格納部12からミニバッチ207と呼ばれる単位でマスク済み教師データを取得する。このマスク済み教師データを入力データと正解ラベルとに分離し、順伝播処理と逆伝播処理とを行うことにより、学習中重みを更新して、学習済み重みを出力する。
学習の終了条件は、ニューラルネットワークに入力しているか、又は損失関数208が閾値を下回ったかで決定される。
ここで、図12は、学習部全体の処理の流れの一例を示すフローチャートである。以下、図10及び図11を参照して、学習部全体の処理の流れについて説明する。
ステップS501では、作業者又はソフトウェアが、ディープラーニング学習部204に、マスク済み教師データ格納部12、ニューラルネットワーク定義201、ハイパーパラメータ203、及び必要に応じて学習済み重み202を与えると、処理をS502に移行する。
ステップS502では、ディープラーニング学習部204が、ニューラルネットワーク定義201に従いニューラルネットワークを構築すると、処理をS503に移行する。
ステップS503では、ディープラーニング学習部204が、学習済み重み202を有しているか否かを判断する。
学習済み重み202を有していないと判定すると、ディープラーニング学習部204が、構築したニューラルネットワークにニューラルネットワーク定義201で指定されたアルゴリズムに従い、初期値を設定すると、処理をS506に移行する。一方、学習済み重み202を有していると判定すると、ディープラーニング学習部204が、構築したニューラルネットワークに学習済み重み202を設定すると、処理をS506に移行する。なお、初期値は、ニューラルネットワーク定義201に記載されている。
ステップS506では、ディープラーニング学習部204が、マスク済み教師データ格納部12から指定されたバッチサイズのマスク済み教師データ集合を取得すると、処理をS507に移行する。
ステップS507では、ディープラーニング学習部204が、マスク済み教師データ集合を「入力データ」と「正解ラベル」とに分離すると、処理をS508に移行する。
ステップS508では、ディープラーニング学習部204が、ニューラルネットワークに「入力データ」を入力し、順伝播処理を実施すると、処理をS509に移行する。
ステップS509では、ディープラーニング学習部204が、順伝播処理の結果として、得られた「推論ラベル」と「正解ラベル」を損失関数208に与え、損失209を計算すると、処理をS510に移行する。なお、損失関数208は、ニューラルネットワーク定義201に記載されている。
ステップS510では、ディープラーニング学習部204が、ニューラルネットワークに損失209を入力し、逆伝播処理を実施して、学習中重みを更新すると、処理をS511に移行する。
ステップS511では、ディープラーニング学習部204が、終了条件に到達したか否かを判断する。ディープラーニング学習部204が、終了条件に到達していないと判定すると、処理をS506に戻し、終了条件に到達したと判定すると、処理をS512に移行する。なお、終了条件は、ハイパーパラメータ203に記載されている。
ステップS512では、ディープラーニング学習部204が、学習中重みを学習済み重みとして出力し、本処理を終了する。
<推論部>
推論部300は、学習部200で求めた学習済み重みを用いて推論(テスト)を行う。
図13は、推論部全体の一例を示すブロック図であり、図14は、推論部全体の他の一例を示すブロック図である。
テストデータ格納部301を用いた推論は、通常のディープラーニング推論と同様にして行うことができる。
テストデータ格納部301は、推論用のテストデータを格納する。テストデータは入力データ(画像)のみである。
ニューラルネットワーク定義302は、学習部200のニューラルネットワーク定義201と基本的な構造は共通する。
学習済み重み303は、推論は学習した成果を評価するため、必ず与える。
ディープラーニング推論部304は、学習部200のディープラーニング学習部204に対応する。
ここで、図15は、推論部全体の処理の流れの一例を示すフローチャートである。以下、図13及び図14を参照して、推論部全体の処理の流れについて説明する。
ステップS601では、作業者又はソフトウェアが、ディープラーニング推論部304に、テストデータ格納部301、ニューラルネットワーク定義302、及び学習済み重み303を与えると、処理をS602に移行する。
ステップS602では、ディープラーニング推論部304が、ニューラルネットワーク定義302に従いニューラルネットワークを構築すると、処理をS603に移行する。
ステップS603では、ディープラーニング推論部304が、構築したニューラルネットワークに学習済み重み303を設定すると、処理をS604に移行する。
ステップS604では、ディープラーニング推論部304が、テストデータ格納部301から、指定されたバッチサイズのテストデータ集合を取得すると、処理をS605に移行する。
ステップS605では、ディープラーニング推論部304が、ニューラルネットワークにテストデータ集合の入力データを入力し、順伝播処理を実施すると、処理をS606に移行する。
ステップS606では、ディープラーニング推論部304が、推論ラベル(推論結果)を出力すると、本処理を終了する。
以上により、実施例1の画像処理装置を用いなかった場合に認識ができなかった対象について、実施例1の画像処理装置を用いて実施した場合に、そのうちの10%程度を認識できるようになった。ここで、評価対象の教師データについては、4つの車種の自動車の画像を教師データとしたものである。内訳については、1車種がナンバープレートあり、3車種がナンバープレートなしであり、テストデータは4種類全てについてナンバープレートありの画像とした。
この結果から、実施例1の画像処理装置を用いることにより、教師データの固有の特徴分を学習できるようになった。
(実施例2)
実施例1において、教師データ生成部10で生成したマスク済み教師データが、複数のマスクを有する場合、複数のマスクのうちの一部のみをマスクする点以外は、実施例1と同様にすることにより、実施例2の画像処理装置を実現した。
これは、実施例1において、図9のS404における処理で全てのマスク指定領域について行うマスク処理を、1つ以上のランダムなマスク指定領域についてマスクするように変更することで実現した。
次に、実施例1と同様にして、実施例2の画像処理装置を用いなかった場合に認識ができなかった対象について、実施例2の画像処理装置を用いて実施した場合、実施例1よりも高い認識率が得られた。
(実施例3)
実施例3の画像処理装置は、実施例1の画像処理装置で作成したマスク領域データ格納部15を用い、自動的にマスキングを行って、得られたマスク済み教師データを用いて学習を行うと共に、自動的にマスキングを行って、得られたマスク済みテストデータを用いて推論を行った以外は、実施例1と同様であるため、既に説明した同一の構成については、同じ参照符号を付してその説明を省略する。
実施例3におけるマスキングの自動化は、教師データの画像を入力データとし、対応するマスク領域ビットマップとそのマスクIDのペアを正解ラベルとして教師データを構成し、セマンティックセグメンテーション(Semantic Segmentation)とよばれるディープラーニング手法を用いることによりマスク領域の検出を自動化できる。
セマンティックセグメンテーションの実装としては、以下のものが知られている。
・FCN(https://people.eecs.berkeley.edu/〜jonlong/shelhamer_fcn.pdf)
・deconvnet(http://cvlab.postech.ac.kr/research/deconvnet/)
・DeepMask(https://github.com/facebookresearch/deepmask)
セマンティックセグメンテーションは、画像を入力とし、検出したい物体が画像中のどの領域であるかを表すマスク(2値ビットマップ)を出力するニューラルネットワークである。
例えば、図8に示す例では、意図しない特徴部分、すなわち、当該画像のみに関する特徴部分であって、学習することが不要な当該画像における固有の特徴部分以外の部分としてナンバープレートやヘッドライトのマスクを出力することができる。
ニューラルネットワークの入出力のペアは、学習の入力データ及び推論ラベルに対応するため、教師データ格納部11から入力データが、実施例1のマスク領域データ格納部15から推論ラベルが取得でき、セマンティックセグメンテーションのための教師データを構成できる。
図16は、実施例3の画像処理装置全体の一例を示すブロック図である。この図16の画像処理装置100は、指定部5、教師データ生成部10、学習部200、テストデータ生成部31、及び推論部300を備えている。
マスク領域データ格納部15としては、実施例1で作業者が作成したものを用いる。即ち、実施例1のマスク領域データをマスキング学習部21の教師データの正解データとして用いる。
教師データ格納部11は、教師データを格納した部分であり、マスキング学習部21の教師データの入力データ、及び自動マスキング部23への入力として用いる。
マスキング学習部21は、教師データ格納部11とマスク領域データ格納部15との組み合わせを、セマンティックセグメンテーションの教師データとし、自動マスキング用学習済み重み22を学習する。
自動マスキング部23は、マスキング学習部21で得られた自動マスキング用学習済み重み22を用いて、教師データ格納部11から入力された教師データに対して、セマンティックセグメンテーションを実施し、マスク済み教師データを生成し、得られたマスク済み教師データをマスク済み教師データ格納部12に格納する。
学習部200は、実施例1の学習部200と同様である。
テストデータ生成部31は、認識対象のテストデータの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域をマスクして認識対象のマスク済みテストデータを生成する。
推論部300は、テストデータ生成部31で生成したマスク済みテストデータを用いた以外は、実施例1の学習部と同様である。
ここで、図17は、実施例3の画像処理装置全体の処理の流れの一例を示すフローチャートである。以下、図16を参照して、実施例3の画像処理装置全体の処理の流れについて説明する。
ステップS701では、実施例1において、マスク領域データのマスク領域データ格納部15への格納作業が完了したことをトリガとし、マスキング学習部21が動作すると、処理をS702に移行する。
ステップS702では、マスキング学習部21が、学習を実施し、自動マスキング用学習済み重み22を生成し、生成した自動マスキング用学習済み重み22を自動マスキング部23に入力すると、処理をS703に移行する。
ステップS703では、自動マスキング部23が、入力された自動マスキング用学習済み重み22を用いて、教師データ格納部11に含まれる全ての教師データを自動マスキングし、得られたマスク済み教師データをマスク済み教師データ格納部12に格納すると、処理をS704に移行する。
ステップS704では、学習部200が、生成したマスク済み教師データを用いて学習を実施し、学習済み重みを得ると、処理をS705に移行する。
ステップS705では、推論部300が、テストデータ生成部31で生成したマスク済みテストデータと、学習部200で得られた学習済み重みを用いて推論を行い、推論ラベル(推論結果)を出力すると、本処理を終了する。
<マスキング学習部>
図18は、実施例3のマスキング学習部21の一例を示すブロック図である。
マスキング学習部21は、入力データとして教師データ格納部11の教師画像と、入力データの教師画像と教師データIDで対応づけられたマスク情報において、マスク領域のマスクIDとマスク領域ビットマップを正解ラベルとする教師データを用いて、セマンティックセグメンテーションによる学習を実施する。
マスキング学習部21では、上記教師データを入力とし、セマンティックセグメンテーションによる学習を行い、自動マスキング用学習済み重み22を出力する。
セマンティックセグメンテーションによる学習は、上記教師データを用い、セマンティックセグメンテーションニューラルネットワーク定義28を用いる以外は、通常の学習と同様である。
セマンティックセグメンテーションニューラルネットワーク定義28は、多層構造のニューラルネットワーク(ディープニューラルネットワーク)の種別がセマンティックセグメンテーションである点以外は、通常のニューラルネットワーク定義と同様であり、作業者の指定値である。
−自動マスキング部−
図19は、実施例3の自動マスキング部23の一例を示すブロック図である。
自動マスキング部23は、実施例1の図6に示す教師データ生成部10のうち、マスク領域データ格納部15の作成を、マスキング学習部21で学習したセマンティックセグメンテーションを用いたディープラーニング推論部304により置き換えた構成である。
ディープラーニング推論部304は、教師データ格納部11に格納されている教師データを入力データとし、自動マスキング用学習済み重み22に基づき、セマンティックセグメンテーションを実施し、マスク領域ビットマップ集合27をマスキング処理部16へ出力する。
なお、マスキング処理部16によるマスキング処理は、実施例1と同様である。
<学習部>
学習部200は、実施例1のマスク済み教師データを用いた学習部200と同様である。
<推論部>
推論部300は、テストデータ(画像)を用い、セマンティックセグメンテーションディープラーニング推論部によりテストデータに自動でマスキング処理すること以外は、通常の推論と同様の処理を行う。
マスキングの自動化により、推論時のマスキングが可能になり、推論時に学習時と同等のマスキングがされることによって、認識率の向上が図れる。
図20は、実施例3の推論部全体の一例を示すブロック図である。
テストデータ格納部301は、推論用のテストデータ(画像)を格納している。
テストデータ生成部31は、自動マスキング用学習済み重み22を用いてセマンティックセグメンテーションを実施し、マスク済みテストデータ32を生成する。
なお、ニューラルネットワーク定義302及び学習済み重み303は、実施例1の推論部と同様である。
図21は、実施例3のテストデータ生成部31の一例を示すブロック図である。
テストデータ生成部31は、テストデータ格納部301からテストデータ(画像)33を受け取り、自動マスキング用学習済み重み22を用いてセマンティックセグメンテーションを実施し、マスク済みテストデータ32を出力する。
マスキングアルゴリズム35は、実施例1のマスキング処理部におけるマスキングアルゴリズム18と同様である。
マスク済み画像生成部36は、実施例1のマスキング処理部におけるマスク済み画像生成部19と同様である。
ここで、図22は、実施例3のテストデータ生成部31の処理の流れの一例を示すフローチャートである。以下、図21を参照して、テストデータ生成部31の処理の流れについて説明する。
ステップS801では、ディープラーニング推論部304が、入力されたテストデータ格納部301のテストデータ(画像)33を、セマンティックセグメンテーションを実施し、マスク領域ビットマップ集合34を生成し、生成したマスク領域ビットマップ集合34をマスク済み画像生成部36に出力すると、処理をS802に移行する。
ステップS802では、マスク済み画像生成部36が、生成されたテストデータの全てのマスク領域について、作業者入力のマスキングアルゴリズム35に従い、マスク処理を実施して、マスク済みテストデータ32を出力すると、本処理を終了する。
以上により、実施例1と同様にして、実施例3の画像処理装置を用いなかった場合に認識ができなかった対象について、実施例3の画像処理装置を用いて実施した場合、実施例1と同レベルの認識ができるようになった。
(実施例4)
実施例3において、テストデータ生成部31で生成したマスク済みテストデータが複数のマスクを有している場合には、複数のマスクのうちの一部のマスクを外したマスク済みテストデータをさらに生成した以外は、実施例3と同様である実施例4の画像処理装置を得た。
ここで、上記のマスク済みテストデータについては、必ず1箇所はマスクされているテストデータである。
なお、複数がマスクされたマスク済みテストデータから一部のマスクを選択して外す方法としては、例えば、乱数を用いたランダムな処理によりマスク済みテストデータから一部のマスクを選択する方法などが挙げられる。
次に、実施例1と同様にして、実施例4の画像処理装置を用いなかった場合に認識ができなかった対象について、実施例4の画像処理装置を用いて実施した場合に、実施例3よりも高い認識率が得られた。
(実施例5)
実施例5の画像処理装置は、実施例3において、推論部の対象をストリーミング動画とし、リアルタイム及び/又は非リアルタイムで推論を実施する以外は、実施例3と同様であるため、既に説明した同一の構成については、同じ参照符号を付してその説明を省略する。
実施例5では、実施例3の推論部300において、テストデータ格納部301をストリーミング動画に変更した構成をとる。これにより、ディープラーニングでの推論処理をリアルタイムで行う必要がない場合などのために推論契機の制御機構を備える。
図23は、実施例5の画像処理装置の推論部全体の一例を示すブロック図である。
推論実施契機制御方式41は、作業者指定のパラメータであり、定期的なイベントの推論の契機を以下のとおり規定し、推論制御部43へ発信する。
・全フレーム
・一定間隔
・推論イベント発生器に依存
推論イベント発生器42は、センサー等の作業者がパターンを記述できない不定期のイベントを、センサー情報などに基づき推論制御部43へ発信する装置である。イベントとしては、例えば、ドアの開閉、歩行者の通過などが挙げられる。
推論制御部43は、推論実施契機制御方式41又は推論イベント発生器42に従ったタイミングで、ストリーミング動画出力源44から最新フレームを取得し、テスト画像として、実施例3と同様の推論部300へ出力する。
ストリーミング動画出力源44は、ストリーミング動画の出力源である。
ここで、図24は、実施例5の推論部全体の処理の流れの一例を示すフローチャートである。以下、図23を参照して、実施例5の推論部全体の処理の流れについて説明する。
ステップS901では、推論制御部43が、作業者指定の推論タイミングテーブルで指定されたタイミングでストリーミング動画出力源44からテストデータ(画像)33を取得すると、処理をS902に移行する。
ステップS902では、推論制御部43が、テスト画像を推論部300へ入力し、推論を実施すると、本処理を終了する。
以上により、実施例1と同様にして、実施例5の画像処理装置を用いなかった場合に認識ができなかった対象について、実施例5の画像処理装置を用いて実施した場合、実施例1と同レベルの認識ができるようになった。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
認識対象の教師データを用いて画像認識を行う画像処理装置において、
前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部と、
を有することを特徴とする画像処理装置。
(付記2)
前記画像処理装置において、
複数の前記マスク指定領域がマスクされている場合、前記教師データ生成部が、前記複数のマスク指定領域のうち一部のマスクを外したマスク済み教師データをさらに生成する付記1に記載の画像処理装置。
(付記3)
前記画像処理装置はさらに、
前記教師データ生成部が生成したマスク済み教師データを用いて学習を行う学習部を有する付記1又は2に記載の画像処理装置。
(付記4)
前記画像処理装置はさらに、
前記学習部が生成した学習済み重みを用いて推論を行う推論部を有する付記3に記載の画像処理装置。
(付記5)
前記画像処理装置はさらに、
前記認識対象のテストデータの画像におけるマスク指定領域をマスクして、前記マスク済みテストデータを生成するテストデータ生成部を有する付記1から3のいずれか一項に記載の画像処理装置。
(付記6)
前記画像処理装置において、
複数の前記マスク指定領域がマスクされている場合、前記テストデータ生成部が、前記複数のマスク指定領域のうちの一部のマスクを外したマスク済みテストデータをさらに生成する付記5に記載の画像処理装置。
(付記7)
前記画像処理装置はさらに、
前記テストデータ生成部が生成したマスク済みテストデータを用いて推論を行う推論部を有する付記5又は6に記載の画像処理装置。
(付記8)
前記画像処理装置において、
前記画像認識は、ディープラーニングの手法により行われる付記1から7のいずれか一項に記載の画像処理装置。
(付記9)
認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理方法において、
前記画像処理装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
前記画像処理装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする画像処理方法。
(付記10)
認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理プログラムにおいて、
前記画像処理装置が有する指定部に、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定させ、
前記画像処理装置が有する教師データ生成部に、前記指定部が指定したマスク指定領域をマスクさせ、マスク済み教師データを生成させることを特徴とする画像処理プログラム。
(付記11)
認識対象の画像認識を行うための教師データを生成する教師データ生成装置を用いた教師データ生成方法において、
前記教師データ生成装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
前記教師データ生成装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする教師データ生成方法。
(付記12)
前記教師データ生成方法において、
複数の前記マスク指定領域がマスクされている場合、前記教師データ生成部が、前記複数のマスク指定領域のうち一部のマスクを外したマスク済み教師データをさらに生成する付記11に記載の教師データ生成方法。
(付記13)
認識対象の画像認識を行うための教師データを生成する教師データ生成装置において、
前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部と、
を有することを特徴とする教師データ生成装置。
(付記14)
認識対象の教師データを用いて画像認識を行う教師データ生成装置の教師データ生成プログラムにおいて、
前記教師データ生成装置が有する指定部に、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定させ、
前記教師データ生成装置が有する教師データ生成部に、前記指定部が指定したマスク指定領域をマスクさせ、マスク済み教師データを生成させることを特徴とする教師データ生成プログラム。
5 指定部
8 指定制御部
10 教師データ生成部
11 教師データ格納部
12 マスク済み教師データ格納部
13 マスク指定領域テーブル
15 マスク領域データ格納部
16 マスキング処理部
17 マスキング処理制御部
19 マスク済み画像生成部
21 マスキング学習部
23 自動マスキング部
31 テストデータ生成部
100 画像処理装置
200 学習部
300 推論部

Claims (11)

  1. 認識対象の教師データを用いて画像認識を行う画像処理装置において、
    前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定する指定部と、
    前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成する教師データ生成部と、
    を有することを特徴とする画像処理装置。
  2. 前記画像処理装置において、
    複数の前記マスク指定領域がマスクされている場合、前記教師データ生成部が、前記複数のマスク指定領域のうち一部のマスクを外したマスク済み教師データをさらに生成する請求項1に記載の画像処理装置。
  3. 前記画像処理装置はさらに、
    前記教師データ生成部が生成したマスク済み教師データを用いて学習を行う学習部を有する請求項1又は2に記載の画像処理装置。
  4. 前記画像処理装置はさらに、
    前記学習部が生成した学習済み重みを用いて推論を行う推論部を有する請求項3に記載の画像処理装置。
  5. 前記画像処理装置はさらに、
    前記認識対象のテストデータの画像におけるマスク指定領域をマスクして、前記マスク済みテストデータを生成するテストデータ生成部を有する請求項1から3のいずれか一項に記載の画像処理装置。
  6. 前記画像処理装置において、
    複数の前記マスク指定領域がマスクされている場合、前記テストデータ生成部が、前記複数のマスク指定領域のうちの一部のマスクを外したマスク済みテストデータをさらに生成する請求項5に記載の画像処理装置。
  7. 前記画像処理装置はさらに、
    前記テストデータ生成部が生成したマスク済みテストデータを用いて推論を行う推論部を有する請求項5又は6に記載の画像処理装置。
  8. 前記画像処理装置において、
    前記画像認識は、ディープラーニングの手法により行われる請求項1から7のいずれか一項に記載の画像処理装置。
  9. 認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理方法において、
    前記画像処理装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
    前記画像処理装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする画像処理方法。
  10. 認識対象の教師データを用いて画像認識を行う画像処理装置の画像処理プログラムにおいて、
    前記画像処理装置が有する指定部に、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定させ、
    前記画像処理装置が有する教師データ生成部に、前記指定部が指定したマスク指定領域をマスクさせ、マスク済み教師データを生成させることを特徴とする画像処理プログラム。
  11. 認識対象の画像認識を行うための教師データを生成する教師データ生成装置を用いた教師データ生成方法において、
    前記教師データ生成装置が有する指定部が、前記認識対象の教師データの画像における固有の特徴部分以外の部分の少なくとも一部であるマスク指定領域を指定し、
    前記教師データ生成装置が有する教師データ生成部が、前記指定部が指定したマスク指定領域をマスクして、マスク済み教師データを生成することを特徴とする教師データ生成方法。

JP2017071447A 2017-03-31 2017-03-31 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 Pending JP2018173814A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017071447A JP2018173814A (ja) 2017-03-31 2017-03-31 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
US15/921,779 US20180285698A1 (en) 2017-03-31 2018-03-15 Image processing apparatus, image processing method, and image processing program medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017071447A JP2018173814A (ja) 2017-03-31 2017-03-31 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法

Publications (1)

Publication Number Publication Date
JP2018173814A true JP2018173814A (ja) 2018-11-08

Family

ID=63670776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017071447A Pending JP2018173814A (ja) 2017-03-31 2017-03-31 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法

Country Status (2)

Country Link
US (1) US20180285698A1 (ja)
JP (1) JP2018173814A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111048A1 (ja) * 2018-11-26 2020-06-04 大日本印刷株式会社 コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法
JP2020087165A (ja) * 2018-11-29 2020-06-04 富士通株式会社 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法
WO2020145146A1 (ja) * 2019-01-09 2020-07-16 日本電信電話株式会社 推論処理装置および推論処理方法
JP2020126363A (ja) * 2019-02-01 2020-08-20 株式会社小松製作所 画像処理システム、画像処理方法、学習済みモデルの生成方法、および学習用データセット
JP2020135465A (ja) * 2019-02-20 2020-08-31 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
JPWO2020204051A1 (ja) * 2019-04-02 2020-10-08
WO2020261392A1 (ja) * 2019-06-25 2020-12-30 三菱電機株式会社 学習装置、物体検出装置および学習方法
WO2021019865A1 (ja) * 2019-07-28 2021-02-04 株式会社アドバンテスト 検査装置、検査方法、および、検査プログラム、ならびに、学習装置、学習方法、および、学習プログラム
JP2021026685A (ja) * 2019-08-08 2021-02-22 セコム株式会社 対象物認識装置、対象物認識方法、及び対象物認識プログラム
JP2021033376A (ja) * 2019-08-15 2021-03-01 沖電気工業株式会社 情報処理装置、情報処理方法およびプログラム
WO2021130995A1 (ja) * 2019-12-26 2021-07-01 日本電気株式会社 データ生成装置、学習システム、データ拡張方法、およびプログラム記録媒体
WO2021130888A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 学習装置、推定装置および学習方法
JP2021149924A (ja) * 2020-03-18 2021-09-27 マルハニチロ株式会社 計数システム
JP2022007000A (ja) * 2020-06-25 2022-01-13 株式会社Screenホールディングス 画像処理装置、外観検査装置、学習済みパラメータ、画像処理方法、およびプログラム
JP7299542B1 (ja) 2022-05-18 2023-06-28 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
US20200242771A1 (en) * 2019-01-25 2020-07-30 Nvidia Corporation Semantic image synthesis for generating substantially photorealistic images using neural networks
JP7279526B2 (ja) * 2019-05-31 2023-05-23 富士通株式会社 解析プログラム、解析装置及び解析方法
JP7243486B2 (ja) * 2019-06-27 2023-03-22 トヨタ自動車株式会社 学習装置、歩行訓練システム、方法、及びプログラム
DE102020126953B3 (de) * 2020-10-14 2021-12-30 Bayerische Motoren Werke Aktiengesellschaft System und Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210651A (ja) * 2014-04-25 2015-11-24 サントリーシステムテクノロジー株式会社 商品識別システム
JP2017054450A (ja) * 2015-09-11 2017-03-16 キヤノン株式会社 認識装置、認識方法及び認識用プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209966A (ja) * 2010-03-29 2011-10-20 Sony Corp 画像処理装置および方法、並びにプログラム
US8903167B2 (en) * 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
WO2016145516A1 (en) * 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks
US10346727B2 (en) * 2016-10-28 2019-07-09 Adobe Inc. Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US10242449B2 (en) * 2017-01-04 2019-03-26 Cisco Technology, Inc. Automated generation of pre-labeled training data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210651A (ja) * 2014-04-25 2015-11-24 サントリーシステムテクノロジー株式会社 商品識別システム
JP2017054450A (ja) * 2015-09-11 2017-03-16 キヤノン株式会社 認識装置、認識方法及び認識用プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIFENG DAI ET AL: "Convolutional feature masking for joint object and stuff segmentation", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6021005817, 12 June 2015 (2015-06-12), US, pages 3992 - 4000, XP032793852, ISSN: 0004597747, DOI: 10.1109/CVPR.2015.7299025 *
竹田 史章,大松 繁: "ランダムマスクを前処理機構に有する小規模ニューラルネットワークによる貨幣識別技術", 電気学会論文誌C, vol. 114, no. 1, JPN6021005818, 20 January 1994 (1994-01-20), JP, pages 87 - 92, ISSN: 0004450790 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111048A1 (ja) * 2018-11-26 2020-06-04 大日本印刷株式会社 コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法
JPWO2020111048A1 (ja) * 2018-11-26 2021-10-21 大日本印刷株式会社 コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法
JP7220062B2 (ja) 2018-11-29 2023-02-09 富士通株式会社 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法
JP2020087165A (ja) * 2018-11-29 2020-06-04 富士通株式会社 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法
WO2020145146A1 (ja) * 2019-01-09 2020-07-16 日本電信電話株式会社 推論処理装置および推論処理方法
JP7365122B2 (ja) 2019-02-01 2023-10-19 株式会社小松製作所 画像処理システムおよび画像処理方法
JP2020126363A (ja) * 2019-02-01 2020-08-20 株式会社小松製作所 画像処理システム、画像処理方法、学習済みモデルの生成方法、および学習用データセット
US12094151B2 (en) 2019-02-01 2024-09-17 Komatsu Ltd. Image processing system, image processing method, learned model generation method, and data set for learning
JP2020135465A (ja) * 2019-02-20 2020-08-31 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
JP7086878B2 (ja) 2019-02-20 2022-06-20 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
WO2020204051A1 (ja) * 2019-04-02 2020-10-08 富士フイルム株式会社 画像処理装置とその作動方法および作動プログラム、運用装置とその作動方法および作動プログラム、並びに機械学習システム
US12062184B2 (en) 2019-04-02 2024-08-13 Fujifilm Corporation Image processing apparatus, and operation method and operating program thereof, operating apparatus, and operation method and operating program thereof, and machine learning system
JP7138780B2 (ja) 2019-04-02 2022-09-16 富士フイルム株式会社 画像処理装置とその作動方法および作動プログラム、運用装置とその作動方法および作動プログラム、並びに機械学習システム
JPWO2020204051A1 (ja) * 2019-04-02 2020-10-08
JP6945772B1 (ja) * 2019-06-25 2021-10-06 三菱電機株式会社 学習装置、物体検出装置および学習方法
WO2020261392A1 (ja) * 2019-06-25 2020-12-30 三菱電機株式会社 学習装置、物体検出装置および学習方法
WO2021019865A1 (ja) * 2019-07-28 2021-02-04 株式会社アドバンテスト 検査装置、検査方法、および、検査プログラム、ならびに、学習装置、学習方法、および、学習プログラム
JPWO2021019865A1 (ja) * 2019-07-28 2021-02-04
US11244443B2 (en) 2019-07-28 2022-02-08 Advantest Corporation Examination apparatus, examination method, recording medium storing an examination program, learning apparatus, learning method, and recording medium storing a learning program
TWI849144B (zh) * 2019-07-28 2024-07-21 日商愛德萬測試股份有限公司 檢查裝置、檢查方法及記錄了檢查程式之記錄媒體、以及學習裝置、學習方法及記錄了學習程式之記錄媒體
JP7190047B2 (ja) 2019-07-28 2022-12-14 株式会社アドバンテスト 検査装置、検査方法、および、検査プログラム、ならびに、学習装置、学習方法、および、学習プログラム
JP7349288B2 (ja) 2019-08-08 2023-09-22 セコム株式会社 対象物認識装置、対象物認識方法、及び対象物認識プログラム
JP2021026685A (ja) * 2019-08-08 2021-02-22 セコム株式会社 対象物認識装置、対象物認識方法、及び対象物認識プログラム
JP2021033376A (ja) * 2019-08-15 2021-03-01 沖電気工業株式会社 情報処理装置、情報処理方法およびプログラム
JP7334801B2 (ja) 2019-12-25 2023-08-29 日本電気株式会社 学習装置、学習方法および学習プログラム
WO2021130888A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 学習装置、推定装置および学習方法
JPWO2021130888A1 (ja) * 2019-12-25 2021-07-01
WO2021130995A1 (ja) * 2019-12-26 2021-07-01 日本電気株式会社 データ生成装置、学習システム、データ拡張方法、およびプログラム記録媒体
JP2021149924A (ja) * 2020-03-18 2021-09-27 マルハニチロ株式会社 計数システム
JP7479961B2 (ja) 2020-06-25 2024-05-09 株式会社Screenホールディングス 画像処理装置、外観検査装置、画像処理方法、およびプログラム
JP2022007000A (ja) * 2020-06-25 2022-01-13 株式会社Screenホールディングス 画像処理装置、外観検査装置、学習済みパラメータ、画像処理方法、およびプログラム
JP7299542B1 (ja) 2022-05-18 2023-06-28 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム
JP2023169922A (ja) * 2022-05-18 2023-12-01 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム

Also Published As

Publication number Publication date
US20180285698A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
JP2018173814A (ja) 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
CN109426801B (zh) 一种车道线实例检测方法和装置
EP3654248A1 (en) Verification of classification decisions in convolutional neural networks
KR102306658B1 (ko) 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치
TW201706918A (zh) 作爲供神經網路的訓練準則的濾波器特異性
JP2018163554A (ja) 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
US11436436B2 (en) Data augmentation system, data augmentation method, and information storage medium
JP2016534709A (ja) 顕微鏡画像内の個々の細胞を分類および識別するための方法およびシステム
US11403560B2 (en) Training apparatus, image recognition apparatus, training method, and program
Shenavarmasouleh et al. Drdr: Automatic masking of exudates and microaneurysms caused by diabetic retinopathy using mask r-cnn and transfer learning
JP2018026122A5 (ja)
KR102370910B1 (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
KR20190078899A (ko) 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
KR20190072074A (ko) 악성 코드 검출 방법 및 시스템
US11403491B2 (en) Object recognition from images using cad models as prior
DE102021208927A1 (de) System und verfahren zur strassenzeichen-ground-truth-erstellung mit einem wissensgraphen und maschinellem lernen
KR102506222B1 (ko) 비전 데이터 수집, 학습, 배포 및 추론 방법 및 시스템
WO2019076867A1 (en) SEMANTIC SEGMENTATION OF AN OBJECT IN AN IMAGE
KR20230099941A (ko) 자기 지도학습과 복사-붙이기 데이터 증강을 이용한 건설객체 분할모델 일반화방법 및 일반화시스템
CN115393625A (zh) 从粗略标记进行图像分段的半监督式训练
Choodowicz et al. Hybrid algorithm for the detection and recognition of railway signs
US20220215228A1 (en) Detection method, computer-readable recording medium storing detection program, and detection device
Wang et al. Artificial aging of faces by support vector machines
KR20210089044A (ko) 물체 인식을 위한 학습 데이터를 선택하는 방법 및 상기 방법을 이용하여 학습된 물체 인식 모델을 이용하여 물체를 인식하는 물체 인식 장치
Sikand et al. Using Classifier with Gated Recurrent Unit-Sigmoid Perceptron, Order to Get the Right Bird Species Detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210921