JP6874827B2 - 画像処理装置、画像処理方法及び記録媒体 - Google Patents

画像処理装置、画像処理方法及び記録媒体 Download PDF

Info

Publication number
JP6874827B2
JP6874827B2 JP2019507542A JP2019507542A JP6874827B2 JP 6874827 B2 JP6874827 B2 JP 6874827B2 JP 2019507542 A JP2019507542 A JP 2019507542A JP 2019507542 A JP2019507542 A JP 2019507542A JP 6874827 B2 JP6874827 B2 JP 6874827B2
Authority
JP
Japan
Prior art keywords
image data
image
data
learning
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019507542A
Other languages
English (en)
Other versions
JPWO2018173800A1 (ja
Inventor
皓 中山
皓 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018173800A1 publication Critical patent/JPWO2018173800A1/ja
Application granted granted Critical
Publication of JP6874827B2 publication Critical patent/JP6874827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置、画像処理方法及び記録媒体に関する。
画像内の特定の対象物を自動認識する画像認識技術が広く利用されている。例えば、特許文献1には、スライディングウィンドウ方式によって複数の画像データを抽出し、対象物を探索する手法が記載されている。スライディングウィンドウ方式とは、予め決められたウィンドウサイズの領域を、原画像の全域において所定のスライド幅でスライドさせることにより、対象物を探索する方式である。
特開2004−260668号公報
機械学習システムにスライディングウィンドウを用いた場合、機械学習の精度を高めるにはスライド幅を小さくし、多数の画像データを学習データとして用いることが好ましい。しかしながら、この場合には、学習データが膨大となり、機械学習に要する時間が増大してしまう可能性がある。
本発明は、上述の課題に鑑みてなされたものであって、スライディングウィンドウを用いた機械学習において、機械学習の精度を高めながら機械学習の時間を削減可能な画像処理装置を提供することを目的とする。
本発明の一観点によれば、原画像において所定のスライディングウィンドウを用いて画像データを抽出する抽出部と、前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成する学習部とを備えた画像処理装置であって、前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加する選択部をさらに備え、前記学習部は、前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新し、前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする画像処理装置が提供される。
本発明の他の観点によれば、原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとを備えた画像処理方法であって、前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備え、前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする画像処理方法が提供される。
本発明の更に他の観点によれば、原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとをコンピュータに実行させるプログラムが記録された記録媒体であって、前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備え、前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする記録媒体が提供される。

本発明によれば、機械学習の精度を高めながら、機械学習の時間を削減可能な画像処理装置を提供することができる。
本発明の第1実施形態における画像処理装置の概略構成を示すブロック図である。 本発明の第1実施形態における画像処理装置のハードウェアブロック図である。 本発明の第1実施形態におけるスライディングウィンドウの一例を示す図である。 本発明の第1実施形態におけるスライディングウィンドウの一例を示す図である。 本発明の第1実施形態における原画像及び画像データの一例を示す図である。 本発明の第1実施形態における画像処理装置の動作を表すフローチャートである。 本発明の第1実施形態における機械学習の概要を表す図である。 本発明の第4実施形態における画像処理装置のブロック図である。
[第1実施形態]
図1は、第1実施形態に係る画像処理装置の概略構成を示すブロック図である。本実施形態に係る画像処理装置は、原画像に含まれる検出対象(オブジェクト)を検出するための学習を自動で行うための学習データを生成し、学習データを用いて機械学習を行う。画像処理装置は、学習データ抽出部10、画像取得部11、画像記憶部12、学習データ記憶部13、学習部14、予測モデル記憶部15を備える。学習データ抽出部10は、切出部101、ラベル付与部102、確信度算出部103、選択部104を備える。
本実施形態に係る画像処理装置は、学習結果を用いて原画像から検出対象を検出する画像認識機能を更に備えることにより、画像認識システムとして機能し得る。また、学習データの生成を単独の装置で行うことにより、学習データの生成機能と、学習データを用いた学習機能とが別の装置として構成されていてもよい。
画像記憶部12は、機械学習に用いられる1以上の原画像を記憶する。原画像は静止画、動画のいずれであっても良く、例えば衛星写真、監視カメラによる画像など、その種類を問わない。画像取得部11は、画像記憶部12から原画像を取得し、学習データ抽出部10に送出する。画像取得部11は、原画像に対して輝度ヒストグラムの補正、ノイズリダクションなどの画像処理を行っても良い。切出部101は、原画像においてスライディングウィンドウを所定のスライド幅でスライドさせながら、複数の画像データを切り出す。本実施形態において、スライド幅は可変であって、第1回の学習データの生成においては、スライド幅は最大値、例えばスライディングウィンドウの幅と等しい値、若しくはそれ以上の値に設定される。第2回以降の学習データの生成においては、スライド幅は順次、小さな値に設定される。ラベル付与部102は切り出された画像データを分類するためのラベルを付与する。例えば、画像データに船舶がオブジェクトとして含まれている場合には、ラベル付与部102は画像データに「ship」、「no_ship」などのラベルを付与する。ラベルが付与された画像データは学習データとして学習データ記憶部13に保存される。
学習部14は学習データ記憶部13に保存された学習データにおいて機械学習を行う。上述したように学習データには画像データとラベルとが含まれていることから、学習部14はラベルを教師信号として用い、いわゆる教師ありの機械学習を実行する。教師信号はラベルの分類を表す2値のデータ、あるいは分類の種別を表す3値以上の離散データであり得る。学習部14は教師信号と画像信号とを用いて分類の基準を構築する。学習部14において行われる機械学習に用いられるアルゴリズムは、例えば、ディープラーニング、SVM(Support Vector Machine)等であり得る。学習部14による学習結果は予測モデルとして予測モデル記憶部15に保存される。
確信度算出部103は機械学習中の予測モデルを用いて、画像データのそれぞれの分類の確信度を算出する。ここで、確信度とは、予測モデルによる分類結果に対する信頼度である。一般に、教師あり機械学習においては、データを分類するスコア値(0〜1)が出力され、最も大きい出力値が分類の確信度となる。選択部104は、第2回以降の機械学習において、小さなスライド幅を用いて切り出された複数の画像データのなかから、分類の確信度が低い画像データを選択する。すなわち、選択部104は、予測モデルに基づく出力値と教師信号などの期待値との誤差が所定の閾値よりも大きい画像データを選択し、学習データに追加する。このように、確信度が低い画像データ、すなわち、分類の誤差が大きな画像データは、予測モデルの精度向上に資するものである。一方、確信度が高い画像データは、予測モデルの精度向上に大きな影響を与えないため、学習データに追加する必要性は少ない。従って、第2回以降の機械学習においては、選択部104は分類の誤差が所定の閾値よりも大きな画像データを学習データに加え、学習部14は予測モデルを更新している。学習データ抽出部10、学習部14は、誤差が十分にゼロに近づくまで上述の処理を繰り返し実行する。
図2は、本実施形態における画像処理装置のハードウェアブロック図である。図1に示された画像処理装置は図2のコンピュータシステムによって構成され得る。画像処理装置は、CPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、記憶媒体204、入力装置205、表示装置206及びネットワークインターフェース207を備える。
CPU201は、ROM203、記憶媒体204等に記憶されたプログラムに従って所定の動作を行うとともに、画像処理装置の各部を制御する機能をも有する。また、CPU201は、学習データ抽出部10、画像取得部11、画像記憶部12、学習データ記憶部13、学習部14、予測モデル記憶部15の各部の機能を実現するプログラムを実行する。
RAM202は、CPU201の動作に必要な一時的なメモリ領域を提供する。ROM203は、不揮発性メモリから構成され、コンピュータの動作に用いられるプログラム等の必要な情報を記憶する。記憶媒体204は、ハードディスクなどの大容量記憶装置である。RAM202又は記憶媒体204は、画像記憶部12、学習データ記憶部13、予測モデル記憶部15の各部の機能を実現する記憶領域を提供する。
入力装置205は、キーボード、マウス、タッチパネル等であって、ユーザがコンピュータを操作するために用いられる。表示装置206は、液晶表示装置等であって、画像、文字等の表示に用いられる。ネットワークインターフェース207は、イーサネット(登録商標)、Wi−Fi(登録商標)等の規格に基づく通信インターフェースであり、他の装置との通信を行うためのモジュールである。
なお、図2に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。例えば、一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態を構成する機能が複数の装置に分散されて実現されるものであってもよい。
図3、図4は本実施形態におけるスライディングウィンドウの一例を示している。原画像30は例えば衛星写真、航空写真などのように高解像度のデータであり得る。切出部101は原画像30において矩形のスライディングウィンドウ310を所定のスライド幅で移動させながら、スライディングウィンドウ310内の画像データを切り出す。切り出された画像データはラベルとともに、学習データとして保存される。本実施形態においては、第1回の機械学習、第2回以降の機械学習において、異なるスライド幅が設定される。スライド幅は原画像30において直交する二軸、すなわちX方向、Y方向のそれぞれにおいて設定可能である。第1回の機械学習においては、第1のスライド幅は例えば隣接するスライディングウィンドウ310、310a、310bが重複しないように、設定され得る(図3参照)。
第2回の機械学習において、第2のスライド幅は第1のスライド幅よりも小さい値に設定される(図4参照)。さらに、第3回以降の機械学習においては、スライド幅は順次小さい値に設定される。このように、スライド幅を次第に小さくしながら画像データを切り抜き、新たな画像データを学習データに追加することで、機械学習の精度を向上させることが可能となる。本実施形態においては、後述するように、第2回以降の機械学習においては、機械学習の精度の向上に資する画像データを学習データに追加することで、機械学習の精度を向上させながら機械学習の時間を削減することが可能となる。
図5は本実施形態における原画像及び画像データの一例を示している。原画像30の一部には船舶のオブジェクト301、302が含まれている。切出部101は原画像30においてスライディングウィンドウを所定のスライド幅で移動させながら、スライディングウィンドウ内の画像データを切り抜く。例えば、スライディングウィンドウ311、312がオブジェクト301、302を包囲するように位置する場合、切り抜かれた画像データにはラベル付与部102によって「ship」のラベルが付与される。一方、切り抜かれた画像データにオブジェクトが含まれていない場合には、画像データにはラベル付与部102によって「no_ship」のラベルが付与される。このようにして、ラベルが付与された画像データは学習データとして学習データ記憶部13に保存され、学習データにおける教師ありの機械学習が学習部14によってなされる。
続いて、図6、図7を参照しながら本実施形態における画像処理装置の動作を説明する。図6は本実施形態における画像処理装置の動作を表すフローチャートであり、図7は本実施形態における機械学習のアルゴリズムを表す図である。
先ず、画像取得部11は画像記憶部12から原画像を読み出し、学習データ抽出部10に送出する。学習データ抽出部10は学習回数を表す変数nを「1」に設定する(ステップS1)。さらに、学習データ抽出部10はスライディングウィンドウのサイズ、スライド幅Snをそれぞれ初期値に設定する(ステップS2)。上述したように、スライド幅SnはX方向、Y方向のそれぞれについて設定可能であって、スライディングウィンドウのX方向長さ、Y方向長さに応じて設定され得る。スライディングウィンドウのサイズは一定の値に設定され得る。切出部101は、設定されたスライド幅Sn毎にスライディングウィンドウを移動させながら、原画像から画像データを順次切り出す(ステップS3)。ラベル付与部102は切り出された画像データのオブジェクトの有無または種類に応じて画像データを分類し、ラベルを画像データに付与する。学習データ記憶部13はラベルが付与された画像データを学習データ54として保存する。学習部14は学習データ54においてラベルを参照しながら教師ありの機械学習を実行し、予測モデルMnを生成する(ステップS4)。予測モデルMnにおける平均誤差が十分に下がった後、学習部14は予測モデルMnを予測モデル記憶部15に保存する。
続いて、学習データ抽出部10は変数nに「1」を付加し、学習回数を「2」に設定する(ステップS5)。学習データ抽出部10は、スライド幅SnをSn=2×S(n−1)/3とする(ステップS6)。すなわち、第2回のスライド幅S2は第1回のスライド幅S1の75%に設定される。切出部101はスライド幅S2毎にスライディングウィンドウを移動させ、画像データ50を切り出す(ステップS7)。ラベル付与部102は第2回の画像データ50にラベルを付与する。
確信度算出部103は第2回の画像データ50を第1回の予測モデルMn、すなわち予測モデルM1を用いて分類し、確信度を算出する(ステップS8)。選択部104は画像データ50のそれぞれについて確信度と期待値との誤差を算出し、誤差が所定の閾値を超えるか否かを判断する(ステップS9)。選択部104は複数の画像データ50のうち、誤差が所定の閾値を超える画像データ53を選択し(ステップS9でYES)、第1回の学習データ54に追加する(ステップS10)。一方、誤差が所定の閾値以下の画像データ52は精度向上に与える影響が少ないため、学習データ54に追加されずに破棄される。このようにして、選択された第2回の画像データ53は第1回の学習データ54に追加され、第2回の学習データ55が学習データ記憶部13に保存される。学習部14は第2回の学習データ55において機械学習を実行し、第2回の予測モデルM2を作成する(ステップS11)。続いて、画像処理装置はステップS5に戻り、第3回の機械学習を行う。すなわち、学習データ抽出部10は第3回のスライド幅S3を第2回のスライド幅S2の75%に設定し(ステップS6)、切出部101はさらに細かく画像データを切り出す(ステップS7)。確信度算出部103は第3回の画像データを第2回の予測モデルM2を用いて分類し、確信度を算出する(ステップS8)。このようにして、画像データを学習データに追加することで、予測モデルMnの誤差が閾値以下となると(ステップS9でNO)、画像処理装置は機械学習を終了する。
本実施形態によれば、スライド幅を次第に小さくしながら画像データを切り出し、他の画像データを学習データに追加することで、機械学習の精度を向上させることが可能となる。また、第2回以降の学習においては、学習精度の向上に資する画像データを学習データに追加することで、学習時間を削減することが可能となる。
[第2実施形態]
第1実施形態においては、原画像の全体に亘ってスライディングウィンドウを移動させながら画像データを切り出していた。本実施形態においては、指定された領域においてスライド幅を細かく設定することで、機械学習をさらに高速化させることが可能となる。例えば、オブジェクトの一部を含む画像データは分類における誤差が比較的大きくなり易い。このような画像データは予測モデルの精度向上に資するものである。従って、スライディングウィンドウ内にオブジェクトの境界が含まれる場合、スライド幅を小さくすることで、誤差が大きくなる、より多くの画像データを学習データに加えることが好ましい。
本実施形態によれば、さらに機械学習の時間を削減しながら機械学習の精度を向上させることが可能となる。
[第3実施形態]
第1実施形態においては、スライディングウィンドウによって切り出されたすべての画像データを第1回の機械学習に用いていた。本実施形態においては、第2回以降の機械学習と同様に、第1回の学習においても誤差が高くなる画像データのみを学習データとして用いても良い。これにより、機械学習の時間をさらに削減することが可能となる。すなわち、予測モデルの精度向上に資する画像データのみを学習データとして用いることにより、効率良く機械学習を行うことができる。
[第4実施形態]
図8は本実施形態における画像処理装置のブロック図である。本実施形態における画像処理装置8は抽出部81、学習部82、選択部83を含む。抽出部81は、原画像において所定のスライディングウィンドウを用いて画像データを抽出する。学習部82は、画像データを含む学習データにおいて、画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成する。選択部83は、画像データとは異なる他の画像データのなかから、予測モデルに基づく分類の誤差が所定の閾値よりも大きい他の画像データを選択し、学習データに追加する。さらに、学習部82は、他の画像データが追加された学習データにおいて機械学習を繰り返すことにより、予測モデルを更新する。
本実施形態によれば、機械学習の精度向上に資する他の画像データを学習データに追加しながら機械学習を繰り返すことにより、機械学習の精度を高めながら、機械学習間を削減可能な画像処理装置を提供することができる。
[変形実施形態]
本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。
また、上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記憶媒体に記録させ、記憶媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記憶媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記憶媒体だけでなく、そのプログラム自体も各実施形態に含まれる。また、上述の実施形態に含まれる1又は2以上の構成要素は、各構成要素の機能を実現するように構成されたASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の回路であってもよい。
該記憶媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disk)−ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記憶媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するものも各実施形態の範疇に含まれる。
なお、上述の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
上述の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
原画像において所定のスライディングウィンドウを用いて画像データを抽出する抽出部と、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成する学習部とを備えた画像処理装置であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加する選択部をさらに備え、
前記学習部は、前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新することを特徴とする画像処理装置。
(付記2)
前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする付記1に記載の画像処理装置。
(付記3)
前記選択部は、前記画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記画像データを選択し、前記学習データに追加することを特徴とする付記1または2に記載の画像処理装置。
(付記4)
前記学習部は、前記学習データにおける平均の誤差が所定値以下となるまで、前記機械学習を繰り返すことを特徴とする付記1乃至3のいずれか1項に記載の画像処理装置。
(付記5)
前記抽出部は、前記原画像におけるオブジェクトの一部を含む前記画像データを抽出することを特徴とする付記1乃至3のいずれか1項に記載の画像処理装置。
(付記6)
前記スライディングウィンドウは矩形であることを特徴とする付記1乃至5のいずれか1項に記載の画像処理装置。
(付記7)
前記第1及び前記第2のスライド幅は前記原画像において直交する2軸のそれぞれに対して設定可能であることを特徴とする付記2に記載の画像処理装置。
(付記8)
前記教師信号は、前記画像データに付与されたラベルに基づく信号であることを特徴とする付記1乃至6のいずれか1項に記載の画像処理装置。
(付記9)
原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとを備えた画像処理方法であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備えることを特徴とする画像処理方法。
(付記10)
原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとをコンピュータに実行させるプログラムが記録された記録媒体であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備えることを特徴とする記録媒体。
この出願は、2017年3月21日に出願された日本出願特願2017−054140を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

Claims (9)

  1. 原画像において所定のスライディングウィンドウを用いて画像データを抽出する抽出部と、
    前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成する学習部とを備えた画像処理装置であって、
    前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加する選択部をさらに備え、
    前記学習部は、前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新し、
    前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
    前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする画像処理装置。
  2. 前記選択部は、前記画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記画像データを選択し、前記学習データに追加することを特徴とする請求項に記載の画像処理装置。
  3. 前記学習部は、前記学習データにおける平均の誤差が所定値以下となるまで、前記機械学習を繰り返すことを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記抽出部は、前記原画像におけるオブジェクトの一部を含む前記画像データを抽出することを特徴とする請求項1または2に記載の画像処理装置。
  5. 前記スライディングウィンドウは矩形であることを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  6. 前記第1及び前記第2のスライド幅は前記原画像において直交する2軸のそれぞれに対して設定可能であることを特徴とする請求項に記載の画像処理装置。
  7. 前記教師信号は、前記画像データに付与されたラベルに基づく信号であることを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
  8. 原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
    前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとを備えた画像処理方法であって、
    前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
    前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備え
    前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
    前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする画像処理方法。
  9. 原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
    前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとをコンピュータに実行させるプログラムが記録された記録媒体であって、
    前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
    前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備え
    前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
    前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする記録媒体。
JP2019507542A 2017-03-21 2018-03-09 画像処理装置、画像処理方法及び記録媒体 Active JP6874827B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017054140 2017-03-21
JP2017054140 2017-03-21
PCT/JP2018/009197 WO2018173800A1 (ja) 2017-03-21 2018-03-09 画像処理装置、画像処理方法及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2018173800A1 JPWO2018173800A1 (ja) 2019-11-07
JP6874827B2 true JP6874827B2 (ja) 2021-05-19

Family

ID=63584306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019507542A Active JP6874827B2 (ja) 2017-03-21 2018-03-09 画像処理装置、画像処理方法及び記録媒体

Country Status (4)

Country Link
US (1) US11068751B2 (ja)
JP (1) JP6874827B2 (ja)
CN (1) CN110447038A (ja)
WO (1) WO2018173800A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6933164B2 (ja) * 2018-03-08 2021-09-08 株式会社Jvcケンウッド 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム
US10504027B1 (en) * 2018-10-26 2019-12-10 StradVision, Inc. CNN-based learning method, learning device for selecting useful training data and test method, test device using the same
JP7167668B2 (ja) * 2018-11-30 2022-11-09 コニカミノルタ株式会社 学習方法、学習装置、プログラムおよび記録媒体
JP7408973B2 (ja) 2019-09-18 2024-01-09 富士フイルムビジネスイノベーション株式会社 学習モデル生成装置、画像補正装置、学習モデル生成プログラム、及び画像補正プログラム
CN115668283A (zh) * 2020-05-18 2023-01-31 发那科株式会社 机器学习装置和机器学习系统
CN113568819B (zh) * 2021-01-31 2024-04-16 腾讯科技(深圳)有限公司 异常数据检测方法、装置、计算机可读介质及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3027874B2 (ja) 1992-01-13 2000-04-04 日本電気株式会社 神経回路網及びそのパターン認識装置
JP3504604B2 (ja) 2000-11-10 2004-03-08 三菱電機株式会社 識別装置
JP3964806B2 (ja) 2003-02-27 2007-08-22 日本電信電話株式会社 動画像伝送システム、動画像送信装置、動画像中継装置、動画像受信装置、プログラム、および記録媒体
US20050276481A1 (en) * 2004-06-02 2005-12-15 Fujiphoto Film Co., Ltd. Particular-region detection method and apparatus, and program therefor
JP5321596B2 (ja) 2008-10-21 2013-10-23 日本電気株式会社 統計モデル学習装置、統計モデル学習方法、およびプログラム
US8401248B1 (en) * 2008-12-30 2013-03-19 Videomining Corporation Method and system for measuring emotional and attentional response to dynamic digital media content
JP2012038106A (ja) * 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
CN102063642A (zh) * 2010-12-30 2011-05-18 上海电机学院 基于主动学习的模糊神经网络样本选择方法
CN102176701A (zh) * 2011-02-18 2011-09-07 哈尔滨工业大学 一种基于主动学习的网络数据异常检测方法
CN103258214B (zh) * 2013-04-26 2016-03-23 南京信息工程大学 基于图像块主动学习的遥感图像分类方法

Also Published As

Publication number Publication date
WO2018173800A1 (ja) 2018-09-27
US11068751B2 (en) 2021-07-20
JPWO2018173800A1 (ja) 2019-11-07
US20200012899A1 (en) 2020-01-09
CN110447038A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
JP6874827B2 (ja) 画像処理装置、画像処理方法及び記録媒体
CN110097086B (zh) 图像生成模型训练方法、图像生成方法、装置、设备及存储介质
US9911033B1 (en) Semi-supervised price tag detection
CN108229341B (zh) 分类方法和装置、电子设备、计算机存储介质
EP2806374B1 (en) Method and system for automatic selection of one or more image processing algorithm
US8965115B1 (en) Adaptive multi-modal detection and fusion in videos via classification-based-learning
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
US10839244B2 (en) Method and device for generating image
JP2022554068A (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
US10990807B2 (en) Selecting representative recent digital portraits as cover images
CN110633594A (zh) 一种目标检测方法和装置
Jung et al. Devil's on the edges: Selective quad attention for scene graph generation
CN112800919A (zh) 一种检测目标类型视频方法、装置、设备以及存储介质
CN114495147B (zh) 识别方法、装置、设备以及存储介质
US20200175366A1 (en) Learning data generation apparatus and learning data generation method
US20150139547A1 (en) Feature calculation device and method and computer program product
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
US9443168B1 (en) Object detection approach using an ensemble strong classifier
CN113762220A (zh) 目标识别方法、电子设备、计算机可读存储介质
CN109598206B (zh) 动态手势识别方法及装置
US9378466B2 (en) Data reduction in nearest neighbor classification
CN112966723B (zh) 视频数据增广方法、装置、电子设备及可读存储介质
CN115564976A (zh) 图像处理方法、装置、介质及设备
US20230128792A1 (en) Detecting digital objects and generating object masks on device
WO2018168515A1 (ja) 画像処理装置、画像処理方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210405

R150 Certificate of patent or registration of utility model

Ref document number: 6874827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150