JP6874827B2 - 画像処理装置、画像処理方法及び記録媒体 - Google Patents
画像処理装置、画像処理方法及び記録媒体 Download PDFInfo
- Publication number
- JP6874827B2 JP6874827B2 JP2019507542A JP2019507542A JP6874827B2 JP 6874827 B2 JP6874827 B2 JP 6874827B2 JP 2019507542 A JP2019507542 A JP 2019507542A JP 2019507542 A JP2019507542 A JP 2019507542A JP 6874827 B2 JP6874827 B2 JP 6874827B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- image
- data
- learning
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Description
図1は、第1実施形態に係る画像処理装置の概略構成を示すブロック図である。本実施形態に係る画像処理装置は、原画像に含まれる検出対象(オブジェクト)を検出するための学習を自動で行うための学習データを生成し、学習データを用いて機械学習を行う。画像処理装置は、学習データ抽出部10、画像取得部11、画像記憶部12、学習データ記憶部13、学習部14、予測モデル記憶部15を備える。学習データ抽出部10は、切出部101、ラベル付与部102、確信度算出部103、選択部104を備える。
第1実施形態においては、原画像の全体に亘ってスライディングウィンドウを移動させながら画像データを切り出していた。本実施形態においては、指定された領域においてスライド幅を細かく設定することで、機械学習をさらに高速化させることが可能となる。例えば、オブジェクトの一部を含む画像データは分類における誤差が比較的大きくなり易い。このような画像データは予測モデルの精度向上に資するものである。従って、スライディングウィンドウ内にオブジェクトの境界が含まれる場合、スライド幅を小さくすることで、誤差が大きくなる、より多くの画像データを学習データに加えることが好ましい。
第1実施形態においては、スライディングウィンドウによって切り出されたすべての画像データを第1回の機械学習に用いていた。本実施形態においては、第2回以降の機械学習と同様に、第1回の学習においても誤差が高くなる画像データのみを学習データとして用いても良い。これにより、機械学習の時間をさらに削減することが可能となる。すなわち、予測モデルの精度向上に資する画像データのみを学習データとして用いることにより、効率良く機械学習を行うことができる。
図8は本実施形態における画像処理装置のブロック図である。本実施形態における画像処理装置8は抽出部81、学習部82、選択部83を含む。抽出部81は、原画像において所定のスライディングウィンドウを用いて画像データを抽出する。学習部82は、画像データを含む学習データにおいて、画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成する。選択部83は、画像データとは異なる他の画像データのなかから、予測モデルに基づく分類の誤差が所定の閾値よりも大きい他の画像データを選択し、学習データに追加する。さらに、学習部82は、他の画像データが追加された学習データにおいて機械学習を繰り返すことにより、予測モデルを更新する。
本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。
原画像において所定のスライディングウィンドウを用いて画像データを抽出する抽出部と、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成する学習部とを備えた画像処理装置であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加する選択部をさらに備え、
前記学習部は、前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新することを特徴とする画像処理装置。
前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする付記1に記載の画像処理装置。
前記選択部は、前記画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記画像データを選択し、前記学習データに追加することを特徴とする付記1または2に記載の画像処理装置。
前記学習部は、前記学習データにおける平均の誤差が所定値以下となるまで、前記機械学習を繰り返すことを特徴とする付記1乃至3のいずれか1項に記載の画像処理装置。
前記抽出部は、前記原画像におけるオブジェクトの一部を含む前記画像データを抽出することを特徴とする付記1乃至3のいずれか1項に記載の画像処理装置。
前記スライディングウィンドウは矩形であることを特徴とする付記1乃至5のいずれか1項に記載の画像処理装置。
前記第1及び前記第2のスライド幅は前記原画像において直交する2軸のそれぞれに対して設定可能であることを特徴とする付記2に記載の画像処理装置。
前記教師信号は、前記画像データに付与されたラベルに基づく信号であることを特徴とする付記1乃至6のいずれか1項に記載の画像処理装置。
原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとを備えた画像処理方法であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備えることを特徴とする画像処理方法。
原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとをコンピュータに実行させるプログラムが記録された記録媒体であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備えることを特徴とする記録媒体。
Claims (9)
- 原画像において所定のスライディングウィンドウを用いて画像データを抽出する抽出部と、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成する学習部とを備えた画像処理装置であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加する選択部をさらに備え、
前記学習部は、前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新し、
前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする画像処理装置。 - 前記選択部は、前記画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記画像データを選択し、前記学習データに追加することを特徴とする請求項1に記載の画像処理装置。
- 前記学習部は、前記学習データにおける平均の誤差が所定値以下となるまで、前記機械学習を繰り返すことを特徴とする請求項1または2に記載の画像処理装置。
- 前記抽出部は、前記原画像におけるオブジェクトの一部を含む前記画像データを抽出することを特徴とする請求項1または2に記載の画像処理装置。
- 前記スライディングウィンドウは矩形であることを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
- 前記第1及び前記第2のスライド幅は前記原画像において直交する2軸のそれぞれに対して設定可能であることを特徴とする請求項1に記載の画像処理装置。
- 前記教師信号は、前記画像データに付与されたラベルに基づく信号であることを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。
- 原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとを備えた画像処理方法であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備え、
前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする画像処理方法。 - 原画像において所定のスライディングウィンドウを用いて画像データを抽出するステップと、
前記画像データを含む学習データにおいて、前記画像データの分類を表す教師信号を用いて機械学習を行うことにより、予測モデルを生成するステップとをコンピュータに実行させるプログラムが記録された記録媒体であって、
前記画像データとは異なる他の画像データのなかから、前記予測モデルに基づく分類の誤差が所定の閾値よりも大きい前記他の画像データを選択し、前記学習データに追加するステップと、
前記他の画像データが追加された前記学習データにおいて前記機械学習を繰り返すことにより、前記予測モデルを更新するステップとをさらに備え、
前記画像データは、第1のスライド幅で前記スライディングウィンドウを移動させることにより抽出され、
前記他の画像データは、前記第1のスライド幅よりも小さな第2のスライド幅で前記スライディングウィンドウを移動させることにより抽出されることを特徴とする記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017054140 | 2017-03-21 | ||
JP2017054140 | 2017-03-21 | ||
PCT/JP2018/009197 WO2018173800A1 (ja) | 2017-03-21 | 2018-03-09 | 画像処理装置、画像処理方法及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018173800A1 JPWO2018173800A1 (ja) | 2019-11-07 |
JP6874827B2 true JP6874827B2 (ja) | 2021-05-19 |
Family
ID=63584306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019507542A Active JP6874827B2 (ja) | 2017-03-21 | 2018-03-09 | 画像処理装置、画像処理方法及び記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11068751B2 (ja) |
JP (1) | JP6874827B2 (ja) |
CN (1) | CN110447038A (ja) |
WO (1) | WO2018173800A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6933164B2 (ja) * | 2018-03-08 | 2021-09-08 | 株式会社Jvcケンウッド | 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム |
US10504027B1 (en) * | 2018-10-26 | 2019-12-10 | StradVision, Inc. | CNN-based learning method, learning device for selecting useful training data and test method, test device using the same |
JP7167668B2 (ja) * | 2018-11-30 | 2022-11-09 | コニカミノルタ株式会社 | 学習方法、学習装置、プログラムおよび記録媒体 |
JP7408973B2 (ja) | 2019-09-18 | 2024-01-09 | 富士フイルムビジネスイノベーション株式会社 | 学習モデル生成装置、画像補正装置、学習モデル生成プログラム、及び画像補正プログラム |
CN115668283A (zh) * | 2020-05-18 | 2023-01-31 | 发那科株式会社 | 机器学习装置和机器学习系统 |
CN113568819B (zh) * | 2021-01-31 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 异常数据检测方法、装置、计算机可读介质及电子设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3027874B2 (ja) | 1992-01-13 | 2000-04-04 | 日本電気株式会社 | 神経回路網及びそのパターン認識装置 |
JP3504604B2 (ja) | 2000-11-10 | 2004-03-08 | 三菱電機株式会社 | 識別装置 |
JP3964806B2 (ja) | 2003-02-27 | 2007-08-22 | 日本電信電話株式会社 | 動画像伝送システム、動画像送信装置、動画像中継装置、動画像受信装置、プログラム、および記録媒体 |
US20050276481A1 (en) * | 2004-06-02 | 2005-12-15 | Fujiphoto Film Co., Ltd. | Particular-region detection method and apparatus, and program therefor |
JP5321596B2 (ja) | 2008-10-21 | 2013-10-23 | 日本電気株式会社 | 統計モデル学習装置、統計モデル学習方法、およびプログラム |
US8401248B1 (en) * | 2008-12-30 | 2013-03-19 | Videomining Corporation | Method and system for measuring emotional and attentional response to dynamic digital media content |
JP2012038106A (ja) * | 2010-08-06 | 2012-02-23 | Canon Inc | 情報処理装置、情報処理方法、およびプログラム |
CN102063642A (zh) * | 2010-12-30 | 2011-05-18 | 上海电机学院 | 基于主动学习的模糊神经网络样本选择方法 |
CN102176701A (zh) * | 2011-02-18 | 2011-09-07 | 哈尔滨工业大学 | 一种基于主动学习的网络数据异常检测方法 |
CN103258214B (zh) * | 2013-04-26 | 2016-03-23 | 南京信息工程大学 | 基于图像块主动学习的遥感图像分类方法 |
-
2018
- 2018-03-09 CN CN201880019728.5A patent/CN110447038A/zh active Pending
- 2018-03-09 JP JP2019507542A patent/JP6874827B2/ja active Active
- 2018-03-09 US US16/490,953 patent/US11068751B2/en active Active
- 2018-03-09 WO PCT/JP2018/009197 patent/WO2018173800A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018173800A1 (ja) | 2018-09-27 |
US11068751B2 (en) | 2021-07-20 |
JPWO2018173800A1 (ja) | 2019-11-07 |
US20200012899A1 (en) | 2020-01-09 |
CN110447038A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6874827B2 (ja) | 画像処理装置、画像処理方法及び記録媒体 | |
CN110097086B (zh) | 图像生成模型训练方法、图像生成方法、装置、设备及存储介质 | |
US9911033B1 (en) | Semi-supervised price tag detection | |
CN108229341B (zh) | 分类方法和装置、电子设备、计算机存储介质 | |
EP2806374B1 (en) | Method and system for automatic selection of one or more image processing algorithm | |
US8965115B1 (en) | Adaptive multi-modal detection and fusion in videos via classification-based-learning | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US10839244B2 (en) | Method and device for generating image | |
JP2022554068A (ja) | ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス | |
US10990807B2 (en) | Selecting representative recent digital portraits as cover images | |
CN110633594A (zh) | 一种目标检测方法和装置 | |
Jung et al. | Devil's on the edges: Selective quad attention for scene graph generation | |
CN112800919A (zh) | 一种检测目标类型视频方法、装置、设备以及存储介质 | |
CN114495147B (zh) | 识别方法、装置、设备以及存储介质 | |
US20200175366A1 (en) | Learning data generation apparatus and learning data generation method | |
US20150139547A1 (en) | Feature calculation device and method and computer program product | |
CN115101069A (zh) | 语音控制方法、装置、设备、存储介质以及程序产品 | |
US9443168B1 (en) | Object detection approach using an ensemble strong classifier | |
CN113762220A (zh) | 目标识别方法、电子设备、计算机可读存储介质 | |
CN109598206B (zh) | 动态手势识别方法及装置 | |
US9378466B2 (en) | Data reduction in nearest neighbor classification | |
CN112966723B (zh) | 视频数据增广方法、装置、电子设备及可读存储介质 | |
CN115564976A (zh) | 图像处理方法、装置、介质及设备 | |
US20230128792A1 (en) | Detecting digital objects and generating object masks on device | |
WO2018168515A1 (ja) | 画像処理装置、画像処理方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190703 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6874827 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |