JP2020181404A - 画像分類器、画像分類方法及びコンピュータプログラム - Google Patents
画像分類器、画像分類方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2020181404A JP2020181404A JP2019084479A JP2019084479A JP2020181404A JP 2020181404 A JP2020181404 A JP 2020181404A JP 2019084479 A JP2019084479 A JP 2019084479A JP 2019084479 A JP2019084479 A JP 2019084479A JP 2020181404 A JP2020181404 A JP 2020181404A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- input
- image
- neural network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000004590 computer program Methods 0.000 title claims description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 130
- 210000002569 neuron Anatomy 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 56
- 230000000694 effects Effects 0.000 claims abstract description 43
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000010304 firing Methods 0.000 description 10
- 238000011176 pooling Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 210000003710 cerebral cortex Anatomy 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
最初に本開示の実施態様を列記して説明する。また、以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。
学習済みニューラルネットワークは、入力層に画像データが入力された場合、当該画像データと所定の関連性を有する関連データを出力する機能を潜在的に有する。しかし、本態様においては、学習済みニューラルネットワークから出力される関連データを、基本的に画像分類に利用しない。また、学習済みニューラルネットワークは、必ずしも画像データの分類を目的にして教師あり学習されたものではない。とは言え、学習済みニューラルネットワークは、入力された画像データと所定の関連性を有する関連データを出力するように学習されているため、学習済みニューラルネットワークの中間層は、画像の何らかの特徴を認識する機能を獲得していると予想される。
本態様に係る分類処理部は、画像データが学習済みニューラルネットワークに入力されたときの中間層の活動パターンに基づいて、画像データを分類する。上記学習済みニューラルネットワークは教師なしで様々な画像データの特徴を学習することができ、従来の畳み込みニューラルネットワークに比べ、より柔軟に対象物を認識し、画像データを分類することができる。
本発明の実施形態に係る画像分類器、画像分類方法及びコンピュータプログラムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
(実施形態1)
図1は実施形態1に係る画像分類器1の構成例を示すブロック図である。実施形態1に係る画像分類器1は、入力部11と、学習済みニューラルネットワーク12と、分類処理部13と、認識データベース14と、学習済みCNN(Convolutional Neural Network)15と、出力部16とを備える。
当該学習済みニューラルネットワーク12は、動画の時系列フレーム画像に基づいて次フレーム画像を予測する学習済みPredNet3を構成しているニューラルネットワークの一部を抜き出して画像分類器1に適用したものである。詳細は後述する。
DB14aは、IDと、画像データの特徴を表した特徴コードと、画像データの分類を示す分類ラベル(分類情報)とを対応付けて記憶する。
追加処理部14bは、画像データの特徴コードと、当該特徴コードに対応する分類ラベルとをDB14aに登録する処理を行う。例えば、追加処理部14bは、画像データが学習済みニューラルネットワーク12の入力層12aに入力されたときの中間層12bの活動パターンを表した特徴コードと、当該画像データを学習済みCNN15に入力して得られる分類ラベルとを対応付けてDB14aに記憶させる。
入力層15aには画像データが入力される。入力層15aに入力された画像データは畳み込み層15bへ出力される。
一又は複数の畳み込み層15b及びプーリング層15cは、入力層15aに入力された画像データに対して、各層のフィル値又は重み係数に基づく演算を行う。畳み込み層15bは、画像データに対するフィルタリング処理によって、画像データの特徴を抽出する。プーリング層15cは、例えばマックスプーリング処理によってダウンサンプリングする。最後段のプーリング層15cは、ダウンサンプリングされた画像データの各画素に対応するデータを全結合層15dへ出力する。
一又は複数の全結合層15dは、入力されたデータに対して、各層の重み係数に基づく演算を行うことによって、画像データの特徴量の分類を行う。最後段の全結合層15dは、演算処理されたデータを出力層15eへ出力する。
出力層15eは、複数の分類ラベルに対応するニューロン(ノード)を有する。出力層15eのニューロンの活性化関数は、例えばソフトマックス関数である。出力層15eは、全結合層15dから出力されたデータに基づいて、当該画像データが複数の各分類ラベルに該当する確率を示すデータを出力する。
本実施形態1に係るコンピュータプログラム1cは、記録媒体にコンピュータ読み取り可能に記録されている態様でも良い。記憶部1bは、図示しない読出装置によって記録媒体から読み出されたコンピュータプログラム1cを記憶する。記録媒体はフラッシュメモリ等の半導体メモリである。また、記録媒体はCD(Compact Disc)−ROM、DVD(Digital Versatile Disc)−ROM、BD(Blu-ray(登録商標)Disc)等の光ディスクでも良い。更に、記録媒体は、フレキシブルディスク、ハードディスク等の磁気ディスク、磁気光ディスク等であっても良い。更にまた、図示しない通信網に接続されている図示しない外部サーバから本実施形態1に係るコンピュータプログラム1cをダウンロードし、記憶部1bに記憶させても良い。
なお、上記説明では、分類器の学習と、画像分類処理とを分けて説明したが、未知の画像データが入力され、分類不能であった場合、制御部1aは、分類ラベルを受け付け、当該未知の画像データの特徴コードと、分類ラベルとを対応付けてDB1aに記憶させると良い。また、この際、画像分類器1は、新規登録された当該分類ラベルを出力すると良い。
例えば、学習済みニューラルネットワーク12が画像データの分類に失敗し、学習済みCNN15が画像データの分類に成功した場合、学習済みCNN15の分類結果を出力するように構成しても良い。逆に学習済みCNN15が画像データの分類に失敗し、学習済みニューラルネットワーク12が画像データの分類に成功した場合、学習済みニューラルネットワーク12の分類結果を出力する。また、学習済みニューラルネットワーク12及び学習済みCNN15双方の分類結果に基づいて、画像データのより確からしい分類ラベルを決定し、決定した分類ラベルを出力するように構成しても良い。
実施形態2に係る画像分類器201は、学習済みニューラルネットワーク212の構成が実施形態1と異なるため、以下では主に上記相違点を説明する。その他の構成及び作用効果は実施形態1と同様であるため、対応する箇所には同様の符号を付して詳細な説明を省略する。
他の例では、第1のニューラルネットワーク212aは、学習済みPredNet3の第3層のモジュール31を構成する入力画像処理部31a又は特徴表現部31dを構成するニューラルネットワークである。第2のニューラルネットワーク212bは、学習済みPredNet3の第4層のモジュール31を構成する入力画像処理部31a又は特徴表現部31dを構成するニューラルネットワークである。
実施形態3に係る画像分類器1は、学習済みニューラルネットワーク312の構成が実施形態1と異なるため、以下では主に上記相違点を説明する。その他の構成及び作用効果は実施形態1と同様であるため、対応する箇所には同様の符号を付して詳細な説明を省略する。
なお、ここでは、分類処理部13は、中央隠れ層4cを構成する複数のニューロンの活動パターンを特徴コードとして取得する例を説明したが、畳み込み層4bを構成する複数のニューロンの活動パターンを特徴コードとして取得しても良い。また、分類処理部13は、畳み込み層4b及び中央隠れ層4cを構成する複数のニューロンの活動パターンを特徴コードとして取得するように構成しても良い。更に、分類処理部13は、畳み込み層4b、中央隠れ層4c及び逆畳み込み層4dの少なくとも一つを構成する複数のニューロンの活動パターンを特徴コードとして取得するように構成しても良い。なお、中央隠れ層4cは、説明の便宜上のものであり、必須の構成では無い。
1a 制御部
1b 記憶部
1c コンピュータプログラム
2 記録媒体
3 学習済みPredNet
4 学習済みオートエンコーダ
11 入力部
12、212、312 学習済みニューラルネットワーク
12a 入力層
12b 中間層
12c 出力層
13 分類処理部
14 認識データベース
14a DB
14b 追加処理部
15 学習済みCNN
15a 入力層
15b 畳み込み層
15c プーリング層
15d 全結合層
15e 出力層
16 出力部
31 モジュール
31a 入力画像処理部
31b 予測画像生成部
31c 誤差算出部
31d 特徴表現部
212a 第1のニューラルネットワーク
212b 第2のニューラルネットワーク
Claims (9)
- 画像データを分類する画像分類器であって、
前記画像データが入力される入力層、及び複数のニューロンを含む多層の中間層を備え、前記入力層に前記画像データが入力された場合、該画像データと所定の関連性を有する関連データを出力することが可能な学習済みニューラルネットワークと、
分類対象の前記画像データを前記入力層に入力させる入力部と、
分類対象の前記画像データが前記入力層に入力されたときの前記複数のニューロンの活動パターンに基づいて、前記画像データを分類する分類処理部と
を備える画像分類器。 - 前記学習済みニューラルネットワークは、
動画の時系列フレーム画像に基づいて次フレーム画像を予測する学習済みPredNet(Deep Predictive Coding Network)を構成する少なくとも一つのニューラルネットワークの全部又は一部を含む
請求項1に記載の画像分類器。 - 前記学習済みニューラルネットワークは階層構造を有し、
前記学習済みPredNetの最下層よりも上位層のニューラルネットワークを含む
請求項2に記載の画像分類器。 - 前記学習済みニューラルネットワークは、
前記学習済みPredNetを構成する複数のニューラルネットワークを含み、
前記分類処理部は、
分類対象の前記画像データが第1の前記ニューラルネットワークの前記入力層に入力されたときの前記複数のニューロンの活動パターンと、前記画像データが第2の前記ニューラルネットワークの前記入力層に入力されたときの前記複数のニューロンの活動パターンとに基づいて、前記画像データを分類する
請求項2又は請求項3に記載の画像分類器。 - 前記学習済みニューラルネットワークは学習済みオートエンコーダを構成するニューラルネットワークの一部又は全部を含む
請求項1から請求項4のいずれか1項に記載の画像分類器。 - 前記複数のニューロンの活動パターンと、前記画像データの分類を示す分類情報との対応関係を記憶する記憶部を備え、
前記分類処理部は、
分類対象の前記画像データが前記入力層に入力されたときの前記複数のニューロンの活動パターンと、前記記憶部が記憶する前記対応関係とに基づいて、前記画像データを分類する
請求項1から請求項5のいずれか1項に記載の画像分類器。 - 前記画像データが入力された場合、該画像データの分類を示す分類情報を出力する学習済み畳み込みニューラルネットワークと、
分類対象の前記画像データが前記入力層に入力されたときの前記複数のニューロンの活動パターンと、前記画像データを前記学習済み畳み込みニューラルネットワークに入力して得られる分類情報との対応関係を前記記憶部に記憶させる追加処理部と
を備える請求項6に記載の画像分類器。 - 画像データを分類する画像分類方法であって、
前記画像データが入力される入力層、及び複数のニューロンを含む多層の中間層を備え、前記入力層に前記画像データが入力された場合、該画像データと所定の関連性を有する関連データを出力することが可能な学習済みニューラルネットワークを用意し、
分類対象の前記画像データを前記入力層に入力させ、
分類対象の前記画像データが前記入力層に入力されたときの前記複数のニューロンの活動パターンに基づいて、前記画像データを分類する
画像分類方法。 - コンピュータに、画像データを分類させる処理を実行させるためのコンピュータプログラムであって、
前記コンピュータに、
前記画像データが入力される入力層、及び複数のニューロンを含む多層の中間層を備え、前記入力層に前記画像データが入力された場合、該画像データと所定の関連性を有する関連データを出力することが可能な学習済みニューラルネットワークの前記入力層に、分類対象の前記画像データを入力させ、
分類対象の前記画像データが前記入力層に入力されたときの前記複数のニューロンの活動パターンに基づいて、前記画像データを分類する
処理を実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019084479A JP2020181404A (ja) | 2019-04-25 | 2019-04-25 | 画像分類器、画像分類方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019084479A JP2020181404A (ja) | 2019-04-25 | 2019-04-25 | 画像分類器、画像分類方法及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020181404A true JP2020181404A (ja) | 2020-11-05 |
Family
ID=73024663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019084479A Pending JP2020181404A (ja) | 2019-04-25 | 2019-04-25 | 画像分類器、画像分類方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020181404A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102259878B1 (ko) * | 2020-12-01 | 2021-06-03 | 주식회사 딥노이드 | 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법 |
WO2023243040A1 (ja) * | 2022-06-16 | 2023-12-21 | 日本電信電話株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
JP7537724B1 (ja) | 2023-05-23 | 2024-08-21 | 株式会社マーケットヴィジョン | 情報処理システム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008083865A (ja) * | 2006-09-26 | 2008-04-10 | Matsushita Electric Works Ltd | 異常監視装置 |
JP2017513144A (ja) * | 2014-04-11 | 2017-05-25 | ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド | 顔認証方法およびシステム |
JP2018173944A (ja) * | 2017-03-30 | 2018-11-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 情報処理装置および情報処理方法 |
JP2019046334A (ja) * | 2017-09-06 | 2019-03-22 | 日本放送協会 | 分類モデル生成装置、画像データ分類装置およびそれらのプログラム |
-
2019
- 2019-04-25 JP JP2019084479A patent/JP2020181404A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008083865A (ja) * | 2006-09-26 | 2008-04-10 | Matsushita Electric Works Ltd | 異常監視装置 |
JP2017513144A (ja) * | 2014-04-11 | 2017-05-25 | ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド | 顔認証方法およびシステム |
JP2018173944A (ja) * | 2017-03-30 | 2018-11-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 情報処理装置および情報処理方法 |
JP2019046334A (ja) * | 2017-09-06 | 2019-03-22 | 日本放送協会 | 分類モデル生成装置、画像データ分類装置およびそれらのプログラム |
Non-Patent Citations (1)
Title |
---|
市村 直幸: "空間周波数と色に基づく損失関数を用いた畳み込みオートエンコーダの学習", 電子情報通信学会技術研究報告, vol. 117, no. 514, JPN6022044480, 16 April 2018 (2018-04-16), JP, pages 1 - 6, ISSN: 0005038213 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102259878B1 (ko) * | 2020-12-01 | 2021-06-03 | 주식회사 딥노이드 | 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법 |
WO2023243040A1 (ja) * | 2022-06-16 | 2023-12-21 | 日本電信電話株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
JP7537724B1 (ja) | 2023-05-23 | 2024-08-21 | 株式会社マーケットヴィジョン | 情報処理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7317717B2 (ja) | ネットワーク計算エッジにわたってアプリケーションを連続して操作する、人工知能および深層学習においてメモリで境界された継続学習を可能にするシステムおよび方法 | |
CN107430705B (zh) | 用于重新训练分类器的样本选择 | |
CN105447498B (zh) | 配置有神经网络的客户端设备、系统和服务器系统 | |
US11423323B2 (en) | Generating a sparse feature vector for classification | |
US11443514B2 (en) | Recognizing minutes-long activities in videos | |
CN110674919B (zh) | 用于构建图像模型的方法和设备 | |
CN112534445B (zh) | 具有数量被减少的参数的神经网络 | |
Pham et al. | Video-based human action recognition using deep learning: a review | |
CN112868032B (zh) | 提升ai识别学习能力 | |
JP2020181404A (ja) | 画像分類器、画像分類方法及びコンピュータプログラム | |
JP2020004360A (ja) | 多変数データシーケンスの画像化 | |
CN113496251A (zh) | 确定用于识别图像中的物体的分类器的装置、识别图像中的物体的装置和相应方法 | |
Vu et al. | Detection of unknown anomalies in streaming videos with generative energy-based boltzmann models | |
Thakur et al. | Machine Learning and Deep Learning Techniques | |
Xu | Deep Learning for Image Classification and Segmentation with Scarce Labelled Data | |
Saif | Comparative Analysis of Deep Learning and Traditional Classifiers on Animal Image Datasets | |
Gangal et al. | Neural Computing | |
Zhong | Movie Scene recognition with convolutional neural networks | |
Rajasri | REAL-TIME OBJECT TRACKING USING ARTIFICIAL INTELLIGENCE | |
Sony Priya et al. | Comparison of Various CNN Models for Image Classification | |
Shaik et al. | Automated Bird Detection using using Snapshot Ensemble of Deep Learning Models | |
Barr | AUTOMATED DETECTION AND IDENTIFICATION OF MAMMALS OF THE NORTHEASTERN UNITED STATES IN CAMERA TRAP IMAGES | |
Shome et al. | 13 Study Methods, of Different Models and Regression | |
Dinu | 3D Deep object recognition for mobile robots | |
Rahman | Deep Learning Neural Networks-Based Edge Detection in Mechanical Components |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20191111 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20191223 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230418 |