JP2020027504A - 物体認識装置、物体認識学習装置、方法、及びプログラム - Google Patents
物体認識装置、物体認識学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2020027504A JP2020027504A JP2018152701A JP2018152701A JP2020027504A JP 2020027504 A JP2020027504 A JP 2020027504A JP 2018152701 A JP2018152701 A JP 2018152701A JP 2018152701 A JP2018152701 A JP 2018152701A JP 2020027504 A JP2020027504 A JP 2020027504A
- Authority
- JP
- Japan
- Prior art keywords
- image
- resolution
- feature
- resolution image
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 43
- 239000013598 vector Substances 0.000 claims abstract description 98
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 66
- 230000008569 process Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 description 49
- 238000004891 communication Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
また、低解像度画像に含まれる物体を精度よく認識するためのニューラルネットワークを学習することができる物体認識学習装置、方法、及びプログラムを提供することを目的とする。
本発明の物体認識学習装置、方法、及びプログラムによれば、ニューラルネットワークの高解像度化層のパラメータと特徴抽出層のパラメータとを同時に最適化することにより、低解像度画像に含まれる物体を精度よく認識するためのニューラルネットワークを学習することができる、という効果が得られる。
・・・(1)
・・・(2)
3 クエリ画像
4 画像集合
5 認識結果
10 物体認識学習装置
11、211 取得部
12、212 特徴抽出部
13 パラメータ最適化部
14、214 CNN記憶部
210 物体認識装置
213 認識部
Claims (8)
- 認識対象のクエリ画像において撮影された物体を認識する物体認識装置であって、
前記クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、前記クエリ画像を高解像度化した高解像度化画像を取得する取得部と、
前記高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、前記高解像度化画像の特徴量ベクトルを抽出する特徴抽出部と、
前記高解像度化画像の特徴量ベクトルに基づき前記高解像度化画像において撮影された物体を認識し、認識された物体を前記クエリ画像において撮影された物体として出力する認識部と、
を含む物体認識装置であって、
前記取得部の前記取得処理は、
少なくとも、前記物体が撮影された任意の画像と、前記任意の画像に対応する低解像度画像を高解像度化した画像と、を関連付けることで学習された取得処理であり、
さらに、前記取得処理は、学習において前記抽出処理と同時に最適化されたものである
物体認識装置。 - 前記取得処理は、少なくとも、前記任意の画像と前記任意の画像に対応する低解像度画像とを学習データとし、かつ、前記低解像度画像を入力としたニューラルネットワークの所定の中間層の出力値として前記任意の画像が出力されるように学習された学習済みニューラルネットワークを用いる
請求項1記載の物体認識装置。 - 画像を入力として高解像度化した中間高解像度画像を出力する中間層である高解像度化層と、前記高解像度化層から出力された前記中間高解像度画像を入力として特徴量ベクトルを出力する特徴抽出層とを含むニューラルネットワークについて、
任意の画像と、前記任意の画像に対応する低解像度画像を入力として得られる前記中間高解像度画像との差、
前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像と同一のラベルが付された画像を入力して得られる前記特徴量ベクトルとの差、
及び前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像とは異なるラベルが付された画像を入力して得られる前記特徴量ベクトルとの差を用いて表される損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化するパラメータ最適化部、
を含む物体認識学習装置。 - 前記パラメータ最適化部は、以下(1)式の前記損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化する請求項3に記載の物体認識学習装置。
・・・(1)
ただし、Iiは前記任意の画像、Ii sは、前記任意の画像Iiに対応する低解像度画像Ii Lを入力として前記高解像度化層の出力として得られる中間高解像度画像、dsは前記中間高解像度画像Ii sを入力として前記特徴抽出層の出力として得られる特徴量ベクトル、d+は前記任意の画像と同一のラベルの画像を入力として前記特徴抽出層の出力として得られる特徴量ベクトル、d−は前記任意の画像とは異なるラベルの画像を入力として前記特徴抽出層の出力として得られる特徴量ベクトルである。 - 認識対象のクエリ画像において撮影された物体を認識する物体認識装置における物体認識方法であって、
取得部が、前記クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、前記クエリ画像を高解像度化した高解像度化画像を取得するステップと、
特徴抽出部が、前記高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、前記高解像度化画像の特徴量ベクトルを抽出するステップと、
認識部が、前記高解像度化画像の特徴量ベクトルに基づき前記高解像度化画像において撮影された物体を認識し、認識された物体を前記クエリ画像において撮影された物体として出力するステップと、
を含む物体認識装置であって、
前記取得部の前記取得処理は、
少なくとも、前記物体が撮影された任意の画像と、前記任意の画像に対応する低解像度画像を高解像度化した画像と、を関連付けることで学習された取得処理であり、
さらに、前記取得処理は、学習において前記抽出処理と同時に最適化されたものである
物体認識方法。 - パラメータ最適化部が、画像を入力として高解像度化した中間高解像度画像を出力する中間層である高解像度化層と、前記高解像度化層から出力された前記中間高解像度画像を入力として特徴量ベクトルを出力する特徴抽出層とを含むニューラルネットワークについて、
任意の画像と、前記任意の画像に対応する低解像度画像を入力として得られる前記中間高解像度画像との差、
前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像と同一のラベルが付された画像を入力して得られる前記特徴量ベクトルとの差、
及び前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像とは異なるラベルが付された画像を入力して得られる前記特徴量ベクトルとの差を用いて表される損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化するステップ、
を含む物体認識学習方法。 - コンピュータを、請求項1又は請求項2に記載の物体認識装置の各部として機能させるためのプログラム。
- コンピュータを、請求項3又は請求項4に記載の物体認識学習装置の各部として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152701A JP7131195B2 (ja) | 2018-08-14 | 2018-08-14 | 物体認識装置、物体認識学習装置、方法、及びプログラム |
US17/268,293 US11928790B2 (en) | 2018-08-14 | 2019-08-08 | Object recognition device, object recognition learning device, method, and program |
PCT/JP2019/031469 WO2020036124A1 (ja) | 2018-08-14 | 2019-08-08 | 物体認識装置、物体認識学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152701A JP7131195B2 (ja) | 2018-08-14 | 2018-08-14 | 物体認識装置、物体認識学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020027504A true JP2020027504A (ja) | 2020-02-20 |
JP7131195B2 JP7131195B2 (ja) | 2022-09-06 |
Family
ID=69525510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018152701A Active JP7131195B2 (ja) | 2018-08-14 | 2018-08-14 | 物体認識装置、物体認識学習装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11928790B2 (ja) |
JP (1) | JP7131195B2 (ja) |
WO (1) | WO2020036124A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907444A (zh) * | 2021-02-07 | 2021-06-04 | 中国科学院沈阳自动化研究所 | 一种基于复数域零样本学习的太赫兹图像超分辨重建方法 |
JP2022013524A (ja) * | 2020-06-30 | 2022-01-18 | Arithmer株式会社 | 帳票情報生成装置、方法及びプログラム |
WO2022208673A1 (ja) * | 2021-03-30 | 2022-10-06 | 株式会社Nttドコモ | 端末、無線通信方法及び基地局 |
WO2022208687A1 (ja) * | 2021-03-30 | 2022-10-06 | 株式会社Nttドコモ | 端末、無線通信方法及び基地局 |
KR20220144269A (ko) * | 2021-04-19 | 2022-10-26 | 주식회사우경정보기술 | 인공지능 기반 객체 재인식 장치 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494616B2 (en) * | 2019-05-09 | 2022-11-08 | Shenzhen Malong Technologies Co., Ltd. | Decoupling category-wise independence and relevance with self-attention for multi-label image classification |
WO2020255227A1 (ja) * | 2019-06-17 | 2020-12-24 | 日本電信電話株式会社 | 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム |
CN113869282B (zh) * | 2021-10-22 | 2022-11-11 | 马上消费金融股份有限公司 | 人脸识别方法、超分模型训练方法及相关设备 |
WO2024019634A1 (ru) * | 2022-07-22 | 2024-01-25 | Публичное Акционерное Общество "Сбербанк России" | Способ и система поиска графических изображений |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330381A (zh) * | 2017-06-15 | 2017-11-07 | 浙江捷尚视觉科技股份有限公司 | 一种人脸识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012176317A1 (ja) * | 2011-06-23 | 2012-12-27 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム |
US10380753B1 (en) * | 2018-05-30 | 2019-08-13 | Aimotive Kft. | Method and apparatus for generating a displacement map of an input dataset pair |
-
2018
- 2018-08-14 JP JP2018152701A patent/JP7131195B2/ja active Active
-
2019
- 2019-08-08 US US17/268,293 patent/US11928790B2/en active Active
- 2019-08-08 WO PCT/JP2019/031469 patent/WO2020036124A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330381A (zh) * | 2017-06-15 | 2017-11-07 | 浙江捷尚视觉科技股份有限公司 | 一种人脸识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022013524A (ja) * | 2020-06-30 | 2022-01-18 | Arithmer株式会社 | 帳票情報生成装置、方法及びプログラム |
CN112907444A (zh) * | 2021-02-07 | 2021-06-04 | 中国科学院沈阳自动化研究所 | 一种基于复数域零样本学习的太赫兹图像超分辨重建方法 |
CN112907444B (zh) * | 2021-02-07 | 2024-03-22 | 中国科学院沈阳自动化研究所 | 一种基于复数域零样本学习的太赫兹图像超分辨重建方法 |
WO2022208673A1 (ja) * | 2021-03-30 | 2022-10-06 | 株式会社Nttドコモ | 端末、無線通信方法及び基地局 |
WO2022208687A1 (ja) * | 2021-03-30 | 2022-10-06 | 株式会社Nttドコモ | 端末、無線通信方法及び基地局 |
KR20220144269A (ko) * | 2021-04-19 | 2022-10-26 | 주식회사우경정보기술 | 인공지능 기반 객체 재인식 장치 |
KR102499861B1 (ko) * | 2021-04-19 | 2023-02-15 | 주식회사우경정보기술 | 인공지능 기반 객체 재인식 장치 |
Also Published As
Publication number | Publication date |
---|---|
US11928790B2 (en) | 2024-03-12 |
JP7131195B2 (ja) | 2022-09-06 |
WO2020036124A1 (ja) | 2020-02-20 |
US20210303903A1 (en) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020036124A1 (ja) | 物体認識装置、物体認識学習装置、方法、及びプログラム | |
US11416710B2 (en) | Feature representation device, feature representation method, and program | |
CN111401384B (zh) | 一种变电设备缺陷图像匹配方法 | |
WO2020177432A1 (zh) | 基于目标检测网络的多标签物体检测方法、系统、装置 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN109885796B (zh) | 一种基于深度学习的网络新闻配图匹配性检测方法 | |
WO2019230666A1 (ja) | 特徴量抽出装置、方法、及びプログラム | |
CN109376783B (zh) | 机器人自适应地形分类方法、系统与计算机可读存储介质 | |
WO2023124278A1 (zh) | 图像处理模型的训练方法、图像分类方法及装置 | |
CN112347284A (zh) | 一种组合商标图像检索方法 | |
WO2020213742A1 (ja) | 画像変換装置、画像変換モデル学習装置、方法、及びプログラム | |
CN115331150A (zh) | 图像识别方法、装置、电子设备、存储介质 | |
CN116310466A (zh) | 基于局部无关区域筛选图神经网络的小样本图像分类方法 | |
CN111444816A (zh) | 一种基于Faster RCNN的多尺度密集行人检测方法 | |
CN107193979B (zh) | 一种同源图片检索的方法 | |
JP6758250B2 (ja) | 局所特徴表現学習装置、及び方法 | |
JP6793925B2 (ja) | 検証装置、方法、及びプログラム | |
JP6699048B2 (ja) | 特徴選択装置、タグ関連領域抽出装置、方法、及びプログラム | |
WO2012077818A1 (ja) | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム | |
CN116363469A (zh) | 一种少样本红外目标检测方法、装置和系统 | |
JP6789175B2 (ja) | 画像認識装置、方法、及びプログラム | |
CN115601791A (zh) | 基于Multiformer及离群样本重分配的无监督行人重识别方法 | |
CN110674342B (zh) | 查询目标图像的方法和装置 | |
JP7192990B2 (ja) | 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム | |
CN113177566A (zh) | 一种特征提取模型训练方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7131195 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |