JP6706788B2 - 画像認識方法、画像認識装置およびプログラム - Google Patents
画像認識方法、画像認識装置およびプログラム Download PDFInfo
- Publication number
- JP6706788B2 JP6706788B2 JP2015255320A JP2015255320A JP6706788B2 JP 6706788 B2 JP6706788 B2 JP 6706788B2 JP 2015255320 A JP2015255320 A JP 2015255320A JP 2015255320 A JP2015255320 A JP 2015255320A JP 6706788 B2 JP6706788 B2 JP 6706788B2
- Authority
- JP
- Japan
- Prior art keywords
- convolution
- processing
- image
- recognition
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Description
画像認識技術では、一般的に、1)画像から特徴量を抽出する処理と、2)特徴量から物体を判別する判別処理の2段階に分かれる。例えば、特徴抽出処理では畳み込み処理が行われ、画像中の認識対象物体から、輝度の分布や輝度の差分(エッジ)など認識に利用する特徴量を抽出する。また、例えば判別処理では、畳み込み処理において抽出した特徴量から、BoostingやSVM(Support Vector Machine)などの統計的機械学習手法によって認識対象であるか否かを判別する。
以下では、図面を参照しながら、まず比較例の画像認識方法等の説明を行い、その後に本実施の形態の画像認識方法等の説明を行う。
図9は、比較例の分類システム900の一例を示す図である。
次に、比較例の分類システム900の動作としての認識処理について説明する。
図11は、分類システム900における認識処理のアルゴリズム機能ブロックを示す図である。
例えば、分類システム900は、入力画像に写っている物体が所定の10種類のうちのどれに該当するかを認識する認識処理を行う。この場合、分類システム900は、出力層905において、入力画像に応じて10個の変数(物体ラベル)のうちの一の変数を1としそれ以外の変数を0とする結果(認識結果)を外部に出力することになる。
次に、学習処理について説明する。
図1は、本実施の形態の分類システム1の構成の一例を示すブロック図である。図2は、本実施の形態の分類器10の構成の一例を示すブロック図である。
分類器10は、画像に対して認識処理を実行し、認識結果を出力する画像認識装置の一例である。分類器10は、図2に示すように、画像入力部11と、畳み込み処理部12と、サブサンプリング部13と、認識処理部14と、認識結果出力部15と、を備える。
次に、以上のように構成された分類器10の動作について説明する。
本実施の形態によれば、異なる畳み込みフィルタによる畳み込み処理を並行に行うことで算出した入力画像に含まれる複数の画素の各位置における複数の処理結果の値から認識に有益な情報を画素毎に選択的に利用できるので、高速に画像認識ができるだけでなく画像認識精度も向上する。それにより、高速かつ高精度に画像認識を行うことのできる画像認識方法、画像認識装置を実現できる。
図14は、サービスの類型の一例を説明するための図である。
図15は、サービスの類型の一例を説明するための図である。
図16は、サービスの類型の一例を説明するための図である。
図17は、サービスの類型の一例を説明するための図である。
10、90a、90b、90N 分類器
11、91 画像入力部
12、92 畳み込み処理部
13、93 サブサンプリング部
14、94 認識処理部
15、95 認識結果出力部
901 入力層
902 中間層
903 畳み込み処理層
904 サブサンプリング層
905 出力層
121 第1畳み込み処理部
121a 低解像度畳み込み処理部
122 第2畳み込み処理部
122a 中解像度畳み込み処理部
123 第3畳み込み処理部
123a 高解像度畳み込み処理部
124 出力選択部
Claims (8)
- 画像認識装置のコンピュータが行う、単一の畳み込みニューラルネットワークを用いた画像認識方法であって、
前記単一の畳み込みニューラルネットワークに画像の入力を行い、
前記単一の畳み込みニューラルネットワークに入力された前記画像に対して解像度またはスケールパラメータまたは処理対象の色が異なる複数の畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、
前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値のうちの、最大値を前記位置における特徴量として選択することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力し、
前記出力された複数の画素の各位置に対応する特徴量に基づいて認識処理を実行し、
前記認識処理を実行することで得た認識処理結果情報を出力する、
画像認識方法。 - 前記異なる畳み込みフィルタをそれぞれ用いた畳み込み処理は、
第1の解像度の畳み込みフィルタを用いて前記入力された前記画像に対して行われる第1の畳み込み処理、前記第1の解像度よりも解像度の高い第2の解像度の畳み込みフィルタを用いて前記入力された前記画像に対して行われる第2の畳み込み処理を含む、
請求項1に記載の画像認識方法。 - さらに、前記複数の画素の各位置に対応する特徴量の出力において、
前記位置が隣接する複数の画素を含む領域毎に、当該領域に含まれる複数の画素の位置に対応する特徴量のうちのいずれかを当該領域を代表するである代表特徴量として決定するサブサンプリング処理を行い、
前記サブサンプリング処理を行う際に決定された前記代表特徴量に基づいて、前記認識処理を実行する、
請求項1または2に記載の画像認識方法。 - 前記サブサンプリング処理を行う際に、
前記領域に含まれる複数の画素の位置に対応する特徴量のうち最も値の大きい特徴量を前記代表特徴量に決定する、
請求項3に記載の画像認識方法。 - 前記画像の入力、前記それぞれの処理結果情報の取得、前記複数の画素の各位置に対応する特徴量の出力、および前記認識処理の実行および前記認識処理結果情報の出力のうちの少なくとも1つは、画像認識装置のコンピュータが備えるプロセッサーにより行われる、
請求項1に記載の画像認識方法。 - 単一の畳み込みニューラルネットワークを用いた画像認識装置であって、
前記単一の畳み込みニューラルネットワークに画像の入力を行う画像入力部と、
前記単一の畳み込みニューラルネットワークに入力された前記画像に対して解像度またはスケールパラメータまたは処理対象の色が異なる複数の畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、
前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値のうちの、最大値を前記位置における特徴量として選択することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力する畳み込み処理部と、
前記畳み込み処理部により出力された前記複数の画素の各位置に対応する特徴量に基づいて認識処理を実行する認識処理部と、
前記認識処理部が前記認識処理を実行することで得た認識処理結果情報を出力する認識結果出力部と、を備える、
画像認識装置。 - 前記画像入力部、前記畳み込み処理部、前記認識処理部、および前記認識結果出力部のうちの少なくとも一つは、プロセッサーを含む、
請求項6に記載の画像認識装置。 - 単一の畳み込みニューラルネットワークを用いた画像認識装置のコンピュータに実行させるためのプログラムであって、
前記単一の畳み込みニューラルネットワークに画像の入力を行い、
前記単一の畳み込みニューラルネットワークに入力された前記画像に対して解像度またはスケールパラメータまたは処理対象の色が異なる複数の畳み込みフィルタをそれぞれ用いて畳み込み処理を行い、前記画像を構成する複数の画素の各位置における前記畳み込み処理の処理結果の値を含む処理結果情報をそれぞれ取得し、
前記複数の画素の位置毎に、前記位置における前記複数の処理結果の値のうちの、最大値を前記位置における特徴量として選択することで、前記位置に対応する特徴量を1つ決定し、前記決定した前記位置に対応する特徴量を出力し、
前記出力された複数の画素の各位置に対応する特徴量に基づいて認識処理を実行し、
前記認識処理を実行することで得た認識処理結果を出力する、処理をコンピュータに実行させる、
プログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015045257 | 2015-03-06 | ||
JP2015045257 | 2015-03-06 | ||
JP2015156871 | 2015-08-07 | ||
JP2015156871 | 2015-08-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017033529A JP2017033529A (ja) | 2017-02-09 |
JP6706788B2 true JP6706788B2 (ja) | 2020-06-10 |
Family
ID=55588027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015255320A Active JP6706788B2 (ja) | 2015-03-06 | 2015-12-25 | 画像認識方法、画像認識装置およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9940548B2 (ja) |
EP (1) | EP3065084A1 (ja) |
JP (1) | JP6706788B2 (ja) |
CN (1) | CN105938557B (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10043112B2 (en) * | 2014-03-07 | 2018-08-07 | Qualcomm Incorporated | Photo management |
US10074042B2 (en) | 2015-10-06 | 2018-09-11 | Adobe Systems Incorporated | Font recognition using text localization |
US9875429B2 (en) | 2015-10-06 | 2018-01-23 | Adobe Systems Incorporated | Font attributes for font recognition and similarity |
JP6815743B2 (ja) * | 2016-04-15 | 2021-01-20 | キヤノン株式会社 | 画像処理装置及びその方法、プログラム |
US10726573B2 (en) | 2016-08-26 | 2020-07-28 | Pixart Imaging Inc. | Object detection method and system based on machine learning |
CN107786867A (zh) * | 2016-08-26 | 2018-03-09 | 原相科技股份有限公司 | 基于深度学习架构的图像辨识方法及系统 |
US10007868B2 (en) | 2016-09-19 | 2018-06-26 | Adobe Systems Incorporated | Font replacement based on visual similarity |
KR20180073314A (ko) * | 2016-12-22 | 2018-07-02 | 삼성전자주식회사 | 컨볼루션 신경망 시스템 및 그것의 동작 방법 |
US10699184B2 (en) * | 2016-12-29 | 2020-06-30 | Facebook, Inc. | Updating predictions for a deep-learning model |
US11132619B1 (en) * | 2017-02-24 | 2021-09-28 | Cadence Design Systems, Inc. | Filtering in trainable networks |
US10261903B2 (en) | 2017-04-17 | 2019-04-16 | Intel Corporation | Extend GPU/CPU coherency to multi-GPU cores |
CN107333107A (zh) * | 2017-07-21 | 2017-11-07 | 广东美的制冷设备有限公司 | 监控拍摄方法、装置及其设备 |
CN107480677B (zh) * | 2017-08-07 | 2020-04-28 | 北京深睿博联科技有限责任公司 | 一种识别三维ct图像中感兴趣区域的方法及装置 |
US10776880B2 (en) | 2017-08-11 | 2020-09-15 | American International Group, Inc. | Systems and methods for dynamic real-time analysis from multi-modal data fusion for contextual risk identification |
JP2019036899A (ja) | 2017-08-21 | 2019-03-07 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP6811965B2 (ja) * | 2017-09-29 | 2021-01-13 | 株式会社Spectee | 画像処理装置、画像処理方法及びプログラム |
US11151669B1 (en) | 2017-11-16 | 2021-10-19 | State Farm Mutual Automobile Insurance Company | Systems and methods for identifying hidden home maintenance costs |
US11023985B1 (en) | 2017-11-16 | 2021-06-01 | State Farm Mutual Automobile Insurance Company | Systems and methods for executing a customized home search |
US10140553B1 (en) | 2018-03-08 | 2018-11-27 | Capital One Services, Llc | Machine learning artificial intelligence system for identifying vehicles |
CN108846419A (zh) * | 2018-05-25 | 2018-11-20 | 平安科技(深圳)有限公司 | 单页高负载图像识别方法、装置、计算机设备及存储介质 |
KR20200028168A (ko) * | 2018-09-06 | 2020-03-16 | 삼성전자주식회사 | 컨볼루셔널 뉴럴 네트워크를 이용하는 컴퓨팅 장치 및 그 동작 방법 |
CN109784259B (zh) * | 2019-01-08 | 2021-04-13 | 江河瑞通(北京)技术有限公司 | 基于图像识别的水体透明度智能识别方法及塞氏盘组件 |
JP6801020B2 (ja) * | 2019-01-11 | 2020-12-16 | セコム株式会社 | 画像認識装置、画像認識方法、及び画像認識プログラム |
US10950017B2 (en) | 2019-07-08 | 2021-03-16 | Adobe Inc. | Glyph weight modification |
US11295181B2 (en) | 2019-10-17 | 2022-04-05 | Adobe Inc. | Preserving document design using font synthesis |
KR20210097448A (ko) * | 2020-01-30 | 2021-08-09 | 삼성전자주식회사 | 영상 데이터 처리 방법 및 영상 데이터 처리 방법을 수행하는 센서 장치 |
WO2021200199A1 (ja) * | 2020-03-30 | 2021-10-07 | ソニーグループ株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
KR20210133084A (ko) * | 2020-04-28 | 2021-11-05 | 삼성전자주식회사 | 뉴럴 네트워크의 학습 방법 및 장치 |
CN111767858B (zh) | 2020-06-30 | 2024-03-22 | 北京百度网讯科技有限公司 | 图像识别方法、装置、设备和计算机存储介质 |
CN112288028A (zh) * | 2020-11-06 | 2021-01-29 | 神思电子技术股份有限公司 | 一种基于流卷积的图像识别方法 |
JP7448721B2 (ja) | 2021-03-08 | 2024-03-12 | 株式会社日立国際電気 | 撮像装置及び映像処理システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4846924B2 (ja) * | 2001-05-31 | 2011-12-28 | キヤノン株式会社 | パターン認識装置 |
JP5171118B2 (ja) * | 2007-06-13 | 2013-03-27 | キヤノン株式会社 | 演算処理装置及びその制御方法 |
JP5184824B2 (ja) * | 2007-06-15 | 2013-04-17 | キヤノン株式会社 | 演算処理装置及び方法 |
JP5368687B2 (ja) * | 2007-09-26 | 2013-12-18 | キヤノン株式会社 | 演算処理装置および方法 |
CN103679185B (zh) | 2012-08-31 | 2017-06-16 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
CN104217214B (zh) * | 2014-08-21 | 2017-09-19 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb‑d人物行为识别方法 |
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
WO2017031088A1 (en) * | 2015-08-15 | 2017-02-23 | Salesforce.Com, Inc | Three-dimensional (3d) convolution with 3d batch normalization |
CN106570564B (zh) * | 2016-11-03 | 2019-05-28 | 天津大学 | 基于深度网络的多尺度行人检测方法 |
-
2015
- 2015-12-25 JP JP2015255320A patent/JP6706788B2/ja active Active
-
2016
- 2016-02-15 CN CN201610086087.8A patent/CN105938557B/zh active Active
- 2016-02-22 US US15/049,149 patent/US9940548B2/en active Active
- 2016-02-22 EP EP16156617.9A patent/EP3065084A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2017033529A (ja) | 2017-02-09 |
CN105938557A (zh) | 2016-09-14 |
US20160259995A1 (en) | 2016-09-08 |
US9940548B2 (en) | 2018-04-10 |
EP3065084A1 (en) | 2016-09-07 |
CN105938557B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6706788B2 (ja) | 画像認識方法、画像認識装置およびプログラム | |
JP6832504B2 (ja) | 物体追跡方法、物体追跡装置およびプログラム | |
CN106548127B (zh) | 图像识别方法 | |
CN109753885B (zh) | 一种目标检测方法、装置以及行人检测方法、系统 | |
US8509545B2 (en) | Foreground subject detection | |
JP5923713B2 (ja) | 画像処理装置、撮像装置および画像処理方法 | |
JP2017059207A (ja) | 画像認識方法 | |
JP6798619B2 (ja) | 情報処理装置、情報処理プログラム及び情報処理方法 | |
US10140513B2 (en) | Reference image slicing | |
US20130148853A1 (en) | Image processing apparatus and image processing method | |
JP2010108475A (ja) | 画像処理装置および方法、プログラム、並びに記録媒体 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
JP6902811B2 (ja) | 視差推定システムと方法、電子機器及びコンピュータ可読記憶媒体 | |
CN107004256A (zh) | 用于噪声深度或视差图像的实时自适应滤波的方法和装置 | |
US8948502B2 (en) | Image processing method, and image processor | |
CN111291646A (zh) | 一种人流量统计方法、装置、设备及存储介质 | |
CN112419342A (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
WO2014006786A1 (ja) | 特徴量抽出装置および特徴量抽出方法 | |
CN114331951A (zh) | 图像检测方法、装置、计算机、可读存储介质及程序产品 | |
CN106415606B (zh) | 一种基于边缘的识别、系统和方法 | |
JP6511950B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
KR20080079443A (ko) | 영상으로부터의 객체 검출 방법 및 장치 | |
JP6546385B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP6405603B2 (ja) | 情報処理装置、情報処理システム及びプログラム | |
JP2011053937A (ja) | 画像変換パラメータ算出装置、画像変換パラメータ算出方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190621 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200218 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200424 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6706788 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |