JP7491308B2 - 物体検出装置、物体検出方法、プログラムおよび記録媒体 - Google Patents

物体検出装置、物体検出方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP7491308B2
JP7491308B2 JP2021520656A JP2021520656A JP7491308B2 JP 7491308 B2 JP7491308 B2 JP 7491308B2 JP 2021520656 A JP2021520656 A JP 2021520656A JP 2021520656 A JP2021520656 A JP 2021520656A JP 7491308 B2 JP7491308 B2 JP 7491308B2
Authority
JP
Japan
Prior art keywords
class
classes
class definition
definition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021520656A
Other languages
English (en)
Other versions
JPWO2020235269A1 (ja
Inventor
文平 田路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Publication of JPWO2020235269A1 publication Critical patent/JPWO2020235269A1/ja
Application granted granted Critical
Publication of JP7491308B2 publication Critical patent/JP7491308B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

本発明は、入力される画像から、その画像に含まれる物体を検出する物体検出装置、物体検出方法、プログラムおよび記録媒体に関する。
従来から、入力される画像に含まれる物体を検出する技術が開発されている。物体検出は、ロボットの目としての機能を実現する上で重要な技術である。物体検出に関する研究は、画像から顔を検出したり、人物を検出するなど、検出対象を特定した物体検出から行われてきている。近年では、機械学習や深層学習(Deep Learning)を利用して、物体を検出する技術も提案されている(例えば特許文献1~5参照)。
特開2019-16298号公報 特開2013-12163号公報 特開2011-138387号公報 特表2018-526723号公報 特表2018-513491号公報
ところで、機械学習を利用する場合、画像に含まれる物体の位置領域を検出する物体位置領域検出部と、上記物体のクラス(種類)を識別するクラス識別部とを、多種(多クラス)のデータを用いて予め学習させておくことにより、推論時には、多クラスの物体を検出することが可能となる。しかし、多クラスの物体の検出結果をそのまま出力することは、用途によっては有効とならない場合がある。
例えば、道路を撮影した画像に基づく交通量調査において、道路を通る物体として、“Person”、“Vehicle”、“Animal”のそれぞれを計数することだけを目的とする場合、“Person”、“Vehicle”、“Animal”という大きなクラスの検出が必要であり、そのときに、例えば“Vehicle”の小クラスである“Car”、“Bus”、“Truck”の区別は不要である。したがって、このような用途では、細かい多クラスの物体についての検出結果(上記の例では“Car”、“Bus”等の情報)を出力することは有効ではない。
一方、上記の物体位置領域検出部とクラス識別部とを、クラス数の少ないデータを用いて予め学習させておくことにより、推論時に、少ないクラスについて物体を検出し、その検出結果を出力することができる。このような学習方法は、細かい多クラスの物体の検出結果を必要としない上記の用途に好適であるとも考えられる。しかし、この場合は、学習時のデータのクラス数が少ないため、推論時の物体の検出性能が低下する。
例えば、入力される画像から、“Person”、“Vehicle”、“Animal”の3クラスを検出するように、物体位置領域検出部およびクラス識別部を学習させる場合を考える。この場合、例えば“Bird”と“Dog”とを同じ“Animal”のクラスとして学習させることが必要である。しかし、“Bird”と“Dog”とでは共通する特徴が少ないため、“Bird”と“Dog”とを同じ“Animal”のクラスとして学習させることが困難となる。このため、推論時に、“Bird”と“Dog”とを同じ“Animal”のクラスとして認識(識別)することが困難となり、その結果、物体の検出性能が低下する。
そこで、細かい多クラスの物体の検出結果を必要としない用途では、大雑把な少クラスでの物体検出を可能としつつ、共通する特徴の少ない物体の検出性能を向上させる技術が必要となる。しかし、このような技術は、特許文献1~5を含めて未だ提案されていない。
本発明は、上記の問題点を解決するためになされたもので、その目的は、位置領域の検出およびクラス識別に基づく物体検出を細かい多クラスで行って、物体の検出性能を向上させることができる一方で、細かい多クラス単位での物体の検出結果を必要としない用途に好適となる物体検出装置、物体検出方法、プログラムおよび記録媒体を提供することにある。
本発明の一側面に係る物体検出装置は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出部と、前記第1のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、前記物体検出結果出力部は、予め複数のクラスが定義され、前記第1のクラス定義と紐づいた第2のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少ない。
本発明の他の側面に係る物体検出方法は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出工程と、前記第1のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、前記物体検出結果出力工程では、予め複数のクラスが定義され、前記第1のクラス定義と紐づいた第2のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少ない。
本発明のさらに他の側面に係るプログラムは、上記物体検出方法をコンピュータに実行させるためのプログラムである。
本発明のさらに他の側面に係る記録媒体は、上記プログラムを記録した、コンピュータ読取可能な記録媒体である。
第1のクラス定義で定義された複数のクラスの数は、第2のクラス定義で定義されたクラスの数よりも相対的に多く、第1のクラス定義では、複数のクラスが細かく定義される。このため、第1のクラス定義に基づいて、物体の位置領域の検出およびクラスの識別を、細かい多クラスで行うことが可能となる。これにより、物体検出を細かい多クラスで行って物体の検出性能を向上させることが可能となる。
また、第2のクラス定義は、第1のクラス定義と紐づいて関連しており、第2のクラス定義で定義されたクラスの数は、第1のクラス定義で定義されたクラスの数よりも少ない。このため、第2のクラス定義に基づいて、少ないクラス単位で物体の検出結果を出力することが可能となる。したがって、細かい多クラス単位での検出性能を重視しない用途に好適な物体検出装置または物体検出方法を実現することができる。
本発明の実施の一形態の物体検出システムの全体の構成を模式的に示すブロック図である。 上記物体検出システムにおける学習時の処理の流れを示す説明図である。 上記物体検出システムにおける推論時の処理の一例を示す説明図である。 各クラスの階層構造を模式的に示す説明図である。 上記物体検出システムにおける推論時の処理の他の例を示す説明図である。
本発明の実施の一形態について、図面に基づいて説明すれば、以下の通りである。
〔1.物体検出システムの構成〕
図1は、本実施形態の物体検出システム1の全体の構成を模式的に示すブロック図である。物体検出システム1は、撮像部2と、物体検出装置3とを含んで構成される。撮像部2は、物体を撮影して画像を取得するカメラで構成されている。上記画像は、例えば動画であるが、静止画であってもよい。物体検出システム1に含まれる撮像部2の台数は特に制限されず、1台であってもよいし、複数台であってもよい。
撮像部2は、有線ケーブルやLAN(Local Area Network)などの通信回線を介して物体検出装置3と通信可能に接続されている。なお、撮像部2は、物体検出装置3と無線通信可能に構成されていてもよい。いずれにしても、撮像部2での撮影によって取得された画像のデータは、通信回線を介して物体検出装置3に送られる。
物体検出装置3は、例えばパーソナルコンピュータ(PC)で構成されている。この物体検出装置3は、物体位置領域検出部11と、クラス識別部12と、物体検出結果出力部13と、記憶部14と、入力部15と、表示部16と、通信部17と、読取部18と、制御部19とを有している。制御部19は、物体検出装置3の各部の動作を制御する中央演算処理装置(CPU;Central Processing Unit)で構成されており、記憶部14のプログラム記憶部14aに記憶された動作プログラムに従って動作する。
物体位置領域検出部11は、入力される画像から、その画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する。ここで、「入力される画像」とは、例えば、撮像部2から物体検出装置3に入力される画像を考えることができるが、この画像に限定されるわけではなく、その他にも、外部の端末装置やサーバーから通信回線を介して物体検出装置3に入力される画像を考えることもできる。
物体位置領域検出部11は、例えばGPU(Graphics Processing Unit)で構成されている。GPUは、リアルタイムな画像処理に特化した演算装置(プロセッサ)である。物体位置領域検出部11をGPUで構成することにより、GPUにおいて畳み込み型ニューラルネットワーク(CNN;Convolutional Neural Network)などの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークを物体位置領域検出部11として機能させることが可能となる。
本実施形態では、上記第1のクラス定義として、例えば10個のクラスが定義されている。上記10個のクラスは、例えば、“Person (with Head)”(頭部のある人物)、“Person (without Head)”(頭部のない(頭部が隠れた)人物)、“Car”、“Bus”、“Truck”、“Dog”、“Cat”、“Horse”、“Bear”、“Bird”、である。物体位置領域検出部11は、入力画像から、第1のクラス定義で定義されたクラスに属する可能性のある物体の位置領域を検出するように、予め学習されている(CNNを構成する各ノードのパラメータ(重み)が予め設定されている)。これにより、物体位置領域検出部11は、実際に外部から画像が入力されたときに、第1のクラス定義に基づき、入力された画像から、例えば“Car”らしい物体の位置領域を検出することが可能となる。
クラス識別部12は、上記の第1のクラス定義に基づいて、入力された画像に含まれる物体が複数のクラスのいずれに属するかを識別する。このようなクラス識別部12は、物体位置領域検出部11と同様に、GPUで構成されている。これにより、GPUにおいてCNNなどの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークをクラス識別部12として機能させることが可能となる。
クラス識別部12は、入力画像に含まれる物体が属するクラスを第1のクラス定義に基づいて識別するように、予め学習されている(CNNを構成する各ノードのパラメータ(重み)が予め設定されている)。これにより、クラス識別部12は、実際に外部から画像が入力されたときに、第1のクラス定義に基づいて、入力画像に含まれる物体(物体位置領域検出部11によって位置領域が既に検出された物体を含む)が第1のクラス定義で定義されたクラスのいずれに属するかを識別することが可能となる。
本実施形態では、クラス識別部12はCNNで構成されているため、クラス識別部12からは、物体が属するクラスの識別結果だけでなく、そのクラスの尤度(確からしさ)を示すスコアも出力される。例えば、物体が“Person (with Head)”である確からしさは0.8である、などの情報(スコア付きクラス情報)が、クラス識別部12から出力される。
物体検出結果出力部13は、物体位置領域検出部11の検出結果とクラス識別部12の識別結果とに基づいて、物体の検出結果を出力する。例えば、物体検出結果出力部13は、物体位置領域検出部11によって検出された物体の位置領域の情報と、クラス識別部12によって識別されたクラスの情報とを出力する。このような物体検出結果出力部13は、例えば制御部19と同一の、または別個のCPUで構成されている。
本実施形態では、物体検出結果出力部13は、予め複数のクラスが定義された第2のクラス定義に基づいて、物体のクラス情報を物体の検出結果として出力する。
ここで、上記第2のクラス定義では、例えば3個のクラスが定義されている。上記3個のクラスは、例えば“Person”、“Vehicle”、“Animal”である。したがって、第2のクラス定義で定義されたクラスの数(3個)は、第1のクラス定義で定義されたクラスの数(10個)よりも少ない。
また、第2のクラス定義で定義された“Person”は、第1のクラス定義で定義された“Person (with Head)”および“Person (without Head)”を包括したクラス(上位概念のクラス)である。また、第2のクラス定義で定義された“Vehicle”は、第1のクラス定義で定義された“Car”、“Bus”および“Truck”を包括したクラスである。さらに、第2のクラス定義で定義された“Animal”は、第1のクラス定義で定義された“Dog”、“Cat”、“Horse”、“Bear”、“Bird”を包括したクラスである。したがって、第1のクラス定義で定義された各クラスと、第2のクラス定義で定義された各クラスとは紐づいており(関連付けられており)、第1のクラス定義と第2のクラス定義とは紐づいている、と言える。
物体検出結果出力部13は、第2のクラス定義に基づいて、物体のクラス情報を物体の検出結果として出力するため、クラス識別部12から例えば物体が“Person (with Head)”である確からしさは0.8であり、“Car”である確からしさは0.2である、という情報が出力されたとき、上記物体のクラスは(“Person (with Head)”の包括概念である)“Person”であるというクラス情報を物体の検出結果として出力することになる。
記憶部14は、各種の情報を記憶するメモリであり、例えばハードディスクで構成されるが、RAM(Random Access Memory)、ROM(Read Only Memory)などをさらに含んで構成されてもよい。この記憶部14は、プログラム記憶部14aと、入力画像記憶部14bと、クラス定義記憶部14cと、パラメータ記憶部14dとを有している。
プログラム記憶部14aは、物体検出装置3の各部を動作させるための動作プログラムを記憶する。入力画像記憶部14bは、例えば撮像部2で取得され、物体検出装置3に入力された画像のデータを一次的に記憶する。なお、入力画像記憶部14bは、外部の端末装置やサーバーから物体検出装置3に画像データが入力されたときに、上記画像データを一時的に記憶してもよい。また、物体検出装置3に入力される画像は、入力画像記憶部14bに記憶されることなく、物体位置領域検出部11に直接入力される構成であってもよい。
クラス定義記憶部14cは、上述した第1のクラス定義(例えば10個のクラス)および第2のクラス定義(例えば3個のクラス)を記憶する。なお、クラス定義記憶部14cに記憶させる第1のクラス定義および第2のクラス定義は、後述する入力部15によって変更(更新)することが可能である。上記した物体位置領域検出部11は、クラス定義記憶部14cにアクセスすることにより、第1のクラス定義に基づいて物体の位置領域を検出することが可能となる。また、クラス識別部12は、クラス定義記憶部14cにアクセスすることにより、第1のクラス定義に基づいて物体のクラスを識別することが可能となる。さらに、物体検出結果出力部13は、クラス定義記憶部14cにアクセスすることにより、第2のクラス定義に基づいて、物体のクラス情報を物体の検出結果として出力することが可能となる。
パラメータ記憶部14dは、物体位置領域検出部11およびクラス識別部12を構成するCNNの各ノードのパラメータ(重み)を記憶する。上記のパラメータは、CNNの学習ごとに更新され、パラメータ記憶部14dに記憶される。
入力部15は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成され、ユーザによる各種の指示入力を受け付ける。表示部16は、各種の情報を表示するデバイスであり、例えば液晶表示装置で構成される。通信部17は、撮像部2および外部端末(例えば他の端末装置(スマートフォンなどの携帯端末を含む)、サーバー)と通信するためのインターフェースである。この通信部17は、入出力ポートのほか、アンテナ、送受信回路、変調回路、復調回路などを含んで構成される。読取部18は、記録媒体Rに記録された情報を読み取る装置であり、例えばディスクドライブで構成される。なお、記録媒体Rが可搬型の不揮発性メモリである場合、上記不揮発性メモリの接続部が指し込まれる接続ポートも読取部18に含まれるとする。
〔2.物体検出システムの動作〕
次に、本実施形態の物体検出システム1の動作について、学習時と推論時(物体検出時)とに分けて説明する。なお、以下での説明において、第1のクラス定義としては、上述の10クラス(例えば“Person (with Head)”、“Person (without Head)”、“Car”、“Bus”、“Truck”、“Dog”、“Cat”、“Horse”、“Bear”、“Bird”)が定義されており、第2のクラス定義としては、上述の3クラス(例えば“Person”、“Vehicle”、“Animal”)が定義されているとする。
(学習時の動作)
図2は、物体検出システム1における学習時の処理の流れを示す説明図である。まず、学習に先立って、学習用のデータセットを用意する(S1)。上記データセットは、物体を含む画像のデータと、その物体の正解クラスを示すラベルとがセットになったものである。ここでは、上記の第1のクラス定義に基づいて、10クラスの画像のデータを含むデータセットを用意する。なお、10クラスのそれぞれについて、データセットを複数用意してもよい。例えば、10クラスのうちの1クラスを構成する“Person (with Head)”について、画像の異なる複数のデータセットを用意してもよい。
学習用のデータセットの画像を物体検出装置3に入力すると(S2)、物体位置領域検出部11は、上記画像から、第1のクラス定義に基づき、10個のクラスのいずれかに属する可能性のある物体の位置領域をCNNでのニューロ演算によって検出する(S3)。そして、クラス識別部12は、物体位置領域検出部11によって検出された位置領域にある物体のクラスが、第1のクラス定義で定義された10個のクラスのいずれに属するかを、CNNでのニューロ演算によって識別する(S4)。
その後、制御部19は、クラス識別部12から出力される情報に基づき、誤差逆伝播法(バックプロパゲーション)を用いて、物体位置領域検出部11およびクラス識別部12を構成するCNNの各ノードのパラメータを更新する(S5)。より詳しくは、位置領域の検出が、入力画像に対応する正解クラス(第1のクラス定義のクラス)の物体について行われるように、物体位置領域検出部11の各ノードのパラメータを更新するとともに、物体位置領域検出部11で検出された位置領域にある物体のクラスの識別結果として、第1のクラス定義で定義された正解クラスを出力するように、クラス識別部12の各ノードのパラメータを更新する。
(推論時の動作)
図3は、物体検出システム1における推論時の処理の一例を示す説明図である。例えば、撮像部2で取得された画像が物体検出装置3に入力されると(S11)、物体位置領域検出部11は、上記画像から、第1のクラス定義に基づき、10個のクラスのいずれかに属する可能性のある物体の位置領域を、CNNでのニューロ演算によって検出する(S12;物体位置領域検出工程)。
次に、クラス識別部12は、物体位置領域検出部11によって検出された位置領域にある物体のクラスが、第1のクラス定義で定義された10個のクラスのいずれに属するかを、CNNでのニューロ演算によって識別し、識別したクラスの情報を、スコア付きで出力する(S13;クラス識別工程)。
物体検出結果出力部13は、クラス識別部12から出力されるクラス情報の中からスコアの最も高い物体のクラスを選択し、選択したクラスを包括するクラスを第2のクラス定義に基づいて決定する。そして、物体検出結果出力部13は、決定したクラスの情報と、物体位置領域検出部11で検出された位置領域の情報とを、物体の検出結果として出力する(S14;物体検出結果出力工程)。物体検出結果出力部13から出力される物体の検出結果(位置領域の情報、クラス情報)については、例えば表示部16で表示させてもよいし、通信部17を介して外部に送信してもよい。
〔3.効果〕
本実施形態では、第1のクラス定義で定義されたクラスの数(例えば10個)は、第2のクラス定義で定義されたクラスの数(例えば3個)よりも多く、第1のクラス定義では、複数のクラスが細かく定義される。このため、物体位置領域検出部13は、第1のクラス定義に基づいて、例えば同じ“Animal”として共通していても、共通する特徴の少ない各物体(例えば“Bird”と“Dog”)の位置領域を区別して検出することが可能となる。そして、クラス識別部12は、第1のクラス定義に基づいて、共通する特徴の少ない物体(例えば“Bird”と“Dog”)を別々のクラスで識別することが可能となる。したがって、物体の検出を細かい多クラスで行うことが可能となり、物体の検出性能を向上させることができる。
また、物体検出結果出力部13は、物体位置領域検出部11の検出結果とクラス識別部12の識別結果とに基づいて物体の検出結果を出力するにあたり、第1のクラス定義と紐づいた第2のクラス定義に基づいて、物体のクラス情報を出力する。第2のクラス定義で定義された複数のクラスの数は、第1のクラス定義で定義されたクラスの数よりも少ないため、物体検出結果出力部13は、例えば“Bird”と“Dog”とをまとめたクラスの情報(例えば“Animal”の情報)を出力することができる。したがって、物体の位置領域の検出時およびクラス識別時よりも少ないクラス単位で物体の検出結果を出力することができるため、細かい多クラス単位での検出性能を重視しない用途やアプリケーションに好適な物体検出装置3および物体検出方法を実現することができる。例えば、本実施形態の物体検出装置3および物体検出方法は、屋外に設置されたカメラで撮影された画像を用いる監視や統計調査のほか、通過した物体の計数だけを目的とし、上記物体の詳細な識別を不要とする調査や分析を行う用途やアプリケーションに好適となる。
また、本実施形態において、第1のクラス定義の“Person (with Head)”および“Person (without Head)”は、第2のクラス定義で定義された“Person”の下位概念のクラス、つまり、上記“Person”を細分化したクラスである。同様に、第1のクラス定義の“Car”、“Bus”および“Truck”は、第2のクラス定義で定義された“Vehicle”を細分化したクラスである。さらに、第1のクラス定義の“Dog”、“Cat”、“Horse”、“Bear”および“Bird”は、第2のクラス定義で定義された“Animal”を細分化したクラスである。
このように、第1のクラス定義は、第2のクラス定義で定義された各クラスを細分化して定義されているため、第1のクラス定義に基づいて、物体の検出を細かい多クラスで行うことができる。これにより、物体の検出性能を確実に向上させることができる。また、物体検出結果出力部13は、第1のクラス定義に基づいて識別された2以上のクラス(例えば“Dog”と“Bird”)を、第2のクラス定義で定義された1つのクラス(例えば“Animal”)にまとめ、その情報をクラス情報として出力することができる。したがって、物体検出結果出力部13は、物体の位置領域の検出時およびクラス識別時よりも少ないクラス単位で物体の検出結果を出力することが確実に可能となる。
また、第1のクラス定義の“Person (with Head)”および“Person (without Head)”は、“Person”として共通の特徴を持つ。また、第1のクラス定義の“Car”、“Bus”および“Truck”は、“Vehicle”として共通の特徴を持つ。さらに、第1のクラス定義の“Dog”、“Cat”、“Horse”、“Bear”および“Bird”は、“Animal”として共通の特徴を持つ。
このことから、第1のクラス定義は、第2のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されていると言える。この場合、物体位置領域検出部11は、第1のクラス定義に基づき、共通の特徴を持つ個々のクラスに属する可能性のある物体の各位置領域を互いに区別して検出することが可能となる。また、クラス識別部12は、第1のクラス定義に基づき、共通の特徴を持つ個々のクラスを別々に識別することが可能となる。したがって、共通の特徴を持つ個々のクラス間でも、物体を区別して検出することが可能となり、物体の検出性能を確実に向上させることができる。
また、本実施形態では、物体位置領域検出部11およびクラス識別部12は、ニューラルネットワークで構成されている。この場合、物体位置領域検出部11およびクラス識別部12を機械学習させることにより、入力画像をもとに物体の位置領域をニューロ演算によって検出したり、物体のクラスをニューロ演算によって識別することが可能となる。また、機械学習によってニューラルネットワークのパラメータ(各ノードの重み)を更新することにより、物体の位置領域の検出精度(物体の存在の有無の検出精度)およびクラス識別の精度を向上させることが可能となる。
また、本実施形態では、クラス識別部12は、物体位置領域検出部11による位置領域の検出後、クラスを識別している(図3参照)。この場合、クラス識別部12は、物体位置領域検出部11によって位置領域が検出された物体について、そのクラスを識別することができるため(物体らしいものについてのみクラスの識別ができるため)、物体の検出性能をさらに向上させることができる。
〔4.学習によるクラスの細分化について〕
図4は、第2のクラス定義で定義された各クラスの階層構造を模式的に示す説明図である。第1のクラス定義は、第2のクラス定義で定義された各クラスの階層構造に基づいて定義されていてもよい。同図では、第2のクラス定義で定義された各クラスを、学習時のクラス識別部12の識別結果に基づいて細分化することで上記階層構造を実現し、この階層構造に基づいて第1のクラス定義の各クラスを定義した例を示している。
より具体的には、第2のクラス定義で定義された各クラスが、“Person”と“Vehicle”との2クラスであるとする。これらの各クラスについて、学習用のデータセット(画像+正解ラベル)を用意する。このとき、各クラスについて、画像の異なるデータセットを複数用意する。そして、上述の方法で物体位置領域検出部11およびクラス識別部12を学習させる。すなわち、例えば“Person”のデータセットの画像を入力して、物体位置領域検出部11での物体の位置領域の検出およびクラス識別部12でのクラス識別を行い、その識別結果(識別されたクラスのスコア)を出力する。そして、誤差逆伝播法を用いて物体位置領域検出部11およびクラス識別部12の各ノードのパラメータを更新する。
このとき、“Person”のデータセットにおいて、クラス識別部12によって識別されたクラス(スコアが閾値以上のクラス)と、正解ラベルが示すクラス(例えば“Person”)とが一致している場合には、物体の検出が成功したとし、クラス識別部12で識別されたクラス(例えば“Person”)をそのまま残す。一方、“Person”のデータセットにおいて、クラス識別部12によって識別されたクラス(スコアが閾値以上のクラス)と、正解ラベルが示すクラス(例えば“Person”)とが不一致の場合には、物体の検出が失敗したとし、クラス識別部12で識別されたクラスを新しいクラス(例えば“Person 2”)として設定する。そして、用いたデータセットの画像(物体の検出が失敗した画像)に含まれる物体を“Person 2”として識別するように、誤差逆伝播法によって物体位置領域検出部11およびクラス識別部12の各ノードのパラメータを更新する。
次に、“Person 2”のデータセットの画像を入力して、物体位置領域検出部11での物体の位置領域の検出およびクラス識別部12でのクラス識別を行い、その識別結果(識別されたクラスのスコア)を出力し、上記と同様の処理を行う。つまり、クラス識別部12によって識別されたクラス(スコアが閾値以上のクラス)と、正解ラベルが示すクラス(例えば“Person 2”)とが一致している場合には、物体の検出が成功したとし、クラス識別部12で識別されたクラス(例えば“Person 2”)をそのまま残す。一方、“Person 2”のデータセットにおいて、クラス識別部12によって識別されたクラス(スコアが閾値以上のクラス)と、正解ラベルが示すクラス(例えば“Person 2”)とが不一致の場合には、物体の検出が失敗したとし、クラス識別部12で識別されたクラスを新しいクラス(例えば“Person 3”)として設定する。そして、用いたデータセットの画像(物体の検出が失敗した画像)に含まれる物体を“Person 3”として識別するように、誤差逆伝播法によって物体位置領域検出部11およびクラス識別部12の各ノードのパラメータを更新する。
以上の処理により、“Person”のクラスは、クラス識別部12での識別結果に基づいて、“Person”と“Person 2”の各クラスに細分化され、“Person 2”のクラスは、クラス識別部12での識別結果に基づいて、“Person 2”と“Person 3”の各クラスにさらに細分化される。その結果、“Person”を最上層とした階層構造が実現される。つまり、クラス識別部12での識別結果に基づいて、最上層のクラスである“Person”を、下層のクラス(“Person”、“Person 2”、“Person 3”)に細分化した階層構造が得られる。
なお、“Vehicle”についても、“Vehicle”のデータセットを用いて上記と同様の方法で物体位置領域検出部11およびクラス識別部12を学習させることにより、クラス識別部12での識別結果に基づいて、“Vehicle”の階層構造を得ることができる。つまり、クラス識別部12での識別結果に基づいて、最上層のクラスである“Vehicle”を、下層のクラス(“Vehicle”、“Vehicle 2”、“Vehicle 3”)に細分化した階層構造を得ることができる。
したがって、“Person”および“Vehicle”を第2のクラス定義の各クラスとして定義すると、第2のクラス定義で定義された“Person”および“Vehicle”の階層構造に基づいて、第1のクラス定義を定義することができる。つまり、第2のクラス定義で定義された2クラス(“Person”、“Vehicle”)の階層構造の最上層以外の層に属するクラス、つまり、“Person”、“Person 2”、“Person 3”、“Vehicle”、“Vehicle 2”、“Vehicle 3”(6クラス)を、第1のクラス定義として定義することができる。
このように、第1のクラス定義を、第2のクラス定義で定義された各クラスの階層構造に基づいて定義することにより、第1のクラス定義を、第2のクラス定義と紐づいた多クラスで細かく設定することが確実に可能となる。これにより、物体位置領域検出部11およびクラス識別部12での物体の位置領域の検出およびクラス識別を、第1のクラス定義に基づいて細かい多クラスで確実に行うことが可能となる。また、物体検出結果出力部13は、第2のクラス定義に基づき、上記階層構造の最上層のクラスの情報を出力することで、物体の検出結果として出力するクラス数を確実に少なくすることができる。
また、上記のように、第2のクラス定義で定義された各クラスを、学習時のクラス識別部12の識別結果に基づいて細分化して、第1のクラス定義を定義することにより、推論時に、クラス識別部12が第1のクラス定義に基づいてクラスを識別するときの識別精度を確実に向上させることができる。つまり、上記の例では、推論時に、入力画像に含まれる人物が、“Person”、“Person 2”、“Person 3”のいずれであるか、または入力画像に含まれる乗り物が、“Vehicle”、“Vehicle 2”、“Vehicle 3”のいずれであるかを確実に精度よく識別することができる。
また、上記のように、第2のクラス定義で定義された各クラスを、学習時の識別が成功したクラス(例えば“Person”、“Person 2”)と、学習時の識別が失敗して新たに割り当てたクラス(例えば“Person 3”)とを含む複数のクラスに細分化して、第1のクラス定義を定義することにより、学習時に識別が失敗したクラス(例えば“Person 3”)についても、推論時には、第1のクラス定義に基づいて、物体がそのクラス(例えば“Person 3”)に属するか否かを判断(識別)することが可能となる。
〔5.変形例〕
図5は、物体検出システム1における推論時の処理の他の例を示す説明図である。図4では、物体位置領域検出部11による位置領域の検出と同時に、クラス識別部12が画像に含まれる物体のクラスを識別する点以外は、図3と同様である。この構成では、クラス識別部12がクラスを識別する対象となる物体は、画像内で特定の位置領域に存在する物体ではなく、入力画像のどこかに存在する物体となるが、この場合でも、クラス識別部12を予め機械学習させておくことにより、推論時に入力画像内のどこかに位置する物体(位置領域が特定されていない物体)のクラスを識別することが可能となる。
このように、物体位置領域検出部11による位置領域の検出と、クラス識別部12による物体のクラスの識別とを同時に行うことにより、図3のようにそれらの処理を連続的に行う場合に比べて迅速な物体検出(検出結果の出力)を行うことが可能となる。
〔6.プログラムおよび記録媒体〕
上述した本実施形態の物体検出装置3は、例えば、所定のプログラム(アプリケーションソフトウェア)をインストールしたコンピュータ(PC)で構成することができる。上記プログラムをコンピュータ(例えばCPUとしての制御部19)が読み取って実行することにより、物体検出装置3の各部を動作させて上述した各処理(各工程)を実行させることができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されてプログラム記憶部14aに記憶される。また、上記プログラムは、例えばCD-ROM(Compact Disk-Read Only Memory)などのコンピュータ読取可能な記録媒体Rに記録され、この記録媒体Rから上記プログラムをコンピュータが読み取ってプログラム記憶部14aに記憶する形態であってもよい。
〔7.その他〕
以上の各実施の形態で説明した物体検出装置、物体検出方法、プログラムおよび記録媒体は、以下のように表現されてもよい。
1.入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出部と、
前記第1のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
前記物体検出結果出力部は、予め複数のクラスが定義され、前記第1のクラス定義と紐づいた第2のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少ないことを特徴とする物体検出装置。
2.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを細分化して定義されていることを特徴とする前記1に記載の物体検出装置。
3.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスの階層構造に基づいて定義されていることを特徴とする前記2に記載の物体検出装置。
4.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されていることを特徴とする前記2または3に記載の物体検出装置。
5.前記物体位置領域検出部および前記クラス識別部は、ニューラルネットワークで構成されていることを特徴とする前記1から4のいずれかに記載の物体検出装置。
6.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の前記クラス識別部の識別結果に基づいて細分化して定義されていることを特徴とする前記5に記載の物体検出装置。
7.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数のクラスに細分化して定義されていることを特徴とする前記6に記載の物体検出装置。
8.前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別することを特徴とする前記1から7のいずれかに記載の物体検出装置。
9.前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別することを特徴とする前記1から7のいずれかに記載の物体検出装置。
10.入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出工程と、
前記第1のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
前記物体検出結果出力工程では、予め複数のクラスが定義され、前記第1のクラス定義と紐づいた第2のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少ないことを特徴とする物体検出方法。
11.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを細分化して定義されていることを特徴とする前記10に記載の物体検出方法。
12.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスの階層構造に基づいて定義されていることを特徴とする前記11に記載の物体検出方法。
13.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されていることを特徴とする前記11または12に記載の物体検出方法。
14.前記物体位置領域検出工程では、ニューロ演算によって前記位置領域を検出し、
前記クラス識別工程では、ニューロ演算によって前記クラスを識別することを特徴とする前記10から13のいずれかに記載の物体検出方法。
15.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の前記クラス識別部の識別結果に基づいて細分化して定義されていることを特徴とする前記14に記載の物体検出方法。
16.前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数のクラスに細分化して定義されていることを特徴とする前記15に記載の物体検出方法。
17.前記クラス識別工程を、前記物体位置領域検出工程の後に行うことを特徴とする前記10から16のいずれかに記載の物体検出方法。
18.前記クラス識別工程を、前記物体位置領域検出工程と同時に行うことを特徴とする前記10から16のいずれかに記載の物体検出方法。
19.前記10から18のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。
20.前記19に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。
また、本実施形態の物体検出システムは、以下のように表現されてもよい。
21.前記1から9のいずれかに記載の物体検出装置と、
前記物体検出装置に入力される前記画像を取得する撮像部とを備えていることを特徴とする物体検出システム。
以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。
本発明は、入力される画像から、その画像に含まれる物体を検出するシステムに利用可能である。
1 物体検出システム
2 撮像部
3 物体検出装置
11 物体位置領域検出部
12 クラス識別部
13 物体検出結果出力部

Claims (18)

  1. 入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出部と、
    前記第1のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
    前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
    前記物体検出結果出力部は、前記物体の位置領域の情報を前記物体の検出結果として出力するとともに、予め複数のクラスが定義され、前記第1のクラス定義と紐づいた第2のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
    前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、
    前記物体位置領域検出部および前記クラス識別部は、ニューラルネットワークで構成されている、物体検出装置。
  2. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを細分化して定義されている、請求項1に記載の物体検出装置。
  3. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスの階層構造に基づいて定義されている、請求項2に記載の物体検出装置。
  4. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されている、請求項2または3に記載の物体検出装置。
  5. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の前記クラス識別部の識別結果に基づいて細分化して定義されている、請求項1から4のいずれかに記載の物体検出装置。
  6. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数の クラスに細分化して定義されている、請求項5に記載の物体検出装置。
  7. 前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別する、請求項1から6のいずれかに記載の物体検出装置。
  8. 前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別する、請求項1から6のいずれかに記載の物体検出装置。
  9. 入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出工程と、
    前記第1のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
    前記物体位置領域検出工程の検出結果と前記クラス識別工程の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
    前記物体検出結果出力工程では、前記物体の位置領域の情報を前記物体の検出結果として出力するとともに、予め複数のクラスが定義され、前記第1のクラス定義と紐づいた第2のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
    前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、
    前記物体位置領域検出工程では、ニューロ演算によって前記位置領域を検出し、
    前記クラス識別工程では、ニューロ演算によって前記クラスを識別する、物体検出方法。
  10. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを細分化して定義されている、請求項9に記載の物体検出方法。
  11. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスの階層構造に基づいて定義されている、請求項10に記載の物体検出方法。
  12. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されている、請求項10または11に記載の物体検出方法。
  13. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の前記クラス識別工程の識別結果に基づいて細分化して定義されている、請求項9から12のいずれかに記載の物体検出方法。
  14. 前記第1のクラス定義は、前記第2のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数のクラスに細分化して定義されている、請求項13に記載の物体検出方法。
  15. 前記クラス識別工程を、前記物体位置領域検出工程の後に行う、請求項9から14のいずれかに記載の物体検出方法。
  16. 前記クラス識別工程を、前記物体位置領域検出工程と同時に行う、請求項9から14のいずれかに記載の物体検出方法。
  17. 請求項9から16のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。
  18. 請求項17に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。
JP2021520656A 2019-05-23 2020-04-15 物体検出装置、物体検出方法、プログラムおよび記録媒体 Active JP7491308B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019096592 2019-05-23
JP2019096592 2019-05-23
PCT/JP2020/016570 WO2020235269A1 (ja) 2019-05-23 2020-04-15 物体検出装置、物体検出方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JPWO2020235269A1 JPWO2020235269A1 (ja) 2020-11-26
JP7491308B2 true JP7491308B2 (ja) 2024-05-28

Family

ID=73458113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021520656A Active JP7491308B2 (ja) 2019-05-23 2020-04-15 物体検出装置、物体検出方法、プログラムおよび記録媒体

Country Status (4)

Country Link
US (1) US20220207863A1 (ja)
EP (1) EP3975112A4 (ja)
JP (1) JP7491308B2 (ja)
WO (1) WO2020235269A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022255418A1 (ja) * 2021-06-02 2022-12-08 LeapMind株式会社 画像処理装置、画像処理システム、画像処理方法及びプログラム
WO2023119562A1 (ja) * 2021-12-23 2023-06-29 日本電気株式会社 学習装置、ストレス推定装置、学習方法、ストレス推定方法及び記憶媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015147333A1 (ja) 2014-03-28 2015-10-01 日本電気株式会社 売上登録装置、プログラム及び売上登録方法
JP2019032773A (ja) 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法
JP2019036167A (ja) 2017-08-17 2019-03-07 キヤノン株式会社 画像処理装置、画像処理方法
JP2019049604A (ja) 2017-09-08 2019-03-28 国立研究開発法人情報通信研究機構 命令文推定システムおよび命令文推定方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5554987B2 (ja) 2009-12-28 2014-07-23 キヤノン株式会社 オブジェクト識別装置及びその制御方法
JP5786495B2 (ja) 2011-06-30 2015-09-30 富士通株式会社 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム
JP2016057918A (ja) * 2014-09-10 2016-04-21 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US10074041B2 (en) 2015-04-17 2018-09-11 Nec Corporation Fine-grained image classification by exploring bipartite-graph labels
US10410096B2 (en) 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
US20170109615A1 (en) * 2015-10-16 2017-04-20 Google Inc. Systems and Methods for Automatically Classifying Businesses from Images
JP7142420B2 (ja) 2017-07-10 2022-09-27 キヤノン株式会社 画像処理装置、学習方法、学習済モデル、画像処理方法
US10579897B2 (en) * 2017-10-02 2020-03-03 Xnor.ai Inc. Image based object detection
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
EP3975111A4 (en) * 2019-05-23 2022-07-20 Konica Minolta, Inc. OBJECT DETECTION DEVICE, OBJECT DETECTION SYSTEM, OBJECT DETECTION DEVICE, PROGRAM AND RECORDING MEDIA

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015147333A1 (ja) 2014-03-28 2015-10-01 日本電気株式会社 売上登録装置、プログラム及び売上登録方法
JP2019032773A (ja) 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法
JP2019036167A (ja) 2017-08-17 2019-03-07 キヤノン株式会社 画像処理装置、画像処理方法
JP2019049604A (ja) 2017-09-08 2019-03-28 国立研究開発法人情報通信研究機構 命令文推定システムおよび命令文推定方法

Also Published As

Publication number Publication date
JPWO2020235269A1 (ja) 2020-11-26
EP3975112A1 (en) 2022-03-30
EP3975112A4 (en) 2022-07-20
US20220207863A1 (en) 2022-06-30
WO2020235269A1 (ja) 2020-11-26

Similar Documents

Publication Publication Date Title
WO2022042002A1 (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
US20190347285A1 (en) Electronic device for determining emotion of user and method for controlling same
US20180025249A1 (en) Object Detection System and Object Detection Method
US11334773B2 (en) Task-based image masking
US20200160680A1 (en) Techniques to provide and process video data of automatic teller machine video streams to perform suspicious activity detection
US20190228294A1 (en) Method and system for processing neural network model using plurality of electronic devices
EP3623998A1 (en) Character recognition
US12073656B2 (en) Activity detection device, activity detection system, and activity detection method
CN111932544A (zh) 篡改图像检测方法、装置及计算机可读存储介质
US12062105B2 (en) Utilizing multiple stacked machine learning models to detect deepfake content
JP7491308B2 (ja) 物体検出装置、物体検出方法、プログラムおよび記録媒体
CN112183307A (zh) 文本识别方法、计算机设备和存储介质
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
EP3983953A1 (en) Understanding deep learning models
JP7548231B2 (ja) 物体検出装置、物体検出方法およびプログラム
CN113570512A (zh) 一种图像数据处理方法、计算机及可读存储介质
JP7424374B2 (ja) 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体
Kompella et al. Weakly supervised multi-scale recurrent convolutional neural network for co-saliency detection and co-segmentation
AU2020103585A4 (en) CDN- Object Detection System: Object Detection System with Image Classification and Deep Neural Networks
JP2021125040A (ja) 帳票仕分システム、帳票仕分方法、及びプログラム
Olson et al. Evolution of active categorical image classification via saccadic eye movement
JP7512798B2 (ja) 情報処理装置及びコンピュータプログラム
US20240185090A1 (en) Assessment of artificial intelligence errors using machine learning
JP6967041B2 (ja) 画像認識モデルを用いた識別子情報推論のための電子装置、方法、プログラム及びシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240312

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240429

R150 Certificate of patent or registration of utility model

Ref document number: 7491308

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150