JP2022545030A - 複数のデータセットからの訓練による物体検出 - Google Patents
複数のデータセットからの訓練による物体検出 Download PDFInfo
- Publication number
- JP2022545030A JP2022545030A JP2022512357A JP2022512357A JP2022545030A JP 2022545030 A JP2022545030 A JP 2022545030A JP 2022512357 A JP2022512357 A JP 2022512357A JP 2022512357 A JP2022512357 A JP 2022512357A JP 2022545030 A JP2022545030 A JP 2022545030A
- Authority
- JP
- Japan
- Prior art keywords
- dataset
- annotated
- datasets
- objects
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 description 25
- 238000013528 artificial neural network Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 11
- 210000002364 input neuron Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 210000004205 output neuron Anatomy 0.000 description 6
- 238000003491 array Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
Description
本出願は2019年11月14日に出願された米国特許出願第62/935,103号、および2020年11月10日に出願された米国特許出願第17/094,261号の優先権を主張し、それぞれ、参照により全体が本明細書に組み込まれる。
本発明は、画像分類に関し、より詳細には、不均一なラベル空間を有する複数のデータセットを使用した画像内の物体の検出に関する。
関連技術の説明
Claims (20)
- 複数のデータセット固有物体検出器を、それぞれの注釈付きデータセットを使用して訓練し(204)、前記注釈付きデータセットのそれぞれが、1つまたは複数の物体クラスのそれぞれのセットに対する注釈を含むことと、
前記データセット固有物体検出器を使用して前記注釈付きデータセットに相互注釈をつける(206)ことと、
前記相互注釈付きのデータセットを使用して、前記注釈付きデータセットの前記物体クラスの全てを検出するように統一物体検出器を訓練する(208)ことと、
前記統一物体検出器を用いて入力画像中の物体を検出する(210)ことと、を含む、物体検出の方法。 - 前記統一物体検出器を訓練することは、真のグラウンドトゥルースとして前記注釈付きデータセットの注釈を使用し、擬似グラウンドトゥルースとして前記データセット固有物体検出器による相互注釈を使用する、請求項1に記載の方法。
- 前記注釈はそれぞれ、物体についての境界ボックスと物体クラスとを含む、請求項1に記載の方法。
- 前記複数のデータセット固有物体検出器は、共有バックボーンを使用して訓練される、請求項1に記載の方法。
- 前記複数のデータセット固有物体検出器は、別々のそれぞれのバックボーンを使用して訓練される、請求項1に記載の方法。
- 前記注釈付きデータセットの各々は、他の注釈付きデータセットのいずれにおいても注釈付けされていない少なくとも1つの物体クラスに対する注釈を含む、請求項1に記載の方法。
- 前記注釈付きデータセットに相互注釈を付けることは、第2の注釈付きデータセット上で訓練されたデータセット固有物体検出器を使用して第1の注釈付きデータセット上で物体検出を行って、前記第2の注釈付きデータセットの前記1つまたは複数の物体クラスに属する1つまたは複数の仮対象物を検出することを含む、請求項1に記載の方法。
- 前記注釈付きデータセットに相互注釈を付けすることは、前記1つまたは複数の検出された仮対象物のそれぞれについて信頼スコアを決定することと、
前記1つまたは複数の検出された仮対象物のそれぞれの前記信頼スコアを、第1の閾値および第2の閾値と比較することと、
前記比較に従って前記1つまたは複数の検出された仮対象物に注釈を付けることと、をさらに含む、請求項7に記載の方法。 - 前記1つまたは複数の検出された仮対象物に注釈を付けることは、前記1つまたは複数の検出された仮対象物のうちの少なくとも1つの信頼スコアが前記第1の閾値と前記第2の閾値との間にあるという判定に応答して、前記1つまたは複数の検出された仮対象物のうちの前記少なくとも1つを廃棄することを含む、請求項8に記載の方法。
- 前記検出された物体を使用してコンピュータビジョンタスクを実行することを、さらに含む、請求項1に記載の方法。
- ハードウェアプロセッサ(402)と、
前記ハードウェアプロセッサによって実行されるコンピュータプログラムコードを記憶するように構成されたメモリ(404)と、を含み、前記コンピュータプログラムコードは、
複数のデータセット固有物体検出器を実装する機械学習コード(406)であって、各データセット固有物体検出器が、それぞれの注釈付きデータセットによる訓練に従って入力画像内の物体を検出および注釈付けし、前記注釈付きデータセットの各々が、1つまたは複数の物体クラスのそれぞれのセットに対する注釈を含み、前記複数のデータセット固有物体検出器が、前記注釈付きデータセットに相互注釈をつける、機械学習コードと、
複数のデータセットによる訓練に従って入力画像内の物体を検出し、注釈を付ける統一物体検出器を実装する機械学習コード(408)と、
それぞれの注釈付きデータセットを使用して前記複数のデータセット固有物体検出器を訓練するデータセット固有訓練コード(407)と、
前記相互注釈付きのデータセットを使用して、前記注釈付きデータセットのすべての物体クラスを検出するように前記統一物体検出器を訓練する統一訓練コード(407)と、
前記統一物体検出器を使用して入力画像内の物体を検出する物体検出コード(408)と、を含む、物体検出のシステム。 - 前記統一物体検出器は、真のグラウンドトゥルースとして前記注釈付きデータセットの注釈を使用し、擬似グラウンドトゥルースとして前記データセット固有物体検出器による相互注釈を使用する、請求項11に記載のシステム。
- 前記注釈はそれぞれ、物体についての境界ボックスおよび物体クラスを含む、請求項11に記載のシステム。
- 前記データセット固有訓練コードは、共有バックボーンを使用して前記複数のデータセット固有物体検出器を訓練する、請求項11に記載のシステム。
- 前記データセット固有訓練コードは、別個のそれぞれのバックボーンを使用して前記複数のデータセット固有物体検出器を訓練する、請求項11に記載のシステム。
- 前記注釈付きデータセットの各々は、他の注釈付きデータセットのいずれにおいても注釈付けされていない少なくとも1つの物体クラスに対する注釈を含む、請求項11に記載のシステム。
- 前記複数のデータセット固有物体検出器の各々は、それぞれの第2の注釈付きデータセット上で訓練され、第1の注釈付きデータセットのセットにおいて画像上で物体検出を実行して、前記第2の注釈付きデータセットの1つまたは複数の物体クラスに属する1つまたは複数の仮対象物を検出する、請求項11に記載のシステム。
- 前記複数のデータセット固有物体検出器の各々は、前記画像の各々における前記1つまたは複数の検出された仮対象物の各々に対する信頼スコアを更に決定し、前記1つまたは複数の検出された仮対象物の各々に対する前記信頼スコアを第1の閾値および第2の閾値と比較し、前記比較に従って前記画像に注釈を付ける、請求項17に記載のシステム。
- 前記複数のデータセット固有物体検出器の各々は、前記1つまたは複数の検出された仮対象物のうちの少なくとも1つについての前記信頼スコアが前記第1の閾値と前記第2の閾値との間にあるという判定に応答して、前記1つまたは複数の検出された仮対象物のうちの前記少なくとも1つをさらに廃棄する、請求項18に記載のシステム。
- 前記コンピュータプログラムコードは、前記検出された物体を用いてコンピュータビジョンタスクを実行するセキュリティコードをさらに含む、請求項11に記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962935103P | 2019-11-14 | 2019-11-14 | |
US62/935,103 | 2019-11-14 | ||
US17/094,261 US11222238B2 (en) | 2019-11-14 | 2020-11-10 | Object detection with training from multiple datasets |
US17/094,261 | 2020-11-10 | ||
PCT/US2020/060169 WO2021097048A1 (en) | 2019-11-14 | 2020-11-12 | Object detection with training from multiple datasets |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022545030A true JP2022545030A (ja) | 2022-10-24 |
JP7257587B2 JP7257587B2 (ja) | 2023-04-13 |
Family
ID=75908793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022512357A Active JP7257587B2 (ja) | 2019-11-14 | 2020-11-12 | 複数のデータセットからの訓練による物体検出 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11222238B2 (ja) |
JP (1) | JP7257587B2 (ja) |
DE (1) | DE112020005663T5 (ja) |
WO (1) | WO2021097048A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021195854A1 (en) * | 2020-03-30 | 2021-10-07 | Shanghaitech University | Multi-view neural human rendering |
EP4266260A1 (en) * | 2022-04-20 | 2023-10-25 | Axis AB | Encoding of training data for training of a neural network |
US11955272B1 (en) * | 2022-11-10 | 2024-04-09 | Superb Ai Co., Ltd. | Method for generating object detector based on deep learning capable of detecting extended object class and detector generation device using the same |
CN117612140B (zh) * | 2024-01-19 | 2024-04-19 | 福思(杭州)智能科技有限公司 | 道路场景的识别方法、装置和存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018081569A (ja) * | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
WO2018216648A1 (ja) * | 2017-05-22 | 2018-11-29 | 日本電気株式会社 | 群衆状態認識装置、学習方法および学習プログラム |
JP2018537798A (ja) * | 2015-10-02 | 2018-12-20 | トラクタブル リミテッドTractable Ltd. | データセットの半自動ラベル付け |
JP2019192022A (ja) * | 2018-04-26 | 2019-10-31 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10019631B2 (en) * | 2015-11-05 | 2018-07-10 | Qualcomm Incorporated | Adapting to appearance variations when tracking a target object in video sequence |
GB2554633B (en) * | 2016-06-24 | 2020-01-22 | Imperial College Sci Tech & Medicine | Detecting objects in video data |
US10360732B2 (en) * | 2017-03-23 | 2019-07-23 | Intel Corporation | Method and system of determining object positions for image processing using wireless network angle of transmission |
US11017550B2 (en) * | 2017-11-15 | 2021-05-25 | Uatc, Llc | End-to-end tracking of objects |
CN110136202A (zh) * | 2019-05-21 | 2019-08-16 | 杭州电子科技大学 | 一种基于ssd与双摄像头的多目标识别与定位方法 |
-
2020
- 2020-11-10 US US17/094,261 patent/US11222238B2/en active Active
- 2020-11-12 DE DE112020005663.5T patent/DE112020005663T5/de active Pending
- 2020-11-12 JP JP2022512357A patent/JP7257587B2/ja active Active
- 2020-11-12 WO PCT/US2020/060169 patent/WO2021097048A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018537798A (ja) * | 2015-10-02 | 2018-12-20 | トラクタブル リミテッドTractable Ltd. | データセットの半自動ラベル付け |
JP2018081569A (ja) * | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
WO2018216648A1 (ja) * | 2017-05-22 | 2018-11-29 | 日本電気株式会社 | 群衆状態認識装置、学習方法および学習プログラム |
JP2019192022A (ja) * | 2018-04-26 | 2019-10-31 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021097048A1 (en) | 2021-05-20 |
DE112020005663T5 (de) | 2022-09-01 |
US11222238B2 (en) | 2022-01-11 |
US20210150275A1 (en) | 2021-05-20 |
JP7257587B2 (ja) | 2023-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7257587B2 (ja) | 複数のデータセットからの訓練による物体検出 | |
US20230215169A1 (en) | Weakly-Supervised Action Localization by Sparse Temporal Pooling Network | |
US11741372B2 (en) | Prediction-correction approach to zero shot learning | |
Yeganejou et al. | Interpretable deep convolutional fuzzy classifier | |
Alani et al. | Hand gesture recognition using an adapted convolutional neural network with data augmentation | |
US20200097742A1 (en) | Training neural networks for vehicle re-identification | |
US11704409B2 (en) | Post-training detection and identification of backdoor-poisoning attacks | |
Abdelzad et al. | Detecting out-of-distribution inputs in deep neural networks using an early-layer output | |
JP7289012B2 (ja) | ラベル付けされていない顔データにわたるクラスタリングに基づく深層顔認識 | |
US11120297B2 (en) | Segmentation of target areas in images | |
US11790646B2 (en) | Network for interacted object localization | |
CN112384425A (zh) | 利用用于自主驾驶的神经形态计算网络进行实时车辆识别的方法 | |
KR20210068993A (ko) | 분류기를 훈련하는 디바이스 및 방법 | |
Yeganejou et al. | Improved deep fuzzy clustering for accurate and interpretable classifiers | |
CN112926574A (zh) | 图像识别方法、图像识别装置和系统 | |
US20230281826A1 (en) | Panoptic segmentation with multi-database training using mixed embedding | |
US20210264226A1 (en) | Method for semantic object detection with knowledge graph | |
CN114943873B (zh) | 一种工地人员异常行为分类方法及装置 | |
CN116611500A (zh) | 用于训练神经网络的方法及装置 | |
Denouden | An application of out-of-distribution detection for two-stage object detection networks | |
WO2020030722A1 (en) | Sensor system including artificial neural network configured to perform a confidence measure-based classification or regression task | |
Kalirajan et al. | Deep Learning for Moving Object Detection and Tracking | |
Yeganejou | Interpretable Deep Covolutional Fuzzy Networks | |
EP4109342A1 (en) | Novelty detection method for a neural network model | |
Parida et al. | Review of fmri data analysis: A special focus on classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7257587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |