JP7289013B2 - オクルージョン認識室内シーン分析 - Google Patents
オクルージョン認識室内シーン分析 Download PDFInfo
- Publication number
- JP7289013B2 JP7289013B2 JP2022515648A JP2022515648A JP7289013B2 JP 7289013 B2 JP7289013 B2 JP 7289013B2 JP 2022515648 A JP2022515648 A JP 2022515648A JP 2022515648 A JP2022515648 A JP 2022515648A JP 7289013 B2 JP7289013 B2 JP 7289013B2
- Authority
- JP
- Japan
- Prior art keywords
- masks
- mask
- view
- visible
- occluded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title description 3
- 238000012549 training Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 description 25
- 238000013528 artificial neural network Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 210000002364 input neuron Anatomy 0.000 description 7
- 210000004205 output neuron Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Description
本出願は、2019年11月14日に出願された米国特許出願第62/935,312号、および2020年11月12日に出願された米国特許出願第17/095,967号の優先権を主張し、それぞれ、参照により全体が本明細書に組み込まれる。
本発明は、画像処理に関し、より詳細には、画像内のオクルージョンを識別するために面表現を使用することに関する。
関連技術の説明
Claims (20)
- 機械学習モデルを使用して、前景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出する(320)ことと、
前記機械学習モデルを使用して、背景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記背景物体のマスクとを含む、前記画像内の背景物体マスクのセットを検出する(340)ことと、
セマンティックマージを使用して前記前景物体マスクのセットと前記背景物体マスクのセットを統合する(206)ことと、
前記統合されたセットの少なくとも1つの物体の前記少なくとも1つの遮蔽部分を考慮するコンピュータビジョンタスクを実行する(406)ことと、を含む、オクルージョン検出のための方法。 - セマンティックマージは、少なくとも1つの遮蔽部分を含む前記マスクのそれぞれのセットに対する非最大抑制を含む、請求項1に記載の方法。
- セマンティックマージは、前記前景物体マスクのセットの可視マスクと、前記背景物体マスクのセットの可視マスクとの間の重複を決定することをさらに含む、請求項2に記載の方法。
- セマンティックマージは、より低い信頼スコアを有する重複マスクを廃棄することをさらに含む、請求項3に記載の方法。
- セマンティックマージは、グランドトゥルース面と、別のビューに投影された予測面との間のIoU(intersection-over-union)重複を計算することを含む、請求項1に記載の方法。
- 遮蔽領域を含む、所与のシーンの複数のビュー間の一貫性を強制する目的関数を使用して、機械学習モデルを訓練することをさらに含む、請求項1に記載の方法。
- 前記機械学習モデルを訓練することは、第1のビューの物体マスクを第2のビューにワープすることと、前記ワープされた物体マスクを前記第2のビューのグラウンドトゥルース物体マスクと比較することとを含む、請求項6に記載の方法。
- 前記機械学習モデルを訓練することは、訓練データセットの各ビューを使用して、前記機械学習モデルのレイアウト部分と、前記機械学習モデルの物体部分とを別々に訓練することを含む、請求項6に記載の方法。
- 前記訓練データセットの各ビューは、入力メッシュによって生成され、所与の入力メッシュからのビューはそれぞれのカメラ視点から生成される、請求項8に記載の方法。
- 各前景物体マスクおよび各背景物体マスクは、法線方向およびオフセット値を含む、請求項9に記載の方法。
- ハードウェアプロセッサ(702)と、
コンピュータプログラムコードを記憶するメモリ(704)と、を有し、
前記コンピュータプログラムコードは、前記ハードウェアプロセッサによって実行されると、
前景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出し、背景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記背景物体のマスクとを含む、前記画像内の背景物体マスクのセットを検出し、セマンティックマージを使用して前記前景物体マスクのセットと前記背景物体マスクのセットとを統合する、オクルージョン推定モデル(712)と、
前記統合されたセットの少なくとも1つの物体の前記少なくとも1つの遮蔽部分を考慮するコンピュータビジョンタスク(716)と、を実装する、オクルージョン検出のためのシステム。 - 前記オクルージョン推定モデルは、セマンティックマージのための少なくとも1つの遮蔽部分を含む前記マスクのそれぞれのセットに対して非最大抑制を実行する、請求項11に記載のシステム。
- 前記オクルージョン推定モデルは、セマンティックマージのために前記前景物体マスクのセットの可視マスクと前記背景物体マスクのセットの可視マスクとの間の重複を決定する、請求項12に記載のシステム。
- 前記オクルージョン推定モデルは、より低い信頼スコアを有する重複マスクを廃棄する、請求項13に記載のシステム。
- 前記オクルージョン推定モデルは、セマンティックマージのためにグランドトゥルース面と別のビューに投影された予測面との間のIoU(intersection-over-union)重複を計算する、請求項11に記載のシステム。
- 前記コンピュータプログラムコードは、遮蔽領域を含む所与のシーンの複数のビュー間の一貫性を強制する目的関数を使用して前記オクルージョン推定モデルを訓練するモデルトレーナをさらに実装する、請求項11に記載のシステム。
- 前記モデルトレーナは、第1のビューの物体マスクを第2のビューにさらにワープし、前記ワープされた物体マスクを前記第2のビューのグラウンドトゥルース物体マスクと比較する、請求項16に記載のシステム。
- 前記モデルトレーナは、訓練データセットの各ビューを使用して、前記オクルージョン推定モデルのレイアウト部分と前記オクルージョン推定モデルの物体部分とを別々にさらに訓練する、請求項16に記載のシステム。
- 前記訓練データセットの各ビューは入力メッシュによって生成され、所与の入力メッシュからのビューがそれぞれのカメラ視点から生成される、請求項18に記載のシステム。
- 各前景物体マスクおよび各背景物体マスクは、法線方向およびオフセット値を含む、請求項19に記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962935312P | 2019-11-14 | 2019-11-14 | |
US62/935,312 | 2019-11-14 | ||
US17/095,967 US20210150751A1 (en) | 2019-11-14 | 2020-11-12 | Occlusion-aware indoor scene analysis |
US17/095,967 | 2020-11-12 | ||
PCT/US2020/060336 WO2021097156A1 (en) | 2019-11-14 | 2020-11-13 | Occlusion-aware indoor scene analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022547205A JP2022547205A (ja) | 2022-11-10 |
JP7289013B2 true JP7289013B2 (ja) | 2023-06-08 |
Family
ID=75908930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515648A Active JP7289013B2 (ja) | 2019-11-14 | 2020-11-13 | オクルージョン認識室内シーン分析 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210150751A1 (ja) |
JP (1) | JP7289013B2 (ja) |
DE (1) | DE112020005584T5 (ja) |
WO (1) | WO2021097156A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544828B2 (en) * | 2020-11-18 | 2023-01-03 | Disney Enterprises, Inc. | Automatic occlusion detection |
CN113435358B (zh) * | 2021-06-30 | 2023-08-11 | 北京百度网讯科技有限公司 | 用于训练模型的样本生成方法、装置、设备、程序产品 |
CN113819892B (zh) * | 2021-07-01 | 2022-07-05 | 山东大学 | 基于半参数估计和附加深度约束的深海基准网平差方法 |
CN113657518B (zh) * | 2021-08-20 | 2022-11-25 | 北京百度网讯科技有限公司 | 训练方法、目标图像检测方法、装置、电子设备以及介质 |
CN114529801A (zh) * | 2022-01-14 | 2022-05-24 | 北京百度网讯科技有限公司 | 一种目标检测的方法、装置、设备及存储介质 |
CN115883792B (zh) * | 2023-02-15 | 2023-05-05 | 深圳市完美显示科技有限公司 | 一种利用5g和8k技术的跨空间实景用户体验系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017165538A1 (en) * | 2016-03-22 | 2017-09-28 | Uru, Inc. | Apparatus, systems, and methods for integrating digital media content into other digital media content |
US10019655B2 (en) * | 2016-08-31 | 2018-07-10 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
US10553091B2 (en) * | 2017-03-31 | 2020-02-04 | Qualcomm Incorporated | Methods and systems for shape adaptation for merged objects in video analytics |
US10678257B2 (en) * | 2017-09-28 | 2020-06-09 | Nec Corporation | Generating occlusion-aware bird eye view representations of complex road scenes |
US10719742B2 (en) * | 2018-02-15 | 2020-07-21 | Adobe Inc. | Image composites using a generative adversarial neural network |
CN110084191B (zh) * | 2019-04-26 | 2024-02-23 | 广东工业大学 | 一种眼部遮挡检测方法及系统 |
-
2020
- 2020-11-12 US US17/095,967 patent/US20210150751A1/en not_active Abandoned
- 2020-11-13 WO PCT/US2020/060336 patent/WO2021097156A1/en active Application Filing
- 2020-11-13 DE DE112020005584.1T patent/DE112020005584T5/de active Pending
- 2020-11-13 JP JP2022515648A patent/JP7289013B2/ja active Active
Non-Patent Citations (2)
Title |
---|
WADA, Kentaro et al.,Instance Segmentation of Visible and Occluded Regions for Finding and Picking Target from a Pile of Objects,[online],2018年10月01日,https://ieeexplore.ieee.org/document/8593690 |
Ziyu Jiang et al.,Peek-a-Boo: Occlusion Reasoning in Indoor Scenes with Plane Representations,[online],2020年06月,https://ieeexplore.ieee.org/document/9156416 |
Also Published As
Publication number | Publication date |
---|---|
WO2021097156A1 (en) | 2021-05-20 |
DE112020005584T5 (de) | 2022-09-15 |
US20210150751A1 (en) | 2021-05-20 |
JP2022547205A (ja) | 2022-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7289013B2 (ja) | オクルージョン認識室内シーン分析 | |
EP3293705B1 (en) | 3d reconstruction of a real object from a depth map | |
Min et al. | Cost aggregation and occlusion handling with WLS in stereo matching | |
US9111375B2 (en) | Evaluation of three-dimensional scenes using two-dimensional representations | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
JP7129529B2 (ja) | 人工知能の使用による3dオブジェクトへのuvマッピング | |
CN118202391A (zh) | 从单二维视图进行对象类的神经辐射场生成式建模 | |
CN115147891A (zh) | 用于生成合成深度数据的系统、方法和存储介质 | |
Kokkinos et al. | To the point: Correspondence-driven monocular 3d category reconstruction | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
KR20210058638A (ko) | 이미지 처리 장치 및 방법 | |
US20210150274A1 (en) | Object recognition from images using cad models as prior | |
CN115731365A (zh) | 基于二维图像的网格模型重建方法、系统、装置及介质 | |
US20220301348A1 (en) | Face reconstruction using a mesh convolution network | |
EP4392935A1 (en) | Robustifying nerf model novel view synthesis to sparse data | |
CN116434303A (zh) | 基于多尺度特征融合的人脸表情捕捉方法、装置及介质 | |
CN117078809A (zh) | 基于图像的动效生成方法、装置、设备和存储介质 | |
Balakrishnan et al. | Multimedia concepts on object detection and recognition with F1 car simulation using convolutional layers | |
US12051151B2 (en) | System and method for reconstruction of an animatable three-dimensional human head model from an image using an implicit representation network | |
KR20220074715A (ko) | 이미지 처리 방법 및 장치 | |
EP4239572A1 (en) | Image quality assessment for refinement of imaging rendering parameters for rendering medical images | |
CN116758212A (zh) | 基于自适应去噪算法的3d重建方法、装置、设备及介质 | |
CN116091705A (zh) | 基于神经辐射场的变拓扑动态场景重建与编辑方法和装置 | |
JP2021071749A (ja) | 3dモデル生成装置および方法 | |
US20220058484A1 (en) | Method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230529 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7289013 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |