JP7289013B2 - オクルージョン認識室内シーン分析 - Google Patents

オクルージョン認識室内シーン分析 Download PDF

Info

Publication number
JP7289013B2
JP7289013B2 JP2022515648A JP2022515648A JP7289013B2 JP 7289013 B2 JP7289013 B2 JP 7289013B2 JP 2022515648 A JP2022515648 A JP 2022515648A JP 2022515648 A JP2022515648 A JP 2022515648A JP 7289013 B2 JP7289013 B2 JP 7289013B2
Authority
JP
Japan
Prior art keywords
masks
mask
view
visible
occluded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022515648A
Other languages
English (en)
Other versions
JP2022547205A (ja
Inventor
ブユ リウ、
サミュエル シュルター、
マンモハン チャンドラカー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022547205A publication Critical patent/JP2022547205A/ja
Application granted granted Critical
Publication of JP7289013B2 publication Critical patent/JP7289013B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

関連出願情報
本出願は、2019年11月14日に出願された米国特許出願第62/935,312号、および2020年11月12日に出願された米国特許出願第17/095,967号の優先権を主張し、それぞれ、参照により全体が本明細書に組み込まれる。
技術分野
本発明は、画像処理に関し、より詳細には、画像内のオクルージョンを識別するために面表現を使用することに関する。
関連技術の説明
人間の視覚は、視野内のオクルージョンを識別すること、特に、1つの物体が別の物体の前にあるときに識別することに適応している。しかしながら、電子化画像分析は、特に、物体とシーンの構成が非常に複雑である室内シーンにおいて、このタスクに問題を有する。
オクルージョン検出のための方法は、機械学習モデルを使用して、前景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出することを含む。機械学習モデルを使用して、背景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む背景物体のマスクとを含む、背景物体マスクのセットが、画像内で検出される。前景物体マスクのセットと背景物体マスクのセットは、セマンティックマージを使用して統合(マージ)される。統合されたセットの少なくとも1つの物体の少なくとも1つの遮蔽部分を考慮するコンピュータビジョンタスクが実行される。
オクルージョン検出のためのシステムは、ハードウェアプロセッサと、コンピュータプログラムコードを記憶するメモリとを含む。ハードウェアプロセッサによって実行されると、プログラムコードは、オクルージョン推定モデルとコンピュータビジョンタスクを実行する。オクルージョン推定モデルは、前景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出し、背景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む背景物体のマスクとを含む、画像内の背景物体マスクのセットを検出し、セマンティックマージを使用して、前景物体マスクのセットと背景物体マスクのセットを統合する。コンピュータビジョンタスクは、統合されたセットの少なくとも1つの物体の少なくとも1つの遮蔽部分を考慮する。
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるのであろう。
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
本発明の一実施形態による、部分的に遮蔽された物体を有する、室内シーンのビューを含む画像の図である。
本発明の一実施形態による、遮蔽された物体の拡張を検出し推定するために機械学習モデルを訓練する方法のブロック/フロー図である。
本発明の一実施形態による、前景物体および背景物体のための別個の分岐を有し、物体の可視部分のマスクおよびシーン内の全物体のマスクを識別する機械学習モデルのブロック図である。
本発明の一実施形態による、画像内の遮蔽された物体に関する情報を使用してコンピュータビジョンタスクを実行するための方法のブロック/フロー図である。
本発明の一実施形態による、高レベル人工ニューラルネットワーク(ANN)機械学習モデルの図である。
本発明の一実施形態による、特定のアーキテクチャfir ANN機械学習モデルの図である。
本発明の一実施形態による、オクルージョン推定を実行するコンピュータビジョンシステムのブロック図である。
シーンは、単一の入力画像から推定される面の集合として表すことができる。椅子またはテーブルのような前景物体上の面と、壁のような背景物体上の面とのサイズおよび形状の区別を使用して、これらの物体のグループを別々に予測して、出力空間変動を低減することができる。さらに、マルチビュー入力が利用可能である場合、訓練信号を取得するために、面を1つのビューから別のビューにワープすることができる。
機械学習モデルは、例えば、隠れ領域に関する推論を用いて全シーン表現を推定するニューラルネットワークモデルを使用して、遮蔽領域のジオメトリおよびセマンティックに関するグランドトゥルースを含むデータを使用して訓練してもよい。このような訓練データを得るために、既存の画像データセットを処理して、オクルージョン推定のための近似的であるが信頼性のあるグランドトゥルース情報を提供することができる。
オクルージョン検出は、ロボットナビゲーションおよび拡張現実のような様々な用途において有用である。画像内のオクルージョンの検出および分析を改善することによって、本発明の原理は、画像を使用して実物理空間をナビゲートする任意のアプリケーションに明確な進歩を提供する。室内設定の画像の分析は、可視波長でカメラによって生成された画像を使用することが特に考えられるが、本原理は、任意の適切なタイプの入力データを使用して、任意のコンテキストに拡張されてもよいことを理解されたい。
ここで、同一の数字が同一または類似の要素を表す図を参照する。最初に図1を参照すると、例示的な画像100が示されている。画像100は、室内シーンのビューを含み、テーブル102が椅子104を部分的に遮る。また、前景物体によって部分的に遮蔽され得る、壁106および床のような物体も示されている。壁106は、背景面と見なすことができ、テーブル102および椅子104は、前景の一部と見なすことができる。
面を使用して、セミパラメトリックな方法でシーンをコンパクトに記述できる。各面は、法線ベクトルと、オフセットと、その面の境界の輪郭を描くマスクとによって定義される。機械学習モデルを使用して、各面の可視範囲と遮蔽範囲の両方を予測し、セマンティックに基づいて面の予測を分離することができる。この目的のために、遮蔽領域のために設計されたメトリック、例えば、平均精度隠れメトリック(average precision hidden metric)を使用することができる。本発明の原理は、面の可視部分の推論を妥協することなく、遮蔽領域の優れた検出を提供する。
機械学習を使用して、遮蔽された物体を識別することができる。例えば、データセットは、例えば、部屋のレイアウトに関するメッシュ情報を含む入力データを使用して、機械学習グラウンドトゥルースを生成するために使用されてもよい。メッシュは複数の面の集合に変換することができ、各面は、法線ベクトル、オフセット、および2つのマスク、すなわち、オクルージョンを考慮して、所定の遠近法による面の可視部分に対する1つのマスクと、オクルージョンに関係なく、面の全範囲に対するもう1つのマスクによって表現される。前者は本明細書では可視マスクと呼ばれ、後者は本明細書では完全マスクと呼ばれる。法線ベクトルは、面の方向を示すが、オフセットは、カメラの位置から面までの最も近い距離を示す。したがって、マスクは面のサイズと形状を表す。
また、深度マップは、任意の面によってカバーされない領域について、シーンの完全な表現のために使用されてもよい。シーンのあらゆるビューについて、カメラパラメータを使用して、マスクおよび面表現の他のパラメータを計算することができる。
例えば、データ生成プロセスのアーチファクトである、カメラビューやメッシュ内のノイズのために、遮蔽領域の完全なマスクに穴が開いている可能性がある。しかし、壁、床、テーブルトップのような完全な面は、多くの場合、凸形の形状であるが、穴は、一般に、全面の内側に生じる。したがって、完全なマスクは、凸状閉鎖部となるように充填することができる。充填領域は、所与の穴が実際に存在したかどうかの不確実性を考慮するために、訓練に影響を及ぼさないように、無視されるようにフラグを立てることができる。
図2を参照すると、オクルージョン検出器を訓練する方法が示されている。ブロック201は、例えば、マルチビューシーン情報のコーパスから訓練データを生成する。そのような情報は、特定のシーンの記録された3次元輪郭を表すメッシュを含むことができる。ブロック201は、例えば、カメラ視点から見える物体を表すマスクを識別し、遮蔽されたメッシュから物体の真の完全な形状を表すマスクを識別することによって、そのような各メッシュをビューの面情報に変換することができる。訓練データに追加するために、複数の異なるビューを単一のシーンから生成することができる。
ブロック202および204は、所与の入力画像について、それぞれレイアウトマスクおよび物体マスクについての領域予測を生成する。この入力画像は、カメラ視点からの訓練シーンのビューであってもよい。ブロック202および204は、任意の順序で実行することができ、並列に実行することもできることを理解されたい。各ブロックは、同じ入力画像を取り込む。
面は、その面を囲む境界ボックスを識別することによって検出することができる。通常のかつ二値のマスクは、領域の位置およびその向きを示す各面について決定することができる。また、画像内の画素ごとの深度値を予測するために、グローバル特徴マップを使用して、深度を決定してもよい。画素あたりの深度と可視面が与えられれば、オフセットを各面に対して決定することができる。
可視マスクおよび完全マスクの両方が利用可能である場合、異なるカテゴリに属する面の形状、サイズ、および分布の変化は、可視マスクのみが利用可能である場合よりも大きく変化する。そのような物体カテゴリは、「床」および「壁」のカテゴリを含むことができ、ここでは前景カテゴリと比較して大きな差異を観察することができるが、所与の面の可視マスクおよび完全マスクについての異なるカテゴリをさらに含むことができる。そのため、前景および背景は、別々に扱われてもよい。したがって、クラスは、別々のグループに定義することができ、カテゴリ固有のネットワークがそれぞれを処理するために使用され、物体領域予測204が前景カテゴリに使用され、レイアウト領域予測202が背景カテゴリに使用される。
物体領域検出204は、物体面グランドトゥルースで訓練されてもよく、一方、レイアウト領域検出202は、レイアウト面グランドトゥルースで訓練されてもよい。その結果、過度に多くのパラメータを追加することなく、異なる事前分布がカテゴリごとに学習される。単一の画像が与えられると、レイアウト領域検出は、壁および床などの背景クラスのマスクを予測することができ、一方、物体領域検出は、背景物体を無視しながら、前景クラスに焦点を合わせることができる。
ブロック202および204はそれぞれ、入力画像から予測面のそれぞれのセットを出力する。ブロック206は、画像全体の最終的な表現を得るセマンティックマージを実行する。単純な場合には、2つのセットの和集合(union)を使用することができ、全予測が最終結果を表す。非最大抑制(non-maxima suppression)は全予測にわたって使用されてもよく、これは重複した結果を回避するという利点を有するが、面を過剰に抑圧す可能性がある。
したがって、ブロック206は、セマンティックマージを使用することができる。非最大抑制(non-maxima suppression)は最初に、ブロック202および204の各々の出力に適用され得る。次に、抑制された結果は、セマンティックセグメンテーション結果を使用して融合されてもよい。物体分岐およびレイアウト分岐からの可視マスクの間の重複をチェックすることができ、予め定義された閾値θよりも大きい重複スコアを有するペアについて、セマンティックセグメンテーションを使用して、どの面を保持すべきかを決定することができる。
ペアになった可視マスクについては、セマンティックセグメンテーションに関する重複スコアに基づいて信頼スコアを決定することができ、より高い信頼スコアを有するマスクを最終予測に保持することができる。レイアウトクラスの重複スコアは、レイアウト可視マスクの内側にあり、かつ、セグメンテーションマップ内のレイアウトクラスに属する画素のパーセンテージをカウントすることによって決定することができ、その逆も同様である。実際には、閾値は約θ=0.3に設定することができる。
訓練中、ブロック208は、同じシーンの複数のビューの可用性を活用する面表現を処理する訓練目的関数を使用することができる。目的関数は、異なるビューにわたる面間の一貫性を促進し、1つのビューで遮蔽された面が別のビューで見ることができることを利用する。したがって、目的関数は、隠れた領域においてさえ、一貫性を強制することができる。
2つのビュー間のカメラ変換が与えられると、それぞれの予測面
Figure 0007289013000001
はワープされ得る。面の法線とオフセットは、カメラの回転と平行移動によって投影される。次に、予測面
Figure 0007289013000002
のマスクは、双一次内挿を用いて他方のビューに投影されてもよい。ワープされた面は、
Figure 0007289013000003
として表されてもよい。それぞれのワープされた予測
Figure 0007289013000004
は、グランドトゥルース面
Figure 0007289013000005
と一致させ、これは、
Figure 0007289013000006

Figure 0007289013000007
を条件として、
Figure 0007289013000008
と形式化できる。ここで、
Figure 0007289013000009
は、2つの面間のIoU(intersection-over-union)重複を計算する。
Figure 0007289013000010

Figure 0007289013000011
は、面の法線とオフセットを示す。2つのしきい値
Figure 0007289013000012

Figure 0007289013000013
は、ユーザが設定するハイパーパラメータであり、それぞれ、例えば、0.5と0.3である。次いで、目的関数の損失値は、追加の訓練信号を提供する、ワープされたマスク予測と整合された近傍グラウンドトゥルースマスクとの間のクロスエントロピーとして計算することができる。
訓練中、ブロック208は、平均精度隠れメトリックを使用して、面予測の性能を決定する。全可視平面
Figure 0007289013000014
およびそれらの対応する推定値
Figure 0007289013000015
は除去される。第j番目の面
Figure 0007289013000016
は、その隠れマスク
Figure 0007289013000017
であれば、
Figure 0007289013000018
に属する。ここで、
Figure 0007289013000019

Figure 0007289013000020
の可視マスクであり、
Figure 0007289013000021
は、しきい値領域である。第i番目の面
Figure 0007289013000022
は、
Figure 0007289013000023
の出力jが
Figure 0007289013000024
を満たす限り、
Figure 0007289013000025
に属する。ここで、
Figure 0007289013000026
は、第i番目の面推定
Figure 0007289013000027
の完全マスクであり、
Figure 0007289013000028
は、第j番目のグランドトゥルース
Figure 0007289013000029
の完全マスクである。以下の条件
Figure 0007289013000030
を満たす予測面は、真の正であると判定されてもよい。ここで、
Figure 0007289013000031
は、完全マスク
Figure 0007289013000032
の可視部である。関数
Figure 0007289013000033
は、深度差分を計算し、閾値
Figure 0007289013000034
および
Figure 0007289013000035
は、例えば、それぞれ、100画素、0.5、および「0.4m、0.6m、0.9m」に設定することができる。可視領域をグラウンドトゥルースから除外することによって、メトリックは、隠れ領域における予測のみに焦点を当てる。
したがって、ブロック208は、ブロック206の統合された予測と訓練データからの期待されるグラウンドトゥルースとの間の差を測定することができる。ブロック210は、この差を誤差または損失値として使用することができ、次いで、これを使用して2つの領域予測プロセスの重みを調整し、それによって閉塞情報の推定を改善することができる。
ここで、図3を参照すると、ブロック202および204のさらなる詳細が示されており、予測ネットワークの物体分岐320およびレイアウト分岐340を詳述している。特徴ピラミッドネットワーク(FPN)302は、入力画像を受け取り、「ボトムアップ」方式で入力画像の特徴を生成し、複数の異なるスケールで特徴を識別する。これらの特徴は、各分岐のそれぞれのトップダウンFPN304への入力として、さらなる特徴を生成する。これらの特徴は、レイアウト分岐340内のレイアウト領域予測ネットワーク307によって、および物体分岐302内の物体領域予測ネットワーク306によって使用されて、背景物体および前景物体の境界ボックスをそれぞれ識別する。ブロック308は、予測された境界ボックスをグラウンドトゥルース境界ボックスと整列させる。
これらの境界ボックスを使用して、可視マスク予測312および全マスク予測314は、識別された物体のマスクを決定する。通常予測ネットワーク310およびオフセットアンモールディング311は、物体ごとにオフセット情報を生成する。この情報は、シーン内の物体を表す面のそれぞれのセットとして出力される。
次に、図4を参照すると、遮蔽された物体情報を検出し適用する方法が示されている。ブロック402は、新しい画像を受信する。例えば、この画像は、モバイルデバイス、自動車、またはロボットデバイスなどのユーザのカメラから受信することができ、1つまたは複数の遮蔽された物体を含む、複数の物体をその中に有するシーンを描写することができる。
ブロック404は、画像内の1つ以上の遮蔽された物体を識別する。例えば、図3において、上述したネットワークのレイアウト分岐320及び物体分岐340を使用して、画像内の他の物体によって部分的に遮蔽されている物体についても、全マスク及び可視マスクを決定することができる。この情報は、上述したように、例えば、セマンティックマージを使用して統合することができる。この情報は、シーン内の面の向きおよび面の物理的な拡張を含む1つまたは複数の面として表すことができる。また、深さ情報も決定することができる。
次に、ブロック406は、遮蔽された物体情報を使用して、コンピュータビジョンタスクを実行する。例えば、タスクは、部分的にしか見えない物体のフルスケールを考慮して、自動車またはロボット装置のための経路を設計することを含むことができる。タスクはまた、例えば、シーンに応じて情報のオーバーレイを提供する代替現実感表示において、情報を提供するために部分的に遮蔽された物体を識別することを含んでもよい。隣接するビューとの整合性を強制することによって、訓練された機械学習モデルは、可視領域および隠れ領域の両方に対して出力される完全マスクの精度を改善する。
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、またはハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明がファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または転送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体メモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に使用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。
本明細書で使用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェア、またはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムが1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、および/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムが、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の特殊回路網を含むことができる。そのような回路は、1つまたは複数の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
本明細書では、本発明の「一つ実施形態」または「一実施形態」、ならびにその他の変形形態に言及し、実施形態に関連して説明した特定の特徴、構成、特性などは、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、「一つの実施形態において」または「一実施形態において」という語句の出現、ならびに本明細書全体を通して様々な個所に出現する任意の他の変形形態は、必ずしもすべてが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示を前提として、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
例えば、「A/B」、「Aおよび/またはB」、および「Aおよび/またはBの少なくとも1つ」の場合における、以下の「/」、「および/または」および「少なくとも1つ」のいずれかの使用は、第1のリストされたオプション(A)のみの選択、または第2のリストされたオプション(B)のみの選択、または両方のオプション(AおよびB)の選択を包含することが意図されることを理解されたい。さらなる例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合において、このような句は、第1のリストされたオプション(A)のみの選択、または第2のリストされたオプション(B)のみの選択、または第3のリストされたオプション(C)のみの選択、または第1および第2のリストされたオプション(AおよびB)のみの選択、または第1および第3のリストされたオプション(AおよびC)のみの選択、または第2および第3のリストされたオプション(BおよびC)のみの選択、または3つすべてのオプション(AおよびBおよびC)の選択を包含することが意図される。これは、リストされたアイテムの数だけ拡張することができる。
ここで、図5を参照すると、高レベル人工ニューラルネットワーク(ANN)の一般化された図が示されている。人工ニューラルネットワーク(ANN)は、脳などの生体神経系から発送を得た情報処理システムである。ANNの重要な要素は、情報処理システムの構造であり、この情報処理システムは、特定の問題を解決するために並列に動作する多数の高度に相互接続された処理要素(「ニューロン」と呼ばれる)を含む。ANNはさらに、ニューロン間に存在する重みの調整を含む学習を用いて、使用中に訓練される。ANNは、そのような学習プロセスを介して、パターン認識またはデータ分類などの特定の適用向けに構成される。
ANNは、複雑または不正確なデータから意味を導出する能力を示し、パターンを抽出し、人間または他のコンピュータベースのシステムによって検出するには複雑すぎる傾向を検出するために使用することができる。ニューラルネットワークの構造は一般に、1つまたは複数の「隠れ」ニューロン504に情報を提供する入力ニューロン502を有することが知られている。入力ニューロン502と隠れニューロン504との間の接続508は重み付けされ、次に、これらの重み付けされた入力は、層間の重み付けされた接続508と共に、隠れニューロン504内の何らかの関数に従って隠れニューロン504によって処理される。隠れニューロン504、ならびに異なる機能を実行するニューロンの任意の数の層が存在し得る。畳み込みニューラルネットワーク、maxoutネットワーク等のような異なるニューラルネットワーク構造も存在する。最後に、出力ニューロン506のセットは、隠れニューロン504の最後のセットからの重み付けされた入力を受け付けて処理する。
これは、情報が入力ニューロン502から出力ニューロン506に伝播する「フィードフォワード」計算を表す。フィードフォワード計算が完了すると、出力は、訓練データから利用可能な所望の出力と比較される。訓練データに対する誤差は、「フィードバック」計算で処理され、隠れニューロン504および入力ニューロン502は出力ニューロン506から後方に伝播する誤差に関する情報を受け取る。一旦、誤差逆伝播が完了すると、重み付け更新が実行され、重み付けされた接続508が受信された誤差を考慮するように更新される。これは、単に1つの種類のANNを表す。
図6を参照すると、ANNアーキテクチャ600が示されている。本アーキテクチャは純粋に例示的なものであり、代わりに他のアーキテクチャまたはタイプのニューラルネットワークを使用することができることを理解されたい。本明細書で説明されるANN実施形態は、高レベルの一般性でニューラルネットワーク計算の一般原理を示すことを意図して含まれており、いかなる形でも限定するものと解釈されるべきではない。
さらに、以下に記載されるニューロンの層およびそれらを接続する重みは、一般的な様式で記載され、任意の適切な程度またはタイプの相互接続性を有する任意のタイプのニューラルネットワーク層によって置き換えられ得る。例えば、層(layers)は、畳み込み層、プーリング層、全結合層、softmax層、または任意の他の適切なタイプのニューラルネットワーク層を含むことができる。さらに、必要に応じて層を追加または除去することができ、相互接続のより複雑な構成に関して重みを省略することができる。
フィードフォワード動作の間、入力ニューロン602のセットは、各々、重み604のそれぞれの行に並列に入力信号を提供する。重み604はそれぞれ、重み出力が重み604からそれぞれの隠れニューロン606に渡され、隠れニューロン606への重み付き入力を表すように、それぞれの設定可能な値を有する。ソフトウェアの実施形態では、重み604は、単に、関連する信号に対して乗算される係数値として表すことができる。各重みからの信号は、列ごとに加算され、隠れニューロン606に流れる。
隠れニューロン606は、重み604のアレイからの信号を使用して、何らかの計算を実行する。次に、隠れニューロン606は、それ自体の信号を重み604の別のアレイに出力する。このアレイは、同じ方法で、重み604の列がそれぞれの隠れニューロン606から信号を受け取り、行方向に加算し、出力ニューロン608に供給される重み付けされた信号出力を生成する。
アレイと隠れたニューロン606の追加の層を介在させることにより、これらの段の任意の数が実装され得ることを理解すべきである。また、いくつかのニューロンは、アレイに一定の出力を提供する定常ニューロン609であってもよいことに注意すべきである。定常ニューロン609は、入力ニューロン602および/または隠れニューロン606の間に存在することができ、フィードフォワード動作中にのみ使用される。
バックプロパゲーションの間、出力ニューロン608は、重み604のアレイを横切って戻る信号を提供する。出力層は、生成されたネットワーク応答を訓練データと比較し、誤差を計算する。誤差信号は、誤差値に比例させることができる。この実施例では、重み604の行がそれぞれの出力ニューロン608から並列に信号を受け取り、列ごとに加算して隠れニューロン606に入力を提供する出力を生成する。隠れニューロン606は、重み付けされたフィードバック信号をそのフィードフォワード計算の導関数と結合し、フィードバック信号を重み604のそれぞれの列に出力する前に、誤差値を記憶する。このバックプロパゲーションは、すべての隠れニューロン606および入力ニューロン602が誤差値を記憶するまで、ネットワーク600全体を通って進行する。
重み更新中、記憶された誤差値は、重み604の設定可能な値を更新するために使用される。このようにして、重み604は、ニューラルネットワーク600をその処理における誤差に適応させるように訓練され得る。フィードフォワード、バックプロパゲーション、および重み更新の3つの動作モードは、互いに重複しないことに留意されたい。
ここで、図7を参照すると、オクルージョン推定を用いるコンピュータビジョンシステム700が示されている。システム700は、ハードウェアプロセッサ702およびメモリ704を含む。メモリは、シーンの任意のビューを生成する能力を提供する、3次元シーンを特徴付ける情報を含むシーンメッシュ訓練データ706を記憶することができる。訓練データ生成器708は、シーンメッシュ訓練データを使用して、所与のビューから見える物体の部分を含むマスクと、所与のビューにおけるオクルージョンにかかわらず、物体の全範囲を捕捉するマスクとを生成する。
モデルトレーナ710は、生成された訓練データを使用して、オクルージョン推定モデル712を訓練する。訓練は、一貫性を強制するために、シーン内の検出された面を1つのビューから別のビューにワーピングすることを含むことができる。一旦訓練されると、オクルージョン推定モデル712は、入力画像を取得し、画像内の物体の可視部分を表すマスク、ならびに画像内の物体の遮蔽部分に関する推定情報を生成する。
新しい画像入力714は、例えば、デジタルカメラ、スキャナ、または完全にコンピュータ生成された画像を含む、任意の適切な手段によって生成されてもよい。コンピュータビジョンタスク716は、画像入力714を使用して、可視世界について何らかの決定を行い、その決定に基づいて何らかのアクションを取る。このために、コンピュータビジョンタスクは、オクルージョン推定モデル712への入力として画像入力714を使用して、物体オクルージョンに関する情報を生成する。これは、例えば、ロボットカーまたは自立運転型自動車の経路発見を助けるために、遮蔽された物体のサイズを決定することを含むことができる。
上記はあらゆる点で例示的かつ典型的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許証によって保護される、請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims (20)

  1. 機械学習モデルを使用して、前景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出する(320)ことと、
    前記機械学習モデルを使用して、背景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記背景物体のマスクとを含む、前記画像内の背景物体マスクのセットを検出する(340)ことと、
    セマンティックマージを使用して前記前景物体マスクのセットと前記背景物体マスクのセットを統合する(206)ことと、
    前記統合されたセットの少なくとも1つの物体の前記少なくとも1つの遮蔽部分を考慮するコンピュータビジョンタスクを実行する(406)ことと、を含む、オクルージョン検出のための方法。
  2. セマンティックマージは、少なくとも1つの遮蔽部分を含む前記マスクのそれぞれのセットに対する非最大抑制を含む、請求項1に記載の方法。
  3. セマンティックマージは、前記前景物体マスクのセットの可視マスクと、前記背景物体マスクのセットの可視マスクとの間の重複を決定することをさらに含む、請求項2に記載の方法。
  4. セマンティックマージは、より低い信頼スコアを有する重複マスクを廃棄することをさらに含む、請求項3に記載の方法。
  5. セマンティックマージは、グランドトゥルース面と、別のビューに投影された予測面との間のIoU(intersection-over-union)重複を計算することを含む、請求項1に記載の方法。
  6. 遮蔽領域を含む、所与のシーンの複数のビュー間の一貫性を強制する目的関数を使用して、機械学習モデルを訓練することをさらに含む、請求項1に記載の方法。
  7. 前記機械学習モデルを訓練することは、第1のビューの物体マスクを第2のビューにワープすることと、前記ワープされた物体マスクを前記第2のビューのグラウンドトゥルース物体マスクと比較することとを含む、請求項6に記載の方法。
  8. 前記機械学習モデルを訓練することは、訓練データセットの各ビューを使用して、前記機械学習モデルのレイアウト部分と、前記機械学習モデルの物体部分とを別々に訓練することを含む、請求項6に記載の方法。
  9. 前記訓練データセットの各ビューは、入力メッシュによって生成され、所与の入力メッシュからのビューはそれぞれのカメラ視点から生成される、請求項8に記載の方法。
  10. 各前景物体マスクおよび各背景物体マスクは、法線方向およびオフセット値を含む、請求項9に記載の方法。
  11. ハードウェアプロセッサ(702)と、
    コンピュータプログラムコードを記憶するメモリ(704)と、を有し、
    前記コンピュータプログラムコードは、前記ハードウェアプロセッサによって実行されると、
    前景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記前景物体のマスクとを含む、画像内の前景物体マスクのセットを検出し、背景物体の可視部分のマスクと、少なくとも1つの遮蔽部分を含む前記背景物体のマスクとを含む、前記画像内の背景物体マスクのセットを検出し、セマンティックマージを使用して前記前景物体マスクのセットと前記背景物体マスクのセットとを統合する、オクルージョン推定モデル(712)と、
    前記統合されたセットの少なくとも1つの物体の前記少なくとも1つの遮蔽部分を考慮するコンピュータビジョンタスク(716)と、を実装する、オクルージョン検出のためのシステム。
  12. 前記オクルージョン推定モデルは、セマンティックマージのための少なくとも1つの遮蔽部分を含む前記マスクのそれぞれのセットに対して非最大抑制を実行する、請求項11に記載のシステム。
  13. 前記オクルージョン推定モデルは、セマンティックマージのために前記前景物体マスクのセットの可視マスクと前記背景物体マスクのセットの可視マスクとの間の重複を決定する、請求項12に記載のシステム。
  14. 前記オクルージョン推定モデルは、より低い信頼スコアを有する重複マスクを廃棄する、請求項13に記載のシステム。
  15. 前記オクルージョン推定モデルは、セマンティックマージのためにグランドトゥルース面と別のビューに投影された予測面との間のIoU(intersection-over-union)重複を計算する、請求項11に記載のシステム。
  16. 前記コンピュータプログラムコードは、遮蔽領域を含む所与のシーンの複数のビュー間の一貫性を強制する目的関数を使用して前記オクルージョン推定モデルを訓練するモデルトレーナをさらに実装する、請求項11に記載のシステム。
  17. 前記モデルトレーナは、第1のビューの物体マスクを第2のビューにさらにワープし、前記ワープされた物体マスクを前記第2のビューのグラウンドトゥルース物体マスクと比較する、請求項16に記載のシステム。
  18. 前記モデルトレーナは、訓練データセットの各ビューを使用して、前記オクルージョン推定モデルのレイアウト部分と前記オクルージョン推定モデルの物体部分とを別々にさらに訓練する、請求項16に記載のシステム。
  19. 前記訓練データセットの各ビューは入力メッシュによって生成され、所与の入力メッシュからのビューがそれぞれのカメラ視点から生成される、請求項18に記載のシステム。
  20. 各前景物体マスクおよび各背景物体マスクは、法線方向およびオフセット値を含む、請求項19に記載のシステム。
JP2022515648A 2019-11-14 2020-11-13 オクルージョン認識室内シーン分析 Active JP7289013B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962935312P 2019-11-14 2019-11-14
US62/935,312 2019-11-14
US17/095,967 US20210150751A1 (en) 2019-11-14 2020-11-12 Occlusion-aware indoor scene analysis
US17/095,967 2020-11-12
PCT/US2020/060336 WO2021097156A1 (en) 2019-11-14 2020-11-13 Occlusion-aware indoor scene analysis

Publications (2)

Publication Number Publication Date
JP2022547205A JP2022547205A (ja) 2022-11-10
JP7289013B2 true JP7289013B2 (ja) 2023-06-08

Family

ID=75908930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515648A Active JP7289013B2 (ja) 2019-11-14 2020-11-13 オクルージョン認識室内シーン分析

Country Status (4)

Country Link
US (1) US20210150751A1 (ja)
JP (1) JP7289013B2 (ja)
DE (1) DE112020005584T5 (ja)
WO (1) WO2021097156A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544828B2 (en) * 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
CN113435358B (zh) * 2021-06-30 2023-08-11 北京百度网讯科技有限公司 用于训练模型的样本生成方法、装置、设备、程序产品
CN113819892B (zh) * 2021-07-01 2022-07-05 山东大学 基于半参数估计和附加深度约束的深海基准网平差方法
CN113657518B (zh) * 2021-08-20 2022-11-25 北京百度网讯科技有限公司 训练方法、目标图像检测方法、装置、电子设备以及介质
CN114529801A (zh) * 2022-01-14 2022-05-24 北京百度网讯科技有限公司 一种目标检测的方法、装置、设备及存储介质
CN115883792B (zh) * 2023-02-15 2023-05-05 深圳市完美显示科技有限公司 一种利用5g和8k技术的跨空间实景用户体验系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017165538A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10019655B2 (en) * 2016-08-31 2018-07-10 Adobe Systems Incorporated Deep-learning network architecture for object detection
US10553091B2 (en) * 2017-03-31 2020-02-04 Qualcomm Incorporated Methods and systems for shape adaptation for merged objects in video analytics
US10678257B2 (en) * 2017-09-28 2020-06-09 Nec Corporation Generating occlusion-aware bird eye view representations of complex road scenes
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
CN110084191B (zh) * 2019-04-26 2024-02-23 广东工业大学 一种眼部遮挡检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WADA, Kentaro et al.,Instance Segmentation of Visible and Occluded Regions for Finding and Picking Target from a Pile of Objects,[online],2018年10月01日,https://ieeexplore.ieee.org/document/8593690
Ziyu Jiang et al.,Peek-a-Boo: Occlusion Reasoning in Indoor Scenes with Plane Representations,[online],2020年06月,https://ieeexplore.ieee.org/document/9156416

Also Published As

Publication number Publication date
WO2021097156A1 (en) 2021-05-20
DE112020005584T5 (de) 2022-09-15
US20210150751A1 (en) 2021-05-20
JP2022547205A (ja) 2022-11-10

Similar Documents

Publication Publication Date Title
JP7289013B2 (ja) オクルージョン認識室内シーン分析
EP3293705B1 (en) 3d reconstruction of a real object from a depth map
Min et al. Cost aggregation and occlusion handling with WLS in stereo matching
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
CN112991413A (zh) 自监督深度估测方法和系统
JP7129529B2 (ja) 人工知能の使用による3dオブジェクトへのuvマッピング
CN118202391A (zh) 从单二维视图进行对象类的神经辐射场生成式建模
CN115147891A (zh) 用于生成合成深度数据的系统、方法和存储介质
Kokkinos et al. To the point: Correspondence-driven monocular 3d category reconstruction
CN115147709B (zh) 一种基于深度学习的水下目标三维重建方法
KR20210058638A (ko) 이미지 처리 장치 및 방법
US20210150274A1 (en) Object recognition from images using cad models as prior
CN115731365A (zh) 基于二维图像的网格模型重建方法、系统、装置及介质
US20220301348A1 (en) Face reconstruction using a mesh convolution network
EP4392935A1 (en) Robustifying nerf model novel view synthesis to sparse data
CN116434303A (zh) 基于多尺度特征融合的人脸表情捕捉方法、装置及介质
CN117078809A (zh) 基于图像的动效生成方法、装置、设备和存储介质
Balakrishnan et al. Multimedia concepts on object detection and recognition with F1 car simulation using convolutional layers
US12051151B2 (en) System and method for reconstruction of an animatable three-dimensional human head model from an image using an implicit representation network
KR20220074715A (ko) 이미지 처리 방법 및 장치
EP4239572A1 (en) Image quality assessment for refinement of imaging rendering parameters for rendering medical images
CN116758212A (zh) 基于自适应去噪算法的3d重建方法、装置、设备及介质
CN116091705A (zh) 基于神经辐射场的变拓扑动态场景重建与编辑方法和装置
JP2021071749A (ja) 3dモデル生成装置および方法
US20220058484A1 (en) Method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7289013

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350