JP2022530907A

JP2022530907A - 複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理

Info

Publication number: JP2022530907A
Application number: JP2021564763A
Authority: JP
Inventors: デューク・ブレンダン; アフマド・アブドラ; フォン・エドモンド; ケゼル・イリーナ; アーラビ・パラム
Original assignee: LOreal SA
Current assignee: LOreal SA
Priority date: 2019-04-30
Filing date: 2020-04-29
Publication date: 2022-07-04
Also published as: US20200349711A1; US11410314B2; WO2020220126A1; CN113924597A; EP3948775A4; KR20220002995A; EP3948775A1

Abstract

指爪追跡のための畳み込みニューラルネットワーク（ＣＮＮ）モデルとマニキュアレンダリングのための方法設計を提示した。現在のソフトウェア及びハードウェアを用いて、マニキュア液をレンダリングするためのＣＮＮモデル及び方法は、ｉＯＳ（登録商標）及びウェブプラットフォームの両方においてリアルタイムで実行される。カスケードされたモデルアーキテクチャと結合されたロスマックスプーリング（ＬＭＰ）の使用は、６４０×４８０までの解像度でのピクセル精度の指爪予測を同時に可能にする。提案された後処理およびレンダリング方法はモデルの複数の出力予測を利用して、個々の指爪に勾配をレンダリングし、爪マスクを爪先の方向に引き伸ばすことによって自然な指爪の上にレンダリングするときに明るい色の遠位縁を隠す。本明細書の教示は指爪以外のオブジェクトを追跡し、色以外の外観効果を適用するために適用されてもよい。【選択図】図３

Description

以下は、畳み込みニューラルネットワーク（ＣＮＮ）に適合されたコンピューティングデバイスを用いて、ビデオ画像を含む画像を処理することに関し、このようなコンピューティングデバイスは、消費者向けスマートフォン又はタブレットを含むことができ、より詳細には、ＣＮＮを用いて、ビデオ内の指爪などの複数のオブジェクトを追跡（例えば、意味論的にセグメント化）する画像処理に関する。

＜バックグラウンド＞
指爪の追跡問題は、ビデオストリームからの指爪をピクセル精度においてリアルタイムで位置特定し、識別することである。さらに、拡張現実を提供するように、ビデオストリームからの画像を適応させるためのレンダリング技術をサポートすることが望ましい。ビデオストリーム内を含め、画像内の指紋以外のオブジェクトの位置を特定し、識別することが望まれる場合がある。

指爪をリアルタイムで追跡し、マニキュア液をレンダリングするためのエンドツーエンドの解決策が提示されている。意味論的セグメンテーションおよびランドマークラベルを有する全く新しいデータセットが収集された。モバイルデバイス用の高解像度ニューラルネットワークモデルを開発し、新しいデータセットを用いてトレーニングした。意味論的セグメンテーションを提供することに加えて、モデルは、向きを示すなどの方向性情報を提供する。マニキュア試着のための後処理およびレンダリングオペレーションが提供され、このオペレーションはモデルの出力の少なくともいくつかを用いる。

指爪に関連して説明したが、セグメンテーション及び画像更新のために、他のオブジェクトを同様に処理することができる。このような他のオブジェクトはまた、単純な境界を有する小さなオブジェクト（例えば、指爪、爪先、靴、車（自動車）、ナンバープレート、または車の部品など）であってもよい。本明細書における単語「小さい」は、スケールおよび画像全体のサイズに関する相対的な単語である。例えば、指爪は、指爪を含む画像において捕捉される手のサイズと比較して比較的小さい。距離を置いて撮像された車のグループ内の車は、テーブル上に撮像されたプルーン（または他のフルーツ）のグループと同様に小さい。このモデルは、（ここでは手の指先を分類するように）既知のカウントおよびコンステレーションを有するオブジェクトのセットを分類するための一般化によく適している。

処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスが提供される。記憶デバイスは、ＣＮＮと、処理装置によって実行されてコンピューティングデバイスを以下のように構成する命令と、を記憶している。ＣＮＮを有する複数のオブジェクトを含む画像を処理する。ＣＮＮは、画像内の複数のオブジェクトを意味論的にセグメント化するように構成される。ＣＮＮは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含む。低解像度特徴の深い学習を提供する第１の分岐と、高解像度特徴の浅い学習を提供する第２の分岐と、を備える。ＣＮＮは、第１の分岐および第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する。

ＣＮＮは、第１の分岐および第２の分岐からのそれぞれの予測を組み合わせて、ＣＮＮからの出力としての情報が方向性情報をさらに含むことができる。

第１の分岐は、第１の分岐のそれぞれの予測を生成するためのエンコーダ－デコーダバックボーンを備えることができる。第１の分岐のそれぞれの予測は、第１の分岐のエンコーダフェーズに続いて生成される初期予測と、第１の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む。初期予測およびさらなる予測が、第１の分岐融合ブロックを用いて組み合わされて、第２の分岐のそれぞれの予測とさらに組み合わせるように提供するための第１の分岐のそれぞれの予測を生成してもよい。

第２の分岐のそれぞれの予測は、第１の分岐とカスケード接続して、第２の分岐のエンコーダフェーズによる処理に続いて生成されてもよい。第１の分岐のそれぞれの予測（Ｆ_１）は、第２の分岐融合ブロックを用いて第２の分岐のそれぞれの予測（Ｆ_２）と組み合わせることができる。Ｆ_１は、アップサンプリングされた低解像度の高意味論的情報特徴を含むことができ、Ｆ_２は、高解像度の低意味論的情報特徴を含むことができる。このように、第２の分岐融合ブロックは、Ｆ_１とＦ_２とを組み合わせて、第２の分岐のデコーダフェーズで高解像度融合特徴Ｆ_２´を生成する。ＣＮＮは、ダウンサンプリングされたクラスラベルを生成するために、それぞれの予測Ｆ_１に適用される畳み込み分類器を用いることができる。Ｆ_２を処理するために、ＣＮＮは、多重出力デコーダ分岐を用いて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を生成することができる。

多重出力デコーダ分岐は、１×１畳み込みブロックとフォアグラウンド／バックグラウンドセグメンテーションを生成するためのアクティベーション関数とを有する第１の出力デコーダ分岐と、１×１畳み込みブロックとオブジェクトクラスセグメンテーションを生成するためのアクティベーション関数とを有する第２の出力デコーダ分岐と、方向性情報を生成するための１×１畳み込みブロックを有する第３の出力デコーダ分岐と、を備えることができる。

ＣＮＮは、フォアグラウンド／バックグラウンドセグメンテーションを決定するように、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するために、ロスマックスプーリング（ＬＭＰ）損失関数を用いてトレーニングされてもよい。

ＣＮＮは、ネガティブログライクリフッド損失（ＮＬＬ）関数を用いてトレーニングされて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を決定することができる。

ＣＮＮは、方向性情報を決定するためにＨｕｂｅｒ損失関数を用いてトレーニングされてもよい。

各オブジェクトは基部および先端を含むことができ、方向性情報は、基部－先端方向フィールドを含むことができる。

第１の分岐は、ＭｏｂｉｌｅＮｅｔＶ２エンコーダ－デコーダ構造を用いて定義することができ、第２の分岐は、ＭｏｂｉｌｅＮｅｔＶ２エンコーダ－デコーダ構造からのエンコーダ構造を用いて定義することができる。ＣＮＮは、最初に、ＩｍａｇｅＮｅｔからのトレーニングデータを用いてトレーニングされ、その後、グランドトゥルースでラベル付けされた複数のオブジェクトについてのオブジェクト追跡データセットを用いてトレーニングされてもよい。

命令は、さらに、少なくとも一部の情報を出力として用いて、画像から更新された画像を生成するための画像処理を実行するように、コンピューティングデバイスを構成してもよい。画像処理を実行するために、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、の少なくとも一部を用いて、複数のオブジェクトの色などの外観を変更することができる。

コンピューティングデバイスは、カメラを備え、複数のオブジェクトに適用するための外観選択肢を受信し、カメラから、画像として用いるためのセルフィービデオ画像を受信するためのユーザインタフェースを提示し、セルフィービデオ画像を処理して、外観選択肢を用いて更新された画像を生成し、拡張現実をシミュレートするために更新された画像を提示するように構成され得る。

コンピューティングデバイスは、スマートフォン又はタブレットを備えることができる。

画像は、指爪を有する手の少なくとも一部を含むことができ、複数のオブジェクトは、指爪を含むことができる。ＣＮＮは、出力情報のラプラシアンピラミッドを提供するように定義することができる。

処理装置と、それに結合された記憶デバイスとを備えるコンピューティングデバイスであって、処理装置によって実行されると、複数のオブジェクトを含む画像を処理したＣＮＮによって意味論的にセグメント化された複数のオブジェクトの各々について、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含むＣＮＮ出力を受信し、フォアグラウンド／バックグラウンドセグメンテーション（及びオブジェクトクラスセグメンテーション）に従ってセグメント化された複数のオブジェクトの各々の上に選択された色の勾配を描画することによって、画像を処理して更新された画像を生成するように、コンピューティングデバイスを構成する命令を記憶する記憶デバイスが提供され、選択された色は、方向性情報によって示されるように、オブジェクトの各々のそれぞれの方向に垂直に描かれる。

コンピューティングデバイスは、勾配にわたって複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用し、結果を混合するように構成され得る。

コンピューティングデバイスは、描画の前に、フォアグラウンド／バックグラウンドセグメンテーションによって識別される複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証するように構成され得る。コンピューティングデバイスは、描画の前に、複数のオブジェクトから決定された平均色で伸張された複数のオブジェクトの各々のそれぞれの領域の外側の少なくとも一部の隣接する領域を色付けし、伸張された複数のオブジェクトの各々のそれぞれの領域および隣接する領域をぼかすように構成されてもよい。

コンピューティングデバイスは、描画時に用いるために選択された色を受け取るように構成することができる。

処理装置と、それに結合された記憶デバイスとを備えるコンピューティングデバイスであって、ＣＮＮと、命令を記憶する記憶デバイスとを備え、処理装置によって実行されると、コンピューティングデバイスを、複数のオブジェクトを含む画像をＣＮＮで処理するように構成し、ＣＮＮは、画像内で複数のオブジェクトを意味論的にセグメント化するように構成され、ＣＮＮは、低解像度特徴の深い学習を提供する第１の分岐と、高解像度特徴の浅い学習を提供する第２の分岐と、を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、ＣＮＮは、第１の分岐および第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションを含む情報を出力し、ＣＮＮは、ロスミーンポーリング損失関数を用いてトレーニングされるコンピューティングデバイスが提供される。

画像は、複数のピクセルを含み、画像内の複数のオブジェクトは、複数のピクセルのうちの少数によって表現される。ＣＮＮは、第１の分岐および第２の分岐からのそれぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力することができ、ＣＮＮは、ＮＬＬ損失関数を用いてさらにトレーニングされる。ＣＮＮは、第１の分岐および第２の分岐からのそれぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力することができ、ＣＮＮは、Ｈｕｂｅｒ損失関数またはＬ２損失関数を用いてさらにトレーニングされ得る。

ＣＮＮは、出力情報のラプラシアンピラミッドを提供するように定義することができる。

処理装置と、それに結合された記憶デバイスとを備えるコンピューティングデバイスが提供され、記憶デバイスは、命令を記憶し、処理装置によって実行されると、コンピューティングデバイスがＣＮＮをトレーニングするために画像のデータセットに注釈を付けるようにグラフィカルユーザインタフェース（ＧＵＩ）を提供するように構成し、ＧＵＩは、注釈付けされるべきそれぞれの画像を表示するための表示部を有し、この表示部はそれぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く（セグメント）ための入力を受信し、それぞれのオブジェクトの各々について方向性情報を示す入力を受信し、画像に注釈を付けるための入力を受信し、データセットを定義するために注釈に画像を関連付けて保存するように構成される。

コンピューティングデバイスは、それぞれのオブジェクトを意味論的に分類するための入力を受信するための制御を提供するように構成されてもよい。

ＣＮＮは、画像内の複数のオブジェクトを意味論的にセグメント化するように構成されてもよく、ＣＮＮは、低解像度特徴の深い学習を提供する第１の分岐と、高解像度特徴の浅い学習を提供する第２の分岐と、を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、ＣＮＮは、第１の分岐および第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を備える情報を出力する。

コンピューティングデバイスは、本明細書のコンピューティングデバイスの任意の局面または特徴を有するように構成されてもよい。関連する方法の態様および特徴、ならびに関連するコンピュータプログラム製品の態様および特徴が、コンピューティングデバイスの態様および特徴のそれぞれについて提供されることは明らかであろう。これら及び他のことは、当業者には明らかであろう。

図１は、一実施例によるデータセットの注釈付きデータを定義するグラフィカルユーザインタフェース（ＧＵＩ）のスクリーンショットである。図２は、一実施例によるデータセットの注釈付きデータを定義するＧＵＩの一部のスクリーンショットである。図３は、一実施例による画像を処理するＣＮＮを示した図である。図４は、図３のＣＮＮの各部分を示した図である。図５は、図３のＣＮＮの各部分を示した図である。図６は、フォアグラウンド、バックグラウンドマスク及び方向性情報を示す、本明細書の一例によるＣＮＮを用いて処理された画像の４×４のアレイである。図７Ａ－図７Ｃは、図６の拡大図である。図８は、それぞれの指爪に対するオブジェクトクラスセグメンテーションマスクの適用を示す、本明細書の一実施例によるＣＮＮを用いて処理された画像の４×４のアレイである。図９は、図８の拡大図である。図１０は、オペレーションのフローチャートである。図１１は、オペレーションのための擬似コードを示した図である。

本発明の概念は、添付の図面を参照して本明細書で説明される、その特定の実施形態を通して最もよく説明され、ここで、同一の付番は全体を通して同一の特徴を指す。本明細書で使用されるとき、「発明」という単語は、単に実施形態自体ではなく、以下に記載される実施形態の基礎をなす発明概念を暗示することが意図されることを理解されたい。さらに、本発明の一般的な概念は、以下に記載される例示的な実施形態に限定されず、以下の説明はそのような観点から読まれるべきであることが理解されるべきである。２つ以上の発明概念が示され、説明されてもよく、それぞれは、別ステップの記載がない限り、独立であってもよく、または１つ以上の他のものと組み合わされてもよい。

指爪をリアルタイムで追跡し、マニキュア液をレンダリングするためのエンドツーエンドの解決策が提示されている。意味論的セグメンテーション及びランドマークラベルを有する全く新しいデータセットが収集された。モバイルデバイス用の高解像度ニューラルネットワークモデルを開発し、新しいデータセットを用いてトレーニングした。意味論的セグメンテーションを提供することに加えて、モデルは、向きを示すなどの方向性情報を提供する。マニキュア試着のための後処理およびレンダリングオペレーションが提供され、このオペレーションは、モデルの出力の少なくとも一部を用いる。

指爪に関連して説明したが、セグメンテーション及び画像更新のために、他のオブジェクトを同様に処理することができる。このような他のオブジェクトはまた、単純な境界を有する小さなオブジェクト（例えば、指爪、爪先、靴、自動車（自動車）、ナンバープレート、または自動車の自動車部品など）であってもよい。本明細書における「小さい」という単語は、スケール及び画像全体のサイズに関する相対的な単語である。例えば、指爪は、指爪を含む画像において捕捉される手のサイズと比較して比較的小さい。距離を置いて撮像された自動車のグループ内の自動車は、テーブル上に撮像されたプルーン（または他のフルーツ）のグループと同様に小さい。このモデルは、（ここでは、手の指先を分類するように）既知のカウント及びコンステレーションを有するオブジェクトのセットを分類するための一般化によく適している。

トレーニングされたモデルは、２つのハードウェアプラットフォーム、すなわち、ＣｏｒｅＭＬ（登録商標）を介したｉＯＳ（登録商標）（例えば、そのような環境をサポートするｉＰｈｏｎｅ（登録商標）などのＡｐｐｌｅＩｎｃ．製品上のネイティブアプリケーション実装）、及びＴｅｎｓｏｒＦｌｏｗ．ｊｓ（登録商標）［１］を介したウェブブラウザ（これは、よりプラットフォームに依存しない）上に展開された。以下は、ＡｐｐｌｅＩｎｃ．の商標である。ｉＯＳ（登録商標）、ＣｏｒｅＭＬ（登録商標）、およびｉＰｈｏｎｅ（登録商標）。モデル及び後処理オペレーションは、より高い計算ネイティブｉＯＳ（登録商標）プラットフォームと、よりリソース制約のあるウェブプラットフォームとの両方を、モデルアーキテクチャにわずかな微調整を行うだけで、性能に大きな悪影響を及ぼすことなくサポートするのに十分に柔軟である。

以下は、選択された機能である。写真とビデオとの両方から供給され、フォアグラウンド－バックグラウンド、指毎のクラス、および基部－先端方向フィールドラベルで注釈付けされた１４３８個の画像のデータセットが作成された。モバイルデバイス上で実行し、小さなオブジェクトを正確にセグメント化するために設計された意味論的セグメンテーションのための新規なニューラルネットワークアーキテクチャが開発された。ロスマックスプーリングは、空間的（又はピクセル単位）クラス不均衡を誘発する、小さなオブジェクトの正確なセグメンテーションマスクをロバストに生成することが実証された。指爪追跡モデルからの複数の出力を用いて、指爪をセグメント化し、個々の指爪の位置を特定するとともに、それらの２Ｄ方向を見つける後処理オペレーションが開発された。後処理（レンダリングを含む）オペレーションは、勾配をレンダリングし、自然な指爪の明るい色の遠位縁を隠すために、これらの個々の指爪の位置および向きを用いる。

＜関連作業＞
ＭｏｂｉｌｅＮｅｔＶ２［２］は、エンコーダ－デコーダニューラルネットワークアーキテクチャのエンコーダの基礎を形成する。この研究は、カスケードされた意味論的セグメンテーションモデルアーキテクチャにおけるバックボーンとして用いることにより、ＭｏｂｉｌｅＮｅｔＶ２上に構築される。さらに、モデルは、使用される特定のエンコーダモデルとは無視できるので、文献［３］、［４］、［５］、［６］からの既存の効率的なモデルは手で設計され、自動的に発見される（例えば、ネットワークプルーニングを介して）任意の将来の効率的なモデルと同様に、エンコーダのためのドロップイン置換として用いることができる。ＭｏｂｉｌｅＮｅｔＶ２は（例えば、ラップトップ、デスクトップ、ゲームコンピュータなどの大型コンピュータよりも少ないグラフィック処理リソースを有する）、スマートフォンで利用可能な、より少ないリソース上でのモデルの記憶および実行を可能にする効率の要件を満たす。

ロスマックスプーリング（ＬＭＰ）損失関数は［７］に基づいており、ここで、ｐ－ｎｏｒｍパラメータは、関数を単純化する一方で、［７］による最適ｐ－ｎｏｒｍパラメータの性能の標準誤差範囲内に性能を保持するので、ｐ＝１に固定される。実験はさらに、ＬＭＰを指爪セグメンテーションの本質的にクラス不均衡なタスクに適用することによって、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するためのＬＭＰの有効性を支持する。

カスケードされたアーキテクチャは、本明細書のニューラルネットワークモデルが浅い／高解像度分岐と、深い／低解像度分岐と、を組み合わせるという意味で、ＩＣＮｅｔ［８］に関連する。ＩＣＮｅｔとは異なり、モデルは、モバイルデバイス上でオペレーションするように設計され、従って、エンコーダ及びデコーダは、この要求に基づいて完全に再設計される。

＜データセット＞
特に指爪追跡に関する従来の研究がないため、このタスクのために全く新しいデータセットが作成された。エゴセントリックデータは、参加者から収集され、参加者はあたかも彼らがソーシャルメディア上に投稿するために彼らの指爪を見せているかのように、彼らの手の写真またはビデオのいずれかを撮るように求められた。

高密度意味論的セグメンテーションラベルは、ポリゴンを用いて作成され、ポリゴンは、注釈付けが容易であり、指爪のような硬いオブジェクトのための正確なラベルタイプである。モデルは、高密度ラベル上でトレーニングされるので、ポリゴン注釈方法は、ピクセル単位の注釈に置き換えることもできる。図１及び図２には、３つのラベルタイプの組み合わせによって爪注釈を作成するために使用されるインタフェース１００の一例が示されている。図１は、データセットに対して注釈付けされる画像のための入力を表示し、受信するための部分１０２を有するインタフェース１００を示す。インタフェース１００はまた、データ（例えば、フラグ）を設定するためのラジオボタン制御のようないくつかの制御を有する部分１０４を含む。部分１０４内の他のコントロールは、ポリゴン及びマーキングランドマーク（例えば、先端ランドマーク１０６Ａ及び基部ランドマーク１０６Ｂ）などを定義するために利用可能である。

したがって、インタフェース１００は、以下を有効にする。

１．指爪のピクセルを囲む（すなわち、フォアグラウンドの指爪をバックグラウンドから分離する）ポリゴン。

２．個々の指爪を識別するために、ポリゴン毎のクラスラベルが付けられる。データセット内の各ポリゴンは指爪を表し、１０個の指爪のクラス、すなわち、「左の小指」、「右の親指」などのうちの１つとして分類される。図２の１０２を参照されたい。

３．ポリゴン毎の方向を定義するための基部および先端のランドマーク。指爪基部／先端ランドマークは、入力画像と同じ空間解像度である密な方向フィールドを生成するために使用され、各ピクセルは、そのピクセルが属する指爪について、基部から先端までのｘ及びｙ方向を表す値のペアを有している。

新しい注釈付きデータセットは、全体で１４３８個の注釈付き画像からなり、これらは画像を提供した参加者に基づいて、訓練、検証、および試験セットに分割される（すなわち、各参加者の画像は訓練、検証、または試験のいずれかに排他的に属する）。分割されたデータセットは、訓練、検証、および試験のそれぞれにおいて９４１個、２５４個、および２４３個の画像を含む。実験では、モデルを訓練セットでトレーニングし、検証セットで評価した。

＜型式＞
爪追跡システム（例えば、本明細書に記載されるように構成されたコンピューティングデバイス）の核心は、方向性情報（例えば、基部先端方向フィールド）と同様に、フォアグラウンド／バックグラウンドセグメンテーションと、指爪クラスセグメンテーションと、を出力するようにトレーニングされたエンコーダ－デコーダ畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャである。モデルアーキテクチャは、ＩＣＮｅｔ［８］に関連するが、モバイルデバイス上で実行するのに十分に高速であるようにモデルを適応させ、マルチタスク出力を生成するために変更が行われた。モデルアーキテクチャのトップレベル図を図３に示す。

図３は、２つの分岐を用いて入力（画像）３０２を処理するモデル３００を示す。第１の分岐３００Ａ（図３の上側分岐）は、ブロック３０４－３２４を備える。図３の第２の分岐３００Ｂ（下部）は、ブロック３２６－３３８を備える。これらの明るい線の区別は、修正されてもよいことが理解されるのであろう。例えば、ブロック３２６は、第１の分岐３００Ａのブロックであってもよい。ブロック３０４は、ダウンサンプリング×２ブロックである。ブロック３０６－３２０（ｓｔａｇｅ＿ｌｏｗ１，ｓｔａｇｅ＿ｌｏｗ２，．．．ｓｔａｇｅ＿ｌｏｗ８とも呼ばれる）は、さらに説明するように、エンコーダ－デコーダバックボーン（エンコーダフェーズ及びデコーダフェーズを有する）のブロックである。ブロック３２２は、アップサンプリング×２ブロックであり、ブロック３２４は、さらに説明するように、第１の分岐融合ブロックである。ブロック３２６は、アップサンプル×２ブロックでもある。ブロック３２６－３３２（ｓｔａｇｅ＿ｈｉｇｈ１，ｓｔａｇｅ＿ｈｉｇｈ２，．．．ｓｔａｇｅ＿ｈｉｇｈ４とも呼ばれる）は、さらに説明するエンコーダフェーズのブロックである。エンコーダ－デコーダバックボーンは、ＭｏｂｉｌｅＮｅｔＶ２［２］に基づいてモデル化される。さらなる詳細を表１に示す。第２の分岐のエンコーダフェーズ（ブロック３２８－３３２）も、ＭｏｂｉｌｅＮｅｔＶ２［２］のエンコーダ上でモデル化される。

モデルのエンコーダは、ＩｍａｇｅＮｅｔ上で事前トレーニングされたＭｏｂｉｌｅＮｅｔＶ２［２］モデル重みで初期化された［９］。２つのα＝１．０のＭｏｂｉｌｅＮｅｔＶ２エンコーダバックボーン（すなわち、エンコーダフェーズ）のカスケードが使用され、両方とも２２４×２２４のＩｍａｇｅＮｅｔ画像上で事前トレーニングされた。（それぞれの分岐からの）エンコーダカスケードは高解像度入力（ｓｔａｇｅ＿ｈｉｇｈ１．．．４）を有する１つの浅いネットワークと、低解像度入力（ｓｔａｇｅ＿ｌｏｗ１．．．８）を有する１つの深いネットワークとからなり、これらは両方とも完全なＭｏｂｉｌｅＮｅｔＶ２のプレフィックスである。第１の分岐ｓｔａｇｅ６の低解像度エンコーダはストライド２（ｓｔｒｉｄｅ２）からストライド１（ｓｔｒｉｄｅ１）に変更され、この変更を補償するために、ｓｔａｇｅ７及び８において拡張（ｄｉｌａｔｅｄ）２×畳み込みが使用された。したがって、低解像度エンコーダの出力ストライド（ｓｔｒｉｄｅ）は、元のＭｏｂｉｌｅＮｅｔＶ２のように３２×ではなく、その入力に対して１６×である。レイヤごとの詳細な説明については表１を参照されたい。表１は、指爪セグメンテーションモデルアーキテクチャの詳細な要約を示す。各レイヤ名は、本明細書で説明する図３及び図４のブロックに対応する。高さＨ、幅Ｗは、フル解像度のＨ×Ｗ入力サイズを示す。投影４０８及び拡張レイヤ４１０については、ｐ∈｛１６，８｝である。ｓｔａｇｅ３＿ｌｏｗからｓｔａｇｅ７＿ｌｏｗの場合、括弧内のチャネル数はｓｔａｇｅの最初のレイヤ（図示せず）のためのもので、同じｓｔａｇｅ内の後続のレイヤの括弧なしの数まで増加する。

モデル３００のデコーダは、図３の中ステップおよび下ステップ右側に示され（例えば、ブロック３２４と、３３６（融合ブロックを含む）と、アップサンプリングブロック３２２及び３２６と、を含む）、ブロック３２４及び３３６の各々に対するデコーダ融合モデルの詳細図が図４に示される。大きさＨ×Ｗの元の入力に対して、デコーダは（ブロック３１２からの）ｓｔａｇｅ＿ｌｏｗ４からの

特徴をｓｔａｇｅ＿ｌｏｗ８から導出されたブロック３２２からのアップサンプリングされた特徴と融合し、次に（ブロック３２６）アップサンプリングし、融合ブロック３３６を介して得られた特徴をｓｔａｇｅ＿ｈｉｇｈ４からの

特徴と融合する（ブロック３３４）。

図４は、ブロック４０８，４１０，４１２及び加算器４１４を用いて、デコーダ内の特徴マップＦ_２´（４０６）によって表される高解像度の融合特徴を生成するために、特徴マップＦ_１（４０２）によって表されるアップサンプリングされた低解像度の高意味論的情報特徴を、特徴マップＦ_２（４０４）によって表される高解像度の低意味論的情報特徴と融合するために使用される融合モジュール４００を示す。ブロック３２４に関連して、特徴マップＦ_１（４０２）はブロック３２２から出力され、特徴マップＦ_２（４０４）はブロック３１２から出力される。ブロック３２４からの特徴マップＦ_２´（４０６）は、そのブロックのモデル４００の一例における特徴マップＦ_１（４０２）としてブロック３３６に提供するために、３２６でアップサンプリングされる。ブロック３３６では、特徴マップＦ_２（４０４）がブロック３３４から受信され、特徴マップＦ_２´（４０６）がブロック３３８への出力として提供される。ブロック３３８は、入力解像度／４にアップサンプリングし、次いで、結果として得られる特徴マップをデコーダモデル３４０に提供する。デコーダモデル３４０を図５に示す。デコーダモデル３４０は図５に関連してさらに説明されるように、画像のための３つのタイプの情報（例えば、３チャネル出力３４２）を生成する。

図４に示されるように、１×１畳み込み分類器４１２は、アップサンプリングされたＦ_１特徴に適用され、これはダウンサンプリングされたラベルを予測するために使用される。［１０］と同様に、この出力の「ラプラシアンピラミッド」は低解像度でより大きな受信フィールド特徴マップからの予測を精緻化することに焦点を当てるために、より高解像度でより小さな受信フィールド特徴マップを最適化する。したがって、モデル４００では、ブロック４１２からの特徴マップ（図示せず）がそれ自体は出力として使用されない。むしろ、トレーニングにおいて、損失関数はピラミッド出力正則化（すなわち、図５で適用される損失）の形態で適用される。

ブロック３４２は、図５の３つの分岐５０２，５０４及び５０６からのブロックの出力に対応する３つのチャネルを含むデコーダからの１つのグローバル出力を表す。第１のチャネルは、ピクセル毎の分類（例えば、フォアグラウンド／バックグラウンドセグメンテーションマスク又はオブジェクトセグメンテーションマスク）を含み、第２のチャネルは、セグメント化されたマスクの個々の指先クラスへの分類を含み、第３のチャネルは、セグメント化されたマスクピクセル毎の２Ｄ方向性ベクトル（例えば、ピクセル毎（ｘ，ｙ））のフィールドを含む。

図５に示すように、デコーダは、複数の出力デコーダ分岐５０２，５０４及び５０６を用いて、指爪の先端の上にレンダリングするのに必要な方向性情報（例えば、第３のチャネルにおける基部から先端までのベクトル）と、接続された構成要素を用いて指爪の一例を見つけるのに必要な指爪のクラス予測（第２のチャネルにおける）とを提供する。これらの付加的なデコーダは、画像の注釈付けされた指爪領域においてのみペナルティを課される高密度予測を生成するようにトレーニングされる。各分岐は、この例によれば、それぞれの損失関数を用いる。正規化された指数関数（Ｓｏｆｔｍａｘ）が分岐５０２及び５０４に示されているが、セグメンテーション／分類のための別のアクティベーション関数を用いることができる。本明細書における次元は代表的なものであり、異なるタスクに適合させることができることを理解されたい。例えば、図５では、分岐５０２，５０４は、１０個のクラスに関連し、それに応じて次元決めされる。

２値（すなわち、指爪対バックグラウンド）予測が方向フィールド予測と共に図６に視覚化されている。すなわち、図６は、処理された入力画像から生成され更新された画像の４×４のアレイ６００を示す。フォアグラウンド／バックグラウンドマスクを用いて、着色のためのそれぞれの爪を同定した。爪領域は（ここでは、グレースケールで描かれているが）ピクセル単位に着色されており、フォアグラウンド／バックグラウンドマスクにおける偽陽性および偽陰性の識別と同様に、グラウンドトゥルースとの一致を示す。アレイ６００の更新された画像は、方向性情報も示す。図６Ａ、図６Ｂ及び図６Ｃは、白い矢印が偽陽性領域を指し、黒い矢印が偽陰性領域を指す注釈を有するアレイ６００からの拡大画像６０２，６０４及び６０６を示す。画像６０４には、見えない手の姿勢がオーバーセグメンテーションを引き起こす共通の故障モードが示されている。画像６０６では、目に見えない照明／爪の色の組み合わせによるアンダーセグメンテーションの例が示されている。両方の故障事例は、関連するトレーニングデータを追加することによって改善され得ることが期待される。

各手／指の組み合わせ（例えば、左の小指）についての個々のクラス予測は、図８の４×４のアレイ８００において、指爪領域においてのみ視覚化される。図９は、１つのクラス（薬指）が別のクラス（中指）に漏れることを示す注釈（白い矢印９００）を付けた拡大画像８０２を示す。カメラの遠近感により爪が重なっているためクラスが漏れる。これは、高密度ＣＲＦ又は誘導フィルタ後処理によって改善され得る。

＜推論（トレーニング内容）＞
ニューラルネットワークモデルは、ＰｙＴｏｒｃｈを用いてトレーニングされた［１１］。トレーニングされたモデルはＣｏｒｅＭＬ（登録商標）を用いてｉＯＳ（登録商標）に、及びＴｅｎｓｏｒＦｌｏｗ．ｊｓ（登録商標）を用いてウェブブラウザに配備された［１］。

データ拡張は、コントラスト正規化と周波数雑音アルファブレンディング拡張、並びにランダムスケール、アスペクト比、回転およびクロップ拡張を含んだ。コントラスト正規化は、それぞれのピクセル値I_ｉｊを１２７＋α（I_ｉｊ－１２７）、ここではα∈［０．５，２．０］にスケールすることでコントラストを調整する。周波数ノイズアルファブレンディングは、周波数ノイズマスクを用いて２つの画像ソースを混合する。［１／２，２］からの均一なランダムにサンプリングされたスケール拡張、［２／３，３／２］からのアスペクト比延伸拡張、±１８０°からのローテーション拡張、および所与のダウンサンプリングされたトレーニング画像の短い方の辺の長さの１４／１５の辺の長さのランダムにトリミングされた正方形画像があった。

現在のソフトウェア実装、すなわち、ＣｏｒｅＭＬ（登録商標）およびＴｅｎｓｏｒＦｌｏｗ．ｊｓ（登録商標）、ならびに現在のモバイルデバイスハードウェアが与えられると、システムは、６４０×４８０（ネイティブモバイル）および４８０×３６０（ウェブモバイル）までのすべての解像度においてリアルタイムで（すなわち、≧１０ＦＰＳで）実行することができ、そのために、モデルは、それぞれ４４８×４４８及び３３６×３３６の入力解像度でトレーニングされた。すべての入力画像をＩｍａｇｅＮｅｔデータセットの平均および標準偏差によって正規化した。ＭｏｂｉｌｅＮｅｔＶ２エンコーダバックボーンは、Ｎｅｓｔｅｒｏｖモーメントが０．９のＳＧＤを用いて４００エポックのＩｍａｇｅＮｅｔで事前トレーニングされ、エポック２００及び３００で１０^－２の初期ラーニング率が１０倍減少した。

エンコーダ－デコーダモデルは、指爪追跡データセット上の４００エポックについてトレーニングされた。事前トレーニングされたすべてのレイヤ、すなわちｓｔａｇｅ＿ｈｉｇｈ１．．４及びｓｔａｇｅ＿ｌｏｗ１．．８に対して、事前トレーニングされた重み値を保持するために、５×１０^－３の低い初期ラーニング率を用いたが、他のすべてのレイヤに対しては５×１０^－２の初期学習率を用いた。以前の研究［１２］に続き、

に従った多項式減衰ラーニング率スケジュールを用いた。ここで、ｌ_ｔは反復ｔでのラーニング率であり、Ｔはステップの総数である。３２のバッチサイズを用いた。オプティマイザーは、Ｎｅｓｔｅｒｏｖモーメントが０．９９で、モデルの重みに１０^－４の加重減衰があるＳＧＤであった。クリッピング勾配は１．０であった。ＬＭＰ損失関数は、損失を、最も高い損失値を有するピクセルの１０％の平均損失として計算する。

＜目標関数の議論＞
バックグラウンド（過剰表現クラス）と指爪（過少表現クラス）とのクラス不均衡を扱うために、目標関数では、各ピクセルの損失の大きさでソートし、ピクセルの上位１０％にわたる平均をミニバッチ損失として、ミニバッチの全ピクセルにわたってロスマックスプーリング［７］を用いた。ロスマックスプーリングを用いることは、指爪クラスをバックグラウンドよりも２０×だけ重み付けしたばかりのベースラインと比較した場合、検証セットで評価されるように、ｍＩｏＵの≒２％の増加をもたらし、ここで、ｍＩｏＵの改善は、クラス境界に沿ったより鋭い爪縁の外観に反映された（ここで、ナイーブなベースラインは一貫して過剰セグメント化された）。

図５に示すモデルの３つの出力に対応する３つの損失関数を用いた。指爪クラスとフォアグラウンド／バックグラウンド予測は両方とも、数式１で与えられた多項分布のネガティブログライクリフッドを最小化する。ここで、ｃはグランドトゥルース値クラス、ｘ^ｉｊ _ｃはモデルによるクラスの事前ソフトマックス予測、Ｌ^ｉｊは（ｘ，ｙ）＝（ｉ，ｊ）でのピクセルの損失である。

クラス予測のケースでは、ｃ∈｛１，２，．．．，１０｝、フォアグラウンド／バックグラウンド予測のケースでは、ｃ∈｛１，２｝。ＬＭＰは、フォアグラウンド／バックグラウンド予測のみに使用される。指爪クラス予測が指爪領域においてのみ有効であるので、これらのクラスはバランスがとれており、ＬＭＰを必要としない。

数式２において、

であり、閾値τは、［０．１×Ｈ×Ｗ］番目に高い損失ピクセルの損失値である。［・］演算子はインジケータ関数である。

方向フィールド出力に対しては、正規化ベース上のＨｕｂｅｒ損失を、グランドトゥルース爪内部の各ピクセルに対して爪の先端方向に適用した。これは、基部先端方向の近似的な正確さがレンダリングに必要とされる全てであり、これが、方向フィールド損失が２進およびクラスの指爪セグメンテーション損失を減じることを防止するので、いったんそれがほぼ正しいならば、フィールド損失を強調しないようにするためである。Ｈｕｂｅｒ損失の代わりに、Ｌ２やＬ１エラーのような他のロス機能も用いることができる。

数式３において、インデックス（ｉ，ｊ）は全ての空間ピクセル位置にわたり、一方、基部先端方向ベクトルの（ｘ，ｙ）方向をｋ∈｛０，１｝インデックスする。さらに、各スカラーフィールド予測

は、ベクトル

が単位ベクトルとなるように正規化される。すなわち、

である。フィールド方向ラベルも、

のように正規化される。方向フィールドと指紋クラス損失については、クラス不均衡の問題はないので、それらは単にそれらの個々の損失の手段、すなわち

及び、

であり、Ｎ_{ｃｌａｓｓ}＝Ｈ×ＷおよびＮ_{ｆｉｅｌｄ}＝２×Ｈ×Ｗである。総合的なロスは、ｌ＝ｌ_ｆｇｂｇ＋ｌ_{ｃｌａｓｓ}＋ｌ_{ｆｉｅｌｄ}である。

＜後処理とレンダリング＞
モデルからの出力は、入力画像を処理し、生成され、更新された画像を処理するために使用されてもよい。方法１（図１０も参照）では、ＣＮＮモデルの追跡予測の出力を用いてユーザの指爪に現実的なマニキュア液を描く後処理およびレンダリング方法が記載されている。この方法は（ＣＮＮモデルを用いて）、指爪追跡モジュールによって予測された個々の指爪位置および方向性情報を用いて、勾配をレンダリングし、自然の爪の明るい色の遠位縁を隠す。

図１０は、コンピューティングデバイスのオペレーション１０００を示す。コンピューティングデバイスは、本明細書に示され、説明されるようなＣＮＮモデルと、コンピューティングデバイスを構成するための命令と、を備える。オペレーション１０００は、ステップ１００２において、複数のオブジェクト（例えば、指爪）に適用するための外観の選択肢を受け取るためのユーザインタフェース（例えば、ＧＵＩ）を提示するコンピューティングデバイスを示す。１００４において、オペレーションは、コンピューティングデバイスのカメラなどからソース画像を受信する。ソース画像は、処理される画像として用いるためのセルフィー静止画像またはセルフィービデオ画像であってもよい。１００６で、命令は、複数のオブジェクトを決定するために画像を処理するようにコンピューティングデバイスを構成し、１００８で、外観選択を適用するために画像を処理し、１０１０で、適用された外観選択を示す更新された画像を生成する。更新された画像は、拡張現実をシミュレートするために（１０１２で）存在することができる。

図１１は、ＣＮＮからの出力を用いてＣＮＮによって処理された後に使用され得るオペレーションのための擬似コード１１００を備える「方法１」を示す。方法１は、後処理およびマニキュア液レンダリングオペレーションを示す。このオペレーションはまず、予測された爪の方向を用いて、それぞれの爪の上にユーザが選んだ色の勾配を描き、爪の方向に垂直にし、爪マスクによってマスクアウトする。次に、元の爪からスペキュラー成分をコピーし、勾配の上にそれらを混合する。

＜雑多なもの＞
前処理は、例えば、必要なサイズの入力を生成し、画像の所望の部分をセンタリングし、照明を補正するために、モデルによる処理の前に使用されてもよいことが理解されよう。

指爪に関連して記載されているが、他のオブジェクトが記述されているように追跡されてもよく、本明細書の記載は、当業者によって適合されてもよい。カラー外観効果を適用して更新された画像を生成することが記載されているが、他の外観効果を用いることもできる。外観効果は、追跡されるオブジェクトの位置またはその周辺に適用されてもよい。

コンピューティングデバイスの態様に加えて、通常の当業者は、コンピュータプログラム製品の態様が開示され、そこでは命令が非一時的記憶デバイス（例えば、メモリ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＲＡＭ、テープ、ディスクなど）に記憶され、処理装置によって実行され、ここに記憶された任意の態様を実行するようにコンピューティングデバイスを構成することを理解するのであろう。処理装置は、ＣＰＵ、ＧＰＵ、または他のプログラマブルデバイス、あるいはそのようなもののうちの１つ又は複数の組合せとすることができる。本明細書に記載されるように、１つの実装は、ＡｐｐｌｅＩｎｃ．からのｉＯＳ（登録商標）ベースのｉＰｈｏｎｅ（登録商標）製品のためのＣｏｒｅＭＬ（登録商標）を用いて準備された。

実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これらおよび他の態様、特徴、ならびに様々な組み合わせは、本明細書で説明される特徴を組み合わせる、機能、プログラム製品を実行するための方法、機器、システム、手段として、および他の方法で表現され得る。多数の実施形態が記載されている。それにもかかわらず、本明細書で説明されるプロセスおよび技術的思想および範囲から逸脱することなく、様々な修正を行うことができることが理解されるのであろう。加えて、記載された方法から、他のステップを提供することができ、またはステップを排除することができ、記載されたシステムに他の成分を加えるか、またはそこから除去することができる。したがって、他の態様は特許請求の範囲の範囲内にある。

本明細書の説明および特許請求の範囲を通して、単語「含む」および「備え」およびそれらの変形は「含むが、それらに限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない（かつ排除しない）。本明細書を通して、単数形は文脈が別ステップ要求しない限り、複数形を包含する。特に、不定冠詞が使用される場合、本明細書は文脈が別ステップを要求しない限り、複数形および単数形を意図するものとして理解されるべきである。単語「および／または」は、例えば、本明細書において、「Ａおよび／またはＢ」に関して、Ａ，ＢならびにＡ及びＢの両方の一方を意味する。

本発明の特定の局面、実施形態または実施例に関連して記載される特徴、整数特性、化合物、化学部分または基は、それらと適合しない限り、任意の他の局面、実施形態または実施例に適用可能であると理解されるべきである。本明細書に開示された特徴（任意の添付の特許請求の範囲、要約書、および図面を含む）のすべて、および／またはそのように開示された任意の方法または処理のステップのすべては、そのような特徴および／またはステップの少なくともいくつかが相互に排他的である組み合わせを除いて、任意の組合せで組み合わせることができる。本発明は、前述の実施例または実施形態の詳細に限定されない。本明細書（添付の特許請求の範囲、要約書、および図面を含む）に開示された特徴の任意の新規なもの、または任意の新規な組み合わせ、または開示された任意の方法または処理のステップの任意の新規なもの、または任意の新規な組み合わせに拡張される。

＜結論＞
マニキュア液レンダリングのための指爪追跡およびオペレーションのためのモデルが提示される。現在のソフトウェア及びハードウェアを用いて、スマートフォン又はタブレットのようなユーザコンピューティングデバイスを、ｉＯＳ（登録商標）及びウェブプラットフォームの両方においてリアルタイムで実行するように構成することができる。カスケードされたモデルアーキテクチャ設計と結合したＬＭＰの使用は、６４０×４８０解像度までのピクセル精度の指爪予測を同時に可能にした。モデルの複数の出力予測を利用して、個々の指爪に勾配を与え、爪マスクを指爪の先の方向に引き伸ばすことによって自然な指爪の上にレンダリングするときに明るい色の遠位縁を隠す後処理オペレーションが提案されている。
＜参考文献（Ｒｅｆｅｒｅｎｃｅｓ）＞
以下に列挙する参考文献［１］－［１３］の各々は、参照することにより本明細書に組み込まれている。
［１］ＤａｎｉｅｌＳｍｉｌｋｏｖ，ＮｉｋｈｉｌＴｈｏｒａｔ，ＹａｎｎｉｃｋＡｓｓｏｇｂａ，ＡｎｎＹｕａｎ，ＮｉｃｋＫｒｅｅｇｅｒ，ＰｉｎｇＹｕ，ＫａｎｇｙｉＺｈａｎｇ，ＳｈａｎｑｉｎｇＣａｉ，ＥｒｉｃＮｉｅｌｓｅｎ，ＤａｖｉｄＳｏｅｒｇｅｌ，ＳｔａｎＢｉｌｅｓｃｈＩ，ＭｉｃｈａｅｌＴｅｒｒｙ，ＣｈａｒｌｅｓＮｉｃｈｏｌｓｏｎ，ＳａｎｄｅｅｐＮ．Ｇｕｐｔａ，ＳａｒａｈＳｉｒａｊｕｄｄｉｎ，Ｄ．Ｓｃｕｌｌｅｙ，ＲａｊａｔＭｏｎｇａ，ＧｒｅｇＣｏｒｒａｄｏ，ＦｅｒｎａｎｄａＢ．Ｖｉｅｇａｓ，ａｎｄＭａｒｔｉｎＷａｔｔｅｎｂｅｒｇ．Ｔｅｎｓｏｒｆｌｏｗ．ｊｓ：Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｏｒｔｈｅｗｅｂａｎｄｂｅｙｏｎｄ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９０１．０５３５０，２０１９．
［２］ＭａｒｋＳａｎｄｌｅｒ，ＡｎｄｒｅｗＨｏｗａｒｄ，ＭｅｎｇｌｏｎｇＺｈｕ，ＡｎｄｒｅｙＺｈｍｏｇｉｎｏｖ，ａｎｄＬｉａｎｇ－ＣｈｉｅｈＣｈｅｎ．ＭｏｂｉｌｅＮｅｔＶ２：Ｉｎｖｅｒｔｅｄｒｅｓｉｄｕａｌｓａｎｄｌｉｎｅａｒｂｏｔｔｌｅｎｅｃｋｓ．ＩｎＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），Ｊｕｎｅ２０１８．
［３］ＸｉａｎｇｙｕＺｈａｎｇ，ＸｉｎｙｕＺｈｏｕ，ＭｅｎｇｘｉａｏＬｉｎ，ａｎｄＪｉａｎＳｕｎ．Ｓｈｕｆｆｌｅｎｅｔ：Ａｎｅｘｔｒｅｍｅｌｙｅｆｆｉｃｉｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｍｏｂｉｌｅｄｅｖｉｃｅｓ．ＩｎＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１８．
［４］ＲｏｂｅｒｔＪＷａｎｇ，ＸｉａｎｇＬｉ，ａｎｄＣｈａｒｌｅｓＸＬｉｎｇ．Ｐｅｌｅｅ：Ａｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｓｙｓｔｅｍｏｎｍｏｂｉｌｅｄｅｖｉｃｅｓ．ＩｎＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ３１，２０１８．
［５］ＦｏｒｒｅｓｔＮ．Ｉａｎｄｏｌａ，ＳｏｎｇＨａｎ，ＭａｔｔｈｅｗＷ．Ｍｏｓｋｅｗｉｃｚ，ＫｈａｌｉｄＡｓｈｒａｆ，ＷｉｌｌｉａｍＪ．Ｄａｌｌｙ，ａｎｄＫｕｒｔＫｅｕｔｚｅｒ．Ｓｑｕｅｅｚｅｎｅｔ：Ａｌｅｘｎｅｔ－ｌｅｖｅｌａｃｃｕｒａｃｙｗｉｔｈ５０ｘｆｅｗｅｒｐａｒａｍｅｔｅｒｓａｎｄ＜０．５ｍｂｍｏｄｅｌｓｉｚｅ．ａｒＸｉｖ：１６０２．０７３６０，２０１６．
［６］ＢａｒｒｅｔＺｏｐｈ，ＶｉｊａｙＶａｓｕｄｅｖａｎ，ＪｏｎａｔｈｏｎＳｈｌｅｎｓ，ａｎｄＱｕｏｃＶ．Ｌｅ．Ｌｅａｒｎｉｎｇｔｒａｎｓｆｅｒａｂｌｅａｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒｓｃａｌａｂｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ．ＩｎＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１８．
［７」ＳａｍｕｅｌＲｏｔａＢｕｌｏ，ＧｅｒｈａｒｄＮｅｕｈｏｌｄ，ａｎｄＰｅｔｅｒＫｏｎｔｓｃｈｉｅｄｅｒ．Ｌｏｓｓｍａｘ－ｐｏｏｌｉｎｇｆｏｒｓｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ．ＩｎＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１７．
［８］ＨｅｎｇｓｈｕａｎｇＺｈａｏ，ＸｉａｏｊｕａｎＱｉ，ＸｉａｏｙｏｎｇＳｈｅｎ，ＪｉａｎｐｉｎｇＳｈｉ，ａｎｄＪｉａｙａＪｉａ．ＩＣＮｅｔｆｏｒｒｅａｌｔｉｍｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｏｎｈｉｇｈ－ｒｅｓｏｌｕｔｉｏｎｉｍａｇｅｓ．ＩｎＥＣＣＶ，２０１８．
［９］Ｊ．Ｄｅｎｇ，Ｗ．Ｄｏｎｇ，Ｒ．Ｓｏｃｈｅｒ，Ｌ．－Ｊ．Ｌｉ，Ｋ．Ｌｉ，ａｎｄＬ．Ｆｅｉ－Ｆｅｉ．ＩｍａｇｅＮｅｔ：ＡＬａｒｇｅ－ＳｃａｌｅＨｉｅｒａｒｃｈｉｃａｌＩｍａｇｅＤａｔａｂａｓｅ．ＩｎＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２００９．
［１０］ＧｏｌｎａｚＧｈｉａｓｉａｎｄＣｈａｒｌｅｓｓＣ．Ｆｏｗｌｋｅｓ．Ｌａｐｌａｃｉａｎｒｅｃｏｎｓｔｒｕｃｔｉｏｎａｎｄｒｅｆｉｎｅｍｅｎｔｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ．ＩｎＥＣＣＶ，２０１６．
［１１」ＡｄａｍＰａｓｚｋｅ，ＳａｍＧｒｏｓｓ，ＳｏｕｍｉｔｈＣｈｉｎｔａｌａ，ＧｒｅｇｏｒｙＣｈａｎａｎ，ＥｄｗａｒｄＹａｎｇ，ＺａｃｈａｒｙＤｅＶｉｔｏ，ＺｅｍｉｎｇＬｉｎ，ＡｌｂａｎＤｅｓｍａｉｓｏｎ，ＬｕｃａＡｎｔｉｇａ，ａｎｄＡｄａｍＬｅｒｅｒ．Ａｕｔｏｍａｔｉｃｄｉｆｆｅｒｅｎｔｉａｔｉｏｎｉｎｐｙｔｏｒｃｈ．ＩｎＮＩＰＳ－Ｗ，２０１７．
［１２］Ｌｉａｎｇ－ＣｈｉｅｈＣｈｅｎ，ＧｅｏｒｇｅＰａｐａｎｄｒｅｏｕ，ＩａｓｏｎａｓＫｏｋｋｉｎｏｓ，ＫｅｖｉｎＭｕｒｐｈｙ，ａｎｄＡｌａｎＬ．Ｙｕｉｌｌｅ．Ｄｅｅｐｌａｂ：Ｓｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓ，ａｔｒｏｕｓｃｏｎｖｏｌｕｔｉｏｎ，ａｎｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄｃｒｆｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０６．００９１５，２０１６．
［１３］Ｃ．Ｇｒａｎａ，Ｄ．Ｂｏｒｇｈｅｓａｎｉ，ａｎｄＲ．Ｃｕｃｃｈｉａｒａ．Ｏｐｔｉｍｉｚｅｄｂｌｏｃｋ－ｂａｓｅｄｃｏｎｎｅｃｔｅｄｃｏｍｐｏｎｅｎｔｓｌａｂｅｌｉｎｇｗｉｔｈｄｅｃｉｓｉｏｎｔｒｅｅｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，２０１０．

Claims

処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、ＣＮＮと、前記処理装置によって実行されるように構成する命令と、を記憶し、
前記ＣＮＮを有する複数のオブジェクトを含む画像を処理し、前記ＣＮＮは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記ＣＮＮは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含み、
低解像度特徴の深い学習を提供する第１の分岐と、
高解像度特徴の浅い学習を提供する第２の分岐と、を備え、
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力するコンピューティングデバイス。
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からの前記それぞれの予測を組み合わせて、前記ＣＮＮからの出力としての前記情報が方向性情報をさらに含む請求項１記載のコンピューティングデバイス。
前記第１の分岐は、前記第１の分岐のそれぞれの予測を生成するためのエンコーダ－デコーダバックボーンを備える請求項１又は２に記載のコンピューティングデバイス。
前記第１の分岐のそれぞれの予測は、前記第１の分岐のエンコーダフェーズに続いて生成される初期予測と、前記第１の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む請求項３記載のコンピューティングデバイス。
前記初期予測および前記さらなる予測は、第１の分岐融合ブロックを用いて組み合わされて、前記第２の分岐のそれぞれの予測とさらに組み合わせるように提供する前記第１の分岐の前記それぞれの予測を生成する請求項４記載のコンピューティングデバイス。
前記第２の分岐のそれぞれの予測は、前記第１の分岐とカスケード接続された、前記第２の分岐のエンコーダフェーズによる処理に続いて生成される請求項１から３のいずれかに記載のコンピューティングデバイス。
前記第１の分岐のそれぞれの予測（Ｆ_１）は、第２の分岐融合ブロックを用いて、前記第２の分岐の前記それぞれの予測（Ｆ_２）と組み合わされる請求項６記載のコンピューティングデバイス。
Ｆ_１がアップサンプリングされた低解像度の高意味論的情報特徴を含み、Ｆ_２が高解像度の低意味論的情報特徴を含み、前記第２の分岐融合ブロックは、Ｆ_１とＦ_２を組み合わせて、前記第２の分岐のデコーダフェーズで高解像度の融合特徴Ｆ_２´を生成する請求項７記載のコンピューティングデバイス。
前記ＣＮＮは、ダウンサンプリングされたクラスラベルを生成するために、前記それぞれの予測Ｆ_１に適用される畳み込み分類器を用いる請求項８記載のコンピューティングデバイス。
Ｆ_２を処理するために、前記ＣＮＮは、多重出力デコーダ分岐を用いて、前記フォアグラウンド／バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、を生成する請求項２に従属する請求項８記載のコンピューティングデバイス。
前記多重出力デコーダ分岐は、
第１の出力デコーダ分岐が１×１畳み込みブロックと、前記フォアグラウンド／バックグラウンドセグメンテーションを生成するためのアクティベーション関数と、を有し、
第２の出力デコーダ分岐が１×１畳み込みブロックと、前記オブジェクトクラスセグメンテーションを生成するためのアクティベーション関数と、を有し、
第３の出力デコーダ分岐が前記方向性情報を生成するための１×１畳み込みブロックを有する請求項１０記載のコンピューティングデバイス。
前記ＣＮＮは、前記フォアグラウンド／バックグラウンドセグメンテーションを決定するために、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するように、ロスマックスプーリング（ＬＭＰ）損失関数を用いてトレーニングされる請求項１から１１のいずれかに記載のコンピューティングデバイス。
前記ＣＮＮは、ネガティブログライクリフッド損失（ＮＬＬ）関数を用いてトレーニングされ、前記フォアグラウンド／バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、を決定する請求項１から１２のいずれかに記載のコンピューティングデバイス。
前記ＣＮＮは、前記方向性情報を決定するためにＨｕｂｅｒ損失関数を用いてトレーニングされる請求項２から１３のいずれかに記載のコンピューティングデバイス。
各オブジェクトが基部と先端とを有し、前記方向性情報が基部先端方向フィールドを含む請求項２から１４までのいずれかに記載のコンピューティングデバイス。
前記第１の分岐は、ＭｏｂｉｌｅＮｅｔＶ２エンコーダ－デコーダ構造を用いて定義され、前記第２の分岐は、前記ＭｏｂｉｌｅＮｅｔＶ２エンコーダ－デコーダ構造からのエンコーダ構造を用いて定義され、前記ＣＮＮは、最初に、ＩｍａｇｅＮｅｔからのトレーニングデータを用いてトレーニングされ、その後、グラウンドトゥルースでラベル付けされた前記複数のオブジェクトのためのオブジェクト追跡データセットを用いてトレーニングされる請求項１から１５のいずれかに記載のコンピューティングデバイス。
前記命令は、前記情報の少なくとも一部を出力として用いて前記画像から更新された画像を生成し画像処理を実行するようにさらに構成する請求項１から１６のいずれかに記載のコンピューティングデバイス。
画像処理を実行することは、前記複数のオブジェクトの色などの外観を変更するために、前記フォアグラウンド／バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、のうちの少なくとも一部を用いる請求項２に従属する請求項１７記載のコンピューティングデバイス。
カメラを備え、
前記命令は、前記複数のオブジェクトに適用するための外観選択を受信し、前記画像として用いるためのセルフィービデオ画像を前記カメラから受信するためのユーザインタフェースを提示し、
前記外観選択を用いて、前記更新された画像を生成するために前記セルフィービデオ画像を処理し、
拡張現実をシミュレートするために前記更新された画像を提示するように構成する請求項１７又は１８に記載のコンピューティングデバイス。
スマートフォン又はタブレットを備える請求項１から１９のいずれかに記載のコンピューティングデバイス。
前記画像は、指爪を有する手の少なくとも一部を含み、前記複数のオブジェクトは、指爪を含む請求項１から２０のいずれかに記載のコンピューティングデバイス。
処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、前記処理装置によって実行され、
複数のオブジェクトを含む画像を処理したＣＮＮによって意味論的にセグメント化された前記複数のオブジェクトの各々について、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含むＣＮＮ出力を受信し、
前記画像を処理して、更新された画像を生成し、
前記フォアグラウンド／バックグラウンドセグメンテーション（及び前記オブジェクトクラスセグメンテーション）に従ってセグメント化された前記複数のオブジェクトの各々にわたる選択された色の勾配を描画し、前記選択された色は、前記方向性情報によって示されるように、前記オブジェクトの各々のそれぞれの方向に垂直に描画されるように構成する命令を記憶するコンピューティングデバイス。
前記勾配にわたって前記複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用し、結果を混合するようにさらに構成される請求項２２記載のコンピューティングデバイス。
描画の前に、前記フォアグラウンド／バックグラウンドセグメンテーションによって識別される前記複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証するようにさらに構成される請求項２３記載のコンピューティングデバイス。
描画の前に、前記複数のオブジェクトから決定された平均色で伸張された前記複数のオブジェクトの各々のそれぞれの領域の外側の少なくとも一部の隣接する領域を色付けし、
伸張された前記複数のオブジェクトの各々の前記それぞれの領域および前記隣接する領域をぼかすようにさらに構成される請求項２４記載のコンピューティングデバイス。
描画時に用いるために選択された色を受け取るようにさらに構成された請求項２２から２５のいずれかに記載のコンピューティングデバイス。
請求項２２から２６のいずれかに記載のコンピューティングデバイスであって、請求項２から２１のいずれかに記載のコンピューティングデバイスによってさらに定義されるコンピューティングデバイス。
処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、ＣＮＮと、前記処理装置によって実行されてコンピューティングデバイスを以下のように構成する命令と、を記憶し、
前記ＣＮＮを有する複数のオブジェクトを含む画像を処理し、前記ＣＮＮは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記ＣＮＮは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含み、
低解像度特徴の深い学習を提供する第１の分岐と、
高解像度特徴の浅い学習を提供する第２の分岐と、を備え、
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションを含む情報を出力し、前記ＣＮＮは、ロスミーンポーリング損失関数を用いてトレーニングされるコンピューティングデバイス。
前記画像が複数のピクセルを含み、前記画像内の前記複数のオブジェクトが前記複数のピクセルのうちの少数によって表される請求項２８記載のコンピューティングデバイス。
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からの前記それぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力し、前記ＣＮＮは、ＮＬＬ損失関数を用いてさらにトレーニングされる請求項２８又は２９に記載のコンピューティングデバイス。
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からの前記それぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力し、前記ＣＮＮは、Ｈｕｂｅｒ損失関数またはＬ２損失関数を用いてさらにトレーニングされる請求項２８から３０のいずれかに記載のコンピューティングデバイス。
前記ＣＮＮは、出力情報のラプラシアンピラミッドを提供するように定義される請求項１から３１のいずれかに記載のコンピューティングデバイス。
処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、前記処理装置によって実行されると、コンピューティングデバイスを以下のように構成する命令を記憶し、
ＣＮＮをトレーニングするように画像のデータセットに注釈を付けるためのグラフィカルユーザインタフェース（ＧＵＩ）を提供し、前記ＧＵＩは注釈を付けるべきそれぞれの画像を表示するための表示部を有し、前記表示部は前記それぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く（セグメント）ための入力を受け取り、前記それぞれのオブジェクトの各々についての方向性情報を示す入力を受け取るように構成され、
前記画像に注釈を付ける入力を受け取り、
前記データセットを定義するために前記注釈に関連付けて前記画像を保存するコンピューティングデバイス。
前記それぞれのオブジェクトの各々を意味論的に分類するように入力を受け取るための制御を提供するようにさらに構成される請求項３３記載のコンピューティングデバイス。
前記ＣＮＮは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記ＣＮＮは、いかに有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第１の分岐と、
高解像度特徴の浅い学習を提供する第２の分岐と、備え、
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する請求項３３又は３４に記載のコンピューティングデバイス。
畳み込みニューラルネットワーク（ＣＮＮ）を有する複数のオブジェクトを備える画像処理であって、前記ＣＮＮは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記ＣＮＮは、カスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第１の分岐と、
高解像度特徴の浅い学習を提供する第２の分岐と、を備え、
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する方法。
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からの前記それぞれの予測を組み合わせて、前記ＣＮＮによって出力される前記情報が方向性情報をさらに含む請求項３６記載の方法。
前記第１の分岐は、前記第１の分岐のそれぞれの予測を生成するためのエンコーダ－デコーダバックボーンを備える請求項３６又は３７に記載の方法。
前記第１の分岐のそれぞれの予測は、前記第１の分岐のエンコーダフェーズに続いて生成される初期予測と、前記第１の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む請求項３８記載の方法。
前記初期予測およびさらなる予測は、第１の分岐融合ブロックを用いて前記ＣＮＮによって組み合わされて、前記第２の分岐の前記それぞれの予測とさらに組み合わさるように提供する前記第１の分岐のそれぞれの予測を生成する請求項３９記載の方法。
前記第２の分岐のそれぞれの予測は、前記第１の分岐とカスケード接続された前記第２の分岐のエンコーダフェーズによる処理に続いて、前記ＣＮＮによって生成される請求項３６から３８のいずれかに記載の方法。
前記第１の分岐のそれぞれの予測（Ｆ_１）は、第２の分岐融合ブロックを用いて、前記第２の分岐の前記それぞれの予測（Ｆ_２）と組み合わされる請求項４１記載の方法。
Ｆ_１がアップサンプリングされた低解像度の高意味論的情報特徴を含み、Ｆ_２が高解像度の低意味論的情報特徴を含み、前記第２の分岐融合ブロックは、Ｆ_１とＦ_２とを組み合わせて、前記第２の分岐のデコーダフェーズで高解像度の融合特徴Ｆ_２´を生成する請求項４２記載の方法。
前記ＣＮＮは、ダウンサンプリングされたクラスラベルを生成するために、前記それぞれの予測Ｆ_１に適用される畳み込み分類器を用いる請求項４３記載の方法。
Ｆ_２を処理するために、前記ＣＮＮは、多重出力デコーダ分岐を用いて、前記フォアグラウンド／バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、を生成する請求項２に従属する請求項４３記載の方法。
前記多重出力デコーダ分岐は、
第１の出力デコーダ分岐が１×１畳み込みブロックと、前記フォアグラウンド／バックグラウンドセグメンテーションを生成するためのアクティベーション関数と、を有し、
第２の出力デコーダ分岐が１×１畳み込みブロックと、前記オブジェクトクラスセグメンテーションを生成するためのアクティベーション関数と、を有し、
第３の出力デコーダ分岐が前記方向性情報を生成するための１×１畳み込みブロックを有する請求項４５記載の方法。
前記ＣＮＮは、前記フォアグラウンド／バックグラウンドセグメンテーションを決定するために、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するように、ロスマックスプーリング（ＬＭＰ）損失関数を用いてトレーニングされる請求項３６から４７のいずれかに記載の方法。
前記ＣＮＮは、ネガティブログライクリフッド損失（ＮＬＬ）関数を用いてトレーニングされ、前記フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を決定する請求項３６から４７のいずれかに記載の方法。
前記ＣＮＮは、前記方向性情報を決定するためにＨｕｂｅｒ損失関数を用いてトレーニングされる請求項３７から４８のいずれかに記載の方法。
各オブジェクトが基部および先端を有し、前記方向性情報が基部先端方向フィールドを含む請求項３７から４９のいずれかに記載の方法。
前記第１の分岐は、ＭｏｂｉｌｅＮｅｔＶ２エンコーダ－デコーダ構造を用いて定義され、前記第２の分岐は、前記ＭｏｂｉｌｅＮｅｔＶ２エンコーダ－デコーダ構造からのエンコーダ構造を用いて定義され、前記ＣＮＮは、最初に、ＩｍａｇｅＮｅｔからのトレーニングデータを用いてトレーニングされ、その後、グラウンドトゥルースでラベル付けされた前記複数のオブジェクトのためのオブジェクト追跡データセットを用いてトレーニングされる請求項３６から５０のいずれかに記載の方法。
前記情報の少なくとも一部を前記ＣＮＮからの出力として用いて前記画像から更新された画像を生成し画像処理を実行することを含む請求項３６から５１のいずれかに記載の方法。
画像処理を実行することは、前記複数のオブジェクトの色などの外観を変更するために、前記フォアグラウンド／バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、のうちの少なくとも一部を用いる請求項３７に従属する請求項５２記載の方法。
前記複数のオブジェクトに適用するための外観選択を受信するためのユーザインタフェースを提示することと、
カメラから、前記画像として用いるためのセルフィービデオ画像を受信することと、
前記外観選択を用いて、前記更新された画像を生成するために前記セルフィービデオ画像を処理することと、
拡張現実をシミュレートするために前記更新された画像を提示することと、を備える請求項５２又は５３に記載の方法。
スマートフォン又はタブレットを備えるコンピューティングデバイスによって実行される請求項３６から５４のいずれかに記載の方法。
前記画像は、指爪を有する手の少なくとも一部を含み、前記複数のオブジェクトは、指爪を含む請求項３６から５５のいずれかに記載の方法。
複数のオブジェクトを含む画像を処理した畳み込みニューラルネットワーク（ＣＮＮ）によって意味論的にセグメント化された前記複数のオブジェクトの各々について、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含む出力を受信することと、
更新された画像を生成するための画像を処理することと、
前記フォアグラウンド／バックグラウンドセグメンテーション（及び前記オブジェクトクラスセグメンテーション）に従ってセグメント化された前記複数のオブジェクトの各々にわたる選択された色の勾配を描画し、前記選択された色は、前記方向性情報によって示されるように、前記オブジェクトの各々のそれぞれの方向に垂直に描画される方法。
前記勾配にわたって前記複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用することと、混合することと、をさらに含む請求項５７記載の方法。
描画の前に、前記フォアグラウンド／バックグラウンドセグメンテーションによって識別される前記複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証することをさらに含む請求項５８記載の方法。
描画の前に、前記複数のオブジェクトから決定された平均色で伸張された前記複数のオブジェクトの各々の前記それぞれの領域の外側の少なくとも一部の隣接する領域を着色することと、
伸張された前記複数のオブジェクトの各々の前記それぞれの領域および前記隣接する領域をぼかすことと、をさらに含む請求項５９記載の方法。
描画に用いるための選択された色を受け取ることを含む請求項５７から６０のいずれかに記載の方法。
請求項２から２１のいずれかに記載のコンピューティングデバイスによって実行される請求項５７から６１のいずれかに記載の方法。
畳み込みニューラルネットワーク（ＣＮＮ）を有する複数のオブジェクトを含む画像を処理することであって、前記ＣＮＮは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記ＣＮＮは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第１の分岐と、
高解像度特徴の浅い学習を提供する第２の分岐と、を備え、
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションを含む情報を出力し、前記ＣＮＮは、ロスミーンポーリング損失関数を用いてトレーニングされる方法。
前記画像が複数のピクセルを含み、前記画像内の前記複数のオブジェクトが前記複数のピクセルの少数によって表される請求項６３記載の方法。
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からの前記それぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力し、前記ＣＮＮは、ＮＬＬ損失関数を用いてさらにトレーニングされる請求項６３又は６４に記載の方法。
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からの前記それぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力し、前記ＣＮＮは、Ｈｕｂｅｒ損失関数またはＬ２損失関数を用いてさらにトレーニングされる請求項６３から６５のいずれかに記載の方法。
前記情報の少なくとも一部を前記ＣＮＮからの出力として用いて前記画像から更新された画像を生成することをさらに含む請求項６３から６６のいずれかに記載の方法。
前記ＣＮＮは、出力情報のラプラシアンピラミッドを提供するように定義される請求項３６から６７のいずれかに記載の方法。
ＣＮＮをトレーニングするように画像のデータセットに注釈を付けるためのグラフィカルユーザインタフェース（ＧＵＩ）を提供することであって、前記ＧＵＩは注釈を付けるべきそれぞれの画像を表示するための表示部を有し、前記表示部は前記それぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く（セグメント）ための入力を受け取り、前記それぞれのオブジェクトの各々についての方向性情報を示す入力を受け取るように構成され、
前記画像に注釈を付ける入力を受け取り、
前記データセットを定義するために前記注釈に関連付けて前記画像を保存する方法。
前記ＧＵＩは、前記それぞれのオブジェクトの各々を意味論的に分類するように入力を受け取るための制御を提供するようにさらに構成される請求項６９記載の方法。
前記ＣＮＮは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記ＣＮＮは以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第１の分岐と、
高解像度特徴の浅い学習を提供する第２の分岐と、を備え、
前記ＣＮＮは、前記第１の分岐および前記第２の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド／バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する請求項６９又は７０に記載の方法。