JP2022521844A

JP2022521844A - 深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法

Info

Publication number: JP2022521844A
Application number: JP2021558836A
Authority: JP
Inventors: 恭平神山; コウ、チョン、ジン; 優佐藤
Original assignee: ボディグラム、インコーポレイテッド
Priority date: 2019-04-02
Filing date: 2020-04-02
Publication date: 2022-04-12
Also published as: EP3938956A4; US10962404B2; EP3938956A1; WO2020206049A1; US20200319015A1; CN113711235A

Abstract

１つ又は複数の画像から体重を予測するためのシステム及び方法が開示される。方法が、１つ又は複数の対象者パラメータを受け取ることと、対象者を含む１つ又は複数の画像を受信することと、１つ又は複数の注釈深層学習ネットワークを利用して、１つ又は複数の画像から対象者の衣服下の１つ又は複数の身体特徴の１つ又は複数の注釈重要点を識別することと、１つ又は複数の注釈重要点に基づいて、対象者の１つ又は複数の幾何学的特徴を計算することと、対象者の１つ又は複数の幾何学的特徴及び１つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、対象者の体重の予測値を生成することと、のステップを含む。

Description

本出願は、２０１９年４月２日に出願された「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＷＥＩＧＨＴＥＳＴＩＭＡＴＩＯＮＦＲＯＭＵＳＥＲＰＨＯＴＯＳＵＳＩＮＧＤＥＥＰＬＥＡＲＮＩＮＧＮＥＴＷＯＲＫＳ」と題された、米国整理番号第６２／８２８，３７３号からの優先権の利益を主張するＰＣＴ（特許協力条約）出願である。

本発明の実施例は、自動化された身体測定の分野にあり、詳細には、モバイル・デバイスで撮影された写真を使用して、ユーザの体重を推定することに関する。

本発明の背景における陳述は、本発明並びにその用途及び使用方法の理解を支援するために提供され、従来技術を構成しない可能性がある。

ユーザの体重の正確な推定値を取得することのために、多くの有用なアプリケーションが存在する。例えば、健康追跡及び体重減少追跡は、体重の推定を必要とする。同様に、身長測定に基づいて、衣服のサイズ及び適合を正確に推定することが、深層学習を用いて遂行され得るが、体重の正確な推定は、身長測定のより正確な推定のための有益な入力である。

現在の体重測定方法は、常に利用可能とは限らないハードウェア構成要素である、体重計を利用することに依存している。例えば、全ての人が、家に体重計をもっているわけではなく、全ての人が、人前のジムで自分の体重を測定することを快適に感じるわけではない。スマート・フォンの出現により、ユーザは、汎用ハードウェアを用いて、専用のセンサ又は他のハードウェアを利用することなしに、シームレスで即時的なユーザ・エクスペリエンスを期待するようになった。したがって、体重測定のための専用体重計を購入することをユーザに求めることは、多くの現代の技術用途には実現可能な方法ではなく、不要なユーザの反発を招く。同様に、体重の正確な推定が他の技術用途に求められている場合、ユーザに自身の体重を「当て推量」させることは、とても十分とは言えない。

したがって、通常の２Ｄスマート・フォン・カメラを使用して撮影されたユーザの写真から体重を正確に推定するためのシステム及び方法を提供することは、最新技術における改善となり得て、その結果、全ての人が自身の写真を簡単に撮影し、正確な体重推定の恩恵が得ることができる。本発明が開発されたことは、本背景に対してである。

米国整理番号第１６／１９５，８０２号米国特許第１０，３２１，７２８号米国整理番号第６２／６６０，３７７号米国整理番号第１６／７４１，６２０号米国整理番号第６２／７８０，７３７号米国整理番号第１６／５１７，３９１号米国特許第１０，４８９，６８３号米国整理番号第１６／６９７，１４６号

ＨｅｎｇｓｈｕａｎｇＺｈａｏら、「ＰｙｒａｍｉｄＳｃｅｎｅＰａｒｓｉｎｇＮｅｔｗｏｒｋ」、ＣＶＰＲ２０１７、２０１６年１２月４日、ａｒＸｉｖ：１６１２．０１１０５で利用可能ＬｅｏＢｒｅｉｍａｎ、「ＲａｎｄｏｍＦｏｒｅｓｔｓ」、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、４５巻、５～３２ページ、２００１年、ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ、オランダ、ｄｏｉ．ｏｒｇ／１０．１０２３／Ａ：１０１０９３３４０４３２４で利用可能

本発明は、例えば、２Ｄモバイル・デバイス・カメラを使用して撮影された、ユーザ画像から体重推定値を抽出するための方法及びシステムに関する。

より具体的には、多様な実施例では、本発明は、対象者の体重を推定又は予測するためのコンピュータに実装される方法であり、コンピュータに実装される方法がハードウェア・プロセッサによって実行可能であり、方法が、１つ又は複数の対象者パラメータを受信することと、対象者を含む１つ又は複数の画像を受信することと、１つ又は複数の注釈深層学習モジュール（annotation deep-learning modules）を利用して、１つ又は複数の画像から対象者の衣服下の１つ又は複数の身体構成要素の１つ又は複数の注釈重要点（annotation key points）を識別することと、１つ又は複数の注釈重要点に基づいて、対象者の１つ又は複数の幾何学的特徴を計算することと、対象者の１つ又は複数の幾何学的特徴及び１つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、対象者の体重の予測値を生成することと、を含む。

ある実施例では、１つ又は複数の幾何学的特徴は、身体構成要素の外周、身体構成要素の長さ、身体画像面積、身体構成要素の画像面積、身体体積、及び身体構成要素の体積から成る群、から選択される。ある実施例では、身体構成要素の外周は、少なくとも１つの身体構成要素の複数の身体構成要素の外周を含む。

ある実施例では、対象者の体重の予測値を生成することは、重量機械学習モジュールへの入力として、１つ又は複数の幾何学的特徴及び１つ又は複数の対象者パラメータを含む特徴ベクトルを生成することを、さらに含む。

ある実施例では、重量機械学習モジュールは、線形リグレッサ、非線形リグレッサ、及びランダム・フォレスト・アルゴリズムのうちの１つ又は複数を含み、重量機械学習モジュールは、１人又は複数のサンプル対象者の１つ又は複数のサンプル体重及び１つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データ（正確さや整合性をチェックするためのデータ：ground truth data）でトレーニングされる。

ある実施例では、対象者パラメータのうちの１つ又は複数は、１つ又は複数の画像で、画素（pixel）座標から現実世界（real-world）座標にスケーリングするために、規格化データとして使用される。

ある実施例では、対象者の身長が、規格化データとして使用される。ある実施例では、画像内の既知のサイズの基準物体が規格化データとして使用される。

ある実施例では、１つ又は複数の画像は、少なくとも２つの画像を含み、少なくとも２つの画像は、少なくとも２つの斜視視野内の対象者を含む。

ある実施例では、少なくとも２つの画像は、少なくとも対象者の正面視野画像及び側面視野画像を含み、１つ又は複数の注釈重要点に基づいて１つ又は複数の幾何学的特徴を生成することは、（ａ）注釈をつけられた正面視野及び側面視野画像並びに対象者の身長を利用して、少なくとも１つの注釈をつけられた身体構成要素の少なくとも１つの外周を計算するステップと、（ｂ）注釈をつけられた正面視野及び側面視野画像並びに対象者の身長を利用して、少なくとも１つの注釈をつけられた身体構成要素の少なくとも１つの身体構成要素の画像面積を計算するステップと、（ｃ）注釈をつけられた正面視野及び側面視野画像並びに対象者の身長を利用して、少なくとも１つの注釈をつけられた身体構成要素の少なくとも１つの身体構成要素の体積を計算するステップと、から成る群から選択される１つのステップを含む。

ある実施例では、方法は、１つ又は複数の画像を受信した後、背景から対象者に関連付けられた１つ又は複数の身体構成要素を識別するために、画像上で身体セグメント化を遂行することをさらに含み、身体セグメント化は、セグメント化トレーニング・データでトレーニングされてきたセグメント化深層学習モジュールを利用し、セグメント化トレーニング・データは、１人又は複数のサンプル対象者用の１つ又は複数の画像と、１人又は複数のサンプル対象者用の身体構成要素毎の身体構成要素セグメンテーションと、を含む。

ある実施例では、注釈深層学習モジュールは、１人又は複数のサンプル対象者用の１つ又は複数の画像と、１人又は複数のサンプル対象者用の身体構成要素毎の１つ又は複数の注釈重要点と、を含むトレーニング・データを利用する。

ある実施例では、１つ又は複数の対象者パラメータは、身長、受信された対象者体重推定値、性別、年齢、人種、及び対象者に関連付けられた人口統計情報から成る群から選択される。

ある実施例では、対象者の体重の予測値は第１の推定値であり、方法は、第２の機械学習モジュールを使用して、対象者の体重の第２の推定値を生成することと、第１の推定値の第１の信頼性スコアと第２の推定値の第２の信頼性スコアとを比較することと、第１及び第２の信頼性スコアに基づいて、対象者の体重として第１の推定値又は第２の推定値のいずれかを選択することと、をさらに含む。

ある実施例では、方法は、対象者の体重の予測値が所定の値を下回る信頼性レベルに相当するか否かを決定することと、対象者の体重の予測値が所定の値を下回る信頼性レベルに相当すると決定したことに応答して、対象者の体重の予測値を受信された対象者の体重推定値と比較することと、受信された対象者体重推定値が重量機械学習モジュールを導くために使用される、対象者の体重の予測値を更新することと、対象者の体重の予測値を対象者の体重の更新された予測値で置換することと、をさらに含む。

ある実施例では、対象者パラメータは、モバイル・コンピュータ・デバイスから受信され、対象者画像は、モバイル・コンピュータ・デバイスのカメラから受信される。ある実施例では、モバイル・コンピュータ・デバイスから１つ又は複数の対象者パラメータ受信することは、モバイル・コンピュータ・デバイスによって遂行された測定値を受信することを含む。ある実施例では、モバイル・コンピュータ・デバイスの深さセンサからの深さデータが、１つ又は複数の画像内で画素座標から現実世界座標にスケーリングするために、規格化データとして使用される。

ある実施例では、方法は、注釈重要点を識別する前に、対象者及び背景の１つ又は複数の画像を前処理することをさらに含み、前処理することは、１つ又は複数の画像上での少なくともパースペクティブ補正を含み、パースペクティブ補正は、対象者の頭部を利用するパースペクティブ補正、モバイル・コンピュータ・デバイスのジャイロスコープを利用するパースペクティブ補正、及びモバイル・コンピュータ・デバイスの別のセンサを利用するパースペクティブ補正から成る群から選択される。

多様な実施例では、コンピュータ・プログラム製品開示される。コンピュータ・プログラムは、対象者の体重測定値を予測することのために使用され得て、その内部に包含されたプログラム命令又はプログラム・コードを有するコンピュータ可読記憶媒体を含み得て、プログラム命令は、プロセッサによって実行可能であり、プロセッサに本明細書で記載されたステップを遂行させる。

多様な実施例では、コンピュータ実行可能構成要素を記憶するメモリと、メモリに動作可能に結合され、メモリ内に記憶されたコンピュータ実行可能構成要素を実行する、ハードウェア・プロセッサとを含み、コンピュータ実行可能構成要素が、上述のステップを実行するプロセッサと通信可能に結合された構成要素を含み得る、体重測定値を予測するシステムが説明されている。

別の実施例では、本発明は、プロセッサによって実行されるとき、プロセッサに体重測定値を予測させるための処理を実行させる、実行可能な命令を、記憶する非一時的なコンピュータ可読記憶媒体であり、命令は、プロセッサに上述のステップを遂行させる。

別の実施例では、本発明は、２Ｄカメラを使用する体重測定値予測システムであり、システムは、２Ｄカメラ、プロセッサ、ディスプレイ、及び第１のメモリを有するユーザ・デバイスと、第２のメモリ及びデータ・リポジトリを備えるサーバと、当該デバイスと当該サーバとの間の電気通信リンクと、当該ユーザ・デバイス及び当該サーバの当該第１及び第２のメモリに含有される複数のコンピュータ・コードと、を含み、当該複数のコンピュータ・コードは、実行されたとき、当該サーバ及び当該ユーザ・デバイスに、上述のステップを含む処理を実行させる。

さらに別の実施例では、本発明は、体重測定値を予測するコンピュータ化されたサーバであり、少なくとも１つのプロセッサ、メモリ、及び当該メモリに含有された複数のコンピュータ・コードを含み、当該複数のコンピュータ・コードは、実行されたとき、当該プロセッサに、上述のステップを含む処理を実行させる。

本発明の他の態様及び実施例は、本明細書で示されるステップを含む方法、処理、及びアルゴリズムを含み、本明細書で示されるシステム及びサーバの動作の処理及びモードをさらに含む。

本発明のやはり他の態様及び実施例は、添付図面と併せて読まれるとき、本発明の詳細な説明により明白になるであろう。

本明細書で示される本発明の実施例は、例示するものであり、限定するものではない。実施例は、ここで、例として、添付図面を参照して説明されることになる。

本発明のある実施例による、深層学習ネットワーク（ＤＬＮ：deep learning network）及び機械学習を利用する体重決定処理の例示的な図である。本発明の別の実施例による、深層学習ネットワーク（ＤＬＮ）及び機械学習を使用する体重決定処理の一例のフロー図である。本発明の別の実施例による、深層学習ネットワーク（ＤＬＮ）及び機械学習を使用する体重決定の詳細なフロー図である。本発明のある実施例による、深層学習ネットワーク（ＤＬＮ）を使用した身体構成要素セグメント化及び注釈の詳細なフロー図である。本発明の別の実施例による、重要点注釈及び１つ又は複数の対象者パラメータに基づいて計算された、幾何学的特徴から取得された１つ又は複数の特徴ベクトルから体重を決定する機械学習アルゴリズムの例示的な図である。本発明のある実施例による、体重測定を実施する例示的なクライアント・サーバ図である。本発明のある実施例による、個別セグメント化ＤＬＮ、注釈ＤＬＮ、及び重量機械学習モジュールを示す、体重決定のための一例のフロー図である。本発明のある実施例を実施するための、サーバ及び／又はユーザ・デバイスの例示的なハードウェア・アーキテクチャの図である。クライアント・サーバ環境における本発明のある実施例を実施する例示的なシステム・アーキテクチャの図である。本発明のある実施例による、単一のカメラを備えるモバイル・デバイスが、人の体重を測定するために使用される、本発明の使用事例を示す例示的な図であり、対象者の写真をキャプチャするユーザへの命令を伴うグラフィカル・ユーザ・インターフェース（ＧＵＩ：graphical user interface）を示している。本発明のある実施例による、１つ又は複数の対象者パラメータを受信するためのモバイル・デバイスＧＵＩの例示的な図である。本発明のある実施例による、対象者が立つべき場所を指示するテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスＧＵＩの例示的な図である。本発明のある実施例による、対象者の画像上に拡張現実で重畳された、対象者が立つべき場所を指示するテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスＧＵＩの別の例示的な図である。本発明のある実施例による、側面視野写真をキャプチャするモバイル・デバイスＧＵＩの例示的な図である。本発明のある実施例による、システムが体重を予測するためにキャプチャされた写真を処理する間に表示される、モバイル・デバイスＧＵＩの例示的な図である。本発明のある実施例による、体重予測が首尾よく完了された場合に通知画面を示すモバイル・デバイスＧＵＩの例示的な図である。本発明のある実施例による、体重予測が首尾よく完了された場合に、通知画面を伴うモバイル・デバイスＧＵＩを示す、ユーザ写真から体重を予測するために使用されるモバイル・デバイスの例示的な図である。

ここで、提供された図面を参照しながら、本発明の実施例が詳細に説明される。

以下の説明では、説明を目的として、多数の具体的な詳細が、本発明の完全な理解を提供するために、表明される。しかしながら、当業者には、本発明がこれらの具体的な詳細なしに実施され得ることは明白であろう。他の事例では、構造、デバイス、行動、及び方法が、本発明を不明瞭化させないために、概略、使用事例、及び／又はフロー図を使用して示される。以下の説明が、説明するする目的で、多くの特定のものを含むが、当業者には、示唆された詳細への多くの変形例及び／又は変更が、本発明の範囲内にあることを理解されよう。同様に、本発明の特徴のうちの多くが、相互の観点から、又は相互に連結して、説明されるが、当業者には、これらの特徴のうちの多くが、他の特徴とは無関係に提供され得ることが理解されよう。したがって、本発明の本明細書は、本発明の普遍性に対するいかなる損失、及び本発明への制限を伴わずに、表明される。

ある実施例では、システムは、入力された対象者の写真、規格化データ、及び１つ又は複数の対象者パラメータを使用して、体重予測値を自動的に計算し得る（例えば、１つ又は複数のＡＩに基づくアルゴリズムを使用して）。本発明の実施例は、専用ハードウェアカメラ、専用体重計を必要とせず、いかなる専用ハードウェアも何であれ必要としない。むしろ、その代わりに、機械学習アルゴリズムと組み合わされた深層学習手法を利用する先進的なコンピュータ視覚技術が使用され、たとえ対象者が何を着用していても、単純なモバイル・デバイス・カメラから提供される写真から、正確な体重を予測する。本開示では、用語「２Ｄフォン・カメラ」が、スマート・フォン、タブレット、ラップトップ・コンピュータ、デスクトップ・コンピュータなどのような、コンピュータ・デバイスに組み込まれた又は接続された任意の従来のカメラを示すために使用される。

重量予測のための深層学習ネットワーク及び機械学習
図１は、本発明のある実施例による、深層学習ネットワーク（ＤＬＮ）及び機械学習を利用する体重予測処理の例示的な図１００を示している。ステップ１１０では、通常の２Ｄカメラを備えたモバイル・デバイスが対象者の１つ又は複数の画像（例えば、正面１１２及び側面１１３視野画像）を取得するために、同様に１つ又は複数の対象者パラメータを受信するために利用される。対象者パラメータは、規格化データ（例えば、人の身長）又は他の対象者パラメータを含み得て、後続のステップ１３１及び１７０で説明される。ステップ１２０では、人に関連付けられた１つ又は複数の身体構成要素（特徴）が、背景から識別され、１つ又は複数の深層学習ネットワーク（１２１、１２２）が、対象者が画像１１２及び１１３で着用していたかもしれない衣服の下の、１つ又は複数の身体構成要素（特徴）に注釈をつけるために利用される。ある実施例では、背景からの人の識別は、人の身体特徴（例えば、身体構成要素）を背景から識別することに関してトレーニングされてきた、１つ又は複数のセグメント化深層学習ネットワークを利用して遂行される。さらに、ある実施例では、注釈重要点が、各身体特徴に関してトレーニングされてきた、１つ又は複数の注釈深層学習ネットワークを利用して、身体構成要素毎に生成される。このことは、図１の注釈をつけられた正面視野１２３及び側面視野１２４画像に示されている。ある実施例では注釈ラインが、さらに生成され、身体構成要素の重要点を接続し、ライン注釈をつけられた正面及び側面視野画像をもたらす。ステップ１３０では、セグメント化され注釈をつけられた身体構成要素が、１つ又は複数の幾何学的特徴（例えば、身体構成要素の面積）の推定値を計算するために、受信された規格化データ（例えば、対象者身長）１３１と組み合わされ、ここで規格化データが、測定値（例えば、重要注釈点間の距離）を、画素座標から現実世界座標に変換することを可能にする。身体測定値１９０を推定するために、対象者身長１３１などの規格化データを用いて、セグメント化され注釈をつけられた身体構成要素１３０を生成し使用することは、その両方が参照により本明細書により組み込まれている、２０１８年４月２０日に出願された「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＦＵＬＬＢＯＤＹＭＥＡＳＵＲＥＭＥＮＴＳＥＸＴＲＡＣＴＩＯＮＵＳＩＮＧＡ２ＤＰＨＯＮＥＣＡＭＥＲＡ」と題された米国整理番号第６２／６６０，３７７号、そこからの優先権の利益をそれ自体が主張する、２０１８年１１月１９日に出願された、米国整理番号第１６／１９５，８０２号であり、２０１９年６月１８日に米国特許第１０，３２１，７２８号として発行された、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＦＵＬＬＢＯＤＹＭＥＡＳＵＲＥＭＥＮＴＳＥＸＴＲＡＣＴＩＯＮ」と題された関連する出願で説明されている。

図１は、３つの可能性がある実施例の選択肢をステップ１４０、１５０、及び１６０で示している。第１の選択肢１４０では、幾何学的特徴は、身体構成要素の外周である。この選択肢によって、１つ又は複数の身体構成要素１４１の外周が、注釈をつけられた身体構成要素（特徴）から生成される。ある実施例では、１つ又は複数の身体構成要素の外周は、少なくとも正面１２３及び側面１２４の注釈をつけられた画像を使用して生成される。いくつかの実施例では、１つ又は複数の身体構成要素の外周は、単一の身体構成要素の外周の特徴ベクトル１４１に合成される。ステップ１４２では、対象者の体重は、重量機械学習モジュールを利用して、１つ又は複数の身体構成要素の外周１４１及び１つ又は複数の対象者パラメータ１７０（例えば、対象者の身長、年齢、性別、及び／又は人種）から推定又は予測される。いくつかの実施例では、１つ又は複数の身体構成要素の外周１４１及び１つ又は複数の対象者パラメータ１７０を含む重量機械学習モジュールの入力は、単一の特徴ベクトルに統合される（図１で図示せず）。重量機械学習モジュール１４２は、いくつかの実施例では、１つ又は複数のランダム・フォレスト・リグレッサを含み得る。他の機械学習方法がやはり、以下により詳細に説明するように、重量機械学習モジュールの範囲内にある。最後に、ステップ１８０では、対象者の予測された体重（例えば、重量推定値）が出力される。予測された体重は、モバイル・コンピュータ・デバイス上でユーザに出力され、又はモバイル・コンピュータ・デバイスによって若しくは別のサーバ処理によって、他の下流側の目的に使用され得る。

第２の選択肢１５０によれば、幾何学的特徴は、身体構成要素の画像面積であり、１つ又は複数の身体構成要素の面積が、注釈をつけられた身体構成要素（特徴）１５１から生成される。ある実施例では、１つ又は複数の身体構成要素の面積は、少なくとも正面１２３及び側面１２４の注釈重要点を使用して生成される。いくつかの実施例では、１つ又は複数の身体構成要素の画像面積は、単一の身体構成要素の面積特徴ベクトルに合成される（図１に図示せず）。いくつかの実施例では、身体面積特徴ベクトルは、異なる身体ポーズからの全身面積を含む（例えば、注釈をつけられた正面１２３及び側面１２４画像に基づいた正面全身面積及び側面全身面積）。別の実施例では、身体面積特徴ベクトルは、１つ又は複数の注釈をつけられた画像に基づいた１つ又は複数の身体構成要素の面積を含む（例えば、注釈をつけられた正面１２３及び側面１２４画像に基づいた１つ又は複数の身体構成要素の画像面積）。ステップ１５２では、対象者の体重は、重量機械学習モジュールを利用して、１つ又は複数の身体構成要素の面積１５１及び１つ又は複数の対象者パラメータ１７０（例えば、対象者の身長、年齢、性別、及び／又は人種）から推定される。いくつかの実施例では、１つ又は複数の身体構成要素の面積１５１及び１つ又は複数の対象者パラメータ１７０を含む重量機械学習モジュールの入力は、単一の特徴ベクトルに統合される（図１で図示せず）。重量機械学習モジュール１５２は、１つ又は複数のランダム・フォレスト・リグレッサを含み得る。最後に、ステップ１８０では、予測された対象者の体重が出力される。

第３の選択肢１６０によれば、幾何学的特徴は、身体構成要素の体積であり、１つ又は複数の身体構成要素の体積が、注釈をつけられた身体構成要素１６１から生成される。ある実施例では、１つ又は複数の身体構成要素の体積は、少なくとも正面１２３及び側面１２４の注釈重要点を使用して生成される。いくつかの実施例では、１つ又は複数の身体構成要素の体積は、単一の身体体積特徴ベクトルに合成される（図１に図示せず）。いくつかの実施例では、身体体積特徴ベクトルは、異なる身体ポーズに基づいた全身体積の推定値を含む（例えば、注釈をつけられた正面１２３及び側面１２４画像）。別の実施例では、身体体積特徴ベクトルは、１つ又は複数の注釈をつけられた画像に基づいた１つ又は複数の身体構成要素の体積を含む（例えば、注釈をつけられた正面１２３及び側面１２４画像）。ステップ１６２では、対象者の体重は、重量機械学習モジュールを利用して、１つ又は複数の身体構成要素の体積１６１及び１つ又は複数の対象者パラメータ１７０（例えば、対象者の身長、年齢、性別、及び／又は人種）から推定される。いくつかの実施例では、１つ又は複数の身体構成要素の体積１６１及び１つ又は複数の対象者パラメータ１７０を含む重量機械学習モジュールの入力は、単一の特徴ベクトルに統合される（図１で図示せず）。重量機械学習モジュール１６２は、１つ又は複数のランダム・フォレスト・リグレッサを含み得る。最後に、ステップ１８０では、予測された対象者の体重が出力される。

注釈をつけられた対象者画像からの幾何学的特徴の計算
第１の選択肢１４０のいくつかの実施例では、注釈重要点（例えば、注釈をつけられた正面視野１２３及び側面視野１２４の身体構成要素）は、センチメートル（ｃｍ）、インチ（ｉｎ）などのような現実世界座標での身体構成要素（身体特徴）毎の外周を計算するために使用される。例えば、頸部特徴の正面視野及び側面視野注釈重要点間の距離は、センチメートルでの頸部外周を計算するために使用され得る。計算された外周は、外周特徴ベクトル１４１を生成するために利用される。ある実施例では、臀部及び頸部外周は、外周特徴ベクトルに使用される。別の実施例では、脚部及び腕部外周は、外周特徴ベクトルを生成するために、臀部及び／又は頸部外周と任意に組み合わせて使用される。さらに別の実施例では、他の身体構成要素の外周が、外周特徴ベクトルを生成するために、当業者によって認識され得るような、多様な部分的組合せで使用され得る。いくつかの実施例では、身体構成要素の外周は、少なくとも１つの身体構成要素の複数の身体構成要素の外周を含み得る。例えば、身体構成要素（腕部、大腿部、及び脚部など）の長さに沿って採寸された２つより又はそれより多い外周が、利用され得る。やはり他の実施例では、腕部、脚部、又は胴部長さなどの、身体構成要素の長さが、対象者特徴ベクトルを生成するために、身体構成要素の外周と共に、利用され得る。

同様に、第２の選択肢１５０のいくつかの実施例では、注釈重要点（例えば、注釈をつけられた正面視野１２３及び側面視野１２４の身体構成要素）は、平方センチメートル（ｃｍ^２）、平方インチ（ｉｎ^２）などのような現実世界座標での身体構成要素（身体特徴）毎の画像面積を計算するために使用される。例えば、多様な身体構成要素（頸部、腰部、手首部、大腿部、足部など）の正面視野注釈重要点１２３間の距離は、ｃｍ^２での正面視野身体画像面積を計算するために使用され得る。別の実施例では、多様な身体構成要素（頸部、腰部、手首部、大腿部、足部など）の正面視野注釈重要点１２３は、ｃｍ^２での身体構成要素毎の画像面積を計算するために使用され得る。計算された画像面積は、画像面積特徴ベクトル１５１を生成するために利用される。ある実施例では、正面視野及び側面視野全身画像面積が、画像面積特徴ベクトルに使用される。別の実施例では、正面視野の胴部、脚部、及び腕部の身体構成要素の画像面積が、画像面積特徴ベクトルを生成するために、正面視野及び／又は側面視野全身画像面積と任意に組み合わせて、使用される。さらに別の実施例では、他の身体構成要素の画像面積が、画像面積特徴ベクトルを生成するために、当業者によって認識され得るような、多様な部分的組合せで使用され得る。

さらに、第３の選択肢１６０のいくつかの実施例では、注釈重要点（例えば、注釈をつけられた正面視野１２３及び側面視野１２４の身体構成要素）は、立法センチメートル（ｃｍ^３）、立法インチ（ｉｎ^３）などのような現実世界座標での身体構成要素（身体特徴）毎の体積を計算又は推定するために使用される。例えば、多様な身体構成要素（頸部、腰部、手首部、大腿部、足部など）の正面視野１２３及び側面視野１２４の注釈重要点間の距離は、ｃｍ^３での身体体積を計算するために使用され得る。別の実施例では、多様な身体構成要素（頸部、腰部、手首部、大腿部、足部など）の正面視野１２３及び側面視野１２４の注釈重要点は、ｃｍ^３での身体構成要素毎の体積を計算するために使用され得る。計算された体積は、身体体積特徴ベクトル１６１を生成するために利用される。ある実施例では、全身体積が、体積特徴ベクトルに使用される。別の実施例では、胴部、脚部、及び腕部の身体構成要素の体積が、体積特徴ベクトルを生成するために、全身体積と任意に組み合わせて、使用される。さらに別の実施例では、他の身体構成要素の体積が、体積特徴ベクトルを生成するために、当業者によって認識され得るような、多様な部分的組合せで使用され得る。

図２は、本発明の別の実施例による、深層学習ネットワーク（ＤＬＮ）及び機械学習を使用する体重予測の処理の一例のフロー図２００を示している。ステップ２０１では、処理は、１つ又は複数の画像をコンピュータ・デバイスから受信することを含み、画像は、対象者及び背景を含む。ステップ２０２では、処理は、規格化データ（例えば、対象者身長）を受信することを含む。上述したように、規格化データは、画像内の既知のサイズの基準対象物、深さセンサからの深さデータ、及びその他をさらに含み得る。任意選択で、ステップ２０３では、処理は、１つ又は複数の対象者パラメータ（例えば、年齢、性別、人種など）をコンピュータ・デバイスから受信することを含む。任意選択で、ステップ２０４では、処理は、例えば、身体構成要素を背景からセグメント化するために利用される、セグメント化深層学習ネットワークを利用することによって、人に関連付けられた１つ又は複数の身体特徴（例えば、身体構成要素）を識別することを含む。図２では、任意選択のステップ２０３及び２０４は、破線の四角によって示されている。ステップ２０５では、処理が、重要身体特徴位置に対応する注釈点を有する１つ又は複数の身体特徴に、各身体特徴に関してトレーニングされてきた、１つ又は複数の注釈深層学習ネットワークを利用して、注釈をつけることを含む。任意選択のステップ２０４が不在の場合、ステップ２０５は、最初の、身体構成要素を背景から分離することなしに、注釈ステップの一部として、１つ又は複数の身体特徴（例えば、身体構成要素）の識別を自動的に遂行する。ステップ２０５から注釈をつけられた身体構成要素は次に、１つ又は複数の幾何学的特徴（例えば、身体構成要素の外周、面積、又は体積）を計算する又は推定するために、ステップ２０２から受信された規格化データと組み合わされる。図２は、３つの可能性がある実施例の選択肢を選択肢２１０（身体構成要素の外周）、２２０（身体構成要素の面積）、及び２３０（身体構成要素の体積）で示している。これらの選択肢は、図１で示されている選択肢１４０、１５０、及び１６０に類似している。

第１の選択肢２１０では、幾何学的特徴は、身体構成要素の外周である。この選択肢によれば、ステップ２１１では、処理は、注釈をつけられた身体構成要素及び規格化データから、１つ又は複数の身体構成要素の外周を、生成すること又は推定することを含む（画素座標から現実世界座標に変換するために）。いくつかの実施例では、ステップ２１１は、注釈をつけられた身体構成要素及び対象者の身長を使用して、身体構成要素の外周を推定することを含む。いくつかの実施例では、身体構成要素の外周は、１つの外周特徴ベクトル１４１に合成される。ステップ２１２では、１つ又は複数の身体構成要素の外周及び１つ又は複数の対象者パラメータを含む重量機械学習モジュールの入力は、単一の対象者特徴ベクトルに統合される。やはり他の実施例では、腕部、脚部、又は胴部長さなどの、身体構成要素の長さが、対象者特徴ベクトルを生成するために、身体構成要素の外周と共に、利用され得る。ステップ２１３では、処理は、身体構成要素の外周／長さのグラウンド・トゥルース・データ（例えば、年齢、性別、人種などの所与の対象者パラメータに関して身体構成要素の外周／長さと、体重との間の相関を示すデータ）に関してトレーニングされてきた、対象者特徴ベクトルに基づいた重量機械学習モジュールを利用して、対象者の体重を推定する又は予測することを含む。最後に、ステップ２４０では、処理は、予測された対象者の体重を下流での使用のために出力する。

第２の選択肢２２０では、１つ又は複数の幾何学的特徴が、身体画像面積又は身体構成要素画像面積である。この選択肢によれば、ステップ２２１では、処理は、注釈をつけられた身体構成要素及び規格化データから、１つ又は複数の身体構成要素の画像面積を、生成すること又は推定することを含む。いくつかの実施例では、ステップ２２１は、注釈をつけられた身体構成要素及び人の身長を使用して、全身画像面積又は１つ又は複数の身体構成要素の画像面積を推定することを含む。いくつかの実施例では、身体構成要素の画像面積は、図１という状況で上述されたように、単一の身体画像面積ベクトルに合成される。ステップ２２２では、１つ又は複数の身体構成要素の画像面積及び１つ又は複数の対象者パラメータを含む重量機械学習モジュールの入力は、単一の対象者特徴ベクトルに統合される。ステップ２２３では、処理は、身体面積のグラウンド・トゥルース・データ（例えば、年齢、性別、人種などの所与の対象者パラメータに関して身体（構成要素）の面積と、体重との間の相関を示すデータ）に関してトレーニングされてきた、対象者特徴ベクトルに基づいた重量機械学習モジュールを利用して、対象者の体重を推定することを含む。最後に、ステップ２４０では、処理は、予測された対象者の体重を出力する。

第３の選択肢２３０では、１つ又は複数の幾何学的特徴が、身体体積又は１つ又は複数の身体構成要素の体積である。この選択肢によれば、ステップ２３１では、処理は、注釈をつけられた身体構成要素及び規格化データから、１つ又は複数の身体構成要素の体積を、生成すること又は推定することを含む。いくつかの実施例では、ステップ２３１は、注釈をつけられた身体構成要素及び人の身長を使用して、全身体積又は１つ又は複数の身体構成要素の体積を推定することを含む。いくつかの実施例では、身体構成要素の体積は、図１という状況で上述されたように、単一の身体体積特徴ベクトルに合成される。ステップ２３２では、１つ又は複数の身体構成要素の体積及び１つ又は複数の対象者パラメータを含む重量機械学習モジュールの入力は、単一の対象者特徴ベクトルに統合される。ステップ２３３では、処理は、身体体積のグラウンド・トゥルース・データ（例えば、年齢、性別、人種などの所与の対象者パラメータに関して身体（構成要素）の体積と、体重との間の相関を示すデータ）に関してトレーニングされてきた、対象者特徴ベクトルに基づいた重量機械学習モジュールを利用して、対象者の体重を推定することを含む。最後に、ステップ２４０では、処理は、予測された対象者の体重を出力する。

注釈重要点３５０から計算された幾何学的特徴は、身体構成要素の外周、身体構成要素の画像面積、身体構成要素の体積に限定されず、受信された２Ｄ画像の分析を通して測定可能な任意の幾何学的量を含み得ることが理解されよう。例えば、ある追加の選択肢では（図１～３には図示せず）、幾何学的特徴は、受信された写真から生成された注釈重要点から現実世界座標で測定された身体構成要素の長さを含み得る。これらの身体構成要素の長さはその後、対象者の幾何学的特徴を含む、対象者特徴ベクトル内に含まれ得る。

幾何学的特徴が、別々に又は任意の組合せで使用され得ることが理解されよう。例えば、身体構成要素の外周及び身体構成要素の長さの両方が、対象者特徴ベクトルを生成するために、共に使用され得る。別の実例では、身体構成要素の外周、身体構成要素の長さ、及び身体構成要素の画像面積が全て、対象者特徴ベクトルを生成するために、共に使用され得る。さらに別の実例では、身体構成要素の体積が、他の幾何学的特徴のうちの一部又は全てと別々に或いは組合せで使用され得る。

対象者画像／写真
ステップ２０１では、１つ又は複数の対象者画像又は写真が、モバイル・コンピュータ・デバイス、ラップトップ・コンピュータ、タブレット、スタンドアローンのカメラなどのようなユーザ・デバイスから受信され得る。例えば、少なくとも対象者の正面及び／又は側面視野写真が受信され得る。ある実施例では、写真は、デバイス（例えば、携帯電話、ラップトップ・コンピュータ、タブレットなど）から取得され得る。別の実施例では、写真は、データベース（例えば、ソーシャル・メディア・データベース）から取得され得る。別の実施例では、対象者写真は、対象者の全体の身体のうちの、正面視野を示す写真、及び側面視野を示す写真を含む。いくつかの実施例では、正面視野などのわずかに１枚の写真が利用され、１枚の写真は、正確な体重予測を遂行するために十分である。やはり他の実施例では、３枚以上の写真が利用され、いくつかの実施例では、正面視野写真、側面視野写真、及び約４５度の角度で撮影された写真が含まれる。対象者写真の他の組合せが、当業者によって認識され得るように、本発明の範囲内にある。いくつかの実施例では、例えば対象者の正面視野、９０度、１８０度、又はさらに３６０度視野を含む、対象者映像が、受信され得る。対象者映像から、対象者の正面視野、側面視野、及び／又は４５度視野などの１つ又は複数の静止画フレーム又は写真が、映像から抽出され、以降に続く処理で使用される。

ある実施例では、画像は、指定された距離（例えば、コンピュータ・デバイスのカメラから約３０４，８センチメートル（１０フィート）離れて）で撮影され得る。別の実施例では、所与の位置（例えば、正面及び側面視野写真）の複数の画像が、撮影され、平均的な画像が、位置毎に決定され得る。これは、精度を向上させるために遂行され得る。別の実施例では、対象者は、特定の種類の背景（例えば、中間色、又は所定の背景画像）に対して配置され得る。いくつかの実施例では、対象者は、任意の種類の背景に対して配置され得る。ある実施例では、正面及び側面視野写真が、同様のライティング条件（例えば、所与の明度、陰影など）の下で撮影され得る。

ある実施例では、画像は、特定のポーズ（所定の位置の腕部、肩部幅に広げた脚部、背部は一直線など）の対象者で撮影され得る。ある実施例では、入力画像が、手を４５度にしたポーズ（「Ａポーズ」）の対象者を示す。「Ａポーズ」などの特定のユーザのポーズが、いくつかの実施例で使用され得るが、「Ａポーズ」、手を脇につける、又は任意の他のポーズを含む、任意のポーズが本発明の範囲内にあることが当業者には理解されよう。最適なポーズは、身体から離された脚部及び腕部を明確に示すだろう。本発明のある利点は、対象者がほぼ任意の正当なポーズで、任意の種類の背景に対して、立つことができることである。対象者は、ブランクの背景に対して立つ必要がなく、又は写真を撮影する場所に特別な配置を施す必要がない。

ある実施例では、対象者は、より正確な結果のために、対象者が窮屈な、通常の、又は緩い衣服を着用しているかを知らせ得る。ある実施例では、正面及び側面視野写真は、普通に適合された衣服を着用している対象者の画像を含み得る（例えば、緩すぎない又は窮屈すぎない）。別法として、又は追加として、正面及び側面視野写真は、実施例により、部分的に着用している（例えば、シャツなし）、又は異なる種類の適合具合（例えば、窮屈、緩いなど）の、対象者の画像を含み得る。

図３は、本発明の別の実施例による、深層学習ネットワーク（ＤＬＮ）及び機械学習を使用する体重予測の詳細なフロー図３００を示している。体重予測処理への入力は、正面写真３１０、側面写真３２０、対象者身長３３０、及び他の対象者パラメータ（例えば、対象者体重推定値、年齢、性別、人種など）３４０を含む。正面写真３１０は、ステップ３１１で前処理され、一方、側面写真３２０は、ステップ３２１で前処理される。パースペクティブ補正、人クロッピング、画像サイズ変更などの、前処理ステップの実例は、以下で説明する。ステップ３１２では、前処理された正面写真が、正面写真３１０のための注釈重要点を抽出するために、ＤＬＮ１（図４に関連してより詳細に説明される）への入力として使用される。ステップ３２２では、前処理された側面写真が、側面写真３２０のための注釈重要点を類似的に抽出するために、ＤＬＮ２への入力として使用される。正面視野３１３からの身体構成要素毎の注釈重要点が、ＤＬＮ１から出力され、側面視野３２３からの身体構成要素毎の注釈重要点が、ＤＬＮ２から出力される。ステップ３５０では、正面写真３１０及び側面写真３２０からの注釈重要点の２つの集合が、図１及び２に関連して説明された幾何学的特徴（例えば、身体構成要素の外周、面積、及び／又は体積）を計算するために、規格化データ（例えば、身長）３３１と共に利用される。ステップ３６０では、身長及び他の対象者パラメータ３４１と共に、幾何学的特徴が、１つ又は複数の対象者体重推定値を予測するために、ランダム・フォレスト（図５に関連してより詳細に説明される）などの、機械学習アルゴリズムで利用される。最後に、ステップ３７０では、予測された体重が出力される。

対象者パラメータ
いくつかの実施例では、対象者パラメータのうちの１つ又は複数が、重量機械学習モジュールへの入力として利用される。例えば、身長、年齢、性別、人種、運動競技熱、及び他の対象者パラメータが、当業者によって認識され得るような、重量機械学習モジュールへの入力として使用され得る。具体的には、ある実施例によれば、対象者独特の最良の、彼ら自身の体重の「当て推量」がさらに、重量機械学習モジュールへの入力としての対象者パラメータとして使用され得る。ある例示的な実例として、対象者の性別が、重量機械学習モジュールへの入力としての１つの対象者パラメータとして使用され得る。例えば、女性は身体により多い脂肪分布を有し得て、したがって男性とは異なる密度を有し得て、故に対象者の性別が、重量機械学習モジュールへの入力の１つの有用なパラメータであり得る。当業者によって認識され得るような、重量機械学習モジュールへの入力として、同様に本発明の範囲内にあり得る、他の多くの対象者パラメータが存在する。重量機械学習モジュールは、ユーザ・パラメータと体重との間の相関において重要であるため、事前に認識されていないユーザ・パラメータを発見し得る。

対象者パラメータ（例えば、身長、体重、人口統計データ、運動競技熱など）は、ユーザから受け取られ得て、且つ／又はパラメータは、モバイル・コンピュータ・デバイスのカメラによって自動生成され得る。多様な態様では、対象者パラメータは、自動的に（例えば、コンピュータ視覚アルゴリズムを使用して又は１つ又は複数のデータベースから検索される）決定され得る、又はユーザから（例えば、ユーザ入力）受け取られる。

多様な実施例では、ステップ２０１（入力画像を受信する）、２０２（規格化データを受信する）、及び２０３（対象者パラメータを受信する）は、本発明の多様な実施例で任意の順序で遂行され得る、又はステップは、並行して実施され得る。いくつかの実施例では、規格化データは、対象者パラメータ（例えば、対象者の身長）のうちの１つであり、したがってステップ２０２及び２０３は、効果的に組み合わされる。

別の実施例では、受信された対象者体重推定値が、受信され、身長と併せて使用され得る。両方の対象者パラメータが、自動的に（例えば、コンピュータ視覚アルゴリズムを使用して又は１つ又は複数のデータベースから検索される）決定され若しくは推定され得る、又はユーザから（例えば、ユーザ入力）受け取られる。ある実施例では、これらの対象者パラメータから、肥満度指数（ＢＭＩ：body mass index）が計算され得る。ＢＭＩは、受信された対象者体重推定値及び身長の両方を使用して、体重予測の精度を向上させるために使用され得る。

したがって、対象者パラメータは、とりわけ、身長、受信された対象者体重推定値、性別、年齢、人種、出身国、運動競技熱、及び／又は他の対象者に関連付けられた人口統計情報のうちの１つ又は複数を含み得る。身長、受信された対象者体重、ＢＭＩ指標、年齢、性別などのような対象者パラメータは、体重予測の特徴ベクトルを生成するために使用され得る。多様な実施例では、対象者パラメータは、デバイスから、１つ又は複数のサード・パーティ・データ・ソースから、又はサーバから自動的に取得され得る。

規格化データ及び対象者身長
本発明の多様な実施例では、規格化データ（１３１、２０２）が、対象者身長３３０などの対象者パラメータのうちの１つを含み得る。規格化データは、規格化を遂行するために、画素座標から現実世界座標にスケーリングするために、取得され、生成され、且つ／又は測定される。

ある実施例では、対象者身長は、正面及び／又は側面視野写真を規格化する又はスケーリングするために、且つ写真内の対象者用の基準縮尺を提供するために、使用され得る。ある実施例では、対象者身長は、モバイル・コンピュータ・デバイスによって遂行される測定から受け取られる。ある実施例では、対象者身長は、従来の測定、従来のユーザ入力、及び／又はデータベース・クエリから知られる。ある実施例では、対象者身長は、関連する、参照により本明細書により組み込まれている２０２０年１月１３日に出願された「ＭＥＴＨＯＤＳＡＮＤＳＹＳＴＥＭＳＦＯＲＨＥＩＧＨＴＥＳＴＩＭＡＴＩＯＮＦＲＯＭＡ２ＤＩＭＡＧＥＵＳＩＮＧＡＵＧＭＥＮＴＥＤＲＥＡＬＩＴＹ」と題された米国整理番号第１６／７４１，６２０号に記載されているような、拡張現実（ＡＲ：augmented reality）内の位置案内を使用する身長測定処理を使用するモバイル・コンピュータ・デバイスによって測定され得る。

ある実施例では、システムは、画像データを画素座標から現実世界座標（例えばセンチメートル）に規格化するために、受信された対象者身長を入力として使用して、幾何学的特徴を決定し得る。これを行うために、ある実施例では、注釈ＤＬＮが、「全身」注釈ラインを、対象者の足部の底部を表す点及び対象者の頭部の上部を表す別の点を用いた、対象者の身長の位置を示す２つの注釈点によって描く。この「全身」注釈ラインは、ステップ１３１、２０２、又は３３０で提供される対象者の既知の身長によって、注釈重要点間の距離を規格化するために使用される。すなわち、画像内の対象者の身長は、検出され、全ての注釈重要点測定値を規格化するために、受け取られた実際の身長と共に使用される。この処理は、対象者の既知の身長を規格化の標準測定値として使用する、「身長基準規格化」として見なされ得る。規格化が遂行されると、身体構成要素の現実世界の距離（外周及び長さ）、面積、並びに体積が、入力画像内の画素距離（外周及び長さ）並びに身体構成要素の画素面積から、計算され、予測され、又は推測され得る。

さらに別の実施例では、規格化データは、深さセンサによって入力画像上にマッピングされた、現実世界座標であり得る。深さセンサデータは、したがって、対象者の既知の位置を画素座標から現実世界座標に変換するために使用され得る。深さセンサは、Ｚ座標データを提供し、Ｚ軸はカメラからの距離方向であり、対象者までの距離を画素座標から現実世界座標に規格化するために使用され得る。これが、身長基準規格化に類似的に遂行される。

さらに別の実施例では、規格化データが、縮尺基準として機能する、手紙又はＡ４用紙、クレジット・カードなどのような、既知のサイズの物体であり得る。対象者の画像をキャプチャする準備では、長方形基準物体、例えば８．５×１１の用紙又はクレジット・カードが、対象者上に又は近接して配置される。基準長方形のサイズ及びアスペクト比は、別の方法で決定され、明示的又は自動的に決定され得る。ある実施例では、ユーザは、Ａ４又は８．５ｘ１１用紙、３ｘ５ノート・カード、又はＩＳＯ／ＩＥＣ標準寸法クレジット・カードなどの、使用される基準長方形を識別し得る。このとき、長方形スコアリング・アルゴリズムが、明示的に識別された長方形を見つけ出し得る。つまり、画素座標から現実世界座標にスケーリングする規格化データは、ユーザからの基準長方形の寸法を受け取り得る。別の実施例では、処理は、共通文書サイズのデータ記憶と比較する場合、キャプチャされた画像の特性に基づいて、自動的に基準長方形のサイズを決定する。写真内に複数の長方形が見つかったとして、１つの長方形が選択されたとすると、長方形の寸法が、許容される寸法及びアスペクト比のリストから、推定される。別法として、基準長方形上の任意の文字又はロゴ、並びにサイズ及び丸みを帯びた角部が、クレジット・カードであることを示し得て、サイズが周知のクレジット・カードサイズから推定される。別の実施例では、ユーザは、クレジット・カード、ドル紙幣、又は標準的サイズ用紙などの基準長方形として使用され得る一般アイテムの。提供されたリストから選択することが求められ得る。

対象者画像の前処理
いくつかの実施例では、パースペクティブ補正などの、１つ又は複数の対象者の写真に対しての前処理が、対象者写真に対して必要に応じて遂行され得る。例えば、システムは、ＯｐｅｎＣＶ、オープン・ソースのマシン視覚ライブラリを使用し得て、パースペクティブ補正の基準として、正面及び側面視野写真内の頭部の特徴及び対象者の身長を、使用し得る。このようにして、本発明の実施例は、より正確に、注釈重要点を決定し得る。任意選択で、カメラが撮影される人に対してどこに位置するかを示すパースペクティブ側面写真が、システムにカメラと対象者との間の距離を計算させることによって、さらにより正確なパースペクティブ補正をもたらし得る。いくつかの実施例では、システムはその代わりに、デバイス（又はコンピュータ・デバイス付属などのデバイスに接続された周辺機器）によって提供されるジャイロスコープ・データを使用して、写真のパースペクティブ角度を検出し、この写真のパースペクティブ角度に基づいて、パースペクティブ補正を遂行し得る。

いくつかの実施例では、１つ又は複数の追加の前処理ステップ（図１～３に図示せず）が、１つ又は複数の対象者の写真に対して遂行され得る。多様なコンピュータ視覚技術が、１つ又は複数の画像をさらに前処理するために、利用され得る。前処理ステップの他の実例は、さらなる処理の前に、１つ又は複数の画像の品質を改善するために、コントラスト、ライティング、及び他の画像処理技術を含み得る。

セグメント化深層学習ネットワーク（ＤＬＮ）
本発明のいくつかの実施例では、コンピュータ視覚技術及び深層学習が、衣服下の対象者の身体の重要点を、数千のサンプル対象者からの画像に対して、衣服下の対象者の身体の輪郭と共にトレーニングされてきた１つ又は複数の深層学習ネットワークを使用して、検出するために、対象者の正面視野及び側面視野写真、加えて対象者の身長に適用される。重要点注釈が、現実世界座標での対象者の１つ又は複数の幾何学的特徴測定値を生成するために、対象者の身長と共に使用される。幾何学的特徴測定値は、サンプル対象者のグラウンド・トゥルース重量データに対してトレーニングされてきた１つ又は複数の機械学習モジュールを使用して対象者の体重を予測するために、身長及びできる限り他の対象者パラメータ（性別、年齢、人種などのような）と共に使用される。より多くのデータがシステムによって収集され、予測される体重の精度が自動的に改善する。

上述のように、幾何学的特徴測定値（１つ又は複数の身体構成要素の長さ、外周、面積、及び／又は体積である）が、対象者の体重を予測するために、重量機械学習モジュールへの入力として使用される。いくつかの実施例では、背景からの身体特徴セグメント化及び幾何学的特徴測定値の身体特徴重要点注釈が、１つ又は複数の深層学習ネットワークを使用して遂行される。したがって、対象者の衣服下の身体を検出する重要点注釈に使用されるセグメント化及び注釈深層学習ネットワークが、ここで詳細に説明される。

ステップ２０４及び７０６では、対象者の身体構成要素（例えば、頸部、腕部、脚部など）のような身体特徴が、セグメント化深層学習ネットワーク（ＤＬＮ：deep learning network）として知られている、第１のＤＬＮを使用して、画像からセグメント化され得る。ある実施例では、「深層学習」は、ニューラル・ネットワークを手本にした特徴抽出及び変換の非線形処理ユニットの複数のレイヤのカスケードを使用する、機械学習アルゴリズムの分類を示し得る。ある実施例では、連続するレイヤが、先行のレイヤからの出力を入力として使用し得る。ある実施例では、「深層学習」の「深層」は、データが変換されるレイヤの数を指し得る。身体特徴セグメント化ＤＬＮの実例が、以下に図４を参照して説明される。

実際のユーザからのデータに対してこのセグメント化ステップ遂行する前に、システムは最初に、例えば、異なる環境で、異なる背景に対して異なる衣服を着て、例えば手を４５度にしたポーズ（「Ａポーズ」）の、人のサンプル写真に対して、トレーニングされていてもよい。ある実施例では、セグメント化ＤＬＮアルゴリズムは、セグメント化トレーニング・データでトレーニングされ得る。いくつかの実施例では、セグメント化トレーニング・データは、セグメント化された身体特徴を有する人を含む、数千のサンプル写真を含み得る。サンプル写真は、身体特徴を写真の背景からセグメント化する。

いくつかの実施例では、トレーニング・データが、例えばＣＡＴスキャン、ＭＲＩスキャンなどからの、医療データを含む。いくつかの実施例では、トレーニング・データが、３Ｄ身体スキャナからの３Ｄ身体スキャンを含む、従来の３Ｄ身体測定値からのデータを含む。いくつかの実施例では、正面及び側面視野写真が明示的に利用可能でない場合、３Ｄ身体スキャンが、近接した正面及び／又は側面視野写真を抽出するために使用され得る。いくつかの実施例では、グラウンド・トゥルース・データが、３Ｄ身体スキャンからのデータを含む。いくつかの実施例では、約１０，０００の対象者（男性及び女性の両方）に関して取得された３Ｄ身体スキャンの商業用サンプルである「ＳｉｚｅＵＳＡ」データ・セットからの３Ｄ身体スキャンデータが、利用され得る。他の実施例では、約４，０００の対象者に関して取得された３Ｄ身体スキャンの別の商業用サンプルであり、グラウンド・トゥルース・データをさらに含む、「ＣＡＥＳＡＲ」データ・セットからの３Ｄ身体スキャンデータが、利用され得る。やはり他の実施例では、本発明を利用する組織が、彼らの自身の正面及び側面写真を、セグメント化ＤＬＮをトレーニングに好適なグラウンド・トゥルース・データと共にキャプチャし得る。

本発明のある実施例では、識別された身体構成要素は、ステップ２０４及び７０６で生成されたセグメント化マップを使用して、人の残りの部分及び背景からセグメント化され、分離され、又はクロップされ得る。クロッピングは、実際の又は仮想のクロッピングであり得る。各々の識別された身体構成要素に対応する画像の部分が、画像の残りの部分からクロップされ、セグメント化され、又は分離され得て、画像のその部分は、注釈ステップ（２０５及び７０８）に渡される。画像の残りの部分から識別された身体構成要素をクロッピング又は分離することによって、注釈ステップ（２０５及び７０８）で使用されるＤＬＮは、各々の分離身体構成要素に対して、個別に又は別々にトレーニングされ、精度及び信頼性の両方を増大させる。

注釈深層学習ネットワーク（ＤＬＮ）
ステップ２０５では、ステップ２０４で識別された身体構成要素毎の注釈重要点が、注釈ＤＬＮとして知られている１つ又は複数の深層学習ネットワーク（ＤＬＮ）を使用して衣服下の対象者の身体形状を検出するために、描かれ得る。ある実施例では、全体の身体に１つの注釈ＤＬＮが存在する。別の実施例では、身体構成要素毎に別個の注釈ＤＬＮが存在する。身体構成要素毎に別個の注釈ＤＬＮを使用する利点は、身体構成要素注釈での改善された精度及び信頼性である。各々の身体構成要素注釈ＤＬＮは、身体構成要素毎に別個の固有のデータに対して別々にトレーニングされ得る。各身体構成要素に関するデータの特殊性は、ＤＬＮの精度及び信頼性を改善し、ニューラル・ネットワーク・トレーニングの収束速度をさらに改善する。身体特徴重要点注釈ＤＬＮの実例が、以下に図４を参照して説明される。

ある実施例では、注釈ＤＬＮは、身体特徴から取得される信号から、注釈重要点を識別する。注釈重要点は、身体特徴毎に異なり得て、別の仕方で描かれ得る。例えば、二頭筋の幅又は外周に関して、システムは、二頭筋位置における骨格のラインと垂直にラインを描き、注釈重要点としてラインの端部に注釈をつけ得て、胸部に関しては、システムは、その代わりに２つの胸部点に注釈をつけ得る。各々の身体特徴の注釈から、身体特徴測定値が次に、本明細書で説明されるように、ステップ１３１、２０２、又は３３０で受け取られた対象者の身長に対して規格化することによって取得され得る。

実際の対象者からのデータに対してこの注釈ステップ遂行する前に、システムは最初に、以下にさらに説明されるように、例えば、異なる環境で、異なる衣服を着て、例えば手を４５度にしたポーズ（「Ａポーズ」）の、人のサンプル写真に対して、トレーニングされていてもよい。サンプル写真は、衣服下の対象者の身体特徴及び重要点注釈を識別する。

例示的な深層学習ネットワーク（ＤＬＮ）モジュール・アーキテクチャ
本発明で使用されている深層学習ネットワーク（ＤＬＮ）に関して、深層ニューラル・ネットワーク、深層信念ネットワーク、及び／又はリカレント・ニューラル・ネットワークなどの、任意の好適な深層学習アーキテクチャが使用され得る。いくつかの実施例では、深層学習アルゴリズムは、教師あり（例えば、分類）及び／又は教師なし（例えば、パターン分析）様式で学習し得る。さらに、深層学習アルゴリズムは、画像（例えば、全身、身体構成要素など）にエンコードされた情報の異なる抽象化レベルに対応する複数の表現レベルを学習し得る。いくつかの実施例では、画像（例えば、正面及び側面写真）が、画素の行列として表現され得る。ＤＬＮのある実施例では、ＤＬＮの第１の表現レイヤが、画素を抽象化し、縁部をエンコードし得て、第２のレイヤが縁部の構成を合成し、エンコードし得て、第３のレイヤが鼻及び目をエンコードし得て、第４のレイヤは、画像が顔部又は他の身体特徴を含むことを認識し得る、などがなされ得る。

図４は、本発明のある実施例による、身体構成要素セグメント化及び注釈の詳細なフロー図４００を示している。ある実施例では、身体構成要素セグメント化及び注釈が、上述したようなトレーニング・データを使用する深層学習ネットワーク（ＤＬＮ）を使用してなされる。ある実施例では、身体構成要素セグメント化及び注釈は、改善された大局的及び局所的コンテキスト情報のためのピラミッド・シーン・パーシング・ネットワーク（ＰＳＰＮｅｔ：pyramid scene parsing network）と組み合わされた畳み込みニューラル・ネットワーク（ＣＮＮ）を使用して遂行される。ＰＳＰＮｅｔでは、処理は、「ピラミッド・プーリング・モジュール」を介して統合された異なるサイズの領域からの大局的及び局所的コンテキスト情報を利用し得る。図４で示したように、少なくとも１つの入力画像４０１が、最初に畳み込みニューラル・ネットワーク（ＣＮＮ）４０２を通過させられ、各画素を所与の身体構成要素及び／又は注釈点に分類又はセグメント化する特徴マップ４０３を取得する。次に、大局的及び局所的コンテキスト情報が、異なるサイズの縮尺での画像からの情報を統合する、ピラミッド・プーリング・モジュール４０４を利用して、特徴マップから抽出される。最後に、データは、最終畳み込みレイヤ４０５を通過させられ、各画素を身体構成要素セグメント及び／又は注釈重要点４０６に分類する。

より詳細には、入力画像４０１から、ＣＮＮ４０２が最初に特徴マップ４０３を取得するために使用され、次にピラミッド・プーリング・モジュール４０４が、異なる小領域の特徴を抽出するために使用され、アップ・サンプリング及び連結レイヤが続いて、最終特徴表現を形成し、これは、局所的及び大局的コンテキスト情報の両方を伝達する。最後に、特徴表現が、最終畳み込みレイヤ４０５に供給され、最終的な画素単位の予測値を取得する。図４で示した実例では、ピラミッド・プーリング・モジュール４０４は、４つの異なる縮尺下での特徴を統合する。最大縮尺が大局的である。後続のレベルは特徴マップを異なる小領域に分離する。ピラミッド・プーリング・モジュール４０４での異なるレベルの出力は、異なる縮尺下の特徴マップを含む。ある実施例では、大局的特徴の重みを維持するために、畳み込みレイヤは、各ピラミッド・レベルの後に使用され、コンテキスト表現の寸法を削減し得る。次に、低寸法特徴マップがアップ・サンプリングされ、同一のサイズの特徴を、最初の特徴マップとして獲得する。最後に、異なる特徴レベルが、ピラミッド・プーリング・モジュール４０４の出力のために、最初の特徴マップ４０４と連結される。ある実施例では、示されているように、４つのレベルのピラミッドを使用することによって、プーリング・ウィンドウが、最初の画像４０１の全体、半分、及びさらに小さい部分をカバーしている。

ある実施例では、ＰＳＰＮｅｔアルゴリズムは、本明細書で完全に表明されるようにその全体が参照により本明細書により組み込まれている、ＨｅｎｇｓｈｕａｎｇＺｈａｏら、「ＰｙｒａｍｉｄＳｃｅｎｅＰａｒｓｉｎｇＮｅｔｗｏｒｋ」、ＣＶＰＲ２０１７、２０１６年１２月４日、ａｒＸｉｖ：１６１２．０１１０５で利用可能、で示されているような実施態様である。ＰＳＰＮｅｔは、本発明の範囲内の、１つの例示的な深層学習ネットワークアルゴリズムに過ぎず、本発明は、ＰＳＰＮｅｔの使用方法に限定されない。他の深層学習アルゴリズムが、本発明の範囲内にさらに存在する。例えば、本発明のある実施例では、畳み込みニューラル・ネットワーク（ＣＮＮ）が、身体セグメントを識別するために利用され（セグメント化）、別個のＣＮＮが、各々の身体セグメントに注釈をつけるために利用される（注釈）。

例示的な機械学習（ＭＬ：Machine Learning）モジュール・アーキテクチャ
幾何学的特徴が計算されると（例えば、図１のステップ１４１、１５１、１６１）、体重予測が、１つ又は複数の重量機械学習（ＭＬ）アルゴリズムを使用してなされ得る。ある実施例では、重量ＭＬアルゴリズムは、ランダム・フォレスト機械学習モジュールを含む。いくつかの実施例では、全身に対して１つの重量ＭＬモジュールが存在する。ある実施例では、身体構成要素毎に別個の重量ＭＬモジュールが存在し、予測された体重は、予測された身体構成要素重量の合計である。例えば、図１及び２の第３の選択肢（ステップ１６０及び２３０）では、別個のＭＬモジュールが、所与の身体構成要素の重量を、その身体構成要素の面積又は体積を含む身体構成要素特徴ベクトル及び１つ又は複数の対象者パラメータに基づいて、予測し得る。最後に、予測された体重は、全ての対象者の身体構成要素の予測された重量の合計である。

図５は、本発明のある実施例による、深層学習ネットワーク（ＤＬＮ）から取得された幾何学的特徴を含む、１つ又は複数の対象者特徴ベクトル５０１からの体重予測値５０２のための機械学習（ＭＬ）モジュールの例示的な図５００を示している。図５は、入力特徴ベクトル５０１として、対象者の幾何学的特徴（例えば、身体構成要素の外周、面積、及び／又は体積）及び対象者パラメータ（例えば、身長、年齢、性別など）を示している。つまり、ＭＬモジュールへの入力が、対象者特徴ベクトル５０１であり、例えば深層学習ネットワークから取得された身体構成要素の外周、面積、及び／又は体積、身長、並びに例えば図１～２の選択肢１（ステップ１４０及び２１０）で説明されたような他の対象者パラメータを含み得る。ＭＬモジュールの出力は、予測された体重５０２である。

図５で模式的に示されている、ある実施例では、ＭＬモジュールは、例示的な機械学習アルゴリズムである、ランダム・フォレスト・アルゴリズムを使用している。ランダム・フォレスト・アルゴリズムは、各々の決定木がトレーニング・データの任意の部分集合の値によって決まるように、多数の決定木予測因子を使用し、これにより過剰適合する機会を最小化する。ある実施例では、ランダム・フォレスト・アルゴリズムは、本明細書で完全に表明されるようにその全体が参照により本明細書により組み込まれている、ＬｅｏＢｒｅｉｍａｎ、「ＲａｎｄｏｍＦｏｒｅｓｔｓ」、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、４５巻、５～３２ページ、２００１年、ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ、オランダ、ｄｏｉ．ｏｒｇ／１０．１０２３／Ａ：１０１０９３３４０４３２４で利用可能、で示されているような実施態様である。ランダム・フォレスト・アルゴリズムは、本発明の範囲内の、１つの例示的な機械学習アルゴリズムに過ぎず、本発明は、ランダム・フォレスト・アルゴリズムの使用方法に限定されない。

ランダム・フォレストは、上の実例では、例として、限定されないが、重量ＭＬモジュールアルゴリズムとして選択されていて、他のＭＬアルゴリズムは、限定されないが、本明細書で開示された実例に応じて、Ｋ平均法及びサポート・ベクター・マシン（ＳＶＭ：Support Vector Machine）などの、他の線形及び非線形リグレッサなどの、重量ＭＬモジュールに実装され得ることが理解されよう。いくつかの実施例では、相関係数などの単純な線形リグレッサが、さらに利用され得る。相関係数は、所与の性別、年齢などに関して、体重と身体の体積との相関を簡潔にとり得る。限定されないが、最近傍、決定木、サポート・ベクター・マシン（ＳＶＭ）、アダブースト、深層学習ネットワークを含む多様なニューラル・ネットワーク、進化アルゴリズムなどを含む、他の機械学習アルゴリズムが、さらに、重量ＭＬモジュールを実施する本発明の範囲内に存在する。他の例示の機械学習アルゴリズムは、限定されないが、エキスパート・システム、ファジー論理、データ融合エンジン、ナイーブ・ベイズ、ベイジアン信念ネットワーク、ファジー論理モデル、確率的分類モデル、及び／又は統計的回帰モデルを含む。

本発明の実施例では、重量ＭＬモジュールは、１人又は複数のサンプル対象者の１つ又は複数のサンプル体重及び１つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされる。例えば、第１の選択肢（図１及び２のステップ１４０及び２１０）の本実施例では、重量ＭＬモジュールは、１つ又は複数のサンプル体重及び１つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされ、サンプル特徴ベクトルは、１つ又は複数の対象者パラメータ及び１つ又は複数の身体構成要素の外周を含む。同様に、第２の選択肢（図１及び２のステップ１５０及び２２０）の本実施例では、重量ＭＬモジュールは、１つ又は複数のサンプル体重及び１つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされ、サンプル特徴ベクトルは、１つ又は複数の対象者パラメータ及び１つ又は複数の身体構成要素の画像面積を含む。また、第３の選択肢（図１及び２のステップ１６０及び２３０）の本実施例では、重量ＭＬモジュールは、１つ又は複数のサンプル体重及び１つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされ、サンプル特徴ベクトルは、１つ又は複数の対象者パラメータ及び１つ又は複数の身体構成要素の体積を含む。

第１の選択肢（図１～２のステップ１４０及び２１０）は、外周計算がより簡潔な演算を必要とするので、最も簡潔なＭＬモジュール実装をもたらすことが理解されよう。しかしながら、関連付けられたＭＬモジュールは、身体構成要素の外周のトレーニング・データが身体構成要素面積又は体積ほど多くの情報を提供しないので、精度が劣ることが見込まれる。一方、第３の選択肢（図１～２のステップ１６０及び２３０）は、サンプル体重及び他の対象者パラメータと共に、トレーニング・データとして対象者写真及び付随する３Ｄ身体スキャンを必要とし得る。この選択肢は、より複雑なトレーニング・データを必要とし、２Ｄ画像から３Ｄ身体構成要素体積推定での重要点注釈変換などの、より複雑な演算を必要とするが、最も高い精度の体重予測値をもたらすことが見込まれる。第２の選択肢（図１～２のステップ１５０及び２２０）は、適度な処理複雑性を必要とし、十分に正確な結果をもたらすことが期待される、折衷案の選択肢として見なされ得る。

深層学習ネットワーク（ＤＬＮ）及び機械学習（ＭＬ）モジュールのトレーニング
上記の深層学習構成要素によって使用されるような、任意の機械学習方法の起点は、システム入力と正解の結果の複数の事例を含む文書化されたデータセット（例えば、トレーニング・データ）である。このデータ・セットは、限定されないが、パラメトリック分類法、非パラメトリック法、決定木学習、ニューラル・ネットワーク、誘導的及び分析的学習の両方を組み合わせた方法、並びに回帰モデルなどのモデリング手法、などの標準化された機械学習方法を含む当技術分野で知られている方法を用いて、機械学習システムをトレーニングするために、且つトレーニングされたシステムの性能を評価し最適化するために、使用され得る。機械学習システムの出力の品質は、（ａ）パターンのパラメータ表現、（ｂ）機械学習設計、（ｃ）トレーニング・データベースの品質によって決まる。

体重予測値を生成することに利用される、セグメント化ＤＬＮ、注釈ＤＬＮ、及び重量ＭＬモジュールをトレーニングすることが、ここで、実例の実施例に従って詳細に説明される。トレーニングアルゴリズムが、１つ又は複数の写真を受信する。例えば、所与の対象者の正面及び側面視野写真が、受信され得る。別の実施例では、写真は、デバイス（例えば、携帯電話、ラップトップ・コンピュータ、タブレットなど）から取得され得る。別の実施例では、写真は、データベース（例えば、ソーシャル・メディア・データベース）から取得され得る。いくつかの実施例では、パースペクティブ補正などの１つ又は複数の処理ステップが、必要に応じて、正面及び側面視野写真に対して遂行され得る。コントラスト、ライティング、などの前処理ステップ又は他の画像処理技術が、後続のステップを支援するように、受信された画像を前処理するために利用され得る。

写真を受信すると、アノテータ(annotator)は、身体構成要素などの身体特徴を背景からセグメント化し得る。ある実施例では、身体構成要素は、利便性のために色分けされ得る。具体的には、身体セグメント化は、写真の背景から対象者を抽出するために、人によって遂行され得る。例えば、アノテータは、背景から対象者を抽出するために、写真を視覚的に編集し（例えば、トレース・アウト及び色分け）、どの身体構成要素がどの写真の部分に対応するかを示すために、使用され得る。ある実施例では、写真は、手を４５度（「Ａポーズ」）にして、異なる衣服を着用して、異なる環境でポーズをとる対象者を含み得る。上述のように、正確な身体輪郭が、背景から人のアノテータによって、描かれ得る。身体輪郭は、任意の好適なソフトウェア・プラットフォーム上で描かれ得て、注釈を容易にするために周辺機器（例えば、スマート・ペン）を使用し得る。さらに、そのようなセグメント化された画像の少なくとも一部分が、深層学習ネットワークに供給され得る、トレーニング・データとして使用され得る。ある実施例では、セグメント化された画像は、図２のステップ２０４で使用されているセグメント化ＤＬＮをトレーニングするために利用される。

アノテータは次に、衣服下の身体特徴毎に推定される注釈重要点を描き得る。上述のように、正確な注釈重要点が、衣服下の身体を推定するアノテータよって描かれ得る。注釈重要点は、任意の好適なソフトウェア・プラットフォーム上で描かれ得て、注釈を容易にするために周辺機器（例えば、スマート・ペン）を使用し得る。さらに、そのような注釈をつけられた画像の少なくとも一部分が、深層学習ネットワークに供給され得る、トレーニング・データとして使用され得る。ある実施例では、重要点注釈は、図２のステップ２０５で使用されている注釈ＤＬＮをトレーニングするために利用される。

いくつかの実施例では、深層学習ネットワークのトレーニングは、その両方の開示全体が参照により本明細書により組み込まれている、２０１８年１２月１７日に出願された「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＧＥＮＥＲＡＴＩＮＧＭＡＳＳＩＶＥＴＲＡＩＮＩＮＧＤＡＴＡＳＥＴＳＦＯＲＴＲＡＩＮＩＮＧＤＥＥＰＬＥＡＲＮＩＮＧＮＥＴＷＯＲＫＳＦＯＲＢＯＤＹＭＥＡＳＵＲＥＭＥＮＴＳ」と題された米国整理番号第６２／７８０，７３７号、そこからの優先権の利益をそれ自体が主張する、２０１９年７月１９日に出願された、米国整理番号第１６／５１７，３９１号であり、２０１９年１１月２６日に米国特許第１０，４８９，６８３号として発行された、「ＭＥＴＨＯＤＳＡＮＤＳＹＳＴＥＭＳＦＯＲＡＵＴＯＭＡＴＩＣＧＥＮＥＲＡＴＩＯＮＯＦＭＡＳＳＩＶＥＴＲＡＩＮＩＮＧＤＡＴＡＳＥＴＳＦＲＯＭ３ＤＭＯＤＥＬＳＦＯＲＴＲＡＩＮＩＮＧＤＥＥＰＬＥＡＲＮＩＮＧＮＥＴＷＯＲＫＳ」と題された関連する出願で説明されているように生成された、合成的に生成されたトレーニング・データを使用して遂行され得る。本実施例では、背景からの身体セグメント化及び衣服下の身体の重要点注釈のためのトレーニング・データは、実際の３Ｄ身体スキャンモデルから抽出された合成２Ｄ画像を使用して生成される。

他の実施例では、深層学習ネットワークのトレーニングは、その開示全体が参照により本明細書により組み込まれている、２０１９年１１月２６日に出願された米国整理番号第１６／６９７，１４６号、「ＭＥＴＨＯＤＳＡＮＤＳＹＳＴＥＭＳＦＯＲＧＥＮＥＲＡＴＩＮＧ３ＤＤＡＴＡＳＥＴＳＴＯＴＲＡＩＮＤＥＥＰＬＥＡＲＮＩＮＧＮＥＴＷＯＲＫＳＦＯＲＭＥＡＳＵＲＥＭＥＮＴＳＥＳＴＩＭＡＴＩＯＮ」題された関連する出願で説明されているように生成された、トレーニング・データを使用して遂行され得る。本実施例では、背景からの身体セグメント化及び衣服下の身体の重要点注釈のためのトレーニング・データは、同一の対象者の３Ｄ身体スキャンモデルに位置合わせされてある対象者の２Ｄ画像を使用して生成される。

最後に、対象者毎の実際の体重測定値（例えば、スケーリングによって決定されるように）が、グラウンド・トゥルース・データとしてはたらくように、受信され得る。実際の体重測定値は、有効性確認データとして使用され、システムによって使用されるアルゴリズムをトレーニングすることに使用され得る。例えば、実際の体重測定値は、機械学習アルゴリズムに関連付けられた、誤差関数又は損失関数（平均平方誤差、尤度損失、対数損失、ヒンジ損失など）を最小化して使用され得る。

１つ又は複数の重量ＭＬモジュールが次に、トレーニングされ得る。ある実施例では、重量ＭＬモジュールは、受信された重量値を使用してトレーニングされ得る。例えば、重量ＭＬモジュールは、ラベル付きデータ（例えば、対象者特徴ベクトル及びスケーリング又はデータベースから受信された関連付けられた実際の重量測定値データ）と共に提示され得て、重量ＭＬモジュールの結果及び実際の受信された重量測定値に基づいて、誤差関数（例えば、上述したように、損失関数から）を決定し得る。重量ＭＬモジュールは、誤差関数の規模を低減するために、トレーニングされ得る。

別の実施例では、１つ又は複数の重量ＭＬモジュールは、重量測定値を、特定の幾何学的特徴、例えば、腕部、脚部、又は頸部などの特定の身体構成要素の、外周、面積、又は体積から、個別に抽出するために、個別にトレーニングされ得る。別の実施例では、単一の重量ＭＬモジュールが、全身体重測定値を身体幾何学的特徴の群から抽出するために、個別にトレーニングされ得る。別の実施例では、別のトレーニング・データ・セットが、別の重量ＭＬモジュールに使用され得て、各々の重量ＭＬモジュールが、異なる特徴ベクトル（例えば、外周、画像面積、及び／又は体積）に対応する。ある実施例では、重量ＭＬモジュールのトレーニングは、少なくとも部分的にクラウドで、遂行され得る。ある実施例では、グラウンド・トゥルースの体重データは、図２のステップ２１３、２２３、又は２３２で使用される重量ＭＬをトレーニングするために、利用される。

例示的なクライアント・サーバ実施態様
図６は、本発明のある実施例による、体重予測を実施する例示的なクライアント・サーバ図６００を示している。クライアント６０９が、上部に示され、一方サーバ６０３が下部に示されている。クライアント６０９は、６０２で正面及び側面画像を送信することによって、処理を開始する。画像を受信すると、サーバ６０３は、画像のフォーマットの正確さを調べ、６０４で他の形式上の調査を遂行する。画像が、６０５で、正しいフォーマットでない又は誤ったポーズ、劣悪なコントラスト、過剰に遠い又は過剰に近い、対象者が視野にいない、対象者が部分的に隠れているなどのような、他の形式上の問題を有する場合、処理は、６０１で、この情報をクライアントに返却する。６０１では、エラー・メッセージ又は他の情報伝達が、クライアント６０９で表示され得て、ある実施例では、ユーザが画像を再撮影することができるようにする。

画像が、６０５で、正しいフォーマットであり、他の形式上の問題をもたない場合、画像は、６０６で、前処理され、重量推定モジュール６０８によって取り扱われることが可能になる。画像は、次に、前述したように、対象者重量結果６１０を決定するために、重量推定モジュール６０８を通して処理される。重量結果６１０は、サーバ６０３からクライアント６０９に返却される。クライアント６０９は、６１２で、重量結果を調べる。重量結果が、６１３で決定されたとき、任意の形式上の問題、例えば区域外、不合理に小さい又は大きいなど、を有している場合、処理は、６０１に戻り、同様にエラー・メッセージ又は他の情報伝達がユーザに示され、ユーザが画像を再撮影できるようにする。６１３で決定されたとき、重量結果に形式上の問題がない場合、処理は、予測された体重の表示又は利用の準備を整えて、終了する。

ステップ６０４で、サーバ６０３において実行された、画像分析、フォーマット補正、及び他の形式上の調査が、代わりにクライアント６０９で実行され得る（例えば、帯域幅節約対策として）ことが理解されよう。同様に、ステップ６１２で、クライアント６０によって遂行された重量結果調査が、代わりにサーバ６０３によって実行され得る。一般に、本明細書で示された多様なステップは、当業者によって認識され得るように、クライアント６０９又はサーバ６０３のどちらかによって、実行され得る。

代替のアーキテクチャ：ＤＬＮ及び／又はＭＬモジュールの統合
ステップ２０４のセグメント化ＤＬＮ、ステップ２０５の注釈ＤＬＮ、及びステップ２１３、２２３、及び２３３の重量ＭＬモジュールを実装するための多様な代替のアーキテクチャが、説明される。例えば、図７は、図２で示しているアーキテクチャに対応し、そこで、セグメント化ＤＬＮ、注釈ＤＬＮ、及び重量ＭＬモジュールは、別個のモジュールである。対照的に、図１は、代替のアーキテクチャに対応し、そこで、セグメント化ＤＬＮ及び注釈ＤＬＮは、重量ＭＬモジュールへと続く単一の注釈ＤＬＮ（セグメント化及び注釈の両方を効果的に遂行する）に統合されている。最後に、さらに別の代替のアーキテクチャ（図示せず）が可能であり、そこで、セグメント化ＤＬＮ、注釈ＤＬＮ、及び重量ＭＬモジュールは全て、セグメント化、注釈、及び重量測定の全ての機能を効果的に遂行する単一の重量ＤＬＮに統合されている。同様に、注釈ＤＬＮ及び重量ＭＬは、注釈をつけ、重量測定を遂行する１つの重量ＤＬＮとして実装され得る、又は２つの別個のモジュール、各身体特徴に注釈をつける注釈ＤＬＮ及び重量測定を遂行する別個の重量ＭＬモジュールとして、実装され得る。これらの選択肢が、順に説明される。

図７は、本発明のある実施例による、体重予測（個別セグメント化ＤＬＮ、注釈ＤＬＮ、及び重量ＭＬモジュールを使用する）ための一例のフロー図７００を示している。ある実施例では、正面及び側面画像が、７０２で、対象者から受信される。画像は、７０４で、説明されたように前処理される。前処理されると、前処理された画像は、７０６で、先述されたように、セグメント化マップを生成するために、セグメント化ＤＬＮに送信される。セグメント化マップは、７１４で、データの残りの部分を用いて統合される。前処理された画像は、７０８で、先述されたように、注釈重要点を生成するために、セグメント化マップと共に、注釈ＤＬＮに供給される。注釈マップが、７１４で、データの残りの部分を用いて統合される。ある実施例では、注釈マップは、先述されたように、注釈重要点に基づいてセグメント化され注釈をつけられている、身体構成要素毎に幾何学的特徴を計算するために、重量機械学習（ＭＬ）モジュール７１０に供給される。重量結果は、７１４で、データの残りの部分を用いて統合される。重量結果は、７１２で、本明細書で説明されたような多様な使用方法のために、１つ又は複数の外部システムに出力される。最後に、７１４で統合されている、統合され構造化されたデータ（１）前処理された正面及び側面画像、（２）セグメント化マップ、（３）注釈マップ、及び（４）重量結果の全てが、７１６で、さらなるＤＬＮトレーニングのために、データベースに記憶される。トレーニング・データベース７１６は、測定される各対象者と共に成長し、システムの精度は、使用と共に継続的に向上する。

別の実施例では、ステップ７０６は、任意選択であり、身体特徴識別が、ステップ７０８で実行され、ステップ７１４は、ステップ７０８から注釈マップ（例えば、注釈重要点）を出力することのみが必要である。本発明のこの実施例によれば、体重測定決定が、統合されたセグメント化－注釈ＤＬＮ及び重量ＭＬモジュールを使用して実行され得る。正面及び側面画像は、先述したように、対象者７０２及び前処理された７０４から受信される。前処理の後、前処理された画像は、先述したように、注釈マップを生成するために、注釈ＤＬＮ７０８に直接送信される。本代替実施例では、最初に身体特徴セグメント化７０６を実行することの代わりに、注釈重要点が、特別にトレーニングされている、セグメント化ＤＬＮ７０６及び注釈ＤＬＮ７０８の両方の機能を単一の注釈ＤＬＮに効果的に統合している（図７の実施例に示されている）、統合されたセグメント化－注釈ＤＬＮを使用して、身体特徴を背景から明示的にセグメント化することなしに、画像上に直接描かれる。事実上、身体特徴セグメント化は、注釈ＤＬＮ７０８によって暗黙的に遂行される。

さらに別の実施例では、注釈ＤＬＮ７０８及び重量ＭＬ７１０が、さらに統合され得る。正面及び側面画像は、先述したように、７０２のユーザから受信され、画像は、７０４で前処理される。前処理の後、前処理された画像は、７１０で、先述したように、完全な体重予測値を生成するために、重量ＤＬＮに直接送信される。本代替実施例では、最初に身体特徴セグメント化及び注釈を実行することの代わりに、体重が、背景から身体特徴を明示的にセグメント化することなしに（且つ重要点注釈を明示的に描くことなしに）、セグメント化ＤＬＮ、注釈ＤＬＮ、及び重量ＭＬモジュールの特徴を、単一の重量ＤＬＮ（図７に図示せず）に効果的に統合している特別にトレーニングされている重量ＤＬＮを使用して、前処理された画像から直接抽出される。事実上、身体特徴セグメント化及び注釈は、重量ＤＬＮによって、そのニューラル・ネットワークのレイヤのうちの１つ又は複数において、暗黙的に遂行される。

ハードウェア、ソフトウェア、及びクラウド実施態様
説明したように、本開示を通して説明されるデータ（例えば、写真、説明など）は、クラウド・コンピューティング・プラットフォーム上に記憶され、ホストされるデータベースに記憶されたデータを含み得る。本開示が、以下にクラウド・コンピューティングに関する詳細な説明を含むが、本明細書で記載された教示することの実施態様は、クラウド・コンピューティング環境に限定されないことが理解される。むしろ、本発明の実施例は、現在知られている又はこれから開発される他の任意のタイプのコンピューティング環境と併せて、実施されることが可能である。

クラウド・コンピューティングは、最小限の、管理労力又はサービス提供者との対話で、素早くプロビジョニングされリリースすることができる便利なオンデマンドの、構成変更可能なコンピュータ資源の共用プール（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、及びサービス）への、ネットワーク・アクセスを可能にするサービス提供モデルを指し得る。クラウド・コンピューティング環境は、無国籍性、疎結合性、モジュール性、意味的相互運用性を有するように指向するサービスである。クラウド・コンピューティングの中心にあるのが、相互接続ノードのネットワークを含むインフラストラクチャである。

クラウド・コンピューティング環境は、例えばパーソナル・デジタル・アシスタント（ＰＤＡ：personal digital assistant）若しくは携帯電話、デスクトップ・コンピュータ、ラップトップ・コンピュータ、及び／又は自動車コンピュータ・システムなどのクラウド使用者によって、使用されるローカルのコンピューティング・デバイスが通信し得る、１つ又は複数のクラウド・コンピューティング・ノードを含み得る。ノードは、互いに通信し得る。それらは、個人専用、地域社会、公共、又はハイブリッド・クラウド、或いはその組合せなどの、１つ又は複数のネットワーク内で、物理的に又は仮想的にグループであり得る。これにより、クラウド・コンピューティング環境は、クラウド使用者がローカルのコンピュータ・デバイスで資源を維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム、及び／又はソフトウェアを提供可能になる。コンピューティング・デバイスのタイプは、例示であることのみが意図され、コンピューティング・ノード及びクラウド・コンピューティング環境は、任意のタイプのコンピュータ化されたデバイスと、任意のタイプのネットワーク及び／又はネットワーク・アドレス可能な接続（例えば、ウェブ・ブラウザを利用して）を通して通信し得ることが理解される。

図８は、本発明のある実施例を実施するための、サーバ及び／又はユーザ・デバイスの例示的なハードウェア・アーキテクチャの図を示している。システムの多くの構成要素、例えばネットワーク、インターフェースなどが、本発明を不明瞭化しないように、示されていない。しかしながら、当業者には、システムが必然的にこれらの構成要素を含むことが理解されよう。ユーザ・デバイスは、メモリ８５０に結合された少なくとも１つのプロセッサ８４０を含むハードウェアである。プロセッサは、１つ又は複数のプロセッサ（例えば、マイクロプロセッサ）に相当し得て、メモリは、ハードウェアのメイン・ストレージを含むランダム・アクセス・メモリ（ＲＡＭ：random access memory）デバイス、及び任意の補助的レベルのメモリ、例えば、キャッシュ・メモリ、不揮発又はバックアップメモリ（例えば、プログラム可能な又はフラッシュ・メモリ）、読み出し専用メモリなどに相当し得る。加えて、メモリは、ハードウェア内のどこかに物理的に配置されたメモリ・ストレージ、例えば、プロセッサ内の任意のキャッシュ・メモリ、及び例えば、大容量記憶装置に記憶される場合、仮想メモリとして使用される記憶容量を含むと考えられ得る。

また、ユーザ・デバイスのハードウェアは、通常、外部と情報通信するために、多くの入力８１０及び出力８２０を受信する。例えばユーザとのインターフェースとして、ハードウェアは、１つ又は複数のユーザ入力装置（例えば、キーボード、マウス、スキャナ、マイクロフォン、ウェブ・カメラなど）及びディスプレイ（例えば、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）パネル）を含み得る。追加のストレージとして、ハードウェアは、とりわけ、１つ又は複数の大容量記憶装置８９０、例えば、フロッピー（登録商標）又は他の取外し可能ディスク、ハード・ディスク・ドライブ、直接アクセス記憶装置（ＤＡＳＤ：Direct Access Storage Device）、光ドライブ（例えば、コンパクト・ディスク（ＣＤ：Compact Disk）ドライブ、デジタル多用途ディスク（ＤＶＤ：Digital Versatile Disk）ドライブなど）、及び／又はテープ・ドライブをさらに含み得る。さらに、ハードウェアは、ネットワークに結合された他のコンピュータとの情報通信を可能にするために、インターフェース、１つ又は複数の外部データベース８３０、及び１つ又は複数のネットワーク８８０（例えば、とりわけ、ローカル・エリア・ネットワーク（ＬＡＮ：local area network）、広域ネットワーク（ＷＡＮ：wide area network）、無線ネットワーク、及び／又はインターネット）を含み得る。ハードウェアは、通常、互いに通信するために、好適なアナログ及び／又はデジタル・インターフェースを含むことが理解されよう。

ハードウェアは、上述した方法、処理、及び技術を遂行するために、オペレーティング・システム８７０の制御下で動作し、参照番号によってまとめて表示された、多様なコンピュータ・ソフトウェア・アプリケーション８６０、構成要素、プログラム、コード、ライブラリ、オブジェクト、モジュールなどを実行する。

図９は、クライアント・サーバ環境における本発明のある実施例を実施する例示的なシステム・アーキテクチャを示している。クライアント側のコンピューティング・デバイス９１０は、スマート・フォン９１２、ラップトップ・コンピュータ９１４、デスクトップＰＣ９１６、タブレット９１８、又は他のデバイスを含み得る。そのようなコンピューティング・デバイス９１０は、インターネットなどのいくつかのネットワーク接続９２０を通して、システム・サーバ９３０のサービスにアクセスする。説明したように、全システムが、いわゆるクラウド実装において、インターネット全体に渡るエンド・ユーザ及びオペレータに、実施され、提供され得る。ソフトウェア又はハードウェアのローカルでのインストールは必要とされず、エンド・ユーザ及びオペレータは、クライアントでウェブ・ブラウザ又は同等のソフトウェアのいずれかを使用して、インターネットを通じて直接本発明のシステムにアクセス可能であり、このクライアントはデスクトップ・コンピュータ、ラップトップ・コンピュータ、モバイル・デバイスなどであり得る。このことで、クライアント側の独自のソフトウェアインストールのいずれの必要性もなくなり、サービス配信（ソフトウェア・アズ・ア・サービス）の柔軟性を向上させ、ユーザの満足及び利用し易さ向上させる。本発明の多様なビジネス・モデル、収益モデル、及び配信方法が予想され、全てが本発明の範囲内であると考慮されるべきである。

一般に、本発明の実施例を実施するために実行される方法は、「コンピュータ・プログラム」又は「コンピュータ・コード」と呼ばれる、オペレーティング・システム又は固有のアプリケーション、構成要素、プログラム、オブジェクト、モジュール、又は一連の命令の一部として、実装され得る。コンピュータ・プログラムは、通常、コンピュータの多様なメモリ及び記憶デバイスに、多様なタイミングで設定された１つ又は複数の命令を含み、コンピュータの１つ又は複数のプロセッサによって読み出され、実行される場合、コンピュータに、本発明の多様な態様を含む要素を実行するために不可欠な動作を遂行させる。さらに、本発明が完全に機能するコンピュータ及びコンピュータ・システムという文脈で説明されてきたが、当業者には、本発明の多様な実施例は、種々の形態のプログラム製品として頒布されることが可能であり、本発明は、実際に頒布を実施するために使用される、特定の機械又はコンピュータ可読媒体の種類に関わらず適用されることが理解されよう。コンピュータ可読媒体の実例は、限定されないが、揮発性及び不揮発性メモリ・デバイス、フロッピー（登録商標）及び他の取外し可能ディスク、ハード・ディスク・ドライブ、光ディスク（例えば、コンパクト・ディスク読み出し専用メモリ（ＣＤＲＯＭ：Compact Disk Read-Only Memory）、デジタル多用途ディスク（ＤＶＤ）など）、並びにデジタル及びアナログ通信媒体などの、記録可能な種類の媒体を含む。

本発明の実例の使用事例
図１０～１７は、単一のカメラを備えるモバイル・デバイスが、人の体重を測定するために使用される、本発明の使用事例の例示的な図を示しており、本発明が実装されている、いくつかの実施例での、モバイル・グラフィカル・ユーザ・インターフェース（ＧＵＩ）を示している。図１０は、対象者の写真をキャプチャするためのユーザ命令を含むモバイル・デバイスＧＵＩの例示的な図を示している。図１１は、１つ又は複数の対象者パラメータを受信するためのモバイル・デバイスＧＵＩの例示的な図である。例えば、図１１は、ユーザから入力を通して対象者の身長を受け取るためのＧＵＩ画面を示している。人々は、彼ら自身の重量の正確な推定値を有していないが、ほとんど全ての成人の人々は、彼ら自身の身長を高い精度で知っている。説明したように、対象者の身長は、画素測定値から、現実世界座標での幾何学的特徴（例えば、対象者の身体構成要素の外周）を測定するための規格化データとして使用される。図１１のＧＵＩ画面は、性別、年齢、及び人種などの他の対象者パラメータをさらに受け取り得る。例えば、図１１のＧＵＩ画面は、この目的用のドロップ・ダウン・メニュー及びラジオ・ボタンを示している。

図１２は、対象者が立つべき場所を指示するＡポーズのテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスＧＵＩの例示的な図を示している。図１３は、対象者のリアル・タイム画像上に拡張現実（ＡＲ）で重畳された、対象者が立つべき場所を指示するテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスＧＵＩの別の例示的な図を示している。図１４は、側面視野写真をキャプチャするモバイル・デバイスＧＵＩの例示的な図を示している。図１５は、システムが体重を予測するためにキャプチャされた写真を処理する間に表示される、モバイル・デバイスＧＵＩの例示的な図を示している。最後に、図１６は、体重予測が首尾よく完了された場合に通知画面を示すモバイル・デバイスＧＵＩの例示的な図を示している。予測された重量結果が、ユーザに対して表示される。

図１７は、モバイル・デバイスの単一のカメラが、人の体重を測定するために使用される、本発明の使用事例の例示的な図であり、通常の背景を背に典型的な衣服を着用して立っている人の正面視野を示している。図１７で示されているモバイル・デバイスは、少なくとも１つのカメラ、プロセッサ、非一時的な記憶媒体、及びサーバへの無線通信（図示せず）を備える。ある実施例では、モバイル・デバイス及びサーバのハードウェア・アーキテクチャは、図８で示されたようなものである。ある実施例では、対象者の身体の１つ又は複数の写真が、本明細書で示された演算を遂行するサーバに送信される。ある実施例では、対象者の身体の１つ又は複数の写真が、モバイル・デバイスのプロセッサによって、ローカルで分析される。遂行された演算は、１つ又は複数の体重予測値を返し、図１７で示されているように、サーバに記憶され、さらにユーザに提示され得る。加えて、体重予測値は、次に、限定されないが、販売用に１つ又は複数のカスタム衣類、カスタム・ボディー・スーツ、カスタムＰＰＥ（パーソナル保護装備：personal protection equipment）、カスタム食事療法、カスタム・エクササイズ、ジム、又は練習手順、などを対象者に提供することを含む多くの目的に利用され得る。さらに、体重予測値は、サードパーティのモバイル・デバイス及び／又はサードパーティのサーバに出力され得る。ある実施例では、出力が、文字メッセージ、電子メール、モバイル・アプリケーション又はウェブサイト上の文字的説明又は視覚的表示、それらの組合せなどの形態であり得る。

普遍性を失わずに、体重予測値は、出力され、送信され、且つ／又は体重が有用である任意の目的に利用され得る。具体的には、体重予測値は、コンピューティング・デバイス及び／又は例えば体重測定値に基づいて運動、フィットネス、食事療法を推奨する企業に関連付けられた、対応するサーバに出力され得る。当業者には、体重測定値の出力は、限定されないが、フィットネス、健康、買物などのような、正確で簡潔な体重測定が有用である任意の目的に利用され得ることが認識されよう。

結論として、本発明は、２枚の写真のみを用い、標準的体重計に匹敵する、正確な体重測定を達成し得る。システムは、いずれの専用ハードウェア・センサの使用も必要とせず、ユーザがいずれの特別な背景を背に立つことも必要とせず、特別なライティングを必要とせず、任意の距離で撮影された写真を用いて、ユーザは任意のタイプの衣服を着用して使用され得る。成果は、誰もが容易に自分の写真を撮影し、自動的な体重測定値の決定から恩恵を得るように、任意のモバイル・デバイスと共に機能する体重測定システムである。

当業者には、使用事例、構造、図解、及びフロー図は、他の順序又は組合せで遂行され得るが、本発明の技術概念は、本発明の広範な範囲から逸脱することなく留保されることが知られている。あらゆる実施例が固有であり得て、方法／ステップは、短縮され又は延長され、もう一方の作業に重畳され、延期され、遅延され、及び時間間隔後に継続され、その結果、あらゆるユーザは、本発明の方法を実施するために受け入れられ得る。

本発明は、特定の例示的な実施例を用いて説明されてきたが、多様な修正及び変更が、本発明の広範な範囲から逸脱することなくこれらの実施例になされ得ることが、明白となるであろう。したがって、本明細書及び図面は、限定的な観念内よりむしろ例示的な観念内にあると認識されることになろう。当業者には、上述した本実施例が、教示された唯一の記述のうちの任意のものよりも広範な範囲を有し得る、単一の広範な発明の特定の実例であることがさらに明らかになるであろう。本明細書内において、本発明の範囲から逸脱することなく、多くの変更がなされ得る。

Claims

ハードウェア・プロセッサによって実行可能である、対象者の体重を予測するためのコンピュータに実装される方法であって、
１つ又は複数の対象者パラメータを受け取ることと、
前記対象者を含む１つ又は複数の画像を受信することと、
１つ又は複数の注釈深層学習モジュールを利用して、前記１つ又は複数の画像から前記対象者の衣服下の１つ又は複数の身体構成要素の１つ又は複数の注釈重要点を識別することと、
前記１つ又は複数の注釈重要点に基づいて、前記対象者の１つ又は複数の幾何学的特徴を計算することと、
前記対象者の前記１つ又は複数の幾何学的特徴及び前記１つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、前記対象者の前記体重の予測値を生成することと、を含む、方法。
前記１つ又は複数の幾何学的特徴が、身体構成要素の外周、身体構成要素の長さ、身体画像面積、身体構成要素の画像面積、身体体積、及び身体構成要素の体積から成る群、から選択される、請求項１に記載の方法。
前記身体構成要素の外周が、少なくとも１つの身体構成要素の複数の身体構成要素の外周を含む、請求項２に記載の方法。
前記対象者の前記体重の前記予測値を前記生成することが、
前記重量機械学習モジュールへの入力として、前記１つ又は複数の幾何学的特徴及び前記１つ又は複数の対象者パラメータを含む特徴ベクトルを生成することを、さらに含む、請求項１に記載の方法。
前記重量機械学習モジュールが、線形リグレッサ、非線形リグレッサ、及びランダム・フォレスト・アルゴリズムのうちの１つ又は複数を含み、
前記重量機械学習モジュールが、１人又は複数のサンプル対象者の１つ又は複数のサンプル体重及び１つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされる、請求項４に記載の方法。
前記対象者パラメータのうちの１つ又は複数が、前記１つ又は複数の画像で、画素座標から現実世界座標にスケーリングするために、規格化データとして使用される、請求項１に記載の方法。
前記対象者の身長が、前記規格化データとして使用される、請求項６に記載の方法。
前記１つ又は複数の画像が、少なくとも２つの画像を含み、前記少なくとも２つの画像が、少なくとも２つの斜視視野内の対象者を含む、請求項１に記載の方法。
前記少なくとも２つの画像が、前記対象者の少なくとも正面視野画像及び側面視野画像を含み、
前記１つ又は複数の注釈重要点に基づいて、前記１つ又は複数の幾何学的特徴を生成することが、
（ａ）注釈をつけられた正面視野及び側面視野画像並びに前記対象者の身長を利用して、少なくとも１つの注釈をつけられた身体構成要素の少なくとも１つの外周を計算するステップと、
（ｂ）注釈をつけられた正面視野及び側面視野画像並びに前記対象者の身長を利用して、少なくとも１つの注釈をつけられた身体構成要素の少なくとも１つの身体構成要素の画像面積を計算するステップと、
（ｃ）注釈をつけられた正面視野及び側面視野画像並びに前記対象者の身長を利用して、少なくとも１つの注釈をつけられた身体構成要素の少なくとも１つの身体構成要素の体積を計算するステップと、から成る群から選択される１つのステップを含む、請求項８に記載の方法。
前記１つ又は複数の画像を前記受信することの後、
背景から前記対象者に関連付けられた前記１つ又は複数の身体構成要素を識別するために、前記画像上で身体セグメント化遂行することをさらに含み、
前記身体セグメント化が、セグメント化トレーニング・データでトレーニングされてきたセグメント化深層学習モジュールを利用し、前記セグメント化トレーニング・データが、前記１人又は複数のサンプル対象者用の１つ又は複数の画像と、１人又は複数のサンプル対象者用の身体構成要素毎の身体構成要素セグメンテーションと、を含む、請求項１に記載の方法。
前記注釈深層学習モジュールが、１人又は複数のサンプル対象者用の１つ又は複数の画像と、前記１人又は複数のサンプル対象者用の身体構成要素毎の１つ又は複数の注釈重要点と、を含むトレーニング・データを利用する、請求項１に記載の方法。
前記１つ又は複数の対象者パラメータが、身長、受信された対象者体重推定値、性別、年齢、人種、及び前記対象者に関連付けられた人口統計情報から成る群から選択される、請求項１に記載の方法。
前記対象者の前記体重の前記予測値が、第１の推定値であり、前記方法が、
第２の機械学習モジュールを使用して、前記対象者の前記体重の第２の推定値を生成することと、
前記第１の推定値の第１の信頼性スコアと前記第２の推定値の第２の信頼性スコアとを比較することと、
前記第１及び第２の信頼性スコアに基づいて、前記対象者の前記体重として前記第１の推定値又は前記第２の推定値のいずれかを選択することと、をさらに含む、請求項１に記載の方法。
前記対象者の前記体重の前記予測値が所定の値を下回る信頼性レベルに相当するか否かを決定することと、
前記対象者の前記体重の前記予測値が、前記所定の値を下回る信頼性レベルに相当すると決定したことに応答して、
前記対象者の前記体重の前記予測値を受信された対象者の体重推定値と比較することと、
前記受信された対象者体重推定値が前記体重機械学習モジュールを導くために使用される、前記対象者の前記体重の前記予測値を更新することと、
前記対象者の前記体重の前記予測値を前記対象者の前記体重の更新された予測値で置換することと、をさらに含む、請求項１に記載の方法。
前記１つ又は複数の対象者パラメータが、モバイル・コンピュータ・デバイスから受信され、前記対象者の前記画像が、前記モバイル・コンピュータ・デバイスのカメラから受信される、請求項１に記載の方法。
前記モバイル・コンピュータ・デバイスから受信された前記１つ又は複数の対象者パラメータが、前記モバイル・コンピュータ・デバイスによって遂行された測定値を受信することを含む、請求項１５に記載の方法。
前記モバイル・コンピュータ・デバイスの深さセンサからの深さデータが、前記１つ又は複数の画像内で画素座標から現実世界座標にスケーリングするために、規格化データとして使用される、請求項１５に記載の方法。
前記注釈重要点を識別することの前に、前記対象者及び背景の前記１つ又は複数の画像を前処理することをさらに含み、
前記前処理することが、１つ又は複数の画像上での少なくともパースペクティブ補正を含み、
前記パースペクティブ補正が、前記対象者の頭部を利用するパースペクティブ補正、前記モバイル・コンピュータ・デバイスのジャイロスコープを利用するパースペクティブ補正、及び前記モバイル・コンピュータ・デバイスの別のセンサを利用するパースペクティブ補正から成る群から選択される、請求項１５に記載の方法。
対象者の体重を予測するためのコンピュータ・プログラム製品であって、その内部に包含されたプログラム命令を有する非一時的コンピュータ可読記憶媒体を備え、前記プログラム命令が、プロセッサによって実行可能であり、前記プロセッサに、
１つ又は複数の対象者パラメータを受け取ることと、
前記対象者を含む１つ又は複数の画像を受信することと、
１つ又は複数の注釈深層学習モジュールを利用して、前記１つ又は複数の画像から前記対象者の衣服下の１つ又は複数の身体構成要素の１つ又は複数の注釈重要点を識別することと、
前記１つ又は複数の注釈重要点に基づいて、前記対象者の１つ又は複数の幾何学的特徴を計算することと、
前記対象者の前記１つ又は複数の幾何学的特徴及び前記１つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、前記対象者の前記体重の予測値を生成することと、を遂行させる、コンピュータ・プログラム製品。
前記１つ又は複数の幾何学的特徴が、身体構成要素の外周、身体構成要素の長さ、身体画像面積、身体構成要素の画像面積、身体体積、及び身体構成要素の体積から成る群、から選択される、請求項１９に記載のコンピュータ・プログラム製品。