JP2022521844A - 深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法 - Google Patents

深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法 Download PDF

Info

Publication number
JP2022521844A
JP2022521844A JP2021558836A JP2021558836A JP2022521844A JP 2022521844 A JP2022521844 A JP 2022521844A JP 2021558836 A JP2021558836 A JP 2021558836A JP 2021558836 A JP2021558836 A JP 2021558836A JP 2022521844 A JP2022521844 A JP 2022521844A
Authority
JP
Japan
Prior art keywords
subject
weight
images
annotation
body component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021558836A
Other languages
English (en)
Inventor
恭平 神山
コウ、チョン、ジン
優 佐藤
Original Assignee
ボディグラム、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ボディグラム、インコーポレイテッド filed Critical ボディグラム、インコーポレイテッド
Publication of JP2022521844A publication Critical patent/JP2022521844A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0062Arrangements for scanning
    • A61B5/0064Body surface scanning
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/107Measuring physical dimensions, e.g. size of the entire body or parts thereof
    • A61B5/1075Measuring physical dimensions, e.g. size of the entire body or parts thereof for measuring dimensions by non-invasive methods, e.g. for determining thickness of tissue layer
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/107Measuring physical dimensions, e.g. size of the entire body or parts thereof
    • A61B5/1077Measuring of profiles
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/107Measuring physical dimensions, e.g. size of the entire body or parts thereof
    • A61B5/1079Measuring physical dimensions, e.g. size of the entire body or parts thereof using optical or photographic means
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7278Artificial waveform generation or derivation, e.g. synthesising signals from measured signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01GWEIGHING
    • G01G19/00Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups
    • G01G19/44Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups for weighing persons
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01GWEIGHING
    • G01G19/00Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups
    • G01G19/44Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups for weighing persons
    • G01G19/50Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups for weighing persons having additional measuring devices, e.g. for height
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Abstract

1つ又は複数の画像から体重を予測するためのシステム及び方法が開示される。方法が、1つ又は複数の対象者パラメータを受け取ることと、対象者を含む1つ又は複数の画像を受信することと、1つ又は複数の注釈深層学習ネットワークを利用して、1つ又は複数の画像から対象者の衣服下の1つ又は複数の身体特徴の1つ又は複数の注釈重要点を識別することと、1つ又は複数の注釈重要点に基づいて、対象者の1つ又は複数の幾何学的特徴を計算することと、対象者の1つ又は複数の幾何学的特徴及び1つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、対象者の体重の予測値を生成することと、のステップを含む。

Description

本出願は、2019年4月2日に出願された「SYSTEMS AND METHODS FOR WEIGHT ESTIMATION FROM USER PHOTOS USING DEEP LEARNING NETWORKS」と題された、米国整理番号第62/828,373号からの優先権の利益を主張するPCT(特許協力条約)出願である。
本発明の実施例は、自動化された身体測定の分野にあり、詳細には、モバイル・デバイスで撮影された写真を使用して、ユーザの体重を推定することに関する。
本発明の背景における陳述は、本発明並びにその用途及び使用方法の理解を支援するために提供され、従来技術を構成しない可能性がある。
ユーザの体重の正確な推定値を取得することのために、多くの有用なアプリケーションが存在する。例えば、健康追跡及び体重減少追跡は、体重の推定を必要とする。同様に、身長測定に基づいて、衣服のサイズ及び適合を正確に推定することが、深層学習を用いて遂行され得るが、体重の正確な推定は、身長測定のより正確な推定のための有益な入力である。
現在の体重測定方法は、常に利用可能とは限らないハードウェア構成要素である、体重計を利用することに依存している。例えば、全ての人が、家に体重計をもっているわけではなく、全ての人が、人前のジムで自分の体重を測定することを快適に感じるわけではない。スマート・フォンの出現により、ユーザは、汎用ハードウェアを用いて、専用のセンサ又は他のハードウェアを利用することなしに、シームレスで即時的なユーザ・エクスペリエンスを期待するようになった。したがって、体重測定のための専用体重計を購入することをユーザに求めることは、多くの現代の技術用途には実現可能な方法ではなく、不要なユーザの反発を招く。同様に、体重の正確な推定が他の技術用途に求められている場合、ユーザに自身の体重を「当て推量」させることは、とても十分とは言えない。
したがって、通常の2Dスマート・フォン・カメラを使用して撮影されたユーザの写真から体重を正確に推定するためのシステム及び方法を提供することは、最新技術における改善となり得て、その結果、全ての人が自身の写真を簡単に撮影し、正確な体重推定の恩恵が得ることができる。本発明が開発されたことは、本背景に対してである。
米国整理番号第16/195,802号 米国特許第10,321,728号 米国整理番号第62/660,377号 米国整理番号第16/741,620号 米国整理番号第62/780,737号 米国整理番号第16/517,391号 米国特許第10,489,683号 米国整理番号第16/697,146号
Hengshuang Zhaoら、「Pyramid Scene Parsing Network」、CVPR 2017、2016年12月4日、arXiv:1612.01105で利用可能 Leo Breiman、「Random Forests」、Machine Learning、45巻、5~32ページ、2001年、Kluwer Academic Publishers、オランダ、doi.org/10.1023/A:1010933404324で利用可能
本発明は、例えば、2Dモバイル・デバイス・カメラを使用して撮影された、ユーザ画像から体重推定値を抽出するための方法及びシステムに関する。
より具体的には、多様な実施例では、本発明は、対象者の体重を推定又は予測するためのコンピュータに実装される方法であり、コンピュータに実装される方法がハードウェア・プロセッサによって実行可能であり、方法が、1つ又は複数の対象者パラメータを受信することと、対象者を含む1つ又は複数の画像を受信することと、1つ又は複数の注釈深層学習モジュール(annotation deep-learning modules)を利用して、1つ又は複数の画像から対象者の衣服下の1つ又は複数の身体構成要素の1つ又は複数の注釈重要点(annotation key points)を識別することと、1つ又は複数の注釈重要点に基づいて、対象者の1つ又は複数の幾何学的特徴を計算することと、対象者の1つ又は複数の幾何学的特徴及び1つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、対象者の体重の予測値を生成することと、を含む。
ある実施例では、1つ又は複数の幾何学的特徴は、身体構成要素の外周、身体構成要素の長さ、身体画像面積、身体構成要素の画像面積、身体体積、及び身体構成要素の体積から成る群、から選択される。ある実施例では、身体構成要素の外周は、少なくとも1つの身体構成要素の複数の身体構成要素の外周を含む。
ある実施例では、対象者の体重の予測値を生成することは、重量機械学習モジュールへの入力として、1つ又は複数の幾何学的特徴及び1つ又は複数の対象者パラメータを含む特徴ベクトルを生成することを、さらに含む。
ある実施例では、重量機械学習モジュールは、線形リグレッサ、非線形リグレッサ、及びランダム・フォレスト・アルゴリズムのうちの1つ又は複数を含み、重量機械学習モジュールは、1人又は複数のサンプル対象者の1つ又は複数のサンプル体重及び1つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データ(正確さや整合性をチェックするためのデータ:ground truth data)でトレーニングされる。
ある実施例では、対象者パラメータのうちの1つ又は複数は、1つ又は複数の画像で、画素(pixel)座標から現実世界(real-world)座標にスケーリングするために、規格化データとして使用される。
ある実施例では、対象者の身長が、規格化データとして使用される。ある実施例では、画像内の既知のサイズの基準物体が規格化データとして使用される。
ある実施例では、1つ又は複数の画像は、少なくとも2つの画像を含み、少なくとも2つの画像は、少なくとも2つの斜視視野内の対象者を含む。
ある実施例では、少なくとも2つの画像は、少なくとも対象者の正面視野画像及び側面視野画像を含み、1つ又は複数の注釈重要点に基づいて1つ又は複数の幾何学的特徴を生成することは、(a)注釈をつけられた正面視野及び側面視野画像並びに対象者の身長を利用して、少なくとも1つの注釈をつけられた身体構成要素の少なくとも1つの外周を計算するステップと、(b)注釈をつけられた正面視野及び側面視野画像並びに対象者の身長を利用して、少なくとも1つの注釈をつけられた身体構成要素の少なくとも1つの身体構成要素の画像面積を計算するステップと、(c)注釈をつけられた正面視野及び側面視野画像並びに対象者の身長を利用して、少なくとも1つの注釈をつけられた身体構成要素の少なくとも1つの身体構成要素の体積を計算するステップと、から成る群から選択される1つのステップを含む。
ある実施例では、方法は、1つ又は複数の画像を受信した後、背景から対象者に関連付けられた1つ又は複数の身体構成要素を識別するために、画像上で身体セグメント化を遂行することをさらに含み、身体セグメント化は、セグメント化トレーニング・データでトレーニングされてきたセグメント化深層学習モジュールを利用し、セグメント化トレーニング・データは、1人又は複数のサンプル対象者用の1つ又は複数の画像と、1人又は複数のサンプル対象者用の身体構成要素毎の身体構成要素セグメンテーションと、を含む。
ある実施例では、注釈深層学習モジュールは、1人又は複数のサンプル対象者用の1つ又は複数の画像と、1人又は複数のサンプル対象者用の身体構成要素毎の1つ又は複数の注釈重要点と、を含むトレーニング・データを利用する。
ある実施例では、1つ又は複数の対象者パラメータは、身長、受信された対象者体重推定値、性別、年齢、人種、及び対象者に関連付けられた人口統計情報から成る群から選択される。
ある実施例では、対象者の体重の予測値は第1の推定値であり、方法は、第2の機械学習モジュールを使用して、対象者の体重の第2の推定値を生成することと、第1の推定値の第1の信頼性スコアと第2の推定値の第2の信頼性スコアとを比較することと、第1及び第2の信頼性スコアに基づいて、対象者の体重として第1の推定値又は第2の推定値のいずれかを選択することと、をさらに含む。
ある実施例では、方法は、対象者の体重の予測値が所定の値を下回る信頼性レベルに相当するか否かを決定することと、対象者の体重の予測値が所定の値を下回る信頼性レベルに相当すると決定したことに応答して、対象者の体重の予測値を受信された対象者の体重推定値と比較することと、受信された対象者体重推定値が重量機械学習モジュールを導くために使用される、対象者の体重の予測値を更新することと、対象者の体重の予測値を対象者の体重の更新された予測値で置換することと、をさらに含む。
ある実施例では、対象者パラメータは、モバイル・コンピュータ・デバイスから受信され、対象者画像は、モバイル・コンピュータ・デバイスのカメラから受信される。ある実施例では、モバイル・コンピュータ・デバイスから1つ又は複数の対象者パラメータ受信することは、モバイル・コンピュータ・デバイスによって遂行された測定値を受信することを含む。ある実施例では、モバイル・コンピュータ・デバイスの深さセンサからの深さデータが、1つ又は複数の画像内で画素座標から現実世界座標にスケーリングするために、規格化データとして使用される。
ある実施例では、方法は、注釈重要点を識別する前に、対象者及び背景の1つ又は複数の画像を前処理することをさらに含み、前処理することは、1つ又は複数の画像上での少なくともパースペクティブ補正を含み、パースペクティブ補正は、対象者の頭部を利用するパースペクティブ補正、モバイル・コンピュータ・デバイスのジャイロスコープを利用するパースペクティブ補正、及びモバイル・コンピュータ・デバイスの別のセンサを利用するパースペクティブ補正から成る群から選択される。
多様な実施例では、コンピュータ・プログラム製品開示される。コンピュータ・プログラムは、対象者の体重測定値を予測することのために使用され得て、その内部に包含されたプログラム命令又はプログラム・コードを有するコンピュータ可読記憶媒体を含み得て、プログラム命令は、プロセッサによって実行可能であり、プロセッサに本明細書で記載されたステップを遂行させる。
多様な実施例では、コンピュータ実行可能構成要素を記憶するメモリと、メモリに動作可能に結合され、メモリ内に記憶されたコンピュータ実行可能構成要素を実行する、ハードウェア・プロセッサとを含み、コンピュータ実行可能構成要素が、上述のステップを実行するプロセッサと通信可能に結合された構成要素を含み得る、体重測定値を予測するシステムが説明されている。
別の実施例では、本発明は、プロセッサによって実行されるとき、プロセッサに体重測定値を予測させるための処理を実行させる、実行可能な命令を、記憶する非一時的なコンピュータ可読記憶媒体であり、命令は、プロセッサに上述のステップを遂行させる。
別の実施例では、本発明は、2Dカメラを使用する体重測定値予測システムであり、システムは、2Dカメラ、プロセッサ、ディスプレイ、及び第1のメモリを有するユーザ・デバイスと、第2のメモリ及びデータ・リポジトリを備えるサーバと、当該デバイスと当該サーバとの間の電気通信リンクと、当該ユーザ・デバイス及び当該サーバの当該第1及び第2のメモリに含有される複数のコンピュータ・コードと、を含み、当該複数のコンピュータ・コードは、実行されたとき、当該サーバ及び当該ユーザ・デバイスに、上述のステップを含む処理を実行させる。
さらに別の実施例では、本発明は、体重測定値を予測するコンピュータ化されたサーバであり、少なくとも1つのプロセッサ、メモリ、及び当該メモリに含有された複数のコンピュータ・コードを含み、当該複数のコンピュータ・コードは、実行されたとき、当該プロセッサに、上述のステップを含む処理を実行させる。
本発明の他の態様及び実施例は、本明細書で示されるステップを含む方法、処理、及びアルゴリズムを含み、本明細書で示されるシステム及びサーバの動作の処理及びモードをさらに含む。
本発明のやはり他の態様及び実施例は、添付図面と併せて読まれるとき、本発明の詳細な説明により明白になるであろう。
本明細書で示される本発明の実施例は、例示するものであり、限定するものではない。実施例は、ここで、例として、添付図面を参照して説明されることになる。
本発明のある実施例による、深層学習ネットワーク(DLN:deep learning network)及び機械学習を利用する体重決定処理の例示的な図である。 本発明の別の実施例による、深層学習ネットワーク(DLN)及び機械学習を使用する体重決定処理の一例のフロー図である。 本発明の別の実施例による、深層学習ネットワーク(DLN)及び機械学習を使用する体重決定の詳細なフロー図である。 本発明のある実施例による、深層学習ネットワーク(DLN)を使用した身体構成要素セグメント化及び注釈の詳細なフロー図である。 本発明の別の実施例による、重要点注釈及び1つ又は複数の対象者パラメータに基づいて計算された、幾何学的特徴から取得された1つ又は複数の特徴ベクトルから体重を決定する機械学習アルゴリズムの例示的な図である。 本発明のある実施例による、体重測定を実施する例示的なクライアント・サーバ図である。 本発明のある実施例による、個別セグメント化DLN、注釈DLN、及び重量機械学習モジュールを示す、体重決定のための一例のフロー図である。 本発明のある実施例を実施するための、サーバ及び/又はユーザ・デバイスの例示的なハードウェア・アーキテクチャの図である。 クライアント・サーバ環境における本発明のある実施例を実施する例示的なシステム・アーキテクチャの図である。 本発明のある実施例による、単一のカメラを備えるモバイル・デバイスが、人の体重を測定するために使用される、本発明の使用事例を示す例示的な図であり、対象者の写真をキャプチャするユーザへの命令を伴うグラフィカル・ユーザ・インターフェース(GUI:graphical user interface)を示している。 本発明のある実施例による、1つ又は複数の対象者パラメータを受信するためのモバイル・デバイスGUIの例示的な図である。 本発明のある実施例による、対象者が立つべき場所を指示するテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスGUIの例示的な図である。 本発明のある実施例による、対象者の画像上に拡張現実で重畳された、対象者が立つべき場所を指示するテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスGUIの別の例示的な図である。 本発明のある実施例による、側面視野写真をキャプチャするモバイル・デバイスGUIの例示的な図である。 本発明のある実施例による、システムが体重を予測するためにキャプチャされた写真を処理する間に表示される、モバイル・デバイスGUIの例示的な図である。 本発明のある実施例による、体重予測が首尾よく完了された場合に通知画面を示すモバイル・デバイスGUIの例示的な図である。 本発明のある実施例による、体重予測が首尾よく完了された場合に、通知画面を伴うモバイル・デバイスGUIを示す、ユーザ写真から体重を予測するために使用されるモバイル・デバイスの例示的な図である。
ここで、提供された図面を参照しながら、本発明の実施例が詳細に説明される。
以下の説明では、説明を目的として、多数の具体的な詳細が、本発明の完全な理解を提供するために、表明される。しかしながら、当業者には、本発明がこれらの具体的な詳細なしに実施され得ることは明白であろう。他の事例では、構造、デバイス、行動、及び方法が、本発明を不明瞭化させないために、概略、使用事例、及び/又はフロー図を使用して示される。以下の説明が、説明するする目的で、多くの特定のものを含むが、当業者には、示唆された詳細への多くの変形例及び/又は変更が、本発明の範囲内にあることを理解されよう。同様に、本発明の特徴のうちの多くが、相互の観点から、又は相互に連結して、説明されるが、当業者には、これらの特徴のうちの多くが、他の特徴とは無関係に提供され得ることが理解されよう。したがって、本発明の本明細書は、本発明の普遍性に対するいかなる損失、及び本発明への制限を伴わずに、表明される。
ある実施例では、システムは、入力された対象者の写真、規格化データ、及び1つ又は複数の対象者パラメータを使用して、体重予測値を自動的に計算し得る(例えば、1つ又は複数のAIに基づくアルゴリズムを使用して)。本発明の実施例は、専用ハードウェアカメラ、専用体重計を必要とせず、いかなる専用ハードウェアも何であれ必要としない。むしろ、その代わりに、機械学習アルゴリズムと組み合わされた深層学習手法を利用する先進的なコンピュータ視覚技術が使用され、たとえ対象者が何を着用していても、単純なモバイル・デバイス・カメラから提供される写真から、正確な体重を予測する。本開示では、用語「2Dフォン・カメラ」が、スマート・フォン、タブレット、ラップトップ・コンピュータ、デスクトップ・コンピュータなどのような、コンピュータ・デバイスに組み込まれた又は接続された任意の従来のカメラを示すために使用される。
重量予測のための深層学習ネットワーク及び機械学習
図1は、本発明のある実施例による、深層学習ネットワーク(DLN)及び機械学習を利用する体重予測処理の例示的な図100を示している。ステップ110では、通常の2Dカメラを備えたモバイル・デバイスが対象者の1つ又は複数の画像(例えば、正面112及び側面113視野画像)を取得するために、同様に1つ又は複数の対象者パラメータを受信するために利用される。対象者パラメータは、規格化データ(例えば、人の身長)又は他の対象者パラメータを含み得て、後続のステップ131及び170で説明される。ステップ120では、人に関連付けられた1つ又は複数の身体構成要素(特徴)が、背景から識別され、1つ又は複数の深層学習ネットワーク(121、122)が、対象者が画像112及び113で着用していたかもしれない衣服の下の、1つ又は複数の身体構成要素(特徴)に注釈をつけるために利用される。ある実施例では、背景からの人の識別は、人の身体特徴(例えば、身体構成要素)を背景から識別することに関してトレーニングされてきた、1つ又は複数のセグメント化深層学習ネットワークを利用して遂行される。さらに、ある実施例では、注釈重要点が、各身体特徴に関してトレーニングされてきた、1つ又は複数の注釈深層学習ネットワークを利用して、身体構成要素毎に生成される。このことは、図1の注釈をつけられた正面視野123及び側面視野124画像に示されている。ある実施例では注釈ラインが、さらに生成され、身体構成要素の重要点を接続し、ライン注釈をつけられた正面及び側面視野画像をもたらす。ステップ130では、セグメント化され注釈をつけられた身体構成要素が、1つ又は複数の幾何学的特徴(例えば、身体構成要素の面積)の推定値を計算するために、受信された規格化データ(例えば、対象者身長)131と組み合わされ、ここで規格化データが、測定値(例えば、重要注釈点間の距離)を、画素座標から現実世界座標に変換することを可能にする。身体測定値190を推定するために、対象者身長131などの規格化データを用いて、セグメント化され注釈をつけられた身体構成要素130を生成し使用することは、その両方が参照により本明細書により組み込まれている、2018年4月20日に出願された「SYSTEMS AND METHODS FOR FULL BODY MEASUREMENTS EXTRACTION USING A 2D PHONE CAMERA」と題された米国整理番号第62/660,377号、そこからの優先権の利益をそれ自体が主張する、2018年11月19日に出願された、米国整理番号第16/195,802号であり、2019年6月18日に米国特許第10,321,728号として発行された、「SYSTEMS AND METHODS FOR FULL BODY MEASUREMENTS EXTRACTION」と題された関連する出願で説明されている。
図1は、3つの可能性がある実施例の選択肢をステップ140、150、及び160で示している。第1の選択肢140では、幾何学的特徴は、身体構成要素の外周である。この選択肢によって、1つ又は複数の身体構成要素141の外周が、注釈をつけられた身体構成要素(特徴)から生成される。ある実施例では、1つ又は複数の身体構成要素の外周は、少なくとも正面123及び側面124の注釈をつけられた画像を使用して生成される。いくつかの実施例では、1つ又は複数の身体構成要素の外周は、単一の身体構成要素の外周の特徴ベクトル141に合成される。ステップ142では、対象者の体重は、重量機械学習モジュールを利用して、1つ又は複数の身体構成要素の外周141及び1つ又は複数の対象者パラメータ170(例えば、対象者の身長、年齢、性別、及び/又は人種)から推定又は予測される。いくつかの実施例では、1つ又は複数の身体構成要素の外周141及び1つ又は複数の対象者パラメータ170を含む重量機械学習モジュールの入力は、単一の特徴ベクトルに統合される(図1で図示せず)。重量機械学習モジュール142は、いくつかの実施例では、1つ又は複数のランダム・フォレスト・リグレッサを含み得る。他の機械学習方法がやはり、以下により詳細に説明するように、重量機械学習モジュールの範囲内にある。最後に、ステップ180では、対象者の予測された体重(例えば、重量推定値)が出力される。予測された体重は、モバイル・コンピュータ・デバイス上でユーザに出力され、又はモバイル・コンピュータ・デバイスによって若しくは別のサーバ処理によって、他の下流側の目的に使用され得る。
第2の選択肢150によれば、幾何学的特徴は、身体構成要素の画像面積であり、1つ又は複数の身体構成要素の面積が、注釈をつけられた身体構成要素(特徴)151から生成される。ある実施例では、1つ又は複数の身体構成要素の面積は、少なくとも正面123及び側面124の注釈重要点を使用して生成される。いくつかの実施例では、1つ又は複数の身体構成要素の画像面積は、単一の身体構成要素の面積特徴ベクトルに合成される(図1に図示せず)。いくつかの実施例では、身体面積特徴ベクトルは、異なる身体ポーズからの全身面積を含む(例えば、注釈をつけられた正面123及び側面124画像に基づいた正面全身面積及び側面全身面積)。別の実施例では、身体面積特徴ベクトルは、1つ又は複数の注釈をつけられた画像に基づいた1つ又は複数の身体構成要素の面積を含む(例えば、注釈をつけられた正面123及び側面124画像に基づいた1つ又は複数の身体構成要素の画像面積)。ステップ152では、対象者の体重は、重量機械学習モジュールを利用して、1つ又は複数の身体構成要素の面積151及び1つ又は複数の対象者パラメータ170(例えば、対象者の身長、年齢、性別、及び/又は人種)から推定される。いくつかの実施例では、1つ又は複数の身体構成要素の面積151及び1つ又は複数の対象者パラメータ170を含む重量機械学習モジュールの入力は、単一の特徴ベクトルに統合される(図1で図示せず)。重量機械学習モジュール152は、1つ又は複数のランダム・フォレスト・リグレッサを含み得る。最後に、ステップ180では、予測された対象者の体重が出力される。
第3の選択肢160によれば、幾何学的特徴は、身体構成要素の体積であり、1つ又は複数の身体構成要素の体積が、注釈をつけられた身体構成要素161から生成される。ある実施例では、1つ又は複数の身体構成要素の体積は、少なくとも正面123及び側面124の注釈重要点を使用して生成される。いくつかの実施例では、1つ又は複数の身体構成要素の体積は、単一の身体体積特徴ベクトルに合成される(図1に図示せず)。いくつかの実施例では、身体体積特徴ベクトルは、異なる身体ポーズに基づいた全身体積の推定値を含む(例えば、注釈をつけられた正面123及び側面124画像)。別の実施例では、身体体積特徴ベクトルは、1つ又は複数の注釈をつけられた画像に基づいた1つ又は複数の身体構成要素の体積を含む(例えば、注釈をつけられた正面123及び側面124画像)。ステップ162では、対象者の体重は、重量機械学習モジュールを利用して、1つ又は複数の身体構成要素の体積161及び1つ又は複数の対象者パラメータ170(例えば、対象者の身長、年齢、性別、及び/又は人種)から推定される。いくつかの実施例では、1つ又は複数の身体構成要素の体積161及び1つ又は複数の対象者パラメータ170を含む重量機械学習モジュールの入力は、単一の特徴ベクトルに統合される(図1で図示せず)。重量機械学習モジュール162は、1つ又は複数のランダム・フォレスト・リグレッサを含み得る。最後に、ステップ180では、予測された対象者の体重が出力される。
注釈をつけられた対象者画像からの幾何学的特徴の計算
第1の選択肢140のいくつかの実施例では、注釈重要点(例えば、注釈をつけられた正面視野123及び側面視野124の身体構成要素)は、センチメートル(cm)、インチ(in)などのような現実世界座標での身体構成要素(身体特徴)毎の外周を計算するために使用される。例えば、頸部特徴の正面視野及び側面視野注釈重要点間の距離は、センチメートルでの頸部外周を計算するために使用され得る。計算された外周は、外周特徴ベクトル141を生成するために利用される。ある実施例では、臀部及び頸部外周は、外周特徴ベクトルに使用される。別の実施例では、脚部及び腕部外周は、外周特徴ベクトルを生成するために、臀部及び/又は頸部外周と任意に組み合わせて使用される。さらに別の実施例では、他の身体構成要素の外周が、外周特徴ベクトルを生成するために、当業者によって認識され得るような、多様な部分的組合せで使用され得る。いくつかの実施例では、身体構成要素の外周は、少なくとも1つの身体構成要素の複数の身体構成要素の外周を含み得る。例えば、身体構成要素(腕部、大腿部、及び脚部など)の長さに沿って採寸された2つより又はそれより多い外周が、利用され得る。やはり他の実施例では、腕部、脚部、又は胴部長さなどの、身体構成要素の長さが、対象者特徴ベクトルを生成するために、身体構成要素の外周と共に、利用され得る。
同様に、第2の選択肢150のいくつかの実施例では、注釈重要点(例えば、注釈をつけられた正面視野123及び側面視野124の身体構成要素)は、平方センチメートル(cm)、平方インチ(in)などのような現実世界座標での身体構成要素(身体特徴)毎の画像面積を計算するために使用される。例えば、多様な身体構成要素(頸部、腰部、手首部、大腿部、足部など)の正面視野注釈重要点123間の距離は、cmでの正面視野身体画像面積を計算するために使用され得る。別の実施例では、多様な身体構成要素(頸部、腰部、手首部、大腿部、足部など)の正面視野注釈重要点123は、cmでの身体構成要素毎の画像面積を計算するために使用され得る。計算された画像面積は、画像面積特徴ベクトル151を生成するために利用される。ある実施例では、正面視野及び側面視野全身画像面積が、画像面積特徴ベクトルに使用される。別の実施例では、正面視野の胴部、脚部、及び腕部の身体構成要素の画像面積が、画像面積特徴ベクトルを生成するために、正面視野及び/又は側面視野全身画像面積と任意に組み合わせて、使用される。さらに別の実施例では、他の身体構成要素の画像面積が、画像面積特徴ベクトルを生成するために、当業者によって認識され得るような、多様な部分的組合せで使用され得る。
さらに、第3の選択肢160のいくつかの実施例では、注釈重要点(例えば、注釈をつけられた正面視野123及び側面視野124の身体構成要素)は、立法センチメートル(cm)、立法インチ(in)などのような現実世界座標での身体構成要素(身体特徴)毎の体積を計算又は推定するために使用される。例えば、多様な身体構成要素(頸部、腰部、手首部、大腿部、足部など)の正面視野123及び側面視野124の注釈重要点間の距離は、cmでの身体体積を計算するために使用され得る。別の実施例では、多様な身体構成要素(頸部、腰部、手首部、大腿部、足部など)の正面視野123及び側面視野124の注釈重要点は、cmでの身体構成要素毎の体積を計算するために使用され得る。計算された体積は、身体体積特徴ベクトル161を生成するために利用される。ある実施例では、全身体積が、体積特徴ベクトルに使用される。別の実施例では、胴部、脚部、及び腕部の身体構成要素の体積が、体積特徴ベクトルを生成するために、全身体積と任意に組み合わせて、使用される。さらに別の実施例では、他の身体構成要素の体積が、体積特徴ベクトルを生成するために、当業者によって認識され得るような、多様な部分的組合せで使用され得る。
図2は、本発明の別の実施例による、深層学習ネットワーク(DLN)及び機械学習を使用する体重予測の処理の一例のフロー図200を示している。ステップ201では、処理は、1つ又は複数の画像をコンピュータ・デバイスから受信することを含み、画像は、対象者及び背景を含む。ステップ202では、処理は、規格化データ(例えば、対象者身長)を受信することを含む。上述したように、規格化データは、画像内の既知のサイズの基準対象物、深さセンサからの深さデータ、及びその他をさらに含み得る。任意選択で、ステップ203では、処理は、1つ又は複数の対象者パラメータ(例えば、年齢、性別、人種など)をコンピュータ・デバイスから受信することを含む。任意選択で、ステップ204では、処理は、例えば、身体構成要素を背景からセグメント化するために利用される、セグメント化深層学習ネットワークを利用することによって、人に関連付けられた1つ又は複数の身体特徴(例えば、身体構成要素)を識別することを含む。図2では、任意選択のステップ203及び204は、破線の四角によって示されている。ステップ205では、処理が、重要身体特徴位置に対応する注釈点を有する1つ又は複数の身体特徴に、各身体特徴に関してトレーニングされてきた、1つ又は複数の注釈深層学習ネットワークを利用して、注釈をつけることを含む。任意選択のステップ204が不在の場合、ステップ205は、最初の、身体構成要素を背景から分離することなしに、注釈ステップの一部として、1つ又は複数の身体特徴(例えば、身体構成要素)の識別を自動的に遂行する。ステップ205から注釈をつけられた身体構成要素は次に、1つ又は複数の幾何学的特徴(例えば、身体構成要素の外周、面積、又は体積)を計算する又は推定するために、ステップ202から受信された規格化データと組み合わされる。図2は、3つの可能性がある実施例の選択肢を選択肢210(身体構成要素の外周)、220(身体構成要素の面積)、及び230(身体構成要素の体積)で示している。これらの選択肢は、図1で示されている選択肢140、150、及び160に類似している。
第1の選択肢210では、幾何学的特徴は、身体構成要素の外周である。この選択肢によれば、ステップ211では、処理は、注釈をつけられた身体構成要素及び規格化データから、1つ又は複数の身体構成要素の外周を、生成すること又は推定することを含む(画素座標から現実世界座標に変換するために)。いくつかの実施例では、ステップ211は、注釈をつけられた身体構成要素及び対象者の身長を使用して、身体構成要素の外周を推定することを含む。いくつかの実施例では、身体構成要素の外周は、1つの外周特徴ベクトル141に合成される。ステップ212では、1つ又は複数の身体構成要素の外周及び1つ又は複数の対象者パラメータを含む重量機械学習モジュールの入力は、単一の対象者特徴ベクトルに統合される。やはり他の実施例では、腕部、脚部、又は胴部長さなどの、身体構成要素の長さが、対象者特徴ベクトルを生成するために、身体構成要素の外周と共に、利用され得る。ステップ213では、処理は、身体構成要素の外周/長さのグラウンド・トゥルース・データ(例えば、年齢、性別、人種などの所与の対象者パラメータに関して身体構成要素の外周/長さと、体重との間の相関を示すデータ)に関してトレーニングされてきた、対象者特徴ベクトルに基づいた重量機械学習モジュールを利用して、対象者の体重を推定する又は予測することを含む。最後に、ステップ240では、処理は、予測された対象者の体重を下流での使用のために出力する。
第2の選択肢220では、1つ又は複数の幾何学的特徴が、身体画像面積又は身体構成要素画像面積である。この選択肢によれば、ステップ221では、処理は、注釈をつけられた身体構成要素及び規格化データから、1つ又は複数の身体構成要素の画像面積を、生成すること又は推定することを含む。いくつかの実施例では、ステップ221は、注釈をつけられた身体構成要素及び人の身長を使用して、全身画像面積又は1つ又は複数の身体構成要素の画像面積を推定することを含む。いくつかの実施例では、身体構成要素の画像面積は、図1という状況で上述されたように、単一の身体画像面積ベクトルに合成される。ステップ222では、1つ又は複数の身体構成要素の画像面積及び1つ又は複数の対象者パラメータを含む重量機械学習モジュールの入力は、単一の対象者特徴ベクトルに統合される。ステップ223では、処理は、身体面積のグラウンド・トゥルース・データ(例えば、年齢、性別、人種などの所与の対象者パラメータに関して身体(構成要素)の面積と、体重との間の相関を示すデータ)に関してトレーニングされてきた、対象者特徴ベクトルに基づいた重量機械学習モジュールを利用して、対象者の体重を推定することを含む。最後に、ステップ240では、処理は、予測された対象者の体重を出力する。
第3の選択肢230では、1つ又は複数の幾何学的特徴が、身体体積又は1つ又は複数の身体構成要素の体積である。この選択肢によれば、ステップ231では、処理は、注釈をつけられた身体構成要素及び規格化データから、1つ又は複数の身体構成要素の体積を、生成すること又は推定することを含む。いくつかの実施例では、ステップ231は、注釈をつけられた身体構成要素及び人の身長を使用して、全身体積又は1つ又は複数の身体構成要素の体積を推定することを含む。いくつかの実施例では、身体構成要素の体積は、図1という状況で上述されたように、単一の身体体積特徴ベクトルに合成される。ステップ232では、1つ又は複数の身体構成要素の体積及び1つ又は複数の対象者パラメータを含む重量機械学習モジュールの入力は、単一の対象者特徴ベクトルに統合される。ステップ233では、処理は、身体体積のグラウンド・トゥルース・データ(例えば、年齢、性別、人種などの所与の対象者パラメータに関して身体(構成要素)の体積と、体重との間の相関を示すデータ)に関してトレーニングされてきた、対象者特徴ベクトルに基づいた重量機械学習モジュールを利用して、対象者の体重を推定することを含む。最後に、ステップ240では、処理は、予測された対象者の体重を出力する。
注釈重要点350から計算された幾何学的特徴は、身体構成要素の外周、身体構成要素の画像面積、身体構成要素の体積に限定されず、受信された2D画像の分析を通して測定可能な任意の幾何学的量を含み得ることが理解されよう。例えば、ある追加の選択肢では(図1~3には図示せず)、幾何学的特徴は、受信された写真から生成された注釈重要点から現実世界座標で測定された身体構成要素の長さを含み得る。これらの身体構成要素の長さはその後、対象者の幾何学的特徴を含む、対象者特徴ベクトル内に含まれ得る。
幾何学的特徴が、別々に又は任意の組合せで使用され得ることが理解されよう。例えば、身体構成要素の外周及び身体構成要素の長さの両方が、対象者特徴ベクトルを生成するために、共に使用され得る。別の実例では、身体構成要素の外周、身体構成要素の長さ、及び身体構成要素の画像面積が全て、対象者特徴ベクトルを生成するために、共に使用され得る。さらに別の実例では、身体構成要素の体積が、他の幾何学的特徴のうちの一部又は全てと別々に或いは組合せで使用され得る。
対象者画像/写真
ステップ201では、1つ又は複数の対象者画像又は写真が、モバイル・コンピュータ・デバイス、ラップトップ・コンピュータ、タブレット、スタンドアローンのカメラなどのようなユーザ・デバイスから受信され得る。例えば、少なくとも対象者の正面及び/又は側面視野写真が受信され得る。ある実施例では、写真は、デバイス(例えば、携帯電話、ラップトップ・コンピュータ、タブレットなど)から取得され得る。別の実施例では、写真は、データベース(例えば、ソーシャル・メディア・データベース)から取得され得る。別の実施例では、対象者写真は、対象者の全体の身体のうちの、正面視野を示す写真、及び側面視野を示す写真を含む。いくつかの実施例では、正面視野などのわずかに1枚の写真が利用され、1枚の写真は、正確な体重予測を遂行するために十分である。やはり他の実施例では、3枚以上の写真が利用され、いくつかの実施例では、正面視野写真、側面視野写真、及び約45度の角度で撮影された写真が含まれる。対象者写真の他の組合せが、当業者によって認識され得るように、本発明の範囲内にある。いくつかの実施例では、例えば対象者の正面視野、90度、180度、又はさらに360度視野を含む、対象者映像が、受信され得る。対象者映像から、対象者の正面視野、側面視野、及び/又は45度視野などの1つ又は複数の静止画フレーム又は写真が、映像から抽出され、以降に続く処理で使用される。
ある実施例では、画像は、指定された距離(例えば、コンピュータ・デバイスのカメラから約304,8センチメートル(10フィート)離れて)で撮影され得る。別の実施例では、所与の位置(例えば、正面及び側面視野写真)の複数の画像が、撮影され、平均的な画像が、位置毎に決定され得る。これは、精度を向上させるために遂行され得る。別の実施例では、対象者は、特定の種類の背景(例えば、中間色、又は所定の背景画像)に対して配置され得る。いくつかの実施例では、対象者は、任意の種類の背景に対して配置され得る。ある実施例では、正面及び側面視野写真が、同様のライティング条件(例えば、所与の明度、陰影など)の下で撮影され得る。
ある実施例では、画像は、特定のポーズ(所定の位置の腕部、肩部幅に広げた脚部、背部は一直線など)の対象者で撮影され得る。ある実施例では、入力画像が、手を45度にしたポーズ(「Aポーズ」)の対象者を示す。「Aポーズ」などの特定のユーザのポーズが、いくつかの実施例で使用され得るが、「Aポーズ」、手を脇につける、又は任意の他のポーズを含む、任意のポーズが本発明の範囲内にあることが当業者には理解されよう。最適なポーズは、身体から離された脚部及び腕部を明確に示すだろう。本発明のある利点は、対象者がほぼ任意の正当なポーズで、任意の種類の背景に対して、立つことができることである。対象者は、ブランクの背景に対して立つ必要がなく、又は写真を撮影する場所に特別な配置を施す必要がない。
ある実施例では、対象者は、より正確な結果のために、対象者が窮屈な、通常の、又は緩い衣服を着用しているかを知らせ得る。ある実施例では、正面及び側面視野写真は、普通に適合された衣服を着用している対象者の画像を含み得る(例えば、緩すぎない又は窮屈すぎない)。別法として、又は追加として、正面及び側面視野写真は、実施例により、部分的に着用している(例えば、シャツなし)、又は異なる種類の適合具合(例えば、窮屈、緩いなど)の、対象者の画像を含み得る。
図3は、本発明の別の実施例による、深層学習ネットワーク(DLN)及び機械学習を使用する体重予測の詳細なフロー図300を示している。体重予測処理への入力は、正面写真310、側面写真320、対象者身長330、及び他の対象者パラメータ(例えば、対象者体重推定値、年齢、性別、人種など)340を含む。正面写真310は、ステップ311で前処理され、一方、側面写真320は、ステップ321で前処理される。パースペクティブ補正、人クロッピング、画像サイズ変更などの、前処理ステップの実例は、以下で説明する。ステップ312では、前処理された正面写真が、正面写真310のための注釈重要点を抽出するために、DLN1(図4に関連してより詳細に説明される)への入力として使用される。ステップ322では、前処理された側面写真が、側面写真320のための注釈重要点を類似的に抽出するために、DLN2への入力として使用される。正面視野313からの身体構成要素毎の注釈重要点が、DLN1から出力され、側面視野323からの身体構成要素毎の注釈重要点が、DLN2から出力される。ステップ350では、正面写真310及び側面写真320からの注釈重要点の2つの集合が、図1及び2に関連して説明された幾何学的特徴(例えば、身体構成要素の外周、面積、及び/又は体積)を計算するために、規格化データ(例えば、身長)331と共に利用される。ステップ360では、身長及び他の対象者パラメータ341と共に、幾何学的特徴が、1つ又は複数の対象者体重推定値を予測するために、ランダム・フォレスト(図5に関連してより詳細に説明される)などの、機械学習アルゴリズムで利用される。最後に、ステップ370では、予測された体重が出力される。
対象者パラメータ
いくつかの実施例では、対象者パラメータのうちの1つ又は複数が、重量機械学習モジュールへの入力として利用される。例えば、身長、年齢、性別、人種、運動競技熱、及び他の対象者パラメータが、当業者によって認識され得るような、重量機械学習モジュールへの入力として使用され得る。具体的には、ある実施例によれば、対象者独特の最良の、彼ら自身の体重の「当て推量」がさらに、重量機械学習モジュールへの入力としての対象者パラメータとして使用され得る。ある例示的な実例として、対象者の性別が、重量機械学習モジュールへの入力としての1つの対象者パラメータとして使用され得る。例えば、女性は身体により多い脂肪分布を有し得て、したがって男性とは異なる密度を有し得て、故に対象者の性別が、重量機械学習モジュールへの入力の1つの有用なパラメータであり得る。当業者によって認識され得るような、重量機械学習モジュールへの入力として、同様に本発明の範囲内にあり得る、他の多くの対象者パラメータが存在する。重量機械学習モジュールは、ユーザ・パラメータと体重との間の相関において重要であるため、事前に認識されていないユーザ・パラメータを発見し得る。
対象者パラメータ(例えば、身長、体重、人口統計データ、運動競技熱など)は、ユーザから受け取られ得て、且つ/又はパラメータは、モバイル・コンピュータ・デバイスのカメラによって自動生成され得る。多様な態様では、対象者パラメータは、自動的に(例えば、コンピュータ視覚アルゴリズムを使用して又は1つ又は複数のデータベースから検索される)決定され得る、又はユーザから(例えば、ユーザ入力)受け取られる。
多様な実施例では、ステップ201(入力画像を受信する)、202(規格化データを受信する)、及び203(対象者パラメータを受信する)は、本発明の多様な実施例で任意の順序で遂行され得る、又はステップは、並行して実施され得る。いくつかの実施例では、規格化データは、対象者パラメータ(例えば、対象者の身長)のうちの1つであり、したがってステップ202及び203は、効果的に組み合わされる。
別の実施例では、受信された対象者体重推定値が、受信され、身長と併せて使用され得る。両方の対象者パラメータが、自動的に(例えば、コンピュータ視覚アルゴリズムを使用して又は1つ又は複数のデータベースから検索される)決定され若しくは推定され得る、又はユーザから(例えば、ユーザ入力)受け取られる。ある実施例では、これらの対象者パラメータから、肥満度指数(BMI:body mass index)が計算され得る。BMIは、受信された対象者体重推定値及び身長の両方を使用して、体重予測の精度を向上させるために使用され得る。
したがって、対象者パラメータは、とりわけ、身長、受信された対象者体重推定値、性別、年齢、人種、出身国、運動競技熱、及び/又は他の対象者に関連付けられた人口統計情報のうちの1つ又は複数を含み得る。身長、受信された対象者体重、BMI指標、年齢、性別などのような対象者パラメータは、体重予測の特徴ベクトルを生成するために使用され得る。多様な実施例では、対象者パラメータは、デバイスから、1つ又は複数のサード・パーティ・データ・ソースから、又はサーバから自動的に取得され得る。
規格化データ及び対象者身長
本発明の多様な実施例では、規格化データ(131、202)が、対象者身長330などの対象者パラメータのうちの1つを含み得る。規格化データは、規格化を遂行するために、画素座標から現実世界座標にスケーリングするために、取得され、生成され、且つ/又は測定される。
ある実施例では、対象者身長は、正面及び/又は側面視野写真を規格化する又はスケーリングするために、且つ写真内の対象者用の基準縮尺を提供するために、使用され得る。ある実施例では、対象者身長は、モバイル・コンピュータ・デバイスによって遂行される測定から受け取られる。ある実施例では、対象者身長は、従来の測定、従来のユーザ入力、及び/又はデータベース・クエリから知られる。ある実施例では、対象者身長は、関連する、参照により本明細書により組み込まれている2020年1月13日に出願された「METHODS AND SYSTEMS FOR HEIGHT ESTIMATION FROM A 2D IMAGE USING AUGMENTED REALITY」と題された米国整理番号第16/741,620号に記載されているような、拡張現実(AR:augmented reality)内の位置案内を使用する身長測定処理を使用するモバイル・コンピュータ・デバイスによって測定され得る。
ある実施例では、システムは、画像データを画素座標から現実世界座標(例えばセンチメートル)に規格化するために、受信された対象者身長を入力として使用して、幾何学的特徴を決定し得る。これを行うために、ある実施例では、注釈DLNが、「全身」注釈ラインを、対象者の足部の底部を表す点及び対象者の頭部の上部を表す別の点を用いた、対象者の身長の位置を示す2つの注釈点によって描く。この「全身」注釈ラインは、ステップ131、202、又は330で提供される対象者の既知の身長によって、注釈重要点間の距離を規格化するために使用される。すなわち、画像内の対象者の身長は、検出され、全ての注釈重要点測定値を規格化するために、受け取られた実際の身長と共に使用される。この処理は、対象者の既知の身長を規格化の標準測定値として使用する、「身長基準規格化」として見なされ得る。規格化が遂行されると、身体構成要素の現実世界の距離(外周及び長さ)、面積、並びに体積が、入力画像内の画素距離(外周及び長さ)並びに身体構成要素の画素面積から、計算され、予測され、又は推測され得る。
さらに別の実施例では、規格化データは、深さセンサによって入力画像上にマッピングされた、現実世界座標であり得る。深さセンサデータは、したがって、対象者の既知の位置を画素座標から現実世界座標に変換するために使用され得る。深さセンサは、Z座標データを提供し、Z軸はカメラからの距離方向であり、対象者までの距離を画素座標から現実世界座標に規格化するために使用され得る。これが、身長基準規格化に類似的に遂行される。
さらに別の実施例では、規格化データが、縮尺基準として機能する、手紙又はA4用紙、クレジット・カードなどのような、既知のサイズの物体であり得る。対象者の画像をキャプチャする準備では、長方形基準物体、例えば8.5×11の用紙又はクレジット・カードが、対象者上に又は近接して配置される。基準長方形のサイズ及びアスペクト比は、別の方法で決定され、明示的又は自動的に決定され得る。ある実施例では、ユーザは、A4又は8.5x11用紙、3x5ノート・カード、又はISO/IEC標準寸法クレジット・カードなどの、使用される基準長方形を識別し得る。このとき、長方形スコアリング・アルゴリズムが、明示的に識別された長方形を見つけ出し得る。つまり、画素座標から現実世界座標にスケーリングする規格化データは、ユーザからの基準長方形の寸法を受け取り得る。別の実施例では、処理は、共通文書サイズのデータ記憶と比較する場合、キャプチャされた画像の特性に基づいて、自動的に基準長方形のサイズを決定する。写真内に複数の長方形が見つかったとして、1つの長方形が選択されたとすると、長方形の寸法が、許容される寸法及びアスペクト比のリストから、推定される。別法として、基準長方形上の任意の文字又はロゴ、並びにサイズ及び丸みを帯びた角部が、クレジット・カードであることを示し得て、サイズが周知のクレジット・カードサイズから推定される。別の実施例では、ユーザは、クレジット・カード、ドル紙幣、又は標準的サイズ用紙などの基準長方形として使用され得る一般アイテムの。提供されたリストから選択することが求められ得る。
対象者画像の前処理
いくつかの実施例では、パースペクティブ補正などの、1つ又は複数の対象者の写真に対しての前処理が、対象者写真に対して必要に応じて遂行され得る。例えば、システムは、OpenCV、オープン・ソースのマシン視覚ライブラリを使用し得て、パースペクティブ補正の基準として、正面及び側面視野写真内の頭部の特徴及び対象者の身長を、使用し得る。このようにして、本発明の実施例は、より正確に、注釈重要点を決定し得る。任意選択で、カメラが撮影される人に対してどこに位置するかを示すパースペクティブ側面写真が、システムにカメラと対象者との間の距離を計算させることによって、さらにより正確なパースペクティブ補正をもたらし得る。いくつかの実施例では、システムはその代わりに、デバイス(又はコンピュータ・デバイス付属などのデバイスに接続された周辺機器)によって提供されるジャイロスコープ・データを使用して、写真のパースペクティブ角度を検出し、この写真のパースペクティブ角度に基づいて、パースペクティブ補正を遂行し得る。
いくつかの実施例では、1つ又は複数の追加の前処理ステップ(図1~3に図示せず)が、1つ又は複数の対象者の写真に対して遂行され得る。多様なコンピュータ視覚技術が、1つ又は複数の画像をさらに前処理するために、利用され得る。前処理ステップの他の実例は、さらなる処理の前に、1つ又は複数の画像の品質を改善するために、コントラスト、ライティング、及び他の画像処理技術を含み得る。
セグメント化深層学習ネットワーク(DLN)
本発明のいくつかの実施例では、コンピュータ視覚技術及び深層学習が、衣服下の対象者の身体の重要点を、数千のサンプル対象者からの画像に対して、衣服下の対象者の身体の輪郭と共にトレーニングされてきた1つ又は複数の深層学習ネットワークを使用して、検出するために、対象者の正面視野及び側面視野写真、加えて対象者の身長に適用される。重要点注釈が、現実世界座標での対象者の1つ又は複数の幾何学的特徴測定値を生成するために、対象者の身長と共に使用される。幾何学的特徴測定値は、サンプル対象者のグラウンド・トゥルース重量データに対してトレーニングされてきた1つ又は複数の機械学習モジュールを使用して対象者の体重を予測するために、身長及びできる限り他の対象者パラメータ(性別、年齢、人種などのような)と共に使用される。より多くのデータがシステムによって収集され、予測される体重の精度が自動的に改善する。
上述のように、幾何学的特徴測定値(1つ又は複数の身体構成要素の長さ、外周、面積、及び/又は体積である)が、対象者の体重を予測するために、重量機械学習モジュールへの入力として使用される。いくつかの実施例では、背景からの身体特徴セグメント化及び幾何学的特徴測定値の身体特徴重要点注釈が、1つ又は複数の深層学習ネットワークを使用して遂行される。したがって、対象者の衣服下の身体を検出する重要点注釈に使用されるセグメント化及び注釈深層学習ネットワークが、ここで詳細に説明される。
ステップ204及び706では、対象者の身体構成要素(例えば、頸部、腕部、脚部など)のような身体特徴が、セグメント化深層学習ネットワーク(DLN:deep learning network)として知られている、第1のDLNを使用して、画像からセグメント化され得る。ある実施例では、「深層学習」は、ニューラル・ネットワークを手本にした特徴抽出及び変換の非線形処理ユニットの複数のレイヤのカスケードを使用する、機械学習アルゴリズムの分類を示し得る。ある実施例では、連続するレイヤが、先行のレイヤからの出力を入力として使用し得る。ある実施例では、「深層学習」の「深層」は、データが変換されるレイヤの数を指し得る。身体特徴セグメント化DLNの実例が、以下に図4を参照して説明される。
実際のユーザからのデータに対してこのセグメント化ステップ遂行する前に、システムは最初に、例えば、異なる環境で、異なる背景に対して異なる衣服を着て、例えば手を45度にしたポーズ(「Aポーズ」)の、人のサンプル写真に対して、トレーニングされていてもよい。ある実施例では、セグメント化DLNアルゴリズムは、セグメント化トレーニング・データでトレーニングされ得る。いくつかの実施例では、セグメント化トレーニング・データは、セグメント化された身体特徴を有する人を含む、数千のサンプル写真を含み得る。サンプル写真は、身体特徴を写真の背景からセグメント化する。
いくつかの実施例では、トレーニング・データが、例えばCATスキャン、MRIスキャンなどからの、医療データを含む。いくつかの実施例では、トレーニング・データが、3D身体スキャナからの3D身体スキャンを含む、従来の3D身体測定値からのデータを含む。いくつかの実施例では、正面及び側面視野写真が明示的に利用可能でない場合、3D身体スキャンが、近接した正面及び/又は側面視野写真を抽出するために使用され得る。いくつかの実施例では、グラウンド・トゥルース・データが、3D身体スキャンからのデータを含む。いくつかの実施例では、約10,000の対象者(男性及び女性の両方)に関して取得された3D身体スキャンの商業用サンプルである「SizeUSA」データ・セットからの3D身体スキャンデータが、利用され得る。他の実施例では、約4,000の対象者に関して取得された3D身体スキャンの別の商業用サンプルであり、グラウンド・トゥルース・データをさらに含む、「CAESAR」データ・セットからの3D身体スキャンデータが、利用され得る。やはり他の実施例では、本発明を利用する組織が、彼らの自身の正面及び側面写真を、セグメント化DLNをトレーニングに好適なグラウンド・トゥルース・データと共にキャプチャし得る。
本発明のある実施例では、識別された身体構成要素は、ステップ204及び706で生成されたセグメント化マップを使用して、人の残りの部分及び背景からセグメント化され、分離され、又はクロップされ得る。クロッピングは、実際の又は仮想のクロッピングであり得る。各々の識別された身体構成要素に対応する画像の部分が、画像の残りの部分からクロップされ、セグメント化され、又は分離され得て、画像のその部分は、注釈ステップ(205及び708)に渡される。画像の残りの部分から識別された身体構成要素をクロッピング又は分離することによって、注釈ステップ(205及び708)で使用されるDLNは、各々の分離身体構成要素に対して、個別に又は別々にトレーニングされ、精度及び信頼性の両方を増大させる。
注釈深層学習ネットワーク(DLN)
ステップ205では、ステップ204で識別された身体構成要素毎の注釈重要点が、注釈DLNとして知られている1つ又は複数の深層学習ネットワーク(DLN)を使用して衣服下の対象者の身体形状を検出するために、描かれ得る。ある実施例では、全体の身体に1つの注釈DLNが存在する。別の実施例では、身体構成要素毎に別個の注釈DLNが存在する。身体構成要素毎に別個の注釈DLNを使用する利点は、身体構成要素注釈での改善された精度及び信頼性である。各々の身体構成要素注釈DLNは、身体構成要素毎に別個の固有のデータに対して別々にトレーニングされ得る。各身体構成要素に関するデータの特殊性は、DLNの精度及び信頼性を改善し、ニューラル・ネットワーク・トレーニングの収束速度をさらに改善する。身体特徴重要点注釈DLNの実例が、以下に図4を参照して説明される。
ある実施例では、注釈DLNは、身体特徴から取得される信号から、注釈重要点を識別する。注釈重要点は、身体特徴毎に異なり得て、別の仕方で描かれ得る。例えば、二頭筋の幅又は外周に関して、システムは、二頭筋位置における骨格のラインと垂直にラインを描き、注釈重要点としてラインの端部に注釈をつけ得て、胸部に関しては、システムは、その代わりに2つの胸部点に注釈をつけ得る。各々の身体特徴の注釈から、身体特徴測定値が次に、本明細書で説明されるように、ステップ131、202、又は330で受け取られた対象者の身長に対して規格化することによって取得され得る。
実際の対象者からのデータに対してこの注釈ステップ遂行する前に、システムは最初に、以下にさらに説明されるように、例えば、異なる環境で、異なる衣服を着て、例えば手を45度にしたポーズ(「Aポーズ」)の、人のサンプル写真に対して、トレーニングされていてもよい。サンプル写真は、衣服下の対象者の身体特徴及び重要点注釈を識別する。
例示的な深層学習ネットワーク(DLN)モジュール・アーキテクチャ
本発明で使用されている深層学習ネットワーク(DLN)に関して、深層ニューラル・ネットワーク、深層信念ネットワーク、及び/又はリカレント・ニューラル・ネットワークなどの、任意の好適な深層学習アーキテクチャが使用され得る。いくつかの実施例では、深層学習アルゴリズムは、教師あり(例えば、分類)及び/又は教師なし(例えば、パターン分析)様式で学習し得る。さらに、深層学習アルゴリズムは、画像(例えば、全身、身体構成要素など)にエンコードされた情報の異なる抽象化レベルに対応する複数の表現レベルを学習し得る。いくつかの実施例では、画像(例えば、正面及び側面写真)が、画素の行列として表現され得る。DLNのある実施例では、DLNの第1の表現レイヤが、画素を抽象化し、縁部をエンコードし得て、第2のレイヤが縁部の構成を合成し、エンコードし得て、第3のレイヤが鼻及び目をエンコードし得て、第4のレイヤは、画像が顔部又は他の身体特徴を含むことを認識し得る、などがなされ得る。
図4は、本発明のある実施例による、身体構成要素セグメント化及び注釈の詳細なフロー図400を示している。ある実施例では、身体構成要素セグメント化及び注釈が、上述したようなトレーニング・データを使用する深層学習ネットワーク(DLN)を使用してなされる。ある実施例では、身体構成要素セグメント化及び注釈は、改善された大局的及び局所的コンテキスト情報のためのピラミッド・シーン・パーシング・ネットワーク(PSPNet:pyramid scene parsing network)と組み合わされた畳み込みニューラル・ネットワーク(CNN)を使用して遂行される。PSPNetでは、処理は、「ピラミッド・プーリング・モジュール」を介して統合された異なるサイズの領域からの大局的及び局所的コンテキスト情報を利用し得る。図4で示したように、少なくとも1つの入力画像401が、最初に畳み込みニューラル・ネットワーク(CNN)402を通過させられ、各画素を所与の身体構成要素及び/又は注釈点に分類又はセグメント化する特徴マップ403を取得する。次に、大局的及び局所的コンテキスト情報が、異なるサイズの縮尺での画像からの情報を統合する、ピラミッド・プーリング・モジュール404を利用して、特徴マップから抽出される。最後に、データは、最終畳み込みレイヤ405を通過させられ、各画素を身体構成要素セグメント及び/又は注釈重要点406に分類する。
より詳細には、入力画像401から、CNN402が最初に特徴マップ403を取得するために使用され、次にピラミッド・プーリング・モジュール404が、異なる小領域の特徴を抽出するために使用され、アップ・サンプリング及び連結レイヤが続いて、最終特徴表現を形成し、これは、局所的及び大局的コンテキスト情報の両方を伝達する。最後に、特徴表現が、最終畳み込みレイヤ405に供給され、最終的な画素単位の予測値を取得する。図4で示した実例では、ピラミッド・プーリング・モジュール404は、4つの異なる縮尺下での特徴を統合する。最大縮尺が大局的である。後続のレベルは特徴マップを異なる小領域に分離する。ピラミッド・プーリング・モジュール404での異なるレベルの出力は、異なる縮尺下の特徴マップを含む。ある実施例では、大局的特徴の重みを維持するために、畳み込みレイヤは、各ピラミッド・レベルの後に使用され、コンテキスト表現の寸法を削減し得る。次に、低寸法特徴マップがアップ・サンプリングされ、同一のサイズの特徴を、最初の特徴マップとして獲得する。最後に、異なる特徴レベルが、ピラミッド・プーリング・モジュール404の出力のために、最初の特徴マップ404と連結される。ある実施例では、示されているように、4つのレベルのピラミッドを使用することによって、プーリング・ウィンドウが、最初の画像401の全体、半分、及びさらに小さい部分をカバーしている。
ある実施例では、PSPNetアルゴリズムは、本明細書で完全に表明されるようにその全体が参照により本明細書により組み込まれている、Hengshuang Zhaoら、「Pyramid Scene Parsing Network」、CVPR 2017、2016年12月4日、arXiv:1612.01105で利用可能、で示されているような実施態様である。PSPNetは、本発明の範囲内の、1つの例示的な深層学習ネットワークアルゴリズムに過ぎず、本発明は、PSPNetの使用方法に限定されない。他の深層学習アルゴリズムが、本発明の範囲内にさらに存在する。例えば、本発明のある実施例では、畳み込みニューラル・ネットワーク(CNN)が、身体セグメントを識別するために利用され(セグメント化)、別個のCNNが、各々の身体セグメントに注釈をつけるために利用される(注釈)。
例示的な機械学習(ML:Machine Learning)モジュール・アーキテクチャ
幾何学的特徴が計算されると(例えば、図1のステップ141、151、161)、体重予測が、1つ又は複数の重量機械学習(ML)アルゴリズムを使用してなされ得る。ある実施例では、重量MLアルゴリズムは、ランダム・フォレスト機械学習モジュールを含む。いくつかの実施例では、全身に対して1つの重量MLモジュールが存在する。ある実施例では、身体構成要素毎に別個の重量MLモジュールが存在し、予測された体重は、予測された身体構成要素重量の合計である。例えば、図1及び2の第3の選択肢(ステップ160及び230)では、別個のMLモジュールが、所与の身体構成要素の重量を、その身体構成要素の面積又は体積を含む身体構成要素特徴ベクトル及び1つ又は複数の対象者パラメータに基づいて、予測し得る。最後に、予測された体重は、全ての対象者の身体構成要素の予測された重量の合計である。
図5は、本発明のある実施例による、深層学習ネットワーク(DLN)から取得された幾何学的特徴を含む、1つ又は複数の対象者特徴ベクトル501からの体重予測値502のための機械学習(ML)モジュールの例示的な図500を示している。図5は、入力特徴ベクトル501として、対象者の幾何学的特徴(例えば、身体構成要素の外周、面積、及び/又は体積)及び対象者パラメータ(例えば、身長、年齢、性別など)を示している。つまり、MLモジュールへの入力が、対象者特徴ベクトル501であり、例えば深層学習ネットワークから取得された身体構成要素の外周、面積、及び/又は体積、身長、並びに例えば図1~2の選択肢1(ステップ140及び210)で説明されたような他の対象者パラメータを含み得る。MLモジュールの出力は、予測された体重502である。
図5で模式的に示されている、ある実施例では、MLモジュールは、例示的な機械学習アルゴリズムである、ランダム・フォレスト・アルゴリズムを使用している。ランダム・フォレスト・アルゴリズムは、各々の決定木がトレーニング・データの任意の部分集合の値によって決まるように、多数の決定木予測因子を使用し、これにより過剰適合する機会を最小化する。ある実施例では、ランダム・フォレスト・アルゴリズムは、本明細書で完全に表明されるようにその全体が参照により本明細書により組み込まれている、Leo Breiman、「Random Forests」、Machine Learning、45巻、5~32ページ、2001年、Kluwer Academic Publishers、オランダ、doi.org/10.1023/A:1010933404324で利用可能、で示されているような実施態様である。ランダム・フォレスト・アルゴリズムは、本発明の範囲内の、1つの例示的な機械学習アルゴリズムに過ぎず、本発明は、ランダム・フォレスト・アルゴリズムの使用方法に限定されない。
ランダム・フォレストは、上の実例では、例として、限定されないが、重量MLモジュールアルゴリズムとして選択されていて、他のMLアルゴリズムは、限定されないが、本明細書で開示された実例に応じて、K平均法及びサポート・ベクター・マシン(SVM:Support Vector Machine)などの、他の線形及び非線形リグレッサなどの、重量MLモジュールに実装され得ることが理解されよう。いくつかの実施例では、相関係数などの単純な線形リグレッサが、さらに利用され得る。相関係数は、所与の性別、年齢などに関して、体重と身体の体積との相関を簡潔にとり得る。限定されないが、最近傍、決定木、サポート・ベクター・マシン(SVM)、アダブースト、深層学習ネットワークを含む多様なニューラル・ネットワーク、進化アルゴリズムなどを含む、他の機械学習アルゴリズムが、さらに、重量MLモジュールを実施する本発明の範囲内に存在する。他の例示の機械学習アルゴリズムは、限定されないが、エキスパート・システム、ファジー論理、データ融合エンジン、ナイーブ・ベイズ、ベイジアン信念ネットワーク、ファジー論理モデル、確率的分類モデル、及び/又は統計的回帰モデルを含む。
本発明の実施例では、重量MLモジュールは、1人又は複数のサンプル対象者の1つ又は複数のサンプル体重及び1つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされる。例えば、第1の選択肢(図1及び2のステップ140及び210)の本実施例では、重量MLモジュールは、1つ又は複数のサンプル体重及び1つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされ、サンプル特徴ベクトルは、1つ又は複数の対象者パラメータ及び1つ又は複数の身体構成要素の外周を含む。同様に、第2の選択肢(図1及び2のステップ150及び220)の本実施例では、重量MLモジュールは、1つ又は複数のサンプル体重及び1つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされ、サンプル特徴ベクトルは、1つ又は複数の対象者パラメータ及び1つ又は複数の身体構成要素の画像面積を含む。また、第3の選択肢(図1及び2のステップ160及び230)の本実施例では、重量MLモジュールは、1つ又は複数のサンプル体重及び1つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされ、サンプル特徴ベクトルは、1つ又は複数の対象者パラメータ及び1つ又は複数の身体構成要素の体積を含む。
第1の選択肢(図1~2のステップ140及び210)は、外周計算がより簡潔な演算を必要とするので、最も簡潔なMLモジュール実装をもたらすことが理解されよう。しかしながら、関連付けられたMLモジュールは、身体構成要素の外周のトレーニング・データが身体構成要素面積又は体積ほど多くの情報を提供しないので、精度が劣ることが見込まれる。一方、第3の選択肢(図1~2のステップ160及び230)は、サンプル体重及び他の対象者パラメータと共に、トレーニング・データとして対象者写真及び付随する3D身体スキャンを必要とし得る。この選択肢は、より複雑なトレーニング・データを必要とし、2D画像から3D身体構成要素体積推定での重要点注釈変換などの、より複雑な演算を必要とするが、最も高い精度の体重予測値をもたらすことが見込まれる。第2の選択肢(図1~2のステップ150及び220)は、適度な処理複雑性を必要とし、十分に正確な結果をもたらすことが期待される、折衷案の選択肢として見なされ得る。
深層学習ネットワーク(DLN)及び機械学習(ML)モジュールのトレーニング
上記の深層学習構成要素によって使用されるような、任意の機械学習方法の起点は、システム入力と正解の結果の複数の事例を含む文書化されたデータセット(例えば、トレーニング・データ)である。このデータ・セットは、限定されないが、パラメトリック分類法、非パラメトリック法、決定木学習、ニューラル・ネットワーク、誘導的及び分析的学習の両方を組み合わせた方法、並びに回帰モデルなどのモデリング手法、などの標準化された機械学習方法を含む当技術分野で知られている方法を用いて、機械学習システムをトレーニングするために、且つトレーニングされたシステムの性能を評価し最適化するために、使用され得る。機械学習システムの出力の品質は、(a)パターンのパラメータ表現、(b)機械学習設計、(c)トレーニング・データベースの品質によって決まる。
体重予測値を生成することに利用される、セグメント化DLN、注釈DLN、及び重量MLモジュールをトレーニングすることが、ここで、実例の実施例に従って詳細に説明される。トレーニングアルゴリズムが、1つ又は複数の写真を受信する。例えば、所与の対象者の正面及び側面視野写真が、受信され得る。別の実施例では、写真は、デバイス(例えば、携帯電話、ラップトップ・コンピュータ、タブレットなど)から取得され得る。別の実施例では、写真は、データベース(例えば、ソーシャル・メディア・データベース)から取得され得る。いくつかの実施例では、パースペクティブ補正などの1つ又は複数の処理ステップが、必要に応じて、正面及び側面視野写真に対して遂行され得る。コントラスト、ライティング、などの前処理ステップ又は他の画像処理技術が、後続のステップを支援するように、受信された画像を前処理するために利用され得る。
写真を受信すると、アノテータ(annotator)は、身体構成要素などの身体特徴を背景からセグメント化し得る。ある実施例では、身体構成要素は、利便性のために色分けされ得る。具体的には、身体セグメント化は、写真の背景から対象者を抽出するために、人によって遂行され得る。例えば、アノテータは、背景から対象者を抽出するために、写真を視覚的に編集し(例えば、トレース・アウト及び色分け)、どの身体構成要素がどの写真の部分に対応するかを示すために、使用され得る。ある実施例では、写真は、手を45度(「Aポーズ」)にして、異なる衣服を着用して、異なる環境でポーズをとる対象者を含み得る。上述のように、正確な身体輪郭が、背景から人のアノテータによって、描かれ得る。身体輪郭は、任意の好適なソフトウェア・プラットフォーム上で描かれ得て、注釈を容易にするために周辺機器(例えば、スマート・ペン)を使用し得る。さらに、そのようなセグメント化された画像の少なくとも一部分が、深層学習ネットワークに供給され得る、トレーニング・データとして使用され得る。ある実施例では、セグメント化された画像は、図2のステップ204で使用されているセグメント化DLNをトレーニングするために利用される。
アノテータは次に、衣服下の身体特徴毎に推定される注釈重要点を描き得る。上述のように、正確な注釈重要点が、衣服下の身体を推定するアノテータよって描かれ得る。注釈重要点は、任意の好適なソフトウェア・プラットフォーム上で描かれ得て、注釈を容易にするために周辺機器(例えば、スマート・ペン)を使用し得る。さらに、そのような注釈をつけられた画像の少なくとも一部分が、深層学習ネットワークに供給され得る、トレーニング・データとして使用され得る。ある実施例では、重要点注釈は、図2のステップ205で使用されている注釈DLNをトレーニングするために利用される。
いくつかの実施例では、深層学習ネットワークのトレーニングは、その両方の開示全体が参照により本明細書により組み込まれている、2018年12月17日に出願された「SYSTEMS AND METHODS FOR GENERATING MASSIVE TRAINING DATA SETS FOR TRAINING DEEP LEARNING NETWORKS FOR BODY MEASUREMENTS」と題された米国整理番号第62/780,737号、そこからの優先権の利益をそれ自体が主張する、2019年7月19日に出願された、米国整理番号第16/517,391号であり、2019年11月26日に米国特許第10,489,683号として発行された、「METHODS AND SYSTEMS FOR AUTOMATIC GENERATION OF MASSIVE TRAINING DATA SETS FROM 3D MODELS FOR TRAINING DEEP LEARNING NETWORKS」と題された関連する出願で説明されているように生成された、合成的に生成されたトレーニング・データを使用して遂行され得る。本実施例では、背景からの身体セグメント化及び衣服下の身体の重要点注釈のためのトレーニング・データは、実際の3D身体スキャンモデルから抽出された合成2D画像を使用して生成される。
他の実施例では、深層学習ネットワークのトレーニングは、その開示全体が参照により本明細書により組み込まれている、2019年11月26日に出願された米国整理番号第16/697,146号、「METHODS AND SYSTEMS FOR GENERATING 3D DATASETS TO TRAIN DEEP LEARNING NETWORKS FOR MEASUREMENTS ESTIMATION」題された関連する出願で説明されているように生成された、トレーニング・データを使用して遂行され得る。本実施例では、背景からの身体セグメント化及び衣服下の身体の重要点注釈のためのトレーニング・データは、同一の対象者の3D身体スキャンモデルに位置合わせされてある対象者の2D画像を使用して生成される。
最後に、対象者毎の実際の体重測定値(例えば、スケーリングによって決定されるように)が、グラウンド・トゥルース・データとしてはたらくように、受信され得る。実際の体重測定値は、有効性確認データとして使用され、システムによって使用されるアルゴリズムをトレーニングすることに使用され得る。例えば、実際の体重測定値は、機械学習アルゴリズムに関連付けられた、誤差関数又は損失関数(平均平方誤差、尤度損失、対数損失、ヒンジ損失など)を最小化して使用され得る。
1つ又は複数の重量MLモジュールが次に、トレーニングされ得る。ある実施例では、重量MLモジュールは、受信された重量値を使用してトレーニングされ得る。例えば、重量MLモジュールは、ラベル付きデータ(例えば、対象者特徴ベクトル及びスケーリング又はデータベースから受信された関連付けられた実際の重量測定値データ)と共に提示され得て、重量MLモジュールの結果及び実際の受信された重量測定値に基づいて、誤差関数(例えば、上述したように、損失関数から)を決定し得る。重量MLモジュールは、誤差関数の規模を低減するために、トレーニングされ得る。
別の実施例では、1つ又は複数の重量MLモジュールは、重量測定値を、特定の幾何学的特徴、例えば、腕部、脚部、又は頸部などの特定の身体構成要素の、外周、面積、又は体積から、個別に抽出するために、個別にトレーニングされ得る。別の実施例では、単一の重量MLモジュールが、全身体重測定値を身体幾何学的特徴の群から抽出するために、個別にトレーニングされ得る。別の実施例では、別のトレーニング・データ・セットが、別の重量MLモジュールに使用され得て、各々の重量MLモジュールが、異なる特徴ベクトル(例えば、外周、画像面積、及び/又は体積)に対応する。ある実施例では、重量MLモジュールのトレーニングは、少なくとも部分的にクラウドで、遂行され得る。ある実施例では、グラウンド・トゥルースの体重データは、図2のステップ213、223、又は232で使用される重量MLをトレーニングするために、利用される。
例示的なクライアント・サーバ実施態様
図6は、本発明のある実施例による、体重予測を実施する例示的なクライアント・サーバ図600を示している。クライアント609が、上部に示され、一方サーバ603が下部に示されている。クライアント609は、602で正面及び側面画像を送信することによって、処理を開始する。画像を受信すると、サーバ603は、画像のフォーマットの正確さを調べ、604で他の形式上の調査を遂行する。画像が、605で、正しいフォーマットでない又は誤ったポーズ、劣悪なコントラスト、過剰に遠い又は過剰に近い、対象者が視野にいない、対象者が部分的に隠れているなどのような、他の形式上の問題を有する場合、処理は、601で、この情報をクライアントに返却する。601では、エラー・メッセージ又は他の情報伝達が、クライアント609で表示され得て、ある実施例では、ユーザが画像を再撮影することができるようにする。
画像が、605で、正しいフォーマットであり、他の形式上の問題をもたない場合、画像は、606で、前処理され、重量推定モジュール608によって取り扱われることが可能になる。画像は、次に、前述したように、対象者重量結果610を決定するために、重量推定モジュール608を通して処理される。重量結果610は、サーバ603からクライアント609に返却される。クライアント609は、612で、重量結果を調べる。重量結果が、613で決定されたとき、任意の形式上の問題、例えば区域外、不合理に小さい又は大きいなど、を有している場合、処理は、601に戻り、同様にエラー・メッセージ又は他の情報伝達がユーザに示され、ユーザが画像を再撮影できるようにする。613で決定されたとき、重量結果に形式上の問題がない場合、処理は、予測された体重の表示又は利用の準備を整えて、終了する。
ステップ604で、サーバ603において実行された、画像分析、フォーマット補正、及び他の形式上の調査が、代わりにクライアント609で実行され得る(例えば、帯域幅節約対策として)ことが理解されよう。同様に、ステップ612で、クライアント60によって遂行された重量結果調査が、代わりにサーバ603によって実行され得る。一般に、本明細書で示された多様なステップは、当業者によって認識され得るように、クライアント609又はサーバ603のどちらかによって、実行され得る。
代替のアーキテクチャ:DLN及び/又はMLモジュールの統合
ステップ204のセグメント化DLN、ステップ205の注釈DLN、及びステップ213、223、及び233の重量MLモジュールを実装するための多様な代替のアーキテクチャが、説明される。例えば、図7は、図2で示しているアーキテクチャに対応し、そこで、セグメント化DLN、注釈DLN、及び重量MLモジュールは、別個のモジュールである。対照的に、図1は、代替のアーキテクチャに対応し、そこで、セグメント化DLN及び注釈DLNは、重量MLモジュールへと続く単一の注釈DLN(セグメント化及び注釈の両方を効果的に遂行する)に統合されている。最後に、さらに別の代替のアーキテクチャ(図示せず)が可能であり、そこで、セグメント化DLN、注釈DLN、及び重量MLモジュールは全て、セグメント化、注釈、及び重量測定の全ての機能を効果的に遂行する単一の重量DLNに統合されている。同様に、注釈DLN及び重量MLは、注釈をつけ、重量測定を遂行する1つの重量DLNとして実装され得る、又は2つの別個のモジュール、各身体特徴に注釈をつける注釈DLN及び重量測定を遂行する別個の重量MLモジュールとして、実装され得る。これらの選択肢が、順に説明される。
図7は、本発明のある実施例による、体重予測(個別セグメント化DLN、注釈DLN、及び重量MLモジュールを使用する)ための一例のフロー図700を示している。ある実施例では、正面及び側面画像が、702で、対象者から受信される。画像は、704で、説明されたように前処理される。前処理されると、前処理された画像は、706で、先述されたように、セグメント化マップを生成するために、セグメント化DLNに送信される。セグメント化マップは、714で、データの残りの部分を用いて統合される。前処理された画像は、708で、先述されたように、注釈重要点を生成するために、セグメント化マップと共に、注釈DLNに供給される。注釈マップが、714で、データの残りの部分を用いて統合される。ある実施例では、注釈マップは、先述されたように、注釈重要点に基づいてセグメント化され注釈をつけられている、身体構成要素毎に幾何学的特徴を計算するために、重量機械学習(ML)モジュール710に供給される。重量結果は、714で、データの残りの部分を用いて統合される。重量結果は、712で、本明細書で説明されたような多様な使用方法のために、1つ又は複数の外部システムに出力される。最後に、714で統合されている、統合され構造化されたデータ(1)前処理された正面及び側面画像、(2)セグメント化マップ、(3)注釈マップ、及び(4)重量結果の全てが、716で、さらなるDLNトレーニングのために、データベースに記憶される。トレーニング・データベース716は、測定される各対象者と共に成長し、システムの精度は、使用と共に継続的に向上する。
別の実施例では、ステップ706は、任意選択であり、身体特徴識別が、ステップ708で実行され、ステップ714は、ステップ708から注釈マップ(例えば、注釈重要点)を出力することのみが必要である。本発明のこの実施例によれば、体重測定決定が、統合されたセグメント化-注釈DLN及び重量MLモジュールを使用して実行され得る。正面及び側面画像は、先述したように、対象者702及び前処理された704から受信される。前処理の後、前処理された画像は、先述したように、注釈マップを生成するために、注釈DLN708に直接送信される。本代替実施例では、最初に身体特徴セグメント化706を実行することの代わりに、注釈重要点が、特別にトレーニングされている、セグメント化DLN706及び注釈DLN708の両方の機能を単一の注釈DLNに効果的に統合している(図7の実施例に示されている)、統合されたセグメント化-注釈DLNを使用して、身体特徴を背景から明示的にセグメント化することなしに、画像上に直接描かれる。事実上、身体特徴セグメント化は、注釈DLN708によって暗黙的に遂行される。
さらに別の実施例では、注釈DLN708及び重量ML710が、さらに統合され得る。正面及び側面画像は、先述したように、702のユーザから受信され、画像は、704で前処理される。前処理の後、前処理された画像は、710で、先述したように、完全な体重予測値を生成するために、重量DLNに直接送信される。本代替実施例では、最初に身体特徴セグメント化及び注釈を実行することの代わりに、体重が、背景から身体特徴を明示的にセグメント化することなしに(且つ重要点注釈を明示的に描くことなしに)、セグメント化DLN、注釈DLN、及び重量MLモジュールの特徴を、単一の重量DLN(図7に図示せず)に効果的に統合している特別にトレーニングされている重量DLNを使用して、前処理された画像から直接抽出される。事実上、身体特徴セグメント化及び注釈は、重量DLNによって、そのニューラル・ネットワークのレイヤのうちの1つ又は複数において、暗黙的に遂行される。
ハードウェア、ソフトウェア、及びクラウド実施態様
説明したように、本開示を通して説明されるデータ(例えば、写真、説明など)は、クラウド・コンピューティング・プラットフォーム上に記憶され、ホストされるデータベースに記憶されたデータを含み得る。本開示が、以下にクラウド・コンピューティングに関する詳細な説明を含むが、本明細書で記載された教示することの実施態様は、クラウド・コンピューティング環境に限定されないことが理解される。むしろ、本発明の実施例は、現在知られている又はこれから開発される他の任意のタイプのコンピューティング環境と併せて、実施されることが可能である。
クラウド・コンピューティングは、最小限の、管理労力又はサービス提供者との対話で、素早くプロビジョニングされリリースすることができる便利なオンデマンドの、構成変更可能なコンピュータ資源の共用プール(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、及びサービス)への、ネットワーク・アクセスを可能にするサービス提供モデルを指し得る。クラウド・コンピューティング環境は、無国籍性、疎結合性、モジュール性、意味的相互運用性を有するように指向するサービスである。クラウド・コンピューティングの中心にあるのが、相互接続ノードのネットワークを含むインフラストラクチャである。
クラウド・コンピューティング環境は、例えばパーソナル・デジタル・アシスタント(PDA:personal digital assistant)若しくは携帯電話、デスクトップ・コンピュータ、ラップトップ・コンピュータ、及び/又は自動車コンピュータ・システムなどのクラウド使用者によって、使用されるローカルのコンピューティング・デバイスが通信し得る、1つ又は複数のクラウド・コンピューティング・ノードを含み得る。ノードは、互いに通信し得る。それらは、個人専用、地域社会、公共、又はハイブリッド・クラウド、或いはその組合せなどの、1つ又は複数のネットワーク内で、物理的に又は仮想的にグループであり得る。これにより、クラウド・コンピューティング環境は、クラウド使用者がローカルのコンピュータ・デバイスで資源を維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム、及び/又はソフトウェアを提供可能になる。コンピューティング・デバイスのタイプは、例示であることのみが意図され、コンピューティング・ノード及びクラウド・コンピューティング環境は、任意のタイプのコンピュータ化されたデバイスと、任意のタイプのネットワーク及び/又はネットワーク・アドレス可能な接続(例えば、ウェブ・ブラウザを利用して)を通して通信し得ることが理解される。
図8は、本発明のある実施例を実施するための、サーバ及び/又はユーザ・デバイスの例示的なハードウェア・アーキテクチャの図を示している。システムの多くの構成要素、例えばネットワーク、インターフェースなどが、本発明を不明瞭化しないように、示されていない。しかしながら、当業者には、システムが必然的にこれらの構成要素を含むことが理解されよう。ユーザ・デバイスは、メモリ850に結合された少なくとも1つのプロセッサ840を含むハードウェアである。プロセッサは、1つ又は複数のプロセッサ(例えば、マイクロプロセッサ)に相当し得て、メモリは、ハードウェアのメイン・ストレージを含むランダム・アクセス・メモリ(RAM:random access memory)デバイス、及び任意の補助的レベルのメモリ、例えば、キャッシュ・メモリ、不揮発又はバックアップメモリ(例えば、プログラム可能な又はフラッシュ・メモリ)、読み出し専用メモリなどに相当し得る。加えて、メモリは、ハードウェア内のどこかに物理的に配置されたメモリ・ストレージ、例えば、プロセッサ内の任意のキャッシュ・メモリ、及び例えば、大容量記憶装置に記憶される場合、仮想メモリとして使用される記憶容量を含むと考えられ得る。
また、ユーザ・デバイスのハードウェアは、通常、外部と情報通信するために、多くの入力810及び出力820を受信する。例えばユーザとのインターフェースとして、ハードウェアは、1つ又は複数のユーザ入力装置(例えば、キーボード、マウス、スキャナ、マイクロフォン、ウェブ・カメラなど)及びディスプレイ(例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)パネル)を含み得る。追加のストレージとして、ハードウェアは、とりわけ、1つ又は複数の大容量記憶装置890、例えば、フロッピー(登録商標)又は他の取外し可能ディスク、ハード・ディスク・ドライブ、直接アクセス記憶装置(DASD:Direct Access Storage Device)、光ドライブ(例えば、コンパクト・ディスク(CD:Compact Disk)ドライブ、デジタル多用途ディスク(DVD:Digital Versatile Disk)ドライブなど)、及び/又はテープ・ドライブをさらに含み得る。さらに、ハードウェアは、ネットワークに結合された他のコンピュータとの情報通信を可能にするために、インターフェース、1つ又は複数の外部データベース830、及び1つ又は複数のネットワーク880(例えば、とりわけ、ローカル・エリア・ネットワーク(LAN:local area network)、広域ネットワーク(WAN:wide area network)、無線ネットワーク、及び/又はインターネット)を含み得る。ハードウェアは、通常、互いに通信するために、好適なアナログ及び/又はデジタル・インターフェースを含むことが理解されよう。
ハードウェアは、上述した方法、処理、及び技術を遂行するために、オペレーティング・システム870の制御下で動作し、参照番号によってまとめて表示された、多様なコンピュータ・ソフトウェア・アプリケーション860、構成要素、プログラム、コード、ライブラリ、オブジェクト、モジュールなどを実行する。
図9は、クライアント・サーバ環境における本発明のある実施例を実施する例示的なシステム・アーキテクチャを示している。クライアント側のコンピューティング・デバイス910は、スマート・フォン912、ラップトップ・コンピュータ914、デスクトップPC916、タブレット918、又は他のデバイスを含み得る。そのようなコンピューティング・デバイス910は、インターネットなどのいくつかのネットワーク接続920を通して、システム・サーバ930のサービスにアクセスする。説明したように、全システムが、いわゆるクラウド実装において、インターネット全体に渡るエンド・ユーザ及びオペレータに、実施され、提供され得る。ソフトウェア又はハードウェアのローカルでのインストールは必要とされず、エンド・ユーザ及びオペレータは、クライアントでウェブ・ブラウザ又は同等のソフトウェアのいずれかを使用して、インターネットを通じて直接本発明のシステムにアクセス可能であり、このクライアントはデスクトップ・コンピュータ、ラップトップ・コンピュータ、モバイル・デバイスなどであり得る。このことで、クライアント側の独自のソフトウェアインストールのいずれの必要性もなくなり、サービス配信(ソフトウェア・アズ・ア・サービス)の柔軟性を向上させ、ユーザの満足及び利用し易さ向上させる。本発明の多様なビジネス・モデル、収益モデル、及び配信方法が予想され、全てが本発明の範囲内であると考慮されるべきである。
一般に、本発明の実施例を実施するために実行される方法は、「コンピュータ・プログラム」又は「コンピュータ・コード」と呼ばれる、オペレーティング・システム又は固有のアプリケーション、構成要素、プログラム、オブジェクト、モジュール、又は一連の命令の一部として、実装され得る。コンピュータ・プログラムは、通常、コンピュータの多様なメモリ及び記憶デバイスに、多様なタイミングで設定された1つ又は複数の命令を含み、コンピュータの1つ又は複数のプロセッサによって読み出され、実行される場合、コンピュータに、本発明の多様な態様を含む要素を実行するために不可欠な動作を遂行させる。さらに、本発明が完全に機能するコンピュータ及びコンピュータ・システムという文脈で説明されてきたが、当業者には、本発明の多様な実施例は、種々の形態のプログラム製品として頒布されることが可能であり、本発明は、実際に頒布を実施するために使用される、特定の機械又はコンピュータ可読媒体の種類に関わらず適用されることが理解されよう。コンピュータ可読媒体の実例は、限定されないが、揮発性及び不揮発性メモリ・デバイス、フロッピー(登録商標)及び他の取外し可能ディスク、ハード・ディスク・ドライブ、光ディスク(例えば、コンパクト・ディスク読み出し専用メモリ(CD ROM:Compact Disk Read-Only Memory)、デジタル多用途ディスク(DVD)など)、並びにデジタル及びアナログ通信媒体などの、記録可能な種類の媒体を含む。
本発明の実例の使用事例
図10~17は、単一のカメラを備えるモバイル・デバイスが、人の体重を測定するために使用される、本発明の使用事例の例示的な図を示しており、本発明が実装されている、いくつかの実施例での、モバイル・グラフィカル・ユーザ・インターフェース(GUI)を示している。図10は、対象者の写真をキャプチャするためのユーザ命令を含むモバイル・デバイスGUIの例示的な図を示している。図11は、1つ又は複数の対象者パラメータを受信するためのモバイル・デバイスGUIの例示的な図である。例えば、図11は、ユーザから入力を通して対象者の身長を受け取るためのGUI画面を示している。人々は、彼ら自身の重量の正確な推定値を有していないが、ほとんど全ての成人の人々は、彼ら自身の身長を高い精度で知っている。説明したように、対象者の身長は、画素測定値から、現実世界座標での幾何学的特徴(例えば、対象者の身体構成要素の外周)を測定するための規格化データとして使用される。図11のGUI画面は、性別、年齢、及び人種などの他の対象者パラメータをさらに受け取り得る。例えば、図11のGUI画面は、この目的用のドロップ・ダウン・メニュー及びラジオ・ボタンを示している。
図12は、対象者が立つべき場所を指示するAポーズのテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスGUIの例示的な図を示している。図13は、対象者のリアル・タイム画像上に拡張現実(AR)で重畳された、対象者が立つべき場所を指示するテンプレートを示す正面視野写真をキャプチャするためのモバイル・デバイスGUIの別の例示的な図を示している。図14は、側面視野写真をキャプチャするモバイル・デバイスGUIの例示的な図を示している。図15は、システムが体重を予測するためにキャプチャされた写真を処理する間に表示される、モバイル・デバイスGUIの例示的な図を示している。最後に、図16は、体重予測が首尾よく完了された場合に通知画面を示すモバイル・デバイスGUIの例示的な図を示している。予測された重量結果が、ユーザに対して表示される。
図17は、モバイル・デバイスの単一のカメラが、人の体重を測定するために使用される、本発明の使用事例の例示的な図であり、通常の背景を背に典型的な衣服を着用して立っている人の正面視野を示している。図17で示されているモバイル・デバイスは、少なくとも1つのカメラ、プロセッサ、非一時的な記憶媒体、及びサーバへの無線通信(図示せず)を備える。ある実施例では、モバイル・デバイス及びサーバのハードウェア・アーキテクチャは、図8で示されたようなものである。ある実施例では、対象者の身体の1つ又は複数の写真が、本明細書で示された演算を遂行するサーバに送信される。ある実施例では、対象者の身体の1つ又は複数の写真が、モバイル・デバイスのプロセッサによって、ローカルで分析される。遂行された演算は、1つ又は複数の体重予測値を返し、図17で示されているように、サーバに記憶され、さらにユーザに提示され得る。加えて、体重予測値は、次に、限定されないが、販売用に1つ又は複数のカスタム衣類、カスタム・ボディー・スーツ、カスタムPPE(パーソナル保護装備:personal protection equipment)、カスタム食事療法、カスタム・エクササイズ、ジム、又は練習手順、などを対象者に提供することを含む多くの目的に利用され得る。さらに、体重予測値は、サードパーティのモバイル・デバイス及び/又はサードパーティのサーバに出力され得る。ある実施例では、出力が、文字メッセージ、電子メール、モバイル・アプリケーション又はウェブサイト上の文字的説明又は視覚的表示、それらの組合せなどの形態であり得る。
普遍性を失わずに、体重予測値は、出力され、送信され、且つ/又は体重が有用である任意の目的に利用され得る。具体的には、体重予測値は、コンピューティング・デバイス及び/又は例えば体重測定値に基づいて運動、フィットネス、食事療法を推奨する企業に関連付けられた、対応するサーバに出力され得る。当業者には、体重測定値の出力は、限定されないが、フィットネス、健康、買物などのような、正確で簡潔な体重測定が有用である任意の目的に利用され得ることが認識されよう。
結論として、本発明は、2枚の写真のみを用い、標準的体重計に匹敵する、正確な体重測定を達成し得る。システムは、いずれの専用ハードウェア・センサの使用も必要とせず、ユーザがいずれの特別な背景を背に立つことも必要とせず、特別なライティングを必要とせず、任意の距離で撮影された写真を用いて、ユーザは任意のタイプの衣服を着用して使用され得る。成果は、誰もが容易に自分の写真を撮影し、自動的な体重測定値の決定から恩恵を得るように、任意のモバイル・デバイスと共に機能する体重測定システムである。
当業者には、使用事例、構造、図解、及びフロー図は、他の順序又は組合せで遂行され得るが、本発明の技術概念は、本発明の広範な範囲から逸脱することなく留保されることが知られている。あらゆる実施例が固有であり得て、方法/ステップは、短縮され又は延長され、もう一方の作業に重畳され、延期され、遅延され、及び時間間隔後に継続され、その結果、あらゆるユーザは、本発明の方法を実施するために受け入れられ得る。
本発明は、特定の例示的な実施例を用いて説明されてきたが、多様な修正及び変更が、本発明の広範な範囲から逸脱することなくこれらの実施例になされ得ることが、明白となるであろう。したがって、本明細書及び図面は、限定的な観念内よりむしろ例示的な観念内にあると認識されることになろう。当業者には、上述した本実施例が、教示された唯一の記述のうちの任意のものよりも広範な範囲を有し得る、単一の広範な発明の特定の実例であることがさらに明らかになるであろう。本明細書内において、本発明の範囲から逸脱することなく、多くの変更がなされ得る。

Claims (20)

  1. ハードウェア・プロセッサによって実行可能である、対象者の体重を予測するためのコンピュータに実装される方法であって、
    1つ又は複数の対象者パラメータを受け取ることと、
    前記対象者を含む1つ又は複数の画像を受信することと、
    1つ又は複数の注釈深層学習モジュールを利用して、前記1つ又は複数の画像から前記対象者の衣服下の1つ又は複数の身体構成要素の1つ又は複数の注釈重要点を識別することと、
    前記1つ又は複数の注釈重要点に基づいて、前記対象者の1つ又は複数の幾何学的特徴を計算することと、
    前記対象者の前記1つ又は複数の幾何学的特徴及び前記1つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、前記対象者の前記体重の予測値を生成することと、を含む、方法。
  2. 前記1つ又は複数の幾何学的特徴が、身体構成要素の外周、身体構成要素の長さ、身体画像面積、身体構成要素の画像面積、身体体積、及び身体構成要素の体積から成る群、から選択される、請求項1に記載の方法。
  3. 前記身体構成要素の外周が、少なくとも1つの身体構成要素の複数の身体構成要素の外周を含む、請求項2に記載の方法。
  4. 前記対象者の前記体重の前記予測値を前記生成することが、
    前記重量機械学習モジュールへの入力として、前記1つ又は複数の幾何学的特徴及び前記1つ又は複数の対象者パラメータを含む特徴ベクトルを生成することを、さらに含む、請求項1に記載の方法。
  5. 前記重量機械学習モジュールが、線形リグレッサ、非線形リグレッサ、及びランダム・フォレスト・アルゴリズムのうちの1つ又は複数を含み、
    前記重量機械学習モジュールが、1人又は複数のサンプル対象者の1つ又は複数のサンプル体重及び1つ又は複数のサンプル特徴ベクトルを含む、グラウンド・トゥルース・データでトレーニングされる、請求項4に記載の方法。
  6. 前記対象者パラメータのうちの1つ又は複数が、前記1つ又は複数の画像で、画素座標から現実世界座標にスケーリングするために、規格化データとして使用される、請求項1に記載の方法。
  7. 前記対象者の身長が、前記規格化データとして使用される、請求項6に記載の方法。
  8. 前記1つ又は複数の画像が、少なくとも2つの画像を含み、前記少なくとも2つの画像が、少なくとも2つの斜視視野内の対象者を含む、請求項1に記載の方法。
  9. 前記少なくとも2つの画像が、前記対象者の少なくとも正面視野画像及び側面視野画像を含み、
    前記1つ又は複数の注釈重要点に基づいて、前記1つ又は複数の幾何学的特徴を生成することが、
    (a)注釈をつけられた正面視野及び側面視野画像並びに前記対象者の身長を利用して、少なくとも1つの注釈をつけられた身体構成要素の少なくとも1つの外周を計算するステップと、
    (b)注釈をつけられた正面視野及び側面視野画像並びに前記対象者の身長を利用して、少なくとも1つの注釈をつけられた身体構成要素の少なくとも1つの身体構成要素の画像面積を計算するステップと、
    (c)注釈をつけられた正面視野及び側面視野画像並びに前記対象者の身長を利用して、少なくとも1つの注釈をつけられた身体構成要素の少なくとも1つの身体構成要素の体積を計算するステップと、から成る群から選択される1つのステップを含む、請求項8に記載の方法。
  10. 前記1つ又は複数の画像を前記受信することの後、
    背景から前記対象者に関連付けられた前記1つ又は複数の身体構成要素を識別するために、前記画像上で身体セグメント化遂行することをさらに含み、
    前記身体セグメント化が、セグメント化トレーニング・データでトレーニングされてきたセグメント化深層学習モジュールを利用し、前記セグメント化トレーニング・データが、前記1人又は複数のサンプル対象者用の1つ又は複数の画像と、1人又は複数のサンプル対象者用の身体構成要素毎の身体構成要素セグメンテーションと、を含む、請求項1に記載の方法。
  11. 前記注釈深層学習モジュールが、1人又は複数のサンプル対象者用の1つ又は複数の画像と、前記1人又は複数のサンプル対象者用の身体構成要素毎の1つ又は複数の注釈重要点と、を含むトレーニング・データを利用する、請求項1に記載の方法。
  12. 前記1つ又は複数の対象者パラメータが、身長、受信された対象者体重推定値、性別、年齢、人種、及び前記対象者に関連付けられた人口統計情報から成る群から選択される、請求項1に記載の方法。
  13. 前記対象者の前記体重の前記予測値が、第1の推定値であり、前記方法が、
    第2の機械学習モジュールを使用して、前記対象者の前記体重の第2の推定値を生成することと、
    前記第1の推定値の第1の信頼性スコアと前記第2の推定値の第2の信頼性スコアとを比較することと、
    前記第1及び第2の信頼性スコアに基づいて、前記対象者の前記体重として前記第1の推定値又は前記第2の推定値のいずれかを選択することと、をさらに含む、請求項1に記載の方法。
  14. 前記対象者の前記体重の前記予測値が所定の値を下回る信頼性レベルに相当するか否かを決定することと、
    前記対象者の前記体重の前記予測値が、前記所定の値を下回る信頼性レベルに相当すると決定したことに応答して、
    前記対象者の前記体重の前記予測値を受信された対象者の体重推定値と比較することと、
    前記受信された対象者体重推定値が前記体重機械学習モジュールを導くために使用される、前記対象者の前記体重の前記予測値を更新することと、
    前記対象者の前記体重の前記予測値を前記対象者の前記体重の更新された予測値で置換することと、をさらに含む、請求項1に記載の方法。
  15. 前記1つ又は複数の対象者パラメータが、モバイル・コンピュータ・デバイスから受信され、前記対象者の前記画像が、前記モバイル・コンピュータ・デバイスのカメラから受信される、請求項1に記載の方法。
  16. 前記モバイル・コンピュータ・デバイスから受信された前記1つ又は複数の対象者パラメータが、前記モバイル・コンピュータ・デバイスによって遂行された測定値を受信することを含む、請求項15に記載の方法。
  17. 前記モバイル・コンピュータ・デバイスの深さセンサからの深さデータが、前記1つ又は複数の画像内で画素座標から現実世界座標にスケーリングするために、規格化データとして使用される、請求項15に記載の方法。
  18. 前記注釈重要点を識別することの前に、前記対象者及び背景の前記1つ又は複数の画像を前処理することをさらに含み、
    前記前処理することが、1つ又は複数の画像上での少なくともパースペクティブ補正を含み、
    前記パースペクティブ補正が、前記対象者の頭部を利用するパースペクティブ補正、前記モバイル・コンピュータ・デバイスのジャイロスコープを利用するパースペクティブ補正、及び前記モバイル・コンピュータ・デバイスの別のセンサを利用するパースペクティブ補正から成る群から選択される、請求項15に記載の方法。
  19. 対象者の体重を予測するためのコンピュータ・プログラム製品であって、その内部に包含されたプログラム命令を有する非一時的コンピュータ可読記憶媒体を備え、前記プログラム命令が、プロセッサによって実行可能であり、前記プロセッサに、
    1つ又は複数の対象者パラメータを受け取ることと、
    前記対象者を含む1つ又は複数の画像を受信することと、
    1つ又は複数の注釈深層学習モジュールを利用して、前記1つ又は複数の画像から前記対象者の衣服下の1つ又は複数の身体構成要素の1つ又は複数の注釈重要点を識別することと、
    前記1つ又は複数の注釈重要点に基づいて、前記対象者の1つ又は複数の幾何学的特徴を計算することと、
    前記対象者の前記1つ又は複数の幾何学的特徴及び前記1つ又は複数の対象者パラメータに基づいて、重量機械学習モジュールを利用して、前記対象者の前記体重の予測値を生成することと、を遂行させる、コンピュータ・プログラム製品。
  20. 前記1つ又は複数の幾何学的特徴が、身体構成要素の外周、身体構成要素の長さ、身体画像面積、身体構成要素の画像面積、身体体積、及び身体構成要素の体積から成る群、から選択される、請求項19に記載のコンピュータ・プログラム製品。
JP2021558836A 2019-04-02 2020-04-02 深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法 Pending JP2022521844A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962828373P 2019-04-02 2019-04-02
US62/828,373 2019-04-02
PCT/US2020/026279 WO2020206049A1 (en) 2019-04-02 2020-04-02 Systems and methods for weight measurement from user photos using deep learning networks

Publications (1)

Publication Number Publication Date
JP2022521844A true JP2022521844A (ja) 2022-04-12

Family

ID=72661557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021558836A Pending JP2022521844A (ja) 2019-04-02 2020-04-02 深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法

Country Status (5)

Country Link
US (1) US10962404B2 (ja)
EP (1) EP3938956A4 (ja)
JP (1) JP2022521844A (ja)
CN (1) CN113711235A (ja)
WO (1) WO2020206049A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD918932S1 (en) * 2019-03-12 2021-05-11 Hologic, Inc. Electronic display screen with graphical user interface with patient orientation element
EP3742397A1 (en) * 2019-05-23 2020-11-25 Koninklijke Philips N.V. Estimating a surface area and/or volume of a body or a body part of a subject
US11423630B1 (en) 2019-06-27 2022-08-23 Amazon Technologies, Inc. Three-dimensional body composition from two-dimensional images
US11232629B1 (en) 2019-08-30 2022-01-25 Amazon Technologies, Inc. Two-dimensional image collection for three-dimensional body composition modeling
US11903730B1 (en) * 2019-09-25 2024-02-20 Amazon Technologies, Inc. Body fat measurements from a two-dimensional image
US20210118579A1 (en) * 2019-10-21 2021-04-22 Singapore Ministry of Heath Office for Healthcare Transformation System and method for secure, private, and trusted medical information monitoring and semi-autonomous prescription management
US11482030B2 (en) * 2020-08-18 2022-10-25 SecurifAI LLC System and method for automatic detection and recognition of people wearing personal protective equipment using deep learning
CN113159085A (zh) * 2020-12-30 2021-07-23 北京爱笔科技有限公司 分类模型的训练及基于图像的分类方法、相关装置
US11854146B1 (en) 2021-06-25 2023-12-26 Amazon Technologies, Inc. Three-dimensional body composition from two-dimensional images of a portion of a body
KR102340290B1 (ko) * 2021-07-30 2021-12-17 주식회사 일루베이션 Rgb-d 기반 가축 체중 추론 ai 시스템 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체
US11887252B1 (en) 2021-08-25 2024-01-30 Amazon Technologies, Inc. Body model composition update from two-dimensional face images
US11861860B2 (en) 2021-09-29 2024-01-02 Amazon Technologies, Inc. Body dimensions from two-dimensional body images
US20230115716A1 (en) * 2021-10-08 2023-04-13 Sony Interactive Entertainment Inc. Augmented image adjustment of user based on possible actions or non-actions
US20230162416A1 (en) * 2021-11-22 2023-05-25 Envisionbody, Llc Method for modifying a user's video body image based on data inputs with stop point
CN114549694B (zh) * 2021-12-29 2024-03-01 世纪开元智印互联科技集团股份有限公司 一种证件照换装方法及系统
CN114271797B (zh) * 2022-01-25 2023-04-04 泰安市康宇医疗器械有限公司 基于三维建模技术的体态密度法测量人体成分的系统
WO2024038023A1 (de) * 2022-08-14 2024-02-22 Mama Fusion Gmbh COMPUTERIMPLEMENTIERTES VERFAHREN ZUR AUTOMATISCHEN BESTIMMUNG EINER GEEIGNETEN KLEIDUNGSGRÖßE FÜR EINE PERSON
CN115457104B (zh) * 2022-10-28 2023-01-24 北京百度网讯科技有限公司 人体信息的确定方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0917864A2 (pt) * 2008-08-15 2015-11-24 Univ Brown aparelho e método para estimativa da forma corporal
US20140313303A1 (en) * 2013-04-18 2014-10-23 Digimarc Corporation Longitudinal dermoscopic study employing smartphone-based image registration
US10282914B1 (en) * 2015-07-17 2019-05-07 Bao Tran Systems and methods for computer assisted operation
EP3335195A2 (en) * 2015-08-14 2018-06-20 Metail Limited Methods of generating personalized 3d head models or 3d body models
US10026187B2 (en) 2016-01-12 2018-07-17 Hand Held Products, Inc. Using image data to calculate an object's weight
US10818062B2 (en) * 2016-01-29 2020-10-27 Max-Planck-Gesellschaft Zur Förderung D. Wissenschaften E.V. Crowdshaping realistic 3D avatars with words
US9460557B1 (en) * 2016-03-07 2016-10-04 Bao Tran Systems and methods for footwear fitting
US11568864B2 (en) * 2018-08-13 2023-01-31 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user
US10832472B2 (en) * 2018-10-22 2020-11-10 The Hong Kong Polytechnic University Method and/or system for reconstructing from images a personalized 3D human body model and thereof

Also Published As

Publication number Publication date
EP3938956A4 (en) 2022-12-28
US10962404B2 (en) 2021-03-30
EP3938956A1 (en) 2022-01-19
WO2020206049A1 (en) 2020-10-08
US20200319015A1 (en) 2020-10-08
CN113711235A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
JP2022521844A (ja) 深層学習ネットワークを使用してユーザ写真から体重を測定するシステム及び方法
JP7075085B2 (ja) 全身測定値抽出のためのシステムおよび方法
US11836853B2 (en) Generation and presentation of predicted personalized three-dimensional body models
KR102290040B1 (ko) 신체 이미징
US11861860B2 (en) Body dimensions from two-dimensional body images
US11887252B1 (en) Body model composition update from two-dimensional face images
US11854146B1 (en) Three-dimensional body composition from two-dimensional images of a portion of a body
US11903730B1 (en) Body fat measurements from a two-dimensional image
Chamola et al. Advancements in Yoga Pose Estimation Using Artificial Intelligence: A Survey
Bojanic et al. Direct 3D Body Measurement Estimation from Sparse Landmarks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240229