JP2024525995A

JP2024525995A - イメージングフォトプレチスモグラフィ（ｉＰＰＧ）システムおよびバイタルサインのリモート測定方法

Info

Publication number: JP2024525995A
Application number: JP2024528262A
Authority: JP
Inventors: マークス，ティム; マンスール，ハッサン; ロフィット，スハス; コマス・マサグエ，アルマンド; リウ，シャオミン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-08-26
Filing date: 2022-07-21
Publication date: 2024-07-12

Abstract

イメージングフォトプレチスモグラフィ（ｉＰＰＧ）システムが提供される。ｉＰＰＧシステムは、人の皮膚の異なる領域の画像のシーケンスを受信し、各領域は、皮膚の色の変動を示す異なる強度の画素を含む。ｉＰＰＧシステムはさらに、画像のシーケンスを多次元時系列信号に変換し、各次元は、皮膚の異なる領域からのそれぞれの領域に対応する。ｉＰＰＧシステムはさらに、パススルー層が再帰型ニューラルネットワーク（ＲＮＮ）を含む時系列Ｕ－Ｎｅｔニューラルネットワークを用いて多次元時系列信号を処理して、ＰＰＧ波形を生成し、人のバイタルサインは、ＰＰＧ波形に基づいて推定され、ｉＰＰＧシステムはさらに、人の推定されたバイタルサインをレンダリングする。

Description

本開示は、概して人のバイタルサインをリモートでモニタリングすることに関し、より特定的にはイメージングフォトプレチスモグラフィ（ｉＰＰＧ：imaging PhotoPlethysmoGraphy）システムおよびバイタルサインのリモート測定方法に関する。

例えば心拍数（ＨＲ：Heart Rate）、心拍数変動（ＨＲＶ：Heart Rate Variability）、呼吸数（ＲＲ：Respiration Rate）または血中酸素飽和度などの人のバイタルサインは、人の現在の状態の指標および深刻な医療事象の潜在的な予測因子として機能する。このような理由で、バイタルサインは、入院患者および外来患者治療環境において、自宅で、ならびに他の健康、レジャーおよびフィットネス環境において、広範囲にモニタリングされる。バイタルサインを測定する１つの方法は、プレチスモグラフィである。プレチスモグラフィとは、人の臓器または身体部位の体積変化の測定に対応する。フォトプレチスモグラフィ（ＰＰＧ：PhotoPlethysmoGraphy）などのプレチスモグラフィのさまざまな実現例がある。

ＰＰＧは、対象の面積または体積の光反射率または透過の時変変化を評価する光学測定技術であり、組織の微小血管床における血液量変化を検出するのに使用することができる。ＰＰＧは、血液が周囲組織とは異なったように光を吸収および反射するので、それに対応して、心臓の鼓動ごとの血液量の変動が光の透過または反射率に影響を及ぼす、という原理に基づく。ＰＰＧは、しばしば非侵襲的に使用されて皮膚表面で測定を行う。ＰＰＧ波形は、心臓の鼓動ごとの血液量の心臓同期変化に帰する拍動性の生理学的波形を含み、呼吸、交感神経系活動および体温調節などの他の要因に帰するさまざまな低周波数成分を有するゆっくりと変化するベースライン上に重ね合わせられる。

人の心拍数および（動脈）血中酸素飽和度を測定するための従来のパルスオキシメータは、例えば指先、耳たぶまたは額などの人の皮膚に取り付けられる。したがって、それらは「接触型」ＰＰＧ装置と称される。典型的なパルスオキシメータは、光源としての緑色ＬＥＤと青色ＬＥＤと赤色ＬＥＤと赤外線ＬＥＤとの組み合わせと、患者組織を透過した光を検出するための１つのフォトダイオードとを含み得る。従来の入手可能なパルスオキシメータは、異なる波長での測定を素早く切り換えることによって、異なる波長において組織の同一面積または同一体積の透過率を測定する。これは、時分割多重化と称される。各波長における経時的な透過率は、異なる波長についてＰＰＧ信号を生じさせる。接触型ＰＰＧは、基本的に非侵襲性の技術であるとされているが、接触型ＰＰＧ測定は、往々にして不快なものとして体験される。なぜなら、パルスオキシメータが人に直接取り付けられるためケーブルが移動の自由を制限するからである。

最近になって、邪魔にならない測定のための非接触型リモートＰＰＧ（ＲＰＰＧ）が導入されるようになってきた。ＲＰＰＧは、対象の人から離れて配設された光源、または一般に放射線源を利用する。同様に、例えばカメラまたは光検出器などの検出器も対象の人から離れて配設することができる。ＲＰＰＧは、カメラなどのイメージングセンサの使用に起因して、イメージングＰＰＧ（ｉＰＰＧ：imaging PPG）とも称されることが多い。（以下、リモートＰＰＧ（ＲＰＰＧ）という語とイメージングＰＰＧ（ｉＰＰＧ）という語とは同義で使用される。）それらは人との直接接触を必要としないので、リモートフォトプレチスモグラフィシステムおよび装置は邪魔にならないと考えられ、その意味で医療用途および非医療の日常的な用途に適している。

オンボディセンサに対するカメラベースのバイタルサインモニタリングの１つの利点は、使い勝手のよさである。カメラを人に向けるだけで十分であるので、センサを人に取り付ける必要がない。オンボディセンサに対するカメラベースのバイタルサインモニタリングの別の利点は、カメラが、ほとんどの場合単一要素検出器を含む接触型センサよりも高い空間分解能を有していることである。

ＲＰＰＧ技術の課題のうちの１つは、固有のノイズ源が存在する変化しやすい環境において正確な測定を提供できるようにすることである。例えば、車両内環境などの変化しやすい環境では、運転手に対する照明は、運転中（例えば、建物、木などの陰を通っている間）に劇的かつ突然に変化するため、ｉＰＰＧ信号と他の変動とを区別することを困難にする。また、車両の動き、運転手が車の中も外も見回す（対向交通のために、バックミラーおよびサイドミラーをのぞき込む）などのいくつかの要因に起因して、運転手の頭および顔の著しい動きがある。

ロバストなカメラベースのバイタルサイン測定を可能にするためのいくつかの方法が開発されてきた。これらの方法のうちの１つは、狭帯域アクティブ近赤外（ＮＩＲ：near-infrared）照明を使用し、ＮＩＲ照明は、ライティング変動の悪影響を大幅に減少させる。例えば、運転中、この方法は、太陽光と影との間の突然の変動、または夜間の運転手の視力に影響を及ぼすことなく街灯および他の車のヘッドライトを通過する、などのライティング変動の悪影響を減少させることができる。しかし、ＮＩＲ周波数は、信号対雑音比（ＳＮＲ：Signal-to-Noise Ratio）が低いなどの新たな課題をｉＰＰＧにもたらす。この理由は、スペクトルのＮＩＲ部分では、カメラセンサの感度が低く、血流関連の強度変化の大きさがより小さいことを含む。したがって、ＮＩＲ周波数からＰＰＧ信号を正確に推定することができるＲＰＰＧシステムが必要である。

したがって、いくつかの実施形態の目的は、高い精度で人のバイタルサインを推定することである。そのために、いくつかの実施形態は、イメージングフォトプレチスモグラフィ（ｉＰＰＧ）を利用する。また、いくつかの実施形態の目的は、狭帯域近赤外（ＮＩＲ）システムを使用して、照明変動を減少させる波長範囲を決定することである。追加的にまたは代替的に、いくつかの実施形態は、ＮＩＲモノクロ映像（または、画像のシーケンス）を使用して、人の皮膚の異なる領域に関連付けられた多次元時系列データを取得し、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）を使用してこの多次元時系列データを処理することによって人のバイタルサインを正確に推定することを目的としている。

いくつかの実施形態は、ＮＩＲモノクロ映像またはＮＩＲ画像のシーケンスから人のバイタルサインを推定することができる、という認識に基づく。そのために、ｉＰＰＧシステムは、対象の人（「人」とも称される）の顔のＮＩＲ画像のシーケンスを取得して、各画像を複数の空間領域に区画割りする。各空間領域は、人の顔の小さな部分を含む。ｉＰＰＧシステムは、複数の空間領域の各領域における皮膚の色または強度の変動を分析して、人のバイタルサインを推定する。

そのために、ｉＰＰＧシステムは、多次元時系列信号を生成し、各瞬間における多次元信号の次元は、空間領域の数に対応し、各時点は、画像のシーケンスの中の１つの画像に対応する。その後、多次元時系列信号は、ディープニューラルネットワーク（ＤＮＮ）ベースのモジュールに提供されて、人のバイタルサインが推定される。ＤＮＮベースのモジュールは、時系列Ｕ－Ｎｅｔアーキテクチャを多次元時系列データに適用し、Ｕ－Ｎｅｔアーキテクチャのパススルー接続は、ＮＩＲイメージングＰＰＧのために時間再帰を組み込むように修正される。

いくつかの実施形態は、Ｕ－Ｎｅｔニューラルネットワークのパススルー層における再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）を使用して多次元時系列信号をシーケンシャルに処理することが人のバイタルサインのより正確な推定を可能にすることができる、という認識に基づく。

いくつかの実施形態は、人の皮膚の強度（例えば、ＮＩＲ画像における画素強度）の測定の際のノイズに対するＰＰＧ信号の感度が、少なくとも部分的に、異なる空間位置（または、空間領域）において測定された人の皮膚の強度からフォトプレチスモグラフィ（ＰＰＧ）信号を独立して推定することによって引き起こされる、という認識に基づく。いくつかの実施形態は、例えば人の皮膚の異なる領域などの異なる位置において測定強度が異なる測定ノイズにさらされる可能性がある、という認識に基づく。ｉＰＰＧ信号が各位置における強度から独立して推定される（例えば、ある皮膚領域における強度から推定されたＰＰＧ信号が他の皮膚領域からの強度または推定信号から独立して推定される）場合、それぞれの推定値の独立性により推定器はこのようなノイズを識別することができない場合がある。

いくつかの実施形態は、人の皮膚の異なる空間領域における測定強度が異なるノイズ、時には無関係でさえあるノイズにさらされる可能性がある、という認識に基づく。このようなノイズは、照明変動、人の動きなどのうちの１つ以上を含む。これに対して、心臓の鼓動は、皮膚の異なる領域に存在する強度変動の共通する原因である。したがって、独立した推定が、人の皮膚の異なる領域における強度から測定されたＰＰＧ信号の共同推定と置換されると、バイタルサイン推定の品質に対するノイズの影響を減少させることができる。このように、いくつかの実施形態は、多くの皮膚領域にわたって共有されないノイズ信号を無視しながら、（相当なノイズも含み得る領域を含む）多くの皮膚領域に共通のＰＰＧ信号を抽出することができる。

いくつかの実施形態は、異なる皮膚領域のＰＰＧ信号をひとまとめにして推定することによってバイタルサインの推定に影響を及ぼすノイズが減少するので、異なる皮膚領域のＰＰＧ信号をひとまとめにして推定することが有益であろう、という認識に基づく。いくつかの実施形態は、２つのタイプのノイズ、すなわち外部ノイズおよび内部ノイズが皮膚の強度に対して作用している、という認識に基づく。外部ノイズは、ライティング変動、人の動き、および強度を測定するセンサの分解能などの外部要因に起因して皮膚の強度に影響を及ぼす。内部ノイズは、人の皮膚の異なる領域の外観に対する心血管血流のさまざまな影響などの内部要因に起因して皮膚の強度に影響を及ぼす。例えば、心臓の鼓動は、鼻の強度よりも人の額および頬の強度に大きく影響を及ぼし得る。

いくつかの実施形態は、両方のタイプのノイズが強度測定の周波数領域において対処可能である、という認識に基づく。具体的には、外部ノイズは、多くの場合、非周期的であるか、または、対象の信号（例えば、拍動性の信号）とは異なる周期的な周波数を有するため、周波数領域において検出することができる。一方、内部ノイズは、皮膚の異なる領域に強度変動または強度変動の時間シフトを生じさせながら、周波数領域において強度変動の共通する原因の周期性を保持する。

いくつかの実施形態は、劇的な照明変動が存在する変化しやすい環境でもバイタルサインを正確に推定することを目的としている。例えば、車両内環境などの変化しやすい環境において、いくつかの実施形態は、車両の運転手または乗員のバイタルサインを推定するのに適したＲＰＰＧシステムを提供する。しかし、運転中、人の顔への照明は劇的に変化する可能性がある。これらの課題に対処するために、追加的にまたは代替的に、一実施形態は、太陽光、街灯、ならびにヘッドライトおよびテールライトのスペクトルエネルギが全て最小限である狭スペクトル帯域においてアクティブ車内照明を使用する。例えば、大気中の水分に起因して、地球の表面に到達する太陽光は、９４０ｎｍのＮＩＲ波長のあたりで、他の波長よりもはるかに少ないエネルギを有する。街灯および車両ライトによって出力される光は、一般に可視スペクトル内であり、赤外周波数におけるパワーが非常に小さい。そのために、一実施形態は、９４０ｎｍまたは９４０ｎｍ付近のアクティブ狭帯域照明源と、同一の周波数におけるカメラフィルタとを使用することにより、環境周囲照明に起因する照明変化がフィルタリングされて除去されることを確実にする。さらに、この狭周波数帯域は可視範囲を超えているので、人間はこの光源を知覚しないため、その存在によって気が散ることはない。その上、アクティブ照明に使用される光源の帯域幅が狭くなるにつれて、カメラのバンドパスフィルタが狭くなり得るため、周囲照明に起因する強度変化がさらに除去される。

したがって、一実施形態は、９４０ｎｍの近赤外波長を含む狭周波数帯域において人の皮膚を照明するための狭帯域幅（狭帯域）近赤外（ＮＩＲ）光源と、当該狭周波数帯域において皮膚の異なる領域の強度を測定するための、狭帯域光源の波長と重複する狭帯域フィルタを有するＮＩＲカメラとを使用する。

一実施形態は、人の皮膚の画像から上記人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ（ｉＰＰＧ）システムを開示し、上記ｉＰＰＧシステムは、少なくとも１つのプロセッサと、命令が格納されたメモリとを備え、上記命令は、上記少なくとも１つのプロセッサによって実行されると、上記ｉＰＰＧシステムに、上記人の上記皮膚の異なる領域の画像のシーケンスを受信することを行わせ、各領域は、上記皮膚の色の変動を示す異なる強度の画素を含み、上記命令はさらに、上記少なくとも１つのプロセッサによって実行されると、上記ｉＰＰＧシステムに、上記画像のシーケンスを多次元時系列信号に変換することを行わせ、各次元は、上記皮膚の上記異なる領域からのそれぞれの領域に対応し、上記命令はさらに、上記少なくとも１つのプロセッサによって実行されると、上記ｉＰＰＧシステムに、時系列Ｕ－Ｎｅｔニューラルネットワークを用いて上記多次元時系列信号を処理して、ＰＰＧ波形を生成することを行わせ、上記時系列Ｕ－ＮｅｔニューラルネットワークのＵ字形状は、収縮層のシーケンスによって形成される収縮経路と、その後に続く拡張層のシーケンスによって形成される拡張経路とを含み、上記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ上記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、上記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されている。さらに、上記パススルー層のうちの少なくとも１つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含む。上記少なくとも１つのプロセッサはさらに、上記ＰＰＧ波形に基づいて上記人の上記バイタルサインを推定し、上記人の推定された上記バイタルサインをレンダリングするように構成される。

別の実施形態は、人のバイタルサインを推定するための方法を開示し、上記方法は、上記人の上記皮膚の異なる領域の画像のシーケンスを受信するステップを含み、各領域は、上記皮膚の色の変動を示す異なる強度の画素を含み、上記方法はさらに、上記画像のシーケンスを多次元時系列信号に変換するステップを含み、各次元は、上記皮膚の上記異なる領域からのそれぞれの領域に対応し、上記方法はさらに、時系列Ｕ－Ｎｅｔニューラルネットワークを用いて上記多次元時系列信号を処理して、ＰＰＧ波形を生成するステップを含み、上記時系列Ｕ－ＮｅｔニューラルネットワークのＵ字形状は、収縮層のシーケンスによって形成される収縮経路と、その後に続く拡張層のシーケンスによって形成される拡張経路とを含み、上記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ上記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、上記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、上記パススルー層の各々は、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含む。上記方法はさらに、上記ＰＰＧ波形に基づいて上記人の上記バイタルサインを推定するステップと、上記人の推定された上記バイタルサインをレンダリングするステップとを含む。

例示的な実施形態に係る、近赤外（ＮＩＲ）映像から人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ（ｉＰＰＧ）システムを示すブロック図である。例示的な実施形態に係る、ｉＰＰＧシステムの機能図である。例示的な実施形態に係る、ＮＩＲ映像を使用するｉＰＰＧシステムによって実行される方法のステップを示す図である。例示的な実施形態に係る、カラー映像から人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ（ｉＰＰＧ）システムを示すブロック図である。例示的な実施形態に係る、映像のシングルカラーチャネルから情報を抽出するｉＰＰＧシステムの機能図である。例示的な実施形態に係る、シングルチャネル次元に沿ってあらゆる領域のあらゆるカラーチャネルについての多次元時系列を積層するｉＰＰＧシステムの機能図である。例示的な実施形態に係る、複数のカラーチャネルについての多次元時系列を組み合わせて単一の多次元時系列にするｉＰＰＧシステムの機能図である。例示的な実施形態に係る、２つの異なるチャネル次元に沿ってあらゆる領域のあらゆるカラーチャネルについての多次元時系列を積層するｉＰＰＧシステムの機能図である。例示的な実施形態に係る、カラー映像を使用するｉＰＰＧシステムによって実行される方法のステップを示す図である。例示的な実施形態に係る、サイズが３であってストライドが１であるカーネルによって操作される入力チャネルの時間畳み込みを示す図である。例示的な実施形態に係る、サイズが３であってストライドが２であるカーネルによって操作される入力チャネルの時間畳み込みを示す図である。例示的な実施形態に係る、サイズが５であってストライドが１であるカーネルによって操作される入力チャネルの時間畳み込みを示す図である。例示的な実施形態に係る、マルチチャネル入力に対する時間畳み込みを示す図である。例示的な実施形態に係る、再帰型ニューラルネットワーク（ＲＮＮ）によって実行されるシーケンシャル処理を示す図である。例示的な実施形態に係る、スペクトルの近赤外（ＮＩＲ）部分を使用して取得されたＰＰＧ信号周波数スペクトルとスペクトルの可視部分（ＲＧＢ）を使用して取得されたＰＰＧ信号周波数スペクトルとの比較のためのプロットを示す図である。例示的な実施形態に係る、ＰＴＥ６（時間割合誤差が６ｂｐｍ未満）メトリックを使用した心拍数推定に対するデータ拡張の影響を示す図である。例示的な実施形態に係る、二乗平均平方根誤差（ＲＭＳＥ：Root-Mean-Squared Error）メトリックを使用した心拍数推定に対するデータ拡張の影響を示す図である。例示的な実施形態に係る、ある被験者について、時間損失（ＴＬ：Temporal Loss）を使用して訓練されたＴＵＲＮＩＰ（Time-series U-net with Recurrence for NIR Imaging PPG（ＮＩＲイメージングＰＰＧのための再帰を有する時系列Ｕ－ｎｅｔ））によって推定されたＰＰＧ信号と、スペクトル損失（ＳＬ：Spectral Loss）を使用して訓練されたＴＵＲＮＩＰによって推定されたＰＰＧ信号との比較を、対応するグラウンドトゥルースＰＰＧ信号との比較で示す図である。例示的な実施形態に係る、ｉＰＰＧシステムのブロック図である。例示的な実施形態に係る、ｉＰＰＧシステムを使用した患者モニタリングシステムを示す図である。例示的な実施形態に係る、ｉＰＰＧシステムを使用した運転手支援システムを示す図である。

以下の説明には、本開示の十分な理解が得られるように、多数の具体的な詳細が説明の目的で記載されている。しかし、これらの具体的な詳細がなくても本開示を実施できるということは当業者に明らかであろう。他の例では、本開示を不明瞭にすることを回避するためだけに、装置および方法をブロック図の形式で示す。

本明細書および特許請求の範囲で使用されている「例えば（for example）」、「例として（for instance）」および「など（such as）」という語ならびに「備える（comprising）」、「有する（having）」、「含む（including）」という動詞およびこれらの動詞の他の形態は、１つもしくは複数の構成要素または他のアイテムの列挙と併用されると、各々がオープンエンドであるものとして解釈されるべきであり、これは、この列挙が他のさらなる構成要素またはアイテムを除外するものと考えられるべきではないことを意味する。「基づく」という語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で利用される表現および専門語は、説明の目的であり、限定的であるとみなされるべきではない、ということが理解されるべきである。この説明の中で利用される見出しはいずれも、便宜上のものであるに過ぎず、法的または限定的な効果を有するものではない。

図１Ａは、例示的な実施形態に係る、人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ（ｉＰＰＧ）システム１００を示すブロック図である。ｉＰＰＧシステム１００は、時系列抽出モジュール１０１およびＰＰＧ推定器モジュール１０９を使用して人の皮膚の異なる領域の入力画像からＰＰＧ波形（「ＰＰＧ信号」とも称される）を生成することができるモジュール式のフレームワークに対応する。さらに、このＰＰＧ波形を使用して、人の１つまたは複数のバイタルサインを正確に推定することができる。いくつかの実施形態では、時系列抽出モジュール１０１およびＰＰＧ推定器モジュール１０９の一方または両方は、ニューラルネットワークを使用して実現され得る。

いくつかの実施形態では、ｉＰＰＧシステム１００は、人の皮膚を照明するように構成された近赤外（ＮＩＲ）光源と、モノクロ映像１０５（ＮＩＲ映像１０５とも称される）を取り込むように構成されたカメラとを含み得る。ＮＩＲ映像１０５は、１人または複数人の人の少なくとも１つの身体部位（人の顔など）を取り込む。説明を容易にするために、ＮＩＲ映像１０５は人の顔を取り込むものとする。ＮＩＲ映像１０５は、複数のフレームを含む。したがって、ＮＩＲ映像１０５における各フレームは、人の顔の画像１０７を含む。動作時、ｉＰＰＧシステム１００は、ＮＩＲ映像１０５などの入力を取得する。いくつかの実施形態では、ＮＩＲ映像１０５の各フレームにおける画像１０７は複数の空間領域１０３に区画割りされ、複数の空間領域１０３は共同で分析されて、ＰＰＧ波形が正確に決定される。

図１Ｄは、ｉＰＰＧシステム１００がＲＧＢ映像１０６（赤色（Ｒ）カラーチャネル、緑色（Ｇ）カラーチャネルおよび青色（Ｂ）カラーチャネルを含むのでそのように呼ばれる）などのカラー映像を取り込むためのカラーカメラを含み得る代替的な実施形態を示すブロック図である。ＲＧＢ映像１０６は、１人または複数人の人の少なくとも１つの身体部位（人の顔など）を取り込む。

説明を容易にするために、ＲＧＢ映像１０６は人の顔を取り込むものとする。ＲＧＢ映像１０６は、複数のフレームを含む。したがって、ＲＧＢ映像１０６における各フレームは、人の顔の画像１０７を含む。この実施形態では（図１Ｃに示される実施形態とは異なって）、画像１０７はＲＧＢ画像である。動作時、ｉＰＰＧシステム１００は、ＲＧＢ映像１０６などの入力を取得する。いくつかの実施形態では、ＲＧＢ映像の各フレームにおけるＲＧＢ画像１０８は、赤色（Ｒ）チャネル、緑色（Ｇ）チャネルおよび青色（Ｂ）チャネルに分割される。各チャネルは複数の空間領域１０３に区画割りされ、複数の空間領域１０３は共同で分析されて、ＰＰＧ波形が正確に決定される。いくつかの好ましい実施形態では、各空間領域に対応する画素位置は、カラーチャネル全体で一貫している。

各画像１０７の区画割り（セグメンテーション）は、検討対象の身体部位の特定のエリアが最も強いＰＰＧ信号を含む、という認識に基づく。例えば、最も強いＰＰＧ信号を含む顔の特定のエリア（「関心領域（ＲＯＩ：Region Of Interest）」とも称され、単に「領域」とも称される）は、額、頬および顎の周りに位置するエリアを含む（図１Ａに図示）。したがって、画像セグメンテーションは、推定された顔ランドマーク位置に基づくセグメンテーション、セマンティックセグメンテーション、顔の構文解析、閾値セグメンテーション、エッジベースのセグメンテーション、領域ベースのセグメンテーション、ウォーターシェッドセグメンテーション、クラスタリングベースのセグメンテーションアルゴリズム、およびセグメンテーションのためのニューラルネットワークなどの少なくとも１つの画像セグメンテーション技術を使用して実行され得る。

各画像１０７の区画割りは、複数の空間領域１０３の異なる空間領域を含む画像のシーケンスをもたらし、各空間領域は、人の皮膚のそれぞれの部分を含む。例えば、人の顔のＮＩＲ映像１０５およびＲＧＢ映像１０６において、映像の各フレームにおける画像１０７は、人の顔に対応し、画像１０７を区画割りすることによって形成された画像のシーケンスにおける複数の空間領域１０３は、人の皮膚のエリアに対応し得る。さらに、複数の空間領域１０３の各空間領域は、ＰＰＧ信号の決定に使用される。髪（額にかかる前髪など）、顔の毛、物体（サングラスなど）、別の身体部位（手など）、および、顔の一部が画像の中で見えないようにする頭部姿勢またはカメラ姿勢などの１つまたは複数の遮蔽物に起因し得る顔の一部の遮蔽のために、いくつかの領域は、皮膚を含まない場合があり、または部分的にしか皮膚を含まない場合があり、これにより、それらの領域からの信号の品質が阻害されたり弱くなったりする可能性がある。

いくつかの実施形態は、人の皮膚の強度（例えば、画像における画素強度）の測定の際のノイズに対するＰＰＧ信号の感度が、少なくとも部分的に、異なる空間位置（または、空間領域）において測定された人の皮膚の強度からＰＰＧ信号を独立して推定することによって引き起こされる、という認識に基づく。さらに、いくつかの実施形態は、例えば人の皮膚の異なる領域などの異なる位置において測定強度が異なる測定ノイズにさらされる可能性がある、という認識に基づく。ＰＰＧ信号が各空間領域における強度から独立して推定される（例えば、ある皮膚領域における強度から推定されたＰＰＧ信号が他の皮膚領域からの強度または推定信号から独立して推定される）場合、それぞれの推定値の独立性により、推定器は、ＰＰＧ信号を決定する際の精度に影響を及ぼすこのようなノイズを識別することができない場合がある。

ノイズは、照明変動、人の動きなどのうちの１つ以上に起因し得る。いくつかの実施形態は、心臓の鼓動が、皮膚の異なる領域に存在する強度変動の共通する原因である、というさらなる認識に基づく。したがって、独立した推定が、人の皮膚の異なる領域における強度から測定されたＰＰＧ信号の共同推定と置換されると、バイタルサインの推定の品質に対するノイズの影響を減少させることができる。

したがって、ｉＰＰＧシステム１００は、ノイズの影響を減少させるようにバイタルサインを推定するために複数の空間領域１０３を共同で分析し、バイタルサインは、人の脈拍数および人の心拍数変動（「心臓鼓動信号」とも称される）のうちの１つまたはそれらの組み合わせである。いくつかの実施形態では、人のバイタルサインは、ある時系列における各瞬間の一次元信号である。

いくつかの実施形態は、時間分析を採用することによってバイタルサインを正確に推定することができる、という認識に基づく。したがって、ｉＰＰＧシステム１００は、人の皮膚の異なる領域に対応する画像のシーケンスから少なくとも１つの多次元時系列信号を抽出するように構成されており、この時系列信号を使用してＰＰＧ信号が決定されてバイタルサインが正確に推定される。

そのために、ｉＰＰＧシステム１００は、時系列抽出モジュール１０１を使用する。

時系列抽出モジュール：

いくつかの実施形態では、時系列抽出モジュール１０１は、ＮＩＲ映像１０５の複数のフレームの画像のシーケンスを受信して、これらの画像のシーケンスから多次元時系列信号を抽出するように構成される。いくつかの実施形態では、時系列抽出モジュール１０１はさらに、ＮＩＲモノクロ映像１０５のフレームからの画像１０７を複数の空間領域１０３に区画割りして、複数の空間領域１０３に対応する多次元時系列を生成するように構成される。

他の実施形態では、時系列抽出モジュール１０１は、ＲＧＢ映像１０６の複数のフレームの画像のシーケンスを受信して、これらの画像のシーケンスから多次元時系列信号を抽出するように構成される。いくつかの実施形態では、時系列抽出モジュール１０１はさらに、ＲＧＢ映像１０６のフレームからの画像１０７を赤色（Ｒ）チャネル、緑色（Ｇ）チャネルおよび青色（Ｂ）チャネルに区画割りするように構成される。いくつかの実施形態では、時系列抽出モジュール１０１はさらに、画像のＲチャネル、ＧチャネルおよびＢチャネルの各々を複数の空間領域１０３に区画割りして、これらの複数の空間領域１０３に対応する多次元時系列を生成するように構成される。

画像のシーケンスにおける画像１０７は、人の皮膚の異なる領域を含み得て、各領域は、皮膚の色の変動を示す異なる強度の画素を含む。図１Ａは顔に位置する皮膚領域（顔領域）を示しているが、さまざまな実施形態は顔を使用することに限定されるものではない、ということが理解される。いくつかの実施形態では、人の首または手首などの露出した皮膚の他の領域に対応する画像のシーケンスが、時系列抽出モジュール１０１によって取得されて処理され得る。

いくつかの実施形態では、ＮＩＲモノクロ映像１０５から取得された多次元時系列信号の各次元は、画像１０７における人の皮膚の複数の空間領域からのそれぞれの空間領域に対応する。

いくつかの実施形態では、ＲＧＢ映像１０６から取得された多次元時系列信号の各次元は、画像１０７における人の皮膚の複数の空間領域からのそれぞれのカラーチャネルおよびそれぞれの空間領域に対応する。

さらに、いくつかの実施形態では、各次元は、人の皮膚の複数の空間領域の、明示的に追跡された（代替的には、各フレームにおいて明示的に検出された）関心領域（ＲＯＩ）からの信号である。追跡（代替的には、検出）は、動き関連のノイズの量を減少させる。しかし、多次元時系列は、ランドマーク位置確定誤差、ライティング変動、３Ｄ頭部回転、および顔の表情などの変形などの要因に起因して相当なノイズを依然として含んでいる。

ノイズの混ざった多次元時系列信号から対象の信号（ＰＰＧ信号）を回復させるために、多次元時系列信号は、ＰＰＧ推定器モジュール１０９に提供される。

ＰＰＧ推定器モジュール：

ＰＰＧ推定器モジュール１０９は、ノイズの混ざった多次元時系列信号からＰＰＧ信号を回復させて出力する（１１１）ように構成される。さらに、ＰＰＧ信号に基づいて、人のバイタルサインが判断される。

ＰＰＧ推定器モジュール１０９によって取得される時系列信号の準周期的な性質を考慮して、ＰＰＧ推定器モジュール１０９のアーキテクチャは、異なる時間分解能で時間的特徴を抽出するように設計される。そのために、ＰＰＧ推定器モジュール１０９は、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）などのニューラルネットワークを使用して実現される。

いくつかの実施形態では、本開示は、ＰＰＧ推定器モジュール１０９のためのＴＵＲＮＩＰ（Time-series U-net with RecurreNce for Imaging PPG）アーキテクチャを提案する。図１Ｂは、ＲＮＮアーキテクチャと結合されたＵ－ｎｅｔアーキテクチャに基づくＴＵＲＮＩＰアーキテクチャを示す図である。

いくつかの実施形態は、Ｕ－ｎｅｔが画像セグメンテーションなどの画像処理アプリケーションで使用された畳み込みネットワークアーキテクチャである、という認識に基づく。Ｕ－ｎｅｔアーキテクチャは、「Ｕ」字型のアーキテクチャであり、Ｕ－ｎｅｔアーキテクチャは、Ｕ－ｎｅｔアーキテクチャの左側の収縮経路と、Ｕ－ｎｅｔアーキテクチャの右側の拡張経路とを含む。Ｕ－Ｎｅｔアーキテクチャは、収縮経路に対応するエンコーダネットワークと、拡張経路に対応するデコーダネットワークとに大きく分類することができ、エンコーダネットワークの後にデコーダネットワークが続く。

エンコーダネットワークは、Ｕ－ｎｅｔアーキテクチャの前半を形成する。Ｕ－ｎｅｔアーキテクチャが一般的に使用される画像処理アプリケーションでは、エンコーダは、一連の空間畳み込み層で構成され、複数の異なるレベルにおいて入力画像を特徴表現に符号化するために最大値プーリングダウンサンプリング層を有し得る。

デコーダネットワークは、Ｕ－ｎｅｔアーキテクチャの後半を形成し、一連の畳み込み層およびアップサンプリング層を含む。デコーダネットワークの目的は、エンコーダネットワークによって学習された（低分解能の）特徴を元の（高分解能の）空間に意味論的に投影し直すことである。Ｕ－ｎｅｔアーキテクチャが一般的に使用される画像処理アプリケーションでは、畳み込み層は空間畳み込みを使用し、入力空間および出力空間は画像画素空間である。

いくつかの実施形態は、ＰＰＧ推定器モジュール１０９（「ＰＰＧ推定器ネットワーク」とも称される）の入力が多次元時系列であり、所望の出力がバイタルサインの一次元時系列である、という認識に基づく。したがって、いくつかの好ましい実施形態では、時系列Ｕ－ｎｅｔ１０９ａのエンコーダサブネットワークおよびデコーダサブネットワークの畳み込み層は、時間畳み込みを使用する。

いくつかの実施形態は、再帰型ニューラルネットワーク（ＲＮＮ）が、ノード間の接続が時間シーケンスに沿って有向グラフを形成する一種の人工ニューラルネットワーク（ＡＮＮ）である、というさらなる認識に基づく。有向グラフは、ＲＮＮが時間の動的な挙動を示すことを可能にする。順伝播型ニューラルネットワークとは異なって、ＲＮＮは、それらの内部状態（メモリ）を使用して入力の可変長シーケンスを処理することができる。したがって、ＲＮＮは、過去の入力の重要な特徴を覚えていることが可能であり、このことは、ＲＮＮが時間パターンをより正確に決定することを可能にする。したがって、ＲＮＮは、シーケンスおよびそのコンテキストのはるかに深い理解を形成することができる。それ故に、ＲＮＮは、時系列などのシーケンシャルなデータに使用することができる。

ｉＰＰＧシステム１００の提案されているＴＵＲＮＩＰアーキテクチャのいくつかの実施形態では、Ｕ－Ｎｅｔアーキテクチャが時系列データに適用される。いくつかの実施形態では、パススルー接続は、１×１畳み込みを組み込む。以前のＵ－Ｎｅｔとは異なって、ＴＵＲＮＩＰでは、パススルー接続は、ＲＮＮを使用して時間再帰を組み込むように修正される。そのため、ＰＰＧ推定器モジュール１０９は、再帰型ニューラルネットワーク（ＲＮＮ）１０９ｂに結合された時系列Ｕ－Ｎｅｔニューラルネットワーク（「Ｕ－ｎｅｔ」とも称される）１０９ａを含む。Ｕ－ｎｅｔ１０９ａとＲＮＮ１０９ｂとは、結合されて多次元時系列データを処理してＰＰＧ波形を正確に決定し、このＰＰＧ波形を使用して人のバイタルサインが推定される。ＴＵＲＮＩＰアーキテクチャを使用した提案されているｉＰＰＧシステム１００の仕組みに関するさらなる詳細については、図１Ｂ～図１Ｊを参照してさらに詳細に以下で説明する。

図１Ｂは、例示的な実施形態に係る、ｉＰＰＧシステム１００の機能図である。図１Ｂは、図１Ａと併せて説明される。ｉＰＰＧシステム１００は、最初に、人の身体部位（例えば、顔）の１つまたは複数の映像を受信する。１つまたは複数の映像は、近赤外（ＮＩＲ）映像であり得る。いくつかの実施形態では、ｉＰＰＧシステム１００は、ＮＩＲ照明源とカメラとを含み、ＮＩＲ照明は、カメラが人の特定の身体部位の１つまたは複数のＮＩＲ映像を記録することができるように人の身体部位をＮＩＲ光で照明するように構成される。１つまたは複数のＮＩＲ映像は、ＴＵＲＮＩＰアーキテクチャを使用してＰＰＧ波形を決定するのに使用される。

そのために、ｉＰＰＧシステム１００は、１つまたは複数の映像の各ＮＩＲ映像１０５について、ＮＩＲ映像１０５の画像フレームのシーケンスの各々から画像（例えば、画像１０７）を取得する。各画像は、複数の空間領域（例えば、空間領域１０３）に区画割りまたはセグメント化され、その結果、空間領域が身体部位の異なるエリアに対応する画像のシーケンスが得られる。画像１０７の区画割りは、各空間領域が、ＰＰＧ信号を強く示し得る身体部位の特定のエリアを含むように実行される。そのため、複数の空間領域１０３の各空間領域は、ＰＰＧ信号を決定するための関心領域（ＲＯＩ）である。さらに、各空間領域について、時系列抽出モジュール１０１を使用して時系列信号が導き出される。

例示的な実施形態では、各ＮＩＲ映像１０５について、時系列抽出モジュール１０１は、４８個の顔領域（ＲＯＩ）の経時的な画素強度に対応する４８次元時系列を抽出し、これらの顔領域は、複数の空間領域１０３に対応する。いくつかの実施形態では、多次元時系列信号は、４８個よりも多くのまたは少ない顔領域に対応する４８次元よりも多くのまたは少ない次元を有していてもよい。

いくつかの実施形態では、画像内の人の特定の身体部位に関連付けられたＲＯＩを抽出するために、人の特定の身体部位に対応する複数のランドマーク位置が映像の各画像フレーム１０７において位置確定される。したがって、これらの複数のランドマーク位置は、ＰＰＧ信号の決定に使用される身体部位によって変わる可能性がある。例示的な実施形態では、人の顔がＰＰＧ信号の決定に使用される場合、人の顔に対応する６８個のランドマーク位置（すなわち、６８個の顔ランドマーク）が映像の各画像フレーム１０７において位置確定される。

いくつかの実施形態は、不完全なまたは一貫性のないランドマーク位置確定に起因して、後続のフレームにおける推定ランドマーク位置のモーションジッターが、領域の境界が１つのフレームから次のフレームへと小刻みに動くことを生じさせ、抽出された時系列にノイズが追加されることになる、という認識に基づく。このノイズの程度を小さくするために、複数のランドマーク位置は、ＲＯＩ（例えば、４８個の顔領域）を抽出する前に時間的に平滑化される。

したがって、いくつかの実施形態では、複数のランドマーク位置からＲＯＩを抽出する前に、複数のランドマーク位置は、移動平均技術などの平滑化技術を使用して経時的に平滑化される。特に、予め定められた長さの時間カーネルが複数のランドマーク位置に経時的に適用されて、各映像フレーム画像１０７における各ランドマークの位置が、カーネルの長さに対応する時間ウィンドウの範囲内の先行するフレームおよび後続のフレームにおけるランドマークの推定位置の加重平均として決定される。

例えば、一実施形態では、６８個のランドマーク位置は、１１個のフレームの長さのカーネルを用いて移動平均を使用して平滑化される。次いで、ＮＩＲ映像１０５の各フレーム（すなわち、各画像１０７）における平滑化されたランドマーク位置を使用して、フレーム内の額、頬および顎の周囲に位置する４８個のＲＯＩが抽出される。次いで、４８個の空間領域の各空間領域における画素の平均強度がフレームについて計算される。このように、複数の空間領域１０３（または、ＲＯＩ）における各領域の強度値が各画像から抽出され、フレームのシーケンス１０７（例えば、３１４個のフレームのシーケンス）についての複数の空間領域１０３からの強度値が多次元時系列を形成する。

時系列抽出モジュール１０１は、複数の空間領域１０３に対応する画像のシーケンス１０７を多次元時系列信号に変換するように構成される。いくつかの実施形態は、空間平均化が、映像（ＮＩＲ映像１０５またはＲＧＢ映像１０６）を取り込んだカメラの量子化ノイズならびに人の頭および顔の動きに起因する軽微な変形などのノイズ源の影響を減少させる、という認識に基づく。そのために、ある瞬間における複数の空間領域（「異なる空間領域」とも称される）１０３の各空間領域からの画素の画素強度が平均されて、当該瞬間における多次元時系列信号の各次元について値が生成される。

いくつかの実施形態では、時系列抽出モジュール１０１はさらに、多次元時系列信号を時間的にウィンドウ化する（または、セグメント化する）ように構成される。したがって、多次元時系列信号の複数のセグメントが存在し得て、複数のセグメントの各セグメントの少なくとも一部は、複数のセグメントの後続のセグメントと重なり合って、重なり合うセグメントのシーケンスを形成する。さらに、セグメントの各々に対応する多次元時系列は、多次元時系列信号をＰＰＧ推定器モジュール１０９に投入する前に正規化され、ＰＰＧ推定器モジュール１０９は、多次元時系列信号の重なりのシーケンスからの各セグメントを時系列Ｕ－Ｎｅｔ１０９ａを使用して処理し得る。

ウィンドウ化されたシーケンスは、推論中に特定のフレームストライドを備えた特定の期間（例えば、推論中に１０個のフレームのストライドを備えた１０秒期間（３０ｆｐｓで３００個のフレーム））を有し、ストライドは、後続のウィンドウ化されたシーケンス（例えば、１０秒のウィンドウ化されたシーケンス）同士の間のフレーム数（例えば、１０個のフレーム）の時間シフトを示す。

推定対象の人のバイタルサインが心臓鼓動信号である例示的なケースでは、心臓鼓動信号は、局所的に周期的であり、心臓鼓動信号の周期は経時的に変化する。そのようなケースでは、いくつかの実施形態は、１０秒ウィンドウが現在の心拍数を抽出するための期間の良好な妥協点である、という認識に基づく。

いくつかの実施形態は、ストライドが長い方が、より大きなデータセットを使用した訓練にとってより効率的である、という認識に基づく。したがって、訓練中のウィンドウ化に使用される（フレームにおける）ストライドは、推論中のウィンドウ化に使用されるストライド（例えば、１０個のフレーム）よりも長いであろう（例えば、６０個のフレーム）。また、フレームにおけるストライドの長さは、推定対象の人のバイタルサインによって変更されてもよい。

いくつかの実施形態では、特定の期間（例えば、０．５秒）のプリアンブルが各ウィンドウに追加される。例えば、いくつかの追加のフレーム（例えば、１４個）がウィンドウの冒頭の直前に追加され、その結果、より長い期間（例えば、３１４個のフレーム）の多次元時系列が得られる。

入力がＮＩＲ映像１０５であるいくつかの実施形態では、多次元時系列（例えば、時間シーケンスの４８個の次元）がＰＰＧ推定器モジュール１０９にチャネルとして送り込まれる。ＰＰＧ推定器モジュール１０９は、ＴＵＲＮＩＰアーキテクチャを形成する時系列Ｕ－ｎｅｔ１０９ａおよびＲＮＮ１０９ｂに関連付けられた層のシーケンスを含む。多次元時系列信号に対応するチャネルは、層のシーケンスの順方向パススルー中に組み合わせられる。ＰＰＧ推定器モジュール１０９において、時系列Ｕ－Ｎｅｔ１０９ａは、ＲＮＮ１０９ｂとともに、多次元時系列信号を所望のＰＰＧ信号にマッピングする。多次元時系列信号の各々のウィンドウ化されたシーケンス（例えば、１０秒ウィンドウ）について、ＴＵＲＮＩＰアーキテクチャは、特定の時間分解能（例えば、３つの時間分解能）で畳み込み特徴を抽出する。特定の時間分解能は、予め規定され得る。

さらに、いくつかの実施形態では、ＴＵＲＮＩＰアーキテクチャは、入力された時系列を第１の係数だけダウンサンプリングし、その後、第２の係数だけダウンサンプリングし、第２の係数は追加の係数である。入力時系列をダウンサンプリングするための第１の係数および第２の係数は、予め規定され得る（例えば、第１の係数は３であってもよく、第２の係数は２であってもよい）。次いで、ＰＰＧ推定器モジュール１０９は、決定論的な方法で所望のＰＰＧ信号を推定する。

ＴＵＲＮＩＰアーキテクチャ：

ＴＵＲＮＩＰアーキテクチャは、多次元時系列データに基づいてＰＰＧ信号を正確に決定するように少なくとも１つのデータセット上で訓練されるニューラルネットワーク（例えば、ＤＮＮ）ベースのアーキテクチャである。時系列Ｕ－Ｎｅｔ１０９ａは、収縮層のシーケンスによって形成される収縮経路と、その後に続く拡張層のシーケンスによって形成される拡張経路とを含む。収縮層のシーケンスは、畳み込み層、最大値プーリング層およびドロップアウト層の組み合わせである。同様に、拡張層のシーケンスは、畳み込み層、アップサンプリング層およびドロップアウト層の組み合わせである。収縮層のうちの少なくともいくつかがそれらの入力多次元時系列信号をダウンサンプリングし、かつ拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成する。さらに、収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されている。複数の収縮層は、より低い時間分解能で入力データをシーケンスに符号化すると考えることができる符号化サブネットワークを形成する。一方、複数の拡張層は、符号化ネットワークによって符号化された入力データを復号すると考えることができる復号サブネットワークを形成する。さらに、少なくともいくつかの分解能で、符号化サブネットワークおよび復号サブネットワークは、パススルー接続によって接続されている。１×１畳み込みパススルー接続と並列に、特定の再帰型パススルー接続が含まれている。この特定の再帰型パススルー接続は、ＲＮＮ１０９ｂを使用して実現される。ＲＮＮ１０９ｂは、その入力をシーケンシャルに処理し、ＲＮＮ１０９ｂは、パススルー層の各々に含まれている。

好ましい実施形態では、ＲＮＮ１０９ｂは、ゲート付き再帰型ユニット（ＧＲＵ：Gated Recurrent Unit）１１３を使用して時間再帰的な特徴を提供するように実現される。他の実施形態では、ＲＮＮ１０９ｂは、長・短期記憶（ＬＳＴＭ：Long Short-Term Memory）アーキテクチャなどの異なるＲＮＮアーキテクチャを使用して実現されてもよい。いくつかの実施形態は、ＧＲＵが標準的なＲＮＮの進化版である、という認識に基づく。ＧＲＵは、ゲートを使用して情報のフローを制御し、ＬＳＴＭとは異なって、ＧＲＵは、別個のセル状態（Ｃ_ｔ）を持たない。ＧＲＵは、隠れ状態（Ｈ_ｔ）のみを有する。ＧＲＵは、各タイムスタンプｔにおいて、入力Ｘ_ｔと、前のタイムスタンプｔ－１からの隠れ状態Ｈ_ｔ－１とを取り込む。その後、ＧＲＵは、新たな隠れ状態Ｈ_ｔを出力し、次いで、この新たな隠れ状態Ｈ_ｔは、次のタイムスタンプにおいてＧＲＵに渡される。ＧＲＵには主に２つのゲートがある。第１のゲートはリセットゲートであり、もう一方は更新ゲートである。いくつかの実施形態は、ＧＲＵが、長・短期記憶（ＬＳＴＭ）ネットワークなどの他のタイプのＲＮＮと比較して、アーキテクチャが単純であるために高速で訓練される、というさらなる認識に基づく。

収縮経路：

時系列Ｕ－ｎｅｔ１０９ａにおいて、収縮経路は、収縮層のシーケンスによって形成され、各収縮層は、畳み込み層、シングルダウンサンプリング畳み込み層およびドロップアウト層のうちの１つ以上の組み合わせを含む。ドロップアウト層は、層（例えば、畳み込み層）の過剰適合を減少させるために使用される正則化層であり、対応する層の一般化とともに使用されて対応する層の一般化を向上させる。ドロップアウト層は、ドロップアウト率とも称される特定の確率ｐで、ともに使用される層（例えば、畳み込み層）の出力をドロップする。ドロップアウト率は、予め規定されてもよく、またはＴＵＲＮＩＰアーキテクチャの訓練に使用される訓練データセットに基づいてリアルタイムで算出されてもよい。例示的な実施形態では、それぞれのドロップアウト層のドロップアウト率（または、ｐ）は０．３に等しい。

代替的に、いくつかの他の実施形態では、時系列Ｕ－ｎｅｔ１０９ａの収縮経路は、ドロップアウト層を含んでいなくてもよい。そのような実施形態では、収縮経路は、収縮層のシーケンスによって形成され、各収縮層は、畳み込み層およびシングルダウンサンプリング層のみのうちの１つ以上の組み合わせを含む。

さらに、ＴＵＲＮＩＰアーキテクチャのいくつかの実施形態では、収縮層のシーケンスは、５つの収縮層によって形成される。他の実施形態では、６つ以上の収縮層があってもよく、さらに他の実施形態では、４つ以下の収縮層があってもよい。５つの収縮層の中で、第１の収縮層１１６ａは、２つの畳み込み層を含む。第１の収縮層１１６ａは、その入力を処理し、当該入力は、複数のチャネルとして提供される多次元時系列信号であり、第１の収縮層１１６ａによって生成されたマルチチャネル出力は、拡張経路における層のうちの１つ（例えば、第４の拡張層１１８ｄ）に投入される。なお、収縮経路における全ての層を「収縮層」と称し、拡張経路における全ての層を「拡張層」と称しているが、いくつかの実施形態では、実際には全ての収縮層がその入力シーケンスの長さを収縮させるわけではない。例えば、図１Ｂに示される一実施形態では、第１の収縮層１１６ａから出力されるシーケンスは、第１の収縮層１１６ａに入力されるシーケンスと実質的に同一の長さを有する。なぜなら、第１の収縮層において実行される畳み込みではストライド＝１であるからである。同様に、実際には全ての「拡張層」がその入力シーケンスの長さを拡張させるわけではない。例えば、第４の拡張層への入力および第４の拡張層の出力は、実質的に同一の長さを有する。

さらに、第２の収縮層１１６ｂ、第３の収縮層１１６ｃおよび第４の収縮層１１６ｄの各々は、畳み込み層（時には「シングルダウンサンプリング層」と称されるが、上記のように、実際には全てのダウンサンプリング層がその入力の長さをダウンサンプリングするわけではないということに留意されたい）と、それに続く、特定のドロップアウト率（例えば、ｐ＝０．３）を有するドロップアウト層とを含む。図１Ｂに示される一実施形態では、第２の収縮層１１６ｂ（その畳み込みはストライド＝３を有する）および第４の収縮層１１６ｄ（その畳み込みはストライド＝２を有する）の各々は、そのストライドに等しい係数だけその入力をダウンサンプリングするが、第３の収縮層１１６ｃおよび第５の収縮層１１６ｅは、それらの入力をダウンサンプリングしない。この実施形態では、ダウンサンプリングは、各々のダウンサンプリング層の畳み込みのストライドによって実現されるが、代替的な実施形態では、ダウンサンプリングは、最大値プーリングまたは平均プーリングなどの他の手段を使用して実現されてもよい。第２の収縮層１１６ｂは、時系列抽出モジュール１０１によって抽出された多次元時系列信号に対応する入力チャネルを受信して、その出力を第３の収縮層１１６ｃおよび対応するパススルー層１１３ａに投入する。さらに、第３および第４の収縮層の各々は、前の収縮層から対応する入力を受信して、対応する出力を対応する次の収縮層および対応するパススルー層の両方の層に投入する。

５つの収縮層のシーケンスにおける第５の最後の収縮層は、２つの畳み込み層と、それに続く、特定のドロップアウト率を有するドロップアウト層とを含む。第５の収縮層は、第４の収縮層から入力を受信して、その出力を拡張経路における拡張層のうちの１つ（例えば、第１の拡張層１１８ａ）に投入する。

拡張経路：

いくつかの実施形態では、拡張経路は、５つの拡張層のシーケンスを含む。図１Ｂに示される１つのそのような実施形態では、５つの拡張層のシーケンスにおいて、第１の拡張層１１８ａは、アップサンプリング、その対応するパススルー層１１３ｃの出力との連結、およびその入力時系列に対する畳み込みを実行するように構成される。同様に、第３の拡張層１１８ｃは、アップサンプリング、その対応するパススルー層１１３ａの出力との連結、およびその入力時系列に対する畳み込みを実行する。第２の拡張層１１８ｂおよび第４の拡張層１１８ｄの各々は、その対応するパススルー層の出力との連結およびその入力時系列に対する畳み込みを実行するように構成される。さらに、第４の拡張層は、特定のドロップアウト率（例えば、ｐ＝０．３）を有するドロップアウト層を含む。第５の拡張層は、畳み込み層と、それに続く、特定のドロップアウト率を有するドロップアウト層とで構成されている。第１の拡張層１１８ａおよび第３の拡張層１１８ｃにおいて入力データをアップサンプリングするために、これら２つの拡張層の各々は、アップコンバータ動作を使用して、アップサンプリングされたデータをその対応する入力において生成する。さらに、このアップサンプリングされたデータは、連結に使用され、時間畳み込みは、これらの拡張層の各々である。

依然として図１Ｂを参照して、多次元時系列である、時系列抽出モジュール１０１の出力は、ＰＰＧ推定器モジュール１０９にチャネルとして提供される。したがって、各収縮層は、特定のサイズ（例えば、サイズｋ＝３のカーネル）および特定のストライド（例えば、ストライドｓ＝１）のカーネルについて、いくつかの（Ｃｈａｎ＿ｉｎ）入力チャネルをいくつかの（ｃｈａｎ＿ｏｕｔ）出力チャネルに処理する。いくつかの例示的な実施形態では、第１の収縮層１１６は、Ｃｈａｎ＿ｉｎ＝４８の入力チャネルと、Ｃｈａｎ＿ｏｕｔ＝６４の出力チャネルとを有し得る。第１の収縮層１１６ａの出力は、第４の拡張層１１８ｄに投入される。

同様に、第２の収縮層１１６ｂ、第３の収縮層１１６ｃ、第４の収縮層１１６ｄおよび第５の収縮層１１６ｅについて、入力チャネル、出力チャネル、カーネルおよびストライドが指定される。

例えば、図１Ｂに示される一実施形態では、第２の収縮層１１６ｂによって実行される畳み込みは、４８個の入力チャネルおよび６４個の出力チャネルを有し、カーネルサイズｋ＝９およびストライドｓ＝３である。第２の収縮層１１６ｂの出力は、第３の収縮層１１６ｃおよび第１のパススルー層１１３ａに送り込まれる。

第１のパススルー層１１３ａなどの各パススルー層は、１×１畳み込みの層１１７とＧＲＵ１１３などのＲＮＮとで構成されており、それらのそれぞれの出力は、連結されて（１１５）、次いで拡張経路の対応する層に渡される。

第３の収縮層１１６ｃは、６４個の入力チャネルおよび１２８個の出力チャネルと、サイズｋ＝７であってストライドｓ＝１である畳み込みカーネルとを有する。第３の収縮層１１６ｃの出力は、収縮経路の第４の収縮層１１６ｄおよび第２のパススルー層１１３ｂに提供され、その出力は、拡張経路の対応する層１１８ｂに渡される。第４の収縮層１１６ｄは、１２８個の入力チャネルおよび２５６個の出力チャネルと、サイズが７であってストライドが１であるカーネルを使用した畳み込みとを有し、第４の収縮層１１６ｄの出力は、収縮経路の第５の収縮層１１６ｅおよび第３のパススルー層１１３ｃに提供され、第３のパススルー層１１３ｃは、その出力を対応する拡張層１１８ｂに渡す。収縮経路の最終段階において、第５の収縮層１１６ｅは、２５６個の入力チャネルおよび５１２個の出力チャネルと、サイズが７であってストライドが１である畳み込みカーネルとを有する。さらに、第５の収縮層１１６ｅの出力は、拡張経路の第１の拡張層１１８ａに提供される。

第１の拡張層１１８ａは、２つの入力を取得し、第１の入力は、第５の収縮層１１６ｅから取得され、第２の入力は、第３のパススルー層１１３ｃの出力から取得される。第１の拡張層１１８ａは、その入力を処理して、その出力を第２の拡張層１１８ｂに渡す。第２の拡張層１１８ｂも２つの入力を取得し、第１の入力は、第１の拡張層１１８ａの出力に対応し、第２の入力は、第２のパススルー層１１３ｂの出力に対応する。

同様に、第３の拡張層１１８ｃの第１の入力は、第２の拡張層１１８ｂの出力に対応し、第３の拡張層１１８ｃの第２の入力は、第１のパススルー層１１３ａの出力に対応する。さらに、第３の拡張層１１８ｃの出力は、第４の拡張層１１８ｄに提供される。

第４の拡張層１１８ｄは、第３の拡張層１１８ｃから第１の入力を取得し、第１の収縮層１１６ａから第２の入力を取得する。第４の拡張層の出力は、（例えば、６４個のチャネルから１個のチャネルへの）チャネル縮小を実行する第５の拡張層に提供され、その後にドロップアウト層が続く。

いくつかの実施形態では、第５の拡張層１１８ｅの出力は、ＰＰＧ推定器モジュール１０９の最終的な出力である。この出力（例えば、ＰＰＧ波形を推定する一次元時系列）を使用して、ｉＰＰＧシステム１００の出力１１１が取得される。

各時間尺度において、時系列Ｕ－ｎｅｔ１０９ａの畳み込み層は、時系列ウィンドウ（例えば、１０秒ウィンドウ）からの全てのサンプルを並列に処理する。（各畳み込みの各出力時間ステップを取得する計算は、畳み込みの他の出力時間ステップの対応する計算と並列に実行され得る。）これに対して、提案されているＲＮＮ層（例えば、ＧＲＵ層１１３）は、時間サンプルをシーケンシャルに処理する。この時間再帰は、時系列Ｕ－ｎｅｔ１０９ａの拡張経路の各層における時間受容野を拡張する効果を有する。

例えば、図１Ｂに示される実施形態では、ＧＲＵ１１３が１０秒ウィンドウにおける全ての時間ステップを通して実行された後、結果として得られる隠れ状態のシーケンスは、より標準的なパススルー層（１×１畳み込み）１１７の出力と連結される（１１５）。ＧＲＵ１１３の隠れ状態は、各１０秒ウィンドウについて再初期化されて、ＧＲＵ１１３に送り込まれる。

ＰＰＧ信号を決定するためにｉＰＰＧシステム１００によって実行されるステップに関するさらなる詳細については、図１Ｃを参照して以下で説明する。

図１Ｃは、例示的な実施形態に係る、ｉＰＰＧシステム１００によって実行される方法１１９のステップを示す図である。ステップ１１９ａにおいて、人のＮＩＲモノクロ映像（例えば、ＮＩＲ映像１０５）が受信される。ＮＩＲ映像１０５は、人の顔または人のその他の身体部位を含み得て、その皮膚は、映像を記録するカメラに露出されている。ｉＰＰＧシステム１００は、ＮＩＲ映像１０５を記録するために、人の皮膚を照明するように構成されたＮＩＲ光源を含み得る。さらに、ｉＰＰＧシステム１００は、異なる瞬間における皮膚の色の変動を示す強度を測定するように構成され得て、各瞬間は、映像フレーム、すなわち画像のシーケンスにおける画像に対応する。

そのために、入力されたＮＩＲ映像の各フレームに対応する画像は、異なる領域にセグメント化され、これらの異なる領域は、画像における人の皮膚の異なる部分に対応する。人の皮膚の異なる領域は、ランドマーク検出を使用して識別することができる。例えば、人の身体部位が人の顔である場合、顔の異なる領域は、顔ランドマーク検出を使用して取得することができる。

ステップ１１９ｂにおいて、ｉＰＰＧシステム１００の時系列抽出モジュール１０１によって、人の皮膚の異なる領域を含む画像のシーケンスが受信される。

ステップ１１９ｃにおいて、時系列抽出モジュール１０１によって画像のシーケンスが多次元時系列信号に変換される。そのために、（例えば、１つの映像フレーム画像１０７における）ある瞬間における複数の空間領域１０３（「異なる空間領域」とも称される）の各空間領域からの画素の画素強度が平均されて、当該瞬間における多次元時系列信号の各次元について値が生成される。

ステップ１１９ｄにおいて、ＴＵＲＮＩＰアーキテクチャを形成するパススルー層における再帰型ニューラルネットワーク１０９ｂと結合された時系列Ｕ－ｎｅｔ１０９ａによって多次元時系列信号が処理される。多次元時系列信号は、ＴＵＲＮＩＰアーキテクチャの異なる層によって処理されて、ＰＰＧ波形が生成され、このＰＰＧ波形は、いくつかの実施形態では、一次元（１Ｄ）時系列として表現される。

ステップ１１９ｅにおいて、人の心臓の鼓動または脈拍数などのバイタルサインがＰＰＧ波形に基づいて推定される。いくつかの実施形態では、ｉＰＰＧシステム１００の出力１１１は、バイタルサインを含む。

このように、ＰＰＧ推定器モジュール１０９は、ＮＩＲ映像１０５から抽出された多次元時系列信号からＰＰＧ信号を推定する。そのために、ＴＵＲＮＩＰアーキテクチャの各層において多次元時系列信号に対して時間畳み込みが実行される。時間畳み込みに関するさらなる詳細については、図２Ａ～図２Ｃに関して以下に記載されている。さらに、いくつかの実施形態では、推定されたバイタルサイン信号は、ディスプレイデバイスなどの出力デバイス上でレンダリングされる。いくつかの実施形態では、推定されたバイタルサインはさらに、バイタルサインが推定される人に関連付けられた１つまたは複数の外部機器の動作の制御に利用され得る。

マルチチャネル映像からの時系列抽出：

図１Ａおよび図１Ｃに示される実施形態などのいくつかの実施形態では、ｉＰＰＧシステム１００または方法１１９は、入力としてシングルチャネルＮＩＲ映像１０５などのシングルチャネル映像から開始する。これらの図および対応する上記の説明は、シングルチャネルＮＩＲ映像に適用されるが、同じ考え方は、モノクログレースケールカメラセンサまたは熱赤外カメラセンサを使用して収集される映像などの他のシングルチャネル映像にも同様に適用可能であるということが理解されるべきである。

しかし、他の実施形態では、ｉＰＰＧシステムまたは方法は、マルチチャネル映像から開始する。本明細書におけるマルチチャネル画像の記述は、主に、マルチチャネル映像の一例としてＲＧＢ映像（すなわち、赤色カラーチャネル、緑色カラーチャネルおよび青色カラーチャネルを有する映像）について記載している。しかし、同じ考え方は、マルチチャネルＮＩＲ映像、ＲＧＢ－ＮＩＲ４チャネル映像、マルチスペクトル映像、およびＹＵＶ映像などのＲＧＢとは異なる色空間表現を使用して格納されるカラー映像、またはＢＧＲなどのＲＧＢカラーチャネルの異なる並べ替えなどの他のマルチチャネル映像入力にも同様に適用可能であるということが理解されるべきである。

ＲＧＢ映像などのマルチチャネル映像では、時系列抽出モジュールがマルチチャネル映像から時系列を抽出するための方法が複数あり、実施形態が異なれば、マルチチャネル映像からの時系列抽出方法も異なる。図１Ｅ～図１Ｈは、各々が本発明の異なる実施形態で使用されるこれらの方法のうちのいくつかを示している。

図１Ｅは、入力がＲＧＢ映像１０６である例示的な実施形態を示す図である。この実施形態では、カラーチャネルのうちの１つだけ除いて全てが無視され、時系列抽出モジュール１０１は、ＮＩＲ映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、例えば緑色（Ｇ）チャネルなどのたった１つのチャネルから多次元時系列を抽出する。緑色チャネルが使用される理由は、赤色、緑色および青色の３つのカラーチャネルのうち、緑色チャネルの強度が、ｉＰＰＧによって検出される血液量変化によって最も影響を受けるものであることが分かっているからである。モノクロの場合のように、時系列抽出モジュール１０１の出力は、ＰＰＧ推定器１０９に送り込まれる。多次元時系列の各次元は、それを入力チャネルとして扱うことによってＰＰＧ推定器１０９に送り込まれる。このアプローチの不利点は、他の２つのカラーチャネルにおける全ての情報を無視するというものである。例えば、１つのカラーチャネルではなく３つのカラーチャネルを使用することは、（他の２つのカラーチャネルよりも緑色チャネルに影響を及ぼす）拍動性の血液量変化に起因する強度変化と、（例えば、より均等に３つ全てのカラーチャネルに影響を及ぼし得る）被験者の動きおよび全体的なライティング変化などの迷惑要因に起因する強度変化とを区別するのに役立ち得る、ということが実証されている。

図１Ｆは、ＮＩＲ映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、Ｒチャネル、ＧチャネルおよびＢチャネルの各々から多次元時系列（例えば、４８個のＲＯＩに対応する４８個の次元を有する時系列）が抽出される例示的な実施形態を示す図である。この結果、赤色チャネル（「Ｒｃｈａｎ」）、緑色チャネル（「Ｇｃｈａｎ」）および青色チャネルの各々から抽出された多次元時系列（例えば、４８チャネル時系列）が得られる。これら３つのマルチチャネル時系列は、チャネル次元に沿って連結されて、（例えば、３・４８＝１４４個のチャネルを有する）単一の多次元時系列が形成されて、ＰＰＧ推定器１０９に送り込まれる。多次元時系列の各次元は、それを入力チャネルとして扱うことによってＰＰＧ推定器１０９に送り込まれる。このアプローチの１つの不利点は、連結が、異なるチャネルによって同一のＲＯＩから取得されるチャネル間の対応関係を不明瞭にするというものである。

図１Ｇは、ＮＩＲ映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、Ｒチャネル、ＧチャネルおよびＢチャネルの各々から多次元時系列（例えば、４８個のＲＯＩに対応する４８個の次元を有する時系列）が抽出される別の例示的な実施形態を示す図である。この結果、やはり、赤色チャネル（「Ｒｃｈａｎ」）、緑色チャネル（「Ｇｃｈａｎ」）および青色チャネルの各々から抽出された多次元時系列（例えば、４８チャネル時系列）が得られる。この場合、カラーチャネルＲ、ＧおよびＢの各々からの多次元時系列は、線形結合されて、次元が各チャネルの多次元時系列の次元と同一である（例えば、４８個のチャネル×３１４個の時間ステップ）単一の多次元時系列が形成され、ＰＰＧ推定器１０９に送り込まれる。いくつかの実施形態では、線形結合に使用される係数は、ニューラルネットワークのパラメータとともに学習される。他の実施形態では、これらの係数は、例えばＲＧＢからグレースケールへの標準的な色空間変換に基づくなど、演繹的に選択されてもよい。多次元時系列の各次元は、それを入力チャネルとして扱うことによってＰＰＧ推定器１０９に送り込まれる。このアプローチの１つの不利点は、３つのカラーチャネルを組み合わせて１つにするために単一の線形結合を学習することしかできないというものである。全ての領域で同一の線形結合を使用しなければならず、この線形結合はデータから独立している（例えば、同一の線形結合が、全ての肌の色の全ての被験者によって、全てのライティング状況において使用されなければならない）。

図１Ｈは、ＮＩＲ映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、Ｒチャネル、ＧチャネルおよびＢチャネルの各々から多次元時系列（例えば、４８個のＲＯＩに対応する４８個の次元を有する時系列）が抽出される代替的な実施形態を示す図である。この結果、やはり、赤色チャネル（「Ｒｃｈａｎ」）、緑色チャネル（「Ｇｃｈａｎ」）および青色チャネルの各々から抽出された多次元時系列（例えば、４８チャネル時系列）が得られる。この場合、カラーチャネルＲ、ＧおよびＢの各々からの多次元時系列は、３Ｄテンソルとしても知られている三次元（３Ｄ）配列に成形される。この配列の３つの次元は、時間（例えば、３１４個の時間ステップ）、顔領域（例えば、４８個の領域チャネル）およびカラーチャネル（例えば、３つのカラーチャネル）に対応する。この配列は、ＰＰＧ推定器１０９への入力を形成する。第１および第２の収縮層の畳み込みカーネルは、各層の出力において色次元が単一の次元に折りたたまれるように構築される。このアプローチは、図１Ｅ～図１Ｈに記載されているアプローチの不利点を克服することができる。

図１Ｉは、例示的な実施形態に係る、ｉＰＰＧシステム１００によって実行される方法１２０のステップを示す図である。例えばＲＧＢ映像などのマルチチャネル映像が受信される（１２０ａ）。ステップ１２０ａにおいて、人のＲＧＢ映像（例えば、ＲＧＢ映像１０６）が受信される。ＲＧＢ映像１０６は、人の顔または人のその他の身体部位を含み得て、その皮膚は、映像を記録するカメラに露出されている。さらに、ｉＰＰＧシステム１００は、異なる瞬間における皮膚の色の変動を示す強度を測定するように構成され得て、各瞬間は、映像フレーム、すなわち画像のシーケンスにおける画像に対応する。

そのために、入力されたＮＩＲ映像の各フレームに対応する画像は、異なる領域にセグメント化され、これらの異なる領域は、画像における人の皮膚の異なる部分に対応する。人の皮膚の異なる領域は、ランドマーク検出を使用して識別することができる。例えば、人の身体部位が人の顔である場合、顔の異なる領域は顔ランドマーク検出を使用して取得することができる。

ステップ１２０ｂにおいて、ｉＰＰＧシステム１００の時系列抽出モジュール１０１によって、人の皮膚の異なる領域を含む画像のシーケンスが受信される。

ステップ１２０ｃにおいて、時系列抽出モジュール１０１によって画像のシーケンスが多次元時系列信号に変換される。そのために、（例えば、１つの映像フレーム画像１０７における）ある瞬間における複数の空間領域１０３（「異なる空間領域」とも称される）の各空間領域からの画素の各カラーチャネルにおける画素強度が平均されて、当該瞬間におけるカラーチャネルの多次元時系列信号の各次元について値が生成される。例えば図１Ｅ～図１Ｈに記載された方法のうちの１つを使用して、カラーチャネル多次元時系列から単一の多次元時系列が抽出される。

ステップ１２０ｄにおいて、ＴＵＲＮＩＰアーキテクチャを形成するパススルー層における再帰型ニューラルネットワーク１０９ｂと結合された時系列Ｕ－ｎｅｔ１０９ａによって多次元時系列信号が処理される。多次元時系列信号は、ＴＵＲＮＩＰアーキテクチャの異なる層によって処理されて、ＰＰＧ波形が生成され、このＰＰＧ波形は、いくつかの実施形態では、一次元（１Ｄ）時系列として表現される。

ステップ１２０ｅにおいて、人の心臓の鼓動または脈拍数などのバイタルサインは、ＰＰＧ波形に基づいて推定される。いくつかの実施形態では、ｉＰＰＧシステム１００の出力１１１は、バイタルサインを含む。

このように、ＰＰＧ推定器モジュール１０９は、ＲＧＢ映像１０６から抽出された多次元時系列信号からＰＰＧ信号を推定する。そのために、ＴＵＲＮＩＰアーキテクチャの各層において多次元時系列信号に対して時間畳み込みが実行される。時間畳み込みに関するさらなる詳細については、図２Ａ～図２Ｃに関して以下に記載されている。さらに、いくつかの実施形態では、推定されたバイタルサイン信号は、ディスプレイデバイスなどの出力デバイス上でレンダリングされる。いくつかの実施形態では、推定されたバイタルサインはさらに、バイタルサインが推定される人に関連付けられた１つまたは複数の外部機器の動作の制御に利用され得る。

図２Ａは、例示的な実施形態に係る、サイズが３であってストライドが１であるカーネルによって操作される入力チャネル２０１の時間畳み込みを示す図である。図２Ｂは、例示的な実施形態に係る、サイズが３であってストライドが２であるカーネルによって操作される入力チャネル２０１の時間畳み込みを示す図である。図２Ｃは、例示的な実施形態に係る、サイズが５であってストライドが１であるカーネルによって操作される入力チャネル２０１の時間畳み込みを示す図である。

図２Ａにおいて、シングル入力チャネル（Ｃｈ＿ｉｎ＝１）における時系列２０１は時系列Ｕ－ｎｅｔ１０９ａの畳み込み層のうちの１つ（例えば、第１の収縮層における畳み込み層）によって得られ、入力チャネル２０１の長さは１０であるものとする。入力チャネル２０１は、時系列抽出モジュール１０１によってＰＰＧ推定器モジュール１０９に送り込まれる多次元時系列の１つの次元に対応する（例えば、入力チャネル２０１は一次元時系列シーケンスである）。さらに、入力チャネルを操作するために使用されるストライド値に基づいて、対応する出力２０３チャネルの長さは変更される。

入力チャネルｘ（ｔ）２０１の図に描かれている各ブロックは１つの時間ステップにおけるチャネルの値を表すものとする。さらに、カーネルの各係数はｋ（τ）によって表されるものとする。畳み込み層による入力チャネル２０１に対する畳み込みに使用されるカーネルのサイズは３であるものとする。カーネルサイズが３であるので、カーネルは、τ＝－１、０および１に対応する３つの係数を含む。さらに、カーネルは、ストライド値がｓ＝１で入力チャネル２０１を横断する（または、移動する）ものとする（ストライド値は、「ストライド長」とも称され得る）。さらに、畳み込みの出力は、出力チャネルｙ（ｔ）２０３において得られる。したがって、時間畳み込みは、以下のように算出される。

式中、τ＝－１、０および１である。そのため、カーネル係数（「学習可能なフィルタ」とも称される）は、ｋ（－１）、ｋ（０）、ｋ（１）である。

同様に、図２Ｂおよび図２Ｃにおいて、式（１）を使用して時間畳み込みが算出される。図２Ｂにおいて、カーネルサイズは３であり、図２Ａで使用されたカーネルサイズと同一である。しかし、ストライドの長さは２に増加している。したがって、（チャネルｙ（ｔ）における）出力時系列の長さは減少する。このように、図２Ｂにおける畳み込みは、入力を２分の１にダウンサンプリングする。

図３は、例示的な実施形態に係る、マルチチャネル入力に対する時間畳み込みを示す図である。マルチチャネル入力に対する時間畳み込みは、図２Ａ～図２Ｃに示されるシングルチャネル入力に対する時間畳み込みに基づく。ＰＰＧ推定器モジュール１０９は、マルチチャネル入力に対する時間畳み込みを使用し、マルチチャネル入力は、時系列抽出モジュール１０１によって出力される多次元時系列信号またはＰＰＧ推定器ネットワーク１０９の前の層によって出力される多次元時系列信号に対応する。

図３において、説明を容易にするために、３つの入力チャネルについて考える。しかし、ＰＰＧ推定器モジュール１０９における畳み込みのための入力チャネルの数は、畳み込み層への多次元時系列入力の次元。例えば、多次元時系列信号が、４８個の顔ＲＯＩに対応する４８個の次元を有する場合、最初の２つの収縮層における畳み込みへのチャネル入力の数も４８に等しい。

そのため、３つの入力チャネルは、入力特徴マップのチャネル１（「第１のチャネル」とも称される）３０１、入力特徴マップのチャネル２（「第２のチャネル」とも称される）３０３、および入力特徴マップのチャネル３（「第３のチャネル」とも称される）３０５である。第１のチャネル３０１はｘ（ｔ）で表され、第２のチャネル３０３はｙ（ｔ）で表され、第３のチャネル３０５はｚ（ｔ）で表され、複数のチャネル（３０１～３０５）の時間畳み込み後に生成される出力チャネル３０７はｏ（ｔ）で表されるものとする。さらに、カーネルサイズは３であるものとし、これは、ストライド値が４フレームで３つの入力チャネル（３０１～３０５）の各々を移動する。複数の入力チャネル（３０１～３０５）に対する時間畳み込みは、各入力チャネルについて式（１）に基づいて算出される。時間畳み込みは、出力特徴マップのチャネルと同数のフィルタを用いて実行される。いくつかの実施形態では、学習可能なバイアスも各フィルタの出力に追加される。いくつかの実施形態では、時間畳み込みのうちの少なくとも１つの後に、正規化線形ユニット（ＲＥＬＵ：Rectified Linear Unit）またはシグモイド活性化関数などの非線形活性化関数が続く。

さらに、時間畳み込みの出力は、パススルー層（図１Ｂ）を介してＲＮＮ１０９ｂに渡され、ＲＮＮ１０９ｂへの入力は、シーケンシャルに処理される。

図４は、例示的な実施形態に係る、ＲＮＮ１０９ｂによって（例えば、図１ＢにおけるＧＲＵ１１３によって）実行されるシーケンシャルな処理を示す図である。ＲＮＮ１０９ｂは、入力多次元時系列４０１からのデータをシーケンシャルに処理するように構成されており、入力多次元時系列４０１の次元（時間×入力チャネル）は、それぞれ、入力時系列における時間ステップの数および入力時系列におけるチャネルの数を表す。そのために、入力時系列４０１は、各々が入力時系列４０１と同数のチャネルを有する複数のより短い時間ウィンドウ４０５に再成形される。次いで、ウィンドウ４０５は、ＲＮＮ１０９ｂにシーケンシャルに渡される。好ましい実施形態では、ＲＮＮ１０９ｂは、ＧＲＵ（ＧＲＵ１１３など）として実現される。代替的に、いくつかの実施形態では、ＲＮＮ１０９ｂは、長・短期記憶（ＬＳＴＭ）ニューラルネットワークを使用して実現されてもよい。

ＲＮＮが入力時系列４０１のより短い時間ウィンドウ４０５を全てシーケンシャルに処理した後、ＲＮＮ１０９ｂのシーケンシャルな出力４０７はより長い時間ウィンドウに再積層されて、ＲＮＮの出力時系列４０３が形成され、出力時系列４０３の次元（時間×入力チャネル）は、それぞれ、出力時系列における時間ステップの数（いくつかの実施形態では、入力時系列における時間ステップの数と同一である）および出力時系列におけるチャネルの数を表す。いくつかの実施形態では、出力時系列への出力４０７の再積層は、図４に示される積層の順序とは逆の順序であり得る。

入力時系列４０１全体がシーケンシャルにＲＮＮを通過して、出力時系列４０３に再積層されると、並列（すなわち、本質的にシーケンシャルではない）計算を使用して実行されたより標準的なＵ－ｎｅｔパススルー（例えば、図１Ｂにおける１×１畳み込み１１７）を使用して同一の入力時系列を処理することによって得られた時系列出力と連結される（例えば、図１Ｂにおける連結１１５）準備ができていることになる。

このように、ＲＮＮ１０９ｂのシーケンシャルな時間処理は、時系列Ｕ－Ｎｅｔ１０９ａの時間的に並列な処理と結合されることにより、ＰＰＧ推定器モジュール１０９が多次元時系列信号からＰＰＧ信号をより正確に推定することが可能になる。

いくつかの実施形態は、９４０ｎｍの近赤外周波数を含む狭周波数帯域において、ＮＩＲカメラによって観察される信号がＲＧＢカメラなどの色強度カメラによって観察される信号よりも大幅に弱い、という認識に基づく。しかし、ｉＰＰＧシステム１００は、そのような弱い強度の信号を、バンドパスフィルタを使用することによって処理するように構成される。バンドパスフィルタは、異なる空間領域の各空間領域の画素強度の測定値をノイズ除去するように構成される。推定されたｉＰＰＧ信号へのＮＩＲ信号の処理に関するさらなる詳細については、図５を参照して以下で説明する。

図５は、例示的な実施形態に係る、スペクトルのＮＩＲ部分を使用して取得されたＰＰＧ信号周波数スペクトルとスペクトルの可視部分（ＲＧＢ）を使用して取得されたＰＰＧ信号周波数スペクトルとの比較のためのプロットを示す図である。図５から分かるように、ＮＩＲにおけるｉＰＰＧ信号５０１（凡例では「ＮＩＲｉＰＰＧ信号」と表記）は、ＲＧＢにおけるｉＰＰＧ信号５０３（「ＲＧＢｉＰＰＧ信号」と表記）よりも約１０倍弱い。したがって、いくつかの実施形態では、ｉＰＰＧシステム１００は、人の皮膚を照明するための、第１の周波数帯域において照明を提供する近赤外（ＮＩＲ）光源と、皮膚のある領域の測定された強度が皮膚の当該領域の画像の画素の強度から計算されるように、第１の周波数帯域と重複する第２の周波数帯域において異なる領域の各々の強度を測定するためのプロセッサを含むカメラとを含む。

いくつかの実施形態では、第１の周波数帯域および第２の周波数帯域は、９４０ｎｍの近赤外周波数を含む。ｉＰＰＧシステム１００は、異なる領域の各々の強度の測定値をノイズ除去するためのフィルタを含み得る。そのために、ロバスト主成分分析（ＲＰＣＡ：Robust Principal Components Analysis）などの技術を使用することができる。一実施形態では、第２の周波数帯域は、２０ｎｍ未満の幅の通過帯域を有しており、例えば、バンドパスフィルタは、半値全幅（ＦＷＨＭ：Full Width at Half Maximum）が２０ｎｍ未満である狭い通過帯域を有している。言い換えれば、第１の周波数帯域と第２の周波数帯域との間の重複は、幅が２０ｎｍ未満である。

いくつかの実施形態は、バンドパスフィルタおよびロングパスフィルタ（すなわち、カットオフ周波数未満の波長を有する光の透過を阻止するが、第２のカットオフ周波数よりも大きな波長を有する光の透過を許可するフィルタ）などの光学フィルタが、フィルタを通過する光の入射角に非常に敏感である可能性がある、という認識に基づく。例えば、光学フィルタは、光が光学フィルタの対称軸に平行に（光学フィルタの表面におおよそ垂直に）光学フィルタに入射する（０°の入射角であり得る）場合に所定の周波数範囲を透過および阻止するように設計され得る。入射角が０°から変化すると、多くの光学フィルタは、フィルタの通過帯域および／またはカットオフ周波数がより短い波長に事実上シフトする「ブルーシフト」を示す。このブルーシフト現象を説明するために、いくつかの実施形態は、９４０ｎｍよりも大きな波長を有するように第１の周波数帯域と第２の周波数帯域との間の重複の中心周波数を使用する（例えば、９４０ｎｍよりも長い波長を有するようにバンドパス光学フィルタの中心周波数またはロングパス光学フィルタのカットオフ周波数がシフトされる）。

皮膚の異なる部分からの光は、異なる入射角で光学フィルタに入射し得るので、光学フィルタは、皮膚の異なる部分からの光の異なる透過を許可する。これに応答して、いくつかの実施形態は、より広い通過帯域を有するバンドパスフィルタ（例えば、２０ｎｍよりも広い通過帯域を有するバンドパス光学フィルタ）を使用し、そのため、第１の周波数帯域と第２の周波数帯域との間の重複は、幅が２０ｎｍよりも大きい。

いくつかの実施形態では、ｉＰＰＧシステム１００は、９４０ｎｍの近赤外周波数を含む狭周波数帯域を使用して、照明変動に起因するノイズを減少させる。その結果、ｉＰＰＧシステム１００は、人のバイタルサインを正確に推定する。

いくつかの実施形態は、身体部位（例えば、人の顔）全体にわたる照明強度は、顔表面全体にわたる法線の３Ｄ方向の変動などの要因に起因して、顔に映し出された影に起因して、および顔の異なる部分がＮＩＲ光源から異なる距離のところにあることに起因して、不均一である可能性がある、という認識に基づく。照明を顔全体にわたってより均一にするために、いくつかの実施形態は、複数のＮＩＲ光源（例えば、顔のそれぞれの側であって頭からおよそ等しい距離のところに設置された２つのＮＩＲ光源）を使用する。また、顔に到達する光線を拡幅して顔の中心と顔の周辺との間の照明強度差を最小化するために、水平方向拡散器および垂直方向拡散器がＮＩＲ光源に設置される。

いくつかの実施形態は、強いｉＰＰＧ信号を測定するために皮膚領域の十分に露光された画像を取り込むことを目的としている。しかし、照明の強度は、光源から顔までの距離の二乗に反比例する。人が光源に近すぎる場合には、画像は飽和して、ｉＰＰＧ信号を含むことができない。人が光源から遠い距離のところにいる場合には、画像は薄暗くなって、弱いｉＰＰＧ信号を有し得る。いくつかの実施形態は、人の皮膚領域とカメラとの間の可能な距離の範囲で十分に露光された画像を記録しながら、飽和画像を取り込まないように、光源の最も有利な位置およびそれらの輝度設定を選択し得る。

図１Ｂに示される実施形態などのいくつかの実施形態における時系列Ｕ－Ｎｅｔ１０９ａにおいて使用されるＵ－ｎｅｔアーキテクチャのタイプは、時には「Ｖ－ｎｅｔ」と称される。なぜなら、Ｕ－ｎｅｔの収縮経路は、収縮層における特徴マップのサイズを減少させるために、最大値プーリング動作の代わりにストライド畳み込みを使用するからである。別の実施形態では、時系列Ｕ－ｎｅｔ１０９ａは、収縮層において最大値プーリングを使用するＵ－ｎｅｔなどのその他のＵ－Ｎｅｔベースのアーキテクチャと置換されてもよい。他の例示的な実施形態では、ＲＮＮ１０９ｂは、ＧＲＵアーキテクチャまたは長・短期記憶（ＬＳＴＭ）アーキテクチャのうちの少なくとも１つを使用して実現されてもよい。

さらに、ＰＰＧ推定器モジュール１０９がＰＰＧ信号を正確に推定することを可能にするために、ＰＰＧ推定器モジュール１０９は訓練される。ＰＰＧ推定器モジュール１０９の訓練に関する詳細については、以下で説明する。

ＴＵＲＮＩＰ（ＰＰＧ推定器モジュール）の訓練：

式中、μ_ｘおよびμ_ｚは、それぞれ、ｘおよびｚのサンプル平均値である。１つまたは複数の損失関数は、時間損失（ＴＬ）およびスペクトル損失（ＳＬ）のうちの一方または両方を含み得る。

ＴＬを最小化するために、ネットワーク（すなわち、ＴＵＲＮＩＰ）パラメータが以下のように求められる。

ＳＬを最小化するために、いくつかの実施形態では、損失関数への入力は、最初に、例えば高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）を使用して周波数領域に変換されて、所望の周波数範囲外にあるいかなる周波数成分も抑制される。例えば、心拍数については、［０．６，２．５］Ｈｚの範囲の帯域外にある周波数成分が抑制される。なぜなら、それらの周波数成分は、人間の心拍数の一般的な範囲外であるからである。この場合、ネットワークパラメータは、以下を解くように計算される。

訓練データセット：

例示的な実施形態では、ＴＵＲＮＩＰは、ＭＥＲＬ－Ｒｉｃｅ近赤外パルス（ＭＲ－ＮＩＲＰ）自動車データセットに基づいて訓練される。このデータセットは、９４０±５ｎｍバンドパスフィルタが取り付けられたＮＩＲカメラを用いて記録された顔の映像を含む。フレームは、６４０×６４０分解能および固定露光で、３０フレーム毎秒（ｆｐｓ）で記録された。６０ｆｐｓでのフィンガーパルスオキシメータ（例えば、ＣＭＳ５０Ｄ＋）記録を使用してグラウンドトゥルースＰＰＧ波形が取得され、このグラウンドトゥルースＰＰＧ波形は、次いで、３０ｆｐｓにダウンサンプリングされて、映像記録と同期される。データセットは、１８人の被験者を扱っており、走行中（市街地走行中）および車庫（エンジンが動作している状態での駐車）の２つの主要なシナリオに分けられる。さらに、各シナリオについて「最小限の頭部の動き」条件のみが評価される。データセットは、顔の毛があるおよび顔の毛がない女性および男性被験者を含む。映像は、異なる気象条件において夜間にも日中にも記録される。車庫設定における全ての記録は長さが２分（３，６００フレーム）であり、走行中における全ての記録は２～５分（３，６００～９，０００フレーム）である。

さらに、訓練データセットは、心拍数が４０～１１０拍／分（ｂｐｍ）である被験者で構成されている。しかし、被験者の心拍数は均一に分布しない。ほとんどの被験者では、心拍数はおおよそ５０～７０ｂｐｍである。データセットは、より少ない数の外れ値を有する。したがって、（ｉ）比較的少数の被験者および（ｉｉ）被験者の心拍数の分布のギャップの両方に対処するためにデータ拡張技術が使用される。訓練時、各１０秒ウィンドウについて、時系列抽出モジュール１０１によって出力される４８次元ＰＰＧ信号を使用することに加えて、線形リサンプリングレート１＋ｒおよび１－ｒを有する信号もリサンプリングされ、各１０秒ウィンドウについてｒ∈［０．２，０．６］という値がランダムに選択される。

したがって、データ拡張は、分布外の心拍数を有する被験者に有用である。したがって、所与の周波数範囲についてできる限り多くの例を用いてＴＵＲＮＩＰを訓練することが望ましい。

例示的な実施形態では、ＴＵＲＮＩＰは、１０エポックにわたって訓練され、訓練されたモデルは、テスト（「推論」とも呼ばれる）に使用される。別の実施形態では、ＴＵＲＮＩＰは、１０エポックよりも少ないエポックにわたって訓練されてもよい。例示的な実施形態では、バッチサイズが９６であって学習率が１．５・１０^－４であるアダムオプティマイザが選択される。学習率は、各エポックにおいて０．０５分の１に減少する。さらに、一人の被験者を除いて検証用として用いる交差検証法（leave-one-subject-out cross-validation）の訓練テストプロトコルが使用される。テスト時（すなわち、推論時）、被験者の時系列は、時系列抽出モジュール１０１を使用してウィンドウ化され、ウィンドウ間の１０個のサンプルのストライドで心拍数がシーケンシャルに推定される。例示的な実施形態では、１０個のフレームにつき１つの心拍数推定値が出力される。

さらに、システムのパフォーマンスは、２つのメトリックを使用して評価される。第１のメトリックである、時間割合誤差が６ｂｐｍ未満（ＰＴＥ６）は、絶対値で６ｂｐｍ未満だけグラウンドトゥルースから逸脱する心拍数（ＨＲ）推定値の割合を示す。誤差閾値は、１０秒ウィンドウの予想周波数分解能であるので、６ｂｐｍに設定される。第２のメトリックは、グラウンドトゥルースと推定ＨＲとの間の二乗平均平方根誤差（ＲＭＳＥ）である。第２のメトリックは、各１０秒ウィンドウについてｂｐｍ単位で測定されて、テストシーケンスにわたって平均される。

データ拡張なしでは、ＰＴＥ６についてのｉＰＰＧシステム１００の標準偏差は相当高くなり、これは、被験者全体にわたって大きなばらつきがあることを意味する。さらに、被験者に対するデータ拡張の影響を分析する。

図６Ａは、例示的な実施形態に係る、時間割合誤差が６ｂｐｍ未満（ＰＴＥ６メトリック）に対するデータ拡張の影響を示す図である。図６Ｂは、例示的な実施形態に係る、二乗平均平方根誤差（ＲＭＳＥ）メトリックに対するデータ拡張の影響を示す図である。長方形によってカバーされる図６Ａおよび図６Ｂの部分は、分布外の心拍数を有する２人の被験者については、データ拡張なしではｉＰＰＧシステム１００のパフォーマンスが低くなることを示している。被験者１０および１２は、データセットの中で最も低い安静時心拍数および最も高い安静時心拍数、すなわちそれぞれ～４０ｂｐｍおよび～１００ｂｐｍを有している。そのため、それらの被験者のどちらに対してテストしても、訓練セットは、同様の心拍数を有する被験者を含まない。データ拡張なしでは、ＴＵＲＮＩＰは、それらの被験者について全く機能しない。データ拡張ありでは、ＴＵＲＮＩＰははるかに正確である。

さらに、パススルー接続におけるＧＲＵセルの影響を分析する。ＧＲＵは、複数の時間分解能で特徴マップをシーケンシャルに処理する。そのため、ＧＲＵは、ＴＵＲＮＩＰの畳み込み層において使用される畳み込みカーネルの局所的な受容野を超えた特徴を抽出する。ＧＲＵの追加は、ｉＰＰＧシステム１００のパフォーマンスを向上させる。さらに、訓練に使用される２つの訓練損失関数ＴＬおよびＳＬは比較される。

図７は、例示的な実施形態に係る、ある被験者について、ＴＬを使用して訓練されたＴＵＲＮＩＰによって推定されたＰＰＧ信号と、ＳＬを使用して訓練されたＴＵＲＮＩＰによって推定されたＰＰＧ信号との比較を示す図である。図６は、ある被験者についての１０秒にわたる推定ＰＰＧ信号のＳＬとＴＬとを比較している。図６から、ＰＰＧ信号の推定時のＳＬを使用して訓練されたＴＵＲＮＩＰのパフォーマンスは、ＴＬのものと比較して低いことは明らかである。図７に示されるように、ＴＬを用いて訓練されたＴＵＲＮＩＰは、グラウンドトゥルースＰＰＧ信号のはるかに優れた推定値を生成する。ＳＬを用いて回復された信号は、同様の周波数を有するが、しばしばピークと一致せず、信号振幅または形状を歪ませる。すなわち、回復された信号のスペクトルおよび心拍数は、どちらの場合も類似しているが、時間的変動は類似していない。したがって、好ましい実施形態では、ＴＵＲＮＩＰは、ＴＬ訓練損失関数を使用して訓練され得る。

例示的な実施形態：

図８は、例示的な実施形態に係る、ｉＰＰＧシステム８００のブロック図である。システム８００は、格納された命令を実行するように構成されたプロセッサ８０１と、プロセッサ８０１によって実行可能な命令を格納するメモリ８０３とを含む。プロセッサ８０１は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または他のどのような構成であってもよい。メモリ８０３は、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）、リードオンリメモリ（ＲＯＭ：Read Only Memory）、フラッシュメモリ、またはその他の好適なメモリシステムを含み得る。プロセッサ８０１は、バス８０５を介して１つまたは複数の入力／出力デバイスに接続されている。

メモリ８０３に格納された命令は、人の皮膚の異なる領域から測定された一組のｉＰＰＧ信号の波形に基づいて人のバイタルサインを推定するためのｉＰＰＧ方法に対応する。ｉＰＰＧシステム８００は、時系列抽出モジュール１０１およびＰＰＧ推定器モジュール１０９などのさまざまなモジュールを格納するように構成されたストレージデバイス８０７も含み得て、ＰＰＧ推定器モジュール１０９は、時系列Ｕ－ｎｅｔ１０９ａとＲＮＮ１０９ｂとを含む。ストレージデバイス８０７に格納された上記のモジュールは、プロセッサ８０１によって実行されて、バイタルサイン推定を実行する。バイタルサインは、人の脈拍数または人の心拍数変動に対応する。ストレージデバイス８０７は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを使用して実現されてもよい。

時系列抽出モジュール１０１は、ｉＰＰＧシステム８００に送り込まれた１つまたは複数の映像８０９からの映像の各フレームから画像を取得し、１つまたは複数の映像８０９は、バイタルサインが推定されることになる人の身体部位の映像を含む。１つまたは複数の映像は、１つまたは複数のカメラによって記録され得る。時系列抽出モジュール１０１は、各フレームからの画像を、ＰＰＧ信号の強力な指標である身体部位のＲＯＩに対応する複数の空間領域に区画割りし得て、複数の空間領域への画像の区画割りは、身体部位の画像のシーケンスを形成する。各画像は、身体部位の皮膚の異なる領域を画像内に含む。画像のシーケンスは、多次元時系列信号に変換され得る。多次元時系列信号は、ＰＰＧ推定器モジュール１０９に提供される。ＰＰＧ推定器モジュール１０９は、時系列Ｕ－ｎｅｔ１０９ａおよびＲＮＮ１０９ｂを使用して、多次元時系列信号に対して時間畳み込みを実行することによって多次元時系列信号を処理し、畳み込まれたデータはさらに、ＲＮＮ１０９ｂによってシーケンシャルに処理されて、ＰＰＧ波形が推定され、このＰＰＧ波形を使用して人のバイタルサインを推定する。

ｉＰＰＧシステム８００は、１つまたは複数の映像８０９を受信するための入力インターフェイス８１１を含む。例えば、入力インターフェイス８１１は、ｉＰＰＧシステム８００をバス８０５を介してネットワーク８１３に接続するように適合されたネットワークインターフェイスコントローラであってもよい。

追加的にまたは代替的に、いくつかの実現例では、ｉＰＰＧシステム８００は、１つまたは複数の映像８０９を収集するためにカメラなどのリモートセンサ８１５に接続されている。いくつかの実現例では、ｉＰＰＧシステム８００内のヒューマンマシンインターフェイス（ＨＭＩ：Human Machine Interface）８１７は、ｉＰＰＧシステム８００を、とりわけキーボード、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、タッチスクリーンなどの入力デバイス８１９に接続している。

ｉＰＰＧシステム８００は、バス８０５を介して、ＰＰＧ波形をレンダリングするための出力インターフェイスに連結されることができる。例えば、ｉＰＰＧシステム８００は、ｉＰＰＧシステム８００をディスプレイデバイス８２３に接続するように適合されたディスプレイインターフェイス８２１を含み得て、ディスプレイデバイス８２３は、コンピュータモニタ、プロジェクタまたはモバイルデバイスを含み得るが、それらに限定されるものではない。

ｉＰＰＧシステム８００は、ｉＰＰＧシステム８００をイメージングデバイス８２７に接続するように適合されたイメージングインターフェイス８２５も含み、および／または、イメージングインターフェイス８２５に接続され得る。

いくつかの実施形態では、ｉＰＰＧシステム８００は、推定されたバイタルサインに基づいて動作可能なアプリケーションシステム８３１にｉＰＰＧシステム８００を接続するように適合されたアプリケーションインターフェイス８２９に、バス８０５を介して接続され得る。例示的なシナリオでは、アプリケーションシステム８３１は、患者のバイタルサインを使用する患者モニタリングシステムである。別の例示的なシナリオでは、アプリケーションシステム８３１は、例えば運転手が眠気をもよおしているかどうかなど、運転手が安全に運転できるかどうかを判断するために運転手のバイタルサインを使用する運転手モニタリングシステムである。

図９は、例示的な実施形態に係る、ｉＰＰＧシステム８００を使用した患者モニタリングシステム９００を示す図である。患者のバイタルサインをモニタリングするために、カメラ９０３を使用して、患者９０１の画像、すなわち映像シーケンスを取り込む。

カメラ９０３は、入射光およびその強度変動を電気信号に変換するためのＣＣＤセンサまたはＣＭＯＳセンサを含み得る。カメラ９０３は、患者９０１の皮膚部分から反射された光を非侵襲的に取り込む。そのため、皮膚部分とは、特に、額、首、手首、腕の一部または患者の皮膚の他の部分を指す。患者または患者の皮膚部分を含む対象の領域を照明するために例えば近赤外光源などの光源が使用されてもよい。

取り込まれた画像に基づいて、ｉＰＰＧシステム８００は、患者９０１のバイタルサインを判断する。特に、ｉＰＰＧシステム８００は、患者９０１の心拍数、呼吸数または血液酸素化などのバイタルサインを判断する。さらに、判断されたバイタルサインは、通常、判断されたバイタルサインを表示するためのオペレータインターフェイス９０５上に表示される。このようなオペレータインターフェイス９０５は、患者ベッドサイドモニタであってもよく、または、病院内の専用の部屋、老人ホームなどのグループケア施設、もしくは遠隔医療アプリケーションでは遠隔地におけるリモートモニタリングステーションであってもよい。

図１０は、例示的な実施形態に係る、ｉＰＰＧシステム８００を使用した運転手支援システム１０００を示す図である。車両１００３内にはＮＩＲ光源および／またはＮＩＲカメラ１００１が配置されている。特に、ＮＩＲカメラ１００１は、運転手１００５を取り込む視野（ＦＯＶ：Field Of View）内に配置され得る。ｉＰＰＧシステム８００は、車両１００３に一体化される。ＮＩＲ光源は、車両を運転する人（運転手１００５）の皮膚を照明するように構成されており、ＮＩＲカメラ１００１は、運転手の映像をリアルタイムで記録するように構成されている。さらに、ＮＩＲ映像は、ｉＰＰＧシステム８００に送り込まれて、運転手１００５の皮膚の異なる領域からのｉＰＰＧ信号が測定される。ｉＰＰＧシステム８００は、測定されたｉＰＰＧ信号を受信して、運転手１００５の脈拍数などのバイタルサインを判断する。

さらに、ｉＰＰＧシステム８００のプロセッサは、車両１００３の運転手１００５の推定されたバイタルサインに基づいて１つまたは複数の制御アクションコマンドを生成することができる。１つまたは複数の制御アクションコマンドは、車両制動、ステアリング制御、アラート通知の生成、緊急サービス要求の開始、または運転モードの切り換えを含む。１つまたは複数の制御アクションコマンドは、車両１００３のコントローラ１００５に送信される。コントローラ１００５は、１つまたは複数の制御アクションコマンドに従って車両１００３を制御することができる。例えば、運転手の判断された脈拍数が非常にゆっくりである場合、運転手１００５は心臓発作に見舞われている可能性がある。その結果、ｉＰＰＧシステム８００は、車両の減速および／またはステアリング制御（例えば、車両を幹線道路の路肩に向かわせて停車させる）および／または緊急サービス要求の開始のための制御コマンドを生成することができる。

上記の説明は、例示的な実施形態のみを提供し、本開示の範囲、適用可能性または構成を限定することは意図していない。むしろ、例示的な実施形態の上記の説明は、１つまたは複数の例示的な実施形態を実現するための実施可能な程度の説明を当業者に提供する。意図されているのは、添付の特許請求の範囲に記載されている、開示されている主題の精神および範囲から逸脱することなく、要素の機能および配置の点でさまざまな変更がなされてもよいということである。

実施形態の十分な理解が得られるように、具体的な詳細が上記の説明に示されている。しかし、これらの具体的な詳細がなくても実施形態を実施できるということを当業者は理解する。例えば、開示されている主題のシステム、プロセスおよび他の要素は、実施形態を不必要な詳細で不明瞭にすることのないように、ブロック図の形式で構成要素として示される場合がある。他の例において、周知のプロセス、構造および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細なしに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図またはブロック図として示されるプロセスとして記載される場合がある。フローチャートは、動作をシーケンシャルなプロセスとして記載する場合があるが、これらの動作の多くは、並行してまたは同時に実行可能である。また、これらの動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了され得るが、論じられていないまたは図に含まれていない追加のステップを有してもよい。さらに、具体的に記載されている任意のプロセスにおける全ての動作が全ての実施形態において行われるわけではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、当該関数が呼び出し関数またはメイン関数に戻ることに対応し得る。

さらに、開示されている主題の実施形態は、少なくとも部分的に手動でまたは自動で実現されてもよい。手動での実現または自動での実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせを使用することによって行われてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実現される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械読取可能媒体に格納されてもよい。プロセッサが必要なタスクを実行してもよい。

本明細書で概要を述べたさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか１つを利用する１つまたは複数のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。さらに、このようなソフトウェアは、複数の好適なプログラミング言語および／またはプログラミングもしくはスクリプティングツールのうちのいずれかを使用して書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードまたは中間コードとしてコンパイルされてもよい。一般に、プログラムモジュールの機能は、さまざまな実施形態における要望に応じて組み合わせたり分散させたりしてもよい。

本開示の実施形態は方法として具体化されてもよく、その一例が提供されている。この方法の一部として実行される動作は、任意の好適な方法で順序付けられてもよい。したがって、示されている順序とは異なる順序で動作が実行される実施形態が構築されてもよく、これは、いくつかの動作を、例示的な実施形態ではシーケンシャルな動作として示されていても、同時に実行することを含み得る。特定の好ましい実施形態を参照しながら本開示を説明してきたが、本開示の精神および範囲内でさまざまな他の適合化および修正がなされてもよい、ということが理解されるべきである。したがって、本開示の真の精神および範囲内に含まれるこのような変形および修正を全てカバーすることが添付の特許請求の範囲の側面である。

図２Ａにおいて、シングル入力チャネル（Ｃｈ＿ｉｎ＝１）における時系列２０１は時系列Ｕ－ｎｅｔ１０９ａの畳み込み層のうちの１つ（例えば、第１の収縮層における畳み込み層）によって得られ、入力チャネル２０１の長さは１０であるものとする。入力チャネル２０１は、時系列抽出モジュール１０１によってＰＰＧ推定器モジュール１０９に送り込まれる多次元時系列の１つの次元に対応する（例えば、入力チャネル２０１は一次元時系列シーケンスである）。さらに、入力チャネルを操作するために使用されるストライド値に基づいて、対応する出力チャネル２０３の長さは変更される。

Claims

人の皮膚の画像から前記人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ（ｉＰＰＧ：imaging PhotoPlethysmoGraphy）システムであって、少なくとも１つのプロセッサと、命令が格納されたメモリとを備え、前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記ｉＰＰＧシステムに、
前記人の前記皮膚の異なる領域の画像のシーケンスを受信することを行わせ、各領域は、前記皮膚の色の変動を示す異なる強度の画素を含み、前記命令はさらに、前記少なくとも１つのプロセッサによって実行されると、前記ｉＰＰＧシステムに、
前記画像のシーケンスを多次元時系列信号に変換することを行わせ、各次元は、前記皮膚の前記異なる領域からのそれぞれの領域に対応し、前記命令はさらに、前記少なくとも１つのプロセッサによって実行されると、前記ｉＰＰＧシステムに、
時系列Ｕ－Ｎｅｔニューラルネットワークを用いて前記多次元時系列信号を処理して、ＰＰＧ波形を生成することを行わせ、前記時系列Ｕ－ＮｅｔニューラルネットワークのＵ字形状は、収縮層のシーケンスを含む収縮経路と、その後に続く拡張層のシーケンスを含む拡張経路とを含み、前記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ前記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、前記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、前記パススルー層のうちの少なくとも１つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含み、前記命令はさらに、前記少なくとも１つのプロセッサによって実行されると、前記ｉＰＰＧシステムに、
前記ＰＰＧ波形に基づいて前記人の前記バイタルサインを推定することと、
前記人の推定された前記バイタルサインをレンダリングすることとを行わせる、ｉＰＰＧシステム。
前記収縮層のシーケンスからの少なくとも１つの収縮層は、１よりも大きなストライドを有するストライド畳み込みを用いてその入力をダウンサンプリングすることで、前記入力をダウンサンプリングして処理する、請求項１に記載のｉＰＰＧシステム。
前記拡張層のシーケンスからの少なくとも１つの拡張層は、アップコンバート動作を用いてその入力をアップサンプリングすることで、アップサンプリングされた入力を生成し、前記拡張層は、前記アップサンプリングされた入力を処理する複数の畳み込み層を含む、請求項１に記載のｉＰＰＧシステム。
前記再帰型ニューラルネットワークは、ゲート付き再帰型ユニット（ＧＲＵ：Gated Recurrent Unit）または長・短期記憶（ＬＳＴＭ：Long Short-Term Memory）ネットワークを含む、請求項１に記載のｉＰＰＧシステム。
前記収縮層のシーケンスからの収縮層は、その入力を前の収縮層から受け取って、その出力を前記収縮層のシーケンスにおける次の収縮層および対応するパススルー層の両方の層に投入する、請求項１に記載のｉＰＰＧシステム。
前記ＰＰＧ波形から前記人の前記バイタルサインを推定するために、前記少なくとも１つのプロセッサは、前記時系列Ｕ－Ｎｅｔニューラルネットワークを用いて、前記多次元時系列信号の重なり合うセグメントのシーケンスからの各セグメントを処理するように構成される、請求項１に記載のｉＰＰＧシステム。
前記人の前記バイタルサインの前記信号は、一次元信号である、請求項６に記載のｉＰＰＧシステム。
前記多次元時系列信号を生成するために、前記少なくとも１つのプロセッサは、
顔ランドマーク検出を用いて前記人の前記皮膚の前記異なる領域を識別し、
瞬間における前記異なる領域の各領域からの画素の画素強度を平均して、前記瞬間における前記多次元時系列信号の各次元についての値を生成するように構成される、請求項１に記載のｉＰＰＧシステム。
前記多次元時系列信号の各次元は、前記皮膚の前記異なる領域の前記対応する領域に対応する信号であり、各領域は、明示的に追跡された関心領域（ＲＯＩ：Region Of Interest）である、請求項８に記載のｉＰＰＧシステム。
前記変換することは、各々がマルチチャネル映像の異なるチャネルから抽出された２つ以上の多次元時系列を組み合わせて、前記多次元時系列信号を含む単一の多次元時系列にする連結動作を含む、請求項１に記載のｉＰＰＧシステム。
前記変換することは、各々がマルチチャネル映像の異なるチャネルから抽出された２つ以上の多次元時系列を組み合わせて、前記多次元時系列信号を含む単一の多次元時系列にする線形結合を含む、請求項１に記載のｉＰＰＧシステム。
前記変換することは、各々がマルチチャネル映像の１つのチャネルから抽出された２つ以上の多次元時系列を抽出して、前記２つ以上の多次元時系列を、前記多次元時系列信号を含む３Ｄ配列に成形することを含む、請求項１に記載のｉＰＰＧシステム。
前記時系列Ｕ－ｎｅｔニューラルネットワークは、前記ＰＰＧ波形に関連付けられたグラウンドトゥルースデータと推定された前記ＰＰＧ信号との間のピアソン相関係数を最大化するように訓練される、請求項１に記載のｉＰＰＧシステム。
前記時系列Ｕ－ｎｅｔニューラルネットワークは、時間損失関数またはスペクトル損失関数を用いて訓練される、請求項１に記載のｉＰＰＧシステム。
前記バイタルサインは、前記人の脈拍数および前記人の心拍数変動のうちの１つまたはそれらの組み合わせである、請求項１に記載のｉＰＰＧシステム。
前記人は、車両の運転手に対応し、前記少なくとも１つのプロセッサはさらに、前記運転手の前記バイタルサインに基づいて前記車両のコントローラのための１つまたは複数の制御コマンドを生成するように構成される、請求項１に記載のｉＰＰＧシステム。
前記人の前記バイタルサインの前記信号に基づいて制御アクションを実行するように構成されたコントローラをさらに備える、請求項１６に記載のｉＰＰＧシステム。
前記画像のシーケンスを生成するために異なる瞬間における前記皮膚の色の変動を示す前記強度を測定するように構成されたプロセッサを含むカメラと、
前記人の前記バイタルサインの前記信号を表示するように構成されたディスプレイデバイスとをさらに備える、請求項１に記載のｉＰＰＧシステム。
人のバイタルサインを推定するための方法であって、前記方法は、前記方法を実現する格納された命令に結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
前記人の前記皮膚の異なる領域の画像のシーケンスを受信するステップを含み、各領域は、前記皮膚の色の変動を示す異なる強度の画素を含み、前記ステップはさらに、
前記画像のシーケンスを多次元時系列信号に変換するステップを含み、各次元は、前記皮膚の前記異なる領域からのそれぞれの領域に対応し、前記ステップはさらに、
時系列Ｕ－Ｎｅｔニューラルネットワークを用いて前記多次元時系列信号を処理して、ＰＰＧ波形を生成するステップを含み、前記時系列Ｕ－ＮｅｔニューラルネットワークのＵ字形状は、収縮層のシーケンスを含む収縮経路と、その後に続く拡張層のシーケンスを含む拡張経路とを含み、前記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ前記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、前記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、前記パススルー層のうちの少なくとも１つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含み、前記ステップはさらに、
前記ＰＰＧ波形に基づいて前記人の前記バイタルサインを推定するステップと、
前記人の推定された前記バイタルサインをレンダリングするステップとを含む、方法。
方法を実行するための、プロセッサによって実行可能なプログラムが組み入れられた非一時的なコンピュータ読取可能記憶媒体であって、前記方法は、
前記人の前記皮膚の異なる領域の画像のシーケンスを受信するステップを含み、各領域は、前記皮膚の色の変動を示す異なる強度の画素を含み、前記方法はさらに、
前記画像のシーケンスを多次元時系列信号に変換するステップを含み、各次元は、前記皮膚の前記異なる領域からのそれぞれの領域に対応し、前記方法はさらに、
時系列Ｕ－Ｎｅｔニューラルネットワークを用いて前記多次元時系列信号を処理して、ＰＰＧ波形を生成するステップを含み、前記時系列Ｕ－ＮｅｔニューラルネットワークのＵ字形状は、収縮層のシーケンスを含む収縮経路と、その後に続く拡張層のシーケンスを含む拡張経路とを含み、前記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ前記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、前記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、前記パススルー層のうちの少なくとも１つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含み、前記方法はさらに、
前記ＰＰＧ波形に基づいて前記人の前記バイタルサインを推定するステップと、
前記人の推定された前記バイタルサインをレンダリングするステップとを含む、非一時的なコンピュータ読取可能記憶媒体。