JP2024525995A - イメージングフォトプレチスモグラフィ(iPPG)システムおよびバイタルサインのリモート測定方法 - Google Patents
イメージングフォトプレチスモグラフィ(iPPG)システムおよびバイタルサインのリモート測定方法 Download PDFInfo
- Publication number
- JP2024525995A JP2024525995A JP2024528262A JP2024528262A JP2024525995A JP 2024525995 A JP2024525995 A JP 2024525995A JP 2024528262 A JP2024528262 A JP 2024528262A JP 2024528262 A JP2024528262 A JP 2024528262A JP 2024525995 A JP2024525995 A JP 2024525995A
- Authority
- JP
- Japan
- Prior art keywords
- time series
- ippg
- layers
- person
- contraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013186 photoplethysmography Methods 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003384 imaging method Methods 0.000 title claims abstract description 17
- 238000005259 measurement Methods 0.000 title description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 35
- 230000000306 recurrent effect Effects 0.000 claims abstract description 18
- 230000008602 contraction Effects 0.000 claims description 96
- 230000003416 augmentation Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000001815 facial effect Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000007493 shaping process Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 25
- 230000002123 temporal effect Effects 0.000 description 16
- 238000005286 illumination Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 238000013434 data augmentation Methods 0.000 description 11
- 230000033001 locomotion Effects 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 239000008280 blood Substances 0.000 description 9
- 210000004369 blood Anatomy 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 8
- 210000001061 forehead Anatomy 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 241000288105 Grus Species 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 3
- 230000000541 pulsatile effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000017531 blood circulation Effects 0.000 description 2
- 235000001729 chan in Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 229920001451 polypropylene glycol Polymers 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 238000002834 transmittance Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000000624 ear auricle Anatomy 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000006213 oxygenation reaction Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000002820 sympathetic nervous system Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000028016 temperature homeostasis Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000001429 visible spectrum Methods 0.000 description 1
- 230000003245 working effect Effects 0.000 description 1
Abstract
イメージングフォトプレチスモグラフィ(iPPG)システムが提供される。iPPGシステムは、人の皮膚の異なる領域の画像のシーケンスを受信し、各領域は、皮膚の色の変動を示す異なる強度の画素を含む。iPPGシステムはさらに、画像のシーケンスを多次元時系列信号に変換し、各次元は、皮膚の異なる領域からのそれぞれの領域に対応する。iPPGシステムはさらに、パススルー層が再帰型ニューラルネットワーク(RNN)を含む時系列U-Netニューラルネットワークを用いて多次元時系列信号を処理して、PPG波形を生成し、人のバイタルサインは、PPG波形に基づいて推定され、iPPGシステムはさらに、人の推定されたバイタルサインをレンダリングする。
Description
本開示は、概して人のバイタルサインをリモートでモニタリングすることに関し、より特定的にはイメージングフォトプレチスモグラフィ(iPPG:imaging PhotoPlethysmoGraphy)システムおよびバイタルサインのリモート測定方法に関する。
例えば心拍数(HR:Heart Rate)、心拍数変動(HRV:Heart Rate Variability)、呼吸数(RR:Respiration Rate)または血中酸素飽和度などの人のバイタルサインは、人の現在の状態の指標および深刻な医療事象の潜在的な予測因子として機能する。このような理由で、バイタルサインは、入院患者および外来患者治療環境において、自宅で、ならびに他の健康、レジャーおよびフィットネス環境において、広範囲にモニタリングされる。バイタルサインを測定する1つの方法は、プレチスモグラフィである。プレチスモグラフィとは、人の臓器または身体部位の体積変化の測定に対応する。フォトプレチスモグラフィ(PPG:PhotoPlethysmoGraphy)などのプレチスモグラフィのさまざまな実現例がある。
PPGは、対象の面積または体積の光反射率または透過の時変変化を評価する光学測定技術であり、組織の微小血管床における血液量変化を検出するのに使用することができる。PPGは、血液が周囲組織とは異なったように光を吸収および反射するので、それに対応して、心臓の鼓動ごとの血液量の変動が光の透過または反射率に影響を及ぼす、という原理に基づく。PPGは、しばしば非侵襲的に使用されて皮膚表面で測定を行う。PPG波形は、心臓の鼓動ごとの血液量の心臓同期変化に帰する拍動性の生理学的波形を含み、呼吸、交感神経系活動および体温調節などの他の要因に帰するさまざまな低周波数成分を有するゆっくりと変化するベースライン上に重ね合わせられる。
人の心拍数および(動脈)血中酸素飽和度を測定するための従来のパルスオキシメータは、例えば指先、耳たぶまたは額などの人の皮膚に取り付けられる。したがって、それらは「接触型」PPG装置と称される。典型的なパルスオキシメータは、光源としての緑色LEDと青色LEDと赤色LEDと赤外線LEDとの組み合わせと、患者組織を透過した光を検出するための1つのフォトダイオードとを含み得る。従来の入手可能なパルスオキシメータは、異なる波長での測定を素早く切り換えることによって、異なる波長において組織の同一面積または同一体積の透過率を測定する。これは、時分割多重化と称される。各波長における経時的な透過率は、異なる波長についてPPG信号を生じさせる。接触型PPGは、基本的に非侵襲性の技術であるとされているが、接触型PPG測定は、往々にして不快なものとして体験される。なぜなら、パルスオキシメータが人に直接取り付けられるためケーブルが移動の自由を制限するからである。
最近になって、邪魔にならない測定のための非接触型リモートPPG(RPPG)が導入されるようになってきた。RPPGは、対象の人から離れて配設された光源、または一般に放射線源を利用する。同様に、例えばカメラまたは光検出器などの検出器も対象の人から離れて配設することができる。RPPGは、カメラなどのイメージングセンサの使用に起因して、イメージングPPG(iPPG:imaging PPG)とも称されることが多い。(以下、リモートPPG(RPPG)という語とイメージングPPG(iPPG)という語とは同義で使用される。)それらは人との直接接触を必要としないので、リモートフォトプレチスモグラフィシステムおよび装置は邪魔にならないと考えられ、その意味で医療用途および非医療の日常的な用途に適している。
オンボディセンサに対するカメラベースのバイタルサインモニタリングの1つの利点は、使い勝手のよさである。カメラを人に向けるだけで十分であるので、センサを人に取り付ける必要がない。オンボディセンサに対するカメラベースのバイタルサインモニタリングの別の利点は、カメラが、ほとんどの場合単一要素検出器を含む接触型センサよりも高い空間分解能を有していることである。
RPPG技術の課題のうちの1つは、固有のノイズ源が存在する変化しやすい環境において正確な測定を提供できるようにすることである。例えば、車両内環境などの変化しやすい環境では、運転手に対する照明は、運転中(例えば、建物、木などの陰を通っている間)に劇的かつ突然に変化するため、iPPG信号と他の変動とを区別することを困難にする。また、車両の動き、運転手が車の中も外も見回す(対向交通のために、バックミラーおよびサイドミラーをのぞき込む)などのいくつかの要因に起因して、運転手の頭および顔の著しい動きがある。
ロバストなカメラベースのバイタルサイン測定を可能にするためのいくつかの方法が開発されてきた。これらの方法のうちの1つは、狭帯域アクティブ近赤外(NIR:near-infrared)照明を使用し、NIR照明は、ライティング変動の悪影響を大幅に減少させる。例えば、運転中、この方法は、太陽光と影との間の突然の変動、または夜間の運転手の視力に影響を及ぼすことなく街灯および他の車のヘッドライトを通過する、などのライティング変動の悪影響を減少させることができる。しかし、NIR周波数は、信号対雑音比(SNR:Signal-to-Noise Ratio)が低いなどの新たな課題をiPPGにもたらす。この理由は、スペクトルのNIR部分では、カメラセンサの感度が低く、血流関連の強度変化の大きさがより小さいことを含む。したがって、NIR周波数からPPG信号を正確に推定することができるRPPGシステムが必要である。
したがって、いくつかの実施形態の目的は、高い精度で人のバイタルサインを推定することである。そのために、いくつかの実施形態は、イメージングフォトプレチスモグラフィ(iPPG)を利用する。また、いくつかの実施形態の目的は、狭帯域近赤外(NIR)システムを使用して、照明変動を減少させる波長範囲を決定することである。追加的にまたは代替的に、いくつかの実施形態は、NIRモノクロ映像(または、画像のシーケンス)を使用して、人の皮膚の異なる領域に関連付けられた多次元時系列データを取得し、ディープニューラルネットワーク(DNN:Deep Neural Network)を使用してこの多次元時系列データを処理することによって人のバイタルサインを正確に推定することを目的としている。
いくつかの実施形態は、NIRモノクロ映像またはNIR画像のシーケンスから人のバイタルサインを推定することができる、という認識に基づく。そのために、iPPGシステムは、対象の人(「人」とも称される)の顔のNIR画像のシーケンスを取得して、各画像を複数の空間領域に区画割りする。各空間領域は、人の顔の小さな部分を含む。iPPGシステムは、複数の空間領域の各領域における皮膚の色または強度の変動を分析して、人のバイタルサインを推定する。
そのために、iPPGシステムは、多次元時系列信号を生成し、各瞬間における多次元信号の次元は、空間領域の数に対応し、各時点は、画像のシーケンスの中の1つの画像に対応する。その後、多次元時系列信号は、ディープニューラルネットワーク(DNN)ベースのモジュールに提供されて、人のバイタルサインが推定される。DNNベースのモジュールは、時系列U-Netアーキテクチャを多次元時系列データに適用し、U-Netアーキテクチャのパススルー接続は、NIRイメージングPPGのために時間再帰を組み込むように修正される。
いくつかの実施形態は、U-Netニューラルネットワークのパススルー層における再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を使用して多次元時系列信号をシーケンシャルに処理することが人のバイタルサインのより正確な推定を可能にすることができる、という認識に基づく。
いくつかの実施形態は、人の皮膚の強度(例えば、NIR画像における画素強度)の測定の際のノイズに対するPPG信号の感度が、少なくとも部分的に、異なる空間位置(または、空間領域)において測定された人の皮膚の強度からフォトプレチスモグラフィ(PPG)信号を独立して推定することによって引き起こされる、という認識に基づく。いくつかの実施形態は、例えば人の皮膚の異なる領域などの異なる位置において測定強度が異なる測定ノイズにさらされる可能性がある、という認識に基づく。iPPG信号が各位置における強度から独立して推定される(例えば、ある皮膚領域における強度から推定されたPPG信号が他の皮膚領域からの強度または推定信号から独立して推定される)場合、それぞれの推定値の独立性により推定器はこのようなノイズを識別することができない場合がある。
いくつかの実施形態は、人の皮膚の異なる空間領域における測定強度が異なるノイズ、時には無関係でさえあるノイズにさらされる可能性がある、という認識に基づく。このようなノイズは、照明変動、人の動きなどのうちの1つ以上を含む。これに対して、心臓の鼓動は、皮膚の異なる領域に存在する強度変動の共通する原因である。したがって、独立した推定が、人の皮膚の異なる領域における強度から測定されたPPG信号の共同推定と置換されると、バイタルサイン推定の品質に対するノイズの影響を減少させることができる。このように、いくつかの実施形態は、多くの皮膚領域にわたって共有されないノイズ信号を無視しながら、(相当なノイズも含み得る領域を含む)多くの皮膚領域に共通のPPG信号を抽出することができる。
いくつかの実施形態は、異なる皮膚領域のPPG信号をひとまとめにして推定することによってバイタルサインの推定に影響を及ぼすノイズが減少するので、異なる皮膚領域のPPG信号をひとまとめにして推定することが有益であろう、という認識に基づく。いくつかの実施形態は、2つのタイプのノイズ、すなわち外部ノイズおよび内部ノイズが皮膚の強度に対して作用している、という認識に基づく。外部ノイズは、ライティング変動、人の動き、および強度を測定するセンサの分解能などの外部要因に起因して皮膚の強度に影響を及ぼす。内部ノイズは、人の皮膚の異なる領域の外観に対する心血管血流のさまざまな影響などの内部要因に起因して皮膚の強度に影響を及ぼす。例えば、心臓の鼓動は、鼻の強度よりも人の額および頬の強度に大きく影響を及ぼし得る。
いくつかの実施形態は、両方のタイプのノイズが強度測定の周波数領域において対処可能である、という認識に基づく。具体的には、外部ノイズは、多くの場合、非周期的であるか、または、対象の信号(例えば、拍動性の信号)とは異なる周期的な周波数を有するため、周波数領域において検出することができる。一方、内部ノイズは、皮膚の異なる領域に強度変動または強度変動の時間シフトを生じさせながら、周波数領域において強度変動の共通する原因の周期性を保持する。
いくつかの実施形態は、劇的な照明変動が存在する変化しやすい環境でもバイタルサインを正確に推定することを目的としている。例えば、車両内環境などの変化しやすい環境において、いくつかの実施形態は、車両の運転手または乗員のバイタルサインを推定するのに適したRPPGシステムを提供する。しかし、運転中、人の顔への照明は劇的に変化する可能性がある。これらの課題に対処するために、追加的にまたは代替的に、一実施形態は、太陽光、街灯、ならびにヘッドライトおよびテールライトのスペクトルエネルギが全て最小限である狭スペクトル帯域においてアクティブ車内照明を使用する。例えば、大気中の水分に起因して、地球の表面に到達する太陽光は、940nmのNIR波長のあたりで、他の波長よりもはるかに少ないエネルギを有する。街灯および車両ライトによって出力される光は、一般に可視スペクトル内であり、赤外周波数におけるパワーが非常に小さい。そのために、一実施形態は、940nmまたは940nm付近のアクティブ狭帯域照明源と、同一の周波数におけるカメラフィルタとを使用することにより、環境周囲照明に起因する照明変化がフィルタリングされて除去されることを確実にする。さらに、この狭周波数帯域は可視範囲を超えているので、人間はこの光源を知覚しないため、その存在によって気が散ることはない。その上、アクティブ照明に使用される光源の帯域幅が狭くなるにつれて、カメラのバンドパスフィルタが狭くなり得るため、周囲照明に起因する強度変化がさらに除去される。
したがって、一実施形態は、940nmの近赤外波長を含む狭周波数帯域において人の皮膚を照明するための狭帯域幅(狭帯域)近赤外(NIR)光源と、当該狭周波数帯域において皮膚の異なる領域の強度を測定するための、狭帯域光源の波長と重複する狭帯域フィルタを有するNIRカメラとを使用する。
一実施形態は、人の皮膚の画像から上記人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ(iPPG)システムを開示し、上記iPPGシステムは、少なくとも1つのプロセッサと、命令が格納されたメモリとを備え、上記命令は、上記少なくとも1つのプロセッサによって実行されると、上記iPPGシステムに、上記人の上記皮膚の異なる領域の画像のシーケンスを受信することを行わせ、各領域は、上記皮膚の色の変動を示す異なる強度の画素を含み、上記命令はさらに、上記少なくとも1つのプロセッサによって実行されると、上記iPPGシステムに、上記画像のシーケンスを多次元時系列信号に変換することを行わせ、各次元は、上記皮膚の上記異なる領域からのそれぞれの領域に対応し、上記命令はさらに、上記少なくとも1つのプロセッサによって実行されると、上記iPPGシステムに、時系列U-Netニューラルネットワークを用いて上記多次元時系列信号を処理して、PPG波形を生成することを行わせ、上記時系列U-NetニューラルネットワークのU字形状は、収縮層のシーケンスによって形成される収縮経路と、その後に続く拡張層のシーケンスによって形成される拡張経路とを含み、上記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ上記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、上記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されている。さらに、上記パススルー層のうちの少なくとも1つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含む。上記少なくとも1つのプロセッサはさらに、上記PPG波形に基づいて上記人の上記バイタルサインを推定し、上記人の推定された上記バイタルサインをレンダリングするように構成される。
別の実施形態は、人のバイタルサインを推定するための方法を開示し、上記方法は、上記人の上記皮膚の異なる領域の画像のシーケンスを受信するステップを含み、各領域は、上記皮膚の色の変動を示す異なる強度の画素を含み、上記方法はさらに、上記画像のシーケンスを多次元時系列信号に変換するステップを含み、各次元は、上記皮膚の上記異なる領域からのそれぞれの領域に対応し、上記方法はさらに、時系列U-Netニューラルネットワークを用いて上記多次元時系列信号を処理して、PPG波形を生成するステップを含み、上記時系列U-NetニューラルネットワークのU字形状は、収縮層のシーケンスによって形成される収縮経路と、その後に続く拡張層のシーケンスによって形成される拡張経路とを含み、上記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ上記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、上記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、上記パススルー層の各々は、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含む。上記方法はさらに、上記PPG波形に基づいて上記人の上記バイタルサインを推定するステップと、上記人の推定された上記バイタルサインをレンダリングするステップとを含む。
以下の説明には、本開示の十分な理解が得られるように、多数の具体的な詳細が説明の目的で記載されている。しかし、これらの具体的な詳細がなくても本開示を実施できるということは当業者に明らかであろう。他の例では、本開示を不明瞭にすることを回避するためだけに、装置および方法をブロック図の形式で示す。
本明細書および特許請求の範囲で使用されている「例えば(for example)」、「例として(for instance)」および「など(such as)」という語ならびに「備える(comprising)」、「有する(having)」、「含む(including)」という動詞およびこれらの動詞の他の形態は、1つもしくは複数の構成要素または他のアイテムの列挙と併用されると、各々がオープンエンドであるものとして解釈されるべきであり、これは、この列挙が他のさらなる構成要素またはアイテムを除外するものと考えられるべきではないことを意味する。「基づく」という語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で利用される表現および専門語は、説明の目的であり、限定的であるとみなされるべきではない、ということが理解されるべきである。この説明の中で利用される見出しはいずれも、便宜上のものであるに過ぎず、法的または限定的な効果を有するものではない。
図1Aは、例示的な実施形態に係る、人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ(iPPG)システム100を示すブロック図である。iPPGシステム100は、時系列抽出モジュール101およびPPG推定器モジュール109を使用して人の皮膚の異なる領域の入力画像からPPG波形(「PPG信号」とも称される)を生成することができるモジュール式のフレームワークに対応する。さらに、このPPG波形を使用して、人の1つまたは複数のバイタルサインを正確に推定することができる。いくつかの実施形態では、時系列抽出モジュール101およびPPG推定器モジュール109の一方または両方は、ニューラルネットワークを使用して実現され得る。
いくつかの実施形態では、iPPGシステム100は、人の皮膚を照明するように構成された近赤外(NIR)光源と、モノクロ映像105(NIR映像105とも称される)を取り込むように構成されたカメラとを含み得る。NIR映像105は、1人または複数人の人の少なくとも1つの身体部位(人の顔など)を取り込む。説明を容易にするために、NIR映像105は人の顔を取り込むものとする。NIR映像105は、複数のフレームを含む。したがって、NIR映像105における各フレームは、人の顔の画像107を含む。動作時、iPPGシステム100は、NIR映像105などの入力を取得する。いくつかの実施形態では、NIR映像105の各フレームにおける画像107は複数の空間領域103に区画割りされ、複数の空間領域103は共同で分析されて、PPG波形が正確に決定される。
図1Dは、iPPGシステム100がRGB映像106(赤色(R)カラーチャネル、緑色(G)カラーチャネルおよび青色(B)カラーチャネルを含むのでそのように呼ばれる)などのカラー映像を取り込むためのカラーカメラを含み得る代替的な実施形態を示すブロック図である。RGB映像106は、1人または複数人の人の少なくとも1つの身体部位(人の顔など)を取り込む。
説明を容易にするために、RGB映像106は人の顔を取り込むものとする。RGB映像106は、複数のフレームを含む。したがって、RGB映像106における各フレームは、人の顔の画像107を含む。この実施形態では(図1Cに示される実施形態とは異なって)、画像107はRGB画像である。動作時、iPPGシステム100は、RGB映像106などの入力を取得する。いくつかの実施形態では、RGB映像の各フレームにおけるRGB画像108は、赤色(R)チャネル、緑色(G)チャネルおよび青色(B)チャネルに分割される。各チャネルは複数の空間領域103に区画割りされ、複数の空間領域103は共同で分析されて、PPG波形が正確に決定される。いくつかの好ましい実施形態では、各空間領域に対応する画素位置は、カラーチャネル全体で一貫している。
各画像107の区画割り(セグメンテーション)は、検討対象の身体部位の特定のエリアが最も強いPPG信号を含む、という認識に基づく。例えば、最も強いPPG信号を含む顔の特定のエリア(「関心領域(ROI:Region Of Interest)」とも称され、単に「領域」とも称される)は、額、頬および顎の周りに位置するエリアを含む(図1Aに図示)。したがって、画像セグメンテーションは、推定された顔ランドマーク位置に基づくセグメンテーション、セマンティックセグメンテーション、顔の構文解析、閾値セグメンテーション、エッジベースのセグメンテーション、領域ベースのセグメンテーション、ウォーターシェッドセグメンテーション、クラスタリングベースのセグメンテーションアルゴリズム、およびセグメンテーションのためのニューラルネットワークなどの少なくとも1つの画像セグメンテーション技術を使用して実行され得る。
各画像107の区画割りは、複数の空間領域103の異なる空間領域を含む画像のシーケンスをもたらし、各空間領域は、人の皮膚のそれぞれの部分を含む。例えば、人の顔のNIR映像105およびRGB映像106において、映像の各フレームにおける画像107は、人の顔に対応し、画像107を区画割りすることによって形成された画像のシーケンスにおける複数の空間領域103は、人の皮膚のエリアに対応し得る。さらに、複数の空間領域103の各空間領域は、PPG信号の決定に使用される。髪(額にかかる前髪など)、顔の毛、物体(サングラスなど)、別の身体部位(手など)、および、顔の一部が画像の中で見えないようにする頭部姿勢またはカメラ姿勢などの1つまたは複数の遮蔽物に起因し得る顔の一部の遮蔽のために、いくつかの領域は、皮膚を含まない場合があり、または部分的にしか皮膚を含まない場合があり、これにより、それらの領域からの信号の品質が阻害されたり弱くなったりする可能性がある。
いくつかの実施形態は、人の皮膚の強度(例えば、画像における画素強度)の測定の際のノイズに対するPPG信号の感度が、少なくとも部分的に、異なる空間位置(または、空間領域)において測定された人の皮膚の強度からPPG信号を独立して推定することによって引き起こされる、という認識に基づく。さらに、いくつかの実施形態は、例えば人の皮膚の異なる領域などの異なる位置において測定強度が異なる測定ノイズにさらされる可能性がある、という認識に基づく。PPG信号が各空間領域における強度から独立して推定される(例えば、ある皮膚領域における強度から推定されたPPG信号が他の皮膚領域からの強度または推定信号から独立して推定される)場合、それぞれの推定値の独立性により、推定器は、PPG信号を決定する際の精度に影響を及ぼすこのようなノイズを識別することができない場合がある。
ノイズは、照明変動、人の動きなどのうちの1つ以上に起因し得る。いくつかの実施形態は、心臓の鼓動が、皮膚の異なる領域に存在する強度変動の共通する原因である、というさらなる認識に基づく。したがって、独立した推定が、人の皮膚の異なる領域における強度から測定されたPPG信号の共同推定と置換されると、バイタルサインの推定の品質に対するノイズの影響を減少させることができる。
したがって、iPPGシステム100は、ノイズの影響を減少させるようにバイタルサインを推定するために複数の空間領域103を共同で分析し、バイタルサインは、人の脈拍数および人の心拍数変動(「心臓鼓動信号」とも称される)のうちの1つまたはそれらの組み合わせである。いくつかの実施形態では、人のバイタルサインは、ある時系列における各瞬間の一次元信号である。
いくつかの実施形態は、時間分析を採用することによってバイタルサインを正確に推定することができる、という認識に基づく。したがって、iPPGシステム100は、人の皮膚の異なる領域に対応する画像のシーケンスから少なくとも1つの多次元時系列信号を抽出するように構成されており、この時系列信号を使用してPPG信号が決定されてバイタルサインが正確に推定される。
そのために、iPPGシステム100は、時系列抽出モジュール101を使用する。
時系列抽出モジュール:
いくつかの実施形態では、時系列抽出モジュール101は、NIR映像105の複数のフレームの画像のシーケンスを受信して、これらの画像のシーケンスから多次元時系列信号を抽出するように構成される。いくつかの実施形態では、時系列抽出モジュール101はさらに、NIRモノクロ映像105のフレームからの画像107を複数の空間領域103に区画割りして、複数の空間領域103に対応する多次元時系列を生成するように構成される。
他の実施形態では、時系列抽出モジュール101は、RGB映像106の複数のフレームの画像のシーケンスを受信して、これらの画像のシーケンスから多次元時系列信号を抽出するように構成される。いくつかの実施形態では、時系列抽出モジュール101はさらに、RGB映像106のフレームからの画像107を赤色(R)チャネル、緑色(G)チャネルおよび青色(B)チャネルに区画割りするように構成される。いくつかの実施形態では、時系列抽出モジュール101はさらに、画像のRチャネル、GチャネルおよびBチャネルの各々を複数の空間領域103に区画割りして、これらの複数の空間領域103に対応する多次元時系列を生成するように構成される。
画像のシーケンスにおける画像107は、人の皮膚の異なる領域を含み得て、各領域は、皮膚の色の変動を示す異なる強度の画素を含む。図1Aは顔に位置する皮膚領域(顔領域)を示しているが、さまざまな実施形態は顔を使用することに限定されるものではない、ということが理解される。いくつかの実施形態では、人の首または手首などの露出した皮膚の他の領域に対応する画像のシーケンスが、時系列抽出モジュール101によって取得されて処理され得る。
いくつかの実施形態では、NIRモノクロ映像105から取得された多次元時系列信号の各次元は、画像107における人の皮膚の複数の空間領域からのそれぞれの空間領域に対応する。
いくつかの実施形態では、RGB映像106から取得された多次元時系列信号の各次元は、画像107における人の皮膚の複数の空間領域からのそれぞれのカラーチャネルおよびそれぞれの空間領域に対応する。
さらに、いくつかの実施形態では、各次元は、人の皮膚の複数の空間領域の、明示的に追跡された(代替的には、各フレームにおいて明示的に検出された)関心領域(ROI)からの信号である。追跡(代替的には、検出)は、動き関連のノイズの量を減少させる。しかし、多次元時系列は、ランドマーク位置確定誤差、ライティング変動、3D頭部回転、および顔の表情などの変形などの要因に起因して相当なノイズを依然として含んでいる。
ノイズの混ざった多次元時系列信号から対象の信号(PPG信号)を回復させるために、多次元時系列信号は、PPG推定器モジュール109に提供される。
PPG推定器モジュール:
PPG推定器モジュール109は、ノイズの混ざった多次元時系列信号からPPG信号を回復させて出力する(111)ように構成される。さらに、PPG信号に基づいて、人のバイタルサインが判断される。
PPG推定器モジュール109によって取得される時系列信号の準周期的な性質を考慮して、PPG推定器モジュール109のアーキテクチャは、異なる時間分解能で時間的特徴を抽出するように設計される。そのために、PPG推定器モジュール109は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、ディープニューラルネットワーク(DNN:Deep Neural Network)などのニューラルネットワークを使用して実現される。
いくつかの実施形態では、本開示は、PPG推定器モジュール109のためのTURNIP(Time-series U-net with RecurreNce for Imaging PPG)アーキテクチャを提案する。図1Bは、RNNアーキテクチャと結合されたU-netアーキテクチャに基づくTURNIPアーキテクチャを示す図である。
いくつかの実施形態は、U-netが画像セグメンテーションなどの画像処理アプリケーションで使用された畳み込みネットワークアーキテクチャである、という認識に基づく。U-netアーキテクチャは、「U」字型のアーキテクチャであり、U-netアーキテクチャは、U-netアーキテクチャの左側の収縮経路と、U-netアーキテクチャの右側の拡張経路とを含む。U-Netアーキテクチャは、収縮経路に対応するエンコーダネットワークと、拡張経路に対応するデコーダネットワークとに大きく分類することができ、エンコーダネットワークの後にデコーダネットワークが続く。
エンコーダネットワークは、U-netアーキテクチャの前半を形成する。U-netアーキテクチャが一般的に使用される画像処理アプリケーションでは、エンコーダは、一連の空間畳み込み層で構成され、複数の異なるレベルにおいて入力画像を特徴表現に符号化するために最大値プーリングダウンサンプリング層を有し得る。
デコーダネットワークは、U-netアーキテクチャの後半を形成し、一連の畳み込み層およびアップサンプリング層を含む。デコーダネットワークの目的は、エンコーダネットワークによって学習された(低分解能の)特徴を元の(高分解能の)空間に意味論的に投影し直すことである。U-netアーキテクチャが一般的に使用される画像処理アプリケーションでは、畳み込み層は空間畳み込みを使用し、入力空間および出力空間は画像画素空間である。
いくつかの実施形態は、PPG推定器モジュール109(「PPG推定器ネットワーク」とも称される)の入力が多次元時系列であり、所望の出力がバイタルサインの一次元時系列である、という認識に基づく。したがって、いくつかの好ましい実施形態では、時系列U-net109aのエンコーダサブネットワークおよびデコーダサブネットワークの畳み込み層は、時間畳み込みを使用する。
いくつかの実施形態は、再帰型ニューラルネットワーク(RNN)が、ノード間の接続が時間シーケンスに沿って有向グラフを形成する一種の人工ニューラルネットワーク(ANN)である、というさらなる認識に基づく。有向グラフは、RNNが時間の動的な挙動を示すことを可能にする。順伝播型ニューラルネットワークとは異なって、RNNは、それらの内部状態(メモリ)を使用して入力の可変長シーケンスを処理することができる。したがって、RNNは、過去の入力の重要な特徴を覚えていることが可能であり、このことは、RNNが時間パターンをより正確に決定することを可能にする。したがって、RNNは、シーケンスおよびそのコンテキストのはるかに深い理解を形成することができる。それ故に、RNNは、時系列などのシーケンシャルなデータに使用することができる。
iPPGシステム100の提案されているTURNIPアーキテクチャのいくつかの実施形態では、U-Netアーキテクチャが時系列データに適用される。いくつかの実施形態では、パススルー接続は、1×1畳み込みを組み込む。以前のU-Netとは異なって、TURNIPでは、パススルー接続は、RNNを使用して時間再帰を組み込むように修正される。そのため、PPG推定器モジュール109は、再帰型ニューラルネットワーク(RNN)109bに結合された時系列U-Netニューラルネットワーク(「U-net」とも称される)109aを含む。U-net109aとRNN109bとは、結合されて多次元時系列データを処理してPPG波形を正確に決定し、このPPG波形を使用して人のバイタルサインが推定される。TURNIPアーキテクチャを使用した提案されているiPPGシステム100の仕組みに関するさらなる詳細については、図1B~図1Jを参照してさらに詳細に以下で説明する。
図1Bは、例示的な実施形態に係る、iPPGシステム100の機能図である。図1Bは、図1Aと併せて説明される。iPPGシステム100は、最初に、人の身体部位(例えば、顔)の1つまたは複数の映像を受信する。1つまたは複数の映像は、近赤外(NIR)映像であり得る。いくつかの実施形態では、iPPGシステム100は、NIR照明源とカメラとを含み、NIR照明は、カメラが人の特定の身体部位の1つまたは複数のNIR映像を記録することができるように人の身体部位をNIR光で照明するように構成される。1つまたは複数のNIR映像は、TURNIPアーキテクチャを使用してPPG波形を決定するのに使用される。
そのために、iPPGシステム100は、1つまたは複数の映像の各NIR映像105について、NIR映像105の画像フレームのシーケンスの各々から画像(例えば、画像107)を取得する。各画像は、複数の空間領域(例えば、空間領域103)に区画割りまたはセグメント化され、その結果、空間領域が身体部位の異なるエリアに対応する画像のシーケンスが得られる。画像107の区画割りは、各空間領域が、PPG信号を強く示し得る身体部位の特定のエリアを含むように実行される。そのため、複数の空間領域103の各空間領域は、PPG信号を決定するための関心領域(ROI)である。さらに、各空間領域について、時系列抽出モジュール101を使用して時系列信号が導き出される。
例示的な実施形態では、各NIR映像105について、時系列抽出モジュール101は、48個の顔領域(ROI)の経時的な画素強度に対応する48次元時系列を抽出し、これらの顔領域は、複数の空間領域103に対応する。いくつかの実施形態では、多次元時系列信号は、48個よりも多くのまたは少ない顔領域に対応する48次元よりも多くのまたは少ない次元を有していてもよい。
いくつかの実施形態では、画像内の人の特定の身体部位に関連付けられたROIを抽出するために、人の特定の身体部位に対応する複数のランドマーク位置が映像の各画像フレーム107において位置確定される。したがって、これらの複数のランドマーク位置は、PPG信号の決定に使用される身体部位によって変わる可能性がある。例示的な実施形態では、人の顔がPPG信号の決定に使用される場合、人の顔に対応する68個のランドマーク位置(すなわち、68個の顔ランドマーク)が映像の各画像フレーム107において位置確定される。
いくつかの実施形態は、不完全なまたは一貫性のないランドマーク位置確定に起因して、後続のフレームにおける推定ランドマーク位置のモーションジッターが、領域の境界が1つのフレームから次のフレームへと小刻みに動くことを生じさせ、抽出された時系列にノイズが追加されることになる、という認識に基づく。このノイズの程度を小さくするために、複数のランドマーク位置は、ROI(例えば、48個の顔領域)を抽出する前に時間的に平滑化される。
したがって、いくつかの実施形態では、複数のランドマーク位置からROIを抽出する前に、複数のランドマーク位置は、移動平均技術などの平滑化技術を使用して経時的に平滑化される。特に、予め定められた長さの時間カーネルが複数のランドマーク位置に経時的に適用されて、各映像フレーム画像107における各ランドマークの位置が、カーネルの長さに対応する時間ウィンドウの範囲内の先行するフレームおよび後続のフレームにおけるランドマークの推定位置の加重平均として決定される。
例えば、一実施形態では、68個のランドマーク位置は、11個のフレームの長さのカーネルを用いて移動平均を使用して平滑化される。次いで、NIR映像105の各フレーム(すなわち、各画像107)における平滑化されたランドマーク位置を使用して、フレーム内の額、頬および顎の周囲に位置する48個のROIが抽出される。次いで、48個の空間領域の各空間領域における画素の平均強度がフレームについて計算される。このように、複数の空間領域103(または、ROI)における各領域の強度値が各画像から抽出され、フレームのシーケンス107(例えば、314個のフレームのシーケンス)についての複数の空間領域103からの強度値が多次元時系列を形成する。
時系列抽出モジュール101は、複数の空間領域103に対応する画像のシーケンス107を多次元時系列信号に変換するように構成される。いくつかの実施形態は、空間平均化が、映像(NIR映像105またはRGB映像106)を取り込んだカメラの量子化ノイズならびに人の頭および顔の動きに起因する軽微な変形などのノイズ源の影響を減少させる、という認識に基づく。そのために、ある瞬間における複数の空間領域(「異なる空間領域」とも称される)103の各空間領域からの画素の画素強度が平均されて、当該瞬間における多次元時系列信号の各次元について値が生成される。
いくつかの実施形態では、時系列抽出モジュール101はさらに、多次元時系列信号を時間的にウィンドウ化する(または、セグメント化する)ように構成される。したがって、多次元時系列信号の複数のセグメントが存在し得て、複数のセグメントの各セグメントの少なくとも一部は、複数のセグメントの後続のセグメントと重なり合って、重なり合うセグメントのシーケンスを形成する。さらに、セグメントの各々に対応する多次元時系列は、多次元時系列信号をPPG推定器モジュール109に投入する前に正規化され、PPG推定器モジュール109は、多次元時系列信号の重なりのシーケンスからの各セグメントを時系列U-Net109aを使用して処理し得る。
ウィンドウ化されたシーケンスは、推論中に特定のフレームストライドを備えた特定の期間(例えば、推論中に10個のフレームのストライドを備えた10秒期間(30fpsで300個のフレーム))を有し、ストライドは、後続のウィンドウ化されたシーケンス(例えば、10秒のウィンドウ化されたシーケンス)同士の間のフレーム数(例えば、10個のフレーム)の時間シフトを示す。
推定対象の人のバイタルサインが心臓鼓動信号である例示的なケースでは、心臓鼓動信号は、局所的に周期的であり、心臓鼓動信号の周期は経時的に変化する。そのようなケースでは、いくつかの実施形態は、10秒ウィンドウが現在の心拍数を抽出するための期間の良好な妥協点である、という認識に基づく。
いくつかの実施形態は、ストライドが長い方が、より大きなデータセットを使用した訓練にとってより効率的である、という認識に基づく。したがって、訓練中のウィンドウ化に使用される(フレームにおける)ストライドは、推論中のウィンドウ化に使用されるストライド(例えば、10個のフレーム)よりも長いであろう(例えば、60個のフレーム)。また、フレームにおけるストライドの長さは、推定対象の人のバイタルサインによって変更されてもよい。
いくつかの実施形態では、特定の期間(例えば、0.5秒)のプリアンブルが各ウィンドウに追加される。例えば、いくつかの追加のフレーム(例えば、14個)がウィンドウの冒頭の直前に追加され、その結果、より長い期間(例えば、314個のフレーム)の多次元時系列が得られる。
入力がNIR映像105であるいくつかの実施形態では、多次元時系列(例えば、時間シーケンスの48個の次元)がPPG推定器モジュール109にチャネルとして送り込まれる。PPG推定器モジュール109は、TURNIPアーキテクチャを形成する時系列U-net109aおよびRNN109bに関連付けられた層のシーケンスを含む。多次元時系列信号に対応するチャネルは、層のシーケンスの順方向パススルー中に組み合わせられる。PPG推定器モジュール109において、時系列U-Net109aは、RNN109bとともに、多次元時系列信号を所望のPPG信号にマッピングする。多次元時系列信号の各々のウィンドウ化されたシーケンス(例えば、10秒ウィンドウ)について、TURNIPアーキテクチャは、特定の時間分解能(例えば、3つの時間分解能)で畳み込み特徴を抽出する。特定の時間分解能は、予め規定され得る。
さらに、いくつかの実施形態では、TURNIPアーキテクチャは、入力された時系列を第1の係数だけダウンサンプリングし、その後、第2の係数だけダウンサンプリングし、第2の係数は追加の係数である。入力時系列をダウンサンプリングするための第1の係数および第2の係数は、予め規定され得る(例えば、第1の係数は3であってもよく、第2の係数は2であってもよい)。次いで、PPG推定器モジュール109は、決定論的な方法で所望のPPG信号を推定する。
TURNIPアーキテクチャ:
TURNIPアーキテクチャは、多次元時系列データに基づいてPPG信号を正確に決定するように少なくとも1つのデータセット上で訓練されるニューラルネットワーク(例えば、DNN)ベースのアーキテクチャである。時系列U-Net109aは、収縮層のシーケンスによって形成される収縮経路と、その後に続く拡張層のシーケンスによって形成される拡張経路とを含む。収縮層のシーケンスは、畳み込み層、最大値プーリング層およびドロップアウト層の組み合わせである。同様に、拡張層のシーケンスは、畳み込み層、アップサンプリング層およびドロップアウト層の組み合わせである。収縮層のうちの少なくともいくつかがそれらの入力多次元時系列信号をダウンサンプリングし、かつ拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成する。さらに、収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されている。複数の収縮層は、より低い時間分解能で入力データをシーケンスに符号化すると考えることができる符号化サブネットワークを形成する。一方、複数の拡張層は、符号化ネットワークによって符号化された入力データを復号すると考えることができる復号サブネットワークを形成する。さらに、少なくともいくつかの分解能で、符号化サブネットワークおよび復号サブネットワークは、パススルー接続によって接続されている。1×1畳み込みパススルー接続と並列に、特定の再帰型パススルー接続が含まれている。この特定の再帰型パススルー接続は、RNN109bを使用して実現される。RNN109bは、その入力をシーケンシャルに処理し、RNN109bは、パススルー層の各々に含まれている。
好ましい実施形態では、RNN109bは、ゲート付き再帰型ユニット(GRU:Gated Recurrent Unit)113を使用して時間再帰的な特徴を提供するように実現される。他の実施形態では、RNN109bは、長・短期記憶(LSTM:Long Short-Term Memory)アーキテクチャなどの異なるRNNアーキテクチャを使用して実現されてもよい。いくつかの実施形態は、GRUが標準的なRNNの進化版である、という認識に基づく。GRUは、ゲートを使用して情報のフローを制御し、LSTMとは異なって、GRUは、別個のセル状態(Ct)を持たない。GRUは、隠れ状態(Ht)のみを有する。GRUは、各タイムスタンプtにおいて、入力Xtと、前のタイムスタンプt-1からの隠れ状態Ht-1とを取り込む。その後、GRUは、新たな隠れ状態Htを出力し、次いで、この新たな隠れ状態Htは、次のタイムスタンプにおいてGRUに渡される。GRUには主に2つのゲートがある。第1のゲートはリセットゲートであり、もう一方は更新ゲートである。いくつかの実施形態は、GRUが、長・短期記憶(LSTM)ネットワークなどの他のタイプのRNNと比較して、アーキテクチャが単純であるために高速で訓練される、というさらなる認識に基づく。
収縮経路:
時系列U-net109aにおいて、収縮経路は、収縮層のシーケンスによって形成され、各収縮層は、畳み込み層、シングルダウンサンプリング畳み込み層およびドロップアウト層のうちの1つ以上の組み合わせを含む。ドロップアウト層は、層(例えば、畳み込み層)の過剰適合を減少させるために使用される正則化層であり、対応する層の一般化とともに使用されて対応する層の一般化を向上させる。ドロップアウト層は、ドロップアウト率とも称される特定の確率pで、ともに使用される層(例えば、畳み込み層)の出力をドロップする。ドロップアウト率は、予め規定されてもよく、またはTURNIPアーキテクチャの訓練に使用される訓練データセットに基づいてリアルタイムで算出されてもよい。例示的な実施形態では、それぞれのドロップアウト層のドロップアウト率(または、p)は0.3に等しい。
代替的に、いくつかの他の実施形態では、時系列U-net109aの収縮経路は、ドロップアウト層を含んでいなくてもよい。そのような実施形態では、収縮経路は、収縮層のシーケンスによって形成され、各収縮層は、畳み込み層およびシングルダウンサンプリング層のみのうちの1つ以上の組み合わせを含む。
さらに、TURNIPアーキテクチャのいくつかの実施形態では、収縮層のシーケンスは、5つの収縮層によって形成される。他の実施形態では、6つ以上の収縮層があってもよく、さらに他の実施形態では、4つ以下の収縮層があってもよい。5つの収縮層の中で、第1の収縮層116aは、2つの畳み込み層を含む。第1の収縮層116aは、その入力を処理し、当該入力は、複数のチャネルとして提供される多次元時系列信号であり、第1の収縮層116aによって生成されたマルチチャネル出力は、拡張経路における層のうちの1つ(例えば、第4の拡張層118d)に投入される。なお、収縮経路における全ての層を「収縮層」と称し、拡張経路における全ての層を「拡張層」と称しているが、いくつかの実施形態では、実際には全ての収縮層がその入力シーケンスの長さを収縮させるわけではない。例えば、図1Bに示される一実施形態では、第1の収縮層116aから出力されるシーケンスは、第1の収縮層116aに入力されるシーケンスと実質的に同一の長さを有する。なぜなら、第1の収縮層において実行される畳み込みではストライド=1であるからである。同様に、実際には全ての「拡張層」がその入力シーケンスの長さを拡張させるわけではない。例えば、第4の拡張層への入力および第4の拡張層の出力は、実質的に同一の長さを有する。
さらに、第2の収縮層116b、第3の収縮層116cおよび第4の収縮層116dの各々は、畳み込み層(時には「シングルダウンサンプリング層」と称されるが、上記のように、実際には全てのダウンサンプリング層がその入力の長さをダウンサンプリングするわけではないということに留意されたい)と、それに続く、特定のドロップアウト率(例えば、p=0.3)を有するドロップアウト層とを含む。図1Bに示される一実施形態では、第2の収縮層116b(その畳み込みはストライド=3を有する)および第4の収縮層116d(その畳み込みはストライド=2を有する)の各々は、そのストライドに等しい係数だけその入力をダウンサンプリングするが、第3の収縮層116cおよび第5の収縮層116eは、それらの入力をダウンサンプリングしない。この実施形態では、ダウンサンプリングは、各々のダウンサンプリング層の畳み込みのストライドによって実現されるが、代替的な実施形態では、ダウンサンプリングは、最大値プーリングまたは平均プーリングなどの他の手段を使用して実現されてもよい。第2の収縮層116bは、時系列抽出モジュール101によって抽出された多次元時系列信号に対応する入力チャネルを受信して、その出力を第3の収縮層116cおよび対応するパススルー層113aに投入する。さらに、第3および第4の収縮層の各々は、前の収縮層から対応する入力を受信して、対応する出力を対応する次の収縮層および対応するパススルー層の両方の層に投入する。
5つの収縮層のシーケンスにおける第5の最後の収縮層は、2つの畳み込み層と、それに続く、特定のドロップアウト率を有するドロップアウト層とを含む。第5の収縮層は、第4の収縮層から入力を受信して、その出力を拡張経路における拡張層のうちの1つ(例えば、第1の拡張層118a)に投入する。
拡張経路:
いくつかの実施形態では、拡張経路は、5つの拡張層のシーケンスを含む。図1Bに示される1つのそのような実施形態では、5つの拡張層のシーケンスにおいて、第1の拡張層118aは、アップサンプリング、その対応するパススルー層113cの出力との連結、およびその入力時系列に対する畳み込みを実行するように構成される。同様に、第3の拡張層118cは、アップサンプリング、その対応するパススルー層113aの出力との連結、およびその入力時系列に対する畳み込みを実行する。第2の拡張層118bおよび第4の拡張層118dの各々は、その対応するパススルー層の出力との連結およびその入力時系列に対する畳み込みを実行するように構成される。さらに、第4の拡張層は、特定のドロップアウト率(例えば、p=0.3)を有するドロップアウト層を含む。第5の拡張層は、畳み込み層と、それに続く、特定のドロップアウト率を有するドロップアウト層とで構成されている。第1の拡張層118aおよび第3の拡張層118cにおいて入力データをアップサンプリングするために、これら2つの拡張層の各々は、アップコンバータ動作を使用して、アップサンプリングされたデータをその対応する入力において生成する。さらに、このアップサンプリングされたデータは、連結に使用され、時間畳み込みは、これらの拡張層の各々である。
依然として図1Bを参照して、多次元時系列である、時系列抽出モジュール101の出力は、PPG推定器モジュール109にチャネルとして提供される。したがって、各収縮層は、特定のサイズ(例えば、サイズk=3のカーネル)および特定のストライド(例えば、ストライドs=1)のカーネルについて、いくつかの(Chan_in)入力チャネルをいくつかの(chan_out)出力チャネルに処理する。いくつかの例示的な実施形態では、第1の収縮層116は、Chan_in=48の入力チャネルと、Chan_out=64の出力チャネルとを有し得る。第1の収縮層116aの出力は、第4の拡張層118dに投入される。
同様に、第2の収縮層116b、第3の収縮層116c、第4の収縮層116dおよび第5の収縮層116eについて、入力チャネル、出力チャネル、カーネルおよびストライドが指定される。
例えば、図1Bに示される一実施形態では、第2の収縮層116bによって実行される畳み込みは、48個の入力チャネルおよび64個の出力チャネルを有し、カーネルサイズk=9およびストライドs=3である。第2の収縮層116bの出力は、第3の収縮層116cおよび第1のパススルー層113aに送り込まれる。
第1のパススルー層113aなどの各パススルー層は、1×1畳み込みの層117とGRU113などのRNNとで構成されており、それらのそれぞれの出力は、連結されて(115)、次いで拡張経路の対応する層に渡される。
第3の収縮層116cは、64個の入力チャネルおよび128個の出力チャネルと、サイズk=7であってストライドs=1である畳み込みカーネルとを有する。第3の収縮層116cの出力は、収縮経路の第4の収縮層116dおよび第2のパススルー層113bに提供され、その出力は、拡張経路の対応する層118bに渡される。第4の収縮層116dは、128個の入力チャネルおよび256個の出力チャネルと、サイズが7であってストライドが1であるカーネルを使用した畳み込みとを有し、第4の収縮層116dの出力は、収縮経路の第5の収縮層116eおよび第3のパススルー層113cに提供され、第3のパススルー層113cは、その出力を対応する拡張層118bに渡す。収縮経路の最終段階において、第5の収縮層116eは、256個の入力チャネルおよび512個の出力チャネルと、サイズが7であってストライドが1である畳み込みカーネルとを有する。さらに、第5の収縮層116eの出力は、拡張経路の第1の拡張層118aに提供される。
第1の拡張層118aは、2つの入力を取得し、第1の入力は、第5の収縮層116eから取得され、第2の入力は、第3のパススルー層113cの出力から取得される。第1の拡張層118aは、その入力を処理して、その出力を第2の拡張層118bに渡す。第2の拡張層118bも2つの入力を取得し、第1の入力は、第1の拡張層118aの出力に対応し、第2の入力は、第2のパススルー層113bの出力に対応する。
同様に、第3の拡張層118cの第1の入力は、第2の拡張層118bの出力に対応し、第3の拡張層118cの第2の入力は、第1のパススルー層113aの出力に対応する。さらに、第3の拡張層118cの出力は、第4の拡張層118dに提供される。
第4の拡張層118dは、第3の拡張層118cから第1の入力を取得し、第1の収縮層116aから第2の入力を取得する。第4の拡張層の出力は、(例えば、64個のチャネルから1個のチャネルへの)チャネル縮小を実行する第5の拡張層に提供され、その後にドロップアウト層が続く。
いくつかの実施形態では、第5の拡張層118eの出力は、PPG推定器モジュール109の最終的な出力である。この出力(例えば、PPG波形を推定する一次元時系列)を使用して、iPPGシステム100の出力111が取得される。
各時間尺度において、時系列U-net109aの畳み込み層は、時系列ウィンドウ(例えば、10秒ウィンドウ)からの全てのサンプルを並列に処理する。(各畳み込みの各出力時間ステップを取得する計算は、畳み込みの他の出力時間ステップの対応する計算と並列に実行され得る。)これに対して、提案されているRNN層(例えば、GRU層113)は、時間サンプルをシーケンシャルに処理する。この時間再帰は、時系列U-net109aの拡張経路の各層における時間受容野を拡張する効果を有する。
例えば、図1Bに示される実施形態では、GRU113が10秒ウィンドウにおける全ての時間ステップを通して実行された後、結果として得られる隠れ状態のシーケンスは、より標準的なパススルー層(1×1畳み込み)117の出力と連結される(115)。GRU113の隠れ状態は、各10秒ウィンドウについて再初期化されて、GRU113に送り込まれる。
PPG信号を決定するためにiPPGシステム100によって実行されるステップに関するさらなる詳細については、図1Cを参照して以下で説明する。
図1Cは、例示的な実施形態に係る、iPPGシステム100によって実行される方法119のステップを示す図である。ステップ119aにおいて、人のNIRモノクロ映像(例えば、NIR映像105)が受信される。NIR映像105は、人の顔または人のその他の身体部位を含み得て、その皮膚は、映像を記録するカメラに露出されている。iPPGシステム100は、NIR映像105を記録するために、人の皮膚を照明するように構成されたNIR光源を含み得る。さらに、iPPGシステム100は、異なる瞬間における皮膚の色の変動を示す強度を測定するように構成され得て、各瞬間は、映像フレーム、すなわち画像のシーケンスにおける画像に対応する。
そのために、入力されたNIR映像の各フレームに対応する画像は、異なる領域にセグメント化され、これらの異なる領域は、画像における人の皮膚の異なる部分に対応する。人の皮膚の異なる領域は、ランドマーク検出を使用して識別することができる。例えば、人の身体部位が人の顔である場合、顔の異なる領域は、顔ランドマーク検出を使用して取得することができる。
ステップ119bにおいて、iPPGシステム100の時系列抽出モジュール101によって、人の皮膚の異なる領域を含む画像のシーケンスが受信される。
ステップ119cにおいて、時系列抽出モジュール101によって画像のシーケンスが多次元時系列信号に変換される。そのために、(例えば、1つの映像フレーム画像107における)ある瞬間における複数の空間領域103(「異なる空間領域」とも称される)の各空間領域からの画素の画素強度が平均されて、当該瞬間における多次元時系列信号の各次元について値が生成される。
ステップ119dにおいて、TURNIPアーキテクチャを形成するパススルー層における再帰型ニューラルネットワーク109bと結合された時系列U-net109aによって多次元時系列信号が処理される。多次元時系列信号は、TURNIPアーキテクチャの異なる層によって処理されて、PPG波形が生成され、このPPG波形は、いくつかの実施形態では、一次元(1D)時系列として表現される。
ステップ119eにおいて、人の心臓の鼓動または脈拍数などのバイタルサインがPPG波形に基づいて推定される。いくつかの実施形態では、iPPGシステム100の出力111は、バイタルサインを含む。
このように、PPG推定器モジュール109は、NIR映像105から抽出された多次元時系列信号からPPG信号を推定する。そのために、TURNIPアーキテクチャの各層において多次元時系列信号に対して時間畳み込みが実行される。時間畳み込みに関するさらなる詳細については、図2A~図2Cに関して以下に記載されている。さらに、いくつかの実施形態では、推定されたバイタルサイン信号は、ディスプレイデバイスなどの出力デバイス上でレンダリングされる。いくつかの実施形態では、推定されたバイタルサインはさらに、バイタルサインが推定される人に関連付けられた1つまたは複数の外部機器の動作の制御に利用され得る。
マルチチャネル映像からの時系列抽出:
図1Aおよび図1Cに示される実施形態などのいくつかの実施形態では、iPPGシステム100または方法119は、入力としてシングルチャネルNIR映像105などのシングルチャネル映像から開始する。これらの図および対応する上記の説明は、シングルチャネルNIR映像に適用されるが、同じ考え方は、モノクログレースケールカメラセンサまたは熱赤外カメラセンサを使用して収集される映像などの他のシングルチャネル映像にも同様に適用可能であるということが理解されるべきである。
しかし、他の実施形態では、iPPGシステムまたは方法は、マルチチャネル映像から開始する。本明細書におけるマルチチャネル画像の記述は、主に、マルチチャネル映像の一例としてRGB映像(すなわち、赤色カラーチャネル、緑色カラーチャネルおよび青色カラーチャネルを有する映像)について記載している。しかし、同じ考え方は、マルチチャネルNIR映像、RGB-NIR4チャネル映像、マルチスペクトル映像、およびYUV映像などのRGBとは異なる色空間表現を使用して格納されるカラー映像、またはBGRなどのRGBカラーチャネルの異なる並べ替えなどの他のマルチチャネル映像入力にも同様に適用可能であるということが理解されるべきである。
RGB映像などのマルチチャネル映像では、時系列抽出モジュールがマルチチャネル映像から時系列を抽出するための方法が複数あり、実施形態が異なれば、マルチチャネル映像からの時系列抽出方法も異なる。図1E~図1Hは、各々が本発明の異なる実施形態で使用されるこれらの方法のうちのいくつかを示している。
図1Eは、入力がRGB映像106である例示的な実施形態を示す図である。この実施形態では、カラーチャネルのうちの1つだけ除いて全てが無視され、時系列抽出モジュール101は、NIR映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、例えば緑色(G)チャネルなどのたった1つのチャネルから多次元時系列を抽出する。緑色チャネルが使用される理由は、赤色、緑色および青色の3つのカラーチャネルのうち、緑色チャネルの強度が、iPPGによって検出される血液量変化によって最も影響を受けるものであることが分かっているからである。モノクロの場合のように、時系列抽出モジュール101の出力は、PPG推定器109に送り込まれる。多次元時系列の各次元は、それを入力チャネルとして扱うことによってPPG推定器109に送り込まれる。このアプローチの不利点は、他の2つのカラーチャネルにおける全ての情報を無視するというものである。例えば、1つのカラーチャネルではなく3つのカラーチャネルを使用することは、(他の2つのカラーチャネルよりも緑色チャネルに影響を及ぼす)拍動性の血液量変化に起因する強度変化と、(例えば、より均等に3つ全てのカラーチャネルに影響を及ぼし得る)被験者の動きおよび全体的なライティング変化などの迷惑要因に起因する強度変化とを区別するのに役立ち得る、ということが実証されている。
図1Fは、NIR映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、Rチャネル、GチャネルおよびBチャネルの各々から多次元時系列(例えば、48個のROIに対応する48個の次元を有する時系列)が抽出される例示的な実施形態を示す図である。この結果、赤色チャネル(「R chan」)、緑色チャネル(「G chan」)および青色チャネルの各々から抽出された多次元時系列(例えば、48チャネル時系列)が得られる。これら3つのマルチチャネル時系列は、チャネル次元に沿って連結されて、(例えば、3・48=144個のチャネルを有する)単一の多次元時系列が形成されて、PPG推定器109に送り込まれる。多次元時系列の各次元は、それを入力チャネルとして扱うことによってPPG推定器109に送り込まれる。このアプローチの1つの不利点は、連結が、異なるチャネルによって同一のROIから取得されるチャネル間の対応関係を不明瞭にするというものである。
図1Gは、NIR映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、Rチャネル、GチャネルおよびBチャネルの各々から多次元時系列(例えば、48個のROIに対応する48個の次元を有する時系列)が抽出される別の例示的な実施形態を示す図である。この結果、やはり、赤色チャネル(「R chan」)、緑色チャネル(「G chan」)および青色チャネルの各々から抽出された多次元時系列(例えば、48チャネル時系列)が得られる。この場合、カラーチャネルR、GおよびBの各々からの多次元時系列は、線形結合されて、次元が各チャネルの多次元時系列の次元と同一である(例えば、48個のチャネル×314個の時間ステップ)単一の多次元時系列が形成され、PPG推定器109に送り込まれる。いくつかの実施形態では、線形結合に使用される係数は、ニューラルネットワークのパラメータとともに学習される。他の実施形態では、これらの係数は、例えばRGBからグレースケールへの標準的な色空間変換に基づくなど、演繹的に選択されてもよい。多次元時系列の各次元は、それを入力チャネルとして扱うことによってPPG推定器109に送り込まれる。このアプローチの1つの不利点は、3つのカラーチャネルを組み合わせて1つにするために単一の線形結合を学習することしかできないというものである。全ての領域で同一の線形結合を使用しなければならず、この線形結合はデータから独立している(例えば、同一の線形結合が、全ての肌の色の全ての被験者によって、全てのライティング状況において使用されなければならない)。
図1Hは、NIR映像などのシングルチャネル映像から多次元時系列を抽出するための本明細書に記載されている方法と同様の方法を使用して、Rチャネル、GチャネルおよびBチャネルの各々から多次元時系列(例えば、48個のROIに対応する48個の次元を有する時系列)が抽出される代替的な実施形態を示す図である。この結果、やはり、赤色チャネル(「R chan」)、緑色チャネル(「G chan」)および青色チャネルの各々から抽出された多次元時系列(例えば、48チャネル時系列)が得られる。この場合、カラーチャネルR、GおよびBの各々からの多次元時系列は、3Dテンソルとしても知られている三次元(3D)配列に成形される。この配列の3つの次元は、時間(例えば、314個の時間ステップ)、顔領域(例えば、48個の領域チャネル)およびカラーチャネル(例えば、3つのカラーチャネル)に対応する。この配列は、PPG推定器109への入力を形成する。第1および第2の収縮層の畳み込みカーネルは、各層の出力において色次元が単一の次元に折りたたまれるように構築される。このアプローチは、図1E~図1Hに記載されているアプローチの不利点を克服することができる。
図1Iは、例示的な実施形態に係る、iPPGシステム100によって実行される方法120のステップを示す図である。例えばRGB映像などのマルチチャネル映像が受信される(120a)。ステップ120aにおいて、人のRGB映像(例えば、RGB映像106)が受信される。RGB映像106は、人の顔または人のその他の身体部位を含み得て、その皮膚は、映像を記録するカメラに露出されている。さらに、iPPGシステム100は、異なる瞬間における皮膚の色の変動を示す強度を測定するように構成され得て、各瞬間は、映像フレーム、すなわち画像のシーケンスにおける画像に対応する。
そのために、入力されたNIR映像の各フレームに対応する画像は、異なる領域にセグメント化され、これらの異なる領域は、画像における人の皮膚の異なる部分に対応する。人の皮膚の異なる領域は、ランドマーク検出を使用して識別することができる。例えば、人の身体部位が人の顔である場合、顔の異なる領域は顔ランドマーク検出を使用して取得することができる。
ステップ120bにおいて、iPPGシステム100の時系列抽出モジュール101によって、人の皮膚の異なる領域を含む画像のシーケンスが受信される。
ステップ120cにおいて、時系列抽出モジュール101によって画像のシーケンスが多次元時系列信号に変換される。そのために、(例えば、1つの映像フレーム画像107における)ある瞬間における複数の空間領域103(「異なる空間領域」とも称される)の各空間領域からの画素の各カラーチャネルにおける画素強度が平均されて、当該瞬間におけるカラーチャネルの多次元時系列信号の各次元について値が生成される。例えば図1E~図1Hに記載された方法のうちの1つを使用して、カラーチャネル多次元時系列から単一の多次元時系列が抽出される。
ステップ120dにおいて、TURNIPアーキテクチャを形成するパススルー層における再帰型ニューラルネットワーク109bと結合された時系列U-net109aによって多次元時系列信号が処理される。多次元時系列信号は、TURNIPアーキテクチャの異なる層によって処理されて、PPG波形が生成され、このPPG波形は、いくつかの実施形態では、一次元(1D)時系列として表現される。
ステップ120eにおいて、人の心臓の鼓動または脈拍数などのバイタルサインは、PPG波形に基づいて推定される。いくつかの実施形態では、iPPGシステム100の出力111は、バイタルサインを含む。
このように、PPG推定器モジュール109は、RGB映像106から抽出された多次元時系列信号からPPG信号を推定する。そのために、TURNIPアーキテクチャの各層において多次元時系列信号に対して時間畳み込みが実行される。時間畳み込みに関するさらなる詳細については、図2A~図2Cに関して以下に記載されている。さらに、いくつかの実施形態では、推定されたバイタルサイン信号は、ディスプレイデバイスなどの出力デバイス上でレンダリングされる。いくつかの実施形態では、推定されたバイタルサインはさらに、バイタルサインが推定される人に関連付けられた1つまたは複数の外部機器の動作の制御に利用され得る。
図2Aは、例示的な実施形態に係る、サイズが3であってストライドが1であるカーネルによって操作される入力チャネル201の時間畳み込みを示す図である。図2Bは、例示的な実施形態に係る、サイズが3であってストライドが2であるカーネルによって操作される入力チャネル201の時間畳み込みを示す図である。図2Cは、例示的な実施形態に係る、サイズが5であってストライドが1であるカーネルによって操作される入力チャネル201の時間畳み込みを示す図である。
図2Aにおいて、シングル入力チャネル(Ch_in=1)における時系列201は時系列U-net109aの畳み込み層のうちの1つ(例えば、第1の収縮層における畳み込み層)によって得られ、入力チャネル201の長さは10であるものとする。入力チャネル201は、時系列抽出モジュール101によってPPG推定器モジュール109に送り込まれる多次元時系列の1つの次元に対応する(例えば、入力チャネル201は一次元時系列シーケンスである)。さらに、入力チャネルを操作するために使用されるストライド値に基づいて、対応する出力203チャネルの長さは変更される。
入力チャネルx(t)201の図に描かれている各ブロックは1つの時間ステップにおけるチャネルの値を表すものとする。さらに、カーネルの各係数はk(τ)によって表されるものとする。畳み込み層による入力チャネル201に対する畳み込みに使用されるカーネルのサイズは3であるものとする。カーネルサイズが3であるので、カーネルは、τ=-1、0および1に対応する3つの係数を含む。さらに、カーネルは、ストライド値がs=1で入力チャネル201を横断する(または、移動する)ものとする(ストライド値は、「ストライド長」とも称され得る)。さらに、畳み込みの出力は、出力チャネルy(t)203において得られる。したがって、時間畳み込みは、以下のように算出される。
式中、τ=-1、0および1である。そのため、カーネル係数(「学習可能なフィルタ」とも称される)は、k(-1)、k(0)、k(1)である。
式中、τ=-1、0および1である。そのため、カーネル係数(「学習可能なフィルタ」とも称される)は、k(-1)、k(0)、k(1)である。
同様に、図2Bおよび図2Cにおいて、式(1)を使用して時間畳み込みが算出される。図2Bにおいて、カーネルサイズは3であり、図2Aで使用されたカーネルサイズと同一である。しかし、ストライドの長さは2に増加している。したがって、(チャネルy(t)における)出力時系列の長さは減少する。このように、図2Bにおける畳み込みは、入力を2分の1にダウンサンプリングする。
図3は、例示的な実施形態に係る、マルチチャネル入力に対する時間畳み込みを示す図である。マルチチャネル入力に対する時間畳み込みは、図2A~図2Cに示されるシングルチャネル入力に対する時間畳み込みに基づく。PPG推定器モジュール109は、マルチチャネル入力に対する時間畳み込みを使用し、マルチチャネル入力は、時系列抽出モジュール101によって出力される多次元時系列信号またはPPG推定器ネットワーク109の前の層によって出力される多次元時系列信号に対応する。
図3において、説明を容易にするために、3つの入力チャネルについて考える。しかし、PPG推定器モジュール109における畳み込みのための入力チャネルの数は、畳み込み層への多次元時系列入力の次元。例えば、多次元時系列信号が、48個の顔ROIに対応する48個の次元を有する場合、最初の2つの収縮層における畳み込みへのチャネル入力の数も48に等しい。
そのため、3つの入力チャネルは、入力特徴マップのチャネル1(「第1のチャネル」とも称される)301、入力特徴マップのチャネル2(「第2のチャネル」とも称される)303、および入力特徴マップのチャネル3(「第3のチャネル」とも称される)305である。第1のチャネル301はx(t)で表され、第2のチャネル303はy(t)で表され、第3のチャネル305はz(t)で表され、複数のチャネル(301~305)の時間畳み込み後に生成される出力チャネル307はo(t)で表されるものとする。さらに、カーネルサイズは3であるものとし、これは、ストライド値が4フレームで3つの入力チャネル(301~305)の各々を移動する。複数の入力チャネル(301~305)に対する時間畳み込みは、各入力チャネルについて式(1)に基づいて算出される。時間畳み込みは、出力特徴マップのチャネルと同数のフィルタを用いて実行される。いくつかの実施形態では、学習可能なバイアスも各フィルタの出力に追加される。いくつかの実施形態では、時間畳み込みのうちの少なくとも1つの後に、正規化線形ユニット(RELU:Rectified Linear Unit)またはシグモイド活性化関数などの非線形活性化関数が続く。
さらに、時間畳み込みの出力は、パススルー層(図1B)を介してRNN109bに渡され、RNN109bへの入力は、シーケンシャルに処理される。
図4は、例示的な実施形態に係る、RNN109bによって(例えば、図1BにおけるGRU113によって)実行されるシーケンシャルな処理を示す図である。RNN109bは、入力多次元時系列401からのデータをシーケンシャルに処理するように構成されており、入力多次元時系列401の次元(時間×入力チャネル)は、それぞれ、入力時系列における時間ステップの数および入力時系列におけるチャネルの数を表す。そのために、入力時系列401は、各々が入力時系列401と同数のチャネルを有する複数のより短い時間ウィンドウ405に再成形される。次いで、ウィンドウ405は、RNN109bにシーケンシャルに渡される。好ましい実施形態では、RNN109bは、GRU(GRU113など)として実現される。代替的に、いくつかの実施形態では、RNN109bは、長・短期記憶(LSTM)ニューラルネットワークを使用して実現されてもよい。
RNNが入力時系列401のより短い時間ウィンドウ405を全てシーケンシャルに処理した後、RNN109bのシーケンシャルな出力407はより長い時間ウィンドウに再積層されて、RNNの出力時系列403が形成され、出力時系列403の次元(時間×入力チャネル)は、それぞれ、出力時系列における時間ステップの数(いくつかの実施形態では、入力時系列における時間ステップの数と同一である)および出力時系列におけるチャネルの数を表す。いくつかの実施形態では、出力時系列への出力407の再積層は、図4に示される積層の順序とは逆の順序であり得る。
入力時系列401全体がシーケンシャルにRNNを通過して、出力時系列403に再積層されると、並列(すなわち、本質的にシーケンシャルではない)計算を使用して実行されたより標準的なU-netパススルー(例えば、図1Bにおける1×1畳み込み117)を使用して同一の入力時系列を処理することによって得られた時系列出力と連結される(例えば、図1Bにおける連結115)準備ができていることになる。
各時間尺度において、時系列U-net109aの畳み込み層は、時系列ウィンドウ(例えば、10秒ウィンドウ)からの全てのサンプルを並列に処理する。(各畳み込みの各出力時間ステップを取得する計算は、畳み込みの他の出力時間ステップの対応する計算と並列に実行され得る。)これに対して、提案されているRNN層(例えば、GRU層113)は、時間サンプルをシーケンシャルに処理する。この時間再帰は、時系列U-net109aの拡張経路の各層における時間受容野を拡張する効果を有する。
このように、RNN109bのシーケンシャルな時間処理は、時系列U-Net109aの時間的に並列な処理と結合されることにより、PPG推定器モジュール109が多次元時系列信号からPPG信号をより正確に推定することが可能になる。
いくつかの実施形態は、940nmの近赤外周波数を含む狭周波数帯域において、NIRカメラによって観察される信号がRGBカメラなどの色強度カメラによって観察される信号よりも大幅に弱い、という認識に基づく。しかし、iPPGシステム100は、そのような弱い強度の信号を、バンドパスフィルタを使用することによって処理するように構成される。バンドパスフィルタは、異なる空間領域の各空間領域の画素強度の測定値をノイズ除去するように構成される。推定されたiPPG信号へのNIR信号の処理に関するさらなる詳細については、図5を参照して以下で説明する。
図5は、例示的な実施形態に係る、スペクトルのNIR部分を使用して取得されたPPG信号周波数スペクトルとスペクトルの可視部分(RGB)を使用して取得されたPPG信号周波数スペクトルとの比較のためのプロットを示す図である。図5から分かるように、NIRにおけるiPPG信号501(凡例では「NIR iPPG信号」と表記)は、RGBにおけるiPPG信号503(「RGB iPPG信号」と表記)よりも約10倍弱い。したがって、いくつかの実施形態では、iPPGシステム100は、人の皮膚を照明するための、第1の周波数帯域において照明を提供する近赤外(NIR)光源と、皮膚のある領域の測定された強度が皮膚の当該領域の画像の画素の強度から計算されるように、第1の周波数帯域と重複する第2の周波数帯域において異なる領域の各々の強度を測定するためのプロセッサを含むカメラとを含む。
いくつかの実施形態では、第1の周波数帯域および第2の周波数帯域は、940nmの近赤外周波数を含む。iPPGシステム100は、異なる領域の各々の強度の測定値をノイズ除去するためのフィルタを含み得る。そのために、ロバスト主成分分析(RPCA:Robust Principal Components Analysis)などの技術を使用することができる。一実施形態では、第2の周波数帯域は、20nm未満の幅の通過帯域を有しており、例えば、バンドパスフィルタは、半値全幅(FWHM:Full Width at Half Maximum)が20nm未満である狭い通過帯域を有している。言い換えれば、第1の周波数帯域と第2の周波数帯域との間の重複は、幅が20nm未満である。
いくつかの実施形態は、バンドパスフィルタおよびロングパスフィルタ(すなわち、カットオフ周波数未満の波長を有する光の透過を阻止するが、第2のカットオフ周波数よりも大きな波長を有する光の透過を許可するフィルタ)などの光学フィルタが、フィルタを通過する光の入射角に非常に敏感である可能性がある、という認識に基づく。例えば、光学フィルタは、光が光学フィルタの対称軸に平行に(光学フィルタの表面におおよそ垂直に)光学フィルタに入射する(0°の入射角であり得る)場合に所定の周波数範囲を透過および阻止するように設計され得る。入射角が0°から変化すると、多くの光学フィルタは、フィルタの通過帯域および/またはカットオフ周波数がより短い波長に事実上シフトする「ブルーシフト」を示す。このブルーシフト現象を説明するために、いくつかの実施形態は、940nmよりも大きな波長を有するように第1の周波数帯域と第2の周波数帯域との間の重複の中心周波数を使用する(例えば、940nmよりも長い波長を有するようにバンドパス光学フィルタの中心周波数またはロングパス光学フィルタのカットオフ周波数がシフトされる)。
皮膚の異なる部分からの光は、異なる入射角で光学フィルタに入射し得るので、光学フィルタは、皮膚の異なる部分からの光の異なる透過を許可する。これに応答して、いくつかの実施形態は、より広い通過帯域を有するバンドパスフィルタ(例えば、20nmよりも広い通過帯域を有するバンドパス光学フィルタ)を使用し、そのため、第1の周波数帯域と第2の周波数帯域との間の重複は、幅が20nmよりも大きい。
いくつかの実施形態では、iPPGシステム100は、940nmの近赤外周波数を含む狭周波数帯域を使用して、照明変動に起因するノイズを減少させる。その結果、iPPGシステム100は、人のバイタルサインを正確に推定する。
いくつかの実施形態は、身体部位(例えば、人の顔)全体にわたる照明強度は、顔表面全体にわたる法線の3D方向の変動などの要因に起因して、顔に映し出された影に起因して、および顔の異なる部分がNIR光源から異なる距離のところにあることに起因して、不均一である可能性がある、という認識に基づく。照明を顔全体にわたってより均一にするために、いくつかの実施形態は、複数のNIR光源(例えば、顔のそれぞれの側であって頭からおよそ等しい距離のところに設置された2つのNIR光源)を使用する。また、顔に到達する光線を拡幅して顔の中心と顔の周辺との間の照明強度差を最小化するために、水平方向拡散器および垂直方向拡散器がNIR光源に設置される。
いくつかの実施形態は、強いiPPG信号を測定するために皮膚領域の十分に露光された画像を取り込むことを目的としている。しかし、照明の強度は、光源から顔までの距離の二乗に反比例する。人が光源に近すぎる場合には、画像は飽和して、iPPG信号を含むことができない。人が光源から遠い距離のところにいる場合には、画像は薄暗くなって、弱いiPPG信号を有し得る。いくつかの実施形態は、人の皮膚領域とカメラとの間の可能な距離の範囲で十分に露光された画像を記録しながら、飽和画像を取り込まないように、光源の最も有利な位置およびそれらの輝度設定を選択し得る。
図1Bに示される実施形態などのいくつかの実施形態における時系列U-Net109aにおいて使用されるU-netアーキテクチャのタイプは、時には「V-net」と称される。なぜなら、U-netの収縮経路は、収縮層における特徴マップのサイズを減少させるために、最大値プーリング動作の代わりにストライド畳み込みを使用するからである。別の実施形態では、時系列U-net109aは、収縮層において最大値プーリングを使用するU-netなどのその他のU-Netベースのアーキテクチャと置換されてもよい。他の例示的な実施形態では、RNN109bは、GRUアーキテクチャまたは長・短期記憶(LSTM)アーキテクチャのうちの少なくとも1つを使用して実現されてもよい。
さらに、PPG推定器モジュール109がPPG信号を正確に推定することを可能にするために、PPG推定器モジュール109は訓練される。PPG推定器モジュール109の訓練に関する詳細については、以下で説明する。
TURNIP(PPG推定器モジュール)の訓練:
SLを最小化するために、いくつかの実施形態では、損失関数への入力は、最初に、例えば高速フーリエ変換(FFT:Fast Fourier Transform)を使用して周波数領域に変換されて、所望の周波数範囲外にあるいかなる周波数成分も抑制される。例えば、心拍数については、[0.6,2.5]Hzの範囲の帯域外にある周波数成分が抑制される。なぜなら、それらの周波数成分は、人間の心拍数の一般的な範囲外であるからである。この場合、ネットワークパラメータは、以下を解くように計算される。
訓練データセット:
例示的な実施形態では、TURNIPは、MERL-Rice近赤外パルス(MR-NIRP)自動車データセットに基づいて訓練される。このデータセットは、940±5nmバンドパスフィルタが取り付けられたNIRカメラを用いて記録された顔の映像を含む。フレームは、640×640分解能および固定露光で、30フレーム毎秒(fps)で記録された。60fpsでのフィンガーパルスオキシメータ(例えば、CMS 50D+)記録を使用してグラウンドトゥルースPPG波形が取得され、このグラウンドトゥルースPPG波形は、次いで、30fpsにダウンサンプリングされて、映像記録と同期される。データセットは、18人の被験者を扱っており、走行中(市街地走行中)および車庫(エンジンが動作している状態での駐車)の2つの主要なシナリオに分けられる。さらに、各シナリオについて「最小限の頭部の動き」条件のみが評価される。データセットは、顔の毛があるおよび顔の毛がない女性および男性被験者を含む。映像は、異なる気象条件において夜間にも日中にも記録される。車庫設定における全ての記録は長さが2分(3,600フレーム)であり、走行中における全ての記録は2~5分(3,600~9,000フレーム)である。
さらに、訓練データセットは、心拍数が40~110拍/分(bpm)である被験者で構成されている。しかし、被験者の心拍数は均一に分布しない。ほとんどの被験者では、心拍数はおおよそ50~70bpmである。データセットは、より少ない数の外れ値を有する。したがって、(i)比較的少数の被験者および(ii)被験者の心拍数の分布のギャップの両方に対処するためにデータ拡張技術が使用される。訓練時、各10秒ウィンドウについて、時系列抽出モジュール101によって出力される48次元PPG信号を使用することに加えて、線形リサンプリングレート1+rおよび1-rを有する信号もリサンプリングされ、各10秒ウィンドウについてr∈[0.2,0.6]という値がランダムに選択される。
したがって、データ拡張は、分布外の心拍数を有する被験者に有用である。したがって、所与の周波数範囲についてできる限り多くの例を用いてTURNIPを訓練することが望ましい。
例示的な実施形態では、TURNIPは、10エポックにわたって訓練され、訓練されたモデルは、テスト(「推論」とも呼ばれる)に使用される。別の実施形態では、TURNIPは、10エポックよりも少ないエポックにわたって訓練されてもよい。例示的な実施形態では、バッチサイズが96であって学習率が1.5・10-4であるアダムオプティマイザが選択される。学習率は、各エポックにおいて0.05分の1に減少する。さらに、一人の被験者を除いて検証用として用いる交差検証法(leave-one-subject-out cross-validation)の訓練テストプロトコルが使用される。テスト時(すなわち、推論時)、被験者の時系列は、時系列抽出モジュール101を使用してウィンドウ化され、ウィンドウ間の10個のサンプルのストライドで心拍数がシーケンシャルに推定される。例示的な実施形態では、10個のフレームにつき1つの心拍数推定値が出力される。
さらに、システムのパフォーマンスは、2つのメトリックを使用して評価される。第1のメトリックである、時間割合誤差が6bpm未満(PTE6)は、絶対値で6bpm未満だけグラウンドトゥルースから逸脱する心拍数(HR)推定値の割合を示す。誤差閾値は、10秒ウィンドウの予想周波数分解能であるので、6bpmに設定される。第2のメトリックは、グラウンドトゥルースと推定HRとの間の二乗平均平方根誤差(RMSE)である。第2のメトリックは、各10秒ウィンドウについてbpm単位で測定されて、テストシーケンスにわたって平均される。
データ拡張なしでは、PTE6についてのiPPGシステム100の標準偏差は相当高くなり、これは、被験者全体にわたって大きなばらつきがあることを意味する。さらに、被験者に対するデータ拡張の影響を分析する。
図6Aは、例示的な実施形態に係る、時間割合誤差が6bpm未満(PTE6メトリック)に対するデータ拡張の影響を示す図である。図6Bは、例示的な実施形態に係る、二乗平均平方根誤差(RMSE)メトリックに対するデータ拡張の影響を示す図である。長方形によってカバーされる図6Aおよび図6Bの部分は、分布外の心拍数を有する2人の被験者については、データ拡張なしではiPPGシステム100のパフォーマンスが低くなることを示している。被験者10および12は、データセットの中で最も低い安静時心拍数および最も高い安静時心拍数、すなわちそれぞれ~40bpmおよび~100bpmを有している。そのため、それらの被験者のどちらに対してテストしても、訓練セットは、同様の心拍数を有する被験者を含まない。データ拡張なしでは、TURNIPは、それらの被験者について全く機能しない。データ拡張ありでは、TURNIPははるかに正確である。
さらに、パススルー接続におけるGRUセルの影響を分析する。GRUは、複数の時間分解能で特徴マップをシーケンシャルに処理する。そのため、GRUは、TURNIPの畳み込み層において使用される畳み込みカーネルの局所的な受容野を超えた特徴を抽出する。GRUの追加は、iPPGシステム100のパフォーマンスを向上させる。さらに、訓練に使用される2つの訓練損失関数TLおよびSLは比較される。
図7は、例示的な実施形態に係る、ある被験者について、TLを使用して訓練されたTURNIPによって推定されたPPG信号と、SLを使用して訓練されたTURNIPによって推定されたPPG信号との比較を示す図である。図6は、ある被験者についての10秒にわたる推定PPG信号のSLとTLとを比較している。図6から、PPG信号の推定時のSLを使用して訓練されたTURNIPのパフォーマンスは、TLのものと比較して低いことは明らかである。図7に示されるように、TLを用いて訓練されたTURNIPは、グラウンドトゥルースPPG信号のはるかに優れた推定値を生成する。SLを用いて回復された信号は、同様の周波数を有するが、しばしばピークと一致せず、信号振幅または形状を歪ませる。すなわち、回復された信号のスペクトルおよび心拍数は、どちらの場合も類似しているが、時間的変動は類似していない。したがって、好ましい実施形態では、TURNIPは、TL訓練損失関数を使用して訓練され得る。
例示的な実施形態:
図8は、例示的な実施形態に係る、iPPGシステム800のブロック図である。システム800は、格納された命令を実行するように構成されたプロセッサ801と、プロセッサ801によって実行可能な命令を格納するメモリ803とを含む。プロセッサ801は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または他のどのような構成であってもよい。メモリ803は、ランダムアクセスメモリ(RAM:Random Access Memory)、リードオンリメモリ(ROM:Read Only Memory)、フラッシュメモリ、またはその他の好適なメモリシステムを含み得る。プロセッサ801は、バス805を介して1つまたは複数の入力/出力デバイスに接続されている。
メモリ803に格納された命令は、人の皮膚の異なる領域から測定された一組のiPPG信号の波形に基づいて人のバイタルサインを推定するためのiPPG方法に対応する。iPPGシステム800は、時系列抽出モジュール101およびPPG推定器モジュール109などのさまざまなモジュールを格納するように構成されたストレージデバイス807も含み得て、PPG推定器モジュール109は、時系列U-net109aとRNN109bとを含む。ストレージデバイス807に格納された上記のモジュールは、プロセッサ801によって実行されて、バイタルサイン推定を実行する。バイタルサインは、人の脈拍数または人の心拍数変動に対応する。ストレージデバイス807は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを使用して実現されてもよい。
時系列抽出モジュール101は、iPPGシステム800に送り込まれた1つまたは複数の映像809からの映像の各フレームから画像を取得し、1つまたは複数の映像809は、バイタルサインが推定されることになる人の身体部位の映像を含む。1つまたは複数の映像は、1つまたは複数のカメラによって記録され得る。時系列抽出モジュール101は、各フレームからの画像を、PPG信号の強力な指標である身体部位のROIに対応する複数の空間領域に区画割りし得て、複数の空間領域への画像の区画割りは、身体部位の画像のシーケンスを形成する。各画像は、身体部位の皮膚の異なる領域を画像内に含む。画像のシーケンスは、多次元時系列信号に変換され得る。多次元時系列信号は、PPG推定器モジュール109に提供される。PPG推定器モジュール109は、時系列U-net109aおよびRNN109bを使用して、多次元時系列信号に対して時間畳み込みを実行することによって多次元時系列信号を処理し、畳み込まれたデータはさらに、RNN109bによってシーケンシャルに処理されて、PPG波形が推定され、このPPG波形を使用して人のバイタルサインを推定する。
iPPGシステム800は、1つまたは複数の映像809を受信するための入力インターフェイス811を含む。例えば、入力インターフェイス811は、iPPGシステム800をバス805を介してネットワーク813に接続するように適合されたネットワークインターフェイスコントローラであってもよい。
追加的にまたは代替的に、いくつかの実現例では、iPPGシステム800は、1つまたは複数の映像809を収集するためにカメラなどのリモートセンサ815に接続されている。いくつかの実現例では、iPPGシステム800内のヒューマンマシンインターフェイス(HMI:Human Machine Interface)817は、iPPGシステム800を、とりわけキーボード、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、タッチスクリーンなどの入力デバイス819に接続している。
iPPGシステム800は、バス805を介して、PPG波形をレンダリングするための出力インターフェイスに連結されることができる。例えば、iPPGシステム800は、iPPGシステム800をディスプレイデバイス823に接続するように適合されたディスプレイインターフェイス821を含み得て、ディスプレイデバイス823は、コンピュータモニタ、プロジェクタまたはモバイルデバイスを含み得るが、それらに限定されるものではない。
iPPGシステム800は、iPPGシステム800をイメージングデバイス827に接続するように適合されたイメージングインターフェイス825も含み、および/または、イメージングインターフェイス825に接続され得る。
いくつかの実施形態では、iPPGシステム800は、推定されたバイタルサインに基づいて動作可能なアプリケーションシステム831にiPPGシステム800を接続するように適合されたアプリケーションインターフェイス829に、バス805を介して接続され得る。例示的なシナリオでは、アプリケーションシステム831は、患者のバイタルサインを使用する患者モニタリングシステムである。別の例示的なシナリオでは、アプリケーションシステム831は、例えば運転手が眠気をもよおしているかどうかなど、運転手が安全に運転できるかどうかを判断するために運転手のバイタルサインを使用する運転手モニタリングシステムである。
図9は、例示的な実施形態に係る、iPPGシステム800を使用した患者モニタリングシステム900を示す図である。患者のバイタルサインをモニタリングするために、カメラ903を使用して、患者901の画像、すなわち映像シーケンスを取り込む。
カメラ903は、入射光およびその強度変動を電気信号に変換するためのCCDセンサまたはCMOSセンサを含み得る。カメラ903は、患者901の皮膚部分から反射された光を非侵襲的に取り込む。そのため、皮膚部分とは、特に、額、首、手首、腕の一部または患者の皮膚の他の部分を指す。患者または患者の皮膚部分を含む対象の領域を照明するために例えば近赤外光源などの光源が使用されてもよい。
取り込まれた画像に基づいて、iPPGシステム800は、患者901のバイタルサインを判断する。特に、iPPGシステム800は、患者901の心拍数、呼吸数または血液酸素化などのバイタルサインを判断する。さらに、判断されたバイタルサインは、通常、判断されたバイタルサインを表示するためのオペレータインターフェイス905上に表示される。このようなオペレータインターフェイス905は、患者ベッドサイドモニタであってもよく、または、病院内の専用の部屋、老人ホームなどのグループケア施設、もしくは遠隔医療アプリケーションでは遠隔地におけるリモートモニタリングステーションであってもよい。
図10は、例示的な実施形態に係る、iPPGシステム800を使用した運転手支援システム1000を示す図である。車両1003内にはNIR光源および/またはNIRカメラ1001が配置されている。特に、NIRカメラ1001は、運転手1005を取り込む視野(FOV:Field Of View)内に配置され得る。iPPGシステム800は、車両1003に一体化される。NIR光源は、車両を運転する人(運転手1005)の皮膚を照明するように構成されており、NIRカメラ1001は、運転手の映像をリアルタイムで記録するように構成されている。さらに、NIR映像は、iPPGシステム800に送り込まれて、運転手1005の皮膚の異なる領域からのiPPG信号が測定される。iPPGシステム800は、測定されたiPPG信号を受信して、運転手1005の脈拍数などのバイタルサインを判断する。
さらに、iPPGシステム800のプロセッサは、車両1003の運転手1005の推定されたバイタルサインに基づいて1つまたは複数の制御アクションコマンドを生成することができる。1つまたは複数の制御アクションコマンドは、車両制動、ステアリング制御、アラート通知の生成、緊急サービス要求の開始、または運転モードの切り換えを含む。1つまたは複数の制御アクションコマンドは、車両1003のコントローラ1005に送信される。コントローラ1005は、1つまたは複数の制御アクションコマンドに従って車両1003を制御することができる。例えば、運転手の判断された脈拍数が非常にゆっくりである場合、運転手1005は心臓発作に見舞われている可能性がある。その結果、iPPGシステム800は、車両の減速および/またはステアリング制御(例えば、車両を幹線道路の路肩に向かわせて停車させる)および/または緊急サービス要求の開始のための制御コマンドを生成することができる。
上記の説明は、例示的な実施形態のみを提供し、本開示の範囲、適用可能性または構成を限定することは意図していない。むしろ、例示的な実施形態の上記の説明は、1つまたは複数の例示的な実施形態を実現するための実施可能な程度の説明を当業者に提供する。意図されているのは、添付の特許請求の範囲に記載されている、開示されている主題の精神および範囲から逸脱することなく、要素の機能および配置の点でさまざまな変更がなされてもよいということである。
実施形態の十分な理解が得られるように、具体的な詳細が上記の説明に示されている。しかし、これらの具体的な詳細がなくても実施形態を実施できるということを当業者は理解する。例えば、開示されている主題のシステム、プロセスおよび他の要素は、実施形態を不必要な詳細で不明瞭にすることのないように、ブロック図の形式で構成要素として示される場合がある。他の例において、周知のプロセス、構造および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細なしに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図またはブロック図として示されるプロセスとして記載される場合がある。フローチャートは、動作をシーケンシャルなプロセスとして記載する場合があるが、これらの動作の多くは、並行してまたは同時に実行可能である。また、これらの動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了され得るが、論じられていないまたは図に含まれていない追加のステップを有してもよい。さらに、具体的に記載されている任意のプロセスにおける全ての動作が全ての実施形態において行われるわけではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、当該関数が呼び出し関数またはメイン関数に戻ることに対応し得る。
さらに、開示されている主題の実施形態は、少なくとも部分的に手動でまたは自動で実現されてもよい。手動での実現または自動での実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせを使用することによって行われてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実現される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械読取可能媒体に格納されてもよい。プロセッサが必要なタスクを実行してもよい。
本明細書で概要を述べたさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか1つを利用する1つまたは複数のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。さらに、このようなソフトウェアは、複数の好適なプログラミング言語および/またはプログラミングもしくはスクリプティングツールのうちのいずれかを使用して書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードまたは中間コードとしてコンパイルされてもよい。一般に、プログラムモジュールの機能は、さまざまな実施形態における要望に応じて組み合わせたり分散させたりしてもよい。
本開示の実施形態は方法として具体化されてもよく、その一例が提供されている。この方法の一部として実行される動作は、任意の好適な方法で順序付けられてもよい。したがって、示されている順序とは異なる順序で動作が実行される実施形態が構築されてもよく、これは、いくつかの動作を、例示的な実施形態ではシーケンシャルな動作として示されていても、同時に実行することを含み得る。特定の好ましい実施形態を参照しながら本開示を説明してきたが、本開示の精神および範囲内でさまざまな他の適合化および修正がなされてもよい、ということが理解されるべきである。したがって、本開示の真の精神および範囲内に含まれるこのような変形および修正を全てカバーすることが添付の特許請求の範囲の側面である。
図2Aにおいて、シングル入力チャネル(Ch_in=1)における時系列201は時系列U-net109aの畳み込み層のうちの1つ(例えば、第1の収縮層における畳み込み層)によって得られ、入力チャネル201の長さは10であるものとする。入力チャネル201は、時系列抽出モジュール101によってPPG推定器モジュール109に送り込まれる多次元時系列の1つの次元に対応する(例えば、入力チャネル201は一次元時系列シーケンスである)。さらに、入力チャネルを操作するために使用されるストライド値に基づいて、対応する出力チャネル203の長さは変更される。
Claims (20)
- 人の皮膚の画像から前記人のバイタルサインを推定するためのイメージングフォトプレチスモグラフィ(iPPG:imaging PhotoPlethysmoGraphy)システムであって、少なくとも1つのプロセッサと、命令が格納されたメモリとを備え、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記iPPGシステムに、
前記人の前記皮膚の異なる領域の画像のシーケンスを受信することを行わせ、各領域は、前記皮膚の色の変動を示す異なる強度の画素を含み、前記命令はさらに、前記少なくとも1つのプロセッサによって実行されると、前記iPPGシステムに、
前記画像のシーケンスを多次元時系列信号に変換することを行わせ、各次元は、前記皮膚の前記異なる領域からのそれぞれの領域に対応し、前記命令はさらに、前記少なくとも1つのプロセッサによって実行されると、前記iPPGシステムに、
時系列U-Netニューラルネットワークを用いて前記多次元時系列信号を処理して、PPG波形を生成することを行わせ、前記時系列U-NetニューラルネットワークのU字形状は、収縮層のシーケンスを含む収縮経路と、その後に続く拡張層のシーケンスを含む拡張経路とを含み、前記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ前記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、前記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、前記パススルー層のうちの少なくとも1つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含み、前記命令はさらに、前記少なくとも1つのプロセッサによって実行されると、前記iPPGシステムに、
前記PPG波形に基づいて前記人の前記バイタルサインを推定することと、
前記人の推定された前記バイタルサインをレンダリングすることとを行わせる、iPPGシステム。 - 前記収縮層のシーケンスからの少なくとも1つの収縮層は、1よりも大きなストライドを有するストライド畳み込みを用いてその入力をダウンサンプリングすることで、前記入力をダウンサンプリングして処理する、請求項1に記載のiPPGシステム。
- 前記拡張層のシーケンスからの少なくとも1つの拡張層は、アップコンバート動作を用いてその入力をアップサンプリングすることで、アップサンプリングされた入力を生成し、前記拡張層は、前記アップサンプリングされた入力を処理する複数の畳み込み層を含む、請求項1に記載のiPPGシステム。
- 前記再帰型ニューラルネットワークは、ゲート付き再帰型ユニット(GRU:Gated Recurrent Unit)または長・短期記憶(LSTM:Long Short-Term Memory)ネットワークを含む、請求項1に記載のiPPGシステム。
- 前記収縮層のシーケンスからの収縮層は、その入力を前の収縮層から受け取って、その出力を前記収縮層のシーケンスにおける次の収縮層および対応するパススルー層の両方の層に投入する、請求項1に記載のiPPGシステム。
- 前記PPG波形から前記人の前記バイタルサインを推定するために、前記少なくとも1つのプロセッサは、前記時系列U-Netニューラルネットワークを用いて、前記多次元時系列信号の重なり合うセグメントのシーケンスからの各セグメントを処理するように構成される、請求項1に記載のiPPGシステム。
- 前記人の前記バイタルサインの前記信号は、一次元信号である、請求項6に記載のiPPGシステム。
- 前記多次元時系列信号を生成するために、前記少なくとも1つのプロセッサは、
顔ランドマーク検出を用いて前記人の前記皮膚の前記異なる領域を識別し、
瞬間における前記異なる領域の各領域からの画素の画素強度を平均して、前記瞬間における前記多次元時系列信号の各次元についての値を生成するように構成される、請求項1に記載のiPPGシステム。 - 前記多次元時系列信号の各次元は、前記皮膚の前記異なる領域の前記対応する領域に対応する信号であり、各領域は、明示的に追跡された関心領域(ROI:Region Of Interest)である、請求項8に記載のiPPGシステム。
- 前記変換することは、各々がマルチチャネル映像の異なるチャネルから抽出された2つ以上の多次元時系列を組み合わせて、前記多次元時系列信号を含む単一の多次元時系列にする連結動作を含む、請求項1に記載のiPPGシステム。
- 前記変換することは、各々がマルチチャネル映像の異なるチャネルから抽出された2つ以上の多次元時系列を組み合わせて、前記多次元時系列信号を含む単一の多次元時系列にする線形結合を含む、請求項1に記載のiPPGシステム。
- 前記変換することは、各々がマルチチャネル映像の1つのチャネルから抽出された2つ以上の多次元時系列を抽出して、前記2つ以上の多次元時系列を、前記多次元時系列信号を含む3D配列に成形することを含む、請求項1に記載のiPPGシステム。
- 前記時系列U-netニューラルネットワークは、前記PPG波形に関連付けられたグラウンドトゥルースデータと推定された前記PPG信号との間のピアソン相関係数を最大化するように訓練される、請求項1に記載のiPPGシステム。
- 前記時系列U-netニューラルネットワークは、時間損失関数またはスペクトル損失関数を用いて訓練される、請求項1に記載のiPPGシステム。
- 前記バイタルサインは、前記人の脈拍数および前記人の心拍数変動のうちの1つまたはそれらの組み合わせである、請求項1に記載のiPPGシステム。
- 前記人は、車両の運転手に対応し、前記少なくとも1つのプロセッサはさらに、前記運転手の前記バイタルサインに基づいて前記車両のコントローラのための1つまたは複数の制御コマンドを生成するように構成される、請求項1に記載のiPPGシステム。
- 前記人の前記バイタルサインの前記信号に基づいて制御アクションを実行するように構成されたコントローラをさらに備える、請求項16に記載のiPPGシステム。
- 前記画像のシーケンスを生成するために異なる瞬間における前記皮膚の色の変動を示す前記強度を測定するように構成されたプロセッサを含むカメラと、
前記人の前記バイタルサインの前記信号を表示するように構成されたディスプレイデバイスとをさらに備える、請求項1に記載のiPPGシステム。 - 人のバイタルサインを推定するための方法であって、前記方法は、前記方法を実現する格納された命令に結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
前記人の前記皮膚の異なる領域の画像のシーケンスを受信するステップを含み、各領域は、前記皮膚の色の変動を示す異なる強度の画素を含み、前記ステップはさらに、
前記画像のシーケンスを多次元時系列信号に変換するステップを含み、各次元は、前記皮膚の前記異なる領域からのそれぞれの領域に対応し、前記ステップはさらに、
時系列U-Netニューラルネットワークを用いて前記多次元時系列信号を処理して、PPG波形を生成するステップを含み、前記時系列U-NetニューラルネットワークのU字形状は、収縮層のシーケンスを含む収縮経路と、その後に続く拡張層のシーケンスを含む拡張経路とを含み、前記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ前記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、前記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、前記パススルー層のうちの少なくとも1つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含み、前記ステップはさらに、
前記PPG波形に基づいて前記人の前記バイタルサインを推定するステップと、
前記人の推定された前記バイタルサインをレンダリングするステップとを含む、方法。 - 方法を実行するための、プロセッサによって実行可能なプログラムが組み入れられた非一時的なコンピュータ読取可能記憶媒体であって、前記方法は、
前記人の前記皮膚の異なる領域の画像のシーケンスを受信するステップを含み、各領域は、前記皮膚の色の変動を示す異なる強度の画素を含み、前記方法はさらに、
前記画像のシーケンスを多次元時系列信号に変換するステップを含み、各次元は、前記皮膚の前記異なる領域からのそれぞれの領域に対応し、前記方法はさらに、
時系列U-Netニューラルネットワークを用いて前記多次元時系列信号を処理して、PPG波形を生成するステップを含み、前記時系列U-NetニューラルネットワークのU字形状は、収縮層のシーケンスを含む収縮経路と、その後に続く拡張層のシーケンスを含む拡張経路とを含み、前記収縮層のうちの少なくともいくつかがそれらの入力をダウンサンプリングし、かつ前記拡張層のうちの少なくともいくつかがそれらの入力をアップサンプリングして、対応する分解能の収縮層と拡張層とのペアを形成し、前記対応する収縮層および拡張層のうちの少なくともいくつかは、パススルー層を介して接続されており、前記パススルー層のうちの少なくとも1つは、その入力をシーケンシャルに処理する再帰型ニューラルネットワークを含み、前記方法はさらに、
前記PPG波形に基づいて前記人の前記バイタルサインを推定するステップと、
前記人の推定された前記バイタルサインをレンダリングするステップとを含む、非一時的なコンピュータ読取可能記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/237,347 | 2021-08-26 | ||
US17/486,981 | 2021-09-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024525995A true JP2024525995A (ja) | 2024-07-12 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112074226B (zh) | 用于生命体征的远程测量的系统和方法 | |
Magdalena Nowara et al. | SparsePPG: Towards driver monitoring using camera-based vital signs estimation in near-infrared | |
Bobbia et al. | Unsupervised skin tissue segmentation for remote photoplethysmography | |
McDuff et al. | iphys: An open non-contact imaging-based physiological measurement toolbox | |
US20210224983A1 (en) | System and Method for Remote Measurements of Vital Signs of a Person in a Volatile Environment | |
Blöcher et al. | An online PPGI approach for camera based heart rate monitoring using beat-to-beat detection | |
CN110647815A (zh) | 一种基于人脸视频图像的非接触式心率测量方法及系统 | |
Park et al. | Remote pulse rate measurement from near-infrared videos | |
Ryu et al. | A measurement of illumination variation-resistant noncontact heart rate based on the combination of singular spectrum analysis and sub-band method | |
Li et al. | Comparison of region of interest segmentation methods for video-based heart rate measurements | |
Lampier et al. | A deep learning approach to estimate pulse rate by remote photoplethysmography | |
Cho et al. | Reduction of motion artifacts from remote photoplethysmography using adaptive noise cancellation and modified HSI model | |
Ouzar et al. | Lcoms lab's approach to the vision for vitals (v4v) challenge | |
Qayyum et al. | Assessment of physiological states from contactless face video: a sparse representation approach | |
Abdulrahaman | Two-stage motion artifact reduction algorithm for rPPG signals obtained from facial video recordings | |
Hosni et al. | Remote real-time heart rate monitoring with recursive motion artifact removal using PPG signals from a smartphone camera | |
Patil et al. | A low-cost, camera-based continuous ppg monitoring system using laplacian pyramid | |
US20230063221A1 (en) | Imaging Photoplethysmography (IPPG) System and Method for Remote Measurements of Vital Signs | |
JP2024525995A (ja) | イメージングフォトプレチスモグラフィ(iPPG)システムおよびバイタルサインのリモート測定方法 | |
Comas et al. | Turnip: Time-series U-Net with recurrence for NIR imaging PPG | |
EP4391903A1 (en) | Imaging photoplethysmography (ippg) system and method for remote measurements of vital signs | |
CN117835900A (zh) | 用于远程测量生命体征的成像光电体积描记(ippg)系统及方法 | |
Kopeliovich et al. | Color signal processing methods for webcam-based heart rate evaluation | |
Cheng et al. | Exploring the feasibility of seamless remote heart rate measurement using multiple synchronized cameras | |
Arppana et al. | Real time heart beat monitoring using computer vision |