JP7131709B2

JP7131709B2 - 推定装置、方法及びプログラム

Info

Publication number: JP7131709B2
Application number: JP2021542220A
Authority: JP
Inventors: ウトゥカルシュシャルマ; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2022-09-06
Anticipated expiration: 2039-02-01
Also published as: JP2022518751A; WO2020157972A1; US20220240789A1

Description

本開示は、推定装置、方法及びプログラムに関する。特に、脈拍数を推定する推定装置、方法及びプログラムに関する。

ストレス検出、ヘルスケア及び事故防止を意図した生理学的情報の測定の関心が増加している。心拍数（Heart rate (HR)）測定は、ストレス、覚醒及び眠気のような人間の心理状態がＨＲから推定され得ることを示されてきたため、特に重要である。ＨＲは通常、接触ベースの手段、特に心電図により測定されるが、しかしながら、前述の応用のために、連続的で簡単な測定が必要である。この目的を達成するために、近年、一般的に使用されるカメラを用いて撮影された映像を採用するＨＲ測定技術が提案されてきた。

人間の顔（又は皮膚が露出したその他の身体の部位）の一連の写真からＨＲ（又は他の準周期的生理学的信号）を推定するいくつかの技術が研究されてきた。例えば、非特許文献１は、顔映像からＨＲを推定する技術を開示する。非特許文献１は、頭部移動及び／又は顔の表情により取り込まれたノイズの存在における心拍数を推定するために、人間の顔のカラー映像の緑色チャネルにおける（心臓活動に起因する）振幅変動を使用する。

さらに、特許文献１は、顔上のそれらの領域だけを選択することにより導出され得て、時間の経過に伴う肌色における低い変動可能性を有し、顔上のある小さな領域が安定したパルス波情報を含むアイデアに基づいて、映像から脈拍数を推定する技術を開示する。特許文献１のメインステップは、
ａ）映像上の顔を追跡することにより顔特徴点を生成し、
ｂ）（関心のある領域（region of interest（ROI）とも呼ばれる）観測下の領域を、部分ＲＯＩとして知られる、より小さい部分へ分割し、
ｃ）各部分ＲＯＩからパルス信号（緑チャネル振幅変動）を抽出し、
ｄ）（「信頼された領域」として知られる）「信頼できる」部分領域を選択するための、すなわち、パルス信号の低いローカル（時間的）分散を用いて部分ＲＯＩに大きな重み付けを与えるための動的ＲＯＩフィルタを生成し、
ｅ）単一の時系列のパルス波を取得するために、信頼された領域のパルス波情報を（ステップ（ｄ）で割り当てられた重みを用いて）結合し、
ｆ）「信頼された領域」のみのパルス情報から周波数解析を行い、最終パルス信号を推定する
ことを含む。

さらに、特許文献２及び特許文献３は、複数成分のパルス信号から周期成分を抽出する技術を開示する。特許文献２及び特許文献３に含まれる基本的ステップは、
ａ）（データの既存知識、又は、長期間パルス信号の周期性の粗い推定値、例えば、１分から数時間の範囲で、長時間を超える、パルス信号の平均周期／頻度値を算出すること、を用いて）基準周期性値を事前選択し、
ｂ）「反復基本単位」（周期性が同一又は近い基準周期性、又は、自動補正が最大化される、パルス信号の１サイクル）としても知られる、基準パルス信号「cyclet」を見つけ、
ｃ）複数成分パルス信号から、反復基本単位、又は、代わりに、（閾値範囲内で）基準周期性に近い周期性と高い相関のあるcyclet（又は周期成分）を抽出する
ことを含む。

特開２０１８－１６４５８７号公報米国特許第６，２６２，９４３号明細書米国特許第５，５８４，２９５号明細書

Sharma, Umematsu, Tsujikawa, and Onishi, "Adaptive Heart Rate Estimation From Face Videos", IEICE SBRA 2018

しかしながら、上述した技術のそれぞれは、推定精度の低下の課題がある。課題の発生理由は、観察下の人物により実行される剛体及び非剛体運動、オクルージョン、顔追跡エラー、光源変更等を含むいくつかの制御不能なノイズ源が、複雑な破損を観察された信号に取り込み、ＨＲを推定することを難しくすることである。

本開示は、上記課題を解決するためになされたものであり、本開示の目的は、推定精度を向上するための推定装置、方法及びプログラムを提供することである。

本開示の第１の例示的な態様にかかる推定装置は、皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定し、当該第１の脈拍数を推定するために前記第１の映像データに基づき導出された第１の特徴データを出力する第１の推定部と、前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する学習部と、前記第１の推定部が推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定した場合に、前記第１の推定部により導出された第２の特徴データを取得し、当該第２の特徴データと前記学習部により学習された前記判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得する取得部と、前記取得された信頼値に基づき、第３の脈拍数を推定する第２の推定部と、を備える。

本開示の第２の例示的な態様にかかる推定方法は、皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定する第１の推定処理を行い、前記第１の推定処理において前記第１の映像データに基づき導出された第１の特徴データを出力し、前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習し、推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定する第２の推定処理を行い、前記第２の推定処理において前記第２の映像データに基づき導出された第２の特徴データを出力し、前記第２の特徴データと前記学習済みの判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得し、前記取得された信頼値に基づき、第３の脈拍数を推定する、ことを含む。

本開示の第３の例示的な態様にかかる推定プログラムが格納された非一時的なコンピュータ可読媒体、前記プログラムは、皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定する第１の推定処理と、前記第１の推定処理において前記第１の映像データに基づき導出された第１の特徴データを出力する処理と、前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する処理と、推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定する第２の推定処理と、前記第２の推定処理において前記第２の映像データに基づき導出された第２の特徴データを出力する処理と、前記第２の特徴データと前記学習済みの判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得する処理と、前記取得された信頼値に基づき、第３の脈拍数を推定する処理と、をコンピュータに実行させる。

本開示の例示的な態様によれば、推定精度を向上するための推定装置、方法及びプログラムを提供することができる。

図１は、本開示の第１の実施形態にかかる脈拍数推定装置の構造を示すブロック図である。図２は、本開示の第１の実施形態にかかる脈拍数推定のための学習段階を説明するためのフローチャートである。図３は、本開示の第１の実施形態にかかる初期脈拍数推定処理を説明するためのフローチャートである。図４は、本開示の第１の実施形態にかかる判定モデルの学習処理を説明するためのフローチャートである。図５は、撮影画像から初期脈拍数を推定する処理の概念を説明するための図である。図６は、特徴データから判定モデルを学習する処理の概念を説明するための図である。図７は、本開示の第１の実施形態にかかる脈拍数推定のためのテスト段階を説明するためのフローチャートである。図８は、テスト段階において初期脈拍数から最終脈拍数を推定する処理の概念を説明するための図である。図９は、本開示の第１の実施形態にかかる脈拍数推定装置のハードウェア構造を示すブロック図である。図１０は、本開示の第２の実施形態にかかる推定装置の構造を示すブロック図である。図１１は、本開示の第２の実施形態にかかる推定方法を説明するためのフローチャートである。

以下では、上述した例の側面を含む本開示が適用される特定の実施形態が図面を参照して詳細に説明され得る。図面において、同一要素は、同一の参照記号により示され、説明を明確にするため、繰り返しの説明は省略される。

本開示により解決すべき課題は、以下に詳細に説明される。
実世界のシナリオノイズでは、背景照明の変化から、不正確な顔追跡に起因して取り込まれたノイズだけでなく、剛体頭部運動、及び／又は、顔の表情における変化、部分的なオクルージョンは、度々、パルス抽出のパフォーマンスに影響を与える。様々なノイズに起因して、パルス信号が破損する可能性があり、予想される脈拍変動は、効果的に取得されず、結果として、脈拍数推定手法のパフォーマンス（例、精度）に悪影響を与えている。

さらに、非特許文献１は、頭部移動／表情からのノイズにより最低限破損されていた顔面におけるＲＯＩ部分領域を強調する手法として頭部移動／表情検出を採用する。これは、パルス信号からノイズ変動を削除しようと試みるノイズ特定補正ステップが続く。しかしながら、実際には、非特許文献１は、次の理由のため、ノイズ変動を部分的にのみ削除できる。
ｉ．上述したノイズ特定補正ステップは、頭部移動及び表情以外の要因により生成されるノイズを削除できない。（例えば、）環境光の変化、顔領域の部分的オクルージョンのような、任意の削除が非常に難しいノイズ、又は、同時に大きな頭部移動及び表情（例えば、強烈な笑い声の間）のような要因からのノイズもまた存在するが、顔追跡が不正確であり、取得されたパルス信号がエラーノイズの追跡により破損されるため、いくつかのノイズは、常に生成される。
ｉｉ．頭部移動又は表情を有さない任意のビデオフレームは、他のソースからのノイズを有する。それ故、これらのビデオフレームは、理想的には「信頼できる」と考えられるべきではない。結果として、非特許文献１は、多くのノイズＨＲ推定を「信頼できる」として考える。従って、スペクトルピーク追跡が信頼できるＨＲ値に近い小さな範囲でのみ、ＨＲを見つけようとするため、他の近隣の推定値が不正確である。
ｉｉｉ．頭部移動又は表情を有するいくつかのフレームは、「信頼できる」と考えられる。なぜなら、ノイズ補正ステップは頭部移動又は表情に起因するノイズを正確に削除したためである。しかし、非特許文献１は、そのような全てのフレームを「信頼できない」として考える。
基本的に、頭部移動／表情の存在はパルス信号におけるノイズと相互に関連付けられるけれども、しかし、そのことは、「信頼できない」として推定されたＨＲを検討するための必要又は十分な条件のいずれでもない。非特許文献１で検出されていないパルス信号にノイズを取り込む多くの他の要因が存在する。

このことは、特に、観察中の人物が実行可能な行動に制限がないという実際の状況では、必ずしも全てのノイズのソースが、治療可能又は制御可能であると考えられないことを我々に示す。ビデオベースの生理学的信号抽出の分野の過去の研究は、正確なＨＲを推定することが極端に困難になる場合では、パルス信号（顔の色変動）において存在する任意のノイズが心臓の変動から分離可能ではないことも、また結論付ける。この課題を解決するために、ノイズのソース又はノイズが生成された条件に関係なく、ノイズを有するビデオフレームを正確に検出できる意思決定システムが必要である。これらの「信頼できない」シナリオが正確に検出できる場合、上記ポイントｉ、ｉｉ、ｉｉｉで述べた先行技術の課題は、解決されるだろう。さらに、それらから推定されたパルス信号及びＨＲの信頼性（信頼性インデクス又は信頼値）に関する定量的であるが、定性的ではない測定値を得ることができる場合、ａ）我々が推定されたＨＲについてどれほど自信を持っているかを患者に伝えること、ｂ）隣接する高信頼性のＨＲ推定値を基準として用いることにより、低信頼性のＨＲ推定値の精度を向上することができる。

さらに、特許文献１の「信頼された領域」選択が非特許文献１の動的ＲＯＩフィルタと同種であり、非特許文献１の（動的ＲＯＩフィルタを用いた）動的ＲＯＩ選択処理のあらゆる欠陥もまた、特許文献１の「信頼された領域」選択処理を適用する、ということを注意することが重要である。特許文献１及び本開示の間の差分の一つは、特許文献１が顔上の信頼できる領域を選択しようとだけすること、である。言い換えると、特許文献１では、空間的信頼性が達成されるだけである。しかしながら、空間信頼性は、外部及び内部ソースからノイズの存在において正確な心拍数情報を得るには十分ではない。このことについての最大の理由は、特許文献１の空間信頼性は相対的なだけで絶対的ではないことである。すなわち、特許文献１で議論される「信頼された領域」は、他の領域よりも信頼されただけであるが、絶対的にはそれらの信頼性が判定されていない。だから、ノイズが大きい場合（頭の揺れ、爆笑、追跡失敗等）又は、顔全体がノイズにより影響を及ぼされる（光源変化、追跡失敗等）の場合、特許文献１はどの理由がこのノイズにより影響が少ないかを判定しようとするだけである。しかしながら、顔の全領域は大きなノイズを含むため、特許文献１は実際に「信頼された」領域を選択し損ねて、不十分な脈拍数推定精度という結果になる。大きなノイズ又は顔全体に影響するノイズの事例を扱うため、我々は時間的だけでなく空間的な信頼性判定を有する必要がある。本開示は、後述される信頼回帰部１０７及び信頼推定部１０８で実行される信頼レベル推定処理を用いて、絶対時間の信頼性判定だけでなく、後述されるＲＯＩ選択及びパルス抽出部１０４で（相対的）空間信頼性を特定することによりこの要求を達成する。信頼推定部１０８で達成される信頼レベル推定は、実際に、映像入力データの時間信頼性の測定であり、大きなノイズ又は顔全体に影響するノイズの事例での識別（特定）を助け、特許文献１よりも、より良いノイズ除去及びより正確な脈拍数推定を導く。

特許文献２及び特許文献３の先行技術では、抽出された周期成分は、「信頼できる」か否かである、基準周期性値に向けて重く偏向される。
ｉ．基準周期性値が長時間以上（２分以上）で算出されるなら、先行技術は、脈拍数（心拍）推定において低精度に導くであろう、基準周期性値に向けて偏向されることに起因して、時間の経過に伴う周期性での少しの変化を見失うだろう。
ｉｉ．他方、基準周期性が短時間（１０－３０秒）で算出されるなら、ノイズが数秒以上（話す、笑う、うなずく等）存在する、又は、数秒以上で顔追跡失敗するというシナリオで不正確になる傾向がある。

さらに、脈拍数は時間の経過に伴い一定ではなく、時間の経過に伴い変化し続ける可能性があるため、我々が時間内にそれから離れる場合、基準周期性値（又は反復基本単位）は、低い「信頼」になる傾向がある。基準ＨＲを用いるアイデアは、非常に短時間（２－４秒）でのみ信頼可能である。そのように、基準に向けて重く偏向されていることではないが、基準周期性信号の最善の利用法を作るために、我々は、次のことに依存する周期性／脈拍数サーチ範囲を継続的に適応する手法を必要とする。
ａ）基準周期性（又は反復基本単位）が選択されてからの経過時間
ｂ）基準周期性値（又は基準脈拍数又は反復基本単位）それ自身の信頼性インデクス（又は信頼レベル）

我々は、基準脈拍数値及び結果である周期成分を適応的に抽出するように、それぞれの推定された周期性値／脈拍数値に対する（一時的）信頼性インデクス／信頼レベルを継続的に判定し、信頼レベル又は隣接ビデオフレームを使用する手法を必要とする。このやり方で、定量的信頼性インデクスを持つことに起因して、我々は、低／中程度の信頼性インデクスを用いたノイズ推定値、及び、高信頼性インデクスを用いたあまり偏向されていない推定値を（完全に無視する代わりに）考慮しているが、（周期的成分抽出に対する）閾値及び基準周期性を適応することにより、ビデオフレームのノイズ集合から比較的より信頼性できる推定値を抽出できるだろう。

さらに、本開示は、（特許文献１のように追跡された顔のビデオから抽出された）複数成分パルス信号のセグメントの大きなデータセットに関する信頼レベルを学習する（learn）ニューラルネットワークを学習する（train）ことができる。この学習済みニューラルネットワークは、基準脈拍数値を動的に選択し、複数成分パルス信号から周期成分を抽出するための現在の脈拍数信頼性だけでなく、最近の過去（最後の２－１０秒）の脈拍数の信頼性インデクスを使用する適応的周期成分抽出に続いて、各新パルス信号セグメント（又は「cyclet」）の信頼性のあるインデクスを抽出するためのテストデータにおいて用いられる。

上記に基づき、先行技術のＨＲ推定の第１の課題は、推定精度の劣化である。第１の課題の発生理由は、いくつかの制御不能なノイズ源が複雑な破損を観察された信号に取り込み、ＨＲを推定することを難しくすることである。尚、いくつかの制御不能なノイズ源は、例えば、観察下の人物により実行される剛体及び非剛体運動、オクルージョン、顔追跡エラー、光源変更等を含む。しかしながら、上記の先行技術は、剛体運動および非剛体運動の課題を解決しようとするだけである。

ＨＲ推定における第２の課題は、顔（又は身体の部位）追跡の失敗に起因する精度劣化である。この課題の発生理由は、先行技術はあらゆるフレーム内で顔の位置を見つけるために顔追跡器を使用するが、多くの場合、この顔追跡器は顔位置を不正確に検出することである。先行技術はそのような追跡失敗を特定する方法がなく、ノイズデータは、低精度エラーを導くＨＲ推定のために使用される。

ＨＲ推定における第３の課題は、未知のソースからのノイズの存在における精度劣化である。この課題の発生原因は、先行技術は観察下の人物により実行される剛体及び非剛体運動から来るノイズを削除するだけであるが、ノイズが他の未知のソースからいつ来ているのかを特定する方法がない、ことである。このことは、先行技術が頭部移動及び表情の欠如におけるクリーンパルス信号からノイズパルスを区別することが不可能であることを意味する。このことは、未知のノイズ源の存在においてＨＲ推定精度の劣化をもたらす。

ＨＲ推定における第４の課題は、厳密な頭部移動又は表情の存在における精度劣化である。この課題の発生理由は、大きな頭部移動及び／又は表情の変化が発生した場合、そのノイズは心臓の変動に対して非常に支配的であり、先行技術におけるノイズ補正ステップは大きな頭部移動及び表情から来るノイズを完全に削除し損ねる、ということである。このことは、ＨＲ推定精度の劣化をもたらす。

ＨＲ推定における第５の課題は、不正確な基準推定選択に起因する精度劣化である。先行技術は、頭部移動及び表情ノイズを含む後続のビデオフレームに渡ってＨＲ推定実行のために、頭部移動及び表情の欠如において推定されたＨＲを「基準ＨＲ」値として選択する。しかしながら、未知のソースに起因してノイズが存在する場合、不正確な（inaccurate）ＨＲ推定は、不正確な（incorrect）「基準ＨＲ」値を導く。このことは、不正確な基準を用いた長期間に渡る不正確なＨＲ推定をもたらす。

加えて、特許文献２及び特許文献３に開示された発明は、基準周期値又は反復基本単位が特定されなければならないが、この基準値／単位が信頼可能又は正確であることを保証する方法がない、という課題がある。多くの場合において、不正確な基準が選択される場合、不正確な基準を用いる長期間に渡って不正確なＨＲ推定を導くことになる。

本開示の目的の一例は、上記の問題のいずれかが解消されることにより、頭部移動、表情、追跡エラー、及び／又は、未知のソースにより引き起こされるノイズの存在において、正確な基準ＨＲ（又は周期性値又は反復基本単位）が選択されること、及び、ＨＲ推定精度が向上されること、を提供することである。

＜第１の実施形態＞
＜装置構成＞
図１は、本開示の第１の実施形態にかかる脈拍数推定装置の構造を示すブロック図である。脈拍数推定装置１００は、映像撮影部１０１、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４、脈拍数推定部１０５、特徴選択部１０６、信頼回帰部１０７、信頼推定部１０８、基準選択部１０９及び周期成分抽出部１１０を備える。

脈拍数推定装置１００は、学習段階及びテスト段階において実行される。学習段階において、脈拍数推定装置１００は、映像撮影部１０１、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４、脈拍数推定部１０５、特徴選択部１０６及び信頼回帰部１０７により、学習するための第１の身体の部位の第１の映像データ及び第１の身体から測定された生理学的情報の測定値を用いて、判定モデルを学習する。テスト段階において、脈拍数推定装置１００は、映像撮影部１０１、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４、脈拍数推定部１０５、特徴選択部１０６、信頼推定部１０８、基準選択部１０９及び周期成分抽出部１１０により、第２の身体の部位の第２の映像データ及び学習済み判定モデルを用いて、推定するための第２の身体の脈拍数を推定する。尚、第１の身体及び第２の身体は、同一人物の身体であってもよい。あるいは、第１の身体及び第２の身体は、異なる人物の身体であってもよい。

映像撮影部１０１は、人間の皮膚が露出しているところから、人体（第１又は第２の人体）の部位の映像データ（第１又は第２の映像データ）を撮影する。例えば、映像撮影部１０１は、人間の顔の映像データを撮影する。尚、前記人体の部位は、特定の生理学的プロセスの直接的な効果であるパルス信号が抽出される領域である。

身体部位追跡部１０２は、特定の人体の部位を検出し、映像撮影部１０１により撮影され、身体の部位が検出された、映像データの各フレームについて、身体上に重要な構造上のランドマークを示す特徴点を生成する。例えば、身体部位追跡部１０２は、顔追跡器として、肌の色の検出又は顔のランドマーク検出を用いて、時間の経過に伴って顔領域を追跡する。顔特徴点の位置は、頭部移動又は顔の表情の存在を検出し、各映像フレームに適切なラベルを割り当てるために使用される。

尚、以下の説明において、身体部位追跡部１０２は、人間の顔を人体の部位として検出するものとする。しかしながら、本開示の身体部位追跡部１０２は、映像データから手や耳のような、皮膚が見える多くの他の身体の部位を検出してもよい。それ故、身体部位追跡部１０２は、手追跡器、耳追跡器等であってもよい。

ノイズ源検出部１０３は、身体部位追跡部１０２により検出された特徴点に基づいて、ノイズ源を検出する。すなわち、ノイズ源検出部１０３は、映像データの各フレームについてノイズ源を特定し、各フレームにラベルを割り当てる。

ＲＯＩ選択及びパルス抽出部１０４は、特徴点に基づいて、映像データから顔上の関心のある領域（region(s) of interest（ＲＯＩ））を選択し、各ＲＯＩをいくつかのＲＯＩ部分領域へ分割する。ＲＯＩは、以降、パルス変動と呼ばれる生理学的活動（例えば、周期的鼓動活動）のため、顔の色で発生する周期的変動を本質的に示す。さらに、ＲＯＩ選択及びパルス抽出部１０４は、各ＲＯＩ部分領域からパルス信号を抽出する。例えば、ＲＯＩ選択及びパルス抽出部１０４は、各ＲＯＩ部分領域について緑チャネル振幅変動をパルス信号として抽出するとよい。

さらに、ＲＯＩ選択及びパルス抽出部１０４は、割り当てられたラベルを用いて、抽出されたパルス信号に存在する有用なパルス情報の量に比例する重みを各ＲＯＩ部分領域に割り当てるためのラベル依存のＲＯＩフィルタを生成する。ＲＯＩフィルタは、割り当てられたラベルに応じて、抽出されたパルス信号の高く局所的な（一時的な）分散／最大値を用いて部分領域を抑制するために使用される。

その後、ＲＯＩ選択及びパルス抽出部１０４は、生成されたＲＯＩフィルタを抽出されたパルス信号に適用し、抽出されたパルス信号に対してラベル依存ノイズ補正を行う。例えば、ＲＯＩ選択及びパルス抽出部１０４は、ノイズを削除し、結合されたノイズのないパルス信号を取得するために、ラベル依存ノイズ補正を行う。尚、ＲＯＩ選択及びパルス抽出部１０４は、抽出されたパルス信号と生成されたＲＯＩフィルタを結合してもよい。

脈拍数推定部１０５は、フィルタされ（抽出され）たパルス信号について周波数分析を実行することにより、初期脈拍数周波数を推定する。例えば、脈拍数推定部１０５は、ノイズ抑制パルス信号を形成するために、抽出されたパルス信号及び生成されたＲＯＩフィルタを結合し、抽出されたノイズ抑制パルス信号における周波数分析を実行し、推定された初期脈拍数を生成する。例えば、脈拍数推定部１０５は、ノイズ脈拍数推定候補の集合から正確な脈拍数周波数を選択するためにスペクトルピーク追跡を行い、各映像フレームについて初期脈拍数推定値を出力することにより、初期脈拍数を推定するとよい。

さらに、脈拍数推定部１０５は、特徴データを特徴選択部１０６へ出力する。尚、特徴データは、推定された初期脈拍数、検出された特徴点、抽出されたパルス信号、特定されたノイズ源ラベル、生成されたＲＯＩフィルタの係数、及び、周波数分析の結果の少なくとも１つを含む。

特徴選択部１０６は、脈拍数推定部１０５により出力された特徴データを含む入力データから高レベルの特徴を生成する。尚、特徴データは、特徴選択部１０６により生成された高レベルの特徴よりも低い品質を有する。なぜならば、特徴データは、ノイズあり／破損したパルス信号を含む。特徴選択部１０６は、特徴データ処理部の例である。特徴選択部１０６は、第１の特徴データについてノイズを削減するために、所定の統計プロセスを行い、第３の特徴データを出力する。このように、特徴選択部１０６は、第１の特徴データの中からより高い品質を有する第３の特徴データを選択し、第１の特徴データから第３の特徴データを抽出し、又は、第１の特徴データに基づいて第３の特徴データを生成する。尚、特徴選択部１０６は、第１の特徴データにおける色空間変換、フィルタの結合、及び、信号分解の少なくとも１つを所定の統計プロセスとして実行するとよい。例えば、特徴選択部１０６は、特徴データを入力として取得し、信頼レベル判定のために用いられる特徴を取得するための入力における色空間変換、フィルタの結合、及び／又は、信号分解を適用する。特徴選択部１０６により生成された高レベル特徴は、パルス信号を生成する高い精度を特徴づけ、ノイズあり／破損したパルス信号からそれを区別し、信頼性インデクス／信頼値を取得する信頼回帰部１０７へそれをフィードするために、潜在的に使用され得る。

信頼回帰部１０７は、特徴選択部１０６により生成された第３の特徴データを、入力として用いて、及び、推定された初期脈拍数（又はＨＲ）と正解脈拍数（又はＨＲ、第１の人体から測定された生理学的情報の測定値）の間の差分を、ラベルとして用いて、回帰分析モデル（判定モデル）を学習する。回帰分析モデルは、数学的モデルが実装されたコンピュータプログラムモジュールである。回帰分析モデルは、特徴選択部１０６により生成された特徴を入力し、初期脈拍数の推定における信頼性を示す０及び１の間の信頼値（信頼レベル／信頼性インデクス）を判定し、信頼値を出力する。０に近い信頼値は、推定された初期脈拍数とＨＲの正解脈拍数の間の高い差分を意味し、１に近い信頼値は、推定された初期脈拍数とＨＲの正解脈拍数の間の低い差分を意味する。

信頼回帰部１０７は、判定モデルにより判定された信頼レベルと、正解の信頼レベル（ラベル、推定された初期脈拍数と正解脈拍数の間の差分）の間の差分を最小化するように、回帰分析モデルを学習する。言い換えると、信頼回帰部１０７は、観察中の映像フレームの集合のそれぞれについて、０と１の間の数、信頼性インデクス（又は信頼性レベル／値）を生成し、特徴選択部１０６により生成される特徴を入力として取得するモデル関数を近似する回帰分析モデルを学習する。さらに、信頼回帰部１０７は、第１の脈拍数が測定値に近づくにつれて、信頼値がより高くなると判定されるように、判定モデルを学習するとよい。

尚、学習データに対するこれらの信頼性インデクスは、自動的な生成が推奨されるが、手動又は自動で生成されるとよい。信頼性インデクスラベルの自動生成について、信頼回帰部１０７は、ＨＲ値の正解脈拍数と推定された初期脈拍数値の間の差分を生成するとよい。この場合において、信頼回帰部１０７は、差分が小さくなるほど信頼性インデクスがより高くなるように回帰分析モデルに学習させる。学習段階の完了時、学習済みモデルは、見えないテストデータに対する信頼性インデクスを生成するために、テスト段階において使用され得る。

テスト段階において、映像撮影部１０１が推定用の身体の部位の第２の映像データを撮影した場合、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４及び脈拍数推定部１０５は、第２の映像データから第２の初期脈拍数を推定する。さらに、特徴選択部１０６は、第２の初期脈拍数及び第２の初期脈拍数を推定することにおいて導出される他の特徴を含む、第２の特徴データから、第２の高レベル特徴を生成する。

信頼推定部１０８は、特徴選択部１０６により生成された第２の高レベル特徴を取得し、第２の高レベル特徴と信頼回帰部１０７により学習された判定モデルとを用いて、第２の脈拍数の信頼値を取得する。すなわち、信頼推定部１０８は、第２の高レベル特徴（又は第２の特徴データ）を学習済み判定モデルに入力する。そして、学習済み判定モデルは、観察中の映像フレームの集合のそれぞれについて、０と１の間の数、信頼性インデクス（又は信頼レベル／値）を生成し、生成された信頼性インデクスを信頼推定部１０８へ出力する。

基準選択部１０９は、学習済み判定モデルにより生成された、過去の映像フレーム（２－１０秒）の信頼性インデクスを用いて、観察中の映像フレームの集合のそれぞれについて、基準（例えば、基準ＨＲ周波数、周期性値又は反復基本単位）を選択する。すなわち、基準選択部１０９は、望ましいノイズのない心臓変動を粗く特徴づける基準を生成するために、過去及び／又は未来の２－１０秒からの映像フレームの信頼性インデクスを使用する。前記基準は、第２の映像データにおいて、各フレームに対する周期の基準である基準周期性情報の一例である。このように、基準選択部１０９は、取得された信頼値に基づき基準周期性情報を選択するとよい。前記基準は、脈拍数値、周期性値、又は、ノイズシナリオで予測される、汚れのないパルス信号を示す信号であるとよい。以下の説明において、基準選択部１０９は、基準周期性値を基準として選択するものとする。

周期成分抽出部１１０は、基準選択部１０９により選択された基準を用いて、ＲＯＩ選択及びパルス抽出部１０４により抽出されたパルス信号（部分領域パルス信号）から周期成分を抽出する。尚、部分領域パルス信号の集合は、周期成分抽出部１１０に対して複数成分の入力信号を形成する。そして、周期成分抽出部１１０は、入力データから基準信号と最も一致する周期成分を抽出するために、周期的成分抽出又は相関の最大化を行う。言い換えると、周期成分抽出部１１０は、ノイズのないパルス信号を抽出することを目的として、複数成分パルス信号（顔面上で、３つのカラーチャネル（Ｒ，Ｇ，Ｂ）、（ＨＳＶのような）他の色の部分空間チャネル、又は、空間チャネルである成分、部分ＲＯＩ）から周期的成分を抽出するために、信号分解法又は自己相関の最大化を使用するだけでなく、適応フィルタを適用する。適応フィルタリングは、信頼レベル値に基づいて、周波数領域又は時間領域フィルタリングをパルス信号に適用する。そして、基準選択部１０９からの基準周期性は、カットオフ値又は帯域幅又は適応フィルタの他の同様のパラメータを判定するために使用され得る。さらに、周期成分抽出部１１０は、周期成分のＦＦＴ（Fast Fourier Transform）において最大のピークに対応する通常の周波数値である、最終脈拍数（第３の脈拍数）を、最後に出力として与える。すなわち、周期成分抽出部１１０は、抽出された周期成分における周波数分析を実行することにより最終脈拍数を推定する。さらに、周期成分抽出部１１０は、基準周期性情報を用いて第３の脈拍数を推定する。さらに、周期成分抽出部１１０は、第２の映像データ内の各フレームから第１の推定部により抽出された複数成分のパルス信号から特定の周期成分の少なくとも１つを、基準周期性情報を用いて、抽出することにより、第３の脈拍数を推定するとよい。

＜装置の動作＞
図２は、本開示の第１の実施形態にかかる脈拍数推定のための学習段階を説明するためのフローチャートである。以下の説明では、脈拍数推定装置１００が人物の顔の映像から心拍数を推定するものとする。また、第１の実施形態では、脈拍数推定方法は、脈拍数推定装置１００を動作させることにより実行される。従って、本実施形態の脈拍数推定方法の説明は、脈拍数推定装置１００により実行される以下の動作の説明に置き換えられる。

最初に、映像撮影部１０１は、学習用の人間の顔の第１の映像データを撮影する。そして、身体部位追跡部１０２は、映像撮影部１０１から第１の映像データを受信する（Ｓ１１）。

次に、脈拍数推定装置１００は、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４及び脈拍数推定部１０５を用いて、初期脈拍数推定を実行する（Ｓ１２）。その後、脈拍数推定装置１００は、特徴選択部１０６及び信頼回帰部１０７を用いて、判定モデル学習を実行する（Ｓ１３）。

図３は、本開示の第１の実施形態にかかる初期脈拍数推定処理を説明するためのフローチャートであり、図５は、撮影画像から初期脈拍数を推定する処理の概念を説明するための図である。

最初に、身体部位追跡部１０２は、撮影画像群２００（第１の映像データ）の各フレームから特徴点を検出する（Ｓ１２０）。つまり、身体部位追跡部１０２は、各映像フレームについて、（学習するために）観察されている第１の人物の顔を追跡する。例えば、身体部位追跡部１０２は、撮影画像群２００の一つである撮影画像２０１内の特徴点２０２を検出する。

次に、ノイズ源検出部１０３は、特徴点群に基づいて各フレーム内のノイズ源を特定し（Ｓ１２１）、フレームノイズ源ラベル２０３を各フレームに割り当てる。つまり、ノイズ源検出部１０３は、特徴点２０２を用いて撮影画像２０１内のノイズ源を特定し、１種類のノイズ源であるラベルの一つを撮影画像２０１のフレームに割り当てる。例えば、フレームノイズ源ラベルは、３つのラベルＭ、Ｅ及びＳを含むとよい。ラベルＭはフレームのノイズ源が「頭部移動」であることを示す。ラベルＥは、フレームのノイズ源が「表情」であることを示す。ラベルＳは、ノイズ源がフレームから「未だ（still）」特定されていない、つまり、フレームのノイズ源が「ない」ことを示す。その後、ノイズ源検出部１０３は、割り当てられたラベルをＲＯＩ選択及びパルス抽出部１０４へ出力する。

同時に、ＲＯＩ選択及びパルス抽出部１０４は、顔上のＲＯＩを選択し、ノイズの局在化（localization）及びパルス情報のために、各ＲＯＩをいくつかのＲＯＩ部分領域に分割する（Ｓ１２２）。例えば、ＲＯＩ選択及びパルス抽出部１０４は、特徴点２０２に基づいて撮影画像２０１から顔上のＲＯＩを選択し、ＲＯＩをいくつかのＲＯＩ部分領域２０４に分割する。

ステップＳ１２１及びＳ１２２の後、ＲＯＩ選択及びパルス抽出部１０４は、各ＲＯＩ部分領域からパルス信号を抽出する（Ｓ１２３）。例えば、ＲＯＩ選択及びパルス抽出部１０４は、ノイズ源ラベル２０３を用いて、ＲＯＩ部分領域２０４からパルス信号２０５を抽出する。

ステップＳ１２１及びＳ１２３の後、ＲＯＩ選択及びパルス抽出部１０４は、割り当てられたラベルを用いて、抽出されたパルス信号に存在する有用なパルス情報の量に比例する重みを各ＲＯＩ部分領域に割り当てるためのＲＯＩフィルタを生成する（Ｓ１２４）。例えば、ＲＯＩ選択及びパルス抽出部１０４は、ノイズ源ラベル２０３及び抽出されたパルス信号２０５を用いて、ＲＯＩフィルタ２０６を生成する。ＲＯＩフィルタ２０６は、複数の係数ｌ_１、ｌ_２、ｌ_３、・・・ｌ_ｎ（ｎは２以上の自然数）を含む。例えば、係数ｌ_１は、抽出されたパルス信号２０５内の第１のパルス信号に対応し、第１のパルス信号は、撮影画像群２００に含まれる第１のフレーム（撮影画像）のＲＯＩ部分領域から、ステップＳ１２３において、抽出されたものである。そして、係数ｌ_１は、第１のフレームに対応するノイズ源ラベルに基づき導出される。係数ｌ_２は、抽出されたパルス信号２０５内の第２のパルス信号に対応し、その後は同じである。

ステップＳ１２４の後、ＲＯＩ選択及びパルス抽出部１０４は、生成されたＲＯＩフィルタを抽出されたパルス信号に適用し、抽出されたパルス信号に対してラベル依存ノイズ補正を行う（Ｓ１２５）。例えば、ＲＯＩ選択及びパルス抽出部１０４は、ＲＯＩフィルタ２０６を抽出されたパルス信号２０５に適用し、ノイズを削除すること及びノイズのないパルス信号を取得することのために、ラベル特定補正を行い、ノイズ抑制パルス信号をフィルタされたパルス信号２０７として出力する。

ステップＳ１２５の後、脈拍数推定部１０５は、抽出されたノイズ抑制パルス信号（結合されたパルス信号）における周波数分析を実行し、「簡易推定（simple estimate）」としても知られる脈拍数推定値を生成する。つまり、脈拍数推定部１０５は、フィルタされたパルス信号２０７における周波数分析を実行することにより、初期推定脈拍数２０８を推定する（Ｓ１２６）。例えば、初期推定脈拍数は、結合されたパルス信号のＦＦＴの最高ピークに対応する周波数値であるとよい。

ステップＳ１２６の後、脈拍数推定部１０５は、推定された初期脈拍数、検出された特徴点（特徴点位置）、抽出されたパルス信号、特定されたノイズ源ラベル、生成されたＲＯＩフィルタの係数、及び、周波数分析（ＦＦＴ）の結果の少なくとも１つを含む、（第１の）特徴データを特徴選択部１０６へ出力する（Ｓ１２７）。

図４は、本開示の第１の実施形態にかかる判定モデルの学習処理を説明するためのフローチャートであり、図６は、特徴データから判定モデルを学習する処理の概念を説明するための図である。

最初に、特徴選択部１０６は、脈拍数推定部１０５から出力された第１の特徴データを受信する（Ｓ１３１）。尚、第１の特徴データは、ノイズあり／破損したパルス信号を含むため、特徴選択部１０６による出力データよりも低いレベルの特徴といわれる。そのように、低レベル特徴２１０は、特徴点２０２、ノイズ源ラベル２０３、抽出されたパルス信号２０５及び推定された初期脈拍数２０８等を含む。

次に、特徴選択部１０６は、受信した第１の特徴データから学習用の（第３の）特徴データを抽出する（Ｓ１３３）。尚、第３の特徴データは、第１の特徴データよりも高い品質を有する。つまり、第１の特徴データは低レベル特徴２１０であり、第３の特徴データは高レベル特徴２１１である。第３の特徴データは、パルス信号を生成する高い精度を特徴づけ、ノイズあり／破損したパルス信号からそれを区別し、信頼性インデクス／信頼値を取得する信頼回帰部１０７へそれをフィードするために、潜在的に使用され得る。例えば、高レベル特徴２１１は、時間の経過に伴う特徴点グラフ／相対位置、パルス波形状及び組合せ、周波数特徴等を含むとよい。言い換えると、特徴選択部１０６は、より有用な情報（パルス波形状を撮影した特徴、又は、パルス波のノイズ特性、又は、特徴点位置等）を取得するために、（ニューラルネットワーク回帰部を用いて）明示的又は暗示的に高レベル特徴を抽出する。このように、第３の特徴データは、特徴点２０２、ノイズ源ラベル２０３、抽出されたパルス信号２０５、推定された初期脈拍数２０８等の一部を含むとよい。

ステップＳ１３１に依存せず、信頼回帰部１０７は、正解脈拍数を受信する（Ｓ１３２）。正解脈拍数２１２は、例えば、最良標準（gold standard）脈拍数測定装置を用いて、第１の映像データを撮影中に、第１の身体から測定された生理学的情報及び当該身体から測定された脈拍数である測定値の例である。

ステップＳ１３１及びＳ１３２の後、信頼回帰部１０７は、推定された初期脈拍数と正解脈拍数の間の差分を、教師データとして、算出する（Ｓ１３４）。例えば、信頼回帰部１０７は、推定された初期脈拍数２０８（ＵＨｚ）と正解脈拍数２１２（ＶＨｚ）の間の差分を、信頼レベルラベル２１３として算出する。

ステップＳ１３３及びＳ１３４の後、信頼回帰部１０７は、学習用の第３の特徴データ（高レベル特徴２１１）と教師データ（信頼レベルラベル２１３）を用いて、回帰分析モデルのパラメータを学習する（Ｓ１３５）。例えば、信頼回帰部１０７は、ネットワーク／モデルにより入力特徴の分布を学習する。回帰モデルは、特徴の集合がどれくらいノイズなしとみなされるかの測定値であり、簡易推定が正解脈拍数とどの程度一致するかに依存する、抽出された特徴について信頼性インデクス（０と１の間の値）を生成できる。信頼回帰部１０７は、不正確な推定値にペナルティを課し、正確な推定値に報酬を与えることにより、正解の信頼レベル（教師データ）と判定された信頼レベルの間の差分を最小化するように回帰モデルを学習する。言い換えると、信頼回帰部１０７は、ある時点で、入力映像ストリームがどれくらい信頼できるかに対応する、０と１の間のスカラー値（信頼レベル）を取得するために、高レベル特徴の分布を学習する。例えば、信頼回帰部１０７は、例えば、以下の式を用いて、正確な信頼レベルを出力するための信頼レベル回帰分析モデルの重みを学習する。
Minimize || w * (入力特徴ベクトル) - Y || ^2

尚、信頼回帰部１０７は、脈拍数推定装置１００内の記憶装置（不図示）へ学習済み回帰モデル（学習済み判定モデル２１４）を出力するとよい。

図７は、本開示の第１の実施形態にかかる脈拍数推定のためのテスト段階を説明するためのフローチャートであり、図８は、テスト段階において初期脈拍数から最終脈拍数を推定する処理の概念を説明するための図である。

最初に、身体部位追跡部１０２は、撮影画像の各フレーム（第２の映像データ）から特徴点を検出する（Ｓ２１）。尚、第２の映像データは、パルス信号が見えない撮影画像であり、パルス信号の推定用のデータである。つまり、身体部位追跡部１０２は、各映像フレームについて（推定用に）観察されている第２の人物の顔を追跡する。例えば、身体部位追跡部１０２は、推定用の撮影画像の一つである撮影画像２２１内の特徴点２２２を検出する。

次に、図３のステップＳ１２０からＳ１２７のように、脈拍数推定装置１００は、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４及び脈拍数推定部１０５を用いて、初期脈拍数推定を行う（Ｓ２２）。結果として、脈拍数推定部１０５は、第２の映像データから第２の初期脈拍数を推定し、第２の初期脈拍数及び第２の初期脈拍数を推定する際に導出された他の特徴を含む、第２の特徴データを特徴選択部１０６へ、出力する。例えば、第２の特徴データは、特徴点２２２、ノイズ源ラベル２２３、抽出されたパルス信号２２５、推定された初期脈拍数２２８等を含む、低レベル特徴２３０である。

ステップＳ２２の後、図４のステップＳ１３１及びＳ１３３のように、特徴選択部１０６は、第２の特徴データを受信し、受信した第２の特徴データから、学習済み判定モデル２１４へ入力するための（第４の）特徴データを抽出する（Ｓ２３）。第４の特徴データは、特徴点２２２、ノイズ源ラベル２２３、抽出されたパルス信号２２５、推定された初期脈拍数２２８等の一部を含むとよい。

ステップＳ２３の後、信頼推定部１０８は、学習済み判定モデル２１４を用いて、第２の脈拍数の信頼レベルを判定する（Ｓ２４）。学習済み判定モデル２１４、つまり、学習済み回帰部又は学習済み回帰分析モデルは、図４のステップＳ１３５において信頼回帰部１０７により学習されたパラメータである、重みを設定（／修正）されていた。つまり、学習済み判定モデル２１４は、正確な信頼レベルを出力するための回帰分析モデルの重みをすでに学習済みである。

より具体的には、信頼推定部１０８は、特徴選択部１０６から第２の高レベル特徴２１１（第４の特徴データ）を取得し、第２の高レベル特徴２１１を学習済み判定モデル２１４へ入力する。学習済み判定モデル２１４は、例えば、以下の式を用いて、第２の高レベル特徴２１１から信頼レベル２３２を生成する。
信頼レベル＝ｗ＊（入力特徴ベクトル）
そして、学習済み判定モデル２１４は、信頼レベル２３２を信頼推定部１０８へ出力する。このように、信頼推定部１０８は、信頼レベル２３２を取得する。例えば、信頼レベル２３２は、第２の映像データの信頼値を示すスカラー値（０と１の間）である。信頼レベルは、ノイズの存在下でのパルス信号から心臓変動を抽出するために、基準選択部１０９及び周期成分抽出部１１０により用いられる。

ステップＳ２４の後、基準選択部１０９は、信頼レベル２３２を用いて、フレームの集合（第２の映像データ）のそれぞれについて、基準脈拍数２３３を選択する（Ｓ２５）。例えば、基準選択部１０９は、より精緻な周波数分析が最終脈拍数を取得するために行われる間に、代表的な周波数値を選択する。（過去及び／又は未来から）隣接フレームの信頼レベル２３２は、基準を選択する（粗いレベルの推定）ために用いられる。言い換えると、基準選択部１０９は、基準パルス信号又は脈拍数（周波数／周期性）値を選択する。つまり、基準が近い過去及び／又は未来の高信頼の入力特徴から選択されるため、基準選択は、最終推定脈拍（数）が基準と同様であると予想されることを意味する。言い換えると、基準選択部１０９は、以前及び／又は未来の２－１０秒から第２の映像フレームの信頼性インデクスを用いることにより、望ましいノイズのない心臓変動を粗く特徴づける基準を生成する。基準は、脈拍数値、又は、周期性値、又は、ノイズシナリオで予測される、汚れのないパルス信号を示す信号であるとよい。尚、本実施形態では、基準脈拍数値が選択されたものとする。

ステップＳ２５の後、周期成分抽出部１１０は、基準選択部１０９により選択された基準を用いて、ＲＯＩ選択及びパルス抽出部１０４により抽出されたパルス信号（部分領域パルス信号）から周期成分２３４を抽出する（Ｓ２６）。つまり、周期成分抽出部１１０は、選択された基準周波数を用いて、パルス波の最も周期的な成分を抽出する。言い換えると、周期成分抽出部１１０は、基準周波数を用いて精緻なレベルの推定を行い、より精緻な周波数分析は、最終脈拍数を取得するために実行される。例えば、周期成分抽出部１１０は、選択された基準（選択された基準レートと近いレート、又は、選択された基準信号と密接に似ているパルス波）に近いノイズあり入力特徴から最も周期的な成分を抽出する。別の例では、周期成分抽出部１１０は、ノイズのないパルス信号を抽出することを目的として、複数成分パルス信号（顔面上で、３つのカラーチャネル（Ｒ，Ｇ，Ｂ）、（ＨＳＶ、ＹＣｂＣｒ等のような）他の色の部分空間チャネル、又は、空間チャネルである成分、部分ＲＯＩ）から周期的成分を抽出するために、基準選択部１０９により生成された粗い基準の助けを借りて、適応フィルタリング、信号分解法及び／又は自己相関の最大化を使用する。

ステップＳ２５の後、周期成分抽出部１１０は、周期成分２３４の周波数分析を行い、最終脈拍数２３５を出力する（Ｓ２７）。つまり、周期成分抽出部１１０は、周期成分２３４の周波数分析を行うことにより、最終脈拍数２３５（第３の脈拍数）を推定する。

＜映像シーケンスからの脈拍数推定＞
第１の推定部は、（映像撮影部１０１、）身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４及び脈拍数推定部１０５を含む。第１の推定部は、ウェブカメラ、又は、赤外線カメラ、又は、任意の映像撮影装置から、任意の画像のシーケンス、事前に録画された映像（画像のシーケンス）又はライブビデオ録画ストリームを入力として取得して、「簡易脈拍数推定」を行う。さらに、第１の推定部は、推定されたパルス信号である出力を生成する。このプロセスにおいて、第１の推定部は、ノイズ源、ＲＯＩフィルタの重み、パルス信号統計（平均、分散等）、パルス信号のＦＦＴ、パルス信号のＳＮＲ等のようなパルス信号を説明する多くの特徴を生成する。簡易脈拍数推定の処理で生成された特徴と共に、推定されたパルス信号は、特徴選択部１０６において高レベル特徴を生成するために低レベル特徴として使用される。我々は、以下に特徴選択部１０６の動作を説明する。

＜特徴選択＞
第１の推定部における信号処理中に生成された低レベル特徴は、パルス信号がノイズによりどの程度が破損しているかに関する情報を含む。しかしながら、これらの機能の全てがノイズの効果（又は信頼性インデクス）を判定するために有用又は関連するわけではない。このように、我々は、回帰分析をより正確にするために、ノイズについてより多くの情報を与える特徴を特定（又は高レベル特徴を生成）し、特徴選択部１０６の出力としてそれらの特徴のみを選択することを必要とする。

関連機能を選択するための複数の方法がある：
ｉ）パルス信号のＳＮＲ（最大ピーク前後のパワースペクトル密度（ＰＳＤ）と脈拍数周波数帯上のＰＳＤの比率）、平均及び分散等のようなノイズ関連情報を含む特徴を手動で選択／生成する
ｉｉ）ＰＣＡ／ＩＣＡ／ＬＤＡ、ＬＡＳＳＯ回帰、ＣＦＳ等のようなフィルタ及びラッパー法を用いて、明示的な特徴選択／除去を行う
ｉｉｉ）学習段階において、回帰のために用いられる回帰分析技術又はニューラルネットワークにより実行される暗示的な特徴選択

本開示の第１の実施形態は、学習段階において回帰分析を実行することにより、信頼レベルを入力特徴に割り当てるために学習されるニューラルネットワークを介して、暗示的特徴選択（上記（ｉｉｉ）の方法）を実行する。

＜学習段階－信頼レベルに関する回帰モデルを学習すること＞
学習段階は、信頼回帰部１０７が入力特徴の分布を学習するために回帰分析モデル（／ネットワーク）を学習し、それらに信頼レベル／信頼性インデクス（０と１の間の値）を割り当てる期間である。正解ラベル（信頼の正解値）は、最良標準脈拍数測定装置（例えば、心拍数の場合、最良標準ＥＣＧ装置）を用いて、測定され得る正解脈拍数の知識で生成される。０に近い正解信頼レベル値は、推定された初期脈拍数とＨＲの正解脈拍数の間の高い差分を意味し、１に近い正解信頼レベル値は、推定された初期脈拍数とＨＲの正解値の間の低い差分を意味する。推定された初期脈拍数は、上記「簡易脈拍数推定」法を用いて、脈拍数推定部１０５により推定された脈拍数である。

本開示の第１の実施形態は、時刻ｔに取得された入力特徴について、（回帰分析モデルを学習するために「教師信号」としての機能を果たす）正解信頼レベルを計算するために式（１）で与えられる式を使用する。しかしながら、推定された初期脈拍数が最良標準脈拍数測定装置を用いて正解脈拍数値にどのくらい近いか（またはどのくらい遠いか）を示す、任意の測定値は、正解信頼レベルとして使用され得る。

回帰分析モデルは、不正確な推定値ペナルティを課し、正確な推定値に報酬を与えることにより、正解の信頼レベルと判定された信頼レベルの間の差分を最小化するために学習される。

この処理では、回帰分析モデルの重み（例えば、線形回帰モデルにおける重み係数）は、モデルにより予測される信頼レベルと正解信頼レベルの間の誤差を最小化するために最適化される。式（２）及び（３）は、このことが、入力データ行列Ｘ（ｎ×ｍ、ｎ個のデータ点、ｍ個の特徴）、正解ラベル列行列Ｙ（ｎ×１）及び重みベクトルＷ（ｍ×１）を用いて、最小二乗回帰について行われる方法を示す。我々は、ＸＷ及びＹの間の誤差が最小化されるように、最適な重みＷ^＊を見つける必要がある。

学習が完了した後、信頼回帰部１０７は、回帰モデルの重みＷ＊を凍結し、テスト段階で信頼推定部１０８としてそれを使用する。
任意の新規な入力

は、
学習済みの最小二乗回帰部の場合に、信頼レベル

を割り当てられるだろう。本開示の第１の実施形態において、回帰分析の同一行に沿って、信頼回帰部１０７は、入力特徴全体の信頼レベル分布を学習するために、より洗練されたＲＮＮ（Recurrent Neural Network）ベースの回帰部を使用するとよい。

＜テスト段階＞
テスト段階は、学習段階の後に来る。テスト段階は、映像撮影部１０１、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４、脈拍数推定部１０５及び特徴選択部１０６を用いることにより、学習段階と同じ初期ステップで構成される。学習段階の完了後のため、判定モデルは学習済みであり、信頼推定部１０８は、新しい（見えない）入力特徴の信頼レベルを継続的に推定及び更新するためにそれを使用して、必要に応じて、長い時間（３０秒－６０秒）だけでなく、短い時間（２秒－４秒）の枠（windows）について信頼レベル値を推定する。これに続いて、基準選択部１０９は、信頼推定部１０８において推定された信頼値を用いて、望ましい心臓変動を粗く示す基準（周期性値、脈拍数値、又は、反復基本単位、別名cyclet）値を選択するために、基準選択を行い、最後に、周期成分抽出部１１０は、望ましい心臓変動を最も良く示す成分を取得するために周期的成分抽出を行う。この周期成分の周波数（つまり、レート＝１／周期性）は、最終脈拍数推定値を取得するために使用される。特徴選択部１０６後にテスト段階で使用される各成分は、以下でより詳細に説明される。

＜信頼レベル推定＞
一旦、判定モデルが学習され、重みＷ^＊がロックされると、それは、信頼推定部１０８によりテスト段階で使用される。最小二乗回帰部の単純なケースが式（２）及び（３）により示されるため、
信頼レベル推定値

（０と１の間のスカラー）であって、映像入力の小さい長さを示し、任意の新しい、見えない入力特徴集合

におけるものは、

により与えられるだろう。
学習済みＲＮＮベース回帰部は、また、特徴選択部１０６で生成された特徴集合を入力として取り込み、入力特徴集合ごとのスカラー値を出力として配布して、同様の方法で実行するだろう。この信頼レベルは、入力特徴の信頼性（及び例として、長い映像シーケンスのごく一部の簡易脈拍数推定技術（第１の推定部）、例えば、長い映像シーケンス内で、時刻ｔ_１及び時刻ｔ_１＋４の間の映像クリップにより生成された脈拍数推定の信頼性を示すだろう。テストデータから長い映像シーケンス内の時刻ｔ_１において、この方法、信頼推定部１０８は、時刻ｔ_１までの全ての時間に渡って、すなわち、時刻０秒から時刻ｔ_１への全時間において、信頼レベルを推定することができる。基準選択部１０９は、映像内の時刻ｔ_１に（ＲＯＩ選択及びパルス抽出部１０４により）取得されたパルス信号に存在する心臓変動を粗く示すための信頼できる基準（周期性値、脈拍数値、又は、反復基本単位、別名cyclet）を選択するために、（推定がリアルタイムではなく、しばらく経って実行される場合）未来からだけでなく、（推定がリアルタイムに実行されている場合）過去からこれらの信頼レベルを使用する。

＜基準選択＞
基準選択は、望ましいパルス信号の粗いレベル推定に対して使用される信号の定義特性を選択する手順である。例えば、脈拍数は０．２から０．３Ｈｚの間であると確信する場合、基準はレート０．２５Ｈｚであり、０．１Ｈｚの帯域幅で０．２５Ｈｚを中心とする狭帯域通過フィルターは、ノイズパルス信号内に（ＨＲ推定の場合）心臓変動を見つけるために使用される。基準は、（周波数内で）パルス信号のローカライズに役立ち、参照のない場合の脈拍数として間違えられ得る（基準脈拍数値から遠くである）誤った脈拍数の値を破棄する。最終推定脈拍数が基準に大きく依存するため、基準が正確に選択されることが必要である。特許文献２及び特許文献３の先行手法は、短期／長期に渡って、平均脈拍数として、又は、短期／長期に渡って、最高の自己相関値を有する反復基準単位（cyclet）として、基準を算出し、しかし、特に、（基準計算が短期間分析を用いて行われる場合）ノイズの存在において、又は、（基準計算が長期間分析を用いて行われる場合）急速に変化する脈拍数の存在において、その方法で算出された基準は、不正確になりやすい。

したがって、本実施形態は、式（４）による各時刻ｔ_１において、基準（新発明の第１の実施形態における基準脈拍数値）を計算するために、映像内の（実時間処理の場合）過去及び（処理がしばらく経って行われる場合）未来の時間インスタンス内で、推定された信頼レベルを使用する。

この基準レートは、次の原則及びこれらの原則が代わりに使用され得ることに続く、他の基準を用いて算出される：
ｉ．基準は、時間範囲［ｔ_１－ｐ、ｔ_１＋ｆ］内にある（脈拍数推定部１０５から取得された）推定された脈拍数値を用いて、すなわち、過去のｐ秒から未来のｆ秒の範囲の、ｔ_１前後の通常の小さな時間枠内の推定された初期脈拍数（又は他の特徴）に基づいて、算出される。脈拍数が（ラグなしに）リアルタイムに推定されている場合ｆ＝０。
ｉｉ．時刻ｔ_１に近い時刻ｔで推定レートが与えられることがより重要である。
ｉｉｉ．高い信頼レベルで推定値が与えられることがより重要である。

この方法で算出された基準レートは、現在時刻ｔ_１からそれらの時間差だけでなく推定値の信頼性を考慮する。従って、基準レートは、推定されたレート、及び、ｔ_１前後の小さな時間枠にあるこれらの推定値の信頼性ラベルの支援で、時刻ｔ_１で推定された脈拍数の粗いアイデアを我々に与える。次に、周期成分抽出部１１０は、時刻ｔ１における脈拍数をより正確に推定するために、基準の周囲でより詳細な分析を実行する。

＜周期的な成分抽出＞
基準選択部１０９により取得された基準（脈拍数）を用いて、周期成分抽出部１１０は、基準周波数付近の小さな周波数範囲で最も大きな周期成分を抽出するために、基準脈拍数に対する狭帯域周波数分析（例えば、狭帯域通過フィルター）、又は、相関最大化、又は、周期成分分析を使用する。言い換えると、上述したこれらの周期成分抽出技術は、ＲＯＩ選択及びパルス抽出部１０４により取得された複数成分のパルス信号内に最も顕著／強力である周期成分を見つけるために、（パルスが周期的／準周期的であるため）基準の使用をさせる。これらの成分は、カラーチャネル（Ｒ，Ｇ，Ｂ）、他の色空間（ＨＳＶのような）、又は、顔上の部分ＲＯＩとしても知られる空間チャネルから取得され得る。例えば、狭帯域周波数分析は、最終推定値として選択されているこの狭帯域を超えている任意の推定値の可能性を削除するだろう。つまり、（任意のソースに起因して生成された）ノイズがあり、不正確な推定値が脈拍数推定精度の向上につながる、基準脈拍数に同意しない場合、それらは、破棄されるだろう。

＜最終脈拍数推定＞
最終脈拍数２３５は、抽出された周期成分における周波数分析を行うことにより取得され、周期成分抽出部１１０の出力である。一般的に、（その周期性の逆数である）この周期成分のＦＦＴの最高ピークは、最終脈拍数推定値として選択される。

＜本実施形態の効果＞
第１の効果は、未知のソースからのノイズの存在における高精度なＨＲを推定できることを保証することである。本実施形態によれば、正確な脈拍数推定値という結果であり、これらの特徴を不正確な脈拍数推定値を生成するものと区別する特徴の分布を学習するための回帰分析モデル／ネットワークを学習することにより、いくつかの制御不能なノイズ源により取り込まれるノイズを正常に検出及び定量化することができる。これらのノイズ源は、観察下の人物により実行される剛体及び非剛体運動、オクルージョン、顔追跡エラー、光源変更等を含み、複雑な破損を観察された信号に取り込み、ＨＲを推定することを難しくするが、学習済みの回帰モデルを用いることにより、本開示は、周期的成分抽出に対する正確な基準を選択するだけでなく、新たなパルス信号の信頼性を正確に推定し、ノイズにより取り込まれる破損の範囲を定量化することもできる。

第２の効果は、顔（又は身体の部位）追跡に失敗した場合でさえ、高精度にＨＲを推定できることを保証することである。本実施形態によれば、先行技術とは異なり、破損したパルス信号の分布を学習するための回帰分析を用いることにより、本開示は、低い信頼値をノイズデータに割り当てることにより、そのような追跡失敗を特定し、ノイズを削除する方法を有する。高い信頼データは、脈拍数推定処理を支配し、したがって、先行技術で検出されない、顔追跡失敗に起因する破損データは、脈拍数推定に十分に寄与しないため、より高い精度をもたらす。

第３の効果は、未知のソースからのノイズの存在でさえ、高精度にＨＲを推定できることを保証することである。本実施形態によれば、先行技術とは異なり、破損したパルス信号の分布を学習するための回帰分析を用いることにより、本開示は、低い信頼値をノイズデータに割り当てることにより、未知のソースから来るノイズを特定し、削除する方法を有する。高い信頼データは、脈拍数推定処理を支配し、したがって、先行技術で検出されない、未知のソースに起因する破損データは、脈拍数推定に十分に寄与しないため、より高い精度をもたらす。

第４の効果は、厳密な頭部移動又は表情の存在でさえ、高精度にＨＲを推定できることを保証することである。本実施形態によれば、先行技術とは異なり、破損したパルス信号の分布を学習するための回帰分析を用いることにより、本開示は、ノイズデータがノイズのないデータと非常に区別でき、したがって非常に低い信頼値を取得するという特徴を有するため、高い有意性のものを特定し、削除する方法を有する。高い信頼データは、脈拍数推定処理を支配し、したがって、脈拍数推定処理の先行技術に対して優位を占め、厳密な頭部移動又は表情により影響されたデータは、脈拍数推定に十分に寄与しないため、より高い精度をもたらす。

第５の効果は、不正確な基準推定選択のケースを削減することにより、正確にＨＲを推定できることを保証することである。先行技術は、信頼できると考えられる脈拍数推定値に対して頭部移動及び表情の欠如を要求するだけであるが、本実施形態によれば、基準レートは、（ノイズのないソースを特定するために具体的に選択された特徴に基づく学習済みの回帰モデルにより）最近の過去（又は未来）に高い信頼を割り当てられていた推定値を用いて選択される。未知のソースに起因してノイズが存在する場合に、先行技術は、その素朴な基準のため不正確な「基準ＨＲ」を選択する可能性がある。一方、本開示において信頼を割り当て、基準レートを選択する洗練された手順により、未知のソースに起因するノイズの存在でさえ、正確な基準レートが選択されることを意味する。最終脈拍数推定値が基準レート値に大きく依存するため、より正確な基準選択は、より正確な脈拍数推定を意味する。あるいは、同じ処理は、近赤外線カメラ又は赤外線カメラを用いること、及び、これらのイメージングデバイスの出力ピクセル値を用いることにより、実行され得る。その場合、その効果を得ることができる。

上述したように、本発明によれば、頭部移動、顔の表情、追跡エラー、及び／又は、未知のソースにより引き起こされるノイズの存在の場合に、ＨＲ推定精度を向上することができる。非特許文献１及び特許文献１に対する新規な発明の主な利点は、それに加えて（非特許文献１及び特許文献１と同様に動的なＲＯＩ選択を通じて）映像データの相対的な空間信頼性の判定であり、また、本新規な発明は、映像データの（信頼回帰部及び信頼推定部を通じた）絶対的な時間的信頼性の判定を行い、
ｉ．パルス信号が（ノイズ源に依存しない）ノイズにより破損されたか否かを検出し、
ｉｉ．（信頼レベル／信頼性インデクスを用いて）ノイズによる破損のレベルを定量化し、
ｉｉｉ．（高い信頼及び低い破損を用いて信頼できる基準を選択することにより）このノイズを削除し、（適応フィルタ及び周期成分抽出を用いることにより）最高がノイズのない心臓変動を示す成分を抽出する
ことに、新しい発明が役立つ。

＜プログラム＞
本実施形態のプログラムは、図２，３，４及び７に示される必要なステップをコンピュータに実行させるプログラムであることのみが必要である。本実施形態にかかる脈拍数推定装置１００及び脈拍数推定方法は、コンピュータにプログラムをインストールし、それを実行することにより実現できる。この場合、コンピュータのプロセッサは、映像撮影部１０１、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４、脈拍数推定部１０５、特徴選択部１０６、信頼回帰部１０７、信頼推定部１０８、基準選択部１０９及び周期成分抽出部１１０として機能する。

本実施形態にかかるプログラムは、複数のコンピュータを用いて構築されるコンピュータシステムにより実行できる。この場合、例えば、各コンピュータは、映像撮影部１０１、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４、脈拍数推定部１０５、特徴選択部１０６、信頼回帰部１０７、信頼推定部１０８、基準選択部１０９及び周期成分抽出部１１０を別のものとして機能する。

また、本実施形態にかかるプログラム実行することにより脈拍数推定装置１００を実現するコンピュータは、図面を参照して説明される。図９は、本開示の第１の実施形態にかかる脈拍数推定装置のハードウェア構造を示すブロック図である。

図９に示されるように、コンピュータ１０は、ＣＰＵ(Central Processing Unit)１１、メインメモリ１２、ストレージ装置１３、入力インタフェース１４、ディスプレイコントローラ１５、データリーダ／ライタ１６及び通信インタフェース１７を備える。これらの部は、相互データ通信が可能なようにバス２１を介して接続される。

ＣＰＵ１１は、ストレージ装置１３に格納された本実施形態にかかるプログラム（コード）を、プログラムをメインメモリ１２へ展開し、所定のシーケンスでそれらを実行することにより様々な演算を実行する。メインメモリ１２は、DRAM (Dynamic Random Access Memory)等の一般的な揮発性ストレージデバイスである。また、本実施形態にかかるプログラムは、コンピュータ可読記憶媒体（記録媒体）２０に格納された状態で提供される。尚、本実施形態にかかるプログラムは、通信インタフェース１７を介して接続された、インターネット経由で配布されてもよい。

また、ストレージ装置１３の具体例は、ハードディスクドライブに加えて、フラッシュメモリ等の半導体ストレージを含む。入力インタフェース１４は、ＣＰＵ１１とキーボード又はマウス等の入力装置１８との間でデータ通信を仲介する。ディスプレイコントローラ１５は、ディスプレイ装置１９と接続され、ディスプレイ装置１９上の表示を制御する。

データリーダ／ライタ１６は、ＣＰＵ１１と記録媒体２０の間のデータ通信を仲介し、記録媒体２０からプログラムを読み出し、コンピュータ１０により実行される処理の結果を記録媒体２０に書き込む。通信インタフェース１７は、ＣＰＵ１１及び別のコンピュータの間のデータ通信を仲介する。

また、記録媒体２０の具体例は、ＣＦ(Compact Flash (登録商標))等の汎用半導体記憶装置、ＳＤ（Secure Digital）、フレキシブルディスク等の磁気記憶媒体、及びCD-ROM (Compact Disk Read Only Memory)等の光記憶媒体を含む。

本実施形態にかかる脈拍数推定装置１００は、プログラムがインストールされたコンピュータを用いるよりむしろ、様々なコンポーネントに対応するハードウェアのアイテムを用いて実現されてもよい。さらに、脈拍数推定装置１００の一部は、プログラムにより実現され、脈拍数推定装置１００の残りの部分は、ハードウェアにより実現されてもよい。

＜第２の実施形態＞
図１０は、本開示の第２の実施形態にかかる推定装置３０の構造を示すブロック図である。推定装置３０は、第１の推定部３１、学習部３２、取得部３３及び第２の推定部３４を備える。

第１の推定部３１は、皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定し、当該第１の脈拍数を推定するために前記第１の映像データに基づき導出された第１の特徴データを出力する。尚、映像撮影部１０１、身体部位追跡部１０２、ノイズ源検出部１０３、ＲＯＩ選択及びパルス抽出部１０４及び脈拍数推定部１０５は、第１の推定部３１の一例である。

学習部３２は、前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する。尚、特徴選択部１０６及び信頼回帰部１０７は、学習部３２の一例である。

取得部３３は、前記第１の推定部が推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定した場合に、前記第１の推定部により導出された第２の特徴データを取得し、当該第２の特徴データと前記学習部により学習された前記判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得する。尚、信頼推定部１０８は、取得部３３の一例である。

第２の推定部３４は、前記取得された信頼値に基づき、第３の脈拍数を推定する。尚、基準選択部１０９及び周期成分抽出部１１０は、第２の推定部３４の一例である。

図１１は、本開示の第２の実施形態にかかる推定方法を説明するためのフローチャートである。最初に、第１の推定部３１は、皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定する第１の推定処理を実行する（Ｓ１）。次に、第１の推定部３１は、第１の推定処理における第１の映像データに基づき導出された第１の特徴データを学習部３２へ出力する（Ｓ２）。さらに、学習部３２は、第１の特徴データと身体から測定された生理学的情報とに基づいて、第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する（Ｓ３）。さらに、第１の推定部３１は、推定対象の身体の部位が撮影された第２の映像データから第２の脈拍数を推定する第２の推定処理を行う。そして、第１の推定部３１は、第２の推定処理において第２の映像データに基づき導出された第２の特徴データを取得部３３へ出力する（Ｓ５）。その後、取得部３３は、第２の特徴データと学習済みの判定モデルとを用いて、第２の脈拍数の信頼値を取得する（Ｓ６）。そして、第２の推定部３４は、取得された信頼値に基づき、第３の脈拍数を推定する（Ｓ７）。

第２の実施形態によれば、推定精度を向上することができる。

＜発明の他の実施形態＞
当業者は、本開示のシステム、動作及び方法がいくつかの方法で実装され得、それ自体、前述の実施形態及び実施例によって限定されるべきではないことを認識するであろう。言い換えると、ハードウェア、ソフトウェア又はファームウェアの様々な組み合わせの中で単一又は複数のコンポーネントにより実行される機能的な要素が、サーバサイド（ＳＰサイド）でソフトウェアアプリケーションの中で配布されるとよい。さらに、本開示のフローチャートに示された方法の実施形態は、技術のより完全な理解を提供するために例示の方法により提供される。同じ目標を達成するために、様々な構成要素を機能的に変更することができる代替の実施形態を企図することができる。本開示の目的のために様々な実施形態が説明されてきたが、そのような実施形態は、本開示の教示をそれらの実施形態に限定すると見なされるべきではない。本開示に記載されているシステムおよび動作の範囲内にとどまる結果を得るために、上記の要素及び動作に様々な変更及び修正を加えることができる。

さらに、本発明が上記の例示的な実施形態によって限定されないことは明らかであるが、すでに述べた本発明の範囲から逸脱することなく、様々な修正を加えることができる。例えば、上記の例示的な実施形態は、本発明をハードウェア構成であるとして説明したが、本発明はこれに限定されない。本発明はまた、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）にコンピュータプログラム上で任意のプロセスを実行させることによって実現することができる。この場合、プログラムは、任意のタイプの非一時的なコンピュータ可読媒体を使用して、コンピュータに保存及び提供することができる。

非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフロッピーディスク、磁気テープ、ハードディスクドライブ等）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＣＤ－Ｒ（ｃｏｍｐａｃｔｄｉｓｃｒｅｃｏｒｄａｂｌｅ）、ＣＤ－Ｒ／Ｗ（ｃｏｍｐａｃｔｄｉｓｃｒｅｗｒｉｔａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））を含む。また、プログラムは、任意のタイプの一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、有線通信路（電線及び光ファイバ等）又は無線通信路を介して、プログラムをコンピュータに供給できる。

前述の実施形態の一部または全ては、以下の付記のように説明することができるが、本発明はそれに限定されない。
（付記１）
皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定し、当該第１の脈拍数を推定するために前記第１の映像データに基づき導出された第１の特徴データを出力する第１の推定部と、
前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する学習部と、
前記第１の推定部が推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定した場合に、前記第１の推定部により導出された第２の特徴データを取得し、当該第２の特徴データと前記学習部により学習された前記判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得する取得部と、
前記取得された信頼値に基づき、第３の脈拍数を推定する第２の推定部と、
を備える推定装置。
（付記２）
前記第１の特徴データにおけるノイズを減少するための所定の統計処理を行うことにより第３の特徴データを出力する特徴データ処理部をさらに備え、
前記学習部は、前記第３の特徴データを前記判定モデルの入力として用いて前記判定モデルを学習し、
前記取得部は、前記第２の特徴データから前記特徴データ処理部により出力された第４の特徴データを、前記学習部により学習された前記判定モデルの入力として用いて、前記第２の脈拍数の前記信頼値を取得する
付記１に記載の推定装置。
（付記３）
前記特徴データ処理部は、前記第１の特徴データに対する色領域変換、フィルタの結合及び信号分解の少なくとも１つを前記所定の統計処理として行う
付記２に記載の推定装置。
（付記４）
前記第２の推定部は、前記取得された信頼値に基づき、前記第２の映像データ内のフレームごとに周期の基準である基準周期情報を選択し、前記基準周期情報を用いて前記第３の脈拍数を推定する
付記１乃至３のいずれか１項に記載の推定装置。
（付記５）
前記第２の推定部は、前記第１の推定部により前記第２の映像データ内の各フレームから抽出された複数成分のパルス信号から、前記基準周期情報を用いて、特定の周期成分の少なくとも１つを抽出して前記第３の脈拍数を推定する
付記４に記載の推定装置。
（付記６）
前記生理学的情報は、前記第１の映像データの撮影中に、前記身体から測定された脈拍数である測定値であり、
前記学習部は、前記第１の脈拍数が前記測定値により近いほど前記信頼値がより高く判定されるように前記判定モデルを学習する
付記１乃至５のいずれか１項に記載の推定装置。
（付記７）
前記第１の推定部は、
前記第１の映像データ内の各フレームから前記身体の部位を構成する特徴点を検出し、
前記特徴点に基づき各フレームのノイズ源を特定し、
前記特徴点に基づき各フレームからＲＯＩ（a Region(s) Of Interest）を選択し、
前記ＲＯＩから複数の部分領域に分割し、
前記複数の部分領域のそれぞれからパルス信号を抽出し、
前記特定したノイズ源に応じた重みが部分領域ごとに割り当てられた各ＲＯＩフィルタをフレームごとに生成し、
前記抽出されたパルス信号を前記ＲＯＩフィルタに適用してフィルタされたパルス信号について周波数分析を行うことにより、前記第１の脈拍数を推定する
付記１乃至６のいずれか１項に記載の推定装置。
（付記８）
前記第１の特徴データは、前記推定された第１の脈拍数、前記検出された特徴点の位置、前記抽出されたパルス信号、前記特定されたノイズ源、前記生成されたＲＯＩフィルタの係数、及び、前記周波数分析による分析結果の少なくとも１つを含む
付記７に記載の推定装置。
（付記９）
皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定する第１の推定処理を行い、
前記第１の推定処理において前記第１の映像データに基づき導出された第１の特徴データを出力し、
前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習し、
推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定する第２の推定処理を行い、
前記第２の推定処理において前記第２の映像データに基づき導出された第２の特徴データを出力し、
前記第２の特徴データと前記学習済みの判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得し、
前記取得された信頼値に基づき、第３の脈拍数を推定する
コンピュータを用いた推定方法。
（付記１０）
皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定する第１の推定処理と、
前記第１の推定処理において前記第１の映像データに基づき導出された第１の特徴データを出力する処理と、
前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する処理と、
推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定する第２の推定処理と、
前記第２の推定処理において前記第２の映像データに基づき導出された第２の特徴データを出力する処理と、
前記第２の特徴データと前記学習済みの判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得する処理と、
前記取得された信頼値に基づき、第３の脈拍数を推定する処理と、
をコンピュータに実行させる推定プログラムが格納された非一時的なコンピュータ可読媒体。

本開示は、ストレス検出、ヘルスケア及び事故防止を意図した生理学的情報を推定するためのシステム及び装置に適用可能である。

１００脈拍数推定装置
１０１映像撮影部
１０２身体部位追跡部
１０３ノイズ源検出部
１０４ＲＯＩ選択及びパルス抽出部
１０５脈拍数推定部
１０６特徴選択部
１０７信頼回帰部
１０８信頼推定部
１０９基準選択部
１１０周期成分抽出部
２００撮影画像群
２０１撮影画像
２０２特徴点
２０３ノイズ源ラベル
２０４ＲＯＩ部分領域
２０５抽出されたパルス信号
２０６ＲＯＩフィルタ
２０７フィルタされたパルス信号
２０８推定された初期脈拍数
２１０低レベル特徴
２１１高レベル特徴
２１２正解脈拍数
２１３信頼レベルラベル
２１４学習済み判定モデル
２２１撮影画像
２２２特徴点
２２３ノイズ源ラベル
２２５抽出されたパルス信号
２２８推定された初期脈拍数
２３０低レベル特徴
２３１高レベル特徴
２３２信頼レベル
２３３基準脈拍数
２３４周期成分
２３５最終脈拍数
１０コンピュータ
１１ＣＰＵ
１２メインメモリ
１３ストレージ装置
１４入力インタフェース
１５ディスプレイコントローラ
１６データリーダ／ライタ
１７通信インタフェース
１８入力装置
１９ディスプレイ装置
２０記録媒体
２１バス
３０推定装置
３１第１の推定部
３２学習部
３３取得部
３４第２の推定部

Claims

皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定し、当該第１の脈拍数を推定するために前記第１の映像データに基づき導出された第１の特徴データを出力する第１の推定部と、
前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する学習部と、
前記第１の推定部が推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定した場合に、前記第１の推定部により導出された第２の特徴データを取得し、当該第２の特徴データと前記学習部により学習された前記判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得する取得部と、
前記取得された信頼値に基づき、第３の脈拍数を推定する第２の推定部と、
を備え、
前記第１の推定部は、
前記第１の映像データ内の各フレームから前記身体の部位を構成する特徴点を検出し、
前記特徴点に基づき各フレームのノイズ源を特定し、
前記特徴点に基づき各フレームからＲＯＩ（a Region(s) Of Interest）を選択し、
前記ＲＯＩから複数の部分領域に分割し、
前記複数の部分領域のそれぞれからパルス信号を抽出し、
前記特定したノイズ源に応じた重みが部分領域ごとに割り当てられた各ＲＯＩフィルタをフレームごとに生成し、
前記抽出されたパルス信号を前記ＲＯＩフィルタに適用してフィルタされたパルス信号について周波数分析を行うことにより、前記第１の脈拍数を推定する
推定装置。
前記第１の特徴データにおけるノイズを減少するための所定の統計処理を行うことにより第３の特徴データを出力する特徴データ処理部をさらに備え、
前記学習部は、前記第３の特徴データを前記判定モデルの入力として用いて前記判定モデルを学習し、
前記取得部は、前記第２の特徴データから前記特徴データ処理部により出力された第４の特徴データを、前記学習部により学習された前記判定モデルの入力として用いて、前記第２の脈拍数の前記信頼値を取得する
請求項１に記載の推定装置。
前記特徴データ処理部は、前記第１の特徴データに対する色領域変換、フィルタの結合及び信号分解の少なくとも１つを前記所定の統計処理として行う
請求項２に記載の推定装置。
前記第２の推定部は、前記取得された信頼値に基づき、前記第２の映像データ内のフレームごとに周期の基準である基準周期情報を選択し、前記基準周期情報を用いて前記第３の脈拍数を推定する
請求項１乃至３のいずれか１項に記載の推定装置。
前記第２の推定部は、前記第１の推定部により前記第２の映像データ内の各フレームから抽出された複数成分のパルス信号から、前記基準周期情報を用いて、特定の周期成分の少なくとも１つを抽出して前記第３の脈拍数を推定する
請求項４に記載の推定装置。
前記生理学的情報は、前記第１の映像データの撮影中に、前記身体から測定された脈拍数である測定値であり、
前記学習部は、前記第１の脈拍数が前記測定値により近いほど前記信頼値がより高く判定されるように前記判定モデルを学習する
請求項１乃至５のいずれか１項に記載の推定装置。
前記第１の特徴データは、前記検出された特徴点の位置、前記抽出されたパルス信号、前記特定されたノイズ源、前記生成されたＲＯＩフィルタの係数、及び、前記周波数分析による分析結果の少なくとも１つを含む
請求項１に記載の推定装置。
皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定する第１の推定処理を行い、
前記第１の推定処理において前記第１の映像データに基づき導出された第１の特徴データを出力し、
前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習し、
推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定する第２の推定処理を行い、
前記第２の推定処理において前記第２の映像データに基づき導出された第２の特徴データを出力し、
前記第２の特徴データと前記学習済みの判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得し、
前記取得された信頼値に基づき、第３の脈拍数を推定し、
前記第１の推定処理は、
前記第１の映像データ内の各フレームから前記身体の部位を構成する特徴点を検出し、
前記特徴点に基づき各フレームのノイズ源を特定し、
前記特徴点に基づき各フレームからＲＯＩ（a Region(s) Of Interest）を選択し、
前記ＲＯＩから複数の部分領域に分割し、
前記複数の部分領域のそれぞれからパルス信号を抽出し、
前記特定したノイズ源に応じた重みが部分領域ごとに割り当てられた各ＲＯＩフィルタをフレームごとに生成し、
前記抽出されたパルス信号を前記ＲＯＩフィルタに適用してフィルタされたパルス信号について周波数分析を行うことにより、前記第１の脈拍数を推定する
コンピュータを用いた推定方法。
皮膚が露出した身体の部位が撮影された第１の映像データから第１の脈拍数を推定する第１の推定処理と、
前記第１の推定処理において前記第１の映像データに基づき導出された第１の特徴データを出力する処理と、
前記第１の特徴データと前記身体から測定された生理学的情報とに基づいて、前記第１の脈拍数の推定における信頼性を示す信頼値を判定するための判定モデルを学習する処理と、
推定対象の前記身体の部位が撮影された第２の映像データから第２の脈拍数を推定する第２の推定処理と、
前記第２の推定処理において前記第２の映像データに基づき導出された第２の特徴データを出力する処理と、
前記第２の特徴データと前記学習済みの判定モデルとを用いて、前記第２の脈拍数の前記信頼値を取得する処理と、
前記取得された信頼値に基づき、第３の脈拍数を推定する処理と、
をコンピュータに実行させ、
前記第１の推定処理は、
前記第１の映像データ内の各フレームから前記身体の部位を構成する特徴点を検出し、
前記特徴点に基づき各フレームのノイズ源を特定し、
前記特徴点に基づき各フレームからＲＯＩ（a Region(s) Of Interest）を選択し、
前記ＲＯＩから複数の部分領域に分割し、
前記複数の部分領域のそれぞれからパルス信号を抽出し、
前記特定したノイズ源に応じた重みが部分領域ごとに割り当てられた各ＲＯＩフィルタをフレームごとに生成し、
前記抽出されたパルス信号を前記ＲＯＩフィルタに適用してフィルタされたパルス信号について周波数分析を行うことにより、前記第１の脈拍数を推定する
推定プログラム。