JP2024521117A

JP2024521117A - 複数のカメラを用いた臨床活動認識

Info

Publication number: JP2024521117A
Application number: JP2023571952A
Authority: JP
Inventors: ワンシンシュー; コ－カイアルバートファン
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2021-06-10
Filing date: 2022-05-27
Publication date: 2024-05-28
Also published as: US12051262B2; WO2022259083A1; US20220398396A1; EP4334906A1

Abstract

実装は、一般に複数のカメラを使用して臨床活動を認識する。いくつかの実装では、方法が、環境内の複数のオブジェクトの複数のビデオを取得することを含む。方法は、複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定することをさらに含む。方法は、１又は２以上のキーポイントに基づいて活動情報を認識することをさらに含む。方法は、活動情報に基づいてワークフロー情報を計算することをさらに含む。【選択図】図１

Description

〔関連出願との相互参照〕
本出願は、２０２１年６月１０日に出願された「複数のカメラを用いた臨床活動認識（ＣＬＩＮＩＣＡＬＡＣＴＩＶＩＴＹＲＥＣＯＧＮＩＴＩＯＮＷＩＴＨＭＵＬＴＩＰＬＥＣＡＭＥＲＡＳ）」という名称の米国特許出願第１７／３４４，７３０号（クライアント参照番号：ＳＹＰ３３９２１２ＵＳ０１）に基づく優先権を主張するものであり、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。

本出願は、２０２１年６月１０日に出願された「ビデオ解析のための追跡によるポーズ再構築（ＰＯＳＥＲＥＣＯＮＳＴＲＵＣＴＩＯＮＢＹＴＲＡＣＫＩＮＧＦＯＲＶＩＤＥＯＡＮＡＬＹＳＩＳ）」という名称の米国特許出願シリアル番号第１７／３４４，７３４号（ＳＹＰ３３９２１６ＵＳ０１）に関連し、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。

カメラシステムの中には、人物のビデオを取り込み、人物の動きを分析し、メタデータの画像又はビデオデータセットを生成できるものがある。システムのカメラビデオによって取り込まれた人間のアクションを識別するには、ある人物がビデオを手動で確認する必要がある。手動でのモニタリング及びイベント報告は、特にビデオカメラの位置及び角度が変化して十分なカバレッジを提供できない場合に信頼性が低く、多大な時間を要する場合がある。管理された環境内で複数のカメラを使用することもできる。しかしながら、被写体、動き及び背景の変動が依然として大幅に制限される場合がある。

実施形態は、一般に複数のカメラを使用して臨床活動を認識することに関する。本明細書で説明する実施形態は、手術室、集中治療室（ＩＣＵ）、病室、緊急救命室などの臨床環境における人間の活動の認識に応用することができる。実施形態は、より良い患者治療及びより高い病院効率を提供するためのコンテキストアウェアシステムを提供する。

いくつかの実施形態では、システムが、１又は２以上のプロセッサと、１又は２以上の非一時的なコンピュータ可読記憶媒体に符号化された、１又は２以上のプロセッサによる実行のためのロジックとを含む。ロジックは、実行時に、環境内の複数のオブジェクトの複数のビデオを取得することと、複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定することと、１又は２以上のキーポイントに基づいて活動情報を認識することと、活動情報に基づいてワークフロー情報を計算することと、を含む動作を１又は２以上のプロセッサに実行させるように動作可能である。

いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、複数のビデオが少なくとも２つのビデオカメラによって取り込まれる。いくつかの実施形態では、活動情報がポーズ情報を含む。いくつかの実施形態では、ロジックが、実行時に、環境内の人々である１又は２以上のオブジェクトを認識することと、環境内の各人物の行路を追跡することと、各人物の１又は２以上の活動を識別することと、を含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、環境内の無生物である１又は２以上のオブジェクトを認識することと、環境内で認識された各無生物の位置を追跡することと、無生物である１又は２以上のオブジェクトを各人物に関連付けることと、を含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ワークフロー情報が手術ワークフロー情報を含む。

いくつかの実施形態では、プログラム命令が記憶された非一時的なコンピュータ可読記憶媒体を提供する。プログラム命令は、１又は２以上のプロセッサによって実行された時に、環境内の複数のオブジェクトの複数のビデオを取得することと、複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定することと、１又は２以上のキーポイントに基づいて活動情報を認識することと、活動情報に基づいてワークフロー情報を計算することと、を含む動作を１又は２以上のプロセッサに実行させるように動作可能である。

さらにコンピュータ可読記憶媒体に関して、いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、複数のビデオが少なくとも２つのビデオカメラによって取り込まれる。いくつかの実施形態では、活動情報がポーズ情報を含む。いくつかの実施形態では、命令が、実行時に、環境内の人々である１又は２以上のオブジェクトを認識することと、環境内の各人物の行路を追跡することと、各人物の１又は２以上の活動を識別することと、を含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、命令が、実行時に、環境内の無生物である１又は２以上のオブジェクトを認識することと、環境内で認識された各無生物の位置を追跡することと、無生物である１又は２以上のオブジェクトを各人物に関連付けることと、を含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ワークフロー情報が手術ワークフロー情報を含む。

いくつかの実施形態では、方法が、環境内の複数のオブジェクトの複数のビデオを取得することと、複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定することと、１又は２以上のキーポイントに基づいて活動情報を認識することと、活動情報に基づいてワークフロー情報を計算することと、を含む。

いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、複数のビデオが少なくとも２つのビデオカメラによって取り込まれる。いくつかの実施形態では、活動情報がポーズ情報を含む。いくつかの実施形態では、方法が、環境内の人々である１又は２以上のオブジェクトを認識することと、環境内の各人物の行路を追跡することと、各人物の１又は２以上の活動を識別することと、をさらに含む。いくつかの実施形態では、方法が、環境内の無生物である１又は２以上のオブジェクトを認識することと、環境内で認識された各無生物の位置を追跡することと、無生物である１又は２以上のオブジェクトを各人物に関連付けることと、をさらに含む。いくつかの実施形態では、ワークフロー情報が手術ワークフロー情報を含む。

本明細書の残り部分及び添付図面を参照することにより、本明細書に開示する特定の実装の特質及び利点をさらに理解することができる。

本明細書で説明する実装に使用できる、複数のカメラを使用して臨床活動を認識するための環境例のブロック図である。いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例のブロック図である。本明細書で説明する実装に使用できる、トップダウン手法を使用して臨床活動を認識するためのフロー図である。本明細書で説明する実装に使用できる、ボトムアップ手法を使用して臨床活動を認識するためのフロー図である。本明細書で説明する実装に使用できる、臨床活動を認識するための環境例のブロック図である。本明細書で説明する実装に使用できる、臨床活動の認識において使用されるユーザインターフェイス例のブロック図である。本明細書で説明する実装に使用できるネットワーク環境例のブロック図である。本明細書で説明する実装に使用できるコンピュータシステム例のブロック図である。

本明細書で説明する実施形態は、複数のカメラを用いた臨床活動の認識及びモニタリングを可能にし、容易にし、管理する。いくつかの実施形態では、システムが、環境内の複数のオブジェクトの複数のビデオを取得する。システムは、複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定する。システムは、１又は２以上のキーポイントに基づいて活動情報を認識する。システムは、活動情報に基づいてワークフロー情報をさらに計算する。

本明細書に開示する実施形態については、オブジェクト又は被験者が人間である文脈で説明するが、これらの実施形態は、臨床環境などの環境内で様々な行動を実行できる動物、機械装置などの他のオブジェクトに適用することもできる。

図１は、本明細書で説明する実装に使用できる、複数のカメラを使用して臨床活動を認識するための環境例１００のブロック図である。本明細書でさらに詳細に説明するように、システム１０２は、より良い患者治療及びより高い病院効率を提供するコンテキストアウェアシステムである。いくつかの実装では、環境１００が、ネットワーク１０６を介してクライアント１０４と通信するシステム１０２を含む。ネットワーク１０６は、Ｗｉ－Ｆｉネットワーク、Ｂｌｕｅｔｏｏｔｈネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。

様々な実施形態では、環境１００が、１又は２以上の人々及び／又は１又は２以上のオブジェクトを含む活動が認識され、モニタされ、追跡されるいずれかの環境であることができる。様々な実施形態では、環境１００がいずれかの臨床環境であることができる。例えば、いくつかの実施形態では、環境１００が手術室であることができる。他の実施形態では、環境１００が、集中治療室（ＩＣＵ）、病室、緊急救命室などであることができる。

活動エリア１１０は、手術室の手術エリアであることができる。いくつかの実施形態では、活動エリア１１０が手術室全体であることができる。様々な実施形態では、システム１０２、クライアント１０４及びネットワーク１０６が、環境に対して局所的なもの、遠隔的なもの（例えば、クラウド内）、又はこれらの組み合わせであることができる。

様々な実施形態では、少なくとも２つのビデオカメラによってビデオが取り込まれる。例えば、図示のように、システム１０２は、活動エリア１１０内のオブジェクト１０８のビデオを異なる角度で取り込む物理的ビデオカメラ１１２、１１４、１１６及び１１８を使用してオブジェクト１０８の活動をモニタする。

本明細書でさらに詳細に説明するように、様々な実施形態では、オブジェクト１０８が１又は２以上の人々を表すことができる。例えば、様々なシナリオでは、オブジェクト１０８が、医師及び看護師などの臨床医、１又は２以上の助手、患者などのうちの１人又は２人以上を表すことができる。様々な実施形態では、オブジェクト１０８が１又は２以上の無生物を表すこともできる。例えば、様々なシナリオでは、オブジェクト１０８が、１又は２以上の病院ベッド、手術器具、手術道具などを表すことができる。また、オブジェクト１０８は、複数の人物又は複数の無生物、或いはこれらの組み合わせを表すこともできる。特定のタイプのオブジェクトは様々であることができ、特定の実装に依存する。様々な実施形態では、オブジェクト１０８を、被験者１０８、人物１０８、ターゲットユーザ１０８、又はいずれかの無生物オブジェクト１０８と呼ぶこともできる。

様々な実施形態では、システムが、被験者がウェアラブル機器を有する必要がないという点で効率的な視覚ベースのアプローチを利用する。また、視覚ベースのアプローチは、システムの異なる設定に対して高度にスケーラブルでもある。様々な実施形態では、システムが、臨床環境（例えば、手術室、緊急救命室など）における活動を自動的かつ正確に認識することで、臨床活動の最適化に重要な手術又は臨床ワークフローの理解を可能にする。システムは、患者の転帰及びケアを強化してスタッフのコストを削減するために、スタッフ及び患者活動のリアルタイムモニタリングを実行する。

様々な実施形態では、異なる角度及び／又は異なる距離を含む、同じオブジェクトの異なる視点から複数のビデオ画像及び／又は静止画像を取り込むために、物理的ビデオカメラ１１２、１１４、１１６及び１１８が様々な場所に配置される。カメラという用語とビデオカメラという用語は同義的に使用することができる。これらの異なる視点は、異なるオブジェクトの外観を区別しやすくする。

説明を容易にするために、図１には、システム１０２、クライアント１０４、ネットワーク１０６及び活動エリア１１０の各々につき１つのブロックを示す。ブロック１０２、１０４、１０６及び１１０は、複数のシステム、クライアント装置、ネットワーク及び活動エリアを表すこともできる。また、所与の活動エリアにはあらゆる数の人々／被験者が存在することができる。例えば、いくつかの実施形態では、被験者１０８が１又は２以上の異なる被験者を表すことができる。他の実装では、環境１００が、図示の全てのコンポーネントを有さないことも、及び／又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。

本明細書で説明する実施形態はシステム１０２によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム１０２に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム１０２に関連するいずれかの好適な１又は複数のプロセッサが容易にすることができる。

図２は、いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。図１及び図２を共に参照すると、方法は、システム１０２などのシステムが環境内の複数のオブジェクトの複数のビデオを取得するブロック２０２から開始する。様々な実施形態では、カメラがビデオを録画し、ビデオをいずれかの好適な記憶位置に記憶することができる。様々な実施形態では、（事前較正されたものを含む）所定のカメラパラメータで構成できる複数のカメラからビデオシーケンスが取り込まれる。このようなカメラパラメータは、１又は２以上の内的行列（ｉｎｔｒｉｎｓｉｃｍａｔｒｉｃｅｓ）、１又は２以上の外的行列（ｅｘｔｒｉｎｓｉｃｍａｔｒｉｃｅｓ）などを含むことができる。

ブロック２０４において、システムが環境内の各オブジェクトの１又は２以上のキーポイントを決定する。様々な実施形態では、システムが、ウェアラブル機器が不要であるという点で有益な、複数のカメラを使用する視覚ベースの技術を利用する。また、システムは、システムの異なる設定に対して高度にスケーラブルでもある。

様々な実施形態では、システムが、臨床手順の効率を高めるために手術中にスタッフに様々な状況を良好に認識させるのに役立つ骨格ベースの活動認識手法を提供する。例えば、様々な実施形態では、システムがポーズ推定の実行においてキーポイントを使用することができる。例えば、システムは、医師又は看護師又は他の臨床医などの職員が患者を手術室に案内する場合に、主要身体部分（例えば、頭、胴体、脚、腕など）、関節（首、肩、肘、手首、膝、足首など）、設備、ベッドなどのキーポイントを識別する。

様々な実施形態では、システムが、人工知能（ＡＩ）技術、深層機械学習技術及びコンピュータビジョン技術を利用してビデオからキーポイントを検出、識別及び認識し、各キーポイントをオブジェクト（例えば、職員の頭、患者の胴体など）に関連付けることができる。システムは、これらの技術を利用して、キーポイントの動き及び行路の識別、分類、測定、モニタリング及び追跡を行う。上述したように、手作りの特徴（ｈａｎｄｃｒａｆｔｅｄｆｅａｔｕｒｅｓ）又はウェアラブル機器は不要である。複数のカメラを使用することで、システムが環境の変化に対してロバストになる。また、複数のカメラを使用することで、複雑で混雑した環境のオブジェクトオクルージョン（ｏｂｊｅｃｔｏｃｃｌｕｓｉｏｎｓ）も低下する。

ブロック２０６において、システムが１又は２以上のキーポイントに基づいて活動情報を認識する。様々な実施形態では、活動情報がポーズ情報を含む。例えば、システムは、臨床医が患者をベッドまで歩かせていることを検出して認識することができる。システムは、患者が横になっていることを検出して認識することができる。次に、システムは、患者が横たわっているベッドを職員などの人物が押していることを検出して認識することができる。システムは、患者がベッド内に存在する状態でその人物がベッドを動かしているかどうかを検出することができる。本明細書でさらに詳細に説明するように、システムは、１又は２以上の人々がいつ部屋に出入りしているか、及び／又は機器及び／又は備品をいつ室内に運び込み、運び回っているかを検出することもできる。

様々な実施形態では、システムが、ＡＩ技術、深層機械学習技術及びコンピュータビジョン技術を利用して、歩くことに関連する動き、機器を運ぶことに関連する動き、機器を動作させることに関連する動き、メモを取ることに関連する動きなどの特定の活動情報を認識することができる。様々な実施形態では、システムが、ＡＩ技術、深層機械学習技術及びコンピュータビジョン技術を利用して、被験者の体位及び動きを含む活動情報を特定のオブジェクトに関連付けることもできる。システムは、これらの及びその他の技術を利用して異なるオブジェクトを区別することができる。本明細書に示すように、システムは、複数のカメラを利用して、所与の環境内の異なるオブジェクトのビデオをオブジェクトに対する異なる角度及び距離で取り込む。

このような活動の認識は、病院利用を最適化するために重要な外科的及び／又はその他の臨床的ワークフローの理解を可能にする。臨床環境内の活動のリアルタイムモニタリングは、患者転帰及びケアを強化してスタッフのコストを削減する。

ブロック２０８において、システムが活動情報に基づいてワークフロー情報を計算する。様々な実施形態では、ワークフロー情報が、環境内の１又は２以上のオブジェクト（例えば、人々、設備など）の活動情報を含む。例えば、ワークフロー情報は、各人物（例えば、臨床医、患者など）が入室する時点、準備活動、手術活動、片付け活動などを含むことができる、手術の開始から終了までを表すことができる。ワークフロー情報は、タイムライン、及びタイムライン中に発生する特定の活動を含むこともできる。ワークフロー情報に関するさらなる実施形態例については、例えば図７に関連して本明細書でさらに詳細に説明する。

本明細書に示すように、システムは、環境内の人々である１又は２以上のオブジェクトを認識するとともに、各人物の１又は２以上の活動も識別する。様々な実施形態では、システムが環境内の各人物の行路も追跡する。例えば、システムは、ある人物が所与の部屋又は空間に出入りする際の人物の行路を含む特定の動きを検出することができる。例えば、システムは、ある人物が所与の環境（例えば、手術室など）内を歩く際の人物の行路を含む特定の動きを検出することができる。例えば、システムは、ある職員が患者を所与の環境内の特定の場所及び／又は向きに移動させる際に職員がたどる経路を追跡することができる。

様々な実施形態では、システムが、環境内の無生物である１又は２以上のオブジェクトを認識する。システムは、環境内で認識された各無生物の位置を追跡する。例えば、システムは、手術道具のトレイ、患者が存在するベッド、他の様々な設備などを、環境（例えば、手術室など）内でのこれらの位置及び向きと共に検出することができる。また、システムは、無生物である１又は２以上のオブジェクトを各人物に関連付ける。例えば、所与の人物（例えば、臨床医、助手、その他の職員など）が特定の無生物（例えば、手術道具のトレイなど）を取り扱う場合、システムは、その無生物を特定の人物（例えば、助手）に関連付けることができる。

様々な実施形態では、ワークフロー情報が手術ワークフロー情報を含む。例えば、システムは、オブジェクト（例えば、環境内に存在する、環境に出入りする１又は２以上の人々、１又は２以上の無生物など）のリストを生成することができる。次に、システムは、本明細書で説明するように各オブジェクトに関連するアクションを決定することができる。例えば、システムは、看護師が患者を手術室に案内すること、患者が横になるのを看護師が補助すること、医師が部屋に入ること、職員のチームが手術のために患者及び機器を準備すること、医師が様々な外科的処置を含む手術を行うこと、手術後の片付け、などに関連する情報を検出し、認識して記憶することができる。これらは一例であり、関連する特定のアクションは特定の実装に応じて異なる。

様々な実施形態では、システムが、ワークフローのアクションの時系列的な整理、及び各アクションに関連するタイミング情報（例えば、タイムスタンプなど）の記憶も行う。ワークフロー情報は、検出されたオブジェクトのリスト、様々な異なるオブジェクト間の関連性、及び異なるアクションのタイムラインなどを含むことができる。従って、システムは、全体的手順の開始時刻及び停止時刻を決定する。システムは、全体的手順内の段階の開始時刻及び停止時刻も決定する。このような段階は、例えば設定段階、手術段階、報告段階、片付け段階などを含むことができる。

様々な実施形態では、このようなワークフロー情報が、職員（例えば、管理者、医師、看護師など）がワークフロー内で行われたアクションを分析するのに有用である。システムは、各アクションが適切であるか、それとも不適切であるか、正常であるか、それとも異常であるか、迅速なものであるか、それとも時間のかかるものであるかなどを判定することができる。システムは、不適切なもの、異常なもの、時間のかかるものなどと思われる特定の活動にフラグ付けすることができる。

様々な実施形態では、システムが、ワークフロー情報を提示するレポートを生成することができる。システムは、ワークフロー情報に基づいて１又は２以上の推奨を計算することができる。推奨は、本明細書で説明するような特定の活動に関連するフラグに基づくことができる。例えば、システムは、特定の設定手順が他の同様の設定手順に比べて異常に長い時間を要すると判定することができる。システムは、レポート内でそのアクション及び／又はそのアクションに関連する人物にフラグ付けすることができる。様々な実施形態では、ユーザ又はスタッフがこのような判定を検証し、及び／又はさらなる効率性及び／又は有効性のためにワークフローを修正することができる。従って、本明細書で説明する実施形態は、生成されたワークフロー情報を使用して、異なる処置のタイミングの改善、複雑な事態の把握などを行える点で有益である。レポートに関するさらなる実施形態例については、例えば図７に関連して本明細書でさらに詳細に説明する。

図３は、いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。図１及び図３を共に参照すると、方法は、システム１０２などのシステムが複数のビデオカメラからビデオを取得するブロック３０２から開始する。本明細書に示すように、複数のカメラはビデオを録画し、これらのビデオをいずれかの好適な記憶位置に記憶することができる。様々な実施形態では、（事前較正されたものを含む）所定のカメラパラメータで構成できる複数のカメラからビデオシーケンスが取り込まれる。このようなカメラパラメータは、１又は２以上の内的行列、１又は２以上の外的行列などを含むことができる。

ブロック３０４において、システムがポーズ推定を実行する。このようなポーズ推定は、スタッフ及び患者を含む１又は２以上の人物のポーズ情報を含むことができる。このようなポーズ推定は、いずれかの好適なマルチパーソンポーズ推定器又はキーポイント検出器（例えば、アルファポーズ推定器、高分解能ネットワークなど）を使用して実行することができる。

ブロック３０６において、システムが複数のカメラを使用してデータ融合を実行する。複数のカメラからのロバストかつ正確なデータ融合は、複雑で混雑した環境内で処理することができる。様々な実施形態では、データ融合が、１つのカメラからのある人物のポーズを他のカメラからの同じ人物のポーズに関連付け又は融合するプロセスである。システムは、データ融合後に、複数の２Ｄ対応ポーズを所与として仮想３Ｄ空間内の全てのオブジェクト（例えば、スタッフ、患者など）の３Ｄポーズを再構築する。

様々な実施形態では、複数のカメラが、システムが自己オクルージョン（ｓｅｌｆ－ｏｃｃｌｕｓｉｏｎ）及びオブジェクト間オクルージョン（ｉｎｔｅｒ－ｏｂｊｅｃｔｏｃｃｌｕｓｉｏｎ）を伴うオブジェクトに対処することを可能にする。例えば、重大な自己オクルージョン及びオブジェクト間オクルージョンは、他の人物又は大型の臨床設備が所与のオブジェクトを所与のカメラから部分的に又は完全に遮ることに起因することができる。

複数のカメラは、モニタされているオブジェクトのビューをより多く提供することによってモニタリングタスクを単純化する。複数のカメラを使用することで区別可能な外観情報がもたらされ、たとえ顔がマスクで覆われている場合、及び／又はスタッフと患者とが同様の衣服を着用している場合でもシステムが顔を認識できるようになる。

ブロック３０８において、システムが臨床活動を認識する。様々な実施形態では、システムが、グラフィックスコアネクスト（ｇｒａｐｈｉｃｓｃｏｒｅｎｅｘｔ：ＧＣＮ）法、再帰ニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ：ＲＮＮ）法などを含むことができる一般的な骨格ベースの活動分類器を利用することができる。

ブロック３１０において、システムが、臨床活動を含むワークフロー情報を生成する。様々な実施形態では、ワークフロー情報が、オブジェクト（例えば、スタッフ、患者、無生物など）の行路、及びこのようなオブジェクト（例えば、スタッフ、患者など）の活動を含むことができる。例えば、いくつかの実施形態では、システムが、１つのオブジェクト（例えば、職員など）が別のオブジェクト（例えば、患者など）を手術室に案内している可能性を識別して認識することができる。このような情報は、例えば医療モニタリング、手術室の効率改善などの医療分野における多くの用途にさらに使用することができる。従って、システムは、環境内のスタッフ、患者及び様々なオブジェクトを自動的に認識し、その活動及び動きを識別し、その行路をモニタして追跡する。

図４は、本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例４００のブロック図である。環境４００は、カメラ４０２、４０４及び４０６を含む。様々な実施形態では、カメラ４０２～４０６を異なる位置に配置することができる。

様々な実施形態では、カメラ４０２～４０６を、これらの視野が重なるように異なる位置に配置することができる。図示のように、カメラ４０２、４０４及び４０６の視野は重複領域４０８において重なり合う。重複領域４０８に所与の１又は複数のオブジェクト（例えば、スタッフ、患者など）が配置されると、カメラ４０２、４０４及び４０６の各々は、所与の１又は複数のオブジェクトの映像（ｆｏｏｔａｇｅ）を取り込むことができる。

様々な実施形態では、カメラ４０２～４０６が、オクルージョンを回避して環境内のオブジェクトの３Ｄ再構築を可能にするように設定されて予め較正される。様々な実施形態では、較正に使用されるオブジェクトが全てのカメラに同時に見える。３つのカメラを示しているが、環境４００内にはあらゆる数のカメラが存在することができる。特定のカメラ数は特定の環境に依存することができる。様々な実施形態では、環境内のパターンを較正するために、システムがカメラ４０２～４０６を使用して床のタイルなどのオブジェクトをモニタする。一般的に使用されているチェッカーボードパターン又は赤色－緑色－青色－深度（ＲＧＢ－Ｄ）カメラの使用を含む別のカメラ較正法を使用することもできる。

図５Ａ及び図５Ｂは、臨床環境における複数人物の２次元（２Ｄ）ポーズ推定に関するフロー図である。本明細書で説明する実施形態は、複数の人物のポーズを推定するために所与の画像内の全ての人物の身体関節を識別して特定する。図５Ａ及び図５Ｂに関連して後述するように、実施形態はトップダウン手法及びボトムアップ手法を含むことができる。

図５Ａは、本明細書で説明する実装に使用できる、トップダウン手法を使用して臨床活動を認識するためのフロー図である。図１及び図５Ａを共に参照すると、方法は、システム１０２などのシステムが画像をサンプリングするブロック５０２から開始する。

ブロック５０４において、システムが人々を検出する。システムは、一般的なオブジェクト検出器を利用してスタッフ（例えば、臨床医、助手など）及び患者を検出することができる。

ブロック５０６において、システムがキーポイントを推定する。システムは、キーポイント検出器を使用して各人物の頭、四肢、関節などのキーポイントを推定する。

図５Ｂは、本明細書で説明する実装に使用できる、ボトムアップ手法を使用して臨床活動を認識するためのフロー図である。図１及び図５Ｂを共に参照すると、方法は、システム１０２などのシステムが画像をサンプリングするブロック５１２から開始する。

ブロック５１４において、システムがキーポイントを推定する。本明細書に示すように、システムは、キーポイント検出器を使用して各人物の頭、四肢、関節などのキーポイントを推定する。

ブロック５１６において、システムがキーポイントを関連付ける。例えば、システムはキーポイントをポーズに関連付け、関連するキーポイントを接続することによって２Ｄポーズを推定する。

いくつかの実施形態では、システムが、画像空間内の人物及びキーポイントを追跡し、関心領域を精緻化し、非最大抑制（ｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ）を伴う（単複の）冗長ポーズを除去し、強化されたヒートマップ復号を使用してキーポイント検出を強化することによって、さらなる利得を達成することができる。

図６は、本明細書で説明する実装に使用できる、臨床活動を認識するための環境例６００のブロック図である。オブジェクト又は被験者６０６及び６０８のビデオ映像を取り込むカメラ６０２及び６０４を示す。オブジェクト６０６及び６０８は、例えば手術室内の職員、又は手術室内の職員及び患者などであることができる。

様々な実施形態では、システムが、骨格ベースの活動認識を含むデータ融合及び臨床行動認識を実行する。上述したように、様々な実施形態では、データ融合が、１つのカメラからのある人物のポーズを他のカメラからの同じ人物のポーズに関連付け又は融合するプロセスである。システムは、データ融合後に、複数の２Ｄ対応ポーズを所与として仮想３Ｄ空間内の全てのオブジェクト（例えば、スタッフ、患者など）の３Ｄポーズを再構築する。

システムは、各職員及び患者のアクションを骨格ポーズに基づいて認識する。このようなアクションは、立つこと、歩くこと、しゃがむこと、座ることなどを含むことができる。システムは、行動分類器を利用してこのようなアクションを認識することができる。システムのプロセスは、ＲＧＢ画像又は深度マップに比べて、背景オブジェクト及び無関係なオブジェクト（例えば、衣服の質感など）などの視覚的ノイズに対してロバストである。別の方法としては、画像又は深度マップから直接アクションを認識することを挙げることができる。いくつかの実施形態では、システムが、再構築された３Ｄ空間内でポーズを追跡し、空間的空間（ｓｐａｔｉａｌｓｐａｃｅ）及び時間的空間の両方から骨格特徴を抽出することによって、さらなる利得を達成することができる。

図７は、本明細書で説明する実装に使用できる、臨床活動の認識において使用されるユーザインターフェイス例７００のブロック図である。手術ワークフロー分析には、３人のオブジェクト又は被験者に関連するワークフロー情報を示す。この特定の実施形態例では、ワークフロー情報が、（Ｎｕｒｓｅ１及びＮｕｒｓｅ２として表記する）２人の職員及び（Ａｓｓｔ１として表記する）１人の助手に関連する。オブジェクト又は被験者の数は様々であることができ、特定の実装に依存する。例えば、患者、臨床設備及び／又は手術設備、道具、及び／又は消耗品などに関連するワークフロー情報が存在することができる。

この実施形態例では、手術ワークフロー分析が設備の搬入に関する。図示のように、設備の搬入には６０分を要している。例えば、１人の職員であるＮｕｒｓｅ１は、エネルギー装置の搬入に１０分を要し、内視鏡の搬入に５０分を要している。別の職員であるＮｕｒｓｅ２は、特定の道具の搬入に２０分を要し、医用素材の搬入に４０分を要している。助手であるＡｓｓｔ１は、手術室（ＯＲ）から設備を運び出すのに２０分を要し、超音波装置を搬入するのに２０分を要し、内視鏡を設定するのに２０分を要している。Ｎｕｒｓｅ１、Ｎｕｒｓｅ２及びＡｓｓｔ１という３人のオブジェクト又は被験者を示しているが、ユーザインターフェイス７００にはあらゆる数のオブジェクトを示すことができる。

様々な実施形態では、本明細書に示すように、システムが、人々及び無生物を含む様々なオブジェクトを認識し、モニタして追跡する。システムは、各人物が行う個々の行動を識別する。これらの行動は、図６に示すような動きを含むことができる。行動は、各人物が行う、臨床設備及び／又は手術設備、道具及び／又は備品などの無生物に関する行動を含むこともできる。

本明細書で説明する実施形態は様々な用途を有する。このような用途としては、例えば臨床スタッフ及び患者の行路情報及び活動（例えば、歩行、起立など）の分析を挙げることができる。他の用途としては、知的手術ワークフロー分析、ロボット支援手術、手術室の効率改善及び最適化、医療モニタリング、患者の安全向上などを挙げることができる。

本明細書で説明する実施形態は様々な利点をもたらす。例えば、システムは、臨床環境（手術室、ＩＣＵ、病室、救急室など）における人間の活動及び行動を認識して分析する。これにより、効率性の把握、分析、最適化、並びに異常行動アラートなどの病院業務の自動モニタリングが可能になる。また、実施形態は、人々のポーズ骨格を活用することにより、多くの既存のモーションキャプチャシステムが必要とするウェアラブル機器又は特定の姿勢を必要とすることなく、複数のカメラを用いた複数人物の活動認識に深層学習ベースのフレームワークを利用する。

図８は、本明細書で説明するいくつかの実装に使用できるネットワーク環境例８００のブロック図である。いくつかの実装では、ネットワーク環境８００が、サーバ装置８０４とデータベース８０６とを含むシステム８０２を含む。例えば、システム８０２は、図１のシステム１０２を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。ネットワーク環境８００は、システム８０２と通信できる、及び／又は直接又はシステム８０２を介して互いに通信できるクライアント装置８１０、８２０、８３０及び８４０も含む。ネットワーク環境８００は、システム８０２及びクライアント装置８１０、８２０、８３０及び８４０が通信できるようにするネットワーク８５０も含む。ネットワーク８５０は、Ｗｉ－Ｆｉネットワーク、Ｂｌｕｅｔｏｏｔｈネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。

説明を容易にするために、図８には、システム８０２、サーバ装置８０４及びネットワークデータベース８０６の各々につき１つのブロックと、クライアント装置８１０、８２０、８３０及び８４０のための４つのブロックとを示す。ブロック８０２、８０４及び８０６は、複数のシステム、サーバ装置及びネットワークデータベースを表すこともできる。また、あらゆる数のクライアント装置が存在することができる。他の実装では、環境８００が、図示の全てのコンポーネントを有さないことも、及び／又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。

本明細書で説明する実施形態はシステム８０２のサーバ装置８０４によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム８０２に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム８０２に関連するいずれかの好適な１又は複数のプロセッサが容易にすることができる。

本明細書で説明する様々な実施形態では、システム８０２のプロセッサ及び／又はいずれかのクライアント装置８１０、８２０、８３０及び８４０のプロセッサが、本明細書で説明する要素（例えば、情報など）が１又は２以上のディスプレイ画面上のユーザインターフェイス内に表示されるようにする。

図９は、本明細書で説明するいくつかの実装に使用できるコンピュータシステム例９００のブロック図である。例えば、コンピュータシステム９００は、図８のサーバ装置８０４及び／又は図１のシステム１０２を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。いくつかの実装では、コンピュータシステム９００が、プロセッサ９０２、オペレーティングシステム９０４、メモリ９０６、及び入力／出力（Ｉ／Ｏ）インターフェイス９０８を含むことができる。様々な実装では、プロセッサ９０２を、本明細書で説明する様々な機能及び特徴を実装するため、並びに本明細書で説明する方法の実装を実行するために使用することができる。本明細書で説明する実装を実行するものとしてプロセッサ９０２を説明しているが、説明するステップは、コンピュータシステム９００のいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはコンピュータシステム９００又はいずれかの好適なシステムに関連するいずれかの好適な１又は複数のプロセッサが実行することもできる。本明細書で説明する実装は、ユーザ装置上で、サーバ上で、又はこれらの組み合わせにおいて実行することができる。

コンピュータシステム９００は、メモリ９０６上、又は他のいずれかの好適な記憶位置、又はコンピュータ可読媒体上に記憶することができるソフトウェアアプリケーション９１０を含む。ソフトウェアアプリケーション９１０は、本明細書で説明する実装及びその他の機能をプロセッサ９０２が実行することを可能にする命令を与える。ソフトウェアアプリケーションは、１又は２以上のネットワーク及びネットワーク通信に関連する様々な機能を実行するネットワークエンジンなどのエンジンを含むこともできる。コンピュータシステム９００のコンポーネントは、１又は２以上のプロセッサ、又はハードウェア装置のいずれかの組み合わせ、並びにハードウェア、ソフトウェア、ファームウェアなどのいずれかの組み合わせによって実装することができる。

説明を容易にするために、図９には、プロセッサ９０２、オペレーティングシステム９０４、メモリ９０６、Ｉ／Ｏインターフェイス９０８及びソフトウェアアプリケーション９１０の各々につき１つのブロックを示す。これらのブロック９０２、９０４、９０６、９０８及び９１０は、複数のプロセッサ、オペレーティングシステム、メモリ、Ｉ／Ｏインターフェイス、及びソフトウェアアプリケーションを表すこともできる。様々な実装では、コンピュータシステム９００が、図示の全てのコンポーネントを有さないことも、及び／又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。

特定の実施形態に関して説明を行ったが、これらの特定の実施形態は例示にすぎず、限定的なものではない。これらの実施例に示す概念は、他の実施例及び実装に適用することもできる。

様々な実装では、１又は２以上のプロセッサによる実行のためのソフトウェアが１又は２以上の非一時的コンピュータ可読媒体に符号化される。このソフトウェアは、１又は２以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行する。

特定の実施形態のルーチンの実装には、Ｃ、Ｃ＋＋、Ｊａｖａ、アセンブリ言語などを含むいずれかの好適なプログラミング言語を使用することができる。手続き型又はオブジェクト指向型などの異なるプログラミング技術を使用することができる。これらのルーチンは、単一の処理装置又は複数のプロセッサ上で実行することができる。ステップ、動作又は計算については特定の順序で示しているかもしれないが、異なる特定の実施形態ではこの順序を変更することができる。いくつかの特定の実施形態では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。

特定の実施形態は、命令実行システム、装置又はデバイスが使用する、或いはこれらに接続された（機械可読記憶媒体とも呼ばれる）非一時的コンピュータ可読記憶媒体に実装することができる。特定の実施形態は、ソフトウェア又はハードウェア又はこれらの組み合わせにおける制御ロジックの形で実装することもできる。制御ロジックは、１又は２以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行することができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。

特定の実施形態は、プログラム可能な汎用デジタルコンピュータを使用することによって、及び／又は特定用途向け集積回路、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、光学、化学、生物学、量子又はナノエンジニアリングシステム、コンポーネント及び機構を使用することによって実装することができる。一般に、特定の実施形態の機能は、当業で周知のあらゆる手段によって実現することができる。分散型のネットワーク化されたシステム、コンポーネント及び／又は回路を使用することもできる。データの通信又は転送は、有線、無線又は他のいずれかの手段によるものとすることができる。

「プロセッサ」は、データ、信号又はその他の情報を処理するいずれかの好適なハードウェア及び／又はソフトウェアシステム、機構又はコンポーネントを含むことができる。プロセッサは、汎用中央処理装置、複数の処理装置、機能を実現するための専用回路又はその他のシステムを有するシステムを含むことができる。処理は、地理的位置に制限される必要も、又は時間的制限を有する必要もない。例えば、プロセッサは、その機能を「リアルタイム」、「オフライン」、「バッチモード」などで実行することができる。処理の一部は、異なる（又は同じ）処理システムが異なる時点に異なる場所で実行することもできる。コンピュータは、メモリと通信するいずれかのプロセッサとすることができる。メモリは、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、磁気記憶装置（ハードディスクドライブなど）、フラッシュ、光学記憶装置（ＣＤ又はＤＶＤなど）、磁気又は光ディスク、或いはプロセッサによって実行される命令（例えば、プログラム又はソフトウェア命令）を記憶するのに適したその他の有形媒体などの電子的記憶装置を含むいずれかの好適なデータストレージ、メモリ及び／又は非一時的コンピュータ可読記憶媒体とすることができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。命令は、例えばサーバ（例えば、分散システム及び／又はクラウドコンピューティングシステム）から配信されるサービス型ソフトウェア（ＳａａＳ）などの形態の電気信号に含めて電気信号として提供することもできる。

また、特定の用途に従って有用である時には、図面／図に示す要素のうちの１つ又は２つ以上をより分離又は統合された形で実装し、或いはいくつかの事例では除去又は動作不能とすることもできると理解されるであろう。上述した方法のいずれかをコンピュータが実行できるようにする、機械可読媒体に記憶できるプログラム又はコードを実装することも本発明の趣旨及び範囲に含まれる。

本明細書及び以下の特許請求の範囲全体を通じて使用する「１つの（英文不定冠詞）」及び「その（英文定冠詞）」は、文脈において別途明確に示していない限り複数形の照応を含む。また、本明細書及び以下の特許請求の範囲全体を通じて使用する「～内（ｉｎ）」の意味は、文脈において別途明確に示していない限り、「～内（ｉｎ）」及び「～上（ｏｎ）」の意味を含む。

以上、本明細書では特定の実施形態について説明したが、上述した開示では修正、様々な変更及び置換の自由が意図されており、いくつかの例では、記載した範囲及び趣旨から逸脱することなく、特定の実施形態のいくつかの特徴が対応する他の特徴の使用を伴わずに使用されると理解されたい。従って、特定の状況又は材料を基本的範囲及び趣旨に適合させるように多くの修正を行うことができる。

１００環境
１０２システム
１０４クライアント
１０６ネットワーク
１０８オブジェクト
１１０活動エリア
１１２～１１８ビデオカメラ

Claims

システムであって、
１又は２以上のプロセッサと、
１又は２以上の非一時的なコンピュータ可読記憶媒体に符号化された、前記１又は２以上のプロセッサによる実行のためのロジックと、
を備え、前記ロジックは、実行時に、
環境内の複数のオブジェクトの複数のビデオを取得することと、
前記複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定することと、
前記１又は２以上のキーポイントに基づいて活動情報を認識することと、
前記活動情報に基づいてワークフロー情報を計算することと、
を含む動作を前記１又は２以上のプロセッサに実行させるように動作可能である、
ことを特徴とするシステム。
前記環境は手術室である、
請求項１に記載のシステム。
前記複数のビデオは、少なくとも２つのビデオカメラによって取り込まれる、
請求項１に記載のシステム。
前記活動情報はポーズ情報を含む、
請求項１に記載のシステム。
前記ロジックは、実行時に、
前記環境内の人々である１又は２以上のオブジェクトを認識することと、
前記環境内の各人物の行路を追跡することと、
各人物の１又は２以上の活動を識別することと、
を含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、請求項１に記載のシステム。
前記ロジックは、実行時に、
前記環境内の無生物である１又は２以上のオブジェクトを認識することと、
前記環境内で認識された各無生物の位置を追跡することと、
無生物である前記１又は２以上のオブジェクトを各人物に関連付けることと、
を含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、請求項１に記載のシステム。
前記ワークフロー情報は手術ワークフロー情報を含む、
請求項１に記載のシステム。
プログラム命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記プログラム命令は、１又は２以上のプロセッサによって実行された時に、
環境内の複数のオブジェクトの複数のビデオを取得することと、
前記複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定することと、
前記１又は２以上のキーポイントに基づいて活動情報を認識することと、
前記活動情報に基づいてワークフロー情報を計算することと、
を含む動作を前記１又は２以上のプロセッサに実行させるように動作可能である、ことを特徴とするコンピュータ可読記憶媒体。
前記環境は手術室である、
請求項８に記載のコンピュータ可読記憶媒体。
前記複数のビデオは、少なくとも２つのビデオカメラによって取り込まれる、
請求項８に記載のコンピュータ可読記憶媒体。
前記活動情報はポーズ情報を含む、
請求項８に記載のコンピュータ可読記憶媒体。
前記命令は、実行時に、
前記環境内の人々である１又は２以上のオブジェクトを認識することと、
前記環境内の各人物の行路を追跡することと、
各人物の１又は２以上の活動を識別することと、
を含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、請求項８に記載のコンピュータ可読記憶媒体。
前記命令は、実行時に、
前記環境内の無生物である１又は２以上のオブジェクトを認識することと、
前記環境内で認識された各無生物の位置を追跡することと、
無生物である前記１又は２以上のオブジェクトを各人物に関連付けることと、
を含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、請求項８に記載のコンピュータ可読記憶媒体。
前記ワークフロー情報は手術ワークフロー情報を含む、
請求項８に記載のコンピュータ可読記憶媒体。
コンピュータ実装方法であって、
環境内の複数のオブジェクトの複数のビデオを取得することと、
前記複数のオブジェクトの各オブジェクトの１又は２以上のキーポイントを決定することと、
前記１又は２以上のキーポイントに基づいて活動情報を認識することと、
前記活動情報に基づいてワークフロー情報を計算することと、
を含むことを特徴とする方法。
前記環境は手術室である、
請求項１５に記載の方法。
前記複数のビデオは、少なくとも２つのビデオカメラによって取り込まれる、
請求項１５に記載の方法。
前記活動情報はポーズ情報を含む、
請求項１５に記載の方法。
前記環境内の人々である１又は２以上のオブジェクトを認識することと、
前記環境内の各人物の行路を追跡することと、
各人物の１又は２以上の活動を識別することと、
をさらに含む、請求項１５に記載の方法。
前記環境内の無生物である１又は２以上のオブジェクトを認識することと、
前記環境内で認識された各無生物の位置を追跡することと、
無生物である前記１又は２以上のオブジェクトを各人物に関連付けることと、
をさらに含む、請求項１５に記載の方法。