JP2023536712A

JP2023536712A - 手術室における音声管理

Info

Publication number: JP2023536712A
Application number: JP2023505689A
Authority: JP
Inventors: モリーララフレックスマン; アシシュサトヤヴラトパンセ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-07-30
Filing date: 2021-07-30
Publication date: 2023-08-29
Also published as: EP4189976A1; CN116057635A; EP3945735A1; US20230282339A1; WO2022023513A1

Abstract

医療処置中のスタッフのノイズ状況を改善するために、入力、プロセッサ及び音声生成出力を含む、手術室における音声管理のためのデバイスが提供される。手術室のオーディオ入力を受信する手術室内に位置する複数のソースからのオーディオデータの他に、手術室内の複数のソースの環境コンテキスト情報もまた、少なくとも１人のユーザの手術室内のソースの優先度重み付けと共に提供される。オーディオデータの音声部分が、識別され、環境コンテキスト情報に基づいてソースに割り当てられる。いくつかの音声部分は、優先度重み付けに基づいて、修正されて、音声生成のためのユーザ割当て修正オーディオデータを生成する。ユーザ割当て修正オーディオデータが、適合したユーザ特有の音声入力を提供するために少なくとも１人のユーザに提供される。

Description

本発明は、手術室における音声管理のためのデバイス、手術室における音声管理のためのシステム、及び手術室における音声管理のための方法に関する。

医療処置、例えば検査、介入又は手術中に、例えば看護師、外科医及び専門家を含む、複数のタスクが、異なる個人によって実行され、様々なデバイスが、使用される。この複雑な音響状況は、手術室にかなり高いレベルのノイズをもたらす。そのノイズは、背景音声（例えば、機器の押し込み空気又は送風機）、警告（例えば、患者モニタ心拍数）、（例えば、報告のために情報を共有する、スタッフ間の）会話、道具音（例えば、手術道具がメタルパンに当たる音）、及び外科的音声（例えば、呼吸）から成る。重要な技術的問題は、手術室スタッフがノイズを減らそうと試みることは可能だが、そのほとんどは完全に消すことはできない（例えば、背景ノイズ、会話など）、ということである。よって、手術室内の異なる個人は、ノイズに晒され、重要でない情報から重要な情報を精神的にろ過しなければならない。ノイズキャンセリングヘッドフォンが、音声暴露の低減を提供して、使用され得る。米国特許出願公開第２０１２／０２１５５１９（Ａ１）号は、背景構成要素からソース構成要素を分けるための多チャネル信号での空間的選択的処理動作を含むアクティブノイズキャンセルを提供する。ＷＯ２０１６／１３１０６４Ａ１は、ユーザの頭部位置及び／又は注視を判定することによって対象のオーディオエリアを拡張することを含む補聴器を提供する。しかしながら、医療処置中のスタッフ及び機器の複雑性の増加により、全体のノイズはさらに増加する、ということが示された。

米国特許第１０５９５１４９（Ｂ１）号は、その要約によれば、予想される位置に従って指向性ビーム形成を実行するためのコンピュータ実施方法に関し、その方法は、環境内の音源を示す環境データにアクセスすることを含む。デバイスは、操縦可能なオーディオビームを生成するように構成された様々なオーディオハードウェア構成要素を含む。方法はまた、アクセスした環境データに基づいて環境内の音源の位置を識別することと、次いでデバイスのオーディオビームを環境内の音源の識別された位置に誘導することとを含む。

米国特許出願公開第２０１４／０００６０２６（Ａ１）号は、その要約によれば、環境内の１つ又は複数の音源から受信された音声に対応する１つ又は複数の音声レベルが記載されたコンテキスト情報に基づいて動的に適合するような、１つ又は複数の強化されたオーディオ信号を生成するためのシステムに関する。１つ又は複数の強化されたオーディオ信号が、環境内のエンドユーザが身に付けた頭部装着型表示デバイス（ＨＭＤ）によって生成され、１つ又は複数の強化されたオーディオ信号をエンドユーザがリアルタイムで聞くことができるように、ＨＭＤに関連するイヤホンに出力される。ある場合には、１つ又は複数の音源のそれぞれは、優先レベルと対応する。優先レベルは、ＨＭＤのエンドユーザが特定の音源に集中しているか又は特定の音源と対応する所定のレベルの重要性を指定したかに応じて、動的に割り当てられる。

米国特許出願公開第２０１７／０２２１５００（Ａ１）号は、その要約によれば、注視検出センサを使用してユーザの注視の方向を検出する及びユーザの注視の検出された方向に対応する注視信号を出力するリアルタイムオーディオ処理のための装置及び方法に関する。デジタル信号処理装置は、装置で受信された複数の音声に対応する複数の信号、及び注視信号を使用して複数の信号から対象の信号を識別するための注視の判定された方向に応答する。対象の信号は、ユーザに対して出力するために処理される。実施形態において、マイクロホン配列は、複数の信号を提供する。画像センサは、対象の信号を識別するために、マイクロホン配列又は注視検出センサと連動する。

したがって、手術室内の医療処置中のスタッフのノイズ状況をさらに改善する必要性がある。

本発明の目的は、独立請求の主題によって解決され、さらなる実施形態が、従属請求に組み込まれる。発明の後述の態様は、手術室における音声管理のためのデバイスについても、手術室における音声管理のためのシステムについても及び手術室における音声管理のための方法についても適用される、ということに留意されたい。

本発明によれば、手術室における音声管理のためのデバイスが、提供される。デバイスは、入力、プロセッサ及び音声生成出力を含む。入力は、手術室に位置する複数のソースからオーディオデータを提供するように構成される。入力はまた、手術室内の複数のソースの環境コンテキスト情報を提供するように構成される。入力はさらに、少なくとも１人のユーザの手術室内のソースの優先度重み付けを提供するように構成される。プロセッサは、オーディオデータの部分を識別する及び環境コンテキスト情報に基づいて複数のソースに割り当てるように構成される。プロセッサはまた、少なくとも１人のユーザのための優先度重み付けに基づいてオーディオデータのうちの少なくともいくらかを修正して音声生成のためのユーザ割当て修正オーディオデータを生成するように構成される。音声ジェネレータ出力は、適合したユーザ特有の音声入力を提供するために少なくとも１人のユーザにユーザ割当て修正オーディオデータを提供するように構成される。

結果として、システムは、無声になり得、ユーザは、警告及びビープ音のみならず、例えば、ヘッドフォン又はイヤホンのみを介する人工的に生成された音場による他の種類のフィードバックもまた聞くことができる。

オーディオデータは、収集され、中央処理装置に提供され、そこから、修正されたデータ又は信号が、ユーザに選択的に及び個々に提供される。

ソースは、音声を実際に生成することができる音源でもよい。ソースはまた、信号のソースでもよいが、そのソースは、それら自体で音声を生成することはできない。ソースは、なお、信号及び音声のソースでもよいが、そのソースは、通常は、それら自体で音声を生成しないが、緊急事態のようなある種の場合には音声を生成することができる。

一例では、オーディオデータは、信号を生成するデバイスによって部分的に、及び複数のマイクロホンによって部分的に、提供される。

結果として、手術室内の音声レベルは、例えば、改善することになる。

これは、修正された音声部分と重ね合わされた部屋内の音響シナリオの形でユーザに拡張現実体験を提供し、それにより、ユーザに対するノイズ状況を改善する。

結果として、追加のコンテキスト情報の利益を得ることができる、音声管理の知的なやり方が、提供される。

一例によれば、手術室内のソースの環境コンテキスト情報は、手術室内の音源の空間情報、手術室内の音源の外観、手術室内の音源のタイプ、手術室内の音源からの音声の内容、手術室内の音源の役割を果たす手術室内の人の識別、手術室内の音源からの可能な信号及び期待される（期待可能な）信号のグループのうちの少なくとも１つを含む。

本発明によれば、手術室における音声管理のためのシステムもまた、提供される。システムは、手術室内のソースからオーディオデータを受信するように及びオーディオデータを提供するように構成された複数の音声データ入力を含む。システムはまた、前述の例のうちの１つによる手術室における音声管理のためのデバイスを含む。システムは、判定されたユーザに割り当てられた音声生成デバイスをさらに含む。複数の音声データ入力は、音声管理のためのデバイスの入力にオーディオデータを提供する。音声ジェネレータ出力は、修正されたオーディオデータを少なくとも１つの音声生成デバイスを提供して、適合したユーザ音声入力を提供する。

一例によれば、環境コンテキスト情報は、部屋の部分的メッシュを少なくとも含む。メッシュは、手術室内の識別可能なオブジェクトを含む。

一例によれば、少なくとも１つの空間センサ配列は、手術室内のユーザの周辺の空間データを提供するように構成されて、提供される。空間データは、部屋の少なくとも部分的メッシュを生成するのに適している。

オプションによれば、少なくとも１つの空間センサ配列は、奥行き感知カメラ、光学カメラ、位置検出器、部屋内の他のチームメンバの識別、部屋内のユーザの位置判定デバイス及び特定の位置又はオブジェクトを識別するマーカのグループのうちの少なくとも１つを含み、そこで、マーカは、光学マーカ、幾何学的マーカ及び空間アンカのグループのうちの少なくとも１つとして提供される。

一例によれば、少なくとも１つの頭部装着型デバイスが、ユーザのために提供される。頭部装着型デバイスは、音声生成デバイスを含む。

一例によれば、アイトラッカが、ユーザの注視を判定するために、提供される。ユーザの注視は、好ましい音源を判定するための入力として提供される。

本発明によれば、手術室における音声管理のための方法もまた、提供される。方法は、以下のステップを有する：
－手術室内に位置する複数のソースからのオーディオデータを提供するステップと、
－手術室内の複数のソースの環境コンテキスト情報を提供するステップと、
－少なくとも１人のユーザの手術室内のソースの優先度重み付けを提供するステップと、
－オーディオデータの部分を識別し、環境コンテキスト情報に基づいて複数のソースに割り当てるステップと、
－少なくとも１人のユーザのための優先度重み付けに基づいてオーディオデータのうちの少なくともいくらかを修正して音声生成のためのユーザ割当て修正オーディオデータを生成するステップと、
－適合したユーザ特有の音声入力を提供するために少なくとも１人のユーザにユーザ割当て修正オーディオデータ提供するステップ。

一態様によれば、本発明は、環境コンテキストを適用してリスナのためのインテリジェント音声ミキシングを決定することを実現する。一例では、音声は、ウェアラブル拡張現実ヘッドセットを介して提供され、音声は、環境コンテキストに基づいて変調される。適用の一例は、介入誘導治療における拡張現実である。より多くの例が、検診及び医療手術のような、他の診療目的の拡張現実適用において見つかる。さらなる例が、機器取り付け及びサービス、及び製造などの非医療適用において見つかる。

一態様によれば、入力、プロセッサ及び音声生成出力を含む、手術室における音声管理のためのデバイスが、提供される。手術室のオーディオ入力を受信する手術室内に位置する少なくとも１つのマイクロホンからのオーディオデータの他に、手術室内の音源の環境コンテキスト情報もまた、少なくとも１人のユーザの手術室内の音源の優先度重み付けと共に提供される。オーディオデータの音声部分が、識別され、環境コンテキスト情報に基づいて音源に割り当てられる。音声部分のうちの少なくともいくつかは、少なくとも１人のユーザのための優先度重み付けに基づいて、修正される。修正された音声部分は、ユーザへの音声生成のために提供される。

一態様によれば、手術室における音声管理が、提供される。音声データの中央収集を提供することと、ターゲットを定めた手法で１人又は数人のユーザに適合した音声プロファイルを提供するために異なる方式に従って信号を修正することとが、提案される。よって、部屋内の音声風景は、格子状の構造のような、より集中的な手法で扱われる。ユーザ割当てデータは、上げられた又はさらに下げられた音声をそれぞれのユーザが提供されるように、修正することができるので、ユーザ割当て修正オーディオデータを生成することによって、無音で又は少なくともかなり低い音声レベルモードで信号を提供することが可能である。これは、例えば、カテ室における音声レベルを下げるのに役立つ。

本発明のこれらの及び他の態様は、後述の実施形態から明らかとなり、それらを参照して解明される。

本発明の例示的実施形態については、以下の図面を参照して、後述する。

手術室における音声管理のためのデバイスの一例の概略的セットアップを示す図である。手術室における音声管理のためのシステムの一例の概略的セットアップを示す図である。手術室における音声管理のための方法の一例の基本ステップを示す図である。手術室における音声管理のために構成された頭部装着型デバイスの一例を概略的に示す図である。手術室の部分的メッシュの一例を示す図である。手術室におけるセットアップの一例を示す図である。手術室内の風景の一例を示す図である。手術室内の風景の別の例を示す図である。手術室内の風景のさらなる例を示す図である。

ここで、ある種の実施形態について、添付の図面を参照して、さらに詳しく説明する。以下の説明では、類似の図面参照番号は、異なる図面でも、類似の要素のために使用される。説明において定義される事柄、例えば、詳細な構造物及び要素、は、例示的実施形態の包括的理解を助けるために提供される。また、よく知られた機能又は構造物は、不要な詳細で実施形態を分かりにくくすることになるので、詳しく記載されていない。さらに、「のうちの少なくとも１つ」などの表現は、要素のリストに先行するとき、要素のリスト全体を修飾し、リストの個々の要素を修飾しない。

一例では、手術室における音声管理のためのデバイスが、提供される。デバイスは、入力、プロセッサ及び音声生成出力を含む。入力は、手術室のオーディオ入力を受信する手術室内に位置する少なくとも１つのマイクロホンからのオーディオデータを提供するように構成される。入力は、手術室内の音源の環境コンテキスト情報を提供するように構成される。入力はまた、少なくとも１人のユーザの手術室内の音源の優先度重み付けを提供するように構成される。プロセッサは、オーディオデータの音声部分を識別する及び環境コンテキスト情報に基づいて音源に割り当てるように構成される。プロセッサは、少なくとも１人のユーザのための優先度重み付けに基づいて音声部分のうちの少なくともいくつかを修正するように構成される。音声ジェネレータ出力は、少なくとも１人のユーザに音声生成のための修正された音声部分を提供するように構成される。

一例では、手術室内の音源の環境コンテキスト情報は、手術室内の音源の空間情報、手術室内の音源の外観、手術室内の音源のタイプ、手術室内の音源からの音声の内容、手術室内の音源の役割を果たし得る手術室内の人の識別、及び手術室内の音源からの可能な信号及び期待される（期待可能な）信号のグループのうちの少なくとも１つを含む。

一例では、手術室における音声管理のためのシステムが、提供される。システムは、手術室からオーディオ入力を受信するように及び手術室からオーディオデータを提供するように構成された少なくとも１つのマイクロホンを含む。システムはまた、前述の請求のうちの１つによる手術室における音声管理のための少なくとも１つのデバイス、及び少なくとも１つの音声生成デバイスを含む。少なくとも１つのマイクロホンは、音声管理のために少なくとも１つのデバイスの入力にオーディオデータを提供する。音声ジェネレータ出力は、修正された音声を少なくとも１人のユーザに提供するために、音声管理のための少なくとも１つのデバイスの音声生成デバイスに修正された音声部分を提供する。

一例では、環境コンテキスト情報は、部屋の部分的メッシュを少なくとも含む。メッシュは、手術室内の識別可能なオブジェクトを含む。

一例では、少なくとも１つの空間センサ配列が、手術室内のユーザの周辺の空間データを提供するように構成されて、提供される。空間データは、部屋の少なくとも部分的メッシュを生成するのに適している。少なくとも１つの空間センサ配列は、奥行き感知カメラ、光学カメラ、光学マーカ、幾何学的マーカ及び空間アンカのグループのうちの少なくとも１つ、位置検出器及び部屋内の他のチームメンバの識別、並びに部屋内のユーザの位置判定デバイスのグループのうちの少なくとも１つを含む。

一例では、少なくとも１つの頭部装着型デバイスが、ユーザのために提供される。頭部装着型デバイスは、音声生成デバイスを含む。

一例では、複数の頭部装着型デバイスが、提供される。頭部装着型デバイスの少なくとも一部は、部屋のメッシュに関連するデータを提供するように構成された環境検出デバイスを含む。

一例では、環境コンテキスト情報は、好ましい音源としての識別されたオブジェクトを含む。好ましい音源は、ユーザ入力によって識別される。好ましい音源が、手術室内の現在の手術の状況の依存関係において個々のユーザについてあらかじめ決定される。

一例では、音声をローカライズするように構成された、１つ又は複数のマイクロホンが、提供される。システムは、部屋のメッシュに音声のローカリゼーションを登録するように構成される。

一例では、活動検出器が、ユーザの活動を検出するために、提供される。ユーザ活動は、音声部分を修正するために使用される。

一例では、アイトラッカが、ユーザの注視を判定するために提供され、ユーザの注視は、好ましい音源を判定するための入力として提供される。

一例では、音声部分のうちの少なくともいくつかを修正することに加えて、警告データが、視覚警告の生成のために及び／又は触知／触覚フィードバックの生成のために提供される。

一例では、手術室における音声管理のための方法が、提供される。方法は、以下のステップを有する：
－オーディオデータを手術室のオーディオ入力を受信する手術室内に位置する少なくとも１つのマイクロホンから提供するステップと、
－手術室内の音源の環境コンテキスト情報を提供するステップと、
－少なくとも１人のユーザの手術室内の音源の優先度重み付けを提供するステップと、
－オーディオデータの音声部分を識別して、環境コンテキスト情報に基づいて音源に割り当てるステップと、
－少なくとも１人のユーザのための優先度重み付けに基づいて音声部分のうちの少なくともいくつかを修正するステップと、
－音声生成のための修正された音声部分を少なくとも１人のユーザに提供するステップ。

図１は、手術室における音声管理のためのデバイス１０の一例の概略的セットアップを示す。デバイス１０は、入力１２、プロセッサ１４及び音声生成出力１６を含む。入力１２は、手術室内に位置する複数のソースからオーディオデータを提供するように構成される。入力１２はまた、手術室内の複数のソースの環境コンテキスト情報を提供するように構成される。入力１２はさらに、少なくとも１人のユーザの手術室内のソースの優先度重み付けを提供するように構成される。プロセッサ１４は、オーディオデータの部分を識別する及び環境コンテキスト情報に基づいて複数のソースに割り当てるように構成される。プロセッサ１４はまた、少なくとも１人のユーザのための優先度重み付けに基づいてオーディオデータのうちの少なくともいくらかを修正して音声生成のためのユーザ割当て修正オーディオデータを生成するように構成される。音声ジェネレータ出力１６は、適合したユーザ特有の音声入力を提供するために少なくとも１人のユーザにユーザ割当て修正オーディオデータを提供するように構成される。

オプションとして、音声ジェネレータ１８が、示されている。データ出力接続２０は、音声ジェネレータ出力１６への接続を示す。

データ入力接続２２は、例えば、マイクロホンから入力１２への、接続を示す。

フレーム２４は、入力１２、プロセッサ１４及び音声生成出力１６が、共通の筐体、例えば集積回路配列としての筐体において提供される、ということを示す。しかしながら、それらはまた、互いに接続されたデータである別個の構成要素として、提供され得る。別のオプションにおいて、このコントローラの部分は、クラウド、例えば、プロセッサ１４内にある。

音声管理のためのデバイス１０は、手術室における音声管理のためのコントローラ、又は音声コントローラとも称される。デバイス１０は、拡張音響現実を提供する。音声管理のためのデバイス１０は、適合した拡張音声をユーザに提供してユーザへの音響情報の選択された転送を改善するためのルール及びインテリジェント設定を含む。音声は、位置の知識に基づいて、修正される。

入力１２は、データ処理のための必要なデータを提供するためのデータエントリを指す。入力１２はまた、データをプロセッサ１４に供給するためのデータエントリ又はデータインターフェースと称され得る。入力１２はまた、入力ユニット又は入力インターフェースと称され得る。

プロセッサ１４は、データ処理又は計算構成要素を指す。プロセッサ１４は、データを使用して着信音声データの修正を決定する手術のための基盤を提供する。プロセッサ１４はまた、データ処理装置又は計算ユニット又は中央処理装置と称され得る。

音声生成出力１６は、修正された音声部分を提供するためのデータ出力を指す。音声生成出力１６は、修正された音声データを音声生成構成要素に供給するためのデータ出口又はデータインターフェースと称され得る。音声生成出力１６はまた、出力ユニット又は出力インターフェースと称され得る。

環境コンテキスト情報は、ユーザの周辺、すなわち、手術室内の風景、に関する情報に関する。これは、可能なソースの空間情報、例えば、交点から成るメッシュ、ソースに対応する空間アンカ、１つ又は複数のカメラにおけるオブジェクト認識、或いは空間的アンカ、メッシュ、及びカメラの組合せからのソースに自動検出を含む。

「音声部分を識別すること」という用語は、「セグメント化する」ことができる、すなわち、他の音声部分と区別された及び環境コンテキスト情報のある種の態様に割り当てることができる、オーディオデータ内の音声のデータを決定することを指す。

「修正すること」という用語は、音声部分のうちの少なくともいくつかが増幅又は抑制又は減衰されることに関する。修正することはまた、音声部分の音声特性の（可聴）変更、例えば、周波数変調又は同類のものに関する。

「手術室」という用語は、病院又は医療目的の他の建物内の部屋又は空間、手術が行われる部屋又は空間、に関する。「手術」という用語は、介入手続き並びに画像化手続き及び検査手続きを含む、すべての種類の介入及び検査を含む。したがって、手術室という用語はまた、画像化室、手術室、介入スイート、カテ室、検査室、オフィスベースの研究室（病院及び他の建物内の）、外来手術センタ及び同類のものに関する。

一例では、入力は、複数のソースからのオーディオデータ及び少なくとも１人のユーザに対するそれらのそれぞれの位置を提供するように構成される。プロセッサは、それぞれのユーザのそれぞれの音場を、位置に基づいて、生成するように構成される。音場は、空間的音声生成デバイスによって示されることになっている。

一例では、動的位置収集が行われ、音声データは、位置情報で注釈付けされる。

第１のオプションでは、音声データ及び位置データは、同じ通信チャネル、例えば、ワイヤレス通信プロトコルを介して通信される。

第２のオプションでは、音声データ及び位置データは、異なる通信チャネルを介して通信される。

一例では、入力は、複数のユーザのそれぞれの手術室内のソースの複数の個々のユーザ割当て優先度重み付けを提供するように構成される。プロセッサは、複数のユーザのそれぞれの個々のユーザ割当て優先度重み付けに基づいてオーディオデータのうちの少なくともいくらかを修正するように構成される。音声ジェネレータ出力は、適合したユーザ特有の音声入力を提供するために複数のユーザのそれぞれに別個の音声生成の修正されたオーディオデータを提供するように構成される。

一例では、入力は、特に、オーディオデータの提供が、必ずしも音声タイプの信号ではないソースから受信される信号である、ソースから受信される信号のオーディオデータへの変換又は修正を含むように構成される。

一例として、信号は、ＥＣＧ信号又は圧力信号である。

一例として、ソースから受信される信号の変換又は修正は、ユーザ選好（ユーザ割当てオーディオデータ）に従って実装される。

結果として、ユーザ割当てオーディオデータが、提供される。

一例では、ソースの少なくとも一部は、少なくとも部分的に無音であり、それらの信号は、ユーザ特有のやり方でそれぞれのユーザのための音声へと移される。

一例では、優先度重み付け設定は、ユーザ優先度重み付けとして提供される。

さらなる一例では、優先度重み付け設定は、病院ルールに基づいて提供される。

別の例では、優先度重み付け設定は、アルゴリズムで（例えば、マシン学習、深層学習、又は他の最適化技巧を介して）生成された優先度重み付けとして、提供される。

さらに詳しくは示さないが、一例では、手術室内の音源の環境コンテキスト情報は、手術室内の音源の空間情報、手術室内の音源の外観、手術室内の音源のタイプ、手術室内の音源からの音声の内容、手術室内の音源の役割を果たし得る手術室内の人の識別並びに手術室内の音源からの可能な信号及び期待される（期待可能な）信号のグループのうちの少なくとも１つを含む。

一例では、環境コンテキスト情報は、部屋のメッシュを含み、そこで、メッシュは、手術室内の識別可能なオブジェクトを描写する交点を含む（図４も参照）。部屋のメッシュは、環境メッシュとも称される。識別可能なオブジェクトは、デバイス、器具、機器及び被験者のグループのうちの少なくとも１つを含む。一例では、環境コンテキスト情報は、好ましい音源としての識別されたオブジェクトを含む。メッシュは、空間的マップを提供する。メッシュは、手術室内の必須のオブジェクト及び被験者を反映する３次元マップの一種として提供される。一例では、空間アンカは、オブジェクトの確からしい位置を識別するための手段として提供される。メッシュは、１つ又は複数のカメラ、奥行きセンサ、ライダ、位置センサからリアルタイムで又は定期的に（例えば、手続きの開始時に）生成される。

「被験者」という用語はまた、個人とも呼ばれ得る。「被験者」はさらに、患者とも呼ばれるが、この用語は、任意の病気又は疾病が被験者に実際に存在するかどうかを示さない、ということに留意されたい。

図２は、手術室における音声管理のためのシステム５０の一例の概略的セットアップを示す。システム５０は、オーディオデータ入力を手術室内のソースから受信するように及びオーディオデータを提供するように構成された複数の音声データ入力を含む。オプションで、少なくとも１つのマイクロホン５２が、音源として提供される。システム５０はまた、前述の例のうちの１つによる手術室における音声管理のためのデバイス１０の少なくとも１つの例を含む。システム５０はさらに、判定されたユーザに割り当てられた少なくとも１つの音声生成デバイス５４を含む。少なくとも１つのマイクロホンは、オーディオデータを音声管理のための少なくとも１つのデバイスの入力１２に提供する。音声ジェネレータ出力１６は、修正されたオーディオデータを少なくとも１つの音声生成デバイス５４に提供して、適合したユーザ音声入力を提供する。

一例では、少なくとも１つのマイクロホンは、手術室内に位置する。

一例では、オーディオデータは、オブジェクトベースのオーディオ音声（又はオブジェクト生成の、すなわち、オブジェクトによって生成された又は引き起こされた）及びユーザに基づくオーディオ音声（又はユーザ生成の、すなわち、ユーザによって生成された又は引き起こされた）のグループのうちの少なくとも１つを含む。オブジェクトベースのオーディオ音声はまた、オブジェクト生成の音声、すなわち、オブジェクトによって生成された又は引き起こされた、と称される。ユーザに基づくオーディオ音声はまた、ユーザ生成の音声、すなわち、ユーザによって生成された又は引き起こされた、と称される。

一例では、少なくとも１つのマイクロホンが、頭部装着型デバイス上に位置する。

一例では、異なるユーザにそれぞれ割り当てられた、複数のユーザ割当て音声生成デバイスが、提供される。それぞれの音声生成デバイスは、それぞれに割り当てられた異なるユーザへの別個のユーザ適合した音声を生成するように構成される。

一例では、ユーザ割当て音声生成デバイスは、ユーザ割当て音声生成デバイスを介して人工生成された音響風景とカテ室の空間状況に存在する音響風景を結合して拡張オーディオ現実を提供するように構成される。

一例では、ユーザは、好ましい音声特徴を少なくとも１つの識別されたソースに割り当てることができ、そこで、これらの好ましい音声特徴は、手術室における、例えば外科手術中の、有用な音声情報を表す。

一例では、複数の音声データ入力の第１の部分が、それぞれの位置が知られている、静的入力として提供され、複数の音声データ入力第２の部分が、動的入力として提供され、動的入力のため、それぞれの位置が変化し、位置判定若しくは位置追跡のグループのうちの少なくとも１つが提供される。

一例では、環境コンテキスト情報は、手術室内の対象オブジェクトの存在に関する情報を含む。

一例では、オブジェクトの存在に関する情報は、カテ室で使用されるセットアップに関する。

一例では、環境コンテキスト情報は、それぞれのユーザに対する空間的関係を含む。生成された音声は、ソースの方向の指示をユーザに提供するための音響指向性情報を提供する。

一例として、音響信号は、ＥＣＧ（又は他のデバイス）のディスプレイが位置する空間方向を示す個々のやり方でユーザに提供される。したがって、ユーザは、彼／彼女の注意をトリガするための音響信号を提供されるが、例えば、重要な情報を、見つけるためにどの方向を見るべきかの命令も提供される。例えば、ステレオ音声警告は、ユーザが実際にソースを見ることをトリガする。したがって、ユーザに提供されるオーディオ信号は、空間的オーディオ信号であり得る。

図３は、手術室における音声管理のための方法１００の一例の基本ステップを示す。方法１００は、以下のステップを有する：ステップａ）とも称される、第１のステップ１０２で、手術室内に位置する複数のソースからのオーディオデータが、提供される。ステップｂ）とも称される、第２のステップ１０４で、手術室内の複数のソースの環境コンテキスト情報が、提供される。ステップｃ）とも称される、第３のステップ１０６で、少なくとも１人のユーザの手術室内のソースの優先度重み付けが、提供される。ステップｄ）とも称される、第４のステップ１０８で、オーディオデータの部分が、識別され、環境コンテキスト情報に基づいて複数のソースに割り当てられる。ステップｅ）とも称される、第５のステップ１１０で、オーディオデータのうちの少なくともいくらかは、少なくとも１人のユーザのための優先度重み付けに基づいて修正されて、音声生成のためのユーザ割当て修正オーディオデータを生成する。さらに、ステップｆ）とも称される、第６のステップ１１２で、ユーザ割当て修正オーディオデータが、適合したユーザ特有の音声入力を提供するために少なくとも１人のユーザに提供される。

修正された音声はまた、目標音声と称される。音声部分のうちの少なくともいくつかの修正は、音声部分の増幅、抑制及び変更（例えば、帯域通過フィルタリング）のグループのうちの少なくとも１つを含む。

一例では、音声部分のうちの少なくともいくつかを修正することに加えて、視覚警告（例えば、ウェアラブル拡張現実ディスプレイを介する）又は触知／触覚フィードバック（例えば、ウェアラブル拡張現実ディスプレイにおける又は別のウェアラブル若しくはハンドヘルドデバイスにおける振動を介する）又は両者の組合せが、ユーザに提供される。一例では、少なくとも１人のユーザのための拡張音響現実を提供する手術室のオーディオ入力に重ねられた少なくとも１人のユーザのための修正されたオーディオ出力を生成するステップが、さらに提供される。オプションで、メッシュは、空間状況の変化、例えば、移動するスタッフ又はモバイル機器の移動、に従って、連続してアップデートされる及び適合される。

図５は、手術室の部分的メッシュ６０の一例を示す。例えば、環境メッシュ６０において、モニタ６２、被験者サポート６４、及びＣアームシステム６６のような画像化システムのグループのうちの少なくとも１つが、メッシュ６０内で識別され得る。

図６は、図５のさらなる理解のために手術室におけるセットアップの一例を示す。類似のセットアップが、モニタ６２の一例、被験者サポート６４の一例及びＣアームシステム６６のような画像化システムの一例と示される。しかしながら、図６の状況は、わずかに異なる配列を示し、図５の風景と正確に一致しない、ということに留意されたい。

図２に戻って参照すると、オプションとして、少なくとも１つの空間センサ配列７０が、手術室内のユーザの周辺の空間データを提供するように構成されて、提供される。空間データは、部屋の少なくとも部分的メッシュを生成するのに適している。オプションとして、少なくとも１つの空間センサ配列は、特定の位置又はオブジェクトを識別する、奥行き感知カメラ７２、光学カメラ７４、マーカ７６のグループのうちの少なくとも１つを含み、そこで、マーカは、光学マーカ、幾何学的マーカ及び空間アンカ、位置検出器７８及び部屋内の他のチームメンバの識別８０並びに部屋内のユーザの位置判定デバイス８２のグループのうちの少なくとも１つを含む。

オプションで、作動した機器からのエンコーダが、メッシュ内のそれの位置を識別するために使用される、例えば、Ｃアーム、ロボットアーム又はロボット看護師の位置を識別するために使用される。

一例では、奥行き感知カメラ７２の少なくとも１つの例が、提供される。一例では、奥行き感知カメラ７２が、遠近の奥行き感知のために提供される。一例では、光学カメラ７４が、前及び横向きのカメラとして提供される。

一例では、環境の１つの又はいくつかのメッシュが、別個のメッシュクリエータデバイス（詳しく図示せず）によって生成される。例えば、入力はまた、１つ又は複数のセットのセンサ（例えば、１つ又は複数の頭部ウェアラブルデバイス、１つ又は複数のセンサバー搭載、又は組合せ）からもたらされる。

別の例では、環境の１つの又はいくつかのメッシュが、術前のデータに基づいて、提供される。

さらなる一例では、オブジェクトの１つの又はいくつかのメッシュが、提供される。

一例では、オブジェクト認識が、カメラフィードに基づいて提供される。

別の例では、オブジェクト認識が、メッシュに基づいて提供される。例えば、オブジェクトのタイプが、メッシュ構造及び／又はメッシュセグメントに基づいて、識別される。

一例では、少なくとも１つの空間センサ配列は、部屋のメッシュに関連するデータを提供するように構成された環境検出デバイスを含む、部屋に取り付けられたデバイス、器具又は配列を含む。

追加で又は別法として提供される、別の例では、少なくとも１つの空間センサ配列は、部屋のメッシュに関連するデータを提供するように構成された環境検出デバイスを含んでいる、スタッフに取り付けられたデバイス、器具又は配列を含む。

一例では、少なくとも１つの頭部装着型デバイス８４（図７及び図８を参照）が、ユーザのために提供される。頭部装着型デバイス８４は、音声生成デバイス１８を含む。

図４は、手術室における音声管理のために構成された頭部装着型デバイス８４の一例を示す。頭部装着型デバイス８４は、ユーザの頭部８１に頭部装着型デバイス８４を装着するためのフレーム構造８３を含む。レンズ構造７９が、ユーザの見ている方向に、すなわちユーザの目７７の前に、配列されるように提供される。ユーザが少なくとも部分的にそれを通して見ることができるような、レンズ構造７９が、提供される。投射デバイス７５が、提供された視覚拡張現実へのレンズ構造７９上の投射を提供するように提供され得る。

さらに、頭部装着型デバイス８４は、音声生成デバイス、例えばユーザの耳のエリア内のラウドスピーカ７３、を含む。

データリンク７１は、さらなる構成要素と接続するために示されている。例えば、中央ハブ又はコンソールが、頭部装着型デバイス８４のうちのいくつかを制御するために提供される。

一例では、頭部装着型デバイス８４は、音声管理のためのデバイス１０を含んで、構成される。例えば、プロセッサ１４は、頭部装着型デバイス８４に統合される。一例では、入力１２、プロセッサ１４及び音声生成出力１６は、個別に提供され、データリンク７１は、データ接続を、例えば、修正された音声部分のデータをラウドスピーカ７３のような音声生成デバイスに、提供する。

一例では、カメラのような、さらなるセンサ６９が、フレーム構造８３上で提供される。

さらに、アイトラッカ（図４では詳しく示さない）もまた、ユーザの注視を判定するために提供され得る。別法として、他のセンサ（加速度計、ジャイロスコープ、カメラ、光学追跡）が、視標追跡のためのサロゲートとして使用されるユーザの頭部位置での入力を提供する。

一例では、１つの頭部装着型デバイス８４が、ユーザ特有の修正された音声を提供するために、ユーザごとに提供される。一例では、頭部装着型デバイス８４は、視覚生成デバイス（詳しく図示せず）を含む。

オプションで、複数の頭部装着型デバイス８４が、提供され、頭部装着型デバイス８４の少なくとも一部は、部屋のメッシュに関連するデータを提供するように構成された環境検出デバイスを含む。

一例では、データが、部屋のメッシュを作成及び／又はアップデートするために、提供される。

頭部装着型デバイス８４が、ユーザのためのメッシュを生成及びアップデートするために使用されるデータの提供に共通して貢献するために、使用される。

したがって、他のユーザからのメッシュへの貢献が、例えば、手術室内の異なる位置からの（ユーザの）メッシュにデータを追加することによって、提供される。

一例では、環境コンテキストが、（遠近の）奥行き感知カメラ、（前又は横向きの）カメラ、（拡張現実ヘッドセットによって生成された又は先験的に知られた）環境のメッシュ、（拡張現実ヘッドセットによって生成された又は先験的に知られた）オブジェクトのメッシュ、特定の位置又はオブジェクトを識別するマーカ、部屋内の他のチームメンバの位置及び識別並びに部屋内のユーザの位置の判定のグループのうちの１つ又はいく使を含む、ウェアラブル拡張現実ヘッドセットからの入力を使用して、判定される。

一例では、環境コンテキスト情報は、好ましい音源としての識別されたオブジェクトを含む。オプションで、好ましい音源は、ユーザ入力によって識別される。前述のオプションに加えて又は別法として提供される、別のオプションにおいて、好ましい音源が、手術室内の現在の手術の状況の依存関係で個々のユーザについてあらかじめ決められる。

一例では、音声をローカライズするように構成された、１つ又は複数のマイクロホン８６（図６も参照）が、提供される。システムは、部屋のメッシュに音声のローカリゼーションを登録するように構成される。

例えば、メッシュを生成するマイクロホン及びカメラが、ヘッドセットに由来しているとき、これは、デバイス内のセンサの機械的関係性の較正によって維持される。マイクロホン及びカメラが、統合されておらず、部屋内にない場合、一例では、マイクロホン及びカメラは、共に登録される。

一例では、活動検出器８８が、ユーザの活動を検出するために提供される（図２を参照）。ユーザ活動は、音声部分を修正するために使用される。

代替例において、音声は、ユーザ活動にかかわらず、ユーザに対して修正又はカスタマイズされる。

一例では、アイトラッカ９０が、ユーザの注視を判定するために提供される（図８を参照）。ユーザの注視が、好ましい音源を判定するための入力として提供される。

一例では、オーディオ入力を受信する１つ又は複数のマイクロホン及びオーディオ出力を提供する１つ又は複数のスピーカを有する、手術室のための音声コントローラが、提供される。オーディオ出力は、視線に基づいて、変調される。

オーディオ出力はまた、注視の継続期間に基づいて、変調され得る。例えば、特定のオーディオ入力に関する注視の継続期間は、それから、警告を「受領確認すること」によって、その入力を静まらせることができる。

加えて、オーディオ変調は、現実オブジェクトを表すサロゲートである拡張現実から作成された仮想オブジェクトに向けた視線に基づき得る。例えば、患者モニタの仮想スクリーン又は仮想警報メッセージに向けた視線は、実際の患者モニタを見ることと同様に、警告の受信を確認し得る。

ユーザの注視を追跡することは、ユーザが静かなとき、すなわち、音声が現在提供されていないとき、音源を識別するためのオプションを提供する。対象のオブジェクト（又は被験者）は、音声が作成されたら音声がこのソースから修正されることを確実にするために、識別され得る。

注視の提供は、ユーザが場面を見ていること基づき、この情報を使用することになっている。一例として、注視は、メッシュに加えて奥行き情報を提供する。注視は、ユーザの意図の入力を提供する。したがって、注視は、メッシュに加えて又は別法として音源の識別のために使用され得る。したがって、注視は、手術室内の音源の環境コンテキスト情報を提供し得る。

オプションで、音声部分のうちの少なくともいくつかを修正することに加えて、警告データが、視覚警告の生成のために及び／又は触知／触覚フィードバックの生成のために提供される。一例では、両者の組合せが、提供される。

一例では、警告データが、ビジュアライザ（詳しく図示せず）、例えば、拡張現実ウェアラブル内のユーザに対するポップアップウインドウ、によって、視覚警告の生成のために提供される。

別の例では、警告データが、振動要素、例えばヘッドセットに又はハンドル要素（やはり詳しく図示せず）に配列された振動要素、による触知／触覚フィードバックの生成のために提供される。

図７は、手術室内の風景の一例を示す。システム２００は、部屋内の異なる位置にある複数のソース２０４からオーディオ出力２０２を受信する。それらの位置並びに音声２０５は、拡張現実センサ２０８及び先験的データ２１０からの追加情報と共に、コントローラ２０６への入力である。コントローラは、次いで、ユーザにフィードバックされる変調された３Ｄオーディオ出力２１１を出力する。複数のマイクロホン２１３が、提供される。図７の例では、コントローラ２０６は、部屋内の４つの異なるソースから入力を受信する：手術者に話しかけようとしている看護師２１２、手術台２１４からの音声、例えば、吸引装置に起因する、部屋の隅で会話している２人２１６及び患者モニタからのアラーム２１８。コントローラ２０６は、患者モニタの先験的モデル（メッシュ及びカメラ画像）を有し、そのオブジェクトにアラーム音声をマッチさせる。ルールは、これらの警告が高い優先度である及び音声が増幅されることを規定する。部屋の隅で会話している２人は、低い優先度ルールに割り当てられ、それにより、音声は抑制される。手術台からの音声は、部屋内のその位置にマップされ、手術エリアのクリティカルゾーン内にあり、したがって、音声はそのままにされる。オプションで、看護師が手術者に話しかけようとしている重要なスタッフとして顔認識（カメラからの）を介して識別される。発言は、ユーザのために増幅される。

類似のシナリオにおいて、異なる手術者は、彼又は彼女の役割に基づいて、代替ルールを有する。例えば、手続きを文書化している看護師は、部屋内で起きている２つの異なる会話をよりよく聞くために、患者モニタ警告並びに手術部位からの音声を取り除くルールを有する。同様に、患者はまた、ヘッドセットを装着することもでき、発言が、コントローラルール、起動の言葉、又は環境コンテキストによって判定されるものとして、患者に向けられるときにのみ、音声が通過することを可能にすることになる。

環境コンテキストはまた、以下を含む、手術室内の関連し得る他のタイプのコンテキストに拡張され得る：ユーザコンテキスト（視標追跡、マイクロホン、顔の表情の内側を向いたカメラ、ジェスチャ、頭部姿勢からの）、システムコンテキスト（ユーザは拡張現実ウェアラブルを介してシステムとどのように対話しているか―例えば、どのスクリーンが現在表示されているか、仮想制御パネルでのボタン押し―に基づいて）、及び／又は、臨床コンテキスト（手続きのタイプ、使用中のデバイス、手続きのフェーズ、患者情報）。

図８は、手術室内の風景の別の例を示す。オプションとして、視線が、異なるソースを選択的に増幅及び抑制するために、使用される。例えば、視線は、患者モニタからのアラーム２１８に集中していると、視線検出器２２０によって検出されて、その音声を増幅し、部屋内の他のすべての音声を抑制する。

第１の記号２２２は、コントローラ２０６によって与えられる修正としての、ターゲットを定めた増幅を示す。第２の記号２２４は、コントローラ２０６によって与えられる修正としての、ターゲットを定めた抑制を示す。

視線は、比較的ノイズの多い信号であり得るので、視線は、音声のソースと同じ位置に完全にマップしないことがある。その場合、部屋のメッシュ及びカメラフィードからの情報は、音源に同様にマップされる部屋の領域に視線をマップし得る。

同様に、個人間の通信を増幅しようと試みているとき、視線は、彼又は彼女が見ている人の位置にマップされ得る。この場合、視線の使用はまた、目標ユーザのオーディオを変調し得る。さらに、２人のユーザが、同じオブジェクトに集中している場合、互いへの彼らの通信は、増幅され得る。機器はまた、それのオペレータにリンクされる。したがって、ユーザが、機器を注視しているとき、それは、機器と機器オペレータからの任意の発言との両方の音声を選択的に増幅する。

この特徴は、ユーザ選好に基づいて選択的に有効化又は無効化される（例えば、事前構成される、音声コマンドによって有効化される、ある特定のドウェル時間の後に有効化される、など）。

別の例では、手術室のための音声管理システムが、提供される。手術室は、ユーザ及びオブジェクトを含む。音声管理システムは、部屋のオーディオ入力、例えば、オブジェクトオーディオ音声及びユーザオーディオ音声、を受信するために部屋内にある１つ又は複数のマイクロホンを含む。さらに、１ユーザにつき１つのヘッドセットが、選択的ユーザオーディオを受信するための及び特にユーザにオーディオ音声を出力するためのマイクロホン及びスピーカを有して、提供される。さらに、ユーザごとにオーディオ音声の優先リストを作るためのプライオリタイザが、提供される。音声は、ユーザヘッドセットにおいて強調される。一例では、リストが、オブジェクト音声、ユーザ音声及び選択的ユーザオーディオ音声における選択によって、作られる。さらに、部屋のメッシュを作成するためのメッシュクリエータが、提供される。一例では、メッシュは、それぞれのユーザが分かるように提供される。別の例では、メッシュが、部屋の隅の１つのセンサ（例えば、カメラ）によって提供される。別の例では、メッシュは、ユーザのヘッドセットによって、例えばそれぞれのユーザヘッドセットによって、提供される。オプションとして、それぞれのユーザの活動を検出するための手段が、提供される。

さらに、手段が、彼の／彼女の優先度リスト、彼の／彼女のメッシュ及びオプションの彼の／彼女の活動の情報に基づいて、例えば、ヘッドセット又はスピーカによって、オーディオ音声をそれぞれのユーザに選択的に送るために、提供される。したがって、オーディオ出力は、環境コンテキストに基づいて入力音声を変調することによって音声の作成を実現する。

一例では、カメラ、奥行き感知カメラ、マイクロホン、スピーカ、頭部追跡、視標追跡及び振動要素のグループのうちの少なくとも１つを含む、頭部装着型ディスプレイが、提供される。カメラは、環境の視覚化及び環境の同時ローカリゼーション及びマッピングのために提供され得る。奥行き感知カメラは、環境のマッピング及びジェスチャ認識のために提供され得る。マイクロホンは、環境の感知並びに音声認識のために提供され得る。スピーカは、オーディオフィードバックのために提供され得る。頭部追跡は、音声修正のさらなる調整、例えば、ユーザの後ろにあり、したがって、視界内にないソースからのオーディオ信号の増強、のために、提供され得る。視標追跡は、ユーザの注視を検出するために提供され得る。振動要素は、例えば、ユーザが身に付けた頭部装着型ディスプレイ、眼鏡又は手袋での、触覚フィードバックのために提供され得る。さらに、頭部装着型ディスプレイのタッチ制御が、提供され得る。さらに、外部デバイス、例えば、コントローラ、リモートコントロール又はキーボードが、提供され得る。

一例では、コントローラとも称される、音声管理のためのデバイスは、拡張現実頭部装着型ディスプレイに又は頭部装着型ディスプレイと往復で迅速に通信するリモートＰＣ／クラウドに直接実装される。一例では、頭部装着型ディスプレイは、最低１つのマイクロホンを有するが、部屋内のおおよその位置にオーディオ入力を三角測量するために、理想的には複数のマイクロホンを有する。その位置及び音声プロファイルは、コントローラに入力される。コントローラはまた、部屋のメッシュ及び１つ又は複数のカメラフィードなどの拡張現実頭部装着型ディスプレイからの情報を受信する。加えて、コントローラに供給される先験的情報、例えば、コントローラのルール、異なる機器の３Ｄモデル及び画像、ある種のルール又は機器にマップされたマーカ、スタッフの写真及び彼らの役割など、が存在し得る。

本発明は、ライブ音声ストリームとも称される、ライブ音場が、修正された音声部分の形での付加的コンピュータ－生成音響情報で補足される、ターゲットを定めた拡張現実を提供する。ライブ音響ストリーム（ライブ音声ストリーム）は、耳、ヘッドフォン又は他のラウドスピーカを介し得る。この音響ストリームは、修正された音声部分を介して拡張される。

一例では、拡張音響現実は、ユーザの耳の隣の、又は少なくともユーザの耳の近くのエリアにある音声生成構成要素によって、提供される。例えば、頭部装着型ディスプレイが、ラウドスピーカ、例えば、イヤホン、によって提供される。頭部装着型デバイスの例には、グーグルグラス又はＭｉｃｒｏｓｏｆｔのホロレンズのようなウェアラブルが含まれる。頭部装着型デバイスの他の例には、ｎＲｅａｌ、Ｍｅｔａ、Ｎｏｒｔｈによるウェアラブル、ＭａｇｉｃＬｅａｐによる頭部装着型ディスプレイ、Ｖｕｓｉｘによるウェアラブルヘッドセット及びＢｏｓｅの拡張現実眼鏡がある。

さらに、追加の拡張もまた、ユーザに表示、触覚及び他のフィードバックの形で提供され得る。一例として、拡張現実をそれぞれのユーザに提供する、頭部装着型デバイスが、それぞれのユーザのために提供される。本発明は、それにより、現実世界に仮想コンテンツとしてフィードバックを追加する拡張現実の実装形態を実現する。

一例では、修正された音声部分は、仮想現実に、すなわち、完全仮想音響世界に、又は複合現実、すなわち、現実及び仮想音響世界の混合、に提供される。

図９は、手術室２３０内の風景のさらなる例を示す。被験者２３２は、医療処置のために被験者サポート２３４上に配列される。被験者のいくつかの生理学的パラメータが、モニタされ、それについて、第１のモニタ２３６及び第２のモニタ２３８が描かれている。さらに、例えば（図示されていない）画像化配列によって獲得される医療画像を提供するための、メインディスプレイ配列２４０が、示されている。メインディスプレイ配列２４０はまた、手術前の画像又はその他を提示するために使用され得る。画像化配列のような技術的機器のうちのいくつかをモニタ、起動及び制御することを可能にする、コンソール２４２又は制御配列が、示されている。第１のスタッフ２４４’は、被験者２３２の近くに示されている。例えば、第１のスタッフ２４４’は、外科医である。例えば医療処置中にコンソール２４２を操作するための、第２のスタッフ２４４’’が、示されている。第３のスタッフ２４４’’’及び第４のスタッフ２４４’’’’は、例えば第１のスタッフ２４４’のためのサポート機能を提供するために、示されている。

スタッフのうちの少なくとも何人かは、個別音声生成デバイスを提供され、第１のスタッフ２４４’のための第１の個別音声生成デバイス２４６’、第２のスタッフ２４４’’のための第２の個別音声生成デバイス２４６’’、第３のスタッフ２４４’’’のための第３の個別音声生成デバイス２４６’’’及び第４のスタッフ２４４’’’’のための第４の個別音声生成デバイス２４６’’’’が、示されている。

生理学的パラメータモニタリング、すなわち、第１のモニタ２３６及び第２のモニタ２３８、のような、機器のうちのいくつかは、スタッフに、例えば、情報又は警告として、信号を提供するように構成される。信号は、視覚信号として又は音響信号として提供され得る。

一例では、第１の手法で、信号は、データとして提供される。データは、中央処理装置２５０に、破線２４８で示すように、送信、すなわち通信される。オプションで、追加で又は別法として、信号はまた、音響信号として提供され得る。

中央処理装置２５０は、次いで、個々のユーザ設定に応じてそれぞれのユーザの音声プロファイルのデータを決定する。ユーザ特有の、すなわち、カスタマイズされたデータが、線２５２で示すように、それぞれのユーザに通信される。

修正された音声プロファイルのデータは、それぞれの個別音声生成デバイス２４６に送信される。音声生成デバイス２４６は、ヘッドフォン、又は他のユーザが携行する若しくはユーザに関連するラウドスピーカとして、提供され得る。音声生成デバイス２４６はまた、視覚情報も提供する頭部装着型ギア、例えば、拡張現実又は複合現実又は仮想現実を提供するための、で一体的に提供され得る。

オプションで、それぞれのソースの（情報及び／又は音声の）位置は、知られており、例えば、事前決定され、中央処理装置２５０は、個別音声プロファイルを修正及び生成するとき、この情報を考慮する。例えば、さらに遠く離れたデバイスからの信号が、デバイス自体によるかなり低い音響信号として、そしてまた、修正された音声プロファイルを介するユーザへの音響信号として、提供される。したがって、ユーザは、他に悪影響を及ぼさずに、クリアに受信できる信号を提供される。

オプションとして、対象の（音声）ソースの少なくとも一部のそれぞれの位置を検出及びモニタする、位置検出ユニット２５４が、提供される。検出された位置又は位置データが、中央処理装置２５０に送信され、そこで、ユーザに適合した修正及び音声データ生成プロセスのために使用される。

例えば、生理学的パラメータモニタリングの信号、例えば、心拍数、酸素血液率、血圧、が、中央処理装置２５０に提供されるが、サポートスタッフに単に転送され、そこで、信号は、それぞれのユーザに音響手法で提供される。しかしながら、危機的な又は所定の状況において、特定の生理学的パラメータに関連するそれぞれの音声信号が、外科医にも提供される。

オプションとして、個人の音声生成デバイスを有さないユーザでも、すべてのユーザが、信号を聞くことができ、それにより、その情報を提供されるように、信号はまた、部屋全体の音響システム、例えば、音響信号を提供するためのラウドスピーカに提供され得る。

別の例では、それに関する情報がメインディスプレイ配列２４０に表示される、警告状況が、検出され、第１のスタッフ２４４’などのそれぞれのユーザは、信号がメインディスプレイ配列２４０の方向から来るという印象をユーザが有するような、生成された音響信号を提供される。ユーザは、次いで、この方向を見てメインディスプレイ配列２４０でデータ、画像又は他の情報を見ることができる。

別の例では、固定したマイクロホンが、部屋中で音響信号を収集するために、提供される。中央処理装置２５０は、次いで、選択された信号のユーザ特有の音声組合せを構成する。

別の例では、移動可能なマイクロホンが、部屋中の音響信号を収集するために提供される、例えば、そのユーザからの音響信号、例えば話されたテキスト、を提供するためにユーザに取り付けられる。中央処理装置２５０は、次いで、そのような通信を他の選択されたスタッフに提供する。

別の例では、サポートスタッフは、互いに通信しており、これは、マイクロホン、例えばヘッドフォンに統合された又は頭部装着型ギアに統合されたマイクロホンによって収集される。検出された音声は、中央処理装置２５０に転送される信号内に移される。中央処理装置２５０は、次いで、そのような通信を第１のスタッフに提供する。

結果として、信号は、部屋中で聞こえるために大きくなくてもよいが、通信ネットワークを介して転送され、次いで、所定の基準に従って特定のユーザにターゲットを定めた仕方で提供されるので、全体の音響レベルは、最小限にされ得る。個別の手法で数人のユーザのための音響信号及び情報の選択された生成を提供することは、これらは、スタッフが実際に必要とする、それらの信号のみを提供されるので、手術室内の音声レベル及び音声複雑性を低減するだけでなく、スタッフへの軽減を意味する。これは、それぞれのタスクによりよく集中することを可能にする。

一例によれば、コンピュータプログラムが、前述の例の方法をプロセッサが実施することを可能にして、提供される。

一例では、前述の例のうちの１つに従って装置を制御するためのコンピュータプログラム又はプログラム要素が、提供され、そのプログラム又はプログラム要素は、処理装置によって実行されるとき、前述の方法例のうちの１つの方法例のステップを実行するようになされる。

一例によれば、コンピュータ可読媒体が、前述の例のプログラム要素を記憶して、提供される。

本発明の別の例示的実施形態において、適切なシステムで、前述の実施形態のうちの１つによる方法の方法ステップを実行するようになされることを特徴とする、コンピュータプログラム又はコンピュータプログラム要素が、提供される。

したがって、コンピュータプログラム要素は、コンピュータユニットに記憶する、又は、本発明の一実施形態の一部でもあってもよい、複数のコンピュータユニットに分散することができる。この計算ユニットは、前述の方法のステップの実行を行う又は誘導するようになされ得る。さらに、計算ユニットは、前述の装置の構成要素を操作するようになされ得る。計算ユニットは、自動的に操作するように及び／又はユーザの注文を実行するようになされ得る。コンピュータプログラムは、データプロセッサのワーキングメモリにロードされ得る。したがって、データプロセッサは、本発明の方法を実施するために装備され得る。

本発明の態様は、コンピュータによって実行することができるコンピュータ可読記憶デバイスに記憶されたコンピュータプログラム命令のコレクションでもよい、コンピュータプログラム製品において実装され得る。本発明の命令は、スクリプト、解釈可能なプログラム、動的リンクライブラリ（ＤＬＬ）又はＪａｖａクラスを含むが、これらに限定されない、任意の解釈可能又は実行可能コード機構内にある。命令は、完全な実行可能プログラム、部分的実行可能プログラムとして、現存するプログラムへの修正（例えば、アップデート）又は現存するプログラムの拡張（例えば、プラグイン）として提供され得る。さらに、本発明の処理の部分は、複数のコンピュータ又はプロセッサに分散され得る。

前述のように、処理装置、例えばコントローラ、は、制御方法を実装する。コントローラは、必要な様々な機能を実行するために、多数のやり方、ソフトウェア及び／又はハードウェアを有する、で実装され得る。プロセッサは、必要な機能を実行するためにソフトウェア（例えば、マイクロコード）を使用してプログラムされ得る１つ又は複数のマイクロプロセッサを用いるコントローラの１つの例である。しかしながら、コントローラは、プロセッサを使用して又は使用せずに実装され得、そしてまた、いくつかの機能を実行するための専用ハードウェア及び他の機能を実行するためのプロセッサ（例えば、１つ又は複数のプログラムされたマイクロプロセッサ及び関連回路）の組合せとして実装され得る。

本開示の様々な実施形態で使用されるコントローラ構成要素の例は、従来のマイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、及びフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含むが、これらに限定されない。

本発明のこの例示的実施形態は、本発明を最初から使用するコンピュータプログラムとアップデートを用いて現存するプログラムを発明を使用するプログラムに変えるコンピュータプログラムとの両方を包含する。

さらに、コンピュータプログラム要素は、前述のように方法の例示的実施形態の手続きを遂行するためのすべての必要な手続きを提供することができる。

本発明のさらなる例示的実施形態によれば、コンピュータ可読媒体、例えば、ＣＤ－ＲＯＭ、が、示され、そこで、コンピュータ可読媒体は、コンピュータプログラム要素が記憶されており、コンピュータプログラム要素は、前述のセクションによって説明されている。コンピュータプログラムは、適切な媒体、例えば、他のハードウェアの部分と共に又は他のハードウェアの部分として供給される光学記憶媒体又はソリッドステート媒体、に記憶及び／又は分散され得るが、他の形で、例えば、インターネット又は他のワイヤード若しくはワイヤレス電気通信システムを介して、分散され得る。

しかしながら、コンピュータプログラムはまた、ワールドワイドウェブのようなネットワーク上に示され、そのようなネットワークからデータプロセッサのワーキングメモリへとダウンロードされ得る。本発明のさらなる例示的実施形態によれば、コンピュータプログラム要素が、発明の技術的に前述された実施形態のうちの１つに従って、方法を実行するように配列された、コンピュータプログラム要素をダウンロードのために利用可能にさせるための媒体が、提供される。

発明の実施形態は、異なる主題を参照して説明される、ということに留意する必要がある。具体的には、いくつかの実施形態は、方法のタイプの請求を参照して説明され、その一方で、他の実施形態は、デバイスのタイプの請求を参照して説明される。しかしながら、当業者は、前述の及び以下の記述から、別段の通知のない限り、１つのタイプの主題に属する特徴の任意の組合せに加えて、異なる主題に関連する特徴間の任意の組合せもまた、本願で開示されていると考えられていると推測することになる。しかしながら、すべての特徴は、特徴の単純な合計を超える相乗効果を提供して、結合され得る。

発明は、図面及び前述の説明で詳細に図解及び記述されているが、そのような図解及び記述は、実例又は例示として考えられるべきであり、限定として考えられるべきではない。発明は、開示された実施形態に制限されない。開示された実施形態への他の変更形態が、図面、開示、及び従属請求の学習から、請求されている発明を実施する際に当業者によって理解され得る及びもたらされ得る。

本請求において、「含む（備える）」という用語は、他の要素又はステップを排除せず、単数形は、複数性を排除しない。単一のプロセッサ又は他のユニットが、請求において列挙されたいくつかの項目の機能を果たし得る。相互に異なる従属請求においてある種の手段が列挙されているという事実だけで、これらの手段の組合せが有利に使用され得ないということを示さない。請求におけるどの引用符号も、範囲を制限するものとして解釈されるべきではない。

Claims

手術室における音声管理のためのデバイスであって、前記デバイスが、
入力と、
プロセッサと、
音声生成出力と
を含み、
前記入力が、
前記手術室内に位置する複数のソースからオーディオデータを提供し、
前記手術室内の前記複数のソースの環境コンテキスト情報を提供し、
少なくとも１人のユーザのための前記手術室内の前記ソースの優先度重み付けを提供し、
前記プロセッサが、
前記オーディオデータの部分を識別し、前記環境コンテキスト情報に基づいて前記オーディオデータの部分を前記複数のソースに割り当て、
前記少なくとも１人のユーザのための前記優先度重み付けに基づいて前記オーディオデータのうちの少なくともいくらかを修正して音声生成のためのユーザ割当て修正オーディオデータを生成し、
前記音声ジェネレータ出力が、
適合したユーザ特有の音声入力を提供するために前記少なくとも１人のユーザに前記ユーザ割当て修正オーディオデータを提供する、デバイス。
前記入力が、複数のソースからのオーディオデータ及び前記少なくとも１人のユーザに関連する前記複数のソースそれぞれの位置を提供し、
前記プロセッサが、各ユーザに対するそれぞれの音場を、前記位置に基づいて、生成し、
前記音場が、空間的音声生成デバイスによって提示される、
請求項１に記載のデバイス。
前記入力が、複数のユーザそれぞれの前記手術室内の前記ソースの複数の個々のユーザ割当て優先度重み付けを提供し、
前記プロセッサが、前記複数のユーザそれぞれの前記個々のユーザ割当て優先度重み付けに基づいて前記オーディオデータのうちの少なくともいくらかを修正し、
前記音声ジェネレータ出力が、適合したユーザ特有の音声入力を提供するために前記複数のユーザそれぞれに別個の音声生成のための修正されたオーディオデータを提供する、
請求項１又は２に記載のデバイス。
入力は、前記オーディオデータの前記提供が前記オーディオデータへのソースから受信された信号の変換又は修正を含むように特に構成され、前記ソースから受信される信号が、必ずしも音声タイプの信号ではない、請求項１から３のいずれか一項に記載のデバイス。
前記ソースから受信される前記信号の前記変換又は修正が、ユーザ選好のユーザ割当てオーディオデータに従うように実装される、請求項１から４のいずれか一項に記載のデバイス。
前記ソースの少なくとも一部が、少なくとも部分的に無音であり、
それらの信号が、ユーザ特有のやり方で前記ユーザのそれぞれのための音声へと移される、
請求項１から５のいずれか一項に記載のデバイス。
前記手術室内の前記ソースの前記環境コンテキスト情報が、
前記手術室内の前記音源の空間情報、
前記手術室内の音源の外観、
前記手術室内の音源のタイプ、
前記手術室内の前記音源からの音声の内容、
前記手術室内の音源の役割を果たし得る前記手術室内の人の識別、
前記手術室内の音源からの可能な信号及び期待される信号
のグループのうちの少なくとも１つを含む、請求項１から６のいずれか一項に記載のデバイス。
手術室における音声管理のためのシステムであって、前記システムが、
前記手術室内のソースからオーディオデータを受信し、前記オーディオデータを提供する複数の音声データ入力と、
請求項１から７のいずれか一項に記載の手術室における音声管理のためのデバイスと、
判定されたユーザに割り当てられた少なくとも１つの音声生成デバイスと
を含み、前記複数の音声データ入力が、前記音声管理のためのデバイスの前記入力に前記オーディオデータを提供し、
前記音声ジェネレータ出力が、前記修正されたオーディオデータを前記少なくとも１つの音声生成デバイスに提供して、前記適合したユーザ音声入力を提供する、システム。
複数のユーザ割当て音声生成デバイスが提供されて、それぞれが、異なるユーザに割り当てられ、
それぞれの前記音声生成デバイスが、前記それぞれ割り当てられた異なるユーザへの別個のユーザ適合音声を生成する、請求項８に記載のシステム。
前記ユーザ割当て音声生成デバイスが、前記ユーザ割当て音声生成デバイスを介して、人工的に生成された音響風景と空間状況に存在する音響風景を結合して拡張オーディオ現実を提供する、請求項８又は９に記載のシステム。
前記ユーザが、好ましい音声特徴を少なくとも１つの識別されたソースに割り当てることができ、これらの好ましい音声特徴が、手術室における、外科手術中の有用な音声情報を表す、請求項８から１０のいずれか一項に記載のシステム。
前記複数の音声データ入力の第１の部分は、前記それぞれの位置が知られている静的入力として提供され、
前記複数の音声データ入力の第２の部分は動的入力として提供され、前記動的入力のために、前記それぞれの位置が変化し、位置判定又は位置追跡のグループのうちの少なくとも１つが提供される、請求項８から１１のいずれか一項に記載のシステム。
環境コンテキスト情報が、前記手術室内の対象オブジェクトの存在に関する情報を含む、請求項８から１２のいずれか一項に記載のシステム。
前記環境コンテキスト情報が、前記ユーザのそれぞれに対する空間的関係を含み、前記生成された音声が、前記ソースの方向の指示を前記ユーザに提供するための音響指向性情報を提供する、請求項８から１３のいずれか一項に記載のシステム。
前記環境コンテキスト情報が、前記部屋の部分的メッシュを少なくとも含み、前記メッシュが、前記手術室内の識別可能なオブジェクトを含む、請求項８から１４のいずれか一項に記載のシステム。
少なくとも１つの空間センサ配列が、前記手術室内のユーザの周辺の空間データを提供し、提供された前記空間データが、前記部屋の前記少なくとも部分的メッシュを生成し、
前記少なくとも１つの空間センサ配列が、
奥行き感知カメラと、
光学カメラと、
光学マーカ、幾何学的マーカ及び空間アンカのグループのうちの少なくとも１つと、
前記部屋内の他のチームメンバの位置検出器及び識別と、
前記部屋内の前記ユーザの位置判定デバイスと
のグループのうちの少なくとも１つを含む、請求項８から１５のいずれか一項に記載のシステム。
少なくとも１つの頭部装着型デバイスが、前記ユーザのために提供され、
前記頭部装着型デバイスが、前記音声生成デバイスを含む、請求項８から１５のいずれか一項に記載のシステム。
複数の頭部装着型デバイスが提供され、
前記頭部装着型デバイスの少なくとも一部が、前記部屋の前記メッシュに関連するデータを提供する環境検出デバイスを含む、請求項１７に記載のシステム。
前記環境コンテキスト情報が、好ましい音源としての識別されたオブジェクトを含み、
前記好ましい音源が、ユーザ入力によって識別され、
前記好ましい音源が、前記手術室内の現在の手術の状況の依存関係において個々のユーザについてあらかじめ決められる、請求項８から１８のいずれか一項に記載のシステム。
音声をローカライズするように構成された１つ又は複数のマイクロホンが提供され、
前記システムが、前記部屋の前記メッシュに前記音声の前記ローカリゼーションを登録する、請求項８から１９のいずれか一項に記載のシステム。
活動検出器が、ユーザの活動を検出するために提供され、
前記ユーザ活動が、音声部分を修正するために使用される、請求項８から２０のいずれか一項に記載のシステム。
アイトラッカが、前記ユーザの注視を判定するために提供され、
前記ユーザの注視が、好ましい音源を判定するための入力として提供される、請求項８から２１のいずれか一項に記載のシステム。
前記音声部分のうちの少なくともいくつかを修正することに加えて、警告データが、視覚警告の生成のために及び／又は触知／触覚フィードバックの生成のために提供される、請求項８から２２のいずれか一項に記載のシステム。
手術室における音声管理のための方法であって、
前記手術室内に位置する複数のソースからのオーディオデータを提供するステップと、
前記手術室内の前記複数のソースの環境コンテキスト情報を提供するステップと、
少なくとも１人のユーザの前記手術室内の前記ソースの優先度重み付けを提供するステップと、
前記オーディオデータの部分を識別し、前記環境コンテキスト情報に基づいて前記複数のソースに割り当てるステップと、
前記少なくとも１人のユーザのための優先度重み付けに基づいて前記オーディオデータのうちの少なくともいくらかを修正して、音声生成のためのユーザ割当て修正オーディオデータを生成するステップと、
適合したユーザ特有の音声入力を提供するために前記少なくとも１人のユーザに前記ユーザ割当て修正オーディオデータを提供するステップと
を含む、方法。
請求項２４に記載の方法をプロセッサが実施することを可能にする、コンピュータプログラム。
請求項２５に記載のコンピュータプログラムが記憶された、コンピュータ可読媒体。