JP2023552205A

JP2023552205A - 音声通信を向上させるシステム及び方法

Info

Publication number: JP2023552205A
Application number: JP2023533971A
Authority: JP
Inventors: カルリ，ラヴィ; マハデヴァッパ，シヴァクマール; ホーキンス，ダニエル
Original assignee: アベイルメドシステムズ，インコーポレイテッド
Priority date: 2020-12-04
Filing date: 2021-12-03
Publication date: 2023-12-14
Also published as: EP4256581A1; WO2022120203A1; CN116918000A; US20240153491A1

Abstract

本開示は、音声通信を向上させるためのシステム及び方法を提供する。一態様において、本開示は、音声通信を向上させるための方法を提供する。本方法は、（ａ）医療的処置に関連する１つ又は複数のパラメータ、及び医療的処置に関連する１つ又は複数の音声通信を検出することと、（ｂ）１つ又は複数のパラメータに基づいて１つ又は複数の音声通信を処理して、１つ又は複数の向上された音声通信を生成することとを含み得る。

Description

相互参照
[0001] 本出願は、２０２０年１２月４日に提出された米国仮特許出願第６３／１２１，６５５号に付与された優先権を主張し、その出願はあらゆる目的のために参照によりその全体が本明細書に援用される。

背景
[0002] 医療従事者は、手術室などの医療室内で様々な処置を行うことがある。しばしば、手術室は、複数の医療従事者、又は医療スタッフなどの医療従事者以外の人によって占有され得る。医療処置中、多くの人が同時に、並行して話したり又は情報をやり取りしたりする可能性がある。そのため、手術室内の個人間の調整及び／又は情報のやり取りが妨げられる恐れがある。

概要
[0003] 本明細書において認識されているのは、医療オペレーションを監視、支援、及び実行するための音声及び動画ベースのシステム及び方法に関する様々な制限である。本開示は、外科的処置又は医療オペレーションに関連して行われる音声通信の品質を向上させるためのシステム及び方法を提供する。本開示のシステム及び方法は、声又はそのような個人の声の活性度に基づいて、ツール、製品、及び／又は個人を検出及び／又は認識するように実施され得る。場合によっては、本開示のシステム及び方法は、話者のＩＤ又は話者によって行われた音声通信の内容に基づいて、１人又は複数人の関心のある人物によって行われた音声通信に優先順位を付けるように実施され得る。場合によっては、本開示のシステム及び方法は、１つ又は複数の音声検出装置の指向性又は方向性を調整するためのビーム形成及び関連する方法を使用して、１つ又は複数の音声通信の検出に焦点を合わせるように実施され得る。

[0004] 一態様において、本開示は、音声通信を向上させるための方法を提供する。本方法は、（ａ）医療的処置に関連する１つ又は複数のパラメータ、及び医療的処置に関連する１つ又は複数の音声通信を検出することと、（ｂ）１つ又は複数のパラメータに基づいて１つ又は複数の音声通信を処理して、１つ又は複数の向上された音声通信を生成することと、を含み得る。

[0005] いくつかの実施形態において、１つ又は複数のパラメータが、１つ又は複数の音声通信を行った人間又はロボットの身体的特徴、顔、声、又はＩＤを含む。いくつかの実施形態において、１つ又は複数のパラメータが、１つ又は複数の音声通信のキーワード、フレーズ、又はセンテンスを含む。いくつかの実施形態において、１つ又は複数のパラメータが、使用中のツール又は器具のタイプ、又は医療的処置のフェーズを含む。

[0006] いくつかの実施形態において、１つ又は複数の音声通信を処理することが、１つ又は複数の音声検出装置の検出領域、検出範囲、方向性、又は指向性を調整するためのビーム形成を含む。いくつかの実施形態において、１つ又は複数の音声通信を処理することが、話者のＩＤに基づいて、１つ又は複数の音声通信の検出又は捕捉に優先順位を付けることを含む。いくつかの実施形態において、１つ又は複数の音声通信を処理することが、１つ又は複数の音声通信内の１つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含む。いくつかの実施形態において、１つ又は複数の音声通信を処理することが、１つ又は複数の音声通信内の１つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含む。いくつかの実施形態において、１つ又は複数の音声通信を処理することが、１つ又は複数の音声通信の第２の音声通信の音量に対して、１つ又は複数の音声通信の第１の音声通信の音量を上げることを含む。いくつかの実施形態において、１つ又は複数の音声通信を処理することが、１つ又は複数の音声通信の第２の音声通信の音量に対して、１つ又は複数の音声通信の第１の音声通信の音量を下げることを含む。いくつかの実施形態において、１つ又は複数の音声通信を処理することが、１つ又は複数の音声通信をミュート又は排除することを含む。

[0007] いくつかの実施形態において、１つ又は複数の向上された音声通信が、関心のあるツール若しくは器具、又は関心のあるツール若しくは器具の使用法に対応する。いくつかの実施形態において、１つ又は複数の向上された音声通信が、関心のある手術フェーズに対応する。いくつかの実施形態において、１つ又は複数の向上された音声通信が、関心のある医師、外科医、医療ワーカ、販売業者の代表者、又は製品の専門家に対応する。

[0008] いくつかの実施形態において、本方法は、コンピュータビジョン、自然言語処理、又は機械学習を使用して１つ又は複数のパラメータを検出することをさらに含み得る。いくつかの実施形態において、１つ又は複数のパラメータを検出することが、１つ又は複数の音声通信に関連付けられた医療ツール又は器具を識別することを含む。いくつかの実施形態において、医療ツール又は器具を識別することは、ツール又は器具を撮像すること、ツール又は器具に関連付けられた識別子をスキャンすること、又はツール又は器具の情報を含む１つ又は複数の電磁波を受信することを含む。

[0009] 別の態様では、本開示は、音声通信を向上させるための方法であって、（ａ）医療的処置に関連する複数の音声通信を受信することと、（ｂ）関心のあるパラメータに対応する１つ又は複数のユーザ入力を受信することであって、関心のあるパラメータが医療的処置の１つ又は複数のステップの実行に関連する、受信することと、（ｃ）複数の音声通信及び１つ又は複数のユーザ入力に基づいて、１つ又は複数の向上された音声通信を生成することと、を含む方法を提供する。いくつかの実施形態において、１つ又は複数のユーザ入力は、関心のあるパラメータのユーザ選択を含む。いくつかの実施形態において、関心のあるパラメータは、関心のある器具、専門家、代表者、医師、外科医、又は手術フェーズを含む。いくつかの実施形態において、１つ又は複数のユーザ入力は、関心のある音声チャンネルのマスターリストから関心のある音声チャンネルを選択することを含む。

[0010] いくつかの実施形態において、１つ又は複数の向上された音声通信を生成することが、関心のあるパラメータに関連する１つ又は複数の音声チャンネルを隔離又は抽出することを含む。いくつかの実施形態において、１つ又は複数の向上された音声通信を生成することが、複数の音声通信の第２の音声通信の音量に対して複数の音声通信の第１の音声通信の音量を上げることを含む。いくつかの実施形態において、１つ又は複数の向上された音声通信を生成することが、複数の音声通信の第２の音声通信の音量に対して、複数の音声通信の第１の音声通信の音量を下げることを含む。いくつかの実施形態において、１つ又は複数の向上された音声通信を生成することが、１つ又は複数の音声通信をミュート又は排除することを含む。

[0011] いくつかの実施形態において、１つ又は複数の向上された音声通信が、医療的処置に関連する１つ又は複数の動画を後処理して、関心のあるパラメータに関連する１つ又は複数の音声チャンネルを隔離、抽出、又は増強することによって生成される。いくつかの実施形態において、１つ又は複数の向上された音声通信が、医療的処置の複数の音声通信又は１つ又は複数の動画に関連付けられたメタデータに基づいて生成される。いくつかの実施形態において、１つ又は複数の向上された音声通信が、複数の音声チャンネルに対応する。いくつかの実施形態において、複数の音声チャンネルが、医療的処置をサポートする複数の医師、外科医、販売業者の代表者、又は製品の専門家に対応する。いくつかの実施形態において、複数の音声チャンネルが、医療的処置の１つ又は複数のステップを実行するために使用される複数の異なるツールに対応する。いくつかの実施形態において、複数の音声チャンネルが、医療的処置の複数の異なるステップ又はフェーズに対応する。

[0012] いくつかの実施形態において、１つ又は複数の音声通信を処理することが、（ｉ）１つ又は複数の音声通信を向上させること、又は（ｉｉ）１人又は複数人のユーザに対して１つ又は複数の音声通信をミュート又は排除することを含む。いくつかの実施形態において、１つ又は複数の音声通信が、放送事業者、緩和エンティティ、遠隔専門家、販売業者の代表者、又は１人又は複数人のユーザによって処理され、１人又は複数人のユーザが、手術動画又はその一部を視聴する少なくとも１人のユーザを含む。

[0013] いくつかの実施形態において、本方法は、複数の音声通信がそこから受信又は捕捉される領域の視野を追跡するために、１つ又は複数のカメラ又は撮像センサを使用することをさらに含み得る。いくつかの実施形態において、本方法は、視野を１人又は複数人の遠隔参加者に伝送することをさらに含み得る。いくつかの実施形態において、１つ又は複数の関心のある音声ビーム又は領域が、１人又は複数人の遠隔参加者によって選択可能であり、１つ又は複数の関心のある音声ビーム又は領域が、（ｉ）複数の音声通信の少なくともサブセット、又は（ｉｉ）視野内の１つ又は複数の領域に対応する。いくつかの実施形態において、１つ又は複数の関心のある音声ビーム又は領域の選択は、現地で又は遠隔式に実行される。

[0014] いくつかの実施形態において、本方法は、１人若しくは複数人の関心のある個人又は１つ若しくは複数の関心のある領域を追跡又はタグ付けすることをさらに含み得る。いくつかの実施形態において、本方法は、（ｉ）向上させる音声信号のセット、又は（ｉｉ）除去又は減衰させる音声信号のセットを選択することをさらに含み得る。いくつかの実施形態において、本方法は、１人又は複数人の個人が１つ又は複数のカメラ又は撮像センサに対して移動するにつれて、１人若しくは複数人の関心のある個人又は１つ若しくは複数の関心のある領域を追跡することをさらに含み得る。いくつかの実施形態において、関心のある音声ビーム又は領域の選択は、医療的処置の開始前に予め登録される。いくつかの実施形態において、関心のある音声ビーム又は領域の選択は、医療的処置に関連する記録されたコンテンツに対して行われる。

[0015] 別の態様では、本開示は、音声通信を処理する方法であって、（ａ）医療的処置に関連する、又は医療的処置を実行する１人又は複数人の個人から複数の音声通信を受信することと、（ｂ）１人又は複数人の個人からの複数の音声通信の少なくともサブセットに基づいて、医療的処置に関連する１つ又は複数のツール、製品、又は器具を検出、認識、又は識別することと、を含む方法を提供する。いくつかの実施形態において、（ａ）は、複数の音声通信を受信するために、１つ又は複数のマイクロフォン又は１つ又は複数のマイクロフォンを含むマイクロフォンアレイを使用することを含む。いくつかの実施形態において、１つ又は複数のマイクロフォンは、複数の音声通信又はそのサブセット内の１つ又は複数のキーワードを検出するように構成される。いくつかの実施形態において、１つ又は複数のツール、製品、又は器具が、１つ又は複数のキーワードに基づいて識別される。いくつかの実施形態において、１つ又は複数のツール、製品、又は器具が、自然言語処理を使用して識別される。いくつかの実施形態において、自然言語処理が、複数の音声通信を分析するための１つ又は複数のアルゴリズムを使用して実施される。

[0016] いくつかの実施形態において、１つ又は複数のアルゴリズムが、（ｉ）複数の音声通信を解釈し、（ｉｉ）どのツール又は製品が医療的処置を実行するために使用されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、１つ又は複数のアルゴリズムが、（ｉ）複数の音声通信を解釈し、（ｉｉ）どのツール又は製品が医療的処置を実行する医師又は外科医によって要求されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、１つ又は複数のアルゴリズムが、（ｉ）複数の音声通信を解釈し、（ｉｉ）どのような処置が実行されているか、又は処置のどのステップが実行されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、１つ又は複数のアルゴリズムが、（ｉ）複数の音声通信を解釈し、（ｉｉ）（ａ）処置の異なるステップ、（ｂ）処置の１つ又は複数のステップのタイミング、又は（ｃ）医療的処置を実行するために医師又は病院によってどのツール又は製品が使用されるか、をカタログ化するために、コンテキスト認識型の自然言語処理を実施するように構成される。いくつかの実施形態において、１つ又は複数のアルゴリズムが、複数の音声通信に対して自然言語処理を使用して、外科的処置におけるステップのタイミング、又はツール、製品、若しくは器具の使用量若しくは使用頻度に関するデータを生成又は編集するように構成される。いくつかの実施形態において、１つ又は複数のアルゴリズムが、複数の音声通信に対して自然言語処理を使用して、自然言語処理を使用して識別される異なる処置又は処置ステップの成功率及び／又は失敗率を決定するように構成される。いくつかの実施形態において、１つ又は複数のアルゴリズムが、複数の音声通信に対して自然言語処理を使用して、自然言語処理を使用して識別されるツール、製品、又は器具を使用して実行される異なる処置の成功率及び／又は失敗率を決定するように構成される。

[0017] 本開示の別の態様は、１つ又は複数のコンピュータプロセッサによる実行時に、上記又は本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む非一過性のコンピュータ可読媒体を提供する。

[0018] 本開示の別の態様は、１つ又は複数のコンピュータプロセッサと、それに結合されたコンピュータメモリとを含むシステムを提供する。コンピュータメモリは、１つ又は複数のコンピュータプロセッサによる実行時に、上記又は本明細書の他の箇所の方法のいずれかを実施する機械実行可能コードを含む。

[0019] 本開示のさらなる態様及び利点は、以下の詳細な記載から当業者に容易に明らかとなろう。そこには本開示の説明に役立つ実施形態のみが示され記載されている。理解されるように、本開示は他の様々な実施形態が可能であり、そのいくつかの詳細は、すべてが本開示から逸脱することなく、様々な自明の点において修正が実現可能である。したがって、各図面及び記載は、本質的に説明に役立つものとみなすべきであり、限定的なものとみなすべきではない。

参照による援用
[0020] 本明細書において言及されるあらゆる公報、特許、及び特許出願は、個々の公報、特許、又は特許出願のそれぞれが参照により援用されるように具体的且つ個別に示された場合と同じ程度に、参照により本明細書に援用される。参照により援用される公報及び特許又は特許出願が本明細書に含まれる開示内容と矛盾する限りにおいて、本明細書はそのような矛盾する資料に取って代わり、及び／又は優先されることを意図している。

図面の簡単な説明
[0021] 本発明の新規の特徴は、添付の特許請求の範囲において具体的に記載される。本発明の原理が利用される説明に役立つ実施形態を記載する以下の詳細な記載及び添付の図面（本明細書で「図」及び「ＦＩＧ」とも呼ぶ）を参照することによって、本発明の特徴及び利点のさらに深い理解が得られることになる。

[0022]音声通信を監視、捕捉、及び向上させるために医療室内で利用され得る音声捕捉システムを概略的に示す。 [0023]いくつかの実施形態による、１つ又は複数の音声通信を捕捉するために使用され得る複数の音声記録装置を概略的に示す。 [0024]いくつかの実施形態による、音声通信の検出に優先順位を付けるために使用され得る優先順位リストの例を概略的に示す。 [0025]いくつかの実施形態による、音声検出装置のために生成され得る１つ又は複数のビームを概略的に示す。 [0026]いくつかの実施形態による、音声通信を検出し、向上させるための例示的なシステムをいくつかの実施形態により概略的に示す。 [0027]本明細書で提供される方法を実施するようにプログラムされるか、又は他の方法で構成されるコンピュータシステムを概略的に示す。 [0028]いくつかの実施形態による、複数の音声チャンネルに関連付けられる複数の音声源を概略的に示す。 [0029]いくつかの実施形態による、ユーザによる関心のある１つ又は複数の音声チャンネルの選択を概略的に示す。 [0030]いくつかの実施形態による、複数の音声源又は音声チャンネルから関心のある１つ又は複数の音声源又は音声チャンネルを選択するためのユーザインターフェースの一例を概略的に示す。 [0031]いくつかの実施形態による、様々なユーザに音声チャンネルのカスタマイズされた又は調整された選択を提供するための、複数の音声源又は音声チャンネルの後処理のための音声管理システムを概略的に示す。 [0032]いくつかの実施形態による、ユーザによって提供される１つ又は複数の入力に基づいて、どの音声チャンネルがユーザに提供されるかを調整するように構成される音声管理システムを概略的に示す。 [0033]いくつかの実施形態による、関心のある様々な音声チャンネルを選択するための例示的なユーザインターフェースを概略的に示す。 [0034]いくつかの実施形態による、１つ又は複数の音声チャンネルを放送するように構成された放送事業者を概略的に示す。 [0035]いくつかの実施形態による、特定のユーザ又は視聴者のために様々な音声チャンネルを選択的に向上させる又はミュートするように構成された緩和エンティティを概略的に示す。 [0036]いくつかの実施形態による、第１のユーザが第２のユーザのために１つ又は複数の音声チャンネルを修正する例を概略的に示す。

詳細な記載
[0037] 本発明の様々な実施形態を本明細書に示し、記載してきたが、このような実施形態は単なる例として提示されていることが当業者には明らかであろう。数多くの変形、変更、及び置換えが、本発明から逸脱することなく、当業者に思い浮かぶかもしれない。本明細書に記載された本発明の実施形態に対する様々な代替形態が利用され得ることを理解されたい。

[0038] 「少なくとも」、「より大きい」、又は「以上」という用語が、一続きの２つ以上の数値の最初の数値の前にある場合は常に、「少なくとも」、「より大きい」、又は「以上」という用語は、その一続きの数値の各数値に適用される。例えば、１、２又は３以上は、１以上、２以上、又は３以上に相当する。

[0039] 「より大きくない」、「より小さい」、又は「以下」という用語が、一続きの２つ以上の数値の最初の数値の前にある場合は常に、「より大きくない」、「より小さい」、又は「以下」という用語は、その一続きの数値の各数値に適用される。例えば、３、２又は１以下は、３以下、２以下、又は１以下に相当する。

[0040] 本明細書で交換可能に使用される「リアルタイム（real time）」又は「リアルタイム（real-time）」という用語は、一般に、最近得られた（例えば、収集又は受信された）データを使用して実行されるイベント（例えば、操作、プロセス、方法、技術、演算、計算、分析、視覚化、最適化、その他）を指す。場合によっては、リアルタイムイベントは、少なくとも０．０００１ミリ秒（ｍｓ）、０．０００５ｍｓ、０．００１ｍｓ、０．００５ｍｓ、０．０１ｍｓ、０．０５ｍｓ、０．１ｍｓ、０．５ｍｓ、１ｍｓ、５ｍｓ、０．０１秒、０．０５秒、０．１秒、０．５秒、１秒、又はそれを超える秒以内など、ほぼ即座に、又は十分に短い時間スパン内に実行され得る。場合によっては、リアルタイムイベントは、最大で１秒、０．５秒、０．１秒、０．０５秒、０．０１秒、５ｍｓ、１ｍｓ、０．５ｍｓ、０．１ｍｓ、０．０５ｍｓ、０．０１ｍｓ、０．００５ｍｓ、０．００１ｍｓ、０．０００５ｍｓ、０．０００１ｍｓ、又はそれを下回る秒以内など、ほぼ即座に、又は十分短い時間スパン内に実行され得る。

[0041] 一態様において、本開示は、外科的処置中に行われる音声通信を監視し、向上させるためのシステムを提供する。本明細書で言及されるように、音声通信を監視することは、音声記録装置又は音声検出装置（例えば、マイクロフォン又はマイクロフォンのアレイ）を使用して、外科的処置の前、間、及び／又は後に、１又は複数の人又は物体によって行われる音声通信を記録及び／又は検出することを含み得る。場合によっては、音声通信を監視することは、音声記録装置又は音声検出装置（例えば、マイクロフォン又はマイクロフォンのアレイ）を使用して、１又は複数の人又は物体によって行われた音声通信に基づいて１又は複数の人又は物体を識別することを含み得る。本明細書で言及され、記載されるように、音声通信を向上させることは、音声通信の伝送品質を改善すること、音声通信の１つ又は複数の部分の信号対雑音比を増加させること、及び／又は音声通信を追加のデータ又は情報で増強することを含み得る。場合によっては、音声通信を向上させることは、音声通信の他の部分に対して音声通信の１つ又は複数の部分を優先させること、又は複数の音声通信に対して１つ又は複数の音声通信を優先させることを含み得る。場合によっては、音声通信を向上させることは、音声通信の内容又は音声通信の発信源のＩＤに基づいて、１つ又は複数の音声検出装置の検出範囲、検出領域、指向性、及び／又は方向性を調整することを含み得る。場合によっては、音声通信を向上させることは、特定の領域若しくは地域から、又は特定の話者若しくは発信源から受信された音声通信に対する１つ又は複数の音声検出装置の感度を調整することを含み得る。

[0042] 本開示のシステム及び方法は、外科的処置中に行われる音声通信を検出及び向上させるために使用され得る。本明細書で使用される際、外科的処置は、ヒト又は動物に対する医療手術を含み得る。医療手術は、人体又は動物の内部領域又は外部領域に対する１つ又は複数の手術を含み得る。医療手術は、少なくとも１つ又は複数の医療製品、医療ツール、又は医療器具を用いて行われ得る。医療製品は、本明細書において医療ツール又は医療器具と交換可能に呼ばれることがあり、治療又は診断目的で単独又は他の装置と組み合わせて使用される装置を含み得る。医療製品は医療装置であり得る。医療製品には、手術を行うため、又は手術の実施を容易にするために手術中に使用されるあらゆる製品が含まれ得る。医療製品には、ツール、器具、インプラント、補綴物、使い捨て品、又は人間に使用されるように製造者によって意図され得る任意の他の機器、アプライアンス、ソフトウェア、又は材料が含まれ得る。医療製品は、傷害や又はハンディキャップの診断、監視、治療、緩和、又は補償のために使用され得る。医療製品は、疾病の診断、予防、監視、治療、又は緩和のために使用され得る。場合によっては、医療製品は、解剖学的又は生理学的プロセスの調査、置換、又は修正に使用され得る。医療製品の例としては、外科用器具（例えば、ハンドヘルド型又はロボット型）、カテーテル、内視鏡、ステント、ペースメーカー、人工関節、脊椎安定化装置、使い捨て手袋、ガーゼ、点滴液、薬剤などが挙げられ得る。

[0043] 異なる種類の外科的処置の例としては、胸部外科手術、整形外科手術、神経外科手術、眼科手術、形成・再建外科手術、血管外科手術、ヘルニア外科手術、頭頸部外科手術、手外科手術、内分泌外科手術、結腸・直腸外科手術、乳腺外科手術、泌尿器外科手術、婦人科手術、その他の種類の手術が挙げられ得るが、これらに限定されない。場合によっては、外科的処置は、ドナーとレシピエントを含む２以上の医療手術を含み得る。このような場合、外科的処置は、ドナーとレシピエントとの間で生物学的物質（例えば、臓器、組織、細胞その他）を交換するための２以上の並行な医療手術を含み得る。

[0044] 本開示のシステム及び方法は、医療施設で実施される外科的処置中に行われる音声通信を検出し、向上させるために実施され得る。本明細書で使用される際、医療施設は、あるレベルの医療ケア又は支援を提供し得る任意のタイプの施設、機関、又は組織を指し得る。いくつかの例において、医療施設には、病院、診療所、緊急医療施設、外来患者施設、外来外科センター、老人ホーム、ホスピスケア、在宅医療、リハビリテーションセンター、研究室、画像診断センター、獣医診療所、又は医療又は支援を提供できる他の任意のタイプの施設が含まれ得る。医療施設は、主に短期医療向けに、又は長期医療向けに提供されてもよいし、又はされなくてもよい。医療施設は、常時開いていてもよく、又は開いている時間が限られていてもよい。医療施設は、医療の提供を助ける専用の機器を備えていてもよいし、又は備えていなくてもよい。医療は、慢性症状又は急性症状のある個人に提供されてもよい。医療施設は、１人又は複数人の医療提供者（別名、医療関係者／医療従事者）を雇用してもよい。医療施設についての本明細書でのいかなる記載も、病院又は他の任意のタイプの医療施設を指していてもよく、その逆の場合も同様である。

[0045] 場合によっては、医療施設は、１種又は複数種の外科手術が行われ得る１つ又は複数の場所を医療施設の内部に有し得る。場合によっては、１つ又は複数の場所は、１つ又は複数の手術室を含み得る。場合によっては、１つ又は複数の手術室は、資格のある個人又は承認された個人のみがアクセスできる。資格のある個人又は承認された個人は、外科的処置を受ける医療患者又は医療対象者、外科的処置の１つ又は複数のステップを実行する医療オペレータ、及び／又は外科的処置の１つ又は複数の側面をサポートする医療関係者又はサポートスタッフなどの個人を含み得る。例えば、医療関係者又はサポートスタッフは、医療オペレータが外科的処置の１つ又は複数のステップを実行するのを支援するために、手術室に存在し得る。

[0046] 本開示のシステム及び方法は、１つ又は複数の音声記録装置又は音声検出装置を用いて実施することができる。本明細書で使用されるように、音声記録装置は、音声通信を受信、記録、及び／又は検出することが可能な装置を含み得る。１つ又は複数の音声記録装置は、外科的処置に関連する複数の音声通信を取得するように構成され得る。場合によっては、複数の音声通信は、複数の音声記録装置を用いて捕捉され得る。複数の音声記録装置は、１、２、３、４、５、６、７、８、９、１０個、又はそれ以上の音声記録装置を含み得る。複数の音声記録装置は、ｎ個の音声記録装置を含み得、ｎは２以上の任意の整数である。

[0047] 複数の音声記録装置は、医療対象者又は医療対象者に外科手術を行う医療関係者に対して複数の異なる位置及び／又は向きに設けられてもよい。複数の音声記録装置は、医療手術を受ける医療患者又は対象者、又は医療手術を行う医療オペレータに対して、複数の異なる位置及び／又は向きに設けられてもよい。複数の音声記録装置は、互いに複数の異なる位置及び／又は向きに設けられてもよい。

[0048] 場合によっては、複数の音声記録装置は、天井、壁、床、手術室の構造要素（例えば、梁）、手術台、医療器具、又は医療オペレータの身体の一部（例えば、医療オペレータの手、腕、又は頭部）に取り付けられてもよい。場合によっては、複数の音声記録装置は、天井、壁、床、手術室の構造要素、手術台、医療器具、又は医療オペレータの身体の一部に解放可能に結合されてもよい。

[0049] 場合によっては、複数の音声記録装置は、複数の音声記録装置が取り付けられ、固定され、又は解放可能に結合された表面又は構造要素に対して移動可能であってもよい。例えば、複数の音声記録装置の検出領域を調整するために、複数の音声記録装置を位置決めし直す、及び／又は回転させることができる。場合によっては、１つ又は複数のジョイント、ヒンジ、アーム、レール、及び／又はトラックが、複数の音声記録装置の位置及び／又は向きを調整するために使用されてもよい。場合によっては、複数の音声記録装置のそれぞれの位置及び／又は向きは、人間のオペレータによって手動で調整可能であってもよい。他の場合において、複数の音声記録装置のそれぞれの位置及び／又は向きは、コンピュータに実装される追跡ソフトウェア（例えば、映像追跡ソフトウェア及び／又は音声追跡ソフトウェア）に部分的に基づいて自動的に調整可能であってもよい。複数の音声記録装置のそれぞれの位置及び／又は向きは、物理的に調整されてもよい。複数の音声記録装置のそれぞれの位置及び／又は向きは、人間のオペレータによって遠隔式に調整又は制御されてもよい。

[0050] 図１は、音声通信を監視し、捕捉し、向上させるために医療室内で利用され得る音声捕捉システムの例を示す。音声捕捉システムは、上述したような１つ又は複数の音声記録装置を備え得る。いくつかの代替実施形態では、音声捕捉システムは、１つ又は複数の撮像装置を備え得る。場合によっては、音声記録装置は、１つ又は複数の撮像装置と一体化されていてもよい。他の場合、音声記録装置は、１つ又は複数の撮像装置とは別個の区別されたものであってもよい。音声捕捉システムは、外科的処置に関連する音声通信、或いは外科的処置が行われている手術現場又は手術環境若しくはその近傍で行われる音声通信を捕捉するように構成されてもよい。

[0051] 音声捕捉システムは、第１の場所１１０で行われた音声通信を捕捉するように構成されてもよい。場合によっては、第１の場所１１０で捕捉された音声通信は、第１の場所１１０に位置する音声向上モジュールを使用して処理及び／又は向上されてもよい。他の場合、第１の場所１１０で捕捉された音声通信は、処理及び／又は向上のために第２の場所１２０に伝送されてもよい。場合によっては、第１の場所１１０及び第２の場所１２０は、同じ手術室又は医療施設内にあり得る。他の場合、第１の場所１１０は手術室又は医療施設内にあり、第２の場所１２０は手術室又は医療施設から離れた場所であり得る。場合によっては、音声捕捉システムはまた、ローカル通信装置１１５を備え得る。場合によっては、ローカル通信装置１１５は、上述した１つ又は複数の音声記録装置に動作可能に結合されてもよい。ローカル通信装置１１５は、任意選択的に、リモート通信装置１２５（例えば、リモートユーザ１２７のモバイル装置）、又はリモートサーバ１７０と通信し得る。場合によっては、リモートサーバ１７０は、第１の場所１１０で録音された音声通信を処理及び／又は向上するように構成されてもよい。

[0052] いくつかの実施形態において、第１の場所１１０からの音声通信は、通信チャンネル１５０を介してリモート通信装置１２５と通信するように構成されたローカル通信装置１１５を使用して、第２の場所１２０に伝送されてもよい。リモート通信装置とローカル通信装置との間には、任意のタイプの通信チャンネル１５０が形成されてよい。通信チャンネルは、直接通信チャンネルであってもよいし、又は間接通信チャンネルであってもよい。通信チャンネルは、有線通信、無線通信、又はその両方を採用してもよい。通信は、ローカルエリアネットワーク（ＬＡＮ）、インターネットなどのワイドエリアネットワーク（ＷＡＮ）、又は任意の形態の電気通信ネットワーク（例えば、セルラーサービスネットワーク）などのネットワークを介して行われてもよい。採用される通信には、３Ｇ、４Ｇ、ＬＴＥ通信、及び／又はブルートゥース、赤外線、無線、又は他の通信が含まれ得るが、これらに限定されない。通信は、任意選択的に、ルータ、衛星、タワー、及び／又はワイヤによって補助されてもよい。通信は、第１の場所及び／又は第２の場所の既存の通信ネットワークを利用しても又はしなくてもよい。

[0053] 第１の場所１１０は、医療施設の手術室などの医療室であってもよい。医療室は、診療室内であってもよいし、又は医療施設の他の部分であってもよい。医療施設とは、あるレベルの医療又は支援を提供し得るあらゆるタイプの施設又は組織であってもよい。いくつかの例において、医療施設には、病院、診療所、緊急医療施設、外来患者施設、外来外科センター、老人ホーム、ホスピスケア、在宅医療、リハビリテーションセンター、研究所、画像診断センター、獣医診療所、又は医療又は支援を提供できる他の任意のタイプの施設が含まれ得る。医療施設は、主に短期医療向けに、又は長期医療向けに提供されてもよいし、又はされなくてもよい。医療施設は、常時開いていてよく、又は開いている時間が限られていてもよい。医療施設は、医療の提供を助ける専用の機器を備えていても、又は備えていなくてもよい。医療は、慢性症状又は急性症状のある個人に提供されてもよい。医療施設は、１人又は複数人の医療提供者（別名、医療関係者／医療従事者）を雇用してもよい。医療施設についての本明細書でのいかなる記載も、病院又は他の任意のタイプの医療施設を指していてもよく、その逆の場合も同様である。

[0054] 第１の場所１１０は、医療施設内の任意の部屋又は領域でもよい。例えば、第１の場所は、手術室、外科室、診療室、トリアージセンタ、緊急治療室、又は他の任意の場所でもよい。第１の場所は、部屋のある領域内でもよく、又は部屋の全体でもよい。第１の場所は、手術が行われることのある任意の場所、外科手術が行われることのある任意の場所、医療処置が行われることのある任意の場所、及び／又は医療製品が使用される任意の場所でもよい。一例では、第１の場所は、手術を受けている患者１１８と、手術を行っている外科医か、又は手術を行うのを補助している外科助手など、１人又は複数人の医療関係者１１７とがいる手術室でもよい。医療関係者には、医療処置を行うか、又は医療処置の実行を補助する任意の個人が含まれ得る。医療関係者には、医療処置のサポートを提供する個人も含まれ得る。例えば、医療関係者には、外科手術を行う外科医、看護師、麻酔科医などが含まれ得る。医療関係者の例には、医師（例えば、外科医、麻酔科医、放射線科医、内科医、研修医、腫瘍専門医、血液学者、心臓病専門医など）、看護師（例えば、ＣＮＲＡ、手術室看護師、外回り看護師）、医師の助手、外科手術技師などが含まれ得る。医療関係者には、医療処置の場にいて、その医療処置に立ち会うことを許可された個人も含まれ得る。

[0055] 場合によっては、第２の場所１２０は、第１の場所１１０と同じ手術室又は医療施設内にあってもよい。他の場合、第２の場所１２０は、第１の場所１１０から離れた任意の場所であってもよい。例えば、第１の場所が病院である場合、第２の場所は病院の外であってもよい。場合によっては、第１の場所と第２の場所は同じ建物内であるが異なる部屋、階、又は棟内にあってもよい。

[0056] 実施形態によっては、１つ又は複数の音声記録装置が、第１の場所１１０に、又はその近くに設けられてもよい。１つ又は複数の音声記録装置は、医療コンソール１４０によって支持されてもよいし、又はされなくてもよい。いくつかの実施形態において、１つ又は複数の音声記録装置を、第１の場所において天井１６０、壁、家具、又は他の物品によって支持してもよい。例えば、１つ又は複数の音声記録装置は、壁、天井、又は他の装置に取り付けてもよい。このような音声記録装置は、表面に直接取り付けてもよく、又はブーム若しくはアームに取り付けてもよい。例えば、アームは、音声記録装置を支持しながら、天井から下に延びてもよい。別の例では、アームは、音声記録装置を支持しながら、患者のベッド又は表面に取り付けられてもよい。場合によっては、音声記録装置は、医療関係者が装着してもよい。例えば、音声記録装置は、ヘッドバンド、リストバンド、胴体、又は医療関係者の他の任意の部分に装着してもよい。音声記録装置は、医療装置の一部分でもよく、又は医療装置（例えば、内視鏡など）によって支持されてもよい。この１つ又は複数の音声記録装置は、固定式又は可動式でもよい。この１つ又は複数の音声記録装置は、１つ以上の軸、２つ以上の軸、又は３つ以上の軸を中心に回転できるようになっていてもよい。この１つ又は複数の音声記録装置は、パン・チルト・ズーム動作を使用して調整されてもよい。音声記録装置は、個人が第１の場所において手動で移動してもよい。音声記録装置は、適位置にロックされてもよく、及び／又はロック解除されて移動してもよい。場合によっては、１つ又は複数の音声記録装置は、１人又は複数人の遠隔ユーザによって遠隔制御されてもよい。音声記録装置の位置及び／又は向きは音声記録装置に関連付けられる検出範囲又は検出領域を修正するために調整されてもよい。

[0057] 場合によっては、１つ又は複数の音声記録装置は、医療コンソール１４０に設けられてもよい。医療コンソール１４０は、任意選択的に１つ又は複数の音声記録装置１４５、１４６を含んでもよい。他の場合、１つ又は複数の音声記録装置は、医療コンソール１４０の関節アーム１４３の遠位端に位置決めされてもよい。１つ又は複数の音声記録装置１４５、１４６によって捕捉された音声通信は、音声処理モジュールを用いて処理及び向上されてもよい。音声通信は、捕捉される際にリアルタイムで処理及び向上されてもよい。音声通信は、音声通信を遠隔で受信し、音声記録装置によって捕捉された音声通信を向上させるように構成された音声向上モジュールに音声通信を提供するように構成された遠隔通信装置に送信されてもよい。

[0058] 場合によっては、音声通信の向上は、第１の場所１１０で現地で行われてもよい。実施形態によっては、この向上は、医療コンソール１４０上で行われてもよい。例えば、向上は、医療コンソールに配置されることのある、通信装置１１５又は別のコンピュータの１つ又は複数のプロセッサの助けを借りて行われてもよい。場合によっては、向上は、向上は第１の場所から遠隔で行われてもよい。場合によっては、１つ又は複数のサーバ１７０を利用して、音声分析及び向上を実行してもよい。このサーバは、複数の場所に由来する情報にアクセス及び／又は受信可能であり得、１つ又は複数のデータセットを収集してもよい。機械学習と連携してこのデータセットを使用して、音声分析及び／又は向上を一段と正確なものにしてもよい。本明細書におけるサーバのいかなる記載もまた、あらゆるタイプのクラウドコンピューティングのインフラストラクチャに適用されてよい。分析は遠隔で行われてもよく、フィードバックは、実質的にリアルタイムにコンソール及び／又は位置通信装置に伝達されてもよい。本明細書におけるリアルタイムのいかなる記載も、短期間のうち（例えば、約１０分、５分、３分、２分、１分、３０秒、２０秒、１５秒、１０秒、５秒、３秒、２秒、１秒、０．５秒、０．１秒、０．０５秒、０．０１秒、又はそれに満たない時間以下のうち）に生じ得るあらゆる動作を含み得る。

[0059] いくつかの実施形態において、通信装置１１５、１２５は、１つ又は複数のマイクロフォン又はスピーカを備えてもよい。マイクロフォンは、第１の場所におけるユーザの声又は医療関係者の発話などの可聴音を捕捉するように構成された音声検出装置を備えてもよい。音（例えば、音声通信又は向上された音声通信）を再生するために、１つ又は複数のスピーカが設けられてもよい。例えば、リモート通信装置１２５上のスピーカは、第２の場所にいるエンドユーザが第１の場所にあるローカル通信装置１１５によって捕捉された音を聞くことを可能にし得、逆も同様である。いくつかの実施形態において、音声向上モジュールが提供されてもよい。音声向上モジュールは、外科的処置を監視するための動画捕捉システムによって支持されてもよい。音声向上モジュールは、バックグラウンドノイズ又は優先順位の低い他の人物又は物体による音声通信を最小化又は低減しつつ、騒がしい部屋内の声を明瞭に捕捉するように構成され得るマイクロフォンのアレイを備えてもよい。音声向上モジュールは、分離可能であってもよいし、又は動画捕捉システムと一体であってもよい。

[0060] 図２は、１つ又は複数の音声記録装置２００－１、２００－２、及び２００－３を備える複数の音声記録装置を示す。１つ又は複数の音声記録装置は、外科手術が医療患者１１８に対して行われ得る医療室内に設けられ得る。複数の音声記録装置２００－ｎは、ｎ個の音声記録装置を備えてもよく、ｎは１以上である。記録装置のそれぞれは、記録装置に関連する対応する検出範囲又は検出領域２１０－１、２１０－２、及び２１０－３を有し得る。検出範囲又は検出領域２１０－１、２１０－２、及び２１０－３は、記録装置に対して特定の方向に焦点を合わせられるか、又は方向付けられてもよい（本明細書では指向性又は方向性と呼ぶ）。検出領域のそれぞれは、記録装置が特定の閾値音量を超える音声通信を登録、記録、及び／又は捕捉し得る領域又は範囲に対応し得る。音声記録装置の検出領域は、重複していてもよいし、又は部分的に重複していてもよい。場合によっては、音声記録装置の検出領域は異なっていてもよく、及び／又は重なっていなくてもよい。場合によっては、音声記録装置の位置及び／又は向きを変更することによって、検出領域を調整又は変更することができる。他の場合、検出領域は、ビーム形成及び／又はビームステアリングを使用して調整又は変更されてもよい。

[0061] 本開示は、音声通信を向上させるためのシステム及び方法を提供する。場合によっては、音声通信を向上させることは、音声通信の伝送又は受信品質を改善すること、音声通信の１つ又は複数の部分の信号対雑音比を増加させること、及び／又は音声通信を追加のデータ又は情報で増強することを含み得る。他の場合、音声通信を向上させることは、音声通信の１つ又は複数の部分を音声通信の他の部分に対して優先させること、又は複数の音声通信に対して１つ又は複数の音声通信を優先させることを含み得る。場合によっては、音声通信を向上させることは、音声通信の内容又は音声通信の発信源のＩＤに基づいて、１つ又は複数の音声検出装置の検出範囲、検出領域、指向性、及び／又は方向性を調整することを含み得る。場合によっては、音声通信を向上させることは、特定の領域若しくは区域から、又は特定の話者若しくは発信源から受信された音声通信に対する１つ又は複数の音声検出装置の感度を調整することを含み得る。

[0062] 本明細書で使用される場合、音声通信は、音又は発話に基づくいずれかの通信を指し得る。場合によっては、音声通信は、発話に対応する１つ又は複数の音響波形又は信号、及び／又は人間、動物、機械（例えば、医療機器）、物理的物体、自然現象、及び／又は伝送媒体を介して伝播し得る音響波形を生成するいずれかの物理的、生物学的、又は化学的相互作用又は反応によって生成される１種又は複数種の音を含み得る。伝送媒体は、気体、液体、又は固体を含み得る。音声通信は、１つ又は複数のマイクロフォン又はマイクロフォンアレイを用いて捕捉又は記録することができる。１つ又は複数のマイクロフォンは、１つ又は複数のマイクロフォンの検出範囲内にいる人の声などの可聴音を捕捉し得る。

[0063] 本開示のシステム及び方法は、音声通信が受信又は伝送されているときにリアルタイムで音声通信を向上させるために使用され得る。場合によっては、本開示のシステム及び方法は、音声通信が受信又は伝送された後の所定の時間内に、１つ又は複数の音声通信を処理し、向上された音声通信を生成することによって、音声品質を向上させるために使用され得る。

[0064] 一態様において、本開示は音声通信を向上させるための方法を提供する。本方法は、（ａ）医療処置に関連する１つ又は複数のパラメータと、医療処置に関連する１つ又は複数の音声通信とを検出することと、（ｂ）１つ又は複数のパラメータに基づいて１つ又は複数の音声通信を処理して、１つ又は複数の向上された音声通信を生成することと、を含み得る。

[0065] いくつかの実施形態において、１つ又は複数のパラメータは、１つ又は複数の音声通信を行ったヒト又はロボットの身体的特徴、顔、声、又はＩＤを含み得る。いくつかの実施形態において、１つ又は複数のパラメータは、１つ又は複数の音声通信のキーワード、フレーズ、又はセンテンスを含み得る。

[0066] いくつかの実施形態において、１つ又は複数の音声通信を処理することは、１つ又は複数の音声検出装置の検出領域、検出範囲、指向性、又は方向性を調整するためのビーム形成を含み得る。いくつかの実施形態において、１つ又は複数の音声通信を処理することは、話者のＩＤに基づいて、１つ又は複数の音声通信の検出又は捕捉を優先することを含み得る。いくつかの実施形態において、１つ又は複数の音声通信を処理することは、１つ又は複数の音声通信内の１つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含み得る。

[0067] 場合によっては、本開示のシステム及び方法は、１つ又は複数の制御電圧（ＣＶ）信号を使用して音声通信を向上させるために使用され得る。１つ又は複数のＣＶ信号は、アナログ信号又はデジタル信号を含み得る。場合によっては、１つ又は複数のＣＶ信号は、音声通信の１つ又は複数の音声特性を調整するために使用されてもよい。１つ又は複数の音声特性は、例えば、音声通信の周波数、音声通信の波長、音声通信の振幅、音声通信に関連するピッチ、音声通信に関連するトーン、及び／又は音声通信に関連する強度若しくは音の大きさを含み得る。

[0068] 場合によっては、本開示のシステム及び方法は、自然言語処理（ＮＬＰ）を使用して音声品質を向上させるために使用され得る。ＮＬＰは、発話及び／又はテキストに関連する情報又はデータ（例えば、外科的処置における今後の重要なステップ、外科的ステップを完了するために必要な特定のタイプのツール、又は特定の外科的ステップに必要な特定のタイプのサポートに関する情報）を導出するために、発話及びテキストなどの自然言語を操作及び／又は処理することを含み得る。

[0069] 場合によっては、本開示のシステム及び方法は、話者認識を使用して音声品質を向上させるために使用され得る。話者認識は、音声通信の１つ又は複数の特性に基づいて音声通信の話者又は発信源を識別することを含み得る。１つ又は複数の特性は、例えば、音声通信の周波数、音声通信の波長、及び／又は音声通信の振幅を含み得る。場合によっては、１つ又は複数の特性は、音声通信に関連するピッチ、音声通信に関連するトーン、及び／又は音声通信に関連する強度若しくは音の大きさを含み得る。

[0070] 場合によっては、本開示のシステム及び方法は、顔検出に基づいて音声品質を向上させるために使用され得る。顔検出は、人物の顔の特徴の１つ又は複数の画像又は動画に基づいて人物を検出又は識別することを含み得る。顔の特徴は、人物の顔の１つ又は複数の部分（例えば、目、鼻、耳、口、髪、顔の構造、その他）の物理的特徴を含み得る。人物の顔の特徴の１つ又は複数の画像又は動画は、撮像装置（例えば、カメラ、ビデオカメラ、撮像センサ、その他）を使用して取得され得る。場合によっては、顔検出は、人物の１つ又は複数の画像又は動画に基づいて人物の場所を特定することを含み得る。場合によっては、顔検出は、撮像装置の検出範囲内にある特定の場所又は領域と人物を関連付けることを含み得る。

[0071] 場合によっては、本開示のシステム及び方法は、人物に関連付けられた他の識別特徴（例えば、人物の手など顔以外の身体部分）の検出に基づいて音声品質を向上させるために使用され得る。場合によっては、他の識別特徴は、例えば、人物の発話のトーン、リズム、及び／又は抑揚、又は人物に関連する特定のマンネリズム（例えば、歩き方、又は他の繰り返される動作若しくは習慣的な動作）を含み得る。

[0072] 場合によっては、音声向上は、リアルタイムビーム形成を使用して実施され得る。ビーム形成（又は空間フィルタリング）は、指向性信号の伝送又は受信のためにセンサアレイ（例えば、マイクロフォンアレイ）で使用される信号処理技術を指し得る。ビーム形成は、マイクロフォンアレイに対する所望の方向からの信号を向上させ、他の方向からのノイズや干渉を抑制するために使用され得る。ビーム形成は、特定の角度の信号が建設的干渉を受ける一方、他の角度の信号が破壊的干渉を受けるようにアンテナアレイの素子を組み合わせることで達成され得る。ビーム形成は、空間選択性を達成するために伝送側と受信側の両方で使用することができる。ビーム形成は、発信源のＩＤ又は発信源によって行われた通信の内容に基づいて、特定の発信源からの音声通信の検出を向上させるために使用され得る。

[0073] 場合によっては、ビーム形成は、室内の音源を抽出し、室内の複数の話者を区別するために使用され得る。ビーム形成は、話者の事前又は現在の位置に基づいて実施され得、この位置は事前に知られている場合もあれば、又は顔検出に基づいて決定される場合もある。場合によっては、話者の位置は、音声源から１つ又は複数のマイクロフォンに伝達される音声通信の到達時間に基づいて決定され得る。

[0074] ビーム形成は、１つ又は複数のマイクロフォンの指向性又は方向性に対応する所定の検出範囲内で受信される音声信号の検出を改善するために使用され得る。いくつかの実施形態において、所定の検出範囲は、主治医の位置又は場所に対応する中心点から約±６０°であり得る。他の実施形態では、所定の検出領域は、１人又は複数人の関係者の位置又は場所に対応する中心点から約±１０°であり得る。場合によっては、本開示のシステム及び方法は、１人又は複数人の関係者を含む優先順位リストに基づいて実施され得る。優先順位リストは、外科手術を支援及び／又は実行している個人のリストを含み得る。優先順位の高い個人は、その音声通信が優先され、優先順位の低い個人の音声通信よりも捕捉され得る。

[0075] 一般に、任意の所与の時点において、本開示のシステム及び方法は、１つ又は複数の関心点に対して「±Ｘ°」の検出領域を有する「Ｎ」個のビームを生成するために使用され得る。１つ又は複数の関心点は、関心対象の物体又は人の位置又は場所に対応し得る。場合によっては、検出領域は、１つ又は複数の関心点に対して約±１°～約±９０°の範囲であり得る。

[0076] 外科的処置の前に、医師、外科医、助手、又は他の医療スタッフに関して、１つ又は複数のプロフィールを設定することができる。様々な優先順位が、自動的又は所定の嗜好に基づいて、各個人に割り当てられ得る。本開示のシステム及び方法は、１つ又は複数の関心点又は人物に対して「±Ｘ°」の検出領域を有するＮ個のビームを形成するように実施され得る。場合によっては、検出領域は、１つ又は複数の関心点又は人物に対して約±１°から約±９０°の範囲であり得る。

[0077] いくつかの実施形態において、１つ又は複数のマイクロフォン（又は任意の他の音声記録又は音声検出装置）は、（ｉ）１人又は複数人の話者によって現在行われている音声通信、及び（ｉｉ）１人又は複数人の話者によって行われた以前の音声通信の１つ又は複数の履歴記録、に基づいて、１人又は複数人の話者を認識及び／又は識別するように構成され得る。１つ又は複数のマイクロフォンは、関心対象の人物の認識及び関係人物に割り当てられた優先順位レベルに基づいて、１人又は複数人の関係人物によって行われた音声通信の検出に優先順位を付けるように構成され得る。いくつかの実施形態において、１つ又は複数のマイクロフォンは、１人又は複数人の話者によってなされた音声通信に基づいて、手術で使用される１つ又は複数のツール又は製品を認識及び／又は識別するように構成され得る。例えば、マイクロフォンは、医師、医療ワーカ、又はサポートスタッフによって発話されたキーワードを検出し、キーワードを通じて医師、医療ワーカ、又はサポートスタッフによって言及されたツール又は製品を識別するために使用され得る。場合によっては、医師、医療ワーカ、又はサポートスタッフは、処置に関連する１つ又は複数のタスク又はステップの実行を支援するために、特定のツール又は製品を要求することがあり、１つ又は複数のマイクロフォンは、ツール又は製品が要求されたことを検出し得る。特定のツール又は製品が要求されたことを検出すると、本明細書で開示されるシステムは、医師又は外科医によって要求されたツール又は製品を取得又はアクセスするために、処置を支援する１人又は複数人の個人又はエンティティに通知又は要求を伝送し得る。

[0078] いくつかの実施形態において、自然言語処理（ＮＬＰ）が、処置前及び／又は処置中に医師又は外科医によってなされた音声通信を解釈及び処理するために使用され得る。ＮＬＰは、１つ又は複数のアルゴリズムを使用して実行され得る。場合によっては、ＮＬＰは、音声通信を解釈して、（ｉ）どのような手術が行われているか、及び／又は（ｉｉ）どのツール及び／又は製品が使用されているかを理解、判断、又は識別することができるコンテキスト認識型ＮＬＰを備え得る。いくつかの実施形態において、コンテキスト認識型ＮＬＰはまた、（ｉ）処置の異なるステップ、及び／又は（ｉｉ）外科的処置又は医療処置のために医師又は病院によって使用されるツール又は製品をカタログ化するために使用され得る。場合によっては、ＮＬＰは、外科的処置におけるステップのタイミング、又は様々なツール、製品、又は医療器具の使用量又は使用頻度に関するデータ（例えば統計）を生成又は編集するために使用され得る。場合によっては、ＮＬＰは、例えば、ＮＬＰを使用して識別された異なる処置又は処置ステップの成功率及び／又は失敗率を決定するために使用され得る。他の場合、ＮＬＰは、ＮＬＰを用いて識別された特定のツール又は製品を用いて行われる様々な処置の成功率及び／又は失敗率を決定するために使用され得る。

[0079] 場合によっては、１つ又は複数のマイクロフォンは、関心対象の人物の声及び／又は関心対象の人物の声の活性度を検出し、（ｉ）関心対象の人物の声又は声の活性度の検出と、（ｉｉ）関心対象の人物に割り当てられた優先順位レベルとに基づいて、関心対象の人物によって行われた音声通信の検出に優先順位を付けるように構成され得る。例えば、１つ又は複数のマイクロフォンが関心対象の人物の声又は声の活性度を検出しない場合、１つ又は複数のマイクロフォンは、複数の関係者によって行われた音声通信に優先順位を付けなくてもよいし、又は付ける必要もない。しかしながら、１つ又は複数のマイクロフォンが関心対象の人物の声又は声の活性度を検出した場合、１つ又は複数のマイクロフォンは、関心対象の人物によって行われた音声通信を、より低い優先順位が割り当てられた他の人物又は関心対象の人物によって行われた他の音声通信よりも優先し得る。

[0080] 場合によっては、本開示のシステム及び方法は、１人又は複数人の関心対象の人物の検出された位置又は位置に基づいて、本明細書に記載されるビーム形成能力を調整するように実施され得る。例えば、１つ又は複数のマイクロフォンの指向性又は方向性が第１の検出範囲又は領域に対応し、１人又は複数人の関心対象の人物の場所又は位置が第２の検出範囲又は領域への指向性又は方向性の調整を必要とする場合、１つ又は複数のマイクロフォンの指向性又は方向性は、第２の検出範囲又は領域に対応するように修正又は調整され得る。第１の検知範囲又は領域と第２の検知範囲又は領域は重複していてもよいし、又は部分的に重複していてもよい。場合によっては、第１の検出範囲又は領域と第２の検出範囲又は領域は異なっていてもよい。１つ又は複数のマイクロフォンの指向性又は方向性を調整することは、ビームステアリングの１つ又は複数の態様を含み得る。

[0081] 場合によっては、本開示のシステム及び方法は、発話検出を容易にするために実施され得る。発話検出は、音声記録装置（例えば、マイクロフォン又はマイクロフォンのアレイ）によって受信された１つ又は複数の音声通信に基づいて、発話又は他の音声通信の有無を検出すること、又は話者を識別することを含み得る。場合によっては、発話検出は、医療オペレータ、医師、外科医、医療スタッフ、及び／又は任意の関心対象の人物によって話される重要なキーワード又はセンテンスを検出又は識別することを含み得る。場合によっては、このような発話検出は、１人又は複数人の個人によって話された重要なキーワード、フレーズ、又はセンテンスに少なくとも部分的に基づいて、１人又は複数人の個人の優先順位を変更又は調整するために使用され得る。

[0082] 場合によっては、１人又は複数人の個人の優先順位は、１人又は複数人の個人によって話された特定のワード、フレーズ、又はセンテンスに基づいて調整され得る。上述したように、個人に割り当てられた優先順位は、近くにいる可能性のある他の人物よりも、それらの個人によって行われた音声通信の検出を優先するために使用され得る。場合によっては、１人又は複数人の個人は、優先順位リストに記載されている少なくとも１人の人物を含み得る。他の場合には、１人又は複数人の個人は、優先順位リストに記載されていない少なくとも１人の人物を含み得る。このような場合、優先順位リストに載っていない個人が、１つ又は複数の重要なキーワード、フレーズ、又はセンテンスを含む発言をすると、そのような個人が優先順位リストに追加され得る。さらに、優先順位リスト上の他の個人の優先順位は、優先順位リストへの別の個人の追加に対応するように調整され得る。

[0083] 図３は、音声通信の検出に優先順位を付けるために使用され得る優先順位リスト３００の一例を示す。一例では、複数の個人が手術室に存在することがある。複数の個人は、複数の音声源（例えば、源１、源２、源３、源４）として扱われ得る。優先順位リスト３００は、本明細書に記載される音声記録装置が、より高い優先順位を有する音声源からの音声通信の検出を優先するように、各音声源に優先順位を割り当て得る。例えば、優先順位リストが、源１を最も高い優先順位で指定し、源２を２番目に高い優先順位で指定し、源３を３番目に高い優先順位で指定し、源４を最も低い優先順位で指定する場合、音声検出装置の１つ又は複数は、源２、源３、及び／又は源４からの音声通信よりも源１からの音声通信を優先するように構成され得る。

[0084] 場合によっては、優先順位リストは発話の内容に基づいて調整され得る。例えば、源２が１つ又は複数のキーワード、フレーズ、又はセンテンスを通信する場合、源２は、少なくとも所定の期間、源１よりも優先され得る。他の場合には、別の個人が他の音声源よりも優先順位付けを必要とする音声通信を行ったときに、優先順位リストは別の源（例えば、源５）を含むように調整され得る。

[0085] 図４は、音声検出装置のために生成され得る１つ又は複数のビーム４１０－１、４１０－２を示す。本明細書で使用する場合、音声検出装置は音声記録装置と交換可能に呼ばれることがある。音声検出装置は、例えば、音声通信を検出、記録、及び／又は受信するための１つ又は複数のマイクロフォン又はマイクロフォンアレイを備え得る。１つ又は複数のビーム４１０－１、４１０－２は、異なる検出領域及び／又は異なる検出範囲に対応し得る。場合によっては、１つ又は複数のビーム４１０－１、４１０－２の向き及び／又は角度範囲は、複数の音声源４２０－１、４２０－２によって行われる複数の音声通信のうちの１つ又は複数の音声通信に優先順位を付けるように調整され得る。このような優先順位付けは、例えば、優先順位リスト又は優先順位リストへの変更；特定のキーワード、フレーズ、又はセンテンスの認識；及び／又は特定の個人によってなされた特定の声又は発話の識別；に応答し得る。

[0086] 図５は、音声通信を検出して向上させるための例示的なシステムを示す。このシステムは、１つ又は複数の音声源５０１－１、５０１－２から発信される音声通信を検出するように構成された音声検出装置５００を備え得る。音声検出装置５００は、音声通信を受信し、本明細書に記載される音声向上方法のいずれかを使用して音声通信を向上させるように構成される音声向上モジュール５１０に音声通信を伝送するように構成され得る。音声向上モジュール５１０は、向上された音声通信を、スピーカなどの出力モジュール又は装置５２０に伝送するようにさらに構成され得る。場合によっては、スピーカは、手術室又は医療施設内に配置されたコンピューティングデバイスに統合され得る。他の場合には、スピーカは、手術室又は医療施設から離れたコンピューティングデバイスに統合され得る。場合によっては、向上された音声通信は、手術室又は医療施設にいる個人に提供され得る。他の場合には、向上された音声通信は、外科的処置又は外科的処置を行っている外科オペレータを支援するために向上された音声通信を使用するように構成されている医療装置又はロボットに提供され得る。

[0087] 本明細書に記載される実施形態のいずれかにおいて、機械学習が、優先順位の高い音声通信の検出を改善するために、本開示の音声向上システムを訓練するために使用され得る。場合によっては、優先順位の高い音声通信に対応する１つ又は複数のデータセットが機械学習モジュールに提供され得る。機械学習モジュールは、データセットに基づいて機械学習データを生成するように構成され得る。１つ又は複数のデータセットは、１つ又は複数の機械学習アルゴリズムの訓練データセットとして使用され得る。学習データは、データセットに基づいて生成され得る。いくつかの実施形態において、教師付き学習アルゴリズムが使用され得る。任意選択的に、学習データを生成するために、教師なし学習技法及び／又は半教師付き学習技法が利用され得る。学習データは、優先順位の高い音声通信を検出及び／又は認識するために有用であり得る。学習データは、優先順位の高い音声通信を検出及び／又は認識するために、機械学習モジュール及び／又は機械学習アルゴリズムを訓練するために使用され得る。場合によっては、機械学習アルゴリズムを使用して音声向上システムによって検出された１つ又は複数の優先順位の高い音声通信に関連するデータは、機械学習アルゴリズムを改善するために学習データセットにフィードバックされ得る。

[0088] いくつかの実施形態において、機械学習モジュールは、１つ又は複数のニューラルネットワークを利用し得る。１つ又は複数のニューラルネットワークは、例えば、ディープ畳み込みニューラルネットワークを含み得る。機械学習は、任意のタイプの畳み込みニューラルネットワーク（ＣＮＮ）を利用し得る。シフト不変又はスペース不変ニューラルネットワーク（ＳＩＡＮＮ）が同じく利用され得る。画像分類、物体検出、及び／又は物体位置測定が同じく利用され得る。いくつかの実施形態において、ニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ）を備え得る。ＣＮＮは、例えば、U-Net、ImageNet、LeNet-5、AlexNet、ZFNet、GoogleNet、VGGNet、ResNet18、又はResNet等であり得る。場合によっては、ニューラルネットワークは、例えば、ディープ順伝播型ニューラルネットワーク（deep feed forward neural network）、回帰型ニューラルネットワーク（ＲＮＮ：recurrent neural network）、ＬＳＴＭ（Long Short Term Memory：長・短期記憶）、ＧＲＵ（Gated Recurrent Unit：ゲート付き回帰型ユニット）、オートエンコーダ、変分オートエンコーダ、敵対的（adversarial）オートエンコーダ、ノイズ除去オートエンコーダ、スパースオートエンコーダ、ボルツマンマシン、ＲＢＭ（Restricted BM：制限付きＢＭ）、ディープビリーフ（deep belief）ネットワーク、敵対的生成ネットワーク（ＧＡＮ：generative adversarial network）、ディープ残差ネットワーク、カプセルネットワーク、注意／変換ネットワーク等であり得る。いくつかの実施形態において、ニューラルネットワークは、１つ又は複数のニューラルネットワーク層を含み得る。ニューラルネットワークは、少なくとも約２～１０００以上のニューラルネットワーク層を有し得る。場合によっては、機械学習アルゴリズムは、例えば、ランダムフォレスト、ブースト決定木、分類木、回帰木、バギング木（bagging tree）、ニューラルネットワーク、又はローテーションフォレストを実装し得る。

[0089] 一態様において、本開示は、本開示の方法、例えば、音声通信を向上させるための主題の方法のいずれかを実施するようにプログラムされるか、又は他の方法で構成されるコンピュータシステムを提供する。図６は、音声通信を向上させるための方法を実施するようにプログラムされるか、又は他の方法で構成されるコンピュータシステム６０１を示す。コンピュータシステム６０１は、例えば、（ａ）医療処置に関連する１つ又は複数のパラメータと、医療処置に関連する１つ又は複数の音声通信とを検出し、（ｂ）１つ又は複数のパラメータに基づいて１つ又は複数の音声通信を処理して、１つ又は複数の向上された音声通信を生成するように構成され得る。コンピュータシステム６０１は、ユーザの電子デバイス又は電子デバイスに対して遠隔に位置するコンピュータシステムとすることができる。電子デバイスは、モバイル電子デバイスであり得る。

[0090] コンピュータシステム６０１は、中央処理装置（ＣＰＵ、本明細書では「プロセッサ」及び「コンピュータプロセッサ」とも呼ぶ）６０５を備えてもよく、これは、シングルコアプロセッサ若しくはマルチコアプロセッサ、又は並列処理用の複数のプロセッサとすることができる。コンピュータシステム６０１はまた、メモリすなわち記憶場所６１０（例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ）、電子記憶ユニット６１５（例えば、ハードディスク）、１つ又は複数の他のシステムと通信するための通信インターフェース６２０（例えば、ネットワークアダプタ）、並びに、キャッシュ、他のメモリ、データ記憶装置、及び／又は電子表示アダプタなどの周辺装置６２５を備える。メモリ６１０、記憶ユニット６１５、インターフェース６２０、周辺装置６２５は、マザーボードなどのコミュニケーションバス（実線）を介して、ＣＰＵ６０５と通信する。記憶ユニット６１５は、データを記憶するためのデータ記憶ユニット（又は、データリポジトリ）とすることができる。コンピュータシステム６０１は、通信インターフェース６２０を用いて、コンピュータネットワーク（「ネットワーク」）６３０に、適切に動作するよう結合することができる。ネットワーク６３０は、インターネット、相互接続ネットワーク及び／又はエクストラネット、又はインターネットと通信するイントラネット及び／又はエクストラネットとすることができる。ネットワーク６３０は、場合によっては、電気通信ネットワーク及び／又はデータネットワークである。ネットワーク６３０は、クラウドコンピューティングなどの分散コンピューティングを可能にし得る、１つ又は複数のコンピュータサーバを含み得る。ネットワーク６３０は、場合によっては、コンピュータシステム６０１の助けを借りて、ピアツーピアネットワークを実装することができ、これにより、コンピュータシステム６０１に結合された装置がクライアント又はサーバとして動作することを可能にし得る。

[0091] ＣＰＵ６０５は、一連の機械読取り可能な命令を実行することができ、この命令は、プログラム又はソフトウェアで実施することができる。この命令は、メモリ６１０などの記憶場所に記憶されてもよい。命令は、ＣＰＵ６０５を対象とすることができ、続いて、ＣＰＵ６０５をプログラムするか、又は他の方法で構成して、本開示の方法を実装することができる。ＣＰＵ６０５が実行する演算の例には、フェッチ、復号、実行、及びライトバックが含まれ得る。

[0092] ＣＰＵ６０５は、集積回路などの回路の一部分とすることができる。システム６０１の１つ又は複数の他の構成部品を、この回路内に含むことができる。場合によっては、この回路は、特定用途向け集積回路（ＡＳＩＣ）である。

[0093] 記憶ユニット６１５は、ドライバ、ライブラリ、保存済みプログラムなどのファイルを記憶することができる。この記憶ユニット６１５は、ユーザデータ、例えば、ユーザの好み及びユーザプログラムを記憶することができる。場合によっては、コンピュータシステム６０１は、コンピュータシステム６０１の外部（例えば、イントラネット又はインターネットを介してこのコンピュータシステム６０１と通信する遠隔サーバ）に位置する１つ又は複数の追加のデータ記憶ユニットを含むことができる。

[0094] コンピュータシステム６０１は、ネットワーク６３０を介して、１つ又は複数の遠隔コンピュータシステムと通信することができる。例えば、このコンピュータシステム６０１は、ユーザ（例えば、医療オペレータ、医療アシスタント、又は医療オペレーションを監視する遠隔観察者）の遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例には、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートＰＣ若しくはタブレットＰＣ（例えば、Apple（登録商標）iPad、Samsung（登録商標）Gala6 Tab）、電話、スマートフォン（例えば、Apple（登録商標）iPhone、アンドロイド対応装置、Blackberry（登録商標））、又は携帯型情報端末が含まれる。ユーザは、ネットワーク６３０を介してコンピュータシステム６０１にアクセスすることができる。

[0095] 本明細書に記載の方法は、例えば、メモリ６１０又は電子記憶ユニット６１５など、コンピュータシステム６０１の電子記憶場所に記憶される、機械（例えば、コンピュータプロセッサ）実行可能コードによって実施することができる。この機械実行可能コード又は機械読取り可能なコードは、ソフトウェアの形で提供することができる。使用中、プロセッサ６０５によって、このコードを実行することができる。場合によっては、このコードを、記憶ユニット６１５から取り出し、プロセッサ６０５が素早くアクセスできるよう、メモリ６１０に記憶することができる。状況によっては、電子記憶ユニット６１５を除外することができ、機械実行可能命令がメモリ６１０に記憶される。

[0096] コードを、事前コンパイルし、このコードを実行するようになされたプロセッサを有する機械とともに使用するように構成することができ、又はランタイム中にコンパイルすることもできる。コードは、事前コンパイルされたように又はコンパイルされたとおりにこのコードを実行できるように選択することができる、プログラミング言語に入れ込むことができる。

[0097] コンピュータシステム６０１など、本明細書に提示されるシステム及び方法の各態様は、プログラミングで実施することができる。この技術の様々な態様は、典型的には、機械（又はプロセッサ）実行可能なコード、及び／又はあるタイプの機械読取り可能な媒体で搬送若しくは実施される関連データの形での「製品」又は「製造品」と考えてもよい。機械実行可能コードは、メモリ（例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ）又はハードディスクなどの電子記憶ユニットに記憶することができる。「記憶」タイプの媒体には、コンピュータ、プロセッサなどの有形メモリ、又はその関連モジュール、例えば、様々な半導体メモリ、テープドライブ、ディスクドライブなどの一部又は全部を含むことができ、これらはソフトウェアプログラミング用に非一時的な記憶装置をいつでも提供することができる。ソフトウェアの全部又は一部は、時として、インターネット又は他の様々な通信ネットワークを介して伝達されてもよい。例えば、このような通信により、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサに、例えば管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームに、ソフトウェアをロードすることが可能になってもよい。したがって、ソフトウェア要素を搭載してもよい別のタイプの媒体には、ローカルデバイス間の物理的インターフェース、有線及び光学的な陸上通信ネットワーク、並びに様々な空中リンクなどを介して使用される、光波、電波、及び電磁波が含まれる。有線リンク又は無線リンク、光リンクなど、このような波を運ぶ物理的要素も、ソフトウェアを搭載する媒体とみなしてもよい。本明細書では、非一時的で有形の「記憶」媒体に限定されない限り、コンピュータ又は機械の「読取り可能な媒体」などの用語は、実行するためプロセッサに命令を提供するのに関与する任意の媒体を指す。

[0098] したがって、コンピュータ実行可能コードなどの機械読取り可能な媒体は、有形の記憶媒体、搬送波媒体、又は物理的な伝送媒体を含む数多くの形態をとってもよいが、これらに限定されることはない。不揮発性の記憶媒体には、光若しくは磁気ディスク、又は、例えば、各図面に示すデータベースなどを実施するのに使用されてもよい、任意のコンピュータ等内の任意の記憶装置が含まれる。揮発性の記憶媒体には、このようなコンピュータプラットフォームの主記憶装置などのダイナミックメモリが含まれる。有形の伝送媒体には、コンピュータシステム内のバスを備えるワイヤを含め、同軸ケーブル、銅線、及び光ファイバが含まれる。搬送波伝送媒体は、無線周波数（ＲＦ）及び赤外線（ＩＲ）のデータ通信中に生成されるような、電気信号若しくは電磁信号、又は音波若しくは光波の形をとってもよい。したがって、コンピュータ読取り可能な媒体の共通の形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤ若しくはＤＶＤ－ＲＯＭ、他の任意の光媒体、せん孔カード用紙テープ、孔のパターンを有する他の任意の物理記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、及びＥＰＲＯＭ、フラッシュＥＰＲＯＭ、他の任意のメモリチップ若しくはカートリッジ、データ若しくは命令を搬送する搬送波、このような搬送波を搬送するケーブル若しくはリンク、又はコンピュータがプログラミングコード及び／又はデータを読取ることができる他の任意の媒体が含まれる。こうした形態のうち多くのコンピュータ読取り可能な媒体は、１つ又は複数の命令の１つ又は複数のシーケンスを、実行するためにプロセッサに搬送する働きをしてもよい。

[0099] コンピュータシステム６０１は、例えば、医療ワーカが（ｉ）医療処置中に行われた１つ又は複数の音声通信の検出を監視し、（ｉｉ）１つ又は複数の音声通信を処理するように構成された音声向上モジュールから１つ又は複数の向上された音声通信を受信するためのポータルを提供するためのユーザインターフェース（ＵＩ）６４０を含む電子ディスプレイ６３５を含むか、又はそれと通信することができる。ポータルは、アプリケーションプログラミングインターフェース（ＡＰＩ）を介して提供され得る。ユーザ又はエンティティは、ＵＩを介してポータル内の様々な要素と相互作用することもできる。ＵＩの例には、限定されないが、グラフィカルユーザーインターフェース（ＧＵＩ）及びウェブベースのユーザインターフェースが含まれる。

[00100] 本開示の方法及びシステムは、１つ又は複数のアルゴリズムによって実装することができる。アルゴリズムは、中央処理装置６０５による実行時にソフトウェアの方法で実装され得る。例えば、アルゴリズムは、（ａ）医療処置に関連する１つ又は複数のパラメータ、及び医療処置に関連する１つ又は複数の音声通信を検出し、（ｂ）１つ又は複数のパラメータに基づいて１つ又は複数の音声通信を処理して、１つ又は複数の向上された音声通信を生成するように構成され得る。

[00101] 別の態様において、本開示は、音声ビーム選択のためのシステム及び方法を提供する。外科的処置のライブストリーム又は外科的処置の録画を視聴する１人又は複数人の個人は、複数の異なる音声ビーム又は音声チャンネルから関心のある１つ又は複数の音声ビーム又は音声チャンネルを選択し得る。関心のある音声ビーム又は音声チャンネルは、外科的処置を支援又は視聴する異なる個人（例えば、異なる専門医、医師、又は遠隔の販売業者の代表者）に対応し得る。場合によっては、関心のある音声ビーム又は音声チャンネルは、様々な異なる手術ツール又は器具の使用又は操作に対応し得る。場合によっては、複数の音声ビーム又は音声チャンネルは、進行中の外科的処置の異なる眺め又は異なるフェーズを捕捉している複数の異なるカメラに関連付けられ得る。

[00102] 場合によっては、複数のカメラが、医療施設に設置された医療コンソールに接続されるか、又は動作可能に結合され得る。複数のカメラは、進行中の外科的処置の複数の眺めを提供するように構成され得る。複数のカメラは、それぞれ、複数のカメラを使用して捕捉された画像又は動画を増強するための１つ又は複数の音声記録又は検出装置（例えば、マイクロフォン）を有し得る。複数のカメラは、手術シーンの画像又は動画を捕捉するために使用されてもよく、画像又は動画は、関連する音声とともに、ライブストリームを通じて、又は動画録画の形態で、１人又は複数人の個人に提供されてもよい。このような動画録画は、動画が録画された後、１人又は複数人の個人がいつでも動画にアクセスできるように、ライブラリ又はサーバ（例えば、クラウドサーバ）に保存され得る。

[00103] 場合によっては、１人又は複数人の個人が同時に外科的処置のフェーズをマークし、外科的処置のフェーズに関連する音声を選択又は抽出し得る。これにより、個人は、外科的処置の動画に関連付けられた音声の一部のみを聞くことが可能になり得る。個人はそれぞれ、関心のある異なるフェーズを選択し、外科的処置の異なるフェーズに関連する異なる音声クリップを聞くことができる。場合によっては、複数の個人が、関心のある同じフェーズを選択し、外科的処置の異なる眺め、異なる外科用器具の使用又は操作、及び／又は外科的処置を支援する、又は外科的処置の実行に関連する音声解説を提供する異なる話者に関連する異なる音声クリップを聴くことができる。

[00104] 場合によっては、個人は、特定の器具、特定の専門医、又は特定の医師に関連する音声通信にのみ関心を持つことがある。本開示のシステム及び方法は、第１の個人が第１の話者による音声通信を聴くこと、及び第２の個人が第２の話者による音声通信を聴くことを可能にし得る。場合によっては、第１の個人は、第１の器具又は第１の医師若しくは専門医に関連する音声通信を聴くことができ、第２の個人は、第２の器具又は第２の医師若しくは専門医に関連する音声通信を聴くことができる。第１の個人及び／又は第２の個人は、例えば、遠隔の専門医、販売業者の代表者、医師、外科医、手術助手、医療ワーカ、医学研修医、医療インターン、医学生、又は外科的処置を観ること及び／又は外科的処置に関連する音声通信を聴くことに関心のある他の任意の個人（例えば、外科的処置を受ける被験者の友人又は家族）であり得る。第１の話者及び／又は第２の話者は、例えば、遠隔の専門医、販売業者の代表者、医師、外科医、手術助手、又は医療ワーカであり得る。

[00105] 場合によっては、複数の個人が、音声装置又は音声チャンネルのマスターリストから所望の音声ビーム又はチャンネルを選択することによって、関心のある音声ビーム又はチャンネルを選択してもよい。音声装置又は音声チャンネルのマスターリストは、外科的処置ごとに生成することができる。このリストは、手動で編集することもできるし、又は外科的処置中に音声通信を記録するために使用されている１つ又は複数の音声記録装置の検出に基づいて自動的に生成することもできる。

[00106] 他の場合には、複数の個人が、関心のある器具、専門医、医師、外科医、又は手術フェーズを選択することによって、関心のある音声ビーム又はチャンネルを選択し得る。このような場合、関連する音声ビーム又はチャンネルを抽出するために、手術動画の後処理が実行され得る。例えば、第１の個人は、手術動画を閲覧し、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズを選択し得る。１つ又は複数のプロセッサを使用して、手術動画を後処理して、第１の個人によって選択された関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関連する関連音声通信を抽出することができる。並行して、第２の個人は、同じ手術動画を閲覧し、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズを選択し得る。１つ又は複数のプロセッサを使用して、手術動画を後処理して、第２の個人によって選択された関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関連する関連音声通信を抽出することができる。

[00107] 本明細書で使用される際、後処理は、複数のチャンネルから音声を受信することと、個人によって提供された選択又は入力に基づいて、関心のある特定の音声ストリーム又はチャンネルを決定又は抽出することとを含み得る。選択又は入力は、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関するものであり得る。選択又は入力は、物理的な入力（例えば、手術動画内の特定の話者又は特定の器具をクリックすること）を含み得る。

[00108] 場合によっては、複数のストリームから関心のある１つ又は複数の音声ストリームを抽出するために、メタデータが追跡され得る。メタデータは、関心のある１つ又は複数の音声ストリームを、関心のある特定の器具、専門医、医師、外科医、又は手術フェーズに関連付ける情報を含み得る。メタデータは、例えば、コンピュータビジョン技術、又は１つ又は複数の機械学習若しくは分類アルゴリズムを使用して、関心のある様々な器具、専門医、医師、外科医、又は手術フェーズの識別又は検出に基づいて生成され得る。

[00109] 場合によっては、関心のある特定の音声チャンネル又は音声ストリームが識別及び選択されると、本開示のシステム及び方法は、関心のある音声チャンネル又は音声ストリームを増幅するために使用され得る。さらに、本開示のシステム及び方法は、関心のない他の音声チャンネル又は音声ストリームを減衰させるために使用され得る。増幅又は減衰のレベルは、例えば、ユーザの好み又はユーザによって提供された入力に基づいて調整され得る。

[00110] 場合によっては、１人又は複数人のユーザが、複数の音声ストリーム又はチャンネルから１つ又は複数の特定の音声ストリーム又はチャンネルに自動的に割り当てられ得る。ユーザは、例えば、ユーザのＩＤ又は役割に基づいて、特定の音声ストリーム又はチャンネルのセットに割り当てられ得る。いくつかの例では、第１のユーザ（例えば、製品サポート専門家）が第１の音声ストリーム又はチャンネルに自動的に割り当てられ、第２のユーザ（例えば、コンサルティング医師）が第２の音声ストリーム又はチャンネルに自動的に割り当てられ得る。第１の音声ストリーム又はチャンネルは、製品サポート専門家が精通している及び／又は知識を有する１つ又は複数の製品（例えば、ツール、器具、装置、又はシステム）に関連する音声通信を含み得る。場合によっては、第１の音声ストリーム又はチャンネルは、製品サポート専門家が精通している及び／又は知識を有する１つ又は複数の製品の使用法に関連する音声通信を含み得る。第１の音声ストリーム又はチャンネルは、製品サポート専門家が１つ又は複数の製品を適切に又は効果的に準備又は使用する方法について専門的な指導を提供できるように、製品サポート専門家に１つ又は複数の製品のＩＤ又は使用に関する情報を提供する音声通信を含み得る。第２の音声ストリーム又はチャンネルは、例えば、外科的処置の別の態様に関連する音声通信（例えば、外科的処置の１つ又は複数のステップの実行に関連する音声通信、又は医学的若しくは外科的手技を含む外科的処置の処置的態様に関連する音声通信）を含み得る。第２の音声ストリーム又はチャンネルは、コンサルティング医師が外科的処置の１つ又は複数のステップを適切に又はより効果的に実行する方法について専門的な指導を提供できるように、外科医がどのように処置を実行しているかについての情報をコンサルティング医師に提供する音声通信を含み得る。場合によっては、第１及び第２の音声ストリーム又はチャンネルは、同一又は類似の音声コンテンツを含み得る。他の態様では、第１及び第２の音声ストリーム又はチャンネルは、異なる音声コンテンツを含み得る。異なる音声コンテンツは、異なる個人によって行われる音声通信、又は外科的処置の異なる側面若しくは部分に関連する音声通信を含み得る。

[00111] 場合によっては、１つ又は複数の音声ストリームが、ユーザのＩＤ、ユーザの役割、又は音声ストリームのコンテンツに基づいて、複数の音声ストリームから自動的にフィルタリングされ、特定のユーザ又はユーザの特定のサブセットに提示され得る。他の場合、１つ又は複数の音声ストリームの特定のユーザ又はユーザのサブセットへのフィルタリング及び割り当ては、調整又は変更され得る。例えば、１人又は複数人のユーザが、自動的に割り当てられていない様々な音声ストリーム又はチャンネルを聴きたい場合、１人又は複数人のユーザは、関心のある他の音声ストリーム又はチャンネルを変更又は追加するために、１つ又は複数の入力を提供し得る。場合によっては、ユーザは、もはや関心のない音声ストリーム又はチャンネルを変更又は削除するための入力も提供し得る。入力は、例えば、１つ又は複数の音声ストリームの手動による選択又は削除を含み得る。場合によっては、このような音声ストリームの手動による選択又は削除は、音声ストリーム又はチャンネルのマスターリストに関して、又はマスターリストを参照して行われ得る。場合によっては、入力は、音声チャンネル又はストリームのユーザへの最初の自動割り当てを行うために使用される１つ又は複数のパラメータ又は要因を変更するために分析され、使用され得る。場合によっては、音声チャンネル又はストリームの選択又は割り当ては、特定のユーザによって直接変更され得る。他の場合、音声チャンネル又はストリームの選択又は割り当ては、処置が行われている医療施設によって変更され得る。このような場合、様々なユーザへの音声チャンネル又はストリームの割り当て又は選択は、医療施設によって管理され、医療施設又は様々なユーザへの音声チャンネル又はストリームの割り当て及び伝送に関連する許可を管理する１つ又は複数のエンティティによって提供される許可又は承認に基づいて調整又は変更され得る。

[00112] 図７は、複数の音声チャンネル７１０に関連付けられる複数の音声源７０１を概略的に示す。複数の音声源７０１は、例えば、源１、源２、源３、源４等を含み得る。複数の音声チャンネル７１０は、例えば、チャンネル１、チャンネル２、チャンネル３、チャンネル４等を含み得る。複数の音声源７０１は、複数の音声チャンネル７１０のうちの１つ又は複数にマッピングされ得る。複数の音声チャンネル７１０は、１人又は複数人のユーザの機能、役割、専門性、専門知識、又はＩＤに基づいて、１人又は複数人のユーザに自動的に割り当てられ得る。１人又は複数人のユーザは、複数の音声チャンネル７１０のサブセットへのアクセスを有し得る。場合によっては、異なるユーザが異なる音声チャンネルに接続できることもある。例えば、ユーザＡは、音声源１に対応する音声チャンネル１に接続し、ユーザＢは、音声源２に対応する音声チャンネル２に接続し、ユーザＣは、音声源３に対応する音声チャンネル３に接続し、ユーザＤは、音声源４に対応する音声チャンネル４に接続し得る。ユーザを特定のチャンネル又は音声源に割り当てることは、処置が行われている医療施設によって、医療施設の管理者又は従業員によって、又は処置に関連する１つ又は複数の音声ストリーム又はデータストリームを管理するサーバ又はエンティティによって管理され得る。

[00113] 図８に示すように、場合によっては、１人又は複数人のユーザは、関心のある特定の音声チャンネル又は音声チャンネルのセットを選択し得る。音声チャンネルの選択は、関心のある１つ又は複数の特定の音声源の選択に直接対応し得る。代替的に、音声チャンネルの選択は、関心のある１つ又は複数のパラメータ（例えば、関心のあるツール、関心のある手術フェーズ、関心のある医療技術、関心のある外科医又は医師等）に基づき得る。このような場合、１人又は複数人のユーザによって選択された関心のあるパラメータ又は関心のある音声チャンネルに対応する関心のある音声源を抽出するために、手術動画及び音声データの後処理を実行することができる。ある実施態様では、ユーザＡは、関心のある音声チャンネルの第１のグループ７１１を選択し得、ユーザＢは、関心のある音声チャンネルの第２のグループ７１２を選択し得る。音声チャンネルの第１のグループ７１１及び音声チャンネルの第２のグループ７１２は、関心のある異なるツール、関心のある異なる手術フェーズ、関心のある異なる医療技術、及び／又は関心のある異なる外科医又は医師に対応し得る。

[00114] 図９は、複数の音声源７０１又は音声チャンネル７１０から関心のある１つ又は複数の音声源又は音声チャンネルを選択するためのユーザインターフェース７５０の一例を概略的に示す。いくつかの例では、ユーザは、ユーザインターフェース７５０内の仮想要素と対話するための入力（例えば、タップ、タッチ、プレス、クリック等）を提供することによって、関心のある１つ又は複数の音声源７０１又は音声チャンネル７１０を手動で選択し得る。仮想要素は、例えば、ボタン、チェックボックス、又はラジオボタンを含み得る。場合によっては、ユーザインターフェース７５０は、ユーザが複数の異なる音声チャンネル又は関心のある音声源を一度に選択することを可能にし得る。

[00115] 図１０は、複数の音声源７０１又は音声チャンネル７１０の後処理を実行して、様々なユーザに音声チャンネルのカスタマイズされた又は調整された選択を提供するように構成される音声管理システム７２０を概略的に示す。音声管理システム７２０は、１つ又は複数のプロセッサの助けを借りて実装され得る。音声管理システム７２０は、医療施設に設置されたコンピューティングデバイス又はサーバ（例えば、リモートサーバ又はクラウドサーバ）上に実装され得る。場合によっては、音声管理システム７２０は、第１の音声チャンネルセット７４０－１を第１のユーザＢに提供し、第２の音声チャンネルセット７４０－２を第２のユーザＢに提供するように構成され得る。音声管理システム７２０は、第１の音声チャンネルセット７４０－１及び第２の音声チャンネルセットを、ユーザのＩＤ、役割、専門知識、又は専門性に基づいて選択するように構成され得る。場合によっては、音声管理システム７２０は、ユーザによって提供された１つ又は複数の入力に基づいて、第１の音声チャンネルセット７４０－１及び第２の音声チャンネルセットを選択するように構成され得る。１つ又は複数の入力は、例えば、関心のある１つ又は複数のツール、関心のある１つ又は複数の手術フェーズ、関心のある１つ又は複数の医療技術、及び／又は関心のある１つ又は複数の外科医又は医師の選択を含み得る。

[00116] 図１１は、ユーザによって提供される１つ又は複数の入力に基づいて、どの音声チャンネルがユーザに提供されるかを調整するように構成される音声管理システム７２０を概略的に示す。場合によっては、ユーザは１つ又は複数の入力７３０を音声管理システム７２０に提供し得る。１つ又は複数の入力７３０は、例えば、関心のある１つ又は複数のツール、関心のある１つ又は複数の手術フェーズ、関心のある１つ又は複数の医療技術、及び／又は関心のある１人又は複数人の外科医又は医師の選択を含み得る。音声管理システム７２０は、１つ又は複数の入力７３０を使用して、ユーザの関心のある様々なチャンネル７４０を識別するように構成され得る。関心のある様々なチャンネル７４０は、ユーザによって示された関心のある１つ又は複数のツール、関心のある１つ又は複数の手術フェーズ、関心のある１つ又は複数の医療技術、及び／又は関心のある１人又は複数人の外科医若しくは医師と関連付けられ得る。場合によっては、ユーザは異なる時間に異なる入力７３０を提供し得、音声管理システム７２０はそれに応じてチャンネルの選択を調整するように構成され得る。チャンネルの選択は、ユーザによって提供された１つ又は複数の入力７３０に対応する異なる音声源からの音声データを含み得る。

[00117] 図１２は、関心のある様々なチャンネルを選択するための例示的なユーザインターフェース７５０を概略的に示す。場合によっては、ユーザは関心のある１つ又は複数のチャンネルを選択し得、音声管理システムは、ユーザによって選択された関心のある１つ又は複数のチャンネルに対応する１つ又は複数の音声源を提供するように構成され得る。このような提供は、本明細書の他の箇所で記載されるように、関心のある関連音声ストリームを抽出するために、音声データ又は動画データの後処理を含み得る。場合によっては、ユーザは、関心のある様々なフェーズ、関心のある様々な器具、及び／又は関心のある様々なオペレータを選択し得る。そのような選択に基づいて、音声管理システムは、ユーザによって選択された関心のある様々なパラメータに対応する１つ又は複数の音声源及び／又は１つ又は複数の音声チャンネルを提供するように構成され得る。いくつかの実施形態において、ユーザは、関心のある異なる器具、フェーズ、及びオペレータに対応する複数の選択を行ってもよく、音声管理システムは、ユーザによって行われた様々な選択に対応する複数の音声源及び／又は音声チャンネルを提供するように構成され得る。

[00118] 場合によっては、関心のある音声チャンネルは、外科的処置のフェーズ又はステージに応じて変化し得る。場合によっては、手術動画を観ている１人又は複数人の個人が、関心のある音声チャンネルを変更したり、２つ以上の音声チャンネルを切り替えたりすることがある。場合によっては、手術動画を観ている１人又は複数人の個人が、関心のある２つ以上の音声チャンネルを同時に聴くことがある。このような場合、音声チャンネルは、外科的処置の異なる特徴又は側面に関連することがある。例えば、第１の音声チャンネルは手術ツール又は器具に関連付けられ、第２の音声チャンネルは手術ツール又は器具を使用する外科医又は医師に関連付けられることがある。

[00119] 場合によっては、本開示のシステム及び方法は、複数の個人間の音声コラボレーションを許可又は可能にするように実施され得る。場合によっては、複数の個人が同時に外科的処置の動画を観ることがある。動画は、ライブストリーム動画又は録画された動画を含み得る。個人は、関心のある様々な音声ビーム又は音声チャンネルを個別に選択し、関心のある音声ビーム又は音声チャンネルを含む手術動画の修正バージョンを他の個人と共有し得る。場合によっては、第１の個人は、関心のある第１の音声ビーム又はチャンネルを含むように手術動画を修正し得、第２の個人は、関心のある第２の音声ビーム又はチャンネルも含むように手術動画をさらに修正し得る。場合によっては、第３の個人が、第１及び第２の音声ビーム又はチャンネルの両方を含む手術動画を観ることがあり、この手術動画は、ライブストリームを介して、又はサーバ（例えば、クラウドサーバ）を介して、第３の個人に共有されることがある。第１及び第２の音声ビーム又はチャンネルの両方を含む手術動画は、第３の個人に対して、外科的処置に関連する様々な器具、専門医、医師、外科医、眺め、又は手術フェーズに関する追加のコンテキストを提供し得る。

[00120] 場合によっては、複数の遠隔の販売業者又は専門家が、外科的処置の動画の様々な部分又はセクションに対して同時に音声解説を提供し得る。音声解説は、ガイダンス、支援、又は外科的処置の１つ又は複数のステップ若しくは側面の説明、評価、若しくは査定を含み得る。場合によっては、第１の個人が第１の音声解説を提供し、第２の個人が第２の音声解説を提供することがある。第１の音声解説は第１の音声チャンネルに関連付けられ、第２の音声解説は第２の音声チャンネルに関連付けられることがある。場合によっては、第１及び第２の個人の両方からの音声解説を含む手術動画は、第３の個人と共有されることがある。手術動画は、第１の音声解説を含む第１の音声チャンネルと、第２の音声解説を含む第２の音声チャンネルとを有し得る。場合によっては、第１及び第２の音声チャンネルの両方を含む手術動画は、手術動画を観る様々な個人が、外科的処置を実行するための異なるアプローチを比較及び対照することを可能にし得る。本明細書に記載される実施形態のいずれかにおいて、１人又は複数人のユーザ（例えば、遠隔の販売業者、専門家、外科医、医師、又は医療ワーカ）による音声解説は、手術動画に以前に関連付けられた任意の音声ストリーム又はチャンネルに代わって、又はこれに加えて提供され得る。

[00121] いくつかの実施形態において、１つ又は複数の音声通信が外科的処置中に行われることがある。１つ又は複数の音声通信は、例えば、器具（例えば、ＥＣＧモニタ、又は様々な生物学的信号若しくは生理学的信号を監視するための他の医療用ハードウェア）、ロボット（例えば、医療用ロボットシステム若しくは外科用ロボットシステム）、又は外科的処置を実行している若しくは補助している人間（例えば、１人又は複数人の外科医、医師、看護師、助手、及び／又は医療ワーカ）によって作られた音を含み得る。

[00122] 外科的処置中に行われる音声通信は、記録され及び／又は１人又は複数人のユーザに放送されることがある。場合によっては、音声通信は、放送事業者（本明細書では「パブリッシャ」とも呼ばれる）によって記録され、放送されることがある。音声通信は、外科的処置の１つ又は複数の画像又は動画とともに放送されることがある。

[00123] 場合によっては、放送事業者は、音声通信を複数の異なるユーザ（例えば、１つ又は複数の販売業者の代表者）に直接放送し得る。複数の異なるユーザのそれぞれは、放送事業者によって放送された音声通信を個別に修正し得る。音声通信を変更することは、例えば、上述のように関心のある様々な音声ストリーム又は音声チャンネルを選択又は向上させること、或いは１つ又は複数の音声ストリーム又はチャンネルを消去又はミュートすることを含み得る。場合によっては、各個人は、自分が受信する音声通信のみを変更し得る。例えば、第１のユーザが器具のビープ音を気が散る、又は煩わしいと感じた場合、第１のユーザは、（第１のユーザが気が散る、又は煩わしいと感じたビープ音を監視することに興味があるかもしれない）第２のユーザに放送される音声ストリーム又はチャンネルを変更することなく、そのようなビープ音に関連する音声ストリーム又はチャンネルをミュートすることができる。他の場合、各個人は、放送事業者から音声通信を受信している他の個人又はユーザのために音声通信を変更し得る。例えば、あるユーザが器具のビープ音を気が散る又は煩わしいと感じ、他のユーザもビープ音を気が散る又は煩わしいと感じるだろうとユーザが考える場合、ユーザは、様々な他のユーザのために（例えば、先制的な措置又は他のユーザに対する礼儀として）、そのようなビープ音に関連する音声ストリーム又はチャンネルをミュートすることができる。本開示のシステム及び方法は、各ユーザが自分自身のために、又は代替的に、放送事業者から音声通信を受信する他のすべての参加者のために特定のチャンネルをミュートすることを可能にするように実施され得る。場合によっては、本開示のシステム及び方法はまた、個々のユーザが、自分自身及び／又は放送事業者から音声通信を受信する他の参加者のために、特定のチャンネルを修正、向上、又はチューニングすることを可能にするように実施され得る。

[00124] 場合によっては、放送事業者は、緩和エンティティ（例えば、人間又はサーバ）に音声通信を放送し得る。緩和エンティティは、音声通信を受信し、１人又は複数人のユーザに放送される前に、音声通信を前処理又は修正するように構成され得る。例えば、緩和エンティティは、一般的に関心のある特定の音声通信を向上させ、及び／又は、関心又は重要性が低い他の音声通信をミュート又は排除し得る。場合によっては、緩和エンティティは、個人的又はプライベートな情報を明らかにする特定の音声通信、又は気が散る又は煩わしい音声通信をミュート又は排除し得る。緩和エンティティによって修正された音声通信は、１人又は複数人のユーザに伝送される場合があり、ユーザはそれぞれの好みに合わせて音声通信をさらに修正し得る。場合によっては、緩和エンティティは、異なるユーザ又はユーザのサブセットに対して異なる方法で、放送事業者によって放送された音声通信を前処理又は修正し得る。例えば、緩和エンティティは、第１のサブセットのユーザに対して第１の音声チャンネルのセットを向上及び／又は排除することができ、第２のサブセットのユーザに対して第２の音声チャンネルのセットを向上及び／又は排除することができる。いずれの場合も、第１及び第２のサブセットのユーザは、個々のニーズ及び／又は好みに基づいて、受信する音声通信をさらにチューニングし得る。

[00125] 場合によっては、放送事業者は、１人又は複数人のユーザ及び／又は放送事業者と１人又は複数人のユーザとの間の緩和エンティティに放送される音声通信を修正し得る。上述したように、音声通信を修正することは、関心のある様々な音声ストリーム又は音声チャンネルを選択し又は向上させること、又は１つ又は複数の音声ストリーム又はチャンネルを排除又はミュートすることを含み得る。緩和エンティティ及び／又は１人又は複数人のユーザは、放送事業者によって修正された音声通信にさらなる修正を施し得る。場合によっては、放送事業者は、ユーザのＩＤ、役割、専門知識、又は専門性に基づいて、ユーザの異なるサブセットに対して異なる音声チャンネルを向上させ、及び／又は排除し得る。放送事業者は、どの音声チャンネル又はストリームが緩和エンティティ又は１人又は複数人のユーザに放送されるかを制御し得る。

[00126] 場合によっては、個々のユーザ、視聴者、緩和者、又は遠隔専門家は、どの音声ストリームを向上するか、又は排除するかを選択することができる。場合によっては、個々のユーザ、視聴者、緩和者、又は遠隔専門家は、すべての参加者について、どの音声ストリームを向上又は排除するかを選択することができる。他の場合、個々のユーザ、視聴者、緩和者、又は遠隔専門家は、自分が受信した、受信している、又は受信する予定の音声ストリームのみを変更することができる。

[00127] 音声チューニングは、放送事業者、遠隔の販売業者の代表者、及び／又は個々の視聴者によって実行され得る。何らかの理由で（例えば、周囲の雑音やその他の聴覚障害に起因して）音声が明瞭でない場合、音声は個人の好みに合わせてチューニングされ得る。場合によっては、音声は１つ又は複数の音声最適化アルゴリズムを使用して自動的にチューニングされ得る。他の場合、音声は１人又は複数人のユーザによって手動でチューニングされ得る。音声チューニングは、例えば、１つ又は複数の音声通信の音量を上げる又は下げること、１つ又は複数の音声チャンネルの速度を上げる又は下げること、１つ又は複数の音声通信のピッチ、トーン、音色、リズム、又は低音レベルを変更すること、様々な周波数又は周波数範囲をフィルタリング除去すること、又は他の方法で実際の音声信号を修正することを含み得る。場合によっては、音声チューニングは、音声通信を聴くときに存在する周囲の雑音、静寂、残響、及び／又はエコーを低減するために使用され得る。場合によっては、音声チューニングは、言葉の明瞭度を改善し、視聴者及び聴取者の疲れを減少させるために、特定の音声信号又は音声信号の特定の周波数をブーストすることを含み得る。

[00128] 図１３は、１つ又は複数の音声チャンネルを放送するように構成された放送事業者１３１０を概略的に示す。放送事業者１３１０は、複数の音声チャンネル（例えば、チャンネル１、チャンネル２、チャンネル３、及びチャンネル４）を緩和エンティティ１３２０に放送し得る。場合によっては、放送事業者１３１０は、緩和エンティティ１３２０に伝送する音声チャンネルの特定のサブセットを選択し得る。緩和エンティティ１３２０は、音声チャンネルが１人又は複数人のユーザ又は視聴者に伝送される前に、音声チャンネルの１つ又は複数を向上させるように構成され得る。緩和エンティティ１３２０は、放送事業者１３１０から受信された音声チャンネルのうちの１つ又は複数をミュートするように構成され得る。例えば、緩和エンティティ１３２０は、放送事業者１３１０から複数のチャンネル（例えば、チャンネル１、チャンネル２、チャンネル３、及びチャンネル４）を受信し、複数のチャンネルのサブセット（例えば、チャンネル１、チャンネル２、及びチャンネル３）をユーザＡ及びユーザＢに伝送し得る。

[00129] 図１４は、１つ又は複数の音声チャンネルを放送するように構成された放送事業者１３１０を概略的に示す。放送事業者１３１０は、複数の音声チャンネル（例えば、チャンネル１、チャンネル２、チャンネル３、及びチャンネル４）を緩和エンティティ１３２０に放送し得る。緩和エンティティ１３２０は、音声チャンネルの第１のサブセット（例えば、チャンネル１及びチャンネル２）を第１のユーザに選択的に伝送し、音声チャンネルの第２のサブセット（例えば、チャンネル３及びチャンネル４）を第２のユーザに選択的に伝送するように構成され得る。場合によっては、緩和エンティティ１３２０は、修正された音声通信をユーザに伝送する前に、（例えば、ユーザの好み、ユーザのＩＤ若しくは専門知識に基づいて、又は様々なユーザに付与された１つ又は複数の許可に基づいて）特定のユーザに対して特定の音声チャンネルを選択的に向上又はミュートするように構成され得る。

[00130] 図１５は、１つ又は複数の音声チャンネルを放送するように構成された放送事業者１３１０を概略的に示す。放送事業者１３１０は、緩和エンティティ１３２０に複数の音声チャンネル（例えば、チャンネル１、チャンネル２、チャンネル３、及びチャンネル４）を放送し得る。緩和エンティティ１３２０は、音声チャンネルのサブセット（例えば、チャンネル１、チャンネル２、及びチャンネル３）を第１のユーザ（例えば、ユーザＡ）に選択的に伝送するように構成され得る。第１のユーザは、例えば、遠隔の販売業者の代表者又は遠隔の専門家であり得る。第１のユーザは、緩和エンティティ１３２０から受信された音声チャンネルのうちの１つ又は複数を向上、排除、及び／又は修正し得る。場合によっては、第１のユーザは、音声チャンネルの第２のサブセット（例えば、チャンネル１及びチャンネル２）を第２のユーザ（例えば、ユーザＢ）に転送又は再び放送し得る。第２のユーザは、例えば、別の遠隔の販売業者の代表者又は遠隔の専門家であり得る。或いは、第２のユーザは、外科的処置に関連する１つ又は複数の修正又は向上された音声通信を受信して聴くことに関心のある任意の聴取者又は視聴者であり得る。例えば、第２のユーザは、医師、外科医、医療助手、医療ワーカ、患者の友人又は家族、医学生、医学研修医、又はインターンであり得る。場合によっては、第２のユーザは、第２のユーザのニーズ又は好みに基づいて、第１のユーザから受信した音声チャンネルをさらにチューニングし得る。

[00131] いくつかの実施形態において、本開示のマイクロフォンアレイ（本明細書では、マイクアレイ、マイクアレイモジュール、又はマイクロフォンアレイモジュールとも呼ばれる）は、１つ又は複数のカメラ又は画像センサを含み得る。１つ又は複数のカメラ又は画像センサは、マイクアレイモジュールの１つ又は複数のマイクロフォンを使用して音声信号を捕捉又は検出することができる領域にわたる視野を有し得る。カメラ又は画像センサは、１つ又は複数の検出可能な音声信号が発信される１つ又は複数の音声源の１つ又は複数の画像又は動画を捕捉するために使用され得る。１つ又は複数の音声源は、例えば、医師、外科医、医療ワーカ、助手、ツール（例えば、医療ツール）、器具、又は装置を含み得る。

[00132] いくつかの実施形態において、１つ又は複数の画像又は動画は、遠隔参加者が（１）マイクアレイモジュールを使用して検出又は捕捉された１つ又は複数の音声信号に関連付けられた音声源、又は（２）１つ又は複数の音声信号が検出された手術環境内の領域を見ることができるように、１つ又は複数の遠隔参加者に送出することができる。場合によっては、１つ又は複数の音声信号が検出されると、音声源又は１つ又は複数の音声信号が検出された領域の眺めを、様々な遠隔参加者にリアルタイムで表示することができる。場合によっては、異なる遠隔参加者に、異なる音声源又は関心のある音声信号の異なるセットに対応する異なる視野を提供することができる。

[00133] いくつかの実施形態において、遠隔参加者は、（１）遠隔参加者がピックアップしたい音声ビーム、及び／又は（２）遠隔参加者が調査又は監視したい視野、を選択し得る。視野は、関心のある１つ又は複数の音声ビームが発信され得る領域又は区域に対応し得る。場合によっては、遠隔参加者は、１つ又は複数の関心のある音声ビーム、１つ又は複数の関心のある音声源、又は１つ又は複数の関心のある領域を選択又は指定し得る。場合によっては、関心のある領域は、１つ又は複数の音声源が配置されている領域又は環境に対応し得る。場合によっては、関心のある音声ビーム、関心のある音声源、及び／又は関心のある領域の選択は、現地で又は遠隔式に実行され得る。

[00134] いくつかの実施形態において、マイクアレイモジュールは、１つ又は複数のカメラ又は画像センサを含み得る。１つ又は複数のカメラ又は画像センサは、手術環境の視野をユーザに提供し得る。視野は、医師、看護師、販売業者の代表者、遠隔の専門家、現地の専門家、及び／又は、手術環境で行われる処置に参加、支援、又は監視する任意の人に、手術環境の現地で、又は手術環境から離れた場所で遠隔式に、視覚的にタグ付けするために使用され得る。場合によっては、視野は、ユーザがある人物の音声信号に関心がある場合に、又はユーザがその人物の音声信号の除去又はフィルタリングを指定したい場合に、ユーザが指定することも可能にし得る。場合によっては、マイクアレイモジュールは、１つ又は複数のカメラ又は撮像センサの視野内の１つ又は複数の個人を追跡し、個人が手術環境内で移動するにつれて、音声ビーム又は視野（１つ又は複数の関心のある領域に対応し得る）を調整し得る。音声ビーム、視野、又は監視される関心のある領域の調整は、ソフトウェアを使用して、及び／又はマイクアレイモジュール又はその構成要素の位置及び／又は向きを物理的に変更することによって実行され得る。

[00135] いくつかの実施形態において、関心のある様々な音声信号、関心のある音声源、又は関心のある領域／視野の選択は、処置が行われる前に事前登録、事前決定、又は事前プログラムすることができる。選択は、個人的なユーザの好み又はユーザ（又は他のユーザ）が同様の処置に対して行った以前の選択に基づいて、ユーザによって（例えば、処置前、処置中、及び／又は処置後に）調整可能であり得る。場合によっては、関心のある様々な音声信号、関心のある音声源、又は関心のある領域／視野の選択は、記録されたコンテンツ又はライブコンテンツ上で行うことができ、その後、ユーザは、関心のある（及び／又は関心のない）音声信号のサブセットを選択することができる。場合によっては、関心のある音声信号は、本明細書の他の箇所に記載されるように、さらに向上されてもよい。場合によっては、関心のない音声信号は、ミュート、減衰、又は他の方法でフィルタリングされて、ユーザ又は参加者（例えば、遠隔参加者）が関心のある音声信号に集中できるようにすることができる。

[00136] 本明細書において本発明の好ましい実施形態を示し、記載してきたが、このような実施形態が例示としてのみ提供されることは当業者には明らかであろう。本発明が、本明細書内で提供される特定の例によって限定されることは意図されていない。本発明を前述の明細書を参照して記載してきたが、本明細書における実施形態の記載及び図示は、限定的な意味で解釈されることを意図するものではない。多数の変形、変更、及び置換を、本発明から逸脱することなく当業者は思い付くであろう。さらに、本発明のすべての態様は、様々な条件及び変数に依存する本明細書に記載された特定の描写、構成又は相対的な割合に限定されないことを理解されたい。本明細書に記載された本発明の実施形態に対する様々な代替形態が、本発明の実施において採用され得ることが理解されるべきである。したがって、本発明は、そのような代替形態、変更形態、変形形態、又は等価物もカバーすることが企図される。以下の特許請求の範囲が本発明の範囲を規定すること、及び、これらの特許請求の範囲及びその均等物の範囲内の方法及び構造がそれによってカバーされることが意図される。

Claims

音声通信を向上させるための方法であって、
（ａ）医療的処置に関連する１つ又は複数の音声通信、及び前記１つ又は複数の音声通信に関連する１つ又は複数のパラメータを検出すること、及び
（ｂ）前記１つ又は複数のパラメータに基づいて前記１つ又は複数の音声通信を処理して、１つ又は複数の向上された音声通信を生成すること、
を含む方法。
前記１つ又は複数のパラメータが、前記１つ又は複数の音声通信を行った人間又はロボットの身体的特徴、顔、声、又はＩＤを含む、請求項１に記載の方法。
前記１つ又は複数のパラメータが、前記１つ又は複数の音声通信のキーワード、フレーズ、又はセンテンスを含む、請求項１に記載の方法。
前記１つ又は複数のパラメータが、使用中のツール又は器具のタイプ、又は前記医療的処置のフェーズを含む、請求項１に記載の方法。
前記１つ又は複数の音声通信を処理することが、１つ又は複数の音声検出装置の検出領域、検出範囲、方向性、又は指向性を調整するためのビーム形成を含む、請求項１に記載の方法。
前記１つ又は複数の音声通信を処理することが、話者のＩＤに基づいて、前記１つ又は複数の音声通信の検出又は捕捉に優先順位を付けることを含む、請求項１に記載の方法。
前記１つ又は複数の音声通信を処理することが、前記１つ又は複数の音声通信内の１つ又は複数のキーワード、フレーズ、又はセンテンスの検出に基づいて、検出又は捕捉の優先順位を調整することを含む、請求項６に記載の方法。
前記１つ又は複数の音声通信を処理することが、前記１つ又は複数の音声通信の第２の音声通信の音量に対して、前記１つ又は複数の音声通信の第１の音声通信の音量を上げることを含む、請求項１に記載の方法。
前記１つ又は複数の音声通信を処理することが、前記１つ又は複数の音声通信の第２の音声通信の音量に対して、前記１つ又は複数の音声通信の第１の音声通信の音量を下げることを含む、請求項１に記載の方法。
前記１つ又は複数の音声通信を処理することが、１つ又は複数の音声通信をミュート又は排除することを含む、請求項１に記載の方法。
前記１つ又は複数の向上された音声通信が、関心のあるツール若しくは器具、又は前記関心のあるツール若しくは器具の使用法に対応する、請求項１に記載の方法。
前記１つ又は複数の向上された音声通信が、関心のある手術フェーズに対応する、請求項１に記載の方法。
前記１つ又は複数の向上された音声通信が、関心のある医師、外科医、医療ワーカ、販売業者の代表者、又は製品の専門家に対応する、請求項１に記載の方法。
コンピュータビジョン、自然言語処理、又は機械学習を使用して前記１つ又は複数のパラメータを検出することをさらに含む、請求項１に記載の方法。
前記１つ又は複数のパラメータを検出することが、前記１つ又は複数の音声通信に関連付けられた医療ツール又は器具を識別することを含む、請求項１に記載の方法。
前記医療ツール又は器具を識別することが、前記ツール又は器具を撮像すること、前記ツール又は器具に関連付けられた識別子をスキャンすること、又は前記ツール又は器具の情報を含む１つ又は複数の電磁波を受信することを含む、請求項１５に記載の方法。
音声通信を向上させるための方法であって、
（ａ）医療的処置に関連する複数の音声通信を受信することと、
（ｂ）関心のあるパラメータに対応する１つ又は複数のユーザ入力を受信することであって、前記関心のあるパラメータが前記医療的処置の１つ又は複数のステップの実行に関連する、受信することと、
（ｃ）前記複数の音声通信及び前記１つ又は複数のユーザ入力に基づいて、１つ又は複数の向上された音声通信を生成することと
を含む方法。
前記１つ又は複数のユーザ入力が、前記関心のあるパラメータのユーザ選択を含む、請求項１７に記載の方法。
前記関心のあるパラメータが、関心のある器具、専門家、代表者、医師、外科医、又は手術フェーズを含む、請求項１７に記載の方法。
前記１つ又は複数の向上された音声通信を生成することが、前記関心のあるパラメータに関連する１つ又は複数の音声チャンネルを隔離又は抽出することを含む、請求項１７に記載の方法。
前記１つ又は複数の向上された音声通信を生成することが、前記複数の音声通信の第２の音声通信の音量に対して前記複数の音声通信の第１の音声通信の音量を上げることを含む、請求項１７に記載の方法。
前記１つ又は複数の向上された音声通信を生成することが、前記複数の音声通信の第２の音声通信の音量に対して、前記複数の音声通信の第１の音声通信の音量を下げることを含む、請求項１７に記載の方法。
前記１つ又は複数の向上された音声通信を生成することが、１つ又は複数の音声通信をミュート又は排除することを含む、請求項１７に記載の方法。
前記１つ又は複数のユーザ入力が、関心のある音声チャンネルのマスターリストから関心のある音声チャンネルを選択することを含む、請求項１７に記載の方法。
前記１つ又は複数の向上された音声通信が、前記医療的処置に関連する１つ又は複数の動画を後処理して、関心のあるパラメータに関連する１つ又は複数の音声チャンネルを隔離、抽出、又は増強することによって生成される、請求項１７に記載の方法。
前記１つ又は複数の向上された音声通信が、前記医療的処置の複数の音声通信又は１つ又は複数の動画に関連付けられたメタデータに基づいて生成される、請求項１７に記載の方法。
前記１つ又は複数の向上された音声通信が、複数の音声チャンネルに対応する、請求項１７に記載の方法。
前記複数の音声チャンネルが、前記医療的処置をサポートする複数の医師、外科医、販売業者の代表者、又は製品の専門家に対応する、請求項２７に記載の方法。
前記複数の音声チャンネルが、前記医療的処置の１つ又は複数のステップを実行するために使用される複数の異なるツールに対応する、請求項２７に記載の方法。
前記複数の音声チャンネルが、前記医療的処置の複数の異なるステップ又はフェーズに対応する、請求項２７に記載の方法。
前記１つ又は複数の音声通信を処理することが、（ｉ）１つ又は複数の音声通信を向上させること、又は（ｉｉ）１人又は複数人のユーザに対して１つ又は複数の音声通信をミュート又は排除することを含む、請求項１に記載の方法。
前記１つ又は複数の音声通信が、放送事業者、緩和エンティティ、遠隔専門家、販売業者の代表者、又は前記１人又は複数人のユーザによって処理され、前記１人又は複数人のユーザが、手術動画又はその一部を視聴する少なくとも１人のユーザを含む、請求項３１に記載の方法。
前記複数の音声通信がそこから受信又は捕捉される領域の視野を追跡するために、１つ又は複数のカメラ又は撮像センサを使用することをさらに含む、請求項１７に記載の方法。
前記視野を１人又は複数人の遠隔参加者に伝送することをさらに含む、請求項３３に記載の方法。
１つ又は複数の関心のある音声ビーム又は領域が、前記１人又は複数人の遠隔参加者によって選択可能であり、前記１つ又は複数の関心のある音声ビーム又は領域が、（ｉ）前記複数の音声通信の少なくともサブセット、又は（ｉｉ）前記視野内の１つ又は複数の領域に対応する、請求項３４に記載の方法。
前記１つ又は複数の関心のある音声ビーム又は領域の選択が、現地で又は遠隔式に実行される、請求項３５に記載の方法。
１人若しくは複数人の関心のある個人又は１つ若しくは複数の関心のある領域を追跡又はタグ付けすることをさらに含む、請求項３３に記載の方法。
（ｉ）向上させる音声信号のセット、又は（ｉｉ）除去又は減衰させる音声信号のセットを選択することをさらに含む、請求項３７に記載の方法。
前記１人又は複数人の個人が前記１つ又は複数のカメラ又は撮像センサに対して移動するにつれて、前記１人若しくは複数人の関心のある個人又は１つ若しくは複数の関心のある領域を追跡することをさらに含む、請求項３７に記載の方法。
関心のある音声ビーム又は領域の選択が、前記医療的処置の開始前に予め登録される、請求項３６に記載の方法。
関心のある音声ビーム又は領域の選択が、前記医療的処置に関連する記録されたコンテンツに対して行われる、請求項３６に記載の方法。
音声通信を処理する方法であって、
（ａ）医療的処置に関連する、又は医療的処置を実行する１人又は複数人の個人から複数の音声通信を受信することと、
（ｂ）前記１人又は複数人の個人からの前記複数の音声通信の少なくともサブセットに基づいて、前記医療的処置に関連する１つ又は複数のツール、製品、又は器具を検出、認識、又は識別することと
を含む方法。
（ａ）が、前記複数の音声通信を受信するために、１つ又は複数のマイクロフォン又は前記１つ又は複数のマイクロフォンを含むマイクロフォンアレイを使用することを含む、請求項４２に記載の方法。
前記１つ又は複数のマイクロフォンが、前記複数の音声通信又はそのサブセット内の１つ又は複数のキーワードを検出するように構成される、請求項４３に記載の方法。
前記１つ又は複数のツール、製品、又は器具が、前記１つ又は複数のキーワードに基づいて識別される、請求項４４に記載の方法。
前記１つ又は複数のツール、製品、又は器具が、自然言語処理を使用して識別される、請求項４２に記載の方法。
前記自然言語処理が、前記複数の音声通信を分析するための１つ又は複数のアルゴリズムを使用して実施される、請求項４６に記載の方法。
前記１つ又は複数のアルゴリズムが、（ｉ）前記複数の音声通信を解釈し、（ｉｉ）どのツール又は製品が前記医療的処置を実行するために使用されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項４７に記載の方法。
前記１つ又は複数のアルゴリズムが、（ｉ）前記複数の音声通信を解釈し、（ｉｉ）どのツール又は製品が前記医療的処置を実行する医師又は外科医によって要求されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項４７に記載の方法。
前記１つ又は複数のアルゴリズムが、（ｉ）前記複数の音声通信を解釈し、（ｉｉ）どのような処置が実行されているか、又は前記処置のどのステップが実行されているかを判定するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項４７に記載の方法。
前記１つ又は複数のアルゴリズムが、（ｉ）前記複数の音声通信を解釈し、（ｉｉ）（ａ）前記処置の異なるステップ、（ｂ）前記処置の１つ又は複数のステップのタイミング、又は（ｃ）前記医療的処置を実行するために医師又は病院によってどのツール又は製品が使用されるか、をカタログ化するために、コンテキスト認識型の自然言語処理を実施するように構成される、請求項４７に記載の方法。
前記１つ又は複数のアルゴリズムが、前記複数の音声通信に対して自然言語処理を使用して、外科的処置におけるステップのタイミング、又は前記ツール、製品、若しくは器具の使用量若しくは使用頻度に関するデータを生成又は編集するように構成される、請求項４７に記載の方法。
前記１つ又は複数のアルゴリズムが、前記複数の音声通信に対して自然言語処理を使用して、前記自然言語処理を使用して識別される異なる処置又は処置ステップの成功率及び／又は失敗率を決定するように構成される、請求項４７に記載の方法。
前記１つ又は複数のアルゴリズムが、前記複数の音声通信に対して自然言語処理を使用して、前記自然言語処理を使用して識別される前記ツール、製品、又は器具を使用して実行される異なる処置の成功率及び／又は失敗率を決定するように構成される、請求項４７に記載の方法。