JP2024508641A

JP2024508641A - 音声制御式外科用システム

Info

Publication number: JP2024508641A
Application number: JP2023547087A
Authority: JP
Inventors: ティー．チャールズスティーブン; アール．ハレンポール
Original assignee: アルコンインコーポレイティド
Priority date: 2021-02-05
Filing date: 2022-02-01
Publication date: 2024-02-28
Also published as: WO2022167937A1; EP4287953A1; US20220249178A1

Abstract

本開示の特定の態様は、外科的セッティングにおいてデバイス及びシステムを制御するための音声制御式システムを提供する。音声制御式システムは、外科的セッティング内に分配された少なくとも１つのマイクロフォン及び少なくとも１つのラウドスピーカを含んで、手術スタッフからの音声コマンドを受信し、且つそれに音声で応答する。特定の態様では、少なくとも１つのマイクロフォン及び少なくとも１つのラウドスピーカは、能動的雑音低減、エコーキャンセレーション及び音源の方向決定を実施するように連係及び同期されるフェーズドマイクロフォンアレイ及びフェーズドラウドスピーカアレイを含む。音声制御式システムは、少なくとも１つのマイクロフォン及び少なくとも１つのラウドスピーカを通した手術スタッフとの音声による相互作用に基づいて、外科用デバイスの起動などのタスクを実施する。特定の態様では、音声制御式システムは、異なる手術スタッフからの自然言語コマンドを認識、解読及び優先順位付けするように構成され、且つデバイス設定及び手術スタッフプリセットの事前プログラミングを更に提供する。【選択図】図１

Description

優先権の主張
本出願は、発明者がＳｔｅｖｅｎＴ．Ｃｈａｒｌｅｓ及びＰａｕｌＲ．Ｈａｌｌｅｎである、２０２１年２月５日に出願された「ＶＯＩＣＥ－ＣＯＮＴＲＯＬＬＥＤＳＵＲＧＩＣＡＬＳＹＳＴＥＭ」という名称の米国仮特許出願第６３／１４６，１２６号明細書の優先権の利益を主張するものであり、あたかも本明細書に十分且つ完全に記載されているかのようにその全体が参照により本明細書に組み込まれる。

本開示は、概して、外科用デバイス及びシステムに関し、より具体的には、外科用デバイス及びシステムのための音声作動式制御システムに関する。

屈折白内障手術及び硝子体網膜手術などの眼科手術を含む多くの外科手術は、極めて困難であり、照明、手術台、顕微鏡、表示デバイス並びに外科用ツール及び／又はコンソールなどの手術室内の様々な装置を調整するために複数の手術スタッフメンバーを必要とする。複数の手術スタッフの存在により、外科医は、所望の装置を止めて設定を変更する必要なく、自らの作業を継続することが可能になる。しかしながら、複数の手術スタッフによる別個のデバイス又はシステムの同時で継目のない操作は、外科手術、特に眼科手術中の大きい課題である。更に、追加の人員は、手術費用と、床面積などの手術室内のリソースへの追加負担とを追加する一方、手術室内での汚染の危険性も増加させる。

近年、複雑な外科手術のいくつかの課題を軽減させるために音声作動式アプリケーションが利用されており、それにより、手術スタッフによる物理的相互作用を必要とすることなく、外科用デバイスの音声制御が可能になり、外科手術のために必要な人員数が低減される。それでも、現在の音声制御式外科用デバイス及びシステムは、デバイスを制御するための音声コマンドを提供する人員を認識、判別及び優先順位付けすることができないなどのいくつかの限界を有する。加えて、特定の例では、雑音が大きい手術室内でのマイクロフォンの数及び空間配置は、最適状態に及ばず、背景雑音及び音の明瞭性に関する問題に起因して、手術スタッフからの音声コマンドを検出しないか又は誤って解釈することにつながる。また更に、特定の例では、手術スタッフは、会話コマンド又は自然言語コマンドを使用するよりもむしろ、所望のデバイス機能を効果的に実行するために所定のコマンド入力シンタックスを学習しなければならない。

したがって、改善された音声制御式外科用システムが当技術分野で求められている。

本開示は、外科用デバイス及びシステムに関し、より具体的には、外科用デバイス及びシステムのための音声作動式制御システムに関する。

特定の実施形態によれば、外科用コマンドシステムが提供される。外科用コマンドシステムは、プロセッサと、外科手術環境内の音波を、プロセッサに中継される１つ以上のオーディオ入力信号に変換するように構成された１つ以上のマイクロフォンと、プロセッサから直接的又は間接的に受信された１つ以上のオーディオ出力信号に基づいて、外科手術環境内で音波を発生させるように構成された１つ以上のラウドスピーカと、プロセッサとデータ通信する、実行可能命令を含むメモリとを含む。プロセッサは、外科用コマンドシステムに、１つ以上のマイクロフォンから１つ以上のオーディオ入力信号を直接的又は間接的に受信することと、１つ以上のオーディオ入力信号において１つ以上のスピーチコマンドを識別することと、１つ以上のスピーチコマンドの少なくとも１つを外科手術環境内のユーザにマッピングすることと、１つ以上のスピーチコマンドの少なくとも１つに関連付けられた１つ以上のアクションを識別させることとを行わせるための命令を実行するように構成される。プロセッサは、１つ以上のアクションを外科用デバイスに示して、外科用デバイスに１つ以上のアクションを実施させることと、１つ以上のアクションに基づいて１つ以上のオーディオ出力信号を生成させることと、１つ以上のオーディオ出力信号に基づいて１つ以上のラウドスピーカに送出スピーチ応答を発生させることとを行うように更に構成される。

上記で記載した本開示の特徴を詳細に理解することができるように、上記で簡潔に要約した本開示のより具体的な説明を、実施形態を参照することによって得ることができ、そのいくつかを添付図面に示す。しかしながら、添付図面は、例示的な実施形態を示すにすぎないため、その範囲を限定するとみなされるべきではなく、他の同様に効果的な実施形態が認められ得ることに留意されたい。

本開示の特定の実施形態による音声制御式外科用コマンドシステムを有する外科的セッティングを示す。本開示の特定の実施形態による音声制御式外科用コマンドシステムの概略図を示す。本開示の特定の実施形態による図２の外科用コマンドシステムの例示的な構成要素を示す。

理解を促進するために、各図面に共通する同一の要素を示すために可能な限り同一の参照番号が使用される。一実施形態の要素及び特徴は、更なる説明を伴わずに他の実施形態に有益に組み込まれ得ることが企図される。

以下の説明では、開示する主題の理解を促進するために、詳細が例として述べられる。しかしながら、開示する実装形態が例であり、全ての可能な実装形態を網羅するものではないことは、当業者に明らかであるはずである。したがって、説明された例への言及は、本開示の範囲を限定することを意図するものではないことが理解されるべきである。説明されるデバイス、機器、方法に対する任意の変更形態及び更なる修正形態並びに本開示の原理の任意の更なる応用形態は、本開示が関連する技術分野の当業者が通常想到するであろうことが完全に想定される。特に、１つの実装形態に関して説明される特徴、構成要素及び／又はステップは、本開示の他の実装形態に関して説明される特徴、構成要素及び／又はステップと組み合わされ得ることが完全に想定される。

本開示の実施形態は、概して、眼科外科的セッティングなどの外科的セッティングでデバイス及びシステムを制御するための音声制御式システムに関する。特定の態様では、音声制御式システムは、１つ以上のフェーズドマイクロフォンアレイ（フェーズドマイクロフォンアレイは、フェーズドアレイにおいて配置された複数のマイクロフォンを指す）及び１つ以上のフェーズドラウドスピーカアレイ（フェーズドラウドスピーカアレイは、フェーズドアレイにおいて配置された複数のラウドスピーカを指す）を含む。特定の態様では、１つ以上のフェーズドマイクロフォンアレイは、外科的セッティングの全体にわたって分配されて、手術スタッフからの音声コマンドを識別し受信する。更に、１つ以上のフェーズドラウドスピーカアレイは、外科的セッティングの全体にわたって分配されて、音声応答及び他の可聴信号を手術スタッフに出力し得る。特定の態様では、１つ以上のフェーズドマイクロフォンアレイは、協調され、同期されて、能動的雑音低減、エコーキャンセレーション及び音源の指向性決定を実施する。特定の態様では、音声制御式システムは、主に、１つ以上のフェーズドマイクロフォン及びラウドスピーカアレイを介した手術スタッフとの会話又は自然言語による相互作用に基づいて、外科用デバイスの起動などのタスクを実施する。特定の態様では、音声制御式システムは、異なる手術スタッフからの口頭でのコマンドを解読、学習、認識及び優先順位付けするように構成され、且つデバイス設定及び手術スタッフプリセットの事前プログラミングを更に提供する。

本明細書で使用する場合、用語「外科的セッティング」は、外科手術が実施されるあらゆる環境を指すことができる。例えば、用語「外科的セッティング」は、外科的セッティングに関係する１人以上の外科医と手術スタッフとがいる手術室を指すことができる。

本明細書で使用する場合、用語「外科用システム」は、外科手術を実施するためのあらゆる外科用システム、コンソール又はデバイスを指すことができる。例えば、用語「外科用システム」は、外科用ツール又はシステム、例えば、水晶体超音波吸引術コンソール、レーザーシステム、撮像システム、眼内レンズ（ＩＯＬ）アライメントシステム、バイオメータ、光干渉断層解析（ＯＣＴ）マシン又は硝子体切徐コンソールを指すことができる。

本明細書に記載されるデバイス及びシステムは、眼科外科的セッティングを参照して一般的に記載されるが、本出願の範囲から逸脱することなく、他の外科的セッティングなどの他のセッティング及び状況で実装され得る。

本明細書で使用する場合、「約」という用語は、公称値からの±１０％の変動を指し得る。このような変動は、本明細書で提供されるいずれの値にも含まれ得ることを理解されたい。

図１は、本開示の特定の実施形態による、音声制御式外科用コマンドシステム１０２を有する外科的セッティング１００、例えば外科医１５０、１人以上の追加手術スタッフ及び患者１１２がいる眼科外科的セッティングの例を示す。図１には、１人の外科医１５０が示されているが、複数の外科医及び／又は手術スタッフが外科用コマンドシステム１０２を使用し得る。例えば、特定の実施形態では、外科助手及び／又は外回り看護師（すなわちサーキュレータ）も外科的セッティング１００内におり、外科用コマンドシステム１０２を利用することができる。

図示するように、外科用コマンドシステム１０２は、１つ以上の外科用システムと直接的又は間接的に通信する外科用コマンドコントローラ１０４、コンソール及び／又は外科的セッティング１００内の（例えば、インターネット化された外科用スイートに一体化された）デバイス、例えば手術台１２０、外科コンソール１２２、ヘッドアップディスプレイ１２４及び顕微鏡システム１２６を含む。外科用スイートに含まれ得る好適な外科用システムの例としては、外科用コンソールであって、コンソールの中でもとりわけ、硝子体網膜手術、白内障手術、角膜移植、緑内障手術、ＬＡＳＩＫ（レーザー角膜切削形成術）手術、屈折レンズ交換、柵状織切除及び屈折矯正手術を実施するためのコンソール、撮像デバイス、レーザーデバイス、診断デバイス及び当業者によって識別可能なアクセサリが挙げられる。

特定の実施形態では、外科用コマンドコントローラ１０４は、外科的セッティング１００内に物理的に配置された１つ以上の外科用システムに無線又は有線で通信する独立型デバイス又はモジュール（プロセッサ及びメモリを含む）である。しかしながら、特定の他の実施形態では、外科用コマンドコントローラ１０４は、外科的セッティング１００内に物理的に配置された外科用システムの１つ以上に一体化された１つ以上のプロセッサ及び／又はメモリを含む。例えば、外科用コマンドコントローラ１０４は、図１において仮想要素１０４で示すように、外科コンソール１２２、ヘッドアップディスプレイ１２４及び／又は顕微鏡１２６に一体化され得る。特定の態様では、外科用コマンドコントローラ１０４は、外科的セッティング１００内に物理的に配置された外科用システムの少なくとも１つに関連付けられたプロセッサが実行するように構成されたソフトウェア命令のセットを指す。特定の態様では、外科用コマンドコントローラ１０４の操作は、外科用コマンドコントローラ１０４に関連付けられ、部分的にプライベートクラウド又はパブリッククラウドにあるプロセッサにより部分的に実行され得る。

外科用コマンドシステム１０２は、フェーズドアレイ１３６で配置された１つ以上の複数のマイクロフォン１０６及びフェーズドアレイ１３８で配置された１つ以上の複数のラウドスピーカ１０８を更に含む。マイクロフォン１０６及びラウドスピーカ１０８は、外科用コマンドコントローラ１０４に無線又は有線で通信し、したがって、コントローラ１０４が、外科医１５０及び他の手術スタッフにより提供される音声コマンドを受信し、更に音声コマンドに対して、指向性のある可聴応答を生成することが可能になる。特定の実施形態では、マイクロフォン１０６及び／又はラウドスピーカ１０８は、外科的セッティング１００内において、音声コマンドを受信することになる所望のユーザ（例えば、外科医１５０、外科助手及び／又は外回り看護師）に極めて接近して分配される。しかしながら、特定の実施形態では、マイクロフォン１０６及び／又はラウドスピーカ１０８は、外科的セッティング１００内で広範囲に分散されて、外科的セッティング１００のより広いカバレッジを提供する。

外科用コマンドコントローラ１０４と同様に、マイクロフォン１０６及び／又はラウドスピーカ１０８は、独立型デバイスであり得るか、又は外科的セッティング１００内の１つ以上の他の外科用システムに物理的に一体化され得る。例えば、マイクロフォン１０６及び／又はラウドスピーカ１０８は、図１において仮想要素１０６及び１０８で示すように、外科コンソール１２２、ヘッドアップディスプレイ１２４及び／又は顕微鏡１２６の様々な構成要素に物理的に一体化され得る。特定の実施形態では、１つ以上のフェーズドマイクロフォンアレイ１３６が、指向性リスニングのために、外科的セッティング１００内の１人以上のユーザの方を向き（すなわち面し）、したがって雑音の多い環境での音声コマンドの捕捉及び識別中に望ましい音（すなわち音声コマンド）の集束及び望ましくない音の抑制が可能になる。例えば、特定の実施形態では、顕微鏡１２６は、外科医１５０の話を聞くための「前方に向いた」マイクロフォン１０６の少なくとも１つのセットと、手術スタッフメンバーの話を聞くための、前方に向いたマイクロフォン１０６に対して９０°又は１８０°に向いた「周辺」マイクロフォン１０６の少なくとも別のセットとを含み得る（例えば、外科手術中、外科助手は、顕微鏡１２６に対して外科医１５０から９０°又は１８０°の位置に位置する場合がある）。更なる実施形態では、マイクロフォン１０６の１つ以上のセットが、外科手術中に外科医１５０又は他の手術スタッフにより着用される外科用フェースマスク１３０、ヘッドセット、キャップ、小型マイク、バイザ、眼鏡又は他のアクセサリに物理的に一体化され得る。そのような実施形態では、マイクロフォン１０６は、使い捨てマイクロフォン又は交換可能な使い捨てフィルタと共に利用されるように構成された複合型の再利用可能及び使い捨てマイクロフォンであり得る。

マイクロフォン１０６及び／又はラウドスピーカ１０８は、指向性リスニング、音源局在化及び音声認識、指向性音声出力（例えば、テキストツースピーチ出力）並びに音声信号品質向上を促進するために、ビームフォーミング（例えば、ビームステアリング）を実施するためにフェーズドアレイに配置された任意の好適なマイクロフォン及び／又はラウドスピーカを含む。例えば、マイクロフォン１０６は、受信ビームフォーミング又は受信側ビームフォーミングを実施する一方、ラウドスピーカ１０８は、送信ビームフォーミング又は送信側ビームフォーミングを実施する。特定の実施形態では、フェーズドアレイ１３６で配置されたビームフォーミングマイクロフォン１０６は、外科用コマンドコントローラ１０４が、多くの発生源の中から所望の音源（例えば、音声コマンドを提供するユーザ）の位置を連続的に検出し局在化し、更に背景雑音、反響及び帰還を低減させるか又は無視しながら、発生源により放出された音波を捕捉し増幅して、信号雑音比及び音声認識精度を向上させることを可能にすることができる。例えば、典型的な眼科外科手術中、外科医１５０は、患者頭部の側部又は上部のいずれかで顕微鏡又は他の外科用デバイスの近くに座る一方、外科助手は、患者の頭部の側部の近くにおり、外回り看護師は、外科的セッティング１００内のいくつかの別々の場所を移動する。そのような例では、マイクロフォン１０６は、所与の音声コマンドが、上述した位置の１つに由来するものと検出することができ、それにより、外科用コマンドシステム１０２が、音声コマンドの発生源が外科医１５０、外科助手又は外回り看護師のいずれかであると識別することが可能になる。

更に、ラウドスピーカ１０８は、マイクロフォン１０６と同期して、外科用コマンドコントローラ１０４が、外科的セッティング１００内の所望のユーザに指向性可聴応答、出力、信号及び警報を出すことを可能にする。例えば、音声コマンドと、音声コマンドを発する外科医１５０、外科助手又は外回り看護師のいずれかの位置とを検出した時点で、外科用コマンドコントローラ１０４は、適宜、上述したユーザに向けて指向性のテキストツースピーチ応答を送信し得、これは、特定の実施形態では、ユーザの名前又は他の識別子の後であり得る。指向性応答は、ラウドスピーカ１０８から出力され、いくつかの例では、音声コマンドを発したユーザに向かって、ビームフォーミングを介して導かれ、それにより、コマンドを発したユーザが、例えば、その部屋にいる他の人と比較してより明瞭に応答を聞くことができる可能性が増加する。指向性応答は、コマンドを発したユーザにとっても有益である。なぜなら、その応答が、コマンドを発したユーザが対象にするシステム又はデバイスに由来するかのように思われ得るからである。したがって、応答及び他の出力の指向性により、外科的セッティング１００内の手術スタッフによる改善された聞き取りが促進され、更に、患者１１２からの応答を誘発する可能性又は患者１１２を心配させる可能性が低くなる。

更に、マイクロフォン１０６によって受信されるオーディオの質を向上させるために、マイクロフォン１０６、ラウドスピーカ１０８及び外科用コマンドコントローラ１０４が同期されて、能動的雑音低減（「ＡＮＲ」）が実施されて、加熱、換気及び冷却（ＨＶＡＣ）システム及び外科用システム並びに／又はコンピュータ冷却ファンによって生じる雑音などの連続的背景雑音が排除又は低減される。加えて、マイクロフォン１０６、ラウドスピーカ１０８及び外科用コマンドコントローラ１０４は、反響音抑制又はエコーキャンセレーションを同期的に実施して、外科医１５０及び／又は手術スタッフにより提供される音声コマンドをより明瞭に捕捉するように構成される。特定の実施形態では、外科的セッティング１００内のマイクロフォン１０６は、高周波音及び／又は低周波音に対して調整され、それぞれ独立して又は他のマイクロフォン１０６と組み合わせて利用され得る。同様に、外科的セッティング１００内のラウドスピーカ１０８は、それぞれ独立して又は他のラウドスピーカ１０８と組み合わせて利用され得る。

特定の実施形態では、外科的セッティング１００内で分配されるマイクロフォン１０６及び／又はラウドスピーカ１０８は、音楽を聞くため及び電話を掛けるため又は受けるために、外科医１５０及び／又は他の手術スタッフにより利用され得る。そのような実施形態では、マイクロフォン１０６及び／又はラウドスピーカ１０８は、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続を介してユーザ自身の（例えば、外科医の）モバイルデバイスに接続することができる。ユーザが電話を掛けるか又は受ける場合、外科用コマンドシステム１０２は、通話を優先し、ラウドスピーカ１０８を介して流れる音楽を自動的に消音し得る。

更なる実施形態では、外科用コマンドシステム１０２は、図１の手術台１２０上に横たわっているように示される患者１１２の方に向けられ、患者１１２の近傍に配置された、１つ以上のマイクロフォン１０６及び／又はラウドスピーカ１０８を含む。例えば、（個々のデバイス又はフェーズドアレイで配置された）１つ以上のマイクロフォン１０６及び／又はラウドスピーカ１０８は、手術台１２０、患者のヘッドレスト及び／又は外科手術中に患者１１２を覆うドレープ１１４の下に配置されるか又はそれらに一体化され得る。マイクロフォン１０６及び／又はラウドスピーカ１０８は、患者１１２と、外科医１５０、外科助手及び／又は外回り看護師などの外科的セッティング１００の内部又は外部の手術スタッフメンバーとの間の通信チャネルを提供して、それらの間における通信中の了解度を改善し、且つ聴力損失又は取り外された患者の補聴器に対処することができる。例えば、マイクロフォン１０６及び／又はラウドスピーカ１０８は、外科手術中、患者１１２に指示及び情報を提供するか又は患者１１２を落ち着かせるために、外科医１５０が患者１１２により明瞭に話すことを可能にし得る。特定の実施形態では、ラウドスピーカ１０８は、患者１１２に心地良い音楽を提供するために利用される場合があり、これにより患者１１２が手術スタッフメンバー間の会話を聞く機会が更に減る。そのような実施形態では、患者のための音楽は、外科医１５０及び／又は他の手術スタッフに提供される音楽とは別個のチャネルで提供され得、したがって外科的セッティング１００内の他のマイクロフォン１０６及び／又はラウドスピーカ１０８を介して電話を掛けている間又は受けている間に患者の音楽を継続することが可能になる。

上記では、マイクロフォン１０６及びラウドスピーカ１０８は、ビームフォーミングフェーズドアレイで配置されるように一般的に説明されているが、外科医１５０、外科助手、外回り看護師及び／又は患者１１２（例えば、ドレープ１１４の下）の近くに配置された個々の指向性マイクロフォン１０６及びラウドスピーカ１０８も本開示の範囲内にある。

図２及び図３を参照して以下で更に詳細に論じるように、外科用コマンドシステム１０２は、デバイス及び／又はシステムを操作するための１つ以上のアクションを実施するために、外科的セッティング１００内の１つ以上のデバイス及び／又はシステム（例えば、外科コンソール１２２、ヘッドアップディスプレイ１２４及び顕微鏡１２６）と（例えば、無線又は有線で）インターフェースする。そのアクションは、外科的セッティング１００内の外科医１５０又は他の手術スタッフにより提供される音声コマンドに基づくものであり、音声コマンドは、外科的セッティング内に分配された１つ以上のフェーズドマイクロフォンアレイ１３６により受信される。特定の実施形態では、外科用コマンドシステム１０２は、外科的セッティング１００内の様々なデバイス及び／又はシステムを制御すること（例えば、起動、停止、操作パラメータの変更など）、デバイス設定を調整すること、表示ダッシュボード（グラフィカルユーザインターフェイス（ＧＵＩ）／ヒューマンマシンインターフェース（ＨＭＩ））をナビゲートすること、診断デバイスを制御すること並びにラウドスピーカ１０８のフェーズドアレイを介して外科医１５０及び他の手術スタッフに警報及び／又は助言を提供することができる。スピーチ相互作用について、外科用コマンドシステム１０２は、基本的に「ハンズフリー」外科用システム制御を可能にし、したがって、既に他のタスクで手が塞がっている外科医１５０及び他の手術スタッフにとって必要な移動量及び／又は「ハンズオン」デバイス操作を減らすことにより、外科手術の効率を改善する。

図２は、本開示の特定の実施形態による、音声制御式外科用コマンドシステム１０２の概略的な動作ダイアグラム２００を示す。前述したように、外科用コマンドシステム１０２は、１人以上のユーザ２１０（例えば、外科医１５０及び／又は手術スタッフ）がいる手術室などの外科的セッティング１００内に配置され得る。外科手術中、ユーザ２１０は、音声コマンド２２０を発する。音声コマンドは、外科的セッティング１００内の他の音（例えば、周囲雑音、他のユーザからのスピーチ）と共に、外科用コマンドシステム１０２のフェーズドマイクロフォンアレイ１３６により捕捉される（例えば、拾われる）。音声コマンド２２０は、「起動」、「停止」、「増加」、「減少」などであるが、これらに限定されない単純な語句であり得るか、又は音声コマンドは、「１０％増加」、「１０％減少」、「左に１ミリメートル」、「右に１ミリメートル」などであるが、これらに限定されない複雑な語句又は文であり得るか、又は更により複雑な語句及び／又は文であり得る。特定の実施形態では、音声コマンド２２０は、層状コマンドアーキテクチャを有し、その場合、ユーザ２１０は、所望のシステム、所望のツール（例えば、デバイス）、所望のツールモード及び／又は例えばツールモードにある間にツールにより実施される所望のタスクを選択する。層状コマンドアーキテクチャ（例えば、システム、ツール、ツールモード及びタスク）の各層が命令（例えば、ソフトウェア命令）のセットに対応し得、命令は、手術中、対応する外科用システムに１つ以上のアクションを遂行させることができる。なお更なる実施形態では、音声コマンド２２０は、自然言語型の音声コマンド２２０であり、この音声コマンドは、以下で更に詳細に説明される、事前プログラミング有り又は無しの外科用コマンドコントローラ１０４の自然言語処理（ＮＬＰ）モジュールを介して解読される。

上述した例示的な音声コマンド２２０は、英語であるが、外科用コマンドコントローラ１０４は、英語、北京語、ヒンディー語、スペイン語、フランス語、アラビア語、ポルトガル語、ロシア語などを含むが、これら限定されない任意の数の好適な言語をサポートするように構成され得る点に留意されたい。

上述したように、フェーズドマイクロフォンアレイ１３６は、音声コマンド２２０の音波及び外科的セッティング１００内の他の音を受信し、音波を１つ以上のオーディオ入力信号２３０に変換し、オーディオ入力信号は、次いで、外科用コマンドシステム１０２の外科用コマンドコントローラ１０４に直接的又は間接的に中継される。外科用コマンドコントローラ１０４は、オーディオ入力信号２３０を受け取った時点で、スピーチ認識モジュールを介してオーディオ入力信号２３０における音声コマンド２２０を識別し、ユーザ２１０の位置検出及び／又はユーザ識別モジュールを介して音声コマンド２２０のソースを識別し、例えばＮＬＰモジュールを介して音声コマンド２２０を分析し、音声コマンド２２０をユーザ２１０（例えば、ユーザプロファイル）及びユーザ２１０のための定義済みの（例えば、ユーザ定義の）ルールセットにマッピングする。定義済みのルールセットは、音声コマンド２２０により示される所望のアクションを遂行するために、対応する外科用システムにどのような命令が送信されるかを決定する。特定の実施形態では、定義済みのルールセットは、特定の音声コマンドにより実行されるユーザ定義のアクション及びユーザが好むシステム設定、ツールモード、ツールサブモード、タスクパラメータ等を含み得る。複数のユーザが外科的セッティング１００内に存在し、外科用コマンドシステム１０２を同時に使用する場合があるため、外科用コマンドコントローラ１０４は、外科的セッティング１００内の各ユーザからの音声コマンドを識別（例えば、認識）し区別するように構成される。

音声識別は、１つ以上のビームフォーミングと、外科的セッティング１００内に分散されて音源局在化（すなわち位置検出）を容易にするフェーズドマイクロフォンアレイ１３６と、特定の状況における外科医１５０以外の手術スタッフのスピーチなどの望ましくない手術室雑音の抑制とによる指向性リスニングに部分的に起因して可能になる。加えて、外科用コマンドコントローラ１０４は、図３を参照して以下により詳細に説明するユーザ識別モジュールを更に含み、ユーザ識別モジュールは、ＮＬＰモジュールと協力して機能するものであり、音声認識による外科手術の前に事前プログラムされ得る。ユーザ識別モジュールの事前プログラミングは、外科用コマンドシステム１０２と、外科的セッティング１００内の１人以上のユーザとの間で開始される一連の短い自然言語会話を含み得、外科用コマンドコントローラ１０４は、１人以上のユーザの各々についてのスピーチパターンを学習する。その後の外科手術中、ユーザ識別モジュールは、フェーズドマイクロフォンアレイ１３６により拾い上げられた音声コマンド２２０に対してスピーチ認識アルゴリズムを実施して、学習したスピーチパターンに基づいて、音声コマンドの発生源（例えば、ユーザ）２１０を識別することができる。

各音声コマンドの発生源を識別する能力により、外科用コマンドコントローラ１０４が、コマンド及び／又はルールの所定のセットを保存して、それを各ユーザに関連させることが可能になり、コマンド及び／又はルールの各セットは、対応する装置により遂行されることになる命令の異なるセットに対応し得る。例えば、外科用コマンドコントローラ１０４が、特定のユーザ２１０によって発せられた音声コマンド２２０を分析し識別した後に、外科用コマンドシステムコントローラ１０４は、音声コマンド２２０を、外科的セッティング１００内の各システム及び／又はデバイスに関するプリセットシステム設定、ツールモード、ツールサブモード、タスクパラメータ等を含むことができるユーザ２１０に関する所定のルールセットにマッピングすることができる。特定の実施形態では、ユーザ２１０に関する所定のルールセットは、ユーザ２１０により発せられる単純な語句と、所定の命令の複雑なセットとの間の関連付けを含む。例えば、「表示反転」のような単純な語句が、ユーザ２１０が好む特定の色プリセットを伴う、ヘッドアップディスプレイ画像の反転を引き起こすことができる。各ユーザに関する所定のルールセットは、事前にプログラムされて、上述した音声認識事前プログラミングシーケンスと協力して、外科用コマンドコントローラ１０４内に保存され得、外科用コマンドコントローラ１０４は、各ユーザに関するスピーチパターンを学習する。例えば、音声認識及びユーザプリセットプログラミングシーケンスが協力している間、外科用コマンドシステム１０２は、最初に各ユーザに、名前及びユーザが対象にすることを希望するデバイスを述べるように要求し、所望のシステム及び／又はデバイスモード並びにユーザからの対応する音声コマンドに関連する数値パラメータの要求が続き得る。

各音声コマンドの発生源の識別は、外科用コマンドコントローラ１０４が、音声コマンドをランク付けし、特定のユーザからの音声コマンドを他のユーザよりも優先させることを更に可能にする。これは、複数のユーザが同時に又は短い時間枠内で音声コマンドを発するときに特に有益な場合がある。したがって、外科用コマンドコントローラ１０４は、音声コマンドを受信することができるユーザの所定のヒエラルキー（例えば、ユーザプロファイル）を保存し得、所定のヒエラルキーが利用されて、特定のユーザからの音声コマンドが他のユーザよりも優先される。代わりに、外科用コマンドコントローラ１０４は、優先権がないと判断されるユーザからの特定の音声コマンドを抑制し得る。

外科用コマンドコントローラ１０４は、音声認識の実施と協力して、音声コマンド２２０を分析して、その内容及びユーザ２１０の意図を決定する。特定の実施形態では、分析は、音声コマンド２２０を、ユーザ２１０によって事前プログラムされた１つ以上のコマンドと付き合わせることを含む。しかしながら、外科用コマンドシステム１０２は、ユーザ２１０との自然言語型の相互作用もサポートするので、より複雑な分析が外科用コマンドコントローラ１０４のＮＬＰモジュールにより実施されて、ユーザ２１０により発せられる複雑な自然言語を処理し、解読する（すなわち理解する）こともできる。したがって、外科用コマンドシステム１０２は、ユーザ２１０による事前プログラミング又は大規模なシンタックス訓練を必要とすることなく、その使用を容易にする。

音声コマンド２２０を分析しユーザ２１０にマッピングした後、外科用コマンドコントローラ１０４は、ユーザ２１０に関する所定のルールセットに基づく、音声コマンド２２０及びユーザ２１０に関連する１つ以上の命令を識別する。命令は、一般に、外科的セッティング１００内の１つ以上の外科用システム、例えば図１に示す手術台１２０、外科コンソール１２２、ヘッドアップディスプレイ１２４及び顕微鏡１２６により、１つ以上のアクションを実施又は開始させる。例えば、特定の実施形態では、アクションは、システム及び／又はデバイスモード選択、システム及び／又はデバイスパラメータ選択、システム及び／又はデバイス起動及び停止、外科用ツールの操作を制御するためのアクション、データ転送開始、データ呼び戻し、データ入力、患者プロファイル選択、外科手術パラメータ選択又は変更、ビデオ及び写真制御機能（例えば、記録、一時停止、停止、スナップショット）、ディスプレイ制御機能（例えば、画像反転、カラープリセット選択）、手術ノートディクテーション制御機能（例えば、記録、停止、保存、削除）、電話制御機能（例えば、電話に応答するか又は電話を掛ける）並びに他の手続き的機能を含む。眼科外科手術の場合、アクションは、注入システム制御、レーザー（例えば、網膜レーザー）パラメータ選択又は変更等を介する眼圧制御も含み得る。

図２に示すように、外科用コマンドコントローラ１０４は、任意選択で、音声コマンド２２０に関連するアクションの識別又は非識別に基づいて、１つ以上のオーディオ出力信号２４０を生成し得、このオーディオ出力信号は、フェーズドラウドスピーカアレイ１３８に直接的又は間接的に中継される。オーディオ出力信号２４０は、複数のラウドスピーカ１０８により、外科用コマンドコントローラ１０４によりアクションが識別されたか又は識別されなかったかを確認する可聴応答２５０を形成する音波に変換される。例えば、特定の実施形態では、ラウドスピーカ１０８は、応答２５０を生成し得、応答は、識別されたアクションの概要（例えば、単純若しくは複雑な語句での）を含むか、音声コマンド２２０の単純な復唱を含むか、又はユーザ２１０への更なる情報、明確化若しくは検証の要求を含み、その要求に対して、ユーザ２１０は、他の音声コマンドで応答し得る。特定の実施形態では、応答２５０は、識別されたアクションが正しいことを確認又は検証することをユーザ２１０に要請することを含み得る。なお更なる実施形態では、応答２５０は、音声コマンド２２０が明瞭に受信されなかったこと及び／又はアクションが外科用コマンドコントローラ１０４により識別されなかったことをユーザ２１０に知らせ得る。前述したように、ラウドスピーカ１０８は、応答２５０を外科的セッティング１００内の所望のユーザに導くように配置され構成された任意の好適なビームフォーミングラウドスピーカを含む。したがって、応答２５０の音波（すなわち音の波面）は、ユーザ２１０に向かって直接的に導かれ得、それにより、音声コマンドを発したユーザ２１０にとって、応答２５０を聞き、音声コマンド２２０を確認、修正、明確化又は更に補足する能力が改善される。特定の実施形態では、先行する音声コマンド２２０が対象にした外科用システムに応答が由来しているかのように思われるように、応答２５０もビームフォーミングにより導かれ得る。

特定の態様では、任意選択の応答２５０を提供することに続いて、外科用コマンドコントローラ１０４は、識別されたタスクに対応し、ユーザ２１０に関する所定のコマンド及び／又はルールのセットに基づく、命令２６０を生成する。命令２６０は、その実行のために識別されたタスクに関連する１つ以上の所望の外科用システム２７０に直接的又は間接的に提供される。したがって、命令２６０は、外科用コマンドコントローラ１０４によって識別されたタスクを、適切な外科用システム２７０に示し、識別されたアクションを外科用システム２７０に実施させ、それにより音声コマンド２２０の目的を果たす。命令２７０は、別個の外科用システム２７０又は図２に示すように単一のコンソール２７２内に一体化された外科用システム２７０に提供され得る。特定の実施形態では、命令２６０の単一のセットは、１つ以上のアクションを複数の外科用システム２７０に同時に又は逐次的に実行させ得る。

特定の実施形態では、外科用コマンドシステム１０２は、識別されたアクション中に又はその後に、外科的セッティング１００内の１つ以上の外科用システムとユーザ２１０との間の通信を促進するフィードバック機構を更に含む。例えば、特定の実施形態では、外科用コマンドコントローラ１０４は、オーディオ出力信号２８０を生成し得、オーディオ出力信号は、複数のラウドスピーカ１０８により可聴応答２９０に変換され、可聴応答は、警告警報、警報、進展又は状況インジケータ及び外科的セッティング１００内の外科用システムによるアクションの実施に関連する任意の他の情報をユーザ２１０に伝達し得る。

本明細書で開示される構成要素及びシステムを含めることにより、外科的セッティングを、音声作動式アプリケーションにより、高い信頼性を伴って少なくとも部分的に制御することができ、したがって、外科手術の実施中に外科用システムのハンズフリー操作が提供される。開示された実施形態は、外科医が、外科用システムの様々な機能を制御することを、そうするために外科手術を止める必要なく可能にする。更に、外科用デバイスを操作するために必要な物理的相互作用の量を減らすことにより、外科手術に必要な人員の数を減らすことができる一方、人員が外科用システムに触れることにより生じる細菌及びウィルス感染（例えば、汚染）の潜在的危険率も低下させることができる。

本開示の実施形態は、有益には、システムを全体的に使用することで外科的セッティングの音声制御を提供する。音声制御は、外科用システムのコントローラ内のプロセッサ及びメモリを使用する部分であって、特定の実施形態による図１～図２の外科用コマンドシステムの例示的な構成要素を示す図３に示すようなものである。

図３は、図１～図２の外科用コマンドシステム１０２の様々な構成要素がどのように一緒に通信し、動作するかを示す例示的な図を示す。図示するように、外科用コマンドシステム１０２は、外科用コマンドコントローラ１０４、マイクロフォン１０６及びラウドスピーカ１０８を含むが、これらに限定されない。外科用コマンドコントローラ１０４は、相互接続部３１０と、データ通信ネットワーク３５０との接続のためのネットワークインターフェース３１２と、様々なＩ／Ｏデバイス（例えば、マイクロフォン１０６、ラウドスピーカ１０８及び外科用システム２７０）を外科用コマンドコントローラ１０４に接続することを可能にする少なくとも１つのＩ／Ｏデバイスインターフェース３１４とを含む。外科用コマンドコントローラ１０４は、中央処理装置（ＣＰＵ）３１６と、メモリ３１８と、ストレージ３２０とを更に含む。ＣＰＵ３１６は、メモリ３１８に存在するアプリケーションデータを取得して保存し得る。相互接続部３１０は、ＣＰＵ３１６、ネットワークインターフェース３１２、Ｉ／Ｏデバイスインターフェース３１４、メモリ３１８及びストレージ３２０などの間でプログラミング命令及びアプリケーションデータを伝送する。ＣＰＵ３１６は、単一のＣＰＵ、複数のＣＰＵ、複数の処理コアを有する単一のＣＰＵ等を表し得る。加えて、メモリ３１８は、ランダムアクセスメモリを表す。

ストレージ３２０は、ディスクドライブであり得る。ストレージ３２０は、単一のユニットとして示されているが、固定ディスクドライブ、着脱式メモリカード若しくは光学ストレージ、ネットワーク接続ストレージ（ＮＡＳ）又はストレージエリアネットワーク（ＳＡＮ）など、固定式又は着脱式ストレージデバイスの組み合わせであり得る。更に、ストレージ３２０は、ユーザプリセット３３４を含む外科的セッティング内において、ユーザの訓練済み音声モデル３３２を含み得る。ユーザプリセット３３４は、外科的セッティングにおける各ユーザに関連する別々のルールセットを含み、このルールセットは、外科用コマンドシステム１０２により適用されて、ユーザによる音声コマンドに応答して、対応するシステム及び／又はデバイスにより遂行される命令を生成する。

メモリ３１８は、命令を含むコマンドモジュール３２２を含み、命令は、プロセッサにより実行されると、本明細書の実施形態で説明されるように、外科用コマンドシステム１０２を制御するための操作を実施する。例えば、本明細書に記載される実施形態によれば、メモリ３１８は、マイクロフォン１０６から受信されたオーディオ入力信号における音声コマンドなどの言葉を認識する（すなわち識別する）ための実行可能命令を含むスピーチ認識モジュール３２４を含む。加えて、メモリ３１８は、音声モデルトレーナ３３０を有するユーザ識別モジュール３２６を含む。ユーザ識別モジュールは、音声コマンドを事前プログラミングし、ユーザのスピーチパターンを学習し、且つスピーチ認識モジュール３２４によって識別されたスピーチを対応するユーザにマッピングするための実行可能命令を含む。メモリ３１８は、自然言語音声コマンドを分析し、解読する（例えば、自然言語をタスクにマッチングする）ための実行可能命令を含む自然言語処理（ＮＬＰ）モジュール３２８を更に含む。更に、メモリ３１８は、スピーチ認識モジュール３２４から受信された情報に基づいてオーディオ出力信号を生成して外科用コマンドシステム１０２とユーザとの間の双方向通信を可能にするための実行可能命令を含む応答モジュール３３２を含む。

本明細書において使用される場合、項目のリスト「～の少なくとも１つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。例として、「ａ、ｂ又はｃの少なくとも１つ」は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ及びａ－ｂ－ｃ並びに複数の同じ要素の任意の組み合わせ（例えば、ａ－ａ、ａ－ａ－ａ、ａ－ａ－ｂ、ａ－ａ－ｃ、ａ－ｂ－ｂ、ａ－ｃ－ｃ、ｂ－ｂ、ｂ－ｂ－ｂ、ｂ－ｂ－ｃ、ｃ－ｃ並びにｃ－ｃ－ｃ又はａ、ｂ及びｃの他の任意の順序）を網羅することが意図される。

前述の説明は、いかなる当業者も本明細書に記載される様々な実施形態を実践できるようにするために提供されている。これらの実施形態に対する様々な修正形態が当業者に容易に明らかであり、本明細書で定義する一般的な原理は、他の実施形態に適用され得る。したがって、特許請求の範囲は、本明細書に示す実施形態に限定されることを意図されるものではなく、特許請求の範囲の文言と整合する全範囲が認められるべきである。

特許請求の範囲において、単数形での要素への言及は、具体的にそのような定めがない限り、「１つ及び１つのみ」を意味することを意図するものではなく、むしろ「１つ又は複数」を意味するものである。具体的に別段の定めがない限り、「いくつかの」という用語は、１つ又は複数を指す。当業者に知られているか又は後に知られることになる、本開示全体を通して説明した様々な態様の要素に対する全ての構造的及び機能的均等物は、本明細書に参照により明示的に組み込まれ、特許請求の範囲に包含されることが意図される。更に、本明細書に開示されるものは、そのような開示が特許請求の範囲に明示的に列挙されているか否かにかかわらず、公衆に献呈されることが意図されるものではない。特許請求の範囲のいかなる要素も、要素が「～するための手段」という語句を使用して明示的に列挙されない限り、米国特許法第１１２条（ｆ）の規定に基づいて解釈されるべきでないか、又は方法請求項の場合、要素は、「～するためのステップ」という語句を使用して列挙される。本明細中で使用する場合、「例示的」という語は、「例、事例又は実例として機能すること」を意味する。本明細書で「例示的」として記載されるいかなる態様も、必ずしも他の態様よりも好ましいか又は有利であると解釈されるべきではない。

Claims

外科用コマンドシステムであって、
プロセッサに結合され、且つ外科手術環境内の音波を１つ以上のオーディオ入力信号に変換するように構成された１つ以上のマイクロフォン、
前記プロセッサに結合され、且つ前記プロセッサから直接的又は間接的に受信された１つ以上のオーディオ出力信号に基づいて、前記外科手術環境内で音波を発生させるように構成された１つ以上のラウドスピーカ、
実行可能命令を含むメモリ
を含み、及び前記プロセッサは、前記メモリとデータ通信し、且つ前記実行可能命令を実行して、前記外科用コマンドシステムに、
前記１つ以上のマイクロフォンから前記１つ以上のオーディオ入力信号を直接的又は間接的に受信することと、
前記１つ以上のオーディオ入力信号において１つ以上のスピーチコマンドを識別することと、
前記１つ以上のスピーチコマンドの少なくとも１つを前記外科手術環境内のユーザにマッピングすることと、
前記１つ以上のスピーチコマンドの前記少なくとも１つに関連付けられた１つ以上のアクションを識別することと、
前記１つ以上のアクションを外科用デバイスに示して、前記外科用デバイスに前記１つ以上のアクションを実施させることと、
前記１つ以上のアクションに基づいて、前記１つ以上のオーディオ出力信号を生成させることと、
前記１つ以上のオーディオ出力信号に基づいて、前記１つ以上のラウドスピーカに送出スピーチ応答を発生させることと
を行わせるように構成される、外科用コマンドシステム。
前記１つ以上のオーディオ入力信号における前記１つ以上のスピーチコマンドの発生源の場所を決定するように更に構成される、請求項１に記載の外科用コマンドシステム。
前記発生源の前記場所は、前記１つ以上のスピーチコマンドを前記ユーザにマッピングするために利用される、請求項２に記載の外科用コマンドシステム。
前記プロセッサにより、更に前記１つ以上のマイクロフォンからの前記１つ以上のオーディオ入力信号における連続的な周囲雑音を能動的に低減するようにされる、請求項１に記載の外科用コマンドシステム。
前記プロセッサにより、更に前記１つ以上のマイクロフォンからの前記１つ以上のオーディオ入力信号に対してエコーキャンセレーションを実施するようにされる、請求項１に記載の外科用コマンドシステム。
前記１つ以上のアクションは、外科用デバイス選択、モード選択及びタスク選択の１つ以上を含む、請求項１に記載の外科用コマンドシステム。
前記１つ以上のアクションは、前記ユーザに関連付けられ、且つ前記プロセッサがアクセス可能なユーザプロファイルに少なくとも部分的に基づいて識別される、請求項１に記載の外科用コマンドシステム。
前記ユーザプロファイルは、異なるスピーチコマンドへの異なるアクションのマッピングを含み、前記マッピングは、前記異なるアクションの１つ以上と、前記異なるスピーチコマンドの１つ以上との間のマッピングを含む、請求項７に記載の外科用コマンドシステム。
前記プロセッサが、前記１つ以上のスピーチコマンドの前記少なくとも１つを前記ユーザにマッピングするように構成されることは、前記プロセッサが、前記１つ以上のスピーチコマンドの各々を、前記ユーザを含むユーザのグループ内の対応するユーザにマッピングするように構成されることを更に含み、
前記プロセッサは、前記ユーザのグループの所定のヒエラルキーに基づいて、前記１つ以上のスピーチコマンドの前記少なくとも１つ及び／又は前記１つ以上のアクションを優先順位付けするように更に構成され、前記所定のヒエラルキーは、前記ユーザについて、前記１つ以上のスピーチコマンドに関連付けられた他のユーザと比較してより高いランクを示す、請求項１に記載の外科用コマンドシステム。
前記送出スピーチ応答は、前記外科用デバイスに示される前記１つ以上のアクションの通知を含む、請求項１に記載の外科用コマンドシステム。
前記送出スピーチ応答は、前記識別された１つ以上のスピーチコマンドにマッピングされた前記ユーザの方向において前記１つ以上のラウドスピーカから中継される、請求項１０に記載の外科用コマンドシステム。
前記１つ以上のラウドスピーカは、フェーズドラウドスピーカアレイにおいて配置された複数のラウドスピーカを含む、請求項１に記載の外科用コマンドシステム。
前記フェーズドラウドスピーカアレイは、前記外科手術環境内の音波を送信するための送信ビームフォーミングを実施するように配置される、請求項１２に記載の外科用コマンドシステム。
前記１つ以上のマイクロフォンは、フェーズドマイクロフォンアレイにおいて配置された複数のマイクロフォンを含む、請求項１に記載の外科用コマンドシステム。
前記フェーズドマイクロフォンアレイは、前記外科手術環境内の音波を受信するための受信ビームフォーミングを実施するように配置される、請求項１４に記載の外科用コマンドシステム。
前記１つ以上のマイクロフォンは、前記外科手術環境内の前記ユーザによって着用される外科用マスク内に位置する、請求項１に記載の外科用コマンドシステム。