JP5326066B1

JP5326066B1 - 内視鏡手術システム

Info

Publication number: JP5326066B1
Application number: JP2013518032A
Authority: JP
Inventors: 頼人前田
Original assignee: Olympus Medical Systems Corp
Current assignee: Olympus Medical Systems Corp
Priority date: 2011-10-25
Filing date: 2012-10-18
Publication date: 2013-10-30
Anticipated expiration: 2032-10-18
Also published as: US8903728B2; CN103460281A; EP2665059A1; JPWO2013061857A1; EP2665059B1; EP2665059A4; WO2013061857A1; CN103460281B; US20130281987A1

Abstract

内視鏡手術システム３において、記憶部５０は、内視鏡手術の術者及び手技ごとに、周辺機器を制御するためのコマンド及びコマンドのそれぞれが有効か無効かを対応付けて記憶する。表示Ｉ／Ｆ５１は、術者及び手技の指定を受け付ける。入力音声信号変換部６２は、入力された音声を認識して文字列化する。音声認識判定部５９は、記憶部５０を参照して、入力音声信号変換部６２において得た文字列が、表示Ｉ／Ｆ５１により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する。制御部４１は、音声認識判定部５９により無効と判定されたコマンドについては、対応する周辺機器への送信処理を停止する。

Description

本発明は、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムに関する。

内視鏡装置を使用する内視鏡手術では、術者が体腔内に挿入された処置具を両手に持って処置を行うのが一般的である。術者が手術中に周辺機器のパラメータ等の変更を行いたい場合には、助手等に非減菌域にある操作パネル等の操作を依頼するか、あるいは、術者の手元（減菌域）に設けられているスイッチ等を押すことで操作可能なこともある。しかし、他者に操作を委ねずに術者自身が微妙な調整を行いたい場合や、処置具の位置や向きにより操作が行いにくい場合がある。

このような問題を解決する手段として、内視鏡手術システムにおいて音声認識機能を備え、術者が音声にて入力したコマンドに基づき、周辺機器のパラメータ変更等を実現する技術がある（例えば、特許文献１）。

例えば特許文献１に開示されている技術においては、パターン認識をベースに音声認識を行っている。すなわち、予め音声コマンドをシステムに登録しておき、術者が発声した音声コマンドを登録されている音声コマンドと比較する。術者により入力された音声コマンドと登録されている音声コマンドとが互いに一致した場合には、その音声コマンドを認識する。

音声認識技術に関しては、例えば、入力された音声のレベルデータ（声の大きさ）を１回前に取得されているレベルデータとの差分を算出し、差分と基準値との比較結果に応じた処理を行う技術について開示されている（例えば、特許文献２）。また、音素認識したデータに対して認識実験を行い、認識率を計測する技術についても開示されている（例えば、特許文献３）。音声で入力した内容を音声認識処理する技術に関して、最初の文字と文字数とから利用者が音声入力した名詞を特定する技術についても開示されている（例えば、特許文献４）。

特許文献１：特開２００２−１２３２９１号公報
特許文献２：特開２００４−１９９００４号公報
特許文献３：特開平０７−１４６６９６号公報
特許文献４：特開２００３−２２８３９４号公報

従来における音声認識技術によれば、術者は、登録されているとおりにコマンドの発声を行わないと、コマンドの非認識や誤認識が発生してしまう。つまり、音声コマンドを発する術者によってはシステムにおいてコマンドが認識されにくくなったり、コマンドの種類によっては他のコマンドと音が類似しているために、術者が意図したコマンドとは別のコマンドが認識されてしまう、という問題が発生したりする。しかし、手術の現場で音声操作をする際には、誤認識による誤操作の影響が非常に大きいため、必ず避けなければならない。

本発明の態様のひとつである内視鏡手術システムは、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、前記術者及び手技の指定を受け付ける指定部と、入力された音声を認識して文字列化する変換部と、前記記憶部を参照して、前記変換部において得た文字列が、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、前記判定部により無効と判定されたコマンドについては、対応する周辺機器への送信処理を停止する送信部とを備えることを特徴とする。

また、本発明の他の態様の一つである内視鏡手術システムは、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、前記術者及び手技の指定を受け付ける指定部と、入力された音声を認識して文字列化する変換部と、前記記憶部を参照して、前記変換部において得た文字列が、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部とを備えることを特徴とする。

また、本発明の他の態様の一つである内視鏡手術システムは、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、内視鏡手術を行う部屋を識別する情報を受け付ける指定部と、入力された音声を認識して文字列化する変換部と、前記記憶部を参照して、前記変換部において得た文字列が、前記指定部により指定された部屋については有効と設定されているコマンドと一致するか否かを判定する判定部と、前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部とを備えることを特徴とする。

本発明によれば、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムにおいて、使用しないコマンドを無効にすることで、誤って入力された音声コマンドの検出を避け、コマンドの誤認識による機器の誤操作を効果的に防止することが可能となる。

第１の実施形態に係る内視鏡手術システムの全体構成図である。第１の実施形態に係るシステムコントローラのブロック図である。第１の実施形態に係る制御部の機能ブロック図である。音声認識コマンドの有効／無効を登録する方法を説明する図である。術者情報及び手技情報ごとに設定した音声操作設定情報を例示する図である。術者情報、手技情報及びシーンごとに設定した音声操作設定情報を例示する図である。第１の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。操作パネルに表示する画面例を示す図（その１）である。操作パネル２１に表示する画面例を示す図（その２）である。第２の実施形態に係る音声信号の波形より得た文字列について音声認識判定を行う方法について説明する図である。第２の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。第３の実施形態に係る制御部の機能ブロック図である。第３の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。第４の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。
＜第１の実施形態＞
図１は、本実施形態に係る内視鏡手術システムの全体構成図である。図１に示す内視鏡手術システム３は、手術室２に、患者４８が横たわる患者ベッド１０と共に配置される。内視鏡手術システム３は、第１カート１１及び第２カート１２を有し、それぞれ内視鏡手術に使用する機器等を搭載している。

第１カート１１は、電気メス装置１３、気腹装置１４、内視鏡用カメラ装置１５、光源装置１６及びビデオテープレコーダ（以下ＶＴＲとする）１７等の装置類、及びガスボンベ１８を載置する。

内視鏡用カメラ装置１５は、カメラケーブル３１ａを介して第１の内視鏡３１に接続される。

光源装置１６は、ライトガイドケーブル３１ｂを介して第１の内視鏡に接続される。

ＶＴＲ１７は、第１の内視鏡３１等において取得した内視鏡像の記録等を行う。

ガスボンベ１８は、内視鏡手術において使用するための二酸化炭素等のガスが充填されている。

電気メス装置１３、気腹装置１４は、内視鏡手術に使用される医療機器であり、これらの機器は、接続されているシステムコントローラ２２からの操作コマンドにしたがって、パラメータの変更等の制御が可能に構成されている。

また、第１カート装置１１は、表示装置１９、（第１）集中表示パネル２０、操作パネル２１等を載置する。

表示装置１９は、内視鏡像等を表示するための装置であり、例えばテレビモニタを使用する。集中表示パネル２０は、内視鏡手術システム３において取り扱うあらゆるデータを選択的に表示させることが可能な表示手段である。操作パネル２１は、例えば液晶ディスプレイ等の表示部と、表示部上に一体的に設けられたタッチセンサ等とから構成され、非減菌域（不潔域）にいる看護師等が内視鏡手術システム３の各周辺機器等を操作する集中操作装置である。

更に、第１カート装置１１は、システムコントローラ２２を載置する。システムコントローラ２２は、前述のとおり、内視鏡手術システム３に接続される各種の周辺機器の制御を行う。図１の構成例では、システムコントローラ２２は、電気メス１３、気腹装置１４、内視鏡用カメラ装置１５、光源装置１６及びＶＴＲ１７と不図示の通信線を介して接続されている。システムコントローラ２２には、ヘッドセット型のマイク３３が接続可能となっている。システムコントローラ２２は、マイク３３から入力された術者の音声によるコマンドの入力を認識し、認識したコマンドにしたがって、接続されている各種周辺機器に操作コマンドを送信して、周辺機器を制御する。

また、ＲＦＩＤ（Radio Frequency IDentification）端末３５は、第１カート１１に設けられ、第１の内視鏡３１や電気メス１３等の処置具等に埋め込まれているＩＤ（IDentification）タグから個体識別情報の無線での読み取り／書き込みを行う。

第２カート１２は、内視鏡用カメラ装置２３、光源装置２４、画像処理装置２５、表示装置２６及び（第２）集中表示パネル２７を載置する。

内視鏡用カメラ装置２３は、カメラケーブル３２ａを介して第２の内視鏡３２に接続される。

光源装置２４は、ライトガイドケーブル３２ｂを介して第２の内視鏡３２に接続される。

表示装置２６は、内視鏡用カメラ２３でとらえた内視鏡画像を表示するための装置であり、例えばテレビモニタを使用する。集中表示パネル２７は、内視鏡手術システム３において取り扱うあらゆるデータを選択的に表示させることが可能な表示手段である。

内視鏡用カメラ装置２３、光源装置２４及び画像処理装置２５は、第２カート１２に載置された中継ユニット２８に不図示の通信線を介して接続されている。中継ユニット２８は、中継ケーブル２９によって上述のシステムコントローラ２２に接続されている。

このように、システムコントローラ２２は、第１カート１１に載置されている電気メス装置１３、気腹装置１４、内視鏡用カメラ装置１５、光源装置１６及びＶＴＲ１７や、第２カート１２に載置されている内視鏡用カメラ装置２３、光源装置２４及び画像処理装置２５の集中制御を行う。このため、システムコントローラ２２とこれら装置との間で通信が行われているときは、システムコントローラ２２は、操作パネル２１の液晶ディスプレイに、接続中の装置の設定状態や操作スイッチ等の設定画面を表示することができるように構成されている。システムコントローラ２２は、所望の操作スイッチが触れられて所定の領域のタッチセンサが操作されることにより、設定値の変更等の操作入力を行える構成となっている。

リモートコントローラ３０は、減菌域にいる術者である執刀医等が操作する第２の集中操作装置である。リモートコントローラ３０は、システムコントローラ２２を介して、システムコントローラ２２が通信中の他の装置の操作を制御する。

なお、システムコントローラ２２は、ケーブル９を介して患者モニタシステム４と接続されている。システムコントローラ２２は、患者モニタシステム４において保持する生体情報を解析し、解析結果を所望の表示装置に表示させることができる。

また、システムコントローラ２２には、図１においては不図示の赤外線通信ポート等の通信手段が設けられている。赤外線通信ポート等の通信手段は、例えば表示装置１９等の近傍であって、赤外線が照射しやすい位置に設けられ、システムコントローラ２２との間は、ケーブルにより接続されている。

図１に示す内視鏡手術システム３のシステムコントローラ２２は、マイク３３を介して術者が入力した音声より、所定の周辺機器を制御するための音声コマンドが入力されたと判断すると、対応する操作コマンドを周辺機器に対して送信する。入力された音声に対して音声コマンドが入力されたか否かを判定するときに、予め音声コマンドとして「有効」と設定されている音声コマンドについてのみ、音声認識を行い、対応する操作コマンドを周辺機器に送信する。

以下に、本実施形態に係る内視鏡手術システム３のシステムコントローラ２２により入力された音声に対して音声認識を行って周辺機器に操作コマンドを送信し、制御を行う方法について具体的に説明する。

なお、以下の説明においては、入力された音声に対して、周辺機器を操作するための音声コマンドと認識されるものを「音声認識コマンド」とし、周辺機器に対して通信線を介して送信するコマンドを「操作コマンド」としている。

図２は、本実施形態に係るシステムコントローラ２２のブロック図である。図２に示すシステムコントローラ２２は、通信インタフェース（以下通信Ｉ／Ｆとする）４０、Ａ／Ｄ変換部４５、表示インタフェース（以下表示Ｉ／Ｆとする）５１、記憶部５０及び制御部４１を有する。

Ａ／Ｄ変換部４５は、システムコントローラと接続されているマイク３３から入力されたアナログの音声信号を、デジタル信号に変換する。

表示Ｉ／Ｆ５１は、操作パネル２１にＧＵＩ（Graphical User Interface）を表示させ、操作パネル２１からの利用者によるタッチ操作の信号を制御部４１に渡すときのインタフェースである。表示Ｉ／Ｆ５１は、例えば内視鏡手術システム３を利用する術者や術者が用いる手技等の指定を受け付ける。

通信Ｉ／Ｆ４０は、内視鏡用カメラ装置１５、光源装置１６、気腹装置１４及び電気メス装置１３等の周辺機器との間の通信インタフェースである。図２においては、図１でシステムコントローラ２２に直接接続されている装置のみを記載し、中継ケーブル２９、中継ユニット２８を介して接続されている装置については記載を省略している。

制御部４１は、通信Ｉ／Ｆ４０を介して内視鏡用カメラ装置１５等の接続されている装置（周辺機器）のパラメータを取得して、表示Ｉ／Ｆ５１を介して操作パネル２１に表示させる。また、制御部４１は、表示Ｉ／Ｆ５１において受け付けた操作パネル２１のタッチ操作の信号やＡ／Ｄ変換部４５から入力される音声信号に基づき、通信Ｉ／Ｆ４０を介して操作コマンドを送信して、周辺機器を制御する。制御部４１は、マイク３３から音声認識コマンドが入力されたことを認識した場合には、対応する操作コマンドを表示Ｉ／Ｆ５１を介して操作パネル２１に表示させる。そして、制御部４１は、操作コマンドに基づき、通信Ｉ／Ｆ４０を介して周辺機器の制御を行う。

記憶部５０は、制御部４１が周辺機器の制御等を実行するために必要な情報を記憶する。具体的には、Ａ／Ｄ変換部４５を介して入力された音声信号から得た文字列と比較するための音声認識コマンドや、術者や手技を識別する情報、並びに音声認識コマンドと対応付けて、音声認識コマンドが有効／無効のいずれに設定されているかを表す情報等を記憶している。記憶部５０に記憶するこれらの情報の詳細については、図５や図６等を参照して説明する。

図３は、本実施形態に係る制御部４１の機能ブロック図である。図３に示すように、本実施形態においては、制御部４１は、音声認識制御部５８を有し、音声認識制御部５８は、入力音声信号変換部６２及び音声認識判定部５９を有する。

音声認識制御部５８は、図２のＡ／Ｄ変換部４５から入力された音声信号を入力音声信号変換部６２において文字列化する。そして、音声認識判定部５９は、図２の記憶部５０に記憶されている情報に基づき、音声認識変換部６２の変換処理により得た文字列が、有効と設定されている音声認識コマンドと一致するか否かを判定する。音声認識判定部５９による判定を、以下においては、音声認識判定ということもある。

本実施形態に係る内視鏡手術システム３では、術者及び手技ごとに、周辺機器の制御が可能な音声認識コマンドが有効／無効のいずれであるかを、予め記憶部５０に登録しておく。音声認識制御部５８において、入力された音声信号から得た文字列と記憶部５０に登録されている情報とを比較して、文字列が音声認識コマンドとして有効と設定されているものと一致すると判定した場合は、制御部４１は、対応する操作コマンドを周辺機器に送信する。文字列が音声認識コマンドとして有効と設定されているものと一致しないと判定した場合や、操作コマンドが音声認識コマンドとして無効と設定されるものと一致する場合は、制御部４１は、対応する操作コマンドを周辺機器に送信する処理を停止する。

図４は、音声認識コマンドの有効／無効を登録する方法を説明する図である。図４においては、予めシステムコントローラ２２が用意しているＧＵＩにより、操作パネル２１の表示部に、所定の術者が所定の手技で使用する音声認識コマンドのそれぞれについて有効／無効を利用者に設定させるための画面を例示する。

図４においては、術者等が操作パネル２１を介して指定した術者情報５２及び手技情報５３に対応する音声コマンドの設定画面が開いている様子を表す。術者情報５２とは、内視鏡手術を行う術者を識別する情報であり、手技情報５３とは、内視鏡手術において用いられる手技を識別する情報である。図４に示す操作パネル２１の画面等を通じて、術者情報５２が表す術者「Ｄｒ．Ａ」について、手技情報５３が表す「ラパコレ（ラパロスコピック・コレシステクトミー、腹腔鏡下胆嚢摘出術）」の手術を行うときに、システムコントローラ２２から周辺機器に送信可能な操作コマンドのそれぞれについて、音声認識を有効／無効のいずれとするかを設定する。

これによれば、例えば、術者が所定の手技を行うときに音声認識機能を用いて周辺機器の制御を行いたい音声認識コマンドは有効に、必要性の低い音声認識コマンドは無効に設定しておく。図４の例では、術者Ｄｒ．Ａがラパコレを行うときは、音声認識コマンド５５のうち、「レリーズ」については有効に設定する一方で、「フリーズ」については無効に設定する。これにより、術者Ｄｒ．Ａがラパコレの術中に「レリーズ」の音声認識コマンドを使用した場合に、システムコントローラ２２においてこれを「フリーズ」と誤認識することを防ぐ。

図４に例示する画面を通じて設定された情報は、記憶部５０に記憶しておく。図４に例示する画面を通じて設定される情報のうち、音声認識コマンド５５とこれに対応する有効／無効状態５６については、以下の説明においては「音声操作設定情報」とする。先に説明したとおり、音声操作設定情報とは、音声認識により周辺機器に送信が可能な操作コマンドと対応する音声認識コマンドごとに、システムコントローラ２２において音声認識による周辺機器の制御を行うか否か（有効か無効か）を対応付けて設定した情報をいう。

図５は、術者情報５２及び手技情報５３ごとに設定した音声操作設定情報を例示する図である。

例えば、術者情報５２には同一の術者を表す「Ｄｒ．Ａ」が設定されていても、手技情報５３にはそれぞれ異なる手技「ラパコレ」及び「ＬＡＤＧ（腹腔鏡補助下幽門側胃切除術）」が設定されていれば、同一の音声認識コマンド５５であっても、それぞれの手技ごとに有効／無効状態５６を設定できる。術者情報５２が互いに異なる術者「Ｄｒ．Ａ」「Ｄｒ．Ｂ」が設定されていれば、同一の音声認識コマンド５５であっても、それぞれの術者について有効／無効状態５６を設定できる。

音声操作設定情報に関しては、術者情報５２及び手技情報５３ごとに設定するだけでなく、更に、手術の進行段階ごとに音声認識コマンド５５の有効／無効を設定する構成としてもよい。以降の説明においては、手術の進行段階を「シーン」とする。

図６は、術者情報５２、手技情報５３及びシーンごとに設定した音声操作設定情報を例示する図である。図６においては、術者Ｄｒ．Ａがラパコレを行うときに、その段階に応じて、具体的は、「開腹」のシーン及び「縫合」のシーンのそれぞれについて、音声認識コマンド５５の有効／無効状態５６を設定した例を示す。図６のシーン情報５４とは、シーンを識別するための情報である。

例えば、開腹シーンでは、使用する電気メス装置１３を制御するための音声認識コマンド５５を有効に設定する。図６の例では、シーン情報５４「開腹」の音声操作設定情報では、音声認識コマンド５５のうち、開腹シーンにおいて利用する「電気メス出力アップ」や「電気メス出力ダウン」については「有効」と設定している。その一方で、その後の縫合シーンでは、電気メス装置１３の制御は不要となる。このため、図６の例では、シーン情報５４「縫合」の音声操作設定情報では、同一の音声認識コマンド５５「電気メス出力アップ」や「電気メス出力ダウン」については「無効」と設定している。

このように、シーン情報５４ごとに、そのシーンに必要な音声認識コマンド５５については有効に設定しつつ、不要な音声認識コマンド５５については無効に設定することで、入力した音声コマンドが不要な音声認識コマンド５５と誤認識されることを効果的に防止する。

図７は、本実施形態に係るシステムコントローラ２２の制御部４１が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。制御部４１は、システムコントローラ２２が起動されたことを契機として、図７に示す処理を開始する。

まず、ステップＳ１で、術者がログインするときに入力する情報に基づき、術者情報５２を特定する。図８の画面８０Ａは、ステップＳ１で操作パネル２１に表示する画面例である。システムコントローラ２２に登録されている１以上の術者情報５２のリスト８１を表示する。制御部４１は、リスト８１の中から選択された術者情報５２のログインを認識すると、ログインの認識された術者情報５２が特定されたと判断する。

ステップＳ２で、手技情報を特定する。図８の画面８０Ｂは、ステップＳ２で操作パネル２１に表示する画面例である。ステップＳ１で指定された術者情報５２について、記憶部５０に音声操作設定情報の登録されている１以上の手技情報５３のリスト８２を表示する。リスト８２の中から、内視鏡手術で用いる手技を表す手技情報５３が選択されると、選択された手技情報５３が特定されたと判断する。

ステップＳ３で、ステップＳ１及びステップＳ２で指定された術者情報５２及び手技情報５３に対応する有効な音声認識コマンド５５を決定する。有効な音声認識コマンド５５を決定するためには、まず、術者情報５２及び手技情報５３に対応する音声操作設定情報を記憶部５０から読み出す。

図８の画面８０Ｃは、ステップＳ３で操作パネル２１に表示する画面例である。記憶部５０から読み出した、指定された術者情報５２及び手技情報５３に対応する音声操作設定情報を表示している。画面中の音声認識コマンドリスト８３には、記憶部５０に登録されている音声認識コマンド５５の一部と、対応する有効／無効状態５６を表示している。

術者等の利用者により設定ボタン８４が押下されると、制御部４１は、有効な音声認識コマンド５５を決定する。すなわち、制御部４１は、以降の処理において、画面８０Ｃに表示中の音声操作設定情報に基づき音声認識コマンド５５の有効／無効を判断することとする。

ステップＳ４で、シーンを設定するか否かを判定する。図８の画面８０Ｄは、ステップＳ４で操作パネル２１に表示する画面例である。画面８０Ｄの設定ボタン８５が術者等の利用者により押下された場合には、シーン設定を行うと判定する。シーン設定を行わない場合は、特に処理を行わず、処理をステップＳ７へと移行させる。シーン設定を行う場合は、ステップＳ５に進む。

ステップＳ５で、音声操作設定情報として設定されているシーンの中から一のシーンの選択を受け付ける。図９は、ステップＳ５において操作パネル２１に表示する画面例を示す図である。画面８０Ｅには、ステップＳ１及びステップＳ２で指定された術者情報５２及び手技情報５３についての、記憶部３０に登録済のシーンごとの音声操作設定情報のリスト９１が表示される。操作パネル２１を介してリスト９１の中から一のシーンが選択され、設定ボタン９２が押下されると、ステップＳ６に進む。

ステップＳ６では、ステップＳ５で選択されたシーンに対応する有効な音声認識コマンド５５を決定する。すなわち、制御部４１は、以降の処理においては、選択されたシーン情報５４に対応する音声操作設定情報に基づき音声認識コマンド５５の有効／無効を判断することとする。ステップＳ６では、ステップＳ３等で先に設定した音声操作設定情報については破棄する。

ステップＳ７で、音声入力があったか否かを判定する。音声入力がない場合は、ステップＳ４に戻る。音声入力があった場合は、ステップＳ８に進む。

ステップＳ８で、入力のあった音声信号の信号波形を文字列化する。デジタル音声信号波形を文字列化する技術については、公知の技術を用いている。

ステップＳ９で、ステップＳ８において得た文字列と、ステップＳ３またはステップＳ６で設定した音声操作設定情報の音声認識コマンド５５とを比較して、文字列が、有効／無効状態５６に「有効」と設定されている音声認識コマンド５５と一致するか否かを判定する。音声認識コマンド５５にない文字列の場合、ステップＳ１１へと処理を移行させ、同様に、「無効」と設定された音声認識コマンド５５の場合も、コマンド信号を機器へ送信せずに、ステップＳ１１へと処理を移行させる。有効な音声認識コマンド５５のうち、一致するものが存在する場合は、ステップＳ１０に進む。

ステップＳ１０で、文字列に対応する操作コマンドを、対応する周辺機器に送信する。操作コマンドを受信した周辺機器では、操作コマンドに応じた制御処理が実行される。

ステップＳ１１で、内視鏡手術が終了したか否かを判定する。手術の途中である場合は、ステップＳ４に戻る。手術が終了したことを操作パネル２１の術者等の利用者の操作により認識した場合には、処理を終了する。

以上説明したように、本実施形態に係る内視鏡手術システム３によれば、術者や手技（及びシーン）ごとに、周辺機器を音声認識により制御する音声認識コマンド５５ごとに有効か無効かを表す情報を予め設定しておく。入力された音声信号を文字列化して音声認識を行うときに、文字列が有効と設定されている音声認識コマンド５５と一致した場合に、周辺機器に対応する操作コマンドを送信する。術者や手技、シーンにおいて必要性の高い音声認識コマンドについては有効に、必要性の低い音声認識コマンドについては無効に設定しておくことができる。これによれば、音が類似する音声認識コマンドが存在する場合であっても必要性が低い場合には無効と設定しておくことで、無効となっている音声認識コマンド５５が無視され、操作コマンドを周辺機器に送信する処理が停止されるため、音声認識コマンドの誤認識を効果的に防止する。そして、音声認識コマンドの誤認識を防止することで、周辺機器に対して誤った操作コマンドが送信されることを効果的に防止することが可能となる。
＜第２の実施形態＞
上記の実施形態においては、入力された音声より得た文字列が、音声操作設定情報に有効と設定されている音声認識コマンド５５と一致するか否かに基づき、音声認識判定を行っている。これに対し、本実施形態においては、入力された音声より得た文字列が、音声認識コマンド５５と完全に一致しなくとも、所定の条件を満たすことを条件に音声認識判定を行っている点で異なる。

以下に、第１の実施形態と異なる点を中心に、本実施形態に係る内視鏡手術システム３が音声認識により周辺機器の制御を行う方法について説明する。

本実施形態においては、内視鏡手術システム３の構成やシステムコントローラ２２及び制御部４１の構成については上記の実施形態と同様であり、図１〜図３のとおりであるので、ここでは説明は割愛する。

本実施形態においては、上記の実施形態で説明した図５や図６に示す音声操作設定情報とは別に、音声認識コマンド５５の一部と、音声認識コマンド５５を文字列化した場合の文字数とを表す情報を、音声認識判定処理のために記憶しておく。そして、システムコントローラ２２に入力された音声信号の波形より得た文字列のうち、所定の箇所の文字及び文字列全体の文字数が、記憶しておいた情報とどの程度一致しているかに基づき、音声認識を行う。以下の説明では、波形より得た文字列との比較に用いる情報、すなわち、音声認識コマンド５５ごとに、音声認識コマンド５５一部の文字及びコマンド全体の文字数を対応付けた情報を、部分比較用情報とする。

図１０は、音声認識コマンドの部分比較用情報を参照して、音声信号の波形より得た文字列について音声認識判定を行う方法について説明する図である。

図１０に示すように、部分比較用情報９５では、音声認識コマンド６８と対応付けて、最初の文字６９、最後の文字７０、文字数７１及び文字数閾値７２が音声認識コマンドごとに設定されている。

部分比較用情報９５のうち、最初の文字６９及び最後の文字７０は、それぞれ音声認識コマンド６８を文字列で表した場合の１文字目と最後の文字とが設定される。文字数７１は、音声認識コマンド６８を文字列で表した場合の文字数が設定される。文字数閾値７２は、文字数７１に対して所定の割合の文字数が設定される。図１０に示す実施例では、文字数７１のうち２分の１の文字数を文字数閾値７１に設定している。文字数閾値７２は、音声認識判定において、音声情報を文字列化したコマンドの文字数と比較するために用いる。

図１０中の入力音声６４には、音声信号波形より得た文字列が格納される。入力音声６４についても、文字列の最初の文字、最後の文字及び文字数を求めて、図１０の最初の文字６５、最後の文字６６及び文字数６７に格納する。入力音声６４、最初の文字６５、最後の文字６６及び文字数６７を、以下の本実施形態の説明においては、入力情報９４とする。

図１０に示す情報を用いてどのように音声認識判定を行うかについて、具体的に説明する。

図１１は、本実施形態に係るシステムコントローラ２２の制御部４１が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。図１１を参照して、図１０に示す入力情報９４と部分比較用情報９５とから、入力音声６４から操作コマンドに対する音声認識を行って周辺機器を制御する方法について、具体的に説明する。なお、制御部４１による図１１の処理の開始は、上記の実施形態と同様に、システムコントローラ２２の起動を契機とする。図１１においては省略しているが、システムコントローラ２２が起動し、図７のステップＳ１〜ステップＳ６の処理が実行された後に、図１１のステップＳ２１の処理に移行する。すなわち、図１１の処理は、術者情報５２や手技情報５３等に対応する音声操作設定情報を読み出し、有効な音声認識コマンド５５を決定した後に実行する。

まず、ステップＳ２１で、音声の入力があったか否かを判定する。音声の入力がない場合は、音声がシステムコントローラ２２の制御部４１に入力されるまで待機する。音声の入力があった場合は、ステップＳ２２に進む。

ステップＳ２２で、入力された音声信号の信号波形を文字列化する。

ステップＳ２３で、ステップＳ２２で得た文字列から、文字数を算出する。そして、ステップＳ２４で、文字列より、最初の文字と最後の文字とを抽出する。ステップＳ２３及びステップＳ２４で得た文字数、最初及び最後の文字を、図１０の入力情報９４の文字数６７、最初の文字６５及び最後の文字６６として、入力音声（から得た文字列）６４と対応付けて記憶する。

ステップＳ２５で、部分比較用情報９５に格納されている情報の中に、入力情報９４の最初の文字６５と一致する最初の文字６９があるか否かを判定する。一致する最初の文字６９が存在しない場合には、処理をステップＳ２９へと移行させる。一致する最初の文字６９が存在する場合は、ステップＳ２６に進む。

ステップＳ２６で、部分比較用情報９５に格納されている情報の中に、抽出した最後の文字６６と一致する最後の文字７０があるか否かを判定する。ここでは、ステップＳ２５において最初の文字６５と一致すると判定した最初の文字６９に対応する音声認識コマンド６８の最後の文字７０を参照して、入力情報９４の最後の文字６６と最後の文字７０とが互いに一致するか否かを判定する。入力情報９４中の最後の文字６６と、比較対象の最後の文字７０が互いに一致する場合には、処理をステップＳ２９へと移行させる。入力情報９４中の最後の文字６６と比較対象の最後の文字７０とが互いに一致する場合は、ステップＳ２７に進む。

ステップＳ２７で、入力情報９４中の文字数６７と、ステップＳ２６において最後の文字７０が入力情報９４中の最後の文字６７と一致した音声認識コマンド６８の文字数閾値７２とを比較する。文字数６７が文字数閾値７２を下回る場合は、処理をステップＳ２９へと移行させる。文字数６７が文字数閾値７２以上である場合は、ステップＳ２８に進む。

ステップＳ２８及びステップＳ２９については、図７のステップＳ１０及びステップＳ１１の処理とそれぞれ同様である。

なお、図１１のステップＳ２７においては、入力音声６４の文字数６７が部分比較用情報９５のうち比較対象の音声認識コマンド６８の文字数閾値７２を上回るか否か、すなわち、入力音声６４の文字数６７が文字数７１の２分の１を上回るか否かを判定している。入力音声６４の文字数６７が音声認識コマンド６８の文字数のうち一定の割合以上を占める場合には、入力音声６４と音声認識コマンド６８とが完全に一致しなくとも、音声認識判定において音声認識コマンドの有効／無効判定を判定する。音声認識コマンドの有効／無効の判定は、例えば、図５や図６の音声操作設定情報を参照して行う。音声認識コマンドの有効／無効の判定方法の詳細については、上記の実施形態の説明において述べたとおりである。

図１０のうち、（１）は、入力音声６４が音声認識コマンド６８と一致する場合を、（２）は、入力音声６４が音声認識コマンド６８と一致しない場合を示す。図１０を参照して、本実施形態により入力音声に対応する音声認識コマンドを判断する処理による効果を説明する。

（１）のように、入力音声６４の文字列が音声認識コマンド６８と一致すれば、図７に示す前述の実施形態に係る方法により音声認識判定を行っても、術者等の利用者は、所望の周辺機器の制御を音声入力により行うことができる。しかし、（２）のように、入力音声６４が、術者等の利用者が意図したとおりに認識されない場合には、本実施形態に係る方法により音声認識判定を行うことで、周辺機器の制御が可能となる。

具体的には、（２）に示すように、入力音声６４の文字列が「でんぴめすすーりょあぷ」と認識されてしまった場合であっても、最初の文字６５「で」及び最後の文字６６「ぷ」は音声認識コマンド６８「電気メス出力アップ」の最初の文字６９及び最後の文字７０とそれぞれ一致する。また、入力音声６４の文字数６７は、１０文字と認識されており、「電気メス出力アップ」の文字数「１２文字」とは異なる。このような場合であっても、音声認識コマンド６８「電気メス出力アップ」の文字数閾値７２である「６文字」は上回っている。このため、入力音声６４の文字列が音声認識コマンドと完全に一致しなくとも、入力音声６４により、音声認識コマンド「電気メス出力アップ」が入力されたと判断することができる。

文字数の多い音声認識コマンド６８等については、途中の音声がノイズ等により正しく集音できず、誤った文字に認識されたり、文字抜けが生じたりすることがある。このような場合であっても、例えば最初と最後の文字のように、一部の文字が一致し、且つ文字数が一定以上音声認識コマンドに近ければ、その音声認識コマンドが音声入力されたと判断して音声認識判定を行うことで、音声認識コマンドが非認識と判断される頻度が低下する。

このように、本実施形態に係る内視鏡手術システム３においては、音声認識を行って操作コマンドを周辺機器に送信するときに、入力音声６４の全てが音声認識コマンド６８と一致している必要がない。入力音声６４の一部（上記の例では最初と最後の１文字ずつ）が、音声認識コマンド６８のうちの対応する箇所と相互に一致し、且つ入力音声６４の文字数が音声認識コマンド６８の文字数のうちの一定の割合以上である音声認識コマンド６８の有無を判定する。条件を満たす音声認識コマンド６８が部分比較用情報に含まれる場合には、条件を満たす音声認識コマンド６８について、音声認識判定を行う。必ずしも入力音声６４の全ての文字が音声認識コマンド６８と完全に一致していなくとも、音声認識判定を行って、対応する操作コマンドを周辺機器に送信することが可能となる。これにより、上記の実施形態に係る音声認識判定処理による効果に加えて、更に、音声認識コマンドの認識率を向上させることができる。

なお、上記の実施例においては、文字列のうち、最初の文字及び最後の文字を音声認識コマンドのそれと比較しているが、これには限定されない。また、比較する文字は、文字列中の１文字ずつに限定されない。更には、上記の実施例においては、文字数閾値７２として音声認識コマンド６８の文字数の２分の１を設定しているが、閾値としては、音声認識コマンド６８の文字数の２分の１には限定されない。また、上記の実施例においては、入力音声６４の文字数を閾値と比較しているが、例えばシステムコントローラ２２において入力音声の音数を認識可能な構成であれば、入力音声６４の音数を、音声認識コマンド６８の音数に基づき設定した閾値と比較してもよい。
＜第３の実施形態＞
上記の実施形態においては、図１等のマイク３３から入力された音声をそのまま処理して音声認識判定処理に利用している。これに対し、本実施形態においては、システムコントローラ２２は、マイク３３から入力された音声を適切な音量に調整した上で音声認識判定処理を行う点で異なる。

本実施形態においては、内視鏡手術システム３の構成やシステムコントローラ２２の構成については上記の実施形態と同様であり、図１及び図２のとおりであるので、ここでは説明は割愛する。

図１２は、制御部４１の機能ブロック図である。図１２に示す制御部４１は、音声認識制御部５８に、入力音声信号変換部６２及び音声認識判定部５９に加えて、入力音量調整部６３を更に備える点で上記の実施形態と異なる。

入力音量調整部６３は、図２のＡ／Ｄ変換部４５から入力されるデジタル音声信号の波形より音量を測定し、測定した音量が所定の範囲内に収まるよう音量を調整する。音量を調整した音声信号は、入力音声信号変換部６２に入力される。入力音声信号変換部６２及び音声認識判定部５９の動作については、上記の実施形態と同様である。

本実施形態に係る音声認識判定方法について、フローチャートを参照して更に詳しく説明する。

図１３は、本実施形態に係るシステムコントローラ２２の制御部４１が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。図１３を参照して、音声信号の音量を調整した上で音声認識判定を行う方法について、具体的に説明する。なお、制御部４１による図１３の処理の開始は、上記の実施形態と同様に、システムコントローラ２２の起動を契機とする。また、図１３においては省略しているが、システムコントローラ２２が起動し、図７のステップＳ１〜ステップＳ６の処理が実行された後に、図１３のステップＳ３１の処理に移行する。すなわち、図１３の処理は、術者情報５２や手技情報５３等に対応する音声操作設定情報を読み出し、有効な音声認識コマンド５５を決定した後に実行する。

まず、ステップＳ３１で、音声の入力があったか否かを判定する。図１１のステップＳ２１と同様に、音声の入力がない場合は、音声がシステムコントローラ２２の制御部４１に入力されるまで待機し、音声の入力があった場合は、次のステップに進む。

ステップＳ３２で、Ａ／Ｄ変換部４５から制御部４１に入力されたデジタル音声信号波形から、入力音量を測定する。入力音量の測定技術については、公知の技術を用いている。

ステップＳ３３で、測定した音量が、記憶部５０に予め記憶されている音量基準値を満たしているか否かを判定する。音量基準値は、例えば音声認識に適切な音量の上限値と下限値とを含む。音量が音量基準値を満たしている場合は、特に処理を行わず、ステップＳ３５に進む。音量が音量基準値を満たしていない場合は、ステップＳ３４に進む。

ステップＳ３４で、入力音声データの音量が音量基準値を満たすよう、入力音声信号を増減する。

ステップＳ３５以降の処理については、図７のステップ８以降の処理と同様である。

このように、本実施形態に係る内視鏡手術システム３によれば、必要な場合には入力された音声信号の音量が音量基準値を満たすように調整した上で、音声認識判定処理を実行し、音声認識による周辺機器の制御を行う。例えば入力音量が小さい場合は、そのままの音量では入力音声の文字列化が困難で、非認識と判定されることがあるが、これを効果的に防止する。また、入力音量が大きい場合にも、音声認識のソフトウェアに適した範囲に入力音量を調整する。これにより、上記の実施形態に係る音声認識判定処理による効果に加えて、更に、非認識と判定される確率が下がることを効果的に防止する。

なお、上記の実施例においては、第１の実施形態に係る音声認識判定処理に対して音量を調整する処理を適用しているが、これに限定されるものではない。例えば、第２の実施形態に係る音声判定処理に対して音量調整処理を適用してもよい。
＜第４の実施形態＞
第１の実施形態においては、術者や手技、シーンごとに応じて音声認識コマンドの有効／無効を設定可能としている。これに対し、本実施形態においては、手術室ごとに音声認識コマンドの有効／無効を設定可能とする点で異なる。

以下に、第１の実施形態と異なる点を中心に、本実施形態に係る内視鏡手術システム３が音声認識により周辺機器の制御を行う方について説明する。

ただし、本実施形態においては、記憶部５０に予め登録されている音声操作設定情報は、音声認識コマンド５５ごとの有効／無効状態５６を、手術室を識別する手術室情報ごとに設定可能に構成されている。例えば、手術に必要な周辺機器等は内視鏡手術の種類によって異なるため、手術室ごとにそれぞれ特定の手術に適した設備を設けることがある。このような場合は、手術室ごと、すなわち内視鏡手術の種類に応じて必要性の高い音声認識コマンド５５については有効に設定しておき、不要なものは無効に設定しておくことで、より効率的に誤認識を防止する。

実施例では、更に、シーンごとの音声認識コマンド５５の有効／無効状態５６を設定可能な構成とする。以下に、特定の手術に適した手術室において、シーンごとに有効な音声認識コマンド５５を決定して音声認識判定を行い周辺機器の制御を行う方法について、フローチャートを参照して具体的に説明する。

図１４は、本実施形態に係るシステムコントローラ２２の制御部４１が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。制御部４１は、表示Ｉ／Ｆ５１等を介して、術者が所定の手術室に入室したことや、所定の手術室内に設置されているシステムコントローラ２２が起動したことを検知したことを契機として、図１４に示す処理を開始する。システムコントローラ２２の制御部４１は、手術室に対応する音声操作情報を読み出すと、ステップＳ４１の処理を実行する。

ステップＳ４１で、有効な音声認識コマンド５５を決定する。有効な音声認識コマンド５５の決定方法については、図７のステップＳ３の説明のとおりである。

ステップＳ４２で、シーン設定するか否かを判定する。前述のとおり、音声操作設定情報は、手術室ごとに、また、シーンごとに設定されている。シーン設定を行わない場合は、特に処理を行わず、ステップＳ４５へと処理を移行させる。シーン設定を行う場合は、ステップＳ４３に進む。

ステップＳ４３以降の処理については、図７のステップＳ５以降の処理と同様である。

このように、本実施形態に係る内視鏡手術システム３によれば、手術室ごとの音声操作情報を用いて音声認識コマンド５５の有効／無効を判定することができる。特定の手術ではよく用いる音声認識コマンドについては有効に、あまり使用しない音声認識コマンドについては無効に設定しておくことで、第１の実施形態に係る内視鏡手術システム３と同様の効果を得る。

この他にも、本発明は、本発明の要旨を逸脱しない範囲内で、種々の改良及び変更が可能である。例えば、前述の各実施形態に示された全体構成からいくつかの構成要素を削除してもよく、更には各実施形態の異なる構成要素を適宜組み合わせてもよい。

更には、上記の第１〜第４の内視鏡手術システム３において、例えば術者の視線を計測する手段や検知する手段、及び音声操作用のモニタを備え、術者が音声操作をするときは、音声操作用モニタを見ることにより音声操作が有効になる構成としてもよい。図１のマイク３３により、術者が音声による周辺機器の操作を考えていない場合の会話等から誤って音声認識判定を行い、周辺機器に対して誤った操作コマンドを送信して誤動作させてしまうことを効果的に防止する。

Claims

音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、
内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、
前記術者及び手技の指定を受け付ける指定部と、
入力された音声を認識して音声コマンドに変換する変換部と、
前記記憶部を参照して、前記変換部において得た前記音声コマンドが、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、
前記判定部により無効と判定されたコマンドについては、対応する周辺機器への送信処理を停止する送信部と
を備えることを特徴とする内視鏡手術システム。
前記変換部において、音声コマンドは文字列化されたものであることを特徴とする請求項１記載の内視鏡手術システム。
前記内視鏡手術のシーンの指定を受け付けるシーン指定部と、
を更に備え、
前記記憶部は、前記シーンごとに前記コマンドのそれぞれが有効か無効かを、前記術者及び手技ごとに記憶し、
前記判定部は、前記シーン指定部においてシーンを受け付けた場合は、前記文字列が、前記指定部にて受け付けた術者及び手技についての該受け付けたシーンについて、前記記憶部に有効と設定されているコマンドと一致するか否かを判定する
ことを特徴とする請求項２記載の内視鏡手術システム。
前記判定部は、前記変換部において得た文字列が、前記記憶部に記憶されているコマンドと一部が一致するか否か、及び、該文字列の文字数または音数が、該記憶部に記憶されているコマンドの文字数または音数のうち所定の割合以上であるか否かに基づき、該文字列が該記憶部に有効と設定されているコマンドと一致するか否かを判定する
ことを特徴とする請求項２に記載の内視鏡手術システム。
入力された音声の音量を測定し、該測定した音量が所定の範囲内に収まるよう音量を調整する調整部と、
を更に備え、
前記変換部は、前記調整部により音量を調整された音声に対して文字列化の処理を行う
ことを特徴とする請求項２に記載の内視鏡手術システム。
音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、
内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、
前記術者及び手技の指定を受け付ける指定部と、
入力された音声を認識して音声コマンドに変換する変換部と、
前記記憶部を参照して、前記変換部において得た前記音声コマンドが、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、
前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部と
を備えることを特徴とする内視鏡手術システム。
音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、
内視鏡手術を行う部屋ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、
内視鏡手術を行う部屋を識別する情報を受け付ける指定部と、
入力された音声を認識して音声コマンドに変換する変換部と、
前記記憶部を参照して、前記変換部において得た前記音声コマンドが、前記指定部により指定された部屋については有効と設定されているコマンドと一致するか否かを判定する判定部と、
前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部と
を備えることを特徴とする内視鏡手術システム。