JP5326066B1 - 内視鏡手術システム - Google Patents

内視鏡手術システム Download PDF

Info

Publication number
JP5326066B1
JP5326066B1 JP2013518032A JP2013518032A JP5326066B1 JP 5326066 B1 JP5326066 B1 JP 5326066B1 JP 2013518032 A JP2013518032 A JP 2013518032A JP 2013518032 A JP2013518032 A JP 2013518032A JP 5326066 B1 JP5326066 B1 JP 5326066B1
Authority
JP
Japan
Prior art keywords
command
unit
voice
endoscopic surgery
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013518032A
Other languages
English (en)
Other versions
JPWO2013061857A1 (ja
Inventor
頼人 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Medical Systems Corp
Original Assignee
Olympus Medical Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Medical Systems Corp filed Critical Olympus Medical Systems Corp
Priority to JP2013518032A priority Critical patent/JP5326066B1/ja
Application granted granted Critical
Publication of JP5326066B1 publication Critical patent/JP5326066B1/ja
Publication of JPWO2013061857A1 publication Critical patent/JPWO2013061857A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B17/00Surgical instruments, devices or methods, e.g. tourniquets
    • A61B17/00234Surgical instruments, devices or methods, e.g. tourniquets for minimally invasive surgery
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00006Operational features of endoscopes characterised by electronic signal processing of control signals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00039Operational features of endoscopes provided with input arrangements for the user
    • A61B1/00042Operational features of endoscopes provided with input arrangements for the user for mechanical operation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B17/00Surgical instruments, devices or methods, e.g. tourniquets
    • A61B2017/00017Electrical control of surgical instruments
    • A61B2017/00203Electrical control of surgical instruments with speech control or speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Endoscopes (AREA)

Abstract

内視鏡手術システム3において、記憶部50は、内視鏡手術の術者及び手技ごとに、周辺機器を制御するためのコマンド及びコマンドのそれぞれが有効か無効かを対応付けて記憶する。表示I/F51は、術者及び手技の指定を受け付ける。入力音声信号変換部62は、入力された音声を認識して文字列化する。音声認識判定部59は、記憶部50を参照して、入力音声信号変換部62において得た文字列が、表示I/F51により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する。制御部41は、音声認識判定部59により無効と判定されたコマンドについては、対応する周辺機器への送信処理を停止する。

Description

本発明は、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムに関する。
内視鏡装置を使用する内視鏡手術では、術者が体腔内に挿入された処置具を両手に持って処置を行うのが一般的である。術者が手術中に周辺機器のパラメータ等の変更を行いたい場合には、助手等に非減菌域にある操作パネル等の操作を依頼するか、あるいは、術者の手元(減菌域)に設けられているスイッチ等を押すことで操作可能なこともある。しかし、他者に操作を委ねずに術者自身が微妙な調整を行いたい場合や、処置具の位置や向きにより操作が行いにくい場合がある。
このような問題を解決する手段として、内視鏡手術システムにおいて音声認識機能を備え、術者が音声にて入力したコマンドに基づき、周辺機器のパラメータ変更等を実現する技術がある(例えば、特許文献1)。
例えば特許文献1に開示されている技術においては、パターン認識をベースに音声認識を行っている。すなわち、予め音声コマンドをシステムに登録しておき、術者が発声した音声コマンドを登録されている音声コマンドと比較する。術者により入力された音声コマンドと登録されている音声コマンドとが互いに一致した場合には、その音声コマンドを認識する。
音声認識技術に関しては、例えば、入力された音声のレベルデータ(声の大きさ)を1回前に取得されているレベルデータとの差分を算出し、差分と基準値との比較結果に応じた処理を行う技術について開示されている(例えば、特許文献2)。また、音素認識したデータに対して認識実験を行い、認識率を計測する技術についても開示されている(例えば、特許文献3)。音声で入力した内容を音声認識処理する技術に関して、最初の文字と文字数とから利用者が音声入力した名詞を特定する技術についても開示されている(例えば、特許文献4)。
特許文献1:特開2002−123291号公報
特許文献2:特開2004−199004号公報
特許文献3:特開平07−146696号公報
特許文献4:特開2003−228394号公報

従来における音声認識技術によれば、術者は、登録されているとおりにコマンドの発声を行わないと、コマンドの非認識や誤認識が発生してしまう。つまり、音声コマンドを発する術者によってはシステムにおいてコマンドが認識されにくくなったり、コマンドの種類によっては他のコマンドと音が類似しているために、術者が意図したコマンドとは別のコマンドが認識されてしまう、という問題が発生したりする。しかし、手術の現場で音声操作をする際には、誤認識による誤操作の影響が非常に大きいため、必ず避けなければならない。
本発明の態様のひとつである内視鏡手術システムは、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、前記術者及び手技の指定を受け付ける指定部と、入力された音声を認識して文字列化する変換部と、前記記憶部を参照して、前記変換部において得た文字列が、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、前記判定部により無効と判定されたコマンドについては、対応する周辺機器への送信処理を停止する送信部とを備えることを特徴とする。
また、本発明の他の態様の一つである内視鏡手術システムは、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、前記術者及び手技の指定を受け付ける指定部と、入力された音声を認識して文字列化する変換部と、前記記憶部を参照して、前記変換部において得た文字列が、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部とを備えることを特徴とする。
また、本発明の他の態様の一つである内視鏡手術システムは、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、内視鏡手術を行う部屋を識別する情報を受け付ける指定部と、入力された音声を認識して文字列化する変換部と、前記記憶部を参照して、前記変換部において得た文字列が、前記指定部により指定された部屋については有効と設定されているコマンドと一致するか否かを判定する判定部と、前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部とを備えることを特徴とする。
本発明によれば、音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムにおいて、使用しないコマンドを無効にすることで、誤って入力された音声コマンドの検出を避け、コマンドの誤認識による機器の誤操作を効果的に防止することが可能となる。
第1の実施形態に係る内視鏡手術システムの全体構成図である。 第1の実施形態に係るシステムコントローラのブロック図である。 第1の実施形態に係る制御部の機能ブロック図である。 音声認識コマンドの有効/無効を登録する方法を説明する図である。 術者情報及び手技情報ごとに設定した音声操作設定情報を例示する図である。 術者情報、手技情報及びシーンごとに設定した音声操作設定情報を例示する図である。 第1の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。 操作パネルに表示する画面例を示す図(その1)である。 操作パネル21に表示する画面例を示す図(その2)である。 第2の実施形態に係る音声信号の波形より得た文字列について音声認識判定を行う方法について説明する図である。 第2の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。 第3の実施形態に係る制御部の機能ブロック図である。 第3の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。 第4の実施形態に係るシステムコントローラの制御部が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
<第1の実施形態>
図1は、本実施形態に係る内視鏡手術システムの全体構成図である。図1に示す内視鏡手術システム3は、手術室2に、患者48が横たわる患者ベッド10と共に配置される。内視鏡手術システム3は、第1カート11及び第2カート12を有し、それぞれ内視鏡手術に使用する機器等を搭載している。
第1カート11は、電気メス装置13、気腹装置14、内視鏡用カメラ装置15、光源装置16及びビデオテープレコーダ(以下VTRとする)17等の装置類、及びガスボンベ18を載置する。
内視鏡用カメラ装置15は、カメラケーブル31aを介して第1の内視鏡31に接続される。
光源装置16は、ライトガイドケーブル31bを介して第1の内視鏡に接続される。
VTR17は、第1の内視鏡31等において取得した内視鏡像の記録等を行う。
ガスボンベ18は、内視鏡手術において使用するための二酸化炭素等のガスが充填されている。
電気メス装置13、気腹装置14は、内視鏡手術に使用される医療機器であり、これらの機器は、接続されているシステムコントローラ22からの操作コマンドにしたがって、パラメータの変更等の制御が可能に構成されている。
また、第1カート装置11は、表示装置19、(第1)集中表示パネル20、操作パネル21等を載置する。
表示装置19は、内視鏡像等を表示するための装置であり、例えばテレビモニタを使用する。集中表示パネル20は、内視鏡手術システム3において取り扱うあらゆるデータを選択的に表示させることが可能な表示手段である。操作パネル21は、例えば液晶ディスプレイ等の表示部と、表示部上に一体的に設けられたタッチセンサ等とから構成され、非減菌域(不潔域)にいる看護師等が内視鏡手術システム3の各周辺機器等を操作する集中操作装置である。
更に、第1カート装置11は、システムコントローラ22を載置する。システムコントローラ22は、前述のとおり、内視鏡手術システム3に接続される各種の周辺機器の制御を行う。図1の構成例では、システムコントローラ22は、電気メス13、気腹装置14、内視鏡用カメラ装置15、光源装置16及びVTR17と不図示の通信線を介して接続されている。システムコントローラ22には、ヘッドセット型のマイク33が接続可能となっている。システムコントローラ22は、マイク33から入力された術者の音声によるコマンドの入力を認識し、認識したコマンドにしたがって、接続されている各種周辺機器に操作コマンドを送信して、周辺機器を制御する。
また、RFID(Radio Frequency IDentification)端末35は、第1カート11に設けられ、第1の内視鏡31や電気メス13等の処置具等に埋め込まれているID(IDentification)タグから個体識別情報の無線での読み取り/書き込みを行う。
第2カート12は、内視鏡用カメラ装置23、光源装置24、画像処理装置25、表示装置26及び(第2)集中表示パネル27を載置する。
内視鏡用カメラ装置23は、カメラケーブル32aを介して第2の内視鏡32に接続される。
光源装置24は、ライトガイドケーブル32bを介して第2の内視鏡32に接続される。
表示装置26は、内視鏡用カメラ23でとらえた内視鏡画像を表示するための装置であり、例えばテレビモニタを使用する。集中表示パネル27は、内視鏡手術システム3において取り扱うあらゆるデータを選択的に表示させることが可能な表示手段である。
内視鏡用カメラ装置23、光源装置24及び画像処理装置25は、第2カート12に載置された中継ユニット28に不図示の通信線を介して接続されている。中継ユニット28は、中継ケーブル29によって上述のシステムコントローラ22に接続されている。
このように、システムコントローラ22は、第1カート11に載置されている電気メス装置13、気腹装置14、内視鏡用カメラ装置15、光源装置16及びVTR17や、第2カート12に載置されている内視鏡用カメラ装置23、光源装置24及び画像処理装置25の集中制御を行う。このため、システムコントローラ22とこれら装置との間で通信が行われているときは、システムコントローラ22は、操作パネル21の液晶ディスプレイに、接続中の装置の設定状態や操作スイッチ等の設定画面を表示することができるように構成されている。システムコントローラ22は、所望の操作スイッチが触れられて所定の領域のタッチセンサが操作されることにより、設定値の変更等の操作入力を行える構成となっている。
リモートコントローラ30は、減菌域にいる術者である執刀医等が操作する第2の集中操作装置である。リモートコントローラ30は、システムコントローラ22を介して、システムコントローラ22が通信中の他の装置の操作を制御する。
なお、システムコントローラ22は、ケーブル9を介して患者モニタシステム4と接続されている。システムコントローラ22は、患者モニタシステム4において保持する生体情報を解析し、解析結果を所望の表示装置に表示させることができる。
また、システムコントローラ22には、図1においては不図示の赤外線通信ポート等の通信手段が設けられている。赤外線通信ポート等の通信手段は、例えば表示装置19等の近傍であって、赤外線が照射しやすい位置に設けられ、システムコントローラ22との間は、ケーブルにより接続されている。
図1に示す内視鏡手術システム3のシステムコントローラ22は、マイク33を介して術者が入力した音声より、所定の周辺機器を制御するための音声コマンドが入力されたと判断すると、対応する操作コマンドを周辺機器に対して送信する。入力された音声に対して音声コマンドが入力されたか否かを判定するときに、予め音声コマンドとして「有効」と設定されている音声コマンドについてのみ、音声認識を行い、対応する操作コマンドを周辺機器に送信する。
以下に、本実施形態に係る内視鏡手術システム3のシステムコントローラ22により入力された音声に対して音声認識を行って周辺機器に操作コマンドを送信し、制御を行う方法について具体的に説明する。
なお、以下の説明においては、入力された音声に対して、周辺機器を操作するための音声コマンドと認識されるものを「音声認識コマンド」とし、周辺機器に対して通信線を介して送信するコマンドを「操作コマンド」としている。
図2は、本実施形態に係るシステムコントローラ22のブロック図である。図2に示すシステムコントローラ22は、通信インタフェース(以下通信I/Fとする)40、A/D変換部45、表示インタフェース(以下表示I/Fとする)51、記憶部50及び制御部41を有する。
A/D変換部45は、システムコントローラと接続されているマイク33から入力されたアナログの音声信号を、デジタル信号に変換する。
表示I/F51は、操作パネル21にGUI(Graphical User Interface)を表示させ、操作パネル21からの利用者によるタッチ操作の信号を制御部41に渡すときのインタフェースである。表示I/F51は、例えば内視鏡手術システム3を利用する術者や術者が用いる手技等の指定を受け付ける。
通信I/F40は、内視鏡用カメラ装置15、光源装置16、気腹装置14及び電気メス装置13等の周辺機器との間の通信インタフェースである。図2においては、図1でシステムコントローラ22に直接接続されている装置のみを記載し、中継ケーブル29、中継ユニット28を介して接続されている装置については記載を省略している。
制御部41は、通信I/F40を介して内視鏡用カメラ装置15等の接続されている装置(周辺機器)のパラメータを取得して、表示I/F51を介して操作パネル21に表示させる。また、制御部41は、表示I/F51において受け付けた操作パネル21のタッチ操作の信号やA/D変換部45から入力される音声信号に基づき、通信I/F40を介して操作コマンドを送信して、周辺機器を制御する。制御部41は、マイク33から音声認識コマンドが入力されたことを認識した場合には、対応する操作コマンドを表示I/F51を介して操作パネル21に表示させる。そして、制御部41は、操作コマンドに基づき、通信I/F40を介して周辺機器の制御を行う。
記憶部50は、制御部41が周辺機器の制御等を実行するために必要な情報を記憶する。具体的には、A/D変換部45を介して入力された音声信号から得た文字列と比較するための音声認識コマンドや、術者や手技を識別する情報、並びに音声認識コマンドと対応付けて、音声認識コマンドが有効/無効のいずれに設定されているかを表す情報等を記憶している。記憶部50に記憶するこれらの情報の詳細については、図5や図6等を参照して説明する。
図3は、本実施形態に係る制御部41の機能ブロック図である。図3に示すように、本実施形態においては、制御部41は、音声認識制御部58を有し、音声認識制御部58は、入力音声信号変換部62及び音声認識判定部59を有する。
音声認識制御部58は、図2のA/D変換部45から入力された音声信号を入力音声信号変換部62において文字列化する。そして、音声認識判定部59は、図2の記憶部50に記憶されている情報に基づき、音声認識変換部62の変換処理により得た文字列が、有効と設定されている音声認識コマンドと一致するか否かを判定する。音声認識判定部59による判定を、以下においては、音声認識判定ということもある。
本実施形態に係る内視鏡手術システム3では、術者及び手技ごとに、周辺機器の制御が可能な音声認識コマンドが有効/無効のいずれであるかを、予め記憶部50に登録しておく。音声認識制御部58において、入力された音声信号から得た文字列と記憶部50に登録されている情報とを比較して、文字列が音声認識コマンドとして有効と設定されているものと一致すると判定した場合は、制御部41は、対応する操作コマンドを周辺機器に送信する。文字列が音声認識コマンドとして有効と設定されているものと一致しないと判定した場合や、操作コマンドが音声認識コマンドとして無効と設定されるものと一致する場合は、制御部41は、対応する操作コマンドを周辺機器に送信する処理を停止する。
図4は、音声認識コマンドの有効/無効を登録する方法を説明する図である。図4においては、予めシステムコントローラ22が用意しているGUIにより、操作パネル21の表示部に、所定の術者が所定の手技で使用する音声認識コマンドのそれぞれについて有効/無効を利用者に設定させるための画面を例示する。
図4においては、術者等が操作パネル21を介して指定した術者情報52及び手技情報53に対応する音声コマンドの設定画面が開いている様子を表す。術者情報52とは、内視鏡手術を行う術者を識別する情報であり、手技情報53とは、内視鏡手術において用いられる手技を識別する情報である。図4に示す操作パネル21の画面等を通じて、術者情報52が表す術者「Dr.A」について、手技情報53が表す「ラパコレ(ラパロスコピック・コレシステクトミー、腹腔鏡下胆嚢摘出術)」の手術を行うときに、システムコントローラ22から周辺機器に送信可能な操作コマンドのそれぞれについて、音声認識を有効/無効のいずれとするかを設定する。
これによれば、例えば、術者が所定の手技を行うときに音声認識機能を用いて周辺機器の制御を行いたい音声認識コマンドは有効に、必要性の低い音声認識コマンドは無効に設定しておく。図4の例では、術者Dr.Aがラパコレを行うときは、音声認識コマンド55のうち、「レリーズ」については有効に設定する一方で、「フリーズ」については無効に設定する。これにより、術者Dr.Aがラパコレの術中に「レリーズ」の音声認識コマンドを使用した場合に、システムコントローラ22においてこれを「フリーズ」と誤認識することを防ぐ。
図4に例示する画面を通じて設定された情報は、記憶部50に記憶しておく。図4に例示する画面を通じて設定される情報のうち、音声認識コマンド55とこれに対応する有効/無効状態56については、以下の説明においては「音声操作設定情報」とする。先に説明したとおり、音声操作設定情報とは、音声認識により周辺機器に送信が可能な操作コマンドと対応する音声認識コマンドごとに、システムコントローラ22において音声認識による周辺機器の制御を行うか否か(有効か無効か)を対応付けて設定した情報をいう。
図5は、術者情報52及び手技情報53ごとに設定した音声操作設定情報を例示する図である。
例えば、術者情報52には同一の術者を表す「Dr.A」が設定されていても、手技情報53にはそれぞれ異なる手技「ラパコレ」及び「LADG(腹腔鏡補助下幽門側胃切除術)」が設定されていれば、同一の音声認識コマンド55であっても、それぞれの手技ごとに有効/無効状態56を設定できる。術者情報52が互いに異なる術者「Dr.A」「Dr.B」が設定されていれば、同一の音声認識コマンド55であっても、それぞれの術者について有効/無効状態56を設定できる。
音声操作設定情報に関しては、術者情報52及び手技情報53ごとに設定するだけでなく、更に、手術の進行段階ごとに音声認識コマンド55の有効/無効を設定する構成としてもよい。以降の説明においては、手術の進行段階を「シーン」とする。
図6は、術者情報52、手技情報53及びシーンごとに設定した音声操作設定情報を例示する図である。図6においては、術者Dr.Aがラパコレを行うときに、その段階に応じて、具体的は、「開腹」のシーン及び「縫合」のシーンのそれぞれについて、音声認識コマンド55の有効/無効状態56を設定した例を示す。図6のシーン情報54とは、シーンを識別するための情報である。
例えば、開腹シーンでは、使用する電気メス装置13を制御するための音声認識コマンド55を有効に設定する。図6の例では、シーン情報54「開腹」の音声操作設定情報では、音声認識コマンド55のうち、開腹シーンにおいて利用する「電気メス出力アップ」や「電気メス出力ダウン」については「有効」と設定している。その一方で、その後の縫合シーンでは、電気メス装置13の制御は不要となる。このため、図6の例では、シーン情報54「縫合」の音声操作設定情報では、同一の音声認識コマンド55「電気メス出力アップ」や「電気メス出力ダウン」については「無効」と設定している。
このように、シーン情報54ごとに、そのシーンに必要な音声認識コマンド55については有効に設定しつつ、不要な音声認識コマンド55については無効に設定することで、入力した音声コマンドが不要な音声認識コマンド55と誤認識されることを効果的に防止する。
図7は、本実施形態に係るシステムコントローラ22の制御部41が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。制御部41は、システムコントローラ22が起動されたことを契機として、図7に示す処理を開始する。
まず、ステップS1で、術者がログインするときに入力する情報に基づき、術者情報52を特定する。図8の画面80Aは、ステップS1で操作パネル21に表示する画面例である。システムコントローラ22に登録されている1以上の術者情報52のリスト81を表示する。制御部41は、リスト81の中から選択された術者情報52のログインを認識すると、ログインの認識された術者情報52が特定されたと判断する。
ステップS2で、手技情報を特定する。図8の画面80Bは、ステップS2で操作パネル21に表示する画面例である。ステップS1で指定された術者情報52について、記憶部50に音声操作設定情報の登録されている1以上の手技情報53のリスト82を表示する。リスト82の中から、内視鏡手術で用いる手技を表す手技情報53が選択されると、選択された手技情報53が特定されたと判断する。
ステップS3で、ステップS1及びステップS2で指定された術者情報52及び手技情報53に対応する有効な音声認識コマンド55を決定する。有効な音声認識コマンド55を決定するためには、まず、術者情報52及び手技情報53に対応する音声操作設定情報を記憶部50から読み出す。
図8の画面80Cは、ステップS3で操作パネル21に表示する画面例である。記憶部50から読み出した、指定された術者情報52及び手技情報53に対応する音声操作設定情報を表示している。画面中の音声認識コマンドリスト83には、記憶部50に登録されている音声認識コマンド55の一部と、対応する有効/無効状態56を表示している。
術者等の利用者により設定ボタン84が押下されると、制御部41は、有効な音声認識コマンド55を決定する。すなわち、制御部41は、以降の処理において、画面80Cに表示中の音声操作設定情報に基づき音声認識コマンド55の有効/無効を判断することとする。
ステップS4で、シーンを設定するか否かを判定する。図8の画面80Dは、ステップS4で操作パネル21に表示する画面例である。画面80Dの設定ボタン85が術者等の利用者により押下された場合には、シーン設定を行うと判定する。シーン設定を行わない場合は、特に処理を行わず、処理をステップS7へと移行させる。シーン設定を行う場合は、ステップS5に進む。
ステップS5で、音声操作設定情報として設定されているシーンの中から一のシーンの選択を受け付ける。図9は、ステップS5において操作パネル21に表示する画面例を示す図である。画面80Eには、ステップS1及びステップS2で指定された術者情報52及び手技情報53についての、記憶部30に登録済のシーンごとの音声操作設定情報のリスト91が表示される。操作パネル21を介してリスト91の中から一のシーンが選択され、設定ボタン92が押下されると、ステップS6に進む。
ステップS6では、ステップS5で選択されたシーンに対応する有効な音声認識コマンド55を決定する。すなわち、制御部41は、以降の処理においては、選択されたシーン情報54に対応する音声操作設定情報に基づき音声認識コマンド55の有効/無効を判断することとする。ステップS6では、ステップS3等で先に設定した音声操作設定情報については破棄する。
ステップS7で、音声入力があったか否かを判定する。音声入力がない場合は、ステップS4に戻る。音声入力があった場合は、ステップS8に進む。
ステップS8で、入力のあった音声信号の信号波形を文字列化する。デジタル音声信号波形を文字列化する技術については、公知の技術を用いている。
ステップS9で、ステップS8において得た文字列と、ステップS3またはステップS6で設定した音声操作設定情報の音声認識コマンド55とを比較して、文字列が、有効/無効状態56に「有効」と設定されている音声認識コマンド55と一致するか否かを判定する。音声認識コマンド55にない文字列の場合、ステップS11へと処理を移行させ、同様に、「無効」と設定された音声認識コマンド55の場合も、コマンド信号を機器へ送信せずに、ステップS11へと処理を移行させる。有効な音声認識コマンド55のうち、一致するものが存在する場合は、ステップS10に進む。
ステップS10で、文字列に対応する操作コマンドを、対応する周辺機器に送信する。操作コマンドを受信した周辺機器では、操作コマンドに応じた制御処理が実行される。
ステップS11で、内視鏡手術が終了したか否かを判定する。手術の途中である場合は、ステップS4に戻る。手術が終了したことを操作パネル21の術者等の利用者の操作により認識した場合には、処理を終了する。
以上説明したように、本実施形態に係る内視鏡手術システム3によれば、術者や手技(及びシーン)ごとに、周辺機器を音声認識により制御する音声認識コマンド55ごとに有効か無効かを表す情報を予め設定しておく。入力された音声信号を文字列化して音声認識を行うときに、文字列が有効と設定されている音声認識コマンド55と一致した場合に、周辺機器に対応する操作コマンドを送信する。術者や手技、シーンにおいて必要性の高い音声認識コマンドについては有効に、必要性の低い音声認識コマンドについては無効に設定しておくことができる。これによれば、音が類似する音声認識コマンドが存在する場合であっても必要性が低い場合には無効と設定しておくことで、無効となっている音声認識コマンド55が無視され、操作コマンドを周辺機器に送信する処理が停止されるため、音声認識コマンドの誤認識を効果的に防止する。そして、音声認識コマンドの誤認識を防止することで、周辺機器に対して誤った操作コマンドが送信されることを効果的に防止することが可能となる。
<第2の実施形態>
上記の実施形態においては、入力された音声より得た文字列が、音声操作設定情報に有効と設定されている音声認識コマンド55と一致するか否かに基づき、音声認識判定を行っている。これに対し、本実施形態においては、入力された音声より得た文字列が、音声認識コマンド55と完全に一致しなくとも、所定の条件を満たすことを条件に音声認識判定を行っている点で異なる。
以下に、第1の実施形態と異なる点を中心に、本実施形態に係る内視鏡手術システム3が音声認識により周辺機器の制御を行う方法について説明する。
本実施形態においては、内視鏡手術システム3の構成やシステムコントローラ22及び制御部41の構成については上記の実施形態と同様であり、図1〜図3のとおりであるので、ここでは説明は割愛する。
本実施形態においては、上記の実施形態で説明した図5や図6に示す音声操作設定情報とは別に、音声認識コマンド55の一部と、音声認識コマンド55を文字列化した場合の文字数とを表す情報を、音声認識判定処理のために記憶しておく。そして、システムコントローラ22に入力された音声信号の波形より得た文字列のうち、所定の箇所の文字及び文字列全体の文字数が、記憶しておいた情報とどの程度一致しているかに基づき、音声認識を行う。以下の説明では、波形より得た文字列との比較に用いる情報、すなわち、音声認識コマンド55ごとに、音声認識コマンド55一部の文字及びコマンド全体の文字数を対応付けた情報を、部分比較用情報とする。
図10は、音声認識コマンドの部分比較用情報を参照して、音声信号の波形より得た文字列について音声認識判定を行う方法について説明する図である。
図10に示すように、部分比較用情報95では、音声認識コマンド68と対応付けて、最初の文字69、最後の文字70、文字数71及び文字数閾値72が音声認識コマンドごとに設定されている。
部分比較用情報95のうち、最初の文字69及び最後の文字70は、それぞれ音声認識コマンド68を文字列で表した場合の1文字目と最後の文字とが設定される。文字数71は、音声認識コマンド68を文字列で表した場合の文字数が設定される。文字数閾値72は、文字数71に対して所定の割合の文字数が設定される。図10に示す実施例では、文字数71のうち2分の1の文字数を文字数閾値71に設定している。文字数閾値72は、音声認識判定において、音声情報を文字列化したコマンドの文字数と比較するために用いる。
図10中の入力音声64には、音声信号波形より得た文字列が格納される。入力音声64についても、文字列の最初の文字、最後の文字及び文字数を求めて、図10の最初の文字65、最後の文字66及び文字数67に格納する。入力音声64、最初の文字65、最後の文字66及び文字数67を、以下の本実施形態の説明においては、入力情報94とする。
図10に示す情報を用いてどのように音声認識判定を行うかについて、具体的に説明する。
図11は、本実施形態に係るシステムコントローラ22の制御部41が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。図11を参照して、図10に示す入力情報94と部分比較用情報95とから、入力音声64から操作コマンドに対する音声認識を行って周辺機器を制御する方法について、具体的に説明する。なお、制御部41による図11の処理の開始は、上記の実施形態と同様に、システムコントローラ22の起動を契機とする。図11においては省略しているが、システムコントローラ22が起動し、図7のステップS1〜ステップS6の処理が実行された後に、図11のステップS21の処理に移行する。すなわち、図11の処理は、術者情報52や手技情報53等に対応する音声操作設定情報を読み出し、有効な音声認識コマンド55を決定した後に実行する。
まず、ステップS21で、音声の入力があったか否かを判定する。音声の入力がない場合は、音声がシステムコントローラ22の制御部41に入力されるまで待機する。音声の入力があった場合は、ステップS22に進む。
ステップS22で、入力された音声信号の信号波形を文字列化する。
ステップS23で、ステップS22で得た文字列から、文字数を算出する。そして、ステップS24で、文字列より、最初の文字と最後の文字とを抽出する。ステップS23及びステップS24で得た文字数、最初及び最後の文字を、図10の入力情報94の文字数67、最初の文字65及び最後の文字66として、入力音声(から得た文字列)64と対応付けて記憶する。
ステップS25で、部分比較用情報95に格納されている情報の中に、入力情報94の最初の文字65と一致する最初の文字69があるか否かを判定する。一致する最初の文字69が存在しない場合には、処理をステップS29へと移行させる。一致する最初の文字69が存在する場合は、ステップS26に進む。
ステップS26で、部分比較用情報95に格納されている情報の中に、抽出した最後の文字66と一致する最後の文字70があるか否かを判定する。ここでは、ステップS25において最初の文字65と一致すると判定した最初の文字69に対応する音声認識コマンド68の最後の文字70を参照して、入力情報94の最後の文字66と最後の文字70とが互いに一致するか否かを判定する。入力情報94中の最後の文字66と、比較対象の最後の文字70が互いに一致する場合には、処理をステップS29へと移行させる。入力情報94中の最後の文字66と比較対象の最後の文字70とが互いに一致する場合は、ステップS27に進む。
ステップS27で、入力情報94中の文字数67と、ステップS26において最後の文字70が入力情報94中の最後の文字67と一致した音声認識コマンド68の文字数閾値72とを比較する。文字数67が文字数閾値72を下回る場合は、処理をステップS29へと移行させる。文字数67が文字数閾値72以上である場合は、ステップS28に進む。
ステップS28及びステップS29については、図7のステップS10及びステップS11の処理とそれぞれ同様である。
なお、図11のステップS27においては、入力音声64の文字数67が部分比較用情報95のうち比較対象の音声認識コマンド68の文字数閾値72を上回るか否か、すなわち、入力音声64の文字数67が文字数71の2分の1を上回るか否かを判定している。入力音声64の文字数67が音声認識コマンド68の文字数のうち一定の割合以上を占める場合には、入力音声64と音声認識コマンド68とが完全に一致しなくとも、音声認識判定において音声認識コマンドの有効/無効判定を判定する。音声認識コマンドの有効/無効の判定は、例えば、図5や図6の音声操作設定情報を参照して行う。音声認識コマンドの有効/無効の判定方法の詳細については、上記の実施形態の説明において述べたとおりである。
図10のうち、(1)は、入力音声64が音声認識コマンド68と一致する場合を、(2)は、入力音声64が音声認識コマンド68と一致しない場合を示す。図10を参照して、本実施形態により入力音声に対応する音声認識コマンドを判断する処理による効果を説明する。
(1)のように、入力音声64の文字列が音声認識コマンド68と一致すれば、図7に示す前述の実施形態に係る方法により音声認識判定を行っても、術者等の利用者は、所望の周辺機器の制御を音声入力により行うことができる。しかし、(2)のように、入力音声64が、術者等の利用者が意図したとおりに認識されない場合には、本実施形態に係る方法により音声認識判定を行うことで、周辺機器の制御が可能となる。
具体的には、(2)に示すように、入力音声64の文字列が「でんぴめすすーりょあぷ」と認識されてしまった場合であっても、最初の文字65「で」及び最後の文字66「ぷ」は音声認識コマンド68「電気メス出力アップ」の最初の文字69及び最後の文字70とそれぞれ一致する。また、入力音声64の文字数67は、10文字と認識されており、「電気メス出力アップ」の文字数「12文字」とは異なる。このような場合であっても、音声認識コマンド68「電気メス出力アップ」の文字数閾値72である「6文字」は上回っている。このため、入力音声64の文字列が音声認識コマンドと完全に一致しなくとも、入力音声64により、音声認識コマンド「電気メス出力アップ」が入力されたと判断することができる。
文字数の多い音声認識コマンド68等については、途中の音声がノイズ等により正しく集音できず、誤った文字に認識されたり、文字抜けが生じたりすることがある。このような場合であっても、例えば最初と最後の文字のように、一部の文字が一致し、且つ文字数が一定以上音声認識コマンドに近ければ、その音声認識コマンドが音声入力されたと判断して音声認識判定を行うことで、音声認識コマンドが非認識と判断される頻度が低下する。
このように、本実施形態に係る内視鏡手術システム3においては、音声認識を行って操作コマンドを周辺機器に送信するときに、入力音声64の全てが音声認識コマンド68と一致している必要がない。入力音声64の一部(上記の例では最初と最後の1文字ずつ)が、音声認識コマンド68のうちの対応する箇所と相互に一致し、且つ入力音声64の文字数が音声認識コマンド68の文字数のうちの一定の割合以上である音声認識コマンド68の有無を判定する。条件を満たす音声認識コマンド68が部分比較用情報に含まれる場合には、条件を満たす音声認識コマンド68について、音声認識判定を行う。必ずしも入力音声64の全ての文字が音声認識コマンド68と完全に一致していなくとも、音声認識判定を行って、対応する操作コマンドを周辺機器に送信することが可能となる。これにより、上記の実施形態に係る音声認識判定処理による効果に加えて、更に、音声認識コマンドの認識率を向上させることができる。
なお、上記の実施例においては、文字列のうち、最初の文字及び最後の文字を音声認識コマンドのそれと比較しているが、これには限定されない。また、比較する文字は、文字列中の1文字ずつに限定されない。更には、上記の実施例においては、文字数閾値72として音声認識コマンド68の文字数の2分の1を設定しているが、閾値としては、音声認識コマンド68の文字数の2分の1には限定されない。また、上記の実施例においては、入力音声64の文字数を閾値と比較しているが、例えばシステムコントローラ22において入力音声の音数を認識可能な構成であれば、入力音声64の音数を、音声認識コマンド68の音数に基づき設定した閾値と比較してもよい。
<第3の実施形態>
上記の実施形態においては、図1等のマイク33から入力された音声をそのまま処理して音声認識判定処理に利用している。これに対し、本実施形態においては、システムコントローラ22は、マイク33から入力された音声を適切な音量に調整した上で音声認識判定処理を行う点で異なる。
以下に、第1の実施形態と異なる点を中心に、本実施形態に係る内視鏡手術システム3が音声認識により周辺機器の制御を行う方法について説明する。
本実施形態においては、内視鏡手術システム3の構成やシステムコントローラ22の構成については上記の実施形態と同様であり、図1及び図2のとおりであるので、ここでは説明は割愛する。
図12は、制御部41の機能ブロック図である。図12に示す制御部41は、音声認識制御部58に、入力音声信号変換部62及び音声認識判定部59に加えて、入力音量調整部63を更に備える点で上記の実施形態と異なる。
入力音量調整部63は、図2のA/D変換部45から入力されるデジタル音声信号の波形より音量を測定し、測定した音量が所定の範囲内に収まるよう音量を調整する。音量を調整した音声信号は、入力音声信号変換部62に入力される。入力音声信号変換部62及び音声認識判定部59の動作については、上記の実施形態と同様である。
本実施形態に係る音声認識判定方法について、フローチャートを参照して更に詳しく説明する。
図13は、本実施形態に係るシステムコントローラ22の制御部41が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。図13を参照して、音声信号の音量を調整した上で音声認識判定を行う方法について、具体的に説明する。なお、制御部41による図13の処理の開始は、上記の実施形態と同様に、システムコントローラ22の起動を契機とする。また、図13においては省略しているが、システムコントローラ22が起動し、図7のステップS1〜ステップS6の処理が実行された後に、図13のステップS31の処理に移行する。すなわち、図13の処理は、術者情報52や手技情報53等に対応する音声操作設定情報を読み出し、有効な音声認識コマンド55を決定した後に実行する。
まず、ステップS31で、音声の入力があったか否かを判定する。図11のステップS21と同様に、音声の入力がない場合は、音声がシステムコントローラ22の制御部41に入力されるまで待機し、音声の入力があった場合は、次のステップに進む。
ステップS32で、A/D変換部45から制御部41に入力されたデジタル音声信号波形から、入力音量を測定する。入力音量の測定技術については、公知の技術を用いている。
ステップS33で、測定した音量が、記憶部50に予め記憶されている音量基準値を満たしているか否かを判定する。音量基準値は、例えば音声認識に適切な音量の上限値と下限値とを含む。音量が音量基準値を満たしている場合は、特に処理を行わず、ステップS35に進む。音量が音量基準値を満たしていない場合は、ステップS34に進む。
ステップS34で、入力音声データの音量が音量基準値を満たすよう、入力音声信号を増減する。
ステップS35以降の処理については、図7のステップ8以降の処理と同様である。
このように、本実施形態に係る内視鏡手術システム3によれば、必要な場合には入力された音声信号の音量が音量基準値を満たすように調整した上で、音声認識判定処理を実行し、音声認識による周辺機器の制御を行う。例えば入力音量が小さい場合は、そのままの音量では入力音声の文字列化が困難で、非認識と判定されることがあるが、これを効果的に防止する。また、入力音量が大きい場合にも、音声認識のソフトウェアに適した範囲に入力音量を調整する。これにより、上記の実施形態に係る音声認識判定処理による効果に加えて、更に、非認識と判定される確率が下がることを効果的に防止する。
なお、上記の実施例においては、第1の実施形態に係る音声認識判定処理に対して音量を調整する処理を適用しているが、これに限定されるものではない。例えば、第2の実施形態に係る音声判定処理に対して音量調整処理を適用してもよい。
<第4の実施形態>
第1の実施形態においては、術者や手技、シーンごとに応じて音声認識コマンドの有効/無効を設定可能としている。これに対し、本実施形態においては、手術室ごとに音声認識コマンドの有効/無効を設定可能とする点で異なる。
以下に、第1の実施形態と異なる点を中心に、本実施形態に係る内視鏡手術システム3が音声認識により周辺機器の制御を行う方について説明する。
本実施形態においては、内視鏡手術システム3の構成やシステムコントローラ22及び制御部41の構成については上記の実施形態と同様であり、図1〜図3のとおりであるので、ここでは説明は割愛する。
ただし、本実施形態においては、記憶部50に予め登録されている音声操作設定情報は、音声認識コマンド55ごとの有効/無効状態56を、手術室を識別する手術室情報ごとに設定可能に構成されている。例えば、手術に必要な周辺機器等は内視鏡手術の種類によって異なるため、手術室ごとにそれぞれ特定の手術に適した設備を設けることがある。このような場合は、手術室ごと、すなわち内視鏡手術の種類に応じて必要性の高い音声認識コマンド55については有効に設定しておき、不要なものは無効に設定しておくことで、より効率的に誤認識を防止する。
実施例では、更に、シーンごとの音声認識コマンド55の有効/無効状態56を設定可能な構成とする。以下に、特定の手術に適した手術室において、シーンごとに有効な音声認識コマンド55を決定して音声認識判定を行い周辺機器の制御を行う方法について、フローチャートを参照して具体的に説明する。
図14は、本実施形態に係るシステムコントローラ22の制御部41が、音声認識により周辺機器の制御を行う処理を示したフローチャートである。制御部41は、表示I/F51等を介して、術者が所定の手術室に入室したことや、所定の手術室内に設置されているシステムコントローラ22が起動したことを検知したことを契機として、図14に示す処理を開始する。システムコントローラ22の制御部41は、手術室に対応する音声操作情報を読み出すと、ステップS41の処理を実行する。
ステップS41で、有効な音声認識コマンド55を決定する。有効な音声認識コマンド55の決定方法については、図7のステップS3の説明のとおりである。
ステップS42で、シーン設定するか否かを判定する。前述のとおり、音声操作設定情報は、手術室ごとに、また、シーンごとに設定されている。シーン設定を行わない場合は、特に処理を行わず、ステップS45へと処理を移行させる。シーン設定を行う場合は、ステップS43に進む。
ステップS43以降の処理については、図7のステップS5以降の処理と同様である。
このように、本実施形態に係る内視鏡手術システム3によれば、手術室ごとの音声操作情報を用いて音声認識コマンド55の有効/無効を判定することができる。特定の手術ではよく用いる音声認識コマンドについては有効に、あまり使用しない音声認識コマンドについては無効に設定しておくことで、第1の実施形態に係る内視鏡手術システム3と同様の効果を得る。
この他にも、本発明は、本発明の要旨を逸脱しない範囲内で、種々の改良及び変更が可能である。例えば、前述の各実施形態に示された全体構成からいくつかの構成要素を削除してもよく、更には各実施形態の異なる構成要素を適宜組み合わせてもよい。
更には、上記の第1〜第4の内視鏡手術システム3において、例えば術者の視線を計測する手段や検知する手段、及び音声操作用のモニタを備え、術者が音声操作をするときは、音声操作用モニタを見ることにより音声操作が有効になる構成としてもよい。図1のマイク33により、術者が音声による周辺機器の操作を考えていない場合の会話等から誤って音声認識判定を行い、周辺機器に対して誤った操作コマンドを送信して誤動作させてしまうことを効果的に防止する。

Claims (7)

  1. 音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、
    内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、
    前記術者及び手技の指定を受け付ける指定部と、
    入力された音声を認識して音声コマンドに変換する変換部と、
    前記記憶部を参照して、前記変換部において得た前記音声コマンドが、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、
    前記判定部により無効と判定されたコマンドについては、対応する周辺機器への送信処理を停止する送信部と
    を備えることを特徴とする内視鏡手術システム。
  2. 前記変換部において、音声コマンドは文字列化されたものであることを特徴とする請求項1記載の内視鏡手術システム。
  3. 前記内視鏡手術のシーンの指定を受け付けるシーン指定部と、
    を更に備え、
    前記記憶部は、前記シーンごとに前記コマンドのそれぞれが有効か無効かを、前記術者及び手技ごとに記憶し、
    前記判定部は、前記シーン指定部においてシーンを受け付けた場合は、前記文字列が、前記指定部にて受け付けた術者及び手技についての該受け付けたシーンについて、前記記憶部に有効と設定されているコマンドと一致するか否かを判定する
    ことを特徴とする請求項2記載の内視鏡手術システム。
  4. 前記判定部は、前記変換部において得た文字列が、前記記憶部に記憶されているコマンドと一部が一致するか否か、及び、該文字列の文字数または音数が、該記憶部に記憶されているコマンドの文字数または音数のうち所定の割合以上であるか否かに基づき、該文字列が該記憶部に有効と設定されているコマンドと一致するか否かを判定する
    ことを特徴とする請求項2に記載の内視鏡手術システム。
  5. 入力された音声の音量を測定し、該測定した音量が所定の範囲内に収まるよう音量を調整する調整部と、
    を更に備え、
    前記変換部は、前記調整部により音量を調整された音声に対して文字列化の処理を行う
    ことを特徴とする請求項2に記載の内視鏡手術システム。
  6. 音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、
    内視鏡手術の術者及び手技ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、
    前記術者及び手技の指定を受け付ける指定部と、
    入力された音声を認識して音声コマンドに変換する変換部と、
    前記記憶部を参照して、前記変換部において得た前記音声コマンドが、前記指定部により指定された術者及び手技については有効と設定されているコマンドと一致するか否かを判定する判定部と、
    前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部と
    を備えることを特徴とする内視鏡手術システム。
  7. 音声認識により接続されている周辺機器を制御する機能を有する内視鏡手術システムであって、
    内視鏡手術を行う部屋ごとに、前記周辺機器を制御するためのコマンド及び該コマンドのそれぞれが有効か無効かを対応付けて記憶する記憶部と、
    内視鏡手術を行う部屋を識別する情報を受け付ける指定部と、
    入力された音声を認識して音声コマンドに変換する変換部と、
    前記記憶部を参照して、前記変換部において得た前記音声コマンドが、前記指定部により指定された部屋については有効と設定されているコマンドと一致するか否かを判定する判定部と、
    前記判定部により一致すると判定されたコマンドを、対応する周辺機器に送信する送信部と
    を備えることを特徴とする内視鏡手術システム。
JP2013518032A 2011-10-25 2012-10-18 内視鏡手術システム Active JP5326066B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013518032A JP5326066B1 (ja) 2011-10-25 2012-10-18 内視鏡手術システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011233559 2011-10-25
JP2011233559 2011-10-25
PCT/JP2012/076906 WO2013061857A1 (ja) 2011-10-25 2012-10-18 内視鏡手術システム
JP2013518032A JP5326066B1 (ja) 2011-10-25 2012-10-18 内視鏡手術システム

Publications (2)

Publication Number Publication Date
JP5326066B1 true JP5326066B1 (ja) 2013-10-30
JPWO2013061857A1 JPWO2013061857A1 (ja) 2015-04-02

Family

ID=48167689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013518032A Active JP5326066B1 (ja) 2011-10-25 2012-10-18 内視鏡手術システム

Country Status (5)

Country Link
US (1) US8903728B2 (ja)
EP (1) EP2665059B1 (ja)
JP (1) JP5326066B1 (ja)
CN (1) CN103460281B (ja)
WO (1) WO2013061857A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6102588B2 (ja) * 2013-07-10 2017-03-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
EP3089158B1 (en) * 2013-12-26 2018-08-08 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing
WO2016063621A1 (ja) 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
JP6259530B2 (ja) * 2014-10-24 2018-01-10 株式会社ソニー・インタラクティブエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
EP3252702A4 (en) * 2015-01-28 2018-10-24 Olympus Corporation Examination work support system
CN106328137A (zh) * 2016-08-19 2017-01-11 镇江惠通电子有限公司 语音控制方法、装置及系统
CN106128457A (zh) * 2016-08-29 2016-11-16 昆山邦泰汽车零部件制造有限公司 一种对话机器人的控制方法
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
JP6901590B2 (ja) * 2017-12-11 2021-07-14 オリンパス株式会社 集中制御装置及び医療機器を含む1又は2以上の被制御装置を制御する集中制御装置の作動方法
CN108055617B (zh) * 2017-12-12 2020-12-15 广东小天才科技有限公司 一种麦克风的唤醒方法、装置、终端设备及存储介质
WO2019116644A1 (ja) * 2017-12-13 2019-06-20 オリンパス株式会社 内視鏡システムおよび制御方法
CN108652675A (zh) * 2018-02-11 2018-10-16 江苏金羿智芯科技有限公司 一种基于人工智能的内窥镜图像去雾系统
JP2020190756A (ja) * 2020-08-24 2020-11-26 ヤマハ株式会社 管理装置およびプログラム
JP2022062490A (ja) * 2020-10-08 2022-04-20 富士フイルム株式会社 内視鏡システム及びその作動方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175095A (ja) * 1997-12-11 1999-07-02 Hitachi Medical Corp 医用診断装置
JP2002132283A (ja) * 2000-10-25 2002-05-09 Olympus Optical Co Ltd 医療用制御システム
JP2004199004A (ja) * 2002-12-20 2004-07-15 Olympus Corp 音声入力医用制御システム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3438293B2 (ja) 1993-09-30 2003-08-18 株式会社明電舎 音声認識における単語テンプレートの自動作成方法
US6463361B1 (en) * 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6911916B1 (en) * 1996-06-24 2005-06-28 The Cleveland Clinic Foundation Method and apparatus for accessing medical data over a network
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes
EP0911808B1 (en) * 1997-10-23 2002-05-08 Sony International (Europe) GmbH Speech interface in a home network environment
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
JP3383640B2 (ja) 2000-10-13 2003-03-04 スーパーマリンガスタービン技術研究組合 熱交換器
JP2002123291A (ja) 2000-10-18 2002-04-26 Olympus Optical Co Ltd システム制御装置
JP3678360B2 (ja) 2002-01-31 2005-08-03 日本電信電話株式会社 音声入力を利用する漢字文字列特定装置およびその方法
JP4107093B2 (ja) * 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
US7297148B2 (en) * 2003-05-22 2007-11-20 Bruce Waxman Surgical safety procedure and apparatus
US7373248B2 (en) * 2004-09-10 2008-05-13 Atx Group, Inc. Systems and methods for off-board voice-automated vehicle navigation
WO2006057839A1 (en) * 2004-11-23 2006-06-01 Medical Digital Developers Llc Medical media capture system and method
JP4305483B2 (ja) * 2006-09-12 2009-07-29 ソニー株式会社 映像信号生成装置,映像信号受信装置及び映像信号生成・受信システム
US8014756B1 (en) * 2007-02-28 2011-09-06 Intuit Inc. Mobile authorization service
WO2009048984A1 (en) * 2007-10-08 2009-04-16 The Regents Of The University Of California Voice-controlled clinical information dashboard

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175095A (ja) * 1997-12-11 1999-07-02 Hitachi Medical Corp 医用診断装置
JP2002132283A (ja) * 2000-10-25 2002-05-09 Olympus Optical Co Ltd 医療用制御システム
JP2004199004A (ja) * 2002-12-20 2004-07-15 Olympus Corp 音声入力医用制御システム

Also Published As

Publication number Publication date
EP2665059A4 (en) 2014-09-10
WO2013061857A1 (ja) 2013-05-02
CN103460281A (zh) 2013-12-18
EP2665059A1 (en) 2013-11-20
JPWO2013061857A1 (ja) 2015-04-02
CN103460281B (zh) 2015-12-23
US8903728B2 (en) 2014-12-02
US20130281987A1 (en) 2013-10-24
EP2665059B1 (en) 2016-02-10

Similar Documents

Publication Publication Date Title
JP5326066B1 (ja) 内視鏡手術システム
US8010368B2 (en) Surgical system controlling apparatus and surgical system controlling method
EP1691312A2 (en) Surgery data display device, surgery data storing device, and surgery data storing display method
US20060200354A1 (en) Medical practice support system
JP2006280804A (ja) 内視鏡システム
JPWO2013099580A1 (ja) 医療用内視鏡システム
US10130240B2 (en) Medical system
JP2004275360A (ja) 内視鏡システム
US20220008161A1 (en) Information processing device, presentation method, and surgical system
JP2003084794A (ja) 音声制御システム
JP2006221583A (ja) 医療支援システム
JP2007080094A (ja) アプリケーション起動管理システム
JP2004267634A (ja) 手術システム及び画像表示方法
JPWO2014196292A1 (ja) 医療支援装置及び医療支援装置の作動方法
JP2001299691A (ja) 内視鏡装置の操作システム
JP2003164412A (ja) 制御システム
JP4727066B2 (ja) 内視鏡システム
JP4127769B2 (ja) 医療制御システム
JP2001299675A (ja) 内視鏡装置の操作システム
JP2006218230A (ja) 医療用システム
EP2124222A1 (en) Operation system-controlling apparatus and operation system- controlling method
JP7451707B2 (ja) 制御装置、データログの表示方法及び医療用集中制御システム
JP2002123294A (ja) 医療システム
JP2006305155A (ja) 制御装置
JP2003084791A (ja) 音声制御システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130722

R151 Written notification of patent or utility model registration

Ref document number: 5326066

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250