JP2017173720A - 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 - Google Patents

音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 Download PDF

Info

Publication number
JP2017173720A
JP2017173720A JP2016062072A JP2016062072A JP2017173720A JP 2017173720 A JP2017173720 A JP 2017173720A JP 2016062072 A JP2016062072 A JP 2016062072A JP 2016062072 A JP2016062072 A JP 2016062072A JP 2017173720 A JP2017173720 A JP 2017173720A
Authority
JP
Japan
Prior art keywords
mode
switching
voice command
voice
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016062072A
Other languages
English (en)
Other versions
JP6768323B2 (ja
Inventor
麻衣 海原
Mai Kaihara
麻衣 海原
裕 松井
Yutaka Matsui
裕 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2016062072A priority Critical patent/JP6768323B2/ja
Publication of JP2017173720A publication Critical patent/JP2017173720A/ja
Application granted granted Critical
Publication of JP6768323B2 publication Critical patent/JP6768323B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声コマンドにより好適にモードを切替える。【解決手段】音声認識装置は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び第1モードから第2モードへのモード切換えを行う第1切換え手段(150)と、第1音声コマンドとは異なる第2音声コマンドに反応して、第2モードから第1モードへのモード切換えを行う第2切換え手段(150)と、第1モード又は第2モードに応じた画像を表示部に表示させる表示制御部(160)とを備える。【選択図】図1

Description

本発明は、例えば音声コマンドを認識して複数のモード間のモード切替えを行う音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体の技術分野に関する。
医療現場等では、手を触れることなく各種機器を操作できることが要求される場合がある。このような要求に対して、例えば特許文献1では、画像操作を行うための音声が認識された場合に、視線位置座標を基点として医療画像の操作を行うという技術が提案されている。
特開2015−93147号公報
しかしながら、特許文献1のように音声を認識して機器を操作する場合、機器の操作を意図しない音声によって誤った操作が実行されてしまうおそれがある。例えば、通常の会話に含まれる単語が、機器操作用の音声コマンドとして認識されてしまうことで、意図しない操作が実行されてしまう可能性がある。このような場合、機器が適切に操作されないことに起因して、様々な不都合が生じ得る。特に、医療現場においては、安全かつ迅速な処置が求められるため、1回の誤操作が極めて甚大な被害を招いてしまうおそれがある
本発明が解決しようとする課題には、上記のようなものが一例として挙げられる。本発明は、音声による正確な機器操作を実現することが可能な音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体を提供することを課題とする。
上記課題を解決するための音声認識装置は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部とを備える。
上記課題を解決するための第2の音声認識装置は、第1音声コマンドに反応可能な第1モードと、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応可能な第2モードと、前記第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、を備える。
上記課題を解決するための音声認識方法は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とを備える。
上記課題を解決するためのコンピュータプログラムは、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とをコンピュータに実行させる。
上記課題を解決するための記録媒体は、上述したコンピュータプログラムが記録されている。
実施例に係る音声認識装置の構成を示すブロック図である。 実施例に係る音声認識装置で切り替え可能な各モードを示すモード遷移図である。 実施例に係る音声認識装置の動作の流れを示すフローチャートである。 通常モードからのモード切替え方法を示す概念図である。 特殊モードからのモード切替え方法を示す概念図である。 特殊モードから任意の通常モードに切替える方法を示す概念図である。 特殊モードにおける通常モードの一部表示例を示す概念図である。 通常モードから任意の特殊モードに切替える方法を示す概念図である。
<1>
本実施形態に係る音声認識装置は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部とを備える。
本実施形態に係る音声認識装置によれば、その動作時には、第1切換え手段により、複数の第1モード間の切換え、及び第1モードから第2モードへのモード切替えが行われる。第1切換え手段は、第1音声コマンドに反応してモード切替えを行う。第1音声コマンドは、各モードに切換えを行うための音声コマンドとして、モード毎に予め設定されている。
また本実施形態では、第2切換え手段により、第2モードから第1モードへのモード切換えが行われる。第2切換え手段は、第2音声コマンドに応じて、第2モードから第1モードへの切換えを行う。第2音声コマンドは、第1音声コマンドとは異なる音声コマンドとして予め設定されている。
表示制御部は、第1モード又は第2モードに応じた画像を表示部に表示させる。このため、第1切換え手段及び第2切換え手段によりモードが切換えられると、表示部に表示される画像も切換えられることになる。
本実施形態では特に、第1モード時には、第1音声コマンドによって他の各モードへの切換えが行える。即ち、第1モードからは、第1音声コマンドによって他の第1モードに切替えることもできるし、第1音声コマンドによって第2モードに切替えることもできる。一方、第2モード時には、第2音声コマンドでしか他のモードへの切換えが行えない。即ち、第2モード時に第1音声コマンドが認識されたとしても、他のモードへの切換えは行われない。
このように構成すれば、第2モードから他のモードへの切換え方法が限定されることになるため、第2モードから第1モードへの切換えを意図しない場合に、誤って第1モードへの切換えが行われてしまうことを防止できる。具体的には、モード切替えを意図せず発した音声がモードを切替えるための音声コマンドとして認識されてしまい、不適切なモード切替えが行われてしまうことを防止できる。
以上説明したように、本実施形態に係る音声認識装置によれば、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
<2>
本実施形態に係る音声認識装置の一態様では、前記表示制御部は、前記第2モード時に暗転画像を表示させる。
この態様によれば、第2モード時において表示される暗転画像が、意図せずに第1モードに応じた画像に切換えられてしまうことを防止できる。このようにすれば、周囲が暗い状況(即ち、暗転画像を表示させた状態)で行うべき作業をしている際に、明るい状況(第1モードに応じた画像を表示させた状態)になってしまうことを防止できる。
なお、暗転画像を表示させる具体的な状況例としては、医療現場における暗室処理(例えば、蛍光診断)等が挙げられる。
<3>
本実施形態に係る音声認識装置の他の態様では、前記表示制御部は、前記第2モード時に、前記第2モードに応じた画像の一部に前記第1モードに応じた画像の少なくとも一部を表示させる。
この態様によれば、第2モード時においても、第1モードに応じた画像の少なくとも一部を視認することができる。即ち、第2モード時においても、他のモードで示される情報を確認することができる。このため、例えば第2モードにおいて暗転画像をさせている場合であっても、周囲を比較的暗い状況に保ったまま、第1モードで示される情報を確認できる。
<4>
本実施形態に係る音声認識装置の他の態様では、前記第2切換え手段は、前記第2音声コマンドに反応して、前記第2モードに切替える直前の前記第1モードへのモード切替えを行う。
この態様によれば、第2モードから第1モードへの切換えが行われる場合には、第2モードに切換えられる直前の第1モードへと切換えられる。このようにすれば、複数存在する第1のモードに対して容易にモード切替えが行える。
<5>
本実施形態に係る音声認識装置の他の態様では、前記第2音声コマンドは、当該音声認識装置が使用され得る環境で発せられる可能性が低い単語又は擬音である。
この態様によれば、意図せずして第2音声コマンドが発せられてしまうことを抑制できる。よって、第2モードから第1モードへの切換えを効果的に制限することが可能である。なお、「音声認識装置が使用され得る環境で発せられる可能性が低い単語」は、予め音声認識装置が使用され得る環境において発せられる単語を調べておき、高い頻度で発せられる単語を除外するようにして設定すればよい。或いは、全く意味を持たない単語(通常では使用されない単語)を用いてもよい。「擬音」は、人が発することができる声以外の音であり、例えば舌打ち等の音が一例として挙げられる。
<6>
本実施形態に係る音声認識装置の他の態様では、前記表示制御部は、手術時に目視すべき画像を表示させる。
この態様によれば、手術中の医師等が、音声を利用して好適にモード切替えを行うことができる。また、第2モード時に暗転画像を表示させるようにすれば、暗室処置を好適に行うことが可能である。
<7>
本実施形態に係る音声認識装置の他の態様では、前記第2切換え手段は、前記第2音声コマンドに前記第1モードの各々に対応する第3音声コマンドを組み合わせた音声コマンドに反応して、前記第2モードから前記第3音声コマンドに対応した前記第1モードへのモード切替えを行う。
この態様によれば、第2音声コマンドに第3音声コマンドを組み合わせることで、第2モードから任意の第1モードへの切換えが可能となる。第3音声コマンドは、複数の第1モードの各々に切換えを行うための音声コマンドとして、モード毎に予め設定されている。なお、第3音声コマンドは、第1音声コマンドと同一のものであっても構わない。
<8>
本実施形態に係る音声認識装置の他の態様では、前記第2音声コマンドは、所定の音声に視線の動き又はジェスチャーを組み合わせたものである。
この態様によれば、第2音声コマンドを認識させるためには、所定の音声を発するだけでなく、視線の動きやジェスチャー等を行うことが要求される。よって、モード切替えを意図せずに発した音声が第2音声コマンドとして認識されてしまうことを好適に回避できる。
<9>
本実施形態に係る音声認識装置の他の態様では、第2切換え手段は、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応し、前記第2モードから前記第1モードへのモード切換えを行う。
この態様によれば、第2モードから第1モードへのモード切替え時には、第2切換え手段が第2音声コマンドにのみ反応する。このため、第2モードが誤って第1モードにモード切替えされてしまうことを防止することができる。
<10>
本実施形態に係る第2の音声認識装置は、第1音声コマンドに反応可能な第1モードと、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応可能な第2モードと、前記第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、を備える。
本実施形態に係る第2の音声認識装置によれば、第1モードと第2モードとの間でモード切換えを行うことができる。本実施形態では特に、第1モードが第1音声コマンドに反応可能とされている一方で、第2モードは第2音声コマンドにのみ反応可能とされている。即ち、第2モードはから第1モードへのモード切替えは、第2音声コマンドでしか行えず、第1音声コマンドや他の音声コマンドではモード切替えは行えない。
上述した構成によれば、第2モードでの作業中に、意図せぬ音声コマンドの認識によって、第2モードが他のモードにモード切替えされてしまうことを防止することができる。
<11>
本実施形態に係る音声認識方法は、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とを備える。
本実施形態に係る音声認識方法によれば、上述した本実施形態に係る音声認識装置と同様に、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
なお、本実施形態に係る音声認識方法においても、上述した本実施形態に係る音声認識装置における各種態様と同様の各種態様を採ることが可能である。
<12>
本実施形態に係るコンピュータプログラムは、第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程とをコンピュータに実行させる。
本実施形態に係るコンピュータプログラムによれば、上述した本実施形態に係る音声認識方法と同様の処理をコンピュータに実行させることができるため、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
なお、本実施形態に係るコンピュータプログラムにおいても、上述した本実施形態に係る音声認識装置における各種態様と同様の各種態様を採ることが可能である。
<13>
本実施形態に係る記録媒体は、上述したコンピュータプログラムが記録されている。
本実施形態に係る記録媒体によれば、上述したコンピュータプログラムをコンピュータにより実行させることにより、複数の第1モードと第2モードとの間で、好適なモード切替えを実現することができる。
本実施形態に係る音声認識装置及び音声認識方法、並びにコンピュータプログラム及び記録媒体の作用及び他の利得については、以下に示す実施例において、より詳細に説明する。
以下では、音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体の実施例について、図面を参照しながら詳細に説明する。なお、以下では、音声認識装置が医療現場の手術室で用いられる表示システムに適用される場合を例にとり説明する。
<装置構成>
先ず、本実施例に係る音声認識装置の構成について、図1を参照して説明する。ここに図1は、実施例に係る音声認識装置の構成を示すブロック図である。
図1において、本実施例に係る音声認識装置は、音声取得部110と、音声認識部120と、モード判定部130と、音声コマンド判定部140と、モード変更部150と、画面遷移部160とを備えて構成されている。
音声取得部110は、例えばマイクロフォンを含んで構成されており、取得した音声を示す音声信号を出力可能に構成されている。音声取得部110から出力された音声信号は、音声認識部120に出力される構成となっている。
音声認識部120は、音声信号が示す音声に含まれている単語(即ち、モードを切替えるための音声コマンドとして認識され得るワード)を認識することが可能に構成されている。音声認識部120で認識された単語は、該単語を示す信号として音声コマンド判定部140に出力される構成となっている。
モード判定部130は、音声認識装置の現在のモードに関する情報を取得することが可能に構成されている。なお、音声認識装置における各モードについては、後に詳述する。モード判定部130で取得されたモードに関する情報は、音声コマンド判定部140に出力される構成となっている。
音声コマンド判定部140は、音声認識部で認識された単語が、モードに応じた音声コマンドであるか否かを判定可能に構成されている。音声コマンド判定部140は、具体的な処理を実行するものとして、モード認識部141、一致率算出部142、及び一致率判定部143を備えている。
モード認識部141は、モード判定部130から入力された現在のモードに関する情報に基づいて、認識すべき音声コマンドを決定する。言い換えれば、モードに応じた音声コマンドを選択する。
一致率算出部142は、音声認識部120で認識された単語と、予め登録されている音声コマンドとの一致率を算出する。なお、一致率の算出方法については、既存の様々な技術を採用することができるため、ここでの詳細な説明は省略する。
一致率判定部143は、モード認識部141で認識されたモードと、一致率算出部142で算出された一致率とに基づいて、取得された音声が認識すべき音声コマンドであるか否かを判定する。
なお、音声コマンド判定部140では、上記一致率とは異なる指標を利用して音声コマンドであるか否かを判定するようにしても構わない。音声コマンド判定部140における判定結果は、モード変更部150に出力される構成となっている。
モード変更部150は、音声コマンドに応じてモードを切替えることが可能に構成されている。モード変更部150は、モードを切換えた結果を画面遷移部160に出力するように構成されている。
画面遷移部160は、モード変更部150においてモードが切換えられた際に、外部の表示部(例えば、液晶ディスプレイ等)の表示を、変更後のモードに応じたものに切替えることが可能に構成されている。
<モード説明>
次に、上述した音声認識装置によって切換えられる各モードについて、図2を参照して具体的に説明する。ここに図2は、実施例に係る音声認識装置で切り替え可能な各モードを示すモード遷移図である。
図2に示すように、本実施例に係る認識装置は、3つの通常モード(NAVIモード、GEFモード、及びPREOPEモード)と、1つの特殊モード(暗転モード)との間で相互にモード切替えを行うことができる。
NAVIモードは、所謂デフォルト画面に相当するモードであり、手術中の患者の表情及び四肢の画像、並びにBIS値やT1/T2画像を表示するモードである。なお、BIS値は、麻酔を使用する手術において患者の沈静度を示す値である。また、T1/T2画像は、MRI(Magnetic Resonance Imaging)による撮影時において、強調する物質を変更した際に撮影される画像である。
GEF(Gefrierschnitt:ゲフリール)モードは、生体検査結果を表示するモードであり、採取組織ごとの分析結果等を表示させることが可能である。
PREOPE(Preoperative:術前診断)モードは、術前画像を表示するモードである。図に示す例では、脳に関する情報を示す画像が表示されている。
暗転モードは、暗転画像(即ち、黒画面)を表示するためのモードであり、暗室処置等を行うために画面の光を遮断したい場合に用いられる。
なお、上記モードは一例であり、複数の通常モードと、少なくとも1つの特殊モードとを相互に切替えるものであれば、本実施例に係る音声認識装置を適用することが可能である
<処理説明>
次に、本実施例に係る音声認識装置の動作について、図3を参照して説明する。ここに図3は、本実施例に係る音声認識装置の動作の流れを示すフローチャートである。
図3において、本実施例に係る音声認識装置の動作時には、まず音声取得部110において音声が取得される(ステップS101)。取得された音声は、音声認識部120において認識され(ステップS102)、音声コマンド判定部140に出力される。また、上述した音声の取得及び認識に並行して、又は相前後して、モード判定部130による現在のモード確認が行われる(ステップS103)。現在のモードに関する情報は、音声コマンド判定部140に出力される。
音声コマンド判定部140では、取得された音声に含まれる単語と、予め音声コマンドとして登録された単語との一致率が算出される(ステップS104)。なお、一致率は複数の単語の各々に対応する複数の値として算出されるが、結果として出力されるのは最も高い一致率のみである。
一致率が算出されると、現在のモードが通常モードであるか否かが判定される(ステップS105)。即ち、現在のモードが、通常モード(即ち、NAVIモード、GEFモード、又はPREOPEモード)なのか、それとも特殊モード(即ち、暗転モード)なのかが判定される。
現在のモードが通常モードである場合(ステップS105:YES)、一致率の最も高いコマンドが通常コマンドであり、且つ一致率が所定の閾値以上であるか否かが判定される(ステップS106)。なお、通常コマンドは、「第1音声コマンド」の一具体例であり、通常モード間でのモード切替え、及び通常モードから特殊モードへのモード切替えを行うための音声コマンドとして、モード毎に決められている。具体的には、通常モード間でのモード切替えは、モード名がそのまま音声コマンドとなっている。一方で、通常モードから特殊モードへのモード切替えは、「暗転」というワードが音声コマンドとして登録されている。なお、所定の閾値は、認識された音声が音声コマンドであるか否かを判定するために設定された閾値であり、最適な値が予め設定されている。
一致率の最も高いコマンドが通常コマンドであり、且つ一致率が所定の閾値以上である場合(ステップS106:YES)、モード変更部150において、現在のモードから通常コマンドが示す他のモードへのモード切換えが行われる(ステップS107)。そして、画面遷移部160によって、表示部の画面が変更後のモードに応じたものへ遷移される(ステップS108)。なお、一致率の最も高いコマンドが通常コマンドでない、或いは一致率が所定の閾値以上でない場合(ステップS106:NO)、音声コマンド判定はエラーとなり、モード変更部150によるモード変更は行われない(ステップS109)。
他方、現在のモードが特殊モードである場合(ステップS105:NO)、一致率の最も高いコマンドが特殊コマンドであり、且つ一致率が所定の閾値以上であるか否かが判定される(ステップS110)。なお、特殊コマンドは、「第2音声コマンド」の一具体例であり、特殊モードから通常モードへのモード切替えを行うための音声コマンドとして、通常コマンドとは異なるものが設定されている。本実施例では、「再開」というワードが特殊コマンドとして設定されている。
一致率の最も高いコマンドが特殊コマンドであり、且つ一致率が所定の閾値以上である場合(ステップS110:YES)、モード変更部150において、特殊モードから通常モードへのモード切換えが行われる(ステップS111)。そして、画面遷移部160によって、表示部の画面が変更後のモードに応じたものへ遷移される(ステップS112)。なお、一致率の最も高いコマンドが特殊コマンドでない、或いは一致率が所定の閾値以上でない場合(ステップS110:NO)、音声コマンド判定はエラーとなり、モード変更部150によるモード変更は行われない(ステップS113)。
<具体的なモード切替え動作>
次に、音声コマンドを用いた具体的なモード切替え動作について、図4から図8を参照して説明する。ここに図4は、通常モードからのモード切替え方法を示す概念図であり、図5は、特殊モードからのモード切替え方法を示す概念図である。また図6は、特殊モードから任意の通常モードに切替える方法を示す概念図であり、図7は、特殊モードにおける通常モードの一部表示例を示す概念図である。図8は、通常モードから任意の特殊モードに切替える方法を示す概念図である。
図4に示すように現在のモードが通常モードのGEFモードであるとする。この状態で、「NAVIモード」というワードを含む音声が取得されると、NAVIモードへの切換えに対応する通常コマンド「NAVIモード」が認識され、GEFモードからNAVIモードへのモード切替えが行われる。同様に、「PREOPEモード」というワードを含む音声が取得されると、PREOPEモードへの切換えに対応する通常コマンド「PREOPEモード」が認識され、GEFモードからPREOPEモードへのモード切替えが行われる。
また、「暗転」というワードを含む音声が取得されると、暗転モードへの切換えに対応する通常コマンド「暗転」が認識され、GEFモードから暗転モードへのモード切替えが行われる。
このように、通常モードであるGEFモードからは、通常コマンドによるモード切替えが行える。
図5に示すように現在のモードが特殊モードの暗転モードであるとする。この状態で、「NAVIモード」というワードを含む音声が取得されると、NAVIモードへの切換えに対応する通常コマンド「NAVIモード」が認識されるが、特殊モード時には通常コマンドによるモード切替えは行われない。このため、暗転モードからNAVIモードへのモード切替えは行われない。
一方、「再開」ワードを含む音声が取得されると、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識され、暗転モードからGEFモード(暗転モードに切換える直前の通常モード)へのモード切替えが行われる。
このように、特殊モードである暗転モードからは、通常コマンドによるモード切替えが行えない。一方で、特殊コマンドを利用すれば、特殊モードから通常モードへのモード切替えが行える。
図6に示すように、再び現在のモードが特殊モードの暗転モードである場合を考える。この状態で「再開」ワードを含む音声が取得されると、既に説明したように、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識され、暗転モードからGEFモード(暗転モードに切換える直前の通常モード)へのモード切替えが行われる。
一方で、「再開」及び「NAVIモード」というワードが連続して取得されると、特殊モードから通常モードへの切換えに対応する特殊コマンド「再開」が認識されると共に、切換え先としてNAVIモードを指定する指定コマンド「NAVIモード」が認識され、暗転モードからNAVIモード(指定コマンドに応じたモード)へのモード切替えが行われる。なお、指定コマンドは、「第3音声コマンド」の一具体例であり、切り替え先のモードを指定するためのコマンドとして、モード毎に設定されている。具体的には、通常コマンドと同様にモード名がそのまま指定コマンドとなっている。
このように、特殊コマンド及び指定コマンドを組み合わせれば、特殊モードから任意の通常モードへの切換えが行える。即ち、特殊モードに切換えられる直前の通常モード以外の通常モードに切替えることが可能となる。
図7に示すように、暗転モードは、暗転画像だけを示すものでなくともよい。本実施例では、NAVIモードが暗転モードに切換えられた場合には、暗転画像のみを示す暗転モード(NAVI)が実現される。一方で、GEFモードが暗転モードに切換えられた場合には、暗転画像にGEFモードの重要な情報の一部を表示する暗転モード(GEF)が実現され、PREOPEモードが暗転モードに切換えられた場合には、暗転画像にPREOPEモードの重要な情報の一部を表示する暗転モード(PREOPE)が実現される。
このようにすれば、暗転モードによる処置中も、通常モードで示される情報を確認することができる。
図8に示すように、現在のモードが通常モードのNAVIモードであるとする。この状態で、「暗転」というワードを含む音声が取得されると、既に説明したように、暗転モードへの切換えに対応する通常コマンド「暗転」が認識され、NAVIモードから暗転モードへのモード切替えが行われる。
一方で、「暗転」及び「GEFモード」というワードが連続して取得されると、暗転モードへの切換えに対応する通常コマンド「暗転」が認識されると共に、GEFモードの一部表示を要求する表示コマンド「GEFモード」が認識され、NAVIモードからGEFモードの重要な情報の一部を表示する暗転モード(GEF)へのモード切替えが行われる。なお、表示コマンドは、暗転画像に一部表示する通常モードを指定するためのコマンドとして、モード毎に設定されている。具体的には、通常コマンドと同様にモード名がそのまま指定コマンドとなっている。
このように、通常コマンド及び表示コマンドを組み合わせれば、通常モードから任意の特殊モードへの切換えが行える。即ち、暗転画像に任意の通常モードを一部表示させることが可能となる。
<実施例の効果>
最後に、本実施例に係る音声認識装置によって得られる技術的効果について詳細に説明する。
図1から図5で説明したように、本実施例に係る音声認識装置によれば、通常モード時には、通常コマンドによって他の各モードへの切換えが行える。即ち、通常モードからは、通常コマンドによって他の通常モードに切替えることもできるし、通常コマンドによって特殊モードに切替えることもできる。一方、特殊モード時には、特殊コマンドでしか他のモードへの切換えが行えない。即ち、特殊モード時に通常コマンドが認識されたとしても、通常モードへの切換えは行われない。
従って、特殊モードから通常モードへの切換え方法が限定されることになるため、特殊モードから通常モードへの切換えを意図しない場合に、誤って通常モードへの切換えが行われてしまうことを防止できる。
仮に、特殊モード時にも通常コマンドによるモード切替えが可能であるとすると、暗転モード時において「さっきNAVIモードで見た…」という会話をした場合に、「NAVIモード」という通常コマンドが認識され、NAVIモードへの切換えが実行されてしまう。この場合、暗転モードで暗室処置を行っていたとすると、NAVIモードへの切換えによって暗室状態が解除され、適切な暗室処理が行えなくなってしまう。医療現場において、このような不都合は甚大な被害を招くおそれがある。
これに対し、本実施例に係る音声認識装置によれば、モード切替えを意図せず発した音声がモードを切替えるための音声コマンドとして認識されてしまい、不適切なモード切替えが行われてしまうことを防止できる。
また、図6から図8で説明したように、指定コマンド及び表示コマンドを組み合わせることで、より適切なモード切換えが行える。従って、確認すべき情報を極めて好適に表示させることが可能となる。
本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う音声認識装置及び音声認識方法、並びにコンピュータプログラム及び記録媒体もまた本発明の技術的範囲に含まれるものである。
110 音声取得部
120 音声認識部
130 モード判定部
140 音声コマンド判定部
141 モード認識部
142 一致率算出部
143 一致率判定部
150 モード変更部
160 画面遷移部

Claims (13)

  1. 第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え手段と、
    前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、
    前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御部と
    を備えることを特徴とする音声認識装置。
  2. 前記表示制御部は、前記第2モード時に暗転画像を表示させることを特徴とする請求項1に記載の音声認識装置。
  3. 前記表示制御部は、前記第2モード時に、前記第2モードに応じた画像の一部に前記第1モードに応じた画像の少なくとも一部を表示させることを特徴とする請求項1又は2に記載の音声認識装置。
  4. 前記第2切換え手段は、前記第2音声コマンドに反応して、前記第2モードに切替える直前の前記第1モードへのモード切替えを行うことを特徴とする請求項1から3のいずれか一項に記載の音声認識装置。
  5. 前記第2音声コマンドは、当該音声認識装置が使用され得る環境で発せられる可能性が低い単語又は擬音であることを特徴とする請求項1から4のいずれか一項に記載の音声認識装置。
  6. 前記表示制御部は、手術時に目視すべき画像を表示させることを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。
  7. 前記第2切換え手段は、前記第2音声コマンドに前記第1モードの各々に対応する第3音声コマンドを組み合わせた音声コマンドに反応して、前記第2モードから前記第3音声コマンドに対応した前記第1モードへのモード切替えを行うことを特徴とする請求項1から6のいずれか一項に記載の音声認識装置。
  8. 前記第2音声コマンドは、所定の音声に視線の動き又はジェスチャーを組み合わせたものであることを特徴とする請求項1から7のいずれか一項に記載の音声認識装置。
  9. 第2切換え手段は、前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応し、前記第2モードから前記第1モードへのモード切換えを行うことを特徴とする請求項1から6のいずれか一項に記載の音声認識装置。
  10. 第1音声コマンドに反応可能な第1モードと、
    前記第1モードに切り替えるための、前記第1音声コマンドとは異なる第2音声コマンドにのみ反応可能な第2モードと、
    前記第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え手段と、
    を備えることを特徴とする音声認識装置。
  11. 第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、
    前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、
    前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程と
    を備えることを特徴とする音声認識方法。
  12. 第1音声コマンドに反応して、複数の第1モード間のモード切換え及び前記第1モードから第2モードへのモード切換えを行う第1切換え工程と、
    前記第1音声コマンドとは異なる第2音声コマンドに反応して、前記第2モードから前記第1モードへのモード切換えを行う第2切換え工程と、
    前記第1モード又は前記第2モードに応じた画像を表示部に表示させる表示制御工程と
    をコンピュータに実行させることを特徴とするコンピュータプログラム。
  13. 請求項12に記載のコンピュータプログラムが記録されていることを特徴とする記録媒体。
JP2016062072A 2016-03-25 2016-03-25 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体 Active JP6768323B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016062072A JP6768323B2 (ja) 2016-03-25 2016-03-25 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016062072A JP6768323B2 (ja) 2016-03-25 2016-03-25 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2017173720A true JP2017173720A (ja) 2017-09-28
JP6768323B2 JP6768323B2 (ja) 2020-10-14

Family

ID=59971165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016062072A Active JP6768323B2 (ja) 2016-03-25 2016-03-25 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP6768323B2 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267837A (ja) * 1999-03-15 2000-09-29 Nippon Hoso Kyokai <Nhk> マンマシンインターフェース装置およびマンマシンインターフェース制御プログラムを記録した記録媒体
JP2001095819A (ja) * 1999-10-01 2001-04-10 Olympus Optical Co Ltd 顔面装着型映像表示装置
JP2002123294A (ja) * 2000-10-18 2002-04-26 Olympus Optical Co Ltd 医療システム
JP2002207497A (ja) * 2001-01-05 2002-07-26 Asahi Optical Co Ltd 電子内視鏡システム
JP2004301875A (ja) * 2003-03-28 2004-10-28 Toyota Central Res & Dev Lab Inc 音声認識装置
JP2004301893A (ja) * 2003-03-28 2004-10-28 Fuji Photo Film Co Ltd 音声認識装置の制御方法
JP2007052397A (ja) * 2005-07-21 2007-03-01 Denso Corp 操作装置
JP2007121579A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 操作装置
JP2011128766A (ja) * 2009-12-16 2011-06-30 Canon Inc 入力装置及び方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267837A (ja) * 1999-03-15 2000-09-29 Nippon Hoso Kyokai <Nhk> マンマシンインターフェース装置およびマンマシンインターフェース制御プログラムを記録した記録媒体
JP2001095819A (ja) * 1999-10-01 2001-04-10 Olympus Optical Co Ltd 顔面装着型映像表示装置
JP2002123294A (ja) * 2000-10-18 2002-04-26 Olympus Optical Co Ltd 医療システム
JP2002207497A (ja) * 2001-01-05 2002-07-26 Asahi Optical Co Ltd 電子内視鏡システム
JP2004301875A (ja) * 2003-03-28 2004-10-28 Toyota Central Res & Dev Lab Inc 音声認識装置
JP2004301893A (ja) * 2003-03-28 2004-10-28 Fuji Photo Film Co Ltd 音声認識装置の制御方法
JP2007052397A (ja) * 2005-07-21 2007-03-01 Denso Corp 操作装置
JP2007121579A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 操作装置
JP2011128766A (ja) * 2009-12-16 2011-06-30 Canon Inc 入力装置及び方法

Also Published As

Publication number Publication date
JP6768323B2 (ja) 2020-10-14

Similar Documents

Publication Publication Date Title
US11989930B2 (en) UI for head mounted display system
US10992857B2 (en) Input control device, input control method, and operation system
US10600015B2 (en) Context-aware user interface for integrated operating room
JP2021168160A (ja) 医療用観察装置、医療用観察方法、およびプログラム
JP5356633B1 (ja) 医療用内視鏡システム
JP2006218234A (ja) 手術機器コントローラ及びそれを用いた手術システム
WO2017061293A1 (ja) 手術システム、並びに、手術用制御装置および手術用制御方法
KR20120093597A (ko) 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법
RU2669683C2 (ru) Способ и устройство для представления значка wi-fi-сигнала и мобильный терминал
EP3109741B1 (en) Method and device for determining character
JPWO2013061857A1 (ja) 内視鏡手術システム
EP3540565A1 (en) Control method for translation device, translation device, and program
US20230404699A1 (en) System for a Microscope System and Corresponding Method and Computer Program
CN105266756A (zh) 瞳距测量方法、装置及终端
US11219491B2 (en) Centralized control apparatus and method of controlling one or more controlled apparatuses including medical device
JP2017173720A (ja) 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体
JP2006221583A (ja) 医療支援システム
US20230248449A1 (en) Touchless Control of Surgical Devices
US20230169698A1 (en) Microscope system and corresponding system, method and computer program for a microscope system
JP6345502B2 (ja) 医用画像診断装置
Roe et al. A voice-controlled network for universal control of devices in the OR
JP2020025221A (ja) コミュニケーション支援装置、コミュニケーション支援システム及び通信方法
US20230149100A1 (en) Control apparatus, medical central control system, and surgery-related information display method
US20220321803A1 (en) Medical observation system, control device, and control method
JP2022135122A (ja) 体温測定装置、および体温測定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200923

R150 Certificate of patent or registration of utility model

Ref document number: 6768323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150