JP4842114B2 - 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応 - Google Patents

自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応 Download PDF

Info

Publication number
JP4842114B2
JP4842114B2 JP2006341879A JP2006341879A JP4842114B2 JP 4842114 B2 JP4842114 B2 JP 4842114B2 JP 2006341879 A JP2006341879 A JP 2006341879A JP 2006341879 A JP2006341879 A JP 2006341879A JP 4842114 B2 JP4842114 B2 JP 4842114B2
Authority
JP
Japan
Prior art keywords
command
active
active command
menu
commands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006341879A
Other languages
English (en)
Other versions
JP2007171963A (ja
Inventor
ガン・ワン
マッテオ・コントリニ
チェンギ・チェン
デヴィッド・シャッテネヴァー
ヘインツ−ヴェルナー・スティラー
Original Assignee
シュトルツ・エンドスコープ・プロドゥクツィオンス・ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シュトルツ・エンドスコープ・プロドゥクツィオンス・ゲーエムベーハー filed Critical シュトルツ・エンドスコープ・プロドゥクツィオンス・ゲーエムベーハー
Publication of JP2007171963A publication Critical patent/JP2007171963A/ja
Application granted granted Critical
Publication of JP4842114B2 publication Critical patent/JP4842114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識システムに関し、具体的には、孤立及び接続語句コマンドを同時に認識する音声認識のためのシステム及び方法に関する。
音声認識は、マイクによって受信された音響信号が、コンピュータによってテキスト言葉、番号、又は記号のセットに変換される過程である。その後、これらの認識された言葉は、文書作成、データ入力、及びコマンド制御等の目的のための各種コンピュータソフトウェアアプリケーションで使用されうる。例えば、音声認識システムは、各種医療システム及び装置を制御するために現在の手術室で使用されうる。外科医又は他の使用者は、単純なボイスコマンドを発することによって、音声認識システムによって制御された装置の機能に命令することができる。例えば、外科医は、患者治療台を調整するために、又はポンプの圧力を調整するためにボイスコマンドを述べることができる。
手術室で音声認識を可能にするため、医療装置及び/又は他の機器は、通信チャンネル(例えば、イーサネット(登録商標)接続、デバイスバス等)を介して要素(例えば、通報システム)に接続される。また、音声認識システムは、音声駆動ユーザーインターフェース及び認識ソフトウェアを備え、接続される。ボイスコマンドが出された時、コマンドは、認識され、テキスト文字列に変換されうる。それが、1つの接続された装置に対応する有効コマンドとして首尾よく識別された場合、システムは、所望の制御行為が取られるように適切な信号を送信する。
使用者が何のコマンドを出すことができるかを示すため、一般に当該システムは、ツリー構造のコマンドメニューを採用する。各コマンドメニューレベルは、許容可能なボイスコマンドの集合を含み、それが認識された場合、その後、その各々は、新規コマンドのサブメニューに至る。例えば、米国特許6591239は、ツリー構造のコマンドメニューを採用するボイス制御手術着を開示する。外科医が手術台を調整しようと試みる場合、まず、外科医は、コマンド“テーブル”を出し、コマンドが認識され、テーブルコマンドサブメニューがロードされるよう一時停止し、サブメニューから適用可能なテーブルコマンドを出す等しなければならない。
故に、一般に、公知の音声認識システムは、手術室において時間を節約しない。外科医は、単独の行為を達成するために多数のボイスコマンドを出さなければならない。また、公知のシステムは、外科医に、ボイスコマンドの不自然な発し方(例えば、孤立音声)を採用することを余儀なくし、その方法は、外科医が効率的にシステムを使用できる前にかなり練習を要する。
故に、単独の発話で伝えられる多数の音声コマンドを認識する、音声コマンドを実行するためのシステム及び方法を提供することが望まれる。
また、再設定を伴わないで非従来のコマンドだけでなく、従来の孤立音声コマンドも両方認識する、音声コマンドを実行するためのシステム及び方法を提供することが望まれる。
従って、本発明の目的は、孤立及び接続又は連続音声に同時対応する音声認識システムを提供することにある。
また、本発明の目的は、多数の音声モードに対応し、さらに公知の音声認識システムの速度及び精度を超える音声認識システムを提供することにある。
これら及び他の目的は、音声入力を用いて1つ以上の装置を動作するためのシステムであって、音声入力を受信するための受信器と、前記受信器と通信する制御器と、前記音声入力をコンピュータ読取可能なデータに変換するための前記制御器上で実行されるソフトウェアと、前記システムの全ての有効コマンドの一部を含むアクティブコマンドテーブルを生成するための前記制御器上で実行されるソフトウェアと、前記データによって示された少なくとも1つのアクティブコマンドを識別するための前記制御器上で実行されるソフトウェアと、前記アクティブコマンドによって動作可能な少なくとも1つの装置に前記アクティブコマンドを送信するための前記制御器上で実行されるソフトウェアとを具備することを特徴とするシステムを提供することによって達成される。
また、音声入力を用いる装置を制御する方法であって、システムの各装置に関連付けられた有効コマンドを判断する段階と、前記有効コマンドの一部を含む有効コマンドテーブルを生成する段階と、音声入力を受信する段階と、前記音声入力をコンピュータ読取可能なデータに変換する段階と、前記データによって示された少なくとも1つのアクティブコマンドを識別する段階と、前記アクティブコマンドが関連する少なくとも1つの装置に前記アクティブコマンドを送信する段階とを具備することを特徴とする方法が提供される。
図1は、本発明による音声入力を用いる1つ以上の装置を動作するためのシステム100を示す。以下に述べるように、システム100は、孤立及び連続音声入力又は話しコマンドを用いる1つ以上の装置の動作を提供する。また、システム100は、初期化又は再設定をしなくても、例えば連続して又は同時に、音声モードに対応することができる。システム100は、例えば医療手術室における装置及び/又は処理の制御を含む任意の用途数に役立つ。
システム100は、音声入力102を受信するための受信器104を含む。受信器104は、到来する音声又は音波を受信し、それをデジタル波形及び/又は電流又は電気エネルギー(例えば、音響信号106)に変換するための任意の機器又は装置でもよい。例えば、受信器104は、マイクでもよい。受信器104によって受信された音声入力102は、話し言葉又は語句、又は言葉若しくは語句の集合等、使用者による任意の話し発話でもよい。音声入力102は、使用者がシステム100によって通信又は実行されることを望む1つ以上のコマンドを示す言葉又は語句を含むのが好ましい。
また、システム100は、制御器108を含む。制御器108は、少なくとも1つの動作を制御するか、又は1つ以上のソフトウェアプログラムを受信及び/又は実行する任意の装置、システム、又はその一部でもよい。例えば、制御器108は、デジタル信号プロセッサ、マイクロコントローラ、マイクロプロセッサ、又はコンピュータプログラム可能な論理素子の1つでもよい。制御器108に関連付けられた機能は、局所的又は間接的に、中央化又は分散化されうる点に留意すべきである。制御器108は、受信器104と通信して、音響信号106等の情報を受信器104から受信することができる。以下に詳細に述べるように、その後、制御器108は、装置116又はモニタ118(例えば、ディスプレイ)コマンド114を送信又はその他伝達することができる。
また、システム100は、言語モデル110を含むことができる。言語モデル110は、システム100のストレージ、一時記憶装置、及び/又はシステムから離れたストレージに存在してもよい。言語モデル110は、音声入力102によって示されたコマンドを認識するために使用される情報を含む。例えば、言語モデル110は、システムによって動作可能な装置に関連する各有効コマンド又はコマンドシーケンスを含むことができる。また、言語モデル110は、コマンド認識で用いる、システムの有効コマンド(又は有効コマンドシーケンス)の一部又は小集合を含む、アクティブコマンドテーブルを含むことができる。そのため、制御器108は、アクティブコマンドテーブルを生成するためのソフトウェアを含む。
また、システム100は、コマンド相当語句112を含むことができる。コマンド相当語句112は、特定の有効コマンドを示すものとして知られる一般的なバリエーション及び/又は“未知語”音声入力を含む。例えば、コマンド相当語句112は、有効コマンドの短縮形式、記述的形式、一般的な誤った発音、及び場合によっては、有効コマンドに相当する外国語を含むことができる。コマンド相当語句112は、システム100のストレージ、一時記憶装置、システムから離れたストレージ、及び/又は携帯ストレージ(例えば、システムの特定の使用者に独特な)に存在してもよい。また、コマンド相当語句112は、制御器108によって実行されるエラー除去アルゴリズム又はソフトウェアと同時に動作することができる。故に、当業者であれば分かるように、コマンド相当語句112は、長期間システムによって連続して更新又は改善されうる。
図2は、制御器108の分解図を示す。制御器108は、変換器202を含むことができる。変換器202は、音響信号106をデータ206に変換するために、ハードウェア、ソフトウェア、又はその組合せでもよい。データ206は、機械又はコンピュータによって解釈、分析、及び/又は読取りができるコンピュータ読取可能なデータ又は任意のデータ形式を含むことができる。例えば、データ206は、使用者の音声入力に対する逐語訳のテキスト表示(例えば、テキスト文字列)を含むことができる。データ206は、使用者の全音声入力又は発話を示すことができる。代替として、データ206は、特定のアクティブコマンドに関連する、(例えば、リアルタイムで)システムによって認識された一部音声入力を示してもよい。
また、制御器108は、認識器208を含む。認識器208は、ハードウェア、ソフトウェア、又はその組合せでもよい。認識器208は、データ206によって示された(例えば、アクティブコマンドテーブルからの)少なくとも1つのアクティブコマンドを識別するためのソフトウェアを含むことができる。いくつかの実施形態において、システム100の認識器208は、データを(例えば、音声入力が話されているとして)連続して受信し、リアルタイムでその中に含まれたアクティブコマンドを識別しようと試みることができる。また、認識器208は、追加のデータを期待するか否かを判断するために一部コマンドを認識することができる。例えば、本発明による典型的なシステムは、(図3Bに示されるように)言葉が“機器”で始まる任意のコマンドシーケンス数を認識できる一方、“設定”で始まるコマンド又はコマンドシーケンスは1つだけ認識できる。故に、認識器208は、コマンドシーケンスの早期の中断を防止するために必要な、可変の相互コマンド一時停止を備える。例えば、認識器は、“機器”が認識される時に追加のデータを待つことができる一方、“設定”が認識される時にコマンドを直ちに送信または実行することができる。いくつかの実施形態又は動作モードにおいて、認識器208は、アクティブコマンドを識別しようと試みるのに先立ち、全音声発話を示すデータを受信することができる。
また、システム100の認識器208は、1つ以上の潜在的コマンドにデータ206を構文解析するためのソフトウェアを含むことができる。その後、認識器208は、アクティブコマンドに各潜在的コマンドを一致させようと試みることができる。故に、認識器208にさらに含まれるのは、アクティブコマンドを識別するためにアクティブコマンドテーブルに問合せるためのソフトウェアでもよい。上述のように、認識器208は、必要に応じて、相当語句コマンドを識別するためにコマンド相当語句112及び/又はコマンド相等語句テーブルに同様に問合せることができる。また、制御器108は、アクティブコマンドによって動作可能な少なくとも1つの装置にコマンド114、即ちアクティブコマンドを送信するためのソフトウェアを含む。
図3Aは、図1及び図2に示される言語モデル110の分解図を示す。言語モデル110は、システムコマンドメニュー300を含む。システムコマンドメニュー300は、システム100又はその実質的部分に関連付けられた(例えば、有効コマンドシーケンスを含む)各有効コマンドを含むのが好ましい。図3Bを参照すると、システムコマンドメニュー300は、階層的及び/又は“ツリー構造的”メニューフォーマットで編成又は(モニタ118を介して)少なくとも表示可能にしうる。当業者であれば分かるように、システムコマンドメニュー300は、使用中に利用可能なコマンドの視覚表示をシステム100の使用者に提供するために表示されるのが好ましい。また、ディスプレイは、使用者による前回の又は現在のコマンド又はメニューレベル選択を強調表示することができる。また、場合によっては、システム100は(例えば、ディスプレイを介して)、認識されたコマンドを送信及び/又は実行するのに先立ち、使用者から確認を要求してもよい。
図3Bに示されるように、メニュー300は、システムそれ自体に適用可能なシステムレベル及び/又は一般コマンドを含む第1有効コマンドセット302を含むことができる。また、メニュー300は、システム100によって動作可能な装置に関連付けられた任意のコマンドセット(例えば、即ちノード)数を含むことができる。例えば、メニュー300は、機器(例えば、医療機器又は装置)に関連する有効コマンド/コマンドシーケンスセット304を含むことができる。典型的な機器は、“調整”に関連する3つの第1レベルコマンド(例えば、開始、停止、調整)と2つの第2レベルコマンド(例えば、上、下)とを有することが分かる。また、含まれるものは、追加の装置、それぞれライトとユニットとに関連するセット306及び308である。しかし、図3Bに示されたシステムコマンドメニュー300とそこに含まれたコマンドとは、メニュー300の簡単な一例にすぎないことに留意すべきである。当業者であれば分かるように、本発明のメニュー300及び/又は言語モデル110は、任意の所望のフォーマットにすることができ、任意の所望のコマンド及び/又はメニューレベル数を含むことができる。
図3Aに戻ると、言語モデル110(例えば、即ちシステム100のその他位置又はストレージ)は、前回コマンド310を含むことができる。以下でさらに詳細に説明されるように、前回コマンド310は、有効コマンドのテーブル又はメニューを生成するのに用いるシステム100によって保持される。前回コマンド310は、制御器108によって実行又は装置に送信される最後のアクティブコマンド、即ちシステム100の使用者によって話される最後のアクティブ又は有効コマンドにすることができる。また、言語モデル110は、アクティブコマンドテーブルを生成するのに用いるデプスパラメータ320を含むことができる。例えば、デプスパラメータ320は、アクティブコマンドメニュー及び/又はメニュー302における前回コマンド310の位置又は現在の位置からの好ましい偏差で使用するために評価されるべき多数のメニューレベルを示すパラメータにすることができる。システム100は、単独のデプスパラメータ320又は任意数のデプスパラメータ320を含んでもよい。例えば、システムによって動作可能な各装置は、それに関連付けられた一つ以上のデプスパラメータを有することができる。また、システムの使用者は、独特及び/又は好ましいデプスパラメータを有することができる。デプスパラメータ320は、常にシステムの使用者によって設定及び/又は変更されてもよいことが分かる。
また、言語モデル110は、アクティブコマンド330、又はアクティブコマンドテーブル若しくはメニューを含む。アクティブコマンド330のテーブルは、データ206によって示される少なくとも1つのアクティブコマンドを識別する際に、制御器108及び/又は認識器208によって使用される。以下の説明を読むことによって分かるように、アクティブコマンド330のテーブルは、認識器208によって使用されるために孤立コマンドと連結コマンドシーケンスとの両方を含む。アクティブコマンド330は、システム100における任意のストレージに、又はシステム100と通信するよう設置され、及び/又は制御器108と通信する一時メモリに設置されうる。また、アクティブコマンド330は、常に生成、再生成、及び/又は更新されてもよい。例えば、アクティブコマンド330のテーブルは、使用者がメニュー300におけるレベルを選択若しくは変更する度に、又は使用者が所望のコマンドを話している場合に動的に、生成又は更新されうる。
図3Cは、言語モデル110のアクティブコマンド330の典型的なテーブルを示す。アクティブコマンド330は、メニュー300から選択された任意のコマンド(例えば、コマンドシーケンス)数を含むことができる。また、アクティブコマンド330におけるコマンドは、例えば、システムレベルコマンド、即ちコマンドシーケンス(例えば、“機器開始”)等、単独のコマンド言葉を含むことができる。故に、当業者であれば分かるように、アクティブコマンド330のテーブルは、孤立及び連続音声入力の同時認識を提供する。
図4は、アクティブコマンド330のテーブルを生成する方法を示す。第1段階において、システム100は、前回コマンド310に対して判断又はアクセスすることができる(段階401)。当業者であれば分かるように、前回コマンド310は、システムが現在“属する”メニュー300上の特定位置を識別することができる。同時に、又は任意の順番で、また、デプスパラメータは、判断されうる(段階403)。故に、現在のメニュー位置(及び/又は前回コマンド310)及びデプスパラメータは、どのコマンドが次の音声入力又は発話において認識されうるかを決定するルール基準を提供する。
その後、アクティブコマンドカテゴリ及び/又はノードは、判断される(段階405)。アクティブコマンドノードは、常にアクティブコマンドテーブルを生成するために含められるべきかを選択又は判断される。故に、有効及び動作可能なコマンドを有する任意数のノードは、特定時間に含まれないことがある。例えば、アクティブノードの判断は、現在のメニュー位置(又は前回コマンド)のみ、又は使用者若しくはシステム環境との組合せに基づくことができる。1実施形態において、前回コマンド310に関連付けられたノードは、1つのアクティブノードとして判断されうる。しかし、追加ノードは、各システムコマンドノードのようにアクティブノードとして判断されるのが好ましい。
他の実施形態において、任意数の他の環境又は設定は、アクティブノードを判断する際に使用されうる。例えば、第1設定(例えば、ノーマル)は、各システムコマンドノードだけでなく、前回コマンドに関連付けられたノードの選択を提供することができる。図3Bを参照すると、前回コマンド310は、“下”又は“機器調整下”にすることができ、故に関連付けられたノードは、“機器”となる。システムノード(例えば、グローバルノード)は、“システム”、“設定”、“メニュー表示”、“メニュー非表示”、及び“終了”を含む。他の設定は、同一の手順及び/又は装置の系列化に関するノードのような、他のアクティブノードの判断を提供することができる。
次に、アクティブコマンド及び/又はコマンドシーケンスは、アクティブノードから判断される(段階407)。デプスパラメータ320は、判断を行う際に採用されるのが好ましい。デプスパラメータ320は、システムがアクティブコマンドを判断する際に検索すべき各アクティブノードに対する距離がどれくらいか(例えば、レベルがどれくらいか)を決定するのに使用されうる。例えば、デプスパラメータ320は、最大で2つのレベルを示してもよい。故に、“機器”がアクティブノードであると判断された場合、以下のコマンドは、アクティブコマンドテーブルに追加される:“機器開始”、“機器停止”、及び“機器調整”。デプスパラメータ320は、3つのレベルを示し、また、“機器調整上”及び“機器調整下”が含まれる。
図3Cに示されるように、追加のコマンドは、前回コマンド310又は現在のメニューレベルに関する孤立コマンド等に含まれうる。例えば、前回コマンドが“機器調整下”又は単に“下”であった場合、アクティブコマンド330のテーブルは、いくつかの実施形態では、“上”及び“下”のコマンドを含むことができる。また、アクティブコマンドのテーブルは、所望の場合には、“機器”に関する“開始”及び“停止”を含みうる。
図5は、システム100によって採用可能な音声入力を処理する方法を示す。方法は、アクティブコマンドメニュー又はアクティブコマンドテーブルを生成する第1段階を含む(段階501)。例えば、この段階は、システムを電源オンにすることによって、及び/又は使用者が新規コマンドノードを選択又は新規コマンドを出すことによって実行される。上記記載を読むことによって当業者であれば分かるように、この段階は、既存のテーブル及びアクティブコマンドを更新することを含みうる。次に、音声入力及び/又は音声入力から変換されたデータ206が受信される(段階503)。いくつかの実施形態において、その後、データは、データにおける潜在的コマンドを識別するために構文解析されうる(段階505)。
次の段階において、アクティブコマンドは、一部データ及び/又はデータで識別された潜在的コマンドの何れに関するかを識別される(段階507)。アクティブコマンドテーブルは、データの任意部分がアクティブコマンドに対応するか否かを判断するために問合される。任意数のアクティブコマンドは、データから識別されうることが分かる。例えば、使用者は、同じ発話で2つのコマンドを話すことができ、各々が異なる装置に関する。
その後、各々が識別されたコマンドは、モニタを介して表示又は示され(段階509)、対応する装置に送信されうる(段階511)。いくつかの実施形態において、使用者は、実行に先立ち、表示されたコマンドを容認又は検証するよう促されてもよい。最後に、アクティブコマンドメニュー又はアクティブコマンドテーブルは、新規前回コマンドを前提として、必要に応じて、更新される。
当業者であれば分かるように、本発明のアクティブコマンドテーブルは、システムの速度及び精度を維持又は増加する一方で、孤立及び接続又は連続コマンド認識の両方への同時対応を提供する。故に、本発明は、使用者がモードの一方又は両方を動作するかをいつでも選択できるようにする。また、システムの多数の使用者は、いつでも自分の好ましい音声モードでシステムに対応するよう各々選択することができる。
本発明は、特定要素の配置及び特徴等を参照して説明されたが、全ての可能な配置又は特徴を説明することを意図とせず、実際には様々な改良及び変更が当業者にとって確かめられる。
図1は、本発明によるシステムの概略図である。 図2は、図1に示されたシステムの制御器の概略図である。 図3Aは、図1に示されたシステムの言語モデルの概略図である。 図3Bは、図1に示されたシステムの典型的なシステムコマンドメニューの概略図である。 図3Cは、図1に示されたシステムの典型的なアクティブコマンドメニューの概略図である。 図4は、図1に示されたシステムによって採用可能なアクティブコマンドテーブルを生成する方法である。 図5は、図1に示されたシステムによって採用可能な音声入力を処理する方法である。
符号の説明
102 音声入力
104 受信器
106 音響信号
108 制御器
110 言語モデル

Claims (24)

  1. 音声入力を用いて1つ以上の装置を動作するためのシステムであって、
    音声入力を受信するための受信器と、
    前記受信器と通信する制御器と、
    前記音声入力をコンピュータ読取可能なデータに変換するための前記制御器上で実行されるソフトウェアと、
    アクティブコマンドテーブルを生成するための前記制御器上で実行されるソフトウェアであって、前記テーブルは、コマンドメニューの少なくとも2つの異なるレベルから選択されたアクティブコマンドを含む、ソフトウェアと、
    前記データによって示された少なくとも1つのアクティブコマンドを識別するための前記制御器上で実行されるソフトウェアと、
    前記システムによって動作可能な1つ以上の装置に前記少なくとも1つのアクティブコマンドを送信するための前記制御器上で実行されるソフトウェアと
    を具備し、
    1組のアクティブコマンドは、現在のコマンドメニュー位置およびデプスパラメータに基づき使用中に動的に生成および更新されることを特徴とするシステム。
  2. 前記少なくとも1つのアクティブコマンドは、孤立コマンドであることを特徴とする請求項1に記載のシステム。
  3. 少なくとも1つのアクティブコマンドを識別するための前記ソフトウェアは、順番に少なくとも1つの他のアクティブコマンドを識別することを特徴とする請求項1に記載のシステム。
  4. 前記少なくとも1つのアクティブコマンド及び少なくとも1つの他のアクティブコマンドの各々は、前記コマンドメニューの異なるレベルからそれぞれ提供された順次コマンドであることを特徴とする請求項3に記載のシステム。
  5. 前記アクティブコマンドテーブルは、少なくとも1つのグローバルコマンドを含むことを特徴とする請求項1に記載のシステム。
  6. 前記データによって示されたグローバルコマンドを識別するための前記制御器上で実行されるソフトウェアと、
    前記グローバルコマンドを実行するための前記制御器上で実行されるソフトウェアと
    をさらに具備することを特徴とする請求項5に記載のシステム。
  7. 前記システムによって動作可能な前記1つ以上の装置は、医療装置であることを特徴とする請求項1に記載のシステム。
  8. 前記音声入力は、孤立音声を含むことを特徴とする請求項1に記載のシステム。
  9. 前記音声入力は、連続音声を含むことを特徴とする請求項1に記載のシステム。
  10. 前記音声入力は、孤立音声及び連続音声を含むことを特徴とする請求項1に記載のシステム。
  11. 前記アクティブコマンドテーブルは、少なくとも1つの孤立コマンド語句及び少なくとも1つの連結コマンド語句を含むことを特徴とする請求項1に記載のシステム。
  12. 前記アクティブコマンドは、デプスパラメータに基づき前記コマンドメニューから選択されることを特徴とする請求項1に記載のシステム。
  13. 前記デプスパラメータは、現在のメニュー位置からの偏差を示すことを特徴とする請求項12に記載のシステム。
  14. 前記デプスパラメータは、メニューレベルの数を示すことを特徴とする請求項13に記載のシステム。
  15. 少なくとも1つのアクティブコマンドを識別するための前記ソフトウェアは、前記データを1つ以上の潜在的コマンドへ構文解析することを特徴とする請求項1に記載のシステム。
  16. 少なくとも1つのアクティブコマンドを識別するための前記ソフトウェアは、前記アクティブコマンドテーブルを問合せることを含むことを特徴とする請求項1に記載のシステム。
  17. 少なくとも1つのアクティブコマンドを識別するための前記ソフトウェアは、コマンド相当語句テーブルを問合せることを含むことを特徴とする請求項1に記載のシステム。
  18. 音声入力を用いる装置を制御する方法であって、
    コマンドメニューから提供されたシステムの各装置に関連付けられたコマンドを判断する段階と、
    アクティブコマンドテーブルを生成する段階であって、前記テーブルは、前記コマンドメニューの少なくとも2つの異なるレベルから選択されたアクティブコマンドを含む、段階と、
    音声入力を受信する段階と、
    前記音声入力をコンピュータ読取可能なデータに変換する段階と、
    前記データによって示された少なくとも1つのアクティブコマンドを識別する段階と、
    前記アクティブコマンドが関連する少なくとも1つの装置に前記アクティブコマンドを送信する段階と
    を具備し、
    1組のアクティブコマンドは、現在のコマンドメニュー位置およびデプスパラメータに基づき使用中に動的に生成および更新されることを特徴とする方法。
  19. 前記アクティブコマンドテーブルを生成する段階は、前記識別された最後のアクティブコマンドを判断することを含むことを含むことを特徴とする請求項18に記載の方法。
  20. 前記アクティブコマンドテーブルを生成する段階は、デプスパラメータを利用することを含み、前記デプスは、メニューレベルの数を示すことを特徴とする請求項18に記載の方法。
  21. 少なくとも1つのアクティブコマンドを識別する段階は、前記データを1つ以上の潜在的コマンドへ構文解析することを含むことを特徴とする請求項18に記載の方法。
  22. 前記識別された少なくとも1つのアクティブコマンドを表示する段階をさらに具備することを特徴とする請求項18に記載の方法。
  23. 前記少なくとも1つのアクティブコマンドを識別する段階は、前記システムの使用者への促しを生成することを含むことを特徴とする請求項18に記載の方法。
  24. 前記アクティブコマンドテーブルは、少なくとも1つの孤立コマンド及び少なくとも1つのコマンドシーケンスを含むことを特徴とする請求項18に記載の方法。
JP2006341879A 2005-12-20 2006-12-19 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応 Active JP4842114B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/312,785 2005-12-20
US11/312,785 US7620553B2 (en) 2005-12-20 2005-12-20 Simultaneous support of isolated and connected phrase command recognition in automatic speech recognition systems

Publications (2)

Publication Number Publication Date
JP2007171963A JP2007171963A (ja) 2007-07-05
JP4842114B2 true JP4842114B2 (ja) 2011-12-21

Family

ID=37891749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006341879A Active JP4842114B2 (ja) 2005-12-20 2006-12-19 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応

Country Status (4)

Country Link
US (1) US7620553B2 (ja)
EP (1) EP1801780B1 (ja)
JP (1) JP4842114B2 (ja)
CA (1) CA2570767C (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7624019B2 (en) * 2005-10-17 2009-11-24 Microsoft Corporation Raising the visibility of a voice-activated user interface
US7620553B2 (en) 2005-12-20 2009-11-17 Storz Endoskop Produktions Gmbh Simultaneous support of isolated and connected phrase command recognition in automatic speech recognition systems
US20080097176A1 (en) * 2006-09-29 2008-04-24 Doug Music User interface and identification in a medical device systems and methods
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
US8515763B2 (en) * 2009-11-24 2013-08-20 Honeywell International Inc. Methods and systems for utilizing voice commands onboard an aircraft
US20130041662A1 (en) * 2011-08-08 2013-02-14 Sony Corporation System and method of controlling services on a device using voice data
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9189465B2 (en) * 2012-09-28 2015-11-17 International Business Machines Corporation Documentation of system monitoring and analysis procedures
US9584642B2 (en) * 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US10381002B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
TWI519122B (zh) * 2012-11-12 2016-01-21 輝達公司 行動資訊裝置與利用語音控制行動資訊裝置的方法
US9264801B2 (en) 2012-12-04 2016-02-16 Storz Endoskop Produktions Gmbh System and method for pairing a command device incorporating a microphone to a remotely controlled medical system
KR101433506B1 (ko) * 2013-01-29 2014-08-22 엘에스산전 주식회사 고립어 음성 인식을 이용한 에너지 관리 시스템의 운전 방법
US10585568B1 (en) 2013-02-22 2020-03-10 The Directv Group, Inc. Method and system of bookmarking content in a mobile device
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US10186262B2 (en) * 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
US11062707B2 (en) * 2018-06-28 2021-07-13 Hill-Rom Services, Inc. Voice recognition for patient care environment

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2688413B2 (ja) * 1987-10-06 1997-12-10 株式会社日立製作所 プラント運転監視装置
WO1991013431A1 (en) * 1990-02-26 1991-09-05 Motorola, Inc Method and apparatus for recognizing string of word commands in a hierarchical command structure
US6646541B1 (en) 1996-06-24 2003-11-11 Computer Motion, Inc. General purpose distributed operating room control system
US6463361B1 (en) * 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US7053752B2 (en) 1996-08-06 2006-05-30 Intuitive Surgical General purpose distributed operating room control system
US5794196A (en) * 1995-06-30 1998-08-11 Kurzweil Applied Intelligence, Inc. Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US5970457A (en) 1995-10-25 1999-10-19 Johns Hopkins University Voice command and control medical care system
US6496099B2 (en) 1996-06-24 2002-12-17 Computer Motion, Inc. General purpose distributed operating room control system
US6642836B1 (en) 1996-08-06 2003-11-04 Computer Motion, Inc. General purpose distributed operating room control system
US6301560B1 (en) * 1998-01-05 2001-10-09 Microsoft Corporation Discrete speech recognition system with ballooning active grammar
US6182046B1 (en) * 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
ATE245845T1 (de) * 1998-09-30 2003-08-15 Lernout & Hauspie Speechprod Graphische benutzerschnittstelle zur navigation in grammatiken eines spracherkennungssystems
JP2000194391A (ja) * 1998-12-25 2000-07-14 Kojima Press Co Ltd 音声認識制御装置
US6266635B1 (en) 1999-07-08 2001-07-24 Contec Medical Ltd. Multitasking interactive voice user interface
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6587818B2 (en) 1999-10-28 2003-07-01 International Business Machines Corporation System and method for resolving decoding ambiguity via dialog
US6591239B1 (en) 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
WO2002050816A1 (en) * 2000-12-18 2002-06-27 Koninklijke Philips Electronics N.V. Store speech, select vocabulary to recognize word
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
JP2003241784A (ja) * 2002-02-21 2003-08-29 Nissan Motor Co Ltd 音声入出力装置
US7149983B1 (en) * 2002-05-08 2006-12-12 Microsoft Corporation User interface and method to facilitate hierarchical specification of queries using an information taxonomy
JP4107093B2 (ja) * 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US7620553B2 (en) 2005-12-20 2009-11-17 Storz Endoskop Produktions Gmbh Simultaneous support of isolated and connected phrase command recognition in automatic speech recognition systems

Also Published As

Publication number Publication date
US20070150288A1 (en) 2007-06-28
EP1801780B1 (en) 2011-09-14
CA2570767A1 (en) 2007-06-20
CA2570767C (en) 2010-10-19
JP2007171963A (ja) 2007-07-05
EP1801780A1 (en) 2007-06-27
US7620553B2 (en) 2009-11-17

Similar Documents

Publication Publication Date Title
JP4842114B2 (ja) 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応
JP4699411B2 (ja) ユーザプロファイル管理コンポーネントを備えた音声認識システム
US11887604B1 (en) Speech interface device with caching component
JP6887031B2 (ja) 方法、電子装置、家庭用機器ネットワークおよび記憶媒体
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
KR102429436B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
JP5335051B2 (ja) 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法
JPWO2018100743A1 (ja) 制御装置および機器制御システム
JP2008268517A (ja) 音声認識機能付き操作器
KR102584324B1 (ko) 음성 인식 서비스 제공 방법 및 이를 위한 장치
KR100529950B1 (ko) 음성 대화형 에어컨 시스템 및 그 동작방법
WO2020033187A1 (en) Systems and devices for controlling network applications
KR102124396B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102089593B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102051480B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102045539B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
JP2021033083A (ja) カラオケ用入力装置
KR100384330B1 (ko) 오류범위 가변 및 사용자 선택이 가능한 음성인식 처리장치 및 방법
KR20050060910A (ko) 차량의 음성 명령 인식 방법 및 장치
JP2021021848A (ja) カラオケ用入力装置
JP2020085942A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100513

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110526

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111005

R150 Certificate of patent or registration of utility model

Ref document number: 4842114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250