JP2008083667A - 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法 - Google Patents

音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法 Download PDF

Info

Publication number
JP2008083667A
JP2008083667A JP2007077379A JP2007077379A JP2008083667A JP 2008083667 A JP2008083667 A JP 2008083667A JP 2007077379 A JP2007077379 A JP 2007077379A JP 2007077379 A JP2007077379 A JP 2007077379A JP 2008083667 A JP2008083667 A JP 2008083667A
Authority
JP
Japan
Prior art keywords
audio input
event
command
receiver
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007077379A
Other languages
English (en)
Other versions
JP4975495B2 (ja
Inventor
Gang Wang
ガン・ワン
Matteo Contolini
マッテオ・コントリニ
Chengyi Zheng
チェンギ・チェン
Heinz-Werner Stiller
ハインツ−ヴェルナー・シュティラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STORZ ENDOSKOP PROD GmbH
Storz Endoskop Produktions GmbH Germany
Original Assignee
STORZ ENDOSKOP PROD GmbH
Storz Endoskop Produktions GmbH Germany
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by STORZ ENDOSKOP PROD GmbH, Storz Endoskop Produktions GmbH Germany filed Critical STORZ ENDOSKOP PROD GmbH
Publication of JP2008083667A publication Critical patent/JP2008083667A/ja
Application granted granted Critical
Publication of JP4975495B2 publication Critical patent/JP4975495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Alarm Systems (AREA)
  • Selective Calling Equipment (AREA)
  • Accommodation For Nursing Or Treatment Tables (AREA)
  • Circuits Of Receivers In General (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法を提供する。
【解決手段】オーディオ入力を受信するためのレシーバと、オーディオ入力を分析してオーディオ入力の少なくとも1つのイベントを識別するためのイベント検知器と、オーディオ入力の少なくとも一部を解釈するための認識器と、複数のルールを含むデータベースと、少なくとも1つのイベントおよび少なくとも1つのルールに基づいてコントロールコマンドを作成するためのコントローラとを含む音声認識およびコントロールシステム。
【選択図】図1

Description

本発明は、音声認識(speech recognition)およびコントロールシステムに関し、より具体的には、リスクおよび危険を軽減するための手段を含む音声認識およびコントロールシステムに関する。
音声認識とは、マイクロフォンによって受信された音響信号が、コンピュータによってテキストの単語、数字、あるいは記号のセットへと変換されるプロセスである。そしてこれらの認識された言葉は、ドキュメントの作成、データの入力、ならびにコマンドおよびコントロールなどの目的で、様々なコンピュータソフトウェアアプリケーションにおいて使用することができる。例えば音声認識システムは、様々な医療用のシステムおよびデバイスをコントロールするために現代の手術室において使用することができる。外科医やその他のユーザは、シンプルな音声コマンドを与えることによって、音声認識システムによってコントロールされているデバイスの機能を指示することができる。例えば外科医は、音声コマンドを発して、患者用の台を調整したり、ポンプの圧力を調整したりすることができる。
手術室における音声認識あるいは音声駆動式のデバイスコントロールを可能にするために、医療用デバイスおよび/またはその他の機器は、通信チャネル(例えば、イーサネット(登録商標)接続、デバイスバスなど)を通じてコンポーネント(例えば、コールシステム(call system))と接続される。音声認識アプリケーションも接続されて、音声駆動式のユーザインターフェースおよび認識ソフトウェアを提供する。音声コマンドが発せられると、そのコマンドを認識して、テキスト文字列に変換することができる。そのコマンドが、接続されているデバイスやアプリケーションのうちの1つに対応する有効なコマンドとして首尾よく識別された場合には、システムは、適切な信号を送信し、それによって所望のコントロールアクションが取られる。
コントロールシステム、とりわけ話声(speech)あるいは音声駆動式のコントロールシステムは、100%のコマンドの正確さを提供しない場合が多い。人間によるエラーを除いて、音声認識およびコントロールシステムにおけるエラーは、削除エラー、置換エラー、および挿入エラーという3つの種類に分類することができる。削除エラーの一例は、音声認識システムが、有効なコマンドを正しく識別することができず、その有効なコマンドをボキャブラリーの範囲外の入力として拒否する場合である。置換エラーが発生するのは、例えば有効なコマンドが発せられても、音声認識システムが、そのコマンドを間違って識別して、システムのボキャブラリー内の別のコマンドに従って結果を生成する場合である。挿入エラーが発生するのは、例えば人間の発声やバックグラウンドノイズなど、ボキャブラリーの範囲外の入力が、誤ってコマンドとして識別される場合である。正確さが決定的に重要となる手術室の環境においては、そのような不正確さは、きわめて望ましくなく、生命を脅かすおそれがある。
そのようなエラーが発生した場合に、従来技術のシステムには一般に、ユーザが危険を軽減するために直ちにアクションを起こすための手段が欠けている。例えば、従来技術の音声認識およびコントロールシステムには、時間の遅延がつきものである。通常、このようなシステムは、完全な発声を受信して処理するのを待ってから、結果を生成しなければならない。したがって、ユーザにとっては、エラーに気づいたときに危険を回避するために直ちにアクションを起こすことは困難である。さらに、継続的なバックグラウンドノイズによって引き起こされるエラーの場合には、このようなシステムは、バックグラウンドノイズがやむまで、有効な音声コマンドを受信するのを阻まれる場合が多い。
したがって、従来技術のシステムに関連する上述の問題を克服する音声認識のシステムおよび方法を提供することが望ましい。
米国特許出願公開第2004/0172011号明細書
したがって、本発明の1つの目的は、危険およびリスクを軽減するための手段を有する音声認識およびコントロールシステムを提供することである。
さらなる目的は、リスクおよび危険を軽減するためにリアルタイムのオーディオイベントおよび話声イベント(speech event)を利用する音声認識およびコントロールシステムを提供すること、ならびにリスクおよび危険によって問題が提示される前に、そうしたリスクおよび危険を解消することである。
これらおよびその他の目的は、オーディオ入力を受信するためのレシーバと、オーディオ入力を分析してオーディオ入力の少なくとも1つのイベントを識別するためのイベント検知器と、オーディオ入力の少なくとも一部を解釈するための認識器(recognizer)と、複数のルールを含むデータベースと、少なくとも1つのイベントおよび少なくとも1つのルールに基づいてコントロールコマンドを作成するためのコントローラとを含む音声認識およびコントロールシステムを提供することによって、達成される。そのイベントは、例えば、発声の開始、発声の終了、所定の持続時間を超過するオーディオ入力の持続時間、あるいは所定の持続時間に満たないオーディオ入力の持続時間とすることができる。そのイベントはさらに、入力信号のエラーやレシーバの異常とすることができる。
さらに提供されるのは、オーディオ入力を受信するステップと、オーディオ入力の少なくとも1つのイベントを識別するステップと、システム状態を判断するステップと、危険を軽減するアクションが必要かどうかを、少なくとも1つのイベント、システム状態、および少なくとも1つのルールに基づいて判断するステップと、少なくとも1つのイベント、システム状態、および少なくとも1つのルールに基づいてコントロールコマンドを作成するステップとを含む、音声駆動式のコントロールシステムにおいて危険を軽減する方法である。コントロールコマンドは、音声駆動式のコントロールシステムによって機能できるデバイスへ送信することができる。コントロールコマンドは、システムによって実行されている、またはシステムによって既に実行されてデバイスへ送信された以前の話声コマンドを取り消すこともできる。
図1は、本発明による音声認識およびデバイスコントロールシステムを示している。このシステムは、例えば医療手術室におけるデバイス、アプリケーション、および/またはプロセスのコントロールを含む任意の数の用途にとって有用なものとなることができる。
このシステムは、オーディオ入力102を受信するための1つまたは複数のレシーバ104を含む。レシーバ104は、入ってくる音または音波を受信してデジタル波形および/または電流もしくは電気エネルギー(例えば、オーディオデータ106)へ変換するための任意の器具、デバイス、あるいは「フロントエンド」とすることができる。例えばレシーバ104は、マイクロフォンとすることができる。レシーバ104は、通信チャネルもしくはケーブルおよび/または無線接続を介して、情報(例えば、オーディオデータ)をシステムへ伝達することができる。レシーバ104によって受信されるオーディオ入力102は、話された単語や語句、あるいは単語や語句の集合など、ユーザから話された発声とすることができる。例えばオーディオ入力102は、システムによって伝達または実施してほしいとユーザが希望する1つまたは複数の話声コマンドを表す話された単語や語句を含むことができる。オーディオ入力102はさらに、例えば話声コマンドとして意図されていない任意の人間による発声、あるいは任意のバックグラウンドノイズおよび/または干渉とすることができる。例えば、レシーバ104を接続したり、接続を切ったりすることによって、フロントエンドにおいてノイズや干渉をもたらすことができる。
このシステムは、1つまたは複数のプロセッサ108をさらに含むことができる。プロセッサ108は、少なくとも1つのオペレーションをコントロールする、あるいは1つまたは複数のソフトウェアプログラムを受信するおよび/または実行する任意のデバイス、デバイスおよび/またはコンポーネントの集合、あるいはシステムとすることができる。プロセッサ108は、例えば、デジタルシグナルプロセッサ、マイクロコントローラ、マイクロプロセッサ、またはコンピュータプログラマブルロジックデバイスのうちの1つとすることができる。プロセッサ108に関連付けられている機能は、ローカルかリモートかを問わず、集中させることも分散させることもできるという点に留意されたい。プロセッサ108は、レシーバ104と通信状態にあり、オーディオデータ106など、レシーバ104からの情報を受信することができる。以降で詳しく説明するが、次いでプロセッサ108、および/またはそれに関連付けられているその他のコンポーネントは、プロセッサ108と通信状態にある1つまたは複数のデバイス116、ユーザインターフェース118、あるいはその他の任意のシステムまたは装置にコマンドデータ114を送信するか、またはその他の形で伝達することができる。
本発明によるシステムはまた、少なくとも1つのストレージ110を含む。ストレージ110は、システムおよびそのコンポーネントによってアクセスできるデータや情報を含む任意のストレージ、データベース、メモリ(例えば、ランダムアクセスメモリ)、あるいはそれらの集合とすることができる。例えばストレージ110は、リスクや危険を軽減するルールなどのルール220の集合またはデータベースを含むことができる。これらのルールは、音声認識やオーディオ入力のエラーなどのシステムエラーの結果として生じる危険な状況をシステムが回避したり軽減したりするための情報を提供することができる。これらのルールは、あらかじめ定義することもでき、あるいはシステムのオペレーション中に動的に生成することもできる。ストレージ110は、システム状態に関する情報222をさらに含むことができ、このシステム状態に関する情報222は、例えば、システムの1つまたは複数のコンポーネントやデバイスに関する情報を含む。システム状態に関する情報222は、例えば、システムまたは認識器230によって受信された話声コマンド、デバイスやコンポーネントのオペレーションの状態、現在デバイスによって実行されているアクションなどに関する情報を含むことができる。
このシステムは、図1に示されているデバイス116など、任意の数のデバイスをさらに含む。デバイス116は、例えば、手術室において使用するための医療用のデバイス、器具、ツール、あるいはシステム(例えば、手術台、内視鏡など)とすることができる。それぞれのデバイス116は、システムからコマンドまたはコマンドデータ114を受信することができる。いくつかのデバイス116は、フィードバックやその他のデータをシステムに提供することもできる。
このシステムのいくつかの実施形態は、少なくとも1つのユーザインターフェース118(例えば、グラフィカルユーザインターフェース)をさらに含む。このユーザインターフェース118は、情報やフィードバックをユーザに表示するための、もしくはその他の形で提供するための、および/または入力や情報をユーザから受信するための任意のデバイスとすることができる。例えばユーザインターフェース118は、モニターやディスプレイ、キーパッド、キーボード、タッチスクリーン、マウス、および/またはオーディオ出力など、任意の数のコンポーネントを含むことができる。いくつかの実施形態においては、ユーザインターフェース118は、レシーバ104を格納する。
図2は、本発明による音声認識およびデバイスコントロールシステムの別の図を示している。このシステムは、プロセッサ108上で実行される任意の数のコンポーネント、もしくはソフトウェアアプリケーション、および/またはプロセスを含む。当業者なら理解できるであろうが、このシステムのソフトウェアは、プロセッサ108のローカルに、またはリモートに、例えばデータベースおよび/または一時的なメモリ(例えばストレージ110)内に格納または配置することができる。図示されているように、このシステムは、オーディオ入力102(および/またはそこから生成されたオーディオデータ106)を分析するための、およびオーディオ入力102の少なくとも1つのイベントを識別するためのイベント検知器210を含む。イベント検知器210は、ハードウェア、ソフトウェア、またはそれらの組合せにおいて具体化することができる。例えばイベント検知器210は、図2に示されているように、プロセッサ108上で実行されるイベント検知ソフトウェアを含むことができる。
イベント検知器210は、オーディオ入力102および/またはオーディオデータ106を分析し、オーディオ入力102からのイベントをリアルタイムに識別する。イベント検知器210によって識別されるイベントは、例えば発声の開始、すなわち潜在的な話声コマンドの始まりを含むことができる。イベント検知器210はさらに、発声の終了、すなわち話声やその他のオーディオ入力102の終わりを検知することができる。イベントデータ212すなわちイベント検出結果が、リアルタイムにコマンドコントローラ214へ提供される。例えばイベント検知器210は、発声すなわち話声コマンドの開始を識別することができ、システムが、完全な発声すなわちコマンドを待たずに、例えば1つまたは複数のルール220に基づいて直ちにアクションを起こすことができるようにするための情報を提供することができる。
任意の数の危険軽減ルール220は、システムのユーザによって定義またはカスタマイズすることもでき、あるいはオペレーション中に動的に生成することもできる。例えば、あるルール220は、アクティビティーが開始されてから所定の時間内に、すなわち、例えばアクションが実行されている間の任意の時点で発声が開始された場合に停止すべき任意のシステムやデバイスのアクティビティーを規定することができる。したがって、デバイスのアクティビティーが誤って開始された場合には、そのアクティビティーは、ユーザが話し始めた瞬間に、すなわち発声開始のイベントを検知したときに、直ちに停止することができる。従来技術のシステムとは異なり、本発明のユーザは、危険を軽減する上で時間が決定的に重要である場合には、「停止」コマンドなどの完全な話声コマンドをシステムが受信し、認識し、処理するのを待つ必要がない。しかし本発明によるシステムは、迅速な注意を必要とする危険と、より緩慢な危険(例えば、台が動いている場合など)とを含むあらゆる危険を軽減する上で有用である。
ルール220は、相容れないコマンドを軽減するためのルールをさらに含むことができる。そのようなルールは、あらかじめ定義されたルールとすることができ、および/またはその時点におけるシステム状態に応じたものとすることができる。例えばポンプなどのデバイスが、安全でない(例えば、高すぎる)圧力で作動しているときに、システムが、圧力をさら上げるためのコマンドを受信した場合には、ルール220のうちの1つは、危険についてユーザに警告すること、受信したコマンドを実行しないようにすること、および/またはそのコマンドを無視することをシステムに設けることができる。
イベント検知器210は、オーディオ入力102の持続時間に関するオーディオ入力102のイベントや特徴を識別することもできる。例えば、イベント検知器210によって検知されるあるイベントは、長すぎる発声、すなわち、受信されているおよび/または記録されているオーディオ入力102が所定の持続時間すなわちしきい値を超過しているということかもしれない。このようなイベントは、例えばバックグラウンドノイズ、複数のユーザによって発せられている話声コマンド、および/またはコマンドを撤回しようとするユーザの試みを示している可能性がある。あるイベントはさらに、短すぎる発声、すなわち所定の持続時間すなわちしきい値よりも短いオーディオ入力102であるかもしれない。このようなイベントに関連付けられているルールは、発声の持続時間が、所定の持続時間、しきい値、あるいは範囲を超過した場合に、またはそれらに満たない場合に、任意のデバイスのアクティビティーを防止するか、または話声コマンドの実行を制限するルールを含むことができる。
イベント検知器210によって検知されるその他のイベントは、レシーバ104および/またはシステムの「フロントエンド」に関するイベントかもしれない。イベント検知器210は、レシーバ104の異常を識別することができる。例えばイベント検知器210は、レシーバ104のプラグが抜けているために、またはつなぎ方がゆるいために、あるいはケーブルが断続または切断されているために生じる入力チャネルやレシーバの接続解除状態を識別することができる。ワイヤレスレシーバ104に関しては、あるイベントは、レシーバ104の電源がオフになっていること、電源残量がなくなっていること、あるいはその他の異常であるかもしれない。イベント検知器210は、レシーバ104が正常に機能していることを識別することもできる。任意の数のルールをそのようなイベントに関連付けることができる。例えばこのシステムは、そのイベントが続いている間は、デバイスのアクティビティーを一時的に止めることができる。このシステムはさらに、アクティビティーを、現在のエラーやイベントによって影響を受ける可能性のないデバイスに制限することができる。このシステムはさらに、(例えば、ユーザインターフェースを介して)イベントに関する警告や通知を作成したり、あるいは危険を軽減する措置を承認またはキャンセルするようにユーザに促したりすることができる。
本発明のイベント検知器210はさらに、入力信号エラーのイベントを識別することができる。そのようなイベントとしては、オーディオ入力102が疑わしい場合や、歪んでいる場合が含まれる。例えば入力信号エラーのイベントは、信号の飽和(signal saturation)、定常的な強いノイズ、および/または範囲外である話声特性(speech feature)を含むことができる。
図2に示されているように、このシステムはまた、オーディオ入力102の少なくとも一部を解釈するための認識器230を含む。例えばこの認識器は、オーディオ入力102、オーディオデータ106、それらのオーディオ入力および/またはオーディオデータの話声特性から、少なくとも1つのコマンド用語(command word)または話声コマンドを認識または識別することができる。認識器230は、ハードウェア、ソフトウェア、またはそれらの組合せにおいて具体化することができる。例えば認識器230は、図2に示されているように、プロセッサ108上で実行される認識ソフトウェアを含むことができる。認識器230は、オーディオ入力102を解釈するための、ならびに用語およびコマンドを識別するための任意の数の言語モデル(図示せず)にアクセスするか、またはそうしたモデルを採用することができる。
このシステムは、コマンドを作成するためのコマンドコントローラ214をさらに含む。コントローラ214は、アクション(例えば、危険を軽減するアクション)を実行したり、あるいはイベントと、そのイベントに関する少なくとも1つのルール220(例えば、軽減ルール)とに基づいてコマンドを作成したりすることができる。例えばコントローラ214は、イベント検知器210からイベントデータ212を受信し、軽減ルール220のセットの問合せを行って、危険やリスクの軽減措置が必要であるかどうかを判断することができる。このコントローラはさらに、システム状態222、例えばシステムのコンポーネントおよび/またはデバイスの状態を調べることができる。
危険やリスクの軽減が必要とされる場合には、コントローラ214は、このシステムによって機能できるデバイス116へコマンドデータ114またはコントロールコマンドを送信することができる。例えばコマンドデータ114は、アクティビティー(例えば、誤って開始されたデバイスのアクティビティー)を直ちに停止するようにデバイス116に指示することができる。コマンドデータ114はさらに、危険を回避したり軽減したりするために別のアクティビティーやアクションを実行するようにデバイスに指示することができる。さらにコマンドデータ114は、システムのユーザにとって聞こえる警告や見える警告を作成するようにデバイスに指示することができる。コントローラ214は、認識器230および/またはシステムのその他のコンポーネントへ確認応答や最新情報を送信することもできる。コントローラ214は、何の軽減措置も必要ないと判断した場合には、認識器から認識結果および/または話声コマンドデータを受信し、その話声コマンドをしかるべく実行することができる。
図3は、本発明による音声駆動式のコントロールシステムにおいて危険を軽減する方法を示している。この方法は、オーディオ入力を受信するステップ(ステップ301)を含む。このオーディオ入力は、話声による入力やその他の任意のオーディオ入力、発声、ノイズ、あるいは信号とすることができる。オーディオ入力の少なくとも1つのイベントは、リアルタイムに識別または判別することができる(ステップ303)。上述のように、このイベントは、例えば発声の開始や発声の終了とすることができる。このイベントはさらに、所定の持続時間を超過するオーディオ入力の持続時間や、所定の持続時間に満たないオーディオ入力の持続時間など、オーディオ入力の持続時間に関連することができる。このイベントはさらに、レシーバの異常やオーディオ入力信号のエラーとすることができる。
本発明の方法は、システム状態を判断するステップ(ステップ305)をさらに含む。システム状態は、(例えば、ストレージ110内の)システム状態インジケータまたはファイルから、あるいはシステムのそれぞれのコンポーネントに問合せを行うことによって判断することができる。この方法は、危険を軽減するアクションが必要かどうかを、少なくとも1つのイベント、システム状態、および少なくとも1つのルールに基づいて判断するステップ(ステップ307)をさらに含む。このルールは、例えば、リスクや危険を軽減するルール220とすることができる。
リスクや危険を軽減する措置が必要とされる場合には、例えばコマンドコントローラ214によって、少なくとも1つのイベント、システム状態、および少なくとも1つのルールに基づいてコントロールコマンドを作成することができる(ステップ309)。このコントロールコマンドは、音声駆動式のコントロールシステムによって機能できるデバイスへ送信することができる(ステップ311)。このコントロールコマンドは、アクティビティーやアクションを直ちに停止するように、あるいは新たなアクションを実行するようにデバイスに指示することができる。このコントロールコマンドは、聞こえるおよび/または見える警報、警告、もしくは指示をユーザに発するようにデバイスに指示することもできる。このコントロールコマンドは、オーディオ入力および/または話声入力を受信するのをやめるようにシステムに指示することもできる。このコントロールコマンドは、デバイスへ送信する、または以前に送信した話声コマンドを取り消すこともできる。
このシステムは、話声コマンドを継続的にモニターし、能動的に探し求める。オーディオ入力102が、話声やユーザの発声を含む場合には、オーディオ入力102および/またはオーディオデータ106が、認識器230に提供される(ステップ313〜315)。そして認識器は、そのオーディオ入力から1つまたは複数の話声コマンドを識別することができ、その話声コマンドまたはコマンドデータは、コントローラによって、その話声コマンドによって機能できる1つまたは複数のデバイスへ送信される(ステップ317〜321)。いくつかの実施形態においては、話声コマンドは、ルール220に従って変更および/または回避することができる。
本発明について、部品や機能などの特定の構成を参照して説明したが、これらは、すべての可能な構成や機能を網羅することを意図するものではなく、実際には、当業者なら、多くの修正形態および変形形態を確かめることができるであろう。
本発明によるシステムを示す概略図である。 図1に示されているシステムの別の概略図である。 図1および図2に示されているシステムによって採用できる音声駆動式のコントロールシステムにおいて危険を軽減する方法を示す図である。
符号の説明
102 オーディオ入力
104 レシーバ
106 オーディオデータ
108 プロセッサ
110 ストレージ
114 コマンドデータ
116 デバイス
118 ユーザインターフェース
210 イベント検知器
212 イベントデータ
214 コマンドコントローラ
220 ルール
222 システム状態に関する情報
230 認識器

Claims (31)

  1. オーディオ入力を受信するためのレシーバと、
    前記オーディオ入力を分析して前記オーディオ入力の少なくとも1つのイベントを識別するためのイベント検知器と、
    前記オーディオ入力の少なくとも一部を解釈するための認識器と、
    複数のルールを含むデータベースと、
    前記少なくとも1つのイベントおよび少なくとも1つのルールに基づいてコントロールコマンドを作成するためのコントローラとを具備することを特徴とする音声認識およびコントロールシステム。
  2. 前記コントローラが、前記システムによって機能できるデバイスへ前記コントロールコマンドを送信することを特徴とする請求項1に記載のシステム。
  3. 前記デバイスが医療用デバイスであることを特徴とする請求項2に記載のシステム。
  4. 前記コントローラが、システム状態を判断し、前記コントロールコマンドが、前記システム状態にさらに基づくことを特徴とする請求項1に記載のシステム。
  5. 前記コントロールコマンドが、アクションを停止するようにデバイスに指示することを特徴とする請求項1に記載のシステム。
  6. 前記コントロールコマンドが、アクションを実行するようにデバイスに指示することを特徴とする請求項1に記載のシステム。
  7. 前記少なくとも1つのイベントが、発声の開始および発声の終了のうちの少なくとも1つを含むことを特徴とする請求項1に記載のシステム。
  8. 前記少なくとも1つのイベントが、所定の持続時間を超過するオーディオ入力の持続時間を含むことを特徴とする請求項1に記載のシステム。
  9. 前記少なくとも1つのイベントが、所定の持続時間に満たないオーディオ入力の持続時間を含むことを特徴とする請求項1に記載のシステム。
  10. 前記少なくとも1つのイベントが、レシーバの異常の1つを含むことを特徴とする請求項1に記載のシステム。
  11. 前記少なくとも1つのイベントが、機能しているレシーバを含むことを特徴とする請求項1に記載のシステム。
  12. 前記少なくとも1つのイベントが、オーディオ入力のエラーであることを特徴とする請求項1に記載のシステム。
  13. 前記少なくとも1つのイベントが、レシーバの接続およびレシーバの接続解除のうちの少なくとも1つを含むことを特徴とする請求項1に記載のシステム。
  14. 前記コントローラが、前記オーディオ入力の前記少なくとも一部の前記解釈に基づいて少なくとも1つの話声コマンドを作成することを特徴とする請求項1に記載のシステム。
  15. 前記コントロールコマンドが、前記少なくとも1つの話声コマンドを取り消すことを特徴とする請求項14に記載のシステム。
  16. 前記コントローラが、前記少なくとも1つの話声コマンドによって機能できるデバイスへ前記少なくとも1つの話声コマンドを送信することを特徴とする請求項14に記載のシステム。
  17. 前記デバイスが医療用デバイスであることを特徴とする請求項16に記載のシステム。
  18. オーディオ入力を受信するためのレシーバと、
    前記レシーバと通信状態にあるプロセッサと、
    前記オーディオ入力を分析して前記オーディオ入力の少なくとも1つのイベントを識別するために前記プロセッサ上で実行されるソフトウェアと、
    前記プロセッサと通信状態にあるデータベースであって、複数のルールを含むデータベースと、
    前記少なくとも1つのイベント、ならびに少なくとも1つのルールおよびシステム状態に基づいてアクションを実行するために前記プロセッサ上で実行されるソフトウェアとを具備することを特徴とする音声認識およびコントロールシステム。
  19. 前記アクションが、危険を軽減するアクションであることを特徴とする請求項18に記載のシステム。
  20. 前記少なくとも1つのイベントが、発声の開始および発声の終了のうちの少なくとも1つであることを特徴とする請求項18に記載のシステム。
  21. 前記少なくとも1つのイベントが、発声の持続時間を含むことを特徴とする請求項18に記載のシステム。
  22. 前記オーディオ入力から少なくとも1つの話声コマンドを識別するために前記プロセッサ上で実行される認識ソフトウェアをさらに具備することを特徴とする請求項18に記載のシステム。
  23. 前記アクションが、前記少なくとも1つの話声コマンドを無視することであることを特徴とする請求項22に記載のシステム。
  24. 音声駆動式のコントロールシステムにおいて危険を軽減する方法であって、
    オーディオ入力を受信するステップと、
    前記オーディオ入力の少なくとも1つのイベントを識別するステップと、
    システム状態を判断するステップと、
    危険を軽減するアクションが必要かどうかを、前記少なくとも1つのイベント、前記システム状態、および少なくとも1つのルールに基づいて判断するステップと、
    前記少なくとも1つのイベント、前記システム状態、および前記少なくとも1つのルールに基づいてコントロールコマンドを作成するステップとを具備することを特徴とする方法。
  25. 前記音声駆動式のコントロールシステムによって機能できるデバイスへ前記コントロールコマンドを送信するステップをさらに具備することを特徴とする請求項24に記載の方法。
  26. 前記コントロールコマンドが、前記デバイスへの話声コマンドを取り消すことを特徴とする請求項24に記載の方法。
  27. 前記少なくとも1つのイベントが、発声の開始および発声の終了のうちの少なくとも1つを含むことを特徴とする請求項24に記載の方法。
  28. 前記少なくとも1つのイベントが、所定の持続時間を上回るオーディオ入力の持続時間および前記所定の持続時間を下回る前記オーディオ入力の持続時間のうちの一方を含むことを特徴とする請求項24に記載の方法。
  29. 前記少なくとも1つのイベントが、レシーバの異常を含むことを特徴とする請求項24に記載の方法。
  30. 前記イベントが、オーディオ入力のエラーであることを特徴とする請求項24に記載の方法。
  31. 前記オーディオ入力を認識器へ送信するステップと、
    前記オーディオ入力から少なくとも1つの話声コマンドを識別するステップと、
    前記話声コマンドによって機能できるデバイスへ前記話声コマンドを送信するステップとをさらに具備することを特徴とする請求項24に記載の方法。
JP2007077379A 2006-09-26 2007-03-23 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法 Active JP4975495B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/527,142 2006-09-26
US11/527,142 US9514746B2 (en) 2006-09-26 2006-09-26 System and method for hazard mitigation in voice-driven control applications

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011233766A Division JP5335051B2 (ja) 2006-09-26 2011-10-25 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法

Publications (2)

Publication Number Publication Date
JP2008083667A true JP2008083667A (ja) 2008-04-10
JP4975495B2 JP4975495B2 (ja) 2012-07-11

Family

ID=38829580

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007077379A Active JP4975495B2 (ja) 2006-09-26 2007-03-23 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法
JP2011233766A Active JP5335051B2 (ja) 2006-09-26 2011-10-25 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011233766A Active JP5335051B2 (ja) 2006-09-26 2011-10-25 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法

Country Status (4)

Country Link
US (2) US9514746B2 (ja)
EP (2) EP1909264B1 (ja)
JP (2) JP4975495B2 (ja)
CA (1) CA2576568C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017032844A (ja) * 2015-08-04 2017-02-09 富士ゼロックス株式会社 処理装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9013399B2 (en) * 2010-02-18 2015-04-21 Nikon Corporation Information processing device, portable device and information processing system
US9842591B2 (en) * 2010-05-19 2017-12-12 Sanofi-Aventis Deutschland Gmbh Methods and systems for modifying operational data of an interaction process or of a process for determining an instruction
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
US9293141B2 (en) * 2014-03-27 2016-03-22 Storz Endoskop Produktions Gmbh Multi-user voice control system for medical devices
US10600015B2 (en) * 2015-06-24 2020-03-24 Karl Storz Se & Co. Kg Context-aware user interface for integrated operating room
KR102420518B1 (ko) * 2015-09-09 2022-07-13 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US11062707B2 (en) * 2018-06-28 2021-07-13 Hill-Rom Services, Inc. Voice recognition for patient care environment
US10832673B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker device with cognitive sound analysis and response
US10832672B2 (en) * 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker system with cognitive sound analysis and response
JP2021140097A (ja) * 2020-03-09 2021-09-16 東芝テック株式会社 情報処理端末
CN111599379B (zh) * 2020-05-09 2023-09-29 北京南师信息技术有限公司 冲突预警方法、装置、设备、可读存储介质和分诊系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61192301U (ja) * 1985-05-21 1986-11-29
JPH09305194A (ja) * 1996-05-15 1997-11-28 Oki Electric Ind Co Ltd 音響処理装置
JPH10312194A (ja) * 1997-03-12 1998-11-24 Seiko Epson Corp 認識対象音声検出方法およびその装置
JP2000201245A (ja) * 1999-01-08 2000-07-18 Ricoh Co Ltd 画像形成装置
JP2002209958A (ja) * 2001-01-19 2002-07-30 J Morita Tokyo Mfg Corp 音声・フットスイッチ操作型医療用チェアユニット
JP2006208486A (ja) * 2005-01-25 2006-08-10 Matsushita Electric Ind Co Ltd 音声入力装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5345538A (en) 1992-01-27 1994-09-06 Krishna Narayannan Voice activated control apparatus
US5305244B2 (en) * 1992-04-06 1997-09-23 Computer Products & Services I Hands-free user-supported portable computer
US6463361B1 (en) 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US7053752B2 (en) 1996-08-06 2006-05-30 Intuitive Surgical General purpose distributed operating room control system
US6646541B1 (en) 1996-06-24 2003-11-11 Computer Motion, Inc. General purpose distributed operating room control system
US5970457A (en) 1995-10-25 1999-10-19 Johns Hopkins University Voice command and control medical care system
US6496099B2 (en) 1996-06-24 2002-12-17 Computer Motion, Inc. General purpose distributed operating room control system
US6642836B1 (en) 1996-08-06 2003-11-04 Computer Motion, Inc. General purpose distributed operating room control system
US5812978A (en) * 1996-12-09 1998-09-22 Tracer Round Associaties, Ltd. Wheelchair voice control apparatus
US5822718A (en) * 1997-01-29 1998-10-13 International Business Machines Corporation Device and method for performing diagnostics on a microphone
US6007228A (en) * 1997-05-21 1999-12-28 Neomagic Corp. Master digital mixer with digital-audio links to external audio in a docking station and to internal audio inside a portable PC
US5926790A (en) * 1997-09-05 1999-07-20 Rockwell International Pilot/controller/vehicle or platform correlation system
US5946653A (en) * 1997-10-01 1999-08-31 Motorola, Inc. Speaker independent speech recognition system and method
US5891180A (en) * 1998-04-29 1999-04-06 Medtronic Inc. Interrogation of an implantable medical device using audible sound communication
US6392555B1 (en) * 1998-11-17 2002-05-21 Clark Most, Jr. Medical equipment warning device
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US6584439B1 (en) 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US7787907B2 (en) * 1999-05-26 2010-08-31 Johnson Controls Technology Company System and method for using speech recognition with a vehicle control system
US6266635B1 (en) 1999-07-08 2001-07-24 Contec Medical Ltd. Multitasking interactive voice user interface
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6587818B2 (en) 1999-10-28 2003-07-01 International Business Machines Corporation System and method for resolving decoding ambiguity via dialog
US6591239B1 (en) 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
JP3715584B2 (ja) 2002-03-28 2005-11-09 富士通株式会社 機器制御装置および機器制御方法
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP3984526B2 (ja) * 2002-10-21 2007-10-03 富士通株式会社 音声対話システム及び方法
US7461352B2 (en) * 2003-02-10 2008-12-02 Ronald Mark Katsuranis Voice activated system and methods to enable a computer user working in a first graphical application window to display and control on-screen help, internet, and other information content in a second graphical application window
DE10327261B4 (de) * 2003-06-17 2006-03-02 Disetronic Licensing Ag Infusionspumpe und Verfahren zur Überprüfung einer Infusionspumpe
DE602004024172D1 (de) * 2004-05-21 2009-12-31 Harman Becker Automotive Sys Automatische Erzeugung einer Wortaussprache für die Spracherkennung
US7243068B2 (en) * 2004-09-10 2007-07-10 Soliloquy Learning, Inc. Microphone setup and testing in voice recognition software
EP1650746A1 (fr) * 2004-10-19 2006-04-26 France Telecom S.A. Procédé et programme d'ordinateur pour la gestion d'une activité de production sonore d'un système d'interaction personne-machine

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61192301U (ja) * 1985-05-21 1986-11-29
JPH09305194A (ja) * 1996-05-15 1997-11-28 Oki Electric Ind Co Ltd 音響処理装置
JPH10312194A (ja) * 1997-03-12 1998-11-24 Seiko Epson Corp 認識対象音声検出方法およびその装置
JP2000201245A (ja) * 1999-01-08 2000-07-18 Ricoh Co Ltd 画像形成装置
JP2002209958A (ja) * 2001-01-19 2002-07-30 J Morita Tokyo Mfg Corp 音声・フットスイッチ操作型医療用チェアユニット
JP2006208486A (ja) * 2005-01-25 2006-08-10 Matsushita Electric Ind Co Ltd 音声入力装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017032844A (ja) * 2015-08-04 2017-02-09 富士ゼロックス株式会社 処理装置

Also Published As

Publication number Publication date
JP2012058744A (ja) 2012-03-22
US8224651B2 (en) 2012-07-17
US9514746B2 (en) 2016-12-06
US20090030695A1 (en) 2009-01-29
EP2357648A1 (en) 2011-08-17
EP1909264A2 (en) 2008-04-09
US20080077408A1 (en) 2008-03-27
EP2357648B1 (en) 2015-06-24
JP5335051B2 (ja) 2013-11-06
EP1909264A3 (en) 2008-09-17
CA2576568A1 (en) 2008-03-26
JP4975495B2 (ja) 2012-07-11
CA2576568C (en) 2015-05-05
EP1909264B1 (en) 2011-06-22

Similar Documents

Publication Publication Date Title
JP4975495B2 (ja) 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法
JP4699411B2 (ja) ユーザプロファイル管理コンポーネントを備えた音声認識システム
US9620144B2 (en) Confirmation of speech commands for control of headset computers
JP4842114B2 (ja) 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応
EP2923634B1 (en) Multi-user voice control system for medical devices
EP4270385A2 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
KR102318340B1 (ko) 핫 워드-인식 음성 합성
JP2008117400A (ja) 情報リソースを定義するために拡張マークアップ言語を用いるデバイス制御システム
KR20180109625A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR20200142122A (ko) 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용
KR20190090424A (ko) 사용자 발화 응답 방법 및 이를 지원하는 전자 장치
KR102652892B1 (ko) 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응
KR20180116725A (ko) 음성 인식 서비스의 운용 화면 표시 방법 및 이를 지원하는 전자 장치
WO2018016140A1 (ja) 情報処理装置、情報処理方法、およびプログラム
EP3477634A1 (en) Information processing device and information processing method
CN117935484A (zh) 一种适老化空间用卧室智能呼救系统
KR20200092763A (ko) 사용자 음성을 처리하는 전자장치 및 그 제어 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100623

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111025

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120411

R150 Certificate of patent or registration of utility model

Ref document number: 4975495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250