JP4699411B2 - ユーザプロファイル管理コンポーネントを備えた音声認識システム - Google Patents

ユーザプロファイル管理コンポーネントを備えた音声認識システム Download PDF

Info

Publication number
JP4699411B2
JP4699411B2 JP2007077381A JP2007077381A JP4699411B2 JP 4699411 B2 JP4699411 B2 JP 4699411B2 JP 2007077381 A JP2007077381 A JP 2007077381A JP 2007077381 A JP2007077381 A JP 2007077381A JP 4699411 B2 JP4699411 B2 JP 4699411B2
Authority
JP
Japan
Prior art keywords
profile
user
active
selection
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007077381A
Other languages
English (en)
Other versions
JP2007334301A (ja
Inventor
ガン・ワン
マッテオ・コントリニ
チェンギ・チェン
ハインツ−ヴェルナー・シュティラー
Original Assignee
シュトルツ・エンドスコープ・プロドゥクツィオンス・ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シュトルツ・エンドスコープ・プロドゥクツィオンス・ゲーエムベーハー filed Critical シュトルツ・エンドスコープ・プロドゥクツィオンス・ゲーエムベーハー
Publication of JP2007334301A publication Critical patent/JP2007334301A/ja
Application granted granted Critical
Publication of JP4699411B2 publication Critical patent/JP4699411B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識(speech recognition)システムに関し、より具体的には、ユーザプロファイル(user profile)管理コンポーネントと、ランタイム中にユーザプロファイルをホットスワップする方法とを含む音声認識およびデバイスコントロールシステムに関する。
音声認識とは、マイクロフォンによって受信された音響信号が、コンピュータによってテキストの単語、数字、あるいは記号のセットへと変換されるプロセスである。そしてこれらの認識された言葉は、ドキュメントの作成、データの入力、ならびにコマンドおよびコントロールなどの目的で、様々なコンピュータソフトウェアアプリケーションにおいて使用することができる。例えば音声認識システムは、様々な医療用のシステムおよびデバイスをコントロールするために現代の手術室において使用することができる。外科医やその他のユーザは、シンプルな音声コマンドを与えることによって、音声認識システムによってコントロールされているデバイスの機能を指示することができる。例えば外科医は、音声コマンドを発して、患者用の台を調整したり、ポンプの圧力を調整したりすることができる。
手術室における音声認識を可能にするために、医療用デバイスおよび/またはその他の機器は、通信チャネル(例えば、イーサネット(登録商標)接続、デバイスバスなど)を通じてコンポーネント(例えば、コールシステム)と接続される。音声認識システムも接続されて、音声駆動式のユーザインターフェースおよび認識ソフトウェアを提供する。音声コマンドが発せられると、そのコマンドを認識して、テキスト文字列に変換することができる。そのコマンドが、接続されているデバイスのうちの1つに対応する有効なコマンドとして首尾よく識別された場合には、システムは、適切な信号を送信し、それによって所望のコントロールアクションが取られる。
音声認識システムは一般に、特定のユーザ向けにカスタマイズすることができる。例えばユーザは、システムの特定の設定をカスタマイズすることができる。ユーザはさらに、自分の特定の音声コマンドおよびカスタムコマンドを認識するようにシステムを構成したりトレーニングしたりすることができる。カスタマイズおよび構成は、システムを初期設定した時点で、あるいはシステムを再起動した際に実行される。そのようなものとして、従来技術のシステムは、使用中に途切れることなくカスタマイズや再構成を行うことはできない。したがって、第2のユーザがシステムを操作したいと希望する場合には、その第2のユーザ向けにシステムを再構成するために、システムをリブートおよび/または再起動しなければならない。時間が決定的に重要となる手術室の環境においては、そのような遅延は、きわめて望ましくない。
したがって、ユーザによるカスタマイズおよび構成の改良された手段を含む音声認識のシステムおよび方法を提供することが望ましい。複数のユーザによって途切れることなく操作できる音声認識のシステムおよび方法を提供することがさらに望ましい。
米国特許出願公開第2004/0172011号明細書
したがって、本発明の1つの目的は、ユーザプロファイル管理システムを有する音声認識およびコントロールシステムを提供することである。
さらなる目的は、複数のユーザによって途切れることなく操作することができ、かつ使用中にユーザプロファイルを変更するための迅速で、円滑で、フェイルセーフな手段を有する音声認識およびコントロールシステムを提供することである。
これらおよびその他の目的は、話声入力を受信するためのレシーバと、そのレシーバと通信状態にあるプロセッサと、そのプロセッサと通信状態にあるデータベースであって、複数のユーザプロファイルを含むデータベースと、複数のユーザプロファイルからアクティブプロファイルを決定するためにプロセッサ上で実行されるプロファイル管理ソフトウェアと、アクティブプロファイルに基づいて話声入力から少なくとも1つのコマンドを識別するためにプロセッサ上で実行されるソフトウェアとを含む、複数のユーザによって途切れることなく操作できる音声認識およびコントロールシステムを提供することによって、達成される。一実施形態においては、プロファイル管理ソフトウェアは、複数のプロファイルのうちの第2のプロファイルを示すプロファイルの選択を受信すると、複数のユーザプロファイルのうちの第1のユーザプロファイルから、複数のユーザプロファイルのうちの第2のユーザプロファイルへ、アクティブプロファイルを切り替える。プロファイル管理ソフトウェアは、音声認識システムのランタイム中にアクティブプロファイルを切り替えることができる。
さらに提供されるのは、複数のユーザプロファイルのうちの1つからアクティブプロファイルを決定するステップと、話声入力を受信するステップと、アクティブプロファイルに基づいて話声入力から少なくとも1つのコマンドを認識するステップと、少なくとも1つのコマンドを実行するステップとを含む、音声駆動式のデバイスコントロールシステムにおいて口頭によるコマンドを認識して実行する方法である。アクティブプロファイルを決定するステップは、1つのユーザプロファイルを示すユーザの選択を受信するステップと、音声駆動式のデバイスコントロールシステムの再起動、リブート、および/またはリセットを行うことなくユーザプロファイルをアクティブにするステップとを含むことができる。
ユーザの選択を受信するステップと、そのユーザの選択に対応するユーザプロファイルを決定するステップと、そのユーザプロファイルをアクティブプロファイルと比較して、そのユーザプロファイルとアクティブプロファイルとの間における矛盾について判断するステップと、そのユーザプロファイルとアクティブプロファイルとの間に矛盾がまったく存在しない場合にそのユーザプロファイルをアクティブにするステップとを含む、ランタイム中に音声認識システムのユーザを切り替える方法も提供される。この方法は、矛盾または新しいアクティブプロファイルを示す通知を作成するさらなるステップを含むことができる。
図1は、本発明による音声認識およびデバイスコントロールシステムを示している。このシステムは、例えば医療手術室におけるデバイスおよび/またはプロセスのコントロールを含む任意の数の用途にとって有用なものとなることができる。このシステムはさらに、任意の数の工業用途および/または科学用途にとって有用なものとなることができる。これから説明するように、本発明によるシステムは、複数のユーザによって途切れることなく操作することができる。
このシステムは、話声入力102を受信するための1つまたは複数のレシーバ104を含む。レシーバ104は、入ってくる音または音波を受信してデジタル波形および/または電流もしくは電気エネルギー(例えば、話声データ106)へ変換するための任意の器具やデバイスとすることができる。例えばレシーバ104は、マイクロフォンとすることができる。レシーバ104によって受信される話声入力102は、話された単語や語句、あるいは単語や語句の集合など、ユーザから話された任意の発声とすることができる。話声入力102は、システムによって伝達および/または実施してほしいとユーザが希望する1つまたは複数のコマンドを表す単語や語句を含むことが好ましい。
このシステムは、1つまたは複数のプロセッサ108をさらに含む。プロセッサ108は、少なくとも1つのオペレーションをコントロールする、あるいは1つまたは複数のソフトウェアプログラムを受信するおよび/または実行する任意のデバイス、システム、またはそれらの一部とすることができる。プロセッサ108は、例えば、デジタルシグナルプロセッサ、マイクロコントローラ、マイクロプロセッサ、またはコンピュータプログラマブルロジックデバイスのうちの1つとすることができる。プロセッサ108に関連付けられている機能は、ローカルかリモートかを問わず、集中させることも分散させることもできるという点に留意されたい。プロセッサ108は、レシーバ104と通信状態にあり、話声データ106など、レシーバ104からの情報を受信することができる。以降で詳しく説明するが、次いでプロセッサ108、およびそれに関連付けられているその他のコンポーネントは、プロセッサ108と通信状態にあるデバイス116、ユーザインターフェース118、あるいはその他の任意のシステムまたは装置にコマンド114を送信するか、またはその他の形で伝達することができる。
本発明によるシステムはまた、少なくとも1つのデータベース、ストレージ、および/またはデータの集合を含み、これらは、複数のユーザプロファイル、例えば110を含む。このシステムのそれぞれのユーザプロファイル110は、特定のユーザによるシステムの使用に関連する任意の数のユーザの好み(preference)、設定、あるいはパラメータを含むことができる。例えばユーザプロファイル110は、ユーザに関連する音声認識プロファイル(speech recognition profile)を含むことができる。音声認識プロファイルは、発音データや、特定のユーザによる音声認識トレーニングの結果として生成された任意のデータを含むことができる。音声認識プロファイルはさらに、1つまたは複数の言語モデル、例えば特定のユーザに向けた専用の言語モデルや、システムのすべてのユーザに向けた汎用的な言語モデルを含むことができる。
ユーザプロファイル110はさらに、ディスプレイやユーザインターフェースに関する好みのプロファイルを含むことができ、これには、例えばユーザインターフェース118に関連した任意の数の設定やパラメータが含まれる。ユーザプロファイル110はまた、デバイスに関する好みのプロファイルを含むことができ、これには、このシステムによって機能できる任意の数の特定のデバイスに関連する好み、設定、およびパラメータが含まれる。ユーザプロファイル110はさらに、フィードバックに関する好みのプロファイルを含むことができ、これは、ユーザが希望するフィードバックのタイプ(例えば、通知、警告など)、および/またはフィードバックが希望される方法(例えば、音声、視覚など)を識別する。しかし、当業者なら理解できることであろうが、ユーザプロファイル110は、その他の多くの好み、設定、パラメータ、およびプロファイルを含むことができる。
このシステムは、図1に示されているデバイス116など、任意の数のデバイスをさらに含む。デバイス116は、このシステムによって機能できる任意のデバイスやデバイスのグループとすることができる。例えばデバイス116は、例えば手術室における医療用のデバイス、器具、ツール、あるいはシステムとすることができる。デバイス116はさらに、科学用や工業用のデバイス、器具、ツール、あるいはシステムとすることができる。それぞれのデバイス116は、システムからコマンド114を受信することができる。いくつかのデバイス116は、フィードバックやその他のデータをシステムに提供することもできる。このシステムはまた、少なくとも1つのユーザインターフェース118(例えば、グラフィカルユーザインターフェース)を含む。このユーザインターフェース118は、情報やフィードバックをユーザに表示するための、もしくはその他の形で提供するための、および/または入力や情報をユーザから受信するための任意のデバイスとすることができる。例えばユーザインターフェース118は、モニターやディスプレイ、キーパッド、キーボード、タッチスクリーン、マウス、および/またはオーディオ出力など、任意の数のコンポーネントを含むことができる。いくつかの実施形態においては、ユーザインターフェース118は、レシーバ104をさらに含む。
図2は、このシステムの例示的なプロセッサ108を示している。プロセッサ108は、その上で実行される任意の数のソフトウェアアプリケーションやプロセスを含む。当業者なら理解できるであろうが、このシステムのソフトウェアは、プロセッサ108のローカルに、またはリモートに、例えばデータベースおよび/または一時的なメモリ内に格納または配置することができる。図示されているように、このシステムは、複数のユーザプロファイル110からアクティブプロファイルを決定するためのプロファイルマネージャー210を含む。プロファイルマネージャー210は、ハードウェア、ソフトウェア、またはそれらの組合せにおいて具体化することができる。例えばプロファイルマネージャー210は、図2に示されているように、プロセッサ108上で実行されるプロファイル管理ソフトウェアを含むことができる。
本発明によるシステムは、複数のユーザによって(例えば同時に、あるいは連続して)使用することができる。ユーザのそれぞれは、ユーザプロファイル110を有することができ、このユーザプロファイル110は、プロファイルマネージャー210および/またはプロセッサ108によってアクセスすることができ、また一意(unique)のユーザ識別子によって識別することができる。プロファイルマネージャー210は、任意の所与の時点においてユーザプロファイル110のうちのどれがシステムのアクティブプロファイルであるかを決定するための手段を提供する。プロファイルマネージャー210はさらに、システムのランタイム中に、例えばシステムおよびプロセッサ108の再起動、リブート、および/またはリセットを行うことなくアクティブプロファイルを切り替えるための手段を提供する。
プロファイルマネージャー210は、複数のプロファイルのうちの第2のプロファイルを示すプロファイルの選択を受信すると、(例えば、システムの現在のユーザのうちの第1のユーザに対応する)複数のユーザプロファイルのうちの第1のユーザプロファイルから、(例えば、システムの現在のユーザのうちの第2のユーザに対応する)複数のユーザプロファイルのうちの第2のユーザプロファイルへ、アクティブプロファイルを切り替えることができる。プロファイルすなわちユーザの選択は、口頭による選択(例えば、話声入力102)とすることができる。例えばユーザは、一意のコードやユーザの名前(例えば、「Dr.Smith」)など、自分の一意の識別子を口にして、アクティブプロファイルを切り替えることができる。ユーザは、ユーザインターフェース118を介して、新しいアクティブプロファイルを手動で選択することもできる。この選択はさらに、システムによって提供される自動的な選択すなわち切り替えとすることができる。例えばシステムは、(例えばユーザプロファイル110に対応する)新しいユーザの音声を認識し、それに応じてプロファイルを自動的に切り替えることができる。
プロファイルの選択を受信した後に、あるいは受信したときに、プロファイルマネージャー210は、その時点のアクティブプロファイルを、選択されたプロファイルと比較して、そのアクティブプロファイルを切り替える前に何らかの潜在的な矛盾(conflict)が存在するかどうかを判断する。例えばプロファイルマネージャー210は、その時点でシステムによって使用されているデバイスに関連する何らかの矛盾したデバイスの好みや設定がないかをチェックすることができる。プロファイルマネージャー210はさらに、フェイルセーフで円滑な切り替えおよび/または移行を確かなものとするために、それぞれのプロファイルにおいて任意の数のその他の設定、好み、およびパラメータをチェックすることができる。矛盾が見つかった場合には、プロファイルマネージャー210は、システムの1人または複数のユーザへの警告や通知を作成する。この警告は、聴覚に訴えるものや、視覚に訴えるものとすることができる。場合によっては、この警告は、矛盾を解消するための入力をユーザに促すことができる。
矛盾や潜在的な矛盾がまったく見つからない場合や、潜在的な矛盾が解消した場合には、このシステムは、アクティブプロファイルの切り替えの通知を作成することができる。一実施形態においては、ユーザインターフェース118は、アクティブプロファイルに対応する一意の識別子を継続的に表示する。したがって通知は、表示を変更して、新しいアクティブプロファイルに対応する一意の識別子を表示するステップを含むことができる。表示には、希望に応じて、聴覚に訴える通知を付加することもできる。
図2に示されているように、このシステムはまた、話声入力102や話声データ106から少なくとも1つの潜在的なコマンド(例えば、単語や語句)またはコマンド114を認識または識別するための認識器220を含む。認識器220は、ハードウェア、ソフトウェア、またはそれらの組合せにおいて具体化することができる。例えば認識器220は、図2に示されているように、プロセッサ108上で実行される認識ソフトウェアを含むことができる。認識器220は、アクティブプロファイルに基づいてコマンド114を識別することができる。例えば認識器220は、アクティブなユーザの音声認識プロファイルおよび/または言語モデルにアクセスして、そこに含まれている情報の少なくとも一部に基づいてコマンド114を識別することができる。認識器220はさらに、潜在的なコマンドまたはコマンド114を識別する際にシステムのすべてのユーザに適用できる任意の数の言語モデル(図示せず)にアクセスするか、またはそうしたモデルを採用することができる。
このシステムは、少なくとも1つのコマンド(例えば114)を実行して任意の数のデバイスやシステムと通信するためのコマンドコントローラ230をさらに含む。コマンドコントローラ230は、認識器220によって識別された潜在的なコマンドまたはコマンド114に関連付けられているデバイスを判別することができる。例えばコマンドコントローラ230は、ユーザプロファイル110に含まれている情報およびデバイスの好みを採用することができる。当業者なら理解できることであろうが、コマンドコントローラ230は、コマンドを実行する際に任意の数のその他のコンポーネント、アプリケーション、およびその他の手段を採用することもできる。そしてコマンドコントローラ230は、コマンド114を(図1に示されている)デバイス116またはユーザインターフェース118へ送信または伝達することができる。
図3は、例示的なユーザインターフェース118を示している。ユーザインターフェース118は、1つまたは複数のモニターまたはディスプレイ320を含むことができる。いくつかの実施形態においては、ディスプレイ320は、タッチスクリーンディスプレイであり、これによってユーザは、ディスプレイ320に触れるか、または軽く叩くことによって、システムに対して選択を行ったり、手動入力322を提供したりすることができる。ユーザインターフェース118は、手動入力322を提供するためのその他の任意の手段を含むこともでき、それらには、キーボード、キーパッド、スイッチ、マウス、あるいはジョイスティックが含まれるが、これらには限定されない。例示的なユーザインターフェース118はまた、オーディオ出力310またはスピーカを含む。オーディオ出力310は、システムからのオーディオフィードバック、通知、警告などをユーザに提供することができる。ユーザインターフェース118のいくつかの実施形態はまた、レシーバ104を含む。
図4は、図1に示されているシステムによって採用できる、口頭によるコマンドを認識して実行する方法を示している。この方法は、複数のユーザプロファイルのうちの1つからアクティブプロファイルを決定する第1のステップ401を含む。ステップ401は、システムのプロファイルマネージャー210によって実行することができる。プロファイルマネージャー210は、例えば、特定のユーザプロファイル(例えば、一意のユーザ識別子)を示すユーザの選択を受信することができる。選択を受信したら、あるいは矛盾のチェックが完了したら、プロファイルマネージャー210は、ランタイム中に、音声駆動式のデバイスコントロールシステムの再起動、リブート、および/またはリセットを行うことなく、ユーザプロファイルをアクティブにすることができる。
この方法はまた、話声入力を受信するステップ403を含む。この話声入力は、このシステムや、このシステムによって機能できるデバイスによって実行されるコマンドを示すことができる。そしてこのシステムは、例えばアクティブプロファイルに含まれている情報、設定、あるいは好みに基づいて、話声入力から少なくとも1つの潜在的なコマンドやコマンドを識別または認識することができる(ステップ405)。次いで、このシステムによって識別された1つまたは複数のコマンドを処理して、実行することができる(ステップ407)。例えばコマンドは、このシステムによって機能できる1つまたは複数の対応するデバイスによって実行することができる。
図5は、図1に示されているシステムによって採用できる、ランタイム中にユーザを切り替える方法を示している。この方法は、ユーザすなわちプロファイルの選択を受信するステップ501を含む。この選択は、話声入力、手動入力、(例えば、特定のユーザの音声がシステムによって認識されたことに基づく)自動的な選択、あるいはそれらの組合せとして受信することができる。ユーザの選択は、コード、名前、あるいはその他の任意の識別子など、一意のユーザ識別子を含むことが好ましい。そしてユーザの選択に対応するユーザプロファイルが決定される(ステップ503)。ユーザプロファイルを決定するステップは、ユーザプロファイル110のデータベースに問合せを行うステップを含むことができる。選択されたユーザプロファイルは、その時点のアクティブプロファイルと比較されて、そのユーザプロファイルとアクティブプロファイルとの間に何らかの矛盾や潜在的な矛盾が存在するかどうかが判断される(ステップ505〜507)。矛盾がまったく存在しない場合には、その選択されたユーザプロファイルがアクティブにされる(ステップ509)。そのユーザプロファイルは、すぐにアクティブにすることもでき、あるいはいくつかの実施形態においては、一方のユーザまたは双方のユーザによって切り替えが承認されてからアクティブにすることもできる。次いで、アクティブプロファイルの切り替えの通知が、ユーザに提供される(ステップ511)。
選択されたプロファイルとアクティブプロファイルとの間に矛盾や潜在的な矛盾が見つかった場合には、通知や警告が作成される(ステップ513)。この警告は、矛盾を解消するためのユーザの入力を求める要求を含むことができる。矛盾が解消された場合には(ステップ515)、アクティブプロファイルが切り替えられ、ユーザに通知される(ステップ511)。
本発明について、部品や機能などの特定の構成を参照して説明したが、これらは、すべての可能な構成や機能を網羅することを意図するものではなく、実際には、当業者なら、多くの修正形態および変形形態を確かめることができるであろう。
本発明によるシステムを示す概略図である。 図1に示されているシステムのプロセッサを示す概略図である。 図1に示されているシステムのユーザインターフェースを示す概略図である。 図1に示されているシステムによって採用できる、口頭によるコマンドを認識して実行する方法を示す図である。 図1に示されているシステムによって採用できる、ランタイム中にユーザを切り替える方法を示す図である。
符号の説明
102 話声入力
104 レシーバ
106 話声データ
108 プロセッサ
110 ユーザプロファイル
114 コマンド
116 デバイス
118 ユーザインターフェース
210 プロファイルマネージャー
220 認識器
230 コマンドコントローラ
310 オーディオ出力
320 ディスプレイ
322 手動入力

Claims (27)

  1. 複数のユーザによって途切れることなく操作できる音声認識およびコントロールシステムであって、
    話声入力を受信するためのレシーバと、
    前記レシーバと通信状態にあるプロセッサと、
    前記プロセッサと通信状態にあるデータベースであって、複数のユーザプロファイルを含むデータベースと、
    前記複数のユーザプロファイルからアクティブプロファイルを決定するために前記プロセッサ上で実行されるプロファイル管理ソフトウェアと、
    前記アクティブプロファイルに基づいて前記話声入力から少なくとも1つのコマンドを識別するために前記プロセッサ上で実行されるソフトウェアとを具備し、
    前記プロファイル管理ソフトウェアが、前記複数のプロファイルのうちの第2のプロファイルを示すプロファイルの選択を受信すると、前記アクティブプロファイルを前記第2のプロファイルと比較して、前記アクティブプロファイルと前記第2のプロファイルとの間における潜在的な矛盾について判断する
    ことを特徴とするシステム。
  2. 前記プロファイル管理ソフトウェアが、もし矛盾が存在しないならば、前記複数のユーザプロファイルのうちの前記第2のユーザプロファイルへ、前記アクティブプロファイルを切り替えることを特徴とする請求項1に記載のシステム。
  3. 前記プロファイル管理ソフトウェアが、前記音声認識およびコントロールシステムのランタイム中に前記アクティブプロファイルを切り替えることを特徴とする請求項2に記載のシステム。
  4. 前記アクティブプロファイルが切り替わった際に通知を作成するためのソフトウェアをさらに具備することを特徴とする請求項2に記載のシステム。
  5. 前記通知が、聴覚に訴える通知および視覚に訴える通知のうちの少なくとも1つであることを特徴とする請求項4に記載のシステム。
  6. 前記通知が、前記アクティブプロファイルに対応するユーザ識別子を含むことを特徴とする請求項4に記載のシステム。
  7. 前記プロファイルの選択が、口頭による選択、手動による選択、および自動的な選択のうちの1つである
    ことを特徴とする請求項1に記載のシステム。
  8. 前記プロファイルの選択が、一意のユーザ識別子を含む
    ことを特徴とする請求項1に記載のシステム。
  9. 潜在的な矛盾が見つかった場合に、前記プロファイル管理ソフトウェアが警告を作成することを特徴とする請求項1に記載のシステム。
  10. 前記複数のユーザプロファイルのそれぞれが、音声認識プロファイル、ディスプレイに関する好みのプロファイル、デバイスに関する好みのプロファイル、およびフィードバックに関する好みのプロファイルのうちの少なくとも1つを含むことを特徴とする請求項1に記載のシステム。
  11. 前記複数のユーザプロファイルのうちの1つが、デフォルトのプロファイルであることを特徴とする請求項1に記載のシステム。
  12. 前記複数のユーザプロファイルのうちの1つまたは複数を前記プロファイル管理ソフトウェアによって編集することができることを特徴とする請求項1に記載のシステム。
  13. 前記少なくとも1つのコマンドを実行するために前記プロセッサ上で実行されるソフトウェアをさらに具備することを特徴とする請求項1に記載のシステム。
  14. 複数のユーザによって途切れることなく操作できる音声認識およびコントロールシステムであって、
    話声入力を受信するためのレシーバと、
    複数のユーザプロファイルを含むデータベースと、
    前記複数のユーザプロファイルからアクティブプロファイルを決定するためのプロファイルマネージャーと、
    前記アクティブプロファイルに基づいて前記話声入力から少なくとも1つの潜在的なコマンドを識別するための認識器と、
    前記少なくとも1つの潜在的なコマンドから少なくとも1つのデバイスコマンドを決定して、前記少なくとも1つのデバイスコマンドを実行するためのコマンドコントローラとを具備し、
    前記プロファイルマネージャーが、前記複数のプロファイルのうちの第2のプロファイルを示すプロファイルの選択を受信すると、前記アクティブプロファイルを前記第2のプロファイルと比較して、前記アクティブプロファイルと前記第2のプロファイルとの間における潜在的な矛盾について判断する
    ことを特徴とするシステム。
  15. 前記プロファイルマネージャーが、もし矛盾が存在しないならば、前記音声認識およびコントロールシステムのランタイム中に、前記複数のユーザプロファイルのうちの前記第2のユーザプロファイルへ、前記アクティブプロファイルを切り替えることを特徴とする請求項14に記載のシステム。
  16. 前記認識器が、音声認識に基づいて、前記話声入力を提供している前記複数のユーザのうちの特定のユーザを判別し、
    前記プロファイルマネージャーが、前記特定のユーザに対応する前記複数のユーザプロファイルのうちの1つのユーザプロファイルへ、前記アクティブプロファイルを切り替えることを特徴とする請求項14に記載のシステム。
  17. 音声駆動式のデバイスコントロールシステムにおいて口頭によるコマンドを認識して実行する方法であって、
    複数のユーザプロファイルのうちの1つからアクティブプロファイルを決定するステップと、
    話声入力を受信するステップと、
    前記アクティブプロファイルに基づいて前記話声入力から少なくとも1つのコマンドを認識するステップと、
    前記少なくとも1つのコマンドを実行するステップとを具備し、
    アクティブプロファイルを決定する前記ステップが、
    1つのユーザプロファイルを示すユーザの選択を受信するステップと、
    前記ユーザプロファイルを前記アクティブプロファイルと比較して、前記ユーザプロファイルと前記アクティブプロファイルとの間における潜在的な矛盾について判断し、もし前記ユーザプロファイルと前記アクティブプロファイルとの間に矛盾が存在しないならば、前記音声駆動式のデバイスコントロールシステムを再起動することなく前記ユーザプロファイルをアクティブにするステップとを含む
    ことを特徴とする方法。
  18. 前記コマンドを実行する前記ステップが、前記音声駆動式のデバイスコントロールシステムによって機能できる少なくとも1つのデバイスへ前記コマンドを送信するステップを含むことを特徴とする請求項17に記載の方法。
  19. ランタイム中に音声認識およびコントロールシステムのユーザを切り替える方法であって、
    ユーザの選択を受信するステップと、
    前記ユーザの選択に対応するユーザプロファイルを決定するステップと、
    前記ユーザプロファイルをアクティブプロファイルと比較して、前記ユーザプロファイルと前記アクティブプロファイルとの間における矛盾について判断するステップと、
    前記ユーザプロファイルと前記アクティブプロファイルとの間に矛盾がまったく存在しない場合に前記ユーザプロファイルをアクティブにするステップとを具備することを特徴とする方法。
  20. 通知を作成するステップであって、前記通知が、矛盾しかつ新しいアクティブプロファイルのうちの1つを示しているステップをさらに具備することを特徴とする請求項19に記載の方法。
  21. ユーザプロファイルを決定する前記ステップが、複数のユーザプロファイルのデータベースに問合せを行うステップを含むことを特徴とする請求項19に記載の方法。
  22. 前記ユーザの選択が、話声入力、手動による選択、および自動的な選択のうちの1つとして受信されることを特徴とする請求項19に記載の方法。
  23. 前記ユーザの選択が、一意のユーザ識別子を含むことを特徴とする請求項19に記載の方法。
  24. 前記アクティブプロファイルと前記第2のプロファイルとの間における矛盾が解消した場合には、前記プロファイル管理ソフトウェアが、前記第2のプロファイルへ、前記アクティブプロファイルを切り替えることを特徴とする請求項1に記載のシステム。
  25. 前記アクティブプロファイルと前記第2のプロファイルとの間における矛盾が解消した場合には、前記プロファイルマネージャーが、前記第2のプロファイルへ、前記アクティブプロファイルを切り替えることを特徴とする請求項14に記載のシステム。
  26. 各ユーザプロファイルが、特定のユーザに関するユーザの設定及び好み、そして特定のユーザに関連する発音データを含んでいる音声認識プロファイルを含むことを特徴とする請求項1に記載のシステム。
  27. 各ユーザプロファイルが、特定のユーザに関するユーザの設定及び好み、そして特定のユーザに関連する発音データを含んでいる音声認識プロファイルを含むことを特徴とする請求項14に記載のシステム。
JP2007077381A 2006-06-16 2007-03-23 ユーザプロファイル管理コンポーネントを備えた音声認識システム Expired - Fee Related JP4699411B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/455,248 2006-06-16
US11/455,248 US8015014B2 (en) 2006-06-16 2006-06-16 Speech recognition system with user profiles management component

Publications (2)

Publication Number Publication Date
JP2007334301A JP2007334301A (ja) 2007-12-27
JP4699411B2 true JP4699411B2 (ja) 2011-06-08

Family

ID=38229045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007077381A Expired - Fee Related JP4699411B2 (ja) 2006-06-16 2007-03-23 ユーザプロファイル管理コンポーネントを備えた音声認識システム

Country Status (4)

Country Link
US (1) US8015014B2 (ja)
EP (1) EP1868184B1 (ja)
JP (1) JP4699411B2 (ja)
CA (1) CA2576758C (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2211689A4 (en) * 2007-10-08 2013-04-17 Univ California Ucla Office Of Intellectual Property VOICE CONTROLLED DASHBOARD WITH CLINICAL INFORMATION
US20110066942A1 (en) * 2009-09-14 2011-03-17 Barton James M Multifunction Multimedia Device
US8682145B2 (en) * 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
JP5673330B2 (ja) * 2011-04-25 2015-02-18 株式会社デンソー 音声入力装置
WO2012169679A1 (ko) * 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
JP2013178644A (ja) * 2012-02-28 2013-09-09 Toshiba Corp 医用情報通信試験装置
US10068288B2 (en) * 2012-12-17 2018-09-04 Capital One Financial Corporation Systems and methods for providing a user interface for facilitating personal payment transactions
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
DE102014209358A1 (de) * 2014-05-16 2015-11-19 Ford Global Technologies, Llc Vorrichtung und Verfahren zur Spracherkennung, insbesondere in einem Fahrzeug
US9620106B2 (en) 2014-07-30 2017-04-11 At&T Intellectual Property I, L.P. System and method for personalization in speech recogniton
JP6772184B2 (ja) * 2015-04-29 2020-10-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. グループのメンバによってデバイスを操作する方法及び装置
US11096848B2 (en) * 2016-09-12 2021-08-24 Fuji Corporation Assistance device for identifying a user of the assistance device from a spoken name
US10013971B1 (en) * 2016-12-29 2018-07-03 Google Llc Automated speech pronunciation attribution
KR102412202B1 (ko) * 2017-01-03 2022-06-27 삼성전자주식회사 냉장고 및 이의 정보 표시 방법
KR102100742B1 (ko) * 2017-05-16 2020-04-14 애플 인크. 디지털 어시스턴트 서비스의 원거리 확장
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10504513B1 (en) * 2017-09-26 2019-12-10 Amazon Technologies, Inc. Natural language understanding with affiliated devices
US10715604B1 (en) * 2017-10-26 2020-07-14 Amazon Technologies, Inc. Remote system processing based on a previously identified user
US10567515B1 (en) 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
DE102018106388A1 (de) 2018-03-19 2019-09-19 gimya.solution UG (haftungsbeschränkt) Vorrichtung und Verfahren zum Steuern und/oder Regeln von medizinischen Geräten
CN109065058B (zh) * 2018-09-30 2024-03-15 合肥鑫晟光电科技有限公司 语音通信方法、装置及系统
KR102436985B1 (ko) 2019-05-31 2022-08-29 애플 인크. 오디오 미디어 제어를 위한 사용자 인터페이스
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
US10802843B1 (en) 2019-05-31 2020-10-13 Apple Inc. Multi-user configuration
US11960615B2 (en) 2021-06-06 2024-04-16 Apple Inc. Methods and user interfaces for voice-based user profile management
WO2023076187A2 (en) * 2021-10-25 2023-05-04 Exxo, Inc. Systems and methods for query source identification and response

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305596A (ja) * 1999-04-23 2000-11-02 Sony Corp 音声認識装置及びナビゲーション装置
JP2003309786A (ja) * 2002-04-16 2003-10-31 Canon Inc 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
WO2005042314A1 (en) * 2003-10-21 2005-05-12 Johnson Controls Technology Company System and method for selecting a user speech profile for a device in a vehicle
JP2007529916A (ja) * 2004-02-03 2007-10-25 アドンド コーポレーション コンピュータでの音声通信

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463361B1 (en) 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US7053752B2 (en) 1996-08-06 2006-05-30 Intuitive Surgical General purpose distributed operating room control system
US6646541B1 (en) 1996-06-24 2003-11-11 Computer Motion, Inc. General purpose distributed operating room control system
US5970457A (en) 1995-10-25 1999-10-19 Johns Hopkins University Voice command and control medical care system
US6496099B2 (en) 1996-06-24 2002-12-17 Computer Motion, Inc. General purpose distributed operating room control system
US6642836B1 (en) 1996-08-06 2003-11-04 Computer Motion, Inc. General purpose distributed operating room control system
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6266635B1 (en) 1999-07-08 2001-07-24 Contec Medical Ltd. Multitasking interactive voice user interface
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6587818B2 (en) 1999-10-28 2003-07-01 International Business Machines Corporation System and method for resolving decoding ambiguity via dialog
US6591239B1 (en) 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
US7319962B2 (en) * 1999-12-24 2008-01-15 Medtronic, Inc. Automatic voice and data recognition for implanted medical device instrument systems
FR2808186B1 (fr) * 2000-04-27 2003-02-21 Alm Systeme de commande de table d'operation et table d'operation comportant un tel systeme
US6993119B1 (en) * 2000-08-09 2006-01-31 Bellsouth Intellectual Property Corporation Network and method for providing a flexible call forwarding telecommunications service with automatic speech recognition capability
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
US7286749B2 (en) 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US8233592B2 (en) * 2003-11-10 2012-07-31 Nuance Communications, Inc. Personal home voice portal
US20050288930A1 (en) * 2004-06-09 2005-12-29 Vaastek, Inc. Computer voice recognition apparatus and method
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US20070219792A1 (en) * 2006-03-20 2007-09-20 Nu Echo Inc. Method and system for user authentication based on speech recognition and knowledge questions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305596A (ja) * 1999-04-23 2000-11-02 Sony Corp 音声認識装置及びナビゲーション装置
JP2003309786A (ja) * 2002-04-16 2003-10-31 Canon Inc 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
WO2005042314A1 (en) * 2003-10-21 2005-05-12 Johnson Controls Technology Company System and method for selecting a user speech profile for a device in a vehicle
JP2007511399A (ja) * 2003-10-21 2007-05-10 ジョンソン コントロールズ テクノロジー カンパニー 車輌内装置用にユーザ音声プロファイルを選択するシステム及び方法
JP2007529916A (ja) * 2004-02-03 2007-10-25 アドンド コーポレーション コンピュータでの音声通信

Also Published As

Publication number Publication date
US8015014B2 (en) 2011-09-06
JP2007334301A (ja) 2007-12-27
CA2576758C (en) 2012-11-13
EP1868184A1 (en) 2007-12-19
CA2576758A1 (en) 2007-12-16
EP1868184B1 (en) 2015-04-15
US20070294081A1 (en) 2007-12-20

Similar Documents

Publication Publication Date Title
JP4699411B2 (ja) ユーザプロファイル管理コンポーネントを備えた音声認識システム
JP4842114B2 (ja) 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応
KR102505597B1 (ko) 어시스턴트 애플리케이션을 위한 음성 사용자 인터페이스 단축
JP6887031B2 (ja) 方法、電子装置、家庭用機器ネットワークおよび記憶媒体
CN106297781B (zh) 控制方法和控制器
EP3788620B1 (en) Supplementing voice inputs to an automated assistant according to selected suggestions
US9514746B2 (en) System and method for hazard mitigation in voice-driven control applications
KR102411619B1 (ko) 전자 장치 및 그 제어 방법
US8473296B2 (en) Method and system for dynamic creation of contexts
JP2011176879A (ja) 注目期間を有する音声入力装置
JP2006154724A (ja) 対話システム、対話方法、及びコンピュータプログラム
US20180285068A1 (en) Processing method of audio control and electronic device thereof
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US20120072223A1 (en) System and method for configuring voice synthesis
JP2007232829A (ja) 音声対話装置とその方法及びプログラム
JP2017083713A (ja) 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体
JPWO2019176670A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN113975078A (zh) 基于人工智能的按摩控制方法及相关设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110302

R150 Certificate of patent or registration of utility model

Ref document number: 4699411

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees