JP2004516517A - 発話による対話言語の設定 - Google Patents

発話による対話言語の設定 Download PDF

Info

Publication number
JP2004516517A
JP2004516517A JP2002551835A JP2002551835A JP2004516517A JP 2004516517 A JP2004516517 A JP 2004516517A JP 2002551835 A JP2002551835 A JP 2002551835A JP 2002551835 A JP2002551835 A JP 2002551835A JP 2004516517 A JP2004516517 A JP 2004516517A
Authority
JP
Japan
Prior art keywords
language
commands
command
function
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002551835A
Other languages
English (en)
Inventor
ヘステル,ヘンリクス アー ウェー ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004516517A publication Critical patent/JP2004516517A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/454Multi-language systems; Localisation; Internationalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声制御電子装置は、この電子装置の個々の機能を作動させるためのコントローラを含む。このコントローラはさらにユーザーとの対話において使用される言語に対応する言語アトリビュートを設定する。そしてこのコントローラは、ユーザーとの対話が少なくとも部分的には実際にこの対応言語によって行われるようにする。この電子装置は、音声コマンドを受け取るための入力を含む。また、ここにおける発話認知器は、発話入力から1以上の音声コマンドを認知する。この音声コマンドは装置の所定の第1機能と、言語アトリビュートを設定するという第2機能との2つの異なる機能に対応する。コントローラは、認知されたコマンドの第2機能にしたがって言語アトリビュートを設定する。

Description

【0001】
本発明は発話によってユーザーが電子装置と対話をすることを可能にする方法ならびにこのような方法が導入されたソフトウェア及び装置に関する。
【0002】
発話作動システムにおいて最も一般的に用いられる言語は英語である。この現状は多くのアプリケーションやユーザーに容認されてはいるものの、このような使用言語の制限は一般的にあまり使いやすいとは言いがたく、原則的にユーザーの母国語を認知するよう改造されたユーザー・マシンのほうが好適であると思われる。
【0003】
従来技術においても、複数の言語オプションの中から選択された言語で作動できることを特徴とするさまざまな発話認知方法や装置が開示されている。
【0004】
例えば欧州特許EP 0 953 896 A1において開示される意味論的認知システムでも、上記のような発話制御方法が実行されることが可能である。ここではユーザーが最初に言語選択器を操作することによって所望の操作言語を上記システムが提供する複数の言語オプションの中から選択することになる。さらにここでは外部記述ファイルとともに選択された言語に対応する発話認知エンジンが選択される。
【0005】
したがってこのシステムでは別個の選択可能な外部記述ファイルが利用されかつ各言語オプションについて別個の発話認知エンジンが提供されることが要求される。このような従来技術の要件のもとでは、システムの構造及び操作の複雑化ならびにこれにまつわるコストの肥大化が顕著になってしまうことは明らかである。そのためこのようなシステムは発話制御の導入を求めていると思われる消費者電子製品などを含む多くの電子システム及び製品における発話制御への適用には向かない。
【0006】
日本特許JP 09034488 A及びJP 09134191 Aにおいてもこれに類似する音声操作/認知装置が開示される。ここでは手動スイッチ操作又は後方の文献の場合は発話者識別部の使用によって複数の辞書あるいは言語モデルの切り替えの制御が可能である。
【0007】
1つの所定言語によって作動する音声認知システムについては、米国特許US 5,738,319が、単語の検索をシステムにとって認知可能なすべての単語の検索から能動単語からなる副語彙の検索に限定することによって演算時間を削減する方法を開示する。
【0008】
本発明の課題は、対話方法及びいくつかの言語を扱いかつ単純で使いやすい言語設定の操作による音声制御が可能なユーザーインタフェースを有する電子装置を提供することである。さらに本発明は、上記の音声制御であって、異なる言語を使用するさまざまな地域で販売される消費者電子製品において使用されるのに適する音声制御を提供することを課題とする。
【0009】
上記の目的において本発明に従った、発話によってユーザーが電子装置と対話をすることを可能にする方法は以下の工程を含む:
ユーザーとの対話で用いられる言語に対応する言語アトリビュートを設定する工程;
ユーザーとの対話が少なくとも部分的には実際に前記の対応言語によって行われることを促す工程;
ユーザーからの発話入力を受け取る工程;
前記発話入力の中から少なくとも1つの音声コマンドを認知する工程において、前記の音声コマンドは、装置における所定の第1機能と、言語アトリビュートを設定するという第2機能との2つの異なる機能に対応することを特徴とする工程;及び、
前記の認知されたコマンドの第2機能に対応する言語アトリビュートを設定する工程。
【0010】
本発明に従った少なくとも1つの音声コマンドは2つの異なる機能を有する。通常このうちの第1機能は、音声コマンドに一般的に備わっている機能である。第2機能は、言語アトリビュートを設定することである。例えばユーザーが”Play”というコマンドを発声した場合、ここでの第1機能は例えばCDプレーヤなどを再生することである。第2機能は、言語アトリビュートを英語に設定することである。これと同様にユーザーが”Spiel”と発声した場合、ここでの第1機能は、再生を開始することであり、第2機能は言語アトリビュートをドイツ語に設定することである。すなわちこの言語アトリビュートは対話言語を決定するのである。本発明においてはユーザーが言語アトリビュートを設定するために別個のコマンド(手動あるいは音声コマンド)を使用する必要がない。それは言語アトリビュートが(装置の機能に対応する)音声コマンドの2次的機能として決定されるからである。この2次的機能は、認知器が一度このコマンドを認知した時点でその言語アトリビュートが把握されるという意味では所定のものである。すなわち別件に発話入力からの特性に基づいて言語を設定する必要はない。通常コマンドの第1機能は、発話を受け取るかあるいは発話認知器を有する装置の機能である。しかしこの第1機能は発話を受信あるいは処理する装置によってネットワークを介して制御される別の装置の機能に対応することも可能であることが理解されるべきである。
【0011】
従属請求項2において記載されるように、少なくとも1つの作動コマンドは、装置における音声制御を作動させるという一般的な機能を果たすのに加えて対話言語を設定するためにも使用される。通常音声制御はユーザーが作動開始コマンドを発声した後に初めて作動する。これは、有効な音声コマンドを含んだ通常の会話が意図しない装置の制御を引き起こす可能性を低くするための対策である。作動開始後、発話認知器は例えば作動停止コマンドが発された後、あるいは最後の音声コマンドが発されてから一定期間が経過した後など、再び使用されていない暇な状態になるまで作動し続ける。認知器は、暇な状態である間は限定された1セットの作動開始コマンドだけしか認知することができない。この1セットのコマンドは同一の装置を作動させるためであるがそれぞれ異なる言語に対応するいくつかの作動開始コマンドを含むことができる。例えば作動開始コマンドは英語では”television”であるのに対し、第2の作動開始コマンドはオランダ語による”televisie”であってよい。通常発話認知器は、作動中には作動開始コマンドのセットとは異なるこれよりもだいぶ大きなコマンドのセットから認知を行う。
【0012】
従属請求項3に記載されるように、後者のコマンドのセットは言語アトリビュートに基づいて選択される。したがって言語アトリビュートは、視覚的に表示されるテキストや可聴フィードバックに代わってあるいはこれに加えて発話による対話をも影響する。なお、ある特定の言語のためのコマンドのセットが異なる言語のコマンドを含むことも可能である。例えばCDプレーヤを制御するためのオランダ語のコマンドのセットの中に英語の”play”というコマンドが含まれることが可能である。
【0013】
請求項4で記載されるように、好適には作動開始コマンド自体が設定される言語アトリビュートの言語でのコマンドである。これはより直観的な言語アトリビュートの変更を可能にする。なお、言語アトリビュートの設定は発話認知器が暇な状態になった後でも維持されることが可能である。これによって言語アトリビュートはその後も音声コマンド以外の様相についての対話を決定することができる。さらにこれは後程に音声入力が検出されたものの正確に認知されなかった場合に先程の言語でこれに対するフィードバックを提供するために用いられることも可能である。
【0014】
しかし好適にはこの言語アトリビュートは上述のアトリビュート設定機能である第2機能を有する音声コマンドが認知されるたびに毎回設定し直される。これは対話言語の迅速な変更を簡単に実現するのである。例えば1人のユーザーが装置に対して英語で対話し、言語アトリビュートを英語に変更するという第2機能を有する音声コマンドを発したとすると、この結果メニューなどの情報が英語によって表示される。ここでその後もう1人の家族の一員がオランダ語での対話を希望し、言語アトリビュートをオランダ語に変更するという第2機能を有する音声コマンドを発することができる。このような切り替えは作動開始コマンドの第2機能を通して平滑に実行されることが可能である。
【0015】
従属請求項5に記載されるように、好適には上述の第2機能を有する作動開始コマンドとして個人の名前などを利用することが可能である。
【0016】
発話コマンドの副次的効果として言語の選択を可能にすることによって、この方法は非常に使いやすくなり、異なる言語や方言が使用される異なる国や地域において販売される電子システム及び製品における導入、さらには例えば家族の構成員がそれぞれ異なる母国語をしゃべるような個人の家庭などから、特に多くの観光客や訪問者などが集う場所における案内所や売店などの公共マルチユーザー施設など、ユーザーがいくつかの異なる言語でシステムを操作することが想定されるさまざまなバイリンガルもしくはマルチリンガルエリア又はマルチユーザー環境における適用に非常に好適である。
【0017】
言語選択機能を有するコマンドは、好適には各々の言語につきその言語でよく用いられる1つの語句が割り当てられ、さらに好適には上記の語句はその言語による個人の名前であってよい。1度第2機能を有するコマンドが認知されると、次に続くマルチ機能装置の制御機能を作動させるための制御方法の操作は実際にこの選択された言語によって実行される。
【0018】
この方法は単純に1つの語句からなる作動開始コマンドの発声だけによる種々の言語オプションの間での簡易でかつ迅速な切り替えを可能にする。
【0019】
本発明の実施形態に従った音声制御方法は、好適には例えばテレビ、セットトップボックス、VCR、DVDプレーヤ、あるいはこれらに類似するマルチ機能消費者電子装置において適用される。本明細書中において使用される「マルチ機能電子装置」という用語は、家庭用あるいは業務用の複数の電子製品あるいはさらに複雑な情報システムから構成される装置を含む意味で使用される。上記の方法によって制御される個々の機能の数は適度なレベルに制限され、典型的には2〜100までの範囲内の数である。制御する機能がより限られている(例えば5〜20程度の機能)テレビやオーディオシステムなどといった典型的な消費者電子製品における諸機能の例としては、ミューティングなどを含む音量制御、音質制御、チャンネル選択、及び不作動/スタンバイの状態から作動状態へ又はこの逆への切り替えなどがあり、これらは英語の場合”louder”, “softer”, “mute”, “base”, “treble”, “change channel”, “on”, “off”, “stand−by” などの制御コマンドにより、他の言語の場合は本発明における方法が提供するそれぞれ上記の用語に対応する表現によって作動する。
【0020】
本明細書中における「言語」という用語は、あらゆる自然言語及び人工言語ならびに言語の方言、用語法及び俗語をも含む意味合いで使用される。本発明における方法によって提供される言語オプションの数は、上記方法が実際に使用される電子装置に応じて実に広い範囲にわたる数値を取ることができ、例えば2〜100の言語オプションを有することができる。グローバル規模で売り込まれる商品などは、典型的には言語オプションとして英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、日本語、中国語などいくつかの主要言語を含む。
(発明の実施形態)
以下においては添付の図面を参照しながら本発明における発話制御方法及びシステムのより詳細な実施形態を明らかにする。
【0021】
図1におけるフローチャートは、本発明の実施形態に従った発話制御方法をマルチ機能電子装置における個々の制御可能な機能の制御に適用した際の特徴を示す。上記のマルチ機能電子装置は、テレビ、オーディオシステム、洗濯機、台所機器などの家庭用消費者電子装置;コピー機、プリンター、種々のコンピュータ・ワークステーションなどのオフィス機器;または医療分野やその他の専門分野で用いられる電子製品もしくはさらに複雑な電子情報システムであってよい。ここでの説明では発話認知器が制御される装置に実装されていると仮定する。しかしこれは本発明の実施における方法の必須条件ではなく、むしろ上記の方法はいくつかの装置がネットワーク(ローカル又は広域ネットワーク)を通じて接続されるところにおいて、認知器及び/又はコントローラが制御される装置とは異なる装置に実装されるような実施形態においても適用されることが可能である。以下で明らかにされるように、ここで説明される本発明における方法は、制御される装置の言語アトリビュートの簡易な設定法を提供する。この言語アトリビュートは、ユーザーが音声コマンドを発する際に使用できる言語、ユーザーへの可聴フィードバック、及び/又はユーザーへの可視入力/フィードバック(例えばポップアップテキスト又はメニュ−)などを影響しうる。以下では主にユーザーが音声コマンドを発する際に使用できる言語への影響について説明する。
【0022】
制御される電子装置における認知器が最初は使用されず不作動の状態であると仮定した場合(大概の場合はそうである)、ユーザーは認知器を作動開始させる(第1機能)ため及びに操作言語を1つ選択する(同一コマンドにおける第2機能)ために発話コマンドを入力する。このようなコマンドは作動開始コマンド(activation command)と呼ばれる。認知器が既に作動している場合ユーザーは典型的には電子装置を制御するための第1機能だけしか有さない普通の音声コマンドを発する。また、前記の作動開始コマンドは、認知器が既に作動している間でも発されることが可能でありその結果言語が切り替えられるよう任意に設定することも可能である。なお上記の作動開始コマンドでないコマンドが対話言語を変更するための第2機能を有することも可能である。以下では作動開始コマンドのみが第2機能を有する場合における実施例について説明する。
【0023】
発話コマンド入力が受信されると、本発明の方法を実行するために用いられる発話認知エンジンに導入されている能動語彙における検索が実施される。認知器が不作動の状態である場合、上記の能動語彙は言語を選択するために用いられるすべての作動開始コマンドのリストから構成される。発話コマンド入力が上記の能動語彙における作動開始コマンドのリストのうちの1つの作動開始コマンドとして確定的に識別されると、通常その結果1以上の定義された認知可能な制御コマンドのリストがロードされ、選択された言語によるユーザーの電子装置の制御操作が可能になる。このようにして能動語彙は変更される。上記の変更された能動語彙はいくつか又はすべての作動開始コマンドを維持することができ、これによって1回の能動認知セッション中(すなわち認知機能が作動中)に言語を変更することが可能になる。
【0024】
発話コマンド入力が普通の制御コマンドであると識別された場合、そのコマンドに対応する電子装置の制御機能が作動する。
【0025】
上記コマンドが作動開始コマンド又は普通の制御コマンドのいずれとしても識別されなかった場合、この手順は初期条件に戻され、次の発話コマンドが入力されることに備える。
【0026】
通常認知器は、何も検出されない状態が所定の期間経過した後(例えば音声信号が何も検出されなかった場合やコマンドが何も認知されなかった場合)あるいは明確な作動停止コマンドが認知された後に作動モードから不作動モードへと切り替えられる。認知器が不作動モードに入る際、能動言語は初期のより制約された語彙にリセットされる。
【0027】
本発明の実施における一形態において、作動開始コマンドのリストは制御されるうるそれぞれの装置に対応する1以上の製品名(又は句)を含むことができる。ここで上記リストは各装置が保持するすべての言語についてそれぞれの言語での装置に対応する名称を1以上含む。例えばこのようなシステムがテレビとVCRを英語、ドイツ語およびオランダ語で制御できるとすると、上記の作動開始コマンドのリストは以下のように構成されることができる:
“Television”(英語)
“Television”(ドイツ語)
“Televisie”(オランダ語)
“Video cassette recorder”(英語)
“Videokassettenrecorder”(ドイツ語)
“Video recorder”(オランダ語)
なお、これらの語句のなかには記述上は同一であるものも存在するが、認知器は発音の違いからこれらの語句を正確に識別することができ、よってコントローラはこの語句に対応する言語を確定することができる。そのためにこの語彙(作動開始コマンドのリスト)は、コマンドの音響翻音を含む。また、この作動開始コマンドのリストは好適には一般的な代用名称表現などをも含み、例えば”Video recorder””については”VCR”などの別の表現が含まれるとより好都合である。
【0028】
本発明の好ましい実施形態において、所望の操作言語を選択するための作動開始コマンドは、それぞれの言語において普遍的に用いられる個人の名前であってもよい。したがって電子装置の各ユーザーは希望する操作言語に対応する名前を覚えておくだけですむ。以下にはこのような名前から構成される作動開始コマンドのリストの一例を示す:
“Truus”(オランダ語)
“Emily”(英語)
“Herman”(ドイツ語)
“Pierre”(フランス語)
“Marino”(イタリア語)
“Gina”(スペイン語)
また別の好ましい実施形態においては、ユーザーが作動開始コマンドを定義することができる。
【0029】
図2における発話制御システムの実施例を示す図式的ブロック図において発話コマンド入力は、マイク1によって受信され、さらにここからアナログ電子信号としてA/D変換器2に供給される。ここで上記アナログ信号は周知の方法によってデジタル信号表示(これには増幅が加わることも可能である)に変換される。
【0030】
このデジタル表示は、”IS bus specification”, revised June 5, 1996, Philips Semiconductorsにおいて明記されるISバスなどのようなバスコネクション3を介して発話認知エンジン4に供給される。この発話認知エンジン4は、検索及び比較手段5と、上述の能動語彙を含む能動メモリ部6から構成される。この能動語彙は作動開始コマンド及び1セットの制御コマンドを含んでいて、さらにここにおける制御コマンドのセットは、発話認知エンジン4と通信し合っているメモリ7におけるメモリ部7A,7B,7C,及び7Dにそれぞれ別々に記憶されるユーザー選択可能語彙のうちの1セットである。
【0031】
図3に示されるように、能動メモリ部6はさらに2つのメモリセクション6Aおよび6Bから構成され、これらはそれぞれ1度定義されると通常は変化しない作動開始コマンドと、メモリ7におけるメモリ部7A〜7Dのうちの1つから転送されてくる制御コマンドとを含む。ここで能動メモリ部6のセクション6Aは、好ましくはEPROMタイプメモリのように、電子装置を作動状態からスタンバイあるいはオフの状態に切り替えたときに記憶された情報内容がキャンセルされないメモリの類型であり、これに対してセクション6Bにおいては、新たな作動開始コマンドが入力されるたびにコンテンツが置き換えられなければならないため、RAMタイプのメモリが適切である。
【0032】
上記の発話認知エンジン4とメモリ7とは”IC bus specification”, version 2.1, January 2000, Philips Semiconductorsにおいて明記されるICバスなどのようなバスコネクション8及び9を介し、システムの操作及び機能をすべて制御するコントロールプロセッサ10によって接続される。
【0033】
発話認知エンジン4の能動メモリ部6において検索可能なすべての作動開始コマンド及び現在ここに格納されている制御コマンドのセットは、定義されたメモリの箇所に配置され、発話入力コマンドが発話認知エンジン4により確定的に識別されると、それが作動開始コマンドであれ制御コマンドであれ、対応する情報がバスコネクション8を介してプロセッサ10に供給される。
【0034】
このようにしてプロセッサ10に供給された情報が、入力された発話コマンドが作動開始コマンドとして識別されたことを示唆する場合、メモリ部7A〜7Dのうちでこの識別された作動開始コマンドに対応する制御コマンドの語彙を含むものがプロセッサ10からバスコネクション9を介してアドレス指定され、ここに含有される語彙はバスコネクション11を介して発話認知エンジン4における検索可能能動メモリ部6に転送される。なお、このバスコネクション11もバスコネクション8,9のようにICバスであってよい。
【0035】
発話認知エンジン4からプロセッサ10に供給された情報が、入力された発話コマンドが制御コマンドとして識別されたことを示唆する場合、プロセッサ10は識別された制御コマンドに対応する制御を作動させるためにこのシステムによって制御されるマルチ機能電子装置における制御回路12,13,14などのうちのどれかに許可信号を供給する。
【0036】
図3は発話認知エンジン4における能動メモリ部6と選択可能な制御コマンドの語彙を含有するメモリ7におけるアドレス指定可能なメモリ部7A〜7Dとの連携及び通信をより詳細に示す。能動メモリ部6では、メモリセクション6A内に定義された個々のメモリ箇所に、システムによって識別可能となるすべての作動開始コマンドのリストが含まれる。矢印15及び16は対応する作動開始コマンドの識別に際するメモリ部7Aあるいはメモリ部7Dの選択を表し、これに対して矢印17及び18はメモリ部7Aあるいはメモリ部7Dのいずれかに含有される制御コマンドの語彙の能動メモリ部6における別のメモリセクション6Bへの転送を表す。
【0037】
電子装置の操作をスタンバイの状態から以前に使用されていた操作言語のままで再開させる場合においては、メモリ7におけるメモリ部7A〜7Dのうちの1つの制御コマンドのセットを能動メモリ部6におけるセクション6Bへ転送する手間を省き、この転送に要される通信時間を節約するために、能動メモリ部6におけるセクション6Bは、電子装置がスタンバイ状態に切り替えられる際に、記憶した制御コマンドのセットを維持するように操作されることが可能である。
【0038】
発話認知器4及び制御プロセッサ10は、1つのプロセッサに実装されることが可能である。通常これらの機能は両方ともソフトウェアプログラムの制御のもとで実行される。前記の実行に当たってこのソフトウェアプログラムは通常RAMなどのメモリにロードされ、ここから実行を行う。このプログラムは、ROM、ハードディスク、あるいは磁気及び/又は光学記憶装置などの背景メモリからロードされることが可能であり、またインターネットなどのネットワークを介してロードされることも可能である。
【0039】
上記では、例証によって本発明の実施形態に従った発話制御方法及びシステムが説明されてきた。しかしながら上記の実施はあくまでも例示であり、上記方法の適用及び上記システムの実際の配置及び構造などを含む本発明の範囲は、ここで開示される具体的な実施例によって限定されることはない。したがって例えば図2において個々のブロックによって示されるいくつかのシステム構成要素が1又は複数の共通構成要素のブロックに導入されることが可能であり、また逆にいくつかの構成要素のブロックがさらに2以上のブロックに細分化されることも可能である。
【図面の簡単な説明】
【図1】
本発明の実施形態に従った発話制御方法による発話入力コマンドの受信及び解釈の過程を示す図式的フローチャートである。
【図2】
本発明の実施形態に従った方法が実装される発話制御システムの実施例を示すブロック図である。
【図3】
発話認知エンジンにおける能動メモリ部分と図2における選択可能な言語の語彙を記憶するメモリとの間の協力及び通信を示す図解である。

Claims (9)

  1. 発話によってユーザーが電子装置と対話をすることを可能にする方法であって:
    ユーザーとの対話で用いられる言語に対応する言語アトリビュートを設定する工程;
    ユーザーとの対話が少なくとも部分的には実際に前記の対応言語によって行われることを促す工程;
    ユーザーからの発話入力を受け取る工程;
    前記発話入力の中から1以上の音声コマンドを認知する工程において、前記の音声コマンドは、装置の所定の第1機能と、前記言語アトリビュートを設定するという第2機能との2つの異なる機能に対応することを特徴とする工程;及び、
    前記の認知されたコマンドの第2機能に従って言語アトリビュートを設定する工程;
    から構成されることを特徴とする方法。
  2. 請求項1に記載の方法において:
    前記音声コマンドは、音声作動開始コマンドのセットのうちの1つであり、前記の作動開始コマンドのセットのうちの2以上の作動開始コマンドのそれぞれの第2機能とは、各々に対応する異なる言語のための言語アトリビュートを設定することであり、前記方法は作動開始コマンドのうちの1つを認知したのに応じて更なる音声コマンドのセットを認知することを可能にすることを特徴とする方法。
  3. 請求項2に記載の方法であって:
    前記言語アトリビュートに基づいて実際に前記の更なる音声コマンドのセットを選択する工程から構成されることを特徴とする方法。
  4. 請求項2に記載の方法において:
    前記の作動開始コマンドのセットのうちの1以上の作動開始コマンドは、対応する前記の第2機能の言語でのことばを含むことを特徴とする方法。
  5. 請求項2に記載の方法において:
    前記の作動開始コマンドのセットのうちの1以上の作動開始コマンドは、第2機能に対応する言語での個人の名前であることを特徴とする方法。
  6. 請求項2に記載の方法において:
    前記の作動開始コマンドのセットのうちの1以上の作動開始コマンドは、ユーザーによって定義されることが可能であることを特徴とする方法。
  7. 請求項3に記載の方法において:
    前記の電子装置は、複数の作動開始コマンドのセットに対応し、各作動開始コマンドのセットは、ある言語に対応しかつ実際に前記の対応言語での音声コマンドを含み、さらに前記の更なる音声コマンドのセットを選択する工程は、前記の音声コマンドのセットに対応する言語が前記の言語アトリビュートに対応する言語に関連するような音声コマンドのセットを1以上選択する工程を含むことを特徴とする方法。
  8. コンピュータプログラムであって:
    請求項1乃至7のいずれかの請求項に記載の方法を実行するようにプロセッサを促すことができることを特徴とするプログラム。
  9. 電子製品であって:
    前記電子製品の個々の機能を作動させ、ユーザーとの対話に用いる言語に対応する言語アトリビュートを設定し、少なくとも部分的には実際に前記の対応する言語でユーザーとの対話が実施されることを促すための制御手段;
    ユーザーからの発話入力を受け取るための入力手段;及び、
    前記入力手段と接続され、前記発話入力から1以上の音声コマンドを認知する発話認知器であって、前記音声コマンドは、ある装置の所定の第1機能と、前記言語アトリビュートを設定するという第2機能との2つの異なる機能に対応することを特徴とする発話認知器;
    を含むところにおいて、
    前記制御手段は、前記の認知されたコマンドの前記第2機能に従って言語アトリビュートを設定することができることを特徴とする電子装置。
JP2002551835A 2000-12-20 2001-12-06 発話による対話言語の設定 Pending JP2004516517A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00204645 2000-12-20
PCT/IB2001/002364 WO2002050817A1 (en) 2000-12-20 2001-12-06 Speechdriven setting of a language of interaction

Publications (1)

Publication Number Publication Date
JP2004516517A true JP2004516517A (ja) 2004-06-03

Family

ID=8172473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002551835A Pending JP2004516517A (ja) 2000-12-20 2001-12-06 発話による対話言語の設定

Country Status (4)

Country Link
US (1) US6963836B2 (ja)
EP (1) EP1346342A1 (ja)
JP (1) JP2004516517A (ja)
WO (1) WO2002050817A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021015281A (ja) * 2016-12-27 2021-02-12 グーグル エルエルシーGoogle LLC 文脈ホットワード

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10256935A1 (de) * 2002-12-05 2004-07-01 Siemens Ag Auswahl der Benutzersprache an einem rein akustisch gesteuerten Telefon
DE10308783A1 (de) * 2003-02-28 2004-09-09 Robert Bosch Gmbh Vorrichtung zum Steuern eines elektronischen Geräts
FI115274B (fi) * 2003-12-19 2005-03-31 Nokia Corp Puhekäyttöliittymällä varustettu elektroninen laite ja menetelmä elektronisessa laitteessa käyttöliittymäkieliasetuksien suorittamiseksi
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20090222270A2 (en) * 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
JP4997796B2 (ja) * 2006-03-13 2012-08-08 株式会社デンソー 音声認識装置、及びナビゲーションシステム
US8170868B2 (en) * 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
US20080082338A1 (en) * 2006-09-29 2008-04-03 O'neil Michael P Systems and methods for secure voice identification and medical device interface
US7873517B2 (en) 2006-11-09 2011-01-18 Volkswagen Of America, Inc. Motor vehicle with a speech interface
DE102006057159A1 (de) 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
US9323854B2 (en) * 2008-12-19 2016-04-26 Intel Corporation Method, apparatus and system for location assisted translation
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
EP2531999A4 (en) * 2010-02-05 2017-03-29 Nuance Communications, Inc. Language context sensitive command system and method
US9471567B2 (en) * 2013-01-31 2016-10-18 Ncr Corporation Automatic language recognition
EP2784774A1 (en) * 2013-03-29 2014-10-01 Orange Telephone voice personnal assistant
CN103276554B (zh) * 2013-03-29 2017-10-24 青岛海尔洗衣机有限公司 智能洗衣机语音控制方法
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
DE102014210716A1 (de) * 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
DE102014108371B4 (de) * 2014-06-13 2016-04-14 LOEWE Technologies GmbH Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten
US9536521B2 (en) * 2014-06-30 2017-01-03 Xerox Corporation Voice recognition
US9665345B2 (en) * 2014-07-29 2017-05-30 Honeywell International Inc. Flight deck multifunction control display unit with voice commands
CN104318924A (zh) * 2014-11-12 2015-01-28 沈阳美行科技有限公司 一种实现语音识别功能的方法
US10199864B2 (en) * 2015-01-20 2019-02-05 Schweitzer Engineering Laboratories, Inc. Multilingual power system protection device
CN106463112B (zh) * 2015-04-10 2020-12-08 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
US10229677B2 (en) * 2016-04-19 2019-03-12 International Business Machines Corporation Smart launching mobile applications with preferred user interface (UI) languages
US10229678B2 (en) * 2016-10-14 2019-03-12 Microsoft Technology Licensing, Llc Device-described natural language control
US11575732B1 (en) * 2017-06-23 2023-02-07 8X8, Inc. Networked device control using a high-level programming interface
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63167550A (ja) * 1986-12-29 1988-07-11 Kazuo Hashimoto 自動翻訳機能付き留守番電話装置
JPS6471254A (en) * 1987-09-11 1989-03-16 Hashimoto Corp Automatic answering telephone system
US5675705A (en) * 1993-09-27 1997-10-07 Singhal; Tara Chand Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US6292772B1 (en) * 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021015281A (ja) * 2016-12-27 2021-02-12 グーグル エルエルシーGoogle LLC 文脈ホットワード
JP7078689B2 (ja) 2016-12-27 2022-05-31 グーグル エルエルシー 文脈ホットワード
US11430442B2 (en) 2016-12-27 2022-08-30 Google Llc Contextual hotwords

Also Published As

Publication number Publication date
EP1346342A1 (en) 2003-09-24
US6963836B2 (en) 2005-11-08
US20020082844A1 (en) 2002-06-27
WO2002050817A1 (en) 2002-06-27

Similar Documents

Publication Publication Date Title
JP2004516517A (ja) 発話による対話言語の設定
US8831956B2 (en) Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
EP1265227B1 (en) Automatic control of household activity using natural language speech recognition
US5890122A (en) Voice-controlled computer simulateously displaying application menu and list of available commands
US6253184B1 (en) Interactive voice controlled copier apparatus
KR100894457B1 (ko) 정보처리장치 및 정보처리방법
EP1739656B1 (en) Speech recognition method and speech recognition apparatus
US8069030B2 (en) Language configuration of a user interface
US20050114132A1 (en) Voice interactive method and system
JP4827274B2 (ja) コマンド辞書を使用する音声認識方法
JP2001034293A (ja) 音声を転写するための方法及び装置
JPH03163623A (ja) 音声制御コンピュータ・インターフェース
WO2001067228A1 (en) Method of interacting with a consumer electronics system
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2003263188A (ja) 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
US6591236B2 (en) Method and system for determining available and alternative speech commands
CN110010122B (zh) 护理床语音控制方法
JP2009529704A (ja) 移動通信端末装置を利用した通訳サービス方法
JP6383748B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP7465124B2 (ja) 音声処理システム、音声処理方法、及び音声処理プログラム
WO2021223232A1 (zh) 一种基于Gaia AI语音控制的智能电视多语种识别系统
JPH10111784A (ja) パーソナルコンピュータおよびコマンド制御方法
JP3099753B2 (ja) ユーザインタフェース装置
JPH10133849A (ja) パーソナルコンピュータおよびエラー通知方法
Rudžionis et al. Control of computer and electric devices by voice

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061101

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070525

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071106