JP2004529390A - ユーザ・グループに固有のパターン処理システム - Google Patents
ユーザ・グループに固有のパターン処理システム Download PDFInfo
- Publication number
- JP2004529390A JP2004529390A JP2003502817A JP2003502817A JP2004529390A JP 2004529390 A JP2004529390 A JP 2004529390A JP 2003502817 A JP2003502817 A JP 2003502817A JP 2003502817 A JP2003502817 A JP 2003502817A JP 2004529390 A JP2004529390 A JP 2004529390A
- Authority
- JP
- Japan
- Prior art keywords
- user
- user group
- specific
- pattern processing
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims description 2
- 230000015654 memory Effects 0.000 description 28
- 230000001419 dependent effect Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Collating Specific Patterns (AREA)
- Silicon Polymers (AREA)
- Developing Agents For Electrophotography (AREA)
- Macromonomer-Based Addition Polymer (AREA)
Abstract
Description
本発明は、パターン処理システムに係り、特に、音声処理システムに関する。パターン処理システム、特に音声認識を伴ったもの、は多くの場所で、多くの用途に使われている。例として、電話によって利用可能な自動的情報・取引システム(例えば、オランダ公共交通機関(OVR)の自動時刻表情報、多くの銀行のテレバンキング・システム、及び、Philips社がウィーン市に設置した情報キオスク(ユーザはそこでキーボード及び音声入力によって例えばウィーンの場所及びホテルについての情報を得ることができる))が挙げられる。
【0002】
パターン処理システムが、多くのユーザによって使われる場合、いわゆるユーザ独立パターン処理データセットがパターン処理のためにたいてい使われ、すなわち異なるユーザからのパターン処理においてユーザ間に差が設けられない。例えば、音声認識において、同じ音響学的基準モデルがすべてのユーザに対して用いられる。しかし、当業者には既知のように、パターン処理の品質は、ユーザ固有のパターン処理データセットを使用することで高められる。例えば、ある話者に対して特別に調律された母音長の標準化がその話者の話した発声に対して実行されるならば、音声認識システムの精度は強化される。
【0003】
このような話者依存音声認識システムは、ユーザ数が少ない用途では今日幅広く使用されている。例として、個人向け口述筆記システム(例えば、Philips社のFreeSpeech)や、クローズド・ユーザ・グループ用のプロ向け口述筆記システム(例えば、X線医術分野におけるPhilips社のSpeechMagic)が挙げられる。しかし、多くのユーザを持つパターン処理システムへのこれらの技術の移転は、多くの難題によって妨げられている。
【0004】
第一に、このようなシステムの大量のユーザにより、ユーザ固有のパターン処理データセット用にストレージへの要求が高くなり得る。第二に、大量のユーザは、ユーザ依存のパターン処理データセットを作成するためのトレーニングに要求される努力をする準備ができていないと考えられる。このトレーニング努力は、実にユーザが使いたいすべてのシステムに対して実際に必要となるであろう。なぜなら、個々のメーカのパターン処理システムは、更に一メーカの個々の製品でも一部のものは、互いに異なるので、ユーザ固有のパターン処理データセットをシステム間で交換できないからである。
【0005】
したがって、日本国特許公開:特開平8−123461号公報の要約には、ユーザが、そのユーザの特性を示した個人情報データを含んだ情報カードを携帯するべきであることが提案されている。その場合、ユーザは、例えば、情報カードをシステムのスロットに挿入して、個々の音声処理システム(音声インターフェース・システム)をその関連する個人用に特化させる。次いで、そのシステムは、そのカードからデータを読み取り、これらデータを用いて彼が話した言葉のユーザ依存処理を実行する。
【0006】
また、個々の情報カードの使用は、音声処理システムのメーカが彼らのシステムにおいてそのカードの使用をサポートするならば、高ストレージ要求と複数のユーザ固有データの準備の問題を解決する。しかし、これは、ユーザはシステムを使うために常にカードを携帯し、各システムはそのカード用の入力装置を備えていなければならない、という必要性を生じさせる。それは、例えば、電話情報システムの相談のために使うことができない。
【0007】
したがって、本発明の目的は、冒頭段落に記載した種類のパターン処理システム(特に音声処理システム)であって、ユーザ固有パターン処理システムと同等の品質を持ち、例えば電話などの既存のユーザ端末と共に用いることが可能でありつつ、システムを用いるために情報カードなどの追加的な機器をユーザが持つ必要がなく、高ストレージ要求と複数のユーザ固有データの作成の問題を解決する、システムを提供することである。
【0008】
この目的は、一方で、パターン処理(特に音声処理)方法であって、ユーザに対して規定されたユーザ・グループのユニーク識別子を受信する工程と、前記ユーザ・グループに固有なパターン処理データセットを用いて前記ユーザのパターン入力を処理する工程とを有する方法によって達成され、他方で、パターン処理システム(特に音声処理システム)であって、ユーザに対して規定されたユーザ・グループのユニーク識別子を受信し、前記ユーザ・グループに固有なパターン処理データセットを用いて前記ユーザのパターン入力を処理するように設計されたシステムによって達成される。
【0009】
高ストレージ要求の問題は、ユーザをユーザ・グループへ再分割することを通じて回避される。加えて、ユーザ・グループに固有なパターン処理データセットは、中央データ・メモリに収容されてもよく、ネットワークを通じてパターン処理装置に提供されてもよい。したがって、メモリ・スペースを説明するための更なる可能性は、複数のデータ・ストレージの回避から生じる。複数のシステムにおけるユーザ・グループに固有なパターン処理データセットの多重共有使用により、ユーザに対して複数のユーザ・グループが規定されることに関する問題が回避される。
【0010】
ユーザが、ユーザ・グループに固有なパターン処理システムを使用したい場合、彼は、例えば番号又は識別名を用いて、彼のユーザ・グループについてのみ、システムに知らせなければならない。また、ユーザ・グループ情報は、チップカード上に収容され得るが、例えば電話情報システムを使うためには、口頭でユーザ・グループをシステムに知らせれば、又は、例えば数字コードの場合にはDTMF対応の電話のキーボードを通じて数字を入力すれば、十分である。このように、ユーザ・グループに固有な個々のパターン処理システムは、例えば情報カードなどの追加的機器無しで、そして例えば電話などの既存のユーザ端末を用いて、使用することができる。
【0011】
請求項2記載のように、ユーザ・グループは、トレーニング段階において、ユーザに対して定義されてもよい。その場合、ユーザは、例えば、トレーニング・システムによって記録され、ユーザ・グループを決定するのに用いられる所定のテキストを発音しなければならない。このトレーニング段階は、ユーザ・グループに固有なパターン処理システムの使用からは独立して行われ得る。しかし、代替的に、それは、「新しい」ユーザ、すなわち、どのユーザ・グループにもいまだ関連付けられていないユーザ、に対してシステムの使用中に提供されてもよい。さらに、システムの使用中に入力されたユーザのパターン入力を用いることが考えられる。その場合、該パターン入力は、おそらく、最初の又は新しいユーザ・グループの定義のために、当初はユーザ独立パターン処理で取り扱われる。後者は、ユーザのパターン特徴又はシステムのユーザ・グループが変わった時に起こり得る。
【0012】
このようなユーザ・グループの定義を実行するための多くの方法が、ユーザ適合の分野から、例えば文献により、当業者には知られている。例えば音声認識からの「speaker clustering」方法などのこれらの方法のうちの一部は、ここでいうユーザ・グループを直接導く。例えば音声認識からの「adaptive speaker clustering」、MLLR、又はMAP、或いは、写真認識からの「characteristic faces」などの他の方法は、ユーザ固有のパターン処理データセットを得るために通常使用される。適合プロセスの解像度は、所望数のユーザ・グループが定着するように、量子化によって、すなわち、ユーザ固有適合パラメータをあるレベルまで減らすことによって、より粗くすることができる。
【0013】
請求項3は、ユーザに対するユーザ・グループの定義がどのようにユーザによって影響が及ぼされることができるかを定義する。例えば、システムが異なる品質のユーザ・グループを提供することがここで考えられる。このように、システムは、例えば、非常に似た話し方及び動作モードのユーザが排他的に存在する非常に精細に区別された音響学的基準モデルをこれらグループに対して提供するという点で高品質のユーザ・グループを提供し得る。結果として、そのようなユーザ・グループには、例えば音声認識において、ユーザ依存システムにおいて得られたものと類似した認識精度が提供され得る。このためにシステムにおいて必要なより高い支出は、対応した料金構造によって、ユーザから回収し得る。
【0014】
従属クレーム4及び5は、ユーザ入力に対する2つの有益的な可能性に関する。一方で、ユーザ入力は、例えば上記情報キオスクや自動銀行カウンタなどの公衆ユーザ端末へ行われ得る。他方で、ユーザは、電話又はPC若しくはラップトップを使うことができる。その場合、彼の入力は、例えば電話網やインターネットなどのネットワークを通じて送信される。
【0015】
従属クレーム6は、ユーザ・グループに固有なパターン処理データセットのいくつかの考えられる構成要素:
ユーザ・グループに固有な言語、及び/又は方言;
ユーザ・グループに固有な特徴抽出(特に、ユーザ・グループに固有な声道長の標準化);
ユーザ・グループに固有な音響学的基準モデル;
ユーザ・グループに固有な語彙;
ユーザ・グループに固有な言語モデル;及び/又は、
ユーザ・グループに固有なダイアログ・モデル;
を指定する。
【0016】
これらは、例えばユーザ・グループに固有な音声認識のために用いられ得るこのようなデータセットの典型的な構成要素である。例えば言語の語音用のいわゆるHidden Markov Modelなどの音響学的基準モデルが利用できる。ユーザ・グループに固有な語彙は、例えば、ユーザ・グループによってある用途に通常用いられる言葉を含む。言語モデルは、ワード・シーケンスを形成するためのすべての相互関係、すなわち、例えば、ユーザ・グループの文法規則又は意味上のプリファレンスを有し得る。他方、ダイアログ・モデルは、システムとユーザ・グループからのユーザとの間のインタラクションの特徴的なパターンを識別する。
【0017】
音声認識の他に、本発明は、例えばユーザ・グループに固有な記号一覧表を使用して、例えばユーザ・グループに固有な音声エンコードなどの他の種類のユーザ・グループに固有なパターン処理にも関連する。例えばアニメーション化した文字(いわゆる化身(avatar))を用いてオンラインでチャットするためのシステムなどにおいてユーザ・グループに固有な手書き文字認識及び顔表情処理も本発明の範囲に入る。
【0018】
請求項7は、例えば時刻表や旅客情報などの情報を提供するシステムの使用を記載する。自動販売機からの購入やインターネット経由での銀行取引の実行などの命令を発するシステムの使用も記載されている。
【0019】
本発明の上記及び別の態様及び利点は、実施形態及び特に添付図面を参照して、以下により詳細に説明される。
【0020】
図1は、ユーザ入力用の公衆ユーザ端末10を提供する、本発明に係るユーザ・グループに固有なパターン処理システムの一実施形態を示す。本発明のこのような実施形態の典型的な用途は、自動銀行カウンタ10における銀行取引の実行、上述の情報キオスク10での情報呼び出し、又は、自動切符販売機10からの切符購入、である。
【0021】
公衆ユーザ端末10は、グラフィック・ディスプレイ11、入力キーボード12、ユーザが話したメッセージを入れるためのマイク13、及び、ユーザの特性を示すチップカード70(例えばEC又はカスタマ・カード)用の挿入スロット14、を備える。さらに、端末10は、ユーザ・グループに固有な音声処理のための該ユーザ・グループに固有なパターン処理データセットを格納するためのローカル・データ・メモリ32を備えたローカル音声認識装置42を有する。システムを使うためにスロット14に挿入されるユーザのチップカード7上には、例えば、その用途について典型的なデータ(例えば、銀行カードの場合には銀行口座の口座番号)を格納するチップ71と、ユーザ・グループに固有な音声処理のために規定されたそのユーザのユーザ・グループのユニーク識別子を格納する別のチップ72と、がある。
【0022】
このようなユニーク識別子は、例えば、1つの番号から成ってもよく、或いは、代替的に、識別名が考えられる。例えば、その人の特性を示す音声処理がそのユーザ・グループを代表しているような、そのユーザ・グループに属する広く知られている人の名前など。このような識別名及び番号は、ユーザが容易に思い出すことができるため、ユニーク識別子は、チップカードの助けなしでも、例えばマイク13やキーボード12を用いて、パターン処理システムに送信できる。この場合、チップ72は、チップカード70上で余分となる。別の方法として、さらに、あらゆるユーザ・グループの特徴説明などのすべての情報が、チップカード70上の一チップ71上に収容されてもよい。
【0023】
ユーザ・グループに固有なすべてのパターン処理データセットがローカル・データ・メモリ32に格納されていれば、ローカル音声認識装置42は、ローカルで完全に独立して作動することが可能である。このような「スタンドアロン」自動機械は、特に、タバコなどの自動販売機から直接入手可能な物品の販売に、適当である。公衆ユーザ端末10は、代替的に、個々のユーザ・グループに固有な音声認識のためのユーザ・グループに固有なパターン処理データセットのストレージのための別のデータ・メモリ30・・・31にネットワーク20経由で接続されてもよい。その際、ネットワーク20は、例えば、プライベートMAN(メトロポリタン・エリア・ネットワーク)(例えば、銀行のネットワーク)である。ネットワーク20は、代替的に、公衆網、特にインターネット、という形で実現されてもよい。考え得るハイブリッドな形は、例えば、インターネットをベースとして実現されたVPN(仮想プライベート・ネットワーク)である。
【0024】
図2は、ユーザ・グループに固有の本発明に係るパターン処理システムの別の一実施形態を示す。図1と同様、ネットワーク20及びそれに接続されたデータ・メモリ30・・・31が図示されている。ただし、図1と対照してみると、音声認識装置40・・・41もまたネットワーク20に接続されている。ユーザ入力は、公衆ユーザ端末10(ここでは、図1と異なり、ローカル・データ・メモリ32を備えたローカル音声認識装置42を有していない)において行われるか、或いは、このためにネットワーク20に接続された又は接続可能な電話60又はPC、ラップトップなど50を通じて行われる。例えばローカル音声認識装置を備えた図1に示した公衆ユーザ端末10などの上記及び他の入力可能性は、ユーザ・グループに固有なパターン処理システムにおいて全部又は一部のみが実現されてもよい。
【0025】
したがって、図1及び2に図示したシナリオは、ユーザが話した言葉の認識が行われる音声認識装置42又は40・・・41の配置について特に異なっている。図1の公衆ユーザ端末10においてローカルに収容された音声認識装置42は、シンプルな命令だけが認識されることになっており、公衆ユーザ端末10がいつも主として同じ顧客によって使われるケースに適当である。この場合、比較的シンプルで安価な音声認識装置42で十分であり、メイン・ユーザのユーザ・グループに固有なパターン処理データセットは、そのユーザ・グループに固有な音声認識のための音声認識装置42のローカル・データ・メモリ32に格納され得る。例えば、巡回しているユーザによって必要とされ、データ・メモリ32にローカルに存在しないユーザ・グループに固有な別のパターン処理データセットは、ネットワーク20を通じて接続されたデータ・メモリ30・・・31からロードされる。これにより、ネットワーク20全体の負荷が小さくなる。
【0026】
図2において、ユーザの話した発話の音声認識は、ネットワークを通じて接続された音声認識装置40・・・41において行われる。これは、高い認識性能を必要とするより複雑な発話の場合、及び/又は、ユーザが継続的に変わる場合に、有用である。この音声認識タスクとデータ・ストレージの結合は、機械占有、必要とされるメモリ・スペース、及び、ネットワーク20を通る必要なデータ・トラフィック、において利点をもたらす。このように、例えば、音声認識装置40・・・41を互いに接続し、さらに、ネットワーク20内でブロードバンド・サブネットワークによってデータ・メモリ30と接続することは、有益的となり得る。また、特定の場合には、個々のユーザの話した発話の認識を常に可能な限りそのユーザのユーザ・グループに固有なパターン処理データセットを保持し得る同じ音声認識装置40に割り当てることも有益的となり得る。
【0027】
上述のシステム実施形態の他に、多くの別の変形例が、用途分野に応じて、当業者によって容易に実施され得る。したがって、ここでは、分散型データベースの分野で十分に知られているミラード・データ・ストレージの技術に言及すれば十分である。ユーザ(すなわち、この場合はユーザ・グループ)のデータは、ネットワーク20上が高負荷の場合でもユーザに彼/彼女のデータへの高速アクセスを与えるために、例えば図1のメモリ32及び30・・・31などの複数の、通常は空間的に幅広く隔たったデータ・メモリにおいて保持される。その際、個々のメモリにおいて保持されたデータの整合性は、時間に関してよりクリティカルでなく、所望であれば低ネットワーク負荷時に実行され得る適切な同期化手順によって保証される。
【0028】
本発明の別の実施形態は、ユーザ・グループに固有なパターン処理データセットが、システムに属しているデータ・メモリにおいて保持されず、ユーザ・グループに固有なパターン処理のために設計されてもいないが、例えば、サードパーティ事業者によって又は代替的にユーザ自身によって(彼自身のユーザ・グループのために)利用可能とされる。前者の場合、サードパーティは、ユーザ・グループに固有なパターン処理データセットをユーザ・グループに固有なパターン処理システムのオペレータに利用可能にするために、例えば対価と引き換えに、ユーザ・グループに固有なパターン処理データセットの作成、管理、及び/又は更新に特化し得る。サードパーティは、ユーザのためにユーザ・グループ・メンバーシップの定義の管理もし得る。
【0029】
後者の場合、ユーザ自身は、例えば、ユーザ・グループに固有なパターン処理システムのデータ・メモリ32、30・・・31の1つから彼自身のユーザ・グループに固有なパターン処理データセットをダウンロードするであろう。システム自体がそのユーザの個々のユーザ・グループに固有なパターン処理データセットを持っておらず、別のユーザ・グループに固有なパターン処理システムが使われる場合、彼は個々のデータをラップトップ50上のシステムに提供することができる。ただし、一般的に、彼は、ネットワーク20、特にインターネット、に接続されているPC経由でもそれらを提供し得る。この場合、彼は、その後、このPCのアドレスをシステムに知らせるであろう。したがって、このシナリオでは、PC又はラップトップ50のアドレスを含んでいるメッセージが、ユーザ・グループのユニーク識別子を提供するタスクを実行するであろう。
【0030】
上記実施形態においてシステムへのアクセスを得るために使われたユーザ端末は、平均的な複雑さの公衆ユーザ端末10、電話60、及び、PC又はラップトップ50であったが、代替的な解決策も等しく可能である。例として、タッチスクリーン、カメラ、スピーカなどの複雑なマルチメディア・インタラクション可能性を持つ携帯電話や情報キオスクである。
【0031】
図3は、ユーザ・グループに固有なパターン処理データセット80・・・81用のデータ・メモリ30のコンテンツを示す図である。ここではローカル・データ・メモリ32とネットワーク20に接続された別のデータ・メモリ30・・・31とを表しているデータ・メモリ30は、例えばハードディスクなどの既知のコンピュータ・データ・メモリである。ユーザ・グループに固有なパターン処理データセット80・・・81は、例えば、ユーザ・グループに固有なパターン処理システムに適したバイナリ・コードにおいて、個々のデータ・ファイルという形で利用可能であり得る。代替的可能性は、データベースなどの形の組織である。
【0032】
図4は、本発明に係るユーザ・グループに固有なパターン処理システムの使用の考え得るフローチャートを示す。例えば銀行用途用の銀行口座番号及びPINコードの通信などの用途に固有な動作を表さず、ユーザ・グループに固有なパターン処理に関連するプロセスのみを説明する。
【0033】
スタート・ブロック101後、ユーザ・グループに固有なパターン処理システムは、プロセス・ブロック102において、ユーザに、彼のユーザ・グループを識別するように、すなわちユーザ・グループに固有なパターン処理のために個々のユーザに対して定義されたユーザ・グループのユニーク識別子をシステムに入力するように、要求する。判断ブロック103後、ユーザが彼のユーザ・グループを知っているか否かに応じて、別のプロセスが分岐する。
【0034】
ユーザが彼自身のユーザ・グループを知っている場合、ブロック104において、彼はそれを、例えば、図1及び2のシナリオのように彼がチップカード70を公衆ユーザ端末10の挿入スロット14に挿入することによって、或いは、彼が公衆ユーザ端末10のキーボード12又はマイク13を使うことによって、或いは、彼が電話60又はラップトップ50を通じてユーザ・グループをシステムに教えることによって、システムに伝達する。すると、システムは、ブロック105において、データ・メモリ32、30・・・31においてそのユーザのユーザ・グループに固有なパターン処理データセットを検索し、それをパターン処理装置42、40・・・41に提供する。
【0035】
ユーザが彼自身のユーザ・グループを知らない場合、ブロック106において、システムは、彼に、彼がシステムに彼用のユーザ・グループを今定義してもらいたいか否かを尋ねる。彼がそうしたい場合、システムは、ブロック107において、そのユーザのトレーニング・パターン入力を集め、それらを処理してそのユーザのユーザ・グループを定義する。このように決定されたユーザ・グループは、ブロック108において、ユーザに伝達され、コントロールは、上述のブロック105へ切り換えられる。そこでは、現在のユーザのユーザ・グループに固有なパターン処理データセットがデータ・メモリ32、30・・・31において探され、パターン処理装置42、40・・・41に提供される。
【0036】
例えば、そのとき彼にそれのための時間がないので、或いは、ユーザ・グループは既に彼に割り当てられたが、そのユニーク識別子を彼がそのとき利用可能でないために、ユーザが彼のために規定されるユーザを今は望んでいない場合、コントロールは、ブロック106からブロック109へ分岐する。そこで、後続のパターン処理工程がユーザの特殊な特徴とは無関係に実行されるように、ユーザ独立パターン処理データセットがデータ・メモリ32、30・・・31において探され、パターン処理装置42、40・・・41に提供される。
【0037】
ブロック105及び109の一方においてパターン処理装置42、40・・・41に提供にされたユーザ・グループ固有の又はユーザ独立のパターン処理データセットは、別の条件にも依存し得る。したがって、例えば、音声認識の場合には異なる背景雑音、或いは、音声入力の場合にはマイク種類又はジェスチャ認識の場合にはカメラ種類などのユーザ入力用の異なる端末、などの異なる周囲条件が異なる用途に対して保持されてもよく、これらに適切に適合したパターン処理データセットが用いられ得る。
【0038】
ブロック105又は109の後、適用可能であるように、ユーザのパターン入力がブロック110において処理される。すなわち、ユーザは、パターンに入力するように要求され、入力されたパターンは記録・処理される。このようなパターン入力は、例えば、マイク13又は電話60を通じて入力された話された発話である。他の考えられる入力は、手書きのテキスト、及び/又は、ディスプレイ11上で提供されたメニュ項目を選択するポインタ動作である。公衆ユーザ端末10のディスプレイ11は、この目的のために、例えばタッチスクリーンとして構成されてもよく、及び/又は、公衆ユーザ端末10にカメラが取り付けられてもよい。
【0039】
任意で、ブロック110で行われたユーザのパターン入力を、中間ストレージに入れ、例えばユーザに対してユーザ・グループ定義をテストするために用いてもよい。このようなテストのために十分な量のユーザ入力が収集され、そのときのユーザ・グループ定義がパターン処理の観点からそのユーザにとって最適ではないことが確かめられると、システムは、ユーザと相談して、そのユーザにより良く適したユーザ・グループに固有なデータセットをパターン処理装置42、40・・・41にロードし、それを用いてその後のパターン処理工程を実行してもよい。このような手順は、例えば、パターンがその瞬間までユーザ独立パターン処理データセットに基づいて処理されていた場合にも、実行され得る。
【0040】
ブロック111において、ユーザのパターン入力に対応した行動がされる。例えば、銀行取引の場合、口座データが公衆ユーザ端末10のディスプレイ11上で示される。リターン・クエスチョンをユーザにすることも可能である。ユーザは、例えば銀行コード番号の欠落などの別の入力が要求され得る。
【0041】
ブロック112において、ユーザとのインタラクションが完了したか否かが判断される。完了していない場合、コントロールはブロック110に戻り、ユーザからの次のパターン入力を処理する。ユーザとのインタラクションが完了した場合、あらゆる新しい又は修正されたユーザ・グループは、適用可能であれば、これらのデータが、例えば、そのときまで音声認識装置42、40・・・41の1つにおいてのみローカルにストレージに保持されたならば、そのユーザのためにデータ・メモリ32、30・・・31に格納される。そして、システムは、ブロック114において、ユーザ入力の処理を終える。
【0042】
ブロック112におけるユーザとのインタラクションの終了は、例えば、ブロック110における関連する前のシステム質問へのユーザの肯定返答の認識の後でもよい。しかし、代わりに又は加えて、人−機械通信においていつでも作動され得る公衆ユーザ端末10の入力キーボード12上の終了ボタンが提供されてもよい。当業者に明らかな更なる修正も考えられる。
【0043】
ブロック107及び113は、このような人−機械通信中にそのユーザ用のユーザ・グループを定義する可能性を提供し、ブロック110及び113は、このようなユーザ・グループ定義を修正することを可能にした。しかし、ユーザ・グループの定義・修正は、例えば銀行取引の実行などのシステム利用のフレームワーク内で行われる必要はなく、代替的に別々に行われてもよい。
【0044】
この可能性は、例えば、ユーザが彼自身の家から余裕を持って彼のユーザ・グループを定義できる図2に示したシナリオの1つにとって、特に興味深いように見えるであろう。その際、彼は、システム・オペレータによってラップトップ50内にローカルに提供されたソフトウェアをロードしてもよく、及び/又は、プロセッサ、プログラム、及び/又はデータ・メモリなどのインターネットを通じてアクセス可能なオペレータのインフラを使ってもよい。この定義は、例えばマイク又はカメラの特性又は周囲雑音などの関連する機械の使用条件により良く適合するため、図4を参照して説明した公衆ユーザ端末10においてユーザ・グループを直接定義するシナリオもまたその正当性を持っている。
【0045】
図4は、本発明に係るユーザ・グループに固有なパターン処理方法の必須の態様を明確化したが、当業者には明らかなように、このような方法は、例えばエラー条件の取り扱いなどのために、実際には別のメカニズムを含むべきである。このように、例えば、システムによって規定されたユーザのユーザ・グループは別のシステムに既知ではないということが生じ得る。その際、この他のシステムは、例えば、ユーザがその特定の瞬間に彼自身のユーザ・グループを知らないブロック106から始まる上記場合とちょうど同じように、エラー取り扱いのために作動し得る。
【図面の簡単な説明】
【0046】
【図1】ユーザ・グループに固有な本発明に係るパターン処理システムの実施形態を示す図である。
【図2】ユーザ・グループに固有な本発明に係るパターン処理システムの実施形態を示す図である。
【図3】ユーザ・グループに固有のパターン処理データセット用のデータ・メモリのコンテンツを図式的に示す図である。
【図4】本発明に係るユーザ・グループに固有のパターン処理システムの使用のシーケンスを示すフローチャートである。
Claims (8)
- パターン処理(特に音声処理)方法であって、
ユーザに対して規定されたユーザ・グループのユニーク識別子を受信する工程と、
前記ユーザ・グループに固有なパターン処理データセットを用いて前記ユーザのパターン入力を処理する工程と、を有することを特徴とする方法。 - 請求項1記載の方法であって、
前記ユーザ用の前記ユーザ・グループはトレーニング段階において定義される、ことを特徴とする方法。 - 請求項1又は2記載の方法であって、
前記ユーザは、該ユーザ用の前記ユーザ・グループの定義に影響を及ぼすことができる、ことを特徴とする方法。 - 請求項1乃至3のいずれか一項記載の方法であって、
公衆ユーザ端末(特に、銀行端末、自動切符販売機、又は、情報キオスク)へのユーザ入力が行われる、ことを特徴とする方法。 - 請求項1乃至4のいずれか一項記載の方法であって、
ユーザ入力はネットワーク(特にインターネット)を通じて提供される、ことを特徴とする方法。 - 請求項1乃至5のいずれか一項記載の方法であって、
ユーザ・グループに固有な音声認識のためのパターン処理データセットは、
ユーザ・グループに固有な言語、及び/又は方言;
ユーザ・グループに固有な特徴抽出(特に、ユーザ・グループに固有な声道長の標準化);
ユーザ・グループに固有な音響学的基準モデル;
ユーザ・グループに固有な語彙;
ユーザ・グループに固有な言語モデル;及び/又は、
ユーザ・グループに固有なダイアログ・モデル;という項目形式部分を有する、ことを特徴とする方法。 - 請求項1乃至6のいずれか一項記載の方法であって、
情報を取得する及び/又は命令を与える(特に、銀行取引を実行する)のに用いる、ことを特徴とする方法。 - パターン処理システム(特に音声処理システム)であって、
ユーザに対して規定されたユーザ・グループのユニーク識別子を受信し、
前記ユーザ・グループに固有なパターン処理データセットを用いて前記ユーザのパターン入力を処理するように設計された、ことを特徴とするシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10127559.5 | 2001-06-06 | ||
DE2001127559 DE10127559A1 (de) | 2001-06-06 | 2001-06-06 | Benutzergruppenspezifisches Musterverarbeitungssystem |
PCT/IB2002/002055 WO2002099785A1 (en) | 2001-06-06 | 2002-06-05 | Pattern processing system specific to a user group |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004529390A true JP2004529390A (ja) | 2004-09-24 |
JP4837887B2 JP4837887B2 (ja) | 2011-12-14 |
Family
ID=7687445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003502817A Expired - Lifetime JP4837887B2 (ja) | 2001-06-06 | 2002-06-05 | ユーザ・グループに固有のパターン処理システム |
Country Status (6)
Country | Link |
---|---|
US (3) | US20040148165A1 (ja) |
EP (1) | EP1402518B1 (ja) |
JP (1) | JP4837887B2 (ja) |
AT (1) | ATE340399T1 (ja) |
DE (2) | DE10127559A1 (ja) |
WO (1) | WO2002099785A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009537037A (ja) * | 2006-05-12 | 2009-10-22 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 第1の適応化データ処理バージョンから第2の適応化データ処理バージョンに切り替えるための方法 |
KR101619262B1 (ko) * | 2014-11-14 | 2016-05-18 | 현대자동차 주식회사 | 음성인식 장치 및 방법 |
JP2017058674A (ja) * | 2015-09-18 | 2017-03-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 |
JP2020201445A (ja) * | 2019-06-13 | 2020-12-17 | 株式会社日立製作所 | 計算機システム、モデル生成方法及びモデル管理プログラム |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030220788A1 (en) * | 2001-12-17 | 2003-11-27 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
US7881822B2 (en) * | 2004-05-05 | 2011-02-01 | Provision Interactive Technologies, Inc. | System and method for dispensing consumer products |
KR100897553B1 (ko) | 2007-01-04 | 2009-05-15 | 삼성전자주식회사 | 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치 |
US20130325483A1 (en) * | 2012-05-29 | 2013-12-05 | GM Global Technology Operations LLC | Dialogue models for vehicle occupants |
US9620128B2 (en) | 2012-05-31 | 2017-04-11 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US9899026B2 (en) | 2012-05-31 | 2018-02-20 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US10431235B2 (en) | 2012-05-31 | 2019-10-01 | Elwha Llc | Methods and systems for speech adaptation data |
US9899040B2 (en) | 2012-05-31 | 2018-02-20 | Elwha, Llc | Methods and systems for managing adaptation data |
WO2014005055A2 (en) * | 2012-06-29 | 2014-01-03 | Elwha Llc | Methods and systems for managing adaptation data |
US10268683B2 (en) * | 2016-05-17 | 2019-04-23 | Google Llc | Generating output for presentation in response to user interface input, where the input and/or the output include chatspeak |
TWI682386B (zh) * | 2018-05-09 | 2020-01-11 | 廣達電腦股份有限公司 | 整合式語音辨識系統及方法 |
WO2020111676A1 (ko) * | 2018-11-28 | 2020-06-04 | 삼성전자 주식회사 | 음성 인식 장치 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089780A (ja) * | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2000070603A1 (en) * | 1999-05-13 | 2000-11-23 | Koninklijke Philips Electronics N.V. | Unsupervised adaptation of a large vocabulary automatic speech recognizer |
JP2000347684A (ja) * | 1999-06-02 | 2000-12-15 | Internatl Business Mach Corp <Ibm> | 音声認識システム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850627A (en) * | 1992-11-13 | 1998-12-15 | Dragon Systems, Inc. | Apparatuses and methods for training and operating speech recognition systems |
JPH08123461A (ja) * | 1994-10-20 | 1996-05-17 | Hitachi Ltd | 個人情報カードを用いた音声インタフェースシステム |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US6665639B2 (en) * | 1996-12-06 | 2003-12-16 | Sensory, Inc. | Speech recognition in consumer electronic products |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6182037B1 (en) * | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US6253181B1 (en) * | 1999-01-22 | 2001-06-26 | Matsushita Electric Industrial Co., Ltd. | Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers |
US6487530B1 (en) * | 1999-03-30 | 2002-11-26 | Nortel Networks Limited | Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
EP1134725A1 (de) * | 2000-03-15 | 2001-09-19 | Siemens Aktiengesellschaft | Anpassung automatischer Spracherkennungssysteme an spezifische Charakteristika von einzelnen Sprechergruppen zur Verbesserung der Erkennungsleistung |
US6493669B1 (en) * | 2000-05-16 | 2002-12-10 | Delphi Technologies, Inc. | Speech recognition driven system with selectable speech models |
US20020046030A1 (en) * | 2000-05-18 | 2002-04-18 | Haritsa Jayant Ramaswamy | Method and apparatus for improved call handling and service based on caller's demographic information |
US6735563B1 (en) * | 2000-07-13 | 2004-05-11 | Qualcomm, Inc. | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
WO2002007146A1 (fr) * | 2000-07-13 | 2002-01-24 | Asahi Kasei Kabushiki Kaisha | Dispositif de reconnaissance vocale et procede de reconnaissance vocale |
DE10047718A1 (de) * | 2000-09-27 | 2002-04-18 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
DE10047724A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern |
US6823306B2 (en) * | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
US7103549B2 (en) * | 2001-03-22 | 2006-09-05 | Intel Corporation | Method for improving speech recognition performance using speaker and channel information |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
-
2001
- 2001-06-06 DE DE2001127559 patent/DE10127559A1/de not_active Withdrawn
-
2002
- 2002-06-05 EP EP02735724A patent/EP1402518B1/en not_active Expired - Lifetime
- 2002-06-05 DE DE2002614850 patent/DE60214850T2/de not_active Expired - Lifetime
- 2002-06-05 JP JP2003502817A patent/JP4837887B2/ja not_active Expired - Lifetime
- 2002-06-05 WO PCT/IB2002/002055 patent/WO2002099785A1/en active IP Right Grant
- 2002-06-05 US US10/479,554 patent/US20040148165A1/en not_active Abandoned
- 2002-06-05 AT AT02735724T patent/ATE340399T1/de not_active IP Right Cessation
-
2012
- 2012-08-20 US US13/589,394 patent/US9009043B2/en not_active Expired - Fee Related
-
2015
- 2015-03-03 US US14/637,049 patent/US9424838B2/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089780A (ja) * | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2000070603A1 (en) * | 1999-05-13 | 2000-11-23 | Koninklijke Philips Electronics N.V. | Unsupervised adaptation of a large vocabulary automatic speech recognizer |
JP2000347684A (ja) * | 1999-06-02 | 2000-12-15 | Internatl Business Mach Corp <Ibm> | 音声認識システム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009537037A (ja) * | 2006-05-12 | 2009-10-22 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 第1の適応化データ処理バージョンから第2の適応化データ処理バージョンに切り替えるための方法 |
KR101619262B1 (ko) * | 2014-11-14 | 2016-05-18 | 현대자동차 주식회사 | 음성인식 장치 및 방법 |
JP2017058674A (ja) * | 2015-09-18 | 2017-03-23 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 |
JP2020201445A (ja) * | 2019-06-13 | 2020-12-17 | 株式会社日立製作所 | 計算機システム、モデル生成方法及びモデル管理プログラム |
JP7261096B2 (ja) | 2019-06-13 | 2023-04-19 | 株式会社日立製作所 | 計算機システム、モデル生成方法及びモデル管理プログラム |
Also Published As
Publication number | Publication date |
---|---|
DE10127559A1 (de) | 2002-12-12 |
ATE340399T1 (de) | 2006-10-15 |
DE60214850T2 (de) | 2007-05-10 |
US9009043B2 (en) | 2015-04-14 |
JP4837887B2 (ja) | 2011-12-14 |
US20150179164A1 (en) | 2015-06-25 |
US20120310647A1 (en) | 2012-12-06 |
US9424838B2 (en) | 2016-08-23 |
WO2002099785A1 (en) | 2002-12-12 |
EP1402518A1 (en) | 2004-03-31 |
EP1402518B1 (en) | 2006-09-20 |
DE60214850D1 (de) | 2006-11-02 |
US20040148165A1 (en) | 2004-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9424838B2 (en) | Pattern processing system specific to a user group | |
EP2109097B1 (en) | A method for personalization of a service | |
US10534623B2 (en) | Systems and methods for providing a virtual assistant | |
US9571645B2 (en) | Systems and methods for providing a virtual assistant | |
US9479931B2 (en) | Systems and methods for providing a virtual assistant | |
US9804820B2 (en) | Systems and methods for providing a virtual assistant | |
US9305565B2 (en) | Methods and systems for speech adaptation data | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN110770736A (zh) | 将对话驱动式应用程序导出到数字通信平台 | |
JP2002023783A (ja) | 対話処理システム | |
EP3063646A1 (en) | Systems and methods for providing a virtual assistant | |
US20050131684A1 (en) | Computer generated prompting | |
WO2002069320A2 (en) | Spoken language interface | |
US9460703B2 (en) | System and method for configuring voice synthesis based on environment | |
CN104299623A (zh) | 语音应用中用于自动确认和消歧模块的方法和系统 | |
CN108924218A (zh) | 用于推送信息的方法和装置 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
US20210350784A1 (en) | Correct pronunciation of names in text-to-speech synthesis | |
US20060031853A1 (en) | System and method for optimizing processing speed to run multiple dialogs between multiple users and a virtual agent | |
JP2003157095A (ja) | 音声認識装置及びその方法、プログラム | |
JP2002215670A (ja) | 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム | |
JP2004029457A (ja) | 音声対話装置、および音声対話プログラム | |
JP2002297189A (ja) | トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体 | |
JPH05265482A (ja) | 情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090302 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090602 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100408 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100721 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20101001 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110929 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4837887 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |