JP4837887B2 - ユーザ・グループに固有のパターン処理システム - Google Patents

ユーザ・グループに固有のパターン処理システム Download PDF

Info

Publication number
JP4837887B2
JP4837887B2 JP2003502817A JP2003502817A JP4837887B2 JP 4837887 B2 JP4837887 B2 JP 4837887B2 JP 2003502817 A JP2003502817 A JP 2003502817A JP 2003502817 A JP2003502817 A JP 2003502817A JP 4837887 B2 JP4837887 B2 JP 4837887B2
Authority
JP
Japan
Prior art keywords
user
user group
specific
pattern processing
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003502817A
Other languages
English (en)
Other versions
JP2004529390A (ja
Inventor
バイヤーライン,ペーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2004529390A publication Critical patent/JP2004529390A/ja
Application granted granted Critical
Publication of JP4837887B2 publication Critical patent/JP4837887B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Collating Specific Patterns (AREA)
  • Macromonomer-Based Addition Polymer (AREA)
  • Silicon Polymers (AREA)
  • Developing Agents For Electrophotography (AREA)

Description

発明の詳細な説明
本発明は、パターン処理システムに係り、特に、音声処理システムに関する。パターン処理システム、特に音声認識を伴ったもの、は多くの場所で、多くの用途に使われている。例として、電話によって利用可能な自動的情報・取引システム(例えば、オランダ公共交通機関(OVR)の自動時刻表情報、多くの銀行のテレバンキング・システム、及び、Philips社がウィーン市に設置した情報キオスク(ユーザはそこでキーボード及び音声入力によって例えばウィーンの場所及びホテルについての情報を得ることができる))が挙げられる。
パターン処理システムが、多くのユーザによって使われる場合、いわゆるユーザ独立パターン処理データセットがパターン処理のためにたいてい使われ、すなわち異なるユーザからのパターン処理においてユーザ間に差が設けられない。例えば、音声認識において、同じ音響学的基準モデルがすべてのユーザに対して用いられる。しかし、当業者には既知のように、パターン処理の品質は、ユーザ固有のパターン処理データセットを使用することで高められる。例えば、ある話者に対して特別に調律された母音長の標準化がその話者の話した発声に対して実行されるならば、音声認識システムの精度は強化される。
このような話者依存音声認識システムは、ユーザ数が少ない用途では今日幅広く使用されている。例として、個人向け口述筆記システム(例えば、Philips社のFreeSpeech)や、クローズド・ユーザ・グループ用のプロ向け口述筆記システム(例えば、X線医術分野におけるPhilips社のSpeechMagic)が挙げられる。しかし、多くのユーザを持つパターン処理システムへのこれらの技術の移転は、多くの難題によって妨げられている。
第一に、このようなシステムの大量のユーザにより、ユーザ固有のパターン処理データセット用にストレージへの要求が高くなり得る。第二に、大量のユーザは、ユーザ依存のパターン処理データセットを作成するためのトレーニングに要求される努力をする準備ができていないと考えられる。このトレーニング努力は、実にユーザが使いたいすべてのシステムに対して実際に必要となるであろう。なぜなら、個々のメーカのパターン処理システムは、更に一メーカの個々の製品でも一部のものは、互いに異なるので、ユーザ固有のパターン処理データセットをシステム間で交換できないからである。
したがって、日本国特許公開:特開平8−123461号公報の要約には、ユーザが、そのユーザの特性を示した個人情報データを含んだ情報カードを携帯するべきであることが提案されている。その場合、ユーザは、例えば、情報カードをシステムのスロットに挿入して、個々の音声処理システム(音声インターフェース・システム)をその関連する個人用に特化させる。次いで、そのシステムは、そのカードからデータを読み取り、これらデータを用いて彼が話した言葉のユーザ依存処理を実行する。
また、個々の情報カードの使用は、音声処理システムのメーカが彼らのシステムにおいてそのカードの使用をサポートするならば、高ストレージ要求と複数のユーザ固有データの準備の問題を解決する。しかし、これは、ユーザはシステムを使うために常にカードを携帯し、各システムはそのカード用の入力装置を備えていなければならない、という必要性を生じさせる。それは、例えば、電話情報システムの相談のために使うことができない。
したがって、本発明の目的は、冒頭段落に記載した種類のパターン処理システム(特に音声処理システム)であって、ユーザ固有パターン処理システムと同等の品質を持ち、例えば電話などの既存のユーザ端末と共に用いることが可能でありつつ、システムを用いるために情報カードなどの追加的な機器をユーザが持つ必要がなく、高ストレージ要求と複数のユーザ固有データの作成の問題を解決する、システムを提供することである。
この目的は、一方で、パターン処理(特に音声処理)方法であって、ユーザに対して規定されたユーザ・グループのユニーク識別子を受信する工程と、前記ユーザ・グループに固有なパターン処理データセットを用いて前記ユーザのパターン入力を処理する工程とを有する方法によって達成され、他方で、パターン処理システム(特に音声処理システム)であって、ユーザに対して規定されたユーザ・グループのユニーク識別子を受信し、前記ユーザ・グループに固有なパターン処理データセットを用いて前記ユーザのパターン入力を処理するように設計されたシステムによって達成される。
高ストレージ要求の問題は、ユーザをユーザ・グループへ再分割することを通じて回避される。加えて、ユーザ・グループに固有なパターン処理データセットは、中央データ・メモリに収容されてもよく、ネットワークを通じてパターン処理装置に提供されてもよい。したがって、メモリ・スペースを説明するための更なる可能性は、複数のデータ・ストレージの回避から生じる。複数のシステムにおけるユーザ・グループに固有なパターン処理データセットの多重共有使用により、ユーザに対して複数のユーザ・グループが規定されることに関する問題が回避される。
ユーザが、ユーザ・グループに固有なパターン処理システムを使用したい場合、彼は、例えば番号又は識別名を用いて、彼のユーザ・グループについてのみ、システムに知らせなければならない。また、ユーザ・グループ情報は、チップカード上に収容され得るが、例えば電話情報システムを使うためには、口頭でユーザ・グループをシステムに知らせれば、又は、例えば数字コードの場合にはDTMF対応の電話のキーボードを通じて数字を入力すれば、十分である。このように、ユーザ・グループに固有な個々のパターン処理システムは、例えば情報カードなどの追加的機器無しで、そして例えば電話などの既存のユーザ端末を用いて、使用することができる。
請求項2記載のように、ユーザ・グループは、トレーニング段階において、ユーザに対して定義されてもよい。その場合、ユーザは、例えば、トレーニング・システムによって記録され、ユーザ・グループを決定するのに用いられる所定のテキストを発音しなければならない。このトレーニング段階は、ユーザ・グループに固有なパターン処理システムの使用からは独立して行われ得る。しかし、代替的に、それは、「新しい」ユーザ、すなわち、どのユーザ・グループにもいまだ関連付けられていないユーザ、に対してシステムの使用中に提供されてもよい。さらに、システムの使用中に入力されたユーザのパターン入力を用いることが考えられる。その場合、該パターン入力は、おそらく、最初の又は新しいユーザ・グループの定義のために、当初はユーザ独立パターン処理で取り扱われる。後者は、ユーザのパターン特徴又はシステムのユーザ・グループが変わった時に起こり得る。
このようなユーザ・グループの定義を実行するための多くの方法が、ユーザ適合の分野から、例えば文献により、当業者には知られている。例えば音声認識からの「speaker clustering」方法などのこれらの方法のうちの一部は、ここでいうユーザ・グループを直接導く。例えば音声認識からの「adaptive speaker clustering」、MLLR、又はMAP、或いは、写真認識からの「characteristic faces」などの他の方法は、ユーザ固有のパターン処理データセットを得るために通常使用される。適合プロセスの解像度は、所望数のユーザ・グループが定着するように、量子化によって、すなわち、ユーザ固有適合パラメータをあるレベルまで減らすことによって、より粗くすることができる。
請求項3は、ユーザに対するユーザ・グループの定義がどのようにユーザによって影響が及ぼされることができるかを定義する。例えば、システムが異なる品質のユーザ・グループを提供することがここで考えられる。このように、システムは、例えば、非常に似た話し方及び動作モードのユーザが排他的に存在する非常に精細に区別された音響学的基準モデルをこれらグループに対して提供するという点で高品質のユーザ・グループを提供し得る。結果として、そのようなユーザ・グループには、例えば音声認識において、ユーザ依存システムにおいて得られたものと類似した認識精度が提供され得る。このためにシステムにおいて必要なより高い支出は、対応した料金構造によって、ユーザから回収し得る。
従属クレーム4及び5は、ユーザ入力に対する2つの有益的な可能性に関する。一方で、ユーザ入力は、例えば上記情報キオスクや自動銀行カウンタなどの公衆ユーザ端末へ行われ得る。他方で、ユーザは、電話又はPC若しくはラップトップを使うことができる。その場合、彼の入力は、例えば電話網やインターネットなどのネットワークを通じて送信される。
従属クレーム6は、ユーザ・グループに固有なパターン処理データセットのいくつかの考えられる構成要素:
ユーザ・グループに固有な言語、及び/又は方言;
ユーザ・グループに固有な特徴抽出(特に、ユーザ・グループに固有な声道長の標準化);
ユーザ・グループに固有な音響学的基準モデル;
ユーザ・グループに固有な語彙;
ユーザ・グループに固有な言語モデル;及び/又は、
ユーザ・グループに固有なダイアログ・モデル;
を指定する。
これらは、例えばユーザ・グループに固有な音声認識のために用いられ得るこのようなデータセットの典型的な構成要素である。例えば言語の語音用のいわゆるHidden Markov Modelなどの音響学的基準モデルが利用できる。ユーザ・グループに固有な語彙は、例えば、ユーザ・グループによってある用途に通常用いられる言葉を含む。言語モデルは、ワード・シーケンスを形成するためのすべての相互関係、すなわち、例えば、ユーザ・グループの文法規則又は意味上のプリファレンスを有し得る。他方、ダイアログ・モデルは、システムとユーザ・グループからのユーザとの間のインタラクションの特徴的なパターンを識別する。
音声認識の他に、本発明は、例えばユーザ・グループに固有な記号一覧表を使用して、例えばユーザ・グループに固有な音声エンコードなどの他の種類のユーザ・グループに固有なパターン処理にも関連する。例えばアニメーション化した文字(いわゆる化身(avatar))を用いてオンラインでチャットするためのシステムなどにおいてユーザ・グループに固有な手書き文字認識及び顔表情処理も本発明の範囲に入る。
請求項7は、例えば時刻表や旅客情報などの情報を提供するシステムの使用を記載する。自動販売機からの購入やインターネット経由での銀行取引の実行などの命令を発するシステムの使用も記載されている。
本発明の上記及び別の態様及び利点は、実施形態及び特に添付図面を参照して、以下により詳細に説明される。
図1は、ユーザ入力用の公衆ユーザ端末10を提供する、本発明に係るユーザ・グループに固有なパターン処理システムの一実施形態を示す。本発明のこのような実施形態の典型的な用途は、自動銀行カウンタ10における銀行取引の実行、上述の情報キオスク10での情報呼び出し、又は、自動切符販売機10からの切符購入、である。
公衆ユーザ端末10は、グラフィック・ディスプレイ11、入力キーボード12、ユーザが話したメッセージを入れるためのマイク13、及び、ユーザの特性を示すチップカード70(例えばEC又はカスタマ・カード)用の挿入スロット14、を備える。さらに、端末10は、ユーザ・グループに固有な音声処理のための該ユーザ・グループに固有なパターン処理データセットを格納するためのローカル・データ・メモリ32を備えたローカル音声認識装置42を有する。システムを使うためにスロット14に挿入されるユーザのチップカード7上には、例えば、その用途について典型的なデータ(例えば、銀行カードの場合には銀行口座の口座番号)を格納するチップ71と、ユーザ・グループに固有な音声処理のために規定されたそのユーザのユーザ・グループのユニーク識別子を格納する別のチップ72と、がある。
このようなユニーク識別子は、例えば、1つの番号から成ってもよく、或いは、代替的に、識別名が考えられる。例えば、その人の特性を示す音声処理がそのユーザ・グループを代表しているような、そのユーザ・グループに属する広く知られている人の名前など。このような識別名及び番号は、ユーザが容易に思い出すことができるため、ユニーク識別子は、チップカードの助けなしでも、例えばマイク13やキーボード12を用いて、パターン処理システムに送信できる。この場合、チップ72は、チップカード70上で余分となる。別の方法として、さらに、あらゆるユーザ・グループの特徴説明などのすべての情報が、チップカード70上の一チップ71上に収容されてもよい。
ユーザ・グループに固有なすべてのパターン処理データセットがローカル・データ・メモリ32に格納されていれば、ローカル音声認識装置42は、ローカルで完全に独立して作動することが可能である。このような「スタンドアロン」自動機械は、特に、タバコなどの自動販売機から直接入手可能な物品の販売に、適当である。公衆ユーザ端末10は、代替的に、個々のユーザ・グループに固有な音声認識のためのユーザ・グループに固有なパターン処理データセットのストレージのための別のデータ・メモリ30・・・31にネットワーク20経由で接続されてもよい。その際、ネットワーク20は、例えば、プライベートMAN(メトロポリタン・エリア・ネットワーク)(例えば、銀行のネットワーク)である。ネットワーク20は、代替的に、公衆網、特にインターネット、という形で実現されてもよい。考え得るハイブリッドな形は、例えば、インターネットをベースとして実現されたVPN(仮想プライベート・ネットワーク)である。
図2は、ユーザ・グループに固有の本発明に係るパターン処理システムの別の一実施形態を示す。図1と同様、ネットワーク20及びそれに接続されたデータ・メモリ30・・・31が図示されている。ただし、図1と対照してみると、音声認識装置40・・・41もまたネットワーク20に接続されている。ユーザ入力は、公衆ユーザ端末10(ここでは、図1と異なり、ローカル・データ・メモリ32を備えたローカル音声認識装置42を有していない)において行われるか、或いは、このためにネットワーク20に接続された又は接続可能な電話60又はPC、ラップトップなど50を通じて行われる。例えばローカル音声認識装置を備えた図1に示した公衆ユーザ端末10などの上記及び他の入力可能性は、ユーザ・グループに固有なパターン処理システムにおいて全部又は一部のみが実現されてもよい。
したがって、図1及び2に図示したシナリオは、ユーザが話した言葉の認識が行われる音声認識装置42又は40・・・41の配置について特に異なっている。図1の公衆ユーザ端末10においてローカルに収容された音声認識装置42は、シンプルな命令だけが認識されることになっており、公衆ユーザ端末10がいつも主として同じ顧客によって使われるケースに適当である。この場合、比較的シンプルで安価な音声認識装置42で十分であり、メイン・ユーザのユーザ・グループに固有なパターン処理データセットは、そのユーザ・グループに固有な音声認識のための音声認識装置42のローカル・データ・メモリ32に格納され得る。例えば、巡回しているユーザによって必要とされ、データ・メモリ32にローカルに存在しないユーザ・グループに固有な別のパターン処理データセットは、ネットワーク20を通じて接続されたデータ・メモリ30・・・31からロードされる。これにより、ネットワーク20全体の負荷が小さくなる。
図2において、ユーザの話した発話の音声認識は、ネットワークを通じて接続された音声認識装置40・・・41において行われる。これは、高い認識性能を必要とするより複雑な発話の場合、及び/又は、ユーザが継続的に変わる場合に、有用である。この音声認識タスクとデータ・ストレージの結合は、機械占有、必要とされるメモリ・スペース、及び、ネットワーク20を通る必要なデータ・トラフィック、において利点をもたらす。このように、例えば、音声認識装置40・・・41を互いに接続し、さらに、ネットワーク20内でブロードバンド・サブネットワークによってデータ・メモリ30と接続することは、有益的となり得る。また、特定の場合には、個々のユーザの話した発話の認識を常に可能な限りそのユーザのユーザ・グループに固有なパターン処理データセットを保持し得る同じ音声認識装置40に割り当てることも有益的となり得る。
上述のシステム実施形態の他に、多くの別の変形例が、用途分野に応じて、当業者によって容易に実施され得る。したがって、ここでは、分散型データベースの分野で十分に知られているミラード・データ・ストレージの技術に言及すれば十分である。ユーザ(すなわち、この場合はユーザ・グループ)のデータは、ネットワーク20上が高負荷の場合でもユーザに彼/彼女のデータへの高速アクセスを与えるために、例えば図1のメモリ32及び30・・・31などの複数の、通常は空間的に幅広く隔たったデータ・メモリにおいて保持される。その際、個々のメモリにおいて保持されたデータの整合性は、時間に関してよりクリティカルでなく、所望であれば低ネットワーク負荷時に実行され得る適切な同期化手順によって保証される。
本発明の別の実施形態は、ユーザ・グループに固有なパターン処理データセットが、システムに属しているデータ・メモリにおいて保持されず、ユーザ・グループに固有なパターン処理のために設計されてもいないが、例えば、サードパーティ事業者によって又は代替的にユーザ自身によって(彼自身のユーザ・グループのために)利用可能とされる。前者の場合、サードパーティは、ユーザ・グループに固有なパターン処理データセットをユーザ・グループに固有なパターン処理システムのオペレータに利用可能にするために、例えば対価と引き換えに、ユーザ・グループに固有なパターン処理データセットの作成、管理、及び/又は更新に特化し得る。サードパーティは、ユーザのためにユーザ・グループ・メンバーシップの定義の管理もし得る。
後者の場合、ユーザ自身は、例えば、ユーザ・グループに固有なパターン処理システムのデータ・メモリ32、30・・・31の1つから彼自身のユーザ・グループに固有なパターン処理データセットをダウンロードするであろう。システム自体がそのユーザの個々のユーザ・グループに固有なパターン処理データセットを持っておらず、別のユーザ・グループに固有なパターン処理システムが使われる場合、彼は個々のデータをラップトップ50上のシステムに提供することができる。ただし、一般的に、彼は、ネットワーク20、特にインターネット、に接続されているPC経由でもそれらを提供し得る。この場合、彼は、その後、このPCのアドレスをシステムに知らせるであろう。したがって、このシナリオでは、PC又はラップトップ50のアドレスを含んでいるメッセージが、ユーザ・グループのユニーク識別子を提供するタスクを実行するであろう。
上記実施形態においてシステムへのアクセスを得るために使われたユーザ端末は、平均的な複雑さの公衆ユーザ端末10、電話60、及び、PC又はラップトップ50であったが、代替的な解決策も等しく可能である。例として、タッチスクリーン、カメラ、スピーカなどの複雑なマルチメディア・インタラクション可能性を持つ携帯電話や情報キオスクである。
図3は、ユーザ・グループに固有なパターン処理データセット80・・・81用のデータ・メモリ30のコンテンツを示す図である。ここではローカル・データ・メモリ32とネットワーク20に接続された別のデータ・メモリ30・・・31とを表しているデータ・メモリ30は、例えばハードディスクなどの既知のコンピュータ・データ・メモリである。ユーザ・グループに固有なパターン処理データセット80・・・81は、例えば、ユーザ・グループに固有なパターン処理システムに適したバイナリ・コードにおいて、個々のデータ・ファイルという形で利用可能であり得る。代替的可能性は、データベースなどの形の組織である。
図4は、本発明に係るユーザ・グループに固有なパターン処理システムの使用の考え得るフローチャートを示す。例えば銀行用途用の銀行口座番号及びPINコードの通信などの用途に固有な動作を表さず、ユーザ・グループに固有なパターン処理に関連するプロセスのみを説明する。
スタート・ブロック101後、ユーザ・グループに固有なパターン処理システムは、プロセス・ブロック102において、ユーザに、彼のユーザ・グループを識別するように、すなわちユーザ・グループに固有なパターン処理のために個々のユーザに対して定義されたユーザ・グループのユニーク識別子をシステムに入力するように、要求する。判断ブロック103後、ユーザが彼のユーザ・グループを知っているか否かに応じて、別のプロセスが分岐する。
ユーザが彼自身のユーザ・グループを知っている場合、ブロック104において、彼はそれを、例えば、図1及び2のシナリオのように彼がチップカード70を公衆ユーザ端末10の挿入スロット14に挿入することによって、或いは、彼が公衆ユーザ端末10のキーボード12又はマイク13を使うことによって、或いは、彼が電話60又はラップトップ50を通じてユーザ・グループをシステムに教えることによって、システムに伝達する。すると、システムは、ブロック105において、データ・メモリ32、30・・・31においてそのユーザのユーザ・グループに固有なパターン処理データセットを検索し、それをパターン処理装置42、40・・・41に提供する。
ユーザが彼自身のユーザ・グループを知らない場合、ブロック106において、システムは、彼に、彼がシステムに彼用のユーザ・グループを今定義してもらいたいか否かを尋ねる。彼がそうしたい場合、システムは、ブロック107において、そのユーザのトレーニング・パターン入力を集め、それらを処理してそのユーザのユーザ・グループを定義する。このように決定されたユーザ・グループは、ブロック108において、ユーザに伝達され、コントロールは、上述のブロック105へ切り換えられる。そこでは、現在のユーザのユーザ・グループに固有なパターン処理データセットがデータ・メモリ32、30・・・31において探され、パターン処理装置42、40・・・41に提供される。
例えば、そのとき彼にそれのための時間がないので、或いは、ユーザ・グループは既に彼に割り当てられたが、そのユニーク識別子を彼がそのとき利用可能でないために、ユーザが彼のために規定されるユーザを今は望んでいない場合、コントロールは、ブロック106からブロック109へ分岐する。そこで、後続のパターン処理工程がユーザの特殊な特徴とは無関係に実行されるように、ユーザ独立パターン処理データセットがデータ・メモリ32、30・・・31において探され、パターン処理装置42、40・・・41に提供される。
ブロック105及び109の一方においてパターン処理装置42、40・・・41に提供にされたユーザ・グループ固有の又はユーザ独立のパターン処理データセットは、別の条件にも依存し得る。したがって、例えば、音声認識の場合には異なる背景雑音、或いは、音声入力の場合にはマイク種類又はジェスチャ認識の場合にはカメラ種類などのユーザ入力用の異なる端末、などの異なる周囲条件が異なる用途に対して保持されてもよく、これらに適切に適合したパターン処理データセットが用いられ得る。
ブロック105又は109の後、適用可能であるように、ユーザのパターン入力がブロック110において処理される。すなわち、ユーザは、パターンに入力するように要求され、入力されたパターンは記録・処理される。このようなパターン入力は、例えば、マイク13又は電話60を通じて入力された話された発話である。他の考えられる入力は、手書きのテキスト、及び/又は、ディスプレイ11上で提供されたメニュ項目を選択するポインタ動作である。公衆ユーザ端末10のディスプレイ11は、この目的のために、例えばタッチスクリーンとして構成されてもよく、及び/又は、公衆ユーザ端末10にカメラが取り付けられてもよい。
任意で、ブロック110で行われたユーザのパターン入力を、中間ストレージに入れ、例えばユーザに対してユーザ・グループ定義をテストするために用いてもよい。このようなテストのために十分な量のユーザ入力が収集され、そのときのユーザ・グループ定義がパターン処理の観点からそのユーザにとって最適ではないことが確かめられると、システムは、ユーザと相談して、そのユーザにより良く適したユーザ・グループに固有なデータセットをパターン処理装置42、40・・・41にロードし、それを用いてその後のパターン処理工程を実行してもよい。このような手順は、例えば、パターンがその瞬間までユーザ独立パターン処理データセットに基づいて処理されていた場合にも、実行され得る。
ブロック111において、ユーザのパターン入力に対応した行動がされる。例えば、銀行取引の場合、口座データが公衆ユーザ端末10のディスプレイ11上で示される。リターン・クエスチョンをユーザにすることも可能である。ユーザは、例えば銀行コード番号の欠落などの別の入力が要求され得る。
ブロック112において、ユーザとのインタラクションが完了したか否かが判断される。完了していない場合、コントロールはブロック110に戻り、ユーザからの次のパターン入力を処理する。ユーザとのインタラクションが完了した場合、あらゆる新しい又は修正されたユーザ・グループは、適用可能であれば、これらのデータが、例えば、そのときまで音声認識装置42、40・・・41の1つにおいてのみローカルにストレージに保持されたならば、そのユーザのためにデータ・メモリ32、30・・・31に格納される。そして、システムは、ブロック114において、ユーザ入力の処理を終える。
ブロック112におけるユーザとのインタラクションの終了は、例えば、ブロック110における関連する前のシステム質問へのユーザの肯定返答の認識の後でもよい。しかし、代わりに又は加えて、人−機械通信においていつでも作動され得る公衆ユーザ端末10の入力キーボード12上の終了ボタンが提供されてもよい。当業者に明らかな更なる修正も考えられる。
ブロック107及び113は、このような人−機械通信中にそのユーザ用のユーザ・グループを定義する可能性を提供し、ブロック110及び113は、このようなユーザ・グループ定義を修正することを可能にした。しかし、ユーザ・グループの定義・修正は、例えば銀行取引の実行などのシステム利用のフレームワーク内で行われる必要はなく、代替的に別々に行われてもよい。
この可能性は、例えば、ユーザが彼自身の家から余裕を持って彼のユーザ・グループを定義できる図2に示したシナリオの1つにとって、特に興味深いように見えるであろう。その際、彼は、システム・オペレータによってラップトップ50内にローカルに提供されたソフトウェアをロードしてもよく、及び/又は、プロセッサ、プログラム、及び/又はデータ・メモリなどのインターネットを通じてアクセス可能なオペレータのインフラを使ってもよい。この定義は、例えばマイク又はカメラの特性又は周囲雑音などの関連する機械の使用条件により良く適合するため、図4を参照して説明した公衆ユーザ端末10においてユーザ・グループを直接定義するシナリオもまたその正当性を持っている。
図4は、本発明に係るユーザ・グループに固有なパターン処理方法の必須の態様を明確化したが、当業者には明らかなように、このような方法は、例えばエラー条件の取り扱いなどのために、実際には別のメカニズムを含むべきである。このように、例えば、システムによって規定されたユーザのユーザ・グループは別のシステムに既知ではないということが生じ得る。その際、この他のシステムは、例えば、ユーザがその特定の瞬間に彼自身のユーザ・グループを知らないブロック106から始まる上記場合とちょうど同じように、エラー取り扱いのために作動し得る。
ユーザ・グループに固有な本発明に係るパターン処理システムの実施形態を示す図である。 ユーザ・グループに固有な本発明に係るパターン処理システムの実施形態を示す図である。 ユーザ・グループに固有のパターン処理データセット用のデータ・メモリのコンテンツを図式的に示す図である。 本発明に係るユーザ・グループに固有のパターン処理システムの使用のシーケンスを示すフローチャートである。

Claims (8)

  1. パターン処理(特に音声処理)方法であって、
    ユーザが既に知っている該ユーザのためのユーザ・グループのユニークな識別子であり定義段階におけるユーザのパターン処理成績に関連して該ユーザに対して定義されユーザ・グループのユニーク識別子を該ユーザから受信する工程と、
    前記ユーザのパターン入力を処理するために前記ユーザ・グループに固有なパターン処理データセットを用いる工程と、
    を有することを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記定義段階はトレーニング段階である、
    ことを特徴とする方法。
  3. 請求項1又は2記載の方法であって、
    前記ユーザは、該ユーザ用の前記ユーザ・グループの定義に影響を及ぼすことができる、ことを特徴とする方法。
  4. 請求項1乃至3のいずれか一項記載の方法であって、
    公衆ユーザ端末(特に、銀行端末、自動切符販売機、又は、情報キオスク)へのユーザ入力が行われる、ことを特徴とする方法。
  5. 請求項1乃至4のいずれか一項記載の方法であって、
    ユーザ入力はネットワーク(特にインターネット)を通じて提供される、ことを特徴とする方法。
  6. 請求項1乃至5のいずれか一項記載の方法であって、
    ユーザ・グループに固有な音声認識のためのパターン処理データセットは、
    ユーザ・グループに固有な言語、及び/又は方言;
    ユーザ・グループに固有な特徴抽出(特に、ユーザ・グループに固有な声道長の標準化);
    ユーザ・グループに固有な音響学的基準モデル;
    ユーザ・グループに固有な語彙;
    ユーザ・グループに固有な言語モデル;及び/又は、
    ユーザ・グループに固有なダイアログ・モデル;を含む、ことを特徴とする方法。
  7. 請求項1乃至6のいずれか一項記載の方法であって、
    情報を取得する及び/又は命令を与える(特に、銀行取引を実行する)のに用いる、ことを特徴とする方法。
  8. パターン処理システム(特に音声処理システム)であって、
    ユーザが既に知っている該ユーザのためのユーザ・グループのユニークな識別子であり定義段階におけるユーザのパターン処理成績に関連して該ユーザに対して定義されユーザ・グループのユニーク識別子を該ユーザから受信するよう構成される受信部と、
    前記ユーザのパターン入力を処理するために前記ユーザ・グループに固有なパターン処理データセットを用いるよう構成されるパターン入力処理部と、
    を含むことを特徴とするシステム。
JP2003502817A 2001-06-06 2002-06-05 ユーザ・グループに固有のパターン処理システム Expired - Lifetime JP4837887B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10127559.5 2001-06-06
DE2001127559 DE10127559A1 (de) 2001-06-06 2001-06-06 Benutzergruppenspezifisches Musterverarbeitungssystem
PCT/IB2002/002055 WO2002099785A1 (en) 2001-06-06 2002-06-05 Pattern processing system specific to a user group

Publications (2)

Publication Number Publication Date
JP2004529390A JP2004529390A (ja) 2004-09-24
JP4837887B2 true JP4837887B2 (ja) 2011-12-14

Family

ID=7687445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003502817A Expired - Lifetime JP4837887B2 (ja) 2001-06-06 2002-06-05 ユーザ・グループに固有のパターン処理システム

Country Status (6)

Country Link
US (3) US20040148165A1 (ja)
EP (1) EP1402518B1 (ja)
JP (1) JP4837887B2 (ja)
AT (1) ATE340399T1 (ja)
DE (2) DE10127559A1 (ja)
WO (1) WO2002099785A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
US7881822B2 (en) * 2004-05-05 2011-02-01 Provision Interactive Technologies, Inc. System and method for dispensing consumer products
CN101443732A (zh) * 2006-05-12 2009-05-27 皇家飞利浦电子股份有限公司 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
US20130325483A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Dialogue models for vehicle occupants
US9899040B2 (en) 2012-05-31 2018-02-20 Elwha, Llc Methods and systems for managing adaptation data
US9620128B2 (en) 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325449A1 (en) 2012-05-31 2013-12-05 Elwha Llc Speech recognition adaptation systems based on adaptation data
US10431235B2 (en) 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
WO2014005055A2 (en) * 2012-06-29 2014-01-03 Elwha Llc Methods and systems for managing adaptation data
KR101619262B1 (ko) * 2014-11-14 2016-05-18 현대자동차 주식회사 음성인식 장치 및 방법
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
US10268683B2 (en) * 2016-05-17 2019-04-23 Google Llc Generating output for presentation in response to user interface input, where the input and/or the output include chatspeak
TWI682386B (zh) * 2018-05-09 2020-01-11 廣達電腦股份有限公司 整合式語音辨識系統及方法
US11961522B2 (en) * 2018-11-28 2024-04-16 Samsung Electronics Co., Ltd. Voice recognition device and method
JP7261096B2 (ja) * 2019-06-13 2023-04-19 株式会社日立製作所 計算機システム、モデル生成方法及びモデル管理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000089780A (ja) * 1998-09-08 2000-03-31 Seiko Epson Corp 音声認識方法および音声認識装置
WO2000070603A1 (en) * 1999-05-13 2000-11-23 Koninklijke Philips Electronics N.V. Unsupervised adaptation of a large vocabulary automatic speech recognizer
JP2000347684A (ja) * 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
JPH08123461A (ja) * 1994-10-20 1996-05-17 Hitachi Ltd 個人情報カードを用いた音声インタフェースシステム
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
EP1134725A1 (de) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Anpassung automatischer Spracherkennungssysteme an spezifische Charakteristika von einzelnen Sprechergruppen zur Verbesserung der Erkennungsleistung
US6493669B1 (en) * 2000-05-16 2002-12-10 Delphi Technologies, Inc. Speech recognition driven system with selectable speech models
US20020046030A1 (en) * 2000-05-18 2002-04-18 Haritsa Jayant Ramaswamy Method and apparatus for improved call handling and service based on caller's demographic information
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
DE60124559T2 (de) * 2000-07-13 2007-09-06 Asahi Kasei Kabushiki Kaisha Einrichtung und verfahren zur spracherkennung
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000089780A (ja) * 1998-09-08 2000-03-31 Seiko Epson Corp 音声認識方法および音声認識装置
WO2000070603A1 (en) * 1999-05-13 2000-11-23 Koninklijke Philips Electronics N.V. Unsupervised adaptation of a large vocabulary automatic speech recognizer
JP2000347684A (ja) * 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム

Also Published As

Publication number Publication date
US20150179164A1 (en) 2015-06-25
ATE340399T1 (de) 2006-10-15
WO2002099785A1 (en) 2002-12-12
DE60214850T2 (de) 2007-05-10
JP2004529390A (ja) 2004-09-24
EP1402518A1 (en) 2004-03-31
DE60214850D1 (de) 2006-11-02
EP1402518B1 (en) 2006-09-20
US20120310647A1 (en) 2012-12-06
US9424838B2 (en) 2016-08-23
US9009043B2 (en) 2015-04-14
US20040148165A1 (en) 2004-07-29
DE10127559A1 (de) 2002-12-12

Similar Documents

Publication Publication Date Title
US9424838B2 (en) Pattern processing system specific to a user group
EP2109097B1 (en) A method for personalization of a service
US10534623B2 (en) Systems and methods for providing a virtual assistant
US9571645B2 (en) Systems and methods for providing a virtual assistant
US9479931B2 (en) Systems and methods for providing a virtual assistant
US9804820B2 (en) Systems and methods for providing a virtual assistant
WO2017054122A1 (zh) 语音识别系统及方法、客户端设备及云端服务器
CN107657017A (zh) 用于提供语音服务的方法和装置
CN110770736A (zh) 将对话驱动式应用程序导出到数字通信平台
US7415415B2 (en) Computer generated prompting
WO2015094169A1 (en) Systems and methods for providing a virtual assistant
JP2002023783A (ja) 対話処理システム
US9460703B2 (en) System and method for configuring voice synthesis based on environment
CN104299623A (zh) 语音应用中用于自动确认和消歧模块的方法和系统
CN108924218A (zh) 用于推送信息的方法和装置
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
CN113987149A (zh) 任务型机器人的智能会话方法、系统及存储介质
JP3468572B2 (ja) 対話処理装置
JP2010182191A (ja) 帳票入力装置、帳票入力システム、帳票入力方法、及びプログラム
JP2003157095A (ja) 音声認識装置及びその方法、プログラム
JP2004029457A (ja) 音声対話装置、および音声対話プログラム
JP2002297189A (ja) トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体
JPH05265482A (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090302

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100408

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100721

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20101001

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110929

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4837887

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term