JP2005534065A - マンマシンインタフェースユニットの動作及び/又は制御方法 - Google Patents
マンマシンインタフェースユニットの動作及び/又は制御方法 Download PDFInfo
- Publication number
- JP2005534065A JP2005534065A JP2004523770A JP2004523770A JP2005534065A JP 2005534065 A JP2005534065 A JP 2005534065A JP 2004523770 A JP2004523770 A JP 2004523770A JP 2004523770 A JP2004523770 A JP 2004523770A JP 2005534065 A JP2005534065 A JP 2005534065A
- Authority
- JP
- Japan
- Prior art keywords
- man
- machine interface
- control method
- interface operation
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000010977 unit operation Methods 0.000 title description 7
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims description 2
- 230000036651 mood Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Manipulator (AREA)
Abstract
有限のユーザグループ環境において、マンマシンインタフェースユニット(MMI)を動作させ及び/又は制御する方法を提供する。ユーザグループからの発話を繰り返して受信する。この受信した発話に基づいて、ユーザ識別を行う。メンバ及び/又はユーザ識別処理は、エンロールを不要とするクラスタリングのステップ又はサブプロセスを有する。
Description
本発明は、特に、有限のメンバグループ及び/又は有限のユーザグループ環境において、マンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェースユニット動作/制御方法に関する。詳しくは、本発明は、例えば娯楽用ロボット、ホームネットワーク又は娯楽システムにその環境(place)を学習させるマンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェースユニット動作/制御方法に関する。
様々な電子装置及び電子機器において、これらの装置を簡単且つ信頼度が高く使用できることを確実にするために、又は例えば入口においてユーザの身元を確認する目的で、マンマシンインタフェースユニット及びマンマシン対話システム又はこれらに類似したものが採用されている。そのために、多くの場合、音声入力のみに基づいた個人の識別が必要とされている。
現在の及び周知の話者識別方法及びシステムは、トレーニングの必要があり、及びシステムに関係する話者又はユーザを登録し(register)、又はきちんとエンロール(enrol)させる必要がある。識別率を向上させ、識別結果の信頼性を高めるためには、各話者は、登録し、ある程度の量の文章(text)を声に出して読むことによって、エンロールを行う必要がある。この文章は、予め決められた所定の文章であってもよく、任意の無作為な文章であってもよい。
識別処理の性能を高めるためには、エンロールする各話者の発話の量は、できるだけ多い方がよい。一方、ユーザの手間を軽減するためには、エンロールフェーズにおいて録音する発話は、できるだけ少ない方がよい。
特に、限られた数の異なるユーザ及び/又はメンバのみがアクセス権を有し及び装置又は機器を操作する権利を有する場合のような、メンバグループ及び/又はユーザグループが有限である特別な環境においては、識別処理の主な目的は、所定の音声入力に対して、ユーザが既知であるか未知であるかを分類することである。更に、このような場合、例えば、ホームネットワークシステムにおいて、又は娯楽又はサービスロボットに関する家庭用娯楽システムにおいては、個々のユーザグループのメンバにとって、明示的な手法で登録又はエンロールを行うことは不便である。
本発明の目的は、エンロールフェーズにおけるユーザ又はメンバの負担を軽減するとともに、良好な性能を実現させる、マンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェース動作/制御方法を提供することである。
この目的は、請求項1のマンマシンインタフェース動作/制御方法によって達成される。本発明に基づくマンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェース動作/制御方法の好ましく有利な実施形態は、従属請求項において定義されている。また、この目的は、請求項18に基づくホームネットワークシステム、家庭用娯楽システム、娯楽用ロボット、請求項19に基づくマンマシンインタフェースユニットの動作/制御方法、及び請求項20に基づくコンピュータプログラム製品によっても達成される。
本発明に係るマンマシンインタフェース動作/制御は、特に有限のメンバグループ及び/又は有限のユーザグループ環境でマンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェース動作/制御方法において、メンバグループ及び/又はユーザグループのメンバ及び/又はユーザの発話を繰り返して受信する。そして、受信した発話に基づいて、メンバ及び/又はユーザ識別処理を行う。メンバ及び/又はユーザ識別処理は、エンロールを不要とするクラスタリングのステップ又はサブプロセスからなる。
このように、本発明の基本的な特徴により、メンバ及び/又はユーザ識別処理内において、クラスタリングのステップ又はサブプロセスを行うことにより、特にエンロール処理を交換し、メンバ及び/又はユーザ識別のための概念において、従来の手法では必要であった、明示的なエンロール処理を不要とすることができる。したがって、本発明により、マンマシンインタフェースユニットを動作させ及び/又は制御する間、すなわち、リアルタイム及び/又はオンラインで行われるメンバ及び/又はユーザ識別を改善することができる。
クラスタリング処理は、以下のように動作する。まず、全ての発話がクラスタとして定義される(初期化処理)。次に、ある種の距離メトリック又はクラスタの間の類似尺度(similarity measure)を用いて、最も類似する発話の対を判定する。最も類似する対の差異が所定の閾値より大きい場合、クラスタリング処理は停止される。この他の場合、2つのクラスタは、1つに併合される。そして、これらは、クラスタの組から削除され、新たなクラスタがクラスタの組に追加される。続いて、再び、最も類似するクラスタの対を判定し、同様の処理が繰り返される。この処理は、最も類似するクラスタの対が閾値以上に異なるものとなるまで繰り返される。そして、このようにして得られたクラスタを検査し、最も大きいクラスタがX個以上の発話を含んでいる場合、新たな話者モデルを作成することができる。
分割処理は、原理的に、1つの話者モデル内の全ての発話から開始して、同様の手法で実現できる。なお、この場合、クラスタリングは、2つのクラスタが残るまで、類似性の如何にかかわらず継続される。そして、これらの距離は、話者モデルを分割すべきか否かを判定するために用いることができる尺度となる。
如何なる種類の発話もメンバ及び/又はユーザ識別処理を行うための発話として用いることができるが、特に音声入力を発話として用いることが好ましい。
したがって、クラスタリングのステップ又はサブプロセスは、それぞれ異なる声を含む音声入力に対して実行することが好ましい。
更に、クラスタリングのステップ又はサブプロセスは、教師なき手法(unsupervised manner)によって実行することが好ましい。
更に、マンマシンインタフェース動作/制御方法は、好ましくは、複数の話し手(multi-talker)、複数の話者(multi-speaker)及び/又は複数のユーザを検出するステップを更に有する。
背景雑音又はこれに類する雑音等の現実的な状況を考慮するために、マンマシンインタフェース動作/制御方法は、好ましくは、雑音分類処理を行うステップを更に有する。
更に、マンマシンインタフェース動作/制御方法は、好ましくは、異なる及び/又は比較可能なユーザ及び/又はメンバの数を判定し及び/又は更新するステップを有する。
マンマシンインタフェース動作/制御方法は、この異なる及び/又は比較可能なユーザ及び/又はメンバに関して、声の音響特性を含む特性を判定及び/又は更新するステップを更に有していてもよい。
クラスタリング処理は、特に声の差異及び/又は類似性を含む特徴に基づいて、異なる音声クラス及び/又はユーザクラスに声を割り当てることによって実現される。
声を分類する処理においては、好ましくは、声の出現の頻度を考慮する。
出現の頻度が所定の閾値を下回る声は、ガーベージクラス(garbage class)に割り当てられる。
このガーベージクラスは、当該マンマシンインタフェース動作/制御方法の最初のフェーズにおける初期クラスとして用いられる。
割り当てられたクラスに対する声のメンバシップの信頼度を記述するために、信頼度尺度を生成してもよい。
この信頼度尺度をできるだけ安定させるために、話者識別パラメータが変更されるように、話者識別の処理、処理のアルゴリズム及び/又はパラメータは、繰り返し及び/又は反復的に改善される。
話者識別の処理を改善するために、遠方からの発話又は近傍からの発話、様々な背景雑音状況等、幾つかの異なる状況の音声入力を収集してもよい。
本発明の更なる特徴として、異なる音声クラス及び/又はユーザクラスに対し、異なるアクセス権及び/又は操作権を割り当ててもよい。これは、ホームネットワークシステム、家庭用娯楽システム、娯楽又はサービスロボット、又はこれに類するシステムにおいて重要となる。声又は声の主がガーベージクラスに割り当てられている場合、すなわちアクセス権及びそのシステムの操作権を全く有さないクラスに割り当てられている場合、その声によるコマンド又は命令は無視しなくてはならない。
本発明の他の実施形態では、非ガーベージ音声クラス及び/又はユーザクラスの少なくとも一部には、非ガーベージクラスとして、新たな音声クラス及び/又は新たなユーザクラスを導入する権利が割り当てられる。これは、後の取得、認識及び/又は割当、及び/又は明示的な口頭の命令又は口頭のコマンドのために行われる。
本発明の他の実施形態においては、音声入力に関連付けて又は音声入力のシーケンスと共に話者モデル及び/又は話者クラスタを保存する。
更に、受信した既知の話者の発話又は音声入力を追加し、既知の話者及び/又はその性能について、話者モデル及び/又は話者クラスタを改善してもよい。
本発明の更に好ましい実施形態においては、更なる少なくとも1つの発話及び/又は既知の話者の更なる少なくとも1つの音声入力の追加に応じて、関連する話者モデル及び/又は関連する話者クラスタがそれぞれ個別のサブモデル及び/又はサブクラスタに分割できるか否かを判定する。
モデル又はクラスタを分割する際、暫定的に生成されたサブモデル及び/又はサブクラスタに基づいて生成された音響特性及び話者又はユーザプロファイルの差異を用いて、暫定的に生成されたサブモデル及び/又はサブクラスタの差異を算出してもよい。
好ましくは、サブクラスタ及び/又はサブモデルの間の距離が所定の閾値を超えている場合、個別の話者を区別及び/又は記述するための個別のサブモデル及び/又は個別のサブクラスタを生成する分割処理を行う。
この距離としては、ユーザプロファイルの音響的距離及び差異の組合せを用いることが好ましい。
他の本発明の特徴として、本発明は、上述したマンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェースユニット動作/制御方法を実行及び/又は実現するホームネットワークシステム、家庭用娯楽システム、娯楽又はサービスロボット等を提供する。
また、本発明は、上述したマンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェースユニット動作/制御方法を実行及び/又は実現し、マンマシンインタフェースユニットを動作させ及び/又は制御するシステム、装置機器等を提供する。
更に、本発明は、コンピュータ、デジタル処理手段及び/又はこれに類する手段によって実行されて、上述したマンマシンインタフェース動作/制御方法及び/又はこれらのステップを実現及び/又は実行するよう設計され及び/又は適応化されたコンピュータプログラム手段を備えるコンピュータプログラム製品を提供する。
本発明のこれらの及び更なる特徴は、以下の説明によってより明瞭となる。
ここでは、話者識別のための自動クラスタリング法を開示する。この技術により、例えば、ロボット等の家庭用娯楽システムは、家族等のユーザグループのメンバを自動的に知ることができる。本発明では、各グループメンバ又は家族の一員は、専用の又は明示的なエンロールを行う必要がない。
本発明において用いられる手法及び技術には、
・話者識別
・教師なきクラスタリング
・例えばマイクロフォンアレイ又は独立成分解析に基づく複数の話し手又は話者の検出
・音声認識又は他のパターン分類モデルにおいて知られているものと同様の雑音分類が含まれる。
・話者識別
・教師なきクラスタリング
・例えばマイクロフォンアレイ又は独立成分解析に基づく複数の話し手又は話者の検出
・音声認識又は他のパターン分類モデルにおいて知られているものと同様の雑音分類が含まれる。
家庭用娯楽システムのための話者識別は、例えば、ヒューマノイドロボット製品において、好適に実現され、用いられる。
本発明は、音声認識、包括的分類及び教師なきクラスタリング法を提供する。
話者識別を用いる現在のシステムでは、話者が所定の文章又は任意で無作為な文章を朗読するエンロールフェーズが必要とされている。
本発明の可能な適用例としては、例えば、マンマシンインタフェース(MMI)モジュール、娯楽用ロボット、A/V機器又はホームサーバ家庭用娯楽システムのための機器、又はこれらの2つ以上の機器を接続するホームネットワーク等がある。このようなMMIは、例えば、音楽コンテンツの選択又はテレビ番組の選択をユーザに提案する能力を有することが望まれる。これには、ユーザプロファイル又はユーザモデルが必要である。音声入力の場合、MMIは、例えば、「私のお気に入りの音楽」等といった曖昧な発話をユーザプロファイルに基づいて、解釈する必要がある。このようなMMIは、多くの場合、例えば家族の一員等、複数の個人によって用いられる。したがって、自動話者識別は、MMIにおいては、適切なユーザプロファイルを選択するために用いられる。ロボットの場合、ロボットは、異なる個人に対して、異なる反応を示すことが求められる。単純なケースとしては、ロボットは、所有者ではない又は家族の一員ではない個人からの命令を無視し、或いは、未知の人々に対してより丁寧な対話を行うといった動作が求められる。この場合も、話者識別が必要である。
家庭環境における話者識別の使用は(例えば、現金自動預け払い機等とは異なり)、これを用いたシステムを用いる人が僅かな人数に限定されている特別な環境であるといえる。このシステム(MMI)は、家族の一員内で個人を識別する必要があり、また、家族の一員に含まれない個人も検出する必要がある。ここで、このようなシステム(例えば、特にロボット)のユーザは、システムがその話者の音響特性を学習するために、話者に所定の文章を朗読させるエンロールセッションを行うことを欲しない。
本発明では、システムの最初の使用から、異なる声の音声を自動的にクラスタリングすることを提案する。したがって、ここでは、自動的に家族の一員の数を特定し、その一員の声の音響特性を識別する必要がある。ここで、出現頻度が低い声は、自動的に「ガーベージ」クラスに含められる。このシステムは、ある声がクラスに含まれる確度を示す信頼度尺度を用いる。信頼度尺度は、十分な信頼度が得られるまで、自動的に繰り返し話者識別パラメータを改善する。この手続きにおいては、安定性を高めるために、異なる状況(例えば、マイクロフォンの遠方からの発話、近傍における発話、様々な背景雑音等)からの音声が集められる。
グループのメンバ又は家族の一員は、システムに新たな個人を紹介することもできる。このシステムは、この新たな個人の声の音響特性を自動的に取得し、後に認識できるようになる。また、家族の一員は、例えば、機器/ロボットを如何なる程度制御できるかについて、この「新たな」個人の権利を定義できる。
教師なきクラスタリングを成功させるために、このシステムは、2人以上の話者が話している状況を検出でき、及び異なる環境又は雑音条件を分類できる。
自動クラスタリングは、例えば、以下のアルゴリズムにしたがって実行できる。
1.初期クラスをガーベージクラスとする。
2.新たな音声信号から特徴セットを得る。
3.話者識別を適用する
4.信頼度尺度を適用する(単純なケースでは、これは、3において適用された統計的分類子のスコアである)。
5.(分類結果がガーベージクラスである場合)、クラスタリングを行う。すなわち、7に進む。
6.2に戻る。
7.ガーベージメモリに特徴セットを保存する。このメモリには、最新のn個の特徴セットのみを保存する。
8.クラスタアルゴリズム(例えば、ベクトル量子化、ニューラルガス等)を実行する。クラスタは、同様の特徴セットを含んでいる。標準的なクラスタリングとは異なり、クラスタの数は予め定められていないが、クラスタは、同様の特徴セットのみを含んでいる必要がある。
9.クラスタがm個以上の特徴セットを含んでいる場合、これらから話者モデルを算出し、この話者モデルを保存し、この先、3においてこの話者モデルを使用する。対応する特徴セットを削除する。
10.6に戻る。
1.初期クラスをガーベージクラスとする。
2.新たな音声信号から特徴セットを得る。
3.話者識別を適用する
4.信頼度尺度を適用する(単純なケースでは、これは、3において適用された統計的分類子のスコアである)。
5.(分類結果がガーベージクラスである場合)、クラスタリングを行う。すなわち、7に進む。
6.2に戻る。
7.ガーベージメモリに特徴セットを保存する。このメモリには、最新のn個の特徴セットのみを保存する。
8.クラスタアルゴリズム(例えば、ベクトル量子化、ニューラルガス等)を実行する。クラスタは、同様の特徴セットを含んでいる。標準的なクラスタリングとは異なり、クラスタの数は予め定められていないが、クラスタは、同様の特徴セットのみを含んでいる必要がある。
9.クラスタがm個以上の特徴セットを含んでいる場合、これらから話者モデルを算出し、この話者モデルを保存し、この先、3においてこの話者モデルを使用する。対応する特徴セットを削除する。
10.6に戻る。
話者識別を用いる現在のシステムでは、話者が所定の文章又は任意で無作為な文章を朗読するエンロールフェーズが必要とされている。本発明により、このエンロールフェーズを不要とすることができる。これにより、ユーザの手間が省かれ、娯楽価値も高まる。
図1は、本発明に基づく、分析すべき発話Uとして受信した単一の音声信号又は音声入力SIに関して、マンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェースユニット動作/制御方法を説明する図である。
図1の実施形態におけるステップS1において、音声信号SIは、発話Uとして受信される。この受信した発話Uから、ステップS2において、それぞれの特徴が抽出される。
この抽出された特徴に基づいて、ステップS3において、話者識別処理が実行され、続いて、ステップS4において、ステップS3の話者識別の信頼性を測定する信頼度尺度が決定される。
ステップS5において、ステップS3の話者識別の結果及びステップS4の信頼度尺度から、例えば、話者識別番号、信頼度スコア、ユーザプロファイル等を参照して、話者識別結果が出力される。
ステップS1〜S5によって、異なる話者に対してエンロールフェーズを必要とすることなく、話者を識別するために、本発明の基本的な特徴として、ステップS6〜S9によって構成される、所謂クラスタリングループC(clustering loop C)を実行する。クラスタリングループCでは、ステップS9において、特徴抽出S2から得られた情報及び受信された音声信号に関する信頼度尺度S4を話者モデルに分類する。したがって、各ケースにおける抽出された特徴セットがガーベージクラスのメンバシップを示し、同時に、ガーベージクラスに属する信頼度尺度が高い場合、信頼度尺度を算出するステップS4から、先の特徴抽出のステップS2において得られた最新のn個のガーベージ特徴セット(garbage feature set)を保存するステップS6に分岐する必要がある。
ステップS7において、クラスタリングが実行され、ここで、話者及びモジュール又はモデルのためのクラスは、新たな話者特性又は変更された話者特性を加えることによって変更される。これは、ステップS7においてクラスタリングされたクラスタのいずれかが、所定の閾値数Xより多い発話の数を有していると、ステップS8において判定された場合に、ステップS9において実行される。
ステップS5の更なる処理において、信頼度スコア又は信頼度尺度が必要でない場合、ループCにステップS4を含めることができる。これにより、話者が既知である場合、処理時間を短縮することができる。
図1の実施形態において、ステップS9の話者モデルは、ステップS7において最初に生成された後には、変更されていない。この処理は、教師なき処理(unsupervised)であるため、如何なる話者モデルも、誤って2人以上の話者の音声を含んでしまう可能性がある。このような誤りが発生した場合、この実施形態では、それを正すことができない。全ての話者について、ユーザプロファイルを生成するユーザプロファイルアプリケーションの場合、このユーザプロファイル情報は、以下のように使用することができる。
まず、ステップS9において話者モデルを保存する際、最終的な話者モデルだけではなく、その話者モデルに関連する音声も保存する。既知の話者の新たな発話が追加される毎に、この発話を用いて、この話者について保存されている話者モデルの性能を向上させる。
既知の話者の新たな発話を加える場合、この話者に属するクラスタを2つの別個のサブクラスタに分割するよう試みる。この分割ステップにおいては、音響特性を用いて、2つの暫定的なサブクラスタ間の差異を検出するのみではなく、これらの暫定的なサブクラスタに基づいて、ユーザプロファイルの差異を算出する。
音響的距離及びユーザプロファイルの差異の組合せとしての距離が所定の閾値を超えている場合、分割が妥当であると判定される。この場合、2つの別個の話者モデルが生成され、2つの異なるユーザプロファイルのそれぞれが各話者モデルに関連付けられる。
これにより、次のような2つの利点が得られる。
第1に、音響的には類似しているが、ユーザプロファイルが大きく異なる話者を分けることができる。例えば、家族内では、父親と息子の声が非常によく似ていることがあるが、父親と息子のユーザプロファイルは、通常、大きく異なっているため、このような利点は重要である。
第2に、所定のユーザが気分に応じて行動する場合、例えば、所定のユーザが、疲れている時にはクラシック音楽を好み、機嫌がいい時にはポップ音楽を選択するような場合、このユーザがシステムを頻繁に用いると、そのユーザに対して2つの話者モデルが生成される。
声は、気分によって変化すると考えられるため、話者モデルをユーザの気分に応じて適切に選択することにより、気分に依存したユーザプロファイルが自動的に選択される。
Claims (26)
- 有限のメンバグループ及び/又は有限のユーザグループ環境でマンマシンインタフェースユニットを動作させ及び/又は制御するためのマンマシンインタフェース動作/制御方法において、
上記メンバグループ及び/又はユーザグループのメンバ及び/又はユーザの発話(U)を繰り返して受信するステップと、
上記受信した発話(U)に基づいて、メンバ及び/又はユーザ識別処理を行うステップとを有し、
上記メンバ及び/又はユーザ識別処理のステップは、エンロールを不要とするクラスタリングのステップ又はサブプロセスからなることを特徴とするマンマシンインタフェース動作/制御方法。 - 上記発話(U)として、音声入力(SI)が用いられることを特徴とする請求項1記載のマンマシンインタフェース動作/制御方法。
- 上記クラスタリングのステップ又はサブプロセスは、それぞれ異なる声を含む音声入力に対して(SI)実行されることを特徴とする請求項2記載のマンマシンインタフェース動作/制御方法。
- 上記クラスタリングのステップ又はサブプロセスは、教師なき手法によって実行されることを特徴とする請求項1乃至3いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 複数の話し手、複数の話者及び/又は複数のユーザを検出するステップを更に有する請求項1乃至4いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 雑音分類処理を行うステップを更に有する請求項1乃至5いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 異なる及び/又は比較可能なユーザ及び/又はメンバの数を判定し及び/又は更新するステップを更に有する請求項1乃至6いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 上記異なる及び/又は比較可能なユーザ及び/又はメンバに関して、声の音響特性を含む特性を判定及び/又は更新するステップを更に有する請求項1乃至7いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 上記声の差異及び/又は類似性を含む特徴に基づいて、異なる音声クラス及び/又はユーザクラスに声を割り当てるステップを更に有する請求項1乃至8いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 上記声を分類する処理において、該声の出現の頻度を考慮することを特徴とする請求項9記載のマンマシンインタフェース動作/制御方法。
- 上記出現の頻度が所定の閾値を下回る声をガーベージクラスに割り当てるステップを更に有する請求項10記載のマンマシンインタフェース動作/制御方法。
- 上記ガーベージクラスは、当該マンマシンインタフェース動作/制御方法の最初のフェーズにおける初期クラスとして用いられることを特徴とする請求項11記載のマンマシンインタフェース動作/制御方法。
- 割り当てられたクラスに対する声のメンバシップの信頼度を示す信頼度尺度を生成するステップを更に有する請求項9乃至請求項12いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 上記信頼度尺度が安定するまで、話者識別パラメータが変更されるように、話者識別の処理、該処理のアルゴリズム及び/又はパラメータを繰り返し及び/又は反復的に改善するステップを更に有する請求項13記載のマンマシンインタフェース動作/制御方法。
- 上記話者識別の処理を改善するために、遠方からの発話又は近傍からの発話、様々な背景雑音状況を含む幾つかの異なる状況の音声入力を収集するステップを更に有する請求項14記載のマンマシンインタフェース動作/制御方法。
- 上記異なる音声クラス及び/又はユーザクラスに対し、異なるアクセス権及び/又は操作権を割り当てるステップを更に有する請求項9乃至請求項15いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 非ガーベージ音声クラス及び/又はユーザクラスの少なくとも一部には、後の取得、認識及び/又は割当、及び/又は明示的な口頭の命令のための非ガーベージクラスとして、新たな音声クラス及び/又は新たなユーザクラスを導入する権利が割り当てられることを特徴とする請求項9乃至請求項16いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 音声入力に関連付けて又は音声入力のシーケンスと共に話者モデル及び/又は話者クラスタを保存するステップを更に有する請求項1乃至17いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 受信した既知の話者の発話又は音声入力を追加し、該既知の話者及び/又はその性能について、話者モデル及び/又は話者クラスタを改善するステップを更に有する請求項1乃至18いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 更なる少なくとも1つの発話及び/又は既知の話者の更なる少なくとも1つの音声入力の追加に応じて、関連する話者モデル及び/又は関連する話者クラスタがそれぞれ個別のサブモデル及び/又はサブクラスタに分割できるか否かを判定するステップを更に有する請求項1乃至19いずれか1項記載のマンマシンインタフェース動作/制御方法。
- 暫定的に生成されたサブモデル及び/又はサブクラスタに基づいて生成された音響特性及び話者又はユーザプロファイルの差異を用いて、該暫定的に生成されたサブモデル及び/又はサブクラスタの差異を算出するステップを更に有する請求項20記載のマンマシンインタフェース動作/制御方法。
- 上記サブクラスタ及び/又はサブモデルの間の距離が所定の閾値を超えている場合、個別の話者を区別及び/又は記述するための個別のサブモデル及び/又は個別のサブクラスタを生成する分割処理を行うステップを更に有する請求項20又は21記載のマンマシンインタフェース動作/制御方法。
- 上記距離として、ユーザプロファイルの音響的距離及び差異の組合せを用いることを特徴とする請求項20記載のマンマシンインタフェース動作/制御方法。
- 請求項1乃至請求項23いずれか1項記載のマンマシンインタフェース動作/制御方法を用いて娯楽ロボット、ホームネットワークを動作させ及び/又は制御する動作/制御方法。
- 請求項1乃至請求項23いずれか1項記載のマンマシンインタフェース動作/制御方法を実行及び/又は実現し、マンマシンインタフェースを動作させ及び/又は制御するマンマシンインタフェース動作/制御システム。
- コンピュータ、デジタル処理手段及び/又はこれに類する手段によって実行されて、請求項1乃至23いずれか1項記載のマンマシンインタフェース動作/制御方法及び/又はこれらのステップを実現及び/又は実行するよう設計され及び/又は適応化されたコンピュータプログラム手段を備えるコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02016672A EP1387350A1 (en) | 2002-07-25 | 2002-07-25 | Spoken man-machine interface with speaker identification |
PCT/EP2003/008068 WO2004012184A1 (en) | 2002-07-25 | 2003-07-23 | Spoken man-machine interface with speaker identification |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005534065A true JP2005534065A (ja) | 2005-11-10 |
Family
ID=30011083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004523770A Withdrawn JP2005534065A (ja) | 2002-07-25 | 2003-07-23 | マンマシンインタフェースユニットの動作及び/又は制御方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1387350A1 (ja) |
JP (1) | JP2005534065A (ja) |
WO (1) | WO2004012184A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019535035A (ja) * | 2016-10-03 | 2019-12-05 | グーグル エルエルシー | 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション |
US10832685B2 (en) | 2015-09-15 | 2020-11-10 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
JP2021522636A (ja) * | 2018-05-04 | 2021-08-30 | グーグル エルエルシーGoogle LLC | ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3312832A1 (en) * | 2016-10-19 | 2018-04-25 | Mastercard International Incorporated | Voice catergorisation |
US11094316B2 (en) * | 2018-05-04 | 2021-08-17 | Qualcomm Incorporated | Audio analytics for natural language processing |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1022725B1 (en) * | 1999-01-20 | 2005-04-06 | Sony International (Europe) GmbH | Selection of acoustic models using speaker verification |
DE10050808C2 (de) * | 2000-10-13 | 2002-12-19 | Voicecom Ag | Sprachgeführte Gerätesteuerung mit Benutzeroptimierung |
-
2002
- 2002-07-25 EP EP02016672A patent/EP1387350A1/en not_active Withdrawn
-
2003
- 2003-07-23 WO PCT/EP2003/008068 patent/WO2004012184A1/en active Application Filing
- 2003-07-23 JP JP2004523770A patent/JP2005534065A/ja not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832685B2 (en) | 2015-09-15 | 2020-11-10 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
JP2019535035A (ja) * | 2016-10-03 | 2019-12-05 | グーグル エルエルシー | 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション |
US11527249B2 (en) | 2016-10-03 | 2022-12-13 | Google Llc | Multi-user personalization at a voice interface device |
JP2021522636A (ja) * | 2018-05-04 | 2021-08-30 | グーグル エルエルシーGoogle LLC | ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること |
JP7081045B2 (ja) | 2018-05-04 | 2022-06-06 | グーグル エルエルシー | ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること |
US11789522B2 (en) | 2018-05-04 | 2023-10-17 | Google Llc | Generating and/or adapting automated assistant content according to a distance between user(s) and an automated assistant interface |
Also Published As
Publication number | Publication date |
---|---|
WO2004012184A1 (en) | 2004-02-05 |
EP1387350A1 (en) | 2004-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
JP4369132B2 (ja) | 話者音声のバックグランド学習 | |
JP4728972B2 (ja) | インデキシング装置、方法及びプログラム | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
US11430449B2 (en) | Voice-controlled management of user profiles | |
US7373301B2 (en) | Method for detecting emotions from speech using speaker identification | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
US11727939B2 (en) | Voice-controlled management of user profiles | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
JPH10319988A (ja) | 話者識別方法および話者認識装置 | |
JPH02238495A (ja) | 時系列信号認識装置 | |
JP7212718B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
Imoto et al. | Acoustic scene analysis based on hierarchical generative model of acoustic event sequence | |
CN109273002B (zh) | 车辆配置方法、系统、车机以及车辆 | |
JP6797338B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN110544468A (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN111667839A (zh) | 注册方法和设备、说话者识别方法和设备 | |
JP5626221B2 (ja) | 音響画像区間分類装置および方法 | |
GB2576960A (en) | Speaker recognition | |
JP2005534065A (ja) | マンマシンインタフェースユニットの動作及び/又は制御方法 | |
CN111477226B (zh) | 控制方法、智能设备和存储介质 | |
CN112420056A (zh) | 基于变分自编码器的说话人身份鉴别方法、系统及无人机 | |
CN115447588A (zh) | 车辆的控制方法、装置、车辆及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061003 |