JP2005534065A

JP2005534065A - マンマシンインタフェースユニットの動作及び／又は制御方法

Info

Publication number: JP2005534065A
Application number: JP2004523770A
Authority: JP
Inventors: コンペ、ラルフ; ケンプ、トーマス
Original assignee: ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツング
Priority date: 2002-07-25
Filing date: 2003-07-23
Publication date: 2005-11-10
Also published as: WO2004012184A1; EP1387350A1

Abstract

有限のユーザグループ環境において、マンマシンインタフェースユニット（ＭＭＩ）を動作させ及び／又は制御する方法を提供する。ユーザグループからの発話を繰り返して受信する。この受信した発話に基づいて、ユーザ識別を行う。メンバ及び／又はユーザ識別処理は、エンロールを不要とするクラスタリングのステップ又はサブプロセスを有する。

Description

本発明は、特に、有限のメンバグループ及び／又は有限のユーザグループ環境において、マンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェースユニット動作／制御方法に関する。詳しくは、本発明は、例えば娯楽用ロボット、ホームネットワーク又は娯楽システムにその環境（place）を学習させるマンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェースユニット動作／制御方法に関する。

様々な電子装置及び電子機器において、これらの装置を簡単且つ信頼度が高く使用できることを確実にするために、又は例えば入口においてユーザの身元を確認する目的で、マンマシンインタフェースユニット及びマンマシン対話システム又はこれらに類似したものが採用されている。そのために、多くの場合、音声入力のみに基づいた個人の識別が必要とされている。

現在の及び周知の話者識別方法及びシステムは、トレーニングの必要があり、及びシステムに関係する話者又はユーザを登録し（register）、又はきちんとエンロール（enrol）させる必要がある。識別率を向上させ、識別結果の信頼性を高めるためには、各話者は、登録し、ある程度の量の文章（text）を声に出して読むことによって、エンロールを行う必要がある。この文章は、予め決められた所定の文章であってもよく、任意の無作為な文章であってもよい。

識別処理の性能を高めるためには、エンロールする各話者の発話の量は、できるだけ多い方がよい。一方、ユーザの手間を軽減するためには、エンロールフェーズにおいて録音する発話は、できるだけ少ない方がよい。

特に、限られた数の異なるユーザ及び／又はメンバのみがアクセス権を有し及び装置又は機器を操作する権利を有する場合のような、メンバグループ及び／又はユーザグループが有限である特別な環境においては、識別処理の主な目的は、所定の音声入力に対して、ユーザが既知であるか未知であるかを分類することである。更に、このような場合、例えば、ホームネットワークシステムにおいて、又は娯楽又はサービスロボットに関する家庭用娯楽システムにおいては、個々のユーザグループのメンバにとって、明示的な手法で登録又はエンロールを行うことは不便である。

本発明の目的は、エンロールフェーズにおけるユーザ又はメンバの負担を軽減するとともに、良好な性能を実現させる、マンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェース動作／制御方法を提供することである。

この目的は、請求項１のマンマシンインタフェース動作／制御方法によって達成される。本発明に基づくマンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェース動作／制御方法の好ましく有利な実施形態は、従属請求項において定義されている。また、この目的は、請求項１８に基づくホームネットワークシステム、家庭用娯楽システム、娯楽用ロボット、請求項１９に基づくマンマシンインタフェースユニットの動作／制御方法、及び請求項２０に基づくコンピュータプログラム製品によっても達成される。

本発明に係るマンマシンインタフェース動作／制御は、特に有限のメンバグループ及び／又は有限のユーザグループ環境でマンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェース動作／制御方法において、メンバグループ及び／又はユーザグループのメンバ及び／又はユーザの発話を繰り返して受信する。そして、受信した発話に基づいて、メンバ及び／又はユーザ識別処理を行う。メンバ及び／又はユーザ識別処理は、エンロールを不要とするクラスタリングのステップ又はサブプロセスからなる。

このように、本発明の基本的な特徴により、メンバ及び／又はユーザ識別処理内において、クラスタリングのステップ又はサブプロセスを行うことにより、特にエンロール処理を交換し、メンバ及び／又はユーザ識別のための概念において、従来の手法では必要であった、明示的なエンロール処理を不要とすることができる。したがって、本発明により、マンマシンインタフェースユニットを動作させ及び／又は制御する間、すなわち、リアルタイム及び／又はオンラインで行われるメンバ及び／又はユーザ識別を改善することができる。

クラスタリング処理は、以下のように動作する。まず、全ての発話がクラスタとして定義される（初期化処理）。次に、ある種の距離メトリック又はクラスタの間の類似尺度（similarity measure）を用いて、最も類似する発話の対を判定する。最も類似する対の差異が所定の閾値より大きい場合、クラスタリング処理は停止される。この他の場合、２つのクラスタは、１つに併合される。そして、これらは、クラスタの組から削除され、新たなクラスタがクラスタの組に追加される。続いて、再び、最も類似するクラスタの対を判定し、同様の処理が繰り返される。この処理は、最も類似するクラスタの対が閾値以上に異なるものとなるまで繰り返される。そして、このようにして得られたクラスタを検査し、最も大きいクラスタがＸ個以上の発話を含んでいる場合、新たな話者モデルを作成することができる。

分割処理は、原理的に、１つの話者モデル内の全ての発話から開始して、同様の手法で実現できる。なお、この場合、クラスタリングは、２つのクラスタが残るまで、類似性の如何にかかわらず継続される。そして、これらの距離は、話者モデルを分割すべきか否かを判定するために用いることができる尺度となる。

如何なる種類の発話もメンバ及び／又はユーザ識別処理を行うための発話として用いることができるが、特に音声入力を発話として用いることが好ましい。

したがって、クラスタリングのステップ又はサブプロセスは、それぞれ異なる声を含む音声入力に対して実行することが好ましい。

更に、クラスタリングのステップ又はサブプロセスは、教師なき手法（unsupervised manner）によって実行することが好ましい。

更に、マンマシンインタフェース動作／制御方法は、好ましくは、複数の話し手（multi-talker）、複数の話者（multi-speaker）及び／又は複数のユーザを検出するステップを更に有する。

背景雑音又はこれに類する雑音等の現実的な状況を考慮するために、マンマシンインタフェース動作／制御方法は、好ましくは、雑音分類処理を行うステップを更に有する。

更に、マンマシンインタフェース動作／制御方法は、好ましくは、異なる及び／又は比較可能なユーザ及び／又はメンバの数を判定し及び／又は更新するステップを有する。

マンマシンインタフェース動作／制御方法は、この異なる及び／又は比較可能なユーザ及び／又はメンバに関して、声の音響特性を含む特性を判定及び／又は更新するステップを更に有していてもよい。

クラスタリング処理は、特に声の差異及び／又は類似性を含む特徴に基づいて、異なる音声クラス及び／又はユーザクラスに声を割り当てることによって実現される。

声を分類する処理においては、好ましくは、声の出現の頻度を考慮する。

出現の頻度が所定の閾値を下回る声は、ガーベージクラス（garbage class）に割り当てられる。

このガーベージクラスは、当該マンマシンインタフェース動作／制御方法の最初のフェーズにおける初期クラスとして用いられる。

割り当てられたクラスに対する声のメンバシップの信頼度を記述するために、信頼度尺度を生成してもよい。

この信頼度尺度をできるだけ安定させるために、話者識別パラメータが変更されるように、話者識別の処理、処理のアルゴリズム及び／又はパラメータは、繰り返し及び／又は反復的に改善される。

話者識別の処理を改善するために、遠方からの発話又は近傍からの発話、様々な背景雑音状況等、幾つかの異なる状況の音声入力を収集してもよい。

本発明の更なる特徴として、異なる音声クラス及び／又はユーザクラスに対し、異なるアクセス権及び／又は操作権を割り当ててもよい。これは、ホームネットワークシステム、家庭用娯楽システム、娯楽又はサービスロボット、又はこれに類するシステムにおいて重要となる。声又は声の主がガーベージクラスに割り当てられている場合、すなわちアクセス権及びそのシステムの操作権を全く有さないクラスに割り当てられている場合、その声によるコマンド又は命令は無視しなくてはならない。

本発明の他の実施形態では、非ガーベージ音声クラス及び／又はユーザクラスの少なくとも一部には、非ガーベージクラスとして、新たな音声クラス及び／又は新たなユーザクラスを導入する権利が割り当てられる。これは、後の取得、認識及び／又は割当、及び／又は明示的な口頭の命令又は口頭のコマンドのために行われる。

本発明の他の実施形態においては、音声入力に関連付けて又は音声入力のシーケンスと共に話者モデル及び／又は話者クラスタを保存する。

更に、受信した既知の話者の発話又は音声入力を追加し、既知の話者及び／又はその性能について、話者モデル及び／又は話者クラスタを改善してもよい。

本発明の更に好ましい実施形態においては、更なる少なくとも１つの発話及び／又は既知の話者の更なる少なくとも１つの音声入力の追加に応じて、関連する話者モデル及び／又は関連する話者クラスタがそれぞれ個別のサブモデル及び／又はサブクラスタに分割できるか否かを判定する。

モデル又はクラスタを分割する際、暫定的に生成されたサブモデル及び／又はサブクラスタに基づいて生成された音響特性及び話者又はユーザプロファイルの差異を用いて、暫定的に生成されたサブモデル及び／又はサブクラスタの差異を算出してもよい。

好ましくは、サブクラスタ及び／又はサブモデルの間の距離が所定の閾値を超えている場合、個別の話者を区別及び／又は記述するための個別のサブモデル及び／又は個別のサブクラスタを生成する分割処理を行う。

この距離としては、ユーザプロファイルの音響的距離及び差異の組合せを用いることが好ましい。

他の本発明の特徴として、本発明は、上述したマンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェースユニット動作／制御方法を実行及び／又は実現するホームネットワークシステム、家庭用娯楽システム、娯楽又はサービスロボット等を提供する。

また、本発明は、上述したマンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェースユニット動作／制御方法を実行及び／又は実現し、マンマシンインタフェースユニットを動作させ及び／又は制御するシステム、装置機器等を提供する。

更に、本発明は、コンピュータ、デジタル処理手段及び／又はこれに類する手段によって実行されて、上述したマンマシンインタフェース動作／制御方法及び／又はこれらのステップを実現及び／又は実行するよう設計され及び／又は適応化されたコンピュータプログラム手段を備えるコンピュータプログラム製品を提供する。

本発明のこれらの及び更なる特徴は、以下の説明によってより明瞭となる。

ここでは、話者識別のための自動クラスタリング法を開示する。この技術により、例えば、ロボット等の家庭用娯楽システムは、家族等のユーザグループのメンバを自動的に知ることができる。本発明では、各グループメンバ又は家族の一員は、専用の又は明示的なエンロールを行う必要がない。

本発明において用いられる手法及び技術には、
・話者識別
・教師なきクラスタリング
・例えばマイクロフォンアレイ又は独立成分解析に基づく複数の話し手又は話者の検出
・音声認識又は他のパターン分類モデルにおいて知られているものと同様の雑音分類が含まれる。

家庭用娯楽システムのための話者識別は、例えば、ヒューマノイドロボット製品において、好適に実現され、用いられる。

本発明は、音声認識、包括的分類及び教師なきクラスタリング法を提供する。

話者識別を用いる現在のシステムでは、話者が所定の文章又は任意で無作為な文章を朗読するエンロールフェーズが必要とされている。

本発明の可能な適用例としては、例えば、マンマシンインタフェース（ＭＭＩ）モジュール、娯楽用ロボット、Ａ／Ｖ機器又はホームサーバ家庭用娯楽システムのための機器、又はこれらの２つ以上の機器を接続するホームネットワーク等がある。このようなＭＭＩは、例えば、音楽コンテンツの選択又はテレビ番組の選択をユーザに提案する能力を有することが望まれる。これには、ユーザプロファイル又はユーザモデルが必要である。音声入力の場合、ＭＭＩは、例えば、「私のお気に入りの音楽」等といった曖昧な発話をユーザプロファイルに基づいて、解釈する必要がある。このようなＭＭＩは、多くの場合、例えば家族の一員等、複数の個人によって用いられる。したがって、自動話者識別は、ＭＭＩにおいては、適切なユーザプロファイルを選択するために用いられる。ロボットの場合、ロボットは、異なる個人に対して、異なる反応を示すことが求められる。単純なケースとしては、ロボットは、所有者ではない又は家族の一員ではない個人からの命令を無視し、或いは、未知の人々に対してより丁寧な対話を行うといった動作が求められる。この場合も、話者識別が必要である。

家庭環境における話者識別の使用は（例えば、現金自動預け払い機等とは異なり）、これを用いたシステムを用いる人が僅かな人数に限定されている特別な環境であるといえる。このシステム（ＭＭＩ）は、家族の一員内で個人を識別する必要があり、また、家族の一員に含まれない個人も検出する必要がある。ここで、このようなシステム（例えば、特にロボット）のユーザは、システムがその話者の音響特性を学習するために、話者に所定の文章を朗読させるエンロールセッションを行うことを欲しない。

本発明では、システムの最初の使用から、異なる声の音声を自動的にクラスタリングすることを提案する。したがって、ここでは、自動的に家族の一員の数を特定し、その一員の声の音響特性を識別する必要がある。ここで、出現頻度が低い声は、自動的に「ガーベージ」クラスに含められる。このシステムは、ある声がクラスに含まれる確度を示す信頼度尺度を用いる。信頼度尺度は、十分な信頼度が得られるまで、自動的に繰り返し話者識別パラメータを改善する。この手続きにおいては、安定性を高めるために、異なる状況（例えば、マイクロフォンの遠方からの発話、近傍における発話、様々な背景雑音等）からの音声が集められる。

グループのメンバ又は家族の一員は、システムに新たな個人を紹介することもできる。このシステムは、この新たな個人の声の音響特性を自動的に取得し、後に認識できるようになる。また、家族の一員は、例えば、機器／ロボットを如何なる程度制御できるかについて、この「新たな」個人の権利を定義できる。

教師なきクラスタリングを成功させるために、このシステムは、２人以上の話者が話している状況を検出でき、及び異なる環境又は雑音条件を分類できる。

自動クラスタリングは、例えば、以下のアルゴリズムにしたがって実行できる。
１．初期クラスをガーベージクラスとする。
２．新たな音声信号から特徴セットを得る。
３．話者識別を適用する
４．信頼度尺度を適用する（単純なケースでは、これは、３において適用された統計的分類子のスコアである）。
５．（分類結果がガーベージクラスである場合）、クラスタリングを行う。すなわち、７に進む。
６．２に戻る。
７．ガーベージメモリに特徴セットを保存する。このメモリには、最新のｎ個の特徴セットのみを保存する。
８．クラスタアルゴリズム（例えば、ベクトル量子化、ニューラルガス等）を実行する。クラスタは、同様の特徴セットを含んでいる。標準的なクラスタリングとは異なり、クラスタの数は予め定められていないが、クラスタは、同様の特徴セットのみを含んでいる必要がある。
９．クラスタがｍ個以上の特徴セットを含んでいる場合、これらから話者モデルを算出し、この話者モデルを保存し、この先、３においてこの話者モデルを使用する。対応する特徴セットを削除する。
１０．６に戻る。

話者識別を用いる現在のシステムでは、話者が所定の文章又は任意で無作為な文章を朗読するエンロールフェーズが必要とされている。本発明により、このエンロールフェーズを不要とすることができる。これにより、ユーザの手間が省かれ、娯楽価値も高まる。

図１は、本発明に基づく、分析すべき発話Ｕとして受信した単一の音声信号又は音声入力ＳＩに関して、マンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェースユニット動作／制御方法を説明する図である。

図１の実施形態におけるステップＳ１において、音声信号ＳＩは、発話Ｕとして受信される。この受信した発話Ｕから、ステップＳ２において、それぞれの特徴が抽出される。

この抽出された特徴に基づいて、ステップＳ３において、話者識別処理が実行され、続いて、ステップＳ４において、ステップＳ３の話者識別の信頼性を測定する信頼度尺度が決定される。

ステップＳ５において、ステップＳ３の話者識別の結果及びステップＳ４の信頼度尺度から、例えば、話者識別番号、信頼度スコア、ユーザプロファイル等を参照して、話者識別結果が出力される。

ステップＳ１〜Ｓ５によって、異なる話者に対してエンロールフェーズを必要とすることなく、話者を識別するために、本発明の基本的な特徴として、ステップＳ６〜Ｓ９によって構成される、所謂クラスタリングループＣ（clustering loop C）を実行する。クラスタリングループＣでは、ステップＳ９において、特徴抽出Ｓ２から得られた情報及び受信された音声信号に関する信頼度尺度Ｓ４を話者モデルに分類する。したがって、各ケースにおける抽出された特徴セットがガーベージクラスのメンバシップを示し、同時に、ガーベージクラスに属する信頼度尺度が高い場合、信頼度尺度を算出するステップＳ４から、先の特徴抽出のステップＳ２において得られた最新のｎ個のガーベージ特徴セット（garbage feature set）を保存するステップＳ６に分岐する必要がある。

ステップＳ７において、クラスタリングが実行され、ここで、話者及びモジュール又はモデルのためのクラスは、新たな話者特性又は変更された話者特性を加えることによって変更される。これは、ステップＳ７においてクラスタリングされたクラスタのいずれかが、所定の閾値数Ｘより多い発話の数を有していると、ステップＳ８において判定された場合に、ステップＳ９において実行される。

ステップＳ５の更なる処理において、信頼度スコア又は信頼度尺度が必要でない場合、ループＣにステップＳ４を含めることができる。これにより、話者が既知である場合、処理時間を短縮することができる。

図１の実施形態において、ステップＳ９の話者モデルは、ステップＳ７において最初に生成された後には、変更されていない。この処理は、教師なき処理（unsupervised）であるため、如何なる話者モデルも、誤って２人以上の話者の音声を含んでしまう可能性がある。このような誤りが発生した場合、この実施形態では、それを正すことができない。全ての話者について、ユーザプロファイルを生成するユーザプロファイルアプリケーションの場合、このユーザプロファイル情報は、以下のように使用することができる。

まず、ステップＳ９において話者モデルを保存する際、最終的な話者モデルだけではなく、その話者モデルに関連する音声も保存する。既知の話者の新たな発話が追加される毎に、この発話を用いて、この話者について保存されている話者モデルの性能を向上させる。

既知の話者の新たな発話を加える場合、この話者に属するクラスタを２つの別個のサブクラスタに分割するよう試みる。この分割ステップにおいては、音響特性を用いて、２つの暫定的なサブクラスタ間の差異を検出するのみではなく、これらの暫定的なサブクラスタに基づいて、ユーザプロファイルの差異を算出する。

音響的距離及びユーザプロファイルの差異の組合せとしての距離が所定の閾値を超えている場合、分割が妥当であると判定される。この場合、２つの別個の話者モデルが生成され、２つの異なるユーザプロファイルのそれぞれが各話者モデルに関連付けられる。

これにより、次のような２つの利点が得られる。

第１に、音響的には類似しているが、ユーザプロファイルが大きく異なる話者を分けることができる。例えば、家族内では、父親と息子の声が非常によく似ていることがあるが、父親と息子のユーザプロファイルは、通常、大きく異なっているため、このような利点は重要である。

第２に、所定のユーザが気分に応じて行動する場合、例えば、所定のユーザが、疲れている時にはクラシック音楽を好み、機嫌がいい時にはポップ音楽を選択するような場合、このユーザがシステムを頻繁に用いると、そのユーザに対して２つの話者モデルが生成される。

声は、気分によって変化すると考えられるため、話者モデルをユーザの気分に応じて適切に選択することにより、気分に依存したユーザプロファイルが自動的に選択される。

本発明に基づくマンマシンインタフェースユニットの動作／制御方法の好ましい実施形態を説明する図である。

Claims

有限のメンバグループ及び／又は有限のユーザグループ環境でマンマシンインタフェースユニットを動作させ及び／又は制御するためのマンマシンインタフェース動作／制御方法において、
上記メンバグループ及び／又はユーザグループのメンバ及び／又はユーザの発話（Ｕ）を繰り返して受信するステップと、
上記受信した発話（Ｕ）に基づいて、メンバ及び／又はユーザ識別処理を行うステップとを有し、
上記メンバ及び／又はユーザ識別処理のステップは、エンロールを不要とするクラスタリングのステップ又はサブプロセスからなることを特徴とするマンマシンインタフェース動作／制御方法。
上記発話（Ｕ）として、音声入力（ＳＩ）が用いられることを特徴とする請求項１記載のマンマシンインタフェース動作／制御方法。
上記クラスタリングのステップ又はサブプロセスは、それぞれ異なる声を含む音声入力に対して（ＳＩ）実行されることを特徴とする請求項２記載のマンマシンインタフェース動作／制御方法。
上記クラスタリングのステップ又はサブプロセスは、教師なき手法によって実行されることを特徴とする請求項１乃至３いずれか１項記載のマンマシンインタフェース動作／制御方法。
複数の話し手、複数の話者及び／又は複数のユーザを検出するステップを更に有する請求項１乃至４いずれか１項記載のマンマシンインタフェース動作／制御方法。
雑音分類処理を行うステップを更に有する請求項１乃至５いずれか１項記載のマンマシンインタフェース動作／制御方法。
異なる及び／又は比較可能なユーザ及び／又はメンバの数を判定し及び／又は更新するステップを更に有する請求項１乃至６いずれか１項記載のマンマシンインタフェース動作／制御方法。
上記異なる及び／又は比較可能なユーザ及び／又はメンバに関して、声の音響特性を含む特性を判定及び／又は更新するステップを更に有する請求項１乃至７いずれか１項記載のマンマシンインタフェース動作／制御方法。
上記声の差異及び／又は類似性を含む特徴に基づいて、異なる音声クラス及び／又はユーザクラスに声を割り当てるステップを更に有する請求項１乃至８いずれか１項記載のマンマシンインタフェース動作／制御方法。
上記声を分類する処理において、該声の出現の頻度を考慮することを特徴とする請求項９記載のマンマシンインタフェース動作／制御方法。
上記出現の頻度が所定の閾値を下回る声をガーベージクラスに割り当てるステップを更に有する請求項１０記載のマンマシンインタフェース動作／制御方法。
上記ガーベージクラスは、当該マンマシンインタフェース動作／制御方法の最初のフェーズにおける初期クラスとして用いられることを特徴とする請求項１１記載のマンマシンインタフェース動作／制御方法。
割り当てられたクラスに対する声のメンバシップの信頼度を示す信頼度尺度を生成するステップを更に有する請求項９乃至請求項１２いずれか１項記載のマンマシンインタフェース動作／制御方法。
上記信頼度尺度が安定するまで、話者識別パラメータが変更されるように、話者識別の処理、該処理のアルゴリズム及び／又はパラメータを繰り返し及び／又は反復的に改善するステップを更に有する請求項１３記載のマンマシンインタフェース動作／制御方法。
上記話者識別の処理を改善するために、遠方からの発話又は近傍からの発話、様々な背景雑音状況を含む幾つかの異なる状況の音声入力を収集するステップを更に有する請求項１４記載のマンマシンインタフェース動作／制御方法。
上記異なる音声クラス及び／又はユーザクラスに対し、異なるアクセス権及び／又は操作権を割り当てるステップを更に有する請求項９乃至請求項１５いずれか１項記載のマンマシンインタフェース動作／制御方法。
非ガーベージ音声クラス及び／又はユーザクラスの少なくとも一部には、後の取得、認識及び／又は割当、及び／又は明示的な口頭の命令のための非ガーベージクラスとして、新たな音声クラス及び／又は新たなユーザクラスを導入する権利が割り当てられることを特徴とする請求項９乃至請求項１６いずれか１項記載のマンマシンインタフェース動作／制御方法。
音声入力に関連付けて又は音声入力のシーケンスと共に話者モデル及び／又は話者クラスタを保存するステップを更に有する請求項１乃至１７いずれか１項記載のマンマシンインタフェース動作／制御方法。
受信した既知の話者の発話又は音声入力を追加し、該既知の話者及び／又はその性能について、話者モデル及び／又は話者クラスタを改善するステップを更に有する請求項１乃至１８いずれか１項記載のマンマシンインタフェース動作／制御方法。
更なる少なくとも１つの発話及び／又は既知の話者の更なる少なくとも１つの音声入力の追加に応じて、関連する話者モデル及び／又は関連する話者クラスタがそれぞれ個別のサブモデル及び／又はサブクラスタに分割できるか否かを判定するステップを更に有する請求項１乃至１９いずれか１項記載のマンマシンインタフェース動作／制御方法。
暫定的に生成されたサブモデル及び／又はサブクラスタに基づいて生成された音響特性及び話者又はユーザプロファイルの差異を用いて、該暫定的に生成されたサブモデル及び／又はサブクラスタの差異を算出するステップを更に有する請求項２０記載のマンマシンインタフェース動作／制御方法。
上記サブクラスタ及び／又はサブモデルの間の距離が所定の閾値を超えている場合、個別の話者を区別及び／又は記述するための個別のサブモデル及び／又は個別のサブクラスタを生成する分割処理を行うステップを更に有する請求項２０又は２１記載のマンマシンインタフェース動作／制御方法。
上記距離として、ユーザプロファイルの音響的距離及び差異の組合せを用いることを特徴とする請求項２０記載のマンマシンインタフェース動作／制御方法。
請求項１乃至請求項２３いずれか１項記載のマンマシンインタフェース動作／制御方法を用いて娯楽ロボット、ホームネットワークを動作させ及び／又は制御する動作／制御方法。
請求項１乃至請求項２３いずれか１項記載のマンマシンインタフェース動作／制御方法を実行及び／又は実現し、マンマシンインタフェースを動作させ及び／又は制御するマンマシンインタフェース動作／制御システム。
コンピュータ、デジタル処理手段及び／又はこれに類する手段によって実行されて、請求項１乃至２３いずれか１項記載のマンマシンインタフェース動作／制御方法及び／又はこれらのステップを実現及び／又は実行するよう設計され及び／又は適応化されたコンピュータプログラム手段を備えるコンピュータプログラム製品。