JPH10105187A

JPH10105187A - クラスタ構成をベースとする信号セグメント化方法

Info

Publication number: JPH10105187A
Application number: JP9253408A
Authority: JP
Inventors: Brian S Eberman; エスエイバーマンブライアン; William D Goldenthal; ディーゴールデンタールウィリアム
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1996-09-20
Filing date: 1997-09-18
Publication date: 1998-04-24
Also published as: US6314392B1; EP0831455A3; EP0831455A2

Abstract

(57)【要約】【課題】連続する信号を直接的にセグメント化するた
めのコンピュータ化された方法を提供する。【解決手段】連続する信号は、その統計学的不変単位
を決定するようにセグメント化される。連続する信号
は、周期的な間隔でサンプリングされ、タイミングどり
された一連のデジタルサンプルが形成される。一定数の
隣接するデジタルサンプルが複数の個別の組即ちフレー
ムにグループ分けされる。隣接フレーム間の統計学的な
距離が決定される。その統計学的な距離が所定のスレッ
シュホールドより小さい場合には、隣接する組が、より
大きなサンプル組即ちクラスターへと合体される。繰り
返しプロセスにおいて、隣接する組の間の統計学的な距
離が決定され、そしてその距離が所定のスレッシュホー
ルドより小さい限り、その組が繰り返し合体されて、信
号が統計学的不変単位へとセグメント化される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般に信号処理に係
り、より詳細には、連続する信号をセグメント化する方
法に係る。

【０００２】

【従来の技術】連続する信号において統計学的に不変の
単位を正確に識別すると、信号を処理する間の計算コス
トを実質的に減少することができる。統計学的に不変の
単位とは、統計学的に同様に記述できる特性を有する連
続信号の個別部分である。

【０００３】不変な単位を識別するには、セグメントの
境界の位置が必要となる。セグメントの境界が正しく仮
定される場合には、単位に関連した情報を相関するのに
必要な努力が著しく低減される。セグメント化は、信号
の基礎的な内容に関する事前の知識があまりない場合に
は特に困難である。

【０００４】例えば、スピーチ認識システムでは、何が
話されたか決定するために連続信号が処理される。信号
を統計学的に不変な単位にセグメント化することは、セ
グメントベースのスピーチ処理システムにおいて重要な
サブプロセスである。セグメント化は、言語学的エレメ
ントにおそらく対応する信号の部分の考えられる境界を
識別する。統計学的に不変な単位を正確に識別すること
は、計算コストの著しい減少に通じる。セグメント境界
が正しく仮定される場合には、対応する言語学的エレメ
ントのデータベースをサーチする時間が相当に減少され
る。信号の内容に関する事前の知識があまりない場合に
は、セグメント化が特に困難である。

【０００５】ほとんどの信号処理システムは、連続的な
アナログ形態の信号を受け取る。アナログ信号は、通
常、一定の割合でサンプリングされて、コンピュータシ
ステムにより処理することのできる一連のデジタルサン
プルを形成する。

【０００６】Ｒ．アンドレ・オブレッチ著の「連続スピ
ーチ信号の自動セグメント化(Automatic Segmentation
of Continuous Speech Signals) 」、プロシーディング
ズ・オブＩＥＥＥ−ＩＥＣＥＦ−ＡＳＪインターナショ
ナル・コンファレンス・オン・アコースティック・スピ
ーチシグナル・プロセッシング、第３巻、第２２７５−
２２７８ページ、１９８６年４月に掲載された１つの公
知のセグメント化技術は、統計学的な解決策を使用し
て、連続信号のスペクトル変化を検出するものである。
この技術は、３つの固定ウインドウを用いて信号をサン
プルごとに処理する。

【０００７】第１のウインドウは、最後に検出された変
化の時間の後の最初のサンプルで開始して現在の測定で
終了する成長するウインドウである。従って、第１のウ
インドウは、最後に検出された変化の後の全ての測定を
含む。第２のウインドウは、最後に検出された変化の時
間の後の最初のサンプルで開始して、現在測定よりも一
定のＬ個のサンプルだけ前に終了する。従って、第２の
ウインドウは、最後のＬ個のサンプルを除く全てのサン
プルに対し第１のウインドウにオーバーラップする。第
３のウインドウは、第２のウインドウの後に開始し、現
在の測定で終了する。従って、第２のウインドウは、第
３のウインドウと組み合わされて、オーバーラップを伴
わない第１のウインドウに含まれる全ての測定を含む。

【０００８】上記技術は、これら３つのウインドウを使
用して、ウインドウ内のサンプルに対する逐次の見込み
比のテストを計算する。最後に検出された変化以来の全
ての測定が１つの統計学的単位に属する見込みは、第１
のウインドウを用いて計算される。この見込みは、現在
の測定より過去に変化を生じるＬ個のサンプルを伴う２
つの統計学的単位に測定が属する見込みと比較される。
見込み比のテストにおいては、第１のウインドウは、サ
ンプルに変化がないナル仮定をエンコードし、一方、第
２及び第３のウインドウは、変化の仮定をエンコードす
る。

【０００９】サンプルは、３つのウインドウの各々を前
進させることにより信号の時間的な順序で順次に処理さ
れる。その変形においては、信号のサンプルが時間的に
前後に処理され、それにより得られるセグメント境界が
合成されて、１つのセグメントが形成される。

【００１０】別の変形においては、変化の仮定に対して
複数のウインドウを使用することができる。この場合
に、各ウインドウは、複数の長さＬに対応する。この技
術の全ての変形は、個々のサンプルに対して直接作用す
るので計算量が甚だしくなる。更に、サンプルが時間的
順序で処理されるので、サンプルが特定のセグメントで
識別されると、サンプルは、再検査されない。この順次
の処理は、誤った境界を形成することがある。

【００１１】別のセグメント化解決策では、信号のサン
プルが、最初に、一連の固定長さのオーバーラップフレ
ームにグループ分けされる。これらのフレームは、次い
で、各フレームにウインドウベクトル、通常はハミング
ウインドウを適用して、サンプルベクトルを形成するこ
とにより、導出された観察ベクトルへと変換される。次
いで、各サンプルベクトルに高速フーリエ変換を適用
し、最終的に導出された観察ベクトルが形成される。フ
レームのオーバーラップにより、時間に伴う信号のスペ
クトル変化が実質的に平滑化される。この平滑化は、変
化の検出を困難なものにする。更に、ウインドウベクト
ルの適用は、周波数ドメインにおけるスペクトルの平滑
化も生じる。これも、スペクトル変化のサイズを減少す
る。

【００１２】観察ベクトルのパラメータは、メル周波数
電力スペクトル係数（ＭＦＳＣ）又はメル周波数セプス
トラル係数（ＭＦＣＣ）であり、これは、Ｐ．マーメル
ステイン及びＳ．デービス著の「連続的に話されたセン
テンスを単音節ワード認識するためのパラメータ表示の
比較(Comparison of Parametric Representation forMo
nosyllabic Word Recognition in Continuously Spoken
Sentences)」、ＩＥＥＥＴｒａｎｓＡＳＳＰ、第
２３巻、第１号、第６７−７２ページ、１９７５年２月
に説明されている。

【００１３】観察ベクトルは、ハイアラーキ式クラスタ
ー構成技術を用いて合成することができる。これについ
ては、例えば、Ｊ．Ｒ．グラス著の「スピーチにおける
音響規則性の発見、音声認識への適用(Finding Acousti
c Regularities in Speech,Applications to Phonetic
Recognition) 」、Ｐｈ．Ｄ論文、デパートメント・オ
ブ・エレクトリカル・エンジニアリング・アンド・コン
ピュータサイエンス、ＭＩＴ、１９８８年５月を参照さ
れたい。この技術においては、ある類似性計測を用いて
次々の隣接ベクトルが合体される。例えば、この技術
は、隣接ベクトル間の「差」即ち距離を測定することが
できる。一対の隣接ベクトル間の距離が、ある所定のス
レッシュホールドより小さい場合には、それらのベクト
ルが合体されてクラスターを形成する。このように合体
されたクラスターに対し２つの隣接クラスター間の距離
がスレッシュホールドより大きくなるまでこのプロセス
が繰り返される。この点において、クラスターを言語学
的エレメントで識別することができる。

【００１４】ＭＦＣＣで表される観察ベクトルについて
は、差の測定値が正規化された距離となる。例えば、２
つの測定ベクトルｘ及びｙの間の正規化された距離は、
次の数１の式で表される。

【数１】

【００１５】ＭＦＳＣの対数間で重み付けされたユーク
リッド距離が測定される場合には、若干良好な結果を得
ることができる。この形式のクラスター構成に伴う問題
は、生のデジタルサンプルに存在するある情報が、導出
された観察ベクトルにおいて失われ、最適なセグメント
化の結果に到達しないことである。

【００１６】

【発明が解決しようとする課題】そこで、オーバーラッ
プフレームを用いて信号を一連の導出された観察ベクト
ルへと最初に変換することなく連続的な信号を直接的に
セグメント化することが望まれる。更に、信号の内容に
ついて事前の知識をもたずに信号をセグメント化するこ
とも望まれる。加えて、トランスクリプション（転記）
エラー率が減少されるように信号をセグメント化するこ
とも望まれる。

【００１７】

【課題を解決するための手段】本発明のコンピュータ化
された方法において、連続する信号は、その統計学的に
不変の単位を決定するためにセグメント化される。連続
する信号は、先ず、周期的な間隔でサンプリングされ、
タイミングどりされた一連のデジタルサンプルが形成さ
れる。固定数の隣接するデジタルサンプルが、複数の個
別の組のサンプルへとグループ分けされ、例えば、これ
らの組は、非オーバーラップフレームである。

【００１８】次いで、隣接対の組即ちフレームのサンプ
ル間の統計学的な距離が決定され、１組の統計学的な距
離が形成される。隣接するサンプル組は、それらの間の
統計学的な距離が所定のスレッシュホールド値より小さ
い場合には、より大きなサンプル組即ちクラスターへと
合体される。

【００１９】測定及び合体プロセスは、隣接するサンプ
ル組の間の全ての統計学的距離が、少なくとも、信号を
統計学的に不変な単位にセグメント化するためのスレッ
シュホールド距離になるまで、繰り返し実行される。

【００２０】本発明は、その広い形態において、請求項
１に記載の連続する信号をセグメント化するためのコン
ピュータ化された方法に関する。本発明の好ましい実施
形態においては、フレームのサンプルが、統計学的に充
分な記述、例えば、積の加算技術により形成される自己
相関マトリクスによって表される。サンプルの隣接組の
マトリクスの加算は、生のサンプルを合体することと等
価である。

【００２１】本発明の変形においては、連続する信号が
スピーチ信号であり、そして総計額的に不変の単位が言
語学的エレメントに関連される。

【００２２】

【発明の実施の形態】本発明は、添付図面を参照した好
ましい実施形態の以下の詳細な説明から充分に理解され
よう。添付図面の図１は、本発明を用いた信号処理シス
テム１００の１つの実施形態を示す。このシステム１０
０は、互いに接続されたアナログ／デジタルコンバータ
（Ａ／Ｄ）１１０と、デジタル信号プロセッサ（ＤＳ
Ｐ）１２０と、クラスタープロセッサ１３０と、発音プ
ロセッサ１４０と、語彙デコーダ１５０と、言語学的分
析器１６０とを備えている。又、システム１００は、発
音、語彙及び言語学的情報を記憶するためのデータベー
ス（ＤＢ）１９０も備えている。

【００２３】図２を参照して、システム１００の一般的
な動作を説明する。Ａ／Ｄコンバータ１１０は、ライン
１０９を経て連続する信号２１０、例えば、スピーチ信
号を受け取る。信号２１０は、Ａ／Ｄコンバータ１１０
にローカル位置で接続されたマイクロホンから収集する
こともできるし、又は信号２１０は、遠隔位置のセンサ
から電話システム又はインターネットのような通信ネッ
トワークを経て受け取ることもできる。

【００２４】Ａ／Ｄコンバータ１１０は、例えば１６Ｋ
Ｈｚのサンプリングレートを用いて連続信号２１０を周
期的にサンプリングし、タイミングどりされた一連のデ
ジタル信号２２０をライン１１１に形成する。このサン
プリングレートは、５ミリ秒（ｍｓ）の間隔当たり８０
個のデジタルサンプルを発生する。他のサンプリングレ
ートも使用できる。ネットワークを経て信号が受け取ら
れる場合には、既にデジタル形態にある。

【００２５】ＤＳＰ１２０は、固定数の一連のデジタル
サンプル２２０を、時間的に一連の個別の組のサンプ
ル、例えば、非オーバーラップフレーム２３０へと合成
する。各組のサンプル、例えば、フレーム２３１は、８
０個のサンプル２２０を含み、５ｍｓの分解能を与える
ことができる。この分解能は、信号の小さな変化を検出
するのにその後の処理時間をあまり長くすることなくそ
の処理中に確実な推定値を与えるに充分な長さである。

【００２６】本発明の好ましい実施形態では、各組即ち
フレームのサンプル（ｙ）は、充分な統計学的記述、例
えば、自己相関マトリクス（Ｉ）で表される。自己相関
マトリクスにおいては、その組の隣接サンプルが積の加
算技術を用いて加算される。所与の数（Ｌ）の隣接サン
プルを表す自己相関マトリクスＩは、次の数２の式で決
定することができる。

【数２】但し、ｉ＝０・・・ｑ、ｊ＝０・・・ｑであり、Ｌは、
サンプルの数で、例えば５ｍｓの組即ちフレームに対し
て８０であり、そして自己相関シフトの数ｑは、ほぼ７
ないし１４の範囲である。

【００２７】次いで、一連の繰り返し段階において、サ
ンプルの隣接組２３０の対間の距離が決定される。隣接
組のサンプルが合体され、より大きな組のサンプル即ち
クラスター２４０が形成される。例えば、クラスター２
４２は、フレーム２３１及び２３２に取って代わり、そ
して更に別の繰り返しの間に、クラスター２４３は、ク
ラスター２４１及び２４２に取って代わる。この動作
は、サンプルの２つの隣接組の間の距離が、少なくと
も、最終組のサンプル、例えば、クラスターＣ_K２５０
を形成するためのスレッシュホールド値Ｔになるまで、
繰り返される。例えば、最終クラスター２５１は、クラ
スターＣ_i-1ないしＣ_i+2の組合せである。

【００２８】クラスタープロセッサ１３０では、以下に
詳細に述べるように、隣接する組、即ちフレーム２３０
が、サンプルの隣接組間の差、即ち統計学的「距離」の
測定に基づいて、より大きな個別の組へと合体される。
これらの距離は、フレーム２３０の充分な統計学的記
述、例えば、自己相関マトリクスＩから計算される。

【００２９】２つの隣接組の自己相関マトリクスＩ間の
距離が、ある所定のスレッシュホールドＴより小さい場
合には、それらの組のサンプルが合体されて、より大き
な組即ちクラスターが形成される。差の小さい隣接フレ
ームは、おそらく、同じ統計学的不変単位の一部分であ
り、これは、ここに述べる実施形態では、対応する言語
学的エレメントの全部又は一部を表す。

【００３０】それ故、クラスターＣ_K２５０は、連続信
号２１０の考えられるセグメントを表す。クラスタープ
ロセッサ１３０の出力、例えば、クラスター２５０と、
導出された係数、例えば、従来の技術を用いてＤＳＰ１
２０により発生されたＭＦＣＣは、プロセッサ１４０に
より処理されて、例えば、信号の各セグメントを最良に
特徴付ける言語学的エレメントを決定することができ
る。語彙デコーダ１５０は、言語学的エレメントを合成
して、統計学的不変単位の組合せを最良に表す考えられ
るワードを推論することができる。言語学的分析器１６
０は、文法法則等に基づきスピーチ信号２１０の実際の
スピーチ内容を決定するのに使用される。

【００３１】より詳細には、好ましい実施形態では、ク
ラスター距離の計測は、ホワイトガウスノイズにより駆
動される直線的予想コード化（ＬＰＣ）モデルを用いて
デジタルサンプル２２０から直接的に導出される。ｙ
（ｎ）個のデジタルサンプルに対する標準的なＬＰＣモ
デルは、次の数３の通りである。

【数３】但し、ａ_iｙ（ｎ−ｉ）は、ｑ個の以前のサンプルに基
づく現在サンプルの直線的予想であり、そしてｖ（ｎ）
は、変化Ｖに伴うホワイトゼロ平均ガウスプロセスを表
す。

【００３２】ＬＰＣモデルは、パラメータθ＝
（｛ａ_i｝，Ｖ）によって特徴付けされる。パラメータ
の最適値、例えばθ’は、パラメータθを越えてサンプ
ルｙの見込みを最大にすることにより決定される。更
に、クラスターを最良に記述するＬＰＣパラメータの数
は、サンプルｙの見込みに最小記述長さ（ＭＤＬ）を加
えることにより選択することができる。クラスター距離
は、最終的には、パラメータ推定値（θ’）を使用して
決定される距離である。それにより得られる一連の測定
値ｙ₁ ^rの見込みＬ（ｙ₁ ^r／θ’）は、それに関連す
る残余の見込みであり、次の数４で表される。

【数４】この見込みの値は、サンプルの自己相関マトリクスＩか
ら計算できる。

【００３３】クラスター距離は、サンプルの２つの隣接
組、例えばフレーム又はクラスターが、異なる又は独立
した統計学的不変単位の一部分であるというナル仮定
と、サンプルの２つの隣接組が、単一の統計学的不変単
位の一部分であるという仮定との間の（対数）見込み比
として表される。例えば、図３に示すように、２つの隣
接クラスターＣ₁３１０及びＣ₂３２０に対するデジタ
ルサンプル２２０の組は、各々、ｙ^r ₁及びｙⁿ _r+1で
あり、この場合に、潜在的な合体クラスターＣ３３０に
対するサンプルの組はｙⁿ ₁である。この場合、クラス
ター距離ｄ（Ｃ₁，Ｃ₂）は、次の数５で表された一般
化された見込み比である。

【００３４】

【数５】この比がスレッシュホールドＴより小さい場合には、ク
ラスター３１０及び３２０のサンプルを合体してクラス
ター３３０を形成しなければならない。というのは、そ
れらが同じ統計学的不変単位の一部分である可能性が高
いからである。この比がスレッシュホールドより大きい
場合には、クラスター３１０及び３２０のサンプルを合
体してはならない。合体の弁別は、スレッシュホールド
Ｔが適切な値にセットされた場合に行うことができる。

【００３５】図４は、好ましい「ボトムアップ（底上
げ）」クラスター構成を詳細に示す。図４において、項
目ｆ１−ｆ８は、図２の８つの次々のフレーム２３０の
サンプルの個別の組から導出された相関マトリクスを表
す。距離ｄ１−ｄ７は、フレームの隣接対のサンプル間
の各統計学的距離を表す。距離ｄ１−ｄ７のどれが最も
小さいかを調べる判断がなされ、例えば、ｄ４が得られ
る。この最小距離ｄ４がスレッシュホールド値Ｔより小
さい場合には、フレームｆ４及びｆ５のサンプルが合体
されて、最初のクラスターｃ４５が形成される。即ち、
ｃ４５がｆ４及びｆ５に取って代わる。フレームは、サ
ンプルの自己相関マトリクスを加算することによって合
体することができる。合体の後に、ｆ３とｃ４５との間
及びｃ４５とｆ５との間の距離がｄ３４５及びｄ４５６
として再計算される。

【００３６】最も小さな距離を見出すプロセスが、距離
ｄ１、ｄ２、ｄ３４５、ｄ４５６、ｄ６及びｄ７に対し
て繰り返されて、新たな最小距離が決定される。新たな
最小距離、例えばｄ３４５が依然としてスレッシュホー
ルドＴより小さい場合には、ｆ３とｃ４５との合体が行
われて、クラスターｃ３４５が形成され、そして距離が
ｄ１、ｄ２、ｄ２３４５、ｄ３４５６、ｄ６及びｄ７と
して再計算される。サンプルの隣接組間の全ての距離が
少なくともスレッシュホールドとなるまで、これらの段
階が繰り返される。

【００３７】このボトムアップ合体は、「貪欲(greed
y)」な合体である。この貪欲な合体では、全ての隣接す
る最終組間の合計距離がある最小距離より大きいような
フレームのクラスターが形成される。或いは又、和の合
計距離が、対ごとの貪欲な合体により導出された合計距
離より小さいような最適なやり方でフレームを合体する
ことも考えられる。

【００３８】音声認識の目的で、この貪欲な合体をベー
スとするセグメント化は、最適な合体よりも優れた結果
を与える。付加的な効果として、ボトムアップ隣接合体
は、セグメントの数が増加するときに処理時間を直線的
に増加するだけであるが、トップダウン（上から下へ
の）最適合体では、処理に要する時間がセグメントの数
と共に二次関数的に増加する。

【００３９】この統計学的なクラスター構成技術を適用
すると、同じ挿入レートに対し、高速フーリエ変換を用
いて導出された観察ベクトルに基づくクラスター構成技
術のほぼ半分の削除レートが示される。更に、後者の技
術は、スペクトル推定値を平滑化する傾向があり、スペ
クトル変化を検出する見込みを低減する。以上、スピー
チ認識システムについてクラスター構成技術を説明した
が、この技術は、音声単位の識別を必要とする他のスピ
ーチ処理システムにも使用できることが理解されよう。

【００４０】更に、本発明のクラスター構成技術は、個
別の統計学的に不変の組のサンプルのシーケンスとして
表すことのできるデジタル的にサンプルされる連続信号
にも適用できることが当業者に明らかであろう。最初の
組は、直線的予想コード化パラメータの健全な推定値を
与えるに充分な数のサンプルを有するだけでよい。最初
のサンプル組におけるサンプルの数は、最初の組のサン
プルが互いに本質的に統計学的に不変である限り、大幅
に変更してもよい。

【００４１】時間と共にデジタルでサンプルされる信号
のスペクトル特性の変化により所望のセグメントが特徴
付けされるいかなる用途においても、改善されたセグメ
ント化結果を達成することができる。従って、本発明の
クラスター構成技術は、デジタルでサンプルされる他の
信号、例えば、タービン符号、宇宙波、ロボット組立中
の力測定、航空機の振動測定等（これらに限定されな
い）のセグメント化にも適用できる。

【００４２】以上、特定の実施形態について本発明の原
理を説明したが、これら実施形態に対し本発明の範囲内
で種々の変更がなされ得ることが当業者に明らかであろ
う。

【図面の簡単な説明】

【図１】本発明の好ましい実施形態による信号処理シス
テムのブロック図である。

【図２】生の連続信号から直接的に形成した統計学的に
不変の単位に対応するクラスターのタイミング図であ
る。

【図３】単一の大きなクラスターへと合体することので
きる２つのクラスターのブロック図である。

【図４】フレーム、距離、及び合体されたフレームの概
略図である。

【符号の説明】

１００信号処理システム１１０Ａ／Ｄコンバータ１２０デジタル信号プロセッサ（ＤＳＰ）１３０クラスタープロセッサ１４０発音プロセッサ１５０語彙デコーダ１６０言語学的分析器１９０データベース２１０連続信号２２０デジタル信号２３０フレーム２４０クラスター２５０最終クラスター

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウィリアムディーゴールデンタールアメリカ合衆国マサチューセッツ州 02139 ケンブリッジピーターズストリート９−１

Claims

【特許請求の範囲】

【請求項１】信号をセグメント化するためのコンピュ
ータ化された方法において、周期的な間隔で信号をサンプリングして、一連のデジタ
ルサンプルを形成し、上記デジタルサンプルを複数のサンプル組に区切り、隣接するサンプル組の間の距離を測定して１組の距離を
決定し、そして隣接する信号組の間の距離が所定のスレ
ッシュホールド値より小さい場合には隣接するサンプル
組を合体する、という段階を備えたことを特徴とする方
法。
【請求項２】隣接するサンプル組の間の距離が所定の
スレッシュホールド値より小さい限り隣接するサンプル
組を繰り返し測定及び合体し、連続する信号を統計学的
に不変の単位へとセグメント化する段階を更に備えた請
求項１に記載の方法。
【請求項３】統計学的に充分な記述により各組のサン
プルを表示する段階を更に備えた請求項１に記載の方
法。
【請求項４】各組の隣接サンプルの積を加算して、各
組のサンプルの自己相関マトリクスを形成する段階を更
に備えた請求項３に記載の方法。
【請求項５】自己相関マトリクスを加算して、隣接す
るサンプル組の対を合体する段階を更に備えた請求項４
に記載の方法。
【請求項６】別々である隣接するサンプル組の対と、
単一のサンプル組へと合体される隣接するサンプル組の
対との距離の一般化された見込み比を決定する段階を更
に備えた請求項１に記載の方法。
【請求項７】各組は、同数のサンプルを含む請求項１
に記載の方法。
【請求項８】最小記述長さの見込みを用いて各組のサ
ンプルを記述するために最適数のパラメータを選択する
段階を更に備えた請求項２に記載の方法。
【請求項９】統計学的距離の組の最小距離を決定し、
そして最小の統計学的距離を有するサンプルの隣接組を
最初に合体する、という段階を更に備えた請求項１に記
載の方法。
【請求項１０】連続する信号は、スピーチ信号であ
り、そして統計学的に不変の単位は、言語学的エレメン
トに関連している請求項２に記載の方法。