JP2010015152A

JP2010015152A - 入力信号の値のシーケンスのタイムスケーリングのための方法

Info

Publication number: JP2010015152A
Application number: JP2009157838A
Authority: JP
Inventors: Markus Schlosser; シュローザーマルクス
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2008-07-03
Filing date: 2009-07-02
Publication date: 2010-01-21
Anticipated expiration: 2029-07-02
Also published as: JP5606694B2; TWI466109B; BRPI0902006A2; EP2141697B1; CN101620856B; CN101620856A; KR101582358B1; ATE528753T1; US20100004937A1; TW201017649A; BRPI0902006B1; KR20100004876A; EP2141697A1; EP2141696A1; US8676584B2

Abstract

【課題】オーディオ信号の長さを変えるデジタル信号処理技術に関し、これによって、再生速度を効果的に変えることができるようにする。
【解決手段】サブシーケンス・ペアの類似度の大きさのなかで最大の類似度が特定されるように、波形類似性重複加算手法（ＷＳＯＬＡ）が修正され、各々のサブシーケンス・ペアは、入力ウインドウ（ＳＷ）からのマッチされるサブシーケンス（Ｂ１、．．、Ｂ＊、．．Ｂｎ）と、探索ウィンドウ（ＭＷ）からのマッチするサブシーケンス（Ｃ１、．．、Ｃ＊、．．Ｃｎ）とを有し、前記サブシーケンス・ペアは、マッチされる第１のサブシーケンスを含む第１のペアおよびマッチされる異なる第２のサブシーケンスを含む第２のペアの、少なくとも２つのサブシーケンス・ペアを有する。入力ウィンドウは、単一のマッチされるサブシーケンスに基づくＷＳＯＬＡ手法より高い類似度を有するサブシーケンス・ペアを発見することができる。
【選択図】図１

Description

本発明は、オーディオ信号の長さを変えるデジタル信号処理技術に関し、これによって、再生速度を効果的に変えることに関する。

本発明は、映画産業のフレーム・レート変換や音楽制作の音響エフェクトの専門のマーケットにおいて使われる。さらに、例えばｍｐ３プレーヤ、音声記録装置または留守番電話のような民生用電子機器では、早送りまたはスローモーションでのタイムスケーリング（時間倍率変更）を利用したオーディオ再生が利用される。以下列挙されているリストは、非特許文献１においてタイムスケーリングのオーディオ信号の応用として取り上げられているものである。
・デジタルライブラリ、および通信教育の講義資料を迅速にブラウジングすること
・音楽および外国語学習／教育
・留守番電話器およびディクタフォンの高速／低速再生
・映画ビデオの標準の変換
・オーディオ電子すかし
・盲目者に対する高速朗読
・音楽作曲
・オーディオビデオの同期
・オーディオデータ圧縮
・心臓障害の診断
・ラジオ／テレビ業界でのオーディオ／ビジュアル編集のためのタイムスロット割当
・音声の性別変換
・テキスト音声合成
・唇の同期
・詩の当てはめ（ｐｒｏｓｏｄｙｔｒａｎｓｐｌａｎｔａｔｉｏｎ）およびカラオケ
オーディオ信号の長さを変更するためのデジタル信号技術の方法は、いわゆる波形類似性重複加算（ＷＳＯＬＡ：ＷａｖｅｆｏｒｍＳｉｍｉｌａｒｉｔｙＯｖｅｒＬａｐＡｄｄ）手法と呼ばれている。ＷＳＯＬＡは、高品質のタイムスケーリングされた出力信号を生成することができる。ＷＳＯＬＡ出力信号は、固定長（通常は２０ｍｓ）のブロックで構成される。これらのブロックは５０％重なっている。このため固定されたクロスフェード長が保証される。出力信号に追加される次のブロックは、第一に、現時点におけるブロックに最も類似しており、現在のブロックに正常につながるブロックであり、第二に、探索ウインドウ（ｓｅａｒｃｈｗｉｎｄｏｗ）の中の（スケーリングファクタ（換算係数）によって定まる）理想の位置に置かれる。理想の位置からの偏差は、これによって通常５ｍｓ未満に制限される。したがって、探索ウィンドウは、１０ｍｓの大きさとなる。Ｄｅｍｏｌらによる非特許文献２には、スケーリングファクタを変化させることによって、処理される信号の様々な特徴を考慮し拡張することができると述べている。

"ＡＣｏｍｐａｒｉｓｏｎｏｆＴｉｍｅ−ＤｏｍａｉｎＴｉｍｅ−ＳｃａｌｅＭｏｄｉｆｉｃａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ，" ＡＥＳ２００６ "ＥｆｆｉｃｉｅｎｔＮｏｎ−ＵｎｉｆｏｒｍＴｉｍｅ−ＳｃａｌｉｎｇｏｆＳｐｅｅｃｈｗｉｔｈＷＳＯＬＡ，" ＳｐｅｅｃｈａｎｄＣｏｍｐｕｔｅｒｓ（ＳＰＥＣＯＭ），２００５

本願発明は、ＷＳＯＬＡ手法を強化することを目的としている。

このために、請求項１に記載されるように、修正された波形類似性重複加算（ＷＳＯＬＡ）手法を使った入力信号のタイムスケーリングのための方法を提案している。また、請求項９に記載されるように、修正された波形類似性重複加算（ＷＳＯＬＡ）手法を使った入力信号のタイムスケーリングのための装置を提案している。

前記方法によれば、サブシーケンス・ペアの類似度の大きさのうち、最大の類似度が決定されるように、波形類似性重複加算手法が修正される。それぞれのサブシーケンス・ペアは、入力ウィンドウからのマッチされるサブシーケンスと、サーチウインドウからのマッチするサブシーケンスとを有する。前記サブシーケンス・ペアは、少なくとも２つのサブシーケンス・ペアを含み、第１のペアは、第１のマッチされるサブシーケンスを含み、第２のペアは、異なる第２のマッチされるサブシーケンスを含む。

入力ウィンドウを採用することによって、マッチされる単一のサブシーケンスに基づくＷＳＯＬＡ手法よりも、高い類似度を有するサブシーケンス・ペアを発見することができる。これによって、より知覚しにくいアーチファクトしか発生しなくなる。

実施例において、前記第１のペアは、第１のマッチするサブシーケンスを含み、そして前記第２のペアは、異なる第２のマッチするサブシーケンスを含む。

別の実施例においては、前記第１のペア、および、前記第２のペアは、同じマッチするサブシーケンスを有する。

都合のよいことに、前記波形類似性重複加算手法の変更態様において、サブシーケンスを複製するステップを有し、このステップは、該複製するステップによりもたらされる累積された時間的偏差が、予め定められた最小の時間的偏差に等しいか大きくなるまで、複製を続ける。この累積された時間的偏差は、複製されたサブシーケンスの累積された時間的期間および望まれるタイムスケーリングファクタに依存する。

これによって、接合点の数を減少させ、したがって、タイムスケーリングが聞こえてしまうのを減少させる。

各々のサブシーケンス・ペアの類似度の大きさは、そのペアのサブシーケンス間の時間的間隔を考慮した重みを含んでもよい。

時間的間隔を考慮することによって、ＷＳＯＬＡ手法をより望ましい時間的間隔の方向へとバイアスをかけることができる。

例えば、実施例では、類似度は大きい時間間隔の方向にバイアスがかかるように重み付けされる。

これによって、より長いサブシーケンスを追加することができ、結果的に必要な接合点をより少なくできる。

本方法のさらにもう１つの実施例において、類似度は、望まれるタイムスケーリングファクタに対応する時間的間隔に近づく方向にバイアスされるように重みづけされる。

したがって、タイムスケール（ｔｉｍｅｓｃａｌｅ）されたシーケンスの一部分であっても、タイムスケールをよく反映することになる。

更なる実施例において、少なくとも１つのポーズ信号セグメントを有するように、入力ウィンドウが決定される。

ポーズ信号に対する接合は、計算上単純であることが知られている。

加えて、更なる実施例において、入力ウィンドウは、過渡的なセグメントを含まないよう決定される。

接合部分は、過渡的な信号セグメントに対して計算的に困難であることが知られている。

本発明の例示的実施形態は、図面によって示され、かつ以下において更に詳細に説明される。

例示的なオリジナルのサンプルシーケンス、および、例示的にタイムスケールされたサンプルシーケンスを示す図である。例示的な重み関数を示す図である。

本発明の例示的実施形態は、２つのフェーズのプロセスによるタイムスケールファクタαに従って、タイムスケーリングを実現する。

［例示的実施形態］
２つのフェーズのうちの１つにおいて、オリジナルのサンプルシーケンスＯＲＩＧのサンプルが、単純にタイムスケールされたサンプルシーケンスＳＣＬＤへコピーされる。

タイムスケールの差が１−αの絶対値に等しいとする。各々の複製されたサンプルの持続時間は、タイムスケールの差を１つのオリジナルのサンプル時間（Ｄｏｓ）倍した時間間隔だけ、理想的なタイムスケールされたサンプルの持続時間と比較して偏差が存在する。したがって、Ｌ個のサンプルを複製することは、結果として、以下の累積された時間的偏差が存在することになる。

ここで、Δ_０は、初期の時間的偏差であり、ゼロであってもよい。または、累積された時間的偏差を特定するときに、無視してもよい。累積された時間的偏差が低い方の偏差閾値Δ_ｍｉｎを少なくとも上回るようにサンプルが複製される。かつ、最大で、累積された時間的偏差が上限の偏差閾値Δ_ｍａｘを上回らないようにサンプルが複製される。低い方の偏差閾値Δ_ｍｉｎは、タイムスケールされたサンプルシーケンスの接合点の間の最小の距離を保証する。接合点の間のホップ（ｈｏｐ）距離が短いと、自己相似関数（ｓｅｌｆｓｉｍｉｌａｒｉｔｙｆｕｎｃｔｉｏｎ）がゼロ近辺で広いピークを持つようなオーディオ信号のエネルギーが低周波範囲に集中する傾向があるため、問題がある。Δ_ｍｉｎがこのピークより非常に小さい場合、テンプレートマッチングは、列に沿って数回（Δ_ｍｉｎの和が自己相似関数において上記のピークの幅を超えるまで）、探索ウィンドウの境界が理想の点に近づくよう、決定する。この場合、出力信号は、多くの小さい信号の連結を含むこととなる。最小の距離は、複製された２つのブロックの間のクロスフェード長（すなわちタイムスケールされた信号のＮ個のサンプル）に対応する。理想的には、Ｎ／α個のサンプルが、タイムスケールされた信号のこれらのＮ個のサンプルを形成するために用いられる。これによって、オリジナル信号の低い方の偏差閾値Δ_ｍｉｎが数２となる。

加えて、これが少なくとも下限ＬＢになるように、低い方の偏差閾値Δ_ｍｉｎが、数３により決定されてもよい。

良好な結果は、ＬＢ＝２ｍｓである場合に達成される。特にαが小さい場合、下限ＬＢは、アーチファクトの発生を防止するのに役立つ。

上限の偏差閾値Δ_ｍａｘは、タイムスケールされたサンプルシーケンスにおける接合点の間の最大の距離を規定する。この最大の距離は、累積された時間偏差Δ_Ｌを規制し、したがって、省略されるかまたは繰り返される入力信号の隣接するサブシーケンスを規制する。これによって、反復または省略されることによって発生するアーチファクトの可聴度が減少する。

複製が上限の偏差閾値Δ_ｍａｘを満たすか上回った場合、プロセスは第二のフェーズに移行する。第二のフェーズにおいて、修正されたＷＳＯＬＡが実行される。オリジナルのサンプルシーケンスＳＣＬＤ中におけるＮ個の“次にコピーされる可能性のある”（ｗｏｕｌｄ−ｂｅ−ｃｏｐｉｅｄ−ｎｅｘｔ）サンプルのテンプレートサブシーケンスに対して、テンプレートマッチングが実行される。このテンプレートマッチングは、オリジナルのサンプルシーケンスＯＲＩＧの探索ウィンドウ（ＭＷ）の中で候補サブシーケンスＣ１、．．．、Ｃ＊、．．．、Ｃｋのうち接合（ｓｐｌｉｃｉｎｇ）に最も適切な候補サブシーケンスＣ＊を発見するためになされる。テンプレートマッチングは、相関、平均二乗誤差（ｍｅａｎｓｑｕａｒｅｄｉｆｆｅｒｅｎｃｅ）、平均絶対誤差（ｍｅａｎａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅ）などの類似度の大きさに基づいている。この類似度の大きさは、重みＷによって重み付けされる。重みＷは、候補サブシーケンスの時間的位置と、オリジナルサブシーケンスのテンプレート位置との間の時間的な差Δｔに依存する。

重みＷは、候補サブシーケンスＣ１、．．．、Ｃ＊、．．．、Ｃｋの理想の時間的シフトＩＴＳに依存してもよい。この理想の時間的シフトＩＴＳは、オリジナルのサンプルシーケンスＯＲＩＧの候補サブシーケンスの時間的位置およびタイムスケールファクタによって決定される。

重み関数ＷＦ１、ＷＦ２、ＷＦ３を図２に図式的に示す。

重み関数は、線形関数ＷＦ１、ＷＦ２であってもよい。これらにより、最適のマッチにおいて、最初の大きな時間偏差（遅延または早い出現（ｐｒｅ−ａｐｐｅａｒａｎｃｅ））をもたらす候補に対してバイアスをかける。したがって、次に結合される場合、より大きな信号セグメントとなる。

重み関数がベル形の関数ＷＦ３であってもよい。この場合、最適のマッチにおいて、次に結合される場合、最適な時間的シフトＩＴＳ（ｉｄｅａｌｔｅｍｐｏｒａｌｓｈｉｆｔ）に一番対応する最初の時間偏差をもたらす候補に対してバイアスをかけることになる。

同期したオーディオとビデオ信号とを有するフィルムがタイムスケールされている場合、他の重み関数が役立つ。人間の知覚システムは、イベントについての視覚の印象が、イベントについての対応する音の感覚より早く認識される状況に適合している。例えば、誰かが遠くから叫んでいる場合、イベントについての視覚の印象は光速で伝播するのに対して、叫び声は、音速で伝搬する。このため、ビデオ信号に対するオーディオ信号の微少な遅延は、オブザーバによって無視さ得る。しかし、オーディオ信号の遅延が、もはやビデオ信号に合わないほど大きい場合には、煩わしく感じられるアーチファクトが生じる。オーディオ信号に比較してビデオ信号が遅延するいかなるものも、同様に煩わしく感じられる。このように、ビデオ信号のために用いられるタイムスケーリングに依存する重みは、タイムスケールされたオーディオ信号がタイムスケールされたビデオ信号より前にならないようにし、かつ遅延が大きくならないようにすることが肝要である。例えば、ベル形の関数ＷＦ３は、シフト位置の中心に位置する。これによって、タイムスケールされたビデオに対してタイムスケールされたオーディオ信号が、それほど大きくない遅延を確保し得る。

テンプレートマッチングは、タイムスケールシーケンス（ＳＣＬＤ）に最後にコピーされたサンプルの直前の、Ｎ個の最後のコピーされたサンプルを含むサブシーケンスに対して行われてもよい。最後よりも１つ前（ｌａｓｔ−ｂｕｔ−ｏｎｅ）のサブシーケンスとこれに一番マッチするテンプレートとの類似度が、最後のサブシーケンスと最後のサブシーケンスに一番マッチするテンプレートとの類似度との間で比較される。この際に、類似度に重みをかけても、かけなくてもよい。タイムスケールされたサンプルシーケンスにおいて、重み付けされた類似度が一番大きいサブシーケンスが、これに最もマッチしたテンプレートと接合またはクロスフェードされる。同様に、最後のサブシーケンスよりもｎ個前のサブシーケンスの全てのサブシーケンスＢ１、．．．、Ｂ＊、．．．、Ｂｎを有するサブシーケンスのセットが、重み付き類似度の最大値の計算の際に考慮されてもよい。

このように、類似度の大きさは、１つの可能な接合点だけで最大値が計算されるのではなく、全ての可能な接合点に対して、最大値が計算される。好ましくは、入力ウインドウ（ＳＷ）において密に存在しているということができる。結果は、二次元の類似度の関数である。

しかし、このような二次元の類似度の関数の算出のための計算の負担の増加は、限られているのである。テンプレートの長さがＮ個のサンプルで探索ウィンドウの幅がＫ個のサンプルの場合、一次元の類似度の関数はＮ＊Ｋ回のかけ算または絶対／二乗値の計算が必要とされる。したがって、Ｋ個の類似度の値は、Ｎ個の結果の値を合計することにより計算される。

αが１に近い場合、全てのテンプレートに対して、共通の探索ウィンドウが利用できる。

さて、入力ウィンドウの幅がＬの場合の二次元の類似度の関数については、（Ｎ＋Ｌ）＊Ｋの値の計算が必要とされる。そして、これらを合計して、Ｌ＊Ｋ個の類似度の値を得ることになる。したがって、二次元の探索においては、計算の負担は、探索ウィンドウの大きさに線形的に増加する。

一次元のフレームワークにおいては、Ｋ個の異なる類似度を計算しなければならなかった。加えて、二次元のフレームワークにおいては、Ｌ＊Ｋ個の異なる類似度の計算が必要であった。しかしながら、二次元のフレームワークにおいては、類似度の一部分は、繰り返しにより計算できるのである。

すなわち、第１の候補に対する第１のテンプレートの第１の類似度の値を求める第１の合計値と、第２の候補に対する第２のテンプレートの第２の類似度の値を求める第２の合計値とは、１つの合計が異なるだけである。この場合両者において、この第２のテンプレートおよび第２の候補は、この第１のテンプレートに関して１つのサンプルをシフトしたものであり、第１の候補に関しても同様である。

Ｌ＊Ｋ個の異なる類似度ではなく、最初から計算しなければならないのは、Ｌ＋Ｋ個の類似度だということである。残りの（Ｋ−ｌ）＊（Ｌ−１）個の類似度は、反復により計算できるのである。

もし、αが１よりも非常に大きいか、非常に小さい場合、１セットの重なり合う探索ウィンドウとなり、１つの入力ウィンドウに１テンプレートとなる。対応するテンプレートの理想の時間シフトが使われる時に、探索ウィンドウの各々は中央に置かれる。

入力ウィンドウＳＷは、それが少なくとも１つのポーズ（ｐａｕｓｅ）および／または少なくとも１つの準周期信号セグメント（ｑｕａｓｉ−ｐｅｒｉｏｄｉｃｓｉｇｎａｌｓｅｇｍｅｎｔ）を有するように、決定されてもよい。この種の信号セグメントが良好な接合点を提供することが知られている。これに対して、過渡的な信号セグメントは、接合あるいはクロスフェーディングにあまり適していない。なお、重みに関しては、以下のように適合させてもよい。すなわち、重みは、サブシーケンスＢ１、．．．、Ｂ＊、．．．、Ｂｎの特徴のみによって、または特徴をも加味して適合化される。これは、接合され得るセグメントのポーズおよび／または準周期性は、重みを増加させ、逆に過渡的な信号特徴の場合には、重みを低減させてもよい。

入力ウィンドウＳＷの最高にマッチしたサブシーケンスＢ＊と、探索ウィンドウの最高にマッチした候補サブシーケンスＣ＊とを有する類似度が最大のサブシーケンス・ペアが、タイムスケールＳＣＬＤのクロスフェード領域ＣＦのサンプルを生成するために用いられる。クロスフェード領域のサンプル数は、サブシーケンスのうちの１つのサンプル数に対応させて、サブシーケンスの全てのサンプルがクロスフェードに使われてもよい。または、クロスフェード領域のサンプルの数より少ないサンプル、すなわち、サブシーケンスの一部のサンプルだけが使われる。例えば、サブシーケンス長が１ブロックまたは２＊Ｎ個のサンプルに対応し、クロスフェード領域の長さが、半ブロックの長さまたはＮ個のサンプルに対応させてもよい。クロスフェードより長いサブシーケンスを用いることは、音素の中央の方へバイアスすることによって、接合点の可聴性を減少させるのに有利である。

タイムスケールファクタに従って信号のシーケンスをタイムスケールする方法にかかる例示的実施形態がある。この方法は、先行するサブシーケンスのタイムスケーリングにＷＳＯＬＡ手法を用いるステップ、後続するサブシーケンスのタイムスケーリングに内挿法を用いるステップを有する。

更なる例示的実施形態において、本方法は、以下のステップを有する。
（ａ）マッチされるサブシーケンスＢ１、Ｂ＊、Ｂｎ、および、マッチするサブシーケンスＣ１、Ｃ＊、Ｃｋ、を有するサブシーケンス・ペアを構成するステップ、（ｂ）各ペアに対して、ペアを構成するサブシーケンス間の類似度を計算するステップ、（ｃ）最大の類似度を有する好適なペアＢ＊、Ｃ＊、を特定するステップ、（ｄ）タイムスケールされたシーケンスＳＣＬＤにおいて、好適にマッチするサブシーケンスに前記好適にマッチされたサブシーケンスをクロスフェードさせるステップ、（ｅ）好適にマッチするサブシーケンスを参考として、コピーされるサブシーケンスの長さを決定するステップ、（ｆ）このサブシーケンスをタイムスケールされたシーケンスＳＣＬＤへ複製し、かつ、ステップ（ａ）に戻るステップ、である。なお、複製されるサブシーケンスの長さは閾値に依存する。

望ましくは、ステップ（ｂ）は、ペアのマッチされるサブシーケンスおよびマッチするサブシーケンスの間の時間的な距離に依存した重みを特定（ｄｅｔｅｒｍｉｎｅ）するステップを有する。

また更なる実施例において、ステップ（ｅ）は、時間的ファクタおよび前記好適にマッチされたサブシーケンスと好適にマッチするサブシーケンスとの時間的距離を複製されるサブシーケンスの長さの決定に使用するステップを有する。

Δ_ｍｉｎ低い方の偏差閾値
Δ_ｍａｘ上限の偏差閾値
Δ_Ｌ累積された時間偏差
Ｂ１．．．Ｂ＊．．．Ｂｎマッチされるサブシーケンス
Ｃ１．．．Ｃ＊．．．Ｃｎマッチするサブシーケンス
ＳＷ入力ウィンドウ
ＭＷ探索ウィンドウ
ＣＦクロスフェード領域
ＷＦ重み関数

Claims

修正された波形類似性重複加算手法（ＷＳＯＬＡ）を使用して、入力信号の値のシーケンスをタイムスケーリングする方法であって、
サブシーケンス・ペアの類似度の大きさのなかで最大の類似度が特定されるように、前記波形類似性重複加算手法が修正され、各々のサブシーケンス・ペアは、入力ウィンドウからのマッチされるサブシーケンスと、探索ウィンドウからのマッチするサブシーケンスとを有し、
前記サブシーケンス・ペアは、マッチされる第１のサブシーケンスを含む第１のペアおよびマッチされる異なる第２のサブシーケンスを含む第２のペアの、少なくとも２つのサブシーケンス・ペアを有する方法。
前記第１のペアは第１のマッチするサブシーケンスを含み、かつ、前記第２のペアは異なる第２のマッチするサブシーケンスを含む、請求項１記載の方法。
前記第１のペア、および、前記第２のペアは、同じマッチするサブシーケンスを含む、
請求項１記載の方法。
前記波形類似性重複加算手法の修正は、予め定められた最小の時間的偏差と等しいかより大きい累積された時間偏差となるまでサブシーケンスを複製するステップであって前記累積された時間偏差は前記複製から生じるところのステップを有し、前記累積された時間偏差は、前記複製されたサブシーケンスの累積された時間的継続時間および望まれるタイムスケーリングファクタに依存する、請求項１ないし３のいずれか１項に記載の方法。
各々の前記サブシーケンス・ペアの前記類似度の大きさは、前記ペアの前記サブシーケンスの間の時間的距離を考慮した重みを含む、請求項１ないし４のいずれか１項に記載の方法。
前記重みは、時間的距離がより大きい方向にバイアスがかけられる、請求項５記載の方法。
前記入力ウィンドウが少なくとも１つのポーズ信号セグメントを含むように、前記入力ウィンドウが決定される、請求項１ないし６のいずれか１項に記載の方法。
前記入力ウィンドウがいかなる過渡的な信号セグメントも含まないように、前記入力ウィンドウが決定される、請求項１ないし７のいずれか１項に記載の方法。
修正された波形類似性重複加算手法（ＷＳＯＬＡ）を使用して、入力信号の値のシーケンスをタイムスケーリングするための手段を有する装置であって、該手段は、サブシーケンス・ペアの類似度の大きさのなかで最大の類似度が特定され、各々のサブシーケンス・ペアは、入力ウィンドウからのマッチされるサブシーケンスと、探索ウィンドウからのマッチするサブシーケンスとを有し、前記サブシーケンス・ペアは、マッチされる第１のサブシーケンスを含む第１のペアおよびマッチされる異なる第２のサブシーケンスを含む第２のペアの、少なくとも２つのサブシーケンス・ペアを有する装置。
前記第１のペアは第１のマッチするサブシーケンスを含み、かつ、前記第２のペアは異なる第２のマッチするサブシーケンスを含む、請求項９記載の装置。
前記第１のペア、および、前記第２のペアは、同じマッチするサブシーケンスを含む、請求項９記載の装置。
前記手段は更に、最小のホップ距離と等しいかより大きい累積された時間偏差となるまでサブシーケンスを複製することに適合し、前記累積された時間偏差は前記複製から生じ、前記累積された時間偏差は、前記複製されたサブシーケンスの累積された時間的継続時間および望まれるタイムスケーリングファクタに依存する、請求項９ないし１１のいずれか１項に記載の装置。
各々のサブシーケンス・ペアの前記類似度の大きさは、前記ペアの前記サブシーケンスの間の時間的距離を考慮した重みを含む、請求項９ないし１２のいずれか１項に記載の装置。
前記重みは、時間的距離がより大きい方向にバイアスがかけられる、請求項１３記載の装置。
前記手段は更に、前記入力ウィンドウが、少なくとも１つのポーズ信号セグメントを含むように、および／または、いかなる過渡的な信号セグメントも含まないように、前記入力ウィンドウが決定される、請求項９ないし１４のうちいずれか１項に記載の装置。