JP2010015152A - 入力信号の値のシーケンスのタイムスケーリングのための方法 - Google Patents

入力信号の値のシーケンスのタイムスケーリングのための方法 Download PDF

Info

Publication number
JP2010015152A
JP2010015152A JP2009157838A JP2009157838A JP2010015152A JP 2010015152 A JP2010015152 A JP 2010015152A JP 2009157838 A JP2009157838 A JP 2009157838A JP 2009157838 A JP2009157838 A JP 2009157838A JP 2010015152 A JP2010015152 A JP 2010015152A
Authority
JP
Japan
Prior art keywords
subsequence
pair
similarity
matched
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009157838A
Other languages
English (en)
Other versions
JP5606694B2 (ja
Inventor
Markus Schlosser
シュローザー マルクス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2010015152A publication Critical patent/JP2010015152A/ja
Application granted granted Critical
Publication of JP5606694B2 publication Critical patent/JP5606694B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】オーディオ信号の長さを変えるデジタル信号処理技術に関し、これによって、再生速度を効果的に変えることができるようにする。
【解決手段】サブシーケンス・ペアの類似度の大きさのなかで最大の類似度が特定されるように、波形類似性重複加算手法(WSOLA)が修正され、各々のサブシーケンス・ペアは、入力ウインドウ(SW)からのマッチされるサブシーケンス(B1、..、B*、..Bn)と、探索ウィンドウ(MW)からのマッチするサブシーケンス(C1、..、C*、..Cn)とを有し、前記サブシーケンス・ペアは、マッチされる第1のサブシーケンスを含む第1のペアおよびマッチされる異なる第2のサブシーケンスを含む第2のペアの、少なくとも2つのサブシーケンス・ペアを有する。入力ウィンドウは、単一のマッチされるサブシーケンスに基づくWSOLA手法より高い類似度を有するサブシーケンス・ペアを発見することができる。
【選択図】図1

Description

本発明は、オーディオ信号の長さを変えるデジタル信号処理技術に関し、これによって、再生速度を効果的に変えることに関する。
本発明は、映画産業のフレーム・レート変換や音楽制作の音響エフェクトの専門のマーケットにおいて使われる。さらに、例えばmp3プレーヤ、音声記録装置または留守番電話のような民生用電子機器では、早送りまたはスローモーションでのタイムスケーリング(時間倍率変更)を利用したオーディオ再生が利用される。以下列挙されているリストは、非特許文献1においてタイムスケーリングのオーディオ信号の応用として取り上げられているものである。
・デジタルライブラリ、および通信教育の講義資料を迅速にブラウジングすること
・音楽および外国語学習/教育
・留守番電話器およびディクタフォンの高速/低速再生
・映画ビデオの標準の変換
・オーディオ電子すかし
・盲目者に対する高速朗読
・音楽作曲
・オーディオビデオの同期
・オーディオデータ圧縮
・心臓障害の診断
・ラジオ/テレビ業界でのオーディオ/ビジュアル編集のためのタイムスロット割当
・音声の性別変換
・テキスト音声合成
・唇の同期
・詩の当てはめ(prosody transplantation)およびカラオケ
オーディオ信号の長さを変更するためのデジタル信号技術の方法は、いわゆる波形類似性重複加算(WSOLA:Waveform Similarity OverLap Add)手法と呼ばれている。WSOLAは、高品質のタイムスケーリングされた出力信号を生成することができる。WSOLA出力信号は、固定長(通常は20ms)のブロックで構成される。これらのブロックは50%重なっている。このため固定されたクロスフェード長が保証される。出力信号に追加される次のブロックは、第一に、現時点におけるブロックに最も類似しており、現在のブロックに正常につながるブロックであり、第二に、探索ウインドウ(search window)の中の(スケーリングファクタ(換算係数)によって定まる)理想の位置に置かれる。理想の位置からの偏差は、これによって通常5ms未満に制限される。したがって、探索ウィンドウは、10msの大きさとなる。Demolらによる非特許文献2には、スケーリングファクタを変化させることによって、処理される信号の様々な特徴を考慮し拡張することができると述べている。
本願発明は、WSOLA手法を強化することを目的としている。
このために、請求項1に記載されるように、修正された波形類似性重複加算(WSOLA)手法を使った入力信号のタイムスケーリングのための方法を提案している。また、請求項9に記載されるように、修正された波形類似性重複加算(WSOLA)手法を使った入力信号のタイムスケーリングのための装置を提案している。
前記方法によれば、サブシーケンス・ペアの類似度の大きさのうち、最大の類似度が決定されるように、波形類似性重複加算手法が修正される。それぞれのサブシーケンス・ペアは、入力ウィンドウからのマッチされるサブシーケンスと、サーチウインドウからのマッチするサブシーケンスとを有する。前記サブシーケンス・ペアは、少なくとも2つのサブシーケンス・ペアを含み、第1のペアは、第1のマッチされるサブシーケンスを含み、第2のペアは、異なる第2のマッチされるサブシーケンスを含む。
入力ウィンドウを採用することによって、マッチされる単一のサブシーケンスに基づくWSOLA手法よりも、高い類似度を有するサブシーケンス・ペアを発見することができる。これによって、より知覚しにくいアーチファクトしか発生しなくなる。
実施例において、前記第1のペアは、第1のマッチするサブシーケンスを含み、そして前記第2のペアは、異なる第2のマッチするサブシーケンスを含む。
別の実施例においては、前記第1のペア、および、前記第2のペアは、同じマッチするサブシーケンスを有する。
都合のよいことに、前記波形類似性重複加算手法の変更態様において、サブシーケンスを複製するステップを有し、このステップは、該複製するステップによりもたらされる累積された時間的偏差が、予め定められた最小の時間的偏差に等しいか大きくなるまで、複製を続ける。この累積された時間的偏差は、複製されたサブシーケンスの累積された時間的期間および望まれるタイムスケーリングファクタに依存する。
これによって、接合点の数を減少させ、したがって、タイムスケーリングが聞こえてしまうのを減少させる。
各々のサブシーケンス・ペアの類似度の大きさは、そのペアのサブシーケンス間の時間的間隔を考慮した重みを含んでもよい。
時間的間隔を考慮することによって、WSOLA手法をより望ましい時間的間隔の方向へとバイアスをかけることができる。
例えば、実施例では、類似度は大きい時間間隔の方向にバイアスがかかるように重み付けされる。
これによって、より長いサブシーケンスを追加することができ、結果的に必要な接合点をより少なくできる。
本方法のさらにもう1つの実施例において、類似度は、望まれるタイムスケーリングファクタに対応する時間的間隔に近づく方向にバイアスされるように重みづけされる。
したがって、タイムスケール(time scale)されたシーケンスの一部分であっても、タイムスケールをよく反映することになる。
更なる実施例において、少なくとも1つのポーズ信号セグメントを有するように、入力ウィンドウが決定される。
ポーズ信号に対する接合は、計算上単純であることが知られている。
加えて、更なる実施例において、入力ウィンドウは、過渡的なセグメントを含まないよう決定される。
接合部分は、過渡的な信号セグメントに対して計算的に困難であることが知られている。
本発明の例示的実施形態は、図面によって示され、かつ以下において更に詳細に説明される。
例示的なオリジナルのサンプルシーケンス、および、例示的にタイムスケールされたサンプルシーケンスを示す図である。 例示的な重み関数を示す図である。
本発明の例示的実施形態は、2つのフェーズのプロセスによるタイムスケールファクタαに従って、タイムスケーリングを実現する。
[例示的実施形態]
2つのフェーズのうちの1つにおいて、オリジナルのサンプルシーケンスORIGのサンプルが、単純にタイムスケールされたサンプルシーケンスSCLDへコピーされる。
タイムスケールの差が1−αの絶対値に等しいとする。各々の複製されたサンプルの持続時間は、タイムスケールの差を1つのオリジナルのサンプル時間(Dos)倍した時間間隔だけ、理想的なタイムスケールされたサンプルの持続時間と比較して偏差が存在する。したがって、L個のサンプルを複製することは、結果として、以下の累積された時間的偏差が存在することになる。
Figure 2010015152
ここで、Δは、初期の時間的偏差であり、ゼロであってもよい。または、累積された時間的偏差を特定するときに、無視してもよい。累積された時間的偏差が低い方の偏差閾値Δminを少なくとも上回るようにサンプルが複製される。かつ、最大で、累積された時間的偏差が上限の偏差閾値Δmaxを上回らないようにサンプルが複製される。 低い方の偏差閾値Δminは、タイムスケールされたサンプルシーケンスの接合点の間の最小の距離を保証する。接合点の間のホップ(hop)距離が短いと、自己相似関数(self similarity function)がゼロ近辺で広いピークを持つようなオーディオ信号のエネルギーが低周波範囲に集中する傾向があるため、問題がある。Δminがこのピークより非常に小さい場合、テンプレートマッチングは、列に沿って数回(Δminの和が自己相似関数において上記のピークの幅を超えるまで)、探索ウィンドウの境界が理想の点に近づくよう、決定する。この場合、出力信号は、多くの小さい信号の連結を含むこととなる。最小の距離は、複製された2つのブロックの間のクロスフェード長(すなわちタイムスケールされた信号のN個のサンプル)に対応する。理想的には、N/α個のサンプルが、タイムスケールされた信号のこれらのN個のサンプルを形成するために用いられる。これによって、オリジナル信号の低い方の偏差閾値Δminが数2となる。
Figure 2010015152
加えて、これが少なくとも下限LBになるように、低い方の偏差閾値Δminが、数3により決定されてもよい。
Figure 2010015152
良好な結果は、LB=2msである場合に達成される。特にαが小さい場合、下限LBは、アーチファクトの発生を防止するのに役立つ。
上限の偏差閾値Δmaxは、タイムスケールされたサンプルシーケンスにおける接合点の間の最大の距離を規定する。この最大の距離は、累積された時間偏差Δを規制し、したがって、省略されるかまたは繰り返される入力信号の隣接するサブシーケンスを規制する。これによって、反復または省略されることによって発生するアーチファクトの可聴度が減少する。
複製が上限の偏差閾値Δmaxを満たすか上回った場合、プロセスは第二のフェーズに移行する。第二のフェーズにおいて、修正されたWSOLAが実行される。オリジナルのサンプルシーケンスSCLD中におけるN個の“次にコピーされる可能性のある”(would−be−copied−next)サンプルのテンプレートサブシーケンスに対して、テンプレートマッチングが実行される。このテンプレートマッチングは、オリジナルのサンプルシーケンスORIGの探索ウィンドウ(MW)の中で候補サブシーケンスC1、...、C*、...、Ckのうち接合(splicing)に最も適切な候補サブシーケンスC*を発見するためになされる。テンプレートマッチングは、相関、平均二乗誤差(mean square difference)、平均絶対誤差(mean absolute difference)などの類似度の大きさに基づいている。この類似度の大きさは、重みWによって重み付けされる。重みWは、候補サブシーケンスの時間的位置と、オリジナルサブシーケンスのテンプレート位置との間の時間的な差Δtに依存する。
重みWは、候補サブシーケンスC1、...、C*、...、Ckの理想の時間的シフトITSに依存してもよい。この理想の時間的シフトITSは、オリジナルのサンプルシーケンスORIGの候補サブシーケンスの時間的位置およびタイムスケールファクタによって決定される。
重み関数WF1、WF2、WF3を図2に図式的に示す。
重み関数は、線形関数WF1、WF2であってもよい。これらにより、最適のマッチにおいて、最初の大きな時間偏差(遅延または早い出現(pre−appearance))をもたらす候補に対してバイアスをかける。したがって、次に結合される場合、より大きな信号セグメントとなる。
重み関数がベル形の関数WF3であってもよい。この場合、最適のマッチにおいて、次に結合される場合、最適な時間的シフトITS(ideal temporal shift)に一番対応する最初の時間偏差をもたらす候補に対してバイアスをかけることになる。
同期したオーディオとビデオ信号とを有するフィルムがタイムスケールされている場合、他の重み関数が役立つ。人間の知覚システムは、イベントについての視覚の印象が、イベントについての対応する音の感覚より早く認識される状況に適合している。例えば、誰かが遠くから叫んでいる場合、イベントについての視覚の印象は光速で伝播するのに対して、叫び声は、音速で伝搬する。このため、ビデオ信号に対するオーディオ信号の微少な遅延は、オブザーバによって無視さ得る。しかし、オーディオ信号の遅延が、もはやビデオ信号に合わないほど大きい場合には、煩わしく感じられるアーチファクトが生じる。オーディオ信号に比較してビデオ信号が遅延するいかなるものも、同様に煩わしく感じられる。このように、ビデオ信号のために用いられるタイムスケーリングに依存する重みは、タイムスケールされたオーディオ信号がタイムスケールされたビデオ信号より前にならないようにし、かつ遅延が大きくならないようにすることが肝要である。例えば、ベル形の関数WF3は、シフト位置の中心に位置する。これによって、タイムスケールされたビデオに対してタイムスケールされたオーディオ信号が、それほど大きくない遅延を確保し得る。
テンプレートマッチングは、タイムスケールシーケンス(SCLD)に最後にコピーされたサンプルの直前の、N個の最後のコピーされたサンプルを含むサブシーケンスに対して行われてもよい。最後よりも1つ前(last−but−one)のサブシーケンスとこれに一番マッチするテンプレートとの類似度が、最後のサブシーケンスと最後のサブシーケンスに一番マッチするテンプレートとの類似度との間で比較される。この際に、類似度に重みをかけても、かけなくてもよい。タイムスケールされたサンプルシーケンスにおいて、重み付けされた類似度が一番大きいサブシーケンスが、これに最もマッチしたテンプレートと接合またはクロスフェードされる。同様に、最後のサブシーケンスよりもn個前のサブシーケンスの全てのサブシーケンスB1、...、B*、...、Bnを有するサブシーケンスのセットが、重み付き類似度の最大値の計算の際に考慮されてもよい。
このように、類似度の大きさは、1つの可能な接合点だけで最大値が計算されるのではなく、全ての可能な接合点に対して、最大値が計算される。好ましくは、入力ウインドウ(SW)において密に存在しているということができる。結果は、二次元の類似度の関数である。
しかし、このような二次元の類似度の関数の算出のための計算の負担の増加は、限られているのである。テンプレートの長さがN個のサンプルで探索ウィンドウの幅がK個のサンプルの場合、一次元の類似度の関数はN*K回のかけ算または絶対/二乗値の計算が必要とされる。したがって、K個の類似度の値は、N個の結果の値を合計することにより計算される。
αが1に近い場合、全てのテンプレートに対して、共通の探索ウィンドウが利用できる。
さて、入力ウィンドウの幅がLの場合の二次元の類似度の関数については、(N+L)*Kの値の計算が必要とされる。そして、これらを合計して、L*K個の類似度の値を得ることになる。したがって、二次元の探索においては、計算の負担は、探索ウィンドウの大きさに線形的に増加する。
一次元のフレームワークにおいては、K個の異なる類似度を計算しなければならなかった。加えて、二次元のフレームワークにおいては、L*K個の異なる類似度の計算が必要であった。しかしながら、二次元のフレームワークにおいては、類似度の一部分は、繰り返しにより計算できるのである。
すなわち、第1の候補に対する第1のテンプレートの第1の類似度の値を求める第1の合計値と、第2の候補に対する第2のテンプレートの第2の類似度の値を求める第2の合計値とは、1つの合計が異なるだけである。この場合両者において、この第2のテンプレートおよび第2の候補は、この第1のテンプレートに関して1つのサンプルをシフトしたものであり、第1の候補に関しても同様である。
L*K個の異なる類似度ではなく、最初から計算しなければならないのは、L+K個の類似度だということである。残りの(K−l)*(L−1)個の類似度は、反復により計算できるのである。
もし、αが1よりも非常に大きいか、非常に小さい場合、1セットの重なり合う探索ウィンドウとなり、1つの入力ウィンドウに1テンプレートとなる。対応するテンプレートの理想の時間シフトが使われる時に、探索ウィンドウの各々は中央に置かれる。
入力ウィンドウSWは、それが少なくとも1つのポーズ(pause)および/または少なくとも1つの準周期信号セグメント(quasi−periodic signal segment)を有するように、決定されてもよい。この種の信号セグメントが良好な接合点を提供することが知られている。これに対して、過渡的な信号セグメントは、接合あるいはクロスフェーディングにあまり適していない。なお、重みに関しては、以下のように適合させてもよい。すなわち、重みは、サブシーケンスB1、...、B*、...、Bnの特徴のみによって、または特徴をも加味して適合化される。これは、接合され得るセグメントのポーズおよび/または準周期性は、重みを増加させ、逆に過渡的な信号特徴の場合には、重みを低減させてもよい。
入力ウィンドウSWの最高にマッチしたサブシーケンスB*と、探索ウィンドウの最高にマッチした候補サブシーケンスC*とを有する類似度が最大のサブシーケンス・ペアが、タイムスケールSCLDのクロスフェード領域CFのサンプルを生成するために用いられる。クロスフェード領域のサンプル数は、サブシーケンスのうちの1つのサンプル数に対応させて、サブシーケンスの全てのサンプルがクロスフェードに使われてもよい。または、クロスフェード領域のサンプルの数より少ないサンプル、すなわち、サブシーケンスの一部のサンプルだけが使われる。例えば、サブシーケンス長が1ブロックまたは2*N個のサンプルに対応し、クロスフェード領域の長さが、半ブロックの長さまたはN個のサンプルに対応させてもよい。クロスフェードより長いサブシーケンスを用いることは、音素の中央の方へバイアスすることによって、接合点の可聴性を減少させるのに有利である。
タイムスケールファクタに従って信号のシーケンスをタイムスケールする方法にかかる例示的実施形態がある。この方法は、先行するサブシーケンスのタイムスケーリングにWSOLA手法を用いるステップ、後続するサブシーケンスのタイムスケーリングに内挿法を用いるステップを有する。
更なる例示的実施形態において、本方法は、以下のステップを有する。
(a)マッチされるサブシーケンスB1、B*、Bn、および、マッチするサブシーケンスC1、C*、Ck、を有するサブシーケンス・ペアを構成するステップ、(b)各ペアに対して、ペアを構成するサブシーケンス間の類似度を計算するステップ、(c)最大の類似度を有する好適なペアB*、C*、を特定するステップ、(d)タイムスケールされたシーケンスSCLDにおいて、好適にマッチするサブシーケンスに前記好適にマッチされたサブシーケンスをクロスフェードさせるステップ、(e)好適にマッチするサブシーケンスを参考として、コピーされるサブシーケンスの長さを決定するステップ、(f)このサブシーケンスをタイムスケールされたシーケンスSCLDへ複製し、かつ、ステップ(a)に戻るステップ、である。なお、複製されるサブシーケンスの長さは閾値に依存する。
望ましくは、ステップ(b)は、ペアのマッチされるサブシーケンスおよびマッチするサブシーケンスの間の時間的な距離に依存した重みを特定(determine)するステップを有する。
また更なる実施例において、ステップ(e)は、時間的ファクタおよび前記好適にマッチされたサブシーケンスと好適にマッチするサブシーケンスとの時間的距離を複製されるサブシーケンスの長さの決定に使用するステップを有する。
Δmin 低い方の偏差閾値
Δmax 上限の偏差閾値
Δ 累積された時間偏差
B1...B*...Bn マッチされるサブシーケンス
C1...C*...Cn マッチするサブシーケンス
SW 入力ウィンドウ
MW 探索ウィンドウ
CF クロスフェード領域
WF 重み関数

Claims (15)

  1. 修正された波形類似性重複加算手法(WSOLA)を使用して、入力信号の値のシーケンスをタイムスケーリングする方法であって、
    サブシーケンス・ペアの類似度の大きさのなかで最大の類似度が特定されるように、前記波形類似性重複加算手法が修正され、各々のサブシーケンス・ペアは、入力ウィンドウからのマッチされるサブシーケンスと、探索ウィンドウからのマッチするサブシーケンスとを有し、
    前記サブシーケンス・ペアは、マッチされる第1のサブシーケンスを含む第1のペアおよびマッチされる異なる第2のサブシーケンスを含む第2のペアの、少なくとも2つのサブシーケンス・ペアを有する方法。
  2. 前記第1のペアは第1のマッチするサブシーケンスを含み、かつ、前記第2のペアは異なる第2のマッチするサブシーケンスを含む、請求項1記載の方法。
  3. 前記第1のペア、および、前記第2のペアは、同じマッチするサブシーケンスを含む、
    請求項1記載の方法。
  4. 前記波形類似性重複加算手法の修正は、予め定められた最小の時間的偏差と等しいかより大きい累積された時間偏差となるまでサブシーケンスを複製するステップであって前記累積された時間偏差は前記複製から生じるところのステップを有し、前記累積された時間偏差は、前記複製されたサブシーケンスの累積された時間的継続時間および望まれるタイムスケーリングファクタに依存する、請求項1ないし3のいずれか1項に記載の方法。
  5. 各々の前記サブシーケンス・ペアの前記類似度の大きさは、前記ペアの前記サブシーケンスの間の時間的距離を考慮した重みを含む、請求項1ないし4のいずれか1項に記載の方法。
  6. 前記重みは、時間的距離がより大きい方向にバイアスがかけられる、請求項5記載の方法。
  7. 前記入力ウィンドウが少なくとも1つのポーズ信号セグメントを含むように、前記入力ウィンドウが決定される、請求項1ないし6のいずれか1項に記載の方法。
  8. 前記入力ウィンドウがいかなる過渡的な信号セグメントも含まないように、前記入力ウィンドウが決定される、請求項1ないし7のいずれか1項に記載の方法。
  9. 修正された波形類似性重複加算手法(WSOLA)を使用して、入力信号の値のシーケンスをタイムスケーリングするための手段を有する装置であって、該手段は、サブシーケンス・ペアの類似度の大きさのなかで最大の類似度が特定され、各々のサブシーケンス・ペアは、入力ウィンドウからのマッチされるサブシーケンスと、探索ウィンドウからのマッチするサブシーケンスとを有し、前記サブシーケンス・ペアは、マッチされる第1のサブシーケンスを含む第1のペアおよびマッチされる異なる第2のサブシーケンスを含む第2のペアの、少なくとも2つのサブシーケンス・ペアを有する装置。
  10. 前記第1のペアは第1のマッチするサブシーケンスを含み、かつ、前記第2のペアは異なる第2のマッチするサブシーケンスを含む、請求項9記載の装置。
  11. 前記第1のペア、および、前記第2のペアは、同じマッチするサブシーケンスを含む、請求項9記載の装置。
  12. 前記手段は更に、最小のホップ距離と等しいかより大きい累積された時間偏差となるまでサブシーケンスを複製することに適合し、前記累積された時間偏差は前記複製から生じ、前記累積された時間偏差は、前記複製されたサブシーケンスの累積された時間的継続時間および望まれるタイムスケーリングファクタに依存する、請求項9ないし11のいずれか1項に記載の装置。
  13. 各々のサブシーケンス・ペアの前記類似度の大きさは、前記ペアの前記サブシーケンスの間の時間的距離を考慮した重みを含む、請求項9ないし12のいずれか1項に記載の装置。
  14. 前記重みは、時間的距離がより大きい方向にバイアスがかけられる、請求項13記載の装置。
  15. 前記手段は更に、前記入力ウィンドウが、少なくとも1つのポーズ信号セグメントを含むように、および/または、いかなる過渡的な信号セグメントも含まないように、前記入力ウィンドウが決定される、請求項9ないし14のうちいずれか1項に記載の装置。
JP2009157838A 2008-07-03 2009-07-02 入力信号の値のシーケンスのタイムスケーリングのための方法 Active JP5606694B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08159578A EP2141696A1 (en) 2008-07-03 2008-07-03 Method for time scaling of a sequence of input signal values
EP08159578.7 2008-07-03

Publications (2)

Publication Number Publication Date
JP2010015152A true JP2010015152A (ja) 2010-01-21
JP5606694B2 JP5606694B2 (ja) 2014-10-15

Family

ID=39689304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009157838A Active JP5606694B2 (ja) 2008-07-03 2009-07-02 入力信号の値のシーケンスのタイムスケーリングのための方法

Country Status (8)

Country Link
US (1) US8676584B2 (ja)
EP (2) EP2141696A1 (ja)
JP (1) JP5606694B2 (ja)
KR (1) KR101582358B1 (ja)
CN (1) CN101620856B (ja)
AT (1) ATE528753T1 (ja)
BR (1) BRPI0902006B1 (ja)
TW (1) TWI466109B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102656613B (zh) * 2009-12-18 2015-02-11 本田技研工业株式会社 使用眼睛注视技术、盲点指示器和驾驶员经验的预测人机接口
CN102074239B (zh) * 2010-12-23 2012-05-02 福建星网视易信息系统有限公司 一种实现声音变速的方法
EP3011692B1 (en) 2013-06-21 2017-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Jitter buffer control, audio decoder, method and computer program
WO2014202672A2 (en) * 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time scaler, audio decoder, method and a computer program using a quality control
WO2015130563A1 (en) * 2014-02-28 2015-09-03 United Technologies Corporation Protected wireless network
CN105812902B (zh) * 2016-03-17 2018-09-04 联发科技(新加坡)私人有限公司 数据播放的方法、设备及系统
CN109102821B (zh) * 2018-09-10 2021-05-25 思必驰科技股份有限公司 时延估计方法、系统、存储介质及电子设备
US11087738B2 (en) * 2019-06-11 2021-08-10 Lucasfilm Entertainment Company Ltd. LLC System and method for music and effects sound mix creation in audio soundtrack versioning
CN111916053B (zh) * 2020-08-17 2022-05-20 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN112750456B (zh) * 2020-09-11 2025-03-28 腾讯科技(深圳)有限公司 即时通信应用中的语音数据处理方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11501405A (ja) * 1995-02-28 1999-02-02 モトローラ・インコーポレーテッド 話者依存時間スケーリング技術を使用した通信システムおよび方法
JP2005221811A (ja) * 2004-02-06 2005-08-18 Matsushita Electric Ind Co Ltd 音声速度変換装置と音声速度変換方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0427953B1 (en) * 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Apparatus and method for speech rate modification
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
MX9706532A (es) * 1995-02-28 1997-11-29 Motorola Inc Metodo y aparato para la compresion de la voz en un sistema de comunicacion.
US5828995A (en) * 1995-02-28 1998-10-27 Motorola, Inc. Method and apparatus for intelligible fast forward and reverse playback of time-scale compressed voice messages
US5806023A (en) * 1996-02-23 1998-09-08 Motorola, Inc. Method and apparatus for time-scale modification of a signal
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6324501B1 (en) * 1999-08-18 2001-11-27 At&T Corp. Signal dependent speech modifications
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7873515B2 (en) * 2004-11-23 2011-01-18 Stmicroelectronics Asia Pacific Pte. Ltd. System and method for error reconstruction of streaming audio information
US7693716B1 (en) * 2005-09-27 2010-04-06 At&T Intellectual Property Ii, L.P. System and method of developing a TTS voice
US7565289B2 (en) * 2005-09-30 2009-07-21 Apple Inc. Echo avoidance in audio time stretching
US7957960B2 (en) * 2005-10-20 2011-06-07 Broadcom Corporation Audio time scale modification using decimation-based synchronized overlap-add algorithm
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
WO2009010831A1 (en) * 2007-07-18 2009-01-22 Nokia Corporation Flexible parameter update in audio/speech coded signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11501405A (ja) * 1995-02-28 1999-02-02 モトローラ・インコーポレーテッド 話者依存時間スケーリング技術を使用した通信システムおよび方法
JP2005221811A (ja) * 2004-02-06 2005-08-18 Matsushita Electric Ind Co Ltd 音声速度変換装置と音声速度変換方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置

Also Published As

Publication number Publication date
JP5606694B2 (ja) 2014-10-15
TWI466109B (zh) 2014-12-21
BRPI0902006A2 (pt) 2010-04-13
EP2141697B1 (en) 2011-10-12
CN101620856B (zh) 2013-07-17
CN101620856A (zh) 2010-01-06
KR101582358B1 (ko) 2016-01-04
ATE528753T1 (de) 2011-10-15
US20100004937A1 (en) 2010-01-07
TW201017649A (en) 2010-05-01
BRPI0902006B1 (pt) 2019-09-24
KR20100004876A (ko) 2010-01-13
EP2141697A1 (en) 2010-01-06
EP2141696A1 (en) 2010-01-06
US8676584B2 (en) 2014-03-18

Similar Documents

Publication Publication Date Title
JP5606694B2 (ja) 入力信号の値のシーケンスのタイムスケーリングのための方法
EP2388780A1 (en) Apparatus and method for extending or compressing time sections of an audio signal
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
CN1954604A (zh) 记录/再现装置和记录/再现方法、存储记录/再现程序的记录介质以及用于记录/再现装置的集成电路
RU2006127273A (ru) Способ и устройство масштабирования сигнала по времени
US20210390937A1 (en) System And Method Generating Synchronized Reactive Video Stream From Auditory Input
US20050038534A1 (en) Fixed-size cross-correlation computation method for audio time scale modification
Crockett High quality multi-channel time-scaling and pitch-shifting using auditory scene analysis
Pilia et al. Time scaling detection and estimation in audio recordings
CN117095672B (zh) 一种数字人唇形生成方法及装置
TWI790705B (zh) 語速調整方法及其系統
Goldenstein et al. Time warping of audio signals
US10891966B2 (en) Audio processing method and audio processing device for expanding or compressing audio signals
US20070078662A1 (en) Seamless audio speed change based on time scale modification
KR101152616B1 (ko) 오디오 신호 배속 재생 방법 및 그 장치
Kimoto et al. Method for detecting onset times of sounds of string instrument
KR101336137B1 (ko) 음성 시간축 변환을 위한 고속의 정규화된 상호상관도 계산 방법
Müller et al. Data-driven sound track generation
KR20130037910A (ko) OpenVG 기반 다중 레이어 중첩부분의 위치좌표 결정 방법
JP2005204003A (ja) 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体
Takano et al. Method of generating computer graphics animation synchronizing motion and sound of multiple musical instruments
JP4648183B2 (ja) 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2024102698A (ja) アバター動作制御装置およびアバター動作制御方法
Yan et al. Cross-Modal Approach for Karaoke Artifacts Correction
JP2008145841A (ja) 再生装置、再生方法、信号処理装置、信号処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130412

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140407

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140827

R150 Certificate of patent or registration of utility model

Ref document number: 5606694

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250