JP4442239B2

JP4442239B2 - 音声速度変換装置と音声速度変換方法

Info

Publication number: JP4442239B2
Application number: JP2004030325A
Authority: JP
Inventors: 良二鈴木; 正之三▲さき▼; 岳河村
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-02-06
Filing date: 2004-02-06
Publication date: 2010-03-31
Anticipated expiration: 2024-02-06
Also published as: JP2005221811A

Description

本発明は、音声の基本周波数を変えずに継続時間長のみを変える音声速度変換装置と音声速度変換方法に関する。

音声の基本周波数（音程）を変えずに継続時間長のみを変える音声速度変換装置と音声速度変換方法としては、例えば特許文献１に記載されているようなＭＰＥＧオーディオレイヤ２音声符号化方式に対する音声符号化装置、または特許文献２もしくは非特許文献１に記載されているようなＰＣＭ信号に対する音声速度変換装置と音声速度変換方法が知られている。
特開平１１−１９４７９６号公報特開平４−１０４２００号公報鈴木，三崎「高品質音声速度変換方式のＤＳＰによる実現」，信学技報，ＳＰ９０−３４（１９９０）

しかしながら、特許文献１に開示の音声再生装置では、重み付け加算をするフレームを探すパラメータはエネルギーの小ささ，音声らしさの小ささ，定常性の高さ，エネルギーの変化度合いに基づく継時マスキングの大きさ，またはＭＰＥＧオーディオストリームのスケールファクターであるのに対し、重み付け加算を行うために位相の合う位置を探すパラメータは相関関数であり、異なるパラメータを使用しているために、処理が複雑であるという課題があり、さらにＭＰＥＧオーディオのようなフレーム単位の処理に基づいて、重み付け加算をするフレームと重み付け加算をしないフレームとの頻度を変えることにより時間軸変換比を変えているために、時間軸変換比を細かい刻みで精度良く変えることはできないという課題がある。

また、特許文献２に開示の、もしくは非特許文献１に記載の音声速度変換装置と音声速度変換方法では、２つの音声信号セグメントは相関関数を用いて最適な位置にシフトして加算されるものの、２つの音声信号セグメントの位置は、時間軸変換比αと音声信号セグメント長Ｔｓと１つ前の重み付け加算における相関関数が最大になるシフト時間Ｔｃとにより一意に決まってしまうので、必ずしも最適な音声信号セグメントが選択されているとは限らず、さらに相関関数が最大になるシフト時間Ｔｃの値によっては重み付け加算長が短くなるので音質が低下するという課題がある。

本発明は、かかる課題を解決し、音声信号セグメントを最適な位置から選択して重み付け加算を行うので、音声欠落や音声重複が少なく音質も改善され、しかも時間軸変換比を細かくかつ精度良く変えることができ、さらに重み付け加算の時間長が一定なので音質が低下しにくい音声速度変換装置と音声速度変換方法を提供することを目的とする。

本発明の音声速度変換装置は、音声信号から切り出した所定の時間長の音声信号セグメントとその音声信号セグメントに一部の重複を許して後続する音声信号から切り出した所定の時間長の音声信号セグメントとの類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時の２つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、漸減する窓関数と漸増する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第１の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第２の乗算回路と、前記第１の乗算回路の出力と前記第２の乗算回路の出力とを加算する加算回路と、所望の時間軸変換比になるような時間長の前記加算回路の出力の先頭の音声信号に連続する音声信号と所望の時間軸変換比になるような時間長の前記加算回路の出力の後尾の音声信号に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路とを備えている。

本発明の音声速度変換装置は、２つの音声信号セグメントの類似度を求める類似度計算回路と、２つの音声信号セグメントの一方をシフトしたり２つの音声信号セグメントの切り出し時刻をディレイしながら前記類似度計算回路が求める類似度から類似度の高い値を検出する判定回路と、前記判定回路が検出した類似度が高い時の２つの音声信号セグメントのシフト時間およびディレイ時間に関するパラメータを記憶するパラメータ記憶回路とを備えるため、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。また所望の時間軸変換比になるように加算回路の出力の前端に連続する音声信号と加算回路の出力の後端に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路を備えるため、加算回路の出力の前後に任意の時間長の音声信号を出力できるので、時間軸変換比を細かくかつ精度良く変えることができという効果もある。さらに漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して窓関数発生回路が出力する一方の窓関数を乗じる第１の乗算回路と、パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して窓関数発生回路が出力する他方の窓関数を乗じる第２の乗算回路と、前記第１の乗算回路の出力と前記第２の乗算回路の出力とを加算する加算回路とを備えるため、パラメータ記憶回路に記憶されているパラメータに基づいて一定時間長で類似度が高い音声信号セグメントの組を読み出して重み付け加算するので、どのような場合でも重み付け加算の時間長を一定にでき音質が低下しにくいという効果もある。

本発明の音声速度変換装置は、音声信号が記録されている記憶回路と、前記記憶回路にアドレス値を出力するポインタ制御回路と、前記記憶回路が出力する音声信号の出力先を第１のバッファメモリ回路と第２のバッファメモリ回路と第２のスイッチ回路とから選択する第１のスイッチ回路と、前記第１のスイッチ回路から出力される音声信号セグメントを蓄える第１のバッファメモリ回路と、前記第１のバッファメモリ回路の内容に一部の重複を許して後続し前記第１のスイッチ回路から出力される音声信号セグメントを蓄える第２のバッファメモリ回路と、前記第１のバッファメモリ回路の内容と前記第２のバッファメモリ回路の内容との類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時に前記ポインタ制御回路が出力したアドレス値をポインタ値計算回路が求めるために用いたパラメータを記憶するパラメータ記憶回路と、前記記憶回路に記録されている音声信号を再生する時の時間軸変換比を設定する速度設定回路と、前記速度設定回路に設定されている時間軸変換比に基づいて前記類似度計算回路が類似度を求めるべき２つの音声信号セグメントのアドレス値を計算し、または前記パラメータ記憶回路に記録されているパラメータに基づいて類似度の高い２つの音声信号セグメントおよびその前後に連続する音声信号のアドレス値を計算して前記ポインタ制御回路に出力するポインタ値計算回路と、漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第１のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第１の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第２のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第２の乗算回路と、前記第１の乗算回路の出力と前記第２の乗算回路の出力とを加算する加算回路と、前記加算回路の出力と前記第１のスイッチ回路の出力とを選択する第２のスイッチ回路と、前記第２のスイッチ回路の出力を蓄えて出力する出力バッファ回路と、前記類似度計算回路が類似度を計算する時もしくは前記加算回路が前記第１の乗算回路の出力と前記第２の乗算回路の出力とを加算する時には前記第１のスイッチ回路を第１のバッファメモリ回路側もしくは第２のバッファメモリ回路側に倒し、前記加算回路の出力を前記出力バッファ回路に出力する時には前記第２のスイッチ回路を加算回路側に倒し、それ以外の時には前記加算回路の出力の前後と連続する音声信号を前記記憶回路から前記出力バッファ回路に出力するように前記第１のスイッチ回路と前記第２のスイッチ回路とを制御する制御信号発生回路とを備えるため、速度設定回路に設定されている時間軸変換比に基づいて、ポインタ値計算回路が一定の範囲内で、一部の重複を許す２つの音声信号セグメントの一方をシフトしたり２つの音声信号セグメントの開始点をディレイするような、様々な組み合わせの２つの音声信号セグメントの開始点アドレスを計算し、類似度計算回路が２つの音声信号セグメント間の類似度を求め、判定回路が様々な組み合わせの２つの音声信号セグメント間の類似度から、類似度の高い値を検出し、パラメータ記憶回路が判定回路の検出した類似度の高い２つの音声信号セグメントのパラメータを記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。

また速度設定回路に設定されている時間軸変換比とパラメータ記憶回路に記憶されているパラメータに基づいて、ポインタ値計算回路がアドレスを計算し、第１のスイッチ回路と第２のスイッチ回路が、加算回路の出力とポインタ値計算回路が計算したアドレスに基づく記憶回路からの音声信号の出力とを切り換えて出力バッファ回路に出力する結果、加算回路の出力の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、加算回路の出力の前後に所望の時間軸変換比になるような時間長の音声信号を出力できるので、時間軸変換比を細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。

さらにパラメータ記憶回路に記憶されているパラメータに基づいて、ポインタ値計算回路がアドレスを計算し、記憶回路から第１のバッファメモリ回路と第２のバッファメモリ回路に類似度が高い一定時間長の音声信号セグメントの組を読み出し、窓関数発生回路が漸増する窓関数と漸減する窓関数とを出力し、第１の乗算回路が第１のバッファメモリ回路が出力する音声信号セグメントに対して窓関数発生回路が出力する一方の窓関数を乗じ、第２の乗算回路が第２のバッファメモリ回路が出力する音声信号セグメントに対して窓関数発生回路が出力する他方の窓関数を乗じ、加算回路が第１の乗算回路の出力と第２の乗算回路の出力とを重なるように加算する結果、どのような場合でも加算回路の出力の時間長を一定にでき、音質が低下しにくいという効果もある。

本発明に適用できる類似度計算回路における評価尺度としては、例えば二乗誤差の小ささや相関関数の大きさ、または類似度が高い場合の２つの音声信号セグメントのシフト時間が一定時間以上同一であることが適用できる。

また本発明の音声速度変換方法は、
時間軸変換比αを読み込むステップと、
第１のポインタと第１のポインタのＴｓ後の第２のポインタを設定するステップと、
時間軸変換比αと音声信号セグメント長Ｔｓとシフト時間の初期値Ｔｃ＿ｍｉｎに基づいて最大ディレイ時間Ｔｄ＿ｍａｘを計算するステップと、
類似度を初期設定するステップと、
シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎからディレイ時間Ｔｄと音声信号セグメント長Ｔｓと時間軸変換比αにより決まる最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、第１のポインタと第２のポインタとシフト時間Ｔｃとディレイ時間Ｔｄをパラメータとして音声信号セグメントＸ１と音声信号セグメントＸ２の開始点を求め、それぞれの開始点から時間長Ｔｓの音声信号セグメントＸ１と音声信号セグメントＸ２を入力し、Ｘ１とＸ２の類似度を計算し、類似度が高い時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索するステップと、
第１のポインタもしくは第２のポインタを開始点として時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力するステップと、
第１のポインタと第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔをパラメータとして類似度の高い音声信号セグメントＸ１（１〜Ｔｓ）と音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Ｔｓと類似度の高いシフト時間Ｔｃ＿ｏｐｔに基づいて音声信号をそのまま出力する時間長Ｔｔを計算し、第１のポインタもしくは第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとＴｓに基づいて開始点を求め、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力するステップと、
音声信号セグメント長Ｔｓと音声信号をそのまま出力する時間長Ｔｔと類似度が高い時のシフト時間Ｔｃ＿ｏｐｔに基づいて、第１のポインタと第１のポインタのＴｓ後の第２のポインタを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップ
とを備えるため、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎからディレイ時間Ｔｄと音声信号セグメント長Ｔｓと時間軸変換比αにより決まる最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、第１のポインタと第２のポインタとシフト時間Ｔｃとディレイ時間Ｔｄをパラメータとして音声信号セグメントＸ１と音声信号セグメントＸ２の開始点を求め、それぞれの開始点から時間長Ｔｓの音声信号セグメントＸ１と音声信号セグメントＸ２を入力し、Ｘ１とＸ２の類似度を計算し、類似度が高い時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索するステップが、一定の範囲内で、シフト時間Ｔｃとディレイ時間Ｔｄを変えながら、一部の重複を許す２つの音声信号セグメントＸ１とＸ２の類似度を求め、類似度の高い値を検出した時のシフト時間Ｔｃとディレイ時間ＴｄをそれぞれＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。

また、第１のポインタもしくは第２のポインタを開始点として時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力するステップと、
第１のポインタと第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔをパラメータとして類似度の高い音声信号セグメントＸ１（１〜Ｔｓ）と音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Ｔｓと類似度の高いシフト時間Ｔｃ＿ｏｐｔに基づいて音声信号をそのまま出力する時間長Ｔｔを計算し、第１のポインタもしくは第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとＴｓに基づいて開始点を求め、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力するステップ、
とを備えるため、重み付け加算した信号の前端と連続し時間長Ｔｄ＿ｏｐｔの音声信号を出力し、時間長Ｔｓの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に所望の時間軸変換比になるような時間長の音声信号を出力できるので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。

そして、第１のポインタと第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔをパラメータとして類似度の高い音声信号セグメントＸ１（１〜Ｔｓ）と音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力するステップ、を備えるため、類似度が高くセグメント長Ｔｓの音声信号セグメントの組を入力し、セグメント長Ｔｓの漸増する窓関数Ｗ１とセグメント長Ｔｓの漸減する窓関数Ｗ２を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とが重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長は一定のセグメント長Ｔｓにでき、音質が低下しにくいという効果もある。

さらに、時間軸変換比αと音声信号セグメント長Ｔｓとシフト時間の初期値Ｔｃ＿ｍｉｎに基づいて最大ディレイ時間Ｔｄ＿ｍａｘを計算するステップと、
シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、第１のポインタと第２のポインタとシフト時間Ｔｃとディレイ時間Ｔｄをパラメータとして音声信号セグメントＸ１と音声信号セグメントＸ２の開始点を求め、それぞれの開始点から時間長Ｔｓの音声信号セグメントＸ１と音声信号セグメントＸ２を入力し、Ｘ１とＸ２の類似度を計算し、類似度が高い時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索するステップ、
とを備えるため、音声信号セグメントＸ１と音声信号セグメントＸ２の類似度が高くなる場合のＴｃ＿ｏｐｔとＴｄ＿ｏｐｔを探索する時の、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲に制限し、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
本発明に適用できる類似度を求める時の評価尺度としては、例えば二乗誤差の小ささや相関関数の大きさ、またはディレイ時間Ｔｄを一定時間以上変えても、類似度が高くなる２つの音声信号セグメントのシフト時間Ｔｃ＿ｏｐｔが同一もしくは変化が少ないことが適用できる。

次に、本発明の音声速度変換装置と音声速度変換方法の一実施形態を、図面を参照して説明する。

（実施の形態１）
図１は、本発明の音声速度変換装置の一実施形態に係るブロック図で、１０１は記憶回路、１０２は第１のスイッチ回路、１０３は第１のバッファメモリ回路、１０４は第２のバッファメモリ回路、１０５は類似度計算回路、１０６は判定回路、１０７は窓関数発生回路、１０８は第３のスイッチ回路、１０９は第４のスイッチ回路、１１０は第１の乗算回路、１１１は第２の乗算回路、１１２は加算回路、１１３は第２のスイッチ回路、１１４は出力バッファ回路、１１５は速度設定回路、１１６はパラメータ記憶回路、１１７はポインタ値計算回路、１１８はポインタ制御回路、１１９は制御信号発生回路である。

記憶回路１０１には音声信号が記録されており、ポインタ制御回路１１８が出力するアドレス値と時間長に基づいて、所望の開始点と時間長の音声信号を出力する。

第１のスイッチ回路１０２は、記憶回路１０１が出力する音声信号の出力先を第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４と第２のスイッチ回路１１３とから選択する。

第１のバッファメモリ回路１０３、は第１のスイッチ回路１０２から出力される音声信号セグメントを蓄え、第２のバッファメモリ回路１０４は第１のスイッチ回路１０２から出力され第１のバッファメモリ回路１０３の内容に一部の重複を許して後続する音声信号セグメントを蓄える。

類似度計算回路１０５は、第１のバッファメモリ回路１０３の内容と第２のバッファメモリ回路１０４の内容との類似度を求め、判定回路１０６は類似度計算回路１０５が出力する類似度から類似度の高い値を検出し、パラメータ記憶回路１１６は判定回路１０６が類似度の高い値を検出した時に、ポインタ制御回路１１８が出力したアドレス値をポインタ値計算回路１１７が求めるために用いたパラメータ（シフト時間：Ｔｃ，ディレイ時間：Ｔｄ）を最適シフト時間：Ｔｃ＿ｏｐｔ，最適ディレイ時間：Ｔｄ＿ｏｐｔとして記憶する。この時、第３のスイッチ回路１０８と第４のスイッチ回路１０９は開いており、第１のバッファメモリ回路１０３の内容と第２のバッファメモリ回路１０４の内容は、第１の乗算回路１１０と第２の乗算回路１１１に出力されない。

速度設定回路１１５は、記憶回路１０１に記録されている音声信号を再生する時の時間軸変換比αを設定する。

ポインタ値計算回路１１７は、速度設定回路１１５に設定されている時間軸変換比αに基づいて、類似度計算回路１０５が類似度を求めるべき２つの音声信号セグメントのアドレス値を計算し、またはパラメータ記憶回路１１６に記録されているパラメータ（最適シフト時間：Ｔｃ＿ｏｐｔ，最適ディレイ時間：Ｔｄ＿ｏｐｔ）に基づいて類似度の高い２つの音声信号セグメント、およびその前後に連続する音声信号のアドレス値と時間長を計算してポインタ制御回路１１８に出力する。

窓関数発生回路１０７は、漸増する窓関数と漸減する窓関数とを出力し、第１の乗算回路１１０はパラメータ記憶回路１１６に記憶されているパラメータに基づいて記憶回路１０１から出力され第１のバッファメモリ回路１０３に蓄えられている音声信号セグメントに対して窓関数発生回路１０７が出力する一方の窓関数を乗じ、第２の乗算回路１１１はパラメータ記憶回路１１６に記憶されているパラメータに基づいて記憶回路１０１から出力され第２のバッファメモリ回路１０４に蓄えられている音声信号セグメントに対して窓関数発生回路１０７が出力する他方の窓関数を乗じ、加算回路１１２は第１の乗算回路１１０の出力と第２の乗算回路１１１の出力とを加算する。この時、第３のスイッチ回路１０８と第４のスイッチ回路１０９は閉じており、第１のバッファメモリ回路１０３の内容と第２のバッファメモリ回路１０４の内容は、それぞれ第１の乗算回路１１０と第２の乗算回路１１１に出力される。

第２のスイッチ回路１１３は、加算回路１１２の出力と第１のスイッチ回路１０２の出力とを選択し、出力バッファ回路１１４は第２のスイッチ回路１１３の出力を蓄えて出力する。

制御信号発生回路１１９は、類似度計算回路１０５が類似度を計算する時には、第１のスイッチ回路１０２を第１のバッファメモリ回路１０３側もしくは第２のバッファメモリ回路１０４側に倒し、第３のスイッチ回路１０８と第４のスイッチ回路１０９は開き、加算回路１１２が第１の乗算回路１１０の出力と第２の乗算回路１１１の出力とを加算する時には、第１のスイッチ回路１０２を第１のバッファメモリ回路１０３側もしくは第２のバッファメモリ回路１０４側に倒し、第３のスイッチ回路１０８と第４のスイッチ回路１０９は閉じ、第２のスイッチ回路１１３を加算回路１１２側に倒し、記憶回路１０１から出力される音声信号を、そのまま出力バッファ１１４に出力する時には、第１のスイッチ回路１０２を第２のスイッチ回路１１３側に倒し、第２のスイッチ回路１１３を第１のスイッチ回路１０２側に倒すように制御する。

図２は、本発明の音声速度変換装置の一実施形態に係る類似度の評価関数が二乗誤差の場合の類似度計算回路１０５のブロック図で、２０１は第１のシフトレジスタメモリ回路、２０２は第２のシフトレジスタメモリ回路、２０３＿１〜２０３＿Ｔｓは減算回路、２０４＿１〜２０４＿Ｔｓは乗算回路、２０５は加算回路である。

第１のシフトレジスタメモリ回路２０１には図１における第１のバッファメモリ回路１０３に蓄えられている音声信号セグメントが逐次入力され、第２のシフトレジスタメモリ回路２０２には図１における第２のバッファメモリ回路１０４に蓄えられている音声信号セグメントが逐次入力される。減算回路２０３＿１〜２０３＿Ｔｓは、第１のシフトレジスタメモリ回路２０１に蓄えられている音声信号セグメントＸ１（１〜Ｔｓ）から第２のシフトレジスタメモリ回路２０２に蓄えられている音声信号セグメントＸ２（１〜Ｔｓ）をそれぞれ減算し、乗算回路２０４＿１〜２０４＿Ｔｓは、減算回路２０３＿１〜２０３＿Ｔｓの出力を二乗し、加算回路２０５は、乗算回路２０４＿１〜２０４＿Ｔｓの出力の総和を求め、結果を二乗誤差として出力する。数式１は類似度計算回路１０５が行う二乗誤差の演算を示す。ただし数式１では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。

図３は、本発明の音声速度変換装置の一実施形態に係る類似度の評価関数が相関関数の場合の類似度計算回路１０５のブロック図で、３０１は第１のシフトレジスタメモリ回路、３０２は第２のシフトレジスタメモリ回路、３０３＿１〜３０３＿Ｔｓは乗算回路、３０４は加算回路である。

第１のシフトレジスタメモリ回路３０１には、図１における第１のバッファメモリ回路１０３に蓄えられている音声信号セグメントが逐次入力され、第２のシフトレジスタメモリ回路３０２には図１における第２のバッファメモリ回路１０４に蓄えられている音声信号セグメントが逐次入力される。乗算回路３０３＿１〜３０３＿Ｔｓは、第１のシフトレジスタメモリ回路３０１に蓄えられている音声信号セグメントＸ１（１〜Ｔｓ）と第２のシフトレジスタメモリ回路２０２に蓄えられている音声信号セグメントＸ２（１〜Ｔｓ）とをそれぞれ乗算し、加算回路３０４は、乗算回路３０３＿１〜３０３＿Ｔｓの出力の総和を求め、結果を相関関数として出力する。数式２は類似度計算回路１０５が行う相関関数の演算を示す。ただし数式２では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。

図４は、本発明の音声速度変換装置の一実施形態に係る判定回路１０６のブロック図で、４０１は類似度メモリ回路、４０２は比較回路、４０３は最大／最小メモリ回路である。

類似度メモリ回路４０１には、図１における類似度計算回路１０５が出力する類似度が入力されて記憶される。比較回路４０２は、類似度メモリ回路４０１が出力する現在の類似度と、最大／最小メモリ回路４０３が出力する過去における類似度の最大値もしくは最小値とを比較し、類似度メモリ回路４０１の出力が、最大／最小メモリ回路４０３が出力する最大値よりも大きい場合もしくは最小値よりも小さい場合に、類似度メモリ回路４０１の出力を最大／最小メモリ回路４０３に記憶し直し、図１におけるパラメータ記憶回路１１６に、現在のパラメータを最適シフト時間：Ｔｃ＿ｏｐｔと最適ディレイ時間：Ｔｄ＿ｏｐｔの候補として記憶するように指示を出す。比較回路４０２が最小値を検索するのは、評価関数が二乗誤差の場合であり、比較回路４０２が最大値を検索するのは評価関数が相関関数の場合である。

図５は、本発明の音声速度変換装置の一実施形態に係る時間軸伸張（時間軸変換比α＝５／４）の場合の処理図である。

記憶回路１０１に記録されている音声信号５０１が、ｉ番目の処理単位においてポインタ制御回路１１８が出力する第１のポインタ５０２＿ｉと第２のポインタ５０３＿ｉを基準として、第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４に、音声信号セグメントＸ１（１〜Ｔｓ）と音声信号セグメントＸ２（１〜Ｔｓ）として読み出される。ディレイ時間Ｔｄが０の場合の音声信号セグメントＸ２は５０７で示される区間であり、音声信号セグメントＸ１は、５０７で示される音声信号セグメントＸ２から、音声信号セグメント長Ｔｓだけ先行し５０４＿０で示される区間が規準となる。この５０４＿０で示される区間を規準とし、Ｔｃ＿ｍｉｎだけ先行し５０４＿ｍｉｎで示される区間から、Ｔｃ＿ｍａｘだけ後行し５０４＿ｍａｘで示される区間まで、１サンプルずつずらして取り込んだ音声信号セグメントＸ１と、音声信号セグメントＸ２との類似度を類似度計算回路１０５が求める。ここでＴｃ＿ｍｉｎはあらかじめ定められた定数であり、音声信号セグメント長Ｔｓより短い。Ｔｃ＿ｍａｘはポインタ値計算回路１１７が数式３により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。

そしてディレイ時間Ｔｄを増加させながら、シフト時間ＴｃをＴｃ＿ｍｉｎからＴｃ＿ｍａｘの範囲で変えて、類似度計算回路１０５と判定回路１０６が類似度の計算と類似度の高い値の探索を行う。最大遅延時間Ｔｄ＿ｍａｘはポインタ値計算回路１１７が数式４により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。

ディレイ時間Ｔｄの０からＴｄ＿ｍａｘまでの増加は１サンプル毎でも良いが、演算量の削減のために数サンプル毎に行っても、音質的には問題ない。

ディレイ時間ＴｄがＴｄ＿ｍａｘになり、音声信号セグメントＸ２が５０９で示される区間になり、５０６＿０で示される区間を規準として、５０６＿ｍｉｎで示される区間から５０６＿ｍａｘで示される区間まで音声信号セグメントＸ１をシフトさせた時、類似度の探索は終わる。そして類似度の評価関数が二乗誤差の場合には、判定回路１０６は類似度計算回路１０５が出力する二乗誤差の最小値を検出し、類似度の評価関数が相関関数の場合には、判定回路１０６は類似度計算回路１０５が出力する相関関数の最大値を検出する。パラメータ記憶回路１１６は、判定回路１０６が最高の類似度を検出した時のディレイ時間Ｔｄとシフト時間Ｔｃを記憶しており、それを最適ディレイ時間Ｔｄ＿ｏｐｔと最適シフト時間Ｔｃ＿ｏｐｔとする。パラメータ記憶回路１１６に記憶されている最適ディレイ時間Ｔｄ＿ｏｐｔに基づいて、ポインタ制御回路１１８が第２のポインタ５０３＿ｉを開始点とし時間長Ｔｄ＿ｏｐｔの音声信号Ｘ０（５１６）を記憶回路１０１から読み出し、出力バッファ回路１１４に出力する。次にパラメータ記憶回路１１６に記憶されている最適ディレイ時間Ｔｄ＿ｏｐｔと最適シフト時間Ｔｃ＿ｏｐｔとに基づいて、ポインタ制御回路１１８は、５０８で示される区間の音声信号セグメントＸ２（５１１）と、５０５＿ｏｐｔで示される区間の音声信号セグメントＸ１（５１０）を記憶回路１０１から読み出し、第２のバッファメモリ回路１０４と第１のバッファメモリ回路１０３とに出力する。窓関数発生回路１０７は、漸増する窓関数５１２と漸減する窓関数５１３とを出力し、第１の乗算回路１１０は第１のバッファメモリ回路１０３に蓄えられている音声信号セグメントＸ１（５１０）に対して窓関数発生回路１０７が出力する漸増する窓関数５１２を乗じてＸ１‘を出力し、第２の乗算回路１１１は第２のバッファメモリ回路１０４に蓄えられている音声信号セグメントＸ２（５１１）に対して窓関数発生回路１０７が出力する漸減する窓関数５１３を乗じてＸ２’を出力し、加算回路１１２は第１の乗算回路１１０の出力Ｘ１‘と第２の乗算回路１１１の出力Ｘ２’とを加算した信号５１４を出力バッファ回路１１４に出力する。そしてパラメータ記憶回路１１６に記憶されている最適ディレイ時間Ｔｄ＿ｏｐｔと最適シフト時間Ｔｃ＿ｏｐｔとに基づいて、ポインタ制御回路１１８が音声信号セグメントＸ１に後続するサンプルを開始点とし、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号Ｘ３（５１７）を記憶回路１０１から読み出し、出力バッファ回路１１４に出力する。ここで、入力音声信号をそのまま出力する時間長Ｔｔはポインタ値計算回路１１７が数式５により求めることで、正確な時間軸変換比αの実現が可能となる。

以上でｉ番目の処理単位が終了し、引き続きｉ＋１番目の処理単位のために、ポインタ値計算回路１１７が数式６と数式７により、第２のポインタ５０３＿ｉ＋１と第１のポインタ５０２＿ｉ＋１を求め、ポインタ制御回路１１８に出力する。

図６は、本発明の音声速度変換装置の一実施形態に係る時間軸圧縮（時間軸変換比α＝４／５）の場合の処理図である。

記憶回路１０１に記録されている音声信号６０１が、ｉ番目の処理単位においてポインタ制御回路１１８が出力する第１のポインタ６０２＿ｉと第２のポインタ６０３＿ｉを基準として、第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４に、音声信号セグメントＸ１（１〜Ｔｓ）と音声信号セグメントＸ２（１〜Ｔｓ）が読み出される。ディレイ時間Ｔｄが０の場合の音声信号セグメントＸ１は６０４で示される区間であり、音声信号セグメントＸ２は、６０４で示される音声信号セグメントＸ１から、音声信号セグメント長Ｔｓだけ後行し６０７＿０で示される区間が規準となる。この６０４＿０で示される区間を規準とし、Ｔｃ＿ｍｉｎだけ後行し６０７＿ｍｉｎで示される区間から、Ｔｃ＿ｍａｘだけ先行し６０７＿ｍａｘで示される区間まで、１サンプルずつずらして取り込んだ音声信号セグメントＸ２と、音声信号セグメントＸ１との類似度を類似度計算回路１０５が求める。ここでＴｃ＿ｍｉｎはあらかじめ定められた定数であり、音声信号セグメント長Ｔｓより短い。Ｔｃ＿ｍａｘはポインタ値計算回路１１７が数式８により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。

そしてディレイ時間Ｔｄを増加させながら、シフト時間ＴｃをＴｃ＿ｍｉｎからＴｃ＿ｍａｘの範囲で変えて、類似度計算回路１０５と判定回路１０６が類似度の計算と類似度の高い値の探索を行う。最大遅延時間Ｔｄ＿ｍａｘはポインタ値計算回路１１７が数式９により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。

ディレイ時間ＴｄがＴｄ＿ｍａｘになり、音声信号セグメントＸ１が６０６で示される区間になり、６０９＿０で示される区間を規準として、６０９＿ｍｉｎで示される区間から６０９＿ｍａｘで示される区間まで音声信号セグメントＸ２をシフトさせた時、類似度の探索は終わる。そして類似度の評価関数が二乗誤差の場合には、判定回路１０６は類似度計算回路１０５が出力する二乗誤差の最小値を検出し、類似度の評価関数が相関関数の場合には、判定回路１０６は類似度計算回路１０５が出力する相関関数の最大値を検出する。パラメータ記憶回路１１６は、判定回路１０６が最高の類似度を検出した時のディレイ時間Ｔｄとシフト時間Ｔｃを記憶しており、それを最適ディレイ時間Ｔｄ＿ｏｐｔと最適シフト時間Ｔｃ＿ｏｐｔとする。パラメータ記憶回路１１６に記憶されている最適ディレイ時間Ｔｄ＿ｏｐｔに基づいて、ポインタ制御回路１１８が第１のポインタ６０２＿ｉを開始点とし時間長Ｔｄ＿ｏｐｔの音声信号Ｘ０（６１６）を記憶回路１０１から読み出し、出力バッファ回路１１４に出力する。次にパラメータ記憶回路１１６に記憶されている最適ディレイ時間Ｔｄ＿ｏｐｔと最適シフト時間Ｔｃ＿ｏｐｔとに基づいて、ポインタ制御回路１１８は、６０５で示される区間の音声信号セグメントＸ１（６１０）と、６０８＿ｏｐｔで示される区間の音声信号セグメントＸ２（６１１）を記憶回路１０１から読み出し、第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４とに出力する。窓関数発生回路１０７は、漸減する窓関数６１２と漸増する窓関数６１３とを出力し、第１の乗算回路１１０は第１のバッファメモリ回路１０３に蓄えられている音声信号セグメントＸ１（６１０）に対して窓関数発生回路１０７が出力する漸減する窓関数６１２を乗じてＸ１‘を出力し、第２の乗算回路１１１は第２のバッファメモリ回路１０４に蓄えられている音声信号セグメントＸ２（６１１）に対して窓関数発生回路１０７が出力する漸増する窓関数６１３を乗じてＸ２’を出力し、加算回路１１２は第１の乗算回路１１０の出力Ｘ１‘と第２の乗算回路１１１の出力Ｘ２’とを加算した信号６１４を出力バッファ回路１１４に出力する。そしてパラメータ記憶回路１１６に記憶されている最適ディレイ時間Ｔｄ＿ｏｐｔと最適シフト時間Ｔｃ＿ｏｐｔとに基づいて、ポインタ制御回路１１８が音声信号セグメントＸ２に後続するサンプルを開始点とし、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号Ｘ３（６１７）を記憶回路１０１から読み出し、出力バッファ回路１１４に出力する。ここで、入力音声信号をそのまま出力する時間長Ｔｔはポインタ値計算回路１１７が数式１０により求めることで、正確な時間軸変換比αの実現が可能となる。

以上でｉ番目の処理単位が終了し、引き続きｉ＋１番目の処理単位のために、ポインタ値計算回路１１７が数式１１と数式１２により、第１のポインタ６０２＿ｉ＋１と第２のポインタ６０３＿ｉ＋１を求め、ポインタ制御回路１１８に出力する。

このように、速度設定回路１１５に設定されている時間軸変換比αに基づいて、ポインタ値計算回路１１７が一定の範囲内で、一部の重複を許す２つの音声信号セグメントの一方をシフトしたり２つの音声信号セグメントの開始点をディレイするような、様々な組み合わせの２つの音声信号セグメントの開始点アドレスを計算し、類似度計算回路１０５が２つの音声信号セグメント間の類似度を求め、判定回路１０６がディレイ時間Ｔｄとシフト時間Ｔｃの様々な組み合わせの２つの音声信号セグメント間の類似度から、類似度の高い値を検出し、パラメータ記憶回路１１６が判定回路１０６の検出した２つのセグメント間の類似度が高い時のパラメータ（Ｔｃ＿ｏｐｔ，Ｔｄ＿ｏｐｔ）を記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。

また速度設定回路１１５に設定されている時間軸変換αとパラメータ記憶回路１１６に記憶されているパラメータ（Ｔｃ＿ｏｐｔ，Ｔｄ＿ｏｐｔ）に基づいて、ポインタ値計算回路１１７がアドレスを計算し、第１のスイッチ回路１０２と第２のスイッチ回路１１３が、加算回路１１２の出力とポインタ値計算回路１１７が計算したアドレスに基づく記憶回路１０１からの音声信号の出力とを切り換えて出力バッファ回路１１４に出力する結果、加算回路１１２の出力の前後もしくは一方に連続する音声信号（Ｘ０，Ｘ３）が出力されるので、連続的で滑らかな音声信号を出力することができ、加算回路１１２の出力の前後に所望の時間軸変換比αになるような時間長の音声信号（Ｘ０，Ｘ３）を出力できるので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比αに精度良く変えることができという効果もある。

さらにパラメータ記憶回路１１６に記憶されているパラメータ（Ｔｃ＿ｏｐｔ，Ｔｄ＿ｏｐｔ）に基づいて、ポインタ値計算回路１１７がアドレスを計算し、記憶回路１０１から第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４に類似度が高い一定時間長Ｔｃの音声信号セグメントの組（Ｘ１，Ｘ２）を読み出し、窓関数発生回路１０７が漸増する窓関数と漸減する窓関数とを出力し、第１の乗算回路１１０が第１のバッファメモリ回路１０３が出力する音声信号セグメントＸ１に対して窓関数発生回路１０７が出力する一方の窓関数を乗じ、第２の乗算回路１１１が第２のバッファメモリ回路１０４が出力する音声信号セグメントＸ２に対して窓関数発生回路１０７が出力する他方の窓関数を乗じ、加算回路１１２が第１の乗算回路１１０の出力Ｘ１‘と第２の乗算回路１１１の出力Ｘ２’とを重なるように加算する結果、どのような場合でも加算回路１１２の出力の時間長を一定のセグメント長Ｔｓにでき、音質が低下しにくいという効果もある。

なお、本実施の形態の類似度計算回路１０５における評価尺度として、図２に示した二乗誤差の小ささや図３に示した相関関数の大きさを用いたが、ディレイ時間Ｔｄを一定時間以上変えても、類似度が高い２つの音声信号セグメントのシフト時間Ｔｃが同一もしくは変化が少ないという評価尺度を用いることもできる。この場合には、音声信号の定常性が考慮されることとなり、音質改善が期待できる。

なお本実施の形態の類似度計算回路１０５における評価尺度として、図２に示した正規化していない二乗誤差の小ささや、図３に示した正規化していない相関関数の大きさを用いたが、正規化した二乗誤差の小ささや、正規化した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、音声信号の振幅の大きさに依存しない評価尺度となるので、音声信号の振幅に影響されずに類似度を求めることができ、音質改善が期待できる。

なお本実施の形態の第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４では、音声信号を音声信号セグメント長Ｔｓ単位で記憶回路１０１から読み込んでいるが、もっと大きい処理単位毎に読み込んでも良い。例えば図５に示す時間軸伸張の場合には、５０４＿ｍｉｎの開始点から５０９の終了点までを、図６に示す時間軸圧縮の場合には、６０４の開始点から６０９＿ｍｉｎの終了点までを、第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４に読み込んでしまうことにより、ディレイ時間Ｔｄとシフト時間Ｔｃを変えながら２つの音声信号セグメントの類似度を求める時と、類似度が高い場合のシフト時間Ｔｃ＿ｏｐｔとディレイ時間Ｔｄ＿ｏｐｔにおける２つの音声信号セグメントを重み付け加算する時に、記憶回路１０１へのアクセスをしないようにできる。この場合には、記憶回路１０１から第１のバッファメモリ回路１０３と第２のバッファメモリ回路１０４への転送回数が少なくて済むので、処理時間を短縮することが可能となる
（実施の形態２）
図７は、本発明の音声速度変換方法の時間軸伸張（α≧１）の場合のフローチャートで、７０２の時間軸変換比αを読み込むステップと、７０３の第１のポインタを初期設定するステップと、７０４の第２のポインタに第１のポインタに対し音声信号セグメント長Ｔｓ後の値を設定するステップと、７０５の数式４に基づいて時間軸変換比αと音声信号セグメント長Ｔｓとシフト時間の初期値Ｔｃ＿ｍｉｎにより最大ディレイ時間Ｔｄ＿ｍａｘを計算するステップと、７０６の最小二乗誤差Ｒ＿ｍｉｎを初期値Ｎに初期設定するステップと、７０７のディレイ時間Ｔｄを初期値０に初期設定するステップと、７０８のシフト時間Ｔｃにシフト時間の初期値Ｔｃ＿ｍｉｎを設定するステップと、７０９の数式３に基づいてディレイ時間Ｔｄにおける最大シフト時間Ｔｃ＿ｍａｘを計算するステップと、７１０の（第１のポインタ＋Ｔｃ＋Ｔｄ）を開始点としてＴｓ個の音声信号セグメントＸ１（１〜Ｔｓ）を入力するステップと、７１１の（第２のポインタ＋Ｔｄ）を開始点としてＴｓ個の音声信号セグメントＸ２（１〜Ｔｓ）を入力するステップと、７１２の数式１に基づいてシフト時間Ｔｃかつディレイ時間Ｔｄの時の音声信号セグメントＸ１と音声信号セグメントＸ２の二乗誤差Ｒ（Ｔｃ，Ｔｄ）を計算するステップと、７１３の最小二乗誤差Ｒ＿ｍｉｎと二乗誤差Ｒ（Ｔｃ，Ｔｄ）とを比較し、Ｒ＿ｍｉｎが二乗誤差Ｒ（Ｔｃ，Ｔｄ）よりも大きければステップ７１４に行き、そうでなければステップ７１７に行くステップと、７１４の二乗誤差Ｒ（Ｔｃ，Ｔｄ）を新たな最小二乗誤差Ｒ＿ｍｉｎとして更新するステップと、７１５のシフト時間Ｔｃを最適シフト時間Ｔｃ＿ｏｐｔとして更新するステップと、７１６のディレイ時間Ｔｄを最適ディレイ時間Ｔｄ＿ｏｐｔとして更新するステップと、７１７のシフト時間Ｔｃを１サンプルだけ増加させるステップと、７１８のシフト時間Ｔｃと最大シフト時間Ｔｃ＿ｍａｘとを比較し、シフト時間Ｔｃが最大シフト時間Ｔｃ＿ｍａｘよりも大きくない場合にはステップ７１０に戻り、シフト時間Ｔｃが最大シフト時間Ｔｃ＿ｍａｘよりも大きい場合にはステップ７１９に進むことで、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲で変えるステップと、７１９のディレイ時間Ｔｄを△Ｔｄサンプルだけ増加させるステップと、７２０のディレイ時間Ｔｄと最大ディレイ時間Ｔｄ＿ｍａｘとを比較し、ディレイ時間Ｔｄが最大ディレイ時間Ｔｄ＿ｍａｘよりも大きくない場合にはステップ７０８に戻り、ディレイ時間Ｔｄが最大ディレイ時間Ｔｄ＿ｍａｘよりも大きい場合にはステップ７２１に進むことで、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変えるステップと、７２１の第２のポインタを開始点としてＴｄ＿ｏｐｔ個の音声信号サンプルを入力しそのまま出力するステップと、７２２の（第１のポインタ＋Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ）を開始点としてＴｓ個の音声信号セグメントＸ１（１〜Ｔｓ）を入力するステップと、７２３の（第２のポインタ＋Ｔｄ＿ｏｐｔ）を開始点としてＴｓ個の音声信号セグメントＸ２（１〜Ｔｓ）を入力するステップと、７２４の数式１３に基づいて音声信号セグメントＸ１（ｉ）に対して漸増する窓関数Ｗ１（ｉ）を乗じたものと音声信号セグメントＸ２（ｉ）に対して漸減する窓関数Ｗ２（ｉ）を乗じたものとを加算した信号Ｙ（ｉ）をｉ＝１〜Ｔｓの間計算して出力するステップと、

７２５の数式５に基づいて入力音声信号をそのまま出力する時間長Ｔｔを計算するステップと、７２６の（第１のポインタ＋Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ＋Ｔｓ）を開始点として（Ｔｔ−Ｔｄ＿ｏｐｔ）個の音声信号を入力してそのまま出力するステップと、７２７の数式６に基づいて次の処理単位における第２のポインタを設定するステップと、７２８の数式７に基づいて次の処理単位における第１のポインタを設定するステップと、７２９の終了でなければステップ７０６に戻って処理を繰り返し、終了ならばステップ７３０で終了するステップとを備えている。

ただしこのフローチャートでは簡単のため、単位時間とサンプリング周期とを等しいとして表現している。

ステップ７０８とステップ７１７とステップ７１８によりシフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ステップ７０７とステップ７１９とステップ７２０によりディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、ステップ７１０により音声信号セグメントＸ１の開始点を求めて時間長Ｔｓの音声信号セグメントＸ１を入力し、ステップ７１１により音声信号セグメントＸ２の開始点を求めて時間長Ｔｓの音声信号セグメントＸ２を入力し、ステップ７１２で音声信号セグメントＸ１と音声信号セグメントＸ２の二乗誤差を類似度の評価関数として計算し、ステップ７１３とステップ７１４とステップ７１５とステップ７１６で二乗誤差の値が小さい時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索することにより、シフト時間Ｔｃの初期値Ｔｃ＿ｍｉｎと最大シフト時間Ｔｃ＿ｍａｘと最大ディレイ時間Ｔｄ＿ｍａｘにより決められる一定の範囲内で、シフト時間Ｔｃとディレイ時間Ｔｄを変えながら、一部の重複を許す２つの音声信号セグメントＸ１とＸ２の二乗誤差を求め、最も二乗誤差が小さい時のシフト時間Ｔｃとディレイ時間ＴｄをそれぞれＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。

また、ステップ７２１により、第２のポインタを開始点として時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力し、ステップ７２２とステップ７２３とステップ７２４により、類似度の高い第１の音声信号セグメントＸ１（１〜Ｔｓ）と第２の音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力し、ステップ７２５により、音声信号をそのまま出力する時間長Ｔｔを計算し、ステップ７２６により、第１のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとＴｓに基づいて開始点を求め、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力することにより、重み付け加算した信号の前端と連続し時間長Ｔｄ＿ｏｐｔの音声信号を出力し、時間長Ｔｓの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に合計の時間長Ｔｔの音声信号を出力するので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。

そして、ステップ７２２とステップ７２３とステップ７２４により、類似度の高い第１の音声信号セグメントＸ１（１〜Ｔｓ）と第２の音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力することにより、類似度が高くセグメント長Ｔｓの音声信号セグメントの組Ｘ１とＸ２を入力し、セグメント長Ｔｓの漸増する窓関数Ｗ１とセグメント長Ｔｓの漸減する窓関数Ｗ２を用いて、第１の音声信号セグメントＸ１と第２の音声信号セグメントＸ２とを重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長を一定のセグメント長Ｔｓにでき、音質が低下しにくいという効果もある。

さらに、ステップ７０５により、最大ディレイ時間Ｔｄ＿ｍａｘを計算し、ステップ７０９により、最大シフト時間Ｔｃ＿ｍａｘを計算し、ステップ７０８とステップ７１７とステップ７１８により、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ステップ７０７とステップ７１９とステップ７２０により、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、ステップ７１０とステップ７１１とステップ７１２により、第１のポインタと第２のポインタとシフト時間Ｔｃとディレイ時間Ｔｄをパラメータとして音声信号セグメントＸ１と音声信号セグメントＸ２の開始点を求め、それぞれの開始点から時間長Ｔｓの音声信号セグメントＸ１と音声信号セグメントＸ２を入力し、Ｘ１とＸ２の二乗誤差を計算し、ステップ７１３とステップ７１４とステップ７１５とステップ７１６により、二乗誤差が小さい時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索することにより、音声信号セグメントＸ１と音声信号セグメントＸ２の類似度が高くなる場合のＴｃ＿ｏｐｔとＴｄ＿ｏｐｔを探索する時の、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲に制限し、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。

本発明に適用できる類似度を求める時の評価尺度としては、二乗誤差の小ささを用いたが、相関関数の大きさや、ディレイ時間Ｔｄを一定時間以上変えても、類似度が高くなる２つの音声信号セグメントのシフト時間Ｔｃ＿ｏｐｔが同一もしくは変化が少ないことも適用できる。

図８は、本発明の音声速度変換方法の時間軸圧縮（α≦１）の場合のフローチャートで、８０２の時間軸変換比αを読み込むステップと、８０３の第１のポインタを初期設定するステップと、８０４の第２のポインタに第１のポインタに対し音声信号セグメント長Ｔｓ後の値を設定するステップと、８０５の数式９に基づいて時間軸変換比αと音声信号セグメント長Ｔｓとシフト時間の初期値Ｔｃ＿ｍｉｎにより最大ディレイ時間Ｔｄ＿ｍａｘを計算するステップと、８０６の最小二乗誤差Ｒ＿ｍｉｎを初期値Ｎに初期設定するステップと、８０７のディレイ時間Ｔｄを初期値０に初期設定するステップと、８０８のシフト時間Ｔｃにシフト時間の初期値Ｔｃ＿ｍｉｎを設定するステップと、８０９の数式８に基づいてディレイ時間Ｔｄにおける最大シフト時間Ｔｃ＿ｍａｘを計算するステップと、８１０の（第１のポインタ＋Ｔｄ）を開始点としてＴｓ個の音声信号セグメントＸ１（１〜Ｔｓ）を入力するステップと、８１１の（第２のポインタ−Ｔｃ＋Ｔｄ）を開始点としてＴｓ個の音声信号セグメントＸ２（１〜Ｔｓ）を入力するステップと、８１２の数式１に基づいてシフト時間Ｔｃかつディレイ時間Ｔｄの時の音声信号セグメントＸ１と音声信号セグメントＸ２の二乗誤差Ｒ（Ｔｃ，Ｔｄ）を計算するステップと、８１３の最小二乗誤差Ｒ＿ｍｉｎと二乗誤差Ｒ（Ｔｃ，Ｔｄ）とを比較し、Ｒ＿ｍｉｎが二乗誤差Ｒ（Ｔｃ，Ｔｄ）よりも大きければステップ８１４に行き、そうでなければステップ８１７に行くステップと、
８１４の二乗誤差Ｒ（Ｔｃ，Ｔｄ）を新たな最小二乗誤差Ｒ＿ｍｉｎとして更新するステップと、８１５のシフト時間Ｔｃを最適シフト時間Ｔｃ＿ｏｐｔとして更新するステップと、８１６のディレイ時間Ｔｄを最適ディレイ時間Ｔｄ＿ｏｐｔとして更新するステップと、８１７のシフト時間Ｔｃを１サンプルだけ増加させるステップと、８１８のシフト時間Ｔｃと最大シフト時間Ｔｃ＿ｍａｘとを比較し、シフト時間Ｔｃが最大シフト時間Ｔｃ＿ｍａｘよりも大きくない場合にはステップ８１０に戻り、シフト時間Ｔｃが最大シフト時間Ｔｃ＿ｍａｘよりも大きい場合にはステップ８１９に進むことで、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲で変えるステップと、８１９のディレイ時間Ｔｄを△Ｔｄサンプルだけ増加させるステップと、８２０のディレイ時間Ｔｄと最大ディレイ時間Ｔｄ＿ｍａｘとを比較し、ディレイ時間Ｔｄが最大ディレイ時間Ｔｄ＿ｍａｘよりも大きくない場合にはステップ８０８に戻り、ディレイ時間Ｔｄが最大ディレイ時間Ｔｄ＿ｍａｘよりも大きい場合にはステップ８２１に進むことで、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変えるステップと、８２１の第１のポインタを開始点としてＴｄ＿ｏｐｔ個の音声信号サンプルを入力しそのまま出力するステップと、８２２の（第１のポインタ＋Ｔｄ＿ｏｐｔ）を開始点としてＴｓ個の音声信号セグメントＸ１（１〜Ｔｓ）を入力するステップと、８２３の（第２のポインタ−Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ）を開始点としてＴｓ個の音声信号セグメントＸ２（１〜Ｔｓ）を入力するステップと、８２４の数式１４に基づいて音声信号セグメントＸ１（ｉ）に対して漸減する窓関数Ｗ２（ｉ）を乗じたものと音声信号セグメントＸ２（ｉ）に対して漸増する窓関数Ｗ１（ｉ）を乗じたものとを加算した信号Ｙ（ｉ）をｉ＝１〜Ｔｓの間計算して出力するステップと、

８２５の数式１０に基づいて入力音声信号をそのまま出力する時間長Ｔｔを計算するステップと、８２６の（第２のポインタ−Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ＋Ｔｓ）を開始点として（Ｔｔ−Ｔｄ＿ｏｐｔ）個の音声信号を入力してそのまま出力するステップと、８２７の数式１１に基づいて次の処理単位における第１のポインタを設定するステップと、８２８の数式１２に基づいて次の処理単位における第２のポインタを設定するステップと、８２９の終了でなければステップ８０６に戻って処理を繰り返し、終了ならばステップ８３０で終了するステップ
とを備えている。

ステップ８０８とステップ８１７とステップ８１８によりシフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ステップ８０７とステップ８１９とステップ８２０によりディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、ステップ８１０により音声信号セグメントＸ１の開始点を求めて時間長Ｔｓの音声信号セグメントＸ１を入力し、ステップ８１１により音声信号セグメントＸ２の開始点を求めて時間長Ｔｓの音声信号セグメントＸ２を入力し、ステップ８１２で音声信号セグメントＸ１と音声信号セグメントＸ２の二乗誤差を類似度の評価関数として計算し、ステップ８１３とステップ８１４とステップ８１５とステップ８１６で二乗誤差の値が小さい時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索することにより、シフト時間Ｔｃの初期値Ｔｃ＿ｍｉｎと最大シフト時間Ｔｃ＿ｍａｘと最大ディレイ時間Ｔｄ＿ｍａｘにより決められる一定の範囲内で、シフト時間Ｔｃとディレイ時間Ｔｄを変えながら、一部の重複を許す２つの音声信号セグメントＸ１とＸ２の二乗誤差を求め、最も二乗誤差が小さい時のシフト時間Ｔｃとディレイ時間ＴｄをそれぞれＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。

また、ステップ８２１により、第１のポインタを開始点として時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力し、ステップ８２２とステップ８２３とステップ８２４により、類似度の高い第１の音声信号セグメントＸ１（１〜Ｔｓ）と第２の音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸減する窓関数Ｗ２（１〜Ｔｓ）と漸増する窓関数Ｗ１（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力し、ステップ８２５により、音声信号をそのまま出力する時間長Ｔｔを計算し、ステップ８２６により、第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとＴｓに基づいて開始点を求め、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力することにより、重み付け加算した信号の前端と連続し時間長Ｔｄ＿ｏｐｔの音声信号を出力し、時間長Ｔｓの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に合計の時間長Ｔｔの音声信号を出力するので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。

そして、ステップ８２２とステップ８２３とステップ８２４により、類似度の高い第１の音声信号セグメントＸ１（１〜Ｔｓ）と第２の音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸減する窓関数Ｗ２（１〜Ｔｓ）と漸増する窓関数Ｗ１（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力することにより、類似度が高くセグメント長Ｔｓの音声信号セグメントの組Ｘ１とＸ２を入力し、セグメント長Ｔｓの漸減する窓関数Ｗ２とセグメント長Ｔｓの漸増する窓関数Ｗ１を用いて、第１の音声信号セグメントＸ１と第２の音声信号セグメントＸ２とを重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長を一定のセグメント長Ｔｓにでき、音質が低下しにくいという効果もある。

さらに、ステップ８０５により、最大ディレイ時間Ｔｄ＿ｍａｘを計算し、ステップ８０９により、最大シフト時間Ｔｃ＿ｍａｘを計算し、ステップ８０８とステップ８１７とステップ８１８により、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ステップ８０７とステップ８１９とステップ８２０により、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、ステップ８１０とステップ８１１とステップ８１２により、第１のポインタと第２のポインタとシフト時間Ｔｃとディレイ時間Ｔｄをパラメータとして音声信号セグメントＸ１と音声信号セグメントＸ２の開始点を求め、それぞれの開始点から時間長Ｔｓの音声信号セグメントＸ１と音声信号セグメントＸ２を入力し、Ｘ１とＸ２の二乗誤差を計算し、ステップ８１３とステップ８１４とステップ８１５とステップ８１６により、二乗誤差が小さい時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索することにより、音声信号セグメントＸ１と音声信号セグメントＸ２の類似度が高くなる場合のＴｃ＿ｏｐｔとＴｄ＿ｏｐｔを探索する時の、シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘの範囲に制限し、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。

なお本実施の形態では類似度を求める時の評価尺度としては、ステップ７１２やステップ８１２の二乗誤差の小ささを用いたが、相関関数の大きさや、ディレイ時間Ｔｄを一定時間以上変えても、類似度が高くなる２つの音声信号セグメントのシフト時間Ｔｃ＿ｏｐｔが同一もしくは変化が少ないことも適用できる。

なお本実施の形態の類似度の評価尺度としては、ステップ７１２やステップ８１２の正規化していない二乗誤差の小ささを用いたが、正規化した二乗誤差の小ささや、正規化した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、音声信号の振幅の大きさに依存しない評価尺度となるので、音声信号の振幅に影響されずに類似度を求めることができ、音質改善が期待できる。

なお本実施の形態において、音声信号セグメント間の二乗誤差を求める時に、ステップ７１０とステップ７１１やステップ８１０とステップ８１１では、音声信号を音声信号セグメント長Ｔｓ単位で入力しているが、もっと大きい処理単位毎に入力しても良い。例えば図５に示す時間軸伸張の場合には、５０４＿ｍｉｎの開始点から５０９の終了点までを、入力してしまい、図６に示す時間軸圧縮の場合には、６０４の開始点から６０９＿ｍｉｎの終了点までを入力してしまうことにより、ステップ７１０とステップ７１１やステップ８１０とステップ８１１のように、ディレイ時間Ｔｄとシフト時間Ｔｃを変えながら２つの音声信号セグメントを入力する時や、ステップ７２１やステップ８２１のように、時間長Ｔｄ＿ｏｐｔの音声信号を入力する時や、ステップ７２２とステップ７２３やステップ８２２とステップ８２３のように、シフト時間Ｔｃ＿ｏｐｔとディレイ時間Ｔｄ＿ｏｐｔにおける２つの音声信号セグメントを入力する時や、ステップ７２６やステップ８２６のように、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力する時に、音声信号を入力し直さないようにできる。この場合には、既に入力された音声信号を切り出すだけで良く、音声信号の入力回数は少なくて済むので、処理時間を短縮することが可能となる。

本発明の音声速度変換装置と音声速度変換方法は、音声の基本周波数を変えずに継続時間長のみを変えることができ、速度を変えても明瞭度が下がりにくいので、ディスク媒体や半導体メモリに記録された音声信号を、使用者が聞き易い速度や聞きたい速度で再生することが必要な用途に適用できる。

本発明の音声速度変換装置の一実施形態のブロック図同実施形態の類似度計算回路のブロック図同実施形態の類似度計算回路のブロック図同実施形態の判定回路のブロック図同実施形態の時間軸伸張の場合の処理図（時間軸変換比α＝５／４）同実施形態の時間軸圧縮の場合の処理図（時間軸変換比α＝４／５）本発明の音声速度変換方法の一実施形態の時間軸伸張（α≧１）の場合のフローチャート本発明の音声速度変換方法の一実施形態の時間軸伸張（α≧１）の場合のフローチャート本発明の音声速度変換方法の一実施形態の時間軸伸張（α≧１）の場合のフローチャート本発明の音声速度変換方法の一実施形態の時間軸伸張（α≧１）の場合のフローチャート本発明の音声速度変換方法の一実施形態の時間軸圧縮（α≦１）の場合のフローチャート本発明の音声速度変換方法の一実施形態の時間軸圧縮（α≦１）の場合のフローチャート本発明の音声速度変換方法の一実施形態の時間軸圧縮（α≦１）の場合のフローチャート本発明の音声速度変換方法の一実施形態の時間軸圧縮（α≦１）の場合のフローチャート

符号の説明

１０１記憶回路
１０２第１のスイッチ回路
１０３第１のバッファメモリ回路
１０４第２のバッファメモリ回路
１０５類似度計算回路
１０６判定回路
１０７窓関数発生回路
１０８第３のスイッチ回路
１０９第４のスイッチ回路
１１０第１の乗算回路
１１１第２の乗算回路
１１２加算回路
１１３第２のスイッチ回路
１１４出力バッファ回路
１１５速度設定回路
１１６パラメータ記憶回路
１１７ポインタ値計算回路
１１８ポインタ制御回路
１１９制御信号発生回路

Claims

音声信号から切り出した所定の時間長の音声信号セグメントとその音声信号セグメントに一部の重複を許して後続する音声信号から切り出した所定の時間長の音声信号セグメントとの類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時の２つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、漸減する窓関数と漸増する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第１の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第２の乗算回路と、前記第１の乗算回路の出力と前記第２の乗算回路の出力とを加算する加算回路と、所望の時間軸変換比になるような時間長の前記加算回路の出力の先頭の音声信号に連続する音声信号と所望の時間軸変換比になるような時間長の前記加算回路の出力の後尾の音声信号に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路とを備えていることを特徴とする音声速度変換装置。
サンプリングおよび量子化された音声信号を記録する記憶回路と、前記記憶回路にアドレス値を出力するポインタ制御回路と、前記記憶回路が出力する音声信号の出力先を第１のバッファメモリ回路と第２のバッファメモリ回路と第２のスイッチ回路とから選択する第１のスイッチ回路と、前記第１のスイッチ回路から出力され、前記ポインタ制御回路から出力されるアドレス値と所定の時間長に基づき前記記憶回路に記録されている音声信号から切り出した音声信号セグメントを蓄える第１のバッファメモリ回路と、前記第１のバッファメモリ回路に蓄えられた音声信号セグメントに一部の重複を許して後続し、前記ポインタ制御回路から出力されるアドレス値と所定の時間長に基づき前記記憶回路に記録されている音声信号から切り出した、前記第１のスイッチ回路から出力される音声信号セグメントを蓄える第２のバッファメモリ回路と、前記第１のバッファメモリ回路に蓄えられた音声信号セグメントと前記第２のバッファメモリ回路に蓄えられた音声信号セグメントとの類似度を求める類似度計算回路と、前記記憶回路に記録されている音声信号を再生する時の再生速度の逆数を示す時間軸変換比を設定する速度設定回路と、前記音声信号内で予め決められた区間について、予め決められた時間毎にずらしながら２つの音声信号セグメントを切り出すために、前記速度設定回路に設定されている時間軸変換比に基づいて前記類似度計算回路が類似度を求めるべき２つの音声信号セグメントのアドレス値を計算し、または出力信号が前記速度設定回路に設定されている時間軸変換比になるような２つの音声信号セグメントと加算回路で加算した２つの音声信号セグメントに後続するそのまま出力する音声信号を切り出すために、パラメータ記憶回路に記録されているパラメータに基づいて類似度の高い２つの音声信号セグメントおよび２つの音声信号セグメントの加算回路からの出力に後続する音声信号のアドレス値を計算し、前記ポインタ制御回路に出力するポインタ値計算回路と、前記ポインタ値計算回路で切り出す２つの音声信号セグメントに対して前記類似度計算回路による類似度の計算を行い、複数計算された類似度の中から最も高い類似度を検出する判定回路と、前記判定回路が最も高い類似度を検出した時に前記ポインタ制御回路が出力したアドレス値を前記ポインタ値計算回路で求めるために用いた２つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、複数の類似度を計算するために基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、前記記憶回路に記録されている音声信号を再生する時の時間軸変換比を設定する速度設定回路と、漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第１のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第１の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第２のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第２の乗算回路と、前記第１の乗算回路の出力と前記第２の乗算回路の出力とを加算する加算回路と、前記加算回路の出力と前記第１のスイッチ回路の出力とを選択する第２のスイッチ回路と、前記第２のスイッチ回路の出力を蓄えて出力する出力バッファ回路と、前記類似度計算回路が類似度を計算する時もしくは前記加算回路が前記第１の乗算回路の出力と前記第２の乗算回路の出力とを加算する時には前記第１のスイッチ回路を第１のバッファメモリ回路側もしくは第２のバッファメモリ回路側に倒し、前記加算回路の出力を前記出力バッファ回路に出力する時には前記第２のスイッチ回路を加算回路側に倒し、それ以外の時には前記加算回路の出力の前後と連続する音声信号を前記記憶回路から前記出力バッファ回路に出力するように前記第１のスイッチ回路と前記第２のスイッチ回路とを制御する制御信号発生回路とを備えていることを特徴とする音声速度変換装置。
開始点を基準として時間軸変換比αと音声信号セグメント長Ｔｓとシフト時間の初期値Ｔｃ＿ｍｉｎにより決められる一定の範囲内で、２つの音声信号セグメントの切り出し時刻の差を示すシフト時間Ｔｃと基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Ｔｄを変えながら切り出した２つの音声信号セグメント間の類似度を計算し、類似度の高い時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索するステップと、
開始点から時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力するステップと、
Ｔｃ＿ｏｐｔとＴｄ＿ｏｐｔをパラメータとして音声信号セグメントＸ１（１〜Ｔｓ）と音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Ｔｓと類似度の高いシフト時間Ｔｃ＿ｏｐｔに基づいてそのまま出力する音声信号の時間長Ｔｔを計算し、重み付け加算した音声信号に後続する時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力するステップと、
次の処理のために開始点を設定するステップと、
終了でなければ最初のステップに戻るステップと
を有することを特徴とする音声速度変換方法。
時間軸変換比αを読み込むステップと、
音声信号セグメントＸ１の開始点を示す第１のポインタと第１のポインタの音声信号セグメント長Ｔｓ後に設定され音声信号セグメントＸ２の開始点を示す第２のポインタを設定するステップと、
時間軸変換比αと音声信号セグメント長Ｔｓと２つの音声信号セグメントの切り出し時刻の差を示すシフト時間Ｔｃの初期値Ｔｃ＿ｍｉｎに基づいて、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Ｔｄの最大ディレイ時間Ｔｄ＿ｍａｘを計算するステップと、
類似度を初期設定するステップと、
シフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎからディレイ時間Ｔｄと音声信号セグメント長Ｔｓと時間軸変換比αにより決まる最大シフト時間Ｔｃ＿ｍａｘの範囲で変え、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、第１のポインタと第２のポインタとシフト時間Ｔｃとディレイ時間Ｔｄをパラメータとして音声信号セグメントＸ１と音声信号セグメントＸ２の開始点を求め、それぞれの開始点から時間長Ｔｓの音声信号セグメントＸ１と音声信号セグメントＸ２を入力し、Ｘ１とＸ２の類似度を計算し、類似度が高い時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索するステップと、
第１のポインタもしくは第２のポインタを開始点として時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力するステップと、
第１のポインタと第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔをパラメータとして類似度の高い音声信号セグメントＸ１（１〜Ｔｓ）と音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用いて、音声信号セグメントＸ１と音声信号セグメントＸ２とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Ｔｓと類似度の高いシフト時間Ｔｃ＿ｏｐｔに基づいて音声信号をそのまま出力する時間長Ｔｔを計算し、第１のポインタもしくは第２のポインタとＴｃ＿ｏｐｔとＴｄ＿ｏｐｔとＴｓに基づいて開始点を求め、時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力するステップと、
音声信号セグメント長Ｔｓと音声信号をそのまま出力する時間長Ｔｔと類似度が高い時のシフト時間Ｔｃ＿ｏｐｔに基づいて、第１のポインタと第１のポインタのＴｓ後の第２のポインタを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップと
を有することを特徴とする音声速度変換方法。
時間軸変換比α（≧１．０）を読み込むステップと、
第１のポインタにスタート点を設定するステップと、
第２のポインタに第１のポインタ＋音声信号セグメント長Ｔｓの値を設定するステップと、
基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Ｔｄの最大ディレイ時間Ｔｄ＿ｍａｘ＝（Ｔｓ−α×Ｔｃ＿ｍｉｎ）／（α−１）を計算するステップと、
類似度を初期設定するステップと、
２つの音声信号セグメントの切り出し時刻の差を示すシフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘ＝（Ｔｓ＋Ｔｄ）／α−Ｔｄの範囲で変え、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、（第１のポインタ＋Ｔｃ＋Ｔｄ）を開始点として時間長Ｔｓの音声信号セグメントＸ１を入力し、（第２のポインタ＋Ｔｄ）を開始点として時間長Ｔｓの音声信号セグメントＸ２を入力し、Ｘ１とＸ２の類似度を計算し、類似度が高い時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索するステップと、
第２のポインタを開始点として時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力するステップと、
（第１のポインタ＋Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ）を開始点として時間長Ｔｓの音声信号セグメントＸ１（１〜Ｔｓ）を入力し、（第２のポインタ＋Ｔｄ＿ｏｐｔ）を開始点として時間長Ｔｓの音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用い、Ｗ１（ｉ）×Ｘ１（ｉ）＋Ｗ２（ｉ）×Ｘ２（ｉ）をｉ＝１〜Ｔｓの範囲で計算して出力するステップと、
Ｔｔ＝（Ｔｓ−α×Ｔｃ＿ｏｐｔ）／（α−１）を計算し、（第１のポインタ＋Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ＋Ｔｓ）を開始点として時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力するステップと、
第２のポインタに第１のポインタ＋Ｔｃ＿ｏｐｔ＋Ｔｓ＋Ｔｔを設定するステップと、
第１のポインタに第２のポインタ−Ｔｓを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップと
を有することを特徴とする音声速度変換方法。
時間軸変換比α（≦１．０）を読み込むステップと、
第１のポインタにスタート点を設定するステップと、
第２のポインタに第１のポインタ＋音声信号セグメント長Ｔｓの値を設定するステップと、
基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Ｔｄの最大ディレイ時間Ｔｄ＿ｍａｘ＝（（２×α−１）Ｔｓ−α×Ｔｃ＿ｍｉｎ）／（１−α）を計算するステップと、
類似度を初期設定するステップと、
２つの音声信号セグメントの切り出し時刻の差を示すシフト時間Ｔｃを初期値Ｔｃ＿ｍｉｎから最大シフト時間Ｔｃ＿ｍａｘ＝２×Ｔｓ＋Ｔｄ−（Ｔｓ＋Ｔｄ）／αの範囲で変え、ディレイ時間Ｔｄを０から最大ディレイ時間Ｔｄ＿ｍａｘの範囲で変え、（第１のポインタ＋Ｔｄ）を開始点として時間長Ｔｓの音声信号セグメントＸ１を入力し、（第２のポインタ−Ｔｃ＋Ｔｄ）を開始点として時間長Ｔｓの音声信号セグメントＸ２を入力し、Ｘ１とＸ２の類似度を計算し、類似度が高い時のディレイ時間Ｔｄ＿ｏｐｔとシフト時間Ｔｃ＿ｏｐｔを探索するステップと、
第１のポインタを開始点として時間長Ｔｄ＿ｏｐｔの音声信号を入力してそのまま出力するステップと、
（第１のポインタ＋Ｔｄ＿ｏｐｔ）を開始点として時間長Ｔｓの音声信号セグメントＸ１（１〜Ｔｓ）を入力し、（第２のポインタ−Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ）を開始点として時間長Ｔｓの音声信号セグメントＸ２（１〜Ｔｓ）を入力し、漸増する窓関数Ｗ１（１〜Ｔｓ）と漸減する窓関数Ｗ２（１〜Ｔｓ）を用い、Ｗ２（ｉ）×Ｘ１（ｉ）＋Ｗ１（ｉ）×Ｘ２（ｉ）をｉ＝１〜Ｔｓの範囲で計算して出力するステップと、
Ｔｔ＝（（２×α−１）Ｔｓ−α×Ｔｃ＿ｏｐｔ）／（１−α）を計算し、（第２のポインタ−Ｔｃ＿ｏｐｔ＋Ｔｄ＿ｏｐｔ＋Ｔｓ）を開始点として時間長（Ｔｔ−Ｔｄ＿ｏｐｔ）の音声信号を入力してそのまま出力するステップと、
第１のポインタに第２のポインタ−Ｔｃ＿ｏｐｔ＋Ｔｓ＋Ｔｔを設定するステップと、
第２のポインタに第１のポインタ＋Ｔｓを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップと
を有することを特徴とする音声速度変換方法。