JP4442239B2 - 音声速度変換装置と音声速度変換方法 - Google Patents
音声速度変換装置と音声速度変換方法 Download PDFInfo
- Publication number
- JP4442239B2 JP4442239B2 JP2004030325A JP2004030325A JP4442239B2 JP 4442239 B2 JP4442239 B2 JP 4442239B2 JP 2004030325 A JP2004030325 A JP 2004030325A JP 2004030325 A JP2004030325 A JP 2004030325A JP 4442239 B2 JP4442239 B2 JP 4442239B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- circuit
- time
- pointer
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
時間軸変換比αを読み込むステップと、
第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minに基づいて最大ディレイ時間Td_maxを計算するステップと、
類似度を初期設定するステップと、
シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
音声信号セグメント長Tsと音声信号をそのまま出力する時間長Ttと類似度が高い時のシフト時間Tc_optに基づいて、第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップ
とを備えるため、シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップが、一定の範囲内で、シフト時間Tcとディレイ時間Tdを変えながら、一部の重複を許す2つの音声信号セグメントX1とX2の類似度を求め、類似度の高い値を検出した時のシフト時間Tcとディレイ時間TdをそれぞれTc_optとTd_optとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップ、
とを備えるため、重み付け加算した信号の前端と連続し時間長Td_optの音声信号を出力し、時間長Tsの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長(Tt−Td_opt)の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に所望の時間軸変換比になるような時間長の音声信号を出力できるので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップ、
とを備えるため、音声信号セグメントX1と音声信号セグメントX2の類似度が高くなる場合のTc_optとTd_optを探索する時の、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲に制限し、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
本発明に適用できる類似度を求める時の評価尺度としては、例えば二乗誤差の小ささや相関関数の大きさ、またはディレイ時間Tdを一定時間以上変えても、類似度が高くなる2つの音声信号セグメントのシフト時間Tc_optが同一もしくは変化が少ないことが適用できる。
図1は、本発明の音声速度変換装置の一実施形態に係るブロック図で、101は記憶回路、102は第1のスイッチ回路、103は第1のバッファメモリ回路、104は第2のバッファメモリ回路、105は類似度計算回路、106は判定回路、107は窓関数発生回路、108は第3のスイッチ回路、109は第4のスイッチ回路、110は第1の乗算回路、111は第2の乗算回路、112は加算回路、113は第2のスイッチ回路、114は出力バッファ回路、115は速度設定回路、116はパラメータ記憶回路、117はポインタ値計算回路、118はポインタ制御回路、119は制御信号発生回路である。
(実施の形態2)
図7は、本発明の音声速度変換方法の時間軸伸張(α≧1)の場合のフローチャートで、702の時間軸変換比αを読み込むステップと、703の第1のポインタを初期設定するステップと、704の第2のポインタに第1のポインタに対し音声信号セグメント長Ts後の値を設定するステップと、705の数式4に基づいて時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minにより最大ディレイ時間Td_maxを計算するステップと、706の最小二乗誤差R_minを初期値Nに初期設定するステップと、707のディレイ時間Tdを初期値0に初期設定するステップと、708のシフト時間Tcにシフト時間の初期値Tc_minを設定するステップと、709の数式3に基づいてディレイ時間Tdにおける最大シフト時間Tc_maxを計算するステップと、710の(第1のポインタ+Tc+Td)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、711の(第2のポインタ+Td)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、712の数式1に基づいてシフト時間Tcかつディレイ時間Tdの時の音声信号セグメントX1と音声信号セグメントX2の二乗誤差R(Tc,Td)を計算するステップと、713の最小二乗誤差R_minと二乗誤差R(Tc,Td)とを比較し、R_minが二乗誤差R(Tc,Td)よりも大きければステップ714に行き、そうでなければステップ717に行くステップと、714の二乗誤差R(Tc,Td)を新たな最小二乗誤差R_minとして更新するステップと、715のシフト時間Tcを最適シフト時間Tc_optとして更新するステップと、716のディレイ時間Tdを最適ディレイ時間Td_optとして更新するステップと、717のシフト時間Tcを1サンプルだけ増加させるステップと、718のシフト時間Tcと最大シフト時間Tc_maxとを比較し、シフト時間Tcが最大シフト時間Tc_maxよりも大きくない場合にはステップ710に戻り、シフト時間Tcが最大シフト時間Tc_maxよりも大きい場合にはステップ719に進むことで、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変えるステップと、719のディレイ時間Tdを△Tdサンプルだけ増加させるステップと、720のディレイ時間Tdと最大ディレイ時間Td_maxとを比較し、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きくない場合にはステップ708に戻り、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きい場合にはステップ721に進むことで、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変えるステップと、721の第2のポインタを開始点としてTd_opt個の音声信号サンプルを入力しそのまま出力するステップと、722の(第1のポインタ+Tc_opt+Td_opt)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、723の(第2のポインタ+Td_opt)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、724の数式13に基づいて音声信号セグメントX1(i)に対して漸増する窓関数W1(i)を乗じたものと音声信号セグメントX2(i)に対して漸減する窓関数W2(i)を乗じたものとを加算した信号Y(i)をi=1〜Tsの間計算して出力するステップと、
814の二乗誤差R(Tc,Td)を新たな最小二乗誤差R_minとして更新するステップと、815のシフト時間Tcを最適シフト時間Tc_optとして更新するステップと、816のディレイ時間Tdを最適ディレイ時間Td_optとして更新するステップと、817のシフト時間Tcを1サンプルだけ増加させるステップと、818のシフト時間Tcと最大シフト時間Tc_maxとを比較し、シフト時間Tcが最大シフト時間Tc_maxよりも大きくない場合にはステップ810に戻り、シフト時間Tcが最大シフト時間Tc_maxよりも大きい場合にはステップ819に進むことで、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変えるステップと、819のディレイ時間Tdを△Tdサンプルだけ増加させるステップと、820のディレイ時間Tdと最大ディレイ時間Td_maxとを比較し、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きくない場合にはステップ808に戻り、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きい場合にはステップ821に進むことで、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変えるステップと、821の第1のポインタを開始点としてTd_opt個の音声信号サンプルを入力しそのまま出力するステップと、822の(第1のポインタ+Td_opt)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、823の(第2のポインタ−Tc_opt+Td_opt)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、824の数式14に基づいて音声信号セグメントX1(i)に対して漸減する窓関数W2(i)を乗じたものと音声信号セグメントX2(i)に対して漸増する窓関数W1(i)を乗じたものとを加算した信号Y(i)をi=1〜Tsの間計算して出力するステップと、
とを備えている。
102 第1のスイッチ回路
103 第1のバッファメモリ回路
104 第2のバッファメモリ回路
105 類似度計算回路
106 判定回路
107 窓関数発生回路
108 第3のスイッチ回路
109 第4のスイッチ回路
110 第1の乗算回路
111 第2の乗算回路
112 加算回路
113 第2のスイッチ回路
114 出力バッファ回路
115 速度設定回路
116 パラメータ記憶回路
117 ポインタ値計算回路
118 ポインタ制御回路
119 制御信号発生回路
Claims (6)
- 音声信号から切り出した所定の時間長の音声信号セグメントとその音声信号セグメントに一部の重複を許して後続する音声信号から切り出した所定の時間長の音声信号セグメントとの類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時の2つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、漸減する窓関数と漸増する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、所望の時間軸変換比になるような時間長の前記加算回路の出力の先頭の音声信号に連続する音声信号と所望の時間軸変換比になるような時間長の前記加算回路の出力の後尾の音声信号に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路とを備えていることを特徴とする音声速度変換装置。
- サンプリングおよび量子化された音声信号を記録する記憶回路と、前記記憶回路にアドレス値を出力するポインタ制御回路と、前記記憶回路が出力する音声信号の出力先を第1のバッファメモリ回路と第2のバッファメモリ回路と第2のスイッチ回路とから選択する第1のスイッチ回路と、前記第1のスイッチ回路から出力され、前記ポインタ制御回路から出力されるアドレス値と所定の時間長に基づき前記記憶回路に記録されている音声信号から切り出した音声信号セグメントを蓄える第1のバッファメモリ回路と、前記第1のバッファメモリ回路に蓄えられた音声信号セグメントに一部の重複を許して後続し、前記ポインタ制御回路から出力されるアドレス値と所定の時間長に基づき前記記憶回路に記録されている音声信号から切り出した、前記第1のスイッチ回路から出力される音声信号セグメントを蓄える第2のバッファメモリ回路と、前記第1のバッファメモリ回路に蓄えられた音声信号セグメントと前記第2のバッファメモリ回路に蓄えられた音声信号セグメントとの類似度を求める類似度計算回路と、前記記憶回路に記録されている音声信号を再生する時の再生速度の逆数を示す時間軸変換比を設定する速度設定回路と、前記音声信号内で予め決められた区間について、予め決められた時間毎にずらしながら2つの音声信号セグメントを切り出すために、前記速度設定回路に設定されている時間軸変換比に基づいて前記類似度計算回路が類似度を求めるべき2つの音声信号セグメントのアドレス値を計算し、または出力信号が前記速度設定回路に設定されている時間軸変換比になるような2つの音声信号セグメントと加算回路で加算した2つの音声信号セグメントに後続するそのまま出力する音声信号を切り出すために、パラメータ記憶回路に記録されているパラメータに基づいて類似度の高い2つの音声信号セグメントおよび2つの音声信号セグメントの加算回路からの出力に後続する音声信号のアドレス値を計算し、前記ポインタ制御回路に出力するポインタ値計算回路と、前記ポインタ値計算回路で切り出す2つの音声信号セグメントに対して前記類似度計算回路による類似度の計算を行い、複数計算された類似度の中から最も高い類似度を検出する判定回路と、前記判定回路が最も高い類似度を検出した時に前記ポインタ制御回路が出力したアドレス値を前記ポインタ値計算回路で求めるために用いた2つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、複数の類似度を計算するために基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、前記記憶回路に記録されている音声信号を再生する時の時間軸変換比を設定する速度設定回路と、漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第1のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第2のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、前記加算回路の出力と前記第1のスイッチ回路の出力とを選択する第2のスイッチ回路と、前記第2のスイッチ回路の出力を蓄えて出力する出力バッファ回路と、前記類似度計算回路が類似度を計算する時もしくは前記加算回路が前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する時には前記第1のスイッチ回路を第1のバッファメモリ回路側もしくは第2のバッファメモリ回路側に倒し、前記加算回路の出力を前記出力バッファ回路に出力する時には前記第2のスイッチ回路を加算回路側に倒し、それ以外の時には前記加算回路の出力の前後と連続する音声信号を前記記憶回路から前記出力バッファ回路に出力するように前記第1のスイッチ回路と前記第2のスイッチ回路とを制御する制御信号発生回路とを備えていることを特徴とする音声速度変換装置。
- 開始点を基準として時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minにより決められる一定の範囲内で、2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcと基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdを変えながら切り出した2つの音声信号セグメント間の類似度を計算し、類似度の高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
開始点から時間長Td_optの音声信号を入力してそのまま出力するステップと、
Tc_optとTd_optをパラメータとして音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいてそのまま出力する音声信号の時間長Ttを計算し、重み付け加算した音声信号に後続する時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
次の処理のために開始点を設定するステップと、
終了でなければ最初のステップに戻るステップと
を有することを特徴とする音声速度変換方法。 - 時間軸変換比αを読み込むステップと、
音声信号セグメントX1の開始点を示す第1のポインタと第1のポインタの音声信号セグメント長Ts後に設定され音声信号セグメントX2の開始点を示す第2のポインタを設定するステップと、
時間軸変換比αと音声信号セグメント長Tsと2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcの初期値Tc_minに基づいて、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdの最大ディレイ時間Td_maxを計算するステップと、
類似度を初期設定するステップと、
シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
音声信号セグメント長Tsと音声信号をそのまま出力する時間長Ttと類似度が高い時のシフト時間Tc_optに基づいて、第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップと
を有することを特徴とする音声速度変換方法。 - 時間軸変換比α(≧1.0)を読み込むステップと、
第1のポインタにスタート点を設定するステップと、
第2のポインタに第1のポインタ+音声信号セグメント長Tsの値を設定するステップと、
基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdの最大ディレイ時間Td_max=(Ts−α×Tc_min)/(α−1)を計算するステップと、
類似度を初期設定するステップと、
2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcを初期値Tc_minから最大シフト時間Tc_max=(Ts+Td)/α−Tdの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、(第1のポインタ+Tc+Td)を開始点として時間長Tsの音声信号セグメントX1を入力し、(第2のポインタ+Td)を開始点として時間長Tsの音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
(第1のポインタ+Tc_opt+Td_opt)を開始点として時間長Tsの音声信号セグメントX1(1〜Ts)を入力し、(第2のポインタ+Td_opt)を開始点として時間長Tsの音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用い、W1(i)×X1(i)+W2(i)×X2(i)をi=1〜Tsの範囲で計算して出力するステップと、
Tt=(Ts−α×Tc_opt)/(α−1)を計算し、(第1のポインタ+Tc_opt+Td_opt+Ts)を開始点として時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
第2のポインタに第1のポインタ+Tc_opt+Ts+Ttを設定するステップと、
第1のポインタに第2のポインタ−Tsを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップと
を有することを特徴とする音声速度変換方法。 - 時間軸変換比α(≦1.0)を読み込むステップと、
第1のポインタにスタート点を設定するステップと、
第2のポインタに第1のポインタ+音声信号セグメント長Tsの値を設定するステップと、
基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdの最大ディレイ時間Td_max=((2×α−1)Ts−α×Tc_min)/(1−α)を計算するステップと、
類似度を初期設定するステップと、
2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcを初期値Tc_minから最大シフト時間Tc_max=2×Ts+Td−(Ts+Td)/αの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、(第1のポインタ+Td)を開始点として時間長Tsの音声信号セグメントX1を入力し、(第2のポインタ−Tc+Td)を開始点として時間長Tsの音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第1のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
(第1のポインタ+Td_opt)を開始点として時間長Tsの音声信号セグメントX1(1〜Ts)を入力し、(第2のポインタ−Tc_opt+Td_opt)を開始点として時間長Tsの音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用い、W2(i)×X1(i)+W1(i)×X2(i)をi=1〜Tsの範囲で計算して出力するステップと、
Tt=((2×α−1)Ts−α×Tc_opt)/(1−α)を計算し、(第2のポインタ−Tc_opt+Td_opt+Ts)を開始点として時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
第1のポインタに第2のポインタ−Tc_opt+Ts+Ttを設定するステップと、
第2のポインタに第1のポインタ+Tsを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップと
を有することを特徴とする音声速度変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004030325A JP4442239B2 (ja) | 2004-02-06 | 2004-02-06 | 音声速度変換装置と音声速度変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004030325A JP4442239B2 (ja) | 2004-02-06 | 2004-02-06 | 音声速度変換装置と音声速度変換方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005221811A JP2005221811A (ja) | 2005-08-18 |
JP2005221811A5 JP2005221811A5 (ja) | 2007-03-01 |
JP4442239B2 true JP4442239B2 (ja) | 2010-03-31 |
Family
ID=34997485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004030325A Expired - Fee Related JP4442239B2 (ja) | 2004-02-06 | 2004-02-06 | 音声速度変換装置と音声速度変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4442239B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100717393B1 (ko) | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치 |
JP4940888B2 (ja) * | 2006-10-23 | 2012-05-30 | ソニー株式会社 | オーディオ信号伸張圧縮装置及び方法 |
EP2141696A1 (en) | 2008-07-03 | 2010-01-06 | Deutsche Thomson OHG | Method for time scaling of a sequence of input signal values |
JP2010017216A (ja) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
JP5405206B2 (ja) * | 2009-06-24 | 2014-02-05 | ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー | 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム |
-
2004
- 2004-02-06 JP JP2004030325A patent/JP4442239B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005221811A (ja) | 2005-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4675692B2 (ja) | 話速変換装置 | |
WO2007124582A1 (en) | Method for the time scaling of an audio signal | |
WO2002082428A1 (en) | Time-scale modification of signals applying techniques specific to determined signal types | |
JP2004505304A (ja) | デジタルオーディオ信号の連続可変時間スケール変更 | |
EP2881944B1 (en) | Audio signal processing apparatus | |
CN104900231B (zh) | 语音检索装置以及语音检索方法 | |
JP2012108451A (ja) | 音声処理装置および方法、並びにプログラム | |
JP4442239B2 (ja) | 音声速度変換装置と音声速度変換方法 | |
WO2001095496A1 (fr) | Procede et appareil de compression, procede et appareil d'expansion, systeme de compression expansion | |
JP3402748B2 (ja) | 音声信号のピッチ周期抽出装置 | |
US20070011001A1 (en) | Apparatus for predicting the spectral information of voice signals and a method therefor | |
JP2017122908A (ja) | 信号処理装置および信号処理方法 | |
JP4596197B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JP3378672B2 (ja) | 話速変換装置 | |
JP3379348B2 (ja) | ピッチ変換器 | |
JP3422716B2 (ja) | 話速変換方法および装置および話速変換プログラムを格納した記録媒体 | |
JPH10301594A (ja) | 有音検出装置 | |
WO2017119368A1 (ja) | 信号処理方法および信号処理装置 | |
US20070269056A1 (en) | Method and Apparatus for Audio Signal Expansion and Compression | |
JP3357742B2 (ja) | 話速変換装置 | |
JPH07191695A (ja) | 話速変換装置 | |
JP2005221811A5 (ja) | ||
JP6652469B2 (ja) | 復号装置、復号方法及びプログラム | |
JPH08292790A (ja) | ビデオテープレコーダ | |
US7337109B2 (en) | Multiple step adaptive method for time scaling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070111 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091116 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20091120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091222 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100104 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4442239 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140122 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |