JP4442239B2 - 音声速度変換装置と音声速度変換方法 - Google Patents

音声速度変換装置と音声速度変換方法 Download PDF

Info

Publication number
JP4442239B2
JP4442239B2 JP2004030325A JP2004030325A JP4442239B2 JP 4442239 B2 JP4442239 B2 JP 4442239B2 JP 2004030325 A JP2004030325 A JP 2004030325A JP 2004030325 A JP2004030325 A JP 2004030325A JP 4442239 B2 JP4442239 B2 JP 4442239B2
Authority
JP
Japan
Prior art keywords
audio signal
circuit
time
pointer
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004030325A
Other languages
English (en)
Other versions
JP2005221811A (ja
JP2005221811A5 (ja
Inventor
良二 鈴木
正之 三▲さき▼
岳 河村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2004030325A priority Critical patent/JP4442239B2/ja
Publication of JP2005221811A publication Critical patent/JP2005221811A/ja
Publication of JP2005221811A5 publication Critical patent/JP2005221811A5/ja
Application granted granted Critical
Publication of JP4442239B2 publication Critical patent/JP4442239B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、音声の基本周波数を変えずに継続時間長のみを変える音声速度変換装置と音声速度変換方法に関する。
音声の基本周波数(音程)を変えずに継続時間長のみを変える音声速度変換装置と音声速度変換方法としては、例えば特許文献1に記載されているようなMPEGオーディオレイヤ2音声符号化方式に対する音声符号化装置、または特許文献2もしくは非特許文献1に記載されているようなPCM信号に対する音声速度変換装置と音声速度変換方法が知られている。
特開平11−194796号公報 特開平4−104200号公報 鈴木,三崎 「高品質音声速度変換方式のDSPによる実現」,信学技報,SP90−34(1990)
しかしながら、特許文献1に開示の音声再生装置では、重み付け加算をするフレームを探すパラメータはエネルギーの小ささ,音声らしさの小ささ,定常性の高さ,エネルギーの変化度合いに基づく継時マスキングの大きさ,またはMPEGオーディオストリームのスケールファクターであるのに対し、重み付け加算を行うために位相の合う位置を探すパラメータは相関関数であり、異なるパラメータを使用しているために、処理が複雑であるという課題があり、さらにMPEGオーディオのようなフレーム単位の処理に基づいて、重み付け加算をするフレームと重み付け加算をしないフレームとの頻度を変えることにより時間軸変換比を変えているために、時間軸変換比を細かい刻みで精度良く変えることはできないという課題がある。
また、特許文献2に開示の、もしくは非特許文献1に記載の音声速度変換装置と音声速度変換方法では、2つの音声信号セグメントは相関関数を用いて最適な位置にシフトして加算されるものの、2つの音声信号セグメントの位置は、時間軸変換比αと音声信号セグメント長Tsと1つ前の重み付け加算における相関関数が最大になるシフト時間Tcとにより一意に決まってしまうので、必ずしも最適な音声信号セグメントが選択されているとは限らず、さらに相関関数が最大になるシフト時間Tcの値によっては重み付け加算長が短くなるので音質が低下するという課題がある。
本発明は、かかる課題を解決し、音声信号セグメントを最適な位置から選択して重み付け加算を行うので、音声欠落や音声重複が少なく音質も改善され、しかも時間軸変換比を細かくかつ精度良く変えることができ、さらに重み付け加算の時間長が一定なので音質が低下しにくい音声速度変換装置と音声速度変換方法を提供することを目的とする。
本発明の音声速度変換装置は、音声信号から切り出した所定の時間長の音声信号セグメントとその音声信号セグメントに一部の重複を許して後続する音声信号から切り出した所定の時間長の音声信号セグメントとの類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時の2つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、漸減する窓関数と漸増する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、所望の時間軸変換比になるような時間長の前記加算回路の出力の先頭の音声信号に連続する音声信号と所望の時間軸変換比になるような時間長の前記加算回路の出力の後尾の音声信号に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路とを備えている。
本発明の音声速度変換装置は、2つの音声信号セグメントの類似度を求める類似度計算回路と、2つの音声信号セグメントの一方をシフトしたり2つの音声信号セグメントの切り出し時刻をディレイしながら前記類似度計算回路が求める類似度から類似度の高い値を検出する判定回路と、前記判定回路が検出した類似度が高い時の2つの音声信号セグメントのシフト時間およびディレイ時間に関するパラメータを記憶するパラメータ記憶回路とを備えるため、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。また所望の時間軸変換比になるように加算回路の出力の前端に連続する音声信号と加算回路の出力の後端に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路を備えるため、加算回路の出力の前後に任意の時間長の音声信号を出力できるので、時間軸変換比を細かくかつ精度良く変えることができという効果もある。さらに漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路とを備えるため、パラメータ記憶回路に記憶されているパラメータに基づいて一定時間長で類似度が高い音声信号セグメントの組を読み出して重み付け加算するので、どのような場合でも重み付け加算の時間長を一定にでき音質が低下しにくいという効果もある。
本発明の音声速度変換装置は、音声信号が記録されている記憶回路と、前記記憶回路にアドレス値を出力するポインタ制御回路と、前記記憶回路が出力する音声信号の出力先を第1のバッファメモリ回路と第2のバッファメモリ回路と第2のスイッチ回路とから選択する第1のスイッチ回路と、前記第1のスイッチ回路から出力される音声信号セグメントを蓄える第1のバッファメモリ回路と、前記第1のバッファメモリ回路の内容に一部の重複を許して後続し前記第1のスイッチ回路から出力される音声信号セグメントを蓄える第2のバッファメモリ回路と、前記第1のバッファメモリ回路の内容と前記第2のバッファメモリ回路の内容との類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時に前記ポインタ制御回路が出力したアドレス値をポインタ値計算回路が求めるために用いたパラメータを記憶するパラメータ記憶回路と、前記記憶回路に記録されている音声信号を再生する時の時間軸変換比を設定する速度設定回路と、前記速度設定回路に設定されている時間軸変換比に基づいて前記類似度計算回路が類似度を求めるべき2つの音声信号セグメントのアドレス値を計算し、または前記パラメータ記憶回路に記録されているパラメータに基づいて類似度の高い2つの音声信号セグメントおよびその前後に連続する音声信号のアドレス値を計算して前記ポインタ制御回路に出力するポインタ値計算回路と、漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第1のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第2のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、前記加算回路の出力と前記第1のスイッチ回路の出力とを選択する第2のスイッチ回路と、前記第2のスイッチ回路の出力を蓄えて出力する出力バッファ回路と、前記類似度計算回路が類似度を計算する時もしくは前記加算回路が前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する時には前記第1のスイッチ回路を第1のバッファメモリ回路側もしくは第2のバッファメモリ回路側に倒し、前記加算回路の出力を前記出力バッファ回路に出力する時には前記第2のスイッチ回路を加算回路側に倒し、それ以外の時には前記加算回路の出力の前後と連続する音声信号を前記記憶回路から前記出力バッファ回路に出力するように前記第1のスイッチ回路と前記第2のスイッチ回路とを制御する制御信号発生回路とを備えるため、速度設定回路に設定されている時間軸変換比に基づいて、ポインタ値計算回路が一定の範囲内で、一部の重複を許す2つの音声信号セグメントの一方をシフトしたり2つの音声信号セグメントの開始点をディレイするような、様々な組み合わせの2つの音声信号セグメントの開始点アドレスを計算し、類似度計算回路が2つの音声信号セグメント間の類似度を求め、判定回路が様々な組み合わせの2つの音声信号セグメント間の類似度から、類似度の高い値を検出し、パラメータ記憶回路が判定回路の検出した類似度の高い2つの音声信号セグメントのパラメータを記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
また速度設定回路に設定されている時間軸変換比とパラメータ記憶回路に記憶されているパラメータに基づいて、ポインタ値計算回路がアドレスを計算し、第1のスイッチ回路と第2のスイッチ回路が、加算回路の出力とポインタ値計算回路が計算したアドレスに基づく記憶回路からの音声信号の出力とを切り換えて出力バッファ回路に出力する結果、加算回路の出力の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、加算回路の出力の前後に所望の時間軸変換比になるような時間長の音声信号を出力できるので、時間軸変換比を細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
さらにパラメータ記憶回路に記憶されているパラメータに基づいて、ポインタ値計算回路がアドレスを計算し、記憶回路から第1のバッファメモリ回路と第2のバッファメモリ回路に類似度が高い一定時間長の音声信号セグメントの組を読み出し、窓関数発生回路が漸増する窓関数と漸減する窓関数とを出力し、第1の乗算回路が第1のバッファメモリ回路が出力する音声信号セグメントに対して窓関数発生回路が出力する一方の窓関数を乗じ、第2の乗算回路が第2のバッファメモリ回路が出力する音声信号セグメントに対して窓関数発生回路が出力する他方の窓関数を乗じ、加算回路が第1の乗算回路の出力と第2の乗算回路の出力とを重なるように加算する結果、どのような場合でも加算回路の出力の時間長を一定にでき、音質が低下しにくいという効果もある。
本発明に適用できる類似度計算回路における評価尺度としては、例えば二乗誤差の小ささや相関関数の大きさ、または類似度が高い場合の2つの音声信号セグメントのシフト時間が一定時間以上同一であることが適用できる。
また本発明の音声速度変換方法は、
時間軸変換比αを読み込むステップと、
第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minに基づいて最大ディレイ時間Td_maxを計算するステップと、
類似度を初期設定するステップと、
シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
音声信号セグメント長Tsと音声信号をそのまま出力する時間長Ttと類似度が高い時のシフト時間Tc_optに基づいて、第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップ
とを備えるため、シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップが、一定の範囲内で、シフト時間Tcとディレイ時間Tdを変えながら、一部の重複を許す2つの音声信号セグメントX1とX2の類似度を求め、類似度の高い値を検出した時のシフト時間Tcとディレイ時間TdをそれぞれTc_optとTd_optとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
また、第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップ、
とを備えるため、重み付け加算した信号の前端と連続し時間長Td_optの音声信号を出力し、時間長Tsの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長(Tt−Td_opt)の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に所望の時間軸変換比になるような時間長の音声信号を出力できるので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
そして、第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップ、を備えるため、類似度が高くセグメント長Tsの音声信号セグメントの組を入力し、セグメント長Tsの漸増する窓関数W1とセグメント長Tsの漸減する窓関数W2を用いて、音声信号セグメントX1と音声信号セグメントX2とが重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長は一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。
さらに、時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minに基づいて最大ディレイ時間Td_maxを計算するステップと、
シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップ、
とを備えるため、音声信号セグメントX1と音声信号セグメントX2の類似度が高くなる場合のTc_optとTd_optを探索する時の、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲に制限し、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
本発明に適用できる類似度を求める時の評価尺度としては、例えば二乗誤差の小ささや相関関数の大きさ、またはディレイ時間Tdを一定時間以上変えても、類似度が高くなる2つの音声信号セグメントのシフト時間Tc_optが同一もしくは変化が少ないことが適用できる。
次に、本発明の音声速度変換装置と音声速度変換方法の一実施形態を、図面を参照して説明する。
(実施の形態1)
図1は、本発明の音声速度変換装置の一実施形態に係るブロック図で、101は記憶回路、102は第1のスイッチ回路、103は第1のバッファメモリ回路、104は第2のバッファメモリ回路、105は類似度計算回路、106は判定回路、107は窓関数発生回路、108は第3のスイッチ回路、109は第4のスイッチ回路、110は第1の乗算回路、111は第2の乗算回路、112は加算回路、113は第2のスイッチ回路、114は出力バッファ回路、115は速度設定回路、116はパラメータ記憶回路、117はポインタ値計算回路、118はポインタ制御回路、119は制御信号発生回路である。
記憶回路101には音声信号が記録されており、ポインタ制御回路118が出力するアドレス値と時間長に基づいて、所望の開始点と時間長の音声信号を出力する。
第1のスイッチ回路102は、記憶回路101が出力する音声信号の出力先を第1のバッファメモリ回路103と第2のバッファメモリ回路104と第2のスイッチ回路113とから選択する。
第1のバッファメモリ回路103、は第1のスイッチ回路102から出力される音声信号セグメントを蓄え、第2のバッファメモリ回路104は第1のスイッチ回路102から出力され第1のバッファメモリ回路103の内容に一部の重複を許して後続する音声信号セグメントを蓄える。
類似度計算回路105は、第1のバッファメモリ回路103の内容と第2のバッファメモリ回路104の内容との類似度を求め、判定回路106は類似度計算回路105が出力する類似度から類似度の高い値を検出し、パラメータ記憶回路116は判定回路106が類似度の高い値を検出した時に、ポインタ制御回路118が出力したアドレス値をポインタ値計算回路117が求めるために用いたパラメータ(シフト時間:Tc,ディレイ時間:Td)を最適シフト時間:Tc_opt,最適ディレイ時間:Td_optとして記憶する。この時、第3のスイッチ回路108と第4のスイッチ回路109は開いており、第1のバッファメモリ回路103の内容と第2のバッファメモリ回路104の内容は、第1の乗算回路110と第2の乗算回路111に出力されない。
速度設定回路115は、記憶回路101に記録されている音声信号を再生する時の時間軸変換比αを設定する。
ポインタ値計算回路117は、速度設定回路115に設定されている時間軸変換比αに基づいて、類似度計算回路105が類似度を求めるべき2つの音声信号セグメントのアドレス値を計算し、またはパラメータ記憶回路116に記録されているパラメータ(最適シフト時間:Tc_opt,最適ディレイ時間:Td_opt)に基づいて類似度の高い2つの音声信号セグメント、およびその前後に連続する音声信号のアドレス値と時間長を計算してポインタ制御回路118に出力する。
窓関数発生回路107は、漸増する窓関数と漸減する窓関数とを出力し、第1の乗算回路110はパラメータ記憶回路116に記憶されているパラメータに基づいて記憶回路101から出力され第1のバッファメモリ回路103に蓄えられている音声信号セグメントに対して窓関数発生回路107が出力する一方の窓関数を乗じ、第2の乗算回路111はパラメータ記憶回路116に記憶されているパラメータに基づいて記憶回路101から出力され第2のバッファメモリ回路104に蓄えられている音声信号セグメントに対して窓関数発生回路107が出力する他方の窓関数を乗じ、加算回路112は第1の乗算回路110の出力と第2の乗算回路111の出力とを加算する。この時、第3のスイッチ回路108と第4のスイッチ回路109は閉じており、第1のバッファメモリ回路103の内容と第2のバッファメモリ回路104の内容は、それぞれ第1の乗算回路110と第2の乗算回路111に出力される。
第2のスイッチ回路113は、加算回路112の出力と第1のスイッチ回路102の出力とを選択し、出力バッファ回路114は第2のスイッチ回路113の出力を蓄えて出力する。
制御信号発生回路119は、類似度計算回路105が類似度を計算する時には、第1のスイッチ回路102を第1のバッファメモリ回路103側もしくは第2のバッファメモリ回路104側に倒し、第3のスイッチ回路108と第4のスイッチ回路109は開き、加算回路112が第1の乗算回路110の出力と第2の乗算回路111の出力とを加算する時には、第1のスイッチ回路102を第1のバッファメモリ回路103側もしくは第2のバッファメモリ回路104側に倒し、第3のスイッチ回路108と第4のスイッチ回路109は閉じ、第2のスイッチ回路113を加算回路112側に倒し、記憶回路101から出力される音声信号を、そのまま出力バッファ114に出力する時には、第1のスイッチ回路102を第2のスイッチ回路113側に倒し、第2のスイッチ回路113を第1のスイッチ回路102側に倒すように制御する。
図2は、本発明の音声速度変換装置の一実施形態に係る類似度の評価関数が二乗誤差の場合の類似度計算回路105のブロック図で、201は第1のシフトレジスタメモリ回路、202は第2のシフトレジスタメモリ回路、203_1〜203_Tsは減算回路、204_1〜204_Tsは乗算回路、205は加算回路である。
第1のシフトレジスタメモリ回路201には図1における第1のバッファメモリ回路103に蓄えられている音声信号セグメントが逐次入力され、第2のシフトレジスタメモリ回路202には図1における第2のバッファメモリ回路104に蓄えられている音声信号セグメントが逐次入力される。減算回路203_1〜203_Tsは、第1のシフトレジスタメモリ回路201に蓄えられている音声信号セグメントX1(1〜Ts)から第2のシフトレジスタメモリ回路202に蓄えられている音声信号セグメントX2(1〜Ts)をそれぞれ減算し、乗算回路204_1〜204_Tsは、減算回路203_1〜203_Tsの出力を二乗し、加算回路205は、乗算回路204_1〜204_Tsの出力の総和を求め、結果を二乗誤差として出力する。数式1は類似度計算回路105が行う二乗誤差の演算を示す。ただし数式1では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。
Figure 0004442239
図3は、本発明の音声速度変換装置の一実施形態に係る類似度の評価関数が相関関数の場合の類似度計算回路105のブロック図で、301は第1のシフトレジスタメモリ回路、302は第2のシフトレジスタメモリ回路、303_1〜303_Tsは乗算回路、304は加算回路である。
第1のシフトレジスタメモリ回路301には、図1における第1のバッファメモリ回路103に蓄えられている音声信号セグメントが逐次入力され、第2のシフトレジスタメモリ回路302には図1における第2のバッファメモリ回路104に蓄えられている音声信号セグメントが逐次入力される。乗算回路303_1〜303_Tsは、第1のシフトレジスタメモリ回路301に蓄えられている音声信号セグメントX1(1〜Ts)と第2のシフトレジスタメモリ回路202に蓄えられている音声信号セグメントX2(1〜Ts)とをそれぞれ乗算し、加算回路304は、乗算回路303_1〜303_Tsの出力の総和を求め、結果を相関関数として出力する。数式2は類似度計算回路105が行う相関関数の演算を示す。ただし数式2では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。
Figure 0004442239
図4は、本発明の音声速度変換装置の一実施形態に係る判定回路106のブロック図で、401は類似度メモリ回路、402は比較回路、403は最大/最小メモリ回路である。
類似度メモリ回路401には、図1における類似度計算回路105が出力する類似度が入力されて記憶される。比較回路402は、類似度メモリ回路401が出力する現在の類似度と、最大/最小メモリ回路403が出力する過去における類似度の最大値もしくは最小値とを比較し、類似度メモリ回路401の出力が、最大/最小メモリ回路403が出力する最大値よりも大きい場合もしくは最小値よりも小さい場合に、類似度メモリ回路401の出力を最大/最小メモリ回路403に記憶し直し、図1におけるパラメータ記憶回路116に、現在のパラメータを最適シフト時間:Tc_optと最適ディレイ時間:Td_optの候補として記憶するように指示を出す。比較回路402が最小値を検索するのは、評価関数が二乗誤差の場合であり、比較回路402が最大値を検索するのは評価関数が相関関数の場合である。
図5は、本発明の音声速度変換装置の一実施形態に係る時間軸伸張(時間軸変換比α=5/4)の場合の処理図である。
記憶回路101に記録されている音声信号501が、i番目の処理単位においてポインタ制御回路118が出力する第1のポインタ502_iと第2のポインタ503_iを基準として、第1のバッファメモリ回路103と第2のバッファメモリ回路104に、音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)として読み出される。ディレイ時間Tdが0の場合の音声信号セグメントX2は507で示される区間であり、音声信号セグメントX1は、507で示される音声信号セグメントX2から、音声信号セグメント長Tsだけ先行し504_0で示される区間が規準となる。この504_0で示される区間を規準とし、Tc_minだけ先行し504_minで示される区間から、Tc_maxだけ後行し504_maxで示される区間まで、1サンプルずつずらして取り込んだ音声信号セグメントX1と、音声信号セグメントX2との類似度を類似度計算回路105が求める。ここでTc_minはあらかじめ定められた定数であり、音声信号セグメント長Tsより短い。Tc_maxはポインタ値計算回路117が数式3により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
Figure 0004442239
そしてディレイ時間Tdを増加させながら、シフト時間TcをTc_minからTc_maxの範囲で変えて、類似度計算回路105と判定回路106が類似度の計算と類似度の高い値の探索を行う。最大遅延時間Td_maxはポインタ値計算回路117が数式4により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
Figure 0004442239
ディレイ時間Tdの0からTd_maxまでの増加は1サンプル毎でも良いが、演算量の削減のために数サンプル毎に行っても、音質的には問題ない。
ディレイ時間TdがTd_maxになり、音声信号セグメントX2が509で示される区間になり、506_0で示される区間を規準として、506_minで示される区間から506_maxで示される区間まで音声信号セグメントX1をシフトさせた時、類似度の探索は終わる。そして類似度の評価関数が二乗誤差の場合には、判定回路106は類似度計算回路105が出力する二乗誤差の最小値を検出し、類似度の評価関数が相関関数の場合には、判定回路106は類似度計算回路105が出力する相関関数の最大値を検出する。パラメータ記憶回路116は、判定回路106が最高の類似度を検出した時のディレイ時間Tdとシフト時間Tcを記憶しており、それを最適ディレイ時間Td_optと最適シフト時間Tc_optとする。パラメータ記憶回路116に記憶されている最適ディレイ時間Td_optに基づいて、ポインタ制御回路118が第2のポインタ503_iを開始点とし時間長Td_optの音声信号X0(516)を記憶回路101から読み出し、出力バッファ回路114に出力する。次にパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118は、508で示される区間の音声信号セグメントX2(511)と、505_optで示される区間の音声信号セグメントX1(510)を記憶回路101から読み出し、第2のバッファメモリ回路104と第1のバッファメモリ回路103とに出力する。窓関数発生回路107は、漸増する窓関数512と漸減する窓関数513とを出力し、第1の乗算回路110は第1のバッファメモリ回路103に蓄えられている音声信号セグメントX1(510)に対して窓関数発生回路107が出力する漸増する窓関数512を乗じてX1‘を出力し、第2の乗算回路111は第2のバッファメモリ回路104に蓄えられている音声信号セグメントX2(511)に対して窓関数発生回路107が出力する漸減する窓関数513を乗じてX2’を出力し、加算回路112は第1の乗算回路110の出力X1‘と第2の乗算回路111の出力X2’とを加算した信号514を出力バッファ回路114に出力する。そしてパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118が音声信号セグメントX1に後続するサンプルを開始点とし、時間長(Tt−Td_opt)の音声信号X3(517)を記憶回路101から読み出し、出力バッファ回路114に出力する。ここで、入力音声信号をそのまま出力する時間長Ttはポインタ値計算回路117が数式5により求めることで、正確な時間軸変換比αの実現が可能となる。
Figure 0004442239
以上でi番目の処理単位が終了し、引き続きi+1番目の処理単位のために、ポインタ値計算回路117が数式6と数式7により、第2のポインタ503_i+1と第1のポインタ502_i+1を求め、ポインタ制御回路118に出力する。
Figure 0004442239
Figure 0004442239
図6は、本発明の音声速度変換装置の一実施形態に係る時間軸圧縮(時間軸変換比α=4/5)の場合の処理図である。
記憶回路101に記録されている音声信号601が、i番目の処理単位においてポインタ制御回路118が出力する第1のポインタ602_iと第2のポインタ603_iを基準として、第1のバッファメモリ回路103と第2のバッファメモリ回路104に、音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)が読み出される。ディレイ時間Tdが0の場合の音声信号セグメントX1は604で示される区間であり、音声信号セグメントX2は、604で示される音声信号セグメントX1から、音声信号セグメント長Tsだけ後行し607_0で示される区間が規準となる。この604_0で示される区間を規準とし、Tc_minだけ後行し607_minで示される区間から、Tc_maxだけ先行し607_maxで示される区間まで、1サンプルずつずらして取り込んだ音声信号セグメントX2と、音声信号セグメントX1との類似度を類似度計算回路105が求める。ここでTc_minはあらかじめ定められた定数であり、音声信号セグメント長Tsより短い。Tc_maxはポインタ値計算回路117が数式8により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
Figure 0004442239
そしてディレイ時間Tdを増加させながら、シフト時間TcをTc_minからTc_maxの範囲で変えて、類似度計算回路105と判定回路106が類似度の計算と類似度の高い値の探索を行う。最大遅延時間Td_maxはポインタ値計算回路117が数式9により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
Figure 0004442239
ディレイ時間Tdの0からTd_maxまでの増加は1サンプル毎でも良いが、演算量の削減のために数サンプル毎に行っても、音質的には問題ない。
ディレイ時間TdがTd_maxになり、音声信号セグメントX1が606で示される区間になり、609_0で示される区間を規準として、609_minで示される区間から609_maxで示される区間まで音声信号セグメントX2をシフトさせた時、類似度の探索は終わる。そして類似度の評価関数が二乗誤差の場合には、判定回路106は類似度計算回路105が出力する二乗誤差の最小値を検出し、類似度の評価関数が相関関数の場合には、判定回路106は類似度計算回路105が出力する相関関数の最大値を検出する。パラメータ記憶回路116は、判定回路106が最高の類似度を検出した時のディレイ時間Tdとシフト時間Tcを記憶しており、それを最適ディレイ時間Td_optと最適シフト時間Tc_optとする。パラメータ記憶回路116に記憶されている最適ディレイ時間Td_optに基づいて、ポインタ制御回路118が第1のポインタ602_iを開始点とし時間長Td_optの音声信号X0(616)を記憶回路101から読み出し、出力バッファ回路114に出力する。次にパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118は、605で示される区間の音声信号セグメントX1(610)と、608_optで示される区間の音声信号セグメントX2(611)を記憶回路101から読み出し、第1のバッファメモリ回路103と第2のバッファメモリ回路104とに出力する。窓関数発生回路107は、漸減する窓関数612と漸増する窓関数613とを出力し、第1の乗算回路110は第1のバッファメモリ回路103に蓄えられている音声信号セグメントX1(610)に対して窓関数発生回路107が出力する漸減する窓関数612を乗じてX1‘を出力し、第2の乗算回路111は第2のバッファメモリ回路104に蓄えられている音声信号セグメントX2(611)に対して窓関数発生回路107が出力する漸増する窓関数613を乗じてX2’を出力し、加算回路112は第1の乗算回路110の出力X1‘と第2の乗算回路111の出力X2’とを加算した信号614を出力バッファ回路114に出力する。そしてパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118が音声信号セグメントX2に後続するサンプルを開始点とし、時間長(Tt−Td_opt)の音声信号X3(617)を記憶回路101から読み出し、出力バッファ回路114に出力する。ここで、入力音声信号をそのまま出力する時間長Ttはポインタ値計算回路117が数式10により求めることで、正確な時間軸変換比αの実現が可能となる。
Figure 0004442239
以上でi番目の処理単位が終了し、引き続きi+1番目の処理単位のために、ポインタ値計算回路117が数式11と数式12により、第1のポインタ602_i+1と第2のポインタ603_i+1を求め、ポインタ制御回路118に出力する。
Figure 0004442239
Figure 0004442239
このように、速度設定回路115に設定されている時間軸変換比αに基づいて、ポインタ値計算回路117が一定の範囲内で、一部の重複を許す2つの音声信号セグメントの一方をシフトしたり2つの音声信号セグメントの開始点をディレイするような、様々な組み合わせの2つの音声信号セグメントの開始点アドレスを計算し、類似度計算回路105が2つの音声信号セグメント間の類似度を求め、判定回路106がディレイ時間Tdとシフト時間Tcの様々な組み合わせの2つの音声信号セグメント間の類似度から、類似度の高い値を検出し、パラメータ記憶回路116が判定回路106の検出した2つのセグメント間の類似度が高い時のパラメータ(Tc_opt,Td_opt)を記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
また速度設定回路115に設定されている時間軸変換αとパラメータ記憶回路116に記憶されているパラメータ(Tc_opt,Td_opt)に基づいて、ポインタ値計算回路117がアドレスを計算し、第1のスイッチ回路102と第2のスイッチ回路113が、加算回路112の出力とポインタ値計算回路117が計算したアドレスに基づく記憶回路101からの音声信号の出力とを切り換えて出力バッファ回路114に出力する結果、加算回路112の出力の前後もしくは一方に連続する音声信号(X0,X3)が出力されるので、連続的で滑らかな音声信号を出力することができ、加算回路112の出力の前後に所望の時間軸変換比αになるような時間長の音声信号(X0,X3)を出力できるので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比αに精度良く変えることができという効果もある。
さらにパラメータ記憶回路116に記憶されているパラメータ(Tc_opt,Td_opt)に基づいて、ポインタ値計算回路117がアドレスを計算し、記憶回路101から第1のバッファメモリ回路103と第2のバッファメモリ回路104に類似度が高い一定時間長Tcの音声信号セグメントの組(X1,X2)を読み出し、窓関数発生回路107が漸増する窓関数と漸減する窓関数とを出力し、第1の乗算回路110が第1のバッファメモリ回路103が出力する音声信号セグメントX1に対して窓関数発生回路107が出力する一方の窓関数を乗じ、第2の乗算回路111が第2のバッファメモリ回路104が出力する音声信号セグメントX2に対して窓関数発生回路107が出力する他方の窓関数を乗じ、加算回路112が第1の乗算回路110の出力X1‘と第2の乗算回路111の出力X2’とを重なるように加算する結果、どのような場合でも加算回路112の出力の時間長を一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。
なお、本実施の形態の類似度計算回路105における評価尺度として、図2に示した二乗誤差の小ささや図3に示した相関関数の大きさを用いたが、ディレイ時間Tdを一定時間以上変えても、類似度が高い2つの音声信号セグメントのシフト時間Tcが同一もしくは変化が少ないという評価尺度を用いることもできる。この場合には、音声信号の定常性が考慮されることとなり、音質改善が期待できる。
なお本実施の形態の類似度計算回路105における評価尺度として、図2に示した正規化していない二乗誤差の小ささや、図3に示した正規化していない相関関数の大きさを用いたが、正規化した二乗誤差の小ささや、正規化した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、音声信号の振幅の大きさに依存しない評価尺度となるので、音声信号の振幅に影響されずに類似度を求めることができ、音質改善が期待できる。
なお本実施の形態の第1のバッファメモリ回路103と第2のバッファメモリ回路104では、音声信号を音声信号セグメント長Ts単位で記憶回路101から読み込んでいるが、もっと大きい処理単位毎に読み込んでも良い。例えば図5に示す時間軸伸張の場合には、504_minの開始点から509の終了点までを、図6に示す時間軸圧縮の場合には、604の開始点から609_minの終了点までを、第1のバッファメモリ回路103と第2のバッファメモリ回路104に読み込んでしまうことにより、ディレイ時間Tdとシフト時間Tcを変えながら2つの音声信号セグメントの類似度を求める時と、類似度が高い場合のシフト時間Tc_optとディレイ時間Td_optにおける2つの音声信号セグメントを重み付け加算する時に、記憶回路101へのアクセスをしないようにできる。この場合には、記憶回路101から第1のバッファメモリ回路103と第2のバッファメモリ回路104への転送回数が少なくて済むので、処理時間を短縮することが可能となる
(実施の形態2)
図7は、本発明の音声速度変換方法の時間軸伸張(α≧1)の場合のフローチャートで、702の時間軸変換比αを読み込むステップと、703の第1のポインタを初期設定するステップと、704の第2のポインタに第1のポインタに対し音声信号セグメント長Ts後の値を設定するステップと、705の数式4に基づいて時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minにより最大ディレイ時間Td_maxを計算するステップと、706の最小二乗誤差R_minを初期値Nに初期設定するステップと、707のディレイ時間Tdを初期値0に初期設定するステップと、708のシフト時間Tcにシフト時間の初期値Tc_minを設定するステップと、709の数式3に基づいてディレイ時間Tdにおける最大シフト時間Tc_maxを計算するステップと、710の(第1のポインタ+Tc+Td)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、711の(第2のポインタ+Td)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、712の数式1に基づいてシフト時間Tcかつディレイ時間Tdの時の音声信号セグメントX1と音声信号セグメントX2の二乗誤差R(Tc,Td)を計算するステップと、713の最小二乗誤差R_minと二乗誤差R(Tc,Td)とを比較し、R_minが二乗誤差R(Tc,Td)よりも大きければステップ714に行き、そうでなければステップ717に行くステップと、714の二乗誤差R(Tc,Td)を新たな最小二乗誤差R_minとして更新するステップと、715のシフト時間Tcを最適シフト時間Tc_optとして更新するステップと、716のディレイ時間Tdを最適ディレイ時間Td_optとして更新するステップと、717のシフト時間Tcを1サンプルだけ増加させるステップと、718のシフト時間Tcと最大シフト時間Tc_maxとを比較し、シフト時間Tcが最大シフト時間Tc_maxよりも大きくない場合にはステップ710に戻り、シフト時間Tcが最大シフト時間Tc_maxよりも大きい場合にはステップ719に進むことで、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変えるステップと、719のディレイ時間Tdを△Tdサンプルだけ増加させるステップと、720のディレイ時間Tdと最大ディレイ時間Td_maxとを比較し、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きくない場合にはステップ708に戻り、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きい場合にはステップ721に進むことで、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変えるステップと、721の第2のポインタを開始点としてTd_opt個の音声信号サンプルを入力しそのまま出力するステップと、722の(第1のポインタ+Tc_opt+Td_opt)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、723の(第2のポインタ+Td_opt)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、724の数式13に基づいて音声信号セグメントX1(i)に対して漸増する窓関数W1(i)を乗じたものと音声信号セグメントX2(i)に対して漸減する窓関数W2(i)を乗じたものとを加算した信号Y(i)をi=1〜Tsの間計算して出力するステップと、
Figure 0004442239
725の数式5に基づいて入力音声信号をそのまま出力する時間長Ttを計算するステップと、726の(第1のポインタ+Tc_opt+Td_opt+Ts)を開始点として(Tt−Td_opt)個の音声信号を入力してそのまま出力するステップと、727の数式6に基づいて次の処理単位における第2のポインタを設定するステップと、728の数式7に基づいて次の処理単位における第1のポインタを設定するステップと、729の終了でなければステップ706に戻って処理を繰り返し、終了ならばステップ730で終了するステップとを備えている。
ただしこのフローチャートでは簡単のため、単位時間とサンプリング周期とを等しいとして表現している。
ステップ708とステップ717とステップ718によりシフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ707とステップ719とステップ720によりディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ710により音声信号セグメントX1の開始点を求めて時間長Tsの音声信号セグメントX1を入力し、ステップ711により音声信号セグメントX2の開始点を求めて時間長Tsの音声信号セグメントX2を入力し、ステップ712で音声信号セグメントX1と音声信号セグメントX2の二乗誤差を類似度の評価関数として計算し、ステップ713とステップ714とステップ715とステップ716で二乗誤差の値が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、シフト時間Tcの初期値Tc_minと最大シフト時間Tc_maxと最大ディレイ時間Td_maxにより決められる一定の範囲内で、シフト時間Tcとディレイ時間Tdを変えながら、一部の重複を許す2つの音声信号セグメントX1とX2の二乗誤差を求め、最も二乗誤差が小さい時のシフト時間Tcとディレイ時間TdをそれぞれTc_optとTd_optとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
また、ステップ721により、第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力し、ステップ722とステップ723とステップ724により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力し、ステップ725により、音声信号をそのまま出力する時間長Ttを計算し、ステップ726により、第1のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力することにより、重み付け加算した信号の前端と連続し時間長Td_optの音声信号を出力し、時間長Tsの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長(Tt−Td_opt)の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に合計の時間長Ttの音声信号を出力するので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
そして、ステップ722とステップ723とステップ724により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力することにより、類似度が高くセグメント長Tsの音声信号セグメントの組X1とX2を入力し、セグメント長Tsの漸増する窓関数W1とセグメント長Tsの漸減する窓関数W2を用いて、第1の音声信号セグメントX1と第2の音声信号セグメントX2とを重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長を一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。
さらに、ステップ705により、最大ディレイ時間Td_maxを計算し、ステップ709により、最大シフト時間Tc_maxを計算し、ステップ708とステップ717とステップ718により、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ707とステップ719とステップ720により、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ710とステップ711とステップ712により、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の二乗誤差を計算し、ステップ713とステップ714とステップ715とステップ716により、二乗誤差が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、音声信号セグメントX1と音声信号セグメントX2の類似度が高くなる場合のTc_optとTd_optを探索する時の、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲に制限し、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
本発明に適用できる類似度を求める時の評価尺度としては、二乗誤差の小ささを用いたが、相関関数の大きさや、ディレイ時間Tdを一定時間以上変えても、類似度が高くなる2つの音声信号セグメントのシフト時間Tc_optが同一もしくは変化が少ないことも適用できる。
図8は、本発明の音声速度変換方法の時間軸圧縮(α≦1)の場合のフローチャートで、802の時間軸変換比αを読み込むステップと、803の第1のポインタを初期設定するステップと、804の第2のポインタに第1のポインタに対し音声信号セグメント長Ts後の値を設定するステップと、805の数式9に基づいて時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minにより最大ディレイ時間Td_maxを計算するステップと、806の最小二乗誤差R_minを初期値Nに初期設定するステップと、807のディレイ時間Tdを初期値0に初期設定するステップと、808のシフト時間Tcにシフト時間の初期値Tc_minを設定するステップと、809の数式8に基づいてディレイ時間Tdにおける最大シフト時間Tc_maxを計算するステップと、810の(第1のポインタ+Td)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、811の(第2のポインタ−Tc+Td)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、812の数式1に基づいてシフト時間Tcかつディレイ時間Tdの時の音声信号セグメントX1と音声信号セグメントX2の二乗誤差R(Tc,Td)を計算するステップと、813の最小二乗誤差R_minと二乗誤差R(Tc,Td)とを比較し、R_minが二乗誤差R(Tc,Td)よりも大きければステップ814に行き、そうでなければステップ817に行くステップと、
814の二乗誤差R(Tc,Td)を新たな最小二乗誤差R_minとして更新するステップと、815のシフト時間Tcを最適シフト時間Tc_optとして更新するステップと、816のディレイ時間Tdを最適ディレイ時間Td_optとして更新するステップと、817のシフト時間Tcを1サンプルだけ増加させるステップと、818のシフト時間Tcと最大シフト時間Tc_maxとを比較し、シフト時間Tcが最大シフト時間Tc_maxよりも大きくない場合にはステップ810に戻り、シフト時間Tcが最大シフト時間Tc_maxよりも大きい場合にはステップ819に進むことで、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変えるステップと、819のディレイ時間Tdを△Tdサンプルだけ増加させるステップと、820のディレイ時間Tdと最大ディレイ時間Td_maxとを比較し、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きくない場合にはステップ808に戻り、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きい場合にはステップ821に進むことで、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変えるステップと、821の第1のポインタを開始点としてTd_opt個の音声信号サンプルを入力しそのまま出力するステップと、822の(第1のポインタ+Td_opt)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、823の(第2のポインタ−Tc_opt+Td_opt)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、824の数式14に基づいて音声信号セグメントX1(i)に対して漸減する窓関数W2(i)を乗じたものと音声信号セグメントX2(i)に対して漸増する窓関数W1(i)を乗じたものとを加算した信号Y(i)をi=1〜Tsの間計算して出力するステップと、
Figure 0004442239
825の数式10に基づいて入力音声信号をそのまま出力する時間長Ttを計算するステップと、826の(第2のポインタ−Tc_opt+Td_opt+Ts)を開始点として(Tt−Td_opt)個の音声信号を入力してそのまま出力するステップと、827の数式11に基づいて次の処理単位における第1のポインタを設定するステップと、828の数式12に基づいて次の処理単位における第2のポインタを設定するステップと、829の終了でなければステップ806に戻って処理を繰り返し、終了ならばステップ830で終了するステップ
とを備えている。
ただしこのフローチャートでは簡単のため、単位時間とサンプリング周期とを等しいとして表現している。
ステップ808とステップ817とステップ818によりシフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ807とステップ819とステップ820によりディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ810により音声信号セグメントX1の開始点を求めて時間長Tsの音声信号セグメントX1を入力し、ステップ811により音声信号セグメントX2の開始点を求めて時間長Tsの音声信号セグメントX2を入力し、ステップ812で音声信号セグメントX1と音声信号セグメントX2の二乗誤差を類似度の評価関数として計算し、ステップ813とステップ814とステップ815とステップ816で二乗誤差の値が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、シフト時間Tcの初期値Tc_minと最大シフト時間Tc_maxと最大ディレイ時間Td_maxにより決められる一定の範囲内で、シフト時間Tcとディレイ時間Tdを変えながら、一部の重複を許す2つの音声信号セグメントX1とX2の二乗誤差を求め、最も二乗誤差が小さい時のシフト時間Tcとディレイ時間TdをそれぞれTc_optとTd_optとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
また、ステップ821により、第1のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力し、ステップ822とステップ823とステップ824により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸減する窓関数W2(1〜Ts)と漸増する窓関数W1(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力し、ステップ825により、音声信号をそのまま出力する時間長Ttを計算し、ステップ826により、第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力することにより、重み付け加算した信号の前端と連続し時間長Td_optの音声信号を出力し、時間長Tsの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長(Tt−Td_opt)の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に合計の時間長Ttの音声信号を出力するので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
そして、ステップ822とステップ823とステップ824により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸減する窓関数W2(1〜Ts)と漸増する窓関数W1(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力することにより、類似度が高くセグメント長Tsの音声信号セグメントの組X1とX2を入力し、セグメント長Tsの漸減する窓関数W2とセグメント長Tsの漸増する窓関数W1を用いて、第1の音声信号セグメントX1と第2の音声信号セグメントX2とを重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長を一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。
さらに、ステップ805により、最大ディレイ時間Td_maxを計算し、ステップ809により、最大シフト時間Tc_maxを計算し、ステップ808とステップ817とステップ818により、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ807とステップ819とステップ820により、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ810とステップ811とステップ812により、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の二乗誤差を計算し、ステップ813とステップ814とステップ815とステップ816により、二乗誤差が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、音声信号セグメントX1と音声信号セグメントX2の類似度が高くなる場合のTc_optとTd_optを探索する時の、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲に制限し、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
なお本実施の形態では類似度を求める時の評価尺度としては、ステップ712やステップ812の二乗誤差の小ささを用いたが、相関関数の大きさや、ディレイ時間Tdを一定時間以上変えても、類似度が高くなる2つの音声信号セグメントのシフト時間Tc_optが同一もしくは変化が少ないことも適用できる。
なお本実施の形態の類似度の評価尺度としては、ステップ712やステップ812の正規化していない二乗誤差の小ささを用いたが、正規化した二乗誤差の小ささや、正規化した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、音声信号の振幅の大きさに依存しない評価尺度となるので、音声信号の振幅に影響されずに類似度を求めることができ、音質改善が期待できる。
なお本実施の形態において、音声信号セグメント間の二乗誤差を求める時に、ステップ710とステップ711やステップ810とステップ811では、音声信号を音声信号セグメント長Ts単位で入力しているが、もっと大きい処理単位毎に入力しても良い。例えば図5に示す時間軸伸張の場合には、504_minの開始点から509の終了点までを、入力してしまい、図6に示す時間軸圧縮の場合には、604の開始点から609_minの終了点までを入力してしまうことにより、ステップ710とステップ711やステップ810とステップ811のように、ディレイ時間Tdとシフト時間Tcを変えながら2つの音声信号セグメントを入力する時や、ステップ721やステップ821のように、時間長Td_optの音声信号を入力する時や、ステップ722とステップ723やステップ822とステップ823のように、シフト時間Tc_optとディレイ時間Td_optにおける2つの音声信号セグメントを入力する時や、ステップ726やステップ826のように、時間長(Tt−Td_opt)の音声信号を入力する時に、音声信号を入力し直さないようにできる。この場合には、既に入力された音声信号を切り出すだけで良く、音声信号の入力回数は少なくて済むので、処理時間を短縮することが可能となる。
本発明の音声速度変換装置と音声速度変換方法は、音声の基本周波数を変えずに継続時間長のみを変えることができ、速度を変えても明瞭度が下がりにくいので、ディスク媒体や半導体メモリに記録された音声信号を、使用者が聞き易い速度や聞きたい速度で再生することが必要な用途に適用できる。
本発明の音声速度変換装置の一実施形態のブロック図 同実施形態の類似度計算回路のブロック図 同実施形態の類似度計算回路のブロック図 同実施形態の判定回路のブロック図 同実施形態の時間軸伸張の場合の処理図(時間軸変換比α=5/4) 同実施形態の時間軸圧縮の場合の処理図(時間軸変換比α=4/5) 本発明の音声速度変換方法の一実施形態の時間軸伸張(α≧1)の場合のフローチャート 本発明の音声速度変換方法の一実施形態の時間軸伸張(α≧1)の場合のフローチャート 本発明の音声速度変換方法の一実施形態の時間軸伸張(α≧1)の場合のフローチャート 本発明の音声速度変換方法の一実施形態の時間軸伸張(α≧1)の場合のフローチャート 本発明の音声速度変換方法の一実施形態の時間軸圧縮(α≦1)の場合のフローチャート 本発明の音声速度変換方法の一実施形態の時間軸圧縮(α≦1)の場合のフローチャート 本発明の音声速度変換方法の一実施形態の時間軸圧縮(α≦1)の場合のフローチャート 本発明の音声速度変換方法の一実施形態の時間軸圧縮(α≦1)の場合のフローチャート
符号の説明
101 記憶回路
102 第1のスイッチ回路
103 第1のバッファメモリ回路
104 第2のバッファメモリ回路
105 類似度計算回路
106 判定回路
107 窓関数発生回路
108 第3のスイッチ回路
109 第4のスイッチ回路
110 第1の乗算回路
111 第2の乗算回路
112 加算回路
113 第2のスイッチ回路
114 出力バッファ回路
115 速度設定回路
116 パラメータ記憶回路
117 ポインタ値計算回路
118 ポインタ制御回路
119 制御信号発生回路

Claims (6)

  1. 音声信号から切り出した所定の時間長の音声信号セグメントとその音声信号セグメントに一部の重複を許して後続する音声信号から切り出した所定の時間長の音声信号セグメントとの類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時の2つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、漸減する窓関数と漸増する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、所望の時間軸変換比になるような時間長の前記加算回路の出力の先頭の音声信号に連続する音声信号と所望の時間軸変換比になるような時間長の前記加算回路の出力の後尾の音声信号に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路とを備えていることを特徴とする音声速度変換装置。
  2. サンプリングおよび量子化された音声信号記録る記憶回路と、前記記憶回路にアドレス値を出力するポインタ制御回路と、前記記憶回路が出力する音声信号の出力先を第1のバッファメモリ回路と第2のバッファメモリ回路と第2のスイッチ回路とから選択する第1のスイッチ回路と、前記第1のスイッチ回路から出力され、前記ポインタ制御回路から出力されるアドレス値と所定の時間長に基づき前記記憶回路に記録されている音声信号から切り出した音声信号セグメントを蓄える第1のバッファメモリ回路と、前記第1のバッファメモリ回路に蓄えられた音声信号セグメントに一部の重複を許して後続し、前記ポインタ制御回路から出力されるアドレス値と所定の時間長に基づき前記記憶回路に記録されている音声信号から切り出した、前記第1のスイッチ回路から出力される音声信号セグメントを蓄える第2のバッファメモリ回路と、前記第1のバッファメモリ回路に蓄えられた音声信号セグメントと前記第2のバッファメモリ回路に蓄えられた音声信号セグメントとの類似度を求める類似度計算回路と、前記記憶回路に記録されている音声信号を再生する時の再生速度の逆数を示す時間軸変換比を設定する速度設定回路と、前記音声信号内で予め決められた区間について、予め決められた時間毎にずらしながら2つの音声信号セグメントを切り出すために、前記速度設定回路に設定されている時間軸変換比に基づいて前記類似度計算回路が類似度を求めるべき2つの音声信号セグメントのアドレス値を計算し、または出力信号が前記速度設定回路に設定されている時間軸変換比になるような2つの音声信号セグメントと加算回路で加算した2つの音声信号セグメントに後続するそのまま出力する音声信号を切り出すために、パラメータ記憶回路に記録されているパラメータに基づいて類似度の高い2つの音声信号セグメントおよび2つの音声信号セグメントの加算回路からの出力に後続する音声信号のアドレス値を計算し、前記ポインタ制御回路に出力するポインタ値計算回路と、前記ポインタ値計算回路で切り出す2つの音声信号セグメントに対して前記類似度計算回路による類似度の計算を行い、複数計算された類似度の中から最も高い類似度を検出する判定回路と、前記判定回路が最も高い類似度を検出した時に前記ポインタ制御回路が出力したアドレス値を前記ポインタ値計算回路求めるために用いた2つの音声信号セグメントの切り出し時刻の差を示すシフト時間および、複数の類似度を計算するために基準となる音声信号セグメントの切り出し時刻を示すディレイ時間に関するパラメータを記憶するパラメータ記憶回路と、前記記憶回路に記録されている音声信号を再生する時の時間軸変換比を設定する速度設定回路と、漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第1のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第2のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、前記加算回路の出力と前記第1のスイッチ回路の出力とを選択する第2のスイッチ回路と、前記第2のスイッチ回路の出力を蓄えて出力する出力バッファ回路と、前記類似度計算回路が類似度を計算する時もしくは前記加算回路が前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する時には前記第1のスイッチ回路を第1のバッファメモリ回路側もしくは第2のバッファメモリ回路側に倒し、前記加算回路の出力を前記出力バッファ回路に出力する時には前記第2のスイッチ回路を加算回路側に倒し、それ以外の時には前記加算回路の出力の前後と連続する音声信号を前記記憶回路から前記出力バッファ回路に出力するように前記第1のスイッチ回路と前記第2のスイッチ回路とを制御する制御信号発生回路とを備えていることを特徴とする音声速度変換装置。
  3. 開始点を基準として時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minにより決められる一定の範囲内で、2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcと基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdを変えながら切り出した2つの音声信号セグメント間の類似度を計算し、類似度の高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
    開始点から時間長Td_optの音声信号を入力してそのまま出力するステップと、
    Tc_optとTd_optをパラメータとして音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
    時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいてそのまま出力する音声信号の時間長Ttを計算し、重み付け加算した音声信号に後続する時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
    次の処理のために開始点を設定するステップと、
    終了でなければ最初のステップに戻るステップと
    を有することを特徴とする音声速度変換方法。
  4. 時間軸変換比αを読み込むステップと、
    音声信号セグメントX1の開始点を示す第1のポインタと第1のポインタの音声信号セグメント長Ts後に設定され音声信号セグメントX2の開始点を示す第2のポインタを設定するステップと、
    時間軸変換比αと音声信号セグメント長Tsと2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcの初期値Tc_minに基づいて、基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdの最大ディレイ時間Td_maxを計算するステップと、
    類似度を初期設定するステップと、
    シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
    第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
    第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
    時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
    音声信号セグメント長Tsと音声信号をそのまま出力する時間長Ttと類似度が高い時のシフト時間Tc_optに基づいて、第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
    終了でなければ類似度を初期設定するステップに戻るステップと
    を有することを特徴とする音声速度変換方法。
  5. 時間軸変換比α(≧1.0)を読み込むステップと、
    第1のポインタにスタート点を設定するステップと、
    第2のポインタに第1のポインタ+音声信号セグメント長Tsの値を設定するステップと、
    基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdの最大ディレイ時間Td_max=(Ts−α×Tc_min)/(α−1)を計算するステップと、
    類似度を初期設定するステップと、
    2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcを初期値Tc_minから最大シフト時間Tc_max=(Ts+Td)/α−Tdの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、(第1のポインタ+Tc+Td)を開始点として時間長Tsの音声信号セグメントX1を入力し、(第2のポインタ+Td)を開始点として時間長Tsの音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
    第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
    (第1のポインタ+Tc_opt+Td_opt)を開始点として時間長Tsの音声信号セグメントX1(1〜Ts)を入力し、(第2のポインタ+Td_opt)を開始点として時間長Tsの音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用い、W1(i)×X1(i)+W2(i)×X2(i)をi=1〜Tsの範囲で計算して出力するステップと、
    Tt=(Ts−α×Tc_opt)/(α−1)を計算し、(第1のポインタ+Tc_opt+Td_opt+Ts)を開始点として時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
    第2のポインタに第1のポインタ+Tc_opt+Ts+Ttを設定するステップと、
    第1のポインタに第2のポインタ−Tsを設定するステップと、
    終了でなければ類似度を初期設定するステップに戻るステップと
    を有することを特徴とする音声速度変換方法。
  6. 時間軸変換比α(≦1.0)を読み込むステップと、
    第1のポインタにスタート点を設定するステップと、
    第2のポインタに第1のポインタ+音声信号セグメント長Tsの値を設定するステップと、
    基準となる音声信号セグメントの切り出し時刻を示すディレイ時間Tdの最大ディレイ時間Td_max=((2×α−1)Ts−α×Tc_min)/(1−α)を計算するステップと、
    類似度を初期設定するステップと、
    2つの音声信号セグメントの切り出し時刻の差を示すシフト時間Tcを初期値Tc_minから最大シフト時間Tc_max=2×Ts+Td−(Ts+Td)/αの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、(第1のポインタ+Td)を開始点として時間長Tsの音声信号セグメントX1を入力し、(第2のポインタ−Tc+Td)を開始点として時間長Tsの音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
    第1のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
    (第1のポインタ+Td_opt)を開始点として時間長Tsの音声信号セグメントX1(1〜Ts)を入力し、(第2のポインタ−Tc_opt+Td_opt)を開始点として時間長Tsの音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用い、W2(i)×X1(i)+W1(i)×X2(i)をi=1〜Tsの範囲で計算して出力するステップと、
    Tt=((2×α−1)Ts−α×Tc_opt)/(1−α)を計算し、(第2のポインタ−Tc_opt+Td_opt+Ts)を開始点として時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
    第1のポインタに第2のポインタ−Tc_opt+Ts+Ttを設定するステップと、
    第2のポインタに第1のポインタ+Tsを設定するステップと、
    終了でなければ類似度を初期設定するステップに戻るステップと
    を有することを特徴とする音声速度変換方法。
JP2004030325A 2004-02-06 2004-02-06 音声速度変換装置と音声速度変換方法 Expired - Fee Related JP4442239B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004030325A JP4442239B2 (ja) 2004-02-06 2004-02-06 音声速度変換装置と音声速度変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004030325A JP4442239B2 (ja) 2004-02-06 2004-02-06 音声速度変換装置と音声速度変換方法

Publications (3)

Publication Number Publication Date
JP2005221811A JP2005221811A (ja) 2005-08-18
JP2005221811A5 JP2005221811A5 (ja) 2007-03-01
JP4442239B2 true JP4442239B2 (ja) 2010-03-31

Family

ID=34997485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004030325A Expired - Fee Related JP4442239B2 (ja) 2004-02-06 2004-02-06 音声速度変換装置と音声速度変換方法

Country Status (1)

Country Link
JP (1) JP4442239B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717393B1 (ko) 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치
JP4940888B2 (ja) * 2006-10-23 2012-05-30 ソニー株式会社 オーディオ信号伸張圧縮装置及び方法
EP2141696A1 (en) 2008-07-03 2010-01-06 Deutsche Thomson OHG Method for time scaling of a sequence of input signal values
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
JP5405206B2 (ja) * 2009-06-24 2014-02-05 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2005221811A (ja) 2005-08-18

Similar Documents

Publication Publication Date Title
JP4675692B2 (ja) 話速変換装置
WO2007124582A1 (en) Method for the time scaling of an audio signal
WO2002082428A1 (en) Time-scale modification of signals applying techniques specific to determined signal types
JP2004505304A (ja) デジタルオーディオ信号の連続可変時間スケール変更
EP2881944B1 (en) Audio signal processing apparatus
CN104900231B (zh) 语音检索装置以及语音检索方法
JP2012108451A (ja) 音声処理装置および方法、並びにプログラム
JP4442239B2 (ja) 音声速度変換装置と音声速度変換方法
WO2001095496A1 (fr) Procede et appareil de compression, procede et appareil d'expansion, systeme de compression expansion
JP3402748B2 (ja) 音声信号のピッチ周期抽出装置
US20070011001A1 (en) Apparatus for predicting the spectral information of voice signals and a method therefor
JP2017122908A (ja) 信号処理装置および信号処理方法
JP4596197B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3378672B2 (ja) 話速変換装置
JP3379348B2 (ja) ピッチ変換器
JP3422716B2 (ja) 話速変換方法および装置および話速変換プログラムを格納した記録媒体
JPH10301594A (ja) 有音検出装置
WO2017119368A1 (ja) 信号処理方法および信号処理装置
US20070269056A1 (en) Method and Apparatus for Audio Signal Expansion and Compression
JP3357742B2 (ja) 話速変換装置
JPH07191695A (ja) 話速変換装置
JP2005221811A5 (ja)
JP6652469B2 (ja) 復号装置、復号方法及びプログラム
JPH08292790A (ja) ビデオテープレコーダ
US7337109B2 (en) Multiple step adaptive method for time scaling

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070111

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100104

R151 Written notification of patent or utility model registration

Ref document number: 4442239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees