JP2005221811A - Device and method for converting speech speed - Google Patents
Device and method for converting speech speed Download PDFInfo
- Publication number
- JP2005221811A JP2005221811A JP2004030325A JP2004030325A JP2005221811A JP 2005221811 A JP2005221811 A JP 2005221811A JP 2004030325 A JP2004030325 A JP 2004030325A JP 2004030325 A JP2004030325 A JP 2004030325A JP 2005221811 A JP2005221811 A JP 2005221811A
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- audio signal
- pointer
- output
- opt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声の基本周波数を変えずに継続時間長のみを変える音声速度変換装置と音声速度変換方法に関する。 The present invention relates to an audio speed conversion apparatus and an audio speed conversion method that change only the duration length without changing the fundamental frequency of audio.
音声の基本周波数(音程)を変えずに継続時間長のみを変える音声速度変換装置と音声速度変換方法としては、例えば特許文献1に記載されているようなMPEGオーディオレイヤ2音声符号化方式に対する音声符号化装置、または特許文献2もしくは非特許文献1に記載されているようなPCM信号に対する音声速度変換装置と音声速度変換方法が知られている。
しかしながら、特許文献1に開示の音声再生装置では、重み付け加算をするフレームを探すパラメータはエネルギーの小ささ,音声らしさの小ささ,定常性の高さ,エネルギーの変化度合いに基づく継時マスキングの大きさ,またはMPEGオーディオストリームのスケールファクターであるのに対し、重み付け加算を行うために位相の合う位置を探すパラメータは相関関数であり、異なるパラメータを使用しているために、処理が複雑であるという課題があり、さらにMPEGオーディオのようなフレーム単位の処理に基づいて、重み付け加算をするフレームと重み付け加算をしないフレームとの頻度を変えることにより時間軸変換比を変えているために、時間軸変換比を細かい刻みで精度良く変えることはできないという課題がある。
However, in the audio reproduction device disclosed in
また、特許文献2に開示の、もしくは非特許文献1に記載の音声速度変換装置と音声速度変換方法では、2つの音声信号セグメントは相関関数を用いて最適な位置にシフトして加算されるものの、2つの音声信号セグメントの位置は、時間軸変換比αと音声信号セグメント長Tsと1つ前の重み付け加算における相関関数が最大になるシフト時間Tcとにより一意に決まってしまうので、必ずしも最適な音声信号セグメントが選択されているとは限らず、さらに相関関数が最大になるシフト時間Tcの値によっては重み付け加算長が短くなるので音質が低下するという課題がある。
Further, in the audio speed conversion device and the audio speed conversion method disclosed in
本発明は、かかる課題を解決し、音声信号セグメントを最適な位置から選択して重み付け加算を行うので、音声欠落や音声重複が少なく音質も改善され、しかも時間軸変換比を細かくかつ精度良く変えることができ、さらに重み付け加算の時間長が一定なので音質が低下しにくい音声速度変換装置と音声速度変換方法を提供することを目的とする。 The present invention solves such a problem, selects an audio signal segment from an optimal position, and performs weighted addition. Therefore, the audio quality is improved with less missing or duplicated audio, and the time axis conversion ratio is changed finely and accurately. Furthermore, it is an object of the present invention to provide an audio speed conversion device and an audio speed conversion method in which the sound quality is hardly deteriorated because the time length of weighted addition is constant.
本発明の音声速度変換装置は、音声信号セグメントとその音声信号セグメントに一部の重複を許して後続する音声信号セグメントとの類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時の2つの音声信号セグメントの時刻情報に関するパラメータを記憶するパラメータ記憶回路と、漸減する窓関数と漸増する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、所望の時間軸変換比になるように前記加算回路の出力の前端に連続する音声信号と前記加算回路の出力の後端に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路とを備えている。 The audio speed conversion apparatus according to the present invention includes a similarity calculation circuit that obtains a similarity between an audio signal segment and a subsequent audio signal segment that allows the audio signal segment to partially overlap, and the similarity calculation circuit outputs the similarity. A determination circuit for detecting a high similarity value from the similarity, a parameter storage circuit for storing parameters relating to time information of two audio signal segments when the determination circuit detects a high similarity value, and a gradually decreasing window A window function generating circuit for outputting a function and a gradually increasing window function, and one window function output by the window function generating circuit for one audio signal segment based on a parameter stored in the parameter storage circuit. A first multiplier circuit to be multiplied and the window function for the other audio signal segment based on a parameter stored in the parameter storage circuit. A second multiplication circuit for multiplying the other window function output from the generation circuit, an addition circuit for adding the output of the first multiplication circuit and the output of the second multiplication circuit, and a desired time axis conversion ratio. And a switch circuit that switches and outputs the audio signal continuous at the front end of the output of the adder circuit and / or the audio signal continuous at the rear end of the output of the adder circuit and the output of the adder circuit. .
本発明の音声速度変換装置は、2つの音声信号セグメントの類似度を求める類似度計算回路と、2つの音声信号セグメントの一方をシフトしたり2つの音声信号セグメントの切り出し時刻をディレイしながら前記類似度計算回路が求める類似度から類似度の高い値を検出する判定回路と、前記判定回路が検出した類似度が高い時のパラメータを記憶するパラメータ記憶回路とを備えるため、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。また所望の時間軸変換比になるように加算回路の出力の前端に連続する音声信号と加算回路の出力の後端に連続する音声信号の両方もしくは一方と加算回路の出力と切り替えて出力するスイッチ回路を備えるため、加算回路の出力の前後に任意の時間長の音声信号を出力できるので、時間軸変換比を細かくかつ精度良く変えることができという効果もある。さらに漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、パラメータ記憶回路に記憶されているパラメータに基づいた一方の音声信号セグメントに対して窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、パラメータ記憶回路に記憶されているパラメータに基づいた他方の音声信号セグメントに対して窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路とを備えるため、パラメータ記憶回路に記憶されているパラメータに基づいて一定時間長で類似度が高い音声信号セグメントの組を読み出して重み付け加算するので、どのような場合でも重み付け加算の時間長を一定にでき音質が低下しにくいという効果もある。 The audio speed conversion apparatus according to the present invention includes a similarity calculation circuit for obtaining a similarity between two audio signal segments, and the similarity while shifting one of the two audio signal segments or delaying the cut-out time of the two audio signal segments. A determination circuit for detecting a value having a high similarity from the similarity calculated by the degree calculation circuit, and a parameter storage circuit for storing a parameter when the similarity detected by the determination circuit is high. Since an optimum set of audio signal segments can be selected, there is an effect that there are few audio omissions and audio duplications, and there is little audio quality degradation. Also, a switch for switching and outputting either the audio signal continuous at the front end of the output of the adder circuit and / or the audio signal continuous at the rear end of the output of the adder circuit and the output of the adder circuit so as to obtain a desired time axis conversion ratio Since the circuit is provided, an audio signal having an arbitrary time length can be output before and after the output of the adder circuit, so that there is an effect that the time axis conversion ratio can be finely and accurately changed. Further, a window function generation circuit that outputs a gradually increasing window function and a gradually decreasing window function, and one window that the window function generation circuit outputs for one audio signal segment based on the parameters stored in the parameter storage circuit A first multiplication circuit that multiplies the function, a second multiplication circuit that multiplies the other window function output from the window function generation circuit to the other speech signal segment based on the parameter stored in the parameter storage circuit, Since the adder circuit for adding the output of the first multiplier circuit and the output of the second multiplier circuit is provided, the audio signal having a certain time length and high similarity based on the parameter stored in the parameter storage circuit Since the set of segments is read and weighted and added, the time length of the weighted addition can be made constant in any case, and there is also an effect that the sound quality is hardly deteriorated.
本発明の音声速度変換装置は、音声信号が記録されている記憶回路と、前記記憶回路にアドレス値を出力するポインタ制御回路と、前記記憶回路が出力する音声信号の出力先を第1のバッファメモリ回路と第2のバッファメモリ回路と第2のスイッチ回路とから選択する第1のスイッチ回路と、前記第1のスイッチ回路から出力される音声信号セグメントを蓄える第1のバッファメモリ回路と、前記第1のバッファメモリ回路の内容に一部の重複を許して後続し前記第1のスイッチ回路から出力される音声信号セグメントを蓄える第2のバッファメモリ回路と、前記第1のバッファメモリ回路の内容と前記第2のバッファメモリ回路の内容との類似度を求める類似度計算回路と、前記類似度計算回路が出力する類似度から類似度の高い値を検出する判定回路と、前記判定回路が類似度の高い値を検出した時に前記ポインタ制御回路が出力したアドレス値をポインタ値計算回路が求めるために用いたパラメータを記憶するパラメータ記憶回路と、前記記憶回路に記録されている音声信号を再生する時の時間軸変換比を設定する速度設定回路と、前記速度設定回路に設定されている時間軸変換比に基づいて前記類似度計算回路が類似度を求めるべき2つの音声信号セグメントのアドレス値を計算し、または前記パラメータ記憶回路に記録されているパラメータに基づいて類似度の高い2つの音声信号セグメントおよびその前後に連続する音声信号のアドレス値を計算して前記ポインタ制御回路に出力するポインタ値計算回路と、漸増する窓関数と漸減する窓関数とを出力する窓関数発生回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第1のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する一方の窓関数を乗じる第1の乗算回路と、前記パラメータ記憶回路に記憶されているパラメータに基づいて前記記憶回路から出力され前記第2のバッファメモリ回路に蓄えられている音声信号セグメントに対して前記窓関数発生回路が出力する他方の窓関数を乗じる第2の乗算回路と、前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する加算回路と、前記加算回路の出力と前記第1のスイッチ回路の出力とを選択する第2のスイッチ回路と、前記第2のスイッチ回路の出力を蓄えて出力する出力バッファ回路と、前記類似度計算回路が類似度を計算する時もしくは前記加算回路が前記第1の乗算回路の出力と前記第2の乗算回路の出力とを加算する時には前記第1のスイッチ回路を第1のバッファメモリ回路側もしくは第2のバッファメモリ回路側に倒し、前記加算回路の出力を前記出力バッファ回路に出力する時には前記第2のスイッチ回路を加算回路側に倒し、それ以外の時には前記加算回路の出力の前後と連続する音声信号を前記記憶回路から前記出力バッファ回路に出力するように前記第1のスイッチ回路と前記第2のスイッチ回路とを制御する制御信号発生回路とを備えるため、速度設定回路に設定されている時間軸変換比に基づいて、ポインタ値計算回路が一定の範囲内で、一部の重複を許す2つの音声信号セグメントの一方をシフトしたり2つの音声信号セグメントの開始点をディレイするような、様々な組み合わせの2つの音声信号セグメントの開始点アドレスを計算し、類似度計算回路が2つの音声信号セグメント間の類似度を求め、判定回路が様々な組み合わせの2つの音声信号セグメント間の類似度から、類似度の高い値を検出し、パラメータ記憶回路が判定回路の検出した類似度の高い2つの音声信号セグメントのパラメータを記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。 An audio speed conversion device according to the present invention includes a storage circuit in which an audio signal is recorded, a pointer control circuit that outputs an address value to the storage circuit, and an output destination of the audio signal output from the storage circuit as a first buffer. A first switch circuit selected from a memory circuit, a second buffer memory circuit, and a second switch circuit; a first buffer memory circuit that stores an audio signal segment output from the first switch circuit; A second buffer memory circuit for storing an audio signal segment that is allowed to partially overlap the contents of the first buffer memory circuit and that is output from the first switch circuit; and the contents of the first buffer memory circuit And a similarity calculation circuit for calculating the similarity between the second buffer memory circuit and the similarity output from the similarity calculation circuit. A determination circuit, a parameter storage circuit for storing parameters used by the pointer value calculation circuit to obtain an address value output by the pointer control circuit when the determination circuit detects a high similarity value, and the storage circuit A speed setting circuit for setting a time axis conversion ratio when reproducing an audio signal recorded in the recording medium, and the similarity calculation circuit obtains the similarity based on the time axis conversion ratio set in the speed setting circuit The address values of two audio signal segments to be calculated are calculated, or the address values of two audio signal segments having a high similarity and consecutive audio signals before and after that are calculated based on the parameters recorded in the parameter storage circuit. A pointer value calculation circuit that outputs to the pointer control circuit, and a window function generation that outputs a gradually increasing window function and a gradually decreasing window function. And the window function generation circuit outputs the audio signal segment output from the storage circuit based on the parameters stored in the parameter storage circuit and stored in the first buffer memory circuit. A first multiplication circuit for multiplying a window function; and a window for an audio signal segment output from the storage circuit and stored in the second buffer memory circuit based on a parameter stored in the parameter storage circuit A second multiplication circuit for multiplying the other window function output from the function generation circuit; an addition circuit for adding the output of the first multiplication circuit and the output of the second multiplication circuit; and the output of the addition circuit; A second switch circuit for selecting an output of the first switch circuit; an output buffer circuit for storing and outputting the output of the second switch circuit; When the similarity calculation circuit calculates the similarity, or when the addition circuit adds the output of the first multiplication circuit and the output of the second multiplication circuit, the first switch circuit is connected to the first buffer memory. When the output of the adder circuit is output to the output buffer circuit, the second switch circuit is inclined to the adder circuit side, and otherwise the output of the adder circuit is output to the circuit side or the second buffer memory circuit side. The speed setting circuit includes a control signal generation circuit that controls the first switch circuit and the second switch circuit so as to output audio signals continuous with the front and rear from the storage circuit to the output buffer circuit. Based on the set time axis conversion ratio, the pointer value calculation circuit shifts one of the two audio signal segments allowing some overlap within a certain range or 2 The start point addresses of two audio signal segments in various combinations that delay the start point of the audio signal segment are calculated, the similarity calculation circuit obtains the similarity between the two audio signal segments, and the determination circuit A value having a high similarity is detected from the similarity between two audio signal segments in various combinations, and the parameter storage circuit stores the parameters of the two audio signal segments having a high similarity detected by the determination circuit. From among the various combinations of audio signal segments within the range, it is possible to select the optimal audio signal segment set for weighted addition with a high degree of similarity. There is an effect that there is little.
また速度設定回路に設定されている時間軸変換比とパラメータ記憶回路に記憶されているパラメータに基づいて、ポインタ値計算回路がアドレスを計算し、第1のスイッチ回路と第2のスイッチ回路が、加算回路の出力とポインタ値計算回路が計算したアドレスに基づく記憶回路からの音声信号の出力とを切り換えて出力バッファ回路に出力する結果、加算回路の出力の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、加算回路の出力の前後に所望の時間軸変換比になるような時間長の音声信号を出力できるので、時間軸変換比を細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。 The pointer value calculation circuit calculates an address based on the time axis conversion ratio set in the speed setting circuit and the parameter stored in the parameter storage circuit, and the first switch circuit and the second switch circuit are The output of the adder circuit and the output of the audio signal from the memory circuit based on the address calculated by the pointer value calculation circuit are switched and output to the output buffer circuit. As a result, the audio signal continuous before and after the output of the adder circuit is output. Therefore, a continuous and smooth audio signal can be output, and an audio signal having a time length that satisfies a desired time axis conversion ratio can be output before and after the output of the adder circuit. There is an effect that it can be finely set and can be accurately changed to a desired time axis conversion ratio.
さらにパラメータ記憶回路に記憶されているパラメータに基づいて、ポインタ値計算回路がアドレスを計算し、記憶回路から第1のバッファメモリ回路と第2のバッファメモリ回路に類似度が高い一定時間長の音声信号セグメントの組を読み出し、窓関数発生回路が漸増する窓関数と漸減する窓関数とを出力し、第1の乗算回路が第1のバッファメモリ回路が出力する音声信号セグメントに対して窓関数発生回路が出力する一方の窓関数を乗じ、第2の乗算回路が第2のバッファメモリ回路が出力する音声信号セグメントに対して窓関数発生回路が出力する他方の窓関数を乗じ、加算回路が第1の乗算回路の出力と第2の乗算回路の出力とを重なるように加算する結果、どのような場合でも加算回路の出力の時間長を一定にでき、音質が低下しにくいという効果もある。 Further, based on the parameters stored in the parameter storage circuit, the pointer value calculation circuit calculates an address, and the voice having a certain time length with high similarity from the storage circuit to the first buffer memory circuit and the second buffer memory circuit. A set of signal segments is read, a window function generating circuit outputs a gradually increasing window function and a gradually decreasing window function, and a first multiplying circuit generates a window function for the audio signal segment output from the first buffer memory circuit. The second multiplier circuit multiplies the audio signal segment output from the second buffer memory circuit by the other window function output from the window function generator circuit, and the adder circuit As a result of adding the output of the first multiplier circuit and the output of the second multiplier circuit so as to overlap, the time length of the output of the adder circuit can be made constant in any case, and the sound quality is lowered. The effect of hard to be certain.
本発明に適用できる類似度計算回路における評価尺度としては、例えば二乗誤差の小ささや相関関数の大きさ、または類似度が高い場合の2つの音声信号セグメントのシフト時間が一定時間以上同一であることが適用できる。 As an evaluation measure in the similarity calculation circuit applicable to the present invention, for example, the small square error, the correlation function, or the shift times of two audio signal segments when the similarity is high are the same for a certain time or more. Is applicable.
また本発明の音声速度変換方法は、
時間軸変換比αを読み込むステップと、
第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minに基づいて最大ディレイ時間Td_maxを計算するステップと、
類似度を初期設定するステップと、
シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
音声信号セグメント長Tsと音声信号をそのまま出力する時間長Ttと類似度が高い時のシフト時間Tc_optに基づいて、第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップ
とを備えるため、シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップが、一定の範囲内で、シフト時間Tcとディレイ時間Tdを変えながら、一部の重複を許す2つの音声信号セグメントX1とX2の類似度を求め、類似度の高い値を検出した時のシフト時間Tcとディレイ時間TdをそれぞれTc_optとTd_optとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
The voice speed conversion method of the present invention
Reading the time axis conversion ratio α,
Setting a first pointer and a second pointer after Ts of the first pointer;
Calculating a maximum delay time Td_max based on the time axis conversion ratio α, the audio signal segment length Ts, and the initial value Tc_min of the shift time;
Initializing the similarity,
The shift time Tc is changed from the initial value Tc_min within the range of the delay time Td, the audio signal segment length Ts and the time axis conversion ratio α, and the delay time Td is changed within the range of 0 to the maximum delay time Td_max. The start points of the audio signal segment X1 and the audio signal segment X2 are obtained by using the
Inputting a voice signal having a time length Td_opt from the first pointer or the second pointer as a starting point and outputting it as it is;
The audio signal segment X1 (1 to Ts) and the audio signal segment X2 (1 to Ts) having high similarity are input using the first pointer, the second pointer, Tc_opt, and Td_opt as parameters, and the window function W1 (1 ~ Ts) and the gradually decreasing window function W2 (1 ~ Ts), the audio signal segment X1 and the audio signal segment X2 are weighted and output, and
Based on the time axis conversion ratio α, the audio signal segment length Ts, and the shift time Tc_opt having a high similarity, the time length Tt for outputting the audio signal as it is is calculated, and the first pointer or the second pointer and Tc_opt, Td_opt, and Ts are calculated. Obtaining a starting point on the basis of a voice signal having a time length (Tt−Td_opt) and outputting it as it is;
A step of setting the first pointer and the second pointer after Ts of the first pointer based on the audio signal segment length Ts, the time length Tt for outputting the audio signal as it is, and the shift time Tc_opt when the similarity is high When,
If it is not completed, a step of returning to the step of initializing the similarity is provided, so that the shift time Tc ranges from the initial value Tc_min to the maximum shift time Tc_max determined by the delay time Td, the audio signal segment length Ts, and the time axis conversion ratio α. The delay time Td is changed in the range from 0 to the maximum delay time Td_max, and the start points of the audio signal segment X1 and the audio signal segment X2 are set using the first pointer, the second pointer, the shift time Tc, and the delay time Td as parameters. And input the audio signal segment X1 and the audio signal segment X2 of time length Ts from each starting point, calculate the similarity between X1 and X2, and search for the delay time Td_opt and the shift time Tc_opt when the similarity is high Step within a certain range and shift time Tc. While changing the ray time Td, the degree of similarity between the two audio signal segments X1 and X2 that allow some overlap is obtained, and the shift time Tc and the delay time Td when a high value of the similarity is detected are set as Tc_opt and Td_opt, respectively. As a result of storing, it is possible to select a voice signal segment pair that has a high degree of similarity and is optimal for weighted addition from among a variety of voice signal segment combinations within a certain range. There is an effect that there is little sound quality degradation.
また、第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップ、
とを備えるため、重み付け加算した信号の前端と連続し時間長Td_optの音声信号を出力し、時間長Tsの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長(Tt−Td_opt)の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に所望の時間軸変換比になるような時間長の音声信号を出力できるので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
A step of inputting a voice signal having a time length Td_opt using the first pointer or the second pointer as a starting point and outputting the voice signal as it is;
The audio signal segment X1 (1 to Ts) and the audio signal segment X2 (1 to Ts) having high similarity are input using the first pointer, the second pointer, Tc_opt, and Td_opt as parameters, and the window function W1 (1 ~ Ts) and the gradually decreasing window function W2 (1 ~ Ts), the audio signal segment X1 and the audio signal segment X2 are weighted and output, and
Based on the time axis conversion ratio α, the audio signal segment length Ts, and the shift time Tc_opt having a high similarity, the time length Tt for outputting the audio signal as it is is calculated, and the first pointer or the second pointer and Tc_opt, Td_opt, and Ts are calculated. A start point is obtained based on the step, a voice signal having a time length (Tt−Td_opt) is input and output as it is;
Therefore, the audio signal having the time length Td_opt is output continuously with the front end of the weighted signal, the audio signal having the weighted time length Ts is output, and the time length ( (Tt−Td_opt) is input and output as it is. As a result, a continuous audio signal is output before or after the weighted audio signal, so that a continuous and smooth audio signal can be output. Since a sound signal having a time length that gives a desired time axis conversion ratio can be output before and after the weighted and added sound signal, the time axis conversion ratio α can be set finely and accurately changed to the desired time axis conversion ratio. There is also an effect that can be done.
そして、第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップ、を備えるため、類似度が高くセグメント長Tsの音声信号セグメントの組を入力し、セグメント長Tsの漸増する窓関数W1とセグメント長Tsの漸減する窓関数W2を用いて、音声信号セグメントX1と音声信号セグメントX2とが重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長は一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。 Then, the audio signal segment X1 (1 to Ts) and the audio signal segment X2 (1 to Ts) having high similarity are input using the first pointer, the second pointer, Tc_opt, and Td_opt as parameters, and the window function W1 is gradually increased. (1 to Ts) and a step function of gradually decreasing the window function W2 (1 to Ts), and the step of weighting and adding the audio signal segment X1 and the audio signal segment X2 are output. Are input using a window function W1 with an increasing segment length Ts and a window function W2 with a decreasing segment length Ts so that the audio signal segment X1 and the audio signal segment X2 overlap. As a result, in any case, the time length of the weighted and added audio signal can be a constant segment length Ts, and the sound quality is low. There is also an effect that is hard.
さらに、時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minに基づいて最大ディレイ時間Td_maxを計算するステップと、
シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップ、
とを備えるため、音声信号セグメントX1と音声信号セグメントX2の類似度が高くなる場合のTc_optとTd_optを探索する時の、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲に制限し、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
本発明に適用できる類似度を求める時の評価尺度としては、例えば二乗誤差の小ささや相関関数の大きさ、またはディレイ時間Tdを一定時間以上変えても、類似度が高くなる2つの音声信号セグメントのシフト時間Tc_optが同一もしくは変化が少ないことが適用できる。
A step of calculating a maximum delay time Td_max based on the time axis conversion ratio α, the audio signal segment length Ts, and the initial value Tc_min of the shift time;
The shift time Tc is changed from the initial value Tc_min to the maximum shift time Tc_max, the delay time Td is changed from 0 to the maximum delay time Td_max, and the first pointer, the second pointer, the shift time Tc, and the delay time Td are changed. The starting points of the audio signal segment X1 and the audio signal segment X2 are obtained as parameters, the audio signal segment X1 and the audio signal segment X2 having the time length Ts are input from the respective starting points, the similarity between X1 and X2 is calculated, and the similarity Searching for a delay time Td_opt and a shift time Tc_opt when the degree is high;
Therefore, when searching for Tc_opt and Td_opt when the similarity between the audio signal segment X1 and the audio signal segment X2 is high, the shift time Tc is limited to the range from the initial value Tc_min to the maximum shift time Tc_max, and the delay As a result of limiting the time Td to a range from 0 to the maximum delay time Td_max, there is also an effect that a sound signal having a time axis conversion ratio α can be stably output.
As an evaluation scale for obtaining the similarity applicable to the present invention, for example, two audio signal segments whose similarity is increased even when the square error is small, the correlation function is large, or the delay time Td is changed by a certain time or more. It can be applied that the shift times Tc_opt are the same or change little.
次に、本発明の音声速度変換装置と音声速度変換方法の一実施形態を、図面を参照して説明する。 Next, an embodiment of an audio speed conversion device and an audio speed conversion method of the present invention will be described with reference to the drawings.
(実施の形態1)
図1は、本発明の音声速度変換装置の一実施形態に係るブロック図で、101は記憶回路、102は第1のスイッチ回路、103は第1のバッファメモリ回路、104は第2のバッファメモリ回路、105は類似度計算回路、106は判定回路、107は窓関数発生回路、108は第3のスイッチ回路、109は第4のスイッチ回路、110は第1の乗算回路、111は第2の乗算回路、112は加算回路、113は第2のスイッチ回路、114は出力バッファ回路、115は速度設定回路、116はパラメータ記憶回路、117はポインタ値計算回路、118はポインタ制御回路、119は制御信号発生回路である。
(Embodiment 1)
FIG. 1 is a block diagram according to an embodiment of an audio speed conversion apparatus of the present invention, in which 101 is a storage circuit, 102 is a first switch circuit, 103 is a first buffer memory circuit, and 104 is a second buffer memory. Circuit, 105 similarity calculation circuit, 106 determination circuit, 107 window function generation circuit, 108 third switch circuit, 109 fourth switch circuit, 110 first multiplication circuit, and 111 second circuit Multiplication circuit, 112 addition circuit, 113 second switch circuit, 114 output buffer circuit, 115 speed setting circuit, 116 parameter storage circuit, 117 pointer value calculation circuit, 118 pointer control circuit, 119 control It is a signal generation circuit.
記憶回路101には音声信号が記録されており、ポインタ制御回路118が出力するアドレス値と時間長に基づいて、所望の開始点と時間長の音声信号を出力する。
An audio signal is recorded in the
第1のスイッチ回路102は、記憶回路101が出力する音声信号の出力先を第1のバッファメモリ回路103と第2のバッファメモリ回路104と第2のスイッチ回路113とから選択する。
The
第1のバッファメモリ回路103、は第1のスイッチ回路102から出力される音声信号セグメントを蓄え、第2のバッファメモリ回路104は第1のスイッチ回路102から出力され第1のバッファメモリ回路103の内容に一部の重複を許して後続する音声信号セグメントを蓄える。
The first
類似度計算回路105は、第1のバッファメモリ回路103の内容と第2のバッファメモリ回路104の内容との類似度を求め、判定回路106は類似度計算回路105が出力する類似度から類似度の高い値を検出し、パラメータ記憶回路116は判定回路106が類似度の高い値を検出した時に、ポインタ制御回路118が出力したアドレス値をポインタ値計算回路117が求めるために用いたパラメータ(シフト時間:Tc,ディレイ時間:Td)を最適シフト時間:Tc_opt,最適ディレイ時間:Td_optとして記憶する。この時、第3のスイッチ回路108と第4のスイッチ回路109は開いており、第1のバッファメモリ回路103の内容と第2のバッファメモリ回路104の内容は、第1の乗算回路110と第2の乗算回路111に出力されない。
The
速度設定回路115は、記憶回路101に記録されている音声信号を再生する時の時間軸変換比αを設定する。
The speed setting circuit 115 sets a time axis conversion ratio α when reproducing an audio signal recorded in the
ポインタ値計算回路117は、速度設定回路115に設定されている時間軸変換比αに基づいて、類似度計算回路105が類似度を求めるべき2つの音声信号セグメントのアドレス値を計算し、またはパラメータ記憶回路116に記録されているパラメータ(最適シフト時間:Tc_opt,最適ディレイ時間:Td_opt)に基づいて類似度の高い2つの音声信号セグメント、およびその前後に連続する音声信号のアドレス値と時間長を計算してポインタ制御回路118に出力する。
The pointer
窓関数発生回路107は、漸増する窓関数と漸減する窓関数とを出力し、第1の乗算回路110はパラメータ記憶回路116に記憶されているパラメータに基づいて記憶回路101から出力され第1のバッファメモリ回路103に蓄えられている音声信号セグメントに対して窓関数発生回路107が出力する一方の窓関数を乗じ、第2の乗算回路111はパラメータ記憶回路116に記憶されているパラメータに基づいて記憶回路101から出力され第2のバッファメモリ回路104に蓄えられている音声信号セグメントに対して窓関数発生回路107が出力する他方の窓関数を乗じ、加算回路112は第1の乗算回路110の出力と第2の乗算回路111の出力とを加算する。この時、第3のスイッチ回路108と第4のスイッチ回路109は閉じており、第1のバッファメモリ回路103の内容と第2のバッファメモリ回路104の内容は、それぞれ第1の乗算回路110と第2の乗算回路111に出力される。
The window
第2のスイッチ回路113は、加算回路112の出力と第1のスイッチ回路102の出力とを選択し、出力バッファ回路114は第2のスイッチ回路113の出力を蓄えて出力する。
The
制御信号発生回路119は、類似度計算回路105が類似度を計算する時には、第1のスイッチ回路102を第1のバッファメモリ回路103側もしくは第2のバッファメモリ回路104側に倒し、第3のスイッチ回路108と第4のスイッチ回路109は開き、加算回路112が第1の乗算回路110の出力と第2の乗算回路111の出力とを加算する時には、第1のスイッチ回路102を第1のバッファメモリ回路103側もしくは第2のバッファメモリ回路104側に倒し、第3のスイッチ回路108と第4のスイッチ回路109は閉じ、第2のスイッチ回路113を加算回路112側に倒し、記憶回路101から出力される音声信号を、そのまま出力バッファ114に出力する時には、第1のスイッチ回路102を第2のスイッチ回路113側に倒し、第2のスイッチ回路113を第1のスイッチ回路102側に倒すように制御する。
When the
図2は、本発明の音声速度変換装置の一実施形態に係る類似度の評価関数が二乗誤差の場合の類似度計算回路105のブロック図で、201は第1のシフトレジスタメモリ回路、202は第2のシフトレジスタメモリ回路、203_1〜203_Tsは減算回路、204_1〜204_Tsは乗算回路、205は加算回路である。
FIG. 2 is a block diagram of the
第1のシフトレジスタメモリ回路201には図1における第1のバッファメモリ回路103に蓄えられている音声信号セグメントが逐次入力され、第2のシフトレジスタメモリ回路202には図1における第2のバッファメモリ回路104に蓄えられている音声信号セグメントが逐次入力される。減算回路203_1〜203_Tsは、第1のシフトレジスタメモリ回路201に蓄えられている音声信号セグメントX1(1〜Ts)から第2のシフトレジスタメモリ回路202に蓄えられている音声信号セグメントX2(1〜Ts)をそれぞれ減算し、乗算回路204_1〜204_Tsは、減算回路203_1〜203_Tsの出力を二乗し、加算回路205は、乗算回路204_1〜204_Tsの出力の総和を求め、結果を二乗誤差として出力する。数式1は類似度計算回路105が行う二乗誤差の演算を示す。ただし数式1では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。
Audio signal segments stored in the first
図3は、本発明の音声速度変換装置の一実施形態に係る類似度の評価関数が相関関数の場合の類似度計算回路105のブロック図で、301は第1のシフトレジスタメモリ回路、302は第2のシフトレジスタメモリ回路、303_1〜303_Tsは乗算回路、304は加算回路である。
FIG. 3 is a block diagram of the
第1のシフトレジスタメモリ回路301には、図1における第1のバッファメモリ回路103に蓄えられている音声信号セグメントが逐次入力され、第2のシフトレジスタメモリ回路302には図1における第2のバッファメモリ回路104に蓄えられている音声信号セグメントが逐次入力される。乗算回路303_1〜303_Tsは、第1のシフトレジスタメモリ回路301に蓄えられている音声信号セグメントX1(1〜Ts)と第2のシフトレジスタメモリ回路202に蓄えられている音声信号セグメントX2(1〜Ts)とをそれぞれ乗算し、加算回路304は、乗算回路303_1〜303_Tsの出力の総和を求め、結果を相関関数として出力する。数式2は類似度計算回路105が行う相関関数の演算を示す。ただし数式2では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。
Audio signal segments stored in the first
図4は、本発明の音声速度変換装置の一実施形態に係る判定回路106のブロック図で、401は類似度メモリ回路、402は比較回路、403は最大/最小メモリ回路である。
FIG. 4 is a block diagram of the
類似度メモリ回路401には、図1における類似度計算回路105が出力する類似度が入力されて記憶される。比較回路402は、類似度メモリ回路401が出力する現在の類似度と、最大/最小メモリ回路403が出力する過去における類似度の最大値もしくは最小値とを比較し、類似度メモリ回路401の出力が、最大/最小メモリ回路403が出力する最大値よりも大きい場合もしくは最小値よりも小さい場合に、類似度メモリ回路401の出力を最大/最小メモリ回路403に記憶し直し、図1におけるパラメータ記憶回路116に、現在のパラメータを最適シフト時間:Tc_optと最適ディレイ時間:Td_optの候補として記憶するように指示を出す。比較回路402が最小値を検索するのは、評価関数が二乗誤差の場合であり、比較回路402が最大値を検索するのは評価関数が相関関数の場合である。
The
図5は、本発明の音声速度変換装置の一実施形態に係る時間軸伸張(時間軸変換比α=5/4)の場合の処理図である。 FIG. 5 is a processing diagram in the case of time axis expansion (time axis conversion ratio α = 5/4) according to an embodiment of the audio speed conversion apparatus of the present invention.
記憶回路101に記録されている音声信号501が、i番目の処理単位においてポインタ制御回路118が出力する第1のポインタ502_iと第2のポインタ503_iを基準として、第1のバッファメモリ回路103と第2のバッファメモリ回路104に、音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)として読み出される。ディレイ時間Tdが0の場合の音声信号セグメントX2は507で示される区間であり、音声信号セグメントX1は、507で示される音声信号セグメントX2から、音声信号セグメント長Tsだけ先行し504_0で示される区間が規準となる。この504_0で示される区間を規準とし、Tc_minだけ先行し504_minで示される区間から、Tc_maxだけ後行し504_maxで示される区間まで、1サンプルずつずらして取り込んだ音声信号セグメントX1と、音声信号セグメントX2との類似度を類似度計算回路105が求める。ここでTc_minはあらかじめ定められた定数であり、音声信号セグメント長Tsより短い。Tc_maxはポインタ値計算回路117が数式3により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
The
そしてディレイ時間Tdを増加させながら、シフト時間TcをTc_minからTc_maxの範囲で変えて、類似度計算回路105と判定回路106が類似度の計算と類似度の高い値の探索を行う。最大遅延時間Td_maxはポインタ値計算回路117が数式4により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
Then, while increasing the delay time Td, the shift time Tc is changed in the range from Tc_min to Tc_max, and the
ディレイ時間Tdの0からTd_maxまでの増加は1サンプル毎でも良いが、演算量の削減のために数サンプル毎に行っても、音質的には問題ない。 The delay time Td may be increased from 0 to Td_max every sample, but there is no problem in sound quality even if it is performed every few samples in order to reduce the amount of calculation.
ディレイ時間TdがTd_maxになり、音声信号セグメントX2が509で示される区間になり、506_0で示される区間を規準として、506_minで示される区間から506_maxで示される区間まで音声信号セグメントX1をシフトさせた時、類似度の探索は終わる。そして類似度の評価関数が二乗誤差の場合には、判定回路106は類似度計算回路105が出力する二乗誤差の最小値を検出し、類似度の評価関数が相関関数の場合には、判定回路106は類似度計算回路105が出力する相関関数の最大値を検出する。パラメータ記憶回路116は、判定回路106が最高の類似度を検出した時のディレイ時間Tdとシフト時間Tcを記憶しており、それを最適ディレイ時間Td_optと最適シフト時間Tc_optとする。パラメータ記憶回路116に記憶されている最適ディレイ時間Td_optに基づいて、ポインタ制御回路118が第2のポインタ503_iを開始点とし時間長Td_optの音声信号X0(516)を記憶回路101から読み出し、出力バッファ回路114に出力する。次にパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118は、508で示される区間の音声信号セグメントX2(511)と、505_optで示される区間の音声信号セグメントX1(510)を記憶回路101から読み出し、第2のバッファメモリ回路104と第1のバッファメモリ回路103とに出力する。窓関数発生回路107は、漸増する窓関数512と漸減する窓関数513とを出力し、第1の乗算回路110は第1のバッファメモリ回路103に蓄えられている音声信号セグメントX1(510)に対して窓関数発生回路107が出力する漸増する窓関数512を乗じてX1‘を出力し、第2の乗算回路111は第2のバッファメモリ回路104に蓄えられている音声信号セグメントX2(511)に対して窓関数発生回路107が出力する漸減する窓関数513を乗じてX2’を出力し、加算回路112は第1の乗算回路110の出力X1‘と第2の乗算回路111の出力X2’とを加算した信号514を出力バッファ回路114に出力する。そしてパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118が音声信号セグメントX1に後続するサンプルを開始点とし、時間長(Tt−Td_opt)の音声信号X3(517)を記憶回路101から読み出し、出力バッファ回路114に出力する。ここで、入力音声信号をそのまま出力する時間長Ttはポインタ値計算回路117が数式5により求めることで、正確な時間軸変換比αの実現が可能となる。
The delay time Td becomes Td_max, and the audio signal segment X2 becomes an interval indicated by 509. The audio signal segment X1 is shifted from the interval indicated by 506_min to the interval indicated by 506_max with reference to the interval indicated by 506_0. Sometimes the similarity search ends. When the similarity evaluation function is a square error, the
以上でi番目の処理単位が終了し、引き続きi+1番目の処理単位のために、ポインタ値計算回路117が数式6と数式7により、第2のポインタ503_i+1と第1のポインタ502_i+1を求め、ポインタ制御回路118に出力する。
Thus, the i-th processing unit is completed, and for the i + 1-th processing unit, the pointer
図6は、本発明の音声速度変換装置の一実施形態に係る時間軸圧縮(時間軸変換比α=4/5)の場合の処理図である。 FIG. 6 is a processing diagram in the case of time axis compression (time axis conversion ratio α = 4/5) according to an embodiment of the audio speed conversion apparatus of the present invention.
記憶回路101に記録されている音声信号601が、i番目の処理単位においてポインタ制御回路118が出力する第1のポインタ602_iと第2のポインタ603_iを基準として、第1のバッファメモリ回路103と第2のバッファメモリ回路104に、音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)が読み出される。ディレイ時間Tdが0の場合の音声信号セグメントX1は604で示される区間であり、音声信号セグメントX2は、604で示される音声信号セグメントX1から、音声信号セグメント長Tsだけ後行し607_0で示される区間が規準となる。この604_0で示される区間を規準とし、Tc_minだけ後行し607_minで示される区間から、Tc_maxだけ先行し607_maxで示される区間まで、1サンプルずつずらして取り込んだ音声信号セグメントX2と、音声信号セグメントX1との類似度を類似度計算回路105が求める。ここでTc_minはあらかじめ定められた定数であり、音声信号セグメント長Tsより短い。Tc_maxはポインタ値計算回路117が数式8により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
The audio signal 601 recorded in the
そしてディレイ時間Tdを増加させながら、シフト時間TcをTc_minからTc_maxの範囲で変えて、類似度計算回路105と判定回路106が類似度の計算と類似度の高い値の探索を行う。最大遅延時間Td_maxはポインタ値計算回路117が数式9により求めることで、広範囲な類似度の探索と正確な時間軸変換比αの実現が可能となる。
Then, while increasing the delay time Td, the shift time Tc is changed in the range from Tc_min to Tc_max, and the
ディレイ時間Tdの0からTd_maxまでの増加は1サンプル毎でも良いが、演算量の削減のために数サンプル毎に行っても、音質的には問題ない。 The delay time Td may be increased from 0 to Td_max every sample, but there is no problem in sound quality even if it is performed every few samples in order to reduce the amount of calculation.
ディレイ時間TdがTd_maxになり、音声信号セグメントX1が606で示される区間になり、609_0で示される区間を規準として、609_minで示される区間から609_maxで示される区間まで音声信号セグメントX2をシフトさせた時、類似度の探索は終わる。そして類似度の評価関数が二乗誤差の場合には、判定回路106は類似度計算回路105が出力する二乗誤差の最小値を検出し、類似度の評価関数が相関関数の場合には、判定回路106は類似度計算回路105が出力する相関関数の最大値を検出する。パラメータ記憶回路116は、判定回路106が最高の類似度を検出した時のディレイ時間Tdとシフト時間Tcを記憶しており、それを最適ディレイ時間Td_optと最適シフト時間Tc_optとする。パラメータ記憶回路116に記憶されている最適ディレイ時間Td_optに基づいて、ポインタ制御回路118が第1のポインタ602_iを開始点とし時間長Td_optの音声信号X0(616)を記憶回路101から読み出し、出力バッファ回路114に出力する。次にパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118は、605で示される区間の音声信号セグメントX1(610)と、608_optで示される区間の音声信号セグメントX2(611)を記憶回路101から読み出し、第1のバッファメモリ回路103と第2のバッファメモリ回路104とに出力する。窓関数発生回路107は、漸減する窓関数612と漸増する窓関数613とを出力し、第1の乗算回路110は第1のバッファメモリ回路103に蓄えられている音声信号セグメントX1(610)に対して窓関数発生回路107が出力する漸減する窓関数612を乗じてX1‘を出力し、第2の乗算回路111は第2のバッファメモリ回路104に蓄えられている音声信号セグメントX2(611)に対して窓関数発生回路107が出力する漸増する窓関数613を乗じてX2’を出力し、加算回路112は第1の乗算回路110の出力X1‘と第2の乗算回路111の出力X2’とを加算した信号614を出力バッファ回路114に出力する。そしてパラメータ記憶回路116に記憶されている最適ディレイ時間Td_optと最適シフト時間Tc_optとに基づいて、ポインタ制御回路118が音声信号セグメントX2に後続するサンプルを開始点とし、時間長(Tt−Td_opt)の音声信号X3(617)を記憶回路101から読み出し、出力バッファ回路114に出力する。ここで、入力音声信号をそのまま出力する時間長Ttはポインタ値計算回路117が数式10により求めることで、正確な時間軸変換比αの実現が可能となる。
The delay time Td becomes Td_max, and the audio signal segment X1 becomes a section indicated by 606, and the audio signal segment X2 is shifted from the section indicated by 609_min to the section indicated by 609_max with reference to the section indicated by 609_0. Sometimes the similarity search ends. When the similarity evaluation function is a square error, the
以上でi番目の処理単位が終了し、引き続きi+1番目の処理単位のために、ポインタ値計算回路117が数式11と数式12により、第1のポインタ602_i+1と第2のポインタ603_i+1を求め、ポインタ制御回路118に出力する。
Thus, the i-th processing unit is completed, and for the i + 1-th processing unit, the pointer
このように、速度設定回路115に設定されている時間軸変換比αに基づいて、ポインタ値計算回路117が一定の範囲内で、一部の重複を許す2つの音声信号セグメントの一方をシフトしたり2つの音声信号セグメントの開始点をディレイするような、様々な組み合わせの2つの音声信号セグメントの開始点アドレスを計算し、類似度計算回路105が2つの音声信号セグメント間の類似度を求め、判定回路106がディレイ時間Tdとシフト時間Tcの様々な組み合わせの2つの音声信号セグメント間の類似度から、類似度の高い値を検出し、パラメータ記憶回路116が判定回路106の検出した2つのセグメント間の類似度が高い時のパラメータ(Tc_opt,Td_opt)を記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算するのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
In this way, based on the time axis conversion ratio α set in the speed setting circuit 115, the pointer
また速度設定回路115に設定されている時間軸変換αとパラメータ記憶回路116に記憶されているパラメータ(Tc_opt,Td_opt)に基づいて、ポインタ値計算回路117がアドレスを計算し、第1のスイッチ回路102と第2のスイッチ回路113が、加算回路112の出力とポインタ値計算回路117が計算したアドレスに基づく記憶回路101からの音声信号の出力とを切り換えて出力バッファ回路114に出力する結果、加算回路112の出力の前後もしくは一方に連続する音声信号(X0,X3)が出力されるので、連続的で滑らかな音声信号を出力することができ、加算回路112の出力の前後に所望の時間軸変換比αになるような時間長の音声信号(X0,X3)を出力できるので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比αに精度良く変えることができという効果もある。
The pointer
さらにパラメータ記憶回路116に記憶されているパラメータ(Tc_opt,Td_opt)に基づいて、ポインタ値計算回路117がアドレスを計算し、記憶回路101から第1のバッファメモリ回路103と第2のバッファメモリ回路104に類似度が高い一定時間長Tcの音声信号セグメントの組(X1,X2)を読み出し、窓関数発生回路107が漸増する窓関数と漸減する窓関数とを出力し、第1の乗算回路110が第1のバッファメモリ回路103が出力する音声信号セグメントX1に対して窓関数発生回路107が出力する一方の窓関数を乗じ、第2の乗算回路111が第2のバッファメモリ回路104が出力する音声信号セグメントX2に対して窓関数発生回路107が出力する他方の窓関数を乗じ、加算回路112が第1の乗算回路110の出力X1‘と第2の乗算回路111の出力X2’とを重なるように加算する結果、どのような場合でも加算回路112の出力の時間長を一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。
Further, the pointer
なお、本実施の形態の類似度計算回路105における評価尺度として、図2に示した二乗誤差の小ささや図3に示した相関関数の大きさを用いたが、ディレイ時間Tdを一定時間以上変えても、類似度が高い2つの音声信号セグメントのシフト時間Tcが同一もしくは変化が少ないという評価尺度を用いることもできる。この場合には、音声信号の定常性が考慮されることとなり、音質改善が期待できる。
As the evaluation scale in the
なお本実施の形態の類似度計算回路105における評価尺度として、図2に示した正規化していない二乗誤差の小ささや、図3に示した正規化していない相関関数の大きさを用いたが、正規化した二乗誤差の小ささや、正規化した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、音声信号の振幅の大きさに依存しない評価尺度となるので、音声信号の振幅に影響されずに類似度を求めることができ、音質改善が期待できる。
Note that, as the evaluation measure in the
なお本実施の形態の第1のバッファメモリ回路103と第2のバッファメモリ回路104では、音声信号を音声信号セグメント長Ts単位で記憶回路101から読み込んでいるが、もっと大きい処理単位毎に読み込んでも良い。例えば図5に示す時間軸伸張の場合には、504_minの開始点から509の終了点までを、図6に示す時間軸圧縮の場合には、604の開始点から609_minの終了点までを、第1のバッファメモリ回路103と第2のバッファメモリ回路104に読み込んでしまうことにより、ディレイ時間Tdとシフト時間Tcを変えながら2つの音声信号セグメントの類似度を求める時と、類似度が高い場合のシフト時間Tc_optとディレイ時間Td_optにおける2つの音声信号セグメントを重み付け加算する時に、記憶回路101へのアクセスをしないようにできる。この場合には、記憶回路101から第1のバッファメモリ回路103と第2のバッファメモリ回路104への転送回数が少なくて済むので、処理時間を短縮することが可能となる
(実施の形態2)
図7は、本発明の音声速度変換方法の時間軸伸張(α≧1)の場合のフローチャートで、702の時間軸変換比αを読み込むステップと、703の第1のポインタを初期設定するステップと、704の第2のポインタに第1のポインタに対し音声信号セグメント長Ts後の値を設定するステップと、705の数式4に基づいて時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minにより最大ディレイ時間Td_maxを計算するステップと、706の最小二乗誤差R_minを初期値Nに初期設定するステップと、707のディレイ時間Tdを初期値0に初期設定するステップと、708のシフト時間Tcにシフト時間の初期値Tc_minを設定するステップと、709の数式3に基づいてディレイ時間Tdにおける最大シフト時間Tc_maxを計算するステップと、710の(第1のポインタ+Tc+Td)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、711の(第2のポインタ+Td)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、712の数式1に基づいてシフト時間Tcかつディレイ時間Tdの時の音声信号セグメントX1と音声信号セグメントX2の二乗誤差R(Tc,Td)を計算するステップと、713の最小二乗誤差R_minと二乗誤差R(Tc,Td)とを比較し、R_minが二乗誤差R(Tc,Td)よりも大きければステップ714に行き、そうでなければステップ717に行くステップと、714の二乗誤差R(Tc,Td)を新たな最小二乗誤差R_minとして更新するステップと、715のシフト時間Tcを最適シフト時間Tc_optとして更新するステップと、716のディレイ時間Tdを最適ディレイ時間Td_optとして更新するステップと、717のシフト時間Tcを1サンプルだけ増加させるステップと、718のシフト時間Tcと最大シフト時間Tc_maxとを比較し、シフト時間Tcが最大シフト時間Tc_maxよりも大きくない場合にはステップ710に戻り、シフト時間Tcが最大シフト時間Tc_maxよりも大きい場合にはステップ719に進むことで、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変えるステップと、719のディレイ時間Tdを△Tdサンプルだけ増加させるステップと、720のディレイ時間Tdと最大ディレイ時間Td_maxとを比較し、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きくない場合にはステップ708に戻り、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きい場合にはステップ721に進むことで、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変えるステップと、721の第2のポインタを開始点としてTd_opt個の音声信号サンプルを入力しそのまま出力するステップと、722の(第1のポインタ+Tc_opt+Td_opt)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、723の(第2のポインタ+Td_opt)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、724の数式13に基づいて音声信号セグメントX1(i)に対して漸増する窓関数W1(i)を乗じたものと音声信号セグメントX2(i)に対して漸減する窓関数W2(i)を乗じたものとを加算した信号Y(i)をi=1〜Tsの間計算して出力するステップと、
In the first
FIG. 7 is a flowchart in the case of the time base extension (α ≧ 1) of the voice speed conversion method of the present invention, a step of reading the time base conversion ratio α of 702, and a step of initializing the first pointer of 703. , The step of setting a value after the audio signal segment length Ts relative to the first pointer to the second pointer of 704, and the time axis conversion ratio α, the audio signal segment length Ts, and the shift time based on
725の数式5に基づいて入力音声信号をそのまま出力する時間長Ttを計算するステップと、726の(第1のポインタ+Tc_opt+Td_opt+Ts)を開始点として(Tt−Td_opt)個の音声信号を入力してそのまま出力するステップと、727の数式6に基づいて次の処理単位における第2のポインタを設定するステップと、728の数式7に基づいて次の処理単位における第1のポインタを設定するステップと、729の終了でなければステップ706に戻って処理を繰り返し、終了ならばステップ730で終了するステップとを備えている。
A step of calculating a time length Tt for outputting the input voice signal as it is based on
ただしこのフローチャートでは簡単のため、単位時間とサンプリング周期とを等しいとして表現している。 However, in this flowchart, for simplicity, the unit time and the sampling period are expressed as being equal.
ステップ708とステップ717とステップ718によりシフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ707とステップ719とステップ720によりディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ710により音声信号セグメントX1の開始点を求めて時間長Tsの音声信号セグメントX1を入力し、ステップ711により音声信号セグメントX2の開始点を求めて時間長Tsの音声信号セグメントX2を入力し、ステップ712で音声信号セグメントX1と音声信号セグメントX2の二乗誤差を類似度の評価関数として計算し、ステップ713とステップ714とステップ715とステップ716で二乗誤差の値が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、シフト時間Tcの初期値Tc_minと最大シフト時間Tc_maxと最大ディレイ時間Td_maxにより決められる一定の範囲内で、シフト時間Tcとディレイ時間Tdを変えながら、一部の重複を許す2つの音声信号セグメントX1とX2の二乗誤差を求め、最も二乗誤差が小さい時のシフト時間Tcとディレイ時間TdをそれぞれTc_optとTd_optとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
In
また、ステップ721により、第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力し、ステップ722とステップ723とステップ724により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力し、ステップ725により、音声信号をそのまま出力する時間長Ttを計算し、ステップ726により、第1のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力することにより、重み付け加算した信号の前端と連続し時間長Td_optの音声信号を出力し、時間長Tsの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長(Tt−Td_opt)の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に合計の時間長Ttの音声信号を出力するので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
In
そして、ステップ722とステップ723とステップ724により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力することにより、類似度が高くセグメント長Tsの音声信号セグメントの組X1とX2を入力し、セグメント長Tsの漸増する窓関数W1とセグメント長Tsの漸減する窓関数W2を用いて、第1の音声信号セグメントX1と第2の音声信号セグメントX2とを重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長を一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。
Then, in
さらに、ステップ705により、最大ディレイ時間Td_maxを計算し、ステップ709により、最大シフト時間Tc_maxを計算し、ステップ708とステップ717とステップ718により、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ707とステップ719とステップ720により、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ710とステップ711とステップ712により、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の二乗誤差を計算し、ステップ713とステップ714とステップ715とステップ716により、二乗誤差が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、音声信号セグメントX1と音声信号セグメントX2の類似度が高くなる場合のTc_optとTd_optを探索する時の、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲に制限し、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
Further, in
本発明に適用できる類似度を求める時の評価尺度としては、二乗誤差の小ささを用いたが、相関関数の大きさや、ディレイ時間Tdを一定時間以上変えても、類似度が高くなる2つの音声信号セグメントのシフト時間Tc_optが同一もしくは変化が少ないことも適用できる。 Although the small square error is used as an evaluation scale when obtaining the similarity applicable to the present invention, two similarities can be obtained even if the magnitude of the correlation function or the delay time Td is changed over a certain time. It is also applicable that the shift time Tc_opt of the audio signal segment is the same or little changed.
図8は、本発明の音声速度変換方法の時間軸圧縮(α≦1)の場合のフローチャートで、802の時間軸変換比αを読み込むステップと、803の第1のポインタを初期設定するステップと、804の第2のポインタに第1のポインタに対し音声信号セグメント長Ts後の値を設定するステップと、805の数式9に基づいて時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minにより最大ディレイ時間Td_maxを計算するステップと、806の最小二乗誤差R_minを初期値Nに初期設定するステップと、807のディレイ時間Tdを初期値0に初期設定するステップと、808のシフト時間Tcにシフト時間の初期値Tc_minを設定するステップと、809の数式8に基づいてディレイ時間Tdにおける最大シフト時間Tc_maxを計算するステップと、810の(第1のポインタ+Td)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、811の(第2のポインタ−Tc+Td)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、812の数式1に基づいてシフト時間Tcかつディレイ時間Tdの時の音声信号セグメントX1と音声信号セグメントX2の二乗誤差R(Tc,Td)を計算するステップと、813の最小二乗誤差R_minと二乗誤差R(Tc,Td)とを比較し、R_minが二乗誤差R(Tc,Td)よりも大きければステップ814に行き、そうでなければステップ817に行くステップと、
814の二乗誤差R(Tc,Td)を新たな最小二乗誤差R_minとして更新するステップと、815のシフト時間Tcを最適シフト時間Tc_optとして更新するステップと、816のディレイ時間Tdを最適ディレイ時間Td_optとして更新するステップと、817のシフト時間Tcを1サンプルだけ増加させるステップと、818のシフト時間Tcと最大シフト時間Tc_maxとを比較し、シフト時間Tcが最大シフト時間Tc_maxよりも大きくない場合にはステップ810に戻り、シフト時間Tcが最大シフト時間Tc_maxよりも大きい場合にはステップ819に進むことで、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変えるステップと、819のディレイ時間Tdを△Tdサンプルだけ増加させるステップと、820のディレイ時間Tdと最大ディレイ時間Td_maxとを比較し、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きくない場合にはステップ808に戻り、ディレイ時間Tdが最大ディレイ時間Td_maxよりも大きい場合にはステップ821に進むことで、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変えるステップと、821の第1のポインタを開始点としてTd_opt個の音声信号サンプルを入力しそのまま出力するステップと、822の(第1のポインタ+Td_opt)を開始点としてTs個の音声信号セグメントX1(1〜Ts)を入力するステップと、823の(第2のポインタ−Tc_opt+Td_opt)を開始点としてTs個の音声信号セグメントX2(1〜Ts)を入力するステップと、824の数式14に基づいて音声信号セグメントX1(i)に対して漸減する窓関数W2(i)を乗じたものと音声信号セグメントX2(i)に対して漸増する窓関数W1(i)を乗じたものとを加算した信号Y(i)をi=1〜Tsの間計算して出力するステップと、
FIG. 8 is a flowchart in the case of time axis compression (α ≦ 1) of the voice speed conversion method of the present invention, a step of reading the time axis conversion ratio α of 802, and a step of initializing the first pointer of 803. , The step of setting a value after the audio signal segment length Ts relative to the first pointer to the second pointer of 804, and the time axis conversion ratio α, the audio signal segment length Ts, and the shift time based on
The step of updating the square error R (Tc, Td) of 814 as a new least square error R_min, the step of updating the shift time Tc of 815 as the optimum shift time Tc_opt, and the delay time Td of 816 as the optimum delay time Td_opt The step of updating, the step of increasing the shift time Tc of 817 by one sample, the step of comparing the shift time Tc of 818 and the maximum shift time Tc_max, and the step if the shift time Tc is not greater than the maximum shift time Tc_max Returning to 810, if the shift time Tc is greater than the maximum shift time Tc_max, the process proceeds to step 819 to change the shift time Tc in the range from the initial value Tc_min to the maximum shift time Tc_max, and the delay time Td of 819 is changed. △ Td The delay time Td is compared with the maximum delay time Td_max. If the delay time Td is not greater than the maximum delay time Td_max, the process returns to step 808, and the delay time Td is the maximum delay time Td_max. If the delay time Td is greater than the delay time Td, the process proceeds to step 821 to change the delay time Td in the range from 0 to the maximum delay time Td_max, and Td_opt audio signal samples are input from the
825の数式10に基づいて入力音声信号をそのまま出力する時間長Ttを計算するステップと、826の(第2のポインタ−Tc_opt+Td_opt+Ts)を開始点として(Tt−Td_opt)個の音声信号を入力してそのまま出力するステップと、827の数式11に基づいて次の処理単位における第1のポインタを設定するステップと、828の数式12に基づいて次の処理単位における第2のポインタを設定するステップと、829の終了でなければステップ806に戻って処理を繰り返し、終了ならばステップ830で終了するステップ
とを備えている。
A step of calculating a time length Tt for outputting the input voice signal as it is based on Formula 10 of 825, and inputting (Tt−Td_opt) number of voice signals starting from 826 (second pointer −Tc_opt + Td_opt + Ts) A step of outputting as it is, a step of setting a first pointer in the next processing unit based on Formula 11 of 827, a step of setting a second pointer in the next processing unit based on Formula 12 of 828, If it is not the end of 829, the process returns to step 806 to repeat the process, and if it is the end, the process ends at
ただしこのフローチャートでは簡単のため、単位時間とサンプリング周期とを等しいとして表現している。 However, in this flowchart, for simplicity, the unit time and the sampling period are expressed as being equal.
ステップ808とステップ817とステップ818によりシフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ807とステップ819とステップ820によりディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ810により音声信号セグメントX1の開始点を求めて時間長Tsの音声信号セグメントX1を入力し、ステップ811により音声信号セグメントX2の開始点を求めて時間長Tsの音声信号セグメントX2を入力し、ステップ812で音声信号セグメントX1と音声信号セグメントX2の二乗誤差を類似度の評価関数として計算し、ステップ813とステップ814とステップ815とステップ816で二乗誤差の値が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、シフト時間Tcの初期値Tc_minと最大シフト時間Tc_maxと最大ディレイ時間Td_maxにより決められる一定の範囲内で、シフト時間Tcとディレイ時間Tdを変えながら、一部の重複を許す2つの音声信号セグメントX1とX2の二乗誤差を求め、最も二乗誤差が小さい時のシフト時間Tcとディレイ時間TdをそれぞれTc_optとTd_optとして記憶する結果、一定の範囲内の様々な音声信号セグメントの組み合わせの中から、類似度が高く重み付け加算をするのに最適な音声信号セグメントの組を選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。
In
また、ステップ821により、第1のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力し、ステップ822とステップ823とステップ824により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸減する窓関数W2(1〜Ts)と漸増する窓関数W1(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力し、ステップ825により、音声信号をそのまま出力する時間長Ttを計算し、ステップ826により、第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力することにより、重み付け加算した信号の前端と連続し時間長Td_optの音声信号を出力し、時間長Tsの重み付け加算した音声信号を出力し、重み付け加算した信号の後端と連続し時間長(Tt−Td_opt)の音声信号を入力してそのまま出力する結果、重み付け加算した音声信号の前後もしくは一方に連続する音声信号が出力されるので、連続的で滑らかな音声信号を出力することができ、重み付け加算した音声信号の前後に合計の時間長Ttの音声信号を出力するので、時間軸変換比αを細かく設定でき、かつ所望の時間軸変換比に精度良く変えることができという効果もある。
In
そして、ステップ822とステップ823とステップ824により、類似度の高い第1の音声信号セグメントX1(1〜Ts)と第2の音声信号セグメントX2(1〜Ts)を入力し、漸減する窓関数W2(1〜Ts)と漸増する窓関数W1(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力することにより、類似度が高くセグメント長Tsの音声信号セグメントの組X1とX2を入力し、セグメント長Tsの漸減する窓関数W2とセグメント長Tsの漸増する窓関数W1を用いて、第1の音声信号セグメントX1と第2の音声信号セグメントX2とを重なるように重み付け加算する結果、どのような場合でも重み付け加算した音声信号の時間長を一定のセグメント長Tsにでき、音質が低下しにくいという効果もある。
Then, in
さらに、ステップ805により、最大ディレイ時間Td_maxを計算し、ステップ809により、最大シフト時間Tc_maxを計算し、ステップ808とステップ817とステップ818により、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲で変え、ステップ807とステップ819とステップ820により、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、ステップ810とステップ811とステップ812により、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の二乗誤差を計算し、ステップ813とステップ814とステップ815とステップ816により、二乗誤差が小さい時のディレイ時間Td_optとシフト時間Tc_optを探索することにより、音声信号セグメントX1と音声信号セグメントX2の類似度が高くなる場合のTc_optとTd_optを探索する時の、シフト時間Tcを初期値Tc_minから最大シフト時間Tc_maxの範囲に制限し、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲に制限する結果、安定して時間軸変換比αの音声信号を出力できるという効果もある。
Further, in step 805, the maximum delay time Td_max is calculated, in step 809, the maximum shift time Tc_max is calculated, and in
なお本実施の形態では類似度を求める時の評価尺度としては、ステップ712やステップ812の二乗誤差の小ささを用いたが、相関関数の大きさや、ディレイ時間Tdを一定時間以上変えても、類似度が高くなる2つの音声信号セグメントのシフト時間Tc_optが同一もしくは変化が少ないことも適用できる。
In this embodiment, the smallness of the square error in
なお本実施の形態の類似度の評価尺度としては、ステップ712やステップ812の正規化していない二乗誤差の小ささを用いたが、正規化した二乗誤差の小ささや、正規化した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、音声信号の振幅の大きさに依存しない評価尺度となるので、音声信号の振幅に影響されずに類似度を求めることができ、音質改善が期待できる。
Note that the smallness of the unnormalized square error in
なお本実施の形態において、音声信号セグメント間の二乗誤差を求める時に、ステップ710とステップ711やステップ810とステップ811では、音声信号を音声信号セグメント長Ts単位で入力しているが、もっと大きい処理単位毎に入力しても良い。例えば図5に示す時間軸伸張の場合には、504_minの開始点から509の終了点までを、入力してしまい、図6に示す時間軸圧縮の場合には、604の開始点から609_minの終了点までを入力してしまうことにより、ステップ710とステップ711やステップ810とステップ811のように、ディレイ時間Tdとシフト時間Tcを変えながら2つの音声信号セグメントを入力する時や、ステップ721やステップ821のように、時間長Td_optの音声信号を入力する時や、ステップ722とステップ723やステップ822とステップ823のように、シフト時間Tc_optとディレイ時間Td_optにおける2つの音声信号セグメントを入力する時や、ステップ726やステップ826のように、時間長(Tt−Td_opt)の音声信号を入力する時に、音声信号を入力し直さないようにできる。この場合には、既に入力された音声信号を切り出すだけで良く、音声信号の入力回数は少なくて済むので、処理時間を短縮することが可能となる。
In this embodiment, when the square error between audio signal segments is obtained, the audio signal is input in units of audio signal segment length Ts in
本発明の音声速度変換装置と音声速度変換方法は、音声の基本周波数を変えずに継続時間長のみを変えることができ、速度を変えても明瞭度が下がりにくいので、ディスク媒体や半導体メモリに記録された音声信号を、使用者が聞き易い速度や聞きたい速度で再生することが必要な用途に適用できる。 The voice speed conversion device and voice speed conversion method of the present invention can change only the duration time without changing the fundamental frequency of the voice, and even if the speed is changed, the intelligibility is not easily lowered. The recorded audio signal can be applied to an application where it is necessary to reproduce the audio signal at a speed at which the user can easily hear it or at a desired speed.
101 記憶回路
102 第1のスイッチ回路
103 第1のバッファメモリ回路
104 第2のバッファメモリ回路
105 類似度計算回路
106 判定回路
107 窓関数発生回路
108 第3のスイッチ回路
109 第4のスイッチ回路
110 第1の乗算回路
111 第2の乗算回路
112 加算回路
113 第2のスイッチ回路
114 出力バッファ回路
115 速度設定回路
116 パラメータ記憶回路
117 ポインタ値計算回路
118 ポインタ制御回路
119 制御信号発生回路
DESCRIPTION OF
Claims (6)
開始点から時間長Td_optの音声信号を入力してそのまま出力するステップと、
Tc_optとTd_optをパラメータとして音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいてそのまま出力する音声信号の時間長Ttを計算し、重み付け加算した音声信号に後続する時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
次の処理のために開始点を設定するステップと、
終了でなければ最初のステップに戻るステップ、
とを有することを特徴とする音声速度変換方法。 Between two audio signal segments cut out while changing the shift time Tc and the delay time Td within a certain range determined by the time axis conversion ratio α, the audio signal segment length Ts, and the initial value Tc_min of the shift time with reference to the start point. Calculating a delay time Td_opt and a shift time Tc_opt when the similarity is high;
Inputting a voice signal having a time length Td_opt from the start point and outputting it as it is;
The audio signal segment X1 (1 to Ts) and the audio signal segment X2 (1 to Ts) are input using Tc_opt and Td_opt as parameters, and a gradually increasing window function W1 (1 to Ts) and a gradually decreasing window function W2 (1 to Ts). A step of weighting and outputting the audio signal segment X1 and the audio signal segment X2 using
The time length Tt of the audio signal to be output as it is is calculated based on the time axis conversion ratio α, the audio signal segment length Ts, and the shift time Tc_opt having a high degree of similarity, and the time length following the weighted and added audio signal (Tt−Td_opt) Input the audio signal of and output as it is,
Setting a starting point for the next process;
Step to return to the first step if not finished,
An audio speed conversion method characterized by comprising:
第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
時間軸変換比αと音声信号セグメント長Tsとシフト時間の初期値Tc_minに基づいて最大ディレイ時間Td_maxを計算するステップと、
類似度を初期設定するステップと、
シフト時間Tcを初期値Tc_minからディレイ時間Tdと音声信号セグメント長Tsと時間軸変換比αにより決まる最大シフト時間Tc_maxの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、第1のポインタと第2のポインタとシフト時間Tcとディレイ時間Tdをパラメータとして音声信号セグメントX1と音声信号セグメントX2の開始点を求め、それぞれの開始点から時間長Tsの音声信号セグメントX1と音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第1のポインタもしくは第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
第1のポインタと第2のポインタとTc_optとTd_optをパラメータとして類似度の高い音声信号セグメントX1(1〜Ts)と音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用いて、音声信号セグメントX1と音声信号セグメントX2とを重み付け加算して出力するステップと、
時間軸変換比αと音声信号セグメント長Tsと類似度の高いシフト時間Tc_optに基づいて音声信号をそのまま出力する時間長Ttを計算し、第1のポインタもしくは第2のポインタとTc_optとTd_optとTsに基づいて開始点を求め、時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
音声信号セグメント長Tsと音声信号をそのまま出力する時間長Ttと類似度が高い時のシフト時間Tc_optに基づいて、第1のポインタと第1のポインタのTs後の第2のポインタを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップ、
とを有することを特徴とする音声速度変換方法。 Reading the time axis conversion ratio α,
Setting a first pointer and a second pointer after Ts of the first pointer;
Calculating a maximum delay time Td_max based on the time axis conversion ratio α, the audio signal segment length Ts, and the initial value Tc_min of the shift time;
Initializing the similarity,
The shift time Tc is changed from the initial value Tc_min in the range of the maximum shift time Tc_max determined by the delay time Td, the audio signal segment length Ts, and the time axis conversion ratio α, and the delay time Td is changed in the range of 0 to the maximum delay time Td_max. The start points of the audio signal segment X1 and the audio signal segment X2 are obtained by using the pointer 1, the second pointer, the shift time Tc, and the delay time Td as parameters, and the audio signal segment X1 and the audio signal having the time length Ts from the respective start points. Inputting a segment X2, calculating a similarity between X1 and X2, and searching for a delay time Td_opt and a shift time Tc_opt when the similarity is high;
Inputting a voice signal having a time length Td_opt from the first pointer or the second pointer as a starting point and outputting it as it is;
The audio signal segment X1 (1 to Ts) and the audio signal segment X2 (1 to Ts) having high similarity are input using the first pointer, the second pointer, Tc_opt, and Td_opt as parameters, and the window function W1 (1 ~ Ts) and the gradually decreasing window function W2 (1 ~ Ts), the audio signal segment X1 and the audio signal segment X2 are weighted and output, and
Based on the time axis conversion ratio α, the audio signal segment length Ts, and the shift time Tc_opt having a high similarity, the time length Tt for outputting the audio signal as it is is calculated, and the first pointer or the second pointer and Tc_opt, Td_opt, and Ts are calculated. Obtaining a starting point on the basis of a voice signal having a time length (Tt−Td_opt) and outputting it as it is;
A step of setting the first pointer and the second pointer after Ts of the first pointer based on the audio signal segment length Ts, the time length Tt for outputting the audio signal as it is, and the shift time Tc_opt when the similarity is high When,
If not finished, return to the step of initializing the similarity,
An audio speed conversion method characterized by comprising:
第1のポインタにスタート点を設定するステップと、
第2のポインタに第1のポインタ+Tsの値を設定するステップと、
最大ディレイ時間Td_max=(Ts−α×Tc_min)/(α−1)を計算するステップと、
類似度を初期設定するステップと、
シフト時間Tcを初期値Tc_minから最大シフト時間Tc_max=(Ts+Td)/α−Tdの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、(第1のポインタ+Tc+Td)を開始点として時間長Tsの音声信号セグメントX1を入力し、(第2のポインタ+Td)を開始点として時間長Tsの音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第2のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
(第1のポインタ+Tc_opt+Td_opt)を開始点として時間長Tsの音声信号セグメントX1(1〜Ts)を入力し、(第2のポインタ+Td_opt)を開始点として時間長Tsの音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用い、W1(i)×X1(i)+W2(i)×X2(i)をi=1〜Tsの範囲で計算して出力するステップと、
Tt=(Ts−α×Tc_opt)/(α−1)を計算し、(第1のポインタ+Tc_opt+Td_opt+Ts)を開始点として時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
第2のポインタに第1のポインタ+Tc_opt+Ts+Ttを設定するステップと、
第1のポインタに第2のポインタ−Tsを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップ、
とを有することを特徴とする音声速度変換方法。 Reading a time axis conversion ratio α (≧ 1.0);
Setting a start point in the first pointer;
Setting the value of the first pointer + Ts to the second pointer;
Calculating a maximum delay time Td_max = (Ts−α × Tc_min) / (α−1);
Initializing the similarity,
The shift time Tc is changed from the initial value Tc_min to the maximum shift time Tc_max = (Ts + Td) / α-Td, the delay time Td is changed from 0 to the maximum delay time Td_max, and (first pointer + Tc + Td) is the starting point Is input with the audio signal segment X1 with the time length Ts, and the audio signal segment X2 with the time length Ts is input with (second pointer + Td) as the starting point, and the similarity between X1 and X2 is calculated, and the similarity is high Searching for time delay time Td_opt and shift time Tc_opt;
Inputting a voice signal having a time length Td_opt with the second pointer as a starting point and outputting it as it is;
An audio signal segment X1 (1 to Ts) having a time length Ts is input with (first pointer + Tc_opt + Td_opt) as a starting point, and an audio signal segment X2 (1 to Ts) having a time length Ts with (second pointer + Td_opt) as a starting point. Ts) is input, and a gradually increasing window function W1 (1 to Ts) and a gradually decreasing window function W2 (1 to Ts) are used, and W1 (i) × X1 (i) + W2 (i) × X2 (i) is set to i Calculating and outputting within a range of = 1 to Ts;
Calculating Tt = (Ts−α × Tc_opt) / (α−1), inputting a voice signal having a time length (Tt−Td_opt) from (first pointer + Tc_opt + Td_opt + Ts) as a start point, and outputting the speech signal as it is;
Setting the first pointer + Tc_opt + Ts + Tt to the second pointer;
Setting a second pointer -Ts to the first pointer;
If not finished, return to the step of initializing the similarity,
An audio speed conversion method characterized by comprising:
第1のポインタにスタート点を設定するステップと、
第2のポインタに第1のポインタ+Tsの値を設定するステップと、
最大ディレイ時間Td_max=((2×α−1)Ts−α×Tc_min)/(1−α)を計算するステップと、
類似度を初期設定するステップと、
シフト時間Tcを初期値Tc_minから最大シフト時間Tc_max=2×Ts+Td−(Ts+Td)/αの範囲で変え、ディレイ時間Tdを0から最大ディレイ時間Td_maxの範囲で変え、(第1のポインタ+Td)を開始点として時間長Tsの音声信号セグメントX1を入力し、(第2のポインタ−Tc+Td)を開始点として時間長Tsの音声信号セグメントX2を入力し、X1とX2の類似度を計算し、類似度が高い時のディレイ時間Td_optとシフト時間Tc_optを探索するステップと、
第1のポインタを開始点として時間長Td_optの音声信号を入力してそのまま出力するステップと、
(第1のポインタ+Td_opt)を開始点として時間長Tsの音声信号セグメントX1(1〜Ts)を入力し、(第2のポインタ−Tc_opt+Td_opt)を開始点として時間長Tsの音声信号セグメントX2(1〜Ts)を入力し、漸増する窓関数W1(1〜Ts)と漸減する窓関数W2(1〜Ts)を用い、W2(i)×X1(i)+W1(i)×X2(i)をi=1〜Tsの範囲で計算して出力するステップと、
Tt=((2×α−1)Ts−α×Tc_opt)/(1−α)を計算し、(第2のポインタ−Tc_opt+Td_opt+Ts)を開始点として時間長(Tt−Td_opt)の音声信号を入力してそのまま出力するステップと、
第1のポインタに第2のポインタ−Tc_opt+Ts+Ttを設定するステップと、
第2のポインタに第1のポインタ+Tsを設定するステップと、
終了でなければ類似度を初期設定するステップに戻るステップ、
とを有することを特徴とする音声速度変換方法。 Reading a time axis conversion ratio α (≦ 1.0);
Setting a start point in the first pointer;
Setting the value of the first pointer + Ts to the second pointer;
Calculating a maximum delay time Td_max = ((2 × α−1) Ts−α × Tc_min) / (1−α);
Initializing the similarity,
The shift time Tc is changed from the initial value Tc_min to the maximum shift time Tc_max = 2 × Ts + Td− (Ts + Td) / α, the delay time Td is changed from 0 to the maximum delay time Td_max, and (first pointer + Td) is changed. An audio signal segment X1 having a time length Ts is input as a starting point, an audio signal segment X2 having a time length Ts is input using (second pointer −Tc + Td) as a starting point, and the similarity between X1 and X2 is calculated. Searching for a delay time Td_opt and a shift time Tc_opt when the degree is high;
Inputting a voice signal having a time length Td_opt starting from the first pointer and outputting it as it is;
An audio signal segment X1 (1 to Ts) having a time length Ts is input starting from (first pointer + Td_opt), and an audio signal segment X2 (1) having a time length Ts starting from (second pointer -Tc_opt + Td_opt) ˜Ts), and gradually increasing window function W1 (1 to Ts) and gradually decreasing window function W2 (1 to Ts), W2 (i) × X1 (i) + W1 (i) × X2 (i) calculating and outputting in the range of i = 1 to Ts;
Tt = ((2 × α−1) Ts−α × Tc_opt) / (1−α) is calculated, and an audio signal having a time length (Tt−Td_opt) is input starting from (second pointer−Tc_opt + Td_opt + Ts). And output as it is,
Setting a second pointer −Tc_opt + Ts + Tt to the first pointer;
Setting the first pointer + Ts to the second pointer;
If not finished, return to the step of initializing the similarity,
An audio speed conversion method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004030325A JP4442239B2 (en) | 2004-02-06 | 2004-02-06 | Voice speed conversion device and voice speed conversion method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004030325A JP4442239B2 (en) | 2004-02-06 | 2004-02-06 | Voice speed conversion device and voice speed conversion method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005221811A true JP2005221811A (en) | 2005-08-18 |
JP2005221811A5 JP2005221811A5 (en) | 2007-03-01 |
JP4442239B2 JP4442239B2 (en) | 2010-03-31 |
Family
ID=34997485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004030325A Expired - Fee Related JP4442239B2 (en) | 2004-02-06 | 2004-02-06 | Voice speed conversion device and voice speed conversion method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4442239B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100717393B1 (en) | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | Method and apparatus for measuring confidence about speech recognition in speech recognizer |
JP2010015152A (en) * | 2008-07-03 | 2010-01-21 | Thomson Licensing | Method for time scaling of sequence of input signal values |
JP2010017216A (en) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | Voice data processing apparatus, voice data processing method and imaging apparatus |
CN101169935B (en) * | 2006-10-23 | 2010-09-29 | 索尼株式会社 | Apparatus and method for expanding/compressing audio signal |
JP2011007959A (en) * | 2009-06-24 | 2011-01-13 | Ge Medical Systems Global Technology Co Llc | Speech data processing device, magnetic resonance imaging device, speech data processing method and program |
-
2004
- 2004-02-06 JP JP2004030325A patent/JP4442239B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100717393B1 (en) | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | Method and apparatus for measuring confidence about speech recognition in speech recognizer |
CN101169935B (en) * | 2006-10-23 | 2010-09-29 | 索尼株式会社 | Apparatus and method for expanding/compressing audio signal |
JP2010015152A (en) * | 2008-07-03 | 2010-01-21 | Thomson Licensing | Method for time scaling of sequence of input signal values |
US8676584B2 (en) | 2008-07-03 | 2014-03-18 | Thomson Licensing | Method for time scaling of a sequence of input signal values |
JP2010017216A (en) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | Voice data processing apparatus, voice data processing method and imaging apparatus |
JP2011007959A (en) * | 2009-06-24 | 2011-01-13 | Ge Medical Systems Global Technology Co Llc | Speech data processing device, magnetic resonance imaging device, speech data processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP4442239B2 (en) | 2010-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4675692B2 (en) | Speaking speed converter | |
WO2002082428A1 (en) | Time-scale modification of signals applying techniques specific to determined signal types | |
KR20030024784A (en) | Continuously variable time scale modification of digital audio signals | |
JPH11194796A (en) | Speech reproducing device | |
WO2007124582A1 (en) | Method for the time scaling of an audio signal | |
EP2881944B1 (en) | Audio signal processing apparatus | |
JP2012108451A (en) | Audio processor, method and program | |
JP4442239B2 (en) | Voice speed conversion device and voice speed conversion method | |
KR20080036518A (en) | Apparatus and method for expanding/compressing audio signal | |
US20070011001A1 (en) | Apparatus for predicting the spectral information of voice signals and a method therefor | |
JP3576800B2 (en) | Voice analysis method and program recording medium | |
JP6284003B2 (en) | Speech enhancement apparatus and method | |
JP4596197B2 (en) | Digital signal processing method, learning method and apparatus, and program storage medium | |
JP3378672B2 (en) | Speech speed converter | |
JP3379348B2 (en) | Pitch converter | |
WO2017119368A1 (en) | Signal processing method and signal processing device | |
JPH10301594A (en) | Sound detecting device | |
JP3422716B2 (en) | Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program | |
US20070269056A1 (en) | Method and Apparatus for Audio Signal Expansion and Compression | |
JP2005221811A5 (en) | ||
JPH0962298A (en) | Speech signal time compression device, speech signal time expansion device, and speech coding/decoding device using these devices | |
JP3357742B2 (en) | Speech speed converter | |
JP6652469B2 (en) | Decoding device, decoding method, and program | |
JPH07191695A (en) | Speaking speed conversion device | |
JP3733964B2 (en) | Sound source waveform synthesizer using analysis results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070111 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091116 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20091120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091222 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100104 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4442239 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140122 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |