JP3156020B2 - Audio speed conversion method - Google Patents

Audio speed conversion method

Info

Publication number
JP3156020B2
JP3156020B2 JP14922493A JP14922493A JP3156020B2 JP 3156020 B2 JP3156020 B2 JP 3156020B2 JP 14922493 A JP14922493 A JP 14922493A JP 14922493 A JP14922493 A JP 14922493A JP 3156020 B2 JP3156020 B2 JP 3156020B2
Authority
JP
Japan
Prior art keywords
signal
time
time length
output
time delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14922493A
Other languages
Japanese (ja)
Other versions
JPH0713596A (en
Inventor
正之 三崎
良二 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP14922493A priority Critical patent/JP3156020B2/en
Priority to DE69428612T priority patent/DE69428612T2/en
Priority to US08/187,295 priority patent/US5630013A/en
Priority to EP94101057A priority patent/EP0608833B1/en
Publication of JPH0713596A publication Critical patent/JPH0713596A/en
Application granted granted Critical
Publication of JP3156020B2 publication Critical patent/JP3156020B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、音声の基本周波数を変
えずに継続時間長のみを変える音声速度変換方法に関す
るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice speed conversion method for changing only the duration without changing the fundamental frequency of voice.

【0002】[0002]

【従来の技術】従来より、テープレコーダ等に記録され
ている音声信号の早聞きや遅聞きを行うために音声速度
変換装置が利用されている。
2. Description of the Related Art Conventionally, an audio speed converter has been used to perform an early listening or a slow listening of an audio signal recorded on a tape recorder or the like.

【0003】以下、図面を参照しながら、上述したよう
な従来の音声速度変換装置について説明を行う。
[0003] Hereinafter, the above-described conventional audio speed converter will be described with reference to the drawings.

【0004】図8は従来の音声速度変換装置の構成を示
すものである。図8において、81はAD変換器、82
はバッファ、83は速度制御回路、84はデータ読出回
路、85はミューテイング回路、86はDA変換器であ
る。
FIG. 8 shows the configuration of a conventional voice speed converter. In FIG. 8, reference numeral 81 denotes an AD converter, 82
Is a buffer, 83 is a speed control circuit, 84 is a data read circuit, 85 is a muting circuit, and 86 is a DA converter.

【0005】以上のように構成された音声速度変換装置
について、以下その動作を説明する。
[0005] The operation of the audio speed converter having the above configuration will be described below.

【0006】まず入力信号はAD変換器81でディジタ
ル信号に変換され、バッファ82へ書込まれる。次に速
度制御回路83は圧伸比に応じてデータ読出回路84を
制御し、バッファ82からデー夕を読出させる。このデ
ータの読出方法によって、再生速度を様々に変化させる
ことができる。再生時間を短くする場合には、ブロック
単位で読出すデータを間引く。再生時間を長くする場合
には、ブロック単位で読出すデータを繰返す。そして各
ブロック間の不連続部分はミューテイング回路85でミ
ューテイングをかけ、DA変換器86でアナログ信号に
変換して出力する。
First, an input signal is converted into a digital signal by an AD converter 81 and written into a buffer 82. Next, the speed control circuit 83 controls the data read circuit 84 in accordance with the compression / expansion ratio to read data from the buffer 82. Depending on the data reading method, the reproduction speed can be variously changed. To shorten the reproduction time, the data to be read is thinned out in block units. To lengthen the reproduction time, the data to be read is repeated in block units. The discontinuous portion between the blocks is muted by a muting circuit 85, converted into an analog signal by a DA converter 86, and output.

【0007】図9は圧伸比(時間軸圧縮伸長比=入力信
号に対する出力信号の時間長の比)αが0.5と2.0
の場合を模式的に示したものである。(a)が元の原音
に対して、(b)は時間軸変換比0.5、(c)は時間
軸変換比2.0の場合を示す。
FIG. 9 shows that the compression / expansion ratio (time axis compression / expansion ratio = the ratio of the time length of the output signal to the input signal) α is 0.5 and 2.0.
Is schematically shown. (A) shows the case of the original sound, (b) shows the case where the time base conversion ratio is 0.5, and (c) shows the case where the time base conversion ratio is 2.0.

【0008】[0008]

【発明が解決しようとする課題】しかし、上記した従来
の構成では、時間軸を圧縮して速度を早める場合には、
データを間引くために子音などが欠落して明瞭度が低下
し、さらにブロックの接続点は不連続であり、それを減
らすために接続点をミューテイングしているものの、振
幅や位相が不連続で自然性に乏しい音声しか得られない
という課題を有していた。
However, in the above-described conventional configuration, when the time axis is compressed to increase the speed,
In order to reduce data, consonants are missing and the clarity is reduced, and the connection points of the blocks are discontinuous.To reduce this, the connection points are muted, but the amplitude and phase are discontinuous. There was a problem that only a voice with poor naturalness could be obtained.

【0009】また、他の従来の音声速度変換装置では、
TDHS(Time DomeimHarmonic
Scaling)のように入力信号のピッチ周期を用い
る方法もあるが、入力信号に音楽や雑音が重畳している
場合にはピッチの抽出が難しいので適用できない。ま
た、波形を重み付け加算する窓長が速度比とピッチ周期
によって変化しており、求められたピッチ周波数よりさ
らに低い信号を含む信号を重み付け加算すると、その低
周波数成分が不連続的に接続されがちであり、滑らかさ
が欠如するという問題点を有している。
[0009] In another conventional voice speed converter,
TDHS (Time Domeim Harmonic
Although there is a method of using the pitch period of the input signal as in Scaling, it is not applicable when music or noise is superimposed on the input signal because it is difficult to extract the pitch. In addition, the window length for weighting and adding the waveform changes depending on the speed ratio and the pitch period. When a signal including a signal that is lower than the obtained pitch frequency is weighted and added, the low-frequency components tend to be connected discontinuously. And has a problem of lack of smoothness.

【0010】本発明は上記のような問題点に鑑み、波形
の振幅・位相の両方について不連続性が少なく、データ
の欠落をあまり生じない自然性に富んだ音声を出力で
き、音楽信号などの低周波数成分を含んだ信号を滑らか
に再生することを目的とする。
The present invention has been made in view of the above problems, and has low discontinuity in both amplitude and phase of a waveform, can output natural sound without causing data loss, and can output music signals and the like. An object is to smoothly reproduce a signal including a low frequency component.

【0011】[0011]

【課題を解決するための手段】請求項1に係わる本発明
は、音声信号において、所定の時間長Tsの信号をA、
前記信号Aに後続する時間長Tsの信号をBとしたと
き、信号Aに対して時間遅れk(0≦k)である時間長
Tsの信号A’と、信号Bに対して時間遅れ−k(0<
k)である時間長Tsの信号B’について、信号Aと信
号B’との相関関数および信号A’と信号Bとの相関関
数を所定のkの範囲で計算して前記相関関数が最大とな
る時間遅れrkを求め、このrkの値に対応して、rk
=0の場合、信号Aと信号Bとを時間長Tsの幅で漸減
漸増の関係で重み付け加算して出力し、また、rk>0
の場合、信号Aを時間幅rkで出力したのち信号A’と
信号Bとを時間長Tsの幅で漸減漸増の関係で重み付け
加算して出力し、また、rk<0の場合、信号Aと信号
B’とを時間長Tsの幅で漸減漸増の関係で重み付け加
算して出力し、上記rkの値に対する処理の次に、時間
軸圧縮伸長比(入力信号に対する出力信号の時間長の
比)αと前記時間遅れrkとに対応して式{α(Ts−
rk)/(1−α)}が与える時間長に達するまで前記
加算信号に後続する信号を出力する一連の処理を、次の
信号Aの先頭を式{(Ts−rk)/(1−α)}が与
える時間長だけ遅延した点に再設定して繰り返すことに
より、音声の再生時間を原音の1.0倍以下に変化させ
るようにした音声速度変換方法である。
The present invention according to claim 1 is provided.
Represents a signal having a predetermined time length Ts as A,
When a signal having a time length Ts subsequent to the signal A is B.
And the time length that is a time delay k (0 ≦ k) with respect to the signal A
A time delay -k (0 <
k), a signal B ′ having a time length Ts, and a signal A and a signal
Correlation function between signal B 'and signal A' and signal B
The number is calculated within a predetermined range of k to maximize the correlation function.
The time delay rk is determined, and rk is determined according to the value of rk.
When = 0, the signal A and the signal B are gradually reduced by the width of the time length Ts.
Weighted addition is performed in the relation of gradual increase, and rk> 0
In the case of, after outputting the signal A with the time width rk, the signal A '
Signal B is weighted in a relationship of gradual decrease and increase in the width of time length Ts
The signal A and the signal are output when rk <0.
B 'is weighted in a relationship of gradual decrease and increase with the width of the time length Ts.
And output it, and after the process for the value of rk,
Axis compression / expansion ratio (time length of output signal with respect to input signal
Ratio) α and the time delay rk, the expression {α (Ts−
rk) / (1−α)} until the given time length is reached.
A series of processes for outputting a signal subsequent to the addition signal is performed as follows.
The expression {(Ts-rk) / (1-α)} gives the head of the signal A.
To reset to the point delayed by the length of time
Change the audio playback time to less than 1.0 times the original sound.
This is an audio speed conversion method.

【0012】また、請求項2に係わる本発明は、音声信
号において、所定の時間長Tsの信号をA、前記信号A
に後続する時間長Tsの信号をBとしたとき、信号Aに
対して時間遅れk(0≦k)である時間長Tsの信号
A’と、信号Bに対して時間遅れ−k(0<k)である
時間長Tsの信号B’について、信号Aと信号B’との
相関関数および信号A’と信号Bとの相関関数を所定の
kの範囲で計算して前記相関関数が最大となる時間遅れ
rkを求め、このrkの値に対応して、rk=0の場
合、信号Bと信号Aとを時間長Tsの幅で漸減漸増の関
係で重み付け加算して出力し、また、rk<0の場合、
信号Bを時間幅(−rk)で出力したのち信号B’と信
号Aとを時間長Tsの幅で漸減漸増の関係で重み付け加
算して出力し 、また、rk>0の場合、信号Bと信号
A’とを時間長Tsの幅で漸減漸増の関係で重み付け加
算して出力し、上記rkの値に対する処理の次に、時間
軸圧縮伸長比(入力信号に対する出力信号の時間長の
比)αと前記時間遅れrkとに対応して式{α(Ts−
rk)/(α−1)}が与える時間長に達するまで前記
加算信号に後続する信号を出力する一連の処理を、次の
信号Aの先頭を式{(Ts−rk)/(α−1)}が与
える時間長だけ遅延した点に再設定して繰り返すことに
より、音声の再生時間を原音の1.0倍以上に変化させ
るようにした音声速度変換方法である。
Further, the present invention according to claim 2 provides a voice signal.
A signal having a predetermined time length Ts is denoted by A, and the signal A
When a signal having a time length Ts subsequent to
On the other hand, a signal having a time length Ts with a time delay k (0 ≦ k)
A ′ and a time delay −k (0 <k) with respect to the signal B.
For the signal B 'having the time length Ts, the signal A and the signal B'
The correlation function and the correlation function between signal A ′ and signal B
Time delay when the correlation function is maximized when calculated in the range of k
rk is obtained, and in the case of rk = 0,
In this case, the signal B and the signal A are gradually reduced by the width of the time length Ts.
And weighted and added, and if rk <0,
After outputting the signal B with a time width (-rk), the signal B ′ is output.
Weighted with signal A in the relationship of gradually decreasing and increasing with the width of time length Ts
Calculated and output, also, rk> 0, the signal B and the signal
A 'is weighted in the relationship of gradual decrease and increase with the width of the time length Ts.
And output it, and after the process for the value of rk,
Axis compression / expansion ratio (time length of output signal with respect to input signal
Ratio) α and the time delay rk, the expression {α (Ts−
rk) / (α-1)} until the given time length is reached.
A series of processes for outputting a signal subsequent to the addition signal is performed as follows.
The expression {(Ts-rk) / (α-1)} gives the head of the signal A.
To reset to the point delayed by the length of time
More than 1.0 times the original sound
This is an audio speed conversion method.

【0013】[0013]

【作用】この構成によって、信号A’と信号Bまたは信
号Aと信号B’に対して時間長Tsの幅で重み付け加算
を行うことにより加算した信号の欠落および振幅の不連
続が少なくなり、さらに、一定の時間長Tsで重み付け
加算していることにより低周波数成分を含む信号の滑ら
かな接続が可能となる。また、信号A’と信号Bまたは
信号Aと信号B’の相関関数が最大となる時間遅れrk
の位置に基づいて加算することにより波形接続を行う区
間の前後で位相の不整合が少なくなる。
According to this configuration, the signal A 'and the signal B or the signal A and the signal B' are weighted and added with the width of the time length Ts, thereby reducing the loss of the added signal and the discontinuity of the amplitude. Since the weighted addition is performed with a fixed time length Ts, it is possible to smoothly connect signals including low frequency components. Further, a time delay rk at which the correlation function between the signal A ′ and the signal B or the signal A and the signal B ′ is maximized.
, The phase mismatch before and after the section where the waveform connection is performed is reduced.

【0014】[0014]

【実施例】以下本発明の第1の実施例について、図面
を参照しながら説明する。
EXAMPLES Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.

【0015】本発明は圧伸比αが式{Ts+kmax/
2・Ts}≦α≦1.0の範囲で動作する音声速度変換
方法に係る。
According to the present invention, the companding ratio α is determined by the formula ΔTs + kmax /
The present invention relates to an audio speed conversion method operating in the range of 2 · Ts} ≦ α ≦ 1.0.

【0016】図1は本発明の第1の実施例における音声
速度変換方法のフローチャートを示すもので、その動作
について説明する。
FIG. 1 is a flow chart of a voice speed conversion method according to a first embodiment of the present invention, and its operation will be described.

【0017】この例では、音声信号が離散時間データx
(n)にサンプリングされているものとする。以下の処
理には、入力データポインタとしてP1、P2、および
出力データポインタP3を用いてデータの指定を行う。
まず、ステップ101で、入力ポインタP1の指すアド
レスip1にこれから再生したい音声データの先頭アド
レスに設定する。また、P2の指すアドレスip2には
P1からTs個後のデータを指すようにする。また、出
力ポインタの指すアドレスopには初期値を設定する。
ステップ102で圧伸比αを設定する。この圧伸比αは
前記の式に示した値を満たすものとする。
In this example, the audio signal is discrete time data x
It is assumed that sampling is performed at (n). In the following processing, data is specified using P1, P2 as an input data pointer and an output data pointer P3.
First, in step 101, an address ip1 indicated by the input pointer P1 is set to the head address of audio data to be reproduced. The address ip2 indicated by P2 indicates the data Ts times after P1. Also, an initial value is set to the address op indicated by the output pointer.
In step 102, the companding ratio α is set. The companding ratio α satisfies the value shown in the above equation.

【0018】次に、ポインタP1からデータ数Ts個の
信号AとポインタP2からデータ数Ts個の信号Bの一
方を基準としてもう一方を時間遅れの向きにずらしてい
き、相関の高くなる位置を求めるために、ステップ10
3で相関関数を演算し、ステップ104で相関関数が最
大となるときの時間遅れに相当するデータ数(時間遅
れ)rkを求める。相関関数CORの計算内容について
は図2に示すように時間遅れkの値の正負に応じて使用
する音声データの範囲が異なっている。また、計算を行
う時間遅れkの範囲は最大値kmaxと最小値kmin
を予め設定しておき、相関遅延を求める範囲には制限を
加える。以上で相関関数が最大となる時間遅れrkが求
められ、ステップ105で音声データをそのまま出力す
るデータ数Ttを図3に示すように計算する。このスト
レートアウト区間のデータ数Ttの計算も時間遅れrk
の正負に応じて計算式が異なる。
Next, one of the signal A having the number of data Ts from the pointer P1 and the signal B having the number of data Ts from the pointer P2 is shifted with respect to one of the signals A in a time delay direction, and the position where the correlation becomes high is determined. Step 10 to find
In step 3, a correlation function is calculated, and in step 104, the number of data (time delay) rk corresponding to a time delay when the correlation function is maximized is obtained. Range of audio data to be used according to the positive or negative value of the time between the delay k as shown in FIG. 2 is different from the calculation contents of the correlation function COR. The range of the time delay k for performing the calculation is a maximum value kmax and a minimum value kmin
Is set in advance, and the range for obtaining the correlation delay is limited. The time delay rk at which the correlation function is maximized is obtained as described above. In step 105, the number of data Tt for directly outputting audio data is calculated as shown in FIG. The calculation of the number of data Tt in this straight-out section is also delayed by rk.
The calculation formula differs depending on the sign of.

【0019】そして、時間遅れrkの値が正のときはス
テップ107、108、109の処理を行って出力波形
を求め、それ以外の場合にはステップ110、111の
処理を行って出力波形を求める。ここで、ステップ10
8、110におけるWdec(i)はiが0のときに大
きさ1でiの増加と共にリニアに単調減少してiが
s−1のときに0になる窓関数である。また、ステッ
プ108、110におけるWinc(i)はiが0のと
きに0でiの増加と共にリニアに単調増加してiが(T
s−1)のときに1になる窓関数である。
If the value of the time delay rk is positive, the processing of steps 107, 108 and 109 is performed to obtain an output waveform, and otherwise, the processing of steps 110 and 111 is performed to obtain an output waveform. . Here, step 10
The Wdec (i) at 8, 110 is linearly monotonically decreasing with the increase of i when i is 0 and i is ( T).
s-1 ) is a window function that becomes 0 at the time of (s-1 ) . In addition, Winc (i) in steps 108 and 110 is linearly monotonically increased at 0 when i is 0 and increases as i increases, and i becomes (T
The window function becomes 1 in the case of s-1).

【0020】図4に時間遅れkの値が0、正、負の場
合にわけて出力波形が求められる様子を示している。時
間遅れrkが正の場合には時間遅れrkが0の場合に較
べて、データ数Ttが短くなっていることがわかる。逆
に、時間遅れrkが負の場合にはデータ数Ttが長くな
っている。これは、時間遅れrkのずれに応じてデータ
数Ttの長さを調節して目標の圧伸比αからのずれがな
いようにするためである。そして、引き続き処理を継続
する場合にはステップ113に示すように入力データポ
インタと出力データポインタの指すアドレスを更新して
から、ステップ102以下の処理を繰り返すようにす
る。
The values in FIG. 4 between two o'clock delay r k is 0, a positive, the output waveform divided for negative shows how sought. It can be seen that the number of data Tt is shorter when the time delay rk is positive than when the time delay rk is zero. Conversely, when the time delay rk is negative, the data number Tt is long. This is to adjust the length of the number of data Tt according to the deviation of the time delay rk so that there is no deviation from the target companding ratio α. If the processing is to be continued, the address pointed to by the input data pointer and the address pointed to by the output data pointer is updated as shown in step 113, and then the processing from step 102 onward is repeated.

【0021】以上のように本実施例によれば、次に述べ
るような特長を持った再生時間を圧縮して聴取する方法
(音程を変えずに速度を高速にする方法)を実現するこ
とができる。ポインタP1、P2を基準とした相関関数
を計算し、その相関の高くなる位置で重み付け加算をし
ている。これにより、波形を接続する前後の区間で位相
が著しく不整合になることを防いでいる。そして、2つ
の離れた部分の信号は一方は単調減少し、一方は単調増
加する窓関数をかけてから加算されており、波形を接続
する区間における振幅の連続性は良好に保たれる。
As described above, according to the present embodiment, it is possible to realize a method of listening by compressing the reproduction time having the following features (a method of increasing the speed without changing the pitch). it can. A correlation function based on the pointers P1 and P2 is calculated, and weighted addition is performed at a position where the correlation is high. This prevents the phase from becoming significantly mismatched in the section before and after connecting the waveforms. One of the signals at the two separated portions is monotonically decreased, and the other is added after applying a monotonically increasing window function, so that the continuity of the amplitude in the section where the waveforms are connected is maintained well.

【0022】これらによって、従来にない滑らかで自
然、かつ情報欠落やエコー感が少ない明瞭な再生音を得
ることができる。また、重み付け加算を行った後に続く
ストレートアウト区間のデータ数は時間遅れのデータ数
rkが決定された後に計算され、時間遅れのデータ数が
変化することによる圧伸比αのずれを生じることはな
い。さらに、重み付け加算する区間の長さは、入力信号
や時間遅れrkに無関係な一定長Tsで波形をクロスフ
ェードして接続しているので時間遅れrkの値によって
クロスフェード長が短くなることはなく、接続される信
号に含まれる低周波数成分の滑らかな再生音が得られる
ことになる。
As a result, it is possible to obtain a clear reproduced sound that is smooth and natural, and has a clear information loss and little echo feeling. Further, the number of data in the straight-out section following the weighted addition is calculated after the number of time-delayed data rk is determined, and a change in the companding ratio α due to a change in the number of time-delayed data may not occur. Absent. Further, the length of the section to be weighted and added is such that the waveform is cross-fade with a constant length Ts irrespective of the input signal and the time delay rk, so that the cross-fade length is not shortened by the value of the time delay rk. Thus, a smooth reproduced sound of low frequency components contained in the connected signal can be obtained.

【0023】以下本発明の第2の実施例について、図
面を参照しながら説明する。本発明は圧伸比αが式1.
0≦α≦(Ts/kmax)の範囲で動作する音声速度
変換方法を提供するものである。
Hereinafter , a second embodiment of the present invention will be described with reference to the drawings. In the present invention, the drawing / drawing ratio α is represented by the formula 1.
An object of the present invention is to provide a voice speed conversion method that operates in the range of 0 ≦ α ≦ (Ts / kmax) .

【0024】図5は本発明の第2の実施例における音声
速度変換方法のフローチャートを示すもので、その動作
について説明する。
FIG. 5 is a flowchart of a voice speed conversion method according to a second embodiment of the present invention, and the operation will be described.

【0025】この例でも第1の実施例と同様に、音声信
号は離散時間データx(n)にサンプリングされてお
り、入力データポインタP1、P2、および出力データ
ポインタP3を用いてデータの指定を行う。まず、ステ
ップ501で、入力ポインタP1の指すアドレスip1
にこれから再生したい音声データの先頭アドレスに設定
する。また、P2の指すアドレスip2にはP1からT
s個後のデータを指すようにする。また、出力ポインタ
の指すアドレスopには初期値を設定する。ステップ5
02で圧伸比αを設定する。この圧伸比αは第2の実施
例における前記式に示した値を満たすものとする。次
に、ポインタP1からデータ数Ts個の信号Aとポイン
タP2からデータ数Ts個の信号Bの一方を基準として
もう一方を時間遅れの向きにずらしていき、相関の高く
なる位置を求めるために、ステップ503で相関関数を
演算し、ステップ504で相関関数が最大となるときの
時間遅れに相当するデータ数rkを求める。相関関数C
ORの計算内容については第1の実施例と同様に図2に
示したように計算を行う。
In this example, as in the first embodiment, the audio signal is sampled as discrete-time data x (n), and data is designated using input data pointers P1, P2 and output data pointer P3. Do. First, in step 501, the address ip1 indicated by the input pointer P1
Is set to the head address of the audio data to be reproduced. Also, the address ip2 indicated by P2 has a value from P1 to T.
Point to data s times later. Also, an initial value is set to the address op indicated by the output pointer. Step 5
In 02, the companding ratio α is set. The companding ratio α satisfies the value shown in the above equation in the second embodiment. Next, one of the signal A having the number of data Ts from the pointer P1 and the signal B having the number of data Ts from the pointer P2 is shifted with respect to one of them in a time delay direction to obtain a position having a high correlation. In step 503, a correlation function is calculated, and in step 504, the number of data rk corresponding to a time delay when the correlation function is maximized is obtained. Correlation function C
The calculation contents of OR are calculated as shown in FIG. 2 as in the first embodiment.

【0026】また、計算を行う時間遅れkの範囲は最大
値kmaxと最小値kminを予め設定しておき、相関
遅延を求める範囲には制限を加える。以上で相関関数が
最大となる時間遅れrkが求められ、ステップ505で
音声データをそのまま出力するデータ数Ttを図6に示
すように計算する。このストレートアウト区間のデータ
数Ttの計算も時間遅れrkの正負に応じて計算式が異
なる。そして、時間遅れrkの値が負のときはステップ
507、508、509の処理を行って出力波形を求
め、それ以外の場合にはステップ510、511の処理
を行って出力波形を求める。ここで、ステップ508、
510におけるWdec(i)は、第1の実施例と同様
にiが0のときに大きさ1でiの増加と共にリニアに単
調減少してiがTs−1のときに0になる窓関数で
ある。また、ステップ508、510におけるWinc
(i)は、第1の実施例と同様にiが0のときに0でi
の増加と共にリニアに単調増加してiがTs−1
ときに1になる窓関数である。
Further, the range of calculated line cormorants time between delay k is previously set maximum value kmax and the minimum value kmin advance, in the range correlating delay to limit. The time delay rk at which the correlation function is maximized is obtained as described above. In step 505, the number of data Tt for directly outputting audio data is calculated as shown in FIG. The calculation formula of the number Tt of data in the straight-out section also differs according to the sign of the time delay rk. When the value of the time delay rk is negative, the processing of steps 507, 508, and 509 is performed to obtain an output waveform. Otherwise, the processing of steps 510 and 511 is performed to obtain an output waveform. Here, step 508,
The window Wdec (i) at 510 is a window having a magnitude of 1 when i is 0, linearly decreasing monotonically with the increase of i, and becoming 0 when i is ( Ts−1 ) , as in the first embodiment. Function. Also, Winc in steps 508 and 510
(I) is 0 and i is 0 when i is 0 as in the first embodiment.
Is a window function that linearly and monotonically increases as i increases and becomes 1 when i is ( Ts−1 ) .

【0027】図7に時間遅れkの値が0、負、正の場
合にわけて出力波形が求められる様子を示している。時
間遅れrkが正の場合には時間遅れrkが0の場合に較
べて、データ数Ttが短くなっていることがわかる。逆
に、時間遅れrkが負の場合にはデータ数Ttが長くな
っている。これは時間遅れrkのずれに応じてデータ数
Ttの長さを調節して目標の圧伸比αからのずれが無い
ようにするためである。そして、引き続き処理を継続す
る場合にはステップ513に示すように入力データポイ
ンタと出力データポインタの指すアドレスを更新してか
ら、ステップ502以下の処理を繰り返すようにする。
The values in FIG. 7 between two o'clock delay r k is 0, negative, positive divided by the output waveform in the case shows how sought. It can be seen that the number of data Tt is shorter when the time delay rk is positive than when the time delay rk is zero. Conversely, when the time delay rk is negative, the data number Tt is long. This is to adjust the length of the data number Tt according to the deviation of the time delay rk so that there is no deviation from the target companding ratio α. If the processing is to be continued, the address pointed to by the input data pointer and the address pointed to by the output data pointer are updated as shown in step 513, and then the processing from step 502 onward is repeated.

【0028】以上のように本実施例によれば、次に述べ
るような特長を持った再生時間を伸長して聴取する方法
(音程を変えずに速度を低速にする方法)を実現するこ
とができる。ポインタP1、P2を基準とした相関関数
を計算し、その相関の高くなる位置で重み付け加算をし
ている。これにより、波形を接続する前後の区間で位相
が著しく不整合になることを防いでいる。そして、2つ
の離れた部分の信号は一方は単調減少し、一方は単調増
加する窓関数を掛けてから加算されており、波形を接続
する区間における振幅の連続性は良好に保たれる。これ
らによって、従来にない滑らかで自然、かつ情報欠落や
エコー感が少ない明瞭な再生音を得ることができる。
As described above, according to the present embodiment, it is possible to realize a method of extending the reproduction time and having the following characteristics for listening (a method of reducing the speed without changing the pitch). it can. A correlation function based on the pointers P1 and P2 is calculated, and weighted addition is performed at a position where the correlation is high. This prevents the phase from becoming significantly mismatched in the section before and after connecting the waveforms. One of the two separated signals is monotonically reduced, and the other is multiplied by a monotonically increasing window function, and then added, so that the continuity of the amplitude in the section where the waveforms are connected is maintained well. As a result, it is possible to obtain a clear and natural reproduced sound which is unprecedented and smooth and has little information loss and echo feeling.

【0029】また、重み付け加算を行った後に続くスト
レートアウト区間のデータ数は時間遅れのデータ数rk
が決定された後に計算され、時間遅れのデータ数rkが
変化することによる圧伸比αのずれを生じることはな
い。さらに、重み付け加算する区間の長さは、入力信号
や時間遅れrkに無関係な一定長Tsで波形をクロスフ
ェードして接続しているので時間遅れrkの値によって
クロスフェード長が短くなることは無く、接続される信
号に含まれる低周波数成分の滑らかな再生音が得られる
ことになる。
The number of data in the straight-out section following the weighted addition is the number of data rk with a time delay.
Is calculated after the determination is made, and there is no shift in the companding ratio α due to a change in the number of data rk with a time delay. Furthermore, the length of the section to be weighted and added is such that the cross-fade length is not shortened by the value of the time delay rk because the waveform is connected by cross-fading with a constant length Ts irrespective of the input signal and the time delay rk. Thus, a smooth reproduced sound of low frequency components contained in the connected signal can be obtained.

【0030】[0030]

【発明の効果】本発明は、信号Aと信号Bの一方を基準
とした相関関数が最大となる時間遅れrkを求め、その
時間遅れに応じて波形を重み付け加算する位置を変更す
ることにより、信号の接続を行う区間の前後で位相が著
しく不整合になることを防いでいる。また、波形の接続
を行う区間において時間的に漸減する窓関数と時間的に
漸増する窓関数を信号に乗算してから加算しているの
で、波形接続を行う区間の振幅の不連続性が無くなる。
さらに、時間遅れrkを決定した後に、式{α(Ts−
rk)/(1一α)}あるいは式{α(Ts−rk)/
(α−1)}に示される値に出力時間長が達するまで、
重み付け加算した信号に後続する信号をそのまま出力す
るので、時間遅延のデータ数が変化することによる圧伸
比αからのずれを生じることはない。さらに、一定時間
長Tsの幅で重み付け加算を行ったことにより、接続さ
れる信号に含まれる低周波数成分の滑らかな再生音が得
られる利点がある。
According to the present invention, the time delay rk that maximizes the correlation function based on one of the signal A and the signal B is determined, and the position where the waveform is weighted and added is changed according to the time delay. The phase is prevented from being significantly mismatched before and after the section where the signal is connected. In addition, since the signal is multiplied by a window function that gradually decreases in time and a window function that gradually increases in time in the section where the waveform is connected, the discontinuity of the amplitude in the section where the waveform is connected is eliminated. .
Further, after determining the time delay rk, the equation {α (Ts−
rk) / (11−α)} or the formula {α (Ts−rk) /
Until the output time length reaches the value shown in (α-1)} ,
Since the signal subsequent to the weighted and added signal is output as it is, there is no deviation from the companding ratio α due to a change in the number of time delay data. Further, by performing the weighted addition with the width of the fixed time length Ts, there is an advantage that a smooth reproduced sound of low frequency components included in the connected signal can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例における音声速度変換方
法のフローチャート
FIG. 1 is a flowchart of a voice speed conversion method according to a first embodiment of the present invention;

【図2】本発明の第1の実施例における音声速度変換方
法の相関関数演算のフローチャート
FIG. 2 is a flowchart of a correlation function operation of the voice speed conversion method according to the first embodiment of the present invention.

【図3】本発明の第1の実施例におけるストレートアウ
ト区間の長さを計算するフローチャート
FIG. 3 is a flowchart for calculating a length of a straight-out section according to the first embodiment of the present invention;

【図4】本発明の第1の実施例における音声速度変換方
法で、入力信号に対して時間遅延rkの値によって重み
付け加算されて得られる出力信号の模式図
FIG. 4 is a schematic diagram of an output signal obtained by weighting and adding an input signal by a value of a time delay rk in the voice speed conversion method according to the first embodiment of the present invention;

【図5】本発明の第2の実施例における音声速度変換方
法のフローチャート
FIG. 5 is a flowchart of a voice speed conversion method according to a second embodiment of the present invention;

【図6】本発明の第2の実施例におけるストレートアウ
ト区間の長さを計算するフローチャート
FIG. 6 is a flowchart for calculating the length of a straight-out section according to the second embodiment of the present invention;

【図7】本発明の第2の実施例における音声速度変換方
法で、入力信号に対して時間遅延rkの値によって重み
付け加算されて得られる出力信号の模式図
FIG. 7 is a schematic diagram of an output signal obtained by weighting and adding an input signal by a value of a time delay rk in the audio speed conversion method according to the second embodiment of the present invention.

【図8】従来の音声速度変換装置の構成図FIG. 8 is a configuration diagram of a conventional voice speed conversion device.

【図9】従来の音声速度変換装置の入力信号と出力信号
の模式図
FIG. 9 is a schematic diagram of an input signal and an output signal of a conventional audio speed conversion device.

【符号の説明】[Explanation of symbols]

A、B 信号 Ts 所定の時間長 rk 時間遅れ α 圧伸比 A, B signal Ts Predetermined time length rk Time delay α Companding ratio

フロントページの続き (56)参考文献 特開 平3−219462(JP,A) 特開 平4−104200(JP,A) 特開 平4−188199(JP,A) 特開 平6−222794(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 11/06 G10L 21/00 - 21/04 Continuation of front page (56) References JP-A-3-219462 (JP, A) JP-A-4-104200 (JP, A) JP-A-4-188199 (JP, A) JP-A-6-222794 (JP) , A) (58) Fields studied (Int. Cl. 7 , DB name) G10L 11/00-11/06 G10L 21/00-21/04

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声信号において、所定の時間長Tsの
信号をA、前記信号Aに後続する時間長Tsの信号をB
としたとき、信号Aに対して時間遅れk(0≦k)であ
る時間長Tsの信号A’と、信号Bに対して時間遅れ−
k(0<k)である時間長Tsの信号B’について、信
号Aと信号B’との相関関数および信号A’と信号Bと
の相関関数を所定のkの範囲で計算して前記相関関数が
最大となる時間遅れrkを求め、このrkの値に対応し
て、rk=0の場合、信号Aと信号Bとを時間長Tsの
幅で漸減漸増の関係で重み付け加算して出力し、また、
rk>0の場合、信号Aを時間幅rkで出力したのち信
号A’と信号Bとを時間長Tsの幅で漸減漸増の関係で
重み付け加算して出力し、また、rk<0の場合、信号
Aと信号B’とを時間長Tsの幅で漸減漸増の関係で重
み付け加算して出力し、上記rkの値に対する処理の次
に、時間軸圧縮伸長比(入力信号に対する出力信号の時
間長の比)αと前記時間遅れrkとに対応して式{α
(Ts−rk)/(1−α)}が与える時間長に達する
まで前記加算信号に後続する信号を出力する一連の処理
を、次の信号Aの先頭を式{(Ts−rk)/(1−
α)}が与える時間長だけ遅延した点に再設定して繰り
返すことにより、音声の再生時間を原音の1.0倍以下
に変化させるようにした音声速度変換方法。
1. An audio signal having a predetermined time length Ts
A signal is represented by A, and a signal having a time length Ts subsequent to the signal A is represented by B.
Is a time delay k (0 ≦ k) with respect to the signal A.
Time delay with respect to the signal A 'having a time length Ts
k (0 <k), a signal B ′ having a time length Ts
The correlation function between signal A and signal B 'and signal A' and signal B
Is calculated in a predetermined range of k, and the correlation function is
The maximum time delay rk is determined, and corresponding to this rk value,
Therefore, when rk = 0, the signal A and the signal B are separated by a time length Ts.
Weighted addition is output in the relationship of gradually decreasing and increasing in width, and
If rk> 0, signal A is output with time width rk and then
The signal A 'and the signal B are gradually reduced and increased in the width of the time length Ts.
Weighted addition is performed, and when rk <0, the signal is
A and the signal B ′ overlap in a gradually decreasing and increasing relationship with the width of the time length Ts.
And outputs the result after the process for the value of rk.
The time axis compression / expansion ratio (for the output signal with respect to the input signal,
{Α corresponding to the ratio (interval length) α and the time delay rk
Reaches the time length given by (Ts-rk) / (1-α)}
A series of processes for outputting a signal subsequent to the addition signal up to
Is calculated by adding the head of the next signal A to the equation {(Ts−rk) / (1−
α) Reset to the point delayed by the time length given by} and repeat
By returning, the playback time of the sound is less than 1.0 times the original sound
Voice speed conversion method that is changed to.
【請求項2】 音声信号において、所定の時間長Tsの
信号をA、前記信号Aに後続する時間長Tsの信号をB
としたとき、信号Aに対して時間遅れk(0≦k)であ
る時間長Tsの信号A’と、信号Bに対して時間遅れ−
k(0<k)である時間長Tsの信号B’について、信
号Aと信号B’との相関関数および信号A’と信号Bと
の相関関数を所定のkの範囲で計算して前記相関関数が
最大となる時間遅れrkを求め、このrkの値に対応し
て、rk=0の場合、信号Bと信号Aとを時間長Tsの
幅で漸減漸増の関係で重み付け加算して出力し、また、
rk<0の場合、信号Bを時間幅(−rk)で出力した
のち信号B’と信号Aとを時間長Tsの幅で漸減漸増の
関係で重み付け加算して出力し、また、rk>0の場
合、信号Bと信号A’とを時間長Tsの幅で漸減漸増の
関係で重み付け加算し て出力し、上記rkの値に対する
処理の次に、時間軸圧縮伸長比(入力信号に対する出力
信号の時間長の比)αと前記時間遅れrkとに対応して
式{α(Ts−rk)/(α−1)}が与える時間長に
達するまで前記加算信号に後続する信号を出力する一連
の処理を、次の信号Aの先頭を式{(Ts−rk)/
(α−1)}が与える時間長だけ遅延した点に再設定し
て繰り返すことにより、音声の再生時間を原音の1.0
倍以上に変化させるようにした音声速度変換方法。
2. An audio signal having a predetermined time length Ts
A signal is represented by A, and a signal having a time length Ts subsequent to the signal A is represented by B.
Is a time delay k (0 ≦ k) with respect to the signal A.
Time delay with respect to the signal A 'having a time length Ts
k (0 <k), a signal B ′ having a time length Ts
The correlation function between signal A and signal B 'and signal A' and signal B
Is calculated in a predetermined range of k, and the correlation function is
The maximum time delay rk is determined, and corresponding to this rk value,
Therefore, when rk = 0, the signal B and the signal A are separated by a time length Ts.
Weighted addition is output in the relationship of gradually decreasing and increasing in width, and
When rk <0, the signal B was output with a time width (-rk)
Thereafter, the signal B 'and the signal A are gradually reduced and increased by the width of the time length Ts.
Weighted and added in relation to each other, and when rk> 0,
In this case, the signal B and the signal A ′ are gradually reduced by the width of the time length Ts.
Weighted and added in relation to output
After processing, the time axis compression / expansion ratio (output for input signal
Signal time ratio) α and the time delay rk
The time length given by the equation {α (Ts−rk) / (α−1)}
A series of signals that follow the sum signal until they reach
Is calculated by adding the head of the next signal A to the equation {(Ts−rk) /
(Α-1) is reset to the point delayed by the time length given by
To repeat the playback time of the original sound by 1.0
An audio speed conversion method that changes it more than twice.
JP14922493A 1993-01-25 1993-06-21 Audio speed conversion method Expired - Fee Related JP3156020B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP14922493A JP3156020B2 (en) 1993-06-21 1993-06-21 Audio speed conversion method
DE69428612T DE69428612T2 (en) 1993-01-25 1994-01-25 Method and device for carrying out a time scale modification of speech signals
US08/187,295 US5630013A (en) 1993-01-25 1994-01-25 Method of and apparatus for performing time-scale modification of speech signals
EP94101057A EP0608833B1 (en) 1993-01-25 1994-01-25 Method of and apparatus for performing time-scale modification of speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14922493A JP3156020B2 (en) 1993-06-21 1993-06-21 Audio speed conversion method

Publications (2)

Publication Number Publication Date
JPH0713596A JPH0713596A (en) 1995-01-17
JP3156020B2 true JP3156020B2 (en) 2001-04-16

Family

ID=15470580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14922493A Expired - Fee Related JP3156020B2 (en) 1993-01-25 1993-06-21 Audio speed conversion method

Country Status (1)

Country Link
JP (1) JP3156020B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374225B1 (en) * 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
JP4895418B2 (en) * 1999-08-24 2012-03-14 ソニー株式会社 Audio reproduction method and audio reproduction apparatus
JP2010191415A (en) * 1999-08-24 2010-09-02 Sony Corp Method and apparatus regenerating voice
JP2005275010A (en) * 2004-03-25 2005-10-06 Casio Comput Co Ltd Voice extension device, voice extension method and program
US8073704B2 (en) 2006-01-24 2011-12-06 Panasonic Corporation Conversion device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5912188A (en) * 1982-07-14 1984-01-21 Hitachi Ltd Scroll type hydraulic machine
JP2669088B2 (en) * 1990-01-24 1997-10-27 松下電器産業株式会社 Audio speed converter
JPH04188199A (en) * 1990-11-21 1992-07-06 Matsushita Electric Ind Co Ltd Voice speed conversion device

Also Published As

Publication number Publication date
JPH0713596A (en) 1995-01-17

Similar Documents

Publication Publication Date Title
US5630013A (en) Method of and apparatus for performing time-scale modification of speech signals
US5842172A (en) Method and apparatus for modifying the play time of digital audio tracks
US4734795A (en) Apparatus for reproducing audio signal
JP3451900B2 (en) Pitch / tempo conversion method and device
KR20000068955A (en) Sound processing method, sound processor, and recording/reproduction device
US5781885A (en) Compression/expansion method of time-scale of sound signal
JP3156020B2 (en) Audio speed conversion method
JPH08139570A (en) Digital signal processor
JP2001356799A (en) Device and method for time/pitch conversion
JP3147562B2 (en) Audio speed conversion method
JPS5982608A (en) System for controlling reproducing speed of sound
US7010491B1 (en) Method and system for waveform compression and expansion with time axis
US4210781A (en) Sound synthesizing apparatus
JP2001136073A (en) Compression method and device, compression and expansion system, and recording medium
JPS642960B2 (en)
USRE31172E (en) Sound synthesizing apparatus
JP2532731B2 (en) Voice speed conversion device and voice speed conversion method
US20110046967A1 (en) Data converting apparatus and data converting method
JP2669088B2 (en) Audio speed converter
JP3506012B2 (en) Pitch / Tempo conversion method
JPH01267700A (en) Speech processor
JP3201865B2 (en) Audio signal pitch conversion method
JPH06337696A (en) Device and method for controlling speed conversion
JPH01152499A (en) Double-speed reproducer
JPH10282991A (en) Speech rate converting device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090209

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100209

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100209

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120209

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees