JP3422716B2 - Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program - Google Patents

Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program

Info

Publication number
JP3422716B2
JP3422716B2 JP06551299A JP6551299A JP3422716B2 JP 3422716 B2 JP3422716 B2 JP 3422716B2 JP 06551299 A JP06551299 A JP 06551299A JP 6551299 A JP6551299 A JP 6551299A JP 3422716 B2 JP3422716 B2 JP 3422716B2
Authority
JP
Japan
Prior art keywords
waveform
section
speech
frame
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP06551299A
Other languages
Japanese (ja)
Other versions
JP2000259200A (en
Inventor
紀子 水澤
正信 東田
博和 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP06551299A priority Critical patent/JP3422716B2/en
Publication of JP2000259200A publication Critical patent/JP2000259200A/en
Application granted granted Critical
Publication of JP3422716B2 publication Critical patent/JP3422716B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、録音音声の品質お
よび話者の声質を保ったまま話速だけを変換する話速変
換方法と装置とプログラムを格納した記録媒体に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech speed conversion method and apparatus for converting only a speech speed while maintaining the quality of recorded voice and the voice quality of a speaker, and a recording medium storing a program.

【0002】[0002]

【従来の技術】各種の自動音声応答装置などに用いられ
る単語音声を蓄積する録音音声データベースは、それに
含まれる各音声データの話速が良く揃っていることが望
まれる。しかし、データベースが大規模になると、良く
訓練された発声者でも全ての音声データの話速が同じに
なるよう発声することは難しいため、録音音声データの
音質を劣化させることなく話速だけを変換する技術が必
要となる。
2. Description of the Related Art In a recorded voice database for accumulating word voices used in various automatic voice response devices and the like, it is desired that the voice speeds of the respective voice data contained therein be well matched. However, when the database becomes large, it is difficult for even a well-trained speaker to speak so that all speech data have the same speech speed, so only the speech speed is converted without degrading the sound quality of recorded speech data. Technology is required.

【0003】一方、テレビ放送などの録音音声データを
短時間で聞きたい、高齢者向けにゆっくり再生したいと
いう要求から、各種の話速変換方法が考案されている。
それらの中で、比較的簡便で原音の品質劣化、音質変化
の少ない方法として、音声波形区間を適宜挿入・削除し
て再生時間を変化させる方法がある。このような方法
は、大きく以下のように整理できる。
On the other hand, various voice speed conversion methods have been devised in order to listen to recorded voice data such as television broadcast in a short time and to play back slowly for elderly people.
Among them, there is a method of changing the reproduction time by appropriately inserting / deleting a voice waveform section as a method that is relatively simple and does not cause deterioration of the quality of the original sound and a change in the sound quality. Such a method can be roughly summarized as follows.

【0004】1.無音区間、子音区間、母音区間の区別
を行なうか否かによる区別
1. Distinction based on whether or not to distinguish silent sections, consonant sections, and vowel sections

【0005】人間の音声は大きく上記の3つの区間に分
けることができる。一般に人間が速く/遅く話そうとす
ると、無音区間、母音区間、子音区間の順で時間長を調
整している。これに着目し、処理対象の音声をまずこの
3つの区間にわけ、それぞれの区間に応じた時間長の調
整を行なう場合と、これらを区別せず全て同じ方式の時
間長調整を行なう場合がある。
Human voice can be roughly divided into the above three sections. Generally, when a person tries to speak fast / slow, the time length is adjusted in the order of a silent section, a vowel section, and a consonant section. Focusing on this, the speech to be processed is first divided into these three sections, and the time length is adjusted according to each section, or the time length adjustment is performed by the same method without distinguishing between them. .

【0006】2.挿入・削除する波形の長さによる区別2. Distinguishing by inserting / deleting waveform length

【0007】挿入・削除する区間の長さを、常に一定の
長さにする場合と、基本周期の波形(以下、ピッチ区間
波形と呼ぶ)の長さもしくはその整数倍の長さにする場
合がある。
There are cases where the length of the section to be inserted / deleted is always set to a constant length, and where the length of the waveform of the basic period (hereinafter referred to as the pitch section waveform) or an integral multiple thereof. is there.

【0008】3.挿入・削除の方法による区別3. Distinguishing by insert / delete method

【0009】挿入・削除を行なう際に、ある区間の波形
をそのまま挿入・削除する場合と、複数の切り出した波
形に窓関数をかけて、互いに重なるよう足し合わせて区
間長を調整する場合がある。
When performing insertion / deletion, a waveform in a certain section may be inserted / deleted as it is, or a plurality of cut-out waveforms may be multiplied by a window function and added together so that the section lengths are adjusted. .

【0010】[0010]

【発明が解決しようとする課題】従来考案されてきた方
法は、いずれも所望の話速変換率を得ることが第一の目
的であり、始めから音質を最重要視した方法ではない。
また、前記の従来技術においては、各々以下のような問
題点がある。
In all of the methods that have been devised in the past, the first purpose is to obtain a desired speech rate conversion rate, and not the method that places the highest priority on sound quality from the beginning.
Further, each of the above conventional techniques has the following problems.

【0011】1.無音区間、子音区間、母音区間の区別
について
1. Distinguishing between silent sections, consonant sections, and vowel sections

【0012】それぞれの区間に応じて時間長の調整を行
なう方法は、人間の話速調整方法に近く、自然な出力音
声が得られる。しかし従来の技術では、各区間の時間長
の調整を全く異なる方式で行なっている。このため、ま
ず音声波形を各区間にわけ、その後区間に応じた処理を
施すという二重の処理が必要である。
The method of adjusting the time length according to each section is similar to the human speech speed adjusting method, and a natural output voice can be obtained. However, in the conventional technique, the time length of each section is adjusted by a completely different method. For this reason, it is necessary to divide the voice waveform into each section first, and then perform the processing according to the section.

【0013】2,3.挿入・削除する波形の長さおよび
挿入・削除の方法について
2,3. About the length of the waveform to be inserted / deleted and the insertion / deletion method

【0014】人間の音声の基本周期は、女性の場合2.
5〜7msec、男性の場合5〜20msecと非常に
幅がある。これを考慮すると、ピッチ区間波形の長さに
応じて挿入・削除する波形の長さを変えて処理した方が
滑らかな出力音声になると考えられる。
The basic cycle of human voice is 2.
It has a very wide range of 5 to 7 msec and 5 to 20 msec for men. Considering this, it is considered that smoother output speech can be obtained by changing the length of the waveform to be inserted / deleted according to the length of the pitch section waveform.

【0015】しかし、音声波形の基本周期を正確に求め
るのは非常に難しい。そのため、簡便な周期抽出方法で
は接続部分が不連続になることが多く、これを避けるた
めに複数の切り出した波形に窓関数をかけて、互いに重
なるよう足し合わせて区間長を調整する方法がとられる
ことが多い。しかし、この方法は波形全体に渡って乗
算、加算などの演算が行なわれるため、原音の声質が損
なわれる可能性がある。一方、音声波形をフーリエ変換
などによって周波数領域で解析したり、ローパスフィル
タをかけたりして高精度に基本周期を抽出すれば波形を
そのまま挿入・削除しても接続部分の不連続が少なくて
済むが、計算量が多くなるため実時間性に欠け、装置も
大規模になる。
However, it is very difficult to accurately determine the fundamental period of the voice waveform. Therefore, in a simple period extraction method, the connected portion is often discontinuous, and in order to avoid this, a method of applying a window function to a plurality of cut waveforms and adding them so that they overlap each other adjusts the section length. It is often done. However, in this method, since multiplication, addition, etc. are performed over the entire waveform, the voice quality of the original sound may be impaired. On the other hand, if the voice waveform is analyzed in the frequency domain by Fourier transform, etc., or if the low-pass filter is applied to extract the basic period with high accuracy, the discontinuity of the connection part can be reduced even if the waveform is inserted or deleted as it is. However, since the amount of calculation is large, it lacks real-time performance and the device becomes large-scale.

【0016】本発明は、以上のような問題点に鑑みてな
されたものであり、原音の音質を保ったまま簡単な方法
で話速変換を行なおうとするものである。また、与える
パラメータを変えることにより、音質をどのくらい重視
するかを指定することができ、用途に応じた柔軟な話速
変換処理が可能とするものである。
The present invention has been made in view of the above problems, and it is an object of the present invention to perform speech speed conversion by a simple method while maintaining the original sound quality. Also, by changing the parameters to be given, it is possible to specify how much importance is attached to the sound quality, and it is possible to perform flexible speech speed conversion processing according to the application.

【0017】[0017]

【課題を解決するための手段】上記の課題を解決するた
め、請求項1記載の発明は、音声波形の基本周期の波形
(以下、ピッチ区間波形と呼ぶ)を適宜挿入・削除する
ことにより、音声波形の定常的な区間のみを伸長・短縮
して録音音声の話速を変換する話速変換方法において、
パラメータとして波形類似度下限値を設定し、入力音声
波形を先頭から順次短い区間で切りだし(以下、切り出
した波形をフレーム区間波形と呼ぶ)、当該フレーム区
間波形の波形類似度を計算し、前記波形類似度が、前記
パラメータとして与えた波形類似度下限値よりも大きい
場合に当該フレーム区間波形は定常的であるとみなし、
当該フレーム区間波形に対してピッチ区間波形の挿入・
削除を行なうことを特徴としており、前記ピッチ区間波
形を挿入・削除する点を決定する際に、前記フレーム区
間内の各時点について、当該時点を挟んで隣り合う2周
期分のピッチ区間波形の、差の2乗平均値または2乗和
または絶対値の平均値または絶対値の和を計算し、これ
が最小となる点を前記ピッチ区間波形を挿入・削除する
点とすることを特徴としている。
In order to solve the above-mentioned problems, the invention according to claim 1 inserts / deletes a waveform (hereinafter referred to as a pitch section waveform) having a basic period of a voice waveform as appropriate. In the speech speed conversion method that expands or shortens only the stationary section of the voice waveform to convert the speech speed of the recorded voice,
The waveform similarity lower limit value is set as a parameter, the input speech waveform is sequentially cut out from the beginning in short intervals (hereinafter, the cut out waveform is referred to as a frame interval waveform), the waveform similarity of the frame interval waveform is calculated, and When the waveform similarity is larger than the waveform similarity lower limit value given as the parameter, it is considered that the frame section waveform is stationary,
Insert a pitch section waveform to the frame section waveform
It is characterized in that the pitch section wave is deleted.
When determining the point to insert or delete a shape,
For each time point in the interval, two laps adjacent to each other with the time point in between
Squared average value or sum of squared difference of pitch section waveform for period
Or calculate the average of absolute values or the sum of absolute values,
Insert / delete the pitch interval waveform at the point where
It is characterized by making it a point.

【0018】また、請求項2記載の発明は、音声波形の
基本周期の波形(以下、ピッチ区間波形と呼ぶ)を適宜
挿入・削除することにより、音声波形の定常的な区間の
みを伸長・短縮して録音音声の話速を変換する話速変換
装置において、パラメータとして波形類似度下限値を設
定する手段と、入力音声波形を先頭から順次短い区間で
切りだし(以下、切り出した波形をフレーム区間波形と
呼ぶ)、当該フレーム区間波形の波形類似度を計算し、
前記波形類似度が、前記パラメータとして与えた波形類
似度下限値よりも大きい場合に当該フレーム区間波形は
定常的であるとみなし、ピッチ区間波形の挿入・削除を
行なう手段とを備え、前記ピッチ区間波形を挿入・削除
する点を決定する際に、前記フレーム区間内の各時点に
ついて、当該時点を挟んで隣り合う2周期分のピッチ区
間波形の、差の2乗平均値または2乗和または絶対値の
平均値または絶対値の和を計算し、これが最小となる点
を前記ピッチ区間波形を挿入・削除する点とすることを
特徴とする話速変換装置である。
According to the second aspect of the invention, the speech waveform
Waveform of basic period (hereinafter referred to as pitch section waveform)
By inserting / deleting,
Speech speed conversion that expands and shortens only the speed to convert the speech speed of recorded voice
In the equipment, set the waveform similarity lower limit as a parameter.
And the input voice waveform in a short section from the beginning.
Cutout (Hereinafter, the cutout waveform is referred to as the frame section waveform.
Call), calculate the waveform similarity of the frame section waveform,
The waveform similarity is the waveform type given as the parameter.
If it is larger than the lower limit of similarity, the frame section waveform is
Considering that it is stationary, insert / delete the pitch section waveform.
And means for performing insertion / deletion of the pitch section waveform
When deciding which point to
Then, the pitch section for two cycles that are adjacent to each other across the time point.
Of the mean square of the difference, the sum of squares, or the absolute value of the waveform
The point at which the sum of averages or absolute values is calculated and which is the minimum
Be the point to insert / delete the pitch section waveform
It is a characteristic speech speed conversion device.

【0019】また、請求項3記載の発明は、請求項1に
記載の話速変換方法を、計算機を用いて実行するための
話速変換プログラムを格納した計算機読み取り可能な記
録媒体である。
The invention according to claim 3 is the same as that of claim 1.
To execute the described speech speed conversion method using a computer
A computer-readable note that stores the speech speed conversion program.
It is a recording medium.

【0020】本発明による話速変換方法は、母音区間の
区間長のみを、ピッチ区間波形を挿入・削除することに
より伸縮させて全体の長さを調節する。
The speech rate conversion method according to the present invention is applied to the vowel section.
Inserting / deleting the pitch interval waveform only for the interval length
Adjust the overall length by stretching more.

【0021】しかし従来技術のように始めに母音区間を
抽出する処理が必要なわけではなく、母音区間は波形が
定常的であることを利用して、処理するフレーム区間の
自己相関係数を計算して当該フレーム区間が母音区間か
どうかを判定し、同時に基本周期を得ている。
However, as in the prior art, first the vowel section
The extraction process is not necessary, and the waveform is
By using the fact that it is stationary,
Calculate the autocorrelation coefficient to determine if the frame section is a vowel section.
It is determined whether or not the basic cycle is obtained at the same time.

【0022】波形が定常的な部分しか処理を行なわない
ため、基本周期の抽出の誤りが少なく、接続部分が不連
続になることが少ない。したがって窓関数をかけるなど
の処理を行なわなくても、雑音が混入する可能性が低
い。
Since only the stationary portion of the waveform is processed, there are few errors in the extraction of the basic period, and the connected portion is less likely to be discontinuous. Therefore, noise is unlikely to be mixed in without performing processing such as applying a window function.

【0023】[0023]

【発明の実施の形態】図1は本発明による話速変換装置
の実施の形態の一例を示すブロック図である。本発明に
よる話速変換装置1は音声波形入力部2と閾値入力部3
と話速変換率入力部4とフレーム切りだし部5と自己相
関係数計算部6と処理判断部7と波形挿入/削除部8と
音声波形出力部9から成る。
1 is a block diagram showing an example of an embodiment of a speech speed conversion apparatus according to the present invention. The speech speed converter 1 according to the present invention comprises a voice waveform input unit 2 and a threshold value input unit 3.
It comprises a speech rate conversion rate input unit 4, a frame cutout unit 5, an autocorrelation coefficient calculation unit 6, a processing judgment unit 7, a waveform insertion / deletion unit 8 and a voice waveform output unit 9.

【0024】音声入力部2は話速変換したい音声を取得
する。閾値入力部3は波形の類似度を表す自己相関係数
の下限を取得し、処理判断部7に送る。話速変換率入力
部4はどのくらい話速を速く/遅くするかを表す話速変
換率を取得し、波形挿入/削除部8に送る。
The voice input unit 2 acquires a voice whose voice speed is desired to be converted. The threshold value input unit 3 acquires the lower limit of the autocorrelation coefficient indicating the similarity of the waveform, and sends it to the processing determination unit 7. The speech rate conversion rate input unit 4 acquires a speech rate conversion rate representing how much the speech rate is to be increased / decreased, and sends it to the waveform insertion / deletion unit 8.

【0025】フレーム切りだし部5は波形挿入/削除部
8から送られるフレーム開始点に応じて、音声入力部2
において取得された音声波形の一部分(以下フレーム区
間波形と呼ぶ)を切り出す。切り出すフレーム区間波形
が処理対象だった場合は自己相関係数計算部6と波形挿
入/削除部8に送り、処理対象でなかった場合は音声波
形処出力部9へ送る。
The frame cut-out unit 5 is responsive to the frame start point sent from the waveform insertion / deletion unit 8 to the voice input unit 2
A part (hereinafter referred to as a frame section waveform) of the speech waveform obtained in step S1 is cut out. If the frame segment waveform to be cut out is the processing target, it is sent to the autocorrelation coefficient calculation unit 6 and the waveform insertion / deletion unit 8, and if it is not the processing target, it is sent to the speech waveform processing output unit 9.

【0026】自己相関係数計算部6はフレーム切りだし
部5から送られたフレーム区間波形の自己相関係数を計
算して自己相関係数の極大値を処理判断部7に、極大値
を与えるフレーム区間波形のずれを基本周期の長さとし
て波形挿入/削除部8に送る。処理判断部7は自己相関
係数計算部6から送られた自己相関係数の極大値と閾値
入力部3から送られた相関係数の下限を比較して波形の
挿入/削除を行なうかどうかを決定し、その判断結果を
波形挿入/削除部8へ送る。
The autocorrelation coefficient calculation unit 6 calculates the autocorrelation coefficient of the frame section waveform sent from the frame cutout unit 5 and gives the maximum value of the autocorrelation coefficient to the processing judgment unit 7. The shift of the frame section waveform is sent to the waveform insertion / deletion unit 8 as the length of the basic cycle. Whether the processing determination unit 7 compares the maximum value of the autocorrelation coefficient sent from the autocorrelation coefficient calculation unit 6 with the lower limit of the correlation coefficient sent from the threshold value input unit 3 to insert / delete the waveform. Is determined and the result of the determination is sent to the waveform insertion / deletion unit 8.

【0027】波形挿入/削除部8は処理判断部7から送
られた挿入/削除を行なうか否かの判断結果を受けと
り、必要に応じてフレーム切りだし部5から送られたフ
レーム区間波形に対して基本周期の波形(以下、ピッチ
区間波形と呼ぶ)の挿入/削除を行ない、音声波形出力
部9に送る。波形挿入/削除部8は、また、話速変換率
入力部4から送られた話速変換率と自己相関係数計算部
6から送られた基本周期の長さを用いて次のフレームの
開始を決定し、フレーム切りだし部5に送る。
The waveform insertion / deletion unit 8 receives the determination result sent from the processing determination unit 7 as to whether or not to perform the insertion / deletion, and if necessary, with respect to the frame section waveform sent from the frame cutout unit 5. Then, the waveform of the basic cycle (hereinafter referred to as the pitch section waveform) is inserted / deleted and sent to the voice waveform output unit 9. The waveform insertion / deletion unit 8 also uses the speech rate conversion rate sent from the speech rate conversion rate input unit 4 and the basic period length sent from the autocorrelation coefficient calculation unit 6 to start the next frame. Is determined and sent to the frame cutout unit 5.

【0028】音声波形出力部9はフレーム切りだし部5
または波形挿入/削除部8から送られたフレーム区間波
形を順次、または入力された音声の処理が全て終了する
まで蓄積したのち、出力する。
The voice waveform output section 9 is a frame cutting section 5
Alternatively, the frame section waveforms sent from the waveform inserting / deleting unit 8 are sequentially stored or accumulated until the processing of the input voice is completed, and then output.

【0029】図2は、図1に示す本発明による話速変換
装置1の動作を説明する流れ図である。以下、図1のブ
ロック図と図2の流れ図に従って具体的に音声の話速を
α倍にする場合の、この話速変換装置の動作例を説明す
る。
FIG. 2 is a flow chart for explaining the operation of the speech speed conversion apparatus 1 according to the present invention shown in FIG. Hereinafter, an operation example of the speech speed conversion device when the speech speed of voice is specifically multiplied by α will be described with reference to the block diagram of FIG. 1 and the flowchart of FIG.

【0030】音声入力部2は話速変換したい音声を取得
し、必要に応じてディジタル信号x(n);n=0,
1,2,…に直す(ステップS1)。ここでnは時刻に
相当するインデックスである。閾値入力部3は波形の類
似度を表す自己相関係数の下限値βを取得し、処理判断
部7に送る(ステップS2)。
The voice input unit 2 acquires a voice whose voice speed is desired to be converted, and if necessary, a digital signal x (n); n = 0,
1, 2, ... (Step S1). Here, n is an index corresponding to time. The threshold value input unit 3 acquires the lower limit value β of the autocorrelation coefficient representing the degree of similarity of the waveform and sends it to the processing determination unit 7 (step S2).

【0031】雑音の混入など音質の劣化を防ぐため、波
形の挿入/削除は波形が定常的な部分で行なうことが望
ましいが、一般に波形が定常的な場合は自己相関係数が
1に近くなる。閾値入力部3で取得する自己相関係数の
下限値βは、処理したい波形がどのくらい定常的なら基
本周期の波形(以下、ピッチ区間波形と呼ぶ)の挿入/
削除を行なうかを指定するものである。βを小さくする
と波形が定常的でない部分でも挿入/削除を行なうた
め、雑音が混入しやすくなるが、目標とする話速に近い
出力が得られる。逆にβを1に近くすると雑音混入のリ
スクを抑えることができる。話速変換の目的に応じて自
己相関係数下限値βの値を設定することにより、「品質
を落さない範囲で話速を変える」といった柔軟な処理が
可能となる。例えばここではβ=0.7に設定されるも
のとする。
In order to prevent the deterioration of the sound quality such as the inclusion of noise, it is desirable that the insertion / deletion of the waveform is performed in the stationary portion of the waveform. Generally, when the waveform is stationary, the autocorrelation coefficient is close to 1. . The lower limit value β of the autocorrelation coefficient acquired by the threshold value input unit 3 is the insertion / insertion of the waveform of the basic cycle (hereinafter referred to as the pitch section waveform) when the waveform to be processed is stationary.
This is to specify whether to delete. If β is made small, insertion / deletion is performed even in a portion where the waveform is not stationary, so noise is likely to be mixed, but an output close to the target speech speed can be obtained. On the contrary, when β is close to 1, the risk of noise mixing can be suppressed. By setting the value of the lower limit value β of the autocorrelation coefficient according to the purpose of the voice speed conversion, it is possible to perform flexible processing such as "changing the voice speed within a range that does not deteriorate the quality". For example, β is set to 0.7 here.

【0032】話速変換率入力部4はどのくらい話速を速
く/遅くするかを表す話速変換率αを取得し、波形挿入
/削除部8に送る(ステップS3)。例えばここでは話
速を1.2倍に速くする場合を考え、話速変換率α=
1.2とする。
The voice speed conversion rate input unit 4 acquires a voice speed conversion rate α indicating how fast or slow the voice speed is, and sends it to the waveform inserting / deleting unit 8 (step S3). For example, here, considering the case of increasing the speech speed to 1.2 times, the speech speed conversion rate α =
Set to 1.2.

【0033】フレーム切りだし部5は波形挿入/削除部
8から送られるフレーム開始点nbiに応じて、音声入力
部2において取得された音声波形の一部分(以下フレー
ム区間波形と呼ぶ)を切り出す。本話速変換装置は音声
波形を先頭から順次フレーム区間ごとに処理する。送ら
れたフレーム開始点nbiが、前回切り出したフレーム区
間波形の終了点ne(i-1)より大きい場合は、まず
The frame cutout unit 5 cuts out a part of the voice waveform (hereinafter referred to as a frame section waveform) acquired by the voice input unit 2 according to the frame start point n bi sent from the waveform insertion / deletion unit 8. The speech speed conversion apparatus sequentially processes the speech waveform from the beginning for each frame section. If the sent frame start point n bi is larger than the end point n e (i-1) of the frame segment waveform cut out last time, first

【0034】[0034]

【数1】 [Equation 1]

【0035】を切りだして直接音声波形出力部9へ送り
(ステップS6)、次にnbiを先頭として一定の長さM
サンプルの波形
Is cut out and sent directly to the speech waveform output unit 9 (step S6), and then a fixed length M starting from n bi
Sample waveform

【0036】[0036]

【数2】 [Equation 2]

【0037】を切りだして自己相関係数計算部6と波形
挿入/削除部8に送る(ステップS7)。なお、ディジ
タル信号x(n)のインデックスnにおいて、nbiはi
番目のフレームの開始点、nb(i-1)は(i−1)番目の
フレームの開始点、neiはi番目のフレームの終了点、
e(i-1)は(i−1)番目のフレームの終了点を表して
いる。
The signal is cut out and sent to the autocorrelation coefficient calculation unit 6 and the waveform insertion / deletion unit 8 (step S7). Note that n bi is i at the index n of the digital signal x (n).
N b (i-1) is the start point of the (i−1) th frame, n ei is the end point of the i th frame,
ne (i-1) represents the end point of the (i-1) th frame.

【0038】送られたフレーム開始点nbiが、前回切り
出したフレーム区間波形の終了点n e(i-1)以下の場合
は、すぐにnbiを先頭としたMサンプルの波形x
(nbi)〜x(nei)を切りだして自己相関係数計算部
6と波形挿入/削除部8に送る(ステップS7)。
Frame start point n sentbiBut last time
End point n of the generated frame section waveform e (i-1)If
Immediately nbiWaveform of M samples starting with x
(Nbi) ~ X (nei) Is cut out to calculate the autocorrelation coefficient
6 and the waveform insertion / deletion unit 8 (step S7).

【0039】図3にMサンプルの長さのフレーム区間波
形の一例を示す。この例は、サンプリング周波数が16
kHzの音声データの一部を切り出したものであり、M
=240、この場合は15msecである。
FIG. 3 shows an example of a frame section waveform having a length of M samples. In this example, the sampling frequency is 16
This is a cut-out of a part of the audio data of kHz, and M
= 240, in this case 15 msec.

【0040】自己相関係数計算部6はフレーム切りだし
部5から送られたフレーム区間波形x(nbi)〜x(n
ei)の自己相関係数y(m)を計算する(ステップS
8)。y(m)は、ここではフレーム区間波形のみの計
算とし、
The autocorrelation coefficient calculation unit 6 receives the frame section waveforms x (n bi ) to x (n) sent from the frame cutout unit 5.
ei ) autocorrelation coefficient y (m) is calculated (step S
8). y (m) is the calculation of only the frame section waveform here,

【0041】[0041]

【数3】 と定義する。[Equation 3] It is defined as

【0042】図4(a)に自己相関係数の計算イメー
ジ、図4(b)に図3のフレーム区間波形の自己相関係
数y(m)を示す。自己相関係数は、ある波形と、その
波形をmずらした波形がどのくらい似ているかを示すも
のである。フレーム区間波形が周期的な場合には基本周
期Tの整数倍ずれた時に二つの波形が似ており、y
(m)が大きい値になる。逆に波形があまり周期的でな
い場合は、波形をずらすと似た部分がないので、y
(m)の値が小さい。波形が周期的でない例として、図
5、図6に別のフレーム区間波形とその自己相関係数を
示す。
FIG. 4A shows an image of calculating the autocorrelation coefficient, and FIG. 4B shows the autocorrelation coefficient y (m) of the frame section waveform of FIG. The autocorrelation coefficient indicates how similar a certain waveform is to a waveform obtained by shifting the waveform by m. When the frame section waveform is periodic, the two waveforms are similar when they are shifted by an integer multiple of the basic period T, and y
(M) has a large value. On the contrary, if the waveform is not very periodic, there is no similar part when the waveform is shifted, so y
The value of (m) is small. As an example in which the waveform is not periodic, FIGS. 5 and 6 show another frame section waveform and its autocorrelation coefficient.

【0043】自己相関係数計算部はy(m)を計算した
のち、フレーム区間内の極大値y(T)を探索し、自己
相関係数の極大値y(T)を処理判断部7に、極大値を
与えるフレーム区間波形のずれ、すなわち基本周期の長
さTを波形挿入/削除部8に送る(ステップS9)。図
3の例ではy(T)=0.75、T=55、図5の例で
はy(T)=0.56、T=53である。
After calculating y (m), the autocorrelation coefficient calculation unit searches for the maximum value y (T) within the frame section, and the maximum value y (T) of the autocorrelation coefficient is sent to the processing determination unit 7. , The shift of the frame section waveform giving the maximum value, that is, the length T of the basic period is sent to the waveform inserting / deleting unit 8 (step S9). In the example of FIG. 3, y (T) = 0.75 and T = 55, and in the example of FIG. 5, y (T) = 0.56 and T = 53.

【0044】処理判断部7は自己相関係数計算部6から
送られた自己相関係数の極大値y(T)と閾値入力部3
から送られた自己相関係数の下限値βを比較する(ステ
ップS10)。y(T)の値が大きければ波形が定常的
なので、波形処理を行なっても雑音が混入しにくい。図
3の例ではy(T)=0.75>0.7=βなので、ピ
ッチ区間波形の挿入/削除を行なうと決定する。図5の
例ではy(T)=0.56<0.7=βなので、ピッチ
区間波形の挿入/削除を行なわないと決定する。例えば
判断結果を示す信号を、挿入/削除を行なう場合1、行
なわない場合0として、波形挿入/削除部8へ送る。
The processing determination section 7 is a threshold value input section 3 and the maximum value y (T) of the autocorrelation coefficient sent from the autocorrelation coefficient calculation section 6.
The lower limit value β of the autocorrelation coefficient sent from is compared (step S10). If the value of y (T) is large, the waveform is stationary, so that noise is unlikely to be mixed even if waveform processing is performed. In the example of FIG. 3, since y (T) = 0.75> 0.7 = β, it is determined to insert / delete the pitch section waveform. In the example of FIG. 5, since y (T) = 0.56 <0.7 = β, it is determined not to insert / delete the pitch section waveform. For example, a signal indicating the determination result is sent to the waveform insertion / deletion unit 8 as 1 when the insertion / deletion is performed and 0 when the insertion / deletion is not performed.

【0045】波形挿入/削除部8はまず処理判断部7か
ら送られた挿入/削除を行なうか否かの判断信号を受け
とり、それによって異なる動作をする。挿入/削除を行
なわない場合は、次のフレーム開始点nb(i+1)をこのフ
レームの次の点すなわちnei+1と決定してフレーム切
りだし部5に送り(ステップS11)、フレーム区間波
形に何も処理を施さずに音声波形出力部9に送る(ステ
ップS23)。挿入/削除を行なう場合は、まず自己相
関係数計算部6から送られた基本周期の長さTを用いて
フレーム区間内でピッチ区間波形の挿入/削除を行なう
点Pを探索する(ステップS12)。点Pは、フレーム
区間内で最も似ている2周期の間の点とする。例えばm
=nbi+T〜nei−Tに渡って
The waveform insertion / deletion unit 8 first receives the determination signal sent from the processing determination unit 7 as to whether or not to perform the insertion / deletion, and operates differently. When the insertion / deletion is not performed, the next frame start point n b (i + 1) is determined as the next point of this frame, that is, n ei +1 and sent to the frame cutout unit 5 (step S11), and the frame section The waveform is sent to the audio waveform output unit 9 without any processing (step S23). In the case of inserting / deleting, first, using the length T of the basic period sent from the autocorrelation coefficient calculation unit 6, a point P where the pitch section waveform is inserted / deleted in the frame section is searched (step S12). ). The point P is a point between the two most similar periods in the frame section. For example, m
= N bi + T to n ei -T

【0046】[0046]

【数4】 [Equation 4]

【0047】を計算し、z(m)が最小になるようなm
をPとする。z(m)の計算は、上記のような定義、す
なわち当該時点を挟んで隣り合う2周期分のピッチ区間
波形の差の2乗和の計算以外、|x(n)−x(n+
T)|の平均値、2乗平均値または絶対値の和の計算な
どでも良い。図7に図3に示したフレーム区間波形にお
いてPを探索する様子を示す。
And m such that z (m) is minimized
Be P. The calculation of z (m) is not the above definition, that is, the calculation of the sum of squares of the difference between the pitch section waveforms for two cycles that are adjacent to each other with the time point sandwiched, | x (n) −x (n +
It is also possible to calculate the average value, the root mean square value or the sum of absolute values of T) |. FIG. 7 shows how P is searched in the frame section waveform shown in FIG.

【0048】次に話速変換率入力部4から送られた話速
変換率αが1より大きいか、小さいかによって、ピッチ
区間波形を挿入するのか削除するのか判断する(ステッ
プS13)。α>1の場合は話速を速くするので、x
(P+1)〜x(P+T)をフレーム区間波形から削除
する(ステップS14)。α<1の場合は話速を遅くす
るので、x(P+1)〜x(P+T)を一度バッファに
保存して、それをフレーム区間波形のx(P)とx(P
+1)の間に挿入する(ステップS15)。
Next, it is determined whether the pitch section waveform is to be inserted or deleted depending on whether the speech rate conversion rate α sent from the speech rate conversion rate input unit 4 is larger or smaller than 1 (step S13). If α> 1, the speech speed is increased, so x
(P + 1) to x (P + T) are deleted from the frame section waveform (step S14). When α <1, the speech speed is slowed down. Therefore, x (P + 1) to x (P + T) are once stored in the buffer, and they are stored in the frame section waveforms x (P) and x (P).
It is inserted between (+1) (step S15).

【0049】次に、αとTからフレーム移動量M’を計
算する(ステップS16)。(M’±T)/M’=1/
αから、
Next, the frame movement amount M'is calculated from α and T (step S16). (M '± T) / M' = 1 /
From α,

【0050】[0050]

【数5】 [Equation 5]

【0051】を計算すれば良い。次のフレーム開始点n
b(i+1)は基本的にはnbi+M’+1になる(ステップS
18)。ただし、次のフレーム開始点が波形の挿入/削
除を行なった点より以前にある場合、すなわちnbi
M’<P+Tの場合は、P+T+1を次のフレーム開始
点nb(i+1)とする(ステップS17,S19)。このよ
うに決定したnb(i+1)をフレーム切りだし部5に送る。
It is sufficient to calculate Next frame start point n
b (i + 1) is basically n bi + M '+ 1 (step S
18). However, when the next frame start point is before the point where the waveform is inserted / deleted, that is, n bi +
If M '<P + T, P + T + 1 is set as the next frame start point nb (i + 1) (steps S17 and S19). The n b (i + 1) thus determined is sent to the frame cutout unit 5.

【0052】次に、処理したフレーム区間波形のうち、
フレーム開始点nbiから次のフレーム開始点nb(i+1)
1までの波形を処理したフレーム区間波形を音声波形出
力部9に送る(ステップS21,S22)。ただし、次
のフレーム開始点がフレーム区間の外にある場合、すな
わちnb(i+1)−1>neiの場合はフレーム区間x
(n bi)〜x(nei)を出力する(ステップS20,S
23)。この場合、残りのx(nei+1)〜x(n
b(i+1))は次のフレーム区間を切り出す前に、そのまま
出力される(S6)。
Next, of the processed frame section waveforms,
Frame start point nbiTo the next frame start point nb (i + 1)
Outputs the frame section waveform that processed the waveforms up to 1 as a voice waveform
It is sent to the force unit 9 (steps S21 and S22). However, next
If the frame start point of is outside the frame section,
Side nb (i + 1)-1> neiFrame interval x
(N bi) ~ X (nei) Is output (steps S20, S
23). In this case, the remaining x (nei+1) to x (n
b (i + 1)) Is as it is before cutting out the next frame section
It is output (S6).

【0053】フレームの進め方と出力範囲の例を図8〜
図10に示す。例えばT=55,M=240のフレーム
区間において、α=1.2の場合(図8)、
Examples of how to proceed the frame and output range are shown in FIG.
As shown in FIG. For example, in the frame section of T = 55 and M = 240, when α = 1.2 (FIG. 8),

【0054】[0054]

【数6】 [Equation 6]

【0055】であり、P+T<nei<nbi+M’なの
で、次のフレーム開始点nb(i+1)としてnbi+331を
フレーム切りだし部5に送り、x(nbi)〜x(nei
の途中1周期55サンプルを削除した波形を音声波形出
力部9に送る(ステップS17→S18→S20→S2
3)。
Since P + T <n ei <n bi + M ', n bi +331 is sent to the frame cutout unit 5 as the next frame start point n b (i + 1) , and x (n bi ) to x ( n ei )
The waveform from which 55 samples are deleted during one cycle is sent to the voice waveform output unit 9 (steps S17 → S18 → S20 → S2).
3).

【0056】α=1.35の場合(図9)、When α = 1.35 (FIG. 9),

【0057】[0057]

【数7】 [Equation 7]

【0058】であり、P+T<nbi+M’<neiなの
で、次のフレーム開始点nb(i+1)としてnbi+213を
フレーム切りだし部5に送り、x(nbi)〜x(nbi
M’)の途中1周期55サンプルを削除した波形を音声
波形出力部9に送る(ステップS17→S18→S20
→S21)。
Since P + T <n bi + M '<n ei , n bi +213 is sent to the frame cutout unit 5 as the next frame start point n b (i + 1) , and x (n bi ) to x ( n bi +
The waveform obtained by deleting 55 samples for one cycle in the middle of M ′) is sent to the speech waveform output unit 9 (steps S17 → S18 → S20).
→ S21).

【0059】α=1.5の場合(図10)、When α = 1.5 (FIG. 10),

【0060】[0060]

【数8】 [Equation 8]

【0061】であり、nbi+M’<P+T<neiなの
で、次のフレーム開始点nb(i+1)としてP+55+1を
フレーム切りだし部5に送り、x(nbi)〜x(P+
T)のうち処理された部分、この場合はx(P+1)〜
x(P+T)を削除しているのでx(nbi)〜x(P)
を音声波形出力部9に送る(ステップS17→S19→
S22)。
Since n bi + M '<P + T <n ei , P + 55 + 1 is sent to the frame cutout unit 5 as the next frame start point n b (i + 1) , and x (n bi ) to x (P +
The processed part of T), in this case x (P + 1)-
Since x (P + T) is deleted, x (n bi ) to x (P)
To the voice waveform output unit 9 (steps S17 → S19 →
S22).

【0062】この例では波形の挿入/削除を行なう点P
を探索する際、フレーム区間全体に対して探索を行なっ
たが、この探索の範囲をT一周期分にすれば結果的に次
のフレーム開始点nb(i+1)がP+Tの手前になる可能性
が低くなり、所望の話速変換率に近い変換率が得られ
る。音声波形出力部9はフレーム切りだし部5または波
形挿入/削除部8から送られたフレーム区間波形を順次
出力する。入力音声を全て出力したかどうかを判断し
(ステップS24)、まだ出力が終了していない場合は
ステップS4に戻り、次のフレーム処理を開始する。
In this example, a point P at which a waveform is inserted / deleted
When searching for, the entire frame section was searched, but if the range of this search is set to one cycle of T, then the next frame start point n b (i + 1) will be before P + T. The possibility is reduced, and a conversion rate close to the desired speech rate conversion rate is obtained. The voice waveform output unit 9 sequentially outputs the frame section waveforms sent from the frame cutting unit 5 or the waveform inserting / deleting unit 8. It is determined whether all the input voices have been output (step S24). If the output has not been completed, the process returns to step S4 to start the next frame processing.

【0063】音声波形出力部9が送られたフレーム区間
波形を順次出力する場合は、入力音声をフレーム区間ご
とに次々に処理していくので、入力に対してリアルタイ
ムに出力していくことが可能であり、例えばVTR(ビ
デオテープレコーダ)の再生速度変更時の音声出力など
に適用可能である。音声データベース中の各音声データ
の話速変換など、実時間性が要求されない用途では、音
声波形出力部9は入力された音声の処理が全て終了する
までフレーム区間波形を蓄積したのち、必要に応じて接
続部分に平滑化処理を施して出力しても良い。
When the voice waveform output section 9 sequentially outputs the transmitted frame section waveforms, the input voice is processed one after another for each frame section, so that it is possible to output in real time to the input. The present invention can be applied to, for example, audio output when changing the playback speed of a VTR (video tape recorder). In applications where real-time processing is not required, such as conversion of the voice speed of each voice data in the voice database, the voice waveform output unit 9 accumulates the frame section waveform until all the processing of the input voice is completed, and then, if necessary. The connection portion may be smoothed and output.

【0064】上述のように、本発明による話速変換装置
は話速変換率αと自己相関係数の下限値βの二つのパラ
メータを取得し、βで指示したレベルの音質でできるだ
け話速をα倍に近付けようとする。これらの与え方によ
り適用領域に応じた柔軟な処理が可能になる。例えばβ
を0.8などの1に近い値に設定しておけば、音質を保
ったまま話速変換できる範囲で処理を行なうので、録音
音声データベースの話速均一化など、高音質が要求され
るような用途に向く。
As described above, the speech speed conversion apparatus according to the present invention acquires two parameters, that is, the speech speed conversion rate α and the lower limit value β of the autocorrelation coefficient, and sets the speech speed as high as possible with the sound quality indicated by β. I try to get closer to α times. By these methods of giving, it becomes possible to perform flexible processing according to the application area. For example β
If the value is set to a value close to 1 such as 0.8, the processing will be performed within the range in which the voice speed can be converted while maintaining the voice quality, so that the high voice quality such as the voice speed uniformity of the recorded voice database is required. Suitable for various uses.

【0065】また、αを与えず、話速を速くするか遅く
するかだけを指示し、ステップS16,S17,S1
8,S20において決定される次のフレーム開始点n
b(i+1)を常にP+1とするようにすれば、βで指示した
レベルの音質でできるだけ速く/遅くする、という処理
が可能である。
Further, without giving α, it is instructed only to increase or decrease the speech speed, and steps S16, S17 and S1 are performed.
8, the next frame start point n determined in S20
If b (i + 1) is always set to P + 1, it is possible to perform processing of making the sound quality at the level designated by β as fast / slow as possible.

【0066】また、録音内容がわかれば良いといった、
音質がそれほど重要でない用途では、βとして0.1な
ど極端に小さい値を与えれば、少しでも周期的なフレー
ム区間波形であれば挿入/削除処理を行なうため、与え
たαに近い出力が得られる。
Moreover, it is only necessary to understand the recorded contents,
In applications where sound quality is not so important, if an extremely small value such as 0.1 is given, insertion / deletion processing will be performed if the waveform is a periodic frame section, and an output close to the given α can be obtained. .

【0067】なお、本発明の実施の形態は、図1および
図2に示した構成に限定されるものではなく、例えば、
話速変換率αと自己相関係数の下限値βの一方または両
方を、あらかじめ設定しておくようにしたり、あるい
は、あらかじめ設定した値から選択して設定するように
する等の変更が可能である。また、本発明の話速変換装
置は、組合せ論理回路等を用いたハードウェアのみによ
って実現することも可能であるとともに、コンピュータ
とそれによって実行されるソフトウェアを用いて実現す
ることも可能である。また、このソフトウェアは、コン
ピュータ読み取り可能な記録媒体、あるいは通信回線を
介して配布することが可能である。
The embodiment of the present invention is not limited to the configuration shown in FIG. 1 and FIG.
One or both of the speech rate conversion rate α and the lower limit value β of the autocorrelation coefficient can be set in advance, or can be changed by selecting from preset values. is there. Further, the speech speed conversion device of the present invention can be realized not only by hardware using a combinational logic circuit or the like, but also by using a computer and software executed thereby. Further, this software can be distributed via a computer-readable recording medium or a communication line.

【0068】[0068]

【発明の効果】以上の説明から明らかなように、本発明
による話速変換方法によれば、原音の音質を保ったまま
話速変換を行なうことが可能である。簡単な方法である
にも関わらず、雑音の混入も少ない。また、自己相関係
数の下限値βの与え方によって音質をどのくらい重視す
るかを指定することができ、用途に応じた柔軟な話速変
換処理が可能である。
As is apparent from the above description, according to the voice speed conversion method of the present invention, the voice speed conversion can be performed while maintaining the sound quality of the original sound. Despite the simple method, there is little noise mixing. Further, how much importance is attached to the sound quality can be designated by giving the lower limit value β of the autocorrelation coefficient, and the flexible speech speed conversion processing according to the application can be performed.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明による話速変換装置の実施の形態の一
例を示すブロック図。
FIG. 1 is a block diagram showing an example of an embodiment of a speech speed conversion apparatus according to the present invention.

【図2】 本発明による話速変換装置の動作を説明する
流れ図。
FIG. 2 is a flowchart illustrating the operation of the speech speed conversion device according to the present invention.

【図3】 フレーム区間波形の一例を示す図。FIG. 3 is a diagram showing an example of a frame section waveform.

【図4】 図3に示すフレーム区間波形に対する自己相
関係数(b)の計算方法の一例(a)を説明するための
図。
FIG. 4 is a diagram for explaining an example (a) of a method of calculating an autocorrelation coefficient (b) for the frame section waveform shown in FIG.

【図5】 フレーム区間波形の別の一例を示す図。FIG. 5 is a diagram showing another example of a frame section waveform.

【図6】 図5に示したフレーム区間波形の自己相関係
数を示す図。
6 is a diagram showing an autocorrelation coefficient of the frame section waveform shown in FIG.

【図7】 図3に示したフレーム区間波形において波形
の挿入/削除を行なう点Pを決定する方法を説明する
図。
7 is a diagram illustrating a method of determining a point P at which a waveform is inserted / deleted in the frame section waveform shown in FIG.

【図8】 出力する波形の範囲と次フレーム開始点の一
例を示す図(α=1.2の場合)。
FIG. 8 is a diagram showing an example of a range of a waveform to be output and a start point of a next frame (when α = 1.2).

【図9】 出力する波形の範囲と次フレーム開始点の一
例を示す図(α=1.35の場合)。
FIG. 9 is a diagram showing an example of a waveform range to be output and a start point of a next frame (when α = 1.35).

【図10】 出力する波形の範囲と次フレーム開始点の
一例を示す図(α=1.5の場合)。
FIG. 10 is a diagram showing an example of a range of a waveform to be output and a start point of a next frame (when α = 1.5).

【符号の説明】[Explanation of symbols]

1 話速変換装置 2 音声波形入力部 3 閾値入力部 4 話速変換率入力部 5 フレーム切りだし部 6 自己相関係数計算部 7 処理判断部 8 波形挿入/削除部 9 音声波形出力部 1 Speech rate converter 2 Voice waveform input section 3 Threshold input section 4 Speech rate conversion rate input section 5 frame cutout 6 Autocorrelation coefficient calculator 7 Processing judgment section 8 Waveform insertion / deletion section 9 Voice waveform output section

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−292789(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) Reference JP-A-8-292789 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G10L 21/04

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声波形の基本周期の波形(以下、ピッ
チ区間波形と呼ぶ)を適宜挿入・削除することにより、
音声波形の定常的な区間のみを伸長・短縮して録音音声
の話速を変換する話速変換方法において、 パラメータとして波形類似度下限値を設定し、 入力音声波形を先頭から順次短い区間で切りだし(以
下、切り出した波形をフレーム区間波形と呼ぶ)、当該
フレーム区間波形の波形類似度を計算し、前記波形類似
度が、前記パラメータとして与えた波形類似度下限値よ
りも大きい場合に当該フレーム区間波形は定常的である
とみなし、かつ入力される話速変換率が1より小さいか
大きいかにより当該フレーム区間波形に対してピッチ区
間波形の挿入・削除を行なうことを特徴とし、前記ピッ
チ区間波形を挿入・削除する点を決定する際に、前記フ
レーム区間内の各時点について、当該時点を挟んで隣り
合う2周期分のピッチ区間波形の、差の2乗平均値また
は2乗和または絶対値の平均値または絶対値の和を計算
し、これが最小となる点を前記ピッチ区間波形を挿入・
削除する点とすることを特徴とする話速変換方法。
1. By appropriately inserting and deleting a waveform of a fundamental period of a speech waveform (hereinafter referred to as a pitch section waveform),
In the speech rate conversion method that expands and shortens only the stationary section of the speech waveform to convert the speech rate of the recorded speech, set the waveform similarity lower limit value as a parameter, and cut the input speech waveform sequentially from the beginning into shorter sections. However, (hereinafter, the cut-out waveform is referred to as a frame section waveform), the waveform similarity of the frame section waveform is calculated, and when the waveform similarity is higher than the waveform similarity lower limit value given as the parameter, the frame regarded as the interval waveform is constant, and depending on whether speech rate conversion rate to be input is less than or greater 1 characterized by performing the insertion and deletion of pitch period waveform with respect to the frame sections waveform, the pitch
When determining the point at which the
Each time point in the ram section is adjacent to the other time point.
The mean square value of the difference between the pitch period waveforms for two cycles
Is the sum of squares or the average of absolute values or the sum of absolute values
Insert the pitch section waveform at the point where this is the minimum.
A speech speed conversion method characterized in that points are deleted .
【請求項2】 音声波形の基本周期の波形(以下、ピッ
チ区間波形と呼ぶ)を適宜挿入・削除することにより、
音声波形の定常的な区間のみを伸長・短縮して録音音声
の話速を変換する話速変換装置において、 パラメータとして波形類似度下限値を設定する手段と、 入力音声波形を先頭から順次短い区間で切りだし(以
下、切り出した波形をフレーム区間波形と呼ぶ)、当該
フレーム区間波形の波形類似度を計算し、前記波形類似
度が、前記パラメータとして与えた波形類似度下限値よ
りも大きい場合に当該フレーム区間波形は定常的である
とみなし、かつ入力される話速変換率が1より小さいか
大きいかによりピッチ区間波形の挿入・削除を行なう手
段とを備えることを特徴とし、前記ピッチ区間波形を挿
入・削除する点を決定する際に、前記フレーム区間内の
各時点について、当該時点を挟んで隣り合う2周期分の
ピッチ区間波形の、差の2乗平均値または2乗和または
絶対値の平均値または絶対値の和を計算し、これが最小
となる点を前記ピッチ区間波形を挿入・削除する点とす
ることを特徴とする話速変換装置。
2. A waveform of a fundamental period of a voice waveform (hereinafter referred to as "pit
(Called H section waveform)
Recorded sound by expanding and shortening only the stationary section of the sound waveform
In the speech speed conversion device for converting the speech speed of, the means for setting the waveform similarity lower limit value as a parameter and the input speech waveform are sequentially cut out in short sections from the beginning ( below.
The waveform cut out below is called the frame section waveform),
Calculate the waveform similarity of the frame section waveform and
Is the lower limit of the waveform similarity given as the parameter.
The frame section waveform is stationary when it is larger than
And the input speech rate conversion rate is less than 1
A method to insert / delete the pitch section waveform depending on whether it is large or not.
The pitch interval waveform is inserted.
When determining the point to enter / delete,
For each time point, two adjacent periods with the time point in between
Root mean squared difference or sum of squares of pitch interval waveform or
Calculates the average of absolute values or the sum of absolute values, and this is the minimum
Is the point where the pitch section waveform is inserted or deleted.
A speech speed conversion device characterized in that
【請求項3】 請求項1に記載の話速変換方法を、計算
機を用いて実行するための話速変換プログラムを格納し
た計算機読み取り可能な記録媒体。
3. The speech speed conversion method according to claim 1 is calculated.
Stores a speech speed conversion program for execution using a
Computer readable recording medium.
JP06551299A 1999-03-11 1999-03-11 Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program Expired - Lifetime JP3422716B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06551299A JP3422716B2 (en) 1999-03-11 1999-03-11 Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06551299A JP3422716B2 (en) 1999-03-11 1999-03-11 Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program

Publications (2)

Publication Number Publication Date
JP2000259200A JP2000259200A (en) 2000-09-22
JP3422716B2 true JP3422716B2 (en) 2003-06-30

Family

ID=13289186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06551299A Expired - Lifetime JP3422716B2 (en) 1999-03-11 1999-03-11 Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program

Country Status (1)

Country Link
JP (1) JP3422716B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4882152B2 (en) * 2001-01-24 2012-02-22 ヤマハ株式会社 Speech speed detection method and audio signal processing apparatus
GB0228245D0 (en) 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
JP3871657B2 (en) 2003-05-27 2007-01-24 株式会社東芝 Spoken speed conversion device, method, and program thereof
JP2007094004A (en) * 2005-09-29 2007-04-12 Kowa Co Time base companding method of voice signal, and time base companding apparatus of voice signal
WO2007086365A1 (en) * 2006-01-24 2007-08-02 Matsushita Electric Industrial Co., Ltd. Conversion device
CN102426838A (en) * 2011-08-24 2012-04-25 华为终端有限公司 Voice signal processing method and user equipment

Also Published As

Publication number Publication date
JP2000259200A (en) 2000-09-22

Similar Documents

Publication Publication Date Title
US6205420B1 (en) Method and device for instantly changing the speed of a speech
US20030033140A1 (en) Time-scale modification of signals
US20050273321A1 (en) Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations
US6801898B1 (en) Time-scale modification method and apparatus for digital signals
US7870003B2 (en) Acoustical-signal processing apparatus, acoustical-signal processing method and computer program product for processing acoustical signals
EP2881944B1 (en) Audio signal processing apparatus
JP3422716B2 (en) Speech rate conversion method and apparatus, and recording medium storing speech rate conversion program
KR20050010927A (en) Audio signal processing apparatus
JPH10260694A (en) Device and method for speaking speed conversion and record medium
JP3220043B2 (en) Speech rate conversion method and apparatus
JP2008058956A (en) Speech reproduction device
JPH05257490A (en) Method and device for converting speaking speed
JP3378672B2 (en) Speech speed converter
JP3266124B2 (en) Apparatus for detecting similar waveform in analog signal and time-base expansion / compression device for the same signal
JP3373933B2 (en) Speech speed converter
CN113782050A (en) Sound tone changing method, electronic device and storage medium
JP3357742B2 (en) Speech speed converter
JP3081469B2 (en) Speech speed converter
JPH09152889A (en) Speech speed transformer
KR100359988B1 (en) real-time speaking rate conversion system
JP2002297200A (en) Speaking speed converting device
JP6313619B2 (en) Audio signal processing apparatus and program
US7337109B2 (en) Multiple step adaptive method for time scaling
JPH04367898A (en) Method and device for voice reproduction
JPH09146587A (en) Speech speed changer

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term