JP3125937B2 - Voice pitch conversion method - Google Patents

Voice pitch conversion method

Info

Publication number
JP3125937B2
JP3125937B2 JP03150785A JP15078591A JP3125937B2 JP 3125937 B2 JP3125937 B2 JP 3125937B2 JP 03150785 A JP03150785 A JP 03150785A JP 15078591 A JP15078591 A JP 15078591A JP 3125937 B2 JP3125937 B2 JP 3125937B2
Authority
JP
Japan
Prior art keywords
peak position
voice
waveform
pitch
window function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP03150785A
Other languages
Japanese (ja)
Other versions
JPH04372999A (en
Inventor
貴夫 小山
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP03150785A priority Critical patent/JP3125937B2/en
Publication of JPH04372999A publication Critical patent/JPH04372999A/en
Application granted granted Critical
Publication of JP3125937B2 publication Critical patent/JP3125937B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、ピッチ制御を行う装置
の音声ピッチ変換方法に関し、特に入力音声のピーク位
置と変換目的のピッチ周期の双方を考慮し、誤ったピー
ク位置を与えられた場合に対応することの可能な音声ピ
ッチ変換方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice pitch conversion method for an apparatus for performing pitch control, and more particularly, to a case where an erroneous peak position is given in consideration of both a peak position of an input voice and a pitch period to be converted. The present invention relates to a voice pitch conversion method capable of coping with the above.

【0002】[0002]

【従来の技術】従来、音声のピッチ制御を行う音声ピッ
チ変換装置では、図2に示すように、入力端子21よ
り、変換対象の音声が処理装置に入力されると、前処理
部22はアナログ/ディジタル変換等の前処理をする。
一方、そのデータと時間的に同期のとれた音声波形中の
ローカルピーク位置23を目視(あるいは、ピーク位置
自動抽出の手法)により得る。これらのデータおよびピ
ーク位置は、波形切り出し/重ね合わせ部24に入力さ
れて蓄えられる。さらに、波形切り出し/重ね合わせ部
24には、音声ピッチ変換の目標となるピッチパターン
25が入力される。これにより、蓄積されているローカ
ルピーク位置をもとにして、音声波形により合成目標の
ピッチ周期に合うようなhanning窓等の時間窓関
数を、そのローカルピーク位置を中心にして乗ずること
によって波形を切り出し、目標ピッチパターン25に合
わせて、波形を再度重ね合わせる。こうして、波形切り
出し/重ね合わせ部24により合成音声を構成し、後処
理部26によってそのデータにディジタル/アナログ変
換等の後処理を施し、出力端子27から変換音声を得
る。なお、従来のピッチ制御方式については、例えば、
「広川、箱田著、波形編集型規則合成方法におけるピッ
チ制御法の検討、平成2年3月音響学会講演論文集1−
4−7」において論じられている。
2. Description of the Related Art Conventionally, in a voice pitch converter for performing voice pitch control, as shown in FIG. 2, when a voice to be converted is input from an input terminal 21 to a processing device, a pre-processing unit 22 receives an analog signal. / Perform pre-processing such as digital conversion.
On the other hand, the local peak position 23 in the audio waveform which is temporally synchronized with the data is obtained by visual observation (or a method of automatic peak position extraction). These data and the peak position are input to the waveform cutout / superposition unit 24 and stored. Further, a pitch pattern 25 that is a target of voice pitch conversion is input to the waveform cutout / superposition unit 24. Thereby, based on the accumulated local peak position, the waveform is multiplied by a time window function such as a hanning window that matches the pitch period of the synthesis target with the audio waveform centering on the local peak position. The waveform is cut out and the waveform is superimposed again according to the target pitch pattern 25. In this way, a synthesized speech is formed by the waveform cutout / superposition unit 24, post-processing such as digital / analog conversion is performed on the data by the post-processing unit 26, and a converted speech is obtained from the output terminal 27. In addition, about the conventional pitch control method, for example,
"Hirokawa, Hakoda, Pitch Control Method in Waveform Editing Rule Synthesis Method, Proceedings of the Acoustical Society of Japan, March 1990-
4-7 ".

【0003】[0003]

【発明が解決しようとする課題】上記従来技術では、波
形切り出し用の窓関数を施す際、目標となるピッチに合
うことのみを考慮した窓関数により波形切り出しを行っ
ている。よって、入力音声波形におけるピッチ構造につ
いては配慮がなされておらず、入力音声波形のピッチ構
造を損なう場合がある。また、ローカルピーク位置を自
動的に抽出する処理において、例えば、入力音声がピッ
チ構造をなしていないことによるピーク抽出誤りがあっ
た場合、従来方法による窓関数を用いて波形切り出しを
行うと、合成音声にノイズが載る等、劣化の原因となる
ことが予想される。本発明の目的は、入力音声波形と目
標となるピッチパターンの双方を考慮して波形切り出し
用の窓関数の形状を決定することにより、このような問
題点を改善して、与えられたピーク位置の誤りを吸収
し、高品質な合成音声を構成することが可能な音声ピッ
チ変換方法を提供することにある。
In the above-mentioned prior art, when applying a window function for extracting a waveform, the waveform is extracted using a window function that only takes into account that the window function matches a target pitch. Therefore, no consideration is given to the pitch structure of the input speech waveform, and the pitch structure of the input speech waveform may be damaged. In the process of automatically extracting the local peak position, for example, if there is a peak extraction error due to the fact that the input voice does not have a pitch structure, if the waveform is cut out using a window function according to a conventional method, It is expected to cause deterioration such as noise on voice. An object of the present invention is to improve such a problem by determining the shape of a window function for waveform extraction in consideration of both an input speech waveform and a target pitch pattern, thereby improving a given peak position. It is an object of the present invention to provide a voice pitch conversion method capable of absorbing high-quality errors and forming a high-quality synthesized voice.

【0004】[0004]

【課題を解決するための手段】上記目的を達成するた
め、本発明の音声ピッチ変換方法は、波形切り出し/重
ね合わせ部において、ピーク位置抽出部で抽出した入力
音声のローカルピーク位置のうち、時間窓関数を適用す
るピーク位置と、そのピーク位置と時系列的に隣り合う
前後のピーク位置との距離(wlf、wlb)を求め、それ
らの距離に目標ピッチへの変換率Rより求めた係数Cを
乗じて窓長を決定することにより、入力音声と変換音声
の双方を考慮した左右非対称の窓関数(式(4))を生
成することに特徴がある。
In order to achieve the above object, a voice pitch conversion method according to the present invention is characterized in that, in a waveform cutout / superposition unit, a time interval of a local peak position of an input voice extracted by a peak position extraction unit is extracted. The distance (wlf, wlb) between the peak position to which the window function is applied and the preceding and succeeding peak positions in time series with the peak position is obtained, and the coefficient C obtained from the conversion rate R to the target pitch is calculated for the distance. , The window length is determined by multiplying by (1) to generate a left-right asymmetric window function (Equation (4)) considering both the input voice and the converted voice.

【0005】[0005]

【作用】本発明においては、波形切り出し/重ね合わせ
部で波形重ね合わせを行う際、時間窓関数を適用するロ
ーカルピーク位置と、そのピーク位置と時系列的に隣り
合う前後のピーク位置の距離を求め、それらの距離に目
標ピッチへの変換率より求めた係数を乗じて窓長を決定
する。すなわち、窓関数を施す区間の変曲点(ピーク位
置)の左側(時系列的に前)と右側(時系列的に後)の
部分は、直前のピーク位置までの2倍を窓長とするhann
ing窓等の窓関数の左半分および右半分とそれぞれ等価
であるため、両側を組み合わせて左右非対称の窓関数を
構成することにより、入力音声と変換音声の双方を考慮
して、波形切り出し用の窓関数の形状を決定することが
できる。これにより、原音声のピッチパターンを保ちな
がら、与えられたピーク位置の誤りを吸収することが可
能となるため、波形レベルでの高品質な合成音声を得る
ことができる。
In the present invention, when performing waveform superposition in the waveform cutout / superposition unit, the distance between the local peak position to which the time window function is applied and the preceding and succeeding peak positions in time series with the peak position is determined. The window length is determined by multiplying those distances by a coefficient obtained from the conversion rate to the target pitch. That is, the window length of the left (in time series) and right (in time series) portions of the inflection point (peak position) in the section where the window function is applied is twice as long as the immediately preceding peak position. hann
Since they are equivalent to the left and right halves of the window function such as the ing window, respectively, by combining both sides to form a left-right asymmetric window function, both input voice and converted voice are taken into account, The shape of the window function can be determined. This makes it possible to absorb an error at a given peak position while maintaining the pitch pattern of the original voice, and thus it is possible to obtain a high-quality synthesized voice at a waveform level.

【0006】[0006]

【実施例】以下、本発明の一実施例を図面により説明す
る。図3は、本発明の一実施例における音声ピッチ変換
装置の一部を示す構成図、図4は本発明の一実施例にお
けるピッチ構造を持つ音声波形中のピーク位置例図であ
る。本実施例の音声ピッチ変換装置は、音声を入力する
ための入力装置、入力音声の音声ピッチ変換結果を出力
するための出力装置、処理後のデータや音声ピッチ変換
の際の目標ピッチパターン等を格納するための外部記憶
装置、および図3に示す処理装置等から構成される。こ
の処理装置は、CPU、メモリ等から構成され、図3の
ように、前処理部32、ピーク位置抽出部33、波形切
り出し/重ね合わせ部34、および後処理部36を有す
る。このような構成により、音声ピッチ変換を行う場
合、入力端子31より音声信号が入力され、これが前処
理部32へ入力される。前処理部32では、低域フィル
タを通し、アナログ/ディジタル変換を行って音声をデ
ィジタルデータ化し、ピーク位置抽出部33へ送る。ピ
ーク位置抽出部33では、音声波形中からピーク位置の
抽出を行い、ピーク位置の情報を波形切り出し/重ね合
わせ部34に入力する。このピーク位置は、例えば図4
の「*」印で示される部分である。波形切り出し/重ね
合わせ部34では、これらのデータを蓄積するととも
に、目標ピッチパターン35を入力し、ピーク位置抽出
部33からのピーク位置をもとにして、音声波形を切り
出し、目標ピッチパターンになるように波形を重ね合わ
せて、得られた合成音声のディジタルデータを後処理部
36に入力する。後処理部36は、そのディジタルデー
タをディジタル/アナログ変換し、低域フィルタを通し
て、変換音声を出力端子37に出力する。
An embodiment of the present invention will be described below with reference to the drawings. FIG. 3 is a configuration diagram showing a part of the voice pitch conversion device in one embodiment of the present invention, and FIG. 4 is an example diagram of peak positions in a voice waveform having a pitch structure in one embodiment of the present invention. The voice pitch conversion device of the present embodiment includes an input device for inputting voice, an output device for outputting a voice pitch conversion result of the input voice, data after processing, a target pitch pattern for voice pitch conversion, and the like. It comprises an external storage device for storing, a processing device shown in FIG. 3, and the like. This processing device includes a CPU, a memory, and the like, and includes a pre-processing unit 32, a peak position extracting unit 33, a waveform cutout / overlapping unit 34, and a post-processing unit 36, as shown in FIG. With such a configuration, when performing voice pitch conversion, a voice signal is input from the input terminal 31 and is input to the preprocessing unit 32. The preprocessing unit 32 performs analog / digital conversion through a low-pass filter, converts the voice into digital data, and sends the digital data to the peak position extraction unit 33. The peak position extraction unit 33 extracts a peak position from the audio waveform, and inputs information on the peak position to the waveform cutout / superposition unit 34. This peak position is shown in FIG.
Are the portions indicated by the “*” mark. The waveform cutout / superposition unit 34 stores these data, inputs the target pitch pattern 35, cuts out the audio waveform based on the peak position from the peak position extraction unit 33, and becomes the target pitch pattern. The digital data of the synthesized voice obtained is input to the post-processing unit 36 by overlapping the waveforms as described above. The post-processing unit 36 performs digital-to-analog conversion of the digital data, and outputs a converted voice to an output terminal 37 through a low-pass filter.

【0007】ここで、波形切り出し/重ね合わせ部34
の処理を詳細に述べる。図5は、本発明の一実施例にお
ける波形切り出し/重ね合わせ部の処理を示すフローチ
ャートである。本実施例の波形切り出し/重ね合わせ部
34には、ピーク位置に関する情報とともに、変換目標
の変換率もしくは目標ピッチパターン35が入力される
(501、502)。こうして入力されたピーク位置列
と変換目標から波形重ね合わせ位置を決定し(50
3)、重ね合わせ位置に対応する切り出し位置を決定す
る(504)。次に、その波形切り出し位置の環境を考
慮し、波形切り出し用の窓関数生成を行う(505)。
そして、生成された窓関数を用いて音声波形を切り出し
(506)、先に決定した重ね合わせ位置に重ね合わせ
処理を行う(507)。これらの処理を、目標ピッチパ
ターンへの合成が完了するまで(508)、順次繰返し
て、合成音声のディジタルデータを構成し、後処理部3
6へ入力する。
Here, the waveform cutting / overlapping section 34
Is described in detail. FIG. 5 is a flowchart showing the processing of the waveform cutout / superposition unit in one embodiment of the present invention. The conversion rate of the conversion target or the target pitch pattern 35 is input to the waveform cutout / superposition unit 34 of the present embodiment together with the information on the peak position (501, 502). The waveform superimposition position is determined from the input peak position sequence and the conversion target (50).
3) A cutout position corresponding to the overlapping position is determined (504). Next, a window function for waveform extraction is generated in consideration of the environment of the waveform extraction position (505).
Then, a speech waveform is cut out using the generated window function (506), and a superposition process is performed on the previously determined superposition position (507). These processes are sequentially repeated until the synthesis into the target pitch pattern is completed (508), thereby forming digital data of the synthesized voice.
Input to 6.

【0008】次に、図5のステップ505の窓関数生成
処理について詳細に述べる。図1は、本発明の一実施例
における波形切り出し用窓関数の生成処理を示すフロー
チャート、図6は本発明の一実施例における左右非対称
窓の説明図、図7は本発明の一実施例における窓関数に
よりピッチ周期を短くする場合の説明図、図8は本発明
の一実施例における窓関数によりピッチ周期を長くする
場合の説明図である。図6において、61は注目するピ
ーク位置62の一つ前のピーク位置、62は注目するピ
ーク位置、63は注目するピーク位置62の一つ後のピ
ーク位置、64は窓関数、65は一つ前のピーク位置6
1までの距離(wlf)、66は一つ後のピーク位置63ま
での距離(wlb)である。本実施例では、図1および図6
のように、与えられた波形切り出し位置の時系列の前後
のピーク位置61,63から窓関数の概形となる窓長
(wlf+wlb)の決定を行う(101)。なお、時系列
において前後のピーク位置が一般的なピッチ周期の長さ
である場合はそのまま本実施例の処理を続行し、ピッチ
周期と思われないような場合には、例外処理として窓長
に固定値を割り当てる処理を行う。次に、得られた窓長
に対し、変換目標から周期の変換率を算出して(10
2)、その窓長を変換対象に適した値に設定する(10
3)。さらに、ここで得られた窓長から窓関数を生成す
る(104,105)。ここで、本実施例の窓関数の定
義式について述べる。まず、従来の窓関数fw(n)の定
義式を次式(1)に示す。
Next, the window function generation processing of step 505 in FIG. 5 will be described in detail. FIG. 1 is a flowchart showing a process of generating a window function for extracting a waveform in one embodiment of the present invention. FIG. 6 is an explanatory diagram of a left-right asymmetric window in one embodiment of the present invention. FIG. 8 is an explanatory diagram when the pitch period is shortened by the window function, and FIG. 8 is an explanatory diagram when the pitch period is increased by the window function according to the embodiment of the present invention. In FIG. 6, 61 is the peak position immediately before the peak position 62 of interest, 62 is the peak position of interest, 63 is the peak position after the peak position 62 of interest, 64 is the window function, and 65 is one. Previous peak position 6
A distance (wlf) to 1 and a distance 66 to the next peak position 63 (wlb). In the present embodiment, FIGS.
As described above, the window length (wlf + wlb) which is the outline of the window function is determined from the peak positions 61 and 63 before and after the time series of the given waveform cutout position (101). If the peak positions before and after in the time series have the general length of the pitch period, the processing of the present embodiment is continued as it is. Perform processing to assign fixed values. Next, for the obtained window length, the conversion rate of the period is calculated from the conversion target (10
2), the window length is set to a value suitable for the conversion target (10)
3). Further, a window function is generated from the obtained window length (104, 105). Here, the definition formula of the window function of the present embodiment will be described. First, the following equation (1) shows the definition equation of the conventional window function fw (n).

【数1】 但し、wlf:前のピーク位置迄の標本数 wlb:後のピーク位置迄の標本数 とする。この式(1)に示す窓関数に対し、本実施例で
は、ピッチ周波数を高く(周期を短く)する場合は窓長
を短くする処理を施し、逆にピッチ周波数を低く(周期
を長く)する場合は窓長を長くする処理を施す。つま
り、周波数の変換率から求めた係数Cを用い、式(1)
を変形する。このCは、次式(2)で示される。
(Equation 1) Where wlf: Number of samples up to the previous peak position wlb: Number of samples up to the next peak position. In the present embodiment, when the pitch frequency is increased (short period), the window length is shortened, and the window frequency is decreased (long period). In this case, a process for increasing the window length is performed. That is, using the coefficient C obtained from the frequency conversion rate, the equation (1)
To transform. This C is expressed by the following equation (2).

【数2】 但し、周波数の変換率をR[%](R>0)とする。な
お、Cを適用することにより、周波数fと変換後の周波
数f’、および周期Tと変換後の周期T’の関係はは次
式(3)のようになる。
(Equation 2) Note that the frequency conversion rate is R [%] (R> 0). By applying C, the relationship between the frequency f and the converted frequency f ′ and the relationship between the cycle T and the converted cycle T ′ are as shown in the following equation (3).

【数3】 次に、本実施例に適用する窓関数fw(n)を次式(4)
に示す。
(Equation 3) Next, the window function fw (n) applied to the present embodiment is expressed by the following equation (4).
Shown in

【数4】 但し、wlf:前のピーク位置迄の標本数 wlb:後のピーク位置迄の標本数 とする。上記定義式(1)では、hanning窓をベースに
波形切り出し用窓関数を構成している。このベースとな
る窓関数に関しては、hamming窓やblackman窓等を適用
した場合においても、定義式(4)で用いた位相部分を
用いることにより、本実施例の非対称窓関数の構成が可
能である。このような非対称窓関数によりピッチ周期を
短くする例は、図7に示される。この場合、入力音声7
1におけるピーク位置(*印の部分)は、合成音声72
では目標ピッチパターンに合う位置(△印の部分)に移
動し、ピーク位置の間隔が縮んでいることがわかる。ま
た、ピッチ周期を長くする例は、図8に示される。この
場合、入力音声81におけるピーク位置(*印の部分)
は、合成音声82では目標ピッチパターンに合う位置
(△印の部分)に移動し、ピーク位置の間隔が伸びてい
ることがわかる。本実施例では、定義式(4)にもとづ
き、ステップ104,105で生成した窓関数を用いて
音声波形を切り出し、先に決定した重ね合わせ位置に重
ね合わせ処理を行うことにより、原音声のピッチ構造を
保存した合成音声を得ることができる。
(Equation 4) Where wlf: Number of samples up to the previous peak position wlb: Number of samples up to the next peak position. In the definition equation (1), the window function for waveform extraction is configured based on the hanning window. Regarding the window function serving as a base, even when a hamming window, a blackman window, or the like is applied, the configuration of the asymmetric window function of the present embodiment can be achieved by using the phase portion used in the definition equation (4). . An example in which the pitch period is shortened by such an asymmetric window function is shown in FIG. In this case, the input voice 7
The peak position at 1 (the part marked with *) is the synthesized voice 72
Then, it moves to a position matching the target pitch pattern (indicated by a triangle), and it can be seen that the interval between the peak positions is reduced. FIG. 8 shows an example of increasing the pitch period. In this case, the peak position in the input sound 81 (the part marked with *)
Indicates that the synthesized voice 82 moves to a position matching the target pitch pattern (the portion indicated by the triangle), and it can be seen that the interval between the peak positions is extended. In the present embodiment, based on the definition equation (4), a speech waveform is cut out using the window functions generated in steps 104 and 105, and a superimposition process is performed on the previously determined superposition position, thereby obtaining the pitch of the original voice. A synthesized speech with a preserved structure can be obtained.

【0009】[0009]

【発明の効果】本発明によれば、入力音声波形と目標と
なるピッチパターンの双方を考慮して波形切り出し用の
窓関数の形状を決定することにより、原音声のピッチパ
ターンを保存し、与えられたピーク位置の誤りを吸収す
ることが可能となり、波形レベルでの高品質な合成音声
を構成することができる。
According to the present invention, the shape of the window function for waveform extraction is determined by considering both the input speech waveform and the target pitch pattern, thereby preserving and providing the pitch pattern of the original speech. It is possible to absorb the error of the peak position thus obtained, and it is possible to form a high-quality synthesized speech at the waveform level.

【0010】[0010]

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例における波形切り出し用窓関
数の生成処理を示すフローチャートである。
FIG. 1 is a flowchart illustrating a process of generating a window function for waveform cutout according to an embodiment of the present invention.

【図2】従来の音声ピッチ変換装置の一部を示す構成図
である。
FIG. 2 is a configuration diagram showing a part of a conventional voice pitch conversion device.

【図3】本発明の一実施例における音声ピッチ変換装置
の一部を示す構成図である。
FIG. 3 is a configuration diagram showing a part of a voice pitch conversion device according to an embodiment of the present invention.

【図4】本発明の一実施例におけるピッチ構造を持つ音
声波形中のピーク位置例図である。
FIG. 4 is a diagram illustrating an example of a peak position in a voice waveform having a pitch structure according to an embodiment of the present invention.

【図5】本発明の一実施例における波形切り出し/重ね
合わせ部の処理を示すフローチャートである。
FIG. 5 is a flowchart illustrating a process of a waveform cutout / superposition unit according to an embodiment of the present invention.

【図6】本発明の一実施例における左右非対称窓の説明
図である。
FIG. 6 is an explanatory diagram of a left-right asymmetric window in one embodiment of the present invention.

【図7】本発明の一実施例における窓関数によりピッチ
周期を短くする場合の説明図である。
FIG. 7 is an explanatory diagram of a case where a pitch period is shortened by a window function according to an embodiment of the present invention.

【図8】本発明の一実施例における窓関数によりピッチ
周期を長くする場合の説明図である。
FIG. 8 is an explanatory diagram of a case where a pitch period is lengthened by a window function according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

21 入力端子 22 前処理部 23 ピーク位置 24 波形切り出し/重ね合わせ部 25 目標ピッチパターン 26 後処理部 27 出力端子 31 入力端子 32 前処理部 33 ピーク位置抽出部 34 波形切り出し/重ね合わせ部 35 目標ピッチパターン 36 後処理部 37 出力端子 61 一つ前のピーク位置 62 注目するピーク位置 63 一つ後のピーク位置 64 窓関数 65 一つ前のピーク位置までの距離(wlf) 66 一つ後のピーク位置までの距離(wlb) 71 入力音声 72 合成音声 81 入力音声 82 合成音声 DESCRIPTION OF SYMBOLS 21 Input terminal 22 Pre-processing part 23 Peak position 24 Waveform extraction / superposition part 25 Target pitch pattern 26 Post-processing part 27 Output terminal 31 Input terminal 32 Preprocessing part 33 Peak position extraction part 34 Waveform extraction / superposition part 35 Target pitch Pattern 36 Post-processing unit 37 Output terminal 61 Previous peak position 62 Peak position of interest 63 Next peak position 64 Window function 65 Distance to previous peak position (wlf) 66 Next peak position Distance to (wlb) 71 Input voice 72 Synthetic voice 81 Input voice 82 Synthetic voice

フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 21/00 - 21/04 G10H 1/043 Continuation of the front page (58) Field surveyed (Int. Cl. 7 , DB name) G10L 21/00-21/04 G10H 1/043

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声波形におけるローカルピーク位
置をもとに、時間窓関数によって音声波形を切り出し、
再び該波形を重ね合わせることにより、目標ピッチパタ
ーンへの音声ピッチ変換を行う方法において、上記ロー
カルピーク位置のうち、時間窓関数を適用するピーク位
置と、該ピーク位置と時系列的に隣り合う前後のピーク
位置との距離を求め、両該距離に目標ピッチへの変換率
より求めた係数を乗じた値を窓長とすることを特徴とす
る音声ピッチ変換方法。
An audio waveform is cut out by a time window function based on a local peak position in an input audio waveform.
In the method of performing voice pitch conversion to a target pitch pattern by superimposing the waveforms again, the local peak position includes a peak position to which a time window function is applied, and a peak position before and after the time position adjacent to the peak position. A voice pitch conversion method, wherein a window length is obtained by calculating a distance from a peak position of the target pitch and multiplying the distance by a coefficient obtained from a conversion rate to a target pitch.
JP03150785A 1991-06-24 1991-06-24 Voice pitch conversion method Expired - Lifetime JP3125937B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03150785A JP3125937B2 (en) 1991-06-24 1991-06-24 Voice pitch conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03150785A JP3125937B2 (en) 1991-06-24 1991-06-24 Voice pitch conversion method

Publications (2)

Publication Number Publication Date
JPH04372999A JPH04372999A (en) 1992-12-25
JP3125937B2 true JP3125937B2 (en) 2001-01-22

Family

ID=15504383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03150785A Expired - Lifetime JP3125937B2 (en) 1991-06-24 1991-06-24 Voice pitch conversion method

Country Status (1)

Country Link
JP (1) JP3125937B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100278825B1 (en) * 1993-03-17 2001-01-15 깁슨 브라이언 씨., 필립 스코트 Musical entertainment system

Also Published As

Publication number Publication date
JPH04372999A (en) 1992-12-25

Similar Documents

Publication Publication Date Title
JP2782147B2 (en) Waveform editing type speech synthesizer
JP5605066B2 (en) Data generation apparatus and program for sound synthesis
JPS63285598A (en) Phoneme connection type parameter rule synthesization system
JPH0895589A (en) Speech synthesizing method and system therefor
CA1164569A (en) System for extraction of pole/zero parameter values
JP3125937B2 (en) Voice pitch conversion method
JPH0727397B2 (en) Speech synthesizer
JP2798003B2 (en) Voice band expansion device and voice band expansion method
JPH11259066A (en) Musical acoustic signal separation method, device therefor and program recording medium therefor
JP4513556B2 (en) Speech analysis / synthesis apparatus and program
JP3310226B2 (en) Voice synthesis method and apparatus
JP4454780B2 (en) Audio information processing apparatus, method and storage medium
JP3125936B2 (en) Voice pitch converter
JP3521821B2 (en) Musical sound waveform analysis method and musical sound waveform analyzer
JP3358139B2 (en) Voice pitch mark setting method
JP3561654B2 (en) Voice synthesis method
JP2560277B2 (en) Speech synthesis method
JPS60140299A (en) Phoneme piece editing type voice analyzer
JP3038755B2 (en) Sound source data generation method for speech synthesizer
JP3655016B2 (en) Musical sound waveform forming method and apparatus therefor
JPH02135931A (en) Signal processing method
JP2008262140A (en) Musical pitch conversion device and musical pitch conversion method
JP2001092500A (en) Processing method for multi-pulse searching, and speech encoding device
JPH01219635A (en) Automatic score taking method and apparatus
JPH05241598A (en) Vocing speed control method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071102

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081102

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 11