JPH06250695A - Method and device for pitch control - Google Patents

Method and device for pitch control

Info

Publication number
JPH06250695A
JPH06250695A JP6142293A JP6142293A JPH06250695A JP H06250695 A JPH06250695 A JP H06250695A JP 6142293 A JP6142293 A JP 6142293A JP 6142293 A JP6142293 A JP 6142293A JP H06250695 A JPH06250695 A JP H06250695A
Authority
JP
Japan
Prior art keywords
pitch
formant
control
voice
pitch frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6142293A
Other languages
Japanese (ja)
Other versions
JP3197975B2 (en
Inventor
Takao Koyama
貴夫 小山
Katsutake Bin
雄偉 閔
Noriya Murakami
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP6142293A priority Critical patent/JP3197975B2/en
Publication of JPH06250695A publication Critical patent/JPH06250695A/en
Application granted granted Critical
Publication of JP3197975B2 publication Critical patent/JP3197975B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

PURPOSE:To faithfully reproduce the change in a voice characteristic by making the formant power of a voice, which is synthesized while superimposing waveforms, closer to the one that corresponding to the pitch frequency of a target using the correlation between the pitch frequency of input voice signals and the formant power. CONSTITUTION:A formant extracting section 103 extracts formant of input voice from a spectrum envelope by cepstrum in few frames of a voice section. A local peak extracting section 104 extracts a peak position of the input voice, a spectrum envelope and phoneme display symbols or the like are outputted to a control coefficient setting section 106 and a control function is selected. Moreover, a pitch frequency that corresponds to each peak position, is computed from a local peak position. Pitch control coefficients and filter control coefficients are set from the pitch frequency of the input voice, the size of formant and the pitch control width inputted from a control value input section 105, outputted to a voice deformation section 107 and are controlled so that the size of formant is made closer to a target value employing a band pass filter.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声波形のピッチ制御
を行う方法及び装置に関し、特に、帯域通過フィルタを
用いてホルマントパワを制御し、自然音声におけるピッ
チ周波数とホルマントパワの相関関係を模擬することを
可能とするピッチ制御方法及び装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for pitch control of a speech waveform, and more particularly to controlling formant power using a bandpass filter to simulate the correlation between pitch frequency and formant power in natural speech. The present invention relates to a pitch control method and device capable of performing the above.

【0002】[0002]

【従来の技術】音声合成技術における従来のピッチ制御
の一例として、「音声波形のローカルピーク抽出とピッ
チ制御への応用」(平成3年10月号、音響学会講演論
文集2−6−1)に記載された装置がある。このピッチ
制御装置のように、音声波形をそのままピッチ制御する
場合は、まず、入力音声信号からそのローカルピーク位
置を抽出し、このピーク位置を基準にピッチ単位で波形
切り出し用の窓関数を決定し、この窓関数により波形を
切り出し、目標ピッチ周期になるように、切り出した波
形を再度重ね合わせて合成音声を生成していた。
2. Description of the Related Art As an example of conventional pitch control in speech synthesis technology, "Application of local peak extraction of speech waveform and pitch control" (October 1991, Proceedings of the Acoustical Society of Japan 2-6-1). There is a device described in. When pitch control of the voice waveform is performed as it is with this pitch control device, first, the local peak position is extracted from the input voice signal, and the window function for waveform cutout is determined in pitch units based on this peak position. A waveform is cut out by this window function, and the cut out waveforms are re-superposed so as to have a target pitch period to generate a synthetic voice.

【0003】[0003]

【発明が解決しようとする課題】このような従来技術で
は、入力された音声から切り出した音声のピッチ周期を
変更して再度重ね合わせを行うため、ピッチ周期が変更
された後も従前の声道特性はほぼ保存される。そのた
め、ピッチ周波数に対応する声道特性が再現できず、ピ
ッチ制御幅が大きくなるにつれて違和感が増す問題があ
った
In such a conventional technique, since the pitch period of the voice cut out from the input voice is changed and the superposition is performed again, the conventional vocal tract even after the pitch period is changed. The properties are almost preserved. Therefore, the vocal tract characteristic corresponding to the pitch frequency cannot be reproduced, and there is a problem that the discomfort increases as the pitch control width increases.

【0004】本発明はかかる問題点に鑑みてなされたも
ので、音声波形のピッチ周期の更新に従ってピッチ周波
数に対応する声道特性を再現し、より自然音声に近いピ
ッチ制御音声を生成するピッチ制御方法及びこの方法を
実現する装置を提供することにある。
The present invention has been made in view of the above problems, and pitch control for reproducing a vocal tract characteristic corresponding to a pitch frequency in accordance with an update of a pitch period of a voice waveform to generate a pitch control voice closer to a natural voice. It is to provide a method and an apparatus for implementing the method.

【0005】[0005]

【課題を解決するための手段】上記目的を達成する本発
明のピッチ制御方法は、ピッチ構造を有する入力音声信
号の波形切出しと該切出し波形の重ね合わせとを行うこ
とで合成音声のピッチ周波数を目標値に制御する方法に
おいて、入力音声信号のピッチ周波数とホルマントパワ
との相関関係を多項式関数に近似させ、この多項式関数
から前記目標値に対応するホルマントパワを決定すると
ともに、波形重ね合わせ時に合成される音声のホルマン
トパワを前記決定されたホルマントパワに近づけるよう
にしたものである。
According to the pitch control method of the present invention which achieves the above object, the pitch frequency of a synthesized voice is determined by cutting out the waveform of an input voice signal having a pitch structure and superimposing the cut out waveforms. In the method of controlling to the target value, the correlation between the pitch frequency of the input speech signal and the formant power is approximated to a polynomial function, and the formant power corresponding to the target value is determined from this polynomial function, and synthesized at the time of waveform superposition. The formant power of the voice to be reproduced is brought close to the determined formant power.

【0006】この方法は、複数のホルマントを網羅する
帯域通過フィルタと、入力音声信号のピッチ周波数及び
その制御目標値を算出するピッチ周波数算出手段と、音
韻毎のピッチ周波数とホルマントパワ値との相関関係を
近似した多項式関数を保持する関数保持手段と、音韻に
応じて前記関数保持手段から特定の多項式関数を選択す
る関数選択手段と、選択された多項式関数と前記ピッチ
周波数及びその制御目標値とに基づいて前記帯域通過フ
ィルタの利得を制御するフィルタ制御手段と、を少なく
とも備える装置によって実現される。なお、前記帯域通
過フィルタは、好ましくは、個々に利得調整可能な複数
の帯域通過フィルタ群にて構成する。
According to this method, a bandpass filter covering a plurality of formants, a pitch frequency calculating means for calculating a pitch frequency of an input voice signal and a control target value thereof, and a correlation between a pitch frequency and a formant power value for each phoneme. Function holding means for holding a polynomial function that approximates the relationship, function selecting means for selecting a specific polynomial function from the function holding means according to phoneme, selected polynomial function, the pitch frequency and its control target value Filter control means for controlling the gain of the bandpass filter based on the above. The bandpass filter is preferably composed of a plurality of bandpass filter groups whose gains are individually adjustable.

【0007】[0007]

【作用】ピッチ周波数とホルマントパワ値との間には相
関関係が認められる。しかも、この相関関係は二次又は
三次の多項式関数にて近似することができる。本発明の
ピッチ制御方法及び装置は、この点に着目したものであ
り、ピッチ構造を有する音声信号のピッチ周波数とホル
マントパワ値、即ち、スペクトル包絡の極大値との相関
関係を近似した多項式関数を予め用意し、この多項式関
数と入力音声のピッチ周波数等とを対応させ、帯域通過
フィルタの利得を制御することで、ピッチ変換に伴う声
道特性の変化を再現することができる。これにより、ピ
ッチ変換幅を大きくした場合の合成音声の違和感が抑制
される。
Function: There is a correlation between the pitch frequency and the formant power value. Moreover, this correlation can be approximated by a quadratic or cubic polynomial function. The pitch control method and device of the present invention are focused on this point, and a polynomial function that approximates the correlation between the pitch frequency of a voice signal having a pitch structure and the formant power value, that is, the maximum value of the spectrum envelope. It is possible to reproduce the change in vocal tract characteristics due to pitch conversion by preparing in advance and associating this polynomial function with the pitch frequency of the input voice and controlling the gain of the bandpass filter. As a result, a feeling of strangeness in the synthesized voice when the pitch conversion width is increased is suppressed.

【0008】[0008]

【実施例】以下、図面を参照して本発明の実施例を説明
する。図1は本発明の一実施例に係るピッチ制御装置の
ブロック構成図である。このピッチ制御装置は、入力さ
れた音声信号及びその処理に必要な作業領域を確保でき
る記憶装置(図示省略)を有している。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block configuration diagram of a pitch control device according to an embodiment of the present invention. This pitch control device has a storage device (not shown) that can secure a work area necessary for processing the input voice signal and its processing.

【0009】図1において、101は入力端子であり、音
声信号と入力音声信号の音素表記記号とが前段装置から
導かれる。前処理部102では、音声信号を本装置の処理
部の信号形態と合致するディジタルデータに変換する。
また、音素表記記号よりピッチ制御可能な有声音か否か
を判断する。ここで、有声音の場合は以下のピッチ制御
処理を行い、無声音の場合はピッチ制御処理は行わな
い。以下、有声音のピッチ制御処理に関して説明する。
In FIG. 1, reference numeral 101 denotes an input terminal, from which a voice signal and a phoneme notation symbol of the input voice signal are introduced from a preceding stage device. The pre-processing unit 102 converts the audio signal into digital data that matches the signal form of the processing unit of the present apparatus.
Also, it is determined from the phoneme notation symbols whether or not the voiced sound is pitch controllable. Here, the following pitch control processing is performed for voiced sound, and the pitch control processing is not performed for unvoiced sound. The pitch control process for voiced sounds will be described below.

【0010】前処理部102でディジタルデータに変換さ
れた音声信号が、ホルマント抽出部103に導かれる。ホ
ルマント抽出部103では、音声区間の数フレームでケプ
ストラムによりスペクトル包絡から入力音声のホルマン
トを抽出し、スペクトル包絡形状及びホルマント位置を
記憶装置に格納する。次に、ローカルピーク抽出部104
において、ピーク探索法により入力音声のピーク位置を
抽出し、記憶装置に格納する。ここまでに計算されたス
ペクトル包絡、ホルマント位置、ローカルピーク位置、
音声信号、及び、音素表記記号を制御係数設定部106へ
出力する。制御係数設定部106では、音素表記記号から
ホルマントの制御目標値を決定するための制御関数を選
択する。この選択基準については後述する。また、ロー
カルピーク位置から各ピーク位置に対応するピッチ周波
数を算出する。そして、入力音声のピッチ周波数、ホル
マントの大きさ、及び、制御値入力部105より入力され
たピッチ制御幅からピッチ制御係数とフィルタ制御係数
とを設定し、これらを音声変形部107に出力する。
The audio signal converted into digital data by the preprocessing unit 102 is guided to the formant extraction unit 103. The formant extraction unit 103 extracts the formant of the input voice from the spectrum envelope by the cepstrum in several frames of the voice section, and stores the spectrum envelope shape and the formant position in the storage device. Next, the local peak extraction unit 104
At, the peak position of the input voice is extracted by the peak search method and stored in the storage device. Spectral envelope calculated so far, formant position, local peak position,
The voice signal and the phoneme notation symbol are output to the control coefficient setting unit 106. The control coefficient setting unit 106 selects a control function for determining the control target value of the formant from the phoneme notation symbols. The selection criteria will be described later. Further, the pitch frequency corresponding to each peak position is calculated from the local peak position. Then, the pitch control coefficient and the filter control coefficient are set from the pitch frequency of the input voice, the size of the formant, and the pitch control width input from the control value input unit 105, and these are output to the voice transformation unit 107.

【0011】音声変形部107では、ピッチ同期型波形重
畳法により音声波形のピッチ周期を変形する。この変形
波形を、制御係数設定部106で設定されたフィルタ制御
係数に基づいて利得決定された帯域通過フィルタを用
い、ホルマントの大きさを目標値に近くなるように制御
する。そして、後処理部108でアナログデータへの変換
等を行い、出力端子109に出力する。
The voice transformation unit 107 transforms the pitch period of the voice waveform by the pitch synchronization type waveform superposition method. This modified waveform is controlled so that the size of the formant is close to the target value using a bandpass filter whose gain is determined based on the filter control coefficient set by the control coefficient setting unit 106. Then, the post-processing unit 108 performs conversion into analog data and outputs the result to the output terminal 109.

【0012】次に、制御係数設定部106に関する詳細な
説明を図2を参照して説明する。制御係数設定部106
は、制御関数保持部201、制御関数選択部202、ピッチ計
算部203、ピッチ変換係数算出部204、及び、フィルタ係
数制御値算出部205より構成される。
Next, a detailed description of the control coefficient setting unit 106 will be given with reference to FIG. Control coefficient setting unit 106
Is composed of a control function holding unit 201, a control function selection unit 202, a pitch calculation unit 203, a pitch conversion coefficient calculation unit 204, and a filter coefficient control value calculation unit 205.

【0013】制御関数保持部201は、ピッチ周波数とホ
ルマントパワとの相関関係を記述した多項式を各音素に
関して第1〜第4ホルマントまで保持している。これら
ホルマントパワに関する相関関係の音素毎のセットを制
御関数と称する。制御関数選択部202は、入力された音
素記号表記に基づき、制御関数保持部201から制御関数
を選択する。次に、ピッチ計算部203において、ローカ
ルピーク位置の情報から各ピーク位置に対応するピッチ
周波数を算出する。ピッチ変換係数算出部204では、制
御値入力部105から与えられる制御幅と入力音声のロー
カルピーク位置により、ピッチ制御後のピーク間隔比率
を決定する。このピーク間隔比率をピッチ変換係数と称
する。フィルタ係数制御値算出部205では、入力音声の
ホルマントの大きさと制御目標のピッチ周波数における
ホルマントの理想値とから帯域通過フィルタの利得を算
出する。この利得の算出処理を第1〜第4ホルマントま
で夫々行い、これをフィルタ係数制御値とする。ここで
得られたピッチ変換係数及びフィルタ係数制御値は、音
声信号等と共に音声変形部107(図1参照)に導かれ
る。
The control function holding unit 201 holds a polynomial describing the correlation between the pitch frequency and the formant power for each phoneme from the first to the fourth formants. A set of correlations for each formant power for each phoneme is called a control function. The control function selection unit 202 selects a control function from the control function holding unit 201 based on the input phoneme symbol notation. Next, the pitch calculator 203 calculates the pitch frequency corresponding to each peak position from the information of the local peak position. The pitch conversion coefficient calculation unit 204 determines the peak interval ratio after pitch control based on the control width given from the control value input unit 105 and the local peak position of the input voice. This peak interval ratio is called a pitch conversion coefficient. The filter coefficient control value calculation unit 205 calculates the gain of the bandpass filter from the size of the formant of the input voice and the ideal value of the formant at the control target pitch frequency. This gain calculation processing is performed for each of the first to fourth formants, and this is used as the filter coefficient control value. The pitch conversion coefficient and the filter coefficient control value obtained here are guided to the audio transformation unit 107 (see FIG. 1) together with the audio signal and the like.

【0014】図3は、音声変形部107の詳細ブロック図
である。以下、この音声変形部107の詳細を図3を参照
して説明する。波形重畳位置決定部301では、入力音声
のローカルピーク位置と前述のピッチ変換係数から、ピ
ッチ制御後の目標となるローカルピーク位置を算出す
る。この際、ピークの繰り返しや間引き処理により、入
力音声の時間長が保存されるようにする。波形重畳処理
部302では、入力音声と目標音声のローカルピーク位置
との対応に基づき、ピッチ毎に重畳処理を行い、ピッチ
周期を更新する(ピッチ周期型波形重畳法)。次に、フ
ィルタ係数設定部303において、先に決定したフィルタ
係数に基づき、各ホルマントに対応する帯域のフィルタ
利得を設定する。フィルタ処理部304では、フィルタ係
数設定部303で利得設定された帯域通過フィルタを用
い、ピッチ周期を更新した音声信号を処理する。以上の
処理を行った音声信号を後処理部108に出力する。
FIG. 3 is a detailed block diagram of the voice transformation unit 107. Hereinafter, the details of the voice transformation unit 107 will be described with reference to FIG. The waveform superposition position determination unit 301 calculates a target local peak position after pitch control from the local peak position of the input voice and the pitch conversion coefficient described above. At this time, the time length of the input voice is saved by repeating the peaks and the thinning process. The waveform superposition processing unit 302 performs superposition processing for each pitch based on the correspondence between the input voice and the local peak position of the target voice, and updates the pitch period (pitch period type waveform superposition method). Next, the filter coefficient setting unit 303 sets the filter gain of the band corresponding to each formant based on the previously determined filter coefficient. The filter processing unit 304 uses the bandpass filter whose gain is set by the filter coefficient setting unit 303, and processes the audio signal with the updated pitch period. The audio signal subjected to the above processing is output to the post-processing unit 108.

【0015】次に、ピッチ周波数とホルマントパワとの
相関関係を用いた制御関数の詳細を図4、図5及び図8
を参照して説明する。ピッチ周波数とホルマントパワと
は、図8に示すような相関が認められる。この相関関係
は、二次又は三次の多項式関数により近似することがで
きる。例えば、図8に例示したプロットの近似式は、y
をパワ、xをピッチ周波数とすると、下式で表される。 y=−0.005x2+1.312x−7.040
Next, details of the control function using the correlation between the pitch frequency and the formant power will be described with reference to FIGS. 4, 5 and 8.
Will be described with reference to. A correlation as shown in FIG. 8 is recognized between the pitch frequency and the formant power. This correlation can be approximated by a quadratic or cubic polynomial function. For example, the approximate expression of the plot illustrated in FIG. 8 is y
Where x is the power and x is the pitch frequency. y = -0.005x 2 + 1.312x-7.040

【0016】図4は、この相関関係を、二次の多項式関
数曲線401で近似した例である。なお、この相関関係
は、話者、音韻、ホルマント(第Nホルマント)によっ
て異なるので、本実施例のピッチ制御装置に適用する際
には、必要なだけの相関関係を予め分析し、夫々近似し
た多項式関数を求める。
FIG. 4 is an example in which this correlation is approximated by a quadratic polynomial function curve 401. Since this correlation differs depending on the speaker, phoneme, and formant (Nth formant), when applied to the pitch control device of this embodiment, the required correlation is analyzed in advance and approximated respectively. Find the polynomial function.

【0017】図5は、/a/〜/o/までの5母音の第
1〜第4ホルマント(F1〜F4)に関するピッチとホ
ルマントとの相関関係を示す概念図である。本実施例で
は、二次又は三次の多項式関数により近似を行っている
が、分析する声道特性の挙動により、適当な近似手法又
はパタンテーブルを使用することができる。
FIG. 5 is a conceptual diagram showing the correlation between the pitch and the formants for the first to fourth formants (F1 to F4) of the five vowels / a / to / o /. In the present embodiment, the approximation is performed by a quadratic or cubic polynomial function, but an appropriate approximation method or pattern table can be used depending on the behavior of the vocal tract characteristic to be analyzed.

【0018】前述の近似式関数を用いてピッチ制御後の
ホルマントを制御する方法を以下に述べる。図4におい
て、第一のプロット点402は、入力音声の任意のピッチ
周波数foとそのときのホルマントパワPoとの対応位置
をプロットしたものである。これに対して、第二のプロ
ット点403は制御目標点であり、ピッチ周波数foと前述
のピッチ制御幅とから目標ピッチ周波数faを算出す
る。この目標ピッチ周波数faを算出した後、相関関係
を表す多項式関数の変数xにこの値faを代入し、目標
ピッチにおける該当ホルマントパワPaを算出する。相
関関係のホルマントパワ軸は対数であるので、ホルマン
トを制御するフィルタの利得Fn-gainは、Pa-Poで計
算する。なお、Fnは第1〜第4ホルマントに対応し、
実際には、F1-gain〜F4-gainと表す。
A method of controlling the formant after the pitch control by using the above approximate expression function will be described below. In FIG. 4, the first plot point 402 is a plot of the corresponding position between the arbitrary pitch frequency fo of the input voice and the formant power Po at that time. On the other hand, the second plot point 403 is the control target point, and the target pitch frequency fa is calculated from the pitch frequency fo and the pitch control width described above. After calculating this target pitch frequency fa, this value fa is substituted into the variable x of the polynomial function expressing the correlation, and the corresponding formant power Pa at the target pitch is calculated. Since the formant power axis of the correlation is logarithmic, the gain Fn-gain of the filter controlling the formant is calculated by Pa-Po. Fn corresponds to the first to fourth formants,
Actually, it is expressed as F1-gain to F4-gain.

【0019】ホルマントの大きさを制御する帯域通過フ
ィルタの特性に関する詳細を図6及び図7を参照して説
明する。ホルマントを制御するための帯域通過フィルタ
は、図6に示すように、通過帯域が狭く、且つ、個々の
利得の調整が可能な複数の帯域通過フィルタ602を組み
合わせて構成する。このようにすれば、イコライザ的に
個々の利得を調整することができる。なお、全体を単純
に組み合わせた場合、理想的には通過域が平坦特性601
を持つ一つの帯域通過フィルタと等価になる。ホルマン
トの大きさを制御する際には、先に計算したホルマント
位置の情報と前記利得Fn-gainとに基づいて各帯域通過
フィルタの利得を調整する。
Details regarding the characteristics of the bandpass filter for controlling the formant size will be described with reference to FIGS. As shown in FIG. 6, the bandpass filter for controlling the formant is configured by combining a plurality of bandpass filters 602 each having a narrow passband and capable of adjusting individual gains. By doing so, the individual gains can be adjusted by an equalizer. In addition, when the whole is simply combined, ideally the passband has a flat characteristic 601.
Is equivalent to one bandpass filter with. When controlling the size of the formant, the gain of each bandpass filter is adjusted based on the previously calculated information on the formant position and the gain Fn-gain.

【0020】図7は、ホルマントを制御するために利得
を操作した帯域通過フィルタの理想特性の例を示す説明
図である。図7の例では、低域のホルマントを強調する
フィルタ設定701と、中域のホルマントパワを低下させ
るフィルタの設定702、及び、全体での理想特性703の例
が示されている。
FIG. 7 is an explanatory diagram showing an example of ideal characteristics of a bandpass filter in which the gain is manipulated to control the formant. In the example of FIG. 7, an example of a filter setting 701 that emphasizes the low-frequency formant, a filter setting 702 that reduces the mid-range formant power, and an overall ideal characteristic 703 are shown.

【0021】このように、本実施例のピッチ制御装置に
よれば、ピッチ同期型波形重畳法によりピッチ制御がな
され、合成音声のホルマントパワが変化したときは、制
御値入力部105、制御係数設定部106、音声変形部
107によって随時修正されるので、ピッチ変換に伴う
声道特性の変化を再現することができ、より自然音声に
近いピッチ制御音声を生成することができる。なお、本
発明は、必ずしもこの実施例に限定されるものではな
く。その要旨を逸脱しない範囲で手順ないし構成を変更
することができる。例えば、近似した多項式関数のモデ
ルをより一層精密にすることで、合成音声の振幅制御機
構を同時に実現することが可能となる。
As described above, according to the pitch control apparatus of the present embodiment, the pitch control is performed by the pitch synchronization type waveform superposition method, and when the formant power of the synthesized voice changes, the control value input unit 105 and the control coefficient setting are performed. Since it is corrected by the unit 106 and the voice transforming unit 107 at any time, it is possible to reproduce the change in the vocal tract characteristics due to the pitch conversion and generate a pitch control voice closer to a natural voice. The present invention is not necessarily limited to this embodiment. The procedure or configuration can be changed without departing from the spirit of the invention. For example, by making the model of the approximated polynomial function more precise, it becomes possible to simultaneously realize the amplitude control mechanism of the synthetic voice.

【0022】[0022]

【発明の効果】以上、詳細に説明したように、本発明の
ピッチ制御方法は、入力音声信号のピッチ周波数とホル
マントパワとの相関関係を利用し、波形重ね合わせ時に
合成される音声のホルマントパワを目標となるピッチ周
波数に対応するものに近づけるので、ピッチ周波数変化
に伴う声道特性の変化が忠実に再現される効果がある。
また、本発明のピッチ制御装置によれば、合成後のホル
マントを決定する帯域通過フィルタの利得が上記相関関
係に基づくフィルタ制御手段の出力値によって制御さ
れ、上記ピッチ制御方法の実現が容易且つ確実になる効
果がある。なお、帯域通過フィルタを、個々に利得調整
可能な複数の帯域フィルタ群で構成することで、声道特
性の再現がより忠実になり、合成音声の自然性が向上す
る。
As described in detail above, the pitch control method of the present invention utilizes the correlation between the pitch frequency of the input voice signal and the formant power, and the formant power of the voice synthesized at the time of waveform superposition. Is brought close to that corresponding to the target pitch frequency, so that the change in vocal tract characteristics due to the change in pitch frequency is faithfully reproduced.
Further, according to the pitch control device of the present invention, the gain of the bandpass filter that determines the combined formant is controlled by the output value of the filter control means based on the correlation, and the pitch control method is easily and reliably realized. Is effective. By configuring the bandpass filter with a plurality of bandpass filter groups whose gains can be adjusted individually, the vocal tract characteristics are reproduced more faithfully, and the naturalness of synthesized speech is improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の全体構成を示すブロック図
である。
FIG. 1 is a block diagram showing the overall configuration of an embodiment of the present invention.

【図2】本実施例の制御係数設定部の詳細ブロック図で
ある。
FIG. 2 is a detailed block diagram of a control coefficient setting unit of this embodiment.

【図3】本実施例の音声変形部の詳細ブロック図であ
る。
FIG. 3 is a detailed block diagram of a voice transformation unit of the present embodiment.

【図4】ピッチ周波数とホルマントパワの相関関係を近
似した例を示す説明図である。
FIG. 4 is an explanatory diagram showing an example in which a correlation between a pitch frequency and formant power is approximated.

【図5】5母音の第1〜第4ホルマントの相関関係の登
録例を示す説明図である。
FIG. 5 is an explanatory diagram showing an example of registration of correlations of first to fourth formants of five vowels.

【図6】ホルマント制御に用いるフィルタ群の理想特性
を示す説明図である。
FIG. 6 is an explanatory diagram showing ideal characteristics of a filter group used for formant control.

【図7】ホルマントを制御するために利得を操作したフ
ィルタの理想特性を示す説明図である。
FIG. 7 is an explanatory diagram showing ideal characteristics of a filter whose gain is manipulated to control a formant.

【図8】実際の音声信号から分析したピッチ周波数とホ
ルマントパワとの相関関係を示す説明図である。
FIG. 8 is an explanatory diagram showing a correlation between a pitch frequency analyzed from an actual voice signal and formant power.

【符号の説明】[Explanation of symbols]

102・・・前処理部 103・・・ホルマント抽出部 104・・・ローカルピーク抽出部 105・・・制御値入力部 106・・・制御係数設定部 107・・・音声変形部 108・・・後処理部 201・・・制御関数保持部 202・・・制御関数選択部 203・・・ピッチ計算部 204・・・ピッチ変換係数算出部 205・・・フィルタ係数制御値算出部 301・・・波形重畳位置決定部 302・・・波形重畳処理部 303・・・フィルタ係数設定部 304・・・フィルタ処理部 102 ... Pre-processing unit 103 ... Formant extraction unit 104 ... Local peak extraction unit 105 ... Control value input unit 106 ... Control coefficient setting unit 107 ... Speech transformation unit 108 ... Rear Processing unit 201 ... Control function holding unit 202 ... Control function selection unit 203 ... Pitch calculation unit 204 ... Pitch conversion coefficient calculation unit 205 ... Filter coefficient control value calculation unit 301 ... Waveform superposition Position determination unit 302 ... Waveform superposition processing unit 303 ... Filter coefficient setting unit 304 ... Filter processing unit

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 ピッチ構造を有する入力音声信号の波形
切出しと該切出し波形の重ね合わせとを行うことで合成
音声のピッチ周波数を目標値に制御するピッチ制御方法
において、前記入力音声信号のピッチ周波数とホルマン
トパワとの相関関係を多項式関数に近似させ、この多項
式関数から前記目標値に対応するホルマントパワを決定
するとともに、前記波形重ね合わせ時に合成される音声
のホルマントパワを前記決定されたホルマントパワに近
づけることを特徴とするピッチ制御方法。
1. A pitch control method for controlling a pitch frequency of a synthesized voice to a target value by cutting out a waveform of an input voice signal having a pitch structure and superimposing the cut out waveforms. And formant power are approximated to a polynomial function, and the formant power corresponding to the target value is determined from this polynomial function, and the formant power of the voice synthesized at the time of the waveform superposition is the determined formant power. Pitch control method characterized in that
【請求項2】 請求項1記載のピッチ制御方法を実現す
る装置であって、複数のホルマントを網羅する帯域通過
フィルタと、入力音声信号のピッチ周波数及びその制御
目標値を算出するピッチ周波数算出手段と、音韻毎のピ
ッチ周波数とホルマントパワとの相関関係を近似した多
項式関数を保持する関数保持手段と、音韻に応じて前記
関数保持手段から特定の多項式関数を選択する関数選択
手段と、選択された多項式関数と前記ピッチ周波数及び
その制御目標値とに基づいて前記帯域通過フィルタの利
得を制御するフィルタ制御手段と、を少なくとも備える
ことを特徴とするピッチ制御装置。
2. A device for realizing the pitch control method according to claim 1, wherein a band pass filter covering a plurality of formants, and a pitch frequency calculation means for calculating a pitch frequency of an input voice signal and a control target value thereof. A function holding means for holding a polynomial function that approximates the correlation between the pitch frequency and the formant power for each phoneme, and a function selecting means for selecting a specific polynomial function from the function holding means according to the phoneme. And a filter control means for controlling the gain of the bandpass filter based on the polynomial function and the pitch frequency and a control target value thereof.
【請求項3】 前記帯域通過フィルタは、個々に利得調
整可能な複数の帯域通過フィルタ群からなることを特徴
とする請求項2記載のピッチ制御装置。
3. The pitch control device according to claim 2, wherein the bandpass filter is composed of a plurality of bandpass filter groups each having an adjustable gain.
JP6142293A 1993-02-26 1993-02-26 Pitch control method and device Expired - Lifetime JP3197975B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6142293A JP3197975B2 (en) 1993-02-26 1993-02-26 Pitch control method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6142293A JP3197975B2 (en) 1993-02-26 1993-02-26 Pitch control method and device

Publications (2)

Publication Number Publication Date
JPH06250695A true JPH06250695A (en) 1994-09-09
JP3197975B2 JP3197975B2 (en) 2001-08-13

Family

ID=13170642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6142293A Expired - Lifetime JP3197975B2 (en) 1993-02-26 1993-02-26 Pitch control method and device

Country Status (1)

Country Link
JP (1) JP3197975B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5986198A (en) * 1995-01-18 1999-11-16 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US6046395A (en) * 1995-01-18 2000-04-04 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
CN113066476A (en) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 Synthetic speech processing method and related device

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101733182B1 (en) * 2015-06-19 2017-05-08 주식회사 리빙케어 Cooling and Heating Water-Filter Apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5986198A (en) * 1995-01-18 1999-11-16 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US6046395A (en) * 1995-01-18 2000-04-04 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
CN113066476A (en) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 Synthetic speech processing method and related device

Also Published As

Publication number Publication date
JP3197975B2 (en) 2001-08-13

Similar Documents

Publication Publication Date Title
US5459813A (en) Public address intelligibility system
US5682502A (en) Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters
JP2005018097A (en) Singing synthesizer
JPH031200A (en) Regulation type voice synthesizing device
JP3430985B2 (en) Synthetic sound generator
JP3732793B2 (en) Speech synthesis method, speech synthesis apparatus, and recording medium
JPH05307399A (en) Voice analysis system
US5369730A (en) Speech synthesizer
JP3197975B2 (en) Pitch control method and device
US7596497B2 (en) Speech synthesis apparatus and speech synthesis method
JP2001513225A (en) Removal of periodicity from expanded audio signal
JP2904279B2 (en) Voice synthesis method and apparatus
JP3841596B2 (en) Phoneme data generation method and speech synthesizer
JP3379348B2 (en) Pitch converter
JPH05307395A (en) Voice synthesizer
Hicks et al. Pitch invariant frequency lowering with nonuniform spectral compression
JPH0580796A (en) Method and device for speech speed control type hearing aid
JP2612867B2 (en) Voice pitch conversion method
JPH04116700A (en) Voice analyzing and synthesizing device
JP2615856B2 (en) Speech synthesis method and apparatus
JPH09179576A (en) Voice synthesizing method
JPH02247700A (en) Voice synthesizing device
JP2658068B2 (en) Voice processor
JP3241582B2 (en) Prosody control device and method
JP2000259164A (en) Voice data generating device and voice quality converting method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080608

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090608

Year of fee payment: 8

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20100608

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100608

Year of fee payment: 9

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20120608

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 11

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 12

EXPY Cancellation because of completion of term