JP3270869B2 - Pitch converter - Google Patents

Pitch converter

Info

Publication number
JP3270869B2
JP3270869B2 JP10467093A JP10467093A JP3270869B2 JP 3270869 B2 JP3270869 B2 JP 3270869B2 JP 10467093 A JP10467093 A JP 10467093A JP 10467093 A JP10467093 A JP 10467093A JP 3270869 B2 JP3270869 B2 JP 3270869B2
Authority
JP
Japan
Prior art keywords
pitch
signal
sound source
vocal tract
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10467093A
Other languages
Japanese (ja)
Other versions
JPH06314099A (en
Inventor
和樹 酒井
坂本  明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10467093A priority Critical patent/JP3270869B2/en
Publication of JPH06314099A publication Critical patent/JPH06314099A/en
Application granted granted Critical
Publication of JP3270869B2 publication Critical patent/JP3270869B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は音声の音程を変換する音
程変換装置に関するものであり、特に、音声の自然さお
よび発声者の個人的な特徴を損なうことなく音声の音程
を容易に変換できる音程変換装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pitch converter for converting the pitch of a voice, and more particularly to a pitch converter which can easily convert the pitch of a voice without impairing the naturalness of the voice and the personal characteristics of the speaker. The present invention relates to a pitch conversion device.

【0002】[0002]

【従来の技術】音声の音程(基本周期、ピッチ)を変換
する装置および方法はすでに種々提案されている。従来
の簡単な音程変換装置としては、マイクロフォンから入
力された音声をA/D変換器でディジタル信号に変換
し、このディジタル音声信号を所定の周期(時間間隔)
でメモリに書き込み、メモリに書き込まれたディジタル
音声信号を書き込みの周期とは異なる周期で読みだし、
D/A変換器でアナログ音声信号に戻して、増幅器で増
幅し、スピーカから出力する音程変換装置が知られてい
る。つまり、この音程変換装置においては、音声信号を
メモリに書き込む周期とメモリから読みだす周期との比
率に応じて時間軸上での音声データの伸縮を行って音程
を変換している。しかしながら、この音程変換装置を用
いて音程変換を行うと、その周波数振幅特性に歪みが生
じ、スピーカから出力される音程変換された音声は、も
との音声の自然さと個人的な特徴を喪失した不自然な音
声になるという問題に遭遇している。音程変換の度合い
を大きくすると、その不自然性がより顕著になる。
2. Description of the Related Art Various apparatuses and methods for converting the pitch (basic period, pitch) of speech have already been proposed. As a conventional simple pitch conversion device, a voice input from a microphone is converted into a digital signal by an A / D converter, and this digital voice signal is converted into a predetermined period (time interval).
And reads the digital audio signal written in the memory at a cycle different from the cycle of writing,
2. Description of the Related Art There is known a pitch conversion device that returns an analog audio signal by a D / A converter, amplifies the signal by an amplifier, and outputs the signal from a speaker. In other words, in this pitch conversion device, the pitch is converted by expanding and contracting the audio data on the time axis in accordance with the ratio of the period of writing the audio signal to the memory and the period of reading the audio signal from the memory. However, when pitch conversion is performed using this pitch conversion device, the frequency amplitude characteristics are distorted, and the pitch-converted voice output from the speaker loses the naturalness and personal characteristics of the original voice. I'm having problems with unnatural audio. When the degree of pitch conversion is increased, the unnaturalness becomes more pronounced.

【0003】そのような不自然さを改善する音程変換方
法が種々提案されている。そのような従来例として、た
とえば、NHK技研 R&D、No.19、1992、
5月、11〜24ページに開示されているように、図5
(b)、(c)に図解した「線形予測方法」が知られて
いる。この方法は、入力音声を声道特性と音源特性に分
離し、図5(c)に図解したように、残差波形を打ち切
って音声を高くしたり、零つめを行って音声を低くする
ことによりピッチ周期を変更し、図5(b)に示した声
道フィルタを駆動するものであり、「残差駆動形分析合
成方法」とも呼ばれる。しかしながら、この線形予測方
法は、音源情報と声道情報との分離が不完全であるた
め、残差波形に音源情報以外の声道情報に起因する成分
が相当量含まれており、ピッチ周期を変更するとき、こ
れらのスペクトルも変形され、これがそのまま品質低下
になるという問題がある。このような分離の不完全さに
起因する品質の低下は男性の声よりも、比較的ピッチが
高い女性の音声または子供の音声の分析合成のときに顕
著に現れる。
Various pitch conversion methods have been proposed to improve such unnaturalness. As such a conventional example, for example, NHK Giken R & D, No. 19, 1992,
May, as disclosed on pages 11-24, FIG.
The “linear prediction method” illustrated in (b) and (c) is known. This method separates the input voice into vocal tract characteristics and sound source characteristics, and cuts off the residual waveform to raise the voice, or performs zeroing to lower the voice, as illustrated in FIG. 5 (c). , And drives the vocal tract filter shown in FIG. 5B, and is also referred to as “residual drive type analysis / synthesis method”. However, in this linear prediction method, since the separation between the sound source information and the vocal tract information is incomplete, the residual waveform contains a considerable amount of components due to the vocal tract information other than the sound source information, and the pitch period is reduced. When changing, these spectra are also deformed, which has the problem that the quality is directly reduced. Such degradation in quality due to imperfect separation is more pronounced in the analysis and synthesis of relatively high-pitch female or child voices than male voices.

【0004】上述した線形予測方法を改善する方法およ
び装置もまた知られている(上記、NHK技研 R&
D、No.19、1992、5月、11〜24ペー
ジ)。図3にその装置構成を示す。図3に示した音程変
換装置は、入力音声を無音、無声、有声区間の判別およ
びピッチの決定を行う前処理部、有声区間について複素
ケプストラムを用いて1ピッチ周期ごとに音声波形をパ
ルス列(音源情報)と単位応答(声道情報)に分離する
分析部、ピッチパルス列に所望のピッチ変更を加え、そ
れにもとづいて1ピッチ周期ごとにピッチパルスと単位
応答を畳み込むことによって音声波形を合成する変換合
成部、および、ピッチ変更によって生じた非調波成分の
除去およびゲイン調整を行い、得られた波形と前処理部
で記録した無音、無声区間を接続して最終の音声出力を
生成する後処理部とを有する。図3に示した音程変換装
置においては、上述した線形予測方法の問題を改善する
ため、音源情報ができるだけパルス状に近くなるような
形で声道情報と分離することを意図している。そのた
め、複素ケプストラム分析で音声波形をパルス列と単位
応答に分離し、さらに、パルス列に対しては零位相化を
行ってパルス列をより先鋭化する一方、単位応答に対し
てはその逆の補償を施して、情報の欠落なしに音源情報
(パルス列)と、声道情報(単位応答)とを明瞭に分離
する。
A method and apparatus for improving the above-described linear prediction method are also known (see NHK Giken R & D).
D, No. 19, 1992, May, 11-24. FIG. 3 shows the configuration of the apparatus. The pitch conversion apparatus shown in FIG. 3 is a pre-processing unit that determines whether an input voice is silent, unvoiced, or voiced, and determines a pitch. The voice censor converts a voice waveform into a pulse train (sound source) every pitch cycle using a complex cepstrum. Information) and a unit response (vocal tract information), a conversion and synthesis unit that adds a desired pitch change to the pitch pulse train and convolves the pitch pulse and the unit response for each pitch cycle based on the result to synthesize a speech waveform And a post-processing unit that removes non-harmonic components generated by the pitch change and adjusts the gain, and connects the obtained waveform to the silent and unvoiced sections recorded in the pre-processing unit to generate a final audio output. And The pitch conversion apparatus shown in FIG. 3 is intended to separate the vocal tract information from the vocal tract information in such a manner that the sound source information is as pulse-like as possible in order to improve the above-described problem of the linear prediction method. For this reason, the speech waveform is separated into a pulse train and a unit response by complex cepstrum analysis, and the pulse train is zero-phased to sharpen the pulse train. Thus, sound source information (pulse train) and vocal tract information (unit response) are clearly separated without loss of information.

【0005】図4は上述した分析部のより詳細な処理形
態図を示す。分析部は、複素ケプストラム分析処理(ス
テップ「1」)、くし形リフタによる分離処理(ステッ
プ「2」)、時間波形再生処理(ステップ「3」)、パ
ルス列の零位相化および単位応答の逆補償処理(ステッ
プ「4」)、および、ピッチパルスと単位応答の記録処
理(ステップ「5」)を行う。
FIG. 4 is a diagram showing a more detailed processing form of the analysis unit described above. The analysis unit includes a complex cepstrum analysis process (step "1"), a separation process using a comb lifter (step "2"), a time waveform reproduction process (step "3"), zero-phase pulse train, and inverse compensation of unit response. Processing (step "4") and recording processing of the pitch pulse and the unit response (step "5") are performed.

【0006】ステップ1における複素ケプストラム分析
処理においては、有声区間内の対象とするピッチ区間に
対してそれより1ピッチ区間長だけ時間的に前の位置か
らピッチ区間長の2.5倍の長さのハニング窓をかけて
波形を切り出し、さらに、切り出した波形の後半に零つ
めを行って解析ポイントを増加させ、逆高速フーリエ変
換(逆FFTまたはIFFT)を施して複素ケプストラ
ムを求める。つまり、この複素ケプストラムを求める方
法としては、ハニング窓によって切り出された音声波形
に零系列を付加し解析ポイントを増加させ、逆FFTを
施し、隣接する2つのサンプル値間の位相差を小さく
し、この位相差がπ(ラジアン)より大きいときには2
π(ラジアン)を加減して位相をつなぐ「位相アンラッ
プ方法」を用いている。なお、後述するリフタでケプス
トラム成分を分離するとき、アンラップ後の位相に含ま
れる直線位相成分が再生波形に悪影響を及ぼし歪みとし
て知覚される場合があるので、ケプストラムに変換した
際に直線位相成分の除去を行い、リフタで分離した後、
時間波形を再生するときにパルス列のほうに除去した分
を再び補償する処理を行う。
[0006] In the complex cepstrum analysis process in step 1, the target pitch section in the voiced section is 2.5 times the pitch section length from the position temporally preceding by one pitch section length. , A waveform is cut out by applying a Hanning window, and the number of analysis points is increased by performing zeroing in the latter half of the cut out waveform, and a complex cepstrum is obtained by performing an inverse fast Fourier transform (inverse FFT or IFFT). In other words, as a method of obtaining this complex cepstrum, a zero sequence is added to the speech waveform cut out by the Hanning window to increase the number of analysis points, inverse FFT is performed, and the phase difference between two adjacent sample values is reduced. When this phase difference is larger than π (radian), 2
A “phase unwrapping method” is used in which phases are connected by adding or subtracting π (radian). When a cepstrum component is separated by a lifter to be described later, a linear phase component included in the unwrapped phase adversely affects the reproduced waveform and may be perceived as distortion. After removing and separating with lifter,
When reproducing the time waveform, a process of compensating again for the portion removed in the pulse train is performed.

【0007】リフタとはケフレシン領域でのフィルタを
いう。ステップ2におけるくし形リフタによる分離は、
くし形リフタとその逆の処理を行う逆くし形リフタを用
いて、ケプストラムをピッチ周期の整数倍の成分と、そ
れ以外の成分に分離する処理である。ステップ3におけ
る時間波形再生は、分離されたケプストラムのそれぞれ
の時間波形を求める処理である。分離されたパルス列と
単位応答とを畳み込むと、もとの切り出された波形が得
られる。
[0007] The lifter means a filter in the keflesin region. Separation by the comb lifter in step 2
This is a process in which a cepstrum is separated into a component that is an integral multiple of the pitch period and other components using a comb-shaped lifter and an inverted comb-shaped lifter that performs the reverse process. The reproduction of the time waveform in step 3 is processing for obtaining the time waveform of each of the separated cepstrum. By convolving the separated pulse train with the unit response, the original cut out waveform is obtained.

【0008】ステップ4におけるパルス列の零位相化お
よび単位応答の逆補償について述べる。時間波形に戻さ
れたパルス列の各パルスがフレーム内に出現する位置お
よび振幅は音声波形に対する分析窓(ハニング窓)の位
置や長さがわずかに変化しただけでも大きく異なるた
め、ピッチ同期で分析合成を行うのが難しくなる。そこ
で、元の音声波形に対してパルスの位置を確定させなが
らピッチ同期を行い、かつ、このパルスをさらに先鋭化
してピッチ変更時の打切りや零詰めによるスペクトル変
形の影響を減少させるため、零位相化処理を行う。単位
応答は零位相化パルス列を畳み込んだときに元の切り出
し波形が得られるように、各フレームに対して得られる
単位応答に零位相化処理の逆の補償を行う。
The step 4 of zeroing the pulse train and the inverse compensation of the unit response will be described. Since the position and amplitude at which each pulse of the pulse train returned to the time waveform appears in the frame is significantly different even if the position or length of the analysis window (Hanning window) for the speech waveform is slightly changed, analysis and synthesis are performed by pitch synchronization. Is difficult to do. Therefore, pitch synchronization is performed while determining the position of the pulse with respect to the original speech waveform, and this pulse is further sharpened to reduce the effect of truncation at the time of pitch change and the effect of spectral deformation due to zero padding. Perform the conversion process. For the unit response, inverse compensation of the zero-phase processing is performed on the unit response obtained for each frame so that the original cut-out waveform is obtained when the zero-phased pulse train is convolved.

【0009】ステップ5におけるピッチパルスと単位応
答の記録は、零位相化パルス列のフレームから最大パル
スのみを切り出すためにそのパルスを中心としてピッチ
区間長のハニング窓をかけ、得られた最大パルスをフレ
ームを代表する駆動音源として逆補償された単位応答と
ともに記録する処理である。
In step 5, the pitch pulse and the unit response are recorded by applying a Hanning window of a pitch section length centering on the pulse to cut out only the maximum pulse from the frame of the zero-phased pulse train. This is a process of recording together with the inversely compensated unit response as the driving sound source representative of.

【0010】分析区間を移動して、上述したステップ1
〜ステップ5の処理を反復する。この操作によって、各
フレームについての零位相化されたピッチパルスと、対
応する逆補償された単位応答とが得られる。零位相化さ
れたピッチパルスをフレームごとに並べると、元の音声
に対応するピッチパルス列が構成できる。
The analysis section is moved, and the above-described step 1 is performed.
Step 5 is repeated. This operation results in a zero-phased pitch pulse for each frame and a corresponding decompensated unit response. By arranging the zero-phased pitch pulses for each frame, a pitch pulse train corresponding to the original speech can be formed.

【0011】図2に示した変換合成部のより詳細な処理
形態を図4に示す。ステップ1において、上述した得ら
れたパルス列の各ピッチ区間を所望の周期に変更する。
元の音声を低い声に下げる(ピッチを下げる)には、ピ
ッチパルス間に零つめを行ってピッチ間隔を延ばし、反
対に、ピッチを挙げる場合には、ピッチパルス間のデー
タを打ち切ってピッチ間隔を短縮する。ステップ2にお
いて、ピッチパルス列からピッチ区間ごとにピッチパル
スの間引きまたは繰り返しを行い、時間長に所望の変更
を施す。ステップ3において、各フレームを代表するピ
ッチパルスと対応する単位応答とをピッチ区間ごとに畳
み込む。これにより、得られる波形が各ピッチ区間を代
表する1ピッチ分の時間波形となる。ステップ4におい
て、得られたピッチパルス列の各パルスの位置にもとづ
いて重ね合わせる。
FIG. 4 shows a more detailed processing form of the conversion / synthesis unit shown in FIG. In Step 1, each pitch section of the obtained pulse train is changed to a desired cycle.
To lower the original voice to a lower voice (lower the pitch), the pitch interval is extended by performing zero rounding between the pitch pulses. Conversely, when raising the pitch, the data between the pitch pulses is censored and the pitch interval is reduced. To shorten. In step 2, pitch pulses are thinned out or repeated for each pitch section from the pitch pulse train, and a desired change is made to the time length. In step 3, the pitch pulse representing each frame and the corresponding unit response are convolved for each pitch section. Thereby, the obtained waveform becomes a time waveform for one pitch representing each pitch section. In step 4, superposition is performed based on the positions of the respective pulses in the obtained pitch pulse train.

【0012】図5(a)は図3を参照して述べた、図2
に示した分析部の概要図である。図5(b)は上述した
線形予測方法の声道フィルタの周波数特性図、(c)は
線形予測方法のピッチ変更を示すグラフ、(d)は図3
に示したパルス列処理によるピッチ変更を示すグラフ、
(e)は図3に示した処理による単位応答の周波数特性
図である。複素ケプストラム分析を適用した方法は、上
述した線形予測方法に比べて、情報の欠落なしに、音源
情報(パルス列)と声道情報(単位応答)とを明確に分
離でき、元の音声の特性を維持して音程を変換できると
いう効果を奏する。
FIG. 5 (a) is the same as FIG.
FIG. 3 is a schematic diagram of the analysis unit shown in FIG. FIG. 5B is a frequency characteristic diagram of the vocal tract filter of the above-described linear prediction method, FIG. 5C is a graph showing a pitch change of the linear prediction method, and FIG.
A graph showing pitch change by pulse train processing shown in
(E) is a frequency characteristic diagram of a unit response by the processing shown in FIG. 3. The method applying the complex cepstrum analysis can clearly separate the sound source information (pulse train) and the vocal tract information (unit response) without loss of information as compared with the linear prediction method described above, and can reduce the characteristics of the original speech. The effect is that the pitch can be converted while maintaining the pitch.

【0013】[0013]

【発明が解決しようとする課題】しかしながら、図3〜
図5を参照して述べた従来の音程変換装置は、音源波形
と声道成分の時間応答とを畳み込む際に位相調整を行う
必要があり、この位相調整が複雑なため、音程変換装置
全体の回路構成が複雑になるという問題に遭遇してい
る。加えて、位相調整に時間がかかるため、処理時間が
長くなり、応答性が低いという問題に遭遇している。
However, FIGS.
The conventional pitch conversion device described with reference to FIG. 5 needs to perform phase adjustment when convolving the sound source waveform and the time response of the vocal tract component, and since this phase adjustment is complicated, the entire pitch conversion device has A problem of complicated circuit configuration has been encountered. In addition, it takes a long time to adjust the phase, so that the processing time is long and the responsiveness is low.

【0014】本発明は、上述した従来の音程変換装置に
おける問題を解決し、比較的簡単な回路構成で、短時間
に音程変換が可能でし、しかも、より自然さを維持した
音程変換を可能とする音程変換装置を提供することを目
的とする。
The present invention solves the above-mentioned problems in the conventional pitch conversion device, and enables pitch conversion in a short time with a relatively simple circuit configuration, and also enables pitch conversion while maintaining more naturalness. It is an object of the present invention to provide a pitch conversion device.

【0015】[0015]

【課題を解決するための手段】本発明においては、上述
した問題を解決し、上記目的を達成するため、上述した
最初の従来の簡単な音程変換装置と、上述した最後の従
来の音程変換装置との利点を生かして、これらを折衷し
た音程変換装置を構成する。したがって、本発明によれ
ば、元の音声信号の位相を保存した状態で該音声のピッ
チを変更する手段と、該ピッチが変更された音声信号か
ら音源特性信号を抽出する手段と、前記元の音声信号か
ら声道特性信号を抽出する手段と、該抽出された声道特
性信号と前記抽出された音源特性信号とを用いて音声合
成する手段とを有する音程変換装置が提供される。
SUMMARY OF THE INVENTION In the present invention, in order to solve the above-mentioned problems and achieve the above-mentioned object, the first conventional simple pitch converting device described above and the last conventional pitch converting device described above are used. Taking advantage of the above, a pitch conversion device that compromises between them is constructed. Therefore, according to the present invention, means for changing the pitch of the sound while preserving the phase of the original sound signal, means for extracting a sound source characteristic signal from the sound signal with the changed pitch, A pitch conversion device is provided, comprising: means for extracting a vocal tract characteristic signal from a voice signal; and means for performing voice synthesis using the extracted vocal tract characteristic signal and the extracted sound source characteristic signal.

【0016】[0016]

【作用】まず、従来技術として最初に述べた方法と同様
に、元の音声を保存した状態で、音声のピッチを変更す
る。従来技術として最後に述べた方法と同様に、このピ
ッチ変更した音声信号から音源特性を抽出するととも
に、元の音声信号から声道特性を抽出する。これら抽出
された音源特性信号と声道特性信号とを音声合成する。
抽出された音源特性信号はすでにピッチ変更されてお
り、声道特性信号と位相調整をする必要がない。一方、
音源特性信号と声道特性信号を分離しているので音源特
性信号と声道特性信号とが明瞭に分離されており、もと
の音声の特性を保存した状態で音程を変更した音声が得
られる。
First, the pitch of the voice is changed while the original voice is preserved, as in the method first described as the prior art. As in the last-mentioned method of the prior art, the sound source characteristics are extracted from the pitch-changed audio signal and the vocal tract characteristics are extracted from the original audio signal. These extracted sound source characteristic signal and vocal tract characteristic signal are subjected to speech synthesis.
Since the pitch of the extracted sound source characteristic signal has already been changed, there is no need to adjust the phase with the vocal tract characteristic signal. on the other hand,
Since the sound source characteristic signal and the vocal tract characteristic signal are separated, the sound source characteristic signal and the vocal tract characteristic signal are clearly separated, so that a sound with a changed pitch can be obtained while maintaining the characteristics of the original sound. .

【0017】好適には、前記音声のピッチを変更は、音
声信号を書き込む周期と読み出す周期とを異ならせて、
ピッチを変更する。また好適には、前記音源特性信号の
抽出と、前記声道特性信号の抽出には、複素ケプストラ
ム分析を行う。さらに好適には、前記抽出された音源特
性信号と前記抽出された請求項特性信号とを乗じ、該乗
算結果を逆フーリエ変換し、該フーリエ変換された信号
を重複加算して音声合成を行う。
[0017] Preferably, the changing of the pitch of the voice is performed by changing a cycle of writing the voice signal and a cycle of reading the voice signal,
Change the pitch. Preferably, a complex cepstrum analysis is performed for the extraction of the sound source characteristic signal and the extraction of the vocal tract characteristic signal. More preferably, the extracted sound source characteristic signal is multiplied by the extracted claim characteristic signal, the result of the multiplication is inverse Fourier-transformed, and the Fourier-transformed signal is overlap-added to perform speech synthesis.

【0018】[0018]

【実施例】本発明の音程変換装置の実施例構成図を図1
に示す。図1に示した音程変換装置は、音声を収録する
マイクロフォン1、収録されたマイクロフォン収録音声
信号S1をディジタル信号に変換するA/D変換器2、
元のディジタル音声信号S2についてピッチ変換をする
元の音声信号ピッチ変更装置20、元のディジタル音声
信号S2から声道特性信号を抽出する第1の声道特性/
音源特性抽出装置6、ピッチ変換後のディジタル音声信
号S5から音源特性信号を抽出する第2の声道特性/音
源特性抽出装置7、および、抽出声道特性信号S6Bと
抽出音源特性信号S7Aとを合成する声道・音源合成装
置30、合成された音声信号をアナログ信号に変換する
D/A変換器11、増幅器12、および、スピーカ13
を有する。
FIG. 1 is a block diagram showing an embodiment of a pitch conversion apparatus according to the present invention.
Shown in The pitch converter shown in FIG. 1 includes a microphone 1 for recording voice, an A / D converter 2 for converting the recorded microphone-recorded voice signal S1 into a digital signal,
An original voice signal pitch changing device 20 for performing pitch conversion on the original digital voice signal S2, and a first vocal tract characteristic / for extracting a vocal tract characteristic signal from the original digital voice signal S2 /
A sound source characteristic extraction device 6, a second vocal tract characteristic / sound source characteristic extraction device 7 for extracting a sound source characteristic signal from the pitch-converted digital audio signal S5, and an extracted vocal tract characteristic signal S6B and an extracted sound source characteristic signal S7A. A vocal tract / sound source synthesizer 30 for synthesis, a D / A converter 11 for converting a synthesized voice signal into an analog signal, an amplifier 12, and a speaker 13
Having.

【0019】A/D変換器2は、たとえば、12KHZ
でマイクロフォン収録音声信号S1を元のディジタル音
声信号S2に変換する。元の音声信号ピッチ変更装置2
0は、メモリ書き込み装置3、メモリ4、および、メモ
リ読みだし装置5で構成されている。メモリ4はリング
バッファ構成の半導体メモリ、たとえば、DRAMであ
る。メモリ書き込み装置3はこのメモリ4に第1の周期
として12KHZ の一定の周期でA/D変換器2から出
力された元のディジタル音声信号S2をを書き込む。メ
モリ読みだし装置5は、たとえば、6〜24KHZ の範
囲で変化する周期(周波数)でメモリ4に書き込まれた
元のディジタル音声信号を読みだしディジタル音声信号
S4として読み出し、読みだし周波数で規定された周期
でピッチ変換後のディジタル音声信号S5として出力す
る。この読みだし周期は、変換する音程に応じて決定さ
れる。上記6〜24KHZ の範囲で変化する周期は、書
き込み周期12KHZ に対して、1/2〜2倍のオクタ
ーブでピッチ(音程)を変換可能な範囲を示す。たとえ
ば、1/2のオクターブに音程変換する場合は、読みだ
し周期は6KH Z に設定される。この場合、メモリ4か
らは1つごと間引かれた元のディジタル音声信号が周波
数される。一方、2倍のオクターブに音程変換する場合
は、読みだし周期は24KHZ に設定される。この場
合、メモリ4からは書き込まれた元のディジタル音声信
号が読み出される他、時系列上、前後する2つの元のデ
ィジタル音声信号を補間して、たとえば、直線補間し
て、不足する音声信号を補う。このピッチ変換において
は、元の音程信号の位相が保存されていることに留意さ
れたい。
The A / D converter 2 is, for example, 12 KHZ
To convert the microphone-recorded audio signal S1 into the original digital sound
It is converted to a voice signal S2. Original voice signal pitch changing device 2
0 is the memory writing device 3, the memory 4, and the memo
It comprises a rereading device 5. Memory 4 is a ring
A semiconductor memory having a buffer configuration, for example, a DRAM.
You. The memory writing device 3 stores the first cycle
12KH asZOutput from the A / D converter 2 at a constant cycle of
The input original digital audio signal S2 is written. Me
The memory reading device 5 is, for example, 6 to 24 KHZRange of
Is written to the memory 4 at a cycle (frequency) that varies with
Read out the original digital audio signal and read the digital audio signal
Read as S4, cycle specified by read frequency
To output as digital voice signal S5 after pitch conversion.
You. This reading cycle is determined according to the pitch to be converted.
It is. 6-24KH aboveZThe cycle that changes in the range of
Injection cycle 12KHZOctave of 1/2 to 2 times
Indicates the range in which the pitch (pitch) can be converted by the pitch. for example
For example, if you change the pitch to 1/2 octave, read
The cycle is 6KH ZIs set to In this case, memory 4
The original digital audio signal that has been decimated one by one
Be counted. On the other hand, when converting the pitch to double octave
Means that the read cycle is 24KHZIs set to This place
The original digital voice signal written from the memory 4
Signal is read, and the two original data
Digital audio signal interpolation, for example, linear interpolation
To compensate for the missing audio signal. In this pitch conversion
Note that the phase of the original pitch signal is preserved.
I want to be.

【0020】第1の声道特性/音源特性抽出装置6は、
最後に上述した従来の音程変換装置におけるように、複
素ケプストラム分析を行い、元のディジタル音声信号S
2から抽出音源特性信号(パルス列情報)S6Aと抽出
声道特性信号(フォルマント:単位応答情報)S6Bと
を分離して抽出する。ただし、抽出音源特性信号S6A
は使用せず、抽出声道特性信号S6Bのみ使用する。こ
の抽出声道特性信号S6Bも位相が保存されている点に
留意されたい。したがって、この第1の声道特性/音源
特性抽出装置6には、従来技術として述べた複素ケプス
トラム分析における位相調整回路は設けられていない。
なお、複素ケプストラム分析の方法としては、上述した
ように、「位相アンラップ方法」を用いることができる
他、位相アンラップを用いない方法、あるいは、一般的
な畳み込みの関係にある信号を特別な変換とフィルタリ
ングによって分解する準同型信号処理などを適用するこ
とができる。
The first vocal tract characteristic / sound source characteristic extracting device 6
Finally, a complex cepstrum analysis is performed as in the prior art pitch converter described above, and the original digital speech signal S
2, an extracted sound source characteristic signal (pulse train information) S6A and an extracted vocal tract characteristic signal (formant: unit response information) S6B are separated and extracted. However, the extracted sound source characteristic signal S6A
Are not used, and only the extracted vocal tract characteristic signal S6B is used. It should be noted that the phase of the extracted vocal tract characteristic signal S6B is also preserved. Therefore, the first vocal tract characteristic / sound source characteristic extraction device 6 is not provided with the phase adjustment circuit in the complex cepstrum analysis described as the related art.
In addition, as a method of the complex cepstrum analysis, as described above, in addition to the “phase unwrapping method”, a method that does not use the phase unwrapping, or a signal having a general convolution relation is subjected to a special conversion. Homomorphic signal processing that decomposes by filtering or the like can be applied.

【0021】第2の声道特性/音源特性抽出装置7は、
上述した第1の声道特性/音源特性抽出装置6と同様の
回路構成を有しており、ピッチ変換後のディジタル音声
信号S5から抽出音源特性信号S7Aと抽出声道特性信
号S7Bとを分離して抽出する。抽出声道特性信号S7
Bは使用せず、抽出音源特性信号S7Aのみが使用され
る。ピッチ変換後元のディジタル音声信号S5は上述し
たように、位相が保存されているから、抽出音源特性信
号S7Aも位相が保存されている。
The second vocal tract characteristic / sound source characteristic extracting device 7
It has the same circuit configuration as the above-described first vocal tract characteristic / sound source characteristic extraction device 6, and separates the extracted vocal tract characteristic signal S7A and the extracted vocal tract characteristic signal S7B from the digital voice signal S5 after pitch conversion. To extract. Extracted vocal tract characteristic signal S7
B is not used, and only the extracted sound source characteristic signal S7A is used. As described above, the phase of the original digital audio signal S5 after pitch conversion is preserved, so that the phase of the extracted sound source characteristic signal S7A is also preserved.

【0022】声道・音源合成装置30は、乗算器8、逆
FFT装置9、重複加算器10で構成されている。乗算
器8は、抽出声道特性信号S6Bと抽出音源特性信号S
7Aとを乗算して音源・声道乗算信号S8を出力する。
逆FFT装置9は、音源・声道乗算信号S8について高
速にフーリエ逆変換を行い、音源特性信号(パルス列)
の方を補償する。なお、高速にフーリエ逆変換を行うた
めに逆FFT(IFFT)を用いたが、原理的には、フ
ーリエ逆変換を行えばよい。重複加算器10は逆フーリ
エ変換信号S9を重複加算する、つまり、逆フーリエ変
換信号S9をフレームごとに重ね合わせて、音程変換さ
れた音声信号を再生する。
The vocal tract / sound source synthesizer 30 comprises a multiplier 8, an inverse FFT unit 9, and an overlap adder 10. The multiplier 8 includes an extracted vocal tract characteristic signal S6B and an extracted sound source characteristic signal S6B.
7A and outputs a sound source / vocal tract multiplication signal S8.
The inverse FFT device 9 performs an inverse Fourier transform on the sound source / vocal tract multiplication signal S8 at high speed, and generates a sound source characteristic signal (pulse train).
To compensate. Although the inverse FFT (IFFT) is used to perform the inverse Fourier transform at high speed, the inverse Fourier transform may be performed in principle. The overlap adder 10 overlap-adds the inverse Fourier transform signal S9, that is, overlaps the inverse Fourier transform signal S9 on a frame-by-frame basis to reproduce a pitch-converted audio signal.

【0023】D/A変換器11は重複加算信号S10を
アナログ信号に変換する。音程変換アナログ音声信号S
11は増幅器12において所定の利得で増幅され、増幅
音程変換アナログ音声信号S12がスピーカ13から出
力される。
The D / A converter 11 converts the overlap addition signal S10 into an analog signal. Pitch-converted analog audio signal S
11 is amplified by an amplifier 12 with a predetermined gain, and an amplified pitch-converted analog audio signal S12 is output from a speaker 13.

【0024】以上述べたように、上述した実施例におい
ては、元のディジタル音声信号S2を位相を保存した状
態で、元の音声信号ピッチ変更装置20において音程を
変換した後、第2の声道特性/音源特性抽出装置7にお
いて抽出音源特性信号S7Aを抽出し、また、元のディ
ジタル音声信号S2を位相を保存した状態で、第1の声
道特性/音源特性抽出装置6において抽出声道特性信号
S6Bを抽出しているから、抽出声道特性信号S6Bと
抽出音源特性信号S7Aとの合成の際、位相調整を行う
必要がない。したがって、簡単な回路構成で、短時間で
音程変換が実現できる。しかも、複素ケプストラム分析
により、音源特性と声道特性を明瞭に分離して抽出して
いるから、元の音声の自然さを維持し、個人の特徴も維
持して音程変換できる。
As described above, in the above-described embodiment, after the pitch of the original digital audio signal S2 is converted by the original audio signal pitch changing device 20 while the phase is preserved, the second vocal tract is changed. The characteristic / sound source characteristic extraction device 7 extracts the extracted sound source characteristic signal S7A, and the first digital vocal tract characteristic / sound source characteristic extraction device 6 extracts the extracted vocal tract characteristics in a state where the phase of the original digital audio signal S2 is preserved. Since the signal S6B is extracted, it is not necessary to adjust the phase when synthesizing the extracted vocal tract characteristic signal S6B and the extracted sound source characteristic signal S7A. Therefore, pitch conversion can be realized in a short time with a simple circuit configuration. Moreover, since the sound source characteristics and the vocal tract characteristics are clearly separated and extracted by the complex cepstrum analysis, the pitch can be converted while maintaining the naturalness of the original voice and the characteristics of the individual.

【0025】本発明の実施に際しては、上述した実施例
に限定されず、その他の種々の態様をとることができ
る。たとえば、上述した書き込み周期(周波数)と読み
だし周期は例示に過ぎない。また、メモリ読みだし装置
5における補間の方法としては、単なる直線補間の他、
種々の補間、たとえば、重みづけ補間などを適用でき
る。本発明の実施に際して、第1の声道特性/音源特性
抽出装置6、第2の声道特性/音源特性抽出装置7、逆
FFT装置9、重複加算器10などは公知の回路を使用
できるので、特に、詳細回路構成を明示しなかった。し
たがって、信号処理に適用する種々の複素ケプストラム
分析回路、逆FFT装置、重複加算器などを適用でき
る。
The embodiment of the present invention is not limited to the above-described embodiment, but may take other various forms. For example, the above-described write cycle (frequency) and read cycle are merely examples. As the method of interpolation in the memory reading device 5, in addition to simple linear interpolation,
Various interpolations, such as weighted interpolation, can be applied. In implementing the present invention, known circuits can be used for the first vocal tract characteristic / sound source characteristic extracting device 6, the second vocal tract characteristic / sound source characteristic extracting device 7, the inverse FFT device 9, the overlap adder 10, and the like. In particular, the detailed circuit configuration was not specified. Therefore, various complex cepstrum analysis circuits, inverse FFT devices, overlap adders, and the like applied to signal processing can be applied.

【0026】[0026]

【発明の効果】本発明によれば、簡単な回路構成で、短
時間に、元の音声き自然さ、個人的な特徴を維持して、
任意に音声信号を音程変換できる。
According to the present invention, the original voice sound naturalness and personal characteristics can be maintained in a short time with a simple circuit configuration.
The pitch of an audio signal can be arbitrarily changed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の音程変換装置の実施例構成図である。FIG. 1 is a configuration diagram of an embodiment of a pitch conversion device of the present invention.

【図2】音程変換装置の概念構成図である。FIG. 2 is a conceptual configuration diagram of a pitch conversion device.

【図3】従来の音程変換装置の第1の部分構成図であ
る。
FIG. 3 is a first partial configuration diagram of a conventional pitch conversion device.

【図4】従来の音程変換装置の第2の部分構成図であ
る。
FIG. 4 is a second partial configuration diagram of a conventional pitch conversion device.

【図5】従来の音程変換装置の部分構成とその処理特性
を示す図であって、(a)は図3を参照して述べた図2
に示した分析部の概要図、(b)線形予測方法の声道フ
ィルタの周波数特性図、(c)は線形予測方法のピッチ
変更を示すグラフ、(d)は図3に示したパルス列処理
によるピッチ変更を示すグラフ、(e)は図3に示した
処理による単位応答の周波数特性図である。
5A and 5B are diagrams showing a partial configuration of a conventional pitch conversion device and processing characteristics thereof, and FIG. 5A is a diagram showing FIG. 2 described with reference to FIG.
, (B) a frequency characteristic diagram of a vocal tract filter of the linear prediction method, (c) is a graph showing a pitch change of the linear prediction method, and (d) is based on the pulse train processing shown in FIG. FIG. 4E is a graph showing a pitch change, and FIG. 4E is a frequency characteristic diagram of a unit response by the processing shown in FIG.

【符号の説明】[Explanation of symbols]

1・・マイクロフォン 2・・A/D変換器 3・・メモリ書き込み装置 4・・メモリ 5・・メモリ読みだし装置 6・・第1の声道特性/音源特性抽出装置 7・・第2の声道特性/音源特性抽出装置 8・・乗算器 9・・逆FFT装置 10・・重複加算器 11・・D/A変換
器 12・・増幅器 13・・スピーカ 20・・元の音声信号ピッチ変更装置 30・・声道・音源合成装置 S1・・マイクロフォン収録音声信号 S2・・元のディジタル音声信号 S3・・書き込み用元のディジタル音声信号 S4・・読みだしディジタル音声信号 S5・・ピッチ変換後のディジタル音声信号 S6A・・抽出音源特性信号 S6B・・抽出声道特
性信号 S7A・・抽出音源特性信号 S7B・・抽出声道特
性信号 S8・・音源・声道乗算信号 S9・・逆フーリエ変
換信号 S10・・重複加算信号 S11・・音程変換ア
ナログ音声信号 S12・・増幅音程変換アナログ音声信号
1. Microphone 2. A / D converter 3. Memory writing device 4. Memory 5. Memory reading device 6. First vocal tract characteristic / sound source characteristic extraction device 7. Second voice Road characteristic / sound source characteristic extraction device 8. Multiplier 9. Inverse FFT device 10. Duplicate adder 11. D / A converter 12. Amplifier 13. Speaker 20. Original voice signal pitch changing device 30 vocal tract / sound source synthesizer S1 microphone sound signal S2 original digital audio signal S3 original digital audio signal for writing S4 read digital audio signal S5 digital after pitch conversion Voice signal S6A ... Extracted sound source characteristic signal S6B ... Extracted vocal tract characteristic signal S7A ... Extracted sound source characteristic signal S7B ... Extracted vocal tract characteristic signal S8 ... Sound source / vocal tract multiplication signal S9 ... Reverse Fourier transform signal S10: overlapping addition signal S11: pitch-converted analog voice signal S12: amplified pitch-converted analog voice signal

フロントページの続き (56)参考文献 特開 平3−259196(JP,A) 特開 平3−18900(JP,A) 特開 平2−137900(JP,A) 特開 昭58−43498(JP,A) 特開 昭51−83504(JP,A) 特開 平3−51899(JP,A) 特開 平1−147600(JP,A) 特開 平2−134699(JP,A) 特開 平1−304500(JP,A) 特開 平1−302299(JP,A) 実開 平4−37999(JP,U) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04 Continuation of the front page (56) References JP-A-3-259196 (JP, A) JP-A-3-18900 (JP, A) JP-A-2-137900 (JP, A) JP-A-58-43498 (JP) JP-A-51-83504 (JP, A) JP-A-3-51899 (JP, A) JP-A-1-147600 (JP, A) JP-A-2-134699 (JP, A) 1-304500 (JP, A) JP-A-1-302299 (JP, A) JP-A-4-37999 (JP, U) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 21/04

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】元の音声信号の位相を保存した状態で該音
声のピッチを変更する手段と、 該ピッチが変更された音声信号から音源特性信号を抽出
する手段と、 前記元の音声信号から声道特性信号を抽出する手段と、 該抽出された声道特性信号と前記抽出された音源特性信
号とを用いて音声合成する手段とを有する音程変換装
置。
A means for changing a pitch of the sound while preserving the phase of the original sound signal; a means for extracting a sound source characteristic signal from the sound signal having the changed pitch; A pitch conversion device comprising: means for extracting a vocal tract characteristic signal; and means for performing speech synthesis using the extracted vocal tract characteristic signal and the extracted sound source characteristic signal.
【請求項2】前記音声のピッチを変更する手段は、メモ
リと、このメモリに前記元の音声信号を第1の周期で書
き込む書き込み手段と、このメモリに書き込まれた音声
信号を第2の周期で読み出す読みだし手段を有し、 第1の周期と第2の周期との比率で前記音声のピッチを
規定する請求項1記載の音程変換装置。
2. The memory according to claim 1, wherein said means for changing the pitch of the voice includes a memory, a writing means for writing the original voice signal in the memory at a first cycle, and a voice signal written to the memory for a second cycle. 2. The pitch conversion device according to claim 1, further comprising: a reading unit that reads the audio data by using a ratio between a first period and a second period.
【請求項3】前記音源特性信号を抽出する手段は複素ケ
プストラム分析を行い、前記音源特性信号を抽出する請
求項1または2記載の音程変換装置。
3. The pitch conversion device according to claim 1, wherein the means for extracting the sound source characteristic signal performs a complex cepstrum analysis to extract the sound source characteristic signal.
【請求項4】前記請求項性信号を抽出する手段は複素ケ
プストラム分析を行い、前記請求項性信号を抽出する請
求項3記載の音程変換装置。
4. The pitch conversion device according to claim 3, wherein said means for extracting a claim signal performs a complex cepstrum analysis to extract the claim signal.
【請求項5】前記音声合成手段は、前記抽出された音源
特性信号と前記抽出された請求項特性信号とを乗ずる乗
算器と、 該乗算器の乗算結果を逆フーリエ変換する回路と、 該フーリエ変換された信号を重複加算する回路とを有す
る請求項4記載の音程変換装置。
5. A speech synthesizer, comprising: a multiplier for multiplying the extracted sound source characteristic signal by the extracted claim characteristic signal; a circuit for performing an inverse Fourier transform of a multiplication result of the multiplier; 5. The pitch conversion device according to claim 4, further comprising a circuit for overlappingly adding the converted signals.
JP10467093A 1993-04-30 1993-04-30 Pitch converter Expired - Fee Related JP3270869B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10467093A JP3270869B2 (en) 1993-04-30 1993-04-30 Pitch converter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10467093A JP3270869B2 (en) 1993-04-30 1993-04-30 Pitch converter

Publications (2)

Publication Number Publication Date
JPH06314099A JPH06314099A (en) 1994-11-08
JP3270869B2 true JP3270869B2 (en) 2002-04-02

Family

ID=14386911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10467093A Expired - Fee Related JP3270869B2 (en) 1993-04-30 1993-04-30 Pitch converter

Country Status (1)

Country Link
JP (1) JP3270869B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3265962B2 (en) * 1995-12-28 2002-03-18 日本ビクター株式会社 Pitch converter

Also Published As

Publication number Publication date
JPH06314099A (en) 1994-11-08

Similar Documents

Publication Publication Date Title
JP3294604B2 (en) Processor for speech synthesis by adding and superimposing waveforms
US4066842A (en) Method and apparatus for cancelling room reverberation and noise pickup
Moorer The use of linear prediction of speech in computer music applications
US20050065784A1 (en) Modification of acoustic signals using sinusoidal analysis and synthesis
US6507820B1 (en) Speech band sampling rate expansion
JP3430985B2 (en) Synthetic sound generator
US5787398A (en) Apparatus for synthesizing speech by varying pitch
JP3278863B2 (en) Speech synthesizer
JP3270869B2 (en) Pitch converter
JP3197975B2 (en) Pitch control method and device
JP2841797B2 (en) Voice analysis and synthesis equipment
JP2612867B2 (en) Voice pitch conversion method
Lin et al. High quality and low complexity pitch modification of acoustic signals
JPH1138997A (en) Noise suppression device and recording medium on which processing program for processing noise elimination of speech is recorded
JP2612869B2 (en) Voice conversion method
JP3035939B2 (en) Voice analysis and synthesis device
JP3083830B2 (en) Method and apparatus for controlling speech production time length
WO2002084885A1 (en) High frequency signal construction method and apparatus
JPH09510554A (en) Language synthesis
JP3929365B2 (en) Audio signal processing method, apparatus, and audio signal processing program
JPS5925239B2 (en) Parameter interpolation method
JP2615856B2 (en) Speech synthesis method and apparatus
JP3083829B2 (en) Voice pitch conversion method and apparatus
US6418406B1 (en) Synthesis of high-pitched sounds
JP4313740B2 (en) Reverberation removal method, program, and recording medium

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080125

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090125

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100125

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees