JP2008139573A - Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device - Google Patents

Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device Download PDF

Info

Publication number
JP2008139573A
JP2008139573A JP2006325884A JP2006325884A JP2008139573A JP 2008139573 A JP2008139573 A JP 2008139573A JP 2006325884 A JP2006325884 A JP 2006325884A JP 2006325884 A JP2006325884 A JP 2006325884A JP 2008139573 A JP2008139573 A JP 2008139573A
Authority
JP
Japan
Prior art keywords
voice
information
unit
quality conversion
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006325884A
Other languages
Japanese (ja)
Inventor
Satoshi Watanabe
聡 渡辺
Tsutomu Kaneyasu
勉 兼安
Takeshi Iwaki
健 岩木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006325884A priority Critical patent/JP2008139573A/en
Publication of JP2008139573A publication Critical patent/JP2008139573A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To obtain a method, a program and a device of vocal quality conversion capable of giving variation to synthesis voice, by converting voice sound to voiceless sound. <P>SOLUTION: The method for converting voice sound to voiceless sound comprises : an input step of inputting an original waveform; a prediction analysis step of predicting a transfer function from the original waveform which is input in the input step; a residual signal extracting step of extracting a residual signal by using output of the original waveform and the prediction analysis step; a white noise generating step of outputting a white noise signal corresponding to power of the residual signal; and a voice synthesizing step of performing voice synthesis based on the output of the white noise generating step and the transfer function which is predicted in the prediction analysis step. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、有声音を無声音に変換する方法、プログラム、及び装置に関するものである。   The present invention relates to a method, a program, and an apparatus for converting voiced sound to unvoiced sound.

従来、ささやき音声(無声音)を通常音声(有声音)に変換するための技術として、『ささやき音声分析手段12は、多量の学習用データ中のささやき音声を音声分析して、ささやきスペクトル情報を抽出する。また通常音声分析手段13は、学習用データ中の通常音声を音声分析して通常スペクトル情報を抽出する。そして写像関数推定手段14は多量のささやきスペクトル情報と通常スペクトル情報の対から写像関数を推定して記憶する。ささやき音声が入力されると、入力音声分析手段11は音声分析して入力スペクトル情報を抽出する。そしてスペクトル変換手段15は入力スペクトル情報を写像関数により変換スペクトル情報へと変換する。音声合成手段16は変換スペクトル情報から通常音声を合成して出力する。』というものが提案されている(特許文献1)。
特開平10−254473号公報(要約)
Conventionally, as a technique for converting a whispering voice (unvoiced sound) into a normal voice (voiced sound), “the whispering voice analysis means 12 analyzes the whispering voice in a large amount of learning data and extracts the whispering spectrum information. To do. The normal voice analysis means 13 analyzes normal voice in the learning data and extracts normal spectrum information. The mapping function estimation means 14 estimates and stores a mapping function from a large amount of whisper spectrum information and normal spectrum information pairs. When a whispering voice is input, the input voice analyzing means 11 analyzes the voice and extracts input spectrum information. Then, the spectrum converting means 15 converts the input spectrum information into converted spectrum information using a mapping function. The voice synthesizer 16 synthesizes a normal voice from the converted spectrum information and outputs it. Is proposed (Patent Document 1).
JP 10-254473 A (summary)

しかしながら、上記従来技術では、無声音を有声音にすることはできても、有声音を無声音にすることはできない。
そのため、有声音を無声音に変換することにより、合成音声にバリエーションを持たせることのできる声質変換方法、プログラム、及び装置が望まれていた。
However, in the above prior art, although the unvoiced sound can be made voiced, the voiced sound cannot be made unvoiced.
Therefore, there has been a demand for a voice quality conversion method, program, and apparatus that can give variations to synthesized speech by converting voiced sound to unvoiced sound.

本発明に係る声質変換方法は、
有声音を無声音に変換する方法であって、
原音波形を入力する入力ステップと、
前記入力ステップで入力された原音波形から伝達関数を予測する予測分析ステップと、
前記原音波形及び前記予測分析ステップの出力を用いて残差信号を抽出する残差信号抽出ステップと、
白色雑音信号を出力する白色雑音発生ステップと、
前記白色雑音発生ステップの出力と前記予測分析ステップで予測した伝達関数に基づき音声合成を行う音声合成ステップと、
を有することを特徴とするものである。
The voice quality conversion method according to the present invention includes:
A method for converting voiced sound to unvoiced sound,
An input step for inputting an original sound waveform;
A predictive analysis step of predicting a transfer function from the original sound waveform input in the input step;
A residual signal extraction step for extracting a residual signal using the original sound waveform and the output of the prediction analysis step;
A white noise generation step for outputting a white noise signal;
A speech synthesis step of performing speech synthesis based on the output of the white noise generation step and the transfer function predicted in the prediction analysis step;
It is characterized by having.

本発明に係る声質変換方法によれば、有声音を無声音に変換して出力することができるので、合成音声出力に、「ささやき声のように聞こえる」という新たなバリエーションを持たせることができる。   According to the voice quality conversion method of the present invention, voiced sound can be converted into unvoiced sound and output, so that a new variation of “sounds like a whisper” can be given to the synthesized voice output.

実施の形態1.
図1は、本発明の実施の形態1に係る声質変換装置100の機能ブロック図である。
声質変換装置100は、波形蓄積部101、LPC係数計算部102、残差信号抽出部103、白色雑音発生器104、パワー計算部105、振幅変換部106、音声合成部107を有する。
波形蓄積部101は、原音波形データを受け取り、例えば16kHz、16bit等のデジタルデータとして蓄積する。
LPC係数計算部102は、波形蓄積部101から原音波形データを読み取り、LPC分析(線形予測分析)を行って、LPC係数を算出する。分析の際のパラメータは、例えば分析窓長=20ms、分析次数=15次、などとする。
残差信号抽出部103は、LPC係数分析フィルタを用いて残差信号を抽出する。
白色雑音発生器104は、任意の時間長の白色雑音を発生する。
パワー計算部105は、与えられた信号系列データの平均パワー(2乗平均の平方根)を計算する機能と、2つの信号系列データの平均パワーから、その両信号系列データの平均振幅比を算出する機能と、を有する。
振幅変換部106は、与えられた信号系列データと振幅比の値を用いて、振幅変換演算を行う。
音声合成部107は、LPC合成フィルタを用いて音声合成を行う。
Embodiment 1 FIG.
FIG. 1 is a functional block diagram of voice quality conversion apparatus 100 according to Embodiment 1 of the present invention.
The voice quality conversion apparatus 100 includes a waveform storage unit 101, an LPC coefficient calculation unit 102, a residual signal extraction unit 103, a white noise generator 104, a power calculation unit 105, an amplitude conversion unit 106, and a voice synthesis unit 107.
The waveform accumulating unit 101 receives the original sound waveform data and accumulates it as digital data of 16 kHz, 16 bits, for example.
The LPC coefficient calculation unit 102 reads the original sound waveform data from the waveform storage unit 101, performs LPC analysis (linear prediction analysis), and calculates an LPC coefficient. The analysis parameters are, for example, analysis window length = 20 ms, analysis order = 15th order, and the like.
The residual signal extraction unit 103 extracts a residual signal using an LPC coefficient analysis filter.
The white noise generator 104 generates white noise having an arbitrary time length.
The power calculation unit 105 calculates the average amplitude ratio of the two signal series data from the function of calculating the average power (square mean square root) of the given signal series data and the average power of the two signal series data. And having a function.
The amplitude converter 106 performs an amplitude conversion operation using the given signal series data and the amplitude ratio value.
The voice synthesis unit 107 performs voice synthesis using an LPC synthesis filter.

波形蓄積部101、LPC係数計算部102、残差信号抽出部103、白色雑音発生器104、パワー計算部105、振幅変換部106、及び音声合成部107は、回路デバイスのようなハードウェアを用いて実現してもよいし、波形データ入出力のためのバッファを含むソフトウェアとして実現してもよい。
ソフトウェアとして実現する場合は、HDD(Hard Disk Drive)等にこれら各部の機能を実現するプログラムを格納しておき、マイコンやCPU等の演算装置がそのプログラムを読み込んで、プログラムの指示に従って各部の機能に相当する処理を実行するように構成する。処理フローは、図1に示す処理の流れと同様に構成すればよい。
なお、以下の実施の形態においても同様のことが言えることを付言しておく。
The waveform storage unit 101, LPC coefficient calculation unit 102, residual signal extraction unit 103, white noise generator 104, power calculation unit 105, amplitude conversion unit 106, and speech synthesis unit 107 use hardware such as a circuit device. Alternatively, it may be realized as software including a buffer for waveform data input / output.
When implemented as software, a program that realizes the functions of these units is stored in an HDD (Hard Disk Drive) or the like, and an arithmetic unit such as a microcomputer or CPU reads the program, and the functions of the units according to the instructions of the program Is configured to execute processing corresponding to the above. The processing flow may be configured similarly to the processing flow shown in FIG.
It should be noted that the same applies to the following embodiments.

ここで、声質変換装置100の詳細な構成説明と動作説明を行う前に、声質変換装置100が行う処理の内容を理解しやすくするため、有声音と無声音それぞれの特徴について説明する。   Here, before explaining the detailed configuration and operation of the voice quality conversion device 100, the characteristics of the voiced sound and the unvoiced sound will be described in order to facilitate understanding of the contents of the processing performed by the voice quality conversion device 100.

有声音とは、声帯の振動を伴う音声のことである。有声音の音声信号波形には、この声帯振動に対応した、ピッチと呼ばれる周期性が現れる。
一方、無声音とは、声帯の振動を伴わない音声のことである。無声音は声帯の振動が伴わないため、その音声信号には、これに起因する振動の周期性が現れない。
Voiced sound is sound accompanied by vocal cord vibration. In the voice signal waveform of voiced sound, a periodicity called pitch corresponding to this vocal cord vibration appears.
On the other hand, unvoiced sound is sound that does not involve vocal cord vibration. Since the voiceless sound is not accompanied by vocal cord vibration, the voice signal does not show the periodicity of vibration caused by the voice signal.

通常、発声は母音を始めとして有声音を多く含む。一方、ささやき声は、有声音を含まない音声である。従って、ささやき声の音声信号波形には、ピッチによる周期性が現れない。
例えば、同じ「こんにちわ」という音声であっても、通常発声とささやき声では、ピッチによる周期性の有無により音声信号の波形が大きく異なる。しかし、どちらの音声も人間の耳には「こんにちわ」と聞こえる点で共通であるので、音韻性の観点からは共通の音質的特長を持つ。即ち、通常発声とささやき声は、似て非なる音声であると言える。
Usually, the utterance includes many voiced sounds including vowels. On the other hand, a whisper is a voice that does not include a voiced sound. Therefore, the periodicity due to the pitch does not appear in the whistling voice signal waveform.
For example, even for the same “Konchiwa” voice, the waveform of the voice signal differs greatly depending on the presence or absence of periodicity depending on the pitch between the normal utterance and the whispering voice. However, since both voices are common in that they can be heard by the human ear, they have a common sound quality feature from the viewpoint of phonology. That is, it can be said that normal speech and whispering are similar and non-speech sounds.

本発明は有声音と無声音の上記の特徴に着目し、有声音から上述のピッチによる周期性を除去することにより、有声音を無声音に変換することを可能とする音声変換方法、プログラム、装置を提案するものである。
有声音を無声音に変換することにより、結果として人間の耳には、通常発声の音声をささやき声に変換したような効果が得られる。これにより、音声合成で「ささやき声」を生成することができるので、合成音声に「ささやき声」という新たなバリエーションが生まれることとなり、合成音声の表現の幅が広くなる。
The present invention focuses on the above characteristics of voiced sound and unvoiced sound, and removes the periodicity due to the pitch described above from voiced sound, thereby converting a voiced method, program, and apparatus that can convert voiced sound into unvoiced sound. It is what we propose.
By converting a voiced sound to an unvoiced sound, the effect of converting a normal uttered voice to a whispered voice can be obtained in the human ear as a result. As a result, a “whispering voice” can be generated by voice synthesis, so that a new variation of “whispering voice” is created in the synthesized voice, and the range of expression of the synthesized voice is widened.

以下は、声質変換装置100の詳細説明に戻る。   The following will return to the detailed description of the voice quality conversion device 100.

図2は、LPC係数計算部102〜残差信号抽出部103に相当する部分の具体的な構成を示すブロック図である。
LPC係数計算部102は、波形蓄積部101から、所定の時間長の原音波形信号に相当するデータを受け取り、あらかじめ定められた次数n(ここではn=15程度を想定)で、線形予測係数(LPC係数)α1〜αnを推定する演算を行う。LPC係数α1〜αnを求めることは、声道の伝達関数を時間軸上で求めることに相当する。
原音波形信号データと、求められたLPC係数α1〜αnを用いて原音波形を予測した予測波形信号データとから、残差信号に相当するデータを得ることができる。
LPC係数α1〜αnを算出しているブロックが、図1のLPC係数計算部102に相当する。また、原音波形信号と予測波形信号から残差信号を求めている部分が、残差信号抽出部103に相当する。
FIG. 2 is a block diagram showing a specific configuration of portions corresponding to the LPC coefficient calculation unit 102 to the residual signal extraction unit 103.
The LPC coefficient calculation unit 102 receives data corresponding to an original sound waveform signal having a predetermined time length from the waveform storage unit 101, and uses a linear prediction coefficient (in this case, assuming n = 15) with a predetermined order n. LPC coefficient) α1 to αn are estimated. Obtaining the LPC coefficients α1 to αn corresponds to obtaining the transfer function of the vocal tract on the time axis.
Data corresponding to the residual signal can be obtained from the original sound waveform signal data and the predicted waveform signal data in which the original sound waveform is predicted using the obtained LPC coefficients α1 to αn.
The blocks for which the LPC coefficients α1 to αn are calculated correspond to the LPC coefficient calculation unit 102 in FIG. Further, the part for which the residual signal is obtained from the original sound waveform signal and the predicted waveform signal corresponds to the residual signal extraction unit 103.

次に、声質変換装置100の動作について、ステップを追って説明する。   Next, the operation of the voice quality conversion device 100 will be described step by step.

(1)原音波形データの蓄積
波形蓄積部101は、原音波形データを受け取り、例えば16kHz、16bit等のデジタルデータとして一旦蓄積する。蓄積した原音波形データは、LPC係数計算部102と残差信号抽出部103に出力される。
蓄積の粒度は、原音波形データの全てを蓄積するように構成してもよいし、所定のフレーム長のデータを受け取って、逐次LPC係数計算部102と残差信号抽出部103に出力することを、データ終了まで繰り返すように構成してもよい。
なお、図1には記載していないが、原音波形データを受け取るための入力部を必要に応じて設ける。入力部の構成としては、例えば有線のデジタル又はアナログのインターフェースや、LANインターフェースなどのネットワークインターフェースが考えられる。
(1) Accumulation of original sound waveform data The waveform accumulation unit 101 receives the original sound waveform data and temporarily accumulates it as digital data of 16 kHz, 16 bits, for example. The accumulated original sound waveform data is output to the LPC coefficient calculation unit 102 and the residual signal extraction unit 103.
The storage granularity may be configured to store all of the original sound waveform data, or to receive data of a predetermined frame length and sequentially output it to the LPC coefficient calculation unit 102 and the residual signal extraction unit 103. It may be configured to repeat until the end of data.
Although not shown in FIG. 1, an input unit for receiving the original sound waveform data is provided as necessary. As the configuration of the input unit, for example, a wired digital or analog interface or a network interface such as a LAN interface can be considered.

(2)LPC係数の計算
LPC係数計算部102は、波形蓄積部101より所定のフレーム長の原音波形データを受け取り、図2に示したような構成を用いてLPC分析を行い、LPC係数α1〜αnを算出する。
求めたLPC係数α1〜αnを用いて原音波形を予測した予測波形信号データは、残差信号抽出部103に出力される。
なお、波形蓄積部101がいずれの粒度で原音波形データを蓄積しているかを問わず、LPC分析は所定のフレーム長で実行するので、1度のLPC分析を行う際に波形蓄積部101より受け取る原音波形データは、LPC分析に必要なフレーム長に相当する分でよい。
LPC分析の実行は、1度に分析を行うフレーム長分の分析が完了するごとに逐次実行するようにしてもよいし、後続のステップ(3)以降の処理が終了するまで待機していてもよい。いずれの方式とするかは、演算速度や音声出力バッファの同期処理の実装方式などにもよるため、適宜適切な方式を選択すればよい。
(2) Calculation of LPC coefficient The LPC coefficient calculation unit 102 receives original sound waveform data having a predetermined frame length from the waveform storage unit 101, performs LPC analysis using the configuration shown in FIG. αn is calculated.
Predicted waveform signal data in which the original sound waveform is predicted using the obtained LPC coefficients α1 to αn is output to the residual signal extraction unit 103.
Note that the LPC analysis is performed with a predetermined frame length regardless of the granularity of the waveform accumulating unit 101 that accumulates the original sound waveform data, so that it is received from the waveform accumulating unit 101 when performing one LPC analysis. The original sound waveform data may correspond to the frame length necessary for the LPC analysis.
The execution of the LPC analysis may be performed sequentially every time the analysis for the frame length to be analyzed at once is completed, or even if the processing after the subsequent step (3) is completed. Good. Which method is used depends on the calculation speed, the method of implementing the synchronization processing of the audio output buffer, and the like, and therefore an appropriate method may be selected as appropriate.

(3)残差信号の抽出
残差信号抽出部103は、波形蓄積部101から受け取った原音波形データと、LPC係数計算部102が出力した予測波形データを用いて、残差信号データを抽出する。
得られた残差信号データは、パワー計算部105に出力される。
(3) Extraction of residual signal The residual signal extraction unit 103 extracts residual signal data using the original sound waveform data received from the waveform storage unit 101 and the predicted waveform data output from the LPC coefficient calculation unit 102. .
The obtained residual signal data is output to the power calculation unit 105.

(4)白色雑音の出力
白色雑音発生器104は、任意の時間長の白色雑音波形データをパワー計算部105と振幅変換部106に出力する。
出力のタイミングは、残差信号抽出部103が残差信号データをパワー計算部105に出力した時点でもよいし、常時継続的に白色雑音を出力し続けてもよい。
白色雑音波形データの時間長については、次のステップ(5)で述べる。
(4) White Noise Output The white noise generator 104 outputs white noise waveform data having an arbitrary time length to the power calculator 105 and the amplitude converter 106.
The output timing may be the time when the residual signal extraction unit 103 outputs the residual signal data to the power calculation unit 105, or the white noise may be continuously output continuously.
The time length of the white noise waveform data will be described in the next step (5).

(5)平均パワー比の計算
パワー計算部105は、残差信号抽出部103が出力した残差信号データから残差信号の平均パワー(=Pr)を計算するとともに、白色雑音発生器104が出力した白色雑音波形データの平均パワー(=Pn)を計算する。
計算に際してのデータの時間長は、LPC係数計算部102がLPC分析を行う際の時間長に合わせる。計算方法は、各サンプル値の2乗平均でもよいし、直前の数フレームの平均値を保持するようにし、これらを用いて平滑化して求めてもよい。
次に、パワー計算部105は、上記の2つの信号系列データの平均パワーから、その両信号系列データの平均振幅比(=Pr/Pn)を算出する。
求めた平均振幅比は、振幅変換部106に出力される。
(5) Calculation of Average Power Ratio The power calculation unit 105 calculates the average power (= Pr) of the residual signal from the residual signal data output from the residual signal extraction unit 103, and the white noise generator 104 outputs The average power (= Pn) of the obtained white noise waveform data is calculated.
The time length of data at the time of calculation is adjusted to the time length when the LPC coefficient calculation unit 102 performs LPC analysis. The calculation method may be a mean square of each sample value, or may be obtained by smoothing using the average value of several previous frames.
Next, the power calculation unit 105 calculates the average amplitude ratio (= Pr / Pn) of the two signal series data from the average power of the two signal series data.
The obtained average amplitude ratio is output to the amplitude converter 106.

(6)白色雑音の振幅変換
振幅変換部106は、パワー計算部105より受け取った平均振幅比の値(=Pr/Pn)と、白色雑音発生器104より受け取った白色雑音波形データを用いて、振幅変換演算を行う。具体的には、白色雑音波形データの各サンプル値に平均振幅比を乗算することにより、パワースケールを調整して、新たな雑音波形データを得る。
得られた振幅変換済みの雑音波形データは、音声合成部107に出力される。
(6) White Noise Amplitude Conversion The amplitude conversion unit 106 uses the average amplitude ratio value (= Pr / Pn) received from the power calculation unit 105 and the white noise waveform data received from the white noise generator 104. Performs amplitude conversion calculation. Specifically, the power scale is adjusted by multiplying each sample value of the white noise waveform data by the average amplitude ratio to obtain new noise waveform data.
The obtained noise waveform data subjected to amplitude conversion is output to the speech synthesizer 107.

(7)音声合成
音声合成部107は、振幅変換部106より受け取った振幅変換済みの雑音波形データと、LPC係数計算部102が算出したLPC係数α1〜αnを用いて構成したLPC合成フィルタを用いて、音声合成を行う。
合成した音声波形データは、声質変換装置100の最終出力となる。
(7) Speech Synthesis The speech synthesis unit 107 uses an LPC synthesis filter configured using the amplitude waveform-converted noise waveform data received from the amplitude conversion unit 106 and the LPC coefficients α1 to αn calculated by the LPC coefficient calculation unit 102. Voice synthesis.
The synthesized speech waveform data is the final output of the voice quality conversion device 100.

以上の処理により得られる合成音声は、残差信号を白色雑音に変換したことにより、上述のピッチ成分の周期性が除去されていることになる。即ち、人間の耳には、元々有声音であった原音波形が、ささやき声のような無声音に変換されているように聞こえる。
音声合成部107が用いるLPC合成フィルタは、LPC係数計算部102が算出したLPC係数α1〜αnを用いて構成しているので、原音波形の音韻性は維持されていることになるため、例えば原音が有声音の「こんにちわ」であれば、変換後の合成音声はささやき声の「こんにちわ」に聞こえる。
The synthesized speech obtained by the above processing has the above-described periodicity of the pitch component removed by converting the residual signal into white noise. That is, it is heard to the human ear as if the original sound waveform which was originally voiced sound is converted to an unvoiced sound like a whisper.
Since the LPC synthesis filter used by the speech synthesizer 107 is configured using the LPC coefficients α1 to αn calculated by the LPC coefficient calculator 102, the phonological property of the original sound waveform is maintained. If “Konchiwa” is a voiced sound, the synthesized speech after conversion is heard as “Konichiwa” of whispering voice.

なお、本実施の形態1では、LPC分析により声道の伝達関数を予測する方法を用いたが、必ずしもLPC分析を用いる必要はなく、例えばPARCOR(偏自己相関)係数やLSP(線スペクトル対)係数を用いる方法であってもよい。
即ち、原音波形の音韻性を維持することができればよく、伝達関数を予測する方法はLPC分析に限られるものではない。
以後の実施の形態についても同様である。
In the first embodiment, a method for predicting the transfer function of the vocal tract by LPC analysis is used. However, it is not always necessary to use LPC analysis. For example, a PARCOR (partial autocorrelation) coefficient or an LSP (line spectrum pair) is used. A method using a coefficient may be used.
That is, it is only necessary to maintain the phoneme of the original sound waveform, and the method for predicting the transfer function is not limited to LPC analysis.
The same applies to the following embodiments.

以上のように、本実施の形態1によれば、有声音を無声音に変換して出力することができるので、合成音声出力に、「ささやき声のように聞こえる」という新たなバリエーションを持たせることができる。
合成音声のバリエーションが増えることは、音声によるユーザインターフェースを人間にとってより親しみやすくすることに繋がり、日常接する様々な機器において、マンマシンインターフェースとしてこれを応用することが期待できる。
As described above, according to the first embodiment, since voiced sound can be converted into unvoiced sound and output, a new variation of “sounds like a whisper” can be given to the synthesized voice output. it can.
The increase in the variation of synthesized speech leads to making the user interface by speech more familiar to humans, and it can be expected that this will be applied as a man-machine interface in various devices that come in contact with everyday life.

実施の形態2.
本発明の実施の形態2では、任意のタイミングで無音部を挿入することのできる声質変換装置の構成について説明する。
Embodiment 2. FIG.
In the second embodiment of the present invention, a configuration of a voice quality conversion apparatus that can insert a silent part at an arbitrary timing will be described.

図3は、本発明の実施の形態2に係る声質変換装置100の機能ブロック図である。
本実施の形態2に係る声質変換装置100は、音声合成部107の出力側に、新たに無音挿入部108を設けている。その他の構成は実施の形態1の図1で説明したものと同様であるため、同じ符号を付して説明を省略する。
FIG. 3 is a functional block diagram of voice quality conversion apparatus 100 according to Embodiment 2 of the present invention.
The voice quality conversion apparatus 100 according to the second embodiment further includes a silence insertion unit 108 on the output side of the speech synthesis unit 107. Other configurations are the same as those described in FIG. 1 of the first embodiment, and thus the same reference numerals are given and description thereof is omitted.

無音挿入部108は、音声合成部107から声質変換処理済の合成音声波形データを受け取るとともに、声質変換装置100の外部よりモーラ情報と変換規則情報を受け取り、これらの情報を用いて、合成音声に無音部を挿入して出力する。
モーラ情報と変換規則情報については、次の図4で説明する。
The silence insertion unit 108 receives the synthesized voice waveform data subjected to the voice quality conversion process from the voice synthesis unit 107, receives the mora information and the conversion rule information from the outside of the voice quality conversion device 100, and uses these information to make the synthesized voice. Insert silence and output.
The mora information and the conversion rule information will be described with reference to FIG.

図4は、モーラ情報と変換規則情報について説明するものである。
モーラとは、音韻上一定の時間的長さをもった音の分節単位のことであり、音の「拍」に相当する。即ちモーラ情報とは、発生された音声の拍に関する時間情報のことである。一般に、促音、撥音、長音は音が出ていなくても一拍とカウントする。
例えば「おきでんきちゃん」という原音は(図4の(1))、「お」「き」「で」「ん」「き」「ちゃ」「ん」と7拍で発音される。
モーラ情報は、その拍の区切りが発音音声中のいずれのタイミングに存在するかを時間軸上で表したものである。例えば上述の「おきでんきちゃん」が0.7秒で発音される場合、各拍の区切りが0.1秒毎に等間隔で6つ存在する、といったような情報である(図4の(2))。
無音挿入部108は、このモーラ情報を与えられることにより、いずれのタイミングで拍の区切りとすればよいかが分かる。
FIG. 4 explains mora information and conversion rule information.
A mora is a segmental unit of a sound having a certain time length in terms of phoneme, and corresponds to a “beat” of a sound. That is, the mora information is time information related to the beat of the generated voice. In general, sound, repellent sound, and long sound are counted as one beat even if no sound is produced.
For example, the original sound “Okiden-chan” ((1) in FIG. 4) is pronounced in seven beats, “O”, “Ki”, “De”, “N”, “Ki”, “Cha”, “N”.
The mora information represents on the time axis whether the beat breaks are present in the pronunciation sound. For example, in the case where the above-mentioned “Oidenki-chan” is pronounced in 0.7 seconds, there is information such that there are six breaks at equal intervals every 0.1 second ((2 in FIG. 4). )).
The silent insertion unit 108 is given this mora information and can know at which timing the beat should be divided.

変換規則情報は、上述のモーラ情報で表される拍の区切りに、それぞれ何秒の無音部を挿入するかの規則を表す。
例えば図4(3)に示すように、1拍目と4拍目の終わりに0.06秒の無音部を挿入し、2拍目、3拍目、5拍目の終わりに0.04秒の無音部を挿入する、といったように個別の拍に対して無音部の挿入規則を設定することが考えられる。
あるいは、1モーラに相当する時間をあらかじめ定めておき、「全モーラに対して、終了後に1モーラ分の無音部を挿入する。」、あるいは「全モーラに対して、終了後に2モーラ分の無音部を挿入する。ただし最後から2番目のモーラには挿入しない。」といったように、ルールベースで定めることもできる。
The conversion rule information represents a rule of how many seconds of silence are inserted in each beat segment represented by the mora information.
For example, as shown in FIG. 4 (3), a 0.06 second silence is inserted at the end of the first and fourth beats, and 0.04 seconds at the end of the second, third, and fifth beats. It is conceivable to set a silence insertion rule for each individual beat, such as inserting a silent part.
Alternatively, a time corresponding to 1 mora is determined in advance, and “a silence part for 1 mora is inserted after completion for all mora.” Or “silence for 2 mora after completion for all mora. It can also be determined on a rule basis, such as “Insert part, but not in the second mora from the end.”

無音挿入部108は、音声合成部107から声質変換処理済の合成音声波形データを受け取り、上述のモーラ情報と変換規則情報により定められる部分に無音部を挿入して出力する。
さらに、雑音防止のため、無音部挿入の前後にフェードイン・フェードアウトのような振幅変換処理を加えてもよい。これにより、無音部を挿入しても、スムーズな変換後音声が得られる。
無音挿入部108の出力は、声質変換装置100の最終出力となる。
The silence inserting unit 108 receives the synthesized voice waveform data subjected to the voice quality conversion processing from the voice synthesizing unit 107, inserts the silence part into the part determined by the above-described mora information and the conversion rule information, and outputs it.
Furthermore, in order to prevent noise, amplitude conversion processing such as fade-in / fade-out may be added before and after the silent part is inserted. Thereby, even if a silence part is inserted, a smooth converted voice can be obtained.
The output of the silence insertion unit 108 is the final output of the voice quality conversion device 100.

本実施の形態2では、変換規則は声質変換装置100の外部から与えられるものとして説明したが、声質変換装置100の内部に記憶手段を設けてその中にあらかじめ格納しておいてもよい。
モーラ情報は、原音波形の拍を表す情報であるため、原音波形を提供する側でなければその情報を提供することができないが、原音の内容が限られているなどによりあらかじめ原音を知ることができるのであれば、声質変換装置100の内部に備えておいてもよい。
モーラ情報と変換規則情報を外部から受け取る方法は、例えば声質変換装置100に操作部を設けるなどしてユーザに直接入力させるものでもよいし、LANインターフェースのようなネットワークを介した送受信手段を用いて取得するものでもよい。あるいは、声質変換装置100の外部に設けられた記憶手段から読み取るものでもよい。
さらには、原音が合成音声である場合は、音声合成の過程で音素の継続時間情報などが得られるため、この場合は変換規則情報のみを外部から供給すればよい。
In the second embodiment, the conversion rule is described as being given from the outside of the voice quality conversion apparatus 100. However, a storage unit may be provided inside the voice quality conversion apparatus 100 and stored in advance therein.
Since the mora information is information representing the beat of the original sound waveform, the information cannot be provided unless it is the side that provides the original sound waveform, but it is possible to know the original sound in advance because the content of the original sound is limited. If possible, it may be provided inside the voice quality conversion device 100.
As a method for receiving mora information and conversion rule information from the outside, for example, an operation unit may be provided in the voice quality conversion device 100 to allow the user to directly input the information, or transmission / reception means via a network such as a LAN interface may be used. It may be acquired. Or you may read from the memory | storage means provided outside the voice quality conversion apparatus 100. FIG.
Furthermore, when the original sound is synthesized speech, phoneme duration information and the like are obtained in the process of speech synthesis. In this case, only conversion rule information needs to be supplied from the outside.

本実施の形態2では、声質変換装置100内に無音挿入部108を設けたが、声質変換装置100は実施の形態1と同様の構成とし、無音挿入部108に相当する装置を声質変換装置100の出力端に接続するように構成しても、本実施の形態2と同様の効果を得ることができる。   In the second embodiment, the silence insertion unit 108 is provided in the voice quality conversion device 100. However, the voice quality conversion device 100 has the same configuration as that of the first embodiment, and a device corresponding to the silence insertion unit 108 is a voice quality conversion device 100. Even if it is configured to be connected to the output terminal, the same effect as in the second embodiment can be obtained.

以上のように、本実施の形態2によれば、無声化した合成音声に無音部を挿入して孤立発声したような聴覚効果を与えることができるので、合成音声の表現の幅が実施の形態1よりもさらに広がる。
また、無音部挿入の前後の波形にフェードイン・フェードアウトなどの処理を施すことにより、無音部挿入前後で音が不自然に途切れることがなく、人間の聴覚にもスムーズに聞こえて負担が少ない。
As described above, according to the second embodiment, since it is possible to provide an auditory effect as if a voice is isolated by inserting a silent part into a voice that has been silenced, the range of expression of the voice can be increased. More than one.
Further, by applying a process such as fade-in / fade-out to the waveform before and after the silent section is inserted, the sound is not unnaturally interrupted before and after the silent section is inserted, and the human hearing can be heard smoothly and less burdened.

実施の形態3.
本発明の実施の形態3では、任意の部分を長音化することのできる声質変換装置の構成について説明する。
ここでいう長音化とは、「おきでんきちゃん」という音声を「おーきーでーんーきーちゃーん」というように変換することである。
Embodiment 3 FIG.
In the third embodiment of the present invention, a configuration of a voice quality conversion apparatus capable of making an arbitrary part longer sound will be described.
In this case, the longer sound is to convert the voice of “Oidenki-chan” to “Oki-Den-Ki-Chan”.

図5は、本実施の形態3に係る声質変換装置100の機能ブロック図である。実施の形態1で説明した図1との差異点のみ説明する。
本実施の形態3に係る声質変換装置100は、LPC係数補完部109を備える。
LPC係数計算部102が算出したLPC係数α1〜αnは、LPC係数補完部109に出力される。
LPC係数補完部109は、LPC係数α1〜αn、モーラ情報、変換規則情報を受け取り、後述の演算を行ってLPC係数α1〜αnを時間軸上で補完する。
白色雑音発生器104は、モーラ情報と変換規則情報を受け取り、長音化後の時間長に相当する白色雑音信号データを出力する。
FIG. 5 is a functional block diagram of voice quality conversion apparatus 100 according to the third embodiment. Only differences from FIG. 1 described in the first embodiment will be described.
Voice quality conversion apparatus 100 according to Embodiment 3 includes LPC coefficient complementing section 109.
The LPC coefficients α1 to αn calculated by the LPC coefficient calculation unit 102 are output to the LPC coefficient complementing unit 109.
The LPC coefficient complementing unit 109 receives the LPC coefficients α1 to αn, the mora information, and the conversion rule information, and performs calculations described later to supplement the LPC coefficients α1 to αn on the time axis.
The white noise generator 104 receives the mora information and the conversion rule information, and outputs white noise signal data corresponding to the length of time after making the sound longer.

次に、LPC係数補完部109が行うLPC係数α1〜αnの補完処理の詳細を説明する。   Next, the details of the LPC coefficient α1-αn complementing process performed by the LPC coefficient complementing unit 109 will be described.

LPC係数補完部109は、入力されたLPC係数α1〜αnを時間軸方向に伸張する。例えば、ある時刻tにおけるLPC係数をα1(t)、・・・、αn(t)とする。
tは5ms間隔で与えられ、継続時間長が100msであるとすると、その音素のLPC係数は次式(式1)で表される。
α1(t)、・・・、αn(t)・・・(式1)
t=0、5、10、・・・、100
The LPC coefficient complementing unit 109 extends the input LPC coefficients α1 to αn in the time axis direction. For example, let L1 coefficients at a certain time t be α1 (t),..., Αn (t).
If t is given at intervals of 5 ms and the duration is 100 ms, the LPC coefficient of the phoneme is expressed by the following equation (Equation 1).
α1 (t),..., αn (t) (Equation 1)
t = 0, 5, 10,..., 100

この時間長を2倍の200msに伸張する場合、次のように変換する。
(1)単純伸張
まず、単純に時間軸上で2倍に引き伸ばす。引き伸ばした後のPC係数は次式(式2)で表される。
α1(t)、・・・、αn(t)・・・(式2)
t=0、10、20、・・・、200
(2)式2ではLPC係数が10ms間隔となり、t=5、15、・・・、195に相当する値が存在しないので、次式(式3)で補完する。
αn(t)=(αn(t−5)+αn(t+5))/2・・・(式3)
t=5、15、25、・・・、195
When this time length is extended to 200 ms, which is twice as long, conversion is performed as follows.
(1) Simple extension First, it is simply extended twice on the time axis. The PC coefficient after stretching is expressed by the following formula (Formula 2).
α1 (t),..., αn (t) (Formula 2)
t = 0, 10, 20,..., 200
(2) In Equation 2, since the LPC coefficient is 10 ms apart and there is no value corresponding to t = 5, 15,..., 195, it is supplemented by the following Equation (Equation 3).
αn (t) = (αn (t−5) + αn (t + 5)) / 2 (Expression 3)
t = 5, 15, 25, ..., 195

以上の補完処理により、時間軸上で2倍に伸張しても、5ms間隔のLPC係数が得られる。
具体的にどの程度の時間伸張するかは、モーラ情報と変換規則情報により定まる。即ち、これらの情報を用いて原音を長音化した後の時間長に相当するように伸張すればよい。白色雑音についても同様のことが言える。
With the above complement processing, LPC coefficients at intervals of 5 ms can be obtained even if they are doubled on the time axis.
Specifically, how much time is extended is determined by the mora information and the conversion rule information. That is, the information may be extended so as to correspond to the time length after the original sound is made longer. The same is true for white noise.

本実施の形態3に係る声質変換装置100の全体的な動作は、実施の形態1で説明したものとほぼ同様である。相違点は、上述のように白色雑音発生器104の出力がモーラ情報と変換規則情報に基づいている点と、音声合成部107がLPC係数補完部109により補完処理された後のLPC係数を用いて音声合成を行う点である。
以上の処理を行うことにより、モーラ情報と変換規則情報で定められる部分が長音化された無声化済みの合成音声が得られる。
The overall operation of voice quality conversion apparatus 100 according to the third embodiment is substantially the same as that described in the first embodiment. The difference is that, as described above, the output of the white noise generator 104 is based on the mora information and the conversion rule information, and the LPC coefficient after the speech synthesis unit 107 is complemented by the LPC coefficient complementing unit 109 is used. This is the point of voice synthesis.
By performing the above processing, a devoiced synthesized speech in which the part defined by the mora information and the conversion rule information is lengthened is obtained.

本実施の形態3に係る声質変換装置100は、該当するモーラについて、スペクトルパラメータを時間軸上で伸張補完して利用することで、長音化を行う。そのため、LPC係数よりも一般に補完特性がよいPARCOR係数やLSP係数を用いることが好ましい。   The voice quality conversion apparatus 100 according to the third embodiment increases the sound length of the corresponding mora by using the spectrum parameter with the extension complemented on the time axis. For this reason, it is preferable to use a PARCOR coefficient or an LSP coefficient which generally has better complementary characteristics than the LPC coefficient.

以上のように、本実施の形態3によれば、無声化した合成音声を長音化することができるので、合成音声の口調のバリエーションがさらに広がる。   As described above, according to the third embodiment, since the devoiced synthesized voice can be made longer, variations in the tone of the synthesized voice are further expanded.

実施の形態4.
本発明の実施の形態4では、原音波形のフレームごとに有声音・無声音のいずれであるかを判定し、有声音のフレームのみ無声化処理を行う声質変換装置の構成を説明する。
Embodiment 4 FIG.
In the fourth embodiment of the present invention, a configuration of a voice quality conversion apparatus that determines whether a voiced sound or an unvoiced sound is generated for each frame of the original sound waveform and performs the unvoiced process only on the frame of the voiced sound will be described.

図6は、本実施の形態4に係る声質変換装置100の機能ブロック図である。
同図の声質変換装置100の構成は、実施の形態1の図1とほぼ同様であるが、残差信号抽出部103とパワー計算部105の間に有声無声判定部110を新たに設けた点が、主に異なる点である。
残差信号抽出部103は、原音波形データと残差信号波形データの双方を有声無声判定部110に出力するように構成しておく。
有声無声判定部110は、原音波形データもしくは残差信号波形データを残差信号抽出部103より受け取り、フレーム毎に自己相関関数を求めるなどして、そのフレームが有声音・無声音のいずれであるかを判定する。
そのフレームが有声音である場合は、残差信号抽出部103より受け取った残差信号波形データをパワー計算部105に出力する。以後の処理は実施の形態1と同様である。
そのフレームが無声音である場合には、それ以上無声化処理を行う必要がないため、原音波形データをそのまま音声合成部107に出力する。音声合成部107は、受け取った原音波形データをそのまま出力する。
FIG. 6 is a functional block diagram of voice quality conversion apparatus 100 according to the fourth embodiment.
The configuration of voice quality conversion apparatus 100 in FIG. 9 is substantially the same as that in FIG. 1 of the first embodiment, except that voiced / unvoiced determination unit 110 is newly provided between residual signal extraction unit 103 and power calculation unit 105. However, it is mainly different.
The residual signal extraction unit 103 is configured to output both the original sound waveform data and the residual signal waveform data to the voiced / unvoiced determination unit 110.
The voiced / unvoiced determination unit 110 receives the original sound waveform data or the residual signal waveform data from the residual signal extraction unit 103, obtains an autocorrelation function for each frame, and determines whether the frame is voiced or unvoiced. Determine.
If the frame is a voiced sound, the residual signal waveform data received from the residual signal extraction unit 103 is output to the power calculation unit 105. The subsequent processing is the same as in the first embodiment.
If the frame is an unvoiced sound, no further devoicing processing is required, and the original sound waveform data is output to the speech synthesizer 107 as it is. The speech synthesizer 107 outputs the received original sound waveform data as it is.

本実施の形態4では、実施の形態1の図1と同様の構成を備える場合について説明したが、その他の実施の形態の構成を備える場合でも、残差信号抽出部103とパワー計算部105の間に有声無声判定部110を設けて、同様の処理を行うことができる。   In the fourth embodiment, the case where the configuration similar to that of FIG. 1 of the first embodiment is provided has been described. However, even when the configuration of the other embodiments is provided, the residual signal extraction unit 103 and the power calculation unit 105 are configured. A voiced / unvoiced determination unit 110 can be provided between them to perform the same processing.

以上のように、本実施の形態4によれば、有声音のフレームのみ無声化変換処理を行うようにしたので、本来変換する必要のない音声をさらに変換して音質を破壊してしまうようなことがなくなる。
また、必要時のみ変換処理を行っているので、マシンリソース上の変換効率がよく、処理能力の小さい演算装置などを用いて声質変換装置を構成することができ、装置全体の小型化やコスト低減に資する。ソフトウェアとして構成した場合であっても、処理能力の低いCPU等で変換処理を実行することができるので、同様の効果を奏する。
As described above, according to the fourth embodiment, only the voiced sound frame is subjected to the devoicing conversion process, so that the sound that originally does not need to be converted is further converted to destroy the sound quality. Nothing will happen.
In addition, since conversion processing is performed only when necessary, it is possible to configure a voice quality conversion device using a computing device with high conversion efficiency on machine resources and low processing capacity, and downsizing and cost reduction of the entire device Contribute to Even when configured as software, the conversion process can be executed by a CPU or the like having a low processing capability, so that the same effect can be obtained.

実施の形態5.
本発明の実施の形態5では、原音波形と合成波形を混合して出力することのできる声質変換装置の構成について説明する。
Embodiment 5. FIG.
In the fifth embodiment of the present invention, a configuration of a voice quality conversion apparatus capable of mixing and outputting an original sound waveform and a synthesized waveform will be described.

図7は、本実施の形態5に係る声質変換装置100の機能ブロック図である。
同図の声質変換装置100の構成は、実施の形態1の図1とほぼ同様であるが、音声合成部107の出力側に新たに有声無声混合部111を設けた点が異なる。
有声無声混合部111は、波形蓄積部101から原音波形データを受け取るとともに、音声合成部107から合成音声波形データを受け取る。次に、受け取った各データを次式(式4)により混合して出力する。有声無声混合部111の出力が、声質変換装置100の最終出力となる。
Sn=βOn+(1−β)UVn・・・(式4)
Sn:混合音声波形
On:原音波形
UVn:合成音声波形(無声音波形)
β:混合係数(0<=β<=1)
混合係数βの設定により、原音(有声音)と合成音(無声音)の混合度合いが様々に定められるため、合成音声のバリエーションが広がるという効果がある。
なお、混合係数βの値は可変にしてもよい。値の変更方法は、ランダムに経時変化するものでもよいし、ネットワーク経由などでユーザに設定値を入力させるものでもよい。
FIG. 7 is a functional block diagram of voice quality conversion apparatus 100 according to the fifth embodiment.
The configuration of voice quality conversion apparatus 100 in FIG. 10 is substantially the same as that in FIG. 1 of the first embodiment, except that voiced / voiceless mixing unit 111 is newly provided on the output side of speech synthesis unit 107.
The voiced / voiceless mixing unit 111 receives the original sound waveform data from the waveform storage unit 101 and also receives the synthesized speech waveform data from the speech synthesis unit 107. Next, each received data is mixed and output by the following equation (Equation 4). The output of the voiced / voiceless mixing unit 111 is the final output of the voice quality conversion device 100.
Sn = βOn + (1-β) UVn (Formula 4)
Sn: Mixed speech waveform On: Original sound waveform UVn: Synthetic speech waveform (unvoiced sound waveform)
β: Mixing coefficient (0 <= β <= 1)
Since the degree of mixing of the original sound (voiced sound) and the synthesized sound (unvoiced sound) is variously determined by setting the mixing coefficient β, there is an effect that the variation of the synthesized sound is widened.
Note that the value of the mixing coefficient β may be variable. The method of changing the value may be a method that changes randomly with time, or a method in which the user inputs a set value via a network or the like.

以上の実施の形態1〜5において、原音波形の供給源は、通常発声した肉声データであってもよいし、それ自体が合成音声であってもよい。
後者の場合は、音声合成の過程で継続時間情報が得られるため、その過程においてモーラ情報を提供できるが、前者の場合はモーラ情報を外部から別途供給する必要がある。供給手段は、実施の形態2で説明したように、直接入力やネットワークを介した入力などが考えられる。
なお、原音波形の供給源を合成音声とする場合は、音声合成装置と、本発明に係る声質変換装置とを、ネットワークなどを介して接続し、原音波形を直接的に声質変換装置へ入力するように構成してもよい。さらには、モーラ情報を音声合成装置から声質変換装置へ直接供給することもできる。
In the first to fifth embodiments described above, the source of the original sound waveform may be normal voice data that is uttered, or may be synthetic speech itself.
In the latter case, since duration information is obtained in the process of speech synthesis, mora information can be provided in the process, but in the former case, it is necessary to separately supply the mora information from the outside. As the supply means, as described in the second embodiment, direct input or input via a network can be considered.
When the source of the original sound waveform is synthesized speech, the speech synthesizer and the voice quality conversion device according to the present invention are connected via a network or the like, and the original sound waveform is directly input to the voice quality conversion device. You may comprise as follows. Furthermore, the mora information can be directly supplied from the speech synthesizer to the voice quality conversion device.

実施の形態2〜3で説明した「変換規則情報」は、直接入力やネットワークを介した入力の他に、声質変換装置100自体が自動生成することもできる。例えば以下のような例が考えられる。
(1)各拍をN(例えばN=2)倍に伸張し、最後の2モーラのみそのままとする。
・「おきでんきさん」−>「お・・き・・で・・ん・・き・・さん」
・「おきでんきちゃん」−>「お・・き・・で・・ん・・き・・|ちゃ|ん」
(2)最後から2拍目のみ伸張する。伸張部分の長さは1モーラ。
・「おきでんきさん」−>「おきでんきさーん」
・「さいとーさーん」−>「さいとーさーーん」
The “conversion rule information” described in the second to third embodiments can be automatically generated by the voice quality conversion device 100 itself in addition to direct input or input via a network. For example, the following examples can be considered.
(1) Each beat is expanded N times (for example, N = 2), and only the last two mora are left as they are.
・ "Okidenki-san"->"O ・ ・ ki ・ ・ で ・ ・ ん ・ ・ き ・ ・ さ ん"
・ "Okinenki-chan"->"Okiki-de-nkikiki
(2) Extend only the second beat from the end. The length of the extension is 1 mora.
・ "Okidenki-san"->"Okidenkisan"
・ "Saito-san"->"Saito-san"

なお、無声化した後に無音部を挿入したり長音化したりといった変形処理を行うのは、無声音が変形しやすいことも一つの理由である。無声音であれば、有声音に固有のピッチ同期等の不連続が出にくいためである。
このように、本発明に係る声質変換装置は、音声の変形をしやすくするという副次的な効果をも有する。
Note that the reason why the unvoiced sound is easily deformed is that the unvoiced sound is easily deformed by performing a modification process such as inserting a silent part or making the sound longer. This is because unvoiced sounds are less likely to have discontinuities such as pitch synchronization inherent to voiced sounds.
Thus, the voice quality conversion apparatus according to the present invention also has a secondary effect of facilitating the deformation of the voice.

実施の形態1に係る声質変換装置100の機能ブロック図である。3 is a functional block diagram of voice quality conversion apparatus 100 according to Embodiment 1. FIG. LPC係数計算部102〜残差信号抽出部103に相当する部分の具体的な構成を示すブロック図である。3 is a block diagram illustrating a specific configuration of a portion corresponding to an LPC coefficient calculation unit 102 to a residual signal extraction unit 103. FIG. 実施の形態2に係る声質変換装置100の機能ブロック図である。6 is a functional block diagram of a voice quality conversion device 100 according to Embodiment 2. FIG. モーラ情報と変換規則情報について説明するものである。This explains the mora information and the conversion rule information. 実施の形態3に係る声質変換装置100の機能ブロック図である。FIG. 9 is a functional block diagram of a voice quality conversion device 100 according to a third embodiment. 実施の形態4に係る声質変換装置100の機能ブロック図である。FIG. 10 is a functional block diagram of a voice quality conversion device 100 according to a fourth embodiment. 実施の形態5に係る声質変換装置100の機能ブロック図である。FIG. 10 is a functional block diagram of a voice quality conversion device 100 according to a fifth embodiment.

符号の説明Explanation of symbols

100 声質変換装置、101 波形蓄積部、102 LPC係数計算部、103 残差信号抽出部、104 白色雑音発生器、105 パワー計算部、106 振幅変換部、107 音声合成部、108 無音挿入部、109 LPC係数補完部、110 有声無声判定部、111 有声無声混合部。   DESCRIPTION OF SYMBOLS 100 Voice quality conversion apparatus, 101 Waveform storage part, 102 LPC coefficient calculation part, 103 Residual signal extraction part, 104 White noise generator, 105 Power calculation part, 106 Amplitude conversion part, 107 Speech synthesizer, 108 Silence insertion part, 109 LPC coefficient complementing unit, 110 voiced / unvoiced determining unit, 111 voiced / unvoiced mixing unit.

Claims (15)

有声音を無声音に変換する方法であって、
原音波形を入力する入力ステップと、
前記入力ステップで入力された原音波形から伝達関数を予測する予測分析ステップと、
前記原音波形及び前記予測分析ステップの出力を用いて残差信号を抽出する残差信号抽出ステップと、
前記残差信号のパワーに対応した白色雑音信号を出力する白色雑音発生ステップと、
前記白色雑音発生ステップの出力と前記予測分析ステップで予測した伝達関数に基づき音声合成を行う音声合成ステップと、
を有することを特徴とする声質変換方法。
A method for converting voiced sound to unvoiced sound,
An input step for inputting an original sound waveform;
A predictive analysis step of predicting a transfer function from the original sound waveform input in the input step;
A residual signal extraction step for extracting a residual signal using the original sound waveform and the output of the prediction analysis step;
A white noise generation step of outputting a white noise signal corresponding to the power of the residual signal;
A speech synthesis step of performing speech synthesis based on the output of the white noise generation step and the transfer function predicted in the prediction analysis step;
A voice quality conversion method characterized by comprising:
モーラ情報と、そのモーラ情報を用いて音声に無音部分を挿入するための変換規則情報とを受け取り、
これらの情報を用いて、前記音声合成ステップで合成した音声に無音部分を挿入する無音挿入ステップを有する
ことを特徴とする請求項1に記載の声質変換方法。
Receiving mora information and conversion rule information for inserting silence into the voice using the mora information;
The voice quality conversion method according to claim 1, further comprising a silent insertion step of inserting a silent part into the voice synthesized in the voice synthesis step using these pieces of information.
前記無音挿入ステップにおいて、
無音部分を挿入した前後の音声にフェードイン処理又はフェードアウト処理を施す
ことを特徴とする請求項2に記載の声質変換方法。
In the silent insertion step,
The voice quality conversion method according to claim 2, wherein fade-in processing or fade-out processing is performed on the sound before and after the silent portion is inserted.
モーラ情報と、そのモーラ情報を用いて音声を時間軸上で伸長するための変換規則情報とを受け取り、
前記予測分析ステップで予測した伝達関数を、これらの情報を用いて時間軸上で補完する予測補完ステップを有し、
前記白色雑音発生ステップにおいて、
前記モーラ情報と前記変換規則情報を受け取り、これらの情報を用いて生成した白色雑音信号を出力し、
前記音声合成ステップにおいて、
前記白色雑音発生ステップの出力と前記予測補完ステップが補完した伝達関数に基づき音声合成を行う
ことを特徴とする請求項1に記載の声質変換方法。
Receives mora information and conversion rule information for expanding the voice on the time axis using the mora information,
The transfer function predicted in the prediction analysis step has a prediction complementing step of complementing on the time axis using these pieces of information,
In the white noise generation step,
The mora information and the conversion rule information are received, and a white noise signal generated using the information is output,
In the speech synthesis step,
The voice quality conversion method according to claim 1, wherein speech synthesis is performed based on an output of the white noise generation step and a transfer function complemented by the prediction complement step.
前記原音波形又は前記残差信号のフレーム毎に、そのフレームの音声が有声音か無声音かを判定する判定ステップを有し、
前記音声合成ステップにおいて、
前記判定ステップで有声音と判定されたフレームのみ音声合成を行う
ことを特徴とする請求項1ないし請求項4のいずれかに記載の声質変換方法。
For each frame of the original sound waveform or the residual signal, a determination step of determining whether the sound of the frame is voiced sound or unvoiced sound,
In the speech synthesis step,
The voice quality conversion method according to any one of claims 1 to 4, wherein speech synthesis is performed only for frames determined as voiced in the determination step.
前記音声合成ステップの出力と前記原音波形とを、所定の割合で混合する、混合ステップを有する
ことを特徴とする請求項1ないし請求項5のいずれかに記載の声質変換方法。
The voice quality conversion method according to any one of claims 1 to 5, further comprising a mixing step of mixing the output of the speech synthesis step and the original sound waveform at a predetermined ratio.
前記入力ステップにおいて、
音声合成装置が出力した合成音声を前記原音波形として入力する
ことを特徴とする請求項1ないし請求項6のいずれかに記載の声質変換方法。
In the input step,
The voice conversion method according to any one of claims 1 to 6, wherein the synthesized voice output by the voice synthesizer is input as the original sound waveform.
請求項1ないし請求項7のいずれかに記載の声質変換方法をコンピュータに実行させることを特徴とする声質変換プログラム。   A voice quality conversion program that causes a computer to execute the voice quality conversion method according to claim 1. 有声音を無声音に変換する装置であって、
原音波形を入力する入力部と、
前記入力部に入力された原音波形から伝達関数を予測する予測分析部と、
前記原音波形及び前記予測分析部の出力を用いて残差信号を抽出する残差信号抽出部と、
前記残差信号のパワーに対応した白色雑音信号を出力する白色雑音発生部と、
前記白色雑音発生部の出力と前記予測分析部が予測した伝達関数に基づき音声合成を行う音声合成部と、
を備えたことを特徴とする声質変換装置。
A device that converts voiced sound to unvoiced sound,
An input unit for inputting an original sound waveform;
A predictive analyzer that predicts a transfer function from the original sound waveform input to the input unit;
A residual signal extraction unit that extracts a residual signal using the original sound waveform and the output of the prediction analysis unit;
A white noise generator that outputs a white noise signal corresponding to the power of the residual signal;
A speech synthesizer that synthesizes speech based on the output of the white noise generation unit and the transfer function predicted by the prediction analysis unit;
A voice quality conversion device characterized by comprising:
モーラ情報と、そのモーラ情報を用いて音声に無音部分を挿入するための変換規則情報とを受け取り、
これらの情報を用いて、前記音声合成部が合成した音声に無音部分を挿入する無音挿入部を備えた
ことを特徴とする請求項9に記載の声質変換装置。
Receiving mora information and conversion rule information for inserting silence into the voice using the mora information;
The voice quality conversion device according to claim 9, further comprising a silence insertion unit that inserts a silence part into the voice synthesized by the voice synthesis unit using these pieces of information.
前記無音挿入部は、
無音部分を挿入した前後の音声にフェードイン処理又はフェードアウト処理を施す
ことを特徴とする請求項10に記載の声質変換装置。
The silent insertion part is
The voice quality conversion device according to claim 10, wherein fade-in processing or fade-out processing is performed on the sound before and after the silent portion is inserted.
モーラ情報と、そのモーラ情報を用いて音声を時間軸上で伸長するための変換規則情報とを受け取り、
前記予測分析部が予測した伝達関数を、これらの情報を用いて時間軸上で補完する予測補完部を備え、
前記白色雑音発生部は、
前記モーラ情報と前記変換規則情報を受け取り、これらの情報を用いて生成した白色雑音信号を出力し、
前記音声合成部は、
前記白色雑音発生部の出力と前記予測補完部が補完した伝達関数に基づき音声合成を行う
ことを特徴とする請求項9に記載の声質変換装置。
Receives mora information and conversion rule information for expanding the voice on the time axis using the mora information,
The prediction function is provided with a prediction complementing unit that complements the transfer function predicted by the prediction analysis unit on the time axis using these pieces of information.
The white noise generator is
The mora information and the conversion rule information are received, and a white noise signal generated using the information is output,
The speech synthesizer
10. The voice quality conversion apparatus according to claim 9, wherein speech synthesis is performed based on an output of the white noise generation unit and a transfer function supplemented by the prediction complementing unit.
前記原音波形又は前記残差信号のフレーム毎に、そのフレームの音声が有声音か無声音かを判定する判定部を備え、
前記音声合成部は、前記判定部が有声音と判定したフレームのみ音声合成を行う
ことを特徴とする請求項9ないし請求項12のいずれかに記載の声質変換装置。
For each frame of the original sound waveform or the residual signal, a determination unit that determines whether the sound of the frame is voiced sound or unvoiced sound,
The voice quality conversion apparatus according to any one of claims 9 to 12, wherein the voice synthesizer performs voice synthesis only on a frame determined by the determination unit as a voiced sound.
前記音声合成部の出力と前記原音波形とを、所定の割合で混合する、混合部を有する
ことを特徴とする請求項9ないし請求項13のいずれかに記載の声質変換装置。
The voice quality conversion device according to any one of claims 9 to 13, further comprising a mixing unit that mixes the output of the speech synthesizer and the original sound waveform at a predetermined ratio.
前記入力部は、
音声合成装置が出力した合成音声を前記原音波形として入力する
ことを特徴とする請求項9ないし請求項14のいずれかに記載の声質変換装置。
The input unit is
The voice conversion device according to any one of claims 9 to 14, wherein the synthesized voice output by the voice synthesizer is input as the original sound waveform.
JP2006325884A 2006-12-01 2006-12-01 Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device Withdrawn JP2008139573A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006325884A JP2008139573A (en) 2006-12-01 2006-12-01 Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006325884A JP2008139573A (en) 2006-12-01 2006-12-01 Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device

Publications (1)

Publication Number Publication Date
JP2008139573A true JP2008139573A (en) 2008-06-19

Family

ID=39601106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006325884A Withdrawn JP2008139573A (en) 2006-12-01 2006-12-01 Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device

Country Status (1)

Country Link
JP (1) JP2008139573A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016186515A (en) * 2015-03-27 2016-10-27 日本電信電話株式会社 Acoustic feature value conversion device, acoustic model application device, acoustic feature value conversion method, and program
JP2016186516A (en) * 2015-03-27 2016-10-27 日本電信電話株式会社 Pseudo-sound signal generation device, acoustic model application device, pseudo-sound signal generation method, and program
EP3455852A4 (en) * 2016-06-10 2020-01-01 Apple Inc. Digital assistant providing whispered speech

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016186515A (en) * 2015-03-27 2016-10-27 日本電信電話株式会社 Acoustic feature value conversion device, acoustic model application device, acoustic feature value conversion method, and program
JP2016186516A (en) * 2015-03-27 2016-10-27 日本電信電話株式会社 Pseudo-sound signal generation device, acoustic model application device, pseudo-sound signal generation method, and program
EP3455852A4 (en) * 2016-06-10 2020-01-01 Apple Inc. Digital assistant providing whispered speech

Similar Documents

Publication Publication Date Title
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
EP3065130B1 (en) Voice synthesis
JP4490507B2 (en) Speech analysis apparatus and speech analysis method
JP2007003682A (en) Speaking speed converting device
JP4516157B2 (en) Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP2008139573A (en) Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device
JP5164041B2 (en) Speech synthesis apparatus, speech synthesis method, and program
JP2013033103A (en) Voice quality conversion device and voice quality conversion method
JPH1078791A (en) Pitch converter
JP4963345B2 (en) Speech synthesis method and speech synthesis program
JP6011039B2 (en) Speech synthesis apparatus and speech synthesis method
JP2011141470A (en) Phoneme information-creating device, voice synthesis system, voice synthesis method and program
JP2021099454A (en) Speech synthesis device, speech synthesis program, and speech synthesis method
JP2001034284A (en) Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program
JP2004151423A (en) Band extending device and method
JP4872690B2 (en) Speech synthesis method, speech synthesis program, speech synthesizer
JP4644879B2 (en) Data generator for articulation parameter interpolation and computer program
JPH10232698A (en) Speech speed changing device
JP2001312300A (en) Voice synthesizing device
JP5677137B2 (en) Prosody conversion device and program
JP2004004952A (en) Voice synthesizer and voice synthetic method
JP2014202777A (en) Generation device and generation method and program for masker sound signal
JP2005121869A (en) Voice conversion function extracting device and voice property conversion apparatus using the same
JP2006038956A (en) Device and method for voice speed delay
JPH09179589A (en) Voice synthesizing method in voiceless sound and its device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100202