JP2017182099A - Speech synthesizing device, speech synthesis method, and speech synthesis program - Google Patents
Speech synthesizing device, speech synthesis method, and speech synthesis program Download PDFInfo
- Publication number
- JP2017182099A JP2017182099A JP2017131338A JP2017131338A JP2017182099A JP 2017182099 A JP2017182099 A JP 2017182099A JP 2017131338 A JP2017131338 A JP 2017131338A JP 2017131338 A JP2017131338 A JP 2017131338A JP 2017182099 A JP2017182099 A JP 2017182099A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sine wave
- subband
- waveform
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置に関する。 The present invention relates to a speech synthesizer that synthesizes speech waveforms based on input time-series sound source control information and spectral characteristic information.
音声合成技術とは、一般にテキストから音声波形を合成する一連の技術の総称であるが、まず、その一要素である、合成したい音声のスペクトル情報および音源情報から、音声波形を合成する処理を説明する。この処理にあたり、合成したい音声のスペクトル情報や音源情報は、予め対応する自然音声等から求めておく。 Speech synthesis technology is a general term for a series of technologies for synthesizing speech waveforms from text. First, we explain the process of synthesizing speech waveforms from the spectrum information and sound source information of the speech that you want to synthesize. To do. In this process, the spectrum information and sound source information of the voice to be synthesized are obtained in advance from the corresponding natural voice or the like.
音声合成波形の合成の方法として代表的なものに、ソース・フィルタモデルに基づく音声合成方法がある。この方式は、まず適当な音源(ソース)波形を生成し、それを適当な特性のフィルタを通過させることで、所望の特徴を有した音声波形を合成する方法である。これは、例えば、音源が声帯振動に伴う声門体積流に、フィルタが声道伝達特性にそれぞれ対応すると考えると、人間の音声生成過程に対応したモデルであるとも言える。 A typical speech synthesis waveform synthesis method is a speech synthesis method based on a source filter model. This method is a method of first synthesizing a speech waveform having a desired characteristic by generating an appropriate sound source (source) waveform and passing it through a filter having an appropriate characteristic. For example, if it is considered that the sound source corresponds to the glottal volume flow accompanying vocal cord vibration and the filter corresponds to the vocal tract transfer characteristics, it can be said that the model corresponds to the human voice generation process.
ただし、音声の波形から観測できるのは、音声波形のスペクトル特性や周期的な音声波形で観測される基本周波数といった最終的な音声波形に対する物理量であり、音声生成過程に関連した特徴との厳密な対応付けは難しい。そのため、実際には、インパルス列や白色雑音といったスペクトル的に白色な音源波形に対して、フィルタにより合成目標となる音声のスペクトル特性を直接的に与えることで、音声波形を合成することが多い。 However, what can be observed from the speech waveform is the physical quantity for the final speech waveform, such as the spectral characteristics of the speech waveform and the fundamental frequency observed in the periodic speech waveform. Matching is difficult. Therefore, in practice, a speech waveform is often synthesized by directly giving a spectral characteristic of speech as a synthesis target by a filter to a spectrally white sound source waveform such as an impulse train or white noise.
なお、音声波形が周期性を有する場合、観測されるスペクトル情報には、その周期性に由来した基本周波数成分およびその調波成分が含まれる。そして、通常、この周期性は、インパルス列等により音源側で表現される。 When the speech waveform has periodicity, the spectrum information to be observed includes a fundamental frequency component and its harmonic component derived from the periodicity. Normally, this periodicity is expressed on the sound source side by an impulse train or the like.
以下、スペクトル情報とは、基本周波数およびその調波成分の影響を除いた、平滑化されたスペクトル情報をいう。この平滑化の方法には、周波数軸上で、調波成分のピーク点のみをつなぐ方法等がある。また、音声波形は短時間的にはほぼ定常と見なせるが、長時間的には時変であるので、通常は、ある一定間隔(例えば1ミリ秒から20ミリ秒程度)毎の特性を考慮し、そのそれぞれの時刻においてはその定常性を仮定する。ここで、各サンプルのスペクトル情報は例えば複数次のメルケプストラム係数や線形予測係数等で表現する。 Hereinafter, the spectrum information refers to smoothed spectrum information excluding the influence of the fundamental frequency and its harmonic components. The smoothing method includes a method of connecting only the peak points of the harmonic components on the frequency axis. In addition, although the sound waveform can be regarded as almost steady in a short time, it is time-varying over a long time. Therefore, in general, a characteristic at every certain interval (for example, about 1 to 20 milliseconds) is considered. The stationarity is assumed at each time. Here, the spectrum information of each sample is expressed by, for example, a multi-order mel cepstrum coefficient or a linear prediction coefficient.
一般に、声帯振動を伴う音声は有声音、伴わない音声は無声音と呼ばれ、有声音では通常、波形の周期性が観測される。ソース・フィルタに基づく音声波形合成では、有声音の音源としてインパルス列のみを、無声音の音源に白色雑音のみを用いる方法がしばしば用いられている。この方法でも合成音声の言語的な了解度の点では問題ないことが多いが、実際の有声音には雑音的成分も含まれており、その自然性が低下するという問題が生じていた。 In general, voice with vocal cord vibration is called voiced sound, and voice without voice is called unvoiced sound. In voiced sound, waveform periodicity is usually observed. In speech waveform synthesis based on a source filter, a method is often used in which only an impulse train is used as a voiced sound source and only white noise is used as an unvoiced sound source. Although this method often has no problem in terms of linguistic intelligibility of synthesized speech, the actual voiced sound also includes a noisy component, resulting in a problem that its naturalness is lowered.
そこで、インパルス列と白色雑音を同時に生成し、それを組み合わせた波形を音源波形とすることで、合成音声の自然性を改善する方法が開発されている。しかし通常、最適なインパルスと雑音のパワー比が各周波数帯域で一定ではなく、それは合成対象の音声の種類ごとに異なる。そこで、フィルタバンク等を用いて、インパルスと白色雑音の振幅特性を周波数帯域(サブバンド)毎に変える必要がある。 Therefore, a method has been developed that improves the naturalness of synthesized speech by simultaneously generating an impulse train and white noise and using the combined waveform as a sound source waveform. However, usually, the optimum impulse to noise power ratio is not constant in each frequency band, and it differs depending on the type of speech to be synthesized. Therefore, it is necessary to change the amplitude characteristics of the impulse and white noise for each frequency band (subband) using a filter bank or the like.
この際、従来のソース・フィルタモデルとの対応を考え、各音源を足し合わせた結果が白色になるように制御する方法がしばしば用いられる。以下、このような音源をマルチバンド混合励振源と呼ぶ。サブバンド毎の混合比は、時間変化させなくてもある程度の自然性が得られると考えられるが、スペクトル情報同様に時間変化させた方が、より自然性の高い音声を合成することができる。 At this time, considering the correspondence with the conventional source / filter model, a method of controlling so that the result of adding the sound sources to white is often used. Hereinafter, such a sound source is referred to as a multiband mixed excitation source. Although it is considered that a certain degree of naturalness can be obtained without changing the mixing ratio for each subband, it is possible to synthesize speech with higher naturalness by changing the time as in the spectral information.
よって、音声合成には、時間軸上である間隔毎の、音声のスペクトル情報、有声・無声情報、有声についての基本周波数の情報、およびマルチバンド混合励振源を用いてかつその特性を動的に変化させる場合における各サブバンドの混合比の情報が必要となる。なお、以下で説明される音声合成の形態では、説明の便宜上、音源のパワーは常に一定とし、合成音声のパワーはスペクトル特性に含めて制御されるものとする。 Therefore, for speech synthesis, speech spectral information, voiced / unvoiced information, fundamental frequency information about voiced, and multiband mixed excitation sources are used for each interval on the time axis, and the characteristics are dynamically changed. Information on the mixing ratio of each subband in the case of changing is required. In the form of speech synthesis described below, for convenience of explanation, it is assumed that the power of the sound source is always constant and the power of the synthesized speech is controlled by being included in the spectrum characteristics.
上記のような従来技術ではソース・フィルタモデルのフィルタに、MLSA(メル対数スペクトル近似)フィルタ等の比較的演算量の大きいフィルタが用いられている(非特許文献1参照)。MLSAフィルタは、z変換領域における指数関数を、z変換領域上でパデ近似により直接有理式近似することで、目標特性を近似的に実現する回路を構成する手法が用いられている。そして、メルケプストラム係数をほぼそのままフィルタ係数とできる、といった利点があるが、波形1サンプル当たりの積和演算回数が、およそフィルタの次数とパデ近似の次数の積となり、計算量が比較的大きい。 In the prior art as described above, a filter having a relatively large calculation amount such as an MLSA (Mel logarithmic spectrum approximation) filter is used as a filter of the source filter model (see Non-Patent Document 1). The MLSA filter employs a technique of constructing a circuit that approximately realizes a target characteristic by directly approximating an exponential function in a z-transform region by a rational approximation on the z-transform region by Padé approximation. Although there is an advantage that the mel cepstrum coefficient can be used as it is as a filter coefficient, the number of product-sum operations per sample of the waveform is approximately the product of the order of the filter and the order of the Padé approximation, and the amount of calculation is relatively large.
例えば合成音声品質上は、16kHzサンプリング時に30〜40次のメルケプストラムを用いる必要があるが、その場合、指数関数を必要な精度で近似するためには4次または5次のパデ近似が必要、つまり1サンプル当たり150〜200回程度の積和演算が必要である。 For example, in terms of synthesized speech quality, it is necessary to use a 30-40th order mel cepstrum at the time of 16 kHz sampling. In that case, in order to approximate the exponential function with the required accuracy, a fourth order or fifth order Padé approximation is required. That is, a product-sum operation is required about 150 to 200 times per sample.
さらにマルチバンド混合励振を行なう場合、指定の混合比となるように、インパルス列と白色雑音のそれぞれにフィルタを掛ける必要があるため、それぞれのフィルタ処理の分、さらに計算量が増える。このため、携帯端末等の計算処理性能が限られた環境では、比較的高次のフィルタを用いた音声合成処理や、混合励振を行なうことが難しい。 Further, when performing multi-band mixing excitation, it is necessary to filter the impulse train and the white noise so that the specified mixing ratio is obtained, so that the amount of calculation further increases for each filtering process. For this reason, it is difficult to perform speech synthesis processing using a higher-order filter or mixed excitation in an environment where the calculation processing performance of a mobile terminal or the like is limited.
これを解決するため、インパルス列や白色雑音列の音源波形に対して、疑似直交鏡像フィルタバンク等に基づき、サンプルレート削減を包含したサブバンド符号化を行なう方法が考えられる。その方法では、サブバンド符号化領域で各帯域要素の振幅調整を行なってから、復号処理し、音声波形を合成する。 In order to solve this problem, a method of performing subband encoding including sample rate reduction on a sound source waveform of an impulse train or a white noise train based on a quasi-orthogonal mirror image filter bank or the like can be considered. In this method, after adjusting the amplitude of each band element in the subband coding region, decoding processing is performed to synthesize a speech waveform.
上記の方法では、高速コサイン変換等を用いたフィルタバング処理を用いることで、サンプル当たりの処理量をサブバンド数に対して対数オーダとすることができる。従来のフィルタに基づく方法では、サンプル当たりの処理量がフィルタ次数に対して線形オーダとなるため、設定条件によっては、従来手法よりも処理量を減らすことが可能である。 In the above method, the processing amount per sample can be made logarithmic order with respect to the number of subbands by using the filter bang processing using high-speed cosine transform or the like. In the conventional filter-based method, the processing amount per sample is in a linear order with respect to the filter order, so that the processing amount can be reduced as compared with the conventional method depending on setting conditions.
さらに、全ての信号処理が線形な処理である場合に、サブバンド符号領域で事前符号化された白色雑音やインパルス列を組み合わせる方法が考えられる。この方法を用いた場合、音声合成時のサブバンド符号化処理が不要になるため、処理量をさらに削減することができる。 Further, when all signal processing is linear processing, a method of combining white noise or impulse train pre-encoded in the subband code region is conceivable. When this method is used, the processing amount can be further reduced because the subband encoding processing at the time of speech synthesis becomes unnecessary.
しかし、この方法では、音声スペクトル特徴の生成において、その周波数軸方向の解像度がサブバンド符号化におけるサブバンド数で決まるため、所望のスペクトル特徴からの誤差を抑えた音声を合成するためには、サブバンド数を大きく設定しなければならない。ところが、サブバンド数を増やすと処理量は増える。この処理量の増加はフレーム周期を長くすることで抑えられるものの、一方でフレーム周期を長くするとスペクトル特徴変化の時間軸方向への解像度が不足し、品質が損なわれることになる。 However, in this method, since the resolution in the frequency axis direction is determined by the number of subbands in the subband coding in generating the speech spectrum feature, in order to synthesize speech with reduced error from the desired spectrum feature, The number of subbands must be set large. However, increasing the number of subbands increases the amount of processing. Although the increase in the processing amount can be suppressed by increasing the frame period, on the other hand, if the frame period is increased, the resolution of the spectrum feature change in the time axis direction is insufficient and the quality is impaired.
本発明は、このような事情に鑑みてなされたものであり、処理量の増加を抑えつつ、高い解像度を達成できる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and an object of the present invention is to provide a speech synthesizer, a speech synthesis method, and a speech synthesis program that can achieve high resolution while suppressing an increase in processing amount.
(1)上記の目的を達成するため、本発明の音声合成装置は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置であって、音源波形を複数の周波数帯域に分割して蓄積されたサブバンド分割音源波形ベクトルに基づいて、入力された音源制御情報に対応するサブバンド分割音源波形ベクトルを生成するサブバンド分割音源生成部と、前記生成されたサブバンド分割音源波形ベクトルに対して、入力されたスペクトル特性情報に応じた振幅調整を行なうサブバンドパワー調整部と、特定のサブバンドにおいて出力目標音声のスペクトル特性を模擬するように、振幅調整された正弦波を合成する正弦波合成部と、前記特定のサブバンドにおいて前記振幅調整されたサブバンド分割音源波形ベクトルおよび前記正弦波が合成された正弦波合成成分を組み合わせて1つのサブバンド分割波形ベクトルを生成するサブバンド分割波形ベクトル生成部と、前記特定のサブバンドにおいて前記生成されたサブバンド分割波形ベクトルを単一の音声波形に合成し、前記特定のサブバンド以外のサブバンドにおいて前記振幅調整がなされたサブバンド分割音源波形ベクトルを単一の音声波形に合成するサブバンド合成部と、を備えることを特徴としている。 (1) In order to achieve the above object, a speech synthesizer according to the present invention is a speech synthesizer that synthesizes speech waveforms based on input time-series sound source control information and spectrum characteristic information. A sub-band divided sound source generating unit for generating a sub-band divided sound source waveform vector corresponding to the input sound source control information based on the sub-band divided sound source waveform vectors accumulated by dividing the frequency band into a plurality of frequency bands; The subband power adjustment unit that adjusts the amplitude according to the input spectral characteristic information with respect to the subband divided sound source waveform vector, and the amplitude so as to simulate the spectral characteristic of the output target speech in a specific subband A sine wave synthesizer for synthesizing the adjusted sine wave; and the subband divided sound source waveform vector having the amplitude adjusted in the specific subband. And a subband division waveform vector generation unit that generates one subband division waveform vector by combining the sine wave synthesis component obtained by synthesizing the sine wave and the subband division waveform vector generated in the specific subband. A sub-band synthesizing unit that synthesizes a sub-band divided sound source waveform vector having the amplitude adjusted in a sub-band other than the specific sub-band into a single speech waveform. It is characterized by.
このように、本発明の音声合成装置は音声波形の構成要素のうち周期性成分について、その一部のサブバンドにおいて所望のスペクトル特徴となるようにそれぞれ振幅特性を制御した正弦波を組み合わせて周期性波形要素の調波成分を直接的に合成している。これにより、サブバンド符号化におけるサブバンド数が少ない場合であっても、入力されたスペクトル特性情報を周波数軸方向に対してより高精度に反映させた音声を合成することができる。その結果、処理量の増加を抑えつつ、高い解像度で音声を再現できる。 As described above, the speech synthesizer according to the present invention combines periodic components of speech waveforms with sine waves whose amplitude characteristics are controlled so as to obtain desired spectral characteristics in some subbands. The harmonic component of the sex waveform element is directly synthesized. Thereby, even when the number of subbands in subband coding is small, it is possible to synthesize speech in which the input spectral characteristic information is reflected with higher accuracy in the frequency axis direction. As a result, sound can be reproduced with high resolution while suppressing an increase in processing amount.
(2)また、本発明の音声合成装置は、前記サブバンド分割音源生成部が、前記サブバンド分割音源波形ベクトルとして原波形を完全もしくは近似的に復元できるようにダウンサンプリングし、前記正弦波合成部が、前記ダウンサンプリングでのサンプリングレートと等しいサンプリングレートで、前記特定のサブバンドにおいて前記正弦波合成成分を生成することを特徴としている。 (2) In the speech synthesizer according to the present invention, the subband division sound source generation unit downsamples the sine wave synthesis so that the original waveform can be completely or approximately restored as the subband division sound source waveform vector. The unit generates the sine wave synthesis component in the specific subband at a sampling rate equal to the sampling rate in the downsampling.
このようにして、音声合成時においてサブバンド符号化処理を行なうことなく、予めサブバンド符号化された正弦波合成結果を出力することで、処理量を削減しつつ、入力に対応した合成音声波形を生成できる。 In this way, by outputting a sine wave synthesis result that has been sub-band encoded in advance without performing sub-band encoding processing at the time of speech synthesis, the synthesized speech waveform corresponding to the input is reduced while reducing the processing amount. Can be generated.
(3)また、本発明の音声合成装置は、前記正弦波合成部が、低い側の一部の帯域のサブバンドを前記特定のサブバンドとして前記正弦波合成成分を生成することを特徴としている。これにより、低い側の一部の帯域のサブバンドにおいて、入力されたスペクトル特性情報を周波数軸方向に対して高精度に反映させた音声を合成できる。 (3) Further, the speech synthesizer according to the present invention is characterized in that the sine wave synthesis unit generates the sine wave synthesis component by using a subband of a part of the lower band as the specific subband. . Accordingly, it is possible to synthesize speech in which the input spectral characteristic information is reflected with high accuracy in the frequency axis direction in the subbands of a part of the lower band.
(4)また、本発明の音声合成装置は、前記正弦波合成部が、前記特定のサブバンドにおいてインパルス音源に対応させて前記正弦波合成成分を生成することを特徴としている。これにより、特定のサブバンドのインパルス音源について、入力されたスペクトル特性情報を周波数軸方向に対して高精度に反映させた音声を合成できる。 (4) Further, the speech synthesizer according to the present invention is characterized in that the sine wave synthesis unit generates the sine wave synthesis component corresponding to the impulse sound source in the specific subband. As a result, it is possible to synthesize speech in which the input spectral characteristic information is reflected with high accuracy in the frequency axis direction for an impulse sound source of a specific subband.
(5)また、本発明の音声合成方法は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成方法であって、音源波形を複数の周波数帯域に分割して蓄積されたサブバンド分割音源波形ベクトルに基づいて、入力された音源制御情報に対応するサブバンド分割音源波形ベクトルを生成するステップと、前記生成されたサブバンド分割音源波形ベクトルに対して、入力されたスペクトル特性情報に応じたサブバンド毎の振幅調整を行なうステップと、特定のサブバンドにおいて出力目標音声のスペクトル特性を模擬するように、振幅調整された正弦波を合成するステップと、前記特定のサブバンドにおいて前記振幅調整されたサブバンド分割音源波形ベクトルおよび前記正弦波が合成された正弦波合成成分を組み合わせて1つのサブバンド分割波形ベクトルを生成するステップと、前記特定のサブバンドにおいて前記生成されたサブバンド分割波形ベクトルを単一の音声波形に合成し、前記特定のサブバンド以外のサブバンドにおいて前記振幅調整がなされたサブバンド分割音源波形ベクトルを単一の音声波形に合成するステップと、を含むことを特徴としている。これにより、処理量の増加を抑えつつ、高い解像度で音声を再現できる。 (5) The speech synthesis method of the present invention is a speech synthesis method for synthesizing speech waveforms based on input time-series sound source control information and spectrum characteristic information, and the sound source waveforms are divided into a plurality of frequency bands. Generating a sub-band divided sound source waveform vector corresponding to the input sound source control information based on the sub-band divided sound source waveform vector divided and accumulated; and for the generated sub-band divided sound source waveform vector Performing an amplitude adjustment for each subband according to the input spectral characteristic information; synthesizing an amplitude-adjusted sine wave so as to simulate the spectral characteristic of the output target speech in a specific subband; In the specific subband, the amplitude-adjusted subband divided sound source waveform vector and the sine wave synthesized from the sine wave Combining a component to generate one sub-band divided waveform vector; and synthesizing the generated sub-band divided waveform vector in the specific sub-band into a single speech waveform to generate sub-bands other than the specific sub-band. Synthesizing the sub-band divided sound source waveform vector whose amplitude has been adjusted in a band into a single speech waveform. As a result, it is possible to reproduce sound with high resolution while suppressing an increase in processing amount.
(6)また、本発明の音声合成プログラムは、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成プログラムであって、音源波形を複数の周波数帯域に分割して蓄積されたサブバンド分割音源波形ベクトルに基づいて、入力された音源制御情報に対応するサブバンド分割音源波形ベクトルを生成する処理と、前記生成されたサブバンド分割音源波形ベクトルに対して、入力されたスペクトル特性情報に応じた振幅調整を行なう処理と、特定のサブバンドにおいて出力目標音声のスペクトル特性を模擬するように、振幅調整された正弦波を合成する処理と、前記特定のサブバンドにおいて前記振幅調整されたサブバンド分割音源波形ベクトルおよび前記正弦波が合成された正弦波合成成分を組み合わせて1つのサブバンド分割波形ベクトルを生成する処理と、前記特定のサブバンドにおいて前記生成されたサブバンド分割波形ベクトルを単一の音声波形に合成し、前記特定のサブバンド以外のサブバンドにおいて前記振幅調整がなされたサブバンド分割音源波形ベクトルを単一の音声波形に合成する処理と、をコンピュータに実行させることを特徴としている。これにより、処理量の増加を抑えつつ、高い解像度で音声を再現できる。 (6) A speech synthesis program of the present invention is a speech synthesis program for synthesizing speech waveforms based on input time-series sound source control information and spectrum characteristic information, and the sound source waveforms are divided into a plurality of frequency bands. A process of generating a subband divided sound source waveform vector corresponding to the input sound source control information based on the divided subband divided sound source waveform vector, and the generated subband divided sound source waveform vector A process of performing amplitude adjustment according to the input spectral characteristic information, a process of synthesizing a sine wave whose amplitude has been adjusted so as to simulate the spectral characteristic of the output target speech in a specific subband, and the specific subband Combines the amplitude-adjusted sub-band divided sound source waveform vector and the sine wave synthesis component synthesized from the sine wave in a band. And processing for generating one subband division waveform vector, and synthesizing the generated subband division waveform vector in the specific subband into a single speech waveform, in subbands other than the specific subband A process for synthesizing the amplitude-adjusted subband-divided sound source waveform vector into a single speech waveform is executed by a computer. As a result, it is possible to reproduce sound with high resolution while suppressing an increase in processing amount.
本発明によれば、特定のサブバンドでは音声合成時にサブバンド分割音源生成部における処理が不要となる。そして、聴覚上、誤差の影響が大きい周波数帯域について正弦波合成により各調波成分の振幅特性を直接制御してスペクトル特徴を合成することで、フィルタバンクのバンド数を増やすことなく、周期性波形要素のスペクトル特徴の再現精度を高めることができる。これにより、携帯端末等の計算処理性能が限られた環境でも、高いスペクトル再現精度での音声合成処理が可能となる。 According to the present invention, in a specific subband, the processing in the subband divided sound source generation unit is not required during speech synthesis. In addition, by synthesizing spectral characteristics by directly controlling the amplitude characteristics of each harmonic component by sinusoidal synthesis for frequency bands that are affected by errors, the periodic waveform without increasing the number of filter bank bands. The reproduction accuracy of the spectral characteristics of the elements can be increased. As a result, speech synthesis processing with high spectral reproduction accuracy can be performed even in an environment where the calculation processing performance of a portable terminal or the like is limited.
次に、本発明の実施形態について、図面を参照しながら説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の参照番号を付し、重複する説明は省略する。 Next, embodiments of the present invention will be described with reference to the drawings. In order to facilitate understanding of the description, the same reference numerals are given to the same components in the respective drawings, and duplicate descriptions are omitted.
[基礎となる実施形態]
(音声合成装置の構成)
図1は、音声合成装置100の基本構成を示すブロック図であり、図2は、音声合成装置100の具体的構成を示すブロック図である。音声合成装置100は、音源波形をサブバンド分割部110によりサブバンド分割して蓄積し、入力情報に応じてサブバンド毎に振幅を調整する。そして、振幅を調整されたサブバンド分割音源波形ベクトルを用いてサブバンド合成部140により合成し、目標となるスペクトル特性を近似的に有する音声波形を合成する。
[Basic embodiment]
(Configuration of speech synthesizer)
FIG. 1 is a block diagram showing a basic configuration of the
音声合成装置100は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する。本実施形態において、音源制御情報とは合成する音声波形の基本周波数および各サブバンドの有声重み係数である。図1に示すように、音声合成装置100は、サブバンド分割部110、サブバンド分割音源生成部120、サブバンドパワー調整部130およびサブバンド合成部140を備えている。
The
サブバンド分割部110は、音源波形を複数の周波数帯域に分割し、音源波形の分割によりベクトル系列を生成する。サブバンド分割部110は、等時間間隔内のベクトル系列からベクトルを間引き、蓄積をするためのサブバンド分割音源波形ベクトルを生成することが好ましい。
The
なお、サブバンド分割部110は、例えば分析フィルタバンクE0(z)〜EM−1(z)およびダウンサンプラD↓により構成される。分析フィルタバンクE0(z)〜EM−1(z)は、M個の周波数帯域に等分割するフィルタバンクで構成される。ダウンサンプラD↓は、サブバンド分割後のM次元のベクトル系列に対し、等時間間隔でD(ただしD≦Mとする)サンプルのベクトル系列から(D−1)のベクトルを間引いて1つのベクトルのみを残す処理を行なう。このような間引き処理により、事前蓄積のサイズと、合成フィルタバンクの処理量をそれぞれ削減できる。
The
サブバンド分割音源生成部120は、音源波形を複数の周波数帯域に分割して蓄積されたサブバンド分割音源波形ベクトルに基づいて、入力された音源制御情報に対応するサブバンド分割音源波形ベクトルを生成する。その際には、蓄積されたサブバンド分割音源波形ベクトルのうち複数のサブバンド分割音源波形ベクトルを組み合わせて、入力された音源制御情報に対応するサブバンド分割音源波形ベクトルを生成する。
The subband division sound
サブバンド分割音源生成部120は、さらに蓄積部121および選択部122を備えている。蓄積部121は、事前に生成した、比較的短時間の音源波形(音源波形素片)をサブバンド分割した結果としてのベクトルを格納する。このベクトルは、サブバンド分割数と同じ次元数のベクトルであり、これをサブバンド分割波形ベクトルという。
The subband division sound
選択部122は、入力された基本周波数の情報に基づき、事前蓄積されたサブバンド分割波形ベクトルを選択、加算する。このようにして、サブバンド分割音源生成部120は、選択されたサブバンド分割波形ベクトルを用いて、または、複数種類のサブバンド分割波形ベクトルをサブバンド分割波形ベクトルとして構成して、サブバンド分割された音源波形ベクトルを出力する。なお、上記の蓄積までは事前処理として予め行ない、それ以降の処理は入力情報があったときに行なう。
The
サブバンドパワー調整部130は、生成されたサブバンド分割音源波形ベクトルに対して、入力されたスペクトル特性情報に応じたサブバンド毎の振幅調整を行なう。サブバンドパワー調整部130には、各サブバンドのパワーを制御するための乗算回路を設けている。サブバンドパワー調整部130は、入力されるスペクトル特徴情報に基づき、サブバンド毎にこの係数A0〜AM−1を調整する。その結果、目標音声のスペクトル特性を再現する。なお、入力となるスペクトル情報は、直接的に各サブバンドのパワー情報で構成しても良いが、例えばメルケプストラム係数を入力とし、内部的に各サブバンドのパワー情報を計算し、その結果を用いてもよい。
The subband
サブバンド合成部140は、振幅調整がなされたサブバンド分割音源波形ベクトルを単一の音声波形に合成する。すなわち、サブバンド分割波形を合成し、最終的な合成音声波形を生成する。サブバンド合成部140は、例えばアップサンプラD↑および合成フィルタバンクR0(z)〜RM−1(z)により構成される。アップサンプラD↑は、振幅調整がなされたサブバンド分割音源波形ベクトルに対し、帯域分割信号間にゼロ値サンプルを挿入し、D倍のアップサンプリングを行なう。合成フィルタバンクR0(z)〜RM−1(z)は、M個の周波数帯域に分割されたサブバンド分割音源波形ベクトルを単一の音声波形に合成する。
The
(フィルタバンクの構成)
フィルタバンクを構成するあるフィルタの係数に離散フーリエ変換(DFT)や離散コサイン変換(DCT)、あるいはそれらの逆変換の係数系列を掛けると、基となったフィルタの特性を、周波数軸上でシフトした形のフィルタ特性が得られる。そして、このようなフィルタでフィルタバンクを構成することで、フィルタバンクの処理で必要な計算に、FFT(高速フーリエ変換)等の高速化手法が利用可能となる。これにより、サブバンド分割・サブバンド合成の処理を高速化することができる。
(Configuration of filter bank)
Multiplying the coefficients of a filter that constitutes a filter bank by the discrete Fourier transform (DFT), discrete cosine transform (DCT), or inverse transform coefficient series, shifts the characteristics of the underlying filter on the frequency axis. A filter characteristic of the shape is obtained. By configuring a filter bank with such a filter, a high-speed technique such as FFT (Fast Fourier Transform) can be used for calculations necessary for the filter bank processing. Thereby, the processing of subband division / subband synthesis can be speeded up.
図3Aおよび図3Bは、それぞれサブバンド分割部110の実際の回路構成および理論的な構成を示すブロック図である。また、図4Aおよび図4Bは、それぞれサブバンド合成部140の実際の回路構成および理論的な構成を示すブロック図である。いずれの例も離散コサイン変換を用いた構成例を示している。
3A and 3B are block diagrams showing the actual circuit configuration and theoretical configuration of the
サブバンド分割部110およびサブバンド合成部140のいずれについても、実際の回路構成には、遅延要素z−1が設けられ、離散コサイン変換要素DCTまたは逆離散コサイン変換要素IDCTが設けられている。これに対し、サブバンド分割部110およびサブバンド合成部140と理論的に等価な構成では、上記の各要素が含まれない形が等価となっている。サブバンド分割部110と理論的に等価な構成では、フィルタ処理を行なってからダウンサンプリングを行なうため、処理のサンプルレートが大きく、処理量も大きくなるが、実際の構成では、先にダウンサンプリングを行なっているため、処理量は少なくなる。これは、サブバンド合成部140も同様である。
In each of the
図5は、等帯域分割フィルタバンクについて周波数に対する振幅特性を示すグラフである。DFTやDCTのみを用いた場合、矩形窓関数をインパルス応答とする帯域通過フィルタを、周波数軸上でシフトした形の帯域通過フィルタで構成されるフィルタバンクと通常見なせる。以下、シフト前の基となるフィルタを基礎フィルタと呼ぶ。なお、基礎フィルタを、一般にはより好ましいと考えられる、遮断域での減衰量がより大きい周波数特性を持つ帯域通過フィルタ(なお周波数0を中心とする場合は、低域通過フィルタとなる)とすることも可能である。ただし、サブバンド分割処理結果をサブバンド合成した場合に原音声波形が復元できるようにフィルタを設計する必要がある。その条件は完全再構成条件と呼ばれる。また、フィルタ構成によっては厳密な復元が不可能な場合があり、その場合は、近似的に復元されるようにフィルタを設計する。また、長さMのDFTを用いた場合は、基となるフィルタを、正規化角周波数で2πk/M(k≦0<M)シフトさせたM個のフィルタでフィルタバンクが構成され、DCTを用いた場合は、その定義にもよるが、以下の例で定義されるDCT変換の場合、正規化角周波数でπ(k+1/2)/Mシフトさせた特徴と、π(−k+1/2)/Mシフトさせた特徴の和をその周波数特性とする、M個のフィルタでフィルタバンクが構成される。
FIG. 5 is a graph showing amplitude characteristics with respect to frequency for the equal band division filter bank. When only DFT or DCT is used, a bandpass filter having an impulse response of a rectangular window function can be generally regarded as a filter bank composed of bandpass filters that are shifted on the frequency axis. Hereinafter, the base filter before the shift is referred to as a basic filter. Note that the basic filter is a band-pass filter having a frequency characteristic with a larger attenuation in the cut-off region, which is generally considered to be more preferable (if the
以下の例では、DCT変換および逆DCT変換のペアを用いている。DFTの入出力は複素数で定義されるのに対し、DCTの入出力は実数であり、処理をより簡単に行なうことができる。例えば、(1)式のM次のDCT係数を係数とするフィルタとして(2)式(0≦k<M)を用いても分析フィルタバンクを構成できる。
DCT係数の特性上、これはM分割の等帯域分割フィルタバンクであり、さらにこのフィルタバンクは、完全再構成条件を満たすように構成できるので、帯域分割波形から入力波形を復元することができる。 Due to the characteristics of the DCT coefficient, this is an M-divided equal-band division filter bank. Further, since this filter bank can be configured to satisfy the complete reconstruction condition, the input waveform can be restored from the band-divided waveform.
なお、上記の構成において、サブバンド数はスペクトル特徴情報で記述されるスペクトルを所定の精度で模擬できるだけの数とする。例えば、1サンプルのスペクトル情報がk次(0次係数も含めパラメータ数としてはk+1個)のメルケプストラムの場合で、かつここでのkがスペクトル特徴を表現するのに必要な次元数の場合、そのようなスペクトルを一般的に模擬するために、少なくとも(k+1)個のサブバンド数が必要となる。 In the above configuration, the number of subbands is a number that can simulate the spectrum described by the spectrum feature information with a predetermined accuracy. For example, when the spectral information of one sample is a k-th order mel cepstrum (the number of parameters including the zeroth order coefficient is k + 1), and k here is the number of dimensions necessary to express the spectral feature, In order to generally simulate such a spectrum, at least (k + 1) subbands are required.
また、サブバンドパワー調整部130は、白色な音源に対して、各サブバンドのゲインを調整し、入力されたスペクトル特徴情報に対応する音声波形を生成するように動作する。なお、マルチバンド混合励振を行なう場合は、予めインパルス音源と白色雑音源が等パワーとなるように正規化しておき、各サブバンドのパワー重みの和が1となるように制御することで白色な音源を得ることができる。
In addition, the subband
先述のように、スペクトル情報として各サブバンドのパワー値を直接入力とする構成ではなく、メルケプストラム係数等から変換して各サブバンドのパワー係数を求めてもよい。サブバンド中心のスペクトル強度を、サブバンドのパワー値と見なして制御することで、目標のスペクトル特徴を近似的に得ることができる。サブバンドの中心は、DFTに基づくフィルタバンクを構成する場合、正規化角周波数軸上で、0,2π/M,4π/M,…となる。 As described above, the power value of each subband may be obtained by converting from the mel cepstrum coefficient or the like instead of directly inputting the power value of each subband as spectrum information. By controlling the spectral intensity at the center of the subband as a power value of the subband, the target spectral feature can be obtained approximately. The center of the subband is 0, 2π / M, 4π / M,... On the normalized angular frequency axis when configuring a filter bank based on DFT.
一方、先述のDCTに基づくフィルタバンクを構成する場合は、±π/2M,±3π/2M,…となる。ただし、入力が実数系列でかつ、インパルス応答が対称な基礎フィルタを用いる場合は、周波数特性も全て周波数0を中心に対称となるので、例えば正規化角周波数で0からπの範囲のみ考えれば良い。サブバンド毎のスペクトル特性はフィルタバンク係数から求めることができるので、目標のスペクトル特徴との誤差を、周波数軸上で、サブバンド数よりもより細かい間隔で評価してもよい。例えば平均二乗誤差が最少となるようなサブバンドのパワー係数の組を、反復近似推定等により求めることで、より正確な制御を実現できる。なお、上記の例は一例であり、DCT変換・逆DCT変換のペアを、他の可逆変換のペアに置き換えることもできる。
On the other hand, when a filter bank based on the above-described DCT is configured, ± π / 2M, ± 3π / 2M,... However, in the case of using a basic filter whose input is a real number sequence and whose impulse response is symmetric, the frequency characteristics are all symmetric with respect to the
(音源の制御方法)
次に、音源の制御方法について説明する。まず前提として、サブバンド分割・サブバンド合成の前後で処理の線形性が保証されているものとする。先述のDFTやDCTに基づくフィルタバンクは、線形な操作の組み合わせだけでその処理が構成されているので、この条件を満たす。
(Sound source control method)
Next, a sound source control method will be described. First, it is assumed that the linearity of processing is guaranteed before and after subband division and subband synthesis. The filter bank based on the DFT or DCT described above satisfies this condition because its processing is configured only by a combination of linear operations.
このとき、インパルス列について、例えば、過去の32サンプルから32帯域の分割を行ない、かつ各帯域の分析フィルタ・合成フィルタがFIRフィルタで表現可能な場合、サブバンド分割した結果を次のように得ることができる。すなわち、入力フレームの1番目と20番目のサンプルでインパルスが立っているようなインパルス音源波形を帯域分割した場合には、1番目のサンプルのみでインパルスが立っている音源波形をサブバンド分割した結果と、20番目のサンプルのみでインパルスが立っている音源波形をサブバンド分割した結果の各要素を足すことにより得ることができる。 At this time, for the impulse train, for example, when 32 bands are divided from the past 32 samples and the analysis filter / synthesis filter of each band can be expressed by the FIR filter, the result of subband division is obtained as follows. be able to. That is, when the impulse sound source waveform in which the impulse is raised in the first and 20th samples of the input frame is divided into bands, the result of the subband division of the sound source waveform in which the impulse is raised only in the first sample Then, the sound source waveform in which the impulse is generated only by the 20th sample can be obtained by adding each element as a result of dividing the subband.
つまり、M帯域分割の場合、インパルス音源については、M種類の音源波形の変化の事前蓄積があれば良い。実際には、音声合成で用いる基本周波数は比較的に低いので、音源波形のMサンプル内に2つ以上のインパルスが含まれるケースが少ない場合も考えられる。その場合、足し合わせ処理の処理量はほぼ無視することができる。 That is, in the case of M-band division, it is only necessary for the impulse sound source to have prior accumulation of changes in M types of sound source waveforms. Actually, since the fundamental frequency used in speech synthesis is relatively low, there may be few cases where two or more impulses are included in the M samples of the sound source waveform. In this case, the processing amount of the addition process can be almost ignored.
なお、事前作成・蓄積する波形を生成するための処理量は音声合成時の処理ではないためあまり問題とならない。したがって、例えば、1.5番目のサンプルでインパルスが立っているといった、仮想的にサンプリング周期以上の時間精度でインパルスの位置を制御することも容易である。そのような音源波形は、例えば2倍のサンプリング周波数を用いた対応する波形をまず作成し、高域遮断フィルタであるアンチエイリアスフィルタを掛けることで、元のサンプリング周波数におけるナイキスト周波数以上の成分を除去してから、2:1のダウンサンプリングによりサンプルを間引くことで得ることができる。 Note that the amount of processing for generating waveforms to be created and stored in advance is not a problem because it is not processing at the time of speech synthesis. Therefore, for example, it is also easy to control the position of the impulse with a time accuracy that is virtually equal to or higher than the sampling period, such as an impulse standing at the 1.5th sample. For such a sound source waveform, for example, a corresponding waveform using twice the sampling frequency is first created, and an antialiasing filter that is a high-frequency cutoff filter is applied to remove components higher than the Nyquist frequency at the original sampling frequency. And then thinning out the sample by 2: 1 downsampling.
このような手法は、サンプリング周波数が低く、インパルス位置をサンプル点に丸めてしまうと合成される音声の基本周波数の誤差が大きくなるケースで特に有効である。逆にサンプリングレートが高い場合は、インパルスの位置精度を下げ、蓄積するサブバンド分割波形の数を減らすという方法も考えられる。 Such a method is particularly effective in the case where the sampling frequency is low and the error of the fundamental frequency of the synthesized speech becomes large if the impulse position is rounded to the sampling point. Conversely, when the sampling rate is high, a method of reducing the position accuracy of the impulse and reducing the number of subband division waveforms to be accumulated is also conceivable.
一方、白色雑音源については、インパルスの足し合わせで白色雑音を合成しても良いが、適当な個数、フレーム長の白色雑音列を事前に帯域分割・蓄積しておき、それをフレーム毎にランダムに選択することで、近似的に構成しても良い。この場合、変換波形を蓄積する必要はあるものの、重みづけ和の計算処理が不要となるので、処理量を減らすことができる。なお、比較的少ない数の蓄積のみから白色な雑音を生成するため、蓄積された帯域分割音源波形を複数個足し合わせて、帯域分割音源波形を構成する方法も考えられる。 On the other hand, for white noise sources, white noise may be synthesized by adding impulses, but an appropriate number and frame length of white noise sequences are pre-divided and accumulated, and then randomized for each frame. It may be configured approximately by selecting In this case, although it is necessary to accumulate the converted waveform, it is not necessary to calculate the weighted sum, and the amount of processing can be reduced. In order to generate white noise from only a relatively small number of accumulations, a method of constructing a band-divided sound source waveform by adding a plurality of accumulated band-divided sound source waveforms is also conceivable.
(非最大間引きフィルタバンクを用いた構成)
フィルタバンクにおける間引き率Mはその値が1(全く間引かない)からMまでの場合で、少なくとも再合成前に各サブバンドでパワー調整を行なわない場合、サブバンド合成結果がサブバンド分割前の入力信号と一致するようなフィルタバンクを構成することができることが理論上知られている。例えば、DFTやDCTのみでフィルタバンクを構成し、間引き率Lの間引きを行なう場合、計算誤差を無視すれば、それらの逆変換により入力波形が完全に復元できることは明らかである。
(Configuration using non-maximum decimation filter bank)
The decimation rate M in the filter bank is a value from 1 (not decimation at all) to M, and at least when power adjustment is not performed in each subband before recombination, the subband synthesis result is the value before subband division. It is theoretically known that a filter bank that matches the input signal can be constructed. For example, when a filter bank is constituted only by DFT or DCT and thinning-out rate L is thinned out, it is clear that if the calculation error is ignored, the input waveform can be completely restored by their inverse transformation.
しかし、特にD=M(間引き率が最大であり、最大間引きと呼ばれる)の場合は、DCTを用いると、正規化角周波数において(ただしここではその対称性から0からπの範囲のみ考えることとする)、0〜π/M、π/M〜2π/M、...、(M−2)π/M〜(M−1)π/Mの各帯域の成分が、それが通過帯域、遮断帯域であるかに関わらず、それぞれのサブバンドに全て折り返されて格納される。そして、合成時に、各サブバンドの折り返し雑音成分が互いに打ち消しあうことで、入力波形が復元される。 However, especially in the case of D = M (the thinning rate is the maximum and is called the maximum thinning), using DCT, in the normalized angular frequency (however, only the range from 0 to π is considered here because of its symmetry) 0) to π / M, π / M to 2π / M,. . . , (M-2) π / M to (M-1) π / M band components are all folded back and stored in the respective subbands regardless of whether they are passbands or stopbands. The At the time of synthesis, the aliasing noise components of the subbands cancel each other, thereby restoring the input waveform.
各サブバンドのフィルタを帯域通過と見た場合、その通過域の幅もπ/Mだが、実際には、通過域で常にゲインが1、遮断域で常に0となるような理想的なフィルタは、有限長のフィルタでは理論上実現できない。実際には、遮断域でもある程度の通過量があり、最大間引きの場合、大きな折り返し雑音が各サブバンドには含まれている。このため、各サブバンドのパワーをサブバンド毎に独立に変更してしまうと、サブバンド間で互いに打ち消しあっている折り返し雑音の構造が崩れてしまい、その折り返し雑音が問題となる。 When the filter of each subband is viewed as a band pass, the width of the pass band is also π / M, but in reality, an ideal filter that always has a gain of 1 in the pass band and always 0 in the cut-off band is It cannot be theoretically realized with a finite filter. Actually, there is a certain amount of passage even in the cut-off area, and in the case of maximum thinning, a large aliasing noise is included in each subband. For this reason, if the power of each subband is changed independently for each subband, the structure of aliasing noise canceling out between the subbands is destroyed, and the aliasing noise becomes a problem.
これに対し、DにMより小さい値を設定すると、サンプルの間引きによる折り返しの幅が、フィルタバンクにおける帯域通過フィルタの通過域の幅より広くなるので、各サブバンドの折り返し雑音が減り、サブバンド毎に独立にパワーを調整した場合でも、折り返し雑音の影響を小さくすることができる。このような設定は非最大間引きと呼ばれる。一般に間引き率Dを小さくするほど、折り返し雑音の影響は小さくなるが、情報量的には冗長となり、蓄積・処理するデータ量が増える。このため、折り返し雑音の影響を抑えるために必要な範囲で、Dはできるだけ大きな値を設定することが好ましい。 On the other hand, if a value smaller than M is set in D, the folding width of the sample by thinning out becomes wider than the band width of the bandpass filter in the filter bank, so that the folding noise of each subband is reduced. Even when the power is adjusted independently every time, the influence of aliasing noise can be reduced. Such a setting is called non-maximum decimation. In general, the smaller the thinning rate D, the smaller the influence of aliasing noise, but the amount of information becomes redundant and the amount of data to be stored and processed increases. For this reason, it is preferable to set D as large as possible within a range necessary for suppressing the influence of aliasing noise.
先述の非最大間引きは、帯域分割前、帯域合成後の波形系列から見ると、フレームシフトDのオーバラップ分析を行なっていることと等価である。また、時間領域におけるDサンプルの処理毎に、サブバンド分割領域における1サンプルの処理が行なわれる。ここで、簡単のためにDがMの約数であるとする。なお、完全再構成条件を満たすフィルタバンクを用いるものとする。 The aforementioned non-maximum decimation is equivalent to performing an overlap analysis of the frame shift D when viewed from the waveform series before band division and after band synthesis. In addition, for each D sample process in the time domain, one sample process in the subband division domain is performed. Here, for simplicity, it is assumed that D is a divisor of M. It is assumed that a filter bank that satisfies the complete reconstruction condition is used.
まず、インパルス音源については、非最大間引きであっても、上記で説明している音源の制御方法と同様の方法で制御する。ただし、例えば長さMのフレームにおいて、先頭からNサンプル目(ただしM>N≧Dとする)のサンプルが立っている場合、Dサンプルのフレームシフトにより、次のフレームでは先頭からN−D番目のサンプルにインパルスが立つ。このとき、インパルス音源はそれぞれのタイミングで、対応する事前蓄積されたサブバンド分割波形ベクトルを出力する。 First, the impulse sound source is controlled by the same method as the sound source control method described above, even if it is non-maximum decimation. However, for example, in a frame of length M, if the Nth sample (where M> N ≧ D) stands from the beginning, the NDth sample from the beginning in the next frame due to the frame shift of D samples. Impulse stands on the sample. At this time, the impulse sound source outputs a corresponding pre-stored subband division waveform vector at each timing.
一方、白色雑音については、例えば、最も簡単な方法として、M×Nサンプル周期で同じ波形を繰り返すことで生成する方法が考えられる。その場合は、フレームシフトに対応する、M×N×(M/D)通りの、長さMの波形を事前蓄積しておき、フレームシフトに応じて順に出力する方法がまず考えられる。ここでNは、雑音周期が聴感上問題ない程度となるものであれば良い。例えば雑音の周期M×Nが、可聴周波数の下限(例えば20Hz)に対応する周期より長ければよい。 On the other hand, white noise can be generated by repeating the same waveform at an M × N sample period, for example, as the simplest method. In that case, a method of pre-accumulating M × N × (M / D) length M waveforms corresponding to the frame shift and sequentially outputting them in accordance with the frame shift is conceivable. Here, N may be any value as long as the noise period is such that there is no problem with hearing. For example, the noise period M × N may be longer than the period corresponding to the lower limit of the audible frequency (for example, 20 Hz).
あるいは、長さMの白色雑音波形素片を予め何個か用意しておき、それをランダムに繋ぎ合わせる方法もある。ここで1つの長さMの白色雑音波形素片について、時間軸上の素片範囲外でサンプル値が全て0として扱う。この白色雑音波形素片単独の時間領域における1フレーム内での出現パターンは、フレーム内における波形の開始点の違いで決まり、開始点には−M+D,−M+2D,…,−D,0,D,…,M−Dの計(2(M/D)−1)個のパターンがある。 Alternatively, there is a method in which several white noise waveform segments having a length M are prepared in advance and are connected at random. Here, for one white noise waveform segment of length M, all sample values are treated as 0 outside the segment range on the time axis. The appearance pattern in one frame in the time domain of the white noise waveform segment alone is determined by the difference in the waveform start point in the frame, and −M + D, −M + 2D,..., −D, 0, D There are a total of (2 (M / D) -1) patterns of M-D.
1フレーム分の雑音波形は1種類(開始点が0の場合)または2種類の長さMの雑音波形の組み合わせで表現できる。したがって、事前作成する長さMのサンプルの白色雑音波形素片がN種類のとき、合計N(2(M/D)−1)個の事前蓄積から、1または2個のサブバンド分割波形を取得し、それをサブバンド分割領域で足し合わせる処理により、白色雑音源を実現できる。 The noise waveform for one frame can be expressed by one type (when the starting point is 0) or a combination of two types of noise waveforms of length M. Therefore, when there are N types of white noise waveform segments of a sample of length M to be created in advance, one or two subband division waveforms are obtained from a total of N (2 (M / D) -1) pre-accumulations. A white noise source can be realized by acquiring and adding the subband division regions.
また、白色雑音波形素片の長さをM/2,M/4,…と短くしていくことで、その場合、1フレーム内での出現パターン数が減り、音源で必要な足し合せ処理が増えていく。逆に白色雑音波形素片の長さを長くすることもできる。その場合は出現パターン数が増えるため、必要な蓄積の数が増えるが、音源で足し合わせの処理が必要となる場合が減ることとなる。 In addition, by reducing the length of the white noise waveform segment to M / 2, M / 4,..., The number of appearance patterns in one frame is reduced, and the addition processing necessary for the sound source is reduced. It will increase. Conversely, the length of the white noise waveform segment can be increased. In this case, since the number of appearance patterns increases, the number of necessary accumulations increases, but the number of cases where a summing process is required with a sound source is reduced.
[第1の実施形態]
(正弦波合成を用いた装置の構成)
上記の実施形態は、音源ごとに乗算回路を設けてスペクトル包絡特性の再現と音源の混合比調整を同時に行なう構成であるが、例えば混合励振源の各帯域のパワーが等しくなるような条件の下でサブバンド分割された音源波形をまず作成し、それに対してサブバンドごとにパワー制御を行なうこともできる。
[First Embodiment]
(Apparatus configuration using sine wave synthesis)
In the above embodiment, a multiplication circuit is provided for each sound source to simultaneously reproduce the spectral envelope characteristics and adjust the mixing ratio of the sound source. For example, under the condition that the power of each band of the mixed excitation source is equal. It is also possible to first create a sound source waveform divided into subbands, and to perform power control for each subband.
図6は、混合励振源の一部に正弦波合成成分を用いた音声合成装置200の基本構成を示すブロック図であり、図7は、音声合成装置200の具体的構成を示すブロック図である。音声合成装置200の基本構成は、音声合成装置100と同様であり、音源波形をサブバンド分割部210によりサブバンド分割して蓄積し、入力情報に応じてサブバンド毎に振幅を調整する。そして、振幅を調整されたサブバンド分割音源波形ベクトルを用いてサブバンド合成部140により合成し、目標となるスペクトル特性を近似的に有する音声波形を合成する。
FIG. 6 is a block diagram showing a basic configuration of a
音声合成装置200は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する。音源制御情報とは基本周波数および混合重みの情報である。音声合成装置200では、インパルス列と正弦波合成とをサブバンド単位で切り替えて有声音の構成要素である周期性波形を合成する。インパルス列から合成するサブバンドについては、サブバンド符号化されたベクトル系列の各要素に、目標のスペクトル特性となるように適当な振幅乗数を掛ける。
The
一方、正弦波合成により合成するサブバンド成分については、合成対象となるサブバンドに含まれる各調波成分(駆動音源の基本周波数の整数倍の成分)が目標のスペクトル特性を構成するように、各調波成分にそれぞれ適当な振幅乗数を乗ずる。この際、正弦波の位相は、例えば、先述のインパルス列から合成した場合と等遅延となるように制御する。例えば、インパルス列におけるインパルスが配置される時刻からさらに帯域分割フィルタの遅延時間を加えた時刻に位相が0となるような、その周波数が基本周波数の整数倍となる余弦関数の足し合わせが挙げられる。このような余弦関数の足し合わせは、従来のインパルス列から合成する場合を模擬でき、上記の条件を満たす。あるいは、もっと自然音声の特徴に近づけるように、異なる位相制御方法を用いてもよい。なお、帯域分割フィルタのオーバラップ特性により、通常、1つの調波成分は複数のサブバンドの成分として分割される。このため、サブバンド合成部の合成結果が目標のスペクトル特性となるように、各調波成分に対して、複数のサブバンドで正弦波の振幅、位相をそれぞれ制御する必要がある。 On the other hand, for subband components to be synthesized by sine wave synthesis, each harmonic component (component that is an integral multiple of the fundamental frequency of the driving sound source) included in the subband to be synthesized constitutes the target spectral characteristics. Each harmonic component is multiplied by an appropriate amplitude multiplier. At this time, the phase of the sine wave is controlled so as to have an equal delay, for example, when synthesized from the impulse train described above. For example, the addition of cosine functions whose frequency is an integer multiple of the fundamental frequency such that the phase becomes 0 at the time when the delay time of the band division filter is further added from the time at which the impulse in the impulse train is arranged. . Such addition of cosine functions can simulate the case of synthesis from a conventional impulse train, and satisfies the above conditions. Alternatively, different phase control methods may be used so as to be closer to the characteristics of natural speech. Note that one harmonic component is usually divided as a plurality of subband components due to the overlap characteristics of the band division filter. For this reason, it is necessary to control the amplitude and phase of the sine wave with a plurality of subbands for each harmonic component so that the synthesis result of the subband synthesizing unit becomes the target spectral characteristic.
そして、これら2種類の音声合成方法をサブバンド符号化におけるベクトル要素単位で組み合わせて、サブバンド符号化された合成音声系列を生成し、復号することで最終的な音声波形を生成する。 These two types of speech synthesis methods are combined in units of vector elements in subband coding to generate a subband-encoded synthesized speech sequence and decode it to generate a final speech waveform.
図6に示すように、音声合成装置200は、サブバンド分割部210、サブバンド分割音源生成部220、サブバンドパワー調整部130、正弦波合成部232、サブバンド分割波形ベクトル生成部236およびサブバンド合成部140を備えている。
As shown in FIG. 6, the
サブバンド分割音源生成部220は、正弦波合成により周期性成分を合成するサブバンドリスト以外のサブバンドインパルス音源に対応するサブバンド分割音源波形ベクトルと、白色雑音音源に対応するサブバンド分割音源波形ベクトルとの重み付け和により生成されたサブバンド分割音源波形ベクトルを生成する。サブバンド分割部210は、インパルス側分割部211aおよび白色雑音側分割部211bを備えている。インパルス側分割部211aはインパルス音源をサブバンド分割し、白色雑音側分割部211bは、白色雑音源をサブバンド分割する。
The subband division sound
サブバンド分割音源生成部220は、インパルス側蓄積部221a、インパルス側選択部222a、インパルス側重み付け乗算部223a、白色雑音側蓄積部221b、白色雑音側選択部222b、白色雑音側重み付け乗算部223bおよび加算部224を備えている。
The subband division sound
インパルス側蓄積部221aは、インパルス音源に基づくサブバンド分割音源波形ベクトルを蓄積する。インパルス側選択部222aは、入力された基本周波数の情報に基づき、事前蓄積されたインパルス音源に基づくサブバンド分割波形ベクトルを選択する。インパルス側重み付け乗算部223aは、選択されたサブバンド分割波形ベクトルの各要素に重み付け係数Ap0〜Ap(M−1)のうちApm〜Ap(M−1)をそれぞれ乗算する。
The impulse
一方、白色雑音側蓄積部221bは、白色雑音源に基づくサブバンド分割音源波形ベクトルを蓄積する。白色雑音側選択部222bは、例えば上記の「音源の制御方法」に記載された方法に基づき、事前蓄積された白色雑音源に基づくサブバンド分割波形ベクトルを選択する。白色雑音側重み付け乗算部223bは、選択されたサブバンド分割波形ベクトルの各要素に重み付け係数Aa0〜Aa(M−1)をそれぞれ乗算する。なお、各係数は、Apx+Aax=1となるように決められる。
On the other hand, the white noise
加算部224は、正弦波合成により周期性成分を合成するサブバンドリスト以外のサブバンドについてそれぞれインパルス側および白色雑音側で重み付け乗算されたサブバンド分割波形ベクトルを加算する。このように、複数種類のサブバンド分割波形ベクトルを、音源情報に基づき1つのサブバンド分割波形ベクトルとして生成する。混合励振源を音源に用いる場合、音源情報に基づき、インパルス列と雑音源の混合比調整も同時に行なう。
なお、インパルス側蓄積部221a、インパルス側選択部222aおよびインパルス側重み付け乗算部223aは、インパルス側サブバンド分割音源生成部220aを構成する。白色雑音側蓄積部221b、白色雑音側選択部222bおよび白色雑音側重み付け乗算部223bは、白色雑音側サブバンド分割音源生成部220bを構成する。
Note that the impulse
サブバンドパワー調整部130は、生成されたサブバンド分割音源波形ベクトルに対して、入力されたスペクトル特性情報に応じたサブバンド毎の振幅調整を行なう。サブバンドパワー調整部130は、各サブバンドのパワーを制御するための乗算回路を有し、入力されるスペクトル特徴情報に基づき、サブバンド毎にこの係数A0〜AM−1を調整する。
The subband
正弦波合成部232は、正弦波合成により周期性成分を合成するサブバンドリスト(特定のサブバンド)について、サブバンド毎に出力目標音声のスペクトル特性を模擬するように、振幅調整された正弦波を合成する。これにより、サブバンド符号化におけるサブバンド数が少ない場合であっても、入力されたスペクトル特性情報を周波数軸方向に対してより高精度に反映させた音声を合成することができる。その結果、処理量の増加を抑えつつ、高い解像度で音声を再現できる。なお、サブバンド毎の振幅調整がなされた正弦波合成成分に対しては、インパルス成分の混合重み係数Ap0〜Ap(m−1)を乗じ、それをサブバンドの正弦波合成による成分として保存する。
The
正弦波合成部232は、特定のサブバンドにおいてインパルス音源に対応させて正弦波合成成分を生成することが好ましい。また、正弦波合成部232は、低い側の一部の帯域のサブバンドを特定のサブバンドとして正弦波合成成分を生成することが好ましい。これにより、低い側の一部の帯域のサブバンドにおいて、入力されたスペクトル特性情報を周波数軸方向に対して高精度に反映させた音声を合成できる。低い周波数の方を細かく扱うことで特に聴覚特性を向上できる。正弦波合成部232の動作の詳細は、後述する。
The sine
サブバンド分割波形ベクトル生成部236は、特定のサブバンドにおいて振幅調整されたサブバンド分割音源波形ベクトルおよび正弦波が合成された正弦波合成成分を組み合わせて1つのサブバンド分割波形ベクトルを生成する。なお、サブバンドパワー調整部130およびサブバンド合成部140の機能は、音声合成装置100のものと同様である。
The subband division waveform
サブバンド合成部140は、振幅調整がなされたサブバンド分割音源波形ベクトルを単一の音声波形に合成する。サブバンド合成部140は、例えばアップサンプラD↑および合成フィルタバンクR0(z)〜RM−1(z)により構成される。
The
このように、音声合成装置200は、音源波形の種類に応じて、それぞれサブバンド分割し、音声合成時に事前蓄積した帯域サブバンド分割波形ベクトルを用いて音源となるサブバンド分割波形ベクトルを生成する。
As described above, the
(正弦波合成部による処理)
以下に、正弦波合成部232の動作の詳細を説明する。正弦波合成部232における処理は、例えば正弦波合成部232による最終出力波形と同じサンプリングレートで特定の周波数の正弦波を生成し、それらを組み合わせて周期性波形を構築して、サブバンド符号化を行なうことで実現できる。
(Processing by sine wave synthesis unit)
Details of the operation of the sine
サブバンド符号化の処理が線形な処理のみで構成される場合、より効率的な処理のために、正弦波合成部232における処理は、ダウンサンプリングされたサンプリングレートと同じサンプリングレートで正弦波系列を生成して先にサブバンド符号化し、サブバンド符号のベクトルを定数倍することで正弦波の振幅調整を行なってから、そのベクトルを足し合わせることで、出力となる正弦波合成成分を生成してもよい。
In the case where the subband coding process is configured only by a linear process, the sine
このように正弦波合成部232は、サブバンド分割音源波形ベクトルとして原波形を完全もしくは近似的に復元できるようにダウンサンプリングし、ダウンサンプリングでのサンプリングレートと等しいサンプリングレートで、特定のサブバンドにおいて正弦波合成成分を生成することが好ましい。このようにして、音声合成時においてサブバンド符号化処理を行なうことなく、予めサブバンド符号化された正弦波合成結果を出力することで、処理量を削減しつつ、入力に対応した合成音声波形を生成できる。
As described above, the sine
さらに、サブバンド符号化された正弦波の生成処理においては、通常のサブバンド符号化処理を行なわずに、その振幅および位相特性からサブバンド符号化されたベクトル系列を直接求めることが可能である。これは、合成対象の周期性波形の周波数は音源情報として与えられ、サブバンド符号化に用いられる各フィルタの周波数−振幅特性および周波数−位相特性から、その振幅および位相特性が求まるため、可能になる。 Further, in the generation process of a subband-encoded sine wave, it is possible to directly obtain a subband-encoded vector sequence from its amplitude and phase characteristics without performing a normal subband encoding process. . This is possible because the frequency of the periodic waveform to be synthesized is given as sound source information, and the amplitude and phase characteristics can be obtained from the frequency-amplitude characteristics and frequency-phase characteristics of each filter used for subband coding. Become.
各サブバンドの各サンプルの値は、スペクトル特徴情報から決まる振幅特性を用いて得られた当該位相における正弦波の振幅と、帯域遮断フィルタの振幅特性の積で決まる。なお、位相は、帯域遮断フィルタの位相特性を反映させたものとする。三角関数については、例えば事前に数百の位相に対する値のテーブルを準備しておき、テーブルで定義された値の間を一次補間で求める方法等により、効率的に求めることができる。帯域遮断フィルタの振幅特性と位相特性についても同様にテーブルと一次補間を組み合わせる方法で効率的に求めることができる。 The value of each sample in each subband is determined by the product of the amplitude of the sine wave in the phase obtained by using the amplitude characteristic determined from the spectral characteristic information and the amplitude characteristic of the band cutoff filter. Note that the phase reflects the phase characteristics of the band cut filter. The trigonometric function can be obtained efficiently, for example, by preparing a table of values for several hundred phases in advance and obtaining values defined by the table by linear interpolation. Similarly, the amplitude characteristic and the phase characteristic of the band cut-off filter can be efficiently obtained by combining the table and the primary interpolation.
上記の計算では、サブバンド符号化におけるフィルタの遮断域において、その振幅特性は一部の点を除き完全に0ではない。したがって、厳密な処理を行なうとすると、ある1つの正弦波系列に対するサブバンド符号化結果は、全てのサブバンド成分、すなわちサブバンド分割波形ベクトルの全ての次元要素に対して、それぞれ計算して求めなければならなくなる。正弦波合成部232は、合成する全てのサブバンドの成分に対してそれぞれ計算して求める必要があることになる。
In the above calculation, the amplitude characteristic is not completely zero except for some points in the cutoff band of the filter in the subband coding. Therefore, if strict processing is performed, the subband encoding result for one sine wave sequence is obtained by calculating for all subband components, that is, all dimension elements of the subband division waveform vector. Will have to. The sine
ただし、フィルタ遮断域の遮断量が充分に大きいと考えられるときは、遮断域に対応する次元の要素の値を0と見なすことで、正弦波の振幅制御に必要な乗算処理を削減できる。例えば、32帯域分割が行われるMPEGオーディオでは、符号化で用いられる疑似直交鏡像フィルタバンクで、隣接サブバンドの中心周波数まで帯域制限フィルタのエッジ周波数をオーバラップさせ、基本的にはある周波数において常に2つのサブバンドが重なる構造となっており、また、帯域制限フィルタの遮断域は実用上充分なものと見なせる。 However, when the cutoff amount of the filter cutoff region is considered to be sufficiently large, the multiplication processing necessary for amplitude control of the sine wave can be reduced by regarding the value of the element of the dimension corresponding to the cutoff region as 0. For example, in MPEG audio in which 32-band division is performed, the edge frequency of the band-limiting filter is overlapped to the center frequency of adjacent subbands in the pseudo orthogonal mirror image filter bank used in encoding, and basically always at a certain frequency. Two subbands overlap each other, and the cut-off band of the band-limiting filter can be considered to be practically sufficient.
例えば、32kHzサンプリング時には、サブバンド符号化部の帯域制限フィルタの通過域は、0Hzから0.75kHz,0.25kHzから1.25kHz,0.75kHzから1.75kHz,1.25kHzから2.25kHz,…となる。この場合に、1kHzの正弦波は、主に2番目と3番目のサブバンドの成分として符号化される。そこで、上記の近似により、残りの30サブバンドの値は0に固定し、正弦波合成部232においてサブバンド分割波形ベクトルを生成する際に必要な加算および乗算処理を省くことができる。
For example, at the time of 32 kHz sampling, the pass band of the band limiting filter of the subband encoding unit is 0 Hz to 0.75 kHz, 0.25 kHz to 1.25 kHz, 0.75 kHz to 1.75 kHz, 1.25 kHz to 2.25 kHz, ... In this case, the 1 kHz sine wave is encoded mainly as the second and third subband components. Therefore, by the above approximation, the values of the remaining 30 subbands are fixed to 0, and the addition and multiplication processes necessary for generating the subband division waveform vector in the sine
(音声合成装置の動作例)
次に、音声合成装置200の動作例を説明する。図8および図9は、音声合成装置200の動作の一例を示すフローチャートである。なお、図中のA、B、Cは、図8と図9との流れを結ぶ点を示している。本動作例では、フレームシフトがDサンプル、音源波形の1素片の長さがMサンプル、分割帯域数がMであることを前提条件としている。
(Operation example of speech synthesizer)
Next, an operation example of the
まず、ランダムに選択した雑音素片n1のフレーム内開始点s1を0に設定し、ランダムに選択した雑音素片n2のフレーム内開始点s2をMに設定する(ステップT1)。次に、入力データの有無を判定する(ステップT2)。入力データが無い場合には、処理を終了する。入力データがある場合には、入力データとして、基本周波数、混合重み、スペクトル特徴情報を取得する(ステップT3)。 First, the in-frame start point s1 of the randomly selected noise element n1 is set to 0, and the in-frame start point s2 of the randomly selected noise element n2 is set to M (step T1). Next, the presence / absence of input data is determined (step T2). If there is no input data, the process ends. If there is input data, the fundamental frequency, mixing weight, and spectrum feature information are acquired as input data (step T3).
入力された基本周波数からインパルスの位置を決定する(ステップT4)。各インパルスに対応するサブバンド分割音源波形ベクトルを蓄積されたサブバンド分割音源波形ベクトルから取得する(ステップT5)。なお、取得数はインパルスの数と同じ個数である。そして、インパルス側で取得したサブバンド分割音源波形ベクトルの和を計算する(ステップT6)。また、正弦波合成により周期性成分を合成するサブバンドリスト以外のサブバンドについて、インパルス側でサブバンド分割音源波形ベクトルの要素をそれぞれ混合重み係数倍する(ステップT7)。 The position of the impulse is determined from the input fundamental frequency (step T4). A subband division sound source waveform vector corresponding to each impulse is acquired from the accumulated subband division sound source waveform vector (step T5). The number of acquisitions is the same as the number of impulses. Then, the sum of the sub-band divided sound source waveform vectors acquired on the impulse side is calculated (step T6). Further, for the subbands other than the subband list for synthesizing the periodic component by sine wave synthesis, the elements of the subband divided sound source waveform vector are respectively multiplied by the mixing weight coefficient on the impulse side (step T7).
sを正弦波合成により周期性成分を合成するサブバンドリストの最初の要素とする(ステップT8)。fkを基本周波数のある整数倍の値のうち、サブバンドsの分析フィルタ(Es(z))の通過域に含まれる最小の値とし、x=0とする(ステップT9)。 Let s be the first element of the subband list for synthesizing periodic components by sinusoidal synthesis (step T8). Let f k be the minimum value included in the passband of the analysis filter (Es (z)) of the subband s among values of an integral multiple of the fundamental frequency, and x = 0 (step T9).
周波数がfkでインパルスの位置を中心とする余弦関数を、スペクトル特徴から定まる周波数−振幅特性関数P(w)によりP(w)(ただしw=2πfk/fs、fsはサンプリング周波数)倍する。そして、その関数にフィルタEs(z)を適用した場合について、対象時刻tにおけるその結果の値を計算し、xに加算する(ステップT10)。すなわちxをx+|Es(w)|P(w)cos(2πfk(t−t0)+argEs(w))で更新する。なお、Es(w)はEs(z)のzをexp(jw)に置き換えた関数(jは虚数単位)、tが対象時刻、t0がインパルス位置の時刻である。 A cosine function centered on the impulse position with a frequency of f k is expressed as P (w) by a frequency-amplitude characteristic function P (w) determined from spectral characteristics (where w = 2πf k / f s and f s are sampling frequencies). Double. Then, when the filter E s (z) is applied to the function, the value of the result at the target time t is calculated and added to x (step T10). That is, x is updated by x + | E s (w) | P (w) cos (2πf k (t−t 0 ) + argE s (w)). Note that E s (w) is a function in which z of E s (z) is replaced with exp (jw) (j is an imaginary unit), t is the target time, and t 0 is the time of the impulse position.
fkを基本周波数分だけ増加させ、合成対象を1つ上の調波に更新する(ステップT11)。fkがEs(z)の通過域に含まれるか否かを判定する(ステップT12)。含まれる場合はステップT10に戻る。そうでなければステップT13へ進む。xにそのサブバンドsのインパルス成分の混合重み係数を乗じ、それをサブバンドsの正弦波合成による成分として保存する(ステップT13)。 f k is increased by the fundamental frequency, and the synthesis target is updated to the next higher harmonic (step T11). It is determined whether f k is included in the pass band of E s (z) (step T12). If included, the process returns to step T10. Otherwise, the process proceeds to step T13. x is multiplied by the mixing weight coefficient of the impulse component of the subband s, and the result is stored as a component by the sine wave synthesis of the subband s (step T13).
サブバンドsが正弦波合成により周期性成分を合成するサブバンドのリストの最後の要素か否かを判定する(ステップT14)。最後の要素でない場合にはsを正弦波合成により周期性成分を合成するサブバンドのリストのsの次の要素に更新し(ステップT15)、ステップT9へ戻る。最後の要素である場合には、2個の白色雑音のサブバンド分割音源波形ベクトルである(n1,s1)、(n2,s2)の情報に基づき蓄積されたサブバンド分割音源波形ベクトルから取得する(ステップT16)。 It is determined whether or not the subband s is the last element in the subband list for synthesizing the periodic component by sinusoidal synthesis (step T14). If it is not the last element, s is updated to the element next to s in the subband list for synthesizing the periodic component by sinusoidal synthesis (step T15), and the process returns to step T9. In the case of the last element, it is acquired from the subband divided sound source waveform vectors accumulated based on the information of (n1, s1) and (n2, s2), which are the two white noise subband divided sound source waveform vectors. (Step T16).
そして、取得したサブバンド分割音源波形ベクトルの和を計算する(ステップT17)。白色雑音源波形のサブバンド分割音源波形ベクトルの要素は、それぞれ(1−混合重み係数)倍する(ステップT18)。 Then, the sum of the acquired subband division sound source waveform vectors is calculated (step T17). Each element of the sub-band divided sound source waveform vector of the white noise source waveform is multiplied by (1−mixing weight coefficient) (step T18).
次に、雑音素片n1のフレーム内開始点s1をs1−Dに設定し、雑音素片n2のフレーム内開始点s2をs2−Dに設定する(ステップT19)。フレーム内開始点s1が−Mより大きいか否かを判定し(ステップT20)、大きい場合には、ステップT22に進む。 Next, the intraframe start point s1 of the noise element n1 is set to s1-D, and the intraframe start point s2 of the noise element n2 is set to s2-D (step T19). It is determined whether or not the in-frame start point s1 is larger than −M (step T20). If larger, the process proceeds to step T22.
フレーム内開始点s1が−M以下である場合には、雑音素片n1を雑音素片n2と同じに設定し、フレーム内開始点s1を0に設定する。また、雑音素片n2を新たにランダムに選択し、雑音素片n2のフレーム内開始点s2をMに設定する(ステップT21)。 When the intraframe start point s1 is −M or less, the noise element n1 is set to be the same as the noise element n2, and the intraframe start point s1 is set to zero. Also, the noise element n2 is newly selected at random, and the intraframe start point s2 of the noise element n2 is set to M (step T21).
次に、正弦波合成により周期性成分を合成するサブバンドリスト以外のサブバンドについて、混合励振源のサブバンド分割音源波形ベクトルとして、インパルス側と白色雑側の重み付きサブバンド分割音源波形ベクトルの和を計算する(ステップT22)。そして、音源波形のサブバンド分割音源波形ベクトルの各要素に対し、スペクトル特徴に基づく値を乗じる(ステップT23)。 Next, for the subbands other than the subband list for synthesizing the periodic component by sine wave synthesis, the weighted subband divided sound source waveform vectors of the impulse side and the white noise side are used as the subband divided sound source waveform vectors of the mixed excitation source. The sum is calculated (step T22). Then, each element of the sub-band divided sound source waveform vector of the sound source waveform is multiplied by a value based on the spectrum feature (step T23).
サブバンドリストに含まれるサブバンドについて正弦波合成側と白色雑音側の重み付きサブバンド分割音源波形ベクトルの和を計算する(ステップT24)。サブバンド合成処理を行ない(ステップT25)、Dサンプルを出力して(ステップT26)、ステップT2に戻る。このような処理により、処理量を削減し、十分な音声合成処理や混合励振が可能になる。なお、上記のような動作は、装置内のコンピュータによりプログラムが実行されることで行なわれる。 For the subbands included in the subband list, the sum of the weighted subband divided sound source waveform vectors on the sine wave synthesis side and the white noise side is calculated (step T24). Sub-band synthesis processing is performed (step T25), D samples are output (step T26), and the process returns to step T2. Such processing reduces the amount of processing and enables sufficient speech synthesis processing and mixed excitation. The above operation is performed by executing a program by a computer in the apparatus.
なお、上記の実施形態では、入力情報に応じてサブバンド毎に振幅を調整しているが、音源波形を複数の周波数帯域の成分に分解し、分解された成分をそれぞれサブバンド符号化し、サブバンド符号化された分解成分について振幅を調整してもよい。 In the above embodiment, the amplitude is adjusted for each subband in accordance with the input information. However, the sound source waveform is decomposed into components of a plurality of frequency bands, and the decomposed components are respectively subband encoded, The amplitude may be adjusted for the band-coded decomposition component.
100 音声合成装置
110 サブバンド分割部
120 サブバンド分割音源生成部
121 蓄積部
122 選択部
130 サブバンドパワー調整部
140 サブバンド合成部
200 音声合成装置
210 サブバンド分割部
211a インパルス側分割部
211b 白色雑音側分割部
220 サブバンド分割音源生成部
220a インパルス側サブバンド分割音源生成部
220b 白色雑音側サブバンド分割音源生成部
221a インパルス側蓄積部
221b 白色雑音側蓄積部
222a インパルス側選択部
222b 白色雑音側選択部
223a インパルス側乗算部
223b 白色雑音側乗算部
224 加算部
232 正弦波合成部
236 サブバンド分割波形ベクトル生成部
DESCRIPTION OF
Claims (6)
1以上のサブバンドにおいて出力目標音声のスペクトル特性を模擬するように、振幅調整された複数の正弦波を足し合わせて合成した正弦波合成成分を出力する正弦波合成部と、
前記1以上のサブバンドにおいて前記出力された正弦波合成成分を単一の音声波形に合成するサブバンド合成部と、を備え、
前記正弦波合成部は、前記出力する正弦波合成成分が前記サブバンド合成部において原波形を完全もしくは近似的に復元できるようにダウンサンプリングされた際のサンプリングレートと等しいサンプリングレートで、前記1以上のサブバンドにおいて予めサブバンド符号化された前記正弦波合成成分を生成することを特徴とする音声合成装置。 A speech synthesizer that synthesizes a speech waveform in a plurality of divided frequency bands based on input time-series sound source control information and spectrum characteristic information,
A sine wave synthesizing unit that outputs a sine wave synthesis component obtained by adding and synthesizing a plurality of amplitude-adjusted sine waves so as to simulate the spectral characteristics of the output target speech in one or more subbands;
A subband synthesis unit that synthesizes the output sine wave synthesis component in the one or more subbands into a single speech waveform;
The sine wave synthesis unit has a sampling rate equal to or higher than the sampling rate when the output sine wave synthesis component is down-sampled so that the sub-wave synthesis unit can completely or approximately restore the original waveform. A speech synthesizer for generating the sine wave synthesis component that has been previously sub-band encoded in the sub-band.
1以上のサブバンドにおいて出力目標音声のスペクトル特性を模擬するように、振幅調整された複数の正弦波を足し合わせて合成した正弦波合成成分を出力するステップと、
前記1以上のサブバンドにおいて前記出力された正弦波合成成分を単一の音声波形に合成するステップと、を含み、
前記正弦波合成成分を出力するステップは、前記出力する正弦波合成成分が前記単一の音声波形に合成するステップにおいて原波形を完全もしくは近似的に復元できるようにダウンサンプリングされた際のサンプリングレートと等しいサンプリングレートで、前記1以上のサブバンドにおいて予めサブバンド符号化された前記正弦波合成成分を生成することを特徴とする音声合成方法。 A speech synthesis method for synthesizing speech waveforms in a plurality of divided frequency bands based on input time-series sound source control information and spectrum characteristic information,
Outputting a combined sine wave component by combining a plurality of amplitude-adjusted sine waves so as to simulate the spectral characteristics of the output target speech in one or more subbands;
Synthesizing the output sine wave synthesis component in the one or more subbands into a single speech waveform;
The step of outputting the sine wave synthesis component is a sampling rate when the output sine wave synthesis component is downsampled so that the original waveform can be completely or approximately restored in the step of synthesizing the single sine wave synthesis component. A speech synthesis method characterized by generating the sine wave synthesis component previously sub-band encoded in the one or more sub-bands at a sampling rate equal to.
1以上のサブバンドにおいて出力目標音声のスペクトル特性を模擬するように、振幅調整された複数の正弦波を足し合わせて合成した正弦波合成成分を出力する処理と、
前記1以上のサブバンドにおいて前記出力された正弦波合成成分を単一の音声波形に合成する処理と、をコンピュータに実行させ、
前記正弦波合成成分を出力する処理は、前記出力する正弦波合成成分が前記単一の音声波形に合成する処理において原波形を完全もしくは近似的に復元できるようにダウンサンプリングされた際のサンプリングレートと等しいサンプリングレートで、前記1以上のサブバンドにおいて予めサブバンド符号化された前記正弦波合成成分を生成することを特徴とする音声合成プログラム。
A speech synthesis program for synthesizing speech waveforms in a plurality of divided frequency bands based on input time-series sound source control information and spectrum characteristic information,
Processing to output a sine wave synthesis component obtained by adding and synthesizing a plurality of amplitude-adjusted sine waves so as to simulate the spectral characteristics of the output target speech in one or more subbands;
Causing the computer to execute a process of synthesizing the output sine wave synthesis component in the one or more subbands into a single speech waveform;
The processing of outputting the sine wave synthesis component is performed at a sampling rate when the output sine wave synthesis component is down-sampled so that the original waveform can be completely or approximately restored in the synthesis of the single speech waveform. A speech synthesis program that generates the sine wave synthesis component that is pre-subband encoded in the one or more subbands at a sampling rate equal to.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017131338A JP6410890B2 (en) | 2017-07-04 | 2017-07-04 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017131338A JP6410890B2 (en) | 2017-07-04 | 2017-07-04 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012263574A Division JP6284298B2 (en) | 2012-11-30 | 2012-11-30 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017182099A true JP2017182099A (en) | 2017-10-05 |
JP6410890B2 JP6410890B2 (en) | 2018-10-24 |
Family
ID=60004583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017131338A Active JP6410890B2 (en) | 2017-07-04 | 2017-07-04 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6410890B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863477A (en) * | 2020-12-31 | 2021-05-28 | 出门问问(苏州)信息科技有限公司 | Speech synthesis method, device and storage medium |
JP2022133447A (en) * | 2021-09-27 | 2022-09-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Speech processing method and device, electronic apparatus, and storage medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008530607A (en) * | 2005-02-10 | 2008-08-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Speech synthesis method |
JP2012527637A (en) * | 2009-05-19 | 2012-11-08 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート | Audio signal encoding and decoding method and apparatus using hierarchical sinusoidal pulse coding |
-
2017
- 2017-07-04 JP JP2017131338A patent/JP6410890B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008530607A (en) * | 2005-02-10 | 2008-08-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Speech synthesis method |
JP2012527637A (en) * | 2009-05-19 | 2012-11-08 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート | Audio signal encoding and decoding method and apparatus using hierarchical sinusoidal pulse coding |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863477A (en) * | 2020-12-31 | 2021-05-28 | 出门问问(苏州)信息科技有限公司 | Speech synthesis method, device and storage medium |
CN112863477B (en) * | 2020-12-31 | 2023-06-27 | 出门问问(苏州)信息科技有限公司 | Speech synthesis method, device and storage medium |
JP2022133447A (en) * | 2021-09-27 | 2022-09-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Speech processing method and device, electronic apparatus, and storage medium |
JP7412483B2 (en) | 2021-09-27 | 2024-01-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Audio processing methods, devices, electronic devices and storage media |
Also Published As
Publication number | Publication date |
---|---|
JP6410890B2 (en) | 2018-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2586846C2 (en) | Processing device and method of processing input audio signal using cascaded filter bank | |
EP2486564B1 (en) | Apparatus and method for generating high frequency audio signal using adaptive oversampling | |
AU2011263191B2 (en) | Bandwidth Extension Method, Bandwidth Extension Apparatus, Program, Integrated Circuit, and Audio Decoding Apparatus | |
CA3008914C (en) | Improved subband block based harmonic transposition | |
KR102014696B1 (en) | Cross product enhanced subband block based harmonic transposition | |
AU2013286049B2 (en) | Device, method and computer program for freely selectable frequency shifts in the sub-band domain | |
CN108140396B (en) | Audio signal processing | |
US9837098B2 (en) | Reduced-delay subband signal processing system and method | |
JP6410890B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP6284298B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP6201205B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP5763487B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
RU2641253C2 (en) | Device and method for processing sound signal using error signal due to spectrum aliasing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170704 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180911 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6410890 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |