JP4999757B2 - Speech analysis / synthesis apparatus, speech analysis / synthesis method, computer program, and recording medium - Google Patents
Speech analysis / synthesis apparatus, speech analysis / synthesis method, computer program, and recording medium Download PDFInfo
- Publication number
- JP4999757B2 JP4999757B2 JP2008092985A JP2008092985A JP4999757B2 JP 4999757 B2 JP4999757 B2 JP 4999757B2 JP 2008092985 A JP2008092985 A JP 2008092985A JP 2008092985 A JP2008092985 A JP 2008092985A JP 4999757 B2 JP4999757 B2 JP 4999757B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- conversion
- voice
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、入力された音声信号の発話速度を所望の速度に変換した音声信号を出力することができる、音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体に関するものである。 The present invention relates to a speech analysis / synthesis device, a speech analysis / synthesis method, a computer program, and a recording medium that can output a speech signal obtained by converting a speech rate of an input speech signal into a desired speed.
これまでに、与えられた音声信号の発話スタイルを変換して音声を合成する方法として、音声スペクトルに着目した方法が提案されている(例えば、非特許文献1を参照)。しかしながら、音声スペクトルのみからでは、発話スタイルの特徴をうまく捉えることが困難であり、現時点では十分な品質が得られないという問題がある。 So far, as a method of synthesizing speech by converting the speech style of a given speech signal, a method focusing on the speech spectrum has been proposed (for example, see Non-Patent Document 1). However, it is difficult to capture the features of the utterance style from the speech spectrum alone, and there is a problem that sufficient quality cannot be obtained at the present time.
音声を調音運動の観点から捉え、調音運動に基づき発話スタイルを変換させる方法は、上記の音声スペクトルを用いる場合と比較して、より直感的であり、精度が良くなることが期待される。しかしながら、調音運動と音声スペクトルとの間の非線形な写像関係により、調音運動に基づき変換した発話スタイルの特徴が、写像後の音声スペクトルにうまく反映されないという問題がある(例えば、特許文献1を参照)。 The method of capturing speech from the viewpoint of articulatory motion and converting the utterance style based on articulatory motion is expected to be more intuitive and more accurate than the case of using the speech spectrum described above. However, due to the non-linear mapping relationship between the articulatory motion and the speech spectrum, there is a problem that the features of the utterance style converted based on the articulatory motion are not well reflected in the speech spectrum after mapping (see, for example, Patent Document 1). ).
最も基本的な発話スタイルの制御として、話速の変換があるが、音声信号そのものに時間軸伸縮を施すと、基本周波数も変化してしまうという問題があるため、ピッチ同期分析を用いることが提案されている(例えば、非特許文献2を参照)。しかしながら、ピッチ同期分析を行うために必要なピッチマークの抽出において、従来のLPC(線形予測係数)予測残差信号の絶対値の閾値処理に基づく方法では、特に基本周波数の高い女声においてピッチマークをうまく抽出できないことが知られている(例えば、非特許文献3を参照)。また、ピッチ同期分析は、固定窓長および固定フレームシフト長を用いた音声信号の分析方法と比較して、基本周波数の影響を受けない、安定な音声スペクトルや音源情報の抽出が可能であることが知られている(例えば、非特許文献3を参照)。 The most basic utterance style control is conversion of speech speed, but there is a problem that if the time base expansion / contraction is applied to the audio signal itself, there is a problem that the fundamental frequency also changes. (For example, see Non-Patent Document 2). However, in the extraction of pitch marks necessary for performing the pitch synchronization analysis, the conventional method based on the threshold processing of the absolute value of the LPC (linear prediction coefficient) prediction residual signal is used to detect pitch marks particularly in a female voice having a high fundamental frequency. It is known that extraction cannot be performed well (see, for example, Non-Patent Document 3). Pitch synchronization analysis is capable of extracting a stable audio spectrum and sound source information that is not affected by the fundamental frequency compared to audio signal analysis using fixed window length and fixed frame shift length. Is known (see, for example, Non-Patent Document 3).
音声の合成において、単一パルス系列と白色雑音を切り換える駆動音源を用いた場合では、合成される音声信号の品質が良くないことが問題となる。そこで、単一パルス系列の代わりに、位相等化音声信号との誤差が最小になるように決定されたマルチパルス系列を用いる手法があるが、有声と無声が切り替わる部分においてバズ的な音声を生じる問題がある(例えば、特許文献2を参照)。一方、バズ的な音声を改善する方法として、周波数帯域毎の有声/無声判定に基づき、単一パルス系列と白色雑音、を混合する駆動音源が提案されているが、さらなる品質の向上が必要とされている(例えば、非特許文献4参照)。
調音運動に基づく発話スタイルの変換において、上記の特許文献1で提案されている調音パラメータから音声スペクトルへの写像を用いた場合、十分な品質の音声信号を合成できないという問題がある。従って、調音パラメータから音声スペクトルへの写像処理を介さずに、発話スタイルの変換に関わる調音パラメータの特徴を、直接音声スペクトルの変換に生かす技術が必要となる。
In the conversion of speech style based on articulatory motion, there is a problem that a speech signal of sufficient quality cannot be synthesized when the mapping from the articulation parameter proposed in
本発明は、斯かる実情に鑑みなされたものであり、本発明の目的は、入力音声の各部分ごとの局所的な発話速度を、所望の速度に変換した音声を出力することができるようにし、入力音声の発話速度の局所的なばらつきを少なくし、聞き取りやすい音声を出力することができる、音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体を提供することにある。 The present invention has been made in view of such circumstances, and an object of the present invention is to be able to output a voice obtained by converting a local speech speed of each part of an input voice into a desired speed. Another object of the present invention is to provide a speech analysis / synthesis device, a speech analysis / synthesis method, a computer program, and a recording medium capable of reducing local variations in the utterance speed of input speech and outputting easily audible speech.
本発明は上記課題を解決するためになされたものであり、同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置であって、前記音声分析部は、前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算部と、前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成部と、前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算部と、前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算部と、前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算部と、前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算部と、前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算部と、前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算部と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算部と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算部と、を備え、前記音声変換部は、前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算部と、前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換部と、前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換部と、前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換部と、前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換部と、前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換部と、を備え、前記音声合成部は、前記基本周波数変換部において変換された基本周波数と、前記位相等化パルス音源フィルタ変換部により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換部において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成部と、前記LSP係数変換部により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算部と、を備え、前記有声強度計算部が前記音声強度を算出する場合、前記白色雑音ゲイン計算部が前記白色雑音ゲインを算出する場合、および、前記駆動音源生成部が前記位相等化パルス音源を生成する場合、分析窓長を2ピッチ周期分として算出または生成する、ことを特徴とする音声分析合成装置である。 The present invention has been made to solve the above-described problem, and measures a voice that is measured simultaneously as a voice signal and collects measurement data of articulatory movement, and a voice analyzer that analyzes the measurement data A speech analysis and synthesis device comprising: a speech conversion unit that performs predetermined conversion on the analysis result of the speech analysis unit; and a vocoder-type speech synthesis unit that synthesizes speech based on the conversion result of the speech conversion unit. The voice analysis unit detects a voice section from the voice signal and calculates a fundamental frequency in the voice section; and a pitch having a pulse sequence corresponding to a pitch period using the fundamental frequency. A pulse sequence generation unit that generates a waveform, an LPC coefficient calculation unit that performs linear prediction analysis based on the speech signal and calculates an LPC (Linear Prediction Analysis) coefficient, and the speech signal An LPC residual calculation unit that calculates an LPC prediction residual waveform by an inverse filter having the LPC coefficient as a filter coefficient, an LSP coefficient calculation unit that calculates an LSP (Line Spectrum Pair) coefficient from the LPC coefficient, and the detected A pitch mark calculation unit that extracts a pitch mark that maximizes the cross-correlation between the absolute value of the LPC prediction residual waveform and the absolute value of the pitch waveform within the speech interval, and within the detected speech interval, A phase-equalized speech calculation unit that generates phase-equalized speech in which a phase component of the speech signal is equalized to a constant phase based on the speech signal, the pitch mark, and the LPC prediction residual waveform; and the detection A phase equalization pulse sound source filter calculation unit for calculating a filter coefficient of a phase equalization pulse sound source model based on the phase equalized sound within the detected voice interval; A voiced intensity calculation unit that calculates a voice intensity for each frequency band by a predetermined calculation method based on an audio signal, and white noise by a predetermined calculation method based on the audio signal in the detected voice section A white noise gain calculation unit for calculating a gain, and the audio conversion unit calculates an articulation parameter speed as an articulation speed based on the measurement data of the articulation motion, and the articulation speed In response, an LSP coefficient converter that performs a predetermined conversion on the LSP coefficient, a basic frequency converter that performs a predetermined conversion on the fundamental frequency according to the articulation speed, and the phase equalized pulse sound source according to the articulation speed A phase equalization pulse sound source filter converter that performs a predetermined conversion on the filter coefficient of the model, and a white noise gain converter that performs a predetermined conversion on the white noise gain according to the articulation speed; A voiced intensity conversion unit that performs a predetermined conversion on the sound intensity for each frequency band according to the articulation speed, and the speech synthesis unit includes the fundamental frequency converted by the fundamental frequency conversion unit, and the phase A phase equalization pulse sound source is generated based on the filter coefficient converted by the equalization pulse sound source filter conversion unit and the phase equalization pulse sound source model, and for each frequency band converted by the voiced intensity conversion unit. Based on the voice intensity, the generated phase equalization pulse sound source is mixed in the voiced band, and the driving sound source generating unit for generating the driving sound source in which the white noise is mixed in the unvoiced band, and converted by the LSP coefficient converting unit. comprises a convolution unit for synthesizing an audio signal from the LSP coefficients and the output signal of the excitation, the, if the voiced strength calculation unit calculates the voice level If the white noise gain calculator calculates the white noise gain, and, when said excitation generating unit generates said phase equalization pulse excitation, to calculate or generate analysis window length as two pitches cycles, it Is a speech analysis and synthesis device characterized by
また、本発明は、前記音声合成部が、前記LSP係数変換部により変換されたLSP係数をLPC係数に変換するLPC係数計算部を有し、前記畳み込み演算部が、前記LPC係数計算部において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、ことを特徴とする記載の音声分析合成装置である。
The speech synthesis unit may further include an LPC coefficient calculation unit that converts the LSP coefficient converted by the LSP coefficient conversion unit into an LPC coefficient, and the convolution operation unit converts the LPC coefficient in the LPC coefficient calculation unit. The speech analysis and synthesis apparatus according to
また、本発明は、前記音声変換部のLSP係数変換部と基本周波数変換部と位相等化パルス音源フィルタ変換部と白色雑音ゲイン変換部と有声強度変換部とは、それぞれ、時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用し、「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、ここで、sqrtは根号、調音速度の単位はmm」、また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出し、さらに、すべての時刻tにおいて、「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、時刻tにおけるパラメータを、次の式により線型補間すること、「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源のフィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、を特徴とする音声分析合成装置である。
Further, according to the present invention, the LSP coefficient conversion unit, the fundamental frequency conversion unit, the phase equalization pulse sound source filter conversion unit, the white noise gain conversion unit, and the voiced intensity conversion unit of the sound conversion unit are each an articulation speed at time t. Assuming that the articulation parameter is x t, i (i = 1,..., N: horizontal and vertical positions such as lips and tongue), the RMS distance dx t is used, and “dx t = sqrt (Σ i (X t, i −x t−1, i ) × (x t, i −x t−1, i ) / n), where sqrt is the root number and the unit of articulation speed is mm ” An average articulation speed avedx is calculated by dividing the sum of articulation speeds of the entire section by the length (number of frames) of the entire speech section. Further, at all times t, “dx k ≦ t × avedx and
また、本発明は、同時測定された音声を音声信号として計測すると共に調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置における音声分析合成方法であって、前記音声分析部により、前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算手順と、前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成手順と、前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算手順と、前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算手順と、前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算手順と、前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算手順と、前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算手順と、前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算手順と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算手順と、前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算手順と、が行われ、前記音声変換部により、前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算手順と、前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換手順と、前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換手順と、前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換手順と、前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換手順と、前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換手順と、を行われ、前記音声合成部により、前記基本周波数変換手順において変換された基本周波数と、前記位相等化パルス音源フィルタ変換手順により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換手順において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成手順と、前記LSP係数変換手順により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算手順と、が行われ、前記有声強度計算手順において前記音声強度が算出される場合、前記白色雑音ゲイン計算手順において前記白色雑音ゲインが算出される場合、および、前記駆動音源生成手順において前記位相等化パルス音源が生成される場合、分析窓長を2ピッチ周期分として算出または生成される、ることを特徴とする音声分析合成方法である。 The present invention also provides a data input unit that measures simultaneously measured speech as a speech signal and collects measurement data of articulatory movement, a speech analysis unit that analyzes the measurement data, and an analysis result of the speech analysis unit. A speech analysis / synthesis method in a speech analysis / synthesis apparatus comprising: a speech conversion unit that performs predetermined conversion; and a vocoder-type speech synthesis unit that synthesizes speech based on a conversion result of the speech conversion unit, wherein the speech analysis unit To detect a speech section from the speech signal, calculate a fundamental frequency in the speech section, and generate a pitch waveform having a pulse sequence according to a pitch period using the fundamental frequency A sequence generation procedure, an LPC coefficient calculation procedure for performing an LPC (Linear Prediction Analysis) coefficient by performing linear prediction analysis based on the speech signal, the speech signal, An LPC residual calculation procedure for calculating an LPC prediction residual waveform using an inverse filter having the LPC coefficient as a filter coefficient, an LSP coefficient calculation procedure for calculating an LSP (Line Spectrum Pair) coefficient from the LPC coefficient, and the detected A pitch mark calculation procedure for extracting a pitch mark that maximizes the cross-correlation between the absolute value of the LPC prediction residual waveform and the absolute value of the pitch waveform within a speech interval, and within the detected speech interval, A phase-equalized speech calculation procedure for generating phase-equalized speech in which the phase component of the speech signal is equalized to a constant phase based on the speech signal, the pitch mark, and the LPC prediction residual waveform; and the detection A phase equalization pulse sound source filter calculation procedure for calculating a filter coefficient of a phase equalization pulse sound source model based on the phase equalization sound, and the detected voice interval And a voiced intensity calculation procedure for calculating the voice intensity for each frequency band by a predetermined calculation method based on the voice signal, and a calculation method predetermined based on the voice signal within the detected voice section. And a white noise gain calculation procedure for calculating a white noise gain at the sound conversion unit, and based on the measurement data of the articulation motion, the articulation speed calculation procedure for calculating the speed of the articulation parameter as the articulation speed, An LSP coefficient conversion procedure for performing a predetermined conversion on the LSP coefficient according to the articulation speed, a basic frequency conversion procedure for performing a predetermined conversion on the fundamental frequency according to the articulation speed, and the phase according to the articulation speed A phase equalization pulse sound source filter conversion procedure for performing predetermined conversion on the filter coefficient of the equalized pulse sound source model, and a predetermined conversion on the white noise gain according to the articulation speed. A white noise gain conversion procedure to be performed, and a voiced strength conversion procedure to perform a predetermined conversion on the voice strength for each frequency band according to the articulation speed, and the voice synthesis unit performs the conversion in the basic frequency conversion procedure. A phase equalized pulse sound source is generated based on the fundamental frequency, the filter coefficient converted by the phase equalized pulse sound source filter conversion procedure, and the phase equalized pulse sound source model, and the voiced intensity conversion procedure A driving sound source generation procedure for generating a driving sound source in which the generated phase equalization pulse sound source is mixed in the voiced band and white noise is mixed in the unvoiced band, based on the sound intensity for each frequency band converted in A convolution operation procedure for synthesizing an audio signal from the LSP coefficient converted by the LSP coefficient conversion procedure and the output signal of the driving sound source is performed. The case where the voice level in the voicing strength calculation procedure is calculated, the case where the in white noise gain calculation procedure white noise gain is calculated, and the phase equalization pulse excitation in the excitation generation procedure is produced In this case, the speech analysis and synthesis method is characterized in that the analysis window length is calculated or generated as two pitch periods .
また、本発明は、前記音声合成部により、前記LSP係数変換手順により変換されたLSP係数をLPC係数に変換するLPC係数計算手順が行われ、前記畳み込み演算手順で、前記LPC係数計算手順において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、ことを特徴とする音声分析合成方法である。 In the present invention, an LPC coefficient calculation procedure for converting an LSP coefficient converted by the LSP coefficient conversion procedure into an LPC coefficient is performed by the speech synthesizer, and the conversion is performed in the LPC coefficient calculation procedure by the convolution calculation procedure. A speech analysis and synthesis method characterized in that a speech signal is synthesized by convolving the LPC coefficient thus generated and the output signal of the driving sound source.
また、本発明は、前記音声変換部によるLSP係数変換手順と基本周波数変換手順と位相等化パルス音源フィルタ変換手順と白色雑音ゲイン変換手順と有声強度変換手順とで、それぞれ、前記音声変換部により、時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用する手順と、「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、ここで、sqrtは根号、調音速度の単位はmm」、また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出する手順と、さらに、すべての時刻tにおいて、「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、時刻tにおけるパラメータを、次の式により線型補間する手順と、「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、が行われることを特徴とする音声分析合成方法である。 Further, the present invention provides an LSP coefficient conversion procedure, a basic frequency conversion procedure, a phase equalization pulse sound source filter conversion procedure, a white noise gain conversion procedure, and a voiced intensity conversion procedure, respectively, performed by the sound conversion unit. Using the RMS distance dx t when the articulation parameter is x t, i (i = 1,..., N: horizontal and vertical positions such as lips and tongue) as the articulation speed at time t, “Dx t = sqrt (Σ i (x t, i −x t−1, i ) × (x t, i −x t−1, i ) / n), where sqrt is the root sign, the articulation speed The unit is mm ”, and the procedure of calculating the average articulation speed avedx by dividing the sum of the articulation speeds of the entire speech section by the length (number of frames) of the entire speech section, and at all times t, dx k <= t × avedx, One dx k + 1> t × avedx "become sought k, the parameters at time t, a step of linear interpolation by the following equation," ((dx k + 1 -t × avedx) × p k + (t × avedx-dx k) × p k + 1) / (dx k + 1 -dx k), where, P k is at time k, the LSP coefficients, the fundamental frequency, phase equalization pulse excitation filter coefficients, white noise gain, or each frequency band The voice analysis and synthesis method is characterized in that “voiced intensity” is performed.
また、本発明は、音声と調音運動の計測データを収集するデータ入力部と、前記計測データを分析する音声分析部と、前記音声分析部の分析結果に所定の変換を施す音声変換部と、前記音声変換部の変換結果を基に音声を合成するボコーダ型の音声合成部とを備える音声分析合成装置内のコンピュータに、上述の手順を実行させるためのコンピュータプログラムである。 The present invention also includes a data input unit that collects measurement data of voice and articulation movement, a voice analysis unit that analyzes the measurement data, a voice conversion unit that performs predetermined conversion on the analysis result of the voice analysis unit, A computer program for causing a computer in a speech analysis / synthesis apparatus including a vocoder-type speech synthesis unit that synthesizes speech based on a conversion result of the speech conversion unit to execute the above-described procedure.
また、本発明は、上述のコンピュータプログラムを格納すること特徴とするコンピュータ読み取り可能な記録媒体である。 The present invention also provides a computer-readable recording medium that stores the above-described computer program.
本発明の音声分析合成装置および音声分析合成方法においては、音声分析部おいて、音声信号から、音声スペクトルや音源のパラメータ等を抽出し、また音声変換部により、調音パラメータの速度情報に基づき、音声スペクトルや音源のパラメータ等に所定の変換を施し、ボコーダ型の音声合成器で音声信号を生成するようにしたので、これにより、様々な発話スタイルを与える、高品質な音声を合成することができる。このため、例えば、入力音声の声の高さ(ピッチ)を変えずに、入力音声の各部分ごとの局所的な発話速度を、所望の速度に変換した音声を出力することができる。すなわち、発話速度が速い部分を遅くし、遅い部分は速くするという変換により、入力音声の発話速度の局所的なばらつきを少なくし、聞き取りやすい音声を得ることができる。 In the speech analysis and synthesis apparatus and speech analysis and synthesis method of the present invention, the speech analysis unit extracts the speech spectrum, sound source parameters, and the like from the speech signal, and the speech conversion unit based on the speed information of the articulation parameters, Since the voice signal is generated by the vocoder-type voice synthesizer, the voice spectrum and the sound source parameters are subjected to predetermined conversion, so that it is possible to synthesize high-quality voice that gives various utterance styles. it can. For this reason, for example, it is possible to output a voice in which the local speech rate for each part of the input voice is converted to a desired speed without changing the voice pitch (pitch) of the input voice. That is, by converting the part where the speech rate is fast and slowing the slow part, it is possible to reduce the local variation in the speech rate of the input speech and obtain a speech that is easy to hear.
また、本発明の音声分析合成装置および音声分析合成方法においては、音声分析部により得られた、LSP係数、基本周波数、位相等化パルス音源のフィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度に対して、調音パラメータの速度情報に基づき、平均調音速度avedxを算出し、すべての時刻tにおいて、「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、時刻tにおけるパラメータを、線型補間した、「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、 ここで、Pkは、時刻kにおける、LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、を算出するようにしたので、これにより、人間が一定の調音速度で発話した場合の発話スタイルを有する音声を生成することが可能となる。 In the speech analysis / synthesis apparatus and speech analysis / synthesis method of the present invention, the LSP coefficient, fundamental frequency, phase equalization pulse sound source filter coefficient, white noise gain, or frequency band obtained by the speech analysis unit is obtained. For the voiced intensity, the average articulation speed averagex is calculated based on the speed information of the articulation parameter, and k that satisfies “dx k ≦ t × avedx and dx k + 1 > t × avedx” is obtained at all times t. , “((Dx k + 1 −t × avedx) × p k + (t × avedx−dx k ) × p k + 1 ) / (dx k + 1 −dx k ), where P = k is an LSP coefficient at time k, a fundamental frequency, a phase equalization pulse sound source filter coefficient, a white noise gain, or a voiced intensity for each frequency band ”. Therefore, it is possible to generate a voice having an utterance style when a human utters at a constant articulation speed.
図1は、本発明の実施の形態に係わる音声分析合成装置の構成を示す図である。
図1に示す本発明の音声分析合成装置は、音声分析合成装置1に、マイク(マイクロフォン)2および、2次元磁気センサシステム3を接続して構成される。
FIG. 1 is a diagram showing a configuration of a speech analysis / synthesis apparatus according to an embodiment of the present invention.
The speech analysis / synthesis apparatus of the present invention shown in FIG. 1 is configured by connecting a microphone (microphone) 2 and a two-dimensional
音声分析合成装置1内には、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を有する主制御部11が設けられ、この主制御部11は、音声分析合成装置1内の各処理部の処理動作を統括して制御するための制御部である。また、主制御11内のCPUによりコンピュータシステムが構成されている。
The speech analysis /
データ入力部12は、インタフェース部13を介して、マイク2および2次元磁気センサシステム3と接続されている。データ入力部12は、マイク2により計測される音声信号と、2次元磁気センサシステム3により計測される調音運動(唇や、舌の運動)の同時計測データを計測する。図1に示す音声分析合成装置1では、例えば、音声信号は16kHzサンプリングで計測し、調音パラメータは、下歯茎付近の1点、上・下唇それぞれの1点、舌上の3点の計6点の水平および垂直位置を毎秒250回のレートで測定する(12次のベクトル)。
The
また、音声分析合成装置1には、音声分析部100、音声変換部200、およびボコーダ型の音声合成部300を有している。
The speech analysis /
音声分析部100は、データ入力部12により収集された音声信号を基に、LPC(線形予測係数)、LSP(線スペクトル対)係数、位相等化音声、位相等化パルス音源モデルのフィルタ係数、周波数帯域ごとの有声強度、および白色雑音ゲイン等の算出処理を行なう。
The
音声変換部200は、調音運動の計測データを基に、LSP係数、基本周波数、位相等化パルス音源モデルのフィルタ係数、白色雑音ゲイン、および周波数帯域ごとの有声強度等の変換処理(例えば、線形補間処理)を行なう。音声合成部300は、音声変換部200おいて変換されたパラメータを用いて、駆動音源を生成すると共に、この駆動音源からの信号を基に音声信号を合成する。音声出力部14は、音声合成部300により合成された音声信号により、音声を出力する。
Based on the measurement data of the articulatory motion, the
図2は、音声分析部100の構成を示す図である。
図2に示す音声分析部100内の基本周波数計算部101は、音声信号のパワーにより、音声区間の検出を行ない、基本周波数を抽出する処理を行なう。
FIG. 2 is a diagram illustrating a configuration of the
The fundamental
パルス系列生成部102は、音声区間内で、基本周波数計算部101により得られた基本周波数を用いて、ピッチ周期に応じたパルス系列を持つパルス系列信号exを生成する処理を行なう。なお、このピッチ周期に応じたパルス系列を持つパルス系列信号exをピッチ波形と呼ぶ(例えば、図8(B)に示すピッチ波形を参照)。
The pulse
LPC係数計算部103は、音声信号を用いて、通常の線型予測分析を行い、LPC(線型予測分析)係数を算出する。LPC残差計算部104は、LPC係数をフィルタ係数とする逆フィルタによりLPC予測残差波形resを求める(例えば、図8(C)に示すLPC予測残差波形を参照)。
The LPC
LSP係数計算部105は、LPC係数計算部103により算出されたLPC係数を基に、LSP(線スペクトル対)係数を算出すると共に、これを保持する処理を行なう。
The LSP
ピッチマーク計算部106は、LPC予測残差信号resと、パルス系列信号exとを基に、ピッチマークを抽出する処理を行なう。(例えば、図8(D)に示すピッチマークを参照)。
The pitch
位相等化音声計算部107は、音声区間内で、音声信号と、ピッチマーク計算部106で求められたピッチマークと、LPC予測残差信号の波形を用いて、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する(例えば、特許文献2を参照)。
The phase-equalized
位相等化パルス音源フィルタ計算部108は、音声区間内で、位相等化音声と合成音声信号との聴覚重み付き誤差が最小となるような、位相等化パルス音源モデルを生成すると共に、この位相等化パルス音源モデルのパラメータ(FIRフィルタ係数vk)を求める処理を行なう。(例えば、特許文献2を参照)。
The phase equalization pulse sound source
有声強度計算部109は、音声信号を、帯域通過フィルタに通し、例えば、4msのフレーム周期毎に自己相関関数、あるいは調波構造指数を計算し、有声強度を算出する処理を行なう(例えば、非特許文献4参照)。白色雑音ゲイン計算部110は、音声区間以外での白色雑音のゲインを算出する処理を行なう。
The voiced
この音声分析部100における処理の流れを図5に示す。以下、図5を参照して、音声分析部100における処理の流れについて説明する。
The flow of processing in the
最初に、マイクによる音声信号をデータ入力部12より計測する(ステップS101)。例えば、図8(A)に音声信号の波形の例を示す。 First, an audio signal from the microphone is measured from the data input unit 12 (step S101). For example, FIG. 8A shows an example of the waveform of an audio signal.
続いて、基本周波数計算部101は、得られた音声信号から、音声信号のパワーを基に、音声区間の検出を行う。例えば、本実施の形態では、人間の声道の特性に合わせて30ms程度の分析窓長(分析区間)と、4ms程度の分析シフト長により、瞬時周波数振幅スペクトルに基づき、基本周波数(FOあるいはピッチ周期)を求める(ステップS102)。
Subsequently, the fundamental
この基本周波数の算出には、例えば、IEICEの文献(5)「Arifiant、D., Tanaka,T., Masuko, T., and Kobayashi, T.,“Robust FO estimation of speech signal using harmonicity measure based on instantaneous frequency,”IEICE Trans. Information and Systems, E87-D,12,pp. 2812-2820(2004).」に示される手法を使用することができる。 For calculating the fundamental frequency, for example, IEICE document (5) “Arifiant, D., Tanaka, T., Masuko, T., and Kobayashi, T.,“ Robust FO estimation of speech signal using harmonicity measure based on An instantaneous frequency, “IEICE Trans. Information and Systems, E87-D, 12, pp. 2812-2820 (2004)” can be used.
なお、基本周波数の抽出には、変形自己相関法などの別の手法を用いることも可能であるが、本発明において基本周波数の抽出誤りは、音声の分析や合成の精度に大きな影響を及ぼすため、できるだけ抽出誤りの少ない手法を用いることが重要である。 Note that another method such as a modified autocorrelation method can be used for the extraction of the fundamental frequency. However, in the present invention, the extraction error of the fundamental frequency greatly affects the accuracy of speech analysis and synthesis. It is important to use a technique with as few extraction errors as possible.
次に、パルス系列生成部102により、音声区間内で、基本周波数計算部101により求めた基本周波数を用いて、ピッチ周期に応じたパルス系列信号(ピッチ波形)exを生成する(ステップS103)。このピッチ周期に応じたパルス系列信号exの例を、図8(B)に示す。
Next, the pulse
続いて、LPC係数計算部103により、上記音声信号を用いて、線型予測分析を行い、また、LPC残差計算部104により、LPC逆フィルタによりLPC予測残差波形resを求める。このLPC予測残差波形resの例を、図8(C)に示す。
Subsequently, the LPC
本実施の形態では、前述のように、LPC分析窓長30ms、分析シフト長4msとし、28次の自己相関法により求め、さらに、基本周波数の影響を避けるためにラグ窓(Lag Window)を用いる。ここで、LPC係数は、LSP係数計算部105により、線スペクトル対(LSP)係数に変換して保持しておく(ステップS104)。
In this embodiment, as described above, an LPC analysis window length of 30 ms and an analysis shift length of 4 ms are obtained by the 28th-order autocorrelation method, and a lag window is used to avoid the influence of the fundamental frequency. . Here, the LPC coefficient is converted into a line spectrum pair (LSP) coefficient by the LSP
続いて、ピッチマーク計算部106により、音声区間内で、フレーム番号t(フレーム周期4ms)、時刻k(窓長30ms)において、ステップS103で生成したピッチ波形ex(t,k)の絶対値と、ステップS104において求めたLPC予測残差波形res(t,k)の絶対値の間で、フレームt毎に、相互相関関数、
r(t、j)=Σk|res(t,k)|×|ex(t,k+j)|、
Subsequently, the pitch
r (t, j) = Σ k | res (t, k) | × | ex (t, k + j) |
を計算し、Σtr(t、j)が最大となるようなjの系列を、動的計画法を用いて求める。ここで、|*|は絶対値である。得られるjの系列は、LPC予測残差信号の絶対値が大きな時刻を示しているため、ピッチマークの候補となる。最終的には、得られたピッチマーク候補の近傍で、再度|res|が最大となる時刻を探索し、ピッチマークとして抽出する(ステップS105)。このピッチマークの例を、図8(D)に示す。 Was calculated, the Σ t r (t, j) is maximized such j sequences, determined using dynamic programming. Here, | * | is an absolute value. The obtained sequence j is a pitch mark candidate because the absolute value of the LPC prediction residual signal indicates a large time. Finally, a time at which | res | is maximized is searched again in the vicinity of the obtained pitch mark candidate and extracted as a pitch mark (step S105). An example of this pitch mark is shown in FIG.
次に、位相等化音声計算部107により、音声区間内で、ステップS101において得られた音声信号と、ステップS105で求められたピッチマークと、ステップS104で求められたLPC予測残差信号を用いて、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する(例えば、特許文献2を参照)(ステップS106)。
Next, the speech signal obtained in step S101, the pitch mark obtained in step S105, and the LPC prediction residual signal obtained in step S104 are used by the phase equalized
そして、位相等化パルス音源フィルタ計算部108により、音声区間内で、上記位相等化音声との聴覚重み付き誤差が最小となるような、位相等化パルス音源モデルおよび位相等化パルス音源モデルのパラメータ(FIRフィルタ係数vk)を求める(ステップS107)。ここで、FIRフィルタ(6タップ)の伝達特性は、特許文献2と同様に、次のように表される。
Then, the phase equalization pulse sound source
ここで、Tiはピッチマークiにおけるピッチ周期である。 Here, Ti is a pitch period in the pitch mark i.
また、白色雑音ゲイン計算部110で算出される白色雑音のゲインは、音声信号sの自己相関関数を、
Further, the white noise gain calculated by the white noise
としたとき、 When
で与えられる。ここで、PはLPC分析の次数、αkはLPC係数、nはフレーム番号、Nは窓長である。 Given in. Here, P is the order of LPC analysis, αk is the LPC coefficient, n is the frame number, and N is the window length.
次に、有声強度計算部109により、音声信号を、0−500,500―1000,1000―2000,2000−3000,3000−4000,4000−5000,5000−6000,6000−7000,7000−8000Hzの帯域通過フィルタにそれぞれ通し、4msのフレーム周期毎に自己相関関数、あるいは調波構造指数(例えば、前述のIEICEの文献(5)を参照)を計算し、これを有声強度とする(例えば、非特許文献4参照)(ステップS108)。
Next, the voiced
これらの位相等化パルス音源、白色雑音ゲイン、および有声強度の計算には、各ピッチマーク位置を分析開始時点とし、分析窓長は2ピッチ周期分として求める。本実施の形態では、分析にはピッチ同期分析を用いるが、合成には4msフレームシフトを用いるため、ピッチマーク位置と固定長フレームの開始時点が異なることが問題となる。したがって、本実施の形態では、各フレームにおけるパラメータは線型補間により求める。なお、音声区間以外での白色雑音のゲインは、15msの固定窓長、4msの固定フレームシフト長を用いて求める(ステップS109)。 In calculating the phase equalization pulse sound source, the white noise gain, and the voiced intensity, each pitch mark position is set as the analysis start time, and the analysis window length is calculated as two pitch periods. In this embodiment, pitch synchronization analysis is used for analysis, but since 4 ms frame shift is used for synthesis, there is a problem that the pitch mark position and the start time of the fixed-length frame are different. Therefore, in the present embodiment, the parameters in each frame are obtained by linear interpolation. It should be noted that the gain of white noise outside the speech section is obtained using a fixed window length of 15 ms and a fixed frame shift length of 4 ms (step S109).
また、図3は、音声変換部200の構成例を示す図である。
図3に示すように、音声変換部200は、調音パラメータの速度(調音速度)を計算する調音速度計算部201を有している。また、調音速度を基に、音声分析部100で求めたそれぞれのパラータを変換(線形補間)するLSP係数変換部202、基本周波数変換部203、位相等化パルス音源フィルタ変換部204、白色雑音ゲイン変換部205、および周波数帯域毎の有声強度変換部206とで構成されている。なお、線形補間については、後述される。
FIG. 3 is a diagram illustrating a configuration example of the
As shown in FIG. 3, the
また、図6は、音声変換部における処理の流れを示す図である。以下、図6を参照して、その処理の流れについて説明する。 FIG. 6 is a diagram showing the flow of processing in the voice conversion unit. Hereinafter, the flow of the processing will be described with reference to FIG.
調音速度計算部201により、音声区間において、2次元磁気センサシステムを用いて計測した調音パラメータの速度(調音速度)を計算する(ステップS201、S202)。
この調音速度の波形例を図11の最下段の波形(細線の波形)に示す。
The articulation
A waveform example of this articulation speed is shown in the lowermost waveform (thin line waveform) in FIG.
この調音速度を算出する場合に、時刻tにおける調音速度は、調音パラメータをxt,i(i=1,・・・,12:唇や舌などの水平および垂直位置)として、RMS距離dxt、
dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/12)、
が用いられる。ここで、sqrtは根号、調音速度の単位はmmである。
When calculating the articulatory speed, the articulatory speed at time t is the RMS distance dx t with the articulation parameters xt, i (i = 1,..., 12: horizontal and vertical positions such as lips and tongue). ,
dx t = sqrt (Σ i (x t, i −x t−1, i ) × (x t, i −x t−1, i ) / 12),
Is used. Here, sqrt is a root number, and the unit of the articulation speed is mm.
そして、調音速度計算部201は、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを計算する(ステップS202)。
Then, the articulation
そして、すべての時刻tにおいて、
「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、最終的に時刻tにおけるパラメータを、線型補間した、
((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、
を算出する。
And at all times t
K is obtained as “dx k ≦ t × avedx and dx k + 1 > t × avedx”, and finally the parameter at time t is linearly interpolated.
((Dx k + 1 −t × avedx) × p k + (t × avedx−dx k ) × p k + 1 ) / (dx k + 1 −dx k ),
Is calculated.
ここでpkは、時刻kにおける、LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、あるいは周波数帯域毎の有声強度であり、LSP係数は、LSP係数変換部202により算出され(ステップS203)、基本周波数は、基本周波数変換部203により算出され(ステップS204)、位相等化パルス音源フィルタ係数は位相等化パルス音源フィルタ変換部204により算出される(ステップS205)。また、白色雑音ゲインは、白色雑音ゲイン変換部205により算出され(ステップS206)、周波数帯域毎の有声強度は、周波数帯域毎の有声強度変換部206により算出される。LSP係数変換部202により算出される(ステップS207)、
Here p k is at time k, LSP coefficients, the fundamental frequency, phase equalization pulse excitation filter coefficients, a voiced strength for each white noise gain or frequency bands,, LSP coefficients are calculated by the LSP coefficient converter 202 (Step S203), the fundamental frequency is calculated by the fundamental frequency converter 203 (Step S204), and the phase equalization pulse excitation filter coefficient is calculated by the phase equalization pulse excitation filter converter 204 (Step S205). The white noise gain is calculated by the white noise gain conversion unit 205 (step S206), and the voiced intensity for each frequency band is calculated by the voiced
これにより、人間が一定の調音速度で発話した場合の発話スタイルを有する音声を生成することが可能となる(これを、調音速度等化音声と呼ぶ)。 As a result, it is possible to generate a voice having a speech style when a human speaks at a constant articulation speed (this is referred to as articulation speed equalized voice).
この調音速度等化音声の例を、図11において調音速度等化音声(上から2番目の波形)として示している。 An example of this articulation speed equalized voice is shown as the articulation speed equalized voice (second waveform from the top) in FIG.
また、これとは逆に、調音速度の逆数の平均毎にパラメータを並べることにより、人間にとっては発話困難な、調音速度の初速が速く、だんだんと遅くなる発話スタイルを有する音声を生成できる。これらの調音速度の変換法は一例であり、様々な手法が考えられる。 On the other hand, by arranging parameters for each average of the reciprocal of the articulation speed, it is possible to generate speech having an utterance style in which the initial speed of the articulation speed is fast and gradually slows, which is difficult for humans. These articulation speed conversion methods are examples, and various methods are conceivable.
また、図4は、音声合成部300の構成例を示す図である。
図4に示すように、音声合成部300は、位相等化パルス音源と白色雑音の音源を生成する駆動音源生成部301と、LSP係数からLPC係数を算出するLPC係数計算部302とを有している。また、位相等化パルス音源と白色雑音とLPC係数とを基に、最終的な音声信号304を合成する畳み込み演算部303を有している。
FIG. 4 is a diagram illustrating a configuration example of the
As shown in FIG. 4, the
この音声合成部300における処理の流れを図7に示す。以下、図7を参照して、音声合成部その処理の流れについて説明する。
A flow of processing in the
音声合成部300では、音声変換部200において調音速度を基に線形補間されたパラメータを取得する(ステップS301)。
In the
また、このステップS301において、駆動音源生成部301により、音声変換部200において調音速度を基に線形補間された基本周波数に、式(1)を適用することで、位相等化パルス音源フィルタ係数を求め、位相等化パルス音源を作成する。
Also, in this step S301, the phase equalization pulse sound source filter coefficient is obtained by applying equation (1) to the fundamental frequency linearly interpolated based on the articulation speed by the
また、白色雑音に、音声変換部200において調音速度を基に補間された白色雑音のゲインを乗じる。そして、音声変換部200において調音速度を基に補間された有声強度に基づき、ある閾値より大きい帯域を有声帯域、小さい帯域を無声帯域として、有声帯域では位相等化パルス音源、無声帯域では白色雑音を混合した駆動音源を作成する。
Further, the white noise is multiplied by the gain of the white noise interpolated based on the articulation speed in the
そして、最終的には、LPC係数計算部302により、LSP係数変換部202により算出されたLSP係数をLPC係数に変換し、畳み込み演算部303により、LPC係数計算部302により変換されたLPC係数と駆動音源の出力信号とを畳み込むことで音声を合成する(ステップS302)。
Finally, the LPC coefficient calculated by the
以上、本発明の音声分析合成装置の構成と処理の流れについて説明したが、具体的な例として、音声分析部100、音声変換部200、および音声合成部300において、処理される信号の波形の例を、図8〜図11に示す。
The configuration and processing flow of the speech analysis / synthesis apparatus of the present invention have been described above. As specific examples, the waveforms of signals processed in the
図8は、発声資料「腕前」の一部の波形例を示している。図8(A)は、マイクから入力される音声信号を16kHzでサンプリングした音声信号、図8(B)は、基本周波数を用いて、ピッチ周期に応じたパルス系列を持つ信号であるピッチ波形を示している。 FIG. 8 shows a partial waveform example of the utterance material “skill”. FIG. 8A shows an audio signal obtained by sampling an audio signal input from a microphone at 16 kHz, and FIG. 8B shows a pitch waveform that is a signal having a pulse sequence corresponding to the pitch period using the fundamental frequency. Show.
また、図8(C)は、線型予測分析(LPC)を行い、LPC逆フィルタにより求めたLPC予測残差信号resの波形を示し、図8(D)は、音声区間内で、フレーム番号t(フレーム周期4ms)、時刻k(窓長30ms)において、ピッチ波形とLPC予測残差信号を基に生成されたピッチマークを示している。 また、図8(E)は、調音パラメータの速度(調音速度)から算出した平均調音速度avedxを基に合成した再合成波形を示している。 FIG. 8C shows the waveform of the LPC prediction residual signal res obtained by performing linear prediction analysis (LPC) and using an LPC inverse filter. FIG. 8D shows the frame number t in the speech interval. A pitch mark generated based on the pitch waveform and the LPC prediction residual signal is shown at (frame period 4 ms) and time k (window length 30 ms). FIG. 8E shows a re-synthesis waveform synthesized based on the average articulation speed averagex calculated from the speed of the articulation parameter (articulation speed).
図8に示すように、従来手法であるL PC予測残差信号の絶対値の閾値処理を用いた場合、図8(C)の波形の点線の丸で囲まれた部分をピッチマークと誤認してしまう可能性があるが、本手法を用いた場合、このような誤りは少ない。 As shown in FIG. 8, when the threshold value processing of the absolute value of the LPC prediction residual signal, which is a conventional method, is used, the portion surrounded by the dotted circle in the waveform of FIG. 8C is mistaken as a pitch mark. However, there are few such errors when this method is used.
また、図9は、発声資料「腕前」の白色雑音のゲインの例を示す図である。
図9(A)は、ピッチ同期分析適用なし、図9(B)は、ピッチ同期分析適用あり、の場合を示す。図9に示すように、ピッチ同期分析を行なうことにより、基本波の影響を受けない、なめらかに変化するゲインを得ることができる。
FIG. 9 is a diagram illustrating an example of white noise gain of the utterance material “skill”.
FIG. 9A shows the case where the pitch synchronization analysis is not applied, and FIG. 9B shows the case where the pitch synchronization analysis is applied. As shown in FIG. 9, by performing pitch synchronization analysis, a smoothly changing gain that is not affected by the fundamental wave can be obtained.
また、図10は、駆動音源の例を示す図であり、図10(A)は、位相等化パルス音源、図10(B)は、ゲインを加えた白色雑音.図10(C)は、周波数帯域毎の有声/無声判定に基づいて、図10(A)と図10(B)とを混合した信号を示している。 FIG. 10 is a diagram showing an example of a driving sound source. FIG. 10A shows a phase equalization pulse sound source, and FIG. 10B shows white noise with gain. FIG. 10C shows a signal obtained by mixing FIG. 10A and FIG. 10B based on voiced / unvoiced determination for each frequency band.
また、図11は、本発明における調音速度等化音声の例を示す図である。発声は「青空に入道雲が浮かんでいます」の例である。 Moreover, FIG. 11 is a figure which shows the example of the articulation speed equalization audio | voice in this invention. The utterance is an example of “a thunderhead in the blue sky”.
図11に示す信号波形は、上から順番に、原音声、調音速度等化音声、基本周波数、調音位置(下歯茎、水平方向)、調音位置(上唇、水平方向)、調音位置(下唇、水平方向)、調音位置(舌1、水平方向)、調音位置(舌2、水平方向)、調音位置(舌3、水平方向)、
調音位置(下歯茎、垂直方向)、調音位置(上唇、垂直方向)、調音位置(下唇、垂直方向)、調音位置(舌1、垂直方向)、調音位置(舌2、垂直方向)、調音位置(舌3、垂直方向)、調音速度を、それぞれ示している。なお、基本周波数、調音位置および調音速度における細線は原音声、太線は調音速度等化音声である。
The signal waveforms shown in FIG. 11 are, in order from the top, original voice, articulation speed equalized voice, fundamental frequency, articulation position (lower gum, horizontal direction), articulation position (upper lip, horizontal direction), articulation position (lower lip, Horizontal direction), articulation position (
Articulation position (lower gum, vertical direction), articulation position (upper lip, vertical direction), articulation position (lower lip, vertical direction), articulation position (
図11に示すように、調音速度等化音声における調音速度は、音声区間で一定に保たれており、本発明の手法の有効性を確認できる。 As shown in FIG. 11, the articulation speed in the articulation speed equalized voice is kept constant in the voice section, and the effectiveness of the method of the present invention can be confirmed.
また受聴試験の結果、再合成された音声信号と、原音声信号の間の知覚的な歪みはほとんど感じられないことを確認している。 As a result of the listening test, it was confirmed that there is almost no perceptual distortion between the re-synthesized audio signal and the original audio signal.
なお、上記の説明においては、図7のステップS302において、LPC係数計算部302により、LSP係数変換部202により算出されたLSP係数をLPC係数に変換し、畳み込み演算部303により、LPC係数計算部302により変換されたLPC係数と駆動音源の出力信号とを畳み込むことで音声を合成した。しかし、これに限られるものではなく、畳み込み演算部303は、LSP係数変換部202により算出されたLSP係数からLSP合成フィルタを生成し、生成したLSP合成フィルタと駆動音源の出力信号とを畳み込むことで音声を合成してもよい。
In the above description, in step S302 of FIG. 7, the LPC
以上、本発明の音声分析合成装置について説明したが、図1に示した音声分析合成装置1は、内部にコンピュータシステムを有している。そして、データ入力部12、音声分析部100、音声変換部200、音声合成部300等における処理は、CPUがプログラムを読み出して実行することにより、その機能が実現されるものである(もちろん、専用のハードウェアにより実現されるものであってもよい)。
The speech analysis / synthesis apparatus of the present invention has been described above. The speech analysis /
そして、上記プログラムは、例えばハードディスクやROM等の、コンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。 The program is stored in a computer-readable recording medium such as a hard disk or ROM. The computer reads out and executes the program, and the above process is performed.
すなわち、データ入力部12、音声分析部100、音声変換部200、音声合成部300等における、各処理は、CPU等の中央演算処理装置が上記プログラムを読み出して、情報の加工、演算処理を実行することにより、実現されるものである。
That is, in each process in the
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。 Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.
また、図1に示す音声分析合成装置1には、周辺機器として入力装置、表示装置等(いずれも表示せず)が接続されているものとする。ここで、入力装置としては、キーボード、マウス等の入力デバイスのことをいう。表示装置とは、CRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
Further, it is assumed that an input device, a display device, and the like (none of them are displayed) are connected to the speech analysis /
以上、本発明の実施の形態について説明したが、本発明の音声分析合成装置は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。 Although the embodiments of the present invention have been described above, the speech analysis / synthesis apparatus of the present invention is not limited to the above illustrated examples, and various modifications can be made without departing from the scope of the present invention. Of course.
1・・・音声分析合成装置、2・・・マイク、3・・・2次元磁気センサシステム、11・・・主制御部、12・・・データ入力部、13・・・インタフェース部、14・・・音声出力部、100・・・音声分析部、101・・・基本周波数計算部、102・・・パルス系列生成部、103・・・LPC係数計算部、104・・・LPC残差計算部、105・・・LSP係数計算部、106・・・ピッチマーク計算部、107・・・位相等化音声計算部、108・・・位相等化パルス音源フィルタ計算部、109・・・有声強度計算部、110・・・白色雑音ゲイン計算部、200・・・音声変換部、201・・・調音速度計算部、202・・・LSP係数変換部、203・・・基本周波数変換部、204・・・位相等化パルス音源フィルタ変換部、205・・・白色雑音ゲイン変換部、206・・・有声強度変換部、300・・・音声合成部、301・・・駆動音源生成部、302・・・LPC係数計算部、303・・・畳み込み演算部
DESCRIPTION OF
Claims (8)
前記音声分析部は、
前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算部と、
前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成部と、
前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算部と、
前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算部と、
前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算部と、
前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算部と、
前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算部と、
前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算部と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算部と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算部と、
を備え、
前記音声変換部は、
前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算部と、
前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換部と、
前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換部と、
前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換部と、
前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換部と、
前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換部と、
を備え、
前記音声合成部は、
前記基本周波数変換部において変換された基本周波数と、前記位相等化パルス音源フィルタ変換部により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換部において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成部と、
前記LSP係数変換部により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算部と、
を備え、
前記有声強度計算部が前記音声強度を算出する場合、前記白色雑音ゲイン計算部が前記白色雑音ゲインを算出する場合、および、前記駆動音源生成部が前記位相等化パルス音源を生成する場合、分析窓長を2ピッチ周期分として算出または生成する、
ことを特徴とする音声分析合成装置。 A data input unit that measures simultaneously measured voice as a voice signal and collects measurement data of articulatory movement, a voice analysis unit that analyzes the measurement data, and a voice that performs predetermined conversion on the analysis result of the voice analysis unit A speech analysis and synthesis apparatus comprising a conversion unit and a vocoder type speech synthesis unit that synthesizes speech based on a conversion result of the speech conversion unit,
The voice analysis unit
Detecting a voice section from the voice signal and calculating a fundamental frequency in the voice section;
Using the fundamental frequency, a pulse sequence generation unit that generates a pitch waveform having a pulse sequence according to a pitch period;
An LPC coefficient calculation unit that performs linear prediction analysis based on the speech signal and calculates an LPC (Linear Prediction Analysis) coefficient;
An LPC residual calculation unit that calculates an LPC prediction residual waveform using the speech signal and an inverse filter having the LPC coefficient as a filter coefficient;
An LSP coefficient calculation unit for calculating an LSP (Line Spectrum Pair) coefficient from the LPC coefficient;
A pitch mark calculator for extracting a pitch mark that maximizes the cross-correlation between the absolute value of the LPC prediction residual waveform and the absolute value of the pitch waveform within the detected speech section;
A phase that generates phase-equalized speech in which the phase component of the speech signal is equalized to a constant phase based on the speech signal, the pitch mark, and the LPC prediction residual waveform within the detected speech section. An equalized speech calculator;
A phase equalization pulse sound source filter calculation unit for calculating a filter coefficient of a phase equalization pulse sound source model based on the phase equalization sound within the detected voice interval;
Within the detected speech section, a voiced strength calculation unit that calculates speech strength for each frequency band by a predetermined calculation method based on the speech signal;
A white noise gain calculation unit that calculates a white noise gain by a predetermined calculation method based on the audio signal within the detected audio section;
With
The voice conversion unit
Based on the measurement data of the articulatory movement, an articulation speed calculation unit that calculates the speed of the articulation parameter as the articulation speed,
An LSP coefficient converter that performs a predetermined conversion on the LSP coefficient according to the articulation speed;
A fundamental frequency converter that performs a predetermined conversion on the fundamental frequency according to the articulation speed;
A phase equalization pulse sound source filter conversion unit that performs a predetermined conversion on the filter coefficient of the phase equalization pulse sound source model according to the articulation speed;
A white noise gain conversion unit that performs a predetermined conversion on the white noise gain according to the articulation speed;
A voiced intensity conversion unit that performs a predetermined conversion on the sound intensity for each frequency band according to the articulation speed;
With
The speech synthesizer
A phase equalization pulse sound source is generated based on the fundamental frequency converted by the basic frequency conversion unit, the filter coefficient converted by the phase equalization pulse sound source filter conversion unit, and the phase equalization pulse sound source model. At the same time, based on the voice intensity for each frequency band converted by the voiced intensity converter, the generated phase equalization pulse sound source is mixed in the voiced band and the driving sound source is mixed in the unvoiced band with white noise. A driving sound generator,
A convolution operation unit that synthesizes an audio signal from the LSP coefficient converted by the LSP coefficient conversion unit and the output signal of the driving sound source;
Equipped with a,
Analysis when the voiced intensity calculation unit calculates the voice intensity, when the white noise gain calculation unit calculates the white noise gain, and when the drive sound source generation unit generates the phase equalized pulse sound source Calculate or generate the window length as 2 pitch periods,
A speech analysis and synthesis apparatus characterized by the above.
前記LSP係数変換部により変換されたLSP係数をLPC係数に変換するLPC係数計算部
を有し、
前記畳み込み演算部が、
前記LPC係数計算部において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、
ことを特徴とする請求項1に記載の音声分析合成装置。 The speech synthesizer
An LPC coefficient calculator that converts the LSP coefficient converted by the LSP coefficient converter into an LPC coefficient;
The convolution unit is
A voice signal is synthesized by convolving the LPC coefficient converted in the LPC coefficient calculation unit and the output signal of the driving sound source;
The speech analysis / synthesis apparatus according to claim 1.
時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用し、
「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、
ここで、sqrtは根号、調音速度の単位はmm」、
また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出し、
さらに、すべての時刻tにおいて、
「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、
時刻tにおけるパラメータを、次の式により線型補間すること、
「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源のフィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、
を特徴とする請求項1または請求項2に記載の音声分析合成装置。 The LSP coefficient conversion unit, the fundamental frequency conversion unit, the phase equalization pulse sound source filter conversion unit, the white noise gain conversion unit, and the voiced intensity conversion unit of the sound conversion unit, respectively,
As the articulation speed at time t, the RMS distance dxt when the articulation parameter is xt, i (i = 1,..., N: horizontal and vertical positions such as lips and tongue) is used.
“Dxt = sqrt (Σi (xt, i−xt−1, i) × (xt, i−xt−1, i) / n),
Where sqrt is the root number and the unit of articulation speed is mm "
Further, an average articulation speed avedx is calculated by dividing the sum of articulation speeds of the entire speech section by the length (number of frames) of the entire speech section.
Furthermore, at all times t
Find k such that “dxk <= t × avedx and dxk + 1> t × avedx”,
Linearly interpolating the parameter at time t by the following equation:
“((Dxk + 1−t × avedx) × pk + (t × avedx−dxk) × pk + 1) / (dxk + 1−dxk), where Pk is the LSP coefficient, fundamental frequency, phase equalization pulse sound source at time k Filter coefficient, white noise gain, or voiced intensity per frequency band ",
The speech analysis / synthesis apparatus according to claim 1 or 2, characterized in that:
前記音声分析部により、
前記音声信号から音声区間を検出すると共に、前記音声区間における基本周波数を算出する基本周波数計算手順と、
前記基本周波数を用いて、ピッチ周期に応じたパルス系列を持つピッチ波形を生成するパルス系列生成手順と、
前記音声信号を基に線型予測分析を行いLPC(線型予測分析)係数を算出するLPC係数計算手順と、
前記音声信号と、前記LPC係数をフィルタ係数に持つ逆フィルタとによりLPC予測残差波形を算出するLPC残差計算手順と、
前記LPC係数からLSP(線スペクトル対)係数を算出するLSP係数計算手順と、
前記検出した音声区間内で、前記LPC予測残差波形の絶対値と、前記ピッチ波形の絶対値との相互相関を最大にするピッチマークを抽出するピッチマーク計算手順と、
前記検出した音声区間内で、前記音声信号と、前記ピッチマークと、前記LPC予測残差波形とを基に、音声信号の位相成分を一定の位相に等化した位相等化音声を生成する位相等化音声計算手順と、
前記検出した音声区間内で、前記位相等化音声を基に位相等化パルス音源モデルのフィルタ係数を算出する位相等化パルス音源フィルタ計算手順と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で周波数帯域毎の音声強度を算出する有声強度計算手順と、
前記検出した音声区間内で、前記音声信号に基いて予め定められた算出方法で白色雑音ゲインを算出する白色雑音ゲイン計算手順と、
が行われ、
前記音声変換部により、
前記調音運動の計測データを基に、調音パラメータの速度を調音速度として算出する調音速度計算手順と、
前記調音速度に応じて前記LSP係数に所定の変換を施すLSP係数変換手順と、
前記調音速度に応じて前記基本周波数に所定の変換を施す基本周波数変換手順と、
前記調音速度に応じて前記位相等化パルス音源モデルのフィルタ係数に所定の変換を施す位相等化パルス音源フィルタ変換手順と、
前記調音速度に応じて前記白色雑音ゲインに所定の変換を施す白色雑音ゲイン変換手順と、
前記調音速度に応じて前記周波数帯域毎の音声強度に所定の変換を施す有声強度変換手順と、
を行われ、
前記音声合成部により、
前記基本周波数変換手順において変換された基本周波数と、前記位相等化パルス音源フィルタ変換手順により変換されたフィルタ係数と、前記位相等化パルス音源モデルとに基づいて、位相等化パルス音源を生成すると共に、前記有声強度変換手順において変換された周波数帯域毎の音声強度に基いて、有声帯域においては前記生成した位相等化パルス音源を混合し、無声帯域では白色雑音を混合した駆動音源を生成する駆動音源生成手順と、
前記LSP係数変換手順により変換されたLSP係数と前記駆動音源の出力信号とから音声信号を合成する畳み込み演算手順と、
が行われ、
前記有声強度計算手順において前記音声強度が算出される場合、前記白色雑音ゲイン計算手順において前記白色雑音ゲインが算出される場合、および、前記駆動音源生成手順において前記位相等化パルス音源が生成される場合、分析窓長を2ピッチ周期分として算出または生成される、
ることを特徴とする音声分析合成方法。 A data input unit that measures simultaneously measured voice as a voice signal and collects measurement data of articulatory movement, a voice analysis unit that analyzes the measurement data, and a voice that performs predetermined conversion on the analysis result of the voice analysis unit A speech analysis / synthesis method in a speech analysis / synthesis apparatus comprising: a conversion unit; and a vocoder-type speech synthesis unit that synthesizes speech based on a conversion result of the speech conversion unit,
By the voice analysis unit,
Detecting a voice section from the voice signal, and calculating a fundamental frequency in the voice section;
Using the fundamental frequency, a pulse sequence generation procedure for generating a pitch waveform having a pulse sequence according to the pitch period;
An LPC coefficient calculation procedure for performing linear prediction analysis based on the speech signal and calculating an LPC (Linear Prediction Analysis) coefficient;
An LPC residual calculation procedure for calculating an LPC prediction residual waveform by the speech signal and an inverse filter having the LPC coefficient as a filter coefficient;
An LSP coefficient calculation procedure for calculating an LSP (Line Spectrum Pair) coefficient from the LPC coefficient;
A pitch mark calculation procedure for extracting a pitch mark that maximizes a cross-correlation between an absolute value of the LPC prediction residual waveform and an absolute value of the pitch waveform within the detected speech section;
A phase that generates phase-equalized speech in which the phase component of the speech signal is equalized to a constant phase based on the speech signal, the pitch mark, and the LPC prediction residual waveform within the detected speech section. Equalized speech calculation procedure;
A phase equalization pulse sound source filter calculation procedure for calculating a filter coefficient of a phase equalization pulse sound source model based on the phase equalization sound within the detected voice interval;
Within the detected speech section, a voiced strength calculation procedure for calculating speech strength for each frequency band by a predetermined calculation method based on the speech signal;
Within the detected speech section, a white noise gain calculation procedure for calculating a white noise gain by a predetermined calculation method based on the speech signal;
Is done,
By the voice conversion unit,
Based on the measurement data of the articulatory movement, the articulation speed calculation procedure for calculating the speed of the articulation parameter as the articulation speed,
An LSP coefficient conversion procedure for performing a predetermined conversion on the LSP coefficient according to the articulation speed;
A fundamental frequency conversion procedure for performing a predetermined conversion on the fundamental frequency according to the articulation speed;
A phase equalization pulse sound source filter conversion procedure for performing a predetermined conversion on the filter coefficient of the phase equalization pulse sound source model according to the articulation speed;
A white noise gain conversion procedure for performing a predetermined conversion on the white noise gain according to the articulation speed;
A voiced intensity conversion procedure for performing a predetermined conversion on the sound intensity for each frequency band according to the articulation speed;
Done
By the speech synthesizer,
A phase equalized pulse sound source is generated based on the fundamental frequency converted in the basic frequency conversion procedure, the filter coefficient converted by the phase equalized pulse sound source filter conversion procedure, and the phase equalized pulse sound source model. At the same time, based on the voice intensity for each frequency band converted in the voiced intensity conversion procedure, the generated phase equalization pulse sound source is mixed in the voiced band and the driving sound source is mixed in the unvoiced band with white noise. Driving sound source generation procedure,
A convolution calculation procedure for synthesizing an audio signal from the LSP coefficient converted by the LSP coefficient conversion procedure and the output signal of the driving sound source;
Is done ,
When the voice intensity is calculated in the voiced intensity calculation procedure, the white noise gain is calculated in the white noise gain calculation procedure, and the phase equalization pulse sound source is generated in the driving sound source generation procedure In this case, the analysis window length is calculated or generated as two pitch periods.
A speech analysis and synthesis method characterized by the above.
前記LSP係数変換手順により変換されたLSP係数をLPC係数に変換するLPC係数計算手順
が行われ、
前記畳み込み演算手順で、
前記LPC係数計算手順において変換されたLPC係数と前記駆動音源の出力信号とを畳み込むことにより音声信号を合成する、
ことを特徴とする請求項4に記載の音声分析合成方法。 By the speech synthesizer,
An LPC coefficient calculation procedure for converting the LSP coefficient converted by the LSP coefficient conversion procedure into an LPC coefficient is performed.
In the convolution calculation procedure,
A voice signal is synthesized by convolving the LPC coefficient converted in the LPC coefficient calculation procedure with the output signal of the driving sound source;
The speech analysis and synthesis method according to claim 4.
時刻tにおける調音速度として、調音パラメータをxt,i(i=1,・・・,n:唇や舌などの水平および垂直位置)とした場合のRMS距離dxtを使用する手順と、
「dxt=sqrt(Σi(xt,i−xt−1,i)×(xt,i−xt−1,i)/n)、
ここで、sqrtは根号、調音速度の単位はmm」、
また、音声区間全体の調音速度の和を、音声区間全体の長さ(フレーム数)で割った、平均調音速度avedxを算出する手順と、
さらに、すべての時刻tにおいて、
「dxk<=t×avedx、かつdxk+1>t×avedx」となるkを求め、
時刻tにおけるパラメータを、次の式により線型補間する手順と、
「((dxk+1−t×avedx)×pk+(t×avedx−dxk)×pk+1)/(dxk+1−dxk)、ここで、Pkは、時刻kにおける、前記LSP係数、基本周波数、位相等化パルス音源フィルタ係数、白色雑音ゲイン、または、周波数帯域毎の有声強度」、
が行われることを特徴とする請求項4または請求項5に記載の音声分析合成方法。 In the LSP coefficient conversion procedure, the fundamental frequency conversion procedure, the phase equalization pulse sound source filter conversion procedure, the white noise gain conversion procedure, and the voiced intensity conversion procedure by the sound conversion unit,
A procedure using the RMS distance dxt when the articulation parameter is xt, i (i = 1,..., N: horizontal and vertical positions such as lips and tongue) as the articulation speed at time t;
“Dxt = sqrt (Σi (xt, i−xt−1, i) × (xt, i−xt−1, i) / n),
Where sqrt is the root number and the unit of articulation speed is mm "
Further, a procedure for calculating an average articulation speed avedx obtained by dividing the sum of the articulation speeds of the entire speech section by the length (number of frames) of the entire speech section;
Furthermore, at all times t
Find k such that “dxk <= t × avedx and dxk + 1> t × avedx”,
A procedure for linearly interpolating the parameter at time t by the following equation;
“((Dxk + 1−t × avedx) × pk + (t × avedx−dxk) × pk + 1) / (dxk + 1−dxk), where Pk is the LSP coefficient, fundamental frequency, phase equalization pulse sound source at time k Filter coefficient, white noise gain, or voiced intensity per frequency band ",
6. The speech analysis / synthesis method according to claim 4 or 5, wherein:
請求項4から請求項6のいずれかに記載の手順を実行させるためのコンピュータプログラム。 A data input unit that collects measurement data of voice and articulation movement, a voice analysis unit that analyzes the measurement data, a voice conversion unit that performs predetermined conversion on the analysis result of the voice analysis unit, and a conversion of the voice conversion unit To a computer in a speech analysis and synthesis device comprising a vocoder type speech synthesis unit that synthesizes speech based on the results,
The computer program for performing the procedure in any one of Claims 4-6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008092985A JP4999757B2 (en) | 2008-03-31 | 2008-03-31 | Speech analysis / synthesis apparatus, speech analysis / synthesis method, computer program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008092985A JP4999757B2 (en) | 2008-03-31 | 2008-03-31 | Speech analysis / synthesis apparatus, speech analysis / synthesis method, computer program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009244723A JP2009244723A (en) | 2009-10-22 |
JP4999757B2 true JP4999757B2 (en) | 2012-08-15 |
Family
ID=41306653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008092985A Expired - Fee Related JP4999757B2 (en) | 2008-03-31 | 2008-03-31 | Speech analysis / synthesis apparatus, speech analysis / synthesis method, computer program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4999757B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5325130B2 (en) * | 2010-01-25 | 2013-10-23 | 日本電信電話株式会社 | LPC analysis device, LPC analysis method, speech analysis / synthesis device, speech analysis / synthesis method, and program |
JP5085700B2 (en) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | Speech synthesis apparatus, speech synthesis method and program |
WO2015108358A1 (en) * | 2014-01-15 | 2015-07-23 | 삼성전자 주식회사 | Weight function determination device and method for quantizing linear prediction coding coefficient |
CN105788601B (en) * | 2014-12-25 | 2019-08-30 | 联芯科技有限公司 | The shake hidden method and device of VoLTE |
CN108281150B (en) * | 2018-01-29 | 2020-11-17 | 上海泰亿格康复医疗科技股份有限公司 | Voice tone-changing voice-changing method based on differential glottal wave model |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2583883B2 (en) * | 1987-03-31 | 1997-02-19 | 博也 藤崎 | Speech analyzer and speech synthesizer |
JPH01232400A (en) * | 1988-03-11 | 1989-09-18 | Fujitsu Ltd | Speech coding transmission device |
JPH01233835A (en) * | 1988-03-14 | 1989-09-19 | Mitsubishi Electric Corp | Voice time base compression coding device |
JPH0782360B2 (en) * | 1989-10-02 | 1995-09-06 | 日本電信電話株式会社 | Speech analysis and synthesis method |
JP3747492B2 (en) * | 1995-06-20 | 2006-02-22 | ソニー株式会社 | Audio signal reproduction method and apparatus |
JP2006243215A (en) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | Data generating device for articulatory parameter interpolation, speech synthesizing device, and computer program |
-
2008
- 2008-03-31 JP JP2008092985A patent/JP4999757B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009244723A (en) | 2009-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
Banbrook et al. | Speech characterization and synthesis by nonlinear methods | |
Erro et al. | Voice conversion based on weighted frequency warping | |
US8719030B2 (en) | System and method for speech synthesis | |
US8280724B2 (en) | Speech synthesis using complex spectral modeling | |
KR20170107283A (en) | Data augmentation method for spontaneous speech recognition | |
Degottex et al. | Phase minimization for glottal model estimation | |
Erro et al. | Weighted frequency warping for voice conversion. | |
US8370153B2 (en) | Speech analyzer and speech analysis method | |
US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
JP4999757B2 (en) | Speech analysis / synthesis apparatus, speech analysis / synthesis method, computer program, and recording medium | |
Narendra et al. | Estimation of the glottal source from coded telephone speech using deep neural networks | |
US7627468B2 (en) | Apparatus and method for extracting syllabic nuclei | |
JP2798003B2 (en) | Voice band expansion device and voice band expansion method | |
JP4469986B2 (en) | Acoustic signal analysis method and acoustic signal synthesis method | |
Jayasankar et al. | Automatic continuous speech segmentation to improve Tamil text-to-speech synthesis | |
US7822599B2 (en) | Method for synthesizing speech | |
Nataraj et al. | Improving the consistency of vocal tract shape estimation | |
Lehana et al. | Speech synthesis in Indian languages | |
Youcef et al. | A tutorial on speech synthesis models | |
Lehana et al. | Harmonic plus noise model based speech synthesis in Hindi and pitch modification | |
KR20050062643A (en) | Bandwidth expanding device and method | |
JP2005189483A (en) | Sound quality model generation method, sound quality conversion method, computer program for them, recording medium with program recorded thereon, and computer programmed with program | |
Lehana et al. | Improving quality of speech synthesis in Indian Languages | |
CN114974271A (en) | Voice reconstruction method based on sound channel filtering and glottal excitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120508 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120515 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4999757 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150525 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |