JP2002515608A - Method and apparatus for determining spectral speech characteristics of voiced exposed - Google Patents

Method and apparatus for determining spectral speech characteristics of voiced exposed

Info

Publication number
JP2002515608A
JP2002515608A JP2000548866A JP2000548866A JP2002515608A JP 2002515608 A JP2002515608 A JP 2002515608A JP 2000548866 A JP2000548866 A JP 2000548866A JP 2000548866 A JP2000548866 A JP 2000548866A JP 2002515608 A JP2002515608 A JP 2002515608A
Authority
JP
Japan
Prior art keywords
wavelet transform
exposed
speaker
expression
characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000548866A
Other languages
Japanese (ja)
Inventor
ホルツアプフェル マーティン
Original Assignee
シーメンス アクチエンゲゼルシヤフト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DE19821031 priority Critical
Priority to DE19821031.0 priority
Application filed by シーメンス アクチエンゲゼルシヤフト filed Critical シーメンス アクチエンゲゼルシヤフト
Priority to PCT/DE1999/001308 priority patent/WO1999059134A1/en
Publication of JP2002515608A publication Critical patent/JP2002515608A/en
Application status is Pending legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 characterised by the analysis technique

Abstract

(57)【要約】 本発明により自然に発声された表出のスペクトル的な音声特徴が求められる。 (57) Abstract: spectral speech characteristics of expression uttered naturally by the present invention is obtained. ここでこの表出はデジタル化され、これにウェーブレット変換が行われる。 Wherein the exposed is digitized, this wavelet transform is performed. ウェーブレット変換の相異なる変換ステップから、発声者固有の特徴が分かる。 From different conversion step of the wavelet transform, it is understood speaker-specific features. 音声合成の領域においてこれらの特徴と別の表出の特徴とを比較することができ、これによって人間の耳に連続して聞こえる音声合成信号が形成される。 In the area of ​​speech synthesis can be compared with the characteristics of these features with another expression, thereby sounds continuously to the human ear speech synthesis signal is formed. 択一的にはこれらの特徴を適切に変更して、知覚的な不調和を抑制することができる。 As an alternative it is possible to appropriately change these characteristics, suppressing perceptual disharmony.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 本発明は、発声された表出におけるスペクトル的な音声特徴を求める方法および装置に関する。 [0001] The present invention relates to a method and apparatus for determining spectral speech characteristics in the utterance have been exposed.

【0002】 連結形の音声合成では、個々の音が音声データバンクから合成される。 [0002] On a consolidated form of speech synthesis, individual sound is synthesized from the voice data bank. この際に人間の耳にとって自然に聞こえる音声経過を得るために、音が組み立てられる点(連結点)における不連続性を回避しなければならない。 To obtain a sound course sounding natural to the human ear when the must avoid discontinuity at the point where sound is assembled (connecting point). ここで音とは、例えば言語の音素または複数の音素をまとめたものである。 Here sound and is one example summarizes the language of phonemes or phoneme.

【0003】 ウェーブレット変換は[1]から公知である。 [0003] The wavelet transform is known from [1]. ウェーブレット変換ではウェーブレットフィルタによって、連続する変換ステップの1つずつのハイパス成分とローパス成分が目下の変換ステップの信号を完全に復元することが保証される。 The wavelet transform by the wavelet filter, it is ensured that the high-pass component and a low-pass component of one of the conversion step of continuously to completely restore the signals of the current conversion step. ここでは1つの変換ステップからつぎの変換ステップでハイパス成分ないしはローパス成分の分解能の低減が行われる(英語の専門用語では「サブサンプリング」 Here reduction of the resolution of the high-pass component or the low-pass component in the next transformation step from one conversion step is carried out (in English terminology "subsampling"
である)。 In is). 殊にこのサブサンプリングによって変換ステップの数は有限である。 In particular the number of conversion steps by the subsampling is finite.

【0004】 本発明の課題は、スペクトル的な音声特徴を求める方法および装置を提供して、例えば自然に聞こえる合成音声出力が得られるようにすることである。 An object of the present invention is to provide a method and apparatus for determining spectral speech characteristics, for example, it is to be heard naturally synthesized speech output.

【0005】 この課題は、請求項1の特徴部分に記載された構成によって解決される。 [0005] This object is achieved by the configuration described in the characterizing part of claim 1.

【0006】 本発明の枠内では、発声された表出のスペクトル的な音声特徴を求める方法が示される。 [0006] In the framework of this invention, a method for determining the spectral speech characteristics of voiced exposed is shown. このために発声された表出をデジタル化し、これにウェーブレット変換を行う。 The have been exposed uttered for the digitized, perform wavelet transform thereto. ウェーブレット変換の相異なる変換ステップに基づいて発声者固有の特徴を求める。 Based on the different conversion step of the wavelet transform seeking speaker-specific features.

【0007】 ここで殊に有利であるのは、ウェーブレット変換ではハイパスフィルタとローパスフィルタとによって表出が分割され、相異なる変換ステップの相異なるハイパス成分ないしはローパス成分が発声者固有の特徴を含むことである。 [0007] Here is the particularly advantageous, the wavelet transform is divided exposed by the high-pass filter and a low pass filter, different highpass or lowpass distinct conversion step may include a speaker-specific feature it is.

【0008】 相異なる変換ステップの個別のハイパス成分ないしはローパス成分は発声者固有の所定の特徴を表し、各変換ステップのハイパス成分もローパス成分も共に変更できる、すなわち各特徴を別の特徴とは別個に変更することができる。 [0008] different individual highpass or lowpass component of the transformation step represents the speaker's specific predetermined characteristic, the high pass component of each conversion step may be both changed lowpass, i.e. independent of the other, wherein each feature it can be changed to. 逆ウェーブレット変換時に個々の変換ステップの各ハイパスおよびローパス成分から元の信号を再度組み立てれば、所望する特徴だけが変更されることが保証される。 If Kumitatere the original signal from the highpass and lowpass components of the individual conversion steps during reverse wavelet transform again, it is ensured that only the desired features is changed.
したがってあらかじめ決められた、表出の所定の特性を変更することができ、これによって表出の残りの部分が影響を受けることはない。 Therefore predetermined, it is possible to change the predetermined characteristic of the expression, thereby never rest of expression is affected.

【0009】 1実施形態の特徴は、ウェーブレット変換の前に表出を窓化して、すなわちサンプリング値の所定量を切り出して、周波数領域に変換することである。 [0009] One embodiment of features and windowed an exposed before wavelet transform, i.e. by cutting a predetermined amount of sampling values ​​is to convert the frequency domain. このために例えば高速フーリエ変換(FFT)が適用される。 Thus, for example, fast Fourier transform (FFT) is applied.

【0010】 別の実施形態の特徴は、変換ステップのハイパス成分を実部と虚部に分けることである。 [0010] Alternative embodiments feature is to divide the high-pass component of the transformation step into real and imaginary parts. ウェーブレット変換のハイパス成分は、目下のローパス成分と、先行する変換ステップのローパス成分との間の差分信号に相応する。 High pass component of a wavelet transform, it corresponds to the difference signal between the instantaneous low-pass component and a low-pass component of the transformation steps preceding.

【0011】 1発展形態の特徴は殊に、ウェーブレット変換の実行すべき変換ステップの数が、連続して接続されるローパスフィルタからなる最後の変換ステップに表出の直流成分が含まれることによって決定されることにある。 [0011] 1 developments of the features in particular, determined by the number of conversion steps to be performed in the wavelet transform, include the DC component of the expression in the last conversion step consisting of a low-pass filter connected in succession there is to be. この場合に信号をそのウェーブレット係数によって完全なものとして表すことができる。 The signal in this case can be represented as being complete by its wavelet coefficients. このことは信号部分の情報がウェーブレット空間に完全に変換されることに相応する。 This is corresponding to the information signal portions are entirely converted into wavelet space.

【0012】 殊に例えば各ローパス成分だけが(ハイパスおよびローパスフィルタによって)さらに変換される場合、上の説明したように変換ステップのハイパス成分として差分信号が残る。 [0012] When particular example only the low-pass component (high-pass and low-pass filter) is further converted, the difference signal is left as a high-pass component of the transformation steps, as described above. 差分信号(ハイパス成分)を変換ステップにわたって累積すると、最後の変換ステップにおいて累積されたハイパス成分として直流成分のない、発声された表出の情報が得られる。 When the difference signal (high pass component) accumulated over conversion step, no direct current component as a high-pass component which is accumulated in the last transformation step, expression of information uttered is obtained.

【0013】 付加的な発展形態では発声者固有の特徴が以下のものとして識別可能である。 [0013] In additional developments of distinguishable as being less speaker-specific features.

【0014】 a) 基本周波数: ウェーブレット変換の第1または2の変換ステップにおけるハイパス成分の振動によって表出の基本周波数が識別される。 [0014] a) the fundamental frequency: the fundamental frequency of expression by the vibration of the high-pass component in the first or second conversion step of the wavelet transform are identified. この基本周波数によって発声者が男性であるか、女性であるかが示される。 Or speaker by the fundamental frequency is male, it indicated whether the women.

【0015】 b) スペクトル包絡の形状: スペクトル包絡は調音時の声道の伝達関数についての情報を含む。 [0015] b) the spectral envelope shape: spectral envelope contains the information about the transfer function of the vocal tract during articulation. 有声の領域においてはスペクトル包絡にフォルマントが優勢である。 Formant is dominant in the spectrum envelope in the voiced region. ウェーブレット変換の高次の変換ステップでのハイパス成分はこのスペクトル包絡を含む。 High pass components at higher conversion step of the wavelet transform includes the spectral envelope.

【0016】 c) スペクトル傾斜(しわがれ度(Rauchigkeit)) 声のしわがれ度は、前の前のローパス成分の経過における負の傾きとして識別される。 [0016] c) the spectral tilt (hoarse degree (Rauchigkeit)) voice hoarse degree is identified as a negative gradient in the course of the previous to the previous low-pass components.

【0017】 発声者固有のa)〜c)の特徴は、音声合成では極めて重要である。 [0017] The speaker-specific a) ~c feature of) is extremely important in speech synthesis. 冒頭に述べたように連結式の音声合成において大量の実際に発声される表出を使用する場合、これらの表出から模範の音が切り出され、のちに新しい語に組み立てられる(合成された音声)。 When using the expression that is a large amount of actual utterances in articulated speech synthesis as mentioned at the beginning, model sound is cut out from these expression was subsequently assembled into new word (synthesized speech ). この場合、組み立てられた音の間の不連続性は不利である。 In this case, discontinuity between the assembled sound is disadvantageous. なぜならばこれが人間の耳には不自然に知覚されるからである。 The reason this is because the human ear is unnatural perceived. これらの不連続性に対向するために、直接、知覚に関する複数のパラメタを検出し、場合によっては比較し、および/または相互に適合させると有利である。 To face these discontinuities, directly to detect a plurality of parameters related to perception, in some cases compared, and / or it is advantageous to adapt to one another.

【0018】 これは直接の操作によって行うことができる。 [0018] This can be done by direct manipulation. この直接の操作は音声音をその発声者固有の特徴の少なくとも1つにおいて適合させて、この音声音が連結によって結合された音の音響的なコンテキストにおいて、障害として知覚されないようにすることによって行われる。 This direct operations adapt at least one of the speaker-specific characteristics of the speech sounds, the line in the acoustic context of the sound the sound sound is coupled by a connecting, by preventing perceived as a fault divide. また、適合する音の選択を調整して、発声者固有の特徴と、結合すべき音とをできるだけ良好に相互に適合させて、例えばこれらの音が同じまたは類似のしわがれ度の特徴を有するようにすることも可能である。 Further, by adjusting the selection of the matching sound, speaker and specific features, and as well as possible to adapt to each other and the sound to be bonded, for example, so that these sounds having features of the same or similar hoarse degree it is also possible to.

【0019】 本発明の利点は、スペクトル包絡が、発声者の調音路(Artikulationstrakt) [0019] The advantages of the present invention, spectral envelope, speaker of the articulation line (Artikulationstrakt)
を反映しており、かつ例えば極位置モデルのようにフォルマントに依拠していないことである。 Reflects the, and for example, it is that they do not rely on formants as pole position model. さらに非パラメトリックな表現としてのウェーブレット変換ではデータは失われず、表出をつねに完全に復元することができる。 Not data is lost in yet wavelet transform as the non-parametric representation can be always completely restore the expression. ウェーブレット変換の個々の変換ステップから生じるデータは相互に線形に独立であり、したがって別個に変化させることができ、後で再び、変化がなされた表出に(損失なしに)組み立てることができる。 Data resulting from individual transformation step of the wavelet transform are linearly independent from each other, thus it is possible to separately change later again (without loss) to change has been made exposed can be assembled.

【0020】 本発明ではさらにプロセッサユニットを有する、スペクトル的な特徴を求める装置が提供される。 Furthermore a processor unit in the present invention, apparatus for determining the spectral characteristics is provided. このプロセッサユニットは表出をデジタル化できるように構成されている。 The processor unit is configured to digitize the expression. それに基づいて表出にウェーブレット変換が行われ、相異なる変換ステップにより発声者固有の特徴が求められる。 Wavelet transformation is performed on the exposed based on which the speaker-specific characteristics are determined by different transformation steps.

【0021】 この装置は、本発明の方法または上に説明した発展形態を実施するのに殊に有利である。 [0021] This apparatus is particularly advantageous for carrying out the method or developments embodiments described above of the present invention.

【0022】 本発明の発展形態は従属請求項に記載されている。 The developments of the invention are described in the dependent claims.

【0023】 本発明の実施例を以下、図面に基づき詳しく説明する。 [0023] The embodiments of the present invention will be described in detail based on the drawings.

【0024】 ここで 図1は、ウェーブレット関数を示しており、 図2は、ウェーブレット関数を実数部と虚数部とに分けて示しており、 図3は、ウェーブレット変換の変換ステップを表すカスケード接続されたフィルタ構造を示しており、 図4は、相異なる変換ステップのローパス成分とハイパス成分とを示しており、 図5は、連結型の音声合成のステップを示している。 [0024] Figure 1 here shows a wavelet function, Figure 2 shows separately wavelet function into a real part and an imaginary part, FIG 3 is cascaded represents a conversion step of the wavelet transform shows a filter structure, Figure 4 shows a low-pass component and a high pass component of different conversion step, FIG. 5 shows the steps of speech synthesis linked.

【0025】 図1は、つぎの式によって決まるウェーブレット関数を示している。 [0025] Figure 1 shows a wavelet function determined by the following equation.

【0026】 [0026]

【数1】 [Number 1]

【0027】 ここで fは周波数を、 σは標準偏差を、 cは所定の規格化定数を 表している。 [0027] Here f is the frequency, sigma is the standard deviation, c is represents a predetermined normalization constant.

【0028】 標準偏差σは、例えばあらかじめ設定することの可能な、図1の側波帯最小値101の位置によって決定される。 [0028] The standard deviation sigma, capable of setting example in advance is determined by the position of sidebands minimum 101 of FIG.

【0029】 図2は、数式(1)の実数部と、この実数部をヒルベルト変換Hしたもの虚数部として有するウェーブレット関数を示している。 [0029] Figure 2 shows the real part of equation (1), the wavelet function with the real part as the imaginary part obtained by Hilbert transform H. したがってこの複素ウェーブレット関数はつぎの式で得られる。 Therefore this complex wavelet function is obtained by the equation below.

【0030】 [0030]

【数2】 [Number 2]

【0031】 [0031]

【外1】 [Outside 1]

【0032】 図3は、ウェーブレット変換をカスケード接続して適用することを示している。 [0032] Figure 3 shows the application of a wavelet transform cascaded. 信号301はハイパスフィルタHP1 302とローパスフィルタTP1 3 Signal 301 is a high-pass filter HP1 302 and the low-pass filter TP1 3
05とによってフィルタリングされる。 05 is filtered by the. ここで例えばサブサンプリングが行われ、すなわち記憶すべき値の数がフィルタ毎に低減される。 Here, for example sub-sampling is performed, i.e. the number of values ​​to be stored can be reduced for each filter. 逆ウェーブレット変換により、ローパス成分TP1 305およびハイパス成分HP1 304から再度、原信号301が復元されることが保証される。 The inverse wavelet transform, again lowpass TP1 305 and high-pass components HP1 304, the original signal 301 is guaranteed to be restored.

【0033】 ハイパスHP1 302では、実部Re1 303と虚部Im1 304にしたがって別個にフィルタリングが行われる。 [0033] In the high-pass HP1 302, separately filtered according to the real part Re1 303 and the imaginary part Im1 304 is performed.

【0034】 ローパスフィルタTP1 305の後の信号310は、新たにハイパスフィルタHP2 306とローパスフィルタTP2 309とによってフィルタリングされる。 The signal 310 after the low-pass filter TP1 305 is filtered newly by the high-pass filter HP2 306 and the low-pass filter TP2 309. ハイパスフィルタHP2 306も実部Re2 307と虚部Im2 A high-pass filter HP2 306 also real part Re2 307 and an imaginary part Im2
308とを含む。 And a 308. 第2変換ステップ11の後、再度フィルタリングが行われ、これが繰り返される。 After the second conversion step 11, it is filtered again, which is repeated.

【0035】 256個の値を有する(FFT変換された)短時間のスペクトルから出発する場合、8つの変換ステップ(サブサンプリングレート:1/2)が、最後のローパスフィルタTP8からの信号が直流成分に等しくなるまで実行される。 [0035] (as FFT transformation) having 256 values ​​when starting from the short-time spectrum, eight transformation step (subsampling rate: 1/2) is the signal from the last of the low-pass filter TP8 DC component It is performed until equal to.

【0036】 図4にはウェーブレット変換の相異なる変換ステップが、ローパス成分(図4 The different conversion step of wavelet transform in FIG. 4, the low pass component (FIG. 4
A,4Cおよび4E)とハイパス成分(図4B,4Dおよび4F)とに分けられて示されている。 A, 4C and 4E) and highpass (Figure 4B, is shown divided into 4D and 4F) and.

【0037】 図4Bのハイパス成分から、発声された表出の基本周波数が見て取れる。 [0037] from the high-pass component of Figure 4B, there is seen a fundamental frequency of the voiced exposed. 振幅の変動のほかに、ウェーブレットフィルタリングされたスペクトルにはっきりと優位のある周期性を識別することができる。 In addition to the variation of the amplitude, it is possible to identify a periodicity with a clearly superior wavelet filtered spectrum. これが発声者の基本周波数である。 This is the fundamental frequency of the speaker.
この基本周波数によって、あらかじめ設定した表出を音声合成時に相互に適合させたり、またはあらかじめ設定した表出を備えるデータバンクから適合する表出を求めることができる。 This fundamental frequency can be obtained conforming exposed from a data bank comprising or by mutually adapting the exposed previously set at the time of speech synthesis, or the expression set in advance.

【0038】 図4Cのローパス成分では、際立った最小値および最大値として音声信号部分(この音声信号部分の長さは基本周波数の約2倍に相当する)のフォルマントが示されている。 [0038] In the low-pass component of FIG. 4C, shown formant outstanding minimum and audio signal portion as the maximum value (the length of the audio signal portion corresponds to approximately twice the fundamental frequency). これらのフォルマントは、発声者の声道の共振周波数を表す。 These formants, represents the resonance frequency of the speaker's vocal tract. フォルマントを明瞭に示すことができることにより、連結形の音声合成において適合する音声ユニットを適合および/または選択することが可能である。 By being able to clearly show formants, it can be adapted and / or select a compatible speech unit in the speech synthesis of the connection type.

【0039】 前の前の変換ステップのローパス成分(原信号において周波数値が256個の場合は:TP7)では、声のしわがれ度を求めることができる。 [0039] (If the frequency value is 256 in the original signal: TP7) before the low-pass component of the previous conversion step in, it is possible to determine the hoarse of voice. 最大値Mxと最小値Miとの間の曲線経過の下降はしわがれの度合いを特徴付ける。 Descent of the curve course between the maximum value Mx and the minimum value Mi characterizes the degree of hoarse.

【0040】 これによって上記の3つの発声者固有の特徴は識別されて、これを音声合成に対して適切に変更することができる。 [0040] Thus three speaker-specific features described above are identified, which can be suitably modified with respect to speech synthesis. ここで殊に重要であるのは、逆ウェーブレット変換時に、発声者固有の個々の特徴の操作によって、その特徴だけが変更され、他の知覚に関連するパラメタはそのままであることである。 Here it is given particular importance, when inverse wavelet transform, by the operation of the speaker-specific individual features, only its features is changed, the parameters associated with other perception is that it is intact. したがって基本周波数を所期のように調整することができ、これによって声のしわがれ度が変更されることはない。 Therefore it is possible to adjust as desired the fundamental frequency, thereby never hoarse of the voice is changed.

【0041】 別の使用例の特徴は、別の音部分に連結して結合する有利な音部分を選択できることであり、ここでこれらの両者の音部分は元々、別の発声者から別々のコンテキストで記録されたものである。 The features of another example of use is to be selected advantageous sound moiety attached by connecting to another sound part, where the sound of these two originally separate context from another speaker in those that have been recorded. スペクトル的な音声特徴を求めれば、有利な結合すべき音部分を見つけることができる。 By obtaining a spectral speech characteristics, it is possible to find the sound part to be advantageous bond. それはこれらの特徴によって評価基準が周知であり、この評価基準によって音部分相互の比較と、ひいては適合する音部分の選択とが決まった基準にしたがって自動的に可能になるからである。 It is well known criteria These characteristics and comparison with the sound portion other by this criterion, because becomes possible automatically according to criteria selected and is determined to consequently compatible sound portion.

【0042】 図5は連結形の音声合成のステップを示している。 [0042] Figure 5 shows the steps of the speech synthesis of the connection type. データバンクは、種々の発声者が自然に発声した音声のあらかじめ設定されたセットによって構成されており、ここで自然に発話した音声の音部分は識別されて記憶される。 Databank, various speaker is constituted by a preset set of speech uttered naturally sound part of the sound uttered naturally here is stored is identified. 1つの音声の種々の音部分に対して多数の標本が生じ、データバンクはこれらにアクセス可能である。 Numerous samples occur for various sound part of one audio, data bank is accessible thereto. 音部分は例えば1つの音声または音素またはこのような音素の列である。 Sound part is one audio or phoneme or columns of such phonemes, for example. 音部分が小さければ小さいほど、新しい語を組み立てる際の可能性は大きくなる。 The smaller the sound portion, the possibility of assembling the new word is increased. ドイツ語は、約40の所定量の音素を含んでおり、これらの音素はこの言語のほぼすべての語の合成に十分である。 German, contains about 40 predetermined amount of phoneme, these phonemes are sufficient to almost any word synthesis of language. この際に種々の音響的コンテキストを、 Various acoustic context in this,
どの語に各音素が出現するかに応じて考慮しなければならない。 Which word in must be considered depending on whether each phoneme appears. ここで重要なのは、個々の音素を音響的コンテキストに適切に挿入して、人間の聴覚に不自然でいかにも「合成」であることが分かる不連続性が回避されるようにすることである。 The key here is to properly insert the individual phonemes in acoustic context, is to ensure that discontinuities can be seen unnatural to the human hearing is truly "synthetic" is avoided. 上記のように音部分は種々の発声者から得たものであり、したがって相異なる発声者固有の特徴を有する。 Sound part as described above are those obtained from various speaker, thus having different speaker-specific features. できる限り自然に作用する表出を合成するために、これらの不連続性を最小化することが重要である。 To synthesize expressive acting naturally as possible, it is important to minimize these discontinuities. これは識別可能であり、かつ変更可能な発声者固有の特徴を適合させることによって、または適合する音部分をデータバンクから選択することによって行うことができる。 This can be done by selecting by adapting the identification is possible, and modifiable speaker-specific features, or compatible sound portion from the data bank. ここでも発声者固有の特徴は選択の際の重要な補助手段である。 Again speaker-specific feature is an important aid during selection.

【0043】 図5には2つの音A 507とB 508の例が示されており、これらはそれぞれ、個別の音部分505ないしは506を有する。 [0043] Examples of 2 Tsunooto A 507 and B 508 in FIG. 5 are the indicated, each of which has a distinct sound part 505 or 506. 音A 507およびB 5 Sound A 507 and B 5
08はそれぞれ、発声された表出から得られたものであり、音A 507と音B 08 are those obtained from expression which are respectively, utterance, sound A 507 and the sound B
508とは明らかに異なっている。 508 is clearly different from. 区切り線509は、音A 507と音B Separator line 509, sound A 507 and the sound B
508とを結合しなければならない箇所を示す。 And 508 shows where must bind. この場合に音A 507の最初の3つの音部分と、音B 508の最後の3つの音部分を連結して結合しなければならない。 And the first three sound part of the sound A 507 in this case, must be combined by connecting the last three sound part of the sound B 508.

【0044】 区切り線509に沿って連続する音部分を時間的に延長または圧縮(矢印50 The time-extended or compressed sound portions continuously along the partition line 509 (arrow 50
3を参照されたい)して、経過部509における不連続な感じを回避しなければならない。 3 is referred to want) to the must avoid discontinuous feeling in the course section 509.

【0045】 変形例の特徴は、区切り線509に沿って分割される音が急峻に経過することである。 The feature of the modification is that the sound is divided along a partition line 509 steeply elapsed. この場合、人間の聴覚に障害と知覚される上記の不連続性が生じてしまう。 In this case, discontinuity of the occurs perceived as failure to human hearing. これに対して、経過領域501または502内の音部分を考慮して、音Cを組み立て、ここで各経過領域501または502、相互に対応付け可能な音部分間のスペクトル的な間隔尺度が適合される(音部分間で漸次的に経過する)。 In contrast, in consideration of the sound part of the course area 501 or 502, assemble the sound C, where each elapsed area 501 or 502, spectral intervals measure the fit between the possible sound part associated with each other It is (are progressively elapse between sound part). この間隔尺度として使用されるのは、例えばウェーブレット空間における、この領域に関連する係数間のユークリッド距離である。 Which is given is used as the distance measure, for example, in the wavelet space is the Euclidean distance between coefficients associated with this region.

【0046】 参考文献 [1] I. Daubechies: "Ten Lectures on Wavelets", Siam Verlag 1992, ISBN 0 [0046] References [1] I. Daubechies: "Ten Lectures on Wavelets", Siam Verlag 1992, ISBN 0
-89871-274-2, 第5.1章、第129〜137頁 -89871-274-2, chapter 5.1, pp. 129-137

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】 ウェーブレット関数を示す図である。 1 is a diagram illustrating a wavelet function.

【図2】 ウェーブレット関数を実数部と虚数部に分けて示す図である。 2 is a diagram showing separately wavelet function into a real part and an imaginary part.

【図3】 ウェーブレット変換の変換ステップを表すカスケード接続されたフィルタ構造を示す図である。 3 is a diagram illustrating a cascaded filter structure representing a conversion step of the wavelet transform.

【図4】 相異なる変換ステップのローパス成分とハイパス成分とを示す図である。 4 is a diagram showing a low-pass component and a high pass component of the different transformation steps.

【図5】 連結型の音声合成のステップを示す図である。 5 is a diagram showing the steps of a speech synthesis linked.

【手続補正書】特許協力条約第34条補正の翻訳文提出書 [Procedure amendment] of the Patent Cooperation Treaty Article 34 correction translation filings

【提出日】平成12年7月7日(2000.7.7) [Filing date] 2000 July 7 (2000.7.7)

【手続補正1】 [Amendment 1]

【補正対象書類名】明細書 [Correction target document name] specification

【補正対象項目名】0003 [Correction target item name] 0003

【補正方法】変更 [Correction method] change

【補正内容】 [Correction contents]

【0003】 ウェーブレット変換は[1]から公知である。 [0003] The wavelet transform is known from [1]. ウェーブレット変換ではウェーブレットフィルタによって、連続する変換ステップの1つずつのハイパス成分とローパス成分が目下の変換ステップの信号を完全に復元することが保証される。 The wavelet transform by the wavelet filter, it is ensured that the high-pass component and a low-pass component of one of the conversion step of continuously to completely restore the signals of the current conversion step. ここでは1つの変換ステップからつぎの変換ステップでハイパス成分ないしはローパス成分の分解能の低減が行われる(英語の専門用語では「サブサンプリング」 Here reduction of the resolution of the high-pass component or the low-pass component in the next transformation step from one conversion step is carried out (in English terminology "subsampling"
である)。 In is). 殊にこのサブサンプリングによって変換ステップの数は有限である。 In particular the number of conversion steps by the subsampling is finite. US−A−5528725には、ウェーブレット変換を用いた音声認識方法が記載されている。 The US-A-5528725, the speech recognition method using a wavelet transform is described. EP−A−0519802には、自然に聞こえる音声音の並びを考慮して、発声者固有の特徴を適合させる音声合成方法が記載されている。 The EP-A-0519802, taking into account the sequence of speech sounds natural sounding speech synthesis method for adapting a speaker-specific characteristics are described.

Claims (10)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 発声された表出のスペクトル的な音声特徴を求める方法において、 a) 前記表出をデジタル化し、 b) 該デジタル化した表出にウェーブレット変換を行い、 c) ウェーブレット変換の相異なる変換ステップを用いて発声者固有の特徴を求めることを特徴とする スペクトル的な音声特徴を求める方法。 1. A method for determining the spectral speech characteristics of voiced exposed, a) the expression digitizes, b) performs a wavelet transform on the exposed that the digitized, c) the phase of the wavelet transform method for determining the spectral speech characteristics and obtains the speaker-specific features using different transformation steps.
  2. 【請求項2】 ウェーブレット変換の前に、デジタル化した表出の、周波数領域への窓化変換を実行する 請求項1に記載の方法。 To 2. A previous wavelet transform, the exposed digitized method of claim 1 to perform the windowing transform into the frequency domain.
  3. 【請求項3】 前記の周波数領域への変換を高速フーリエ変換によって実行する 請求項2に記載の方法。 3. The process as claimed in claim 2 in which the conversion to the frequency domain performed by fast Fourier transform.
  4. 【請求項4】 前記ウェーブレット変換の各ステップで、変換すべき信号のローパス成分とハイパス成分とを求める 請求項1から3までのいずれか1項に記載の方法。 Wherein at each step of the wavelet transform method of any one of claims 1 to 3 for obtaining the low-pass component and a high pass component of the signal to be converted.
  5. 【請求項5】 ハイパス成分を実部と虚部とに分ける 請求項1から4までのいずれか1項に記載の方法。 5. The method according to any one of claims 1 to 4 to divide the high-pass component in a real part and an imaginary part.
  6. 【請求項6】 前記ウェーブレット変換は複数の変換ステップを含み、ここで最後の変換ステップによって、表出の直流成分を、変換ステップの数に相応して繰り返されるローパスフィルタリングで供給する 請求項1から5までのいずれか1項に記載の方法。 Wherein said wavelet transform comprises a plurality of conversion steps, by the last conversion step, where the DC component of the expression, claim 1 for supplying a low-pass filtering is repeated correspondingly to the number of conversion steps the method according to any one of up to 5.
  7. 【請求項7】 発声者固有の特徴を、 a) 発声された表出の基本周波数と、 b) スペクトル包絡と、 c) 発声された表出のしわがれ度とによって求める 請求項1から6までのいずれか1項に記載の方法。 7. A speaker-specific characteristics, a) the fundamental frequency of voiced exposed, b) a spectral envelope, c) determined by the hoarse degree of voiced exposed of claims 1 to 6 the method according to any one.
  8. 【請求項8】 発声者固有の個々の特徴を、音声音の自然に聞こえる並びを考慮して適合させることを特徴とする 請求項1から7までのいずれか1項に記載の方法の使用法。 8. A speaker-specific individual features, use of a method according to any one of claims 1, characterized in that adapt by considering the arrangement of natural sounding speech sounds to 7 .
  9. 【請求項9】 あらかじめ設定したデータセットから、自然に聞こえる音声音の並びを保証する音声音を、個別のスペクトル的な音声特徴に基づいて選択する 請求項1から7までのいずれか1項に記載の音声合成方法の使用法。 From 9. dataset preset audio sound to ensure alignment of the speech sound natural sounding, to any one of claims 1 to select on the basis of the individual spectral speech characteristics to 7 using speech synthesis method according.
  10. 【請求項10】 プロセッサユニットを有する、発声された表出のスペクトル的な音声特徴を求める装置において、 該装置は、 a) 前記表出をデジタル化し、 b) 該デジタル化した表出にウェーブレット変換を行い、 c) ウェーブレット変換の相異なる変換ステップを用いて発声者固有の特徴を求めるステップを実行することを特徴とする 発声された表出のスペクトル的な音声特徴を求める装置。 10. A having a processor unit, the apparatus for determining the spectral speech characteristics of voiced exposed, the device, a) the expression digitizes, b) a wavelet transform to the expression of the said digitized It was carried out, speaker-specific features apparatus for determining the spectral speech characteristics of expression uttered, which comprises performing the step of obtaining a using different conversion step c) wavelet transform.
JP2000548866A 1998-05-11 1999-05-03 Method and apparatus for determining spectral speech characteristics of voiced exposed Pending JP2002515608A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE19821031 1998-05-11
DE19821031.0 1998-05-11
PCT/DE1999/001308 WO1999059134A1 (en) 1998-05-11 1999-05-03 Method and device for determining spectral voice characteristics in a spoken expression

Publications (1)

Publication Number Publication Date
JP2002515608A true JP2002515608A (en) 2002-05-28

Family

ID=7867382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000548866A Pending JP2002515608A (en) 1998-05-11 1999-05-03 Method and apparatus for determining spectral speech characteristics of voiced exposed

Country Status (5)

Country Link
EP (1) EP1078354B1 (en)
JP (1) JP2002515608A (en)
AT (1) AT214831T (en)
ES (1) ES2175988T3 (en)
WO (1) WO1999059134A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011512549A (en) * 2008-01-28 2011-04-21 クゥアルコム・インコーポレイテッドQualcomm Incorporated System, method, and apparatus for processing a context using multiple resolution analyzes
JP2016061968A (en) * 2014-09-18 2016-04-25 株式会社東芝 Speech processing device, speech processing method, and program
JP2018025827A (en) * 2017-11-15 2018-02-15 株式会社東芝 Interactive system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10031832C2 (en) 2000-06-30 2003-04-30 Cochlear Ltd Hearing aid for rehabilitation of a hearing disorder

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2678103B1 (en) * 1991-06-18 1996-10-25 Sextant Avionique Process for speech synthesis.
GB2272554A (en) * 1992-11-13 1994-05-18 Creative Tech Ltd Recognizing speech by using wavelet transform and transient response therefrom
JP3093113B2 (en) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 Speech synthesis method and system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011512549A (en) * 2008-01-28 2011-04-21 クゥアルコム・インコーポレイテッドQualcomm Incorporated System, method, and apparatus for processing a context using multiple resolution analyzes
US8483854B2 (en) 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
US8554551B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US8554550B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
US8560307B2 (en) 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
US8600740B2 (en) 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
JP2016061968A (en) * 2014-09-18 2016-04-25 株式会社東芝 Speech processing device, speech processing method, and program
JP2018025827A (en) * 2017-11-15 2018-02-15 株式会社東芝 Interactive system

Also Published As

Publication number Publication date
ES2175988T3 (en) 2002-11-16
EP1078354A1 (en) 2001-02-28
WO1999059134A1 (en) 1999-11-18
EP1078354B1 (en) 2002-03-20
AT214831T (en) 2002-04-15

Similar Documents

Publication Publication Date Title
CN1041266C (en) Public address intelligibility system
CN1222924C (en) Voice personalization of speech synthesizer
US7483758B2 (en) Spectral translation/folding in the subband domain
JP3349905B2 (en) Speech synthesis method and apparatus
CN100543731C (en) Parameterized temporal feature analysis
US7716052B2 (en) Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
EP0838804A2 (en) Audio bandwidth extending system and method
US5327521A (en) Speech transformation system
JP4132109B2 (en) Speech signal reproduction method and device, speech decoding method and device, and speech synthesis method and device
EP1252621B1 (en) System and method for modifying speech signals
EP1213704A2 (en) Speech synthesis apparatus and method
JP2763322B2 (en) Voice processing method
EP2058803B1 (en) Partial speech reconstruction
CN1215459C (en) Bandwidth extension of acoustic signals
EP0698876B1 (en) Method of decoding encoded speech signals
US6535852B2 (en) Training of text-to-speech systems
US5933801A (en) Method for transforming a speech signal using a pitch manipulator
US7593849B2 (en) Normalization of speech accent
CA2253749C (en) Method and device for instantly changing the speed of speech
ES2309969T3 (en) Procedure and device for the artificial extension of the voice signal band width.
Jovičić Formant feature differences between whispered and voiced sustained vowels
KR101214684B1 (en) Method and apparatus for estimating high-band energy in a bandwidth extension system
CN1282156C (en) Audio signal bandwidth extension
JP2956548B2 (en) Voice band extension apparatus
US5682502A (en) Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031204