WO2003005342A1 - Procede et appareil de couplage de signaux - Google Patents

Procede et appareil de couplage de signaux Download PDF

Info

Publication number
WO2003005342A1
WO2003005342A1 PCT/JP2002/006479 JP0206479W WO03005342A1 WO 2003005342 A1 WO2003005342 A1 WO 2003005342A1 JP 0206479 W JP0206479 W JP 0206479W WO 03005342 A1 WO03005342 A1 WO 03005342A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
waveform
upper limit
waveform signals
frequency
Prior art date
Application number
PCT/JP2002/006479
Other languages
English (en)
French (fr)
Inventor
Yasushi Sato
Patrick Davin
Original Assignee
Kabushiki Kaisha Kenwood
Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kabushiki Kaisha Kenwood, Advanced Telecommunications Research Institute International filed Critical Kabushiki Kaisha Kenwood
Priority to DE0001403851T priority Critical patent/DE02738817T1/de
Priority to US10/362,870 priority patent/US7739112B2/en
Priority to DE60233658T priority patent/DE60233658D1/de
Priority to EP02738817A priority patent/EP1403851B1/en
Publication of WO2003005342A1 publication Critical patent/WO2003005342A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Definitions

  • the present invention relates to a signal combining method and a signal combining device for generating a composite waveform signal by combining signals representing waveforms, and more particularly to a method and a device suitable for combining a plurality of audio waveform signals. Things.
  • speech synthesized by a speech synthesis technique has been widely used. Specifically, it is used in many situations, such as text-to-speech software, telephone number guidance, stock information, travel information, store information, and traffic information.
  • Speech synthesis methods are roughly classified into a rule synthesis method and a shape editing method.
  • the rule synthesis method is a method in which morphological analysis is performed on the text for which speech is to be synthesized, and speech is generated by performing phonological processing on the text based on the analysis result.
  • this rule synthesizing method there are few restrictions on the content of text used for speech synthesis, and text having various contents can be used for speech synthesis.
  • the quality of the output voice is inferior to the rule editing method compared to the waveform editing method.
  • the waveform editing method is a method of recording a voice actually uttered by a human and connecting the components obtained by dividing the recorded voice to obtain a target voice.
  • the waveform editing method is superior to the rule synthesis method in voice quality.
  • this waveform editing method cannot synthesize speech that includes parts that cannot be extracted from recorded speech. Therefore, the larger the unit for dividing the recorded voice, the greater the restrictions on the voice to be synthesized. For this reason, in the waveform editing method, the recorded voice is subdivided into individual vowels and consonants.
  • techniques have been proposed to enable synthesis of various voices.
  • the waveform of the connecting portion that connects the components of the recorded voice becomes discontinuous, as shown in Fig. 6 (a), for example, and this becomes the source of noise. If the unit for segmenting the recorded voice is small, this noise caused by discontinuous connection parts becomes conspicuous, and the quality of the synthesized voice deteriorates.
  • a method of improving the connection by connecting discontinuous connection parts with a straight line can be considered.
  • the connected portion generates a harmonic component, and the harmonic component also becomes noise.
  • MDS Minimum Distance Search
  • Fig. 6 (C) the MDS method is used to join two waveforms together, the part near the rear end of the preceding waveform and the part near the front end as much as possible.
  • the point where the instantaneous value and the slope of the tangent line are almost the same from each other is found one by one, and these points are connected.
  • the connection between the waveforms is usually not the end of each connected waveform. For this reason, a part of the joined waveforms is usually truncated, and as a result, the synthesized speech becomes unnatural.
  • the present invention has been made in view of the above circumstances, and has as its object to provide a signal coupling method and a signal coupling device which can generate a natural synthesized voice with less noise.
  • a signal combining method includes a step of combining a plurality of waveform signals in a predetermined order to combine a plurality of waveform signals to generate a combined waveform signal; The combined waveforms for a predetermined time period including each combined portion of the signal. Filtering the signal.
  • the predetermined time period is set to be equal to or less than 1/10 of a time length of each waveform signal.
  • a signal combining method includes a step of combining a plurality of waveform signals with each other in a predetermined order, and a step of determining an upper limit frequency of a frequency spectrum of each of the plurality of waveform signals.
  • the filtering is low-pass filtering
  • the predetermined filtering characteristic is a cut-off frequency of the low-pass filtering.
  • the cut-off frequency of the low-pass filtering is set to the higher upper limit frequency of the spectrum upper frequencies of the two waveform signals before and after the combined portion of the waveform signals.
  • the upper limit frequency of the frequency spectrum of each waveform signal is typically determined by spectrum analysis using Fourier transform. The upper limit frequency is calculated by using a high-pass filter to obtain the average amplitude of the high frequency components. You may make it calculate
  • a harmonic component generated by a discontinuous change in the coupling portion of the waveform signal is converted into a spectrum of the waveform signal before and after the coupling portion of the waveform signal. It can be effectively removed by a filter having an adapted filter characteristic. For this reason, the sense of noise in the synthesized waveform signal is significantly reduced.
  • a method of the present invention comprises combining a plurality of input waveform signals with each other to generate a composite waveform signal, and calculating a spectrum of a pair of adjacent waveform signals in the composite waveform signal.
  • a bandwidth for filtering a combined portion of the pair of waveform signals is determined based on the upper limit frequency, and a combined portion of the pair of waveform signals in the composite waveform signal is filtered with the determined bandwidth. It can be understood as a signal combining method including each signal processing step.
  • the signal combining device of the present invention includes means for combining a plurality of waveform signals with each other in a predetermined order to generate a combined waveform signal by combining the plurality of waveform signals. And a filter for filtering the combined plurality of waveform signals for a predetermined time period including each combined portion of the combined plurality of waveform signals.
  • the signal coupling device of the present invention comprises: a unit for coupling the plurality of waveform signals to each other in a predetermined order; and a unit for coupling frequency waveforms of the plurality of waveform signals to each other.
  • the filter is a low-pass filter, and the predetermined filter characteristic is a cut-off frequency of the low-pass filter.
  • the cut-off frequency of the low-pass filtering is set to the higher one of the upper limit frequencies of the spectra of the two waveform signals before and after the combined portion of the waveform signals. ing.
  • the upper limit frequency determining means of the present invention includes a spectrum analyzer using a Fourier transformer or a high-pass filter.
  • a signal combiner of the present invention includes: coupling means for coupling a plurality of input waveform signals to each other to generate a composite waveform signal; and a pair of adjacent waveforms in the composite waveform signal.
  • Bandwidth determining means for determining a bandwidth for filtering a coupling portion of the pair of waveform signals based on a frequency of an upper limit of a spectrum of the signal; and the pair of waveform signals of the composite waveform signal And the bandwidth determined by the bandwidth determining means. It is grasped as a signal combining device including a filtering means for filtering at.
  • the combined portion of the two input signals combined by such a signal combiner is filtered with a bandwidth determined by the upper limit frequency of the spectrum of these input waveform signals, so that the composite waveform signal is Thus, noise caused by higher harmonic components is reduced. Further, according to such a signal coupling device, since the end of the input signal is not truncated, when the input waveform signal represents a voice waveform, a natural synthesized voice is generated.
  • the bandwidth determining unit includes, for example, a unit that performs Fourier transform on each of the pair of waveform signals, and specifies an upper limit frequency of a spectrum of the two input signals based on a result of the Fourier transform.
  • the bandwidth determining means includes a table storing means for storing a table indicating, for each candidate, an upper limit frequency of a spectrum of a plurality of candidates that can be an input waveform signal; Obtains identification data for identifying a pair of waveform signals from the outside, reads out the upper limit frequency of the spectrum of each input waveform signal identified by the obtained identification data from the table, and reads the frequency.
  • the maximum value of the obtained frequencies is specified as the upper limit frequency of the spectrum of the pair of waveform signals.
  • FIG. 1 is a diagram showing a speech synthesizer according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing an internal configuration of the speech synthesizer according to the embodiment of the present invention.
  • FIG. 3 (a) shows the spectrum of the signal supplied to the input terminal IN-A.
  • FIG. 3 (b) is a graph showing a spectrum of a signal supplied to the input terminal IN-B
  • FIG. 3 (c) is a graph showing a frequency characteristic of the low-pass filter. It is a graph.
  • Fig. 4 (a) is a graph showing the waveform signal supplied to the input terminal IN-A
  • Fig. 4 (b) is a graph showing the waveform signal supplied to the input terminal IN-B
  • FIG. 4 (c) is a graph showing a signal output from the adder
  • FIG. 4 (d) is a graph showing a signal output from the one-pass filter.
  • FIG. 5 is a block diagram showing an internal configuration of a modified example of the speech synthesizer of FIG.
  • FIG. 6 (a) is a diagram showing a state in which signals to be connected are discontinuous
  • FIG. 6 (b) is a diagram showing a conventional method of connecting discontinuous portions with straight lines
  • FIG. 6 (c) is a diagram showing a state where signals are connected by the MDS method.
  • the speech synthesizer 10 converts a waveform signal obtained by subdividing a pre-recorded speech into individual vowel and consonant levels at an input terminal IN-A. And a basic audio signal that is supplied from IN-B and synthesized from the supplied waveform signal is output from the output terminal OUT.
  • a specific internal configuration of the speech synthesizer 10 is connected to a delay unit 1A and a Fourier transform unit 2A connected to an input terminal IN-A, and to an input terminal IN-B.
  • the delay units 1A and 1B have substantially the same configuration as each other, and are each configured of a delay circuit such as a shift register. You.
  • the delay unit 1A is connected to the input terminal IN-A, and the delay unit 1B is connected to the input terminal IN-B.
  • the delay unit 1 A delays this signal for a predetermined time and supplies the signal to the addition unit 3.
  • the delay unit 1B delays this signal for a predetermined time and supplies the signal to the addition unit 3.
  • time lengths in which the delay units 1A and 1B delay the signals supplied thereto are substantially the same. This time length is selected so that the timing at which the filter characteristic determination unit 4 supplies a control signal described later to the LPF 5 is as described later.
  • the Fourier transform units 2A and 2B have substantially the same configuration as each other, and are each composed of a digital signal processor (DSP), a CPU (Central Processing Unit), and the like. You.
  • the Fourier transform unit 2A is connected to the input terminal IN-A, and the Fourier transform unit 2B is connected to the input terminal IN-B. Therefore, the same signal is supplied to the Fourier transform unit 2A and the delay unit 1A practically simultaneously from the input terminal INA.
  • the same signal is supplied to the Fourier transform unit 2B and the delay unit 1B from the input terminal INB at substantially the same time.
  • the Fourier transform unit 2A When supplied with a signal representing a waveform from the input terminal IN-A, the Fourier transform unit 2A uses a fast Fourier transform technique (or any other technique that generates data representing the result of Fourier transform of the signal). Then, spectrum data representing the spectrum of the waveform represented by this signal is generated and supplied to the filter characteristic determination unit 4. Similarly, when a signal representing a waveform is supplied from the input terminal IN-B to the Fourier transform unit 2B, the Fourier transform unit 2B performs substantially the same operation as the Fourier transform unit 2A, and the waveform represented by this signal is spread. The spectrum data representing the torque is generated and supplied to the filter characteristic determination unit 4.
  • a fast Fourier transform technique or any other technique that generates data representing the result of Fourier transform of the signal.
  • the addition unit 3 is configured by an addition circuit and the like.
  • the adder 3 generates a signal representing the sum of the value of the signal supplied from the delay unit 1A and the value of the signal supplied from the delay unit 1B, and supplies the signal to the LPF 5.
  • the filter characteristic determining unit 4 is composed of a DSP and a CPU.
  • the filter characteristic determining unit 4 receives the spectral data from the Fourier transform units 2A and 2B, respectively. Based on these spectrum data, the cutoff frequency of LPF5 (specifically, for example, the frequency at which the gain of LPF5 drops 3 dB below the peak on the high frequency side) is determined, and the determined cutoff frequency is determined. Is generated and supplied to the LPF 5.
  • the filter characteristic determining unit 4 determines the spectrum indicated by the spectral data supplied from the Fourier transform unit 2A.
  • the frequency at which the intensity of Sa attenuates by 20 dB from the peak on the high frequency side is specified as the upper limit fa of this spectrum Sa.
  • the filter characteristic determination unit 4 determines that the intensity of the spectrum Sb indicated by the spectrum data supplied from the Fourier transform unit 2B is higher on the high frequency side.
  • the frequency that attenuates by 20 dB from the peak is specified as the upper limit fb of this vector Sb.
  • FIG. 3 (c) is a graph showing the frequency characteristics of the LPF 5 when f a and f b (however, the frequency characteristics while the control signal is supplied to the LP F 5).
  • the LPF 5 is composed of, for example, a FIR (Finite Inpulse Response) type digital filter or the like.
  • the LPF 5 filters the signal supplied from the adder based on the presence or absence of the control signal from the filter characteristic determiner 4 and the frequency indicated by the control signal, and outputs the result.
  • FIR Finite Inpulse Response
  • the LPF 5 determines the frequency indicated by the control signal in the waveform represented by the signal supplied from the adding unit 3. A signal representing a component passing through a 5 1 2nd order one-pass filter so as to have a cut-off frequency is generated, and the generated signal is output from an output terminal OUT as a signal representing a result of filtering.
  • the LPF 5 outputs the signal supplied from the adder 3 from the output terminal OUT without substantially filtering.
  • waveform signals are alternately supplied to the input terminals IN-A and IN-B. That is, as shown in, for example, FIGS. 4 (a) and (b), if an nth (n is an arbitrary positive odd) waveform signal s (n) is supplied to the input terminal IN-A, the nth Substantially at the same time as the waveform signal reaches the end, the (n + 1) th waveform signal s (n + 1) is supplied to the input terminal IN-B, and so on. Are sequentially supplied.
  • the n-th waveform signal When the n-th waveform signal is supplied to the input terminal IN—A and the (n + 1) th waveform signal is supplied to the input terminal IN—B, the n-th waveform signal is delayed by the delay unit 1A.
  • the (n + 1) -th waveform signal is delayed by the delay unit 1B and supplied to the addition unit 3. Since the time lengths of delay of the signals by the delay units 1A and 1B (the time lengths denoted as “t 0” in FIG. 4 (c)) are substantially equal to each other, the adder unit 3 outputs the signals shown in FIG. As shown in), the nth waveform signal and the (n + 1) th waveform signal are supplied to the LPF 5 substantially continuously without any gap.
  • the nth waveform signal is also supplied to the Fourier transform unit 2A
  • the (n + 1) th waveform signal is also supplied to the Fourier transform unit 2B.
  • the Fourier transform unit 2A generates spectrum data representing the spectrum of the waveform represented by the n-th waveform signal, and supplies the spectrum data to the filter characteristic determination unit 4.
  • the Fourier transform unit 2B generates spectrum data representing the spectrum of the waveform represented by the (n + 1) th waveform signal, and supplies the spectrum data to the filter characteristic determination unit 4.
  • the filter characteristic determining unit 4 When supplied with two spectral data representing the spectrum of the n-th and (n + 1) -th waveform signals, the filter characteristic determining unit 4 receives each of the spectral data indicated by these spectral data. Specify the frequency at which the intensity of the spectrum at the high frequency side attenuates by 20 dB from the average value. And two identified The higher value of the frequencies is determined as the cut-off frequency of the LPF 5, and a control signal indicating the determined cut-off frequency is supplied to the LPF 5.
  • the control signal indicating the cutoff frequency determined based on the nth and (n + 1) th waveform signals has the signal output by the adder 3 as n
  • the filter characteristic deciding section 4 sends the LPF 5 It is supplied to.
  • the time length from the start of the supply of the control signal to the point at which the waveform signal is switched is determined by the time length of the n-th waveform signal (Fig. 4 ( It is desirable that it be less than one tenth of the length of time indicated by “L (n)” in a).
  • the time length from the switching of the waveform signal to the end of the supply of the control signal is the time length of the (n + 1) th waveform signal (shown as “L (n + l)” in FIG. 4 (b)). It is desirable to set it to 1/10 or less of (time length).
  • the nth and (n + 1) th waveform signals do not generate unnecessary harmonic components and also remove the frequency components originally contained in each waveform. Combined with one another without substantial loss. Therefore, the voice represented by the combined waveform signal has little noise and a natural synthesized voice is uttered.
  • the configuration of the speech synthesizer is not limited to the above.
  • the number of LPF 5 filter stages is arbitrary, and the upper limit frequency of the spectrum indicated by the spectrum data supplied by the Fourier transform units 2A and 2B is defined.
  • the manner of defining the frequency is not limited to the above definition, but is arbitrary.
  • the delay unit 1A, the delay unit 1B, the Fourier transform unit 2A, the Fourier transform unit 2B, the adder unit 3, the filter characteristic determination unit 4, and the LPF 5 are integrated into a single unit. DSP or CPU may do it.
  • this speech synthesizer reads a waveform signal from a recording medium (for example, a flexible disk or a MO (Magneto-Optical Disk)) on which the waveform signal is recorded, instead of the input terminals IN-A and IN-B.
  • a recording medium drive device for example, a flexible disk drive, a M ⁇ drive, etc. for supplying to the delay units 1A and 1B and the Fourier transform units 2A and 2B.
  • the voice synthesizing device may include a recording medium drive device that writes the signal generated by the LPF 5 to a recording medium, instead of the output terminal OUT.
  • the same recording medium drive device outputs the waveform signal from the recording medium. Both the reading function and the function of writing the signal generated by the LPF 5 to the recording medium may be performed.
  • the waveform signal supplied to the input terminal I N-A or I N-B may be a signal representing a silent state.
  • a portion including the end of the signal representing the speech state (specifically, for example, the beginning and end of a voice or a breathing portion) ) Can avoid noise, and this part can be heard as natural sound.
  • the speech synthesizer of the present invention does not necessarily require the Fourier transform units 2A and 2B. Instead, for example, a candidate for a waveform signal supplied to the input terminals IN-A and IN-B is determined. A method of providing a table for storing the identification data to be identified and the frequency data indicating the upper limit frequency of the candidate spectrum in association with each other is considered.
  • the identification data for identifying the waveform signals supplied to the input terminals IN-A and IN-B is separately obtained from the outside, and the frequency data associated with the obtained identification data is separately obtained. Is read from the table and supplied to the filter characteristic determining unit 4, and the filter characteristic determining unit 4 determines the higher value of the frequencies indicated by the frequency data as the cut-off frequency of the LPF 5.
  • this speech synthesizer may include high-pass filters (HPF) 6A and 6B instead of Fourier transform sections 2A and 2B.
  • HPF high-pass filters
  • the HPFs 6A and 6B have substantially the same configuration as each other, and are each composed of, for example, an IIR (Infinite Impulse Response) type digital filter or the like.
  • IIR Infinite Impulse Response
  • HPF 6 A is connected to input IN-A
  • HPF 6 B is connected to input IN-B
  • HPF 6 A and delay unit 1 A have the same signal from input IN-A. Are supplied substantially simultaneously, and the same signal is supplied to the HPF 6 B and the delay unit 1 B from the input terminal IN-B substantially simultaneously. Supplied.
  • the HPF 6A When the HPF 6A is supplied with a signal representing a waveform from the input terminal IN-A, the HPF 6A substantially cuts off components below a predetermined power cutoff frequency, and sends the signal to another component filter characteristic determination unit 4. And supply.
  • the HP F 6 B substantially blocks a component having a frequency equal to or lower than a predetermined cut-off frequency in the signal supplied from the input terminal IN-B, and supplies the signal to another component filter characteristic determination unit 4. Note that the cutoff frequencies of the HPFs 6A and 6B are substantially equal to each other.
  • the filter characteristic determination unit 4 uses the waveform signals supplied from HP F 6 A and 6 B, respectively. (Specifically, based on the larger of the average amplitude level of the component supplied by HP F 6A and the average amplitude level of the component supplied by HP F 6B), Shall be determined.
  • this speech synthesizer is provided with HP F6A and 6B instead of Fourier transform units 2A and 2B, complicated Fourier transform processing is omitted, so that the processing of this speech synthesizer can be performed at higher speed. It becomes possible to.
  • the embodiments of the present invention have been described.
  • the signal coupling device according to the present invention can be realized using an ordinary computer system without using a dedicated system.
  • the delay unit 1A (or HP F6A), the delay unit IB (or) HP F6B, the Fourier transform unit 2A, the Fourier transform unit 2B, the adder unit 3, and the filter characteristic determination
  • a speech synthesizer that executes the above processing is configured.
  • the program may be posted on a bulletin board (BBS) of a communication line and distributed via the communication line.
  • the carrier wave is modulated by a signal representing the program, and the obtained modulated wave To transmit this
  • the device that has received the modulated wave may demodulate the modulated wave and restore the program.
  • the recording medium shall include the program excluding the part. May be stored. Also in this case, in the present invention, it is assumed that the recording medium stores a program for executing each function or step executed by the computer.
  • the present invention employs the above-described configuration, the harmonic component generated by the discontinuous change of the coupling portion of the audio waveform signal is effectively removed. As a result, the sense of noise in the synthesized speech signal is significantly reduced, and a very natural synthesized speech can be generated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Noise Elimination (AREA)

Description

明 細 書 信号を結合する方法及び装置 技術分野
本発明は、 波形を表す信号を結合して合成波形信号を生成するため の信号結合方法および信号結合装置に関し、 特に、 複数の音声波形信 号を結合するために好適な方法および装置を提供するものである。
背景技術
近年、音声合成の技術により合成された音声が広く利用されている。 具体的には、 たとえば、 テキスト読み上げソフトウェアや、 電話番号 案内や、 株式案内、 旅行案内、 店舗案内、 交通情報など、 多くの場面 で利用されている。
音声合成の手法には、 大別して、 規則合成方式と、 形編集方式とが ある。
規則合成方式は、 音声を合成する対象のテキストについて形態素解 析を行い、 解析の結果に基づき、 テキストに音韻論的処理を施すこと により音声を生成する手法である。 この規則合成方式では、 音声合成 に用いるテキス卜の内容についての制約が少なく、 多様な内容のテキ ストを音声合成に用いることができる。 しかし、 この規則合成方式で は、 波形編集方式に比べ、 出力される音声の品質が劣っている。
一方、 波形編集方式は、 人間が実際に発話した音声を録音して、 録 音した音声を分割して得られる構成部分をつなぎ合わせることにより - 目的とする音声を得る手法である。 波形編集方式は、 音声の品質の点 で規則合成方式より優れている。 しかしこの波形編集方式では、 録音 された音声から取り出すことのできない部分を含む音声は合成できな い。 このため、 録音された音声を分割する単位が大きいほど、 合成す る音声についての制約が多くなる。 このため、 波形編集方式では、 録 音された音声を個々の母音や子音のレベルにまで細分化することによ より、 多様な音声を合成できるようにする手法も提案されている。 しかし、 録音した音声の構成部分をつなぎ合わせる接続部分の波形 は、 たとえば第 6図 ( a ) に示すように不連続となり、 これがノイズ の発生源になる。 そして、 録音された音声を細分化する単位が小さい 場合、 接続部分が不連続であることにより生じるこのノイズが目立つ ようになり、 合成音声の品質の低下を招く。
このノイズを軽減する手法としては、 たとえば、 第 6図 (b ) に示 すように、 不連続な接続部分を直線で接続し改善する手法が考えられ る。しかし、この接続された部分は高調波成分を発生することとなり、 この高調波成分もノイズとなる。
また、 接続部分が不連続であることにより生じるノィズを軽減する 手法としては M D S (Minimum Distance Search) 方式がある。 M D S方式は、 第 6図 (C ) に示すように、 2個の波形をつなぎ合わせる 際、 前に来る波形のうちなるベく後端に近い部分と、 後ろに来る波形 のうちなるべく前端に近い部分とから、 瞬時値と接線の勾配とが互い にほぼ一致する点を 1個ずつ探し出して、 これらの点同士を接続する という手法である。
しかし、 M D S方式では、 波形相互の接続部分が、 つなぎ合わされ る各波形の端ではないことが通常である。 このため、 つなぎ合わされ る波形の一部は通常切り捨てられることになり、 この結果、 合成音声 が不自然なものとなる。
本発明は上記実状に鑑みてなされたものであり、 ノイズが少なく、 しかも自然な合成音声を生成できる信号結合方法及び信号結合装置を 提供することを目的とする。
発明の開示
上記目的を達成するために、 本発明の信号結合方法は、 複数の波形 信号を結合して、 合成波形信号を生成するために、 該複数の波形信号 を所定の順序で互いに結合するステツプと、 該結合された複数の波形 信号の各結合部分を含む所定の時間期間だけ該結合された複数の波形 信号をフィルタリングするステップとを基本的に含んでいる。そして、 好ましくは、 該所定の時間期間は、 各波形信号の時間長の 1 / 1 0以 下に設定される。 本発明のある局面においては、 信号結合方法は、 複 数の波形信号を所定の順序で互いに結合するステップと、 該複数の波 形信号の各々の周波数スぺク トルの上限周波数を決定するステツプと、 '該決定された上限周波数に基づいた所定のライル夕特性にて、 各波形 信号の少なくとも結合部分をフィルタリングするステップとを含んで いる。 ここで、 該フィルタリングは、 ローパスフィルタリングであり、 そして該所定のフィルタリング特性は、 該ローパスフィルタリングの カッ トオフ周波数である。 さらに、 該ローパスフィルタリングのカツ トオフ周波数が、 該波形信号の結合部分の前後 2つの波形信号のそれ ぞれのスぺク トル上限周波数のうち高いほうの上限周波数に設定され るようになっている。 なお、 該各波形信号の周波数スペクトルの上限 周波数は、 典型的には、 フーリエ変換によるスペク トル分析により求 められるが、 この上限周波数を、 ハイパスフィルタを利用して、 高域 周波数成分の平均振幅レベルに基づいて求めるようにしてもよい。
本発明は、 このような構成を採用するため、 波形信号の結合部分が 不連続的に変化することにより発生する高調波成分を、 波形信号の結 合部の前後の波形信号のスぺクトルに適応したフィル夕特性を有する フィルタにより効果的に除去できる。 このため、 合成波形信号のノィ ズ感が著しく低減されることとなる。
さらに別の局面によれば、 本発明の方法は、 複数の入力波形信号を 互いに結合して合成波形信号を生成し、 該合成波形信号内で互いに隣 接する一対の波形信号のスぺク トルの上限の周波数に基づいて、 当該 一対の波形信号の結合部分をフィルタリングする帯域幅を決定し、 該 合成波形信号のうち、 該一対の波形信号の結合部分を、 決定された帯 域幅にてフィルタリングする、 各信号処理ステップを含む信号結合方 法として把握されるものである。
このような信号結合方法により結合される一対の波形信号の結合部 分は、 これらの入力波形信号の高域成分のスぺクトルに基づいて決ま る帯域幅でフィルタリングされるので、 合成波形信号から、 高調波成 分に起因するノイズを除去することが可能となる。 また、 このような 信号結合方法では、 入力波形信号の端が切り捨てられることがないの で、 入力波形信号が音声の波形を表す場合、 自然な合成音声が生成さ れる'こととなる。 '
上記本発明の信号結合方法と同様、 本発明の信号結合装置は、 複数 の波形信号を結合して合成波形信号を生成するために、 該複数の波形 信号を所定の順序で互いに結合する手段と、 該結合された複数の波形 信号の各結合部分を含む所定の時間期間だけ該結合された複数波形信 号をろ波するフィル夕とを基本的に含んでいる。 ある局面において、 本発明の信号結合装置は、 該複数の波形信号を所定の順序で互いに結 合する所定の順序で互いに結合する手段と、 該複数の波形信号の各々 の周波数スぺク トルの上限周波数を決定する手段と、 該決定された上 限周波数に基づいた所定のフィルタ特性にて各波形信号の少なくとも 結合部分をろ波するフィル夕と、 を含んでいる。 そして、 該フィルタ は、 ローパスフィルタであり、 そして該所定のフィルタ特性は、 該ロ —パスフィル夕リングのカッ トオフ周波数である。 また、 該ロ一パス フィルタリングのカツ卜オフ周波数は、 該波形信号の結合部分の前後 2つの波形信号のそれぞれのスぺク トル上限周波数のうち高い方の上 限周波数に設定されるようになっている。 なお、 本発明の上限周波数 決定手段は、 フ一リェ変換器もしくはハイパスフィルタを利用したス ぺクトル分析器を含んでいる。
さらに、 別の局面によれば、 本発明の信号結合器は、 複数の入力波 形信号を互いに結合して合成波形信号を生成する結合手段と、 該合成 波形信号内で互いに隣接する一対の波形信号のスぺク トルの上限の周 波数に基づいて当該一対の波形信号の結合部分をフィル夕リングする 帯域幅を決定する帯域幅決定手段と、 該合成波形信号のうち、 該一対 の波形信号の結合部分を、 該帯域幅決定手段により決定された帯域幅 にてフィルタリングするフィルタリング手段とを含む信号結合装置と して把握される。
このような信号結合装置により結合される 2個の入力信号の結合部 分は、 これらの入力波形信号のスぺク トルの上限の周波数で決まる帯 域幅でフィルタリングされるので、 合成波形信号は、 高調波成分に起 因するノ'ィズが低減されたものとなる。 また、 このような信号結合装 置によれば、 入力信号の端を切り捨てることがないので、 入力波形信 号が音声の波形を表す場合、 自然な合成音声が生成されることとなる。 前記帯域幅決定手段は、 たとえば、 前記一対の波形信号をそれぞれ フーリエ変換する手段を備え、 フーリエ変換の結果に基づいて、 当該 2個の入力信号のスぺク トルの上限の周波数を特定するように構成さ れる。 あるいは、 これと代替の構成として、 ハイパスフィルタを利用 して、該一対の波形信号の各々の高周波信号成分をろ波するようにし、 ハイパスフィルタの出力の平均振幅レベルに基づいて、 当該一対の波 形信号のスぺク トル上限周波数を特定するようにしてもよい。さらに、 好適には、 該帯域幅決定手段は、 入力波形信号となり得る複数の候補 のスぺク トルの上限の周波数を候補別に示すテーブルを記憶するテー ブル記憶手段を備え、 該帯域幅決定手段は、 一対の波形信号を識別す る識別データを外部より取得して、 取得された識別データにより識別 されるそれぞれの入力波形信号のスぺクトルの上限の周波数を該テー ブルから読み出し、 読み出された各周波数のうちの最高値を、 当該一 対の波形信号のスぺク トルの上限の周波数として特定する、 よう構成 される。
図面の簡単な説明
第 1図は、 この発明の実施の形態に係る音声合成装置を示す図であ る。
第 2図は、 この発明の実施の形態に係る音声合成装置の内部構成を 示すブロック図である。
第 3図 (a ) は、 入力端 I N— Aに供給された信号のスペクトルを 表すグラフであり、 第 3図 (b ) は、 入力端 I N— Bに供給された信 号のスペク トルを表すグラフであり、 そして第 3図 ( c ) は、 ローパ スフィルタの周波数特性を表すグラフである。
第 4図 ( a ) は、 入力端 I N— Aに供給された波形信号を表すダラ フであり、 第 4図 (b ) は、 入力端 I N— Bに供給された波形信号を 表すグラフで'あり、 第 4図 (c ) は、 加算部が出力する信号を表すグ ラフであり、 そして第 4図 (d ) は、 口一パスフィルタが出力する信 号を表すグラフである図である。
第 5図は、 第 2図の音声合成装置の変形例の内部構成を示すプロッ ク図である。
第 6図 ( a ) は、 つなぎ合わされる信号が不連続になる様子を表す 図であり、 第 6図 (b ) は、 不連続部分を直線で接続する従来の手法 を表す図であり、 そして第 6図 (c ) は、 M D S方式により信号をつ なぎ合わせた様子を表す図である。
発明の実施の形態
以下、 図面を参照して、 この発明の実施の形態を、 音声合成装置を 例として説明する。
この発明の実施の形態に係る音声合成装置 1 0は第 1図に示すよう に、 予め録音した音声を個々の母音や子音のレベルに細分化すること によって得られる波形信号が入力端 I N— A及び I N— Bから供給さ れ、 その供給された波形信号を合成した合成音声信号が出力端 O U T から出力される基本構成から成っている。
この音声合成装置 1 0は、具体的な内部構成を第 2図に示すように、 入力端 I N— Aに連なった遅延部 1 A及びフーリェ変換部 2 Aと、 入 力端 I N— Bに連なった遅延部 1 B及びフーリェ変換部及び 2 Bと、 加算部 3と、 フィルタ特性決定部 4と、 ローパスフィルタ 5 (以降、 L P Fと略記) とから構成されている。
遅延部 1 A及び 1 Bは、 互いに実質的に同一の構成を有しており、 それぞれ、 たとえばシフトレジス夕等の遅延回路等から構成されてい る。 遅延部 1 Aは入力端 I N— Aに接続されており、 遅延部 1 Bは入 力端 I N— Bに接続されている。
遅延部 1 Aは、 入力端 I N— Aより信号を供給されると、 この信号 を一定時間遅延させて加算部 3に供給する。 遅延部 1 Bは、 入力端 I N— Bより信号を供給されると、 この信号を一定時間遅延させて加算 部 3に供給する。 '
なお、 遅延部 1 A及び 1 Bが各自に供給された信号を遅延させる時 間長は、 実質的に同一である。 この時間長は、 フィルタ特性決定部 4 が L P F 5へと後述の制御信号を供給するタイミングが後述する通り となるよう選ばれている。
フ一リエ変換部 2 A及び 2 Bは、 互いに実質的に同一の構成を有し ており、 それぞれ、 デジタル信号処理装置 (D S P : Digital Signal Processor) や C P U ( Central Processing Unit) 等から構成されてい る。 フーリエ変換部 2 Aは入力端 I N— Aに接続されており、 フーリ ェ変換部 2 Bは入力端 I N— Bに接続されている。 従って、 フーリエ 変換部 2 A及び遅延部 1 Aには、 入力端 I N— Aから同一の信号が実 質的に同時に供給される。 また、 フーリエ変換部 2 B及び遅延部 1 B には、 入力端 I N— Bから同一の信号が実質的に同時に供給される。 フーリエ変換部 2 Aは、 入力端 I N— Aより波形を表す信号を供給 されると、 高速フーリエ変換の手法 (あるいは、 信号をフーリエ変換 した結果を表すデータを生成する他の任意の手法) により、 この信号 が表す波形のスぺク トルを表すスぺク トルデータを生成し、 フィルタ 特性決定部 4へ供給する。 フーリエ変換部 2 Bも同じく、 入力端 I N — Bより波形を表す信号を供給されると、 フ一リェ変換部 2 Aと実質 的に同一の動作を行い、 この信号が表す波形のスぺク トルを表すスぺ クトルデータを生成して、 フィルタ特性決定部 4へ供給する。
加算部 3は、 加算回路等より構成されている。 この加算部 3は、 遅 延部 1 Aより供給される信号の値と遅延部 1 Bより供給される信号の 値の和を表す信号を生成して、 L P F 5へ供給する。 フィル夕特性決定部 4は、 D S Pや C PUより構成されており、 こ のフィルタ特性決定部 4は、 フーリエ変換部 2 A及び 2 Bよりそれぞ れスぺク トルデータを供給されると、 これらのスぺクトルデータに基 づいて、 L P F 5のカットオフ周波数 (具体的には、 たとえば L P F 5の利得が高周波側でピークより 3デシベル低下する周波数) を決定 し、 決定した力ッ トオフ周波数を'示す制御信号を生成して L P F 5に 供給する。
具体的には、 フィルタ特性決定部 4は、 たとえば第 3図 ( a) に示 すように、 フ一リエ変換部 2 Aより供給されたスぺク 卜ルデ一夕が示 すスぺク トル S aの強度が高周波側でピークより 2 0デシベル減衰す る周波数を、 このスペク トル S aの上限 f aと特定する。 また、 フィ ルタ特性決定部 4は、 たとえば第 3図 (b) に示すように、 フ一リエ 変換部 2 Bから供給されたスぺクトルデータが示すスぺクトル S bの 強度が高周波側でピークより 2 0デシベル減衰する周波数を、 このス ベクトル S bの上限 f bとして特定する。 そして、 特定した 2個の周 波数 f a及び f bのうち高い方の値を、 L P F 5のカツ トオフ周波数 と決定する。 なお、 第 3図 (c) は、 f aく: f bである場合の L P F 5の周波数特性 (ただし、 制御信号が L P F 5に供給されている間の 周波数特性) を示すグラフである。
L P F 5は、 たとえば、 F I R (Finite Inpulse Response) 型のデ ィジタルフィルタ等より構成されている。 L P F 5は加算部より供給 される信号を、 フィル夕特性決定部 4からの制御信号の有無及びその 制御信号が示す周波数に基づいてフィルタリングして出力する。
具体的には、 L P F 5は、 たとえば、 フィルタ特性決定部 4から制 御信号が供給されている間は、 加算部 3より供給された信号が表す波 形のうち、 この制御信号が示す周波数をカツトオフ周波数とするよう な 5 1 2次の口一パスフィルタを通過する成分を表す信号を生成し、 その生成した信号を、 フィルタリングの結果を表す信号として出力端 OUTより出力する。 一方、 L P F 5は、 制御信号を供給されていない間は、 加算部 3よ り供給された信号を実質的にフィル夕リングすることなくそのまま出 力端 OUTより出力する。
この音声合成装置に音声の合成を行わせるには、 入力端 I N— A及 び I N— Bに、 波形信号を交互に供給する。 すなわち、 たとえば第 4 図 (a) 及び (b) に示すように、 n番目 (nは任意の正の奇数) の 波形信号 s (n) を入力端 I N— Aに供給したとすると、 n番目の波 形信号が終端に達するのと実質的に同時に、 入力端 I N— Bに、 (n + 1 ) 番目の波形信号 s (n + 1 ) の供給を開始する、 というようにし て、 波形信号を順次供給する。
入力端 I N— Aに n番目の波形信号が供給され、 入力端 I N— Bに (n + 1 ) 番目の波形信号が供給されると、 n番目の波形信号は遅延 部 1 Aにより遅延を受け、 また、 (n + 1 ) 番目の波形信号は遅延部 1 Bにより遅延を受けた上で、 加算部 3に供給される。 遅延部 1 A及び 1 Bが信号を遅延させる時間長 (第 4図 ( c) で 「 t 0」 として示す 時間長) は互いに実質的に等しいので、 加算部 3からは、 第 4図 (c ) に示すように、 n番目の波形.信号と (n + 1 ) 番目の波形信号とが実 質的に隙間なく連続して L P F 5に供給される。
一方、 n番目の波形信号はフーリエ変換部 2 Aにも供給され、 (n + 1 ) 番目の波形信号はフーリエ変換部 2 Bにも供給される。 すると、 フーリエ変換部 2 Aは、 n番目の波形信号が表す波形のスぺク トルを 表すスぺクトルデータを生成し、 フィル夕特性決定部 4へと供給する。 また、 フーリエ変換部 2 Bは、 (n + 1 ) 番目の波形信号が表す波形の スぺク トルを表すスぺクトルデータを生成し、 フィル夕特性決定部 4 へと供給する。
フィルタ特性決定部 4は、 n番目及び (n + 1 ) 番目の波形信号の スぺクトルを表す 2個のスぺク卜ルデ一夕を供給されると、 これらの スぺクトルデータが示す各々のスぺクトルの強度が高周波側で平均値 より 2 0デシベル減衰する周波数を特定する。 そして、 特定した 2個 の周波数のうち高い方の値を、 L P F 5のカツ トオフ周波数と決定し、 決定したカツ トオフ周波数を示す制御信号を L P F 5に供給する。
n番目及び (n + 1 ) 番目の波形信号に基づいて決定されたカッ ト オフ周波数を示す制御信号は、 第 4図 (d) にタイミングを示すよう に、 加算部 3が出力する信号が n番目の波形信号から (n + 1 ) 番目 の波形信号へと切り替わる時点 ' (第 4図 (d) で 「T (η)」 として示 す時点) を含む期間、 フィルタ特性決定部 4から L P F 5へと供給さ れる。 (なお、 理解を容易にするため、 本明細書及び図面においては、 L P F 5自身による信号伝搬の遅延時間は無視できる程度に短いもの とする。)
なお、 この音声合成装置が出力する音声信号が表す音声の劣化を防 ぐために、 制御信号の供給開始から波形信号が切り替わる時点までの 時間長は、 n番目の波形信号の時間長 (第 4図 ( a) で 「L (n)」 と して示す時間長) の 1 0分の 1以下とすることが望ましい。 また、 波 形信号が切り替わる時点から制御信号の供給終了までの時間長は、(n + 1 ) 目の波形信号の時間長 (第 4図 (b) で 「L (n + l )」 として 示す時間長) の 1 0分の 1以下とすることが望ましい。
そして、 L P F 5は、
(A) (n— 1 ) 番目及び n番目の波形信号に基づいて決定された 周波数を示す制御信号の供給が終了してから、 n番目及び (n + 1 ) 番目の波形信号に基づいて決定された周波数を示す制御信号が供給さ れるまでの期間 (第 4図 (d) で 「 t 1」 として示す期間) は、 n番 目の波形信号を、 実質的にフィル夕リングすることなく出力端 OUT から出力し、
(B) n番目及び (n + 1 ) 番目の波形信号に基づいて決定された 周波数を示す制御信号が供給されている期間 (第 4図 (d) で 「 t 2」 として示す期間) は、 この周波数をカッ トオフ周波数とする 5 1 2次 のローパスフィルタを通過する成分を表す信号を生成して出力端 OU Tより出力し、 -ll- CC) n番目及び (n + 1) 番目の波形信号に基づいて決定された 周波数を示す制御信号の供給が終了してから、 (n + 1 ) 番目及び (n + 2) 番目の波形信号に基づいて決定された周波数を示す制御信号が 供給されるまでの期間 (第 4図 (d) で 「 t 3」 として示す期間) は、 (n + 1 ) 番目の波形信号を、 実質的にフィルタリングすることなく 出力端 OUTから出力する。 '
L P F 5が上述した通りにフィルタリングを行う結果、 n番目及び (n + 1 ) 番目の波形信号が、 不要な高調波成分を生じることなく、 また、 各波形に元来含まれていた周波数成分を実質的に損なうことな く、 互いに結合される。 従って、 結合された波形信号が表す音声は、 ノイズが少なく、 また、 自然な合成音声が発声される。
なお、 この音声合成装置の構成は上述のものに限られない。
たとえば、 L P F 5のフィルタ段数は任意であり、 また、 フーリエ 変換部 2 A及び 2 Bが供給するスぺクトルデータが示すスぺク トルの 上限の周波数の定義の仕方や、 L P F 5のカツ トオフ周波数の定義の 仕方も、 上述の定義に限らず任意である。
また、 遅延部 1 A、 遅延部 1 B、 フーリエ変換部 2 A、 フーリエ変 換部 2 B、 加算部 3、 フィルタ特性決定部 4及び L P F 5の機能の全 部又は一部を、 単一の D S Pや C P Uが行ってもよい。
また、この音声合成装置は、入力端 I N— A及び I N— Bに代えて、 波形信号が記録された記録媒体(たとえば、フレキシブルディスクや、 MO (Magneto-Optical Disk) など) から波形信号を読み出して遅延 部 1 A及び 1 Bやフーリェ変換部 2 A及び 2 Bに供給する記録媒体ド ライブ装置 (たとえば、 フレキシブルディスク ドライブや、 M〇ドラ イブなど) を備えていてもよい。
また、 この音声合成装置は、 出力端 OUTに代えて、 L P F 5が生 成した信号を記録媒体に書き込む記録媒体ドライブ装置を備えていて もよい。
なお、 同一の記録媒体ドライブ装置が、 記録媒体からの波形信号を 読み出す機能と L P F 5が生成した信号を記録媒体に書き込む機能と を両方行うようにしてもよい。
なお、 入力端 I N— A又は I N— Bに供給される波形信号は、 無音 状態を表すものであっても差し支えない。 有音状態を表す波形信号と 無音状態を表す波形信号とが結合されることにより、 有音状態を表す 信号の端を含む部分(具体的には、 たとえば、音声の始まりや終わり、 あるいは息継ぎ部分など) がノイズを発生することが避けられ、 また この部分が自然な音声として聞こえるものとなる。
また、 この発明の音声合成装置においては必ずしもフ一リェ変換部 2 A及び 2 Bを必要とせず、 その代わりに、 例えば入力端 I N— A及 び I N— Bに供給される波形信号の候補を識別する識別データとこの 候補のスぺク トルの上限の周波数を示す周波数データとを互いに対応 付けて格納記憶するテーブルを備える手法が考えられる。
この手法の場合、 入力端 I N— A及び I N— Bに供給された波形信 号を識別する識別デ一夕を別途外部より取得し、 その取得した識別デ 一夕に対応付けられた周波数デー夕をテーブルから読み出してフィル 夕特性決定部 4に供給し、 フィルタ特性決定部 4は、 その周波数デ一 夕が示す周波数のうち高い方の値を、 L P F 5のカツ トオフ周波数と 決定する。
また、 第 5図に示すように、 この音声合成装置は、 フ一リエ変換部 2 A及び 2 Bに代えてハイパスフィルタ (H P F ) 6 A及び 6 Bを備 えていてもよい。
H P F 6 A及び 6 Bは、 互いに実質的に同一の構成を有しており、 それぞれ、 たとえば I I R (Infinite Inpulse Response) 型のディジ タルフィルタ等より構成されている。
H P F 6 Aは入力端 I N— Aに接続されており、 H P F 6 Bは入力 端 I N— Bに接続されていて、 H P F 6 A及び遅延部 1 Aには、 入力 端 I N— Aから同一の信号が実質的に同時に供給され、 H P F 6 B及 び遅延部 1 Bには、 入力端 I N— Bから同一の信号が実質的に同時に 供給される。
H P F 6 Aは、入力端 I N— Aより波形を表す信号を供給されると、 この信号のうち所定の力ッ トオフ周波数以下の成分を実質的に遮断し、 他の成分フィルタ特性決定部 4へと供給する。 HP F 6 Bは、 入力端 I N— Bより供給された信号のうち所定のカツ トオフ周波数以下の成 分を実質的に遮断し、 他の成分フィルタ特性决定部 4へと供給する。 なお、 H P F 6 A及び 6 Bのカッ トオフ周波数は、 互いに実質的に等 しいものとする。
この音声合成装置がフーリェ変換部 2 A及び 2 Bに代えて HP F 6 A及び 6 Bを備えている場合、 フィルタ特性決定部 4は、 HP F 6 A 及び 6 Bよりそれぞれ供給された波形信号の成分に基づいて (具体的 には、 たとえば HP F 6 Aが供給した成分の平均振幅レベル及び HP F 6 Bが供給した成分の平均振幅レベルのうち大きい方の値に基づい て)、 L P F 5のカットオフ周波数を決定するものとする。
この音声合成装置がフーリエ変換部 2 A及び 2 Bに代えて HP F 6 A及び 6 Bを備えていれば、 複雑なフーリェ変換の処理が省略される ので、 この音声合成装置の処理をより高速にすることが可能になる。 以上、 この発明の実施の形態を説明したが、 この発明にかかる信号 結合装置は、 専用のシステムによらず、 通常のコンピュータシステム を用いて実現可能である。
例えば、 パーソナルコンピュータに上述の遅延部 1 A (又は HP F 6 A)、 遅延部 I B (又は) HP F 6 B、 フーリエ変換部 2 A、 フーリ ェ変換部 2 B、 加算部 3、 フィルタ特性決定部 4及び L P F 5の動作 を実行させるためのプログラムを格納した媒体(C D - ROM, MO, フレキシブルディスク等) から該プログラムをインストールすること により、上述の処理を実行する音声合成装置を構成することができる。 また、 例えば、 通信回線の掲示板 (B B S) に当該プログラムを掲 示し、 これを通信回線を介して配信してもよく、 また、 当該プログラ ムを表す信号により搬送波を変調し、 得られた変調波を伝送し、 この 変調波を受信した装置が変調波を復調して当該プログラムを復元する ようにしてもよい。
そして、 当該プログラムを起動し、 O Sの制御下に、 他のアプリケ
—ションプログラムと同様に実行することにより、 上述の処理を実行 することができる。
なお、 0 Sが処理の一部を分担する場合、 ある は、 O Sが本願発 明の 1つの構成要素の一部を構成するような場合には、記録媒体には、 その部分を除いたプログラムを格納してもよい。 この場合も、 この発 明では、 その記録媒体には、 コンピュータが実行する各機能又はステ ップを実行するためのプログラムが格納されているものとする。
産業上の利用可能性
本発明は、 上述のような構成を採用するため、 音声波形信号の結合 部分が不連続に変化することにより発生する高調波成分が効果的に除 去されることとなる。 このため、 合成音声信号のノイズ感が著しく低 減され、 極めて自然な合成音声が生成できる。

Claims

請求の範囲
1 . 複数の波形信号を結合して、 合成波形信号を生成するための信 号結合方法であって、
該複数の波形信号を所定の順序で相互に結合するステップと、 該結合ざれた複数の波形信号の各結合部分を含む所定の時間期間だ け、 該結合された複数の波形信号をフィル夕リングするステップとを 含むことを特徴とする信号結合方法。
2 . 請求項 1に記載の信号結合方法において、
該所定の時間期間が、 各波形信号の時間長の 1 / 1 0以下である信 号結合方法。
3 . 複数の波形信号を結合して、 合成波形信号を生成するための信 号結合方法であって、
該複数の波形信号を所定の順序で相互に結合するステップと、 該複数の波形信号の各々の周波数スぺク トルの上限周波数を決定す るステップと、
該決定された上限周波数に基づいた所定のフィル夕特性にて、 各波 形信号の少なくとも結合部分をフィルタリングするステップとを含む ことを特徴とする信号結合方法。
4 . 請求項 3に記載の信号結合方法において、
該フィルタリングが、 ローパスフィルタリングであり、 そして該所 定のフィル夕特性が、 該ローパスフィルタリングの力ッ トオフ周波数 である信号結合方法。
5 . 請求項 4に記載の信号結合方法において、
該ロ一パスフィルタリングのカツ トオフ周波数が、 該結合部分の前 後 2つの波形信号のそれぞれのスぺク トル上限周波数のうち高い方の 上限周波数に設定されるものである方法。
6 . 請求項 3又は 4に記載の信号結合方法において、
該各波形信号の周波数スぺクトルの上限周波数が、 フーリエ変換に よるスぺクトル分析により求められる信号結合方法。
7 . 請求項 3又は 4に記載の信号結合方法において、
該各波形信号の周波数スぺクトルの上限周波数が、 結合された波形 信号をハイパスフィルタリングして得られる信号の平均振幅レベルに 基づいて求められる信号結合方法。
8 . 複数の入力波形信号を互いに結合して合成波形信号を生成し、 該合成波形信号内で互いに隣接する一対の波形信号のスぺク トルの 上限の周波数に基づいて、 フィルタリング帯域幅を決定し、
該出力波形信号のうち、 該一対の波形信号の結合部分を、 該決定さ れた帯域幅にてフィルタリングする、 各信号処理ステップを含むこと を特徴とする信号結合方法。
9 . 複数の波形信号を結合して、 合成波形信号を生成する信号結合 装置であって、
該複数の波形信号を所定の順序で相互に結合する手段と、
該結合された複数の波形信号の各結合部分を含む所定の時間期間だ け、 該結合された複数の波形信号をろ波するフィル夕とを含むことを 特徴とする信号結合装置。
1 0 . 請求項 9に記載の信号結合装置において、
該所定の時間期間が、 各波形信号の時間長の 1 / 1 0以下である信 号結合装置。
1 1 . 複数の波形信号を互いに結合して、 合成波形信号を生成するた めの信号結合装置であって、
該複数の波形信号を所定の順序で相互に結合する手段と、
該複数の波形信号の各々の周波数スぺクトルの上限周波数を決定す る手段と、
該決定された上限周波数に基づいた所定のフィルタ特性にて、 各波 形信号の少なくとも結合部分をろ波するフィルタとを含むことを特徴 とする信号結合装置。
1 2 . 請求項 1 1に記載の信号結合装置において、 該フィル夕が、 口一パスフィル夕であり、 そして該所定のフィルタ 特性が、 該ロ一パスフィルタリングのカツ トオフ周波数である信号結 合装置。
1 3 . 請求項 1 2に記載の信号結合方法において、
該ローパスフィルタリングのカツ 卜オフ周波数が、 該結合部分の前 後 2つの波形信号の'それぞれのスぺク トル上限周波数のうち高い方の 上限周波数に設定されるものである信号結合装置。 ·
1 4 . 請求項 1 1又は 1 2に記載の信号結合装置において、
該上限周波数を決定する手段が、 フーリエ変換によるスぺク トル分 析器を含む信号結合装置。
1 5 . 請求項 1 1又は 1 2に記載の信号結合装置において、
該上限周波数を決定する手段が、 ハイパスフィル夕を含む信号結合
1 6 . 複数の入力波形信号を互いに結合して合成波形信号を生成する 結合手段と、
該合成波形信号内で互いに隣接する一対の波形信号のスぺク トルの 上限の周波数に基づいて、 フィル夕リング帯域幅を決定する帯域幅決 定手段と、
該出力信号のうち、 該一対の波形信号の結合部分を、 該帯域幅決定 手段により決定された帯域幅にてフィルタリングするフィルタリング 手段とを含むことを特徴とする信号結合装置。
1 7 . 請求項 1 6に記載の信号結合装置において、
該帯域幅決定手段が、 該一対の波形信号の各々をフーリェ変換する 手段を含み、 フーリエ変換の結果に基づいて、 当該一対の波形信号の スぺクトルの上限の周波数を特定するように動作する信号結合装置。
1 8 . 請求項 1 6に記載の信号結合装置において、
該帯域幅決定手段が、 該一対の波形信号の各々の高周波信号をろ波 するハイパスフィルタを含み、 ハイパスフィル夕の出力の平均振幅レ ベルに基づいて、 当該一対の波形信号のスぺクトルの上限周波数を特 定するように動作する信号結合装置。
1 9 . 請求項 1 6に記載の信号結合装置において、
帯域幅決定手段が、 入力波形信号となり得る複数の候補のスぺクト ルの上限の周波数を候補別に示すテーブルを記憶するテーブル記憶手 段を備え、
帯域幅決定手段は、 該一対の波形信号を識別する識別データを外部 より取得して、 取得された識別データにより識別されるそれぞれの波 形信号のスぺク トルの上限の周波数を該テーブルから読み出し、 読み 出された各周波数のうちの最高値を、 当該一対の波形信号のスぺクト ルの上限の周波数として特定するようになっている信号結合装置。
2 0 . コンピュータを、
複数の入力波形信号を互いに結合して合成波形信号を生成する結合 手段、
前記合成波形信号内で互いに隣接する一対の波形信号のスぺク トル の上限の周波数に基づいて、 フィルタリング帯域幅を決定する帯域幅 決定手段、 並びに
該出力波形信号のうち、 前記該一対の波形信号の結合部分を、 該帯 域幅決定手段により決定された帯域幅にてフィルタリングするフィル 夕リング手段、
として機能させるためのプログラム。
PCT/JP2002/006479 2001-07-02 2002-06-27 Procede et appareil de couplage de signaux WO2003005342A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE0001403851T DE02738817T1 (de) 2001-07-02 2002-06-27 Signalkoppelverfahren und -vorrichtung
US10/362,870 US7739112B2 (en) 2001-07-02 2002-06-27 Signal coupling method and apparatus
DE60233658T DE60233658D1 (de) 2001-07-02 2002-06-27 Konkatenation von Sprachsignalen
EP02738817A EP1403851B1 (en) 2001-07-02 2002-06-27 Concatenation of voice signals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001201408A JP3901475B2 (ja) 2001-07-02 2001-07-02 信号結合装置、信号結合方法及びプログラム
JP2001-201408 2001-07-02

Publications (1)

Publication Number Publication Date
WO2003005342A1 true WO2003005342A1 (fr) 2003-01-16

Family

ID=19038376

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/006479 WO2003005342A1 (fr) 2001-07-02 2002-06-27 Procede et appareil de couplage de signaux

Country Status (5)

Country Link
US (1) US7739112B2 (ja)
EP (1) EP1403851B1 (ja)
JP (1) JP3901475B2 (ja)
DE (2) DE02738817T1 (ja)
WO (1) WO2003005342A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7440902B2 (en) * 2002-04-12 2008-10-21 International Business Machines Corporation Service development tool and capabilities for facilitating management of service elements
US7533026B2 (en) * 2002-04-12 2009-05-12 International Business Machines Corporation Facilitating management of service elements usable in providing information technology service offerings
US7562022B2 (en) * 2002-04-12 2009-07-14 International Business Machines Corporation Packaging and distributing service elements
JP4396646B2 (ja) * 2006-02-07 2010-01-13 ヤマハ株式会社 応答波形合成方法、応答波形合成装置、音響設計支援装置および音響設計支援プログラム
JP4973492B2 (ja) * 2007-01-30 2012-07-11 株式会社Jvcケンウッド 再生装置、再生方法及び再生プログラム
JP4470122B2 (ja) * 2007-06-18 2010-06-02 株式会社アクセル 音声符号化装置、音声復号化装置、音声符号化プログラムおよび音声復号化プログラム
US20090167947A1 (en) * 2007-12-27 2009-07-02 Naoko Satoh Video data processor and data bus management method thereof

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62139599A (ja) * 1985-12-13 1987-06-23 松下電工株式会社 音声合成装置
JPH05273998A (ja) * 1992-03-30 1993-10-22 Toshiba Corp 音声符号化装置
JPH0772897A (ja) * 1993-09-01 1995-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法および装置
JPH08335095A (ja) * 1995-06-02 1996-12-17 Matsushita Electric Ind Co Ltd 音声波形接続方法
JPH10207455A (ja) * 1996-11-20 1998-08-07 Yamaha Corp 音信号分析装置及び方法
JPH11352996A (ja) * 1998-06-10 1999-12-24 Nec Corp 音声規則合成装置
JP2000172285A (ja) * 1998-11-25 2000-06-23 Matsushita Electric Ind Co Ltd フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ
JP2000310994A (ja) * 1999-04-27 2000-11-07 Ntt Data Corp 音声素片作成装置、音声合成装置、音声素片作成方法、音声合成方法及び記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3678416A (en) * 1971-07-26 1972-07-18 Richard S Burwen Dynamic noise filter having means for varying cutoff point
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5463715A (en) * 1992-12-30 1995-10-31 Innovation Technologies Method and apparatus for speech generation from phonetic codes
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62139599A (ja) * 1985-12-13 1987-06-23 松下電工株式会社 音声合成装置
JPH05273998A (ja) * 1992-03-30 1993-10-22 Toshiba Corp 音声符号化装置
JPH0772897A (ja) * 1993-09-01 1995-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法および装置
JPH08335095A (ja) * 1995-06-02 1996-12-17 Matsushita Electric Ind Co Ltd 音声波形接続方法
JPH10207455A (ja) * 1996-11-20 1998-08-07 Yamaha Corp 音信号分析装置及び方法
JPH11352996A (ja) * 1998-06-10 1999-12-24 Nec Corp 音声規則合成装置
JP2000172285A (ja) * 1998-11-25 2000-06-23 Matsushita Electric Ind Co Ltd フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ
JP2000310994A (ja) * 1999-04-27 2000-11-07 Ntt Data Corp 音声素片作成装置、音声合成装置、音声素片作成方法、音声合成方法及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1403851A4 *

Also Published As

Publication number Publication date
DE02738817T1 (de) 2004-08-26
EP1403851A4 (en) 2005-10-26
EP1403851A1 (en) 2004-03-31
US20040015359A1 (en) 2004-01-22
EP1403851B1 (en) 2009-09-09
JP2003015681A (ja) 2003-01-17
JP3901475B2 (ja) 2007-04-04
DE60233658D1 (de) 2009-10-22
US7739112B2 (en) 2010-06-15

Similar Documents

Publication Publication Date Title
EP0910065B1 (en) Speaking speed changing method and device
US20060130637A1 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
JP2008191659A (ja) 音声強調方法及び音声再生システム
JP4254479B2 (ja) オーディオ帯域拡張再生装置
JP3430985B2 (ja) 合成音生成装置
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
WO2003005342A1 (fr) Procede et appareil de couplage de signaux
JP3379348B2 (ja) ピッチ変換器
JP2001255882A (ja) 音声信号処理装置及びその信号処理方法
JP2003157100A (ja) 音声通信方法及び装置、並びに音声通信プログラム
JP2000081897A (ja) 音声情報の記録方法、音声情報記録媒体、並びに音声情報の再生方法及び再生装置
JP4433668B2 (ja) 帯域拡張装置及び方法
EP0421531B1 (en) Device for sound synthesis
JP3515215B2 (ja) 音声符号化装置
JP2650355B2 (ja) 音声分析合成装置
JPH11109993A (ja) 音声素片接続方法及び音声合成装置
JPH10111699A (ja) 音声再生装置
JP2002311980A (ja) 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
JP2005062442A (ja) 波形接続装置、波形接続方法及びプログラム
JP2000099094A (ja) 時系列信号処理装置
JP3927617B2 (ja) ゲーム用音源装置
JP5899865B2 (ja) 音響信号加工装置及びプログラム
JPH02247700A (ja) 音声合成装置
JP2000242287A (ja) 発声補助装置およびプログラム記録媒体
JPS59168494A (ja) 音声合成方式

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AU CA CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002738817

Country of ref document: EP

Ref document number: 10362870

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2002738817

Country of ref document: EP