JP2008015361A - Voice synthesizer, voice synthesizing method, and program for attaining the voice synthesizing method - Google Patents
Voice synthesizer, voice synthesizing method, and program for attaining the voice synthesizing method Download PDFInfo
- Publication number
- JP2008015361A JP2008015361A JP2006188405A JP2006188405A JP2008015361A JP 2008015361 A JP2008015361 A JP 2008015361A JP 2006188405 A JP2006188405 A JP 2006188405A JP 2006188405 A JP2006188405 A JP 2006188405A JP 2008015361 A JP2008015361 A JP 2008015361A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- information
- speech
- energy information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声を合成する技術に関する。より特定的には、本発明は、音声を合成して出力するための音声合成装置、音声合成方法および音声合成方法を実現するためのプログラムに関する。 The present invention relates to a technique for synthesizing speech. More specifically, the present invention relates to a speech synthesizer for synthesizing and outputting speech, a speech synthesis method, and a program for realizing the speech synthesis method.
音声を出力できる装置において、デジタル信号は、データフォーマットで規定された振幅の範囲を超えて表現することはできない。デジタル信号からその範囲を超えるような大きな音量を得るためには、より高い増幅率を有する増幅器、あるいは効率がよいスピーカが使用される。しかしながら、増幅器やスピーカの変更は、当該装置のコストの増加をもたらす。 In a device capable of outputting sound, a digital signal cannot be expressed beyond the amplitude range defined by the data format. In order to obtain a loud volume exceeding the range from a digital signal, an amplifier having a higher amplification factor or an efficient speaker is used. However, changing the amplifier or speaker increases the cost of the device.
また、文字情報を用いて音声を合成する、いわゆるテキスト音声合成あるいは音声復号化においても、出力されるデジタル信号が規定の範囲を超えると、音が急激に歪むという問題もある。この場合、歪みを生じさせないためにボリュームを小さくすると、出力レベルが小さな合成音声が出力された時に、聴こえないという問題も生じ得る。 Also, in so-called text-to-speech synthesis or speech decoding, which synthesizes speech using character information, there is a problem that the sound is rapidly distorted if the output digital signal exceeds a specified range. In this case, if the volume is reduced in order not to cause distortion, there may be a problem that when a synthesized speech with a low output level is output, it cannot be heard.
そこで、たとえば特開2001−109500号公報(特許文献1)は、音声の自然性を損なうことのない少ないピッチ処理技術を開示している。
さらに、音の歪みを補正するために、たとえば録音器材としてのコンプレッサにおいて、入力波形の短時間におけるエネルギーの平均値を用いて増幅率を逐次調整することで出力音量を一定にする技術が知られている。しかしながら、この技術をリアルタイムで行なうためには、応答特性の調整が困難であり、当該平均値を求める処理が無駄になるおそれもある。 Furthermore, in order to correct sound distortion, for example, in a compressor as a recording device, a technique for making the output volume constant by sequentially adjusting the amplification factor using the average value of energy in a short time of the input waveform is known. ing. However, in order to perform this technique in real time, it is difficult to adjust the response characteristics, and there is a possibility that processing for obtaining the average value is wasted.
本発明は、上述の問題点を解決するためになされたものであって、その目的は、出力される音声の歪みを防止できる音声合成装置を提供することである。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech synthesizer that can prevent distortion of output speech.
他の目的は、出力される音声の歪みを防止できる音声合成方法を提供することである。
さらに他の目的は、出力される音声の歪みを防止できる音声合成方法をコンピュータに実現させるためのプログラムを提供することである。
Another object is to provide a speech synthesis method that can prevent distortion of output speech.
Still another object is to provide a program for causing a computer to implement a speech synthesis method that can prevent distortion of output speech.
上記の課題を解決するために、この発明のある局面に従うと、音声を合成して出力する音声合成装置が提供される。この音声合成装置は、出力される音声を生成するためのデータと、出力される音声の音量を指定するための指定情報とを取得する取得手段と、音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各部分の各々のエネルギー情報と、各エネルギー情報を補正するための補正データとを格納する記憶手段と、各エネルギー情報を、指定情報に応じたエネルギー情報にそれぞれ変更する変更手段と、補正データに基づいて、変更手段による変更後の各エネルギー情報を補正する補正手段と、各波形情報に基づいて、出力される音声の各波形を復号する復号化手段と、補正後の各エネルギー情報に基づいて、復号化手段によって復号された各波形を増幅する増幅手段と、増幅手段によって増幅された各波形に基づいて、音声を出力する出力手段とを備える。 In order to solve the above problems, according to one aspect of the present invention, a speech synthesizer that synthesizes and outputs speech is provided. The speech synthesizer includes an acquisition unit that acquires data for generating output sound and designation information for specifying the volume of the output sound, and each of the sounds divided in predetermined units. Each waveform information for generating the waveform of the part, each energy information of each part, correction data for correcting each energy information, and each energy information according to the designation information Changing means for changing to each energy information, correcting means for correcting each energy information changed by the changing means based on the correction data, and decoding for decoding each waveform of the output sound based on each waveform information Based on the energy information after correction, amplification means for amplifying each waveform decoded by the decoding means, and based on each waveform amplified by the amplification means And output means for outputting sound.
好ましくは、補正手段は、エネルギー情報について予め規定された上限値に漸近するように、変更手段によって変更されたエネルギー情報を補正する。 Preferably, the correcting unit corrects the energy information changed by the changing unit so as to approach an upper limit value defined in advance for the energy information.
好ましくは、補正手段は、エネルギー情報を非線形に補正する。
好ましくは、補正手段は、エネルギー情報を連続的に補正する。
Preferably, the correction unit corrects the energy information nonlinearly.
Preferably, the correcting unit continuously corrects the energy information.
好ましくは、補正データは、補正前のエネルギー情報と、補正前のエネルギー情報の補正後のエネルギー情報とを含む。 Preferably, the correction data includes energy information before correction and energy information after correction of energy information before correction.
好ましくは、出力手段は、増幅手段によって増幅された各波形を接続して合成波形を生成する波形接続手段と、合成波形に基づいて音声を出力する音声出力手段とを含む。 Preferably, the output means includes waveform connecting means for connecting the waveforms amplified by the amplifying means to generate a synthesized waveform, and audio output means for outputting sound based on the synthesized waveform.
好ましくは、出力手段は、波形接続手段から出力される合成波形を、予め規定された上限値に漸近するように調整する波形飽和手段をさらに含む。音声出力手段は、波形飽和手段による調整後の合成波形に基づいて音声を出力する。 Preferably, the output unit further includes a waveform saturation unit that adjusts the combined waveform output from the waveform connection unit so as to gradually approach a predetermined upper limit value. The voice output means outputs a voice based on the synthesized waveform adjusted by the waveform saturation means.
好ましくは、音声合成装置は、着脱可能な記録媒体が装着されて、記録媒体を駆動する駆動手段をさらに備える。記録媒体は音声データと、音声データに関連付けられた指定情報とを格納している。取得手段は、駆動手段に装着された記録媒体から、音声データと指定情報とを読み出す読出手段を含む。 Preferably, the speech synthesizer further includes a driving unit that is mounted with a removable recording medium and drives the recording medium. The recording medium stores audio data and designation information associated with the audio data. The acquisition unit includes a reading unit that reads out audio data and designation information from a recording medium attached to the driving unit.
好ましくは、取得手段は、文字情報が含まれる信号を受信する受信手段と、指定情報の入力を受け付ける入力手段とを含む。 Preferably, the acquisition unit includes a reception unit that receives a signal including character information and an input unit that receives an input of designation information.
好ましくは、取得手段は、発話を受けて発話に応じた音声信号を出力するマイクと、音声信号を解析して発話に応じた波形情報を出力する波形情報分析手段と、発話に応じたエネルギー情報を含む韻律情報を出力する韻律分析手段とを含む。 Preferably, the acquisition means includes a microphone that receives an utterance and outputs an audio signal corresponding to the utterance, a waveform information analysis means that analyzes the audio signal and outputs waveform information corresponding to the utterance, and energy information corresponding to the utterance Prosodic analysis means for outputting prosodic information including.
この発明の他の局面に従う音声合成装置は、音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各部分の各々のエネルギー情報と、各エネルギー情報を補正するための補正データと、プログラムを格納するメモリと、プログラムから複数の命令を受信するプロセッサとを備える。各命令は、出力される音声を生成するためのデータと、出力される音声の音量を指定するための指定情報とを取得する取得ステップと、各エネルギー情報を、指定情報に応じたエネルギー情報にそれぞれ変更する変更ステップと、補正データに基づいて、変更手段による変更後の各エネルギー情報を補正する補正ステップと、各波形情報に基づいて、出力される音声の各波形を復号する復号化ステップと、補正後の各エネルギー情報に基づいて、復号化手段によって復号された各波形を増幅する増幅ステップとを含む。音声合成装置は、増幅された各波形に基づいて音声を出力する出力部をさらに備える。 A speech synthesizer according to another aspect of the present invention corrects each waveform information for generating a waveform of each part obtained by dividing speech in a predetermined unit, each energy information of each part, and each energy information Correction data, a memory for storing a program, and a processor for receiving a plurality of instructions from the program. Each command includes an acquisition step for acquiring data for generating output sound and specification information for specifying the volume of the output sound, and converting each energy information into energy information according to the specification information. A change step for changing each, a correction step for correcting each energy information after the change by the changing means based on the correction data, and a decoding step for decoding each waveform of the output speech based on each waveform information; And an amplification step for amplifying each waveform decoded by the decoding means based on each energy information after correction. The speech synthesizer further includes an output unit that outputs speech based on each amplified waveform.
好ましくは、補正ステップは、エネルギー情報について予め規定された上限値に漸近するように、変更ステップによって変更されたエネルギー情報を補正する。 Preferably, the correcting step corrects the energy information changed by the changing step so as to approach an upper limit value defined in advance for the energy information.
好ましくは、補正ステップは、エネルギー情報を非線形に補正する。
好ましくは、補正ステップは、エネルギー情報を連続的に補正する。
Preferably, the correcting step corrects the energy information nonlinearly.
Preferably, the correcting step continuously corrects the energy information.
好ましくは、補正データは、補正前のエネルギー情報と、補正前のエネルギー情報の補正後のエネルギー情報とを含む。 Preferably, the correction data includes energy information before correction and energy information after correction of energy information before correction.
好ましくは、命令は、増幅ステップによって増幅された各波形を接続して合成波形を生成する波形接続ステップをさらに含む。出力部は、合成波形に基づいて音声を出力する。 Preferably, the instruction further includes a waveform connection step of connecting the waveforms amplified by the amplification step to generate a composite waveform. The output unit outputs sound based on the synthesized waveform.
好ましくは、命令は、波形接続ステップにおいて生成された合成波形を、予め規定された上限値に漸近するように調整する波形飽和ステップをさらに含む。出力部は、波形飽和ステップにおける調整後の合成波形に基づいて音声を出力する。 Preferably, the instruction further includes a waveform saturation step for adjusting the composite waveform generated in the waveform connection step so as to approach the predetermined upper limit value. The output unit outputs sound based on the synthesized waveform after adjustment in the waveform saturation step.
好ましくは、音声合成装置は、着脱可能な記録媒体が装着されて、記録媒体を駆動する駆動装置をさらに備える。記録媒体は音声データと、音声データに関連付けられた指定情報とを格納している。取得ステップは、駆動ステップに装着された記録媒体から、音声データと指定情報とを読み出す読出ステップを含む。 Preferably, the speech synthesizer further includes a drive device that is mounted with a removable recording medium and drives the recording medium. The recording medium stores audio data and designation information associated with the audio data. The acquisition step includes a reading step of reading out audio data and designation information from the recording medium attached to the driving step.
好ましくは、取得ステップは、文字情報が含まれる信号を受信する受信ステップと、指定情報の入力を受け付ける入力ステップとを含む。 Preferably, the obtaining step includes a receiving step for receiving a signal including character information and an input step for receiving input of designation information.
好ましくは、音声合成装置は、発話を受けて発話に応じた音声信号を出力するマイクをさらに備える。取得ステップは、音声信号を解析して発話に応じた波形情報を出力するステップと、発話に応じたエネルギー情報を含む韻律情報を出力するステップとを含む。 Preferably, the speech synthesizer further includes a microphone that receives an utterance and outputs an audio signal corresponding to the utterance. The obtaining step includes a step of analyzing the audio signal and outputting waveform information corresponding to the utterance, and a step of outputting prosodic information including energy information corresponding to the utterance.
この発明の他の局面に従うと、音声を合成して出力する音声合成方法が提供される。この方法は、出力される音声を生成するためのデータと、出力される音声の音量を指定するための指定情報とを取得するステップと、音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各部分の各々のエネルギー情報と、各エネルギー情報を補正するための補正データとをロードするステップと、各エネルギー情報を、指定情報に応じたエネルギー情報にそれぞれ変更するステップと、補正データに基づいて、変更ステップにおける変更後の各エネルギー情報を補正するステップと、各波形情報に基づいて、出力される音声の各波形を復号するステップと、補正後の各エネルギー情報に基づいて、復号化ステップによって復号された各波形を増幅するステップと、増幅ステップによって増幅された各波形に基づいて、音声を出力するステップとを備える。 According to another aspect of the present invention, a speech synthesis method for synthesizing and outputting speech is provided. In this method, a step of obtaining data for generating output sound and designation information for designating a volume of the output sound, and a waveform of each part obtained by dividing the sound into predetermined units Loading each waveform information for generating each energy information of each part, correction data for correcting each energy information, and each energy information into energy information according to the specified information, respectively A step of changing, a step of correcting each energy information after the change in the change step based on the correction data, a step of decoding each waveform of the sound to be output based on each waveform information, and each after the correction Based on the energy information, a step of amplifying each waveform decoded by the decoding step, and a step based on each waveform amplified by the amplification step. There are, and a step of outputting speech.
この発明のさらに他の局面に従うと、メモリとプロセッサとを備えるコンピュータに音声合成方法を実現させるためのプログラムが提供される。音声合成方法は、プロセッサが、メモリから、出力される音声を生成するためのデータと、出力される音声の音量を指定するための指定情報とを取得するステップと、プロセッサが、メモリから、音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各部分の各々のエネルギー情報と、各エネルギー情報を補正するための補正データとを読み出すステップと、プロセッサが、各エネルギー情報を、指定情報に応じたエネルギー情報にそれぞれ変更するステップと、プロセッサが、補正データに基づいて、変更後の各エネルギー情報を補正する補正ステップと、プロセッサが、各波形情報に基づいて、出力される音声の各波形を復号するステップと、プロセッサが、補正後の各エネルギー情報に基づいて、復号化ステップによって復号された各波形を増幅するステップと、プロセッサが、増幅された各波形に基づいて、音声信号を出力するステップとを含む。 When further another situation of this invention is followed, the program for making a computer provided with memory and a processor implement | achieve the speech synthesis method is provided. In the speech synthesis method, the processor obtains data for generating output speech from the memory and designation information for designating the volume of the output speech, and the processor obtains the speech from the memory. A step of reading each waveform information for generating a waveform of each part divided by a predetermined unit, each energy information of each part, and correction data for correcting each energy information; A step of changing each energy information to energy information corresponding to the specified information, a correction step in which the processor corrects each energy information after the change based on the correction data, and a processor based on the waveform information. And decoding each waveform of the output sound, and the processor performs decoding based on each corrected energy information. A step of amplifying each waveform decoded by step, the processor, based on the waveform that is amplified, and outputting the audio signal.
本発明に係る音声合成装置によると、出力される音声の歪みを防止することができる。本発明に係る音声合成方法によると、出力される音声の歪みを防止して音声を出力することができる。本発明に係るプログラムによると、コンピュータは、出力される音声の歪みを防止できる音声合成方法を実現することができる。 The speech synthesizer according to the present invention can prevent distortion of output speech. According to the speech synthesis method of the present invention, it is possible to output speech while preventing distortion of the speech that is output. According to the program according to the present invention, the computer can realize a speech synthesis method capable of preventing distortion of output speech.
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.
<第1の実施の形態>
図1を参照して、音声合成装置が備える波形生成装置100について説明する。図1は、従来の波形生成装置100によって実現される機能の構成を表わすブロック図である。波形生成装置100は、波形復号化部110と、増幅部120,130とを備える。
<First Embodiment>
With reference to FIG. 1, the
波形復号化部110は、波形生成装置100に入力される信号を受け付けるように構成される。具体的には、波形復号化部110は、波形情報(スペクトル情報あるいは音源情報)の入力を受け付ける。波形復号化部110は、その波形情報に基づいて短時間の波形を復号化し、その復号化した波形(S[i])を出力する。
The
増幅部120は、波形復号化部110からの出力に基づいて作動するように、波形復号化部110に接続される。具体的には、増幅部120には、波形復号化部110によって出力される波形信号と、波形信号に対応したエネルギー情報(Ep)とが入力される。増幅部120は、エネルギー情報Epを用いて復号化された波形を増幅し、増幅された波形の信号を出力する。
The amplifying
増幅部130は、増幅部120からの出力に基づいて作動するように、増幅部120に接続される。具体的には、増幅部130には、増幅部120によって増幅された波形の信号が入力される。さらに、増幅部130には、波形生成装置100に対して与えられる音量指定情報が入力される。増幅部130は、音量指定情報Evに基づいて増幅部120によって出力された波形を増幅し、音量が調整された波形データとして出力する。
The amplifying
図2を参照して、本発明の第1の実施の形態に係る音声合成装置が備える波形生成装置200について説明する。図2は、本実施の形態に係る波形生成装置200によって実現される機能の構成を表わすブロック図である。波形生成装置200は、主たる構成として、エネルギー変更部210と、エネルギー補正部220と、波形復号化部230と、増幅部240とを備える。音声合成装置は、具体的には、コンピュータシステム、携帯電話、ゲーム装置その他の少なくとも音声出力装置を備える情報処理装置等によって実現される。なお、以下の説明において、音声の合成には、少なくとも、予め作成された音声データを加工する処理と、マイクに対する発話によって取得された音声信号に基づくデジタルデータを下降する処理と、入力された文字列あるいは受信された信号に含まれる文字情報に基づいて音声を合成する処理とが含まれる。
With reference to FIG. 2, a
エネルギー変更部210は、音量指定情報Evと、エネルギー情報Epとの入力を受け付ける。音量指定情報Evは、波形生成装置200の外部から与えられる。たとえば、音量指定情報Evは、波形生成装置200を備える音声合成装置に対する音量指定情報の入力(たとえば、音量ボタンの操作、音量を規定するレベルの設定等)として与えられる。あるいは、音量指定情報Evは、当該音声合成装置が備えるメモリに予め書き込まれている。さらに、他の局面において、音声合成装置が音声データの入力を受け付ける場合には、音量指定情報は、当該音声データに関連付けられている。エネルギー変更部210は、エネルギー情報Epを音量指定情報Evに応じたエネルギー情報に変更し、出力する。
The
エネルギー補正部220は、エネルギー変更部210からの出力に基づいて作動するように、エネルギー変更部210に接続される。より具体的には、エネルギー補正部220は、エネルギー変更部210によって変更されたエネルギー情報Eの入力を受け付ける。エネルギー補正部220は、予め準備された補正データに基づいてエネルギー情報Eを補正する。
The
好ましくは、エネルギー補正部220は、補正後のエネルギー情報について予め規定された上限値に漸近するように、エネルギー変更部210によって変更されたエネルギー情報Eを補正する。このような補正は、たとえば、補正前のエネルギーEと、当該エネルギーEの補正後の値f(E)との間で予め規定された関係に従って行なわれる。
Preferably, the
また、他の局面においては、エネルギー補正部220は、エネルギー情報Eを非線形に補正する。ここで、非線形とは、たとえば、後述するように補正前のエネルギー情報と補正後のエネルギー情報との関係が非線形の関数によって規定される場合における非線形をいう。非線形の関係は、たとえば、補正前後のエネルギーの関係が2次以上の関数として、あるいは指数関数として表わされる。なお、補正前のエネルギーEについて全ての範囲が非線形で補正されなくてもよい。たとえば、補正前のエネルギーの一部の範囲に、比例関係が含まれていてもよい。
In another aspect,
また、他の局面においては、エネルギー補正部220は、補正前のエネルギー情報と補正後のエネルギー情報との対応関係を予め規定したテーブルに基づいてエネルギー情報Eを補正してもよい。当該テーブルは、たとえばある範囲のエネルギー情報に対して適用される補正係数の配列として規定される。
In another aspect, the
さらに他の局面においては、エネルギー補正部220は、処理の対象となるフレームごとのエネルギー情報の補正を行なう。また、たとえばPSOLA(Pitch Synchronous OverLap Add)方式の音声合成では、各フレーム内に加算すべき1ピッチ波形の振幅(エネルギー)を、エネルギー補正部220で補正した後に、ピッチ間隔ずつ時間をずらして加算し、当該フレームの波形が生成されてもよい。
In still another aspect, the
波形復号化部230は、波形生成装置200に対するデータの入力を受け付けるように構成される。具体的には、波形復号化部230には、予め規定された区間(たとえば数ミリ秒から数十ミリ秒)ごとの波形情報が入力される。波形情報は、スペクトル情報と音源情報とを含む。波形復号化部230は、当該波形情報から予め規定された時間単位の波形を復号化し、出力する。
The
増幅部240は、エネルギー補正部220からの出力と波形復号化部230からの出力とに基づいて作動するように、エネルギー補正部220と波形復号化部230とに接続される。具体的には、増幅部240には、エネルギー補正部220によって生成された補正後のエネルギー情報f(E)と、波形復号化部230によって復号化された波形S[i]とが、増幅部240に入力される。増幅部240は、補正後のエネルギー情報f(E)に基づいて復号化により生成された波形S[i]を増幅して出力する。増幅部240によって出力されるデータは、音量が調整された波形データとして、たとえばデジタルアナログ変換回路(図示しない)に入力される。
The
図3を参照して、エネルギー情報の補正について説明する。ここでのエネルギー情報は、短時間毎の音声波形の持つエネルギーであり、たとえば、波形値の2乗の総和や、それをサンプル数で割ったサンプルあたりの振幅の2乗の平均、さらには、その2乗根を求めた、サンプルあたりの振幅の平均などを表わす。図3は、補正前のエネルギー情報Eと補正後のエネルギー情報f(E)との関係を表わす図である。ここで、補正後のエネルギー情報f(E)の値に関し、エネルギー情報Y(1)は、再生される音声に歪みを生じさせないためのエネルギー情報についての上限値である。エネルギー情報Y(2)は、補正前後のエネルギー情報が取り得る最大の値である。この場合、値Y(1)〜値Y(2)の範囲においては、再生される音声が歪みを生じることがある。 The correction of energy information will be described with reference to FIG. The energy information here is the energy of the speech waveform for each short time. For example, the sum of the squares of the waveform values, the average of the square of the amplitude per sample divided by the number of samples, The average of the amplitude per sample for which the square root is obtained is represented. FIG. 3 is a diagram showing the relationship between energy information E before correction and energy information f (E) after correction. Here, regarding the value of the corrected energy information f (E), the energy information Y (1) is an upper limit value for energy information for preventing distortion in the reproduced sound. The energy information Y (2) is the maximum value that the energy information before and after correction can take. In this case, the reproduced sound may be distorted within the range of the value Y (1) to the value Y (2).
エネルギー情報Eの補正は、当該関係を規定する関数(たとえば非線形の関数310あるいは折れ線の関数320)によって補正される。非線形の関数310あるいは折れ線の関数320を規定するデータは、たとえば、エネルギー補正部220が有するメモリ領域に予め格納されている。エネルギー補正部220は、いずれかの関数を用いてエネルギー変更部210によって出力されたエネルギー情報Eを補正する。
The energy information E is corrected by a function that defines the relationship (for example, the
なお、エネルギー情報Eを補正するための関数は、図3に示されるものに限られない。少なくとも、補正後のエネルギー情報f(E)の値が、上限値Y(1)を超えない関数であればよい。 Note that the function for correcting the energy information E is not limited to that shown in FIG. It is sufficient that the value of the energy information f (E) after correction does not exceed the upper limit value Y (1).
エネルギー情報Eの補正を実現するための方法として、先に示したように、エネルギー情報そのものを補正する方法以外に、エネルギー情報から増幅率へ変換する時点で補正した増幅率を求める方法でもよい。 As a method for realizing the correction of the energy information E, as described above, in addition to the method of correcting the energy information itself, a method of obtaining the corrected amplification factor at the time of conversion from the energy information to the amplification factor may be used.
図4を参照して、波形の増幅について説明する。図4は、エネルギー情報と増幅率との関係を表わす図である。当該関係は、たとえば指数関数410として、あるいは指数関数と線形関係を有する関数420とのいずれかによって表わされる。
Waveform amplification will be described with reference to FIG. FIG. 4 is a diagram illustrating the relationship between energy information and amplification factor. This relationship is represented, for example, either as an
図4において、たとえば、エネルギー情報E(1)を上回る範囲では、関数420は、指数関数410よりも低い増幅率を与えるように規定されている。したがって、エネルギー情報E(1)を超える範囲では、波形の増幅が抑制される。すなわち、増幅部240は、エネルギー情報E(1)を上回る補正後のエネルギー情報が入力された場合には、波形復号化部230から出力される波形S[i]の増幅の程度を抑制して出力する。このようにすると、増幅部240から出力される音量調整波形データを用いて音声処理を実行するスピーカに対して、そのスピーカの処理能力に応じた信号を出力することができる。その結果、当該スピーカは、音の歪を発生することなく音声を出力することができる。
In FIG. 4, for example, in a range exceeding the energy information E (1), the
図5を参照して、本実施の形態に係る波形生成装置200において適用される波形生成アルゴリズムについて説明する。図5は、波形生成装置200の各部が実行する動作を表わすフローチャートである。
With reference to FIG. 5, a waveform generation algorithm applied in
ステップS510にて、波形生成装置200は、波形情報とエネルギー情報Epとの入力を受け付ける。具体的には、波形復号化部230は、波形情報の入力を受け付ける。エネルギー変更部210は、エネルギー情報Epの入力を受け付ける。ステップS520にて、波形復号化部230は、波形情報を用いて波形(S[i])を復号化する。ステップS530にて、エネルギー変更部210は、音量指定情報のEvに基づいてエネルギー情報Epを変更する(E←E+V)。
In step S510,
ステップS540にて、エネルギー補正部220は、エネルギー変更部210によって変更されたエネルギー情報Eを補正する(E←f(E))。ステップS550にて、増幅部240は、エネルギー補正部220によって生成された補正後のエネルギー情報を波形の増幅率に変換する(G←exp(E))。ステップS560にて、増幅部240は、波形S[i]を増幅率Gを用いて増幅する(S[i]←S[i]×G)。
In step S540, the
以上のようにして、波形生成が実現される。ここで、各動作が実行される順序は、前後の他の動作による依存関係を損なわない範囲で、変更可能である。たとえば、ステップS520とステップS530との順序は、入れ替えられてもよい。係る順序の変更は、たとえば図2に示されるブロック図によっても容易に理解され得る。 As described above, waveform generation is realized. Here, the order in which each operation is executed can be changed as long as the dependency relationship between the other operations is not impaired. For example, the order of step S520 and step S530 may be interchanged. Such a change in order can be easily understood, for example, by the block diagram shown in FIG.
なお、上記の動作は、波形生成装置200に格納されているソフトウェアによる情報処理が、波形生成装置200が備えるハードウェアを用いて実現されるものとして説明されている。具体的には、当該ソフトウェアは、各ステップに示される動作を実現するためのプログラムであり、波形生成装置200が備える記憶装置に格納されている。当該ハードウェアは、波形生成装置200を備える音声合成装置を具体的に実現するCPU(Central Processing Unit)その他の演算処理装置と、上記プログラムを格納した記憶装置とを含む。
Note that the above-described operation is described as information processing by software stored in the
しかしながら、当該波形生成の実現は、ハードウェアとソフトウェアとの組み合わせによってのみ実現されるものではなく、各動作を実現するための回路素子のようなハードウェアのみの組み合わせによっても実現可能である。 However, the waveform generation can be realized not only by a combination of hardware and software, but also by a combination of only hardware such as circuit elements for realizing each operation.
図6を参照して、本実施の形態に係る波形生成の構成を用いた音声合成装置600について説明する。図6は、音声合成装置600の機能的構成を表わすブロック図である。音声合成装置600は、テキスト解析部610と、波形辞書記憶部620と、音量設定部630と、韻律生成部640と、波形データ選択部650と、波形生成部660と、波形重畳部670と、増幅部680とを備える。
A
テキスト解析部610は、テキストデータの入力を受けるように構成される。テキストデータは、音声合成装置600の使用者が文字列を入力することにより音声合成装置600に与えられる。あるいは、音声合成装置600が文字情報を含む信号を受信可能な場合、テキストデータは、音声合成装置600が当該信号を受信して、その信号から文字情報を取得することにより与えられる。
The
テキスト解析部610は、そのようにして与えられたテキストデータ(以下、入力テキスト)を解析し、各単語の読みと、アクセント情報とを出力する。テキスト解析部610は、他の局面においては、品詞情報などを出力する。入力テキストが漢字仮名混じり文である場合には、テキスト解析部610は、言語辞書(図示しない)を用いて、上記の各情報を生成する。あるいは、入力テキストが仮名入力またはアルファベットのような発音記号の入力である場合、テキスト解析部610は、仮名と同時に入力されるアクセント情報を用いて上記の各情報を生成する。たとえば「ホ’ンジツハ/セーテンナ’リ」のように、アクセント位置とアクセント句の境界を指定するテキストとが同時に入力される。
The
波形辞書記憶部620は、音声を合成するために使用される素片データを格納する。ソ辺データは、音声合成装置600の製造者によって予め与えられる。あるいは、音声合成装置600の使用者が素片データを含む波形辞書を入力できる構成であってもよい。波形辞書記憶部620のデータ構造は後述する(図7)。
The waveform
音量設定部630は、テキスト解析部610からの出力に基づいて作動可能なように、テキスト解析部610に接続される。音量設定部630は、音声合成装置600を使用する機器から出力される音量を設定し、設定値を音量指定情報Evとして出力する。ここで音声合成装置600を使用する機器あるいは音声合成装置600として機能する機器は、音声出力機能を有するPC(Personal Computer)、携帯電話その他の情報通信端末あるいはゲーム機器として実現される。音量設定部630は、これらの機器が有する操作部(たとえばキーボード、マウス、数字ボタン、音量調整ダイヤルなど)に対する操作に基づいて出力される音量を規定する。
The
たとえば、音量設定部630が音量調整ダイヤルによって実現される場合には、出力音量は、音声合成装置の使用者によって設定される。音量設定部630は、その設定に応じた信号を音量指定情報Evとして波形生成装置200に送出する。波形生成装置200は、その設定に応じて、全ての区間のエネルギー情報を変更して補正する。
For example, when the
あるいは、当該音量指定情報がこれらの機器に入力されるデータに付随している場合には、音量設定部630は、その付随している情報を用いて音量を設定し、音量指定情報Evを出力する。たとえば、音声合成装置600がゲーム装置として使用される場合、当該ゲーム装置は、ゲームを実現するためのカートリッジを駆動し、映像データと音声データとを読み出す。この場合、音量指定情報が映像データあるいは音声データのいずれかに関連付けられていれば、音量設定部630は、当該カートリッジから取得されたその音量指定情報を用いて、音声合成装置600から出力される音声の音量として設定する。
Alternatively, when the volume designation information is attached to data input to these devices, the
また、さらに他の局面においては、音量指定情報は、上記の機器の使用者による操作によって指定されるものでもよい。たとえば、使用者が音量設定部630を操作した場合に、当該操作に応じて出力される電気信号が、音量指定情報として使用されてもよい。ここで、当該操作は、ダイヤルの回転、ボタンの押下、音量を規定するための設定値の入力等を含む。
In still another aspect, the volume designation information may be designated by an operation by a user of the device. For example, when the user operates the
韻律生成部640は、テキスト解析部610からの出力に基づいて作動可能なように、テキスト解析部610に接続される。韻律生成部640は、アクセント情報あるいは文の境界に基づいて、韻律情報を生成して出力する。韻律情報は、たとえば時間長、ピッチ、エネルギー(パワー)情報などを含む。一般的には、韻律情報は、音素単位に求められ、その後、内挿により各フレーム単位の情報として生成される。
The prosody generation unit 640 is connected to the
波形データ選択部650は、テキスト解析部610からの出力と、波形辞書記憶部620に格納されているデータとに基づいて作動可能なように、テキスト解析部610と波形辞書記憶部620とに接続される。波形データ選択部650は、各単語の読みから設定される発音記号列に従って、波形辞書記憶部620から、各発音記号についての条件に合致する素片データを選択する。波形データ選択部650は、その選択した素片情報から各フレームごとの波形情報(図8)を取得し、出力する。
The waveform
波形生成部660は、音量設定部630からの出力と、韻律生成部640からの出力と、波形データ選択部650からの出力とに基づいて作動可能なように、音量設定部630と韻律設定部640と波形データ選択部650とに接続される。波形生成部660は、図2に示される波形生成装置200に相当し、波形生成装置200によって実現される機能を実現する。
The
具体的には、波形生成部660には、音量指定情報Evと、エネルギー情報Epと、波形情報とが入力される。波形生成部660は、これらの情報を用いて音量が調整された音声を出力するための波形データを生成し出力する。
Specifically, the sound volume designation information Ev, the energy information Ep, and the waveform information are input to the
波形重畳部670は、韻律生成部640からの出力と、波形生成部660からの出力とに基づいて作動するように、韻律生成部640と波形生成部660とに接続される。波形重畳部670は、波形生成部660によって出力されるデータに加えて、韻律生成部640によって出力されるデータの入力を受け付ける。具体的には、波形重畳部670は、波形データと、ピッチ情報と、時間長情報との入力を受け付ける。波形重畳部670は、フレームごとに取り出された波形データを、各フレームに対応するピッチ情報から導かれるサンプル間隔で重畳し、出力する。たとえば、出力される音声が有声音である場合、ピッチの間隔は、当該音声の基本周波数に対応する。また、音声が無声音である場合には、波形データは、固定長のフレーム間隔で重畳される。
The
増幅部680は、波形重畳部670からの出力に基づいて作動可能なように、波形重畳部670に接続される。増幅部680は、波形重畳部670によって生成された波形を増幅し、音声データとして出力する。音声データは、デジタルアナログコンバータによってアナログ信号に変換され、スピーカ(図示しない)に送出される。スピーカはその信号に基づいて音量が調整された音声を出力する。
The amplifying
ここで、音量設定部630からの出力が、増幅部680ではなく、波形生成部660に向けられていることに留意されるべきである。すなわち、従来の構成では、音量指定情報Ev(たとえば音量を調整するための調整値)は、増幅部680に相当する構成に対して入力されていた。このような構成では、音声の歪みを抑制するために音量指定情報Evが使用者によって変更されると、音声信号が出力される段階で増幅率が変更される。そのため、歪の調整が本来不要な音声信号(すなわち、出力レベルがスピーカの規定値を超えないような信号)も一律に調整の対象となり、音量が小さい音声は聞こえにくくなる。
Here, it should be noted that the output from the
しかしながら、本実施の形態に係る音声合成装置600においては、図6からも明らかなように、音量指定情報Evは、波形生成部660に入力される。そのため、歪の発生を抑制するための調整が必要な音声データの調整のみが実現可能となる。その結果、歪の調整が本来不要な音声信号の出力レベルは調整されなくなり、音量が小さい音声は、そのまま出力される。これにより、音声合成装置600の使用者は、大音量の音声と小音量の音声とのいずれをも心地よく聞くことができる。
However, in the
なお、波形重畳部670による重畳後のデータの出力の態様は、上記のものに限られない。たとえばデジタルアナログコンバータに代えてデジタルアンプが使用されてもよい。
Note that the output mode of data after superposition by the
ここで、図7および図8を参照して、音声合成装置600のデータ構造について説明する。図7は、波形辞書記憶部620におけるデータの格納の一態様を概念的に表わす図である。波形辞書記憶部620は、データを格納するための領域710〜領域790を含む。各領域には、音素を基本単位として使用する素片辞書のデータ(素片データ)が格納されている。たとえば、領域710には、素片データとして「a」のデータが格納されている。各素片データは、さらに詳細な情報を有する。
Here, the data structure of the
すなわち、図8を参照して、領域790は、フレーム番号を格納するための領域810と、エネルギー情報を格納するための領域820と、波形情報を格納するための領域830とを含む。たとえば領域790は、M個のフレームについてエネルギー情報と波形情報とをそれぞれ有している。
That is, referring to FIG. 8,
図8を参照して、波形情報の生成についてさらに説明する。音声素片辞書は、元になる音声データを、基本単位毎に分析して作成する。一般的には、基本単位として、音素、音節、VCV(Vowel-Consonant-Vowel:母音−子音−母音)などが使用される。図8においては、説明を平易にするために、基本単位として音素が使用される場合が例示されているが、その他の基本単位でも、以下の説明は成立する。 The generation of waveform information will be further described with reference to FIG. The speech segment dictionary is created by analyzing the original speech data for each basic unit. Generally, phonemes, syllables, VCVs (Vowel-Consonant-Vowel) are used as basic units. In FIG. 8, the case where phonemes are used as the basic unit is illustrated for the sake of simplicity of explanation, but the following description is also true for other basic units.
まず、基本単位に切り出された音声を、フレーム毎に分析し、波形情報と、エネルギー情報とに分解する。波形情報を取得するための処理としては、音声が有声音の場合には、一般的には、ケプストラム分析を用いて周期性を取り除き、1ピッチ波形を取り出す処理が行なわれる。音声が無声音の場合には、一般的には、元の波形をフレームの長さに切り出すための処理が行なわれる。また、波形情報のデータ圧縮を目的として、波形情報を、ケプストラムやLSP(Linear Spectrum Pair:線スペクトル対)などのスペクトル情報と、残差波形に分解したり、スペクトル情報と、有声か無声かのフラグに分解する場合もある。この場合、スペクトルを表現するフィルタを用いて、有声音では、インパルスに対するフィルタ応答を求めて波形データを得、他方、無声音では、ランダム雑音に対するフィルタ応答を求めて波形データを得るのが一般的である。 First, the voice cut out in the basic unit is analyzed for each frame and decomposed into waveform information and energy information. As a process for acquiring the waveform information, when the voice is a voiced sound, generally, a process of removing a periodicity using a cepstrum analysis and extracting a one pitch waveform is performed. When the voice is an unvoiced sound, generally, a process for cutting out the original waveform into a frame length is performed. For the purpose of data compression of waveform information, the waveform information is decomposed into spectral information such as cepstrum and LSP (Linear Spectrum Pair) and residual waveform, and the spectrum information is either voiced or unvoiced. It may be broken down into flags. In this case, it is common to obtain a waveform data by obtaining a filter response to an impulse for voiced sound using a filter that represents a spectrum, and to obtain a waveform data by obtaining a filter response to random noise for an unvoiced sound. is there.
波形情報は精度を保つために、一定の振幅レベルになるように正規化しておくのが望ましい。たとえば分析された波形を X[i](i=1,・・・,N) としたとき、平均振幅Pxは、 It is desirable to normalize the waveform information so that it has a constant amplitude level in order to maintain accuracy. For example, when the analyzed waveform is X [i] (i = 1,..., N), the average amplitude Px is
で表される。
正規化した波形情報S[i]は、
S[i]=X[i]×A/Px
のように正規化する。
It is represented by
The normalized waveform information S [i] is
S [i] = X [i] × A / Px
Normalize like this.
ここで、Aには、波形が振幅限界の範囲(たとえば、16ビットなら−32767から32768)を超えないで、なるべく大きな振幅になるような値が設定される。具体的には、たとえばA=2048といった値を設定する。 Here, A is set to a value that makes the amplitude as large as possible without exceeding the amplitude limit range (for example, -32767 to 32768 for 16 bits). Specifically, a value such as A = 2048 is set.
エネルギー情報については、分析時の各フレームの短時間平均エネルギーPxが、エネルギー情報として用いられる。また、エネルギー情報の値自体を使用するよりも、その値を対数化して用いるほうが、音量の変更など各種の制御が「加算処理」により可能となるため、望ましい。 For energy information, the short-time average energy Px of each frame at the time of analysis is used as energy information. In addition, it is preferable to logarithmically use the energy information value rather than using the energy information value itself, because various controls such as changing the volume can be performed by “addition processing”.
音声合成における波形生成の場合、音声素片辞書が波形情報のままであれば復号処理は不要である。しかし、音声素片辞書がスペクトル情報を用いて圧縮されている場合は、一般的な復号化の処理を行なう。この際、復号された波形の平均振幅がAでなければ、平均振幅Aになるように、一旦、ゲイン調整を行なう。 In the case of waveform generation in speech synthesis, decoding processing is not necessary if the speech unit dictionary remains waveform information. However, when the speech unit dictionary is compressed using the spectrum information, a general decoding process is performed. At this time, if the average amplitude of the decoded waveform is not A, gain adjustment is once performed so that the average amplitude A is obtained.
音声合成に際して、合成のための処理の対象となるフレーム(以下、対象フレーム)の目標エネルギー情報Eが、平均振幅でAに等しい場合には、増幅率を1として、波形を生成する。他方、目標エネルギー情報Eの値がAに等しくない場合には、増幅率E/Aで増幅することにより、平均振幅Eの波形を得る。 At the time of speech synthesis, when target energy information E of a frame to be processed for synthesis (hereinafter referred to as a target frame) is equal to A in average amplitude, a waveform is generated with an amplification factor of 1. On the other hand, when the value of the target energy information E is not equal to A, a waveform with an average amplitude E is obtained by amplification with the amplification factor E / A.
また、本発明の実施の形態に係る波形生成部における波形生成は、より具体的には、以下のとおりである。前述の対象フレームの目標エネルギーEは、韻律生成に基づくエネルギー情報Epと、音量指定情報に基づくEvとを用いて、算式「E=Ep×Ev」により算出される。ここで、Evの値は、標準の値を1とする相対的な値である。 Moreover, the waveform generation in the waveform generation unit according to the embodiment of the present invention is more specifically as follows. The target energy E of the target frame is calculated by the formula “E = Ep × Ev” using energy information Ep based on prosody generation and Ev based on sound volume designation information. Here, the value of Ev is a relative value where the standard value is 1.
正規化された平均振幅AをA=2048とした時、実際の波形情報のうち最もピーク振幅の大きい場合のピーク振幅は、平均振幅Aの8倍である16384程度と仮定すると、16ビットの最大振幅(−32768〜32767)に対しては、当該ピーク振幅は、平均振幅Aの最大2倍の増幅しか許されないことになる。したがって、生成波形に対する増幅率には、制約が課せられる。この制約は、たとえば、E<2×Aとして表わされる。 Assuming that the normalized average amplitude A is A = 2048, the peak amplitude when the peak amplitude is the largest among the actual waveform information is assumed to be about 16384, which is eight times the average amplitude A, and the maximum of 16 bits. For the amplitude (−32768 to 32767), the peak amplitude can only be amplified up to twice the average amplitude A. Therefore, a restriction is imposed on the amplification factor for the generated waveform. This constraint is represented, for example, as E <2 × A.
しかし、韻律情報に基づくエネルギー情報Epの値は、ルールや統計に基づくため、エネルギー情報Epを制限するためには、複雑なルールを調整したり、統計量を修正したりする必要がある。そこで、本発明の実施の形態においては、これらの調整や修正を避けるため、Eの関数としてf(E)を定義し、f(E)<2×Aとなるように関数f()を設定する方法が用いられる。関数f(E)の例として、図3に示されるような、非線形の関数310や折れ線として規定される関数320が考えられる。ここで、非線形の関数の一例は、たとえば、次のようなものである。
However, since the value of the energy information Ep based on the prosodic information is based on rules and statistics, it is necessary to adjust complex rules or modify the statistics to limit the energy information Ep. Therefore, in the embodiment of the present invention, in order to avoid these adjustments and corrections, f (E) is defined as a function of E, and the function f () is set so that f (E) <2 × A. Is used. As an example of the function f (E), a
f(E)={log(E+1)^(2×A)}/log(4×A)
この関数は、E=(4×A−1)の時にf(E)=2×Aとなるように定義されたものである。非線形の関数は、この関数に限られず、他にも様々な関数が考えられる。
f (E) = {log (E + 1) ^ (2 × A)} / log (4 × A)
This function is defined so that f (E) = 2 × A when E = (4 × A−1). The nonlinear function is not limited to this function, and various other functions can be considered.
また、折れ線の関数の一例は、たとえば、次のようなものである。
f(E)=E (E<Bの場合、ただしB<2×A)
f(E)=B+(E−B)/2 (E≧Bの場合)
ここで、折れ線の関数を設定する方法についても様々な方法が考えられ、本実施の形態において示されたものに限定されるものではない。
An example of a function of a broken line is as follows, for example.
f (E) = E (if E <B, where B <2 × A)
f (E) = B + (EB) / 2 (when E ≧ B)
Here, various methods for setting the function of the polygonal line are conceivable and are not limited to those shown in the present embodiment.
また、別の局面においては、他の実施例として、エネルギー情報が対数の値として規定されている場合があり得る。この場合、当該値を増幅率に変換することが必要になるが、一般的には、エネルギー情報がEl=20log(E)という値で入力されるとすれば、増幅率Gは次式で表わされる。 In another aspect, as another example, energy information may be defined as a logarithmic value. In this case, it is necessary to convert the value into an amplification factor. Generally, if energy information is input as a value of El = 20 log (E), the amplification factor G is expressed by the following equation. It is.
G=E/A=exp(El/20)/A
なお、増幅率Gを算出するための関係式は、上記のものに限られない。少なくとも、E=A/2に対応するEl=20log(A/2)より大きな値に対して、連続的につながる線形関数を用いて急激に大きくならないようにするような方法でもよい。
G = E / A = exp (El / 20) / A
The relational expression for calculating the amplification factor G is not limited to the above. A method may be used in which at least a value larger than El = 20 log (A / 2) corresponding to E = A / 2 is not suddenly increased by using a linear function connected continuously.
このように増幅率がある値よりも極端に大きくならないように調整することで、本発明の実施の形態に係る波形生成装置200が動作することで、出力波形の歪みを抑えることができ、大きな音量を設定することができる。その結果、同一のスピーカを用いる従来の出力音量よりも大きな音量での出力を可能にする。
By adjusting the amplification factor so as not to become extremely larger than a certain value in this way, the
図7および図8に示されるデータは、音声合成装置600の製造者によって波形辞書記憶部620に格納されるが、音声合成装置600の使用者によって再入力が可能であってもよい。
The data shown in FIGS. 7 and 8 is stored in the waveform
本実施の形態に係る波形生成装置は、音声を符号化した上で復号化する装置にも適用可能である。そこで、図9を参照して、本実施の形態に係る波形生成の構成を有する音声符号化復号化装置900について説明する。図9は、音声符号化復号化装置900によって実現される機能の構成を表わすブロック図である。音声符号化復号化装置900は、符号化装置910と、復号化装置940とを備える。復号化装置940は、符号化装置910からの出力に基づいて作動可能なように符号化装置910に接続される。符号化装置910は、韻律分析部920と、波形情報分析部930とを含む。復号化装置940は、音量設定部950と、波形生成部960と、波形重畳部970と、増幅部980とを含む。
The waveform generation apparatus according to the present embodiment can also be applied to an apparatus that encodes and then decodes speech. Therefore, speech coding /
復号化装置910は、音声符号化復号化装置900に対して入力された音声に対応する音声信号の入力を受け付ける。当該音声は、たとえば、音声符号化復号化装置900が備える、あるいは音声符号化復号化装置900に接続されたマイク(図示しない)を介して入力される。音声信号は、韻律分析部920と波形情報分析部930とにそれぞれ入力される。
The
韻律分析部920は、入力音声のアクセント情報、音声の間隔などに基づいて、入力音声の韻律情報を生成して出力する。波形情報分析部930は、入力された音声信号を分析し、当該音声信号の波形情報を取得して出力する。符号化装置910から出力される信号は、復号化装置940に入力される。具体的には、韻律分析部920から出力される情報は、波形生成部960と波形重畳部970とに入力される。波形情報分析部930から出力される波形情報は、波形生成部960に入力される。音量設定部950は、図6に示される音量設定部630と同様の機能を実現する。
The
波形生成部960は、韻律分析部920からの出力と、波形情報分析部930からの出力と、音量設定部950からの出力とに基づいて作動可能なように、韻律分析部920と波形情報分析部930と音量設定部950とに接続される。波形生成部960は、図2に示される波形生成装置200によって実現される機能と同様の機能を実現する。すなわち、波形生成部960は、波形情報分析部930によってフレームごとに分析された波形情報から波形を復号化し、韻律分析部920によって出力されたエネルギー情報と、音量設定部950によって出力される音量指定情報とに基づいて当該波形を増幅し、振幅が調整された波形を出力する。
The
波形重畳部970は、波形生成部960からの出力と、韻律分析部からの出力とに基づいて作動可能なように、韻律分析部920と波形生成部960とに接続される。波形重畳部970は、韻律分析部920によって取得されたピッチ情報から導かれるサンプル間隔で、波形生成部960によってフレームごとに生成された波形を重畳し出力する。波形重畳部970から出力される信号は、増幅部980に入力される。
The
増幅部980は、波形重畳部970からの出力に基づいて作動可能なように、波形重畳部970に接続される。具体的には、増幅部980は、波形重畳部970から出力される波形データを増幅し、復号化された音声データとして出力する。
The amplifying
図10を参照して、本実施の形態の他の局面における波形生成アルゴリズムについて説明する。図10は、他の局面に従う波形生成装置200が実行する動作を表わすフローチャートである。なお、図5に示される動作と同一の動作には同一のステップ番号を付してある。したがって、ここではそれらについての説明は繰り返さない。
With reference to FIG. 10, a waveform generation algorithm in another aspect of the present embodiment will be described. FIG. 10 is a flowchart representing an operation executed by
ステップS1040にて、波形生成装置200は、エネルギー変更部210によって変更されたエネルギーEを、増幅率Gに変換する(G←g(E))。
In step S1040,
ここで、図11を参照して、本実施の形態における波形増幅の概念について説明する。図11(A)から図11(D)は、それぞれ3つのフレームの波形を表わす図である。図11(A)は、処理の対象となる元の波形をフレーム1111〜フレーム1113として表わしたものである。各フレームについて波形を2倍に増幅すると、図11(B)に示されるように、フレーム1121〜フレーム1123が得られる。ここで、フレーム1122を表わす図から明らかなように、振幅は、上限値および下限値を超えている。この場合、上限値および下限値を超えた範囲について処理の対象外とすると、各フレームの形状は、図11(C)に示されるように、特にフレーム1132において振幅の制限値(上限値および下限値)で飽和している。このような信号に基づいて音声が出力されると、振幅が飽和した部分に係る音声は歪んで発せられることとなる。
Here, the concept of waveform amplification in the present embodiment will be described with reference to FIG. FIG. 11A to FIG. 11D are diagrams showing waveforms of three frames, respectively. FIG. 11A shows the original waveforms to be processed as
一方、本実施の形態に係る波形生成を用いて図11(A)に示される各フレームを増幅すると、増幅後の波形は、フレーム1141〜1143として示される。図11(D)において明らかなように、特にフレーム1142においては、振幅の上限値あるいは下限値を超えることなく予め規定された範囲内で波形が増幅されている。したがって、このような波形を有する信号に基づいて音声が出力されると、図11(C)に示される波形に基づいて音声が出力される場合よりも、歪みが少ないあるいは歪みが生じない音声が出力されることになる。
On the other hand, when each frame shown in FIG. 11A is amplified using the waveform generation according to this embodiment, the amplified waveforms are shown as
次に、図12を参照して、本実施の形態に係る波形生成の機能を実現できるゲーム装置1200について説明する。図12は、ゲーム装置1200のハードウェア構成を表わすブロック図である。ゲーム装置1200は、操作ボタン1202と、データROM1204と、プログラム用ROM(Read Only Memory)1206と、RAM(Random Access Memory)1208と、CPU1210と、デジタルアナログコンバータ1230と、アンプ1240と、スピーカ1250と、液晶ディスプレイ1260と、カードコネクタ1270とを備える。カードコネクタ1270には、ゲームカートリッジ1280が装着される。CPU1210は、エネルギー変化部1212と、エネルギー補正部1214と、復号化部1216と、増幅部1218と、波形接続部1220とを含む。
Next, with reference to FIG. 12, a
操作ボタン1202は、ゲーム装置1200に対する操作を受け付けて、当該操作に応じた信号をCPU1210に出力する。データROM1204は、ゲーム装置1200を実現するために予め作成された制御データを格納する。プログラム用ROM1206は、ゲーム装置1200に予め規定された処理を実行するためのプログラムを格納する。RAM1208は、ゲーム装置1200の動作中に生成されたデータあるいはカードコネクタ1270を介して読み取られたゲームカートリッジ1280に格納されているデータを一時的に保持する。
The
CPU1210は、操作ボタン1202とデータROM1204とプログラム用ROM1206とRAM1208とカードコネクタ1270からの各出力信号に基づいて作動可能なように、操作ボタン1202とデータROM1204とプログラム用ROM1206とRAM1208とカードコネクタ1270とに接続される。
The
CPU1210は、ゲームカートリッジ1280に格納されているデータを用いて、ゲームカートリッジ1280に応じた機器としてゲーム装置1200を作動させるための処理を実行する。具体的には、CPU1210は、ゲームカートリッジ1280に格納されている映像データ1282と、音声データ1284とを読み出して映像データ1282に基づく製造を液晶ディスプレイ1260に表示させる。また、CPU1210は、音声データ1284を用いてスピーカ1250にそのデータに対応する音声を出力させる。音声データは、人によって発生された音声を分析したデータや、テキスト音声合成によって発生させるためのテキストデータも含む。ここで、音声データ1284に基づく音声の適正な出力(歪みを生じない出力)に必要とされるスピーカの能力と、スピーカ1250の能力とが一致しない場合がある。たとえば音声データ1284が求める出力がスピーカ1250による出力を上回る場合がある。この場合、CPU1210は、音声データ1284を用いて上記の波形生成処理を行ない、歪みが生じない音声が出力されるように波形生成処理を実行する。
The
具体的には、CPU1210において、エネルギー変更部1212は、RAM1208から読み出されるデータに基づいて機能するように構成される。具体的には、エネルギー変更部1212は、図2に示されるエネルギー変更部210と同様の機能を実現する。
Specifically, in the
エネルギー補正部1214は、データROM1204からの出力に基づいて機能するように構成される。具体的には、エネルギー補正部1214は、エネルギー補正部220と同様の機能を実現する。
The
復号化部1216は、波形復号化部230と同様の機能を実現する。具体的には、復号化部1216は、カードコネクタ1270から送出されたデータ、すなわちゲームカートリッジ1280に格納されていた音声データ、に基づいて波形を復号化する。
The
増幅部1218は、エネルギー補正部1214と復号化部1216からの各出力に基づいて機能するように構成される。具体的には、増幅部1218は、増幅部240と同様の機能を実現する。
The
波形接続部1220は、増幅部1218からの出力に基づいて機能するように構成される。波形接続部1220には、増幅部1218から出力される波形データが入力される。この波形データは、音声信号におけるフレーム単位で構成されている。そこで、波形接続部1220は、各波形データを接続して音声データを生成する。
The
CPU1210によって生成された音声データは、デジタルアナログコンバータ1230に入力される。デジタルアナログコンバータ1230は、その音声データをアナログの音声信号に変換して出力する。音声信号は、アンプ1240に入力される。
The audio data generated by the
アンプ1240は、音量を調整するための信号として操作ボタン1202によって出力される信号に基づいて、その音声信号を増幅し出力する。増幅された音声信号は、スピーカ1250に入力される。スピーカ1250は、当該音声信号を音声に変換して出力する。
The
上記のような構成により、ゲーム装置1200は、ゲームカートリッジ1280に格納されているゲームのための映像データ1282に基づいて液晶ディスプレイ1260に映像を表示する。このとき、ゲーム装置1200は、CPU1210において歪が生じないように波形が調整された音声データに基づく音声を、スピーカ1250から出力することができる。そのため、ゲーム装置1200の使用者は、操作ボタン1202の一部である音量調整ダイヤル(図示しない)を操作して、アンプ1240を介した音量の調整によって歪みを調整するといった作業を行なう必要がない。
With the configuration as described above, the
このようにすると、予め作成された音声データ1284が、スピーカ1250における出力レベルが小さいデータと、スピーカ1250の定格出力を上回る程度に出力レベルが大きなデータとからなる場合であっても、ゲーム装置1200は、出力レベルが小さいデータに基づく音声をそのまま出力し、出力レベルが大きなデータは歪を抑制する程度に調整した音量で出力する。これにより、ゲーム装置1200による興趣が妨げられなくなる。
In this way, even if the
また、出力レベルが異なる様々なゲームカートリッジがカードコネクタ1270に装着される場合であっても、CPU1210における処理によって音量が調整されるため、スピーカ1250を、より高い定格出力規格を有するスピーカに変更する必要がない。そのため、ゲーム装置1200自体をゲームの内容(具体的にはゲームカートリッジ1280に格納された音声データ1284の出力レベル)に合わせて変更する必要がない。これにより、ゲーム装置1200のハードウェアとして設計変更が不要になり、またゲーム装置1200のコストの増加を防止することができる。
Even when various game cartridges having different output levels are mounted on the
なお、本実施の形態に係る音声合成装置は、テキストデータの受信機能を有する通信端末に対しても適用することができる。通信端末は、たとえば携帯電話、PDA(Personal Digital Assistant)として実現される。 Note that the speech synthesizer according to the present embodiment can also be applied to a communication terminal having a text data reception function. The communication terminal is realized as, for example, a mobile phone or a PDA (Personal Digital Assistant).
そこで、図13を参照して、本実施の形態に係る波形生成の機能を実現する携帯電話1300について説明する。図13は、携帯電話1300のハードウェア構成を表わすブロック図である。携帯電話1300は、アンテナ1302と、通信回路1304と、操作ボタン1306と、カメラ1308と、CPU1310と、フラッシュメモリ1312と、RAM1314と、データ用ROM1316と、アナログデジタルコンバータ1322と、マイク1320と、デジタルアナログコンバータ1324と、スピーカ1323と、ディスプレイ1330と、LED(Light Emitting Diode)1332と、データ通信I/F(Interface)1334と、バイブレータ1336と、メモリカード駆動装置1340とを備える。メモリカード駆動装置1340には、メモリカード1342が装着可能である。
A
アンテナ1302と通信回路1304とは、電気的に接続されている。CPU1310は、通信回路1304と、操作ボタン1306と、カメラ1308と、フラッシュメモリ1312と、RAM1314と、データ用ROM1316と、メモリカード駆動装置1340と、アナログデジタルコンバータ1322と、デジタルアナログコンバータ1324と、ディスプレイ1330と、LED1332と、データ通信I/F1334と、バイブレータ1336とに対して、電気的に接続されている。
The
アンテナ1302によって受信された電波は、通信回路1304によって予め規定された処理が実行された後、デジタル信号としてCPU1310に伝送される。当該電波は、通話のための電波およびデータ通信のための電波を含む。CPU1310は、そのデジタル信号を内部処理し、処理後の信号をデジタルアナログコンバータ1324に転送する。
The radio wave received by the
デジタルアナログコンバータ1324は、CPU1310から出力されるデジタル信号をアナログ信号に変換し、スピーカ1326に送出する。スピーカ1326は、そのアナログ信号に基づいて音声(すなわち着信を受けた電話)を出力する。
The digital-
マイク1320は、携帯電話1300に対する発話を受け付けて、その発話に応じた電気信号を出力する。アナログデジタルコンバータ1322は、マイク1320によって出力された信号をデジタル変換処理し、CPU1310に送出する。CPU1310は、その信号を送信用の信号に変換し、通信回路1304に送出する。通信回路1304は、アンテナ1302を介してその信号を無線発信する。携帯電話1300の使用者は、このようにして他の相手と通話することができる。
操作ボタン1306は、文字あるいは数字の入力を受け付けるためのボタンとして実現される。あるいは他の局面においては、当該入力を受け付ける構成として、操作ボタン1306の代わりにジョグダイヤル、タッチパネルその他の操作部として実現されてもよい。操作ボタン1306は、携帯電話1300に対する操作を受け付けて、その操作に応じた信号をCPU1310に送出する。操作ボタン1306に対する操作は、携帯電話1300の使用者が文字を入力するための操作を含む。
The
カメラ1308は、操作ボタン1306に対する操作に基づいて被写体を撮影し、その撮影により取得された信号をCPU1310に送出する。カメラ1308は、被写体を静止画としてあるいは動画として撮影できる。CPU1310は、その信号を一時的に保持し、操作ボタン1306に対する保存の指示に応答してフラッシュメモリ1312に格納する。
The
RAM1314は、操作ボタン1306に対して行なわれた操作に基づいてCPU1310によって生成されたデータを一時的に保持する。あるいは、RAM1314は、アンテナ1302によって受信された電波に含まれるデータを一時的に保持する。データ用ROM1316は、携帯電話1300によって予め規定された動作を実行させるためのデータあるいはアプリケーションプログラムなどを格納する。CPU1310は、データ用ROM1316から当該データあるいはアプリケーションプログラムを読み出し、携帯電話1300に予め規定された処理を実行させる。
The
ディスプレイ1330は、CPU1310から出力されるデータに基づいてそのデータによって規定される画像あるいは映像を表示する。たとえば、CPU1310がフラッシュメモリ1312もしくはメモリカード1342に格納されている動画データを読み出すと、ディスプレイ1330はそのデータに応じた映像を表示する。
LED1332は、CPU1310から出力される信号に基づいて予め規定された発光動作を実現する。たとえば、LED1332が複数の色を表示可能な場合には、LED1332は、CPU1310から出力される信号に含まれるデータに基づいてそのデータに関連付けられている色で発光する。
The
データ通信I/F1334は、外部から通信用のケーブルの装着を受け付ける。データ通信I/F1334は、CPU1310から出力される信号を当該ケーブルに対して送出する。あるいは、データ通信I/F1334は、ケーブルを介して受信される信号をCPU1310に対して送出する。
The data communication I /
バイブレータ1336は、CPU1310から出力される信号に基づいて予め定められた周波数で振動動作を実行する。
メモリカード駆動装置1340は、メモリカード1342の装着を受け付ける。メモリカード駆動装置1340は、メモリカード1342に格納されているデータを読み出し、CPU1310に送出する。逆に、メモリカード駆動装置1340は、CPU1310によって出力されたデータをメモリカード1342のデータ記憶領域に格納する。メモリカード1342は、たとえば記憶媒体としてフラッシュメモリを用いるが、その他のものが使用されてもよい。
The memory
このような構成において、CPU1310は、図6に示される音声合成装置600として機能し得る。すなわち、通信回路1304によって受信された文字情報(たとえば電子メール)あるいは操作ボタン1306の操作により入力された文字列は、テキストデータとしてCPU1310に入力される。CPU1310は、操作ボタン1306に対する音声出力指示の入力に応答して、当該テキストデータから音声データを合成する。携帯電話1300は、その音声データに基づく音声をスピーカ1326を介して出力する。
In such a configuration, the
この場合、CPU1310は、図6に示されたテキスト解析部610、音量設定部630、韻律生成部640、波形データ選択部650、波形生成部660、波形重畳部670、増幅部680として機能する。波形辞書記憶部620は、たとえばフラッシュメモリ1312によって実現される。波形辞書記憶部620に格納されているデータは、携帯電話1300の製造者によって製造時に書き込まれてもよいし、携帯電話1300の使用者によってデータ通信I/F1334を介して、あるいはメモリカード駆動装置1340を介して入力されてもよい。また、波形生成のための具体的な処理を実行するソフトウェアも、フラッシュメモリ1312、データ用ROM1316のような記憶装置に格納されている。
In this case, the
このような構成により、携帯電話1300も、テキストデータを用いた音声を出力することができる。ゲーム装置1200に関して説明したように、本発明の実施の形態に係る波形生成を用いることにより、スピーカ1326の能力を変更することなく、音量レベルの大小に関わらず聴取し易い音声が出力可能となる。また、スピーカ1326に加えて、イヤホン(図示しない)を介した音声の出力が可能である場合、当該イヤホンを介して出力される音声の音量も調整可能となる。その結果、たとえば携帯電話1300の使用者の付近が騒がしい場合であっても、小さな音量を大きくしつつ、当初から大音量に設定される音声の音量レベルを抑制した出力が可能になる。これにより、聞き取り易い音声が出力される。
With such a configuration, the
なお、携帯電話1300の基本的な動作は、当業者にとって容易に理解できるものである。したがって、ここではそれらについての詳細な説明は繰り返さない。
Note that the basic operation of the
以上のようにして、本実施の形態に係る波形生成装置200によると、大きな音量を出力するための音声データの歪みを防止しつつ音声データを抑制し、大きすぎない音量を出力するための音声データ、すなわち、スピーカの出力能力を超えない程度の音量を出力するデータは、その能力を超えない程度に大きくする。その結果、全体として音量が大きくされた音声の出力が可能になる。
As described above, according to the
具体的には、波形生成装置200を備える音声合成装置は、音声合成を行なう際に、予め計算されたエネルギー情報を変更して補正を行なう。したがって、音声合成を行なった後のデータを用いて出力音量の調整を行なう場合に比べて、波形エネルギーの計算が不要になる。また、増幅率の計算は簡易に実現されるため、プロセッサの付加も抑制される。その結果、出力音声の音量調整における応答が速くなる。
Specifically, the speech synthesizer including the
<第2の実施の形態>
以下、本発明の第2の実施の形態について説明する。本実施の形態に係る波形生成装置1400は、出力される波形を徐々に飽和するように変形する機能を有する点で前述の波形生成装置200と異なる。
<Second Embodiment>
Hereinafter, a second embodiment of the present invention will be described. The
図14を参照して、本実施の形態に係る波形生成装置1400について説明する。図14は、本実施の形態に係る波形生成装置1400によって実現される機能の構成を表わすブロック図である。波形生成装置1400は、図2に示される構成に加えて、飽和処理部1450を備える。
With reference to FIG. 14, a
飽和処理部1450は、増幅部240からの出力に基づいて作動可能なように、増幅部240に接続される。より具体的には、飽和処理部1450は、増幅部240によって出力される波形の入力を受け付ける。飽和処理部1450は、その波形に対して非線形に飽和するように波形を変形する。具体的には、飽和処理部1450は、入力される波形の振幅と出力される波形の振幅との関係が非線形な関係として規定される関数を用いて、あるいは同等のマップデータを用いて波形の形状を補正する。
The
そこで、図15および図16を参照して、本実施の形態に係る波形生成装置1400の波形振幅の飽和特性について説明する。図15は、図2に示される波形生成装置200における入力される波形の振幅と出力される波形の振幅との関係を表わす図である。図16は、図14に示される本実施の形態に係る波形生成装置1400における入力される波形の振幅と出力される波形の振幅との関係を表わす図である。
Therefore, with reference to FIG. 15 and FIG. 16, the waveform amplitude saturation characteristic of the
図15を参照して、入力される波形の振幅(以下、入力振幅)(Ain)は、範囲(Xmin−Xmax)において、出力される波形の振幅(以下、出力振幅)(Aout)と比例の関係にある。ここで出力振幅の値は範囲(Ymin−Ymax)内の値のみを取り得るため、下限の振幅値Yminよりも小さな振幅および上限の振幅値Ymaxを上回る振幅は出力されない。そのため、たとえば入力振幅の値が上限値Xmaxよりも大きい場合でも、出力振幅の値はYmaxに留まるため、出力される音声に歪みが残る場合がある。 Referring to FIG. 15, the amplitude of the input waveform (hereinafter referred to as input amplitude) (Ain) is proportional to the amplitude of the output waveform (hereinafter referred to as output amplitude) (Aout) in the range (Xmin−Xmax). There is a relationship. Here, since the output amplitude value can take only a value within the range (Ymin−Ymax), an amplitude smaller than the lower limit amplitude value Ymin and an amplitude exceeding the upper limit amplitude value Ymax are not output. Therefore, for example, even when the value of the input amplitude is larger than the upper limit value Xmax, the output amplitude value remains at Ymax, so that distortion may remain in the output audio.
これに対して、図16を参照して、本実施の形態に係る波形生成装置1400においては、出力振幅の範囲は前述の範囲と同じ範囲を維持しつつ、各出力振幅をもたらす入力振幅の範囲が変更されている。すなわち、下限の入力振幅Xminを下回る値としてX(1)が規定されており、入力振幅X(2)までは、出力振幅も線形に出力される。同様にして、入力振幅の上限値の近傍においても、上限値Xmaxを下回る入力振幅X(3)と上限値Xmaxを上回る値X(4)の範囲で、出力振幅は線形で出力されるように特性が補正されている。その結果、入力振幅の値がX(1)からX(4)まで出力振幅の値は、予め規定された範囲(下限値Yminから上限値Ymax)の間を取り得る。出力振幅の上限値Ymaxを超えるような値を与え得る入力振幅は、上限値X(4)を上回るわずかな領域のみに制限される。このようにすると、音声の出力に関し歪みが急激に生じなくなるため、図2に示される波形生成装置200を有する音声合成装置よりもさらに大きめの増幅率を得ることができる。
On the other hand, referring to FIG. 16, in
以上詳述したように、本発明の第1および第2の実施の形態に係る波形生成装置によれば、音声データの出力レベルの増幅が行なわれる前に、音声波形を調整する。この調整は、音声データを処理するソフトウェアによって実現される。そのため、当該調整は、スピーカ、音声出力端子その他の音声出力装置の規格によって規定される上限値を超える恐れがあるデータに対してのみ適用可能である。このような構成により、波形の調整が真に必要な音声データ(音量レベルが高すぎるようなデータ)に対するレベル調整が行なわれ、調整が不要な音声データに対する調整は行なわれない。 As described above in detail, according to the waveform generation apparatuses according to the first and second embodiments of the present invention, the sound waveform is adjusted before the output level of the sound data is amplified. This adjustment is realized by software that processes audio data. Therefore, the adjustment can be applied only to data that may exceed the upper limit value defined by the speaker, audio output terminal, or other audio output device standards. With such a configuration, level adjustment is performed on audio data that truly requires waveform adjustment (data whose volume level is too high), and adjustment on audio data that does not require adjustment is not performed.
これにより、音声出力装置などのハードウェア構成を変更することなく、どのような出力レベルが音声データに対して規定されていても、出力レベルの上限値を超えない音声、すなわち歪が生じない音声の出力が可能となる。 As a result, audio that does not exceed the upper limit of the output level regardless of what output level is defined for the audio data without changing the hardware configuration of the audio output device or the like, that is, audio that does not cause distortion Can be output.
なお、本発明の実施の形態に係る波形生成装置および音声合成装置は、音声出力機能を有するコンピュータシステムによっても実現可能である。そこで、図17を参照して、音声合成装置として機能するコンピュータシステム1700について説明する。図17は、コンピュータシステム1700のハードウェア構成を表わすブロック図である。
Note that the waveform generation device and the speech synthesizer according to the embodiment of the present invention can also be realized by a computer system having a speech output function. A
コンピュータシステム1700は、ハードウェアとして、CPU1710と、コンピュータシステム1700の使用者による指示の入力を受けるマウス1720およびキーボード1730と、CPU1710によるプログラムの実行により生成されたデータ、又はマウス1720若しくはキーボード1730を介して入力されたデータを揮発的に格納するRAM1740と、データを不揮発的に格納するハードディスク1750と、CD(Compact Disk)−ROM駆動装置1760と、音声データから音声信号を生成して出力するサウンドカード1770と、サウンドカード1770から出力される信号に基づいて音声を出力するスピーカ1772と、モニタ1780と、通信IF1790とを含む。各構成要素は、相互にデータバスによって接続されている。CD−ROM駆動装置1760には、CD−ROM1762が装着される。
The
コンピュータシステム1700における情報処理は、ハードウェアおよびCPU1710により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク1750に予め記憶されている場合がある。また、ソフトウェアは、CD−ROM1762その他の記憶媒体に格納されて、プログラム製品として流通している場合もある。あるいは、ソフトウェアは、いわゆるインターネットに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、CD−ROM駆動装置1760その他の読取装置によりその記憶媒体から読み取られて、あるいは、通信IF1790を介してダウンロードされた後、ハードディスク1750に一旦格納される。そのソフトウェアは、CPU1710によってハードディスク1750から読み出され、RAM1740に実行可能なプログラムの形式で格納される。CPU1710は、そのプログラムを実行する。
Information processing in the
図17に示されるコンピュータシステム1700を構成する各ハードウェアは、一般的なものである。したがって、本発明の本質的な部分は、RAM1740、ハードディスク1750、CD−ROM1762その他の記憶媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるともいえる。なお、コンピュータシステム1700の各ハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
Each hardware constituting the
なお、記録媒体としては、CD−ROM、FD、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、IC(Integrated Circuit)カード(メモリカードを含む)、光カード、マスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electronically Erasable Programmable Read Only Memory)、フラッシュROMなどの半導体メモリ等の固定的にプログラムを担持する媒体でもよい。 The recording media are not limited to CD-ROM, FD, and hard disk, but are magnetic tape, cassette tape, optical disc (MO (Magnetic Optical Disc) / MD (Mini Disc) / DVD (Digital Versatile Disc)), IC (Integrated). Circuit (including memory card), optical card, mask ROM, EPROM (Erasable Programmable Read Only Memory), EEPROM (Electronically Erasable Programmable Read Only Memory), flash ROM and other semiconductor memories, etc. It may be a medium.
ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。 The program here includes not only a program directly executable by the CPU but also a program in a source program format, a compressed program, an encrypted program, and the like.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
本発明は、スピーカ、音声出力端子その他の音声出力インターフェイスを有する装置、たとえば、携帯電話その他の通信装置、PCその他の情報処理機器、あるいはゲーム装置等にも、適用可能である。 The present invention is also applicable to a device having a sound output interface such as a speaker, a sound output terminal, etc., such as a mobile phone or other communication device, a PC or other information processing device, or a game device.
100,200,1400 波形生成装置、600 音声合成装置、900 音声符号化復号化装置、910 符号化装置、940 復号化装置、1200 ゲーム装置、1210 CPU、1280 ゲームカートリッジ、1302 アンテナ、1342 メモリカード。 100, 200, 1400 Waveform generation device, 600 speech synthesis device, 900 speech coding / decoding device, 910 coding device, 940 decoding device, 1200 game device, 1210 CPU, 1280 game cartridge, 1302 antenna, 1342 memory card.
Claims (22)
出力される音声を生成するためのデータと、前記出力される音声の音量を指定するための指定情報とを取得する取得手段と、
音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各前記部分の各々のエネルギー情報と、各前記エネルギー情報を補正するための補正データとを格納する記憶手段と、
各前記エネルギー情報を、前記指定情報に応じたエネルギー情報にそれぞれ変更する変更手段と、
前記補正データに基づいて、前記変更手段による変更後の各前記エネルギー情報を補正する補正手段と、
各前記波形情報に基づいて、前記出力される音声の各波形を復号する復号化手段と、
前記補正後の各前記エネルギー情報に基づいて、前記復号化手段によって復号された各波形を増幅する増幅手段と、
前記増幅手段によって増幅された各前記波形に基づいて、音声を出力する出力手段とを備える、音声合成装置。 A speech synthesizer that synthesizes and outputs speech,
Obtaining means for obtaining data for generating output sound and designation information for designating a volume of the output sound;
A memory for storing each waveform information for generating a waveform of each part obtained by dividing speech into predetermined units, each energy information for each part, and correction data for correcting each energy information. Means,
Changing means for changing each of the energy information to energy information corresponding to the specified information;
Correction means for correcting each energy information after the change by the change means based on the correction data;
Decoding means for decoding each waveform of the output speech based on each waveform information;
Amplifying means for amplifying each waveform decoded by the decoding means based on each energy information after the correction;
A speech synthesizer comprising: output means for outputting speech based on each waveform amplified by the amplification means.
前記増幅手段によって増幅された各前記波形を接続して合成波形を生成する波形接続手段と、
前記合成波形に基づいて音声を出力する音声出力手段とを含む、請求項1に記載の音声合成装置。 The output means includes
Waveform connecting means for connecting the waveforms amplified by the amplifying means to generate a combined waveform;
The speech synthesis apparatus according to claim 1, further comprising speech output means for outputting speech based on the synthesized waveform.
前記音声出力手段は、前記波形飽和手段による調整後の合成波形に基づいて音声を出力する、請求項6に記載の音声合成装置。 The output means further includes waveform saturation means for adjusting the composite waveform output from the waveform connection means so as to gradually approach a predetermined upper limit value,
The speech synthesis apparatus according to claim 6, wherein the speech output unit outputs speech based on the synthesized waveform adjusted by the waveform saturation unit.
前記取得手段は、前記駆動手段に装着された前記記録媒体から、前記音声データと前記指定情報とを読み出す読出手段を含む、請求項1に記載の音声合成装置。 The recording medium further includes a drive unit that is mounted with a removable recording medium and drives the recording medium, the recording medium storing audio data and the designation information associated with the audio data,
The speech synthesis apparatus according to claim 1, wherein the acquisition unit includes a reading unit that reads out the voice data and the designation information from the recording medium attached to the driving unit.
文字情報が含まれる信号を受信する受信手段と、
前記指定情報の入力を受け付ける入力手段とを含む、請求項1に記載の音声合成装置。 The acquisition means includes
Receiving means for receiving a signal including character information;
The speech synthesis apparatus according to claim 1, further comprising an input unit that receives an input of the designation information.
発話を受けて前記発話に応じた音声信号を出力するマイクと、
前記音声信号を解析して前記発話に応じた波形情報を出力する波形情報分析手段と、
前記発話に応じたエネルギー情報を含む韻律情報を出力する韻律分析手段とを含む、請求項1に記載の音声合成装置。 The acquisition means includes
A microphone that receives an utterance and outputs an audio signal corresponding to the utterance;
Waveform information analyzing means for analyzing the voice signal and outputting waveform information corresponding to the utterance;
The speech synthesis apparatus according to claim 1, further comprising: prosodic analysis means for outputting prosodic information including energy information corresponding to the utterance.
音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各前記部分の各々のエネルギー情報と、各前記エネルギー情報を補正するための補正データと、プログラムを格納するメモリと、
前記プログラムから複数の命令を受信するプロセッサとを備え、
各前記命令は、
出力される音声を生成するためのデータと、前記出力される音声の音量を指定するための指定情報とを取得する取得ステップと、
各前記エネルギー情報を、前記指定情報に応じたエネルギー情報にそれぞれ変更する変更ステップと、
前記補正データに基づいて、前記変更手段による変更後の各前記エネルギー情報を補正する補正ステップと、
各前記波形情報に基づいて、前記出力される音声の各波形を復号する復号化ステップと、
前記補正後の各前記エネルギー情報に基づいて、前記復号化手段によって復号された各波形を増幅する増幅ステップとを含み、
前記音声合成装置は、増幅された各前記波形に基づいて音声を出力する出力部をさらに備える、音声合成装置。 A speech synthesizer that synthesizes and outputs speech,
Stores each piece of waveform information for generating a waveform of each part obtained by dividing speech into predetermined units, each piece of energy information for each part, correction data for correcting each piece of energy information, and a program. Memory to
A processor for receiving a plurality of instructions from the program,
Each said instruction is
An acquisition step of acquiring data for generating output sound and designation information for designating a volume of the output sound;
A change step of changing each of the energy information to energy information corresponding to the designated information;
Based on the correction data, a correction step of correcting each energy information after the change by the changing means;
A decoding step for decoding each waveform of the output speech based on each waveform information;
An amplification step of amplifying each waveform decoded by the decoding means based on each energy information after the correction,
The speech synthesizer further includes an output unit that outputs speech based on each amplified waveform.
前記出力部は、前記合成波形に基づいて音声を出力する、請求項11に記載の音声合成装置。 The command further includes a waveform connection step of connecting the waveforms amplified by the amplification step to generate a composite waveform,
The speech synthesis apparatus according to claim 11, wherein the output unit outputs speech based on the synthesized waveform.
前記出力部は、前記波形飽和ステップにおける調整後の合成波形に基づいて音声を出力する、請求項16に記載の音声合成装置。 The command further includes a waveform saturation step for adjusting the composite waveform generated in the waveform connection step so as to approach the predetermined upper limit value,
The speech synthesis apparatus according to claim 16, wherein the output unit outputs speech based on the synthesized waveform after adjustment in the waveform saturation step.
前記取得ステップは、前記駆動ステップに装着された前記記録媒体から、前記音声データと前記指定情報とを読み出す読出ステップを含む、請求項11に記載の音声合成装置。 The speech synthesizer further includes a drive device that is mounted with a detachable recording medium and drives the recording medium, and the recording medium stores audio data and the designation information associated with the audio data. And
The speech synthesizing apparatus according to claim 11, wherein the obtaining step includes a reading step of reading out the voice data and the designation information from the recording medium attached to the driving step.
文字情報が含まれる信号を受信する受信ステップと、
前記指定情報の入力を受け付ける入力ステップとを含む、請求項11に記載の音声合成装置。 The obtaining step includes
A receiving step for receiving a signal including character information;
The speech synthesizer according to claim 11, further comprising an input step of receiving input of the designation information.
前記取得ステップは、
前記音声信号を解析して前記発話に応じた波形情報を出力するステップと、
前記発話に応じたエネルギー情報を含む韻律情報を出力するステップとを含む、請求項11に記載の音声合成装置。 The speech synthesizer further includes a microphone that receives an utterance and outputs an audio signal corresponding to the utterance,
The obtaining step includes
Analyzing the audio signal and outputting waveform information corresponding to the utterance;
The speech synthesis apparatus according to claim 11, further comprising: outputting prosodic information including energy information corresponding to the utterance.
出力される音声を生成するためのデータと、前記出力される音声の音量を指定するための指定情報とを取得するステップと、
音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各前記部分の各々のエネルギー情報と、各前記エネルギー情報を補正するための補正データとをロードするステップと、
各前記エネルギー情報を、前記指定情報に応じたエネルギー情報にそれぞれ変更するステップと、
前記補正データに基づいて、前記変更ステップにおける変更後の各前記エネルギー情報を補正するステップと、
各前記波形情報に基づいて、前記出力される音声の各波形を復号するステップと、
前記補正後の各前記エネルギー情報に基づいて、前記復号化ステップによって復号された各波形を増幅するステップと、
前記増幅ステップによって増幅された各前記波形に基づいて、音声を出力するステップとを備える、音声合成方法。 A speech synthesis method for synthesizing and outputting speech,
Obtaining data for generating output sound and designation information for designating a volume of the output sound;
Loading each waveform information for generating a waveform of each part obtained by dividing speech in a predetermined unit, each energy information for each part, and correction data for correcting each energy information When,
Changing each of the energy information to energy information corresponding to the designation information;
Correcting each of the energy information after the change in the change step based on the correction data;
Decoding each waveform of the output speech based on each waveform information;
Amplifying each waveform decoded by the decoding step based on each energy information after the correction;
Outputting speech based on each waveform amplified by the amplification step.
前記プロセッサが、前記メモリから、出力される音声を生成するためのデータと、前記出力される音声の音量を指定するための指定情報とを取得するステップと、
前記プロセッサが、前記メモリから、音声を予め規定された単位で区分した各部分の波形を生成するための各波形情報と、各前記部分の各々のエネルギー情報と、各前記エネルギー情報を補正するための補正データとを読み出すステップと、
前記プロセッサが、各前記エネルギー情報を、前記指定情報に応じたエネルギー情報にそれぞれ変更するステップと、
前記プロセッサが、前記補正データに基づいて、変更後の各前記エネルギー情報を補正する補正ステップと、
前記プロセッサが、各前記波形情報に基づいて、前記出力される音声の各波形を復号するステップと、
前記プロセッサが、前記補正後の各前記エネルギー情報に基づいて、前記復号化ステップによって復号された各波形を増幅するステップと、
前記プロセッサが、増幅された各前記波形に基づいて、音声信号を出力するステップとを含む、プログラム。 A program for causing a computer comprising a memory and a processor to implement a speech synthesis method, the speech synthesis method comprising:
The processor obtaining, from the memory, data for generating output sound and designation information for designating a volume of the output sound;
In order for the processor to correct from the memory each waveform information for generating a waveform of each part obtained by dividing speech in a predetermined unit, each energy information of each part, and each energy information Reading the correction data of
The processor changing each of the energy information to energy information corresponding to the designation information;
A correction step in which the processor corrects each energy information after the change based on the correction data;
The processor decoding each waveform of the output speech based on each waveform information;
The processor amplifying each waveform decoded by the decoding step based on each energy information after the correction;
And a step of outputting an audio signal based on each of the amplified waveforms.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006188405A JP5019807B2 (en) | 2006-07-07 | 2006-07-07 | Speech synthesis apparatus, speech synthesis method, and program for realizing speech synthesis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006188405A JP5019807B2 (en) | 2006-07-07 | 2006-07-07 | Speech synthesis apparatus, speech synthesis method, and program for realizing speech synthesis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008015361A true JP2008015361A (en) | 2008-01-24 |
JP5019807B2 JP5019807B2 (en) | 2012-09-05 |
Family
ID=39072414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006188405A Expired - Fee Related JP5019807B2 (en) | 2006-07-07 | 2006-07-07 | Speech synthesis apparatus, speech synthesis method, and program for realizing speech synthesis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5019807B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013011634A1 (en) * | 2011-07-19 | 2013-01-24 | 日本電気株式会社 | Waveform processing device, waveform processing method, and waveform processing program |
JP2013190595A (en) * | 2012-03-14 | 2013-09-26 | Yamaha Corp | Sequence data editing device for singing synthesis |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05307395A (en) * | 1992-04-30 | 1993-11-19 | Sony Corp | Voice synthesizer |
JPH06177688A (en) * | 1992-10-05 | 1994-06-24 | Mitsubishi Electric Corp | Audio signal processing unit |
JPH08292791A (en) * | 1995-04-24 | 1996-11-05 | Just Syst Corp | Speech processor |
JPH0968997A (en) * | 1995-08-30 | 1997-03-11 | Sony Corp | Method and device for processing voice |
JPH10222187A (en) * | 1996-12-04 | 1998-08-21 | Just Syst Corp | Device and method for preparing speech text and computer-readable recording medium with program stored for executing its preparation process |
JPH11119790A (en) * | 1997-10-09 | 1999-04-30 | Fuji Xerox Co Ltd | Optical character recognition device, and storage medium where optical character recognition program is recorded |
JPH11143483A (en) * | 1997-08-15 | 1999-05-28 | Hiroshi Kurita | Voice generating system |
JPH11259094A (en) * | 1998-03-10 | 1999-09-24 | Hitachi Ltd | Regular speech synthesis device |
JP2004020733A (en) * | 2002-06-13 | 2004-01-22 | Ricoh Co Ltd | Volume control system, program, and recording medium |
JP2004318164A (en) * | 2003-04-02 | 2004-11-11 | Hiroshi Sekiguchi | Method of controlling sound volume of sound electronic circuit |
JP2005354378A (en) * | 2004-06-10 | 2005-12-22 | Hitachi Kokusai Electric Inc | Transmitter |
-
2006
- 2006-07-07 JP JP2006188405A patent/JP5019807B2/en not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05307395A (en) * | 1992-04-30 | 1993-11-19 | Sony Corp | Voice synthesizer |
JPH06177688A (en) * | 1992-10-05 | 1994-06-24 | Mitsubishi Electric Corp | Audio signal processing unit |
JPH08292791A (en) * | 1995-04-24 | 1996-11-05 | Just Syst Corp | Speech processor |
JPH0968997A (en) * | 1995-08-30 | 1997-03-11 | Sony Corp | Method and device for processing voice |
JPH10222187A (en) * | 1996-12-04 | 1998-08-21 | Just Syst Corp | Device and method for preparing speech text and computer-readable recording medium with program stored for executing its preparation process |
JPH11143483A (en) * | 1997-08-15 | 1999-05-28 | Hiroshi Kurita | Voice generating system |
JPH11119790A (en) * | 1997-10-09 | 1999-04-30 | Fuji Xerox Co Ltd | Optical character recognition device, and storage medium where optical character recognition program is recorded |
JPH11259094A (en) * | 1998-03-10 | 1999-09-24 | Hitachi Ltd | Regular speech synthesis device |
JP2004020733A (en) * | 2002-06-13 | 2004-01-22 | Ricoh Co Ltd | Volume control system, program, and recording medium |
JP2004318164A (en) * | 2003-04-02 | 2004-11-11 | Hiroshi Sekiguchi | Method of controlling sound volume of sound electronic circuit |
JP2005354378A (en) * | 2004-06-10 | 2005-12-22 | Hitachi Kokusai Electric Inc | Transmitter |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013011634A1 (en) * | 2011-07-19 | 2013-01-24 | 日本電気株式会社 | Waveform processing device, waveform processing method, and waveform processing program |
US20140136192A1 (en) * | 2011-07-19 | 2014-05-15 | Nec Corporation | Waveform processing device, waveform processing method, and waveform processing program |
JPWO2013011634A1 (en) * | 2011-07-19 | 2015-02-23 | 日本電気株式会社 | Waveform processing apparatus, waveform processing method, and waveform processing program |
US9443538B2 (en) | 2011-07-19 | 2016-09-13 | Nec Corporation | Waveform processing device, waveform processing method, and waveform processing program |
JP2013190595A (en) * | 2012-03-14 | 2013-09-26 | Yamaha Corp | Sequence data editing device for singing synthesis |
Also Published As
Publication number | Publication date |
---|---|
JP5019807B2 (en) | 2012-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6212496B1 (en) | Customizing audio output to a user's hearing in a digital telephone | |
JP4376489B2 (en) | Frequency domain post-filtering method, apparatus and recording medium for improving the quality of coded speech | |
EP2530671A2 (en) | Voice synthesis apparatus | |
US20080319754A1 (en) | Text-to-speech apparatus | |
JP2009020291A (en) | Speech processor and communication terminal apparatus | |
US8892173B2 (en) | Mobile electronic device and sound control system | |
JP5019807B2 (en) | Speech synthesis apparatus, speech synthesis method, and program for realizing speech synthesis method | |
US9078071B2 (en) | Mobile electronic device and control method | |
JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
JP3197975B2 (en) | Pitch control method and device | |
JP5726446B2 (en) | Portable electronic devices | |
JP2008020840A (en) | Speech synthesizer, speech synthesizing method and program for making computer function as the speech synthesizer, and filter generator, filter generating method and program for making computer function as the filter generator | |
US7130799B1 (en) | Speech synthesis method | |
JP5745453B2 (en) | Voice clarity conversion device, voice clarity conversion method and program thereof | |
JP4366918B2 (en) | Mobile device | |
JP6409417B2 (en) | Sound processor | |
JPH0462600B2 (en) | ||
JP3102553B2 (en) | Audio signal processing device | |
US8145476B2 (en) | Received voice playback apparatus | |
JP2003271200A (en) | Method and device for synthesizing voice | |
JP2004271620A (en) | Mobile terminal | |
JP2001142477A (en) | Voiced sound generator and voice recognition device using it | |
JP5690085B2 (en) | Portable electronic devices | |
JP2809769B2 (en) | Speech synthesizer | |
JP2000242287A (en) | Vocalization supporting device and program recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120612 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |