JP3518898B2 - Speech synthesizer - Google Patents
Speech synthesizerInfo
- Publication number
- JP3518898B2 JP3518898B2 JP21271994A JP21271994A JP3518898B2 JP 3518898 B2 JP3518898 B2 JP 3518898B2 JP 21271994 A JP21271994 A JP 21271994A JP 21271994 A JP21271994 A JP 21271994A JP 3518898 B2 JP3518898 B2 JP 3518898B2
- Authority
- JP
- Japan
- Prior art keywords
- message
- fixed
- variable
- data
- accent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、文字系列のテキスト入
力に基づき、音声を合成出力する音声合成装置に関す
る。特に本発明は車両に搭載されるナビゲーションシス
テム、VICSの使用に適するようにアルゴリズムの簡
素化、ハードウエアの小型化、これに伴う低価格化を図
れる音声合成装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice synthesizing apparatus for synthesizing and outputting a voice based on a text input of a character sequence. In particular, the present invention relates to a navigation system mounted on a vehicle, and a speech synthesizer capable of simplifying an algorithm suitable for use of VICS, downsizing hardware, and thereby lowering costs.
【0002】[0002]
【従来の技術】図20は従来のテキスト音声合成装置を
示す図である。本図に示すように、テキスト音声合成装
置では、入力インタフェース1を介して文字系列のテキ
ストを入力する言語処理部2は、辞書メモリ3、ワーク
メモリ4を用いて文法解析、意味解析等を行い、入力テ
キストを音声記号列に変換した音韻情報、アクセント、
イントネーション、ピッチパターン、ポーズ長等の韻律
情報を形成する。音響処理部3は言語処理部2で得られ
た音声記号列を音声合成単位の音声素片に変換し、この
音声素片を基に、音声素片メモリ6とワークメモリ7と
を用いて、音声規則合成を基に、声道の伝達特性を定め
るパラメータと音源特性に関与するパラメータを形成
し、音声合成フィルタリングを行って、連続音声波形を
形成する。2. Description of the Related Art FIG. 20 is a diagram showing a conventional text-to-speech synthesizer. As shown in the figure, in the text-to-speech synthesizer, the language processing unit 2 for inputting a text of a character series through the input interface 1 performs grammatical analysis, semantic analysis, etc. using the dictionary memory 3 and the work memory 4. , Phonological information, accent,
Prosody information such as intonation, pitch pattern, and pose length is formed. The acoustic processing unit 3 converts the speech symbol string obtained by the language processing unit 2 into a speech unit of a speech synthesis unit, and based on this speech unit, using a speech unit memory 6 and a work memory 7, Based on the speech rule synthesis, the parameters that determine the transfer characteristics of the vocal tract and the parameters that are related to the sound source characteristics are formed, and the speech synthesis filtering is performed to form a continuous speech waveform.
【0003】この連続音声波形はD/A変換器8(Digit
al to Analog Converter) 、低域通過フィルタ/電力増
幅器9を介してスピーカ10から合成音声として出力さ
れる。ここで、言語処理部2には、演算量が多いので、
一般的には汎用の中央演算処理部(CPU)が用いら
れ、音響処理部3には、演算速度が要求されるので、D
SP(Digital Signal Processor) 等の高速演算プロセ
ッサが用いられている。This continuous speech waveform is a D / A converter 8 (Digit
al to Analog Converter), and is output as synthesized speech from the speaker 10 via the low-pass filter / power amplifier 9. Here, since the language processing unit 2 has a large amount of calculation,
Generally, a general-purpose central processing unit (CPU) is used, and the acoustic processing unit 3 is required to have a high processing speed.
A high-speed arithmetic processor such as SP (Digital Signal Processor) is used.
【0004】[0004]
【発明が解決しようとする課題】上記のテキスト音声合
成装置では、任意のテキストデータに対して最適な音韻
・韻律情報を与えることを目的としているので、言語処
理部2と音響処理部3とが複雑なアルゴリズムからな
り、ハードウエア規模も大きくなっている。ところで、
現在音声合成機能の搭載が最も期待されるナビゲーショ
ンやVICS(Vehicle Information Communication Sy
stem)の道路交通情報は出現する語句の大部分が地名、
交差点等の固有名詞であり、使われる文章も固有名詞部
分が変化するだけで、数10から多くて数100種類程
度である。このようなアプリケーションに対して規則合
成に基づく上記テキスト音声合成装置をそのまま採用す
ることは、機能的にオーバースペックであり、ハードウ
エア規模を考えても明らかに不経済であるという問題点
がある。Since the above-mentioned text-to-speech synthesizer is intended to give optimum phoneme / prosodic information to arbitrary text data, the language processing section 2 and the acoustic processing section 3 are combined. It consists of complicated algorithms and the scale of hardware is also increasing. by the way,
Navigation and VICS (Vehicle Information Communication Sy), which are currently expected to be equipped with a voice synthesis function
stem) road traffic information, most of the appearing phrases are place names,
It is a proper noun such as an intersection, and the sentences used are only from the proper noun part to several tens to several hundreds. Adopting the above-mentioned text-to-speech synthesizer based on rule synthesis as it is for such an application has a problem in that it is functionally over-spec, and is obviously uneconomical considering the scale of hardware.
【0005】したがって、本発明は、上記問題点に鑑
み、ナビゲーション、VICSの交通情報に適した簡易
言語処理で、アルゴリズムの簡素化、ハードウエアの小
型化、低価格化を実現できるテキスト音声合成装置を提
供することを目的とする。Therefore, in view of the above problems, the present invention is a text-to-speech synthesizer capable of simplifying the algorithm, downsizing the hardware, and lowering the cost by simple language processing suitable for navigation and VICS traffic information. The purpose is to provide.
【0006】[0006]
【課題を解決するための手段】本発明は、前記問題点を
解決するために、次の構成を有する音声合成装置を提供
する。すなわち、文字系列のメッセージを音声に合成す
る音声合成装置に前記メッセージを固定メッセージと可
変メッセージとに分け、固定メッセージの音響データを
記憶する記憶音声データ部と、前記可変メッセージを読
み情報に処理する言語処理部と、読み情報を音響信号に
処理する音響処理部とが設けられ、固定メッセージの音
響データと可変メッセージの音響データとが接続され
る。In order to solve the above problems, the present invention provides a speech synthesizer having the following configuration. That is, the above-mentioned message is divided into a fixed message and a variable message in a voice synthesizing device for synthesizing a message of a character sequence into a voice, and the acoustic data of the fixed message is recorded.
A storage for storing audio data unit, and the language processing unit for processing the variable message reading information, provided a sound processing unit for processing the read information into an acoustic signal, the acoustic data of the sound data and variable message of the fixed message Are connected.
【0007】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、記憶するパラメータ音声
データ部と、前記可変メッセージを読み情報に処理する
言語処理部と、読み情報を音響信号に処理する音響処理
部とが設けられ、固定メッセージの音響データと可変メ
ッセージの音響データとが接続される。In a voice synthesizer for synthesizing a message of a character series into a voice, the message is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section to be stored together with accent of acoustic data, a language processing section to process the variable message into reading information, and an acoustic processing section to process the reading information into an acoustic signal. Is provided and the fixed message acoustic data and the variable message acoustic data are connected.
【0008】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを記
憶する記憶音声データ部と、前記可変メッセージを読み
情報に処理する言語処理部と、読み情報を音響信号に処
理する音響処理部と、可変メッセージに、そのモーラ長
に基づく基本アクセント型の中から可変メッセージの読
み情報に対応するアクセント型を付与するアクセント処
理部とが設けられ、固定メッセージの音響データと可変
メッセージの音響データとが接続される。[0008] A voice synthesizer for synthesizing a message of a character sequence into a voice divides the message into a fixed message and a variable message, and records acoustic data of the fixed message.
And 憶 storing audio data unit, and the language processing unit for processing the variable message reading information, and a sound processing unit for processing the read information to the sound signal, a variable message, from the base accent type based on the mora length An accent processing unit that provides an accent type corresponding to the reading information of the variable message is provided, and the acoustic data of the fixed message and the acoustic data of the variable message are connected.
【0009】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、記憶するパラメータ音声
データ部と、前記可変メッセージを読み情報に処理する
言語処理部と、読み情報を音響信号に処理する音響処理
部と、可変メッセージに、そのモーラ長に基づく基本ア
クセント型の中から可変メッセージの読み情報に対応す
るアクセント型を付与するアクセント処理部とが設けら
れ、固定メッセージの音響データと可変メッセージの音
響データとが接続される。In a voice synthesizer for synthesizing a message of a character series into a voice, the message is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section to be stored together with accent of acoustic data, a language processing section to process the variable message into reading information, and an acoustic processing section to process the reading information into an acoustic signal. , A variable message is provided with an accent processing unit for giving an accent type corresponding to the reading information of the variable message from the basic accent type based on the mora length, and the acoustic data of the fixed message and the acoustic data of the variable message are provided. Connected.
【0010】前記アクセント処理部は、可変メッセージ
に、そのモーラ長に対して1つの基本アクセント型を付
与する。前記アクセント処理部は、可変メッセージに、
その前後の固定メッセージの種類を基に、アクセント型
を与える。アクセント処理部は、可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中から可変メッ
セージの読み情報に対応するアクセント型を付与すると
共に、その前後の固定メッセージの種類を基に、アクセ
ント型を与える。The accent processing unit adds one basic accent type to the variable message for the mora length. The accent processing unit, in the variable message,
An accent type is given based on the types of fixed messages before and after that. The accent processing unit gives the variable message an accent type corresponding to the reading information of the variable message from the basic accent type based on the mora length, and gives an accent type based on the type of the fixed message before and after the variable message. .
【0011】前記アクセント処理部は、可変メッセージ
に、そのモーラ長に対して1つの基本アクセント型を付
与すると共に、その前後の固定メッセージの種類を基
に、アクセント型を与える。文字系列のメッセージを音
声に合成する音声合成装置に、前記メッセージを固定メ
ッセージと可変メッセージとに分け、固定メッセージの
音響データを記憶する記憶音声データ部と、前記可変メ
ッセージを読み情報に処理する言語処理部と、読み情報
を音響信号に処理する音響処理部と、可変メッセージ
に、そのモーラ長に基づく基本アクセント型の中から可
変メッセージの読み情報に対応するアクセント型を付与
するアクセント処理部と、固定メッセージにイントネー
ションを付与するイントネーション処理部とが設けら
れ、固定メッセージの音響データと可変メッセージの音
響データとが接続される。The accent processing unit gives a variable message one basic accent type for the mora length, and gives an accent type based on the types of fixed messages before and after the variable message. A voice synthesizing device for synthesizing a message of a character sequence into a voice, a storage voice data section for dividing the message into a fixed message and a variable message, storing acoustic data of the fixed message, and a language for processing the variable message into reading information. A processing unit, an acoustic processing unit that processes reading information into an acoustic signal, and an accent processing unit that gives a variable message an accent type corresponding to the reading information of the variable message from among basic accent types based on the mora length, An intonation processing unit that adds an intonation to the fixed message is provided, and the fixed message acoustic data and the variable message acoustic data are connected.
【0012】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、記憶するパラメータ音声
データ部と、前記可変メッセージを読み情報に処理する
言語処理部と、読み情報を音響信号に処理する音響処理
部と、可変メッセージに、そのモーラ長に基づく基本ア
クセント型の中から可変メッセージの読み情報に対応す
るアクセント型を付与するアクセント処理部と、固定メ
ッセージにイントネーションを付与するイントネーショ
ン処理部とが設けられ、固定メッセージの音響データと
可変メッセージの音響データが接続される。In a voice synthesizer for synthesizing a message of a character series into a voice, the message is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section to be stored together with accent of acoustic data, a language processing section to process the variable message into reading information, and an acoustic processing section to process the reading information into an acoustic signal. , A variable message is provided with an accent processing unit for giving an accent type corresponding to reading information of the variable message from a basic accent type based on the mora length, and an intonation processing unit for giving intonation to a fixed message, and fixed. The acoustic data of the message and the acoustic data of the variable message are connected.
【0013】前記記憶音声データ部は、その固定メッセ
ージ中にポーズ長が設けられる。パラメータ音声データ
部は、その固定メッセージ中にポーズ長が設けられる。
文字系列のメッセージを音声に合成する音声合成装置
に、前記メッセージを固定メッセージと可変メッセージ
とに分け、固定メッセージの音響データを記憶し、固定
メッセージ中のポーズ長を制御するパラメータ記憶する
記憶音声データ部と、前記可変メッセージを読み情報に
処理し、可変メッセージのモーラ長を求める言語処理部
と、読み情報を音響信号に処理する音響処理部と、可変
メッセージに、そのモーラ長に基づく基本アクセント型
の中から可変メッセージの読み情報に対応するアクセン
ト型を付与するアクセント処理部と、固定メッセージに
イントネーションを付与するイントネーション処理部
と、前記固定メッセージのモーラ長を基に、ポーズ長制
御パラメータを制御してポーズ長を求めるポーズ長処理
部が設けられ、固定メッセージの音響データと可変メッ
セージの音響データとが接続される。In the stored voice data section, a pause length is provided in the fixed message. In the parameter voice data part, a pause length is provided in the fixed message.
In a voice synthesizer for synthesizing a message of a character series into a voice, the message is divided into a fixed message and a variable message, acoustic data of the fixed message is stored, and parameters for controlling a pause length in the fixed message are stored.
A stored voice data unit, a language processing unit that processes the variable message into reading information and obtains a mora length of the variable message, an acoustic processing unit that processes reading information into an acoustic signal, and a variable message based on the mora length. An accent processing unit for giving an accent type corresponding to the reading information of the variable message from the basic accent type, an intonation processing unit for giving intonation to the fixed message, and a pause length control parameter based on the mora length of the fixed message. Is provided to determine the pause length, and the acoustic data of the fixed message and the acoustic data of the variable message are connected.
【0014】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、固定メッセージ中のポー
ズ長を制御するパラメータ記憶するパラメータ音声デー
タ部と、前記可変メッセージを読み情報に処理する言語
処理部と、読み情報を音響信号に処理する音響処理部
と、可変メッセージに、そのモーラ長に基づく基本アク
セント型の中から可変メッセージの読み情報に対応する
アクセント型を付与するアクセント処理部と、固定メッ
セージにイントネーションを付与するイントネーション
処理部と、前記固定メッセージのモーラ長を基に、ポー
ズ長制御パラメータを制御してポーズ長を求めるポーズ
長処理部とが設けられ、固定メッセージの音響データと
可変メッセージの音響データが接続される。A voice synthesizing device for synthesizing a message of a character series into a voice is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section that stores a parameter that controls a pause length in a fixed message together with accent of acoustic data, a language processing section that processes the variable message into reading information, and reading information To a sound signal, an accent processing unit to give a variable message an accent type corresponding to the reading information of the variable message from a basic accent type based on the mora length, and an intonation to a fixed message. An intonation processing section for controlling the pause length control parameter for controlling the pause length control parameter based on the mora length of the fixed message to connect the acoustic data of the fixed message and the acoustic data of the variable message. To be done.
【0015】文字系列のメッセージを音声に合成する音
声合成装置において、前記メッセージを固定メッセージ
と可変メッセージとに分け、可変メッセージに対し、請
求項1〜14に示す簡単は音韻、韻律処理した後音響処
理し、固定メッセージについては記憶した音響データ
の、再生を行った後固定メッセージの音響データと可変
メッセージの音響データを接続してメッセージを音声に
合成する。In a voice synthesizing apparatus for synthesizing a message of a character sequence into a voice, the message is divided into a fixed message and a variable message, and the variable message is simply phonologically processed after prosodic processing. treated, for a fixed message of the sound data stored, by connecting the sound data of the sound data and variable message of the fixed message after playback synthesizing message to voice.
【0016】[0016]
【作用】本発明の音声合成装置によれば、文字系列のメ
ッセージを音声に合成する音声合成装置に前記メッセー
ジを固定メッセージと可変メッセージとに分け、固定メ
ッセージの音響データを記憶する記憶音声データ部と、
前記可変メッセージを読み情報に処理する言語処理部
と、読み情報を音響信号に処理する音響処理部とが設け
られ、固定メッセージの音響データと可変メッセージの
音響データとが接続されることにより、ナビゲーション
やVICSの交通情報などの固有名詞の多いアプリケー
ションについて従来の本格的な言語処理のオーバースペ
ックが簡易処理されアルゴリズムの簡素化、ハードウェ
アの小型化、コスト低減が実現できる。According to the speech synthesizing device of the present invention, a voice synthesizing device for synthesizing a message of a character sequence into a voice divides the message into a fixed message and a variable message, and stores a sound data of the fixed message in a stored voice data section. When,
A language processing unit that processes the variable message into reading information and an acoustic processing unit that processes the reading information into an acoustic signal are provided, and the acoustic data of the fixed message and the acoustic data of the variable message are connected to each other. For applications with a lot of proper nouns such as traffic information of VICS and VICS, the over-spec of conventional full-scale language processing can be easily processed, and the algorithm can be simplified, the hardware can be downsized, and the cost can be reduced.
【0017】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、記憶するパラメータ音声
データ部と、前記可変メッセージを読み情報に処理する
言語処理部と、読み情報を音響信号に処理する音響処理
部とが設けられ、固定メッセージの音響データと可変メ
ッセージの音響データとが接続されることにより、同様
に、ナビゲーションやVICSの交通情報などの固有名
詞の多いアプリケーションについて従来の本格的な言語
処理のオーバースペックが簡易処理されアルゴリズムの
簡素化、ハードウェアの小型化、コスト低減が実現でき
る。A voice synthesizing apparatus for synthesizing a message of a character sequence into a voice is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section to be stored together with accent of acoustic data, a language processing section to process the variable message into reading information, and an acoustic processing section to process the reading information into an acoustic signal. Since the fixed message acoustic data and the variable message acoustic data are connected to each other, similarly, over-spec of conventional full-scale language processing for applications with many proper nouns such as navigation and VICS traffic information is also provided. Can be easily processed to simplify the algorithm, downsize the hardware, and reduce the cost.
【0018】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを記
憶する記憶音声データ部と、前記可変メッセージを読み
情報に処理する言語処理部と、読み情報を音響信号に処
理する音響処理部と、可変メッセージに、そのモーラ長
に基づく基本アクセント型の中から可変メッセージの読
み情報に対応するアクセント型を付与するアクセント処
理部とが設けられ、固定メッセージの音響データと可変
メッセージの音響データとが接続されることにより、地
名等の固有名詞にもアクセント成分が付与できるため、
自然な合成音声の生成が可能になる。In a voice synthesizer for synthesizing a message of a character sequence into a voice, the message is divided into a fixed message and a variable message, and acoustic data of the fixed message is recorded.
And 憶 storing audio data unit, and the language processing unit for processing the variable message reading information, and a sound processing unit for processing the read information to the sound signal, a variable message, from the base accent type based on the mora length An accent processing unit that gives an accent type corresponding to the reading information of the variable message is provided, and by connecting the acoustic data of the fixed message and the acoustic data of the variable message, the accent component is added to the proper noun such as a place name. Because it can be given
It enables the generation of natural synthetic speech.
【0019】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、記憶するパラメータ音声
データ部と、前記可変メッセージを読み情報に処理する
言語処理部と、読み情報を音響信号に処理する音響処理
部と、可変メッセージに、そのモーラ長に基づく基本ア
クセント型の中から可変メッセージの読み情報に対応す
るアクセント型を付与するアクセント処理部とが設けら
れ、固定メッセージの音響データと可変メッセージの音
響データとが接続されることにより、地名等の固有名詞
にもアクセント成分が付与できるため、自然な合成音声
の生成が可能になる。In a voice synthesizing device for synthesizing a message of a character sequence into a voice, the message is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section to be stored together with accent of acoustic data, a language processing section to process the variable message into reading information, and an acoustic processing section to process the reading information into an acoustic signal. , A variable message is provided with an accent processing unit for giving an accent type corresponding to the reading information of the variable message from the basic accent type based on the mora length, and the acoustic data of the fixed message and the acoustic data of the variable message are provided. By connecting, an accent component can be added to proper nouns such as place names, so that natural synthetic speech can be generated.
【0020】前記アクセント処理部が可変メッセージ
に、そのモーラ長に対して1つの基本アクセント型を付
与することにより、地名等の固有名詞にもアクセント成
分が付与できるため、自然な合成音声の生成が可能にな
り、さらに簡略化される。前記アクセント処理部が可変
メッセージに、その前後の固定メッセージの種類を基
に、アクセント型を与えることにより、隣接する固定メ
ッセージを基に、自然な合成音声の生成が可能になる。By adding one basic accent type for the mora length to the variable message by the accent processing unit, an accent component can be added to proper nouns such as place names, so that natural synthesized speech can be generated. It is possible and even simpler. The accent processing unit gives the variable message an accent type based on the types of fixed messages before and after the variable message, so that natural synthetic speech can be generated based on the adjacent fixed messages.
【0021】アクセント処理部が可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中から可変メッ
セージの読み情報に対応するアクセント型を付与すると
共に、その前後の固定メッセージの種類を基に、アクセ
ント型を与えることにより、地名等の固有名詞にもアク
セント成分が付与でき、隣接する固定メッセージを基
に、自然な合成音声の生成が可能になる。The accent processing unit gives the variable message an accent type corresponding to the reading information of the variable message from the basic accent type based on the mora length, and based on the types of the fixed messages before and after the accent type, the accent type is added. By adding, the accent component can be added to proper nouns such as place names, and natural synthesized speech can be generated based on the adjacent fixed messages.
【0022】前記アクセント処理部が可変メッセージ
に、そのモーラ長に対して1つの基本アクセント型を付
与すると共に、その前後の固定メッセージの種類を基
に、アクセント型を与えることにより、地名等の固有名
詞にもアクセント成分が付与でき、隣接する固定メッセ
ージを基に、自然な合成音声の生成が可能になる。文字
系列のメッセージを音声に合成する音声合成装置に、前
記メッセージを固定メッセージと可変メッセージとに分
け、固定メッセージの音響データを記憶する記憶音声デ
ータ部と、前記可変メッセージを読み情報に処理する言
語処理部と、読み情報を音響信号に処理する音響処理部
と、可変メッセージに、そのモーラ長に基づく基本アク
セント型の中から可変メッセージの読み情報に対応する
アクセント型を付与するアクセント処理部と、固定メッ
セージにイントネーションを付与するイントネーション
処理部とが設けられ、固定メッセージの音響データと可
変メッセージの音響データとが接続されることにより、
固定メッセージと可変メッセージを接続した後に、固定
メッセージが持つイントネーションを接続したメッセー
ジ全体に持たせることによりさらに自然な合成音声の生
成が可能になる。The accent processing unit gives a variable message one basic accent type for its mora length, and gives an accent type based on the types of fixed messages before and after the variable message, so that a unique place name or the like can be obtained. Accent components can be added to nouns, and natural synthetic speech can be generated based on adjacent fixed messages. A voice synthesizing device for synthesizing a message of a character sequence into a voice, a storage voice data section for dividing the message into a fixed message and a variable message, storing acoustic data of the fixed message, and a language for processing the variable message into reading information. A processing unit, an acoustic processing unit that processes reading information into an acoustic signal, and an accent processing unit that gives a variable message an accent type corresponding to the reading information of the variable message from among basic accent types based on the mora length, An intonation processing unit that adds intonation to the fixed message is provided, and by connecting the acoustic data of the fixed message and the acoustic data of the variable message,
After connecting the fixed message and the variable message, by giving the intonation of the fixed message to the entire connected message, it becomes possible to generate a more natural synthesized voice.
【0023】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、記憶するパラメータ音声
データ部と、前記可変メッセージを読み情報に処理する
言語処理部と、読み情報を音響信号に処理する音響処理
部と、可変メッセージに、そのモーラ長に基づく基本ア
クセント型の中から可変メッセージの読み情報に対応す
るアクセント型を付与するアクセント処理部と、固定メ
ッセージにイントネーションを付与するイントネーショ
ン処理部とが設けられ、固定メッセージの音響データと
可変メッセージの音響データが接続されることにより、
固定メッセージと可変メッセージを接続した後に、固定
メッセージが持つイントネーションを接続したメッセー
ジ全体に持たせることによりさらに自然な合成音声の生
成が可能になる。A voice synthesizing device for synthesizing a message of a character sequence into a voice is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section to be stored together with accent of acoustic data, a language processing section to process the variable message into reading information, and an acoustic processing section to process the reading information into an acoustic signal. , A variable message is provided with an accent processing unit for giving an accent type corresponding to reading information of the variable message from a basic accent type based on the mora length, and an intonation processing unit for giving intonation to a fixed message, and fixed. By connecting the acoustic data of the message and the acoustic data of the variable message,
After connecting the fixed message and the variable message, by giving the intonation of the fixed message to the entire connected message, it becomes possible to generate a more natural synthesized voice.
【0024】前記記憶音声データ部が、その固定メッセ
ージ中にポーズ長が設けられることにより、さらに自然
な合成音声の生成が可能になる。パラメータ音声データ
部は、その固定メッセージ中にポーズ長が設けられるこ
とにより、さらに自然な合成音声の生成が可能になる。
文字系列のメッセージを音声に合成する音声合成装置
に、前記メッセージを固定メッセージと可変メッセージ
とに分け、固定メッセージの音響データを記憶し、固定
メッセージ中のポーズ長を制御するパラメータ記憶する
記憶音声データ部と、前記可変メッセージを読み情報に
処理し、可変メッセージのモーラ長を求める言語処理部
と、読み情報を音響信号に処理する音響処理部と、可変
メッセージに、そのモーラ長に基づく基本アクセント型
の中から可変メッセージの読み情報に対応するアクセン
ト型を付与するアクセント処理部と、固定メッセージに
イントネーションを付与するイントネーション処理部
と、前記固定メッセージのモーラ長を基に、ポーズ長制
御パラメータを制御してポーズ長を求めるポーズ長処理
部が設けられ、固定メッセージの音響データと可変メッ
セージの音響データとが接続されることにより、イント
ネーション、ポーズ長の制御が固定メッセージに支配的
であるため、たとえ本アルゴリズム中に有する合成の規
則に従わない可変メッセージが現れても、本来与えられ
るべき規則を適用できない場合でも、聴感上大きな違和
感のある合成メッセージが生じる可能性は少ない。By providing a pause length in the fixed message of the stored voice data section, more natural synthesized voice can be generated. In the parameter voice data section, the pause length is provided in the fixed message, so that a more natural synthetic voice can be generated.
In a voice synthesizer for synthesizing a message of a character series into a voice, the message is divided into a fixed message and a variable message, acoustic data of the fixed message is stored, and parameters for controlling a pause length in the fixed message are stored.
A stored voice data unit, a language processing unit that processes the variable message into reading information and obtains a mora length of the variable message, an acoustic processing unit that processes reading information into an acoustic signal, and a variable message based on the mora length. An accent processing unit for giving an accent type corresponding to the reading information of the variable message from the basic accent type, an intonation processing unit for giving intonation to the fixed message, and a pause length control parameter based on the mora length of the fixed message. Since the pause length processing unit for controlling the pause length is provided and the fixed message acoustic data and the variable message acoustic data are connected, the control of intonation and pause length is dominant in the fixed message. , Even if it does not follow the composition rules in this algorithm. Even sage appears, even if you can not apply rules to be applied originally probably a composite message can introduce audibility big discomfort is small.
【0025】文字系列のメッセージを音声に合成する音
声合成装置に、前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを、
音源パラメータ及び声道伝達特性パラメータとして、音
響データのアクセントと共に、固定メッセージ中のポー
ズ長を制御するパラメータ記憶するパラメータ音声デー
タ部と、前記可変メッセージを読み情報に処理する言語
処理部と、読み情報を音響信号に処理する音響処理部
と、可変メッセージに、そのモーラ長に基づく基本アク
セント型の中から可変メッセージの読み情報に対応する
アクセント型を付与するアクセント処理部と、固定メッ
セージにイントネーションを付与するイントネーション
処理部と、前記固定メッセージのモーラ長を基に、ポー
ズ長制御パラメータを制御してポーズ長を求めるポーズ
長処理部とが設けられ、固定メッセージの音響データと
可変メッセージの音響データが接続されることにより、
同様に、イントネーション、ポーズ長の制御が固定メッ
セージに支配的であるため、たとえ本アルゴリズム中に
有する合成の規則に従わない可変メッセージが現れて
も、本来与えられるべき規則を適用できない場合でも、
聴感上大きな違和感のある合成メッセージが生じる可能
性は少ない。A voice synthesizing device for synthesizing a message of a character series into a voice is divided into a fixed message and a variable message, and acoustic data of the fixed message is
As a sound source parameter and a vocal tract transfer characteristic parameter, a parameter voice data section that stores a parameter that controls a pause length in a fixed message together with accent of acoustic data, a language processing section that processes the variable message into reading information, and reading information To a sound signal, an accent processing unit to give a variable message an accent type corresponding to the reading information of the variable message from a basic accent type based on the mora length, and an intonation to a fixed message. An intonation processing section for controlling the pause length control parameter for controlling the pause length control parameter based on the mora length of the fixed message to connect the acoustic data of the fixed message and the acoustic data of the variable message. By being
Similarly, since the control of intonation and pause length dominates the fixed message, even if a variable message that does not follow the composition rule in this algorithm appears, even if the rule originally given cannot be applied,
It is unlikely that a synthetic message with a large audible discomfort will occur.
【0026】文字系列のメッセージを音声に合成する音
声合成装置において、前記メッセージを固定メッセージ
と可変メッセージとに分け、可変メッセージに対して前
記簡単は、音韻、韻律処理をした後音響処理し、固定メ
ッセージに対しては記憶した音響波形の再生を行った後
固定メッセージの音響データと可変メッセージの音響デ
ータを接続してメッセージを音声に合成することにより
言語処理を大幅に簡単化し従来2チップ構成であって
が、DSP1チップで実現できため、ハードウェア規模
及びコストの大幅な削減が可能になる。In a voice synthesizing device for synthesizing a message of a character sequence into a voice, the message is divided into a fixed message and a variable message, and the variable message is subjected to phonological and prosodic processing and then acoustic processing to be fixed. For the message, the stored acoustic waveform is played back, and then the fixed message acoustic data and the variable message acoustic data are connected to synthesize the message into voice, greatly simplifying the language processing and using the conventional 2-chip configuration. However, since it can be realized with one DSP chip, it is possible to significantly reduce the hardware scale and cost.
【0027】[0027]
【実施例】以下本発明の実施例について図面を参照して
説明する。図1は本発明の第1の実施例に係る音声合成
装置を示す図である。本図に示すように、音声合成装置
は、固定メッセージ、可変メッセージとが識別されたテ
キストデータを入力する入力インタフェース1と、該入
力インタフェース1を介してテキストデータを入力し1
チップのDSPで構成される音声合成部11と、該音声
合成部11を制御するプログラムメモリ12と、音声合
成部11により処理された途中結果を記憶するRAM(R
andom Access Memory)からなるワークメモリ13とが設
けられる。また、音声合成部11は入力テキストデータ
の可変メッセージを処理する言語処理するための地名辞
書、一般辞書を有しROMで構成される辞書部3と、言
語処理された結果を基に音響処理するための音声素片を
記憶する16MビットのROMからなる音声素片部6と
を有する。さらに、この音声合成部11には、固定メッ
セージの音声波形をディジタルの音声データとして記憶
するROM(Read Only Memory)からなる記憶音声データ
部14が接続される。なお、記憶音声データ部14の固
定メッセージの波形データを、ADPCM(Adaptive D
ifferential Pulse Code Modulation)等により情報圧
縮した場合には、再生LSI15を用いて、圧縮データ
を復号化し再生すようにしてもよい。音声合成部11の
出力信号はD/A変換器8、低域通過フィルタ/電力増
幅器9、スピーカ10を介して合成音として出力され
る。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a voice synthesizing apparatus according to a first embodiment of the present invention. As shown in the figure, the speech synthesizer inputs an input interface 1 for inputting text data in which a fixed message and a variable message are identified, and inputs the text data via the input interface 1.
A voice synthesizer 11 configured by a DSP of a chip, a program memory 12 for controlling the voice synthesizer 11, and a RAM (R (R) for storing an intermediate result processed by the voice synthesizer 11.
and a work memory 13 composed of an andom access memory). Further, the voice synthesis unit 11 performs a sound process based on the result of the language processing, and a dictionary unit 3 having a place name dictionary and a general dictionary for performing a language process for processing a variable message of the input text data and including a ROM. And a voice unit section 6 including a 16-Mbit ROM for storing the voice unit for the purpose. Further, the voice synthesis unit 11 is connected to a stored voice data unit 14 including a ROM (Read Only Memory) that stores the voice waveform of a fixed message as digital voice data. The waveform data of the fixed message in the stored voice data section 14 is converted to ADPCM (Adaptive D
When information is compressed by ifferential Pulse Code Modulation) or the like, the reproduction LSI 15 may be used to decode and reproduce the compressed data. The output signal of the voice synthesizer 11 is output as a synthesized voice through the D / A converter 8, the low pass filter / power amplifier 9, and the speaker 10.
【0028】図2は固定メッセージ、可変メッセージと
を識別するテキストデータを説明する図である。本図に
示すようなテキストデータは、ナビゲーション、VIC
Sにより形成される。テキストデータは、例えば、−−
○○高速道路 上り△△I.Cを先頭に××まで10キ
ロの渋滞です。−−とあり、○○、△△、××を可変メ
ッセージとし、他を固定メッセージとする。これを−−
『○○「No.1」高速道路 上り『△△「No.2」
I.Cを先頭に『××「No.3」まで10キロの渋滞
です。−−のように変形し、可変メッセージの頭に識別
子『を入れ、固定メッセージの頭に固定メッセージの種
類の識別子「No.1」を入れる。FIG. 2 is a diagram for explaining text data for identifying a fixed message and a variable message. Text data as shown in this figure can be used for navigation, VIC
It is formed by S. Text data is, for example,
○○ Expressway going up △△ I. There is a 10km traffic jam starting from C to XX. There is-, and XX, ∆∆, and XX are variable messages, and the others are fixed messages. This
"○○" No.1 "Expressway going up" △△ "No.2"
I. Starting from C, there is a 10km traffic jam to "No. 3". It is transformed as in-, and the identifier "is put in the head of the variable message and the identifier" No. 1 "of the fixed message type is put in the head of the fixed message.
【0029】図3は図1の音声合成部11の構成を示す
図である。本図に示すように、音声合成部11は入力イ
ンタフェース1からのテキストデータの識別子から固定
メッセージ又は可変メッセージかを判断する固定/可変
メッセージ判断部20と、固定/可変メッセージ判断部
20の判断結果により固定メッセージ又は可変メッセー
ジの出力先を切り換える切換手段21とを有する。固定
/可変メッセージ判断部20が固定メッセージと判断す
ると、切換手段21を介して、記憶音声データ部14に
固定メッセージ種類の識別子を出力しこれに対応する音
声データが読み出されワークメモリ13に記憶される。FIG. 3 is a diagram showing the configuration of the speech synthesis unit 11 of FIG. As shown in the figure, the voice synthesizing unit 11 determines whether the message is a fixed message or a variable message from the identifier of the text data from the input interface 1, and a determination result of the fixed / variable message determining unit 20. And a switching means 21 for switching the output destination of the fixed message or the variable message. When the fixed / variable message determination unit 20 determines that the message is a fixed message, the fixed message type identifier is output to the stored voice data unit 14 via the switching unit 21 and the corresponding voice data is read and stored in the work memory 13. To be done.
【0030】切換手段21を介して可変メッセージの文
字系列のテキストを入力する言語処理部2は、可変メッ
セージを音声記号列に変換した音韻情報を形成する。こ
のようにし形成された音韻情報、韻律情報はワークメモ
リ13に一次記憶される。音声合成部11のDSPに言
語処理部11に代わり音響処理部23が設けられ、この
音響処理部23は言語処理部2で得られた音声記号列を
音声合成単位の音声素片に変換し、この音声素片を基
に、音声素片メモリ6と音声合成規則とにより、声道の
伝達特性を定めるパラメータと音源特性に関与するパラ
メータを形成し、音声合成フィルタリング処理を行っ
て、連続音声波形データを形成する。この連続音声波形
データはワークメモリ13に記憶される。出力部はワー
クメモリ13の複数の固定メッセージ、複数の変形メッ
セージを所定のメッセージに形成してD/A変換器8に
出力する。The language processing unit 2 which inputs the text of the character string of the variable message via the switching means 21 forms phonological information by converting the variable message into a phonetic symbol string. The phoneme information and the prosody information thus formed are primarily stored in the work memory 13. The DSP of the voice synthesis unit 11 is provided with an acoustic processing unit 23 instead of the language processing unit 11, and the acoustic processing unit 23 converts the voice symbol string obtained by the language processing unit 2 into a voice unit of a voice synthesis unit, Based on this voice unit, a voice unit memory 6 and a voice synthesis rule are used to form parameters that determine transfer characteristics of the vocal tract and parameters that are related to sound source properties, and perform voice synthesis filtering processing to obtain a continuous voice waveform. Form the data. This continuous voice waveform data is stored in the work memory 13. The output unit forms a plurality of fixed messages and a plurality of modified messages in the work memory 13 into predetermined messages and outputs them to the D / A converter 8.
【0031】図4は図3の音声合成部11の一連の動作
を説明するフローチャートである。ステップS1におい
て、固定/可変メッセージ判断部20によりテキストデ
ータに挿入されている識別子を基に構成部分が固定メッ
セージ又は可変メッセージであるかの判断を行う。可変
メッセージとの判断ならステップS2に進み、固定メッ
セージとの判断ならステップS5に進む。FIG. 4 is a flow chart for explaining a series of operations of the speech synthesizer 11 of FIG. In step S1, the fixed / variable message determination unit 20 determines whether the component is a fixed message or a variable message based on the identifier inserted in the text data. If it is determined to be a variable message, the process proceeds to step S2, and if it is determined to be a fixed message, the process proceeds to step S5.
【0032】ステップS2において、上記判断が可変メ
ッセージと判断されたら、言語処理部22により可変メ
ッセージの言語処理を行う。処理した結果をワークメモ
リ13に記憶する。ステップS3において、言語処理部
22に代わり音響処理部23により、言語処理された結
果を基に、連続音声波形データが形成される。If it is determined in step S2 that the message is a variable message, the language processing unit 22 performs language processing of the variable message. The processed result is stored in the work memory 13. In step S3, the audio processing unit 23 instead of the language processing unit 22 forms continuous speech waveform data based on the result of the language processing.
【0033】ステップS4において、可変メッセージの
音声波形データをワークメモリ13に記憶する。ステッ
プS5において、記憶音声データ部14により、固定メ
ッセージの種類を示す識別子を基に、音声データを読み
出す。その音声データをワークメモリ13に記憶する。In step S4, the voice waveform data of the variable message is stored in the work memory 13. In step S5, the stored voice data unit 14 reads voice data based on the identifier indicating the type of the fixed message. The voice data is stored in the work memory 13.
【0034】ステップS6において、上記処理を繰り返
し、終了する。本実施例によれば、特にナビゲーショ
ン、VICSの道路交通情報等のように地名等の固有名
詞が多いアプリケーションにおいて、限られた数の固定
メッセージが録音再生方式(ADPCMに代表される情
報圧縮技術を用いることを含む)により合成され、地名
・交差点等の固有名詞が規則合成によって合成され、前
記固定メッセージと接続することにより所望の文章が合
成される。つまり、固定メッセージについては言語処理
部21、音響処理部22による処理が行われないので、
処理量が大幅に減少し、1チップのDSPで処理が可能
になる。また、DSPでは言語処理部21又は音響処理
部22の一方のみの処理が行われ、同時に処理が行われ
ないので、さらにDSPの処理量が小さくできる。In step S6, the above process is repeated and the process ends. According to this embodiment, a limited number of fixed messages are recorded / reproduced (an information compression technique typified by ADPCM is used in a fixed number of messages, especially in applications such as navigation, VICS road traffic information, etc., where there are many proper names such as place names. (Including use), proper nouns such as place names and intersections are synthesized by rule synthesis, and a desired sentence is synthesized by connecting with the fixed message. That is, since the fixed message is not processed by the language processing unit 21 and the sound processing unit 22,
The amount of processing is greatly reduced, and processing can be performed with a single-chip DSP. Further, since only one of the language processing unit 21 and the sound processing unit 22 is processed in the DSP, but not simultaneously, the processing amount of the DSP can be further reduced.
【0035】図5は本発明の第2の実施例に係る音声合
成装置を示す図である。本図において図1と異なるの
は、記憶音声データ記憶部14に代わるパラメータ音声
データ記憶部16であり、パラメータ音声データ部16
は固定メッセージを、直接音声波形として記憶せず、単
位音声毎に音源パラメータと声道伝達特性パラメータと
として記憶し、読み情報やアクセント情報も保有してい
る。FIG. 5 is a diagram showing a speech synthesizer according to the second embodiment of the present invention. In this figure, what is different from FIG. 1 is a parameter voice data storage unit 16 instead of the storage voice data storage unit 14, and the parameter voice data unit 16
Does not store a fixed message directly as a voice waveform, but stores it as a sound source parameter and vocal tract transfer characteristic parameter for each unit voice, and also holds reading information and accent information.
【0036】図6は図5の音声合成部11の構成を示す
図である。本図において、図3と異なるのは、第2の音
響処理部25であり、第2の音響処理部25は、パラメ
ータ音声データ部16からの音源パラメータ及び声道伝
達特性パラメータを合成して音声波形を形成し、ワーク
メモリ13に記憶する。図7は図6の音声合成部11の
一連の動作を説明するフローチャートである。FIG. 6 is a diagram showing the configuration of the voice synthesizing unit 11 of FIG. In this figure, what is different from FIG. 3 is a second acoustic processing section 25. The second acoustic processing section 25 synthesizes a sound source parameter and a vocal tract transfer characteristic parameter from the parameter sound data section 16 to produce a sound. A waveform is formed and stored in the work memory 13. FIG. 7 is a flow chart for explaining a series of operations of the speech synthesizer 11 of FIG.
【0037】本図において、図4と異なるのは、ステッ
プS7であり、ステップS7においては、第2の音響処
理部25によりパラメータ音声データ記憶部16からの
音源パラメータと声道伝達特性パラメータを合成し、音
声波形を形成する。本実施例によれば、パラメータ音声
データ部16は、パラメータ合成方式を採用するので、
メモリ量が少なくてすむ。4 is different from FIG. 4 in step S7. In step S7, the second sound processing unit 25 synthesizes the sound source parameter from the parameter sound data storage unit 16 and the vocal tract transfer characteristic parameter. And form a voice waveform. According to this embodiment, the parameter voice data unit 16 adopts the parameter synthesizing method.
It requires less memory.
【0038】次に、アクセント、イントネーション、ポ
ーズ長等の韻律情報の形成について説明する。図8は図
1の音声合成部11の構成の変形例を示す図であり、図
9は図5の音声合成部11の構成の変形例を示す図であ
る。図8及び9に示すように、言語処理部22の後段に
アクセント処理部26が設けられる。このアクセント処
理部26は言語処理部22により処理された読み情報に
対して辞書部3からのアクセント情報に基づいてアクセ
ント処理を、以下のように、行う。Next, the formation of prosody information such as accent, intonation, and pose length will be described. FIG. 8 is a diagram showing a modified example of the configuration of the speech synthesis unit 11 of FIG. 1, and FIG. 9 is a diagram showing a modified example of the configuration of the speech synthesis unit 11 of FIG. As shown in FIGS. 8 and 9, an accent processing unit 26 is provided after the language processing unit 22. The accent processing unit 26 performs accent processing on the reading information processed by the language processing unit 22 based on the accent information from the dictionary unit 3 as follows.
【0039】図10は図1及び5の辞書3に固有名詞の
単語等と共に記憶されるアクセント型を説明する図であ
る。アクセント処理部26により可変メッセージは、地
名交差点等の固有名詞に対するアクセントパターンを基
に、アクセントが与えられる。一般的にはnモーラの固
有名詞の語句には0型、1型、…、n型と(n+1)種
の基本アクセント型がある。ここに、モーラとは語句の
長さを表す単位で1モーラが概ね日本語の50音1文字
に相当する。固有名詞のアクセント型は、固有名詞の読
み情報により上記種類の中から一意的に決まる。したが
って、辞書部3に、単語、その読み情報等と共に、アク
セント型を持たせ、各固有名詞に対してアクセント型を
付与することができる。FIG. 10 is a diagram for explaining accent types stored in the dictionary 3 of FIGS. 1 and 5 together with words of proper nouns and the like. The variable message is accented by the accent processing unit 26 based on the accent pattern for proper nouns such as a place name intersection. Generally, there are 0 type, 1 type, ..., N type and (n + 1) kinds of basic accent types in the n-mora proper noun phrases. Here, the mora is a unit indicating the length of a phrase, and one mora corresponds to approximately one Japanese syllabary character. The accent type of a proper noun is uniquely determined from the above types by reading information of the proper noun. Therefore, it is possible to give the dictionary unit 3 an accent type together with a word, its reading information, etc., and attach an accent type to each proper noun.
【0040】具体的には、本図に示すように、単語A
が、例えば「大阪」で、読みAが「おおさか」の場合、
モーラ長aが「4」で、「α」であるアクセント型が与
えられる。さらに、単語Bが、例えば「横浜」で、読み
Bが「よこはま」の場合、モーラ長aが「4」で、
「β」であるアクセント型が与えられる。また、単語C
が、例えば「神戸」で、読みCが「こうべ」の場合、モ
ーラ長bが「3」と「γ」であるアクセント型が与えら
れる。Specifically, as shown in this figure, the word A
However, if, for example, "Osaka" and reading A is "Osaka",
The mora length a is “4” and the accent type is “α”. Furthermore, when the word B is, for example, "Yokohama" and the reading B is "yokohama", the mora length a is "4",
An accent type that is "β" is given. Also, the word C
However, for example, when "Kobe" is used and the reading C is "Kobe", accent types having mora lengths b of "3" and "γ" are given.
【0041】このように、同一のモーラ長であっても異
なるアクセント型が可変メッセージに与えられて自然な
合成音声を得ることができる。上記例では、厳密にnモ
ーラの語句に対して(n+1)個のアクセント型の中か
ら個々に1つを選択していたが、使用する固有名詞のア
クセント型がnモーラに対して唯一に、以下のように、
決まる場合がある。Thus, even if the mora length is the same, different accent types are given to the variable message, and a natural synthesized voice can be obtained. In the above example, one is selected from among (n + 1) accent types for a phrase of n-mora, but the proper noun accent type to be used is unique to n-mora. As below,
It may be decided.
【0042】図11は図10のアクセント制御の簡略化
を説明する図である。本図に示すように、単語Aが、例
えば「大阪」で、読みAが「おおさか」の場合、モーラ
長aが「4」で、「α」であるアクセント型が与えられ
る。さらに、単語Bが、例えば「横浜」で、読みBが
「よこはま」の場合、モーラ長aが「4」で、「α」で
あるアクセント型が与えられる。さらに、単語Aが、例
えば「神戸」で、読みAが「こうべ」の場合、モーラ長
bが「3」で、アクセント型が「γ」であるアクセント
型が与えられる。FIG. 11 is a diagram for explaining the simplification of the accent control shown in FIG. As shown in the figure, when the word A is, for example, "Osaka" and the reading A is "Osaka", the mora length a is "4" and the accent type "α" is given. Furthermore, when the word B is, for example, "Yokohama" and the reading B is "yokohama", the mora length a is "4" and the accent type "α" is given. Furthermore, when the word A is, for example, "Kobe" and the reading A is "kobe", an accent type in which the mora length b is "3" and the accent type is "γ" is given.
【0043】このように、同一のモーラ長に同一のアク
セント型を可変メッセージに与えられて簡略的でかつ自
然な合成音声を得ることができることができる場合があ
る。この場合、アクセント型を辞書部3に記憶しなくて
も、言語処理部22が辞書部3から読み情報を読み出し
たときに、アクセント処理部26ではモーラ長を求めて
アクセント型を決定して付与することができる。よって
記憶容量を低減できる。As described above, it may be possible to obtain a simple and natural synthesized voice by giving the same accent type to the variable message with the same mora length. In this case, even if the accent type is not stored in the dictionary unit 3, when the language processing unit 22 reads the reading information from the dictionary unit 3, the accent processing unit 26 determines the mora length, determines the accent type, and assigns the accent type. can do. Therefore, the storage capacity can be reduced.
【0044】図12は固定メッセージ間の複数箇所に可
変メッセージが入る場合に、その場所毎へのアクセント
型設定を説明する図であり、図13は図12の同一可変
メッセージが異なる固定メッセージ間に入る場合のアク
セント型を説明する図である。地名交差点等の固有名詞
の可変メッセージに対して、図12に示すように、固有
名詞の前後の固定メッセージの種類により、固有名詞
、、のアクセント型が変化する場合がある。例え
ば、名詞に「助詞」、「助動詞」が付いた場合にはアク
セントが変化する。このため、図13に示すように、固
有名詞のアクセント型が決定されるようにしてもよい。
したがって、辞書部3には、可変メッセージが固定メッ
セージ間に入る場所毎に、可変メッセージの単語と共
に、アクセント型を記憶するようにする。この場合、図
2で説明した固定メッセージの識別子を制御パラメータ
として記憶し、アクセント処理部26ではこの制御パラ
メータにより読み出すようにしてもよい。FIG. 12 is a diagram for explaining accent type setting for each location when variable messages are entered at a plurality of locations between fixed messages, and FIG. 13 is for the same variable message of FIG. 12 between different fixed messages. It is a figure explaining the accent type at the time of entering. With respect to variable messages of proper nouns such as place name intersections, the accent types of proper nouns may change depending on the types of fixed messages before and after the proper noun, as shown in FIG. For example, when a noun is attached with "particle" or "auxiliary verb", the accent changes. Therefore, as shown in FIG. 13, the accent type of the proper noun may be determined.
Therefore, the dictionary unit 3 stores the accent type together with the words of the variable message for each place where the variable message enters between the fixed messages. In this case, the identifier of the fixed message described with reference to FIG. 2 may be stored as a control parameter, and the accent processing unit 26 may be read by this control parameter.
【0045】次に、可変メッセージのアクセント型が固
定メッセージ間に入る毎に変化する場合と、変化しない
場合がある。このため、変化する場合には、可変メッセ
ージが固定メッセージ間に入る場所毎に、可変メッセー
ジの単語と共に、アクセント型を記憶し、変化しない場
合には、図10に示すように、同一のモーラ長であって
も異なるアクセント型が可変メッセージを記憶するよう
にしてもよい。さらに変化しない場合には、図11に示
すように、辞書部3から読み情報を読み出したときに、
モーラ長を求めてアクセント型を決定するようしてもよ
い。このようにしてアクセント処理部26でのアクセン
ト制御を簡単化できる。Next, the accent type of the variable message may or may not change each time it is inserted between fixed messages. Therefore, when it changes, the accent type is stored together with the word of the variable message for each place where the variable message enters between the fixed messages, and when it does not change, as shown in FIG. 10, the same mora length is stored. However, different accent types may store the variable message. If there is no further change, as shown in FIG. 11, when reading information is read from the dictionary unit 3,
The accent type may be determined by obtaining the mora length. In this way, the accent control in the accent processing unit 26 can be simplified.
【0046】図14は図1の音声合成部11の構成の別
の変形例を示す図であり、図15は図5の音声合成部1
1の構成の別の変形例を示す図である。本図14及び1
5に示すように、言語処理部22の後段にアクセント処
理部26と、記憶音声データ部14の後段及び音響処理
部25の後段にイントネーション部27とが設けられ
る。ここに、アクセント処理部26は図8及び9で説明
したものと同一である。FIG. 14 is a diagram showing another modification of the configuration of the speech synthesis unit 11 of FIG. 1, and FIG. 15 is a speech synthesis unit 1 of FIG.
It is a figure which shows another modification of the structure of 1. This FIG. 14 and 1
As shown in FIG. 5, an accent processing unit 26 is provided at the subsequent stage of the language processing unit 22, and an intonation unit 27 is provided at the subsequent stage of the stored voice data unit 14 and the acoustic processing unit 25. Here, the accent processing unit 26 is the same as that described in FIGS.
【0047】図16は可変メッセージへの成分と固定メ
ッセージへのイントネーション成分との合成成分を説明
する図である。本図(a)は可変メッセージへのアクセ
ント成分の例を示し、本図(b)は固定メッセージへの
イントネーション成分を示し、本図(c)は、アクセン
ト成分とイントネーション成分との合成成分を示す。記
憶音声データ部14、パラメータ音声データ部16には
イントネーションが考慮されないので、イントネーショ
ン部27によりこれを考慮する。一般的に人間が話す場
合には、本図(c)のように、右下がりのイントネーシ
ョンとなるが、メッセージの内容により異なる。よっ
て、実際に人間が話したデータを分析しイントネーショ
ン成分を抽出してデータとして持っていれば合成時にイ
ントネーションを付与することができる。このようにし
て得られた可変メッセージと固有メッセージとは対数軸
上で加算される。このようにして、自然なピッチパター
ンの音声合成を得ることが可能になる。FIG. 16 is a diagram for explaining a combined component of a variable message component and a fixed message intonation component. This figure (a) shows the example of the accent component to a variable message, this figure (b) shows the intonation component to a fixed message, and this figure (c) shows the synthetic | combination component of an accent component and an intonation component. . Record
憶 audio data portion 14, since the parameter audio data portion 16 is not taken into account the intonation, consider this the intonation unit 27. In general, when a human speaks, the intonation is downward to the right as shown in FIG. 7C, but it depends on the content of the message. Therefore, if the data actually spoken by the human being is analyzed and the intonation component is extracted and held as data, the intonation can be added at the time of synthesis. The variable message and the unique message thus obtained are added on the logarithmic axis. In this way, it is possible to obtain natural pitch pattern speech synthesis.
【0048】図17は図1の音声合成部11の構成の他
の変形例を示す図であり、図18は図5の音声合成部1
1の構成の他の変形例を示す図である。本図17及び1
8に示すように、言語処理部22の後段にアクセント処
理部26と、記憶音声データ部14の後段及び音響処理
部25の後段にイントネーション部27と、記憶音声デ
ータ部14及びパラメータ音声データ部16の後段にポ
ーズ長処理部28が設けられる。ここに、アクセント処
理部26、イントネーション部27は図14及び15で
説明したものと同一である。FIG. 17 is a diagram showing another modification of the configuration of the speech synthesis unit 11 of FIG. 1, and FIG. 18 is a speech synthesis unit 1 of FIG.
It is a figure which shows the other modification of the structure of 1. FIG. 17 and 1
As shown in 8, and the accent processing unit 26 in the subsequent stage of the language processing unit 22, an intonation unit 27 downstream of the rear stage and the sound processing unit 25 of the storage voice data section 14, a storage voice data section 14 and the parameter audio data section 16 A pause length processing unit 28 is provided in the subsequent stage. Here, the accent processing unit 26 and the intonation unit 27 are the same as those described in FIGS. 14 and 15.
【0049】図19は記憶音声データ部14及びパラメ
ータ音声データ部16に記憶される固有メッセージのポ
ーズ長を説明する図である。本図に示すように、記憶音
声データ部14及びパラメータ音声データ部16に記憶
される固定メッセージ中の位置に、例えば、P1、P
2、P3、P4に一定長さのポーズ長を与える。このよ
うに、ポーズ長を設けることにより、自然な音声合成を
得ることができる。FIG. 19 is a diagram for explaining the pause length of the unique message stored in the stored voice data section 14 and the parameter voice data section 16. As shown in the figure, the position in the fixed message stored in the storage sound <br/> voice data section 14 and the parameter audio data unit 16, for example, P1, P
Give 2, P3, and P4 a fixed pause length. In this way, by providing the pause length, natural speech synthesis can be obtained.
【0050】さらに、記憶音声データ部14及びパラメ
ータ音声データ部16に記憶される固定メッセージ中の
位置に、例えば、P1、P2、P3、P4に一定の長さ
のポーズ長を与えると共にポーズ長を制御するパラメー
タを記憶しておく。ポーズ長処理部28は、言語処理部
22の情報により隣接する可変メッセージのモーラ長に
基づいてポーズ長を可変にする。例えば、P2、P3の
ポーズ長を大きくなるように変化させる。このようにし
てより自然な音声合成を得ることができる。そして従来
2チップ構成であってが、DSP1チップで実現できた
め、ハードウェア規模及びコストの大幅な削減が可能に
なる。Further, for example, a fixed pause length is given to P1, P2, P3, and P4 at positions in the fixed message stored in the stored voice data section 14 and the parameter voice data section 16, and the pause length is set. The parameters to be controlled are stored. The pause length processing unit 28 makes the pause length variable based on the mora length of the adjacent variable message according to the information of the language processing unit 22. For example, the pause lengths of P2 and P3 are changed to be large. In this way, more natural speech synthesis can be obtained. Further, although the conventional two-chip configuration can be realized by one DSP chip, the hardware scale and cost can be significantly reduced.
【0051】[0051]
【発明の効果】以上説明したように 本発明の音声合成
装置によれば、文字系列のメッセージを音声に合成する
音声合成装置に前記メッセージを固定メッセージと可変
メッセージとに分け、固定メッセージの音響データを記
憶し、前記可変メッセージを読み情報に処理し、読み情
報を音響信号に処理し、固定メッセージの音響データと
可変メッセージの音響データとが接続されるので、ナビ
ゲーションやVICSの交通情報などの固有名詞の多い
アプリケーションについて従来の本格的な言語処理のオ
ーバースペックが簡易処理されアルゴリズムの簡素化、
ハードウェアの小型化、コスト低減が実現できる。さら
に、可変メッセージに、そのモーラ長に基づく基本アク
セント型の中から可変メッセージの読み情報に対応する
アクセント型を付与するので、地名等の固有名詞にもア
クセント成分が付与できるため、自然な合成音声の生成
が可能になる。可変メッセージに、そのモーラ長に対し
て1つの基本アクセント型を付与するので、地名等の固
有名詞にもアクセント成分が付与できるため、自然な合
成音声の生成が可能になり、さらに簡略化される。As described above, according to the voice synthesizing device of the present invention, the voice synthesizing device for synthesizing a message of a character sequence into a voice divides the message into a fixed message and a variable message, and outputs the acoustic data of the fixed message. Note
By the way, since the variable message is processed into reading information, the reading information is processed into an acoustic signal, and the fixed message acoustic data and the variable message acoustic data are connected, a proper noun such as navigation or VICS traffic information. For many applications, the over-spec of conventional full-scale language processing is easily processed and the algorithm is simplified,
Hardware downsizing and cost reduction can be realized. Furthermore, since the accent type corresponding to the reading information of the variable message is given to the variable message from the basic accent type based on the mora length, the accent component can be given to proper nouns such as place names, so that natural synthetic speech Can be generated. Since one basic accent type is added to the variable message for the mora length, an accent component can be added to proper nouns such as place names, so that natural synthetic speech can be generated and further simplified. .
【0052】前記アクセント処理部が可変メッセージ
に、その前後の固定メッセージの種類を基に、アクセン
ト型を与えるので、隣接する固定メッセージを基に、自
然な合成音声の生成が可能になる。可変メッセージに、
そのモーラ長に基づく基本アクセント型の中から可変メ
ッセージの読み情報に対応するアクセント型を付与する
と共に、その前後の固定メッセージの種類を基に、アク
セント型を与えるので、地名等の固有名詞にもアクセン
ト成分が付与でき、隣接する固定メッセージを基に、自
然な合成音声の生成が可能になる。アクセント処理部が
可変メッセージに、そのモーラ長に対して1つの基本ア
クセント型を付与すると共に、その前後の固定メッセー
ジの種類を基に、アクセント型を与えることので、地名
等の固有名詞にもアクセント成分が付与でき、隣接する
固定メッセージを基に、自然な合成音声の生成が可能に
なる。さらに、固定メッセージにイントネーションを付
与するので、固定メッセージと可変メッセージを接続し
た後に、固定メッセージが持つイントネーションを接続
したメッセージ全体に持たせることによりさらに自然な
合成音声の生成が可能になる。音声データ部の固定メッ
セージ中にポーズ長が設けられることにより、さらに自
然な合成音声の生成が可能になる。音声データ部に固定
メッセージ中のポーズ長を制御するパラメータが記憶さ
れ、ポーズ長制御パラメータを制御してポーズ長を求め
るので、イントネーション、ポーズ長の制御が固定メッ
セージに支配的であるため、たとえ本アルゴリズム中に
有する合成の規則に従わない可変メッセージが現れて
も、本来与えられるべき規則を適用できない場合でも、
聴感上大きな違和感のある合成メッセージが生じる可能
性は少ない。Since the accent processing unit gives the accent type to the variable message based on the types of the fixed messages before and after the variable message, it is possible to generate a natural synthetic speech based on the adjacent fixed messages. Variable message,
From the basic accent type based on the mora length, the accent type corresponding to the reading information of the variable message is given, and the accent type is given based on the type of the fixed message before and after it. Accent components can be added and natural synthesized speech can be generated based on adjacent fixed messages. The accent processing unit gives a variable message one basic accent type for its mora length, and also gives an accent type based on the types of fixed messages before and after it, so it accents even proper names such as place names. Components can be added and natural synthetic speech can be generated based on adjacent fixed messages. Further, since the intonation is added to the fixed message, after connecting the fixed message and the variable message, the intonation of the fixed message is given to the entire connected message, so that a more natural synthetic speech can be generated. By providing the pause length in the fixed message of the voice data part, it becomes possible to generate a more natural synthesized voice. Since the parameter that controls the pause length in the fixed message is stored in the voice data part and the pause length is controlled by controlling the pause length control parameter, the control of intonation and pause length is dominant in the fixed message. Even if a variable message that does not follow the composition rule in the algorithm appears, even if the rule originally given cannot be applied,
It is unlikely that a synthetic message with a large audible discomfort will occur.
【図1】本発明の第1の実施例に係る音声合成装置を示
す図である。FIG. 1 is a diagram showing a voice synthesizing apparatus according to a first embodiment of the present invention.
【図2】固定メッセージ、可変メッセージとを識別する
テキストデータを説明する図である。FIG. 2 is a diagram illustrating text data for identifying a fixed message and a variable message.
【図3】図1の音声合成部11の構成を示す図である。3 is a diagram showing a configuration of a voice synthesis unit 11 in FIG.
【図4】図3の音声合成部11の一連の動作を説明する
フローチャートである。FIG. 4 is a flowchart illustrating a series of operations of the speech synthesis unit 11 of FIG.
【図5】本発明の第2の実施例に係る音声合成装置を示
す図である。FIG. 5 is a diagram showing a voice synthesis device according to a second embodiment of the present invention.
【図6】図5の音声合成部11の構成を示す図である。6 is a diagram showing a configuration of a voice synthesis unit 11 in FIG.
【図7】図6の音声合成部11の一連の動作を説明する
フローチャートである。7 is a flowchart illustrating a series of operations of the speech synthesis unit 11 of FIG.
【図8】図1の音声合成部11の構成の変形例を示す図
である。8 is a diagram showing a modified example of the configuration of the voice synthesis unit 11 in FIG.
【図9】図5の音声合成部11の構成の変形例を示す図
である。9 is a diagram showing a modified example of the configuration of the voice synthesis unit 11 in FIG.
【図10】図1及び5の辞書3に固有名詞の単語等と共
に記憶されるアクセント型を説明する図である。FIG. 10 is a diagram illustrating accent types stored in the dictionary 3 of FIGS. 1 and 5 together with proper noun words and the like.
【図11】図10のアクセント制御の簡略化を説明する
図である。11 is a diagram illustrating simplification of the accent control in FIG.
【図12】固定メッセージ間の複数箇所に可変メッセー
ジが入る場合に、その場所毎へのアクセント型設定を説
明する図である。FIG. 12 is a diagram for explaining accent type setting for each place when variable messages are entered at a plurality of places between fixed messages.
【図13】図12の同一可変メッセージが異なる固定メ
ッセージ間に入る場合のアクセント型を説明する図であ
る。FIG. 13 is a diagram illustrating an accent type when the same variable message in FIG. 12 is inserted between different fixed messages.
【図14】図1の音声合成部11の構成の別の変形例を
示す図である。14 is a diagram showing another modification of the configuration of the voice synthesis unit 11 in FIG.
【図15】図5の音声合成部11の構成の別の変形例を
示す図である。15 is a diagram showing another modification of the configuration of the voice synthesis unit 11 in FIG.
【図16】可変メッセージへの成分と固定メッセージへ
のイントネーション成分との合成成分を説明する図であ
る。FIG. 16 is a diagram illustrating a combined component of a variable message component and a fixed message intonation component.
【図17】図1の音声合成部11の構成の他の変形例を
示す図である。17 is a diagram showing another modified example of the configuration of the speech synthesis unit 11 in FIG.
【図18】図5の音声合成部11の構成の他の変形例を
示す図である。18 is a diagram showing another modified example of the configuration of the speech synthesis unit 11 in FIG.
【図19】記憶音声データ部14及びパラメータ音声デ
ータ部16に記憶される固有メッセージのポーズ長を説
明する図である。FIG. 19 is a diagram illustrating a pause length of a unique message stored in a stored voice data unit 14 and a parameter voice data unit 16.
【図20】従来のテキスト音声合成装置を示す図であ
る。FIG. 20 is a diagram showing a conventional text-to-speech synthesizer.
3…辞書部 6…音声素片記憶部 11…音声合成部 13…ワークメモリ 14…記憶音声データ部 16…パラメータ音声データ部 20…固定/可変メッセージ判断部 21…切換手段 22…言語処理部 23、25…音響処理部 26…アクセント処理部 27…イントネーション処理部 28…ポーズ長処理部3 ... Dictionary unit 6 ... Speech unit storage unit 11 ... Speech synthesis unit 13 ... Work memory 14 ... Stored voice data unit 16 ... Parameter voice data unit 20 ... Fixed / variable message determination unit 21 ... Switching means 22 ... Language processing unit 23 , 25 ... Acoustic processing unit 26 ... Accent processing unit 27 ... Intonation processing unit 28 ... Pose length processing unit
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤本 昇治 兵庫県神戸市兵庫区御所通1丁目2番28 号 富士通テン株式会社内 (72)発明者 高橋 育恵 兵庫県神戸市兵庫区御所通1丁目2番28 号 富士通テン株式会社内 (56)参考文献 特開 平5−27789(JP,A) 特開 平4−107598(JP,A) 特開 平4−367000(JP,A) 特開 平6−162076(JP,A) 特開 平4−19800(JP,A) 特開 平1−302419(JP,A) 特開 平2−211523(JP,A) ─────────────────────────────────────────────────── ─── Continued front page (72) Inventor Shoji Fujimoto 1-2-2 Goshodori, Hyogo-ku, Kobe-shi, Hyogo Issue within Fujitsu Ten Limited (72) Inventor Ikue Takahashi 1-2-2 Goshodori, Hyogo-ku, Kobe-shi, Hyogo Issue within Fujitsu Ten Limited (56) References JP-A-5-27789 (JP, A) JP-A-4-107598 (JP, A) JP-A-4-367000 (JP, A) JP-A-6-162076 (JP, A) JP-A-4-19800 (JP, A) JP-A-1-302419 (JP, A) JP-A-2-211523 (JP, A)
Claims (15)
れた固定メッセージと、可変メッセージを示す識別子を
入れた可変メッセージとを含むテキストデータからなる
入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、 固定メッセージの音響データを記憶し、前記切り換え手
段から出力された固定メッセージの種類を示す識別子に
対応する固定メッセージの音声データを出力する記憶音
声データ部(14)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理する言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータとを接続してメッセージを音声に合成する音声合成
装置。1. Entering an identifier indicating the type of fixed message
A fixed message, an identifier indicating a variable message
An input message composed of text data including the inserted variable message ; a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier; and a fixed message and a variable message according to the discrimination. and switching means for switching the output destination (21), stores the sound data of the fixed message, the switching hands
An identifier that indicates the type of fixed message output from the column
A stored voice data section (14) for outputting voice data of a corresponding fixed message, a language processing section (22) for processing the variable message output from the switching means into reading information, and processing the reading information into acoustic data . Sound processing unit (2
3) and a voice synthesizing apparatus for synthesizing a message into voice by connecting fixed message acoustic data and variable message acoustic data.
れた固定メッセージと、可変メッセージを示す識別子を
入れた可変メッセージとを含むテキストデータからなる
入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、固定 メッセージの音響データを、音源パラメータ及び声
道伝達特性パラメータとして、音響データのアクセント
と共に、記憶し、前記切り換え手段から出力された固定
メッセージの種類を示す識別子に対応する固定メッセー
ジの音響データを出力するパラメータ音声データ部(1
6)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理する言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータとを接続してメッセージを音声に合成する音声合成
装置。2. Entering an identifier indicating the type of fixed message
A fixed message, an identifier indicating a variable message
An input message composed of text data including the inserted variable message ; a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier; and a fixed message and a variable message according to the discrimination. (21) for switching the output destination of the fixed message, and acoustic data of the fixed message are stored as a sound source parameter and a vocal tract transfer characteristic parameter together with the accent of the acoustic data, and the fixed data output from the switching means is stored.
A fixed message corresponding to the identifier that indicates the type of message
Parameter audio data unit outputs the sound data of di (1
6), a language processing unit (22) that processes the variable message output from the switching unit into reading information, and an acoustic processing unit (2) that processes the reading information into acoustic data.
3) and a voice synthesizing apparatus for synthesizing a message into voice by connecting fixed message acoustic data and variable message acoustic data.
れた固定メッセージと、可変メッセージを示す識別子を
入れた可変メッセージとを含むテキストデータからなる
入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、 固定メッセージの音響データを記憶し、前記切り換え手
段から出力された固定メッセージの種類を示す識別子に
対応する固定メッセージの音声データを出力する記憶音
声データ部(14)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理する言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、前記切り換え手段から出力された 可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中からその可変
メッセージの読み情報に対応するアクセント型を付与す
るアクセント処理部(26)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータとを接続してメッセージを音声に合成する音声合成
装置。3. Entering an identifier indicating the type of fixed message
A fixed message, an identifier indicating a variable message
An input message composed of text data including the inserted variable message ; a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier; and a fixed message and a variable message according to the discrimination. and switching means for switching the output destination (21), stores the sound data of the fixed message, the switching hands
An identifier that indicates the type of fixed message output from the column
A stored voice data section (14) for outputting voice data of a corresponding fixed message, a language processing section (22) for processing the variable message output from the switching means into reading information, and processing the reading information into acoustic data . Sound processing unit (2
And 3), the variable message output from said switching means comprises accent processing unit for imparting accent type corresponding among the basic accent type based on the mora length reading information of the variable message (26), the , A voice synthesizing device for synthesizing a message by synthesizing a fixed message and variable message acoustic data.
れた固定メッセージと、可変メッセージを示す識別子を
入れた可変メッセージとを含むテキストデータからなる
入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、固定 メッセージの音響データを、音源パラメータ及び声
道伝達特性パラメータとして、音響データのアクセント
と共に、記憶し、前記切り換え手段から出力された固定
メッセージの種類を示す識別子に対応する固定メッセー
ジの音響データを出力するパラメータ音声データ部(1
6)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理する言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、前記切り換え手段から出力された 可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中からその可変
メッセージの読み情報に対応するアクセント型を付与す
るアクセント処理部(26)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータとを接続してメッセージを音声に合成する音声合成
装置。4. Entering an identifier indicating the type of fixed message
A fixed message, an identifier indicating a variable message
An input message composed of text data including the inserted variable message ; a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier; and a fixed message and a variable message according to the discrimination. (21) for switching the output destination of the fixed message, and acoustic data of the fixed message are stored as a sound source parameter and a vocal tract transfer characteristic parameter together with the accent of the acoustic data, and the fixed data output from the switching means is stored.
A fixed message corresponding to the identifier that indicates the type of message
Parameter audio data unit outputs the sound data of di (1
6), a language processing unit (22) that processes the variable message output from the switching unit into reading information, and an acoustic processing unit (2) that processes the reading information into acoustic data.
And 3), the variable message output from said switching means comprises accent processing unit for imparting accent type corresponding among the basic accent type based on the mora length reading information of the variable message (26), the , A voice synthesizing device for synthesizing a message by synthesizing a fixed message and variable message acoustic data.
メッセージに、そのモーラ長に対して1つの基本アクセ
ント型を付与することを特徴とする、請求項3又は4に
記載の音声合成装置。5. The speech synthesis apparatus according to claim 3, wherein the accent processing unit (26) adds one basic accent type to the variable message for the mora length.
メッセージに、その前後の固定メッセージの種類を基
に、アクセント型を与えることを特徴とする、請求項3
又は4に記載の音声合成装置。6. The accent processing unit (26) gives an accent type to a variable message based on the types of fixed messages before and after the variable message.
Or the speech synthesizer according to 4.
セージに、そのモーラ長に基づく基本アクセント型の中
から可変メッセージの読み情報に対応するアクセント型
を付与すると共に、その前後の固定メッセージの種類を
基に、アクセント型を与えることを特徴とする、請求項
3又は4に記載の音声合成装置。7. The accent processing unit (26) adds to a variable message an accent type corresponding to reading information of the variable message from among basic accent types based on the mora length, and types of fixed messages before and after that. The speech synthesizer according to claim 3 or 4, wherein an accent type is given based on.
メッセージに、そのモーラ長に対して1つの基本アクセ
ント型を付与すると共に、その前後の固定メッセージの
種類を基に、アクセント型を与えることを特徴とする、
請求項3又は4に記載の音声合成装置。8. The accent processing unit (26) provides a variable message with one basic accent type for its mora length, and also gives an accent type based on the types of fixed messages before and after it. Characterized by,
The speech synthesizer according to claim 3 or 4.
れた固定メッセージと、可変メッセージを示す識別子を
入れた可変メッセージとを含むテキストデータからなる
入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、 固定メッセージの音響データを記憶し、前記切り換え手
段から出力された固定メッセージの種類を示す識別子に
対応する固定メッセージの音声データを出力する記憶音
声データ部(14)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理する言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、前記切り換え手段から出力された 可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中からその可変
メッセージの読み情報に対応するアクセント型を付与す
るアクセント処理部(26)と、前記切り換え手段から出力された 固定メッセージにイン
トネーションを付与するイントネーション処理部(2
7)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータとを接続してメッセージを音声に合成する音声合成
装置。9. An identifier indicating the type of fixed message is entered.
A fixed message, an identifier indicating a variable message
An input message composed of text data including the inserted variable message ; a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier; and a fixed message and a variable message according to the discrimination. and switching means for switching the output destination (21), stores the sound data of the fixed message, the switching hands
An identifier that indicates the type of fixed message output from the column
A stored voice data section (14) for outputting voice data of a corresponding fixed message, a language processing section (22) for processing the variable message output from the switching means into reading information, and processing the reading information into acoustic data . Sound processing unit (2
And 3), the variable message output from the switching means, an accent processor for imparting accent type corresponding among the basic accent type based on the mora length reading information of the variable message (26), the switching Intonation processing unit (2) that adds intonation to the fixed message output from the means
7) and a voice synthesizing device for synthesizing a message into voice by connecting acoustic data of a fixed message and acoustic data of a variable message.
入れた固定メッセージと、可変メッセージを示す識別子
を入れた可変メッセージとを含むテキストデータからな
る入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、固定 メッセージの音響データを、音源パラメータ及び声
道伝達特性パラメータとして、音響データのアクセント
と共に、記憶し、前記切り換え手段から出力された固定
メッセージの種類を示す識別子に対応する固定メッセー
ジの音響データを出力するパラメータ音声データ部(1
6)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理する言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、前記切り換え手段から出力された 可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中からその可変
メッセージの読み情報に対応するアクセント型を付与す
るアクセント処理部(26)と、前記切り換え手段から出力された 固定メッセージにイン
トネーションを付与するイントネーション処理部(2
7)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータを接続してメッセージを音声に合成する音声合成装
置。 The 10. identifier indicating the type of the fixed message
An identifier indicating the fixed message and variable message
An input message including text data including a variable message , a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier, and a fixed message and a variable according to the discrimination. A switching means (21) for switching the output destination of the message, and fixed sound data of the fixed message, which is stored as sound source parameters and vocal tract transfer characteristic parameters, together with the accent of the sound data, and output from the switching means.
A fixed message corresponding to the identifier that indicates the type of message
Parameter audio data unit outputs the sound data of di (1
6), a language processing unit (22) that processes the variable message output from the switching unit into reading information, and an acoustic processing unit (2) that processes the reading information into acoustic data.
And 3), the variable message output from the switching means, an accent processor for imparting accent type corresponding among the basic accent type based on the mora length reading information of the variable message (26), the switching Intonation processing unit (2) that adds intonation to the fixed message output from the means
7) and a voice synthesizing device for synthesizing a message into voice by connecting fixed message acoustic data and variable message acoustic data.
の固定メッセージ中にポーズ長が設けられることを特徴
とする、請求項9に記載の音声合成装置。11. The voice synthesizing apparatus according to claim 9, wherein the stored voice data unit (14) has a pause length provided in a fixed message thereof.
その固定メッセージ中にポーズ長が設けられることを特
徴とする、請求項10に記載の音声合成装置。12. The parameter voice data section (16) comprises:
The speech synthesizer according to claim 10, wherein a pause length is provided in the fixed message.
入れた固定メッセージと、可変メッセージを示す識別子
を入れた可変メッセージとを含むテキストデータからな
る入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、 固定メッセージの音響データとその固定メッセージ中の
ポーズ長を制御するパラメータ記憶し、前記切り換え手
段から出力された固定メッセージの種類を示す識別子に
対応する固定メッセージの音声データを出力する記憶音
声データ部(14)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理し、その可変メッセージのモーラ長を求める
言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、前記切り換え手段から出力された 可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中からその可変
メッセージの読み情報に対応するアクセント型を付与す
るアクセント処理部(26)と、前記切り換え手段から出力された 固定メッセージにイン
トネーションを付与するイントネーション処理部(2
7)と、 前記固定メッセージのモーラ長を基にポーズ長制御パラ
メータを制御して、その固定メッセージのポーズ長を可
変するポーズ長処理部(28)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータとを接続してメッセージを音声に合成する音声合成
装置。 13. A identifier indicating the type of the fixed message
An identifier indicating the fixed message and variable message
An input message including text data including a variable message , a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier, and a fixed message and a variable according to the discrimination. Switching means (21) for switching the output destination of the message, and the acoustic data of the fixed message and the fixed message
Parameters for controlling the pose length are stored and the switching hand
An identifier that indicates the type of fixed message output from the column
A storage audio data unit for outputting audio data of the corresponding fixed messages (14), and processed information read variable message output from the switching means, the language processing unit for obtaining the mora length of the variable message (22) , An acoustic processing unit (2 that processes the reading information into acoustic data
And 3), the variable message output from the switching means, an accent processor for imparting accent type corresponding among the basic accent type based on the mora length reading information of the variable message (26), the switching Intonation processing unit (2) that adds intonation to the fixed message output from the means
7) and controlling the pause length control parameter based on the mora length of the fixed message to enable the pause length of the fixed message.
Pause length processing unit for varying (28), comprising a speech synthesis apparatus for synthesizing a speech message by connecting the sound data of the sound data and variable message of the fixed message.
入れた固定メッセージと、可変メッセージを示す識別子
を入れた可変メッセージとを含むテキストデータからな
る入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、 切り換え後の固定メッセージの音響データを、音源パラ
メータ及び声道伝達特性パラメータとして、音響データ
のアクセントと共に、固定メッセージ中のポーズ長を制
御するパラメータ記憶するパラメータ音声データ部(1
6)と、固定 メッセージの音響データを、音源パラメータ及び声
道伝達特性パラメータとして、音響データのアクセント
と共に、及びその固定メッセージ中のポーズ長を制御す
るパラメータを記憶し、前記切り換え手段から出力され
た固定メッセージの種類を示す識別子に対応する固定メ
ッセージの音響データを出力するパラメータ音声データ
部(16)と、前記切り換え手段から出力された 可変メッセージを読み
情報に処理する言語処理部(22)と、 前記読み情報を音響データに処理する音響処理部(2
3)と、前記切り換え手段から出力された 可変メッセージに、そ
のモーラ長に基づく基本アクセント型の中からその可変
メッセージの読み情報に対応するアクセント型を付与す
るアクセント処理部(26)と、前記切り換え手段から出力された 固定メッセージにイン
トネーションを付与するイントネーション処理部(2
7)と、 前記固定メッセージのモーラ長を基にポーズ長制御パラ
メータを制御して、その固定メッセージのポーズ長を可
変するポーズ長処理部(28)と、を備え、 固定メッセージの音響データと可変メッセージの音響デ
ータを接続してメッセージを音声に合成する音声合成装
置。 14. A identifier indicating the type of the fixed message
An identifier indicating the fixed message and variable message
An input message including text data including a variable message , a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier, and a fixed message and a variable according to the discrimination. Switching means (21) for switching the output destination of the message, and parameter storage for controlling the pause length in the fixed message together with the accent of the acoustic data as the sound source parameter and vocal tract transfer characteristic parameter, the acoustic data of the fixed message after switching. Parameter voice data section (1
6) and the acoustic data of the fixed message as a sound source parameter and a vocal tract transfer characteristic parameter, together with the accent of the acoustic data and a parameter for controlling the pause length in the fixed message are stored, and output from the switching means.
The fixed message corresponding to the identifier that indicates the type of fixed message
A parameter voice data section (16) for outputting the acoustic data of the message, a language processing section (22) for processing the variable message output from the switching means into reading information, and an acoustic processing for processing the reading information into acoustic data. Department (2
And 3), the variable message output from the switching means, an accent processor for imparting accent type corresponding among the basic accent type based on the mora length reading information of the variable message (26), the switching Intonation processing unit (2) that adds intonation to the fixed message output from the means
7) and controlling the pause length control parameter based on the mora length of the fixed message to enable the pause length of the fixed message.
Pause length processing unit for varying (28), comprising a speech synthesis apparatus for synthesizing a speech message by connecting the sound data of the sound data and variable message of the fixed message.
入れた固定メッセージと、可変メッセージを示す識別子
を入れた可変メッセージとを含むテキストデータからな
る入力メッセージと、 前記入力メッセージを前記識別子に従って固定メッセー
ジと可変メッセージとに判別する固定/可変メッセージ
判断部(20)と、 前記判別によって固定メッセージと可変メッセージの出
力先を切り換える切り換え手段(21)と、前記切り換え手段から出力された 可変メッセージに対
し、請求項1〜14に示す音韻、韻律処理した後音響処
理し、前記切り換え手段から出力された固定メッセージ
に対しては記憶した音響データの再生を行った後に、固
定メッセージの音響データと可変メッセージの音響デー
タを接続してメッセージを音声に合成する音声合成装
置。 The 15. identifier indicating the type of the fixed message
An identifier indicating the fixed message and variable message
An input message including text data including a variable message , a fixed / variable message determination unit (20) for discriminating the input message into a fixed message and a variable message according to the identifier, and a fixed message and a variable according to the discrimination. A switching means (21) for switching the output destination of the message, and the variable message output from the switching means , the phoneme and the prosody processing according to claim 1 to 14, after the acoustic processing, fixed output that is output from the switching means. after against the message was reproduced sound data stored speech synthesis apparatus for synthesizing a speech message by connecting the sound data of the sound data and variable message of the fixed message.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21271994A JP3518898B2 (en) | 1994-09-06 | 1994-09-06 | Speech synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21271994A JP3518898B2 (en) | 1994-09-06 | 1994-09-06 | Speech synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0876796A JPH0876796A (en) | 1996-03-22 |
JP3518898B2 true JP3518898B2 (en) | 2004-04-12 |
Family
ID=16627304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21271994A Expired - Fee Related JP3518898B2 (en) | 1994-09-06 | 1994-09-06 | Speech synthesizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3518898B2 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3573907B2 (en) * | 1997-03-10 | 2004-10-06 | 株式会社リコー | Speech synthesizer |
JPH11175082A (en) * | 1997-12-10 | 1999-07-02 | Toshiba Corp | Voice interaction device and voice synthesizing method for voice interaction |
JP2006330484A (en) * | 2005-05-27 | 2006-12-07 | Kenwood Corp | Device and program for voice guidance |
JP2006330486A (en) * | 2005-05-27 | 2006-12-07 | Kenwood Corp | Speech synthesizer, navigation device with same speech synthesizer, speech synthesizing program, and information storage medium stored with same program |
JP4752516B2 (en) * | 2006-01-12 | 2011-08-17 | 日産自動車株式会社 | Voice dialogue apparatus and voice dialogue method |
JP4778402B2 (en) * | 2006-11-07 | 2011-09-21 | 日本放送協会 | Pause time length calculation device, program thereof, and speech synthesizer |
JP2010175717A (en) * | 2009-01-28 | 2010-08-12 | Mitsubishi Electric Corp | Speech synthesizer |
KR101134680B1 (en) * | 2009-07-30 | 2012-04-09 | 주식회사 케이티 | Synthetic speech generating apparatus and system for providing weather forecast service using same |
JP6244658B2 (en) * | 2013-05-23 | 2017-12-13 | 富士通株式会社 | Audio processing apparatus, audio processing method, and audio processing program |
-
1994
- 1994-09-06 JP JP21271994A patent/JP3518898B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0876796A (en) | 1996-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006251538A (en) | Device and method for speech synthesis and program | |
JPH0632020B2 (en) | Speech synthesis method and apparatus | |
JP3518898B2 (en) | Speech synthesizer | |
JPH08335096A (en) | Text voice synthesizer | |
JP3094622B2 (en) | Text-to-speech synthesizer | |
JPH07200554A (en) | Sentence read-aloud device | |
JP2894447B2 (en) | Speech synthesizer using complex speech units | |
JPH11296193A (en) | Voice synthesizer | |
JPH09179576A (en) | Voice synthesizing method | |
JPH05224689A (en) | Speech synthesizing device | |
JP4056647B2 (en) | Waveform connection type speech synthesis apparatus and method | |
JP3241582B2 (en) | Prosody control device and method | |
JP2001350490A (en) | Device and method for converting text voice | |
JP2703253B2 (en) | Speech synthesizer | |
JP3397406B2 (en) | Voice synthesis device and voice synthesis method | |
JP2001117576A (en) | Voice synthesizing method | |
JP2956936B2 (en) | Speech rate control circuit of speech synthesizer | |
JPS58154900A (en) | Sentence voice converter | |
JP3297221B2 (en) | Phoneme duration control method | |
JP3870583B2 (en) | Speech synthesizer and storage medium | |
JP2001249678A (en) | Device and method for outputting voice, and recording medium with program for outputting voice | |
JP2003005774A (en) | Speech synthesizer | |
JPH0667685A (en) | Speech synthesizing device | |
JPH07129619A (en) | Voice electronic book | |
JP2584236B2 (en) | Rule speech synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040127 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090206 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090206 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100206 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110206 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110206 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |