JP3575919B2 - Text-to-speech converter - Google Patents
Text-to-speech converter Download PDFInfo
- Publication number
- JP3575919B2 JP3575919B2 JP16288696A JP16288696A JP3575919B2 JP 3575919 B2 JP3575919 B2 JP 3575919B2 JP 16288696 A JP16288696 A JP 16288696A JP 16288696 A JP16288696 A JP 16288696A JP 3575919 B2 JP3575919 B2 JP 3575919B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- style
- text
- unit
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、入力された文字列情報を基に音声を合成して出力するテキスト音声変換装置に関する。
【0002】
【従来の技術】
テキストデータ等の文字情報を入力とし、それを音声に変換して出力するテキスト音声変換装置は、出力語彙の制限がないことから、録音再生型の音声合成技術にとって代わる音声合成技術として種々の利用分野での応用が期待できる。
【0003】
例えば、ワードプロセッサ等で作成されたテキストデータを音声に変換して出力させ文章の校正に利用することもできる。また、テキストを編集するだけで、簡単に応答メッセージを作成、変更をすることができる特徴を生かして、電話等の通信サービスなどでも利用することができる。
【0004】
図2は、日本語(漢字かな混じり文)を入力とした従来のテキスト音声変換装置(日本語テキスト音声変換)の構成を示している。以下、この図2を参照しながら、従来装置の概要を説明する。
【0005】
図2において、テキスト解析部101では発音辞書102を利用して、文字情報入力部100より入力された漢字かな混じり文から、音韻韻律記号列を生成する。ここで、音韻韻律記号列とは、入力文の読み、アクセント、イントネーション等を文字列として記述したもので、中間言語と呼ばれる。各単語の読みとアクセントは、発音辞書102に登録されており、テキスト解析部101はこの発音辞書102を参照しながら、音韻韻律記号列を生成する。
【0006】
合成パラメータ生成部103では、音韻韻律記号列に基づき、音声素片(音の種類)を取り出し、予め定められた規則より、音韻継続時間(音の長さ)、基本周波数(音の高さ)パターンといった音声合成用のパラメータ(以下、合成パラメータと呼ぶ)を生成する。
【0007】
このうち音声素片は、単語等を発声したときの発声データから分析生成されるもので、合成のための音声の基本単位であり、これらを重ね合わせて行くことによって、合成波形が生成される。なお、以下ではCV(子音−母音)、VCV(母音−子音−母音)等の音声の基本要素の組み合わせ自体を音声単位と呼び、その音声単位の波形を実現する要素を音声素片と呼ぶ。各音声単位は、例えば複数の音声素片でなる組に対応する。音声素片データはROM等でなる音声素片データ記憶部104に格納されており、合成パラメータ生成部103は、音韻韻律記号列から音声単位を認識して対応する音声素片データを取り出す。
【0008】
音声合成部105は、合成パラメータ生成部103が生成した合成パラメータに基づいて、合成波形(音声信号)を生成する。このような合成音声信号が、スピーカ−を通して音声出力されたり、通信回線を介して他の装置に伝送されたりする。
【0009】
第2の従来例として、上述した従来例(第1の従来例と呼ぶ)では、予め定められた規則によって基本周波数パタン、音の高さ、ポーズの長さ、音韻継続時間等の合成パラメータを決定していたものを、自然性を高めるために、実音声の韻律的特徴を分析した結果を統計的に処理して抽出した韻律的特徴パラメータを用いて、合成音声パラメータを与える方法がある。
【0010】
【発明が解決しようとする課題】
第1の従来例においては、合成パラメータは、入力されたテキストが変換された音韻記号列に応じて、予め定められた規則に従って決定されるものであり、自然音声に比べると単調である。
【0011】
また、第2の従来例においても、自然音声を分析して、基本周波数パターン、音の高さ、ポーズの長さ、パワー、音韻継続時間等の韻律的特徴パラメータを抽出して用いてはいるが、一つの発話スタイルの韻律的特徴パラメータの組を用いるだけでは、論文、小説、会話等の多様な発話スタイルを自由に表現できないという課題があった。
【0012】
そこで、複数の発話スタイルの韻律的特徴パラメータを用意し、合成パラメータ生成の際に切り替えて用いるものも既に提案されているが、相互の発話スタイルの関係は明らかではなかったので、発話スタイルの違いを強調したり、弱めたりとユーザが調節することはできなかった。
【0013】
そのため、予め定められた基準を用いて、合成音声の韻律的特徴を生成する手段を持つテキスト音声変換装置において、発話スタイルの違いによって現れる韻律的な特徴量の違いを強調あるいは弱め、多様な発話スタイルの合成音の生成を可能とし、ユーザの好みに合った韻律パターンで読み上げることのできるテキスト音声変換装置が求められている。
【0018】
【課題を解決するための手段】
上記課題を解決するため、第2の本発明のテキスト音声変換装置では、入力された文字情報を音声信号に変換するテキスト音声変換装置において、少なくとも通常スタイル、朗読調を含む複数の発話スタイルにおける特徴を保持する韻律パラメータテーブルと、発話スタイルを選択する発話スタイル指定部と、発話スタイルの強調度を指定する強調度指定部と、発話スタイル指定部によって選択された発話スタイルと基準発話スタイルのそれぞれの韻律パラメータの差分を計算する差分計算部と、強調度指定部によって指定された強調度及び差分に応じて韻律パラメータを補正する韻律パラメータ調整手段とを備える。
【0019】
ここで、韻律パラメータ調整手段によって補正される韻律パラメータは少なくとも音韻継続時間もしくはピッチパターンにすることが望ましい。
【0020】
このように本発明のテキスト音声変換装置では、韻律パラメータをユーザの好みに応じて変更度合いを調整しながら変更することができ、よりユーザの好みに合った合成音声を得ることができる。
【0021】
【発明の実施の形態】
以下、本発明によるテキスト音声変換装置を、日本語文を対象とした装置に適用した第1の実施形態を図面を参照しながら詳述する。ここで、図1が、この第1の実施形態のテキスト音声変換装置の全体構成を示すブロック図である。
【0022】
図1において、第1の実施形態のテキスト音声変換装置は、文字情報入力部10、テキスト解析部11、発音辞書12、合成パラメータ生成部13、音声素片データ記憶部14、音声合成部15、発話スタイル変更手段としての合成パラメータ変更手段16及び発話スタイル指定部17を備えている。
【0023】
ここで、文字情報入力部10、テキスト解析部11、発音辞書12、合成パラメータ生成部13、音声素片データ記憶部14、音声合成部15は、従来のテキスト音声変換装置と同一の動作を行なうものであり、詳細な説明は省略する。
【0024】
この実施形態では、朗読調から会話調へ変化させる場合を例にして説明する。なお、発話スタイルとしては、通常スタイル、朗読調スタイル、会話調スタイル、アナウンサー調スタイル等が他にもあげられる。
【0025】
合成パラメータ生成部13は音韻記号列に基づいて対応する音声素片データを音声素片データ記憶部14から取り出し、音韻の継続時間や、ポーズ長、パワーや基本周波数パターンといった音声合成用韻律パラメータを生成する。
【0026】
そして、発話スタイル指定部17には、朗読スタイルから会話スタイル度までの複数の発話スタイルから使用したい1つの発話スタイルを指定できるスイッチが設けられている。
【0027】
図4に示すのは発話スタイル指定部17をソフトウェア的に形成した例であり、スクロールバーの左端が最も朗読調の発話スタイルを示すスタイル1を示し、右に行くに従って会話調の度合い(会話調度と定義する)が高くなり、右端が最も会話調に近い発話スタイルを示すスタイル10を示している。10段階のスクロールバーのバーをスライドさせ、目的の発話スタイルを選択できる。この図4ではバーはスタイル6のところを示している。
【0028】
合成パラメータ変更手段16では発話スタイル指定部17でのユーザの指定に従って、音声合成用韻律パラメータを変形する。この第1の実施形態の場合、変更される合成パラメータは1モーラ当りの平均の長さである。合成パラメータ変更手段16では他にも、音韻継続時間、基本周波数パターン、音の高さ、パワーといった韻律的特徴を変形することが可能である。
【0029】
次に、第1の実施形態のテキスト音声変換装置の詳細動作を図3のフローチャートを用いて説明する。
【0030】
まず、文字情報(漢字かな混じり文等のテキストデータ)を取り込み(ステップ201)、その文字情報を解析して、1フレーズ毎に、音韻韻律記号列に変換する(ステップ202)。
【0031】
次に、音韻韻律記号列に従って音声素片データ記憶部14より順次使用する音声素片データを取り出す(ステップ203)。そして、フレーズ毎に、音韻韻律記号列に基づいて韻律パラメータ(音韻継続時間、基本周波数パターン、パワー等を規定するパラメータ)を生成する(ステップ204)。次に、合成パラメータ変更手段16では、ステップ204で生成された合成パラメータを発話スタイル指定部17の指定に従って変更する(ステップ205)。
【0032】
合成パラメータの変更方法を説明する。朗読音声と会話音声を比較した際、両者の間には様々な韻律的特徴が存在する。まず、朗読音声と会話音声では、会話音声の方が、韻律パラメータの変動が大きい。例えば、ピッチ、パワー、1モーラ当りの平均的な継続時間や、ポーズ長が会話音声の方が朗読音声よりも大きく変動する。
【0033】
一例として、朗読音声と、会話もしくは対話音声の、韻律句(フレーズ)内モーラ数毎のモーラ長を比較した場合、朗読調はモーラ長がほぼ一定であるのに対し、会話調では1フレーズ内のモーラ数が少なくなるほど1モーラ当りの平均継続時間が長くなる傾向がある。
【0034】
このことに対しては、日本音響学会講演論文集1995. 3 1−4−6に記載された渡辺等の「朗読及び対話音声における時間構造の検討」と題する論文に記載されている。
【0035】
ここで、モーラとは、ほぼ仮名1文字に相当するなど時間的なリズムの単位である。
【0036】
第1の実施形態では、この特徴を基に、会話調度が高いほど、フレーズ内のモーラ数毎の平均モーラ長が長くなるように合成パラメータを変更する。例えば、10モーラのフレーズ長を基準にモーラ長継続時間を±1.5倍差をつけたいときには、tを朗読調の1モーラ当りの平均継続時間、nを1フレーズのモーラ数として、求める継続時間t’は、
t’=−(t/20)×n+1. 5t
として、各々のモーラの継続時間長を変換する。また、より会話らしく変化をつけたいときには、1、2割伸縮させるなどし、その度合いをユーザが任意に指定できる。
【0037】
以上のようにして、韻律パラメータと音声素片データからなる合成パラメータが決定されると、音声信号を合成して(ステップ206)出力する(ステップ207)。出力方法は、スピーカーからでも通信回線を通じた他の装置への伝送でも良い。
【0038】
以上のようにして、第1の実施態様のテキスト音声変換装置では、予め定められた基準を用いて、合成音声の韻律的特徴を生成する手段を持つテキスト音声変換装置において、通常の読み上げ調(ないしは朗読調)と会話調などの他の発話スタイルとの違いによって現れる韻律的特徴量を、強調ないしは弱め、通常発話スタイルから、ある選択された度合いの発話スタイルの合成音の生成を可能とし、ユーザの好みに合った韻律パターンで読み上げることのできるテキスト音声変換装置を実現できる。
【0039】
次に、本発明によるテキスト音声変換装置を、日本語文を対象とした装置に適用した第2の実施形態を説明する。
【0040】
第2の実施形態においては、入力された文字情報を、複数の発話スタイルで発声された自然音声を、音韻の種類別継続時間、ポーズ長、パワー変動量、ピッチパターン変動量(音の高低の差等)などの、韻律パラメータ毎に分析して作成した韻律パラメータテーブルを用いて、合成パラメータを生成し、音声信号に変換するテキスト音声変換装置において、ユーザが選択した発話スタイルに従って決定された韻律パラメータを、朗読調の韻律パラメータと比較し、その差分を求め、発話スタイルの持つ韻律パラメータの特徴を強調ないしは弱める手段を設けたものである。
【0041】
韻律パラメータの例としては、音韻継続時間であれば、各音韻の種類毎に、前後の音韻の環境や、語頭、語中、文末などのフレーズ位置、モーラ位置毎に分析し、それぞれの音韻継続時間を分析したものとなる。
【0042】
以下、この第2の実施形態にかかるテキスト音声変換装置を図5を用いて説明する。なお、この第2の実施形態については、音韻の種類別継続時間、ポーズ長、パワー変動量、ピッチパターンなどの韻律パラメータのうち音韻継続時間を変更する場合を例にして説明する。また、この第2の実施形態では基準発話スタイルとして朗読調の発話スタイルを用いている。
【0043】
第2の実施形態のテキスト音声変換装置は、文字情報入力部10、テキスト解析部11、発音辞書12、合成パラメータ生成部13、音声素片データ記憶部14、音声合成部15、複数継続時間テーブル16、発話スタイル指定部17、音韻継続時間の変更を行なう発話スタイル強調部20、発話スタイル強調度指定部19を備えている。
【0044】
文字情報入力部10、テキスト解析部11、発音辞書12、合成パラメータ生成部13、音声素片データ記憶部14、音声合成部15は、従来の構成と同一動作を行なうものであるので、詳細な説明は省略する。
【0045】
合成パラメータ生成部13は、音韻記号列に基づいて対応する音声素片データを音声素片データ記憶部14から取り出し、発話スタイル指定部17によって指定された発話スタイルの音韻継続時間テーブルを参照して音韻の継続時間を決定し、ポーズ長、パワーや基本周波数パターンといった、音声合成用韻律パラメータを生成する。
【0046】
そして、発話スタイル強調度指定部19には、朗読スタイルから発話スタイル指定部17で指定した発話スタイル度を強調できるスイッチが設けられており、朗読継続時間テーブルを参照して定められた音韻継続時間と指定された発話スタイルでの音韻継続時間を比較して、発話スタイル強調度指定部19によって指定された度合いによってその差分を発話スタイル強調部20で強調する。
【0047】
次に、第2の実施形態のテキスト音声変換装置の動作を図6のフローチャートを用いて説明する。
【0048】
まず、文字情報(漢字かな混じり文等の、テキストデータ)を取り込み(ステップ601)、その文字情報を解析して、1フレーズ毎に音韻韻律記号列に変換する(ステップ602)。次に、音韻韻律記号列に従って、音声素片データ記憶部14より順次使用する音声素片を取り出す(ステップ603)。そして、フレーズ毎に、音韻韻律記号列に基づいて、発話スタイル指定部17によって指定された発話スタイルの継続時間テーブルと、基準発話スタイルである朗読調の発話スタイルの継続時間テーブルを参照して、音韻継続時間を決定し、合成パラメータ(音韻継続時間、基本周波数パターン、パワー等を規定するパラメータ)を指定スタイルと朗読調の2種類生成する(ステップ604)。このとき、継続時間テーブルは、予め自然音声を分析した要因(当確音韻の種類、前後環境、フレーズ位置、フレーズ内モーラ位置等)で継続時間が参照され決定される。
【0049】
次に、発話スタイル強調部20では、発話スタイル強調度指定部19で指定された度合いによって、指定発話スタイル継続時間(Tnとする)と、朗読調継続時間(Tsとする)の差分を、強調して音韻継続時間を変更する。例えば、強調係数をαとして、最終的音韻継続時間Tは
T=Ts+α(Tn/Ts−1)Ts
と計算できる。強調係数αは強調部指定部19で指定された度合いによって0から数倍まで変化させて用いれば良い(ステップ605)。
【0050】
以上のようにして、韻律パラメータと音声素片データからなる合成パラメータが決定されると、音声信号を合成して(ステップ606)出力する(ステップ607)。出力方法は、スピーカ−からの出力でも、通信回線を通じた他の装置への伝送でも良い。
【0051】
以上の第2の実施形態のテキスト音声変換装置によれば、ユーザの好みに応じて、音韻継続時間を変更して発話スタイルを変更させることができる。
【0052】
なお、上記各実施形態においては、日本語文を対象としたテキスト音声変換装置を示したが、他の言語文を対象としたテキスト音声変換装置に本発明を適用できることは勿論である。
【0053】
【発明の効果】
以上のように、本発明によれば、発話スタイルの違いによって現れる韻律的な特徴量の違いを強調、あるいは弱め、多様な発話スタイルの合成音の生成を可能とし、ユーザの好みに合った韻律パターンで読み上げることのできるテキスト音声変換装置を実現できる。
【図面の簡単な説明】
【図1】第1の実施形態のテキスト音声変換装置を示すブロック図である。
【図2】従来のテキスト音声変換装置を示す図である。
【図3】図1のテキスト音声変換装置の動作を示すフローチャートである。
【図4】図1のテキスト音声変換装置の会話スタイル指定部17の説明図である。
【図5】第2の実施形態のテキスト音声変換装置を示すブロック図である。
【図6】図5のテキスト音声変換装置の動作を示すフローチャートである。
【符号の説明】
10…文字情報入力部、11…テキスト解析部、12…発音辞書、13…合成パラメータ生成部、14…音声素片データ記憶部、15…音声合成部、16…合成パラメータ変更手段、17…発話スタイル指定部、18…韻律パラメータテーブル、19…発話スタイル強調度指定部、20…発話スタイル強調部。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a text-to-speech converter that synthesizes and outputs speech based on input character string information.
[0002]
[Prior art]
Text-to-speech converters that take text information such as text data as input, convert it into speech, and output it have no restrictions on the output vocabulary. The application in the field can be expected.
[0003]
For example, text data created by a word processor or the like can be converted into voice and output, and used for proofreading of sentences. Also, by utilizing the feature that a response message can be easily created and changed only by editing the text, it can be used in communication services such as telephones.
[0004]
FIG. 2 shows the configuration of a conventional text-to-speech conversion device (Japanese text-to-speech conversion) that inputs Japanese (kanji and kana mixed sentences). Hereinafter, an outline of the conventional apparatus will be described with reference to FIG.
[0005]
In FIG. 2, a
[0006]
The synthesis
[0007]
Of these, speech units are analyzed and generated from utterance data when words or the like are uttered, are basic units of speech for synthesis, and a synthesized waveform is generated by superimposing these. . In the following, a combination of basic elements of speech such as CV (consonant-vowel) and VCV (vowel-consonant-vowel) is called a speech unit, and an element that realizes a waveform of the speech unit is called a speech unit. Each speech unit corresponds to, for example, a set of a plurality of speech units. The speech unit data is stored in a speech unit
[0008]
The
[0009]
As a second conventional example, in the above-described conventional example (referred to as a first conventional example), synthesis parameters such as a fundamental frequency pattern, a pitch of a sound, a length of a pause, and a phoneme duration are determined according to a predetermined rule. In order to enhance the naturalness of the determined speech, there is a method of providing a synthetic speech parameter using a prosodic feature parameter extracted by statistically processing the result of analyzing the prosodic feature of the real speech.
[0010]
[Problems to be solved by the invention]
In the first conventional example, the synthesis parameter is determined according to a predetermined rule according to a phoneme symbol string obtained by converting an input text, and is monotonous as compared with natural speech.
[0011]
Also in the second conventional example, natural speech is analyzed to extract and use prosodic feature parameters such as a fundamental frequency pattern, a pitch, a pause length, power, and a phoneme duration. However, there is a problem that various utterance styles such as papers, novels, and conversations cannot be freely expressed by using only a set of prosodic feature parameters of one utterance style.
[0012]
Therefore, it has already been proposed to prepare prosodic feature parameters for a plurality of utterance styles and use them when switching the synthesis parameters, but the relationship between the utterance styles was not clear. Could not be adjusted by the user to emphasize or weaken.
[0013]
Therefore, in a text-to-speech conversion device having means for generating a prosodic feature of a synthesized speech using a predetermined criterion, a difference in the prosodic feature amount caused by a difference in speech style is emphasized or weakened, and various utterances are emphasized. There is a need for a text-to-speech converter that can generate synthesized speech in a style and can read aloud in a prosodic pattern that suits the user's preference.
[0018]
[Means for Solving the Problems]
To solve the above SL problems, the text-to-speech conversion system of the second invention, the text-to-speech converter for converting the audio signal character information inputted, the plurality of speech style comprising at least normal style, the recitation tone A prosodic parameter table holding characteristics, an utterance style designating unit for selecting an utterance style, an emphasis degree designating unit for designating the degree of emphasis of the utterance style, and each of the utterance style and the reference utterance style selected by the utterance style designating unit And a prosody parameter adjustment unit that corrects the prosody parameter in accordance with the emphasis degree and the difference designated by the emphasis degree designation section.
[0019]
Here, it is desirable that the prosody parameter corrected by the prosody parameter adjusting means be at least a phoneme duration or a pitch pattern.
[0020]
As described above, in the text-to-speech conversion apparatus of the present invention, the prosodic parameters can be changed while adjusting the degree of change according to the user's preference, and a synthesized speech more suited to the user's preference can be obtained.
[0021]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a first embodiment in which a text-to-speech conversion device according to the present invention is applied to a device for Japanese sentences will be described in detail with reference to the drawings. Here, FIG. 1 is a block diagram showing the entire configuration of the text-to-speech converter of the first embodiment.
[0022]
In FIG. 1, a text-to-speech conversion apparatus according to a first embodiment includes a character
[0023]
Here, the character
[0024]
In this embodiment, a case where the reading tone is changed from the reading tone to the conversation tone will be described as an example. The utterance style includes a normal style, a reading style, a conversation style, an announcer style, and the like.
[0025]
The synthesis
[0026]
The utterance
[0027]
FIG. 4 shows an example in which the utterance
[0028]
The synthesis parameter changing means 16 modifies the speech synthesis prosody parameters in accordance with the user's designation in the speech
[0029]
Next, the detailed operation of the text-to-speech conversion apparatus of the first embodiment will be described with reference to the flowchart of FIG.
[0030]
First, character information (text data such as kanji and kana mixed sentences) is fetched (step 201), and the character information is analyzed and converted into a phonological prosody symbol string for each phrase (step 202).
[0031]
Next, speech unit data to be used sequentially is extracted from the speech unit
[0032]
A method for changing the synthesis parameters will be described. When comparing spoken and spoken voices, there are various prosodic features between them. First, of the reading voice and the conversation voice, the conversation voice has larger fluctuations in the prosodic parameters. For example, the pitch, the power, the average duration per mora, and the pause length fluctuate more in conversational speech than in reading speech.
[0033]
As an example, when comparing the mora length for each number of mora in a prosodic phrase (phrase) between a reading voice and a conversational or conversational voice, the mora length is almost constant in the reading tone, whereas the mora length in the conversation tone is within one phrase. Tends to become longer as the number of mora becomes smaller.
[0034]
For this, the Transactions of the Acoustical Society of Japan, 1995. Watanabe et al., Which is described in 31-4-6, entitled "Examination of time structure in reading and dialogue speech".
[0035]
Here, the mora is a unit of temporal rhythm such as substantially corresponding to one character of kana.
[0036]
In the first embodiment, based on this feature, the synthesis parameters are changed such that the higher the conversation degree, the longer the average mora length for each mora number in the phrase. For example, when it is desired to provide a difference of ± 1.5 times the mora length duration based on the phrase length of 10 mora, t is the average duration per mora of the reading style, and n is the number of mora of one phrase. Time t 'is
t ′ = − (t / 20) × n + 1. 5t
To convert the duration of each mora. In addition, when the user wants to change the conversation more like conversation, the user can arbitrarily specify the degree by, for example, expanding and contracting by 10% or more.
[0037]
As described above, when the synthesis parameter including the prosodic parameter and the speech unit data is determined, the speech signal is synthesized (step 206) and output (step 207). The output method may be transmission from a speaker or another device via a communication line.
[0038]
As described above, in the text-to-speech conversion apparatus of the first embodiment, in the text-to-speech conversion apparatus having the means for generating the prosodic features of the synthesized speech using the predetermined criteria, Or reading-out) and prosodic features that appear due to differences between other utterance styles, such as conversational style, can be emphasized or weakened, and the synthesis utterance of a certain degree of utterance style can be generated from the normal utterance style, It is possible to realize a text-to-speech conversion device that can read aloud a prosodic pattern that suits the user's preference.
[0039]
Next, a description will be given of a second embodiment in which the text-to-speech conversion device according to the present invention is applied to a device for Japanese sentences.
[0040]
In the second embodiment, the input character information is used to convert natural speech uttered in a plurality of utterance styles into phoneme type durations, pause lengths, power fluctuations, pitch pattern fluctuations (sound pitches). In a text-to-speech conversion device that generates a synthesis parameter using a prosody parameter table created by analyzing each prosody parameter (e.g., difference), and converts the synthesis parameter into a speech signal, the prosody determined according to the utterance style selected by the user. The parameter is compared with the prosodic parameter of the reading style, the difference is obtained, and means for emphasizing or weakening the feature of the prosodic parameter of the speech style is provided.
[0041]
As an example of the prosodic parameters, if it is a phonological duration, it analyzes for each phonological type, the surrounding phonological environment, the phrase position such as the beginning, middle, and end of a sentence, and the mora position, and analyzes each phonological duration. It is an analysis of time.
[0042]
Hereinafter, a text-to-speech converter according to the second embodiment will be described with reference to FIG. Note that the second embodiment will be described by taking as an example a case where the phoneme duration is changed among the prosody parameters such as the duration of each phoneme, the pause length, the power variation, and the pitch pattern. In the second embodiment, a reading-style utterance style is used as a reference utterance style.
[0043]
The text-to-speech conversion device according to the second embodiment includes a character
[0044]
The character
[0045]
The synthesis
[0046]
The utterance style emphasis
[0047]
Next, the operation of the text-to-speech converter of the second embodiment will be described with reference to the flowchart of FIG.
[0048]
First, character information (text data such as a sentence mixed with kanji and kana) is fetched (step 601), and the character information is analyzed and converted into a phonological symbol string for each phrase (step 602). Next, speech units to be used sequentially are extracted from the speech unit
[0049]
Next, the utterance
Can be calculated. The emphasis coefficient α may be changed from 0 to several times depending on the degree specified by the emphasis section specification section 19 (step 605).
[0050]
As described above, when the synthesis parameter including the prosodic parameter and the speech unit data is determined, the speech signal is synthesized (step 606) and output (step 607). The output method may be output from a speaker or transmission to another device via a communication line.
[0051]
According to the text-to-speech converter of the second embodiment described above, it is possible to change the utterance style by changing the phoneme duration according to the user's preference.
[0052]
In each of the above embodiments, the text-to-speech conversion apparatus for Japanese sentences has been described, but the present invention can of course be applied to a text-to-speech conversion apparatus for other language sentences.
[0053]
【The invention's effect】
As described above, according to the present invention, it is possible to emphasize or weaken a difference in prosodic feature amount that appears due to a difference in utterance style, to generate a synthetic sound of various utterance styles, and to adjust a rhythm to a user's preference. A text-to-speech converter capable of reading out in a pattern can be realized.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a text-to-speech conversion apparatus according to a first embodiment.
FIG. 2 is a diagram showing a conventional text-to-speech conversion device.
FIG. 3 is a flowchart showing an operation of the text-to-speech conversion apparatus in FIG. 1;
FIG. 4 is an explanatory diagram of a conversation
FIG. 5 is a block diagram illustrating a text-to-speech conversion apparatus according to a second embodiment.
FIG. 6 is a flowchart showing an operation of the text-to-speech conversion apparatus in FIG. 5;
[Explanation of symbols]
DESCRIPTION OF
Claims (2)
少なくとも通常スタイル、朗読調を含む複数の発話スタイルにおける特徴を保持する韻律パラメータテーブルと、
発話スタイルを選択する発話スタイル指定部と、
発話スタイルの強調度を指定する強調度指定部と、
上記発話スタイル指定部によって選択された発話スタイルと基準発話スタイルのそれぞれの韻律パラメータの差分を計算する差分計算部と、
上記強調度指定部によって指定された強調度及び上記差分に応じて韻律パラメータを補正する韻律パラメータ調整手段と
を備えたことを特徴とするテキスト音声変換装置。In a text-to-speech converter for converting input character information into a speech signal,
A prosodic parameter table that retains characteristics in at least a plurality of utterance styles including a normal style and a reading style;
An utterance style designating section for selecting an utterance style;
An emphasis level designating section for designating the emphasis level of the utterance style;
A difference calculation unit that calculates a difference between each prosodic parameter of the utterance style selected by the utterance style designation unit and the reference utterance style,
A text-to-speech conversion apparatus comprising: a prosody parameter adjusting unit that corrects a prosody parameter according to the emphasis degree designated by the emphasis degree designation unit and the difference.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16288696A JP3575919B2 (en) | 1996-06-24 | 1996-06-24 | Text-to-speech converter |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16288696A JP3575919B2 (en) | 1996-06-24 | 1996-06-24 | Text-to-speech converter |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1011083A JPH1011083A (en) | 1998-01-16 |
JP3575919B2 true JP3575919B2 (en) | 2004-10-13 |
Family
ID=15763132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16288696A Expired - Fee Related JP3575919B2 (en) | 1996-06-24 | 1996-06-24 | Text-to-speech converter |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3575919B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705783A (en) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | A kind of phoneme synthesizing method and device |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5282469B2 (en) | 2008-07-25 | 2013-09-04 | ヤマハ株式会社 | Voice processing apparatus and program |
JP5226867B2 (en) | 2009-05-28 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Basic frequency moving amount learning device, fundamental frequency generating device, moving amount learning method, basic frequency generating method, and moving amount learning program for speaker adaptation |
-
1996
- 1996-06-24 JP JP16288696A patent/JP3575919B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705783A (en) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | A kind of phoneme synthesizing method and device |
Also Published As
Publication number | Publication date |
---|---|
JPH1011083A (en) | 1998-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4125362B2 (en) | Speech synthesizer | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JPH031200A (en) | Regulation type voice synthesizing device | |
JP3673471B2 (en) | Text-to-speech synthesizer and program recording medium | |
JPH1138989A (en) | Device and method for voice synthesis | |
JP2006227589A (en) | Device and method for speech synthesis | |
JP3575919B2 (en) | Text-to-speech converter | |
JPH08335096A (en) | Text voice synthesizer | |
JPH0580791A (en) | Device and method for speech rule synthesis | |
JP3113101B2 (en) | Speech synthesizer | |
JP4260071B2 (en) | Speech synthesis method, speech synthesis program, and speech synthesis apparatus | |
KR20040015605A (en) | Method and apparatus for synthesizing virtual song | |
JP2002304186A (en) | Voice synthesizer, voice synthesizing method and voice synthesizing program | |
JP2703253B2 (en) | Speech synthesizer | |
JP4056647B2 (en) | Waveform connection type speech synthesis apparatus and method | |
Vine et al. | Synthesising emotional speech by concatenating multiple pitch recorded speech units | |
JP3292218B2 (en) | Voice message composer | |
JPH08160990A (en) | Speech synthesizing device | |
JP2956936B2 (en) | Speech rate control circuit of speech synthesizer | |
JP2003005774A (en) | Speech synthesizer | |
JP2004004952A (en) | Voice synthesizer and voice synthetic method | |
JPH01321496A (en) | Speech synthesizing device | |
JPH06214585A (en) | Voice synthesizer | |
JPH09325788A (en) | Device and method for voice synthesis | |
JP2001166787A (en) | Voice synthesizer and natural language processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040706 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080716 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080716 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090716 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090716 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110716 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120716 Year of fee payment: 8 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120716 Year of fee payment: 8 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |