JP2001350490A - テキスト音声変換装置及び方法 - Google Patents

テキスト音声変換装置及び方法

Info

Publication number
JP2001350490A
JP2001350490A JP2000173521A JP2000173521A JP2001350490A JP 2001350490 A JP2001350490 A JP 2001350490A JP 2000173521 A JP2000173521 A JP 2000173521A JP 2000173521 A JP2000173521 A JP 2000173521A JP 2001350490 A JP2001350490 A JP 2001350490A
Authority
JP
Japan
Prior art keywords
data
voice
voice data
unit
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000173521A
Other languages
English (en)
Inventor
Nobuyuki Katae
伸之 片江
Akihiro Kimura
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2000173521A priority Critical patent/JP2001350490A/ja
Publication of JP2001350490A publication Critical patent/JP2001350490A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 任意のテキストデータに基づいて品質の高い
音声を出力することができるテキスト音声変換装置及び
方法を提供する。 【解決手段】 音声出力の対象となるテキストデータを
入力し、テキストデータを、事前に格納されている音声
データと照合し、照合結果として出力された音声データ
をつなぎ合わせて合成音声を生成し、生成された合成音
声を出力するテキスト音声変換装置及び方法であって、
大きな音声単位で格納されている音声データから順に照
合を行い、音声データがテキストデータに文単位で完全
に対応している場合には文単位の音声データを、音声デ
ータがテキストデータに部分的に対応している場合に
は、部分的に対応している音声データのうち最も大きな
音声単位で格納されている音声データから順に照合結果
として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力されたテキス
トデータを音声データに変換して出力するテキスト音声
変換装置に関する。
【0002】
【従来の技術】従来、テキストデータに基づいて音声デ
ータを出力する方法としては、大別して3つの方法が存
在する。
【0003】一つは、固定されたテキストデータに対す
る音声データを事前に録音しておき、該当するテキスト
データが入力されたら対応する音声データを再生出力す
る方法である。かかる方法の概念構成図を図1に示す。
【0004】図1において、テキストデータ入力部11
から、音声として出力する対象となるテキストデータを
入力する。入力方法としては、キーボード等から直接打
鍵するものであっても良いし、ファイル渡しされるもの
であって良い。あるいは、音声データ格納部14に登録
されている音声データには限りがあることから、登録さ
れている音声データにそれぞれ対応する検出番号を付し
ておき、かかる音声データ番号を入力するものであって
も良い。
【0005】そして、音声データ検索部12において、
テキストデータに対応している音声データが、音声デー
タ格納部14に事前に登録されているか否かを検索す
る。対応している音声データが検出された場合には、音
声データ出力部13から音声として出力される。例え
ば、自動販売機等における「ありがとうございました」
等の音声出力がこれに該当する。
【0006】次の方法は、定型的な文型に対しては第1
の方法と同様に事前に登録している音声データを活用
し、一部のみ音声合成を用いる方法である。かかる方法
の概念構成図を図2に示す。
【0007】図2において、テキストデータ入力部21
から出力の対象となるテキストデータとしての文字列を
入力する。かかる文字列は、既に固定部音声データの存
在する固定部分と、そうではない部分とに分類できる。
そこで、固定部分音声検索部22において固定部分音声
データ格納部23を照会することで、既に登録されてい
る固定部分音声データを抽出するとともに、登録されて
いない部分については音声合成部24において単位音声
データ格納部25を照会することで、音声合成データを
作成する。
【0008】そして、抽出された固定部分音声データと
音声合成データとを、音声データ接続部26でつなぎ合
わせることで、最終的な音声データとして音声データ出
力部27から出力することになる。
【0009】例えば、カーナビゲーションシステムや電
話応答システムにおける「案内地点は神戸駅付近で
す。」という出力音声のうち、「案内地点は」と「付近
です」の部分は固定部分音声データとして、「神戸駅」
を音声合成データとして出力する。
【0010】最後の方法は、固定部分音声データを一切
使用せずに、純粋にテキストデータによる音声合成出力
を用いる方法である。かかる方法の概念図を図3に示
す。
【0011】図3において、テキストデータ入力部31
からテキストデータが入力されたら、言語処理部32に
おいて単語辞書33を用いて、単語解析、構文解析等を
行うことで、かな漢字混じりのテキストから「読み」を
示す情報である音韻情報と韻律情報を生成する。ここ
で、音韻情報とは、音声データを抽出するためのかな文
字列自体等を意味し、韻律情報とは、再生時における基
本周波数パターンや時間長データ等を示す情報を意味す
る。
【0012】そして、音声合成部34において、音韻情
報及び韻律情報に基づいて単位音声データ格納部35か
ら再生するための音声データを抽出して、合成音声とし
て再構成して、音声データ出力部36から出力する。
【0013】
【発明が解決しようとする課題】しかし、上述した従来
の方法のうち、第1の方法においては、固定されたテキ
ストデータに対する事前に録音されている固定された文
章しか音声データとして再生出力することができないこ
とから、音声再生のための入力の自由度が低く、アプリ
ケーションに応じて大量の音声データを録音・蓄積する
必要があるという問題点があった。
【0014】また、第2の方法においては、第1の方法
よりはまだ入力の自由度が高いとはいえ、アプリケーシ
ョンに応じて固定された文型のテキストデータしか音声
合成することができず、固定部分の音声データについて
は第1の方法と同様、アプリケーションに応じて大量の
音声データを録音・蓄積する必要があるという問題点が
あった。
【0015】さらに、第3の方法においては、自由な構
成のテキストデータについて音声合成することはできる
が、単位音声を細かく接続することから、不自然な再生
音声となる単位音声のつなぎ目の数が多く、全体として
出力音声の品質が低くなってしまうという問題点があっ
た。
【0016】本発明は、上述したような問題点を解消す
べく、任意のテキストデータに基づいて品質の高い音声
を出力することができるテキスト音声変換装置及び方法
を提供することを目的とする。
【0017】
【課題を解決するための手段】上記目的を達成するため
に本発明にかかるテキスト音声変換装置は、音声出力の
対象となるテキストデータを入力するテキストデータ入
力部と、テキストデータを、事前に格納されている音声
データと照合する音声データ照合部と、照合結果として
出力された音声データをつなぎ合わせて合成音声を生成
する音声データ接続部と、生成された合成音声を出力す
る音声データ出力部とを含み、音声データ照合部におい
て、大きな音声単位で格納されている音声データから順
に照合を行い、音声データがテキストデータに文単位で
完全に対応している場合には文単位の音声データを、音
声データがテキストデータに部分的に対応している場合
には、部分的に対応している音声データのうち最も大き
な音声単位で格納されている音声データから順に照合結
果として出力することを特徴とする。
【0018】かかる構成により、任意のテキストデータ
の入力に基づいて、より大きな単位で登録されている音
声データを抽出して合成音声を作成することができるの
で、合成音声における音のつなぎ目の数を最小限にする
ことができ、音のつなぎ目による音声劣化を最小限にす
ることができるので、自然音声に近い合成音声を出力す
ることが可能となる。
【0019】また、本発明にかかるテキスト音声変換装
置は、入力されたテキストデータの構成を解析するテキ
ストデータ解析部と、照合結果として出力された音声デ
ータを変換する音声データ変換部をさらに含み、テキス
トデータ解析部において解析された結果に応じて、入力
されたテキストデータに関する韻律情報を定めるととも
に、音声データ変換部において、韻律情報に基づいて音
声データを変換することが好ましい。抽出された音声デ
ータをつなぎ合わせるだけでは、自然の発声に近い合成
音声とはならないので、合成音声をより自然発声に近づ
けるようにすることで合成音声の品質を向上させること
ができるからである。
【0020】また、本発明にかかるテキスト音声変換装
置は、韻律情報が、基本周波数、時間長、パワーのうち
少なくとも一つに関する情報であることが好ましい。基
本周波数が対象となるのは、基本周波数が音声の高さ等
を支配する直接的な要素であることから、基本周波数の
パターンを把握することで再生音声全体のピッチパター
ンを定めることができるからである。同様にパワーにつ
いても基本周波数パターンから求められるピッチパター
ンに基づいて変動することが通常だからである。また、
各音節の時間長が対象となるのは、各音素固有の性質
や、前後にある音素の影響、単語の音節数、音素の位置
等に基づいて、連続音声中の各音素の継続時間を定め、
定められた継続時間にしたがって各音素の再生時間長を
調整することでより自然な合成音声とすることができる
からである。
【0021】また、本発明にかかるテキスト音声変換装
置は、音声データ照合部において、文単位、文節単位、
単語単位、音節単位の順に照合されることが好ましい。
大きな単位から順に照合することで、より大きな単位で
一致する音声データを抽出でき、音声データのつなぎ目
を最小限にすることができるからである。
【0022】また、本発明は、上記のようなテキスト音
声変換装置の機能をコンピュータの処理ステップとして
実行するソフトウェアを特徴とするものであり、具体的
には、音声出力の対象となるテキストデータを入力する
工程と、テキストデータを、事前に格納されている音声
データと照合する工程と、照合結果として出力された音
声データをつなぎ合わせて合成音声を生成する工程と、
生成された合成音声を出力する工程とを含み、大きな音
声単位で格納されている音声データから順に照合を行
い、音声データがテキストデータに文単位で完全に対応
している場合には文単位の音声データを、音声データが
テキストデータに部分的に対応している場合には、部分
的に対応している音声データのうち最も大きな音声単位
で格納されている音声データから順に照合結果として出
力するテキスト音声変換方法並びにそのような工程をプ
ログラムとして記録したコンピュータ読み取り可能な記
録媒体であることを特徴とする。
【0023】かかる構成により、コンピュータ上へ当該
プログラムをロードさせ実行することで、任意のテキス
トデータの入力に基づいて、より大きな単位で登録され
ている音声データを抽出して合成音声を作成することが
できるので、合成音声における音のつなぎ目の数を最小
限にすることができ、音のつなぎ目による音声劣化を最
小限にすることができることから、自然音声に近い合成
音声を出力することが可能となるテキスト音声変換装置
を実現することが可能となる。
【0024】
【発明の実施の形態】以下、本発明の実施の形態にかか
るテキスト音声変換装置について、図面を参照しながら
説明する。図4は本発明の実施の形態にかかるテキスト
音声変換装置の構成図である。
【0025】図4において、41は制御部を示し、装置
全体の処理を制御する機能を有する。42はテキストデ
ータ入力部を示し、音声出力の対象となるテキストデー
タを入力する。入力方法としては、キーボード等から直
接打鍵するものであっても良いし、ファイル渡しされる
ものであっても良い。
【0026】また、43は音声データ照合部を示し、音
声データ格納部44を照会することで、入力されたテキ
ストデータに対応している音声データが存在するか否か
を確認する。音声データ格納部44に入力されたテキス
トデータと同一の内容である音声データが存在する場合
には、当該音声データを音声出力部48から直接出力す
る。
【0027】音声データ格納部44に入力されたテキス
トデータと同一の内容である音声データが存在する場合
の概念図を図5に示す。図5において、音声データ格納
部44には、文音声データの他、文節単位の音声データ
である文節音声データ、単語ごとの音声データである単
語音声データ、音節ごとの音声データである音節音声デ
ータが格納されており、音節音声データについては、全
ての音節について音声データが格納されている。なお、
蓄積する音声データは、波形データのままでも良いし、
音声符号化によって圧縮された形式でも良い。
【0028】そして、テキストデータ入力部41から入
力されたテキストデータが「お電話ありがとうございま
す。」であった場合には、当該テキストデータと同一の
内容である文音声データが音声データ格納部44に存在
することから、かかる文音声データを出力用の音声デー
タとして取得することになる。
【0029】次に、音声データ格納部44に入力された
テキストデータと同一の内容である音声データが存在し
ない場合には、テキストデータ解析部45において単語
解析等を行い、入力されたテキストデータがどのような
単語や文節から構成されているのかを解析する。かかる
場合の処理の概念図を図6に示す。図6に示すように、
例えば入力されたテキストデータが、「お名前は田中様
ですね。」というテキストであった場合、構成単語は
「お」、「名前」、「は」、「田中」、「様」、「で
す」、「ね」の7つであり、構成文節は「お名前は」、
「田中様ですね」の2文節であることを解析結果として
取得する。また、文節の係り受けパターン等に基づい
て、基本周波数の変化パターン等の韻律情報についても
取得することができる。
【0030】次に、テキストデータ解析部45で取得し
た構成単語や構成文節に基づいて、再度音声データ照合
部43において音声データ格納部44を照合して、まず
文音声データの中で部分的に対応している箇所を含んで
いる文音声データが存在するか否かについて確認する。
部分的に対応している箇所を含んだ文音声データが存在
すれば、当該文音声データのうち対応している部分の音
声データを取得する。
【0031】次に、取得した構成単語や構成文節に対応
している単語音声データあるいは文節音声データが存在
するか否かについて確認する。かかる照合においては、
文節音声を単語音声よりも優先して照合する。また、文
音声データと同様に、部分的に対応している部分が存在
するか否かについても確認する。
【0032】さらに、単語音声も存在しない場合には、
単語を構成する音節音声を取得する。したがって、音声
データ格納部44には、最低限全ての音節音声に関する
音声データを登録しておくとともに、良く用いられる単
語音声に関する音声データ、さらに単語を組み合わせた
文節音声に関する音声データについても登録しておくこ
とになる。
【0033】図6の例では、文節音声データとして「お
名前は」が、単語音声データとして「様」、「田中」、
「です」が、どちらにも該当しなかった言葉については
音節音声データとして「ね」が抽出される。そして、抽
出されたこれらの音声データを接続することによって、
出力すべき合成音声を形成することになる。
【0034】また、図7に示すように、入力されるテキ
ストデータが「お名前はナカタ様ですね。」である場合
には、単語音声データとして「ナカタ」が登録されてい
ないことから、この部分についても音節音声データとし
て「ね」に加えて「な」、「か」、「た」がそれぞれ抽
出されることになる。
【0035】さらに、部分一致する場合の例としては、
例えば図7において、入力テキストデータが「ありがと
うございます」である場合であって、文節音声データに
対応するデータが存在せず、単語音声データには「あり
がとう」が存在し、音節音声データに「ご」、「ざ」、
「い」、「ま」、「す」が存在する場合には、かかる単
語音声データ「ありがとう」、及び音節音声データであ
る「ご」、「ざ」、「い」、「ま」、「す」を抽出して
合成することで合成音声を生成するのではなく、文音声
データである「お電話ありがとうございます」の一部分
である「ありがとうございます」を優先的に抽出する。
この法が音声データのつなぎ目部分が少なくなり、合成
音声の品質が高くなるからである。
【0036】つまり、音声データ格納部44に登録され
ている音声データのうち、文節音声データに対応してい
る音声データが部分的であっても存在すれば当該文節音
声データを抽出し、対応している音声データが存在しな
ければ単語音声データを検索する。同様に、対応してい
る音声データが部分的であっても存在すれば当該単語音
声データを抽出し、単語音声データにも対応している音
声データが存在しなければ音節音声データを抽出する。
このように、できるだけ大きな音声単位で対応している
音声データを検索して抽出するという点に本実施の形態
の特徴がある。
【0037】すなわち、一般に合成音声の品質は、音声
データのつなぎ目で極端に劣化することから、かかるつ
なぎ目の数は可能な限り少ない方が合成音声の品質上は
好ましい。ここで、大きな音声単位の文節音声を組み合
わせて所望のテキストデータを構成すればするほど、音
声データのつなぎ目の数は減少する。したがって、本実
施の形態によれば、できるだけ大きな文節単位で音声デ
ータを検索・取得することから、合成音声のつなぎ目の
数は最小限に抑えることができ、ひいては全体としての
合成音声の品質を高めることが可能となる。
【0038】そして、音声データ変換部46において、
獲得した文節音声データ、単語音声データ、音節音声デ
ータについて、韻律情報に合わせて変換する。具体的に
は、基本周波数変換部461、時間長変換部462、パ
ワー変換部463において、それぞれ基本周波数、時間
長、パワーを変換する。こうすることで、単純に各音声
データをつなぎ合わせるだけでは合成音声として品質が
低くなってしまうのを未然に防止することができ、自然
発声に近い合成音声を出力することが可能となる。
【0039】まず基本周波数について考えると、基本周
波数は音声の高さ等を支配する直接的な要素であること
から、基本周波数のパターンを把握することで再生音声
全体のピッチパターンを定めることができる。
【0040】例えば、一般に声の出し始めにおいては声
が高くなる傾向にあり、次第に高さが低下するという特
性を有することから、かかる基本的なイントネーション
特性を基調として、アクセントや文節に固有のピッチパ
ターン等を重ね合わせることで、音声出力すべき文全体
のピッチパターンが定まってくる。
【0041】したがって、基本周波数変換部461で
は、かかる再生音声全体のピッチパターンに沿うよう
に、獲得した文節音声データ、単語音声データ、音節音
声データについて、基本周波数を変換することで、再生
音声全体が自然なピッチパターンを有する再生音声とな
るように調整することが可能となる。
【0042】また、各音素の時間長についても、基本周
波数と同様に再生音声の品質等を支配する直接的な要素
であることから、かかる時間長を調整することで再生音
声全体の品質を高めることができる。
【0043】したがって、時間長変換部462では、各
音素固有の性質や、前後にある音素の影響、単語の音節
数、音素の位置等に基づいて、連続音声中の各音素の継
続時間を定め、定められた継続時間にしたがって各音素
の再生時間長を調整する。こうすることで、再生音声全
体が自然な再生音声となるように調整することが可能と
なる。
【0044】さらに、パワーについて考えると、パワー
も基本周波数と同様のパターンが基本となるものと考え
られることから、ピッチの高いところはパワーが大き
く、ピッチの低いところはパワーが小さいものと考えら
れる。
【0045】したがって、パワー変換部463では、定
められた音声出力すべき文全体のピッチパターンに沿う
ように、獲得した文節音声データ、単語音声データ、音
節音声データについて、パワーを変換することで、再生
音声全体が自然なピッチパターンに応じたパワーでもっ
て再生される再生音声となるように調整することが可能
となる。
【0046】なお、音声データ格納部44のデータ構成
としては様々なものが考えられる。例えば図8に、かか
るデータ構造の一例を示す。図8の例においては、文音
声データ、文節音声データ、単語音声データ、音節音声
データを多層に格納しており、それぞれのインデックス
に当該音声データの内容を格納するとともに、音声デー
タ照合部43から参照できるようにしている。
【0047】また、文音声データは、その内容に文節、
単語、音節を含んでいることから、これを文節音声デー
タ、単語音声データ、音節音声データとして用いること
も必要である。したがって、内包する文節音声データ、
単語音声データ、音節音声データについても、それぞれ
文節音声データインデックス、単語音声データインデッ
クス、音節音声データインデックスを設けて、これらを
用いて音声データ照合部43から参照できるようにして
いる。
【0048】同様に文節音声データは内包する単語音声
データ及び音節音声データとして用いることができ、単
語音声データも内包する音節音声データとして用いるこ
とができるようになっている。
【0049】なお、音声データ格納部44のデータ構造
はかかる構造例に限定されるものではなく、音声データ
について、その音声単位の大きさの違いを意識して使用
できる構造でありさえすれば、どのようなデータ構造で
あっても良い。
【0050】以上のように本実施の形態によれば、任意
のテキストデータの入力に基づいて、より大きな音声単
位で登録されている音声データを抽出して合成音声を作
成することができるので、合成音声における音のつなぎ
目の数を最小限にすることができ、ひいては自然音声に
近い合成音声を出力することが可能となる。
【0051】上述したようなテキスト音声変換装置の適
用範囲は非常に広範であり、例えばカーナビゲーション
システム等の車載情報提供システムにおいては、ドライ
バに提供する情報のうち、方向指示等の固定文や交差点
名、目的地等の固定文型音声における固定部分につい
て、従来通り蓄積された音声データを用いるとともに、
固定文型音声における可変部分や任意のニュースやメー
ル読み上げ等の可変情報については、蓄積されている音
声データのうち、できるだけ大きな単位の音声データを
使用しながら合成音声を生成することになる。このよう
にすることで、合成音声の品質を高く保持することが可
能となる。
【0052】次に、本発明の実施の形態にかかるテキス
ト音声変換装置を実現するプログラムの処理の流れにつ
いて説明する。図9に本発明の実施の形態にかかるテキ
スト音声変換装置を実現するプログラムの処理の流れ図
を示す。
【0053】図9において、まず音声出力の対象となる
テキストデータを入力して(ステップS90)、音声デ
ータ格納部へ事前に格納されている各音声データとの照
合を行う(ステップS91)。
【0054】最初に、入力したテキストデータ自体が音
声データ格納部に登録されている文音声データに対応し
ている文音声データが存在しているか否かを照合する
(ステップS92)。対応している文音声データが存在
すれば(ステップS92:Yes)、当該文音声データ
を合成音声として直接出力することになる(ステップS
99)。
【0055】対応している文音声データが存在しなけれ
ば(ステップS92:No)、次に文音声データに内包
されている文節音声データに対応している文節音声デー
タが存在するか否か、及び部分的に対応している文節音
声データが存在するか否かを照合する(ステップS9
3)。対応している文節音声データが存在すれば(ステ
ップS93:Yes)、当該文節音声データをバッファ
内へ一時的に出力・格納する(ステップS94)。
【0056】対応している文節音声データが存在しなけ
れば(ステップS93:No)、今度は、文音声データ
に内包されている単語音声データに対応している単語音
声データが存在するか否か、文節音声データに内包され
ている単語音声データに対応している単語音声データが
存在するか否か、及び部分的に対応している単語音声デ
ータが存在するか否かを照合する(ステップS95)。
対応している単語音声データが存在すれば(ステップS
94:Yes)、当該単語音声データをバッファ内へ一
時的に出力・格納する(ステップS94)。
【0057】かかる照合処理を入力されたテキストデー
タのすべてについて繰り返し行い(ステップS96)、
まだ対応している音声データが検出されていない単語に
ついては音節ごとに分割した後、音節音声データとして
バッファ内へ一時的に出力・格納する(ステップS9
7)。
【0058】こうして入力されたテキストデータのすべ
てについて音声データとしてバッファへ出力されたら、
これら文節音声データ、単語音声データ、音節音声デー
タを接続し、韻律情報等に基づいて基本周波数等の変換
処理を行う(ステップS98)。そして、自然な合成音
声として出力することになる(ステップS99)。
【0059】本発明の実施の形態にかかるテキスト音声
変換装置を実現するプログラムを記憶した記録媒体は、
図10に示す記録媒体の例に示すように、CD−ROM
102−1やフロッピー(登録商標)ディスク102−
2等の可搬型記録媒体102だけでなく、通信回線の先
に備えられた他の記憶装置101や、コンピュータ10
3のハードディスクやRAM等の記録媒体104のいず
れでも良く、プログラム実行時には、プログラムはロー
ディングされ、主メモリ上で実行される。
【0060】また、本発明の実施の形態にかかるテキス
ト音声変換装置に用いられる文節音声データ等を記録し
た記録媒体も、図10に示す記録媒体の例に示すよう
に、CD−ROM102−1やフロッピーディスク10
2−2等の可搬型記録媒体102だけでなく、通信回線
の先に備えられた他の記憶装置101や、コンピュータ
103のハードディスクやRAM等の記録媒体104の
いずれでも良く、例えば本発明にかかるテキスト音声変
換装置を利用する際にコンピュータ103により読み取
られる。
【0061】
【発明の効果】以上のように本発明にかかるテキスト音
声変換装置によれば、任意のテキストデータの入力に基
づいて、より大きな音声単位で登録されている音声デー
タを抽出して合成音声を作成することができるので、合
成音声における音のつなぎ目の数を最小限にすることが
でき、ひいては自然音声に近い合成音声を出力すること
が可能となる。
【図面の簡単な説明】
【図1】 従来のテキスト音声変換装置の構成図
【図2】 従来のテキスト音声変換装置の構成図
【図3】 従来のテキスト音声変換装置の構成図
【図4】 本発明の実施の形態にかかるテキスト音声変
換装置の構成図
【図5】 本発明の実施の形態にかかるテキスト音声変
換装置における変換説明図
【図6】 本発明の実施の形態にかかるテキスト音声変
換装置における変換説明図
【図7】 本発明の実施の形態にかかるテキスト音声変
換装置における変換説明図
【図8】 本発明の実施の形態にかかるテキスト音声変
換装置における音声データ格納時のデータ構造例示図
【図9】 本発明の実施の形態にかかるテキスト音声変
換装置における処理の流れ図
【図10】 記録媒体の例示図
【符号の説明】
11、21、31、42 テキストデータ入力部 12 音声データ検索部 13、27、36、48 音声データ出力部 14、44 音声データ格納部 22 固定部分音声データ検索部 23 固定部分音声データ格納部 24、34 音声合成部 25、35 単位音声データ格納部 26、47 音声データ接続部 32 言語処理部 33 単語辞書 41 制御部 43 音声データ照合部 45 テキストデータ解析部 46 音声データ変換部 101 回線先の記憶装置 102 CD−ROMやフロッピーディスク等の可搬型
記録媒体 102−1 CD−ROM 102−2 フロッピーディスク 103 コンピュータ 104 コンピュータ上のRAM/ハードディスク等の
記録媒体 461 基本周波数変換部 462 時間長変換部 463 パワー変換部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声出力の対象となるテキストデータを
    入力するテキストデータ入力部と、 前記テキストデータを、事前に格納されている音声デー
    タと照合する音声データ照合部と、 照合結果として出力された前記音声データをつなぎ合わ
    せて合成音声を生成する音声データ接続部と、 生成された前記合成音声を出力する音声データ出力部と
    を含み、 前記音声データ照合部において、大きな音声単位で格納
    されている前記音声データから順に照合を行い、前記音
    声データが前記テキストデータに文単位で完全に対応し
    ている場合には文単位の前記音声データを、前記音声デ
    ータが前記テキストデータに部分的に対応している場合
    には、部分的に対応している前記音声データのうち最も
    大きな音声単位で格納されている前記音声データから順
    に照合結果として出力することを特徴とするテキスト音
    声変換装置。
  2. 【請求項2】 入力された前記テキストデータの構成を
    解析するテキストデータ解析部と、 照合結果として出力された前記音声データを変換する音
    声データ変換部をさらに含み、 前記テキストデータ解析部において解析された結果に応
    じて、入力された前記テキストデータに関する韻律情報
    を定めるとともに、前記音声データ変換部において、前
    記韻律情報に基づいて前記音声データを変換する請求項
    1記載のテキスト音声変換装置。
  3. 【請求項3】 前記韻律情報が、基本周波数、時間長、
    パワーのうち少なくとも一つに関する情報である請求項
    2記載のテキスト音声変換装置。
  4. 【請求項4】 前記音声データ照合部において、文単
    位、文節単位、単語単位、音節単位の順に照合される請
    求項1から3のいずれか一項に記載のテキスト音声変換
    装置。
  5. 【請求項5】 音声出力の対象となるテキストデータを
    入力する工程と、 前記テキストデータを、事前に格納されている音声デー
    タと照合する工程と、 照合結果として出力された前記音声データをつなぎ合わ
    せて合成音声を生成する工程と、 生成された前記合成音声を出力する工程とを含み、 大きな音声単位で格納されている前記音声データから順
    に照合を行い、前記音声データが前記テキストデータに
    文単位で完全に対応している場合には文単位の前記音声
    データを、前記音声データが前記テキストデータに部分
    的に対応している場合には、部分的に対応している前記
    音声データのうち最も大きな音声単位で格納されている
    前記音声データから順に照合結果として出力することを
    特徴とするテキスト音声変換方法。
  6. 【請求項6】 音声出力の対象となるテキストデータを
    入力するステップと、 前記テキストデータを、事前に格納されている音声デー
    タと照合するステップと、 照合結果として出力された前記音声データをつなぎ合わ
    せて合成音声を生成するステップと、 生成された前記合成音声を出力するステップとを含み、 大きな音声単位で格納されている前記音声データから順
    に照合を行い、前記音声データが前記テキストデータに
    文単位で完全に対応している場合には文単位の前記音声
    データを、前記音声データが前記テキストデータに部分
    的に対応している場合には、部分的に対応している前記
    音声データのうち最も大きな音声単位で格納されている
    前記音声データから順に照合結果として出力することを
    特徴とするコンピュータに実行させるプログラムを記録
    したコンピュータ読み取り可能な記録媒体。
JP2000173521A 2000-06-09 2000-06-09 テキスト音声変換装置及び方法 Withdrawn JP2001350490A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000173521A JP2001350490A (ja) 2000-06-09 2000-06-09 テキスト音声変換装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000173521A JP2001350490A (ja) 2000-06-09 2000-06-09 テキスト音声変換装置及び方法

Publications (1)

Publication Number Publication Date
JP2001350490A true JP2001350490A (ja) 2001-12-21

Family

ID=18675734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000173521A Withdrawn JP2001350490A (ja) 2000-06-09 2000-06-09 テキスト音声変換装置及び方法

Country Status (1)

Country Link
JP (1) JP2001350490A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
JP2009239865A (ja) * 2008-03-28 2009-10-15 Fujitsu Telecom Networks Ltd 緊急通報システム
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2017531197A (ja) * 2014-08-06 2017-10-19 エルジー・ケム・リミテッド 文字データの内容を文字データ送信者の音声で出力する方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
JP2009239865A (ja) * 2008-03-28 2009-10-15 Fujitsu Telecom Networks Ltd 緊急通報システム
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2017531197A (ja) * 2014-08-06 2017-10-19 エルジー・ケム・リミテッド 文字データの内容を文字データ送信者の音声で出力する方法

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US7487093B2 (en) Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US9368104B2 (en) System and method for synthesizing human speech using multiple speakers and context
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
US20200365137A1 (en) Text-to-speech (tts) processing
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3518898B2 (ja) 音声合成装置
JP2002149180A (ja) 音声合成装置および音声合成方法
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP2001350490A (ja) テキスト音声変換装置及び方法
JPH0887297A (ja) 音声合成システム
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
JPH08335096A (ja) テキスト音声合成装置
JP2004145015A (ja) テキスト音声合成システム及び方法
JP2008257116A (ja) 音声合成システム
JPS62119591A (ja) 文章読上げ装置
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
JP2001042883A (ja) テキスト音声合成装置
JPH11282494A (ja) 音声合成装置および記憶媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070904