JP4636673B2 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP4636673B2
JP4636673B2 JP2000349066A JP2000349066A JP4636673B2 JP 4636673 B2 JP4636673 B2 JP 4636673B2 JP 2000349066 A JP2000349066 A JP 2000349066A JP 2000349066 A JP2000349066 A JP 2000349066A JP 4636673 B2 JP4636673 B2 JP 4636673B2
Authority
JP
Japan
Prior art keywords
information
syntax
pattern
prosodic
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000349066A
Other languages
English (en)
Other versions
JP2002149180A (ja
Inventor
勝義 山上
弓子 加藤
由実 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000349066A priority Critical patent/JP4636673B2/ja
Publication of JP2002149180A publication Critical patent/JP2002149180A/ja
Application granted granted Critical
Publication of JP4636673B2 publication Critical patent/JP4636673B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力されたテキストの読み上げ音声を合成する音声合成装置および書き言葉を話し言葉に変換して読み上げるための音声合成方法(自然言語処理方法)に関する。
【0002】
【従来の技術】
テキスト音声合成システムにおいては、読み上げの対象となるテキストは、読まれることを前提として書かれた書き言葉の表現で記述されている場合が多い。
書き言葉の表現にはそのまま読み上げると理解しにくいものがあるので、書き言葉の表現を、読み上げに適した話し言葉の表現に変換してから読み上げるという音声合成の方式が提案されている。
【0003】
例えば、難意語や紛らわしい同音異義語を平易な単語に置き換えてから読み上げる機能を有したテキスト音声合成装置(例えば、特開平3−35296号公報)が提案されている。
【0004】
また、単語を置き換えるだけでなく、イントネーションも調整して、読み上げ音声の了解性を高めようとする試みもある。
【0005】
【発明が解決しようとする課題】
しかしながら、話し言葉の自然音声では、文節の区切れや意味の切れ目等において、音の高低,音声強度や音韻時間長などが微妙に調整されており、規則に基づく音声合成方式のみで自然な音声を生成することは、なかなか困難である。
【0006】
より具体的にいえば、例えば、文章を読み上げる場合には、文の意味、あるいは、内容を反映した読み方をすることが望ましい。
【0007】
文の意味は、構成要素である単語、あるいは文節自体の意味と、文の構造、すなわち、単語を含む各文節同士の互いの関係によって表現される。訓練されたアナウンサー等は、イントネーションをうまく使い分けることで、文の構造を分かりやすくするなどのテクニックを有している。
【0008】
これに対し、現状の音声合成装置において、例えば、「〜するようです」などの定型的で1つの文節、あるいはアクセント句に関して話し言葉らしいイントネーション(あるいは韻律)を付与することに成功したとしても、変換後の話し言葉の表現が複数の文節に渡る場合(意味の係り結びが複数の文節に渡って生じる場合)では、文節間のイントネーションのバランスが考慮されない。よって、文の構造を反映した読み上げ音声を生成できないという、さらなる不都合が問題となる。
【0009】
本発明は、このような、本発明者の検討に基づいてなされたものであり、上述した従来の書き言葉から話し言葉への変換機能を有する音声合成装置の不都合を解消し、わかりやすい表現、かつ、自然なイントネーションでテキストを音声出力することができる新規な音声合成装置と音声合成方法(自然言語処理方法)を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明は、”単語”や”特定の言いまわし”に対して置換やイントネーションの制御を行うという従来の手法に加えて、文書の構文を解析し、複数の文節に渡る意味の関連性を検出し、その検出結果に基づく韻律パラメータの調整(基本韻律の微調整)を行うことで、読み上げる文章の内容を、分かりやすくするものである。
【0011】
本発明の音声合成装置の好ましい態様の一つは、入力テキストを言語解析して単語列に分解し、各単語の意味情報を含む言語情報を付与し、前記言語情報が付与された単語列を、文節を単位としてグループ化して、言語解析結果として出力する言語解析手段と、この言語解析手段から出力される、言語処理結果の文節列につき、前記意味情報の配列パターンに基づいて構文構造を解析し、構文解析の結果を示す構文識別情報を付与して出力する構文解析手段と、構文識別情報に対応する韻律制御情報を用いて、構文構造を反映した韻律情報の制御を行う韻律制御手段と、韻律制御手段によって生成された韻律情報にしたがって、音声波形を合成する波形合成手段と、を有する。
【0012】
この構成によれば、構文解析手段と韻律制御手段の組み合わせにおいて、テキストの構文構造に応じた韻律制御を行うことができるので、複数の文節にわたる表現の変換に対しても構文的な関係を反映し、バランスの良い韻律制御が可能である。
【0013】
また、入力テキストの書き言葉の部分を話し言葉の表現に変換し、かつ、変換後のテキストの構文構造を反映して読み上げることができるので、テキストの内容をわかりやすい音声で、正確に伝えることが可能である。
【0014】
また、テキスト変換規則により、わかりやすい表現に変換され、構文の構造に対応した韻律制御を行うので、文の内容がわかりやすいイントネーションで読み上げることが可能である。
【0015】
さらに、言語情報のパターン照合に意味情報を利用することにより、同義の単語、表現に対して変換規則を1つにまとめることが可能になり、効率的に変換規則を記述可能である、という副次的な効果も得ることができる。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
【0017】
図1は、本発明の実施の形態にかかる音声合成装置の構成を表すブロック図である。
【0018】
参照符号101は、テキストを入力する入力部である。
【0019】
参照符号102は、入力のテキストを単語に分割し、表記、読み、アクセント、品詞、意味情報(意味ラベル)などを含む言語情報を付与し、単語列を文節単位にグループ化した言語解析結果を出力する言語解析部である。参照符号103は、言語解析部102が単語に付与する言語情報を記述した言語解析用辞書である。
【0020】
また、参照符号105は、テキストの単語単位、あるいは、文節単位での置換を行うテキスト変換規則を格納するテキスト変換規則テーブルである。テキスト変換規則は、例えば、言語解析結果の変換すべき部分に関する単語単位、あるいは、文節単位での、表記、読み、品詞、意味情報などを含む言語情報のパターンと、パターンに該当する部分の変換後の単語単位、あるいは、文節単位での言語情報の列として記述される。
【0021】
参照符号104は、テキスト変換規則テーブル105に格納されるテキスト変換規則と言語解析結果の照合を行い、照合部分の置換を行う。
【0022】
テキスト変換規則を書き言葉の表現の言語情報パターンから、書き言葉に対応する話し言葉の言語情報列として記述することにより、書き言葉から話し言葉へ変換して読み上げることが可能となる。また、言語情報パターンにおいて、単語、あるいは、文節の意味情報を指定することで、1つのテキスト変換規則で同義の表現に適用可能であるように効率的にテキスト変換規則を記述することが可能である。
【0023】
参照符号107は、言語解析結果と照合可能な、言語情報のパターンとして記述された構文パターン(および、構文パターンに対応する韻律制御情報)を格納する構文パターンデータベースである。
【0024】
また、参照符号106は、構文パターン韻律情報データベース107に格納されている構文パターンと言語解析結果を照合して、照合部分に言語解析結果の構文構造を一意に決定する構文識別情報を設定する構文パターン照合部である。
【0025】
参照符号108は、構文解析結果の単語単位に付与された読み、アクセント、品詞、文節のグループなどの言語情報から、アクセント句単位で音韻情報および韻律パラメータ(基本韻律)を生成する韻律生成部である。
【0026】
参照符号110は、構文パターンデータベース107に格納されている各構文パターンにより与えられる構文識別情報と対応した韻律制御情報を格納する韻律制御データベースである。
【0027】
参照符号109は、韻律生成部108で生成された1文の韻律パラメータの系列に対して、韻律制御データベース110の構文識別情報と対応する韻律制御情報を用いて韻律パラメータの調整を行う韻律制御部である。
【0028】
参照符号111は、韻律生成部108で生成された音韻系列、および、韻律制御部で調整された韻律パラメータに従って、音声波形を合成する波形合成部である。参照符号112は、波形合成部111が必要とする音声素片を格納した音声素片データベースである。
【0029】
上述の構成において、テキスト変換規則テーブル105および変換処理部104は、テキスト変換手段115(図1中、太い点線で囲んで示される)の構成要素である。
【0030】
また、構文パターン照合部106および構文パターンデータベース107は、構文解析手段116(図1中、太い点線で囲んで示される)の構成要素である。また、韻律制御部109および韻律制御データベース110は、韻律制御手段(韻律パラメータを微調整するための手段)117の構成要素である。
【0031】
このような構成をもつ本実施の形態の音声合成装置の特徴的な動作が、図3に示される。
【0032】
すなわち、言語解析部102は、入力テキストを言語解析する(ステップ301)。このとき、各単語の意味ラベル(意味情報)も併せて付与する。例えば、「A」の「B」の「C」という構文パターンである場合に、「A」は”地域”を意味する名詞であり、「B」は”動作の主体”を意味する名詞であり、「C」は”グループの種別”を意味する名詞であることを示す意味ラベル(意味情報)を、「A」,「B」,「C」の各々について付与する。
【0033】
次に、テキスト変換処理部104において、テキスト変換規則テーブル105を参照して登録されているパターンに一致するものがテキスト中に存在するかを検出し、一致したパターンを書き言葉のパターンに置き換え、テキスト変換を行う(ステップ302)。これにより、書き言葉が話し言葉に変換される。
【0034】
例えば、「開設を検討するという。」というテキストが入力された場合、「という。」は「ということです。」に変換される。
【0035】
ここで注目すべきことは、テキスト変換処理にあたり、言語解析部102にて付与された意味ラベルを考慮した、パターン検索を行うことにより、同義の単語や表現に対して変換規則を1つにまとめることが可能になり、効率的に変換規則を記述可能である、という効果が得られる点である。
【0036】
例えば、「開設を予定する。」と、「開設の予定。」とは、同じ意味の表現であり、共に、「開設の予定です」という話し言葉に変換するのが望ましい。単語のパターンだけに基づいてテキスト変換を行おうとすると、各パターン毎に変換規則を設定しておく必要がある。
【0037】
しかし、「意味の配列のパターン」として見れば、両者は同じであり、この意味の配列のパターンに基づいて変換規則を記述しておけば、変換規則を共通化することができる。つまり、言語解析の結果として付与される意味ラベルを活用することで、テキスト変換を効率化することができる。
【0038】
次に、構文パターン照合部106が、構文パターンデータベース107を参照して、構文パターンを解析する(図3のステップ303)。
【0039】
この構文パターンの解析処理(照合処理)は、ステップ302を経てテキスト変換された部分および、テキスト変換されない部分の双方を対象として実施される。また、構文パターンの照合は、「意味ラベルの並び方(配置)」が、構文パターンデータベース107に登録されているパターンと一致するか否かを検出することで行う。そして、登録されている構文パターンと一致した部分に、構文識別情報(例えば、”ID1”という識別情)が付与される。
【0040】
次に、韻律生成部108において、ピッチ(音の高低)等の基本的な韻律を生成する(ステップ304)。この基本的な韻律の生成は、言語解析部102により解析された情報を利用して行う。
【0041】
次に、韻律制御部109が、構文パターン照合部106において付与された構文識別情報(例えば、上述の”ID1”という識別情報)に従って韻律パラメータを調整(微調整)する(ステップ305)。
【0042】
これにより、連続する複数の文節相互の意味の関係を考慮した、バランスのとれた韻律形成が可能となる。
【0043】
韻律制御部109における韻律パラメータの調整は、構文識別情報(例えば”ID1”)をインデックスとして韻律制御データベース110を検索し、この”ID1”に対応する韻律制御情報を読み出すことにより行われる。つまり、構文パターンデータベース107と韻律制御データベース110との間に、構文パターン識別情報に基づく対応関係を構築しておくことで、韻律制御パラメータの調整を、きわめて簡単に行うことができる。
【0044】
例えば、「A」の「B」の「C」という構文パターンに”ID1”という構文識別情報が付与されているとすると、この構文パターンについては、例えば、「Aの」という部分のピッチパターンと、「Bの」という部分のピッチパターンとの相互の連続性が断ち切られるように韻律制御パラメータを調整し、「Bの」という部分のピッチパターンと、「C」という部分のピッチパターンとの相互の連続性が確保されるように韻律制御パラメータを調整するのであり、このようなパラメータの微調整を行うための情報が、”ID1”というインデックスの下で韻律制御データベースに登録されている、ということである。
【0045】
ここで、韻律制御パラメータは、例えば、各文節のピッチパターンのダイナミックレンジの上限値および下限値、および、その上限値および下限値の時間に対する変化率の少なくとも一つを含むものであり、これらを調整することにより、構文の意味を考慮した、バランスのとれた韻律を生成することが可能となる。
【0046】
最後に、波形合成部111において、音声素片を接続し、韻律パラメータに従って波形を合成する(ステップ306)。
【0047】
このように、本実施の形態によれば、合理的(効率的)なプロセスにより、入力テキストの書き言葉の表現を話し言葉の表現に変換し、かつ、文の構造を分かりやすく表現する読み上げることが可能となる。
【0048】
このような音声合成装置は、例えば、図2に示すようなコンピュータシステム上に構築されるものである。
【0049】
このコンピュータシステムは、本体部201と、キーボード202と、ディスプレイ203と、入力装置(マウス)204と、スピーカ208と、を含むテキスト入力と音声出力が可能なシステムである。
【0050】
図1の言語解析用辞書103、テキスト変換規則テーブル105、構文パターン韻律制御データベース107、音声素片データベース111は、本体部201にセットされるCD−ROM209内、本体部201が内蔵するディスク(メモリ)205内、あるいは、回線207で接続された他のシステムのディスク206内に格納される。
【0051】
以下、図4〜図7に示されるテキスト変換規則の具体例および構文パターンの具体例を用いて、テキスト変換処理や韻律制御処理の内容を詳細に説明する。
【0052】
図4は、テキスト変換規則テーブル105のテキスト変換規則の一例を示す図である。
【0053】
図中の参照符号401が、1つのテキスト変換規則を構成している。参照符号402が変換すべき単語列の言語情報のパターン部分であり、テキスト変換規則401の例では、品詞が‘名詞’である単語が3つ連続するパターンを表す。
【0054】
参照符号403は、言語情報パターン402に照合した部分を置き換える単語列を指定する。
【0055】
ここで、単語列403の[$1]、[$2]、[$3]は、それぞれ、言語情報パターン402の‘[名詞],[名詞],[名詞]’の3つの言語情報パターンとそれぞれ照合した部分の言語情報を、[$1],[$2],[$3]の場所にコピーすることを示す。
【0056】
例えば、「日本銀行券」という「日本」、「銀行」、「券」という3つの名詞からなる単語列は、テキスト変換規則401によって、「日本の銀行の券」という単語列に置き換えられる。
【0057】
図5(a),(b)はそれぞれ、構文パターンデータベース107の構文パターンの1例を示す図である。
【0058】
図5(a)の参照符号501および図5(b)の参照符号502はそれぞれ、1つの構文パターンを示している。
【0059】
図5(a)において、参照符号501Aは、単語列の言語情報のパターンである。‘[Region],[Agent],[Group]’は、それぞれ、意味情報を表す。言語解析結果の単語列の言語情報がもつ意味情報が、言語情報パターン501Aに記述された意味情報と一致する場合に、構文パターンと言語解析結果が照合する。また、参照符号501Bは、構文識別情報である。
【0060】
構文パターン501Aに照合する単語列は、構文の構造として、文節‘[Region][の]’が文節‘[Group]’に係り、文節‘[Agent][の]’が文節‘[Group]’に係る。この関係を図5の中では、曲線の矢印によって表している。
【0061】
一方、図5(b)の参照符号502は、構文パターンのもう1つの例である。言語情報パターン502Aに照合する単語列は、構文の構造として、文節‘[Object][の]’が文節‘[Action][の]’に係り、文節‘[Action][の]’が文節‘[Action]’に係る。
【0062】
意味情報での区別を考慮しなければ、言語情報パターン501Aと502Aは、同じパターンであるが、単語の意味情報を考慮すれば,それぞれの構文パターンに照合する単語列は、構文構造が異なる。よって、それぞれの表現を読み上げる際には、構文構造の違いが分かるようにイントネーションを使い分けて読み上げるのが望ましい。
【0063】
例えば、「全国のユーザの会」の言語解析結果が、‘[全国:ニホン:名詞:Region][の:ノ:助詞:*][ユーザ:ユーザ:名詞:Agent][の:ノ:助詞:*][会:カイ:品詞:Group]’だとすると、構文パターン501と照合するので、この単語列に対しては構文識別情報501Bが付与される。
【0064】
また、「情報の公開の制度化」の言語解析結果が、‘[情報:ジョーホー:名詞:Object][の:ノ:助詞:*][公開:コーカイ:サ変名詞:Action][の:ノ:助詞:*][制度化:セードカ:サ変名詞:Action]’だとすると、構文パターン502と照合するので、この単語列に対しては構文識別情報502Bが付与される。
【0065】
図6は、「全国のユーザの会は、」の言語解析結果に対して、図7は、「情報の公開の制度化を」の言語解析結果に対して、それぞれの構文構造に応じて韻律パラメータが調整される様子を示す図である。なお、ここでは、調整される韻律パラメータとしてピッチパターンだけを図中に示してある。
【0066】
まず、図6では、言語解析解析結果601が、構文パターン501と合致するので、構文識別情報としてID-1が与えられる。
【0067】
次に、韻律生成部108が、言語情報の読み、アクセントなどからアクセント句ごとにピッチパターン602が生成される。韻律制御部109は、構文識別情報ID_1に対応する韻律パラメータの制御情報を韻律制御データベース110取得し、ピッチパターン602を調整する。
【0068】
韻律制御パラメータ(韻律制御情報)としては,例えば、ピッチ変化の最大値と最小値、および、それらの値の時間に対する変化率がある。つまり、これらを調整すれば、読み上げ音声の韻律を変化させることができる。ピッチパターン602は、韻律制御情報にしたがって、図6の下側に示されるようなピッチパターン(音声の高低のパターン)603のように変形される。
【0069】
つまり、図6の下側において、調整後のピッチパターン603の上下に記載されている点線の直線A(A1,A2),B(B1,B2)が、ピッチ(音声の高低)の最大値と最小値を規定している。つまり、点線の直線Aと直線Bに挟まれた領域がピッチの変動可能幅(ダイナミックレンジ)となる。上限値Aと下限値Bの値を、一つのアクセント句(文節)と次のアクセント句(文節)とで異ならせたり、あるいは、所定の値に設定することで、調整後のピッチパターンの相対的な位置を異ならせたり、あるいは、なめらかに連続させたりすることが可能となる。
【0070】
また、点線の直線AとBの傾き(時間に対する変化率)は、音声の高低の変化の割合を示しており、この傾きにより、イントネーションの微調整を行える。
【0071】
図6の場合には、「全国の」というアクセント句(文節)と、「ユーザーの」というアクセント句(文節)間のピッチパターンは、不連続性が強調されるように調整されている(A1とA2,B1とB2は不連続となるように調整されている)。
【0072】
また、「ユーザーの」というアクセント句(文節)と「会は、」というアクセント句(文節)との間は、なめらかに連続するピッチパターンとなるように調整されている(ピッチの上限値を示す値A2,下限値を示す値B2はともに連続しており、それらの時間に対する変化率も、ほぼ一定で変化しない)。こうすることで、「全国の、」と「ユーザーの」との間では、意味的な不連続が明らかになり、「全国の」と「会」,および「ユーザーの」と「会」との意味的結合が明らかになる。つまり、構文の意味にもとづく、複数の文節に渡るバランスのとれた韻律制御が可能となる。
【0073】
一方、図7では、図6と同様の過程により、構文識別情報ID-2に対応した韻律制御情報により調整されたピッチパターン703が得られる。
【0074】
つまり、図7では、「情報の」というアクセント句(文節)と、「公開の」というアクセント句(文節)との間で、また、「公開の」というアクセント句(文節)と「制度化を」というアクセント句(文節)との間で、共に、ピッチの上限値の変化を示す直線(A1),下限値の変化を示す直線(B1)は、なめらかに連続している。つまり、ピッチが連続するように、A1,B1の値と、その時間に対する変化率の2つの韻律パラメータを微調整する。
【0075】
これにより、「情報の」、「公開の」、「制度化を」という各アクセント句(文節)間の意味的な連続性を考慮した、適正な韻律形成が可能となる。
【0076】
このように、表層の言語表現としては、3つの名詞が助詞の‘の’ではさまれた形式の単語列であるが、各名詞の意味関係から、言語解析結果601と言語会席結果701の構文構造が異なっており、その違いをピッチパターンの違いとして表現することが可能である。よって、内容を正確にわかりやすく伝える合成音声を提供することができる。以上、図6,図7を用いて韻律パラメータの調整処理について説明した。
【0077】
このように、本実施の形態の音声合成装置では、言語解析に基づいて付与された意味ラベルの配列に着目して構文パターンを解析し、音律と基本韻律を生成し、さらに、韻律パラメータを調整して、文章の意味に着目したバランスを考慮した韻律を形成する。
【0078】
ここで、構文パターン照合処理および韻律パラメータの調整処理における判断の具体的な内容についてまとめておく。
【0079】
構文パターンの照合に際しては、下記の▲1▼〜▲5▼の判断を行う。
▲1▼A,B,Cをそれぞれ名詞とした場合、「A」の「B」の「C」、という構文パターンが存在するかを判定する。
▲2▼上記判断ステップで、該当する構文パターンがテキスト中に存在する場合、「A」は”地域”を意味する名詞であり、「B」は”動作の主体”を意味する名詞であり、「C」は”グループの種別”を意味する名詞であるかを判定する。
▲3▼上記▲2▼の判断の結果、該当するテキストの構文パターンが存在する場合には、構文識別情報”ID1”を付与する。
▲4▼上記▲2▼の判断ステップで、該当するパターンがテキスト中に存在しない場合には、次に、「A」は"動作の対象(目的語)”を意味する名詞であり、「B」は”動作”を意味する名詞であり、同じく「c」も”動作”を意味する名詞であるかを判定する。
▲5▼上記▲4▼の判断の結果、該当するテキストの構文パターンが存在する場合には、構文識別情報”ID2”を付与する。
【0080】
また、韻律パラメータの制御処理にあたっては、以下の▲1▼および▲2▼の判断を実施する。
▲1▼構文識別情報”ID1”が付与された構文パターンについては、「Aの」という部分のピッチパターンと、「Bの」という部分のピッチパターンとの相互の連続性が断ち切られるように前記韻律制御パラメータを調整し、「Bの」という部分のピッチパターンと、「C」という部分のピッチパターンとの相互の連続性が確保されるように前記韻律制御パラメータを調整する。
▲2▼構文識別情報”ID2”が付与された構文パターンについては、「Aの」という部分のピッチパターンと、「Bの」という部分のピッチパターンとの相互の連続性が確保されるように前記韻律制御パラメータを調整し、さらに、「Bの」という部分のピッチパターンと、「C」という部分のピッチパターンとの相互の連続性が確保されるように前記韻律制御パラメータを調整する。
【0081】
このようにして、文の内容がわかりやすくより正確に伝わる合成音声が実現される。
【0082】
【発明の効果】
以上説明したように本発明によれば、書き言葉で書かれた入力テキストを話し言葉の表現に置き換え、さらに、文の構文を反映して読み上げることで、文の内容がわかりやすくより正確に伝わる合成音声を実現することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる音声合成装置の構成を示すブロック図
【図2】本発明を実施するためのコンピュータシステムの一例を示す図
【図3】本発明の実施の形態にかかる音声合成装置の主要な動作を説明するためのフロー図
【図4】本発明の実施の形態にかかる音声合成装置のテキスト変換規則の一例を示す図
【図5】(a)本発明の実施の形態にかかる音声合成装置の構文パターンデータベースの内容の一例を示す図
(b)本発明の実施の形態にかかる音声合成装置の構文パターンデータベースの内容の他の例を示す図
【図6】本発明の実施の形態にかかる音声合成装置での構文に応じた韻律制御処理の一例を説明するための図
【図7】本発明の実施の形態にかかる音声合成装置での構文に応じた韻律制御処理の他の例を説明するための図
【符号の説明】
101 入力部
102 言語解析部
103 言語解析用辞書
104 変換処理部
105 テキスト変換規則テーブル
106 構文パターン照合部
107 構文パターンデータベース
108 韻律生成部
109 韻律制御部
110 韻律制御データベース
111 波形合成部
112 音声素片データベース
113 出力部
115 テキスト変換手段
116 構文解析手段
117 韻律制御手段

Claims (10)

  1. 入力テキストを言語解析して、複数の単語又は文節からなる単語列に分解し、かつ、前記複数の単語毎に又は前記複数の単語の少なくとも2つからなる文節毎に意味情報を含む言語情報を付与し、前記複数の単語または文節に付与された意味情報の並び方を出力する言語解析手段と、
    複数の単語間または文節間が意味的に連続か不連続かを示す意味的な連続性の情報を含む構文構造と、複数の単語または文節の意味情報の並び方とが対応付けられている構文パターンを格納する構文パターンデータベースと、
    前記構文パターンデータベースを参照して、この言語解析手段から出力される前記単語または文節の意味情報の並び方と対応する、単語間または文節間の意味的な連続性の情報を含む構文構造を構文識別情報として出力する構文解析手段と、
    前記構文識別情報に対応する韻律制御情報を用いて、構文構造を反映した韻律情報の制御を行う韻律制御手段と、
    前記韻律制御手段によって生成された韻律情報にしたがって、音声波形を合成する波形合成手段と、
    を有することを特徴とする音声合成装置。
  2. 請求項1において、
    前記韻律制御手段は、前記構文解析手段から出力される構文識別情報において、一つの単語又は文節の表現が、その単語又は文節に続く次の単語又は文節の表現に意味的に連続である場合には、前記一つの単語又は文節のピッチパターンと前記次の単語又は文節のピッチパターンとの連続性の確保を重視した韻律情報を生成し、
    一方、前記構文解析手段から出力される構文識別情報において、前記一つの単語又は文節の表現が、その単語又は文節に続く次の単語又は文節の表現に意味的に不連続である場合には、前記一つの単語又は文節のピッチパターンと前記次の単語又は文節のピッチパターンの不連続性を強調するような韻律情報を生成することを特徴とする音声合成装置。
  3. 請求項1または請求項2において、
    前記韻律制御情報は、韻律を調整するためのパラメータとして、各文節のピッチパターンのダイナミックレンジの上限値および下限値、および、その上限値および下限値の時間に対する変化率、を具備することを特徴とする音声合成装置。
  4. 入力テキストを言語解析して、複数の単語又は文節からなる単語列に分解し、かつ、前記複数の単語毎に又は前記複数の単語の少なくとも2つからなる文節毎に意味情報を含む言語情報を付与し、前記複数の単語または文節に付与された意味情報の並び方を出力する言語解析手段と、
    前記言語解析結果について、書き言葉から話し言葉への変換を施すテキスト変換手段と、
    複数の単語間または文節間が意味的に連続か不連続かを示す意味的な連続性の情報を含む構文構造と、複数の単語または文節の意味情報の並び方とが対応付けられている構文パターンを格納する構文パターンデータベースと、
    前記構文パターンデータベースを参照して、前記単語または文節の意味情報の並び方と対応する、単語間または文節間の意味的な連続性の情報を含む構文構造を構文識別情報として出力する構文解析手段と、
    前記言語解析結果に含まれる前記言語情報に基づいて、音韻情報および韻律パラメータを含む韻律情報を生成して出力する韻律生成手段と、
    前記韻律生成手段の出力に対して、前記構文識別情報に対応する韻律制御情報を用いた、構文構造を反映した韻律情報の生成処理を実行し、前記韻律パラメータの調整を行う韻律制御手段と、
    前記韻律制御手段によって調整された前記韻律パラメータを含む前記韻律情報にしたがって、音声波形を合成する波形合成手段と、
    を有することを特徴とする音声合成装置。
  5. 請求項4において、
    前記テキスト変換手段は、
    前記言語解析結果と照合可能であり、単語毎の表記,読み,品詞,意味情報などを含む単語単位の、あるいは文節単位の言語情報パターンと、
    前記言語情報パターンに対応する変換後の単語単位の、あるいは文節単位の言語情報列と、を変換規則の1単位として保持している、テキスト変換規則テーブルと、
    このテキスト変換規則テーブルの変換規則と、入力された言語解析結果とを照合し、一致した部分については、前記変換規則に指定される変換後の言語情報列に置換する変換処理部と、を具備することを特徴とする音声合成装置。
  6. 請求項4において、
    前記韻律生成手段は、
    前記構文解析手段により構文識別情報を付与された言語解析結果に含まれる言語情報に基づいて、読みに応じた音韻列,ピッチ,パワー,音韻持続時間,ポーズ長,話速変化の少なくともいずれかを対象とする韻律パラメータを含む基本的な韻律情報を生成する機能を具備し、
    また、前記韻律制御手段は、
    文節間の韻律パラメータを相対的に調整するための韻律制御情報を保持する韻律制御情報データベースと、
    前記韻律生成部で生成された文節ごとの韻律情報を、前記韻律制御情報データベースの韻律制御情報に従って、修正する韻律制御部と、を具備することを特徴とする音声合成装置。
  7. 請求項において、
    前記韻律制御情報データベースは、前記構文データベースの構文パターンにより一意に与えられる前記構文識別情報に対応付けられた韻律制御情報を保持することを特徴とする音声合成装置。
  8. 請求項4に記載の音声合成装置における、前記テキスト変換手段で用いられるテキスト変換規則と、前記構文解析手段で用いられる構文データベースと、前記韻律制御手段で用いられる韻律制御情報データベースと、を有することを特徴とする記録媒体。
  9. 入力テキスト言語解析して複数の単語又は文節からなる単語列に分解し、かつ、前記複数の単語毎に又は前記複数の単語の少なくとも2つからなる文節毎に意味情報を含む言語情報を付与し、前記複数の単語または文節に付与された意味情報の並び方を出力する第1のステップと、
    複数の単語間または文節間が意味的に連続か不連続かを示す意味的な連続性の情報を含む構文構造と、複数の単語または文節の意味情報の並び方とが対応付けられている構文パターンを格納する構文パターンデータベースを参照して、前記第1のステップにおいて出力される前記単語または文節の意味情報の並び方と対応する、単語間または文節間の意味的な連続性の情報を含む構文構造を構文識別情報として出力する第2のステップと、
    前記構文識別情報に対応する韻律制御情報を用いて、構文構造を反映した韻律情報の制御を行うのステップと、
    前記第3のステップにおいて生成された韻律情報にしたがって、音声波形を合成するのステップと、
    を含むことを特徴とする音声合成方法。
  10. 請求項9において、
    前記構文パターンデータベースが格納する構文パターンは、
    前記複数の単語又は文節の意味情報の並び方が、A、B、Cをそれぞれ名詞とした場合、名詞A、助詞の、名詞B、助詞の、名詞Cと複数の単語が並ぶ構文パターンであって、前記Aは、地域を意味する名詞であり、前記Bは、動作の主体を意味する名詞であり、前記Cは、グループの種別を意味する名詞である第1の構文パターンと、
    前記複数の単語又は文節の意味情報の並び方が、A、B、Cをそれぞれ名詞とした場合、名詞A、助詞の、名詞B、助詞の、名詞Cと複数の単語が並ぶ構文パターンであって、前記Aは、動作の対象を意味する名詞であり、前記Bは、動作を意味する名詞であり、前記Cは、動作を意味する名詞である第2の構文パターンとを含み、
    前記第2ステップにおいて、
    前記第1のステップで出力された前記複数の単語又は文節に付与された意味情報の並び方が、名詞A、助詞の、名詞B、助詞の、名詞Cと並ぶ場合には、前記第1の構文パターンに該当するか否かを判定し、
    第1の構文パターンに該当する場合には、「Aの」と「Bの」とが意味的に不連続であり、「Bの」と「C」とが意味的に連続である構文構造を構文識別情報として出力し、
    第1の構文パターンに該当しない場合には、第二の構文パターンに該当するか否かを判定し、
    第二の構文パターンに該当する場合には、「Aの」と「Bの」とが意味的に連続であり、「Bの」と「C」とが意味的に連続である構文構造を構文識別情報として出力する、
    音声合成方法。
JP2000349066A 2000-11-16 2000-11-16 音声合成装置および音声合成方法 Expired - Lifetime JP4636673B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000349066A JP4636673B2 (ja) 2000-11-16 2000-11-16 音声合成装置および音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000349066A JP4636673B2 (ja) 2000-11-16 2000-11-16 音声合成装置および音声合成方法

Publications (2)

Publication Number Publication Date
JP2002149180A JP2002149180A (ja) 2002-05-24
JP4636673B2 true JP4636673B2 (ja) 2011-02-23

Family

ID=18822536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000349066A Expired - Lifetime JP4636673B2 (ja) 2000-11-16 2000-11-16 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP4636673B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7130504B2 (ja) 2018-09-12 2022-09-07 肇 行田 マフラーカッター及びマフラーカッターの製造方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005088179A (ja) 2003-09-22 2005-04-07 Honda Motor Co Ltd 自律移動ロボットシステム
KR100644814B1 (ko) 2005-11-08 2006-11-14 한국전자통신연구원 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법
KR100807307B1 (ko) 2006-07-10 2008-02-28 한국전자통신연구원 대화형 음성 인터페이스 시스템 및 그 응답 방법
KR100806287B1 (ko) * 2006-08-01 2008-02-22 한국전자통신연구원 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
WO2009107441A1 (ja) * 2008-02-27 2009-09-03 日本電気株式会社 音声合成装置、テキスト生成装置およびその方法並びにプログラム
JP6172491B2 (ja) * 2012-08-27 2017-08-02 株式会社アニモ テキスト整形プログラム、方法及び装置
CA2906763C (en) * 2013-03-15 2019-04-16 The Dun & Bradstreet Corporation Enhancement of multi-lingual business indicia through curation and synthesis of transliteration, translation and graphemic insight
JP6390488B2 (ja) * 2015-03-27 2018-09-19 株式会社ナカヨ 文書作成支援装置、プログラムおよび文書作成支援方法
CN111754977A (zh) * 2020-06-16 2020-10-09 普强信息技术(北京)有限公司 一种基于互联网的语音实时合成系统
CN112185339A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于供电智能客户的语音合成处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03214197A (ja) * 1990-01-18 1991-09-19 Ricoh Co Ltd 音声合成装置
JPH05134691A (ja) * 1991-10-31 1993-05-28 Internatl Business Mach Corp <Ibm> 音声合成方法および装置
JPH07191687A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 自然言語処理装置及びその方法
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02281298A (ja) * 1989-04-21 1990-11-16 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン生成処理方法
JPH0335296A (ja) * 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JP3425996B2 (ja) * 1992-07-30 2003-07-14 株式会社リコー ピッチパターン生成装置
JP3248552B2 (ja) * 1994-03-04 2002-01-21 日本電信電話株式会社 テキスト音声合成方法およびこの方法を実施する装置
JP3357796B2 (ja) * 1996-09-06 2002-12-16 株式会社東芝 音声合成装置及び同装置における韻律情報生成方法
JPH10228471A (ja) * 1996-12-10 1998-08-25 Fujitsu Ltd 音声合成システム,音声用テキスト生成システム及び記録媒体
JP3706758B2 (ja) * 1998-12-02 2005-10-19 松下電器産業株式会社 自然言語処理方法,自然言語処理用記録媒体および音声合成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03214197A (ja) * 1990-01-18 1991-09-19 Ricoh Co Ltd 音声合成装置
JPH05134691A (ja) * 1991-10-31 1993-05-28 Internatl Business Mach Corp <Ibm> 音声合成方法および装置
JPH07191687A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 自然言語処理装置及びその方法
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7130504B2 (ja) 2018-09-12 2022-09-07 肇 行田 マフラーカッター及びマフラーカッターの製造方法

Also Published As

Publication number Publication date
JP2002149180A (ja) 2002-05-24

Similar Documents

Publication Publication Date Title
US7496498B2 (en) Front-end architecture for a multi-lingual text-to-speech system
Moberg Contributions to Multilingual Low-Footprint TTS System for Hand-Held Devices
Ananthakrishnan et al. Automatic prosodic event detection using acoustic, lexical, and syntactic evidence
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Bulyko et al. A bootstrapping approach to automating prosodic annotation for limited-domain synthesis
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US20080177543A1 (en) Stochastic Syllable Accent Recognition
US20050119891A1 (en) Method and apparatus for speech synthesis without prosody modification
Macchi Issues in text-to-speech synthesis
Kishore et al. A data driven synthesis approach for indian languages using syllable as basic unit
US7069216B2 (en) Corpus-based prosody translation system
JP2008243043A (ja) 音声翻訳装置、方法およびプログラム
JP4636673B2 (ja) 音声合成装置および音声合成方法
Bigorgne et al. Multilingual PSOLA text-to-speech system
US6996529B1 (en) Speech synthesis with prosodic phrase boundary information
Ross Modeling of intonation for speech synthesis
Xydas et al. The DEMOSTHeNES speech composer
Kocharov et al. Prosodic boundary detection using syntactic and acoustic information
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
US20050187772A1 (en) Systems and methods for synthesizing speech using discourse function level prosodic features
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
Samuel Manoharan A novel text-to-speech synthesis system using syllable-based HMM for Tamil language
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JP4218075B2 (ja) 音声合成装置およびそのテキスト解析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4636673

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

EXPY Cancellation because of completion of term