JP4004376B2

JP4004376B2 - 音声合成装置、音声合成プログラム

Info

Publication number: JP4004376B2
Application number: JP2002289925A
Authority: JP
Inventors: 秀之水野; 理水野; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-10-02
Filing date: 2002-10-02
Publication date: 2007-11-07
Anticipated expiration: 2022-10-02
Also published as: JP2004126205A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成装置、音声合成プログラムに関する。
【０００２】
【従来の技術】
従来の音声合成技術において、近年では大容量な記憶装置の使用コストの低下と計算機の計算能力の向上に伴って、数十分から数時間に及ぶ音声をそのまま大容量の記憶装置に蓄積しておき、入力されたテキスト及び韻律情報に応じて音声データから音声素片を適切に選択し、そのまま接続するか又は韻律情報に応じてそれらを変形して接続することで高品質な音声を合成する音声合成方法は提案されている（例えば特許文献１、非特許文献１）。
【０００３】
しかし、いかに大容量の記憶装置に数十時間に及び音声データを蓄積しておいたとしても、蓄積時点では予期できないような新しい単語や造語、流行語、特定の分野でしか用いられないような専門用語及び用法等にも対応することは不可能であり、そのような文章に対しては合成音声の品質は著しく劣化する場合が多かった。
また、そのような合成音声品質の劣化を避けるためには、それに対応した音声を録音しかつ音声合成に利用できるように音声素片としてセグメンテーションするなどにより音声データベースとして整備する必要があり、そのための時間的、費用的なコストは非常に大きく、音声合成における大きな課題の一つであった。
【０００４】
また、音声合成のニーズの一つとして、多様な話者や話し方、方言等の多様な用途に向けた音声合成があるが、高品質な合成音声を生成するために、前記のような大容量の記憶装置に数時間に及び音声データを蓄積し整備する作業を、そういったさまざまなバリエーションに対して行なうことはコストパフォーマンスが非常に低くなるため実用的にほぼ不可能と言えた。
そのほかの従来の技術としては、
例えば、入力文章自体を音声データベースに合わせた文章に人手又は機械的な書き換え後に人手によって書き換えることで高品質な音声を合成する音声合成方法が提案されている（例えば特許文献２）。
【０００５】
また、入力されたテキストをテキスト解析用辞書を用いて形態素解析により単語に切り分け、それぞれの単語に品詞、読み及びアクセントを決定する技術に関しては特許文献３又は特許文献４に記載されている。
また、決定された読みから音韻を決定し、品詞、アクセント及び音韻から基本周波数パターンを決定し、またそれぞれの音韻の継続時間長、パワーについて決定する技術に関しては特許文献５、特許文献６及び非特許文献２に記載されている。
【０００６】
更に、なんらかの基準で検索した音声素片に対する入力された音律情報等とのコストを計算しつつ、入力テキストに対して最適な音声素片を選択するために音声素片選択部とコスト計算部を一体化する技術に関しては非特許文献３に記述されている。
更に、例えば動的計画法（非特許文献４）や、その改良法（特許文献７）等に用例検索手法に関する技術が開示されている。
更に、要約文の生成方法としては、例えば表・記述の置換に基づく方法や、単語重要度とＮグラム確率に基づく要約文生成方法に関しては特許文献８に記述されている。
【０００７】
更に、重要度の決定方法としては、例えばＴＦ・ＩＤＦ法のような統計的な頻度情報に基づく方法や、機械学習に基づく分類を利用する技術が特許文献９に記述されている。
【０００８】
【特許文献１】
特許第２７６１５５２号明細書
【特許文献２】
特願２００２−１９４２８９号
【特許文献３】
特開平７−２７１７９２号公報
【特許文献４】
特許第３２６８１８１号公報
【特許文献５】
特開平５−８８６９０号公報
【特許文献６】
特開平６−９５６９６号公報
【特許文献７】
特開２００１−２４３２４５号公報
【特許文献８】
特願２００２−４４７４９７号公報
【特許文献９】
特願２００２−６３８６７号
【非特許文献１】
M.Beutnagel,A.Conkie,J.Schoroeter,Y.Stylanou,and Asydral,"Chose the best to modify the least : A new generation concatenative synthesis system", in proc.Eurospeech"99,1999,pp.2291-2294"
【非特許文献２】
電子通信学会論文誌“規則による音声合成のための音韻時間長制御”、白板他、Ｖｏｌ.67−Ａ、６２９−６３６（１９８４）。
【非特許文献３】
“波形編集型規則合成法にける波形選択法”、広川他、電子情報通信学会音声研究会資料、ＳＰ８９−１１４、ＰＰ３３−４０（１９９０）。
【非特許文献４】
“ＳＴＲＩＮＧＳＥＡＲＣＨＩＮＧＡＬＧＯＲＩＴＨＭ”，Stephen,，ＡＧ，Ｗｏｒｌｄ Scientific,1994
【０００９】
【発明が解決しようとする課題】
上記の問題は、一つの方法として単に入力文章の範囲をデータベースに収録してあるタスクの範囲に制限する（タスク依存）ことで避けることもできる。または、入力文章自体を音声データベースに合わせた文章に、人手または機械的な書き換え後に人手によって書き換えることで高品質な音声を合成するという方法も提案されている（特許文献２参照）。
しかし、タスク依存というのは前記のような多様な用途にむけた音声合成には適用できず、どういった形であれ人手を利用する場合は人手による作業コストによるコストパフォーマンスの低下の問題や、リアルタイムでのテキストの音声化にはまったく利用できない等の問題があった。
【００１０】
この発明はいかなる入力文章に対しても、人手に頼ることなく、新たに音声の録音や音声データベースとして整備することもなく高品質な合成音声を生成することにある。
【００１１】
【課題を解決するための手段】
この発明では入力された文章をテキスト解析して得られた読み、及び韻律情報に基づいて、音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成方法において、入力文章をテキスト解析するテキスト解析過程と、テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから音声素片を検索する検索過程と、テキスト解析過程から得られた読み、及び韻律情報と音声素片の有するコンテキスト及び韻律情報との不一致度を示す音声素片コスト及び、音声素片コストと音声素片の組み合わせから音声素片系列全体としてのテキスト解析過程から得られた読み、及び韻律情報との不一致度を示す音声素片系列コストを計算するコスト計算過程と、音声素片データベースから音声素片系列コストが最小となる音声素片を選択する音声素片選択過程と、音声素片のコストの値によって置換対象とする音声素片候補を決定する音声素片置換候補判定過程と、音声素片候補が対応する入力文章中の文字について、別の文字列に置換可能か判定する判定過程と、判定過程で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力文章中の文字列を別の文字列に置換する置換過程と、置換対象とする音声素片の候補が存在しかつ判定過程で置換可能と判定された場合、音声素片選択過程から置換過程までを繰り返す処理と、置換対象とする音声素片の候補が存在しないかまたは判定過程で置換可能と判定された場合、一連の過程において得られた音声素片のうち、音声素片系列コストが最小となる音声素片を選択し、これらの音声素片を接続することにより音声を合成する音声合成過程とを有する音声合成方法を提案する。
【００１２】
この発明では更に前記記載の音声合成方法において、シソーラス辞書を具備し、判定過程において、シソーラス辞書を用いて、置換対象とする音声素片の候補が対応する入力された文章中の単語において、同義語または類似語となる単語をテキストデータから検索し、同義語または類似語となる単語がテキストデータに含まれる場合置換可能と判定するシソーラス判定過程と、置換過程において、シソーラス判定過程で置換可能と判定された場合、置換対象とする音声素片の候補が対応する入力された文章中の単語を前記テキストデータに含まれる同義語または類似語に置換するシソーラス置換過程とを有する音声合成方法を提案する。
【００１３】
この発明では更に前記記載の音声合成方法の何れかにおいて、書き換えルールデータベースを具備し、判定過程において、シソーラス判定過程において置換可能でないと判定された後に、記置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列に対して適用可能な書き換えルールを書き換えルールデータベースから検索し、適用可能な書き換えルールが存在する場合書き換え可能と判定する書き換え判定過程と、置換過程において、書き換え判定で書き換え可能と判断された場合、適用可能な書き換えルールに基づいて、置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列を書き換える書き換え過程とを有する音声合成方法を提案する。
【００１４】
この発明では更に前記記載の音声合成方法の何れかにおいて、単語間の類似度を定量的に表現したマッチングテーブルを具備し、入力された文章をテキスト解析するテキスト解析過程の後に、テキスト解析により得られた単語境界及び品詞情報に基づいて単語の重要度を計算する重要度計算過程と、テキスト解析により得られた単語境界及び品詞情報と単語の重要度を重み付けした単語マッチングテーブルを用いて、入力された文章中の各文と音声素片データベースに含まれる文との類似度を計算する文類似度計算過程と、入力された文章中の各文に対して類似度が最大となる類似文を音声素片データベースから検索し、入力された文章中の各文及びその読み、韻律情報を検索された類似文及びその読み、韻律情報で置換する類似文検索過程と、
入力された文章中の各文において単語の重要度に基づいてキーワードを決定し、対応する類似文検索過程で検索された類似文中の単語を、キーワードと置換して類似文を書き換えるキーワード置換過程とを有する音声合成方法を提案する。
【００１５】
この発明では更に前記記載の音声合成方法において、重要度計算過程後に、テキスト解析過程で得られた単語境界と品詞情報重要度及び単語の重要度を用いて、入力された文章の中で不要な単語を除去し要約文を生成する要約文生成過程を有し、文類似度計算過程として、要約文と音声素片データベースに含まれる文との類似度を計算するものとする音声合成方法を提案する。
この発明では更に前記記載の音声合成方法の何れかにおいて、音声合成過程の前に、入力された文章中の各文に対して類似度が予め決められた値または各文の単語数や単語の品詞等から決められる値以上であるような異なる類似文を検索し現在の類似文を検索された類似文を検索された類似文で置換する類似文交換過程を有する音声合成方法を提案する。
【００１６】
この発明では更に前記記載の音声合成方法の何れかにおいて、入力された文章をテキスト解析するテキスト解析過程の後に、テキスト解析過程で得られた単語境界及び品詞情報及び、音声素片データベースに含まれる文における単語の構文情報を利用し、文に含まれる単語の構文情報に基づく文尤度を計算する文尤度計算過程と、入力文章の各文において、文尤度が最大となるような語順の入れ替え、単語の挿入・削除等により文を生成する文生成過程と、を有する音声合成方法を提案する。
【００１７】
この発明では更に前記記載の音声合成方法において、また尤度計算過程において、テキスト解析過程で得られた単語境界及び品詞情報に基づいて、構文解析を行い構文解析木を生成する構文解析過程と、生成された構文解析木または構文解析木の部分木と、音声素片データベースに含まれる文の構文解析木または構文解析木の部分木との類似度を計算する構文木類似度計算過程と、構文解析木または構文解析木の部分木の類似度及び、構文解析木または構文解析木の部分木との組み合わせから文の尤度を計算する文尤度計算過程と、文尤度が最大となるような音声素片データベースに含まれる文の構文解析木または構文解析木の部分木の組み合わせから文を生成する文生成過程とを有する音声合成方法を提案する。
【００１８】
この発明では更に入力された文章をテキスト解析して得られた読み、及び韻律情報に基づいて、音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成装置において、入力文章をテキスト解析するテキスト解析手段と、テキスト解析手段から得られた読み、及び韻律情報に基づいて、音声素片データベースから音声素片を検索する検索手段と、
テキスト解析手段から得られた読み、韻律情報と音声素片の有するコンテキスト及び韻律情報との不一致度を示す音声素片コスト及び、音声素片コストと音声素片の組み合わせから音声素片系列全体としてのテキスト解析手段から得られた読み、及び韻律情報との不一致度を示す音声素片系列コストを計算するコスト計算手段と、
音声素片データベースから音声素片系列コストが最小となる音声素片を選択する音声素片選択手段と、
音声素片のコストの値によって置換対象とする音声素片候補を決定する音声素片置換候補判定手段と、
音声素片候補が対応する入力文章中の文字列において、別の文字列に置換可能か判定する判定手段と、
判定手段で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力文章中の文字列を別の文字列に置換する置換手段と、
置換対象とする音声素片の候補が存在しかつ判定手段で置換可能と判定された場合、音声素片選択手段から置換手段までを繰り返し実行させる処理と、
音声素片候補が存在しないかまたは判定手段で置換不可能と判定された場合、一連の手段において得られた音声素片のうち、音声素片系列コストが最小となる音声素片を選択し、それらの音声素片を接続することにより音声を合成する音声合成手段と、置換対象とする音声素片の候補が存在しかつ判定手段で置換可能と判定された場合、音声素片から置換手段までを繰り返す処理と、
を有する音声合成装置を提案する。
【００１９】
この発明では更に前記記載の音声合成装置にの何れかにおいて、シソーラス辞書を具備し、判定手段において、シソーラス辞書を用いて、置換対象とする音声素片の候補が対応する入力された文章中の単語において、同義語または類似語となる単語を前記テキストデータから検索し、同義語または類似語となる単語がテキストデータに含まれる場合、置換可能と判定するシソーラス判定手段と、置換手段において、シソーラス判定手段で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力された文章中の単語をテキストデータに含まれらる同義語または類似語に置換するシソーラス置換手段とを有する音声合成装置を提案する。
【００２０】
この発明では更に前記記載の音声合成装置の何れかにおいて、書き換えルールデータベースを具備し、判定手段において、シソーラス判定手段において置換可能でないと判定された後に、置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列に対して適用可能な書き換えルールを書き換えルールデータベースから検索し、適用可能な書き換えルールが存在する場合書き換え可能と判定する書き換え判定手段と、置換手段において、書き換え判定で書き換え可能と判断された場合、適用可能な書き換えルールに基づいて、置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列を書き換える書き換え手段とを有する音声合成装置を提案する。
【００２１】
この発明では更に前記記載の音声合成装置の何れかにおいて、単語間の類似度を定量的に表現したマッチングテーブルを具備し、入力された文章をテキスト解析するテキスト解析手段の後に、テキスト解析により得られた単語境界及び品詞情報と、単語マッチングテーブルを用いて、入力された文章中の各文と音声素片データベースに含まれる文との類似度を計算する文類似度計算手段と、入力された文章中の各文に対し類似度が最大となる類似文を音声素片データベースから検索し、入力された文章中の各文と及びその読み、韻律情報を検索された類似文及びその読み、韻律情報で置換する類似文検索手段と、入力された文章中の各文において意味的に重要な単語をキーワードとして、対応する類似文検索手段で検索された類似文中の単語を、キーワードと置換して類似文を書き換えるキーワード置換手段とを有する音声合成装置を提案する。
【００２２】
この発明では更に前記記載の音声合成装置の何れかにおいて、単語間の類似度を定量的に表現したマッチングテーブルを具備し、入力された文章をテキスト解析するテキスト解析手段の後に、テキスト解析手段により得られた単語境界及び品詞情報に基づいて、単語の重要度を計算する重要度計算手段と、テキスト解析により得られた単語境界及び品詞情報と、単語の重要度を重み付けした単語マッチングテーブルを用いて、入力された文章中の各文と音声素片データベースに含まれる文との類似度を計算する文類似度計算手段と、入力された文章中の各文に対して類似度が最大となる類似文を音声素片データベースから検索し、入力された文章中の各文及びその読み、韻律情報を検索された類似文及びその読み、韻律情報で置換する類似文検索手段と、
入力された文章中の各文において単語の重要度に基づいてキーワードを決定し、対応する類似文検索手段で検索された類似文中の単語を、キーワードと置換して類似文を書き換えるキーワード置換手段とを有する音声合成装置を提案する。
【００２３】
この発明では更に前記記載の音声合成装置の何れかにおいて、入力された文章をテキスト解析するテキスト解析手段の後に、テキスト解析手段で得られた単語境界及び品詞情報及び、音声素片データベースに含まれる文における単語の構文情報を利用し、文に含まれる単語の構文情報に基づく文尤度を計算する文尤度計算手段と、入力文章の各文において、文尤度が最大となるような語順の入れ替え、単語の挿入・削除等により文を生成する文生成手段とを有する音声合成装置を提案する。
【００２４】
この発明では更にコンピュータが読み取り可能な符号によって記述され、前記記載の音声合成方法をコンピュータに実行させる音声合成プログラムを提案する。
作用
この発明による音声合成方法及び装置によれば、テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから音声素片を検索し、テキスト解析過程から得られた読み、及び韻律情報と音声素片の有するコンテキスト（テキストデータの全般を指す）及び韻律情報との不一致度を示す音声素片コスト及び、音声素片コストと音声素片の組み合わせから音声素片系列全体としてのテキスト解析過程から得られた読み、及び韻律情報との不一致度を示す音声素片系列コストを計算し、音声素片データベースから音声素片系列コストが最小となる音声素片を選択し、音声素片のコストの値によって置換対象とする音声素片候補を決定し、音声素片候補が対応する入力文章中の文字列において、別の文字列に置換可能か判定し、判定過程で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力文章中の文字列を別の文字列に置換し、置換対象とする音声素片の候補が存在しかつ判定過程で置換可能と判定された場合、音声素片選択過程から置換過程まで繰り返すと共に、置換対象とする音声素片の候補が存在しないか又は判定過程で置換不可能と判定された場合、一連の過程において得られた音声素片のうち、音声素片系列コストが最小となる音声素片を選択し、それらの音声素片の韻律を韻律に応じて変形又は変形することなく、接続する音声合成方法を採るから、入力されたテキストはいかなる入力文章も音声素片データベースに格納されている音素片の存在の範疇で同義語に置換されるため人手に頼ることなく、いかなる入力文章に対しても高品質な合成音声を生成することができる。
【００２５】
【発明の実施の形態】
以下この発明の実施の形態を述べる。まず、図１に本発明の音声合成装置の１例を示す。本実施形態の音声合成装置は、テキスト解析部１、韻律生成部２、音声素片選択部３、コスト計算部４、シソーラス検索部５、単語置換部１０、音声合成部６、テキストタグ付き音声素片データベース７、テキスト解析用辞書８、シソーラス辞書９で構成されている。尚、テキストタグ付き音声素片データベース７に格納されているテキストタグ付き音声素片データは例えば図１９に示すように音声領域データと、音声領域データの発音内容に対応した単語分割されたテキストデータと、各単語の形態素（品詞データ）、各単語が発声されている音声データ中での音声データ対応位置（ｍｓ）、ラベルデータ領域等で構成される。またラベルデータ領域は例えば図２０に示すように音韻単位で音韻種別、前音韻環境、後音韻環境、平均周波数Ｆ０（Ｈｚ）、平均周波数の傾斜（Ｈｚ／ｍｓ）、時間長（ｍｓ）、パワー（ｄＢ）等で構成される。
【００２６】
ここで音声領域データに関しては他のデータと一緒に格納するのではなく、分離して別のデータ領域に格納してもよい。
テキストタグ付き音声素片データベースのほかの例としては図２１に示すように、音声領域データと、音声領域データの発声内容に対応して単語分割されたテキストデータと、形態素（品詞データ）、掛かり受けデータ、音声データ対応位置（ｍｓ）と、図２１に示したラベルデータ等で構成することができる。
テキスト解析部１は、入力されたテキストをテキスト解析用辞書８を用いて形態素解析により単語に切り分け、それぞれの単語に品詞、読み及びアクセントを決定する（参考文献：特開平７−２７１７９２号公報、特許３２６８１８１号明細書）。
【００２７】
次に、韻律生成部２では、前記決定された読みから音韻を決定し、品詞、アクセント及び音韻から基本周波数パターンを決定し、またそれぞれの音韻の継続時間長、パワーについて決定する。（参考文献：特開平５−８８６９０号公報、特開平６−９５６９６号公報、電子通信学会論文誌“規則による音声合成のための音韻時間長制御”、匂坂他、Ｖｏｌ．６７−Ａ，６２９−６３６（１９８４））。
音声素片選択部３では、前記音韻の継続時間長、パワー及び基本周波数パターンに基づいて、最適な音声素片をテキストタグ付き音声素片データベース７から選択する（参考文献：特許２７６１５５２明細書）。
【００２８】
コスト計算部４では、前記選択された音声素片のそれぞれにおいて、各音声素片の有する音韻系列及び音韻の継続時間長、基本周波数及びパワーと、前記韻律生成部２で決定された継続時間長、パワー及び基本周波数パターンのコスト（不一致度）を計算する。本実施例では音声素片選択部３とコスト計算部４を分けているが、何らかの基準で検索した音声素片に対する入力された韻律情報等とのコストを計算しつつ、入力テキストに対して最適な音声素片を選択するために音声素片選択部３とコスト計算部４は一体化してもよい（参考文献：“波形編集型規則合成法における波形選択法”、広川他、電子情報通信学会音声研究会資料、ＳＰ８９−１１４、ｐｐ、３３−４０（１９９０））。
【００２９】
次に、シソーラス検索部５でシソーラス辞書９とテキストタグ付き音声素片データベース７を用いて、コストが最大または予め決められた値以上の音声素片に対応する単語と置き換え可能な同義語がテキストタグ付き音声素片データベース７に存在するかどうかを検索し、同義語がテキストタグ付き音声素片データベース７に存在しない場合は、音声合成部６において前記検索された音声素片を接続して合成音声を生成し出力する。
存在する場合は、単語置換部１０において前記検索された同義語に置換し、再度韻律生成部２で処理をする。また、音声合成部６においては前記韻律生成部２で決定された継続時間長、パワー及び基本周波数パターンに基づいて音声素片の継続時間長、パワー及び基本周波数パターンを例えば波形重畳法のような信号処理技術を用いて変形してもよい。以上が本実施形態による音声合成装置において行なわれる処理の全体的な流れである。
【００３０】
図２は図１に示した音声合成装置の処理を示すフローチャートである。まず、ステップＳ１では、テキスト解析部１により、入力されたテキストに対して、テキスト解析用辞書８を用いて形態素解析を行ない単語境界の決定と単語の品詞の付与、更に単語の読み・アクセント他の決定を行なう。
次に、音韻系列変換ステップＳ２により単語単位の読みから音韻系列に変換する。また読みと音韻系列は一意に対応するため音韻系列と単語とを対応付けておく。
【００３１】
更に音韻生成ステップＳ３において各音韻のパワー、音韻長、基本周波数の計算を行なう。
次にステップＳ４でテキストタグ付き音声素片データベース７から、音韻系列に一致しかつ計算された各音韻のパワー、音韻長、基本周波数の値と音声素片に含まれる各音韻のパワー、音韻長、基本周波数とのコストを計算し、コストが最小となるような音声素片列を選択し、コスト及び音声素片列を記憶手段に保持する。
【００３２】
次にステップＳ５で置換候補素片を決定する。置換候補素片としては例えば選択された素片列の中でコストが最大のものを１つ、または予め決められた値以上のコストとなる音声素片全てを置換候補素片とする。この場合全ての素片が予め決められた値以下である場合は置換候補素片は存在しないことになる。
次にステップＳ６で置換候補素片としてコストが一定値以上の素片を選ぶ場合、置換候補素片があるかどうかチェックする。コストが最大のものを１つだけ選ぶ場合はチェックの必要はない。ここで、置換候補素片が存在する場合にはステップＳ７で置換候補素片と対応する音韻列に対応する読みを含む単語を前記音韻系列変換における単語と音韻系列の対応付けから決定し、置換候補単語として決定し記憶手段に保持しておく。置換候補素片が存在しない場合はステップＳ１２に飛ぶ。
【００３３】
次にステップＳ７で決定された置換候補単語のうち新たに選ばれた単語に対して、ステップＳ８で、置換候補単語に対応するシソーラスを、シソーラス辞書９から検索する。シソーラス辞書とは単語の同義語、関連語、意味的な包含関係等を示した辞書であり、例えば、図１８に示すような単語単位でどのような上位カテゴリや同一カテゴリへ属しているかを示すようなものである。このようなシソーラス辞書を用いて、各置換候補単語の全ての同義語を検索し、各置換候補単語のシソーラス候補とする。
【００３４】
次にステップＳ９でテキストタグ付き音声データベース７にシソーラス候補と一致する単語が含まれているかどうかを検索する。
ステップ１０ではテキストタグ付き音声素片データベース７内の単語や形態素等の情報を用いてシソーラス候補内の単語がテキストタグ付き音声素片データベース７に含まれているかどうかを調べ、含まれていた全ての単語を各置換候補単語のシソーラスとして決定し記憶手段に保持する。
次にステップＳ１０で少なくとも１つシソーラスが存在することを検出した場合は、ステップＳ１１に分岐しシソーラスが存在する置換候補単語に対して、各置換候補単語と対応して記憶してあるシソーラス内の１つの単語で置換し、また置換した単語は置換候補単語のシソーラスからは除去し、再度音韻系列変換ステップＳ２から繰り返す。ステップＳ１０で全ての置換候補単語においてシソーラスが存在しない場合は、ステップＳ１２に進みステップＳ１２で音声素片の検索及びコスト計算において記憶されたコストと音声素片列においてコストが最小となる音声素片列を選択する。
【００３５】
最後にステップＳ１３で音声合成処理により音声素片列を接続し合成音声を生成する。ここでは、各音声素片の音韻長、パワー、基本周波数を前記韻律生成ステップＳ３おいて求められた音韻長、パワー、基本周波数に一致または近似するように信号処理を用いて変更してもよい。
ここで図３を用いて音声素片の選択及びコストの計算方法の１例を説明する。例えば特許文献１において波形候補を選択する過程で示されているような方法により、トップダウン的に音韻環境、パワー、音韻長、基本周波数の条件が最も一致する音声素片をテキストタグ付き音声素片データベースから選択する（ステップＳ２１）。
【００３６】
そして次に、選択された音声素片のコストを例えば下記のような計算式を用いて求めることができる（ステップＳ２２）。音声素片列全体としてのコストは素片の総和として求められる。
目標の前音韻環境：Ｐｔ、後音韻環境：Ｓｔ、平均周波数：ＦＡｔ、平均周波数の傾斜：ＦＳｔ、時間長：Ｄｔ
音声素片の前音韻環境：Ｐｃ、後音韻環境：Ｓｃ、平均周波数：ＦＡｃ、平均周波数の傾斜：ＦＳｃ、時間長：Ｄｃ
コスト＝α_ｐ＊ＤＰ（Ｐｔ、Ｐｃ）＋α_ｓ＊ＤＰ（Ｓｔ、Ｓｃ）＋α_ｆａ＊｜ＦＡｔ−ＦＡｃ｜＋α_ｆｓ＊｜ＦＳｔ−ＦＳｃ｜＋α_ｄ＊｜Ｄｔ−Ｄｃ｜…（１）
α_ｐ、α_ｓ、α_ｆａ、α_ｆｓ、α_ｄは適当な重み係数
ここで、ＤＰ（ａ，ｂ）は音韻ａ、ｂ間の異なり度合を求める関数であり、例えば音韻ａ、ｂの平均的なスペクトル（ベクトル）をＳＰａ、ＳＰｂとしたとき、ＤＰ（ａ、ｂ）＝｜ＳＰａ−ＳＰｂ｜のような関数でもよいし、音韻を発声形態（母音、摩擦音、破裂音等）によってグループ分けしグループ間の類似性により同一グループなら“０”、ほぼ同様な発声形態のグループなら“１”等であらわすようなものでもよい。
【００３７】
図４を用いて、音声素片の選択及びコストの計算方法の別の例を説明する。
まず音韻が一致する全ての音声素片候補を検索する（ステップＳ３１）。次に、音韻単位でのコストを計算する（ステップＳ３２）。ここでは例えば前記のような式（１）を用いて計算してもよいし、例えば“波形編集型規則合成法における波形選択法”で示されているような波形選択関数（下記参照）を用いて素片単位のコストを求めてもよい。
コスト＝α_ｎ＋（１−α）Ｗ；Ｗ＝ωｖ｜Ｖｐ−Ｖｓ｜²＋ωｆ｜Ｆｐ−Ｆｓ｜²＋ωｔ｜Ｔｐ−Ｔｓ｜²＋ωａ｜Ａｐ−Ａｓ｜²，ｎ＝１／ｅ^N…（２）
さらに、隣接する音韻の組み合わせコストを計算し、コストが最小となるような音声素片の組み合わせを線形計画法やビタビサーチ等の手法により検索する（ステップＳ３３、Ｓ３４）。ここで組み合わせコストとしては、例えば“波形編集型規則合成法における波形選択法“で示されているような歪計算式（下記参照）により計算することができる。
【００３８】
Ｄ＝Σ（１＋ｋｉ＊ｂ）＊（ａ＊ＤＰ（ｋｉ）＋（１−ａ）＊δｉＤＧ（ｋｉ，ｋｉ−ｉ））
図５に本発明の音声合成装置の別の構成例を示す。本構成では図１の構成に文書き換え部１１、書き換えルールデータベース１２を追加した構成であり、他の構成については図１と同様であるので、以下では文書き換え部１１について記述する。
文書き換え部１１は、それまでの処理で決定したコストの大きな素片に対応するような文に対して適用可能な書き換えルールを、書き換えルールデータベース１２を用いて検索し、適用可能な書き換えルールが存在した場合、書き換えルールを適用して入力文を適切に書き換える機能を有するものである。
【００３９】
図６及び７は図５に示した音声合成装置の処理を示すフローチャートである。図２に示したフローチャートとは、ステップＳ４１〜ステップＳ５０に示す形態素解析・読み／アクセント付与からシソーラスの存在の有無の判定までは同一であるためその説明を省略し、シソーラスが存在しない場合以降の処理について記述する。
ステップＳ５０でシソーラスが存在しない場合、ステップＳ６１（図７）置換候補単語を含む文に適用可能な書き換え可能なルールを、書き換えルールデータベース１２（図５参照）を利用して検索する。
【００４０】
ここで図２２に書き換えルールデータベースの一例を示す。対象文の品詞と文字列の組み合わせまたは文字列のみとそれに対応する書き換え文の品詞及び文字列の組み合わせまたは文字列といった形式で複数の書き換えルールを含むものとなっている。例えば、図２２に示す書き換えルールを利用し“３０００万円→１６００万円。”という文を書き換え可能かどうか調べると、この文の品詞構成は、“［数詞］［助数詞］［記号：−＞］［数詞］［助数詞］”という構成になっており、図２２の第１行のルール“［助数詞］＋”→“＋［数詞］”が適用可能であることがわかる。従って、第１行の対応する“［助数詞］＋”から（助詞）“＋［数詞］”のルールに基づいて書き換えると、“３０００万円から１６００万円。”に書き換えることができる。同様に、例えば“東京太郎・新宿大学長は…”という文であれば、第２行のルールから“新宿大学の東京太郎大学長…”に書き換え可能である。
【００４１】
適用可能な書き換えルールが存在する場合は、書き換えルールを適用し文を書き換え、再度音韻系列変換から繰り返す。
適用可能な書き換えルールが存在しない場合または置換候補素片が存在しない場合、図２に示したフローチャート同様、コスト最小の音声素片を選択し、合成処理を行ない合成音声を生成する。
図８、図１１、図１３、図１５に本発明の音声合成装置のさらに別の構成例を示す。
【００４２】
本構成例は、図１、図５に示した構成例とはテキスト解析部１と韻律生成部２との間の４つの異なる構成例についてのみ以下に説明する。
第１例を図８に示す。第１例では図８にように類似文検索部１０１とキーワード置換部１０２とを配置した構成とした場合を示す。
類似文検索部１０１では、例えば動的計画法（参考文献：非特許文献４）やその改良法（参考文献：特許文献７）等に基づく用例検索手法によって、入力テキストと類似したテキストを、テキスト解析で得られた品詞情報を利用してテキストタグ付き音声素片データベース７から検索する。
【００４３】
次にキーワード置換部１０２では、入力テキストのキーワードの対応する類似文検索部１０１で得られた類似文中の単語を、キーワードで置換し、類似文に置き換える。その後は、書き換えられた類似文から韻律生成部２で韻律生成を行ない、以下音声素片選択部３でテキストタグ付き音声素片データベース７から入力テキストに対して最適な音声素片を検索し、検索した音声素片に対する入力された韻律情報等とのコストをコスト計算部４で計算し、シソーラス検索部５でシソーラス辞書９とテキストタグ付き音声素片データベース７を用いて、コストが最低または予め決められた値以下の音声素片に対応する単語と置き換え可能な同義語がテキストタグ付き音声素片データベース７に存在するかどうかを検索し、同義語がテキストタグ付き音声素片データベース７に存在しない場合は、音声合成部６において検索された音声素片を接続して合成音声を生成して出力する点は図１で説明したと同様である。
【００４４】
図９と図１０に図８に第１例として示した音声合成装置の動作を説明するためのフローチャートを示す。
まず入力テキストはステップＳ７０でテキスト解析部１により単語境界、品詞、読み、アクセント型の決定を行なう。
類似文検索部１０１では入力テキストのある１文とテキストタグ付き音声素片データベース７に含まれる１文間の類似度を計算し（ステップＳ７１）、その計算結果を記憶手段に保持しておく。
【００４５】
例えば特許文献７にあるような類似用例検索手法を利用すれば、単語の品詞と意味の対応関係及び語順に基づくマッチングスコアから２文間の単語の対応付け及び２文間の類似度を計算し、テキストタグ付き音声素片データベース７に含まれる文のうち入力文と最大の類似度となる文を類似文として決定することが可能である。具体的に図２３に例で示す。入力テキストの１文（入力文）が“昨日俺は学食でまずいラーメンを食った。”と類似度を求めたいテキストタグ中に含まれる文（検索文）が“おいしいざるそばを昨日僕はそば屋で食べた。”であったとすると、例えば、まず図２３に示すように単語間の対応付けとして“昨日”、“俺”、“は”、“学食”、“で”と“昨日”、“僕”、“は”、“そば屋”、“で”、“まずいラーメンを”と“おいしいざるそばを”の対応と“食った”と“食べた”の大きく分けて３つの部分文の対応関係が得られているとして、例えばその部分文及び文のマッチングスコアを下式のように計算すると、
部分スコア＝[Σ 単語のマッチングスコア]²
文スコア＝Σ 部分文のスコア
それぞれのスコアは
（８＋４＋８＋４＋８）²＝１０２４
（４＋４＋８）²＝２５６
４²＝１６
文スコアは
１０２４＋２５６＋１６＝１３４４
となる。
【００４６】
ここで、部分文スコアを単語のマッチングスコアの総和としたが、途中に文節単位のスコアを導入し、単語マッチングスコアから文節スコアを計算し、文節スコアから部分文スコアを計算するようにしてもよい。語順及び単語の種別により正規化する必要があるので、入力文同士の文スコアＳｉ、検索文同士の文スコアＳｓにより正規化文スコア＝[文スコア／（Ｓｉ・Ｓｓ）^1/2]で計算すると、
１３３４／√（５１８４・５１８４）≒０．２５９
となり、この正規化文スコアを入力文と検索文間の類似とする。ここで、前記では入力文の単語列と検索文の単語列の最適な対応関係が得られていることしたが、実際は最適な単語対応関係は予め求めることはできない。しかし最適な単語対応関係のときに文スコアが最大となることを考えれば、例えばＧｒｅｅｄｙアルゴリズムにより、最初に単語のマッチングスコアが最大となるような単語対応を１組から始めて、１づつ順に文スコアが最大となるような単語対応の組を追加していき、残ったどの単語対応の組を追加しても文スコアが変化しなくなったときまたは全ての単語対応が求まったときに対応付けを終了することで求めることができる。具体的には、（“昨日”、“昨日”）から順に、（“俺”、“俺”）、（“は”、“は”）、（“学食”、“そば屋”）、（“で”、“で”）、（“まずい”、“おいしい”）、（“ラーメン”、“ざるそば”）、（“を”、“を”）、（“食った”、“食べた”）という順に単語対応を求めることができる。
【００４７】
上記２文間の類似度計算は、テキストタグ付き音声素片データベースに含まれる全ての文の類似度を計算するまで繰返し類似度最大となる文を入力テキストの１文の類似文として選択する。
次に入力テキストの他の文についても同様に類似文を選択し、入力テキスト全ての文に対する類似文が選択されるまで前記の処理を繰り返す。
次に、キーワード置換部１０２では、まず品詞等の情報を手がかりとして入力テキストのキーワードの設定を行なう。例えば、文の意味において重要な数値、日付、固有名詞、代名詞、動詞等をキーワードとすることが考えられる。
【００４８】
次に、全ての入力テキストのキーワード自体またはキーワードのシソーラスが入力テキストの文に対応する類似文中に含まれているかを調べ、類似文にどちらも含まれない場合は、類似文中のキーワードと対応する単語をキーワードに置換し類似文を書き換える。具体的には、入力テキスト中の文“昨日俺は学食でまずいラーメンを食った。”のその類似文として、“おいしいざるそばを昨日僕はそば屋で食べた。”が選ばれた場合、
キーワードとして、“昨日”、“俺”、“学食”、“まずい”、“ラーメン”、“食った”を選んだとして、それらキーワードの単語対応（“昨日”、“昨日”）、（“俺”、“俺”）、（“学食”、“そば屋”）、（“まずい”、“おいしい”）、（“ラーメン”、“ざるそば”）、（“食った”、“食べた”）のうち、キーワード自体またはそれのシソーラスでもない対応は、“学食”、“そば屋”）、（“まずい”、“おいしい”）、（“ラーメン”、“ざるそば”）、になり、それを置き換えると、
“まずいラーメンを昨日僕は学食で食べた”となる。
【００４９】
以下、音韻系列変換からシソーラスの存在するかどうかの判断までは図２とまったく同じである。シソーラスが存在しない場合、入力テキストの各文に対して類似度がある一定以上の他の類似文がテキストタグ付き音声データベースに存在するかどうか前記記憶手段に保持された類似度を調べ、存在する場合は類似度が現在選択している類似文の次に類似度が大きい文を類似文として選択し、キーワードの有無を調べるステップに戻る。
以上の処理を、入力テキストの全ての文において類似度がある許容値以上の類似文が存在しなくなるまで繰り返す。
【００５０】
ここで、許容値の設定方法であるが例えば入力文同士のスコアＳｉの−１／２乗の単語数倍程度の値をその入力文の許容値とするとか、入力文の各文節単位では対応がとれ自立語の意味カテゴリが一致し、付属語は完全に一致するが、文節の順序は一致しないものと仮定した場合の類似度を計算し許容値とすることもできる。具体的に、“昨日俺は学食でまずいラーメンを食った”の例では、前者の計算方法では、
許容度＝（５１８４）^-0.5ｘ９≒０．１２５
後者の方法だと、
文スコア＝[４²＋（４＋８）²＋（４＋８）²＋４²＋（４＋８）²＋４²]＝４８０
許容度＝４８０／√（５１８４・５１８４）≒０．０９２
となる。
【００５１】
以降は、図２と同様にコストが最小となる音声素片を決定し、合成処理を実行し合成音声を生成する。
第２例は、図１１に示すようにテキスト解析部１と音律生成部２との間に類似文検索部１０１とキーワード置換部１０２に加えて重要度計算部１０３を付加した構成とした場合を示す。重要度検索部１０３では、テキスト解析部１で得られた単語の品詞情報を利用して単語やその品詞に応じた重要度を単語単位で決定する。重要度の決定方法としては、例えばＴＦ・ＩＤＦ法のような統計的な頻度情報に基づく方法や機械学習に基づく分類法（参考文献：特許文献９）等の手法を利用することができる。
【００５２】
次に、類似文検索部１０１では第１例と同様に用例検索手法に基づいて類似文をテキストタグ付き音声素片データベース７から検索するのであるが、その際単語の重要度を利用することでより精度の高い類似文検索が可能となる。
キーワード置換部１０２では、第１例とは異なり重要度の値が大きい単語をキーワードとし、類似文検索部１０１で得られた類似文中のキーワードと対応する単語をキーワードと置換し類似文を書き換える。重要度の高い単語のみをキーワードとする過程で不必要な書き換えをなくすことが可能となる。その他の構成は第１例と同じである。
【００５３】
図１１に示した第２例に対応するフローチャート図１２に示す。第２例では、形態素解析後まず重要度計算ステップＳ９２で、単語重要度の計算を行なう。具体的には、例えばＴＦ・ＩＤＦ法のような統計的な頻度情報を利用する方法に基づいて、文章内での単語の出現頻度（文章内頻度：ＴＦ）と文章集合の中でその単語が含まれる文章の数（文章間頻度：ＤＦ）の逆数（ＩＤＦ）により、ＴＦとＩＤＦの積として重要度を求め、例えば“昨日俺は学食でまずいラーメンを食った”文の各単語に対し、図２６に示すような重要度を付与する。実際には、任意の大量の文章または予め入力テキストとして想定されるような分野の文章またはテキストタグ付き音声素片データベースに含まれるテキスト、またはそれらの文書を適当に混合したものを利用して前期の方法により単語毎に重要度を計算することで単語と重要度の対応テーブルを用意しておき、重要度計算ステップＳ９２では、単にテーブルを参照して重要度を求めるだけの処理となる。
【００５４】
その他の、機械学習に基づく分類法（参考文献：特許文献９）等の手法によって頻度情報だけでなく品詞や隣接する単語の品詞、文に含まれる単語数との複合的な情報を利用して統計的な尤度または確率として重要度を求めることができる。
次に入力テキストの類似文の検索を行なう。この場合、第１例と同様に類似文の検索を行なってもよいが、図２５に示した品詞等に基づくスコアと前記重要度との積を単語のマッチングスコアとすることで、重要な単語に対して重み付けをすることができ重要な単語の構成が類似した文を検索することが可能となる。
【００５５】
以降の処理において、ステップＳ７５に示すキーワードの決定までは第１例と同様である。キーワードの決定においては、前記重要度を用いて尤度が予め決められた閾値以上の単語をキーワードとする。ここで閾値としては、例えば予め人手で決定した複数の文章の重要な単語に対して、前記重要度計算によって各単語の重要度を求め、求められた重要度の最小値を用いるとか、単語の重要度の分布を求めその９０〜９５％程度の分布域の下限値から求める等によって決定できる。キーワード決定以降の処理は図１０に示した第１例と同様である。
【００５６】
第３例は、図１３に示すように類似文検索部１０１と、キーワード置換部１０２と、重要度計算部１０３に加えて要約文生成部１０４を設けた構成とした場合を示す。
重要度計算部１０３では第２例と同様にして単語の重要度を計算する。
次に要約文生成部１０４では、単語単位の重要度と、単語の連鎖確率を利用して余分な単語を除き要約された文を生成する。要約文の生成方法としては、例えば表層記述の置換に基づく方法や単語重要度とＮグラム確率に基づく要約文生成方式（参考文献：特許文献８）等がある。
【００５７】
次に、類似文検索部１０１では、第１、第２例とは異なり要約文と類似する文をテキストタグ付き音声素片データベース７から検索する。冗長な情報が含まれない文を検索対象とすることでより適確な類似文選択が可能となる。
キーワード置換部１０２では第２例と同様に重要度の高い単語をキーワードとして置換を行なう。その他の構成は第１例同様である。
図１３に示した第３例に対応するフローチャートを図１４に示す。
第３例では、重要度計算ステップＳ９２までは第２例と同様である。重要度計算後、要約文生成部１０４にて以下の処理を行なう。
【００５８】
まず、ステップＳ９３で入力テキストの選択された１文（以下要約対象文）において、その文中に含まれる単語からＬ個の単語（Ｌは１以上の整数）を選び、Ｌ個の単語からなる部分単語列の生成を行なう。次にステップＳ９４で部分単語列に対して、部分単語列に含まれる単語の重要度と部分単語列に含まれる連続したＮグラム確率の積を掛け合わせたものとして、部分単語列のスコアを求め、さらにステップＳ９５で単語数によって正規化するため単語数によるべき乗根をとり幾何平均値をとることで要約文スコアを求める。
【００５９】
ここでＮグラム確率は例えば（参考文献：「確率的言語モデル」、北研二、東大出版会）に記載されている方法等で求めることができる。
以下具体的に例として、“昨日俺は学食でまずいラーメンを食った”の文において、Ｌ＝３として、“俺”、“は”、“食った”の３単語、Ｎ＝３として図２７のような３グラムの単語連鎖確率表を利用すると、部分単語列、“俺は食った”の要約文スコアは、
（０．２５・０．１５・０．０１・０．４５・０．２８・０．１０）^1/3≒０．０１６８
となる。
上記のような計算を、少なくとも要約対象文に含まれる単語数以下であるような予め決めた上限値にＬの値が達するまで、Ｌを少なくとも１以上の値から１づつ増やしながらステップＳ９３〜Ｓ９７を繰り返し、ステップＳ９８で要約文スコア最大となる部分単語列を要約対象文に対応する要約文として決定する。
【００６０】
ここで、Ｌの値を順に増やしながら要約文スコア最大となる要約文を求めるのではなく、Ｌの初期値及び上限値を要約対象文に含まれる単語数とし、Ｎグラム確率を求めるための元となるテキストデータとしてテキストタグ付き音声素片データベース中のテキストを利用することで、要約文を生成するのではなく単語の語順がテキストタグ付き音声素片データベースに類似するように並び替えた文を生成することも可能である。
次に、類似文検索部１０１（図１３）では第１例、第２例とは異なり前記の要約文と類似した文をテキストタグ付き音声素片データベースから検索する。
【００６１】
検索方法については第１、２例と同様である。また、それ以降の処理は第１，２例と
同様であるので省略する。
第４例は、図１５に示すようにテキスト解析部１と韻律生成部２との間に構文解析部１０５と類似構文木検索部１０６と類似構文生成部１０７とキーワード置換部１０２を挿入して構成した場合を示す。
構文解析部１０５では、テキスト解析部１で得られた単語の品詞情報を利用して入力されたテキストの構文解析木を生成する。
【００６２】
次に類似解析木検索部１０６とでは、入力されたテキストの構文解析木の全部または一部と類似した類似構文木をテキストタグ付き音声素片データベース７から検索する。
類似構文生成部１０７では、まず、もし入力されたテキストの構文解析木の全部と類似構文木があれば、それに対応するテキストタグ付き音声素片データベース中の文を、そうでなければ、検索された部分的に類似した類似構文木の最適な組み合わせから生成した文を類似文とする。
【００６３】
キーワード置換部１０２では、入力テキストの構文木に基づき掛かり受け関係や品詞情報からキーワードを決定し、類似文中の対応する単語を置換し類似文を書き換える。その後は第１例と同様である。
尚、第４例では、図１１及び図１２に示した重要度計算部１０３を組み合わせ、重要度計算部１０３で計算された単語の重要度をキーワード置換部におけるキーワードを決定に利用することでキーワードの推定精度を高めることも可能である。
【００６４】
上記１〜４の構成例のうちどの構成をとるべきかは、メモリや演算装置等ハードウェアの構成や許容される精度、計算時間等によって異なる。利用するアルゴリズムによって多少異なるものの重要度計算、構文解析、要約文生成の処理は一般に計算量や記憶領域が多く必要なためである。
図１６及び図１７は、図１５に示した音声合成装置のフローチャートである。図１６と図１７で新たに追加された処理ステップに１００番台のステップ番号を付して示す。他の例と同様にまず入力テキストはステップＳ７０でテキスト解析部１により単語境界、品詞、読み、アクセント型の決定を行なう。
【００６５】
第４例ではステップＳ７０で形態素解析後、ステップＳ１００で構文解析を行なう。構文解析には様々な方法があるが（参考文献：「自然言語処理」長尾真：岩波ソフトウェア科学、“ＦｏｕｎｄａｔｉｏｎｓｏｆＳｔａｓｔｉｓｔｉｃａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ”Ｃ．Ｄ．Ｍａｎｎｉｎｇ，ＭＩＴ−ｐｒｅｓｓ等）、基本的には単語の品詞情報を利用して、例えば“昨日俺は学食でまずいラーメンを食った”の文に対しては図２４Ａまたは図２４Ｂに示すような構文解析木を作成する。
【００６６】
次に得られた解析木の部分木（図２４Ｂにおけるｉ１、ｉ２、ｉ３、ｉ４、ｉ５）において、図２１のように予めテキスト付き音声素片データベース内の構文解析されたテキストの１文に含まれる部分木に対して、解析木の部分木及び部分木の組み合わせ（ｉ１−ｉ２、ｉ１−ｉ３、ｉ１−ｉ４、ｉ１−ｉ２−ｉ３、ｉ１−ｉ２−ｉ４、ｉ１−ｉ３−ｉ４、ｉ１−ｉ２−ｉ３−ｉ４）に対応するものが存在すればその類似度を計算する（ステップＳ１０１）。
類似度の計算方法としては例えば、
類似度＝（部分木の類似度）・（部分木の大きさ）・（（部分木の大きさ）＋（部分木の周辺類似度））
（部分木の類似度）：部分木に含まれる単語のマッチングスコア（図２５）の総和
（部分木の大きさ）：ノード数
（部分木の周辺類似度）：部分木の接続ノードにおける単語のマッチングスコア
のように求めることができる。
【００６７】
上記の処理を、入力テキストの１文単位でテキストタグ付き音声素片データベース内に含まれる全てのテキストの部分木に対して行ない（ステップＳ１０２）、入力テキストの１文に含まれる部分木または部分木の組み合わせに類似したテキストタグ付き音声素片データベース内の部分木または部分木との組み合わせから文を構成した際に、類似度が最大になるような部分木または部分木の組み合わせを求める（ステップＳ１０３）。処理は動的計画法とにより効率的に実行可能である。
【００６８】
次に、求められた部分木または部分木の組み合わせから、類似文を生成する（ステップＳ１０４〜Ｓ１０５）。例えば、テキストタグ付き音声素片データベース中に図２４Ｃと図２４Ｄのような文が含まれていたとして、最適な部分木の組み合わせとして、ｉ１−ｉ２−ｉ３とｓ１−ｓ２−ｓ３の対応と、ｉ４とｓｓ４の対応の組み合わせが最も類似度が高いとして、素の場合、図２４Ｅの類似文が生成される。
以降のキーワード置換部１０２からシソーラス検索部１０５までの処理はキーワード決定ステップＳ７５〜シソーラス検索ステップＳ８６に関しては第１〜３例までと同様であるため省略する。
【００６９】
シソーラス検索部１０２においてシソーラスが存在しない場合、類似文における部分木または部分木の組み合わせ以外に予め決められた値以上となるような部分木または部分木の組み合わせがあるかどうか調べ、もし存在するならば現在の類似文の類似度の次に類似度が大きくなるような部分木または部分木の組み合わせを選択し（ステップＳ１０７）、文生成ステップＳ１０４に戻り、予め決められた値以上となるような部分木または部分木の組み合わせが存在しなくなるまでステップＳ１０４〜ステップＳ１０６を繰り返す。以降の処理は第１〜３例と同様である。
【００７０】
上述したこの発明による音声合成方法はコンピュータが読み取り可能な符号によって記述された音声合成プログラムをコンピュータに実行させることにより実現される。この発明による音声合成プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はＣＤ−ＲＯＭのような記録媒体に記録されてコンピュータにインストールされるか、或は通信回線を通じてコンピュータにインストールされ、ＣＰＵにより解読されてこの発明による音声合成方法が実行される。
【００７１】
【発明の効果】
以上説明したこの発明による音声合成方法及び装置、プログラムによれば入力されたテキスト読みや音律と音声波形素片の関係を格納した音声素片データベース７を用いて入力テキストに対応する音声波形素片を接続して音声信号を合成する。音声波形素片が示す読みや韻律情報との不一致度（コスト）により他の文字列への置換の可能性を分析し、置換される音声波形素片を接続して合成音声を生成することを特徴とし、この音声合成方法を採ることにより入力文を音声素片データベースに格納されている音声データの範疇で同義語に置換するため、人手をかけることなく、信頼性の高い音声を合成することができる。
【図面の簡単な説明】
【図１】この発明による音声合成装置の基本的な実施例を説明するためのブロック図。
【図２】図１に示した音声合成装置の動作を説明するためのフローチャート図。
【図３】図２に示した音声素片の検索及びコスト計算ステップの詳細を説明するためのフローチャート図。
【図４】図３に示した音声素片の検索及びコスト計算の他の詳細を説明するためのフローチャート図。
【図５】この発明による音声合成装置の他の実施例を説明するためのブロック図。
【図６】図５に示した音声合成装置の動作を説明するためのフローチャート。
【図７】図６に示したフローチャートの続きを説明するためのフローチャート。
【図８】この発明による音声合成装置のさらに他の実施例を説明するためのブロック図。
【図９】図８に示した実施例の動作を説明するためのフローチャート。
【図１０】図９に示したフローチャートの続きを説明するためのフローチャート。
【図１１】この発明による音声合成装置の更に他の実施例を説明するためのブロック図。
【図１２】図１１に示した実施例の動作を説明するためのフローチャート。
【図１３】この発明による音声合成装置の更に他の実施例を説明するためのブロック図。
【図１４】図１３に示した実施例の動作を説明するためのフローチャート。
【図１５】この発明による音声合成装置の更に他の実施例の説明をするためのブロック図。
【図１６】図１５に示した実施例の動作を説明するためのフローチャート。
【図１７】図１６に示したフローチャートの続きを説明するためのフローチャート。
【図１８】この発明による音声合成装置に用いたシソーラス辞書の内部の１例を説明するための図。
【図１９】この発明による音声合成装置に用いたテキストタグ付き音声素片データベースの内部の１例を説明するための図。
【図２０】図１９に示したテキストタグ付き音声素片データベースに格納されたラベル領域のデータの１例を説明するための図。
【図２１】図１９に示したテキストタグ付き音声素片データベースの他の例を説明するための図。
【図２２】図５に示した実施例に用いた書き換えルールデータベースの内容の１例を説明するための図。
【図２３】この発明による音声合成方法に用いる入力文と検索文との対応付けの１例を説明するための図。
【図２４】この発明による音声合成方法に用いる構文解析木の１例を説明するための図。
【図２５】この発明による音声合成方法に用いる単語マッチングスコアの１例を説明するための図。
【図２６】この発明による音声合成方法に用いる単語重要度の１例を説明するための図。
【図２７】この発明による音声合成方法に用いる単語Ｎグラムの１例を説明するための図。
【符号の説明】
１テキスト解析部１１文書き換え部
２韻律生成部１２書き換えルールデータベース
３音声素片選択部１０１類似文検索部
４コスト計算部１０２キーワード置換部
５シソーラス検索部１０３重要度計算部
６音声合成部１０４要約文生成部
７テキストタグ付き音声１０５構文解析部
素片データベース１０６類似構文解析木検索部
８テキスト解析用辞書１０７類似文生成部
９シソーラス辞書
１０単語置換部

Claims

入力された入力文章をテキスト解析して得られた読み、及び韻律情報に基づいて、テキストタグ付き音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成するシソーラス辞書を備えた音声合成装置において、
入力文章をテキスト解析し、単語境界、品詞、読み、アクセントを決定するテキスト解析部と、
品詞、読み、アクセントを入力として音韻及び韻律情報を決定する韻律生成部と、
前記韻律生成部で決定された音韻および韻律情報に基づいて、前記テキストタグ付き音声素片データベースから音声素片を検索する音声素片選択部と、
前記韻律生成部で決定された音韻および韻律情報と前記音声素片の有するコンテキスト及び韻律情報との不一致度を示す音声素片コスト及び、音声素片の組み合わせから音声素片系列全体としての前記韻律生成部で決定された音韻及び韻律情報との不一致度を示す音声素片系列コストを計算し、前記音声素片系列コストが最小な音声素片系列を選択して記憶するコスト計算部と、
前記音声素片系列コストが最小な音声素片系列を対象とし、置換候補素片を決定し置換候補単語を決定し、前記シソーラス辞書を利用して入力文章内の単語で置換される置換前単語とその置換後単語とを求めるシソーラス検索部と、
前記入力文章中の前記置換前単語を前記置換後単語に置換し、再び前記韻律生成部に処理をさせる単語置換部と、
前記シソーラス検索部において置換候補素片が決まらない場合、あるいは置換後単語が決まらない場合に、前記記憶された音声素片系列コストが最小な音声素片系列から合成音声を生成する音声合成部と、
を具備し、
前記シソーラス検索部は、
前記音声素片系列コストが最小な音声素片系列の前記音声素片コストが最大または予め決められた値以上の音声素片を置換候補素片として決定する置換候補素片決定手段と、
前記置換候補素片に対応する入力文章中の単語を置換候補単語として決定する置換候補単語決定手段と、
前記置換候補単語により前記シソーラス辞書を検索し、各置換候補単語の同義語あるいは類似語をシソーラス候補として決定するシソーラス候補決定手段と、
前記シソーラス候補が前記テキストタグ付き音声素片データベースに含まれていれば、当該シソーラス候補を置換後単語とし、対応する置換候補単語を置換前単語として決定するシソーラス置換単語決定手段と、
を有することを特徴とする音声合成装置。
請求項１に記載の音声合成装置において、
書き換えルールデータベースと文書き換え部とを具備し、
前記文書き換え部は、前記シソーラス検索部において置換候補単語が決定しても置換後単語が決まらない場合、置換候補単語を含む文に適用可能な書き換えルールを前記書き換えルールデータベースから検索し、適用可能な書き換えルールが存在する場合書き換え可能と判定する書き換え判定手段と、
前記書き換え判定手段で書き換え可能と判断された場合、前記適用可能な書き換えルールに基づいて前記入力文章を書き換え、再び前記テキスト解析部に処理をさせる書き換え手段とを有し、
前記音声合成部は、前記シソーラス検索部において置換候補素片が決まらない場合、あるいは前記文書き換え部において適用可能な書き換えルールが存在しない場合に、前記記憶された音声素片系列コストが最小な音声素片系列から合成音声を生成することを特徴とする音声合成装置。
請求項１に記載した音声合成装置において、
テキスト解析が行われた最初に入力された入力文章と類似度が最大となる類似文を、前記テキスト解析部で得られた単語境界及び単語の品詞を用いて前記テキストタグ付き音声素片データベースから検索する類似文検索部と、
前記最初に入力された入力文章のキーワードを設定し、前記類似文検索部で得られた類似度が最大の類似文に対して、類似文中の単語を対応する前記キーワードに置換し、書き換えられた類似文を入力文章として扱い、前記韻律生成部に処理をさせるキーワード置換部とを具備し、
前記類似文検索部は、単語の品詞と意味の対応関係及び語順に基づく単語間のマッチングスコアを定量的に表現した単語マッチングテーブルと、前記テキスト解析部で得られた単語境界及び品詞と前記単語マッチングテーブルを用いて、前記最初に入力された入力文章の各文と前記テキストタグ付き音声素片データベースに含まれる文との類似度を、その両者に含まれる単語間のマッチングスコアから計算する文類似度計算手段と、
を有することを特徴とする音声合成装置。
請求項３に記載の音声合成装置において、
前記テキスト解析部で得られた単語境界及び品詞に基づいて、最初に入力された入力文章中の単語の重要度を計算する重要度計算部を具備し、
前記類似文検索部は、前記単語の重要度により重み付けを行って類似度が最大となる類似文を検索し、
前記キーワード置換部は、重要度の値が大きい単語をキーワードに設定することを特徴とする音声合成装置。
請求項４に記載の音声合成装置において、
前記テキスト解析部で得られた単語境界と品詞、及び前記重要度計算部で得られた単語
の重要度を用いて、最初に入力された入力文章の中で不要な単語を除去し要約文を生成する要約文生成部を有し、
前記文類似度計算手段は、前記要約文と前記テキストタグ付き音声素片データベースに含まれる文との類似度を計算し、前記類似文検索部は、前記要約文と類似度が最大となる類似文を検索することを特徴とする音声合成装置。
請求項１に記載の音声合成装置において、
前記テキスト解析部で得られた単語境界及び品詞に基づいて、前記最初に入力された入力文章の構文解析を行い構文解析木を生成する構文解析部と、
前記構文解析木の全部または一部と類似した類似構文木を前記テキストタグ付き音声素片データベースから検索する類似構文解析木検索部と、
前記構文解析木の全部または一部と類似した類似構文木があれば、それに対応するテキストタグ付き音声素片データベース中の文を、そうでなければ検索された部分的に類似した類似構文木の最適な組み合わせから生成した文を類似文とする類似構文生成部と、
前記構文解析木に基づき掛かり受け関係や品詞から最初に入力された入力文章のキーワードを決定し、類似文中の単語を対応する前記キーワードに置換し、書き換えられた類似文を入力文章として扱い、前記韻律生成部に処理をさせるキーワード置換部と、
を具備することを特徴とする音声合成装置。
コンピュータが読み取り可能な符号によって記述され、前記請求項１乃至６の何れか１項に記載の音声合成装置としてコンピュータを機能させる音声合成プログラム。