JP4004376B2 - 音声合成装置、音声合成プログラム - Google Patents
音声合成装置、音声合成プログラム Download PDFInfo
- Publication number
- JP4004376B2 JP4004376B2 JP2002289925A JP2002289925A JP4004376B2 JP 4004376 B2 JP4004376 B2 JP 4004376B2 JP 2002289925 A JP2002289925 A JP 2002289925A JP 2002289925 A JP2002289925 A JP 2002289925A JP 4004376 B2 JP4004376 B2 JP 4004376B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- sentence
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声合成装置、音声合成プログラムに関する。
【0002】
【従来の技術】
従来の音声合成技術において、近年では大容量な記憶装置の使用コストの低下と計算機の計算能力の向上に伴って、数十分から数時間に及ぶ音声をそのまま大容量の記憶装置に蓄積しておき、入力されたテキスト及び韻律情報に応じて音声データから音声素片を適切に選択し、そのまま接続するか又は韻律情報に応じてそれらを変形して接続することで高品質な音声を合成する音声合成方法は提案されている(例えば特許文献1、非特許文献1)。
【0003】
しかし、いかに大容量の記憶装置に数十時間に及び音声データを蓄積しておいたとしても、蓄積時点では予期できないような新しい単語や造語、流行語、特定の分野でしか用いられないような専門用語及び用法等にも対応することは不可能であり、そのような文章に対しては合成音声の品質は著しく劣化する場合が多かった。
また、そのような合成音声品質の劣化を避けるためには、それに対応した音声を録音しかつ音声合成に利用できるように音声素片としてセグメンテーションするなどにより音声データベースとして整備する必要があり、そのための時間的、費用的なコストは非常に大きく、音声合成における大きな課題の一つであった。
【0004】
また、音声合成のニーズの一つとして、多様な話者や話し方、方言等の多様な用途に向けた音声合成があるが、高品質な合成音声を生成するために、前記のような大容量の記憶装置に数時間に及び音声データを蓄積し整備する作業を、そういったさまざまなバリエーションに対して行なうことはコストパフォーマンスが非常に低くなるため実用的にほぼ不可能と言えた。
そのほかの従来の技術としては、
例えば、入力文章自体を音声データベースに合わせた文章に人手又は機械的な書き換え後に人手によって書き換えることで高品質な音声を合成する音声合成方法が提案されている(例えば特許文献2)。
【0005】
また、入力されたテキストをテキスト解析用辞書を用いて形態素解析により単語に切り分け、それぞれの単語に品詞、読み及びアクセントを決定する技術に関しては特許文献3又は特許文献4に記載されている。
また、決定された読みから音韻を決定し、品詞、アクセント及び音韻から基本周波数パターンを決定し、またそれぞれの音韻の継続時間長、パワーについて決定する技術に関しては特許文献5、特許文献6及び非特許文献2に記載されている。
【0006】
更に、なんらかの基準で検索した音声素片に対する入力された音律情報等とのコストを計算しつつ、入力テキストに対して最適な音声素片を選択するために音声素片選択部とコスト計算部を一体化する技術に関しては非特許文献3に記述されている。
更に、例えば動的計画法(非特許文献4)や、その改良法(特許文献7)等に用例検索手法に関する技術が開示されている。
更に、要約文の生成方法としては、例えば表・記述の置換に基づく方法や、単語重要度とNグラム確率に基づく要約文生成方法に関しては特許文献8に記述されている。
【0007】
更に、重要度の決定方法としては、例えばTF・IDF法のような統計的な頻度情報に基づく方法や、機械学習に基づく分類を利用する技術が特許文献9に記述されている。
【0008】
【特許文献1】
特許第2761552号明細書
【特許文献2】
特願2002−194289号
【特許文献3】
特開平7−271792号公報
【特許文献4】
特許第3268181号公報
【特許文献5】
特開平5−88690号公報
【特許文献6】
特開平6−95696号公報
【特許文献7】
特開2001−243245号公報
【特許文献8】
特願2002−447497号公報
【特許文献9】
特願2002−63867号
【非特許文献1】
M.Beutnagel,A.Conkie,J.Schoroeter,Y.Stylanou,and Asydral,"Chose the best to modify the least : A new generation concatenative synthesis system", in proc.Eurospeech"99,1999,pp.2291-2294"
【非特許文献2】
電子通信学会論文誌“規則による音声合成のための音韻時間長制御”、白板他、Vol.67−A、629−636(1984)。
【非特許文献3】
“波形編集型規則合成法にける波形選択法”、広川他、電子情報通信学会音声研究会資料、SP89−114、PP33−40(1990)。
【非特許文献4】
“STRING SEARCHING ALGORITHM”,Stephen,,AG,World Scientific,1994
【0009】
【発明が解決しようとする課題】
上記の問題は、一つの方法として単に入力文章の範囲をデータベースに収録してあるタスクの範囲に制限する(タスク依存)ことで避けることもできる。または、入力文章自体を音声データベースに合わせた文章に、人手または機械的な書き換え後に人手によって書き換えることで高品質な音声を合成するという方法も提案されている(特許文献2参照)。
しかし、タスク依存というのは前記のような多様な用途にむけた音声合成には適用できず、どういった形であれ人手を利用する場合は人手による作業コストによるコストパフォーマンスの低下の問題や、リアルタイムでのテキストの音声化にはまったく利用できない等の問題があった。
【0010】
この発明はいかなる入力文章に対しても、人手に頼ることなく、新たに音声の録音や音声データベースとして整備することもなく高品質な合成音声を生成することにある。
【0011】
【課題を解決するための手段】
この発明では入力された文章をテキスト解析して得られた読み、及び韻律情報に基づいて、音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成方法において、入力文章をテキスト解析するテキスト解析過程と、テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから音声素片を検索する検索過程と、テキスト解析過程から得られた読み、及び韻律情報と音声素片の有するコンテキスト及び韻律情報との不一致度を示す音声素片コスト及び、音声素片コストと音声素片の組み合わせから音声素片系列全体としてのテキスト解析過程から得られた読み、及び韻律情報との不一致度を示す音声素片系列コストを計算するコスト計算過程と、音声素片データベースから音声素片系列コストが最小となる音声素片を選択する音声素片選択過程と、音声素片のコストの値によって置換対象とする音声素片候補を決定する音声素片置換候補判定過程と、音声素片候補が対応する入力文章中の文字について、別の文字列に置換可能か判定する判定過程と、判定過程で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力文章中の文字列を別の文字列に置換する置換過程と、置換対象とする音声素片の候補が存在しかつ判定過程で置換可能と判定された場合、音声素片選択過程から置換過程までを繰り返す処理と、置換対象とする音声素片の候補が存在しないかまたは判定過程で置換可能と判定された場合、一連の過程において得られた音声素片のうち、音声素片系列コストが最小となる音声素片を選択し、これらの音声素片を接続することにより音声を合成する音声合成過程とを有する音声合成方法を提案する。
【0012】
この発明では更に前記記載の音声合成方法において、シソーラス辞書を具備し、判定過程において、シソーラス辞書を用いて、置換対象とする音声素片の候補が対応する入力された文章中の単語において、同義語または類似語となる単語をテキストデータから検索し、同義語または類似語となる単語がテキストデータに含まれる場合置換可能と判定するシソーラス判定過程と、置換過程において、シソーラス判定過程で置換可能と判定された場合、置換対象とする音声素片の候補が対応する入力された文章中の単語を前記テキストデータに含まれる同義語または類似語に置換するシソーラス置換過程とを有する音声合成方法を提案する。
【0013】
この発明では更に前記記載の音声合成方法の何れかにおいて、書き換えルールデータベースを具備し、判定過程において、シソーラス判定過程において置換可能でないと判定された後に、記置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列に対して適用可能な書き換えルールを書き換えルールデータベースから検索し、適用可能な書き換えルールが存在する場合書き換え可能と判定する書き換え判定過程と、置換過程において、書き換え判定で書き換え可能と判断された場合、適用可能な書き換えルールに基づいて、置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列を書き換える書き換え過程とを有する音声合成方法を提案する。
【0014】
この発明では更に前記記載の音声合成方法の何れかにおいて、単語間の類似度を定量的に表現したマッチングテーブルを具備し、入力された文章をテキスト解析するテキスト解析過程の後に、テキスト解析により得られた単語境界及び品詞情報に基づいて単語の重要度を計算する重要度計算過程と、テキスト解析により得られた単語境界及び品詞情報と単語の重要度を重み付けした単語マッチングテーブルを用いて、入力された文章中の各文と音声素片データベースに含まれる文との類似度を計算する文類似度計算過程と、入力された文章中の各文に対して類似度が最大となる類似文を音声素片データベースから検索し、入力された文章中の各文及びその読み、韻律情報を検索された類似文及びその読み、韻律情報で置換する類似文検索過程と、
入力された文章中の各文において単語の重要度に基づいてキーワードを決定し、対応する類似文検索過程で検索された類似文中の単語を、キーワードと置換して類似文を書き換えるキーワード置換過程とを有する音声合成方法を提案する。
【0015】
この発明では更に前記記載の音声合成方法において、重要度計算過程後に、テキスト解析過程で得られた単語境界と品詞情報重要度及び単語の重要度を用いて、入力された文章の中で不要な単語を除去し要約文を生成する要約文生成過程を有し、文類似度計算過程として、要約文と音声素片データベースに含まれる文との類似度を計算するものとする音声合成方法を提案する。
この発明では更に前記記載の音声合成方法の何れかにおいて、音声合成過程の前に、入力された文章中の各文に対して類似度が予め決められた値または各文の単語数や単語の品詞等から決められる値以上であるような異なる類似文を検索し現在の類似文を検索された類似文を検索された類似文で置換する類似文交換過程を有する音声合成方法を提案する。
【0016】
この発明では更に前記記載の音声合成方法の何れかにおいて、入力された文章をテキスト解析するテキスト解析過程の後に、テキスト解析過程で得られた単語境界及び品詞情報及び、音声素片データベースに含まれる文における単語の構文情報を利用し、文に含まれる単語の構文情報に基づく文尤度を計算する文尤度計算過程と、入力文章の各文において、文尤度が最大となるような語順の入れ替え、単語の挿入・削除等により文を生成する文生成過程と、を有する音声合成方法を提案する。
【0017】
この発明では更に前記記載の音声合成方法において、また尤度計算過程において、テキスト解析過程で得られた単語境界及び品詞情報に基づいて、構文解析を行い構文解析木を生成する構文解析過程と、生成された構文解析木または構文解析木の部分木と、音声素片データベースに含まれる文の構文解析木または構文解析木の部分木との類似度を計算する構文木類似度計算過程と、構文解析木または構文解析木の部分木の類似度及び、構文解析木または構文解析木の部分木との組み合わせから文の尤度を計算する文尤度計算過程と、文尤度が最大となるような音声素片データベースに含まれる文の構文解析木または構文解析木の部分木の組み合わせから文を生成する文生成過程とを有する音声合成方法を提案する。
【0018】
この発明では更に入力された文章をテキスト解析して得られた読み、及び韻律情報に基づいて、音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成する音声合成装置において、入力文章をテキスト解析するテキスト解析手段と、テキスト解析手段から得られた読み、及び韻律情報に基づいて、音声素片データベースから音声素片を検索する検索手段と、
テキスト解析手段から得られた読み、韻律情報と音声素片の有するコンテキスト及び韻律情報との不一致度を示す音声素片コスト及び、音声素片コストと音声素片の組み合わせから音声素片系列全体としてのテキスト解析手段から得られた読み、及び韻律情報との不一致度を示す音声素片系列コストを計算するコスト計算手段と、
音声素片データベースから音声素片系列コストが最小となる音声素片を選択する音声素片選択手段と、
音声素片のコストの値によって置換対象とする音声素片候補を決定する音声素片置換候補判定手段と、
音声素片候補が対応する入力文章中の文字列において、別の文字列に置換可能か判定する判定手段と、
判定手段で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力文章中の文字列を別の文字列に置換する置換手段と、
置換対象とする音声素片の候補が存在しかつ判定手段で置換可能と判定された場合、音声素片選択手段から置換手段までを繰り返し実行させる処理と、
音声素片候補が存在しないかまたは判定手段で置換不可能と判定された場合、一連の手段において得られた音声素片のうち、音声素片系列コストが最小となる音声素片を選択し、それらの音声素片を接続することにより音声を合成する音声合成手段と、置換対象とする音声素片の候補が存在しかつ判定手段で置換可能と判定された場合、音声素片から置換手段までを繰り返す処理と、
を有する音声合成装置を提案する。
【0019】
この発明では更に前記記載の音声合成装置にの何れかにおいて、シソーラス辞書を具備し、判定手段において、シソーラス辞書を用いて、置換対象とする音声素片の候補が対応する入力された文章中の単語において、同義語または類似語となる単語を前記テキストデータから検索し、同義語または類似語となる単語がテキストデータに含まれる場合、置換可能と判定するシソーラス判定手段と、置換手段において、シソーラス判定手段で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力された文章中の単語をテキストデータに含まれらる同義語または類似語に置換するシソーラス置換手段とを有する音声合成装置を提案する。
【0020】
この発明では更に前記記載の音声合成装置の何れかにおいて、書き換えルールデータベースを具備し、判定手段において、シソーラス判定手段において置換可能でないと判定された後に、置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列に対して適用可能な書き換えルールを書き換えルールデータベースから検索し、適用可能な書き換えルールが存在する場合書き換え可能と判定する書き換え判定手段と、置換手段において、書き換え判定で書き換え可能と判断された場合、適用可能な書き換えルールに基づいて、置換対象とする音声素片の候補が対応する入力された文章中の単語を含む文字列を書き換える書き換え手段とを有する音声合成装置を提案する。
【0021】
この発明では更に前記記載の音声合成装置の何れかにおいて、単語間の類似度を定量的に表現したマッチングテーブルを具備し、入力された文章をテキスト解析するテキスト解析手段の後に、テキスト解析により得られた単語境界及び品詞情報と、単語マッチングテーブルを用いて、入力された文章中の各文と音声素片データベースに含まれる文との類似度を計算する文類似度計算手段と、入力された文章中の各文に対し類似度が最大となる類似文を音声素片データベースから検索し、入力された文章中の各文と及びその読み、韻律情報を検索された類似文及びその読み、韻律情報で置換する類似文検索手段と、入力された文章中の各文において意味的に重要な単語をキーワードとして、対応する類似文検索手段で検索された類似文中の単語を、キーワードと置換して類似文を書き換えるキーワード置換手段とを有する音声合成装置を提案する。
【0022】
この発明では更に前記記載の音声合成装置の何れかにおいて、単語間の類似度を定量的に表現したマッチングテーブルを具備し、入力された文章をテキスト解析するテキスト解析手段の後に、テキスト解析手段により得られた単語境界及び品詞情報に基づいて、単語の重要度を計算する重要度計算手段と、テキスト解析により得られた単語境界及び品詞情報と、単語の重要度を重み付けした単語マッチングテーブルを用いて、入力された文章中の各文と音声素片データベースに含まれる文との類似度を計算する文類似度計算手段と、入力された文章中の各文に対して類似度が最大となる類似文を音声素片データベースから検索し、入力された文章中の各文及びその読み、韻律情報を検索された類似文及びその読み、韻律情報で置換する類似文検索手段と、
入力された文章中の各文において単語の重要度に基づいてキーワードを決定し、対応する類似文検索手段で検索された類似文中の単語を、キーワードと置換して類似文を書き換えるキーワード置換手段とを有する音声合成装置を提案する。
【0023】
この発明では更に前記記載の音声合成装置の何れかにおいて、入力された文章をテキスト解析するテキスト解析手段の後に、テキスト解析手段で得られた単語境界及び品詞情報及び、音声素片データベースに含まれる文における単語の構文情報を利用し、文に含まれる単語の構文情報に基づく文尤度を計算する文尤度計算手段と、入力文章の各文において、文尤度が最大となるような語順の入れ替え、単語の挿入・削除等により文を生成する文生成手段とを有する音声合成装置を提案する。
【0024】
この発明では更にコンピュータが読み取り可能な符号によって記述され、前記記載の音声合成方法をコンピュータに実行させる音声合成プログラムを提案する。
作用
この発明による音声合成方法及び装置によれば、テキスト解析過程から得られた読み、及び韻律情報に基づいて、音声素片データベースから音声素片を検索し、テキスト解析過程から得られた読み、及び韻律情報と音声素片の有するコンテキスト(テキストデータの全般を指す)及び韻律情報との不一致度を示す音声素片コスト及び、音声素片コストと音声素片の組み合わせから音声素片系列全体としてのテキスト解析過程から得られた読み、及び韻律情報との不一致度を示す音声素片系列コストを計算し、音声素片データベースから音声素片系列コストが最小となる音声素片を選択し、音声素片のコストの値によって置換対象とする音声素片候補を決定し、音声素片候補が対応する入力文章中の文字列において、別の文字列に置換可能か判定し、判定過程で置換可能と判断された場合、置換対象とする音声素片の候補が対応する入力文章中の文字列を別の文字列に置換し、置換対象とする音声素片の候補が存在しかつ判定過程で置換可能と判定された場合、音声素片選択過程から置換過程まで繰り返すと共に、置換対象とする音声素片の候補が存在しないか又は判定過程で置換不可能と判定された場合、一連の過程において得られた音声素片のうち、音声素片系列コストが最小となる音声素片を選択し、それらの音声素片の韻律を韻律に応じて変形又は変形することなく、接続する音声合成方法を採るから、入力されたテキストはいかなる入力文章も音声素片データベースに格納されている音素片の存在の範疇で同義語に置換されるため人手に頼ることなく、いかなる入力文章に対しても高品質な合成音声を生成することができる。
【0025】
【発明の実施の形態】
以下この発明の実施の形態を述べる。まず、図1に本発明の音声合成装置の1例を示す。本実施形態の音声合成装置は、テキスト解析部1、韻律生成部2、音声素片選択部3、コスト計算部4、シソーラス検索部5、単語置換部10、音声合成部6、テキストタグ付き音声素片データベース7、テキスト解析用辞書8、シソーラス辞書9で構成されている。尚、テキストタグ付き音声素片データベース7に格納されているテキストタグ付き音声素片データは例えば図19に示すように音声領域データと、音声領域データの発音内容に対応した単語分割されたテキストデータと、各単語の形態素(品詞データ)、各単語が発声されている音声データ中での音声データ対応位置(ms)、ラベルデータ領域等で構成される。またラベルデータ領域は例えば図20に示すように音韻単位で音韻種別、前音韻環境、後音韻環境、平均周波数F0(Hz)、平均周波数の傾斜(Hz/ms)、時間長(ms)、パワー(dB)等で構成される。
【0026】
ここで音声領域データに関しては他のデータと一緒に格納するのではなく、分離して別のデータ領域に格納してもよい。
テキストタグ付き音声素片データベースのほかの例としては図21に示すように、音声領域データと、音声領域データの発声内容に対応して単語分割されたテキストデータと、形態素(品詞データ)、掛かり受けデータ、音声データ対応位置(ms)と、図21に示したラベルデータ等で構成することができる。
テキスト解析部1は、入力されたテキストをテキスト解析用辞書8を用いて形態素解析により単語に切り分け、それぞれの単語に品詞、読み及びアクセントを決定する(参考文献:特開平7−271792号公報、特許3268181号明細書)。
【0027】
次に、韻律生成部2では、前記決定された読みから音韻を決定し、品詞、アクセント及び音韻から基本周波数パターンを決定し、またそれぞれの音韻の継続時間長、パワーについて決定する。(参考文献:特開平5−88690号公報、特開平6−95696号公報、電子通信学会論文誌“規則による音声合成のための音韻時間長制御”、匂坂他、Vol.67−A,629−636(1984))。
音声素片選択部3では、前記音韻の継続時間長、パワー及び基本周波数パターンに基づいて、最適な音声素片をテキストタグ付き音声素片データベース7から選択する(参考文献:特許2761552明細書)。
【0028】
コスト計算部4では、前記選択された音声素片のそれぞれにおいて、各音声素片の有する音韻系列及び音韻の継続時間長、基本周波数及びパワーと、前記韻律生成部2で決定された継続時間長、パワー及び基本周波数パターンのコスト(不一致度)を計算する。本実施例では音声素片選択部3とコスト計算部4を分けているが、何らかの基準で検索した音声素片に対する入力された韻律情報等とのコストを計算しつつ、入力テキストに対して最適な音声素片を選択するために音声素片選択部3とコスト計算部4は一体化してもよい(参考文献:“波形編集型規則合成法における波形選択法”、広川他、電子情報通信学会音声研究会資料、SP89−114、pp、33−40(1990))。
【0029】
次に、シソーラス検索部5でシソーラス辞書9とテキストタグ付き音声素片データベース7を用いて、コストが最大または予め決められた値以上の音声素片に対応する単語と置き換え可能な同義語がテキストタグ付き音声素片データベース7に存在するかどうかを検索し、同義語がテキストタグ付き音声素片データベース7に存在しない場合は、音声合成部6において前記検索された音声素片を接続して合成音声を生成し出力する。
存在する場合は、単語置換部10において前記検索された同義語に置換し、再度韻律生成部2で処理をする。また、音声合成部6においては前記韻律生成部2で決定された継続時間長、パワー及び基本周波数パターンに基づいて音声素片の継続時間長、パワー及び基本周波数パターンを例えば波形重畳法のような信号処理技術を用いて変形してもよい。以上が本実施形態による音声合成装置において行なわれる処理の全体的な流れである。
【0030】
図2は図1に示した音声合成装置の処理を示すフローチャートである。まず、ステップS1では、テキスト解析部1により、入力されたテキストに対して、テキスト解析用辞書8を用いて形態素解析を行ない単語境界の決定と単語の品詞の付与、更に単語の読み・アクセント他の決定を行なう。
次に、音韻系列変換ステップS2により単語単位の読みから音韻系列に変換する。また読みと音韻系列は一意に対応するため音韻系列と単語とを対応付けておく。
【0031】
更に音韻生成ステップS3において各音韻のパワー、音韻長、基本周波数の計算を行なう。
次にステップS4でテキストタグ付き音声素片データベース7から、音韻系列に一致しかつ計算された各音韻のパワー、音韻長、基本周波数の値と音声素片に含まれる各音韻のパワー、音韻長、基本周波数とのコストを計算し、コストが最小となるような音声素片列を選択し、コスト及び音声素片列を記憶手段に保持する。
【0032】
次にステップS5で置換候補素片を決定する。置換候補素片としては例えば選択された素片列の中でコストが最大のものを1つ、または予め決められた値以上のコストとなる音声素片全てを置換候補素片とする。この場合全ての素片が予め決められた値以下である場合は置換候補素片は存在しないことになる。
次にステップS6で置換候補素片としてコストが一定値以上の素片を選ぶ場合、置換候補素片があるかどうかチェックする。コストが最大のものを1つだけ選ぶ場合はチェックの必要はない。ここで、置換候補素片が存在する場合にはステップS7で置換候補素片と対応する音韻列に対応する読みを含む単語を前記音韻系列変換における単語と音韻系列の対応付けから決定し、置換候補単語として決定し記憶手段に保持しておく。置換候補素片が存在しない場合はステップS12に飛ぶ。
【0033】
次にステップS7で決定された置換候補単語のうち新たに選ばれた単語に対して、ステップS8で、置換候補単語に対応するシソーラスを、シソーラス辞書9から検索する。シソーラス辞書とは単語の同義語、関連語、意味的な包含関係等を示した辞書であり、例えば、図18に示すような単語単位でどのような上位カテゴリや同一カテゴリへ属しているかを示すようなものである。このようなシソーラス辞書を用いて、各置換候補単語の全ての同義語を検索し、各置換候補単語のシソーラス候補とする。
【0034】
次にステップS9でテキストタグ付き音声データベース7にシソーラス候補と一致する単語が含まれているかどうかを検索する。
ステップ10ではテキストタグ付き音声素片データベース7内の単語や形態素等の情報を用いてシソーラス候補内の単語がテキストタグ付き音声素片データベース7に含まれているかどうかを調べ、含まれていた全ての単語を各置換候補単語のシソーラスとして決定し記憶手段に保持する。
次にステップS10で少なくとも1つシソーラスが存在することを検出した場合は、ステップS11に分岐しシソーラスが存在する置換候補単語に対して、各置換候補単語と対応して記憶してあるシソーラス内の1つの単語で置換し、また置換した単語は置換候補単語のシソーラスからは除去し、再度音韻系列変換ステップS2から繰り返す。ステップS10で全ての置換候補単語においてシソーラスが存在しない場合は、ステップS12に進みステップS12で音声素片の検索及びコスト計算において記憶されたコストと音声素片列においてコストが最小となる音声素片列を選択する。
【0035】
最後にステップS13で音声合成処理により音声素片列を接続し合成音声を生成する。ここでは、各音声素片の音韻長、パワー、基本周波数を前記韻律生成ステップS3おいて求められた音韻長、パワー、基本周波数に一致または近似するように信号処理を用いて変更してもよい。
ここで図3を用いて音声素片の選択及びコストの計算方法の1例を説明する。例えば特許文献1において波形候補を選択する過程で示されているような方法により、トップダウン的に音韻環境、パワー、音韻長、基本周波数の条件が最も一致する音声素片をテキストタグ付き音声素片データベースから選択する(ステップS21)。
【0036】
そして次に、選択された音声素片のコストを例えば下記のような計算式を用いて求めることができる(ステップS22)。音声素片列全体としてのコストは素片の総和として求められる。
目標の前音韻環境:Pt、後音韻環境:St、平均周波数:FAt、平均周波数の傾斜:FSt、時間長:Dt
音声素片の前音韻環境:Pc、後音韻環境:Sc、平均周波数:FAc、平均周波数の傾斜:FSc、時間長:Dc
コスト=αp*DP(Pt、Pc)+αs*DP(St、Sc)+αfa*|FAt−FAc|+αfs*|FSt−FSc|+αd*|Dt−Dc|…(1)
αp、αs、αfa、αfs、αdは適当な重み係数
ここで、DP(a,b)は音韻a、b間の異なり度合を求める関数であり、例えば音韻a、bの平均的なスペクトル(ベクトル)をSPa、SPbとしたとき、DP(a、b)=|SPa−SPb|のような関数でもよいし、音韻を発声形態(母音、摩擦音、破裂音等)によってグループ分けしグループ間の類似性により同一グループなら“0”、ほぼ同様な発声形態のグループなら“1”等であらわすようなものでもよい。
【0037】
図4を用いて、音声素片の選択及びコストの計算方法の別の例を説明する。
まず音韻が一致する全ての音声素片候補を検索する(ステップS31)。次に、音韻単位でのコストを計算する(ステップS32)。ここでは例えば前記のような式(1)を用いて計算してもよいし、例えば“波形編集型規則合成法における波形選択法”で示されているような波形選択関数(下記参照)を用いて素片単位のコストを求めてもよい。
コスト=αn+(1−α)W;W=ωv|Vp−Vs|2+ωf|Fp−Fs|2+ωt|Tp−Ts|2+ωa|Ap−As|2,n=1/eN…(2)
さらに、隣接する音韻の組み合わせコストを計算し、コストが最小となるような音声素片の組み合わせを線形計画法やビタビサーチ等の手法により検索する(ステップS33、S34)。ここで組み合わせコストとしては、例えば“波形編集型規則合成法における波形選択法“で示されているような歪計算式(下記参照)により計算することができる。
【0038】
D=Σ(1+ki*b)*(a*DP(ki)+(1−a)*δiDG(ki,ki−i))
図5に本発明の音声合成装置の別の構成例を示す。本構成では図1の構成に文書き換え部11、書き換えルールデータベース12を追加した構成であり、他の構成については図1と同様であるので、以下では文書き換え部11について記述する。
文書き換え部11は、それまでの処理で決定したコストの大きな素片に対応するような文に対して適用可能な書き換えルールを、書き換えルールデータベース12を用いて検索し、適用可能な書き換えルールが存在した場合、書き換えルールを適用して入力文を適切に書き換える機能を有するものである。
【0039】
図6及び7は図5に示した音声合成装置の処理を示すフローチャートである。図2に示したフローチャートとは、ステップS41〜ステップS50に示す形態素解析・読み/アクセント付与からシソーラスの存在の有無の判定までは同一であるためその説明を省略し、シソーラスが存在しない場合以降の処理について記述する。
ステップS50でシソーラスが存在しない場合、ステップS61(図7)置換候補単語を含む文に適用可能な書き換え可能なルールを、書き換えルールデータベース12(図5参照)を利用して検索する。
【0040】
ここで図22に書き換えルールデータベースの一例を示す。対象文の品詞と文字列の組み合わせまたは文字列のみとそれに対応する書き換え文の品詞及び文字列の組み合わせまたは文字列といった形式で複数の書き換えルールを含むものとなっている。例えば、図22に示す書き換えルールを利用し“3000万円→1600万円。”という文を書き換え可能かどうか調べると、この文の品詞構成は、“[数詞][助数詞][記号:−>][数詞][助数詞]”という構成になっており、図22の第1行のルール“[助数詞]+”→“+[数詞]”が適用可能であることがわかる。従って、第1行の対応する“[助数詞]+”から(助詞)“+[数詞]”のルールに基づいて書き換えると、“3000万円から1600万円。”に書き換えることができる。同様に、例えば“東京太郎・新宿大学長は…”という文であれば、第2行のルールから“新宿大学の東京太郎大学長…”に書き換え可能である。
【0041】
適用可能な書き換えルールが存在する場合は、書き換えルールを適用し文を書き換え、再度音韻系列変換から繰り返す。
適用可能な書き換えルールが存在しない場合または置換候補素片が存在しない場合、図2に示したフローチャート同様、コスト最小の音声素片を選択し、合成処理を行ない合成音声を生成する。
図8、図11、図13、図15に本発明の音声合成装置のさらに別の構成例を示す。
【0042】
本構成例は、図1、図5に示した構成例とはテキスト解析部1と韻律生成部2との間の4つの異なる構成例についてのみ以下に説明する。
第1例を図8に示す。第1例では図8にように類似文検索部101とキーワード置換部102とを配置した構成とした場合を示す。
類似文検索部101では、例えば動的計画法(参考文献:非特許文献4)やその改良法(参考文献:特許文献7)等に基づく用例検索手法によって、入力テキストと類似したテキストを、テキスト解析で得られた品詞情報を利用してテキストタグ付き音声素片データベース7から検索する。
【0043】
次にキーワード置換部102では、入力テキストのキーワードの対応する類似文検索部101で得られた類似文中の単語を、キーワードで置換し、類似文に置き換える。その後は、書き換えられた類似文から韻律生成部2で韻律生成を行ない、以下音声素片選択部3でテキストタグ付き音声素片データベース7から入力テキストに対して最適な音声素片を検索し、検索した音声素片に対する入力された韻律情報等とのコストをコスト計算部4で計算し、シソーラス検索部5でシソーラス辞書9とテキストタグ付き音声素片データベース7を用いて、コストが最低または予め決められた値以下の音声素片に対応する単語と置き換え可能な同義語がテキストタグ付き音声素片データベース7に存在するかどうかを検索し、同義語がテキストタグ付き音声素片データベース7に存在しない場合は、音声合成部6において検索された音声素片を接続して合成音声を生成して出力する点は図1で説明したと同様である。
【0044】
図9と図10に図8に第1例として示した音声合成装置の動作を説明するためのフローチャートを示す。
まず入力テキストはステップS70でテキスト解析部1により単語境界、品詞、読み、アクセント型の決定を行なう。
類似文検索部101では入力テキストのある1文とテキストタグ付き音声素片データベース7に含まれる1文間の類似度を計算し(ステップS71)、その計算結果を記憶手段に保持しておく。
【0045】
例えば特許文献7にあるような類似用例検索手法を利用すれば、単語の品詞と意味の対応関係及び語順に基づくマッチングスコアから2文間の単語の対応付け及び2文間の類似度を計算し、テキストタグ付き音声素片データベース7に含まれる文のうち入力文と最大の類似度となる文を類似文として決定することが可能である。具体的に図23に例で示す。入力テキストの1文(入力文)が“昨日俺は学食でまずいラーメンを食った。”と類似度を求めたいテキストタグ中に含まれる文(検索文)が“おいしいざるそばを昨日僕はそば屋で食べた。”であったとすると、例えば、まず図23に示すように単語間の対応付けとして“昨日”、“俺”、“は”、“学食”、“で”と“昨日”、“僕”、“は”、“そば屋”、“で”、“まずいラーメンを”と“おいしいざるそばを”の対応と“食った”と“食べた”の大きく分けて3つの部分文の対応関係が得られているとして、例えばその部分文及び文のマッチングスコアを下式のように計算すると、
部分スコア=[Σ 単語のマッチングスコア]2
文スコア=Σ 部分文のスコア
それぞれのスコアは
(8+4+8+4+8)2=1024
(4+4+8)2=256
42=16
文スコアは
1024+256+16=1344
となる。
【0046】
ここで、部分文スコアを単語のマッチングスコアの総和としたが、途中に文節単位のスコアを導入し、単語マッチングスコアから文節スコアを計算し、文節スコアから部分文スコアを計算するようにしてもよい。語順及び単語の種別により正規化する必要があるので、入力文同士の文スコアSi、検索文同士の文スコアSsにより正規化文スコア=[文スコア/(Si・Ss)1/2]で計算すると、
1334/√(5184・5184)≒0.259
となり、この正規化文スコアを入力文と検索文間の類似とする。ここで、前記では入力文の単語列と検索文の単語列の最適な対応関係が得られていることしたが、実際は最適な単語対応関係は予め求めることはできない。しかし最適な単語対応関係のときに文スコアが最大となることを考えれば、例えばGreedyアルゴリズムにより、最初に単語のマッチングスコアが最大となるような単語対応を1組から始めて、1づつ順に文スコアが最大となるような単語対応の組を追加していき、残ったどの単語対応の組を追加しても文スコアが変化しなくなったときまたは全ての単語対応が求まったときに対応付けを終了することで求めることができる。具体的には、(“昨日”、“昨日”)から順に、(“俺”、“俺”)、(“は”、“は”)、(“学食”、“そば屋”)、(“で”、“で”)、(“まずい”、“おいしい”)、(“ラーメン”、“ざるそば”)、(“を”、“を”)、(“食った”、“食べた”)という順に単語対応を求めることができる。
【0047】
上記2文間の類似度計算は、テキストタグ付き音声素片データベースに含まれる全ての文の類似度を計算するまで繰返し類似度最大となる文を入力テキストの1文の類似文として選択する。
次に入力テキストの他の文についても同様に類似文を選択し、入力テキスト全ての文に対する類似文が選択されるまで前記の処理を繰り返す。
次に、キーワード置換部102では、まず品詞等の情報を手がかりとして入力テキストのキーワードの設定を行なう。例えば、文の意味において重要な数値、日付、固有名詞、代名詞、動詞等をキーワードとすることが考えられる。
【0048】
次に、全ての入力テキストのキーワード自体またはキーワードのシソーラスが入力テキストの文に対応する類似文中に含まれているかを調べ、類似文にどちらも含まれない場合は、類似文中のキーワードと対応する単語をキーワードに置換し類似文を書き換える。具体的には、入力テキスト中の文“昨日俺は学食でまずいラーメンを食った。”のその類似文として、“おいしいざるそばを昨日僕はそば屋で食べた。”が選ばれた場合、
キーワードとして、“昨日”、“俺”、“学食”、“まずい”、“ラーメン”、“食った”を選んだとして、それらキーワードの単語対応(“昨日”、“昨日”)、(“俺”、“俺”)、(“学食”、“そば屋”)、(“まずい”、“おいしい”)、(“ラーメン”、“ざるそば”)、(“食った”、“食べた”)のうち、キーワード自体またはそれのシソーラスでもない対応は、“学食”、“そば屋”)、(“まずい”、“おいしい”)、(“ラーメン”、“ざるそば”)、になり、それを置き換えると、
“まずいラーメンを昨日僕は学食で食べた”となる。
【0049】
以下、音韻系列変換からシソーラスの存在するかどうかの判断までは図2とまったく同じである。シソーラスが存在しない場合、入力テキストの各文に対して類似度がある一定以上の他の類似文がテキストタグ付き音声データベースに存在するかどうか前記記憶手段に保持された類似度を調べ、存在する場合は類似度が現在選択している類似文の次に類似度が大きい文を類似文として選択し、キーワードの有無を調べるステップに戻る。
以上の処理を、入力テキストの全ての文において類似度がある許容値以上の類似文が存在しなくなるまで繰り返す。
【0050】
ここで、許容値の設定方法であるが例えば入力文同士のスコアSiの−1/2乗の単語数倍程度の値をその入力文の許容値とするとか、入力文の各文節単位では対応がとれ自立語の意味カテゴリが一致し、付属語は完全に一致するが、文節の順序は一致しないものと仮定した場合の類似度を計算し許容値とすることもできる。具体的に、“昨日俺は学食でまずいラーメンを食った”の例では、前者の計算方法では、
許容度=(5184)-0.5x9≒0.125
後者の方法だと、
文スコア=[42+(4+8)2+(4+8)2+42+(4+8)2+42]=480
許容度=480/√(5184・5184)≒0.092
となる。
【0051】
以降は、図2と同様にコストが最小となる音声素片を決定し、合成処理を実行し合成音声を生成する。
第2例は、図11に示すようにテキスト解析部1と音律生成部2との間に類似文検索部101とキーワード置換部102に加えて重要度計算部103を付加した構成とした場合を示す。重要度検索部103では、テキスト解析部1で得られた単語の品詞情報を利用して単語やその品詞に応じた重要度を単語単位で決定する。重要度の決定方法としては、例えばTF・IDF法のような統計的な頻度情報に基づく方法や機械学習に基づく分類法(参考文献:特許文献9)等の手法を利用することができる。
【0052】
次に、類似文検索部101では第1例と同様に用例検索手法に基づいて類似文をテキストタグ付き音声素片データベース7から検索するのであるが、その際単語の重要度を利用することでより精度の高い類似文検索が可能となる。
キーワード置換部102では、第1例とは異なり重要度の値が大きい単語をキーワードとし、類似文検索部101で得られた類似文中のキーワードと対応する単語をキーワードと置換し類似文を書き換える。重要度の高い単語のみをキーワードとする過程で不必要な書き換えをなくすことが可能となる。その他の構成は第1例と同じである。
【0053】
図11に示した第2例に対応するフローチャート図12に示す。第2例では、形態素解析後まず重要度計算ステップS92で、単語重要度の計算を行なう。具体的には、例えばTF・IDF法のような統計的な頻度情報を利用する方法に基づいて、文章内での単語の出現頻度(文章内頻度:TF)と文章集合の中でその単語が含まれる文章の数(文章間頻度:DF)の逆数(IDF)により、TFとIDFの積として重要度を求め、例えば“昨日俺は学食でまずいラーメンを食った”文の各単語に対し、図26に示すような重要度を付与する。実際には、任意の大量の文章または予め入力テキストとして想定されるような分野の文章またはテキストタグ付き音声素片データベースに含まれるテキスト、またはそれらの文書を適当に混合したものを利用して前期の方法により単語毎に重要度を計算することで単語と重要度の対応テーブルを用意しておき、重要度計算ステップS92では、単にテーブルを参照して重要度を求めるだけの処理となる。
【0054】
その他の、機械学習に基づく分類法(参考文献:特許文献9)等の手法によって頻度情報だけでなく品詞や隣接する単語の品詞、文に含まれる単語数との複合的な情報を利用して統計的な尤度または確率として重要度を求めることができる。
次に入力テキストの類似文の検索を行なう。この場合、第1例と同様に類似文の検索を行なってもよいが、図25に示した品詞等に基づくスコアと前記重要度との積を単語のマッチングスコアとすることで、重要な単語に対して重み付けをすることができ重要な単語の構成が類似した文を検索することが可能となる。
【0055】
以降の処理において、ステップS75に示すキーワードの決定までは第1例と同様である。キーワードの決定においては、前記重要度を用いて尤度が予め決められた閾値以上の単語をキーワードとする。ここで閾値としては、例えば予め人手で決定した複数の文章の重要な単語に対して、前記重要度計算によって各単語の重要度を求め、求められた重要度の最小値を用いるとか、単語の重要度の分布を求めその90〜95%程度の分布域の下限値から求める等によって決定できる。キーワード決定以降の処理は図10に示した第1例と同様である。
【0056】
第3例は、図13に示すように類似文検索部101と、キーワード置換部102と、重要度計算部103に加えて要約文生成部104を設けた構成とした場合を示す。
重要度計算部103では第2例と同様にして単語の重要度を計算する。
次に要約文生成部104では、単語単位の重要度と、単語の連鎖確率を利用して余分な単語を除き要約された文を生成する。要約文の生成方法としては、例えば表層記述の置換に基づく方法や単語重要度とNグラム確率に基づく要約文生成方式(参考文献:特許文献8)等がある。
【0057】
次に、類似文検索部101では、第1、第2例とは異なり要約文と類似する文をテキストタグ付き音声素片データベース7から検索する。冗長な情報が含まれない文を検索対象とすることでより適確な類似文選択が可能となる。
キーワード置換部102では第2例と同様に重要度の高い単語をキーワードとして置換を行なう。その他の構成は第1例同様である。
図13に示した第3例に対応するフローチャートを図14に示す。
第3例では、重要度計算ステップS92までは第2例と同様である。重要度計算後、要約文生成部104にて以下の処理を行なう。
【0058】
まず、ステップS93で入力テキストの選択された1文(以下要約対象文)において、その文中に含まれる単語からL個の単語(Lは1以上の整数)を選び、L個の単語からなる部分単語列の生成を行なう。次にステップS94で部分単語列に対して、部分単語列に含まれる単語の重要度と部分単語列に含まれる連続したNグラム確率の積を掛け合わせたものとして、部分単語列のスコアを求め、さらにステップS95で単語数によって正規化するため単語数によるべき乗根をとり幾何平均値をとることで要約文スコアを求める。
【0059】
ここでNグラム確率は例えば(参考文献:「確率的言語モデル」、北研二、東大出版会)に記載されている方法等で求めることができる。
以下具体的に例として、“昨日俺は学食でまずいラーメンを食った”の文において、L=3として、“俺”、“は”、“食った”の3単語、N=3として図27のような3グラムの単語連鎖確率表を利用すると、部分単語列、“俺は食った”の要約文スコアは、
(0.25・0.15・0.01・0.45・0.28・0.10)1/3≒0.0168
となる。
上記のような計算を、少なくとも要約対象文に含まれる単語数以下であるような予め決めた上限値にLの値が達するまで、Lを少なくとも1以上の値から1づつ増やしながらステップS93〜S97を繰り返し、ステップS98で要約文スコア最大となる部分単語列を要約対象文に対応する要約文として決定する。
【0060】
ここで、Lの値を順に増やしながら要約文スコア最大となる要約文を求めるのではなく、Lの初期値及び上限値を要約対象文に含まれる単語数とし、Nグラム確率を求めるための元となるテキストデータとしてテキストタグ付き音声素片データベース中のテキストを利用することで、要約文を生成するのではなく単語の語順がテキストタグ付き音声素片データベースに類似するように並び替えた文を生成することも可能である。
次に、類似文検索部101(図13)では第1例、第2例とは異なり前記の要約文と類似した文をテキストタグ付き音声素片データベースから検索する。
【0061】
検索方法については第1、2例と同様である。また、それ以降の処理は第1,2例と
同様であるので省略する。
第4例は、図15に示すようにテキスト解析部1と韻律生成部2との間に構文解析部105と類似構文木検索部106と類似構文生成部107とキーワード置換部102を挿入して構成した場合を示す。
構文解析部105では、テキスト解析部1で得られた単語の品詞情報を利用して入力されたテキストの構文解析木を生成する。
【0062】
次に類似解析木検索部106とでは、入力されたテキストの構文解析木の全部または一部と類似した類似構文木をテキストタグ付き音声素片データベース7から検索する。
類似構文生成部107では、まず、もし入力されたテキストの構文解析木の全部と類似構文木があれば、それに対応するテキストタグ付き音声素片データベース中の文を、そうでなければ、検索された部分的に類似した類似構文木の最適な組み合わせから生成した文を類似文とする。
【0063】
キーワード置換部102では、入力テキストの構文木に基づき掛かり受け関係や品詞情報からキーワードを決定し、類似文中の対応する単語を置換し類似文を書き換える。その後は第1例と同様である。
尚、第4例では、図11及び図12に示した重要度計算部103を組み合わせ、重要度計算部103で計算された単語の重要度をキーワード置換部におけるキーワードを決定に利用することでキーワードの推定精度を高めることも可能である。
【0064】
上記1〜4の構成例のうちどの構成をとるべきかは、メモリや演算装置等ハードウェアの構成や許容される精度、計算時間等によって異なる。利用するアルゴリズムによって多少異なるものの重要度計算、構文解析、要約文生成の処理は一般に計算量や記憶領域が多く必要なためである。
図16及び図17は、図15に示した音声合成装置のフローチャートである。図16と図17で新たに追加された処理ステップに100番台のステップ番号を付して示す。他の例と同様にまず入力テキストはステップS70でテキスト解析部1により単語境界、品詞、読み、アクセント型の決定を行なう。
【0065】
第4例ではステップS70で形態素解析後、ステップS100で構文解析を行なう。構文解析には様々な方法があるが(参考文献:「自然言語処理」長尾真:岩波ソフトウェア科学、“Foundations of Stastistical Natural Language Processing”C.D.Manning,MIT−press等)、基本的には単語の品詞情報を利用して、例えば“昨日俺は学食でまずいラーメンを食った”の文に対しては図24Aまたは図24Bに示すような構文解析木を作成する。
【0066】
次に得られた解析木の部分木(図24Bにおけるi1、i2、i3、i4、i5)において、図21のように予めテキスト付き音声素片データベース内の構文解析されたテキストの1文に含まれる部分木に対して、解析木の部分木及び部分木の組み合わせ(i1−i2、i1−i3、i1−i4、i1−i2−i3、i1−i2−i4、i1−i3−i4、i1−i2−i3−i4)に対応するものが存在すればその類似度を計算する(ステップS101)。
類似度の計算方法としては例えば、
類似度=(部分木の類似度)・(部分木の大きさ)・((部分木の大きさ)+(部分木の周辺類似度))
(部分木の類似度):部分木に含まれる単語のマッチングスコア(図25)の総和
(部分木の大きさ):ノード数
(部分木の周辺類似度):部分木の接続ノードにおける単語のマッチングスコア
のように求めることができる。
【0067】
上記の処理を、入力テキストの1文単位でテキストタグ付き音声素片データベース内に含まれる全てのテキストの部分木に対して行ない(ステップS102)、入力テキストの1文に含まれる部分木または部分木の組み合わせに類似したテキストタグ付き音声素片データベース内の部分木または部分木との組み合わせから文を構成した際に、類似度が最大になるような部分木または部分木の組み合わせを求める(ステップS103)。処理は動的計画法とにより効率的に実行可能である。
【0068】
次に、求められた部分木または部分木の組み合わせから、類似文を生成する(ステップS104〜S105)。例えば、テキストタグ付き音声素片データベース中に図24Cと図24Dのような文が含まれていたとして、最適な部分木の組み合わせとして、i1−i2−i3とs1−s2−s3の対応と、i4とss4の対応の組み合わせが最も類似度が高いとして、素の場合、図24Eの類似文が生成される。
以降のキーワード置換部102からシソーラス検索部105までの処理はキーワード決定ステップS75〜シソーラス検索ステップS86に関しては第1〜3例までと同様であるため省略する。
【0069】
シソーラス検索部102においてシソーラスが存在しない場合、類似文における部分木または部分木の組み合わせ以外に予め決められた値以上となるような部分木または部分木の組み合わせがあるかどうか調べ、もし存在するならば現在の類似文の類似度の次に類似度が大きくなるような部分木または部分木の組み合わせを選択し(ステップS107)、文生成ステップS104に戻り、予め決められた値以上となるような部分木または部分木の組み合わせが存在しなくなるまでステップS104〜ステップS106を繰り返す。以降の処理は第1〜3例と同様である。
【0070】
上述したこの発明による音声合成方法はコンピュータが読み取り可能な符号によって記述された音声合成プログラムをコンピュータに実行させることにより実現される。この発明による音声合成プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はCD−ROMのような記録媒体に記録されてコンピュータにインストールされるか、或は通信回線を通じてコンピュータにインストールされ、CPUにより解読されてこの発明による音声合成方法が実行される。
【0071】
【発明の効果】
以上説明したこの発明による音声合成方法及び装置、プログラムによれば入力されたテキスト読みや音律と音声波形素片の関係を格納した音声素片データベース7を用いて入力テキストに対応する音声波形素片を接続して音声信号を合成する。音声波形素片が示す読みや韻律情報との不一致度(コスト)により他の文字列への置換の可能性を分析し、置換される音声波形素片を接続して合成音声を生成することを特徴とし、この音声合成方法を採ることにより入力文を音声素片データベースに格納されている音声データの範疇で同義語に置換するため、人手をかけることなく、信頼性の高い音声を合成することができる。
【図面の簡単な説明】
【図1】この発明による音声合成装置の基本的な実施例を説明するためのブロック図。
【図2】図1に示した音声合成装置の動作を説明するためのフローチャート図。
【図3】図2に示した音声素片の検索及びコスト計算ステップの詳細を説明するためのフローチャート図。
【図4】図3に示した音声素片の検索及びコスト計算の他の詳細を説明するためのフローチャート図。
【図5】この発明による音声合成装置の他の実施例を説明するためのブロック図。
【図6】図5に示した音声合成装置の動作を説明するためのフローチャート。
【図7】図6に示したフローチャートの続きを説明するためのフローチャート。
【図8】この発明による音声合成装置のさらに他の実施例を説明するためのブロック図。
【図9】図8に示した実施例の動作を説明するためのフローチャート。
【図10】図9に示したフローチャートの続きを説明するためのフローチャート。
【図11】この発明による音声合成装置の更に他の実施例を説明するためのブロック図。
【図12】図11に示した実施例の動作を説明するためのフローチャート。
【図13】この発明による音声合成装置の更に他の実施例を説明するためのブロック図。
【図14】図13に示した実施例の動作を説明するためのフローチャート。
【図15】この発明による音声合成装置の更に他の実施例の説明をするためのブロック図。
【図16】図15に示した実施例の動作を説明するためのフローチャート。
【図17】図16に示したフローチャートの続きを説明するためのフローチャート。
【図18】この発明による音声合成装置に用いたシソーラス辞書の内部の1例を説明するための図。
【図19】この発明による音声合成装置に用いたテキストタグ付き音声素片データベースの内部の1例を説明するための図。
【図20】図19に示したテキストタグ付き音声素片データベースに格納されたラベル領域のデータの1例を説明するための図。
【図21】図19に示したテキストタグ付き音声素片データベースの他の例を説明するための図。
【図22】図5に示した実施例に用いた書き換えルールデータベースの内容の1例を説明するための図。
【図23】この発明による音声合成方法に用いる入力文と検索文との対応付けの1例を説明するための図。
【図24】この発明による音声合成方法に用いる構文解析木の1例を説明するための図。
【図25】この発明による音声合成方法に用いる単語マッチングスコアの1例を説明するための図。
【図26】この発明による音声合成方法に用いる単語重要度の1例を説明するための図。
【図27】この発明による音声合成方法に用いる単語Nグラムの1例を説明するための図。
【符号の説明】
1 テキスト解析部 11 文書き換え部
2 韻律生成部 12 書き換えルールデータベース
3 音声素片選択部 101 類似文検索部
4 コスト計算部 102 キーワード置換部
5 シソーラス検索部 103 重要度計算部
6 音声合成部 104 要約文生成部
7 テキストタグ付き音声 105 構文解析部
素片データベース 106 類似構文解析木検索部
8 テキスト解析用辞書 107 類似文生成部
9 シソーラス辞書
10 単語置換部
Claims (7)
- 入力された入力文章をテキスト解析して得られた読み、及び韻律情報に基づいて、テキストタグ付き音声素片データベースから複数の音声素片を選択し、選択された音声素片を接続することにより音声を合成するシソーラス辞書を備えた音声合成装置において、
入力文章をテキスト解析し、単語境界、品詞、読み、アクセントを決定するテキスト解析部と、
品詞、読み、アクセントを入力として音韻及び韻律情報を決定する韻律生成部と、
前記韻律生成部で決定された音韻および韻律情報に基づいて、前記テキストタグ付き音声素片データベースから音声素片を検索する音声素片選択部と、
前記韻律生成部で決定された音韻および韻律情報と前記音声素片の有するコンテキスト及び韻律情報との不一致度を示す音声素片コスト及び、音声素片の組み合わせから音声素片系列全体としての前記韻律生成部で決定された音韻及び韻律情報との不一致度を示す音声素片系列コストを計算し、前記音声素片系列コストが最小な音声素片系列を選択して記憶するコスト計算部と、
前記音声素片系列コストが最小な音声素片系列を対象とし、置換候補素片を決定し置換候補単語を決定し、前記シソーラス辞書を利用して入力文章内の単語で置換される置換前単語とその置換後単語とを求めるシソーラス検索部と、
前記入力文章中の前記置換前単語を前記置換後単語に置換し、再び前記韻律生成部に処理をさせる単語置換部と、
前記シソーラス検索部において置換候補素片が決まらない場合、あるいは置換後単語が決まらない場合に、前記記憶された音声素片系列コストが最小な音声素片系列から合成音声を生成する音声合成部と、
を具備し、
前記シソーラス検索部は、
前記音声素片系列コストが最小な音声素片系列の前記音声素片コストが最大または予め決められた値以上の音声素片を置換候補素片として決定する置換候補素片決定手段と、
前記置換候補素片に対応する入力文章中の単語を置換候補単語として決定する置換候補単語決定手段と、
前記置換候補単語により前記シソーラス辞書を検索し、各置換候補単語の同義語あるいは類似語をシソーラス候補として決定するシソーラス候補決定手段と、
前記シソーラス候補が前記テキストタグ付き音声素片データベースに含まれていれば、当該シソーラス候補を置換後単語とし、対応する置換候補単語を置換前単語として決定するシソーラス置換単語決定手段と、
を有することを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置において、
書き換えルールデータベースと文書き換え部とを具備し、
前記文書き換え部は、前記シソーラス検索部において置換候補単語が決定しても置換後単語が決まらない場合、置換候補単語を含む文に適用可能な書き換えルールを前記書き換えルールデータベースから検索し、適用可能な書き換えルールが存在する場合書き換え可能と判定する書き換え判定手段と、
前記書き換え判定手段で書き換え可能と判断された場合、前記適用可能な書き換えルールに基づいて前記入力文章を書き換え、再び前記テキスト解析部に処理をさせる書き換え手段とを有し、
前記音声合成部は、前記シソーラス検索部において置換候補素片が決まらない場合、あるいは前記文書き換え部において適用可能な書き換えルールが存在しない場合に、前記記憶された音声素片系列コストが最小な音声素片系列から合成音声を生成することを特徴とする音声合成装置。 - 請求項1に記載した音声合成装置において、
テキスト解析が行われた最初に入力された入力文章と類似度が最大となる類似文を、前記テキスト解析部で得られた単語境界及び単語の品詞を用いて前記テキストタグ付き音声素片データベースから検索する類似文検索部と、
前記最初に入力された入力文章のキーワードを設定し、前記類似文検索部で得られた類似度が最大の類似文に対して、類似文中の単語を対応する前記キーワードに置換し、書き換えられた類似文を入力文章として扱い、前記韻律生成部に処理をさせるキーワード置換部とを具備し、
前記類似文検索部は、単語の品詞と意味の対応関係及び語順に基づく単語間のマッチングスコアを定量的に表現した単語マッチングテーブルと、前記テキスト解析部で得られた単語境界及び品詞と前記単語マッチングテーブルを用いて、前記最初に入力された入力文章の各文と前記テキストタグ付き音声素片データベースに含まれる文との類似度を、その両者に含まれる単語間のマッチングスコアから計算する文類似度計算手段と、
を有することを特徴とする音声合成装置。 - 請求項3に記載の音声合成装置において、
前記テキスト解析部で得られた単語境界及び品詞に基づいて、最初に入力された入力文章中の単語の重要度を計算する重要度計算部を具備し、
前記類似文検索部は、前記単語の重要度により重み付けを行って類似度が最大となる類似文を検索し、
前記キーワード置換部は、重要度の値が大きい単語をキーワードに設定することを特徴とする音声合成装置。 - 請求項4に記載の音声合成装置において、
前記テキスト解析部で得られた単語境界と品詞、及び前記重要度計算部で得られた単語
の重要度を用いて、最初に入力された入力文章の中で不要な単語を除去し要約文を生成する要約文生成部を有し、
前記文類似度計算手段は、前記要約文と前記テキストタグ付き音声素片データベースに含まれる文との類似度を計算し、前記類似文検索部は、前記要約文と類似度が最大となる類似文を検索することを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置において、
前記テキスト解析部で得られた単語境界及び品詞に基づいて、前記最初に入力された入力文章の構文解析を行い構文解析木を生成する構文解析部と、
前記構文解析木の全部または一部と類似した類似構文木を前記テキストタグ付き音声素片データベースから検索する類似構文解析木検索部と、
前記構文解析木の全部または一部と類似した類似構文木があれば、それに対応するテキストタグ付き音声素片データベース中の文を、そうでなければ検索された部分的に類似した類似構文木の最適な組み合わせから生成した文を類似文とする類似構文生成部と、
前記構文解析木に基づき掛かり受け関係や品詞から最初に入力された入力文章のキーワードを決定し、類似文中の単語を対応する前記キーワードに置換し、書き換えられた類似文を入力文章として扱い、前記韻律生成部に処理をさせるキーワード置換部と、
を具備することを特徴とする音声合成装置。 - コンピュータが読み取り可能な符号によって記述され、前記請求項1乃至6の何れか1項に記載の音声合成装置としてコンピュータを機能させる音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002289925A JP4004376B2 (ja) | 2002-10-02 | 2002-10-02 | 音声合成装置、音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002289925A JP4004376B2 (ja) | 2002-10-02 | 2002-10-02 | 音声合成装置、音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004126205A JP2004126205A (ja) | 2004-04-22 |
JP4004376B2 true JP4004376B2 (ja) | 2007-11-07 |
Family
ID=32281956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002289925A Expired - Fee Related JP4004376B2 (ja) | 2002-10-02 | 2002-10-02 | 音声合成装置、音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4004376B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4811557B2 (ja) * | 2005-02-18 | 2011-11-09 | 独立行政法人情報通信研究機構 | 音声再生装置及び発話支援装置 |
JP4533255B2 (ja) * | 2005-06-27 | 2010-09-01 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 |
JP4640063B2 (ja) * | 2005-09-13 | 2011-03-02 | 沖電気工業株式会社 | 音声合成方法,音声合成装置,およびコンピュータプログラム |
WO2008056590A1 (fr) * | 2006-11-08 | 2008-05-15 | Nec Corporation | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole |
WO2008102710A1 (ja) * | 2007-02-20 | 2008-08-28 | Nec Corporation | 音声合成装置及び方法とプログラム |
CN110689885B (zh) * | 2019-09-18 | 2023-05-23 | 平安科技(深圳)有限公司 | 机器合成语音识别方法、装置、存储介质及电子设备 |
CN114639371B (zh) * | 2022-03-16 | 2023-08-01 | 马上消费金融股份有限公司 | 一种语音的转换方法、装置及设备 |
-
2002
- 2002-10-02 JP JP2002289925A patent/JP4004376B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004126205A (ja) | 2004-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8175879B2 (en) | System-effected text annotation for expressive prosody in speech synthesis and recognition | |
US7263488B2 (en) | Method and apparatus for identifying prosodic word boundaries | |
Watts | Unsupervised learning for text-to-speech synthesis | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
US20080243508A1 (en) | Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP2003076392A (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
White et al. | Generating tailored, comparative descriptions with contextually appropriate intonation | |
JPH11249677A (ja) | 音声合成装置の韻律制御方法 | |
JP2003196280A (ja) | テキスト生成方法及びテキスト生成装置 | |
US6996529B1 (en) | Speech synthesis with prosodic phrase boundary information | |
US7328157B1 (en) | Domain adaptation for TTS systems | |
JP4004376B2 (ja) | 音声合成装置、音声合成プログラム | |
Bulyko et al. | Efficient integrated response generation from multiple targets using weighted finite state transducers | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
KR20100085433A (ko) | 다중 목표운율 이용한 고음질 음성합성 방법 | |
Krishna et al. | A new prosodic phrasing model for indian language telugu. | |
Möbius | The Bell Labs German text-to-speech system | |
Kominek | Tts from zero: Building synthetic voices for new languages | |
Akinwonmi | Development of a prosodic read speech syllabic corpus of the Yoruba language | |
JP3981619B2 (ja) | 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム | |
JP2004151527A (ja) | 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム | |
JP4787686B2 (ja) | テキスト選択装置、その方法、そのプログラム、及びその記録媒体 | |
JP4575798B2 (ja) | 音声合成装置及び音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050128 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070821 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130831 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |