JP2006215109A - 音声合成装置及び音声合成プログラム - Google Patents

音声合成装置及び音声合成プログラム Download PDF

Info

Publication number
JP2006215109A
JP2006215109A JP2005025498A JP2005025498A JP2006215109A JP 2006215109 A JP2006215109 A JP 2006215109A JP 2005025498 A JP2005025498 A JP 2005025498A JP 2005025498 A JP2005025498 A JP 2005025498A JP 2006215109 A JP2006215109 A JP 2006215109A
Authority
JP
Japan
Prior art keywords
similar
phrase
string
sentence
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005025498A
Other languages
English (en)
Other versions
JP4575798B2 (ja
Inventor
Norifumi Oide
訓史 大出
Atsushi Imai
篤 今井
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2005025498A priority Critical patent/JP4575798B2/ja
Publication of JP2006215109A publication Critical patent/JP2006215109A/ja
Application granted granted Critical
Publication of JP4575798B2 publication Critical patent/JP4575798B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 韻律を生成して高精度に音声合成を行う。
【解決手段】 入力される文章データから韻律を生成して音声を合成する音声合成装置において、前記文章データの言語解析を行う言語解析手段と、前記言語解析手段により得られる解析結果に基づいて、予め蓄積されている文章データと類似する類似文章データを抽出する類似文章抽出手段と、前記類似文章抽出手段から得られる類似文章データの文節列に基づいて、予め蓄積されている文節列と類似する文節列を抽出する類似文節列抽出手段と、前記類似文節列抽出手段により得られる文節列に基づいて韻律素片を合成する韻律素片合成手段とを有することにより、上記課題を解決する。
【選択図】 図1

Description

本発明は、音声合成装置及び音声合成プログラムに係り、特に、韻律を生成して高精度に音声合成を行うための音声合成装置及び音声合成プログラムに関する。
従来、入力されるテキスト文章データに音声を合成する手法としては、入力されたテキストと、読み情報やアクセント情報等を有する形態素辞書との照合を行い、基本周波数パターンや音素の継続時間長等の韻律パラメータを規則的に求めるものがある(例えば、非特許文献1参照。)。
また、韻律の自然性を高めるため、アクセント句等の単位で自然音声のアクセント型、モーラ数、品詞の組、係り受け情報、呼気段落の位置等の条件でクラスタリングされた基本周波数の平均パターンもしくは代表パターンを韻律パターンとして保持し、前後の文節情報や構文構造を基に韻律パターンを接続する手法もある(例えば、非特許文献2参照。)。
更に、文章を自然発声した音声の韻律パラメータを用いたものとしては、定型文を用いたもの(例えば、非特許文献3参照。)や、類似する文章を用いたもの(例えば、特許文献1参照。)がある。
江藤雅哉他,「生成過程モデルと統計的手法による基本周波数パターンの生成」,電子情報通信学会,SP2001−15(2001−5),pp.1−8. 籠嶋岳彦他,「代表パターンコードブックを用いた基本周波数制御法」,電子情報通信学会論文誌,D−II VOL.J85−D−II No.6 2002年6月,pp.976−986. 片江伸之他,「文型−韻律データベースを用いた定型文音声合成システム」,日本音響学会講演論文集,平成8年3月,pp.275−276. 特開平11−249677号公報
ところで、従来からある韻律データベースを用いた韻律生成手法では、例えば文節やアクセント句毎に基本周波数パターンを求め、また音素毎に継続時間長を求める等、基本周波数パターンと音素の継続時間長とをそれぞれ独立に求めている。
しかしながら、このような自然音声の一部を利用して文章全体の韻律パラメータを生成した場合、部分的には自然であっても、文章全体としては自然性に欠けてしまう。
また、従来自然音声の韻律を参照する手法では、予め設定された定型文に特化しており、定型文にない任意文章については類似文も存在しない場合に規則的な手法を用いて韻律を生成するしかなかった。しかしながら、実際の自然発声では、文の内容や長さ、重要単語の位置等の様々な要因によりその表現方法は一様ではないため、規則的な手法を用いると高精度な音声合成を行うことができない。
本発明は、上述した課題に鑑みなされたものであり、韻律を生成して高精度に音声合成を行うための音声合成装置及び音声合成プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力される文章データから韻律を生成して音声を合成する音声合成装置において、前記文章データの言語解析を行う言語解析手段と、前記言語解析手段により得られる解析結果に基づいて、予め蓄積されている文章データと類似する類似文章データを抽出する類似文章抽出手段と、前記類似文章抽出手段から得られる類似文章データの文節列に基づいて、予め蓄積されている文節列と類似する文節列を抽出する類似文節列抽出手段と、前記類似文節列抽出手段により得られる文節列に基づいて韻律素片を合成する韻律素片合成手段とを有することを特徴とする。
請求項1記載の発明によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。
請求項2に記載された発明は、前記類似文章抽出手段は、文章中の係り受け関係、助詞の種類、及び重要単語の位置のうち少なくとも1つの条件に基づいて類似文章を抽出することを特徴とする。
請求項2記載の発明によれば、類似文章データの抽出時点で、文節の数やアクセント型等の局所的な特徴は考慮せず、係り受け関係、助詞の種類や重要単語の位置等の大所的な条件に基づいて検索を行い類似文章データを抽出することで、その文章の自然性を保持することができる。
請求項3に記載された発明は、前記類似文節列抽出手段は、前記類似文章データを予め設定された条件に基づいて文節列に分割し、分割した文節列に対する属性情報の類似度が所定値以上の類似文節又は類似文節列を抽出することを特徴とする。
請求項3記載の発明によれば、属性情報に基づいて類似度の高い類似文節又は類似文節列を抽出することができる。
請求項4に記載された発明は、前記類似文節列抽出手段は、前記類似度が所定値より小さい場合は、前記文節列を更に分割した文節又は文節列に基づいて、前記類似文節又は類似文節列を抽出することを特徴とする。
請求項4記載の発明によれば、長い類似文節列が抽出されやすくなる。これにより、文節間の韻律のずれ等を軽減することができる。
請求項5に記載された発明は、前記類似文節列抽出手段は、前記類似文章データから得られる係り受け関係にある文節の組に基づいて前記文節列に分割することを特徴とする。
請求項5記載の発明によれば、文章全体としての類似性が高い類似文節列を抽出することができる。
請求項6に記載された発明は、前記類似文節列抽出手段は、抽出された前記類似文節又は前記類似文節列から得られる韻律情報として、基本周波数の時系列パターン、パワーの時系列パターン、及び音韻継続時間長の時系列パターンのうち少なくとも1つを有することを特徴とする。
請求項6記載の発明によれば、時系列パターンに基づいて高精度に韻律素片を合成することができる。
請求項7に記載された発明は、前記属性情報は、音響的な属性情報として、音素の平均的な高さ、基本周波数の変動幅、強弱、及び局所的な話速のうち少なくとも1つを有することを特徴とする。
請求項7記載の発明によれば、音響的な属性情報により、高精度な韻律の生成及び音声合成を実現することができる。
請求項8に記載された発明は、前記属性情報は、文節又は文節列の属性情報として、構成する単語の音素並びの類似性、アクセント型もしくはアクセント核の位置、品詞の並び、係り受け、前記文節又は文節列に対して少なくとも1以上前もしくは後の文節又は文節列の属性情報、及び各文節位置における特徴量のうち少なくとも1つを有することを特徴とする。
請求項8記載の発明によれば、文節又は文節列の属性情報により、高精度な韻律の生成及び音声合成を実現することができる。
請求項9に記載された発明は、前記類似文節列抽出手段は、前記属性情報と、前記属性情報に含まれる付属語と、前記付属語の用法とに予め設定された重みを付加することを特徴とする。
請求項9記載の発明によれば、類似度の設定を高精度に行うことができ、類似性の高い文節列を抽出することができる。
請求項10に記載された発明は、入力される文章データから韻律を生成して音声を合成する処理をコンピュータに実行させるための音声合成プログラムにおいて、前記文章データの言語解析を行う言語解析処理と、前記言語解析処理により得られる解析結果に基づいて、予め蓄積されている文章データと類似する類似文章データを抽出する類似文章抽出処理と、前記類似文章抽出処理から得られる類似文章データの文節列に基づいて、予め蓄積されている文節列と類似する文節列を抽出する類似文節列抽出処理と、前記類似文節列抽出処理により得られる文節列に基づいて韻律素片を合成する韻律素片合成処理とをコンピュータに実行させる。
請求項10記載の発明によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。また、特別な装置構成を必要とせず、低コストで音声合成処理を実現することができる。また、プログラムをインストールすることにより、容易に音声合成処理を実現することができる。
本発明によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。
以下に本発明の特徴を有する音声合成装置及び音声合成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本発明における特許請求の範囲、明細書、要約書、及び図面に示す「類似」は、「同一」を含むものとする。
<実施形態>
図1は、本発明における音声合成装置の一構成例を示す図である。図1に示す音声合成装置10は、言語解析手段11と、類似文章抽出手段12と、韻律データベース13と、類似文節列抽出手段14と、韻律素片合成手段15とを有するよう構成されている。
言語解析手段11は、音声合成するための文章データとして読み上げたい文章データを入力し言語解析を行う。言語解析では、音素列(読み方)、単語境界、単語の品詞、アクセント型もしくはアクセント核とアクセント境界、統語関係、係り受け関係等の属性情報と特徴量を解析する。また、言語解析手段11は、上述した単語の重要度、断定・疑問・感嘆等の属性情報等を解析してもよい。
また、言語解析手段11は、入力された文章データと解析結果としての文章の属性情報及び特徴量等を類似文書検索手段12及び類似文節列抽出手段14に出力する。
類似文章抽出手段12は、言語解析手段11により得られる文章データと特徴データとから係り受け関係、助詞の種類や重要単語の位置等の少なくとも1つの言語的な属性情報に基づく大局的な条件に最も類似する類似文章データを、大規模コーパスとしての韻律データベース13を検索して抽出する。つまり、類似文章抽出手段12では、文節の数やアクセント型等の局所的な特徴は考慮せず、係り受け関係、助詞の種類や重要単語の位置等の大所的な条件に基づいて文章を検索して類似文章データを抽出する。例えば、「大きな青い家が」も「家が」も主語という点で同一であるとして検索を行い、類似文章データを抽出する。これにより、文章全体の自然性を保持することができる。なお、上述では最も類似する類似文章データを抽出しているが、本発明においてはこの限りではなく、所定値以上の類似性を有する複数の類似文章データを抽出してもよい。
ここで、韻律データベース13は、複数の文章データに対する言語的属性情報、とその文章データの発声音声を分析した音響的な属性情報、及びその特徴量等が予め蓄積されている。韻律データベース13の具体的な内容については後述する。
類似文章抽出手段12は、抽出された類似文章データを類似文節列抽出手段14及び韻律素片合成手段15に出力する。なお、上述の類似文章データには、文章データとその文章に付随する属性情報や特徴量等が含まれる。
類似文節列抽出手段14は、類似文章抽出手段12により得られる類似文章データを幾つかの文節列に分割し、各文節列の属性情報や特徴量等に基づいて韻律データベース13を検索して類似文節又は類似文節列を抽出する。なお、文節列に分割する際には、係り受け関係の組を含む形で分割することが好ましい。例えば、「大きな青い家が」の場合、「大きな」も、「青い」も、「家が」に係るため、検索する文節列は、「大きな家が」と、「青い家が」に分割する。また、検索するデータベース中の「大きな」と「家が」との間には、修飾語が含まれていることが好ましい。例えば、「大きな端の家が」と「大きな家が」がデータベース中にあった場合は、「大きな端の家が」を優先する。つまり、類似文節列抽出手段14は、検索単位は原則文節とするが、類似する文節が連続して存在する場合には長い単位で素片を検索する。これにより、文章全体としての類似性が高い類似文節列を抽出することができる。
また、類似文節列抽出手段14は、類似する文節列が韻律データベース13に存在しなかった場合、更に分割を行い前回より細分化した文節又は文節列単位での検索を行う。
なお、類似文節列抽出手段14は、上述した検索条件の他に、長い文節列を検索する段階では係り受け関係や文節数、モーラ数等を優先させ、最終的には文節の数、モーラ数、アクセント型等の局所的な特徴量等に基づいて検索を行い、類似文節又は類似文節列の候補から、予め設定される所定値以上の類似度であれば検索結果として抽出するようにする。また、予め上述した属性情報や、属性情報に含まれる付属語、その付属語の用法等に予め重みを付加しておく。これにより、重み付けに基づいて類似度の設定を高精度に行うことができ、類似性の高い類似文節又は類似文節列を抽出することができる。
つまり、上述した本実施形態における類似文節列抽出手段14では、最初に長い文節列で分割して抽出した文節列の類似度が予め設定された類似度の基準値(所定値)以上であるか否かを判断し、類似度が所定値以上でない場合は、分割する文節列を徐々に短い文節列にして検索していく。これにより、類似性が上がり、類似度が所定値以上となる類似文節又は類似文節列を抽出することができる。
なお、抽出される類似文節又は類似文節列は、属性情報や特徴量の他にも韻律情報として、基本周波数の時系列パターン、パワー(音量)の時系列パターン、及び音韻継続時間長の時系列パターンのうち少なくとも1つを有している。時系列パターンに基づいて高精度に韻律素片を合成することができる。
また、類似文節列抽出手段14は、読み上げたい文章データと、抽出された類似文節や類似文節列等の情報を韻律素片合成手段15に出力する。韻律素片合成手段15は、類似文節列抽出手段14から得られる情報から韻律素片を接続する。具体的には、類似文章から求めた大局的な情報や、平均基本周波数や基本周波数波形の振れ幅、話速、パワー等の属性情報や特徴量に各類似文節列を合わせ込むことで、韻律を生成して音声を合成して出力する。
このように、上述した音声合成装置10により、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。
<韻律データベース例>
次に、上述した韻律データベース13の例について説明する。図2は、韻律データベースの一例を示す図である。なお、図2では、「向かいの黒い家に犬がいる。」という文章データを例に説明するが、このような文章が予め韻律データベース13に多数蓄積されている。
ここで、韻律データベース13の構成としては、「形態素」、「音素」、「品詞(の種類)」、「文節(の種類)」、「係り受け」、「節(の種類)」、「文(の種類)」等の属性情報からなる。なお、図2に示す「係り受け」における0〜4の数字は、1つの文章を文節毎に区切った際の各文節番号を示したものであり、矢印は前の文節番号の文節がどの文節番号に係るかを示すものである。
例えば、図2において文節「向かいの」における係り受け関係「0→2」は、文節番号0の文節(「向かいの」)が文節番号2の文節(「家に」)に係っていることを示している。
また、上述以外の属性情報としては、音響的な属性情報として、音素の平均的な高さ、基本周波数の変動幅、強弱、及び局所的な話速や、文節又は文節列の属性情報として、構成する単語の音素並びの類似性、アクセント型もしくはアクセント核の位置、品詞の並び、係り受け、前記文節又は文節列に対して少なくとも1以上前もしくは後の文節又は文節列の属性情報、及び各文節位置における特徴量を有する。これらの属性情報等に基づいて検索することにより、高精度な韻律の生成及び音声合成を実現することができる。
上述した類似文章抽出手段12及び類似文節列抽出手段14は、上述した韻律データベース13に蓄積されている各種情報に基づいて最も類似する文章を検索する。なお、類似文章の検索としては、文の種類、節(主語+述語を中心としたまとまり)の種類、文節の種類、品詞の種類等に基づいて検索を行う。
ここで、具体的に文の種類としては、単文(例えば、主語+主語等)、複文(例えば、主語+従属節+述語節等)、重文(例えば、主語+並列節+述語説等)、分化文(例えば、主語+述語等)、又は未分化文(例えば体言止め等)等がある。
また、節の種類としては、文末の述語を中心とした節からなる主節(述語説)のモダリティ(発話時における話者の心的態度を叙述したもの)が、例えば、確信、疑問、命令、禁止、許可、依頼、当偽、概言、否定、説明、比況、忠告、申告、又は願望等がある。また、主語節(主語の含む節)、補足節(名詞相当表現+格助詞)、引用節(〜と、〜のように等)、述語を修飾、文全体を修飾する副詞節(連用修飾節)、時(〜ときに、のち等)、原因・理由(〜ので等)、条件・譲歩(〜なら等)、様態(〜まま、つつ等)、逆説(〜けれども、のに等)、目的(〜ために、のに等)、程度(〜くらい等)、名詞を修飾する連体節(連体修飾節、主節に対して対等(並列節)もしくは従属(従属節)の関係接続説)、名詞句(修飾語+名詞+助詞(名詞修飾:連体詞、形容詞、動詞基本形)、又は名詞の並列(総記、例示、累加、選択))等がある。
また、文節の種類としては、自立語+付属語(具体的意味が壊れない程度に言語として不自然でない最小単位)として、体言、用言、連体修飾語、連用修飾語、主語、述語、補足語等がある。
また、品詞の種類としては、動詞、形容詞、判定詞、助動詞、名詞(抽象名詞、人、動物、数字等)、指示詞、副詞、助詞(例えば、格助詞、終助詞等)、連体詞、接続詞、感動詞等がある。
上述したデータベースに基づいて、属性情報のどれに該当するかを検索し、また類似度が所定値以上の文章又は文節列(文節)を抽出する。また、上述した属性情報と、その属性情報に含まれる付属語と、その付属語の用法とに予め設定された重みを付加しておく。これにより、重要単語等を設定することができ、その内容に基づいて類似度の設定を高精度に行うことができ、類似性の高い文章や文節列を抽出することができる。
<検索手法例>
次に、文章及び文節列の検索手法例について具体的に説明する。図3は、文章及び文節列の検索手法の一例を示す図である。なお、図3は、「向かいの黒い家に犬がいる。」という入力文章データの係り受け解析の結果を基に作成した木構造の一例を示している。
ここで、上述の文章データは、図2に示す係り受け関係(文節0〜文節4)が成立し、図3(a)に示す木構造となる。そこで、本実施形態おいて、文章を検索する場合は、第1段目(文節2,3→4)の木構造の類似度、つまり、係り先や節、文節について構造の類似性を検索する。
具体的には、文節2は、文節4に係り主節、連用修飾語で「名詞(場所)」+格助詞(に)」であり、また文節3は、文節4に係り主節、主語で「名詞(動物)+格助詞(が)」である。そのため、このような木構造と一致する文章又は文節列を韻律データベース13から検索する。
ここで、抽出される候補となる文章あった場合は、第2段目(文節0,1→2)を検索する。また候補がなかった場合は、それぞれの文節毎の類似度や、品詞。アクセント型、音素等の局所的な属性情報に基づいて、最も類似する文章データを検索する。また、このようにして最終段まで検索して時点で最も類似する文章データを検索する。
また、係り受けの木構造を図3(b)に示すように第1段目で分離(このとき、係り先も保持する)し、この木構造に対して上述と同様に類似する文節列を検索する。このようにして、韻律データベース13との検索を行う。
<韻律生成例>
次に、上述した音声合成装置10を用いた具体的な韻律の生成及び音声合成例について図を用いて説明する。図4は、本実施形態における韻律生成及び音声合成の具体例を示す図である。
図4において、読み上げたい文章の一例を「向かいの黒い家に犬がいる。」とする。この文章は、言語解析手段11により「(1)場所+に(3)」と、「(2)何か+が(3)」と、「(3)いる。」とに構文解析される(なお、上述のカッコ内の数字は文節番号を示し、プラス(+)の前後で係り受けの関係であることを示している。)。
ここで、類似文章抽出手段12により、韻律データベース13を参照して類似する文章を検索した結果、「球場にサッカー選手がいる。」という類似文章が得られたとする。類似文章抽出手段12は、この文章を類似文節列抽出手段14に出力する。
類似文節列抽出手段14は、入力された文章データから韻律データベース13に基づいて、「何かがいる。」という文節列を検索する。
検索の結果、「犬がいる。」という文節列が抽出された場合に上述した構文解析結果のうち、「(2)何か+が(3)」と、「(3)いる。」の部分の検索は終了する。
次に、「向かいの」、「黒い」、及び「家に」に対応する文節列について、「(1)連体修飾格(名詞+の(助詞))(3)」、「(2)形容詞(3)」、及び「(3)場所(名詞)+に(助詞)」を満たす文節列を検索する。ここで、検索した結果、類似する文節列がなかったとする。この場合、類似文節列抽出手段14は、文節列の分割を行う。
図5は、分割される文節の一例を説明するための図である。図5(a)に示すように、1つの文章はフレーズ(句読点)毎や、文節列、文節に分割することができる。なお、分割する際には、例えば係り受け関係の組を含む形を基準として分割することが好ましい。
そのため、図5(b)に示すように、「A」、「B」、「C」からなる文章や文節列等を「AとB」、「AとC」に分割したり、「AとC」、「BとC」に分割する。すなわち、上述の「向かいの黒い家に」において、「向かいの」は「家に」に係るので、「向かいの家に」を検索する文節列とする。また、「黒い」も「家に」に係るので、「黒い家に」を検索する文節列とする。
類似文節列抽出手段14は、上述のように分割された文節列に基づいて、韻律データベース13を検索する。ここで、検索の結果、それぞれ「向こうの丘に」と「広い池に」とが抽出されたとする。なお、1つの検索文字列について、抽出される文字列は1つに限定されず、複数抽出される場合もある。
上述の手順により、全ての文節列に対して少なくとも1つの候補が抽出されると、韻律素片合成手段15において、各候補に対応する韻律素片を全体の文章に合わせ込む(合成する。)。
図6は、本実施形態における各韻律素片の合成の一例を示す図である。まず、図6(a)に示すように「向こうの丘に」の「丘に」と、「広い池に」の「池に」との韻律的な特徴である基本周波数の平均値・振幅、話速、パワー等が合うように、「向こうの丘に」全体の韻律を調整し、高精度な韻律を生成する。なお、韻律の調整には、類似文節又は類似文節列から得られる上述した韻律情報(基本周波数の時系列パターン、パワーの時系列パターン、及び音韻継続時間長の時系列パターン)に基づいて、基本周波数の平均値・振幅、話速、パワー等の調整を行い韻律を生成する。
例えば、図6(a)に示す例では、文節毎の調整として、平均周波数の調整、話速の調整、及び基本周波数の振れ幅の調整を行う。つまり、「向こうの広い」の「広い」の平均基本周波数を「広い池に」の基本周波数に合わすよう調整し、また、「丘に」の話速と「池に」の話速を調整し、更に、「丘に」の基本周波数の振れ幅と「池に」の基本周波数の振れ幅を調整する。なお、上記の調整における順序や内容については、本発明においては特に限定されない。
これにより、「向こうの」と「広い池に」とを合成することで、「向こうの広い池に」という文節列ができる。また、同様に「向こうの広い池に」の「池に」と、「球場にサッカー選手がいる。」の「球場に」との基本周波数の平均値・振幅、話速、パワー等を合わせることで、「向こうの広い池にサッカー選手がいる。」という合成された音声が生成される。更に「犬が」の特徴を「サッカー選手が」に合成することで、「向こうの広い池に犬がいる。」という合成された音声が生成される。
次に、図5(b)に示すように、各音素の時間長を韻律情報における音韻継続時間長の時系列パターンや、予め設定される音韻継続時間長の変換テーブル等に基づいて変換することで「向かいの黒い家に犬がいる。」という読み上げ文章に適した合成音声(韻律パターン)が生成されることになる。
上述したように、本実施形態によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。
ここで、本発明における音声合成装置は、上述した専用の装置構成等を用いて本発明における音声合成を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にそのプログラムをインストールすることにより、上述した音声合成を実現することができる。
<ハードウェア構成例>
ここで、本発明における音声合成処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図7は、本発明における音声合成処理が実現可能なハードウェア構成の一例を示す図である。
図7におけるコンピュータ本体には、入力装置71と、出力装置72と、ドライブ装置73と、補助記憶装置74と、メモリ装置75と、各種制御を行うCPU(Central Processing Unit)76と、ネットワーク接続装置77とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置71は、ユーザが操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置72は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイ(モニタ)を有し、CPU76が有する制御プログラムにより音声合成処理における実行経過や結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体78等により提供される。プログラムを記録した記録媒体78は、ドライブ装置73にセット可能であり、記録媒体78に含まれる実行プログラムが、記録媒体78からドライブ装置73を介して補助記憶装置74にインストールされる。
補助記憶装置74は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
CPU76は、OS(Operating System)等の制御プログラム、及びメモリ装置75により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、音声合成処理における各処理を実現することができる。プログラムの実行中に必要な各種情報等は、補助記憶装置74から取得することができ、また格納することもできる。
ネットワーク接続装置77は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した音声合成処理を実現することができる。また、プログラムをインストールすることにより、容易に音声合成処理を実現することができる。
<音声合成処理手順>
次に、実行プログラムにおける処理手順についてフローチャートを用いて説明する。図8は、本発明における音声合成処理の一例を示すフローチャートである。
まず、韻律を生成するための読み上げたい文章データを入力し(S01)、入力した文章データに対して係り受け関係や単語の品詞、アクセント、統語関係等の言語解析を行う(言語解析処理)(S02)。
次に、S02にて得られる解析情報に基づいて、予め蓄積されている文章中かから最も類似する類似文章を抽出する(類似文章抽出処理)(S03)。なお、この時点では、文節の数やアクセント型等の局所的な特徴は考慮せず、係り受け関係、助詞の種類や重要単語の位置等の大所的な条件に基づいて文章を検索して類似文章データの抽出を行う。
次に、S03にて得られた類似文章データを少なくとも1つの文節列に分割し(S04)、各文節列における属性情報に基づいて予め蓄積されている文節列データから類似文節又は類似文節列を抽出する(類似文節列抽出処理)(S05)。なお、分割する際には、例えば係り受け関係の組を含む形で分割することが好ましい。
ここで、抽出した文節列の類似度が予め設定された類似度の基準値(所定値)以上であるか否かを判断する(S06)。類似度が所定値以上ではない場合(S06において、NO)、S04に戻り、前回とは異なる分割を行ってS06までの処理を行う。このとき、最初に長い文節列で分割して類似度を判断し、類似度が所定値以上ではない場合に徐々に短い文節列に分割していく。これにより類似性が上がり、何れ類似度が所定値以上となる。
また、S06において、類似度が所定値以上である場合(S06において、YES)、類似文章中で分割された全ての文節列について、類似文節列の候補が得られたか否かを判断する(S07)。分割された全ての文節列について候補が得られていない場合(S07において、NO)、S04に戻り、候補が得られていない部分についてS04〜S06までの処理を行う。
また、類似文章中で分割された全ての文節列の候補が得られている場合(S07において、YES)、韻律素片の合成を行う(韻律素片合成処理)(S08)。例えば、上述したように類似文章から求めた大局的な情報、平均基本周波数や基本周波数波形の振れ幅、話速、パワー等に各文節列を合わせ込むことで、韻律を生成し音声を合成する。その後、合成された音声を出力し(S09)、処理を終了する。
このように、上述した音声合成プログラムを用いることにより、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。また、本発明における音声合成プログラムをインストールすることにより、容易に音声合成処理を実現することができる。
上述したように本発明によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。これにより、抑揚やリズムが自然で肉声に近い合成音声を生成することができる。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における音声合成装置の一構成例を示す図である。 韻律データベースの一例を示す図である。 文章及び文節列の検索手法の一例を示す図である。 本実施形態における韻律生成及び音声合成の具体例を示す図である。 分割される文節の一例を説明するための図である。 本実施形態における各韻律素片の合成の一例を示す図である。 本発明における音声合成処理が実現可能なハードウェア構成の一例を示す図である。 本発明における音声合成処理の一例を示すフローチャートである。
符号の説明
10 音声合成装置
11 言語解析手段
12 類似文章抽出手段
13 韻律データベース
14 類似文節列抽出手段
15 韻律素片合成手段
71 入力装置
72 出力装置
73 ドライブ装置
74 補助記憶装置
75 メモリ装置
76 CPU
77 ネットワーク接続装置
78 記録媒体

Claims (10)

  1. 入力される文章データから韻律を生成して音声を合成する音声合成装置において、
    前記文章データの言語解析を行う言語解析手段と、
    前記言語解析手段により得られる解析結果に基づいて、予め蓄積されている文章データと類似する類似文章データを抽出する類似文章抽出手段と、
    前記類似文章抽出手段から得られる類似文章データの文節列に基づいて、予め蓄積されている文節列と類似する文節列を抽出する類似文節列抽出手段と、
    前記類似文節列抽出手段により得られる文節列に基づいて韻律素片を合成する韻律素片合成手段とを有することを特徴とする音声合成装置。
  2. 前記類似文章抽出手段は、
    文章中の係り受け関係、助詞の種類、及び重要単語の位置のうち少なくとも1つの条件に基づいて前記類似文章データを抽出することを特徴とする請求項1に記載の音声合成装置。
  3. 前記類似文節列抽出手段は、
    前記類似文章データを予め設定された条件に基づいて文節列に分割し、分割した文節列に対する属性情報の類似度が所定値以上の類似文節又は類似文節列を抽出することを特徴とする請求項1又は2に記載の音声合成装置。
  4. 前記類似文節列抽出手段は、
    前記類似度が所定値より小さい場合は、前記文節列を更に分割した文節又は文節列に基づいて、前記類似文節又は類似文節列を抽出することを特徴とする請求項3に記載の音声合成装置。
  5. 前記類似文節列抽出手段は、
    前記類似文章データから得られる係り受け関係にある文節の組に基づいて前記文節列に分割することを特徴とする請求項1乃至4の何れか1項に記載の音声合成装置。
  6. 前記類似文節列抽出手段は、
    抽出された前記類似文節又は前記類似文節列から得られる韻律情報として、基本周波数の時系列パターン、パワーの時系列パターン、及び音韻継続時間長の時系列パターンのうち少なくとも1つを有することを特徴とする請求項1乃至5の何れか1項に記載の音声合成装置。
  7. 前記属性情報は、
    音響的な属性情報として、音素の平均的な高さ、基本周波数の変動幅、強弱、及び局所的な話速のうち少なくとも1つを有することを特徴とする請求項3に記載の音声合成装置。
  8. 前記属性情報は、
    文節又は文節列の属性情報として、構成する単語の音素並びの類似性、アクセント型もしくはアクセント核の位置、品詞の並び、係り受け、前記文節又は文節列に対して少なくとも1以上前もしくは後の文節又は文節列の属性情報、及び各文節位置における特徴量のうち少なくとも1つを有することを特徴とする請求項3に記載の音声合成装置。
  9. 前記類似文節列抽出手段は、
    前記属性情報と、前記属性情報に含まれる付属語と、前記付属語の用法とに予め設定された重みを付加することを特徴とする請求項3乃至8の何れか1項に記載の音声合成装置。
  10. 入力される文章データから韻律を生成して音声を合成する処理をコンピュータに実行させるための音声合成プログラムにおいて、
    前記文章データの言語解析を行う言語解析処理と、
    前記言語解析処理により得られる解析結果に基づいて、予め蓄積されている文章データと類似する類似文章データを抽出する類似文章抽出処理と、
    前記類似文章抽出処理から得られる類似文章データの文節列に基づいて、予め蓄積されている文節列と類似する文節列を抽出する類似文節列抽出処理と、
    前記類似文節列抽出処理により得られる文節列に基づいて韻律素片を合成する韻律素片合成処理とをコンピュータに実行させるための音声合成プログラム。
JP2005025498A 2005-02-01 2005-02-01 音声合成装置及び音声合成プログラム Expired - Fee Related JP4575798B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005025498A JP4575798B2 (ja) 2005-02-01 2005-02-01 音声合成装置及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005025498A JP4575798B2 (ja) 2005-02-01 2005-02-01 音声合成装置及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2006215109A true JP2006215109A (ja) 2006-08-17
JP4575798B2 JP4575798B2 (ja) 2010-11-04

Family

ID=36978419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005025498A Expired - Fee Related JP4575798B2 (ja) 2005-02-01 2005-02-01 音声合成装置及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4575798B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013073275A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 文書マークアップ支援装置、方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056788A (ja) * 1998-08-03 2000-02-25 Hitachi Ltd 音声合成装置の韻律制御方法
JP2001084250A (ja) * 1999-08-26 2001-03-30 Internatl Business Mach Corp <Ibm> 膨大な文書データからの知識抽出方法、その装置及び媒体
JP2004029380A (ja) * 2002-06-26 2004-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声付文章作成方法、音声再生方法、音声付文章作成装置、音声再生装置、音声付文章作成プログラム、音声再生プログラム
JP2004151527A (ja) * 2002-10-31 2004-05-27 Mitsubishi Electric Corp 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム
JP2005025257A (ja) * 2003-06-30 2005-01-27 National Institute Of Information & Communication Technology 言い換えを利用した文章作成支援処理プログラム、文章作成支援処理プログラム記録媒体、および文章作成支援処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056788A (ja) * 1998-08-03 2000-02-25 Hitachi Ltd 音声合成装置の韻律制御方法
JP2001084250A (ja) * 1999-08-26 2001-03-30 Internatl Business Mach Corp <Ibm> 膨大な文書データからの知識抽出方法、その装置及び媒体
JP2004029380A (ja) * 2002-06-26 2004-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声付文章作成方法、音声再生方法、音声付文章作成装置、音声再生装置、音声付文章作成プログラム、音声再生プログラム
JP2004151527A (ja) * 2002-10-31 2004-05-27 Mitsubishi Electric Corp 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム
JP2005025257A (ja) * 2003-06-30 2005-01-27 National Institute Of Information & Communication Technology 言い換えを利用した文章作成支援処理プログラム、文章作成支援処理プログラム記録媒体、および文章作成支援処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013073275A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 文書マークアップ支援装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP4575798B2 (ja) 2010-11-04

Similar Documents

Publication Publication Date Title
US8036894B2 (en) Multi-unit approach to text-to-speech synthesis
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Watts Unsupervised learning for text-to-speech synthesis
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
Ogawa et al. Tohoku kiritan singing database: A singing database for statistical parametric singing synthesis using japanese pop songs
Fackrell et al. Multilingual prosody modelling using cascades of regression trees and neural networks
Bulyko et al. Efficient integrated response generation from multiple targets using weighted finite state transducers
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP4004376B2 (ja) 音声合成装置、音声合成プログラム
JP4575798B2 (ja) 音声合成装置及び音声合成プログラム
Garner et al. Translation and prosody in Swiss languages
Nandutu et al. Luganda text-to-speech machine
JP4542400B2 (ja) 韻律生成装置及び韻律生成プログラム
Schultz et al. Flexible speech translation systems
JP2004246140A (ja) テキスト選択方法、装置及びプログラム
JP2000056788A (ja) 音声合成装置の韻律制御方法
JP2004271615A (ja) 情報処理装置
JP3821131B2 (ja) 音声合成装置および音声合成方法
Cabral et al. The ADAPT entry to the Blizzard Challenge 2016
Mihkla et al. Development of a unit selection TTS system for Estonian
Allen Speech synthesis from text
Gardini Data preparation and improvement of NLP software modules for parametric speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100820

R150 Certificate of patent or registration of utility model

Ref document number: 4575798

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140827

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees