JP4575798B2

JP4575798B2 - 音声合成装置及び音声合成プログラム

Info

Publication number: JP4575798B2
Application number: JP2005025498A
Authority: JP
Inventors: 訓史大出; 篤今井; 徹都木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-02-01
Filing date: 2005-02-01
Publication date: 2010-11-04
Anticipated expiration: 2025-02-01
Also published as: JP2006215109A

Description

本発明は、音声合成装置及び音声合成プログラムに係り、特に、韻律を生成して高精度に音声合成を行うための音声合成装置及び音声合成プログラムに関する。

従来、入力されるテキスト文章データに音声を合成する手法としては、入力されたテキストと、読み情報やアクセント情報等を有する形態素辞書との照合を行い、基本周波数パターンや音素の継続時間長等の韻律パラメータを規則的に求めるものがある（例えば、非特許文献１参照。）。

また、韻律の自然性を高めるため、アクセント句等の単位で自然音声のアクセント型、モーラ数、品詞の組、係り受け情報、呼気段落の位置等の条件でクラスタリングされた基本周波数の平均パターンもしくは代表パターンを韻律パターンとして保持し、前後の文節情報や構文構造を基に韻律パターンを接続する手法もある（例えば、非特許文献２参照。）。

更に、文章を自然発声した音声の韻律パラメータを用いたものとしては、定型文を用いたもの（例えば、非特許文献３参照。）や、類似する文章を用いたもの（例えば、特許文献１参照。）がある。
江藤雅哉他，「生成過程モデルと統計的手法による基本周波数パターンの生成」，電子情報通信学会，ＳＰ２００１−１５（２００１−５），ｐｐ．１−８．籠嶋岳彦他，「代表パターンコードブックを用いた基本周波数制御法」，電子情報通信学会論文誌，Ｄ−ＩＩＶＯＬ．Ｊ８５−Ｄ−ＩＩＮｏ．６２００２年６月，ｐｐ．９７６−９８６．片江伸之他，「文型−韻律データベースを用いた定型文音声合成システム」，日本音響学会講演論文集，平成８年３月，ｐｐ．２７５−２７６．特開平１１−２４９６７７号公報

ところで、従来からある韻律データベースを用いた韻律生成手法では、例えば文節やアクセント句毎に基本周波数パターンを求め、また音素毎に継続時間長を求める等、基本周波数パターンと音素の継続時間長とをそれぞれ独立に求めている。

しかしながら、このような自然音声の一部を利用して文章全体の韻律パラメータを生成した場合、部分的には自然であっても、文章全体としては自然性に欠けてしまう。

また、従来自然音声の韻律を参照する手法では、予め設定された定型文に特化しており、定型文にない任意文章については類似文も存在しない場合に規則的な手法を用いて韻律を生成するしかなかった。しかしながら、実際の自然発声では、文の内容や長さ、重要単語の位置等の様々な要因によりその表現方法は一様ではないため、規則的な手法を用いると高精度な音声合成を行うことができない。

本発明は、上述した課題に鑑みなされたものであり、韻律を生成して高精度に音声合成を行うための音声合成装置及び音声合成プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力される文章データから韻律を生成して音声を合成する音声合成装置において、前記入力される文章データに対する属性情報及び特徴量を言語解析により取得する言語解析手段と、前記言語解析手段により得られる解析結果に含まれる前記属性情報を用いて、予め複数の文章データと、該複数の文章データに対する属性情報及び特徴量とが蓄積されている韻律データベースから、前記入力される文章データに対する属性情報に類似する類似文章データを抽出する類似文章抽出手段と、前記類似文章抽出手段から得られる類似文章データと前記入力される文章データとを文節列に分割し、分割された各文節列に対する属性情報及び特徴量を用いて、前記韻律データベースから前記文節列に類似する文節列を抽出する類似文節列抽出手段と、前記類似文節列抽出手段により得られる文節列の韻律素片を、前記類似文章データに対する文節列の韻律情報に基づいて調整し、前記入力される文章データに対する文節列の順序に基づいて接続して、前記入力された文章データに対する韻律パターンを出力する韻律素片合成手段とを有し、前記類似文節列抽出手段は、最初に、前記類似文章データから分割された各文節列に対する属性情報及び特徴量と、前記入力される文章データから分割された各文節列に対する属性情報及び特徴量とを比較し、前記類似文章データから得られる文節列中に、前記入力される文章データから得られる文節列に類似する文節列が存在しなかった場合に、存在しなかった文節列に対応する前記入力された文章データの文節列から、係り受け関係にある文節の集合を、前記文節の係り側又は受け側の文節が重複するように分割し、分割された各文節列に対する属性情報及び特徴量を用いて前記韻律データベースを検索することを特徴とする。

請求項１記載の発明によれば、類似文章データから得られる韻律パターンを用いることで、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。また、係り受け関係にある文節の組を重複するように分割することで、文章全体としての類似性が高い類似文節列を抽出することができる。また、重複した類似文節列に対応する韻律素片を類似文章データから得られる韻律パターンと合うように調整することで、韻律素片をなめらかに接続することが可能になる。

請求項２に記載された発明は、前記類似文章抽出手段は、前記入力される文章データ中の係り受け関係、助詞の種類、及び重要単語の位置を含む前記属性情報のうち少なくとも１つの条件に基づいて前記類似文章データを抽出することを特徴とする。

請求項２記載の発明によれば、類似文章データの抽出時点で、文節の数やアクセント型等の局所的な特徴は考慮せず、係り受け関係、助詞の種類や重要単語の位置等の大所的な条件に基づいて検索を行い類似文章データを抽出することで、その文章の自然性を保持することができる。

請求項３に記載された発明は、前記類似文節列抽出手段は、前記類似文章データを予め設定された条件に基づいて文節列に分割し、分割した文節列に対する属性情報の類似度が所定値以上の類似文節又は類似文節列を抽出することを特徴とする。

請求項３記載の発明によれば、属性情報に基づいて類似度の高い類似文節又は類似文節列を抽出することができる。

請求項４に記載された発明は、前記類似文節列抽出手段は、前記類似度が所定値より小さい場合は、前記文節列を更に分割した文節又は文節列に基づいて、前記類似文節又は類似文節列を抽出することを特徴とする。

請求項４記載の発明によれば、長い類似文節列が抽出されやすくなる。これにより、文節間の韻律のずれ等を軽減することができる。

請求項５に記載された発明は、前記類似文節列抽出手段は、抽出された前記類似文節又は前記類似文節列から得られる韻律情報として、基本周波数の時系列パターン、パワーの時系列パターン、及び音韻継続時間長の時系列パターンのうち少なくとも１つを有することを特徴とする。

請求項５記載の発明によれば、時系列パターンに基づいて高精度に韻律素片を合成することができる。

請求項６に記載された発明は、前記属性情報は、音響的な属性情報として、音素の平均的な高さ、基本周波数の変動幅、強弱、及び局所的な話速のうち少なくとも１つを有することを特徴とする。

請求項６記載の発明によれば、音響的な属性情報により、高精度な韻律の生成及び音声合成を実現することができる。

請求項７に記載された発明は、前記属性情報は、文節又は文節列の属性情報として、構成する単語の音素並びの類似性、アクセント型もしくはアクセント核の位置、品詞の並び、係り受け、前記文節又は文節列に対して少なくとも１以上前もしくは後の文節又は文節列の属性情報、及び各文節位置における特徴量のうち少なくとも１つを有することを特徴とする。

請求項７記載の発明によれば、文節又は文節列の属性情報により、高精度な韻律の生成及び音声合成を実現することができる。

請求項８に記載された発明は、前記類似文節列抽出手段は、前記属性情報と、前記属性情報に含まれる付属語と、前記付属語の用法とに予め設定された重みを付加することを特徴とする。

請求項８記載の発明によれば、類似度の設定を高精度に行うことができ、類似性の高い文節列を抽出することができる。

請求項９に記載された発明は、入力される文章データから韻律を生成して音声を合成する音声合成プログラムにおいて、コンピュータを、前記入力される文章データに対する属性情報及び特徴量を言語解析により取得する言語解析手段、前記言語解析手段により得られる解析結果に含まれる前記属性情報を用いて、予め複数の文章データと、該複数の文章データに対する属性情報及び特徴量とが蓄積されている韻律データベースから、前記入力される文章データに対する属性情報に類似する類似文章データを抽出する類似文章抽出手段、前記類似文章抽出手段から得られる類似文章データと前記入力される文章データとを文節列に分割し、分割された各文節列に対する属性情報及び特徴量を用いて、前記韻律データベースから前記文節列に類似する文節列を抽出する類似文節列抽出手段、及び、前記類似文節列抽出手段により得られる文節列の韻律素片を、前記類似文章データに対する文字列の韻律情報に基づいて調整し、前記入力される文章データに対する文節列の順序に基づいて接続して、前記入力された文章データに対する韻律パターンを出力する韻律素片合成手段として機能させ、前記類似文節列抽出手段は、最初に、前記類似文章データから分割された各文節列に対する属性情報及び特徴量と、前記入力される文章データから分割された各文節列に対する属性情報及び特徴量とを比較し、前記類似文章データから得られる文節列中に、前記入力される文章データから得られる文節列に類似する文節列が存在しなかった場合に、存在しなかった文節列に対応する前記入力された文章データの文節列から、係り受け関係にある文節の集合を、前記文節の係り側又は受け側の文節が重複するように分割し、分割された各文節列に対する属性情報及び特徴量を用いて前記韻律データベースを検索することを特徴とする。

請求項９記載の発明によれば、類似文章データから得られる韻律パターンを用いることで、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。また、係り受け関係にある文節の組を重複するように分割することで、文章全体としての類似性が高い類似文節列を抽出することができる。また、重複した類似文節列に対応する韻律素片を類似文章データから得られる韻律パターンと合うように調整することで、韻律素片をなめらかに接続することが可能になる。また、特別な装置構成を必要とせず、低コストで音声合成処理を実現することができる。また、プログラムをインストールすることにより、容易に音声合成処理を実現することができる。

本発明によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。

以下に本発明の特徴を有する音声合成装置及び音声合成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本発明における特許請求の範囲、明細書、要約書、及び図面に示す「類似」は、「同一」を含むものとする。

＜実施形態＞
図１は、本発明における音声合成装置の一構成例を示す図である。図１に示す音声合成装置１０は、言語解析手段１１と、類似文章抽出手段１２と、韻律データベース１３と、類似文節列抽出手段１４と、韻律素片合成手段１５とを有するよう構成されている。

言語解析手段１１は、音声合成するための文章データとして読み上げたい文章データを入力し言語解析を行う。言語解析では、音素列（読み方）、単語境界、単語の品詞、アクセント型もしくはアクセント核とアクセント境界、統語関係、係り受け関係等の属性情報と特徴量を解析する。また、言語解析手段１１は、上述した単語の重要度、断定・疑問・感嘆等の属性情報等を解析してもよい。

また、言語解析手段１１は、入力された文章データと解析結果としての文章の属性情報及び特徴量等を類似文書検索手段１２及び類似文節列抽出手段１４に出力する。

類似文章抽出手段１２は、言語解析手段１１により得られる文章データと特徴データとから係り受け関係、助詞の種類や重要単語の位置等の少なくとも１つの言語的な属性情報に基づく大局的な条件に最も類似する類似文章データを、大規模コーパスとしての韻律データベース１３を検索して抽出する。つまり、類似文章抽出手段１２では、文節の数やアクセント型等の局所的な特徴は考慮せず、係り受け関係、助詞の種類や重要単語の位置等の大所的な条件に基づいて文章を検索して類似文章データを抽出する。例えば、「大きな青い家が」も「家が」も主語という点で同一であるとして検索を行い、類似文章データを抽出する。これにより、文章全体の自然性を保持することができる。なお、上述では最も類似する類似文章データを抽出しているが、本発明においてはこの限りではなく、所定値以上の類似性を有する複数の類似文章データを抽出してもよい。

ここで、韻律データベース１３は、複数の文章データに対する言語的属性情報、とその文章データの発声音声を分析した音響的な属性情報、及びその特徴量等が予め蓄積されている。韻律データベース１３の具体的な内容については後述する。

類似文章抽出手段１２は、抽出された類似文章データを類似文節列抽出手段１４及び韻律素片合成手段１５に出力する。なお、上述の類似文章データには、文章データとその文章に付随する属性情報や特徴量等が含まれる。

類似文節列抽出手段１４は、類似文章抽出手段１２により得られる類似文章データを幾つかの文節列に分割し、各文節列の属性情報や特徴量等に基づいて韻律データベース１３を検索して類似文節又は類似文節列を抽出する。なお、文節列に分割する際には、係り受け関係の組を含む形で分割することが好ましい。例えば、「大きな青い家が」の場合、「大きな」も、「青い」も、「家が」に係るため、検索する文節列は、「大きな家が」と、「青い家が」に分割する。また、検索するデータベース中の「大きな」と「家が」との間には、修飾語が含まれていることが好ましい。例えば、「大きな端の家が」と「大きな家が」がデータベース中にあった場合は、「大きな端の家が」を優先する。つまり、類似文節列抽出手段１４は、検索単位は原則文節とするが、類似する文節が連続して存在する場合には長い単位で素片を検索する。これにより、文章全体としての類似性が高い類似文節列を抽出することができる。

また、類似文節列抽出手段１４は、類似する文節列が韻律データベース１３に存在しなかった場合、更に分割を行い前回より細分化した文節又は文節列単位での検索を行う。

なお、類似文節列抽出手段１４は、上述した検索条件の他に、長い文節列を検索する段階では係り受け関係や文節数、モーラ数等を優先させ、最終的には文節の数、モーラ数、アクセント型等の局所的な特徴量等に基づいて検索を行い、類似文節又は類似文節列の候補から、予め設定される所定値以上の類似度であれば検索結果として抽出するようにする。また、予め上述した属性情報や、属性情報に含まれる付属語、その付属語の用法等に予め重みを付加しておく。これにより、重み付けに基づいて類似度の設定を高精度に行うことができ、類似性の高い類似文節又は類似文節列を抽出することができる。

つまり、上述した本実施形態における類似文節列抽出手段１４では、最初に長い文節列で分割して抽出した文節列の類似度が予め設定された類似度の基準値（所定値）以上であるか否かを判断し、類似度が所定値以上でない場合は、分割する文節列を徐々に短い文節列にして検索していく。これにより、類似性が上がり、類似度が所定値以上となる類似文節又は類似文節列を抽出することができる。

なお、抽出される類似文節又は類似文節列は、属性情報や特徴量の他にも韻律情報として、基本周波数の時系列パターン、パワー（音量）の時系列パターン、及び音韻継続時間長の時系列パターンのうち少なくとも１つを有している。時系列パターンに基づいて高精度に韻律素片を合成することができる。

また、類似文節列抽出手段１４は、読み上げたい文章データと、抽出された類似文節や類似文節列等の情報を韻律素片合成手段１５に出力する。韻律素片合成手段１５は、類似文節列抽出手段１４から得られる情報から韻律素片を接続する。具体的には、類似文章から求めた大局的な情報や、平均基本周波数や基本周波数波形の振れ幅、話速、パワー等の属性情報や特徴量に各類似文節列を合わせ込むことで、韻律を生成して音声を合成して出力する。

このように、上述した音声合成装置１０により、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。

＜韻律データベース例＞
次に、上述した韻律データベース１３の例について説明する。図２は、韻律データベースの一例を示す図である。なお、図２では、「向かいの黒い家に犬がいる。」という文章データを例に説明するが、このような文章が予め韻律データベース１３に多数蓄積されている。

ここで、韻律データベース１３の構成としては、「形態素」、「音素」、「品詞（の種類）」、「文節（の種類）」、「係り受け」、「節（の種類）」、「文（の種類）」等の属性情報からなる。なお、図２に示す「係り受け」における０〜４の数字は、１つの文章を文節毎に区切った際の各文節番号を示したものであり、矢印は前の文節番号の文節がどの文節番号に係るかを示すものである。

例えば、図２において文節「向かいの」における係り受け関係「０→２」は、文節番号０の文節（「向かいの」）が文節番号２の文節（「家に」）に係っていることを示している。

また、上述以外の属性情報としては、音響的な属性情報として、音素の平均的な高さ、基本周波数の変動幅、強弱、及び局所的な話速や、文節又は文節列の属性情報として、構成する単語の音素並びの類似性、アクセント型もしくはアクセント核の位置、品詞の並び、係り受け、前記文節又は文節列に対して少なくとも１以上前もしくは後の文節又は文節列の属性情報、及び各文節位置における特徴量を有する。これらの属性情報等に基づいて検索することにより、高精度な韻律の生成及び音声合成を実現することができる。

上述した類似文章抽出手段１２及び類似文節列抽出手段１４は、上述した韻律データベース１３に蓄積されている各種情報に基づいて最も類似する文章を検索する。なお、類似文章の検索としては、文の種類、節（主語＋述語を中心としたまとまり）の種類、文節の種類、品詞の種類等に基づいて検索を行う。

ここで、具体的に文の種類としては、単文（例えば、主語＋主語等）、複文（例えば、主語＋従属節＋述語節等）、重文（例えば、主語＋並列節＋述語説等）、分化文（例えば、主語＋述語等）、又は未分化文（例えば体言止め等）等がある。

また、節の種類としては、文末の述語を中心とした節からなる主節（述語説）のモダリティ（発話時における話者の心的態度を叙述したもの）が、例えば、確信、疑問、命令、禁止、許可、依頼、当偽、概言、否定、説明、比況、忠告、申告、又は願望等がある。また、主語節（主語の含む節）、補足節（名詞相当表現＋格助詞）、引用節（〜と、〜のように等）、述語を修飾、文全体を修飾する副詞節（連用修飾節）、時（〜ときに、のち等）、原因・理由（〜ので等）、条件・譲歩（〜なら等）、様態（〜まま、つつ等）、逆説（〜けれども、のに等）、目的（〜ために、のに等）、程度（〜くらい等）、名詞を修飾する連体節（連体修飾節、主節に対して対等（並列節）もしくは従属（従属節）の関係接続説）、名詞句（修飾語＋名詞＋助詞（名詞修飾：連体詞、形容詞、動詞基本形）、又は名詞の並列（総記、例示、累加、選択））等がある。

また、文節の種類としては、自立語＋付属語（具体的意味が壊れない程度に言語として不自然でない最小単位）として、体言、用言、連体修飾語、連用修飾語、主語、述語、補足語等がある。

また、品詞の種類としては、動詞、形容詞、判定詞、助動詞、名詞（抽象名詞、人、動物、数字等）、指示詞、副詞、助詞（例えば、格助詞、終助詞等）、連体詞、接続詞、感動詞等がある。

上述したデータベースに基づいて、属性情報のどれに該当するかを検索し、また類似度が所定値以上の文章又は文節列（文節）を抽出する。また、上述した属性情報と、その属性情報に含まれる付属語と、その付属語の用法とに予め設定された重みを付加しておく。これにより、重要単語等を設定することができ、その内容に基づいて類似度の設定を高精度に行うことができ、類似性の高い文章や文節列を抽出することができる。

＜検索手法例＞
次に、文章及び文節列の検索手法例について具体的に説明する。図３は、文章及び文節列の検索手法の一例を示す図である。なお、図３は、「向かいの黒い家に犬がいる。」という入力文章データの係り受け解析の結果を基に作成した木構造の一例を示している。

ここで、上述の文章データは、図２に示す係り受け関係（文節０〜文節４）が成立し、図３（ａ）に示す木構造となる。そこで、本実施形態おいて、文章を検索する場合は、第１段目（文節２，３→４）の木構造の類似度、つまり、係り先や節、文節について構造の類似性を検索する。

具体的には、文節２は、文節４に係り主節、連用修飾語で「名詞（場所）」＋格助詞（に）」であり、また文節３は、文節４に係り主節、主語で「名詞（動物）＋格助詞（が）」である。そのため、このような木構造と一致する文章又は文節列を韻律データベース１３から検索する。

ここで、抽出される候補となる文章あった場合は、第２段目（文節０，１→２）を検索する。また候補がなかった場合は、それぞれの文節毎の類似度や、品詞。アクセント型、音素等の局所的な属性情報に基づいて、最も類似する文章データを検索する。また、このようにして最終段まで検索して時点で最も類似する文章データを検索する。

また、係り受けの木構造を図３（ｂ）に示すように第１段目で分離（このとき、係り先も保持する）し、この木構造に対して上述と同様に類似する文節列を検索する。このようにして、韻律データベース１３との検索を行う。

＜韻律生成例＞
次に、上述した音声合成装置１０を用いた具体的な韻律の生成及び音声合成例について図を用いて説明する。図４は、本実施形態における韻律生成及び音声合成の具体例を示す図である。

図４において、読み上げたい文章の一例を「向かいの黒い家に犬がいる。」とする。この文章は、言語解析手段１１により「（１）場所＋に（３）」と、「（２）何か＋が（３）」と、「（３）いる。」とに構文解析される（なお、上述のカッコ内の数字は文節番号を示し、プラス（＋）の前後で係り受けの関係であることを示している。）。

ここで、類似文章抽出手段１２により、韻律データベース１３を参照して類似する文章を検索した結果、「球場にサッカー選手がいる。」という類似文章が得られたとする。類似文章抽出手段１２は、この文章を類似文節列抽出手段１４に出力する。

類似文節列抽出手段１４は、入力された文章データから韻律データベース１３に基づいて、「何かがいる。」という文節列を検索する。

検索の結果、「犬がいる。」という文節列が抽出された場合に上述した構文解析結果のうち、「（２）何か＋が（３）」と、「（３）いる。」の部分の検索は終了する。

次に、「向かいの」、「黒い」、及び「家に」に対応する文節列について、「（１）連体修飾格（名詞＋の（助詞））（３）」、「（２）形容詞（３）」、及び「（３）場所（名詞）＋に（助詞）」を満たす文節列を検索する。ここで、検索した結果、類似する文節列がなかったとする。この場合、類似文節列抽出手段１４は、文節列の分割を行う。

図５は、分割される文節の一例を説明するための図である。図５（ａ）に示すように、１つの文章はフレーズ（句読点）毎や、文節列、文節に分割することができる。なお、分割する際には、例えば係り受け関係の組を含む形を基準として分割することが好ましい。

そのため、図５（ｂ）に示すように、「Ａ」、「Ｂ」、「Ｃ」からなる文章や文節列等を「ＡとＢ」、「ＡとＣ」に分割したり、「ＡとＣ」、「ＢとＣ」に分割する。すなわち、上述の「向かいの黒い家に」において、「向かいの」は「家に」に係るので、「向かいの家に」を検索する文節列とする。また、「黒い」も「家に」に係るので、「黒い家に」を検索する文節列とする。

類似文節列抽出手段１４は、上述のように分割された文節列に基づいて、韻律データベース１３を検索する。ここで、検索の結果、それぞれ「向こうの丘に」と「広い池に」とが抽出されたとする。なお、１つの検索文字列について、抽出される文字列は１つに限定されず、複数抽出される場合もある。

上述の手順により、全ての文節列に対して少なくとも１つの候補が抽出されると、韻律素片合成手段１５において、各候補に対応する韻律素片を全体の文章に合わせ込む（合成する。）。

図６は、本実施形態における各韻律素片の合成の一例を示す図である。まず、図６（ａ）に示すように「向こうの丘に」の「丘に」と、「広い池に」の「池に」との韻律的な特徴である基本周波数の平均値・振幅、話速、パワー等が合うように、「向こうの丘に」全体の韻律を調整し、高精度な韻律を生成する。なお、韻律の調整には、類似文節又は類似文節列から得られる上述した韻律情報（基本周波数の時系列パターン、パワーの時系列パターン、及び音韻継続時間長の時系列パターン）に基づいて、基本周波数の平均値・振幅、話速、パワー等の調整を行い韻律を生成する。

例えば、図６（ａ）に示す例では、文節毎の調整として、平均周波数の調整、話速の調整、及び基本周波数の振れ幅の調整を行う。つまり、「向こうの広い」の「広い」の平均基本周波数を「広い池に」の基本周波数に合わすよう調整し、また、「丘に」の話速と「池に」の話速を調整し、更に、「丘に」の基本周波数の振れ幅と「池に」の基本周波数の振れ幅を調整する。なお、上記の調整における順序や内容については、本発明においては特に限定されない。

これにより、「向こうの」と「広い池に」とを合成することで、「向こうの広い池に」という文節列ができる。また、同様に「向こうの広い池に」の「池に」と、「球場にサッカー選手がいる。」の「球場に」との基本周波数の平均値・振幅、話速、パワー等を合わせることで、「向こうの広い池にサッカー選手がいる。」という合成された音声が生成される。更に「犬が」の特徴を「サッカー選手が」に合成することで、「向こうの広い池に犬がいる。」という合成された音声が生成される。

次に、図５（ｂ）に示すように、各音素の時間長を韻律情報における音韻継続時間長の時系列パターンや、予め設定される音韻継続時間長の変換テーブル等に基づいて変換することで「向かいの黒い家に犬がいる。」という読み上げ文章に適した合成音声（韻律パターン）が生成されることになる。

上述したように、本実施形態によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。

ここで、本発明における音声合成装置は、上述した専用の装置構成等を用いて本発明における音声合成を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にそのプログラムをインストールすることにより、上述した音声合成を実現することができる。

＜ハードウェア構成例＞
ここで、本発明における音声合成処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図７は、本発明における音声合成処理が実現可能なハードウェア構成の一例を示す図である。

図７におけるコンピュータ本体には、入力装置７１と、出力装置７２と、ドライブ装置７３と、補助記憶装置７４と、メモリ装置７５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７６と、ネットワーク接続装置７７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置７１は、ユーザが操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置７２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイ（モニタ）を有し、ＣＰＵ７６が有する制御プログラムにより音声合成処理における実行経過や結果等を表示することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体７８等により提供される。プログラムを記録した記録媒体７８は、ドライブ装置７３にセット可能であり、記録媒体７８に含まれる実行プログラムが、記録媒体７８からドライブ装置７３を介して補助記憶装置７４にインストールされる。

補助記憶装置７４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

ＣＰＵ７６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、及びメモリ装置７５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、音声合成処理における各処理を実現することができる。プログラムの実行中に必要な各種情報等は、補助記憶装置７４から取得することができ、また格納することもできる。

ネットワーク接続装置７７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した音声合成処理を実現することができる。また、プログラムをインストールすることにより、容易に音声合成処理を実現することができる。

＜音声合成処理手順＞
次に、実行プログラムにおける処理手順についてフローチャートを用いて説明する。図８は、本発明における音声合成処理の一例を示すフローチャートである。

まず、韻律を生成するための読み上げたい文章データを入力し（Ｓ０１）、入力した文章データに対して係り受け関係や単語の品詞、アクセント、統語関係等の言語解析を行う（言語解析処理）（Ｓ０２）。

次に、Ｓ０２にて得られる解析情報に基づいて、予め蓄積されている文章中かから最も類似する類似文章を抽出する（類似文章抽出処理）（Ｓ０３）。なお、この時点では、文節の数やアクセント型等の局所的な特徴は考慮せず、係り受け関係、助詞の種類や重要単語の位置等の大所的な条件に基づいて文章を検索して類似文章データの抽出を行う。

次に、Ｓ０３にて得られた類似文章データを少なくとも１つの文節列に分割し（Ｓ０４）、各文節列における属性情報に基づいて予め蓄積されている文節列データから類似文節又は類似文節列を抽出する（類似文節列抽出処理）（Ｓ０５）。なお、分割する際には、例えば係り受け関係の組を含む形で分割することが好ましい。

ここで、抽出した文節列の類似度が予め設定された類似度の基準値（所定値）以上であるか否かを判断する（Ｓ０６）。類似度が所定値以上ではない場合（Ｓ０６において、ＮＯ）、Ｓ０４に戻り、前回とは異なる分割を行ってＳ０６までの処理を行う。このとき、最初に長い文節列で分割して類似度を判断し、類似度が所定値以上ではない場合に徐々に短い文節列に分割していく。これにより類似性が上がり、何れ類似度が所定値以上となる。

また、Ｓ０６において、類似度が所定値以上である場合（Ｓ０６において、ＹＥＳ）、類似文章中で分割された全ての文節列について、類似文節列の候補が得られたか否かを判断する（Ｓ０７）。分割された全ての文節列について候補が得られていない場合（Ｓ０７において、ＮＯ）、Ｓ０４に戻り、候補が得られていない部分についてＳ０４〜Ｓ０６までの処理を行う。

また、類似文章中で分割された全ての文節列の候補が得られている場合（Ｓ０７において、ＹＥＳ）、韻律素片の合成を行う（韻律素片合成処理）（Ｓ０８）。例えば、上述したように類似文章から求めた大局的な情報、平均基本周波数や基本周波数波形の振れ幅、話速、パワー等に各文節列を合わせ込むことで、韻律を生成し音声を合成する。その後、合成された音声を出力し（Ｓ０９）、処理を終了する。

このように、上述した音声合成プログラムを用いることにより、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。また、本発明における音声合成プログラムをインストールすることにより、容易に音声合成処理を実現することができる。

上述したように本発明によれば、文章全体として自然性を向上させるための韻律を生成することができ、高精度に音声合成を行うことができる。これにより、抑揚やリズムが自然で肉声に近い合成音声を生成することができる。

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における音声合成装置の一構成例を示す図である。韻律データベースの一例を示す図である。文章及び文節列の検索手法の一例を示す図である。本実施形態における韻律生成及び音声合成の具体例を示す図である。分割される文節の一例を説明するための図である。本実施形態における各韻律素片の合成の一例を示す図である。本発明における音声合成処理が実現可能なハードウェア構成の一例を示す図である。本発明における音声合成処理の一例を示すフローチャートである。

符号の説明

１０音声合成装置
１１言語解析手段
１２類似文章抽出手段
１３韻律データベース
１４類似文節列抽出手段
１５韻律素片合成手段
７１入力装置
７２出力装置
７３ドライブ装置
７４補助記憶装置
７５メモリ装置
７６ＣＰＵ
７７ネットワーク接続装置
７８記録媒体

Claims

入力される文章データから韻律を生成して音声を合成する音声合成装置において、
前記入力される文章データに対する属性情報及び特徴量を言語解析により取得する言語解析手段と、
前記言語解析手段により得られる解析結果に含まれる前記属性情報を用いて、予め複数の文章データと、該複数の文章データに対する属性情報及び特徴量とが蓄積されている韻律データベースから、前記入力される文章データに対する属性情報に類似する類似文章データを抽出する類似文章抽出手段と、
前記類似文章抽出手段から得られる類似文章データと前記入力される文章データとを文節列に分割し、分割された各文節列に対する属性情報及び特徴量を用いて、前記韻律データベースから前記文節列に類似する文節列を抽出する類似文節列抽出手段と、
前記類似文節列抽出手段により得られる文節列の韻律素片を、前記類似文章データに対する文節列の韻律情報に基づいて調整し、前記入力される文章データに対する文節列の順序に基づいて接続して、前記入力された文章データに対する韻律パターンを出力する韻律素片合成手段とを有し、
前記類似文節列抽出手段は、
最初に、前記類似文章データから分割された各文節列に対する属性情報及び特徴量と、前記入力される文章データから分割された各文節列に対する属性情報及び特徴量とを比較し、前記類似文章データから得られる文節列中に、前記入力される文章データから得られる文節列に類似する文節列が存在しなかった場合に、存在しなかった文節列に対応する前記入力された文章データの文節列から、係り受け関係にある文節の集合を、前記文節の係り側又は受け側の文節が重複するように分割し、分割された各文節列に対する属性情報及び特徴量を用いて前記韻律データベースを検索することを特徴とする音声合成装置。
前記類似文章抽出手段は、
前記入力される文章データ中の係り受け関係、助詞の種類、及び重要単語の位置を含む前記属性情報のうち少なくとも１つの条件に基づいて前記類似文章データを抽出することを特徴とする請求項１に記載の音声合成装置。
前記類似文節列抽出手段は、
前記類似文章データを予め設定された条件に基づいて文節列に分割し、分割した文節列に対する属性情報の類似度が所定値以上の類似文節又は類似文節列を抽出することを特徴とする請求項１又は２に記載の音声合成装置。
前記類似文節列抽出手段は、
前記類似度が所定値より小さい場合は、前記文節列を更に分割した文節又は文節列に基づいて、前記類似文節又は類似文節列を抽出することを特徴とする請求項３に記載の音声合成装置。
前記類似文節列抽出手段は、
抽出された前記類似文節又は前記類似文節列から得られる韻律情報として、基本周波数の時系列パターン、パワーの時系列パターン、及び音韻継続時間長の時系列パターンのうち少なくとも１つを有することを特徴とする請求項１乃至４の何れか１項に記載の音声合成装置。
前記属性情報は、
音響的な属性情報として、音素の平均的な高さ、基本周波数の変動幅、強弱、及び局所的な話速のうち少なくとも１つを有することを特徴とする請求項１乃至５の何れか１項に記載の音声合成装置。
前記属性情報は、
文節又は文節列の属性情報として、構成する単語の音素並びの類似性、アクセント型もしくはアクセント核の位置、品詞の並び、係り受け、前記文節又は文節列に対して少なくとも１以上前もしくは後の文節又は文節列の属性情報、及び各文節位置における特徴量のうち少なくとも１つを有することを特徴とする請求項１乃至６の何れか１項に記載の音声合成装置。
前記類似文節列抽出手段は、
前記属性情報と、前記属性情報に含まれる付属語と、前記付属語の用法とに予め設定された重みを付加することを特徴とする請求項１乃至７の何れか１項に記載の音声合成装置。
入力される文章データから韻律を生成して音声を合成する音声合成プログラムにおいて、
コンピュータを、
前記入力される文章データに対する属性情報及び特徴量を言語解析により取得する言語解析手段、
前記言語解析手段により得られる解析結果に含まれる前記属性情報を用いて、予め複数の文章データと、該複数の文章データに対する属性情報及び特徴量とが蓄積されている韻律データベースから、前記入力される文章データに対する属性情報に類似する類似文章データを抽出する類似文章抽出手段、
前記類似文章抽出手段から得られる類似文章データと前記入力される文章データとを文節列に分割し、分割された各文節列に対する属性情報及び特徴量を用いて、前記韻律データベースから前記文節列に類似する文節列を抽出する類似文節列抽出手段、及び、
前記類似文節列抽出手段により得られる文節列の韻律素片を、前記類似文章データに対する文字列の韻律情報に基づいて調整し、前記入力される文章データに対する文節列の順序に基づいて接続して、前記入力された文章データに対する韻律パターンを出力する韻律素片合成手段として機能させ、
前記類似文節列抽出手段は、
最初に、前記類似文章データから分割された各文節列に対する属性情報及び特徴量と、前記入力される文章データから分割された各文節列に対する属性情報及び特徴量とを比較し、前記類似文章データから得られる文節列中に、前記入力される文章データから得られる文節列に類似する文節列が存在しなかった場合に、存在しなかった文節列に対応する前記入力された文章データの文節列から、係り受け関係にある文節の集合を、前記文節の係り側又は受け側の文節が重複するように分割し、分割された各文節列に対する属性情報及び特徴量を用いて前記韻律データベースを検索することを特徴とする音声合成プログラム。