JP6063218B2

JP6063218B2 - 音声合成装置およびそのプログラム

Info

Publication number: JP6063218B2
Application number: JP2012254293A
Authority: JP
Inventors: 世木　寛之; 寛之世木; 岳大杉本
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-11-20
Filing date: 2012-11-20
Publication date: 2017-01-18
Anticipated expiration: 2032-11-20
Also published as: JP2014102380A

Description

本発明は、有向グラフを用いて入力文から音声を合成する音声合成装置およびそのプログラムに関する。

従来、入力文から音声を合成する音声合成方法として、特許文献１に示すような手法が提案されている。特許文献１で提案された音声合成方法は、入力文と、ノードとエッジとで表される有向グラフとの比較を行い、一致した有向グラフ上に存在する音声データを用いて合成音声を作成する。特許文献１で提案された音声合成方法は、このような有向グラフを用いることで、推定が難しい韻律予測を行う必要がないため、高品質な合成音声を安定して作成することができる。

特許５０５４６３２号公報（特開２０１０−０３２９１８号公報）

しかしながら、特許文献１で提案された音声合成方法は、入力文と一致する有向グラフがない場合は、合成音声を作成することができなかった。また、特許文献１で提案された音声合成方法は、入力文に一致する有向グラフが存在することが必ず保証されている状況では利用できたが、例えば人為的なミスなどによって有向グラフと一致しない入力文が入力された場合は、合成音声を作成することができなかった。

本発明はかかる点に鑑みてなされたものであって、入力文と一致する有向グラフを予め備えていない場合であっても合成音声を作成することができる音声合成装置およびそのプログラムを提供する。

前記課題を解決するために請求項１に係る音声合成装置は、複数のノードと各ノード間の接続を表すエッジとで構成され、ノードのそれぞれに置換可能なテキストデータと、当該テキストデータに対応する複数の音声が割り当てられて全体として文章を形成することができる有向グラフを使用して、入力された入力文に対応した音声を合成する音声合成装置であって、グラフ群蓄積手段と、入力文グラフ比較手段と、グラフ追加手段と、入力文追加グラフ比較手段と、音声選択手段と、音声接続手段と、を備える構成とした。

このような構成を備える音声合成装置は、グラフ群蓄積手段によって、複数の有向グラフを蓄積し、入力文グラフ比較手段によって、入力文と、グラフ群蓄積手段に蓄積されている有向グラフとを比較することで、入力文とグラフ群蓄積手段に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る。また、音声合成装置は、グラフ追加手段によって、有向グラフのノードに含まれるテキストデータを全て集めて一つのノードとし、開始ノードからのエッジと、終了ノードへのエッジを加えることで、開始ノード、一つのノード、終了ノードおよびこれらのノード間のエッジから構成される新たな有向グラフを生成する。すなわち、グラフ追加手段は、グラフ群蓄積手段に予め蓄積されている複数の有限グラフから、これら複数の有向グラフとは異なる新たな有向グラフを生成する。

また、音声合成装置は、入力文追加グラフ比較手段によって、入力文グラフ比較手段において一致する有向グラフがなかった場合に、入力文と、グラフ追加手段で生成された新たな有向グラフとを比較することで、入力文と新たな有向グラフのノードにおけるテキストデータとの対応関係を得る。また、音声合成装置は、音声選択手段によって、入力文グラフ比較手段または入力文追加グラフ比較手段において得られた対応関係を用いて、ノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する。そして、音声合成装置は、音声接続手段によって、音声選択手段において選択された音声の組み合わせを、入力文の構成順に接続する。

なお、前記した「有向グラフ」とは、テキストデータである文章および単語などのリストを含み、かつ前記したテキストデータに対応する複数の音声が割り当てられた複数のノードと、各ノード間の接続を表すエッジとで構成されたものであり、グラフ理論において、文章および単語の繋がり方に着目した「点（ノード）とそれを結ぶ線（エッジ）」の概念のことを示している。

請求項２に係る音声合成装置は、請求項１に係る音声合成装置において、音声蓄積手段と、音声発話内容蓄積手段と、アラインメント手段と、グラフ音声登録手段と、をさらに備える構成とした。

このような構成を備える音声合成装置は、音声蓄積手段によって、音声の発話内容を示すテキストデータと対応付けられている複数の音声を蓄積し、音声合成装置は、音声発話内容蓄積手段によって、予め入力された音声の発話内容を示すテキストデータを蓄積する。また、音声合成装置は、アラインメント手段によって、音声発話内容蓄積手段に蓄積された音声の発話内容を示すテキストデータと、当該音声の音声波形の対応する区間とを比較して対応付け、この対応付けた対応関係を音声蓄積手段に蓄積する。また、音声合成装置は、グラフ音声登録手段によって、例えば有向グラフのノードのそれぞれにテキストデータのみが割り当てられている場合に、予め入力された複数の有向グラフのいずれかと音声発話内容蓄積手段に蓄積された発話内容を示すテキストデータとを比較する。そして、グラフ音声登録手段は、当該比較処理の結果、発話内容を示すテキストデータが有向グラフをどのように通るか決定し、当該テキストデータと当該有向グラフとを対応づけて、その対応付けたテキストデータに対応する区間の音声を音声蓄積手段から取得してグラフ群蓄積手段に蓄積する。

請求項３に係る音声合成装置は、請求項１または請求項２に係る音声合成装置において、音声補正手段をさらに備え、音声接続手段が、音声補正手段で補正された音声の組み合わせを接続する構成とした。

このような構成を備える音声合成装置は、音声補正手段によって、音声選択手段で選択された音声において、当該音声の音声波形同士の接続部分における音の高低差を少なくするように補正することで、複数の音声間のギャップを調整することができる。

なお、前記した「高低差を少なくするように」とは、接続する音声波形の周波数または特徴量の平均値になるように調整する方法や、接続する音声波形の前方（または後方）の周波数または特徴量に近づける方法（同じ値にしてもよいし、差が所定範囲内に収まるようにしてもよい）などが挙げられる。

前記課題を解決するために請求項４に係る音声合成プログラムは、複数のノードと各ノード間の接続を表すエッジとで構成され、ノードのそれぞれに置換可能なテキストデータと、当該テキストデータに対応する複数の音声が割り当てられて全体として文章を形成することができる有向グラフを使用して、入力された入力文に対応した音声を合成するために、複数の有向グラフを蓄積する蓄積グラフ群蓄積手段を備える音声合成装置のコンピュータを、入力文グラフ比較手段、グラフ追加手段、入力文追加グラフ比較手段、音声選択手段、音声接続手段、として機能させることとした。

このような構成を備える音声合成プログラムは、入力文グラフ比較手段によって、入力文と、グラフ群蓄積手段に蓄積されている有向グラフとを比較することで、入力文とグラフ群蓄積手段に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る。また、音声合成プログラムは、グラフ追加手段によって、有向グラフのノードに含まれるテキストデータを全て集めて一つのノードとし、開始ノードからのエッジと、終了ノードへのエッジを加えることで、開始ノード、一つのノード、終了ノードおよびこれらのノード間のエッジから構成される新たな有向グラフを生成する。すなわち、グラフ追加手段は、グラフ群蓄積手段に予め蓄積されている複数の有限グラフから、これら複数の有向グラフとは異なる新たな有向グラフを生成する。

また、音声合成プログラムは、入力文追加グラフ比較手段によって、入力文グラフ比較手段において一致する有向グラフがなかった場合に、入力文と、グラフ追加手段で生成された新たな有向グラフとを比較することで、入力文と新たな有向グラフのノードにおけるテキストデータとの対応関係を得る。また、音声合成プログラムは、音声選択手段によって、入力文グラフ比較手段または入力文追加グラフ比較手段において得られた対応関係を用いて、ノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する。そして、音声合成プログラムは、音声接続手段によって、音声選択手段において選択された音声の組み合わせを、入力文の構成順に接続する。

請求項１および請求項４に係る発明によれば、入力文と一致する有向グラフがなかった場合に、既存の有向グラフから新たな有向グラフを生成し、当該新たな有向グラフを用いて音声合成を行うため、入力文と一致する有向グラフを予め備えていない場合であっても合成音声を作成することができる。

請求項２に係る発明によれば、音声の音声波形と音声の発話内容を示すテキストデータから有向グラフに音声を割り当てることができる。

請求項３に係る発明によれば、合成する音声について、聴覚上の違和感の生じるおそれを是正することができる。

本発明の第１実施形態に係る音声合成装置の全体構成を示すブロック図である。本発明に係る音声合成装置における有向グラフの一例を示す図である。本発明に係る音声合成装置における有向グラフのノードに対応したリストの一例を示す図である。（ａ）〜（ｃ）は、本発明に係る音声合成装置におけるグラフ追加手段の処理を説明するための概略図である。本発明の第１実施形態に係る音声合成装置の処理手順を示すフローチャートである。本発明の第１実施形態の第１変形例に係る音声合成装置の全体構成を示すブロック図である。本発明の第１実施形態の第２変形例に係る音声合成装置の全体構成を示すブロック図である。本発明の第２実施形態に係る音声合成装置の全体構成を示すブロック図である。本発明に係る音声合成装置のその他の変形例を示すブロック図である。

本発明の実施形態に係る音声合成装置およびそのプログラムについて、図面を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称及び符号を付し、詳細説明を省略する。

＜第１実施形態＞
［音声合成装置の構成］
本発明に係る音声合成装置の構成について、図１を参照しながら説明する。音声合成装置１は、入力文に対応する音声を合成するものであり、具体的には図１に示すように、有向グラフを利用して外部から入力される入力文（テキスト）に対応する音声を合成して出力するものである。この音声合成装置１は、例えばラジオ放送における気象通報などにおいて、合成音声によって気象情報を放送する場合などに用いられる。

音声合成装置１は、ここでは図１に示すように、グラフ群蓄積手段１０と、入力文グラフ比較手段２０と、グラフ追加手段３０と、入力文追加グラフ比較手段４０と、音声選択手段５０と、音声接続手段６０と、を備えている。

グラフ群蓄積手段１０は、有向グラフを蓄積するものである。グラフ群蓄積手段１０は、予め外部から入力された複数の有向グラフを蓄積し、図１に示すように、後記する入力文グラフ比較手段２０およびグラフ追加手段３０の求めに応じて、当該有向グラフを出力する。また、グラフ群蓄積手段１０は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。なお、グラフ群蓄積手段１０は、図１に示すように、ここでは音声合成装置１の内部に設けられているが、当該音声合成装置１の外部に設けられた構成としても構わない。

ここで、グラフ群蓄積手段１０に蓄積されている有向グラフは、複数のノードと各ノード間の接続を表すエッジとで構成され、前記したノードのそれぞれに置換可能なテキストデータと、当該テキストデータに対応する複数の音声が割り当てられて全体として文章を形成することができるものを意味している。以下、図２および図３を参照しながら本発明で用いられる有向グラフの具体例を説明する。

有向グラフは、例えば図２に示すように、「ＳＴＡＲＴ」で示された開始ノードと、「［場所］の」という変数を含むノードＡ１と、「［緯度］」という変数からなるノードＡ２と、「［経度］付近には」という変数を含むノードＡ３と、「［気圧］の」という変数を含むノードＡ４と、「［番号］から変わった＋（擾乱・・・）」、「（・・・変わった）−［擾乱種類］があって」、「［擾乱種類］があって」という変数を含むノードＡ５と、「ほとんど停滞しています」からなるノードＡ６と、「［方角］へ」という変数を含むノードＡ７と、「毎時［時速］で進んでいます」という変数を含むノードＡ８と、「ＥＮＤ」で示された終了ノードと、各ノード間に矢印で示されたエッジと、から構成されている。なお、図２に示す有向グラフにおいて、「［］」は変数を表している。

また、ノードＡ１〜Ａ８における各変数には、図３に示すように、複数のテキストデータのリストが割り当てられている。例えば［場所］のリストには、「日本のはるか東、ルソン島、東シナ海、オホーツク海、・・・」などが含まれており、［緯度］のリストには、北緯０度から南緯０度までの度数が含まれており、［経度］には、東経１度から西経１８０度までの度数が含まれている。また、［気圧］のリストには、７００ヘクトパスカルから１２００ヘクトパスカルまでの数値が含まれており、［番号］のリストには、台風第１号から台風第２００号までの号数が含まれている。そして、［擾乱種類］のリストには、「熱帯低気圧があって、低気圧があって、・・・」などが含まれており、［方角］のリストには、東西南北を表す１６方位が含まれており、［時速］のリストには、１キロから５００キロまでの速度が含まれている。

そして、これらのリスト（置換可能なテキストデータ）は、有向グラフのノードのそれぞれに関連づけて、グラフ群蓄積手段１０に蓄積されており、有向グラフを比較する際にノードに対応したリストを参照できるようになっている。また、グラフ群蓄積手段１０には、図３に示すリスト（置換可能なテキストデータ）のそれぞれに対応する音声が予め割り当てられて蓄積されている。

入力文グラフ比較手段２０は、入力文と有向グラフとを比較するものである。入力文グラフ比較手段２０は、図１に示すように、外部から入力された入力文と、グラフ群蓄積手段１０に蓄積されている複数の有向グラフとを比較することで、入力文と、グラフ群蓄積手段１０に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る。そして、入力文グラフ比較手段２０は、図１に示すように、入力文に対応するテキストデータと、当該テキストデータに割り当てられた音声とを音声選択手段５０に対して出力する。

一方、入力文グラフ比較手段２０は、入力文と、グラフ群蓄積手段１０に蓄積されている複数の有向グラフとを比較した結果、一致する有向グラフがない場合は、図１に示すように、グラフ追加手段３０に対して、グラフ追加指示を出力する。これにより、後記するように、グラフ追加手段３０によって新たな有向グラフが生成され、入力文追加グラフ比較手段４０において再度入力文との比較処理が行われることになる。なお、図１において、グラフ群蓄積手段１０から入力文グラフ比較手段２０およびグラフ追加手段３０に向かう矢印に付されている符号「Ｇ１，Ｇ２」は、グラフ群蓄積手段１０に元々蓄積されていた有向グラフのことを示しており、グラフ追加手段３０から入力文追加グラフ比較手段４０に向かう矢印に付されている符号「ＡＧ」は、グラフ追加手段３０によって新たに生成された有向グラフのことを示している。

ここで、例えば入力文グラフ比較手段２０における処理の一例として、「ルソン島の、北緯１６度、東経１２２度付近には、９５０ヘクトパスカルの、台風第３号から変わった熱帯低気圧があって、南へ、毎時１０ｋｍで進んでいます。」という入力文が入力された場合を考える。この場合、入力文グラフ比較手段２０は、図２に示すように、有向グラフおよび図３のリストから、［場所］＝「ルソン島」、［緯度］＝「北緯１６度」、［経度］＝「東経１２２度」、［気圧］＝「９５０ヘクトパスカル」、〈分岐１〉＝「１」、［番号］＝「台風第３号」、［擾乱種類］＝「熱帯低気圧」、〈分岐２〉＝「２」、［方角］＝「南」、［時速］＝「１０ｋｍ」という対応関係を得る。そして、入力文グラフ比較手段２０は、これらのテキストデータと、当該テキストデータに割り当てられた音声とを音声選択手段５０に対して出力する。

グラフ追加手段３０は、一定条件下で新たな有向グラフを生成するものである。グラフ追加手段３０には、図１に示すように、グラフ群蓄積手段１０内に入力文と一致する有向グラフがない場合にグラフ追加指示が入力される。そして、グラフ追加手段３０は、当該グラフ追加指示を受けて、グラフ群蓄積手段１０に蓄積されている複数の有向グラフから新たな有向グラフを生成する。すなわち、グラフ追加手段３０は、グラフ群蓄積手段１０内の有向グラフのノードに含まれるテキストデータを全て集めて一つのノードとし、開始ノードからのエッジと、終了ノードへのエッジを加えることで、開始ノード、一つのノード、終了ノードおよびこれらのノード間のエッジから構成される新たな有向グラフを生成し（後記する図４（ｃ）参照）、図１に示すように、当該有向グラフを入力文追加グラフ比較手段４０に対して出力する。このように、グラフ追加手段３０は、予めグラフ群蓄積手段１０に蓄積されている有向グラフが入力文と一致しない場合に、当該蓄積されている有向グラフから新たな有向グラフを生成する。なお、グラフ追加手段３０によって生成される新たな有向グラフの詳細については後記する具体例で説明する。

入力文追加グラフ比較手段４０は、入力文と新たに生成された有向グラフ（追加グラフ）とを比較するものである。入力文追加グラフ比較手段４０は、図１に示すように、外部から入力された入力文と、グラフ追加手段３０から入力された新たな有向グラフとを比較することで、入力文と当該新たな有向グラフのノードにおけるテキストデータとの対応関係を得る。そして、入力文追加グラフ比較手段４０は、図１に示すように、入力文と対応するテキストデータと、当該テキストデータに割り当てられた音声とを音声選択手段５０に対して出力する。このように、入力文追加グラフ比較手段４０は、予めグラフ群蓄積手段１０に蓄積されている有向グラフが入力文と一致しない場合に、グラフ追加手段３０によって生成された新たな有向グラフを用いて入力文との比較処理を行う。

音声選択手段５０は、音声の組み合わせを選択するものである。音声選択手段５０は、図１に示すように、入力文グラフ比較手段２０または入力文追加グラフ比較手段４０において得られた対応関係を用いて、有向グラフのノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する。すなわち、音声選択手段５０は、前記した対応関係に基づいて、音声の組み合わせを、例えば動的計画法（ビタビアルゴリズム（Viterbi algorithm））により探索し、探索した結果（音声の組み合わせ）の中で、各音声の接続部分の類似度が最も高くなる組み合わせを選択する。なお、前記した類似度は、連結コストおよび音韻韻律コストが最小になるものを選択することができ、例えば特開２００４−１３９０３３号公報（特許第４５３２８６２号公報）、あるいは特開２００７−１１４２３６号公報（特許第４８３９０５８号公報）などに記載されている手段を用いて行うことができる。そして、音声選択手段５０は、図１に示すように、選択した音声の組み合わせを音声接続手段６０に対して出力する。

音声接続手段６０は、音声選択手段５０で選択された音声を接続するものである。音声接続手段６０は、図１に示すように、音声選択手段５０によって選択された音声の組み合わせを入力文の構成順に接続し、合成音声として出力する。ここで、音声接続手段６０は、例えば接続する前後の音声において、前の音声波形が１００ｍｓであれば、１１０ｍｓ（後端側を１０ｍｓ余計に取得する）取得し、１１０ｍｓの後側から２０ｍｓ遡った部分をフェードアウトし、かつ、後の音声の音声波形が１００ｍｓであれば、１１０ｍｓ（前端側を１０ｍｓ余計に取得する）取得し、１１０ｍｓの前側から２０ｍｓ先の部分をフェードインし、足し合わせることで音声を接続する。つまり、音声接続手段６０は、前の音声の音声波形の終端と、後の音声の音声波形の先端とをフェードして足し合わせる処理を行う。

（音声合成の具体例）
以下、本発明に係る音声合成装置１による音声合成の具体例について、図４を参照しながら説明する。

ここでは、例えば図４（ａ）に示すように、前記した入力文グラフ比較手段２０に対して、「中心から半径１０キロの円内では１５から２０メートルの強い風が吹いています」という入力文が入力された場合を考える。そして、ここでは図４（ｂ）に示すように、グラフ群蓄積手段１０に、「中心付近では、［風速］から、［風速］メートルの、強い風が吹いています」という有向グラフ１と、「中心から半径［距離］円内では、［風速］メートルの、強い風が吹く見込みです」という有向グラフ２とが蓄積されているものとする。

この場合、入力文グラフ比較手段２０は、まず入力文と有向グラフ１との比較を行う。なお、入力文グラフ比較手段２０は、グラフ内の読点はスキップして１字ずつ比較を行うこととする。入力文と有向グラフ１とを比較すると、ノードＡ１−１の「中心」までは一致するが、３文字目で一致しなくなる。そのため、入力文グラフ比較手段２０は、その時点で入力文と有向グラフ１との比較を終了し、入力文と有向グラフ２との比較を開始する。次に、入力文と有向グラフ２とを比較すると、ノードに対応したリスト（前記した図３参照）に［距離］＝１０キロ、［風速］＝１５、が含まれていると仮定した場合、ノードＡ２−１の「中心から半径１０キロの円内では１５」までは一致するが、以降は一致しなくなる。そのため、入力文グラフ比較手段２０は、その時点で入力文と有向グラフ２との比較を終了する。

ここで、従来はこの時点でグラフ群蓄積手段１０内の全ての有向グラフと入力文とが一致しなくなるため、音声合成が不可能となる。しかしながら、本発明に係る音声合成装置１は、グラフ追加手段３０によって、有向グラフ１，２から図４（ｃ）に示すような新たな有向グラフを生成することで、音声合成を可能とする。

すなわち、グラフ追加手段３０は、図４（ｃ）に示すように、それぞれ所定の順序で並べられた有向グラフ１のノードＡ１−１，Ａ１−２，Ａ１−３，Ａ１−４および有向グラフ２のノードＡ２−１，Ａ２−２，Ａ２−３を全て含むようなノードＡ３を生成し、当該ノードＡ−３に開始ノードと終了ノードを加えて新たな有向グラフ（追加グラフ）を生成する。

この新たな有向グラフは、図４（ｃ）に示すように、［ＳＴＡＲＴ］で示された開始ノードから、「中心付近では」、「［風速］から」、「［風速］メートルの」、「強い風が吹いています」、「中心から半径［距離］円内では」、「［風速］メートルの」、「強い風が吹く見込みです」、のいずれかへのエッジ（経路）Ｅ_Ｓと、これらの中でループするエッジ（経路）Ｅ_Ｌと、［ＥＮＤ］で示された終了ノードへのエッジ（経路）Ｅ_Ｅと、を有している。そして、グラフ追加手段３０は、図１に示すように、生成した新たな有向グラフを入力文追加グラフ比較手段４０に対して出力する。

ここで、この新たな有向グラフは、図４（ｃ）に示すように、各ノードとテキストデータとが１対１で対応した有向グラフ１および有向グラフ２（図４（ｂ）参照）と異なり、一つのノードＡ３に複数のテキストデータ（すなわちＡ１−１，Ａ１−２，Ａ１−３，Ａ１−４，Ａ２−１，Ａ２−２，Ａ２−３で示されたテキストデータ）が割り当てられている。また、新たな有向グラフは、図４（ｃ）に示すように、ノードＡ３を構成するテキストデータ間に順序が定められていない。

すなわち、前記した有向グラフ１では、「開始ノード→中心付近では→・・・→強い風が吹いています→終了ノード」までの順序は変えることができず、有向グラフ２では、「開始ノード→中心から半径［距離］円内では→・・・→強い風が吹く見込みです→終了ノード」までの順序は変えることができないが、図４（ｃ）に示す新たな有向グラフは、ノードＡ３に割り当てられた複数のテキストデータを任意の順序で並べることができる。従って、グラフ追加手段３０によって生成される新たな有向グラフは、グラフ群蓄積手段１０に予め蓄積されている有向グラフよりも条件が緩く、入力文と対応しやすくなっている。

入力文追加グラフ比較手段４０は、入力文と新たな有向グラフとの比較を行う。入力文と新たな有向グラフとを比較すると、テキストデータＡ２−１の「中心から半径［距離］円内では」が語尾まで一致し、テキストデータＡ１−２の「［風速］から」が語尾まで一致し、テキストデータＡ１−３の「［風速］メートルの」およびテキストデータＡ２−２の「［風速］メートルの」が語尾まで一致し、テキストデータＡ１−４の「強い風が吹いています」が語尾まで一致する。そのため、入力文追加グラフ比較手段４０は、開始ノード→「中心から半径１０キロの円内では」→「１５から」→「２０メートルの」→「強い風が吹いています」という経路を選択する。

そして、音声選択手段５０は、各ノードに属する音声の組み合わせを動的計画法により探索し、探索した音声の組み合わせの中で、各音声の接続部分の連結コストおよび音韻韻律コストが最も高くなる組み合わせを選択する。最後に、音声接続手段６０は、音声選択手段５０によって各音声の接続部分の類似度が最大となる音声の組み合わせが得られた場合、前の音声の音声波形の終端と、後の音声の音声波形の先端とを２０ｍｓ程度フェードして足し合わせ、合成音声として出力する。

以上のような構成を備える音声合成装置１は、予めグラフ群蓄積手段１０に蓄積されている有限の有向グラフのみを用いて音声合成を行うのではなく、グラフ追加手段３０によって、グラフ群蓄積手段１０に蓄積されている有向グラフから新たな有向グラフを生成し、当該新たな有向グラフも利用して音声合成を行う。

従って、音声合成装置１によれば、入力文と一致する有向グラフがなかった場合に、既存の有向グラフから新たな有向グラフを生成し、当該新たな有向グラフを用いて音声合成を行うため、入力文と一致する有向グラフを予め備えていない場合であっても合成音声を作成することができる。

［音声合成装置の処理手順］
本発明に係る音声合成装置１の処理手順について、図５を参照（適宜図１を参照）しながら説明する。

音声合成装置１は、まず入力文グラフ比較手段２０によって、入力文とグラフ群蓄積手段１０に蓄積されている有向グラフとを比較する（ステップＳ１）。次に、音声合成装置１は、グラフ群蓄積手段１０内に入力文と一致する有向グラフがある場合（ステップＳ２においてＹｅｓ）、音声選択手段５０によって、入力文グラフ比較手段２０において得られた対応関係を用いて、有向グラフのノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する（ステップＳ３）。次に、音声合成装置１は、音声接続手段６０によって、音声選択手段５０において選択された音声の組み合わせを、入力文の構成順に接続して合成音声として出力し（ステップＳ４）、処理を終了する。

一方、音声合成装置１は、グラフ群蓄積手段１０内に入力文と一致する有向グラフがない場合（ステップＳ２においてＮｏ）、グラフ追加手段３０によって、グラフ群蓄積手段１０に蓄積されている複数の有向グラフから新たな有向グラフを生成する（ステップＳ５）。そして、音声合成装置１は、入力文追加グラフ比較手段４０によって、入力文と新たな有向グラフとを比較し（ステップＳ６）、ステップＳ３に戻る。音声合成装置１は、以上のような手順を経て音声を合成する。

＜第１実施形態の第１変形例＞
音声合成装置１は、例えば図６に示すような構成であっても構わない。すなわち、図６に示す音声合成装置１Ａは、音声合成装置１とは異なり、入力文グラフ比較手段２０Ａにおける処理の前に予めグラフ追加手段３０Ａによって新たな有向グラフが生成され、グラフ群蓄積手段１０Ａに蓄積されている。そして、入力文グラフ比較手段２０Ａは、図６に示すように、入力文と、グラフ群蓄積手段１０Ａに蓄積されている複数の有向グラフのうち、グラフ追加手段３０Ａによって生成された新たな有向グラフ以外の有向グラフとを比較する。

入力文グラフ比較手段２０Ａは、比較の結果、一致する有向グラフがない場合、図６に示すように、入力文追加グラフ比較手段４０Ａに対して、グラフ比較指示を出力する。このグラフ比較指示を受けて、入力文追加グラフ比較手段４０Ａは、図６に示すように、外部から入力された入力文と、グラフ群蓄積手段１０Ａに蓄積されている新たな有向グラフ（追加グラフ）とを比較することで、入力文と当該新たな有向グラフのノードにおけるテキストデータとの対応関係を得る。そして、入力文追加グラフ比較手段４０Ａは、図６に示すように、入力文と対応するテキストデータと、当該テキストデータに割り当てられた音声とを音声選択手段５０に対して出力する。

このような構成を備える音声合成装置１Ａは、グラフ追加手段３０Ａによって予め新たな有向グラフを生成しておけるため、音声合成時における処理速度を早めることができる。なお、図６において、グラフ群蓄積手段１０Ａから入力文グラフ比較手段２０Ａおよびグラフ追加手段３０Ａに向かう矢印に付されている符号「Ｇ１，Ｇ２」は、グラフ群蓄積手段１０Ａに元々蓄積されていた有向グラフのことを示しており、グラフ追加手段３０Ａからグラフ群蓄積手段１０Ａに向かう矢印と、グラフ群蓄積手段１０Ａから入力文追加グラフ比較手段４０Ａに向かう矢印とに付されている符号「ＡＧ」は、グラフ追加手段３０Ａによって新たに生成された有向グラフのことを示している。

＜第１実施形態の第２変形例＞
音声合成装置１は、例えば図７に示すような構成であっても構わない。すなわち、図７に示す音声合成装置１Ｂは、音声合成装置１とは異なり、入力文グラフ比較手段２０Ａにおける処理の前に予めグラフ追加手段３０Ｂによって新たな有向グラフが生成され、追加グラフ群蓄積手段７０に蓄積されている。そして、入力文グラフ比較手段２０Ａは、図７に示すように、まず入力文と、グラフ群蓄積手段１０に蓄積されている複数の有向グラフとを比較する。

入力文グラフ比較手段２０Ａは、比較の結果、一致する有向グラフがない場合、図７に示すように、入力文追加グラフ比較手段４０Ｂに対して、グラフ比較指示を出力する。このグラフ比較指示を受けて、入力文追加グラフ比較手段４０Ｂは、図７に示すように、外部から入力された入力文と、追加グラフ群蓄積手段７０に蓄積されている新たな有向グラフ（追加グラフ）とを比較することで、入力文と当該新たな有向グラフのノードにおけるテキストデータとの対応関係を得る。そして、入力文追加グラフ比較手段４０Ｂは、図７に示すように、入力文と対応するテキストデータと、当該テキストデータに割り当てられた音声とを音声選択手段５０に対して出力する。

このような構成を備える音声合成装置１Ｂは、グラフ追加手段３０Ｂによって予め新たな有向グラフを生成しておけるため、音声合成時における処理速度を早めることができる。なお、図７において、グラフ群蓄積手段１０から入力文グラフ比較手段２０Ａおよびグラフ追加手段３０Ｂに向かう矢印に付されている符号「Ｇ１，Ｇ２」は、グラフ群蓄積手段１０に元々蓄積されていた有向グラフのことを示しており、グラフ追加手段３０Ｂから追加グラフ群蓄積手段７０に向かう矢印と、追加グラフ群蓄積手段７０から入力文追加グラフ比較手段４０Ｂに向かう矢印とに付されている符号「ＡＧ」は、グラフ追加手段３０Ｂによって新たに生成された有向グラフのことを示している。

＜第２実施形態＞
［音声合成装置の構成］
本発明の第２実施形態に係る音声合成装置１Ｃの構成について、図８を参照しながら説明する。ここで、音声合成装置１Ｃは、図８に示すように、アラインメント手段８０と、音声蓄積手段９０と、音声発話内容蓄積手段１００と、グラフ音声登録手段１１０と、を新たに備えること以外は、前記した第１実施形態に係る音声合成装置１と同様の構成を備えている。従って、以下では音声合成装置１と重複する構成については同じ符号を付して説明を省略し、処理手順についても説明を省略する。

アラインメント手段８０は、音声とテキストデータとを対応付けるものである。アラインメント手段８０は、図８に示すように、音声発話内容蓄積手段１００に蓄積された音声の発話内容を示すテキストデータと、当該音声の音声波形の対応する区間とを比較して対応付け、この対応付けた対応関係を音声蓄積手段９０に対して蓄積する。

アラインメント手段８０には、より具体的には図８に示すように、音声蓄積手段９０に蓄積されている音声と、音声発話内容蓄積手段１００に蓄積されている音声の発話内容を示すテキストデータとが入力される。そして、アラインメント手段８０は、音声の音声波形の区間と当該音声の発話内容を示すテキストデータとの時間的な対応付けを行ったものを音声蓄積手段９０に対して出力する。なお、前記した「アラインメント」とは、動的計画法（Dynamic Programming）を利用したマッチングを行い、音声の音声波形と、発話内容の音声区間との時間的な対応付けをとることを意味している。また、前記した「動的計画法」とは、マッチング手法の一つであり、ビタビアルゴリズムを適用するものである。以下、アラインメント手段８０によりアラインメントされた一例を示す。

（アラインメントの例）
０ｍｓ〜１４７０ｍｓ「日本のはるか東の」
１４７０ｍｓ〜２０００ｍｓ＜無音＞
２０００ｍｓ〜２３５０ｍｓ「北緯」
２３５０ｍｓ〜２９１０ｍｓ「２２度」
２９１０ｍｓ〜３２００ｍｓ「東経」
３２００ｍｓ〜４２００ｍｓ「１４５度付近には」
４２００ｍｓ〜５０００ｍｓ＜無音＞
５０００ｍｓ〜７５２０ｍｓ「９３０ヘクトパスカルの」
７５２０ｍｓ〜１０５００ｍｓ「熱帯低気圧があって」
１０５００ｍｓ〜１３９００ｍｓ「ほとんど停滞しています。」

なお、音声蓄積手段９０に蓄積されている音声と、音声発話内容蓄積手段１００に蓄積されている音声の発話内容とは対応しており、例えば音声蓄積手段９０に蓄積されている音声が「今日の天気は晴れです。」であれば、音声発話内容蓄積手段１００に蓄積されている音声の発話内容も「今日の天気は晴れです。」である。

音声蓄積手段９０は、音声を蓄積するものである。音声蓄積手段９０は、予め入力された、音声の発話内容を示すテキストデータと対応付けられている複数の音声を蓄積し、図８に示すように、アラインメント手段８０およびグラフ音声登録手段１１０の求めに応じて、当該音声を出力する。また、音声蓄積手段９０は、前記したアラインメント手段８０によって音声の発話内容を示すテキストデータとの時間的な対応付けが行われた複数の音声（例えば前記したように、０ｍｓ〜１４７０ｍｓ「日本のはるか東の」）を蓄積し、図８に示すように、グラフ音声登録手段１１０の求めに応じて、対応関係とともに当該音声を出力する。

音声蓄積手段９０は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。なお、音声蓄積手段９０は、図８に示すように、ここでは音声合成装置１Ｃの内部に設けられているが、当該音声合成装置１Ｃの外部に設けられた構成としても構わない。

音声発話内容蓄積手段１００は、音声の発話内容を蓄積するものである。音声発話内容蓄積手段１００は、予め入力された、音声の発話内容を示すテキストデータを蓄積し、図８に示すように、アラインメント手段８０の求めに応じて、当該テキストデータを出力する。また、音声発話内容蓄積手段１００は、図８に示すように、グラフ音声登録手段１１０の求めに応じて、音声の発話内容を示すテキストデータを出力する。

音声発話内容蓄積手段１００は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。なお、音声発話内容蓄積手段１００は、図８に示すように、ここでは音声合成装置１Ｃの内部に設けられているが、当該音声合成装置１Ｃの外部に設けられた構成としても構わない。

グラフ音声登録手段１１０は、有向グラフのノードに置換可能なテキストデータに対応する音声を登録するものである。グラフ音声登録手段１１０は、図８に示すように、グラフ群蓄積手段１０に蓄積された、予め入力された複数の有向グラフのいずれかと、音声発話内容蓄積手段１００に蓄積された発話内容を示すテキストデータとを比較する。また、グラフ音声登録手段１１０は、発話内容を示すテキストデータが有向グラフをどのように通るかを決定し、当該テキストデータと当該有向グラフとを対応づける。そして、グラフ音声登録手段１１０は、図８に示すように、その対応付けたテキストデータに対応する区間の音声を音声蓄積手段９０から取得し、グラフ群蓄積手段１０に対して蓄積する。

以上のような構成を備える音声合成装置１Ｃは、例えば有向グラフのノードのそれぞれにテキストデータのみが割り当てられている場合に、グラフ音声登録手段１１０によって、有向グラフに対応付けられたテキストデータに対して、当該テキストデータに対応する音声を割り当てることができ、音声合成を行う前の準備を行うことができる。従って、音声合成装置１Ｃによれば、音声の音声波形と音声の発話内容を示すテキストデータから有向グラフに音声を割り当てることができる。

なお、図８において、グラフ群蓄積手段１０から入力文グラフ比較手段２０およびグラフ追加手段３０に向かう矢印に付されている符号「Ｇ１，Ｇ２」は、グラフ群蓄積手段１０に元々蓄積されていた有向グラフのことを示しており、グラフ追加手段３０から入力文追加グラフ比較手段４０に向かう矢印に付されている符号「ＡＧ」は、グラフ追加手段３０によって新たに生成された有向グラフのことを示している。

［音声合成プログラム］
ここで、前記した音声合成装置１Ａ，１Ｂ，１Ｃは、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。

具体的には、音声再生プログラムは、複数のノードと各ノード間の接続を表すエッジとで構成され、ノードのそれぞれに置換可能なテキストデータと対応する複数の音声が割り当てられて全体として文章を形成することができる有向グラフを使用して、入力された入力文に対応した音声を合成するために、複数の前記有向グラフを蓄積するグラフ群蓄積手段１０，１０Ａを備える音声合成装置１Ａ，１Ｂのコンピュータを、前記した入力文グラフ比較手段２０，２０Ａ、前記したグラフ追加手段３０，３０Ａ，３０Ｂ、前記した入力文追加グラフ比較手段４０，４０Ａ，４０Ｂ、前記した音声選択手段５０、前記した音声接続手段６０、前記した追加グラフ群蓄積手段７０、として機能させることができる。

また、音声再生プログラムは、複数の前記有向グラフを蓄積するグラフ群蓄積手段１０と、音声の発話内容を示すテキストデータと対応付けられている複数の音声を蓄積する音声蓄積手段９０と、予め入力された音声の発話内容を示すテキストデータを蓄積する音声発話内容蓄積手段１００と、を備える音声合成装置１Ｃのコンピュータを、前記した入力文グラフ比較手段２０、前記したグラフ追加手段３０、前記した入力文追加グラフ比較手段４０、前記した音声選択手段５０、前記した音声接続手段６０、前記したアラインメント手段８０、前記したグラフ音声登録手段１１０、として機能させることができる。

以上、本発明に係る音声合成装置およびそのプログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。

例えば、音声合成装置１，１Ａ，１Ｂ，１Ｃは、前記したように、音声選択手段５０で選択された音声を音声接続手段６０によってそのまま接続していたが、例えば音声波形を調整して接続しても構わない。すなわち、音声合成装置１，１Ａ，１Ｂ，１Ｃは、図９に示すように、音声補正手段１２０を設け、音声選択手段５０で選択された音声について、当該音声の音声波形同士の接続部分における音の高低差を少なくするように補正し、音声接続手段６０によって、音声補正手段１２０で補正された音声の組み合わせを接続することとしても構わない。これにより、音声合成装置１，１Ａ，１Ｂ，１Ｃは、音声補正手段１２０によって複数の音声間のギャップを調整することができるため、合成する音声について、聴覚上の違和感の生じるおそれを是正することができる。

また、前記した音声合成装置１Ｃは、第１実施形態に係る音声合成装置１にアラインメント手段８０、音声蓄積手段９０、音声発話内容蓄積手段１００、グラフ音声登録手段１１０を追加した構成としたが、例えば第１実施形態の変形例に係る音声合成装置１Ａ，１Ｂ（図６および図７）にアラインメント手段８０、音声蓄積手段９０、音声発話内容蓄積手段１００、グラフ音声登録手段１１０を追加した構成としても構わない。このような構成であっても、前記した音声合成装置１Ｃと同様の効果を奏する。

１，１Ａ，１Ｂ，１Ｃ音声合成装置
１０，１０Ａグラフ群蓄積手段
２０，２０Ａ入力文グラフ比較手段
３０，３０Ａ，３０Ｂグラフ追加手段
４０，４０Ａ，４０Ｂ入力文追加グラフ比較手段
５０音声選択手段
６０音声接続手段
７０追加グラフ群蓄積手段
８０アラインメント手段
９０音声蓄積手段
１００音声発話内容蓄積手段
１１０グラフ音声登録手段
１２０音声補正手段

Claims

複数のノードと各ノード間の接続を表すエッジとで構成され、前記ノードのそれぞれに置換可能なテキストデータと対応する複数の音声が割り当てられて全体として文章を形成することができる有向グラフを使用して、入力された入力文に対応した音声を合成する音声合成装置であって、
複数の前記有向グラフを蓄積するグラフ群蓄積手段と、
前記入力文と、前記グラフ群蓄積手段に蓄積されている有向グラフとを比較することで、前記入力文と前記グラフ群蓄積手段に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る入力文グラフ比較手段と、
前記有向グラフのノードに含まれるテキストデータを全て集めて一つのノードとし、開始ノードからのエッジと、終了ノードへのエッジを加えることで、前記開始ノード、前記一つのノード、前記終了ノードおよびこれらのノード間のエッジから構成される新たな有向グラフを生成するグラフ追加手段と、
前記入力文グラフ比較手段において一致する有向グラフがなかった場合に、前記入力文と、前記グラフ追加手段で生成された新たな有向グラフとを比較することで、前記入力文と前記新たな有向グラフのノードにおけるテキストデータとの対応関係を得る入力文追加グラフ比較手段と、
前記入力文グラフ比較手段または前記入力文追加グラフ比較手段において得られた前記対応関係を用いて、前記ノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する音声選択手段と、
前記音声選択手段によって選択された音声の組み合わせを、前記入力文の構成順に接続する音声接続手段と、
を備えることを特徴とする音声合成装置。
音声の発話内容を示すテキストデータと対応付けられている複数の音声を蓄積する音声蓄積手段と、
予め入力された音声の発話内容を示すテキストデータを蓄積する音声発話内容蓄積手段と、
前記音声発話内容蓄積手段に蓄積された音声の発話内容を示すテキストデータと、当該音声の音声波形の対応する区間とを比較して対応付け、この対応付けた対応関係を前記音声蓄積手段に蓄積するアラインメント手段と、
予め入力された複数の前記有向グラフのいずれかと前記音声発話内容蓄積手段に蓄積された前記発話内容を示すテキストデータとを比較することで、前記発話内容を示すテキストデータが有向グラフをどのように通るか決定し、当該テキストデータと当該有向グラフとを対応づけて、その対応付けたテキストデータに対応する区間の音声を前記音声蓄積手段から取得して前記グラフ群蓄積手段に蓄積するグラフ音声登録手段と、
をさらに備えることを特徴とする請求項１に記載の音声合成装置。
前記音声選択手段で選択された音声において、当該音声の音声波形同士の接続部分における音の高低差を少なくするように補正する音声補正手段をさらに備え、
前記音声接続手段は、前記音声補正手段で補正された音声の組み合わせを接続することを特徴とする請求項１または請求項２に記載の音声合成装置。
複数のノードと各ノード間の接続を表すエッジとで構成され、前記ノードのそれぞれに置換可能なテキストデータと対応する複数の音声が割り当てられて全体として文章を形成することができる有向グラフを使用して、入力された入力文に対応した音声を合成するために、複数の前記有向グラフを蓄積するグラフ群蓄積手段を備える音声合成装置のコンピュータを、
前記入力文と、前記グラフ群蓄積手段に蓄積されている有向グラフとを比較することで、前記入力文と前記グラフ群蓄積手段に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る入力文グラフ比較手段、
前記有向グラフのノードに含まれるテキストデータを全て集めて一つのノードとし、開始ノードからのエッジと、終了ノードへのエッジを加えることで、前記開始ノード、前記一つのノード、前記終了ノードおよびこれらのノード間のエッジから構成される新たな有向グラフを生成するグラフ追加手段、
前記入力文グラフ比較手段において一致する有向グラフがなかった場合に、前記入力文と、前記グラフ追加手段で生成された新たな有向グラフとを比較することで、前記入力文と前記新たな有向グラフのノードにおけるテキストデータとの対応関係を得る入力文追加グラフ比較手段、
前記入力文グラフ比較手段または前記入力文追加グラフ比較手段において得られた前記対応関係を用いて、前記ノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する音声選択手段、
前記音声選択手段によって選択された音声の組み合わせを、前記入力文の構成順に接続する音声接続手段、
として機能させるための音声合成プログラム。