JP5975033B2

JP5975033B2 - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JP5975033B2
Application number: JP2013523778A
Authority: JP
Inventors: 康行三井; 玲史近藤; 正徳加藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-07-11
Filing date: 2012-06-08
Publication date: 2016-08-23
Anticipated expiration: 2032-06-08
Also published as: WO2013008385A1; JPWO2013008385A1

Description

本発明は、統計的手法を用いてテキストから合成された音声のポーズ長を変更する音声合成装置、音声合成方法および音声合成プログラムに関する。

近年、統計的手法を用いた音声合成方法が注目されている。統計的手法を用いた音声合成では、一般的にポーズ継続時間長（以下、ポーズ長と記す。）も学習対象であり、このポーズ長は、韻律モデルから生成される。ポーズ長も話者に依存して顕在化する特徴である。そのため、学習によりポーズ時間長を生成することで、一般的に、合成音声の自然性を高めることができる。

統計データを用いてポーズ長を決定する装置の一例が特許文献１に記載されている。特許文献１に記載された規則音声合成装置は、話者ごとにポーズ長の統計量（平均、標準偏差）を算出し、ポーズ前後の呼気段落のモーラ数や係り受けの距離に基づく重み係数を用いてポーズ長の予測値を算出する。

特開２００３−８４７８７号公報

一方、学習データの偏り度合いによっては、不適切なポーズが生成される場合がある。すなわち、このようなデータを用いた場合、合成音声に含まれるポーズ長が期待通りにならないことある。例えば、学習データのドメイン（どのような場面を想定して発声された内容であるか）と、生成される合成音のタスク（どのような場面で使うか）とが異なる場合や、学習データに複数のドメインが混在する場合、このような問題が顕著に現れる。

合成音声に不適切なポーズ長が含まれると、内容の理解の妨げになってしまう。そのため、合成音声に含まれるポーズ長を、聞き手にとって聞きやすい長さに設定できることが好ましい。

統計的手法を用いて音声合成を行う場合、大量の学習データを準備しておけば、任意のテキストについて適切なポーズ長の合成音声を生成することは可能である。しかし、準備できる学習データの量は限られており、全てのパタンを想定した学習データを準備することは現実的でない。さらに、大量の学習データを用いて学習したとしても、確率論的な統計的手法を用いている以上、必ずしも利用者が求めているポーズ長の合成音声が生成されるとは限らない。

また、特許文献１に記載された規則音声合成装置は、学習データに基づいて算出される予測値を用いてポーズ長を決定する。しかし、特許文献１に記載された規則音声合成装置では、入力テキストに基づいて統計モデルから生成された任意の箇所のポーズ長を期待通りのポーズ長に切り替えることは困難である。ポーズ長を切り替えるための学習データを準備することも考えられるが、上述の通り、期待通りの結果を得るためには非常に大量の学習データが必要になってしまい、現実的ではない。したがって、特許文献１に記載された規則音声合成装置を用いても、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を合成できるとは言い難い。

そこで、本発明は、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。

本発明による音声合成装置は、音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、要素の内容を示す情報としてその各要素に付加される情報である付加情報を、その要素のまとまりを構成する要素ごとに決定する付加情報決定手段と、付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定手段と、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換手段とを備えたことを特徴とする。

本発明による音声合成方法は、音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、要素の内容を示す情報としてその各要素に付加される情報である付加情報を、その要素のまとまりを構成する要素ごとに決定し、前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定し、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、テキストに含まれる要素の中から決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換することを特徴とする。

本発明による音声合成プログラムは、コンピュータに、音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、要素の内容を示す情報としてその各要素に付加される情報である付加情報を、その要素のまとまりを構成する要素ごとに決定する付加情報決定処理、前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定処理、および、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、置換対象決定処理で決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換処理を実行させることを特徴とする。

本発明によれば、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。

本発明による音声合成装置の第１の実施形態の構成例を示すブロック図である。テキスト解析結果と付加情報との関係の例を示す説明図である。ポーズ置換ルールの例を示す説明図である。ポーズ長を決定した結果の例を示す説明図である。第１の実施形態の音声合成装置の動作例を示すフローチャートである。本発明による音声合成装置の第２の実施形態の構成例を示すブロック図である。第２の実施形態の音声合成装置の動作例を示すフローチャートである。本発明による音声合成装置の第３の実施形態の構成例を示すブロック図である。ポーズ長指定部３１の構成例を示すブロック図である。第３の実施形態の音声合成装置の動作例を示すフローチャートである。付加情報およびポーズ長の例を示す説明図である。本発明による音声合成装置の最小構成の例を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明による音声合成装置の第１の実施形態の構成例を示すブロック図である。本実施形態における音声合成装置は、テキスト解析部１１と、付加情報判定部１２と、置換対象ポーズ判定部１３と、ポーズ長決定部１４と、ポーズ置換部１５と、状態継続長生成部１６と、ピッチパタン生成部１７と、波形生成部１８と、韻律モデル記憶部１９と、音素素片データベース（以下、音素素片ＤＢと記す。）記憶部２０とを備えている。

テキスト解析部１１は、入力テキスト２１に対して、例えば形態素解析等のテキスト解析処理を行う。また、テキスト解析部１１は、テキスト解析結果に対して、アクセント位置やアクセント句区切りなど、音声合成に必要な付加的情報を付与したり、変更を加えたりする処理を行う。ただし、テキスト解析部１１が行う言語解析処理は、上記内容に限定されない。テキスト解析部１１は、他にも、入力テキスト２１に含まれる文字の読みを解析する処理などを行う。

そして、テキスト解析部１１は、テキスト解析結果に基づいて、漢字や数字の読み、アクセントを表す情報（例えば、アクセント位置やアクセント区切りなど）、ポーズ位置などを含む発音情報２２を作成し、状態継続長生成部１６に出力する。また、テキスト解析部１１は、テキスト解析結果に基づいて、品詞の種類や、読み、動詞や形容詞等の活用形、係り受け情報などを含む情報を付加情報判定部１２に出力する。なお、テキスト解析部１１は、発音情報２２や入力テキスト２１そのものの情報を付加情報判定部１２に出力してもよい。

韻律モデル記憶部１９は、統計的手法で生成された韻律モデルを記憶する。韻律モデル記憶部１９は、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）により生成された韻律モデルを記憶する。

状態継続長生成部１６は、テキスト解析部１１によるテキスト解析結果および韻律モデル記憶部１９に記憶された韻律モデルに基づいて、各音素の状態継続長を計算する。

ピッチパタン生成部１７は、状態継続長生成部１６による計算結果および韻律モデルに基づいてピッチパタンを生成する。そして、ピッチパタン生成部１７は、状態継続長生成部１６および自身の処理結果に基づいて、少なくとも入力テキスト２１中のポーズ位置およびポーズ長を示す情報を含むポーズ長情報２４をポーズ置換部１５に入力する。

なお、ポーズ長情報２４には、ポーズ位置およびポーズ長を示す情報が含まれていればよい。ポーズ長情報２４は、例えば、韻律以外の情報を含んでいてもよい。そのため、ポーズ長情報２４は、統計モデルに基づいて入力テキスト２１から生成された少なくともポーズ位置およびポーズ長を示す情報であると言える。

また、ピッチパタン生成部１７は、合成音声の声の高さやテンポを指定する韻律情報２５を波形生成部１８に出力する。韻律情報２５には、例えば、基本周波数のパタンや、各音素の継続時間長を示す情報が含まれる。

付加情報判定部１２は、テキスト解析部１１が入力したテキスト解析結果と、予め定めておいた判定条件に基づいて、テキストに含まれる要素の内容を示す情報を判定して、そのテキストの各要素に付加する情報（以下、付加情報と記す。）を決定する。ここで、テキストに含まれる要素とは、テキストを構成する任意の単位を意味する。テキストに含まれる要素として、例えば、形態素、音素、音節、単語、文節、アクセント句、呼気段落、文全体などが挙げられる。また、テキストに含まれる要素の内容を示す情報の例として、（単独）数字、電話番号、住所、氏名、固有名詞などが挙げられる。このテキストに含まれる要素の内容を示す情報を、付加情報２３としてもよい。

また、入力テキスト２１やテキスト解析結果から判定できる内容であれば、判定条件には、任意の条件を設定可能である。例えば、判定条件を、各要素単位で定めておいてもよく、要素のまとまりごとに定めておいてもよい。また、入力テキスト２１の一部から判定可能な内容を判定条件として定めておいてもよい。

図２は、テキスト解析結果と付加情報との関係の例を示す説明図である。図２（Ａ）に示す例では、入力テキスト２１に文字列「０１２−３４５−６７８９」が含まれ、各文字が「数詞」または「記号（ハイフン）」と解析されたテキスト解析結果が付加情報判定部１２に入力されたことを示す。

ここで、判定条件として「ハイフンで区切られる１０桁程度の数詞の羅列は電話番号と判定する」や、「０から始まる１０桁程度の数詞の羅列は電話番号と判定する」が定められているとする。この場合、付加情報判定部１２は、入力テキスト２１またはテキスト解析結果から、「０１２−３４５−６７８９」を電話番号と判定する。そして、付加情報判定部１２は、電話番号を構成する文字ごとに付加情報を決定する。この場合、電話番号を構成する各文字についての判定条件を予め定めておけばよい。図２（Ｂ）は、付加情報の判定結果例を示す。なお、単独数字を判断する場合、「ポーズに挟まれた数詞を単独数字と判断する」ことを示す判定条件を定めておけばよい。

他にも、付加情報判定部１２は、文段落のモーラ長や呼気段落のモーラ長などで表される長さ情報や、文頭段落または呼気段落の先頭からの距離（すなわち、モーラ数）などで表される位置情報、単語の羅列であるか否かを示す情報などをテキスト解析結果から抽出してもよい。そして、付加情報判定部１２は、抽出したこれらの情報を判定条件とマッチングさせて、付加情報を決定してもよい。

なお、本実施形態では、付加情報判定部１２がテキストの各要素に付加する付加情報を決定する場合を例に説明した。ただし、ユーザ等が付加情報を手動で付加するようにしてもよい。また、入力テキスト２１が予め付加情報を含むようにしてもよい。この場合、付加情報判定部１２は、付加情報を決定する必要はないため、音声合成装置は、付加情報判定部１２を備えていなくてもよい。

置換対象ポーズ判定部１３は、ポーズ長を置換する対象を判定する。具体的には、置換対象ポーズ判定部１３は、ポーズ長を置換する対象ごとにポーズの置換方法を規定したルール（以下、ポーズ置換ルールと記す。）に基づいて、ポーズ長を置換する対象を判定する。本実施形態の説明では、ポーズ置換ルールが付加情報ごとに定められているものとする。この場合、置換対象ポーズ判定部１３は、ポーズ置換ルールに規定された付加情報をポーズ長を置換する対象の付加情報と判定する。ここで、ポーズ長を置換する対象とは、その対象の前または後の少なくとも一方にポーズが挿入されるもの、または、対象自身の中にポーズを含むものを意味する。前者の例として、数字などの文字が挙げられる。後者の例として、電話番号や、文または呼気段落全体などが挙げられる。

図３は、ポーズ置換ルールの例を示す説明図である。図３に示す例では、ポーズ置換ルールが、付加情報とその付加情報が付加された要素の直前直後の置換ポーズ長とを対応づけたルールであることを示す。図３に例示するポーズ置換ルールは、付加情報に「電話番号（先頭）」が含まれている場合、その付加情報が付された要素の直前のポーズ長を「中」程度の長さに置き換え、その要素の直後のポーズ長を「短」程度の長さに置き換えることを意味している。ポーズの置換え位置は、処理対象の直前または直後のいずれか一方であってもよく、処理対象の直前および直後の両方であってもよい。

ポーズ長決定部１４は、置換対象ポーズ判定部１３が判定したポーズ長を置換する処理の対象ごとに、置換後のポーズ長を決定する。具体的には、ポーズ長決定部１４は、上述するポーズ置換ルールに基づいて、処理対象ごとに置換するポーズのポーズ長を決定する。なお、ポーズ長決定部１４は、処理対象の直前または直後のいずれか一方のポーズ長を決定してもよく、処理対象の直前および直後の両方のポーズ長を決定してもよい。ポーズ長を決定する対象は、ポーズ置換ルールに基づいて判断される。なお、本実施形態では、ポーズ長決定部１４は、付加情報が付加された要素の直前または直後のうちの少なくとも一方のポーズ長を決定する。

なお、判定条件間で齟齬が生じた場合の処理については、利用者が任意に定めておけばよい。この場合の処理として、例えば、先の条件を優先する、後の条件を優先する、ポーズが長い（または、短い）方を優先するなどが考えられる。

図４は、ポーズ長を決定した結果の例を示す説明図である。図４に例示するポーズ長は、図２に例示する付加情報をもとにポーズ長決定部１４が処理対象（ここでは、電話番号を構成する各数字）の直後のポーズ長をそれぞれ決定したことを示す。

ポーズ置換部１５は、入力されたポーズ長情報２４のうち、置換対象ポーズ判定部１３が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換する。本実施形態では、ポーズ置換部１５は、入力されたポーズ長情報２４のうち、置換対象ポーズ判定部１３が決定した置換対象の位置に対応する各ポーズ位置のポーズ長をポーズ長決定部１４が決定したポーズ長に置換する。

なお、本発明において、「ポーズ長を置換する」とは、元のポーズ長を新しいポーズ長で置換することを意味するだけでなく、元のポーズ長に所定の演算（例えば、加減算、一定の割合を乗じる、など）を行うことでポーズ長を変更することも意味する。

音素素片ＤＢ記憶部２０は、音声を作成する単位（素片）ごとの属性を記憶する。属性には、各音素の波形や、母音／子音を示す情報、有声／無声を示す情報などが含まれる。以下、この属性が示す情報のことを素片情報と記す。

波形生成部１８は、ピッチパタン生成部１７から入力された韻律情報２５、ポーズ置換部１５がポーズ長を置換したポーズ長情報２４、および、音素素片ＤＢ記憶部２０に記憶された素片情報に基づいて、音声波形を生成する。言い換えると、波形生成部１８は、これらの情報に基づいて合成音声２６を生成する。

テキスト解析部１１と、付加情報判定部１２と、置換対象ポーズ判定部１３と、ポーズ長決定部１４と、ポーズ置換部１５と、状態継続長生成部１６と、ピッチパタン生成部１７と、波形生成部１８とは、プログラム（音声合成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、音声合成装置の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、テキスト解析部１１、付加情報判定部１２、置換対象ポーズ判定部１３、ポーズ長決定部１４、ポーズ置換部１５、状態継続長生成部１６、ピッチパタン生成部１７、及び波形生成部１８として動作してもよい。

また、テキスト解析部１１と、付加情報判定部１２と、置換対象ポーズ判定部１３と、ポーズ長決定部１４と、ポーズ置換部１５と、状態継続長生成部１６と、ピッチパタン生成部１７と、波形生成部１８とは、それぞれが専用のハードウェアで実現されていてもよい。また、韻律モデル記憶部１９、及び音素素片ＤＢ記憶部２０は、例えば、磁気ディスク等により実現される。

次に、本実施形態における音声合成装置の動作を説明する。図５は、本実施形態の音声合成装置の動作例を示すフローチャートである。まず、テキスト解析部１１は、入力テキスト２１のテキスト解析を行う（ステップＳ１１）。状態継続長生成部１６は、テキスト解析を行った結果生成された発音情報２２と韻律モデルとに基づいて、状態継続長を算出する（ステップＳ１２）。そして、ピッチパタン生成部１７は、韻律モデルと状態継続長とからピッチパタンを生成し（ステップＳ１３）、ポーズ長情報２４をポーズ置換部１５に入力する。

一方、付加情報判定部１２は、テキスト解析部１１による入力テキスト２１のテキスト解析結果と、予め定めておいた判定条件とに基づいて、テキストの各要素に付加する付加情報の判定処理を行う（ステップＳ１４）。置換対象ポーズ判定部１３は、決定された付加情報２３とポーズ置換ルールとに基づいて、ポーズ長を置換する処理対象を判定する（ステップＳ１５）。そして、ポーズ長決定部１４は、置換対象ポーズ判定部１３が判定した処理対象ごとに置換するポーズ長を決定する（ステップＳ１６）。

ポーズ置換部１５は、入力されたポーズ長情報２４のうち、置換対象ポーズ判定部１３が判定した処理対象のポーズ位置に対応するポーズ長をポーズ長決定部１４が決定したポーズ長に置換する（ステップＳ１７）。そして、波形生成部１８は、韻律情報２５、ポーズ長が置換されたポーズ長情報２４、および音素素片ＤＢ記憶部２０に記憶された素片情報に基づいて、合成音声２６を生成する（ステップＳ１８）。

以上のように、本実施形態によれば、置換対象ポーズ判定部１３が、ポーズ置換ルールに基づいて、入力テキスト２１に含まれる要素の中から置換対象を決定する。そして、ポーズ置換部１５が、ポーズ長情報２４に含まれる情報のうち、置換対象ポーズ判定部１３が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換する。具体的には、置換対象ポーズ判定部１３が、付加情報ごとにポーズの置換方法を規定したポーズ置換ルールに基づいて、入力テキスト２１に含まれる要素の中から置換対象を決定する。

よって、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。その結果、利用者にとって期待通りの長さのポーズが挿入された合成音が生成される。

例えば、ニュースが読み上げられるような場合、統計モデルによって生成されるポーズ継続時間長が好適なポーズ長と言える。このような場合には、各ポーズ長を置換する必要がない場合が多い。一方、例えば、自動音声応答（Interactive Voice Response：ＩＶＲ）システムでは、意図的にポーズ長を変えた方が聞き手にとって内容が理解しやすくなる場合が多い。

例えば、数字や商品名の直後のポーズを長くすることで、内容の確認が容易になる。また、音声に電話番号が含まれる場合、電話番号の各数字間には適度な長さのポーズが含まれることが望ましい。数字間のポーズが短すぎると聞き取りが困難になり、数字間のポーズが長すぎると電話番号として認識することが困難になるからである。本実施形態による音声合成装置は、このような場面に適用可能である。

実施形態２．
図６は、本発明による音声合成装置の第２の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、テキスト解析部１１と、置換対象ポーズ判定部１３ａと、ポーズ長決定部１４と、ポーズ置換部１５と、状態継続長生成部１６と、ピッチパタン生成部１７と、波形生成部１８と、韻律モデル記憶部１９と、音素素片ＤＢ記憶部２０とを備えている。すなわち、本実施形態における音声合成装置は、付加情報判定部１２を備えていない点において、第１の実施形態における音声合成装置と異なる。

第１の実施形態では、ポーズ置換ルールが付加情報ごとに定められている場合について説明した。本実施形態では、ポーズ置換ルールとして、文または呼気全体におけるポーズの置換方法が規定されている場合について説明する。

置換対象ポーズ判定部１３ａは、文または呼気全体をポーズ長の置換対象としたポーズ置換ルールに基づいて、ポーズ長を置換する処理の対象を決定する。例えば、ポーズ置換ルールが、「文または呼気段落の長さがＮモーラ以上の場合、文全体のポーズ長を２割短くする」と規定されているとする。この場合、置換対象ポーズ判定部１３ａは、文または呼気段落の長さがＮモーラ以上か否かを判定する。この条件を満たす場合、置換対象ポーズ判定部１３ａは、ポーズ長を置換する処理対象を文全体と決定する。

ポーズ長決定部１４は、ポーズ置換ルールに基づいて、文または呼気段落に含まれるポーズごとに置換するポーズ長を決定する。上記例の場合、ポーズ長決定部１４は、文全体に含まれるポーズごとにポーズ長を２割短くする演算を行う。

そして、ポーズ置換部１５は、文全体に含まれる各ポーズのポーズ長をポーズ長決定部１４が算出したポーズ長で置き換える。なお、この場合、ポーズ長決定部１４が行う演算処理をポーズ置換部１５が行ってもよい。具体的には、ポーズ置換部１５が、ポーズ長情報２４に含まれるポーズ長を２割短くする処理を行ってもよい。

なお、テキスト解析部１１と、置換対象ポーズ判定部１３ａと、ポーズ長決定部１４と、ポーズ置換部１５と、状態継続長生成部１６と、ピッチパタン生成部１７と、波形生成部１８とは、プログラム（音声合成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。

次に、本実施形態における音声合成装置の動作を説明する。図７は、本実施形態の音声合成装置の動作例を示すフローチャートである。テキスト解析部１１が入力テキスト２１のテキスト解析を行い、状態継続長生成部１６が状態継続長を算出し、ピッチパタン生成部１７がピッチパタンを生成するステップＳ１１〜ステップＳ１３の処理は、図５に例示する処理と同様である。

一方、置換対象ポーズ判定部１３ａは、ポーズ置換ルールに基づいてポーズ長を置換する処理対象を判定する（ステップＳ１９）。すなわち、本実施形態では、付加情報を用いない点において図５に例示するステップＳ１４〜ステップＳ１５の処理と異なる。

以降、ポーズ長決定部１４が処理対象ごとに置換するポーズ長を決定し、ポーズ置換部１５によって置換されたポーズ長に基づいて波形生成部１８が合成音声２６を生成するステップＳ１６〜ステップＳ１８の処理は、図５に例示する処理と同様である。

以上のように、本実施形態でも、置換対象ポーズ判定部１３ａが、ポーズ置換ルールに基づいて、入力テキスト２１に含まれる要素の中から置換対象を決定する。そして、ポーズ置換部１５が、ポーズ長情報２４に含まれる情報のうち、置換対象ポーズ判定部１３ａが決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換する。また、本実施形態では、置換対象ポーズ判定部１３ａが、文または呼気全体を置換対象としたポーズ置換ルールに基づいて、入力テキスト２１に含まれる要素の中から置換対象を決定する。よって、第１の実施形態と同様に、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。

実施形態３．
図８は、本発明による音声合成装置の第３の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、テキスト解析部１１と、付加情報判定部１２と、置換対象ポーズ判定部１３と、ポーズ長指定部３１と、ポーズ置換部１５と、状態継続長生成部１６と、ピッチパタン生成部１７と、波形生成部１８と、韻律モデル記憶部１９と、音素素片ＤＢ記憶部２０とを備えている。すなわち、本実施形態における音声合成装置は、ポーズ長決定部１４の代わりにポーズ長指定部３１を備えている点において、第１の実施形態における音声合成装置と異なる。

図９は、ポーズ長指定部３１の構成例を示すブロック図である。ポーズ長指定部３１は、ポーズ位置表示部３２と、ポーズ長入力部３３とを含む。ポーズ位置表示部３２は、置換対象ポーズ判定部１３が判定した処理対象のポーズをポーズ長情報２４から特定する。そして、ポーズ位置表示部３２は、特定したポーズの位置およびそのポーズの長さをユーザ等が識別できるように表示する。ポーズ位置表示部３２は、例えば、入力テキスト２１とともに、その入力テキスト２１内の処理対象のポーズ位置に予め定めた記号や図形などを表示してもよい。また、ポーズ位置表示部３２は、ポーズ位置に韻律モデルにより算出されたポーズ長を表示するようにしてもよい。ただし、ポーズ位置およびポーズ長の表示方法は、上記方法に限定されない。ポーズ位置表示部３２は、例えばディスプレイやタッチパネル等により実現される。

ポーズ長入力部３３は、ポーズ位置表示部３２に識別可能に表示されたポーズのうち、変更するポーズに対するポーズ長の入力をユーザから受け付ける。そして、ポーズ長入力部３３は、変更を受け付けたポーズ長をポーズ置換部１５に入力する。以降、ポーズ置換部１５は、対象とするポーズのポーズ長をポーズ長入力部３３に入力された変更後のポーズ長に置換する。なお、ポーズ長入力部３３は、例えば、タッチパネルやキーボード等により実現される。

次に、本実施形態における音声合成装置の動作を説明する。図１０は、本実施形態の音声合成装置の動作例を示すフローチャートである。テキスト解析部１１が入力テキスト２１のテキスト解析を行ってから、置換対象ポーズ判定部１３がポーズ長を置換する処理対象を判定するステップＳ１１〜ステップＳ１５の処理は、図５に例示する処理と同様である。

ポーズ位置表示部３２は、置換対象ポーズ判定部１３が判定した処理対象のポーズ位置をポーズ長情報２４から特定する。そして、ポーズ位置表示部３２は、特定したポーズ位置およびポーズ長を表示する（ステップＳ２０）。ポーズ長入力部３３は、変更するポーズ長の入力をユーザから受け付け（ステップＳ２１）、入力されたポーズ長をポーズ置換部１５に入力する。

以降、ポーズ置換部１５が、入力されたポーズ長でポーズ長を置換し、置換されたポーズ長に基づいて波形生成部１８が合成音声２６を生成するステップＳ１７〜ステップＳ１８の処理は、図５に例示する処理と同様である。

以上のように、本実施形態によれば、ポーズ位置表示部３２が、置換対象ポーズ判定部１３が置換対象と決定した位置に対応するポーズをポーズ情報から特定し、特定したポーズのポーズ位置およびそのポーズの長さを識別可能に表示する。また、ポーズ長入力部３３は、ポーズ位置表示部３２に識別可能に表示されたポーズに対して変更後のポーズ長の入力を受け付ける。そして、ポーズ置換部１５が、ポーズ長情報２４のポーズ長をポーズ長入力部３３に入力された変更後のポーズ長に置換する。よって、第１の実施形態および第２の実施形態の効果に加え、内容を理解しやすい適切な長さのポーズが挿入された音声を聞き手の感覚に応じて合成できる。

以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、「お客さまの電話番号は、０１２３４５６７８９、よろしければ、１、間違っている場合は、２、を押してください。」と記載された入力テキスト２１がテキスト解析部１１に入力されるものとする。図１１は、付加情報およびポーズ長の例を示す説明図である。

付加情報判定部１２は、テキスト解析部１１によるテキスト解析結果および判定条件に基づいて、付加情報を決定する。本実施例では、「電話番号」または「数字」を付加情報として入力テキスト２１の要素に付加するものとする。処理結果の例を図１１（Ａ）に示す。

置換対象ポーズ判定部１３は、ポーズ長の置換処理を行う対象の付加情報を判定する。本実施例では、置換対象ポーズ判定部１３は、「電話番号」および「数字」を対象にポーズの置換処理を行うと決定する。なお、どの付加情報を置換処理の対象とするか否かは、ポーズ置換ルールに予め定められている。

ポーズ長決定部１４は、置換対象ポーズ判定部１３が判定したポーズ長の置換処理を行う対象ごとに、置換後のポーズ長を決定する。本実施例では、ポーズ置換ルールには、数字の直前は中程度のポーズ長に置き換え、数字の直後は長めのポーズ長に置き換え、電話番号の数字間は短めのポーズ長に置き換えるルールが規定されているものとする。さらに、ポーズ置換ルールには、市外局番等の境界は中程度のポーズ長に置き換えるとルールが規定されているものとする。処理結果の例を図１１（Ｂ）に示す。

ポーズ置換部１５は、図９（Ｂ）に例示する「直後のポーズ長」に相当する長さでポーズ長情報２４の各ポーズ長を置換する。そして、波形生成部１８は、ポーズ長置換後のポーズ長情報２４と、韻律情報２５と、素片情報に基づいて、合成音声２６を生成する。

次に、本発明の最小構成例を説明する。図１２は、本発明による音声合成装置の最小構成の例を示すブロック図である。本発明による音声合成装置８０は、ポーズ長を置換する対象である置換対象（例えば、付加情報、文／呼気段落）ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキスト（例えば、入力テキスト２１）に含まれる要素（例えば、数字、電話番号など）の中から置換対象を決定する置換対象決定手段８１（例えば、置換対象ポーズ判定部１３）と、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報（例えば、ポーズ長情報２４）のうち、置換対象決定手段８１が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換手段８２（例えば、ポーズ置換部１５）とを備えている。

そのような構成により、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。

また、置換対象決定手段８１は、音声合成の対象とするテキストに含まれる要素の内容を示す情報として各要素に付加される情報である付加情報（例えば、数字、電話番号など）ごとにポーズの置換方法を規定したポーズ置換ルールに基づいて、テキストに含まれる要素の中から置換対象を決定してもよい。

また、音声合成装置８０は、音声合成の対象とするテキストの解析結果と予め定めておいた判定条件とに基づいて、そのテキストに含まれる要素の内容を示す情報を判定し、テキストの各要素に付加する付加情報を決定する付加情報決定手段（例えば、付加情報判定部１２）を備えていてもよい。

また、置換対象決定手段８１は、文または呼気全体を置換対象としたポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から置換対象を決定してもよい。

また、音声合成装置８０は、置換対象ごとにポーズ長を規定したルール（例えば、ポーズ置換ルール）に基づいて、ポーズ長を決定するポーズ長決定手段（例えば、ポーズ長決定部１４）を備えていてもよい。そして、ポーズ長置換手段８２は、ポーズ情報のうち、置換対象決定手段８１が決定した置換対象の位置に対応する各ポーズ位置のポーズ長をポーズ長決定手段が決定したポーズ長に置換してもよい。

また、音声合成装置８０は、置換対象決定手段８１が置換対象と決定した位置に対応するポーズをポーズ情報から特定し、特定したポーズのポーズ位置およびそのポーズの長さを識別可能に表示するポーズ表示手段（例えば、ポーズ位置表示部３２）と、ポーズ表示手段に識別可能に表示されたポーズに対して変更後のポーズ長の入力を受け付ける入力手段（例えば、ポーズ長入力部３３）とを備えていてもよい。そして、ポーズ長置換手段８２は、ポーズ情報のポーズ長を入力手段に入力された変更後のポーズ長に置換してもよい。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１１年７月１１日に出願された日本特許出願２０１１−１５２８５０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、統計的手法を用いてテキストから合成された音声のポーズ長を変更する音声合成装置に好適に適用される。

１１テキスト解析部
１２付加情報判定部
１３，１３ａ置換対象ポーズ判定部
１４ポーズ長決定部
１５ポーズ置換部
１６状態継続長生成部
１７ピッチパタン生成部
１８波形生成部
１９韻律モデル記憶部
２０音素素片データベース記憶部
３１ポーズ長指定部
３２ポーズ位置表示部
３３ポーズ長入力部

Claims

音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定する付加情報決定手段と、
前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定手段と、
統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換手段とを備えた
ことを特徴とする音声合成装置。
置換対象ごとにポーズ長を規定したルールに基づいて、ポーズ長を決定するポーズ長決定手段を備え、
ポーズ長置換手段は、ポーズ情報のうち、置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を前記ポーズ長決定手段が決定したポーズ長に置換する
請求項１記載の音声合成装置。
置換対象決定手段が置換対象と決定した位置に対応するポーズをポーズ情報から特定し、特定したポーズのポーズ位置および当該ポーズの長さを識別可能に表示するポーズ表示手段と、
前記ポーズ表示手段に識別可能に表示されたポーズに対して変更後のポーズ長の入力を受け付ける入力手段とを備え、
ポーズ長置換手段は、ポーズ情報のポーズ長を前記入力手段に入力された変更後のポーズ長に置換する
請求項１または請求項２に記載の音声合成装置。
音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、
前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定し、
前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定し、
統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記テキストに含まれる要素の中から決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換する
ことを特徴とする音声合成方法。
コンピュータに、
音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定する付加情報決定処理、
前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定処理、および、
統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記置換対象決定処理で決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換処理
を実行させるための音声合成プログラム。