JP6197362B2 - 音声合成方法、プログラム、及び装置 - Google Patents

音声合成方法、プログラム、及び装置 Download PDF

Info

Publication number
JP6197362B2
JP6197362B2 JP2013105325A JP2013105325A JP6197362B2 JP 6197362 B2 JP6197362 B2 JP 6197362B2 JP 2013105325 A JP2013105325 A JP 2013105325A JP 2013105325 A JP2013105325 A JP 2013105325A JP 6197362 B2 JP6197362 B2 JP 6197362B2
Authority
JP
Japan
Prior art keywords
range
emphasis
enhancement
information
rear end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013105325A
Other languages
English (en)
Other versions
JP2014228556A (ja
Inventor
村瀬 健太郎
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013105325A priority Critical patent/JP6197362B2/ja
Publication of JP2014228556A publication Critical patent/JP2014228556A/ja
Application granted granted Critical
Publication of JP6197362B2 publication Critical patent/JP6197362B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

開示の技術は、音声合成方法、音声合成プログラム、及び音声合成装置に関する。
合成音声は一定の調子で再生されることが多く、重要なポイントを聴取者に十分に伝えることが困難である。合成音声で再生される文章で強調表現を実現するために、文に含まれる副詞を強調する手法、及び文に含まれる単語を指定して、該単語を強調する手法が提案されている。
特開2002−311982号 特開平5−19780号
しかしながら、副詞を強調する手法、及び指定された単語を強調する手法では、合成音声で再生される文全体にわたって自然な強調表現を実現することは困難である、という問題がある。
開示の技術は、一つの側面として、文全体にわたる自然な強調表現を実現する合成音声を生成することが目的である。
開示の技術は、音声出力する場合に音声を強調する強調範囲を示す強調範囲情報が設定されている文字列及び呼気段落情報を含む文字情報を入力する。また、開示の技術は、前記文字情報に含まれる文字列に対して、前記強調範囲情報で示される強調範囲の前方及び後方の少なくとも一方に、前記呼気段落情報に基づいて、該強調範囲を拡張する拡張範囲を設定する。また、開示の技術は、前記強調範囲及び前記拡張範囲の各々に、該強調範囲及び該拡張範囲に含まれる前記文字列の音声を強調する韻律制御パラメータを設定し、設定された韻律制御パラメータに基づいて前記文字列の音声を合成して出力する。呼気段落情報は、音声の区切りを示す呼気段落境界情報及びアクセントの高低及びアクセント句の境界を示すアクセント情報を含む。
開示の技術は、一つの側面として、文全体にわたる自然な強調表現を実現する合成音声を生成することができる、という効果を有する。
音声合成装置の一例を示すブロック図である。 音声合成処理の一例を示すフローチャートである。 形態素解析を説明するためのイメージ図である。 単語辞書データベースの単語辞書テーブルの一例を示すイメージ図である。 拡張範囲設定処理の一例を示すフローチャートである。 第1実施形態における前方拡張範囲の設定処理の一例を示すフローチャートである。 第1実施形態における先端拡張範囲の設定処理の一例を示すフローチャートである。 第1実施形態における先端拡張範囲の設定処理の一例を示すフローチャートである。 第1実施形態における後端拡張範囲の設定処理の一例を示すフローチャートである。 文字情報の一例を示すイメージ図である。 文字情報の一例を示すイメージ図である。 強調規則データベースの強調規則テーブルの一例を示すイメージ図である。 第2実施形態における先端拡張範囲の設定処理及び前方拡張範囲の設定処理の一例を示すフローチャートである。 第3実施形態における後端拡張範囲の設定処理の一例を示すフローチャートである。 第3実施形態における後端拡張範囲の設定処理の一例を示すフローチャートである。 第4実施形態における後端拡張範囲の設定処理及び後方拡張範囲の設定処理の一例を示すフローチャートである。 音声合成装置として機能するコンピュータの一例を示すブロック図である。
以下、図面を参照して開示の技術の一例を詳細に説明する。なお、同一または対応する構成要素には同様の参照符号を付し、適宜説明を省略する。
[第1実施形態]
図1に、第1実施形態に係る音声合成装置100の一例を示す。音声合成装置100は、制御部150、形態素解析部120、構文解析部125、強調範囲検出部130、拡張範囲設定部135、強調規則設定部140、音声合成部145、及びインタフェース部160を含む。制御部150は、形態素解析部120、構文解析部125、強調範囲検出部130、拡張範囲設定部135、強調規則設定部140、音声合成部145、及びインタフェース部160と接続されている。
形態素解析部120は単語辞書データベース122と接続されており、強調規則設定部140は強調規則データベース142と接続されており、音声合成部145は波形辞書データベース147と接続されている。この例では、単語辞書データベース122、強調規則データベース142、波形辞書データベース147は、音声合成装置100の内部に設けられているが、外部に設けられていてもよい。
音声合成装置100は、インタフェース部160を介して、入力部110、音声出力部115、及び文字・図形出力部117と接続されている。入力部110は、例えば、キーボード、マウス、スキャナなどであってよく、音声出力部115は、例えば、スピーカなどであってよく、文字・図形出力部117は、例えば、ディスプレイなどであってよい。また、インタフェース部160には、入力部110及び文字・図形出力部117の機能を兼ね備えるタッチパネルディスプレイなどが接続されていてもよい。
図2のステップ210において、入力部110は、音声を強調する強調範囲を示す強調範囲情報が設定されている文字列を含む文字情報が入力されるまで待機する。強調範囲情報は、例えば、文字列の部分に付加された下線であってもよいが、これに限定されず、例えば、該文字列の部分を囲む図形であってもよいし、該文字列の部分に付加されたマーカなどであってよい。強調範囲は1つあればよいが、複数であってもよい。
文字情報が入力されると、ステップ220において、強調範囲検出部130は、入力された文字情報から強調範囲情報に基づいて強調範囲を検出する。
ステップ230において、形態素解析部120は、入力された文字情報に対して、形態素解析を行う。形態素解析の手法には、例えば、ビタビアルゴリズム及び最小一致法などがあるが、これらに限定されない。
図3を用いて、形態素解析の一例を説明する。例えば、「今日は晴れ。」というひらがな及び漢字の文字列を含む文字情報が、単語辞書データベース122を用いて、形態素解析によって、あり得る形態素の組み合わせの文字列に展開される。図4に一例を示す単語辞書データベース122の単語辞書テーブルには、形態素の表記、読み、アクセント、及び品詞などが登録されている。単語辞書テーブルには、単語だけではなく、動詞の語幹、活用語尾、助詞、及び助動詞なども登録されている。
アクセントとは、モーラ(拍)毎に割り当てられている音の高低である。
モーラは、日本語のリズムの単位である。直音(拗音が付かない音、例えば、「ア」)は1文字が1モーラであり、拗音(例えば、「キャ」)は2文字で1モーラであり、特殊音(撥音「ン」、促音「ッ」、長音「ー」)は1文字で1モーラである。
形態素の組み合わせを列挙した後、形態素間の接続スコアを用いて、最適な形態素の組み合わせを求める。求めた組み合わせによって、文字列を構成する形態素が決定されると共に、読み、アクセント情報も決定される。図3は、太線で接続されている組み合わせが最適であるとされた例である。
例えば、動詞の語幹の後に動詞の活用語尾は接続し易いが、名詞の後に動詞の活用語尾は接続し難いので、動詞の語幹の後に動詞の活用語尾が存在するほうが、名詞の後に動詞の活用語尾が存在する場合よりも、接続スコアが高くなる。また、接続スコアだけでなく、文字数が長い形態素を優先するなどのルールを適用して、最適な形態素の組み合わせを求めてもよい。
ステップ240において、構文解析部125は、形態素を文節にまとめ、文節間の係り受け関係を解析する。構文解析の手法には、例えば、トップダウン構文解析法及びボトムアップ構文解析法などがあるが、これらに限定されない。
ステップ250において、拡張範囲設定部135は、形態素解析部120によって出力される読み、アクセント情報が付与された文字情報に含まれる文字列に対して、強調範囲の前方及び後方の少なくとも一方に、文字情報が含む音声の区切りを示す呼気段落情報に基づいて、強調範囲を拡張する拡張範囲を設定する。
文字情報に含まれる文字列である文全体にわたる自然な強調表現を実現するために、強調範囲の前後の範囲も含めた強調を行う。
例えば、特定の単語のみの強調を行うと、その特定の単語のみが急激に強調され、周囲と韻律が調和せず、不自然な強調表現となる。例えば、文字単位で強調範囲が指定されている場合に、強調範囲が指定された文字を含むアクセント句を強調しても、自然な強調表現を実現することはできない。人間の発声において自然に行われる強調では、アクセント句よりも広い範囲にわたって強調表現がされるためである。
韻律は、ピッチ(声の高さ)、話速、及び音量を含む音声の特徴である。
アクセント句は、アクセント型を決める最小の単位である。1つのアクセント句には、0型を除いて、アクセント核が1つだけ存在する。アクセント句は文節と一致することが多いが、文節と一致しない場合もある。
アクセントが「高」から「低」に変わるときの境目の「高」の位置をアクセント核と呼び、nモーラ目がアクセント核の「高」であるとき、n型アクセントと呼ぶ。0型アクセントとは、アクセント核がない単語である。
ステップ260において、強調規則設定部140は、強調規則データベース142を参照して、強調範囲及び拡張範囲の各々に対して、該強調範囲及び該拡張範囲に含まれる文字列の音声を強調する韻律制御パラメータを設定する。
ステップ270において、音声合成部145は、強調範囲及び拡張範囲に含まれる文字列に対し、韻律制御パラメータを適用し、かつ、波形辞書データベース147を参照して、音声を合成する。
ステップ280において、音声出力部115は、合成された音声を出力する。
図2に示したステップの順番は一例に過ぎず、順番は適宜変更してよい。
また、図1及び図2によって示す実施例では、平仮名及び漢字の文字列で構成される文字列を入力としている。そして、形態素解析部120(ステップ230)、構文解析部125(ステップ240)によって入力文字列を読み及びアクセント、呼気段落情報を表す表音文字列に変換している。しかし、形態素解析部120(ステップ230)、構文解析部125(ステップ240)を省略し、入力部110から直接表音文字列を入力するようにしてもよい。
ステップ250の拡張範囲設定処理では、図5に示すように、ステップ252で、強調範囲の前方に拡張範囲を拡張する前方拡張範囲を設定する。ステップ254で、前方拡張範囲の前方にさらに先端拡張範囲を設定する。
次のステップ256で、強調範囲の後方に強調範囲を拡張する後方拡張範囲を設定する。ステップ258で、後方拡張範囲の後方にさらに後端拡張範囲を設定する。
ステップ252〜258の処理の全てが行われる必要はなく、ステップ254もしくはステップ258のいずれかが行われてもよい。また、図5に示したステップの順番は一例であり、例えば、ステップ256及びステップ258がステップ252及びステップ254の前に行われてもよい。
第1実施形態では、ステップ252の前方拡張範囲の設定、ステップ254の先端拡張範囲の設定、及びステップ258の後端拡張範囲の設定が行われる例を示す。
図6はステップ252の前方拡張範囲処理の詳細を示す。この例では、アクセント句の境界を示すアクセント句境界情報に基づいて、前方拡張範囲を設定する。
ステップ310で、強調範囲先端がアクセント句の先端であるか否か判断する。強調範囲先端がアクセント句の先端でない場合、ステップ320で、強調範囲先端を前方に1モーラ移動することにより強調範囲を拡張する。強調範囲先端がアクセント句の先端となるまで、ステップ310及びステップ320の処理を繰り返す。
強調範囲先端がアクセント句の先端となった場合、前方拡張範囲の設定は終了する。ここで、拡張された範囲を前方拡張範囲と呼ぶ。
図9の例5の仮名漢字文字列で強調範囲を下線で示した文字情報が図2のステップ210で入力された場合、ステップ220で、強調範囲として下線で示した範囲が検出される。さらに、ステップ230の形態素解析及びステップ240の構文解析の結果、例5の表音文字列が取得される。
例5
仮名漢字文字列:昨日は雨でしたが今日良い天気です。
表音文字列:キノ’ーワ△ア’メ△デ’シタガ△キョ’ー△ヨ’イ△テ’ンキデス.
表音文字列は、「読み」をカタカナで表記し、アクセントを示すアクセント記号を含む文字列である。表音文字列の表記は一例であり、これに限定されない。
アクセント記号「’」は、アクセント核のモーラの後方に付される。
他に、表音文字列では、音声の区切りを示す記号「,」、及びアクセント句の境界を示す記号「△」が使用される。
強調範囲は下線で示されている「キョ’ー」の「」である。「」はアクセント句の先端ではないため、強調範囲の先端は左に1モーラ移動する。「キョ’ーワ」の「キョ」はアクセント句の先端であるため、強調範囲の先端が「キ」まで移動すると、前方拡張範囲の設定は終了する。「キョ’ー」が前方拡張範囲として設定される。
前方拡張範囲は強調範囲に含められ、以下、下記に示す通り、「キョ’ーワ」の範囲が強調範囲となる。
キノ’ーワ△ア’メ△デ’シタガ△キョ’ーワ△ヨ’イ△テ’ンキデス.
図7Aにステップ254の先端拡張範囲設定処理の詳細を示す。この例では、音声の区切りを示す呼気段落境界情報に基づいて、前方強調範囲の前方にさらに先端拡張範囲を設定する。
ステップ340で、強調範囲の先端が呼気段落の先端か否かを判断する。強調範囲の先端が呼気段落の先端でない場合、ステップ350で、強調範囲の先端を1モーラ前方に移動することにより強調範囲を拡張する。強調範囲の先端が呼気段落の先端となるまで、ステップ340及びステップ350の処理を繰り返す。
強調範囲の先端が呼気段落の先端となった場合、先端拡張範囲の設定は終了する。ここで、拡張された範囲を先端拡張範囲と呼ぶ。
先端拡張範囲が設定された例5は以下の通りである。
キノ’ーワ△ア’メ△デ’シタガ△キョ’ーワ△ヨ’イ△テ’ンキデス.
キョ’ーワ」の「キョ」は呼気段落の先端ではない。「キョ’ーワ」の前方の呼気段落先端は「キノ’ーワ」の「キ」であるため、強調範囲の先端が「キ」まで移動すると、先端拡張範囲の設定は終了する。「キノ’ーワ△ア’メ△デ’シタガ」が先端拡張範囲として設定される。
また、先端拡張範囲の設定に関する別の実施例として、図7Bに示す構成であっても良い。
図7Bの例では、アクセント句境界情報、及びアクセントの高低情報、呼気段落境界情報に基づいて、先端拡張範囲を設定する。
ステップ330で、強調範囲先端がアクセント句の先端であるか否か判断する。強調範囲先端がアクセント句の先端でない場合、ステップ350で、強調範囲先端を前方に1モーラ移動することにより強調範囲を拡張する。強調範囲先端がアクセント句の先端となるまで、ステップ330及びステップ350の処理を繰り返す。
強調範囲先端がアクセント句の先端となった場合、ステップ340に進む。
ステップ340で、強調範囲先端が呼気段落境界であるか否か判断する。強調範囲先端が呼気段落境界である場合、先端拡張範囲の設定は終了する。強調範囲先端が呼気段落境界でない場合、ステップ345に進む。
ステップ345で、強調範囲先端の直前モーラのアクセント高低が低であるか否かを判断する。強調範囲先端の直前モーラのアクセント高低が低である場合、先端拡張範囲の設定は終了する。強調範囲先端の直前モーラのアクセント高低が低でない場合(すなわち、高である場合)、ステップ350で、強調範囲先端を前方に1モーラ移動することにより強調範囲を拡張する。以降、強調範囲先端がアクセント句の先端となるまで、ステップ330及びステップ350の処理を繰り返す。
以上の処理で拡張された範囲を先端拡張範囲と呼ぶ。ステップ345で拡張範囲直前のモーラのアクセントが高で続く場合には、強調範囲先端がアクセント句境界であってもさらに強調範囲を拡張する。これにより、アクセントが高く連続している部分では、強調範囲を区切らないため、文章全体にわたってより自然な強調表現を実現できる。
図8にステップ258の後端拡張範囲設定処理の詳細を示す。この例では、音声の区切りを示す呼気段落境界情報に基づいて、強調範囲の後方に後端拡張範囲を設定する。
ステップ370で、強調範囲の後端が呼気段落の後端であるか否かを判断する。強調範囲の後端が呼気段落の後端ではない場合、ステップ380で、強調範囲の後端を1モーラ後方に移動することにより強調範囲を拡張する。強調範囲の後端が呼気段落の後端となるまで、ステップ370及びステップ380の処理を繰り返す。
強調範囲の後端が呼気段落の後端となった場合、後端拡張範囲の設定は終了する。ここで、拡張された範囲を後端拡張範囲と呼ぶ。
例えば、図10に示す例9の「カンリブ’モンニ△ヨル△ショーニンオ△オコナウコト’デ,」は、強調範囲「カンリブ’モンニ△ヨル’△ショーニン」の後端が呼気段落の後端ではないため、ステップ380で、強調範囲を1モーラ後方に拡張する。強調範囲の後端が呼気段落の後端となるまで、すなわち、下記の通り「オ△オコナウコト’デ」まで強調範囲が拡張される。
カンリブ’モンニ△ヨル’△ショーニンオ△オコナウコト’デ,」
この場合、「オ△オコナウコト’デ」が後端拡張範囲として設定される。
図8では、後端拡張範囲を音声の区切りを示す呼気段落境界情報に基づいて設定するが、例えば、強調範囲の直後からアクセント型が平板でないアクセント句の後端までを後端拡張範囲として設定してもよい。
先端拡張範囲及び後端拡張範囲の設定は、例えば、アクセントの連続性、係り受け関係、強調範囲に設定されている強調度などに基づいて行われてもよい。
拡張範囲を設定するために、強調範囲を1モーラずつ拡張する例について説明したが、予め強調範囲の先端または後端となるであろう位置を求めて、まとめて、強調範囲を拡張するようにしてもよい。
図11は、図2のステップ260における強調規則の設定に使用される強調規則データベース142の強調規則テーブルの一例である。
強調規則テーブルは、前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲の各々に対して設定される韻律制御パラメータの一例を示す。
文字情報が入力されたときに、強調範囲情報が設定されている範囲を強調範囲、ステップ252で拡張される強調範囲を前方拡張範囲、ステップ254で拡張される強調範囲を先端拡張範囲、ステップ256で拡張される強調範囲を後方拡張範囲と呼ぶ。さらに、ステップ258で拡張される強調範囲を後端拡張範囲と呼ぶ。
図11に示す例では、先端拡張範囲のピッチの平均は低、開始は低、話速の平均は低、変化は遅から遅、音量の平均は標準である。詳細には、例えば、先端拡張範囲のピッチの平均は−0.2logHz、開始は−0.2logHz、話速の平均は0.9倍、変化は最後の2モーラで1.0倍から0.9倍へ、音量の平均は1.0倍である。単位logHzは単位Hzで表される周波数の自然対数をとった値の単位である。
前方拡張範囲のピッチの平均は高、開始は低、話速の平均は低、変化は遅から極遅へ、音量の平均は大である。詳細には、例えば、前方拡張範囲のピッチの平均は+0.1logHz、開始は−0.2logHz、話速の平均は0.9倍、変化は最後の1モーラで0.9倍から0.7倍へ、音量の平均は1.5倍である。
強調範囲のピッチの平均は高高、開始は低、話速の平均は極低、変化は極遅一定、音量の平均は極大である。詳細には、例えば、強調範囲のピッチの平均は+0.2logHz、開始は−0.2logHz、話速の平均は0.7〜0.8倍、変化は0.7倍一定、音量の平均は2.0倍である。
後方拡張範囲のピッチの平均は高高、開始は低、話速の平均は低、変化は極遅から遅へ、音量の平均は大に設定される。詳細には、例えば、後方拡張範囲のピッチの平均は+0.2logHz、開始は−0.2logHz、話速の平均は0.9倍、変化は0.7倍から0.9倍へ、音量の平均は1.5倍である。
後端拡張範囲のピッチの平均は標準高、開始は低、話速の平均は標準、変化は遅から標準へ、音量の平均は標準に設定される。詳細には、例えば、後端拡張範囲のピッチの平均は+0.0logHz、開始は−0.2logHz、話速の平均は1.0倍、変化は0.9倍から1.0倍へ、音量の平均は1.0倍に設定される。
ベースピッチは前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲にわたって低下させる。
図11に示した韻律制御パラメータは一例に過ぎず、これに限定されない。例えば、不連続であることが表現の自然さに大きく影響するピッチは、前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲の各々で大きく変化させない。一方、不連続であることが表現の自然さにあまり影響しない話速や音量は、前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲の各々で大きく変化させてもよい。これにより、意図した範囲が適切に強調されるように、他の範囲との差異が与えられる。
例えば、強調範囲(並びに前方拡張範囲及び後方拡張範囲)に対しては、ピッチの上昇、話速の低下を行う。後端拡張範囲に対しては、ピッチを上昇させ、話速は強調範囲の後端の話速から徐々にアクセント句単位で通常の話速へ戻るよう上昇させてもよい。
例えば、前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲の全体でピッチを上昇させ、強調範囲(並びに前方拡張範囲及び後方拡張範囲)で話速を低下させ、音量を増大させてもよい。
前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲の各々に適した韻律制御パラメータを設定することにより、文全体にわたる自然な強調表現を実現することができる。強調範囲の文字列だけが突然強調されないためである。
なお、図11は、前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲の各々に、韻律制御パラメータを設定する例を示している。しかしながら、例えば、前方拡張範囲、強調範囲、及び後方拡張範囲は、同じ強調を行うように、同じ韻律制御パラメータを設定してもよい。また、例えば、前方拡張範囲、先端拡張範囲、強調範囲、後端拡張範囲、及び後方拡張範囲に、同じ韻律制御パラメータを設定してもよい。
文全体の自然さは損なわれるかもしれないが、この場合であっても、強調範囲の文字列だけが突然強調されることはない。
本開示の技術によれば、文全体にわたる自然な強調表現を実現する合成音声を生成することができる。
なお、説明を容易にするために、1つの文に1つの強調範囲情報が設定されている場合について説明したが、本開示の技術は、これに限定されず、1つの文に複数の強調範囲情報が設定されている複数の文に適用してもよい。この場合、上記処理を適宜繰り返せばよい。
本開示の技術では、強調範囲情報が設定されている文字列だけではなく、その前後の文字列まで強調範囲を拡張し、拡張した範囲までをも含めて強調制御を行う。したがって、強調範囲情報が設定されている文字列だけが突然強調されるのではなく、文全体にわたる自然な強調表現が実現される。
合成音声を使用してコンテンツを制作する場合、文全体として自然な音声となるように、強調範囲を指定することは困難である。しかし、本開示の技術では、強調したい文字や単語などの部分的範囲を指定するだけで、文全体として自然な強調表現を実現することができる。したがって、ユーザは合成音声の自然な強調規則に関する詳細な知識を有する必要がない。
[第2実施形態]
次に第2実施形態について説明する。
第2実施形態は、強調範囲の先端がアクセント句の先端でない場合、強調制御範囲の先端がアクセント句の先端となるまで強調制御範囲を拡張する点は第1実施例と同様であるが、強調範囲の強調度に応じてポーズ挿入処理が行われる。強調範囲の強調度が強の場合、強調範囲の先端にポーズを挿入した後、強調制御範囲の先端がアクセント句の先端となるまで強調制御範囲を拡張する。ここで拡張された範囲は、前方拡張範囲となる。次に、強調制御範囲の先端が呼気段落の先端でなく、強調制御範囲の直前のフレーズが1文節でない場合、強調制御範囲の先端にポーズを挿入する。強調制御範囲の直前のフレーズが1文節である場合、強調制御範囲を1文節拡張する。ここで拡張された範囲は、先端拡張範囲となる。
第2実施形態は、先端拡張範囲及び前方拡張範囲の設定を含む。前方拡張範囲の設定において、第1実施形態に記載したアクセント句境界情報に加えて、強調範囲情報に含まれる強調度の情報が使用される。また、先端拡張範囲の設定において、第1実施形態に記載した呼気段落境界情報に加えて、フレーズに含まれる文節数情報が使用される。
図12のステップ405〜425は前方拡張範囲の設定処理を行い、ステップ435〜455は先端拡張範囲の設定処理を行う。
図12のステップ405で、強調範囲の先端がアクセント句の先端であるか否か判断する。強調範囲の先端がアクセント句の先端である場合は、ステップ430へ進む。
図9の例2では、強調範囲は「ホ’ン△デモンストレ’ーションデワ」であり、例3では強調範囲は「サービスポータルガ’メン」である。いずれも強調範囲の先端はアクセント句の先端であるからステップ430へ進む。
強調範囲の先端がアクセント句の先端でない場合は、ステップ410で、強調範囲の強調度が「強」であるか否か判断する。
図9の例4(強調度強)及び例4(強調度標準)では、強調範囲は「ワ」であり、「キョ’ーワ」というアクセント句の先端ではない。したがって、ステップ410で、強調範囲の強調度が「強」であるか否か判断する。
ステップ410で、強調範囲の強調度が「強」であると判断された場合、ステップ415で強調範囲の先端にポーズを挿入する。
例4(強調度強)では、強調度が「強」であるから、強調範囲「ワ」の先端にポーズを挿入する。
これにより、
「キノ’ーワ△ア’メ△デ’シタガ,キョ’ー△ヨ’イ△テ’ンキデス.」が、
「キノ’ーワ△ア’メ△デ’シタガ,キョ’ー,△ヨ’イ△テ’ンキデス.」になる。
ステップ410で強調度が強であると判断され、ステップ415でポーズが挿入された後、あるいは、ステップ410で強調度が強調でないと判断された場合、ステップ420で強調範囲の先端を1モーラ前方に移動することにより強調制御範囲を拡張する。さらに、ステップ425で、強調範囲の先端がアクセント句の先端であるか否か判断し、強調範囲の先端がアクセント句の先端でなければステップ420に戻る。強調範囲の先端がアクセント句の先端になるまで、ステップ420及びステップ425を繰り返す。
例4(強調度強)では、「キョ’ー,ワ」の「キョ」がアクセント句の先頭モーラであるから、「キノ’ーワ△ア’メ△デ’シタガ,キョ’ー,ワ△ヨ’イ△テ’ンキデス.」になる。この場合、「キョ’ー」が前方拡張範囲となる。
例4(強調度標準)では、「キョ’ーワ」の「キョ」がアクセント句の先頭モーラであるから、「イッテンシテ’,キョ’ーワ△ヨ’イ△テ’ンキデス.」になる。この場合「キョ’ー」が前方拡張範囲となる。
例5では、「キョ’ーワ」の「キョ」がアクセント句の先頭モーラであるから、「キノ’ーワ△ア’メ△デ’シタガ△キョ’ーワ△ヨ’イ△テ’ンキデス.」になる。この場合「キョ’ー」が前方拡張範囲となる。
ステップ430で、強調制御範囲の先端が文の先端であるか否かを判断する。強調制御範囲の先端が文の先端であれば、処理を終了する。
例2では、強調制御範囲「ホ’ン△デモンストレ’ーションデワ」の先端が文の先端であるので、処理を終了する。
ステップ430で、強調制御範囲の先端が文の先端ではないと判断された場合、ステップ435で、強調制御範囲の先端が呼気段落の先端であるか否か判断する。
例3では、強調制御範囲「サービスポータルガ’メン」の先端は文の先端ではないので、強調制御範囲の先端が呼気段落の先端であるか否か判断する。
例4(強調度強)の場合は、ポーズ(,)後の「キョ’ー,ワ」が強調制御範囲となっており、例4(強調度標準)の場合も、ポーズ(,)後の「キョ’ーワ」が強調制御範囲となっている。したがって、双方とも強調制御範囲の先端が呼気段落の先端である。
ステップ435で、強調制御範囲の先端が呼気段落の先端ではないと判断された場合、ステップ440で強調制御範囲の直前のフレーズが一文節であるか否か判断する。
例3の場合は、「サービスポータルガ’メン」が強調制御範囲となっており、例5の場合は、「キョ’ーワ」が強調制御範囲となっている。いずれも強調制御範囲の前にポーズがないので、強調制御範囲の先端は呼気段落の先端ではない。
ステップ435で、強調制御範囲の先端が呼気段落の先端ではないと判断され、ステップ440で強調制御範囲の直前のフレーズ、すなわち、強調制御範囲先端から呼気段落先端までが一文節ではないと判断された場合、ステップ445で強調制御範囲の先端にポーズを挿入する。
例5の場合、強調制御範囲の先端から呼気段落先端までに、「キノ’ーワ」「ア’メ△デ’シタガ」という2文節が存在するため、ステップ445で強調制御範囲の先端にポーズを挿入する。
ステップ440で強調制御範囲の直前のフレーズが1文節であると判断された場合、ステップ455で強調制御範囲を1文節前方に拡張する。
例3の場合、強調制御範囲の先端から呼気段落先端までは、「ユーザージ’シンガ」という1文節であるので、ステップ512へ進み、「ユーザージ’シンガ」まで強調制御範囲を拡張する。ここで拡張された「ユーザージ’シンガ」が先端拡張範囲として設定される。
強調制御範囲の先端が呼気段落の先端ではなく、強調制御範囲の直前のフレーズが一文節でない場合、ステップ445で強調制御範囲の先端にポーズを挿入する。
例5の場合、強調制御範囲の先端が呼気段落の先端ではなく、強調制御範囲の直前のフレーズが一文節でないため、「キョ’ーワ」の先端にポーズを挿入する。
これにより、
「キノ’ーワ△ア’メ△デ’シタガ△キョ’ーワ△ヨ’イ△テ’ンキデス.」が、
「キノ’ーワ △ア’メ△デ’シタガ△,キョ’ーワ△ヨ’イ△テ’ンキデス.」となる。
ステップ435で強調制御範囲の先端が呼気段落の先端であれば、ステップ450で強調範囲の直前のフレーズが一文節であるか否か判断する。前方のフレーズが一文節である場合、ステップ455で、強調制御範囲を一文節前方に拡張する。
例4(強調度標準)の場合は、強調制御範囲の直前のフレーズが、「イッテンシテ’」という1文節であるため、判断は肯定される。
ステップ450で、強調制御範囲の直前のフレーズが1文節ではないと判断された場合、処理を終了する。
例4(強調度強)の場合は、前方のフレーズが、「キノ’ーワ」「ア’メ△デ’シタガ」という2文節であるため、判断は否定され、処理を終了する。
ステップ450で、前方のフレーズが1文節であると判断された場合、ステップ455で、強調制御範囲の直前の一文節を先端拡張範囲として設定する。
例3の場合、「ユーザージ’シンガ」の先端まで拡張する。
これにより、
「ホ’ン△デモンストレ’ーションデワ,ユーザージ’シンガ△サービスポータルガ’メンカラ△サ’ービスオ△エラ’ビ,」 が、
「ホ’ン△デモンストレ’ーションデワ,ユーザージ’シンガ△サービスポータルガ’メンカラ△サ’ービスオ△エラ’ビ,」となる。
「ユーザージ’シンガ」が先端拡張範囲である。
例4(強調度標準)の場合、「イッテンシテ’」の先端まで拡張する。
これにより、
「イッテンシテ’,キョ’ーワ△ヨ’イ△テ’ンキデス.」が、
イッテンシテ’,キョ’ーワ△ヨ’イ△テ’ンキデス.」となる。
イッテンシテ’」が、先端拡張範囲である。
ただし、先端拡張範囲として設定すべき範囲が他の強調制御範囲に含まれている場合は、他の強調制御範囲の設定を優先し、先端拡張範囲としては設定しない。
開示の技術によれば、文全体にわたるより自然な強調表現を実現する合成音声を生成することができる。
第2実施形態の先端拡張範囲の設定処理及び前方拡張範囲の設定処理を第1実施形態の後端拡張範囲の設定処理と組み合わせてもよい。
[第3実施形態]
次に第3実施形態について説明する。
第3実施形態では、強調範囲の後端が低アクセントの場合、アクセント句の後端まで、強調制御範囲を後方に拡張し、拡張した強調制御範囲を後端拡張範囲として設定する。一方、強調範囲の後端が高アクセントの場合、強調制御範囲の後端モーラが呼気段落の後端または、アクセント句後端かつ低アクセントとなるまで、強調制御範囲を後方に拡張する。拡張した強調制御範囲を後端拡張範囲として設定する。
第3実施形態は、後端拡張範囲の設定を含む。後端拡張範囲の設定において、呼気段落境界情報、アクセントの高低情報、及びアクセント句境界情報を使用する。
図13のステップ510で、強調範囲の後端がアクセント句後端であるか否か判断する。 強調範囲の後端がアクセント後端ではないと判断された場合、ステップ515で、強調制御範囲後端を後方に1モーラ移動することにより強調制御範囲を拡張する。強調制御範囲後端がアクセント句後端となるまで、ステップ510及びステップ515の処理を繰り返す。
一方、強調制御範囲の後端がアクセント句後端であると判断された場合、ステップ520で強調制御範囲の後端のアクセントが高アクセントであるか否か判断する。
ステップ520で、強調制御範囲後端のアクセントが低である場合、後端拡張範囲の設定は終了する。
例8の「アイディ’ート△パスワ’ードオ△シヨーシ’△ログイ’ンシマス.」の「パスワ’ード」の「ド」はアクセント句後端ではないため、強調範囲の後端は右に1モーラ移動する。「パスワ’ードオ」の「オ」はアクセント句後端であるため、強調制御範囲後端が「オ」まで移動すると、ステップ510の判断が肯定され、ステップ520で強調範囲の後端のアクセントが高アクセントであるか否か判断する。「パスワ’ードオ」の「オ」は低アクセントであるため、ステップ520で判断が否定され、処理を終了する。ここでは後端拡張範囲は「オ」となる。
ステップ520の判断で、強調範囲後端が高アクセントであった場合、ステップ525に進み、強調範囲後端が呼気段落後端であるか否かを判断する。ステップ525で、強調制御範囲後端が呼気段落後端であると判断された場合、後端拡張範囲の設定は終了する。
強調範囲後端が呼気段落後端ではないと判断された場合、ステップ530で、強調範囲後端を後方に1モーラ移動することにより強調制御範囲を拡張する。以降、強調制御範囲後端がアクセント句の後端となるまで、ステップ530及びステップ540の処理を繰り返す。
ステップ530で強調制御範囲がアクセント句後端まで拡張された場合、ステップ520に戻り処理を続ける。
以上の処理で拡張された範囲を後端拡張範囲と呼ぶ。
図14に示すように、図13のステップ520で、強調範囲の後端が低アクセントであると判断された場合に、そのまま処理を終了するのではなく、ステップ550で、後方拡張範囲の後方にポーズを挿入してもよい。
例8の場合、後方拡張範囲として設定された「オ」の後方にポーズ「,」が挿入され、以下のようになる。
「アイディ’ート△パスワ’ードオ ,△シヨーシ’△ログイ’ンシマス.」
開示の技術によれば、文全体にわたるより自然な強調表現を実現する合成音声を生成することができる。
第3実施形態の後方拡張範囲の設定処理を第1実施形態の先端拡張範囲及び前方拡張範囲の設定処理または第2実施形態の先端拡張範囲及び前方拡張範囲の設定処理と組み合わせてもよい。
[第4実施形態]
次に第4実施形態について説明する。
第4実施形態は、強調範囲の強調度が強でない場合、アクセント句の後端まで強調制御範囲を拡張する。ここで拡張された範囲が後方拡張範囲となる。強調範囲の後端が高アクセントであり、かつ、呼気段落の後端でない場合、強調制御範囲を次のアクセント句後端まで拡張する。ここで拡張された範囲も後方拡張範囲となる。強調範囲の後端が低アクセントである場合、呼気段落の後端まで強調制御範囲を拡張する。ここで拡張された範囲は後端拡張範囲となる。強調範囲の強調度が強である場合、強調範囲の後端にポーズを挿入し、強調制御範囲を呼気段落の後端まで拡張する。ここで拡張された範囲は後端拡張範囲となる。
第4実施形態は、後端拡張範囲の設定及び後方拡張範囲の設定を含む。後端拡張範囲の設定において、第4実施形態ではアクセントの高低、及び、アクセント句境界情報に加え、強調度の情報を使用する。
ステップ605で、強調範囲の強調度が「強」であるか否か判断する。強調度が強であると判断された場合、ステップ640で、強調範囲の後端にポーズを挿入する。その後、後端拡張範囲を設定するために、ステップ635に進む。
例8(強調度強)では、強調度が強であるので、強調範囲「パスワ’ード」の後端にポーズ「,」を挿入する。
これにより、
「アイディ’ート△パスワ’ードオ△シヨーシ’△ログイ’ンシマス.」が、
「アイディ’ート△パスワ’ード,オ△シヨーシ’△ログイ’ンシマス.」となる。
ステップ605で、強調度が強ではないと判断された場合、ステップ610で、強調範囲の後端がアクセント句の後端であるか否か判断する。強調範囲の後端がアクセント句の後端でなければ、強調範囲の後端を1モーラ後方に移動することにより、強調範囲を拡張する。すなわち、強調度が強でなく、かつ、強調範囲の後端がアクセント句の後端でなければ、強調範囲の後端をアクセント句の後端まで拡張する。
例7では、強調範囲「ホ’ン△デモンストレ’ーションデワ」の後端はアクセント句の後端であるため、強調範囲の拡張は行わない。
例8(強調度標準)では、「パスワ’ード」の後端から、アクセント句の後端となる「パスワ’ードオ」の後端まで、強調制御範囲を拡張する。例9では、「カンリブ’モンニ△ヨル’△ショーニン」の後端から、アクセント句の後端となる「カンリブ’モンニ△ヨル’△ショーニンオ」の後端まで、強調制御範囲を拡張する。
ステップ620で、強調制御範囲の後端のアクセントが低であるか否か、または、呼気段落の後端であるか否かを判断する。ステップ620で、強調制御範囲の後端のアクセントが低であると判断された場合、後端拡張範囲を設定するためにステップ635へ進む。
ここまでで、拡張された範囲は後方拡張範囲として設定される。例8(強調度標準)では、「パスワ’ードオ」の「オ」が、例9では、「カンリブ’モンニ△ヨル’△ショーニンオ」の「オ」が、後方拡張範囲として設定される。後方拡張範囲は強調制御範囲に含まれる。
例7では、「デモンス%トレ‘ーション」の「レ’ー」の部分でアクセントが高から低へ変化し、その後、アクセント低が続くため、強調範囲の後端の音節「ワ」においてアクセントが低となる。したがって、ステップ620の判断は肯定され、後端拡張範囲を設定するために、ステップ635に進む。
例8(強調度標準)では、「パスワ‘ード」の「ワ’ー」の部分でアクセントが高から低へ変化し、その後、アクセント低が続くため、強調範囲の後端の音節「オ」においてアクセントが低となる。したがって、ステップ620の判断は肯定され、後端拡張範囲を設定するために、ステップ635に進む。
ステップ620で、強調制御範囲の後端のアクセントが高であり、かつ、呼気段落の後端であると判断された場合、ステップ625で、強調範囲の後端がアクセント句の後端であるか否か判断する。アクセント句の後端でない場合、ステップ630で、強調範囲の後端を1モーラ後方に移動することによって、強調範囲を拡張する。強調範囲の後端がアクセント句の後端となるまで、強調範囲を拡張し、強調範囲の後端がアクセント句の後端となった場合、ステップ620に戻る。
例9では、「ショーニンオ」の後半「ーニンオ」のアクセントが全て高であるため、強調範囲の後端のアクセントは高であり、かつ、呼気段落の後端でもないため、ステップ625へ進む。
例9では、強調制御範囲の後端をアクセント句の「オコナウコト’デ」の後端まで拡張する。
ステップ620で、強調制御範囲「オコナウコト’デ」の後端が呼気段落の後端であるため、ステップ635に進む。
ステップ635で、強調制御範囲の後端が呼気段落の後端であるか否かを判断する。強調制御範囲の後端が呼気段落の後端ではない場合、ステップ645で、後端拡張範囲を設定する。強調制御範囲の後端が呼気段落の後端であれば、処理を終了する。
強調制御範囲の後端が呼気段落の後端でない場合、ステップ645で、強調制御範囲の後端を1モーラ後方に移動することにより、強調制御範囲を拡張し、ステップ650で、強調制御範囲の後端が呼気段落の後端であるか否か判断する。強調制御範囲の後端が呼気段落の後端となるまで、ステップ645及びステップ650を繰り返す。
強調制御範囲の後端が呼気段落の後端となった場合、処理を終了する。ここで拡張された範囲を後端拡張範囲として設定する。他に設定されている強調制御範囲と後端拡張範囲とが重複する場合、他に設定されている強調制御範囲を優先する。
例8(強調度強)の場合、
「アイディ’ート△パスワ’ード,オ△シヨーシ△ログイ’ンシマス.」が、
「アイディ’ート△パスワ’ードオ△シヨーシ△ログイ’ンシマス.」となる。
オ△シヨーシ△ログイ’ンシマス」が後端拡張範囲である。
例8(強調度標準)の場合、
「アイディ’ート△パスワ’ードオ△シヨーシ△ログイ’ンシマス.」が、
「アイディ’ート△パスワ’ードオシヨーシ△ログイ’ンシマス.」となる。
シヨーシ△ログイ’ンシマス」が後端拡張範囲である。
開示の技術によれば、文全体にわたるより自然な強調表現を実現する合成音声を生成することができる。
第4実施形態の後端拡張範囲の設定処理及び後方拡張範囲の設定処理を第1実施形態の先端拡張範囲の設定処理及び前方拡張範囲の設定処理と組み合わせてもよいし、第4実施形態の後端拡張範囲の設定処理を第3実施形態の後方拡張範囲の設定処理と組み合わせてもよい。
[第5実施形態]
次に第5実施形態について説明する。
第5実施形態に係る音声合成装置は、例えば、図16に示すコンピュータ900で実現することができる。コンピュータ900はCPU(Central Processing Unit)910、スキャナ920、キーボード930、スピーカ940、ディスプレイ950、不揮発性の記憶部960、メモリ970、及び入出力インタフェース980を備えている。CPU910、スキャナ920、キーボード930、スピーカ940、ディスプレイ950、不揮発性の記憶部960、メモリ970、及び入出力インタフェース980はバス990を介して互いに接続されている。なお、記憶部960はHDD(Hard Disk Drive)またはフラッシュメモリ等によって実現できる。
記憶部960には、コンピュータ900を音声合成装置として機能させるための音声合成プログラム961が記憶されている。CPU910は、音声合成プログラム961を記憶部910から読み出してメモリ970に展開し、音声合成プログラム961が有するプロセスを順次実行する。
音声合成プログラム961は、形態素解析プロセス962、構文解析プロセス963、強調範囲検出プロセス964、拡張範囲設定プロセス965、強調規則設定プロセス966、及び音声合成プロセス967を有する。
CPU910は、形態素解析プロセス962を実行することで、図1に示す形態素解析部120として動作する。また、CPU910は、構文解析プロセス963を実行することで、図1に示す構文解析部125として動作する。また、CPU910は、強調範囲検出プロセス964を実行することで、図1に示す強調範囲検出部130として動作する。また、CPU910は、拡張範囲設定プロセス965を実行することで、図1に示す拡張範囲設定部135として動作する。また、CPU910は、強調規則設定プロセス966を実行することで、図1に示す強調規則設定部140として動作する。また、CPU910は、音声合成プロセス967を実行することで、図1に示す音声合成部145として動作する。
なお、上記では音声合成プログラム961が記憶部960に予め記憶(インストール)されている態様を説明したが、これに限定されるものではない。例えば、音声合成プログラム961はCD−ROMやDVD−ROM等の記録媒体に記録されている形態で提供されてもよい。この場合、入出力インタフェース980を介してCD−ROMドライブあるいはDVD−ROMドライブなどを接続し、音声合成プログラム961を当該記録媒体からメモリ970に展開する。さらに、音声合成プログラム961は、遠隔にあるネットワークストレージなどから入出力インタフェース980を介して取得され、メモリ970に展開されてもよい。
第5実施形態は、第1実施形態、第2実施形態、第3実施形態、及び第4実施形態のいずれに適用されてよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータが、
音声出力する場合に音声を強調する強調範囲を示す強調範囲情報が設定されている文字列及び呼気段落情報を含む文字情報を入力し、
前記文字情報に含まれる文字列に対して、前記強調範囲情報で示される強調範囲の前方及び後方の少なくとも一方に、前記呼気段落情報に基いて、該強調範囲を拡張する拡張範囲を設定し、
前記強調範囲及び前記拡張範囲の各々に、該強調範囲及び該拡張範囲に含まれる前記文字列の音声を強調する韻律制御パラメータを設定し、
設定された韻律制御パラメータに基いて前記文字列の音声を合成して出力する、
音声合成方法。
(付記2)
前記拡張範囲を設定する際に、
前記文字情報が含むアクセント情報及び音声の区切りを示す呼気段落境界情報に基づいて、前記強調範囲の前方に先端拡張範囲を設定し、該文字情報が有するアクセント句の境界を示すアクセント句境界情報、及び前記呼気段落境界情報に基づいて、該強調範囲の後方に後端拡張範囲を設定する、
付記1に記載の音声合成方法。
(付記3−1)
前記アクセント句境界情報に基づいて、前記強調範囲の前方を拡張する前方拡張範囲、及び該強調範囲の後方を拡張する後方拡張範囲、の少なくとも一方を設定する、
付記2に記載の音声合成方法。
(付記3−2)
前記前方拡張範囲を設定する際に、前記強調範囲情報に含まれる強調度の情報に基づいて、前記強調範囲と前記前方拡張範囲との間にポーズを挿入する、
付記3−1に記載の音声合成方法。
(付記3−3)
前記文字情報が含むフレーズに含まれる文節数に基づいて、前記先端拡張範囲を設定する、
付記2に記載の音声合成方法。
(付記3−4)
前記先端拡張範囲を設定する際に、前記文字情報が含むフレーズに含まれる文節数に基づいて、前記強調範囲と前記先端拡張範囲との間にポーズを挿入する、
付記2に記載の音声合成方法。
(付記4)
前記強調範囲、前記前方拡張範囲、前記後方拡張範囲、前記先端拡張範囲、及び前記後端拡張範囲の各々に韻律制御パラメータを設定する、
付記3に記載の音声合成方法。
(付記5)
前記韻律制御パラメータは、ピッチ、話速、音量の少なくとも一つを含む、付記1〜4のいずれか1つに記載の音声合成方法。
(付記6)
コンピュータに、
音声出力する場合に音声を強調する強調範囲を示す強調範囲情報が設定されている文字列及び呼気段落情報を含む文字情報を入力し、
前記文字情報に含まれる文字列に対して、前記強調範囲情報で示される強調範囲の前方及び後方の少なくとも一方に、前記呼気段落情報に基づいて、該強調範囲を拡張する拡張範囲を設定し、
前記強調範囲及び前記拡張範囲の各々に、該強調範囲及び該拡張範囲に含まれる前記文字列の音声を強調する韻律制御パラメータを設定し、
設定された韻律制御パラメータに基づいて前記文字列の音声を合成して出力する、
処理を実行させるための音声合成プログラム。
(付記7)
前記拡張範囲を設定する際に、
前記文字情報が含むアクセント情報及び音声の区切りを示す呼気段落境界情報に基づいて、前記強調範囲の前方に先端拡張範囲を設定し、該文字情報が有するアクセント句の境界を示すアクセント句境界情報、及び前記呼気段落境界情報に基づいて、該強調範囲の後方に後端拡張範囲を設定する、
付記6に記載の音声合成プログラム。
(付記8)
前記アクセント句境界情報に基づいて、前記強調範囲の前方を拡張する前方拡張範囲、及び該強調範囲の後方を拡張する後方拡張範囲、の少なくとも一方を設定する、
付記7に記載の音声合成プログラム。
(付記9)
前記強調範囲、前記前方拡張範囲、前記後方拡張範囲、前記先端拡張範囲、及び前記後端拡張範囲の各々に韻律制御パラメータを設定する、
付記8に記載の音声合成プログラム。
(付記10)
前記韻律制御パラメータは、ピッチ、話速、音量の少なくとも一つを含む、付記6〜9のいずれか1つに記載の音声合成プログラム。
(付記11)
音声出力する場合に音声を強調する強調範囲を示す強調範囲情報が設定されている文字列及び呼気段落情報を含む文字情報を入力する入力部と、
前記文字情報に含まれる文字列に対して、前記強調範囲情報で示される強調範囲の前方及び後方の少なくとも一方に、前記呼気段落境界情報に基づいて、該強調範囲を拡張する拡張範囲を設定する拡張範囲設定部と、
前記強調範囲及び前記拡張範囲の各々に、該強調範囲及び該拡張範囲に含まれる前記文字列の音声を強調する韻律制御パラメータを設定する強調規則設定部と、
設定された韻律制御パラメータに基いて前記文字列の音声を合成して出力する音声出力部と、
を備える音声合成装置。
(付記12)
前記拡張範囲設定部は、
前記文字情報が含むアクセント情報及び音声の区切りを示す呼気段落境界情報に基づいて、前記強調範囲の前方に先端拡張範囲を設定し、該文字情報が有するアクセント句の境界を示すアクセント句境界情報、及び前記呼気段落境界情報に基づいて、該強調範囲の後方に後端拡張範囲を設定する、
付記11に記載の音声合成装置。
(付記13)
前記拡張範囲設定部は、さらに、
前記アクセント句境界情報に基づいて、前記強調範囲の前方を拡張する前方拡張範囲、及び該強調範囲の後方を拡張する後方拡張範囲、の少なくとも一方を設定する、
付記12に記載の音声合成装置。
(付記14)
前記強調規則設定部は、前記強調範囲、前記前方拡張範囲、前記後方拡張範囲、前記先端拡張範囲、及び前記後端拡張範囲の各々に韻律制御パラメータを設定する、
付記13に記載の音声合成装置。
(付記15)
前記韻律制御パラメータは、ピッチ、話速、音量の少なくとも一つを含む、付記11〜14のいずれか1つに記載の強調音声合成装置。
100 音声合成装置
110 入力部
115 音声出力部
120 形態素解析部
125 構文解析部
130 強調範囲検出部
135 拡張範囲設定部
140 強調規則設定部
145 音声合成部
900 コンピュータ

Claims (6)

  1. 音声出力する場合に音声を強調する強調範囲を示す強調範囲情報が設定されている文字列及び呼気段落情報を含む文字情報を入力し、
    前記文字情報に含まれる文字列に対して、前記強調範囲情報で示される強調範囲の前方及び後方の少なくとも一方に、前記呼気段落情報に基いて、該強調範囲を拡張する拡張範囲を設定し、
    前記強調範囲及び前記強調範囲の前方及び後方の少なくとも一方の前記拡張範囲の各々に対して個別に、前記強調範囲及び前記強調範囲の前方及び後方の少なくとも一方の前記拡張範囲の内の一つの範囲と他の範囲とで異なる、音声を強調する韻律制御パラメータの値を設定し、
    設定された韻律制御パラメータに基いて前記文字列の音声を合成して出力する、
    音声合成方法。
  2. 前記拡張範囲を設定する際に、
    前記文字情報が含むアクセント情報及び音声の区切りを示す呼気段落境界情報に基づいて、前記強調範囲の前方に先端拡張範囲を設定し、該文字情報が有するアクセント句の境界を示すアクセント句境界情報、及び前記呼気段落境界情報に基づいて、該強調範囲の後方に後端拡張範囲を設定する、
    請求項1に記載の音声合成方法。
  3. 前記アクセント句境界情報に基づいて、前記強調範囲の前方を拡張する前方拡張範囲、及び該強調範囲の後方を拡張する後方拡張範囲、の少なくとも一方を設定する、
    請求項2に記載の音声合成方法。
  4. 前記強調範囲、前記前方拡張範囲、前記後方拡張範囲、前記先端拡張範囲、及び前記後端拡張範囲の各々に韻律制御パラメータを設定する、
    請求項3に記載の音声合成方法。
  5. コンピュータに、
    音声出力する場合に音声を強調する強調範囲を示す強調範囲情報が設定されている文字列及び呼気段落情報を含む文字情報を入力し、
    前記文字情報に含まれる文字列に対して、前記強調範囲情報で示される強調範囲の前方及び後方の少なくとも一方に、前記呼気段落情報に基づいて、該強調範囲を拡張する拡張範囲を設定し、
    前記強調範囲及び前記強調範囲の前方及び後方の少なくとも一方の前記拡張範囲の各々に対して個別に、前記強調範囲及び前記強調範囲の前方及び後方の少なくとも一方の前記拡張範囲の内の一つの範囲と他の範囲とで異なる、音声を強調する韻律制御パラメータの値を設定し、
    設定された韻律制御パラメータに基づいて前記文字列の音声を合成して出力する、
    処理を実行させるための音声合成プログラム。
  6. 音声出力する場合に音声を強調する強調範囲を示す強調範囲情報が設定されている文字列及び呼気段落情報を含む文字情報を入力する入力部と、
    前記文字情報に含まれる文字列に対して、前記強調範囲情報で示される強調範囲の前方及び後方の少なくとも一方に、前記呼気段落情報に基づいて、該強調範囲を拡張する拡張範囲を設定する拡張範囲設定部と、
    前記強調範囲及び前記強調範囲の前方及び後方の少なくとも一方の前記拡張範囲の各々に対して個別に、前記強調範囲及び前記強調範囲の前方及び後方の少なくとも一方の前記拡張範囲の内の一つの範囲と他の範囲とで異なる、音声を強調する韻律制御パラメータの値を設定する強調規則設定部と、
    設定された韻律制御パラメータに基いて前記文字列の音声を合成して出力する音声出力部と、
    を備える音声合成装置。
JP2013105325A 2013-05-17 2013-05-17 音声合成方法、プログラム、及び装置 Expired - Fee Related JP6197362B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013105325A JP6197362B2 (ja) 2013-05-17 2013-05-17 音声合成方法、プログラム、及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013105325A JP6197362B2 (ja) 2013-05-17 2013-05-17 音声合成方法、プログラム、及び装置

Publications (2)

Publication Number Publication Date
JP2014228556A JP2014228556A (ja) 2014-12-08
JP6197362B2 true JP6197362B2 (ja) 2017-09-20

Family

ID=52128488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013105325A Expired - Fee Related JP6197362B2 (ja) 2013-05-17 2013-05-17 音声合成方法、プログラム、及び装置

Country Status (1)

Country Link
JP (1) JP6197362B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4829605B2 (ja) * 2005-12-12 2011-12-07 日本放送協会 音声合成装置および音声合成プログラム

Also Published As

Publication number Publication date
JP2014228556A (ja) 2014-12-08

Similar Documents

Publication Publication Date Title
US8504368B2 (en) Synthetic speech text-input device and program
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
KR20150146373A (ko) 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치
JP2007114507A (ja) 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP6790959B2 (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
JP2008268477A (ja) 韻律調整可能な音声合成装置
JP2009139677A (ja) 音声処理装置及びそのプログラム
JP2022133392A (ja) 音声合成方法、装置、電子機器及び記憶媒体
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4856560B2 (ja) 音声合成装置
JP5029884B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
CN112002304B (zh) 语音合成方法及装置
Toman et al. Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
JP2003271194A (ja) 音声対話装置及びその制御方法
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
JP6197362B2 (ja) 音声合成方法、プログラム、及び装置
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP4053440B2 (ja) テキスト音声合成システム及び方法
JP5975033B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170807

R150 Certificate of patent or registration of utility model

Ref document number: 6197362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees