JP4409279B2 - 音声合成装置及び音声合成プログラム - Google Patents

音声合成装置及び音声合成プログラム Download PDF

Info

Publication number
JP4409279B2
JP4409279B2 JP2003424853A JP2003424853A JP4409279B2 JP 4409279 B2 JP4409279 B2 JP 4409279B2 JP 2003424853 A JP2003424853 A JP 2003424853A JP 2003424853 A JP2003424853 A JP 2003424853A JP 4409279 B2 JP4409279 B2 JP 4409279B2
Authority
JP
Japan
Prior art keywords
emotion
segment
information
emotion information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003424853A
Other languages
English (en)
Other versions
JP2005181840A (ja
Inventor
健司 永松
信尾 額賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003424853A priority Critical patent/JP4409279B2/ja
Publication of JP2005181840A publication Critical patent/JP2005181840A/ja
Application granted granted Critical
Publication of JP4409279B2 publication Critical patent/JP4409279B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は感情の付与された音声データを再生する音声合成装置に関し、特に、感情の遷移をなめらかに行うことのできる音声合成装置及び音声合成プログラムに関する。
銀行の残高照会や株価情報の提供などの単なる情報の読み上げでのみ利用されてきた音声合成装置が、最近では自動車のカーナビゲーション装置に代表される車載用情報端末や携帯電話などにも搭載されるようになってきている。このようなよりパーソナルユースで利用される装置においては、単に朗読的に読むだけではなく、読み上げる内容やアプリケーションの特徴に応じて感情を込めたり、よりアミューズメント色に溢れた読み上げスタイルの実現が要求されている。そこで、感情をつけた音声を生成し、それを利用してより多様な読み上げスタイルを実現するための音声合成装置が知られている。
例えば、感情喚起情報を認知する感情喚起情報認識手段と、“驚き、恐れ、嫌悪、怒り、幸福、悲しみ”等の各感情成分に感情強度を反映させた数量を与えることで全体の感情状態を表現し、感情喚起情報が認知された場合には、予め規定された感情状態遷移規則に則してその感情状態を遷移させる感情喚起手段と、規定された感情状態に対応づけて表情や音声の韻律を変化、出力する表情・音声合成手段と、感情成分別にそれぞれの表出閾値を指定して感情表出スタイルの設定/変更を行なう表出スタイル設定手段と、設定された表出閾値を保持する表出スタイル記憶手段を内在し、保持された表出閾値と感情喚起手段に規定された感情状態とを比較して表出すべき表情や音声を決定する表出内容決定手段と、設定された表出閾値を複数記憶・保存することができる表出スタイル群保持手段を備えた感情表出装置が知られている(例えば、特許文献1参照。)。
特開平7−104778号公報
従来技術のような感情を付与した音声合成技術では、ある入力文章を合成音声に変換する際に、文章に付与する感情を指定し、その感情に対応する感情パラメータを用いて合成音声を生成する。しかしながら、この技術を用いる場合は、文章単位に感情が固定されてしまい、例えば、複数の文章から構成されるテキストを読み上げる場合に、例えば「喜び」の感情で合成した音声と「悲しみ」の感情で合成した音声とが連続している場合、感情の変化が急激すぎるという問題がある。そのため、人間の細かい感情の機微を模した合成音声を生成することが難しかった。
例えば、特許文献1に記載の発明では、感情がどう変化していくかを規定する規則として感情遷移規則というものが定義されているが、この遷移規則は、ある時点で「怒り」という感情状態にあるとき、その次の時点でどのような感情に移行するかを定義したものである。従って、ある感情から異なる感情に移行する場合は、その時点で突然感情が変化するので、文章が不自然となる可能性がある。
本発明は上記の問題点に鑑みてなされたものであり、感情を表現可能な音声合成装置において、ある感情から異なる感情に移行する場合にもなめらかに感情を変化させることのできる音声合成装置及び音声合成プログラムを提供することを目的とする。
本発明は、入力されたテキスト情報をセグメント毎に分割したセグメント列を生成するテキスト解析部と、前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する感情情報付与部と、前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する感情情報補間部と、前記感情情報が付与されたセグメントに基づいて音声データを合成する波形合成部と、を備え、前記感情情報補間部は、第1のセグメントに付与された感情情報と前記第1のセグメントに隣接する第2のセグメントに付与された感情情報とに基づいて、前記第1のセグメントにおける第1の感情から前記第2のセグメントにおける第2の感情へ遷移する場合の感情の度合いの変化を定義する感情遷移規則を決定し、前記波形合成部は、該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントの前記テキスト情報に基づいて音声データを合成することを特徴とする。
本発明によれば、合成音声の自然な感情変化を記述する感情情報(感情制御パラメータ列)をセグメントの中間言語データに埋め込む音声合成装置、を実現できるようになり、利用者が、感情付き合成音声をより聞き取りやすくなるという効果がある。さらには、音声合成装置の発する音声によって指示される操作がよりわかりやすくなるなど、聴取する利用者の利便性を向上させることが可能になる。
また、感情制御パラメータ列が埋め込まれた中間言語データを作成するコンテンツ制作者側にとっても、パラメータ変化を細かく指定する必要がなくなるため、制作作業の効率を向上させることが可能になる。
以下、本発明の実施形態について、図面を参照しながら説明する。
図1は本発明の実施の形態の音声合成装置の構成を示す機能ブロック図である。なお、第1の実施の形態は、後述するようなメール読み上げ装置又は音声データ作成装置の基本的な構成である。
本発明の音声合成装置は、入力された読み上げテキストに対して言語情報の解析を行うテキスト解析部10、テキスト解析部10の解析結果である言語情報セグメント列の個々のセグメントに対して韻律情報を付与する韻律情報付与部20、韻律情報付与部20の付与結果である中間言語セグメント列の個々のセグメントに対して感情情報を付与する感情情報付与部30、感情情報付与部30の付与結果である感情情報付き中間言語セグメント列の個々のセグメントに対して隣接するセグメントの感情情報を参照して感情情報の補間を行う感情情報補間部40と、感情情報補間部40の補間結果である補間感情情報付き中間言語セグメント列の個々のセグメントに対して、例えば各音素に対応する波形データを取得して波形接続や波形重畳などの信号処理によって感情付き合成音声を生成する波形合成部50等から構成される。ここで、セグメントとは、話者が一息に話す単位(例えば、最も短くて文節)を意味し、中間言語とは、言語と音声(発音)との間の言語(例えば、発音記号)である。
また、各処理部には参照するデータベースが付随している。テキスト解析部10には言語辞書11が、韻律情報付与部20には韻律付与規則21が、感情情報付与部30には感情付与規則31が、感情情報補間部40には感情遷移規則41が、波形合成部50には波形データ51が、それぞれ接続されている。なお、このようなデータベースを用いずに、各処理部内であらかじめ設定された規則によってデータを生成するように構成してもよい。
なお、本発明の実施の形態は、図1に示す構成を元に様々な実施例が考えられる。例えば、テキスト解析部10と言語辞書11だけをサーバ側に置き、言語情報セグメント列をクライアント側にネットワーク等を経由して送信し、韻律情報付与部20以降の処理をクライアント側で実行するような実施形態としてもよい。
また、韻律情報付与部20までの処理部とデータベースをサーバ側に置き、中間言語セグメント列をクライアント側にネットワーク等を経由して送信し、感情情報付与部30以降の処理をクライアント側で実行するような実施形態としてもよい。
また、感情情報付与部30までの処理部とデータベースをサーバ側に置き、感情情報付き中間言語セグメント列をクライアント側にネットワーク等を経由して送信し、感情情報補間部40以降の処理をクライアント側で実行するような実施形態としてもよい。
また、感情情報補間部40までの処理部とデータベースをサーバ側に置き、補間感情情報付き中間言語セグメント列をクライアント側にネットワーク等を経由して送信し、波形合成部50以降の処理をクライアント側で実行するような実施形態としてもよい。
次に、本発明の実施の形態の各要素の動作を具体的に説明する。
テキスト解析部10は、漢字かな混じり文として入力された読み上げテキストに対して、言語解析を行う。少なくとも、入力されたテキストを単語に分割して「読み」及び「アクセント情報」を付加する形態素解析処理を行う。好ましくは、さらに構文・意味解析処理をも行なう機能を有する。形態素解析処理は、漢字かな混じり文を個々の単語に分割する処理であり、品詞間の接続可能性を規定した接続データと品詞のコストを定義したコストデータとを元に、コスト最小法や文節数最小法などの手法を用いて各単語の「読み」及び「アクセント情報」を付加した言語情報セグメント列を生成し、次段の処理装置に出力する。また、構文・意味解析処理は、品詞の関係構造を規定する文法データとLRパーザやCYK解析などの構文解析手法とを用いて、入力文章に対する係り受けの関係を解析し、次段の処理部に出力する。
韻律情報付与部20は、入力された言語情報セグメント列を構成する各セグメントに対して、個々の音素の継続時間長や基本周波数と呼ばれる個々の音素の音の高さなどの韻律情報を付与する処理を行う。個々の音素の継続時間長を自動付与するには、韻律付与規則21に予め格納されている韻律情報を言語情報セグメント列に付与した中間言語セグメント列を生成し、次段の処理部に出力する。韻律情報には、たとえば、個々の音素ごとに継続時間を記録した継続時間長テーブルや、付与対象となる音素の前後1音素までの環境要因を考慮した継続時間を記録した継続時間長テーブル等を用いる。また、HMMと呼ばれる確率モデルを用いて継続時間長を付与する手法を用いてもよい。また、基本周波数を自動付与する手法には、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する手法や矩形でモデル化する手法の他にも、基本周波数付与の対象となる句の長さやアクセント型に応じて、基本周波数パターンを保持したデータベースを検索して付与する手法など様々な手法を韻律情報の付与に用いることができる。
感情情報付与部30は、入力された中間言語セグメント列の各セグメントに対して感情情報の付与処理を行う。感情情報の付与処理は、予め感情付与規則31に、キーワードやフェースマーク等の感情を表す文字列表現に対して感情情報を定義したデータベースを格納し、このデータベースを参照して、当該文字列を含む句や文に対して対応する感情情報を付与した感情情報付き中間言語セグメント列を生成し、次段の処理部に出力する。
感情情報補間部40は、本発明の中核をなす処理部であり、隣接するセグメントの感情情報を参照して、処理対象となるセグメントの感情情報をなめらかに(スムーズに)変化するように補間処理を行い補間感情情報を中間言語セグメントに付与する。すなわち、補間処理によって補間感情情報付き中間言語セグメント列を生成し、次段の処理部に送る。この補間感情情報によって、波形合成部50は、文章中に異なる感情情報が隣接している場合に、その異なる感情の移り変わりをなめらかに再生する音声を合成することができる。
波形合成部50は、入力された補間感情情報付き中間言語セグメント列から、単位音韻波形の選択処理、該波形の接続処理、韻律処理等の従来の音声合成技術を利用して音声を合成して再生する。補間感情情報付き中間言語セグメント列から、韻律情報付与部20で付与された韻律情報と、感情情報補間部40で補間された感情情報を抽出し、例えば、TD−PSOLA等の波形重畳合成方式を用いて音声合成を行う。なお、波形重畳方式の代わりに、フォルマント合成方式等のパラメータ音声合成方式を用いることもできる。また、感情音声を合成する手法としては、音声合成処理の直前に、韻律情報を感情情報に応じて変換したり、波形重畳合成方式で利用される音源データや、パラメータ合成方式で利用されるパラメータデータを感情情報に応じて変換する手法を用いてもよい。このような、変換の度合いを連続的な感情情報として定めることで、感情を滑らかに変換することのできる合成音声が実現できる。
以上のように構成された本発明の実施の形態では、入力された文章をセグメントに分割し、各セグメントに感情情報を付与する。そして、文章中に異なる感情情報が隣接している場合に、その異なる感情の移り変わりをなめらかに行うような補間感情情報を付与し、感情情報及び補間感情情報を元に、音声を再生するので、感情をなめらかに移り変わるような文章の音声を合成し再生することができるので、利用者は、感情付き合成音声をより聞き取りやすくなる。
次に、以上のように構成された本発明の実施の形態の音声合成装置について、より具体的な実施例について説明する。
第1の実施例は、入力されたメール文章を感情付き音声で読み上げるメール読み上げ装置の例である。
図2は、第1の実施例のメール読み上げ装置の基本的構成を示すブロック図である。
第1の実施例のメール読み上げ装置では、図1において前述した音声合成装置の基本構成に、さらに入力テキスト110を入力するテキスト入力装置120、合成音声データを再生する音声波形再生装置180、スピーカー190等が追加された構成となっている。なお、テキスト解析部10とテキスト解析装置130、韻律情報付与部20と韻律情報付与装置140、感情情報付与部30と感情情報付与装置150、感情情報補間部40と感情情報補間装置160、及び、波形合成部50と波形合成装置170は同一の処理を行う。
以下に、第1の実施例の各装置の処理内容を説明する。
まず、読み上げる入力テキスト110がテキスト入力装置120に入力される。メール読み上げ装置の実施例において入力テキスト110は様々なフォーマットを取り得る。テキスト入力装置120は、例えば、メール読み上げ装置をパソコンに実装した場合は、POP3やIMAP4などのプロトコルを用いてメールテキストを取得するプログラムであり、メール読み上げ装置を携帯電話に実装した場合は、携帯電話キャリアのメールサーバにアクセスしてメールテキストを取得するゲートウェイ装置となる。
テキスト入力装置120に入力された入力テキスト110は、次に、テキスト解析装置130に入力される。テキスト解析装置130は、入力テキスト110から、音声合成を行うための言語情報を解析する。解析される言語情報としては、入力テキスト110の漢字・かな部分の読み情報や、アクセント位置情報、ポーズ位置情報などがある。これらの言語情報は、イントネーションを決定する韻律情報を生成するために韻律情報付与装置140で使用される他、音声合成を行う際に接続する音声データを決定するために音声波形合成装置170で利用される。この解析処理には、漢字かな混じり文を個々の単語に分割する形態素解析処理や、入力文章に対する係り受け関係を解析する構文解析処理が行われる。
テキスト解析装置130で解析された言語情報は、セグメントごとにまとめられた言語情報セグメント列として生成され出力される。なお、「セグメント」とは感情情報を付与する単位を指し、セグメントの範囲によって感情をどの程度細かく制御できるかが決定される。セグメントの例として、文節、アクセント句、文などの単位を取ることができる。
図3は、テキスト解析装置130が、入力テキスト110に対して形態素解析処理を行った結果の一例を示す説明図である。図2に示した入力テキスト110を解析した結果、セグメントID210に示される3つのセグメントに分割されている。また、形態素ID220に示される13の文節の形態素に分割され、その文節(単語)の内容は文節230に示されている。各形態素の読み及びアクセントは、読み/アクセント240に結果が格納される。形態素解析処理によって、図3に示すような個々の単語に分割された出力結果が得られる。
図4は、テキスト解析装置130が、入力テキスト110に対して構文解析処理を行った結果の一例を示す説明図である。構文解析処理によって、係り受け関係が解析され、図4に示すように文節間の係り受け関係が出力結果として得られる。この係り受け関係を元に、文章のアクセントや感情の付与が決定される。
なお、テキスト解析装置130で行われる言語情報の解析手法としては、形態素解析や係り受け解析の他にも、構文解析や談話解析など、より高次の解析手法を用いることもできる。
テキスト解析装置130から出力された言語情報セグメント列は、韻律情報付与装置140に入力される。韻律情報付与装置140では、言語情報セグメント列から合成音声のイントネーションを決定する韻律情報を付与する。韻律情報とはテキスト解析装置130で解析された文節に対する読みの、個々の音素の長さや音の高さ、強さなどを指定する情報である。この韻律情報を元に音声波形合成装置170で合成音声が生成される。
個々の音素の長さを付与するには、例えば、音素ごとの継続時間が記録されたテーブルや、付与対象となる音素の前後1音素までの環境要因を考慮した継続時間が記録されたテーブルを参照する。これらのテーブルは予めデータベースとして保持しておく。また、音の高さである基本周波数を付与するには、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する手法や矩形でモデル化する手法を利用する。韻律情報付与装置140は言語情報セグメント列に韻律情報を付与した中間言語セグメント列を生成し出力する。
韻律情報付与装置140から出力された中間言語セグメント列は、感情情報付与装置150に入力される。感情情報付与装置150は、入力された中間言語セグメント列から、各セグメントに対して感情情報を付与する。
感情情報とは、音声合成を行う際に各セグメントをどのような感情音声で読むかを指定する情報である。この感情情報を抽出する処理過程は、感情情報対応データを用い、感情情報に対応した文字列を検索し、対応する文字列があった場合には該当する感情を付与する。感情情報付与装置150は中間言語セグメント列に感情情報を付与した感情情報付き中間言語セグメント列を生成し出力する。
図5は、感情を付与する際の感情情報対応データの一例を示した説明図である。
感情情報対応データは、文字列420を含むセグメントに対して、対応する感情情報430に示される感情情報を付与する。図5の例では、ID410「1」は、文字列「!」は「喜び」という感情情報が、文字列「(怒)」に「怒り」という感情情報が、それぞれ割り当てられていることを示している。
図6は、感情情報が付与された感情情報付き中間言語セグメント列の一例を示す説明図である。図6の例は、図3に示した中間言語セグメント列に対して、各文節に含まれる文字から感情情報対応データを参照して付与された感情情報が、感情情報550に示されている。
なお、このように単純な文字列との一致を調べるだけでなく、複数の文字列を同時に含んでいる場合に対応する感情情報を付与するという単語の共起関係を用いた付与手法を用いてもよい。
感情情報付与装置150から出力された感情情報付き中間言語セグメント列は、感情情報補間装置160に入力される。感情情報補間装置160は、感情情報付与装置150で各文節に対して個々に付与された離散的な感情情報(図6の感情情報550)を、連続的な感情制御パラメータ列に変換する。
図7は、感情情報補間装置160の構成を示したブロック図である。
感情情報補間装置160は、感情情報付き中間言語セグメント列を中間言語部分と感情情報部分とに分割する感情情報付き中間言語セグメント列分割装置620、分割された感情情報セグメント列622から隣接した二つの感情情報セグメント対を選択する感情情報対選択装置630、感情遷移情報を格納した感情遷移規則データベース651、感情情報対選択装置630で選択された感情情報セグメント対に対応する感情遷移情報を選択する感情遷移規則選択装置650、感情遷移規則選択装置650で選択された感情遷移情報を適用して感情情報の補間を行う補間感情情報生成装置640、感情情報が補間された補間感情情報セグメント列641と中間言語セグメント列621で分割された中間言語セグメント列621とを結合して補間感情情報付き中間言語セグメント列670を生成する補間感情情報付き中間言語セグメント列結合装置660等から構成されている。
感情情報付与装置150から出力された感情情報付き中間言語セグメント列610は、まず、感情情報付き中間言語セグメント列分割装置620に入力される。感情情報付き中間言語セグメント列分割装置620は、感情情報付き中間言語セグメント列610を中間言語部分である中間言語セグメント列621と感情情報部分である感情情報セグメント列622とに分割する。例えば、入力された感情情報付き中間言語セグメント列が図6に示すようなデータ例である場合は、感情情報付き中間言語セグメント列分割装置620によって、中間言語セグメント列(図3参照)と、感情情報セグメント列(図8参照)とに分割される。
次に、分割されたデータのうち、感情情報付き中間言語セグメント列610の感情情報部分である感情情報セグメント列622は、感情情報対選択装置630に入力される。感情情報対選択装置630は、隣接する二つの感情情報の対をすべて選択する。この処理は、あるセグメントIDの感情情報と次のセグメントIDの感情情報とを対として抽出し、これをすべてのセグメントIDについて繰り返して実行する。感情情報対選択装置630での処理の結果、図9のような感情情報対データが抽出される。例えば、セグメントID810「1」では、感情情報対820は、「喜び」と「平静」が対になって規定されている。感情情報対選択装置630は、選択した感情情報対データを補間感情情報生成装置640に出力する。
次に、感情情報対データは補間感情情報生成装置640に入力される。補間感情情報生成装置640は、感情遷移規則に従って感情情報の補間処理を行う。感情情報の補間処理は、図8に示すようにセグメントごとに離散的に付与されている感情情報を、その前後の感情情報からの変化に応じて連続的に変化する感情制御パラメータ列へと変換する処理である。
以下に、補間感情情報生成装置640で行われる感情情報の補間処理について説明する。
まず、感情情報対選択装置630によって選択された感情情報対データ(図9)の各セグメントの感情情報対に対応する感情遷移規則を、感情遷移規則選択装置650が感情遷移規則データベース651から検索する。
図10は、この感情遷移規則データベース651に格納されている感情遷移規則のフォーマットの一例を示す説明図である。例えば、規則ID901「1」は、感情情報対920が「平静−喜び」である場合には、感情遷移規則930が「(−2s,1s)」と設定されていることを示す。この感情遷移規則の意味は、前の方のセグメント(感情情報が「平静」のセグメント)の末尾から手前2秒の位置から、感情の度合いを100%から減少させ、セグメントの末尾において感情の度合いが0%となる。同時に、後の方のセグメント(感情情報が「喜び」のセグメント)の先頭で0%から開始し、感情の度合いが先頭から1秒経過した位置で感情の度合いが100%となるということを示している。
なお、図10に示した感情遷移規則の例は、感情変化の開始・終了位置を時刻で指定しているが、前後のセグメントの全体の長さに対する割合で指定してもよい。また、この例では感情パラメータの変化が直線的であることを想定しているが、二次曲線やスプライン曲線などの滑らかに変化するパターンを利用することも可能である。
この感情遷移規則を図9に示す感情情報対データに適用した場合、感情遷移規則選択装置650によって、セグメントID1には(−0.5s,3s)が、セグメントID2には(−2s,1s)が、セグメントID3には(−2s,0s)が、それぞれ検索される。
次に、補間感情情報生成装置640は、感情遷移規則選択装置650によって検索された感情遷移規則を結合し、補間感情情報セグメント列を生成し出力する。
図11は、この補間感情情報セグメント列の一例を示す説明図である。前方遷移時間1030は、当該セグメントの先頭位置から感情の度合いの変化を開始し、感情の度合いが100%となるまでの時間の長さを示す。後方遷移時間1040は、当該セグメントの末尾からどれだけ手前で感情の度合いの変化を開始し、セグメントの末尾で感情の度合いを0%とするまでの時間の長さを示す。
なお、感情の遷移の際に、感情の度合いが0%で次の感情に遷移するのではなく、例えば感情の度合いが、怒りが80%で喜びが20%というように、複数の感情タイプの中間的な感情遷移データを生成するようにしてもよい。
感情情報付き中間言語セグメント列分割装置620から出力された中間言語セグメント列621及び補間感情情報生成装置640から出力された補間感情情報セグメント列641は、補間感情情報付き中間言語セグメント列結合装置660に入力される。補間感情情報付き中間言語セグメント列結合装置660は、中間言語セグメント列621と補間感情情報セグメント列641とを結合して補間感情情報付き中間言語セグメント列670を生成する。
図12は、補間感情情報付き中間言語セグメント列670の一例を示す説明図である。
図3に示すような中間言語セグメント列の各セグメントIDに対して、図11に示すような補間感情情報セグメント列に含まれる感情情報1150、前方遷移時間1160、後方遷移時間1170が付加されたデータとなっている。
以上のように、感情情報の補間処理によって、異なる感情が隣接しているセグメント間における感情が連続的に遷移する(なめらかに遷移する)感情制御パラメータ列を含む補間感情情報付き中間言語セグメント列が出力される。
ここで図2に戻り説明を続けると、感情情報補間装置160で出力された補間感情情報付き中間言語セグメント列670は、音声波形合成装置170に入力される。音声波形合成装置170では、補間感情情報付き中間言語セグメント列から感情情報が付与された音声波形へと変換し、該音声波形を音声波形再生装置180へと出力する。音声波形再生装置180は、音声波形をスピーカー190を介して、人間に実際に聞こえる音声として出力する。
音声波形合成装置170では、韻律情報を含む補間感情情報付き中間言語セグメント列670が入力されると、例えば、波形重畳合成方式やパラメータ合成方式を用いて音声波形の合成を行う。
また、感情音声を合成する手法としては、音声波形の合成処理の直前に、韻律情報を感情情報に応じて変換したり、波形重畳合成方式で利用される音源データや、パラメータ合成方式で利用されるパラメータデータを感情情報に応じて変換する手法を用いる。その変換の度合いを補間感情情報付き中間言語セグメント列670の出力結果である連続的な感情情報で定めることで、滑らかに変換する感情合成音声を実現することが可能となる。感情情報による韻律情報や音源、パラメータの変換方法は、例えば、怒りや喜びといった感情タイプごとに別々のテーブルやモデルを参照するという手法を用いる。
以上のように、本発明の実施形態の第1の実施例では、従来、それぞれのセグメントに付与された感情が0%か100%のどちらかでしかなく、感情の変化に伴って極端に変化していた合成音声の感情パラメータ(図13参照)を、0%から100%まで連続的に変化させることができる(図14参照)。そのため、合成された音声の感情の遷移が自然となり、人間の細かい感情の機微を模した合成音声を生成することができる。
次に、本発明の実施の形態の第2の実施例として、漢字かな交じり文等から構成される入力テキストから感情情報を付加した中間言語データへと変換する音声データ作成装置について説明する。
この音声データ作成装置は、サーバ側で機械的に変換された音声データの読み誤りなどを修正した中間言語データをクライアントに送り、その中間言語データから合成音声を生成するシステムで利用される。例えば、クライアントは通信カーナビゲーション装置である。第2実施例の音声データ作成装置は、サーバからクライアントに情報配信を行うシステムに応用される。
図15は本発明の実施の形態の第2の実施例の音声データ作成装置の基本的な構成を示すブロック図である。
第2の実施例では、図2に示した第1の実施例のメール読み上げ装置の構成に、入力テキスト及びそのテキスト解析結果をグラフィカルに表示する表示装置1470、テキスト解析装置1415による自動的なテキスト解析結果の誤り(読み付与誤りやアクセント付与誤り)をGUI上で修正する読み情報入力装置1480、感情情報付与装置1425による自動的な感情情報付与結果の誤りをGUI上で修正する感情情報入力装置1490、ツールで作成・修正した中間言語データと補間感情情報を結合して符号化する中間言語符号化装置1435、符号化された補間感情情報付き中間言語データを通信網1445を介してクライアント側へ送信する中間言語配信装置1440等が付加された構成となっている。
以下、実際の処理の流れに従って、各装置の処理内容を説明する。
まず、クライアント側に配信する入力テキスト1405がテキスト入力装置1410に入力される。このようなサーバ・クライアント型の情報配信システムで想定される入力テキスト1405としては、ニュース情報、イベント情報、ユーザ宛のメール等である。
テキスト入力装置1410に入力された入力テキスト1405は、そのまま、テキスト解析装置1415に入力される、テキスト解析装置1415は、音声合成用中間言語への変換を行うための言語情報を解析する。なお、この言語情報の解析処理は第1の実施例で前述したテキスト解析装置130と同様であるため説明を省略する。テキスト解析装置1415は、解析結果として言語情報セグメント列を出力する。
また、テキスト入力装置1410から出力される入力テキスト1405、及びテキスト解析装置1415から出力される言語情報セグメント列は、表示装置1470にも送られる。表示装置1470は、入力テキスト1405及び言語情報セグメント列を図形を伴ってグラフィカルに表示する。この表示によって、音声データ作成装置のオペレータは、例えば、入力テキスト1405から解析された言語情報セグメント列のどの部分の読み付与が誤っているかを視認することが可能となる。
図16は、表示装置1470に表示される画面の表示例である。
入力テキスト1510は入力テキスト1405を1文ごとに分割した文章を示し、中間言語編集フィールド1520は、テキスト解析装置1415によって解析された中間言語データを示す。中間言語編集フィールドは編集可能なテキストフィールドであり、例えば読み付与が誤っている場合は、オペレータがマウスやキーボードなどの入力デバイスによって修正することができる。
図17は表示装置1470に表示される画面の別の表示例である。
解析候補メニュー1620は、入力テキスト1405の、句読点で区切られたフレーズごとにテキスト解析装置1415で解析された複数の中間言語データの候補をプルダウンメニュー形式で表示する。オペレータは、マウスやキーボードなどの入力デバイスによって、もっとも適切な読みの候補を選択することができる。
なお、図16及び図17に示した二つの表示例は、オペレータの熟練度に応じて切りかえて利用することができる。また、利便性を考慮してこの二つを併用することもできる。
これらの中間言語編集フィールド1520や解析候補メニュー1620、マウスやキーボード等の入力デバイスによって読み情報入力装置1480が構成される。
オペレータがこの読み情報入力装置1480で読み・アクセント情報を修正する度に、その修正結果が再度、図16又は図17の表示形式で表示装置1470に表示されるとともに、修正された言語情報セグメント列が韻律情報付与装置1420に出力される。
読み情報入力装置1480で修正された言語情報セグメント列、又はテキスト解析装置1415から出力された言語情報セグメント列は、韻律情報付与装置1420に入力される。韻律情報付与装置では、合成音声のイントネーションを決定する韻律情報が付与される。なお、この韻律情報の付与処理は第1の実施例で前述した韻律情報付与装置140と同様であるため説明を省略する。韻律情報付与装置1420は、解析結果である言語情報セグメント列に韻律情報を付与した中間言語セグメント列を出力する。
韻律情報付与装置1420から出力された中間言語セグメント列は、次に、感情情報付与装置1425に入力され、各セグメントに対して感情情報が付与される。なお、感情情報の付与処理は第1の実施例で前述した感情情報付与装置150と同様であるため説明を省略する。感情情報付与装置1425は、中間言語セグメント列に感情情報を付与したデータを感情情報付き中間言語セグメント列を出力する。
感情情報付与装置1425から出力された感情情報付き中間言語セグメント列は、感情情報補間装置1430に入力される。感情情報補間装置1430では、感情情報付与装置1425で付与された離散的な感情情報を連続的な感情制御パラメータ列に変換する。その結果、感情情報補間装置1430は補間感情情報付き中間言語セグメント列を出力する。この感情の補間処理は第1の実施例で前述した感情情報補間装置160と同様であるため説明を省略する。
一方で、感情情報付与装置1425から出力される感情情報付き中間言語セグメント列と、感情情報補間装置1430から出力される補間感情情報付き中間言語セグメント列とは表示装置1470に送られる。表示装置1470は、これらのセグメント列を図形を伴ってグラフィカルに表示する。この表示によって、音声データ作成装置のオペレータは連続的な感情変化がどのように設定されたかを視認することができ、どの部分の感情付与が誤っているかを視認することができる。
図18は、表示装置1470に表示される画面の表示例を示す。なお、この表示例は、図17の表示例に感情情報の図形によるグラフィカル表示を追加したものである。
入力テキスト1710は入力テキスト1405を1文毎に分割した文章である。解析候補メニュー1720は、句読点で区切られたフレーズごとに、テキスト解析装置1415で解析された複数の中間言語データをプルダウンメニュー形式で表示したものである。感情情報1730は、アクセント句又は句読点で区切られるフレーズに対して感情情報付与装置1425で解析された感情情報をプルダウンメニュー形式で表示したものである。オペレータは、この感情情報1730のメニューより、より適切な感情情報を選択することができる。補間感情情報1740は、感情情報補間装置1430で連続的に補間された感情情報をグラフ的に表示したものである。オペレータはこのグラフの形を見て、合成音声がどのように感情が遷移していくかのおおよその確認をすることができる。
これらの感情情報1730や補間感情情報1740、マウスやキーボードなどの入力デバイスが、感情情報入力装置1490を構成する。
図19は、表示装置に表示される画面の別の表示例を示す。この表示例は、図18の補間感情情報1740の代わりにキャラクタ1840が表示され、キャラクタの表情によって感情情報を視覚的に視認することのできるものである。
例えば、マウスによって入力テキスト1810にカーソルを合わせると、その部分の感情がキャラクタの表情としてグラフィカルに表示され、マウスカーソルを入力テキスト1810に沿って動かすと、キャラクタの表情が連続的に変わることで、合成音声がどのように感情が遷移していくかのおおよその確認をすることができる。
オペレータが感情情報入力装置1490で感情情報や補間感情情報を修正する度に、その修正結果が再度図18又は図19の表示形式で表示装置1470に表示されるとともに、修正された感情情報付き中間言語セグメント列として感情情報補間装置1430に出力される。また、修正された補間感情情報付き中間言語セグメント列を最終的な出力データとして扱うこともできる。
このようにして、テキスト入力装置1410に入力された読み上げテキストは、表示装置1470に表示され(図18又は図19)、読み情報入力装置1480と感情情報入力装置1490によるオペレータの編集操作が施される。この編集操作の度に韻律情報付与装置1420から感情情報補間装置1430までの処理が行われて、表示装置1470の表示(グラフ又はキャラクタ)が更新される。
なお、感情情報の修正操作の中で、オペレータは音声波形合成装置1450、音声波形再生装置1455、スピーカー1460を通して、補間感情情報付き中間言語セグメント列の実際の合成音声を聴いて確認することもできる。
修正操作が完了した補間感情情報付き中間言語セグメント列は、中間言語符号化装置1435に出力さえる。中間言語符号化装置1435では、中間言語データと補間感情情報を配信に適した形式に符号化する。この符号化方式は、例えばXMLを利用する方法や、従来のテキストによる発音記号列による方法など、様々な方法を用いることができる。
符号化された補間感情情報付き中間言語セグメント列は通信網1445を介してクライアント側へと配信される。
以上のように構成された本発明の実施の形態の第2の実施例の音声データ作成装置では第1の実施例の効果と同様に、感情を連続的に変化させることができ、合成された音声の感情の遷移が自然となり、人間の細かい感情の機微を模した合成音声を生成することができる。さらに、入力テキストに対して自動的に付与された読み、アクセントや感情情報がグラフィカルに表示された表示装置を視認しながら、読み、アクセント、感情情報の変更、修正を行うことができ、音声データ作成装置を利用するオペレータの作業効率が向上する。
本発明の実施の形態の音声合成装置の構成を示す機能ブロック図である。 本発明の第1の実施例のメール読み上げ装置の基本的構成を示すブロック図である。 本発明の第1の実施例、形態素解析処理の結果の一例を示す説明図である。 本発明の第1の実施例の、構文解析処理の結果の一例を示す説明図である。 本発明の第1の実施例の、感情情報対応データの一例を示す説明図である。 本発明の第1の実施例の、感情情報が付与された感情情報付き中間言語セグメント列の一例を示す説明図である。 本発明の第1の実施例の、感情情報補間装置160の構成を示すブロック図である。 本発明の第1の実施例の、感情情報セグメント列の一例を示す説明図である。 本発明の第1の実施例の、感情情報対データの一例を示す説明図である。 本発明の第1の実施例の、感情遷移規則のフォーマットの一例を示す説明図である。 本発明の第1の実施例の、補間感情情報セグメント列の一例を示す説明図である。 本発明の第1の実施例の、補間感情情報付き中間言語セグメント列の一例を示す説明図である。 従来の合成音声の感情パラメータを示す説明図である。 本発明の第1の実施例の補間感情情報を用いた合成音声の感情パラメータを示す説明図である。 本発明の第2の実施例の、音声データ作成装置の基本的な構成を示すブロック図である。 本発明の第2の実施例の、表示装置1470に表示される画面の表示例の説明図である。 本発明の第2の実施例の、表示装置1470に表示される画面の別の表示例の説明図である。 本発明の第2の実施例の、表示装置1470に表示される画面の別の表示例の説明図である。 本発明の第2の実施例の、表示装置1470に表示される画面の別の表示例の説明図である。
符号の説明
10 テキスト解析部
11 言語辞書
20 韻律情報付与部
21 韻律付与規則
30 感情情報付与部
31 感情付与規則
40 感情情報補間部
41 感情遷移規則
50 波形合成部
51 波形データ
110 入力テキスト
120 テキスト入力装置
130 テキスト解析装置
140 韻律情報付与装置
150 感情情報付与装置
160 感情情報補間装置
170 音声波形合成装置
170 波形合成装置
180 音声波形再生装置
190 スピーカー
620 感情情報付き中間言語セグメント列分割装置
630 感情情報対選択装置
640 補間感情情報生成装置
650 感情遷移規則選択装置
651 感情遷移規則データベース
660 補間感情情報付き中間言語セグメント列結合装置
1410 テキスト入力装置
1415 テキスト解析装置
1420 韻律情報付与装置
1425 感情情報付与装置
1430 感情情報補間装置
1435 中間言語符号化装置
1440 中間言語配信装置
1445 通信網
1450 音声波形合成装置
1470 表示装置
1480 読み情報入力装置
1490 感情情報入力装置
1840 キャラクタ

Claims (9)

  1. 入力されたテキスト情報をセグメント毎に分割したセグメント列を生成するテキスト解析部と、
    前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する感情情報付与部と、
    前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する感情情報補間部と、
    前記感情情報が付与されたセグメントに基づいて音声データを合成する波形合成部と、
    を備え、
    前記感情情報補間部は、第1のセグメントに付与された感情情報と前記第1のセグメントに隣接する第2のセグメントに付与された感情情報とに基づいて、前記第1のセグメントにおける第1の感情から前記第2のセグメントにおける第2の感情へ遷移する場合の感情の度合いの変化を定義する感情遷移規則を決定し、
    前記波形合成部は、該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントの前記テキスト情報に基づいて音声データを合成することを特徴とする音声合成装置。
  2. 前記感情遷移規則は、前記第1のセグメントにおける第1の感情と、前記第2のセグメントにおける第2の感情との度合いをなめらかに変化させる規則であり、前記第1の感情及び前記第2の感情の度合いの遷移開始点と遷移終了点とを含むことを特徴とする請求項1記載の音声合成装置。
  3. 前記感情情報補間部が前記感情の度合いを変化させる処理は、前記セグメントに対応する音声を構成する音素の継続時間、高さ及び強さの少なくともいずれかを変化させる処理であることを特徴とする請求項1に記載の音声合成装置。
  4. 前記音声合成装置は、前記感情情報付与部によって前記セグメントに付与された感情情報表示する表示部を備え、
    前記表示部は、前記感情情報に対して定められたキャラクタによって、前記感情情報が付与されたセグメント列における感情の度合いの変化を表示することを特徴とする請求項1に記載の音声合成装置。
  5. 入力されたテキストをセグメント毎に分割したセグメント列を生成するテキスト解析部と、
    前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する感情情報付与部と、
    前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する感情情報補間部と、
    前記感情情報が付与されたセグメントに基づいて音声データを合成する波形合成部と、
    前記テキストを表示する表示部と、
    オペレータによって前記音声データに指示を入力する指示入力部と、
    を備えた音声合成装置であって、
    前記感情情報補間部は、第1のセグメントに付与された感情情報と前記第1のセグメントに隣接する第2のセグメントに付与された感情情報とに基づいて、前記第1のセグメントにおける第1の感情から前記第2のセグメントにおける第2の感情へ遷移する場合の感情の度合いの変化を定義する感情遷移規則を決定し、
    前記表示部は、前記テキストと共に前記感情情報を示す情報を表示し、
    前記指示入力部からの入力に基づいて、前記音声データのセグメント毎の感情情報を設定し、
    前記波形合成部は、該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントのテキスト情報に基づいて音声データを合成することを特徴とする音声合成装置。
  6. 前記感情遷移規則は、前記第1のセグメントにおける第1の感情と、前記第2のセグメントにおける第2の感情との度合いをなめらかに変化させる規則であり、前記第1の感情及び前記第2の感情の度合いの遷移開始点と遷移終了点とを含むことを特徴とする請求項5に記載の音声合成装置。
  7. 前記感情情報補間部が前記感情の度合いを変化させる処理は、前記セグメントに対応する音声を構成する音素の継続時間、高さ及び強さの少なくともいずれかを変化させる処理であることを特徴とする請求項5に記載の音声合成装置。
  8. 前記表示部は、前記感情情報に対して定められたキャラクタによって、前記感情情報が付与されたセグメント列における感情の度合いの変化を表示することを特徴とする請求項5に記載の音声合成装置。
  9. 音声データを合成する音声合成装置を、
    入力されたテキストをセグメント毎に分割したセグメント列を生成する手段と、
    前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する手段と、
    前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する手段と、
    前記感情情報が付与されたセグメントに基づいて音声データを合成する手段と、
    前記テキストを表示する手段と、
    オペレータによって前記音声データに指示を入力する手段と、
    第1のセグメントに付与された感情情報と前記第1のセグメントに隣接する第2のセグメントに付与された感情情報とに基づいて、前記第1のセグメントにおける第1の感情から前記第2のセグメントにおける第2の感情へ遷移する場合に、前記セグメントに対応する音声を構成する音素の継続時間、高さ及び強さの少なくともいずれかを変化させるための感情遷移規則を決定する手段と、
    前記テキストと共に前記感情情報を示す情報を表示する手段と、
    オペレータによって入力された指示に基づいて、前記音声データのセグメント毎の感情情報を設定する手段と、
    該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントのテキスト情報に基づいて音声データを合成する手段と、
    として機能させるための音声合成プログラム。
JP2003424853A 2003-12-22 2003-12-22 音声合成装置及び音声合成プログラム Expired - Fee Related JP4409279B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003424853A JP4409279B2 (ja) 2003-12-22 2003-12-22 音声合成装置及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003424853A JP4409279B2 (ja) 2003-12-22 2003-12-22 音声合成装置及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2005181840A JP2005181840A (ja) 2005-07-07
JP4409279B2 true JP4409279B2 (ja) 2010-02-03

Family

ID=34784925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003424853A Expired - Fee Related JP4409279B2 (ja) 2003-12-22 2003-12-22 音声合成装置及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4409279B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340956B2 (en) 2006-05-26 2012-12-25 Nec Corporation Information provision system, information provision method, information provision program, and information provision program recording medium
KR101594057B1 (ko) 2009-08-19 2016-02-15 삼성전자주식회사 텍스트 데이터의 처리 방법 및 장치
JP2014130211A (ja) * 2012-12-28 2014-07-10 Brother Ind Ltd 音声出力装置、音声出力方法、およびプログラム
JP5949607B2 (ja) 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
KR102034255B1 (ko) * 2017-06-29 2019-10-18 네이버 주식회사 사람-기계 간 감정 대화를 위한 방법 및 시스템
CN110335583B (zh) * 2019-04-15 2021-08-03 浙江工业大学 一种带隔断标识的复合文件生成及解析方法

Also Published As

Publication number Publication date
JP2005181840A (ja) 2005-07-07

Similar Documents

Publication Publication Date Title
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US8352270B2 (en) Interactive TTS optimization tool
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6226614B1 (en) Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
Eide et al. A corpus-based approach to< ahem/> expressive speech synthesis
US20110202344A1 (en) Method and apparatus for providing speech output for speech-enabled applications
JP2003295882A (ja) 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JP3616250B2 (ja) 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
JP2002221980A (ja) テキスト音声変換装置
GB2444539A (en) Altering text attributes in a text-to-speech converter to change the output speech characteristics
JPH1138989A (ja) 音声合成装置及び方法
JP2006227589A (ja) 音声合成装置および音声合成方法
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
JP3060276B2 (ja) 音声合成装置
CN113628609A (zh) 自动音频内容生成
JP2006349787A (ja) 音声合成方法および装置
Hofer Emotional speech synthesis
JP2001242881A (ja) 音声合成方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091111

R150 Certificate of patent or registration of utility model

Ref document number: 4409279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131120

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees