JP4409279B2

JP4409279B2 - 音声合成装置及び音声合成プログラム

Info

Publication number: JP4409279B2
Application number: JP2003424853A
Authority: JP
Inventors: 健司永松; 信尾額賀
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-12-22
Filing date: 2003-12-22
Publication date: 2010-02-03
Anticipated expiration: 2023-12-22
Also published as: JP2005181840A

Description

本発明は感情の付与された音声データを再生する音声合成装置に関し、特に、感情の遷移をなめらかに行うことのできる音声合成装置及び音声合成プログラムに関する。

銀行の残高照会や株価情報の提供などの単なる情報の読み上げでのみ利用されてきた音声合成装置が、最近では自動車のカーナビゲーション装置に代表される車載用情報端末や携帯電話などにも搭載されるようになってきている。このようなよりパーソナルユースで利用される装置においては、単に朗読的に読むだけではなく、読み上げる内容やアプリケーションの特徴に応じて感情を込めたり、よりアミューズメント色に溢れた読み上げスタイルの実現が要求されている。そこで、感情をつけた音声を生成し、それを利用してより多様な読み上げスタイルを実現するための音声合成装置が知られている。

例えば、感情喚起情報を認知する感情喚起情報認識手段と、“驚き、恐れ、嫌悪、怒り、幸福、悲しみ”等の各感情成分に感情強度を反映させた数量を与えることで全体の感情状態を表現し、感情喚起情報が認知された場合には、予め規定された感情状態遷移規則に則してその感情状態を遷移させる感情喚起手段と、規定された感情状態に対応づけて表情や音声の韻律を変化、出力する表情・音声合成手段と、感情成分別にそれぞれの表出閾値を指定して感情表出スタイルの設定／変更を行なう表出スタイル設定手段と、設定された表出閾値を保持する表出スタイル記憶手段を内在し、保持された表出閾値と感情喚起手段に規定された感情状態とを比較して表出すべき表情や音声を決定する表出内容決定手段と、設定された表出閾値を複数記憶・保存することができる表出スタイル群保持手段を備えた感情表出装置が知られている（例えば、特許文献１参照。）。
特開平７−１０４７７８号公報

従来技術のような感情を付与した音声合成技術では、ある入力文章を合成音声に変換する際に、文章に付与する感情を指定し、その感情に対応する感情パラメータを用いて合成音声を生成する。しかしながら、この技術を用いる場合は、文章単位に感情が固定されてしまい、例えば、複数の文章から構成されるテキストを読み上げる場合に、例えば「喜び」の感情で合成した音声と「悲しみ」の感情で合成した音声とが連続している場合、感情の変化が急激すぎるという問題がある。そのため、人間の細かい感情の機微を模した合成音声を生成することが難しかった。

例えば、特許文献１に記載の発明では、感情がどう変化していくかを規定する規則として感情遷移規則というものが定義されているが、この遷移規則は、ある時点で「怒り」という感情状態にあるとき、その次の時点でどのような感情に移行するかを定義したものである。従って、ある感情から異なる感情に移行する場合は、その時点で突然感情が変化するので、文章が不自然となる可能性がある。

本発明は上記の問題点に鑑みてなされたものであり、感情を表現可能な音声合成装置において、ある感情から異なる感情に移行する場合にもなめらかに感情を変化させることのできる音声合成装置及び音声合成プログラムを提供することを目的とする。

本発明は、入力されたテキスト情報をセグメント毎に分割したセグメント列を生成するテキスト解析部と、前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する感情情報付与部と、前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する感情情報補間部と、前記感情情報が付与されたセグメントに基づいて音声データを合成する波形合成部と、を備え、前記感情情報補間部は、第１のセグメントに付与された感情情報と前記第１のセグメントに隣接する第２のセグメントに付与された感情情報とに基づいて、前記第１のセグメントにおける第１の感情から前記第２のセグメントにおける第２の感情へ遷移する場合の感情の度合いの変化を定義する感情遷移規則を決定し、前記波形合成部は、該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントの前記テキスト情報に基づいて音声データを合成することを特徴とする。

本発明によれば、合成音声の自然な感情変化を記述する感情情報（感情制御パラメータ列）をセグメントの中間言語データに埋め込む音声合成装置、を実現できるようになり、利用者が、感情付き合成音声をより聞き取りやすくなるという効果がある。さらには、音声合成装置の発する音声によって指示される操作がよりわかりやすくなるなど、聴取する利用者の利便性を向上させることが可能になる。

また、感情制御パラメータ列が埋め込まれた中間言語データを作成するコンテンツ制作者側にとっても、パラメータ変化を細かく指定する必要がなくなるため、制作作業の効率を向上させることが可能になる。

以下、本発明の実施形態について、図面を参照しながら説明する。

図１は本発明の実施の形態の音声合成装置の構成を示す機能ブロック図である。なお、第１の実施の形態は、後述するようなメール読み上げ装置又は音声データ作成装置の基本的な構成である。

本発明の音声合成装置は、入力された読み上げテキストに対して言語情報の解析を行うテキスト解析部１０、テキスト解析部１０の解析結果である言語情報セグメント列の個々のセグメントに対して韻律情報を付与する韻律情報付与部２０、韻律情報付与部２０の付与結果である中間言語セグメント列の個々のセグメントに対して感情情報を付与する感情情報付与部３０、感情情報付与部３０の付与結果である感情情報付き中間言語セグメント列の個々のセグメントに対して隣接するセグメントの感情情報を参照して感情情報の補間を行う感情情報補間部４０と、感情情報補間部４０の補間結果である補間感情情報付き中間言語セグメント列の個々のセグメントに対して、例えば各音素に対応する波形データを取得して波形接続や波形重畳などの信号処理によって感情付き合成音声を生成する波形合成部５０等から構成される。ここで、セグメントとは、話者が一息に話す単位（例えば、最も短くて文節）を意味し、中間言語とは、言語と音声（発音）との間の言語（例えば、発音記号）である。

また、各処理部には参照するデータベースが付随している。テキスト解析部１０には言語辞書１１が、韻律情報付与部２０には韻律付与規則２１が、感情情報付与部３０には感情付与規則３１が、感情情報補間部４０には感情遷移規則４１が、波形合成部５０には波形データ５１が、それぞれ接続されている。なお、このようなデータベースを用いずに、各処理部内であらかじめ設定された規則によってデータを生成するように構成してもよい。

なお、本発明の実施の形態は、図１に示す構成を元に様々な実施例が考えられる。例えば、テキスト解析部１０と言語辞書１１だけをサーバ側に置き、言語情報セグメント列をクライアント側にネットワーク等を経由して送信し、韻律情報付与部２０以降の処理をクライアント側で実行するような実施形態としてもよい。

また、韻律情報付与部２０までの処理部とデータベースをサーバ側に置き、中間言語セグメント列をクライアント側にネットワーク等を経由して送信し、感情情報付与部３０以降の処理をクライアント側で実行するような実施形態としてもよい。

また、感情情報付与部３０までの処理部とデータベースをサーバ側に置き、感情情報付き中間言語セグメント列をクライアント側にネットワーク等を経由して送信し、感情情報補間部４０以降の処理をクライアント側で実行するような実施形態としてもよい。

また、感情情報補間部４０までの処理部とデータベースをサーバ側に置き、補間感情情報付き中間言語セグメント列をクライアント側にネットワーク等を経由して送信し、波形合成部５０以降の処理をクライアント側で実行するような実施形態としてもよい。

次に、本発明の実施の形態の各要素の動作を具体的に説明する。

テキスト解析部１０は、漢字かな混じり文として入力された読み上げテキストに対して、言語解析を行う。少なくとも、入力されたテキストを単語に分割して「読み」及び「アクセント情報」を付加する形態素解析処理を行う。好ましくは、さらに構文・意味解析処理をも行なう機能を有する。形態素解析処理は、漢字かな混じり文を個々の単語に分割する処理であり、品詞間の接続可能性を規定した接続データと品詞のコストを定義したコストデータとを元に、コスト最小法や文節数最小法などの手法を用いて各単語の「読み」及び「アクセント情報」を付加した言語情報セグメント列を生成し、次段の処理装置に出力する。また、構文・意味解析処理は、品詞の関係構造を規定する文法データとＬＲパーザやＣＹＫ解析などの構文解析手法とを用いて、入力文章に対する係り受けの関係を解析し、次段の処理部に出力する。

韻律情報付与部２０は、入力された言語情報セグメント列を構成する各セグメントに対して、個々の音素の継続時間長や基本周波数と呼ばれる個々の音素の音の高さなどの韻律情報を付与する処理を行う。個々の音素の継続時間長を自動付与するには、韻律付与規則２１に予め格納されている韻律情報を言語情報セグメント列に付与した中間言語セグメント列を生成し、次段の処理部に出力する。韻律情報には、たとえば、個々の音素ごとに継続時間を記録した継続時間長テーブルや、付与対象となる音素の前後１音素までの環境要因を考慮した継続時間を記録した継続時間長テーブル等を用いる。また、ＨＭＭと呼ばれる確率モデルを用いて継続時間長を付与する手法を用いてもよい。また、基本周波数を自動付与する手法には、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する手法や矩形でモデル化する手法の他にも、基本周波数付与の対象となる句の長さやアクセント型に応じて、基本周波数パターンを保持したデータベースを検索して付与する手法など様々な手法を韻律情報の付与に用いることができる。

感情情報付与部３０は、入力された中間言語セグメント列の各セグメントに対して感情情報の付与処理を行う。感情情報の付与処理は、予め感情付与規則３１に、キーワードやフェースマーク等の感情を表す文字列表現に対して感情情報を定義したデータベースを格納し、このデータベースを参照して、当該文字列を含む句や文に対して対応する感情情報を付与した感情情報付き中間言語セグメント列を生成し、次段の処理部に出力する。

感情情報補間部４０は、本発明の中核をなす処理部であり、隣接するセグメントの感情情報を参照して、処理対象となるセグメントの感情情報をなめらかに（スムーズに）変化するように補間処理を行い補間感情情報を中間言語セグメントに付与する。すなわち、補間処理によって補間感情情報付き中間言語セグメント列を生成し、次段の処理部に送る。この補間感情情報によって、波形合成部５０は、文章中に異なる感情情報が隣接している場合に、その異なる感情の移り変わりをなめらかに再生する音声を合成することができる。

波形合成部５０は、入力された補間感情情報付き中間言語セグメント列から、単位音韻波形の選択処理、該波形の接続処理、韻律処理等の従来の音声合成技術を利用して音声を合成して再生する。補間感情情報付き中間言語セグメント列から、韻律情報付与部２０で付与された韻律情報と、感情情報補間部４０で補間された感情情報を抽出し、例えば、ＴＤ−ＰＳＯＬＡ等の波形重畳合成方式を用いて音声合成を行う。なお、波形重畳方式の代わりに、フォルマント合成方式等のパラメータ音声合成方式を用いることもできる。また、感情音声を合成する手法としては、音声合成処理の直前に、韻律情報を感情情報に応じて変換したり、波形重畳合成方式で利用される音源データや、パラメータ合成方式で利用されるパラメータデータを感情情報に応じて変換する手法を用いてもよい。このような、変換の度合いを連続的な感情情報として定めることで、感情を滑らかに変換することのできる合成音声が実現できる。

以上のように構成された本発明の実施の形態では、入力された文章をセグメントに分割し、各セグメントに感情情報を付与する。そして、文章中に異なる感情情報が隣接している場合に、その異なる感情の移り変わりをなめらかに行うような補間感情情報を付与し、感情情報及び補間感情情報を元に、音声を再生するので、感情をなめらかに移り変わるような文章の音声を合成し再生することができるので、利用者は、感情付き合成音声をより聞き取りやすくなる。

次に、以上のように構成された本発明の実施の形態の音声合成装置について、より具体的な実施例について説明する。

第１の実施例は、入力されたメール文章を感情付き音声で読み上げるメール読み上げ装置の例である。

図２は、第１の実施例のメール読み上げ装置の基本的構成を示すブロック図である。

第１の実施例のメール読み上げ装置では、図１において前述した音声合成装置の基本構成に、さらに入力テキスト１１０を入力するテキスト入力装置１２０、合成音声データを再生する音声波形再生装置１８０、スピーカー１９０等が追加された構成となっている。なお、テキスト解析部１０とテキスト解析装置１３０、韻律情報付与部２０と韻律情報付与装置１４０、感情情報付与部３０と感情情報付与装置１５０、感情情報補間部４０と感情情報補間装置１６０、及び、波形合成部５０と波形合成装置１７０は同一の処理を行う。

以下に、第１の実施例の各装置の処理内容を説明する。

まず、読み上げる入力テキスト１１０がテキスト入力装置１２０に入力される。メール読み上げ装置の実施例において入力テキスト１１０は様々なフォーマットを取り得る。テキスト入力装置１２０は、例えば、メール読み上げ装置をパソコンに実装した場合は、ＰＯＰ３やＩＭＡＰ４などのプロトコルを用いてメールテキストを取得するプログラムであり、メール読み上げ装置を携帯電話に実装した場合は、携帯電話キャリアのメールサーバにアクセスしてメールテキストを取得するゲートウェイ装置となる。

テキスト入力装置１２０に入力された入力テキスト１１０は、次に、テキスト解析装置１３０に入力される。テキスト解析装置１３０は、入力テキスト１１０から、音声合成を行うための言語情報を解析する。解析される言語情報としては、入力テキスト１１０の漢字・かな部分の読み情報や、アクセント位置情報、ポーズ位置情報などがある。これらの言語情報は、イントネーションを決定する韻律情報を生成するために韻律情報付与装置１４０で使用される他、音声合成を行う際に接続する音声データを決定するために音声波形合成装置１７０で利用される。この解析処理には、漢字かな混じり文を個々の単語に分割する形態素解析処理や、入力文章に対する係り受け関係を解析する構文解析処理が行われる。

テキスト解析装置１３０で解析された言語情報は、セグメントごとにまとめられた言語情報セグメント列として生成され出力される。なお、「セグメント」とは感情情報を付与する単位を指し、セグメントの範囲によって感情をどの程度細かく制御できるかが決定される。セグメントの例として、文節、アクセント句、文などの単位を取ることができる。

図３は、テキスト解析装置１３０が、入力テキスト１１０に対して形態素解析処理を行った結果の一例を示す説明図である。図２に示した入力テキスト１１０を解析した結果、セグメントＩＤ２１０に示される３つのセグメントに分割されている。また、形態素ＩＤ２２０に示される１３の文節の形態素に分割され、その文節（単語）の内容は文節２３０に示されている。各形態素の読み及びアクセントは、読み／アクセント２４０に結果が格納される。形態素解析処理によって、図３に示すような個々の単語に分割された出力結果が得られる。

図４は、テキスト解析装置１３０が、入力テキスト１１０に対して構文解析処理を行った結果の一例を示す説明図である。構文解析処理によって、係り受け関係が解析され、図４に示すように文節間の係り受け関係が出力結果として得られる。この係り受け関係を元に、文章のアクセントや感情の付与が決定される。

なお、テキスト解析装置１３０で行われる言語情報の解析手法としては、形態素解析や係り受け解析の他にも、構文解析や談話解析など、より高次の解析手法を用いることもできる。

テキスト解析装置１３０から出力された言語情報セグメント列は、韻律情報付与装置１４０に入力される。韻律情報付与装置１４０では、言語情報セグメント列から合成音声のイントネーションを決定する韻律情報を付与する。韻律情報とはテキスト解析装置１３０で解析された文節に対する読みの、個々の音素の長さや音の高さ、強さなどを指定する情報である。この韻律情報を元に音声波形合成装置１７０で合成音声が生成される。

個々の音素の長さを付与するには、例えば、音素ごとの継続時間が記録されたテーブルや、付与対象となる音素の前後１音素までの環境要因を考慮した継続時間が記録されたテーブルを参照する。これらのテーブルは予めデータベースとして保持しておく。また、音の高さである基本周波数を付与するには、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する手法や矩形でモデル化する手法を利用する。韻律情報付与装置１４０は言語情報セグメント列に韻律情報を付与した中間言語セグメント列を生成し出力する。

韻律情報付与装置１４０から出力された中間言語セグメント列は、感情情報付与装置１５０に入力される。感情情報付与装置１５０は、入力された中間言語セグメント列から、各セグメントに対して感情情報を付与する。

感情情報とは、音声合成を行う際に各セグメントをどのような感情音声で読むかを指定する情報である。この感情情報を抽出する処理過程は、感情情報対応データを用い、感情情報に対応した文字列を検索し、対応する文字列があった場合には該当する感情を付与する。感情情報付与装置１５０は中間言語セグメント列に感情情報を付与した感情情報付き中間言語セグメント列を生成し出力する。

図５は、感情を付与する際の感情情報対応データの一例を示した説明図である。

感情情報対応データは、文字列４２０を含むセグメントに対して、対応する感情情報４３０に示される感情情報を付与する。図５の例では、ＩＤ４１０「１」は、文字列「！」は「喜び」という感情情報が、文字列「（怒）」に「怒り」という感情情報が、それぞれ割り当てられていることを示している。

図６は、感情情報が付与された感情情報付き中間言語セグメント列の一例を示す説明図である。図６の例は、図３に示した中間言語セグメント列に対して、各文節に含まれる文字から感情情報対応データを参照して付与された感情情報が、感情情報５５０に示されている。

なお、このように単純な文字列との一致を調べるだけでなく、複数の文字列を同時に含んでいる場合に対応する感情情報を付与するという単語の共起関係を用いた付与手法を用いてもよい。

感情情報付与装置１５０から出力された感情情報付き中間言語セグメント列は、感情情報補間装置１６０に入力される。感情情報補間装置１６０は、感情情報付与装置１５０で各文節に対して個々に付与された離散的な感情情報（図６の感情情報５５０）を、連続的な感情制御パラメータ列に変換する。

図７は、感情情報補間装置１６０の構成を示したブロック図である。

感情情報補間装置１６０は、感情情報付き中間言語セグメント列を中間言語部分と感情情報部分とに分割する感情情報付き中間言語セグメント列分割装置６２０、分割された感情情報セグメント列６２２から隣接した二つの感情情報セグメント対を選択する感情情報対選択装置６３０、感情遷移情報を格納した感情遷移規則データベース６５１、感情情報対選択装置６３０で選択された感情情報セグメント対に対応する感情遷移情報を選択する感情遷移規則選択装置６５０、感情遷移規則選択装置６５０で選択された感情遷移情報を適用して感情情報の補間を行う補間感情情報生成装置６４０、感情情報が補間された補間感情情報セグメント列６４１と中間言語セグメント列６２１で分割された中間言語セグメント列６２１とを結合して補間感情情報付き中間言語セグメント列６７０を生成する補間感情情報付き中間言語セグメント列結合装置６６０等から構成されている。

感情情報付与装置１５０から出力された感情情報付き中間言語セグメント列６１０は、まず、感情情報付き中間言語セグメント列分割装置６２０に入力される。感情情報付き中間言語セグメント列分割装置６２０は、感情情報付き中間言語セグメント列６１０を中間言語部分である中間言語セグメント列６２１と感情情報部分である感情情報セグメント列６２２とに分割する。例えば、入力された感情情報付き中間言語セグメント列が図６に示すようなデータ例である場合は、感情情報付き中間言語セグメント列分割装置６２０によって、中間言語セグメント列（図３参照）と、感情情報セグメント列（図８参照）とに分割される。

次に、分割されたデータのうち、感情情報付き中間言語セグメント列６１０の感情情報部分である感情情報セグメント列６２２は、感情情報対選択装置６３０に入力される。感情情報対選択装置６３０は、隣接する二つの感情情報の対をすべて選択する。この処理は、あるセグメントＩＤの感情情報と次のセグメントＩＤの感情情報とを対として抽出し、これをすべてのセグメントＩＤについて繰り返して実行する。感情情報対選択装置６３０での処理の結果、図９のような感情情報対データが抽出される。例えば、セグメントＩＤ８１０「１」では、感情情報対８２０は、「喜び」と「平静」が対になって規定されている。感情情報対選択装置６３０は、選択した感情情報対データを補間感情情報生成装置６４０に出力する。

次に、感情情報対データは補間感情情報生成装置６４０に入力される。補間感情情報生成装置６４０は、感情遷移規則に従って感情情報の補間処理を行う。感情情報の補間処理は、図８に示すようにセグメントごとに離散的に付与されている感情情報を、その前後の感情情報からの変化に応じて連続的に変化する感情制御パラメータ列へと変換する処理である。

以下に、補間感情情報生成装置６４０で行われる感情情報の補間処理について説明する。

まず、感情情報対選択装置６３０によって選択された感情情報対データ（図９）の各セグメントの感情情報対に対応する感情遷移規則を、感情遷移規則選択装置６５０が感情遷移規則データベース６５１から検索する。

図１０は、この感情遷移規則データベース６５１に格納されている感情遷移規則のフォーマットの一例を示す説明図である。例えば、規則ＩＤ９０１「１」は、感情情報対９２０が「平静−喜び」である場合には、感情遷移規則９３０が「（−２ｓ，１ｓ）」と設定されていることを示す。この感情遷移規則の意味は、前の方のセグメント（感情情報が「平静」のセグメント）の末尾から手前２秒の位置から、感情の度合いを１００％から減少させ、セグメントの末尾において感情の度合いが０％となる。同時に、後の方のセグメント（感情情報が「喜び」のセグメント）の先頭で０％から開始し、感情の度合いが先頭から１秒経過した位置で感情の度合いが１００％となるということを示している。

なお、図１０に示した感情遷移規則の例は、感情変化の開始・終了位置を時刻で指定しているが、前後のセグメントの全体の長さに対する割合で指定してもよい。また、この例では感情パラメータの変化が直線的であることを想定しているが、二次曲線やスプライン曲線などの滑らかに変化するパターンを利用することも可能である。

この感情遷移規則を図９に示す感情情報対データに適用した場合、感情遷移規則選択装置６５０によって、セグメントＩＤ１には（−０．５ｓ，３ｓ）が、セグメントＩＤ２には（−２ｓ，１ｓ）が、セグメントＩＤ３には（−２ｓ，０ｓ）が、それぞれ検索される。

次に、補間感情情報生成装置６４０は、感情遷移規則選択装置６５０によって検索された感情遷移規則を結合し、補間感情情報セグメント列を生成し出力する。

図１１は、この補間感情情報セグメント列の一例を示す説明図である。前方遷移時間１０３０は、当該セグメントの先頭位置から感情の度合いの変化を開始し、感情の度合いが１００％となるまでの時間の長さを示す。後方遷移時間１０４０は、当該セグメントの末尾からどれだけ手前で感情の度合いの変化を開始し、セグメントの末尾で感情の度合いを０％とするまでの時間の長さを示す。

なお、感情の遷移の際に、感情の度合いが０％で次の感情に遷移するのではなく、例えば感情の度合いが、怒りが８０％で喜びが２０％というように、複数の感情タイプの中間的な感情遷移データを生成するようにしてもよい。

感情情報付き中間言語セグメント列分割装置６２０から出力された中間言語セグメント列６２１及び補間感情情報生成装置６４０から出力された補間感情情報セグメント列６４１は、補間感情情報付き中間言語セグメント列結合装置６６０に入力される。補間感情情報付き中間言語セグメント列結合装置６６０は、中間言語セグメント列６２１と補間感情情報セグメント列６４１とを結合して補間感情情報付き中間言語セグメント列６７０を生成する。

図１２は、補間感情情報付き中間言語セグメント列６７０の一例を示す説明図である。

図３に示すような中間言語セグメント列の各セグメントＩＤに対して、図１１に示すような補間感情情報セグメント列に含まれる感情情報１１５０、前方遷移時間１１６０、後方遷移時間１１７０が付加されたデータとなっている。

以上のように、感情情報の補間処理によって、異なる感情が隣接しているセグメント間における感情が連続的に遷移する（なめらかに遷移する）感情制御パラメータ列を含む補間感情情報付き中間言語セグメント列が出力される。

ここで図２に戻り説明を続けると、感情情報補間装置１６０で出力された補間感情情報付き中間言語セグメント列６７０は、音声波形合成装置１７０に入力される。音声波形合成装置１７０では、補間感情情報付き中間言語セグメント列から感情情報が付与された音声波形へと変換し、該音声波形を音声波形再生装置１８０へと出力する。音声波形再生装置１８０は、音声波形をスピーカー１９０を介して、人間に実際に聞こえる音声として出力する。

音声波形合成装置１７０では、韻律情報を含む補間感情情報付き中間言語セグメント列６７０が入力されると、例えば、波形重畳合成方式やパラメータ合成方式を用いて音声波形の合成を行う。

また、感情音声を合成する手法としては、音声波形の合成処理の直前に、韻律情報を感情情報に応じて変換したり、波形重畳合成方式で利用される音源データや、パラメータ合成方式で利用されるパラメータデータを感情情報に応じて変換する手法を用いる。その変換の度合いを補間感情情報付き中間言語セグメント列６７０の出力結果である連続的な感情情報で定めることで、滑らかに変換する感情合成音声を実現することが可能となる。感情情報による韻律情報や音源、パラメータの変換方法は、例えば、怒りや喜びといった感情タイプごとに別々のテーブルやモデルを参照するという手法を用いる。

以上のように、本発明の実施形態の第１の実施例では、従来、それぞれのセグメントに付与された感情が０％か１００％のどちらかでしかなく、感情の変化に伴って極端に変化していた合成音声の感情パラメータ（図１３参照）を、０％から１００％まで連続的に変化させることができる（図１４参照）。そのため、合成された音声の感情の遷移が自然となり、人間の細かい感情の機微を模した合成音声を生成することができる。

次に、本発明の実施の形態の第２の実施例として、漢字かな交じり文等から構成される入力テキストから感情情報を付加した中間言語データへと変換する音声データ作成装置について説明する。

この音声データ作成装置は、サーバ側で機械的に変換された音声データの読み誤りなどを修正した中間言語データをクライアントに送り、その中間言語データから合成音声を生成するシステムで利用される。例えば、クライアントは通信カーナビゲーション装置である。第２実施例の音声データ作成装置は、サーバからクライアントに情報配信を行うシステムに応用される。

図１５は本発明の実施の形態の第２の実施例の音声データ作成装置の基本的な構成を示すブロック図である。

第２の実施例では、図２に示した第１の実施例のメール読み上げ装置の構成に、入力テキスト及びそのテキスト解析結果をグラフィカルに表示する表示装置１４７０、テキスト解析装置１４１５による自動的なテキスト解析結果の誤り（読み付与誤りやアクセント付与誤り）をＧＵＩ上で修正する読み情報入力装置１４８０、感情情報付与装置１４２５による自動的な感情情報付与結果の誤りをＧＵＩ上で修正する感情情報入力装置１４９０、ツールで作成・修正した中間言語データと補間感情情報を結合して符号化する中間言語符号化装置１４３５、符号化された補間感情情報付き中間言語データを通信網１４４５を介してクライアント側へ送信する中間言語配信装置１４４０等が付加された構成となっている。

以下、実際の処理の流れに従って、各装置の処理内容を説明する。

まず、クライアント側に配信する入力テキスト１４０５がテキスト入力装置１４１０に入力される。このようなサーバ・クライアント型の情報配信システムで想定される入力テキスト１４０５としては、ニュース情報、イベント情報、ユーザ宛のメール等である。

テキスト入力装置１４１０に入力された入力テキスト１４０５は、そのまま、テキスト解析装置１４１５に入力される、テキスト解析装置１４１５は、音声合成用中間言語への変換を行うための言語情報を解析する。なお、この言語情報の解析処理は第１の実施例で前述したテキスト解析装置１３０と同様であるため説明を省略する。テキスト解析装置１４１５は、解析結果として言語情報セグメント列を出力する。

また、テキスト入力装置１４１０から出力される入力テキスト１４０５、及びテキスト解析装置１４１５から出力される言語情報セグメント列は、表示装置１４７０にも送られる。表示装置１４７０は、入力テキスト１４０５及び言語情報セグメント列を図形を伴ってグラフィカルに表示する。この表示によって、音声データ作成装置のオペレータは、例えば、入力テキスト１４０５から解析された言語情報セグメント列のどの部分の読み付与が誤っているかを視認することが可能となる。

図１６は、表示装置１４７０に表示される画面の表示例である。

入力テキスト１５１０は入力テキスト１４０５を１文ごとに分割した文章を示し、中間言語編集フィールド１５２０は、テキスト解析装置１４１５によって解析された中間言語データを示す。中間言語編集フィールドは編集可能なテキストフィールドであり、例えば読み付与が誤っている場合は、オペレータがマウスやキーボードなどの入力デバイスによって修正することができる。

図１７は表示装置１４７０に表示される画面の別の表示例である。

解析候補メニュー１６２０は、入力テキスト１４０５の、句読点で区切られたフレーズごとにテキスト解析装置１４１５で解析された複数の中間言語データの候補をプルダウンメニュー形式で表示する。オペレータは、マウスやキーボードなどの入力デバイスによって、もっとも適切な読みの候補を選択することができる。

なお、図１６及び図１７に示した二つの表示例は、オペレータの熟練度に応じて切りかえて利用することができる。また、利便性を考慮してこの二つを併用することもできる。

これらの中間言語編集フィールド１５２０や解析候補メニュー１６２０、マウスやキーボード等の入力デバイスによって読み情報入力装置１４８０が構成される。

オペレータがこの読み情報入力装置１４８０で読み・アクセント情報を修正する度に、その修正結果が再度、図１６又は図１７の表示形式で表示装置１４７０に表示されるとともに、修正された言語情報セグメント列が韻律情報付与装置１４２０に出力される。

読み情報入力装置１４８０で修正された言語情報セグメント列、又はテキスト解析装置１４１５から出力された言語情報セグメント列は、韻律情報付与装置１４２０に入力される。韻律情報付与装置では、合成音声のイントネーションを決定する韻律情報が付与される。なお、この韻律情報の付与処理は第１の実施例で前述した韻律情報付与装置１４０と同様であるため説明を省略する。韻律情報付与装置１４２０は、解析結果である言語情報セグメント列に韻律情報を付与した中間言語セグメント列を出力する。

韻律情報付与装置１４２０から出力された中間言語セグメント列は、次に、感情情報付与装置１４２５に入力され、各セグメントに対して感情情報が付与される。なお、感情情報の付与処理は第１の実施例で前述した感情情報付与装置１５０と同様であるため説明を省略する。感情情報付与装置１４２５は、中間言語セグメント列に感情情報を付与したデータを感情情報付き中間言語セグメント列を出力する。

感情情報付与装置１４２５から出力された感情情報付き中間言語セグメント列は、感情情報補間装置１４３０に入力される。感情情報補間装置１４３０では、感情情報付与装置１４２５で付与された離散的な感情情報を連続的な感情制御パラメータ列に変換する。その結果、感情情報補間装置１４３０は補間感情情報付き中間言語セグメント列を出力する。この感情の補間処理は第１の実施例で前述した感情情報補間装置１６０と同様であるため説明を省略する。

一方で、感情情報付与装置１４２５から出力される感情情報付き中間言語セグメント列と、感情情報補間装置１４３０から出力される補間感情情報付き中間言語セグメント列とは表示装置１４７０に送られる。表示装置１４７０は、これらのセグメント列を図形を伴ってグラフィカルに表示する。この表示によって、音声データ作成装置のオペレータは連続的な感情変化がどのように設定されたかを視認することができ、どの部分の感情付与が誤っているかを視認することができる。

図１８は、表示装置１４７０に表示される画面の表示例を示す。なお、この表示例は、図１７の表示例に感情情報の図形によるグラフィカル表示を追加したものである。

入力テキスト１７１０は入力テキスト１４０５を１文毎に分割した文章である。解析候補メニュー１７２０は、句読点で区切られたフレーズごとに、テキスト解析装置１４１５で解析された複数の中間言語データをプルダウンメニュー形式で表示したものである。感情情報１７３０は、アクセント句又は句読点で区切られるフレーズに対して感情情報付与装置１４２５で解析された感情情報をプルダウンメニュー形式で表示したものである。オペレータは、この感情情報１７３０のメニューより、より適切な感情情報を選択することができる。補間感情情報１７４０は、感情情報補間装置１４３０で連続的に補間された感情情報をグラフ的に表示したものである。オペレータはこのグラフの形を見て、合成音声がどのように感情が遷移していくかのおおよその確認をすることができる。

これらの感情情報１７３０や補間感情情報１７４０、マウスやキーボードなどの入力デバイスが、感情情報入力装置１４９０を構成する。

図１９は、表示装置に表示される画面の別の表示例を示す。この表示例は、図１８の補間感情情報１７４０の代わりにキャラクタ１８４０が表示され、キャラクタの表情によって感情情報を視覚的に視認することのできるものである。

例えば、マウスによって入力テキスト１８１０にカーソルを合わせると、その部分の感情がキャラクタの表情としてグラフィカルに表示され、マウスカーソルを入力テキスト１８１０に沿って動かすと、キャラクタの表情が連続的に変わることで、合成音声がどのように感情が遷移していくかのおおよその確認をすることができる。

オペレータが感情情報入力装置１４９０で感情情報や補間感情情報を修正する度に、その修正結果が再度図１８又は図１９の表示形式で表示装置１４７０に表示されるとともに、修正された感情情報付き中間言語セグメント列として感情情報補間装置１４３０に出力される。また、修正された補間感情情報付き中間言語セグメント列を最終的な出力データとして扱うこともできる。

このようにして、テキスト入力装置１４１０に入力された読み上げテキストは、表示装置１４７０に表示され（図１８又は図１９）、読み情報入力装置１４８０と感情情報入力装置１４９０によるオペレータの編集操作が施される。この編集操作の度に韻律情報付与装置１４２０から感情情報補間装置１４３０までの処理が行われて、表示装置１４７０の表示（グラフ又はキャラクタ）が更新される。

なお、感情情報の修正操作の中で、オペレータは音声波形合成装置１４５０、音声波形再生装置１４５５、スピーカー１４６０を通して、補間感情情報付き中間言語セグメント列の実際の合成音声を聴いて確認することもできる。

修正操作が完了した補間感情情報付き中間言語セグメント列は、中間言語符号化装置１４３５に出力さえる。中間言語符号化装置１４３５では、中間言語データと補間感情情報を配信に適した形式に符号化する。この符号化方式は、例えばＸＭＬを利用する方法や、従来のテキストによる発音記号列による方法など、様々な方法を用いることができる。

符号化された補間感情情報付き中間言語セグメント列は通信網１４４５を介してクライアント側へと配信される。

以上のように構成された本発明の実施の形態の第２の実施例の音声データ作成装置では第１の実施例の効果と同様に、感情を連続的に変化させることができ、合成された音声の感情の遷移が自然となり、人間の細かい感情の機微を模した合成音声を生成することができる。さらに、入力テキストに対して自動的に付与された読み、アクセントや感情情報がグラフィカルに表示された表示装置を視認しながら、読み、アクセント、感情情報の変更、修正を行うことができ、音声データ作成装置を利用するオペレータの作業効率が向上する。

本発明の実施の形態の音声合成装置の構成を示す機能ブロック図である。本発明の第１の実施例のメール読み上げ装置の基本的構成を示すブロック図である。本発明の第１の実施例、形態素解析処理の結果の一例を示す説明図である。本発明の第１の実施例の、構文解析処理の結果の一例を示す説明図である。本発明の第１の実施例の、感情情報対応データの一例を示す説明図である。本発明の第１の実施例の、感情情報が付与された感情情報付き中間言語セグメント列の一例を示す説明図である。本発明の第１の実施例の、感情情報補間装置１６０の構成を示すブロック図である。本発明の第１の実施例の、感情情報セグメント列の一例を示す説明図である。本発明の第１の実施例の、感情情報対データの一例を示す説明図である。本発明の第１の実施例の、感情遷移規則のフォーマットの一例を示す説明図である。本発明の第１の実施例の、補間感情情報セグメント列の一例を示す説明図である。本発明の第１の実施例の、補間感情情報付き中間言語セグメント列の一例を示す説明図である。従来の合成音声の感情パラメータを示す説明図である。本発明の第１の実施例の補間感情情報を用いた合成音声の感情パラメータを示す説明図である。本発明の第２の実施例の、音声データ作成装置の基本的な構成を示すブロック図である。本発明の第２の実施例の、表示装置１４７０に表示される画面の表示例の説明図である。本発明の第２の実施例の、表示装置１４７０に表示される画面の別の表示例の説明図である。本発明の第２の実施例の、表示装置１４７０に表示される画面の別の表示例の説明図である。本発明の第２の実施例の、表示装置１４７０に表示される画面の別の表示例の説明図である。

符号の説明

１０テキスト解析部
１１言語辞書
２０韻律情報付与部
２１韻律付与規則
３０感情情報付与部
３１感情付与規則
４０感情情報補間部
４１感情遷移規則
５０波形合成部
５１波形データ
１１０入力テキスト
１２０テキスト入力装置
１３０テキスト解析装置
１４０韻律情報付与装置
１５０感情情報付与装置
１６０感情情報補間装置
１７０音声波形合成装置
１７０波形合成装置
１８０音声波形再生装置
１９０スピーカー
６２０感情情報付き中間言語セグメント列分割装置
６３０感情情報対選択装置
６４０補間感情情報生成装置
６５０感情遷移規則選択装置
６５１感情遷移規則データベース
６６０補間感情情報付き中間言語セグメント列結合装置
１４１０テキスト入力装置
１４１５テキスト解析装置
１４２０韻律情報付与装置
１４２５感情情報付与装置
１４３０感情情報補間装置
１４３５中間言語符号化装置
１４４０中間言語配信装置
１４４５通信網
１４５０音声波形合成装置
１４７０表示装置
１４８０読み情報入力装置
１４９０感情情報入力装置
１８４０キャラクタ

Claims

入力されたテキスト情報をセグメント毎に分割したセグメント列を生成するテキスト解析部と、
前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する感情情報付与部と、
前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する感情情報補間部と、
前記感情情報が付与されたセグメントに基づいて音声データを合成する波形合成部と、
を備え、
前記感情情報補間部は、第１のセグメントに付与された感情情報と前記第１のセグメントに隣接する第２のセグメントに付与された感情情報とに基づいて、前記第１のセグメントにおける第１の感情から前記第２のセグメントにおける第２の感情へ遷移する場合の感情の度合いの変化を定義する感情遷移規則を決定し、
前記波形合成部は、該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントの前記テキスト情報に基づいて音声データを合成することを特徴とする音声合成装置。
前記感情遷移規則は、前記第１のセグメントにおける第１の感情と、前記第２のセグメントにおける第２の感情との度合いをなめらかに変化させる規則であり、前記第１の感情及び前記第２の感情の度合いの遷移開始点と遷移終了点とを含むことを特徴とする請求項１記載の音声合成装置。
前記感情情報補間部が前記感情の度合いを変化させる処理は、前記セグメントに対応する音声を構成する音素の継続時間、高さ及び強さの少なくともいずれかを変化させる処理であることを特徴とする請求項１に記載の音声合成装置。
前記音声合成装置は、前記感情情報付与部によって前記セグメントに付与された感情情報を表示する表示部を備え、
前記表示部は、前記感情情報に対して定められたキャラクタによって、前記感情情報が付与されたセグメント列における感情の度合いの変化を表示することを特徴とする請求項１に記載の音声合成装置。
入力されたテキストをセグメント毎に分割したセグメント列を生成するテキスト解析部と、
前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する感情情報付与部と、
前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する感情情報補間部と、
前記感情情報が付与されたセグメントに基づいて音声データを合成する波形合成部と、
前記テキストを表示する表示部と、
オペレータによって前記音声データに指示を入力する指示入力部と、
を備えた音声合成装置であって、
前記感情情報補間部は、第１のセグメントに付与された感情情報と前記第１のセグメントに隣接する第２のセグメントに付与された感情情報とに基づいて、前記第１のセグメントにおける第１の感情から前記第２のセグメントにおける第２の感情へ遷移する場合の感情の度合いの変化を定義する感情遷移規則を決定し、
前記表示部は、前記テキストと共に前記感情情報を示す情報を表示し、
前記指示入力部からの入力に基づいて、前記音声データのセグメント毎の感情情報を設定し、
前記波形合成部は、該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントのテキスト情報に基づいて音声データを合成することを特徴とする音声合成装置。
前記感情遷移規則は、前記第１のセグメントにおける第１の感情と、前記第２のセグメントにおける第２の感情との度合いをなめらかに変化させる規則であり、前記第１の感情及び前記第２の感情の度合いの遷移開始点と遷移終了点とを含むことを特徴とする請求項５に記載の音声合成装置。
前記感情情報補間部が前記感情の度合いを変化させる処理は、前記セグメントに対応する音声を構成する音素の継続時間、高さ及び強さの少なくともいずれかを変化させる処理であることを特徴とする請求項５に記載の音声合成装置。
前記表示部は、前記感情情報に対して定められたキャラクタによって、前記感情情報が付与されたセグメント列における感情の度合いの変化を表示することを特徴とする請求項５に記載の音声合成装置。
音声データを合成する音声合成装置を、
入力されたテキストをセグメント毎に分割したセグメント列を生成する手段と、
前記セグメントを音声として再生する場合に、前記再生される音声に感情を反映するための感情情報を前記セグメント毎に付与する手段と、
前記セグメントに付与された感情情報に示された感情の度合いの変化を補完する手段と、
前記感情情報が付与されたセグメントに基づいて音声データを合成する手段と、
前記テキストを表示する手段と、
オペレータによって前記音声データに指示を入力する手段と、
第１のセグメントに付与された感情情報と前記第１のセグメントに隣接する第２のセグメントに付与された感情情報とに基づいて、前記第１のセグメントにおける第１の感情から前記第２のセグメントにおける第２の感情へ遷移する場合に、前記セグメントに対応する音声を構成する音素の継続時間、高さ及び強さの少なくともいずれかを変化させるための感情遷移規則を決定する手段と、
前記テキストと共に前記感情情報を示す情報を表示する手段と、
オペレータによって入力された指示に基づいて、前記音声データのセグメント毎の感情情報を設定する手段と、
該決定された感情遷移規則に従って、前記感情情報が付与されたセグメントのテキスト情報に基づいて音声データを合成する手段と、
として機能させるための音声合成プログラム。