JP2014197072A

JP2014197072A - 音声合成システム、及び音声合成方法

Info

Publication number: JP2014197072A
Application number: JP2013071951A
Authority: JP
Inventors: 典昭阿瀬見; Noriaki Asemi
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2014-10-16
Anticipated expiration: 2033-03-29
Also published as: JP5949634B2

Abstract

【課題】音声合成によって文章データを読上げた合成音を出力する際に、当該合成音に適切な表情を付与する。
【解決手段】音声合成処理では、指定文章データを解析し、テキスト表情分布を登場人物ごとに導出する（Ｓ３１０〜Ｓ３５０）。配役情報に対応する音源データを取得して解析し、音源データごとに音源表情分布を導出する（Ｓ３６０，Ｓ３７０）。さらに、登場人物ごとのテキスト表情分布に音源表情分布それぞれが合致するように、音声パラメータを補正して補正パラメータを導出する（Ｓ３８０，Ｓ３９０）。その補正パラメータを用いて、指定文章データによって表される文章のそれぞれについて音声合成を実行し、合成音を音声出力端末から出力させる（Ｓ４００，Ｓ４１０）。
【選択図】図３

Description

本発明は、音声合成システム、及び音声合成方法に関する。

従来、周知の音声合成技術を用いて、入力された文章データを読み上げる音声合成装置が知られている（特許文献１参照）。
この特許文献１に記載された音声合成装置では、入力された文章データによって表されたテキストを解析し、その解析結果として属性情報を導出する。そして、属性情報と予め対応付けられた韻律パラメータに、上記解析結果である属性情報を照合し、類似度が基準値以上となる属性情報と対応付けられた韻律パラメータを用いて音声合成を実行する。

なお、特許文献１に記載された属性情報とは、文の構造を表す情報であり、例えば、モーラ数、アクセント型、品詞などの情報である。

特開２０００−０５６７８８号公報

ところで、音声合成装置においては、音声合成によってテキストを読み上げた合成音に対して、当該テキストの内容に適した表情を付与することが求められている。
しかしながら、特許文献１に記載された音声合成装置では、音声合成に用いる韻律データを、文構造を表す属性情報に従って特定しているため、音声合成によってテキストを読上げた合成音に、当該テキストの内容に適した表情を付与できないという課題がある。

そこで、本発明は、音声合成によって文章データを読上げた合成音を出力する際に、当該合成音に適切な表情を付与することを目的とする。

上記目的を達成するためになされた本発明の音声合成システムは、文章取得手段と、文章解析手段と、音源解析手段と、パラメータ補正手段と、音声合成手段とを備えている。
このうち、文書取得手段は、指定された文章を構成する文字列を表す文章データを取得し、文章解析手段は、文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する。

さらに、複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、音源解析手段は、音源データが格納された記憶装置から、指定された発声者に対応する音源データである指定音源データを取得して解析し、指定音源データに含まれる音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する。

そして、パラメータ補正手段は、文章解析手段にて導出されたテキスト表情分布に、音源解析手段にて導出された音源表情分布が合致するように、指定音源データに含まれる音声パラメータを補正した補正パラメータを導出する。さらに、音声合成手段は、パラメータ補正手段で導出された補正パラメータに基づいて、文章取得手段で取得した文章データによって表される文章の音声合成を実行する。

このような音声合成システムによれば、音源表情分布がテキスト表情分布に合致するように、当該音源表情分布に対応する音声パラメータを補正して音声合成を実行するため、指定された文章データに適した表情を、その音声合成による合成音に付与できる。

なお、本発明における「表情」とは、少なくとも、感情や情緒、情景、状況を含む概念である。
本発明の音声合成システムにおける音源解析手段は、表情が中立状態であることを表す表情データと対応付けられた音声パラメータを基準パラメータとし、指定音源データに含まれる音声パラメータによって表される音声にて表出する各表情の強さを、基準パラメータからのベクトルで表した表情差分ベクトルを表情の種類ごとに導出し、全ての表情差分ベクトルのスカラー量の最大値が１となるように、表情差分ベクトルを正規化した結果を音源表情分布として導出しても良い。

この場合、本発明におけるパラメータ補正手段では、均一差分導出手段が、表情差分ベクトルそれぞれを音源表情分布にて除した均一差分ベクトルを導出し、表情反映手段が、文章解析手段にて導出されたテキスト表情分布を均一差分導出手段で導出された均一差分ベクトルそれぞれに乗じた結果に、基準パラメータを加えることで、補正パラメータを導出する。

このような音声合成システムによれば、テキスト表情分布に音源表情分布が合致するように補正した補正パラメータを導出することができる。
なお、本発明は、音声合成方法としてなされていても良い。

この場合、本発明の音声合成方法では、文章データを取得する文章取得手順と、テキスト表情分布を導出する文章解析手順と、音源表情分布を導出する音源解析手順と、補正パラメータを導出するパラメータ補正手順と、補正パラメータに基づいて、文章取得手順で取得した文章データによって表される文章の音声合成を実行する音声合成手順とを備えている必要がある。

このような音声合成方法を実行すれば、請求項１に係る音声合成システムと同様の効果を得ることができる。

音源合成システムの概略構成を示すブロック図である。音源データ登録処理の処理手順を示すフローチャートである。音源合成処理の処理手順を示すフローチャートである。音源合成処理の処理概要を示す説明図である。音源合成処理の処理概要を示す説明図である。

以下に本発明の実施形態を図面と共に説明する。
〈音声合成システム〉
図１に示す音声合成システム１は、ユーザが指定した文章データＷＴの内容を読み上げるシステムであり、情報処理サーバ１０と、少なくとも一つの音声出力端末６０とを備えている。

この音声合成システム１の情報処理サーバ１０は、音声出力端末６０のユーザが指定した文章データＷＴ、及び音声出力端末６０のユーザが指定した音源データＳＤを解析し、文章データＷＴの解析結果に音源データＳＤの解析結果が一致するように当該音源データＳＤを補正する。さらに、音声合成システム１では、その補正された音源データＳＤに基づいて、音声出力端末６０が音声合成を実行して、指定された文章データＷＴに対応する内容の合成音を生成し、音声出力端末６０から出力することで、文章データＷＴの内容を読み上げる。
〈音声出力端末〉
音声出力端末６０は、通信部６１と、情報受付部６２と、表示部６３と、音入力部６４と、音出力部６５と、記憶部６６と、制御部７０とを備えている。本実施形態における音声出力端末６０として、例えば、周知の携帯端末を想定しても良いし、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。なお、携帯端末には、周知の電子書籍端末や、携帯電話、タブレット端末などの携帯情報端末を含む。

通信部６１は、通信網を介して音声出力端末６０が外部との間で情報通信を行う。情報受付部６２は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部６３は、制御部７０からの信号に基づいて画像を表示する。

音入力部６４は、音を電気信号に変換して制御部７０に入力する装置であり、例えば、マイクロホンである。音出力部６５は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。記憶部６６は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶部６６には、各種処理プログラムや各種データが記憶される。

また、制御部７０は、ＲＯＭ７２、ＲＡＭ７４、ＣＰＵ７６を少なくとも有した周知のコンピュータを中心に構成されている。
すなわち、音声出力端末６０は、情報受付部６２にて受け付けた情報を、通信部６１を介して情報処理サーバ１０に送信し、情報処理サーバ１０にて合成された合成音を受信して音出力部６５から出力する。
〈情報処理サーバ〉
情報処理サーバ１０は、通信部１２と、制御部２０と、記憶部３０とを備え、少なくとも、文章を構成する文字列を表す文章データＷＴと、予め入力された音声の音声特徴量を少なくとも含む音源データＳＤとが格納されたサーバである。

通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。
制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２２と、処理プログラムやデータを一時的に格納するＲＡＭ２４と、ＲＯＭ２２やＲＡＭ２４に記憶された処理プログラムに従って各種処理を実行するＣＰＵ２６とを少なくとも有した周知のコンピュータを中心に構成されている。この制御部２０は、通信部１２や記憶部３０を制御する。

記憶部３０は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。この記憶装置とは、例えば、ハードディスク装置やフラッシュメモリなどである。記憶部３０には、文章データＷＴと、音源データＳＤとが格納されている。

ここでいう文章データＷＴ_kは、例えば、書籍をテキストデータ化したデータであり、書籍ごとに予め用意されている。ここでいう書籍とは、小説などである。また、符号ｋは、「１」以上の整数（自然数）である。

音源データＳＤは、音声パラメータｓｐｒ_lと、タグデータ（表情データ）ＴＧ_lとを音源ｌ（ｌは、「１」以上の整数）ごとに対応付けたデータである。
音声パラメータｓｐｒは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータｓｐｒにおける特徴量として、発声音声における各音素での基本周波数Ｆ０、メル周波数ケプストラム（ＭＦＣＣ）、音素長、パワー、及びそれらの時間差分を少なくとも備えている。

タグデータＴＧは、音声パラメータｓｐｒによって表される音の性質を表すデータであり、発声者の特徴を表す発声者特徴データと、当該音声が発声されたときの発声者の表情を表す表情データとを少なくとも含む。発声者特徴データには、例えば、発声者の性別、年齢などを含む。また、表情データは、感情や情緒、情景、状況を少なくとも含む表情としての概念を表すデータであり、発声者の表情を推定するために必要な情報を含んでも良い。

これらの音声パラメータｓｐｒとタグデータＴＧとが対応付けられた音源データＳＤは、音源データ登録処理を制御部２０が実行することで生成され、記憶部３０に記憶される。
〈音源登録処理〉
その音源データ登録処理は、起動されると、図２に示すように、文章データＷＴの中で、複数種類の表情が出現する内容の文章として予め規定された規定内容文の文字列を表す発声内容文章データを取得する（Ｓ１１０）。

続いて、Ｓ１１０にて取得した発声内容文章データに対応する一つの音声波形データを取得する（Ｓ１２０）。この音声波形データは、発声内容文章データによって表される規定内容文について、予め発声された音声波形それぞれを表すデータであり、多様な人物によって予め発声されたものである。

さらに、Ｓ１２０にて取得した音声波形データそれぞれから音声パラメータｓｐｒを導出する（Ｓ１３０）。本実施形態のＳ１３０では、基本周波数、メル周波数ケプストラム（ＭＦＣＣ）、パワー、それらの時間差分を、それぞれ、音声パラメータｓｐｒとして導出する。これらの基本周波数、ＭＦＣＣ、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、時間軸に沿った自己相関、周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、ＭＦＣＣであれば、時間分析窓ごとに周波数解析（例えば、ＦＦＴ）をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、時間分析窓における振幅の二乗した結果を時間方向に積分することで導出すれば良い。

続いて、音源データ登録処理では、表情データＴＧを推定する表情データ推定処理を実行する（Ｓ１４０）。この表情データ推定処理では、Ｓ１１０にて取得した発声内容文章データを解析した結果に基づいて、音声波形データによって表現された表情を推定する。

ここでいう「発声内容文章データ」の解析とは、例えば、発声内容文章データに対応する文章を形態素解析することで特定した各単語について、単語それぞれに対応する単語表情情報を取得する。ここでいう単語表情情報とは、単語それぞれと、各単語によって表される表情の内容とを予め対応付けた情報であり、単語表情データベースに予め格納されている。そして、取得した単語表情情報に従って、同一内容を表す表情の登場頻度を各表情の内容ごとに集計し、この集計の結果、最も頻度が高い表情の内容を、当該音声波形データによって表された表情として推定すれば良い。

続いて、Ｓ１３０にて導出した音声パラメータｓｐｒと、Ｓ１４０にて推定した表情データＴＧとを対応する音声波形データごとに対応付けることで、音源データＳＤを生成して記憶部３０に格納する音声パラメータ登録を実行する（Ｓ１５０）。なお、本実施形態のＳ１５０にて記憶部３０に格納される音声パラメータｓｐｒと対応付けられるデータは、表情データＴＧに加えて、発声した文章の内容（種類）や、発声者ＩＤ、発声者特徴データを含む（即ち、タグデータＴＧである）。これら発声者ＩＤや発声者特徴データは、情報処理サーバ１０や音声出力端末６０、その他の端末へのログインに用いる情報を発声者ＩＤや発声者特徴データとして取得すれば良い。

その後、本音源データ登録処理を終了する。
つまり、本実施形態の音源データ登録処理では、発声内容文章データによって表される規定内容文に対して発声された一つの音声波形データを解析し、音声パラメータｓｐｒを導出する。これと共に、音源データ登録処理では、当該発声内容文章データによって表される規定内容文を解析し、当該音声パラメータｓｐｒにて表現される表情を表す表情データを導出する。

そして、音源データ登録処理では、それらの対応する音声パラメータｓｐｒと表情データとを対応付けることで音源データＳＤを生成し、その音源データＳＤを記憶部３０に記憶する。これにより、記憶部３０には、規定内容文について発声された音声ごとに作成された音源データＳＤが格納される。
〈音声合成処理〉
次に、情報処理サーバ１０の制御部２０が実行する音声合成処理について説明する。

この音声合成処理は、起動されると、図３に示すように、音声出力端末６０にて指定された文章データＷＴを表す文章指定情報を取得する（Ｓ３１０）。続いて、Ｓ３１０にて取得した文章指定情報に対応する文章データ（以下、「指定文章データ」と称す）ＷＴを記憶部３０から取得する（Ｓ３２０）。このＳ３２０にて取得する指定文章データＷＴは、文章を構成する文字列そのもの、即ち、テキストデータである。

さらに、Ｓ３２０にて取得した指定文章データＷＴをテキスト解析し、指定文章データＷＴによって表される文章中に登場する登場人物ｉと、各登場人物ｉが発声すべきテキストの内容を表す発声テキストとを対応付けた話者テキスト対応データを生成する（Ｓ３３０）。なお、ここでいう登場人物ｉとは、発話者とナレータとを含むものである。例えば、会話文については、文章中にて当該会話文を発声した人物を表す発話者を登場人物ｉとして、地の文についてはナレータを登場人物ｉとして特定する。

具体的には、Ｓ３３０では、まず、Ｓ３１０にて取得した指定文章データＷＴを、当該指定文章データＷＴによって表される文章中の句読点及び括弧にて分割して、文章を構成する単位区間である発声テキストに切り分ける。そして、その切り分けた発声テキストに対して形態素解析、及び係り受け解析を実行して、当該発声テキストを発声すべき登場人物ｉを特定する。さらに、各発声テキストと、当該発声テキストに対応する登場人物ｉとを対応付けることで、登場人物ｉと発声テキストとを対応付けた話者テキスト対応データを生成する。

なお、形態素解析や係り受け解析は、周知の手法を用いれば良く、例えば、形態素解析であれば、“ＭｅＣａｂ”を用いれば良い。また、係り受け解析であれば、“Ｃａｂｏｃｈａ（「工藤拓，松本裕治，“チャンキングの段階適用による日本語係り受け解析”，情報処理学会論文誌，４３（６），１８３４−１８４２（２００１）」）”を用いれば良い。

音声合成処理へと戻り、話者テキスト対応データに基づいて、登場人物ｉごとに対応付けられた発声テキストを解析して、各発声テキストに出現する表情を特定する（Ｓ３４０）。このＳ３４０における解析は、上述した単語表情情報に基づいて、発声テキストに含まれる各単語によって表される表情の内容を取得することで実施すれば良い。

続いて、指定文章データＷＴによって表される文章中の登場人物ｉごとに、Ｓ３４０における表情解析の結果を集計し、登場人物ｉごとの表情の分布を表すテキスト表情分布ｔｐｄ（ｉ，ｋ）を導出する（Ｓ３５０）。このＳ３５０にて導出するテキスト表情分布ｔｐｄ（ｉ，ｋ）は、登場人物ｉが発生すべき文章にて出現する各種類の表情ｋの分布度合いを表すものである。

さらに、指定文章データＷＴの各登場人物ｉに対して、音声出力端末６０を介して指定された人物（即ち、配役ｊ）を表す配役情報を取得する（Ｓ３６０）。すなわち、配役情報とは、音声出力端末６０を介して指定された人物に対応する発声者特徴データである。

そして、Ｓ３６０にて取得した配役情報によって表される配役ｊそれぞれに対応付けられた音源データＳＤそれぞれを、記憶部３０から取得し、その取得した各音源データＳＤにおける表情の分布を表す音源表情分布ｖｐｄ（ｊ，ｋ）を導出する（Ｓ３７０）。

このＳ３７０では、具体的には、まず、表情の内容が中立状態である表情データと対応付けられた音声パラメータｓｐｒ＿ｎ（ｊ，ｋ）を基準とし、下記（１）式に従って、表情差分ベクトルｄｓｐｒ＿ｅ（ｊ，ｋ）を導出する。

この表情差分ベクトルｄｓｐｒ＿ｅ（ｊ，ｋ）は、図４（Ａ）に示すように、基準となる音声パラメータ（即ち、基準パラメータ）ｓｐｒ＿ｎ（ｊ，ｋ）から、各表情ｋを内容とする表情データと対応付けられた音声パラメータｓｐｒ＿ｅ（ｊ，ｋ）へのベクトルである。なお、基準パラメータｓｐ＿ｎ（ｊ，ｋ）とは、配役ｊと対応付けられた音声パラメータｓｐｒ＿ｅ（ｊ，ｋ）の中で、表情ｋが中立状態であることを表すタグデータＴＧと対応付けられた音声パラメータである。なお、ここで言う表情ｋが中立状態であることとは、無表情であることを含むものである。

さらに、Ｓ３７０では、下記（２）式に従って、表情差分ベクトルｄｓｐｒ＿ｅ（ｊ，ｋ）のスカラー量の最大値が「１」となるように正規化することで、音源表情分布ｖｐｄ（ｊ，ｋ）を導出する。ただし、（２）式中の関数ｍａｘは、最大値を返答する関数である。

続いて、下記（３）式に従って、表情差分ベクトルｄｓｐｒ＿ｅ（ｊ，ｋ）を音源表情分布ｖｐｄ（ｊ，ｋ）で除して正規化し、均一差分ベクトルｎｄｓｐｒ＿ｅ（ｊ，ｋ）を算出する（Ｓ３８０）。

この均一差分ベクトルｎｄｓｐｒ＿ｅ（ｊ，ｋ）は、図４（Ｂ）に示すように、基準パラメータｓｐｒ＿ｎ（ｊ，ｋ）から、各内容の表情ｋを表す表情データと対応付けられた音声パラメータｓｐｒ＿ｅ（ｊ，ｋ）までのスカラー量が均一となるように正規化されている。

さらに、音声合成処理では、下記（４）式に従って、配役情報によって表される配役ｊごとの音源データＳＤそれぞれに対して、テキスト表情分布ｔｐｄ（ｉ，ｋ）を反映し、補正パラメータｅ＿ｓｐａ（ｊ）を導出する（Ｓ３９０）。なお、（４）式における関数ｖｃｈは、各発生テキストを発声する登場人物ｉに対して配役ｊを対応付ける関数である。

すなわち、（４）式では、図５（Ａ）に示すように、テキスト表情分布ｔｐｄ（ｉ，ｋ）を均一差分ベクトルｎｄｓｐｒ＿ｅ（ｊ，ｋ）に乗じて表情重付差分ベクトルを導出する。さらに、（４）式では、図５（Ｂ）に示すように、表情重付差分ベクトルを基準パラメータｓｐｒ＿ｎ（ｊ，ｋ）に加えることで補正パラメータｅ＿ｓｐａ（ｊ）を導出する。

そのＳ３９０にて導出された配役ｊごとの補正パラメータｅ＿ｓｐａ（ｊ）に基づいて、指定文章データＷＴによって表される文章の内容に沿って音声合成を実行して合成音を生成する（Ｓ４００）。続いて、Ｓ４００にて生成された合成音を音声出力端末６０へと配信し、その音声出力端末６０に合成音を出力させる（Ｓ４１０）。

その後、本音声合成処理を終了する。
つまり、音声合成処理では、指定文章データＷＴによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布ｔｐｄ（ｉ，ｋ）を登場人物ｉごとに導出する。そして、音声出力端末６０を介して指定された、各配役ｊに対応する音源データＳＤをそれぞれ取得して解析し、音源データＳＤごとに、当該音源データＳＤに含まれる音声パラメータｓｐｒにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布ｖｐｄ（ｊ，ｋ）を導出する。

さらに、音声合成処理では、登場人物ｉごとのテキスト表情分布ｔｐｄ（ｉ，ｋ）に、各登場人物ｉに対する配役ｊごとの音源表情分布ｖｐｄ（ｊ，ｋ）それぞれが合致するように、各音源表情分布ｖｐｄ（ｊ，ｋ）を構成する音声パラメータｓｐｒ（ｊ）を補正して、補正パラメータｅ＿ｓｐｒ（ｊ）を導出する。そして、指定文章データＷＴによって表される文章のそれぞれについて、各文章に対応する補正パラメータｅ＿ｓｐａ（ｊ）に従って音声合成を実行して合成音を音声出力端末６０から出力させる。
［実施形態の効果］
以上説明したように、音声合成システム１によれば、テキスト表情分布ｔｐｄ（ｉ，ｋ）に音源表情分布ｖｐｄ（ｊ，ｋ）それぞれが合致するように、各音源表情分布ｖｐｄ（ｊ，ｋ）を構成する音声パラメータｓｐｒ（ｊ）を補正した補正パラメータｅ＿ｓｐｒ（ｊ）を導出することができる。

音声合成システム１によれば、その導出した補正パラメータｅ＿ｓｐｒ（ｊ）を用いて音声合成を実行するため、指定文章データＷＴに適した表情を、その音声合成による合成音に付与できる。

特に、音声合成システム１によれば、ユーザが指定した配役ｊの音源データＳＤに含まれる音声パラメータｓｐｒを補正して音声合成を実行するため、ユーザが指定した配役ｊの音声に最適な感情を付与させて、指定文章データＷＴを読み上げることができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

すなわち、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。

例えば、上記実施形態では、補正パラメータｅ＿ｓｐａ（ｊ）を（４）式に基づいて導出していたが、補正パラメータｅ＿ｓｐａ（ｊ）は、これに限るものではない。すなわち、補正パラメータｅ＿ｓｐａ（ｊ）は、表情分布値が最大となる表情ｋｍａｘの内容を用いて、下記（５）式に従って導出しても良い。

ただし、この場合における表情ｋｍａｘは、下記（６）式に従って導出することが好ましい。

また、上記実施形態の音声合成処理では、情報処理サーバ１０にてＳ４００，Ｓ４１０を実行し、情報処理サーバ１０にて生成した合成音を音声出力端末６０から出力していたが、Ｓ４００，Ｓ４１０を実行する装置は、これに限るものではない。例えば、音声合成処理におけるＳ４００，Ｓ４１０は、音声出力端末６０にて実行されても良い。

つまり、テキスト表情分布ｔｐｄ（ｉ，ｋ）に音源表情分布ｖｐｄ（ｊ，ｋ）それぞれが合致するように、補正パラメータｅ＿ｓｐａ（ｊ）を導出し、指定文章データＷＴによって表される文章のそれぞれについて、各文章に対応する補正パラメータｅ＿ｓｐａ（ｊ）に従って音声合成を実行して合成音を出力可能であれば、音声合成処理を構成する各ステップを、情報処理サーバ１０または音声出力端末６０のいずれで実行しても良い。また、音声合成処理自体が音声出力端末６０にて実行されても良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の音声合成処理におけるＳ３１０，Ｓ３２０が、特許請求の範囲の記載における文章取得手段に相当し、Ｓ３３０〜Ｓ３５０が、特許請求の範囲の記載における文章解析手段に相当し、Ｓ３６０，Ｓ３７０が、特許請求の範囲の記載における音源解析手段に相当する。そして、音源合成処理におけるＳ３８０，Ｓ３９０が、特許請求の範囲の記載におけるパラメータ補正手段に相当し、このうち、Ｓ３８０が、特許請求の範囲の記載における均一差分導出手段に相当し、Ｓ３９０が、特許請求の範囲の記載における表情反映手段に相当する。

なお、音声合成処理におけるＳ４００，Ｓ４１０が、特許請求の範囲の記載における音声合成手段に相当する。

１…音声合成システム１０…情報処理サーバ１２…通信部２０…制御部２２…ＲＯＭ２４…ＲＡＭ２６…ＣＰＵ３０…記憶部６０…音声出力端末６１…通信部６２…情報受付部６３…表示部６４…音入力部６５…音出力部６６…記憶部７０…制御部７２…ＲＯＭ７４…ＲＡＭ７６…ＣＰＵ

Claims

指定された文章を構成する文字列を表す文章データを取得する文章取得手段と、
前記文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手段と、
複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、前記規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、前記表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、前記音源データが格納された記憶装置から、指定された発声者に対応する前記音源データである指定音源データを取得して解析し、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手段と、
前記文章解析手段にて導出されたテキスト表情分布に、前記音源解析手段にて導出された音源表情分布が合致するように、前記指定音源データに含まれる音声パラメータを補正した補正パラメータを導出するパラメータ補正手段と、
前記パラメータ補正手段で導出された補正パラメータに基づいて、前記文章取得手段で取得した文章データによって表される文章の音声合成を実行する音声合成手段と
を備えることを特徴とする音声合成システム。
前記音源解析手段は、
表情が中立状態であることを表す表情データと対応付けられた音声パラメータを基準パラメータとし、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各表情の強さを、前記基準パラメータからのベクトルで表した表情差分ベクトルを前記表情の種類ごとに導出し、全ての前記表情差分ベクトルのスカラー量の最大値が１となるように、前記表情差分ベクトルを正規化した結果を前記音源表情分布として導出し、
前記パラメータ補正手段は、
前記表情差分ベクトルそれぞれを前記音源表情分布にて除した均一差分ベクトルを導出する均一差分導出手段と、
前記文章解析手段にて導出されたテキスト表情分布を前記均一差分導出手段で導出された均一差分ベクトルそれぞれに乗じた結果に、前記基準パラメータを加えることで、前記補正パラメータを導出する表情反映手段と
を備えることを特徴とする請求項１に記載の音声合成システム。
指定された文章を構成する文字列を表す文章データを取得する文章取得手順と、
前記文章取得手順で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手順と、
複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、前記規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、前記表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、前記音源データが格納された記憶装置から、指定された発声者に対応する前記音源データである指定音源データを取得して解析し、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手順と、
前記文章解析手順にて導出されたテキスト表情分布に、前記音源解析手順にて導出された音源表情分布が合致するように、前記指定音源データに含まれる音声パラメータを補正した補正パラメータを導出するパラメータ補正手順と、
前記パラメータ補正手順で導出された補正パラメータに基づいて、前記文章取得手順で取得した文章データによって表される文章の音声合成を実行する音声合成手順と
を備えることを特徴とする音声合成方法。