JP2018180459A

JP2018180459A - 音声合成システム、音声合成方法、及び音声合成プログラム

Info

Publication number: JP2018180459A
Application number: JP2017084095A
Authority: JP
Inventors: 慶華孫; Keika Son
Original assignee: Hitachi ULSI Systems Co Ltd
Current assignee: Hitachi Solutions Technology Ltd
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2018-11-15
Anticipated expiration: 2037-04-21
Also published as: JP6806619B2

Abstract

【課題】適切な発話スタイルを有する音声を合成する音声合成システム、音声合成方法、及び音声合成プログラムを提供する。【解決手段】複数の音声データ６１を取得し、音声の特徴を示すパラメータである音声特徴量を複数の音声データのそれぞれに対して算出する音声特徴量算出部２３１と、音声データ６１に対応する文字のデータである対応文字データ６２をそれぞれ取得し、取得した対応文字データ６２のそれぞれと、算出した音声特徴量のそれぞれとの相関関係を算出し、算出した相関関係を記憶する発話スタイル予測モデル生成部２３５と、記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定部２５１と、推定した音声の特徴を有する音声を合成する音声合成部２５２と、を備える。【選択図】図２

Description

本発明は、音声合成システム、音声合成方法、及び音声合成プログラムに関する。

従来の音声合成製品における音声合成は、カーナビゲーションによる道案内（音声ガイダンス）又は構内放送などの、単に音声を読み上げるスタイルのものが主流であったが、近年、人間共生ロボット、コールセンターにおける自動応答、車の自動運転などの分野における進歩により、会話調の音声や感情を込めた音声といった多様な発話スタイルを有する音声の合成が求められるようになってきた。しかし、これらの音声合成には一般的に、音声合成時に予め発話スタイルの指定が必要であり、これは音声処理において大きな負担となっていた。

そこで、例えば特許文献１のように、単語と感情との対応付けが定義された感情辞書を参照し、読み上げ対象となる文の発話スタイルを推定する技術が提案されている。

特開２０１５−２１５６２６号

しかしながら、特許文献１における感情辞書は、感情辞書と対比される、音声データを収録した音声コーパスの特徴を考慮せずに作成されるため、合成音声と感情辞書とのミスマッチが生じる可能性が高い。例えば、異なる感情で発話した音声でも同じ発話スタイルとなったり、逆に同じ内容の文章に対しても発話者によって異なるスタイルで音声を読み上げたりするなどの不自然さが生じる場合がある。

本発明はこのような現状に鑑みてなされたものであり、その目的は、適切な発話スタイルを有する音声を合成するための音声合成システム、音声合成方法、及び音声合成プログラムを提供することにある。

以上の課題を解決するために、本発明の一つは、プロセッサ及びメモリを備え、入力された文字に対応する音声を合成する音声合成システムであって、複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出部と、前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成部と、前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定部と、前記推定した音声の特徴を有する音声を合成する音声合成部と、を備える。

本発明によれば、適切な発話スタイルを有する音声を合成することができる。

図１は、本実施形態に係る音声合成システム１０の構成の一例を説明する図である。図２は、サーバ２０が備える機能の一例を説明する図である。図３は、音声合成処理の一例を説明するフローチャートである。図４は、音声特徴付き対応文字データ７５の一例を示す図である。図５は、音声データ分類処理の一例を説明するフローチャートである。図６は、初期化により分類された音声データセット１２０の一例を示す図である。図７は、音声特徴量ＤＢの一例を示す図である。図８は、音声データセットの分布の一例を示す図である。図９は、音声データセットの分布の他の一例を示す図である。図１０は、補正された音声特徴量ＤＢ１４０の一例を示す図である。図１１は、発話スタイル予測モデル生成処理の一例を説明する図である。図１２は、発話スタイル推定処理の一例を説明する図である。図１３は、算出される生成確率の一例を示す図である。図１４は、モデル選択型の一例を説明する図である。図１５は、モデル融合型の一例を説明する図である。図１６は、案分計算に用いるための案分比の算出式の一例を示す図である。図１７は、波形融合型の一例を説明する図である。図１８は、音声合成装置１００の構成の一例を示す図である。

以下、本発明に係る実施形態を図面を参照しつつ説明する。
＜システム構成＞
図１は、本実施形態に係る音声合成システム１０の構成の一例を説明する図である。本実施形態の音声合成システム１０は、入力されたテキスト（文章や句）に対する適切な発話スタイル（会話調である、感情がこもっているといった、発声上の特徴。例えば、声の抑揚、大きさ、リズム、速さ、間の長さといった要素によって特徴付けられる発声上の特徴。）を推定し、推定した発話スタイルに従った音声を合成する。

音声合成システム１０は、サーバ２０と、少なくとも１台以上の端末３０と、サーバ２０及び各端末３０を通信可能に接続している通信ネットワーク５とを含んで構成されている。通信ネットワーク５は、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、イントラネット、専用線、又は光ファイバなどの有線又
は無線の通信網である。

サーバ２０は、情報処理装置（コンピュータ）であり、端末３０等から入力されたテキスト（文字データ）に対応する音声を合成する。サーバ２０は、例えば、音声合成サービスを行う事業体の事業所やデータセンタ等に設けられる。

端末３０は、情報処理装置（コンピュータ）であり、例えば、前記の事業体と契約関係にある各顧客（以下、ユーザという。）の事業所等に設けられる。端末３０は、この各顧客から文字データ（以下、入力テキストという。）の入力を受け付け、入力を受け付けた文字データを、通信ネットワーク５を介してサーバ２０に送信する。

図１に示すように、サーバ２０は、ＣＰＵ（Central Processing Unit）等の、処理の
制御を司るプロセッサ１１０２と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ１１０３と、スピーカー等の音声出力装置１１０４と、有線LANカ
ード、無線LANカード、モデム等の通信装置１１０５と、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の記憶装置１１０６とを備える。なお、サーバ２０は、キ
ーボード、マウス、タッチパネル等の入力装置や、モニタ（ディスプレイ）等の出力装置を備えていてもよい。以上の各装置は、バス１１１７によって互いに接続されている。

端末３０は、ＣＰＵ（Central Processing Unit）等の、処理の制御を司るプロセッサ
１１０８と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ１１０９と、キーボード、マウス、タッチパネル等の入力装置１１１１と、有線LANカー
ド、無線LANカード、モデム等の通信装置１１１２とを備える。なお、端末３０は、ＨＤ
Ｄ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＦＤ（フレキシブルディスク）、フラッシュメモリ等の記憶装置や、モニタ（ディスプレイ）等の出力装置を備えていてもよい。以上の各装置は、バス１１１８によって互いに接続されている。

＜機能＞
次に、各情報処理装置が備える機能について説明する。

図２は、サーバ２０が備える機能の一例を説明する図である。同図に示すように、サーバ２０は、複数の音声データを収録した音声コーパス（音声コーパスＤＢ６０）を用いた機械学習に基づき生成される発話スタイル予測モデル８０と、音声コーパスＤＢ６０から構築される音声合成用データ７０とを用いて、端末３０から入力された入力テキスト５０から、適切な発話スタイルの合成音声９０を生成する。

サーバ２０は、コーパス記憶部２１と、音声合成用データ７０を構築し、また発話スタイル予測モデル８０を生成するデータ作成部２３と、音声合成用データ７０及び発話スタイル予測モデル８０に基づき音声を合成する合成部２５とを備える。

コーパス記憶部２１は、前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する。

この音声コーパスは、音声コーパスＤＢ６０に記憶される。すなわち、音声コーパスＤＢ６０は、予め収録された様々な発話（音声）のデータが記録されている音声データ６１と、音声データ６１の音声に対応する文字又は文字列（以下、特に断りの無い限り、「文字」とは文字列を含むものとする。）が記録されている対応文字データ６２とを有する。

データ作成部２３は、音声特徴量算出部２３１（音声データ分類部）、音声合成用データ構築部２３２、音声特徴付き対応文字データ作成部２３４、及び発話スタイル予測モデル生成部２３５の各機能を備える。

音声特徴量算出部２３１は、複数の音声データを取得し、前記音声データが示す音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する。
具体的には、前記音声特徴量算出部２３１は、前記音声の特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する。
また、前記音声特徴量算出部２３１は、前記音声コーパス（音声コーパスＤＢ６０）から前記複数の音声データ（音声データ６１）を取得し、取得した前記音声データに基づき前記音声特徴量を算出する。すなわち、音声特徴量算出部２３１は、音声コーパスＤＢ６０における音声データ６１のクラスタリングを行う。
また、前記音声特徴量算出部２３１は、前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とする。
また、前記音声特徴量算出部２３１は、前記音声特徴量として、感情、年齢、又は性別
に関する特徴量を算出する。

なお、本実施形態では、音声データ６１は、音声の発声時における感情の特徴（スタイル）によって分類されるものとする。具体的には、音声特徴量算出部２３１は、各音声データ６１を、喜びの感情をもって発せられる音声（以下、喜び音声という。）、怒りの感情をもって発せられる音声（以下、怒り音声という。）、及び悲しみの感情をもって発せられる音声（以下、悲しみ音声という。）の少なくともいずれかに、その所属確率（以下、生成確率ともいう。）に基づき分類するものとする。

以上のような音声特徴量算出部２３１は、以下の各機能部を有する。すなわち、音声特徴量算出部２３１は、各音声データ６１を暫定的に複数の種類に分類する（以下、初期化という。）初期化部２３１１、初期化部２３１１により分類された音声データ６１に基づき、音声の特徴を学習する統計モデル学習部２３１２、統計モデル学習部２３１２による学習結果に基づき各音声データ６１の音声特徴量を算出する生成確率計算部２３１３、生成確率計算部２３１３により算出された音声特徴量に基づき各音声データ６１を発話スタイルに基づき分類するデータ分類部２３１４、及び、統計モデル学習部２３１２を再度実行するか否かを判定する終了判別部２３１５を備える。

次に、音声合成用データ構築部２３２は、音声特徴量算出部２３１により分類された音声データ６１を、音声合成に適したデータフォーマットを有する音声データである音声合成用データ７０に変換する。

なお、本実施形態では、音声合成用データ７０は、発話スタイルごとに存在するものとする。また、音声合成用データ７０は、音声合成用データ７０を構成する各音声に対応する文字ごと、各音声に対応する単語ごと、又は各音声に対応する文ごと等に存在するものとする。

音声特徴付き対応文字データ作成部２３４は、音声特徴量算出部２３１が算出した、音声データ６１の音声特徴量と、当該音声データ６１に対応する対応文字データ６２とを関連付けしたデータである音声特徴付き対応文字データ７５を生成する。音声特徴付き対応文字データ７５の詳細は後述する。

発話スタイル予測モデル生成部２３５は、前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する。すなわち、発話スタイル予測モデル生成部２３５は、音声特徴付き対応文字データ作成部２３４が生成した音声特徴付き対応文字データ７５に基づき、文字（列）と音声の特徴との間の相関関係を記憶し、入力された文字に対応する適切な発話スタイルを出力するモデルである発話スタイル予測モデル８０を構築する。
なお、前記発話スタイル予測モデル生成部２３５は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する。
また、前記発話スタイル予測モデル生成部２３５は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する。

次に、合成部２５は、発話スタイル推定部２５１、及び音声合成部２５２を備える。

発話スタイル推定部２５１は、発話スタイル予測モデル生成部２３５が前記記憶した相関関係に基づき、入力された文字（入力テキスト５０）に対応する音声の特徴を推定する。

音声合成部２５２は、発話スタイル推定部２５１が前記推定した音声の特徴を有する音声を合成する。

以上に説明したサーバ２０の機能は、サーバ２０のハードウェアによって、もしくは、サーバ２０のプロセッサが、メモリ１１０３や記憶装置１１０６に記憶されている各プログラムを読み出して実行することにより実現される。なお、このプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤなどの記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。前記の端末３０の機能についても同様である。

次に、音声合成システム１０において行われる処理について説明する。
＜音声合成処理＞
図３は、音声合成システム１０において行われる、入力テキスト５０に対応する合成音声９０を生成する処理（以下、音声合成処理という。）の一例を説明するフローチャートである。この処理は、例えば、サーバ２０が、端末３０から入力テキスト５０を受信したことを契機に開始される。

まず、サーバ２０は、音声コーパスＤＢ６０に記録されている各音声データ６１を取得し、取得した音声データ６１を音声の特徴（発話スタイル）に応じて分類すると共に、音声データ６１の音声特徴量を算出する処理（以下、音声データ分類処理という。）を実行する（ｓ１０）。この処理の詳細は後述する。

サーバ２０は、ｓ１０で分類した音声データ６１（以下、分類済み音声データという。）のそれぞれを、それぞれの分類済み音声データに対応する音声合成用データ７０に変換する（ｓ３０）。

また、サーバ２０は、各分類済み音声データに対応する対応文字データ６２を音声コーパスＤＢ６０からそれぞれ取得することにより、各分類済み音声データと、各対応文字データ６２とを関連づけたデータである音声特徴付き対応文字データ７５を生成する（ｓ５０）。

ここで、音声特徴付き対応文字データ７５について説明する。
＜音声特徴付き対応文字データ＞
図４は、音声特徴付き対応文字データ７５の一例を示す図である。同図に示すように、音声特徴付き対応文字データ７５は、分類済み音声データに対応する文字列（対応文字データ６２）の情報が格納されるテキスト項目７５１、及び分類済み音声データ（音声データ６１）の音声特徴量の情報が格納される音声項目７５２の各項目を有する、少なくとも１つ以上のレコードで構成されるデータベースである。

テキスト項目７５１は、分類済み音声データに対応する対応文字データ６２の識別子（以下、テキストＩＤという。）が格納されるテキストＩＤ７５３、及び、テキストＩＤ７５３の対応文字データ６２が格納されるテキスト内容７５４の各小項目を有する。音声項目７５２は、テキストＩＤ７５３の対応文字データ６２に対応する音声の特徴が喜び音声の特徴である確率（生成確率）が格納される生成確率（喜）７５５と、その特徴が怒り音声の特徴である確率（生成確率）が格納される生成確率（怒）７５６と、その特徴が悲しみ音声の特徴である確率（生成確率）が格納される生成確率（悲）７５７とを含んで構成されている。

次に、図３のｓ７０に示すように、サーバ２０は、ｓ５０で生成した音声特徴付き対応
文字データ７５に基づき、発話スタイル予測モデル８０を生成する処理（以下、発話スタイル予測モデル生成処理という。）を行う。この処理の詳細は後述する。

サーバ２０は、ｓ７０で生成した発話スタイル予測モデル８０に基づき、端末３０から受信した入力テキスト５０に対応する音声の特徴を推定する処理（以下、発話スタイル推定処理という。）を実行する（ｓ９０）。この処理の詳細は後述する。

サーバ２０は、ｓ９０で推定した音声の特徴と、ｓ３０で生成した音声合成用データ７０とに基づき、端末３０から受信した入力テキスト５０に対応する音声を合成する処理（以下、音声合成処理という。）を実行する（ｓ１１０）。この処理の詳細は後述する。

その後、サーバ２０は、ｓ１１０で合成した音声を出力する（ｓ１３０）。例えば、サーバ２０は、ｓ１１０で合成した音声を、入力テキスト５０を送信してきた端末３０に送信する。なお、サーバ２０は、合成した音声をスピーカー等により出力してもよい。
以上で音声合成処理は終了する（ｓ１５０）。

次に、音声合成処理における各処理の詳細を説明する。
＜音声データ分類処理＞
まず、音声データ分類処理について説明する。
図５は、音声データ分類処理の一例を説明するフローチャートである。同図に示すように、まずサーバ２０の初期化部２３１１が、初期化を行う。すなわち、初期化部２３１１は、発話スタイルに基づき暫定的に分類された音声データ（以下、音声データセット１２０という。）を生成する（ｓ１１）。具体的には、例えば、初期化部２３１１は、音声コーパスＤＢ６０に記録されている各音声データ６１をランダムに分類する。

但し、ランダムな分類を行うと、後述する各処理に係る時間が増大する可能性もある。そこで、初期化部２３１１は、分類方法の指定をユーザから受け付け、指定された分類に従って各音声データ６１を分類してもよい。また、初期化部２３１１は、他の音声コーパスのデータに基づき得られた音声の特徴の分類の結果に基づき、各音声データ６１を分類してもよい。

なお、図６は、初期化により分類された音声データセット１２０の一例を示す図である。同図に示すように、音声データセット１２０は、「喜び」「怒り」「悲しみ」の３種類の感情を表す音声のうち「喜び」の感情を表す音声データ６１の識別子（以下、音声データ６１の識別子を音声ＩＤという。）が格納される喜音声セット１２１、「怒り」の感情を表す音声データ６１の音声ＩＤが格納される怒音声セット１２２、及び、「悲しみ」の感情を表す音声データ６１の音声ＩＤが格納される悲音声セット１２３の各項目を有する。

次に図５のｓ１２に示すように、統計モデル学習部２３１２は、ｓ１１で生成した音声データセット１２０に基づき音声の特徴を学習することにより、音声データ６１と音声特徴量との間の相関関係を記憶したモデルである統計モデル１３０を生成する。この統計モデル１３０の学習（機械学習）は、例えば、隠れマルコフモデル（Hidden Markov Model
：HMM）、ディープニューラルネットワーク（Delay Neural Network：DNN）に基づき行
われる。特に、HMMを用いた場合、生成確率計算部２３１３は、後述する生成確率を容易
に算出することができる。

次に、生成確率計算部２３１３は、ｓ１２で生成した統計モデル１３０に基づき、音声コーパスＤＢ６０に登録されている全ての音声データ６１の音声特徴量を算出する。具体的には、生成確率計算部２３１３は、各音声データ６１の音声特徴量を、生成確率として
算出する。算出された音声特徴量（生成確率）は、例えば所定のデータベース（以下、音声特徴量ＤＢという。）に記憶される。

ここで、図７は、音声特徴量ＤＢの一例を示す図である。同図に示すように、この音声特徴量ＤＢ１４０は、音声データ６１の音声ＩＤが格納される音声ＩＤ１４１、音声ＩＤの音声データ６１が喜び音声に該当する確率（以下、喜び生成確率という。）が格納される生成確率（喜）１４２、音声ＩＤの音声データ６１が怒り音声に該当する確率（以下、怒り生成確率という。）が格納される生成確率（怒）１４３、及び、音声ＩＤの音声データ６１が悲しみ音声に該当する確率（以下、悲しみ生成確率という。）が格納される生成確率（悲）１４４の各項目を有する、少なくとも１つ以上のレコードで構成される。

例えば、図６、７に示されているように、音声データセット１２０の喜音声セット１２１に基づき算出された、音声ＩＤが「001」の音声の喜び生成確率は「0.01」である。同
様に、怒り生成確率は「0.5」であり、悲しみ生成確率は「0.3」である。

なお、このような生成確率の算出は、HMMを用いる場合、例えば以下のように行われる
。すなわち、生成確率計算部２３１３は、音声（発話内容）から生成される各遷移状態の時系列データのうち、その出力確率及び状態遷移確率が最大となる最適な各遷移状態の時系列を探索し（遷移状態の最大化を行い）、その最適な各遷移状態の時系列から算出された出力確率と状態遷移確率との総和を、該当音声の生成確率とする。

なお、特徴量に基づく音声データの分類方法の詳細は、例えば、「K. Tokuda, T. Kobayashi and S. Imai, "Speech parameter generation from HMM using dynamic features", Proc. ICASSP-95, pp.660-663, 1995.」に開示されている。

次に、図５のｓ１４に示すように、データ分類部２３１４は、ｓ１３で算出した音声特徴量（生成確率）に基づき、修正した音声データセット１２０を生成する。具体的には、例えば、データ分類部２３１４は、各音声データ６１について、音声データセット１２０の各項目のうち、ｓ１３で算出した各生成確率のうち最も確率が高かった確率の項目に、当該音声データ６１を分類する。

例えば、ｓ１４の処理前に、喜び生成確率は「0.01」であり、怒り生成確率が「0.5」
であり、悲しみ生成確率が「0.3」である音声データ６１があった場合、その音声データ
６１は、ｓ１４の処理により、音声データセット１２０の怒音声セット１２２の項目に分類される。また、ｓ１４の処理前に、喜び生成確率は「0.5」であり、怒り生成確率が「0.1」であり、悲しみ生成確率が「0.09」である音声データ６１があった場合、その音声データ６１は、ｓ１４の処理により、音声データセット１２０の喜音声セット１２１の項目に分類される。

しかし、このような生成確率の単純な比較により音声データ６１を分類した場合は、分類された各音声データセットの分布に偏りが生じる場合がある。例えば、図８（音声データセットの分布の一例を示す図）に示すように、喜音声セット１２１に分類された音声データの数８１と比べ、悲音声セット１２３に分類された音声データの数８２が極端に少ない場合、悲しみ音声に関する学習の精度が低下する可能性がある。そこで、データ分類部２３１４は、図９（音声データセットの分布の他の一例を示す図）に示すように、各生成確率に対応した係数を各生成確率に乗算することにより、喜音声セット１２１に分類される音声データの数８３と、悲音声セット１２３に分類される音声データの数８４とで、その数の分布が偏らないようにしてもよい。なお、前記の各係数は、例えば、算出される各生成確率の分布の歪度が所定の閾値以下になるような数値とする。

例えば、図７の音声特徴量ＤＢ１４０において、喜び生成確率、怒り生成確率、及び悲しみ生成確率にそれぞれ0.5、1.5、1.3の係数を乗算すると、図１０（修正された音声特
徴量ＤＢ１４０の一例を示す図）に示されるように、修正された音声特徴量ＤＢ１４０においては、音声ＩＤが「003」の音声データ６１の喜び生成確率は「0.075」に、怒り生成確率が「0.015」に、悲しみ生成確率が「0.169」にそれぞれ修正される。これにより、修正前には喜音声セット１２１の項目に分類されていた音声ＩＤ「003」の音声データ６１
は、修正後には、悲音声セット１２３の項目に分類される。

このように、生成確率に対して各係数を乗算することにより、各音声の特徴の間の偏りが生じることを防ぐことができる。これにより、発話スタイル予測モデル８０のモデル精度を向上させることができる。

次に、図５のｓ１５に示すように、終了判別部２３１５は、音声データ分類処理を終了すべきか否かを判断する。音声データ分類処理を終了すべきと判断した場合には（ｓ１５：Ｔ）、終了判別部２３１５は音声データ分類処理を終了し（ｓ１６）、音声データ分類処理を終了すべきでないと判断した場合には（ｓ１５：Ｆ）、終了判別部２３１５はｓ１２の処理を繰り返す。

なお、音声データ分類処理を終了すべきか否かの判断は、例えば、ｓ１４で直近に生成した音声データセット１２０の内容と、それよりも前にｓ１４で生成した音声データセット１２０の内容とが同じであるか否かの判断、音声データセット１２０の生成を所定回数以上行ったか否かの判断、又は、算出した各生成確率の平均値が所定値以下であるか否かの判断である。

次に、発話スタイル予測モデル生成処理の詳細を説明する。
＜発話スタイルモデル生成処理＞
図１１は、発話スタイル予測モデル生成処理の一例を説明する図である。同図に示すように、サーバ２０の発話スタイル予測モデル生成部２３５は、対応文字データ６２の特徴量（テキスト特徴量）を算出する（ｓ７１）。

具体的には、例えば、発話スタイル予測モデル生成部２３５は、対応文字データ６２における各単語の識別を行った上で、各単語の表記、読み、又は品詞の解析、もしくは、文節間の係り受けの解析を行う。なお、この際、発話スタイル予測モデル生成部２３５は、対応文字データ６２における、話し言葉の特徴量を算出してもよい。

発話スタイル予測モデル生成部２３５は、ｓ７１で算出したテキスト特徴量と、音声特徴付き対応文字データ７５とに基づき機械学習を行うことにより、入力された文字に対応する音声の特徴を予測する発話スタイル予測モデル８０を生成する（ｓ７３）。なお、この機械学習は、例えば、決定木、DNN、サポートベクターマシン、CRF（Conditional Random Fields）等に基づき行われる。
以上で発話スタイル予測モデル生成処理は終了する。

次に、発話スタイル推定処理について説明する。
＜発話スタイル推定処理＞
図１２は、発話スタイル推定処理の一例を説明する図である。同図に示すように、発話スタイル推定部２５１は、入力テキスト５０のテキスト特徴量を算出する（ｓ８１）。なお、この入力テキスト５０のテキスト特徴量は、発話スタイル予測モデル生成処理において算出したテキスト特徴量と同じ種類のテキスト特徴量である。

次に、発話スタイル推定部２５１は、発話スタイル予測モデル生成処理で生成した発話
スタイル予測モデル８０に、入力テキスト５０（具体的には、例えば、ｓ８１で算出したテキスト特徴量）を入力することにより、入力テキスト５０に対応する音声の特徴（具体的には、例えば、音声特徴量又は生成確率。以下、発話スタイル特徴量ともいう。）を算出する（ｓ８３）。

例えば、図１３は、算出される発話スタイル特徴量の一例を示す図である。同図に示すように、入力テキスト５０が「これはどういうこと？」であった場合、発話スタイル推定部２５１は、「これはどういうこと？」という文章のテキスト特徴量に対応する（例えば同一である）テキスト特徴量を有する、対応文字データ６２を抽出する。抽出した対応文字データ６２に対応する生成確率（発話スタイル特徴量）のうち、喜び生成確率は「0.01」であり、怒り生成確率は「0.6」であり、悲しみ生成確率は「0.08」である。そこで、
発話スタイル推定部２５１は、入力テキスト５０における喜び生成確率を「0.01」とし、怒り生成確率を「0.6」とし、悲しみ生成確率を「0.08」とする。
以上で発話スタイル推定処理は終了する。

次に、音声合成処理の詳細を説明する。
＜音声合成処理＞
音声合成処理は、発話スタイル特徴推定処理で算出した入力テキスト５０の音声特徴量に基づき、音声を合成する処理である。音声合成処理には、例えば、以下に説明するモデル選択型、モデル融合型、又は波形融合型等があり、例えば、これらの処理のうち少なくとも１つ以上が行われればよい。

（モデル選択型）
図１４は、音声合成処理のうち、音声合成用データ７０を予め選択することにより音声を合成する処理（以下、モデル選択型という。）の一例を説明する図である。同図に示すように、モデル選択型においては、サーバ２０の音声合成部２５２は、音声合成用データ７０における音声データ（以下、合成用データという。）のうち、発話スタイル推定処理で算出した入力テキスト５０の音声特徴量（具体的には、発話スタイル特徴量）に最も近い音声特徴量を有する音声データの合成用データＭを選択する（ｓ１１１）。

例えば、図１３に示した例では、喜び音声、怒り音声、及び悲しみ音声のうち、音声特徴量の値（生成確率）が最も高い種類の音声、すなわち怒り音声の合成用データが選択される。

そして、音声合成部２５２は、ｓ１１１で選択した合成用データ（合成用データＭ）を用いて合成音声９０を生成する（ｓ１１３）。以上で本音声合成処理は終了する。

（モデル融合型）
図１５は、音声合成処理のうち、音声合成用データ７０における各合成用データを融合したデータに基づき音声を合成する処理（以下、モデル融合型という。）の一例を説明する図である。同図に示すように、モデル融合型においては、音声合成部２５２は、音声合成用データ７０における各合成用データとｓ９０で推定した発話スタイル（具体的には、発話スタイル特徴量）とに基づき、新たな合成用データ７２を生成する（ｓ１１５）。具体的には、例えば、音声合成部２５２は、スタイル（特徴）ｍの合成用データｍ（ｍ＝１、２、…Ｎ）のそれぞれに、そのそれぞれに対応する、発話スタイルに係る所定の案分比Ｗｍを乗算し、この乗算により得られた各算出値を合計することにより、新たな合成用データ７２を生成する。

なお、前記の発話スタイルに係る案分比Ｗｍは、例えば、図１６に示される式により算出される。すなわち、発話スタイルにおける特徴（スタイル）ｍに係る案分比Ｗｍは、発
話スタイルにおける特徴（スタイル）ｍの生成確率Ｆｍを、生成確率の合計値（Ｆ１＋Ｆ２＋・・・＋ＦＮ）で除算することにより求められる。

続いて、図５のｓ１１７に示すように、音声合成部２５２は、ｓ１１５で生成した新たな合成用データ７２に対して合成処理を行うことにより、合成音声９０を生成する。以上で本音声合成処理は終了する。

このようにすることで、合成音声９０の音声の特徴を細かく調節することができ、入力テキスト５０の内容に適した合成音声９０を生成することができる。

なお、以上のようなモデル融合型の音声合成処理は、HMMに適している。例えば、音声
合成部２５２は、各スタイルの合成用データを、HMMモデルで定義されている発話スタイ
ルの分布（正規分布）に適合するように混合する。

（波形融合型）
図１７は、音声合成処理のうち、音声合成用データ７０における各合成用データを融合したデータに基づき音声を合成する処理（以下、波形融合型という。）の一例を説明する図である。同図に示すように、波形融合型においては、音声合成部２５２は、音声合成用データ７０における各合成用データ（具体的には、各スタイル（特徴）の合成用データ）のそれぞれに対して、それぞれに対応する各スタイル（特徴）の合成音声７３を生成する（ｓ１１８）。

そして、音声合成部２５２は、ｓ１１８で生成した合成音声７３における各合成音声を、発話スタイル特徴量に基づき混合することにより、合成音声９０を得る（ｓ１１９）。例えば、音声合成部２５２は、ｓ１１８で生成した各特徴（スタイル）の合成音声ｍ（ｍ＝１、２、…Ｎ）のそれぞれに、そのそれぞれに対応する所定の案分比（モデル融合型で説明した案分比と同様にして算出される案分比）を乗算し、乗算して得られた全ての合成音声を合計することにより、合成音声９０を生成する。
以上で本音声合成処理は終了する。

なお、ｓ１１９の処理においては、例えば、音声分析再合成手法が用いられる。音声分析再合成とは、音声の波形データを複数のパラメータに分解した後、分解したパラメータを用いて音声を再構築する手法である。

なお、モデル選択型及び波形融合型は、波形接続型音声合成（concatenative synthesis）や統計ベースパラメータ音声合成などの、すべての音声合成手法に適用できる。

以上の音声合成処理においては、音声の特徴ごとに、異なる種類の音声合成処理を行ってもよい。例えば、「喜び」の感情の音声合成は波形接続型音声合成（concatenative synthesis）を用い、「怒り」及び「悲しみ」の感情の音声の合成はHMM音声合成を用いてもよい。

以上のように、本実施形態の音声合成システム１０によれば、発話スタイルを表す音声特徴量を複数の音声データ６１のそれぞれに対して算出し、対応文字データ６２のそれぞれと、算出した音声特徴量のそれぞれとの相関関係を算出し（発話スタイル予測モデル８０を生成し）、入力された文字に対応する音声の特徴を推定してその特徴を有する音声を合成するので、音声データ６１の解析結果に基づいて、適切な発話スタイルを有する音声合成を行うことができる。例えば、話者性や発話スタイルの種類等に応じて適切な発話スタイルを推定することで、合成音声の自然性を向上させるとともに、話者性の揺らぎを抑えることができる。

また、本実施形態の音声合成システム１０は、音声特徴量を、音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出するので、音声の特徴量を適切に評価することにより、適切な発話スタイルを有する音声を合成することができる。

また、本実施形態の音声合成システム１０は、音声コーパス（音声コーパスＤＢ６０）から取得した複数の音声データに基づき音声特徴量を算出し、音声コーパスから取得した対応文字データに基づき相関関係を算出する（発話スタイル予測モデル８０を生成する）ので、ユーザ等がこの音声コーパスＤＢ６０のデータを設定するだけで、音声合成システム１０は、適切な音声の特徴を有する音声合成を行うことができる。これにより、例えば、ユーザ等は音声コーパスＤＢ６０として自動車等のカーナビゲーションシステムの音声データベースを用いることで、この音声データベースに記録されている音声の特徴（例えば、住所読みスタイル（住所を発声する場合の声の特徴）や、ニュース読みスタイル（一般的な情報を読み上げる場合の声の特徴））に対応した音声合成を行うことができる。

また、本実施形態の音声合成システム１０は、対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出したテキスト特徴量に基づき相関関係を算出する（発話スタイル予測モデル８０を生成する）ので、入力された文字データ（入力テキスト５０）が示す語句や文章に対して適切な対応付けがなされている特徴を有する音声を合成することができる。

以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。

例えば、本実施形態の音声合成システム１０では、サーバ２０が音声合成に係る処理を行い、端末３０が入力テキスト５０に係る処理を行ったが、これらは同一の装置として構成されてもよい。例えば、図１８に示すように、プロセッサ１０１、メモリ１０２、音声出力装置１０３、入力装置１０４、及び通信装置１０５等を備える音声合成装置１００として構成し、また、この音声合成装置１００を携帯電話機、パーソナルコンピュータ等のデバイスに、音声合成ユニットとして組み込んでもよい。

また、本実施形態においてデータベースとして記憶されていた情報は、必ずしもデータベースの形式で記憶される必要はなく、その他の任意の形式でもよい。

また、本実施形態では、入力テキスト５０が単文のテキストのデータであることを前提としたが、複数の文章を結合したテキストのデータであってもよい。また、本実施形態では、入力テキスト５０及び合成音声９０が日本語であることを前提としたが、他の言語であってもよいし、日本語とその他の言語とを組み合わせた言語であってもよい。

また、本実施形態では、発話スタイル（音声の特徴）が「喜び」、「怒り」、及び「悲しみ」の３種類の感情であるとしたが、その他の特徴に基づいてもよい。具体的には、例えば、音声合成システム１０は、音声特徴量として、感情、年齢、又は性別に関する特徴量を算出するものであってもよい。また、音声合成システム１０は、話者ごとの音声の特徴、方言ごとの音声の特徴、住所の読み上げに適した音声の特徴、ニュースの読み上げに適した音声の特徴などの、様々な発話スタイルに係る音声特徴量を算出するようにしてもよい。このようにすれば、音声合成システム１０は、様々な状況下において適切な発話スタイルを有する音声を合成することができる。

１０音声合成システム、３０端末、２３１音声特徴量算出部、２３５発話スタイル予測モデル生成部、２５１発話スタイル推定部、２５２音声合成部、６１音声データ、６２対応文字データ

Claims

プロセッサ及びメモリを備え、入力された文字に対応する音声を合成する音声合成システムであって、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出部と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成部と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定部と、
前記推定した音声の特徴を有する音声を合成する音声合成部と、
を備える、音声合成システム。
前記音声特徴量算出部は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する、請求項１に記載の音声合成システム。
前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶部を備え、
前記音声特徴量算出部は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出し、
前記発話スタイル予測モデル生成部は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する、
請求項１に記載の音声合成システム。
前記音声特徴量算出部は、前記音声特徴量として、感情、年齢、又は性別に関する特徴量を算出する、請求項１に記載の音声合成システム。
前記発話スタイル予測モデル生成部は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する、請求項１に記載の音声合成システム。
前記音声特徴量算出部は、前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とする、請求項１に記載の音声合成システム。
前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶部を備え、
前記音声特徴量算出部は、
前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出し、
前記音声特徴量として、感情、年齢、又は性別に関する特徴量を算出し、
前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出し、
前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とするものであり、
前記発話スタイル予測モデル生成部は、
前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出し、
前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する、
請求項１に記載の音声合成システム。
入力された文字に対応する音声を合成する音声合成方法であって、
プロセッサ及びメモリを備える情報処理装置が、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出処理と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成処理と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定処理と、
前記推定した音声の特徴を有する音声を合成する音声合成処理と、
を実行する、音声合成方法。
前記音声特徴量算出部は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する処理を含む、請求項８に記載の音声合成方法。
前記情報処理装置は、前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶処理を実行し、
前記音声特徴量算出処理は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出する処理を含み、
前記発話スタイル予測モデル生成処理は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する処理を含む、
請求項８に記載の音声合成方法。
前記発話スタイル予測モデル生成処理は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する処理を含む、請求項８に記載の音声合成方法。
入力された文字に対応する音声を合成する音声合成プログラムであって、
プロセッサ及びメモリを備える情報処理装置に、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出処理と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成処理と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定処理と、
前記推定した音声の特徴を有する音声を合成する音声合成処理と、
を実行させる、音声合成プログラム。
前記音声特徴量算出処理は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する処理を含む、請求項１２に記載の音声合成プログラム。
前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶処理を実行させ、
前記音声特徴量算出処理は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出する処理を含み、
前記発話スタイル予測モデル生成処理は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する処理を含む、
請求項１２に記載の音声合成プログラム。
前記発話スタイル予測モデル生成処理は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する処理を含む、請求項１２に記載の音声合成プログラム。