JP5049310B2

JP5049310B2 - 音声学習・合成システム及び音声学習・合成方法

Info

Publication number: JP5049310B2
Application number: JP2009083164A
Authority: JP
Inventors: 秀之水野; 昇宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2012-10-17
Anticipated expiration: 2029-03-30
Also published as: JP2010237307A

Description

この発明は入力された音声データを学習し、その後、テキストが入力された場合に、学習により得られた音声の性質を有する合成音声を生成して出力する音声学習・合成システム及び音声学習・合成方法に関する。

近年、与えられた音声コーパスの特徴を統計的に自動学習し、モデル化することで、任意のテキストから合成音声を生成する統計的音声合成技術の開発が進んでいる（例えば、非特許文献１参照）。

そして、このような音声合成技術によって、原理的には音声コーパスの特徴を再現した合成音声を生成することが可能になってきている。具体的には、予め音声のスペクトルや基本周波数（Ｆ０）、音素の継続時間長に関する静的・動的特徴量を音声コーパスから分析・抽出し、ＥＭアルゴリズムを用いて隠れマルコフモデル（ＨＭＭモデル）を学習する。そして、テキストから音声を合成する際には、入力テキストから適切なＨＭＭモデルを選択して連結した後、スペクトル、基本周波数、音素継続時間長の特徴量系列を生成し、この特徴量系列から合成音声の生成を行う。

吉村他，"ＨＭＭに基づく音声合成におけるスペクトル・ピッチ・状態継続長の同時モデル化"，信学論，J83-D-II，No.11，pp.2099-2107，2000年11月

ところで、上述したような音声学習及び合成においては種々の課題が存在する。
まず、第１の課題は音声の学習にかかる処理量の多さである。一般に学習に関わる処理の計算量は大きく、必要なメモリ量も多い。音声合成の利用分野の一つとして、電話等の端末での音声サービスへの応用が考えられるが、例えば最新の携帯端末であってもこうした学習に必要なほどの計算能力や計算リソースを有しておらず、端末側で学習や合成処理を完結させることは困難となっている。

第２の課題は設備コストである。第１の課題を解決する方法として、端末側ではなく、サーバ側で処理を行う方法が容易に考えられるが、その場合、サーバ側に処理が集中するため、端末数に比例して大規模な設備を用意する必要があり、コスト面で大きな問題となる。

さらに、第３の課題として、ＮＷ（ネットワーク）伝送に伴う遅延やパケット単価面でのユーザの使い勝手に関わる問題がある。サーバで処理を行う場合は、端末・サーバ間で学習用音声や合成音声をネットワークを用いて伝送する必要があるが、ネットワーク伝送に伴う遅延やパケットロスが生じるため、端末側で途切れのない合成音声の再生を行うためにはバッファリングするなどの処理が必要となる。この場合、当然待ち時間がかかることになる。また、従量制のパケット単価が設定されているような携帯電話のネットワーク等では、音声データの大量の配信にはユーザの費用負担が大きくなるという課題がある。

この発明の目的はこのような種々の課題を解決することができる分散型の音声学習・合成システム及び方法を提供することにある。

請求項１の発明によれば、入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成システムは、音声データ及びテキストが入力されるユーザ端末と、そのユーザ端末とネットワークを介して接続されたサーバとよりなり、ユーザ端末は音声データから特徴量を分析・抽出する特徴量分析部と、中間情報から合成音声を生成する波形生成部とを備え、サーバは上記特徴量を用いて音源ＤＢを生成するＤＢ生成部と、テキストから上記中間情報を生成する中間情報生成部とを備え、上記特徴量及びテキストがユーザ端末からサーバに送信され、上記中間情報がサーバからユーザ端末に送信される構成とされる。

請求項２の発明では請求項１の発明において、ユーザ端末は上記音源ＤＢの送信をサーバに要求するＤＢ要求部を備え、サーバは上記要求に基づき、ユーザ端末に上記音源ＤＢを送信する構成とされる。

請求項３の発明によれば、入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成方法は、ネットワークを介して接続されたユーザ端末とサーバとを備え、学習は、ユーザ端末が入力された音声データから特徴量を分析・抽出する過程と、その特徴量をユーザ端末がサーバに送信する過程と、サーバが受信した特徴量を用いて音源ＤＢを生成する過程とよりなる。合成は、ユーザ端末が入力されたテキストをサーバに送信する過程と、サーバが受信したテキストから中間情報を生成する過程と、その中間情報をサーバがユーザ端末に送信する過程と、ユーザ端末が受信した中間情報から合成音声を生成する過程とよりなる。

請求項４の発明では請求項３の発明において、ユーザ端末が上記音源ＤＢの送信をサーバに要求する過程と、上記要求に基づき、サーバがユーザ端末に上記音源ＤＢを送信する過程とを含む。

この発明によれば、ユーザ端末とサーバ間で処理を分担し、サーバ側で計算量や必要なメモリ量が大きな学習処理等を実行し、ユーザ端末側では計算量やメモリ量が少ない処理のみ実行するものとなっており、よってユーザ端末として例えば携帯端末の利用時においても、音声の学習処理の実行が可能となり、前述の第１の課題を解決することができる。

また、全ての処理をサーバのみで実行するのではなく、ユーザ端末側で一部の処理を実行することで、サーバ側で必要となる処理量を削減することが可能となり、結果としてユーザ端末あたりに用意すべきサーバ数の削減または低コストで計算能力の低いサーバを用いることが可能となるため、設備コストを削減することができ、前述の第２の課題を解決することができる。

さらに、１）合成時に中間情報のみ送信し、ユーザ端末側で中間情報から合成処理することで、サーバから合成音声を送信する場合と比較して送信データ量を少なくすることができるため、バッファリングするための待ち時間を短縮できる。

２）ランダムに発生するネットワーク遅延発生時において、音声を送信した場合は不意にバッファリングによる音声の途切れが生じ、聞き取りづらくなることが避けられないのに対し、アクセント句単位等の人が聞き取りやすいまとまった単位で中間情報を送信し、ユーザ端末側で音声に変換することにより、たとえ遅延が生じてもアクセント句等の単位となるため、聞きづらさを軽減することができる。

３）学習時にはユーザ端末側で分析処理を実行し、特徴量を送信することで、音声をそのまま送信するより送信データ量を削減することができ、合成時においてユーザ端末に中間情報のみ送信することと合わせて、ネットワークを通したユーザ端末・サーバ間のデータの送受信量を削減することができる。これにより、ユーザの費用負担を軽減することが
できる。
よって、これら１）〜３）の効果により、前述の第３の課題を解決することができる。

加えて、学習時における特徴量の分析処理と中間情報からの音声合成処理は理論的には逆過程であり、計算アルゴリズム的に共通する部分が多い。特徴量分析部と合成処理を行う波形生成部をユーザ端末に搭載することで、プログラムコード的には共通に使える部分も多くなり、ユーザ端末側に搭載すべきプログラムコードサイズも単純に学習部と合成部を載せる場合に比べて削減することができる。よって、プログラムの開発コストの削減や塔載メモリ量の少ない端末への適用も可能となるという効果も得ることができる。

この発明による音声学習・合成システムの一実施例の全体構成を示す図。図１におけるユーザ端末の構成を示す図。図１におけるサーバの構成を示す図。この発明による音声学習・合成システムの一実施例の処理手順を説明するためのシーケンス図。

以下、この発明の実施形態を図面を参照して実施例により説明する。
図１はこの発明による音声学習・合成システムの一実施例の全体構成を示したものであり、ユーザ端末１００とサーバ２００とがネットワーク１０を介して相互に接続されており、この例ではこれらユーザ端末１００とサーバ２００とによって音声学習・合成システムが構成される。

図２はユーザ端末１００の構成を示したものであり、図２を参照して、まず、ユーザ端末１００の構成を説明する。
ユーザ端末１００はこの例では特徴量分析部１１０とテキスト前処理部１２０とＤＢ要求部１３０と波形生成部１４０と入力部１５０と出力部１６０とネットワークインターフェース１７０と制御部１８０を備えている。学習用の音声データ及びテキストは入力部１５０から入力される。

特徴量分析部１１０は入力された学習用の音声データから特徴量（音声特徴量）を分析・抽出する。特徴量とは例えばスペクトル、基本周波数（Ｆ０）、音素の継続時間長等である。
テキスト前処理部１２０は入力されたテキストの種別に応じてテキストの前処理を行い、文字コードの変換やメールやＨＴＭＬテキストから音声合成の対象にならないタグやヘッダ等を除去する処理を行う。

波形生成部１４０はサーバ２００から受信した中間情報から合成音声を生成する。中間情報とは例えば基本周波数（Ｆ０）、音素の継続時間長、モデルインデックス等である。中間情報から合成音声を生成する際に音源ＤＢ（データベース）が必要であれば利用する。なお、音源ＤＢが必要かどうかは中間情報の内容に依存する。この点については後で詳述する。

ＤＢ要求部１３０は波形生成部１４０における合成音声生成の際に音源ＤＢが必要であれば、サーバ２００に音源ＤＢの送信を要求する。図２ではこのように要求して受信し、保存された音源ＤＢ１９０を破線で図示している。
波形生成部１４０で生成された合成音声は出力部１６０から出力される。なお、制御部１８０はユーザ端末１００の動作を全体的に制御し、ネットワークインターフェース１７０はネットワーク１０との接続を担い、サーバ２００との通信を可能とする。

次に、図３を参照してサーバ２００の構成を説明する。
サーバ２００はＤＢ生成部２１０と中間情報生成部２２０とネットワークインターフェース２３０と制御部２４０を備えている。ネットワークインターフェース２３０はユーザ端末１００との通信を行う。制御部２４０はサーバ２００の動作を全体的に制御する。

ＤＢ生成部２１０はユーザ端末１００より送信された特徴量を用いて、音声合成に必要な音源ＤＢを生成する。音源ＤＢは基本的には話者の特徴を有するものとする必要があるため、話者毎に異なるものが生成される。図３では話者毎に生成された音源ＤＢを２５０_１〜２５０_Ｎで示している。

中間情報生成部２２０はユーザ端末１００より送信されたテキストから中間情報を生成する。
図４は上記のような構成を有するユーザ端末１００及びサーバ２００よりなる音声学習・合成システムの処理手順を示したものであり、以下、処理手順及び各処理の詳細を説明する。

〈学習〉
学習用音声データがユーザ端末１００に入力される（ステップＳ１１）。ユーザ端末１００は入力された音声データから特徴量の分析・抽出を行う（ステップＳ１２）。特徴量としては例えばスペクトル、基本周波数（Ｆ０）、音素の継続時間長がある。
スペクトルの分析方法には様々の方法があり、例えば古典的にはＦＦＴによる周波数分析やＬＰＣ分析法によるスペクトル推定法がある。また、正弦波重畳モデルベースの推定法（亀岡他，“正弦波重畳モデルのパラメータ最適化アルゴリズムの導出”，信学技報，Vol.106，EA2000-97，pp.49-54，2006）、STRAIGHT分析法（H.Kawahara et al,“Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous- frequency-based F0 extraction：Possible role of a reptitive structure in sounds”，Speech Communication，Vol.27，No.3-4，pp.187-207，1999）等の方法が提案されている。

Ｆ０分析方法も様々な方法が提案されているが、例えば上述のSTRAIGHT分析法にはＦ０推定法も含まれており、Ｆ０推定の代表的な方法の一つである。
音素の継続時間長の推定法としては、ＨＭＭを用いた音素セグメンテーション（Ljolje A.，and Riley M.D.,“Automatic Segmentation and Labeling of Speech”，Proc. of ICASSP’91，pp.473-476，1991）が代表的な方法である。但し、どのような特徴量を分析するかは合成方法に依存し、決定され、合成時にＦ０や音素継続時間長のデータを必要としない場合はＦ０や音素継続時間を分析しなくてもよい。

分析・抽出された特徴量はサーバ２００に送信される（ステップＳ１３）。サーバ２００は受信した特徴量を用いて音源ＤＢを生成する（ステップＳ１４）。
音源ＤＢの生成方法としては様々な方法が存在するが、例えば素片ベースの場合、閉ループ方式（籠嶋他，“閉ループ学習に基づく最適な音声素片の解析的生成”，信学論，J83-D-II，No.6，pp.1405-1411，2000）のように、素片データベースのような形態が典型的であり、ＨＭＭのような統計モデルに基づく場合は、ＨＭＭに基づく話者モデル作成方法（前述の非特許文献１参照）が代表的な方法である。

〈合成〉
テキストがユーザ端末１００に入力される（ステップＳ２１）。ユーザ端末１００は入力されたテキストの前処理を行い（ステップＳ２２）、前処理を行ったテキストをサーバ２００に送信する（ステップＳ２３）。サーバ２００は受信したテキストを解析して（ステップＳ２４）、読み情報とアクセント等の韻律情報を決定する。

テキスト解析処理は、主に形態素解析処理と読み・アクセント付与処理からなるが、これらの処理方法については従来から様々な方法が存在し、例えば下記文献１や文献２に記載されている方法に基づいて処理を行うこともできる。
文献１：特許第３３７９６４３号公報「形態素解析方法および形態素解析プログラムを
記録した記録媒体」
文献２：特許第３５１８３４０号公報「読み韻律情報設定方法及び装置及び読み韻律情
報設定プログラムを格納した記憶媒体」

テキスト解析は中間情報生成部２２０で行われ、テキスト解析後、中間情報生成部２２０は中間情報を生成する（ステップＳ２５）。生成された中間情報はサーバ２００からユーザ端末１００に送信される（ステップＳ２６）。
中間情報生成は韻律パラメータ生成ステップと合成パラメータ生成ステップに大別される。

ａ）韻律パラメータ生成ステップ
形態素情報、読み、韻律情報に基づいて各種韻律パラメータを求める。ここで、韻律パラメータとしてはＦ０や音素継続時間長、パワー等があるが、それらを求める方式は従来から存在し、例えば下記文献３に記載されている方法によって音源ＤＢに含まれるＦ０データに基づいてピッチ（基本周波数）を求めることが可能であり、音素継続時間長についても例えば下記文献４に記載されている方法で音源ＤＢに含まれる継続時間長データに基づいて求めることが可能である。
文献３：特許第３２４０６９１号公報「音声認識方法」
文献４：M.D.Riley,“Tree-based modeling for speech synthesis”In G.Bailly，C.Benoit，and T.R.Sawallis，editors，Talking Machines：Theories，Models，and Designs，pp.265-273，Elsevier，1992
なお、古典的な点ピッチモデルや拍の等特性の継続時間モデルのように、完全に規則でＦ０や音素継続時間を決定するような方式を利用する場合は音源ＤＢは必要としない。

ｂ）合成パラメータ生成ステップ
前述の韻律パラメータを用いて合成に必要な情報を生成する。具体的にどのような情報を生成するかは合成方法に依存する。
ｂ−１）素片接続型の場合
上記のとおり求められた読み情報や韻律パラメータに適合する最適な素片の組み合わせとなる素片系列を音源ＤＢに基づいて決定する。例えば、下記文献５に記載されている方法のようにして合成単位の系列は決定できる。
文献５：特許第３５１５４０６号公報「音声合成方法及び装置」

この後の処理（中間情報生成及び中間情報送信）は２通りの形態がある。一つは合成パラメータとして素片データの音源ＤＢ中の位置を示す素片インデックス情報のみを中間情報として送信する形態である。もう一つの形態はインデックス情報に基づいて順次、素片データを音源ＤＢから読み出し、素片データを結合してスペクトル特徴量の系列まで生成した後、スペクトル特徴量を中間情報として送信する形態である。

ｂ−２）統計モデル型の場合
例えば前述の吉村らの論文（非特許文献１）の方法のとおり、上記の読み情報と韻律パラメータから決定木を用いて最適なコンテキスト依存型ＨＭＭモデルを選択する。

この後の処理（中間情報生成及び中間情報送信）は素片接続型と同様に２通りの形態がある。一つは合成パラメータとして、音源ＤＢ中に含まれるどのモデルであるかを示すモデルインデックス情報のみを中間情報として送信する形態である。もう一つの形態はインデックス情報に基づいて順次、モデルデータを音源ＤＢから読み出し、前述の吉村らの論文のとおり、モデルからスペクトル特徴量の系列を生成した後、スペクトル特徴量を中間情報として送信する形態である。

ユーザ端末１００は中間情報を受信すると、その受信した中間情報から合成音声を生成する（ステップＳ２７）。上記ｂ−１），ｂ−２）のいずれの場合においても、スペクトル特徴量の系列を中間情報として受信した場合は、音源ＤＢは不要であり、スペクトル特徴量の系列から単に音声波形を生成する。音声波形の生成方法はスペクトル特徴量の分析方法に依存する。例えば、前述のSTRAIGHT分析法で分析された特徴量であれば、STRAIGHT合成方式で合成すればよい。

一方、ｂ−１）の場合において、中間情報として素片インデックス情報を受信する場合には、音源ＤＢがユーザ端末１００側に必要であり、音声合成前にサーバ２００より音源ＤＢを受信しておく必要がある。ユーザ端末１００はサーバ２００に音源ＤＢの送信を要求し（ステップＳ３１）、サーバ２００はその要求に基づき、音源ＤＢをユーザ端末１００に送信する（ステップＳ３２）。

ユーザ端末１００の波形生成部１４０は素片インデックス情報に基づいて順次、素片データを音源ＤＢから読み出し、素片データを結合してスペクトル特徴量を生成し、その後、上記のとおりスペクトル特徴量から音声波形を生成する。

ｂ−２）の場合において、中間情報としてモデルインデックス情報を受信する場合にも、音源ＤＢがユーザ端末１００側に必要であり、ユーザ端末１００はサーバ２００に音源ＤＢの送信を要求し（ステップＳ３１）、サーバ２００はその要求に基づき、音源ＤＢをユーザ端末１００に送信する（ステップＳ３２）。
ユーザ端末１００の波形生成部１４０はインデックス情報に基づいて順次、モデルデータを音源ＤＢから読み出し、前述の吉村らの論文のとおり、モデルからスペクトル特徴量の系列を生成した後、上記のとおりスペクトル特徴量から音声波形を生成する。

以上説明したように、この例では音声学習・合成に関わる処理のうち、音声入力直後の処理や音声出力直前の処理などユーザへのインターフェースに近い処理かつ比較的軽い処理はユーザ端末１００側で実行するものとなっており、言い換えれば特徴量分析と音声合成処理という計算処理上、共通点が多い処理をユーザ端末１００側で実行するものとなっている。

なお、ユーザ端末１００は電話等の携帯端末に限らず、例えばＰＣ（パーソナルコンピュータ）等であってもよく、ＰＣの場合、複数のユーザ（話者）が共用するといった形態がある。この場合、各話者に対する音声合成の方式は異なっていてもよく、つまりサーバ２００において生成される中間情報の内容は各話者によって異なっていてもよい。ユーザ端末１００において音源ＤＢが必要かどうかは音声合成の方式に依存するため、ユーザ端末１００が音源ＤＢを保持するかどうかは話者毎に決まり、つまり話者によって音源ＤＢの有無が異なるといった状況が生じる。

Claims

入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成システムであって、
上記音声データ及び上記テキストが入力されるユーザ端末と、そのユーザ端末とネットワークを介して接続されたサーバとよりなり、
上記ユーザ端末は、上記音声データから、スペクトル、基本周波数（Ｆ０）、音素の継続時間長を含む特徴量を分析・抽出する特徴量分析部と、中間情報から上記合成音声を生成する波形生成部とを備え、
上記サーバは、上記特徴量を用いて音源ＤＢを生成するＤＢ生成部と、上記テキストを解析して求めた韻律パラメータ、および当該韻律パラメータを用いて生成された合成に必要な合成パラメータからなる上記中間情報を生成する中間情報生成部とを備え、
上記特徴量及び上記テキストが上記ユーザ端末から上記サーバに送信され、
上記中間情報が上記サーバから上記ユーザ端末に送信される構成とされていることを特徴とする音声学習・合成システム。
請求項１記載の音声学習・合成システムにおいて、
上記ユーザ端末は、上記中間情報として素片インデックス情報を受信する場合には、上記音源ＤＢの送信を上記サーバに要求するＤＢ要求部を備え、
上記サーバは上記要求に基づき、上記ユーザ端末に上記音源ＤＢを送信する構成とされ、
上記合成パラメータは、上記音源ＤＢのインデックス情報である
ことを特徴とする音声学習・合成システム。
入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成方法であって、
ネットワークを介して接続されたユーザ端末とサーバとを備え、
上記学習は、
上記ユーザ端末が入力された音声データから、スペクトル、基本周波数（Ｆ０）、音素の継続時間長を含む特徴量を分析・抽出する過程と、
その特徴量を上記ユーザ端末が上記サーバに送信する過程と、
上記サーバが受信した特徴量を用いて音源ＤＢを生成する過程とよりなり、
上記合成は、
上記ユーザ端末が入力されたテキストを上記サーバに送信する過程と、
上記サーバが受信したテキストを解析して求めた韻律パラメータ、および当該韻律パラメータを用いて生成された合成に必要な合成パラメータから中間情報を生成する過程と、
その中間情報を上記サーバが上記ユーザ端末に送信する過程と、
上記ユーザ端末が受信した中間情報から合成音声を生成する過程とよりなることを特徴とする音声学習・合成方法。
請求項３記載の音声学習・合成方法において、
上記ユーザ端末が、上記中間情報として素片インデックス情報を受信する場合には、上記音源ＤＢの送信を上記サーバに要求する過程と、
上記要求に基づき、上記サーバが上記ユーザ端末に上記音源ＤＢを送信する過程とを含み、
上記合成パラメータは、上記音源ＤＢのインデックス情報である
ことを特徴とする音声学習・合成方法。