JP2016151709A

JP2016151709A - 音声合成装置及び音声合成プログラム

Info

Publication number: JP2016151709A
Application number: JP2015029816A
Authority: JP
Inventors: 世木　寛之; Hiroyuki Segi; 寛之世木
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2015-02-18
Filing date: 2015-02-18
Publication date: 2016-08-22

Abstract

【課題】安定的に少ない処理時間でテキストデータから自然で肉声感のある音声を合成する音声合成装置及び音声合成プログラムを提供する。
【解決手段】音声合成装置１は、入力文（テキストデータ）をラベル列に変換する文ラベル列変換部１０と、ラベル列に含まれる少なくとも１つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部２０と、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部３０と、選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部４０と、を備える。
【選択図】図１

Description

本発明は、入力文を合成音に変換する音声合成装置及び音声合成プログラムに関する。

従来、統計モデルの一つである隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を用いた音声合成方法として、例えば特許文献１で提案されているような手法が利用されていた。特許文献１で提案された音声合成方法は、事前に音声データから隠れマルコフモデル（以下、ＨＭＭという）を作成しておき、音声合成時には、入力文（入力テキスト）に対応するＨＭＭを用いることにより音響特徴量の列を生成し、当該音響特徴量の列を音声波形に変換して音声合成するという仕組みである。また、非特許文献１に記載の方法では、複数の隠れマルコフモデルを扱うことができる。

特開２００２−２６８６６０号公報

徳田恵一他、「動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム、日本音響学会誌、53（３）、192-200，1997年

ここで、合成音の高品質化を図るためには、高精度で大規模なモデルの構築が必須である。しかしながら、特許文献１に記載の方法では、各ラベル・状態に対して複数の隠れマルコフモデルを保持させることについては考えられていなかったため、合成音は肉声感に乏しかった。また、非特許文献１に記載の方法では、繰り返し法を用いるため解の安定性や処理に時間がかかる問題がある。

したがって、かかる点に鑑みてなされた本発明の目的は、安定的に少ない処理時間で、自然で肉声感のある音声を合成する音声合成装置および音声合成プログラムを提供することである。

上述した諸課題を解決すべく、本発明に係る音声合成装置は、入力文をラベル列に変換する文ラベル列変換部と、前記ラベル列に含まれる少なくとも１つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部と、前記ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部と、前記選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部と、を備える。

また、複数の音声データを記録する音声サンプル記録部を備え、前記特徴量モデル選択部は、前記ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する、ことが好ましい。

また、前記特徴量モデル選択部は、前後のモデル間において、前方のモデルの終端の特徴量と、後方のモデルの始端の特徴量とに基づき、前記類似度を算出することが好ましい。

また、上記課題を解決するため、本発明に係る音声合成プログラムは、コンピュータを、上記音声合成装置として機能させるものである。

本発明に係る音声合成装置および音声合成プログラムによれば、安定的に少ない処理時間で、自然で肉声感のある音声を合成することが可能となる。

本発明の第一実施形態に係る音声合成装置の構成を示す図である。音声データの特徴量の概要を示す図である。ラベルに対応した特徴量モデルの概要を示す図である。特徴量モデル間の類似度計算の概要を示す図である。複数の特徴量モデルによる合成音生成の概要を示す図である。本発明の第二実施形態に係る音声合成装置の構成を示す図である。

以降、諸図面を参照しながら、本発明の実施態様を詳細に説明する。

図１は本発明の第一実施形態に係る音声合成装置１のブロック図である。音声合成装置１は、入力されたテキストデータに対応した音声波形を生成して出力するものであり、文ラベル列変換部１０、特徴量モデル記録部２０、特徴量モデル選択部３０、音声波形取得部４０とを備える。文ラベル列変換部１０、特徴量モデル選択部３０、音声波形取得部４０は、ＣＰＵ等の好適なプロセッサや好適な電子回路により構成されるものである。また、特徴量モデル記録部２０は、ハードディスク／メモリ等の好適な記憶媒体により構成されるものである。

文ラベル列変換部１０では、入力された漢字仮名交じりの文をラベル列に変換する。より詳細には、文ラベル列変換部１０は、図示しないテキスト入力手段（例えばキーボード等）から入力された入力文の解析を行い、かな漢字交じり文である入力を「ラベル」の組み合わせであるラベル列に変換（分割）する。ラベルとは、例えば音素単位又は単語単位（複数音素単位）で構成されるものであり、各ラベルには後述する特徴量モデルが対応づけられる。また、各ラベルには、音素の品詞、左右の音素、アクセントの型、モーラおよび入力文の種類（単文と複文のどちらであるか）、文内／単語内における位置等といったメタデータをラベル情報として含めることができる。

特徴量モデル記録部２０は、文ラベル列変換部１０で出力され得る全てのラベルの種類に対応した特徴量モデルを記録しており、ラベル毎に複数の特徴量モデルを記憶している。ここで、図２、図３を用いて特徴量モデルについて詳述する。図２は、音声データの特徴量の概要を示す図である。特徴量として、メル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficients）や線形予測係数などを用いることができる。ＭＦＣＣは、音声データを短い時間単位（例えば２５ｍｓ）のフレーム毎に処理して得られるものである。各フレームは隣接するフレーム同士が重複するように所定時間（例えば５ｍｓ）ずつシフトして音声データから切り出される。フレーム毎に高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）を行うことにより各フレームのスペクトルが抽出され、当該スペクトルのメル周波数ケプストラム係数の各次元の値（例えば３９次元の値）が特徴量として取得される（ＭＦＣＣの具体的な計算方法については、「放送品質を実現するための波形接続型音声合成システムの構築」，世木寛之，慶應義塾大学博士論文，pp. 33-37を参照）。図３は、ラベルに対応する特徴量モデルの概要を示す図である。図示の通り、ラベルに対応する特徴量モデルとは、ラベルに対応する各音声データの特徴量の平均となる。この方法以外にも、「多空間上の確率分布に基づいたＨＭＭ，徳田恵一他，電子情報通信学会論文誌，J83-D-II(7)，１５７９−１５８９，２０００」のようにＥＭアルゴリズムを利用することにより、特徴量モデルを作成することが可能である。

特徴量モデル記録部２０は、ラベル毎に複数の特徴量モデルを記憶するものであるが、音素の品詞、左右の音素、アクセントの型、モーラおよび入力文の種類（単文と複文のどちらであるか）、文内／単語内における位置等といったメタデータを含めた場合のラベル情報は膨大であるため、全てのラベルに対応する特徴量モデルを用意することはできない。このため、「Tree-based state tying for high accuracy acoustic modelling，S.J.Young他2名，Proc. ARPA Human Language Technology Workshop，pp.307-312， 1994」のようなクラスタリングを行っておくことにより、特徴量モデルを作成することができなかったラベルに対しても、何らかの特徴量モデルを割り当てることが可能になる。

特徴量モデル選択部３０は、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する。具体的には、特徴量モデル選択部３０は、下記の数式１の通り、前後の特徴量モデル間において、前方の特徴量モデルの終端（最終フレーム）の特徴量と、後方の特徴量モデルの始端（開始フレーム）の特徴量とに基づき、類似度を算出することができる。数式１において、mdiff(A,B)は前方ラベルの特徴量モデルＡと後方ラベルの特徴量モデルＢとの類似度であり、ｍは特徴量モデルの次元数である。ここで、「特徴量モデルの終端／始端のラベル」とは、例えばラベルが複数音素から構成されている場合にはその終端／始端の音素に対応するラベルとなり、ラベルが単一音素から構成されている場合には、当該音素に対応するラベルとなる。

図４は、特徴量モデル間の類似度計算の概要を示す図である。数式１に示す類似度は、前方ラベルの特徴量モデルの終端（最終フレーム）の特徴量と、後方ラベルの特徴量モデルの始端（開始フレーム）の特徴量との各次元における差分（二乗誤差）が積算されたものであり、前方ラベルの特徴量モデルの終端と、後方ラベルの特徴量モデルの始端との距離尺度を示すものである。なお、各次元の値を正規化するため、分母には分散値及び平均値からなる正規化項を設けている。この距離尺度が小さいほど、特徴量モデルＡの終端と特徴量モデルＢの始端とが類似していることになる。特徴量モデル選択部３０は、ビタービ探索等を用いて、距離尺度の和が最も小さくなる特徴量モデルを選択することができる。これにより、ラベル間のつなぎ目の部分で整合性がありギャップの少ない特徴量モデルの組み合わせを選択することができる。なお、前後の特徴量モデル間の類似度の計算は数式１に限られず、例えば、終端／始端からそれぞれ複数フレームを選択して計算をしても良く、選択したフレーム位置に応じた重み付けを用いて類似度を計算しても良い。

音声波形取得部４０は、選択された特徴量モデルの組み合わせを音声波形に変換する。特徴量モデルから音声波形への変換は公知の技術を利用することができ、本稿で詳述は行わない（例えば特許文献１参照）。音声波形取得部４０は、前から順に対応する音声波形にクロスフェード（オーバーラップ）させて足し合わせることで、接続部分のショックを低減し、接続点に歪みを生じることなく合成音を生成することができる。

次に、音声合成装置１の具体的な処理について、入力される読み上げテキストデータを例示して説明する。図５は、複数の特徴量モデルによる合成音生成の概要を示す図である。例えば「あいうえお」が入力された場合、文ラベル列変換部１０は、入力文「あいうえお」をラベル列「ａｉｕｅｏ」に変換する。ここで、特徴量モデル記録部２０は、ラベル「ａ」の特徴量モデルを８つ、ラベル「ｉ」の特徴量モデルを６つ、ラベル「ｕ」の特徴量モデルを４つ、ラベル「ｅ」の特徴量モデルを３つ、ラベル「ｏ」の特徴量モデルを２つ記録しているものとする。この場合、特徴量モデル選択部３０が考慮すべき特徴量モデルの組み合わせは８×６×４×３×２＝１１５２通りある。特徴量モデル選択部３０が例えば「ａ」の３番目の特徴量モデル、「ｉ」の２番目の特徴量モデル、「ｕ」の４番目の特徴量モデル、「ｅ」の２番目の特徴量モデル、「ｏ」の２番目の特徴量モデルをそれぞれ選択すると、音声波形取得部４０は、選択された特徴量モデルの組み合わせを音声波形に変換する。

このように、本実施形態によれば、特徴量モデル記録部２０は、ラベル列に含まれる少なくとも１つのラベルに対して複数の特徴量モデルを記憶し、特徴量モデル選択部３０は、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する。これにより、安定的に少ない処理時間で、入力文に対して自然で肉声感のある音声を合成することが可能となる。

また、特徴量モデル選択部３０は、前後の特徴量モデル間において、前方の特徴量モデルの終端の特徴量と、後方の特徴量モデルの始端の特徴量とに基づき、類似度を算出することができる。これにより、ラベル間のつなぎ目の部分で整合性がありギャップの少ない特徴量モデルの組み合わせを選択することができる。

図６は、本発明の第二実施形態に係る音声合成装置２の構成を示す図である。第二実施形態に係る音声合成装置２は、第一実施形態に係る音声合成装置１に音声サンプル記録部５０を追加したものであり、音声合成装置１と同一符号の機能部については重複する説明を省略する。

音声サンプル記録部５０は、音声サンプルの波形データを記憶するものであり、ハードディスク／メモリ等の好適な記憶媒体により構成されるものである。

本実施形態において、特徴量モデル選択部３０は、ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する。より詳細には、図３で説明した通り、特徴量モデルとは音声データの特徴量の平均であるから、特徴量という基準において、特徴量モデル及び音声データ間の類似度は数式１の通り計算可能である。つまり、特徴量モデル選択部３０は、前方の特徴量モデル又は音声データの終端の特徴量と、後方の特徴量モデル又は音声データの始端の特徴量とに基づき、類似度を算出することができる。

音声波形取得部４０は、特徴量モデル選択部３０が選択した組み合わせに対応する音声データが音声サンプル記録部５０に存在する場合、当該音声データを用いて音声波形を取得することができる。一般に、特徴量モデルから取得した音声波形は再生時に歪みが生じやすいのに比べ、音声データはそれ自体再生可能であり歪みの発生がないため、合成音声の品質が向上するという利点がある。音声波形取得部４０は、前から順に対応する音声波形にクロスフェード（オーバーラップ）させて足し合わせることで、接続部分のショックを低減し、接続点に歪みを生じることなく合成音を生成することができる。

このように、本実施形態によれば、音声サンプル記録部は複数の音声データを記録し、特徴量モデル選択部３０は、ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する。一般に特徴量モデルから取得した音声波形は再生時に歪みが生じやすいのに比べ、音声データは歪みの発生がないため、音声データを考慮して組み合わせを選択することにより、安定的に少ない処理時間で、入力文に対してより自然で肉声感のある音声を合成することが可能となる。

本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の機能部やステップなどを１つに組み合わせたり、或いは分割したりすることが可能である。

なお、上述した音声合成装置として機能させるためにコンピュータを用いることができ、そのようなコンピュータは、音声合成装置の各機能を実現する処理内容を記述したプログラム（音声合成プログラム）を該コンピュータの記録部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。

１、２音声合成装置
１０文ラベル列変換部
２０特徴量モデル記録部
３０特徴量モデル選択部
４０音声波形取得部
５０音声サンプル記録部

Claims

入力文をラベル列に変換する文ラベル列変換部と、
前記ラベル列に含まれる少なくとも１つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部と、
前記ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部と、
前記選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部と、を備える音声合成装置。
複数の音声データを記録する音声サンプル記録部を備え、
前記特徴量モデル選択部は、前記ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する、請求項１に記載の音声合成装置。
前記特徴量モデル選択部は、前後のモデル間において、前方のモデルの終端の特徴量と、後方のモデルの始端の特徴量とに基づき、前記類似度を算出する、請求項１に記載の音声合成装置。
コンピュータを、請求項１乃至３のいずれか一項に記載の音声合成装置として機能させるための音声合成プログラム。