JP2016151709A - 音声合成装置及び音声合成プログラム - Google Patents

音声合成装置及び音声合成プログラム Download PDF

Info

Publication number
JP2016151709A
JP2016151709A JP2015029816A JP2015029816A JP2016151709A JP 2016151709 A JP2016151709 A JP 2016151709A JP 2015029816 A JP2015029816 A JP 2015029816A JP 2015029816 A JP2015029816 A JP 2015029816A JP 2016151709 A JP2016151709 A JP 2016151709A
Authority
JP
Japan
Prior art keywords
model
feature
speech
models
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015029816A
Other languages
English (en)
Inventor
世木 寛之
Hiroyuki Segi
寛之 世木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK filed Critical Nippon Hoso Kyokai NHK
Priority to JP2015029816A priority Critical patent/JP2016151709A/ja
Publication of JP2016151709A publication Critical patent/JP2016151709A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】安定的に少ない処理時間でテキストデータから自然で肉声感のある音声を合成する音声合成装置及び音声合成プログラムを提供する。
【解決手段】音声合成装置1は、入力文(テキストデータ)をラベル列に変換する文ラベル列変換部10と、ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部20と、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部30と、選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部40と、を備える。
【選択図】図1

Description

本発明は、入力文を合成音に変換する音声合成装置及び音声合成プログラムに関する。
従来、統計モデルの一つである隠れマルコフモデル(HMM:Hidden Markov Model)を用いた音声合成方法として、例えば特許文献1で提案されているような手法が利用されていた。特許文献1で提案された音声合成方法は、事前に音声データから隠れマルコフモデル(以下、HMMという)を作成しておき、音声合成時には、入力文(入力テキスト)に対応するHMMを用いることにより音響特徴量の列を生成し、当該音響特徴量の列を音声波形に変換して音声合成するという仕組みである。また、非特許文献1に記載の方法では、複数の隠れマルコフモデルを扱うことができる。
特開2002−268660号公報
徳田恵一他、「動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム、日本音響学会誌、53(3)、192-200,1997年
ここで、合成音の高品質化を図るためには、高精度で大規模なモデルの構築が必須である。しかしながら、特許文献1に記載の方法では、各ラベル・状態に対して複数の隠れマルコフモデルを保持させることについては考えられていなかったため、合成音は肉声感に乏しかった。また、非特許文献1に記載の方法では、繰り返し法を用いるため解の安定性や処理に時間がかかる問題がある。
したがって、かかる点に鑑みてなされた本発明の目的は、安定的に少ない処理時間で、自然で肉声感のある音声を合成する音声合成装置および音声合成プログラムを提供することである。
上述した諸課題を解決すべく、本発明に係る音声合成装置は、入力文をラベル列に変換する文ラベル列変換部と、前記ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部と、前記ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部と、前記選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部と、を備える。
また、複数の音声データを記録する音声サンプル記録部を備え、前記特徴量モデル選択部は、前記ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する、ことが好ましい。
また、前記特徴量モデル選択部は、前後のモデル間において、前方のモデルの終端の特徴量と、後方のモデルの始端の特徴量とに基づき、前記類似度を算出することが好ましい。
また、上記課題を解決するため、本発明に係る音声合成プログラムは、コンピュータを、上記音声合成装置として機能させるものである。
本発明に係る音声合成装置および音声合成プログラムによれば、安定的に少ない処理時間で、自然で肉声感のある音声を合成することが可能となる。
本発明の第一実施形態に係る音声合成装置の構成を示す図である。 音声データの特徴量の概要を示す図である。 ラベルに対応した特徴量モデルの概要を示す図である。 特徴量モデル間の類似度計算の概要を示す図である。 複数の特徴量モデルによる合成音生成の概要を示す図である。 本発明の第二実施形態に係る音声合成装置の構成を示す図である。
以降、諸図面を参照しながら、本発明の実施態様を詳細に説明する。
図1は本発明の第一実施形態に係る音声合成装置1のブロック図である。音声合成装置1は、入力されたテキストデータに対応した音声波形を生成して出力するものであり、文ラベル列変換部10、特徴量モデル記録部20、特徴量モデル選択部30、音声波形取得部40とを備える。文ラベル列変換部10、特徴量モデル選択部30、音声波形取得部40は、CPU等の好適なプロセッサや好適な電子回路により構成されるものである。また、特徴量モデル記録部20は、ハードディスク/メモリ等の好適な記憶媒体により構成されるものである。
文ラベル列変換部10では、入力された漢字仮名交じりの文をラベル列に変換する。より詳細には、文ラベル列変換部10は、図示しないテキスト入力手段(例えばキーボード等)から入力された入力文の解析を行い、かな漢字交じり文である入力を「ラベル」の組み合わせであるラベル列に変換(分割)する。ラベルとは、例えば音素単位又は単語単位(複数音素単位)で構成されるものであり、各ラベルには後述する特徴量モデルが対応づけられる。また、各ラベルには、音素の品詞、左右の音素、アクセントの型、モーラおよび入力文の種類(単文と複文のどちらであるか)、文内/単語内における位置等といったメタデータをラベル情報として含めることができる。
特徴量モデル記録部20は、文ラベル列変換部10で出力され得る全てのラベルの種類に対応した特徴量モデルを記録しており、ラベル毎に複数の特徴量モデルを記憶している。ここで、図2、図3を用いて特徴量モデルについて詳述する。図2は、音声データの特徴量の概要を示す図である。特徴量として、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients)や線形予測係数などを用いることができる。MFCCは、音声データを短い時間単位(例えば25ms)のフレーム毎に処理して得られるものである。各フレームは隣接するフレーム同士が重複するように所定時間(例えば5ms)ずつシフトして音声データから切り出される。フレーム毎に高速フーリエ変換(FFT:Fast Fourier Transform)を行うことにより各フレームのスペクトルが抽出され、当該スペクトルのメル周波数ケプストラム係数の各次元の値(例えば39次元の値)が特徴量として取得される(MFCCの具体的な計算方法については、「放送品質を実現するための波形接続型音声合成システムの構築」,世木寛之,慶應義塾大学博士論文,pp. 33-37を参照)。図3は、ラベルに対応する特徴量モデルの概要を示す図である。図示の通り、ラベルに対応する特徴量モデルとは、ラベルに対応する各音声データの特徴量の平均となる。この方法以外にも、「多空間上の確率分布に基づいたHMM,徳田恵一他,電子情報通信学会論文誌,J83-D-II(7),1579−1589,2000」のようにEMアルゴリズムを利用することにより、特徴量モデルを作成することが可能である。
特徴量モデル記録部20は、ラベル毎に複数の特徴量モデルを記憶するものであるが、音素の品詞、左右の音素、アクセントの型、モーラおよび入力文の種類(単文と複文のどちらであるか)、文内/単語内における位置等といったメタデータを含めた場合のラベル情報は膨大であるため、全てのラベルに対応する特徴量モデルを用意することはできない。このため、「Tree-based state tying for high accuracy acoustic modelling,S.J.Young他2名,Proc. ARPA Human Language Technology Workshop,pp.307-312, 1994」のようなクラスタリングを行っておくことにより、特徴量モデルを作成することができなかったラベルに対しても、何らかの特徴量モデルを割り当てることが可能になる。
特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する。具体的には、特徴量モデル選択部30は、下記の数式1の通り、前後の特徴量モデル間において、前方の特徴量モデルの終端(最終フレーム)の特徴量と、後方の特徴量モデルの始端(開始フレーム)の特徴量とに基づき、類似度を算出することができる。数式1において、mdiff(A,B)は前方ラベルの特徴量モデルAと後方ラベルの特徴量モデルBとの類似度であり、mは特徴量モデルの次元数である。ここで、「特徴量モデルの終端/始端のラベル」とは、例えばラベルが複数音素から構成されている場合にはその終端/始端の音素に対応するラベルとなり、ラベルが単一音素から構成されている場合には、当該音素に対応するラベルとなる。
Figure 2016151709
図4は、特徴量モデル間の類似度計算の概要を示す図である。数式1に示す類似度は、前方ラベルの特徴量モデルの終端(最終フレーム)の特徴量と、後方ラベルの特徴量モデルの始端(開始フレーム)の特徴量との各次元における差分(二乗誤差)が積算されたものであり、前方ラベルの特徴量モデルの終端と、後方ラベルの特徴量モデルの始端との距離尺度を示すものである。なお、各次元の値を正規化するため、分母には分散値及び平均値からなる正規化項を設けている。この距離尺度が小さいほど、特徴量モデルAの終端と特徴量モデルBの始端とが類似していることになる。特徴量モデル選択部30は、ビタービ探索等を用いて、距離尺度の和が最も小さくなる特徴量モデルを選択することができる。これにより、ラベル間のつなぎ目の部分で整合性がありギャップの少ない特徴量モデルの組み合わせを選択することができる。なお、前後の特徴量モデル間の類似度の計算は数式1に限られず、例えば、終端/始端からそれぞれ複数フレームを選択して計算をしても良く、選択したフレーム位置に応じた重み付けを用いて類似度を計算しても良い。
音声波形取得部40は、選択された特徴量モデルの組み合わせを音声波形に変換する。特徴量モデルから音声波形への変換は公知の技術を利用することができ、本稿で詳述は行わない(例えば特許文献1参照)。音声波形取得部40は、前から順に対応する音声波形にクロスフェード(オーバーラップ)させて足し合わせることで、接続部分のショックを低減し、接続点に歪みを生じることなく合成音を生成することができる。
次に、音声合成装置1の具体的な処理について、入力される読み上げテキストデータを例示して説明する。図5は、複数の特徴量モデルによる合成音生成の概要を示す図である。例えば「あいうえお」が入力された場合、文ラベル列変換部10は、入力文「あいうえお」をラベル列「aiueo」に変換する。ここで、特徴量モデル記録部20は、ラベル「a」の特徴量モデルを8つ、ラベル「i」の特徴量モデルを6つ、ラベル「u」の特徴量モデルを4つ、ラベル「e」の特徴量モデルを3つ、ラベル「o」の特徴量モデルを2つ記録しているものとする。この場合、特徴量モデル選択部30が考慮すべき特徴量モデルの組み合わせは8×6×4×3×2=1152通りある。特徴量モデル選択部30が例えば「a」の3番目の特徴量モデル、「i」の2番目の特徴量モデル、「u」の4番目の特徴量モデル、「e」の2番目の特徴量モデル、「o」の2番目の特徴量モデルをそれぞれ選択すると、音声波形取得部40は、選択された特徴量モデルの組み合わせを音声波形に変換する。
このように、本実施形態によれば、特徴量モデル記録部20は、ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶し、特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する。これにより、安定的に少ない処理時間で、入力文に対して自然で肉声感のある音声を合成することが可能となる。
また、特徴量モデル選択部30は、前後の特徴量モデル間において、前方の特徴量モデルの終端の特徴量と、後方の特徴量モデルの始端の特徴量とに基づき、類似度を算出することができる。これにより、ラベル間のつなぎ目の部分で整合性がありギャップの少ない特徴量モデルの組み合わせを選択することができる。
図6は、本発明の第二実施形態に係る音声合成装置2の構成を示す図である。第二実施形態に係る音声合成装置2は、第一実施形態に係る音声合成装置1に音声サンプル記録部50を追加したものであり、音声合成装置1と同一符号の機能部については重複する説明を省略する。
音声サンプル記録部50は、音声サンプルの波形データを記憶するものであり、ハードディスク/メモリ等の好適な記憶媒体により構成されるものである。
本実施形態において、特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する。より詳細には、図3で説明した通り、特徴量モデルとは音声データの特徴量の平均であるから、特徴量という基準において、特徴量モデル及び音声データ間の類似度は数式1の通り計算可能である。つまり、特徴量モデル選択部30は、前方の特徴量モデル又は音声データの終端の特徴量と、後方の特徴量モデル又は音声データの始端の特徴量とに基づき、類似度を算出することができる。
音声波形取得部40は、特徴量モデル選択部30が選択した組み合わせに対応する音声データが音声サンプル記録部50に存在する場合、当該音声データを用いて音声波形を取得することができる。一般に、特徴量モデルから取得した音声波形は再生時に歪みが生じやすいのに比べ、音声データはそれ自体再生可能であり歪みの発生がないため、合成音声の品質が向上するという利点がある。音声波形取得部40は、前から順に対応する音声波形にクロスフェード(オーバーラップ)させて足し合わせることで、接続部分のショックを低減し、接続点に歪みを生じることなく合成音を生成することができる。
このように、本実施形態によれば、音声サンプル記録部は複数の音声データを記録し、特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する。一般に特徴量モデルから取得した音声波形は再生時に歪みが生じやすいのに比べ、音声データは歪みの発生がないため、音声データを考慮して組み合わせを選択することにより、安定的に少ない処理時間で、入力文に対してより自然で肉声感のある音声を合成することが可能となる。
本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の機能部やステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。
なお、上述した音声合成装置として機能させるためにコンピュータを用いることができ、そのようなコンピュータは、音声合成装置の各機能を実現する処理内容を記述したプログラム(音声合成プログラム)を該コンピュータの記録部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。
1、2 音声合成装置
10 文ラベル列変換部
20 特徴量モデル記録部
30 特徴量モデル選択部
40 音声波形取得部
50 音声サンプル記録部

Claims (4)

  1. 入力文をラベル列に変換する文ラベル列変換部と、
    前記ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部と、
    前記ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部と、
    前記選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部と、を備える音声合成装置。
  2. 複数の音声データを記録する音声サンプル記録部を備え、
    前記特徴量モデル選択部は、前記ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する、請求項1に記載の音声合成装置。
  3. 前記特徴量モデル選択部は、前後のモデル間において、前方のモデルの終端の特徴量と、後方のモデルの始端の特徴量とに基づき、前記類似度を算出する、請求項1に記載の音声合成装置。
  4. コンピュータを、請求項1乃至3のいずれか一項に記載の音声合成装置として機能させるための音声合成プログラム。
JP2015029816A 2015-02-18 2015-02-18 音声合成装置及び音声合成プログラム Pending JP2016151709A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015029816A JP2016151709A (ja) 2015-02-18 2015-02-18 音声合成装置及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015029816A JP2016151709A (ja) 2015-02-18 2015-02-18 音声合成装置及び音声合成プログラム

Publications (1)

Publication Number Publication Date
JP2016151709A true JP2016151709A (ja) 2016-08-22

Family

ID=56696474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015029816A Pending JP2016151709A (ja) 2015-02-18 2015-02-18 音声合成装置及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP2016151709A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754782A (zh) * 2019-01-28 2019-05-14 武汉恩特拉信息技术有限公司 一种辨别机器语音和自然语音的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754782A (zh) * 2019-01-28 2019-05-14 武汉恩特拉信息技术有限公司 一种辨别机器语音和自然语音的方法及装置
CN109754782B (zh) * 2019-01-28 2020-10-09 武汉恩特拉信息技术有限公司 一种辨别机器语音和自然语音的方法及装置

Similar Documents

Publication Publication Date Title
CN101236743B (zh) 生成高质量话音的系统和方法
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
Black et al. Statistical parametric speech synthesis
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6036682B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム
CN101276584A (zh) 韵律图样产生装置、语音合成装置及其方法
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
Chen et al. The ustc system for blizzard challenge 2011
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2009128490A (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP4716125B2 (ja) 発音評定装置、およびプログラム
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
JP2016151709A (ja) 音声合成装置及び音声合成プログラム
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP2013117638A (ja) 音声合成装置および音声合成プログラム
JP2007249050A (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム