JP2015194781A - 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム - Google Patents
定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2015194781A JP2015194781A JP2015155708A JP2015155708A JP2015194781A JP 2015194781 A JP2015194781 A JP 2015194781A JP 2015155708 A JP2015155708 A JP 2015155708A JP 2015155708 A JP2015155708 A JP 2015155708A JP 2015194781 A JP2015194781 A JP 2015194781A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- component
- accent
- phrase
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
図3を参照して、本願発明の基本的考え方は以下の通りである。最初に、音声コーパスからF0パターンを抽出し、観測F0パターン130を作成する。この観測F0パターンは通常は不連続である。この不連続なF0パターンを連続化・平滑化させ、連続F0パターン132を生成する。ここまでは先行技術を用いて実現できる。
F0は声帯の振動から生ずる。F0パターンを操作する上で、レゾナンス機構を用いることが有効であることが知られている。ここでは、レゾナンスを用いたマッピング(非特許文献4)を適用し、アクセント成分とフレーズ成分との間の潜在的干渉を、トポロジの変換の一種として取扱うことにより処理する。
式4は、lnf0の時間軸上での分解を表す。より具体的には、αf0rはフレーズ成分(基準値として取扱う。)を表し、φf0|f0rはアクセント成分を表す。アクセント成分をφf0|f0rで表し、フレーズ成分をαf0rで表すと、lnf0は以下の式(5)により計算できる。
F0パターンを時間tの関数として表すモデルは、対数表現ではレゾナンスによる、フレーズ成分Cp(t)上へのアクセント成分Ca(t)の重畳として表現できる。
アクセント的フレーズ境界に関する情報が与えられたものとして、日本語の発話について観測されたF0パターンから、ターゲットポイントのパラメータを推定するためのアルゴリズムを開発した。パラメータf0b及びf0tを、観測されたF0パターンの集合のF0範囲と一致させる。日本語では、アクセント的フレーズはアクセント(アクセントタイプ0,1,2,…)を持つ。このアルゴリズムは以下のようなものである。
F0パターンを、f0r=f0bとしてφf0|f0rに変換し、2つのウィンドウサイズ(短期:10ポイント、長期:80ポイント)でともに平滑化し(ステップ340)、全体的な上昇―(フラット)−下降という日本語アクセントの特徴を考慮し、マイクロ・プロソディの影響を除去する(音素セグメントを用いてF0を変更する)。平滑化されたF0パターンを、パラメータ抽出のために式(5)を用いてF0に戻す。
ポーズ間のセグメントで0.3秒より長いものを呼気段落とみなし、呼気段落をさらに長期ウィンドウで平滑化したF0パターンを用いてN個の段落に分割する(ステップ342)。以下の処理を各グループに対して適用する。この際、F0誤差の絶対値を最小化するという基準を用いる。以下、ステップ348を繰返し実行するために繰返し制御変数kを0に設定する(ステップ344)。(a)初期値として、2つの低ターゲットポイントと1つの高ターゲットポイントとを持つ3ターゲットポイントのフレーズ成分Pを準備する(ステップ346)。このフレーズ成分Pは、例えば図4の最下部にあるフレーズ成分Pのグラフの、左半分と同様の形状である。この高ターゲットポイントのタイミングを第2モーラの開始時に合わせ、1番目の低ターゲットポイントを0.3秒だけ早めにずらす。さらに、2番目の低ターゲットポイントのタイミングを呼気段落の末尾に一致させる。γpiの初期値は、長期ウィンドウを用いて平滑化したF0パターンを用いて決定する。
推定されたフレーズ成分Pを前提に、生成されたF0パターンと観測されたF0パターンとの間の誤差を最小化するようにアクセントのターゲットポイントを最適化する。この結果、平滑化されたF0パターンフィットするようなF0パターンを生成できるフレーズ成分P及びアクセント成分Aのターゲットポイントが得られる。
<構成>
図7を参照して、第1の実施の形態に係るF0パターン合成部359は、音声コーパスに含まれる多数の音声信号の各々から観測された観測F0パターン130を平滑化・連続化して得た連続F0パターン132について、所与のアクセント境界に基づいて、上記した原理に従い、フレーズ成分Pを規定するターゲットポイント及びアクセント成分Aを規定するターゲットポイントのパラメータを推定するパラメータ推定部366と、パラメータ推定部366により推定されたフレーズ成分Pとアクセント成分Aとを合成することにより連続F0パターンにフィットしたフィット後のF0パターンを生成するF0パターンフィッティング部368と、フィット後のF0パターンを用いて従来と同様にHMMの学習を行なうHMM学習部369と、学習後のHMMパラメータを記憶するHMM記憶装置370とを含む。HMM記憶装置370に記憶されたHMMを用いてF0パターン372を合成する処理は、図2に示す音声合成部82と同様の装置で実現できる。
図7を参照して、第1の実施の形態のシステムは以下のように動作する。観測F0パターン130の各々について、平滑化・連続化することにより連続F0パターン132を得る。パラメータ推定部366は、この連続F0パターン132をフレーズ成分Pとアクセント成分Aとに分解し、それぞれのターゲットパラメータを上記した手法で推定する。F0パターンフィッティング部368は、推定されたターゲットパラメータにより表現されるフレーズ成分Pとアクセント成分Aとを合成し、観測F0パターンにフィットしたフィット後のF0パターンを得る。このシステムは、このような動作を観測F0パターン130の各々に対して行なう。
上記第1の実施の形態によりHMMの学習を行ない、学習後のHMMを使用して合成したF0パターンを利用して合成した音声について、主観的な評価(選好評価)テストを行なった。。
(2)実施の形態1により生成されたF0パターン(Proposed)
(3)有声部分はオリジナル、無声部分は実施の形態1の方法により生成したF0パターン(Prop.+MP(Micro−prosody))
(4)有声部分はオリジナル、無声部分はスプラインによる内挿を使用したF0パターン(Spl+MP)
上記した4つのパターンの内、(2)〜(4)は連続F0パターンである。(2)はマイクロ・プロソディもF0抽出誤差も含まないが、(3)及び(4)は両者を含む点に注意が必要である。
(2)Proposed 対 Prop+MP
(3)Proposed 対 Spl+MP
(4)Prop+MP 対 Spl+MP
学習に使用しなかった9文を用いて各被験者による評価を行なった。9つのwaveファイルの対を複製し、それぞれのバージョンで各対のwaveファイルの順序を入れ替えた。こうして得た72対(4×9×2)のwaveファイル対を各被験者に対してランダムな順番で提示し、どちらを好むか、又はどちらも同じかを答えさせた。
第1の実施の形態では、フレーズ成分P及びアクセント成分Aをターゲットポイントで表し、それらを合成することでF0パターンをフィッティングしている。しかし、ターゲットポイントを使用するアイデアは、この第1の実施の形態に限定されるわけではない。第2の実施の形態は、上に説明した手法によって観測されたF0パターンをフレーズ成分P、アクセント成分A及びマイクロ・プロソディ成分Mに分離し、それらの時間変化パターンについてそれぞれHMM学習を行なう。F0生成の際には、学習済のHMMを用いてフレーズ成分P、アクセント成分A及びマイクロ・プロソディ成分Mの時間変化パターンを得て、さらにそれらを合成することでF0パターンを推定する。
図9を参照して、この実施の形態に係る音声合成システム270は、音声合成のためのHMMの学習を行なうモデル学習部280と、モデル学習部280によって学習を行なったHMMを用い、テキストが入力されるとその音声を合成し合成音声信号284として出力する音声合成部282とを含む。
音声合成システム270は以下のように動作する。音声コーパス記憶装置90には、大量の発話信号が記憶されている。発話信号はフレーム単位で記憶されており、各音素に対して音素のコンテキストラベルが付されている。F0抽出部92は、各発話の発話信号から不連続なF0パターン93を出力する。F0平滑化部290は、不連続なF0パターン93を平滑化し、連続F0パターン291を出力する。F0分離部292は、連続F0パターン291と、F0抽出部92の出力する不連続なF0パターン93とを受け、前述した方法にしたがって、各フレームについてフレーズ成分Pの時間変化パターン、アクセント成分Aの時間変化パターン、マイクロ・プロソディ成分Mの時間変化パターン、不連続なF0パターン93から得られる、各フレームが有声区間か無声区間かを示す情報F0(U/V)、及び、スペクトルパラメータ抽出部94が各発話の音声信号の各フレームについて算出したメルケプストラムパラメータからなる学習データベクトル293を、HMM学習部294に与える。
この第2の実施の形態では、F0パターンをフレーズ成分P、アクセント成分A及びマイクロ・プロソディ成分Mに分解し、それらを用いて別々のHMMの学習を行なう。音声合成時には、テキスト解析の結果に基づき、これらHMMを用いてフレーズ成分P、アクセント成分A、及びマイクロ・プロソディ成分Mを別々に生成する。さらに、生成されたフレーズ成分P、アクセント成分A、及びマイクロ・プロソディ成分Mを合成することで、F0パターンを生成できる。こうして得られたF0パターンを用いると、第1の実施の形態と同様、自然な発話を得ることができる。さらに、アクセント成分AとF0パターンとの対応関係が明確なので、特定の単語についてアクセント成分Aのレンジを大きくとることによって、当該単語に焦点を当てたりすることが容易に行なえる。これは例えば図6のアクセント成分250において縦線254の直前の成分に関して周波数を下げている操作、及び図6のアクセント成分250及び252において、末尾のF0パターンの周波数を落とす操作からも分かる。
上記第1実施の形態及び第2の実施の形態に係るF0パターン合成部は、いずれも、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図10はこのコンピュータシステム530の外観を示し、図11はコンピュータシステム530の内部構成を示す。
40 フレーズコマンド
42 フレーズ制御機構
44 アクセントコマンド
46 アクセント制御機構
48,152 加算器
50 F0パターン
70,270 音声合成システム
80,280 モデル学習部
82,282 音声合成部
90 音声コーパス記憶装置
92 F0抽出部
93 不連続なF0パターン
94 スペクトルパラメータ抽出部
95 メルケプストラムパラメータ
96,294,369 HMM学習部
110,310,139,370 HMM記憶装置
112 テキスト解析部
114 パラメータ生成部
116 音声合成器
130,170 観測F0パターン
132,174,291 連続F0パターン
134,146,200,202,204,206,208,250,252 アクセント成分
136,148,220,222,242,244 フレーズ成分
138,150 マイクロ・プロソディ成分
140,142,144 HMM
48,152 加算器
154,240,246 F0パターン
172 フレーズ成分
290 F0平滑化部
292 F0分離部
293 学習データベクトル
312 パラメータ生成部
314,359 F0パターン合成部
366 パラメータ推定部
368 F0パターンフィッティング部
Claims (5)
- 音声データ信号からF0パターンを抽出するF0パターン抽出手段と、
抽出されたF0パターンにフィットするF0パターンからフレーズ成分の時間変化パターンと、アクセント成分の時間変化パターンとを分離するための分離手段と、
複数の音声データから前記F0パターン抽出手段及び前記分離手段によって得られた前記フレーズ成分の時間変化パターンと、前記アクセント成分の時間変化パターンとをそれぞれ学習データとして、フレーズ成分生成用の第1の生成モデルと、アクセント成分生成用の第2の生成モデルとの学習を行なうモデル学習手段とを含む、F0パターン生成のためのモデル学習装置。 - 前記モデル学習手段は、前記フレーズ成分の時間変化パターン及び前記アクセント成分の時間変化パターンから得られる、時間情報を共有したマルチストリーム形式の学習データにより、前記第1及び第2の生成モデルの学習を行う手段を含む、請求項1に記載のモデル学習装置。
- 前記分離手段は、前記F0パターン抽出手段により抽出されたF0パターンにフィットするF0パターンからフレーズ成分の時間変化パターンと、アクセント成分の時間変化パターンと、マイクロ・プロソディ成分の時間変化パターンとに分離するための手段を含み、
前記モデル学習装置は、複数の音声データから前記F0パターン抽出手段及び前記分離手段によって得られた前記フレーズ成分の時間変化パターンと、前記アクセント成分の時間変化パターンと、前記マイクロ・プロディ成分の時間変化パターンとをそれぞれ用いて、前記第1の生成モデル、前記第2の生成モデル、及びマイクロ・プロソディ成分のための第3の生成モデルの学習を行なうためのモデル学習手段とを含む、請求項2に記載のF0パターン生成のためのモデル学習装置。 - F0パターンのフレーズ成分の生成用の第1の生成モデルと、F0パターンのアクセント成分の生成用の第2の生成モデルと、F0パターンのマイクロ・プロソディ成分の生成用の第3の生成モデルとのパラメータを記憶するモデル記憶手段と、
音声合成の対象となるテキストの入力を受けてテキスト解析し、音声合成用の制御記号列を出力するテキスト解析手段と、
前記テキスト解析手段の出力する制御記号列を前記第1の生成モデルと照合することにより、F0パターンのフレーズ成分を生成するフレーズ成分生成手段と、
前記テキスト解析手段の出力する制御記号列を前記第2の生成モデルと照合することにより、F0パターンのアクセント成分を生成するアクセント成分生成手段と、
前記テキスト解析手段の出力する制御記号列を前記第3の生成モデルと照合することにより、F0パターンのマイクロ・プロソディ成分を生成するマイクロ・プロソディ成分生成手段と、
前記フレーズ成分生成手段により生成されたフレーズ成分、前記アクセント成分生成手段により生成されたアクセント成分、及び前記マイクロ・プロソディ成分生成手段により生成されたマイクロ・プロソディ成分を合成することにより、F0パターンを生成するF0パターン生成手段とを含む、定量的F0パターン生成装置。 - コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項4のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015155708A JP6137708B2 (ja) | 2015-08-06 | 2015-08-06 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015155708A JP6137708B2 (ja) | 2015-08-06 | 2015-08-06 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013173634A Division JP5807921B2 (ja) | 2013-08-23 | 2013-08-23 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015194781A true JP2015194781A (ja) | 2015-11-05 |
JP6137708B2 JP6137708B2 (ja) | 2017-05-31 |
Family
ID=54433769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015155708A Expired - Fee Related JP6137708B2 (ja) | 2015-08-06 | 2015-08-06 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6137708B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144403A (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声信号解析装置、方法、及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198073A (ja) * | 1996-01-11 | 1997-07-31 | Secom Co Ltd | 音声合成装置 |
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
-
2015
- 2015-08-06 JP JP2015155708A patent/JP6137708B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198073A (ja) * | 1996-01-11 | 1997-07-31 | Secom Co Ltd | 音声合成装置 |
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144403A (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声信号解析装置、方法、及びプログラム |
WO2019163753A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声信号解析装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6137708B2 (ja) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4455610B2 (ja) | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
KR20230003056A (ko) | 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP6802958B2 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
KR20230056741A (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
KR20210059586A (ko) | 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치 | |
JP2024529880A (ja) | 合成トレーニングデータを使用した2レベルのテキスト読上げシステム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
US20240038213A1 (en) | Generating method, generating device, and generating program | |
Chunwijitra et al. | A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Cai et al. | Statistical parametric speech synthesis using a hidden trajectory model | |
JP7173339B2 (ja) | 発話評価装置、発話評価方法、およびプログラム | |
JP7469015B2 (ja) | 学習装置、音声合成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160913 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6137708 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |