JP2008191525A - F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 - Google Patents
F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 Download PDFInfo
- Publication number
- JP2008191525A JP2008191525A JP2007027547A JP2007027547A JP2008191525A JP 2008191525 A JP2008191525 A JP 2008191525A JP 2007027547 A JP2007027547 A JP 2007027547A JP 2007027547 A JP2007027547 A JP 2007027547A JP 2008191525 A JP2008191525 A JP 2008191525A
- Authority
- JP
- Japan
- Prior art keywords
- prosodic
- event
- value
- prosodic event
- value time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】アクセント句毎に境界位置と複数のアクセント型、モーラ毎に開始時刻及び終了時刻が決められたテキストが入力され(3、S2)、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付け(12、S8)、口調別韻律イベントテーブルを用いて、アクセント句の発生条件に対応する口調別韻律イベントを追加し(13、S10)、韻律イベントパラメータデータベースより、韻律イベント毎に韻律イベントパラメータを生成し(22、S12)、生成関数テーブルから韻律イベント毎にデルタ関数を生成し(16、S16)、初期F0値パラメータデータベースから、アクセント句毎に初期F0値を求め(18、S18)、デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成する(20、S20)。
【選択図】図1
Description
従来技術1として、従来の合成音声を生成する際の音声のF0値時系列を生成する手法で、多空間の確率分布に基づくHMM(multi−space probability distribution HMM:MSD−HMM)を適用し、ピッチパラメータとスペクトルパラメータを結合した特徴パラメータを用いて、ピッチとスペクトルを統一的にモデル化する手法がある。これは、音韻ごとのF0値の時間変化や継続長を、HMMのような統計モデルで学習したモデルを用いて、このモデルから尤もらしいF0値時系列を生成する手法である。詳細は、非特許文献1に記載されている。
ここで、非特許文献1、2に記載されているモーラとは、音韻論上、一定の時間的長さをもった音の文節単位である。例えば、「チョコレート」であれば、「チョ」「コ」「レ」「ー」「ト」がそれぞれモーラとなる。
(1)0型のアクセント句:先頭のモーラのF0値が相対的に低く、2モーラ目以降のモーラのF0値が相対的に高い、つまり、アクセント核を含まないアクセント句。
(2)1型のアクセント句:先頭のモーラのF0値が相対的に高く、2モーラ目以降のモーラのF0値が相対的に低い、つまり1番目のモーラがアクセント核に該当するアクセント句。
(3)n型のアクセント句(nは2以上の整数):先頭のモーラのF0値が相対的に低く、2モーラ目から第nモーラ目までのF0値が相対的に高く、第n+1モーラ目以降が相対的に低い、つまり先頭からn番目のモーラがアクセント核に該当するアクセント句。
また、従来技術3として、実音声から抽出したF0値時系列を大量に収集し、生成したい合成音声を構文的に類似したF0値時系列を探索し用いる。事例に基づくテンプレートを用いる手法もある。詳細は特許文献1に記載されている。
これらの手法はいずれも、ある程度自然な音声を合成することに成功している。
電子情報通信学会論文誌D-IIl.J38-D-II.7July,2000,pp1600-1609"多空間確率分布HMMによるピッチパターン生成" Journal of the Acoustical Society (E)Vol.5,No.4(1984)"Analysis of voice fundamental frequency contours for declarative sentences of Japanese" 浅野、松岡、高木、小原"多段解析法による形態素解析を用いた音声合成用読韻律情報設定法とその単語辞書構成"、自然言語処理Vol6,No.2,Jan,1999 特許第3420964号
従来技術1はHMMからF0値時系列を合成する手法においては、F0値時系列を音韻ごとに学習し、合成する。このような場合、新たな口調に似せた音声を生成するためには、音韻ごとの平均F0値やその微分成分、場合によって、二階微分成分をモデルパラメータとして学習する必要があるため、モデルパラメータの数が増加する。このため、統計的に学習する際に必要となる学習データを膨大に収集する必要があり、コストが大きくなる問題がある。
次に第2の問題点を説明する。従来技術2のように、生成過程モデルを用いる場合、漸次的に下降する成分の存在を前提としている。しかし、例えば、相手に何かを問いかける口調では、音声のF0値は語尾にかけて上昇したり、また強い調子で話す場合は、特に下降せずそのままであったりして、必ずしも漸次的に下降するとは限らない。即ち、生成過程モデルは読み上げ音声句口調とは異なる口調に似せて、合成音声を生成する際にはモデルの構造が音声の特徴とミスマッチを起こし、正しい表現ができないことがあるという問題がある。よって第2の問題点として、読み上げ音声句口調とは異なる口調で合成音声を生成する際には、正しい表現ができないという問題が挙げられる。
まず、第1の問題点が解決されたことについて説明する。アクセント句毎に予め決められた複数の韻律イベント毎の位置パラメータ、大きさパラメータ、継続時間パラメータと、アクセント句毎の初期F0値だけでアクセント句のF0値時系列を表現する。例えば「神奈川県では」というアクセント句では上記の構成の場合、6個の韻律イベントが生成される。このため、3×6+1=19個のパラメータで1つのアクセント句のF0値時系列を表現することが出来る。
−A(m−t)σ2exp(−σ(m−t)) (3)
韻律イベントパラメータデータベースの構成をこのような決定木にすれば、どのような状況の韻律イベントに対しても、的確な韻律イベントパラメータを生成することが出来る。
Claims (10)
- アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成装置であって、
アクセント型と、モーラ毎の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント部と、
韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成するF0値時系列部と、
を有することを特徴とするF0値時系列生成装置。 - 請求項1記載のF0値時系列生成装置であって、
上記韻律イベント部は、
上記韻律イベントパラメータテーブルに代えて、
韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成部と、
口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加部と、
韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータを生成する韻律イベントパラメータ生成部と、
を有するものであることを特徴とするF0値時系列生成装置。 - 請求項2記載のF0値時系列生成装置であって、
上記複数の韻律イベント及び口調別韻律イベントは上昇、下降、なだらかな下降、盛り上がり、であることを特徴とするF0値時系列生成装置。 - 請求項1〜3何れかに記載のF0値時系列生成装置であって、
上記F0値時系列部は、
韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるF0値時系列のデルタ関数として生成するデルタ関数生成部と、
初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める初期F0値生成部と、
デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成するF0値時系列生成部と、を有することを特徴とするF0値時系列生成装置。 - 請求項2〜5に何れかに記載のF0値時系列生成装置であって、
上記韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ(以下、正規化韻律イベントパラメータという)が格納されており、
上記韻律イベントパラメータ生成部が生成した正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換部を有することを特徴とするF0値時系列生成装置。 - アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成方法であって、
韻律イベント手段が、アクセント型と、モーラ型の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント過程と、
F0値時系列手段が、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成するF0値時系列過程と、
を有することを特徴とするF0値時系列生成方法。 - 請求項7記載のF0値時系列生成方法であって、
上記韻律イベント過程は、
韻律イベント生成手段が、
上記韻律イベントパラメータテーブルに代えて、
韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成過程と、
口調別韻律イベント追加手段が、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加過程と、
韻律イベントパラメータ生成手段が、正規化された韻律イベントパラメータ(以下、正規化韻律イベントパラメータという)が格納された韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に正規化韻律イベントパラメータを生成する韻律イベントパラメータ生成過程と、
韻律イベントパラメータ変換手段が、上記韻律イベントパラメータ生成過程で生成された正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換過程と、を有し、
上記F0値時系列過程は、
デルタ関数生成手段が、韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるF0値時系列のデルタ関数として生成するデルタ関数生成過程と、
初期F0値生成手段が、初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める初期F0値生成過程と、
F0値時系列生成手段が、デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成するF0値時系列生成過程と、を有することを特徴とするF0値時系列生成方法。 - 請求項1〜6何れかに記載のF0値時系列生成装置の各処理をコンピュータに実行させるためのF0値時系列生成プログラム。
- 請求項9記載のF0値時系列生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007027547A JP4787769B2 (ja) | 2007-02-07 | 2007-02-07 | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007027547A JP4787769B2 (ja) | 2007-02-07 | 2007-02-07 | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008191525A true JP2008191525A (ja) | 2008-08-21 |
JP4787769B2 JP4787769B2 (ja) | 2011-10-05 |
Family
ID=39751667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007027547A Active JP4787769B2 (ja) | 2007-02-07 | 2007-02-07 | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4787769B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015025788A1 (ja) * | 2013-08-23 | 2015-02-26 | 独立行政法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 |
US9830904B2 (en) | 2013-12-20 | 2017-11-28 | Kabushiki Kaisha Toshiba | Text-to-speech device, text-to-speech method, and computer program product |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01316800A (ja) * | 1988-06-17 | 1989-12-21 | Hitachi Ltd | 音声規則合成方式 |
JPH05173590A (ja) * | 1991-12-26 | 1993-07-13 | Oki Electric Ind Co Ltd | 基本周波数パタン生成方法 |
JP2003330482A (ja) * | 2002-05-14 | 2003-11-19 | Toshiba Corp | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム |
-
2007
- 2007-02-07 JP JP2007027547A patent/JP4787769B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01316800A (ja) * | 1988-06-17 | 1989-12-21 | Hitachi Ltd | 音声規則合成方式 |
JPH05173590A (ja) * | 1991-12-26 | 1993-07-13 | Oki Electric Ind Co Ltd | 基本周波数パタン生成方法 |
JP2003330482A (ja) * | 2002-05-14 | 2003-11-19 | Toshiba Corp | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015025788A1 (ja) * | 2013-08-23 | 2015-02-26 | 独立行政法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 |
US9830904B2 (en) | 2013-12-20 | 2017-11-28 | Kabushiki Kaisha Toshiba | Text-to-speech device, text-to-speech method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
JP4787769B2 (ja) | 2011-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7603278B2 (en) | Segment set creating method and apparatus | |
JP5457706B2 (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
JP2012141354A (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP6121273B2 (ja) | 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム | |
JP5726822B2 (ja) | 音声合成装置、方法及びプログラム | |
JP4787769B2 (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
WO2016103652A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
Ni et al. | Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin | |
JP2016142936A (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP5875504B2 (ja) | はなし言葉分析装置とその方法とプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2014095851A (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6002598B2 (ja) | 強調位置予測装置、その方法、およびプログラム | |
JP2004054063A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JP6036681B2 (ja) | 音声合成システム、音声合成方法、および音声合成プログラム | |
JP2005234418A (ja) | F0輪郭を合成する方法及びコンピュータプログラム | |
CN117672179A (zh) | 一种支持智能处理的语音合成方法及系统 | |
JP2009237564A (ja) | 音声合成用データの選択方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4787769 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140722 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |