JP4223416B2 - F0輪郭を合成する方法及びコンピュータプログラム - Google Patents
F0輪郭を合成する方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4223416B2 JP4223416B2 JP2004045855A JP2004045855A JP4223416B2 JP 4223416 B2 JP4223416 B2 JP 4223416B2 JP 2004045855 A JP2004045855 A JP 2004045855A JP 2004045855 A JP2004045855 A JP 2004045855A JP 4223416 B2 JP4223416 B2 JP 4223416B2
- Authority
- JP
- Japan
- Prior art keywords
- contour
- computer
- valley
- parameters
- synthesizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 20
- 230000002194 synthesizing effect Effects 0.000 title claims description 20
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000010801 machine learning Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013016 damping Methods 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 description 22
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000002474 experimental method Methods 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 230000008447 perception Effects 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000630 rising effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 3
- 101100495769 Caenorhabditis elegans che-1 gene Proteins 0.000 description 2
- 101100512787 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mei2 gene Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Description
この発明は中国語の声調及びイントネーションの表示における、ピッチターゲットの役割に焦点をあてたものである。中国語の声調及びイントネーションを表すのにピッチターゲットで十分であるか否かを調べるために、ピッチターゲットを特に時間変化に関するF0の山及び谷として測定した。
2.1.音声試料
ここで用いられた音声データは、72の中国語文を含み、そのほとんどすべてが非特許文献2から採用されたものである。これらの文を6個のグループに分けた。各々は12の基本文を含み、これをさらに3つのタイプに細分した。各タイプは4つの文を含み、それらは音節数が等しくさらに全文に対し同一の声調のマッピングで特徴付けられる同じ文法構造となっており、これは表1に示すとおりである。表においてT1、T2、T3、T4はそれぞれ、第1声、第2声、第3声及び第4声を示す。
<表1>
この応用では、関数モデルを用いて(非特許文献5を参照)、F0輪郭をパラメータの形で表す。このモデルによれば、話者の声区(発話の周波数区)はまず、いわゆるRONDOスケール(対数スケールと同様)に変換される。その後RONDO−F0輪郭を時間軸に直列に並んだ連続した山形状のパターンとして表す。F0輪郭F0(t)は以下で与えられる。
パラメータζ、λt及びλbはそれぞれともに0.237、1及び2に固定され得る。(非特許文献5を参照。)これにより、周波数ドメインに、話者に依存するが発話には依存しない次の2個のパラメータ、
[f0b,f0t]:声区の最高及び最低周波数、
が得られ、さらにRONDO−時間空間内に、発話に依存するが話者に依存しない5個のパラメータ、
n:山形状パターンの数
Δtxi:i番目の上昇/下降成分の応答時間
Δλxi:i番目の上昇/下降成分の振幅、x∈{r,f}
(tpi,λpi):i番目の山形状パターンの山(ピーク)、i=1,…n
ができる。
観察された144個のF0輪郭は最初に、非特許文献6の方法を用いて自動的に分析された。その後、F0の山と谷とを、もとの声調を考慮しながらF0輪郭を目で見て調べながらマニュアルで判断した。ある声調に対するF0の山の数は声調モデリング(非特許文献6)に従って定められた。その後、隣接する山の間の輪郭を用いて、F0の谷を決定した。モデルにより生成されたF0輪郭により、これらの発話を再合成し、STRAIGHT(非特許文献7)と呼ばれるツールを用いて知覚実験を行なった。3つの分析及び知覚実験を行なった。実験1では、F0の山及び谷に基づきF0輪郭の再合成の有効性を分析した。実験2では、F0の山及び谷の変化と声調及びイントネーションとの相互作用の相関を調査した。実験3はピッチターゲットの変化により声調及びイントネーションが変化し得ることを示す。これらの実験結果に基づき、ピッチターゲットが声調及びイントネーションを規定することについて論じる。
3.1.声調及びイントネーションパターンの再合成
実験1は、F0の山及び谷に基づきF0輪郭の再合成の有効性を調べるために行なわれた。(tvi,λvi)がi番目とi+1番目の山の間にある谷を示すこととする。山が与えられると、F0輪郭の生成のために必要な他のモデルパラメータが上述のように計算される。
<表2>
実験2では、12個のカテゴリの各々について、F0の山及び谷の分析により声調とイントネーションとの相互作用を検証した。主な結果を以下に説明する。まず、疑問文における発話のF0輪郭は、平叙文におけるそれに比べて、多少とも全体に上向きに動いた。この結果は非特許文献2及び非特許文献3の知見と一致する。同一の第1声及び第4声マッピングの発話では、そのF0の山及び谷は同一の第2声及び第3声のマッピングのものより高い声区に上昇した。図1は平叙文とマーク無しの疑問文で発話された2つの文
実験3ではピッチターゲットを体系的に変化させながら、声調及びイントネーションの知覚を調査した。図1(a)と1(b)とで示された平叙文の2つの発話をキャリア発話として用い、最終的な声調のF0の山及び谷を2つ/3つの態様で変化させた。
(1)発話は平叙文か疑問文か?
(2)最後の音節は強調されていたか、普通か、ニュートラルか?
(3)最後の音節で聴いたのはどの声調か?
実験結果を表3にまとめた。ここで、“Que”及び“Sta”はそれぞれ「疑問文」と「平叙文」を示し、“Emp”、“Nor”及び“Wea”はそれぞれ「強調」「普通」「弱いストレス」を示す。
<表3>
中国語の声調及びイントネーションパターンを研究するため、良好に設計された音声試料に対しいくつかの分析と知覚実験とを行なった。実験結果は、声調及びイントネーションパターンの規定においてピッチターゲットが重要な役割を果たすことを示した。例えば関数モデルを用いて、F0の山と谷とから正確なF0輪郭を予測することができる。この結果に基づき、観察されたF0輪郭を、それが伝える主たる言語学的及びパラ言語学的情報を失うことなく、F0の山と谷のシーケンスとして骨格化できると仮定した。以下で説明する実施例はこの思想に基づくものである。
図5はこの発明の一実施例に従った音声合成システムのブロック図である。図5を参照して、システム20は、トレーニングデータ30からF0の山及び谷のデータを抽出するF0パラメータ抽出モジュール34を含み、このデータは韻律的特徴と基になる言語学的情報との間を関連付けるために用いられる。システム20はさらに、関連付けされたパラメータの基になる言語学的情報に対する内部依存性を学習するのに用いられる機械学習モジュール36と、言語学的情報32からF0輪郭を推定し、適切な声調で中国語音声40を合成するための合成モジュール38とを含む。
システム20は以下のように動作する。動作には3局面がある。トレーニングデータ30からF0パラメータ抽出モジュール34によりF0パラメータを抽出する。F0パラメータ抽出モジュール34により抽出されたパラメータで機械学習を行なう。その後トレーニングデータ30についてF0輪郭を推定し、推定されたF0輪郭に従った声調で、言語学的情報32に基づき中国語音声を合成する。
図6及び図7は提案されたシステム及び方法を一部示す例であって、F0輪郭を基となるF0の山及び谷に骨格化する局面と、F0の山及び谷から輪郭を復元する局面とを含んでいる。
Claims (11)
- 所定の声調言語の言語学的情報から基本周波数(F0)輪郭を合成する、コンピュータにより実現される方法であって、
コンピュータが、声調基本周波数(F0)の山及び谷の時刻と周波数とを示す山及び谷パラメータの、前記声調言語における言語学的特徴に対する隠された依存性を、言語学的情報とそれに関連する発話データのF 0 輪郭とを含むトレーニングデータセットから得られる統計的な情報を用いて予測するための機械学習モデルを用いて、入力された言語学的情報に対応するF0の山及び谷パラメータを予測するステップと、
コンピュータが、前記予測されたF0の山及び谷パラメータに、予め定められる関数モデルを適用することにより、前記関数モデルによって前記F0の山及び谷パラメータに対応付けられたF0輪郭を推定するステップとを含む、F0輪郭を合成する方法。 - 前記予測するステップが、
コンピュータが、前記トレーニングデータセットの入力を受けるステップと、
コンピュータが、前記トレーニングデータセット内の前記発話データの前記F0輪郭からF0の山パラメータを抽出するステップと、
コンピュータが、前記F0輪郭と前記抽出するステップで抽出された前記F0の山パラメータとからF0の谷パラメータを推定するステップと、
コンピュータが、前記抽出するステップ及び前記F 0 の谷パラメータを推定するステップでそれぞれ抽出及び推定された前記F0の山及び谷パラメータと、前記トレーニングデータセット内の前記言語学的情報とを用いて、前記機械学習モデルがF0の山及び谷パラメータの言語学的情報に対する前記隠された依存性を予測できるように、前記機械学習モデルのパラメータを前記トレーニングデータセットを用いて統計的に算出するステップとを含む、請求項1に記載のF0輪郭を合成する方法。 - 前記F0の山パラメータを抽出するステップが、
コンピュータが、前記トレーニングデータセット内の各発話のF0輪郭を、時間軸に沿って直列に並んだ連続した山型パターンで表されるRONDO−F0輪郭に変換するステップと、
コンピュータが、前記変換するステップで得られた前記RONDO−F0輪郭内におけるF0の山の位置を特定するステップとを含み、
前記F0の谷パラメータを推定するステップが、
コンピュータが、前記変換するステップで得られた前記RONDO−F0輪郭内で、隣接する全てのF0の山の間に、先行して隣接するF0の山からの減衰割合が予め定められた定数となる時点を、F0の谷に定めるステップを含む、請求項2に記載のF0輪郭を合成する方法。 - 前記F 0 の谷に定めるステップが、
コンピュータが、前記RONDO−F0輪郭内のi番目のF0の山と次の山との間にF0の谷(tvfi,λvfi)の初期候補を見出すステップと、
コンピュータが、前記初期候補から始めて、前記F0の谷(tvfi,λvfi)が、先行して隣接するF0の山からの減衰割合が予め定められた定数となるまでtvfiを所定の時間間隔で減じることにより、前記RONDO−F0輪郭上でF0の谷を探索するステップとを含む、請求項3に記載のF0輪郭を合成する方法。 - 前記初期候補を見出すステップは、コンピュータが、(/tvi,/λvi)(以下本文中の「/」は上付きバーを示す)で表される最も低い窪みに、初期候補のF0の谷(tvfi,λvfi)を設定するステップを含む、請求項4に記載のF0輪郭を合成する方法。
- 前記探索するステップは、コンピュータが、前記初期候補(/tvi,/λvi)から始めて
λvfi−λpi≦(/λvi−λpi)×C、Cは所定の定数、または
tvfi=tpiとなるまで、所定の時間間隔でtvfiを減じることにより、前記RONDO−F0輪郭上でF0の谷を探索するステップを含む、請求項5に記載のF0輪郭を合成する方法。 - 前記定数Cが0.95に選ばれる、請求項6に記載のF0輪郭を合成する方法。
- コンピュータが、前記入力された言語学的情報と、前記生成するステップで推定された前記F0輪郭とに基づいて、音声を合成するステップをさらに含む、請求項1〜請求項8のいずれかに記載のF0輪郭を合成する方法。
- 所定の声調言語が中国語である、請求項1〜請求項9のいずれかに記載のF0輪郭を合成する方法。
- コンピュータ上で実行されると、コンピュータに請求項1〜請求項10のいずれかに記載のすべてのステップを行なわせる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004045855A JP4223416B2 (ja) | 2004-02-23 | 2004-02-23 | F0輪郭を合成する方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004045855A JP4223416B2 (ja) | 2004-02-23 | 2004-02-23 | F0輪郭を合成する方法及びコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005234418A JP2005234418A (ja) | 2005-09-02 |
JP2005234418A5 JP2005234418A5 (ja) | 2005-10-27 |
JP4223416B2 true JP4223416B2 (ja) | 2009-02-12 |
Family
ID=35017409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004045855A Expired - Lifetime JP4223416B2 (ja) | 2004-02-23 | 2004-02-23 | F0輪郭を合成する方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4223416B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053355A (zh) * | 2021-03-17 | 2021-06-29 | 平安科技(深圳)有限公司 | 佛乐的人声合成方法、装置、设备及存储介质 |
US11948550B2 (en) | 2021-05-06 | 2024-04-02 | Sanas.ai Inc. | Real-time accent conversion model |
CN113314097B (zh) * | 2021-07-30 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 语音合成方法、语音合成模型处理方法、装置和电子设备 |
-
2004
- 2004-02-23 JP JP2004045855A patent/JP4223416B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005234418A (ja) | 2005-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rao | Voice conversion by mapping the speaker-specific features using pitch synchronous approach | |
CN105593936B (zh) | 用于文本转语音性能评价的系统和方法 | |
Aryal et al. | Can voice conversion be used to reduce non-native accents? | |
Latorre et al. | New approach to the polyglot speech generation by means of an HMM-based speaker adaptable synthesizer | |
Assmann et al. | Synthesis fidelity and time-varying spectral change in vowels | |
Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
Ibrahim et al. | Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition | |
CA2483607C (en) | Syllabic nuclei extracting apparatus and program product thereof | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
Yadav et al. | Prosodic mapping using neural networks for emotion conversion in Hindi language | |
Mary et al. | Analysis and detection of mimicked speech based on prosodic features | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
Haque et al. | Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech | |
Toda et al. | Optimizing sub-cost functions for segment selection based on perceptual evaluations in concatenative speech synthesis | |
Sagisaka et al. | Generation and perception of F0 markedness for communicative speech synthesis | |
JP4223416B2 (ja) | F0輪郭を合成する方法及びコンピュータプログラム | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
Nirmal et al. | Cepstrum liftering based voice conversion using RBF and GMM | |
Oliveira | Machine Learning Approaches for Whisper to Normal Speech Conversion: A Survey | |
Sun et al. | A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model | |
Rao | Unconstrained pitch contour modification using instants of significant excitation | |
Amin et al. | Nine voices, one artist: Linguistic and acoustic analysis | |
Ahmed et al. | Voice morphing: An illusion or reality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050729 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080812 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4223416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131128 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |