JP4387822B2 - 韻律正規化システム - Google Patents
韻律正規化システム Download PDFInfo
- Publication number
- JP4387822B2 JP4387822B2 JP2004029853A JP2004029853A JP4387822B2 JP 4387822 B2 JP4387822 B2 JP 4387822B2 JP 2004029853 A JP2004029853 A JP 2004029853A JP 2004029853 A JP2004029853 A JP 2004029853A JP 4387822 B2 JP4387822 B2 JP 4387822B2
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- series data
- parameter
- data
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
入力された韻律の時系列データから、その韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
入力された韻律の時系列データの種類に応じて、変換目標となる韻律を決める目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
前記韻律変換手段により正規化された後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする。
本発明の第1の実施形態の構成図を図2〜4に示す。本実施形態は、韻律の時系列データを入力とし、目標パラメータを直接与え、韻律時系列データを直接変換して正規化する場合の構成例である。
本発明の第2の実施形態を図5および図6に示す。本実施形態は、入力として、韻律の時系列データと目標パラメータを直接入力するのではなく、それぞれ生の音声データを入力する場合である。
本発明の第3の実施形態の構成図を図7に示す。第3の実施形態は、本発明にかかる韻律正規化システムを用いた合成音声生成システムの一例である。
本発明の第4の実施形態の構成図を、図8に示す。
音声データから抽出された変換前の韻律の時系列データを入力する韻律時系列データ入力手段と、
入力された韻律の時系列データから、その韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
入力された韻律の時系列データの種類に応じて、変換目標となる韻律を決める目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
前記韻律変換手段により正規化された後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする韻律正規化システム。
前記韻律時系列データ入力手段から入力された韻律の時系列データが、
(1)ピッチの時系列データ、
(2)音声パワーの時系列データ、
(3)各発声音素の音素種別と音素長のデータ、
の少なくとも一つを含み、
前記韻律の時系列データがピッチの時系列データを含む場合、
前記代表パラメータ計算手段が、
(a)ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、
(b)ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
の少なくとも一つを含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、
前記韻律の時系列データが音声パワーの時系列データを含む場合、
前記代表パラメータ計算手段が、
音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、
前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、
前記代表パラメータ計算手段が、
各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む、付記1に記載の韻律正規化システム。
目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、
前記目標パラメータ計算手段が、(1)ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算部、(2)ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、(3)各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、(4)音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、のうち少なくとも一つを備える、付記1または2に記載の韻律正規化システム。
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、有声音のピッチの平均値に基づいて、または、有声音のピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算する、付記2または3に記載の韻律正規化システム。
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間とポーズ区間に対してそれぞれ話速を求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有する、付記2または3に記載の韻律正規化システム。
目標とする音声データを入力し、入力された目標音声データから韻律時系列データを抽出する目標韻律時系列データ抽出手段を、前記目標パラメータ計算手段の前段に備え、
前記目標韻律時系列データ抽出手段は、(1)前記目標音声データから各時刻におけるピッチの値を求める、ピッチパタン計算手段、(2)前記目標音声データから各発声音素の音素境界を検出し、音素長を求める音素長計算手段、(3)前記目標音声データから音声パワーの時系列データを求めるパワーパタン計算手段、のうち少なくとも一つを備えることを特徴とする、付記1〜5のいずれか一項に記載の韻律正規化システム。
音声データを入力し、入力音声データから韻律時系列データを抽出する入力韻律時系列データ抽出手段を、前記韻律時系列データ入力手段の前段に備え、
前記入力韻律時系列データ抽出手段は、(1)入力音声データから各時点におけるピッチの値を求めるピッチパタン計算手段、(2)入力音声データから各発声音素の音素境界を検出し、音素長を求める音素長計算手段、(3)入力音声データから音声パワーの時系列データを求めるパワーパタン計算手段、のうち少なくとも一つを備えることを特徴とする付記1〜6のいずれか一項に記載の韻律正規化システム。
テキストを入力とし、入力されたテキストの読み情報を解析する言語処理部と、
前記言語処理部から出力される読み情報に基づいて時系列韻律データを生成する韻律生成部を、前記韻律時系列データ入力手段の前段にさらに備える、付記1〜7のいずれか一項に記載の韻律正規化システム。この構成は、音声合成用の正規化された韻律データを生成することができる点で好ましい。
前記韻律変換手段が、
前記入力韻律時系列データ抽出手段へ入力される音声データを入力とし、
(1)入力された音声データのピッチを変換するピッチ変換手段、(2)入力された音声データの話速を変換する話速変換手段、(3)入力された音声データの音声のパワーを変換するパワー変換手段、のうち少なくとも一つを備え、
前記変換データ出力手段へ、変換後の音声データを出力する、付記7に記載の韻律正規化システム。
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる上記抑揚計算部が、有声音のピッチの分散の値に基づいて、または、ピッチデータの分布幅に基づいて、抑揚パラメータを計算する、付記2または3に記載の韻律正規化システム。この構成は、ピッチ抽出の乱れがある場合や、長短の文章が入り混じった場合においても、安定した抑揚の度合いの抽出とその正規化ができる点で好ましい。
前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる音量計算部が、有声音のパワーの平均値により音量パラメータを計算する、付記2または3に記載の韻律正規化システム。この構成は、部分的な強調によって、音声パワーがゆらいでいる場合でも、揺らぎの影響を軽減し、安定した正規化を行なうことができる点で好ましい。
1 韻律時系列データ入力手段
2 代表パラメータ計算手段
3 目標パラメータ入力手段
4 韻律変換手段
5 変換データ出力手段
11 データ選択部
12 韻律時系列データDB
21 声の高さ計算部
22 抑揚計算部
23 話速計算部
24 音量計算部
41 ピッチパタン変換部
42 音素長変換部
43 パワーパタン変換部
Claims (5)
- 音声データから抽出された正規化前の韻律の時系列データを入力する韻律時系列データ入力手段と、
入力された韻律の時系列データから、当該韻律の時系列データの種類に対応する代表パラメータであって、前記韻律の特徴を表す代表パラメータを計算する代表パラメータ計算手段と、
正規化の目標となる韻律を決めるために、前記代表パラメータの種類に応じた目標パラメータを入力する目標パラメータ入力手段と、
前記代表パラメータと前記目標パラメータから韻律の変化率を計算し、前記韻律時系列データを該変化率に基づいて正規化する韻律変換手段と、
正規化後の韻律時系列データを出力する変換データ出力手段とを備えることを特徴とする韻律正規化システム。 - 前記韻律時系列データ入力手段から入力される韻律の時系列データが、
(1)ピッチの時系列データ、
(2)音声パワーの時系列データ、
(3)各発声音素の音素種別と音素長のデータ、
の少なくとも一つを含み、
前記韻律の時系列データがピッチの時系列データを含む場合、
前記代表パラメータ計算手段が、
(a)ピッチの時系列データから、声の高さを表すパラメータを計算する声の高さ計算部、
(b)ピッチの時系列データから、声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
の少なくとも一つを含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力されたピッチの時系列データを変換するピッチパタン変換部を含み、
前記韻律の時系列データが音声パワーの時系列データを含む場合、
前記代表パラメータ計算手段が、
音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音声パワーの時系列データを変換するパワーパタン変換部を含み、
前記韻律の時系列データが各発声音素の音素種別と音素長のデータを含む場合、
前記代表パラメータ計算手段が、
各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部を含み、
前記韻律変換手段が、
前記韻律時系列データ入力手段から入力された音素長データを変換する話速変換部を含む、
請求項1記載の韻律正規化システム。 - 目標となる韻律の時系列データを入力とし、目標となる韻律時系列データからその韻律の特徴を表す代表パラメータを計算し、計算結果の代表パラメータを前記目標パラメータとして前記目標パラメータ入力手段へ与える目標パラメータ計算手段を、前記目標パラメータ入力手段の前段にさらに備え、
前記目標パラメータ計算手段が、
(1)ピッチの時系列データから声の高さを表すパラメータを計算する声の高さ計算
部、
(2)ピッチの時系列データから声のダイナミックレンジを表すパラメータを計算する抑揚計算部、
(3)各発声音素の音素種別と音素長のデータから、話す速さを表す話速パラメータを計算する話速計算部、
(4)音声パワーの時系列データから声の大きさを表す音量パラメータを計算する音量計算部、
のうち少なくとも一つを備える、請求項1または2に記載の韻律正規化システム。 - 前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる声の高さ計算部および抑揚計算部が、連続発生区間に含まれるピッチの平均値に基づいて、または、連続発生区間に含まれるピッチデータの分布特性に基づいて、声の高さを表すパラメータまたは声のダイナミックレンジを表すパラメータを計算する、請求項2または3に記載の韻律正規化システム。
- 前記代表パラメータ計算手段または前記目標パラメータ計算手段に含まれる話速計算部が、発声区間の話速とポーズ区間の区間長を別々に求め、それぞれの話速と区間長に応じて、話速パラメータを補正するポーズ長話速パラメータ補正部を有する、請求項2または3に記載の韻律正規化システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004029853A JP4387822B2 (ja) | 2004-02-05 | 2004-02-05 | 韻律正規化システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004029853A JP4387822B2 (ja) | 2004-02-05 | 2004-02-05 | 韻律正規化システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005221785A JP2005221785A (ja) | 2005-08-18 |
JP4387822B2 true JP4387822B2 (ja) | 2009-12-24 |
Family
ID=34997461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004029853A Expired - Fee Related JP4387822B2 (ja) | 2004-02-05 | 2004-02-05 | 韻律正規化システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4387822B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4826493B2 (ja) * | 2007-02-05 | 2011-11-30 | カシオ計算機株式会社 | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP4455610B2 (ja) | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP6446993B2 (ja) | 2014-10-20 | 2019-01-09 | ヤマハ株式会社 | 音声制御装置およびプログラム |
-
2004
- 2004-02-05 JP JP2004029853A patent/JP4387822B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005221785A (ja) | 2005-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
Liu et al. | High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin | |
JPH031200A (ja) | 規則型音声合成装置 | |
US10553240B2 (en) | Conversation evaluation device and method | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
Erro et al. | Weighted frequency warping for voice conversion. | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Přibilová et al. | Non-linear frequency scale mapping for voice conversion in text-to-speech system with cepstral description | |
JP4387822B2 (ja) | 韻律正規化システム | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JP2002525663A (ja) | ディジタル音声処理装置及び方法 | |
Bae et al. | Enhancement of Pitch Controllability using Timbre-Preserving Pitch Augmentation in FastPitch | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
Gutiérrez-Arriola et al. | A new multi-speaker formant synthesizer that applies voice conversion techniques | |
US7130799B1 (en) | Speech synthesis method | |
JP2536169B2 (ja) | 規則型音声合成装置 | |
PATIL | A wavelet based concatenation algorithm for Gujarati speech synthesis | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP3575919B2 (ja) | テキスト音声変換装置 | |
JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060404 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090929 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091001 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121009 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121009 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131009 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |