JP6449331B2 - パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 - Google Patents
パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 Download PDFInfo
- Publication number
- JP6449331B2 JP6449331B2 JP2016567717A JP2016567717A JP6449331B2 JP 6449331 B2 JP6449331 B2 JP 6449331B2 JP 2016567717 A JP2016567717 A JP 2016567717A JP 2016567717 A JP2016567717 A JP 2016567717A JP 6449331 B2 JP6449331 B2 JP 6449331B2
- Authority
- JP
- Japan
- Prior art keywords
- glottal
- glottal pulse
- database
- pulse
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005284 excitation Effects 0.000 title claims description 65
- 238000000034 method Methods 0.000 title claims description 42
- 230000015572 biosynthetic process Effects 0.000 title description 13
- 238000003786 synthesis reaction Methods 0.000 title description 10
- 239000013598 vector Substances 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims 1
- 238000001308 synthesis method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 15
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Description
Claims (28)
- パラメトリックモデルを形成する方法であって、
a.多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
b.声門パルスの重心を決定する為に声門パルスデータベースに記憶された複数の声門 パルスを多数のクラスタにクラスタ化するステップと、
c.関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
d.前記ベクトルデータベースの固有ベクトルを決定するステップと、
e.前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
を含む方法。 - 前記声門パルスの数が2である、請求項1に記載の方法。
- 請求項1の前記ステップ(a)が、
a.前記声門パルスの数を対応するサブバンド成分に分解するステップと、
b.各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
c.前記サブバンド距離メトリックを使用して前記声門パルス距離メトリックを数学的に算出するステップと
を更に含む、請求項1に記載の方法。 - 請求項3の前記ステップ(c)の算出は、数学的方程式
- 前記クラスタの数が256である、請求項1に記載の方法。
- 請求項1の前記ステップ(b)のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたk平均計算を使用して実施される、請求項1に記載の方法。
- 前記修正されたk平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項6に記載の方法。
- 前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項7に記載の方法。
- 請求項1の前記ステップ(d)の固有ベクトルの決定が主成分分析を使用して実施される、請求項1に記載の方法。
- 請求項1の前記ステップ(e)は、
a.前記固有ベクトルを決定するステップと、
b.前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
c.前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
d.前記固有ベクトルと関連付けた固有声門パルスとして前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
を更に含む、請求項1に記載の方法。 - 音声合成に使用する前記形成されたパラメトリックモデルを学習するステップを更に含む、請求項1に記載の方法。
- 前記学習は、
a.学習テキストコーパスを定義するステップと、
b.音声タレントの話す前記学習テキストを録音することにより音声データを得るステップと、
c.前記学習テキストをコンテキスト依存音素ラベルに変換するステップと、
d.前記音素ラベルを使用して前記音声データの複数のスペクトル特性を決定するステップと、
e.前記音声データの基本周波数を予測するステップと、
f.前記スペクトル特性、前記基本周波数及びオーディオストリームの継続時間を使用して前記オーディオストリーム上でパラメータの予測を実施するステップと
を更に含む、請求項11に記載の方法。 - 入力テキストを使用して音声を合成する方法であって、
a.前記入力テキストをコンテキスト依存の音素ラベルに変換するステップと、
b.基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、前記ステップ(a)で作成された前記音素ラベルを処理するステップと、
c.固有声門パルス及び予測した基本周波数値、前記音素ラベルのスペクトル特性及び前記合成された音声持続時間のうちの1つ又は1つ以上を使用して励起信号を作成するステップと、
d.合成音声の出力を作成する為にフィルタを使用して、前記励起信号と前記音素ラベルの前記スペクトル特性とを組合せるステップと
を含み、
前記励起信号を作成するステップは、
e.励起の信号領域をセグメントの種類に分類するステップと、
f.各種類の前記励起信号を作成するステップと
を更に含み、
前記セグメントの種類が有声音、無声音及び休止のうちの1つ又は1つ以上を含み、
g.モデルから前記予測した基本周波数値を使用して、励起信号のピッチ境界を示す声門境界を作成するステップと、
h.重畳加算法を使用して各声門境界から始まる声門パルスを加算するステップと、
i.i.前記声門パルスが対応するピッチ周期未満の長さである場合、左シフトより前の前記ピッチ周期の長さまで前記声門パルスはゼロ伸張する、前記声門境界において一定に増加するシフト量及び前記声門パルスに対して同量の循環左シフトで前記重畳加算法を通じて形成された多数の異なる励起を作成するステップと、
ii.前記異なる励起信号数の算術平均を決定するステップと、
iii.前記有声音セグメントの最終励起信号の前記算術平均を宣言するステップと
を更に含む、前記励起信号において境界効果を回避するステップと
を含む有声音信号に前記励起信号が作成される方法。 - 入力テキストを使用して音声を合成する方法であって、
a.前記入力テキストをコンテキスト依存音素ラベルに変換するステップと、
b.基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性 を予測する為に学習したパラメトリックモデルを使用して、前記ステップ(a)で作成さ れた前記音素ラベルを処理するステップと、
c.固有声門パルス及び前記予測した基本周波数値、前記音素ラベルのスペクトル特性 及び前記合成された音声持続時間のうちの1つ又は1つ以上を使用して励起信号を作成す るステップと、
d.合成音声の出力を作成する為にフィルタを使用して、前記励起信号と前記音素ラベ ルの前記スペクトル特性とを組合せるステップと
を含み、
前記固有声門パルスは声門パルスデータベースから識別され、前記識別は
e.多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
f.声門パルスの重心を決定する為に前記声門パルスデータベースを多数のクラスタにクラスタ化するステップと、
g.関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
h.前記ベクトルデータベースの固有ベクトルを決定するステップと、
i.前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
を含む方法。 - 前記声門パルスの数が2である、請求項14に記載の方法。
- 請求項14の前記ステップ(e)は、
a.前記声門パルスの数を対応するサブバンド成分に分解するステップと、
b.各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
c.前記サブバンド距離メトリックを使用して前記距離メトリックを数学的に算出するステップと
を更に含む、請求項14に記載の方法。 - 請求項16の前記ステップ(c)の算出は、数学的方程式
- 前記クラスタの数が256である、請求項14に記載の方法。
- 請求項14の前記ステップ(f)のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたk平均計算を使用して実施される、請求項14に記載の方法。
- 前記修正されたk平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項19に記載の方法。
- 前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項20に記載の方法。
- 請求項14の前記ステップ(h)の固有ベクトルの前記決定が主成分分析を使用して実施される、請求項14に記載の方法。
- 請求項14の前記ステップ(i)は、
a.前記固有ベクトルを決定するステップと、
b.前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
c.前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
d.前記固有ベクトルと関連付けた固有声門パルスとして、前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
を更に含む、請求項14に記載の方法。 - 音声信号から前記声門パルスデータベースを構成することを更に含み、前記構成は
a.プレフィルタリングされた信号を得る為に前記音声信号に対してプレフィルタリングを実施するステップと、
b.逆フィルタリングパラメータを得る為に前記プレフィルタリングされた信号を分析するステップと、
c.前記逆フィルタリングパラメータを使用して前記音声信号の逆フィルタリングを実施するステップと、
d.前記逆フィルタリングされた音声信号を使用して集積された線形予測残差信号を算出するステップと、
e.前記音声信号において声門セグメントの境界を識別するステップと、
f.前記音声信号から前記識別された声門セグメントの境界を使用して前記集積された線形予測残差信号を声門パルスにセグメント化するステップと、
g.前記声門パルスの正規化を実施するステップと、
h.前記音声信号に得られた全ての正規化された声門パルスを収集することにより、前記声門パルスデータベースを形成するステップと
を含む、請求項14に記載の方法。 - 請求項24の前記ステップ(b)の分析が線形予測を使用して実施される、請求項24に記載の方法。
- 請求項24の前記ステップ(b)における前記逆フィルタリングパラメータが線形予測係数を含む、請求項24に記載の方法。
- 請求項24の前記ステップ(e)の識別がゼロ周波数フィルタリング技術を使用して実施される、請求項24に記載の方法。
- 請求項24の前記ステップ(a)のプレフィルタリングがプレエンファシスを含む、請求項24に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2014/039722 WO2015183254A1 (en) | 2014-05-28 | 2014-05-28 | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017520016A JP2017520016A (ja) | 2017-07-20 |
JP2017520016A5 JP2017520016A5 (ja) | 2018-08-16 |
JP6449331B2 true JP6449331B2 (ja) | 2019-01-09 |
Family
ID=54699420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016567717A Active JP6449331B2 (ja) | 2014-05-28 | 2014-05-28 | パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP3149727B1 (ja) |
JP (1) | JP6449331B2 (ja) |
AU (2) | AU2014395554B2 (ja) |
BR (1) | BR112016027537B1 (ja) |
CA (2) | CA3178027A1 (ja) |
NZ (1) | NZ725925A (ja) |
WO (1) | WO2015183254A1 (ja) |
ZA (1) | ZA201607696B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10014007B2 (en) | 2014-05-28 | 2018-07-03 | Interactive Intelligence, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US10255903B2 (en) | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
CA3030133C (en) | 2016-06-02 | 2022-08-09 | Genesys Telecommunications Laboratories, Inc. | Technologies for authenticating a speaker using voice biometrics |
JP2018040838A (ja) * | 2016-09-05 | 2018-03-15 | 国立研究開発法人情報通信研究機構 | 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5400434A (en) * | 1990-09-04 | 1995-03-21 | Matsushita Electric Industrial Co., Ltd. | Voice source for synthetic speech system |
US6795807B1 (en) * | 1999-08-17 | 2004-09-21 | David R. Baraff | Method and means for creating prosody in speech regeneration for laryngectomees |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
EP2279507A4 (en) * | 2008-05-30 | 2013-01-23 | Nokia Corp | METHOD, DEVICE AND COMPUTER PROGRAM PRODUCT FOR IMPROVED LANGUAGE SYNTHESIS |
JP5075865B2 (ja) * | 2009-03-25 | 2012-11-21 | 株式会社東芝 | 音声処理装置、方法、及びプログラム |
DK2242045T3 (da) * | 2009-04-16 | 2012-09-24 | Univ Mons | Talesyntese og kodningsfremgangsmåder |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US8744854B1 (en) * | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
-
2014
- 2014-05-28 JP JP2016567717A patent/JP6449331B2/ja active Active
- 2014-05-28 WO PCT/US2014/039722 patent/WO2015183254A1/en active Application Filing
- 2014-05-28 AU AU2014395554A patent/AU2014395554B2/en active Active
- 2014-05-28 EP EP14893138.9A patent/EP3149727B1/en active Active
- 2014-05-28 NZ NZ725925A patent/NZ725925A/en unknown
- 2014-05-28 BR BR112016027537-3A patent/BR112016027537B1/pt active IP Right Grant
- 2014-05-28 CA CA3178027A patent/CA3178027A1/en active Pending
- 2014-05-28 CA CA2947957A patent/CA2947957C/en active Active
-
2016
- 2016-11-08 ZA ZA2016/07696A patent/ZA201607696B/en unknown
-
2020
- 2020-09-03 AU AU2020227065A patent/AU2020227065B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2020227065A1 (en) | 2020-09-24 |
AU2014395554B2 (en) | 2020-09-24 |
CA3178027A1 (en) | 2015-12-03 |
EP3149727A4 (en) | 2018-01-24 |
EP3149727A1 (en) | 2017-04-05 |
JP2017520016A (ja) | 2017-07-20 |
NZ725925A (en) | 2020-04-24 |
AU2014395554A1 (en) | 2016-11-24 |
CA2947957A1 (en) | 2015-12-03 |
BR112016027537A2 (ja) | 2017-08-15 |
BR112016027537B1 (pt) | 2022-05-10 |
WO2015183254A1 (en) | 2015-12-03 |
EP3149727B1 (en) | 2021-01-27 |
CA2947957C (en) | 2023-01-03 |
ZA201607696B (en) | 2019-03-27 |
AU2020227065B2 (en) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621969B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
AU2020227065B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
Le Cornu et al. | Generating intelligible audio speech from visual speech | |
US10014007B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
CN109979428B (zh) | 音频生成方法和装置、存储介质、电子设备 | |
WO2019163848A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Khan et al. | Quranic reciter recognition: a machine learning approach | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
JP2017520016A5 (ja) | パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP5375612B2 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
Koniaris et al. | Selecting static and dynamic features using an advanced auditory model for speech recognition | |
JP5660437B2 (ja) | 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム | |
Swathy et al. | Review on feature extraction and classification techniques in speaker recognition | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
Lugger et al. | Extracting voice quality contours using discrete hidden Markov models | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
Alam et al. | Response of different window methods in speech recognition by using dynamic programming | |
Sulír et al. | The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model | |
KR101047668B1 (ko) | 선율조절 방법 및 그 장치 | |
Apte | Innovative wavelet based speech model using optimal mother wavelet generated from pitch synchronous LPC trajectory | |
JPH03120434A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180201 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180429 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20180627 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20180627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6449331 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |