JP2013057735A - 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 - Google Patents
音声合成用の隠れマルコフモデル学習装置及び音声合成装置 Download PDFInfo
- Publication number
- JP2013057735A JP2013057735A JP2011194907A JP2011194907A JP2013057735A JP 2013057735 A JP2013057735 A JP 2013057735A JP 2011194907 A JP2011194907 A JP 2011194907A JP 2011194907 A JP2011194907 A JP 2011194907A JP 2013057735 A JP2013057735 A JP 2013057735A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- learning
- hmm
- hidden markov
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】学習装置110は,音声データベース60と,音声の各フレームから基本周波数(F0)を抽出するF0抽出処理部62と,各フレームからMFCCを算出するMFCC算出部64,MFCCの算出のための時間領域のサンプリングと双対をなす,周波数領域のサンプリングを行なうことにより,各フレームについてMFCCを所定の角度量に変換するMFCC変換部120と,各フレームについて求められたF0とMFCCとを学習用データ122としてHMMの学習とHMMのいずれかを選択するための決定木の学習とを行なうHMM学習部124とを含む。
【選択図】図2
Description
本実施の形態では,合成音声のひずみを軽減するために,音声信号の帯域幅を広げることなくMFCCパラメータを整形する,帯域内整形を用いる。そのため,本実施の形態では,デュアルサンプリングを用いる。本明細書でのデュアルサンプリングは,時間領域と周波数領域との双方でのサンプリングを意味する。このデュアルサンプリングに基づき,音声パラメータのデュアル量子化を行なう。さらに,MFCCパラメータに対し,アンチ・エイリアシング・フィルタリング及び平滑化による帯域内波形整形(帯域を増加させない)を行なう。
MFCCを角度量に変換する。
MFCCを残りの帯域分に拡張し,最尤基準によってデコードを行なう。この作業にはHTSツールキット(参考文献1)を用いるが,Λkiの代わりにγe×Θkiを用いることにより帯域内整形のために帯域を1.4倍に拡張する。
アンチ・エイリアシングと平滑化とを行なう。GV(^Θkjで示す。ただしk=0,…,K,J=0,…,J。Jは発話中のフレーム数。)まずΘkjをαkjに変換する。αkj>wcであればαkj=wcとしてエイリアシングの削減を図る。その後,αkjを{αn,n=0,…,N}中のいずれかのαnkjに量子化する。この量子化には,最小誤差基準を用いる。さらに,αnkjにγcを乗算することにより帯域を1.2倍して平滑化し,その結果を再度量子化する。最後に,αnkjをΛnkjにマッピングすることによりMFCCを計算し直す。このマッピングが1対多の場合には,本実施の形態では写像のうちの任意の1つをランダムに選択する。この結果,音声合成のためのMFCCパラメータとしてΛkj,k=0,…,K及びj=0,…,Jが得られる。
HMM学習用データ記憶部122に記憶される学習後のHMMについて図3を参照して説明する。本実施の形態では,HMMはコンテキスト依存の3状態HMMである。例えば中間の音素として/a/を含むHMM140,142及び144等を考える。これらは,2番目の音素160として/a/を持つが,先頭の音素としてそれぞれc11,c21及びc31を持ち,3番目の音素としてそれぞれc12,c22及びc32を持つものとする。これ以外にも同様に2番目の音素に/a/を持つ3状態HMMは多数存在し得るが,ここでは図の理解を容易にするためにこの3つのHMM140,142及び144のみを示す。
図2に示した音声合成システム100は以下のように動作する。音声データベース60には,音声データベースとして多数の発話データが準備される。これらの発話データはいずれもフレーム化され,音素ラベルが付されている。F0抽出処理部62は,音声データベース60内の各フレームからF0を抽出して出力する。MFCC算出部64は各フレームからMFCCパラメータΛkiを算出しMFCC変換部120に与える。MFCC変換部120は,上記したとおりMFCCの集合からΛkmax及びΛkminを見つけ,Λkiの全てをΘkiにマッピングする。
以上のように本実施の形態によれば,時間及び周波数領域におけるデュアルサンプリング点でのサンプルはコヒーレントである。いずれか一方に何らかの変化があれば,他方にもそれに対応した変化が生ずる。これは,共鳴曲線と平衡条件とによる。すなわち,ζの値は,入力λと出力λとの値が互いに等しくなるように選ばれる。この結果,デュアルサンプリングによって,音声パラメータを時間及び周波数領域の双方で量子化するための基本的枠組が得られ,双方の領域で音声パラメータを処理することが可能になる。
少数の女性話者によるATR503データセットを用い,上記実施の形態に係る方法を従来の方法と比較する実験を行なった。結果を図4に示す。この図4は,MFCCの応答を1より大きなフレームに拡大したときのMFCCの帯域内整形の結果を示す。この結果は,本発明におけるリーフノード数が従来法より全般的に少なく,音響的特徴の多様性が縮小されていることを示している。このことは,上記実施の形態に係る方法により,話者に固有の特徴と普遍的な特徴が良好に分離された結果,HMM学習に際して話者に固有の特徴が被る平均化が改善されたことを意味する。
[1]K.Tokuda,H.Zen,J.Yamagishi,T.Masuko,S.Sako,A.B.Black,T.Nose,“The HMM−Based Speech Synthesis System(HTS) Version 2.1.”[Online]。URL:http://hts.sp.nitech.ac.jp/.
50,110 学習装置
52,112 HMM記憶部
54 入力テキスト
56,116 音声合成装置
60 音声データベース
62 F0抽出処理部
64 MFCC算出部
66,122 HMM学習用データ記憶部
68,124 HMM学習部
80 テキスト解析部
82 音素ラベル列
84,134 パラメータ生成部
86 音源生成部
88 合成フィルタ
136 MFCC逆変換部
Claims (3)
- 各々に音素ラベルが付された複数の音声単位を含む音声データベースを記憶するための音声データベース記憶手段と,
前記複数の音声単位の各々から基本周波数を抽出し,基本周波数情報を出力するための基本周波数抽出手段と,
前記複数の音声単位の各々について,所定の音響特徴量を算出するための音響特徴量算出手段と,
前記所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす,周波数領域のサンプリングを行なうことにより,前記複数の音声単位の各々について,前記所定の音響特徴量を角度量に変換するための変換手段と,
前記音声データベースに含まれる前記複数の音声単位について,前記基本周波数抽出手段の出力する基本周波数情報,及び,前記変換手段の出力する前記角度量に,当該音声単位のラベルが付された学習用データを用い,別々の音素コンテキストに対する隠れマルコフモデルの学習と,音素ラベル列から前記隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と,
前記学習手段により学習が行なわれた前記隠れマルコフモデルと前記決定木とを記憶するための記憶手段とを含む,音声合成用の隠れマルコフモデルの学習装置。 - 前記所定の音響特徴量はメル周波数ケプストラム係数を含み,
前記音響特徴量算出手段は,前記複数の音声単位の各々について,所定次元までのメル周波数ケプストラム係数を算出するための手段を含む,請求項1に記載の,音声合成用の隠れマルコフモデル学習装置。 - 請求項1又は請求項2に記載の,音声合成用の隠れマルコフモデル学習装置により学習が行なわれた隠れマルコフモデルを用い,入力されるテキストに対する音声を合成するための音声合成装置であって,
前記テキストに対しテキスト解析を行なうことにより,音素ラベル列を出力するためのテキスト解析手段と,
前記テキスト解析手段により出力される音素ラベル列を用い,各音素ラベルについて,前記決定木を用いて隠れマルコフモデルを選択し,当該隠れマルコフモデルに基づいて,基本周波数情報と前記角度量とを生成するためのパラメータ生成手段と,
前記パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段と,
前記パラメータ生成手段により生成された前記角度量に対し,前記変換手段による変換の逆変換に相当する変換を行なって前記所定の音響特徴量を算出するための逆変換手段と,
前記逆変換手段により変換された音響特徴量に基づくフィルタ特性により,前記音源生成手段により生成された前記音源信号を変調するための合成フィルタとを含む,音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011194907A JP5717097B2 (ja) | 2011-09-07 | 2011-09-07 | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011194907A JP5717097B2 (ja) | 2011-09-07 | 2011-09-07 | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013057735A true JP2013057735A (ja) | 2013-03-28 |
JP5717097B2 JP5717097B2 (ja) | 2015-05-13 |
Family
ID=48133682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011194907A Active JP5717097B2 (ja) | 2011-09-07 | 2011-09-07 | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5717097B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194781A (ja) * | 2015-08-06 | 2015-11-05 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
JP2017040747A (ja) * | 2015-08-19 | 2017-02-23 | 日本電信電話株式会社 | 音声パラメータ生成装置、音声合成装置、音声パラメータ生成方法、音声合成方法、プログラム |
CN107924677A (zh) * | 2015-06-11 | 2018-04-17 | 交互智能集团有限公司 | 用于异常值识别以移除语音合成中的不良对准的系统和方法 |
CN109300339A (zh) * | 2018-11-19 | 2019-02-01 | 王泓懿 | 一种英语口语的练习方法及系统 |
CN109671440A (zh) * | 2019-01-09 | 2019-04-23 | 四川虹微技术有限公司 | 一种模拟音频失真方法、装置、服务器及存储介质 |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
US10529314B2 (en) | 2014-09-19 | 2020-01-07 | Kabushiki Kaisha Toshiba | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection |
CN112420070A (zh) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108346423B (zh) * | 2017-01-23 | 2021-08-20 | 北京搜狗科技发展有限公司 | 语音合成模型的处理方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010056347A1 (en) * | 1999-11-02 | 2001-12-27 | International Business Machines Corporation | Feature-domain concatenative speech synthesis |
JP2002539482A (ja) * | 1999-03-08 | 2002-11-19 | シーメンス アクチエンゲゼルシヤフト | 見本音声を決定するための方法及び装置 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2007286511A (ja) * | 2006-04-19 | 2007-11-01 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
JP2011028131A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
-
2011
- 2011-09-07 JP JP2011194907A patent/JP5717097B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002539482A (ja) * | 1999-03-08 | 2002-11-19 | シーメンス アクチエンゲゼルシヤフト | 見本音声を決定するための方法及び装置 |
US20010056347A1 (en) * | 1999-11-02 | 2001-12-27 | International Business Machines Corporation | Feature-domain concatenative speech synthesis |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2007286511A (ja) * | 2006-04-19 | 2007-11-01 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
JP2011028131A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
Non-Patent Citations (1)
Title |
---|
KEIICHIRO OURA: ""List of modifications made in HTS (for version 2.2)"", HMM-BASED SPEECH SYNTHESIS SYSTEM (HTS) - PUKIWIKI [ONLINE], JPN6015007384, July 2011 (2011-07-01), pages 1 - 15, ISSN: 0003014842 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10529314B2 (en) | 2014-09-19 | 2020-01-07 | Kabushiki Kaisha Toshiba | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection |
CN107924677A (zh) * | 2015-06-11 | 2018-04-17 | 交互智能集团有限公司 | 用于异常值识别以移除语音合成中的不良对准的系统和方法 |
JP2015194781A (ja) * | 2015-08-06 | 2015-11-05 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
JP2017040747A (ja) * | 2015-08-19 | 2017-02-23 | 日本電信電話株式会社 | 音声パラメータ生成装置、音声合成装置、音声パラメータ生成方法、音声合成方法、プログラム |
CN109300339A (zh) * | 2018-11-19 | 2019-02-01 | 王泓懿 | 一种英语口语的练习方法及系统 |
CN109671440A (zh) * | 2019-01-09 | 2019-04-23 | 四川虹微技术有限公司 | 一种模拟音频失真方法、装置、服务器及存储介质 |
CN109671440B (zh) * | 2019-01-09 | 2020-08-14 | 四川虹微技术有限公司 | 一种模拟音频失真方法、装置、服务器及存储介质 |
CN112420070A (zh) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5717097B2 (ja) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5717097B2 (ja) | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 | |
KR102158743B1 (ko) | 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 | |
Erro et al. | Voice conversion based on weighted frequency warping | |
US8234110B2 (en) | Voice conversion method and system | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
JPH10307599A (ja) | スプラインを使用する波形補間音声コーディング | |
JPWO2009022454A1 (ja) | 音声分離装置、音声合成装置および声質変換装置 | |
WO2005117517A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
US11393452B2 (en) | Device for learning speech conversion, and device, method, and program for converting speech | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
GB2546981A (en) | Noise compensation in speaker-adaptive systems | |
Gu et al. | Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension. | |
JP2019008206A (ja) | 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
JP4382808B2 (ja) | 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JPH10319996A (ja) | 雑音の効率的分解と波形補間における周期信号波形 | |
Kornagel | Techniques for artificial bandwidth extension of telephone speech | |
Nercessian | Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
Giacobello et al. | Stable 1-norm error minimization based linear predictors for speech modeling | |
JP2017520016A (ja) | パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法 | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JPH08305396A (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
Akhter et al. | An analysis of performance evaluation metrics for voice conversion models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140717 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5717097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |