JP2007286511A - 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム - Google Patents
音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム Download PDFInfo
- Publication number
- JP2007286511A JP2007286511A JP2006115992A JP2006115992A JP2007286511A JP 2007286511 A JP2007286511 A JP 2007286511A JP 2006115992 A JP2006115992 A JP 2006115992A JP 2006115992 A JP2006115992 A JP 2006115992A JP 2007286511 A JP2007286511 A JP 2007286511A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- learning
- lsp
- hmm
- coefficient group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【解決手段】音声合成辞書を構築するにあたり、音声データベースから取り出した音声データをスペクトル分析した後、生成されたスペクトルの乱れを補正した後に、HMMに基づく学習をさせる。また、当該学習が多段階に渡る場合には、各段階において生成されたスペクトルの乱れを補正した後に、次の段階の学習に移るようにする。このように学習前又は学習中のスペクトル補正操作がなされるために、音声合成装置が参照する音声合成辞書としてより適切な音声合成辞書が構築される。
【選択図】図1
Description
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
前記LSP係数群時系列データ生成部により生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施す学習前スペクトルパラメータ補正部と、
音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
音素ラベル列と前記LSP係数群時系列データ生成部から出力されたLSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように所定の補正操作を施す音素HMM学習部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成されたLSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
ことを特徴とする。
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
ことを特徴とする。
コンピュータに、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
処理を実行させる、ことを特徴とする。
コンピュータに、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
処理を実行させる、ことを特徴とする。
図1は、実施形態1に係るスペクトルパラメータ補正機能を備えた音声合成辞書構築装置11の概要構成図である。
0<ωm、1[fm]<ωm、2[fm]<……<ωm、Nd[fm]<π
である。
第1実施形態に係る音声合成辞書構築装置11における、音素HMM学習部19の内部の具体例を、図4に示すフローチャートを参照して説明する。
ωk、Ave[S1]=ωk、Ave[S2](但し、1≦k≦Ndとする。)
のように補正し(ステップS521)、状態S2及びS3に関するLSP係数は補正せずに、補正操作を終了する。
ωk、Ave[S2]=(ωk、Ave[S1]+ωk、Ave[S3])/2(但し、1≦k≦Nd)のように補正し(ステップS519)、状態S1及びS3に関するLSP係数は補正せずに、補正操作を終了する。
ωk、Ave[S3]=ωk、Ave[S2](但し、1≦k≦Ndとする。)
のように補正し(ステップS517)、状態S1及びS2に関するLSP係数は補正せずに、補正操作を終了する。
ωk、Ave[S1]=ωk、Ave[S3]、ωk、Ave[S2]=ωk、Ave[S3](但し、1≦k≦Ndとする。)
のように補正し(ステップS527)、状態S3に関するLSP係数は補正せずに、補正操作を終了する。
ωk、Ave[S1]=ωk、Ave[S2]、ωk、Ave[S3]=ωk、Ave[S2](但し、1≦k≦Ndとする。)
のように補正し(ステップS525)、状態S2に関するLSP係数は補正せずに、補正操作を終了する。
ωk、Ave[S2]=ωk、Ave[S1]、ωk、Ave[S3]=ωk、Ave[S1](但し、1≦k≦Ndとする。)
のように補正し(ステップS523)、状態S1に関するLSP係数は補正せずに、補正操作を終了する。
前記具体例においては、安定条件が満たされていない場合に行われる補正操作は、LSP係数の全ての次数k、すなわち1≦k≦Ndなる全てのkについて行われる。これに対し、本実施例においては、安定条件を満たさない原因となった次数kについてのみ行う。
本実施例では、具体例1におけるLSP係数の補正に加えて、HMM内の各状態におけるLSP係数の分散値ωk、Var[Si]に対して、所定の適切性判別基準を課し、不適切な値を有する次数kの分散値に対しては、適切な値に補正する操作を加える。
本実施例に係る音声合成辞書構築装置は、第1実施例に係る音声合成辞書構築装置において、学習前スペクトルパラメータ補正部を省略することを特徴とする、音声合成辞書構築装置である。
Claims (11)
- 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
前記LSP係数群時系列データ生成部により生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施す学習前スペクトルパラメータ補正部と、
音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする音声合成辞書構築装置。 - 前記音素HMM学習部は、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、前記所定の安定条件を満たすように補正操作を施す、
ことを特徴とする請求項1に記載の音声合成辞書構築装置。 - 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
音素ラベル列と前記LSP係数群時系列データ生成部から出力されたLSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように所定の補正操作を施す音素HMM学習部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする音声合成辞書構築装置。 - 前記LSP係数群時系列データ生成部により生成されたLSP係数群時系列データに、前記所定の安定条件を満たすように、補正操作を施し、前記音素HMM学習部に供給する学習前スペクトルパラメータ補正部、をさらに備えることを特徴とする請求項3に記載の音声合成辞書構築装置。
- 前記補正操作は、LSP係数群について、前記所定の安定条件を満たすか否かを判別し、満たしていない場合に、前記所定の安定条件を満たすようなLSP係数群に置換する操作から構成される、
ことを特徴とする請求項1乃至4の何れか1項に記載の音声合成辞書構築装置。 - 前記補正操作は、LSP係数群について、前記所定の安定条件を満たすような係数群に置換する処理から構成され、
前記所定の安定条件とは、LSP係数が、全て0より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである、
ことを特徴とする請求項1乃至5の何れか1項に記載の音声合成辞書構築装置。 - 前記音素HMM学習部は、第1乃至第N(Nは2以上の自然数)音素HMM学習部と、学習中スペクトルパラメータ補正部と、から構成され、
第1音素HMM学習部は音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させて、前記学習中スペクトルパラメータ補正部に供給し、
前記第2乃至第N−1音素HMM学習部は、それぞれ、第1乃至第N−2音素HMM学習部から出力された後に学習中スペクトルパラメータ補正部による補正を受けた音素HMMを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素HMMを対応させて、前記学習中スペクトルパラメータ補正部に供給し、
第N音素HMM学習部は、第N−1音素HMM学習部を経た後に前記学習中スペクトルパラメータ補正部による補正を受けた音素HMMを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素HMMを対応させて出力し、
前記学習中スペクトルパラメータ補正部は、前記第1乃至第N−1音素HMM学習部から出力された音素HMMを前記所定の条件を満たすように補正して前記第2乃至第N音素HMM学習部に供給する、
ことを特徴とする請求項1乃至6の何れか1項に記載の音声合成辞書構築装置。 - 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成されたLSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
ことを特徴とする音声合成辞書構築方法。 - 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
ことを特徴とする音声合成辞書構築方法。 - コンピュータに、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
処理を実行させるためのコンピュータプログラム。 - コンピュータに、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
処理を実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006115992A JP5228283B2 (ja) | 2006-04-19 | 2006-04-19 | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006115992A JP5228283B2 (ja) | 2006-04-19 | 2006-04-19 | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007286511A true JP2007286511A (ja) | 2007-11-01 |
JP5228283B2 JP5228283B2 (ja) | 2013-07-03 |
Family
ID=38758307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006115992A Active JP5228283B2 (ja) | 2006-04-19 | 2006-04-19 | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5228283B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101125859B1 (ko) | 2011-09-27 | 2012-03-28 | 주식회사 스마트송 | 음원 벡터 인덱스를 이용한 음성 합성 시스템 및 방법 |
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
CN113223503A (zh) * | 2020-04-29 | 2021-08-06 | 浙江大学 | 一种基于测试反馈的核心训练语音选择方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305397A (ja) * | 1995-05-12 | 1996-11-22 | Mitsubishi Electric Corp | 音声加工フィルタ及び音声合成装置 |
JPH10254350A (ja) * | 1997-03-13 | 1998-09-25 | Mitsubishi Electric Corp | 音声認識装置 |
JPH11308113A (ja) * | 1998-04-20 | 1999-11-05 | Toshiba Corp | ベクトル量子化方法 |
JP2000242298A (ja) * | 1999-02-24 | 2000-09-08 | Mitsubishi Electric Corp | Lsp補正装置,音声符号化装置及び音声復号化装置 |
JP2002062890A (ja) * | 2000-08-18 | 2002-02-28 | Seiko Epson Corp | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 |
JP2002123280A (ja) * | 2000-10-16 | 2002-04-26 | Seiko Epson Corp | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 |
-
2006
- 2006-04-19 JP JP2006115992A patent/JP5228283B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305397A (ja) * | 1995-05-12 | 1996-11-22 | Mitsubishi Electric Corp | 音声加工フィルタ及び音声合成装置 |
JPH10254350A (ja) * | 1997-03-13 | 1998-09-25 | Mitsubishi Electric Corp | 音声認識装置 |
JPH11308113A (ja) * | 1998-04-20 | 1999-11-05 | Toshiba Corp | ベクトル量子化方法 |
JP2000242298A (ja) * | 1999-02-24 | 2000-09-08 | Mitsubishi Electric Corp | Lsp補正装置,音声符号化装置及び音声復号化装置 |
JP2002062890A (ja) * | 2000-08-18 | 2002-02-28 | Seiko Epson Corp | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 |
JP2002123280A (ja) * | 2000-10-16 | 2002-04-26 | Seiko Epson Corp | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 |
Non-Patent Citations (2)
Title |
---|
CSNG200700044016; 森田 義則 Yoshinori MORITA: 'LSPパラメータを用いた雑音下音声認識のAURORA-2Jによる評価 noisy-speech recognition perfo' 日本音響学会2004年秋季研究発表会講演論文集-I- THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI , 20040921, 社団法人日本音響学会 * |
JPN6011029523; 森田 義則 Yoshinori MORITA: 'LSPパラメータを用いた雑音下音声認識のAURORA-2Jによる評価 noisy-speech recognition perfo' 日本音響学会2004年秋季研究発表会講演論文集-I- THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI , 20040921, 社団法人日本音響学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
KR101125859B1 (ko) | 2011-09-27 | 2012-03-28 | 주식회사 스마트송 | 음원 벡터 인덱스를 이용한 음성 합성 시스템 및 방법 |
CN113223503A (zh) * | 2020-04-29 | 2021-08-06 | 浙江大学 | 一种基于测试反馈的核心训练语音选择方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5228283B2 (ja) | 2013-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8401847B2 (en) | Speech recognition system and program therefor | |
US7136816B1 (en) | System and method for predicting prosodic parameters | |
CN110556100A (zh) | 端到端语音识别模型的训练方法及系统 | |
CN110737764A (zh) | 一种个性化对话内容生成方法 | |
JP2004109464A (ja) | 音声認識装置及び音声認識方法 | |
JP2004279701A (ja) | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 | |
WO2016042659A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP3092491B2 (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JP6103564B2 (ja) | パターン認識装置およびパターン認識方法 | |
WO2021109856A1 (zh) | 一种针对认知障碍的语音识别系统 | |
CN110798733A (zh) | 一种字幕生成方法、装置及计算机存储介质、电子设备 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN115293139A (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
JP5228283B2 (ja) | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム | |
US6173076B1 (en) | Speech recognition pattern adaptation system using tree scheme | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP7359028B2 (ja) | 学習装置、学習方法、および、学習プログラム | |
JP2001282779A (ja) | 電子化テキスト作成システム | |
JP4816201B2 (ja) | 音声処理装置及び方法、テキスト音声合成装置、プログラム | |
JP4760471B2 (ja) | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム | |
Calvo et al. | A multilingual SLU system based on semantic decoding of graphs of words | |
Tian et al. | End-to-end speech recognition with Alignment RNN-Transducer | |
WO2024042650A1 (ja) | 学習装置、学習方法及びプログラム | |
CN115630635B (zh) | 一种基于检索和多阶段的中文文本校对方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090402 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5228283 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |