JP2010224418A - 音声合成装置、方法およびプログラム - Google Patents
音声合成装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2010224418A JP2010224418A JP2009073988A JP2009073988A JP2010224418A JP 2010224418 A JP2010224418 A JP 2010224418A JP 2009073988 A JP2009073988 A JP 2009073988A JP 2009073988 A JP2009073988 A JP 2009073988A JP 2010224418 A JP2010224418 A JP 2010224418A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- generation model
- voice
- synthesis
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、音声生成モデルの修正情報を入力する手段と、音声生成モデルの修正情報に基づき、音声合成記号入力に基づき生成された音声生成モデルを修正する手段とを備えており、前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成される。
【選択図】図1
Description
Δxi(t)={xi(t+1)−xi(t−1)}/2 (2)
Δ2xi(t)=xi(t+1)−2xi(t)+xi(t−1) (3)
S11.音響分析により原音声から目標となる音声合成パラメータ時系列をまず作成する。
S12.そして、原音声に対応する音声合成記号列から音声生成モデルを生成した場合と同じ構造のモデルのうちで、音声合成パラメータ時系列に対しゆう度が最大となる音声生成モデルを求める。音声生成モデルがHMMに基づくものである場合は、音声生成モデルはフォワード・バックワードアルゴリズムにより効率的に求めることができる。または、ビタビアルゴリズムにより近似的に求めることができる。
S13.一方、これとは別に、音声合成記号のみを用いて音声生成モデルを作成する。
S14.作成されたパラメータベクトルをS15で作成された指令情報で修正する。なお、最初は指令情報がないため修正は行わない。
S15.作成された2つの音声生成モデルのパラメータベクトルについて、その要素をそれぞれ比較し、所定の誤差尺度が最も大きい要素について、その値を原音声から作成したモデルパラメータベクトルの要素の値で修正する指令情報を作成し、修正情報要素として出力する。
S16.そして所定の条件を満たすまで、修正情報要素を蓄積しながらこのパラメータベクトル修正手順を繰り返す。ただし繰り返し以降の処理では、パラメータベクトルに対して、それまでに蓄積された音声生成モデル修正情報要素を適用し、パラメータベクトルを修正する。最終的に、蓄積された修正情報要素の集合が、当該の1発声を修正するための音声生成モデル修正情報となる。前記の条件の例としては、修正後の全パラメータにおける所定の誤差尺度の最大値が事前に設定したしきい値以下になった、修正情報のサイズがある設定値に達した、等がある。
S21.この方法でも第1の手順と同様、音響分析により原音声から目標となる音声合成パラメータ時系列をまず作成する。
S22.またそれとは独立に、原音声に対応する音声合成記号から音声生成モデルを構築する。
S23.作成された音声生成モデルをS25で作成された修正情報で修正する。なお、最初は修正情報がないため修正は行わない。
S24.構築された音声生成モデルに基づき音声合成パラメータ時系列を作成する。
S25.これら2つの音声合成パラメータの誤差を評価し、修正後の音声生成モデルを用いて音声合成パラメータ時系列を作成した時に目標音声合成パラメータ時系列との誤差指標が最小となる、音声生成モデルに対する音声生成モデル修正情報を作成する。このような修正情報要素は山登り法により求めることができる。
S26.そして所定の条件を満たすまで、修正情報要素を蓄積しながらこの音声モデル修正手順を繰り返す。ただし繰り返し以降の処理では、音声合成記号から生成された音声生成モデルに対して、それまでに蓄積された音声生成モデル修正情報要素を適用し、音声生成モデルを修正する。前記の条件の例としては、誤差指標が事前に設定したしきい値以下になるか、修正情報のサイズがある設定値に達した、等がある。最終的に、蓄積された修正情報要素の集合が、当該の1発声を修正するための音声生成モデル修正情報となる。
e=f(X,A) (4)
ここで、Aは目標となる音声合成パラメータ時系列を表す行列、Xは音声生成モデルに基づき生成される音声合成パラメータ時系列を表す行列で、それぞれ合成パラメータの種類iのフレームtにおける値ai(t)、xi(t)を、i行t列の要素とする。
11 音声生成モデル生成部
12 音声生成モデル修正部
13 音声合成パラメータ生成部
14 音声波形生成部
15 音声生成モデル用コードブック
16 音声生成モデルパラメータベクトル構成部
Claims (7)
- 一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成装置であって、
前記音声生成モデルの修正情報を入力する手段と、
前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正する手段と、
を備えていることを特徴とする音声合成装置。 - 音声生成モデル生成のためのコードブックをさらに備え、
前記音声生成モデルの生成は、前記音声合成記号入力に対応するコードブックのベクトルを出力することであり、
前記音声生成モデルの修正情報は、前記コードブックのベクトルを表す符号をその構成要素として含むことを特徴とする請求項1に記載の音声合成装置。 - 前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータを生成する音声生成モデルと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項1または請求項2に記載の音声合成装置。
- 前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルに基づき生成された所定の音声合成パラメータとの間で定義される、所定の誤差尺度が小さくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項1または請求項2に記載の音声合成装置。
- 前記修正情報は、合成対象の原音声から推定された所定の音声合成パラメータと、一連の音声合成記号入力から生成された音声生成モデルとの間で定義される、音声合成パラメータに対する音声生成モデルのゆう度を表す所定の尺度が大きくなるように音声生成モデルを修正する情報で構成されることを特徴とする請求項1または請求項2に記載の音声合成装置。
- 一連の音声合成記号入力に基づき音声生成モデルを生成し、生成された音声生成モデルに基づき音声波形を生成する音声合成方法であって、
前記音声生成モデルの修正情報を入力するステップと、
前記音声生成モデルの修正情報に基づき、前記音声合成記号入力に基づき生成された音声生成モデルを修正するステップと、
を備えていることを特徴とする音声合成方法。 - 請求項1から5のいずれか1項に記載の音声合成装置としてコンピュータを機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009073988A JP5268731B2 (ja) | 2009-03-25 | 2009-03-25 | 音声合成装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009073988A JP5268731B2 (ja) | 2009-03-25 | 2009-03-25 | 音声合成装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224418A true JP2010224418A (ja) | 2010-10-07 |
JP5268731B2 JP5268731B2 (ja) | 2013-08-21 |
Family
ID=43041638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009073988A Active JP5268731B2 (ja) | 2009-03-25 | 2009-03-25 | 音声合成装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5268731B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010237323A (ja) * | 2009-03-30 | 2010-10-21 | Toshiba Corp | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
JP2012242693A (ja) * | 2011-05-20 | 2012-12-10 | Kddi Corp | 特徴パラメータ生成装置、特徴パラメータ生成方法および特徴パラメータ生成プログラム |
CN112530405A (zh) * | 2019-09-18 | 2021-03-19 | 北京声智科技有限公司 | 一种端到端语音合成纠错方法、系统及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62254196A (ja) * | 1986-04-28 | 1987-11-05 | 株式会社日立製作所 | 音声合成方式 |
JPS63147200A (ja) * | 1986-12-11 | 1988-06-20 | 富士通株式会社 | 音声パラメ−タ修正方式 |
JPH11202884A (ja) * | 1997-05-21 | 1999-07-30 | Nippon Telegr & Teleph Corp <Ntt> | 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体 |
JP2000356995A (ja) * | 1999-04-16 | 2000-12-26 | Matsushita Electric Ind Co Ltd | 音声通信システム |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
JP2003241776A (ja) * | 2002-02-18 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 |
JP2008146094A (ja) * | 2002-08-07 | 2008-06-26 | Speedlingua Sa | 音声イントネーション較正方法 |
-
2009
- 2009-03-25 JP JP2009073988A patent/JP5268731B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62254196A (ja) * | 1986-04-28 | 1987-11-05 | 株式会社日立製作所 | 音声合成方式 |
JPS63147200A (ja) * | 1986-12-11 | 1988-06-20 | 富士通株式会社 | 音声パラメ−タ修正方式 |
JPH11202884A (ja) * | 1997-05-21 | 1999-07-30 | Nippon Telegr & Teleph Corp <Ntt> | 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体 |
JP2000356995A (ja) * | 1999-04-16 | 2000-12-26 | Matsushita Electric Ind Co Ltd | 音声通信システム |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
JP2003241776A (ja) * | 2002-02-18 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 |
JP2008146094A (ja) * | 2002-08-07 | 2008-06-26 | Speedlingua Sa | 音声イントネーション較正方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010237323A (ja) * | 2009-03-30 | 2010-10-21 | Toshiba Corp | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
JP2012242693A (ja) * | 2011-05-20 | 2012-12-10 | Kddi Corp | 特徴パラメータ生成装置、特徴パラメータ生成方法および特徴パラメータ生成プログラム |
CN112530405A (zh) * | 2019-09-18 | 2021-03-19 | 北京声智科技有限公司 | 一种端到端语音合成纠错方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5268731B2 (ja) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
CN108573693B (zh) | 文本到语音系统和方法以及其存储介质 | |
US10186252B1 (en) | Text to speech synthesis using deep neural network with constant unit length spectrogram | |
US7567896B2 (en) | Corpus-based speech synthesis based on segment recombination | |
US8321222B2 (en) | Synthesis by generation and concatenation of multi-form segments | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
KR100932538B1 (ko) | 음성 합성 방법 및 장치 | |
WO2004034377A2 (en) | Apparatus, methods and programming for speech synthesis via bit manipulations of compressed data base | |
US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP5376643B2 (ja) | 音声合成装置、方法およびプログラム | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
CN117678013A (zh) | 使用合成的训练数据的两级文本到语音系统 | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP6618453B2 (ja) | 音声合成のためのデータベースの生成装置、生成方法、音声合成装置及びプログラム | |
JP2020129099A (ja) | 推定装置、推定方法、及びプログラム | |
US12033611B2 (en) | Generating expressive speech audio from text data | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP5345967B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4630038B2 (ja) | 音声波形データベース構築方法、この方法を実施する装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100823 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100730 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5268731 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |