JP6977818B2 - 音声合成方法、音声合成システムおよびプログラム - Google Patents
音声合成方法、音声合成システムおよびプログラム Download PDFInfo
- Publication number
- JP6977818B2 JP6977818B2 JP2020114265A JP2020114265A JP6977818B2 JP 6977818 B2 JP6977818 B2 JP 6977818B2 JP 2020114265 A JP2020114265 A JP 2020114265A JP 2020114265 A JP2020114265 A JP 2020114265A JP 6977818 B2 JP6977818 B2 JP 6977818B2
- Authority
- JP
- Japan
- Prior art keywords
- trained model
- acoustic signal
- harmonic component
- harmonic
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
図1は、本発明の第1実施形態に係る音声合成装置100の構成を例示するブロック図である。第1実施形態の音声合成装置100は、歌唱者が楽曲を仮想的に歌唱した音声(以下「合成音声」という)を合成する歌唱合成装置であり、図1に例示される通り、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置100として好適に利用され得る。
本発明の第2実施形態を説明する。なお、以下に例示する各態様において機能または作用が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。第2実施形態は、合成音声の発音区間のなかで、非調波成分のレベルが相対的に高い区間が短いという傾向に着目して、音声合成の演算効率を更に向上させた形態である。
以下に例示する第3実施形態は、第1実施形態または第2実施形態の音声合成装置100で利用される第1学習済モデルM1および第2学習済モデルM2を生成する学習済モデル生成装置200である。図6は、第3実施形態における学習済モデル生成装置200の構成を例示するブロック図である。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
Claims (10)
- 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成し、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成し、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成し、
前記音響信号の生成においては、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
コンピュータにより実現される音声合成方法。 - 前記周波数スペクトルの時系列の生成は、前記無声区間および前記有声区間の双方において実行される
請求項1の音声合成方法。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成し、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成し、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成し、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
コンピュータにより実現される音声合成方法。 - 前記第1学習済モデルは、前記調波成分の周波数スペクトルを第1単位期間毎に出力するニューラルネットワークであり、
前記第2学習済モデルは、前記非調波成分の時間領域におけるサンプルを、前記第1単位期間よりも短い第2単位期間毎に出力するニューラルネットワークである
請求項1から請求項3の何れかの音声合成方法。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を生成する第1学習済モデルと、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を生成する第2学習済モデルと、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する合成処理部とを具備し、
前記第2学習済モデルは、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
音声合成システム。 - 前記第1学習済モデルは、前記無声区間および前記有声区間の双方において前記周波数スペクトルの時系列を生成する
請求項5の音声合成システム。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を生成する第1学習済モデルと、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を生成する第2学習済モデルと、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する合成処理部とを具備し、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
音声合成システム。 - 前記第1学習済モデルは、前記調波成分の周波数スペクトルを第1単位期間毎に出力するニューラルネットワークであり、
前記第2学習済モデルは、前記非調波成分の時間領域におけるサンプルを、前記第1単位期間よりも短い第2単位期間毎に出力するニューラルネットワークである
請求項5から請求項7の何れかの音声合成システム。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成する処理と、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成する処理と、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理と
をコンピュータに実行させるプログラムであって、
前記音響信号を生成する処理においては、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
プログラム。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成する処理と、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成する処理と、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理と
をコンピュータに実行させるプログラムであって、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020114265A JP6977818B2 (ja) | 2017-11-29 | 2020-07-01 | 音声合成方法、音声合成システムおよびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017229041A JP6733644B2 (ja) | 2017-11-29 | 2017-11-29 | 音声合成方法、音声合成システムおよびプログラム |
JP2020114265A JP6977818B2 (ja) | 2017-11-29 | 2020-07-01 | 音声合成方法、音声合成システムおよびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017229041A Division JP6733644B2 (ja) | 2017-11-29 | 2017-11-29 | 音声合成方法、音声合成システムおよびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020166299A JP2020166299A (ja) | 2020-10-08 |
JP2020166299A5 JP2020166299A5 (ja) | 2021-01-07 |
JP6977818B2 true JP6977818B2 (ja) | 2021-12-08 |
Family
ID=72666035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020114265A Active JP6977818B2 (ja) | 2017-11-29 | 2020-07-01 | 音声合成方法、音声合成システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6977818B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6787491B2 (ja) * | 2017-06-28 | 2020-11-18 | ヤマハ株式会社 | 音発生装置及び方法 |
KR102621842B1 (ko) * | 2021-08-31 | 2024-01-04 | 네이버 주식회사 | 비 자기회귀 음성 합성 방법 및 시스템 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
JP5102939B2 (ja) * | 2005-04-08 | 2012-12-19 | ヤマハ株式会社 | 音声合成装置および音声合成プログラム |
WO2011118207A1 (ja) * | 2010-03-25 | 2011-09-29 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
-
2020
- 2020-07-01 JP JP2020114265A patent/JP6977818B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020166299A (ja) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP6729539B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
JP6737320B2 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
JP2019061135A (ja) | 電子楽器、電子楽器の楽音発生方法、及びプログラム | |
JP6977818B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4433734B2 (ja) | 音声分析合成装置、音声分析装置、及びプログラム | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
RU2591640C1 (ru) | Способ модификации голоса и устройство для его осуществления (варианты) | |
JP2004061753A (ja) | 歌唱音声を合成する方法および装置 | |
JP5953743B2 (ja) | 音声合成装置及びプログラム | |
JP2020166298A (ja) | 音声合成方法 | |
JP3907838B2 (ja) | 音声変換装置及び音声変換方法 | |
Takara et al. | A study on the pitch pattern of a singing voice synthesis system based on the cepstral method. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201118 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211025 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6977818 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |