JP7192834B2 - 情報処理方法、情報処理システムおよびプログラム - Google Patents
情報処理方法、情報処理システムおよびプログラム Download PDFInfo
- Publication number
- JP7192834B2 JP7192834B2 JP2020133036A JP2020133036A JP7192834B2 JP 7192834 B2 JP7192834 B2 JP 7192834B2 JP 2020133036 A JP2020133036 A JP 2020133036A JP 2020133036 A JP2020133036 A JP 2020133036A JP 7192834 B2 JP7192834 B2 JP 7192834B2
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation
- style
- data representing
- data
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
図1は、本発明の第1実施形態に係る情報処理装置100の構成を例示するブロック図である。情報処理装置100は、特定の歌唱者が特定の歌唱スタイルで楽曲を仮想的に歌唱した音声(以下「合成音」という)を生成する音声合成装置である。歌唱スタイル(発音スタイルの例示)は、例えば歌唱の仕方に関する特徴を意味する。例えばラップ,R&B(rhythm and blues)またはパンク等の各種の音楽ジャンルの楽曲に好適な歌い廻しが歌唱スタイルの好適例である。
合成処理部21は、合成音の音響的な特徴を表す特徴データQの時系列を生成する。第1実施形態の特徴データQは、例えば合成音の基本周波数(ピッチ)Qaとスペクトル包絡Qbとを含む。スペクトル包絡Qbは、合成音の周波数スペクトルの概形である。特徴データQは、所定長(例えば5ミリ秒)の単位期間毎に順次に生成される。すなわち、第1実施形態の合成処理部21は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを生成する。
図2の学習処理部23は、機械学習により合成モデルMを生成する。学習処理部23による機械学習後の合成モデルMが、図3における特徴データQの生成(以下「推定処理」という)Sa2に利用される。図4は、学習処理部23による機械学習を説明するためのブロック図である。図4に例示される通り、合成モデルMの機械学習には複数の学習データLが利用される。複数の学習データLは記憶装置12に記憶される。また、機械学習の終了判定に利用される評価用の学習データ(以下「評価用データ」という)Lも記憶装置12に記憶される。
学習済の符号化モデルEaを利用してNa個の歌唱者データXaが生成されると、当該符号化モデルEaは不要である。したがって、符号化モデルEaはNa個の歌唱者データXaの生成後に破棄される。しかし、歌唱者データXaが生成されていない新規な歌唱者(以下「新規歌唱者」という)について歌唱者データXaを生成する必要が事後的に発生し得る。第1実施形態の学習処理部23は、新規歌唱者に対応する複数の学習データLnewと学習済の合成モデルMとを利用して、新規歌唱者の歌唱者データXaを生成する。
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図9は、第3実施形態における合成モデルMの構成を例示するブロック図である。
図9に例示される通り、第3実施形態における合成モデルMの構成は第2実施形態と同様である。すなわち、第3実施形態の合成モデルMは、基本周波数Qaの時系列を生成する第4生成モデルG4と、スペクトル包絡Qbの時系列を生成する第5生成モデルG5とを含む。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(2)前述の各形態では、特徴データQが基本周波数Qaとスペクトル包絡Qbとを含む構成を例示したが、特徴データQの内容は以上の例示に限定されない。周波数スペクトルの特徴(以下「スペクトル特徴」という)を表す各種のデータが特徴データQとして好適である。特徴データQとして利用可能なスペクトル特徴としては、前述のスペクトル包絡Qbのほか、例えばメルスペクトル、メルケプストラム、メルスペクトログラムまたはスペクトログラムが例示される。なお、基本周波数Qaを特定可能なスペクトル特徴を特徴データQとして利用する構成では、特徴データQから基本周波数Qaを省略してもよい。
以上に例示した形態から、例えば以下の構成が把握される。
Claims (16)
- 発音源を表す発音源データと歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理方法。 - 発音源を表す発音源データと歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理方法。 - 発音源を表す発音源データと発音スタイルを表すスタイルデータと音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理方法。 - 発音源を表す発音源データと発音スタイルを表すスタイルデータと音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理方法。 - さらに、
新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し、
前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する
請求項1から請求項4の何れかの情報処理方法。 - 前記合成モデルに入力される前記発音源データは、相異なる発音源に対応する複数の発音源データのうち利用者が選択した発音源データである
請求項1から請求項5の何れかの情報処理方法。 - 前記合成モデルに入力されるスタイルデータは、相異なる発音スタイルに対応する複数のスタイルデータのうち利用者が選択したスタイルデータである
請求項1から請求項6の何れかの情報処理方法。 - 前記発音条件は、前記合成音の音韻を含む
請求項1から請求項7の何れかの情報処理方法。 - 発音源を表す発音源データと歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理システム。 - 発音源を表す発音源データと歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理システム。 - 発音源を表す発音源データと発音スタイルを表すスタイルデータと音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理システム。 - 発音源を表す発音源データと発音スタイルを表すスタイルデータと音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理システム。 - 発音源を表す発音源データと歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
プログラム。 - 発音源を表す発音源データと歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
プログラム。 - 発音源を表す発音源データと発音スタイルを表すスタイルデータと音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
プログラム。 - 発音源を表す発音源データと発音スタイルを表すスタイルデータと音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020133036A JP7192834B2 (ja) | 2020-08-05 | 2020-08-05 | 情報処理方法、情報処理システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020133036A JP7192834B2 (ja) | 2020-08-05 | 2020-08-05 | 情報処理方法、情報処理システムおよびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018209288A Division JP6747489B2 (ja) | 2018-11-06 | 2018-11-06 | 情報処理方法、情報処理システムおよびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020184092A JP2020184092A (ja) | 2020-11-12 |
JP2020184092A5 JP2020184092A5 (ja) | 2021-12-02 |
JP7192834B2 true JP7192834B2 (ja) | 2022-12-20 |
Family
ID=73045165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020133036A Active JP7192834B2 (ja) | 2020-08-05 | 2020-08-05 | 情報処理方法、情報処理システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7192834B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
JP2021511534A (ja) | 2018-01-11 | 2021-05-06 | ネオサピエンス株式会社Neosapience, Inc. | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
-
2020
- 2020-08-05 JP JP2020133036A patent/JP7192834B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
JP2021511534A (ja) | 2018-01-11 | 2021-05-06 | ネオサピエンス株式会社Neosapience, Inc. | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
Non-Patent Citations (1)
Title |
---|
リン イクカン、,DNN音声合成のための話者情報の表現方法の検討 A Study on Representation of Speaker Information for DNN Speech Synthesis,電子情報通信学会技術研究報告 Vol.118 No.198,第118巻 第198号,一般社団法人電子情報通信学会,2018年08月20日,PP15~18 |
Also Published As
Publication number | Publication date |
---|---|
JP2020184092A (ja) | 2020-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6547878B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN110634464B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
CN110634461B (zh) | 电子乐器、电子乐器的控制方法以及存储介质 | |
JP6747489B2 (ja) | 情報処理方法、情報処理システムおよびプログラム | |
CN109559718B (zh) | 电子乐器、电子乐器的乐音产生方法以及存储介质 | |
CN111418005B (zh) | 声音合成方法、声音合成装置及存储介质 | |
CN111696498B (zh) | 键盘乐器以及键盘乐器的计算机执行的方法 | |
JP7147211B2 (ja) | 情報処理方法および情報処理装置 | |
JP6737320B2 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
WO2021060493A1 (ja) | 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置 | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP7192834B2 (ja) | 情報処理方法、情報処理システムおよびプログラム | |
JP6835182B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6819732B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6801766B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
WO2023171522A1 (ja) | 音響生成方法、音響生成システムおよびプログラム | |
WO2022080395A1 (ja) | 音声合成方法およびプログラム | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
JP2022145465A (ja) | 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム | |
Maestre | LENY VINCESLAS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221121 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7192834 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |