JP2018077280A - 音声合成方法 - Google Patents
音声合成方法 Download PDFInfo
- Publication number
- JP2018077280A JP2018077280A JP2016217377A JP2016217377A JP2018077280A JP 2018077280 A JP2018077280 A JP 2018077280A JP 2016217377 A JP2016217377 A JP 2016217377A JP 2016217377 A JP2016217377 A JP 2016217377A JP 2018077280 A JP2018077280 A JP 2018077280A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- singing
- song
- time
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 9
- 230000014509 gene expression Effects 0.000 claims abstract description 265
- 238000001228 spectrum Methods 0.000 claims abstract description 89
- 230000002123 temporal effect Effects 0.000 claims abstract description 42
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 33
- 230000008859 change Effects 0.000 claims abstract description 32
- 230000003595 spectral effect Effects 0.000 claims description 80
- 230000015572 biosynthetic process Effects 0.000 claims description 61
- 238000003786 synthesis reaction Methods 0.000 claims description 56
- 238000000034 method Methods 0.000 description 39
- 238000013507 mapping Methods 0.000 description 35
- 230000006870 function Effects 0.000 description 30
- 230000008602 contraction Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 23
- 239000011295 pitch Substances 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 206010013952 Dysphonia Diseases 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 208000027498 hoarse voice Diseases 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
Description
音声合成のための種々の技術が知られている。音声のうち音階の変化およびリズムを伴うものを歌唱(歌声)という。歌唱合成としては、素片接続型歌唱合成および統計的歌唱合成が知られている。素片接続型歌唱合成では、多数の歌唱素片を収録したデータベースが用いられる。歌唱素片(音声素片の一例)は、主として音韻(単音素または音素連鎖)によって区分される。歌唱の合成に際して、これらの歌唱素片は、基本周波数、タイミング、および継続長が楽譜情報に応じて調整されたうえで接続される。素片接続型歌唱合成に用いられる歌唱素片は、データベースに登録される全ての音韻に渡って音質ができるだけ一定であることが要求される。音質が一定でないと、歌唱を合成した際に不自然な音声の変動が発生してしまうからである。また、これらの素片に含まれる動的な音響変化のうち歌唱表現(音声表現の一例)に対応する部分は、合成時にそれが表出しないように処理される必要がある。歌唱表現は音楽的な文脈に依存して歌唱に付与されるべきものであり、音韻の種別と直接に対応付けられるべきものではないからである。特定の音韻に対して常に同じ歌唱表現が表出されると、得られる合成歌唱は不自然なものとなる。したがって、素片接続型歌唱合成においては、例えば基本周波数および音量の変化は、歌唱素片に含まれるものを直接的に用いるのではなく、楽譜情報およびあらかじめ決められたルールに基づいて生成された基本周波数および音量の変化が用いられる。仮に、音韻と歌唱表現とのすべての組み合わせに対応する歌唱素片をデータベースに収録すれば、楽譜情報に一致する音韻および音楽的文脈に対して自然な歌唱表現の双方に対応する歌唱素片を選択することが可能になる。しかし、あらゆる音韻に対してあらゆる歌唱表現に対応する歌唱素片を収録するには膨大な手間がかかり、データベースの容量も膨大なものとなってしまう。また、素片同士の組み合わせの数は素片の数に対して爆発的に増加するため、素片同士のあらゆる接続に対して不自然な合成歌唱とならないことを保証することは難しい。
図2は、一実施形態に係る歌唱表現付与の概念を示す図である。なお、以下において、「合成歌唱」とは合成された音声であって特に音階と歌詞とが与えられた音声をいう。特に断りの無い限り、単に「合成歌唱」というときは、本実施形態に係る歌唱表現が付与されていない合成音声を指す。「歌唱表現」とは合成音声に対して付与される音楽的な表現をいい、例えば、ボーカルフライ(fry)、うなり声(growl)、および嗄れ声(rough)のような表現を含む。本実施形態においては、あらかじめ収録された局所的な歌唱表現の素片(サンプル)を、通常の(歌唱表現が付与されていない)合成歌唱にモーフィングによって加算することを「合成歌唱に対し歌唱表現を付与する」という。ここで、歌唱表現の素片は、歌唱音声全体または1個のノートに対し、時間的に局所的なものである。時間的に局所的とは、歌唱表現の占める時間が、歌唱音声全体または1個のノートに対し部分的であることをいう。歌唱表現の素片は、歌唱者による歌唱表現をあらかじめ録音したものであり、歌唱中の、局所的な時間においてなされている歌唱表現(音楽的な表現)の素片である。素片とは歌唱者の発した音声波形の一部をデータ化したものである。また、モーフィングとは、歌唱表現の素片および合成歌唱の少なくとも一方に、時間の経過に伴って増加または減少する係数を乗算して両者を加算する処理をいう。歌唱表現の素片と通常の合成歌唱とは、タイミングを合わせてモーフィングされる。モーフィングにおいて、歌唱表現における音響的特徴の時間変化は保たれたままである。歌唱表現の素片をモーフィングによって加算するときには、通常の合成歌唱のうちの、局所的な時間における合成歌唱に対して、モーフィングを行う。
データベース10は歌唱素片が収録されたデータベース(素片データベース)および歌唱表現の素片が収録されたデータベース(歌唱表現データベース)を含むが、素片データベースについては、従来知られている素片接続型歌唱合成において用いられるものと同じであるので詳細な説明は省略する。以下、特に断りの無い限り、歌唱表現データベースを単にデータベース10という。データベース10においては、歌唱合成時の計算負荷の低減と音響的特徴の推定誤りの防止とを両立するため、歌唱表現の素片の音響的特徴を事前に推定しておき、推定した音響的特徴をデータベースに収録しておくことが好ましい。データベース10に収録される音響的特徴は、人の手によって修正されたものであってもよい。
図8は、合成器20の機能構成を例示する図である。合成器20は、タイミング計算手段21、時間伸縮マッピング手段22、短時間スペクトル操作手段23、合成手段24、特定手段25、および取得手段26を有する。
(a)スペクトル包絡
(b)スペクトル包絡概形
(c)位相スペクトル包絡
(d)スペクトル包絡(または調波振幅)の時間的微細変動
(e)位相スペクトル包絡(または調波位相)の時間的微細変動
(f)基本周波数
なお、歌唱表現の素片と合成歌唱との間でこれらの成分を独立にモーフィングするためには、合成歌唱に対しても上記の分解が行われる必要があるが、歌唱合成器においては合成の途中でこれらの情報が生成されている場合があるので、それを利用すればよい。以下に各成分を説明する。
(a’)スペクトル包絡概形とスペクトル包絡との差分、および
(b)スペクトル包絡概形
の2つの音響的特徴が用いられる。例えば図11のようにスペクトル包絡とスペクトル包絡概形とを分離すると、スペクトル包絡にスペクトル包絡概形の情報まで含まれてしまうので、両者を分離して扱うためである。このように分離すると、絶対的な音量に関する情報はスペクトル包絡概形に含まれる。人間が発する声の強さを変化させるとき、個人性や音韻性はある程度保つことができる一方、音量とスペクトルの全体的な傾斜が同時に変化することが多いので、スペクトル包絡概形に音量の情報を含めるのは自然なことと言える。
Gvp(f)=(1−aG)Gv(f)+aG・Gp(f) …(1)
Hvp(f)=(1−aH)Hv(f)+aH・Hp(f) …(2)
Ivp(f)=(1−aI)Iv(f)+aI・Ip(f) …(3)
により合成歌唱および歌唱表現をモーフィングする。なお、aG、aH、およびaIは、それぞれ、スペクトル包絡概形G(f)、スペクトル包絡H(f)、およびスペクトル包絡の時間的微細変動I(f)に対するモーフィング係数である。これらはそれぞれ独自に設定されてもよい。
2−3−1.機能構成
図16は、UI部30の機能構成を例示する図である。UI部30は、表示手段31、受け付け手段32、および音出力手段33を有する。表示手段31は、UIの画面を表示する。受け付け手段32は、UIを介して操作を受け付ける。音出力手段33は、UIを介して受け付けられた操作に応じて、合成歌唱を出力する。表示手段31により表示されるUIは、後述するように、例えば、合成歌唱に付与される歌唱表現の合成に用いられる複数のパラメーターの値を同時に変更するための画像オブジェクトを含む。受け付け手段は、この画像オブジェクトに対する操作を受け付ける。
図17は、UI部30において用いられるGUIを例示する図である。このGUIは、一実施形態に係る歌唱合成プログラムにおいて使用される。このGUIは、楽譜表示領域511、ウインドウ512、およびウインドウ513を含む。楽譜表示領域511は、歌唱合成に係る楽譜が表示される領域であり、この例ではいわゆるピアノロールに相当する形式で楽譜が表される。楽譜表示領域511内において横軸は時間を、縦軸は音階を、それぞれ表す。この例では、ノート5111〜5115の5つの音符に相当する画像オブジェクトが表示されている。各ノートには、歌詞が割り当てられる。この例では、ノート5111〜5115に対し、「I」、「love」、「you」、「so」、および「much」という歌詞が割り当てられている。ユーザーはピアノロール上をクリックすることにより、楽譜上の任意の位置に新たなノートを追加することができる。楽譜上に設定されたノートに対しては、いわゆるドラッグ&ドロップ等の操作により、ノートの時間軸上の位置、音階、または長さ等の属性を編集することができる。歌詞は、あらかじめ一曲分の歌詞が入力され、それが所定のアルゴリズムに従って各ノートに自動的に割り当てられてもよいし、ユーザーが各ノートに手動で歌詞を割り当ててもよい。
図18は、歌唱表現を選択するUIを例示する図である。このUIは、ポップアップウインドウを用いる。歌唱表現を付与したいノートに対してユーザーが所定の操作(例えば、マウスの右ボタンクリック)を行うと、ポップアップウインドウ514が表示される。ポップアップウインドウ514は、木構造に組織化された歌唱表現のうち第1階層を選択するためのウインドウであり、複数の選択肢の表示を含む。ポップアップウインドウ514に含まれる複数の選択肢のうち位一の選択肢に対しユーザーが所定の操作(例えば、マウスの左ボタンクリック)を行うと、ポップアップウインドウ515が表示される。ポップアップウインドウ515は、組織化された歌唱表現の第2階層を選択するためのウインドウである。ポップアップウインドウ515に対しユーザーが一の選択肢を選択する操作を行うと、ポップアップウインドウ516が表示される。ポップアップウインドウ516は、組織化された歌唱表現の第3階層を選択するためのウインドウである。UI部30は、図18のUIを介して選択された歌唱表現を特定する情報を合成器20に出力する。こうして、ユーザーは、所望の歌唱表現を組織化された構造の中から選択することができる。
図19の例において、ウインドウ512には、アタック基準の歌唱表現の程度を変化させるためのダイヤル5122の画像オブジェクトが表示される。ダイヤル5122は、合成歌唱に付与される歌唱表現の付与に用いられる複数のパラメーターの値を同時に変更するための単一の操作子の一例である。さらに、ダイヤル5122は、ユーザーの操作に応じて変位する操作子の一例である。この例では、単一のダイヤル5122の操作によって、歌唱表現に係る複数のパラメーターが同時に調整される。リリース基準の歌唱表現の程度も、同様にウインドウ513に表示されるダイヤル5132を介して調整される。歌唱表現に係る複数のパラメーターは、例えば、各音響的特徴のモーフィング係数の最大値である。モーフィング係数の最大値とは、各ノートにおいて時間の経過に伴ってモーフィング係数が変化する際の最大値である。図2の例では、アタック基準の歌唱表現はノートの始期においてモーフィング係数が最大値をとり、リリース基準の歌唱表現はノートの終期においてモーフィング係数が最大値をとっている。UI部30は、ダイヤル5122の基準位置からの回転角に応じてモーフィング係数の最大値を変化させるための情報(例えばテーブル)を有している。
本発明は上述の実施携帯に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
Claims (3)
- 合成音の合成に用いられるスペクトル包絡概形の時間変化を取得するステップと、
前記合成音に付与される音声表現の表現素片の合成に用いられる前記スペクトル包絡概形の時間変化を取得するステップと、
前記合成音の前記スペクトル包絡概形の時間変化に第1係数を乗算し、前記表現素片の前記スペクトル包絡概形の時間変化に第2係数を乗算し、両者を加算するステップと、
加算により得られた前記スペクトル包絡概形の時間変化を用いて、前記音声表現が付与された合成音を生成するステップと
を有する音声合成方法。 - 前記合成音の合成に用いられるスペクトル包絡の時間変化を取得するステップと、
音声表現の合成に用いられる前記スペクトル包絡の時間変化を取得するステップと、
前記合成音の前記スペクトル包絡の時間変化に第3係数を乗算し、前記表現素片の前記スペクトル包絡の時間変化に第4係数を乗算し、両者を加算するステップと、
加算により得られた前記スペクトル包絡概形および前記スペクトル包絡の時間変化を用いて、音声表現が付与された合成音を生成するステップと
を有する請求項1に記載の音声合成方法。 - 前記表現素片の基準となる音高を取得するステップと、
加算の前に、前記表現素片の音高と前記合成音の音高とが一致するように、当該表現素片の音高をシフトするステップと
を有する請求項1または2のいずれか一項に記載の音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016217377A JP6683103B2 (ja) | 2016-11-07 | 2016-11-07 | 音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016217377A JP6683103B2 (ja) | 2016-11-07 | 2016-11-07 | 音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018077280A true JP2018077280A (ja) | 2018-05-17 |
JP6683103B2 JP6683103B2 (ja) | 2020-04-15 |
Family
ID=62149009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016217377A Expired - Fee Related JP6683103B2 (ja) | 2016-11-07 | 2016-11-07 | 音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6683103B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110720122A (zh) * | 2017-06-28 | 2020-01-21 | 雅马哈株式会社 | 音发生装置及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005018097A (ja) * | 2000-12-28 | 2005-01-20 | Yamaha Corp | 歌唱合成装置 |
JP2014002338A (ja) * | 2012-06-21 | 2014-01-09 | Yamaha Corp | 音声処理装置 |
-
2016
- 2016-11-07 JP JP2016217377A patent/JP6683103B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005018097A (ja) * | 2000-12-28 | 2005-01-20 | Yamaha Corp | 歌唱合成装置 |
JP2014002338A (ja) * | 2012-06-21 | 2014-01-09 | Yamaha Corp | 音声処理装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110720122A (zh) * | 2017-06-28 | 2020-01-21 | 雅马哈株式会社 | 音发生装置及方法 |
CN110720122B (zh) * | 2017-06-28 | 2023-06-27 | 雅马哈株式会社 | 音发生装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6683103B2 (ja) | 2020-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP5958866B2 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
JP4705203B2 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
KR20150016225A (ko) | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 | |
JP2002202790A (ja) | 歌唱合成装置 | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP4813796B2 (ja) | 信号を合成するための方法、記憶媒体及びコンピュータシステム | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
CN105957515A (zh) | 声音合成方法、声音合成装置和存储声音合成程序的介质 | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JP2018077283A (ja) | 音声合成方法 | |
JP6737320B2 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
JP2015161774A (ja) | 音合成方法及び音合成装置 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP2002268658A (ja) | 音声分析及び合成装置、方法、プログラム | |
JP4844623B2 (ja) | 合唱合成装置、合唱合成方法およびプログラム | |
JP6683103B2 (ja) | 音声合成方法 | |
JP6834370B2 (ja) | 音声合成方法 | |
JP2003345400A (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP4490818B2 (ja) | 定常音響信号のための合成方法 | |
JP6822075B2 (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200309 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6683103 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |