JP6213217B2 - 音声合成装置及び音声合成用コンピュータプログラム - Google Patents
音声合成装置及び音声合成用コンピュータプログラム Download PDFInfo
- Publication number
- JP6213217B2 JP6213217B2 JP2013262951A JP2013262951A JP6213217B2 JP 6213217 B2 JP6213217 B2 JP 6213217B2 JP 2013262951 A JP2013262951 A JP 2013262951A JP 2013262951 A JP2013262951 A JP 2013262951A JP 6213217 B2 JP6213217 B2 JP 6213217B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- speech
- sound source
- frequency spectrum
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 20
- 238000003786 synthesis reaction Methods 0.000 title claims description 20
- 238000004590 computer program Methods 0.000 title claims description 9
- 238000001228 spectrum Methods 0.000 claims description 176
- 238000005070 sampling Methods 0.000 claims description 73
- 230000003595 spectral effect Effects 0.000 claims description 52
- 238000004364 calculation method Methods 0.000 claims description 30
- 230000001755 vocal effect Effects 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 40
- 238000000034 method Methods 0.000 description 33
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 17
- 238000001308 synthesis method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
最初に、音声波形とスペクトル包絡の関係について説明する。音声波形は、音源波形と声道共振系の各インパルス応答の畳み込みで表される。すなわち、スペクトル包絡は、声道の伝達特性を表す。ここで、音声波形の振幅スペクトルをX(ω)、音源波形の振幅スペクトルをG(ω)、スペクトル包絡をH(ω)とすると、次の関係が成立する。
そのため、図2(c)に示されるように、図2(a)に示された音源波形の周波数スペクトル200を用いて算出されるスペクトル包絡220は、元の音声波形230の微細構造の個々のピークよりも小さく、不適切な形状となっている。一方、図2(b)に示された音源波形の周波数スペクトル210を用いて算出されるスペクトル包絡221は、元の音声波形230の微細構造の個々のピークに沿い、かつ滑らかとなる、適切な形状を有している。
上記のように、音源波形の周波数スペクトルの形状が変われば、求められるスペクトル包絡の形状も変わるので、正確なスペクトル包絡も求めるには、ピッチマークの時刻精度を十分に高くすることが好ましい。
また入力部2は、スペクトル包絡を抽出するために利用される音の素片を一つまたは複数含むサンプルの音声波形を含む信号とその音声波形に対応する読みを表すテキストデータを、通信ネットワークを介して他の装置から取得する。また音の素片は、例えば、母音、子音、または特定の並びに従って続けて発音された複数の音素または音節などである。
なお、サンプルの音声波形は、例えば、サンプリング周波数が22.05kHzのアナログ/デジタルコンバータによって、ナレーターなどが発したオリジナルの音声波形をサンプリングすることにより生成されたデジタル信号である。
入力部2は、入力されたテキストデータ及びサンプルの音声波形を含む信号を処理部4へ渡す。
記憶部3は、音声合成処理に用いられるデータとして、例えば、韻律モデルと、様々な音素などに対応するスペクトル包絡が登録されたスペクトル包絡データベースとを記憶する。さらに記憶部3は、言語処理に用いられるデータとして、テキストデータ中に出現すると想定される様々な単語について、その単語の漢字仮名表記、中間表記、韻律情報、品詞及び活用形などを格納した言語辞書を記憶する。
また出力部5は、合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声合成装置1と接続するためのインターフェース回路を有する。なお、入力部2も通信ネットワークを介してテキストデータを取得する場合、入力部2と出力部5は一体化されていてもよい。
処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置1に実装されてもよい。
音声合成部11は、合成音声信号を出力部5へ出力する。
あるいは、ピッチマーク設定部21は、基本波をヒルベルト変換することにより、基本波の位相を求め、その位相が指定値(例えば、-0.5π)となる時刻にピッチマークを設定してもよい。
また、図6(c)に示される例では、基本波の位相620の値が増加している区間においてその基本波の位相620が指定値となる各時刻に、ピッチマーク621が設定される。
一方、ピッチマークの時刻がサンプリング周期の整数倍でない場合、すなわち、何れのサンプリング点とも一致しない場合、ピーク位置にしか0以外の信号が無いインパルス関数波形は利用できない。ここで、音源波形の各ピッチマークのインパルス応答波形の周波数スペクトルは、サンプリング周期に相当する帯域幅にわたって一定の値となることが好ましい。そこで音源波形生成部22は、ピッチマークの時刻に、パルス波形として、-Fs/2〜Fs/2を帯域幅とする矩形周波数スペクトルに相当するsinc関数波形を重畳する。なお、Fsは、音声波形のサンプリング周波数である。またsinc関数波形S(t)は次式で与えられる。
切り出し部23は、第1のフレーム及び第2のフレームを切り出す度に、第1のフレーム及び第2のフレームを窓掛部24へ出力する。
直交変換部25は、第1のフレームに相当する音声波形の周波数スペクトルと第2のフレームに相当する音源波形の周波数スペクトルを包絡算出部26へ出力する。
ピッチマーク設定部21は、1以上の音の素片を含むサンプルの音声波形を直交変換することにより、その音声波形の周波数スペクトルを算出する(ステップS101)。ピッチマーク設定部21は、音声波形の周波数スペクトルから基本周波数成分を抽出する(ステップS102)。そしてピッチマーク設定部21は、基本周波数成分を逆直交変換することにより、基本波を求める(ステップS103)。ピッチマーク設定部21は、サンプルの音声波形のサンプリング周期よりも高精度で基本波の値または基本波の位相が指定値となる時刻にピッチマークを設定する(ステップS104)。
第2の実施系形態による音声合成装置は、第1の実施形態による音声合成装置と比較して、スペクトル包絡抽出部の包絡算出部の処理が異なる。そこで以下では、包絡算出部の処理について説明する。第2の実施系形態による音声合成装置のその他の構成要素については、第1の実施形態による音声合成装置の対応する構成要素の説明を参照されたい。
包絡算出部26は、対数化部31と、逆フーリエ変換部32と、差分部33と、フーリエ変換部34と、線形化部35とを有する。また図11は、包絡算出部26により行われる処理の動作フローチャートである。図11に示された処理は、図9に示されたスペクトル包絡抽出処理の動作フローチャートのステップS109の代わりに実行される。以下、図11を参照しつつ、包絡算出部26の各部の処理について説明する。
第1の実施形態のように音声波形と音源波形の周波数スペクトルの比から求めたスペクトル包絡の形状及び第2の実施形態のように音声波形のケプストラムと音源波形のケプストラムの差から求めたスペクトル包絡の形状は、滑らかにならないことがある。これは、ピッチマークの精度ではなく、サンプルの音声波形の周波数スペクトルの微細構造の谷などでの計算精度の劣化に起因するものである。
包絡算出部26は、対数化部31と、逆フーリエ変換部32と、差分部33と、リフタ処理部36と、フーリエ変換部34と、線形化部35とを有する。
そしてフーリエ変換部34は、スペクトル包絡のケプストラムの低次成分をフーリエ変換してスペクトル包絡の対数を算出し、線形化部35はその対数をネイピア数の指数項に入力して線形化することにより、スペクトル包絡を算出する。
(付記1)
声道での共振特性を表すスペクトル包絡を用いて合成音声を生成する音声合成装置であって、
所定のサンプリング周期で音声をサンプリングすることにより生成された音声波形に対して、前記所定のサンプリング周期よりも高精度で設定された、該音声波形のピッチ周期ごとの基準時刻を表すピッチマークに所定のパルス波形を重畳することで音源波形を生成する音源波形生成部と、
前記音声波形及び前記音源波形をそれぞれ直交変換することにより、前記音声波形の周波数スペクトル及び前記音源波形の周波数スペクトルを算出する直交変換部と、
前記音源波形の周波数スペクトル及び前記音声波形の周波数スペクトルに基づいて、前記スペクトル包絡を算出する包絡算出部と、
を有する音声合成装置。
(付記2)
前記音声波形の周波数スペクトルから基本周波数成分を抽出し、該基本周波数成分を逆直交変換することにより前記音声波形の基本波を算出し、該基本波の値または該基本波の位相が指定値となる時刻に前記ピッチマークを設定するピッチマーク設定部をさらに有する、付記1に記載の音声合成装置。
(付記3)
前記ピッチマーク設定部は、前記所定のサンプリング周期での第1のサンプリング点における前記基本波の値または前記基本波の位相と前記第1のサンプリング点よりも後の第2のサンプリング点における前記基本波の値または前記基本波の位相の間に前記指定値が含まれる場合、前記第1のサンプリング点及び前記第2のサンプリング点における前記基本波の値または位相を用いて補間処理を行うことにより、前記基本波の値または位相が前記指定値となる時刻を推定する、付記2に記載の音声合成装置。
(付記4)
前記音源波形生成部は、前記所定のサンプリング周期での何れかのサンプリング点と一致するピッチマークに前記所定のパルス波形としてインパルス関数波形を重畳し、一方、何れのサンプリング点とも一致しないピッチマークに前記所定のパルス波形としてsinc関数波形を重畳することで前記音源波形を生成する、付記1〜3の何れかに記載の音声合成装置。
(付記5)
前記包絡算出部は、前記音声波形の周波数スペクトルを前記音源波形の周波数スペクトルで除算することにより前記スペクトル包絡を算出する、付記1〜4の何れかに記載の音声合成装置。
(付記6)
前記包絡算出部は、前記音声波形の周波数スペクトル及び前記音源波形の周波数スペクトルを対数化してから逆フーリエ変換することで前記音声波形のケプストラム及び前記音源波形のケプストラムを算出し、前記音声波形のケプストラムから前記音源波形のケプストラムを減じることにより前記スペクトル包絡のケプストラムを算出し、該スペクトル包絡のケプストラムをフーリエ変換してから線形化することで前記スペクトル包絡を算出する、付記1〜4の何れかに記載の音声合成装置。
(付記7)
前記包絡算出部は、前記スペクトル包絡のケプストラムの所定次数以下の成分を抽出し、該所定次数以下の成分をフーリエ変換してから線形化することで前記スペクトル包絡を算出する、付記6に記載の音声合成装置。
(付記8)
声道での共振特性を表すスペクトル包絡を用いて合成音声を生成する音声合成方法であって、
所定のサンプリング周期で音声をサンプリングすることにより生成された音声波形に対して、前記所定のサンプリング周期よりも高精度で設定された、該音声波形のピッチ周期ごとの基準時刻を表すピッチマークに所定のパルス波形を重畳することで音源波形を生成し、
前記音声波形及び前記音源波形をそれぞれ直交変換することにより、前記音声波形の周波数スペクトル及び前記音源波形の周波数スペクトルを算出し、
前記音源波形の周波数スペクトル及び前記音声波形の周波数スペクトルに基づいて、前記スペクトル包絡を算出する、
ことを含む音声合成方法。
(付記9)
声道での共振特性を表すスペクトル包絡を用いて合成音声を生成する音声合成用コンピュータプログラムであって、
所定のサンプリング周期で音声をサンプリングすることにより生成された音声波形に対して、前記所定のサンプリング周期よりも高精度で設定された、該音声波形のピッチ周期ごとの基準時刻を表すピッチマークに所定のパルス波形を重畳することで音源波形を生成し、
前記音声波形及び前記音源波形をそれぞれ直交変換することにより、前記音声波形の周波数スペクトル及び前記音源波形の周波数スペクトルを算出し、
前記音源波形の周波数スペクトル及び前記音声波形の周波数スペクトルに基づいて、前記スペクトル包絡を算出する、
ことをコンピュータに実行させるための音声合成用コンピュータプログラム。
2 入力部
3 記憶部
4 処理部
5 出力部
6 スピーカ
10 言語処理部
11 音声合成部
12 スペクトル包絡抽出部
21 ピッチマーク設定部
22 音源波形生成部
23 切り出し部
24 窓掛部
25 直交変換部
26 包絡算出部
31 対数化部
32 逆フーリエ変換部
33 差分部
34 フーリエ変換部
35 線形化部
36 リフタ処理部
Claims (6)
- 声道での共振特性を表すスペクトル包絡を用いて合成音声を生成する音声合成装置であって、
所定のサンプリング周期で音声をサンプリングすることにより生成された音声波形に対して、前記所定のサンプリング周期よりも高精度で設定された、該音声波形のピッチ周期ごとの基準時刻を表すピッチマークに所定のパルス波形を重畳することで音源波形を生成する音源波形生成部と、
前記音声波形及び前記音源波形をそれぞれ直交変換することにより、前記音声波形の周波数スペクトル及び前記音源波形の周波数スペクトルを算出する直交変換部と、
前記音源波形の周波数スペクトル及び前記音声波形の周波数スペクトルに基づいて、前記スペクトル包絡を算出する包絡算出部と、
を有する音声合成装置。 - 前記音声波形の周波数スペクトルから基本周波数成分を抽出し、該基本周波数成分を逆直交変換することにより前記音声波形の基本波を算出し、該基本波の値または該基本波の位相が指定値となる時刻に前記ピッチマークを設定するピッチマーク設定部をさらに有する、請求項1に記載の音声合成装置。
- 前記音源波形生成部は、前記所定のサンプリング周期での何れかのサンプリング点と一致するピッチマークに前記所定のパルス波形としてインパルス関数波形を重畳し、一方、何れのサンプリング点とも一致しないピッチマークに前記所定のパルス波形としてsinc関数波形を重畳することで前記音源波形を生成する、請求項1または2に記載の音声合成装置。
- 前記包絡算出部は、前記音声波形の周波数スペクトルを前記音源波形の周波数スペクトルで除算することにより前記スペクトル包絡を算出する、請求項1〜3の何れか一項に記載の音声合成装置。
- 前記包絡算出部は、前記音声波形の周波数スペクトル及び前記音源波形の周波数スペクトルを対数化してから逆フーリエ変換することで前記音声波形のケプストラム及び前記音源波形のケプストラムを算出し、前記音声波形のケプストラムから前記音源波形のケプストラムを減じることにより前記スペクトル包絡のケプストラムを算出し、該スペクトル包絡のケプストラムをフーリエ変換してから線形化することで前記スペクトル包絡を算出する、請求項1〜3の何れか一項に記載の音声合成装置。
- 声道での共振特性を表すスペクトル包絡を用いて合成音声を生成する音声合成用コンピュータプログラムであって、
所定のサンプリング周期で音声をサンプリングすることにより生成された音声波形に対して、前記所定のサンプリング周期よりも高精度で設定された、該音声波形のピッチ周期ごとの基準時刻を表すピッチマークに所定のパルス波形を重畳することで音源波形を生成し、
前記音声波形及び前記音源波形をそれぞれ直交変換することにより、前記音声波形の周波数スペクトル及び前記音源波形の周波数スペクトルを算出し、
前記音源波形の周波数スペクトル及び前記音声波形の周波数スペクトルに基づいて、前記スペクトル包絡を算出する、
ことをコンピュータに実行させるための音声合成用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013262951A JP6213217B2 (ja) | 2013-12-19 | 2013-12-19 | 音声合成装置及び音声合成用コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013262951A JP6213217B2 (ja) | 2013-12-19 | 2013-12-19 | 音声合成装置及び音声合成用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015118334A JP2015118334A (ja) | 2015-06-25 |
JP6213217B2 true JP6213217B2 (ja) | 2017-10-18 |
Family
ID=53531069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013262951A Expired - Fee Related JP6213217B2 (ja) | 2013-12-19 | 2013-12-19 | 音声合成装置及び音声合成用コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6213217B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820257B (zh) * | 2020-12-29 | 2022-10-25 | 吉林大学 | 一种基于matlab的gui声音合成装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319390A (ja) * | 1996-05-30 | 1997-12-12 | Toshiba Corp | 音声合成方法及び装置 |
WO2007029633A1 (ja) * | 2005-09-06 | 2007-03-15 | Nec Corporation | 音声合成装置及び方法とプログラム |
JP5325130B2 (ja) * | 2010-01-25 | 2013-10-23 | 日本電信電話株式会社 | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム |
-
2013
- 2013-12-19 JP JP2013262951A patent/JP6213217B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015118334A (ja) | 2015-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
US20150302845A1 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
US10255903B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
JP2009031452A (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
CN104575487A (zh) | 一种语音信号的处理方法及装置 | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP6520108B2 (ja) | 音声合成装置、方法、およびプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2018077283A (ja) | 音声合成方法 | |
Govind et al. | Dynamic prosody modification using zero frequency filtered signal | |
KR20180078252A (ko) | 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법 | |
AU2014395554B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
Haque et al. | Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
US9196263B2 (en) | Pitch period segmentation of speech signals | |
JP2019074580A (ja) | 音声認識方法、装置およびプログラム | |
CN112164387A (zh) | 音频合成方法、装置及电子设备和计算机可读存储介质 | |
JP2013195928A (ja) | 音声素片切出装置 | |
CN112750422B (zh) | 一种歌声合成方法、装置及设备 | |
JP2018077281A (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6213217 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |