JP6502099B2 - 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム - Google Patents

声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム Download PDF

Info

Publication number
JP6502099B2
JP6502099B2 JP2015006044A JP2015006044A JP6502099B2 JP 6502099 B2 JP6502099 B2 JP 6502099B2 JP 2015006044 A JP2015006044 A JP 2015006044A JP 2015006044 A JP2015006044 A JP 2015006044A JP 6502099 B2 JP6502099 B2 JP 6502099B2
Authority
JP
Japan
Prior art keywords
egg
signal
time
glottal
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015006044A
Other languages
English (en)
Other versions
JP2016133522A (ja
Inventor
浩輝 大橋
浩輝 大橋
定男 廣谷
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015006044A priority Critical patent/JP6502099B2/ja
Publication of JP2016133522A publication Critical patent/JP2016133522A/ja
Application granted granted Critical
Publication of JP6502099B2 publication Critical patent/JP6502099B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、電気声門図(「Electro Glotto Graph」、以下「EGG」ともいう)信号を用いた声門閉鎖時刻推定技術、音声信号を用いたピッチマーク時刻推定技術、ピッチ波形接続点推定技術に関する。
音声合成、音声変換、音声の特徴量抽出等において、音声信号における声門閉鎖時刻(以下、「音声信号における声門閉鎖時刻」を「ピッチマーク時刻」ともいう)を検出することが要求されることがある。音声合成及び音声変換では、ピッチマーク時刻で切り出した音声信号を再配置することで、基本周波数及び声質の少なくとも何れかの変換(特許文献1参照)、または、複数話者の音声の合成(特許文献2参照)が可能になる。また、音声の特徴量抽出に関する技術では、ピッチマーク時刻を検出することで、音源と声道の特性を適切に分離でき、声道スペクトルを高精度で推定することが可能になる(特許文献3参照)。
こうした音声合成、音声変換及び音声分析等の基盤技術となっているピッチマーク時刻の推定手法として、従来、学習データを用いる方法、フィルタリングした音声信号の極大値や、線形予測(Linear Predictive Coding、以下LPC)分析による予測値と実測音声信号との誤差(LPC残差)信号の振幅極大値を検出する方法(非特許文献1参照)などが提案されてきた。
特開平10−247095号公報 特開平9−152892号公報 特開2011−150232号公報
しかしながら、従来提案されている音声信号のみを用いたピッチマーク時刻推定方法では、雑音が混入した音声や女性音声のような基本周波数が高い音声を対象とした場合はピッチマーク時刻の推定精度が低くなる場合がある。
こうした音声信号のみを用いたピッチマーク時刻の推定方法が提案されている一方で、EGG信号を併用してピッチマーク時刻を推定することが考えられる。
本発明は、実時間で、EGG信号を用いて高精度でEGG信号における声門閉鎖時刻(以下、「EGG信号における声門閉鎖時刻」を「EGG声門閉鎖時刻」ともいう)を推定する技術、または、音声信号と共にEGG信号を用いて高精度でピッチマーク時刻を推定する技術、音声信号と共にEGG信号を用いて高精度でピッチ波形の接続点を推定する技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、声門閉鎖時刻推定装置は、EGG信号を用いて、EGG差分信号を算出するEGG差分算出部と、EGG信号の基本周期を推定する基本周期推定部と、EGG信号の零交差時刻を算出する零交差時刻算出部と、零交差時刻を含み、基本周期に対応する探索幅を持つ探索範囲から、EGG差分信号が最大となる時刻をEGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻の候補として探索する候補探索部と、想定される基本周期の最小値をF'0とし、分析フレーム長をNとし、Δを最小値F'0よりも小さい正の整数とし、(1)候補の個数がN/F'0以下の場合、候補全てをEGG声門閉鎖時刻として選択し、(2)候補の個数がN/F'0より大きい場合、基準となるEGG声門閉鎖時刻に基本周期を加えた値を中心として、±Δの範囲に含まれる候補のうち、対応するEGG差分信号が最大となるものをEGG声門閉鎖時刻として選択する声門閉鎖時刻選択部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、ピッチマーク時刻推定装置は、音声信号を用いて、音声信号における声門閉鎖時刻であるピッチマーク時刻を推定する。ピッチマーク時刻推定装置は、EGG信号を用いて、EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定するEGG声門閉鎖時刻推定部と、EGG信号に対応する音声信号とEGG声門閉鎖時刻に対応する値を用いて、ピッチマーク時刻を推定するピッチマーク時刻推定部とを含む。ピッチマーク時刻推定部は、音声信号からLPC残差信号を求めるLPC残差取得部と、音声信号に対応する値と、EGG信号に対応する値との相互相関に基づき、EGG信号に対応する値に対する音声信号に対応する値の遅延を推定する遅延推定部と、Δ1を音声信号の基本周期より小さい値とし、EGG声門閉鎖時刻に対応する値に遅延を加えた値を中心として、±Δ1の範囲に含まれる時刻のうち、対応するLPC残差信号が最大または最小となるものを、ピッチマーク時刻として推定する時刻推定部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、ピッチ波形接続点推定装置は、音声合成に用いるピッチ波形の接続点を推定する。ピッチ波形接続点推定装置は、EGG信号を用いて、EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定するEGG声門閉鎖時刻推定部と、EGG信号に対応する音声信号とEGG声門閉鎖時刻に対応する値を用いて、ピッチ波形の接続点を推定するピッチ波形接続点推定部とを含む。ピッチ波形接続点推定部は、音声信号に対応する値と、EGG信号に対応する値との相互相関に基づき、EGG信号に対応する値に対する音声信号に対応する値の遅延を推定する遅延推定部と、EGG声門閉鎖時刻に対応する値に遅延を加えた値を、接続点として推定する加算部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、声門閉鎖時刻推定方法は、EGG信号を用いて、EGG差分信号を算出するEGG差分算出ステップと、EGG信号の基本周期を推定する基本周期推定ステップと、EGG信号の零交差時刻を算出する零交差時刻算出ステップと、零交差時刻を含み、基本周期に対応する探索幅を持つ探索範囲から、EGG差分信号が最大となる時刻をEGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻の候補として探索する候補探索ステップと、想定される基本周期の最小値をF'0とし、分析フレーム長をNとし、Δを最小値F'0よりも小さい正の整数とし、(1)候補の個数がN/F'0以下の場合、候補全てをEGG声門閉鎖時刻として選択し、(2)候補の個数がN/F'0より大きい場合、基準となるEGG声門閉鎖時刻に基本周期を加えた値を中心として、±Δの範囲に含まれる候補のうち、対応するEGG差分信号が最大となるものをEGG声門閉鎖時刻として選択する声門閉鎖時刻選択ステップとを含む。
上記の課題を解決するために、本発明の他の態様によれば、ピッチマーク時刻推定方法は、音声信号を用いて、音声信号における声門閉鎖時刻であるピッチマーク時刻を推定する。ピッチマーク時刻推定方法は、EGG信号を用いて、EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定するEGG声門閉鎖時刻推定ステップと、EGG信号に対応する音声信号とEGG声門閉鎖時刻に対応する値を用いて、ピッチマーク時刻を推定するピッチマーク時刻推定ステップとを含む。ピッチマーク時刻推定ステップは、音声信号からLPC残差信号を求めるLPC残差取得ステップと、音声信号に対応する値と、EGG信号に対応する値との相互相関に基づき、EGG信号に対応する値に対する音声信号に対応する値の遅延を推定する遅延推定ステップと、Δ1を音声信号の基本周期より小さい値とし、EGG声門閉鎖時刻に対応する値に遅延を加えた値を中心として、±Δ1の範囲に含まれる時刻のうち、対応するLPC残差信号が最大または最小となるものを、ピッチマーク時刻として推定する時刻推定ステップとを含む。
上記の課題を解決するために、本発明の他の態様によれば、ピッチ波形接続点推定方法は、音声合成に用いるピッチ波形の接続点を推定する。ピッチ波形接続点推定方法は、EGG信号を用いて、EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定するEGG声門閉鎖時刻推定ステップと、EGG信号に対応する音声信号とEGG声門閉鎖時刻に対応する値を用いて、ピッチ波形の接続点を推定するピッチ波形接続点推定ステップとを含む。ピッチ波形接続点推定ステップは、音声信号に対応する値と、EGG信号に対応する値との相互相関に基づき、EGG信号に対応する値に対する音声信号に対応する値の遅延を推定する遅延推定ステップと、EGG声門閉鎖時刻に対応する値に遅延を加えた値を、接続点として推定する加算ステップとを含む。
本発明によれば、従来よりも高精度でEGG声門閉鎖時刻、ピッチマーク時刻、ピッチ波形の接続点の少なくとも何れかを推定することができるという効果を奏する。
第一実施形態に係るピッチマーク時刻推定装置の機能ブロック図。 第一実施形態に係るピッチマーク時刻推定装置の処理フローの例を示す図。 EGG声門閉鎖時刻推定部の機能ブロック図。 EGG声門閉鎖時刻推定部の処理フローの例を示す図。 時刻検出部の機能ブロック図。 時刻検出部の処理フローの例を示す図。 ピッチマーク時刻推定部の機能ブロック図。 ピッチマーク時刻推定部の処理フローの例を示す図。 時刻検出部の機能ブロック図。 時刻検出部の処理フローの例を示す図。 各信号の波形の例を示す図。 第二実施形態に係る波形接続点推定装置の機能ブロック図。 第二実施形態に係る波形接続点推定装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」「-」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
本実施形態では、実時間で、EGG信号が与えられた場合に、EGG声門閉鎖時刻を推定する方法を提案し、さらに、音声信号とEGG信号が与えられた場合、EGG声門閉鎖時刻と音声信号のLPC残差信号との相互相関を計算することで、EGG声門閉鎖時刻に対するLPC残差信号の遅延を推定し、推定した遅延とEGG声門閉鎖時刻とLPC残差信号とを用いてピッチマーク時刻を推定する方法を提案する。
<第一実施形態に係るピッチマーク時刻推定装置100>
図1は第一実施形態に係るピッチマーク時刻推定装置100の機能ブロック図を、図2はその処理フローを示す。
ピッチマーク時刻推定装置100は、音声信号sS(t)(図11参照)とEGG信号sE(t)(図11参照)とを用いて、ピッチマーク時刻{ti S}を推定し、出力する。なお、図11は各信号の波形の例を示す。
例えば、ピッチマーク時刻推定装置100は、EGG声門閉鎖時刻推定部110と、ピッチマーク時刻推定部120とを含む。以下、各部の詳細について説明する。
<EGG声門閉鎖時刻推定部110>
EGG声門閉鎖時刻推定部110は、EGG信号sE(t)を受け取り、EGG信号sE(t)を用いて、EGG声門閉鎖時刻{ti E}を推定し(S110)、出力する。
図3はEGG声門閉鎖時刻推定部110の機能ブロック図を、図4はその処理フローを示す。
EGG声門閉鎖時刻推定部110は、EGG差分算出部111と基本周期推定部112と時刻検出部113とを含む。
(EGG差分算出部111)
EGG差分算出部111は、EGG信号sE(t)を受け取り、EGG信号sE(t)を用いて、EGG差分信号ΔsE(t)=sE(t)-sE(t-1)(図11参照)を算出し(S111)、出力する。
(基本周期推定部112)
基本周期推定部112は、EGG信号sE(t)を受け取り、EGG信号sE(t)を用いて、EGG信号sE(t)の基本周期F0を推定し(S112)、出力する。例えば、次式により、EGG信号sE(t)の自己相関が最大になる時刻を基本周期F0として求める。
(時刻検出部113)
時刻検出部113は、少なくともEGG差分信号ΔsE(t)と基本周期F0とを受け取り、これらの値を用いて、EGG声門閉鎖時刻{ti E}を推定し(S113)、出力する(図11参照)。本実施形態では2つの推定方法を提案する。
(推定方法1)
基本周期F0毎にEGG差分信号ΔsE(t)が極大値をとる時点を検出し、EGG声門閉鎖時刻{ti E}とする。例えば、基本周期F0よりも大きな周期r×F0の矩形窓を用いて、EGG差分信号ΔsE(t)から信号を切り出し、切り出された信号の最大値を検出する。例えば、r×F0個のEGG差分信号ΔsE(t-r×F0+1),ΔsE(t-r×F0+2),…,ΔsE(t)の最大値を検出し、最大値に対応する時刻をEGG声門閉鎖時刻ti Eとする。この処理を、窓位置を時間的に変化させて行うことで、EGG声門閉鎖時刻{ti E}を検出することができる。係数rは1よりも若干大きな値(例えば1.2など)に設定するとよい。
(推定方法2)
図5は本推定方法を実施する場合の時刻検出部113の機能ブロック図を、図6はその処理フローを示す。
時刻検出部113は、零交差時刻算出部113Aと、候補探索部113Bと、声門閉鎖時刻選択部113Cとを含む。
この推定方法では、時刻検出部113は、EGG信号sE(t)も受け取る。
(零交差時刻算出部113A)
零交差時刻算出部113Aは、EGG信号sE(t)を受け取り、EGG信号sE(t)の零交差時刻{ti X}を算出し(S113A)、出力する。例えば、次式によって定義される、平均値を減算したEGG信号の零交差時刻{ti X}を計算する。
ここでNは分析フレーム長であり、sgn(A)は、Aが負の値のときに-1を返し、Aが正の値のときに1を返す関数である。つまり、零交差時刻{ti X}は、時刻(t-1)においてEGG信号sE(t-1)と分析フレームの平均値との差分が負の値であり、時刻(t)においてEGG信号sE(t)と分析フレームの平均値との差分が正の値である時刻tの集合である。なお、集合に含まれる要素数をIとし、i=1,2,…,Iである。
(候補探索部113B)
候補探索部113Bは、零交差時刻{ti X}とEGG差分信号ΔsE(t)と基本周期F0とを受け取り、零交差時刻{ti X}を含み、基本周期F0に対応する探索幅|(wR+wL)×F0|を持つ探索範囲(ti X-wL×F0)〜(ti X+wR×F0)から、EGG差分信号ΔsE(t)が最大となる時刻をEGG声門閉鎖時刻の候補{t^i E}として探索し(S113B)、出力する。例えば、次式により、候補{t^i E}を求める。
ただし、式中の
は、候補t^i Eを表す。wL、wRは基本周期F0に対する探索幅を意味しており、例えば、それぞれ0.4、0.1とする。
(声門閉鎖時刻選択部113C)
想定される基本周期の最小値をF'0とすると、検出される声門閉鎖時刻の最大値(最大個数)はN/(F'0)となる。
声門閉鎖時刻選択部113Cは、候補{t^i E}とEGG差分信号ΔsE(t)と基本周期F0とを受け取り、(1)候補の個数がN/F'0以下の場合、候補{t^i E}を全てEGG声門閉鎖時刻{ti E}として選択し、(2)候補の個数がN/F'0より大きい場合、基準となるEGG声門閉鎖時刻に基本周期F0を加えた値を中心として、±Δの範囲に含まれる候補{t^i E}のうち、対応するEGG差分信号ΔsE(t)が最大となるものをEGG声門閉鎖時刻{ti E}として選択し(S113C)、出力する。ただし、Δを最小値F'0よりも小さい正の整数である。例えば、基準となるEGG声門閉鎖時刻は、以下のようにして求める。i=1のとき、つまり、当該分析フレームnにおいて、最初のEGG声門閉鎖時刻t1 E(n)を求めるとき、直前の分析フレーム(n-1)の最後の声門閉鎖時刻tI E(n-1)を基準となるEGG声門閉鎖時刻とする。よって、tI E(n-1)+F0±Δの範囲に含まれるt^i E(n)を、当該分析フレームnにおける最初のEGG声門閉鎖時刻t1 Eとする。ただし、tI E(n-1)+F0±Δの範囲に複数の候補t^i E(n)が含まれる場合、対応するEGG差分信号ΔsE(t^i E(n))が最大となるものを、EGG声門閉鎖時刻ti E(n)として選択する。i≧2のとき、一つ前のEGG声門閉鎖時刻ti-1 E(n)を基準となるEGG声門閉鎖時刻とする。よって、ti-1 E(n)+F0±Δの範囲に含まれるt^i E(n)をEGG声門閉鎖時刻ti E(n)とする。複数の候補t^i E(n)が含まれる場合の処理は、i=1のときと同様である。
推定方法2は推定方法1よりも頑健にEGG声門閉鎖時刻{ti E}を推定することができる。
<ピッチマーク時刻推定部120>
ピッチマーク時刻推定部120は、EGG信号sE(t)に対応する音声信号sS(t)とEGG声門閉鎖時刻{ti E}を受け取り、これらの値を用いて、ピッチマーク時刻{ti S}を推定し(S120)、出力する。
図7はピッチマーク時刻推定部120の機能ブロック図を、図8はその処理フローの例を示す。
ピッチマーク時刻推定部120は、遅延推定部121と時刻推定部122とを含む。
EGG信号は、喉の辺りに電極を貼り付け、声門の開閉によって生じるインピーダンスの変化を測定して得られる信号であり、EGG声門閉鎖時刻は、EGG信号に基づき、取得される声門閉鎖時刻である。一方、ピッチマーク時刻は、音声信号(例えば、対象者の発した音をマイクロホンで収音した信号)に基づき、取得される声門閉鎖時刻である。そのため、声門近傍からマイクロホンで収音されるまでに遅延が生じる。EGG信号と音声信号とを用いて、ピッチマーク時刻を推定しようとするならば、この遅延を考慮する必要がある。遅延推定部121では、この遅延を推定する。
(遅延推定部121)
遅延推定部121は、音声信号sS(t)とEGG声門閉鎖時刻{ti E}を受け取り、音声信号sS(t)から得られるLPC残差信号e(t)(詳細は後述する)と、EGG声門閉鎖時刻{ti E}から得られるインパルス列δ(t,{ti E})(詳細は後述する)との相互相関に基づき、EGG信号sE(t)に対するLPC残差信号e(t)の遅延τを推定し(S121)、出力する。
遅延推定部121は、高域強調部121AとLPC残差取得部121Cと、相互相関推定部121Dとインパルス列算出部121Eとを含む。
(高域強調部121A)
高域強調部121Aは、音声信号sS(t)を受け取り、音源スペクトルの傾斜特性を取り除くために高域強調した音声信号ΔsS(t)を次式により求め(S121A)、出力する。
αは、例えば0.97を用いる。
(LPC残差取得部121C)
LPC残差取得部121Cは、音声信号ΔsS(t)を受け取り、LPC分析によりLPC係数{ak}を求める。ただし、kはLPC分析の次数を表すインデックスである。さらに、LPC残差取得部121Cは、音声信号ΔsS(t)とLPC係数{ak}とを用いて、次式によりLPC残差信号e(t)(図11参照)を求め(S121C)、出力する。
(インパルス列算出部121E)
インパルス列算出部121Eは、EGG声門閉鎖時刻{ti E}を受け取り、この値を用いて、次式で表されるインパルス列δ(t,{ti E})を算出し(S121E)、出力する。
インパルス列δ(t,{ti E})は、EGG声門閉鎖時刻{ti E}に対応する時刻において1を、それ以外の時刻において0を持つ。
(相互相関推定部121D)
相互相関推定部121Dは、LPC残差信号e(t)とインパルス列δ(t,{ti E})とを受け取り、次式により、LPC残差信号e(t)とインパルス列δ(t,{ti E})との相互相関を推定することで(S121D)、EGG信号sE(t)に対するLPC残差信号e(t)の遅延τを推定し、出力する。
なお、音声信号sS(t)に対応する他の値とEGG信号sE(t)に対応する他の値の相互相関でも遅延τを求めることができる。例えば、音声信号sS(t)とEGG信号sE(t)、音声信号sS(t)とEGG差分信号ΔsE(t)、LPC残差信号e(t)とEGG信号sE(t)、LPC残差信号e(t)とEGG差分信号ΔsE(t)のいずれかの相互相関を計算し、相互相関の値が最大となる値を遅延τとすればよい。このとき、遅延推定部121は少なくとも相互相関の計算に必要となる値を求めるための構成を備えればよい。
(時刻推定部122)
時刻推定部122は、遅延τとEGG声門閉鎖時刻{ti E}とLPC残差信号e(t)とを受け取り、EGG声門閉鎖時刻ti Eに遅延τを加えた値ti E+τを中心として、±Δ1の範囲(ti E+τ±Δ1)に含まれる時刻のうち、対応するLPC残差信号e(t)が最大または最小となるものを、ピッチマーク時刻ti Sとして推定し(S122)、出力する。なお、Δ1を基本周期F0より小さい値とする。遅延τの分散は非常に小さいため、Δ1は1か2の微小値に設定すればよい。本実施形態では2つの推定方法を提案する。
(推定方法1)
次式により、範囲(ti E+τ±Δ1)に含まれる時刻のうち、対応するLPC残差信号e(t)の振幅が最大となる時刻tを、ピッチマーク時刻ti Sとして推定する。
(推定方法2)
図9は本推定方法を実施する場合の時刻推定部122の機能ブロック図を、図10はその処理フローを示す。
時刻推定部122は最小値最大値時刻取得部122Aと、最大値時刻取得部122Bと、選択部122Cと、位相等化残差検出部122Dと、ピーク取得部122Eとを含む。
最小値最大値時刻取得部122A及び最大値時刻取得部122Bでは、範囲(ti E+τ±Δ1)に含まれる時刻の内、LPC残差信号e(t)が局所的に鋭敏且つ振幅が大きな時刻を、ピッチマーク時刻の候補の1つとして検出する。最小値最大値時刻取得部122Aでは振幅の大きな時刻を絞り込み、最大値時刻取得部122Bでは局所的に鋭敏な時刻を絞り込む。
(最小値最大値時刻取得部122A)
最小値最大値時刻取得部122Aは、遅延τとEGG声門閉鎖時刻{ti E}とLPC残差信号e(t)とを受け取り、次式により、範囲(ti E+τ±Δ1)において、LPC残差信号e(t)が最小値または最大値となる時刻{t^0i -},{t^0i +}を取得し(S122A)、出力する。
ただし、式中の
及び
は、それぞれ時刻t^0i -,t^0i +を表す。
(最大値時刻取得部122B)
最大値時刻取得部122Bは、時刻{t^0i -},{t^0i +}を受け取り、次式により、それぞれの要素の内、範囲(t^0i -±Δ2)、(t^0i +±Δ2)におけるLPC残差信号e(t^0i --i)(ただし、i∈{-Δ2,-Δ2+1,…,+Δ2,})と、LPC残差信号e(t^0i -)との差分の総和が最も大きい時刻t^0 -及びt^0 +を求め(S122B)、出力する。
ただし、式中の
及び
は、それぞれ時刻t^0 -,t^0 +を表す。なお、Δ2は3や5などの値とする。なお、ここでは、二乗和を用いているが、局所的な鋭敏性を捉えられる他の関数、例えば絶対値の和などを用いても良い。
(選択部122C)
選択部122Cは、時刻t^0 -,t^0 +を受け取り、t^0 -,t^0 +のうち、直前の分析フレーム(n-1)の時刻t^0 (n-1)近傍との相関の高い方を現在の分析フレームnの時刻t^0 (n)として選択し(S122C)、出力する。
なお、上記の方法は、ピッチマーク時刻におけるLPC残差信号e(t)の値が、正負どちらの符号を取るか分からない場合のものである。ピッチマーク時刻におけるLPC残差信号e(t)の振幅が正負のどちらかに偏っている場合等、符号が予測できる場合は、時刻t^0 -,t^0 +のどちらか一方だけを検出し、t^0とすることができる。例えば、ピッチマーク時刻のLPC残差信号e(t)の値が正の値をとると仮定できる場合は、{t^0i +}からt^0 +を検出し、これをt^0とし、選択部122Cを備えなくともよい。
(位相等化残差検出部122D)
位相等化残差検出部122Dは、時刻t^0とLPC残差信号e(t)とを受け取り、次式により、位相等化残差信号eP(t)(図11参照)を求め(S122D)、出力する。
ただし、2M+1は位相等化フィルタのタップ数である。
(ピーク取得部122E)
ピーク取得部122Eは、位相等化残差信号eP(t)を受け取り、所定の閾値と比較し、閾値を超える時刻tをピッチマーク時刻{ti S}とし(s122E)、出力する。位相等化残差検出部122Dの処理によって、ピッチマーク時刻の候補の1つt^0の近傍と相関の高い時刻の振幅が強調されるため(図11参照)、ピーク取得部122Eでピークを取得することでピッチマーク時刻を取得することができる(非特許文献1参照)。
推定方法2は推定方法1よりも正確にピッチマーク時刻{ti E}を推定することができる。
<効果>
以上の構成により、従来よりも高精度でピッチマーク時刻を推定することができる。EGG信号を用いることで、雑音が混入した音声信号や基本周波数が高い音声信号を対象にした場合であっても、ピッチマーク時刻を正確に推定することができる。このように求めたピッチマーク時刻を用いることで、より頑健に、音声合成、音声変換及び音声分析等を行うことができる。
<変形例>
本実施形態では、EGG声門閉鎖時刻{ti E}を用いたが、ピッチマーク時刻{ti S}と位相同期している時刻であれば、EGG声門閉鎖時刻{ti E}は、他の時刻、例えばEGG信号が振幅極大値をとる時刻で代用することが出来る。ピッチマーク時刻{ti S}と位相同期している時刻は、EGG声門閉鎖時刻{ti E}に対応する時刻とも言える。
このとき、EGG声門閉鎖時刻推定部110は少なくともEGG声門閉鎖時刻{ti E}に対応する時刻を求めるための構成を備えればよい。
なお、EGG声門閉鎖時刻推定部110を別装置としEGG声門閉鎖時刻推定装置としてもよい。EGG声門閉鎖時刻推定装置は、EGG信号sE(t)を入力とし、EGG声門閉鎖時刻{ti E}を推定し、出力する。なお、本実施形態の時刻検出部113の推定方法2では、EGG信号sE(t)を用いてEGG声門閉鎖時刻{ti E}を推定するための新たな方法を提案している。
<第二実施形態>
また、音声合成への応用の観点から、隣接した2つのピッチ波形を接続した信号の、スペクトル歪を小さくしたいことがある。そのためには、音声信号に基づいてピッチ波形の接続点を検出することが考えられるが、この場合においても、EGG信号を併用することが有効である。例えば、EGG信号の極大値及び極小値の時刻に、EGG信号と音声信号(もしくはEGG差分信号と音声信号)の相互相関が最大になる遅延を加算することで、ピッチ波形の接続点を決定することができる。
<第二実施形態に係るピッチ波形接続点推定装置200>
ピッチ波形接続点推定装置200は、音声合成に用いるピッチ波形の接続点を推定する。
図12はピッチ波形接続点推定装置200の機能ブロック図を、図13はその処理フローの例を示す。
ピッチ波形接続点推定装置200は、EGG声門閉鎖時刻推定部210とピッチ波形接続点推定部220とを含む。
<EGG声門閉鎖時刻推定部210>
EGG声門閉鎖時刻推定部210は、EGG信号sE(t)を受け取り、EGG信号sE(t)を用いて、EGG声門閉鎖時刻{ti E}に対応する値であるEGG信号sE(t)の極大値及び極小値(図11参照)の時刻{ti max}及び{ti min}を推定し(S210)、出力する。
<ピッチ波形接続点推定部220>
ピッチ波形接続点推定部220は、EGG信号に対応する音声信号sS(t)と極大値及び極小値の時刻{ti max}及び{ti min}を受け取り、これらの値を用いて、ピッチ波形の接続点を推定し(S220)、出力する。
ピッチ波形接続点推定部220は、遅延推定部121と加算部222とを含む。なお、遅延推定部121の構成は第一実施形態と同様である。遅延推定部121において、EGG声門閉鎖時刻{ti E}を受け取らないのであれば、例えば、次式により、時刻{ti max}及び{ti min}からインパルス列δ(t,{ti max})、δ(t,{ti min})を算出してもよいし、音声信号sS(t)に対応する他の値とEGG信号sE(t)に対応する他の値の相互相関でも遅延τを求めてもよい(S121)。
(加算部222)
加算部222は、極大値及び極小値の時刻{ti max}及び{ti min}と遅延τとを受け取り、極大値及び極小値の時刻{ti max}及び{ti min}に遅延τを加えた値を、接続点{ti lin}として推定し(S222)、出力する。
<効果>
このような構成とすることで、高精度でピッチ波形の接続点を推定することができる。
<変形例>
また、その他のピッチ波形接続点を推定する方法として、LPC残差信号のピーク近傍時刻から、基本周期の10-20%遅延した時刻を中心として窓関数を適用した場合に、ピッチ波形のスペクトル歪が最小になること(参考文献1)から、ピッチマーク時刻{ti S}から基本周期F0の10-20%遅延した範囲における、音声信号sS(t)の振幅最大値をピッチ波形の接続点とすることも可能である。この場合、第一実施形態で求めたピッチマーク時刻{ti S}を用いればよい。
(参考文献1)望月亮, 新居康彦, 西村洋文, 本多高, 「駆動点同期型ピッチ波形抽出法」, 日本音響学会誌, 1997, 53, 772-778.
<第三実施形態>
本実施形態では、第一実施形態のピッチマーク時刻推定装置100で推定したピッチマーク時刻{ti S}を用いた応用例について説明する。
<声道スペクトル推定装置>
上記の方法によって得られたピッチマーク時刻{ti S}を利用して、声道スペクトルを高精度に推定する方法について説明する(特許文献3参照)。
ピッチマーク時刻{ti S}の検出の過程において計算したLPC残差信号e(t)と、ピッチマーク時刻{ti S}を用いて、各ピッチマーク時刻{ti S}を中心とした位相等化フィルタを求め、音声信号sS(t)を通すことで、位相等化音声信号sP(t)を取得する。
位相等化音声信号sP(t)のLPC係数{a^i}は次式を解くことで求めることができる。
ここで、RPPは位相等化音声信号sP(t)の自己相関関数、pはLPC次数であり、i=1,2,…,pである。上式をLevinson法で解く際に得られる偏自己相関(PARtial autoCORrelation、以下「PARCOR」ともいう)係数{k^i}を用いて、音源パルスの振幅Gは次式で求まる。
LPC係数{a^i}と音源パルスの振幅Gを交互に計算することで、最適なLPC係数{a^i}を得ることができる。なお、音源パルスの振幅Gの初期値は、LPC係数{a^i}に対応するPARCOR係数と位相等化信号の自己相関関数RPPを用いて計算する。
<第四実施形態>
さらに、本実施形態では、第三実施形態の声道スペクトル推定装置によって得られたLPC係数{a^i}を用いて、音声のフォルマント周波数を変換する方法を説明する(参考文献2参照)。
(参考文献2)Villacorta, V.M., Perkell, J.S., and Guenther, F.H., "Sensorimotor adaptation to feedback perturbations of vowel acoustics and its relation to perception", J. Acoust. Soc. Am., 2007, 122, p.2306-2319.
<音声変換装置>
フォルマント周波数{Fi}とその帯域幅{Bi}は、LPC係数{a^i}によって得られる予測多項式の根{zi}から次式で得られる。なおFsはサンプリング周波数である。
変換するフォルマント周波数と帯域幅に対応する声道スペクトルをA(zi)、変換後のスペクトルをA'(zi)とすると、
に元音声信号sS(t)を通すことにより、変換音声y(t)を生成することができる。
<第五実施形態>
<声質変換装置>
第一実施形態のピッチマーク時刻推定装置100で推定したピッチマーク時刻を利用して、音声の声質を変換する方法について説明する(特許文献1参照)。EGG信号から抽出したピッチマーク時刻{ti S}に基づき、ピッチマーク時刻間隔でピッチ波形を作成する。即ち、i番目のピッチ波形si seg(t)は次式で定義される。
隣接する2つのピッチ波形を結合して1つの信号とし、ピッチ波形の2倍の窓幅の窓関数を掛けた後、アップサンプリングもしくはダウンサンプリングする。この処理を、全ての隣接する2つのピッチ波形で行った後、時間的に重ね合わせて加算することで声質の異なる音声を合成することができる。
<第六実施形態>
<話速変換装置>
ピッチ波形を、増やすもしくは間引くことで、音声の発話速度を変更することができる。
<第七実施形態>
<二話者音声合成装置>
第一実施形態のピッチマーク時刻推定装置100で推定したピッチマーク時刻を利用して、2人の話者が生成した2つの音声を接続する方法について説明する(特許文献2参照)。以下、話者1の音声から話者2の音声に接続する場合を示す。
それぞれの音声信号とEGG信号から抽出したピッチマーク時刻{ti S}に基づき、ピッチマーク時刻間隔でピッチ波形を作成する。
通常、2つの異なる音声は、基本周波数が異なるため、音声接続前に、2つの音声の基本周波数を揃える。基本周波数の変換方式の一例として、PSOLA方式(参考文献3)が挙げられる。この方法では、ピッチ波形を任意の周期間隔で並べ、加重加算することで、基本周波数の変換が実現される。
(参考文献3)Moulines, M., and Charpentier, F., "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones", Speech Commun., 1990, 9, 453-467.
続いて、話者1、2の当該ピッチに相当するピッチ波形をフーリエ変換にてスペクトル分析する。話者1のピッチ波形から求めたスペクトルの内、任意の周波数βHzより高い帯域部分を切り出す。一方、話者2のスペクトルからは、周波数βHzよりも低い帯域部分を切り出す。各話者から切り出したスペクトルを、周波数βHzを境界にして結合した後、逆フーリエ変換を行うことで、1ピッチ分の音声信号を得る。
境界周波数βHzを時間的に変化させながら、ピッチ毎に上記の処理を行うことで、話者1から話者2の音声に接続することができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. EGG信号を用いて、EGG差分信号を算出するEGG差分算出部と、
    前記EGG信号の基本周期を推定する基本周期推定部と、
    前記EGG信号の零交差時刻を算出する零交差時刻算出部と、
    前記零交差時刻を含み、前記基本周期に対応する探索幅を持つ探索範囲から、前記EGG差分信号が最大となる時刻をEGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻の候補として探索する候補探索部と、
    想定される基本周期の最小値をF'0とし、分析フレーム長をNとし、Δを最小値F'0よりも小さい正の整数とし、(1)前記候補の個数がN/F'0以下の場合、前記候補全てをEGG声門閉鎖時刻として選択し、(2)前記候補の個数がN/F'0より大きい場合、基準となるEGG声門閉鎖時刻に前記基本周期を加えた値を中心として、±Δの範囲に含まれる候補のうち、対応するEGG差分信号が最大となるものをEGG声門閉鎖時刻として選択する声門閉鎖時刻選択部とを含む、
    声門閉鎖時刻推定装置。
  2. 音声信号を用いて、音声信号における声門閉鎖時刻であるピッチマーク時刻を推定するピッチマーク時刻推定装置であって、
    EGG信号を用いて、EGG差分信号を算出するEGG差分算出部と、
    前記EGG信号の基本周期を推定する基本周期推定部と、
    前記EGG差分信号と前記基本周期を用いて、前記EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定する時刻検出部と、
    前記EGG信号に対応する音声信号と前記EGG声門閉鎖時刻に対応する値を用いて、ピッチマーク時刻を推定するピッチマーク時刻推定部とを含み、
    前記ピッチマーク時刻推定部は、
    前記音声信号からLPC残差信号を求めるLPC残差取得部と、
    前記LPC残差信号と、前記EGG声門閉鎖時刻に対応する値に対応する時刻においてパルスをもつようなインパルス列との相互相関に基づき、前記EGG信号に対応する値に対する前記音声信号に対応する値の遅延を推定する遅延推定部と、
    Δ1を音声信号の基本周期より小さい値とし、前記EGG声門閉鎖時刻に対応する値に前記遅延を加えた値を中心として、±Δ1の範囲に含まれる時刻のうち、対応するLPC残差信号が最大または最小となるものを、ピッチマーク時刻として推定する時刻推定部とを含む、
    ピッチマーク時刻推定装置。
  3. 請求項2のピッチマーク時刻推定装置であって、
    前記時刻推定部は、
    LPC残差信号が最大となる時刻である最大値時刻t^0i +と最小となる時刻である最小値時刻t^0i -とを取得する最小最大値時刻取得部と、
    前記最大値時刻t^0i +及び最小値時刻t^0i -におけるLPC残差信号と、範囲(t^0i -±Δ2)、(t^0i +±Δ2)におけるLPC残差信号との差分の総和が最も大きい時刻t^0 -及びt^0 +を求める最大値時刻取得部と、
    前記時刻t^0 -またはt^0 +と前記LPC残差信号とを用いて、位相等化残差信号を求める位相等化残差検出部と、
    前記位相等化残差信号と所定の閾値と比較し、閾値を超える時刻をピッチマーク時刻として推定するピーク取得部とを含む、
    ピッチマーク時刻推定装置。
  4. 音声合成に用いるピッチ波形の接続点を推定するピッチ波形接続点推定装置であって、
    EGG信号を用いて、EGG差分信号を算出するEGG差分算出部と、
    前記EGG信号の基本周期を推定する基本周期推定部と、
    前記EGG差分信号と前記基本周期を用いて、前記EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定する時刻検出部と、
    前記EGG信号に対応する音声信号と前記EGG声門閉鎖時刻に対応する値を用いて、ピッチ波形の接続点を推定するピッチ波形接続点推定部とを含み、
    前記ピッチ波形接続点推定部は、
    前記音声信号からLPC残差信号を求めるLPC残差取得部と、
    前記LPC残差信号と、前記EGG声門閉鎖時刻に対応する値に対応する時刻においてパルスをもつようなインパルス列との相互相関に基づき、前記EGG信号に対応する値に対する前記音声信号に対応する値の遅延を推定する遅延推定部と、
    前記EGG声門閉鎖時刻に対応する値に前記遅延を加えた値を、前記接続点として推定する加算部とを含む、
    ピッチ波形接続点推定装置。
  5. EGG信号を用いて、EGG差分信号を算出するEGG差分算出ステップと、
    前記EGG信号の基本周期を推定する基本周期推定ステップと、
    前記EGG信号の零交差時刻を算出する零交差時刻算出ステップと、
    前記零交差時刻を含み、前記基本周期に対応する探索幅を持つ探索範囲から、前記EGG差分信号が最大となる時刻をEGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻の候補として探索する候補探索ステップと、
    想定される基本周期の最小値をF'0とし、分析フレーム長をNとし、Δを最小値F'0よりも小さい正の整数とし、(1)前記候補の個数がN/F'0以下の場合、前記候補全てをEGG声門閉鎖時刻として選択し、(2)前記候補の個数がN/F'0より大きい場合、基準となるEGG声門閉鎖時刻に前記基本周期を加えた値を中心として、±Δの範囲に含まれる候補のうち、対応するEGG差分信号が最大となるものをEGG声門閉鎖時刻として選択する声門閉鎖時刻選択ステップとを含む、
    声門閉鎖時刻推定方法。
  6. 音声信号を用いて、音声信号における声門閉鎖時刻であるピッチマーク時刻を推定するピッチマーク時刻推定方法であって、
    EGG信号を用いて、EGG差分信号を算出するEGG差分算出ステップと、
    前記EGG信号の基本周期を推定する基本周期推定ステップと、
    前記EGG差分信号と前記基本周期を用いて、前記EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定する時刻検出ステップと、
    前記EGG信号に対応する音声信号と前記EGG声門閉鎖時刻に対応する値を用いて、ピッチマーク時刻を推定するピッチマーク時刻推定ステップとを含み、
    前記ピッチマーク時刻推定ステップは、
    前記音声信号からLPC残差信号を求めるLPC残差取得ステップと、
    前記LPC残差信号と、前記EGG声門閉鎖時刻に対応する値に対応する時刻においてパルスをもつようなインパルス列との相互相関に基づき、前記EGG信号に対応する値に対する前記音声信号に対応する値の遅延を推定する遅延推定ステップと、
    Δ1を音声信号の基本周期より小さい値とし、前記EGG声門閉鎖時刻に対応する値に前記遅延を加えた値を中心として、±Δ1の範囲に含まれる時刻のうち、対応するLPC残差信号が最大または最小となるものを、ピッチマーク時刻として推定する時刻推定ステップとを含む、
    ピッチマーク時刻推定方法。
  7. 音声合成に用いるピッチ波形の接続点を推定するピッチ波形接続点推定方法であって、
    EGG信号を用いて、EGG差分信号を算出するEGG差分算出ステップと、
    前記EGG信号の基本周期を推定する基本周期推定ステップと、
    前記EGG差分信号と前記基本周期を用いて、前記EGG信号における声門閉鎖時刻であるEGG声門閉鎖時刻に対応する値を推定する時刻検出ステップと、
    前記EGG信号に対応する音声信号と前記EGG声門閉鎖時刻に対応する値を用いて、ピッチ波形の接続点を推定するピッチ波形接続点推定ステップとを含み、
    前記ピッチ波形接続点推定ステップは、
    前記音声信号からLPC残差信号を求めるLPC残差取得ステップと、
    前記LPC残差信号と、前記EGG声門閉鎖時刻に対応する値に対応する時刻においてパルスをもつようなインパルス列との相互相関に基づき、前記EGG信号に対応する値に対する前記音声信号に対応する値の遅延を推定する遅延推定ステップと、
    前記EGG声門閉鎖時刻に対応する値に前記遅延を加えた値を、前記接続点として推定する加算ステップとを含む、
    ピッチ波形接続点推定方法。
  8. 請求項の声門閉鎖時刻推定方法、または、請求項のピッチマーク時刻推定方法、または、請求項のピッチ波形接続点推定方法をコンピュータに実行させるためのプログラム。
JP2015006044A 2015-01-15 2015-01-15 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム Active JP6502099B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015006044A JP6502099B2 (ja) 2015-01-15 2015-01-15 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015006044A JP6502099B2 (ja) 2015-01-15 2015-01-15 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016133522A JP2016133522A (ja) 2016-07-25
JP6502099B2 true JP6502099B2 (ja) 2019-04-17

Family

ID=56437968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015006044A Active JP6502099B2 (ja) 2015-01-15 2015-01-15 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6502099B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7040258B2 (ja) * 2018-04-25 2022-03-23 日本電信電話株式会社 発音変換装置、その方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3576800B2 (ja) * 1997-04-09 2004-10-13 松下電器産業株式会社 音声分析方法、及びプログラム記録媒体
JP4568826B2 (ja) * 2005-09-08 2010-10-27 株式会社国際電気通信基礎技術研究所 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム
CN101281744B (zh) * 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
JP2011013244A (ja) * 2009-06-30 2011-01-20 Sanyo Electric Co Ltd コンデンサ内蔵電子機器

Also Published As

Publication number Publication date
JP2016133522A (ja) 2016-07-25

Similar Documents

Publication Publication Date Title
KR102158743B1 (ko) 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법
Kadiri et al. Epoch extraction from emotional speech using single frequency filtering approach
Yegnanarayana et al. Extraction of vocal-tract system characteristics from speech signals
JP4818335B2 (ja) 信号帯域拡張装置
Bayya et al. Spectro-temporal analysis of speech signals using zero-time windowing and group delay function
Akande et al. Estimation of the vocal tract transfer function with application to glottal wave analysis
CN101981612B (zh) 声音分析装置以及声音分析方法
Prasanna et al. Fast prosody modification using instants of significant excitation
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP2013037174A (ja) 雑音/残響除去装置とその方法とプログラム
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP5433696B2 (ja) 音声処理装置
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JP6306718B2 (ja) 欠落データにわたる正弦波内挿
JP6502099B2 (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
US11557287B2 (en) Pronunciation conversion apparatus, pitch mark timing extraction apparatus, methods and programs for the same
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
Yadav et al. Epoch detection from emotional speech signal using zero time windowing
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
JP2009244723A (ja) 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JPWO2008010413A1 (ja) 音声合成装置、方法、およびプログラム
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP6285823B2 (ja) Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム
JP5245962B2 (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
Hasan et al. An approach to voice conversion using feature statistical mapping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180123

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190320

R150 Certificate of patent or registration of utility model

Ref document number: 6502099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150