JP2019070775A - 信号解析装置、方法、及びプログラム - Google Patents

信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2019070775A
JP2019070775A JP2017197810A JP2017197810A JP2019070775A JP 2019070775 A JP2019070775 A JP 2019070775A JP 2017197810 A JP2017197810 A JP 2017197810A JP 2017197810 A JP2017197810 A JP 2017197810A JP 2019070775 A JP2019070775 A JP 2019070775A
Authority
JP
Japan
Prior art keywords
spectrogram
frequency
coupling coefficient
time
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017197810A
Other languages
English (en)
Other versions
JP6764843B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
建慶 吉村
Takeyoshi Yoshimura
建慶 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017197810A priority Critical patent/JP6764843B2/ja
Publication of JP2019070775A publication Critical patent/JP2019070775A/ja
Application granted granted Critical
Publication of JP6764843B2 publication Critical patent/JP6764843B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】フォルマント周波数に対応する線スペクトル周波数を解析することができる。【解決手段】観測スペクトログラムYに基づいて、音声の声動モデルであるLSPにおける各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルと基底ベクトルの結合係数とを掛け合わせた凸結合で表わされ、かつ、声道スペクトログラムが各線スペクトル周波数と、スケールパラメータとにより表される声動スペクトログラムモデルを用いて、観測スペクトログラムと、声動スペクトログラムモデルにより推定される声道スペクトログラムとの誤差を表す目的関数を最適化するように、基底ベクトルと、結合係数と、スケールパラメータとを推定する。【選択図】図3

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、音声信号を解析する信号解析装置、方法、及びプログラムに関する。
音声の主要素は、発音(各母音や各子音の音響特徴)、抑揚(声の高さの時間変化)、強勢(声の大きさの時間変化)、発話リズムからなる。リアルタイム(または低遅延)発音変換技術が実現できれば、非母語話者の聞き取りにくい音声を母語話者風の聞き取りやすい音声に自動変換する電話システムなどに応用可能である。
音声のフォルマント周波数は、声道の共振周波数に対応する声道スペクトル中のピーク周波数であり、母音の音響特徴を表す量である。声道スペクトルの中の主要なピークの周波数の中で低い順から第1フォルマント(F),第2フォルマント(F),・・・,第Nフォルマント(F)といい、これらの値が母音の音質に大きく関係している(人間は音声聴取においてFとFのみで母音の判別が可能と言われている)。特に(F,...,F)(の相対値)の分布は言語によって異なるため、非母語話者の音声を聞き取りにくくする要因が母語話者との(F,...,F)の分布の相違にあるとするならば、任意音声を(F,...,F)が適当な値になるように補正することで聞き取りやすい発音に変換できる可能性がある。しかし、フォルマントの自動抽出は難しい技術課題の一つである。
音声の声道スペクトルのモデルとして線スペクトル対(Line Spectral Pairs;LSP)と呼ぶ表現がある[非特許文献1〜3参照]。LSPによるパワースペクトルモデルは以下(1)式、(2)式の形で与えられる。

・・・(1)

・・・(2)
ここで、
は、線スペクトル周波数(Line Spectral Frequency;LSF)と呼ぶパラメータである。(1)式は全極型スペクトルと等価な別表現で、等長音響管による声道モデルに対応する。LSFは声道スペクトルのピーク周波数におおよそ対応するパラメータで、フォルマント周波数近傍に分布する傾向にある。
F. Itakura: "Line spectrum representation of linear predictor coefficients of speech signals," The Journal of the Acoustical Society of America, vol. 57, no. S1, pp.S35-S35, 1975. P. Kabal and R. P. Ramachandran: \The computation of line spectral frequencies using Chebyshev polynomials," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-34, no. 6,Dec. 1986. 守谷:"高圧縮音声符号化の必須技術: 線スペクトル対(LSP)," NTT 技術ジャーナル, vol. 26, no. 9,pp. 58{60, Sep. 2014.
以上のLSPによるパワースペクトルモデルでは、図1のように(1)式のX(ω)は、間隔が小さいLSF間にピークが形成される表現となっているが、必ずしもすべてのLSFの周辺にピークが形成されるわけではない点に注意が必要である。
例えばフォルマント周辺に3個のLSFが集まったりする場合やスペクトルピークのないところにLSFが孤立したりする場合がある。このため、図2のように、LSP分析により音声のLSFが各時刻で得られたとしても、何番目のLSFが何番目のフォルマントに対応しているかを容易に知ることができないという問題がある。この対応付けがフォルマント推定における難しさであり、この対応付けの課題が解決されない限り各フォルマントの選択的な操作を介した音声変換の実現は難しいといえる。
本発明は、上記問題点を解決するために成されたものであり、フォルマント周波数に対応する線スペクトル周波数を解析することができる信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る信号解析装置は、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力する時間周波数展開部と、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、音声の声動モデルであるLSP(Line Spectral Pairs)における各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルと前記基底ベクトルの結合係数とを掛け合わせた凸結合で表わされ、かつ、声道スペクトログラムが各線スペクトル周波数と、スケールパラメータとにより表される声動スペクトログラムモデルを用いて、前記観測スペクトログラムと、前記声動スペクトログラムモデルにより推定される声道スペクトログラムとの誤差を表す目的関数を最適化するように、前記基底ベクトルと、前記結合係数と、前記スケールパラメータとを推定する最適化部と、を含んで構成されている。
本発明に係る信号解析方法は、時間周波数展開部が、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力するステップと、最適化部が、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、音声の声動モデルであるLSP(Line Spectral Pairs)における各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルと前記基底ベクトルの結合係数とを掛け合わせた凸結合で表わされ、かつ、声道スペクトログラムが各線スペクトル周波数と、スケールパラメータとにより表される声動スペクトログラムモデルを用いて、前記観測スペクトログラムと、前記声動スペクトログラムモデルにより推定される声道スペクトログラムとの誤差を表す目的関数を最適化するように、前記基底ベクトルと、前記結合係数と、前記スケールパラメータとを推定するステップと、を含んで実行することを特徴とする。
また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。
本発明の信号解析装置、方法、及びプログラムによれば、観測スペクトログラムに基づいて、音声の声動モデルであるLSPにおける各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルと基底ベクトルの結合係数とを掛け合わせた凸結合で表わされ、かつ、声道スペクトログラムが各線スペクトル周波数と、スケールパラメータとにより表される声動スペクトログラムモデルを用いて、観測スペクトログラムと、声動スペクトログラムモデルにより推定される声道スペクトログラムとの誤差を表す目的関数を最適化するように、基底ベクトルと、結合係数と、スケールパラメータとを推定することにより、フォルマント周波数に対応する線スペクトル周波数を解析することができる、という効果が得られる。
LSP分析におけるLSFの各パラメータの分布の一例を示す図である。 従来法のLSP分析において観測スペクトログラム上にLSFの時間軌跡をプロットした場合の一例を示す図である。 本発明の実施の形態に係る信号解析装置の構成を示すブロック図である。 本発明の実施の形態に係る信号解析装置における信号解析処理ルーチンを示すフローチャートである。 本発明の手法を適用して、LSP分析において観測スペクトログラム上にLSFの時間軌跡をプロットした場合の一例を示す図である。 手動でラベリングした正解のフォルマント周波数の軌跡と、本発明の手法によるLSFの各パラメータをプロットした場合の一例を示す図である。
本発明の実施の形態では、非母語話者の音声のように聞き取りにくい声を聞き取りやすい声に自動変換する問題を解決するため、音声からフォルマント周波数を推定する技術を扱う。
<本発明の実施の形態に係る原理>
以下に、本発明の実施の形態におけるフォルマント周波数の推定の原理を説明する。
自然発話において使用される母音の種類は限られる。各母音に1セットのフォルマント周波数値(F,...,F)が対応するならば、N次元空間中に母音の種類数だけのフォルマント周波数セットの代表点が存在するはずである。同様に、各母音に1セットのLSF値
が対応するなら、P次元空間中に母音の種類数LだけのLSFセットの代表点が存在するはずである。また、LSPの重要な特徴として補間特性が優れる点が挙げられる。これは、二つの母音間を遷移する際、母音間の過渡部におけるLSFセットは両母音のLSFセットの線形補間で良く近似できる、というものである。従って、発話中のLSFセットは、各母音に対応するLSFセットの代表点で囲まれたL次元超平面(凸集合)上で連続的な軌跡を描くと仮定することができる。以上の制約を考慮しながら各時刻のLSFセットを推定することができれば、LSFのインデックスとフォルマントのインデックスの対応付けが一貫するようになるはずである。従来のLSP分析では各時刻独立にLSFセットを求めるため、以上のような制約を考慮した分析にはなっていなかった。本発明の実施の形態は、以上の動機より着想したものであり、各時刻nのLSFセット
をL個の非負の基底ベクトルw,...,wの凸結合Σl,nで表し、声道スペクトログラム全体を以下(3)式でモデル化する(ただし、Pは偶数とする)。

・・・(3)

・・・(4)

・・・(5)
本実施の形態で提案する技術は、目的関数を最適化することで、所与のスペクトログラムY=[Y(ω,t)]k,nに上記(3)式のX=[X(ω,t)]k,nがフィットするように基底行列W=[w,...,w]、結合係数行列H=[hl,nl,n、スケールパラメータc=[c1,...,c]を推定することにより、LSP分析からフォルマント周波数を推定する方法である。
[目的関数]
次に目的関数について説明する。ωをk番目の角周波数、tをn番目の短時間フレームの時刻とし、Y(ω,t)を音声信号の短時間Fourier変換により得られるパワースペクトログラムまたはSTRAIGHTやWORLDなどのスペクトル包絡推定器によって得られるスペクトル包絡系列とする。ここで、xとyの乖離度を表す規準をD(y||x)として、以下(6)に目的関数を示す。

・・・(6)
(6)式の目的関数をできるだけ小さくする基底行列W=[w,...,w]、結合係数行列H=[hl,nl,n、スケールパラメータc=[c1,...,c]を推定する最適化問題を考える。ただし、nは非負の重みで、例えば有声区間では1、無声区間では0か0に近い値に設定することで有声区間の観測スペクトルにX(ω,t)をより優先的にフィットするようにすることができる。以下ではD(y||x)をβダイバージェンスとして以下(7)式により定義する。

・・・(7)
定義より、βダイバージェンスはβ→0のとき板倉齋藤距離、β→1のとき一般化Kullback-Leibler(KL)ダイバージェンス、β=2のとき二乗誤差となる。
[等式、不等式制約]
WやHに関して以下の制約を設ける。

・・・(8)

・・・(9)

・・・(10)
(8)式はX(ω,t)に対応する各時刻の声道伝達関数が安定であるための条件、(9)式と(10)式は以下(11)式がw,...,wの凸結合となるための制約である。

・・・(11)
(8)式の条件は定数ε>0を用いて以下(12)式の不等式で記述することができる。

・・・(12)
(9)式と(10)式の制約は以下(13)式の不等式と(14)式の等式でそれぞれ記述することができる。

・・・(13)

・・・(14)
また、奇数番目と偶数番目のLSFの間にスペクトルピークが形成されるよう以下(15)式及び(16)式の制約を付加的に設けても良い。

・・・(15)

・・・(16)
分かりやすく言えば、(15)式の制約は、w1,lとw2,lの間隔よりw2,lとw3,lの間隔を大きくし、w2,lとw3,lの間隔よりw3,lとw4,lの間隔を小さくする制約を意味する。また、(16)式の制約は、w1,lとw2,lの間隔を2以下、w3,lとw4,lの間隔を4以下にする制約を意味する。また、偶数番目と奇数番目のLSFの間にスペクトルピークが形成されるようにする場合は、逆の大小関係を仮定すれば良い。
(15)式の制約は以下(17)式の不等式で記述することができる。

・・・(17)
また、(16)式の制約は以下(18)式の不等式で記述することができる。

・・・(18)
[正則化]
Hに関し、次の(19)式のような正則化項を含めることでHの各要素をスパースにすることができる。

・・・(19)
ただし、λ, λは非負の正則化重みである。
[最適化問題]
以上をまとめると、パラメータ推定問題は以下(20)〜(25)式のような制約つき非線形最適化問題として定式化される。(20)式の目的関数について、適当な非線形計画問題ソルバー(MATLABのfminconなど)を用いて局所最適解を数値探索することができる。

・・・(20)

・・・(21)

・・・(22)

・・・(23)

・・・(24)

・・・(25)
[勾配計算]
目的関数

のwp,lに関する偏微分、hl,nに関する偏微分はそれぞれ以下(26)式、(27)式で与えられる。

・・・(26)

・・・(27)
(26)式、(27)式は非線形計画法で用いることができる。
また、W、Hが固定のもとで目的関数

を最小化するcは解析的に求まり、以下(28)式となる。

・・・(28)
(28)式によるcの更新は、cを固定した上でW、Hを推定した後に行っても良いし、W、Hの更新ごとに行っても良い。
以上の原理のもと、以下、図面を参照して本発明の実施の形態について説明する。
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図3に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する信号解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この信号解析装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、音声信号の時系列データを受け付ける。
演算部20は、時間周波数展開部24と、最適化部30とを含んで構成されている。
時間周波数展開部24は、入力部10で受け付けた音声信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表す振幅スペクトログラム又はパワースペクトログラムである観測スペクトログラムYを計算し、出力する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
最適化部30は、時間周波数展開部24により出力された観測スペクトログラムYに基づいて、音声の声動モデルであるLSPにおける各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルwp,lと基底ベクトルの結合係数hl,nとを掛け合わせた凸結合Σp,l,hl,nで表わされ、かつ、声道スペクトログラムが各線スペクトル周波数αと、スケールパラメータcとにより表される声動スペクトログラムモデルを用いて、観測スペクトログラムYと、声動スペクトログラムモデルにより推定される声道スペクトログラムXとの誤差を表す上記(20)式の目的関数を最適化するように、基底ベクトルwと、結合係数hl,nと、スケールパラメータcとを推定する。(20)式の目的関数には、結合係数を要素とする結合係数行列Hをスパースにするための正則化項が含まれる。
具体的には、最適化部30は、初期値設定部32と、パラメータ更新部34と、収束判定部36とを含んで構成されている。
初期値設定部32は、上記(20)式の目的関数における基底ベクトルwp,lを要素とする基底行列W、結合係数hl,nを要素とする結合係数行列H、スケールパラメータcのそれぞれについて初期値を設定する。
パラメータ更新部34は、上記(21)〜(25)式の制約を満たし、かつ、上記(20)式の目的関数を小さくするように、初期値である、又は前回更新したパラメータである、基底ベクトルwp,lを要素とする基底行列Wと、結合係数hl,nを要素とする結合係数行列Hと、スケールパラメータcとを更新する。基底行列Wは、上記(26)式の勾配を用いて更新する。結合係数行列Hは、上記(27)式の勾配を用いて更新する。スケールパラメータcは、上記(28)式に従って更新する。
収束判定部36は、収束条件を満たすか否かを判定し、収束条件を満たすまで、パラメータ更新部34における更新処理を繰り返させ、最終的に推定されたパラメータを、出力部50から出力する。
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(20)式の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。また、出力部50から出力する際に、最終的に推定されたパラメータから算出される各線スペクトル周波数を出力してもよい。
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。入力部10において音声信号の時系列データを受け付けると、信号解析装置100は、図4に示す信号解析処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けた音声信号の時系列データに基づいて、観測スペクトログラムYを計算する。
次に、ステップS102では、上記(20)式の目的関数における基底ベクトルを要素とする基底行列W、結合係数を要素とする結合係数行列H、スケールパラメータcのそれぞれについて初期値を設定する。
ステップS104では、上記(21)〜(25)式の制約を満たし、かつ、上記(20)式の目的関数を小さくするように、初期値である、又は前回更新したパラメータである、基底ベクトルwp,lを要素とする基底行列Wと、結合係数を要素hl,nとする結合係数行列Hと、スケールパラメータcとを更新する。基底行列Wは、上記(26)の勾配を用いて更新する。結合係数行列Hは、上記(27)の勾配を用いて更新する。スケールパラメータcは、上記(28)に従って更新する。
ステップS106では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS108へ移行し、収束条件を満たしていない場合には、ステップS104へ移行し、ステップS104の処理を繰り返す。
ステップS108では、上記ステップS104で最終的に更新された基底ベクトルを要素とする基底行列W、結合係数を要素とする結合係数行列Hのパラメータを出力して、信号解析処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、観測スペクトログラムYに基づいて、音声の声動モデルであるLSPにおける各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルwp,lと基底ベクトルの結合係数hl,nとを掛け合わせた凸結合Σp,l,hl,nで表わされ、かつ、声道スペクトログラムが各線スペクトル周波数αと、スケールパラメータcとにより表される声動スペクトログラムモデルを用いて、観測スペクトログラムYと、声動スペクトログラムモデルにより推定される声道スペクトログラムXとの誤差を表す目的関数を最適化するように、基底ベクトルwと、結合係数hl,nと、スケールパラメータcとを推定することにより、精度よく、フォルマント信号を解析することができる。
図5に、WORLDにより推定したスペクトル包絡系列の観測スペクトログラムY=[Y(ω,t)]k,nに対し、本実施の形態の手法を適用して得られたLSF系列αp,n=Σp,l,l,nを示す。図2とは違い、LSFのインデックスとフォルマント周波数のインデックスが一貫して対応付けられていることが確認できる。
また、図6に手動でラベリングした正解のフォルマント周波数(F,F,F)の白線の軌跡とともに、本実施の形態により推定したLSFのパラメータα1,n,α1,n,α2,n,α3,n,α4,n,α5,n,α6,nをプロットしたものを示す。本実施の形態の手法により奇数番目と偶数番目のαp,nの中間値が正解のフォルマント周波数に概ね対応していることが分かる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
24 時間周波数展開部
30 最適化部
32 初期値設定部
34 パラメータ更新部
36 収束判定部
50 出力部
100 信号解析装置

Claims (7)

  1. 音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力する時間周波数展開部と、
    前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、音声の声動モデルであるLSP(Line Spectral Pairs)における各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルと前記基底ベクトルの結合係数とを掛け合わせた凸結合で表わされ、かつ、声道スペクトログラムが各線スペクトル周波数と、スケールパラメータとにより表される声動スペクトログラムモデルを用いて、前記観測スペクトログラムと、前記声動スペクトログラムモデルにより推定される声道スペクトログラムとの誤差を表す目的関数を最適化するように、前記基底ベクトルと、前記結合係数と、前記スケールパラメータとを推定する最適化部と、
    を含む信号解析装置。
  2. 前記目的関数には、前記結合係数を要素とする結合係数行列をスパースにするための正則化項を含む請求項1に記載の信号解析装置。
  3. 前記最適化部は、
    前記目的関数を小さくするように、前記基底ベクトルと、前記結合係数と、前記スケールパラメータとを更新するパラメータ更新部と、
    予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
    を含む請求項1又は請求項2に記載の信号解析装置。
  4. 時間周波数展開部が、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力するステップと、
    最適化部が、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、音声の声動モデルであるLSP(Line Spectral Pairs)における各線スペクトル周波数が、母音の各々に対応した非負の基底ベクトルと前記基底ベクトルの結合係数とを掛け合わせた凸結合で表わされ、かつ、声道スペクトログラムが各線スペクトル周波数と、スケールパラメータとにより表される声動スペクトログラムモデルを用いて、前記観測スペクトログラムと、前記声動スペクトログラムモデルにより推定される声道スペクトログラムとの誤差を表す目的関数を最適化するように、前記基底ベクトルと、前記結合係数と、前記スケールパラメータとを推定するステップと、
    を含む信号解析方法。
  5. 前記目的関数には、前記結合係数を要素とする結合係数行列をスパースにするための正則化項を含む請求項4に記載の信号解析方法。
  6. 前記最適化部が推定するステップは、
    パラメータ更新部が、前記目的関数を小さくするように、前記基底ベクトルと、前記結合係数と、前記スケールパラメータとを更新するステップと、
    収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させるステップと、
    を含む請求項4又は請求項5に記載の信号解析方法。
  7. コンピュータを、請求項1〜請求項3のいずれか1項に記載の信号解析装置の各部として機能させるためのプログラム。
JP2017197810A 2017-10-11 2017-10-11 信号解析装置、方法、及びプログラム Active JP6764843B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017197810A JP6764843B2 (ja) 2017-10-11 2017-10-11 信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017197810A JP6764843B2 (ja) 2017-10-11 2017-10-11 信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019070775A true JP2019070775A (ja) 2019-05-09
JP6764843B2 JP6764843B2 (ja) 2020-10-07

Family

ID=66441603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017197810A Active JP6764843B2 (ja) 2017-10-11 2017-10-11 信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6764843B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021215234A1 (ja) * 2020-04-20 2021-10-28 ソニーグループ株式会社 情報処理システム、情報処理方法、プログラム、情報処理装置、及び演算装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021215234A1 (ja) * 2020-04-20 2021-10-28 ソニーグループ株式会社 情報処理システム、情報処理方法、プログラム、情報処理装置、及び演算装置
CN115398211A (zh) * 2020-04-20 2022-11-25 索尼集团公司 信息处理系统、信息处理方法、程序、信息处理装置和计算装置

Also Published As

Publication number Publication date
JP6764843B2 (ja) 2020-10-07

Similar Documents

Publication Publication Date Title
Airaksinen et al. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
US7792672B2 (en) Method and system for the quick conversion of a voice signal
EP1995723B1 (en) Neuroevolution training system
JPWO2018159612A1 (ja) 声質変換装置、声質変換方法およびプログラム
JP2013205697A (ja) 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
JP5717097B2 (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
KR20060047451A (ko) 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
JP6764843B2 (ja) 信号解析装置、方法、及びプログラム
Rao et al. SFNet: A computationally efficient source filter model based neural speech synthesis
JP2021067885A (ja) 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2019132948A (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP4451633B2 (ja) 最適窓生成方法、窓最適化処理装置、プログラム、線形予測分析最適化方法及び線形予測分析最適化装置
JP6689769B2 (ja) 声道スペクトル推定装置、方法、及びプログラム
US20040083096A1 (en) Method and apparatus for gradient-descent based window optimization for linear prediction analysis
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP6234134B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20171018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R150 Certificate of patent or registration of utility model

Ref document number: 6764843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150