JP2019144403A - 音声信号解析装置、方法、及びプログラム - Google Patents

音声信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2019144403A
JP2019144403A JP2018028295A JP2018028295A JP2019144403A JP 2019144403 A JP2019144403 A JP 2019144403A JP 2018028295 A JP2018028295 A JP 2018028295A JP 2018028295 A JP2018028295 A JP 2018028295A JP 2019144403 A JP2019144403 A JP 2019144403A
Authority
JP
Japan
Prior art keywords
frequency pattern
fundamental frequency
speech signal
pattern
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018028295A
Other languages
English (en)
Other versions
JP6902485B2 (ja
Inventor
田中 宏
Hiroshi Tanaka
宏 田中
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018028295A priority Critical patent/JP6902485B2/ja
Priority to US16/970,896 priority patent/US11798579B2/en
Priority to PCT/JP2019/006047 priority patent/WO2019163753A1/ja
Publication of JP2019144403A publication Critical patent/JP2019144403A/ja
Application granted granted Critical
Publication of JP6902485B2 publication Critical patent/JP6902485B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる。【解決手段】学習部30が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する。【選択図】図2

Description

本発明は、音声信号解析装置、方法、及びプログラムに係り、特に、音声信号を解析する音声信号解析装置、方法、及びプログラムに関する。
音声の基本周波数(F0)パターンには言語だけでなく、非言語情報も含まれている。例えば、我々は、発話文の語尾のF0パターンを変化させることで疑問文を表現し、F0パターンのダイナミクスを変化させることで意図や感情を表現する。また、歌声においても、メロディや情感、歌手の個人性を表現するために、我々はF0パターンを変化させる。このため、F0パターンのモデル化は、表現豊かな音声・歌声合成や対話システム、話者・感情認識などの実現に極めて有効である。
音声のF0パターンは、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分)と、アクセントに従って急峻に変化する成分(アクセント成分)により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F0パターンをこれらの成分の和で表した数学的なモデル(以後、藤崎モデル)が提案されている(非特許文献1)。藤崎モデルは、フレーズ・アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測のF0パターンを非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されているため、実測のF0パターンから藤崎モデルのパラメータを高精度に推定することができれば有用である。一方、歌声のF0パターン(非特許文献2、3)のモデル化では、藤崎モデル同様に、オーバーシュートやビブラートといった複数の成分の混合により、F0パターンを表現する。上述のモデルはいずれも、F0パターンからF0パターンに内在するパラメータを推定するという、音声生成過程とその逆問題を扱っている点で共通しており、隠れマルコフモデル(HMM)を用いてその逆問題を解く手法(非特許文献2〜4)が提案されているが、推定時に反復施行が必要であり計算コストが高く、推定精度にも改善の余地があり、さらには言語や話者などに応じて人手でモデルの構造やアルゴリズムを変更する必要がある。
近年、深層学習の分野で、Variational AutoEncoder(VAE)などの深層生成モデルが提案されている。VAEは、名前から分かる通り、ニューラルネットにより記述されているエンコーダ、および、デコーダを含むautoencoderの確率モデルである。エンコーダは入力(例えば、音声や画像)が与えられたもとでその潜在変数を推定し、デコーダは潜在変数が与えられたもとで入力を再構成する。潜在変数が確率分布に従うという仮定があるため、VAEは確率モデルである。従来のVAEでは潜在変数は正規分布に従うと仮定するが、解釈可能な意味ある分布に従うと仮定できる潜在変数を用意することができれば、そのデコーダは観測データとその観測データに内在する解釈可能なパラメータとを関連づける強力な生成モデル(例えば、F0パターンとフレーズ・アクセント成分とを関連づける藤崎モデルのような生成モデル)になりうる。さらに、VAEにはエンコーダとデコーダを同時に学習するという制約があるため、上述の解釈可能なパラメータを用いることで、例えば音声生成過程とその逆問題とを同時に解くことが可能となる。また、学習データが集めづらい場合(例えば、F0パターンは大量に用意できるが、その内在するパラメータを大量に集めるには人手と時間が多量に必要となる場合)において、VAEを用いることで、半教師あり学習を行うことが可能である。
Hiroya Fujisaki, "A note on the physiological and physical basis for the phrase and accent components in the voice fundamental frequency contour," Vocal physiology: Voice production, mechanismsand functions, pp. 347-355, 1988. Siu Wa Lee, Shen Ting Ang, Minghui Dong, and Haizhou Li, "Generalized f0 modelling with absolute and relative pitch features for singing voice synthesis," in Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on. IEEE, 2012, pp. 429-432. Yasunori Ohishi, Hirokazu Kameoka, Daichi Mochihashi, and Kunio Kashino, "A stochastic model of singing voice f0 contours for characterizing expressive dynamic components," in Thirteenth Annual Conference of the International Speech Communication Association, 2012. Hirokazu Kameoka, Kota Yoshizato, Tatsuma Ishihara, Kento Kadowaki, Yasunori Ohishi, and Kunio Kashino, "Generative modeling of voice fundamental frequency contours," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.23,no. 6, pp. 1042-1053, 2015.
本発明は、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる音声信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る音声信号解析装置は、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する学習部と、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定するパラメータ推定部と、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する基本周波数パターン推定部と、を含んで構成されている。
本発明に係る音声信号解析方法は、学習部が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習し、パラメータ推定部が、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定し、基本周波数パターン推定部が、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する。
また、本発明に係るプログラムは、上記発明に係る音声信号解析装置の各部としてコンピュータを機能させるためのプログラムである。
本発明の音声信号解析装置、方法、及びプログラムによれば、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習することにより、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる、という効果が得られる。
HMMの状態遷移ネットワークの一例を示す図である。 本発明の実施の形態に係る音声信号解析装置の構成を示すブロック図である。 本発明の実施の形態の実験の効果の一例を示す図である。 本発明の実施の形態の実験の効果の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明の実施の形態で提案する技術は、信号処理の技術分野に属し、音声の基本周波数パターンから基本周波数パターンに内在するパラメータを推定する問題、および、その順問題を解くことを目的とした信号処理技術である。
ここで本発明の実施の形態における関連技術1〜2について説明する。
<関連技術1:音声のF0パターン生成過程モデル>
まず、音声のF0パターン生成過程モデルについて説明する。
音声のF0パターンの生成過程を記述したモデルに、藤崎の基本周波数(F0)パターン生成過程モデル(藤崎モデル)が知られている(非特許文献1)。藤崎モデルとは、甲状軟骨の運動によるF0パターンの生成過程を説明した物理モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動(平行移動運動と回転運動)にそれぞれ伴う声帯の伸びの合計がF0の時間的変化をもたらすと解釈され、声帯の伸びとF0パターンの対数値y(t)が比例関係にあるという仮定に基づいてF0パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF0パターンxp(t)をフレーズ成分、回転運動によって生じるF0パターンxa(t)をアクセント成分と呼ぶ。藤崎モデルでは、音声のF0パターンy(t) は、これらの成分に声帯の物理的制約によって決まるベースライン成分μbを足し合わせたものとして、
と表現される。これら二つの成分は二次の臨界制動系の出力と仮定され、

と表される(*は時刻tに関する畳み込み演算)。ここでup(t)はフレーズ指令関数と呼ばれ、デルタ関数(フレーズ指令)の列からなり、ua(t)はアクセント指令関数と呼ばれ、矩形波(アクセント指令)の列からなる。これらの指令列には、発話の最初にはフレーズ指令が生起する、フレーズ指令は二連続で生起しない、異なる二つの指令は同時刻に生起しない、という制約条件がある。またαとβはそれぞれフレーズ制御機構、アクセント制御機構の固有角周波数であり、話者や発話内容によらず、おおよそα=3rad/s,β=20rad/s程度であることが経験的に知られている。
<関連技術2:歌声のF0パターン生成過程モデル>
次に、歌声のF0パターン生成過程モデルについて説明する。
歌声の旋律に伴った急激な基本周波数の上昇・下降の制御及び、ビブラートのような周期的な振動は、上述した藤崎モデルのような臨界制動系では表現できない。そのため、歌声のF0制御モデルでは制御パラメータ(減衰率 と固有周波数Ω)を用いて表現される2次系の伝達関数
における減衰率

を調整することによって、指数減衰(

)、減衰振動(

、オーバーシュートに対応する)、臨界制動(

)、定常振動(

、ビブラートに対応する)からなる様々な振動現象を表現する。
<本発明の実施の形態に係る原理>
本発明の実施の形態の技術は学習処理と推定処理からなる。
<学習処理>
学習処理ではF0パターン(例えば音声のF0パターン)とそのF0パターンに内在するパラメータ(例えばフレーズ・アクセント成分)のパラレルデータもしくは一部がパラレルデータであるデータが与えられているものとする。
まず、潜在変数zは、F0パターンの生成過程を司るパラメータとする。例えば、藤崎モデルの場合ではフレーズ・アクセント成分に相当する。所与のzに関するF0パターンxの条件付き確率分布Pθ(x|z)をニューラルネットで記述されたデコーダで近似することにより、その事後確率であるPθ(z|x) は所与のF0パターンxが与えられた際のzを推定するという逆問題とみなすことができる。この事後確率を厳密に求めることは困難であるため、xの条件付き確率分布Qφ(z|x)をニューラルネットで記述されたエンコーダで近似する。上述のエンコーダとデコーダを学習することにより、xの条件付き確率分布Qφ(z|x)は、真の事後確率Pθ(z|x)∝Pθ(x|z)P(z)と一致するようになる。F0パターンxに関する対数周辺確率密度関数log Pθ(x)は、
であり、ここでDKL[・|・]はKullback-Leibler(KL)距離を表す。式(8)より、θとφについてL(θ、φ;x)を最大化することで、Pθ(z|x)とQφ(z|x)とのKL距離を最小化することができることが分かる。従来の典型的なVAEでは、Qφ(z|x)とPθ(x|z)は単一の正規分布であると仮定されている(非特許文献5、6)。
[非特許文献5] Diederik P Kingma and Max Welling,“Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013.
[非特許文献6] Casper Kaae Sonderby, Tapani Raiko, Lars Maaloe, Soren Kaae Sonderby,and Ole Winther, “Lad-der variational autoencoders,” in Advances in Neural Information Processing Systems, 2016, pp.3738-3746.
ここで、潜在変数zをある特定の興味深い変数に設定することで、事前分布であるP(z)に関して具体的な形を我々はデザインできる。例えば、上述のように潜在変数zをフレーズ・アクセント成分と関連づけた場合、P(z)は

とすることができる。なお、sは、上記非特許文献4で述べられている経路制約付きHMM(図1参照)の状態系列である。つまり、経路制約付きHMMがモデル化しているフレーズ・アクセント指令の自然な継続長を考慮して、所与のF0パターンを表現するために自然である潜在変数z が推定されることになる。
<推定処理>
所与のF0パターンxからそのF0パターンに内在するパラメータzへの推定処理は、上述のエンコーダQφ(z|x)を用いてzに関する事後分布を求め、そのときの平均系列をzとする。所与のF0パターンに内在するパラメータzからそのF0パターンxへの推定処理は、上述のデコーダPθ(x|z)を用いて求める。各エンコーダ・デコーダはCNNにより記述されているため、従来のような反復施行を必要とせずCNNの各バッチにおいて並列演算が可能であり、高速に推定することが可能である。
<システム構成>
図2に示すように、本発明の実施の形態に係る音声信号解析装置は、CPUと、RAMと、各処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図2に示すように、音声信号解析装置100は、入力部10と、演算部20と、出力部90とを備えている。
入力部10は、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付ける。また、入力部10は、推定対象の音声信号における基本周波数パターンに内在するパラメータを受け付ける。また、入力部10は、推定対象の音声信号における基本周波数パターンを受け付ける。
なお、基本周波数パターンは、周知技術である基本周波数の抽出処理を用いて、音声信号から基本周波数を抽出することで得られる。
演算部20は、学習部30と、深層生成モデル記憶部40と、パラメータ推定部50と、基本周波数パターン推定部60とを備えている。
学習部30は、入力部10によって受け付けた音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、音声信号における基本周波数パターンから潜在変数を推定するエンコーダ及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダを含む深層生成モデルを学習する。
具体的には、音声信号における基本周波数パターンを入力としたデコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表されるパラメータの事前分布との距離、及び潜在変数を入力としたエンコーダの出力を用いて定義される上記式(8)の目的関数を最大化するように、深層生成モデルのデコーダPθ(x|z)及びエンコーダQφ(z|x)を学習する。
ここで、経路制約つきHMM(Hidden Markov Model)の状態系列は、基本周波数パターンから推定される、HMMにおける、各時刻kの状態sからなる状態系列sである。
ここで経路制約つきHMMの状態系列では、上記図1に示したように、フレーズ指令が生起する状態p0と、アクセント指令が生起する複数の状態aと、フレーズ指令及びアクセント指令の何れもが生起しない状態r0、r1とを有し、状態r0から状態p0に遷移して状態rに遷移し、状態r1から複数の状態aの何れかに遷移して状態r0に遷移するように各状態が連結されている。
また、深層生成モデルのデコーダPθ(x|z)及びエンコーダQφ(z|x)の各々は、畳み込みニューラルネットワークを用いて構成されている。
深層生成モデル記憶部40には、学習部30によって学習された深層生成モデルのデコーダPθ(x|z)及びエンコーダQφ(z|x)が記憶される。
パラメータ推定部50は、深層生成モデルのエンコーダQφ(z|x)を用いて、入力された推定対象の音声信号における基本周波数パターンから当該基本周波数パターンに内在するパラメータを推定し、出力部90により出力する。
基本周波数パターン推定部60は、深層生成モデルのデコーダPθ(x|z)を用いて、入力された推定対象の音声信号における基本周波数パターンに内在するパラメータから、当該基本周波数パターンを推定し、出力部90により出力する。
<音声信号解析装置の作用>
次に、本発明の実施の形態に係る音声信号解析装置100の作用について説明する。まず、入力部10において、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付けると、音声信号解析装置100の学習部30は、音声信号における基本周波数パターンから潜在変数を推定するエンコーダQφ(z|x)、及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダPθ(x|z)を含む深層生成モデルを学習し、深層生成モデル記憶部40に格納する。
次に、入力部10において、推定対象の音声信号における基本周波数パターンを受け付けると、音声信号解析装置100のパラメータ推定部50は、深層生成モデルのエンコーダQφ(z|x)を用いて、推定対象の音声信号における基本周波数パターンから当該基本周波数パターンに内在するパラメータを推定し、出力部90により出力する。
また、入力部10において、推定対象の音声信号における基本周波数パターンに内在するパラメータを受け付けると、音声信号解析装置100のパラメータ推定部50は、深層生成モデルのデコーダPθ(x|z)を用いて、入力された推定対象の音声信号における基本周波数パターンに内在するパラメータから、当該基本周波数パターンを推定し、出力部90により出力する。
<本実施の形態の実験の効果>
<効果の例1>
音声信号からF0パターン抽出し、そのF0パターンに対して人手でフレーズ・アクセント成分のデータを作成した。F0パターンとフレーズ・アクセント成分のパラレルデータを用いて、上記のモデル(深層生成モデル)を学習したのちに、推定処理によりF0パターンからフレーズ・アクセント成分を推定し、フレーズ・アクセント成分からF0パターンを推定する実験を行い、推定されたF0パターンおよびフレーズ・アクセント成分が元のF0パターンおよびフレーズ・アクセント成分をどの程度復元できているか確認した。図3にその結果の例を示す。従来のものよりも高精度にF0パターンおよびフレーズ・アクセント成分を再現できていることが確認できる。
<効果の例2>
歌声信号からF0パターンを、その楽曲信号からノート(音符)をそれぞれ抽出しパラレルデータを作成した。F0パターンとノートのパラレルデータを用いて、各歌唱者ごとに上記のモデル(深層生成モデル)の歌唱者依存モデルを学習したのちに、推定処理によりノートからF0パターンを推定する実験を行い、推定されたF0パターンが元のF0パターンをどの程度復元できているか確認した。図4にその結果の例を示す。入力情報がノートだけであるにも関わらず、ビブラートやオーバーシュートがよく推定されていることが確認される。また、歌唱者ごとにその歌唱者の特性を捉えたF0 パターンが推定されていることが確認できる。
以上説明したように、本発明の実施の形態に係る音声信号解析装置によれば、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習することにより、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
30 学習部
40 深層生成モデル記憶部
50 パラメータ推定部
60 基本周波数パターン推定部
90 出力部
100 音声信号解析装置

Claims (7)

  1. 音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する学習部と、
    前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定するパラメータ推定部と、
    前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する基本周波数パターン推定部と、
    を含む音声信号解析装置。
  2. 前記学習部は、音声信号における基本周波数パターンを入力とした前記デコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記エンコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項1記載の音声信号解析装置。
  3. 前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項1又は2記載の音声信号解析装置。
  4. 学習部が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習し、
    パラメータ推定部が、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定し、
    基本周波数パターン推定部が、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する
    音声信号解析方法。
  5. 前記学習部が学習することでは、音声信号における基本周波数パターンを入力とした前記デコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記エンコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項4記載の音声信号解析方法。
  6. 前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項4又は5記載の音声信号解析方法。
  7. 請求項1〜請求項3の何れか1項に記載の音声信号解析装置の各部としてコンピュータを機能させるためのプログラム。
JP2018028295A 2018-02-20 2018-02-20 音声信号解析装置、方法、及びプログラム Active JP6902485B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018028295A JP6902485B2 (ja) 2018-02-20 2018-02-20 音声信号解析装置、方法、及びプログラム
US16/970,896 US11798579B2 (en) 2018-02-20 2019-02-19 Device, method, and program for analyzing speech signal
PCT/JP2019/006047 WO2019163753A1 (ja) 2018-02-20 2019-02-19 音声信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018028295A JP6902485B2 (ja) 2018-02-20 2018-02-20 音声信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019144403A true JP2019144403A (ja) 2019-08-29
JP6902485B2 JP6902485B2 (ja) 2021-07-14

Family

ID=67687781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018028295A Active JP6902485B2 (ja) 2018-02-20 2018-02-20 音声信号解析装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11798579B2 (ja)
JP (1) JP6902485B2 (ja)
WO (1) WO2019163753A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243620B (zh) * 2020-01-07 2022-07-19 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02239294A (ja) * 1989-03-13 1990-09-21 A T R Jido Honyaku Denwa Kenkyusho:Kk 基本周波数パターン推定装置
JP2015194781A (ja) * 2015-08-06 2015-11-05 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2016085408A (ja) * 2014-10-28 2016-05-19 富士通株式会社 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4355772B2 (ja) * 2007-02-19 2009-11-04 パナソニック株式会社 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US9842105B2 (en) * 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3304544A1 (en) * 2015-05-26 2018-04-11 Katholieke Universiteit Leuven Speech recognition system and method using an adaptive incremental learning approach
US10255628B2 (en) * 2015-11-06 2019-04-09 Adobe Inc. Item recommendations via deep collaborative filtering
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02239294A (ja) * 1989-03-13 1990-09-21 A T R Jido Honyaku Denwa Kenkyusho:Kk 基本周波数パターン推定装置
JP2016085408A (ja) * 2014-10-28 2016-05-19 富士通株式会社 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム
JP2015194781A (ja) * 2015-08-06 2015-11-05 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HSU, CHIN-CHENG ET AL.: "Voice Conversion from Unaligned Corpora using Variational Autoencoding Wassersterin Generative Adver", INTERSPEECH, JPN6019012775, August 2017 (2017-08-01), pages 3364 - 3368, ISSN: 0004442587 *
田中宏ほか: "VAE−SPACE:音声F0パターンの深層生成モデル", 日本音響学会講演論文集, JPN6019012778, March 2018 (2018-03-01), JP, pages 229 - 230, ISSN: 0004442586 *

Also Published As

Publication number Publication date
US11798579B2 (en) 2023-10-24
US20200395041A1 (en) 2020-12-17
JP6902485B2 (ja) 2021-07-14
WO2019163753A1 (ja) 2019-08-29

Similar Documents

Publication Publication Date Title
JP7108147B2 (ja) 表現用エンドツーエンド音声合成における変分埋め込み容量
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
Ling et al. Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends
Battenberg et al. Effective use of variational embedding capacity in expressive end-to-end speech synthesis
Zen Acoustic modeling in statistical parametric speech synthesis-from HMM to LSTM-RNN
CN117043855A (zh) 无监督并行Tacotron非自回归和可控的文本到语音
JP2019144402A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN112786005A (zh) 信息合成方法、装置、电子设备和计算机可读存储介质
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Pamisetty et al. Prosody-tts: An end-to-end speech synthesis system with prosody control
Tanaka et al. VAE-SPACE: Deep generative model of voice fundamental frequency contours
CN116235247A (zh) 使用持续时间预测的文本到语音
JP5885210B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
WO2019163753A1 (ja) 音声信号解析装置、方法、及びプログラム
JP6137477B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
Revathi et al. Emotions recognition: different sets of features and models
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP6472005B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
Nakamura et al. Integration of spectral feature extraction and modeling for HMM-based speech synthesis
US11670292B2 (en) Electronic device, method and computer program
JP6665079B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
Li et al. Graphical model approach to pitch tracking.
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Li et al. Multi-speaker pitch tracking via embodied self-supervised learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210621

R150 Certificate of patent or registration of utility model

Ref document number: 6902485

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150