JP6902485B2

JP6902485B2 - 音声信号解析装置、方法、及びプログラム

Info

Publication number: JP6902485B2
Application number: JP2018028295A
Authority: JP
Inventors: 田中　宏; 宏田中; 弘和亀岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-02-20
Filing date: 2018-02-20
Publication date: 2021-07-14
Anticipated expiration: 2038-02-20
Also published as: US20200395041A1; WO2019163753A1; US11798579B2; JP2019144403A

Description

本発明は、音声信号解析装置、方法、及びプログラムに係り、特に、音声信号を解析する音声信号解析装置、方法、及びプログラムに関する。

音声の基本周波数(F₀)パターンには言語だけでなく、非言語情報も含まれている。例えば、我々は、発話文の語尾のF₀パターンを変化させることで疑問文を表現し、F₀パターンのダイナミクスを変化させることで意図や感情を表現する。また、歌声においても、メロディや情感、歌手の個人性を表現するために、我々はF₀パターンを変化させる。このため、F₀パターンのモデル化は、表現豊かな音声・歌声合成や対話システム、話者・感情認識などの実現に極めて有効である。

音声のF₀パターンは、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分)と、アクセントに従って急峻に変化する成分(アクセント成分)により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F₀パターンをこれらの成分の和で表した数学的なモデル(以後、藤崎モデル)が提案されている（非特許文献１）。藤崎モデルは、フレーズ・アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測のF₀パターンを非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されているため、実測のF₀パターンから藤崎モデルのパラメータを高精度に推定することができれば有用である。一方、歌声のF₀パターン（非特許文献２、３）のモデル化では、藤崎モデル同様に、オーバーシュートやビブラートといった複数の成分の混合により、F₀パターンを表現する。上述のモデルはいずれも、F₀パターンからF₀パターンに内在するパラメータを推定するという、音声生成過程とその逆問題を扱っている点で共通しており、隠れマルコフモデル（HMM）を用いてその逆問題を解く手法（非特許文献２〜４）が提案されているが、推定時に反復施行が必要であり計算コストが高く、推定精度にも改善の余地があり、さらには言語や話者などに応じて人手でモデルの構造やアルゴリズムを変更する必要がある。

近年、深層学習の分野で、Variational AutoEncoder(VAE)などの深層生成モデルが提案されている。VAEは、名前から分かる通り、ニューラルネットにより記述されているエンコーダ、および、デコーダを含むautoencoderの確率モデルである。エンコーダは入力（例えば、音声や画像）が与えられたもとでその潜在変数を推定し、デコーダは潜在変数が与えられたもとで入力を再構成する。潜在変数が確率分布に従うという仮定があるため、VAEは確率モデルである。従来のVAEでは潜在変数は正規分布に従うと仮定するが、解釈可能な意味ある分布に従うと仮定できる潜在変数を用意することができれば、そのデコーダは観測データとその観測データに内在する解釈可能なパラメータとを関連づける強力な生成モデル（例えば、F₀パターンとフレーズ・アクセント成分とを関連づける藤崎モデルのような生成モデル）になりうる。さらに、VAEにはエンコーダとデコーダを同時に学習するという制約があるため、上述の解釈可能なパラメータを用いることで、例えば音声生成過程とその逆問題とを同時に解くことが可能となる。また、学習データが集めづらい場合（例えば、F₀パターンは大量に用意できるが、その内在するパラメータを大量に集めるには人手と時間が多量に必要となる場合）において、VAEを用いることで、半教師あり学習を行うことが可能である。

Hiroya Fujisaki, "A note on the physiological and physical basis for the phrase and accent components in the voice fundamental frequency contour," Vocal physiology: Voice production, mechanismsand functions, pp. 347-355, 1988. Siu Wa Lee, Shen Ting Ang, Minghui Dong, and Haizhou Li, "Generalized f0 modelling with absolute and relative pitch features for singing voice synthesis," in Acoustics， Speech and Signal Processing (ICASSP)， 2012 IEEE International Conference on． IEEE， 2012， pp． 429-432． Yasunori Ohishi， Hirokazu Kameoka， Daichi Mochihashi， and Kunio Kashino， "A stochastic model of singing voice f0 contours for characterizing expressive dynamic components," in Thirteenth Annual Conference of the International Speech Communication Association， 2012． Hirokazu Kameoka， Kota Yoshizato， Tatsuma Ishihara， Kento Kadowaki， Yasunori Ohishi， and Kunio Kashino， "Generative modeling of voice fundamental frequency contours," IEEE/ACM Transactions on Audio, Speech， and Language Processing， vol．23，no． 6， pp． 1042-1053, 2015.

本発明は、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる音声信号解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る音声信号解析装置は、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する学習部と、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定するパラメータ推定部と、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する基本周波数パターン推定部と、を含んで構成されている。

本発明に係る音声信号解析方法は、学習部が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習し、パラメータ推定部が、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定し、基本周波数パターン推定部が、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する。

また、本発明に係るプログラムは、上記発明に係る音声信号解析装置の各部としてコンピュータを機能させるためのプログラムである。

本発明の音声信号解析装置、方法、及びプログラムによれば、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習することにより、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる、という効果が得られる。

ＨＭＭの状態遷移ネットワークの一例を示す図である。本発明の実施の形態に係る音声信号解析装置の構成を示すブロック図である。本発明の実施の形態の実験の効果の一例を示す図である。本発明の実施の形態の実験の効果の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明の実施の形態で提案する技術は、信号処理の技術分野に属し、音声の基本周波数パターンから基本周波数パターンに内在するパラメータを推定する問題、および、その順問題を解くことを目的とした信号処理技術である。

ここで本発明の実施の形態における関連技術１〜２について説明する。

＜関連技術１：音声のF₀パターン生成過程モデル＞
まず、音声のF₀パターン生成過程モデルについて説明する。

音声のF₀パターンの生成過程を記述したモデルに、藤崎の基本周波数（F₀）パターン生成過程モデル（藤崎モデル）が知られている（非特許文献１）。藤崎モデルとは、甲状軟骨の運動によるF₀パターンの生成過程を説明した物理モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動（平行移動運動と回転運動）にそれぞれ伴う声帯の伸びの合計がF₀の時間的変化をもたらすと解釈され、声帯の伸びとF₀パターンの対数値y(t)が比例関係にあるという仮定に基づいてF₀パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF₀パターンx_p(t)をフレーズ成分、回転運動によって生じるF₀パターンx_a(t)をアクセント成分と呼ぶ。藤崎モデルでは、音声のF₀パターンy(t) は、これらの成分に声帯の物理的制約によって決まるベースライン成分μ_bを足し合わせたものとして、

と表現される。これら二つの成分は二次の臨界制動系の出力と仮定され、

と表される（＊は時刻tに関する畳み込み演算）。ここでu_p(t)はフレーズ指令関数と呼ばれ、デルタ関数（フレーズ指令）の列からなり、u_a(t)はアクセント指令関数と呼ばれ、矩形波（アクセント指令）の列からなる。これらの指令列には、発話の最初にはフレーズ指令が生起する、フレーズ指令は二連続で生起しない、異なる二つの指令は同時刻に生起しない、という制約条件がある。またαとβはそれぞれフレーズ制御機構、アクセント制御機構の固有角周波数であり、話者や発話内容によらず、おおよそα=3rad/s，β=20rad/s程度であることが経験的に知られている。

＜関連技術2：歌声のF₀パターン生成過程モデル＞
次に、歌声のF₀パターン生成過程モデルについて説明する。

歌声の旋律に伴った急激な基本周波数の上昇・下降の制御及び、ビブラートのような周期的な振動は、上述した藤崎モデルのような臨界制動系では表現できない。そのため、歌声のF₀制御モデルでは制御パラメータ（減衰率と固有周波数Ω）を用いて表現される２次系の伝達関数

における減衰率

を調整することによって、指数減衰（

）、減衰振動（

、オーバーシュートに対応する）、臨界制動（

）、定常振動（

、ビブラートに対応する）からなる様々な振動現象を表現する。

＜本発明の実施の形態に係る原理＞
本発明の実施の形態の技術は学習処理と推定処理からなる。

＜学習処理＞
学習処理ではF₀パターン（例えば音声のF₀パターン）とそのF₀パターンに内在するパラメータ（例えばフレーズ・アクセント成分）のパラレルデータもしくは一部がパラレルデータであるデータが与えられているものとする。

まず、潜在変数zは、F₀パターンの生成過程を司るパラメータとする。例えば、藤崎モデルの場合ではフレーズ・アクセント成分に相当する。所与のzに関するF₀パターンxの条件付き確率分布P_θ(x|z)をニューラルネットで記述されたデコーダで近似することにより、その事後確率であるP_θ(z|x) は所与のF₀パターンxが与えられた際のzを推定するという逆問題とみなすことができる。この事後確率を厳密に求めることは困難であるため、xの条件付き確率分布Q_φ(z|x)をニューラルネットで記述されたエンコーダで近似する。上述のエンコーダとデコーダを学習することにより、xの条件付き確率分布Q_φ(z|x)は、真の事後確率P_θ(z|x)∝P_θ(x|z)P(z)と一致するようになる。F₀パターンxに関する対数周辺確率密度関数log P_θ(x)は、

[非特許文献５] Diederik P Kingma and Max Welling,“Auto-encoding variational bayes，” arXiv preprint arXiv:1312．6114, 2013．
[非特許文献６] Casper Kaae Sonderby， Tapani Raiko， Lars Maaloe， Soren Kaae Sonderby，and Ole Winther， “Lad-der variational autoencoders,” in Advances in Neural Information Processing Systems， 2016， pp．3738-3746．

ここで、潜在変数zをある特定の興味深い変数に設定することで、事前分布であるP(z)に関して具体的な形を我々はデザインできる。例えば、上述のように潜在変数zをフレーズ・アクセント成分と関連づけた場合、P(z)は

とすることができる。なお、sは、上記非特許文献４で述べられている経路制約付きHMM（図１参照）の状態系列である。つまり、経路制約付きHMMがモデル化しているフレーズ・アクセント指令の自然な継続長を考慮して、所与のF₀パターンを表現するために自然である潜在変数z が推定されることになる。

＜推定処理＞
所与のF₀パターンxからそのF₀パターンに内在するパラメータzへの推定処理は、上述のエンコーダQ_φ(z|x)を用いてzに関する事後分布を求め、そのときの平均系列をzとする。所与のF₀パターンに内在するパラメータzからそのF₀パターンxへの推定処理は、上述のデコーダP_θ(x|z)を用いて求める。各エンコーダ・デコーダはCNNにより記述されているため、従来のような反復施行を必要とせずCNNの各バッチにおいて並列演算が可能であり、高速に推定することが可能である。

＜システム構成＞
図２に示すように、本発明の実施の形態に係る音声信号解析装置は、ＣＰＵと、ＲＡＭと、各処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図２に示すように、音声信号解析装置１００は、入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付ける。また、入力部１０は、推定対象の音声信号における基本周波数パターンに内在するパラメータを受け付ける。また、入力部１０は、推定対象の音声信号における基本周波数パターンを受け付ける。

なお、基本周波数パターンは、周知技術である基本周波数の抽出処理を用いて、音声信号から基本周波数を抽出することで得られる。

演算部２０は、学習部３０と、深層生成モデル記憶部４０と、パラメータ推定部５０と、基本周波数パターン推定部６０とを備えている。

学習部３０は、入力部１０によって受け付けた音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、音声信号における基本周波数パターンから潜在変数を推定するエンコーダ及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダを含む深層生成モデルを学習する。

具体的には、音声信号における基本周波数パターンを入力としたデコーダの出力と、経路制約つきＨＭＭ（Hidden Markov Model）の状態系列を用いて表されるパラメータの事前分布との距離、及び潜在変数を入力としたエンコーダの出力を用いて定義される上記式（８）の目的関数を最大化するように、深層生成モデルのデコーダP_θ(x|z)及びエンコーダQ_φ(z|x)を学習する。

ここで、経路制約つきＨＭＭ（Hidden Markov Model）の状態系列は、基本周波数パターンから推定される、ＨＭＭにおける、各時刻ｋの状態ｓ_ｋからなる状態系列ｓである。

ここで経路制約つきＨＭＭの状態系列では、上記図１に示したように、フレーズ指令が生起する状態ｐ₀と、アクセント指令が生起する複数の状態ａ_ｎと、フレーズ指令及びアクセント指令の何れもが生起しない状態ｒ₀、ｒ₁とを有し、状態ｒ₀から状態ｐ₀に遷移して状態ｒ_１に遷移し、状態ｒ₁から複数の状態ａ_ｎの何れかに遷移して状態ｒ₀に遷移するように各状態が連結されている。

また、深層生成モデルのデコーダP_θ(x|z)及びエンコーダQ_φ(z|x)の各々は、畳み込みニューラルネットワークを用いて構成されている。

深層生成モデル記憶部４０には、学習部３０によって学習された深層生成モデルのデコーダP_θ(x|z)及びエンコーダQ_φ(z|x)が記憶される。

パラメータ推定部５０は、深層生成モデルのエンコーダQ_φ(z|x)を用いて、入力された推定対象の音声信号における基本周波数パターンから当該基本周波数パターンに内在するパラメータを推定し、出力部９０により出力する。

基本周波数パターン推定部６０は、深層生成モデルのデコーダP_θ(x|z)を用いて、入力された推定対象の音声信号における基本周波数パターンに内在するパラメータから、当該基本周波数パターンを推定し、出力部９０により出力する。

＜音声信号解析装置の作用＞
次に、本発明の実施の形態に係る音声信号解析装置１００の作用について説明する。まず、入力部１０において、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付けると、音声信号解析装置１００の学習部３０は、音声信号における基本周波数パターンから潜在変数を推定するエンコーダQ_φ(z|x)、及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダP_θ(x|z)を含む深層生成モデルを学習し、深層生成モデル記憶部４０に格納する。

次に、入力部１０において、推定対象の音声信号における基本周波数パターンを受け付けると、音声信号解析装置１００のパラメータ推定部５０は、深層生成モデルのエンコーダQ_φ(z|x)を用いて、推定対象の音声信号における基本周波数パターンから当該基本周波数パターンに内在するパラメータを推定し、出力部９０により出力する。

また、入力部１０において、推定対象の音声信号における基本周波数パターンに内在するパラメータを受け付けると、音声信号解析装置１００のパラメータ推定部５０は、深層生成モデルのデコーダP_θ(x|z)を用いて、入力された推定対象の音声信号における基本周波数パターンに内在するパラメータから、当該基本周波数パターンを推定し、出力部９０により出力する。

＜本実施の形態の実験の効果＞
＜効果の例１＞
音声信号からF₀パターン抽出し、そのF₀パターンに対して人手でフレーズ・アクセント成分のデータを作成した。F₀パターンとフレーズ・アクセント成分のパラレルデータを用いて、上記のモデル（深層生成モデル）を学習したのちに、推定処理によりF₀パターンからフレーズ・アクセント成分を推定し、フレーズ・アクセント成分からF₀パターンを推定する実験を行い、推定されたF₀パターンおよびフレーズ・アクセント成分が元のF₀パターンおよびフレーズ・アクセント成分をどの程度復元できているか確認した。図３にその結果の例を示す。従来のものよりも高精度にF₀パターンおよびフレーズ・アクセント成分を再現できていることが確認できる。

＜効果の例２＞
歌声信号からF₀パターンを、その楽曲信号からノート（音符）をそれぞれ抽出しパラレルデータを作成した。F₀パターンとノートのパラレルデータを用いて、各歌唱者ごとに上記のモデル（深層生成モデル）の歌唱者依存モデルを学習したのちに、推定処理によりノートからF₀パターンを推定する実験を行い、推定されたF₀パターンが元のF₀パターンをどの程度復元できているか確認した。図４にその結果の例を示す。入力情報がノートだけであるにも関わらず、ビブラートやオーバーシュートがよく推定されていることが確認される。また、歌唱者ごとにその歌唱者の特性を捉えたF₀ パターンが推定されていることが確認できる。

以上説明したように、本発明の実施の形態に係る音声信号解析装置によれば、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習することにより、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０入力部
２０演算部
３０学習部
４０深層生成モデル記憶部
５０パラメータ推定部
６０基本周波数パターン推定部
９０出力部
１００音声信号解析装置

Claims

音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する学習部と、
前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定するパラメータ推定部と、
前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する基本周波数パターン推定部と、
を含む音声信号解析装置。
前記学習部は、音声信号における基本周波数パターンを入力とした前記エンコーダの出力と、経路制約つきＨＭＭ（Hidden Markov Model）の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記デコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項１記載の音声信号解析装置。
前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項１又は２記載の音声信号解析装置。
学習部が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習し、
パラメータ推定部が、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定し、
基本周波数パターン推定部が、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する
音声信号解析方法。
前記学習部が学習することでは、音声信号における基本周波数パターンを入力とした前記エンコーダの出力と、経路制約つきＨＭＭ（Hidden Markov Model）の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記デコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項４記載の音声信号解析方法。
前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項４又は５記載の音声信号解析方法。
請求項１〜請求項３の何れか１項に記載の音声信号解析装置の各部としてコンピュータを機能させるためのプログラム。