JP6132865B2 - 声質変換用モデルパラメータ学習装置、その方法及びプログラム - Google Patents

声質変換用モデルパラメータ学習装置、その方法及びプログラム Download PDF

Info

Publication number
JP6132865B2
JP6132865B2 JP2015051939A JP2015051939A JP6132865B2 JP 6132865 B2 JP6132865 B2 JP 6132865B2 JP 2015051939 A JP2015051939 A JP 2015051939A JP 2015051939 A JP2015051939 A JP 2015051939A JP 6132865 B2 JP6132865 B2 JP 6132865B2
Authority
JP
Japan
Prior art keywords
conversion
speaker
target
acoustic features
voice quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015051939A
Other languages
English (en)
Other versions
JP2016173383A (ja
Inventor
孝典 芦原
孝典 芦原
太一 浅見
太一 浅見
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015051939A priority Critical patent/JP6132865B2/ja
Publication of JP2016173383A publication Critical patent/JP2016173383A/ja
Application granted granted Critical
Publication of JP6132865B2 publication Critical patent/JP6132865B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ある話者の声質を他の話者の声質に変換する際に用いる声質変換モデルのモデルパラメータ(以下、声質変換用モデルパラメータともいう)を学習する技術に関する。
ある話者の声を、あたかも別の話者が発話しているように声質を変換する技術として、声質変換(Voice conversion)が挙げられる。より具体的には、ある話者の音声の音響特徴量から別の話者の声質の音響特徴量へ変換するモデルパラメータを事前に学習しておくことで、別の声質の音声を合成する事が可能になる技術である。
このような声質変換を実現するモデルパラメータを学習させる際、ターゲットとなる変換後に再現したい話者(以下、対象話者ともいう)と、変換元となる話者(以下、変換元話者ともいう)とが、同じ内容で発話し、その発話を収音して得られる音声信号からなるデータベース(パラレルデータと呼ぶ)がしばしば要求される。例えば非特許文献1及び非特許文献2がこれに該当する。しかしながら、このようなパラレルデータは、対象話者に改めて発話スクリプトを読み上げてもらう必要があるなど、実システムにおいて入手が非常に困難である。
一方で、そのような問題に対し、対象話者と変換元話者とが異なる内容で発話し、その発話を収音して得られるデータベース(ノンパラレルデータと呼ぶ)であったとしても、声質変換を実現出来るようなアラインメントアルゴリズムも開発されている。例えば非特許文献3がこれに該当する。非特許文献3では、以下のようなアラインメントアルゴリズムにより、変換元話者と対象話者のペアリングされた特徴量を生成し、声質変換用モデルパラメータを構築していた。
1. 変換元話者と対象話者のノンパラレルデータの音響特徴量に対して、フレーム単位で最近傍ペア(特徴量空間上で距離の近いペア)を探索する。
2. 探索結果の音響特徴量のペアを用いて声質変換用のモデルパラメータを学習する。
3. 学習したモデルパラメータを用いて変換元話者の音響特徴量を変換し、変換済み音響特徴量を生成する。
4. 変換済み音響特徴量と、対象話者の音響特徴量との距離を測る。
5. 4.で算出された距離が閾値以下であれば、そのモデルパラメータを最終パラメータとして採用する。一方、閾値以上であるならば、再度、1から4までの処理を実行する。このとき、1における変換元話者の音響特徴量は、モデルパラメータにより変換された変換済み音響特徴量と対象話者の音響特徴量とを用いて探索を実行する。また2の学習時は、変換済み音響特徴量では学習せず、変換済み音響特徴量と対象話者の音響特徴量との探索結果の最近傍フレームに対応する変換元話者の音響特徴量(変換していない元々の音響特徴量)を用いて学習する。
S. Desai, A.W. Black, B. Yegnanarayana, K. Prahallad, "Spectral Mapping Using Artificial Neural Networks for Voice Conversion", Audio, Speech, and Language Processing, IEEE Transactions on, 2010, Volume: 18 , Issue: 5, pp.954 - 964. T. Toda, A.W. Black, K. Tokuda, "Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory", Audio, Speech, and Language Processing, IEEE Transactions on, 2007, Volume:15 , Issue: 8, pp.2222 - 2235. D. Erro, A. Moreno, A. Bonafonte, "INCA Algorithm for Training Voice Conversion Systems From Nonparallel Corpora", Audio, Speech, and Language Processing, IEEE Transactions on, 2010, Volume:18, Issue: 5, pp.944 - 953.
しかしながら、非特許文献3では、最近傍ペアを探索する際、変換元話者の音響特徴量の1フレームに対して、対象話者の音響特徴量の全フレームを探索する。この処理を変換元話者の音響特徴量の全フレームに対して実行する為、変換元話者及び対象話者の学習データ量に依存して、莫大な計算時間がかかってしまう。
本発明は、従来よりも計算時間を抑えて、声質変換用モデルパラメータを学習することができる声質変換用モデルパラメータ学習装置、その方法及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、声質変換用モデルパラメータ学習装置は、変換後に再現したい話者を対象話者とし、変換元となる話者を変換元話者とし、変換元話者の発話の内容と対象話者の発話の内容とは必ずしも一致しないものとし、pを変換回数を表すインデックスとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列を対象音響特徴量系列Og=(og(1),og(2),…,og(M))とし、変換元話者の発話を収音して得られる音声信号の音響特徴量の系列を変換元音響特徴量系列Op=(op(1),op(2),…,op(N))とし、対象音響特徴量系列Og及び変換元音響特徴量系列Opにはそれぞれフレーム単位で音素ラベルが付与されているものとし、n=1,2,…,Nとし、x1,x2,…,xNをそれぞれ1,2,…,Mの何れかとし、変換元音響特徴量op(n)と同じ音素ラベルを付与された対象音響特徴量の中から、音響特徴量空間上での距離が近い対象音響特徴量og,p(xn)を求め、変換元音響特徴量op(n)と対象音響特徴量og,p(xn)とのペア(op(n),og,p(xn))を最近傍ペアとする最近傍フレーム探索部と、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の変換元音響特徴量op(1),op(2),…,op(N)に対応する変換前の変換元音響特徴量o0(1),o0(2),…,o0(N)を、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習する声質変換用モデルパラメータ学習部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、声質変換用モデルパラメータ学習装置が実行する声質変換用モデルパラメータ学習方法は、変換後に再現したい話者を対象話者とし、変換元となる話者を変換元話者とし、変換元話者の発話の内容と対象話者の発話の内容とは必ずしも一致しないものとし、pを変換回数を表すインデックスとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列を対象音響特徴量系列Og=(og(1),og(2),…,og(M))とし、変換元話者の発話を収音して得られる音声信号の音響特徴量の系列を変換元音響特徴量系列Op=(op(1),op(2),…,op(N))とし、対象音響特徴量系列Og及び変換元音響特徴量系列Opにはそれぞれフレーム単位で音素ラベルが付与されているものとし、n=1,2,…,Nとし、x1,x2,…,xNをそれぞれ1,2,…,Mの何れかとし、変換元音響特徴量op(n)と同じ音素ラベルを付与された対象音響特徴量の中から、音響特徴量空間上での距離が近い対象音響特徴量og,p(xn)を求め、変換元音響特徴量op(n)と対象音響特徴量og,p(xn)とのペア(op(n),og,p(xn))を最近傍ペアとする最近傍フレーム探索ステップと、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の変換元音響特徴量op(1),op(2),…,op(N)に対応する変換前の変換元音響特徴量o0(1),o0(2),…,o0(N)を、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習する声質変換用モデルパラメータ学習ステップとを含む。
本発明によれば、従来よりも計算時間を抑えて、声質変換用モデルパラメータを学習することができるという効果を奏する。
第一実施形態に係る声質変換用モデルパラメータ学習装置の機能ブロック図。 第一実施形態に係る声質変換用モデルパラメータ学習装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<ポイント>
本実施形態では、非特許文献3で実行していたフレーム毎の最近傍探索処理前に、人手により、または、自動的に、予めフレーム毎に音素ラベルを付しておき、変換元話者と対象話者とで同じ音素ラベルが付いている(と考えらえる)フレーム同士で最近傍ペアを探索する事により、言い換えると、同じ音素ラベルのフレーム同士の最近傍探索に限定することで、探索時間の削減を図る。また全フレーム同士の探索ではなく、予め同じ音素ラベル同士の探索に限定する事で、誤った音素同士のペアが生成される事は無くなる為、声質変換用モデルパラメータの学習はより精度の高いものとなり、この方法により学習された声質変換用モデルパラメータの変換精度が向上すると考えられる。
<第一実施形態に係る声質変換用モデルパラメータ学習装置>
図1は第一実施形態に係る声質変換用モデルパラメータ学習装置100の機能ブロック図を、図2はその処理フローを示す。
声質変換用モデルパラメータ学習装置100は、変換元話者の発話を収音して得られるアナログ音声信号x(t1)と、対象話者の発話を収音して得られるアナログ音声信号xg(t2)とを受け取り、声質変換用モデルパラメータΘpを出力する。なお、変換元話者の発話の内容と変換元話者の発話の内容とは必ずしも一致しないものとし、t1及びt2はそれぞれ変換元話者及び対象話者の発話を収音して得られるアナログ音声信号の時刻を表すインデックスである。
声質変換用モデルパラメータ学習装置100は、音声信号取得部101、音声ディジタル信号蓄積部103、特徴量分析部105、特徴量蓄積部107、音素ラベル付与部109、音素ラベル付特徴量蓄積部111、最近傍フレーム探索部120、最近傍フレームID蓄積部123、声質変換用モデルパラメータ学習部130、特徴量変換部140、距離計算部150及び閾値判定部160を含む。以下、各部の処理内容を説明する。
<音声信号取得部101及び音声ディジタル信号蓄積部103>
音声信号取得部101は、アナログ音声信号x(t1)及びxg(t2)を受け取り、それぞれディジタル音声信号XD=(xD(1),xD(2),…,xD(T))及びXg,D=(xG,D(1),xG,D(2),…,xG,D(Tg))に変換し(S101)、音声ディジタル信号蓄積部103に蓄積する(S103)。なお、T及びTgは、それぞれディジタル音声信号XD及びXg,Dに含まれるサンプル数を示す。
<特徴量分析部105及び特徴量蓄積部107>
特徴量分析部105は、音声ディジタル信号蓄積部103からディジタル音声信号XD及びXg,Dを取り出し、それぞれに対して特徴量分析を行い、音響特徴量の系列O0=(o0(1),o0(2),…,o0(N))及びOg=(og(1),og(2),…,og(M))を得(S105)、特徴量蓄積部107に蓄積する(S107)。なお、ディジタル音声信号XDから得られる音響特徴量の系列O0を変換元音響特徴量系列とし、ディジタル音声信号Xg,Dから得られる音響特徴量の系列Ogを対象音響特徴量系列とする。N及びMはそれぞれ変換元音響特徴量系列O0及び対象音響特徴量系列Ogに含まれる音響特徴量の個数を表す。本実施形態では、ディジタル音声信号XD及びXg,Dを所定の区間(以下「フレーム」ともいう)に区切って、フレーム単位で変換元音響特徴量o0(n)及び対象音響特徴量og(m)を得るため、N及びMはそれぞれ変換元音響特徴量系列O0及び対象音響特徴量系列Ogに含まれるフレームの個数を表すともいえる。n=1,2,…,N及びm=1,2,…,Mである。抽出する音響特徴量としては、例えば、ディジタル音声信号の短時間フレーム分析に基づくMFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはCMN(ケプストラム平均正規化)処理を行っても良い。なお、音響特徴量は、MFCCやパワーに限定したものでは無く、例えば、音声認識に用いられる様々なパラメータを用いても良い。
<音素ラベル付与部109及び音素ラベル付特徴量蓄積部111>
音素ラベル付与部109は、特徴量蓄積部107から変換元音響特徴量系列O0及び対象音響特徴量系列Ogを取り出し、それぞれにフレーム単位(言い換えると、音響特徴量o0(n)及びog(m)の単位)で音素ラベルを付与し(S109)、音素ラベル付特徴量蓄積部111に蓄積する(S111)。
付与方法としては、手動獲得または自動獲得が考えられる。
手動獲得としては、人手により発話内容を鑑みながら音声波形に対して、該当する音素の時間領域を手動でラベル付けする方法がある。
自動獲得としては、変換元音響特徴量系列O0及び対象音響特徴量系列Ogに対して、強制アラインメントを実行することで、音素ラベル付き変換元音響特徴量系列O0及び対象音響特徴量系列Ogを生成する。強制アラインメントとは、音響特徴量系列の発話内容が既知であることを前提として(例えば、発話内容に対応する書き起こしテキストはあるが、テキストから得られる音素と、音声信号に含まれる波形(または音声信号に含まれる波形から得られる音響特徴量)との対応関係は不明であることを前提として)、その発話内容に対する音声認識を実行し、認識処理過程における状態遷移を観測することで、入力した分析フレーム毎の特徴量に対応するhidden markov model(以下、HMMともいう)の状態番号をあてがう処理である。なお、音声認識ではしばしば音素認識のためにHMMを用い、状態番号はtriphoneまでを考える。triphoneは分類すべき音素の前後の音素関係も含めた音素の三つ組み、例えば「a-k-a」のように3音素を一つの状態番号として考える、なお、monophoneは音素一つ、biphoneで音素の二つ組を一つの状態として考える。状態番号から音素ラベルへのマッピングは、強制アラインメント実行時に利用したHMMの各状態番号自体が音素ラベル(monophone, biphone, triphone)と対応付いているため、その各状態番号と音素ラベルの対応から、各フレーム毎に音素ラベルを付与する。強制アラインメント自体は、正解テキストを用いてビタビアルゴリズム等を利用して実行される。なお、音声認識におけるHMMやビタビアルゴリズムについては参考文献1に記されている。
(参考文献1)鹿野他、“IT Text 音声認識システム”、株式会社オーム社、2001年、pp.43-45,pp.17-24
なお、テキストから得られる音素と、音声信号に含まれる波形との対応関係を特定する処理には多くの人的コスト、時間コストが必要となるため、音声信号とその音声信号に対応する書き起こしテキストとが存在する場合には、自動獲得により人的コスト、時間コストを低減することができる。また、手動獲得の場合には、書き起こしテキストは必ずしも必要ではなく、発話内容を聴きながら、音声信号の波形に音素ラベルを付与してもよい。
音声信号に対応する書き起こしテキスト、より具体的には、変換元話者と対象話者のノンパラレルデータに対応する書き起こしテキストが入手可能である状況では自動獲得を行い、ない状況では手動獲得を行ってもよい。
<最近傍フレーム探索部120及び最近傍フレームID蓄積部123>
最近傍フレーム探索部120は、音素ラベル付特徴量蓄積部111から対象音響特徴量系列Ogを取り出す。さらに、(1)最近傍フレーム探索部120における処理が1回目の場合には、音素ラベル付特徴量蓄積部111から音素ラベル付きの変換元音響特徴量系列O0を取り出す。(2)最近傍フレーム探索部120における処理が2回目以降の場合には、特徴量変換部140から変換後の変換元音響特徴量系列Opを受け取る。なお、pを変換回数を表すインデックスとし、p=0のとき、変換前の変換元音響特徴量系列O0を表す。
最近傍フレーム探索部120は、対象音響特徴量系列Ogと変換元音響特徴量系列Opとの最近傍探索をする。
(1)最近傍フレーム探索部120における処理が1回目の場合、変換前の変換元音響特徴量系列O0と対象音響特徴量系列Ogとの最近傍探索を実行する。
(2)最近傍フレーム探索部120における処理が2回目以降の場合、言い換えると、後述する閾値判定部160において、対象音響特徴量系列Ogと、後述する特徴量変換部140で変換された変換後の変換元音響特徴量系列Op(この場合、pは1以上の整数)との距離desが閾値以上であった場合、再度、最近傍フレーム探索部120における処理を実行する。その場合は、変換前の変換元音響特徴量系列O0と対象音響特徴量系列Ogとの最近傍探索ではなく、変換後の変換元音響特徴量系列Opと対象音響特徴量系列Ogとの最近傍探索を実行する。
最近傍探索は、例えば、変換元音響特徴量系列Opの中の1フレーム分の変換元音響特徴量op(n)に対し、対象音響特徴量系列Og=(og(1),og(2),…,og(M))において同じ音素ラベルが付与されている対象音響特徴量群との音響特徴量空間上での距離(例えばケプストラム距離)を算出し、その中で距離が最小となる対象音響特徴量og,p(xn)を最近傍とする。ただし、x1,x2,…,xNをそれぞれ1,2,…,Mの何れかとする。
例えば、最近傍フレーム探索部120は、変換元音響特徴量op(n)と同じ音素ラベルを付与された対象音響特徴量の中から、音響特徴量空間上での距離が近い対象音響特徴量og,p(xn)を求め、変換元音響特徴量op(n)と対象音響特徴量og,p(xn)とのペア(op(n),og,p(xn))を最近傍ペアとする(S120)。この処理を全てのn(n=1,2,…,N)について行う。
最近傍フレーム探索部120は、最近傍同士のフレームのID番号(n,xn)を出力し、最近傍フレームID蓄積部123に蓄積する(S123)。なお、変換元音響特徴量op(n)のID番号nは1,2,…,Nとなるため、対象音響特徴量og,p(xn)のID番号xnだけを順に最近傍フレームID蓄積部123に蓄積してもよい。この場合、(1)最近傍フレームID蓄積部123内のID番号xnの格納される位置、(2)最近傍フレームID蓄積部123にID番号xnを蓄積する順番、(3)最近傍フレームID蓄積部123からID番号xnを取り出す順番の少なくとも何れかから対応する最近傍ペアに属する変換元音響特徴量op(n)のID番号nを求めることができる。
<声質変換用モデルパラメータ学習部130>
声質変換用モデルパラメータ学習部130は、最近傍フレームID蓄積部123から最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))のID番号(1,x1),(2,x2),...,(N,xN)を取り出し、このID番号に対応する変換元音響特徴量o0(1),o0(2),…,o0(N)及び対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)を特徴量蓄積部107から取り出す。声質変換用モデルパラメータ学習部130は、変換元音響特徴量o0(1),o0(2),…,o0(N)を対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習し(S130)、学習後の声質変換用モデルパラメータΘpを出力する。なお、声質変換用モデルとしては、例えばGMM(Gaussian Mixture Model)及びNN(Neural Networks)等が用いられる。これらモデルの学習法としては、様々な方法を用いることができ、例えば、非特許文献1及び非特許文献2に記載の方法を用いることができる。
<特徴量変換部140>
特徴量変換部140は、特徴量蓄積部107から変換前の変換元音響特徴量系列O0を取り出し、声質変換用モデルパラメータ学習部130から声質変換用モデルパラメータΘpを受け取る。特徴量変換部140は、声質変換用モデルパラメータΘpを用いて、変換元音響特徴量系列O0=(o0(1),o0(2),…,o0(N))を変換元音響特徴量系列Oq=(oq(1),oq(2),…,oq(N))に変換し(S140)、距離計算部150及び最近傍フレーム探索部120に出力する。ただし、qを変換回数を表すインデックスとし、q=p+1とする。
<距離計算部150>
距離計算部150は、変換後の変換元音響特徴量系列Oqを受け取り、例えば、最近傍フレームID蓄積部123から最近傍ペア(op(n),og,p(xn))のID番号(n,xn)を取り出し、このID番号に対応する対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)を特徴量蓄積部107から取り出す。距離計算部150は、変換後の変換元音響特徴量oq(1),oq(2),…,oq(N)と、対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)との距離desを計算し(S150)、出力する。例えば、ケプストラム距離を計算する。
例えば、距離計算部150において、N個の距離desn=des(oq(n),og,p(xn))(ただし、des(a,b)は音響特徴量aと音響特徴量bとの距離を求める関数とする)を計算し、次のように、その平均値を距離desとしてもよい。
Figure 0006132865
また、次のように、N個の距離desnの集合を距離desとしてもよい。
des=(des1,des2,...,desN)
<閾値判定部160>
閾値判定部160は、距離desを受け取り、この距離desに対して所定の閾値を用いて閾値判定する(S160)。距離desが閾値以上の場合(例えば閾値が5であれば、距離desが5以上がこれに該当する)、まだ声質変換用モデルパラメータΘpが、変換元話者から対象話者へ変換するのに不十分であると考え、再度、最近傍フレーム探索部120、最近傍フレームID蓄積部123を介し、声質変換用モデルパラメータ学習部130を実行していく。具体的には、閾値判定部160は、処理を継続する旨の制御信号nを最近傍フレーム探索部120、最近傍フレームID蓄積部123、声質変換用モデルパラメータ学習部130、特徴量変換部140及び距離計算部150に出力する。
また、距離desが閾値より小さい場合(例えば閾値が5であれば、距離desが5未満がこれに該当する)、声質変換用モデルパラメータΘpは適切に学習が行われたと考え、処理を完了する。具体的には、閾値判定部160は、その時点の声質変換用モデルパラメータΘpを声質変換用モデルパラメータ学習装置100の出力値として出力する。
例えば、距離desがN個の距離desnの平均値の場合、距離desと閾値とを比較すればよい。
また、例えば、距離desがN個の距離desnの集合の場合、N個の距離desnと閾値とをそれぞれ比較し、全ての、または、所定の割合以上の距離desnが閾値より小さい場合に、声質変換用モデルパラメータΘpは適切に学習が行われたと判定する。
<効果>
このような構成により、従来よりも計算時間を抑えて、声質変換用モデルパラメータを学習することができ、さらに、声質変換用モデルパラメータの学習はより精度の高いものとなる。
<変形例>
本実施形態のポイントは、非特許文献3で実行していたフレーム毎の最近傍探索処理において、変換元話者と対象話者で同じ音素ラベルが付いているフレーム同士で最近傍ペアを探索する事により探索時間の削減を図り、同じ音素ラベル同士の探索に限定する事で、声質変換用モデルパラメータの学習の精度を高めることである。よって、声質変換用モデルパラメータ学習装置は、少なくとも最近傍フレーム探索部120と声質変換用モデルパラメータ学習部130とを含めばよく、例えば、他の処理については別装置によって行ってもよい。例えば、声質変換用モデルパラメータ学習装置は音声信号取得部101、音声ディジタル信号蓄積部103、特徴量分析部105、特徴量蓄積部107、音素ラベル付与部109及び音素ラベル付特徴量蓄積部111を含まず、変換元音響特徴量系列O0及び対象音響特徴量系列Ogを入力としてもよい。
本実施形態では、強制アラインメントを、音響特徴量系列の発話内容が既知であることを前提として、その発話内容に対する音声認識を実行し、認識処理過程における状態遷移を観測することで、入力した分析フレーム毎の特徴量に対応するhidden markov model(以下、HMMともいう)の状態番号をあてがう処理としたが、必ずしも音声認識まで行わずともよく、少なくとも音素ラベルの付与を行えばよい。付与処理過程における状態遷移を観測すること同様の効果を得ることができる。
本実施形態では声質変換用モデルパラメータ学習部130、特徴量変換部140、距離計算部150において、音素ラベルの付与されていない音響特徴量を用いているが、音素ラベルの付与された音響特徴量を用いても同様の効果を得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 変換後に再現したい話者を対象話者とし、変換元となる話者を変換元話者とし、変換元話者の発話の内容と対象話者の発話の内容とは必ずしも一致しないものとし、pを変換回数を表すインデックスとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列を対象音響特徴量系列Og=(og(1),og(2),…,og(M))とし、変換元話者の発話を収音して得られる音声信号の音響特徴量の系列を変換元音響特徴量系列Op=(op(1),op(2),…,op(N))とし、対象音響特徴量系列Og及び変換元音響特徴量系列Opにはそれぞれフレーム単位で音素ラベルが付与されているものとし、n=1,2,…,Nとし、x1,x2,…,xNをそれぞれ1,2,…,Mの何れかとし、変換元音響特徴量op(n)と同じ音素ラベルを付与された対象音響特徴量の中から、音響特徴量空間上での距離が近い対象音響特徴量og,p(xn)を求め、前記変換元音響特徴量op(n)と前記対象音響特徴量og,p(xn)とのペア(op(n),og,p(xn))を最近傍ペアとする最近傍フレーム探索部と、
    最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の変換元音響特徴量op(1),op(2),…,op(N)に対応する変換前の変換元音響特徴量o0(1),o0(2),…,o0(N)を、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習する声質変換用モデルパラメータ学習部とを含む、
    声質変換用モデルパラメータ学習装置。
  2. 請求項1の声質変換用モデルパラメータ学習装置であって、
    変換元話者の発話の内容と対象話者の発話の内容とが既知であることを前提として、変換元話者の発話と対象話者の発話とを収音して得られる音声信号の音響特徴量の系列に対してhidden markov modelによる音素ラベルの付与を実行し、付与処理過程における状態遷移を観測することで、分析フレーム毎の音響特徴量に対応するhidden markov modelの状態番号をあてがう処理を強制アラインメントとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列及び変換元話者の発話を収音して得られる音声信号の音響特徴量の系列に対して、強制アラインメントを実行することで、音素ラベルが付与された対象音響特徴量系列Og=(og(1),og(2),…,og(M))及び変換元音響特徴量系列O0=(o0(1),o0(2),…,o0(N))を生成する音素ラベル付与部を含む、
    声質変換用モデルパラメータ学習装置。
  3. 請求項1または請求項2の声質変換用モデルパラメータ学習装置であって、
    qを変換回数を表すインデックスとし、q=p+1とし、前記声質変換用モデルパラメータを用いて、変換前の変換元音響特徴量系列O0=(o0(1),o0(2),…,o0(N))を変換元音響特徴量系列Oq=(oq(1),oq(2),…,oq(N))に変換する特徴量変換部と、
    変換後の変換元音響特徴量oq(1),oq(2),…,oq(N)と、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)との距離desを計算する距離計算部とを含み、
    前記距離desが所定の閾値よりも小さい場合、声質変換用モデルパラメータの学習を終了する、
    声質変換用モデルパラメータ学習装置。
  4. 請求項3の声質変換用モデルパラメータ学習装置であって、
    前記距離desが所定の閾値よりも小さくなるまで、前記最近傍フレーム探索部、前記声質変換用モデルパラメータ学習部、前記特徴量変換部及び前記距離計算部における処理を繰り返す、
    声質変換用モデルパラメータ学習装置。
  5. 変換後に再現したい話者を対象話者とし、変換元となる話者を変換元話者とし、変換元話者の発話の内容と対象話者の発話の内容とは必ずしも一致しないものとし、pを変換回数を表すインデックスとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列を対象音響特徴量系列Og=(og(1),og(2),…,og(M))とし、変換元話者の発話を収音して得られる音声信号の音響特徴量の系列を変換元音響特徴量系列Op=(op(1),op(2),…,op(N))とし、対象音響特徴量系列Og及び変換元音響特徴量系列Opにはそれぞれフレーム単位で音素ラベルが付与されているものとし、n=1,2,…,Nとし、x1,x2,…,xNをそれぞれ1,2,…,Mの何れかとし、変換元音響特徴量op(n)と同じ音素ラベルを付与された対象音響特徴量の中から、音響特徴量空間上での距離が近い対象音響特徴量og,p(xn)を求め、前記変換元音響特徴量op(n)と前記対象音響特徴量og,p(xn)とのペア(op(n),og,p(xn))を最近傍ペアとする最近傍フレーム探索ステップと、
    最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の変換元音響特徴量op(1),op(2),…,op(N)に対応する変換前の変換元音響特徴量o0(1),o0(2),…,o0(N)を、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習する声質変換用モデルパラメータ学習ステップとを含み、
    声質変換用モデルパラメータ学習装置が実行する声質変換用モデルパラメータ学習方法。
  6. 請求項1から請求項4の何れかの声質変換用モデルパラメータ学習装置としてコンピュータを機能させるためのプログラム。
JP2015051939A 2015-03-16 2015-03-16 声質変換用モデルパラメータ学習装置、その方法及びプログラム Active JP6132865B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015051939A JP6132865B2 (ja) 2015-03-16 2015-03-16 声質変換用モデルパラメータ学習装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015051939A JP6132865B2 (ja) 2015-03-16 2015-03-16 声質変換用モデルパラメータ学習装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016173383A JP2016173383A (ja) 2016-09-29
JP6132865B2 true JP6132865B2 (ja) 2017-05-24

Family

ID=57009634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015051939A Active JP6132865B2 (ja) 2015-03-16 2015-03-16 声質変換用モデルパラメータ学習装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6132865B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法

Also Published As

Publication number Publication date
JP2016173383A (ja) 2016-09-29

Similar Documents

Publication Publication Date Title
JP7243760B2 (ja) 音声特徴補償装置、方法およびプログラム
US20170358306A1 (en) Neural network-based voiceprint information extraction method and apparatus
Xue et al. Online end-to-end neural diarization with speaker-tracing buffer
US20120130716A1 (en) Speech recognition method for robot
US20140365221A1 (en) Method and apparatus for speech recognition
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
US7505950B2 (en) Soft alignment based on a probability of time alignment
JP6764851B2 (ja) 系列データ変換装置、学習装置、及びプログラム
JP6189818B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
WO2022227935A1 (zh) 语音识别方法、装置、设备、存储介质及程序产品
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
CN112687291A (zh) 一种发音缺陷识别模型训练方法以及发音缺陷识别方法
US20210241754A1 (en) Pronunciation conversion apparatus, pitch mark timing extraction apparatus, methods and programs for the same
JP6816047B2 (ja) 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
Jakubec et al. On deep speaker embeddings for speaker verification
JP6132865B2 (ja) 声質変換用モデルパラメータ学習装置、その方法及びプログラム
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170418

R150 Certificate of patent or registration of utility model

Ref document number: 6132865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150