JP6132865B2 - 声質変換用モデルパラメータ学習装置、その方法及びプログラム - Google Patents
声質変換用モデルパラメータ学習装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP6132865B2 JP6132865B2 JP2015051939A JP2015051939A JP6132865B2 JP 6132865 B2 JP6132865 B2 JP 6132865B2 JP 2015051939 A JP2015051939 A JP 2015051939A JP 2015051939 A JP2015051939 A JP 2015051939A JP 6132865 B2 JP6132865 B2 JP 6132865B2
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- speaker
- target
- acoustic features
- voice quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
2. 探索結果の音響特徴量のペアを用いて声質変換用のモデルパラメータを学習する。
3. 学習したモデルパラメータを用いて変換元話者の音響特徴量を変換し、変換済み音響特徴量を生成する。
4. 変換済み音響特徴量と、対象話者の音響特徴量との距離を測る。
5. 4.で算出された距離が閾値以下であれば、そのモデルパラメータを最終パラメータとして採用する。一方、閾値以上であるならば、再度、1から4までの処理を実行する。このとき、1における変換元話者の音響特徴量は、モデルパラメータにより変換された変換済み音響特徴量と対象話者の音響特徴量とを用いて探索を実行する。また2の学習時は、変換済み音響特徴量では学習せず、変換済み音響特徴量と対象話者の音響特徴量との探索結果の最近傍フレームに対応する変換元話者の音響特徴量(変換していない元々の音響特徴量)を用いて学習する。
本実施形態では、非特許文献3で実行していたフレーム毎の最近傍探索処理前に、人手により、または、自動的に、予めフレーム毎に音素ラベルを付しておき、変換元話者と対象話者とで同じ音素ラベルが付いている(と考えらえる)フレーム同士で最近傍ペアを探索する事により、言い換えると、同じ音素ラベルのフレーム同士の最近傍探索に限定することで、探索時間の削減を図る。また全フレーム同士の探索ではなく、予め同じ音素ラベル同士の探索に限定する事で、誤った音素同士のペアが生成される事は無くなる為、声質変換用モデルパラメータの学習はより精度の高いものとなり、この方法により学習された声質変換用モデルパラメータの変換精度が向上すると考えられる。
図1は第一実施形態に係る声質変換用モデルパラメータ学習装置100の機能ブロック図を、図2はその処理フローを示す。
音声信号取得部101は、アナログ音声信号x(t1)及びxg(t2)を受け取り、それぞれディジタル音声信号XD=(xD(1),xD(2),…,xD(T))及びXg,D=(xG,D(1),xG,D(2),…,xG,D(Tg))に変換し(S101)、音声ディジタル信号蓄積部103に蓄積する(S103)。なお、T及びTgは、それぞれディジタル音声信号XD及びXg,Dに含まれるサンプル数を示す。
特徴量分析部105は、音声ディジタル信号蓄積部103からディジタル音声信号XD及びXg,Dを取り出し、それぞれに対して特徴量分析を行い、音響特徴量の系列O0=(o0(1),o0(2),…,o0(N))及びOg=(og(1),og(2),…,og(M))を得(S105)、特徴量蓄積部107に蓄積する(S107)。なお、ディジタル音声信号XDから得られる音響特徴量の系列O0を変換元音響特徴量系列とし、ディジタル音声信号Xg,Dから得られる音響特徴量の系列Ogを対象音響特徴量系列とする。N及びMはそれぞれ変換元音響特徴量系列O0及び対象音響特徴量系列Ogに含まれる音響特徴量の個数を表す。本実施形態では、ディジタル音声信号XD及びXg,Dを所定の区間(以下「フレーム」ともいう)に区切って、フレーム単位で変換元音響特徴量o0(n)及び対象音響特徴量og(m)を得るため、N及びMはそれぞれ変換元音響特徴量系列O0及び対象音響特徴量系列Ogに含まれるフレームの個数を表すともいえる。n=1,2,…,N及びm=1,2,…,Mである。抽出する音響特徴量としては、例えば、ディジタル音声信号の短時間フレーム分析に基づくMFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはCMN(ケプストラム平均正規化)処理を行っても良い。なお、音響特徴量は、MFCCやパワーに限定したものでは無く、例えば、音声認識に用いられる様々なパラメータを用いても良い。
音素ラベル付与部109は、特徴量蓄積部107から変換元音響特徴量系列O0及び対象音響特徴量系列Ogを取り出し、それぞれにフレーム単位(言い換えると、音響特徴量o0(n)及びog(m)の単位)で音素ラベルを付与し(S109)、音素ラベル付特徴量蓄積部111に蓄積する(S111)。
(参考文献1)鹿野他、“IT Text 音声認識システム”、株式会社オーム社、2001年、pp.43-45,pp.17-24
最近傍フレーム探索部120は、音素ラベル付特徴量蓄積部111から対象音響特徴量系列Ogを取り出す。さらに、(1)最近傍フレーム探索部120における処理が1回目の場合には、音素ラベル付特徴量蓄積部111から音素ラベル付きの変換元音響特徴量系列O0を取り出す。(2)最近傍フレーム探索部120における処理が2回目以降の場合には、特徴量変換部140から変換後の変換元音響特徴量系列Opを受け取る。なお、pを変換回数を表すインデックスとし、p=0のとき、変換前の変換元音響特徴量系列O0を表す。
声質変換用モデルパラメータ学習部130は、最近傍フレームID蓄積部123から最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))のID番号(1,x1),(2,x2),...,(N,xN)を取り出し、このID番号に対応する変換元音響特徴量o0(1),o0(2),…,o0(N)及び対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)を特徴量蓄積部107から取り出す。声質変換用モデルパラメータ学習部130は、変換元音響特徴量o0(1),o0(2),…,o0(N)を対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習し(S130)、学習後の声質変換用モデルパラメータΘpを出力する。なお、声質変換用モデルとしては、例えばGMM(Gaussian Mixture Model)及びNN(Neural Networks)等が用いられる。これらモデルの学習法としては、様々な方法を用いることができ、例えば、非特許文献1及び非特許文献2に記載の方法を用いることができる。
特徴量変換部140は、特徴量蓄積部107から変換前の変換元音響特徴量系列O0を取り出し、声質変換用モデルパラメータ学習部130から声質変換用モデルパラメータΘpを受け取る。特徴量変換部140は、声質変換用モデルパラメータΘpを用いて、変換元音響特徴量系列O0=(o0(1),o0(2),…,o0(N))を変換元音響特徴量系列Oq=(oq(1),oq(2),…,oq(N))に変換し(S140)、距離計算部150及び最近傍フレーム探索部120に出力する。ただし、qを変換回数を表すインデックスとし、q=p+1とする。
距離計算部150は、変換後の変換元音響特徴量系列Oqを受け取り、例えば、最近傍フレームID蓄積部123から最近傍ペア(op(n),og,p(xn))のID番号(n,xn)を取り出し、このID番号に対応する対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)を特徴量蓄積部107から取り出す。距離計算部150は、変換後の変換元音響特徴量oq(1),oq(2),…,oq(N)と、対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)との距離desを計算し(S150)、出力する。例えば、ケプストラム距離を計算する。
des=(des1,des2,...,desN)
閾値判定部160は、距離desを受け取り、この距離desに対して所定の閾値を用いて閾値判定する(S160)。距離desが閾値以上の場合(例えば閾値が5であれば、距離desが5以上がこれに該当する)、まだ声質変換用モデルパラメータΘpが、変換元話者から対象話者へ変換するのに不十分であると考え、再度、最近傍フレーム探索部120、最近傍フレームID蓄積部123を介し、声質変換用モデルパラメータ学習部130を実行していく。具体的には、閾値判定部160は、処理を継続する旨の制御信号nを最近傍フレーム探索部120、最近傍フレームID蓄積部123、声質変換用モデルパラメータ学習部130、特徴量変換部140及び距離計算部150に出力する。
このような構成により、従来よりも計算時間を抑えて、声質変換用モデルパラメータを学習することができ、さらに、声質変換用モデルパラメータの学習はより精度の高いものとなる。
本実施形態のポイントは、非特許文献3で実行していたフレーム毎の最近傍探索処理において、変換元話者と対象話者で同じ音素ラベルが付いているフレーム同士で最近傍ペアを探索する事により探索時間の削減を図り、同じ音素ラベル同士の探索に限定する事で、声質変換用モデルパラメータの学習の精度を高めることである。よって、声質変換用モデルパラメータ学習装置は、少なくとも最近傍フレーム探索部120と声質変換用モデルパラメータ学習部130とを含めばよく、例えば、他の処理については別装置によって行ってもよい。例えば、声質変換用モデルパラメータ学習装置は音声信号取得部101、音声ディジタル信号蓄積部103、特徴量分析部105、特徴量蓄積部107、音素ラベル付与部109及び音素ラベル付特徴量蓄積部111を含まず、変換元音響特徴量系列O0及び対象音響特徴量系列Ogを入力としてもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (6)
- 変換後に再現したい話者を対象話者とし、変換元となる話者を変換元話者とし、変換元話者の発話の内容と対象話者の発話の内容とは必ずしも一致しないものとし、pを変換回数を表すインデックスとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列を対象音響特徴量系列Og=(og(1),og(2),…,og(M))とし、変換元話者の発話を収音して得られる音声信号の音響特徴量の系列を変換元音響特徴量系列Op=(op(1),op(2),…,op(N))とし、対象音響特徴量系列Og及び変換元音響特徴量系列Opにはそれぞれフレーム単位で音素ラベルが付与されているものとし、n=1,2,…,Nとし、x1,x2,…,xNをそれぞれ1,2,…,Mの何れかとし、変換元音響特徴量op(n)と同じ音素ラベルを付与された対象音響特徴量の中から、音響特徴量空間上での距離が近い対象音響特徴量og,p(xn)を求め、前記変換元音響特徴量op(n)と前記対象音響特徴量og,p(xn)とのペア(op(n),og,p(xn))を最近傍ペアとする最近傍フレーム探索部と、
最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の変換元音響特徴量op(1),op(2),…,op(N)に対応する変換前の変換元音響特徴量o0(1),o0(2),…,o0(N)を、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習する声質変換用モデルパラメータ学習部とを含む、
声質変換用モデルパラメータ学習装置。 - 請求項1の声質変換用モデルパラメータ学習装置であって、
変換元話者の発話の内容と対象話者の発話の内容とが既知であることを前提として、変換元話者の発話と対象話者の発話とを収音して得られる音声信号の音響特徴量の系列に対してhidden markov modelによる音素ラベルの付与を実行し、付与処理過程における状態遷移を観測することで、分析フレーム毎の音響特徴量に対応するhidden markov modelの状態番号をあてがう処理を強制アラインメントとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列及び変換元話者の発話を収音して得られる音声信号の音響特徴量の系列に対して、強制アラインメントを実行することで、音素ラベルが付与された対象音響特徴量系列Og=(og(1),og(2),…,og(M))及び変換元音響特徴量系列O0=(o0(1),o0(2),…,o0(N))を生成する音素ラベル付与部を含む、
声質変換用モデルパラメータ学習装置。 - 請求項1または請求項2の声質変換用モデルパラメータ学習装置であって、
qを変換回数を表すインデックスとし、q=p+1とし、前記声質変換用モデルパラメータを用いて、変換前の変換元音響特徴量系列O0=(o0(1),o0(2),…,o0(N))を変換元音響特徴量系列Oq=(oq(1),oq(2),…,oq(N))に変換する特徴量変換部と、
変換後の変換元音響特徴量oq(1),oq(2),…,oq(N)と、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)との距離desを計算する距離計算部とを含み、
前記距離desが所定の閾値よりも小さい場合、声質変換用モデルパラメータの学習を終了する、
声質変換用モデルパラメータ学習装置。 - 請求項3の声質変換用モデルパラメータ学習装置であって、
前記距離desが所定の閾値よりも小さくなるまで、前記最近傍フレーム探索部、前記声質変換用モデルパラメータ学習部、前記特徴量変換部及び前記距離計算部における処理を繰り返す、
声質変換用モデルパラメータ学習装置。 - 変換後に再現したい話者を対象話者とし、変換元となる話者を変換元話者とし、変換元話者の発話の内容と対象話者の発話の内容とは必ずしも一致しないものとし、pを変換回数を表すインデックスとし、対象話者の発話を収音して得られる音声信号の音響特徴量の系列を対象音響特徴量系列Og=(og(1),og(2),…,og(M))とし、変換元話者の発話を収音して得られる音声信号の音響特徴量の系列を変換元音響特徴量系列Op=(op(1),op(2),…,op(N))とし、対象音響特徴量系列Og及び変換元音響特徴量系列Opにはそれぞれフレーム単位で音素ラベルが付与されているものとし、n=1,2,…,Nとし、x1,x2,…,xNをそれぞれ1,2,…,Mの何れかとし、変換元音響特徴量op(n)と同じ音素ラベルを付与された対象音響特徴量の中から、音響特徴量空間上での距離が近い対象音響特徴量og,p(xn)を求め、前記変換元音響特徴量op(n)と前記対象音響特徴量og,p(xn)とのペア(op(n),og,p(xn))を最近傍ペアとする最近傍フレーム探索ステップと、
最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の変換元音響特徴量op(1),op(2),…,op(N)に対応する変換前の変換元音響特徴量o0(1),o0(2),…,o0(N)を、最近傍ペア(op(1),og,p(x1)),(op(2),og,p(x2)),…,(op(N),og,p(xN))の対象音響特徴量og,p(x1),og,p(x2),…,og,p(xN)に変換するための声質変換用モデルパラメータを学習する声質変換用モデルパラメータ学習ステップとを含み、
声質変換用モデルパラメータ学習装置が実行する声質変換用モデルパラメータ学習方法。 - 請求項1から請求項4の何れかの声質変換用モデルパラメータ学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015051939A JP6132865B2 (ja) | 2015-03-16 | 2015-03-16 | 声質変換用モデルパラメータ学習装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015051939A JP6132865B2 (ja) | 2015-03-16 | 2015-03-16 | 声質変換用モデルパラメータ学習装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016173383A JP2016173383A (ja) | 2016-09-29 |
JP6132865B2 true JP6132865B2 (ja) | 2017-05-24 |
Family
ID=57009634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015051939A Active JP6132865B2 (ja) | 2015-03-16 | 2015-03-16 | 声質変換用モデルパラメータ学習装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6132865B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
-
2015
- 2015-03-16 JP JP2015051939A patent/JP6132865B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016173383A (ja) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7243760B2 (ja) | 音声特徴補償装置、方法およびプログラム | |
US20170358306A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
Xue et al. | Online end-to-end neural diarization with speaker-tracing buffer | |
US20120130716A1 (en) | Speech recognition method for robot | |
US20140365221A1 (en) | Method and apparatus for speech recognition | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
US7505950B2 (en) | Soft alignment based on a probability of time alignment | |
JP6764851B2 (ja) | 系列データ変換装置、学習装置、及びプログラム | |
JP6189818B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム | |
JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
WO2022227935A1 (zh) | 语音识别方法、装置、设备、存储介质及程序产品 | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
CN112687291A (zh) | 一种发音缺陷识别模型训练方法以及发音缺陷识别方法 | |
US20210241754A1 (en) | Pronunciation conversion apparatus, pitch mark timing extraction apparatus, methods and programs for the same | |
JP6816047B2 (ja) | 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム | |
JP6244297B2 (ja) | 音響スコア算出装置、その方法及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
Jakubec et al. | On deep speaker embeddings for speaker verification | |
JP6132865B2 (ja) | 声質変換用モデルパラメータ学習装置、その方法及びプログラム | |
KR20210052563A (ko) | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
JP5375612B2 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6132865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |