JP6827004B2 - 音声変換モデル学習装置、音声変換装置、方法、及びプログラム - Google Patents
音声変換モデル学習装置、音声変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6827004B2 JP6827004B2 JP2018013885A JP2018013885A JP6827004B2 JP 6827004 B2 JP6827004 B2 JP 6827004B2 JP 2018013885 A JP2018013885 A JP 2018013885A JP 2018013885 A JP2018013885 A JP 2018013885A JP 6827004 B2 JP6827004 B2 JP 6827004B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- voice
- dfw
- frame
- converted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
非ネイティブ音声DB、ネイティブ音声DBに対し時刻アラインメントを行い、パラレル音声DBを得る(図18(A))。パラレル音声DBの各フレームについて非ネイティブ音声のスペクトル特徴量とネイティブ音声のスペクトル特徴量の結合ベクトルを構成し、結合ベクトルDBを構成する(図18(B))。
パラレル音声DBの各フレームのスペクトル対から、DFWベクトルを抽出し、DFWベクトル推定モデルの学習に使用する。各フレームのスペクトル対は、統計処理により平滑化していないので、本技術により得られるDFWベクトルは平滑化しない。平滑化しないDFWベクトルからDFWベクトル推定モデルを学習することができるので、DFWベクトル推定モデルのパラメータもまた平滑化しない。平滑化しないパラメータを持つDFWベクトル推定モデルにより、非ネイティブ音声スペクトルをネイティブ音声スペクトルに十分に近づけることができる。したがって、提案技術により、非ネイティブ音声の訛りをより効果的に取り除くことができる。
<システム構成>
<音声変換モデル学習装置の構成>
次に、変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置、及び学習された音声変換モデルを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
で表す。ここで、スペクトル包絡の次元数をF、スペクトル特徴量の次元数をMとした。同様に、ネイティブ音声のスペクトル包絡、スペクトル特徴量、F0を、それぞれ
で表す。
について、
で表す。
から、DFWベクトルwtを算出する。
から、距離行列Dtを計算する。ここで、距離行列はF×Fの行列で、そのi 行j列の成分を
とするとき、
(1)
はスカラーx,yの距離関数とする。例えば、二乗誤差
や対数二乗誤差
を用いる。
(2)
について、m(s) t、w tから結合ベクトルztを生成し、結果を結合ベクトルデータベース47に格納する。例えば、
とする。次元を削減するために、関数gを用いて
としても良い。関数gとして、例えば離散コサイン変換を使用する。
に対し、下記の尤度関数
を最大化するGaussian mixture model (GMM)のパラメータ
を得る。
(3)
図5に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
に対応するスペクトル特徴量をmtとする。まず、DFWベクトル推定を行い、推定DFWベクトル^wtを得る。
(4)
(5)
はクラスiのスペクトル包絡特徴量とDFWベクトルに対応する次元の平均ベクトルとする。結合ベクトル生成において関数gにより次元圧縮を行なった場合は、逆関数g-1を用いて、下記の様に推定DFWベクトル^wtを得る。
(6)
(7)
と推定DFWベクトル^wtを用いてDFWを行い、推定ネイティブスペクトル特徴量
を得る。
(8)
次に、第1の実施の形態に係る音声変換モデル学習装置100の作用について説明する。まず、学習サンプルの変換対象の音声信号(例えば非ネイティブ話者による発話音声)の時系列データと目標の音声信号(例えばネイティブ話者による発話音声)の時系列データとのペアが、音声変換モデル学習装置100に入力されると、音声変換モデル学習装置100において、図7に示す学習処理ルーチンが実行される。
から、DFWベクトルwtを算出する。
次に、第1の実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習された結合ベクトルに関するGMM(Gaussian mixture model)のパラメータが、音声変換装置150に入力されると、DFWベクトル推定モデル72に格納される。また、変換対象の音声信号(例えば非ネイティブの音声信号)の時系列データが、音声変換装置150に入力されると、音声変換装置150において、図8に示す音声変換処理ルーチンが実行される。
第1の実施の形態では、DFWベクトル抽出時に、対数スペクトルの二乗距離などの距離尺度を使用すると、スペクトルピークが平坦になり、音声の高調波が失われ、音声品質を損なう懸念がある。第2の実施の形態では、周波数方向の差分スペクトル(動的特徴)を距離行列計算に使用する。動的特徴を含めた距離尺度を採用することで、スペクトルの増減の傾向をDFWベクトル抽出に反映させることができるため、スペクトルピークが平坦になる傾向を回避することができる。
<音声変換モデル学習装置の構成>
図9に示すように、第2の実施の形態に係る音声変換モデル学習装置100のモデル学習部30は、パラレル音声データベース32、動的特徴DFWベクトル抽出部234、DFWベクトルデータベース36、DFWベクトル推定モデル学習部38、及びDFWベクトル推定モデル40を備えている。すなわち、DFWベクトル抽出の代わりに動的特徴DFWベクトル抽出を行う点を除いて、第1の実施の形態のモデル学習部30と同様である。
の周波数差分特徴量
を
(9)
(10)
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第1の実施の形態では、非ネイティブ音声のスペクトルを周波数方向のみに変換するため、パワー方向にはスペクトルを変換することができない。したがって、スペクトルを十分にネイティブ音声のものに近づけることができない懸念がある。本実施の形態では、パワー方向のスペクトル差分を予測するモデルを使用することで、パワー方向のスペクトル変換を可能とする。スペクトルを十分にネイティブ音声のものに近づけることが可能となり、非ネイティブ音声の訛りを十分に取り除くことができる。
<音声変換モデル学習装置の構成>
図11に示すように、第3の実施の形態に係る音声変換モデル学習装置100のモデル学習部30は、パラレル音声データベース32、DFWベクトル抽出部34、DFWベクトルデータベース36、DFWベクトル推定モデル学習部38、DFWベクトル推定モデル40、差分スペクトル抽出部334、差分スペクトルデータベース336、差分スペクトル推定モデル学習部338、及び差分スペクトル推定モデル340を備えている。すなわち、第1の実施の形態と同様にDFWベクトル抽出、DFWベクトル推定モデル学習を行なったのち、得られたDFWベクトル推定モデル40とパラレル音声データベース32を用いて差分スペクトル抽出を行い、差分スペクトルデータベース336を得る。差分スペクトルデータベース336とパラレル音声データベース32から、差分スペクトル推定モデル学習を行い、差分スペクトル推定モデル340を得る。
について、非ネイティブスペクトル包絡s(s) tとDFWベクトル推定モデル40から、ネイティブスペクトル包絡推定を行い、推定ネイティブスペクトル包絡^s(t) tを得る。ここで、ネイティブスペクトル包絡推定は、第1の実施の形態のものと同様とする。
(11)
図14に示すように、第3の実施の形態に係る音声変換装置400の演算部470は、DFWベクトル推定モデル72と、音声パラメータ抽出部74と、差分スペクトル推定モデル372と、ネイティブスペクトル推定部376と、音声信号生成部78とを備えている。
(12)
次に、第3の実施の形態に係る音声変換モデル学習装置100の作用について説明する。なお、第1の実施の形態と同様の処理については同一符号を付して詳細な説明を省略する。
から、DFWベクトルwtを算出する。
について、非ネイティブスペクトル包絡s(s) tとDFWベクトル推定モデル40から、ネイティブスペクトル包絡推定を行い、推定ネイティブスペクトル包絡^s(t) tを得る。
次に、第3の実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習された結合ベクトルに関するGMM(Gaussian mixture model)のパラメータが、音声変換装置150に入力されると、DFWベクトル推定モデル72に格納され、
20、70、470 演算部
22 特徴量抽出部
24 非ネイティブ音声データベース
26 ネイティブ音声データベース
28 時刻アライメント部
30 モデル学習部
32 パラレル音声データベース
34 ベクトル抽出部
34 パラレル音声データベース
36 DFWベクトルデータベース
38 DFWベクトル推定モデル学習部
40 DFWベクトル推定モデル
42 距離行列計算部
44 ベクトル抽出部
46 結合ベクトル生成部
47 結合ベクトルデータベース
48 GMM学習部
50、90 出力部
72 ベクトル推定モデル
74 音声パラメータ抽出部
76 ネイティブスペクトル推定部
78 音声信号生成部
80 DFWベクトル推定部
82 スペクトル特徴量推定部
100 音声変換モデル学習装置
150、400 音声変換装置
234 動的特徴DFWベクトル抽出部
242 動的特徴距離行列計算部
334 差分スペクトル抽出部
336 差分スペクトルデータベース
338 差分スペクトル推定モデル学習部
340 差分スペクトル推定モデル
342 ネイティブスペクトル包絡推定部
344 差分スペクトル算出部
346 差分スペクトル結合ベクトル生成部
346 差分結合ベクトル生成部
348 差分スペクトル結合ベクトルデータベース
350 GMM学習部
372 差分スペクトル推定モデル
376 ネイティブスペクトル推定部
380 差分スペクトル推定部
382 スペクトル加算部
Claims (8)
- 変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置であって、
前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、DFW(dynamic frequency warping)ベクトルを抽出するDFWベクトル抽出部と、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとを結合した結合ベクトルを生成する結合ベクトル生成部と、
各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、前記音声変換モデルとして学習するモデル学習部と、
を含む音声変換モデル学習装置。 - 前記DFWベクトル抽出部は、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、前記DFWベクトルを抽出する請求項1記載の音声変換モデル学習装置。
- 各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定して、前記目標の音声信号のスペクトル包絡を推定し、差分スペクトルを算出する差分スペクトル抽出部と、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記差分スペクトルとを結合した差分スペクトル結合ベクトルを生成する差分スペクトル結合ベクトル生成部と、
各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、差分スペクトル推定モデルとして学習する差分スペクトル推定モデル学習部と、
を更に含む請求項1又は2記載の音声変換モデル学習装置。 - 変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定するDFWベクトル推定部と、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定するスペクトル特徴量推定部と、
前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、
を含み、
前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータである音声変換装置。 - 変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、
DFWベクトル抽出部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、DFW(dynamic frequency warping)ベクトルを抽出し、
結合ベクトル生成部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとを結合した結合ベクトルを生成し、
モデル学習部が、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、前記音声変換モデルとして学習する
音声変換モデル学習方法。 - 前記DFWベクトル抽出部が抽出することでは、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、前記DFWベクトルを抽出する請求項5記載の音声変換モデル学習方法。
- 変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、
DFWベクトル推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定し、
スペクトル特徴量推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定し、
音声信号生成部が、前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成すること
を含み、
前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータである音声変換方法。 - 請求項1〜請求項3のいずれか1項に記載の音声変換モデル学習装置又は請求項4に記載の音声変換装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018013885A JP6827004B2 (ja) | 2018-01-30 | 2018-01-30 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018013885A JP6827004B2 (ja) | 2018-01-30 | 2018-01-30 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019132948A JP2019132948A (ja) | 2019-08-08 |
JP6827004B2 true JP6827004B2 (ja) | 2021-02-10 |
Family
ID=67547485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018013885A Active JP6827004B2 (ja) | 2018-01-30 | 2018-01-30 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6827004B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111247584B (zh) * | 2019-12-24 | 2023-05-23 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
CN111883106B (zh) * | 2020-07-27 | 2024-04-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3631657B2 (ja) * | 2000-04-03 | 2005-03-23 | シャープ株式会社 | 声質変換装置および声質変換方法、並びに、プログラム記録媒体 |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
-
2018
- 2018-01-30 JP JP2018013885A patent/JP6827004B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019132948A (ja) | 2019-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
US10217456B2 (en) | Method, apparatus, and program for generating training speech data for target domain | |
JP4728868B2 (ja) | 応対評価装置、その方法、プログラムおよびその記録媒体 | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
JP5262713B2 (ja) | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム | |
JP6973304B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP5242782B2 (ja) | 音声認識方法 | |
CA2737142C (en) | Method for creating a speech model | |
US20060178875A1 (en) | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition | |
JP6827004B2 (ja) | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム | |
Takamichi et al. | Sampling-based speech parameter generation using moment-matching networks | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
KR20170088165A (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
KR20200013907A (ko) | 비디오 특성에 부합하는 오디오 합성 방법 | |
US20180033432A1 (en) | Voice interactive device and voice interaction method | |
JP6647475B2 (ja) | 言語処理装置、言語処理システムおよび言語処理方法 | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム | |
Kanagawa et al. | Speaker-independent style conversion for HMM-based expressive speech synthesis | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
KR101361034B1 (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
Wu et al. | Joint nonnegative matrix factorization for exemplar-based voice conversion | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200818 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6827004 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |