JP2023030678A - 学習装置、データ生成装置及びプログラム - Google Patents

学習装置、データ生成装置及びプログラム Download PDF

Info

Publication number
JP2023030678A
JP2023030678A JP2021135933A JP2021135933A JP2023030678A JP 2023030678 A JP2023030678 A JP 2023030678A JP 2021135933 A JP2021135933 A JP 2021135933A JP 2021135933 A JP2021135933 A JP 2021135933A JP 2023030678 A JP2023030678 A JP 2023030678A
Authority
JP
Japan
Prior art keywords
data
speech
learning
label data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021135933A
Other languages
English (en)
Inventor
清 栗原
Kiyoshi Kurihara
真由美 水野
Mayumi Mizuno
信正 清山
Nobumasa Seiyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021135933A priority Critical patent/JP2023030678A/ja
Publication of JP2023030678A publication Critical patent/JP2023030678A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

Figure 2023030678000001
【課題】コストを低減しながら、音声合成用のモデルを学習するためのデータを生成する。
【解決手段】データ生成装置は、音声認識部を備える。音声認識部は、発話の音声データ又はその音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習されたラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の音声データの発話を表すラベルデータの推定結果を得る。
【選択図】図2

Description

本発明は、学習装置、データ生成装置及びプログラムに関する。
日本語Seq2seq(シーケンス・ツー・シーケンス)方式音声合成は、読み仮名及び韻律記号を表すラベルを用いて記述された入力データに基づいて日本語の音声合成を行う(例えば、特許文献1参照)。また、DNN(Deep Neural Network;深層ニューラルネットワーク)音声合成では、フルコンテキストラベルを入力データに用いて音声合成を行う(例えば、非特許文献1参照)。
特開2020-34883号公報
Heiga Zen, Andrew Senior, Mike Schuster, "Statistical parametric speech synthesis using deep neural networks," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing
特許文献1や非特許文献1の技術により音声合成を行うためには、入力データと正解の音声データとの対を用いた学習が必要である。非特許文献1の技術では、文脈から音素前後の情報を考慮し、音素以外の様々な情報を付加した入力データを用いる。従って、音声認識により学習用の入力データを生成することは困難であった。これは、従来の音声認識の要素技術である音素認識では、音素しか認識できず、アクセントを含む韻律を推定できなかったためである。
一方、特許文献1の技術の場合、入力データに使用される情報は音素とアクセント等の韻律とに限られる。そこで、音声データの発話内容を表すスクリプトから形態素解析等により入力データを生成することが考えられる。しかしながら、日本語の漢字には読みが複数あるために必ずしも正しい入力データを生成できない。よって、従来は人手をかけて音声を聞き取り学習用の入力データが作成されていた。品質の良い音声合成には大量の学習用のデータが必要であるが、人手により入力データを作成するためには人的コスト及び時間的コストがかるという問題があった。
本発明は、このような事情を考慮してなされたもので、コストを低減しながら、音声合成用のモデルを学習するためのデータを生成することができる学習装置、データ生成装置及びプログラムを提供する。
[1]本発明の一態様は、発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルを、学習用の音声データと正解のラベルデータとの対を用いて学習する学習部、を備えることを特徴とする学習装置である。
[2]本発明の一態様は、上述の学習装置であって、前記学習部は、前記ラベリングモデルを用いて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルを、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習する、ことを特徴とする。
[3]本発明の一態様は、発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習された前記ラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の前記音声データの発話を表すラベルデータの推定結果を得る音声認識部、を備えることを特徴とするデータ生成装置である。
[4]本発明の一態様は、上述のデータ生成装置であって、前記音声認識部は、音声データに基づいて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルであって、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習された前記ラベルデータ修正モデルに、前記ラベリングモデルを用いて推定された前記ラベルデータを入力して誤りが修正されたラベルデータを得る、ことを特徴とする。
[5]本発明の一態様は、上述のデータ生成装置であって、前記ラベリングモデルは、音声データから得られた時系列の特徴量を入力するエンコーダと、前記エンコーダからの出力を入力とし、ラベルデータを出力するデコーダとを有する、ことを特徴とする。
[6]本発明の一態様は、上述のデータ生成装置であって、前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する前記時間区間の音声データを前記特徴量として入力とする畳み込みニューラルネットワークと、前記畳み込みネットワークからの出力を入力とし、ラベルデータを出力するトランスフォーマーとを有する、ことを特徴とする。
[7]本発明の一態様は、上述のデータ生成装置であって、音声データから1文ごとの発話の音声データを抽出する音声処理部をさらに備え、前記音声認識部は、前記音声処理部が抽出した前記音声データをラベルデータ推定対象として前記ラベリングモデルに入力する、ことを特徴とする。
[8]本発明の一態様は、コンピュータを、上述したいずれかの学習装置として機能させるためのプログラムである。
[9]本発明の一態様は、コンピュータを、上述したいずれかのデータ生成装置として機能させるためのプログラムである。
本発明によれば、コストを低減しながら、音声合成用のモデルを学習するためのデータを生成することが可能となる。
本発明の実施形態の処理概要を示す図である。 同実施形態による音声合成システムの構成例を示す図である。 同実施形態によるラベルデータに用いられる韻律記号を示す図である。 同実施形態による音声認識モデルを示す図である。 同実施形態による音声合成用音響特徴量生成モデルを示す図である。 同実施形態による学習データ生成装置の音声認識モデル学習処理を示すフロー図である。 同実施形態による音声合成システムの音声合成用音響特徴量生成モデル学習処理を示すフロー図である。 同実施形態による学習データ生成装置の学習データ生成処理を示すフロー図である。 同実施形態による学習データ生成装置の評価実験結果を示す図である。 同実施形態による学習データ生成装置の評価実験結果を示す図である。 同実施形態によるラベリングモデルを示す図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本実施形態の処理概要を示す図である。本実施形態の学習データ生成装置は、音声合成用の音響特徴量生成モデルである音声合成用音響特徴量生成モデルMの学習に用いられるデータを生成する。音声合成用音響特徴量生成モデルMには、例えば、特許文献1に記載の技術が用いられる。音声合成用音響特徴量生成モデルMは、発話内容を読み仮名と韻律記号とを用いて記述した可読性の良いテキストデータを入力として、音響特徴量を推定する。この読み仮名と韻律記号とを用いて記述されたテキストデータをラベルデータと記載する。すなわち、ラベルデータは、音素を表すラベルである読み仮名と、アクセントなどの韻律を表すラベルである韻律記号とにより記述される。韻律記号には、読み仮名以外の文字が使用される。ラベルデータは、さらに、発話全体に与える特徴を文字列で表した発話スタイル記号を含んでもよい。日本語音声合成時には、音声合成装置は、日本語の漢字仮名交じりの文のテキストデータである原文データA1から変換されたラベルデータA2を音声合成用音響特徴量生成モデルMに入力し、メルスペクトログラムなどの音響特徴量A3を得る。音声合成装置は、この音響特徴量A3から、ボコーダにより合成音声データA4を生成する。
音声合成用音響特徴量生成モデルMの学習には、ラベルデータと正解の音声データとの対からなる学習データのセットが用いられる。学習データの量は音声合成の品質に直結するため、大量の学習データを用意することが望ましい。ラベルデータは、一般的な音声認識技術に用いられる入力データよりも使用する情報量は少ないものの、日本語の漢字には読みが複数あることなどから、日本語の漢字仮名交じりの文章から誤りのないラベルデータを自動生成することは困難である。そのため、人手によりラベルデータを生成するか、自動生成されたラベルデータを人手により修正する必要があり、音声合成用音響特徴量生成モデルMの学習に用いる大量の学習データを用意することは難しかった。
一方で、参考文献1や参考文献2に記載の技術では、少量の学習データにより、直接音声データから文字列への変換を行う音声認識モデルを構成できる。本実施形態の学習データ生成装置は、参考文献1や参考文献2の技術を適用した音声認識モデルWにより、音声合成用音響特徴量生成モデルMの学習に用いられるラベルデータL1を音声データV1から直接生成する。これにより、本実施形態の学習データ生成装置は、音声データV1とラベルデータL1の対からなる学習データD1を大量に生成可能である。音声合成装置は、学習データD1を用いて音声合成用音響特徴量生成モデルMを学習する。なお、学習データD1による学習を事前学習(pretraining)とし、その後に、ファインチューニング(finetuning)を行ってもよい。ファインチューニングでは、音声データV2の音響特徴量と、人手により生成した正確なラベルデータL2との対を使用した少量の学習データD2を用いて音声合成用音響特徴量生成モデルMを追加学習する。
音声認識モデルWを用いることで、例えば、テレビやラジオの音声データから音声処理によって切り出された大量の音声データV1それぞれのラベルデータL1を生成可能である。よって、音声合成用音響特徴量生成モデルMの学習に用いられるラベルデータの作成に要する人的コスト及び時間的コストを低減するとともに、データ増量による音声合成用音響特徴量生成モデルMの品質向上を図ることができる。
(参考文献1)Alexei Baevski, Henry Zhou ,Abdelrahman Mohamed, Michael Auli, "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations," 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.
(参考文献2)Wav2Vec2-XLSR-53, [online], <URL:https://huggingface.co/facebook/wav2vec2-large-xlsr-53>
図2は、本実施形態による音声合成システム100の構成例を示す図である。図2は、本実施形態と関係する機能ブロックのみを抽出したものである。音声合成システム100は、学習データ生成装置1と音声合成装置5とを有する。学習データ生成装置1は、学習装置及びデータ生成装置の一例である。学習データ生成装置1と音声合成装置5とは、統合された装置であってもよい。
学習データ生成装置1は、音声認識部11と、学習データ生成部13と、音声処理部14とを有する。音声認識部11は、音声認識モデルWを用いて、音声データからラベルデータを推定する。音声認識部11は、音声認識モデル学習部12を有する。音声認識モデル学習部12は、音声データV0と、音声データV0が示す発話の正解のラベルデータL0との対を用いて、音声認識モデルWを学習する。学習データ生成部13は、音声データV1と、音声認識部11が当該音声データV1を学習済みの音声認識モデルWに入力して得られたラベルデータL1とを対応づけた学習データD1を生成する。学習データD1は、音響特徴量生成モデル学習用のデータである。音声処理部14は、学習データ生成部13が複数文の発話の音声や、ノイズを含んだ音声などの音声データV1’を入力した場合に、音声データV1’から1文ごとの発話の音声データV1を抽出する。音声処理部14による音声データV1の抽出には、既存の任意の処理が用いられる。
音声合成装置5は、音響特徴量推定部51と、言語処理部53と、ボコーダ部54とを有する。音響特徴量推定部51は、音声合成用音響特徴量生成モデルMを用いて、ラベルデータから音響特徴量を推定する。音響特徴量推定部51は、音響特徴量生成モデル学習部52を有する。音響特徴量生成モデル学習部52は、音響特徴量生成モデル学習用の学習データを用いて、音声合成用音響特徴量生成モデルMを学習する。音響特徴量生成モデル学習用の学習データは、学習データ生成装置1が生成した学習データD1を含み、さらに学習データD2を含んでもよい。学習データD2は、音声データV2と、人手により生成した正確なラベルデータL2との対である。言語処理部53は、漢字仮名交じり文の原文データA1を、読み仮名及び韻律記号を用いたラベルデータA2に変換する。この変換は、形態素解析などの既存技術により行うことができる。ユーザは、必要に応じて生成されたラベルデータA2を修正してもよい。また、音声合成装置5は、ラベルデータA2を入力してもよい。ボコーダ部54は、音響特徴量推定部51がラベルデータA2を用いて推定した音響特徴量A3から音声波形を推定し、推定した音声波形を表す合成音声データA4を出力する。例えば、ボコーダ部54は、音響特徴量のデータを入力し、音声波形を出力するDNNである。
図3は、本実施形態のラベルデータに用いられる韻律記号を示す図である。図3に示す韻律記号は、参考文献3に記載の韻律記号を改変した情報である。韻律情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定を表す韻律記号には、アクセント上昇記号「^」と、アクセント下降記号「!」がある。アクセント上昇記号「^」は、その記号の直後の仮名でアクセントが上昇することを示す。アクセント下降記号「!」は、その記号の直後の仮名でアクセントが下降することを表す。句・フレーズの区切りの指定には、アクセント句の区切りを表す韻律記号「#」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「=」、体言止めの文末を表す韻律記号「(」、及び、疑問の文末を表す韻律記号「?」が用いられる。ポーズの指定には、ポーズを表す韻律記号「,」が用いられる。なお、これらの韻律記号は一例であり、他の記号を用いてもよい。また上記のうち一部の韻律記号をラベルデータに用いてもよい。
(参考文献3)音声入出力方式標準化専門委員会,「JEITA規格 IT-4006 日本語テキスト音声合成用記号」,社団法人 電子情報技術産業協会,2010年,p.4-10
ラベルデータには、発話全体に与える特徴を文字列で表す発話スタイル記号を含んでもよい。発話全体に与える特徴は、例えば、発話スタイル(実況調、ニュース調)や、感情(悲しい、うれしいなど)、話者である。発話スタイル記号には、読み仮名とは異なり、かつ、韻律記号を表す文字とも異なる文字又は文字列を使用する。例えば、発話タグ「<tag>」を発話スタイル記号として用いることができる。発話スタイル記号「<tag>」における「tag」の部分には、発話全体に与える特徴の種類を表す文字列を使用可能である。発話スタイル記号を表す文字列の文字数を変えてもよい。例えば、発話全体に与える特徴が悲しい感情のときには「<sad>」を使用し、ニュース調のときには「<news>」を使用し、話者Aのときには「<spkerA>」を使用する。
図4は、音声認識モデルWを示す図である。音声認識モデルWは、ラベリングモデルW1と、ラベルデータ修正モデルW2とからなる。ラベリングモデルW1は、例えば、参考文献1や参考文献2に記載のWav2vec2.0や、参考文献10に記載のsequence to sequence(Seq2seq)方式の音声認識手法である。図4に示すラベリングモデルW1は、Wav2vec2.0を用いた場合の例を示している。一般的に、音声合成用の学習データは10時間程度である。Wav2Vec2.0やSeq2seq方式の音声認識手法は、文字列として種類の少ない音素や韻律記号をベースとして学習をするため、多くの他の音声認識技術と比較して少量の学習データによって高い精度の音声認識が可能であり、日本語を含め様々な言語で効果が示されている。特にWav2Vec2.0は、53の言語の56,000時間の音声データを事前学習データとして学習させた学習済みモデル等、様々な学習済みのWav2Vec2.0のモデルが公開されている。ただし、韻律記号を含むテキストを出力するように学習させた例はない。
Wav2vec2.0を用いる場合のラベリングモデルW1は、生の音声波形Xを入力とし、ラベルデータLaを出力するモデルである。音声認識部11に入力された音声データは、ラベリングモデルW1の音声波形Xとして用いられる。音声データは、音圧を表す。ラベリングモデルW1は、複数のCNN(Convolutional neural network;畳み込みニューラルネットワーク)と、トランスフォーマー(Transformer)とを有する。
複数のCNNは、エンコーダに相当する。各CNNは、時間的な畳み込みの後に、レイヤの正規化やGELU(Gaussian error linear units)活性化関数を含むいくつかのブロックで構成される。各CNNが対応する時間区間は異なっており、各CNNには、そのCNNが対応する時間区間の時系列の音声データが入力される。各CNNは、オーディオの特徴を表現した音響特徴量Z(Latent speech representations)を出力する。音響特徴量Zは、オーディオの潜在空間表現である。潜在空間では、類似した特性を持つ波形のベクトル同士が近くなる。
トランスフォーマーは、デコーダに相当する。トランスフォーマーは、時系列の音響特徴量Zのコンテキスト表現C(Contest representations)を出力するニューラルネットワークである。トランスフォーマーには、各CNNから出力された時系列の音響特徴量Zがマスクされて入力される。すなわち、時系列の音響特徴量Zのうち所定の割合が無作為に選択され、選択された音響特徴量から所定数の連続した音響特徴量がトレーニングされた特徴量と置き換えられた後に、トランスフォーマーに入力される。トランスフォーマーには、例えば、参考文献4に記載の技術が使用される。トランスフォーマーから出力されるコンテキスト表現Cは、読み仮名と韻律記号を用いたラベルデータLaである。
(参考文献4)Ashish Vaswani, et al., "Attention is all you need," In Proc. of Neural Information Processing Systems(NIPS), 2017.
一般的な音声認識の音響モデルによる音素認識と同様に、ラベリングモデルW1により推定されたラベルデータLaには音素誤りが含まれる。そこで、ラベルデータ修正モデルW2により、ラベルデータLaに含まれる音素誤りを修正する。ラベルデータ修正モデルW2には、従来技術のトランスフォーマーを用いる(例えば、参考文献5参照)。このトランスフォーマーは、ニューラルネットワークを用いて実現され、エンコーダとデコーダとを含むように構成される。エンコーダは、ラベルデータLaを入力データとして受け付け、エンコード処理の結果をデコーダに渡す。デコーダは、エンコーダから渡される情報に基づいて、ラベルデータLaの音素誤りが修正されたラベルデータLbを生成し、出力する。なお、デコーダは、エンコーダから渡される情報に加えて、前に出力したラベルデータLbの右シフトを入力に用いる。
(参考文献5)Colin Raffel, et al., "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer", Journal of Machine Learning Research 21, 2020, p.1-67
音声認識部11の音声認識モデル学習部12は、まず、音声データV0と、その音声データV0の正解のラベルデータL0とを用いてラベリングモデルW1を学習する。ラベルデータL0は、手動で生成又は修正された読み仮名と韻律記号が記述されたラベルデータである。すなわち、音声認識モデル学習部12は、音声認識モデル学習用の音声データV0を入力して得られたラベルデータLaと、正解のラベルデータL0との差分を表す損失Lが小さくなるように、ラベリングモデルW1の各パラメータの値である重みを更新する。損失Lは、Contrastive lossである。なお、損失Lの算出には、各CNNが算出した音響特徴量Zを離散化した値qからなる量子化表現(Quantized representations)Qも用いられる。
ラベリングモデルW1の学習後、音声認識モデル学習部12は、学習済みのラベリングモデルW1が音声データV0を入力して得られたラベルデータLaをラベルデータ修正モデルW2に入力し、得られたラベルデータLbと、音声データV0の正解のラベルデータL0との差分が小さくなるように、ラベルデータ修正モデルW2の各パラメータの値を更新する。なお、音声認識モデル学習部12は、ラベルデータL0に変更を加え、ラベルデータLaとして用いてもよい。音声認識モデル学習部12は、ラベルデータL0を変更して生成したラベルデータLaをラベルデータ修正モデルW2に入力し、ラベルデータ修正モデルW2が出したラベルデータLbと、正解のラベルデータL0との差分が小さくなるように、ラベルデータ修正モデルW2の各パラメータの値である重みを更新する。
音声認識部11は、音声合成用音響特徴量生成モデルMの学習データとして用いるラベルデータを生成する場合、学習データ生成部13から音声データV1を受信する。音声認識部11は、音声データV1をラベリングモデルW1に入力してラベルデータLaを得た後、ラベルデータLaをラベルデータ修正モデルW2に入力してラベルデータLbを得る。音声認識部11は、ラベルデータLbを、音声データV1から推定されたラベルデータL1として学習データ生成部13に出力する。なお、音声認識モデルWは、ラベルデータ修正モデルW2を有さなくてもよい。この場合、音声認識部11は、音声データV1をラベリングモデルW1に入力して得られたラベルデータLaを、音声データV1から推定されたラベルデータL1として学習データ生成部13に出力する。
図5は、音声合成用音響特徴量生成モデルMの一例を示す図である。音声合成用音響特徴量生成モデルMは、参考文献6に示す技術を適用したDNNである。
(参考文献6)Shen et al.,[online],2018年2月,"Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions",arXiv:1712.05884v2,インターネット<URL:https://arxiv.org/pdf/1712.05884.pdf>
音声合成用音響特徴量生成モデルMは、エンコーダ81及びデコーダ85を有する。エンコーダ81は、CNN及びRNN(Recurrent neural network;再帰型ニューラルネットワーク)により、入力されたラベルデータが示す文章内の発話内容に、そのラベルデータが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成する。デコーダ85は、RNNにより、エンコーダ81が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力されたラベルデータが示す発話内容に対応する音声の予測の音響特徴量を1フレームずつ生成する。
エンコーダ81は、文字列変換処理811と、畳み込みネットワーク812と、双方向LSTM(Long short-term memory)ネットワーク813とにより構成される。文字列変換処理811では、ラベルデータに用いられている読み仮名及び韻律記号それぞれを数値に変換し、ラベルデータをベクトル表現に変換する。畳み込みネットワーク812は、複数層(例えば、3層)の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、ラベルデータのベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びReLU(Rectified linear units)活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、3層の畳み込みレイヤのフィルタサイズは[5,0,0]、フィルタの数は512である。デコーダ85に入力する文字列の特徴量を生成するために、畳み込みネットワーク812の出力が双方向LSTMネットワーク813に入力される。双方向LSTMネットワーク813は、512ユニット(各方向に256ユニット)の単一の双方向LSTMである。双方向LSTMネットワーク813により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。
デコーダ85は、自己回帰RNNである。デコーダ85は、アテンションネットワーク851と、前処理ネットワーク852と、LSTMネットワーク853と、第一線形変換処理854と、後処理ネットワーク855と、加算処理856と、第二線形変換処理857とにより構成される。
アテンションネットワーク851は、自己回帰RNNにアテンション機能を追加したネットワークであり、エンコーダ81からの出力全体を1フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク851は、双方向LSTMネットワーク813からの出力(エンコーダ出力)を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク851は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル(アテンションネットワーク出力)を生成する。
前処理ネットワーク852は、前回の時間ステップにおいて第一線形変換処理854が出力したデータを入力する。前処理ネットワーク852は、それぞれ256個の隠れReLUユニットからなる完全結合された複数(例えば2つ)のレイヤを含んだニューラルネットワークである。ReLUユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。LSTMネットワーク853は、1024ユニットを有する複数(例えば、2層)の一方向LSTMが結合されたニューラルネットワークであり、前処理ネットワーク852からの出力と、アテンションネットワーク851からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク851から出力された現在のフレームの特徴量に、前処理ネットワーク852からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。
第一線形変換処理854は、LSTMネットワーク853から出力されたデータを線形変換し、1フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理854は、生成したコンテキストベクトルを、前処理ネットワーク852、後処理ネットワーク855及び加算処理856に出力する。
後処理ネットワーク855は、複数層(例えば、5層)の畳み込みネットワークを結合したニューラルネットワークである。例えば、5層の畳み込みネットワークは、フィルタサイズが[5,0,0]、フィルタの数は1024である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク855からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理856では、第一線形変換処理854が生成したコンテキストベクトルと、後処理ネットワーク855からの出力とを加算する。加算処理856からは、フレーム毎の音響特徴量であるメルスペクトログラムが出力される。
上記のスペクトログラムフレーム予測と並行して、第二線形変換処理857では、LSTMネットワーク853の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン(Stop Token)を出力する。
学習時、音声合成装置5の音響特徴量生成モデル学習部52は、音響特徴量推定部51が学習データDnのラベルデータLnを音声合成用音響特徴量生成モデルMに入力して得たメルスペクトログラムと、ラベルデータLnの正解の音声データVnのメルスペクトログラムとの差分が小さくなるように、音声合成用音響特徴量生成モデルMのパラメータを更新する。学習データDnのラベルデータLn及び音声データVnの対は、学習データ生成装置1が生成した学習データD1のラベルデータL1及び音声データV1の対、及び、ファインチューニングに使用される学習データD2のラベルデータL2及び音声データV2の対である(すなわち、n=1,2)。
音声合成時、音響特徴量推定部51は、音声合成用音響特徴量生成モデルMに、原文データA1から生成されたラベルデータA2を入力し、生成されたメルスペクトログラムをボコーダ部54に出力する。ボコーダ部54は、音声波形生成モデルにフレーム毎のメルスペクトログラムを入力し、時間領域波形に逆変換して音声波形データを生成し、合成音声データA4として出力する。
音声合成用音響特徴量生成モデルMには、参考文献6に記載のTacotron 2のほか、Deep Voice 3、Transformer-based TTSなどのSequence-to-sequence + attention方式を用いることができる。Deep Voice 3は、例えば、参考文献7に記載されている。また、Transformer-based TTSは、例えば、参考文献8に記載されている。
(参考文献7)Wei Ping et al.,[online],2018年2月,"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning",arXiv:1710.07654v3,インターネット<URL:https://arxiv.org/pdf/1710.07654.pdf>
(参考文献8)Naihan Li et al.,[online],2019年1月,"Neural Speech Synthesis with Transformer Network",arXiv:1809.08895v3,インターネット<URL:https://arxiv.org/pdf/1809.08895.pdf>
図6は、学習データ生成装置1の音声認識モデル学習処理を示すフロー図である。学習データ生成装置1は、発話の音声データV0と、その発話の正解のラベルデータL0とを対応づけた音声認識モデル学習データを入力する(ステップS110)。
音声認識部11の音声認識モデル学習部12は、音声認識モデル学習データを用いて、ラベリングモデルW1を学習する(ステップS120)。具体的には、音声認識モデル学習部12は、音声認識モデル学習データから音声データV0と正解のラベルデータL0との対を読み出す。音声認識部11は、音声認識モデル学習部12が読み出した音声データV0をラベリングモデルW1に入力してラベルデータLaを得る。音声認識モデル学習部12は、音声認識部11が音声データV0を入力に用いて得たラベルデータLaと、その音声データV0の正解のラベルデータL0との差分が小さくなるように、ラベリングモデルW1のパラメータの値を更新する。音声認識モデル学習部12は、所定の学習終了条件となるまで、ラベリングモデルW1の学習を行う。学習終了条件は、例えば、入力された全ての音声データV0とラベルデータL0の対について処理を終えた、ラベリングモデルW1を所定回更新した、差分が所定以下となった、などである。
なお、音声認識モデル学習部12は、漢字仮名交じりの原文データから形態素解析などにより自動生成したラベルデータL0を用いた大量の音声認識モデル学習データによりラベリングモデルW1の事前学習を行った後、手動生成した誤りのないラベルデータL0を用いた少量の音声認識モデル学習データによりラベリングモデルW1のファインチューニングを行ってもよい。
続いて、音声認識モデル学習部12は、音声認識モデル学習データを用いて、ラベルデータ修正モデルW2を学習する(ステップS130)。具体的には、音声認識モデル学習部12は、音声認識モデル学習データから音声データV0と正解のラベルデータL0との対を読み出す。音声認識部11は、音声認識モデル学習部12が読み出した音声データV0をラベリングモデルW1に入力してラベルデータLaを得る。さらに、音声認識部11は、得られたラベルデータLaをラベルデータ修正モデルW2に入力して、ラベルデータLaの音素誤りを修正したラベルデータLbを得る。音声認識モデル学習部12は、ラベルデータLbと、正解のラベルデータL0との差分が小さくなるように、ラベルデータ修正モデルW2のパラメータの値を更新する。音声認識モデル学習部12は、所定の学習終了条件となるまで、ラベルデータ修正モデルW2の学習を行う。学習終了条件は、例えば、入力された全ての音声データV0とラベルデータL0の対について処理を終えた、ラベルデータ修正モデルW2を所定回更新した、差分が所定以下となった、などである。
一般的に、自然言語処理で使用するトランスフォーマーは、数十万文近い学習データが必要である。そこで、正解のラベルデータL0と、正解のラベルデータL0からランダムに文字を削除したり、子音を入れ替えたりする事で音素誤りを擬似的に作成したラベルデータLaとの組を用いて音声認識モデル学習データを拡張してもよい。音声認識モデル学習部12は、疑似的に作成したラベルデータLaをラベルデータ修正モデルW2に入力して得られたラベルデータLbと、ラベルデータL0との差分が小さくなるように、ラベルデータ修正モデルW2のパラメータの値を更新する。音声認識モデル学習部12は、拡張された学習データによりラベルデータ修正モデルW2の事前学習を行った後、上記のように音声データV0と正解のラベルデータL0を用いてラベルデータ修正モデルW2をファインチューニングする。
図7は、音声合成システム100の音響特徴量生成モデル学習処理を示すフロー図である。学習データ生成装置1の学習データ生成部13は、複数の音声データV1、V1’を入力する(ステップS210)。複数文の発話や、ノイズを含んだ音声などの音声データV1’が入力された場合、音声処理部14は、音声データV1’から1文ごとの発話の音声データV1を生成する。学習データ生成部13は、音声データV1を音声認識部11に出力する。音声認識部11は、音声データV1を音声認識モデルWに入力してラベルデータL1を取得し、学習データ生成部13に出力する(ステップS220)。学習データ生成部13は、音声データV1と、音声データV1に対応して音声認識部11から出力されたラベルデータL1との対からなる音響特徴量生成モデル学習用の学習データD1を生成する(ステップS230)。自動生成学習データは、各音声データV1に基づいて学習データD1を生成する。
音声合成装置5の音響特徴量生成モデル学習部52は、学習データ生成装置1が生成した学習データD1のセットを取得する。音響特徴量生成モデル学習部52は、それら学習データD1を用いて音声合成用音響特徴量生成モデルMを事前学習する(ステップS240)。すなわち、音響特徴量生成モデル学習部52は、学習データD1から音声データV1とラベルデータL1との対を取得する。音響特徴量推定部51は、音響特徴量生成モデル学習部52が取得したラベルデータL1を音声合成用音響特徴量生成モデルMに入力し、音響特徴量の推定結果を得る。音響特徴量生成モデル学習部52は、音声データV1から得られた音響特徴量と、音響特徴量推定部51が得た推定結果の音響特徴量との差分が小さくなるように、音声合成用音響特徴量生成モデルMを更新する。音響特徴量生成モデル学習部52は、所定の学習終了条件となるまで、音声合成用音響特徴量生成モデルMの学習を行う。学習終了条件は、例えば、入力された全ての学習データD1について処理を終えた、音声合成用音響特徴量生成モデルMを所定回更新した、差分が所定以下となった、などである。
次に、音響特徴量生成モデル学習部52は、音声データV2と、人手で生成又は修正したラベルデータL2との対を含む学習データD2を入力する。入力される学習データD2は、学習データD1よりも少量でよい。音響特徴量生成モデル学習部52は、学習データD2を用いて、ステップS240と同様の処理により音声合成用音響特徴量生成モデルMをファインチューニングする(ステップS250)。
図8は、学習データ生成装置1の学習データ生成処理を示すフロー図である。図2の学習データ生成装置1の学習データ生成部13は、音声データV1’を入力する(ステップS310)。音声データV1’は、例えば、放送音声のデータである。学習データ生成部13は、音声データV1’を音声処理部14に出力する。音声処理部14は、音声データV1に対して音源分離を行った後(ステップS320)、ノイズを除去する(ステップS330)。音声処理部14は、ノイズが除去された音声データV1’における音声や効果音(SE)などを検出し(ステップS340)、検出結果に基づいて1文ごとの発話の音声データを抽出する(ステップS350)。音声処理部14は、抽出した音声データV1を学習データ生成部13に出力する。なお、学習データ生成装置1は、ステップS310において音声データV1を入力した場合、ステップS320~ステップS350の処理を行わない。なお、学習データ生成装置1は、これらの処理の一部を省いて処理を行ってもよい。
学習データ生成部13は、音声データV1を音声認識部11に出力する。音声認識部11は、各音声データV1を学習済みのラベリングモデルW1に入力してラベルデータLaを取得する。さらに、学習データ生成部13は、ラベルデータLaを学習済みのラベルデータ修正モデルW2に入力してラベルデータLbを取得し、ラベルデータL1として学習データ生成部13に出力する(ステップS360)。なお、音声認識モデルWがラベルデータ修正モデルW2を有さない場合、学習データ生成部13は、ラベリングモデルW1が推定したラベルデータLaをラベルデータL1として学習データ生成部13に出力する。学習データ生成部13は、音声データV1と、音声認識部11が音声データV1に基づいて推定したラベルデータL1との対からなる学習データD1を生成する(ステップS370)。
音声合成を行うには、学習用の音声データとラベルデータとの対を用いて音声合成用の音響特徴量生成モデルを学習させなければならない。しかし従来は、音声のみが存在するデータの場合、読み仮名と韻律記号を用いたラベルデータを手動で作成しなければならなかったことから、音声合成用の音響特徴量生成モデルを学習するための大量の学習データとして用いることは難しかった。本実施形態によれば、音声からアクセントを含む韻律記号を推定可能であるため、音声のみが存在する場合でも音声合成用の音響特徴量生成モデルの学習データとして用いることが可能となる。よって、動画共有サイト、テレビやラジオの音声、会議議事録音声、音声ストリーミングサービス、スタジオ収録音声などの幅広い分野の音声を用いて、音声合成用の音響特徴量生成モデルを学習するための大量の学習データを生成可能である。
学習データ生成装置1の評価実験について説明する。評価実験では、ラベリングモデルW1をファインチューニングするための音声認識モデル学習データに、NHKアナウンサーがスタジオブースで収録した音声と、手動修正済みのラベルデータとの組を使用した。読み仮名には片仮名を用いた。韻律記号は、アクセント上昇・下降、アクセント句区切り、ポーズ、文末記号で構成した。実験には男性データセットM001、M002、M003、M004と、女性データセットF001、F002、F003とを用いた。各データセットの内容は、それぞれ、ニュース、気象情報、お知らせを読み上げた音声データである。音声データのサンプリング周波数は16kHz(キロヘルツ)、ビットレートは16ビットとした。また、ラベルデータ修正モデルW2の事前学習用のラベルデータには、2018年4月から2021年4月までに放送した所定番組におけるニュース原稿631,014文を用いた。
事前学習を行う対象のラベリングモデルW1は、53の言語の約56,000時間の音声データを用いて学習済みのものである。事前学習されたラベリングモデルW1に対して、音声と手動修正済みのラベルデータとの対を音声認識モデル学習データに用いてファインチューニングを行った。Batch_sizeは16、gradient accumulationは2、learning_rateは5.0×10-4、学習epoch数は50とした。また、ラベルデータ修正モデルW2の学習には、631,014文のニュース原稿に対して、OpenJTalkを用いて自動で読み仮名と韻律記号を作成した。Batch_sizeは16、gradient accumulationは1、learning_rateは5.0×10-4、学習epoch数は20とした。さらに、以下の(1)及び(2)のデータ拡張処理を行って、ラベルデータ修正モデルW2の事前学習用の学習データを作成した。
(1)5%以下の割合で文字を削除
(2)10%以下の割合で読み仮名と韻律記号の子音、韻律記号を入れ替え
上記の事前学習用の学習データにより事前学習を行ったラベルデータ修正モデルW2を、23,024文の手動修正済みのラベルデータを用いた音声認識モデル学習データのセットによりファインチューニングした。
評価の対象は、ラベリングモデルW1により得られたラベルデータLaと、ラベリングモデルW1及びラベルデータ修正モデルW2により得られたラベルデータLbである。また、従来技術により生成したラベルデータを比較対象とした。比較対象は、Espnet ASR(参考文献9参照)で公開されている日本語音声合成の事前学習モデルを用いて音声を日本語化し、さらにOpenJTalkを用いて読み仮名と韻律記号に自動変換したラベルデータである。
(参考文献9)Watanabe et al., "ESPnet: End-to-End Speech Processing Toolkit," Interspeech, 2018.
ラベルデータLa、ラベルデータLbを得るためのラベリングモデルW1のファインチューニングには、F003、M003のデータセット音声(2541文、5.69時間)を用いた。ラベルデータLbを得るためのラベルデータ修正モデルW2のファインチューニングには、手動修正済みのラベルデータ(23,024文)を用いた。CERを算出するためのテストセットには、M002、F002、M004(1558文、3.73時間)を用いた。ラベリングモデルW1により推定されたラベルデータLa、ラベリングモデルW1及びラベルデータ修正モデルW2により推定されたラベルデータLb、及び、従来技術により推定したラベルデータ(Espnet ASR+OpenJTalk)のそれぞれと、正解のラベルデータとを用いてCERを算出した。
図9は、評価実験結果を示す図である。ラベルデータLaのCER及びラベルデータLbのCERは、従来技術のCERよりも低い値であった。よって、本実施形態の有効性を確認できた。また、ラベルデータLaのCERよりもラベルデータLbのCERのほうが低い値であることから、ラベルデータ修正モデルW2の有効性を確認できた。
図10は、学習データ量の変化による評価実験結果を示す図である。ここでは、ラベルデータ修正モデルW2を使用せずに、ラベリングモデルW1のみを用いた。そして、ラベリングモデルW1のファインチューニングのための音声認識モデル学習データとして、M001及びF001のコーパスを用いた。図10では、音声認識モデル学習データのデータ量を変化させたときのCERを示す。図10に示すように、5時間のデータで最も高い性能を確認できた。
上記の実験から、本実施形態の学習データ生成装置1は、音声データのみから高精度にラベルデータを生成することが可能であることが確認できた。従来技術では、音響特徴量を反映した読み仮名及び韻律記号を精度よく推定することができない。これは、従来技術では、音声認識時に、漢字仮名交じり文に変換を行うために、漢字から読み仮名への変換と、韻律情報の推定とにおいて音声の情報を生かすことができずに、誤りが生じたと考えられる。一方、本実施形態では、アクセント上昇・下降のみならず、アクセント句区切り、文末の記号も精度よく推定が可能であった。また、ラベリングモデルW1の学習には、従来技術の音声認識モデルと比較して少ない量の学習データでよいことがわかった。
学習データ生成装置1は、ラベリングモデルW1に代えて、図11に示すラベリングモデルW1aを用いてもよい。図11は、Seq2seqの音声認識モデルを使用したラベリングモデルW1aの例を示す図である。ラベリングモデルW1aは、例えば、参考文献10に記載のSeq2seqの音声認識モデルである。Seq2seqの音声認識モデルを用いたラベリングモデルW1aは、限られた音素と韻律記号のみを学習させるため、数千時間よりも少ない学習データにより学習可能である。ラベリングモデルW1aは、音声データの音響特徴量を入力とし、ラベルデータLaを出力するモデルである。ラベリングモデルW1aは、エンコーダと、デコーダとを有する。
エンコーダは、複数のLSTMを有し、音声データの特徴量xを入力する。音声認識部11は、音声データからラベリングモデルW1aのエンコーダに入力する特徴量xを生成する。特徴量xは、例えば、所定幅のウインドウ(例えば、25ms)のメルスペクトログラムを、ウインドウよりも小さい所定の時間幅(例えば、10ms)毎にシフトさせたものである。音声認識部11は、所定フレーム分の特徴量xをダウンサンプリングしてエンコーダに入力する。エンコーダは、入力した特徴量xを、別の数値ベクトルの特徴表現hencにマッピングして出力する。アテンションは、デコーダが次の出力yを予測するために特徴表現hencのどこに注目すべきかを決定し、その結果を示すアテンションコンテキストcを出力する。デコーダは、アテンションコンテキストcと前回の出力yi-1とを入力し、前回までの出力yi-1…,yと特徴量xとが与えられたときの出力yを生成する。デコーダの出力を並べることによりラベルデータLaが生成される。
(参考文献10)C. Chiu, et al., "State-of-the-Art Speech Recognition with Sequence-to-Sequence Models," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.
以上説明した実施形態によれば、本実施形態の学習データ生成装置1は、音声合成用のモデルを学習するためのデータを、音声認識の技術を用いて、音声のみからでも生成することができる。
上述の学習データ生成装置1及び音声合成装置5はそれぞれ、内部にコンピュータシステムを有している。そして、学習データ生成装置1及び音声合成装置5の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU(Central processing unit)及び各種メモリやOS(Operation System)、周辺機器等のハードウェアを含むものである。また、学習データ生成装置1及び音声合成装置5の機能の全て又は一部は、ASIC(Application specific integrated circuit)やPLD(Programmable logic device)やFPGA(Field programmable gate array)等のハードウェアを用いて実現されてもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ウェブページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
学習データ生成装置1及び音声合成装置5はそれぞれ、例えば、1台以上のコンピュータ装置により実現することができる。学習データ生成装置1、音声合成装置5が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、学習データ生成装置1の音声認識部11と、学習データ生成部13と、音声処理部14とを異なるコンピュータ装置により実現してもよい。また、音声処理部14を、学習データ生成装置1の外部の音声編集装置により実現してもよい。また、音声認識モデルWを学習する学習データ生成装置1と、学習済みの音声認識モデルWを用いて学習データD1を生成する学習データ生成装置1とが異なる装置であってもよい。この場合、音声認識モデルWを学習する学習データ生成装置1は学習装置として動作し、学習済みの音声認識モデルWを用いて学習データD1を生成する学習データ生成装置1はデータ生成装置として動作する。
以上説明した実施形態によれば、学習装置は、学習部を備える。学習部は、例えば、実施形態の音声認識モデル学習部12である。学習部は、発話の音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルを、学習用の音声データと正解のラベルデータとの対を用いて学習する。例えば、学習部は、ラベリングモデルに学習用の音声データの特徴量を入力して得られたラベルデータと、学習用の音声データに対応した正解のラベルデータとの差分が小さくなるように、ラベリングモデルを学習する。
学習部は、ラベリングモデルを用いて推定されたラベルデータを入力し、入力されたラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルを、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習してもよい。例えば、学習部は、誤りが含まれる学習用のラベルデータをラベルデータ修正モデルに入力して得られたラベルデータと、学習用のラベルデータに対応した正解のラベルデータとの差分が小さくなるようにラベルデータ修正モデルを学習する。
また、データ生成装置は、音声認識部を備える。音声認識部は、発話の音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習されたラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の音声データの発話を表すラベルデータの推定結果を得る。例えば、音声認識部は、学習装置により学習されたラベリングモデルを用いる。
音声認識部は、音声データに基づいて推定されたラベルデータを入力し、そのラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルであって、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習されたラベルデータ修正モデルに、ラベリングモデルを用いて推定されたラベルデータを入力して誤りが修正されたラベルデータを得る。例えば、音声認識部は、学習装置により学習されたラベルデータ修正モデルを用いる。
ラベリングモデルは、音声データから得られた時系列の特徴量を入力するエンコーダと、エンコーダからの出力を入力とし、エンコーダに特徴量が入力された音声データのラベルデータを出力するデコーダとを有してもよい。
また、ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベルデータを出力するトランスフォーマーとを有してもよい。
データ生成装置は、音声処理部をさらに備えてもよい。音声処理部は、音声データから1文ごとの発話の音声データを抽出する。音声認識部は、音声処理部が抽出した音声データをラベルデータ推定対象としてラベリングモデルに入力する。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1…学習データ生成装置
5…音声合成装置
11…音声認識部
12…音声認識モデル学習部
13…学習データ生成部
14…音声処理部
51…音響特徴量推定部
52…音響特徴量生成モデル学習部
53…言語処理部
54…ボコーダ部
100…音声合成システム
M…音声合成用音響特徴量生成モデル
W…音声認識モデル
W1、W1a…ラベリングモデル
W2…ラベルデータ修正モデル

Claims (9)

  1. 発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルを、学習用の音声データと正解のラベルデータとの対を用いて学習する学習部、
    を備えることを特徴とする学習装置。
  2. 前記学習部は、前記ラベリングモデルを用いて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルを、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習する、
    ことを特徴とする請求項1に記載の学習装置。
  3. 発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習された前記ラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の前記音声データの発話を表すラベルデータの推定結果を得る音声認識部、
    を備えることを特徴とするデータ生成装置。
  4. 前記音声認識部は、音声データに基づいて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルであって、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習された前記ラベルデータ修正モデルに、前記ラベリングモデルを用いて推定された前記ラベルデータを入力して誤りが修正されたラベルデータを得る、
    ことを特徴とする請求項3に記載のデータ生成装置。
  5. 前記ラベリングモデルは、音声データから得られた時系列の特徴量を入力するエンコーダと、前記エンコーダからの出力を入力とし、ラベルデータを出力するデコーダとを有する、
    ことを特徴とする請求項3又は請求項4に記載のデータ生成装置。
  6. 前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する前記時間区間の音声データを前記特徴量として入力とする畳み込みニューラルネットワークと、前記畳み込みネットワークからの出力を入力とし、ラベルデータを出力するトランスフォーマーとを有する、
    ことを特徴とする請求項3又は請求項4に記載のデータ生成装置。
  7. 音声データから1文ごとの発話の音声データを抽出する音声処理部をさらに備え、
    前記音声認識部は、前記音声処理部が抽出した前記音声データをラベルデータ推定対象として前記ラベリングモデルに入力する、
    ことを特徴とする請求項3から請求項6のいずれか一項に記載のデータ生成装置。
  8. コンピュータを、請求項1又は請求項2に記載の学習装置として機能させるためのプログラム。
  9. コンピュータを、請求項3から請求項7のいずれか一項に記載のデータ生成装置として機能させるためのプログラム。
JP2021135933A 2021-08-23 2021-08-23 学習装置、データ生成装置及びプログラム Pending JP2023030678A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021135933A JP2023030678A (ja) 2021-08-23 2021-08-23 学習装置、データ生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021135933A JP2023030678A (ja) 2021-08-23 2021-08-23 学習装置、データ生成装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2023030678A true JP2023030678A (ja) 2023-03-08

Family

ID=85414055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021135933A Pending JP2023030678A (ja) 2021-08-23 2021-08-23 学習装置、データ生成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2023030678A (ja)

Similar Documents

Publication Publication Date Title
CN113439301B (zh) 用于机器学习的方法和系统
Yu et al. DurIAN: Duration Informed Attention Network for Speech Synthesis.
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
US11587569B2 (en) Generating and using text-to-speech data for speech recognition models
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN113168828A (zh) 基于合成数据训练的会话代理管线
JP2020034883A (ja) 音声合成装置及びプログラム
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
KR102352986B1 (ko) 언어 특성 벡터를 이용한 콜미 서비스의 음성 합성 장치 및 방법
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
US11670292B2 (en) Electronic device, method and computer program
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
JP2023030678A (ja) 学習装置、データ生成装置及びプログラム
US11043212B2 (en) Speech signal processing and evaluation
US20230103722A1 (en) Guided Data Selection for Masked Speech Modeling
Chitti et al. Machine learning-based text to speech conversion for native languages
Liu et al. Pre-training Techniques for Improving Text-to-Speech Synthesis by Automatic Speech Recognition Based Data Enhancement
Yuan et al. Data Augmentation for the Post-Stroke Speech Transcription (PSST) Challenge: Sometimes Less is More
Dat et al. Voice conversion for natural-Sounding speech generation on low-Resource languages: A case study of bahnaric
CN116052640A (zh) 一种语音合成方法及装置