JP2023030678A

JP2023030678A - 学習装置、データ生成装置及びプログラム

Info

Publication number: JP2023030678A
Application number: JP2021135933A
Authority: JP
Inventors: 清栗原; Kiyoshi Kurihara; 真由美水野; Mayumi Mizuno; 信正清山; Nobumasa Seiyama
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-03-08

Abstract

【課題】コストを低減しながら、音声合成用のモデルを学習するためのデータを生成する。
【解決手段】データ生成装置は、音声認識部を備える。音声認識部は、発話の音声データ又はその音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習されたラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の音声データの発話を表すラベルデータの推定結果を得る。
【選択図】図２

Description

本発明は、学習装置、データ生成装置及びプログラムに関する。

日本語Seq2seq（シーケンス・ツー・シーケンス）方式音声合成は、読み仮名及び韻律記号を表すラベルを用いて記述された入力データに基づいて日本語の音声合成を行う（例えば、特許文献１参照）。また、ＤＮＮ（Deep Neural Network；深層ニューラルネットワーク）音声合成では、フルコンテキストラベルを入力データに用いて音声合成を行う（例えば、非特許文献１参照）。

特開２０２０－３４８８３号公報

Heiga Zen, Andrew Senior, Mike Schuster, "Statistical parametric speech synthesis using deep neural networks," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing

特許文献１や非特許文献１の技術により音声合成を行うためには、入力データと正解の音声データとの対を用いた学習が必要である。非特許文献１の技術では、文脈から音素前後の情報を考慮し、音素以外の様々な情報を付加した入力データを用いる。従って、音声認識により学習用の入力データを生成することは困難であった。これは、従来の音声認識の要素技術である音素認識では、音素しか認識できず、アクセントを含む韻律を推定できなかったためである。

一方、特許文献１の技術の場合、入力データに使用される情報は音素とアクセント等の韻律とに限られる。そこで、音声データの発話内容を表すスクリプトから形態素解析等により入力データを生成することが考えられる。しかしながら、日本語の漢字には読みが複数あるために必ずしも正しい入力データを生成できない。よって、従来は人手をかけて音声を聞き取り学習用の入力データが作成されていた。品質の良い音声合成には大量の学習用のデータが必要であるが、人手により入力データを作成するためには人的コスト及び時間的コストがかるという問題があった。

本発明は、このような事情を考慮してなされたもので、コストを低減しながら、音声合成用のモデルを学習するためのデータを生成することができる学習装置、データ生成装置及びプログラムを提供する。

［１］本発明の一態様は、発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルを、学習用の音声データと正解のラベルデータとの対を用いて学習する学習部、を備えることを特徴とする学習装置である。

［２］本発明の一態様は、上述の学習装置であって、前記学習部は、前記ラベリングモデルを用いて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルを、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習する、ことを特徴とする。

［３］本発明の一態様は、発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習された前記ラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の前記音声データの発話を表すラベルデータの推定結果を得る音声認識部、を備えることを特徴とするデータ生成装置である。

［４］本発明の一態様は、上述のデータ生成装置であって、前記音声認識部は、音声データに基づいて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルであって、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習された前記ラベルデータ修正モデルに、前記ラベリングモデルを用いて推定された前記ラベルデータを入力して誤りが修正されたラベルデータを得る、ことを特徴とする。

［５］本発明の一態様は、上述のデータ生成装置であって、前記ラベリングモデルは、音声データから得られた時系列の特徴量を入力するエンコーダと、前記エンコーダからの出力を入力とし、ラベルデータを出力するデコーダとを有する、ことを特徴とする。

［６］本発明の一態様は、上述のデータ生成装置であって、前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する前記時間区間の音声データを前記特徴量として入力とする畳み込みニューラルネットワークと、前記畳み込みネットワークからの出力を入力とし、ラベルデータを出力するトランスフォーマーとを有する、ことを特徴とする。

［７］本発明の一態様は、上述のデータ生成装置であって、音声データから１文ごとの発話の音声データを抽出する音声処理部をさらに備え、前記音声認識部は、前記音声処理部が抽出した前記音声データをラベルデータ推定対象として前記ラベリングモデルに入力する、ことを特徴とする。

［８］本発明の一態様は、コンピュータを、上述したいずれかの学習装置として機能させるためのプログラムである。

［９］本発明の一態様は、コンピュータを、上述したいずれかのデータ生成装置として機能させるためのプログラムである。

本発明によれば、コストを低減しながら、音声合成用のモデルを学習するためのデータを生成することが可能となる。

本発明の実施形態の処理概要を示す図である。同実施形態による音声合成システムの構成例を示す図である。同実施形態によるラベルデータに用いられる韻律記号を示す図である。同実施形態による音声認識モデルを示す図である。同実施形態による音声合成用音響特徴量生成モデルを示す図である。同実施形態による学習データ生成装置の音声認識モデル学習処理を示すフロー図である。同実施形態による音声合成システムの音声合成用音響特徴量生成モデル学習処理を示すフロー図である。同実施形態による学習データ生成装置の学習データ生成処理を示すフロー図である。同実施形態による学習データ生成装置の評価実験結果を示す図である。同実施形態による学習データ生成装置の評価実験結果を示す図である。同実施形態によるラベリングモデルを示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図１は、本実施形態の処理概要を示す図である。本実施形態の学習データ生成装置は、音声合成用の音響特徴量生成モデルである音声合成用音響特徴量生成モデルＭの学習に用いられるデータを生成する。音声合成用音響特徴量生成モデルＭには、例えば、特許文献１に記載の技術が用いられる。音声合成用音響特徴量生成モデルＭは、発話内容を読み仮名と韻律記号とを用いて記述した可読性の良いテキストデータを入力として、音響特徴量を推定する。この読み仮名と韻律記号とを用いて記述されたテキストデータをラベルデータと記載する。すなわち、ラベルデータは、音素を表すラベルである読み仮名と、アクセントなどの韻律を表すラベルである韻律記号とにより記述される。韻律記号には、読み仮名以外の文字が使用される。ラベルデータは、さらに、発話全体に与える特徴を文字列で表した発話スタイル記号を含んでもよい。日本語音声合成時には、音声合成装置は、日本語の漢字仮名交じりの文のテキストデータである原文データＡ１から変換されたラベルデータＡ２を音声合成用音響特徴量生成モデルＭに入力し、メルスペクトログラムなどの音響特徴量Ａ３を得る。音声合成装置は、この音響特徴量Ａ３から、ボコーダにより合成音声データＡ４を生成する。

音声合成用音響特徴量生成モデルＭの学習には、ラベルデータと正解の音声データとの対からなる学習データのセットが用いられる。学習データの量は音声合成の品質に直結するため、大量の学習データを用意することが望ましい。ラベルデータは、一般的な音声認識技術に用いられる入力データよりも使用する情報量は少ないものの、日本語の漢字には読みが複数あることなどから、日本語の漢字仮名交じりの文章から誤りのないラベルデータを自動生成することは困難である。そのため、人手によりラベルデータを生成するか、自動生成されたラベルデータを人手により修正する必要があり、音声合成用音響特徴量生成モデルＭの学習に用いる大量の学習データを用意することは難しかった。

一方で、参考文献１や参考文献２に記載の技術では、少量の学習データにより、直接音声データから文字列への変換を行う音声認識モデルを構成できる。本実施形態の学習データ生成装置は、参考文献１や参考文献２の技術を適用した音声認識モデルＷにより、音声合成用音響特徴量生成モデルＭの学習に用いられるラベルデータＬ１を音声データＶ１から直接生成する。これにより、本実施形態の学習データ生成装置は、音声データＶ１とラベルデータＬ１の対からなる学習データＤ１を大量に生成可能である。音声合成装置は、学習データＤ１を用いて音声合成用音響特徴量生成モデルＭを学習する。なお、学習データＤ１による学習を事前学習（pretraining）とし、その後に、ファインチューニング（finetuning）を行ってもよい。ファインチューニングでは、音声データＶ２の音響特徴量と、人手により生成した正確なラベルデータＬ２との対を使用した少量の学習データＤ２を用いて音声合成用音響特徴量生成モデルＭを追加学習する。

音声認識モデルＷを用いることで、例えば、テレビやラジオの音声データから音声処理によって切り出された大量の音声データＶ１それぞれのラベルデータＬ１を生成可能である。よって、音声合成用音響特徴量生成モデルＭの学習に用いられるラベルデータの作成に要する人的コスト及び時間的コストを低減するとともに、データ増量による音声合成用音響特徴量生成モデルＭの品質向上を図ることができる。

（参考文献１）Alexei Baevski, Henry Zhou ,Abdelrahman Mohamed, Michael Auli, "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations," 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.

（参考文献２）Wav2Vec2-XLSR-53, [online], <URL:https://huggingface.co/facebook/wav2vec2-large-xlsr-53>

図２は、本実施形態による音声合成システム１００の構成例を示す図である。図２は、本実施形態と関係する機能ブロックのみを抽出したものである。音声合成システム１００は、学習データ生成装置１と音声合成装置５とを有する。学習データ生成装置１は、学習装置及びデータ生成装置の一例である。学習データ生成装置１と音声合成装置５とは、統合された装置であってもよい。

学習データ生成装置１は、音声認識部１１と、学習データ生成部１３と、音声処理部１４とを有する。音声認識部１１は、音声認識モデルＷを用いて、音声データからラベルデータを推定する。音声認識部１１は、音声認識モデル学習部１２を有する。音声認識モデル学習部１２は、音声データＶ０と、音声データＶ０が示す発話の正解のラベルデータＬ０との対を用いて、音声認識モデルＷを学習する。学習データ生成部１３は、音声データＶ１と、音声認識部１１が当該音声データＶ１を学習済みの音声認識モデルＷに入力して得られたラベルデータＬ１とを対応づけた学習データＤ１を生成する。学習データＤ１は、音響特徴量生成モデル学習用のデータである。音声処理部１４は、学習データ生成部１３が複数文の発話の音声や、ノイズを含んだ音声などの音声データＶ１’を入力した場合に、音声データＶ１’から１文ごとの発話の音声データＶ１を抽出する。音声処理部１４による音声データＶ１の抽出には、既存の任意の処理が用いられる。

音声合成装置５は、音響特徴量推定部５１と、言語処理部５３と、ボコーダ部５４とを有する。音響特徴量推定部５１は、音声合成用音響特徴量生成モデルＭを用いて、ラベルデータから音響特徴量を推定する。音響特徴量推定部５１は、音響特徴量生成モデル学習部５２を有する。音響特徴量生成モデル学習部５２は、音響特徴量生成モデル学習用の学習データを用いて、音声合成用音響特徴量生成モデルＭを学習する。音響特徴量生成モデル学習用の学習データは、学習データ生成装置１が生成した学習データＤ１を含み、さらに学習データＤ２を含んでもよい。学習データＤ２は、音声データＶ２と、人手により生成した正確なラベルデータＬ２との対である。言語処理部５３は、漢字仮名交じり文の原文データＡ１を、読み仮名及び韻律記号を用いたラベルデータＡ２に変換する。この変換は、形態素解析などの既存技術により行うことができる。ユーザは、必要に応じて生成されたラベルデータＡ２を修正してもよい。また、音声合成装置５は、ラベルデータＡ２を入力してもよい。ボコーダ部５４は、音響特徴量推定部５１がラベルデータＡ２を用いて推定した音響特徴量Ａ３から音声波形を推定し、推定した音声波形を表す合成音声データＡ４を出力する。例えば、ボコーダ部５４は、音響特徴量のデータを入力し、音声波形を出力するＤＮＮである。

図３は、本実施形態のラベルデータに用いられる韻律記号を示す図である。図３に示す韻律記号は、参考文献３に記載の韻律記号を改変した情報である。韻律情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定を表す韻律記号には、アクセント上昇記号「＾」と、アクセント下降記号「！」がある。アクセント上昇記号「＾」は、その記号の直後の仮名でアクセントが上昇することを示す。アクセント下降記号「！」は、その記号の直後の仮名でアクセントが下降することを表す。句・フレーズの区切りの指定には、アクセント句の区切りを表す韻律記号「＃」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「＝」、体言止めの文末を表す韻律記号「（」、及び、疑問の文末を表す韻律記号「？」が用いられる。ポーズの指定には、ポーズを表す韻律記号「，」が用いられる。なお、これらの韻律記号は一例であり、他の記号を用いてもよい。また上記のうち一部の韻律記号をラベルデータに用いてもよい。

（参考文献３）音声入出力方式標準化専門委員会，「JEITA規格 IT-4006 日本語テキスト音声合成用記号」，社団法人電子情報技術産業協会，2010年，p.4-10

ラベルデータには、発話全体に与える特徴を文字列で表す発話スタイル記号を含んでもよい。発話全体に与える特徴は、例えば、発話スタイル（実況調、ニュース調）や、感情（悲しい、うれしいなど）、話者である。発話スタイル記号には、読み仮名とは異なり、かつ、韻律記号を表す文字とも異なる文字又は文字列を使用する。例えば、発話タグ「＜ｔａｇ＞」を発話スタイル記号として用いることができる。発話スタイル記号「＜ｔａｇ＞」における「ｔａｇ」の部分には、発話全体に与える特徴の種類を表す文字列を使用可能である。発話スタイル記号を表す文字列の文字数を変えてもよい。例えば、発話全体に与える特徴が悲しい感情のときには「＜ｓａｄ＞」を使用し、ニュース調のときには「＜ｎｅｗｓ＞」を使用し、話者Ａのときには「＜ｓｐｋｅｒＡ＞」を使用する。

図４は、音声認識モデルＷを示す図である。音声認識モデルＷは、ラベリングモデルＷ１と、ラベルデータ修正モデルＷ２とからなる。ラベリングモデルＷ１は、例えば、参考文献１や参考文献２に記載のWav2vec2.0や、参考文献１０に記載のsequence to sequence(Seq2seq）方式の音声認識手法である。図４に示すラベリングモデルＷ１は、Wav2vec2.0を用いた場合の例を示している。一般的に、音声合成用の学習データは１０時間程度である。Wav2Vec2.0やSeq2seq方式の音声認識手法は、文字列として種類の少ない音素や韻律記号をベースとして学習をするため、多くの他の音声認識技術と比較して少量の学習データによって高い精度の音声認識が可能であり、日本語を含め様々な言語で効果が示されている。特にWav2Vec2.0は、５３の言語の５６，０００時間の音声データを事前学習データとして学習させた学習済みモデル等、様々な学習済みのWav2Vec2.0のモデルが公開されている。ただし、韻律記号を含むテキストを出力するように学習させた例はない。

Wav2vec2.0を用いる場合のラベリングモデルＷ１は、生の音声波形Ｘを入力とし、ラベルデータＬａを出力するモデルである。音声認識部１１に入力された音声データは、ラベリングモデルＷ１の音声波形Ｘとして用いられる。音声データは、音圧を表す。ラベリングモデルＷ１は、複数のＣＮＮ（Convolutional neural network；畳み込みニューラルネットワーク）と、トランスフォーマー（Transformer）とを有する。

複数のＣＮＮは、エンコーダに相当する。各ＣＮＮは、時間的な畳み込みの後に、レイヤの正規化やＧＥＬＵ（Gaussian error linear units）活性化関数を含むいくつかのブロックで構成される。各ＣＮＮが対応する時間区間は異なっており、各ＣＮＮには、そのＣＮＮが対応する時間区間の時系列の音声データが入力される。各ＣＮＮは、オーディオの特徴を表現した音響特徴量Ｚ（Latent speech representations）を出力する。音響特徴量Ｚは、オーディオの潜在空間表現である。潜在空間では、類似した特性を持つ波形のベクトル同士が近くなる。

トランスフォーマーは、デコーダに相当する。トランスフォーマーは、時系列の音響特徴量Ｚのコンテキスト表現Ｃ（Contest representations）を出力するニューラルネットワークである。トランスフォーマーには、各ＣＮＮから出力された時系列の音響特徴量Ｚがマスクされて入力される。すなわち、時系列の音響特徴量Ｚのうち所定の割合が無作為に選択され、選択された音響特徴量から所定数の連続した音響特徴量がトレーニングされた特徴量と置き換えられた後に、トランスフォーマーに入力される。トランスフォーマーには、例えば、参考文献４に記載の技術が使用される。トランスフォーマーから出力されるコンテキスト表現Ｃは、読み仮名と韻律記号を用いたラベルデータＬａである。

（参考文献４）Ashish Vaswani, et al., "Attention is all you need," In Proc. of Neural Information Processing Systems(NIPS), 2017.

一般的な音声認識の音響モデルによる音素認識と同様に、ラベリングモデルＷ１により推定されたラベルデータＬａには音素誤りが含まれる。そこで、ラベルデータ修正モデルＷ２により、ラベルデータＬａに含まれる音素誤りを修正する。ラベルデータ修正モデルＷ２には、従来技術のトランスフォーマーを用いる（例えば、参考文献５参照）。このトランスフォーマーは、ニューラルネットワークを用いて実現され、エンコーダとデコーダとを含むように構成される。エンコーダは、ラベルデータＬａを入力データとして受け付け、エンコード処理の結果をデコーダに渡す。デコーダは、エンコーダから渡される情報に基づいて、ラベルデータＬａの音素誤りが修正されたラベルデータＬｂを生成し、出力する。なお、デコーダは、エンコーダから渡される情報に加えて、前に出力したラベルデータＬｂの右シフトを入力に用いる。

（参考文献５）Colin Raffel, et al., "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer", Journal of Machine Learning Research 21, 2020, p.1-67

音声認識部１１の音声認識モデル学習部１２は、まず、音声データＶ０と、その音声データＶ０の正解のラベルデータＬ０とを用いてラベリングモデルＷ１を学習する。ラベルデータＬ０は、手動で生成又は修正された読み仮名と韻律記号が記述されたラベルデータである。すなわち、音声認識モデル学習部１２は、音声認識モデル学習用の音声データＶ０を入力して得られたラベルデータＬａと、正解のラベルデータＬ０との差分を表す損失Ｌが小さくなるように、ラベリングモデルＷ１の各パラメータの値である重みを更新する。損失Ｌは、Contrastive lossである。なお、損失Ｌの算出には、各ＣＮＮが算出した音響特徴量Ｚを離散化した値ｑからなる量子化表現（Quantized representations）Ｑも用いられる。

ラベリングモデルＷ１の学習後、音声認識モデル学習部１２は、学習済みのラベリングモデルＷ１が音声データＶ０を入力して得られたラベルデータＬａをラベルデータ修正モデルＷ２に入力し、得られたラベルデータＬｂと、音声データＶ０の正解のラベルデータＬ０との差分が小さくなるように、ラベルデータ修正モデルＷ２の各パラメータの値を更新する。なお、音声認識モデル学習部１２は、ラベルデータＬ０に変更を加え、ラベルデータＬａとして用いてもよい。音声認識モデル学習部１２は、ラベルデータＬ０を変更して生成したラベルデータＬａをラベルデータ修正モデルＷ２に入力し、ラベルデータ修正モデルＷ２が出したラベルデータＬｂと、正解のラベルデータＬ０との差分が小さくなるように、ラベルデータ修正モデルＷ２の各パラメータの値である重みを更新する。

音声認識部１１は、音声合成用音響特徴量生成モデルＭの学習データとして用いるラベルデータを生成する場合、学習データ生成部１３から音声データＶ１を受信する。音声認識部１１は、音声データＶ１をラベリングモデルＷ１に入力してラベルデータＬａを得た後、ラベルデータＬａをラベルデータ修正モデルＷ２に入力してラベルデータＬｂを得る。音声認識部１１は、ラベルデータＬｂを、音声データＶ１から推定されたラベルデータＬ１として学習データ生成部１３に出力する。なお、音声認識モデルＷは、ラベルデータ修正モデルＷ２を有さなくてもよい。この場合、音声認識部１１は、音声データＶ１をラベリングモデルＷ１に入力して得られたラベルデータＬａを、音声データＶ１から推定されたラベルデータＬ１として学習データ生成部１３に出力する。

図５は、音声合成用音響特徴量生成モデルＭの一例を示す図である。音声合成用音響特徴量生成モデルＭは、参考文献６に示す技術を適用したＤＮＮである。

（参考文献６）Shen et al.，[online]，2018年2月，"Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"，arXiv:1712.05884v2，インターネット<URL:https://arxiv.org/pdf/1712.05884.pdf>

音声合成用音響特徴量生成モデルＭは、エンコーダ８１及びデコーダ８５を有する。エンコーダ８１は、ＣＮＮ及びＲＮＮ（Recurrent neural network；再帰型ニューラルネットワーク）により、入力されたラベルデータが示す文章内の発話内容に、そのラベルデータが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成する。デコーダ８５は、ＲＮＮにより、エンコーダ８１が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力されたラベルデータが示す発話内容に対応する音声の予測の音響特徴量を１フレームずつ生成する。

エンコーダ８１は、文字列変換処理８１１と、畳み込みネットワーク８１２と、双方向ＬＳＴＭ（Long short-term memory）ネットワーク８１３とにより構成される。文字列変換処理８１１では、ラベルデータに用いられている読み仮名及び韻律記号それぞれを数値に変換し、ラベルデータをベクトル表現に変換する。畳み込みネットワーク８１２は、複数層（例えば、３層）の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、ラベルデータのベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びＲｅＬＵ（Rectified linear units）活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、３層の畳み込みレイヤのフィルタサイズは［５，０，０］、フィルタの数は５１２である。デコーダ８５に入力する文字列の特徴量を生成するために、畳み込みネットワーク８１２の出力が双方向ＬＳＴＭネットワーク８１３に入力される。双方向ＬＳＴＭネットワーク８１３は、５１２ユニット（各方向に２５６ユニット）の単一の双方向ＬＳＴＭである。双方向ＬＳＴＭネットワーク８１３により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。

デコーダ８５は、自己回帰ＲＮＮである。デコーダ８５は、アテンションネットワーク８５１と、前処理ネットワーク８５２と、ＬＳＴＭネットワーク８５３と、第一線形変換処理８５４と、後処理ネットワーク８５５と、加算処理８５６と、第二線形変換処理８５７とにより構成される。

アテンションネットワーク８５１は、自己回帰ＲＮＮにアテンション機能を追加したネットワークであり、エンコーダ８１からの出力全体を１フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク８５１は、双方向ＬＳＴＭネットワーク８１３からの出力（エンコーダ出力）を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク８５１は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル（アテンションネットワーク出力）を生成する。

前処理ネットワーク８５２は、前回の時間ステップにおいて第一線形変換処理８５４が出力したデータを入力する。前処理ネットワーク８５２は、それぞれ２５６個の隠れＲｅＬＵユニットからなる完全結合された複数（例えば２つ）のレイヤを含んだニューラルネットワークである。ＲｅＬＵユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。ＬＳＴＭネットワーク８５３は、１０２４ユニットを有する複数（例えば、２層）の一方向ＬＳＴＭが結合されたニューラルネットワークであり、前処理ネットワーク８５２からの出力と、アテンションネットワーク８５１からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク８５１から出力された現在のフレームの特徴量に、前処理ネットワーク８５２からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。

第一線形変換処理８５４は、ＬＳＴＭネットワーク８５３から出力されたデータを線形変換し、１フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理８５４は、生成したコンテキストベクトルを、前処理ネットワーク８５２、後処理ネットワーク８５５及び加算処理８５６に出力する。

後処理ネットワーク８５５は、複数層（例えば、５層）の畳み込みネットワークを結合したニューラルネットワークである。例えば、５層の畳み込みネットワークは、フィルタサイズが［５，０，０］、フィルタの数は１０２４である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク８５５からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理８５６では、第一線形変換処理８５４が生成したコンテキストベクトルと、後処理ネットワーク８５５からの出力とを加算する。加算処理８５６からは、フレーム毎の音響特徴量であるメルスペクトログラムが出力される。

上記のスペクトログラムフレーム予測と並行して、第二線形変換処理８５７では、ＬＳＴＭネットワーク８５３の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン（Stop Token）を出力する。

学習時、音声合成装置５の音響特徴量生成モデル学習部５２は、音響特徴量推定部５１が学習データＤｎのラベルデータＬｎを音声合成用音響特徴量生成モデルＭに入力して得たメルスペクトログラムと、ラベルデータＬｎの正解の音声データＶｎのメルスペクトログラムとの差分が小さくなるように、音声合成用音響特徴量生成モデルＭのパラメータを更新する。学習データＤｎのラベルデータＬｎ及び音声データＶｎの対は、学習データ生成装置１が生成した学習データＤ１のラベルデータＬ１及び音声データＶ１の対、及び、ファインチューニングに使用される学習データＤ２のラベルデータＬ２及び音声データＶ２の対である（すなわち、ｎ＝１，２）。

音声合成時、音響特徴量推定部５１は、音声合成用音響特徴量生成モデルＭに、原文データＡ１から生成されたラベルデータＡ２を入力し、生成されたメルスペクトログラムをボコーダ部５４に出力する。ボコーダ部５４は、音声波形生成モデルにフレーム毎のメルスペクトログラムを入力し、時間領域波形に逆変換して音声波形データを生成し、合成音声データＡ４として出力する。

音声合成用音響特徴量生成モデルＭには、参考文献６に記載のTacotron 2のほか、Deep Voice 3、Transformer-based TTSなどのSequence-to-sequence + attention方式を用いることができる。Deep Voice 3は、例えば、参考文献７に記載されている。また、Transformer-based TTSは、例えば、参考文献８に記載されている。

（参考文献７）Wei Ping et al.，[online]，2018年2月，"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning"，arXiv:1710.07654v3，インターネット<URL:https://arxiv.org/pdf/1710.07654.pdf>

（参考文献８）Naihan Li et al.，[online]，2019年1月，"Neural Speech Synthesis with Transformer Network"，arXiv:1809.08895v3，インターネット<URL:https://arxiv.org/pdf/1809.08895.pdf>

図６は、学習データ生成装置１の音声認識モデル学習処理を示すフロー図である。学習データ生成装置１は、発話の音声データＶ０と、その発話の正解のラベルデータＬ０とを対応づけた音声認識モデル学習データを入力する（ステップＳ１１０）。

音声認識部１１の音声認識モデル学習部１２は、音声認識モデル学習データを用いて、ラベリングモデルＷ１を学習する（ステップＳ１２０）。具体的には、音声認識モデル学習部１２は、音声認識モデル学習データから音声データＶ０と正解のラベルデータＬ０との対を読み出す。音声認識部１１は、音声認識モデル学習部１２が読み出した音声データＶ０をラベリングモデルＷ１に入力してラベルデータＬａを得る。音声認識モデル学習部１２は、音声認識部１１が音声データＶ０を入力に用いて得たラベルデータＬａと、その音声データＶ０の正解のラベルデータＬ０との差分が小さくなるように、ラベリングモデルＷ１のパラメータの値を更新する。音声認識モデル学習部１２は、所定の学習終了条件となるまで、ラベリングモデルＷ１の学習を行う。学習終了条件は、例えば、入力された全ての音声データＶ０とラベルデータＬ０の対について処理を終えた、ラベリングモデルＷ１を所定回更新した、差分が所定以下となった、などである。

なお、音声認識モデル学習部１２は、漢字仮名交じりの原文データから形態素解析などにより自動生成したラベルデータＬ０を用いた大量の音声認識モデル学習データによりラベリングモデルＷ１の事前学習を行った後、手動生成した誤りのないラベルデータＬ０を用いた少量の音声認識モデル学習データによりラベリングモデルＷ１のファインチューニングを行ってもよい。

続いて、音声認識モデル学習部１２は、音声認識モデル学習データを用いて、ラベルデータ修正モデルＷ２を学習する（ステップＳ１３０）。具体的には、音声認識モデル学習部１２は、音声認識モデル学習データから音声データＶ０と正解のラベルデータＬ０との対を読み出す。音声認識部１１は、音声認識モデル学習部１２が読み出した音声データＶ０をラベリングモデルＷ１に入力してラベルデータＬａを得る。さらに、音声認識部１１は、得られたラベルデータＬａをラベルデータ修正モデルＷ２に入力して、ラベルデータＬａの音素誤りを修正したラベルデータＬｂを得る。音声認識モデル学習部１２は、ラベルデータＬｂと、正解のラベルデータＬ０との差分が小さくなるように、ラベルデータ修正モデルＷ２のパラメータの値を更新する。音声認識モデル学習部１２は、所定の学習終了条件となるまで、ラベルデータ修正モデルＷ２の学習を行う。学習終了条件は、例えば、入力された全ての音声データＶ０とラベルデータＬ０の対について処理を終えた、ラベルデータ修正モデルＷ２を所定回更新した、差分が所定以下となった、などである。

一般的に、自然言語処理で使用するトランスフォーマーは、数十万文近い学習データが必要である。そこで、正解のラベルデータＬ０と、正解のラベルデータＬ０からランダムに文字を削除したり、子音を入れ替えたりする事で音素誤りを擬似的に作成したラベルデータＬａとの組を用いて音声認識モデル学習データを拡張してもよい。音声認識モデル学習部１２は、疑似的に作成したラベルデータＬａをラベルデータ修正モデルＷ２に入力して得られたラベルデータＬｂと、ラベルデータＬ０との差分が小さくなるように、ラベルデータ修正モデルＷ２のパラメータの値を更新する。音声認識モデル学習部１２は、拡張された学習データによりラベルデータ修正モデルＷ２の事前学習を行った後、上記のように音声データＶ０と正解のラベルデータＬ０を用いてラベルデータ修正モデルＷ２をファインチューニングする。

図７は、音声合成システム１００の音響特徴量生成モデル学習処理を示すフロー図である。学習データ生成装置１の学習データ生成部１３は、複数の音声データＶ１、Ｖ１’を入力する（ステップＳ２１０）。複数文の発話や、ノイズを含んだ音声などの音声データＶ１’が入力された場合、音声処理部１４は、音声データＶ１’から１文ごとの発話の音声データＶ１を生成する。学習データ生成部１３は、音声データＶ１を音声認識部１１に出力する。音声認識部１１は、音声データＶ１を音声認識モデルＷに入力してラベルデータＬ１を取得し、学習データ生成部１３に出力する（ステップＳ２２０）。学習データ生成部１３は、音声データＶ１と、音声データＶ１に対応して音声認識部１１から出力されたラベルデータＬ１との対からなる音響特徴量生成モデル学習用の学習データＤ１を生成する（ステップＳ２３０）。自動生成学習データは、各音声データＶ１に基づいて学習データＤ１を生成する。

音声合成装置５の音響特徴量生成モデル学習部５２は、学習データ生成装置１が生成した学習データＤ１のセットを取得する。音響特徴量生成モデル学習部５２は、それら学習データＤ１を用いて音声合成用音響特徴量生成モデルＭを事前学習する（ステップＳ２４０）。すなわち、音響特徴量生成モデル学習部５２は、学習データＤ１から音声データＶ１とラベルデータＬ１との対を取得する。音響特徴量推定部５１は、音響特徴量生成モデル学習部５２が取得したラベルデータＬ１を音声合成用音響特徴量生成モデルＭに入力し、音響特徴量の推定結果を得る。音響特徴量生成モデル学習部５２は、音声データＶ１から得られた音響特徴量と、音響特徴量推定部５１が得た推定結果の音響特徴量との差分が小さくなるように、音声合成用音響特徴量生成モデルＭを更新する。音響特徴量生成モデル学習部５２は、所定の学習終了条件となるまで、音声合成用音響特徴量生成モデルＭの学習を行う。学習終了条件は、例えば、入力された全ての学習データＤ１について処理を終えた、音声合成用音響特徴量生成モデルＭを所定回更新した、差分が所定以下となった、などである。

次に、音響特徴量生成モデル学習部５２は、音声データＶ２と、人手で生成又は修正したラベルデータＬ２との対を含む学習データＤ２を入力する。入力される学習データＤ２は、学習データＤ１よりも少量でよい。音響特徴量生成モデル学習部５２は、学習データＤ２を用いて、ステップＳ２４０と同様の処理により音声合成用音響特徴量生成モデルＭをファインチューニングする（ステップＳ２５０）。

図８は、学習データ生成装置１の学習データ生成処理を示すフロー図である。図２の学習データ生成装置１の学習データ生成部１３は、音声データＶ１’を入力する（ステップＳ３１０）。音声データＶ１’は、例えば、放送音声のデータである。学習データ生成部１３は、音声データＶ１’を音声処理部１４に出力する。音声処理部１４は、音声データＶ１に対して音源分離を行った後（ステップＳ３２０）、ノイズを除去する（ステップＳ３３０）。音声処理部１４は、ノイズが除去された音声データＶ１’における音声や効果音（ＳＥ）などを検出し（ステップＳ３４０）、検出結果に基づいて１文ごとの発話の音声データを抽出する（ステップＳ３５０）。音声処理部１４は、抽出した音声データＶ１を学習データ生成部１３に出力する。なお、学習データ生成装置１は、ステップＳ３１０において音声データＶ１を入力した場合、ステップＳ３２０～ステップＳ３５０の処理を行わない。なお、学習データ生成装置１は、これらの処理の一部を省いて処理を行ってもよい。

学習データ生成部１３は、音声データＶ１を音声認識部１１に出力する。音声認識部１１は、各音声データＶ１を学習済みのラベリングモデルＷ１に入力してラベルデータＬａを取得する。さらに、学習データ生成部１３は、ラベルデータＬａを学習済みのラベルデータ修正モデルＷ２に入力してラベルデータＬｂを取得し、ラベルデータＬ１として学習データ生成部１３に出力する（ステップＳ３６０）。なお、音声認識モデルＷがラベルデータ修正モデルＷ２を有さない場合、学習データ生成部１３は、ラベリングモデルＷ１が推定したラベルデータＬａをラベルデータＬ１として学習データ生成部１３に出力する。学習データ生成部１３は、音声データＶ１と、音声認識部１１が音声データＶ１に基づいて推定したラベルデータＬ１との対からなる学習データＤ１を生成する（ステップＳ３７０）。

音声合成を行うには、学習用の音声データとラベルデータとの対を用いて音声合成用の音響特徴量生成モデルを学習させなければならない。しかし従来は、音声のみが存在するデータの場合、読み仮名と韻律記号を用いたラベルデータを手動で作成しなければならなかったことから、音声合成用の音響特徴量生成モデルを学習するための大量の学習データとして用いることは難しかった。本実施形態によれば、音声からアクセントを含む韻律記号を推定可能であるため、音声のみが存在する場合でも音声合成用の音響特徴量生成モデルの学習データとして用いることが可能となる。よって、動画共有サイト、テレビやラジオの音声、会議議事録音声、音声ストリーミングサービス、スタジオ収録音声などの幅広い分野の音声を用いて、音声合成用の音響特徴量生成モデルを学習するための大量の学習データを生成可能である。

学習データ生成装置１の評価実験について説明する。評価実験では、ラベリングモデルＷ１をファインチューニングするための音声認識モデル学習データに、ＮＨＫアナウンサーがスタジオブースで収録した音声と、手動修正済みのラベルデータとの組を使用した。読み仮名には片仮名を用いた。韻律記号は、アクセント上昇・下降、アクセント句区切り、ポーズ、文末記号で構成した。実験には男性データセットＭ００１、Ｍ００２、Ｍ００３、Ｍ００４と、女性データセットＦ００１、Ｆ００２、Ｆ００３とを用いた。各データセットの内容は、それぞれ、ニュース、気象情報、お知らせを読み上げた音声データである。音声データのサンプリング周波数は１６ｋＨｚ（キロヘルツ）、ビットレートは１６ビットとした。また、ラベルデータ修正モデルＷ２の事前学習用のラベルデータには、２０１８年４月から２０２１年４月までに放送した所定番組におけるニュース原稿６３１，０１４文を用いた。

事前学習を行う対象のラベリングモデルＷ１は、５３の言語の約５６，０００時間の音声データを用いて学習済みのものである。事前学習されたラベリングモデルＷ１に対して、音声と手動修正済みのラベルデータとの対を音声認識モデル学習データに用いてファインチューニングを行った。Batch_sizeは１６、gradient accumulationは２、learning_rateは５．０×１０^－４、学習epoch数は５０とした。また、ラベルデータ修正モデルＷ２の学習には、６３１，０１４文のニュース原稿に対して、OpenJTalkを用いて自動で読み仮名と韻律記号を作成した。Batch_sizeは１６、gradient accumulationは１、learning_rateは５．０×１０^－４、学習epoch数は２０とした。さらに、以下の（１）及び（２）のデータ拡張処理を行って、ラベルデータ修正モデルＷ２の事前学習用の学習データを作成した。

（１）５%以下の割合で文字を削除
（２）１０%以下の割合で読み仮名と韻律記号の子音、韻律記号を入れ替え

上記の事前学習用の学習データにより事前学習を行ったラベルデータ修正モデルＷ２を、２３，０２４文の手動修正済みのラベルデータを用いた音声認識モデル学習データのセットによりファインチューニングした。

評価の対象は、ラベリングモデルＷ１により得られたラベルデータＬａと、ラベリングモデルＷ１及びラベルデータ修正モデルＷ２により得られたラベルデータＬｂである。また、従来技術により生成したラベルデータを比較対象とした。比較対象は、Espnet ASR（参考文献９参照）で公開されている日本語音声合成の事前学習モデルを用いて音声を日本語化し、さらにOpenJTalkを用いて読み仮名と韻律記号に自動変換したラベルデータである。

（参考文献９）Watanabe et al., "ESPnet: End-to-End Speech Processing Toolkit," Interspeech, 2018.

ラベルデータＬａ、ラベルデータＬｂを得るためのラベリングモデルＷ１のファインチューニングには、Ｆ００３、Ｍ００３のデータセット音声（２５４１文、５．６９時間）を用いた。ラベルデータＬｂを得るためのラベルデータ修正モデルＷ２のファインチューニングには、手動修正済みのラベルデータ（２３，０２４文）を用いた。ＣＥＲを算出するためのテストセットには、Ｍ００２、Ｆ００２、Ｍ００４（１５５８文、３．７３時間）を用いた。ラベリングモデルＷ１により推定されたラベルデータＬａ、ラベリングモデルＷ１及びラベルデータ修正モデルＷ２により推定されたラベルデータＬｂ、及び、従来技術により推定したラベルデータ（Espnet ASR＋OpenJTalk）のそれぞれと、正解のラベルデータとを用いてＣＥＲを算出した。

図９は、評価実験結果を示す図である。ラベルデータＬａのＣＥＲ及びラベルデータＬｂのＣＥＲは、従来技術のＣＥＲよりも低い値であった。よって、本実施形態の有効性を確認できた。また、ラベルデータＬａのＣＥＲよりもラベルデータＬｂのＣＥＲのほうが低い値であることから、ラベルデータ修正モデルＷ２の有効性を確認できた。

図１０は、学習データ量の変化による評価実験結果を示す図である。ここでは、ラベルデータ修正モデルＷ２を使用せずに、ラベリングモデルＷ１のみを用いた。そして、ラベリングモデルＷ１のファインチューニングのための音声認識モデル学習データとして、Ｍ００１及びＦ００１のコーパスを用いた。図１０では、音声認識モデル学習データのデータ量を変化させたときのＣＥＲを示す。図１０に示すように、５時間のデータで最も高い性能を確認できた。

上記の実験から、本実施形態の学習データ生成装置１は、音声データのみから高精度にラベルデータを生成することが可能であることが確認できた。従来技術では、音響特徴量を反映した読み仮名及び韻律記号を精度よく推定することができない。これは、従来技術では、音声認識時に、漢字仮名交じり文に変換を行うために、漢字から読み仮名への変換と、韻律情報の推定とにおいて音声の情報を生かすことができずに、誤りが生じたと考えられる。一方、本実施形態では、アクセント上昇・下降のみならず、アクセント句区切り、文末の記号も精度よく推定が可能であった。また、ラベリングモデルＷ１の学習には、従来技術の音声認識モデルと比較して少ない量の学習データでよいことがわかった。

学習データ生成装置１は、ラベリングモデルＷ１に代えて、図１１に示すラベリングモデルＷ１ａを用いてもよい。図１１は、Seq2seqの音声認識モデルを使用したラベリングモデルＷ１ａの例を示す図である。ラベリングモデルＷ１ａは、例えば、参考文献１０に記載のSeq2seqの音声認識モデルである。Seq2seqの音声認識モデルを用いたラベリングモデルＷ１ａは、限られた音素と韻律記号のみを学習させるため、数千時間よりも少ない学習データにより学習可能である。ラベリングモデルＷ１ａは、音声データの音響特徴量を入力とし、ラベルデータＬａを出力するモデルである。ラベリングモデルＷ１ａは、エンコーダと、デコーダとを有する。

エンコーダは、複数のＬＳＴＭを有し、音声データの特徴量ｘを入力する。音声認識部１１は、音声データからラベリングモデルＷ１ａのエンコーダに入力する特徴量ｘを生成する。特徴量ｘは、例えば、所定幅のウインドウ（例えば、２５ｍｓ）のメルスペクトログラムを、ウインドウよりも小さい所定の時間幅（例えば、１０ｍｓ）毎にシフトさせたものである。音声認識部１１は、所定フレーム分の特徴量ｘをダウンサンプリングしてエンコーダに入力する。エンコーダは、入力した特徴量ｘを、別の数値ベクトルの特徴表現ｈ^ｅｎｃにマッピングして出力する。アテンションは、デコーダが次の出力ｙ_ｉを予測するために特徴表現ｈ^ｅｎｃのどこに注目すべきかを決定し、その結果を示すアテンションコンテキストｃ_ｉを出力する。デコーダは、アテンションコンテキストｃ_ｉと前回の出力ｙ_ｉ－１とを入力し、前回までの出力ｙ_ｉ－１…，ｙ_０と特徴量ｘとが与えられたときの出力ｙ_ｉを生成する。デコーダの出力を並べることによりラベルデータＬａが生成される。

（参考文献１０）C. Chiu, et al., "State-of-the-Art Speech Recognition with Sequence-to-Sequence Models," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.

以上説明した実施形態によれば、本実施形態の学習データ生成装置１は、音声合成用のモデルを学習するためのデータを、音声認識の技術を用いて、音声のみからでも生成することができる。

上述の学習データ生成装置１及び音声合成装置５はそれぞれ、内部にコンピュータシステムを有している。そして、学習データ生成装置１及び音声合成装置５の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ（Central processing unit）及び各種メモリやＯＳ（Operation System）、周辺機器等のハードウェアを含むものである。また、学習データ生成装置１及び音声合成装置５の機能の全て又は一部は、ＡＳＩＣ（Application specific integrated circuit）やＰＬＤ（Programmable logic device）やＦＰＧＡ（Field programmable gate array）等のハードウェアを用いて実現されてもよい。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ウェブページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

学習データ生成装置１及び音声合成装置５はそれぞれ、例えば、１台以上のコンピュータ装置により実現することができる。学習データ生成装置１、音声合成装置５が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、学習データ生成装置１の音声認識部１１と、学習データ生成部１３と、音声処理部１４とを異なるコンピュータ装置により実現してもよい。また、音声処理部１４を、学習データ生成装置１の外部の音声編集装置により実現してもよい。また、音声認識モデルＷを学習する学習データ生成装置１と、学習済みの音声認識モデルＷを用いて学習データＤ１を生成する学習データ生成装置１とが異なる装置であってもよい。この場合、音声認識モデルＷを学習する学習データ生成装置１は学習装置として動作し、学習済みの音声認識モデルＷを用いて学習データＤ１を生成する学習データ生成装置１はデータ生成装置として動作する。

以上説明した実施形態によれば、学習装置は、学習部を備える。学習部は、例えば、実施形態の音声認識モデル学習部１２である。学習部は、発話の音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルを、学習用の音声データと正解のラベルデータとの対を用いて学習する。例えば、学習部は、ラベリングモデルに学習用の音声データの特徴量を入力して得られたラベルデータと、学習用の音声データに対応した正解のラベルデータとの差分が小さくなるように、ラベリングモデルを学習する。

学習部は、ラベリングモデルを用いて推定されたラベルデータを入力し、入力されたラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルを、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習してもよい。例えば、学習部は、誤りが含まれる学習用のラベルデータをラベルデータ修正モデルに入力して得られたラベルデータと、学習用のラベルデータに対応した正解のラベルデータとの差分が小さくなるようにラベルデータ修正モデルを学習する。

また、データ生成装置は、音声認識部を備える。音声認識部は、発話の音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習されたラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の音声データの発話を表すラベルデータの推定結果を得る。例えば、音声認識部は、学習装置により学習されたラベリングモデルを用いる。

音声認識部は、音声データに基づいて推定されたラベルデータを入力し、そのラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルであって、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習されたラベルデータ修正モデルに、ラベリングモデルを用いて推定されたラベルデータを入力して誤りが修正されたラベルデータを得る。例えば、音声認識部は、学習装置により学習されたラベルデータ修正モデルを用いる。

ラベリングモデルは、音声データから得られた時系列の特徴量を入力するエンコーダと、エンコーダからの出力を入力とし、エンコーダに特徴量が入力された音声データのラベルデータを出力するデコーダとを有してもよい。

また、ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベルデータを出力するトランスフォーマーとを有してもよい。

データ生成装置は、音声処理部をさらに備えてもよい。音声処理部は、音声データから１文ごとの発話の音声データを抽出する。音声認識部は、音声処理部が抽出した音声データをラベルデータ推定対象としてラベリングモデルに入力する。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…学習データ生成装置
５…音声合成装置
１１…音声認識部
１２…音声認識モデル学習部
１３…学習データ生成部
１４…音声処理部
５１…音響特徴量推定部
５２…音響特徴量生成モデル学習部
５３…言語処理部
５４…ボコーダ部
１００…音声合成システム
Ｍ…音声合成用音響特徴量生成モデル
Ｗ…音声認識モデル
Ｗ１、Ｗ１ａ…ラベリングモデル
Ｗ２…ラベルデータ修正モデル

Claims

発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルを、学習用の音声データと正解のラベルデータとの対を用いて学習する学習部、
を備えることを特徴とする学習装置。
前記学習部は、前記ラベリングモデルを用いて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルを、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習する、
ことを特徴とする請求項１に記載の学習装置。
発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストのラベルデータを出力するラベリングモデルであって、学習用の音声データと正解のラベルデータとの対を用いて学習された前記ラベリングモデルに、ラベルデータ推定対象の音声データから得られた特徴量を入力して、ラベルデータ推定対象の前記音声データの発話を表すラベルデータの推定結果を得る音声認識部、
を備えることを特徴とするデータ生成装置。
前記音声認識部は、音声データに基づいて推定されたラベルデータを入力し、入力された前記ラベルデータに含まれる音素の誤りを修正したラベルデータを出力するラベルデータ修正モデルであって、誤りが含まれる学習用のラベルデータと正解のラベルデータとの対を用いて学習された前記ラベルデータ修正モデルに、前記ラベリングモデルを用いて推定された前記ラベルデータを入力して誤りが修正されたラベルデータを得る、
ことを特徴とする請求項３に記載のデータ生成装置。
前記ラベリングモデルは、音声データから得られた時系列の特徴量を入力するエンコーダと、前記エンコーダからの出力を入力とし、ラベルデータを出力するデコーダとを有する、
ことを特徴とする請求項３又は請求項４に記載のデータ生成装置。
前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する前記時間区間の音声データを前記特徴量として入力とする畳み込みニューラルネットワークと、前記畳み込みネットワークからの出力を入力とし、ラベルデータを出力するトランスフォーマーとを有する、
ことを特徴とする請求項３又は請求項４に記載のデータ生成装置。
音声データから１文ごとの発話の音声データを抽出する音声処理部をさらに備え、
前記音声認識部は、前記音声処理部が抽出した前記音声データをラベルデータ推定対象として前記ラベリングモデルに入力する、
ことを特徴とする請求項３から請求項６のいずれか一項に記載のデータ生成装置。
コンピュータを、請求項１又は請求項２に記載の学習装置として機能させるためのプログラム。
コンピュータを、請求項３から請求項７のいずれか一項に記載のデータ生成装置として機能させるためのプログラム。