JP2019179257A - 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム - Google Patents

音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム Download PDF

Info

Publication number
JP2019179257A
JP2019179257A JP2019113938A JP2019113938A JP2019179257A JP 2019179257 A JP2019179257 A JP 2019179257A JP 2019113938 A JP2019113938 A JP 2019113938A JP 2019113938 A JP2019113938 A JP 2019113938A JP 2019179257 A JP2019179257 A JP 2019179257A
Authority
JP
Japan
Prior art keywords
data
speakers
speaker
acoustic model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019113938A
Other languages
English (en)
Other versions
JP6680933B2 (ja
Inventor
伸克 北条
Nobukatsu Hojo
伸克 北条
勇祐 井島
Yusuke Ijima
勇祐 井島
宮崎 昇
Noboru Miyazaki
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019113938A priority Critical patent/JP6680933B2/ja
Publication of JP2019179257A publication Critical patent/JP2019179257A/ja
Application granted granted Critical
Publication of JP6680933B2 publication Critical patent/JP6680933B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】小さなサイズかつ複数話者の合成音声を生成できるDNN音響モデルを低コストで学習できる音響モデル学習装置を提供する。【解決手段】複数の話者の音声データと、少なくとも音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、話者を特定するデータあるいは話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習する音響モデル学習部を有し、ニューラルネットワークの入力層に、少なくとも音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、話者を特定するデータあるいは話者の特徴を表すデータを入力することを特徴とする。【選択図】図3

Description

本発明は、音声データからディープニューラルネットワーク音響モデルを学習する音響モデル学習装置、学習されたディープニューラルネットワーク音響モデルを用いて合成音声を生成する音声合成装置、音響モデル学習方法、音声合成方法、プログラムに関する。
目標話者の音声データから、その話者の合成音声を生成する手法として、DNN(ディープニューラルネットワーク)に基づく技術がある(非特許文献1)。以下、図1、図2を参照して非特許文献1の音響モデル学習装置、音声合成装置の構成、および動作について説明する。図1は、同文献の音響モデル学習装置91の構成を示すブロック図である。図2は、同文献の音声合成装置92の構成を示すブロック図である。
図1に示すように、非特許文献1の音響モデル学習装置91は、話者音声データベース911と、音響モデル学習部913と、音響モデル記憶部914を含む。話者音声データベース911は、音声データ記憶部9111と、コンテキストデータ記憶部9112を含む。音声データ記憶部9111は、目標話者の音声データ(音声パラメータ)を予め記憶している。コンテキストデータ記憶部9112は、目標話者の音声データに対応するコンテキストデータを予め記憶している。詳細は後述するが、コンテキストデータには、少なくとも音声データの音素情報とアクセント情報が含まれるものとする。
音響モデル学習部913は、目標話者の音声データ、コンテキストデータを用いて、DNN(ディープニューラルネットワーク)による、目標話者の音響モデルを学習し、学習された音響モデル(以下、DNN音響モデル、またはディープニューラルネットワーク音響モデルと呼称する)を音響モデル記憶部914に記憶する。
図2に示すように、非特許文献1の音声合成装置92は、テキスト解析部921と、音声パラメータ生成部922と、音声波形生成部923を含む。
テキスト解析部921は、入力テキスト(音声合成目的のテキストデータ)を解析して、前述のコンテキストデータを取得する。音声パラメータ生成部922は、音響モデル記憶部914に記憶されたディープニューラルネットワーク音響モデルを用いて、コンテキストデータから音声パラメータを生成する。音声波形生成部923は、生成された音声パラメータを用いて音声波形を生成する。
Zen et al., "Statistical parametric speech synthesis using deep neural networks." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013 pp. 7962-7966.
DNN音響モデルにより高品質な音声合成を達成するためには、音響モデル学習部913において、目標話者の大量の音声データおよびコンテキストデータが必要となる。また、一つのDNN音響モデルからは、単一話者の音声のみが合成可能であった。
このため、複数の話者の音声をDNNに基づく音声合成により達成するためには、複数の話者について、それぞれ大量の音声データおよびコンテキストデータが必要であり、学習にかかるコストが大きい。
また、複数の話者の合成音声を得るためには、その人数に応じた数のDNN音響モデルを保持する必要があり、話者数の増大に伴い使用メモリ数が増大する。
そこで本発明では、小さなサイズかつ複数話者の合成音声を生成できるDNN音響モデルを低コストで学習できる音響モデル学習装置を提供することを目的とする。
本発明の音響モデル学習装置は、複数の話者の音声データと、少なくとも音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、話者を特定するデータあるいは話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習する音響モデル学習部を有し、ニューラルネットワークの入力層に、少なくとも音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、話者を特定するデータあるいは話者の特徴を表すデータを入力することを特徴とする。
本発明の音響モデル学習装置によれば、小さなサイズかつ複数話者の合成音声を生成できるDNN音響モデルを低コストで学習できる。
非特許文献1の音響モデル学習装置の構成を示すブロック図。 非特許文献1の音声合成装置の構成を示すブロック図。 実施例1の音響モデル学習装置の構成を示すブロック図。 実施例1の音響モデル学習装置の動作を示すフローチャート。 実施例1の音声合成装置の構成を示すブロック図。 実施例1の音声合成装置の動作を示すフローチャート。 実施例2の音響モデル学習装置の構成を示すブロック図。 実施例2の音響モデル学習装置の動作を示すフローチャート。 実施例2の音声合成装置の構成を示すブロック図。 実施例2の音声合成装置の動作を示すフローチャート。 実施例3の音響モデル学習装置の構成を示すブロック図。 実施例3の音響モデル学習装置の動作を示すフローチャート。 実施例3の音声合成装置の構成を示すブロック図。 実施例3の音声合成装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図3、図4を参照して実施例1の音響モデル学習装置の構成、および動作について説明する。図3は、本実施例の音響モデル学習装置11の構成を示すブロック図である。図4は、本実施例の音響モデル学習装置11の動作を示すフローチャートである。非特許文献1の音響モデル学習装置91と異なる点は、本実施例の音響モデル学習装置11が話者を特定するデータを活用する点である。
図3に示すように、本実施例の音響モデル学習装置11は、複数話者音声データベース111と、音響モデル学習部113と、音響モデル記憶部914を含む。複数話者音声データベース111は、複数の話者(Nを2以上の整数とし、N人の話者)それぞれに対し、各話者の音声データを記憶した音声データ記憶部1111−1、…、1111−Nと、各話者の音声データに対応するコンテキストデータを記憶したコンテキストデータ記憶部1112−1、…、1112−Nを含む。音声データは、音声合成用のDNN音響モデルを学習する対象とされたN人の話者が複数の文章を発話した音声のデータである。コンテキストデータは、音声データ中の各発話につき一つずつ付与された発音等の情報である。コンテキストデータは音声データの発話情報を保持するものであって、少なくとも音素情報(発音情報)とアクセント情報(アクセント型、アクセント句長)が含まれている。コンテキストデータには、これ以外にも品詞情報等が含まれてもよい。なお、音響モデル記憶部914は、前述した非特許文献1の音響モデル学習装置91における同名の構成要素と同じである。
音響モデル学習部113は、複数の話者の音声データと、対応するコンテキストデータに加え、話者を特定するデータを用いて、音声波形合成に必要な音声パラメータを生成するためのDNN音響モデルを学習し、学習されたDNN音響モデルを音響モデル記憶部914に記憶する(S113)。話者を特定するデータとは、ある音声データを読み上げた話者を特定するための情報(データ)である。話者を特定するデータを数値ベクトルとして表現した、例えば話者コードを用いることができる。話者コードは、N名の話者のうち、どの話者の発話かを識別する情報を、1−of−K表現で表現したベクトルとすることができる。1−of−K表現とはベクトルのある要素だけが1、他の全ての要素が0となる表現のことである。
すなわち音響モデル学習部113は、コンテキストデータを数値ベクトルで表現した言語特徴量ベクトルと、話者コードを連結したものを入力とし、話者、コンテキストデータに対応する音声パラメータを出力とするDNN音響モデルを学習する(S113)。
以下、図5、図6を参照して、本実施例の音声合成装置12の構成、および動作について説明する。図5は、本実施例の音声合成装置12の構成を示すブロック図である。図6は、本実施例の音声合成装置12の動作を示すフローチャートである。非特許文献1の音声合成装置92と異なる点は、本実施例の音声合成装置12が話者を特定するデータを活用する点である。
図5に示すように、本実施例の音声合成装置12は、テキスト解析部921と、音声パラメータ生成部122と、音声波形生成部923を含む。テキスト解析部921と、音声波形生成部923は、前述した非特許文献1の音声合成装置92における同名の構成要素と同じ動作をする。音声パラメータ生成部122は、音響モデル記憶部914に記憶されたDNN音響モデルを用いて、入力テキストを解析して取得されたコンテキストデータと、入力テキストとともに入力される話者を特定するデータ(話者コード)から音声パラメータを生成する(S122)。音声パラメータは、音高パラメータ(基本周波数F0等)、スペクトルパラメータ(ケプストラム、メルケプストラム等)を含むものとする。具体的には、音声パラメータ生成部122は、コンテキストデータと話者コードを連結し、DNN音響モデルへの入力ベクトルを得る。音声パラメータ生成部122は、入力ベクトルをDNN音響モデルへ入力し、順伝播により音声パラメータを生成する(S122)。音声波形生成部923は、非特許文献1と同様に、音声パラメータから、音声波形生成により合成音声を得る(S923)。音声波形生成部923は、音声波形生成の前に、例えば、maximum likelihood generation(MLPG)アルゴリズム(参考非特許文献1)を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。音声波形生成には、例えば(参考非特許文献2)を用いてもよい。
(参考非特許文献1:益子他、“動的特徴を用いたHMMに基づく音声合成”、信学論、vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.)
(参考非特許文献2:今井他、“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”、電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.)
本実施例の音響モデル学習装置11によれば、コンテキストデータに加え、話者を特定するデータ(話者コード)を活用したため、対応するコンテキストデータと話者性を反映した音声パラメータを出力するDNN音響モデルを学習することができる。
本実施例では、音声パラメータに話者を特徴づける成分と日本語音声として話者間で共通する成分とが含まれることを仮定している。具体的には、話者を特徴づける成分に対応する入力として各話者の1−of−K表現である話者コードが用いられ、日本語音声として話者間で共通する成分に対応する入力としてコンテキストデータが用いられる。話者を特徴づける成分と話者間で共通する成分とで構成される音声パラメータを教師信号として与えることで、DNN内部でそれぞれの成分に対応したパラメータ推定器が学習される。これにより、単一のDNN音響モデルで学習に用いられた話者それぞれに対応する音声合成が可能となる。
日本語の音声は多様なコンテキストに対して多様な音声パラメータ表現となるため、多様なコンテキストに対して音声パラメータを精度よく推定するためには大量の音声データが必要となるのが通常であった。しかし本実施例では、音声パラメータに話者を特徴づける成分と日本語音声として話者間で共通する成分とが含まれることを仮定したため、複数話者にまたがって十分な量の音声データが存在すればよく、単一の話者について大量の音声データを準備する必要がない。すなわち、複数の話者の音声データを効率的に活用し、一つのDNN音響モデルを学習するため、学習に必要な音声データを減らすことができる。また、一つの音響モデルで複数の話者性を反映した音声合成を実現するため、より少ないメモリ使用量で、多数の話者を扱う音声合成システムを実現できる。
実施例1のように、話者コード(1−of−K表現)を用いる場合、複数話者音声データベース111に含まれる話者以外の話者の音声合成を行うことができない。そこで実施例2では、目標話者の参照発話のスペクトル情報の特徴を抽出し、モデル学習・音声合成に使用することにより、参照発話が得られる任意の目標話者についての音声合成を可能とした。以下、図7、図8を参照して実施例2の音響モデル学習装置21の構成、および動作について説明する。図7は、本実施例の音響モデル学習装置21の構成を示すブロック図である。図8は、本実施例の音響モデル学習装置21の動作を示すフローチャートである。実施例1の音響モデル学習装置11と異なる点は、本実施例の音響モデル学習装置21が話者の特徴を表すデータ(話者スペクトル特徴ベクトル)を活用する点である。
図7に示すように、本実施例の音響モデル学習装置21は、複数話者音声データベース111と、スペクトル特徴抽出部212と、音響モデル学習部213と、音響モデル記憶部914を含み、複数話者音声データベース111、音響モデル記憶部914については実施例1の同名の構成要件と同じである。
スペクトル特徴抽出部212は、各話者の音声データ記憶部1111−1〜1111−Nから各話者の参照発話を抽出し、各話者の参照発話から各話者の話者スペクトル特徴ベクトルを生成する(S212)。ここで参照発話とは、学習時に使用する話者、または音声合成時の目標話者による発話であって、書き起こしが不要、短文の発話でよいという特徴がある。話者スペクトル特徴ベクトルとは、その話者の発話する音声に見られるスペクトル情報の特徴を、数値ベクトルで表現したものである。話者スペクトル特徴ベクトルの生成には、例えばi−vectorを使用してもよい。スペクトル特徴抽出部212については、例えば参考非特許文献3の知見などを利用し、i−vector抽出器を使用してもよい。
(参考非特許文献3:Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4
(2011): 788-798.)
次に、音響モデル学習部213は、複数の話者の音声データと、複数の話者のコンテキストデータと、話者の特徴を表すデータである話者スペクトル特徴ベクトルとを用いて、DNN音響モデルを学習し、学習されたDNN音響モデルを音響モデル記憶部914に記憶する(S213)。
以下、図9、図10を参照して、本実施例の音声合成装置22の構成、および動作について説明する。図9は、本実施例の音声合成装置22の構成を示すブロック図である。図10は、本実施例の音声合成装置22の動作を示すフローチャートである。実施例1の音声合成装置12と異なる点は、本実施例の音声合成装置22が話者の特徴を表すデータ(話者スペクトル特徴ベクトル)を活用する点である。
図9に示すように、本実施例の音声合成装置22は、テキスト解析部921と、スペクトル特徴抽出部221と、音声パラメータ生成部222と、音声波形生成部923を含む。テキスト解析部921と、音声波形生成部923は、実施例1と同様である。スペクトル特徴抽出部221は、音声合成用のテキストと共に入力された参照発話から前述の話者スペクトル特徴ベクトルを抽出する(S221)。前述したように、参照発話は目標話者による発話である。
音声パラメータ生成部222は、音響モデル記憶部914に記憶されたDNN音響モデルを用いて、入力テキストを解析して取得されたコンテキストデータと、参照発話から抽出された話者スペクトル特徴ベクトルから音声パラメータを生成する(S222)。
実施例1の音声合成装置12では、話者コードを使用しているため、音響モデル学習時に使用する複数話者音声データベース111に含まれない目標話者については、音響モデル学習時に未知であるため、音声を合成することができない。この課題を解決するため、本実施例では、音声認識や話者識別の分野で使用されているi−vector等、当該話者の発話する音声のスペクトル情報の特徴を表現するベクトル(話者スペクトル特徴ベクトル)を使用する。これにより、複数話者音声データベース111に含まれない目標話者であっても、目標話者の音声と音響的に類似した話者の音声が音響モデル内でモデル化されているため、目標話者の参照発話が獲得できれば、目標話者に近いスペクトル特徴を持った音声を合成することができる。したがって、複数話者音声データベース111に含まれない目標話者であっても、その合成音声を生成することが可能となる。なお前述したように、話者スペクトル特徴ベクトルの生成には、例えばi−vectorを使用することができるが、ステップS212の実現方法はこれに限られない。
実施例2の方法において、発話から話者情報ベクトルを抽出するための代表的な手法であるi−vectorは、話者識別分野や、音声認識分野においてモデルの話者適応を行う目的で提案されてきたものである。これらの分野では、音声に現れる個人性のうち、スペクトル情報の個人性がベクトルで表現されることが重要であった。一方で、音声合成分野において、目標話者の音声合成を実現するために話者情報ベクトルを抽出する場合、音声に現れる個人性のうち、スペクトル情報の個人性だけではなく、韻律情報の個人性も表現されていることが重要であり、この点が音声認識問題とは異なると考えられる。そこで実施例3の音響モデル学習装置31では、話者の特徴を表すデータに、F0の情報をも含むようにした。以下、図11、図12を参照して実施例3の音響モデル学習装置31の構成、および動作について説明する。図11は、本実施例の音響モデル学習装置31の構成を示すブロック図である。図12は、本実施例の音響モデル学習装置31の動作を示すフローチャートである。実施例2の音響モデル学習装置21と異なる点は、本実施例の音響モデル学習装置31が話者の特徴を表すデータとして話者スペクトル特徴ベクトルだけでなく、話者韻律特徴ベクトルを活用する点である。
図11に示すように、本実施例の音響モデル学習装置31は、複数話者音声データベース111と、スペクトル特徴抽出部212と、韻律特徴抽出部312と、音響モデル学習部313と、音響モデル記憶部914を含み、複数話者音声データベース111、スペクトル特徴抽出部212、音響モデル記憶部914については実施例2の同名の構成要件と同じである。
韻律特徴抽出部312は、各話者の音声データ記憶部1111−1〜1111−Nから各話者の参照発話を抽出し、各話者の参照発話から各話者の話者韻律特徴ベクトルを生成する(S312)。話者韻律特徴ベクトルとは、音声に現れる個人性のうち、韻律情報の個人性を表現したベクトルである。より詳細には話者韻律特徴ベクトルは、その話者の発話する音声にみられる音響的特徴のうち、韻律情報の特徴を、数値ベクトルで表現したものである。
韻律特徴抽出部312は、例えば、参照発話から分析されるF0系列の平均と分散を算出し、F0特徴情報を話者韻律特徴ベクトルとして抽出してもよい。韻律特徴抽出部312は、参考非特許文献4の手法を用いて、より詳細な韻律特徴のモデル化を行ってもよい。(参考非特許文献4:Dehak, Najim, Pierre Dumouchel, and Patrick Kenny. "Modeling prosodic features with joint factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 15.7 (2007): 2095-2103.)
次に、音響モデル学習部313は、複数の話者の音声データと、複数の話者のコンテキストデータと、話者スペクトル特徴ベクトルと、話者韻律特徴ベクトルとを用いて、DNN音響モデルを学習し、学習されたDNN音響モデルを音響モデル記憶部914に記憶する(S313)。
以下、図13、図14を参照して、本実施例の音声合成装置32の構成、および動作について説明する。図13は、本実施例の音声合成装置32の構成を示すブロック図である。図14は、本実施例の音声合成装置32の動作を示すフローチャートである。実施例2の音声合成装置22と異なる点は、本実施例の音声合成装置32が話者の特徴を表すデータとして話者スペクトル特徴ベクトルだけでなく、話者韻律特徴ベクトルを活用する点である。
図13に示すように、本実施例の音声合成装置32は、テキスト解析部921と、スペクトル特徴抽出部221と、韻律特徴抽出部321と、音声パラメータ生成部322と、音声波形生成部923を含む。テキスト解析部921と、スペクトル特徴抽出部221と、音声波形生成部923は、実施例1と同様である。韻律特徴抽出部321は、音声合成用のテキストと共に入力された参照発話から前述の話者韻律特徴ベクトルを抽出する(S321)。前述したように、参照発話は目標話者による発話である。
音声パラメータ生成部322は、音響モデル記憶部914に記憶されたDNN音響モデルを用いて、入力テキストを解析して取得されたコンテキストデータと、話者スペクトル特徴ベクトルと、話者韻律特徴ベクトルから音声パラメータを生成する(S322)。
ある話者の音響的特徴は、スペクトルの特徴、韻律の特徴に分類することができる。実施例2のように、話者スペクトル特徴ベクトルを使用した場合、その話者の特徴のうち、スペクトルの特徴が合成音声にも反映され、目標話者の韻律の特徴が反映されない。本実施例では、目標話者の韻律の情報も表現したベクトルを使用することにより、複数話者音声データベース111に含まれない話者の、韻律の特徴をも反映した音声を合成することが可能となる。
なお、上述の実施例において説明した音響モデル学習装置、音声合成装置をそれぞれ音響モデル学習部、音声合成部として、これらを構成要件として備える単独のハードウェアとして本発明を実現してもよい。
また、上述の実施例において説明した話者コード、話者スペクトル特徴ベクトル、話者韻律特徴ベクトルなどは、話者の情報について表現したベクトルであるという共通項をもつため、これらを話者情報ベクトルと総称してもよい。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1. 複数の話者の音声データと、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習する音響モデル学習部を有し、
    ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音響モデル学習装置。
  2. 請求項1に記載の音響モデル学習装置であって、
    前記音響モデル学習部は、
    複数の話者の音声データと、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータとを用いて、前記ディープニューラルネットワーク音響モデルを学習し、
    前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータを入力することを特徴とする
    音響モデル学習装置。
  3. 請求項1に記載の音響モデル学習装置であって、
    前記音響モデル学習部は、
    複数の話者の音声データと、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を用いて前記ディープニューラルネットワーク音響モデルを学習し、
    前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を入力することを特徴とする
    音響モデル学習装置。
  4. 入力テキストを解析して、少なくとも音素情報とアクセント情報を含むコンテキストデータを取得するテキスト解析部と、
    複数の話者の音声データと、前記複数の話者の音声データのコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて学習されたディープニューラルネットワーク音響モデルを用いて、前記入力テキストを解析して取得されたコンテキストデータと、前記入力テキストとともに入力される前記話者を特定するデータまたは前記話者の特徴を表すデータから、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成する音声パラメータ生成部と、
    前記生成された音声パラメータを用いて音声波形を生成する音声波形生成部を有し、
    ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音声合成装置。
  5. 請求項4に記載の音声合成装置であって、
    前記ディープニューラルネットワーク音響モデルは、
    複数の話者の音声データと、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータとを用いて学習され、
    前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータを入力することを特徴とする
    音声合成装置。
  6. 請求項4に記載の音声合成装置であって、
    前記ディープニューラルネットワーク音響モデルは、
    複数の話者の音声データと、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を用いて学習され、
    前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を入力することを特徴とする
    音声合成装置。
  7. 音響モデル学習装置が実行する音響モデル学習方法であって、
    複数の話者の音声データと、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習するステップを有し、
    ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音響モデル学習方法。
  8. 音声合成装置が実行する音声合成方法であって、
    入力テキストを解析して、少なくとも音素情報とアクセント情報を含むコンテキストデータを取得するステップと、
    複数の話者の音声データと、前記複数の話者の音声データのコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて学習されたディープニューラルネットワーク音響モデルを用いて、前記入力テキストを解析して取得されたコンテキストデータと、前記入力テキストとともに入力される前記話者を特定するデータまたは前記話者の特徴を表すデータから、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するステップと、
    前記生成された音声パラメータを用いて音声波形を生成するステップを有し、
    ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音声合成方法。
  9. コンピュータを請求項1から3の何れかに記載の音響モデル学習装置として機能させるプログラム。
  10. コンピュータを請求項4から6の何れかに記載の音声合成装置として機能させるプログラム。
JP2019113938A 2019-06-19 2019-06-19 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム Active JP6680933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019113938A JP6680933B2 (ja) 2019-06-19 2019-06-19 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019113938A JP6680933B2 (ja) 2019-06-19 2019-06-19 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015153948A Division JP6622505B2 (ja) 2015-08-04 2015-08-04 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2019179257A true JP2019179257A (ja) 2019-10-17
JP6680933B2 JP6680933B2 (ja) 2020-04-15

Family

ID=68278672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019113938A Active JP6680933B2 (ja) 2019-06-19 2019-06-19 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム

Country Status (1)

Country Link
JP (1) JP6680933B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
CN113012681A (zh) * 2021-02-18 2021-06-22 深圳前海微众银行股份有限公司 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法
CN114495896A (zh) * 2021-12-31 2022-05-13 深圳市优必选科技股份有限公司 一种语音播放方法及计算机设备
JP2022097353A (ja) * 2020-12-18 2022-06-30 ハイパーコネクト インコーポレイテッド 音声合成装置およびその方法
WO2022141678A1 (zh) * 2020-12-31 2022-07-07 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
US12118977B2 (en) 2019-08-09 2024-10-15 Hyperconnect LLC Terminal and operating method thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282484A (ja) * 1998-03-27 1999-10-15 Victor Co Of Japan Ltd 音声合成装置
US20150186359A1 (en) * 2013-12-30 2015-07-02 Google Inc. Multilingual prosody generation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282484A (ja) * 1998-03-27 1999-10-15 Victor Co Of Japan Ltd 音声合成装置
US20150186359A1 (en) * 2013-12-30 2015-07-02 Google Inc. Multilingual prosody generation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FAN, YUCHEN, ET AL.: "MULTI-SPEAKER MODELING AND SPEAKER ADAPTATION FOR DNN-BASED TTS SYNTHESIS", PROC. ICASSP 2015, JPN6018027290, 19 April 2015 (2015-04-19), pages 4475 - 4479, XP033187560, ISSN: 0004231232, DOI: 10.1109/ICASSP.2015.7178817 *
SAON, GEORGE, ET AL.: "Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors", PROC. ARSU 2013, JPN6019006435, December 2013 (2013-12-01), CZ, pages 55 - 59, XP032544445, ISSN: 0004231233, DOI: 10.1109/ASRU.2013.6707705 *
柏木陽佑、外3名: "制約付き話者コードの同時推定によるニューラルネット音響モデルの話者正規化学習", 日本音響学会 2014年 秋季研究発表会講演論文集, JPN6020009294, 5 September 2014 (2014-09-05), pages 7 - 10, ISSN: 0004231234 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12118977B2 (en) 2019-08-09 2024-10-15 Hyperconnect LLC Terminal and operating method thereof
CN111489734A (zh) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
CN111489734B (zh) * 2020-04-03 2023-08-22 支付宝(杭州)信息技术有限公司 基于多说话人的模型训练方法以及装置
JP2022097353A (ja) * 2020-12-18 2022-06-30 ハイパーコネクト インコーポレイテッド 音声合成装置およびその方法
JP7254114B2 (ja) 2020-12-18 2023-04-07 ハイパーコネクト リミテッド ライアビリティ カンパニー 音声合成装置およびその方法
WO2022141678A1 (zh) * 2020-12-31 2022-07-07 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN113012681A (zh) * 2021-02-18 2021-06-22 深圳前海微众银行股份有限公司 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法
CN113012681B (zh) * 2021-02-18 2024-05-17 深圳前海微众银行股份有限公司 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法
CN114495896A (zh) * 2021-12-31 2022-05-13 深圳市优必选科技股份有限公司 一种语音播放方法及计算机设备

Also Published As

Publication number Publication date
JP6680933B2 (ja) 2020-04-15

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US8046225B2 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
JP2019211748A (ja) 音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体
CN106688034A (zh) 具有情感内容的文字至语音转换
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP6452591B2 (ja) 合成音声品質評価装置、合成音声品質評価方法、プログラム
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
US11545135B2 (en) Acoustic model learning device, voice synthesis device, and program
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
KR20200138993A (ko) 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP4716125B2 (ja) 発音評定装置、およびプログラム
KR102626618B1 (ko) 감정 추정 기반의 감정 음성 합성 방법 및 시스템
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP2020129099A (ja) 推定装置、推定方法、及びプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2019032427A (ja) 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム
WO2024180662A1 (ja) 音声合成装置、音声合成方法、音声情報処理装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680933

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150