JP2020034883A

JP2020034883A - 音声合成装置及びプログラム

Info

Publication number: JP2020034883A
Application number: JP2018227704A
Authority: JP
Inventors: 清栗原; Kiyoshi Kurihara; 信正清山; Nobumasa Seiyama; 正熊野; Tadashi Kumano; 今井　篤; Atsushi Imai; 篤今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-08-27
Filing date: 2018-12-04
Publication date: 2020-03-05
Anticipated expiration: 2038-12-04
Also published as: JP7228998B2

Abstract

【課題】品質の良い音声を低コストにより合成する。【解決手段】音声合成装置１の音響特徴量推定部４２は、発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列、及び、韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号との一方又は両方を用いた文字列により記述したテキストデータを、テキストデータから音響特徴量を生成する音響特徴量生成モデルに入力し、音響特徴量を推定する。ボコーダ部４３は、推定された音響特徴量を用いて音声波形を推定する。音響特徴量生成モデルは、ＤＮＮを用いたエンコーダ及びデコーダを有する。エンコーダは、ＲＮＮにより、テキストデータが示す発話内容に文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成する。デコーダは、ＲＮＮにより、エンコーダが生成した特徴量と過去に生成した音響特徴量とに基づいて発話内容に対応する音響特徴量を生成する。【選択図】図１

Description

本発明は、音声合成装置及びプログラムに関する。

近年、統計モデルを用いた音声合成技術が進歩したことにより、テキストから音声を合成する技術が知られている。例えば、ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）を用いて話者の音声等の特徴を学習し、テキストから音声合成を行う技術が開発されている（例えば、非特許文献１、２、３参照）。また、英語で記述された文字列からメルスペクトログラムを推定し、このメルスペクトログラムから音声波形を生成する技術も開発されている（非特許文献４参照）。

従来の統計的音声合成装置は、音響特徴量を算出して音声合成を行うために、音素ラベルファイルを用いた統計モデルにより音声を生成する。この音素ラベルファイルは、音素や音素の時間長、品詞等のラベルが含まれ、音声の音響特徴量からラベルを付与する。

Kiyoshi Kurihara et al，"Automatic generation of audio descriptions for sports programs"，International Broadcasting Convention [IBC 2017]，2017年栗原清，清山信正，今井篤，都木徹，"話者の特徴と感情表現を制御可能なDNN音声合成方式の検討"，電子情報通信学会総合大会，2017年，D-14-10，p.150 北条，井島，宮崎，"話者コードを用いたＤＮＮ音声合成の検討"，日本音響学会講演論文集，2015年9月，p.215-218 Shen et al.，[online]，2018年2月，"Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"，arXiv:1712.05884，[2018年7月11日検索]，インターネット<URL: https://arxiv.org/pdf/1712.05884.pdf>

上記のように統計的音声合成装置では音素ラベルファイルが用いられるが、音声には音響的な解析を行う上で曖昧な音が存在するため、この音声を構成する音素に応じた音響特徴量を正しく認識することが難しい場合があり、上述したラベルを正しく付与されないことがあった。また、音素の境界を正しく判別する事が難しい場合、正しい音素ラベルファイルを生成するには、人手による修正を要し、このため人的なコストや時間的コストの問題も存在していた。さらに、日本語の場合、漢字と平仮名とカタカナとの多様な組み合わせによる仮名漢字混じりの文を網羅するために、大量の学習データを要するとともに、同じ文字列でも読み仮名が複数存在するため、学習が正しく行えないという問題もあった。このため、非特許文献４に開示された技術をそのまま仮名漢字混じりの日本語の文に適用することは難しい。

本発明は、このような事情を考慮してなされたもので、品質の良い音声を低コストで合成できる音声合成装置及びプログラムを提供する。

本発明の一態様は、発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列と韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号とを用いた文字列、前記読み方を表す文字又は文字列と前記韻律記号と用いた文字列、あるいは、前記読み方を表す文字又は文字列と前記発話スタイル記号とを用いた文字列により記述したテキストデータを、当該テキストデータから音響特徴量を生成する音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部が推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、を備え、前記音響特徴量生成モデルは、ディープニューラルネットワークを用いたエンコーダ及びデコーダを有し、前記エンコーダは、再帰型ニューラルネットワークにより、前記テキストデータが示す前記発話内容に前記文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成し、前記デコーダは、再帰型ニューラルネットワークにより、前記エンコーダが生成した前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、ことを特徴とする音声合成装置である。

本発明の一態様は、上述する音声合成装置であって、前記発話内容が日本語の場合、前記読み方を表す前記文字は、カタカナ、ひらがな、アルファベット又は発音記号である、ことを特徴とする。

本発明の一態様は、上述する音声合成装置であって、前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズ調を指定する記号とのうちのいずれかを含む、ことを特徴とする。

本発明の一態様は、上述する音声合成装置であって、発話に与える前記特徴は、感情、発話スタイル、又は、話者である、ことを特徴とする。

本発明の一態様は、上述する音声合成装置であって、前記特徴を与える対象の発話は、前記発話スタイル記号が所定位置に付加された１以上の文の発話全体、前記発話スタイル記号に囲まれた１以上の文の発話全体、又は、前記発話スタイル記号により囲まれた１以上の文節の発話である、ことを特徴とする。

本発明の一態様は、コンピュータを、上述したいずれかの音声合成装置として機能させるためのプログラムである。

本発明によれば、品質の良い音声を低コストにより合成することができる。

本発明の第１の実施形態による音声合成装置及び従来技術による音声合成装置の概要を示す図である。同実施形態による音声合成装置の構成例を示す機能ブロック図である。同実施形態による中間言語に用いられる韻律記号を示す図である。同実施形態による音声合成装置の学習処理を示すフロー図である。同実施形態による音声合成装置の音声合成処理を示すフロー図である。同実施形態による音響特徴量生成モデル及び学習アルゴリズムを示す図である。同実施形態によるエンコーダの例を示す図である。同実施形態によるデコーダの例を示す図である。同実施形態による音響特徴量生成モデルを用いた音声合成アルゴリズムを示す図である。同実施形態による評価実験の結果を示す図である。第２の実施形態による音声合成装置の構成例を示す機能ブロック図である。同実施形態による音声合成装置の音声合成処理の概要を示す図である。同実施形態による音響特徴量生成モデル及び学習アルゴリズムを示す図である。同実施形態による音響特徴量生成モデルを用いた音声合成アルゴリズムを示す図である。同実施形態によるエンコーダの例を示す図である。同実施形態による評価実験の結果を示す図である。同実施形態による評価実験の結果を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

[第１の実施形態]
図１は、本実施形態による音声合成装置１及び従来技術による音声合成装置９の概要を示す図である。従来技術による音声合成装置９では、第一言語処理部９１が日本語の仮名漢字混じりの文の仮名（例えば、カタカナ）表記及び韻律記号を推定し、第二言語処理部９２がその推定結果に音素ラベルや音素の長さ等のラベルを付与し、音素ラベルファイルを生成する。音響特徴量推定部９３は、人手により修正が行われた音素ラベルファイルを用いて例えばＤＮＮ（Deep Neural Network；ディープニューラルネットワーク）により周波数波形を音響特徴量として推定し、ボコーダ部９４は、推定された周波数波形から音声波形を推定する。

一方、本実施形態の音声合成装置１は、言語処理部４１と、音響特徴量推定部４２と、ボコーダ部４３とを備える。言語処理部４１は、日本語の仮名漢字混じりの文を、仮名と韻律記号を用いた中間言語に変換する。本実施形態では、仮名としてカタカナを用いるが、ひらがなやアルファベットや発音記号を用いてもよい。また、仮名に代えて、音素を表す記号を用いることも可能である。中間言語に用いられる韻律記号は、韻律を表す文字である。音響特徴量推定部４２は、中間言語が記述されたテキストデータを入力データに用いて、ＤＮＮにより音響特徴量を推定する。音響特徴量には、例えば、メルスペクトログラムが用いられる。ボコーダ部４３は、WaveNetなどのＤＮＮ等を用いて、音響特徴量から音声波形を推定する。WaveNetは、例えば、参考文献１「A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior and K. Kavukcuoglu,“WaveNet: A Generative Model for Raw Audio,” arXiv:1609.03499, 2016」に記載されている。

このように本実施形態の音声合成装置１は、音素や音素の位置等を詳しく規定したフルコンテキストラベルが不要であり、カタカナと韻律記号を表す文字により記述した中間言語のテキストデータから、ＤＮＮを用いて直接音響特徴量を生成する。よって、音響特徴量を生成するＤＮＮの学習に用いるデータの作成が容易であり、例えば、既存の音声データを学習データとして活用しやすくなる。これにより、人的コスト及び時間的コストを低減しながら、大量のデータを用いて学習を行い、音声合成の精度を向上させることができる。

図２は、本実施形態による音声合成装置１の構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出したものである。音声合成装置１は、記憶部２０と、学習部３０と、音声合成部４０とを備えて構成される。

記憶部２０は、音響特徴量生成モデル２０−１及び音声波形生成モデル２０−２を記憶する。音響特徴量生成モデル２０−１は、テキストデータを入力し、音響特徴量を表すデータを出力するＤＮＮである。音声波形生成モデル２０−２は、音響特徴量のデータを入力し、音声波形を出力するＤＮＮである。

学習部３０は、学習データを用いて、記憶部２０に記憶されている音響特徴量生成モデル２０−１を更新する。学習データは、発話の音声波形を表す学習用音声データと、その発話の内容を仮名漢字混じりで記述した学習用テキストデータとの組である。学習部３０は、正解音響特徴量算出部３１と、モデル更新部３２とを備える。

正解音響特徴量算出部３１は、学習データに含まれる学習用音声データの音声波形から音響特徴量を算出する。モデル更新部３２は、正解音響特徴量算出部３１が学習用音声データから算出した音響特徴量と、音声合成部４０が学習データに含まれる学習用テキストデータに基づいて推定した音響特徴量との差分に基づいて、記憶部２０に記憶されている音響特徴量生成モデル２０−１を更新する。

音声合成部４０は、カタカナ及び韻律記号により記述された中間言語のテキストデータを入力して音響特徴量生成モデル２０−１を実行し、発話内容の音声の音響特徴量を表すデータを得る。音声合成部４０は、言語処理部４１と、音響特徴量推定部４２と、ボコーダ部４３とを備える。

言語処理部４１は、仮名漢字混じり文のテキストデータを、カタカナ及び韻律記号を用いた中間言語に変換する。この変換は、形態素解析などの既存技術により行うことができる。言語処理部４１は、中間言語を表すテキストデータを音響特徴量推定部４２に出力する。音響特徴量推定部４２は、記憶部２０に記憶されている音響特徴量生成モデル２０−１に、言語処理部４１から入力した中間言語のテキストデータを入力することにより、中間言語により記述された発話内容の音響特徴量を推定する。ボコーダ部４３は、音響特徴量推定部４２が推定した音響特徴量を入力とし、記憶部２０に記憶されている音声波形生成モデル２０−２を用いて音声波形を生成する。

音響特徴量生成モデル２０−１の学習時、言語処理部４１及び音響特徴量推定部４２は、学習部３０として動作する。言語処理部４１は、学習データに含まれる学習用テキストデータを中間言語に変換し、音響特徴量推定部４２は、この変換された中間言語を表すテキストデータを音響特徴量生成モデル２０−１に入力して音響特徴量を推定し、推定結果をモデル更新部３２に出力する。

なお、音声合成装置１は、１台以上のコンピュータ装置により実現することができる。音声合成装置１が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、記憶部２０及び学習部３０を１台又は複数台のサーバコンピュータにより実現し、音声合成部４０をクライアント端末で実現してもよい。また、同一の機能部を複数台のコンピュータ装置により実現してもよい。

図３は、本実施形態の中間言語に用いられる韻律記号を示す図である。図３に示す韻律記号は、参考文献２「音声入出力方式標準化専門委員会，JEITA規格 IT-4006 日本語テキスト音声合成用記号，社団法人電子情報技術産業協会，2010年，p.4-10」に記載の韻律記号を改変した情報である。韻律情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズ調の指定などの種類がある。アクセント位置の指定には、アクセント上昇位置を表す韻律記号「’」が用いられ、韻律記号の直前のモーラにアクセント核があることを表す。アクセント位置の指定には、さらに、アクセント下降位置を表す韻律記号「＿」を用いてもよい。句・フレーズの区切り指定には、アクセント句の区切りを表す韻律記号「／」、及び、フレーズの区切りを表す韻律記号「＃」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「＝」、及び、疑問の文末を表す韻律記号「？」が用いられる。ポーズ調の指定には、ポーズを表す韻律記号「＄％」が用いられる。なお、句・フレーズの区切り指定については、使用しなくてもよい。

これらの韻律記号には、便宜的に上記の記号を割り振っているが、アクセント上昇位置を表す韻律記号、アクセント下降位置を表す韻律記号、句・フレーズの区切りを表す韻律記号、フレーズの区切りを表す韻律記号、文末を表す韻律記号、疑問の文末を表す韻律記号、ポーズを表す韻律記号のそれぞれを、他の記号に置き換えて学習する事で、上記と同等の機能を持たせる事が可能である。

図４は、音声合成装置１の学習処理を示すフロー図である。
まず、ステップＳ１１０において、音声合成装置１は、学習データを入力する。ステップＳ１２０において、正解音響特徴量算出部３１は、学習データに含まれる未選択の学習用音声データを一つ選択し、選択した学習用音声データが示す音声波形から音響特徴量を算出する。ステップＳ１３０において、言語処理部４１は、選択された学習用音声データの発話内容が記述された学習用テキストデータを学習データから取得して形態素解析等を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。ステップＳ１４０において、音響特徴量推定部４２は、記憶部２０から読み出した音響特徴量生成モデル２０−１に、ステップＳ１３０において言語処理部４１が生成した中間言語を表すテキストデータである中間言語データを入力して音響特徴量を推定する。

ステップＳ１５０において、モデル更新部３２は、ステップＳ１２０において正解音響特徴量算出部３１が算出した音響特徴量と、ステップＳ１４０において音響特徴量推定部４２が推定した音響特徴量との差分に基づいて、記憶部２０に記憶されている音響特徴量生成モデル２０−１を更新する。具体的には、モデル更新部３２は、この誤差をＭＳＥ（最小二乗法）により算出し、算出した差分が小さくなるように、確率的勾配降下法のＡＤＡＭを用いて、音響特徴量生成モデル２０−１における各ユニット（ノード）への入力の重み等を更新する。ＭＳＥは、例えば、参考文献３「GitHub, Inc，[online]， " Spectrogram Feature prediction network"，[2018年8月24日検索]，インターネット<URL:https://github.com/Rayhane-mamah/Tacotron-2/wiki/Spectrogram-Feature-prediction-network#training>」に記載されている。また、ＡＤＡＭは、例えば、参考文献４「Diederik P. Kingma，Jimmy Ba，[online]，2017年，" ADAM: A Method for Stochastic Optimization "，arXiv:1412.6980v9，[2018年8月24日検索]，インターネット<URL: https://arxiv.org/pdf/1412.6980.pdf >」に記載されている。

ステップＳ１６０において、学習部３０は、モデル更新が終了したか否かを判断する。例えば、正解音響特徴量算出部３１が算出した音響特徴量と、音響特徴量推定部４２が推定した音響特徴量との平均二乗誤差が所定以下となった場合にモデル更新が終了したと判断する。学習部３０は、モデル更新が終了していないと判断した場合（ステップＳ１６０：ＮＯ）、ステップＳ１２０からの処理を繰り返す。そして、学習部３０は、モデル更新が終了したと判断した場合（ステップＳ１６０：ＹＥＳ）、学習処理を終了する。

図５は、音声合成装置１の音声合成処理を示すフロー図である。
まず、ステップＳ２１０において、音声合成部４０は、発話内容を表す仮名漢字混じりの文章のテキストデータを入力する。発話内容を表す文章は、１文でもよく複数文でもよい。ステップＳ２２０において、言語処理部４１は、入力されたテキストデータに形態素解析を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。

ステップＳ２３０において、音響特徴量推定部４２は、記憶部２０から読み出した音響特徴量生成モデル２０−１に、ステップＳ２２０において生成された中間言語を表すテキストデータである中間言語データを入力して音響特徴量を推定する。ステップＳ２４０において、ボコーダ部４３は、記憶部２０から読み出した音声波形生成モデル２０−２に、ステップＳ２３０において生成された音響特徴量を入力し、音声波形を推定する。ボコーダ部４３は、推定した音声波形を音声データにより、あるいは、スピーカーなどの音声出力部（図示せず）により出力する。

図６は、音声合成装置１が用いる音響特徴量生成モデル及び学習アルゴリズムを示す図である。まず、音響特徴量生成モデル６０について説明する。図６に示す音響特徴量生成モデル６０は、音響特徴量生成モデル２０−１の一例であり、非特許文献４に示す技術を適用したＤＮＮである。音響特徴量生成モデル６０は、エンコーダ６１及びデコーダ６５を有する。図７は、エンコーダ６１の例を示す図であり、図８は、デコーダ６５の例を示す図である。なお、デコーダ６５が有するアテンションネットワーク６５１ついては、図７に記載されている。図６〜図８を用いて、エンコーダ６１及びデコーダ６５について説明する。

エンコーダ６１は、ＣＮＮ（Convolutional Neural Network；畳み込みニューラルネットワーク）及びＲＮＮ（Recurrent Neural Network；再帰型ニューラルネットワーク）により、入力された中間言語のテキストデータが示す文章内の発話内容に、そのテキストデータが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成することができる。デコーダ６５は、ＲＮＮにより、エンコーダ６１が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力されたテキストデータが示す発話内容に対応する音声の予測の音響特徴量を１フレームずつ生成する。

エンコーダ６１は、文字列変換処理６１１と、畳み込みネットワーク６１２と、双方向ＬＳＴＭネットワーク６１３とにより構成される。文字列変換処理６１１では、中間言語の記述に用いられている各文字を数値に変換し、中間言語をベクトル表現に変換する。

畳み込みネットワーク６１２は、複数層（例えば、３層）の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、中間言語のベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びＲｅＬＵ（Rectified Linear Units）活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、３層の畳み込みレイヤのフィルタサイズは［５，０，０］、フィルタの数は５１２である。デコーダ６５に入力する文字列の特徴量を生成するために、畳み込みネットワーク６１２の出力が双方向ＬＳＴＭネットワーク６１３に入力される。双方向ＬＳＴＭネットワーク６１３は、５１２ユニット（各方向に２５６ユニット）の単一の双方向ＬＳＴＭである。双方向ＬＳＴＭネットワーク６１３により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。ＬＳＴＭは、ＲＮＮ（Recurrent Neural Network）の一つである。

デコーダ６５は、自己回帰ＲＮＮである。デコーダ６５は、アテンションネットワーク６５１と、前処理ネットワーク６５２と、ＬＳＴＭネットワーク６５３と、第一線形変換処理６５４と、後処理ネットワーク６５５と、加算処理６５６と、第二線形変換処理６５７とにより構成される。

アテンションネットワーク６５１は、自己回帰ＲＮＮにアテンション機能を追加したネットワークであり、エンコーダ６１からの出力全体を１フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク６５１は、双方向ＬＳＴＭネットワーク６１３からの出力（エンコーダ出力）を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク６５１は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル（アテンションネットワーク出力）を生成する。

前処理ネットワーク６５２は、前回の時間ステップにおいて第一線形変換処理６５４が出力したデータを入力する。前処理ネットワーク６５２は、それぞれ２５６個の隠れＲｅＬＵユニットからなる完全結合された複数（例えば２つ）のレイヤを含んだニューラルネットワークである。ＲｅＬＵユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。ＬＳＴＭネットワーク６５３は、１０２４ユニットを有する複数（例えば、２層）の一方向ＬＳＴＭが結合されたニューラルネットワークであり、前処理ネットワーク６５２からの出力と、アテンションネットワーク６５１からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク６５１から出力された現在のフレームの特徴量に、前処理ネットワーク６５２からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。（詳細は非特許文献４を参照されたい。）

第一線形変換処理６５４は、ＬＳＴＭネットワーク６５３から出力されたデータを線形変換し、１フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理６５４は、生成したコンテキストベクトルを、前処理ネットワーク６５２、後処理ネットワーク６５５及び加算処理６５６に出力する。

後処理ネットワーク６５５は、複数層（例えば、５層）の畳み込みネットワークを結合したニューラルネットワークである。例えば、５層の畳み込みネットワークは、フィルタサイズが［５，０，０］、フィルタの数は１０２４である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク６５５からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理６５６では、第一線形変換処理６５４が生成したコンテキストベクトルと、後処理ネットワーク６５５からの出力とを加算する。

上記のスペクトログラムフレーム予測と並行して、第二線形変換処理６５７では、ＬＳＴＭネットワーク６５３の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン（Stop Token）を出力する。

続いて、学習アルゴリズムについて説明する。図４に示す学習処理のステップＳ１２０において、正解音響特徴量算出部３１は、学習用音声データＡ１が示す音声波形にＦＦＴ（Fast Fourier Transform：高速フーリエ変換）を行った結果にＡＢＳ（絶対値算出処理）を行い、さらに、メルフィルタバンク処理を行ってＭＦＣＣ（Mel-Frequency Cepstrum Coefficients：メル周波数ケプストラム係数）を取得する。正解音響特徴量算出部３１は、ＭＦＣＣからメルスペクトログラムＡ２を音響特徴量として算出する。

一方で、ステップＳ１４０において、音響特徴量推定部４２は、学習用テキストデータから生成された中間言語データである学習用中間言語データＢ１を音響特徴量生成モデル６０に入力し、メルスペクトログラムＢ２を推定結果として得る。ステップＳ１５０において、モデル更新部３２は、正解音響特徴量算出部３１が算出したメルスペクトログラムＡ２と、音響特徴量生成モデル６０により推定したメルスペクトログラムＢ２との差分を誤差として算出する。モデル更新部３２は、算出した誤差に基づいて、音響特徴量生成モデル６０を更新する。

学習部３０は、複数の学習データを用いて、学習用音声データから算出したメルスペクトログラムと、学習用中間言語データから音響特徴量生成モデル６０により推定したメルスペクトログラムとの差分が小さくなるように、音響特徴量生成モデル６０を更新する。

図９は、音響特徴量生成モデル６０を用いた音声合成アルゴリズムを示す図である。図５のステップＳ２３０において、音響特徴量推定部４２は、仮名漢字混じりのテキストデータを基に生成された中間言語データＣ１を学習済みの音響特徴量生成モデル６０に入力し、フレーム毎の音響特徴量であるメルスペクトログラムＣ２を生成し、ボコーダ部４３に出力する。ステップＳ２４０において、ボコーダ部４３は、記憶部２０に記憶されている音声波形生成モデル２０−２にフレーム毎のメルスペクトログラムＣ２を入力し、時間領域波形に逆変換して音声波形Ｃ３を生成する。音声波形生成モデル２０−２には、例えば、多層の畳み込みネットワークを利用したWaveNetを用いる。なお、この処理には、上記以外の種類のボコーダ部を用いて実現してもよい。

続いて、本実施形態の音声合成装置１によるメルスペクトログラムの推定精度に関する評価実験の結果について示す。評価実験には、女性ナレーター１名が発声した１２，５１８文（１８時間）の音声コーパスを使用した。音声データはサンプリング周波数２２０５０［Hz］、１６［ビット］量子化のＰＣＭ（pulse code modulation）である。音声コーパスのうち１２，４５２文を音響特徴量生成モデルの学習に用い、残りのデータのうち無作為に抽出した１０文を評価実験に用いた。学習回数は５３５，０００回である。

被験者への音声刺激には、４種類×１０文を用いた。この４種類は、仮名及び韻律記号により記述された中間言語データを入力に用いて音声合成装置１が生成した合成音声（本実施形態）、従来技術により原音声を分析合成した音声（分析合成）、仮名のみを入力データとして音声合成装置１が生成した合成音声（仮名のみ）、及び、原音声である。

被験者は音声研究専門家６人である。各被験者は、ヘッドホンにより各自が聞き取りやすい音量で音声刺激を聴取し、評定を行った。被験者はランダムに提示された音声刺激に対して総合的な音質に関する５段階評価を行った。被験者全員の評価結果から平均オピニオン評点（ＭＯＳ）を求めた。

図１０は、評価実験の結果を示す図である。図１０では、ＭＯＳ値と９５%信頼区間とを示している。本実施形態の音声合成装置１により合成された音声は、原音声より劣るものの、分析合成と同程度の品質であり、仮名のみを入力データに用いるよりも高く評価された。これは、韻律記号が有効に機能したものと考えられる。

本実施形態の音声合成装置１によれば、仮名と韻律記号とを用いて記述された中間言語のテキストデータから直接音響特徴量を生成し、また、その生成に用いられるモデルを学習できる。本実施形態では、日本語の音声表現の多様性と正確性を担保しつつ、入力に用いる文字列の種類を限定する事で、End-to-End音声合成に適した入力表現を得られる。日本語の漢字は、読み方が複数あることから、その文字列が必ずしも音声と一致しないが、本実施形態の音声合成装置１は、中間言語に仮名を用いることにより、日本語の正確性を担保しつつ自然な音声を合成でき、アクセントの位置やポーズ位置についても制御する事ができる。

上述した実施形態では、発話内容を表す文章を当該発話内容の仮名と韻律を表す韻律記号とを用いた文字列により記述した中間言語データを言語処理部４１において生成しているが、このような中間言語データを人手で生成してもよい。この場合、音声合成装置１は、言語処理部４１を備えなくてもよい。

なお、本実施形態における日本語音声合成に用いる中間言語の表記方法は、非特許文献４に記載されたエンコーダ・デコーダモデルの音声合成手法に限定せず、他のエンコーダ・デコーダモデルにも適用可能である。例えば、参考文献５「Wei Ping et al.，[online]，2018年2月，"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning", arXiv:1710.07654，インターネット<URL: https://arxiv.org/pdf/1710.07654.pdf>」に記載のエンコーダ・デコーダモデルに適用可能である。

本実施形態の音声合成装置１では、音素や音素の位置等を詳しく規定したフルコンテキストラベルが不要であるため、学習データの作成が容易である。よって、既存の音声データを学習データとして活用しやすくなる。従来法で高品質な合成音を得るには、学習データに人手で音素区切り境界を付与するなど煩雑な作業を行う必要があったが、本実施形態では音素区切り境界の情報は必要なく、自動で読み仮名と韻律記号に対する境界が決定される。そのため、従来のようなＨＴＳ準拠フルコンテキストラベルを使用する場合と比較し、１音素あたりのコストは１／３程度に削減される。さらには、作業時間も大幅に短縮できるため、大量の学習データを作成して音響特徴量生成モデルの精度を向上させることができる。

また、既存の表記法を活用することにより、既存のフロントエンドとの接続が容易であり、既存のシステムの利用が容易となる。また、音声合成装置１は、音素境界を事前にデータとして持っていなくても、ＨＭＭ（Hidden Markov Model、隠れマルコフモデル）等による強制アライメントを実施する事なく、中間言語のみからアライメントを実施したかのように音素を学習することができる。

［第２の実施形態］
番組制作の意図に沿った放送品質の音声合成を実現するためには、番組の演出要件に応じて発話スタイルを制御することが重要である。例えば、ニュース、スポーツ実況、ドキュメンタリーなど、番組によってそれぞれ異なる発話スタイルが求められる。本実施形態では、発話全体に与える特徴を文字列で表されるタグなどの発話スタイル記号により制御可能とする。発話全体に与える特徴は、例えば、発話スタイル（実況調、ニュース調）や、感情（悲しい、うれしいなど）、話者である。以下では、第１の実施形態との差分を中心に説明する。

図１１は、本実施形態による音声合成装置１ａの構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出したものである。図１１において、図２に示す第１の実施形態による音声合成装置１と同一の部分には同一の符号を付し、その説明を省略する。音声合成装置１ａは、記憶部２０と、学習部３０と、音声合成部４０ａとを備えて構成される。

音声合成部４０ａが、第１の実施形態の音声合成部４０と異なる点は、言語処理部４１に代えて言語処理部４１ａを備える点である。言語処理部４１ａは、言語処理部４１と同様に仮名漢字混じり文のテキストデータを、カタカナ及び韻律記号を用いた中間言語に変換する。さらに、言語処理部４１ａは、カタカナ及び韻律記号を用いた中間言語に対して、発話全体に与える特徴を表す記号を付加する。以下では、発話全体に与える特徴を表す記号を「発話スタイル記号」と記載する。発話スタイル記号には、仮名（読み方を表す文字）とは異なり、かつ、韻律記号を表す文字又は文字列とも異なる文字又は文字列を使用する。

なお、音声合成装置１ａは、１台以上のコンピュータ装置により実現することができる。音声合成装置１ａが複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、音声合成部４０ａをクライアント端末で実現し、記憶部２０及び学習部３０を１台又は複数台のサーバコンピュータにより実現してもよい。あるいは、言語処理部４１ａをクライアント端末で実現し、他の機能部をサーバコンピュータで実現してもよい。また、同一の機能部を複数台のコンピュータ装置により実現してもよい。また、音声合成装置１ａは、図示しない表示部及び入力部を備えてもよい。

図１２は、音声合成装置１ａによる音声合成処理の流れを示す図である。以下、図１１を併用して説明を続ける。テキストＤ１は、発話内容を表す仮名漢字混じりの文章のテキストデータであり、音声合成部４０ａに入力される。言語処理部４１ａは、テキストＤ１を形態素解析するなどしてテキストＤ２を得る。テキストＤ２は、第１の実施形態において用いられる中間言語であり、読み仮名と韻律記号とを用いた文字列である。テキストＤ２に、人手で修正を加えてもよい。続いて言語処理部４１ａは、テキストＤ２に発話スタイル記号を付加し、本実施形態における中間言語となるテキストＤ３を得る。図１２では、発話タグ「＜ｔａｇ＞」を発話スタイル記号として用いている。

発話スタイル記号「＜ｔａｇ＞」における「ｔａｇ」の部分には、発話全体に与える特徴の種類を表す文字列を使用可能である。発話スタイル記号を表す文字列の文字数を変えてもよい。例えば、発話全体に与える特徴が悲しい感情のときには「＜ｓａｄ＞」を使用し、ニュース調のときには「＜ｎｅｗｓ＞」を使用し、話者Ａのときには「＜ｓｐｋｅｒＡ＞」を使用する。また、図１２では、発話全体に与える特徴を付与したい文を、発話スタイル記号により囲っているが、文の先頭のみに発話スタイル記号を付与してもよい。発話スタイル記号により囲む文は一文でもよく、複数文でもよい。また、文中の文節に特徴を与える場合は、特徴を与えるその文節を発話スタイル記号により囲む。このように、特徴を与える対象の発話は、発話スタイル記号が所定位置に付加された１以上の文の発話全体、発話スタイル記号に囲まれた１以上の文の発話全体、又は、発話スタイル記号により囲まれた１以上の文節の部分の発話全体とすることができる。

ここでは、発話スタイル記号として、ＸＭＬ（extensible markup language）のように人間の可読性を重視した発話タグ「＜ｔａｇ＞」を用いているが、「＊」、「−」、「＃」などの記号やそれらの組み合わせを用いてもよい。これらの記号は、半角でも全角でもよい。

言語処理部４１ａは、例えば、スポーツ実況の文章など、所定の目的で使用される文章を自動生成する文章生成システムからテキストＤ１を入力してもよい。この場合、文章生成システムは、自動生成された文書を記述したテキストＤ１と、その文章の目的に応じた、発話全体に与える特徴を示す情報とを、言語処理部４１ａに入力する。

また、発話に与える特徴をユーザが入力してもよい。この場合、表示部（図示せず）は、テキストＤ１又はテキストＤ２と、発話全体に与える特徴に対応したアイコンの一覧（各感情に対応したアイコン、各発話スタイルに対応したアイコン、各話者に対応したアイコンなど）を表示する。ユーザは、ポインティングデバイスにより、付加したい特徴を表すアイコンを選択する。言語処理部４１ａは、選択されたアイコンに対応した発話スタイル記号を、テキストＤ２に含まれる文章の前後に付加し、テキストＤ３を生成する。なお、ユーザは、表示されているテキストＤ１又はテキストＤ２の一部の文又は文節を入力部（図示せず）により選択するようにしてもよい。言語処理部４１ａは、選択された文又は文節に対応した、テキストＤ２の部分の前後に発話スタイル記号を付加する。言語処理部４１ａは、生成したテキストＤ３を音響特徴量推定部４２に出力する。

あるいは、ユーザは、発話スタイル記号を手動で入力してもよい。具体的には、ユーザは、表示部（図示せず）に表示されているテキストＤ２に対し、マウス等のポインティングデバイスにより発話スタイル記号の入力位置を指定する。さらに、ユーザは、キーボードなどにより、発話全体に与える特徴に応じた発話スタイル記号を入力する。

音響特徴量推定部４２及びボコーダ部４３は、第１の実施形態と同様の処理を行う。すなわち、音響特徴量推定部４２は、非特許文献４、参考文献５に記載の技術等を用い、ＲＮＮのＳｅｑ２Ｓｅｑ（エンコーダ・デコーダモデル）とエンコーダの出力に対して重み付けを行うための重み（アテンション）を生成するアテンションネットワークとにより音響特徴量を推定する。エンコーダは、中間言語で記述された文字列であるテキストＤ３をベクトル化してエンコードを行う。デコーダは、エンコーダの出力に重み付けを行い、自己回帰ＲＮＮによりメルスペクトログラムの音響特徴量を生成する。ボコーダ部４３は、参考文献１に記載の技術等を用いて、音響特徴量から音声波形を推定する。

韻律記号を用いることにより、韻律（アクセントの高低）、文末の上がり下がり、ポーズなど局所的な音響的特徴が制御可能である。一方、発話スタイル記号を用いることにより、音声合成における、発話全体や一部の口調や調子、感情、話者をコントロール可能である。発話スタイル記号を用いた中間言語により、実況調やニュース調などの番組演出に対応した音声を、少量の学習データによりモデル学習できる。また、音声合成装置１ａは、複数の特徴を単一の音響特徴量生成モデル２０−１により学習させてもよい。この場合、音声合成装置１ａは、学習させた音響特徴量生成モデル２０−１を用いて、学習に用いた特徴を有する音声を合成することができる。

音声合成装置１ａの学習処理は、図４のフロー図が示す第１の実施形態とステップＳ１３０の処理を除いて同様である。ステップＳ１３０において、音声合成装置１ａの言語処理部４１ａは、第１の実施形態の言語処理部４１と同様に学習用テキストデータを読み仮名と韻律記号とを用いた文字列に変換する。言語処理部４１ａは、変換後の文字列に、学習用音声データの発話に与える特徴を表す発話スタイル記号を付加して中間言語を生成する。

図１３は、音声合成装置１ａの学習アルゴリズムを示す図である。音声合成装置１ａは、第１の実施形態の音響特徴量生成モデル６０の構成を変化させることなく、発話スタイル記号を学習用中間言語データに設定するのみでスタイル制御を可能とする。例えば、悲しい音声ばかりの音声コーパスを音響特徴量生成モデル６０の学習に用いる。この音声コーパスに含まれる各音声のデータを、学習用音声データＡ４とする。音声合成装置１ａの言語処理部４１ａは、学習用音声データＡ４の発話内容を形態素解析し、形態素解析の結果を、悲しい感情を表す発話タグ「＜ｓａｄ＞」で囲って学習用中間言語データＢ４を生成する。音声合成装置１ａは、音声コーパスから得られた学習用音声データＡ４と、この学習用音声データＡ４の発話内容から生成された学習用中間言語データＢ４との対を学習データに用いて、音響特徴量生成モデル６０の学習を行う。また、音声合成装置１ａは、例えば話者Ａの音声を、発話タグ「＜ｓｐｋｅｒＡ＞」を用いて学習し、話者Ｂの音声を、発話タグ「＜ｓｐｋｅｒＢ＞」を用いて学習する。音声合成装置１ａの学習アルゴリズムは、学習用音声データＡ１と学習用中間言語データＢ１の対に代えて、学習用音声データＡ４と学習用中間言語データＢ４の対を用いること以外は、図６に示す第１の実施形態による音声合成装置１の学習アルゴリズムと同様である。

音声合成装置１ａの音声合成処理は、図５のフロー図が示す第１の実施形態とステップＳ２２０の処理を除いて同様である。ステップＳ２２０において、言語処理部４１ａは、発話内容を表す仮名漢字混じりの文章のテキストデータを、第１の実施形態の言語処理部４１と同様に読み仮名と韻律記号とを用いた文字列に変換する。言語処理部４１ａは、変換された文字列に、所望の発話スタイルを表す発話スタイル記号を付加した中間言語を生成する。

図１４は、音声合成装置１ａの音響特徴量生成モデル６０を用いた音声合成アルゴリズムを示す図である。図１４に示す音声合成アルゴリズムが、図９に示す第１の実施形態の音声合成アルゴリズムと異なる点は、中間言語データＣ１に代えて、中間言語データＣ４が入力される点である。中間言語データＣ４は、発話タグ（発話スタイル記号）、韻律記号及びカタカナを用いて記述される。中間言語データＣ４が入力される点以外については、図１４に示す音声合成アルゴリズムは、図９に示す第１の実施形態の音声合成アルゴリズムと同様である。音響特徴量生成モデル６０は、図１３に示す学習アルゴリズムにより学習されたモデルである。

図１５は、本実施形態のエンコーダ６１の例を示す図である。エンコーダ６１へ入力される中間言語データは、学習処理の場合は図１３において入力される学習用中間言語データＢ４に対応し、音声合成処理の場合は図１４において入力される中間言語データＣ４に対応する。文字列変換処理６１１では、中間言語の記述に用いられている各文字や記号を数値に変換し、中間言語をベクトル表現に変換する。例えば、文字列変換処理６１１では、発話タグ「＜ｔａｇ＞」の部分を、「＜」、「ｔ」、「ａ」、「ｇ」、「＞」それぞれを表す値に変換する。文字列変換処理６１１以降は、図７に示す第１の実施形態のエンコーダ６１と同様である。また、本実施形態のデコーダ６５は、図８に示す第１の実施形態と同様である。

上述したように、エンコーダ６１の構造には、第１の実施形態からの変更はない。しかしながら、文字列変換処理６１１によりベクトル表現に変換された中間言語の発話スタイル記号（発話タグ）は、畳み込みネットワーク６１２において近くに位置する文字列と畳み込まれる。さらに、双方向ＬＳＴＭネットワーク６１３において、発話スタイル記号は、発話全体に影響を及ぼす。このため、アテンションネットワーク６５１において、エンコーダ６１からの出力を受ける層は、発話スタイル制御を受け付けることになる。アテンションネットワーク６５１の構造も、第１の実施形態からの変化はない。そして、デコーダ６５が、ＲＮＮにより音響特徴量を推定するときには、中間言語データに記述された発話スタイル記号に応じた特色がある音声コーパスと同じ特徴を持った音声、具体的には「＜ｓａｄ＞」の音声コーパスのように悲しい感情の音声の特徴を持った音声や、「＜ｓｐｋｅｒＡ＞」の音声コーパスのように話者Ａの音声の特徴を持った音声を再現可能となる。

上記のように、エンコーダ６１は、双方向ＬＳＴＭネットワーク６１３を用いているため、本実施形態では、発話スタイル記号を、韻律記号及びカタカナで記述された文章の前後に配置している。

上述した実施形態では、中間言語データを言語処理部４１ａにおいて生成しているが、中間言語データを人手により生成するか、中間言語データを音声合成装置１ａの外部の装置により生成して音声合成装置１ａに入力してもよい。この場合、音声合成装置１ａは、言語処理部４１ａを備えなくてもよい。

続いて、本実施形態の音声合成装置１ａによる評価実験の結果について示す。評価実験には、女性ナレーター１名が発声した１２，５１８文（１８時間）の音声コーパスを使用した。この音声コーパスに含まれる音声データの分類は、スポーツ実況（以下、「実況」と記載）が２，５９６文（３時間４０分）、悲哀が６３３文（５０分）、通常読み上げ（以下、「平静」と記載）が９，２２２文（１３時間）である。音声データは、サンプリング周波数２２，０５０［Hz］、１６［ビット］量子化のＰＣＭである。音響特徴量生成モデル６０には非特許文献４の技術を用い、ボコーダ部４３には、参考文献１に記載の技術を用いた。モデル学習処理及び音声合成処理において使用したメルスペクトログラムは、それぞれ８０［次元］、窓関数は１，０２４［ｐｏｉｎｔ］、フレームシフトは１１．６［ｍｓ］である。

音響特徴量生成モデル６０の学習には、前述の女性ナレーターの音声コーパスに含まれる音声データである学習用音声データＡ４と、この音声コーパスの仮名漢字混じり文から作成された学習用中間言語データＢ４とを対にした学習データを用いた。実験で用いた学習用中間言語データＢ４は、音声コーパスの仮名漢字混じり文を言語解析して求められた仮名及び韻律記号に対して人手で修正を行い、発話スタイル記号を付加して生成したものである。学習回数は３１０，０００回である。また、ボコーダ部４３の学習には、１２，４５１文（１８時間）の音声データから算出したメルスペクトログラムを直接用いた。学習回数は１，２２０，０００回である。

評価実験では、音声コーパスには含まれていない１０文の仮名及び韻律記号に、実況、平静、悲哀の３種類の発話スタイル記号を付加して中間言語データを生成した。これら生成された中間言語データを使用して音響特徴量推定部４２が推定したメルスペクトログラムをボコーダ部４３に入力することによって、３０個の音声を合成した。これら合成された音声（以下、「発話スタイル付き合成音声」とも記載）の音量を平均ラウドネス値に基づいて調整したものを音声刺激として使用した。実験は防音室において、ヘッドホン受聴にて各被験者が聞きやすい音量で行った。被験者は１３人である。実験は防音室において、ヘッドホン受聴にて各被験者が聞きやすい音量で行った。被験者はランダムに提示された音声刺激に対して評定を行った。

図１６は、本実施形態により合成した発話スタイル付き合成音声に対する発話スタイルの再現性の評価結果として得られた５段階評価のＤＭＯＳ値（Degradation Mean Opinion Score）と９５％信頼区間を示す図である。ＤＭＯＳについては、例えば、参考文献６「日本電信電話株式会社，[online]，"音声品質評価法 3.音声品質の主観評価法 3.2.DMOS(Degradation Mean Opinion Score)"，インターネット<URL: http://www.ntt.co.jp/qos/technology/sound/03_2.html>」に記載されている。この発話スタイルが再現されているかの実験では、リファレンス音声（発話付きスタイル収録音声）と、本実施形態の音声合成装置１ａが音声合成した評価対象音声（発話スタイル付き合成音声）とを連続で再生し、それらの発話スタイル（悲しい口調か実況のような口調か）の類似性を５段階評価で評定し、その平均値をまとめた。実況、平静、悲哀の３種類の発話スタイルについて各文を５回評定するために、音声コーパスには含まれていない１０文のそれぞれに対して５種類のリファレンス音声を用意した。そして、３０個の発話スタイル付き合成音声それぞれに、５種類のリファレンス音声を組み合わせることにより、被験者１人当たり合計１５０回分の音声刺激を評価に用いた。被験者は音声刺激に対して発話スタイルの類似性に関する５段階評価を行った。図１６に示すように、各発話スタイルとも、高い再現性が得られたが、実況が有意に高く評価された。悲哀と平静の間に有意な差はなかった。実況は話速が早く、明瞭な発話の特徴が、平静や悲哀の発話よりもわかりやすい。これを精度よく再現できたことが理由と考えられる。

図１７は、本実施形態により合成した発話スタイル付き合成音声に対する発話スタイルの自然性評価として得られたＭＯＳ値と９５％信頼区間を示す図である。被験者は１３人である。実況、平静、悲哀の３種類の発話スタイルについて１０文ずつ、合計３０文の音声刺激を評価に用いた。被験者は、１音声刺激について５回ずつ、一人当たり合計１５０回の自然性に関する５段階評価を行った。図１７に示すように、自然性は平静、実況、悲哀の順に高く評価された。これは、各発話スタイルの音声コーパスのデータ量が評価結果に影響したものと考えられる。

第１の実施形態では、韻律という局所的な音響特徴量の制御を実現しており、日本語における、読み仮名以外のアクセントによる音響的な特徴を記号により再現する。本実施形態では、音声発話の「全体的」な音響特徴量の制御を実現しており、発話全体にわたる特徴の再現を可能とする。

本実施形態の音声合成装置１ａによれば、学習用テキストデータ、音声合成を行う際に入力するテキストデータ共に、簡易な表記法により、合成される音声の感情、発話スタイル、話者の制御が可能である。

本実施形態は、日本語だけではなく、他の言語にも適用することができる。この場合、日本語の仮名に代えて、その言語の読み方を表す文字又は文字列を用いる。また、本実施形態では、日本語の音声合成を行うために、読み方を表す文字として仮名を用い、さらに、韻律記号を用いているが、英語などの他の言語には、単語の綴り（文字列）自体が読み方と韻律記号を兼ねる場合がある。このような言語の場合は、読み方を表す文字又は文字列と、発話全体に与える特徴を表す文字又は文字列とを用いて発話内容を表す文章を記述した中間言語のテキストデータを音響特徴量推定部４２に入力すればよい。

また、仮名と発話スタイル記号とを含み、韻律記号を含まないテキストデータを音響特徴量推定部４２に入力してもよい。このような中間言語を用いることにより、単語レベルの局所的な特徴については精度が低下するものの、発話に与える特徴については精度よく制御することできる。

従来は、発話に与える特徴別に音響特徴量生成モデルを組み替えたり、発話に与える特徴に応じた切り替えを制御するための入力をエンコーダに与えたりしなければならなかった。本実施形態の音声合成装置１ａによれば、発話スタイル記号が記述された中間言語を用いて、一つの音響特徴量生成モデルにより複数の特徴（感情、発話スタイル、話者）の音声を学習し、学習時に用いた発話スタイル記号が表す特徴を有する任意の発話内容の音声を合成することができる。

なお、上述の音声合成装置１、１ａは、内部にコンピュータシステムを有している。そして、音声合成装置１、１ａの動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１、１ａ…音声合成装置
２０…記憶部
２０−１…音響特徴量生成モデル
２０−２…音声波形生成モデル
３０…学習部
３１…正解音響特徴量算出部
３２…モデル更新部
４０、４０ａ…音声合成部
４１、４１ａ…言語処理部
４２…音響特徴量推定部
４３…ボコーダ部
６０…音響特徴量生成モデル

Claims

発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列と韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号とを用いた文字列、前記読み方を表す文字又は文字列と前記韻律記号と用いた文字列、あるいは、前記読み方を表す文字又は文字列と前記発話スタイル記号とを用いた文字列により記述したテキストデータを、当該テキストデータから音響特徴量を生成する音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部が推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、
を備え、
前記音響特徴量生成モデルは、ディープニューラルネットワークを用いたエンコーダ及びデコーダを有し、
前記エンコーダは、再帰型ニューラルネットワークにより、前記テキストデータが示す前記発話内容に前記文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成し、
前記デコーダは、再帰型ニューラルネットワークにより、前記エンコーダが生成した前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、
ことを特徴とする音声合成装置。
前記発話内容が日本語の場合、前記読み方を表す前記文字は、カタカナ、ひらがな、アルファベット又は発音記号である、
ことを特徴とする請求項１に記載の音声合成装置。
前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズ調を指定する記号とのうちのいずれかを含む、
ことを特徴とする請求項１又は請求項２に記載の音声合成装置。
発話に与える前記特徴は、感情、発話スタイル、又は、話者である、
ことを特徴とする請求項１から請求項３のいずれか一項に記載の音声合成装置。
前記特徴を与える対象の発話は、前記発話スタイル記号が所定位置に付加された１以上の文の発話全体、前記発話スタイル記号に囲まれた１以上の文の発話全体、又は、前記発話スタイル記号により囲まれた１以上の文節の発話である、
ことを特徴とする請求項１から請求項４のいずれか一項に記載の音声合成装置。
コンピュータを、請求項１から請求項５のいずれか一項に記載の音声合成装置として機能させるためのプログラム。