JP7033478B2 - 音声合成装置、音声モデル学習装置およびそれらのプログラム - Google Patents
音声合成装置、音声モデル学習装置およびそれらのプログラム Download PDFInfo
- Publication number
- JP7033478B2 JP7033478B2 JP2018066484A JP2018066484A JP7033478B2 JP 7033478 B2 JP7033478 B2 JP 7033478B2 JP 2018066484 A JP2018066484 A JP 2018066484A JP 2018066484 A JP2018066484 A JP 2018066484A JP 7033478 B2 JP7033478 B2 JP 7033478B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- feature amount
- frame
- voice
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この手法は、スコア等の進行によって変化する情報をパラメータとする定型文のパラメータを、競技データで補うことで、競技の進行を案内するテキストを生成し、音声合成により音声ガイドを生成する。
この競技データから音声ガイドを生成することで、例えば、視覚障害者が、テレビのスポーツ中継をより楽しむことができたり、インターネットで配信されるスポーツ競技映像に音声による解説を付加したりすることが可能になる。
また、従来の話者や感情を制御した音声合成を行う手法を用いて、音声ガイドを生成したとしても、テキスト全体に対して話者や感情を制御することしかできないため、テキストの途中で音声を強調する等の制御を行うことはできない。そのため、この手法を用いて、競技データから音声ガイドを生成することとしても、音声の抑揚にメリハリをつけることはできず、意図を表現することができないという問題を解決することはできない。
そして、音声合成装置は、音素言語特徴量生成手段によって、テキスト生成手段で生成されたテキストに対して、形態素解析、韻律推定等の解析を行うことで、音素ごとの言語特徴量と音素に対する強調情報とを生成する。
そして、音声合成装置は、時間長演算手段によって、音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを、時間長モデルの入力として演算することで、音素の時間長を生成する。
そして、音声合成装置は、音響特徴量演算手段によって、フレーム言語特徴量生成手段で生成されたフレームの言語特徴量とフレームに対応する強調情報とを、音響特徴量モデルの入力として演算することで、フレームごとの音響特徴量を生成する。
これによって、音声合成装置は、予め強調音声の特徴を学習した音響特徴量モデルにより、テキスト中の強調箇所を強調した合成音声を生成することができる。
そして、音声モデル学習装置は、音素区切り手段によって、テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する。
そして、音声モデル学習装置は、時間長モデル学習手段によって、音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを入力し、音素区切り手段で特定された音素の時間長を出力するように時間長モデルを学習する。
そして、音声モデル学習装置は、音響特徴量生成手段によって、音素区切り手段で検出された音素の区切りに基づいて、テキストに対応する音声から音素の時間長の区間を構成するフレームごとの音響特徴量を生成する。
そして、音声モデル学習装置は、音響特徴量モデル学習手段によって、フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報とを入力し、音響特徴量生成手段で生成された音響特徴量を出力するように音響特徴量モデルを学習する。
これによって、音声モデル学習装置は、テキストが同一であっても、強調情報によって異なる音素の時間長および音響特徴量を学習するモデルを生成することができる。
また、音声モデル学習装置は、コンピュータを、音声モデル学習装置の各手段として機能させるための音声モデル学習プログラムで動作させることができる。
本発明によれば、競技データから、強調すべき箇所を特定したテキストを生成し、当該個所を強調した合成音声を生成することができる。
これによって、本発明は、競技データから、抑揚にメリハリがつき、意図を表現可能な音声を生成することができる。
〔音声合成装置の概要〕
図1を参照して、本発明の実施形態に係る音声合成装置1の概要について説明する。
音声合成装置1は、事前学習段階として、コーパス記憶装置5に記憶した学習データであるコーパスから、テキストを音声に変換するための音声モデルをディープニューラルネットワーク(以下、DNNという)により学習する。
コーパスは、強調音声コーパスと通常音声コーパスとがある。
強調音声コーパスは、テキストと、当該テキストを強調して発話した音声(強調音声)とを対とした学習データである。
通常音声コーパスは、テキストと、当該テキストを通常(強調せず)に発話した音声(通常音声)とを対とした学習データである。
競技データは、競技の進行状況を示すデータである。この競技データは、例えば、OBS(Olympic Broadcasting Services)等の競技大会における公式のデータセンタから実時間で配信されるデータを用いることができる。音声合成装置1は、順次更新される競技データを入力する。
これによって、音声合成装置1は、競技データから、抑揚にメリハリのついた音声を生成することができる。
次に、図1~図3を参照して、本発明の実施形態に係る音声合成装置1の構成について説明する。図1に示すように、音声合成装置1は、事前学習部2と、合成処理部3と、を備える。
合成処理部3は、合成処理段階として、学習済みの音声モデルを用いて、競技データから音声(合成音声)を生成するものである。
音声合成装置1は、外部にコーパス記憶装置5を接続する。
図2を参照(適宜図1参照)して、事前学習部2の構成について説明する。事前学習部2は、コーパス入力手段10と、モデル学習手段20と、モデル記憶手段30と、を備える。なお、モデル記憶手段30は、事前学習部2と合成処理部3とで共用する。
コーパス入力手段10は、テキストと音声(強調音声または通常音声)とを対として、コーパス記憶装置5から読み出し、モデル学習手段20に出力する。コーパス入力手段10は、強調音声コーパスから読み込んだテキストについては、対応する音声が強調音声であることを示す強調判別情報とともに、モデル学習手段20に出力する。また、コーパス入力手段10は、通常音声コーパスから読み込んだテキストについては、対応する音声が通常音声である(強調音声ではない)ことを示す強調判別情報とともに、モデル学習手段20に出力する。
音素言語特徴量生成手段211は、テキストとともに入力される強調判別情報が、音声が強調音声であることを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加する。また、音素言語特徴量生成手段211は、テキストとともに入力される強調判別情報が、音声が通常音声である(強調音声ではない)ことを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、通常を示すラベル(強調情報;強調無し)を付加する。
さらに、音素言語特徴量生成手段211は、音素ごとに、解析した音素固有の音素ラベルを音声解析手段22の音素区切り手段221に出力する。
フレーム言語特徴量は、音素言語特徴量生成手段211で生成された音素言語特徴量に、音素の時間長の区間を構成するフレームの番号(フレームの位置)、フレームの総数等の音素の時間的特徴を加えたものである。このフレーム言語特徴量生成手段212は、1音素に対して、音素の時間長に対応したフレーム言語特徴量を生成する。
フレーム言語特徴量生成手段212は、生成した1音素に対応するフレーム数分のフレーム言語特徴量と、音素言語特徴量生成手段211から入力された発話スタイルラベルとを対応付けて、DNN学習手段23の音響特徴量モデル学習手段232に出力する。
音素区切り手段221は、例えば、音素と当該音素の波形とを対応付けた素片辞書(不図示)を用いて、音素の区切り位置を検出する。
音素区切り手段221は、検出した音素の区切り位置を音響特徴量生成手段222に出力する。
なお、音素区切り手段221が生成する音素の時間長は、時間長モデル学習手段231で時間長モデル31を学習する際の正解データとなる。
なお、音響特徴量生成手段222が生成する音響特徴量は、音響特徴量モデル学習手段232で音響特徴量モデル32を学習する際の正解データとなる。
図4にDNNで構成した時間長モデル31の例を示す。図4に示すように、時間長モデル31は、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(Feed Forward Neural Network:FFNN)で構成することができる。
時間長モデル学習手段231は、モデル記憶手段30において、学習により、時間長モデル31を逐次更新する。
図5にDNNで構成した音響特徴量モデル32の例を示す。図5に示すように、音響特徴量モデル32は、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(FFNN)で構成することができる。
音響特徴量モデル学習手段232は、モデル記憶手段30において、学習により、音響特徴量モデル32を逐次更新する。
モデル記憶手段30に記憶された事前学習段階で学習した音声モデル(時間長モデル31、音響特徴量モデル32)は、合成処理部3において使用される。
次に、図3を参照(適宜図1参照)して、合成処理部3の構成について説明する。合成処理部3は、モデル記憶手段30と、データ入力手段40と、テンプレート記憶手段50と、テキスト生成手段60と、合成音声生成手段70と、を備える。
データ入力手段40は、外部から競技データを入力するものである。データ入力手段40は、例えば、通信回線を介して、競技データを配信するデータセンタから、競技データを入力する。
データ入力手段40は、入力した競技データをテキスト生成手段60に出力する。
図6に示すように、競技データは、例えば、試合に出場する出場選手(図6(a))、試合中に発生するイベント一覧(図6(b))等の試合内容および試合進行に応じたデータである。図6は、一例として、テニスを対象とした競技データの例を示す。
また、図6(b)では、123番目のイベントが、[時刻]○時△分□秒に発生したことを示している。[セット]はゲームのセット数を示す。なお、競技データは、イベントが更新されるたびに、順次追加されていく。ここでは、123番目のイベントにおいて、第4セット(“4S”)であることを示している。[ゲームカウント]はゲームカウントが更新されたことを示す。ここでは、“B2”(選手B)に5点目(“5”)が入ったことを示している。[アンフォーストエラー]はアンフォーストエラーが発生したことを示す。ここでは、“A2”(選手A)がアンフォーストエラーを起こし、アンフォーストエラーが“12”回目であることを示している。[ブレーク成功]はブレークに成功したことを示す。ここでは、“B2”(選手B)が“6”回目のブレークに成功したことを示している。
さらに、図6(b)では、[全体ゲーム数]、[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、[選手Bのブレーク数]等を試合状況として示している。
もちろん、図6に示した競技データはこれに限定されるものでないし、競技の種類によって異なるものであることはいうまでもない。
図3に戻って、合成処理部3の構成について説明を続ける。
例えば、図7(a)は、図6に示した競技データにおいて、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合のテンプレートを示す。
図7(a)に示したテンプレートにおいて、“[”および“]”で挟まれた箇所が、競技データに応じて変化することになる。
このテンプレートにおいて、音声を強調して発声させたい箇所には、予め定めたタグで示すこととする。例えば、図7(a)に示すように、<強調>タグと</強調>タグとで挟まれた箇所を強調対象とする。ここでは、“[選手Bのブレーク数]回目のブレーク”を強調する例を示している。
例えば、図7(b)の(b-1)に示すように、図7(a)で示した、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合に加え、選手Bのブレーク数が予め定めた数(例えば“5”)以上である場合に使用するテンプレートは、図7(a)と同様に、“[選手Bのブレーク数]回目のブレーク”を強調するテンプレートとする。
また、選手Bのブレーク数が予め定めた数(例えば“5”)未満である場合に使用するテンプレートは、図7(b)の(b-2)に示すように、(b-1)のテンプレートから<強調>タグと</強調>タグとを削除したテンプレートとする。
図3に戻って、合成処理部3の構成について説明を続ける。
例えば、テキスト生成手段60は、図6で例示した競技データ(ここでは、123番目のイベント)を入力した場合、図7(a)あるいは、図7(b)の(b-1)に示したテンプレートに文字列を埋め込むことで、図8(a)に示すテキストを生成する。
なお、テキスト生成手段60は、図7(b)の(b-2)に示したテンプレートを用いた場合、図8(b)に示すテキストを生成する。
これによって、テキスト生成手段60は、発話スタイルとしてテキスト中に強調すべき箇所をタグで示した発話スタイル付きテキストを生成する。
テキスト生成手段60は、生成した発話スタイル付きテキストを合成音声生成手段70に出力する。
スタイル解析手段71は、発話スタイル付きテキストにおいて、一文ごとに予め定めたタグ(<強調>、</強調>)を検出することで、当該文中における強調箇所を特定する。そして、スタイル解析手段71は、文単位で、発話スタイル付きテキストからタグを削除したテキストと、当該テキストにおける強調箇所を示す強調位置情報とを、テキスト解析手段72に出力する。なお、発話スタイル付きテキストにおいて、予め定めたタグが存在しない場合、スタイル解析手段71は、文単位で、テキストと、強調箇所が存在しないことを示す強調位置情報とを、テキスト解析手段72に出力する。
音素言語特徴量生成手段721は、音素言語特徴量と、発話スタイルラベル(強調情報、文末情報)とを、フレーム言語特徴量生成手段722に出力するとともに、DNN演算手段73の時間長演算手段731に出力する。
フレーム言語特徴量生成手段722は、生成したフレーム言語特徴量と、音素言語特徴量生成手段721から入力された発話スタイルラベルとを対応付けて、DNN演算手段73の音響特徴量演算手段732に出力する。
時間長演算手段731は、例えば、図4に示した時間長モデル31の入力層Iの各ユニットに、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、時間長演算手段731は、学習済みの時間長モデル31のパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音素の時間長とする。
時間長演算手段731は、生成した音素の時間長を、テキスト解析手段72のフレーム言語特徴量生成手段722に出力する。
音響特徴量演算手段732は、例えば、図5に示した音響特徴量モデル32の入力層Iの各ユニットに、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、音響特徴量演算手段732は、学習済みの音響特徴量モデル32のパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音響特徴量とする。
音響特徴量演算手段732は、生成したフレームごとの音響特徴量を、合成手段74に出力する。
合成手段74は、音響特徴量に含まれるピッチ、雑音特性等の情報(音源パラメータ)に基づいて、声の高さ、大きさ、雑音性度合いの時間変化を表現した声帯音源波形を生成する。また、合成手段74は、フレームごとの音響特徴量に含まれるスペクトル係数等の情報(スペクトルパラメータ)に基づいて、音韻の違いや声質を表現した声道フィルタを生成する。そして、合成手段74は、声帯音源波形を声道フィルタへの入力として、フレームに対応する音声波形を生成する。
なお、音響特徴量を用いて音声合成を行う手法は、ボコーダ方式の一般的な手法を用いればよいため、ここでは、詳細な説明を省略する。
合成手段74は、フレームごとの音声波形を連結して合成音声として出力する。
一方、音声合成装置1は、強調や体言止めを学習するため、図9(b)に示すように、強調箇所である「6回目のブレーク」の声の高さが高くなり、体言止めとなる文末の「ブレーク」は末尾の声の高さが持ち上げられることなる。
次に、図10および図11を参照して、本発明の実施形態に係る音声合成装置1の動作について説明する。ここでは、音声合成装置1の動作を、事前学習部2の動作と、合成処理部3の動作とに分けて説明する。
(事前学習部)
まず、図10を参照(構成については、適宜図1,図2参照)して、音声合成装置1の事前学習部2の動作について説明する。
ステップS5において、DNN学習手段23の時間長モデル学習手段231は、ステップS2で生成した音素言語特徴量と、ステップS3で付加した発話スタイルラベルとを入力し、ステップS4で求めた音素の時間長を出力するように、時間長モデル31を学習する。
ステップS7において、フレーム言語特徴量生成手段212は、ステップS6で生成したフレーム言語特徴量に、ステップS3で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。
ステップS9において、DNN学習手段23の音響特徴量モデル学習手段232は、ステップS6で生成したフレーム言語特徴量と、ステップS7で付加した発話スタイルラベルとを入力し、ステップS8で生成した音響特徴量を出力するように、音響特徴量モデル32を学習する。
次に、図11を参照(構成については、適宜図1,図3参照)して、音声合成装置1の合成処理部3の動作について説明する。
ステップS11において、テキスト生成手段60は、予めテンプレート記憶手段50に記憶されているテンプレートに基づいて、ステップS10で入力した競技データから、発話スタイル付きテキストを生成する。このテンプレートは、音声を強調して発声させたい箇所に、予め定めたタグ(<強調>、</強調>)が付加されている(図7(a)参照)。テキスト生成手段60は、テンプレートの可変箇所を、競技データで特定される情報に置き換えることで、発話スタイル付きテキストを生成する(図8(a)参照)。
ステップS13において、テキスト解析手段72の音素言語特徴量生成手段721は、ステップS12で生成したテキストを解析し、テキストを構成する音素ごとの言語特徴量(音素言語特徴量)を生成する。
ステップS16において、テキスト解析手段72のフレーム言語特徴量生成手段722は、ステップS15で生成した音素の時間長に基づいて、音素の時間長の区間を構成するフレームの言語特徴量(フレーム言語特徴量)を生成する。
ステップS18において、DNN演算手段73の音響特徴量演算手段732は、学習済みの音響特徴量モデル32を用いて、ステップS16で生成したフレーム言語特徴量と、ステップS17で付加した発話スタイルラベルとから、フレームの音響特徴量を生成する。
以上の動作によって、音声合成装置1は、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。
以上、本発明の実施形態に係る音声合成装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
音声合成装置1は、音声モデル(時間長モデル31、音響特徴量モデル32)を学習する事前学習と、音声モデルを用いて競技データから音声合成を行う合成処理との2つの動作を1つの装置で行うものである。しかし、これらの動作は、別々の装置で行うようにしても構わない。
また、競技データから音声合成を行う装置として、図3に示した合成処理部3を音声合成装置として分離することができる。この場合、音声合成装置(合成処理部3)は、コンピュータを、合成処理部3で説明した各手段として機能させるためのプログラム(音声合成プログラム)で動作させることができる。
しかし、例えば、音声合成装置1は、発話スタイルとして、強調のみを実現した合成音声を生成するものとしてもよい。
この場合、時間長モデル31および音響特徴量モデル32は、図4に示した時間長モデル31の入力層Iから、文末情報(体言止め有無のラベル)を省略し、図5に示した音響特徴量モデル32の入力層Iから、文末情報を省略したモデルとすればよい。また、テキスト解析手段21からDNN学習手段23に出力される発話スタイルラベルから、文末情報を省略すればよい。また、テキスト解析手段72からDNN演算手段73に出力される発話スタイルラベルから、文末情報を省略すればよい。
2 事前学習部(音声モデル学習装置)
3 合成処理部(音声合成装置)
10 コーパス入力手段
20 モデル学習手段
21 テキスト解析手段
211 音素言語特徴量生成手段
212 フレーム言語特徴量生成手段
22 音声解析手段
221 音素区切り手段
222 音響特徴量生成手段
23 DNN学習手段
231 時間長モデル学習手段
232 音響特徴量モデル学習手段
30 モデル記憶手段
31 時間長モデル
32 音響特徴量モデル
40 データ入力手段
50 テンプレート記憶手段
60 テキスト生成手段
70 合成音声生成手段
71 スタイル解析手段
72 テキスト解析手段
721 音素言語特徴量生成手段
722 フレーム言語特徴量生成手段
73 DNN演算手段
731 時間長演算手段
732 音響特徴量演算手段
74 合成手段
Claims (6)
- ディープニューラルネットワークにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力し、前記音素の時間長を出力する予め学習された時間長モデルと、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力し、前記フレームの音響特徴量を出力する予め学習された音響特徴量モデルとを用いて、競技データから競技内容の音声を合成する音声合成装置であって、
前記競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、前記競技データから前記強調箇所を示したテキストを生成するテキスト生成手段と、
前記テキスト生成手段で生成されたテキストを解析し、音素ごとの言語特徴量と前記音素に対する強調情報とを生成する音素言語特徴量生成手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とから、前記時間長モデルにより、前記音素の時間長を生成する時間長演算手段と、
前記時間長演算手段で生成された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と前記フレームに対応する強調情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成する音響特徴量演算手段と、
前記音響特徴量演算手段で生成されたフレームごとの音響特徴量により音声合成を行う合成手段と、
を備えることを特徴とする音声合成装置。 - 前記時間長モデルおよび前記音響特徴量モデルは、前記音素が体言止めの文末単語の音素であるか否かを示す文末情報によりさらに学習したモデルであって、
前記音素言語特徴量生成手段は、前記テキストの文末単語の品詞により、前記音素ごとの前記文末情報を生成し、
前記時間長演算手段は、前記音素の言語特徴量と前記強調情報と前記文末情報とから、前記時間長モデルにより、前記音素の時間長を生成し、
前記フレーム言語特徴量生成手段は、前記フレームごとの言語特徴量に、さらに前記文末情報を対応付け、
前記音響特徴量演算手段は、前記フレームの言語特徴量と前記フレームに対応する前記強調情報および前記文末情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成する
ことを特徴とする請求項1に記載の音声合成装置。 - テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、請求項1に記載の音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、
前記テキストを解析するとともに、前記テキストが前記強調して発話した音声に対応したものか否かにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを生成する音素言語特徴量生成手段と、
前記テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する音素区切り手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを入力し、前記音素区切り手段で特定された音素の時間長を出力するように前記時間長モデルを学習する時間長モデル学習手段と、
前記音素区切り手段で特定された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成手段と、
前記音素区切り手段で検出された音素の区切りに基づいて、前記テキストに対応する音声から前記音素の時間長の区間を構成するフレームごとの音響特徴量を生成する音響特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報とを入力し、前記音響特徴量を出力するように前記音響特徴量モデルを学習する音響特徴量モデル学習手段と、
を備えることを特徴とする音声モデル学習装置。 - テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、請求項2に記載の音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、
前記テキストを解析するとともに、前記テキストが前記強調して発話した音声に対応したものか否かにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報と前記音素が体言止めの文末単語の音素であるか否かを示す文末情報とを生成する音素言語特徴量生成手段と、
前記テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する音素区切り手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報と文末情報とを入力し、前記音素区切り手段で特定された音素の時間長を出力するように前記時間長モデルを学習する時間長モデル学習手段と、
前記音素区切り手段で特定された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報および文末情報と対応付けるフレーム言語特徴量生成手段と、
前記音素区切り手段で検出された音素の区切りに基づいて、前記テキストに対応する音声から前記音素の時間長の区間を構成するフレームごとの音響特徴量を生成する音響特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報と文末情報とを入力し、前記音響特徴量を出力するように前記音響特徴量モデルを学習する音響特徴量モデル学習手段と、
を備えることを特徴とする音声モデル学習装置。 - コンピュータを、請求項1または請求項2に記載の音声合成装置として機能させるための音声合成プログラム。
- コンピュータを、請求項3または請求項4に記載の音声モデル学習装置として機能させるための音声モデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018066484A JP7033478B2 (ja) | 2018-03-30 | 2018-03-30 | 音声合成装置、音声モデル学習装置およびそれらのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018066484A JP7033478B2 (ja) | 2018-03-30 | 2018-03-30 | 音声合成装置、音声モデル学習装置およびそれらのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019179064A JP2019179064A (ja) | 2019-10-17 |
JP7033478B2 true JP7033478B2 (ja) | 2022-03-10 |
Family
ID=68278501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018066484A Active JP7033478B2 (ja) | 2018-03-30 | 2018-03-30 | 音声合成装置、音声モデル学習装置およびそれらのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7033478B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160854A (zh) * | 2020-01-22 | 2021-07-23 | 阿里巴巴集团控股有限公司 | 语音交互系统、相关方法、装置及设备 |
CN112420015A (zh) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频合成方法、装置、设备及计算机可读存储介质 |
CN112542153A (zh) * | 2020-12-02 | 2021-03-23 | 北京沃东天骏信息技术有限公司 | 时长预测模型训练方法和装置、语音合成方法和装置 |
CN113436600B (zh) * | 2021-05-27 | 2022-12-27 | 北京葡萄智学科技有限公司 | 一种语音合成方法及装置 |
WO2023167212A1 (ja) * | 2022-03-01 | 2023-09-07 | 株式会社KPMG Ignition Tokyo | コンピュータプログラム、情報処理方法及び情報処理装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003140678A (ja) | 2001-10-31 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 合成音声の音質調整方法と音声合成装置 |
JP2008243043A (ja) | 2007-03-28 | 2008-10-09 | Toshiba Corp | 音声翻訳装置、方法およびプログラム |
JP2009157220A (ja) | 2007-12-27 | 2009-07-16 | Hitachi Ltd | 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086586A (ja) * | 1994-06-23 | 1996-01-12 | Matsushita Electric Ind Co Ltd | アクセント付与装置及び音声合成装置 |
-
2018
- 2018-03-30 JP JP2018066484A patent/JP7033478B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003140678A (ja) | 2001-10-31 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 合成音声の音質調整方法と音声合成装置 |
JP2008243043A (ja) | 2007-03-28 | 2008-10-09 | Toshiba Corp | 音声翻訳装置、方法およびプログラム |
JP2009157220A (ja) | 2007-12-27 | 2009-07-16 | Hitachi Ltd | 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法 |
Non-Patent Citations (2)
Title |
---|
栗原清 他,話者の特徴と感情表現を制御可能なDNN音声合成方式の検討,電子情報通信学会2017年総合大会講演論文集,2017年03月,情報・システム講演論文集1,p.150 |
熊野正,スポーツ番組を解説する「音声ガイド」生成技術,NHK技研R&D,日本放送協会,2017年08月,No.164,pp.49-55 |
Also Published As
Publication number | Publication date |
---|---|
JP2019179064A (ja) | 2019-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7033478B2 (ja) | 音声合成装置、音声モデル学習装置およびそれらのプログラム | |
US7280968B2 (en) | Synthetically generated speech responses including prosodic characteristics of speech inputs | |
JP4114888B2 (ja) | 声質変化箇所特定装置 | |
JP6824399B2 (ja) | 音声ガイド生成装置、音声ガイド生成方法及び放送システム | |
JP2024023421A (ja) | 2レベル音声韻律転写 | |
WO2004061822A1 (en) | Speech recognition method | |
WO2021074721A2 (en) | System for automatic assessment of fluency in spoken language and a method thereof | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
JP4811557B2 (ja) | 音声再生装置及び発話支援装置 | |
Kato et al. | Modeling of Rakugo speech and its limitations: Toward speech synthesis that entertains audiences | |
Ernestus et al. | Qualitative and quantitative aspects of phonetic variation in Dutch eigenlijk | |
US7308407B2 (en) | Method and system for generating natural sounding concatenative synthetic speech | |
Huilgol et al. | A framework for labeling speech with acoustic cues to linguistic distinctive features | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
Meddeb et al. | Intelligent remote control for TV program based on emotion in Arabic speech | |
Louw et al. | The Speect text-to-speech entry for the Blizzard Challenge 2016 | |
Martin et al. | A syllable-scale framework for language identification | |
Dropuljić et al. | Development of acoustic model for Croatian language using HTK | |
Stanislav et al. | Recognition of the electrolaryngeal speech: comparison between human and machine | |
Wu et al. | Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation | |
Kaland et al. | How f0 and Phrase Position Affect Papuan Malay Word Identification. | |
Peng et al. | An innovative prosody modeling method for Chinese speech recognition | |
Enarvi | Finnish Language Speech Recognition for Dental Health Care | |
Beuret | Uncovering the role of prosody in voice discrimination | |
Shuhei | Rakugo Speech Synthesis: Toward Speech Synthesis That Entertains Audiences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210311 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7033478 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |