JP2014197072A - 音声合成システム、及び音声合成方法 - Google Patents

音声合成システム、及び音声合成方法 Download PDF

Info

Publication number
JP2014197072A
JP2014197072A JP2013071951A JP2013071951A JP2014197072A JP 2014197072 A JP2014197072 A JP 2014197072A JP 2013071951 A JP2013071951 A JP 2013071951A JP 2013071951 A JP2013071951 A JP 2013071951A JP 2014197072 A JP2014197072 A JP 2014197072A
Authority
JP
Japan
Prior art keywords
sentence
sound source
expression
data
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013071951A
Other languages
English (en)
Other versions
JP5949634B2 (ja
Inventor
典昭 阿瀬見
Noriaki Asemi
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2013071951A priority Critical patent/JP5949634B2/ja
Publication of JP2014197072A publication Critical patent/JP2014197072A/ja
Application granted granted Critical
Publication of JP5949634B2 publication Critical patent/JP5949634B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声合成によって文章データを読上げた合成音を出力する際に、当該合成音に適切な表情を付与する。
【解決手段】音声合成処理では、指定文章データを解析し、テキスト表情分布を登場人物ごとに導出する(S310〜S350)。配役情報に対応する音源データを取得して解析し、音源データごとに音源表情分布を導出する(S360,S370)。さらに、登場人物ごとのテキスト表情分布に音源表情分布それぞれが合致するように、音声パラメータを補正して補正パラメータを導出する(S380,S390)。その補正パラメータを用いて、指定文章データによって表される文章のそれぞれについて音声合成を実行し、合成音を音声出力端末から出力させる(S400,S410)。
【選択図】図3

Description

本発明は、音声合成システム、及び音声合成方法に関する。
従来、周知の音声合成技術を用いて、入力された文章データを読み上げる音声合成装置が知られている(特許文献1参照)。
この特許文献1に記載された音声合成装置では、入力された文章データによって表されたテキストを解析し、その解析結果として属性情報を導出する。そして、属性情報と予め対応付けられた韻律パラメータに、上記解析結果である属性情報を照合し、類似度が基準値以上となる属性情報と対応付けられた韻律パラメータを用いて音声合成を実行する。
なお、特許文献1に記載された属性情報とは、文の構造を表す情報であり、例えば、モーラ数、アクセント型、品詞などの情報である。
特開2000−056788号公報
ところで、音声合成装置においては、音声合成によってテキストを読み上げた合成音に対して、当該テキストの内容に適した表情を付与することが求められている。
しかしながら、特許文献1に記載された音声合成装置では、音声合成に用いる韻律データを、文構造を表す属性情報に従って特定しているため、音声合成によってテキストを読上げた合成音に、当該テキストの内容に適した表情を付与できないという課題がある。
そこで、本発明は、音声合成によって文章データを読上げた合成音を出力する際に、当該合成音に適切な表情を付与することを目的とする。
上記目的を達成するためになされた本発明の音声合成システムは、文章取得手段と、文章解析手段と、音源解析手段と、パラメータ補正手段と、音声合成手段とを備えている。
このうち、文書取得手段は、指定された文章を構成する文字列を表す文章データを取得し、文章解析手段は、文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する。
さらに、複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、音源解析手段は、音源データが格納された記憶装置から、指定された発声者に対応する音源データである指定音源データを取得して解析し、指定音源データに含まれる音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する。
そして、パラメータ補正手段は、文章解析手段にて導出されたテキスト表情分布に、音源解析手段にて導出された音源表情分布が合致するように、指定音源データに含まれる音声パラメータを補正した補正パラメータを導出する。さらに、音声合成手段は、パラメータ補正手段で導出された補正パラメータに基づいて、文章取得手段で取得した文章データによって表される文章の音声合成を実行する。
このような音声合成システムによれば、音源表情分布がテキスト表情分布に合致するように、当該音源表情分布に対応する音声パラメータを補正して音声合成を実行するため、指定された文章データに適した表情を、その音声合成による合成音に付与できる。
なお、本発明における「表情」とは、少なくとも、感情や情緒、情景、状況を含む概念である。
本発明の音声合成システムにおける音源解析手段は、表情が中立状態であることを表す表情データと対応付けられた音声パラメータを基準パラメータとし、指定音源データに含まれる音声パラメータによって表される音声にて表出する各表情の強さを、基準パラメータからのベクトルで表した表情差分ベクトルを表情の種類ごとに導出し、全ての表情差分ベクトルのスカラー量の最大値が1となるように、表情差分ベクトルを正規化した結果を音源表情分布として導出しても良い。
この場合、本発明におけるパラメータ補正手段では、均一差分導出手段が、表情差分ベクトルそれぞれを音源表情分布にて除した均一差分ベクトルを導出し、表情反映手段が、文章解析手段にて導出されたテキスト表情分布を均一差分導出手段で導出された均一差分ベクトルそれぞれに乗じた結果に、基準パラメータを加えることで、補正パラメータを導出する。
このような音声合成システムによれば、テキスト表情分布に音源表情分布が合致するように補正した補正パラメータを導出することができる。
なお、本発明は、音声合成方法としてなされていても良い。
この場合、本発明の音声合成方法では、文章データを取得する文章取得手順と、テキスト表情分布を導出する文章解析手順と、音源表情分布を導出する音源解析手順と、補正パラメータを導出するパラメータ補正手順と、補正パラメータに基づいて、文章取得手順で取得した文章データによって表される文章の音声合成を実行する音声合成手順とを備えている必要がある。
このような音声合成方法を実行すれば、請求項1に係る音声合成システムと同様の効果を得ることができる。
音源合成システムの概略構成を示すブロック図である。 音源データ登録処理の処理手順を示すフローチャートである。 音源合成処理の処理手順を示すフローチャートである。 音源合成処理の処理概要を示す説明図である。 音源合成処理の処理概要を示す説明図である。
以下に本発明の実施形態を図面と共に説明する。
〈音声合成システム〉
図1に示す音声合成システム1は、ユーザが指定した文章データWTの内容を読み上げるシステムであり、情報処理サーバ10と、少なくとも一つの音声出力端末60とを備えている。
この音声合成システム1の情報処理サーバ10は、音声出力端末60のユーザが指定した文章データWT、及び音声出力端末60のユーザが指定した音源データSDを解析し、文章データWTの解析結果に音源データSDの解析結果が一致するように当該音源データSDを補正する。さらに、音声合成システム1では、その補正された音源データSDに基づいて、音声出力端末60が音声合成を実行して、指定された文章データWTに対応する内容の合成音を生成し、音声出力端末60から出力することで、文章データWTの内容を読み上げる。
〈音声出力端末〉
音声出力端末60は、通信部61と、情報受付部62と、表示部63と、音入力部64と、音出力部65と、記憶部66と、制御部70とを備えている。本実施形態における音声出力端末60として、例えば、周知の携帯端末を想定しても良いし、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。なお、携帯端末には、周知の電子書籍端末や、携帯電話、タブレット端末などの携帯情報端末を含む。
通信部61は、通信網を介して音声出力端末60が外部との間で情報通信を行う。情報受付部62は、入力装置(図示せず)を介して入力された情報を受け付ける。表示部63は、制御部70からの信号に基づいて画像を表示する。
音入力部64は、音を電気信号に変換して制御部70に入力する装置であり、例えば、マイクロホンである。音出力部65は、音を出力する周知の装置であり、例えば、PCM音源と、スピーカとを備えている。記憶部66は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶部66には、各種処理プログラムや各種データが記憶される。
また、制御部70は、ROM72、RAM74、CPU76を少なくとも有した周知のコンピュータを中心に構成されている。
すなわち、音声出力端末60は、情報受付部62にて受け付けた情報を、通信部61を介して情報処理サーバ10に送信し、情報処理サーバ10にて合成された合成音を受信して音出力部65から出力する。
〈情報処理サーバ〉
情報処理サーバ10は、通信部12と、制御部20と、記憶部30とを備え、少なくとも、文章を構成する文字列を表す文章データWTと、予め入力された音声の音声特徴量を少なくとも含む音源データSDとが格納されたサーバである。
通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。
制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM22と、処理プログラムやデータを一時的に格納するRAM24と、ROM22やRAM24に記憶された処理プログラムに従って各種処理を実行するCPU26とを少なくとも有した周知のコンピュータを中心に構成されている。この制御部20は、通信部12や記憶部30を制御する。
記憶部30は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。この記憶装置とは、例えば、ハードディスク装置やフラッシュメモリなどである。記憶部30には、文章データWTと、音源データSDとが格納されている。
ここでいう文章データWTkは、例えば、書籍をテキストデータ化したデータであり、書籍ごとに予め用意されている。ここでいう書籍とは、小説などである。また、符号kは、「1」以上の整数(自然数)である。
音源データSDは、音声パラメータsprlと、タグデータ(表情データ)TGlとを音源l(lは、「1」以上の整数)ごとに対応付けたデータである。
音声パラメータsprは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータsprにおける特徴量として、発声音声における各音素での基本周波数F0、メル周波数ケプストラム(MFCC)、音素長、パワー、及びそれらの時間差分を少なくとも備えている。
タグデータTGは、音声パラメータsprによって表される音の性質を表すデータであり、発声者の特徴を表す発声者特徴データと、当該音声が発声されたときの発声者の表情を表す表情データとを少なくとも含む。発声者特徴データには、例えば、発声者の性別、年齢などを含む。また、表情データは、感情や情緒、情景、状況を少なくとも含む表情としての概念を表すデータであり、発声者の表情を推定するために必要な情報を含んでも良い。
これらの音声パラメータsprとタグデータTGとが対応付けられた音源データSDは、音源データ登録処理を制御部20が実行することで生成され、記憶部30に記憶される。
〈音源登録処理〉
その音源データ登録処理は、起動されると、図2に示すように、文章データWTの中で、複数種類の表情が出現する内容の文章として予め規定された規定内容文の文字列を表す発声内容文章データを取得する(S110)。
続いて、S110にて取得した発声内容文章データに対応する一つの音声波形データを取得する(S120)。この音声波形データは、発声内容文章データによって表される規定内容文について、予め発声された音声波形それぞれを表すデータであり、多様な人物によって予め発声されたものである。
さらに、S120にて取得した音声波形データそれぞれから音声パラメータsprを導出する(S130)。本実施形態のS130では、基本周波数、メル周波数ケプストラム(MFCC)、パワー、それらの時間差分を、それぞれ、音声パラメータsprとして導出する。これらの基本周波数、MFCC、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数であれば、時間軸に沿った自己相関、周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、MFCCであれば、時間分析窓ごとに周波数解析(例えば、FFT)をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、時間分析窓における振幅の二乗した結果を時間方向に積分することで導出すれば良い。
続いて、音源データ登録処理では、表情データTGを推定する表情データ推定処理を実行する(S140)。この表情データ推定処理では、S110にて取得した発声内容文章データを解析した結果に基づいて、音声波形データによって表現された表情を推定する。
ここでいう「発声内容文章データ」の解析とは、例えば、発声内容文章データに対応する文章を形態素解析することで特定した各単語について、単語それぞれに対応する単語表情情報を取得する。ここでいう単語表情情報とは、単語それぞれと、各単語によって表される表情の内容とを予め対応付けた情報であり、単語表情データベースに予め格納されている。そして、取得した単語表情情報に従って、同一内容を表す表情の登場頻度を各表情の内容ごとに集計し、この集計の結果、最も頻度が高い表情の内容を、当該音声波形データによって表された表情として推定すれば良い。
続いて、S130にて導出した音声パラメータsprと、S140にて推定した表情データTGとを対応する音声波形データごとに対応付けることで、音源データSDを生成して記憶部30に格納する音声パラメータ登録を実行する(S150)。なお、本実施形態のS150にて記憶部30に格納される音声パラメータsprと対応付けられるデータは、表情データTGに加えて、発声した文章の内容(種類)や、発声者ID、発声者特徴データを含む(即ち、タグデータTGである)。これら発声者IDや発声者特徴データは、情報処理サーバ10や音声出力端末60、その他の端末へのログインに用いる情報を発声者IDや発声者特徴データとして取得すれば良い。
その後、本音源データ登録処理を終了する。
つまり、本実施形態の音源データ登録処理では、発声内容文章データによって表される規定内容文に対して発声された一つの音声波形データを解析し、音声パラメータsprを導出する。これと共に、音源データ登録処理では、当該発声内容文章データによって表される規定内容文を解析し、当該音声パラメータsprにて表現される表情を表す表情データを導出する。
そして、音源データ登録処理では、それらの対応する音声パラメータsprと表情データとを対応付けることで音源データSDを生成し、その音源データSDを記憶部30に記憶する。これにより、記憶部30には、規定内容文について発声された音声ごとに作成された音源データSDが格納される。
〈音声合成処理〉
次に、情報処理サーバ10の制御部20が実行する音声合成処理について説明する。
この音声合成処理は、起動されると、図3に示すように、音声出力端末60にて指定された文章データWTを表す文章指定情報を取得する(S310)。続いて、S310にて取得した文章指定情報に対応する文章データ(以下、「指定文章データ」と称す)WTを記憶部30から取得する(S320)。このS320にて取得する指定文章データWTは、文章を構成する文字列そのもの、即ち、テキストデータである。
さらに、S320にて取得した指定文章データWTをテキスト解析し、指定文章データWTによって表される文章中に登場する登場人物iと、各登場人物iが発声すべきテキストの内容を表す発声テキストとを対応付けた話者テキスト対応データを生成する(S330)。なお、ここでいう登場人物iとは、発話者とナレータとを含むものである。例えば、会話文については、文章中にて当該会話文を発声した人物を表す発話者を登場人物iとして、地の文についてはナレータを登場人物iとして特定する。
具体的には、S330では、まず、S310にて取得した指定文章データWTを、当該指定文章データWTによって表される文章中の句読点及び括弧にて分割して、文章を構成する単位区間である発声テキストに切り分ける。そして、その切り分けた発声テキストに対して形態素解析、及び係り受け解析を実行して、当該発声テキストを発声すべき登場人物iを特定する。さらに、各発声テキストと、当該発声テキストに対応する登場人物iとを対応付けることで、登場人物iと発声テキストとを対応付けた話者テキスト対応データを生成する。
なお、形態素解析や係り受け解析は、周知の手法を用いれば良く、例えば、形態素解析であれば、“MeCab”を用いれば良い。また、係り受け解析であれば、“Cabocha(「工藤拓,松本裕治,“チャンキングの段階適用による日本語係り受け解析”,情報処理学会論文誌,43(6),1834−1842(2001)」)”を用いれば良い。
音声合成処理へと戻り、話者テキスト対応データに基づいて、登場人物iごとに対応付けられた発声テキストを解析して、各発声テキストに出現する表情を特定する(S340)。このS340における解析は、上述した単語表情情報に基づいて、発声テキストに含まれる各単語によって表される表情の内容を取得することで実施すれば良い。
続いて、指定文章データWTによって表される文章中の登場人物iごとに、S340における表情解析の結果を集計し、登場人物iごとの表情の分布を表すテキスト表情分布tpd(i,k)を導出する(S350)。このS350にて導出するテキスト表情分布tpd(i,k)は、登場人物iが発生すべき文章にて出現する各種類の表情kの分布度合いを表すものである。
さらに、指定文章データWTの各登場人物iに対して、音声出力端末60を介して指定された人物(即ち、配役j)を表す配役情報を取得する(S360)。すなわち、配役情報とは、音声出力端末60を介して指定された人物に対応する発声者特徴データである。
そして、S360にて取得した配役情報によって表される配役jそれぞれに対応付けられた音源データSDそれぞれを、記憶部30から取得し、その取得した各音源データSDにおける表情の分布を表す音源表情分布vpd(j,k)を導出する(S370)。
このS370では、具体的には、まず、表情の内容が中立状態である表情データと対応付けられた音声パラメータspr_n(j,k)を基準とし、下記(1)式に従って、表情差分ベクトルdspr_e(j,k)を導出する。
この表情差分ベクトルdspr_e(j,k)は、図4(A)に示すように、基準となる音声パラメータ(即ち、基準パラメータ)spr_n(j,k)から、各表情kを内容とする表情データと対応付けられた音声パラメータspr_e(j,k)へのベクトルである。なお、基準パラメータsp_n(j,k)とは、配役jと対応付けられた音声パラメータspr_e(j,k)の中で、表情kが中立状態であることを表すタグデータTGと対応付けられた音声パラメータである。なお、ここで言う表情kが中立状態であることとは、無表情であることを含むものである。
さらに、S370では、下記(2)式に従って、表情差分ベクトルdspr_e(j,k)のスカラー量の最大値が「1」となるように正規化することで、音源表情分布vpd(j,k)を導出する。ただし、(2)式中の関数maxは、最大値を返答する関数である。
続いて、下記(3)式に従って、表情差分ベクトルdspr_e(j,k)を音源表情分布vpd(j,k)で除して正規化し、均一差分ベクトルndspr_e(j,k)を算出する(S380)。
この均一差分ベクトルndspr_e(j,k)は、図4(B)に示すように、基準パラメータspr_n(j,k)から、各内容の表情kを表す表情データと対応付けられた音声パラメータspr_e(j,k)までのスカラー量が均一となるように正規化されている。
さらに、音声合成処理では、下記(4)式に従って、配役情報によって表される配役jごとの音源データSDそれぞれに対して、テキスト表情分布tpd(i,k)を反映し、補正パラメータe_spa(j)を導出する(S390)。なお、(4)式における関数vchは、各発生テキストを発声する登場人物iに対して配役jを対応付ける関数である。
すなわち、(4)式では、図5(A)に示すように、テキスト表情分布tpd(i,k)を均一差分ベクトルndspr_e(j,k)に乗じて表情重付差分ベクトルを導出する。さらに、(4)式では、図5(B)に示すように、表情重付差分ベクトルを基準パラメータspr_n(j,k)に加えることで補正パラメータe_spa(j)を導出する。
そのS390にて導出された配役jごとの補正パラメータe_spa(j)に基づいて、指定文章データWTによって表される文章の内容に沿って音声合成を実行して合成音を生成する(S400)。続いて、S400にて生成された合成音を音声出力端末60へと配信し、その音声出力端末60に合成音を出力させる(S410)。
その後、本音声合成処理を終了する。
つまり、音声合成処理では、指定文章データWTによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布tpd(i,k)を登場人物iごとに導出する。そして、音声出力端末60を介して指定された、各配役jに対応する音源データSDをそれぞれ取得して解析し、音源データSDごとに、当該音源データSDに含まれる音声パラメータsprにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布vpd(j,k)を導出する。
さらに、音声合成処理では、登場人物iごとのテキスト表情分布tpd(i,k)に、各登場人物iに対する配役jごとの音源表情分布vpd(j,k)それぞれが合致するように、各音源表情分布vpd(j,k)を構成する音声パラメータspr(j)を補正して、補正パラメータe_spr(j)を導出する。そして、指定文章データWTによって表される文章のそれぞれについて、各文章に対応する補正パラメータe_spa(j)に従って音声合成を実行して合成音を音声出力端末60から出力させる。
[実施形態の効果]
以上説明したように、音声合成システム1によれば、テキスト表情分布tpd(i,k)に音源表情分布vpd(j,k)それぞれが合致するように、各音源表情分布vpd(j,k)を構成する音声パラメータspr(j)を補正した補正パラメータe_spr(j)を導出することができる。
音声合成システム1によれば、その導出した補正パラメータe_spr(j)を用いて音声合成を実行するため、指定文章データWTに適した表情を、その音声合成による合成音に付与できる。
特に、音声合成システム1によれば、ユーザが指定した配役jの音源データSDに含まれる音声パラメータsprを補正して音声合成を実行するため、ユーザが指定した配役jの音声に最適な感情を付与させて、指定文章データWTを読み上げることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
すなわち、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
例えば、上記実施形態では、補正パラメータe_spa(j)を(4)式に基づいて導出していたが、補正パラメータe_spa(j)は、これに限るものではない。すなわち、補正パラメータe_spa(j)は、表情分布値が最大となる表情kmaxの内容を用いて、下記(5)式に従って導出しても良い。
ただし、この場合における表情kmaxは、下記(6)式に従って導出することが好ましい。
また、上記実施形態の音声合成処理では、情報処理サーバ10にてS400,S410を実行し、情報処理サーバ10にて生成した合成音を音声出力端末60から出力していたが、S400,S410を実行する装置は、これに限るものではない。例えば、音声合成処理におけるS400,S410は、音声出力端末60にて実行されても良い。
つまり、テキスト表情分布tpd(i,k)に音源表情分布vpd(j,k)それぞれが合致するように、補正パラメータe_spa(j)を導出し、指定文章データWTによって表される文章のそれぞれについて、各文章に対応する補正パラメータe_spa(j)に従って音声合成を実行して合成音を出力可能であれば、音声合成処理を構成する各ステップを、情報処理サーバ10または音声出力端末60のいずれで実行しても良い。また、音声合成処理自体が音声出力端末60にて実行されても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の音声合成処理におけるS310,S320が、特許請求の範囲の記載における文章取得手段に相当し、S330〜S350が、特許請求の範囲の記載における文章解析手段に相当し、S360,S370が、特許請求の範囲の記載における音源解析手段に相当する。そして、音源合成処理におけるS380,S390が、特許請求の範囲の記載におけるパラメータ補正手段に相当し、このうち、S380が、特許請求の範囲の記載における均一差分導出手段に相当し、S390が、特許請求の範囲の記載における表情反映手段に相当する。
なお、音声合成処理におけるS400,S410が、特許請求の範囲の記載における音声合成手段に相当する。
1…音声合成システム 10…情報処理サーバ 12…通信部 20…制御部 22…ROM 24…RAM 26…CPU 30…記憶部 60…音声出力端末 61…通信部 62…情報受付部 63…表示部 64…音入力部 65…音出力部 66…記憶部 70…制御部 72…ROM 74…RAM 76…CPU

Claims (3)

  1. 指定された文章を構成する文字列を表す文章データを取得する文章取得手段と、
    前記文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手段と、
    複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、前記規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、前記表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、前記音源データが格納された記憶装置から、指定された発声者に対応する前記音源データである指定音源データを取得して解析し、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手段と、
    前記文章解析手段にて導出されたテキスト表情分布に、前記音源解析手段にて導出された音源表情分布が合致するように、前記指定音源データに含まれる音声パラメータを補正した補正パラメータを導出するパラメータ補正手段と、
    前記パラメータ補正手段で導出された補正パラメータに基づいて、前記文章取得手段で取得した文章データによって表される文章の音声合成を実行する音声合成手段と
    を備えることを特徴とする音声合成システム。
  2. 前記音源解析手段は、
    表情が中立状態であることを表す表情データと対応付けられた音声パラメータを基準パラメータとし、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各表情の強さを、前記基準パラメータからのベクトルで表した表情差分ベクトルを前記表情の種類ごとに導出し、全ての前記表情差分ベクトルのスカラー量の最大値が1となるように、前記表情差分ベクトルを正規化した結果を前記音源表情分布として導出し、
    前記パラメータ補正手段は、
    前記表情差分ベクトルそれぞれを前記音源表情分布にて除した均一差分ベクトルを導出する均一差分導出手段と、
    前記文章解析手段にて導出されたテキスト表情分布を前記均一差分導出手段で導出された均一差分ベクトルそれぞれに乗じた結果に、前記基準パラメータを加えることで、前記補正パラメータを導出する表情反映手段と
    を備えることを特徴とする請求項1に記載の音声合成システム。
  3. 指定された文章を構成する文字列を表す文章データを取得する文章取得手順と、
    前記文章取得手順で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手順と、
    複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、前記規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、前記表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、前記音源データが格納された記憶装置から、指定された発声者に対応する前記音源データである指定音源データを取得して解析し、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手順と、
    前記文章解析手順にて導出されたテキスト表情分布に、前記音源解析手順にて導出された音源表情分布が合致するように、前記指定音源データに含まれる音声パラメータを補正した補正パラメータを導出するパラメータ補正手順と、
    前記パラメータ補正手順で導出された補正パラメータに基づいて、前記文章取得手順で取得した文章データによって表される文章の音声合成を実行する音声合成手順と
    を備えることを特徴とする音声合成方法。
JP2013071951A 2013-03-29 2013-03-29 音声合成システム、及び音声合成方法 Active JP5949634B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013071951A JP5949634B2 (ja) 2013-03-29 2013-03-29 音声合成システム、及び音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013071951A JP5949634B2 (ja) 2013-03-29 2013-03-29 音声合成システム、及び音声合成方法

Publications (2)

Publication Number Publication Date
JP2014197072A true JP2014197072A (ja) 2014-10-16
JP5949634B2 JP5949634B2 (ja) 2016-07-13

Family

ID=52357911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013071951A Active JP5949634B2 (ja) 2013-03-29 2013-03-29 音声合成システム、及び音声合成方法

Country Status (1)

Country Link
JP (1) JP5949634B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021006896A (ja) * 2019-06-27 2021-01-21 ネイバー コーポレーションNAVER Corporation スマートリーディング機器およびその制御方法
CN112530405A (zh) * 2019-09-18 2021-03-19 北京声智科技有限公司 一种端到端语音合成纠错方法、系统及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021006896A (ja) * 2019-06-27 2021-01-21 ネイバー コーポレーションNAVER Corporation スマートリーディング機器およびその制御方法
CN112530405A (zh) * 2019-09-18 2021-03-19 北京声智科技有限公司 一种端到端语音合成纠错方法、系统及装置

Also Published As

Publication number Publication date
JP5949634B2 (ja) 2016-07-13

Similar Documents

Publication Publication Date Title
JP7106680B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
US10339290B2 (en) Spoken pass-phrase suitability determination
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP6336676B2 (ja) 顔構造に基づいて声を合成する方法および装置
US7996222B2 (en) Prosody conversion
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
US20200251104A1 (en) Content output management based on speech quality
US20120078607A1 (en) Speech translation apparatus, method and program
JP2017058513A (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
KR20160058470A (ko) 음성 합성 장치 및 그 제어 방법
US9508338B1 (en) Inserting breath sounds into text-to-speech output
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
US11282495B2 (en) Speech processing using embedding data
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
CN110838294A (zh) 一种语音验证方法、装置、计算机设备及存储介质
JP5954221B2 (ja) 音源特定システム、及び音源特定方法
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
US20120323569A1 (en) Speech processing apparatus, a speech processing method, and a filter produced by the method
JP6234134B2 (ja) 音声合成装置
JP2014130211A (ja) 音声出力装置、音声出力方法、およびプログラム
JP7378770B2 (ja) 評価装置、評価方法、及び評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160523

R150 Certificate of patent or registration of utility model

Ref document number: 5949634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150