JP2009025328A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2009025328A JP2009025328A JP2007185207A JP2007185207A JP2009025328A JP 2009025328 A JP2009025328 A JP 2009025328A JP 2007185207 A JP2007185207 A JP 2007185207A JP 2007185207 A JP2007185207 A JP 2007185207A JP 2009025328 A JP2009025328 A JP 2009025328A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- prosody
- length
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】複数の合成音声を同期化して出力することのできるコーパスベースの音声合成装置を得る。
【解決手段】韻律推定部20は、同一の入力テキストに対して、複数の異なる話者もしくは口調またはその双方に対応した特徴データを用いてそれぞれの音声の韻律を推定し、推定した各韻律のうち、音声の長さに関する推定結果と、それ以外の要素に関する推定結果とを切り分け、音声の長さに関する推定結果を各推定結果同士で交換して、音声の長さに関する推定結果と、それ以外の要素に関する推定結果との複数の組み合わせを作成し、素片選択部30は、組み合わせ毎に好適な音声素片を選択し、判定部100は、組み合わせ毎に音声素片の品質を評価して、最も評価の高い組み合わせに対応した音声の長さを素片選択部に出力し、素片選択部30は、その音声の長さを用いて好適な音声素片を選択して音声合成を行う。
【選択図】図1
【解決手段】韻律推定部20は、同一の入力テキストに対して、複数の異なる話者もしくは口調またはその双方に対応した特徴データを用いてそれぞれの音声の韻律を推定し、推定した各韻律のうち、音声の長さに関する推定結果と、それ以外の要素に関する推定結果とを切り分け、音声の長さに関する推定結果を各推定結果同士で交換して、音声の長さに関する推定結果と、それ以外の要素に関する推定結果との複数の組み合わせを作成し、素片選択部30は、組み合わせ毎に好適な音声素片を選択し、判定部100は、組み合わせ毎に音声素片の品質を評価して、最も評価の高い組み合わせに対応した音声の長さを素片選択部に出力し、素片選択部30は、その音声の長さを用いて好適な音声素片を選択して音声合成を行う。
【選択図】図1
Description
本発明は、コーパスベースの音声合成装置に関するものであり、特に、複数の合成音声を同期化して出力するものに関する。
従来、『簡単な処理で同一テキストを複数の話者に同時に発声させる。』ことを目的とした技術として、『複数音声指示器17は、複数音声合成器16に対して、ピッチの変形率と混合率とを指示する。複数音声合成器16は、音声素片データベース15から読み出された音声素片データと音声素片選択器14からの韻律情報とに基づいて波形重畳によって標準音声信号を生成する。さらに、上記韻律情報と複数音声指示器17からの指示情報とに基づいて、上記標準音声信号の時間軸を伸縮して声の高さを変える。そして、上記標準音声信号と伸縮音声信号とを混合して出力端子18から出力する。したがって、テキスト解析や韻律生成の処理を時分割で並行して行ったり、ピッチ変換処理を後処理として加えることなく、同一のテキストに基づく複数話者による同時発声を実現できる。』というものが提案されている(特許文献1)。
上記特許文献1に記載の技術では、同一テキストを複数の話者に同時に発声させることが可能である一方で、音声素片データベース15を用いずに韻律生成器を構築しているため、コーパスベースの音声合成には適さないという課題がある。
即ち、コーパスベース音声合成では、音声素片データベースに対応した韻律生成器を用いないと、合成音声の品質が悪くなってしまうところ、上記特許文献1に記載の技術ではその課題が解決されない。
即ち、コーパスベース音声合成では、音声素片データベースに対応した韻律生成器を用いないと、合成音声の品質が悪くなってしまうところ、上記特許文献1に記載の技術ではその課題が解決されない。
また、従来のコーパスベース音声合成では、複数の合成音声を同期化して出力するといった処理はそもそも考慮されていない。
そのため、複数の合成音声を同期化して出力することのできるコーパスベースの音声合成装置が望まれていた。
本発明に係る音声合成装置は、複数の合成音声を同期化して出力するコーパスベースの音声合成装置であって、合成する音声の入力テキストを受け取って解析するテキスト処理部と、音声の韻律の特徴データを格納した話者DBと、前記テキスト処理部の解析結果と前記話者DBに格納されている特徴データとから音声の韻律を推定する韻律推定部と、音声素片を格納した音声DBと、前記韻律推定部の推定結果に基づき前記音声DBより好適な音声素片を選択する素片選択部と、前記素片選択部が選択した音声素片の品質を所定のコスト関数で評価する判定部と、を備え、前記韻律推定部は、同一の入力テキストに対して、複数の異なる話者もしくは口調またはその双方に対応した前記特徴データを用いてそれぞれの音声の韻律を推定し、推定した各韻律のうち、音声の長さに関する推定結果と、それ以外の要素に関する推定結果とを切り分け、音声の長さに関する推定結果を各推定結果同士で交換して、音声の長さに関する推定結果と、それ以外の要素に関する推定結果との複数の組み合わせを作成し、前記素片選択部は、前記組み合わせ毎に好適な音声素片を選択し、前記判定部は、前記組み合わせ毎に音声素片の品質を評価して、最も評価の高い前記組み合わせに対応した音声の長さを前記素片選択部に出力し、前記素片選択部は、その音声の長さを用いて好適な音声素片を選択して音声合成を行うものである。
本発明に係る音声合成装置によれば、話者や口調が異なる音声を用いて構築された音声素片データベースを持つコーパスベースの音声合成において、テンポのずれがなく同期化された合成音声の発声を行うことができる。
実施の形態1.
図1は、本発明の実施の形態1に係る音声合成装置の機能ブロック図である。
図1において、左半分の構成と右半分の構成は、それぞれ同様の構成を有し、それぞれ符号「a」「b」を付して区別する。
ただし、話者データベース(以下、話者DBと称す)60a、60bと、音声データベース(以下、音声DBと称す)50a、50bは、それぞれ異なるデータを格納しており、したがって左半分の構成と右半分の構成は、同一の入力テキストを受け取っても、異なる話者や口調の合成音声を出力するように構成されているものとする。
図1は、本発明の実施の形態1に係る音声合成装置の機能ブロック図である。
図1において、左半分の構成と右半分の構成は、それぞれ同様の構成を有し、それぞれ符号「a」「b」を付して区別する。
ただし、話者データベース(以下、話者DBと称す)60a、60bと、音声データベース(以下、音声DBと称す)50a、50bは、それぞれ異なるデータを格納しており、したがって左半分の構成と右半分の構成は、同一の入力テキストを受け取っても、異なる話者や口調の合成音声を出力するように構成されているものとする。
テキスト処理部10a、10bは、それぞれ同一の入力テキストを受け取り、形態素解析、係り受け解析を行い、音素記号とアクセント記号に変換して出力する。
話者DB60a、60bは、音素持続時間(音の長さ)、基本周波数(音の高さF0)、母音中心のパワー(音の大きさ)等の、音声の韻律に関する特徴量を、統計的にモデル化して格納しているデータベースである。
韻律推定部20a、20bは、テキスト処理部10a、10bが出力した、音素記号列、アクセント記号、および形態素解析結果から得られる入力テキストの品詞情報から、話者DB60a、60bを用いて、入力テキストに対応した上記各特徴量を推定する。
話者DB60a、60bは、音素持続時間(音の長さ)、基本周波数(音の高さF0)、母音中心のパワー(音の大きさ)等の、音声の韻律に関する特徴量を、統計的にモデル化して格納しているデータベースである。
韻律推定部20a、20bは、テキスト処理部10a、10bが出力した、音素記号列、アクセント記号、および形態素解析結果から得られる入力テキストの品詞情報から、話者DB60a、60bを用いて、入力テキストに対応した上記各特徴量を推定する。
テンポ判定部100は、後述の図7で説明する構成を備え、図1の左半分の構成と右半分の構成とで合成した音声のコスト判定を行い、いずれの側の音の長さを用いて合成音声の同期化を行うかを判定する。
同期化判定の詳細については、後述の図2〜図6で説明する。
同期化判定の詳細については、後述の図2〜図6で説明する。
音声DB50a、50bは、音声素片を格納しているデータベースである。
素片選択部30a、30bは、音声DB50a、50bより、韻律推定部20a、20bが推定した音素持続時間、基本周波数、母音中心のパワー等に最も近く、かつ、音声素片を接続したときの歪みが最も小さくなる音声素片を、動的計画法などの手法により選択する。
素片接続部40a、40bは、素片選択部30a、30bが選択した音声素片を波形接続して合成音声を生成し、出力する。素片接続部40aと40bが出力する合成音声は、同期化されている。
素片選択部30a、30bは、音声DB50a、50bより、韻律推定部20a、20bが推定した音素持続時間、基本周波数、母音中心のパワー等に最も近く、かつ、音声素片を接続したときの歪みが最も小さくなる音声素片を、動的計画法などの手法により選択する。
素片接続部40a、40bは、素片選択部30a、30bが選択した音声素片を波形接続して合成音声を生成し、出力する。素片接続部40aと40bが出力する合成音声は、同期化されている。
図1の構成の下で合成音声の同期化を行う場合、左半分の話者DB60aに対応したテンポで同期化を行うか、あるいは右半分の話者DB60bに対応したテンポで同期化を行うか、を決定しなければならない。
いずれのテンポで同期化を行うかを定めた後は、適宜伸縮処理等を行って同期化を行うことができるが、いずれのテンポに合わせるかによって合成音声の品質が左右される。即ち、同期化を行いつつ、同期化されたそれぞれの合成音声の品質が優れていることが望ましい。
いずれのテンポで同期化を行うかを定めた後は、適宜伸縮処理等を行って同期化を行うことができるが、いずれのテンポに合わせるかによって合成音声の品質が左右される。即ち、同期化を行いつつ、同期化されたそれぞれの合成音声の品質が優れていることが望ましい。
そこで、本発明では、単にいずれかのテンポに合わせて単純に同期化を行うのみならず、いずれのテンポに合わせるかを定めるに際して、同期化後の合成音声の品質を、評価指標に用いることとする。
以下、図2〜図6を用いて、本実施の形態1に係る音声合成装置の動作を説明する。
以下、図2〜図6を用いて、本実施の形態1に係る音声合成装置の動作を説明する。
図2は、韻律推定部20a、20bが1回目の韻律推定を行うまでの過程を示すものである。以下、各ステップについて説明する。
(1)テキスト処理
テキスト処理部10a、10bは、それぞれ同一の入力テキストを受け取り、形態素解析、係り受け解析を行い、音素記号列とアクセント記号に変換して出力する。また、形態素解析の結果を、同時に出力する。
テキスト処理部10a、10bは、それぞれ同一の入力テキストを受け取り、形態素解析、係り受け解析を行い、音素記号列とアクセント記号に変換して出力する。また、形態素解析の結果を、同時に出力する。
(2)韻律推定
韻律推定部20a、20bは、テキスト処理部10a、10bが出力した音素記号列、アクセント記号等を受け取り、話者DB60a、60bを用いて、入力テキストに対応した、音素持続時間(音の長さ)、基本周波数(音の高さF0)、母音中心のパワー(音の大きさ)等の、音声の韻律に関する特徴量を推定する。
韻律推定部20a、20bは、テキスト処理部10a、10bが出力した音素記号列、アクセント記号等を受け取り、話者DB60a、60bを用いて、入力テキストに対応した、音素持続時間(音の長さ)、基本周波数(音の高さF0)、母音中心のパワー(音の大きさ)等の、音声の韻律に関する特徴量を推定する。
韻律推定部20aによる推定結果を「韻律1」と呼び、韻律1は、「音の長さ(20a)」「音の高さ(20a)」「音の大きさ(20a)」等の特徴量からなるものとする。
韻律推定部20bによる推定結果を「韻律2」と呼び、韻律2は、「音の長さ(20b)」「音の高さ(20b)」「音の大きさ(20b)」等の特徴量からなるものとする。
各推定結果は、それぞれ素片選択部30a、30bに出力される。
韻律推定部20bによる推定結果を「韻律2」と呼び、韻律2は、「音の長さ(20b)」「音の高さ(20b)」「音の大きさ(20b)」等の特徴量からなるものとする。
各推定結果は、それぞれ素片選択部30a、30bに出力される。
図3は、韻律推定部20a、20bが2回目の韻律推定を行うまでの過程を示すものである。以下、各ステップについて説明する。
(3)音の長さの交換
韻律推定部20a、20bは、テンポ判定部100を介して、ステップ(2)で推定した「音の長さ(20a)」「音の長さ(20b)」を互いに交換する。
韻律推定部20a、20bは、テンポ判定部100を介して、ステップ(2)で推定した「音の長さ(20a)」「音の長さ(20b)」を互いに交換する。
(4)韻律推定
韻律推定部20a、20bは、テキスト処理部10a、10bが出力した音素記号列、アクセント記号等、ステップ(3)で受け取った「音の長さ(20b)」「音の長さ(20a)」、および話者DB60a、60bを用いて、入力テキストおよび「音の長さ(20b)」「音の長さ(20a)」に対応した、基本周波数、母音中心のパワー等の、音声の韻律に関する特徴量を推定する。
韻律推定部20a、20bは、テキスト処理部10a、10bが出力した音素記号列、アクセント記号等、ステップ(3)で受け取った「音の長さ(20b)」「音の長さ(20a)」、および話者DB60a、60bを用いて、入力テキストおよび「音の長さ(20b)」「音の長さ(20a)」に対応した、基本周波数、母音中心のパワー等の、音声の韻律に関する特徴量を推定する。
韻律推定部20aによる2回目の推定結果を「韻律3」と呼び、韻律3は、「音の長さ(20b)」「音の高さ(20a)」「音の大きさ(20a)」等の特徴量からなるものとする。
韻律推定部20bによる2回目の推定結果を「韻律4」と呼び、韻律4は、「音の長さ(20a)」「音の高さ(20b)」「音の大きさ(20b)」等の特徴量からなるものとする。
韻律推定部20bによる2回目の推定結果を「韻律4」と呼び、韻律4は、「音の長さ(20a)」「音の高さ(20b)」「音の大きさ(20b)」等の特徴量からなるものとする。
以上のステップ(1)〜(4)により、音の長さ(即ち合成音声のテンポ)と、それ以外の要素との組み合わせで、4種類の韻律「韻律1」〜「韻律4」が生成された。
以下、これらの韻律のいずれを用いるべきかを判定する過程について説明する。
以下、これらの韻律のいずれを用いるべきかを判定する過程について説明する。
図4は、テンポ判定部100が最適な韻律を判定するまでの過程を説明するものである。以下、各ステップについて説明する。
(5)素片選択
素片選択部30a、30bは、音声DB50a、50bより、ステップ(4)で受け取った4種類の推定韻律「韻律1」〜「韻律4」の各音の長さ、高さ、大きさ等に最も近く、かつ、音声素片を接続したときの歪みが最も小さくなる音声素片を、動的計画法などの手法により選択する。
このとき、「韻律1」〜「韻律4」に対応して、4種類の音声素片の組み合わせが作成される。
素片選択部30a、30bは、音声DB50a、50bより、ステップ(4)で受け取った4種類の推定韻律「韻律1」〜「韻律4」の各音の長さ、高さ、大きさ等に最も近く、かつ、音声素片を接続したときの歪みが最も小さくなる音声素片を、動的計画法などの手法により選択する。
このとき、「韻律1」〜「韻律4」に対応して、4種類の音声素片の組み合わせが作成される。
(6)コスト算出
素片選択部30a、30bは、ステップ(5)で選択した音声素片について、各推定韻律「韻律1」〜「韻律4」毎に、所定のコスト関数を用いて合成音声の自然さを定義したコスト値を求める。
ここでのコスト値とは、観測可能な特徴量(物理量、言語情報)から心理量へのコスト関数によるマッピングを行ったものであり、値が小さいほど、より自然な音声に近くなるように定義する。
「韻律1」〜「韻律4」に対応するそれぞれのコスト値は、テンポ判定部100に出力される。
素片選択部30a、30bは、ステップ(5)で選択した音声素片について、各推定韻律「韻律1」〜「韻律4」毎に、所定のコスト関数を用いて合成音声の自然さを定義したコスト値を求める。
ここでのコスト値とは、観測可能な特徴量(物理量、言語情報)から心理量へのコスト関数によるマッピングを行ったものであり、値が小さいほど、より自然な音声に近くなるように定義する。
「韻律1」〜「韻律4」に対応するそれぞれのコスト値は、テンポ判定部100に出力される。
(7)最適韻律の判定
テンポ判定部100は、ステップ(6)で受け取った「韻律1」〜「韻律4」に対応するそれぞれのコスト値に基づき、最適な韻律を判定する。判定手法について、次の図5で説明する。
テンポ判定部100は、ステップ(6)で受け取った「韻律1」〜「韻律4」に対応するそれぞれのコスト値に基づき、最適な韻律を判定する。判定手法について、次の図5で説明する。
図5は、テンポ判定部100が最適韻律を判定する手法を説明するものである。
テンポ判定部100は、ステップ(6)で受け取った各コスト値について、「韻律2のコスト値+韻律3のコスト値」を求めるとともに、「韻律1のコスト値+韻律4のコスト値」を求める。
テンポ判定部100は、ステップ(6)で受け取った各コスト値について、「韻律2のコスト値+韻律3のコスト値」を求めるとともに、「韻律1のコスト値+韻律4のコスト値」を求める。
「韻律2のコスト値+韻律3のコスト値」は、「音の長さ(20b)」を共通項目として、「音の高さ(20a)、音の大きさ(20a)」の発声と、「音の高さ(20b)、音の大きさ(20b)」の発声とを、同期化して発声した場合の総コスト値に相当するものである。
「韻律1のコスト値+韻律4のコスト値」は、「音の長さ(20a)」を共通項目として、「音の高さ(20a)、音の大きさ(20a)」の発声と、「音の高さ(20b)、音の大きさ(20b)」の発声とを、同期化して発声した場合の総コスト値に相当するものである。
「韻律1のコスト値+韻律4のコスト値」は、「音の長さ(20a)」を共通項目として、「音の高さ(20a)、音の大きさ(20a)」の発声と、「音の高さ(20b)、音の大きさ(20b)」の発声とを、同期化して発声した場合の総コスト値に相当するものである。
この2つの総コスト値を比較することにより、総コスト値の小さい方を選択する。総コスト値の小さいほうの音の長さのほうがより自然な合成音で同時発声が可能なものとなる。このようにして、「音の長さ(20a)」「音の長さ(20b)」のいずれのテンポで同期化して発声を行えば最も自然であるかを判定することができる。
ここでは、仮に「韻律2のコスト値+韻律3のコスト値」の方が小さかったものとして以下の説明を行う。
ここでは、仮に「韻律2のコスト値+韻律3のコスト値」の方が小さかったものとして以下の説明を行う。
図6は、同期化された合成音声を出力するまでの過程を説明するものである。以下、各ステップについて説明する。
(8)最適韻律の出力
テンポ判定部100は、ステップ(7)で判定した最適な韻律を、それぞれ素片選択部30a、30bに出力する。ここでは、「韻律3」を素片選択部30aに、「韻律2」を素片選択部30bに、それぞれ出力する。
テンポ判定部100は、ステップ(7)で判定した最適な韻律を、それぞれ素片選択部30a、30bに出力する。ここでは、「韻律3」を素片選択部30aに、「韻律2」を素片選択部30bに、それぞれ出力する。
(9)素片選択
素片選択部30a、30bは、音声DB50a、50bより、ステップ(8)で受け取った2種類の推定韻律「韻律2」「韻律3」の各音の長さ、高さ、大きさ等に最も近く、かつ、音声素片を接続したときの歪みが最も小さくなる音声素片を、動的計画法などの手法により選択する。
本ステップでは、音声素片を再選択していることになるが、推定された韻律へのインデックス付与と、選択された音声素片のパスの記憶とを組み合わせることにより、計算量を減らすことができる。
素片選択部30a、30bは、音声DB50a、50bより、ステップ(8)で受け取った2種類の推定韻律「韻律2」「韻律3」の各音の長さ、高さ、大きさ等に最も近く、かつ、音声素片を接続したときの歪みが最も小さくなる音声素片を、動的計画法などの手法により選択する。
本ステップでは、音声素片を再選択していることになるが、推定された韻律へのインデックス付与と、選択された音声素片のパスの記憶とを組み合わせることにより、計算量を減らすことができる。
また、本ステップでは、テンポ判定部100により判定された最終的な音の長さと、選択された音声素片の長さとが一致するように、伸縮処理を行う。
伸縮処理は、例えば、音声素片内の中心部での1ピッチ波形分を抽出し、伸ばす場合は抽出したピッチ波形を追加、縮める場合は抽出したピッチ波形を取り除くことにより実行する。
なお、伸縮処理を行って一致させても完全には一致しないため、ある閾値を設定し、伸縮の限度を定めておくこともできる。
伸縮処理は、例えば、音声素片内の中心部での1ピッチ波形分を抽出し、伸ばす場合は抽出したピッチ波形を追加、縮める場合は抽出したピッチ波形を取り除くことにより実行する。
なお、伸縮処理を行って一致させても完全には一致しないため、ある閾値を設定し、伸縮の限度を定めておくこともできる。
(10)波形接続
素片接続部40a、40bは、ステップ(9)で素片選択部30a、30bが選択した音声素片を波形接続でつなぎ合わせ、合成音声を出力する。出力される合成音声は、「音の長さ(20b)」で同期が取れており、同じテンポで同じ入力テキストを発声するように構成されている。
素片接続部40a、40bは、ステップ(9)で素片選択部30a、30bが選択した音声素片を波形接続でつなぎ合わせ、合成音声を出力する。出力される合成音声は、「音の長さ(20b)」で同期が取れており、同じテンポで同じ入力テキストを発声するように構成されている。
図7は、テンポ判定部100の機能ブロック図である。
上述のステップ(1)〜(10)では、テンポ判定部100の内部構成は説明しなかったが、各ステップに応じてそれぞれの機能部が存在する。
上述のステップ(1)〜(10)では、テンポ判定部100の内部構成は説明しなかったが、各ステップに応じてそれぞれの機能部が存在する。
テンポ送信部101は、ステップ(3)において、韻律推定部20a、20bから、それぞれが推定した「音の長さ(20a)」「音の長さ(20b)」を受け取り、もう一方の韻律推定部に送信することで、音の長さの交換を行う。
韻律対応部102は、ステップ(2)(4)で、韻律推定部20a、20bが推定した各推定韻律「韻律1」〜「韻律4」を保持する。また、ステップ(8)において、保持している韻律のうち、ステップ(7)で判定した最適な韻律を、それぞれ素片選択部30a、30bに出力する。
コスト判定部103は、ステップ(7)において、ステップ(6)で受け取った「韻律1」〜「韻律4」に対応するそれぞれのコスト値に基づき、図5で説明したような手法により、最適な韻律を判定する。
なお、テキスト処理部10a、10b、韻律推定部20a、20b、素片選択部30a、30b、素片接続部40a、40bは、これらの機能を実現する回路デバイス等のハードウェアを用いて構成することもできるし、マイコンやCPU等の演算装置上で動作するソフトウェアとして構成することもできる。
テキスト処理部10a、10bは、入力テキストを受け取るために必要なインターフェースを適宜備える。
素片接続部40a、40bは、合成音声を出力するために必要なインターフェースを適宜備える。合成音声の形式は、音声データでもよいし、スピーカー等により出力される音声そのものでもよい。
素片接続部40a、40bは、合成音声を出力するために必要なインターフェースを適宜備える。合成音声の形式は、音声データでもよいし、スピーカー等により出力される音声そのものでもよい。
音声DB50a、50b、話者DB60a、60bは、HDD(Hard Disk Drive)等の記憶装置に、必要な音声素片、特徴量等のデータを格納することにより構成することができる。
以上のように、本実施の形態1によれば、韻律推定部20a、20bがそれぞれ推定した韻律のいずれかを用いて音声合成を行うので、話者や口調が異なる音声を用いて構築された音声素片データベースを持つコーパスベースの音声合成において、テンポのずれがなく同期化された合成音声の発声を行うことができる。
また、いずれの韻律を用いて同期化を行うかを判定するに際し、テンポ判定部100は「音の長さ(20a)」「音の長さ(20b)」それぞれの長さについてのコスト値を合算し、いずれの音の長さで同期化発声した方がより自然であるかを判定するので、単に合成音声の同期化を図るというのみならず、より自然に同期化された合成音声を得ることができる。
実施の形態2.
上記実施の形態1で説明した音声合成装置を用いたアプリケーションの例として、以下のようなものが考えられる。
上記実施の形態1で説明した音声合成装置を用いたアプリケーションの例として、以下のようなものが考えられる。
(例1)「いらっしゃいませ」という発声を、男声と女声との2名の話者で同時に発声させる。
(例2)複数名でなるグループの各人の声を合成し、同期化させて発声させる。グループメンバーが同時にあるフレーズを発声したような効果が得られる。
(例2)複数名でなるグループの各人の声を合成し、同期化させて発声させる。グループメンバーが同時にあるフレーズを発声したような効果が得られる。
なお、上記実施の形態1〜2において、話者DBや音声DBは2種類用意されており、生成される韻律パターンは2×2=4種類であったが、これに限られるものではなく、任意の数の組み合わせで同期化発声を行うことができる。
10a、10b テキスト処理部、20a、20b 韻律推定部、30a、30b 素片選択部、40a、40b 素片接続部、50a、50b 音声DB、60a、60b 話者DB、100 テンポ判定部、101 テンポ送信部、102 韻律対応部、103 コスト判定部。
Claims (3)
- 複数の合成音声を同期化して出力するコーパスベースの音声合成装置であって、
合成する音声の入力テキストを受け取って解析するテキスト処理部と、
音声の韻律の特徴データを格納した話者DBと、
前記テキスト処理部の解析結果と前記話者DBに格納されている特徴データとから音声の韻律を推定する韻律推定部と、
音声素片を格納した音声DBと、
前記韻律推定部の推定結果に基づき前記音声DBより好適な音声素片を選択する素片選択部と、
前記素片選択部が選択した音声素片の品質を所定のコスト関数で評価する判定部と、
を備え、
前記韻律推定部は、
同一の入力テキストに対して、複数の異なる話者もしくは口調またはその双方に対応した前記特徴データを用いてそれぞれの音声の韻律を推定し、
推定した各韻律のうち、音声の長さに関する推定結果と、それ以外の要素に関する推定結果とを切り分け、
音声の長さに関する推定結果を各推定結果同士で交換して、音声の長さに関する推定結果と、それ以外の要素に関する推定結果との複数の組み合わせを作成し、
前記素片選択部は、前記組み合わせ毎に好適な音声素片を選択し、
前記判定部は、
前記組み合わせ毎に音声素片の品質を評価して、最も評価の高い前記組み合わせに対応した音声の長さを前記素片選択部に出力し、
前記素片選択部は、
その音声の長さを用いて好適な音声素片を選択して音声合成を行う
ことを特徴とする音声合成装置。 - 前記判定部は、
前記組み合わせ毎に音声素片の品質を評価し、各評価値のうち音声の長さが同一のものをそれぞれ合算して第2の組み合わせを作成し、
前記第2の組み合わせのうち評価値の合算値が最も小さいものの音声の長さを前記素片選択部に出力し、
前記素片選択部は、
その音声の長さを用いて好適な音声素片を選択して音声合成を行う
ことを特徴とする請求項1に記載の音声合成装置。 - 前記素片選択部は、
前記判定部が前記第2の組み合わせ毎に音声素片の品質を評価して得られた前記音声の長さを用いて好適な音声素片を選択する際には、
その音声の長さと、選択した音声素片の長さとが一致するように、伸縮処理を行う
ことを特徴とする請求項2に記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007185207A JP2009025328A (ja) | 2007-07-17 | 2007-07-17 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007185207A JP2009025328A (ja) | 2007-07-17 | 2007-07-17 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009025328A true JP2009025328A (ja) | 2009-02-05 |
Family
ID=40397221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007185207A Pending JP2009025328A (ja) | 2007-07-17 | 2007-07-17 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009025328A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010119534A1 (ja) * | 2009-04-15 | 2010-10-21 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
CN110675858A (zh) * | 2019-08-29 | 2020-01-10 | 平安科技(深圳)有限公司 | 基于情绪识别的终端控制方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001242882A (ja) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | 音声合成方法及び音声合成装置 |
JP2002202789A (ja) * | 2000-12-28 | 2002-07-19 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
JP2004077608A (ja) * | 2002-08-12 | 2004-03-11 | Yamaha Corp | 合唱合成装置、合唱合成方法およびプログラム |
JP2006337468A (ja) * | 2005-05-31 | 2006-12-14 | Brother Ind Ltd | 音声合成装置及び音声合成プログラム |
-
2007
- 2007-07-17 JP JP2007185207A patent/JP2009025328A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001242882A (ja) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | 音声合成方法及び音声合成装置 |
JP2002202789A (ja) * | 2000-12-28 | 2002-07-19 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
JP2004077608A (ja) * | 2002-08-12 | 2004-03-11 | Yamaha Corp | 合唱合成装置、合唱合成方法およびプログラム |
JP2006337468A (ja) * | 2005-05-31 | 2006-12-14 | Brother Ind Ltd | 音声合成装置及び音声合成プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010119534A1 (ja) * | 2009-04-15 | 2010-10-21 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
JP5300975B2 (ja) * | 2009-04-15 | 2013-09-25 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
CN110675858A (zh) * | 2019-08-29 | 2020-01-10 | 平安科技(深圳)有限公司 | 基于情绪识别的终端控制方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6505158B1 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US6101470A (en) | Methods for generating pitch and duration contours in a text to speech system | |
JP5293460B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP5471858B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
MXPA01006594A (es) | Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion. | |
JP5320363B2 (ja) | 音声編集方法、装置及び音声合成方法 | |
JP2020012855A (ja) | テキスト表示用同期情報生成装置および方法 | |
Angelini et al. | Singing synthesis: with a little help from my attention | |
JP4564416B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2009025328A (ja) | 音声合成装置 | |
JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2008015424A (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム | |
JP5275470B2 (ja) | 音声合成装置およびプログラム | |
CN102122505A (zh) | 一种提高语音合成系统表现力的建模方法 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP4454780B2 (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 | |
JPWO2009044596A1 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
Paulo et al. | Reducing the corpus-based TTS signal degradation due to speaker's word pronunciations. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111003 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120410 |