JP2012088555A - 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体 - Google Patents

音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体 Download PDF

Info

Publication number
JP2012088555A
JP2012088555A JP2010235568A JP2010235568A JP2012088555A JP 2012088555 A JP2012088555 A JP 2012088555A JP 2010235568 A JP2010235568 A JP 2010235568A JP 2010235568 A JP2010235568 A JP 2010235568A JP 2012088555 A JP2012088555 A JP 2012088555A
Authority
JP
Japan
Prior art keywords
speech
unit
selection
segment
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010235568A
Other languages
English (en)
Other versions
JP5747471B2 (ja
Inventor
Tadashi Yamaura
正 山浦
Hirohisa Tazaki
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2010235568A priority Critical patent/JP5747471B2/ja
Publication of JP2012088555A publication Critical patent/JP2012088555A/ja
Application granted granted Critical
Publication of JP5747471B2 publication Critical patent/JP5747471B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 良好な品質の合成音声を生成できる音声合成システム及び音声素片辞書作成方法を得る。
【解決手段】本発明にかかる音声合成システムは、音声素片が格納されている音声データベースと、学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第1の音声素片選択手段と、前記第1の音声素片選択手段により選択された音声素片の選択度数を計測する第1の選択度数計測手段と、前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えるものである。
【選択図】 図2

Description

この発明は、任意の文章から人工的に音声信号を生成する音声合成システムに関するものであり、特に音声合成に使用される音声素片辞書の作成方法に係るものである。
任意の文章から人工的に音声信号を作り出す音声合成システムでは、入力テキストに対して言語解析処理及び韻律生成処理を実施することにより音韻記号及び韻律情報(例えば、ピッチ、音韻継続時間長、パワー等)を得て、その音韻記号及び韻律情報に対応する音声素片を音声素片辞書から選択的に読み出し、読み出した音声素片のピッチや音韻継続時間長を韻律情報に従って制御して順次接続することにより、テキストに対応した音声を合成するようにしている。
従来の音声合成システムにおける音声素片辞書では、音声データベースの音声素片情報に対してクラスタリングを行い、最適な音声素片情報を抽出して音声素片辞書に登録する方法が提案されている(例えば、特許文献1を参照)。
しかし、音声データベースに含まれる文章と音声合成器に入力する文章の音声素片の出現頻度が異なれば、音声合成器が生成する韻律情報の分布と音声データベースの音声素片の韻律情報の分布が異なることから、音声素片辞書には音声合成のために全く使用されない音声素片情報が多く含まれたままとなる。これにより、音声合成システムにおける音声素片辞書の音声素片の格納サイズが大きくなる。
そこで、大量の学習用テキスト情報(文章)を予め用意し、それを音声データベースの全ての音声素片を用いた音声合成器で予め合成し、その結果から音声データベースの各音声素片が使用された回数(頻度情報)を求め、その分布に基づいてパラメータ空間上の音声素片間の距離を計算し、クラスタリング処理を行うことにより、頻繁に使用される音声に対して多くの音声素片を割り当てるようにした音声素片辞書を作成する方法が提案されている。(例えば、特許文献2を参照)。
特開平8−263520号公報 特開平11−85193号公報
しかしながら、特許文献2に記載の上記従来の技術によれば、音声素片辞書の音声素片の分布は学習用テキスト情報に大きく依存する。例えば、地名単語など限定的な範囲の音声合成に適用する音声素片辞書を作成する場合にはその合成範囲をカバーする学習用テキスト情報を用意すれば可能となるが、webページの読み上げなど任意の文章の音声合成に適用する音声素片辞書を作成する場合には、その合成範囲をカバーするために大量の学習用テキスト情報が必要となり、十分な学習用テキスト情報を予め用意することは困難である。
また、不十分な学習用テキスト情報に基づくクラスタリングにより作成された音声素片辞書は、使用頻度によって登録される音声素片の分布(ピッチ、継続時間長等のバリエーション)に偏りが発生する。このため、この音声素片辞書を用いる音声合成システムでは、学習用テキスト情報で使用頻度が高い範囲に含まれる音声素片によって合成された音声の品質は比較的良好であるが、その範囲を外れると合成音声の品質は大きく劣化するなど、学習内/外で合成音声の品質差が大きいという課題があった。
例えば、図12に従来の音声合成システムの音声素片辞書に登録される音声素片の分布例を示す。図示するように、音声データベース内の音声素片の中から、学習用テキスト情報に対して使用頻度大の音声素片としてピッチが低いものが多く選択されている。この場合、クラスタリングにより得られるセントロイド素片(音声素片辞書に登録される音声素片)もピッチが低いものとなる。したがって、これらの音声素片が登録された音声素片辞書を使用してピッチの高い合成音声を作成する場合、音声素片のピッチを大きく変形する必要があるので、品質劣化が大きくなる。
この発明は、上記の課題を解決するためになされたもので、音声データベース内の音声素片の韻律情報等のパラメータ分布をカテゴリーに分割し、学習用の韻律情報に対する音声素片の使用頻度に応じて各カテゴリーから所定の個数の音声素片を選択し、選択した音声素片から音声素片辞書に登録する代表素片を生成することにより、音声素片の使用頻度を考慮しつつも、音声素片辞書に登録する音声素片のバリエーションを広げることができ、良好な品質の合成音声を生成できる音声合成システム及び音声素片辞書作成方法を得ることを目的にする。
本発明にかかる音声合成システムは、音声素片が格納されている音声データベースと、学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第1の音声素片選択手段と、前記第1の音声素片選択手段により選択された音声素片の選択度数を計測する第1の選択度数計測手段と、前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えるものである。
本発明によれば、良好な品質の合成音声を生成できる音声合成システム及び音声素片辞書作成方法を得ることができる。
この発明の実施の形態1にかかる音声合成システムの構成例を示すブロック図である。 この発明の実施の形態1にかかる音声素片辞書作成ユニットの構成例を示すブロック図である。 この発明の実施の形態1にかかる音声素片辞書作成ユニットの動作例を示すフローチャートである。 この発明の実施の形態1にかかる音声素片辞書に登録される音声素片の分布例を示す図である。 ある音素に対して選択された音声素片の選択度数の分布例を示す図である。 この発明の実施の形態2にかかる音声素片辞書作成ユニットの構成例を示すブロック図である。 この発明の実施の形態2にかかる音声素片辞書作成ユニットの動作例を示すフローチャートである。 この発明の実施の形態3にかかる音声合成システムの構成例を示すブロック図である。 この発明の実施の形態4にかかる音声合成システムの構成例を示すブロック図である。 この発明の実施の形態5にかかる音声合成システムの構成例を示すブロック図である。 この発明の実施の形態5にかかる音声素片辞書作成ユニットの構成例を示すブロック図である。 従来の音声合成システムの音声素片辞書に登録される音声素片の分布例を示す図である。
実施の形態1.
以下に、本実施の形態を図面に基づいて詳細に説明する。なお、以下に説明する実施の形態は、それぞれが本発明を具体化する際の一形態であって、本発明をその範囲内に限定するためのものではない。
図1は、本発明の実施の形態1にかかる音声合成システムの構成例を示すブロック図である。
図1における音声合成システムは、音声素片辞書作成ユニット100が学習用テキスト情報に応じて適切な音声素片を作成し、音声素片辞書203に音声素片を格納する。音声合成ユニット200は、音声素片辞書203を用いてテキスト情報から合成音声を生成するものである。
次に、図1における音声合成ユニット200の構成を説明する。音声合成ユニット200には、音声合成をするテキスト情報が順次入力される。
言語情報解析部201は、入力されたテキスト情報に対して言語解析処理を行い、読み、アクセントなどの言語情報を得て、この言語情報を韻律情報生成部202へ出力する。韻律情報生成部202は、言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成し、音声素片選択部204及び音声素片接続部205へ出力する。
音声素片選択部204は、韻律情報生成部202で得られた音韻記号及び韻律情報に基づき、指定された音韻記号の韻律情報に近い韻律情報を持ち、かつ、前後に選択される音声素片との接続性が良い音声素片を音声素片辞書203から選択する。例えば、韻律情報生成部202から入力された韻律情報と音声素片辞書203内の音声素片の韻律情報とを比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、それらの総和が最小になる音声素片の組み合わせ(連鎖)を選択する。なお、歪は比較する韻律情報の違いと、前後で選択される音声素片との接続性といった音韻環境の違いなどを数値化したものであり、これらの歪の重み付け和として定義されるコスト関数を最小にする音声素片の組み合わせを選択する。
音声素片選択部204によって選択された音声素片は音声素片接続部205へ出力される。音声素片接続部205は、韻律情報生成部202から入力される韻律情報に従って、音声素片選択部204で選択された音声素片を変形して接続し、合成音声を生成する。
次に、図2を用いて音声素片辞書作成ユニット100の構成について説明する。図2は、本実施の形態にかかる音声素片辞書作成ユニット100の構成例を示すブロック図である。
図2において、言語情報解析部101は、学習用テキスト情報から読み、アクセントなどの言語情報を得る言語解析処理を実施する。なお、この言語解析処理は、音声合成ユニット200における言語情報解析部201と同一の処理である。韻律情報生成部102は、言語情報解析部101で得られた読み、アクセントなどの言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成する。この韻律情報生成処理は、音声合成ユニット200における韻律情報生成部202と同一の処理である。
音声データベース103には、予め人間が発声した単音、単語、単文、文章などの音声から作成した音声素片の情報、例えば、音声波形とその音韻記号及び韻律情報とが格納されている。なお、音声素片の単位は、半音素、音素、音節など任意の単位でよい。また、前記音声波形の情報は、音声の時間波形をそのまま格納してもよいし、音声生成モデルに基づく生成パラメータに変換して格納してもよいし、また、音声符号化技術により圧縮符号化した符号を格納するなど、任意の形態をとってよい。
音声素片選択部104は、韻律情報生成部102で得られた音韻記号及び韻律情報に基づき、指定された音韻記号の韻律情報に近い韻律情報を持ち、かつ、前後に選択される音声素片との接続性が良い音声素片を音声データベース103から選択する。例えば、韻律情報生成部102から入力された韻律情報と音声データベース103内の音声素片の韻律情報とを比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ(連鎖)を選択する。この音声素片選択部104の処理は、音声合成ユニット200における音声素片選択部204と同一の処理である。なお、この音声素片選択部104が第1の音声素片選択手段に対応する。
選択度数計測部105は、音声素片選択部104によって音声データベース103から選択された音声素片の選択度数(頻度)を計測する。なお、この選択度数計測部105が第1の選択度数計測手段に対応する。カテゴリー分割部106は、音声データベース103内の音声素片の韻律情報等といったパラメータの分布を所定のカテゴリーに分割する。音声素片抽出部107は、カテゴリー分割部106により分割されたカテゴリー別に、選択度数計測部105で得られた選択度数に基づき、例えば、選択度数が最大のものから順に所定の個数の音声素片を抽出する。代表素片生成部108は、音声素片抽出部107で抽出された所定の個数の音声素片からカテゴリー別に代表素片を生成して音声素片辞書203に格納する。なお、本実施の形態における代表素片の生成は、一例として、所定の個数の音声素片についてセントロイドを求め、得られたセントロイドを代表素片とする方法を用いる。代表素片の生成について、その他の方法を用いることも可能である。また、代表素片は各カテゴリーに複数あってもよい。
次に、音声素片辞書作成ユニット100の動作を説明する。図3は、本発明の実施の形態1にかかる音声素片辞書作成ユニット100の動作例を示すフローチャートである。
まず、言語情報解析部101は、入力された学習用テキスト情報に対して言語解析処理を行い、読み、アクセントなどの言語情報を得て、この言語情報を韻律情報生成部102へ出力する(ステップST1)。韻律情報生成部102は、言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成し、音声素片選択部104へ出力する(ステップST2)。音声素片選択部104は、韻律情報生成部102から入力された音韻記号に対応する韻律情報と音声データベース103内の音声素片の韻律情報とを比較した際の歪、及び前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ(連鎖)を選択し、選択結果を選択度数計測部105へ出力する(ステップST3)。選択度数計測部105は、音声データベース103内の各音声素片の選択度数を計測し、その結果を音声素片抽出部107に出力する(ステップST4)。
一方、カテゴリー分割部106は、音声データベース103に格納されている同一音素の音声素片の韻律情報等といったパラメータの分布を所定のカテゴリーに分割する(ステップST5)。このカテゴリー分割における分割条件は、例えば、音声合成時に発生する音声素片の変形による音質劣化の知見に基づくなど、任意のテキストに対して音声合成を行っても合成音声が大きく劣化することがないように設計する。例えば、本実施の形態では、音声素片のピッチを変形すると音質劣化が大きいが、継続時間長を変形しても比較的音質劣化が小さいといった性質に基づき、同一音素の音声素片のピッチの高さをパラメータとする分布に対して、ピッチ高/中/低といった3つのカテゴリーに分割するものとする。なお、カテゴリー分割の分割条件に用いるパラメータや分割数はこれに限るものではなく、音声素片の継続時間長の長短や前後の音韻環境の種類など、他の任意のパラメータを用いてもよい。また、例えば、ピッチと継続時間長の両方をカテゴリーに分割するなど、複数のパラメータの組み合わせに基づき分割を行ってもよい。また、ある音素の音声素片の分布はピッチに基づきカテゴリー分割し、別のある音素の音声素片の分布には継続時間長に基づきカテゴリー分割するなど、複数の条件を使い分けてもよい。
なお、カテゴリー分割部による処理は図3のフローチャートの例においてステップST5となっているが、この順序に限られない。同処理はステップST1からステップST4までの処理と独立した処理であるので、選択度数の計測がなされたステップST4の後に行わなければならないということはない。したがって、例えば、ステップST1の前、またはステップST1からステップST4の処理と並行してなされていてもよい。以降の実施の形態でも同様である。
音声素片抽出部107は、カテゴリー分割部106により分割されたカテゴリー別に、選択度数が最大のものから順に所定の個数N個の音声素片を抽出する。例えば、各カテゴリーから20個の音声素片を抽出するとし、これらを代表素片生成部108に出力する(ステップST6)。代表素片生成部108は、各カテゴリーにおいて、抽出されたN個の音声素片のセントロイドを求め、得られたセントロイドをそのカテゴリーにおける代表素片として音声素片辞書203に格納する(ステップST7)。なお、カテゴリー別に抽出される音声素片の所定の個数は全カテゴリーにおいて完全に同数である必要はなく、略同数(同数である場合を含む)であってもよい。また、音声素片を抽出する方法は、選択度数が最大のものから順次抽出する方法だけに限らない。選択度数の分布のばらつきや選択度数上位の音声素片間のパラメータ分布上の距離などに応じて、音声素片を抽出する条件を変えることも可能である。例えば、選択度数の分布、または、選択度数上位の音声素片間のパラメータ分布上の距離がばらついており、最大のものから順次抽出すると代表素片が選択度数上位の分布に対して偏在してしまう場合には、順位に関わらず選択度数上位の分布から所定の個数を選択するとしてもよい。以降の実施の形態でも同様である。
図4は、本実施の形態にかかる音声素片辞書作成ユニットにより音声素片辞書に登録される音声素片の分布例である。本例では、音声データベース103内の音声素片のパラメータ分布をピッチの高さに応じて高/中/低の3つのカテゴリーに分割しており、結果、得られるセントロイド素片(音声素片辞書に登録される音声素片)もピッチ高/中/低のバリエーションを持つ。この音声素片を使用して合成音声を作成する場合、どのようなピッチの高さの合成音声でも音声素片のピッチを大きく変形する必要がないので、品質劣化を小さくすることができる。
このように、カテゴリー分割部106では、音声素片の変形に伴う合成音声の音質劣化の知見等により、予めカテゴリー分割を行い、代表素片生成部108では、各カテゴリーにおける代表素片を求めて音声素片辞書に登録しているので、音声素片辞書に登録される音声素片のバリエーションを増やすことができる。このため、学習用テキスト情報に含まれる範囲を外れる合成音声でも大きな品質劣化はなく、学習内/外で合成音の品質差を小さくすることができる。
また、代表素片生成部108では、各カテゴリーにおいて比較的少数のN個の音声素片から代表素片を生成しているので、従来例ようにカテゴリー内の全ての音声素片を用いる場合と比較して、得られる代表素片はスペクトル包絡が平坦化されず明瞭性が高い音質となり、合成音声の音色も明瞭にすることができる。
また、音声素片抽出部107においてカテゴリー別に略同数(理想的には同数)の音声素片を抽出するとしている。一方、従来例ではクラスタリングの結果、各クラスタに属する音声素片の数は必ずしも同数にはならない。クラスタに属する音声素片の数の多寡によって代表音声素片の明瞭性などの音質が異なるため、従来の音声素片数が異なる場合に比較して、得られる代表素片間の音色のばらつきが小さく、合成音声の音色も安定にすることができる。
以上のように、本実施の形態における音声素片辞書作成ユニット100を、カテゴリー分割部106は音声データベース103内の音声素片の韻律情報等のパラメータの分布を所定のカテゴリーに分割して、音声素片抽出部107は分割されたカテゴリー別に、学習用の韻律情報に基づいて選択された音声素片について選択度数に基づき所定の個数を抽出し、代表素片生成部108は抽出された音声素片から代表素片を作成し、それを音声素片辞書に格納するように構成したので、本実施の形態にかかる音声合成システムはその音声素片辞書を用いることで、高い品質の合成音声を生成することができる。
実施の形態2.
上記実施の形態1では、学習用テキスト情報から生成される韻律情報に対応する音声データベース103内の全ての音声素片について選択度数を計測し、カテゴリー別に選択度数に基づき所定の個数の音声素片を抽出して代表素片を作成する構成とした。本実施の形態では、選択度数が低い音声素片を音声データベース103から除外して音声素片の選択範囲を制限する。そして、制限された範囲内の音声素片に対し、再度学習用の韻律情報に対する各音声素片の選択度数を求め、この選択度数上位であるN個の音声素片から代表素片を作成する構成にする。
図5は、ある音素に対して上記音声素片選択部104によって選択された音声素片の選択度数の分布例である。上段のグラフは選択度数が上位第1001位までの音声素片を表し、下段のグラフはそのうちの上位第101位までの音声素片を示している。図示するように、例えば選択度数上位20個の音声素片から代表素片を作成する場合、第21位以降でも第20位との選択度数の差が小さいものが多数ある一方、一度しか選択されなかった音声素片が数百個もある。したがって、実施の形態1における選択度数上位にある少数の音声素片を抽出して代表素片を作成するという条件を、選択度数が低く代表素片の作成には関連しない音声素片を除いて、選択度数の高い音声素片の中から音声素片選択を実施して選択度数を計測し直した方が、より最適な音声素片の抽出が可能となる。
図6は、本実施の形態にかかる音声素片辞書作成ユニット100の構成例を示すブロック図である。実施の形態1と同様にこの音声素片辞書作成ユニット100は、学習用テキスト情報に応じた音声素片辞書を作成するものである。図6において実施の形態1の図2と同一の機能を有する構成は同一の符号を付して重複する説明を省略する。また、本実施の形態による音声合成ユニット200の動作は、図1に示す音声合成ユニット200と同様であるので、その説明を省略する。
本実施の形態において追加された音声データベース更新部109は、選択度数計測部105で得られる音声素片の選択度数と、カテゴリー分割部106で得られるカテゴリー分割の情報に基づいて、各カテゴリー内で選択度数が少なく代表素片の作成に関連しない音声素片を音声データベース103から削除する更新を行う。なお、この音声データベース更新部109が選択範囲制限手段に対応する。
音声データベース更新部109の目的は、学習用テキスト情報に対して音声素片の選択度数を計測し直す際に、音声データベース103から選択度数が低い音声素片を除外して選択度数が比較的高い音声素片に選択範囲を制限することであるので、上記処理に限るものではない。例えば、カテゴリー分割によらず、選択度数が所定の値以下の音声素片を全て削除するなど、上記目的を実現することができる他の任意の処理としてよい。
また、音声素片の選択範囲を制限する方法で上記の削除以外の方法の一例としては、除外するべき音声素片を選択すると歪が増加するようにして前述のコスト関数の重みを大きくすることにより、選択度数の低い音声素片を選択できなくするといった方法でもよい。
次に、本実施の形態にかかる音声素片辞書作成ユニット100の動作を説明する。図7は、本実施の形態にかかる音声素片辞書作成ユニットの動作例を示すフローチャートである。ステップST11〜ステップST13までは実施の形態1の図3に示すステップST1〜ST3と同様の動作であるので説明を省略する。
ステップST14は実施の形態1の図3に示すステップST4と同様の動作であるので説明を省略する。ただし、計測された選択度数の結果は音声データベース更新部109に出力される。
ステップST15は実施の形態1の図3に示すステップST5と同様の動作であるので説明を省略する。ただし、カテゴリー分割についての情報は音声データベース更新部109に出力される。
音声データベース更新部109は、カテゴリー分割部106により分割されたカテゴリー別に、選択度数が最大のものから順に所定の個数M個(N<M)、例えば各カテゴリー300個、の音声素片を抽出し、抽出した音声素片のみから構成されるように音声データベース103の内容を更新する(ステップST16)。これによって、音声データベース103内は、学習用テキスト情報に対して代表素片の作成に関連しない選択度数が低い音声素片が削除され、選択度数が比較的高い音声素片のみから構成されるようになる。なお、ステップST16において、カテゴリー別に抽出される音声素片の所定の個数が全カテゴリーにおいて同数である必要はなく、カテゴリーに含まれる音声素片の数や分布に応じて上記Mの値を変化させてもよい。また、個数で決めるのでなく、例えば所定値以上の選択度数の音声素片に限るなどの選択度数の値によって制限する範囲を決定してもよい。
次に、音声素片選択部104は、上記更新された音声データベース103を用いて、再度、音声素片選択処理を実施する。すなわち、音声素片選択部104は、韻律情報生成部102から入力された韻律情報を上記更新された音声データベース103内の音声素片の韻律情報と比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ(連鎖)を選択し、選択結果を選択度数計測部105へ出力する(ステップST17)。選択度数計測部105は、全学習用テキスト情報に対して上記更新された音声データベース103内の各音声素片が選択された度数を計測し、その結果を音声素片抽出部107に出力する(ステップST18)。
なお、選択できる音声素片の範囲が更新される前の音声データベース103に対して音声素片の選択処理をする音声素片選択部104が第1の音声素片選択手段に対応し、更新された後の音声データベース103に対して音声素片の選択処理をする音声素片選択部104が第2の音声素片選択手段に対応する。また、第1の音声素片選択部により選択された音声素片の選択度数を計測する選択度数計測部105が第1の選択度数計測手段に対応し、第2の音声素片選択部により選択された音声素片の選択度数を計測する選択度数計測部105が第2の選択度数計測手段に対応する。本実施の形態においては、第1の音声素片選択手段と第2の音声素片選択手段、及び、第1の選択度数計測手段と第2の選択度数計測手段はそれぞれ同一のハードウェアにて実行されているが、別のハードウェアによって実行されるものであってもよい。
ここで、音声データベース103内の選択度数が低い音声素片を削除するという更新(ステップ16)を行った結果、更新前後では音声素片の選択結果が変わるので、音声データベース更新後のステップST17の素片選択結果は、音声データベース更新前のステップST13の素片選択結果とは異なる。したがって、音声データベース更新後のステップST18の音声素片の選択度数も、音声データベース更新前のステップST14の音声素片の選択度数とは異なるものとなる。
音声素片抽出部107は、カテゴリー分割部106により分割されたカテゴリー別に、選択度数が最大のものから順に所定の個数N個(N<M)、例えば各カテゴリー20個、の音声素片を抽出し、抽出した音声素片を代表素片生成部108に出力する(ステップST19)。代表素片生成部108は、各カテゴリーにおいて、抽出されたN個の音声素片のセントロイドを求め、得られたセントロイドをそのカテゴリーにおける代表素片として音声素片辞書203に格納する(ステップST20)。
このように、音声データベース更新部109では、カテゴリー別に学習用テキスト情報に対して選択度数が低い音声素片を除外するように音声データベース103を更新して、音声素片の選択範囲を制限し、音声素片選択部104は、上記更新された音声データベース103を用いて再度学習用テキスト情報に対して音声素片選択を行い、選択度数計測部105は、選択された音声素片の選択度数を計測し、音声素片抽出部107は上記更新された音声データベース103において選択度数に基づいて所定の個数の音声素片を抽出し、代表素片生成部108にて代表素片を作成するようにした。これにより、音声データベース103を更新せずに代表素片を作成する場合に比較して、最終的に代表素片の作成には関連しない選択度数が低い素片の影響を除いたより適切な音声素片が抽出され、これらの抽出された音声素片から代表素片を生成し、音声素片辞書203に登録することができ、より高い品質の合成音声を生成することができる。
また、音声データベース更新部109が音声データベースを更新する回数は上記した1回に限るものではなく、複数回更新して更新毎に順次音声素片を削減してもよい。例えば、1回目は各カテゴリーM個の音声素片を抽出して音声データベース103を更新し、この更新した音声データベース103を用いて学習用テキスト情報に対する音声素片の選択度数を求め、この選択度数に基づき2回目は各カテゴリーL個(N<L<M)の音声素片を抽出して音声データベース103を更新する。なお、2回目以上の処理を繰り返す場合は、選択範囲を前回の処理よりも制限するために、処理毎にLの値を減らしていくように設定する。そしてこの更新された音声データベース103を用いて再々度選択度数を求め、カテゴリー別に、選択度数に基づいて所定の個数N個の音声素片を抽出し、抽出した音声素片から代表素片を作成する。このように構成することにより、選択度数が低い素片の影響がより少ない適切な音声素片が抽出されるので、これら抽出された音声素片から代表素片を生成、音声素片辞書203に登録することができ、さらに高い品質の合成音声を生成することができる。
以上のように、本実施の形態にかかる音声合成システムは、選択度数計測部105から入力される音声素片の選択度数と、カテゴリー分割部106より入力されるカテゴリー分割の情報に基づいて、各カテゴリー内で代表素片の作成に関連しない選択度数が少ない音声素片を除外する音声データベース103の更新を行い、更新した音声データベース103のカテゴリー別に、選択度数に基づいて所定の個数の音声素片を抽出して代表素片を生成し、それを音声素片辞書203に格納する構成としたので、より最適な音声素片の抽出が可能となり、さらに高い品質の合成音声を生成することができる。
実施の形態3.
上記実施の形態では、カテゴリー分割条件を固定していたが、本実施の形態においてはこれを適時、更新を可能にする構成としている。
図8は本実施の形態にかかる音声合成システムの構成例を示すブロック図である。音声素片辞書203が作成された後に、テキスト情報が音声合成ユニット200に入力され、テキスト情報から生成された音韻記号及び韻律情報が音声素片選択部204に入力される。音声素片選択部204では、上述の通り、韻律情報生成部202から入力された韻律情報と音声素片辞書203内の音声素片の韻律情報とを比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ(連鎖)を選択する。しかしながら、この歪の総和は合成音声の品質に直結するものであるため、高い品質の合成音声を得るためには、歪の総和をなるべく小さくすることが望ましい。
そこで、歪の総和の値に対し所定の閾値を設けるなどして、音声素片辞書203から選択する音声素片の組み合わせでは所定の閾値を下回ることができない場合に、カテゴリー分割条件の更新を行うこととする。
ここで、カテゴリー分割条件を更新する信号が音声合成ユニット200から音声素片辞書作成ユニット100に送られる。音声素片選択部204からカテゴリー分割条件を更新する信号が音声素片辞書作成ユニット100のカテゴリー分割部106に送るとしてもよい。カテゴリー分割部106では、例えば、同一音素の音声素片のパラメータ分布としてピッチの高さに応じてピッチ高/中/低の3つのカテゴリーに分割していた場合に、さらに、ピッチについて分割数を増やす変更をする。また、例えば、ピッチの分割に加えて継続時間長について長/中/短の分割が組み合わされるような変更であってもよい。
このようなカテゴリー分割の更新がなされた後、音声素片抽出部107は更新されたカテゴリー別に選択度数に基づき所定の個数の音声素片を抽出する。なお、ここで抽出する個数は更新される前のカテゴリー分割の時と同数である必要はなく、更新後の各カテゴリーに包含される音声素片の数に応じて変更されてもよい。代表素片生成部108は抽出された音声素片からカテゴリー別に代表素片を生成し、音声素片辞書203を更新する。
音声素片辞書203が更新された後に、再度音声素片選択部204は音声素片を選択し、最適な音声素片の組み合わせの探索を行う。なお、音声素片辞書203を更新しても歪の総和が所定の閾値を下回らない場合は、代表素片を増やすように再度カテゴリー分割条件を変えて音声素片辞書203を更新するようにしてもよい。
以上のように、本実施の形態にかかる音声合成システムは、音声素片選択部204の音声素片の選択時に、音声素片の組み合わせから所望の合成音声の所望の品質が得られないと判断される場合に、カテゴリー分割条件を更新し、音声素片辞書203を更新する構成としている。このような構成することにより、合成音声を作成するテキスト情報に合わせて適応的に音声素片辞書203が更新されるので、さらに高い品質の合成音声を生成することができる。
実施の形態4.
上記実施の形態1乃至3では、音声合成ユニット100への入力であるテキスト情報と、音声素片辞書作成ユニット200への入力である学習用テキスト情報とは別個のものとしているが、本実施の形態においては合成音声を作成するテキスト情報を学習用テキスト情報に加える、または、学習用テキスト情報の少なくとも一部を置換するなど、実際に音声合成したテキスト情報に応じて学習用テキスト情報を更新し、適時、音声素片辞書203を更新する構成としている。
図9は本実施の形態にかかる音声合成システムの構成例を示すブロック図である。入力されたテキスト情報に対して言語情報解析部201は言語解析処理を行い、読み、アクセントなどの言語情報を得て、この言語情報を韻律情報生成部202へ出力する。韻律情報生成部202は、言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成する。
この生成された音韻記号及び韻律情報は、音声素片辞書生成ユニット100の音声素片選択部104に送られる。送られた音韻記号及び韻律情報に対する音声素片選択部104、選択度数計測部105、音声素片抽出部107、代表素片生成部108の各部の処理は上述と同様である。音声素片選択部104では、送られた音韻記号及び韻律情報について音声データベース103から音声素片の選択がなされ、選択度数計測部105は音声素片の選択度数を計測する。このとき、例えば、この選択度数を既にある学習用テキスト情報に基づく選択度数に加算して、合計の選択度数から音声素片辞書203を更新するとしてもよい。または、少なくとも一部の既にある学習用テキスト情報に基づく選択度数を廃棄し、新しく得られた選択度数によって置き換えて、その選択度数から音声素片辞書203を更新するとしてもよい。なお、上記の例では音声素片辞書作成ユニット100に送られる情報は音韻記号及び韻律情報であるが、テキスト情報または言語情報として送ってもよい。
以上のように、本実施の形態にかかる音声合成システムは、音声合成ユニット200に入力される実際に合成音声を作成するテキスト情報によって学習用テキスト情報を更新する構成とした。これにより合成音声を作成するテキスト情報に合わせて適応的に音声素片辞書203が更新されるので、さらに高い品質の合成音声を生成することができる。
実施の形態5.
上記実施の形態1乃至4における音声合成ユニット200は、テキスト情報を入力として音声合成ユニット200内で言語解析処理を行う構成としているが、これに代え、テキスト情報に対する言語解析処理を予め別途実施しておき、図1と対比して示す図10に示すように言語解析部201を省く構成とし、テキスト情報から得られた言語情報を入力として合成音声を生成することも可能である。なお、テキスト情報の言語解析処理、韻律情報生成処理を予め別途実施しておき、その韻律情報を入力として音声合成するとし、音声合成ユニット200内の言語解析部201、韻律情報生成部202を省く構成とすることも可能である。
同様に、上記実施の形態1乃至4における音声素片辞書作成ユニット100は、学習用テキスト情報を入力として音声素片辞書作成ユニット100内で言語解析処理、韻律生成処理を行う構成としているが、これに代え、学習用テキスト情報に対する言語解析処理、韻律情報生成処理を予め別途実施しておき、例えば、図2と対比して図11に示すように学習用テキスト情報から得られた韻律情報(学習用韻律情報)を入力として音声素片辞書を作成する構成にすることも可能である。なお、学習用テキスト情報の言語解析処理を予め別途実施しておいた言語情報(学習用言語情報)を入力として、音声素片辞書作成ユニット100内の言語解析部101のみを省く構成とすることも可能である。
なお、上記実施の形態1乃至5における音声合成システムをコンピュータなどの情報処理装置で構成する場合、音声データベース103、音声素片辞書203をメモリなどの記憶媒体で構成すると共に、言語情報解析部101、201、韻律情報生成部102、202、音声素片選択部104、204、選択度数計測部105、カテゴリー分割部106、音声素片抽出部107、代表素片生成部108、音声データベース更新部109、音声素片接続部205、の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUがメモリに格納されているプログラムを実行するようにしてもよい。または、それら処理内容を記述しているプログラムを例えば、磁気ディスク、光ディスク、MOディスク、半導体メモリなどの記録媒体に記録してコンピュータに読み込ませて、コンピュータに上記の処理を実行させるようにしてもよい。または、インターネットなどの有線・無線通信手段を用いてサーバー上の記憶手段からプログラムをダウンロードしてコンピュータで実行させるようにしてもよい。
さらに、上記実施の形態1乃至5における音声合成システムをコンピュータなどの情報処理装置で構成する場合、音声素片辞書作成ユニット100と音声合成ユニット200とを別のハードウェアで実現するようにしてもよい。すなわち、第1のコンピュータで音声素片辞書作成ユニットのプログラムを実行して音声素片辞書203を作成し、作成した音声素片辞書203を第2のコンピュータのメモリなどの記憶媒体に移し、第2のコンピュータで音声素片辞書203を用いる音声合成ユニット200のプログラムを実行して合成音声を得る、という構成にすることも当然可能である。
なお、上記実施の形態1乃至5における音声合成システムにおいて、予め音声辞書作成ユニット100で音声素片辞書203を作成しておき、音声合成ユニット200のみからなる音声合成システムでこの音声素片辞書203を用いて音声合成をする構成とすることができることは言うまでもない。また、上記実施の形態1乃至5を組み合わせて新たな実施の形態とすることができることは言うまでもない。
100 音声素片辞書作成ユニット
101 言語情報解析部
102 韻律情報生成部
103 音声データベース
104 音声素片選択部
105 選択度数計測部
106 カテゴリー分割部
107 音声素片抽出部
108 代表素片生成部
109 音声データベース更新部
200 音声合成ユニット
201 言語情報解析部
202 韻律情報生成部
203 音声素片辞書
204 音声素片選択部
205 音声素片接続部

Claims (12)

  1. 音声素片が格納されている音声データベースと、
    学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第1の音声素片選択手段と、
    前記第1の音声素片選択手段により選択された音声素片の選択度数を計測する第1の選択度数計測手段と、
    前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、
    前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、
    抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えることを特徴とする音声合成システム。
  2. 音声素片が格納されている音声データベースと、
    学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第1の音声素片選択手段と、
    前記第1の音声素片選択手段により選択された音声素片の選択度数を計測する第1の選択度数計測手段と、
    前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、
    前記選択度数に基づいて音声素片の選択範囲を制限する選択範囲制限手段と、
    前記学習用の韻律情報に基づき、前記選択範囲制限手段により制限された範囲内の音声素片を選択する第2の音声素片選択手段と、
    前記第2の音声素片選択手段により選択された音声素片の選択度数を計測する第2の選択度数計測手段と、
    前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、
    抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えることを特徴とする音声合成システム。
  3. 請求項2に記載の音声素片辞書作成手段は、さらに、
    前記選択範囲制限手段、前記第2の音声素片選択手段、前記第2の選択度数計測手段、の一連の処理を複数回繰り返し、かつ、繰り返し毎に、前記選択範囲制限手段は音声素片の選択範囲を前回の処理と比べて狭くすることを特徴とする音声合成システム。
  4. 前記カテゴリー分割手段は、
    前記音声素片辞書作成手段により作成された音声素片辞書内の音声素片によって合成される音声の品質に応じて、前記音声データベース内の音声素片のパラメータ分布を分割する条件を更新することを特徴とする請求項1乃至3のいずれか1つに記載の音声合成システム。
  5. 前記音声素片辞書作成手段は、
    音声合成用の入力情報から生成される韻律情報によって学習用の韻律情報を更新して、音声素片辞書を更新することを特徴とする請求項1乃至4のいずれか1つに記載の音声合成システム。
  6. 前記音声素片辞書作成手段は、さらに、
    学習用テキスト情報に対して言語情報を得る言語情報解析手段と、
    前記言語情報から音韻記号及び韻律情報を生成する韻律情報生成手段と、
    を有することを特徴とする請求項1乃至5のいずれか1つに記載の音声合成システム。
  7. 請求項1乃至6のいずれか1つに記載の前記音声素片辞書作成手段により生成された音声素片辞書を備える音声合成システム。
  8. 学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第1の音声素片選択ステップと、
    前記第1の音声素片選択ステップにおいて選択された音声素片の選択度数を計測する第1の選択度数計測ステップと、
    前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割ステップと、
    前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出ステップと、
    抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成ステップと、を有することを特徴とする音声素片辞書作成方法。
  9. 学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第1の音声素片選択ステップと、
    前記第1の音声素片選択ステップにおいて選択された音声素片の選択度数を計測する第1の選択度数計測ステップと、
    前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割ステップと、
    前記選択度数に基づいて音声素片の選択範囲を制限する選択範囲制限ステップと、
    前記学習用の韻律情報に基づき、前記選択範囲制限ステップにおいて制限された範囲内の音声素片を選択する第2の音声素片選択ステップと、
    前記第2の音声素片選択ステップにおいて選択された音声素片の選択度数を計測する第2の選択度数計測ステップと、
    前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出ステップと、
    抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成ステップと、を有することを特徴とする音声素片辞書作成方法。
  10. 請求項9に記載の音声素片辞書作成方法は、さらに、
    前記選択範囲制限ステップ、前記第2の音声素片選択ステップ、前記第2の選択度数計測ステップ、の一連の処理を複数回繰り返し、かつ、繰り返し毎に前記選択範囲制限ステップにおける音声素片の選択範囲を前回の処理と比べて狭くすることを特徴とする音声素片辞書作成方法。
  11. 情報処理装置を請求項1乃至6のいずれか1つに記載の音声素片辞書作成手段として機能させるための音声素片辞書作成プログラム。
  12. 情報処理装置を請求項1乃至6のいずれか1つに記載の音声素片辞書作成手段として機能させるためのプログラムを記録した情報処理装置が読み取り可能な音声素片辞書作成プログラム記録媒体。
JP2010235568A 2010-10-20 2010-10-20 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体 Active JP5747471B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010235568A JP5747471B2 (ja) 2010-10-20 2010-10-20 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010235568A JP5747471B2 (ja) 2010-10-20 2010-10-20 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2012088555A true JP2012088555A (ja) 2012-05-10
JP5747471B2 JP5747471B2 (ja) 2015-07-15

Family

ID=46260227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010235568A Active JP5747471B2 (ja) 2010-10-20 2010-10-20 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP5747471B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014167556A (ja) * 2013-02-28 2014-09-11 Brother Ind Ltd 音源特定システム、及び音源特定方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319391A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
JP2004037605A (ja) * 2002-07-01 2004-02-05 Nippon Hoso Kyokai <Nhk> 音声合成用データ削減方法、音声合成用データ削減装置および音声合成用データ削減プログラム
JP2005266010A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及び方法
JP2005292433A (ja) * 2004-03-31 2005-10-20 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2009080268A (ja) * 2007-09-26 2009-04-16 Kddi Corp 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319391A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
JP2004037605A (ja) * 2002-07-01 2004-02-05 Nippon Hoso Kyokai <Nhk> 音声合成用データ削減方法、音声合成用データ削減装置および音声合成用データ削減プログラム
JP2005266010A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及び方法
JP2005292433A (ja) * 2004-03-31 2005-10-20 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2009080268A (ja) * 2007-09-26 2009-04-16 Kddi Corp 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700044148; 鴨志田 亮太 Ryota Kamoshida: '素片選択型音声合成方式におけるデータベース容量削減に関する検討 Examination about Downsizing of Data' 日本音響学会2004年秋季研究発表会講演論文集-I- THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI , 20040921, p.365-366, 社団法人日本音響学会 *
JPN6014017592; 鴨志田 亮太 Ryota Kamoshida: '素片選択型音声合成方式におけるデータベース容量削減に関する検討 Examination about Downsizing of Data' 日本音響学会2004年秋季研究発表会講演論文集-I- THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI , 20040921, p.365-366, 社団法人日本音響学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014167556A (ja) * 2013-02-28 2014-09-11 Brother Ind Ltd 音源特定システム、及び音源特定方法

Also Published As

Publication number Publication date
JP5747471B2 (ja) 2015-07-15

Similar Documents

Publication Publication Date Title
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP4469883B2 (ja) 音声合成方法及びその装置
JP3667950B2 (ja) ピッチパターン生成方法
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP6036682B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム
JPH10171484A (ja) 音声合成方法および装置
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
KR20170107683A (ko) 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
US9805711B2 (en) Sound synthesis device, sound synthesis method and storage medium
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
JP5747471B2 (ja) 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2016065900A (ja) 音声合成装置、方法、およびプログラム
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
CN102822888A (zh) 话音合成器、话音合成方法和话音合成程序
JP2010224419A (ja) 音声合成装置、方法およびプログラム
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
JPH1185193A (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140312

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20140326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150427

R151 Written notification of patent or utility model registration

Ref document number: 5747471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250