JP5411845B2 - 音声合成方法、音声合成装置及び音声合成プログラム - Google Patents
音声合成方法、音声合成装置及び音声合成プログラム Download PDFInfo
- Publication number
- JP5411845B2 JP5411845B2 JP2010292223A JP2010292223A JP5411845B2 JP 5411845 B2 JP5411845 B2 JP 5411845B2 JP 2010292223 A JP2010292223 A JP 2010292223A JP 2010292223 A JP2010292223 A JP 2010292223A JP 5411845 B2 JP5411845 B2 JP 5411845B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- unit
- similar
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
最後に、素片選択接続部14は、音韻の区別を示す記号列、ピッチパターン、時間長パターン及び振幅パターンに基づき、音声データベース15より最適な波形を選択し、接続することにより音声を合成し、出力する。
多数話者音声データベース21には予め多数の話者の音声データを収録しておく。
モデル学習部22は、多数話者音声データベース21から多数の話者の音声データを受け取り、多数の話者の平均的な音声の特徴を持つ平均声モデルを学習する。
合成部25は、対象テキストが入力されると、適応モデルに基づき、合成音声を生成し、出力する。
<第一実施形態に係る音声合成装置100>
図3及び図4を用いて第一実施形態に係る音声合成装置100を説明する。音声合成装置100は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部110と類似話者音声データベース130と話者類似度記憶部140とを備える。
多数話者音声データベース構築部101は、事前に多数話者(N名分)の音声を収録し、類似話者音声データベース構築部110で用いる多数話者音声データベース103を構築する(s101)。
ここで、音声データとは、単語や文章を読み上げた肉声の音声信号に対してA/D変換を行い、ディジタルデータ化した音声波形データである。この音声波形データは、波形接続型音声合成の素材として利用できる。
(参考文献1)特開2004−77901号公報
類似話者音声データベース構築部110は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s110)。図6に示すように類似話者音声データベース構築部110は、類似話者選択部111と話者統合部115を有する。
類似話者選択部111は、多数話者音声データベース103に保存されている複数の音声データを入力とし、これを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択し(s111)、類似話者の音声素片付音声データを話者統合部115に出力する。なお、話者類似度とは2つの音声データが類似しているか否かを示す指標である。
(参考文献2)D. A. Reynolds, “Speaker identification and verification using Gaussian mixture speaker models”, Speech Communication, 1995, vol.17, pp.91-108
この場合、図7に示すように類似話者選択部111は混合正規分布学習部111aと多数話者混合正規分布記憶部111bと話者類似度計算部111cと類似話者抽出部111dとを有する。
混合正規分布学習部111aは、N名分の音声データを入力とし、全ての話者の音声データに対して以下の処理(図8中のs111a−2、s111a−3)を行う(s111a−1,s111a−4,s111a−5)。各話者nの音声データを用いて、それぞれの音声データからスペクトルパラメータ(ケプストラム、メルケプストラム等)を取得する(s111a−2)。さらに、それぞれの音声データから得られるスペクトルパラメータを用いて、混合正規分布λnを学習し、モデルパラメータである混合重みwn(m)、平均ベクトルμn(m)、分散ベクトルνn(m)を推定し(s111a−3)、これらの値を多数話者混合正規分布記憶部111bに出力する。但し、m=1,2,…,Mであり、Mは混合正規分布の混合数である。
話者類似度計算部111cは、多数話者混合正規分布記憶部111bから混合重みwn(m)、wU(m)、平均ベクトルμn(m)、μU(m)、分散ベクトルνn(m)、νU(m)を取得し、これらの値と目標話者の音声データを入力とする。まず、話者類似度計算部111cは、目標話者の音声データからスペクトルパラメータ系列Xを取得する。次に、各話者nの話者類似度Lnを以下の対数尤度として計算する(s111c−2)。全ての話者nの話者類似度Lnを計算し(s111c−1,s111c−3,s111c−4)、類似話者抽出部111dに出力する。
類似話者抽出部111dは、話者類似度Lnを受け取り、その中で話者類似度の大きい上位S名を抽出する(s111d)。但し、この上位S名の話者を類似話者sと呼び、2≦S≦Nとし、s=1,2,…,Sとする。類似話者抽出部111dは、抽出した上位S名の話者類似度Lsを話者類似度記憶部140へ出力し、抽出した上位S名の音声素片付音声データを話者統合部115へ出力する。例えば、話者類似度記憶部140には、類似話者の話者識別子(以下、「類似話者識別子」という)とその類似話者に対応する話者類似度を格納する。
話者統合部115は、複数選択した音声素片付音声データを統合して、部分音声データと、その部分音声データの音声素片とからなる類似話者音声データベースを構築する(s115)。
音声合成部150は、類似話者音声データベース130に記憶された類似話者の音声素片付音声データと、話者類似度記憶部140に記憶された話者類似度を用いて、対象テキストに対応する合成音声を生成する(図4のs150)。
まず、テキスト解析部151が、対象テキストを取得し、この対象テキストを形態素解析して、対象テキストに対応した読み情報を音素コンテキスト変換部154に、韻律情報を韻律生成部152に出力する(s151)。
(参考文献3)特許3379643号公報
(参考文献4)特許3518340号公報
次に、韻律生成部152が、テキスト解析部151が出力した韻律情報を入力として、韻律モデル記憶部153を参照して、韻律に関する情報である韻律パラメータを推定してこれを出力する(s152)。
(参考文献5)特許3420964号公報
(参考文献6)特許3344487号公報
(参考文献7)海木佳延、武田一哉、匂坂芳典、「言語情報を利用した母音継続時間長の制御」、電子情報通信学会誌 Vol. J75-A, No.3, pp.467-473, 1992.
(参考文献8)M.D.Riley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit, and T. R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.
音素コンテキスト変換部154は、テキスト解析部151が出力した読み情報を入力として、音素コンテキストを求めてこれを出力する(s154)。
次に、音声素片候補探索部155が、音素コンテキストを入力として、音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片の候補(以下、「音声素片候補」という)を類似話者音声データベース130から探索してこれを出力する(s155)。
(参考文献9)特開2009−122381号公報
素片選択部156は、各音声素片候補の類似話者識別子に対応する話者類似度Lsを少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する(s156)。
(参考文献10)「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9
C1(Vp,Vs)=(Vp−Vs)2 (11)
である。
C2(Fp,Fs)=(Fp−Fs)2 (12)
である。
C3(Tp,Ts)=(Tp−Ts)2 (13)
である。
C4(L1,Ls)=(L1−Ls)2 (14)
である。なお、L1は類似話者選択部111でS個の話者類似度Lsの中で最も大きい話者類似度であり、Lsはサブコスト計算の対象となる音声素片候補の類似話者s(s=1,2,…,S)の話者類似度である。サブコスト計算の対象となる音声素片が最も話者類似度が高い話者の場合、C4(L1,Ls)は0となり、話者類似度が低い話者ほどC(L1,Ls)は大きな値となる。なお、話者類似度は、音声素片候補の類似話者識別子をキーとして、話者類似度記憶部140から取得する。
最後に、素片接続部157が、類似話者音声データベース130から選択音声素片に対応する部分音声データを読み込み、この部分音声データを一連の音声素片の並びに従って接続することで合成音声を生成する(s157)。
(参考文献11)特開平7−072897号公報
このような構成とすることで、目標話者により類似している話者の音声データが音声合成の際に使用されやすくなり、合成音声の目標話者に対する類似性を向上させることができる。
第一実施形態と異なる部分についてのみ説明する。
図10の素片選択部156’において、各音声素片候補の類似話者識別子に対応する話者類似度Lsを少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を、以下のようにして総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する(図11のs156’)。
このような構成とすることで第一実施形態と同様の効果を得ることができ、さらに、柔軟性のある素片選択が可能となる。
音声合成装置100は、必ずしも多数話者音声データベース構築部101を備えなくともよい。その場合、他の装置等で構成した多数話者音声データベース103を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。さらに、音声合成装置100は、多数話者音声データベース103及び類似話者音声データベース構築部110を備えなくともよい。その場合、他の装置等で構成した類似話者音声データベース130及び類似話者の話者類似度を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。音声合成部150は、このように得られた類似話者音声データベース130と話者類似度を用いても第一実施形態と同様の音声合成を行うことができる。
C(j)=1/ej (23)
である。但し、対象テキストの音素コンテキストと、合成単位の音声素片候補の音素コンテキストが一致する音素数をjとする。
図3を用いて第二実施形態に係る音声合成装置200を説明する。第一実施形態と異なる部分についてのみ説明する。音声合成装置200は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部210と類似話者音声データベース130と話者類似度記憶部140とを備える。類似話者音声データベース構築部210の構成が第一実施形態と異なる。
第一実施形態では、話者統合部115において、抽出したS名の話者を統合する際に、話者間の音声特徴量の差が大きいと、合成音声の品質の劣化を引き起こす恐れがある。そのため、第二実施形態では、話者統合部215で目標話者の音声特徴量を用いて、抽出した話者の音声特徴量を目標話者の特徴量へ正規化することで、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。
図12及び図13を用いて、類似話者音声データベース構築部210を説明する。
類似話者音声データベース構築部210は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s210)。図12に示すように類似話者音声データベース構築部210は、類似話者選択部111と、さらに、音声素片付与部212と、話者変換規則学習部213と話者単位変換部214と話者統合部215を有する。
音声素片付与部212は、入力された目標話者の音声データに対して、音声素片を付与する(s212)。音声素片として付与される情報は、多数話者音声データベース構築部101で付与される音声素片と同様である。但し、音素番号や各音素の開始時間、終了時間は、目標話者の音声データに対するものとする。この音声素片は、人手により付与するか、音声データと発話テキストから自動で付与してもよい。
話者変換規則学習部213は、目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴量を持つ音声データに変換する話者変換規則を学習する(s213)。例えば、参考文献12記載の方法により話者変換規則を学習する。
(参考文献12) M. J. F Gales and P. C. Woodland, “Mean and variance adaptation within the MLLR framework,” Computer Speech and Language, 1996, vol.10, pp.249-264
話者単位変換部214は各類似話者の音声データを話者変換規則φsに従って変換する(s214)。例えば、類似話者sの音声データベース中の時刻tにおけるスペクトルパラメータxs,tを、変換行列W(話者変換規則φs)を用いて変換することで、目標話者の特徴へ変換した類似話者sのスペクトルパラメータx ̄s,tを得る。
以下、F0パラメータの変換の一例として、以下の処理で行う線形変換手法について説明する。目標話者の音声データから得られる全ての対数F0値から平均μhと分散νhを求める。また類似話者sの音声データから得られる全ての対数F0値から平均μsと分散νsを求める。そして、類似話者sの変換後の対数F0値を以下の式により求める。
話者統合部215は、類似話者sの音声データそのものではなく、話者変換規則φsを使って変換された音声データを統合して、類似話者音声データベースを構築する(s215)。構築方法は、第一実施形態と同様である。
このような構成とすることで、第一実施形態に比べ、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。
話者変換規則学習部213において、目標話者の音声データと複数選択した類似話者の音声データのみを用いて、各類似話者の音声データを目標話者の音声データに変換する話者変換規則を学習してもよい。その場合、音声素片付与部212は設けなくともよい。
図3を用いて第三実施形態に係る音声合成装置300を説明する。第二実施形態と異なる部分についてのみ説明する。音声合成装置300は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部310と類似話者音声データベース130と話者類似度記憶部140とを備える。類似話者音声データベース構築部310の構成が第一実施形態と異なる。
第一実施形態及び第二実施形態では、目標話者に類似した複数名の話者から類似話者音声データベース130を生成したが、本実施形態では、話者統合部215で得られる音声データを基として、さらに音声合成単位毎にモデル適応技術を用いて、音声データを変換することで、目標話者により近いモデルを生成することが可能である。
図15及び図16を用いて、類似話者音声データベース構築部310を説明する。
類似話者音声データベース構築部310は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s310)。図15に示すように類似話者音声データベース構築部310は、類似話者選択部111と、音声素片付与部212と、話者変換規則学習部213と話者単位変換部214と話者統合部215と、さらに、合成単位変換規則学習部317と、合成単位変換部318を有する。
合成単位変換規則学習部317は、目標話者の音声データと第一類似話者音声データベース130の部分音声データを用いて、同一の状態毎に各類似話者の部分音声データを目標話者の音声特徴を持つ部分音声データに変換する合成単位変換規則を学習する(s317)。例えば、非特許文献1記載の方法により合成単位変換規則を学習する。なお、第一類似話者音声データベース130内の音声データは、第一実施形態及び第二実施形態の類似話者音声データベース130内の音声データと同様の方法により構成される。
合成単位変換部318は、各類似話者の音声データを合成単位毎の合成単位変換規則に従って変換する(s318)。学習した合成単位変換規則を、第一類似話者音声データベース130へ適用し、第二類似話者音声データベース330を得る。なお、合成単位変換規則の適用手法は非特許文献1記載の手法を用いることができる。
このような構成とすることで、第二実施形態よりもさらに、目標話者により近い合成音声を生成することができる。
上述した音声合成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
101 多数話者音声データベース構築部
103 多数話者音声データベース
110,210,310 類似話者音声データベース構築部
111 類似話者選択部
111a 混合正規分布学習部
111b 多数話者混合正規分布記憶部
111c 話者類似度計算部
111d 類似話者抽出部
115,215 話者統合部
130 類似話者音声データベース
130 第一類似話者音声データベース
140 話者類似度記憶部
150 音声合成部
151 テキスト解析部
152 韻律生成部
153 韻律モデル記憶部
154 音素コンテキスト変換部
155 音声素片候補探索部
156 素片選択部
156 素片選択部
157 素片接続部
212 音声素片付与部
213 話者変換規則学習部
214 話者単位変換部
317 合成単位変換規則学習部
318 合成単位変換部
330 第二類似話者音声データベース
Claims (9)
- 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成方法であって、
2つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択ステップと、
複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合ステップと、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
音声合成方法。 - 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成方法であって、
2つの音声データが類似しているか否かを示す指標を話者類似度とし、目標話者の音声データとの話者類似度が高い複数の音声データを合成音声を組み立てる上で適切な合成単位に分割した部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶され、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
音声合成方法。 - 請求項1または請求項2記載の音声合成方法であって、
各類似話者sの音声データの話者類似度をLsとし、最も話者類似度が高い話者の話者類似度をL1とし、
前記素片選択ステップにおいて、
K個のサブコストCkの和を総合コストQとし、少なくともサブコストの一つとして、
C(L1,Ls)=(L1−Ls)2
を用いる、
音声合成方法。 - 請求項1記載の音声合成方法であって、
目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築する、
音声合成方法。 - 請求項1記載の音声合成方法であって、
目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築し、
目標話者の音声データと前記類似話者音声データベースの部分音声データを用いて、同一の状態毎に各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する合成単位変換規則を学習する合成単位変換規則学習ステップと、
各類似話者の部分音声データを合成単位毎の合成単位変換規則に従って変換する合成単位変換ステップと、をさらに備える、
音声合成方法。 - 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成装置であって、
2つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択部と、
複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合部と、
前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
音声合成装置。 - 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成装置であって、
合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースと、
2つの音声データが類似しているか否かを示す指標を話者類似度とし、前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
音声合成装置。 - 請求項1から請求項6の何れかに記載の音声合成方法を、コンピュータに実行させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010292223A JP5411845B2 (ja) | 2010-12-28 | 2010-12-28 | 音声合成方法、音声合成装置及び音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010292223A JP5411845B2 (ja) | 2010-12-28 | 2010-12-28 | 音声合成方法、音声合成装置及び音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012141354A JP2012141354A (ja) | 2012-07-26 |
JP5411845B2 true JP5411845B2 (ja) | 2014-02-12 |
Family
ID=46677736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010292223A Expired - Fee Related JP5411845B2 (ja) | 2010-12-28 | 2010-12-28 | 音声合成方法、音声合成装置及び音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5411845B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014066916A (ja) * | 2012-09-26 | 2014-04-17 | Brother Ind Ltd | 音声合成装置 |
JP5885210B2 (ja) * | 2013-01-11 | 2016-03-15 | 日本電信電話株式会社 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
JP6006678B2 (ja) * | 2013-05-20 | 2016-10-12 | 日本電信電話株式会社 | 音声モデル生成装置、方法、プログラム |
JP2017156392A (ja) * | 2016-02-29 | 2017-09-07 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
KR102069135B1 (ko) * | 2018-05-17 | 2020-01-22 | 서울시립대학교 산학협력단 | 화자 음성 인증 서비스에서 스푸핑을 검출하는 음성 인증 시스템 |
JP7125608B2 (ja) * | 2018-10-05 | 2022-08-25 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
KR102273147B1 (ko) * | 2019-05-24 | 2021-07-05 | 서울시립대학교 산학협력단 | 음성 합성 장치 및 방법 |
KR102436517B1 (ko) * | 2020-11-13 | 2022-08-24 | 서울시립대학교 산학협력단 | 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치 및 이를 위한 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7716052B2 (en) * | 2005-04-07 | 2010-05-11 | Nuance Communications, Inc. | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
JP4586615B2 (ja) * | 2005-04-11 | 2010-11-24 | 沖電気工業株式会社 | 音声合成装置,音声合成方法およびコンピュータプログラム |
JP4533255B2 (ja) * | 2005-06-27 | 2010-09-01 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 |
JP4564416B2 (ja) * | 2005-07-13 | 2010-10-20 | 日本放送協会 | 音声合成装置および音声合成プログラム |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
JP2010128103A (ja) * | 2008-11-26 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置、音声合成方法、および音声合成プログラム |
-
2010
- 2010-12-28 JP JP2010292223A patent/JP5411845B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012141354A (ja) | 2012-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US7996222B2 (en) | Prosody conversion | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2015180966A (ja) | 音声処理システム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
Sharma et al. | Polyglot speech synthesis: a review | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP3091426B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JP2020106643A (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
Huang et al. | Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5411845 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |