JP5411845B2 - 音声合成方法、音声合成装置及び音声合成プログラム - Google Patents

音声合成方法、音声合成装置及び音声合成プログラム Download PDF

Info

Publication number
JP5411845B2
JP5411845B2 JP2010292223A JP2010292223A JP5411845B2 JP 5411845 B2 JP5411845 B2 JP 5411845B2 JP 2010292223 A JP2010292223 A JP 2010292223A JP 2010292223 A JP2010292223 A JP 2010292223A JP 5411845 B2 JP5411845 B2 JP 5411845B2
Authority
JP
Japan
Prior art keywords
speech
speaker
unit
similar
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010292223A
Other languages
English (en)
Other versions
JP2012141354A (ja
Inventor
勇祐 井島
光昭 磯貝
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010292223A priority Critical patent/JP5411845B2/ja
Publication of JP2012141354A publication Critical patent/JP2012141354A/ja
Application granted granted Critical
Publication of JP5411845B2 publication Critical patent/JP5411845B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、対象テキストに対応し、任意話者の特徴を持つ音声を合成する音声合成方法、音声合成装置及び音声合成プログラムに関する。
特許文献1記載の音声合成装置10が従来技術として知られている。図1を用いて、音声合成装置10の概要を説明する。
音声合成の対象となるテキスト(以下、「対象テキスト」という)が入力されると、まず、テキスト解析部11において、係り受けや品詞解析等の形態素解析、漢字かな変換及びアクセント処理が行われ、素片選択接続部14に対して音韻の区別を示す記号列を出力し、韻律生成部12に対して呼気段落内モーラ数、アクセント形、発声スピードを出力する。
次に、韻律生成部12において、受け取った情報を基にピッチパターン、各音素の時間長パターン及び振幅パターンを韻律モデル13により生成し素片選択接続部14に出力する。
最後に、素片選択接続部14は、音韻の区別を示す記号列、ピッチパターン、時間長パターン及び振幅パターンに基づき、音声データベース15より最適な波形を選択し、接続することにより音声を合成し、出力する。
特許文献1の場合、音声データベース15中に、同一コンテキストの素片が大量に存在すれば、ピッチパターン、時間長パターン及び振幅パターンのバリエーションが増加し、合成音声の品質が向上する。しかし、十分な品質の合成音声を得るためには、大量の音声が必要となる。そのため、多くの音声合成装置では、合成可能な話者の人数は予め用意されている数名程度と限られている。ユーザが自由に好みの話者の音声を生成または選択しようと思った場合には、合成したい話者(以下「目標話者」という)の大量の音声(最低でも数時間程度の音声)が必要となる。
このような課題を解決した従来技術として非特許文献1記載の音声合成装置20が知られている。図2を用いて音声合成装置20を説明する。
多数話者音声データベース21には予め多数の話者の音声データを収録しておく。
モデル学習部22は、多数話者音声データベース21から多数の話者の音声データを受け取り、多数の話者の平均的な音声の特徴を持つ平均声モデルを学習する。
変換規則学習部23は、平均声モデルと目標話者の音声データとから、平均声モデルを適応モデルに変換するための変換規則を学習し、これを適応部24に出力する。なお、適応モデルとは、目標話者の大量の音声データから得られる音声モデルに似た音声モデルである。
適応部24は、変換規則を平均声モデルに適応し、適応モデルに変換する。
合成部25は、対象テキストが入力されると、適応モデルに基づき、合成音声を生成し、出力する。
特許2761552号公報
田村正統、益子貴史、徳田恵一、小林隆夫、"HMMに基づく音声合成におけるピッチ・スペクトルの話者適応"、電子情報通信学会論文誌、2002年4月、vol.J85−D−II、no.4、pp.545−553
非特許文献1は特許文献1に比べ、音声合成に必要なデータベースやモデルを作成するために必要な目標話者の音声データの量を大幅に減らすことができる。しかしながら、非特許文献1も変換規則を学習するために目標話者の音声データが数分程度必要となる。そのため、音声収録の際に目標話者を長時間拘束しなければならない。例えば、5分の音声データを収録するには、30分程度の拘束時間が必要となる。
そこで本発明は、さらに少ない量の目標話者の音声データから得られる類似話者音声データベースを用いて、対象テキストに対応し、目標話者の特徴を持つ音声を合成する音声合成方法、音声合成装置及び音声合成プログラムを提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する。2つの音声データが類似しているか否かを示す指標を話者類似度とし、目標話者の音声データとの話者類似度が高い複数の音声データを合成音声を組み立てる上で適切な合成単位に分割した部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶される。対象テキストを解析して、対象テキストの読み情報を取得する。読み情報を音素の並びである音素コンテキストに変換する。音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片候補を類似話者音声データベースから探索する。各音声素片候補の類似話者識別子に対応する話者類似度を少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する。選択音声素片に対応する部分音声データを類似話者音声データベースから読み込み、この部分音声データを接続して合成音声を得る。
上記の課題を解決するために、本発明の第二の態様によれば、対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する。合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースと、類似話者識別子と、その類似話者識別子の対応する話者類似度とを記憶する話者類似度記憶部と、対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片候補を類似話者音声データベースから探索する音声素片候補探索部と、各音声素片候補の類似話者識別子に対応する話者類似度を少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、選択音声素片に対応する部分音声データを類似話者音声データベースから読み込み、この部分音声データを接続して合成音声を得る素片接続部と、を有する。
本発明は、話者類似度が高い複数の音声データからなる類似話者音声データベースと、話者類似度を用いて、音声合成を行うので、目標話者により類似している話者の音声データが音声合成の際に使用されやすくなり、合成音声の目標話者に対する類似性を向上させることができる。
従来の音声合成装置10の構成を示すブロック図。 従来の音声合成装置20の構成を示すブロック図。 音声合成装置100、200、300の機能構成例を示すブロック図。 音声合成装置100、200、300の処理フローを示す図。 音声素片のデータ構造を示す図。 類似話者音声データベース構築部110の機能構成例を示すブロック図。 類似話者選択部111の機能構成例を示すブロック図。 類似話者選択部111の処理フローを示す図。 話者統合部115の処理フローを示す図。 音声合成部150の機能構成例を示すブロック図。 音声合成部150の処理フローを示す図。 類似話者音声データベース構築部210の機能構成例を示すブロック図。 類似話者音声データベース構築部210の処理フローを示す図。 話者変換規則学習部213及び話者単位変換部214の処理フローを示す図。 類似話者音声データベース構築部310の機能構成例を示すブロック図。 類似話者音声データベース構築部310の処理フローを示す図。
以下、本発明の実施形態について説明する。
<第一実施形態に係る音声合成装置100>
図3及び図4を用いて第一実施形態に係る音声合成装置100を説明する。音声合成装置100は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部110と類似話者音声データベース130と話者類似度記憶部140とを備える。
<多数話者音声データベース構築部101及び多数話者音声データベース103>
多数話者音声データベース構築部101は、事前に多数話者(N名分)の音声を収録し、類似話者音声データベース構築部110で用いる多数話者音声データベース103を構築する(s101)。
なお、収録する多数話者の音声は、類似話者音声データベース構築部110と音声合成部150で使用されるため以下の要件(1)、(2)を満たすことが望ましい。(1)収録する1名あたりの音声データ量(無音区間を除いた音声区間の時間)は、音声合成用のモデルを学習可能な時間以上である。なお、学習可能な時間は、使用する音声合成システムにより異なり、例えば、素片選択型音声合成では数時間程度の音声データ量が必要となる。(2)収録する話者数Nは、性別毎に最低でも100名以上、計200名以上であることが望ましい。
さらに、音声収録の終了後、収録した音声データに対して、音声素片を付与する。よって、多数話者音声データベース103はN名分の音声素片付音声データを保持する。
ここで、音声データとは、単語や文章を読み上げた肉声の音声信号に対してA/D変換を行い、ディジタルデータ化した音声波形データである。この音声波形データは、波形接続型音声合成の素材として利用できる。
図5に音声素片からなるデータ構造(テーブル)の例を示す。音声素片とは、合成音声を組み立てる上で適切な単位(以下「合成単位」という)の音声データ(以下「部分音声データ」という)の諸情報を示すものであり、少なくとも部分音声データを発した話者を示す話者識別子と、合成単位の発声音素を示す音素情報を含む。また、例えば、全音声データに対する部分音声データの位置を示す位置情報(開始時間、終了時間)や、部分音声データのF0パターン情報等を含んでもよい。なお、音声素片の付与は、人手により行ってもよいし、コンピュータにより自動的に行ってもよい。例えば、音素情報と位置情報は以下の参考文献1記載の技術を用いてコンピュータにより自動的に行ってもよい。
(参考文献1)特開2004−77901号公報
なお、この実施形態では説明を具体的なものとする観点から合成単位を音素とする。この他、例えば音節、半音節としてもよいし、あるいは音素・音節・半音節などの組み合わせを合成単位とすることなども可能であり、任意に決めることができる。
<類似話者音声データベース構築部110、類似話者音声データベース130及び話者類似度記憶部140>
類似話者音声データベース構築部110は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s110)。図6に示すように類似話者音声データベース構築部110は、類似話者選択部111と話者統合部115を有する。
<類似話者選択部111>
類似話者選択部111は、多数話者音声データベース103に保存されている複数の音声データを入力とし、これを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択し(s111)、類似話者の音声素片付音声データを話者統合部115に出力する。なお、話者類似度とは2つの音声データが類似しているか否かを示す指標である。
例えば、話者識別・認証で使用されている混合正規分布(Gaussian Mixture Model;GMM)を用いた参考文献2記載の技術に基づき話者類似度を求める。
(参考文献2)D. A. Reynolds, “Speaker identification and verification using Gaussian mixture speaker models”, Speech Communication, 1995, vol.17, pp.91-108
この場合、図7に示すように類似話者選択部111は混合正規分布学習部111aと多数話者混合正規分布記憶部111bと話者類似度計算部111cと類似話者抽出部111dとを有する。
(混合正規分布学習部111a及び多数話者混合正規分布記憶部111b)
混合正規分布学習部111aは、N名分の音声データを入力とし、全ての話者の音声データに対して以下の処理(図8中のs111a−2、s111a−3)を行う(s111a−1,s111a−4,s111a−5)。各話者nの音声データを用いて、それぞれの音声データからスペクトルパラメータ(ケプストラム、メルケプストラム等)を取得する(s111a−2)。さらに、それぞれの音声データから得られるスペクトルパラメータを用いて、混合正規分布λを学習し、モデルパラメータである混合重みw(m)、平均ベクトルμ(m)、分散ベクトルν(m)を推定し(s111a−3)、これらの値を多数話者混合正規分布記憶部111bに出力する。但し、m=1,2,…,Mであり、Mは混合正規分布の混合数である。
さらに、混合正規分布学習部111aは、同様に全て(N名分)の音声データから得られるスペクトルパラメータを利用して、全ての音声データに対する混合正規分布λ(Universal Background Model;UBM)を学習し、モデルパラメータである混合重みw(m)、平均ベクトルμ(m)、分散ベクトルν(m)を推定し(s111a−6)、これらの値を多数話者混合正規分布記憶部111bに出力する。
(話者類似度計算部111c)
話者類似度計算部111cは、多数話者混合正規分布記憶部111bから混合重みw(m)、w(m)、平均ベクトルμ(m)、μ(m)、分散ベクトルν(m)、ν(m)を取得し、これらの値と目標話者の音声データを入力とする。まず、話者類似度計算部111cは、目標話者の音声データからスペクトルパラメータ系列Xを取得する。次に、各話者nの話者類似度Lを以下の対数尤度として計算する(s111c−2)。全ての話者nの話者類似度Lを計算し(s111c−1,s111c−3,s111c−4)、類似話者抽出部111dに出力する。
Figure 0005411845
スペクトルパラメータ系列Xの次元数とフレーム数はそれぞれRとTであり、x(t)は第tフレーム目のスペクトルパラメータのベクトルであり、χ(r)は第tフレームの第r次元目のスペクトルパラメータである。また、μ(m,r)、σ(m,r)は、混合正規分布λのパラメータであり、第m混合目の分布の第r次元目の平均、標準偏差を表す。式(1)〜(4)より、話者類似度Lは、目標話者の音声データが持つ音声特徴と類似する音声特徴を有する音声データのほうが大きくなる。
(類似話者抽出部111d)
類似話者抽出部111dは、話者類似度Lを受け取り、その中で話者類似度の大きい上位S名を抽出する(s111d)。但し、この上位S名の話者を類似話者sと呼び、2≦S≦Nとし、s=1,2,…,Sとする。類似話者抽出部111dは、抽出した上位S名の話者類似度Lを話者類似度記憶部140へ出力し、抽出した上位S名の音声素片付音声データを話者統合部115へ出力する。例えば、話者類似度記憶部140には、類似話者の話者識別子(以下、「類似話者識別子」という)とその類似話者に対応する話者類似度を格納する。
<話者統合部115>
話者統合部115は、複数選択した音声素片付音声データを統合して、部分音声データと、その部分音声データの音声素片とからなる類似話者音声データベースを構築する(s115)。
例えば、図9に示すように、音声データを統合する。まず類似話者sの音声データ中に含まれる合成単位の音素pの部分音声データと、それに対応する音声素片を全て取り出す(s115c)。これを全ての類似話者に対して行い(s115b、s115d、s115e)、取り出した合成単位の音素pに対応する部分音声データを類似話者音声データベース130に追加する。その際、部分音声データに対応する音声素片は多数話者音声データベースと同様の構成(図5参照)となるが、音声素片番号を追加した順番に変更し、開始時間、終了時間を類似話者音声データベース130上の各部分音声データの位置に変更する。全ての音素に対して上記処理を行い(s115a、s115g、s115h)、類似話者の音声データを統合する。
なお、通常、複数の話者の音声データを統合して、一つの音声データベースを作成すると、各話者間の音声特徴量が大きく異なるため、波形接続時に異音等が生じてしまう可能性があり、合成音声の品質が低下してしまう。しかし、類似話者選択部111で、類似話者を選択するため、各話者間の音声特徴量の差が小さくなる。そのため、合成音声の品質劣化が生じにくくなる。さらに、複数名の類似話者の音声データを統合することで、類似話者音声データベース130には、抑揚や前後の音素環境等の音声データのバリエーションが増加する。これにより、合成音声の自然性が向上する。
<音声合成部150>
音声合成部150は、類似話者音声データベース130に記憶された類似話者の音声素片付音声データと、話者類似度記憶部140に記憶された話者類似度を用いて、対象テキストに対応する合成音声を生成する(図4のs150)。
図10に示すように、音声合成部150は、テキスト解析部151と韻律生成部152と韻律モデル記憶部153と音素コンテキスト変換部154と音声素片候補探索部155と素片選択部156と素片接続部157とを有する。
音声合成部150に入力される対象テキストは、図示しない入力部から入力されるものとしてもよいし、予め図示しない記憶部に記憶されていてもよい。また、本発明において対象テキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。
<テキスト解析部151>
まず、テキスト解析部151が、対象テキストを取得し、この対象テキストを形態素解析して、対象テキストに対応した読み情報を音素コンテキスト変換部154に、韻律情報を韻律生成部152に出力する(s151)。
形態素解析の概要について説明すると、テキスト解析部151は、単語モデル、漢字かな変換モデル等(これらは必要に応じて図示しない記憶部に記憶されている)を参照して、対象テキストをかなに変換する(読み情報の取得)。また、対象テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則(アクセント結合規則)をデータとして記憶部に記憶しておき、テキスト解析部151は、このアクセント結合規則に従って、対象テキストのアクセント型を決定する。さらに、対象テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが1つ付く特徴的傾向があるので、予めこれらの規則(フレーズ規則)をデータとして記憶部に記憶しておき、テキスト解析部151は、このフレーズ規則に従って、アクセントの1つ付いたまとまりがいくつか接続したものを呼気段落として決定する(韻律情報の取得)。この他、韻律情報にポーズ位置を含めることもできる。
なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができ、これらは従来手法(例えば参考文献3、4参照)によって達成されるので、その詳細を省略する。
(参考文献3)特許3379643号公報
(参考文献4)特許3518340号公報
<韻律生成部152及び韻律モデル記憶部153>
次に、韻律生成部152が、テキスト解析部151が出力した韻律情報を入力として、韻律モデル記憶部153を参照して、韻律に関する情報である韻律パラメータを推定してこれを出力する(s152)。
韻律パラメータとして、F0パターン(基本周波数パターン)、F0パターンの平均値、F0パターンの傾き、音素継続時間長(音素の発声の長さ)等を例示できる。例えば、音素継続時間長は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定することができる。また、F0パターンについては、いわゆる藤崎モデルなどによって求めることができる。なお、藤崎モデル等の韻律モデルは、予め韻律モデル記憶部153に記憶しておく。なお、「推定」とは、音声合成のために必要となる情報(F0パターン、音素継続時間長等)を、ある特定のものに決定することを意味する。
ここで説明した韻律パラメータ取得の概要は一例に過ぎず、その他の手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、韻律パラメータの取得には、従来の韻律パラメータ取得手法を用いることができるので、その詳細を省略する。F0パターンの取得については例えば参考文献5、6を、音素継続時間長については例えば参考文献7、8を参照されたい。
(参考文献5)特許3420964号公報
(参考文献6)特許3344487号公報
(参考文献7)海木佳延、武田一哉、匂坂芳典、「言語情報を利用した母音継続時間長の制御」、電子情報通信学会誌 Vol. J75-A, No.3, pp.467-473, 1992.
(参考文献8)M.D.Riley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit, and T. R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.
<音素コンテキスト変換部154>
音素コンテキスト変換部154は、テキスト解析部151が出力した読み情報を入力として、音素コンテキストを求めてこれを出力する(s154)。
音素コンテキストとは音素の並びのことであり、例えば、読み情報が、“キョウワハレ”であれば音素コンテキストは、“/k//y//O//W//A//H//A//R//E/”となる。音素コンテキスト変換部154は、かな音素変換モデルなど(必要に応じて記憶部に記憶されている。)を参照して、読み情報を音素列に変換する(音素コンテキストの取得)。
<音声素片候補探索部155>
次に、音声素片候補探索部155が、音素コンテキストを入力として、音素情報に基づいて、音素コンテキストに合成単位で適合する音声素片の候補(以下、「音声素片候補」という)を類似話者音声データベース130から探索してこれを出力する(s155)。
音声素片候補の探索方法として、種々の方法を採用できる。例えば、参考文献9記載の方法により実施することができる。
(参考文献9)特開2009−122381号公報
音素情報が音素コンテキストの一部と一致する音声素片を類似話者音声データベース130から全て探索して、音声素片候補とする。
合成単位が音素の例では、音素コンテキストが“/k//y//O//W//A//H//A//R//E/”である場合を例にすると、音素コンテキストの各音素“/k/”、“/y/”、“/O/”、“/W/”、“/A/”、“/H/”、“/A/”、“/R/”、“/E/”毎に、当該音素に一致する音素情報を持つ音声素片を類似話者音声データベース130から全て探索して、これら音声素片を音素コンテキストの音素毎に音声素片候補とする。つまり、この例では、音素コンテキストの音素毎に一つまたは複数の音声素片候補が決まる。
<素片選択部156>
素片選択部156は、各音声素片候補の類似話者識別子に対応する話者類似度Lを少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する(s156)。
例えば、音声素片候補を入力として、一つまたは複数のサブコスト関数を用いて、音声素片候補それぞれのサブコストを計算し、さらにサブコストからなる総合コストを計算し、総合コストを用いて、波形接続に用いる選択音声素片を特定して、これを出力する。
例えば、サブコストそれぞれは、対象テキストから得られる韻律パラメータと、音声素片候補の韻律パラメータとの適合度を表す。
サブコストの計算方法であるが、任意に種々の方法を採用できる。一例として、参考文献10に示されるようなサブコスト関数を用いて計算することができる。
(参考文献10)「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9
音声素片候補の韻律パラメータのF0パターン平均値Vpと、対象テキストの合成単位の音声素片候補のF0パターン平均値Vsに対応するサブコスト関数は、
(Vp,Vs)=(Vp−Vs) (11)
である。
音声素片候補の韻律パラメータのF0パターンの傾きFpと、対象テキストの合成単位の音声素片候補のF0パターンの傾きFsに対応するサブコスト関数は、
(Fp,Fs)=(Fp−Fs) (12)
である。
音声素片候補の韻律パラメータの音素継続時間長Tpと、対象テキストの合成単位の音声素片候補の音素継続時間長Tsに対応するサブコスト関数は、
(Tp,Ts)=(Tp−Ts) (13)
である。
話者類似度をサブコスト関数の一つとして使用する場合、サブコスト関数は、
(L,L)=(L−L (14)
である。なお、Lは類似話者選択部111でS個の話者類似度Lの中で最も大きい話者類似度であり、Lはサブコスト計算の対象となる音声素片候補の類似話者s(s=1,2,…,S)の話者類似度である。サブコスト計算の対象となる音声素片が最も話者類似度が高い話者の場合、C(L,L)は0となり、話者類似度が低い話者ほどC(L,L)は大きな値となる。なお、話者類似度は、音声素片候補の類似話者識別子をキーとして、話者類似度記憶部140から取得する。
次に、素片選択部156が、これらのサブコストからなる総合コストを計算する。総合コストには種々の方式を採用することができる。一例として、以下のように、各サブコスト値に重みwを掛けて総和を計算することで、これを総合コストQとする。
Figure 0005411845
但し、Kはサブコストの個数である(例えばK=4)。総合コストQは、対象テキストの合成単位毎に、一つまたは複数の音声素片候補に対してそれぞれ求められる。但し、重みwは何れも正値とし、任意に設定することができる。上記の例では、各サブコストCは0以上の値をとり、音素コンテキストに対して優れた音声素片候補ほどそれらの値は0に近いから、総合コストQは0以上の値をとり、総合コストQが0に近いほど良好な素片候補と判定することができる。
そして、素片選択部156は、総合コストQの総和が最良(この例では最小)となるように、対象テキストの合成単位毎に、音声素片候補を一つ特定し、対象テキストの音素コンテキストに対応する一連の音声素片を決定する。この特定された音声素片候補が、選択音声素片である。
<素片接続部157>
最後に、素片接続部157が、類似話者音声データベース130から選択音声素片に対応する部分音声データを読み込み、この部分音声データを一連の音声素片の並びに従って接続することで合成音声を生成する(s157)。
選択音声素片に対応する部分音声データを時間的な順に単に接続してもよいが、異なる部分音声波形データ間を時間的又は周波数的に補間して波形接続してもよい(参考文献11参照)。
(参考文献11)特開平7−072897号公報
<効果>
このような構成とすることで、目標話者により類似している話者の音声データが音声合成の際に使用されやすくなり、合成音声の目標話者に対する類似性を向上させることができる。
また、類似話者の選択は、非特許文献1の平均声モデルからの変換規則の学習に比べ、数秒〜数十秒程度の少量の音声データで十分な性能が得られるため、音声合成を行うために必要な目標話者の音声データ量を削減することができる。また、目標話者の多量の音声データが必要でなくなるため、音声収録の拘束時間を極めて短時間とすることができる。
さらに、複数名の音声データを統合することで、統合後の音声データベース中に存在する同一コンテキストの素片が増加させ、合成音声の自然性が向上させることができる。
<変形例1>
第一実施形態と異なる部分についてのみ説明する。
図10の素片選択部156’において、各音声素片候補の類似話者識別子に対応する話者類似度Lを少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を、以下のようにして総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する(図11のs156’)。
Figure 0005411845
なお、重みwは、話者類似度が最も高い話者の場合に1となり、それ以外の類似話者の場合には、話者類似度に応じて1より大きくなれば、別の計算式で求めても構わない。また、この重みは総合コスト全体に使用しても、個別のサブコスト関数の重みとして使用しても構わない(例えば、F0平均値のサブコスト関数Cのみに使用する等)。
また、この場合、話者類似度Lをサブコストとして利用してもよいし、利用しなくてもよい。
このような構成とすることで第一実施形態と同様の効果を得ることができ、さらに、柔軟性のある素片選択が可能となる。
<その他の変形例>
音声合成装置100は、必ずしも多数話者音声データベース構築部101を備えなくともよい。その場合、他の装置等で構成した多数話者音声データベース103を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。さらに、音声合成装置100は、多数話者音声データベース103及び類似話者音声データベース構築部110を備えなくともよい。その場合、他の装置等で構成した類似話者音声データベース130及び類似話者の話者類似度を、記録媒体から、あるいは通信回線を介してダウンロードして取得し記憶すればよい。音声合成部150は、このように得られた類似話者音声データベース130と話者類似度を用いても第一実施形態と同様の音声合成を行うことができる。
また、音声データは、音声波形データではなく、音声波形データに対して信号処理を行った結果、得られる音声特徴量(音高パラメータ(基本周波数等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))でもよい。この場合、類似話者選択部111内で音声波形データからスペクトルパラメータ(ケプストラム、メルケプストラム等)を取得する処理を省略することができる。また、素片接続部157では、接続した部分音声データ(音声特徴量)を用いて、音声波形データを生成し、出力する。
音声素片は、アクセント情報(アクセント型、アクセント句長)や品詞情報等を含んでもよい。また、多数話者音声データベース103には、話者の情報(性別、年齢、出身地)、収録環境(マイクロホンの種類、収録ブースの情報)等を含んでもよい。目標話者の音声データにもこのような情報を付加することで、より精度の高い合成音声を生成することができる。
類似話者選択部111における話者類似度の求め方は、他の方法によってもよい。例えば、スペクトルパラメータを用いずに、音声波形データから直接類似度を求めてもよい。
類似話者音声データベースには、必ずしも音声波形データを記憶しなくともよい。音声素片のみからなるデータベースであってもよい。この場合、音声波形データは、類似話者音声データベース内の音声素片をキーとして、多数話者音声データベース103から取得する構成とする。
本実施形態では、サブコストとして、F0パターンの平均値、F0パターンの傾き、音素継続時間長、話者類似度を用いているが、少なくとも話者類似度を用いていればよい。最も目標話者に近いと判定された話者の音声素片が選択されやすくなり、合成音声の目標話者に対する類似性が向上する。さらに他の情報からサブコストを求めてもよい。例えば、素片選択部156において、音素コンテキストを入力として(図10中破線で示す)、読みに対応するサブコストを計算してもよい。なお、読みに対応するサブコスト関数は、
C(j)=1/e (23)
である。但し、対象テキストの音素コンテキストと、合成単位の音声素片候補の音素コンテキストが一致する音素数をjとする。
<第二実施形態>
図3を用いて第二実施形態に係る音声合成装置200を説明する。第一実施形態と異なる部分についてのみ説明する。音声合成装置200は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部210と類似話者音声データベース130と話者類似度記憶部140とを備える。類似話者音声データベース構築部210の構成が第一実施形態と異なる。
[ポイント]
第一実施形態では、話者統合部115において、抽出したS名の話者を統合する際に、話者間の音声特徴量の差が大きいと、合成音声の品質の劣化を引き起こす恐れがある。そのため、第二実施形態では、話者統合部215で目標話者の音声特徴量を用いて、抽出した話者の音声特徴量を目標話者の特徴量へ正規化することで、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。
<類似話者音声データベース構築部210>
図12及び図13を用いて、類似話者音声データベース構築部210を説明する。
類似話者音声データベース構築部210は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s210)。図12に示すように類似話者音声データベース構築部210は、類似話者選択部111と、さらに、音声素片付与部212と、話者変換規則学習部213と話者単位変換部214と話者統合部215を有する。
<音声素片付与部212>
音声素片付与部212は、入力された目標話者の音声データに対して、音声素片を付与する(s212)。音声素片として付与される情報は、多数話者音声データベース構築部101で付与される音声素片と同様である。但し、音素番号や各音素の開始時間、終了時間は、目標話者の音声データに対するものとする。この音声素片は、人手により付与するか、音声データと発話テキストから自動で付与してもよい。
<話者変換規則学習部213>
話者変換規則学習部213は、目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴量を持つ音声データに変換する話者変換規則を学習する(s213)。例えば、参考文献12記載の方法により話者変換規則を学習する。
(参考文献12) M. J. F Gales and P. C. Woodland, “Mean and variance adaptation within the MLLR framework,” Computer Speech and Language, 1996, vol.10, pp.249-264
まず、類似話者選択部111で選択されたS名分の類似話者の音声データから得られる音声特徴量と、その音声データに対応する音声素片から統計モデル(例えば、Hidden Markov Model(HMM)やGMM等)を学習する(図14中のs213b)。なお、多数話者音声データベース103の音声データを用いて、事前に全ての話者(N名分)の統計モデルを求めておき、多数話者音声データベース内に記憶しておいてもよい。
次に、目標話者の全スペクトルパラメータ及び音声素片と、類似話者sの統計モデルとを用いて、類似話者sのスペクトルパラメータを目標話者のスペクトルパラメータへ変換するCMLLR変換行列W(話者変換規則φ)を学習する(s213c)。話者単位変換部214に話者変換規則φを出力する。変換行列Wは以下の方程式を解くことで求める。
Figure 0005411845
ここで、(・)’は・の転置行列を表す。xは時刻tの目標話者のスペクトルパラメータ、μ,U −1はそれぞれHMMの状態gの平均と共分散行列の逆行列である。また、γ(t)は状態gにおいてxが出力される確率であり、xとμ,U −1とから得られる。この変換行列Wは、HMMの状態毎に求めることが可能であるが、本実施形態では全ての状態を共有することにより、一つの変換行列を求める。なお、各類似話者sに対して、話者変換規則φを学習する。
<話者単位変換部214>
話者単位変換部214は各類似話者の音声データを話者変換規則φに従って変換する(s214)。例えば、類似話者sの音声データベース中の時刻tにおけるスペクトルパラメータxs,tを、変換行列W(話者変換規則φ)を用いて変換することで、目標話者の特徴へ変換した類似話者sのスペクトルパラメータx ̄s,tを得る。
Figure 0005411845
この処理を各類似話者の全時刻の音声データに対して行う。
以下、F0パラメータの変換の一例として、以下の処理で行う線形変換手法について説明する。目標話者の音声データから得られる全ての対数F0値から平均μと分散νを求める。また類似話者sの音声データから得られる全ての対数F0値から平均μと分散νを求める。そして、類似話者sの変換後の対数F0値を以下の式により求める。
Figure 0005411845
ここで、zは変換前の類似話者sの第t番目の対数F0値であり、yは変換後の類似話者sの第t番目の対数F0値である。Tは類似話者sの対数F0の全フレーム数であり、t=1,2,…,Tである。
全ての類似話者の音声データに対して、同様の処理(s213b〜s214)を行い(s213a,s213d,s213e)、話者単位の変換処理を行った音声データを話者統合部215に出力する。
<話者統合部215>
話者統合部215は、類似話者sの音声データそのものではなく、話者変換規則φを使って変換された音声データを統合して、類似話者音声データベースを構築する(s215)。構築方法は、第一実施形態と同様である。
<効果>
このような構成とすることで、第一実施形態に比べ、話者間の音声特徴量の差を軽減し、合成音声の品質劣化を防ぐ。
<変形例>
話者変換規則学習部213において、目標話者の音声データと複数選択した類似話者の音声データのみを用いて、各類似話者の音声データを目標話者の音声データに変換する話者変換規則を学習してもよい。その場合、音声素片付与部212は設けなくともよい。
<第三実施形態>
図3を用いて第三実施形態に係る音声合成装置300を説明する。第二実施形態と異なる部分についてのみ説明する。音声合成装置300は、多数話者音声データベース構築部101と多数話者音声データベース103と類似話者音声データベース構築部310と類似話者音声データベース130と話者類似度記憶部140とを備える。類似話者音声データベース構築部310の構成が第一実施形態と異なる。
[ポイント]
第一実施形態及び第二実施形態では、目標話者に類似した複数名の話者から類似話者音声データベース130を生成したが、本実施形態では、話者統合部215で得られる音声データを基として、さらに音声合成単位毎にモデル適応技術を用いて、音声データを変換することで、目標話者により近いモデルを生成することが可能である。
<類似話者音声データベース構築部310>
図15及び図16を用いて、類似話者音声データベース構築部310を説明する。
類似話者音声データベース構築部310は、複数の音声データを用いて、目標話者の音声データに類似した音声データからなる類似話者音声データベースを構築する(s310)。図15に示すように類似話者音声データベース構築部310は、類似話者選択部111と、音声素片付与部212と、話者変換規則学習部213と話者単位変換部214と話者統合部215と、さらに、合成単位変換規則学習部317と、合成単位変換部318を有する。
<合成単位変換規則学習部317>
合成単位変換規則学習部317は、目標話者の音声データと第一類似話者音声データベース130の部分音声データを用いて、同一の状態毎に各類似話者の部分音声データを目標話者の音声特徴を持つ部分音声データに変換する合成単位変換規則を学習する(s317)。例えば、非特許文献1記載の方法により合成単位変換規則を学習する。なお、第一類似話者音声データベース130内の音声データは、第一実施形態及び第二実施形態の類似話者音声データベース130内の音声データと同様の方法により構成される。
まず、合成単位変換規則学習部317は、第一類似話者音声データベース130を用いて、同一の状態を持つ部分音声データ毎に、そのスペクトルパラメータと音声素片を用いて、統計モデル(HMM)を学習する。この統計モデルは、類似話者の平均的な統計モデルとなる。
次に、合成単位変換規則学習部317は、目標話者の部分音声データから得られるスペクトルパラメータ及びその部分音声データに対する音声素片と、第一類似話者音声データベース130を用いて学習した統計モデルとから、全類似話者の平均的な音声データから得られるスペクトルパラメータ及び音声素片を、目標話者のスペクトルパラメータ及び音声素片に変換する変換行列を学習する。なお、同一の状態毎に変換行列を学習する。学習方法は実施例2と同様である。このMLLR変換行列を合成単位変換規則として取得する。
なお、合成単位変換規則は、同一の状態毎に学習を行うが、目標話者の音声データが少量の場合、全ての状態に対応する音声データの合成単位変換規則を学習することはできない。本実施形態では、リーフノードが各音声となる二分木を作成し、目標話者のデータ量が一定値以上となる最下位ノードにおいて合成単位変換規則を学習する。これにより、目標話者の音声データが少量の場合でも、全ての状態に対して、合成単位変換規則を学習することができる。
<合成単位変換部318>
合成単位変換部318は、各類似話者の音声データを合成単位毎の合成単位変換規則に従って変換する(s318)。学習した合成単位変換規則を、第一類似話者音声データベース130へ適用し、第二類似話者音声データベース330を得る。なお、合成単位変換規則の適用手法は非特許文献1記載の手法を用いることができる。
このような構成とすることで、第二実施形態よりもさらに、目標話者により近い合成音声を生成することができる。
<プログラム及び記憶媒体>
上述した音声合成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<その他>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
100,200,300 音声合成装置
101 多数話者音声データベース構築部
103 多数話者音声データベース
110,210,310 類似話者音声データベース構築部
111 類似話者選択部
111a 混合正規分布学習部
111b 多数話者混合正規分布記憶部
111c 話者類似度計算部
111d 類似話者抽出部
115,215 話者統合部
130 類似話者音声データベース
130 第一類似話者音声データベース
140 話者類似度記憶部
150 音声合成部
151 テキスト解析部
152 韻律生成部
153 韻律モデル記憶部
154 音素コンテキスト変換部
155 音声素片候補探索部
156 素片選択部
156 素片選択部
157 素片接続部
212 音声素片付与部
213 話者変換規則学習部
214 話者単位変換部
317 合成単位変換規則学習部
318 合成単位変換部
330 第二類似話者音声データベース

Claims (9)

  1. 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成方法であって、
    2つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択ステップと、
    複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合ステップと、
    前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
    前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
    前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
    各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
    前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
    音声合成方法。
  2. 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成方法であって、
    2つの音声データが類似しているか否かを示す指標を話者類似度とし、目標話者の音声データとの話者類似度が高い複数の音声データを合成音声を組み立てる上で適切な合成単位に分割した部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶され、
    前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、
    前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
    前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、
    各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、
    前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、
    音声合成方法。
  3. 請求項1または請求項2記載の音声合成方法であって、
    各類似話者sの音声データの話者類似度をLとし、最も話者類似度が高い話者の話者類似度をLとし、
    前記素片選択ステップにおいて、
    K個のサブコストCの和を総合コストQとし、少なくともサブコストの一つとして、
    C(L,L)=(L−L
    を用いる、
    音声合成方法。
  4. 請求項1または請求項2記載の音声合成方法であって、
    各類似話者sの音声データの話者類似度をLとし、最も話者類似度が高い話者の話者類似度をLとし、
    前記素片選択ステップにおいて、
    K個のサブコストCの和を総合コストQとし、各サブコストに対する重みをwとし、総合コストを
    Figure 0005411845
    として求める、
    音声合成方法。
  5. 請求項1記載の音声合成方法であって、
    目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
    各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
    前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築する、
    音声合成方法。
  6. 請求項1記載の音声合成方法であって、
    目標話者の音声データと複数選択した類似話者の音声データを用いて、各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する話者変換規則を学習する話者変換規則学習ステップと、
    各類似話者の音声データを前記話者変換規則に従って変換する話者単位変換ステップと、をさらに備え、
    前記話者統合ステップは、複数選択した類似話者の音声データをそれぞれ変換した音声データを統合して、前記部分音声データと、その部分音声データの前記音声素片とからなる類似話者音声データベースを構築し、
    目標話者の音声データと前記類似話者音声データベースの部分音声データを用いて、同一の状態毎に各類似話者の音声データを目標話者の音声特徴を持つ音声データに変換する合成単位変換規則を学習する合成単位変換規則学習ステップと、
    各類似話者の部分音声データを合成単位毎の合成単位変換規則に従って変換する合成単位変換ステップと、をさらに備える、
    音声合成方法。
  7. 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成装置であって、
    2つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択部と、
    複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合部と、
    前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
    前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
    前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
    前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
    各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
    前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
    音声合成装置。
  8. 対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成装置であって、
    合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースと、
    2つの音声データが類似しているか否かを示す指標を話者類似度とし、前記類似話者識別子と、その類似話者識別子の対応する前記話者類似度とを記憶する話者類似度記憶部と、
    前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析部と、
    前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換部と、
    前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索部と、
    各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択部と、
    前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続部と、を有する、
    音声合成装置。
  9. 請求項1から請求項6の何れかに記載の音声合成方法を、コンピュータに実行させるための音声合成プログラム。
JP2010292223A 2010-12-28 2010-12-28 音声合成方法、音声合成装置及び音声合成プログラム Expired - Fee Related JP5411845B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010292223A JP5411845B2 (ja) 2010-12-28 2010-12-28 音声合成方法、音声合成装置及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010292223A JP5411845B2 (ja) 2010-12-28 2010-12-28 音声合成方法、音声合成装置及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2012141354A JP2012141354A (ja) 2012-07-26
JP5411845B2 true JP5411845B2 (ja) 2014-02-12

Family

ID=46677736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010292223A Expired - Fee Related JP5411845B2 (ja) 2010-12-28 2010-12-28 音声合成方法、音声合成装置及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP5411845B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014066916A (ja) * 2012-09-26 2014-04-17 Brother Ind Ltd 音声合成装置
JP5885210B2 (ja) * 2013-01-11 2016-03-15 日本電信電話株式会社 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6006678B2 (ja) * 2013-05-20 2016-10-12 日本電信電話株式会社 音声モデル生成装置、方法、プログラム
JP2017156392A (ja) * 2016-02-29 2017-09-07 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102069135B1 (ko) * 2018-05-17 2020-01-22 서울시립대학교 산학협력단 화자 음성 인증 서비스에서 스푸핑을 검출하는 음성 인증 시스템
JP7125608B2 (ja) * 2018-10-05 2022-08-25 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム
KR102273147B1 (ko) * 2019-05-24 2021-07-05 서울시립대학교 산학협력단 음성 합성 장치 및 방법
KR102436517B1 (ko) * 2020-11-13 2022-08-24 서울시립대학교 산학협력단 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치 및 이를 위한 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
JP4586615B2 (ja) * 2005-04-11 2010-11-24 沖電気工業株式会社 音声合成装置,音声合成方法およびコンピュータプログラム
JP4533255B2 (ja) * 2005-06-27 2010-09-01 日本電信電話株式会社 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4564416B2 (ja) * 2005-07-13 2010-10-20 日本放送協会 音声合成装置および音声合成プログラム
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP2010128103A (ja) * 2008-11-26 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、音声合成方法、および音声合成プログラム

Also Published As

Publication number Publication date
JP2012141354A (ja) 2012-07-26

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
US7603278B2 (en) Segment set creating method and apparatus
US7996222B2 (en) Prosody conversion
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2015180966A (ja) 音声処理システム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
WO2013018294A1 (ja) 音声合成装置および音声合成方法
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP2009122381A (ja) 音声合成装置、音声合成方法およびそのプログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
Sharma et al. Polyglot speech synthesis: a review
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
JP2020106643A (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP2005181998A (ja) 音声合成装置および音声合成方法
Huang et al. Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131108

R150 Certificate of patent or registration of utility model

Ref document number: 5411845

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees