JP5449022B2 - 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム - Google Patents

音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム Download PDF

Info

Publication number
JP5449022B2
JP5449022B2 JP2010112373A JP2010112373A JP5449022B2 JP 5449022 B2 JP5449022 B2 JP 5449022B2 JP 2010112373 A JP2010112373 A JP 2010112373A JP 2010112373 A JP2010112373 A JP 2010112373A JP 5449022 B2 JP5449022 B2 JP 5449022B2
Authority
JP
Japan
Prior art keywords
diphone
label
phone
missing
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010112373A
Other languages
English (en)
Other versions
JP2011242465A (ja
Inventor
光昭 磯貝
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010112373A priority Critical patent/JP5449022B2/ja
Publication of JP2011242465A publication Critical patent/JP2011242465A/ja
Application granted granted Critical
Publication of JP5449022B2 publication Critical patent/JP5449022B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、人間が発声した音声を記録した音声波形データベースから、テキスト音声合成技術に用いることができる音声素片データベースを作成する音声素片データベース作成装置に関する。
音素、音節、あるいは音韻連鎖といった単語より短い単位の音声を音声合成単位として、この音声合成単位を連結して合成音声を生成する技術が知られている。音声合成単位は発声者が文リストを読み上げた音声を記録した音声波形データベースより収集する。音声合成単位として以下が知られている(非特許文献1、2参照)。
音素単位:母音(Vowel)、子音(Consonant)を音声合成単位とする。収集しなければならない音声合成単位の総数が少なくて済む。しかし、音声の調音結合情報が含まれていないため、合成音声の音質は低い。
音節(CV)単位:子音(Consonant)と母音(Vowel)の組み合わせを音声合成単位とする。日本語の音節に適しており、子音から母音に変化する際の調音結合が保存されている。収集しなければならない音声合成単位の総数が少なくて済む。しかし音節(CV)単位前後の調音結合情報が含まれていないため、やはり合成音声の音質は低い。
ダイフォン単位:CV、VC、VVなど、2個の音素の組み合わせを音声合成単位とする。音声合成単位間の連結は音素の中心部にて行われる。日本語に出現する全ての調音結合情報を含んでいるため、音節(CV)単位よりも必要な音声合成単位の総数が多くなるが、合成音声は高品質となる。
音素単位とダイフォン単位とを併用する方法(非特許文献3参照):母音同士を連結する場合にはダイフォン単位を音声合成単位に用いるが、それ以外の連結には音素単位を用いる。ダイフォン単位を用いる場合には、音声合成単位間の連結は音素の中心部にて行われる。音素単位を用いる場合には、音声合成単位間の連結は音素の境界部にて行われる。母音同士を連結する場合には、音素中心部において連結するほうが音素境界部において連結する場合よりもなめらかな音声合成結果が得られる。したがってこの方法によれば、音素境界部と音素中心部のうち、より滑らかに連結することができる連結点において、合成音声単位を連結することができる。音素単位のみを音声合成単位とする場合よりも自然な合成が可能であり、合成音声は高品質となる。しかし、音声合成時の素片探索処理量が大きいという問題がある。
この他に、環境付音素(トライフォン)や、合成の都度音声コーパスから適切な音声合成単位を選択する、可変長合成単位などが提案されている。
阿部匡伸、「コーパスベース音声合成技術の動向[II]」、電子情報通信学会誌、社団法人電子情報通信学会、平成16年2月、第87巻、第2号、pp129〜134. 小池恒彦著、「音声情報工学」、NTTアドバンステクノロジ社、昭和62年、pp66〜67. 戸田智基、河合恒、津崎実、鹿野清宏、「素片接続型日本語テキスト音声合成における音素単位とダイフォン単位に基づく素片選択」、電子情報通信学会論文誌、社団法人電子情報通信学会、平成14年12月、D-II、vol.J85-D-II、no.12、pp1760〜1770.
ダイフォン単位を音声合成単位として用いれば、音節(CV)単位を音声合成単位として用いた場合と比較して必要な音声合成単位の総数がそれほど多くはならずに、品質の良い合成音声を得ることができる。しかしながら発声者が文リストを読み上げた音声を記録した音声波形データベースから、ダイフォン単位による音声合成に必要な音声合成単位を収集する場合、前記文リストの規模が十分でなく、音声波形データベースから必要な全ての音声合成単位を収集できない場合がある。この場合には、必要な全ての音声合成単位を音声モデルとして保有する音声素片データベースを作成することができず、この不完全な音声素片データベースによっては、音声の欠落なしに合成音声を作成することができない。
前述の音素単位とダイフォン単位とを併用する方法によれば、ダイフォン単位による音声合成に必要な音声合成単位は母音同士の連結に限られるため、音声合成単位の総数が少なくて済む。従って前記文リストが小規模であっても、必要な全ての音声合成単位を得ることは容易である。しかしながら、音声合成時の素片探索の範囲が広がることにより、素片探索処理量が大きくなってしまう。
本発明では、音声波形データベースから必要な全ての音声モデルを生成できなかった場合に、代替音声モデルを生成して完全な音声素片データベースを生成することができる音声素片データベース作成装置が提供される。本発明の音声素片データベース作成装置は、音素−ダイフォン区間変換部と、音声パラメータ系列変換部と、音声モデル生成部と、欠落ダイフォンラベル出力部と、ハーフフォン生成部と、代替音声モデル生成部とを備える。
前記音素−ダイフォン区間変換部は、音素区間長さごとに音素ラベルを付与された音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する。
前記音声パラメータ系列変換部は、前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換し、ダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する。
前記音声モデル生成部は、前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する。
前記欠落ダイフォンラベル出力部は、前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する。
前記ハーフフォン生成部は、前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力する。
前記代替音声モデル生成部は、前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する。
これらにより、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンとのF0ギャップが最小となる組み合わせを当該欠落ダイフォンラベルの連結対象として選択してもよい。
これにより、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。
また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンを、予め定義されたF0値域で区切られた2以上のカテゴリに分類し、同一もしくは近接するカテゴリに分類された前記前半部のハーフフォンと前記後半部のハーフフォンとからなる組み合わせを当該欠落ダイフォンラベルの連結対象として選択してもよい。
これにより、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。また、このようにして作成された音声素片データベースは、同一の欠落ダイフォンラベルについて、平均F0の異なる代替音声モデルを複数(最多の場合、カテゴリ数と同数)有する可能性が高くなる。このため、上記音声素片データベースを用いて音声合成処理を行う場合、韻律生成によって生成したF0に近似したF0値を持つ音声モデルを、前記音声素片データベースから選択できる可能性が高くなり、F0変化量が減少することにより合成音声がさらに高品質となる。また、同一もしくは近接するカテゴリに分類されたハーフフォン同士を組み合わせて代替音声モデルとするため、すべてのハーフフォンの組み合わせを代替音声モデルとして記憶することとした場合に比べ、音声素片データベースに記憶する代替音声モデルの総数を著しく少なく抑えることができ、素片探索時間の増加やデータベースサイズの増加を避けることができる。
また、本発明の音声素片データベース作成装置における代替音声モデル生成部は、任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォン、もしくは任意の欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンが存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択してもよい。
これにより、音声波形データベース中に全く存在しない音素についても、代替音声モデルを生成することができるため、必要な全ての音声モデルを保有する音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。
また、あらかじめダイフォンラベルを付与された音声モデルを入力することとすれば、音素−ダイフォン区間変換部と、音声パラメータ系列変換部と、音声モデル生成部とを省略することができる。したがって、本発明では、欠落ダイフォンラベル出力部と、ハーフフォン生成部と、代替音声モデル生成部とを備える代替音声モデル作成装置が提供される。この代替音声モデル作成装置における各部の働きは、前記音声素片データベース作成装置における同一名称の各部における働きと同じである。
これらにより、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
また本発明は、上記の音声素片データベース作成装置、もしくは代替音声モデル作成装置によって作成された音声素片データベースを用いて、テキストから音声を合成する音声合成装置を提供する。この音声合成装置は、テキスト解析部と、韻律生成部と、音声モデル選択部と、音声合成部とを有する。
テキスト解析部は、テキストを入力とし、読み、アクセント、音韻系列を出力する。韻律生成部は、読み、アクセントを入力とし、F0、パワー、音韻長を出力する。音声モデル選択部は、F0、パワー、音韻系列を入力とし、音声素片データベースから音声モデルを選択して出力する。音声合成部は、音声モデル、F0、パワー、音韻長を入力とし、合成音声を出力する。
これらにより、ハーフフォンを連結して代替音声モデルを生成し、音声素片データベースを作成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
以上のように、本発明では、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、代替音声モデルを生成することにより完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
音声素片データベース作成装置、代替音声モデル作成装置の構成を示すブロック図。 音声素片データベース作成装置、代替音声モデル作成装置の動作を示すフローチャート。 音声素片データベース作成装置の音素セグメンテーション部と、音素−ダイフォン区間変換部の出力例を示す図。 音声素片データベース作成装置の音声パラメータ系列変換部と、音声モデル生成部の出力例を示す図。 音声素片データベース作成装置の代替音声モデル生成部の構成を示すブロック図。 音声素片データベース作成装置の代替音声モデル生成部のハーフフォン選択手段の出力例を示す図。 音声合成装置の構成を示すブロック図。 音声合成装置の動作を示すフローチャート。 音声合成装置の音声合成部の出力例を示す図。 音声素片データベースに記憶される音声モデル、代替音声モデルの例を示す表。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図1〜6、図10を参照して本発明の音声素片データベース作成装置および、音声素片データベース作成方法を説明する。図1に示した音声素片データベース作成装置1000は、音素セグメンテーション部1100と、音素−ダイフォン区間変換部1200と、音声パラメータ系列変換部1300と、音声モデル生成部1400と、定義済ダイフォンラベルリスト1500と、欠落ダイフォンラベル出力部1600と、ハーフフォン生成部1800と、代替音声モデル生成部1900と、を有する。図3に示した音素セグメンテーション部1100は、音素区間分割手段1110と、音素ラベル付与手段1120とを有する。音素−ダイフォン区間変換部1200は、ダイフォン区間分割手段1210と、ダイフォンラベル付与手段1220とを有する。図5に示した代替音声モデル生成部1900は、ハーフフォン配置手段1910と、欠落ダイフォンラベルリスト1920と、決定木確定手段1930と、音素間距離マトリクステーブル1940と、ハーフフォン選択手段1950と、ハーフフォン連結手段1960とを有する。
図2、3を参照して、音素セグメンテーション部1100では、音声波形データベース91中の音声波形データ1111を入力として、音素区間分割手段1110が、音声波形データ1111を音素区間1112に分割し、音声波形データ1111と音素区間1112を対応付けて出力する。音声波形データ1111と音素区間1112を入力として、音素ラベル付与手段1120が、音素区間1112ごとに音素ラベル1121を付与して、音声波形データ1111と、音素区間1112と、音素ラベル1121とを対応付けて出力する(S1100)。この処理は、セグメンテーションを自動的に行う方法として知られている従来方法(参考特許文献1:特開2004−77901)を用いることができる。
音素−ダイフォン区間変換部1200では、音素区間1112ごとに音素ラベル1121を付与された音声波形データ1111を入力とし、ダイフォン区間分割手段1210が、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間1212とし、ダイフォン区間1212と、音素ラベル1121とを音声波形データ1111に対応付けて出力する。ダイフォン区間1212と、音素ラベル1121と、音声波形データ1111とを入力とし、ダイフォンラベル付与手段1220は、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベル1221とし、当該ダイフォン区間1212と当該ダイフォンラベル1221とを対応付けて出力する(S1200)。
図3では、音素セグメンテーション部1100に、音声波形データ「ONSe」が入力された場合の音素セグメンテーション部1100と音素−ダイフォン区間変換部1200の動作について例示した。図3中の「Sil」は無音区間の音素ラベルを意味する。「Sil」を付与された無音区間については前半部と後半部に分割せず、無音区間全体を、後の音素区間の前半部もしくは先の音素区間の後半部と連結してダイフォン区間1212を生成するものとする。図3中の「Sil:O」、「O:N」、「N:S」、「S:e」、「e:Sil」は何れもダイフォンラベル1221である。
図2、4を参照して、音声パラメータ系列変換部1300は、音声波形データ1111とダイフォンラベル1221とダイフォン区間1212とを入力とし、前記音声波形データ1111をダイフォン区間1212ごとに、一定のフレーム長(例えば5ms)ごとにN個の音声パラメータよりなる音声パラメータ系列1301−1〜Nに変換し、当該音声パラメータ系列1301−1〜Nをダイフォン区間1212と対応付けて出力する(S1300)。音声パラメータの表現方法としては、例えばケプストラム(非特許文献2参照)などを用いることができる。
音声モデル生成部1400は、音声パラメータ系列1301−1〜Nとダイフォンラベル1221とダイフォン区間1212とを入力とし、ダイフォン区間1212ごとに、ダイフォン区間1212に対応付けられた音声パラメータ系列を状態1〜3に分割し、状態1〜3から1つずつ音声パラメータを選択して代表パタン1401−1〜3とする。これら3つの代表パタンよりなる3状態の音声モデル1402を生成し、当該ダイフォン区間1212と対応付いたダイフォンラベル1221と、当該音声モデル1402とを対応付けて出力する(S1400)。本実施例では状態数を3としたが、状態数についてはこれ以外の値とすることもでき、例えば長母音のような長い音韻長を含むダイフォン区間については5状態とし、選択する代表パタン数を5として、5状態からなる音声モデルを生成することとしてもよい。各状態の長さは、ダイフォン区間を均等に分割することとしてもよいし、例えば音声パラメータが急激に変動する中心部を密に分割するような非均一な分割を行うこととしてもよい。また、各状態の代表パタンの選択方法としては、各状態の時間的中心部分のフレームにある音声パラメータを選択する方法、各状態における全てのフレームの音声パラメータの平均値を用いる方法、この平均値に最も近い音声パラメータを各状態から選択する方法がある。
図4では、ダイフォン区間に分割された音声波形データ「ONSe」、対応するダイフォンラベル「Sil:O」、「O:N」、「N:S」、「S:e」、「e:Sil」が入力された場合、例えばダイフォンラベル「N:S」に対応付けられた音声パラメータ系列1301−1〜Nにおける音声パラメータ系列変換部1300と、音声モデル生成部1400の動作について例示した。
図1、2を参照して、欠落ダイフォンラベル出力部1600は、ダイフォンラベル1221と、定義済ダイフォンラベルリスト1500とを入力とし、定義済ダイフォンラベルリスト1500に存在するが、ダイフォンラベル1221として入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する(S1600)。なお、定義済ダイフォンラベルリスト1500とは、音声合成に必要な全てのダイフォンのダイフォンラベルをリストとして予め生成したものである。
なお、欠落ダイフォンラベル出力部1600は、音声波形データベース91の規模が不十分で、音声波形データベース91に必要な全てのダイフォンが含まれていない場合、当該含まれていないダイフォンを欠落ダイフォンラベルとして特定して出力することを目的として存在している。従って、欠落ダイフォンラベル出力部1600は、音声波形データベース91に含まれる全ての音声波形データに対応付いた全てのダイフォンラベルと、定義済ダイフォンラベルリスト1500との比較により、欠落しているダイフォンを特定して欠落ダイフォンラベルとして出力する。この点に注意を要する。
ここで、欠落ダイフォンラベルが存在する場合には、ハーフフォン生成部1800の動作(S1800)、代替音声モデル生成部1900の動作(S1900)を実行するが、欠落ダイフォンラベルが存在しない場合には、S1800、S1900は行われない(S1700)。以下、欠落ダイフォンラベルが存在した場合のハーフフォン生成部1800、代替音声モデル生成部1900の各動作について説明する。
ハーフフォン生成部1800は、音声モデル1402とダイフォンラベル1221とを入力とし、音声モデル1402を前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力する(S1800)。例えば音声モデル1402の状態数がLであった場合、前半部のハーフフォンは第1状態〜第(L/2)状態(小数点以下繰り上げ)の代表パタンを保持し、残りの状態を削除し、後半部のハーフフォンは第(L/2)+1状態〜第L状態(小数点以下繰り下げ)の代表パタンを保持し、残りの状態を削除することによって生成する。Lが奇数である場合には、音声モデル1402の状態数Lのちょうど中間に位置する状態の代表パタンについては、前半部のハーフフォンと後半部のハーフフォンの双方において保持されるものとする。従って音声モデル1402の状態数が3である場合には、前半部のハーフフォンは音声モデルの第1状態〜第2状態の代表パタンを保持し、後半部のハーフフォンは音声モデルの第2状態〜第3状態の代表パタンを保持する。3状態のちょうど中間に位置する状態2の代表パタンについては、前半部のハーフフォンと後半部のハーフフォンの双方において保持される。なお、ハーフフォン生成部1800は、音声波形データベース91に含まれる全ての音声波形データから生成された音声モデルを分割してハーフフォンを生成する。従って音声波形データベース91に含まれる全ての音声波形データと対応するハーフフォンが生成されることに注意する。
図2、5を参照して、代替音声モデル生成部1900は、前記ハーフフォンと、前記ハーフフォンラベルと、前記欠落ダイフォンラベルとを入力とし、任意の欠落ダイフォンラベルの前半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一もしくは類似のハーフフォンラベルと対応付いたハーフフォンとを連結し、代替音声モデルとして出力する(S1900)。
詳細には、代替音声モデル生成部1900において、ハーフフォン配置手段1910は、ハーフフォンと、ハーフフォンラベルとを入力とし、入力されたハーフフォンを予め用意された決定木に配置する。決定木は、音素前後の音素環境をコンテキストとして生成し、音素ごとに各1つずつ用意されているものである。前述のハーフフォンは、ハーフフォンラベルに示された音素と同一の音素について用意された決定木のリーフノードに配置される。ハーフフォン配置手段1910は、ハーフフォン生成部1800において生成された全てのハーフフォンを、音素ごとに用意された決定木のリーフノードに配置する。つまり決定木のリーフノードには、音声波形データベース91に含まれる全ての音声波形データに基づいて生成した全てのハーフフォンを配置する。この点に注意を要する。
欠落ダイフォンラベルリスト1920は、欠落ダイフォンラベルを入力とし、入力された欠落ダイフォンラベルを自身に記憶する。決定木確定手段1930は、欠落ダイフォンラベルリスト1920と、ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として欠落ダイフォンラベルに対応付けて出力する。ここで、参照すべき決定木のリーフノードに、ハーフフォンが1つも配置されていない場合には、音素間距離マトリクス1940を参照し、参照すべき決定木の音素と最も音素間距離が短くなる音素の決定木を代替の決定木として確定する。ここで、音素間距離マトリクスは、調音点や調音方法などの弁別素性を考慮し、予め定義したマトリクステーブルである。
上記のように決定木を利用することにより、コンテキスト情報を考慮した絞り込みが容易になるという利点がある。例えば、決定木を利用するのでなく、音素単位でハーフフォンの集合を構成することとすると、前後の音素環境があまりにも合致しないハーフフォンが連結対象として選択されてしまう。このため決定木を利用して前後の音素環境を考慮したクラスタリングを行い、連結対象の候補の絞り込みを行う。決定木は音素単位で作成されるため、音声データベース91に含まれる音素と同種別、同数の決定木が作成される。決定木の分岐条件の質問には、音素のコンテキスト情報(前後の音素環境の一致など)を用いることとする。例えば、「ダイフォンの前半部に相当するか」、「後続音素が母音か」、「後続音素が/A/であるか」「先行音素が破裂子音か」「先行音素が/P/か」など、大まかな分類から詳細な分類へと徐々に絞り込むように構成されている。
図6を参照して、ハーフフォン選択手段1950は、欠落ダイフォンラベルリスト1920と、前半ハーフフォン決定木1951と、後半ハーフフォン決定木1952とを入力とし、欠落ダイフォンラベルごとに、前半ハーフフォン決定木1951、後半ハーフフォン決定木1952から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力する。
ここで、前半ハーフフォン決定木1951と、後半ハーフフォン決定木1952の、少なくともいずれか一方の参照すべきリーフノードにハーフフォンが複数存在し、双方のハーフフォンラベルの音素が有声音である場合には、前半ハーフフォン決定木に存在するハーフフォンと、後半ハーフフォン決定木に存在するハーフフォンとのF0ギャップが最小となる組み合わせを欠落ダイフォンラベルの連結対象となるハーフフォンとして選択することとしてもよい。F0ギャップはハーフフォンのF0平均値の差分から求める。ここで、ハーフフォンのF0平均値は、前半部のハーフフォンの各状態の代表パタンのF0値を平均した値、後半部のハーフフォンの各状態の代表パタンのF0値を平均した値をそれぞれ用いる。
また、参照すべきリーフノードに存在するハーフフォンを、予め定義されたF0値域で区切られた2以上のF0カテゴリ1953に分類し、同一もしくは近接するカテゴリに分類されたハーフフォン同士からなる組み合わせを欠落ダイフォンラベルの連結対象として選択してもよい。ここでF0カテゴリとはF0値を量子化幅Dにて分類したものである。F0値の量子化幅Dを例えば50Hzとして、100Hz未満、100Hz以上150Hz未満、150Hz以上200Hz未満、200Hz以上250Hz未満、250Hz以上300Hz未満、300Hz以上からなる6カテゴリとすることができる。また、別の方法として、対数F0領域で量子化幅Dを設定しても良い。量子化幅Dについては、音声合成処理における信号処理方式のF0変形耐性に応じて適切な分類を行うことができるように決定するものとする。同一のF0カテゴリに含まれるハーフフォンが複数存在する場合には、それぞれのF0平均値を比較し、F0平均値の差分が最も小さくなる組み合わせを連結対象として選択する。等しいF0カテゴリにどちらか一方のハーフフォンが含まれていない場合には、互いに隣接するF0カテゴリのハーフフォン同士を連結対象として選択する。このようにして、最低でも1つ、最高でF0カテゴリ数と等しい数のハーフフォンの組み合わせを得ることができる。なお、前記の連結対象の選択は、平均F0の代わりとして音響パラメータ(例えばスペクトル間距離など)の差分を基準とすることとしてもよい。
なお、平均F0を基準として連結対象となるハーフフォンを決定するのは、連結対象のハーフフォンがいずれも有声音である場合に限られる。組み合わせる素片の何れか、あるいは両方が無声音の場合は、リーフノードに含まれる全てのハーフフォンの集合のセントロイド(平均(重心)に最も近いある一つの音声モデル)を代表パタンとする。もしくは、リーフノードに含まれる全てのハーフフォンについて、両者の音響パラメータ(例えばスペクトル間距離など)が最も近くなる組み合わせを選択することとしてもよい。無声音は、周期的な振動を伴わない音であるため、F0情報を持たない。従ってF0ギャップを考慮する必要がないため、有声音同士の連結と、無声音を含む連結とで連結方法が異なる。
図5に戻り、ハーフフォン連結手段1960は、連結対象となるハーフフォンと、欠落ダイフォンラベルリスト1920とを入力とし、欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、欠落ダイフォンラベルと対応付けて出力する。
ハーフフォンの連結は、連結後の代替音声モデルの状態数が奇数であるとき、前半部のハーフフォンの最初の状態〜最後から数えて2番目の状態の代表パタンと、後半部のハーフフォンの最初から数えて2番目の状態〜最後の状態の代表パタンを用いて連結する。連結後にちょうど中間に位置する、前半部のハーフフォンの最後の状態と、後半部のハーフフォンの最初の状態については、双方の状態における内分値を用いた重みづけ加算により求めた値を用いる。内分比率には例えばシグモイド関数を用いることができる。
例えば音声モデルの代表パタン数が3であった場合、前半部のハーフフォンの最初の状態の代表パタンが連結後の代替音声モデルの第1状態の代表パタンとして用いられ、後半部のハーフフォンの最後の状態の代表パタンが連結後の代替音声モデルの第3状態の代表パタンとして用いられる。連結後の代替音声モデルの第2状態については、前半部のハーフフォンの最後の状態と、後半部のハーフフォンの最初の状態との内分値を用いた重みづけ加算により求めた値を用いる。なお、代替音声モデルの状態数が偶数である場合には、前半ハーフフォンの各状態、後半ハーフフォンの各状態の代表パタンをそれぞれ用いて連結すればよい。
図1、図10を参照して、音声素片データベース92は、音声モデルと、代替音声モデルとを入力とし、入力された音声モデルと、代替音声モデルとを記憶する(S92)。図10は、音声素片データベース92に記憶された音声モデル、代替音声モデルを例示した表である。音声素片データベース92には、ダイフォンラベルごとに平均周波数F0(Hz)、平均周波数F0の傾斜(Hz/ms)、パワー(dB)、音声パラメータが記憶される。
なお、あらかじめダイフォンラベルを付与された音声モデルを入力とする場合には、欠落ダイフォンラベルリスト1500、欠落ダイフォンラベル出力部1600、ハーフフォン生成部1800、代替音声モデル生成部1900のみを備える代替音声モデル作成装置10000によって、代替音声モデルを作成する構成としても良い。
この代替音声モデル作成装置10000における各部の働きは、前記音声素片データベース作成装置1000における同一名称の各部における働きと同じである。代替音声モデル作成装置10000に入力されるダイフォンラベルを付与された音声モデルは、予め用意された音声波形データベースに含まれる全ての音声波形データを用いて予め別の装置にて作成されているものとする。なお、代替音声モデル作成装置10000における欠落ダイフォンラベル出力部1600の働きは、音声素片データベース作成装置1000における欠落ダイフォンラベル出力部1600の働きと同じであり、予め用意された音声波形データベースに含まれる全ての音声波形データから生成した全てのダイフォンラベルを入力として、定義済ダイフォンラベルリスト1500との比較により、欠落しているダイフォンを特定して欠落ダイフォンラベルとして出力する。同様に、代替音声モデル作成装置10000のハーフフォン生成部1800は、音声波形データベースに含まれる全ての音声波形データを用いてハーフフォンを生成し、代替音声モデル作成装置10000のハーフフォン配置手段1910は、ハーフフォン生成部1800において生成された全てのハーフフォンを音素ごとに用意された決定木のリーフノードに配置する。この点に注意を要する。
本実施例の音声素片データベース作成装置1000によれば、ハーフフォンを連結して代替音声モデルを生成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
また、F0ギャップが最小となるハーフフォンの組み合わせを欠落ダイフォンラベルの連結対象となるハーフフォンとして選択する場合には、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。
また、予め定義されたF0値域で区切られた2以上のF0カテゴリに分類し、同一もしくは近接するカテゴリに分類されたハーフフォン同士からなる組み合わせを欠落ダイフォンラベルの連結対象として選択する場合には、代替音声モデルの接続部のF0変化量が減少し、当該代替音声モデルを用いた合成音声が高品質となる。また、このようにして作成された音声素片データベースは、同一の欠落ダイフォンラベルについて、平均F0の異なる代替音声モデルを複数(最多の場合、カテゴリ数と同数)有する可能性が高くなる。このため、上記音声素片データベースを用いて音声合成処理を行う場合、韻律生成によって生成したF0に近似したF0値を持つ音声モデルを、前記音声素片データベースから選択できる可能性が高くなり、F0変化量が減少することにより合成音声がさらに高品質となる。また、同一もしくは近接するカテゴリに分類されたハーフフォン同士を組み合わせて代替音声モデルとするため、すべてのハーフフォンの組み合わせを代替音声モデルとして記憶することとした場合に比べ、音声素片データベースに記憶する代替音声モデルの総数を著しく少なく抑えることができ、素片探索時間の増加やデータベースサイズの増加を避けることができる。同時に、前述のF0カテゴリは、F0変形耐性に応じて適切な量子化幅から設定するため、音声合成に最適な代替音声モデルはなお音声素片データベースに記憶されることとなり、これにより合成音声が高品質となる。
また、任意の音素におけるハーフフォンが、全く存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択することとすれば、音声波形データベース中に全く存在しない音素についても、代替音声モデルを生成することができるため、必要な全ての音声モデルを保有する音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。
図7〜9を参照して本発明の音声合成装置および、音声合成方法を説明する。図7に示す音声合成装置7000は、テキスト解析部7100と、テキスト解析用辞書7200と、韻律生成部7300と、音声モデル選択部7400と、音声合成部7600とを有する。テキスト解析部7100は、テキストを入力とし、テキスト解析用辞書7200を用いて、読み、アクセント、音韻系列を出力する(S7100)。韻律生成部7300は、読み、アクセントを入力とし、F0、パワー、音韻長を出力する(S7300)。音声モデル選択部7400は、F0、パワー、音韻系列を入力とし、音声素片データベースから音声モデルを選択して出力する(S7400)。音声合成部7600は、音声モデル、F0、パワー、音韻長を入力とし、合成音声を出力する(S7600)。詳細には、図9に示す音声合成部7600は、音声パラメータ系列生成手段7610と、音声パラメータ系列補間手段7620と、合成音声波形生成手段7630とを有する。
音声パラメータ系列生成手段7610は、入力された音声モデル1402の各代表パタンを、入力された音韻長に応じて繰り返して連結する。図9の例では、音声モデル1402の3つの代表パタンである音声パラメータの各々が、音韻長を3等分した長さ分だけ繰り返し複製され連結される。入力された音声モデルの全てについて音声パラメータの複製−連結処理が行われ、音声モデルごとに複製−連結処理が行われた音声パラメータ系列は、対応するダイフォンラベルの順序ごとに全て連結される。例えば音声モデルの状態数がP、音韻長から算出されるフレーム数がQの場合、j番目の状態の代表パタンである音声パラメータは、フレーム番号(j−1)×(Q/P)+1番から、j×(Q/P)番まで繰り返され、連結される。
音声パラメータ系列補間手段7620は、音声パラメータ系列を、滑らかに遷移するように補間する。ここでの補間方法としては、例えば、音声パラメータの分布列から、最尤パラメータ列を生成する方法(参考非特許文献1:徳田恵一、益子貴史、小林隆夫、今井聖、「動的特徴量を用いたHMMからの音声パラメータ生成アルゴリズム」、日本音響学会誌、社団法人日本音響学会、平成9年3月、第53巻、第3号、pp192〜200)などが適用可能である。
合成音声波形生成手段7630は、音声パラメータ系列から、合成音声波形を生成する。ここでの合成音声波形生成方法としては、例えばSTRAIGHT法(参考非特許文献2:Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instanta- neous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds”, Speech Communication, 27, 3-4, pp.187-207 (1999))などを用いることができる。
本実施例の音声合成装置7000によれば、ハーフフォンを連結して代替音声モデルを生成し、音声素片データベースを作成するため、音声波形データベースから必要な全ての音声モデルを生成できなかった場合にも、完全な音声素片データベースを生成することができ、当該音声素片データベースを用いて、音声の欠落がない合成音声を作成することができる。また、音声素片データベース作成時にあらかじめ適切な代替音声モデルを生成しておくため、素片探索処理量の増大を避けることができる。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 音素区間長さごとに音素ラベルを付与された音声波形データから音声素片データベースを作成する音声素片データベース作成装置であって、
    前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換部と、
    前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換し、ダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換部と、
    前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成部と、
    前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
    前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
    前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置手段と、
    前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、
    前記欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定手段と、
    前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択手段と、
    前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結手段と、
    を備えることを特徴とする音声素片データベース作成装置。
  2. 請求項1に記載の音声素片データベース作成装置であって、
    前記ハーフフォン選択手段は、
    任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンとのF0ギャップが最小となる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。
  3. 請求項1に記載の音声素片データベース作成装置であって、
    前記ハーフフォン選択手段は、
    任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンを、予め定義されたF0値域で区切られた2以上のカテゴリに分類し、同一もしくは近接するカテゴリに分類された前記前半部のハーフフォンと前記後半部のハーフフォンとからなる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。
  4. 請求項1から3の何れかに記載の音声素片データベース作成装置であって、
    前記ハーフフォン選択手段は、
    任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォン、もしくは任意の欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンが存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。
  5. ダイフォンラベルを付与された音声モデルから、代替音声モデルを作成する代替音声モデル作成装置であって、
    前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
    前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
    前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置手段と、
    前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、
    前記欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定手段と、
    前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択手段と、
    前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結手段と、
    を備えることを特徴とする代替音声モデル作成装置。
  6. 音素区間長さごとに音素ラベルを付与された音声波形データから音声素片データベースを作成する音声素片データベース作成方法であって、
    前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換ステップと、
    前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換してダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換ステップと、
    前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成ステップと、
    前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
    前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
    前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置ステップと、
    前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定ステップと、
    前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択ステップと、
    前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結ステップと、
    を備えることを特徴とする音声素片データベース作成方法。
  7. ダイフォンラベルを付与された音声モデルから、代替音声素片データベースを作成する代替音声モデル作成方法であって、
    前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
    前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
    前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置ステップと、
    前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定ステップと、
    前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択ステップと、
    前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結ステップと、
    を備えることを特徴とする代替音声モデル作成方法。
  8. コンピュータを、請求項1から4の何れかに記載の音声素片データベース作成装置として機能させるためのプログラム。
  9. コンピュータを、請求項5に記載の代替音声モデル作成装置として機能させるためのプログラム。
JP2010112373A 2010-05-14 2010-05-14 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム Expired - Fee Related JP5449022B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010112373A JP5449022B2 (ja) 2010-05-14 2010-05-14 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010112373A JP5449022B2 (ja) 2010-05-14 2010-05-14 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2011242465A JP2011242465A (ja) 2011-12-01
JP5449022B2 true JP5449022B2 (ja) 2014-03-19

Family

ID=45409212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010112373A Expired - Fee Related JP5449022B2 (ja) 2010-05-14 2010-05-14 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム

Country Status (1)

Country Link
JP (1) JP5449022B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06167989A (ja) * 1992-12-01 1994-06-14 N T T Data Tsushin Kk 音声合成装置
JP2000075878A (ja) * 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
JP2003208188A (ja) * 2002-01-15 2003-07-25 Advanced Telecommunication Research Institute International 日本語テキスト音声合成方法
JP2004252316A (ja) * 2003-02-21 2004-09-09 Canon Inc 情報処理装置および情報処理方法ならびにプログラム、記憶媒体
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置

Also Published As

Publication number Publication date
JP2011242465A (ja) 2011-12-01

Similar Documents

Publication Publication Date Title
US11735162B2 (en) Text-to-speech (TTS) processing
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
US20200410981A1 (en) Text-to-speech (tts) processing
US7603278B2 (en) Segment set creating method and apparatus
JP4025355B2 (ja) 音声合成装置及び音声合成方法
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
US9978359B1 (en) Iterative text-to-speech with user feedback
US20010056347A1 (en) Feature-domain concatenative speech synthesis
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
US10699695B1 (en) Text-to-speech (TTS) processing
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
JP2016151736A (ja) 音声加工装置、及びプログラム
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Mullah A comparative study of different text-to-speech synthesis techniques
KR102277205B1 (ko) 오디오 변환 장치 및 방법
JP5449022B2 (ja) 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
Wen et al. Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model.
Wang et al. Emotional voice conversion for mandarin using tone nucleus model–small corpus and high efficiency
EP1589524B1 (en) Method and device for speech synthesis
Huang et al. Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131224

R150 Certificate of patent or registration of utility model

Ref document number: 5449022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees