JP4430960B2 - 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体 - Google Patents

音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体 Download PDF

Info

Publication number
JP4430960B2
JP4430960B2 JP2004056092A JP2004056092A JP4430960B2 JP 4430960 B2 JP4430960 B2 JP 4430960B2 JP 2004056092 A JP2004056092 A JP 2004056092A JP 2004056092 A JP2004056092 A JP 2004056092A JP 4430960 B2 JP4430960 B2 JP 4430960B2
Authority
JP
Japan
Prior art keywords
information
speech
distance
speech unit
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004056092A
Other languages
English (en)
Other versions
JP2005249835A (ja
Inventor
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004056092A priority Critical patent/JP4430960B2/ja
Publication of JP2005249835A publication Critical patent/JP2005249835A/ja
Application granted granted Critical
Publication of JP4430960B2 publication Critical patent/JP4430960B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体に関する。
近年では大容量な記憶装置の使用コストの低下に伴って、数十分以上の大容量の音声データをそのまま大容量の記憶装置に蓄積し、入力されたテキストおよび韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する音声合成方法が提案されている(特許文献1、非特許文献1 参照)。
このような方法によって、原理的には肉声同等の高品質な合成音声を生成することが可能になってきている。具体的には、音声データベースから、合成したい音韻の音声素片をバイナリーツリー等で構成された音声素片辞書を用いて探索し、単独又は複数の物理的なパラメータを組み合わせた物理的な尺度と、ピッチやパワー等の韻律的な尺度を組み合わせた評価尺度に基づいて、探索された音声素片の中から適切な音声素片を選択し、選択された音声素片を順に接続することで音声合成を行っている。(非特許文献2 参照)。また、このような音声合成方式では、適切な音声素片が音声データベースに存在しない場合に高品質な合成音声が生成不可能であるため、多様な音声素片のバリエーションを含む大容量の音声データベースを用いて、音声合成の際に必要な適切な音声素片が音声データベース内に存在する確率をあげことが必要である。
しかし、音声データベースを大容量化することにより、合成音声の品質は向上されるものの、当然音声データベース内に格納される音声素片の個数は増大するため、音声合成の際に入カテキストに応じて適切な音声素片を音声データベースに含まれる膨大な数の音声素片を探索する探索処理量が増大し、音声合成全体の処理速度の低下をもたらすようになってきた。
そのため、音韻情報と対応したインデックスを利用することで、音声素片の探索処理を高速化する方法も提案されている。
特許第2761552号明細書 M.Beutnage1, A.Conkie, J.Schoroeter, Y.Stylianou, and A.Sydral,"Chose the best to modify the least: A new generation concatenative synthesis system", in Proc.Eurospeech'99, 1999 , PP.2291-2294 "波形編集型規則合成法における波形選択法"、広川他、電子情報通信学会音声研究会資料、SP89-114, pp.33-40(1990)
しかし、近年では合成音声の品質をより一層向上させるため、音声合成システムで利用する音声データベースはより一層大容量化し、音声データベース内の同一又は類似した音声素片の個数がより一層増大することで処理速度は低下している。また、日本語のもつ音韻情報の偏りから、ある音韻情報に対応する音声素片の個数は莫大な数存在する一方、別の音韻情報に対応する音声素片の個数は数個程度しかないような音声素片の偏りが生じてきているため、合成する文章によって処理時間が大きく異なるようになり処理時間の予測ができないという実用上の問題も生じている。
そのために、例えば、音韻情報と対応した音声素片のインデックスを利用しても、実際の音声合成における音声素片選択では、音声データベースの規模が大きくなるにつれ特定の音韻情報に対して、非常に多数の音声素片が対応するようになり、適切な音声素片の組み合わせを選択するための音声素片に対する評価値を計算するための計算量が増大し、処理速度の低下をもたらすようになってきている。
この計算処理量を減らすために、計算処理を簡素化したり、組み合わせを探索するときの枝狩り処理を行うことで、ある程度高速化は可能であるが、その場合最適な素片が選択される保証がないため合成音声の品質が劣化する場合も起きる。
この発明は、上記事情に鑑みてなされたものであり、その目的とするところは、大容量音声データベースに基づく音声素片選択方式において、評価尺度に基づいて複数の音声素片を一括で選択したり探索から除外したりすることによって、音声合成の品質を維持したまま音声素片探索の処理速度の向上と、前記の高速な音声素片探索を実現するための音声データベースの構成およびそのデータベースを用いた探索を実現することにある。
請求項1:入力された音韻情報および韻律清報に対応した音声素片候補を探索するための音声素片探索用データベース構成方法において、インデックスデータは、音声素片に含まれる音韻情報と対応付けられ音声素片情報または2次インデックスとの対応付けが記録された1次インデックスデータと、音声素片情報ならびに、音声素片情報を音韻情報および韻律情報またはそのサブセットを基底とした多次元空間における点とみなして少なくとも1つの音声素片情報を前記多次元空間にて領域内部に含む包囲領域の情報から構成されている2次インデックスデータと、より成り、前記2次インデックスデータに含まれる前記包囲領域は、前記多次元空間において全て同一形状であり、更に、少なくとも前記多次元空間内の点と、当該点以外の点との距離および当該点を含まない包囲領域との距離が一意に定義され、かつ前記多次元空間内の点と当該点を含まない包囲領域との距離は、その包囲領域内に含まれる全ての点と前記多次元空間内の点の距離以下である音声素片探索用データベース構成方法を構成した。
そして、請求項2:入力された音韻情報および韻律清報に対応した音声素片候補を探索するための音声素片探索用データベースを構成する音声素片探索用データベース構成装置において、音声素片に含まれる音韻情報と対応付けられ音声素片情報または2次インデックスとの対応付けが記録された1次インデックスを具備し、音声素片情報ならびに、音声素片情報を音韻情報および韻律情報またはそのサブセットを基底とした多次元空間における点とみなして少なくとも1つの音声素片情報を多次元空間にて領域内部に含む包囲領域の情報から構成されている2次インデックスを具備し、ここで、前記2次インデックス12に含まれる前記包囲領域は、前記多次元空間において全て同一形状であり、更に、少なくとも前記多次元空間内の点と、当該点以外の点との距離および当該点を含まない包囲領域との距離が一意に定義され、かつ前記多次元空間内の点と当該点を含まない包囲領域との距離は、その包囲領域内に含まれる全ての点と前記多次元空間内の点の距離以下である音声素片探索用データベース構成装置を構成した。
また、請求項3:インデックスデータは、音声素片に含まれる音韻情報と対応付けられ音声素片情報または2次インデックスとの対応付けが記録された1次インデックスデータと、音声素片情報ならびに音声素片情報を音韻情報および韻律情報またはそのサブセットを基底とした多次元空間における点とみなして少なくとも1つの音声素片情報を前記多次元空間にて領域内部に含む包囲領域の情報から構成されている2次インデックスデータとより成り、前記2次インデックスデータに含まれる前記包囲領域は、前記多次元空間において全て同一形状であり、更に、少なくとも前記多次元空間内の点と、当該点以外の点との距離および当該点を含まない包囲領域との距離が一意に定義され、かつ前記多次元空間内の点と当該点を含まない包囲領域との距離は、その包囲領域内に含まれる全ての点と前記多次元空間内の点の距離以下である、音声素片探索用データベースを用いて、入力された音韻情報および韻律情報に対応した音声素片を探索する音声素片探索方法において、音声素片に含まれる音韻情報と対応付けられ、音声素片情報または2次インデックスとの対応付けが記録された1次インデックスデータを用いて入力の音韻情報と対応する音声素片情報または2次インデックスヘの対応付けを取得し、音声素片情報が得られた場合は当該音声素片情報を入力の音韻情報と対応する音声素片情報とし、2次インデックスヘの対応付けが取得された場合は、2次インデックスデータを用いて音韻情報ならびに韻律情報またはそのサブセットを基底とした多次元空間において、入力された音韻情報および韻律情報を多次元空間内の問い合わせ点とし、2次インデックスデータに含まれる全ての包囲領域と前記問い合わせ点との距離を計算し、包囲領域リストに包囲領域の情報と対応づけて前記距離を格納し、前記包囲領域リスト内の包囲領域において前記距離が最小となる包囲領域を探索対象として選択し、前記探索対象とした包囲領域に対応する全ての音声素片情報を前記2次インデックスから読み出し、前記読み出された音声素片情報と前記問い合わせ点との距離を計算し、前記音声素片情報および音声素片リストに格納されている音声素片情報とあわせて、予め決められた探索数だけ前記問い合わせ点との距離と対応づけて音声素片情報を前記音声素片リストに格納し、包囲領域リスト中に含まれる包囲領域に対応付けられた距離が、音声素片リスト中に含まれる音声素片情報と対応付けられた距離の最大値を上回る場合、該当する包囲領域を全て包囲領域リストから除き、包囲領域リスト中に含まれる、探索対象の包囲領域の次に距離が大きい包囲領.域を次の探索対照とし、探索対照の包囲領域より距離値が大きい包囲領域が包囲領域リストに存在しない場合は音声素片リストに格納された音声素片情報を探索結果とする音声素片探索方法を構成した。
更に、請求項4:音声素片に含まれる音韻情報と対応付けられ、音声素片情報または2次インデックス識別番号単位で構成され少なくとも1つの音声素片情報を含む包囲領域情報が記録されている2次インデックスとの対応付けが記録された1次インデックスデータを用いて入力の音韻情報と対応する音声素片情報または2次インデックスヘの対応付けを取得し、音声素片情報が得られた場合は当該音声素片情報を入力の音韻情報と対応する音声素片情報とし、2次インデックスヘの対応付けが取得された場合は、2次インデックスデータを用いて音韻情報ならびに韻律情報またはそのサブセットを基底とした多次元空間において、入力された音韻情報および韻律情報を多次元空間内の問い合わせ点とし、2次インデックスデータに含まれる全ての包囲領域と前記問い合わせ点との距離を計算し、包囲領域リストに包囲領域の情報と対応づけて前記距離を格納し、前記包囲領域リスト内の包囲領域において前記距離が最小となる包囲領域を探索対象として選択し、前記探索対象とした包囲領域に対応する全ての音声素片情報を前記2次インデックスから読み出し、前記読み出された音声素片情報と前記問い合わせ点との距離を計算し、前記音声素片情報および音声素片リストに格納されている音声素片情報とあわせて、予め決められた探索数だけ前記問い合わせ点との距離と対応づけて音声素片情報を前記音声素片リストに格納し、包囲領域リスト中に含まれる包囲領域に対応付けられた距離が、音声素片リスト中に含まれる音声素片情報と対応付けられた距離の最大値を上回る場合、該当する包囲領域を全て包囲領域リストから除き、包囲領域リスト中に含まれる、探索対象の包囲領域の次に距離が大きい包囲領.域を次の探索対照とし、探索対照の包囲領域より距離値が大きい包囲領域が包囲領域リストに存在しない場合は音声素片リストに格納された音声素片情報を探索結果とすべき指令をコンピュータに対して実行させる音声素片探索プログラムを構成した。
また、請求項5:請求項4に記載される音声素片探索プログラムを記憶する記憶媒体を構成した。
以上のように、この発明に関わる音声素片探索によれば、大容量音声データベースに基づく音声素片選択方式において、高速な音声素片候補の探索方法の実現と同時に、音声素片数を適切な音声素片選択に必要不可欠な一定数のみに絞りこむことで、合成音声の品質を劣化させることなく、音声合成の処理速度の向上を実現することができる。
入力された音韻情報および韻律情報に対応した適切な音声素片候補を探索するこの発明の音声素片探索用データベースは、1次インデックスデータおよび1次インデックスに対応付けられた複数の2次インデックスデータにより構成されており、1次インデックスデータは音韻情報と対応づけて、音声辞書情報または2次インデックスヘの対応付け(ポインタ)が記録されている。
そして、前記2次インデックスデータは、入力音韻情報および韻律情報に対して適合する音声素片を選択するために必要な音韻情報並びに韻律情報またはそのサブセットを基底とした多次元空間において、音声素片情報を前記多次元空間内の1つの点(オブジェクト)として定義したとき、2次インデックスデータはオブジェクトおよび包囲領域により構成されており、各包囲領域は前記多次元空間上で全て同一の形状を有しており、かつ少なくとも内部に1つのオブジェクトを含んでいる点に特徴を有している。
また、少なくとも前記多次元空間内の或るオブジェクトと当該オブジェクト以外のオブジェクトとのオブジェクト間距離および、当該オブジェクトを含まない包囲領域との包囲領域距離が一意に定義されており、かつ、前記多次元空間内のオブジェクトと当該オブジェクトを含まない包囲領域との包囲領域距離は、その包囲領域内に含まれる全てのオブジェクトと前記オブジェクトとのオブジェクト間距離以下であることに特徴を有している。
ここで、以上の音声素片探索用データベースを用いて、入力された音韻情報および韻律情報に対応した音声素片を探索する音声素片探索方法において、前記1次インデックスデータを用いて、入力の音韻情報と対応する1次インデックスから音声素片情報または2次インデックスヘのポインタを取得する。
そして、音声素片情報が取得された場合は、それを入力情報に該当する音声素片情報の探索結果として出力する。
また、2次インデックスヘのポインタが取得された場合は、そのポインタに対応する2次インデックスデータにおいて、先ず、入力された音韻情報および韻律情報を多次元空間における問い合わせ点として定義したときに、その問い合わせ点と全ての包囲領域との前記包囲領域距離を求め、包囲領域リストに包囲領域の情報と対応づけて格納する。
更に、前記距離が最小となる包囲領域を全ての包囲領域のなかから選択する。
次に、選択された包囲領域に含まれる全てのオブジェクトを読み出し、前記問い合わせ点との前記オブジェクト間距離を計算する。更に、予め決められた探索数のみ前記問い合わせ点との前記オブジェクト間距離が小さい順に前記オブジェクトを選択しオブジェクトリストに前記オブジェクト間距離と対応づけて格納する。ここで、もし、既にオブジェクトリストに格納済みのオブジェクトが存在した場合、前記選択された包囲領域に含まれる全てのオブジェクトと、オブジェクトリストに格納済みのオブジェクトをあわせて、前記問い合わせ点とのオブジェクト間距離が小さい順にオブジェクトを選択しオブジェクトリストに当該オブジェクト間距離と対応づけて格納する。
次に、前記選択された包囲領域の次に前記包囲領域距離が大きい包囲領域を、前記包囲領域リストから選択し、当該包囲領域内に含まれるオブジェクトの読み出し処理から、包囲領域リストからの包囲領域の選択処理までを繰り返す。
ここで、もし、前記包囲領域リスト内の問い合わせ点と包囲領域間の距離において最小となる包囲領域距離が、オブジェクトリストに格納されたオブジェクトと対応づけられたオブジェクト間距離を上回った場合は、探索を終了し、オブジェクトリストに含まれる音声素片情報を探索結果として出力する。
この発明によれば、入力音韻情報および韻律情報に対応した音声素片を探索する音声素片探索において、音韻情報のみに対応した1次インデックスを用いることで、合成したい音声の音韻情報から、一括して対応する音声素片候補が探索可能であり、その探索に必要な処理はインデックスの読み出しのみであるため非常に高速に実現することができる。
また、1次インデックスに対応する音声素片が一定数以上存在する場合のみ、2次インデックスを用意しておくことで、入力音韻情報に対応する音声素片が非常に多数の場合、音韻情報および韻律情報と対応した適切な音声素片を次インデックスを用いて高速に選び出すことができる。具体的には、音声素片情報を音韻情報および韻律情報またはそのサブセットを基底とした多次元空間内のオブジェクトとして考え、かつ、少なくとも1つのオブジェクトを含むような複数の領域単位で構成された2次インデックスを用いて、入力された音韻情報と韻律情報から、領域単位で距離値を計算した後、入力された音韻情報と韻律情報に類似したオブジェクトを含むと思われる領域を選択し、その領域内のオブジェクトとの距離値を求めるという2段階の探索によって、入力された音韻情報と韻律情報に類似した音声素片の探索を行う。
以上の通りにすることで、入力された音韻情報と韻律情報と類似した音声素片を所望する数だけ順次に得ることができ、また入力された音韻情報および韻律情報と大きく異なるような音声素片に対する探索を距離値にもとづいて枝刈りすることで領域単位で安全に一括して省略することができるため、無駄な探索を省くこと.が可能となり高速な探索が実現可能である。
結果として、入力の音韻情報と対応した音声素片が少ない場合はそのままそれらを音声素片の探索結果とし、対応する音声素片が多数のものに関しては、韻律情報まで考慮しながら高品質な音声合成のために必要な個数だけ音声素片数を絞りこみ探索結果とすることで音声素片数を大幅に絞りこめるため、その後の音声合成に必要な最適な音声素片の組み合わせを選択するための計算処理を合成音声の品質劣化の危険性がなく大幅に削減でき、音声素片の探索から最適な音声素片の選択までの音声素片選択処理全体の大幅な時間短縮をすることができる。
また、上記の音声素片探索処理時間は、音声データベースの規模にほとんど依存しないため、音声データベースが増大しても影響がなく、一定の音声素片からその組み合わせを選択するための計算処理は音声データベースの規模に関わらず一定時間となるため、音声データベースの規模が増大すればするほど、音声素片選択処理全体の時間の短縮効巣は大きくなる。
以下、発明を実施するための最良の形態を図を参照して、更に、具体的に説明する。
図1は音声素片探索装置の概念的な構成を説明する図である。この音声素片探索装置10は、図示されない音声データベースに記憶された音声データを接続、変形その他の合成処理を行うことで音声を合成する音声合成装置に用いられるものであり、音韻情報および韻律情報を入力として、後段の選択処理で用いられる音声素片の候補を出力するものである。
図1において、音声素片探索装置10は、1次インデックス11と、2次インデックス12とを備えている。また、1次インデックス探索部13と2次インデックス探索部14を備えている。
1次インデックス12は、音韻情報と対応させて音声素片情報又は2次インデックス識別番号が記録されている。具体的には、例えば図3に示すように、音節単位の音声素片として、音節種別と音節の前後音韻環境に対応させ、音節情報又は2次インデックス識別番号が記録されている。各音節情報としては、例えば、図4に示すように音声素片情報の個数、音声素片情報等が格納されている。
ここで、図3においては、記録する音声素片の種別として音節としたが、音素でも音節以上の長さでも探索面では本質的な違いはないため、データベースサイズとの兼ね合いで適切に決めればよい。
2次インデックス12は、図2で示すように前記2次インデックス識別番号単位で構成され、少なくとも1つの音声素片情報を含むような包囲領域情報が記録されている。包囲領域とは、概念的には、図7に示すように音韻情報と韻律情報またはそのサブセットを基底とする多次元空間において、少なくとも1つの空間内の点(オブジェクト)を空間的に包含する予め決められた特定の形状を有する領域であり、いわゆるベクトル量子化のような歪最小化基準等によりオブジェクトをクラス分けした結果として形成されるものとは全く異なり、各領域の形状は同一でありかつ各領域単位が重なる事も許容している。
また、包囲領域情報は例えば図5で示すように、領域の境界を示す情報および領域内に含まれる音声素片情報等から構成されている。
1次インデックス探索部13は、1次インデックス11を用いて、これから入力された音韻情報に対応する音声素片情報または音声素片情報と2次インデックス番号を出力する。
2次インデックス探索部14は、前記1次インデックス探索部13において2次インデックス識別番号が得られた場合、対応する2次インデックス12を用いて、これから入力された音韻情報および韻律情報との距離が最小となる音声素片から昇順に予め決められた個数分の音声素片を探索し、これらを出力する。
次に、図1および図6を参照してこの発明による音声素片探索方法を説明する。
先ず、1次インデックス探索部13において、ここに入力された音韻情報に対して、前後の音韻環境の組み合わせに対応して1次インデックス11を探索し、音声素片情報又は2次インデックス識別番号を取得する(ステップ1)。
例えば、図3の音節種別毎の1次インデックスを用いて、入力音韻情報“あさ”(音韻系列表記:“ASA”)に対応する音節素片情報を探索すると、先ず、音節種別“あ”については、前音韻環境“#(語頭)”、後音韻環境“S”により1次インデックス11を探索すると、音節種別“あ”のテーブル3(a)の縦列”#”、横列”S”に対応する項はA17であることがわかる。ここで、A17の具体的な内容は例えば図4に示すようなものであり、音声素片情報数15およびSeg72からSeg32645に到る音声素片情報で構成されている。
同様に、音節種別“ざ”については、前音韻環境“A”、後音韻環境“#(語尾)”で、1次インデックスを探索すると、音節種別“ざ”のテーブル3(b)の縦列“A”、横列“#”に対応させて2次インデックス識別番号であるID105が記録されているためこれを読み出す。
次に、1次インデックス探索部13で、音声素片情報ではなく2次インデックス識別番号が読み出されたか否かを判定し、音声素片情報が読み出された場合、そのまま図4に示される当該音声素片情報を探索結果として出力する(ステップ2)。
例えば、ステップ1の1次インデックス探索において入力音韻情報“あさ”の第1音節“あ”に対して、図4のA17で示す15個の音声素片情報数が読み出された場合、それらを探索結果として出力する。
一方、前記ステップ2で、2次インデックス識別番号が読み出された場合、当該2次インデックス識別番号が対応する2次インデックスに含まれる全ての包囲領域情報を読み出す(ステップ3)。
例えば、ステップ2において、入力音韻情報“あさ”の第2音節“さ”に対応して2次インデックス識別番号であるID5が読み出された場合、図5で示すような2次インデックスから、2次インデックスID105に格納された全ての包囲領域情報を読み出す。
次に、ステップ3で読み出された全ての包囲領域情報と、入力音韻情報および韻律情報を問い合わせ点とみなして、その問い合わせ点との最小距離を求め、包囲領域リストを作成し、前記距離と対応付けてその昇順に包囲領域リストに記憶する(ステップ4)。
ここで、音韻情報および韻律情報またはそのサブセットを基底とした多次元空間を定義すると、入力された音韻情報と韻律情報は、前記多次元空間における特定の点(問い合わせ点)として定義することができ、また音声素片においても同様に、音声素片の有する音韻情報と韻律情報に基づいて、その音声素片を前記多次元空間における特定の点(オブジェクト)として定義することができる。
この定義により、例えば、図4のように前記包囲領域を、少なくとも1つのオブジェクトを多次元空間において最小に包囲する矩形(多次元空間では超正方体)の包囲領域として定義すると、その包囲領域と多次元空間内の任意の点との距離としては、下記のように最小距離(MINDIST)を定義することができる。

ここで、Oは任意の点、Rは包囲領域、Oi はOのi次元の成分、 はRのi次元の成分、、ti はRの下限値および上限値を示す。
上記の包囲領域と包囲領域外の任意のオブジェクト間の距離は、少なくとも包囲領域に含まれるオブジェクトと任意のオブジェクト間の距離を上回ることのない値、即ち、包囲領域に含まれるオブジェクトとそれ以外のオブジェクト間の距離の下限値を示すものとなる。
勿論、図4では包囲領域として矩形(多次元空間では超正方体)で示したが、包囲領域の形状は、超球体、超球体と超正方体との組み合わせ、またはそれ以外の形状でもよく、包囲領域と空間内の任意のオブジェクト間の距離が、包囲領域に含まれるオブジェクトと任意の点間の距離の下限値を示すように定義することができる形状の領域であれば良い。ただし、領域構成の簡易化と最小距離の計算量の削減をするには、全ての包囲領域は同一の形状でなくてはらない。
例えば、当該音節の前後の音韻種別と、F0の平均値およびF0の傾斜値の4つの基底からなる多次元空間において、
入力音韻情報“あさ”の第2音節“さ”を問い合わせ点とすると、前後の音韻種別がそれぞれ、“A”と“#”であり、また“さ”に対応する韻律情報が例えばF0の平均値=220Hz、F0の傾斜値=20Hz/msとすれば、
包囲領域C1との最小距離Dc1は、
Dc1=(S(“I”)−S(“A”))2 +(S(“#”)−S(“#”))2
(250−220)2 +(20−15)2 =212 +0+302 +52 =1366
S(a):音韻aの平均的なスペクトルを正規化したもの
と計算することができる。
他の包囲領域との最小距離も同様に計算することができ、下記に示すように包囲領域リストCLに包囲領域情報と対応付けて記録する。
包囲領域リストCL={C31:23、C12:48、C98:79、・・・・C104 :1306、C72:2582、C52:3978}
次に、包囲領域リスト中の包囲領域の中で最小距離の値が最小となる包囲領域を探索対象の包囲領域として決定する(ステップ5)。
例えば、下記に示すように包囲領域リストCLが構成されていれば、包囲領域C21が最小距離が最小であるため選択される。
包囲領域リストCL={C21:23、C12:48、C98:79、・・・C104:1306、C72:2582、C52:3978}
次に、探索対象の包囲領域に含まれる音声素片情報をオブジェクトとみなして、全てのオブジェクトを読み出し、前記問い合わせ点との距離を求め、予め決められた探索数分のオブジェクトとそれらに対応した距離を、距離の昇順に前記探索数だけオブジェクトリストを作成しそれに格納する。もし、既にオブジェクトリストが存在してそのリスト中にオブジェクトが格納されていた場合は、オブジェクトリスト中のオブジェクトと、新たに読み出されたオブジェクトをあわせて、前記と同様に距離の昇順に、前記探索数だけオブジェクトおよびその距離をオブジェクトリストに格納する(ステップ6)。
ここで、探索対象として包囲領域C21が選択され、C21に格納された内容が、下記の通り、
C21={O51、O201 、O1975、O4215
であれば、先ず、オブジェクトO51が読み出される。
ここで、オブジェクトとは音声素片情報であり、オブジェクトO51 は音声素片情報51を示す。
そこで、音声素片情報51として、下記のような情報が記録されていたとして、
音声素片情報51={当該音節:“SA”、前音韻系列:“#KA”、後音韻種別:“#”、F0の平均値:198Hz、F0の傾斜値:32Hz/ms、音声素片長:120ms}当該音節の前後の音韻種別と、F0の平均値およびF0の傾斜値からなる4次元空間に対応する、当該音節の前音韻“A”、後音韻“K”、F0の平均値=198Hz、F0の傾斜値=32Hz/msの各情報を読み出す。
次に、包囲領域と入力音韻情報および韻律情報から定まる問い合わせ点との最小距離の計算と同様に、問い合わせ点とオブジェクトの距離を計算する。
ただし、包囲領域と異なりオブジェクトには下限値、上限値は存在しないため
d(O、Q)=Σn i=1 |oi−qi2
Oはオブジェクト、Qは問い合わせ点、oiはOのi次元の成分、qiはQのi次元の成分、として計算することができ、この場合、O51 とQとの距離d(O51 、Q)は、
距離d(O51 、Q)=(S(“A”)−S(“A”))2 +(S(“#”)−S(“K”))2+(220−198)2 +(32−20)2 =0+152+322+122 =1393
となる。
包囲領域C21に含まれる他のオブジェクトも同様に問い合わせ点Qとの距離を計算し、下記のような距離が得られたとする。
d(O51 、Q)=1393、d(O201 、Q)=829、d(O1975 、Q)=5393、d(O4215 、Q)=9103
ここで、音声素片の探索数が3であり、オブジェクトリストOLが下記の通り、
OL={O29:503、O1028:1617、O3078:2841} (O:XのOはオブジェクト、XはOと問い合わせ点Qの距離)
であったとすれば、
オブジェクトリストOL中のオブジェクトと包囲領域リスト中のオブジェクトとをあわせて、距離の小さい順に個数分だけ選択してオブジェクトリストOLに格納する。この場合、オブジェクトリストOLは下記の通りとなる。
OL={O29:503、O201:829、O51:1393}
次に、包囲領域リスト内の包囲領域のうち、問い合わせ点と包囲領域との最小距離がオブジェクトリストに格納されたオブジェクトの問い合わせ点との距離の最大値を上回る全て包囲領域を包囲領域リストから除外する(ステップ7)。
例えば、包囲領域リストCLが下記の通りであり、ステップ5でC31が選ばれており、
CL={C31:23、C12:48、C98:79、・・・C104:1306、C72:2582、C52:3978}
また、ここで、オブジェクトリストOLが下記の通りであれば
OL={O29:503、O201:829、O51:1393}
オブジェクトリストOLに格納されたオブジェクトの距離の最大値は1393であるため、最小距離がこの値を超える包囲領域C72とC52が包囲領域リストCLから除かれて包囲領域は下記の通りとなる。
CL={C31:23、C12:48、C98:79、・・・C104:1306}
また、他の例として、包囲領域リストCLが下記のとおりであり、ステップ5でC9が選ばれており、
CL={C291:93、C782:104、・・・C9:527、C49:906、C103:1302}
また、ここで、オブジェクトリストOLが下記のとおりであれば、
OL={O7:35、O161:391、O79:876}
オブジェクトリストOL.に格納されたオブジェクトの距離の最大値は876であるため、最小距離がこの値を超える包囲領域C49とC103が包囲領域リストCLから除かれて包囲領域は下記のとおりとなる。
CL={C291:93、C782:104、・・・C9:527}
次に、探索対象とした包囲領域の次に問い合わせ点との距離が大きい包囲領域を、包囲領域リストから選択し探索対象してステップ6に戻る。もし、探索対照の包囲領域より距離値が大きい包囲領域が包囲領域リストに存在しない場合、音声素片リストに格納された音声素片情報を探索結果として出力する(ステップ8)。
例えば、ステップ7の結果得られた包囲領域CLが下記のとおりであり、
CL={C31:23、C12:48、C98:79、・・・C104:1306}
ステップ5でC31が選ばれておれば、次に距離の大きいC12を次の探索対象として、選択しステップ6に戻る。
また、他の例として、ステップ7の結果得られた包囲領域リストCLが下記のとおりであり、
CL={C291:93、C782:104、 …C9:527}
ステップ5でC9が選ばれておれば、次に距離の大きい包囲領域は存在しないため、オブジェクトリストOLが下記のとおりであれば、
OL={O7:35、O161:391、O79:876}
オブジェクトO7、O161、O79に対応した音声素片情報を探索結果として出力する。
音声素片探索装置を説明する図。 2次インデックスを説明する図。 1次インデックスを説明する図。 各音節情報を説明する図。 包囲領域情報を説明する図。 音声素片探索処理を説明する図。 包囲領域を説明する図。
符号の説明
10 音声素片探索装置 11 1次インデックス
12 2次インデックス 13 1次インデックス探索部
14 2次インデックス探索部

Claims (5)

  1. 入力された音韻情報および韻律清報に対応した音声素片候補を探索するための音声素片探索用データベース構成方法において、
    インデックスデータは、音声素片に含まれる音韻情報と対応付けられ音声素片情報または2次インデックスとの対応付けが記録された1次インデックスデータと、
    音声素片情報ならびに、音声素片情報を音韻情報および韻律情報またはそのサブセットを基底とした多次元空間における点とみなして少なくとも1つの音声素片情報を前記多次元空間にて領域内部に含む包囲領域の情報から構成されている2次インデックスデータと、
    より成り、
    前記2次インデックスデータに含まれる前記包囲領域は、前記多次元空間において全て同一形状であり、更に、少なくとも前記多次元空間内の点と、当該点以外の点との距離および当該点を含まない包囲領域との距離が一意に定義され、かつ前記多次元空間内の点と当該点を含まない包囲領域との距離は、その包囲領域内に含まれる全ての点と前記多次元空間内の点の距離の下限値である、
    ことを特徴とする音声素片探索用データベース構成方法。
  2. 入力された音韻情報および韻律清報に対応した音声素片候補を探索するための音声素片探索用データベースを構成する音声素片探索用データベース構成装置において、
    音声素片に含まれる音韻情報と対応付けられ音声素片情報または2次インデックスとの対応付けが記録された1次インデックスを具備し、
    音声素片情報ならびに、音声素片情報を音韻情報および韻律情報またはそのサブセットを基底とした多次元空間における点とみなして少なくとも1つの音声素片情報を多次元空間にて領域内部に含む包囲領域の情報から構成されている2次インデックスを具備し、
    ここで、前記2次インデックスに含まれる前記包囲領域は、前記多次元空間において全て同一形状であり、更に、少なくとも前記多次元空間内の点と、当該点以外の点との距離および当該点を含まない包囲領域との距離が一意に定義され、かつ前記多次元空間内の点と当該点を含まない包囲領域との距離は、その包囲領域内に含まれる全ての点と前記多次元空間内の点の距離の下限値であることを特徴とする音声素片探索用データベース構成装置。
  3. インデックスデータは、音声素片に含まれる音韻情報と対応付けられ音声素片情報または2次インデックスとの対応付けが記録された1次インデックスデータと、音声素片情報ならびに音声素片情報を音韻情報および韻律情報またはそのサブセットを基底とした多次元空間における点とみなして少なくとも1つの音声素片情報を前記多次元空間にて領域内部に含む包囲領域の情報から構成されている2次インデックスデータとより成り、前記2次インデックスデータに含まれる前記包囲領域は、前記多次元空間において全て同一形状であり、更に、少なくとも前記多次元空間内の点と、当該点以外の点との距離および当該点を含まない包囲領域との距離が一意に定義され、かつ前記多次元空間内の点と当該点を含まない包囲領域との距離は、その包囲領域内に含まれる全ての点と前記多次元空間内の点の距離の下限値である音声素片探索用データベースを用いて、入力された音韻情報および韻律情報に対応した音声素片を探索する音声素片探索方法において、
    音声素片に含まれる音韻情報と対応付けられ、音声素片情報または2次インデックスとの対応付けが記録された1次インデックスデータを用いて入力の音韻情報と対応する音声素片情報または2次インデックスヘの対応付けを取得し、
    音声素片情報が得られた場合は当該音声素片情報を入力の音韻情報と対応する音声素片情報とし、
    2次インデックスヘの対応付けが取得された場合は、2次インデックスデータを用いて音韻情報ならびに韻律情報またはそのサブセットを基底とした多次元空間において、入力された音韻情報および韻律情報を多次元空間内の問い合わせ点とし、
    2次インデックスデータに含まれる全ての包囲領域と前記問い合わせ点との距離を計算し、
    包囲領域リストに包囲領域の情報と対応づけて前記距離を格納し、
    前記包囲領域リスト内の包囲領域において前記距離が最小となる包囲領域を探索対象として選択し、
    前記探索対象とした包囲領域に対応する全ての音声素片情報を前記2次インデックスから読み出し、
    前記読み出された音声素片情報と前記問い合わせ点との距離を計算し、
    前記音声素片情報および音声素片リストに格納されている音声素片情報とあわせて、予め決められた探索数だけ前記問い合わせ点との距離と対応づけて音声素片情報を前記音声素片リストに格納し、
    包囲領域リスト中に含まれる包囲領域に対応付けられた距離が、音声素片リスト中に含まれる音声素片情報と対応付けられた距離の最大値を上回る場合、該当する包囲領域を全て包囲領域リストから除き、
    包囲領域リスト中に含まれる、探索対象の包囲領域の次に距離が大きい包囲領.域を次
    の探索対照とし、
    探索対照の包囲領域より距離値が大きい包囲領域が包囲領域リストに存在しない場合は音声素片リストに格納された音声素片情報を探索結果とする、
    ことを特徴とする音声素片探索方法。
  4. 音声素片に含まれる音韻情報と対応付けられ、音声素片情報または2次インデックス識別番号単位で構成され少なくとも1つの音声素片情報を含む包囲領域情報が記録されている2次インデックスとの対応付けが記録された1次インデックスデータを用いて入力の音韻情報と対応する音声素片情報または2次インデックスヘの対応付けを取得し、
    音声素片情報が得られた場合は当該音声素片情報を入力の音韻情報と対応する音声素片情報とし、
    2次インデックスヘの対応付けが取得された場合は、2次インデックスデータを用いて音韻情報ならびに韻律情報またはそのサブセットを基底とした多次元空間において、入力された音韻情報および韻律情報を多次元空間内の問い合わせ点とし、
    2次インデックスデータに含まれる全ての包囲領域と前記問い合わせ点との距離を計算し、
    包囲領域リストに包囲領域の情報と対応づけて前記距離を格納し、
    前記包囲領域リスト内の包囲領域において前記距離が最小となる包囲領域を探索対象として選択し、
    前記探索対象とした包囲領域に対応する全ての音声素片情報を前記2次インデックスから読み出し、
    前記読み出された音声素片情報と前記問い合わせ点との距離を計算し、
    前記音声素片情報および音声素片リストに格納されている音声素片情報とあわせて、予め決められた探索数だけ前記問い合わせ点との距離と対応づけて音声素片情報を前記音声素片リストに格納し、
    包囲領域リスト中に含まれる包囲領域に対応付けられた距離が、音声素片リスト中に含まれる音声素片情報と対応付けられた距離の最大値を上回る場合、該当する包囲領域を全て包囲領域リストから除き、
    包囲領域リスト中に含まれる、探索対象の包囲領域の次に距離が大きい包囲領.域を次の探索対照とし、
    探索対照の包囲領域より距離値が大きい包囲領域が包囲領域リストに存在しない場合は音声素片リストに格納された音声素片情報を探索結果とすべき指令を、
    コンピュータに対して実行させる音声素片探索プログラム。
  5. 請求項4に記載される音声素片探索プログラムを記憶する記憶媒体。
JP2004056092A 2004-03-01 2004-03-01 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体 Expired - Lifetime JP4430960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004056092A JP4430960B2 (ja) 2004-03-01 2004-03-01 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004056092A JP4430960B2 (ja) 2004-03-01 2004-03-01 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体

Publications (2)

Publication Number Publication Date
JP2005249835A JP2005249835A (ja) 2005-09-15
JP4430960B2 true JP4430960B2 (ja) 2010-03-10

Family

ID=35030397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004056092A Expired - Lifetime JP4430960B2 (ja) 2004-03-01 2004-03-01 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体

Country Status (1)

Country Link
JP (1) JP4430960B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP5123347B2 (ja) * 2010-03-31 2013-01-23 株式会社東芝 音声合成装置
JP6639285B2 (ja) * 2016-03-15 2020-02-05 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム

Also Published As

Publication number Publication date
JP2005249835A (ja) 2005-09-15

Similar Documents

Publication Publication Date Title
CN101828218B (zh) 通过多形式段的生成和连接进行的合成
JP3349905B2 (ja) 音声合成方法および装置
Chu et al. Selecting non-uniform units from a very large corpus for concatenative speech synthesizer
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
EP1213705A2 (en) Method and apparatus for speech synthesis without prosody modification
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US8108216B2 (en) Speech synthesis system and speech synthesis method
EP0845139B1 (en) Speech synthesizer having an acoustic element database
EP0942409B1 (en) Phoneme-based speech synthesis
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
CN104900231A (zh) 语音检索装置以及语音检索方法
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4430960B2 (ja) 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体
Lee et al. A text-to-speech platform for variable length optimal unit searching using perception based cost functions
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
KR20050032759A (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP2012237925A (ja) 音声合成装置とその方法とプログラム
JP4167084B2 (ja) 音声合成方法及び装置、並びに音声合成プログラム
JP5020759B2 (ja) 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP5020763B2 (ja) 音声合成のための決定木を生成する装置、方法及びプログラム
JP5436685B2 (ja) パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法
JP2886474B2 (ja) 規則音声合成装置
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
JP4787686B2 (ja) テキスト選択装置、その方法、そのプログラム、及びその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060411

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4430960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term