JP4328698B2 - 素片セット作成方法および装置 - Google Patents

素片セット作成方法および装置 Download PDF

Info

Publication number
JP4328698B2
JP4328698B2 JP2004268714A JP2004268714A JP4328698B2 JP 4328698 B2 JP4328698 B2 JP 4328698B2 JP 2004268714 A JP2004268714 A JP 2004268714A JP 2004268714 A JP2004268714 A JP 2004268714A JP 4328698 B2 JP4328698 B2 JP 4328698B2
Authority
JP
Japan
Prior art keywords
segment
phoneme
cluster
clustering
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004268714A
Other languages
English (en)
Other versions
JP2006084715A (ja
Inventor
俊明 深田
雅章 山田
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004268714A priority Critical patent/JP4328698B2/ja
Priority to US11/225,178 priority patent/US7603278B2/en
Publication of JP2006084715A publication Critical patent/JP2006084715A/ja
Application granted granted Critical
Publication of JP4328698B2 publication Critical patent/JP4328698B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Description

本発明は、音声合成に使用される音声素片の集合である素片セットを作成する技術に関する。
近年、カーナビゲーションシステムなどの様々な機器で音声合成技術が利用されている。音声合成における合成音声波形の生成方式としては、(1)フォルマントやケプストラムなどの音声の特徴パラメータを用いて音声合成フィルタを構成し、これに基本周波数や有声・無声情報から求まる励振信号で音声合成フィルタを駆動することによって合成音声を得るパラメータ合成方式、(2)PSOLA(ピッチ同期波形重畳)に代表されるダイフォンやトライフォンなどの音声波形単位を所望の韻律(基本周波数、継続時間長、パワー)となるように変形し接続する波形編集方式(波形重畳方式)、(3)音節、単語、句などの音声波形単位を接続する波形接続方式(セグメント接続方式)、の3つの方式に大別できる。一般的に、パラメータ合成方式や波形編集方式は、音声の特徴パラメータのセットや音声波形単位のセット(素片セット)の記憶容量を波形接続方式に比べ小さくできるため、記憶容量に限りがある機器に適している。一方、波形接続方式は、パラメータ合成方式や波形編集方式よりも長い音声波形単位を用いており、一話者あたりの素片セットの記憶容量は、十数MBから数百MB程度を要するため、汎用のコンピュータなど記憶容量に余裕のある機器に適している。
パラメータ合成方式または波形編集方式において高音質な合成音声を生成するためには、音韻環境の違いを考慮して素片セットを作成する必要がある。例えば、前後の音素環境を考慮しない音素コンテキスト非依存の素片セット(モノフォンセット)よりも、前後の音素環境を考慮した音素コンテキスト依存の素片セット(トライフォンセット)を用いる方が高音質な合成音声が生成できる。ここで、素片セットにおける素片数は、言語や音素の定義の仕方によって多少異なるが、モノフォンの場合は数十種類、ダイフォンの場合は数百から千数百種類、トライフォンの場合は数千から数万種類となる。ここで、携帯電話や家電製品などのようにリソースに限りがある機器上で音声合成を動作させる場合、トライフォンやダイフォンなど音韻環境を考慮した素片セットでは、ROMなどの記憶容量の制約から素片数を削減する必要に迫られる場合がある。
素片セットの素片数を削減する方法としては、素片セットを作成するための音声単位の集合(学習用音声データベース全体)に対するクラスタリングを粗く行う方法と、何らかの方法によって作成された素片セットに対してクラスタリングを適用する方法の2つが考えられる。
前者に関する方法、すなわち、学習用音声データベース全体に対してクラスタリングを行うことによって素片セットを作成する方法としては、学習用音声データベース全体に対して音素環境を考慮したデータドリブンなクラスタリングを行い、各クラスタのセントロイドパターンを求め、これを合成時に選択することによって音声合成を行う方法(例えば特許文献1)、同一視できる音素集合をグループ化した音韻環境を考慮した知識ベースのクラスタリングを行う方法(例えば特許文献2)などがある。後掲の非特許文献1、2もこの方法に関するものである。
また、後者に関する方法、すなわち、何らかの方法によって作成された素片セットに対してクラスタリングを適用する方法としては、HMnetを予め用意したCV、VC単位の素片セットに適用することによって素片数を削減する方法がある(例えば特許文献3)。
特許第2583074号公報 特開平9−90972号公報 特開2001−92481号公報 中嶌,「多層音韻環境クラスタリング法−ML−COC法−による英語音声規則合成の検討」,信学技報,SP92−9,1992年 橋本、斉藤,「環境依存性を考慮した音節を合成単位とする音声合成 −環境依存クラスタリングによる音素クラスターの生成−」,日本音響学会講演論文集,p.245−246,1995年9月
これらの従来法には以下のような問題点がある。
まず特許文献1に記載の手法では、言語的・音韻論的・音声学的な専門知識を用いることなく、音素パターン(素片集合)の距離尺度のみに基づいてクラスタリングを行うため、音韻的に類似していない(同一視できない)素片集合からセントロイドパターンが生成されることがある。このようなセントロイドパターンを用いて合成音声を生成すると、明瞭性に欠ける、異音を生じるなどの問題を生じる。すなわち、トライフォンなど音素の環境を単純にクラスタリングするのではなく、音韻性の類似したトライフォンを同一視してクラスタリングする必要がある。
特許文献2には、上記した特許文献1の問題に対処するために、同一視できる音素集合をグループ化した音韻環境を考慮したクラスタリング手法が開示されている。しかしながら、特許文献2で用いられている方法は、具体的には、先行音素が長母音の場合は先行音素が短母音のものと同一視する、後続音素が長母音の場合は後続音素が短母音のものと同一視する、当該音素が無声破裂音の場合は先行音素を一つの短母音で代表し、後続音素が無声破裂音の場合には後続音素を一つの無声破裂音で代表させる、といった知識ベースのクラスタリング手法である。また、適用している知識も極めて単純なものであり、音声単位がトライフォンの場合にのみ適用し得るものである。つまり、特許文献2では、ダイフォンなどトライフォン以外の素片セットへの適用、日本語以外の言語への対応、素片セットの数を所望のものとする(スケーラブルな素片セットの作成)といったことが行えないという問題がある。
非特許文献1および非特許文献2には、特許文献1および特許文献2における前記問題点に対処するために、音韻環境に基づくクラスタリングと音素環境に基づくクラスタリングを併用する方法が開示されている。非特許文献1および非特許文献2によれば、音韻性の類似したトライフォンを同一視したクラスタリング、トライフォン以外の素片セットへの適用、日本語以外の言語への対応、スケーラブルな素片セットの作成が可能である。しかしながら、非特許文献1および非特許文献2では、素片セットを求めるために学習用の音声素片全体に対してクラスタリングを行うことによって素片セットを決定しているため、クラスタ内の変形歪は考慮されるが、素片間の接続点における歪(接続歪)は考慮されないという問題がある。また、非特許文献2では母音よりも子音が重視された選択がなされ、結果的に母音の音質が悪くなったと説明されているとおり、選択結果に偏りが生じることがあるという問題がある。すなわち、素片セットを作成する際に、自動的な手法で選ばれた素片セットは、必ずしも最適なものである保証はなく、いくつかの素片を人手によって別の素片に交換することによって音質が向上できる場合が少なくない。このため、学習用の音声素片全体に対してクラスタリングを行うのではなく、素片セットに対してクラスタリングを施す方法が求められる。
特許文献3では、HMnetをCV、VC単位の素片セットに適用することによって素片数を削減する方法が開示されている。しかしながら、この方法で用いられているHMnetは、逐次状態分割法という尤度最大基準によるコンテキストクラスタリングである。すなわち、得られるHMnetは結果的にはいくつかの音素集合が一つの状態で共有されることもあるが、その共有のされ方は完全にデータ依存であり、特許文献2、あるいは、非特許文献1,2で用いられているように、同一視できる音素集合をグループ化し、このグループを制約としてクラスタリングすることがなされていない。つまり、同一視し得ない音素集合が同じ状態として共有されるため、特許文献1と同様の問題が生じる。
この他、複数話者の素片セット作成に関して、次のような問題もある。すなわち、特許文献1には、発声者という要因を音素環境要因に加えてクラスタリングを行う方法が開示されているが、クラスタリングを行う際の特徴パラメータは音声スペクトル情報であり、声の高さ(基本周波数)などの韻律情報が含まれていない。これは、男性話者と女性話者に対する素片セットを作成する場合など、韻律情報がかなり異なる複数話者に対して特許文献1の手法を適用した場合、韻律情報が無視された、すなわち、音声合成時に適用され得る韻律情報を考慮しないクラスタリングがなされるという問題がある。
本発明は上記のような問題の少なくともいずれかを解決すべくなされたものである。具体的には、本発明の第1の目的は、音声合成に用いられる素片セットの素片数を、合成音の音質劣化を抑制しつつ削減することができる素片セット作成方法および装置を提供することである。
本発明の第2の目的は、複数話者の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することが可能な素片セット作成方法および装置を提供することである。
さらに、本発明の第3の目的は、複数言語の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することが可能な素片セット作成方法および装置を提供することである。
本発明の一側面によれば、複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成方法が提供される。この方法は、前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換ステップと、前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第1の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリングステップと、前記クラスタリングステップで得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成ステップであって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成ステップと、各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第1の素片セットから削除することにより、前記第1の素片セットよりも素片数が削減された第2の素片セットを作成する作成ステップとを有することを特徴とする。
本発明によれば、音声合成に用いられる素片セットの素片数を、音質の劣化を抑制しつつ削減することが可能な素片セット作成方法および装置を提供することができる。
また、本発明によれば、複数話者の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することができる。
さらに、本発明によれば、複数言語の素片セットに対しても、音質の劣化を抑制しつつ素片数を削減することができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、以下ではさまざまな実施形態を示すが、各実施形態間で共通する構成および処理については同一の参照番号を付し、これにより重複した説明を回避している点に留意されたい。
(第1の実施形態)
図1は、本実施形態における素片セット作成装置のハードウェア構成を示すブロック図である。この素片セット作成装置は典型的にはパーソナルコンピュータ等のコンピュータシステム(情報処理装置)によって実現されうる。
101はこの装置全体の制御をつかさどるCPUで、ROM102あるいは外部記憶装置104からRAM103にロードされた各種プログラムを実行する。ROM102は各種パラメータやCPU101が実行する制御プログラムなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供するとともに、主記憶装置としてCPU101により実行される各種プログラムを記憶する。
104はハードディスク、CD−ROM、DVD−ROM、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、CD−ROMやDVD−ROM等に格納されたプログラムやデータがインストールされる。この外部記憶装置104には、OS104aをはじめ、素片セット作成処理を実現するための素片セット作成プログラム104b、あらかじめ登録されている素片セット506、後述するクラスタリング情報507などが記憶されている。
105はキーボード、マウス、ペン、マイクロフォン、タッチパネルなどによる入力装置であり、処理内容の設定に関する入力を行う。106はCRT、液晶ディスプレイなどの表示装置であり、処理内容の設定・入力に関する表示・出力を行う。107はスピーカーなどの音声出力装置であり、処理内容の設定・入力に関する音声の出力および合成音声の出力を行う。108は上記各部を接続するバスである。なお、素片セット作成処理の対象となる更新前または更新後の素片セットは、上記のように104に保持してもよいし、ネットワーク接続された外部装置に保持するようにしてもよい。
図2は、素片セット作成プログラム104aのモジュール構成を示すブロック図である。
201は、入力装置105を介して入力されるデータを処理する入力処理部である。
202は、入力処理部201が受理した終了条件を保持する終了条件保持部である。
203は、現在の状況が終了条件を満たすか否かを判定する終了条件判定部である。
204は、更新前の素片セットに対して音韻環境を考慮したクラスタリングを行う音韻環境クラスタリング部である。
205は、音韻環境クラスタリング部205の結果から更新後の素片セットとして用いる代表素片を決定する代表素片決定部である。
206は、更新前の素片セットを保持する更新前素片セット保持部である。
207は、代表素片決定部205で決定された代表素片を新しい素片セットとして更新する素片セット更新部である。
208は、素片セット更新部207で更新された更新後の素片セットを保持する更新後素片セット保持部である。
本実施形態における素片セット作成処理は基本的に、あらかじめ用意された音声合成用の音声素片の集合である素片セット(第1の素片セット)を音韻環境クラスタリングし、各クラスタから代表素片を決定し、この代表素片に基づいて、より小さなサイズの素片セット(第2の素片セット)を作成するものである。
素片セットの種類としては、パラメータ合成方式で用いられるケプストラム、LPC、LSPなど音声スペクトルを表現した特徴量を含んだデータ構造体を音声素片とする素片セットと、波形編集方式で用いられる音声波形自体を音声素片とする素片セットの2つに大別できる。本発明はいずれの素片セットについても適用できるものであるが、以下では、素片セットの種類に依存する処理についてはその都度説明を加える。
また、代表素片を決定する際には、各クラスタに含まれる素片集合からセントロイド素片を生成しこれを代表素片とする方法(セントロイド素片生成法)と、各クラスタに含まれる素片集合から代表素片を選択する方法(代表素片選択法)の2通りが考えられる。本実施形態では、前者のセントロイド素片生成法について説明し、後者の代表素片選択法については後述の第2の実施形態において説明する。
図5は、本実施形態におけるセントロイド素片生成法による素片作成処理を示すフローチャートである。
まず、ステップS501で、処理対象の素片セット(更新前素片セット506)を更新前素片セット保持部206から読み込む。更新前素片セット506は、トライフォン、バイフォン、ダイフォン、音節、音素など様々な単位やこれらの単位を併用したものなどが考えられるが、以下ではトライフォンを素片セットの単位とする場合について説明する。トライフォンの数は、言語や音素の定義によって異なるが、日本語の場合には約3000種類のトライフォンが存在する。ここで、更新前素片セット506には、必ずしも全てのトライフォンの音声素片が含まれている必要はなく、一部のトライフォンは他のトライフォンと共有されているような素片セットであってもよい。なお、更新前素片セット506は、いかなる方法を用いて作成してもよいが、本実施形態では、クラスタリング時に音声素片間の接続歪は陽には考慮されていないため、更新前素片セット506は接続歪を考慮した手法によって作成されていることが望ましい。
次に、ステップS502で、音韻環境を考慮したクラスタリングを行うために必要な情報(クラスタリング情報507)を読み込み、更新前素片セット506に対して音韻環境を考慮したクラスタリングを行う。クラスタリング情報としては、例えば決定木を用いることができる。
図3は、音韻環境を考慮したクラスタリングを行う際に用いられる決定木の一例である。この木は、当該音素(トライフォンの中心音素)が/a/の場合の木であり、更新前素片セットのトライフォンの中で、当該音素が/a/である音声素片がこの決定木を用いてクラスタリングされる。301のノードでは、「先行音素が母音であるか否か」という質問によってクラスタリングがなされる。たとえば、「母音−a+*」である音声素片(例えば、a−a+kやu−a+o)は302のノードへクラスタリングされ、「子音−a+*」である音声素片(例えば、k−a+kやb−a+o)は309のノードへクラスタリングされる。ここで、「−」および「+」はそれぞれ、先行および後続環境を表す記号であり、u−a+oは、先行音素がu、当該音素がa、後続音素がoである音声素片を意味する。
以下同様に、302、303、305、309、311の各中間ノード(図3の白丸)における質問に応じてクラスタリングを行うことにより、304、306、307、308、310、312、313の各リーフノード(図3の黒丸)において、各クラスタに属する音声素片集合が求まる。例えば、307のクラスタには、「i−a+b」および「e−a+b」の2種類の素片集合が属し、308のクラスタには、「i−a+d」、「i−a+g」、「e−a+d」、「e−a+g」の4種類の素片集合が属する。他の音素に対しても同様の決定木を用いることによってクラスタリングがなされる。ここで、図3の決定木には、「母音」、「b、d、g」、「p、t、k」など音素ではなく、音韻的性質の似ている(同一視できる)音素集合に関する質問が含まれている。このような決定木の作成手順を図4に示す。
まず、ステップS401において、音声特徴量とそれに対する音素ラベルを含む学習用音声データベース403からトライフォンモデルを作成する。トライフォンモデルは、例えば、音声認識で広く用いられる隠れマルコフモデル(HMM)の手法を利用して、トライフォンHMMを作成することができる。
次に、ステップS402において、あらかじめ用意しておいた音韻環境に関する質問セット404を用いて、例えば尤度最大基準などのクラスタリング基準を適用することによって、クラスタリング基準を最も満足する質問セットから順にクラスタリングを行う。ここで、音韻環境質問セット404は、音韻的性質の似ている音素集合に関するものが含まれていればいかなるものを用いてもよい。また、クラスタリングの終了は、入力処理部201などで設定され、終了条件保持部202に格納されているクラスタリング終了条件を用いて、終了条件判定部203で判定される。終了判定は、全てのリーフノードに対して個別に行われる。終了条件は、例えば、リーフノードに含まれる音声素片集合のサンプル数が所定数以下となった場合、リーフノードのクラスタリング前後で有意な差が見られない場合(クラスタリング前後の総尤度の差が所定の値以下となった場合)などを用いることができる。以上の決定木作成手順を、全ての当該音素に対して同時に適用することによって、図3に示されるような音韻環境を考慮した決定木が全ての当該音素に対して作成される。
説明を図5のフローチャートに戻す。
次に、ステップS503で、各クラスタに属する素片集合から代表素片としてのセントロイド素片を生成する。セントロイド素片の生成は、パラメータ合成方式および波形編集方式のいずれに対しても行うことができる。以下、図6および図7を用いて、それぞれの方式おけるセントロイド素片の生成方法を説明する。
図6は、パラメータ合成方式におけるセントロイド素片の生成方法の一例を示す説明図である。いま、あるクラスタに属する素片集合として、(6a)、(6b)、(6c)の3つがあるとする。ここで、(6a)は5フレームの特徴パラメータ系列からなる音声素片であり、同様に、(6b)、(6c)はそれぞれ、6フレーム、8フレームの特徴パラメータ系列からなる音声素片である。ここで、1フレームの特徴パラメータ601((6a)のグレー部分)は、(6h)または(6i)に示されるようなデータ構造の音声の特徴ベクトルである。例えば、(6h)はM+1次元のケプストラム係数c(0)〜c(M)、(6i)はM+1次元のケプストラム係数c(0)〜c(M)およびそれらのデルタ係数Δc(0)〜Δc(M)である。
上記の素片集合(6a)、(6b)、(6c)のうち最大フレーム数をもつものは(6c)で、そのフレーム数は8である。ここで、(6a)、(6b)のフレーム数をそれぞれ、(6d)、(6e)のようにフレーム数を伸張させて、各素片集合のフレーム数を最大フレーム数8に合わせる。フレーム数の伸張にはいかなる方法を用いてもよいが、例えば、時間軸の線形伸縮、特徴パラメータの線形補間によって行うことが可能である。また、(6f)は(6c)と同じパラメータ系列を用いる。
次に、(6d)、(6e)、(6f)の各フレームの特徴パラメータの加算平均を求めることによって、(6g)に示されるセントロイド素片が生成できる。なお、この例では、パラメータ合成方式における特徴量が音声パラメータ時系列であるものについて説明したが、他にも音声パラメータの統計量(平均、分散など)から音声合成を行う確率モデルに基づく手法もある。このような場合には、特徴ベクトルの加算平均を求めるのではなく、個々の統計量を用いてセントロイド素片としての統計量を計算すればよい。
図7は、波形編集方式におけるセントロイド素片の生成方法の一例を示す説明図である。いま、あるクラスタに属する素片集合として、(7a)、(7b)、(7c)の3つがあるとする(破線はピッチマーク位置を表す)。ここで、(7a)は4周期の音声波形からなる音声素片であり、同様に、(7b)、(7c)はそれぞれ、3ピッチ周期、4ピッチ周期の音声波形からなる音声素片である。
この中から、素片集合のピッチ周期数が最も多いものの中で、素片の時間長が最も長いものを、セントロイド素片作成のためのテンプレートとして選択する。この例では、ピッチ周期数が最も多いのは(7a)および(7c)で、共に4ピッチ周期であるが、(7c)の方が素片の時間長が長いので、この(7c)がセントロイド素片作成のためのテンプレートとして選択される。
次に、(7a)および(7b)が、(7c)のピッチ周期数およびピッチ周期長となるように、それぞれ(7d)および(7e)のように変形する。ここで、この変形はいかなるものを用いてもよいが、例えば、PSOLAで利用されている公知の方法を用いればよい。なお、(7f)は(7c)と同じ音声波形である。
そして、(7d)、(7e)、(7f)の各サンプルの加算平均を求めることによって、(7g)に示されるセントロイド素片が生成できる。
再び、説明を図5のフローチャートに戻す。
ステップS504では、各クラスタに属する音声素片をすべて、前述のようにして生成されたセントロイド素片で代替するかの決定を行う。ここで、更新後の素片セットのサイズ(メモリ、素片数など)の上限が予め設定されている場合には、決定木のリーフノードにおける素片集合を全てセントロイド素片で代替すると、所望のサイズより大きくなる場合がある。このような場合には、リーフノードよりも一つ上の中間ノードにおけるセントロイド素片を作成し、これを代替素片とすればよい。この場合の対象リーフノードの決定は、ステップS402の決定木の作成における決定木の情報として、各ノードがクラスタリングされた順序を保持し、この順序の逆に中間ノードにおけるセントロイド素片を作成する手順を所望のサイズになるまで繰り返せばよい。
続くステップS505では、代替素片を更新後の素片セット508として外部記憶装置104に保存し、本処理を終了する。
図11は、更新前の素片セット(素片テーブル(11a)、素片データ(11c))と更新後の素片セット(素片テーブル(11b)、素片データ(11d))の一例を示す図である。それぞれの素片テーブルは、ID、音韻環境(トライフォン環境)、素片が格納されている先頭アドレスの情報を含み、また、それぞれの素片データには音声素片のデータ(音声特徴パラメータ系列、音声波形など)が格納されている。同図において、更新後の素片セットでは、ID=1、ID=2の2つの音声素片は1つの音声素片(素片格納アドレスadd21)で共有化され、ID=3〜6の4つの音声素片は1つの音声素片(素片格納アドレスadd22)で共有化されている。これによって、全体として音声素片データが削減されていることが分かる。
なお、本実施形態では、クラスタリング情報として2分木による決定木を用いたが、本発明はこれに限定されるものではなく、いかなるタイプの決定木を用いてもよい。さらに、決定木に限らず、例えば、C4.5などの手法により得られる決定木から抽出される規則をクラスタリング情報として利用してもよい。
以上の説明から明らかなように、本実施形態によれば、予め作成された素片セットに対して、同一視できる音素集合をグループ化した音韻環境を考慮したクラスタリングを適用することによって、音質の劣化を抑えつつ素片セットを削減することができる。
(第2の実施形態)
上述の第1の実施形態は、各クラスタごとに、そのクラスタに属する素片集合からセントロイド素片を生成し(ステップS503)、これを代表素片とするものであった。一方、以下説明する第2の実施形態は、セントロイド素片を生成するかわりに、各クラスタごとに、そのクラスタに含まれる素片集合からそのクラスタに対する適合度が高い代表素片を選択するもの(代表素片選択法)である。
図9は、本実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。
まず、第1の実施形態で説明したステップS501およびS502と同様の処理を行う。すなわち、ステップS501で、処理対象の素片セット(更新前素片セット506)を更新前素片セット保持部206から読み込み、ステップS502で、更新前素片セット506に対して音韻環境を考慮したクラスタリングを行う。
次に、ステップS903で、ステップS502で得られた各クラスタに属する素片集合から代表素片を選択する。代表素片の選択は、例えば、各クラスタに属する素片集合から第1の実施形態で述べた方法でセントロイド素片を作成し、これに最も近い素片を選択する方法も考えられるが、以下では、学習用音声データベースから得られるクラスタ統計量を用いた方法について説明する。
図8は、本実施形態におけるクラスタ統計量を生成する処理を示すフローチャートである。
まず、第1の実施形態で説明したステップS401およびS402と同様の処理を行う。すなわち、ステップS401において、音声特徴量とそれに対する音素ラベルを含む学習用音声データベース403からトライフォンモデルを作成する。次に、ステップS402において、あらかじめ用意しておいた音韻環境に関する質問セット404を用いて、例えば尤度最大基準などのクラスタリング基準を適用することによって、クラスタリング基準を最も満足する質問セットから順にクラスタリングを行う。これらステップS401,S402の処理によって、音韻環境を考慮した決定木が全ての当該音素に対して作成される。
次に、ステップS803で、ステップS402で作成された決定木から得られるトライフォンの共有情報を用いて、トライフォンの音素ラベルを共有トライフォンの音素ラベルに変換する。例えば、図3の307に対しては、「i−a+b」と「e−a+b」の2種類のトライフォンラベルが共に「ie−a+b」という共有トライフォンラベルに変換される。その後、この音素ラベルとそれに対応する音声特徴量を含む学習用音声データベース403から共有トライフォンモデルを作成し、このモデルの統計量をクラスタ統計量とする。例えば、共有トライフォンモデルを単一分布連続HMM(例えば3状態モデル)として作成する場合には、クラスタ統計量は、各状態の音声特徴ベクトルの平均と分散、および状態間の遷移確率である。以上のようにして生成されたクラスタ統計量はクラスタ統計量908として外部記憶装置104に保持される。
説明を図9のフローチャートに戻す。
ステップS903では、クラスタ統計量908を用いて、素片集合の中からクラスタに対する適合度が高い素片を選択する。適合度の計算方法としては、例えば、上記のHMMを用いた場合には、クラスタHMMに対する音声素片の尤度が最も高いものを選択することができる。
図10は、パラメータ合成方式における代表素片の選択方法を説明する図である。
(10a)は3状態のHMMであり、各状態に対して、MS1、MS2、MS3からなるクラスタ統計量(平均、分散、遷移確率)を保持している。いま、あるクラスタに属する素片集合として、(10b)、(10c)、(10d)の3つがあるとする。このとき、(10a)に対する(10b)の尤度は、音声認識の分野で用いられているビタビ計算を行うことによって、(10b)の全体の尤度(あるいは対数尤度)を求めることができる。同様に、(10c)、(10d)に対しても尤度を求め、この3つの中から尤度が最大となる素片を代表素片とすればよい。ここで、尤度を計算する際に、フレーム数が異なるため、各尤度をフレーム数で除した正規化尤度で比較することが望ましい。
再び、説明を図9のフローチャートに戻す。
ステップS904では、各クラスタに属する音声素片をすべて、前述のようにして選択された代表素片で代替するかの決定を行う。ここで、更新後の素片セットのサイズ(メモリ、素片数など)の上限が予め設定されている場合には、決定木のリーフノードにおける素片集合を全て代表素片で代替すると、所望のサイズより大きくなる場合がある。このような場合には、リーフノードよりも一つ上の中間ノードにおける代表素片を選択し、これを代替素片とすればよい。この場合の対象リーフノードの決定は、ステップS402の決定木の作成における決定木の情報として、各ノードがクラスタリングされた順序を保持し、この順序の逆に中間ノードにおける代表素片を選択する手順を、所望のサイズになるまで繰り返せばよい。なお、この場合には、中間ノードにおける統計量もクラスタ統計量908に保持しておく必要がある。
続くステップS905では、代替素片を更新後の素片セット909として外部記憶装置104に保存する。あるいは、更新前の素片セット505から代替素片以外の素片データを削除したもの更新後の素片セット909として外部記憶装置104に保存する。その後、本処理を終了する。
以上の説明は、パラメータ合成方式における代表素片の選択方法の説明であったが、波形編集方式に対しては、一旦音声素片を音声分析することによって特徴パラメータを表現すれば、前述の方法を適用することが可能となる。そして、選択された特徴パラメータ系列に対応する音声素片を代表素片とすればよい。
(第3の実施形態)
上述した第1および第2の実施形態では、トライフォンモデルに対して音韻環境を考慮したクラスタリングを行っていたが、本発明はこれに限定されるものではなく、更に詳細なクラスタリングを行ってもよい。具体的には、上述の実施形態1,2におけるステップS402の決定木作成において、トライフォンHMM全体に対して決定木を作成するのではなく、トライフォンHMMの各状態ごとに決定木を作成するようにしてもよい。なお、各状態ごとに異なる決定木を用いる場合には、音声素片を分割し、各状態に割り当てる必要がある。各状態への割り当てはいかなる方法を用いてもよいが、簡単には線形伸縮によって割り当てることができる。
また、音韻環境の影響を最も受ける状態(例えば、ダイフォンの場合、音素の入り渡りおよび出渡りの部分)に関する決定木を作成し、この決定木を他の状態(例えば、ダイフォンの場合、同じ音素に接続される部分)に対しても適用することも可能である。
(第4の実施形態)
上述の各実施形態は、明記はしなかったものの、基本的には素片セットが1話者であることを想定したものであった。しかし、本発明はこれに限らず、複数話者からなる素片セットに対しても適用が可能である。ただしこの場合には、音韻環境として話者を考慮する必要がある。具体的には、ステップS401において、話者依存のトライフォンモデルを作成し、音韻環境質問セット404に話者に関する質問を加え、ステップS402で話者情報も含んだ決定木を作成する。
音韻環境として音素環境および話者を考慮したクラスタリングを行う際に用いられる決定木の例を、図17(当該音素が/a/の場合)および図18(当該音素が/t/の場合)に示す。また、複数話者の素片セットに対する更新後の素片セットの例を図19に示す。図19から分かるように、本実施形態によれば、複数の話者に対して共通の音声素片が利用され得るため(add32の素片)、各話者に対して個別に更新後の素片セットを作成するよりも効率的な素片セットの作成が可能となる。
(第5の実施形態)
上述した第4の実施形態では、音韻環境として話者を考慮することによって、複数話者の素片セットに対しても本発明を適用できることを示した。
ところで、第1の実施形態では、図6の(6h)あるいは(6i)を参照して説明したように、クラスタリング情報を作成する際の音声の特徴量としてケプストラム係数を用いた例について説明した。もっとも、ケプストラム係数のかわりに、LPCやLSPなどの別の音声スペクトル情報を用いることもできる。ただし、これらの音声スペクトル情報には、基本周波数に関する情報が含まれていないため、例えば、男性と女性の話者からなる素片セットをクラスタリングする場合には、たとえ音韻環境として話者を考慮していても、基本周波数情報を含まずに作成されたクラスタリング情報を用いる場合には、音声スペクトルの差異のみに着目したクラスタリングがなされてしまう。すなわち、男性の母音の素片が女性の母音の素片と共有されてしまうといったことが生じる可能性があり、その結果、合成音声の音質劣化を引き起こすという問題がある。このような問題を防ぐにためは、基本周波数などの韻律に関する情報をクラスタリング情報を作成する際に利用する必要がある。
図12は、音声スペクトル情報および韻律情報を含む特徴ベクトルの例を示す図である。(12a)はM+1次の音声スペクトル情報(ケプストラムc(0)〜c(M))に加えて、対数基本周波数(F0)、波形パワーのlog値(power)、音素継続時間長(duration)の3つの韻律情報を持った特徴ベクトルの例である。また、(12b)は、(12a)に加え、それぞれのデルタ係数を持った特徴ベクトルである。なお、継続時間長は音素の継続時間長を用いればよい。なお、F0、power、durationの全てを用いることは必須ではない。例えば、powerを用いる場合にはc(0)は用いないなど、この中の任意の組み合わせを用いてもよいし、他の韻律情報を用いてもよい。また、無声音に対するF0の値は、−1などの特別な値を用いてもよいし、無声音に対してはF0を用いない(すなわち有声音に対して次元数が少なくなる)などとしてもよい。
以下では、このような韻律情報を含む特徴ベクトルで構成される素片データについて、第1の実施形態、すなわち、セントロイド素片を生成しこれを代表素片とする方法、への適用、ならびに、第2の実施形態、すなわち、各クラスタに含まれる素片集合から代表素片を選択する方法、への適用をそれぞれ検討する。
まず、第1の実施形態への適用について説明する。図13は、本実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図5に示したフローと同様である。ただし、ステップS502で用いられるクラスタリング情報は韻律情報を考慮して作成されたクラスタリング情報1301である点が異なっている。
図14は、セントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップS501に代えて、音声スペクトル情報と韻律情報を特徴量に含む学習用音声素片1401を読み込み(ステップS1401)、次のステップS502では、この学習用音声素片1401に対して音韻環境クラスタリングを行う。図13との違いは、ステップS501に代わるステップS1401が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。
次に、第2の実施形態への適用について説明する。図15は、本実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図9に示したフローと同様である。ただし、ステップS501で用いられる更新前素片セットは韻律情報が付与された素片セット1506である点、ステップS502で用いられるクラスタリング情報は韻律情報を考慮して作成されたクラスタリング情報1507である点、ステップS903で用いられるクラスタ統計量は韻律情報を含んだクラスタ統計量1508である点が異なっている。
図16は、本実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップS501に代えて、音声スペクトル情報と韻律情報を特徴量に含む学習用音声素片1606を読み込み(ステップS1601)、次のステップS502では、この学習用音声素片1606に対して音韻環境クラスタリングを行う。図15との違いは、ステップS501に代わるS1601が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。
以上説明した第5の実施形態によれば、基本周波数などの韻律に関する情報をクラスタリングする際に利用するため、例えば、男性の母音の素片が女性の母音の素片と共有されてしまうという不都合を回避することができる。
(第6の実施形態)
上述の各実施形態は、明記はしなかったものの、基本的には素片セットが1言語であることを想定したものであった。しかし、本発明はこれに限らず、複数言語からなる素片セットに対しても適用が可能である。
図20は、本実施形態における素片セット作成プログラム104aのモジュール構成を示すブロック図である。
図2と対比すると分かるように、図20に示された構成は、図2の構成に音素ラベル変換部209および韻律ラベル変換部210が付加された構成である。音素ラベル変換部209は、各言語で定義されている音素ラベルセットを一種類の音素ラベルセットに変換する。韻律ラベル変換部210は、各言語で定義されている韻律ラベルセットを一種類の韻律ラベルセットに変換する。
以下の説明では、音素ラベル変換部209と韻律ラベル変換部210を両方用いた場合について説明するが、韻律ラベルを考慮しない音声素片を用いる場合には、音素ラベル変換部209のみを用いた処理を行えばよい。
図21は、日本語、英語、中国語の3言語に関する音素ラベル変換規則の例である。ここでは第一列に変換前の音素ラベルおよびその言語を記し、第二列に変換後の音素ラベルを記している。このような音素ラベルの変換規則は、人手によって作成してもよいし、音声スペクトル情報の類似度など物理的な基準に従って作成してもよい。また、この例では、前後の音素環境を考慮していないが、前後の音素環境を考慮したより詳細な音素ラベル変換を行ってもよい。
図22は、日本語、英語、中国語の3言語に関する韻律ラベル変換規則の例である。ここでは第一列に変換前の韻律ラベルおよびその言語を記し、第二列に変換後の韻律ラベルを記している。これらの韻律ラベル変換規則は、高品質な音声合成を行うために、例えば、日本語の場合はアクセント核の有無を、英語の場合はストレスレベルの違いを、中国語の場合は四声に依存した素片セットを、利用する場合がある。こういった複数言語の素片セットに対して、本発明を適用するためには、アクセント核、ストレス、四声といった異なる韻律情報を共通の韻律情報へ変換する必要がある。図22の例では、日本語のアクセント核があるもの、英語の第一ストレス、中国語の第2声と第4声をそれぞれ共通の韻律ラベル「P(Primary)」に変換、以下同様にS、Nの合計3種類の韻律ラベルに変換している。これらの韻律ラベルの変換規則は、人手によって作成してもよいし、韻律情報の類似度など物理的な基準に従って作成してもよい。また、この例では、前後の韻律環境を考慮していないが、前後の韻律環境を考慮したより詳細な韻律ラベル変換を行ってもよい。
以下では、このような韻律情報を含む特徴ベクトルで構成される素片データについて、第1の実施形態、すなわち、セントロイド素片を生成しこれを代表素片とする方法、への適用、ならびに、第2の実施形態、すなわち、各クラスタに含まれる素片集合から代表素片を選択する方法、への適用をそれぞれ検討する。
まず、第1の実施形態への適用について説明する。図3は、本実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図5に示したフローと同様である。ただし、更新前の素片セットは音素ラベルおよび韻律ラベル変換された複数言語の素片セット2306を用いる点、ステップS502で使用されるクラスタリング情報は音素ラベルおよび韻律ラベル変換されたクラスタリング情報2307を用いる点が異なっている。
図24は、セントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップS501に代えて、複数言語の学習用音声素片2406を読み込み(ステップS2401)、次のステップS502では、この学習用音声素片2406に対して音韻環境クラスタリングを行う。図23との違いは、ステップS501に代わるステップS2401が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。
次に、第2の実施形態への適用について説明する。図25は、本実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。この処理フローは基本的に図9に示したフローと同様である。ただし、更新前の素片セットは音素ラベルおよび韻律ラベル変換された複数言語の素片セット2306を用いる点、ステップS502で使用されるクラスタリング情報は音素ラベルおよび韻律ラベル変換されたクラスタリング情報2307を用いる点が異なっている。
図26は、本実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。ここでは、まず、ステップS501に代えて、複数言語の学習用音声素片2406を読み込み(ステップS2601)、次のステップS502では、この学習用音声素片2606に対して音韻環境クラスタリングを行う。図25との違いは、ステップS501に代わるS2601が、素片セットを対象とした処理ではなく、学習用音声素片全体に対する処理となっている点である。
また、音韻環境として音素環境と韻律環境を考慮した複数言語の素片セットに対してクラスタリングを行う際に用いられる決定木の例を、図27に示す。
以上の第6の実施形態により、音韻環境として音素環境と韻律環境を考慮することで、複数言語の素片セットに対しても本発明を適用できることが示された。
(第7の実施形態)
上述の実施形態では、各クラスタに属する素片集合からセントロイド素片を生成する、あるいは、素片集合の中からクラスタに対する適合度が高い代表素片を選択する、ことによって代表素片を決定していた。すなわち、これらの方法においては、各クラスタ内の素片集合もしくはクラスタ統計量のみを用いて代表素片が決定されており、各クラスタが接続し得るクラスタ群もしくはそのクラスタ群に属する素片集合群に対する適合度が考慮されていない。しかし、これについては、以下の2通りの方法によって考慮することが可能となる。
第1の方法は、あるクラスタ(「クラスタ1」とする。)に属するトライフォンが、「i−a+b」と「e−a+b」であったとする。このとき、クラスタ1の前に接続し得るトライフォンは「*−*+i」もしくは「*−*+e」であり、また、クラスタ1の後に接続し得るトライフォンは「b−*+*」である。このとき、「i−a+b」の前に「*−*+i」および「*−*+e」が接続し、「i−a+b」の後に「b−*+*」が接続する場合の適合度と、「e−a+b」の前に「*−*+i」および「*−*+e」が接続し、「e−a+b」の後に「b−*+*」が接続する場合の適合度を求め、この2つの適合度を比較し、高い方を代表素片とすることができる。ここで適合度としては、例えば、接続点におけるスペクトル歪などを用いることができる(スペクトル歪が大きいほど適合度は低い)。接続点におけるスペクトル歪を考慮した代表素片の選択の方法としては、他にも特開2001−282273号公報に開示されている方法などを用いることによって求めることが可能である。
第2の方法は、上記第1の方法のように「i−a+b」もしくは「e−a+b」とこれに接続し得る素片集合群との適合度を求めるのではなく、これに接続し得る素片集合群が属するクラスタ群のクラスタ統計量に対して適合度を求めるものである。具体的には、「i−a+b」の適合度(S1)を「*−*+i」および「*−*+e」が属するクラスタ群に対する「i−a+b」の適合度(S11)と「b−*+*」が属するクラスタ群に対する「i−a+b」の適合度(S12)の和として求める(S1=S11+S12)。同様に、「e−a+b」の適合度(S2)を「*−*+i」および「*−*+e」が属するクラスタ群に対する「e−a+b」の適合度(S21)と「b−*+*」が属するクラスタ群に対する「e−a+b」の適合度(S22)の和として求める(S2=S21+S22)。次に、S1とS2を比較し、高い方を代表素片とすることができる。ここで適合度としては、例えば、各クラスタ群の統計量に対する接続点における素片集合の特徴パラメータの尤度として求めることができる(尤度が高いほど適合度が高い)。
なお、前述の例では、「i−a+b」と「e−a+b」の適合度を単純に比較していたが、より精密には、接続し得る素片数やクラスタ数に応じて正規化(重み付け)する方が望ましい。
(第8の実施形態)
これまで説明してきた各実施形態では、音韻環境にはトライフォンもしくは話者に関する情報を用いて説明したが、本発明はこれに限らず、他にも、音素や音節に関するもの(ダイフォンなど)、話者の性別(男性、女性)に関するもの、話者の年齢層(子供、学生、成人、高齢者など)に関するもの、話者の声質(明るい、暗いなど)に関するもの、話者の方言(関東方言、関西方言など)や言語(日本語、英語など)に関するもの、素片の韻律的特徴(基本周波数、継続時間長、パワーなど)に関するもの、素片の品質(SN比など)に関するもの、素片を収録した際の環境(収録場所やマイクロフォンなど)に関するものの任意の組み合わせに対しても適用可能である。
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
実施形態における素片セット作成装置のハードウェア構成を示すブロック図である。 第1の実施形態における素片セット作成プログラムのモジュール構成を示すブロック図である。 第1の実施形態における音韻環境を考慮したクラスタリングに用いられる決定木の例を示す図である。 第1の実施形態における音韻環境を考慮したクラスタリングに用いる決定木を作成する処理を示すフローチャートである。 第1の実施形態におけるセントロイド素片生成法による素片作成処理を示すフローチャートである。 パラメータ合成方式におけるセントロイド素片の生成方法を説明する図である。 波形編集方式におけるセントロイド素片の生成方法を説明する図である。 第2の実施形態におけるクラスタ統計量を生成する処理を示すフローチャートである。 第2の実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。 パラメータ合成方式における代表素片の選択方法を示す説明図である。 第1の実施形態における更新前の素片セットと更新後の素片セットの一例を示す図である。 第5の実施形態における音声スペクトル情報および韻律情報を含む特徴ベクトルの例を示す図である。 第5の実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。 第5の実施形態におけるセントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。 第5の実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。 第5の実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。 第4の実施形態における音韻環境として音素環境および話者を考慮したクラスタリングを行う際に用いられる決定木の例を示す図である。 第4の実施形態における更新前の素片セットと更新後の素片セットの一例を示す図である。 第6の実施形態における素片セット作成プログラムのモジュール構成を示すブロック図である。 第6の実施形態における音素ラベル変換規則の例を示す図である。 第6の実施形態における韻律ラベル変換規則の例を示す図である。 第6の実施形態におけるセントロイド素片生成法による素片セット作成処理を示すフローチャートである。 第6の実施形態におけるセントロイド素片生成法による素片セット作成処理の変形例を示すフローチャートである。 第6の実施形態における代表素片選択法による素片セット作成処理を示すフローチャートである。 第6の実施形態における代表素片選択法による素片セット作成処理の変形例を示すフローチャートである。 第6の実施形態における音韻環境として音素環境と韻律環境を考慮した複数言語の素片セットに対してクラスタリングを行う際に用いられる決定木の例を示す図である。

Claims (3)

  1. 複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成方法であって、
    前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換ステップと、
    前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第1の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリングステップと、
    前記クラスタリングステップで得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成ステップであって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成ステップと、
    各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第1の素片セットから削除することにより、前記第1の素片セットよりも素片数が削減された第2の素片セットを作成する作成ステップと、
    を有することを特徴とする素片セット作成方法。
  2. 複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成装置であって、
    前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換手段と、
    前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第1の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリング手段と、
    前記クラスタリング手段で得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成手段であって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成手段と、
    各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第1の素片セットから削除することにより、前記第1の素片セットよりも素片数が削減された第2の素片セットを作成する作成手段と、
    を有することを特徴とする素片セット作成装置。
  3. 請求項1に記載の素片セット作成方法をコンピュータに実行させるためのプログラム。
JP2004268714A 2004-09-15 2004-09-15 素片セット作成方法および装置 Expired - Fee Related JP4328698B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004268714A JP4328698B2 (ja) 2004-09-15 2004-09-15 素片セット作成方法および装置
US11/225,178 US7603278B2 (en) 2004-09-15 2005-09-14 Segment set creating method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004268714A JP4328698B2 (ja) 2004-09-15 2004-09-15 素片セット作成方法および装置

Publications (2)

Publication Number Publication Date
JP2006084715A JP2006084715A (ja) 2006-03-30
JP4328698B2 true JP4328698B2 (ja) 2009-09-09

Family

ID=36100358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004268714A Expired - Fee Related JP4328698B2 (ja) 2004-09-15 2004-09-15 素片セット作成方法および装置

Country Status (2)

Country Link
US (1) US7603278B2 (ja)
JP (1) JP4328698B2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8412528B2 (en) * 2005-06-21 2013-04-02 Nuance Communications, Inc. Back-end database reorganization for application-specific concatenative text-to-speech systems
JP2007286198A (ja) * 2006-04-13 2007-11-01 Toyota Motor Corp 音声合成出力装置
JP4241762B2 (ja) 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム
US8386232B2 (en) * 2006-06-01 2013-02-26 Yahoo! Inc. Predicting results for input data based on a model generated from clusters
JP4878538B2 (ja) * 2006-10-24 2012-02-15 株式会社日立製作所 音声合成装置
US20100167244A1 (en) * 2007-01-08 2010-07-01 Wei-Chou Su Language teaching system of orientation phonetic symbols
US20080195381A1 (en) * 2007-02-09 2008-08-14 Microsoft Corporation Line Spectrum pair density modeling for speech applications
WO2008102710A1 (ja) * 2007-02-20 2008-08-28 Nec Corporation 音声合成装置及び方法とプログラム
US9251782B2 (en) 2007-03-21 2016-02-02 Vivotext Ltd. System and method for concatenate speech samples within an optimal crossing point
BRPI0808289A2 (pt) * 2007-03-21 2015-06-16 Vivotext Ltd "biblioteca de amostras de fala para transformar texto em falta e métodos e instrumentos para gerar e utilizar o mesmo"
US20100311021A1 (en) * 2007-10-03 2010-12-09 Diane Joan Abello Method of education and educational aids
WO2009069596A1 (ja) * 2007-11-28 2009-06-04 Nec Corporation 音声合成装置、音声合成方法及び音声合成プログラム
JP5198046B2 (ja) * 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
JP2009186820A (ja) * 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
WO2011059800A1 (en) * 2009-10-29 2011-05-19 Gadi Benmark Markovitch System for conditioning a child to learn any language without an accent
JP5320363B2 (ja) * 2010-03-26 2013-10-23 株式会社東芝 音声編集方法、装置及び音声合成方法
JP5449022B2 (ja) * 2010-05-14 2014-03-19 日本電信電話株式会社 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
JP5411837B2 (ja) * 2010-11-26 2014-02-12 日本電信電話株式会社 音響モデル作成装置、音響モデル作成方法、及びそのプログラム
US9037458B2 (en) 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US20130006633A1 (en) * 2011-07-01 2013-01-03 Qualcomm Incorporated Learning speech models for mobile device users
US8751236B1 (en) * 2013-10-23 2014-06-10 Google Inc. Devices and methods for speech unit reduction in text-to-speech synthesis systems
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN110085209B (zh) * 2019-04-11 2021-07-23 广州多益网络股份有限公司 一种音色筛选方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
CA1261472A (en) * 1985-09-26 1989-09-26 Yoshinao Shiraki Reference speech pattern generating method
JP2583074B2 (ja) 1987-09-18 1997-02-19 日本電信電話株式会社 音声合成方法
US5689618A (en) * 1991-02-19 1997-11-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
JPH08263520A (ja) 1995-03-24 1996-10-11 N T T Data Tsushin Kk 音声ファイル構成方式及び方法
JP3275940B2 (ja) 1995-09-26 2002-04-22 日本電信電話株式会社 音声合成用合成単位作成方法
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JPH09281993A (ja) 1996-04-11 1997-10-31 Matsushita Electric Ind Co Ltd 発音記号生成装置
JP3884856B2 (ja) 1998-03-09 2007-02-21 キヤノン株式会社 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US6036496A (en) * 1998-10-07 2000-03-14 Scientific Learning Corporation Universal screen for language learning impaired subjects
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
JP2001092481A (ja) 1999-09-24 2001-04-06 Sanyo Electric Co Ltd 規則音声合成方法
JP4632384B2 (ja) 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US6985861B2 (en) * 2001-12-12 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for combining subword recognition and whole word recognition of a spoken input
JP4064748B2 (ja) 2002-07-22 2008-03-19 アルパイン株式会社 音声発生装置、音声発生方法及びナビゲーション装置
JP2004252316A (ja) 2003-02-21 2004-09-09 Canon Inc 情報処理装置および情報処理方法ならびにプログラム、記憶媒体

Also Published As

Publication number Publication date
US20060069566A1 (en) 2006-03-30
US7603278B2 (en) 2009-10-13
JP2006084715A (ja) 2006-03-30

Similar Documents

Publication Publication Date Title
JP4328698B2 (ja) 素片セット作成方法および装置
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
US20230058658A1 (en) Text-to-speech (tts) processing
Tokuda et al. An HMM-based speech synthesis system applied to English
US7418389B2 (en) Defining atom units between phone and syllable for TTS systems
US20200410981A1 (en) Text-to-speech (tts) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US9484012B2 (en) Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
CN1167307A (zh) 用于语音合成的运行时声频单元选择方法和系统
JP2002530703A (ja) 音声波形の連結を用いる音声合成
WO2012164835A1 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
Panda et al. An efficient model for text-to-speech synthesis in Indian languages
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP3281281B2 (ja) 音声合成方法及び装置
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2011197124A (ja) データ作成システム及びプログラム
EP1589524B1 (en) Method and device for speech synthesis
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
EP1640968A1 (en) Method and device for speech synthesis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees