JP2008191334A

JP2008191334A - 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム

Info

Publication number: JP2008191334A
Application number: JP2007024563A
Authority: JP
Inventors: Takashi Miki; 敬三木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2007-02-02
Filing date: 2007-02-02
Publication date: 2008-08-21

Abstract

【課題】自動ラベリングのような低コストなラベリング手法を採用しつつ高品質な合成音声を得る。
【解決手段】音韻情報に基づき音声合成を行うために必要な音声素片を音声コーパスより探索する素片探索ステップと、素片探索ステップで得られた音声素片の適合度を評価する評価ステップと、評価ステップで得られた最適な音声素片を用いて音声合成を行う合成ステップと、を有し、素片探索ステップは、音声コーパスが格納している音声素片を選択する素片選択ステップと、音声素片同士を接続する際の最適接続点を探索する接続点探索ステップと、をさらに有し、評価ステップにおいて、素片選択ステップで選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、素片探索ステップと評価ステップを繰り返し実行する。
【選択図】図５

Description

本発明は、コーパスベースの音声合成方法、そのプログラム、その装置、及びその装置を用いた音声合成システムに関するものであり、特に、音声素片の選択と素片接続点の最適化に関するものである。

従来、『ラベルの位置情報の誤りによる悪影響を減らし、モデルとなる音韻情報の音声波形信号を基に自然な合成音声を得る音声合成システムを提供する。』ことを目的とした技術として、『入力部１０から音声合成する音韻情報を入力する。モデル辞書２０は複数のモデル音韻情報と対応するモデル音声波形信号を持つ。音韻単位決定部３０は音韻情報とモデル辞書２０のモデル音韻情報とを比較し、音韻単位を決定する。合成単位決定部４０は音韻単位から合成単位を決定する。合成単位に隣接する音素間で音響的性質が同質なものをまとめたもの、例えば、母音、半母音、長母音、鼻音のなどの組み合わせ又は無声化母音と摩擦音の組み合わせを設定する。重畳部６０はモデル辞書から合成単位の音声波形信号を取り出し、それらを順次重畳して音韻情報全体の音声波形信号を生成する。』というものが提案されている（特許文献１）。
また、『音声合成のための音声素片の連続性に応じて、これまでより高品質な合成音声を提供可能な音声合成方法及びその装置を実現すること。』ことを目的とした技術として、『言語を構成する様々な単位の音声素片を含む音声コーパスを格納したデータベース１からＤＢ検索部２により、入力されたテキスト中の前記単位毎に合成に使用可能な音声素片を検索し、音声素片選択部３により、該検索したテキスト中の前記単位毎の音声素片の中から、各音声素片の連続性の尺度に応じて音声素片を選択するための規則を変更して最適な音声素片を選択し、合成部４により、選択したテキスト中の各単位に対応する音声素片から音声を合成する。』というものが提案されている（特許文献２）。
また、『２つの音声素片を接続する際に、最適な接続位置を検出し、この検出された接続位置で当該２つの音声素片の接続を行い合成音声の高品位化を図る。』ことを目的とした技術として、『音声合成すべき情報に基づいて選択された音声素片（５０１）を接続するにおいて、接続すべき２つの音声素片の境界付近において、両音声素片間の対応を動的計画法を用いて決定する。そして、決定された両音声素片間の対応から、最小距離の対応（５０３）を検出し、この位置を当該両音声素片の接続位置とする。また、音声素片の区切り位置として、後にくる音声素片上において、前にくる音素の終端部に対応する位置（５０４）が決定される。こうして接続された音声素片と、決定された区切り位置に基づいて合成音声が生成される。』というものが提案されている（特許文献３）。

特開２００３−２０２８８３号公報（要約）特開２００５−３２１６３０号公報（要約）特開平１１−２５９０９１号公報（要約）

通例、音声合成の処理過程では、適切な長さの音声素片（以下、「素片」と呼ぶ場合もある）あるいは部分的な音声波形を連結させて、所望の合成音声を生成する。従って、素片の作成品質は合成音声の品質を左右するものであり、素片の品質を確保することは、高品質な音声合成には欠かせない。

素片の品質を確保するには、高精度な音素切り出しが不可欠である。
音素切り出し処理は、例えばある音声のテキストと波形等の情報を参照しながら、人間がその音声を聴取して所望の素片に切り分け、その切り分け箇所をマークする（ラベリング）という、手動ラベリング作業により行われることがある。
この手動ラベリング作業は非常に手間がかかり高コストとなるので、低コストかつ高精度なラベリング手法が望まれている。例えば、音声認識などを使った自動ラベリングは低コストであるが、音声認識誤りに起因する切り出し誤りがあるなど、未だ高精度なラベリングは困難である。

音素の切り出し誤りに関する課題を解決するため、特許文献１に記載の技術では、素片接続箇所自体を減らすというアプローチをとり、より大きな素片単位を用いて音声合成を行っている。
しかし、合成単位を拡大するため、合成単位の数が幾何級数的に増大し、音声合成に必要な音声素片を収集するコストが増大する。また、素片辞書のサイズもこれにともなって増大し、そのコストも無視できない。

また、特許文献２に記載の技術は、所望の合成音声に適する素片の探索は行っているものの、素片の接続点については考慮していない。一方、特許文献３に記載の技術は、素片の最適接続点の探索は行っているが、素片自体の適合度については評価していない。
合成音声の品質は、素片自体の品質と素片接続点の双方に影響されるため、これらの一方のみを評価する手法では、必ずしも品質の良い合成音声が得られるわけではない。

以上のように、例えば自動ラベリングのような低コストなラベリング手法を採用しつつ高品質な合成音声を得ることが課題となっており、これを解決することのできる音声合成方法、音声合成プログラム、及び音声合成装置が望まれていた。

本発明に係る音声合成方法は、
音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
合成する音声の音韻情報を受け取るステップと、
前記音韻情報に基づき音声合成を行うために必要な音声素片を前記音声コーパスより探索する素片探索ステップと、
前記素片探索ステップで得られた音声素片の適合度を評価する評価ステップと、
前記評価ステップで得られた最適な音声素片を用いて音声合成を行う合成ステップと、
を有し、
前記素片探索ステップは、
前記音声コーパスが格納している音声素片を選択する素片選択ステップと、
音声素片同士を接続する際の最適接続点を探索する接続点探索ステップと、
をさらに有し、
前記評価ステップにおいて、
前記素片選択ステップで選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、
前記素片探索ステップと前記評価ステップを繰り返し実行することにより、
前記音声コーパスが格納している最適な音声素片と、それらの最適な接続点との組み合わせを得て、前記合成ステップで音声合成を行う
ことを特徴とするものである。

本発明に係る音声合成方法によれば、音声素片自体の品質と素片接続点を総合的に評価し、これらの最適な組み合わせが得られるので、音素切り出し時に切り出し誤りがあっても、その影響を低減し、高品質な合成音声を得ることができる。

実施の形態１．
図１は、本発明の実施の形態１に係る音声合成装置１００の機能ブロック図である。
音声合成装置１００は、入力部１０１、素片探索部１０２、音声コーパス１０３、評価部１０４、合成部１０５を備える。
入力部１０１は、音声合成の対象となる音韻情報系列１１０を入力として受け取り、素片探索部１０２に出力する。
素片探索部１０２は、音韻情報系列１１０に基づき音声合成を行うために必要な音声素片を音声コーパス１０３から探索する。
音声コーパス１０３は、音声合成を行うために必要な音声素片の集合を格納している。
評価部１０４は、素片探索部１０２が音声コーパス１０３から探索した音声素片の適合度を評価する。評価は、音韻情報系列１１０と探索した素片の音響的距離を算出する方法などにより行う。評価方法の詳細については後述する。
合成部１０５は、評価部１０４により最適である旨の評価を得た音声素片を用いて音声合成を行い、音声１２０を出力する。出力形式は、スピーカーのような音声出力デバイスを介してもよいし、音声波形データまたは信号を出力するようにしてもよい。

素片探索部１０２は、素片選択部１０６と接続点探索部１０７をさらに備える。
素片選択部１０６は、音声コーパス１０３が格納している音声素片の中から１つを選択する。選択の基準は、探索手法により異なる。詳細は後述する。
接続点探索部１０７は、素片選択部１０６が選択した音声素片を、既に選択済みの音声素片に接続する際の、最適な接続点を探索する。詳細は後述の図２〜図４で説明する。

素片探索部１０２、評価部１０４、合成部１０５、素片選択部１０６、及び接続点探索部１０７は、回路デバイスのようなハードウェアで構成することもできるし、ＣＰＵやマイコンのような演算装置により実行されるソフトウェアとして構成することもできる。
入力部１０１は、音韻情報系列１１０の形式に応じて適切な構成とする。例えば音韻情報系列１１０がテキストなどのデータであるときは、ＬＡＮインターフェースのようなネットワークインターフェースで構成することができる。また、音韻情報系列１１０が信号列であるときは、その信号形式に応じたコネクタなどのインターフェースで構成することができる。
音声コーパス１０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような比較的容量の大きい記憶装置に音声素片データを格納することにより、構成することができる。

次に、音声合成装置１００の動作説明に先立ち、素片同士の接続点の探索方法を図２を用いて、説明する。

図２は、接続点探索部１０７が音声素片同士の接続点を探索する方法を説明するものである。
図２において、「ターゲット音韻情報系列」とは、合成しようとしている音声の音韻情報である。例えば「沖」という音声を合成しようとしている場合は、「ｏｋｉ」という情報のことである。
なお、「ターゲット音韻情報系列」は、時系列に沿って分割して処理されるため、図２では「ターゲット音韻情報系列」の時刻ｔにおける要素（以下、音韻情報と呼ぶ）を「Ｍｔ」と表し、「ターゲット音韻情報」としている。ここで、音韻情報は、音韻カテゴリ情報（例、ａ、ｉ、ｕ、ｅ、ｏ）と、音響的特徴時系列（例：ケプストラム係数、Ｆ０（ピッチ周期）で構成されている。
素片Ｖｉ及びＶｊは、音声コーパス１０３に格納されている個々の音声素片である。例えば、「（＊）ｏ（ｋ）」「（ｏ）ｋ（ｉ）」「（ｋ）ｉ（＊）」といった音声素片がＶｉやＶｊの候補となる。音声素片には音韻カテゴリ毎に整理おり、通常は「ターゲット音韻情報」が与えられた場合、その音韻カテゴリに一致する音声素片（複数存在する）群が素片候補として、選択される。

ターゲット音韻情報系列に相当する最適な合成音声を得るためには、好適な音声素片を音声コーパス１０３から探索することはもちろんであるが、探索した音声素片同士を接続する最適なポイントを探索することも重要である。
接続点における素片間のつながりが歪んでいると、人間がその合成音声を聴取した場合に、話している内容は理解できるが、ぎこちない音声に聞こえてしまう、といったことが起こり得る。そのため、探索した素片の最適な接続点を求めることは、高品質な合成音声を得るために欠かせない。

図２では、素片Ｖｉと素片Ｖｊの予め定められた接続可能範囲の例と、素片ＶｉのＫ＝ｋ、と素片ＶｊのＬ＝ｌで接続した場合の接続素片Ｗ（ｉ，ｊ，ｋ，ｌ）を示す。

次に、接続素片Ｗ（ｉ，ｊ，ｋ，ｌ）と音韻情報Ｍｔと音韻情報Ｍｔ＋１との整合コストを計算する。整合コストの計算にはＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングという手法がしばしば用いられている。以下に、ＤＰマッチングの手順の１例を図３を使って、簡単に示す。

（１）音韻情報Ｍｔの先頭と接続素片Ｗ（ｉ，ｊ，ｋ，ｌ）の先頭を開始点（左上隅）、音韻情報Ｍｔ＋１の終端と接続素片Ｗ（ｉ，ｊ，ｋ，ｌ）の終端を終着点（右下隅）とする。
（２）ＤＰ平面の左下隅から右上隅までの経路で、最も整合コストが小さくなる経路とそのときの整合コストＭＣｔ，ｔ＋１（ｉ，ｊ，ｋ，ｌ）を動的計画法（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）により求める。
ここで、開始点（左上隅）、終着点（右下隅）の片方、あるいは両方をフリーにした端点フリー型のＤＰマッチングを用いてもよい。

以上のような手順により、素片ＶｉとＶｊを接続点Ｋ＝ｋ、Ｌ＝ｌで接続した場合の整合コストＭＣｔ，ｔ＋１（ｉ，ｊ，ｋ，ｌ）が求められる。素片ＶｉやＶｊを切り出す際に、正確な境界が与えられていれば、接続点Ｋ＝ＶＮｉと、Ｌ＝１でよいとも考えられる。しかし、素片ＶｉやＶｊを切り出す際に、切り出し誤りが含まれていた場合、このような固定の接続点が最適な接続点であるとは限らない。

そこで、接続点探索部１０７は、図２に示す接続可能範囲中の全ての接続点の組み合わせに対して、整合コストＭＣｔ，ｔ＋１（ｉ，ｊ，ｋ，ｌ）を計算し、その値が最小となる最適接続点ＪＰｔ，ｔ＋１（ｉ，ｊ）を決定する。ここで最小整合コストをＴＣ’ｔ，ｔ＋１（ｉ，ｊ）とすると、

となる。また、ＴＣｔ（ｉ，ｊ）が最小値となる接続点を最適接続点ＪＰ’ｔ，ｔ＋１（ｉ，ｊ）とすると、

実際には、上記の整合コストに加えて、さらに素片Ｖｉ、Ｖｊの接続点Ｋ＝ｋ、Ｌ＝ｌで接続する際に生じる連続性のズレ、すなわち接続ずれコストＣＣ（ｉ，ｊ，ｋ，ｌ）を考慮する。
仮に、素片Ｖｉ、Ｖｊが適切に選択され、合成音声全体としてはターゲット音韻情報１１０とのズレが小さい場合であっても、素片同士の接続点が適切でない場合には、接続点に歪みが生じ、聴取した際にぎこちなく聞こえる場合がある。本値は、このような接続点におけるズレを評価するものである。

次に、ＣＣ（ｉ，ｊ，ｋ，ｌ）の具体的な算出方法について、図４を用いて、説明する。
接続点Ｋ＝ｋ、Ｌ＝ｌにおける連続性の評価をするためには、Ｖｉのｋ番目の音響パラメータや韻律的パラメータと、Ｖｊのｌ番目の各々のパラメータとの連続性を評価すればよい。例えば、以下のような方法が考えられる。
（１）接続点の両側の差分
接続点の両側の差分が小さければ、接続点が急峻でないため、連続性が高いといえる。両側の差分が大きければ、接続点の両側での変化が急峻であるため、連続性が低いといえる。
（２）接続点近傍の時間軸上の微分
接続点近傍の時間微分は、その接続点における変化の度合いを表すので、接続点近傍における変化の度合いを判断するのに適している。さらには、高次微分の値を判断に用いてもよい。

以上をまとめると、素片ＶｉとＶｊを接続点Ｋ＝ｋ、Ｌ＝ｌで接続した場合の整合コストＭＣｔ，ｔ＋１（ｉ，ｊ，ｋ，ｌ）に接続ずれコストＣＣ（ｉ，ｊ，ｋ，ｌ）をある割合Ｗｃｃで加えた値で接続点を決定すればよいことが分かる。従って、最小整合コストをＴＣｔ，ｔ＋１（ｉ，ｊ）とすると、

となる。また、ＴＣｔ（ｉ，ｊ）が最小値となる接続点を最適接続点ＪＰｔ，ｔ＋１（ｉ，ｊ）とすると、

となる。
Ｗｃｃは、接続点におけるズレをどの程度許容するかを表す重み値である。この値が小さいほど、接続点におけるズレを許容することを意味する。

以上説明した、ＭＣｔ，ｔ＋１（ｉ，ｊ，ｋ，ｌ）及びＣＣ（ｉ，ｊ，ｋ，ｌ）の具体的な算出方法は、例を示したものである。本発明におけるこれらの算出方法は、上述のものに限られるものではなく、適宜好適なパラメータや算出方法を用いることができる。

ここまで、接続点の探索について説明したが、最適な接続点は、素片Ｖｉ、Ｖｊの内容によっても異なる。
そこで、（１）素片選択部１０６が音声コーパス１０３から、「ターゲット音韻情報」の音韻カテゴリに一致する音声素片（複数存在する）群から素片を選び、（２）接続点探索部１０７がその素片についての最適接続点を求める、という処理を繰り返し実行し、音声コーパス１０３が格納している素片とその接続点の最適な組み合わせを得ることができる。
素片とその接続点の評価は、先に説明した式（３）により行えばよい。
本実施の形態１に係る音声合成装置１００は、上述のように、素片探索と接続点の探索をともに行うものである。

これまで、本発明の基本的な概念について説明した。次に、音声合成装置１００の全体動作について、図５を用いて説明する。

図５は、本実施の形態１に係る音声合成装置１００の動作フローである。以下、各ステップについて説明する。

（Ｓ３０１）
入力部１０１は、音韻情報系列１１０を入力として受け取る。
（Ｓ３０２）：ループ１
素片探索部１０２は、音韻情報系列１１０の先頭から順に音韻情報を１個取り出す。この音韻情報に基づき、音声コーパス１０３が格納している素片群から音声合成を行うために最適な音声素片を、以下のステップにより探索する。探索処理は、公知の探索アルゴリズムを用い、あらかじめ定められた回数または時間、繰り返し探索を行う。
（Ｓ３０３）
素片選択部１０６は、音韻情報に最も適合する音声素片を音声コーパス１０３より選択する。
このとき、全くのランダムに素片を選択し、適合性を検証するのではなく、音韻情報にある程度近い素片を選択することが、時間短縮の観点から望ましい。例えば、音韻情報の音素カテゴリに対応した音声素片群を候補素片群とする、といった方法である。
（Ｓ３０４）：ループ２
ステップＳ３０３で素片選択部１０６が選択した候補素片群の１つ１つの素片に対して、最適な接続点を求める。ここでは、先に説明したように、一定の範囲内で周辺探索を行い、音素切り出し誤りの影響を低減することを図る。
周辺探索の範囲は、接続点の前後の、音素長に対する２０％の長さの範囲内とする。以後のステップは、この周辺探索範囲内を全て網羅するまで、繰り返し実行する。
（Ｓ３０５）
接続点探索部１０７は探索範囲内で、図２のごとく、接続素片を生成する。
（Ｓ３０６）
評価部１０４は、接続点探索部１０７が生成した接続素片と音韻情報系列１１０に対する適合度を、先に説明した式（３）により評価する。
（Ｓ３０７）
ステップＳ３０６で評価した値が、これまでの最高評価値である場合にはステップＳ３０８へ進み、それ以外の場合はループ２を継続する。
（Ｓ３０８）
得られた素片と接続点の組を、図示しないＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶手段に格納して保存する。
（Ｓ３０９）
全ての候補素片群について、その周辺探索範囲を網羅的に探索し、候補素片ループ２を終了する。
（Ｓ３１０）
音韻情報系列１１０の最後まで、ループ１の素片探索を繰り返し実行した後、ループ１を終了する。
（Ｓ３１１）
合成部１０５は、ステップＳ３０８でＲＡＭなどに保存した最良の素片・接続点の組を用いて音声合成を行い、音声１２０を出力する。

なお、ステップＳ３０４において、周辺探索の範囲は、接続点の前後の、音素長に対する２０％の長さの範囲内としたが、これに限られるものではなく、許容される合成音声の品質や演算リソースの余裕などに合わせて、適宜適切な値を設定すればよい。

以上のように、本実施の形態１によれば、音声素片自体の品質と素片接続点を総合的に評価し、これらの最適な組み合わせが得られるので、音素切り出し時に切り出し誤りがあっても、その影響を低減し、高品質な合成音声を得ることができる。

実施の形態２．
図６は、本発明の実施の形態２に係る音声合成装置１００の機能ブロック図である。
本実施の形態２に係る音声合成装置１００は、図１で説明した構成に加えて、新たに統計データベース１０８を備える。
統計データベース１０８は、過去の音声素片同士の接続点の設定結果を、音素ラベル毎に統計処理して格納している。その結果を統計データベースとして蓄積し、音声合成実行時にこれを参照することにより、より高速な処理が実現できる。

具体的には、接続素片を生成する際に、過去の同様な接続素片生成時の最適接続点の中心点を、統計データベース１０８の統計データエントリから検索し、その近傍範囲から最適な接続点を探索する。
仮に、音韻情報の音響的特徴時系列（例：ケプストラム係数、Ｆ０（ピッチ周期）で構成されている）が異なったとしても、素片間の連続性確保の点から、今回の接続点も過去の最適接続点の近傍になると考えられるので、探索開始点の基準とするには適していると言える。

図７は、本実施の形態２に係る音声合成装置１００の動作フローである。以下、各ステップについて説明する。

（Ｓ５０１）〜（Ｓ５０３）
実施の形態１の図５で説明したステップＳ３０１〜Ｓ３０３と同様であるため、説明を省略する。
（Ｓ５０４）
ステップＳ５０３で素片選択部１０６が選択した候補素片群の１つ１つの素片に対して、最適な接続点を求める
統計データベース１０８の統計データエントリから、接続素片（Ｖｉ、Ｖｊ）毎の過去接続点の中心情報を検索する。その接続点を中心に一定の範囲内で周辺探索を行い、最適接続点を探索する。
周辺探索の範囲は、過去接続点の前後の、音素長に対する１０％の長さの範囲内とする。以後のステップは、この周辺探索範囲内を全て網羅するまで、繰り返し実行する。
（Ｓ５０５）〜（Ｓ５１１）
実施の形態１の図５で説明したステップＳ３０５〜Ｓ３１１と同様であるため、説明を省略する。

なお、ステップＳ５０４において、周辺探索の範囲は、過去接続点の前後の、音素長に対する１０％の長さの範囲内としたが、これに限られるものではなく、許容される合成音声の品質や演算リソースの余裕などに合わせて、適宜適切な値を設定すればよい。

以上のように、本実施の形態２によれば、過去の接続統計データを格納した統計データベース１０８を参照することにより、過去の接続点に関する情報を利用することができるので、より探索範囲をしぼることにより、より高速な処理が実現できる。

実施の形態３．
実施の形態１〜２では、最適接続点の探索は、音素長に対する２０％の長さの範囲内とし（実施の形態１）、または統計データベース中の最も近いエントリを参照すること（実施の形態２）とした。
本発明の実施の形態３では、簡易探索と詳細探索の２段階の探索範囲設定を行う。
なお、音声合成装置１００の機能ブロック図は、実施の形態２で説明した図６と同様であるため、説明は省略する。

図８は、本実施の形態３における接続点の探索範囲を説明するものである。
本実施の形態３において、素片探索部１０２は、実施の形態２と同様に、統計データベース１０８の統計データエントリから、接続素片毎に過去の接続点を参照する。

図８（１）は、本実施の形態３における、素片探索部１０２の１回目の探索範囲を示すものである。
素片探索部１０２による１回目の探索は、統計データベース１０８の統計データエントリから、接続素片毎に過去の接続点の中心近傍で行い、素片探索部１０２による２回目以降の探索は、１回目の探索結果を中心として、さらに探索範囲を拡大する。

図８（２）は、本実施の形態３における、素片探索部１０２の追加探索範囲を示すものである。
実施の形態１〜２では、周辺探索を行った結果を、最終的な探索結果としていた。本実施の形態３では、図８（１）で説明した周辺１σの範囲内の探索に加えて、さらに追加の探索を行う。
素片探索部１０２による追加の探索では、図８（１）で周辺１σの範囲内を探索した結果得られた最適接続点を中心として、図８（１）で参照した統計データエントリの周辺２σの範囲内を、さらなる探索範囲とする。

図８（１）（２）において、素片探索部１０２による探索範囲に関し、ＤＰ平面上の探索範囲と統計データ上の探索範囲の対応関係を、概念的に示した。

図９は、本実施の形態３に係る音声合成装置１００の動作フローである。以下、各ステップについて説明する。なお、記載の便宜上、音声合成装置１００が備える各構成は図示を省略した。

（Ｓ７０１）〜（Ｓ７１０）
実施の形態２の図７で説明したステップＳ５０１〜Ｓ５１０と同様であるため、説明を省略する。
（Ｓ７１１）：ループ３
接続点探索部１０７は、これまでの処理で得られた最適な音声素片について、図８（２）で説明したような追加の探索範囲内で、最適な接続点をさらに探索する。
（Ｓ７１２）〜（Ｓ７１６）
ステップＳ７０５〜Ｓ７０９と同様であるため、説明を省略する。
（Ｓ７１７）
合成部１０５は、これまでの処理で得られた最良の素片・接続点の組を用いて音声合成を行い、音声１２０を出力する。

図８（１）（２）において、探索範囲をそれぞれ１σ、２σとしたが、この数値は例示であり、これに限られるものではない。具体的な数値は、許容される合成音声の品質や演算リソースの余裕などに合わせて、適宜適切な値を設定すればよい。

以上のように、本実施の形態３によれば、実施の形態２と同様に、過去の統計データを格納した統計データベース１０８を参照することにより、高速な探索処理画実現でき、さらには２回目の探索処理において、統計上の頻度が少ない周辺部分についても追加の探索範囲としたので、より適切な範囲では接続点の探索を行うことができる。

実施の形態４．
実施の形態１〜２では、音声素片同士の接続点を探索する際に、２回目以降の探索範囲は、接続点の前後の、音素長に対する２０％の長さの範囲内とした。また、実施の形態３では、統計データベース１０８を参照し、統計データ上の所定の範囲内で探索を行うこととした。
一方、音声素片ＶｉやＶｊをラベリングする際に、これらの素片の基となる音声をコンピュータ等により音声認識させ、音素の境界を自動認識させることによる自動ラベリングを行う場合がある。この過程で、自動認識した音素境界の確からしさの度合いが得られるので、これを接続点の探索に利用することができる。
本発明の実施の形態４では、このような自動認識した音素境界に基づき、音声素片同士の接続点を探索する例について説明する。
なお、音声合成装置１００の機能ブロック図は、これまでの実施の形態と同様であるため、説明を省略する。

図２において、素片ＶｉとＶｊの接続点を探索する際に、素片Ｖｉ側の終点Ｋ＝ＶＮｉと、素片Ｖｊ側の始点Ｌ＝１の範囲、即ち最適接続点の探索範囲を決定する必要がある。
このとき、素片ＶｉとＶｊを切り出す際に、上述のように音声認識による自動ラベリングを行っていれば、その過程において、自動認識した音素境界の確からしさの度合いが得られる。例えば、素片ＶｉやＶｊの属する音韻カテゴリにおける音声認識処理での終端点の平均誤差長などを得ることができる。
そこで、素片Ｖｉ側の終点Ｋ＝ＶＮｉと、素片Ｖｊ側の始点Ｋ＝ＶＮｉの範囲を、その平均誤差長の定数倍とすることが考えられる。これは、平均誤差長の定数倍程度の範囲を探索すれば、概ね好適な接続点が得るには十分であろう、という推測に基づくものである。

図１０は、本実施の形態４に係る音声合成装置１００の動作フローである。以下、各ステップについて説明する。なお、ここでは実施の形態１の図５と同様の探索処理を例に説明を行う。

（Ｓ８０１）〜（Ｓ８０３）
実施の形態１の図５で説明したステップＳ３０１〜Ｓ３０３と同様であるため、説明を省略する。
（Ｓ８０４）：ループ２
ステップＳ３０３で素片選択部１０６が選択した素片について、最適な接続点を求める。
周辺探索の範囲は、上述のように、音声認識処理により素片を自動ラベリングした際の平均誤差長の定数倍範囲内とする。以後のステップは、この周辺探索範囲内を全て網羅するまで、繰り返し実行する。
（Ｓ８０５）〜（Ｓ８１１）
実施の形態１の図５で説明したステップＳ３０５〜Ｓ３１１と同様であるため、説明を省略する。

以上のように、本実施の形態４によれば、音声認識処理により自動ラベリングした際に得られる音素境界の確からしさを利用して、接続点の探索範囲を絞り込むことができるので、ラベリング処理が効率的であるのみならず、最適接続点の探索範囲も効率的に設定でき、コスト低減に資する。

実施の形態５．
図１１は、本発明の実施の形態５に係る音声合成システムの構成を示す図である。
図１１の音声合成システムは、素片探索装置９１０と音声出力装置９２０を有し、両者はネットワーク９３０を介して接続されている。
素片探索装置９１０は、入力部９０１、素片探索部９０２、音声コーパス９０３、評価部９０４を有する。素片探索部９０２は、素片選択部９０６、接続点探索部９０７を有する。
これらの機能は、実施の形態１〜４で説明した同名の機能部と同様であるが、素片探索部９０２は、探索した音声素片を出力する替わりに、音声素片とその接続点の探索結果のみを出力する。探索結果は、ネットワーク９３０に出力される。
音声出力装置９２０は、探索結果入力部９０９、音声コーパス９０３、合成部９０５を有する。
探索結果入力部９０９は、ネットワーク９３０を介して、素片探索部９０２が出力した素片と接続点の探索結果を受け取る。
音声コーパス９０３は、素片探索装置９１０が備える音声コーパス９０３と同一の音声素片群を格納している。
合成部９０５は、探索結果入力部９０９が受け取った素片と接続点の探索結果に基づき、音声コーパス９０３が格納している音声素片を用いて音声合成を行い、音声１２０を出力する。

探索結果入力部９０９は、ＬＡＮインターフェースなどのネットワークインターフェースで構成することができる。
合成部９０５は、回路デバイスのようなハードウェアで構成することもできるし、ＣＰＵやマイコンのような演算装置により実行されるソフトウェアとして構成することもできる。

素片探索部９０２が出力するのは、音声素片ではなく、その探索結果のみであるため、素片探索装置９１０と音声出力装置９２０の間でネットワーク９３０を介してその伝送を行っても、音声素片そのものを伝送する場合と比較してデータ伝送量は少なくて済む。
また、音声出力装置９２０は、処理負荷のかかる素片探索処理を実行する必要がないため、ＣＰＵやマイコンなどの演算装置を小型のものにすることができ、軽量化や小型化、低コスト化などに資する。

実施の形態１に係る音声合成装置１００の機能ブロック図である。実施の形態１に係る音声素片同士接続点の範囲設定を説明するものである。実施の形態１に係る接続素片Ｗ（ｉ，ｊ，ｋ，ｌ）と音韻情報列Ｍｔ，Ｍｔ＋１とのＤＰマッチングを説明する図である。実施の形態１に係る接続点Ｋ＝ｋ、Ｌ＝ｌでの接続ずれコストＣＣ（ｉ，ｊ，ｋ，ｌ）を説明する図である。実施の形態１に係る音声合成装置１００の動作フローである。実施の形態２に係る音声合成装置１００の機能ブロック図である。実施の形態２に係る音声合成装置１００の動作フローである。実施の形態３における接続点の探索範囲を説明するものである。実施の形態３に係る音声合成装置１００の動作フローである。実施の形態４に係る音声合成装置１００の動作フローである。実施の形態５に係る音声合成システムの構成を示す図である。

符号の説明

１００音声合成装置、１０１入力部、１０２素片探索部、１０３音声コーパス、１０４評価部、１０５合成部、１０６素片選択部、１０７接続点探索部、１０８統計データベース、１１０音韻情報系列、１２０音声、９０１入力部、９０２素片探索部、９０３音声コーパス、９０４評価部、９０５合成部、９０６素片選択部、９０７接続点探索部、９０９探索結果入力部、９１０素片探索装置、９２０音声出力装置、９３０ネットワーク。

Claims

音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
合成する音声の音韻情報を受け取るステップと、
前記音韻情報に基づき音声合成を行うために必要な音声素片を前記音声コーパスより探索する素片探索ステップと、
前記素片探索ステップで得られた音声素片の適合度を評価する評価ステップと、
前記評価ステップで得られた最適な音声素片を用いて音声合成を行う合成ステップと、
を有し、
前記素片探索ステップは、
前記音声コーパスが格納している音声素片を選択する素片選択ステップと、
音声素片同士を接続する際の最適接続点を探索する接続点探索ステップと、
をさらに有し、
前記評価ステップにおいて、
前記素片選択ステップで選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、
前記素片探索ステップと前記評価ステップを繰り返し実行することにより、
前記音声コーパスが格納している最適な音声素片と、それらの最適な接続点との組み合わせを得て、前記合成ステップで音声合成を行う
ことを特徴とする音声合成方法。
前記接続点探索ステップにおいて、
先行する音声素片の末尾から所定の範囲内、又は接続する音声素片の先頭から所定の範囲内を、前記最適接続点の探索範囲とする
ことを特徴とする請求項１に記載の音声合成方法。
前記素片選択ステップ及び前記評価ステップの前記最適接続点結果を音声素片番号毎に格納した統計データベースを設け、
前記素片選択ステップにおいて音声素片を選択し、又は前記接続点探索ステップにおいて接続点を探索する際に、
前記統計データベースから、前記最適接続点結果の近傍を前記接続点探索ステップにおける探索範囲とする
ことを特徴とする請求項１又は請求項２に記載の音声合成方法。
前記音声合成音を作成した際に選択された前記音声素片とその最適接続点に対して、その探索範囲を拡大して、
前記素片探索ステップないし前記合成ステップを再度実行する
ことを特徴とする請求項３に記載の音声合成方法。
請求項１ないし請求項４のいずれかに記載の音声合成方法をコンピュータに実行させることを特徴とする音声合成プログラム。
音声素片を格納した音声コーパスを用いて音声合成を行う装置であって、
合成する音声の音韻情報を受け取る入力部と、
前記音韻情報に基づき音声合成を行うために必要な音声素片を前記音声コーパスより探索する素片探索部と、
前記素片探索部が得た音声素片の適合度を評価する評価部と、
前記評価部が得た最適な音声素片を用いて音声合成を行う合成部と、
を備え、
前記素片探索部は、
前記音声コーパスが格納している音声素片を選択する素片選択部と、
音声素片同士を接続する際の最適接続点を探索する接続点探索部と、
をさらに備え、
前記評価部は、
前記素片選択部が選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、
前記素片探索部と前記評価部の処理を繰り返し実行することにより、
前記音声コーパスが格納している最適な音声素片と、それらの最適な接続点との組み合わせを得て、前記合成部で音声合成を行う
ことを特徴とする音声合成装置。
前記接続点探索部は、
先行する音声素片の末尾から所定の範囲内、又は接続する音声素片の先頭から所定の範囲内を、前記最適接続点の探索範囲とする
ことを特徴とする請求項６に記載の音声合成装置。
前記素片選択部及び前記評価部の前記最適接続点結果を音声素片番号毎に格納した統計データベースを設け、
前記素片選択部において音声素片を選択し、又は前記接続点探索部において接続点を探索する際に、
前記統計データベースから、前記最適接続点結果の近傍を前記接続点探索部における探索範囲とする
ことを特徴とする請求項６又は請求項７に記載の音声合成装置。
前記音声合成音を作成した際に選択された前記音声素片とその最適接続点に対して、その探索範囲を拡大して、
前記素片探索部、前記合成部は、前記各処理を再度実行することを特徴とする請求項８に記載の音声合成装置。
請求項６ないし請求項９のいずれかに記載の音声コーパス、入力部、素片探索部、及び評価部を備えた素片探索装置と、
前記素片探索部が探索した結果を受け取る探索結果入力部、前記素片探索装置が備えるものと同一の音声コーパス、及び、前記音声コーパスが格納している音声素片のうち前記探索結果入力部が受け取った探索結果に該当するものを用いて音声合成を行う合成部を備えた音声出力装置と、
を有し、
前記素片探索装置と前記音声出力装置はネットワークを介して接続されており、
前記素片探索部は、
音声素片とその接続点の探索結果を前記ネットワークに出力し、
前記探索結果入力部は、
前記ネットワークを介して前記素片探索部の探索結果を受け取り、
前記合成部は、
前記探索結果入力部が受け取った探索結果に基づき音声合成を行う
ことを特徴とする音声合成システム。