JP2008191334A - 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム - Google Patents

音声合成方法、音声合成プログラム、音声合成装置、音声合成システム Download PDF

Info

Publication number
JP2008191334A
JP2008191334A JP2007024563A JP2007024563A JP2008191334A JP 2008191334 A JP2008191334 A JP 2008191334A JP 2007024563 A JP2007024563 A JP 2007024563A JP 2007024563 A JP2007024563 A JP 2007024563A JP 2008191334 A JP2008191334 A JP 2008191334A
Authority
JP
Japan
Prior art keywords
speech
unit
search
connection point
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007024563A
Other languages
English (en)
Inventor
Takashi Miki
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2007024563A priority Critical patent/JP2008191334A/ja
Publication of JP2008191334A publication Critical patent/JP2008191334A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】自動ラベリングのような低コストなラベリング手法を採用しつつ高品質な合成音声を得る。
【解決手段】音韻情報に基づき音声合成を行うために必要な音声素片を音声コーパスより探索する素片探索ステップと、素片探索ステップで得られた音声素片の適合度を評価する評価ステップと、評価ステップで得られた最適な音声素片を用いて音声合成を行う合成ステップと、を有し、素片探索ステップは、音声コーパスが格納している音声素片を選択する素片選択ステップと、音声素片同士を接続する際の最適接続点を探索する接続点探索ステップと、をさらに有し、評価ステップにおいて、素片選択ステップで選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、素片探索ステップと評価ステップを繰り返し実行する。
【選択図】図5

Description

本発明は、コーパスベースの音声合成方法、そのプログラム、その装置、及びその装置を用いた音声合成システムに関するものであり、特に、音声素片の選択と素片接続点の最適化に関するものである。
従来、『ラベルの位置情報の誤りによる悪影響を減らし、モデルとなる音韻情報の音声波形信号を基に自然な合成音声を得る音声合成システムを提供する。』ことを目的とした技術として、『入力部10から音声合成する音韻情報を入力する。モデル辞書20は複数のモデル音韻情報と対応するモデル音声波形信号を持つ。音韻単位決定部30は音韻情報とモデル辞書20のモデル音韻情報とを比較し、音韻単位を決定する。合成単位決定部40は音韻単位から合成単位を決定する。合成単位に隣接する音素間で音響的性質が同質なものをまとめたもの、例えば、母音、半母音、長母音、鼻音のなどの組み合わせ又は無声化母音と摩擦音の組み合わせを設定する。重畳部60はモデル辞書から合成単位の音声波形信号を取り出し、それらを順次重畳して音韻情報全体の音声波形信号を生成する。』というものが提案されている(特許文献1)。
また、『音声合成のための音声素片の連続性に応じて、これまでより高品質な合成音声を提供可能な音声合成方法及びその装置を実現すること。』ことを目的とした技術として、『言語を構成する様々な単位の音声素片を含む音声コーパスを格納したデータベース1からDB検索部2により、入力されたテキスト中の前記単位毎に合成に使用可能な音声素片を検索し、音声素片選択部3により、該検索したテキスト中の前記単位毎の音声素片の中から、各音声素片の連続性の尺度に応じて音声素片を選択するための規則を変更して最適な音声素片を選択し、合成部4により、選択したテキスト中の各単位に対応する音声素片から音声を合成する。』というものが提案されている(特許文献2)。
また、『2つの音声素片を接続する際に、最適な接続位置を検出し、この検出された接続位置で当該2つの音声素片の接続を行い合成音声の高品位化を図る。』ことを目的とした技術として、『音声合成すべき情報に基づいて選択された音声素片(501)を接続するにおいて、接続すべき2つの音声素片の境界付近において、両音声素片間の対応を動的計画法を用いて決定する。そして、決定された両音声素片間の対応から、最小距離の対応(503)を検出し、この位置を当該両音声素片の接続位置とする。また、音声素片の区切り位置として、後にくる音声素片上において、前にくる音素の終端部に対応する位置(504)が決定される。こうして接続された音声素片と、決定された区切り位置に基づいて合成音声が生成される。』というものが提案されている(特許文献3)。
特開2003−202883号公報(要約) 特開2005−321630号公報(要約) 特開平11−259091号公報(要約)
通例、音声合成の処理過程では、適切な長さの音声素片(以下、「素片」と呼ぶ場合もある)あるいは部分的な音声波形を連結させて、所望の合成音声を生成する。従って、素片の作成品質は合成音声の品質を左右するものであり、素片の品質を確保することは、高品質な音声合成には欠かせない。
素片の品質を確保するには、高精度な音素切り出しが不可欠である。
音素切り出し処理は、例えばある音声のテキストと波形等の情報を参照しながら、人間がその音声を聴取して所望の素片に切り分け、その切り分け箇所をマークする(ラベリング)という、手動ラベリング作業により行われることがある。
この手動ラベリング作業は非常に手間がかかり高コストとなるので、低コストかつ高精度なラベリング手法が望まれている。例えば、音声認識などを使った自動ラベリングは低コストであるが、音声認識誤りに起因する切り出し誤りがあるなど、未だ高精度なラベリングは困難である。
音素の切り出し誤りに関する課題を解決するため、特許文献1に記載の技術では、素片接続箇所自体を減らすというアプローチをとり、より大きな素片単位を用いて音声合成を行っている。
しかし、合成単位を拡大するため、合成単位の数が幾何級数的に増大し、音声合成に必要な音声素片を収集するコストが増大する。また、素片辞書のサイズもこれにともなって増大し、そのコストも無視できない。
また、特許文献2に記載の技術は、所望の合成音声に適する素片の探索は行っているものの、素片の接続点については考慮していない。一方、特許文献3に記載の技術は、素片の最適接続点の探索は行っているが、素片自体の適合度については評価していない。
合成音声の品質は、素片自体の品質と素片接続点の双方に影響されるため、これらの一方のみを評価する手法では、必ずしも品質の良い合成音声が得られるわけではない。
以上のように、例えば自動ラベリングのような低コストなラベリング手法を採用しつつ高品質な合成音声を得ることが課題となっており、これを解決することのできる音声合成方法、音声合成プログラム、及び音声合成装置が望まれていた。
本発明に係る音声合成方法は、
音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
合成する音声の音韻情報を受け取るステップと、
前記音韻情報に基づき音声合成を行うために必要な音声素片を前記音声コーパスより探索する素片探索ステップと、
前記素片探索ステップで得られた音声素片の適合度を評価する評価ステップと、
前記評価ステップで得られた最適な音声素片を用いて音声合成を行う合成ステップと、
を有し、
前記素片探索ステップは、
前記音声コーパスが格納している音声素片を選択する素片選択ステップと、
音声素片同士を接続する際の最適接続点を探索する接続点探索ステップと、
をさらに有し、
前記評価ステップにおいて、
前記素片選択ステップで選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、
前記素片探索ステップと前記評価ステップを繰り返し実行することにより、
前記音声コーパスが格納している最適な音声素片と、それらの最適な接続点との組み合わせを得て、前記合成ステップで音声合成を行う
ことを特徴とするものである。
本発明に係る音声合成方法によれば、音声素片自体の品質と素片接続点を総合的に評価し、これらの最適な組み合わせが得られるので、音素切り出し時に切り出し誤りがあっても、その影響を低減し、高品質な合成音声を得ることができる。
実施の形態1.
図1は、本発明の実施の形態1に係る音声合成装置100の機能ブロック図である。
音声合成装置100は、入力部101、素片探索部102、音声コーパス103、評価部104、合成部105を備える。
入力部101は、音声合成の対象となる音韻情報系列110を入力として受け取り、素片探索部102に出力する。
素片探索部102は、音韻情報系列110に基づき音声合成を行うために必要な音声素片を音声コーパス103から探索する。
音声コーパス103は、音声合成を行うために必要な音声素片の集合を格納している。
評価部104は、素片探索部102が音声コーパス103から探索した音声素片の適合度を評価する。評価は、音韻情報系列110と探索した素片の音響的距離を算出する方法などにより行う。評価方法の詳細については後述する。
合成部105は、評価部104により最適である旨の評価を得た音声素片を用いて音声合成を行い、音声120を出力する。出力形式は、スピーカーのような音声出力デバイスを介してもよいし、音声波形データまたは信号を出力するようにしてもよい。
素片探索部102は、素片選択部106と接続点探索部107をさらに備える。
素片選択部106は、音声コーパス103が格納している音声素片の中から1つを選択する。選択の基準は、探索手法により異なる。詳細は後述する。
接続点探索部107は、素片選択部106が選択した音声素片を、既に選択済みの音声素片に接続する際の、最適な接続点を探索する。詳細は後述の図2〜図4で説明する。
素片探索部102、評価部104、合成部105、素片選択部106、及び接続点探索部107は、回路デバイスのようなハードウェアで構成することもできるし、CPUやマイコンのような演算装置により実行されるソフトウェアとして構成することもできる。
入力部101は、音韻情報系列110の形式に応じて適切な構成とする。例えば音韻情報系列110がテキストなどのデータであるときは、LANインターフェースのようなネットワークインターフェースで構成することができる。また、音韻情報系列110が信号列であるときは、その信号形式に応じたコネクタなどのインターフェースで構成することができる。
音声コーパス103は、HDD(Hard Disk Drive)のような比較的容量の大きい記憶装置に音声素片データを格納することにより、構成することができる。
次に、音声合成装置100の動作説明に先立ち、素片同士の接続点の探索方法を図2を用いて、説明する。
図2は、接続点探索部107が音声素片同士の接続点を探索する方法を説明するものである。
図2において、「ターゲット音韻情報系列」とは、合成しようとしている音声の音韻情報である。例えば「沖」という音声を合成しようとしている場合は、「oki」という情報のことである。
なお、「ターゲット音韻情報系列」は、時系列に沿って分割して処理されるため、図2では「ターゲット音韻情報系列」の時刻tにおける要素(以下、音韻情報と呼ぶ)を「Mt」と表し、「ターゲット音韻情報」としている。ここで、音韻情報は、音韻カテゴリ情報(例、a、i、u、e、o)と、音響的特徴時系列(例:ケプストラム係数、F0(ピッチ周期)で構成されている。
素片Vi及びVjは、音声コーパス103に格納されている個々の音声素片である。例えば、「(*)o(k)」「(o)k(i)」「(k)i(*)」といった音声素片がViやVjの候補となる。音声素片には音韻カテゴリ毎に整理おり、通常は「ターゲット音韻情報」が与えられた場合、その音韻カテゴリに一致する音声素片(複数存在する)群が素片候補として、選択される。
ターゲット音韻情報系列に相当する最適な合成音声を得るためには、好適な音声素片を音声コーパス103から探索することはもちろんであるが、探索した音声素片同士を接続する最適なポイントを探索することも重要である。
接続点における素片間のつながりが歪んでいると、人間がその合成音声を聴取した場合に、話している内容は理解できるが、ぎこちない音声に聞こえてしまう、といったことが起こり得る。そのため、探索した素片の最適な接続点を求めることは、高品質な合成音声を得るために欠かせない。
図2では、素片Viと素片Vjの予め定められた接続可能範囲の例と、素片ViのK=k、と素片VjのL=lで接続した場合の接続素片W(i,j,k,l)を示す。
次に、接続素片W(i,j,k,l)と音韻情報Mtと音韻情報Mt+1との整合コストを計算する。整合コストの計算にはDP(Dynamic Programming)マッチングという手法がしばしば用いられている。以下に、DPマッチングの手順の1例を図3を使って、簡単に示す。
(1)音韻情報Mtの先頭と接続素片W(i,j,k,l)の先頭を開始点(左上隅)、音韻情報Mt+1の終端と接続素片W(i,j,k,l)の終端を終着点(右下隅)とする。
(2)DP平面の左下隅から右上隅までの経路で、最も整合コストが小さくなる経路とそのときの整合コストMCt,t+1(i,j,k,l)を動的計画法(Dynamic Programming)により求める。
ここで、開始点(左上隅)、終着点(右下隅)の片方、あるいは両方をフリーにした端点フリー型のDPマッチングを用いてもよい。
以上のような手順により、素片ViとVjを接続点K=k、L=lで接続した場合の整合コストMCt,t+1(i,j,k,l)が求められる。素片ViやVjを切り出す際に、正確な境界が与えられていれば、接続点K=VNiと、L=1でよいとも考えられる。しかし、素片ViやVjを切り出す際に、切り出し誤りが含まれていた場合、このような固定の接続点が最適な接続点であるとは限らない。
そこで、接続点探索部107は、図2に示す接続可能範囲中の全ての接続点の組み合わせに対して、整合コストMCt,t+1(i,j,k,l)を計算し、その値が最小となる最適接続点JPt,t+1(i,j)を決定する。ここで最小整合コストをTC’t,t+1(i,j)とすると、
Figure 2008191334
となる。また、TCt(i,j)が最小値となる接続点を最適接続点JP’t,t+1(i,j)とすると、
Figure 2008191334
実際には、上記の整合コストに加えて、さらに素片Vi、Vjの接続点K=k、L=lで接続する際に生じる連続性のズレ、すなわち接続ずれコストCC(i,j,k,l)を考慮する。
仮に、素片Vi、Vjが適切に選択され、合成音声全体としてはターゲット音韻情報110とのズレが小さい場合であっても、素片同士の接続点が適切でない場合には、接続点に歪みが生じ、聴取した際にぎこちなく聞こえる場合がある。本値は、このような接続点におけるズレを評価するものである。
次に、CC(i,j,k,l)の具体的な算出方法について、図4を用いて、説明する。
接続点K=k、L=lにおける連続性の評価をするためには、Viのk番目の音響パラメータや韻律的パラメータと、Vjのl番目の各々のパラメータとの連続性を評価すればよい。例えば、以下のような方法が考えられる。
(1)接続点の両側の差分
接続点の両側の差分が小さければ、接続点が急峻でないため、連続性が高いといえる。両側の差分が大きければ、接続点の両側での変化が急峻であるため、連続性が低いといえる。
(2)接続点近傍の時間軸上の微分
接続点近傍の時間微分は、その接続点における変化の度合いを表すので、接続点近傍における変化の度合いを判断するのに適している。さらには、高次微分の値を判断に用いてもよい。
以上をまとめると、素片ViとVjを接続点K=k、L=lで接続した場合の整合コストMCt,t+1(i,j,k,l)に接続ずれコストCC(i,j,k,l)をある割合Wccで加えた値で接続点を決定すればよいことが分かる。従って、最小整合コストをTCt,t+1(i,j)とすると、
Figure 2008191334
となる。また、TCt(i,j)が最小値となる接続点を最適接続点JPt,t+1(i,j)とすると、
Figure 2008191334
となる。
Wccは、接続点におけるズレをどの程度許容するかを表す重み値である。この値が小さいほど、接続点におけるズレを許容することを意味する。
以上説明した、MCt,t+1(i,j,k,l)及びCC(i,j,k,l)の具体的な算出方法は、例を示したものである。本発明におけるこれらの算出方法は、上述のものに限られるものではなく、適宜好適なパラメータや算出方法を用いることができる。
ここまで、接続点の探索について説明したが、最適な接続点は、素片Vi、Vjの内容によっても異なる。
そこで、(1)素片選択部106が音声コーパス103から、「ターゲット音韻情報」の音韻カテゴリに一致する音声素片(複数存在する)群から素片を選び、(2)接続点探索部107がその素片についての最適接続点を求める、という処理を繰り返し実行し、音声コーパス103が格納している素片とその接続点の最適な組み合わせを得ることができる。
素片とその接続点の評価は、先に説明した式(3)により行えばよい。
本実施の形態1に係る音声合成装置100は、上述のように、素片探索と接続点の探索をともに行うものである。
これまで、本発明の基本的な概念について説明した。次に、音声合成装置100の全体動作について、図5を用いて説明する。
図5は、本実施の形態1に係る音声合成装置100の動作フローである。以下、各ステップについて説明する。
(S301)
入力部101は、音韻情報系列110を入力として受け取る。
(S302):ループ1
素片探索部102は、音韻情報系列110の先頭から順に音韻情報を1個取り出す。この音韻情報に基づき、音声コーパス103が格納している素片群から音声合成を行うために最適な音声素片を、以下のステップにより探索する。探索処理は、公知の探索アルゴリズムを用い、あらかじめ定められた回数または時間、繰り返し探索を行う。
(S303)
素片選択部106は、音韻情報に最も適合する音声素片を音声コーパス103より選択する。
このとき、全くのランダムに素片を選択し、適合性を検証するのではなく、音韻情報にある程度近い素片を選択することが、時間短縮の観点から望ましい。例えば、音韻情報の音素カテゴリに対応した音声素片群を候補素片群とする、といった方法である。
(S304):ループ2
ステップS303で素片選択部106が選択した候補素片群の1つ1つの素片に対して、最適な接続点を求める。ここでは、先に説明したように、一定の範囲内で周辺探索を行い、音素切り出し誤りの影響を低減することを図る。
周辺探索の範囲は、接続点の前後の、音素長に対する20%の長さの範囲内とする。以後のステップは、この周辺探索範囲内を全て網羅するまで、繰り返し実行する。
(S305)
接続点探索部107は探索範囲内で、図2のごとく、接続素片を生成する。
(S306)
評価部104は、接続点探索部107が生成した接続素片と音韻情報系列110に対する適合度を、先に説明した式(3)により評価する。
(S307)
ステップS306で評価した値が、これまでの最高評価値である場合にはステップS308へ進み、それ以外の場合はループ2を継続する。
(S308)
得られた素片と接続点の組を、図示しないRAM(Random Access Memory)などの記憶手段に格納して保存する。
(S309)
全ての候補素片群について、その周辺探索範囲を網羅的に探索し、候補素片ループ2を終了する。
(S310)
音韻情報系列110の最後まで、ループ1の素片探索を繰り返し実行した後、ループ1を終了する。
(S311)
合成部105は、ステップS308でRAMなどに保存した最良の素片・接続点の組を用いて音声合成を行い、音声120を出力する。
なお、ステップS304において、周辺探索の範囲は、接続点の前後の、音素長に対する20%の長さの範囲内としたが、これに限られるものではなく、許容される合成音声の品質や演算リソースの余裕などに合わせて、適宜適切な値を設定すればよい。
以上のように、本実施の形態1によれば、音声素片自体の品質と素片接続点を総合的に評価し、これらの最適な組み合わせが得られるので、音素切り出し時に切り出し誤りがあっても、その影響を低減し、高品質な合成音声を得ることができる。
実施の形態2.
図6は、本発明の実施の形態2に係る音声合成装置100の機能ブロック図である。
本実施の形態2に係る音声合成装置100は、図1で説明した構成に加えて、新たに統計データベース108を備える。
統計データベース108は、過去の音声素片同士の接続点の設定結果を、音素ラベル毎に統計処理して格納している。その結果を統計データベースとして蓄積し、音声合成実行時にこれを参照することにより、より高速な処理が実現できる。
具体的には、接続素片を生成する際に、過去の同様な接続素片生成時の最適接続点の中心点を、統計データベース108の統計データエントリから検索し、その近傍範囲から最適な接続点を探索する。
仮に、音韻情報の音響的特徴時系列(例:ケプストラム係数、F0(ピッチ周期)で構成されている)が異なったとしても、素片間の連続性確保の点から、今回の接続点も過去の最適接続点の近傍になると考えられるので、探索開始点の基準とするには適していると言える。
図7は、本実施の形態2に係る音声合成装置100の動作フローである。以下、各ステップについて説明する。
(S501)〜(S503)
実施の形態1の図5で説明したステップS301〜S303と同様であるため、説明を省略する。
(S504)
ステップS503で素片選択部106が選択した候補素片群の1つ1つの素片に対して、最適な接続点を求める
統計データベース108の統計データエントリから、接続素片(Vi、Vj)毎の過去接続点の中心情報を検索する。その接続点を中心に一定の範囲内で周辺探索を行い、最適接続点を探索する。
周辺探索の範囲は、過去接続点の前後の、音素長に対する10%の長さの範囲内とする。以後のステップは、この周辺探索範囲内を全て網羅するまで、繰り返し実行する。
(S505)〜(S511)
実施の形態1の図5で説明したステップS305〜S311と同様であるため、説明を省略する。
なお、ステップS504において、周辺探索の範囲は、過去接続点の前後の、音素長に対する10%の長さの範囲内としたが、これに限られるものではなく、許容される合成音声の品質や演算リソースの余裕などに合わせて、適宜適切な値を設定すればよい。
以上のように、本実施の形態2によれば、過去の接続統計データを格納した統計データベース108を参照することにより、過去の接続点に関する情報を利用することができるので、より探索範囲をしぼることにより、より高速な処理が実現できる。
実施の形態3.
実施の形態1〜2では、最適接続点の探索は、音素長に対する20%の長さの範囲内とし(実施の形態1)、または統計データベース中の最も近いエントリを参照すること(実施の形態2)とした。
本発明の実施の形態3では、簡易探索と詳細探索の2段階の探索範囲設定を行う。
なお、音声合成装置100の機能ブロック図は、実施の形態2で説明した図6と同様であるため、説明は省略する。
図8は、本実施の形態3における接続点の探索範囲を説明するものである。
本実施の形態3において、素片探索部102は、実施の形態2と同様に、統計データベース108の統計データエントリから、接続素片毎に過去の接続点を参照する。
図8(1)は、本実施の形態3における、素片探索部102の1回目の探索範囲を示すものである。
素片探索部102による1回目の探索は、統計データベース108の統計データエントリから、接続素片毎に過去の接続点の中心近傍で行い、素片探索部102による2回目以降の探索は、1回目の探索結果を中心として、さらに探索範囲を拡大する。
図8(2)は、本実施の形態3における、素片探索部102の追加探索範囲を示すものである。
実施の形態1〜2では、周辺探索を行った結果を、最終的な探索結果としていた。本実施の形態3では、図8(1)で説明した周辺1σの範囲内の探索に加えて、さらに追加の探索を行う。
素片探索部102による追加の探索では、図8(1)で周辺1σの範囲内を探索した結果得られた最適接続点を中心として、図8(1)で参照した統計データエントリの周辺2σの範囲内を、さらなる探索範囲とする。
図8(1)(2)において、素片探索部102による探索範囲に関し、DP平面上の探索範囲と統計データ上の探索範囲の対応関係を、概念的に示した。
図9は、本実施の形態3に係る音声合成装置100の動作フローである。以下、各ステップについて説明する。なお、記載の便宜上、音声合成装置100が備える各構成は図示を省略した。
(S701)〜(S710)
実施の形態2の図7で説明したステップS501〜S510と同様であるため、説明を省略する。
(S711):ループ3
接続点探索部107は、これまでの処理で得られた最適な音声素片について、図8(2)で説明したような追加の探索範囲内で、最適な接続点をさらに探索する。
(S712)〜(S716)
ステップS705〜S709と同様であるため、説明を省略する。
(S717)
合成部105は、これまでの処理で得られた最良の素片・接続点の組を用いて音声合成を行い、音声120を出力する。
図8(1)(2)において、探索範囲をそれぞれ1σ、2σとしたが、この数値は例示であり、これに限られるものではない。具体的な数値は、許容される合成音声の品質や演算リソースの余裕などに合わせて、適宜適切な値を設定すればよい。
以上のように、本実施の形態3によれば、実施の形態2と同様に、過去の統計データを格納した統計データベース108を参照することにより、高速な探索処理画実現でき、 さらには2回目の探索処理において、統計上の頻度が少ない周辺部分についても追加の探索範囲としたので、より適切な範囲では接続点の探索を行うことができる。
実施の形態4.
実施の形態1〜2では、音声素片同士の接続点を探索する際に、2回目以降の探索範囲は、接続点の前後の、音素長に対する20%の長さの範囲内とした。また、実施の形態3では、統計データベース108を参照し、統計データ上の所定の範囲内で探索を行うこととした。
一方、音声素片ViやVjをラベリングする際に、これらの素片の基となる音声をコンピュータ等により音声認識させ、音素の境界を自動認識させることによる自動ラベリングを行う場合がある。この過程で、自動認識した音素境界の確からしさの度合いが得られるので、これを接続点の探索に利用することができる。
本発明の実施の形態4では、このような自動認識した音素境界に基づき、音声素片同士の接続点を探索する例について説明する。
なお、音声合成装置100の機能ブロック図は、これまでの実施の形態と同様であるため、説明を省略する。
図2において、素片ViとVjの接続点を探索する際に、素片Vi側の終点K=VNiと、素片Vj側の始点L=1の範囲、即ち最適接続点の探索範囲を決定する必要がある。
このとき、素片ViとVjを切り出す際に、上述のように音声認識による自動ラベリングを行っていれば、その過程において、自動認識した音素境界の確からしさの度合いが得られる。例えば、素片ViやVjの属する音韻カテゴリにおける音声認識処理での終端点の平均誤差長などを得ることができる。
そこで、素片Vi側の終点K=VNiと、素片Vj側の始点K=VNiの範囲を、その平均誤差長の定数倍とすることが考えられる。これは、平均誤差長の定数倍程度の範囲を探索すれば、概ね好適な接続点が得るには十分であろう、という推測に基づくものである。
図10は、本実施の形態4に係る音声合成装置100の動作フローである。以下、各ステップについて説明する。なお、ここでは実施の形態1の図5と同様の探索処理を例に説明を行う。
(S801)〜(S803)
実施の形態1の図5で説明したステップS301〜S303と同様であるため、説明を省略する。
(S804):ループ2
ステップS303で素片選択部106が選択した素片について、最適な接続点を求める。
周辺探索の範囲は、上述のように、音声認識処理により素片を自動ラベリングした際の平均誤差長の定数倍範囲内とする。以後のステップは、この周辺探索範囲内を全て網羅するまで、繰り返し実行する。
(S805)〜(S811)
実施の形態1の図5で説明したステップS305〜S311と同様であるため、説明を省略する。
以上のように、本実施の形態4によれば、音声認識処理により自動ラベリングした際に得られる音素境界の確からしさを利用して、接続点の探索範囲を絞り込むことができるので、ラベリング処理が効率的であるのみならず、最適接続点の探索範囲も効率的に設定でき、コスト低減に資する。
実施の形態5.
図11は、本発明の実施の形態5に係る音声合成システムの構成を示す図である。
図11の音声合成システムは、素片探索装置910と音声出力装置920を有し、両者はネットワーク930を介して接続されている。
素片探索装置910は、入力部901、素片探索部902、音声コーパス903、評価部904を有する。素片探索部902は、素片選択部906、接続点探索部907を有する。
これらの機能は、実施の形態1〜4で説明した同名の機能部と同様であるが、素片探索部902は、探索した音声素片を出力する替わりに、音声素片とその接続点の探索結果のみを出力する。探索結果は、ネットワーク930に出力される。
音声出力装置920は、探索結果入力部909、音声コーパス903、合成部905を有する。
探索結果入力部909は、ネットワーク930を介して、素片探索部902が出力した素片と接続点の探索結果を受け取る。
音声コーパス903は、素片探索装置910が備える音声コーパス903と同一の音声素片群を格納している。
合成部905は、探索結果入力部909が受け取った素片と接続点の探索結果に基づき、音声コーパス903が格納している音声素片を用いて音声合成を行い、音声120を出力する。
探索結果入力部909は、LANインターフェースなどのネットワークインターフェースで構成することができる。
合成部905は、回路デバイスのようなハードウェアで構成することもできるし、CPUやマイコンのような演算装置により実行されるソフトウェアとして構成することもできる。
素片探索部902が出力するのは、音声素片ではなく、その探索結果のみであるため、素片探索装置910と音声出力装置920の間でネットワーク930を介してその伝送を行っても、音声素片そのものを伝送する場合と比較してデータ伝送量は少なくて済む。
また、音声出力装置920は、処理負荷のかかる素片探索処理を実行する必要がないため、CPUやマイコンなどの演算装置を小型のものにすることができ、軽量化や小型化、低コスト化などに資する。
実施の形態1に係る音声合成装置100の機能ブロック図である。 実施の形態1に係る音声素片同士接続点の範囲設定を説明するものである。 実施の形態1に係る接続素片W(i,j,k,l)と音韻情報列Mt,Mt+1とのDPマッチングを説明する図である。 実施の形態1に係る接続点K=k、L=lでの接続ずれコストCC(i,j,k,l)を説明する図である。 実施の形態1に係る音声合成装置100の動作フローである。 実施の形態2に係る音声合成装置100の機能ブロック図である。 実施の形態2に係る音声合成装置100の動作フローである。 実施の形態3における接続点の探索範囲を説明するものである。 実施の形態3に係る音声合成装置100の動作フローである。 実施の形態4に係る音声合成装置100の動作フローである。 実施の形態5に係る音声合成システムの構成を示す図である。
符号の説明
100 音声合成装置、101 入力部、102 素片探索部、103 音声コーパス、104 評価部、105 合成部、106 素片選択部、107 接続点探索部、108 統計データベース、110 音韻情報系列、120 音声、901 入力部、902 素片探索部、903 音声コーパス、904 評価部、905 合成部、906 素片選択部、907 接続点探索部、909 探索結果入力部、910 素片探索装置、920 音声出力装置、930 ネットワーク。

Claims (10)

  1. 音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
    合成する音声の音韻情報を受け取るステップと、
    前記音韻情報に基づき音声合成を行うために必要な音声素片を前記音声コーパスより探索する素片探索ステップと、
    前記素片探索ステップで得られた音声素片の適合度を評価する評価ステップと、
    前記評価ステップで得られた最適な音声素片を用いて音声合成を行う合成ステップと、
    を有し、
    前記素片探索ステップは、
    前記音声コーパスが格納している音声素片を選択する素片選択ステップと、
    音声素片同士を接続する際の最適接続点を探索する接続点探索ステップと、
    をさらに有し、
    前記評価ステップにおいて、
    前記素片選択ステップで選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、
    前記素片探索ステップと前記評価ステップを繰り返し実行することにより、
    前記音声コーパスが格納している最適な音声素片と、それらの最適な接続点との組み合わせを得て、前記合成ステップで音声合成を行う
    ことを特徴とする音声合成方法。
  2. 前記接続点探索ステップにおいて、
    先行する音声素片の末尾から所定の範囲内、又は接続する音声素片の先頭から所定の範囲内を、前記最適接続点の探索範囲とする
    ことを特徴とする請求項1に記載の音声合成方法。
  3. 前記素片選択ステップ及び前記評価ステップの前記最適接続点結果を音声素片番号毎に格納した統計データベースを設け、
    前記素片選択ステップにおいて音声素片を選択し、又は前記接続点探索ステップにおいて接続点を探索する際に、
    前記統計データベースから、前記最適接続点結果の近傍を前記接続点探索ステップにおける探索範囲とする
    ことを特徴とする請求項1又は請求項2に記載の音声合成方法。
  4. 前記音声合成音を作成した際に選択された前記音声素片とその最適接続点に対して、その探索範囲を拡大して、
    前記素片探索ステップないし前記合成ステップを再度実行する
    ことを特徴とする請求項3に記載の音声合成方法。
  5. 請求項1ないし請求項4のいずれかに記載の音声合成方法をコンピュータに実行させることを特徴とする音声合成プログラム。
  6. 音声素片を格納した音声コーパスを用いて音声合成を行う装置であって、
    合成する音声の音韻情報を受け取る入力部と、
    前記音韻情報に基づき音声合成を行うために必要な音声素片を前記音声コーパスより探索する素片探索部と、
    前記素片探索部が得た音声素片の適合度を評価する評価部と、
    前記評価部が得た最適な音声素片を用いて音声合成を行う合成部と、
    を備え、
    前記素片探索部は、
    前記音声コーパスが格納している音声素片を選択する素片選択部と、
    音声素片同士を接続する際の最適接続点を探索する接続点探索部と、
    をさらに備え、
    前記評価部は、
    前記素片選択部が選択した音声素片の適合度と、音声素片同士の接続点の適合度とを、所定の重み付き関数で評価し、
    前記素片探索部と前記評価部の処理を繰り返し実行することにより、
    前記音声コーパスが格納している最適な音声素片と、それらの最適な接続点との組み合わせを得て、前記合成部で音声合成を行う
    ことを特徴とする音声合成装置。
  7. 前記接続点探索部は、
    先行する音声素片の末尾から所定の範囲内、又は接続する音声素片の先頭から所定の範囲内を、前記最適接続点の探索範囲とする
    ことを特徴とする請求項6に記載の音声合成装置。
  8. 前記素片選択部及び前記評価部の前記最適接続点結果を音声素片番号毎に格納した統計データベースを設け、
    前記素片選択部において音声素片を選択し、又は前記接続点探索部において接続点を探索する際に、
    前記統計データベースから、前記最適接続点結果の近傍を前記接続点探索部における探索範囲とする
    ことを特徴とする請求項6又は請求項7に記載の音声合成装置。
  9. 前記音声合成音を作成した際に選択された前記音声素片とその最適接続点に対して、その探索範囲を拡大して、
    前記素片探索部、前記合成部は、前記各処理を再度実行することを特徴とする請求項8に記載の音声合成装置。
  10. 請求項6ないし請求項9のいずれかに記載の音声コーパス、入力部、素片探索部、及び評価部を備えた素片探索装置と、
    前記素片探索部が探索した結果を受け取る探索結果入力部、前記素片探索装置が備えるものと同一の音声コーパス、及び、前記音声コーパスが格納している音声素片のうち前記探索結果入力部が受け取った探索結果に該当するものを用いて音声合成を行う合成部を備えた音声出力装置と、
    を有し、
    前記素片探索装置と前記音声出力装置はネットワークを介して接続されており、
    前記素片探索部は、
    音声素片とその接続点の探索結果を前記ネットワークに出力し、
    前記探索結果入力部は、
    前記ネットワークを介して前記素片探索部の探索結果を受け取り、
    前記合成部は、
    前記探索結果入力部が受け取った探索結果に基づき音声合成を行う
    ことを特徴とする音声合成システム。
JP2007024563A 2007-02-02 2007-02-02 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム Pending JP2008191334A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007024563A JP2008191334A (ja) 2007-02-02 2007-02-02 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007024563A JP2008191334A (ja) 2007-02-02 2007-02-02 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム

Publications (1)

Publication Number Publication Date
JP2008191334A true JP2008191334A (ja) 2008-08-21

Family

ID=39751508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007024563A Pending JP2008191334A (ja) 2007-02-02 2007-02-02 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム

Country Status (1)

Country Link
JP (1) JP2008191334A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215419A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 音声合成装置
CN104517605A (zh) * 2014-12-04 2015-04-15 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法
JP2015152789A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259091A (ja) * 1998-03-09 1999-09-24 Canon Inc 音声合成装置及び方法
JP2004125843A (ja) * 2002-09-30 2004-04-22 Sanyo Electric Co Ltd 音声合成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259091A (ja) * 1998-03-09 1999-09-24 Canon Inc 音声合成装置及び方法
JP2004125843A (ja) * 2002-09-30 2004-04-22 Sanyo Electric Co Ltd 音声合成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215419A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 音声合成装置
JP2015152789A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
CN104517605A (zh) * 2014-12-04 2015-04-15 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法
CN104517605B (zh) * 2014-12-04 2017-11-28 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法

Similar Documents

Publication Publication Date Title
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
JP3913770B2 (ja) 音声合成装置および方法
JP6400936B2 (ja) 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US8108216B2 (en) Speech synthesis system and speech synthesis method
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
US20010032079A1 (en) Speech signal processing apparatus and method, and storage medium
US9805711B2 (en) Sound synthesis device, sound synthesis method and storage medium
JP4639932B2 (ja) 音声合成装置
JP2008191334A (ja) 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP3346671B2 (ja) 音声素片選択方法および音声合成装置
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP2008256942A (ja) 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法
JP4759827B2 (ja) 音声セグメンテーション装置及びその方法並びにその制御プログラム
JP4525162B2 (ja) 音声合成装置及びそのプログラム
CN107924677B (zh) 用于异常值识别以移除语音合成中的不良对准的系统和方法
CN109389969B (zh) 语料库优化方法及装置
JP2016218281A (ja) 音声合成装置、その方法、およびプログラム
JP2009058548A (ja) 音声検索装置
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP4882569B2 (ja) 音声合成装置、方法及びプログラム
WO2017028003A1 (zh) 基于隐马尔科夫模型的语音单元拼接方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111129