JP4586386B2 - 素片接続型音声合成装置及び方法 - Google Patents

素片接続型音声合成装置及び方法 Download PDF

Info

Publication number
JP4586386B2
JP4586386B2 JP2004073977A JP2004073977A JP4586386B2 JP 4586386 B2 JP4586386 B2 JP 4586386B2 JP 2004073977 A JP2004073977 A JP 2004073977A JP 2004073977 A JP2004073977 A JP 2004073977A JP 4586386 B2 JP4586386 B2 JP 4586386B2
Authority
JP
Japan
Prior art keywords
speech
sub
cost
unit
preliminary selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004073977A
Other languages
English (en)
Other versions
JP2005265895A (ja
Inventor
信行 西澤
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004073977A priority Critical patent/JP4586386B2/ja
Publication of JP2005265895A publication Critical patent/JP2005265895A/ja
Application granted granted Critical
Publication of JP4586386B2 publication Critical patent/JP4586386B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

この発明は音声合成装置に関し、特に、所定のコスト関数に基づいて音声素片を選択し接続することにより合成器指令に合致した音声合成を行なう音声合成装置に関する。
音声認識、音声合成は、人間とコンピュータを用いた諸システムとのインターフェースを実現する技術として重要である。これらと人工知能技術とを併用することにより、利用者は相手がコンピュータシステムであることを意識せずに様々なサービスを利用することができる。
中でも音声合成は、人間に対するシステム出力のためのインターフェースとしてその重要性は大きい。人間は、合成された音声の不自然さを敏感に感じ取る。合成された音声が不自然であると利用者が感じると、発話にも影響を及ぼし、その結果、人間とシステムとの間の対話がうまく行かなくなるおそれもある。
最近の音声合成技術としては、予め人間の発話を多数集めて語・音節・音素等を単位とする音声素片を音素ラベルと関連付けてデータベース化しておき、合成時には、指定された語・音節・音素等に対応する音声素片の中から、最も適切と思われるものを選択して接続するものが知られている。これを素片接続型音声合成と呼ぶ。なお、音素ラベルとは、通常は各音素の音素記号とその開始・終了時刻を記述したものをいう。これに加えて、その区間におけるMFCC(Mel−Frequency Cepstrum Coefficient)、基本周波数(F0)等の音響特徴量、さらに前後の素片の音素記号を含む場合もある。
素片接続型音声合成では、与えられた合成目標を基準として、いかにして適切な音声素片をデータベース中から取出すかが問題となる。
合成目標を構成するデータは、典型的には音素と、F0、持続時間、MFCC、及びパワー等の音声特徴量とを含む。これらを以下「合成器指令」と呼ぶ。
素片接続型音声合成では、合成器指令と音声素片のF0、持続時間、MFCC、パワー等とのずれ、及び接続に伴う自然劣化を表現するための「コスト」と呼ばれる評価関数を定義し、コストを最小とする音声素片を求めることにより、最適な音声素片系列を決定する。
本件出願の出願人は、上記した「コスト」を、それぞれある音声の特徴に対応するような「サブコスト」に分解し、それらを結合したもの(例えば線形和)により定義した素片接続型音声合成を提案している。例えば特許文献1を参照されたい。
サブコストには、物理量から計算されるものと、シンボリックな情報から事前に作成した規則から基づき得られるものとがある。前者は、複数のサンプル値に対する非線形演算であることも多く、その計算量は相対的に大きい。後者は、単純なテーブル参照の形であることが多く、テーブル参照で実現される場合にはサブコスト計算に必要な計算量は非常に少ない。
以上はあくまで一例であるが、この例に限らず、各サブコストの計算量はその種類により大きなばらつきがある場合が多い。
一方、上記とは別に、サブコストは、ターゲットコストに関係するものと接続コストに属するものとの二つに大別することもできる。ターゲットコストは、合成目標と素片候補との間の誤差を表す。接続コストは、合成音声において隣接する素片間の誤差(不連続性)を表す。
素片接続型音声合成では、コストの最小化に基づく素片選択が行なわれるが、特に素片候補数が多い場合にはコストの計算に要する計算量が問題となる。
最小コストとなる素片候補系列の推定において、可能な組合せのコストを全て調べることは、組合せ爆発により記憶容量・計算時間の双方において非現実的である。そこで、各時刻の素片候補を予備選択により絞り込む方法が考えられる。この際、計算量を考えて、前後の素片関係の影響を受けないターゲットコストに属するサブコストのみで予備選択を行なう方法が有力である。
特開2003−208188号公報(段落0014〜0047)
しかし、合成音声に対する接続コストの影響が比較的大きいことから、予備選択段階でターゲットコストのみに基づいて絞り込むことができる候補数には限界がある。ターゲットコストのみに基づいてあまり候補を絞り込むと、高品質な音声合成を行なうことが可能な候補が捨てられてしまうおそれがあるためである。その結果、本選択時の計算量の削減にも限界がある。
それゆえに、本発明の目的は、高品質な音声合成が可能で、かつ選択のための計算量を削減できる素片接続型音声合成装置及び方法を提供することである。
本発明の第1の局面に係る素片接続型音声合成装置は、合成音声の目標と音声素片候補との間で、複数のサブコストを含むコストを算出し、当該コストに基づいて音声素片データベースから音声素片を選択し接続することにより音声合成を行なう素片接続型音声合成装置であって、音声素片データベースに含まれる音声素片候補から、複数のサブコストのうちの一部のみを用い、2以上の段階に分けて複数の音声素片候補を選択するための多段予備選択手段と、合成音声の目標との間で、複数のサブコストを全て含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、予備選択手段により予備的に選択された複数の音声素片候補から選択するための選択手段と、選択手段により選択された音声素片候補の音声波形を合成器指令に従って接続し合成音声波形を出力するための接続手段とを含む。
好ましくは、多段予備選択手段は、音声素片データベースに含まれる音声素片候補から、複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では前段の予備選択で用いられたサブコストより多数種類のサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するための手段を含む。
より好ましくは、多段予備選択手段は、音声素片データベースに含まれる音声素片候補から、複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では、前段の予備選択で用いられたサブコストより多数種類のサブコストであって、かつ前段の予備選択で用いられたサブコストを含むサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するための手段を含む。
多段予備選択手段は、合成音声の目標と音声素片データベース中の各音声素片候補との間で、第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素片を選択するための第1段の予備選択手段と、第1のサブコストと、第1のサブコストと異なる第2のサブコストとの双方を用いて、第1段の予備選択手段により選択された複数の音声素片の中から複数の音声素片を選択するための第2段の予備選択手段とを含んでもよい。
さらに好ましくは、第1段の予備選択手段は、合成音声の目標と音声素片データベース中の各音声素片候補との間で、第1のサブコストを算出するための第1のサブコスト算出手段と、第1のサブコスト算出手段により算出された第1のサブコストを記憶するための第1のサブコスト記憶手段と、第1のサブコスト算出手段により算出された第1のサブコストが所定のしきい値よりも小さな音声素片候補を選択するための手段とを含む。
好ましくは、多段予備選択手段は、合成音声の目標と音声素片データベース中の各音声素片候補との間で、ターゲットコストのみからなる第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素片を選択するための第1段の予備選択手段と、第1のサブコストと、接続コストを含む第2のサブコストとの双方を用いて、第1段の予備選択手段により選択された複数の音声素片からなる音声素片系列の中から複数の音声素片系列を選択するための第2段の予備選択手段とを含む。
本発明の第2の局面に係る素片接続型音声合成方法は、合成音声の目標と音声素片候補との間で、複数のサブコストを含むコストを算出し、当該コストに基づいて音声素片データベースから音声素片を選択し接続することにより音声合成を行なう素片接続型音声合成方法であって、音声素片データベースに含まれる音声素片候補から、複数のサブコストのうちの一部のみを用い、2以上の段階に分けて複数の音声素片候補を選択する多段予備選択ステップと、合成音声の目標との間で、複数のサブコストを全て含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、予備選択ステップにおいて予備的に選択された複数の音声素片候補から選択する選択ステップと、選択ステップにおいて選択された音声素片候補の音声波形を合成器指令に従って接続し合成音声波形を出力する接続ステップとを含む。
好ましくは、多段予備選択ステップは、音声素片データベースに含まれる音声素片候補から、複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では前段の予備選択で用いられたサブコストより多数種類のサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するステップを含む。
さらに好ましくは、多段予備選択ステップは、音声素片データベースに含まれる音声素片候補から、複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では、前段の予備選択で用いられたサブコストより多数種類のサブコストであって、かつ前段の予備選択で用いられたサブコストを含むサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するステップを含む。
多段予備選択ステップは、合成音声の目標と音声素片データベース中の各音声素片候補との間で、第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素片を選択する第1段の予備選択ステップと、第1のサブコストと、第1のサブコストと異なる第2のサブコストとの双方を用いて、第1段の予備選択ステップにおいて選択された複数の音声素片の中から複数の音声素片を選択する第2段の予備選択ステップとを含んでもよい。
さらに好ましくは、第1段の予備選択ステップは、合成音声の目標と音声素片データベース中の各音声素片候補との間で、第1のサブコストを算出する第1のサブコスト算出ステップと、第1のサブコスト算出ステップにおいて算出された第1のサブコストを、第1のサブコスト記憶手段に記憶させるステップと、第1のサブコスト算出ステップにおいて算出された第1のサブコストが所定のしきい値よりも小さな音声素片候補を選択するステップとを含む。
好ましくは、多段予備選択ステップは、合成音声の目標と音声素片データベース中の各音声素片候補との間で、ターゲットコストのみからなる第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素片を選択する第1段の予備選択ステップと、第1のサブコストと、接続コストを含む第2のサブコストとの双方を用いて、第1段の予備選択ステップにおいて選択された複数の音声素片からなる音声素片系列の中から複数の音声素片系列を選択する第2段の予備選択ステップとを含む。
[第1の実施の形態]
図1に、本発明の第1の実施の形態に係る音声合成システム20のブロック図を示す。図1を参照して、この音声合成システム20は、従来と同様の音声素片DB34と、合成目標となるテキストを分析した結果得られる合成器指令36を入力として受け、音声素片DB34に含まれる拡張された音声素片から適切な音声素片を選択し接続して合成音声波形40を出力するための音声合成装置38とを含む。
音声合成装置38は、合成器指令36を受け、合成器指令36により指定された音声素片のうちで、後述するように多段の予備選択を行なって予備選択候補群62を選択するための多段予備選択部60と、合成器指令36を受け、予備選択候補群62から全サブコストを用いて計算したコストの最も小さな素片を選択するための素片選択部64と、素片選択部64により選択された音声素片を接続して合成音声波形40を出力するための接続部66とを含む。なお、予備選択候補群62は素片の選択のみに用いられるので、コスト計算に必要な特徴量のみを含み、音声素片データそのものは含まない。接続部66は、素片選択部64により選択された素片の音声素片データを音声素片DB34を参照して得ることになる。
本実施の形態で使用されるサブコストは、基本周波数(F0)誤差、継続時間長誤差、MFCC誤差、F0不連続誤差、MFCC不連続誤差、音素環境誤差にそれぞれ対応する6種類のサブコストを含む。これらのうち、前3者はターゲットコストに属し、後3者は接続コストに属する。
本実施の形態に係る素片選択部64によるコスト計算では、コストCは以下のようにしてサブコストから計算される。
Figure 0004586386
ただし、Ci1(i1=1〜3)はターゲットサブコスト、Ci2(i2=1〜3)は接続コスト、wi1(i1=1〜3)はターゲットサブコスト間に定義された重み、wi2(i2=1〜3)は接続サブコスト間に定義された重み、p及びpはそれぞれ、ターゲットコストと接続コスト間に定義された重みである。ただし、本実施の形態では後述するように多段予備選択における計算量を削減するため、p及びpはいずれも1とする。
一般的に、音素環境誤差のサブコストは比較的単純なテーブル参照である。したがってその計算量は非常に小さい。それ以外については、サブコストの計算量は比較的大きい。例えばMFCCは多次元量であるため、そのサブコストの計算に要する時間は他のサブコストより大きくなる。
図1を参照して、多段予備選択部60は、4つの予備選択部70、80、90及び100を含む。予備選択をどのような順番でどのサブコストに基づいて行なうかは、アプリケーション、より具体的には各サブコストに対し予想される計算量の相違により異なる。F0誤差、継続時間長誤差に関するサブコスト計算が比較的小さい場合には、図1に示すような構成が考えられる。4つの予備選択部70、80、90及び100、並びに素片選択部64の機能は以下のとおりである。なお、接続コストに関するサブコストが予備選択コストに含まれる場合、コストは前後の素片の影響を受ける。したがって、その時点での予備選択コスト関数を最小化する解について、各時刻において独立に素片候補を予備選択するのではなく、素片候補の選択系列のN−ベスト解を得ておく必要がある。その後は、そのN−ベスト解について後段の予備選択関数で再度コスト計算を行なってその結果のN−ベスト解を得る、という処理を繰返す必要がある。
第1の予備選択部70:合成器指令36を受け、音声素片DB34中の素片候補から各時刻におけるF0誤差、継続時間長誤差による予備選択をして第1の候補群72を出力する。
第2の予備選択部80:第1の候補群72中の素片から、各時刻におけるF0誤差、継続時間長誤差、MFCC誤差による予備選択をして第2の候補群82を出力する。
第3の予備選択部90:第2の候補群82中の素片から、各時刻におけるF0誤差、継続時間長誤差、MFCC誤差、及び音素環境誤差を考慮したN−ベスト探索を行ない第3の候補群(選択系列群)92を出力する。
第4の予備選択部100:第3の候補群92中の素片候補に、F0誤差、継続時間長誤差、MFCC誤差、音素環境誤差、及びF0不連続誤差を考慮したN−ベスト探索を行ない、予備選択候補群(選択系列群)62を出力する。
素片選択部64:予備選択候補群62に含まれるN−ベスト選択系列に対して、全てのサブコストを考慮して行なう1−ベスト探索を行ない、素片を一つ選択し接続部66に与える。
なお、N−ベスト解はビームサーチ又はN−ベストDP(Dynamic Programming)サーチにより行なうことができる。(ここでN−ベストDPサーチとは、DP探索における各ノードでN−ベスト解を保持する方法のことをいう。通常のDPサーチは各ノードで1−ベストの解のみを保持している。)
ここで、ビームサーチについては、N−ベスト解で選択される候補系列の数Nに対して、ビーム幅が小さいほど最適解に近い解が得られる可能性が小さくなる。一方、N−ベストDPサーチでは、各ノードが保持するN−ベスト解の数が少ないほど、最適解が得られる可能性が低くなる。(ここで、各ノードにおけるN−ベスト解の数が、最終的に必要となるN−ベスト解の数と同数以上であれば、解が真のN−ベスト解であることは保証される。しかし、多段選択の途中におけるN−ベスト解の中に真の最適解が含まれている保証はなく、計算途中で真のN−ベスト解を得ること自体にはそれほど意味はない。)ただし、素片候補が大量に存在する場合には、仮に最終的に最適解でない解が得られたとしても実用上十分な品質が得られる可能性が高い。
この実施の形態では、前段の予備選択部で算出されたサブコストは、後段の予備選択部でも素片選択に使用される。したがって、サブコストが式(1)で表され、かつp及びpがいずれも1として設計した場合(すなわちコストがサブコストの線形和で表される場合)、前段の予備選択部で算出したサブコストをそのまま次の予備選択部でのコスト計算に用いることができる。そのために多段予備選択部60は、それぞれ予備選択部70、80、90及び100で行なわれたサブコスト計算の結果を記憶するための第1〜第4のコスト記憶部74、84、94及び104をさらに含む。これら第1〜第4のコスト記憶部74、84、94及び104に記憶されたサブコストは、それぞれ予備選択部80、90、及び100並びに素片選択部64に与えられ、コスト計算に用いられる。
この音声合成システム20は以下のように動作する。まず合成器指令36が音声合成装置38に与えられる。多段予備選択部60の第1の予備選択部70は、合成器指令36に基づいて、合成器指令36により指定された音素に対応する音声素片であってかつF0誤差及び継続時間長誤差により算出されたサブコストの線形和が所定のしきい値以下であるものを音声素片DB34から抽出し、第1の候補群72として出力する。このときのサブコストの計算結果は第1のコスト記憶部74に記憶される。
第2の予備選択部80は、合成器指令36に基づいて、F0誤差、継続時間長誤差及びMFCC誤差により算出されたサブコストの線形和が所定のしきい値以下であるものを第1の候補群72から抽出し、第2の候補群82として出力する。このとき、第2の予備選択部80は、第1のコスト記憶部74に記憶されたF0誤差及び継続時間長誤差により算出されたサブコストをサブコスト計算に用いる。したがって実質的にはMFCCによるサブコスト計算のみが行なわれる。第2の予備選択部80によるサブコストの計算結果は第2のコスト記憶部84に記憶される。
第3の予備選択部90は、合成器指令36に基づいて、F0誤差、継続時間長誤差、MFCC誤差、及び音素環境誤差に基づいて算出されたサブコストの線形和に基づき、素片候補のN−ベスト解を第2の候補群82から抽出し、第3の候補群92として出力する。このとき、第3の予備選択部90は、第2のコスト記憶部84に記憶されたF0誤差、継続時間長誤差、及びMFCC誤差により算出されたサブコストをサブコスト計算に用いる。したがって、実質的には第3の予備選択部90では音素環境誤差のみに基づくサブコスト計算が行なわれる。第3の予備選択部90によるサブコストの計算結果は第3のコスト記憶部94に記憶される。
第4の予備選択部100は、合成器指令36に基づいて、F0誤差、継続時間長誤差、MFCC誤差、音素環境誤差、及びF0不連続誤差に基づいて算出されたサブコストの線形和に基づき、素片候補のN−ベスト解を第3の候補群92から抽出し、予備選択候補群62として出力する。このとき、第4の予備選択部100は、第3のコスト記憶部94に記憶されたF0誤差、継続時間長誤差、MFCC誤差、及び音素環境誤差により算出されたサブコストをサブコスト計算に用いる。したがって、実質的には第4の予備選択部100ではF0不連続誤差のみに基づくサブコスト計算が行なわれる。第4の予備選択部100によるサブコストの計算結果は第4のコスト記憶部104に記憶される。
素片選択部64は、合成器指令36を受け、予備選択候補群62に含まれる音声素片のうち、式(1)により算出されるコストが最も小さなものを選択して接続部66に与える。
接続部66は、素片選択部64により選択された音声素片に対応する音声素片データを音声素片DB34から読出し、音声が滑らかに接続されるように変形して接続し、合成音声波形40として出力する。
多段予備選択部60により合成器指令36に対し計算されるサブコストが小さなものを予備的に選択しておくため、素片選択部64が式(1)にしたがって素片選択を行なう際のコスト計算の計算量は少なくて済む。多段予備選択部60内の各予備選択部70、80、90及び100によるサブコストの算出では、それぞれ前段でのサブコスト計算の結果を用いる。したがって各予備選択部70、80、90及び100における計算量は実質的には少なくて済む。
また、予備選択部70、80、90及び100による予備選択では、徐々に選択の基準が細かくなっていくため、素片候補の限定は徐々に行なわれる。その結果、予備選択の段階で適切な素片候補が捨てられる危険性も低くなる。多段予備選択で得られた予備選択候補群62の中からコスト最小の音声素片を選択して接続した場合、接続時の変形による品質低下はほとんどない。その結果、最終的に得られる合成音声波形40にも、音声素片の接続による品質低下はほとんどない。
なお、上記した実施の形態では、予備選択部70、80、90及び100による4段階の多段予備選択を行なっているが、予備選択の各段階でのサブコスト計算及び段数がこの実施の形態に限定されないことはもちろんである。アプリケーションにより、種々の形で多段予備選択を行なうことができる。
例えば、F0誤差、継続時間長誤差による予備選択での計算量が比較的大きいと思われる場合には、MFCC不連続誤差による音質への影響が比較的小さいことを考慮し、次のような多段予備選択を行なうことも考えられる。
(1) 音素環境誤差を考慮したN−ベスト探索。
(2) (1)により得られたN−ベスト解に対して、F0誤差、継続時間長誤差、及び音素環境誤差を考慮したN−ベスト探索。
(3) (2)により得られたN−ベスト解に対して、F0誤差、継続時間長誤差、F0不連続誤差、及び音素環境誤差を考慮したN−ベスト探索。
(4) (3)により得られたN−ベスト解に対して、F0誤差、継続時間長誤差、F0不連続誤差、MFCC不連続誤差、及び音素環境誤差を考慮したN−ベスト探索。
(5) (4)により得られたN−ベスト解に対して、F0誤差、継続時間長誤差、F0不連続誤差、MFCC不連続誤差、MFCC誤差、及び音素環境誤差を考慮したN−ベスト探索。
(6) (5)により得られたN−ベスト解に対して、全てのサブコストを考慮した1−ベスト探索による素片選択。
上記した実施の形態の説明では、式(1)における重みp1及びp2の値をいずれも1として説明した。しかし、本発明はそのような実施の形態には限定されず、重みp1及びp2の値のいずれか、又は双方を1以外の値としてもよい。
また、サブコスト関数も式(1)に示すものには限定されず、設計思想により様々なサブコスト関数を考えることができる。その場合も、多段予備選択でのサブコスト計算を考慮して、後段のサブコスト計算では前段のサブコスト計算の結果を使用できるようにすると効率がよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態にかかる音声合成システム20のブロック図である。
符号の説明
20 音声合成システム、34 音声素片DB、36 合成器指令、38 音声合成装置、40 合成音声波形、60 多段予備選択部、62 予備選択候補群、64 素片選択部、66 接続部、70,80,90,100 予備選択部、72,82,92 候補群、74,84,94,104 コスト記憶部

Claims (12)

  1. 合成音声の目標と音声素片候補との間で、複数のサブコストを含むコストを算出し、当該コストに基づいて音声素片データベースから音声素片を選択し接続することにより音声合成を行なう素片接続型音声合成装置であって、
    前記音声素片データベースに含まれる音声素片候補から、前記複数のサブコストのうちの一部のみを用い、2以上の段階に分けて複数の音声素片候補を選択するための多段予備選択手段と、
    前記合成音声の目標との間で、前記複数のサブコストを全て含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、前記多段予備選択手段により予備的に選択された前記複数の音声素片候補から選択するための選択手段と、
    前記選択手段により選択された音声素片候補の音声波形を前記合成器指令に従って接続し合成音声波形を出力するための接続手段とを含む、素片接続型音声合成装置。
  2. 前記多段予備選択手段は、前記音声素片データベースに含まれる音声素片候補から、前記複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では前段の予備選択で用いられたサブコストより多数種類のサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するための手段を含む、請求項1に記載の素片接続型音声合成装置。
  3. 前記多段予備選択手段は、前記音声素片データベースに含まれる音声素片候補から、前記複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では、前段の予備選択で用いられたサブコストより多数種類のサブコストであって、かつ前段の予備選択で用いられたサブコストを含むサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するための手段を含む、請求項2に記載の素片接続型音声合成装置。
  4. 前記多段予備選択手段は、
    前記合成音声の目標と前記音声素片データベース中の各音声素片候補との間で、第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素片候補列を選択するための第1段の予備選択手段と、
    前記第1のサブコストと、前記第1のサブコストと異なる第2のサブコストとの双方を用いて、前記第1段の予備選択手段により選択された複数の音声素片候補列の中から複数の音声素片候補列を選択するための第2段の予備選択手段とを含む、請求項1に記載の素片接続型音声合成装置。
  5. 前記第1段の予備選択手段は、
    前記合成音声の目標と前記音声素片データベース中の音声素片候補からなる各音声素片候補との間で、第1のサブコストを算出するための第1のサブコスト算出手段と、
    前記第1のサブコスト算出手段により算出された第1のサブコストを記憶するための第1のサブコスト記憶手段と、
    前記第1のサブコスト算出手段により算出された第1のサブコストが所定のしきい値よりも小さな音声素片候補を選択するための手段とを含む、請求項4に記載の素片接続型音声合成装置。
  6. 前記多段予備選択手段は、
    前記合成音声の目標と前記音声素片データベース中の音声素片候補からなる各音声素片候補との間で、ターゲットコストのみからなる第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素片候補列を選択するための第1段の予備選択手段と、
    前記第1のサブコストと、接続コストを含む第2のサブコストとの双方を用いて、前記第1段の予備選択手段により選択された複数の音声素片候補列の中から複数の音声素片候補列を選択するための第2段の予備選択手段とを含む、請求項1に記載の素片接続型音声合成装置。
  7. 合成音声の目標と音声素片候補との間で、複数のサブコストを含むコストを算出し、当該コストに基づいて音声素片データベースから音声素片を選択し接続することにより音声合成を行なう素片接続型音声合成方法であって、
    前記音声素片データベースに含まれる音声素片候補から、前記複数のサブコストのうちの一部のみを用い、2以上の段階に分けて複数の音声素片候補を選択する多段予備選択ステップと、
    前記合成音声の目標との間で、前記複数のサブコストを全て含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、前記多段予備選択ステップにおいて予備的に選択された前記複数の音声素片候補から選択する選択ステップと、
    前記選択ステップにおいて選択された音声素片候補の音声波形を前記合成器指令に従って接続し合成音声波形を出力する接続ステップとを含む、素片接続型音声合成方法。
  8. 前記多段予備選択ステップは、前記音声素片データベースに含まれる音声素片候補から、前記複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では前段の予備選択で用いられたサブコストより多数種類のサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するステップを含む、請求項7に記載の素片接続型音声合成方法。
  9. 前記多段予備選択ステップは、前記音声素片データベースに含まれる音声素片候補から、前記複数のサブコストのうちの一部のみを用い、2以上の段階に分けて、かつ後段の予備選択では、前段の予備選択で用いられたサブコストより多数種類のサブコストであって、かつ前段の予備選択で用いられたサブコストを含むサブコストを用いて予備選択を行なって、複数の音声素片候補を選択するステップを含む、請求項8に記載の素片接続型音声合成方法。
  10. 前記多段予備選択ステップは、
    前記合成音声の目標と前記音声素片データベース中の各音声素片候補との間で、第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素候補列を選択する第1段の予備選択ステップと、
    前記第1のサブコストと、前記第1のサブコストと異なる第2のサブコストとの双方を用いて、前記第1段の予備選択ステップにおいて選択された複数の音声素片候補列の中から複数の音声素片候補列を選択する第2段の予備選択ステップとを含む、請求項7に記載の素片接続型音声合成方法。
  11. 前記第1段の予備選択ステップは、
    前記合成音声の目標と前記音声素片データベース中の音声素片からなる各音声素片候補との間で、第1のサブコストを算出する第1のサブコスト算出ステップと、
    前記第1のサブコスト算出ステップにおいて算出された第1のサブコストを、第1のサブコスト記憶手段に記憶させるステップと、
    前記第1のサブコスト算出ステップにおいて算出された第1のサブコストが所定のしきい値よりも小さな音声素片候補を選択するステップとを含む、請求項10に記載の素片接続型音声合成方法。
  12. 前記多段予備選択ステップは、
    前記合成音声の目標と前記音声素片データベース中の音声素片からなる各音声素片候補との間で、ターゲットコストのみからなる第1のサブコストを算出し、算出された第1のサブコストを用いて複数の音声素片候補列を選択する第1段の予備選択ステップと、
    前記第1のサブコストと、接続コストを含む第2のサブコストとの双方を用いて、前記第1段の予備選択ステップにおいて選択された複数の音声素片候補列の中から複数の音声素片候補列を選択する第2段の予備選択ステップとを含む、請求項7に記載の素片接続型音声合成方法。
JP2004073977A 2004-03-16 2004-03-16 素片接続型音声合成装置及び方法 Expired - Lifetime JP4586386B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004073977A JP4586386B2 (ja) 2004-03-16 2004-03-16 素片接続型音声合成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004073977A JP4586386B2 (ja) 2004-03-16 2004-03-16 素片接続型音声合成装置及び方法

Publications (2)

Publication Number Publication Date
JP2005265895A JP2005265895A (ja) 2005-09-29
JP4586386B2 true JP4586386B2 (ja) 2010-11-24

Family

ID=35090557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004073977A Expired - Lifetime JP4586386B2 (ja) 2004-03-16 2004-03-16 素片接続型音声合成装置及び方法

Country Status (1)

Country Link
JP (1) JP4586386B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100811226B1 (ko) * 2006-08-14 2008-03-07 주식회사 보이스웨어 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템
JP4975589B2 (ja) * 2007-11-07 2012-07-11 独立行政法人鉄道建設・運輸施設整備支援機構 無絶縁軌道回路用保安器
KR101227716B1 (ko) * 2007-11-28 2013-01-29 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP5782751B2 (ja) * 2011-03-07 2015-09-24 ヤマハ株式会社 音声合成装置
JP6291887B2 (ja) * 2014-02-14 2018-03-14 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP6519097B2 (ja) * 2014-02-14 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248972A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 規則音声合成装置
JPH08263095A (ja) * 1995-03-20 1996-10-11 N T T Data Tsushin Kk 音声素片選択方法および音声合成装置
JP2003208188A (ja) * 2002-01-15 2003-07-25 Advanced Telecommunication Research Institute International 日本語テキスト音声合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248972A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 規則音声合成装置
JPH08263095A (ja) * 1995-03-20 1996-10-11 N T T Data Tsushin Kk 音声素片選択方法および音声合成装置
JP2003208188A (ja) * 2002-01-15 2003-07-25 Advanced Telecommunication Research Institute International 日本語テキスト音声合成方法

Also Published As

Publication number Publication date
JP2005265895A (ja) 2005-09-29

Similar Documents

Publication Publication Date Title
WO2017213055A1 (ja) 音声認識装置及びコンピュータプログラム
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
JP6614639B2 (ja) 音声認識装置及びコンピュータプログラム
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
US6988069B2 (en) Reduced unit database generation based on cost information
US20200410981A1 (en) Text-to-speech (tts) processing
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US11763797B2 (en) Text-to-speech (TTS) processing
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20050119883A1 (en) Speech recognition device and speech recognition method
JP2006084715A (ja) 素片セット作成方法および装置
Nocera et al. Phoneme lattice based A* search algorithm for speech recognition
JP4586386B2 (ja) 素片接続型音声合成装置及び方法
US20050075876A1 (en) Continuous speech recognition apparatus, continuous speech recognition method, continuous speech recognition program, and program recording medium
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
US20090070116A1 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
GB2465383A (en) A speech recognition system using a plurality of acoustic models which share probability distributions
US20050119889A1 (en) Rule based speech synthesis method and apparatus
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
JP2004139033A (ja) 音声合成方法、音声合成装置および音声合成プログラム
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
KR100811226B1 (ko) 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100823

R150 Certificate of patent or registration of utility model

Ref document number: 4586386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250