JP2001282273A - 音声情報処理装置とその方法と記憶媒体 - Google Patents
音声情報処理装置とその方法と記憶媒体Info
- Publication number
- JP2001282273A JP2001282273A JP2000099420A JP2000099420A JP2001282273A JP 2001282273 A JP2001282273 A JP 2001282273A JP 2000099420 A JP2000099420 A JP 2000099420A JP 2000099420 A JP2000099420 A JP 2000099420A JP 2001282273 A JP2001282273 A JP 2001282273A
- Authority
- JP
- Japan
- Prior art keywords
- distortion
- unit
- speech
- information processing
- deformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
えて、かつその素片辞書を用いて良好な音声を再生す
る。 【解決手段】 入力したテキストデータを言語解析して
韻律を生成し、その韻律に基づいて音声データベース2
10から音声素片を検索する。この検索された音声素片
の変形歪、及び一つ前の音韻の音声素片との接続による
接続歪を求め、歪決定部411により、変形歪と接続歪
の重み付け等を行なってトータルの歪を決定する。次に
Nbest決定部413により、A*(エースター)探索ア
ルゴリズムを用いて歪が最小となる上位N通りの最適パ
スを求め、登録素片決定部415は上位N通りの最適パ
スから、その頻度順に素片辞書206に登録する登録素
片を選び出し、それを素片辞書に登録する。
Description
れる素片辞書を作成する音声情報処理装置及びその方法
と記憶媒体に関するものである。
製及び、或いは削除しながら所望のピッチ間隔で貼り合
わせて編集し(PSOLA:ピッチ同期波形重畳法)、それ
らの音声素片を接続して音声合成する音声合成方法が主
流となっている。
して音声合成された音声には、音声素片を編集すること
による歪(以下、変形歪)と、音声素片を接続すること
による歪(以下、接続歪)とが含まれる。これら2つの
歪が、合成された音声の品質劣化を引き起こす大きな要
因となる。中でも、素片辞書に登録できる音声素片の数
が制限される状況下では、音声合成時に、このような歪
が小さくなるように音声素片を選択する余地がほとんど
残されていない場合がある。特に、一つの音韻環境につ
いて1つの音声素片しか素片辞書に登録できない場合に
は、歪が小さくなるように音声素片を選択する余地は全
くなく、このような素片辞書を用いると、変形歪や接続
歪による合成音声の品質劣化は避けられないものとな
る。
で、接続歪や変形歪に基づき歪の影響を考慮して、素片
辞書に登録する音声素片を選択することによって音声合
成の音質劣化を抑制する音声情報処理装置及びその方法
と記憶媒体を提供することを目的とする。
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、音素素片を所定の韻律情報に基づいて編集す
ることによって生じる歪を求める歪出力手段と、音声合
成に使用する素片辞書に登録する音声素片を、前記歪出
力手段から出力された歪に基づいて選択する素片登録手
段と、を有することを特徴とする。
の音声素片と接続することによって生じる接続歪と前記
音声素片を変形することによって生じる変形歪とに基づ
いて、前記歪を求めることを特徴とする。
報処理方法は以下のような工程を備える。即ち、音素素
片を所定の韻律情報に基づいて編集することによって生
じる歪を求める歪出力工程と、音声合成に使用する素片
辞書に登録する音声素片を、前記歪出力工程で出力され
た歪に基づいて選択する素片登録工程と、を有すること
を特徴とする。
の好適な実施の形態を詳細に説明する。
形態に係る音声情報処理装置のハードウェア構成を示す
ブロック図である。尚、本実施の形態では、一般的なパ
ーソナルコンピュータを音声合成装置として用いる場合
について説明するが、本発明は専用の音声情報処理装置
であっても、また他の形態の装置であっても良い。
M)で、中央処理装置(CPU)102で使用される各
種制御データを記憶している。CPU102は、RAM
103に記憶された制御プログラムを実行して、この装
置全体の動作を制御している。103はメモリ(RA
M)で、CPU102による各種制御処理の実行時、ワ
ークエリアとして使用されて各種データを一時的に保存
するとともに、CPU102による各種処理の実行時、
外部記憶装置104から制御プログラムをロードして記
憶している。この外部記憶装置は、例えばハードディス
ク、CD−ROM等を含んでいる。105はD/A変換
器で、音声信号を示すデジタルデータが入力されると、
これをアナログ信号に変換してスピーカ109に出力し
て音声を再生する。106は入力部で、オペレータによ
り操作される、例えばキーボードや、マウス等のポイン
ティングデバイスを備えている。107は表示部で、例
えばCRTや液晶等の表示器を有している。108はバ
スで、これら各部を接続している。110は音声合成ユ
ニットである。
合成ユニット110を制御するための制御プログラムは
外部記憶装置104からロードされてRAM103に記
憶され、その制御プログラムで用いる各種データは、制
御メモリ101に記憶されている。これらのデータは、
中央処理装置102の制御の下にバス108を通じて適
宜メモリ103に取り込まれ、中央処理装置102によ
る制御処理で使用される。D/A変換器105は、制御
プログラムを実行することによって作成される音声波形
データ(ディジタル信号)をアナログ信号に変換してス
ピーカ109に出力する。
ット110のモジュール構成を示すブロック図で、この
音声合成ユニット110は、大きく分けて、素片辞書2
06に音声素片を登録するための処理を実行する素片辞
書作成モジュールと、テキストデータを入力し、そのテ
キストデータに対応する音声を合成して出力する処理を
行なう音声合成モジュールの2つのモジュールを有して
いる。
は外部記憶装置104から任意のテキストデータを入力
するテキスト入力部、202は解析辞書、203は言語
解析部、204は韻律生成規則保持部、205は韻律生
成部、206は素片辞書、207は音声素片選択部、2
08は音声素片編集・接続部、209は音声波形出力
部、210は音声データベース、211は素片辞書作成
部、212はテキストコーパスである。このテキストコ
ーパス212には、入力部106などを介して種々の内
容のテキストを入力することができる。
る。この音声合成モジュールでは、言語解析部203
が、解析辞書202を参照して、テキスト入力部201
から入力されるテキストの言語解析を行なう。こうして
解析された結果が韻律生成部205に入力される。韻律
生成部205は、言語解析部203における解析結果
と、韻律生成規則保持部204に保持されている韻律生
成規則に関する情報とを基に、音韻系列と韻律情報を生
成して音声素片選択部207及び音声素片編集・接続部
208に出力する。続いて、音声素片選択部207は、
韻律生成部205から入力される韻律生成結果を用い
て、素片辞書206に保持されている音声素片から対応
する音声素片を選択する。音声素片編集・接続部208
は、韻律生成部205から入力される韻律生成結果に従
って、音声素片選択部207から出力される音声素片を
編集及び接続して音声波形を生成する。こうして生成さ
れた音声波形は、音声波形出力部209で出力される。
明する。
1が、後述する手順に基づいて、音声データベース21
0の中から音声素片を選び出して素片辞書206に登録
する。
声合成処理について説明する。
る音声合成処理(オンライン処理)の流れを示すフロー
チャートである。
201は、文、文節、単語等の単位毎にテキストデータ
を入力してステップS302に移る。ステップS302
では、言語解析部203により当該テキストデータの言
語解析を行う。次にステップS303に進み、音韻生成
部205はステップS302で解析された結果と所定の
韻律規則とに基づいて、音韻系列と韻律情報を生成す
る。次にステップS304に進み、各音韻毎にステップ
S303で得られた韻律情報と所定の音韻環境とに基づ
いて、音声素片選択部207が素片辞書206に登録さ
れている音声素片を選択する。次にステップS305に
進み、その選択された音声素片及びステップS303で
生成された韻律情報とに基づいて、音声素片編集・接続
部208により音声素片の編集および接続を行なってス
テップS306に進む。ステップS306では、音声素
片編集・接続部208によって生成された音声波形を、
音声波形出力部209が音声信号として出力する。この
ようにして、入力されたテキストに対応する音声が出力
されることになる。
ールの、より詳細な構成を示すブロック図で、前述の図
2と共通する部分は同じ番号で示し、かつ本実施の形態
の特徴である素片辞書作成部211の構成をより詳細に
示している。
402は言語解析部、403は解析辞書、404は韻律
生成規則保持部、405は韻律生成部、406は音声素
片検索部、407は音声素片保持部、408は音声素片
編集部、409は変形歪決定部、410は接続歪決定
部、411は歪決定部、412は歪保持部、413はN
best決定部、414はNbest保持部、415は登録素片
決定部、416は登録素片保持部である。
ス212から、例えば文単位にテキストデータを取り出
して言語解析部402に出力する。言語解析部402
は、解析辞書403を参照してテキスト入力部401か
ら入力されたテキストデータを解析する。韻律生成部4
05は、言語解析部402で解析された解析結果に基づ
いて音韻系列を生成し、韻律生成規則保持部404が保
持する韻律生成規則(アクセントパターン、自然降下成
分、ピッチパターン等)を参照して韻律情報を生成す
る。音声素片検索部406は、韻律生成部405で生成
される韻律情報と音韻系列とに従って音声データベース
210から、各音韻毎に、所定の音韻環境を考慮した音
声素片を検索する。こうして検索された音声素片は一
旦、音声素片保持部407に保持される。音声素片編集
部408は、韻律生成部405で生成された韻律情報に
合わせて音声素片保持部407に保持されている音声素
片を編集する。この編集には、韻律情報に合わせて音声
素片同士を接続する処理や、またその音声素片同士の接
続に際して音声素片の一部を削除する等して変形する処
理などが含まれる。
前と変形後の音響的特徴の変化から変形歪を決定する。
接続歪決定部410は、音韻系列において一つ前の音声
素片の終端付近の音響的特徴と当該音声素片の始端付近
の音響的特徴から、これら音声素片同士が接続された場
合の接続歪を決定する。歪決定部411は、変形歪決定
部409で決定された変形歪と、接続歪決定部410で
決定された接続歪とを考慮し、音韻系列ごとにトータル
の歪(歪値ともいう)を決定する。歪保持部412は、
歪決定部411で決定された各音声素片に至る歪の値を
保持する。Nbest決定部413は、A*(エースター)
探索アルゴリズムを用いて、音韻系列毎に歪が最小とな
る上位N通りの最適パスを求める。Nbest保持部414
は、Nbest決定部413で求めたN個の最適パスを入力
テキストごとに保持する。登録素片決定部415は、N
best保持部414に保持されている、各音韻ごとにNbe
stの結果から、その頻度順に、素片辞書206に登録す
る音声素片を選び出す。登録素片保持部416は、登録
素片決定部415により選ばれた音声素片を保持する。
ルにおける処理の流れを示すフローチャートである。
401がテキストコーパス212から一文ずつテキスト
データを取り出す。取り出せるテキストデータが存在し
なくなると、最終的に登録する音声素片を決定するステ
ップS512に進む。テキストデータが存在する場合は
ステップS502に進み、言語解析部402において、
解析辞書403を使って、その入力されたテキストデー
タの言語解析を行なってステップS503に進む。ステ
ップS503では、韻律生成部405により、韻律生成
規則保持部404が保持する韻律生成規則と、ステップ
S502における言語解析結果とに基づいて韻律情報並
びに音韻系列を生成する。次にステップS504に進
み、ステップS503で生成された音韻系列内の各音韻
を順次処理する。このステップS504で未処理の音韻
が存在しない場合はステップS511に進むが、未処理
の音韻が存在する場合はステップS505に進む。ステ
ップS505において、音声素片検索部406は、各音
韻毎に音韻環境及び韻律規則を満足する音声素片を音声
データベース210から検索して音声素片保持部407
に保存する。
タとして「こんにちわ」が入力されると、それが言語解
析され、アクセントやイントネーション等を含む韻律情
報が生成される。そして、この「こんにちわ」は、例え
ばdiphoneを音韻の単位として用いた場合、以下
のような音韻系列に分解される。
声音を示す。
れた複数の音声素片について順次処理する。未処理の音
声素片が存在しない場合はステップS504に戻って次
の音韻の処理に進むが、存在する場合はステップS50
7に進んで、現在の音韻の音声素片を処理する。ステッ
プS507では、音声素片編集部408が、上述の音声
合成処理時と同じ手法を用いて音声素片の編集を行な
う。ここでいう音声素片の編集とは、例えばピッチ同期
波形重畳法(PSOLA)などの処理である。この音声素片
の編集には、その音声素片と韻律情報を用いる。音声素
片の編集が終了したらステップS508に進み、変形歪
決定部409により、現在の音声素片の変形前と変形後
における音響的特徴の変化を変形歪として算出する(こ
の詳細は後述する)。次にステップS509に進み、接
続歪決定部410により、現在の音声素片とその一つ前
の音韻の音声素片の全てとの接続歪を算出する(この処
理についても詳しく後述する)。次にステップS510
に進み、歪決定部411は、変形歪と接続歪から現在の
音声素片に至るパスの全てについて歪値を決定する(後
述する)。そして現在の音声素片に至るパスの歪値の上
位N個(N:求めたいNbestの個数)と、そのパスを表
わす一つ前の音韻の音声素片へのポインタを歪保持部4
12に保持してステップS506に戻り、現在の音韻に
おいて未処理の音声素片が存在するかどうかを調べる。
ける全ての音声素片が処理され、更にステップS504
で全ての音韻が処理されるとステップS511に進む。
ステップS511において、Nbest決定部413は、A
*探索アルゴリズムを用いたNbest探索を行ない、上位
N位までの最適パス(音声素片系列ともいう)を求め、
これをNbest保持部414に保持してステップS501
に戻る。
るとステップS501からステップS512に進み、登
録素片決定部415は、音韻ごとに全テキストのNbest
結果に基づいて所定の頻度の高い以上を選択して音声素
片を素片辞書206に登録する。尚、このNbestにおけ
るNの値は、予備実験などから経験的に与えておく。こ
うして決定された音声素片は、登録素片保持部416を
介して素片辞書206に登録される。
プS508における変形歪の求め方を説明する図であ
る。
げる場合について図示している。矢印はピッチマーク、
点線は変形前と変形後のピッチ素片の対応関係を表わし
ている。本実施の形態では、各ピッチ素片(微細素片と
もいう)の変形前後のケプストラム距離に基づいて変形
歪を表わす。具体的には、まず変形後のあるピッチ素片
(例えば60で示す)のピッチマーク61を中心にハニ
ング窓62(窓長25.6ミリ秒)をかけ、そのピッチ
素片60を周辺のピッチ素片を含めて切り出す。こうし
て切り出したピッチ素片60をケプストラム分析する。
次に、ピッチマーク61に対応する変形前のピッチ素片
63のピッチマーク64を中心にして同じ窓長のハニン
グ窓65でピッチ素片を切り出し、変形後の場合と同様
にしてケプストラムを求める。このようにして求めたケ
プストラム同士の距離を、着目しているピッチ素片60
の変形歪として、変形後のピッチ素片とそれに対応する
変形前のピッチ素片間の変形歪の総和をPSOLAで採用さ
れるピッチ素片数Npで割った値を、その音声素片の変
形歪とする。こうして求められる変形歪を式で記述する
と以下のようになる。
のΣはj=0〜16までの総和を示している。またCta
r i,jは、変形後のi番目のピッチ素片のケプストラム
のj次元目の要素を表わし、同様に、Corg i,jは、変
形後に対応する変形前のピッチ素片のケプストラムのj
次元目の要素を表わしている。
め方を説明する図である。
現在の音声素片との接続箇所において生じる歪を示し、
ここではケプストラム距離を用いて表わす。具体的に
は、音声素片境界が存在するフレーム70,71(フレ
ーム長5ミリ秒、分析窓幅25.6ミリ秒)と、それを
挟む前後それぞれ2フレームからなる計5フレームを接
続歪の算出対象としている。ここでケプストラムは、0
次(パワー)〜16次(パワー)までの計17次元ベク
トルとする。そして、このケプストラムベクトルの各要
素の差の絶対値の和を、現在注目している音声素片にお
ける接続歪とする。即ち、図7の700で示すように、
一つ前の音韻の音声素片における終端部のケプストラム
ベクトルの各要素をCpre i,j(i:フレーム番号、フ
レーム番号の“0”が音声素片境界があるフレームを示
し、jがベクトルの要素番号を示す)とする。また、図
7の701で示すように、注目音声素片における始端部
のケプストラムベクトルの各要素をCcur i,jとする
と、現在注目している音声素片の接続歪Dcは、 Dc=ΣΣ|Cpre i,j − Ccur i,j| となる。ここで最初のΣはi=−2〜2の総和を、次の
Σはj=0〜16までの総和を示す。
1による、音声素片における歪の決定過程を図示したも
のである。本実施の形態において、音韻単位はdiphone
(ダイフォン)とする。
音声素片を示し、円内の数字は、この音声素片に至る歪
値の総和の最小値を示している。また四角で囲まれた数
字は、一つ前の音韻の音声素片と現在注目している音韻
の音声素片との間の歪値を示している。また矢印は、現
在注目している音韻の音声素片と一つ前の音韻の音声素
片との関連を示している。ここでは説明のため、n番目
の音韻(現在注目している音韻)のm番目の音声素片を
Pn,mとする。この音声素片Pn,mの最も小さい歪値から
上位N個(N:求めたいNbestの数)までに対応する音
声素片を一つ前の音韻の中から取り出し、その中のk番
目の歪値をDn,m,kとし、その歪値に対応するの一つ前
の音韻の音声素片をPREn,m,kとすると、PREn,m,k
を介して音声素片Pn,mに至るパスにおける歪値の総和
Sn,m,kは、 Sn,m,k = Sn-1,x,0 + Dn,m,k (但し、x=P
REn,m,k) となる。
る。本実施の形態では歪値Dtotal(上記説明における
Dn,m,kに相当する)を、上述の接続歪Dcと変形歪Dt
の重み付き和として定義する。
係数で、w=0の場合は、歪値が変形歪Dtのみで説明
され、w=1の場合は、歪値が接続歪Dcのみに依存す
ることになる。
n,m毎に、上位N個の歪値Dn,m,kと、それらに対応する
一つ前の音韻の音声素片PREn,m,kと、PREn,m,kを
介してDn,m,kに至るパスの歪値の総和Sn,m,kをそれぞ
れ保持する。
mに至るパスの総和の最小値が「222」となる例を示
す。この時の音声素片Pn,mの歪値は、Dn,m,1(k=1)で
あり、この歪値Dn,m,1に対応する一つ前の音韻の音声
素片は、PREn,m,1(図8のPn-1,m81に相当する)
である。80は、音声素片PREn,m,1と音声素片Pn,m
とを接続するパスである。
である。
片において、上位N個の情報がそれぞれ求まっている
(フォワード探索)。Nbest決定部413では、音韻系
列の末尾の音声素片90から逆順に枝を伸ばしながらN
bestパスを求める(バックワード探索)。この枝を伸ば
すノードの選択は、予測値(線の横の数字)とそこに至
る総歪値の和(歪値は四角の中の数字で示される)が最
小となるものである。ここでいう予測値とは、音声素片
Pn,mにおけるフォワード探索結果の最小歪Sn,m,0に相
当する。この場合、予測値と実際に左端までに至る最小
パスの歪が等しいので、A*探索アルゴリズムの性質に
より最適パスが求まることが保証される。
態を示す図である。
数字が歪み予測値、太い実線が第一位のパス、四角の中
の数字が歪値、線の横の数字が予測歪み値を示してい
る。次に第2位のパスを求めるために、二重丸のノード
の中で、予測値とそこに至る総歪値の和が最小となるノ
ードを選択し、それに繋がる一つ前の音韻の音声素片の
全て(最大N個)に枝を伸ばす。この伸ばした先のノー
ドが二重丸で表現されている。この操作を繰り返すこと
により、上位N個のパスが総歪値の順に決定される。こ
の図9は、N=2として枝を伸ばした場合の例を示す図
である。
歪の最も小さいパスを形成する音声素片を選択して、そ
れを素片辞書に登録することができる。
は、音韻の単位としてdiphoneを用いる場合について記
述したが、本発明はこれに限定されるものではなく、音
素や半diphoneなどを単位としてもよい。半diphoneと
は、diphoneを音素境界で2つに分割したもののことで
ある。この半diphoneを単位とした場合のメリットにつ
いて簡単に説明する。任意のテキストを合成する場合、
素片辞書206は全種類のdiphoneを用意しておく必要
がある。これに対して、半diphoneを単位とした場合
は、足りない半diphoneを別の半diphoneで代替できる。
例えば、半diphoneの「/a.b.0/(diphonea.bの左側)」
の代わりに「/a.n.0/」を利用しても、音質の劣化を少
なくして良好に音声を再生できる。これにより、素片辞
書206のサイズをより小さくできる。
では、音韻の単位としてdiphoneや音素や半diphoneを用
いる場合について説明したが、本発明はこれに限定され
るものではなく、これらを混合して用いてもよい。例え
ば、利用頻度が高い音韻については、diphoneを単位と
し、利用頻度が低い音韻については、2つの半diphone
を用いて表現するようにしても良い。
一例を示した図で、ここでは音韻「o.w」がdiphoneで表
され、その前後の音韻は半diphoneで表されている。
元のデータベース中で連続する場所から取り出されたか
どうかの情報を持ち、連続していた場合は、半diphone
の組を仮想的にdiphoneとして扱うようにしてもよい。
つまり、元のデータベース中で連続するということは接
続歪が“0”であるため、この場合には変形歪だけを考
慮すればよいことになり計算量を大幅に軽減できる。
る。図中の線上の数字は接続歪を表している。
phoneの組は、元のデータベース中で連続する場所から
取り出されたものであり、その接続歪みは“0”に一義
的に決定されている。また1101で示された半diphon
eの組は、元のデータベース中で連続する場所から取り
出されたものではないため、それぞれに対して接続歪み
が計算される。
は,1単位のテキストデータから得られた音韻系列全体
を歪計算の対象とする場合について説明したが、本発明
はこれに限定されるものでない。例えば、ポーズや無音
部分までを一つの区間として音韻系列を分割し、各区間
ごとに歪計算を行ってもよい。ここで言う無音部分と
は、例えばp,t,kなどの無音部分のことである。ポーズ
や無音部分では接続歪が“0”であると考えられるた
め、このような分割が有効となる。これにより、各区間
毎に最適な音声素片の選択が可能となる。
は、接続歪の計算にケプストラムを用いる場合について
説明したが、本発明はこれに限定されるものではない。
例えば、接続点の前後に亙る波形の差分の和を用いて接
続歪を求めても良い。またスペクトル距離などを用いて
接続歪を求めてもよい。この場合、接続点はピッチマー
クに同期させるのが、より好ましい。
は、接続歪の計算において、窓長、シフト長、ケプスト
ラムの次数、フレーム数などを具体的数字を使って説明
したが、本発明はこれに限定されるものではない。任意
の窓長、シフト長、次数、フレーム数を使って接続歪を
算出してもよい。
は、接続歪の計算にケプストラムの次数ごとに差分を取
ったものの総和を用いる場合について説明したが、本発
明はこれに限定されるものではない。例えば、各次数を
統計的性質などを使って正規化(正規化係数rj)して
もよい。この場合の接続歪Dcは、 Dc=ΣΣ(rj×|Cpre i,j − Ccur i,j|) となる。ここで、最初のΣはi=−2〜2の総和を、次
のΣはj=0〜16までの総和を示す。
ストラムの次数ごとの差分の絶対値をベースに接続歪の
算出を行なう場合について説明したが、本発明はこれに
限定されるものではない。例えば、差分の絶対値の累乗
(累数が偶数の場合は絶対値でなくてもよい)をベース
に接続歪の算出を行なってもよい。ここで累数をNとす
ると、接続歪Dcは、 Dc=ΣΣ|Cpre i,j − Ccur i,j|^N となる。ここで“^N”はNの累乗を示す。ここでNの値
を大きくすることは、大きな差分について敏感になるこ
とを意味しているので、その結果、接続歪が平均的に小
さくなるように働くことになる。
は、変形歪としてケプストラムを用いる場合について説
明したが、本発明はこれに限定されるものではない。例
えば、変形前後の一定区間の波形の差分の和を用いて変
形歪を求めてもよい。また、スペクトル距離などを用い
て変形歪を求めてもよい。
は、変形歪を波形から得られる情報を基に算出する場合
について説明したが、本発明はこれに限定されるもので
はない。例えば、PSOLAによるピッチ素片の削除および
複製の回数などを変形歪を算出する要素としても良い。
は、音声素片を読み出すごとに接続歪を計算する場合に
ついて説明したが、本発明はこれに限定されるものでは
ない。例えば、接続歪を予め計算しておき、テーブル化
して保持してもよいものとする。
r.i/」との間の接続歪を記憶したテーブルの一例を示す
図である。ここでは縦軸に「/a.r/」の音声素片、横軸
に「/r.i/」の音声素片をとっている。例えば、「/a.r
/」の「id3」の音声素片と「/r.i/」の「id2」の音声素
片との接続歪は“3.6”で表されている。このように
接続可能なdiphone間の接続歪を全てテーブル化して用
意することにより、音声素片同士の合成時の接続歪の算
出がテーブルの参照だけで済むため、その計算量を大幅
に軽減でき、算出時間を大幅に短縮できる。
は、音声素片を編集する毎に変形歪を計算する場合につ
いて説明したが、本発明はこれに限定されるものではな
い。例えば、変形歪を予め計算しておき、テーブルとし
て保持しておいても良い。
韻時間長について変化させた場合の変形歪をテーブルで
表した図である。
値を示し、σは標準偏差である。具体的な表の作成方法
としては、次のような作成方法が考えられる。まず、基
本周波数と音韻時間長に関して統計的に平均値と分散を
求める。次に、それらを基に(5×5=)25通りの基
本周波数と音韻時間長をターゲットとしてPSOLA法をそ
れぞれ適用し、テーブルの変形歪を一つずつ求めていけ
ばよい。合成時は、ターゲットの基本周波数と音韻時間
長が決まれば、テーブルの近傍の値で内挿(もしくは外
挿)することによって、変形歪を推定することが可能で
ある。
の具体例を示した図である。
韻時間長であり、このとき、各格子点の変形歪がテーブ
ルからA,B,C,Dと求まっていると仮定すると、変
形歪Dtは、以下の式により求めることができる。 Dt={A・(1−y)+C・y}×(1−x)+{B・(1−
y)+D・y}×x
では、変形歪テーブルの格子点として、そのdiphoneの
統計的な平均値と標準偏差を基に5×5のテーブルを作
成したが、本発明はこれに限定されるものではなく、任
意の格子点を持つテーブルとしてもよい。また、格子点
を平均値などに依らず決定的に与えてもよいものとす
る。例えば、韻律推定で推定されうる範囲を等分割する
などもよいものとする。
は、接続歪と変形歪の重み和で歪を定量化する場合につ
いて説明したが本発明はこれに限定されるものではな
く、接続歪と変形歪それぞれに閾値を設定しておき、ど
ちらか一方でもその閾値を越えた場合はその音声素片が
選択されないようにして、十分大きな歪の値を与えるよ
うにしてもよい。
計算機上で構成する場合について説明したが本発明はこ
れに限定されるものではなく、例えばネットワーク上に
分散した計算機や処理装置などに分かれて各部を構成し
てもよい。
制御メモリ(ROM)に保持する場合について説明した
が本発明はこれに限定されるものではなく、外部記憶な
ど任意の記憶媒体を用いて実現してもよい。また、同様
の動作をする回路で実現してもよい。
システムに適用しても、1つの機器からなる装置に適用
してもよい。前述した実施の形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはCPUやMPU)が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても達成される。
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記録した記録媒
体は本発明を構成することになる。プログラムコードを
供給するための記録媒体としては、例えば、フロッピー
(登録商標)ディスク、ハードディスク、光ディスク、
光磁気ディスク,CD−ROM,CD−R,磁気テー
プ、不揮発性のメモリカード、ROMなどを用いること
ができる。
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているOSなど
が実際の処理の一部または全部を行ない、その処理によ
って前述した実施の形態の機能が実現される場合も含ま
れる。
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれるものとする。
ば、接続歪と変形歪を考慮して素片辞書に登録する音声
素片を選択することにより、少数の音声素片を登録した
辞書を用いても、音質の劣化が少ない合成音声を生成で
きるという効果がある。
続歪や変形歪に基づく歪の影響を考慮して素片辞書に登
録する音声素片を選択することによって、そのような素
片辞書を用いた合成音声の質を向上できるという効果が
ある。
音声素片の数を少なく抑えて、かつその素片辞書を用い
て良好な音声を再生できるという効果がある。
ハードウェア構成を示すブロック図である。
のモジュール構成を示すブロック図である。
ける処理の流れを示すフローチャートである。
細な構成を示すブロック図である。
おける処理の流れを示すフローチャートである。
明する図である。
説明する図である。
ある。
をdiphoneと半diphoneとで混合した場合を説明する図で
ある。
を取り出した半diphoneによって混合した例を示した図
である。
a.r/ と/r.i/間の接続歪を決定するテーブル構成例を示
す図である。
すテーブル例を示す図である。
する具体例を示した図である。
Claims (21)
- 【請求項1】 音素素片を所定の韻律情報に基づいて編
集することによって生じる歪を求める歪出力手段と、 音声合成に使用する素片辞書に登録する音声素片を、前
記歪出力手段から出力された歪に基づいて選択する素片
登録手段と、を有することを特徴とする音声情報処理装
置。 - 【請求項2】 前記歪出力手段は、前記音声素片を他の
音声素片と接続することによって生じる接続歪と前記音
声素片を変形することによって生じる変形歪とに基づい
て、前記歪を求めることを特徴とする請求項1に記載の
音声情報処理装置。 - 【請求項3】 テキストデータを入力するテキスト入力
手段と、 前記入力されたテキストデータの言語解析を行なう言語
解析手段と、 前記言語解析手段による解析結果に基づいて前記所定の
韻律情報を生成する韻律生成手段を更に有することを特
徴とする請求項1又は2に記載の音声情報処理装置。 - 【請求項4】 前記接続歪及び変形歪により決定される
歪を基準として音声素片系列のNbest系列を求めるNbe
st決定手段を更に有し、 前記素片登録手段は、前記音声素片系列のNbest系列を
基に前記素片辞書に登録する音声素片を選択することを
特徴とする請求項2又は3に記載の音声情報処理装置。 - 【請求項5】 前記素片登録手段は、前記接続歪と前記
変形歪との重み付き加算に基づいて、前記素片辞書に登
録する音声素片を選択することを特徴とする請求項2又
は3に記載の音声情報処理装置。 - 【請求項6】 前記歪出力手段は、各音声素片のケプス
トラム距離を用いて前記接続歪を決定することを特徴と
する請求項2乃至5のいずれか1項に記載の音声情報処
理装置。 - 【請求項7】 前記歪出力手段は、変形前の音声素片と
変形後の音声素片におけるケプストラム距離を用いて前
記変形歪を決定することを特徴とする請求項2乃至5の
いずれか1項に記載の音声情報処理装置。 - 【請求項8】 前記歪出力手段は、前記変形歪を記憶し
たテーブルを有し、当該テーブルを参照して前記変形歪
を決定することを特徴とする請求項2乃至5のいずれか
1項に記載の音声情報処理装置。 - 【請求項9】 前記歪出力手段は、前記接続歪を記憶し
たテーブルを有し、当該テーブルを参照して前記接続歪
を決定することを特徴とする請求項2乃至5のいずれか
1項に記載の音声情報処理装置。 - 【請求項10】 前記素片辞書を用いてテキストデータ
を音声合成する音声合成手段を更に有することを特徴と
する1乃至9のいずれか1項に記載の音声情報処理装
置。 - 【請求項11】 音素素片を所定の韻律情報に基づいて
編集することによって生じる歪を求める歪出力工程と、 音声合成に使用する素片辞書に登録する音声素片を、前
記歪出力工程で出力された歪に基づいて選択する素片登
録工程と、を有することを特徴とする音声情報処理方
法。 - 【請求項12】 前記歪出力工程は、前記音声素片を他
の音声素片と接続することによって生じる接続歪と前記
音声素片を変形することによって生じる変形歪とに基づ
いて、前記歪を求めることを特徴とする請求項11に記
載の音声情報処理方法。 - 【請求項13】 テキストデータを入力するテキスト入
力工程と、 前記入力されたテキストデータの言語解析を行なう言語
解析工程と、 前記言語解析工程による解析結果に基づいて前記所定の
韻律情報を生成する韻律生成工程を更に有することを特
徴とする請求項11又は12に記載の音声情報処理方
法。 - 【請求項14】 前記接続歪及び変形歪により決定され
る歪を基準として音声素片系列のNbest系列を求めるN
best決定工程を更に有し、 前記素片登録工程では、前記Nbest系列を基に前記素片
辞書に登録する音声素片を選択することを特徴とする請
求項12又は13に記載の音声情報処理方法。 - 【請求項15】 前記素片登録工程では、前記接続歪と
前記変形歪との重み付き加算に基づいて、前記素片辞書
に登録する音声素片を選択することを特徴とする請求項
12又は13に記載の音声情報処理方法。 - 【請求項16】 前記歪出力工程では、各音声素片のケ
プストラム距離を用いて前記接続歪を決定することを特
徴とする請求項12乃至15のいずれか1項に記載の音
声情報処理方法。 - 【請求項17】 前記歪出力工程では、変形前の音声素
片と変形後の音声素片におけるケプストラム距離として
変形歪を定量化して決定することを特徴とする請求項1
2乃至15のいずれか1項に記載の音声情報処理方法。 - 【請求項18】 前記歪出力工程では、前記変形歪を記
憶したテーブルを有し、当該テーブルを参照して前記変
形歪を決定することを特徴とする請求項12乃至15の
いずれか1項に記載の音声情報処理方法。 - 【請求項19】 前記歪出力工程では、前記接続歪を示
すテーブルを有し、当該テーブルを参照して前記接続歪
を決定することを特徴とする請求項12乃至15のいず
れか1項に記載の音声情報処理方法。 - 【請求項20】 前記素片辞書を用いてテキストデータ
を音声合成する音声合成工程を更に有することを特徴と
する11乃至19のいずれか1項に記載の音声情報処理
方法。 - 【請求項21】 請求項11乃至20のいずれか1項に
記載の方法を実行するプログラムを記憶したことを特徴
とする、コンピュータにより読取り可能な記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099420A JP4454780B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理装置とその方法と記憶媒体 |
US10/928,114 US7039588B2 (en) | 2000-03-31 | 2004-08-30 | Synthesis unit selection apparatus and method, and storage medium |
US11/295,653 US20060085194A1 (en) | 2000-03-31 | 2005-12-07 | Speech synthesis apparatus and method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099420A JP4454780B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理装置とその方法と記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001282273A true JP2001282273A (ja) | 2001-10-12 |
JP2001282273A5 JP2001282273A5 (ja) | 2007-05-24 |
JP4454780B2 JP4454780B2 (ja) | 2010-04-21 |
Family
ID=18613780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000099420A Expired - Fee Related JP4454780B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理装置とその方法と記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4454780B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030060588A (ko) * | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법 |
JP2006189554A (ja) * | 2005-01-05 | 2006-07-20 | Mitsubishi Electric Corp | テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2010078808A (ja) * | 2008-09-25 | 2010-04-08 | Toshiba Corp | 音声合成装置及び方法 |
JP2011221486A (ja) * | 2010-03-26 | 2011-11-04 | Toshiba Corp | 音声編集方法、装置及び音声合成方法 |
-
2000
- 2000-03-31 JP JP2000099420A patent/JP4454780B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030060588A (ko) * | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법 |
JP2006189554A (ja) * | 2005-01-05 | 2006-07-20 | Mitsubishi Electric Corp | テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2010078808A (ja) * | 2008-09-25 | 2010-04-08 | Toshiba Corp | 音声合成装置及び方法 |
JP2011221486A (ja) * | 2010-03-26 | 2011-11-04 | Toshiba Corp | 音声編集方法、装置及び音声合成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4454780B2 (ja) | 2010-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6980955B2 (en) | Synthesis unit selection apparatus and method, and storage medium | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
US8738381B2 (en) | Prosody generating devise, prosody generating method, and program | |
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
US20060085194A1 (en) | Speech synthesis apparatus and method, and storage medium | |
WO2005109399A1 (ja) | 音声合成装置および方法 | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP4632384B2 (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
JPH0632020B2 (ja) | 音声合成方法および装置 | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP4454780B2 (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
JP2004226505A (ja) | ピッチパタン生成方法、音声合成方法とシステム及びプログラム | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP2004354644A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP3576792B2 (ja) | 音声情報処理方法 | |
JP2011191528A (ja) | 韻律作成装置及び韻律作成方法 | |
JP2004233774A (ja) | 音声合成方法及び装置、並びに音声合成プログラム | |
JPH11249676A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070327 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070327 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100203 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140212 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |