JP2001282278A

JP2001282278A - 音声情報処理装置及びその方法と記憶媒体

Info

Publication number: JP2001282278A
Application number: JP2000099533A
Authority: JP
Inventors: Yasuo Okuya; 泰夫奥谷; Yasuhiro Komori; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2001-10-12
Also published as: US20010032079A1

Abstract

(57)【要約】【課題】接続歪と変形歪に基づく歪が小さくなるよう
に音声素片を選択して、音声合成の音質劣化を抑制す
る。【解決手段】所定の音韻環境に対応付けて複数の音声
素片を保持する音声素片保持部２０６から音韻環境に対
応する複数の音声素片を抽出し（Ｓ４０２）、それら抽
出された複数の音声素片のそれぞれの歪を算出し（Ｓ４
０４）、音韻環境に基づいて決定される所定区間内で最
小歪を求め（Ｓ４０５）、最小歪経路となる音声素片列
を選択し（Ｓ４０６）、その音声素片を編集・接続して
音声合成を行なう。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声素片を編集、
接続して音声合成を行なう音声情報処理装置及びその方
法と、その方法を実現するプログラムを記憶した記憶媒
体に関するものである。

【０００２】

【従来の技術】近年、テキストデータを入力し、そのテ
キストデータを言語解析してポーズ部分、無音時間の長
さ、アクセントの生成などを行なって韻律情報を生成
し、更に、その韻律情報に従って音声素片を記憶してい
る素片辞書を検索し、対応する音声素片を読み出して音
声合成する音声合成装置が知られている。

【０００３】このような音声合成装置では、その読み出
した音声素片を１ピッチ波形単位で複製、削除しなが
ら、所望のピッチ間隔で貼り合わせて編集し（PSOLA：
ピッチ同期波形重畳法）、それらの音声素片を接続する
音声合成方式が主流となっている。

【０００４】

【発明が解決しようとする課題】このような技術を利用
して合成された音声には、音声素片を編集（変形）する
ことによる歪（以下、変形歪）と、音声素片同士を接続
することによって生じる歪（以下、接続歪）とが含ま
れ、これら２つの歪が合成音声の品質劣化を引き起こす
大きな要因となっている。

【０００５】本発明は上記従来例に鑑みてなされたもの
で、接続や変形に基づく歪の影響を小さくする音声情報
処理装置及びその方法と、その方法を実現するプログラ
ムを記憶した記憶媒体を提供することを目的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、音声素片を所定の韻律情報に基づいて編集す
ることによって生じる歪を求める歪出力手段と、前記歪
出力手段から出力された歪に基づいて、音声合成に使用
する音声素片を選択する選択手段と、前記選択手段によ
り選択された音声素片に基づいて、音声合成を行う音声
合成手段と、を有することを特徴とする。

【０００７】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、音声素
片を所定の韻律情報に基づいて編集することによって生
じる歪を求める歪出力工程と、前記歪出力工程で出力さ
れた歪に基づいて、音声合成に使用する音声素片を選択
する選択工程と、前記選択工程で選択された音声素片に
基づいて、音声合成を行う音声合成工程と、を有するこ
とを特徴とする。

【０００８】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。

【０００９】［実施の形態１］図１は、本発明の実施の
形態に係る音声合成装置のハードウェア構成を示すブロ
ック図である。尚、本実施の形態では、一般的なパーソ
ナルコンピュータを音声合成装置として用いる場合につ
いて説明するが、本発明は専用の音声合成装置であって
も、また他の形態の装置であっても良い。

【００１０】図１において、１０１は制御メモリ（ＲＯ
Ｍ）で、中央処理装置（ＣＰＵ）１０２で使用される各
種制御データを記憶している。ＣＰＵ１０２は、ＲＡＭ
１０３に記憶された制御プログラムを実行して、この装
置全体の動作を制御している。１０３はメモリ（ＲＡ
Ｍ）で、ＣＰＵ１０２による各種制御処理の実行時、ワ
ークエリアとして使用されて各種データを一時的に保存
するとともに、ＣＰＵ１０２による各種処理の実行時、
外部記憶装置１０４から制御プログラムをロードして記
憶している。この外部記憶装置は、例えばハードディス
ク、ＣＤ−ＲＯＭ等を含んでいる。１０５はＤ／Ａ変換
器で、音声信号を示すデジタルデータが入力されると、
これをアナログ信号に変換してスピーカ１０９に出力し
て音声を再生する。１０６は入力部で、オペレータによ
り操作される、例えばキーボードや、マウス等のポイン
ティングデバイスを備えている。１０７は表示部で、例
えばＣＲＴや液晶等の表示器を有している。１０８はバ
スで、これら各部を接続している。１１０は音声合成ユ
ニットである。

【００１１】以上の構成において、本実施の形態の音声
合成ユニット１１０を制御するための制御プログラムは
外部記憶装置１０４からロードされてＲＡＭ１０３に記
憶され、その制御プログラムで用いる各種データは制御
メモリ１０１に記憶されている。これらのデータは、中
央処理装置１０２の制御の下にバス１０８を通じて適宜
メモリ１０３に取り込まれ、中央処理装置１０２による
制御処理で使用される。Ｄ／Ａ変換器１０５は、制御プ
ログラムを実行することによって作成される音声波形デ
ータ（ディジタル信号）をアナログ信号に変換してスピ
ーカ１０９に出力する。

【００１２】図２は、本実施の形態に係る音声合成ユニ
ット１１０の構成を示すブロック図である。

【００１３】図２において、２０１は入力部１０６や外
部記憶装置１０４から任意のテキストデータを入力する
テキスト入力部、２０２は解析辞書、２０３は言語解析
部、２０４は韻律生成規則保持部、２０５は韻律生成
部、２０６は素片辞書である音声素片保持部、２０７は
音声素片選択部、２０８は音声素片編集・接続部、２０
９は音声波形出力部である。

【００１４】以上の構成において、言語解析部２０３
が、解析辞書２０２を参照して、テキスト入力部２０１
から入力されるテキストの言語解析を行なう。こうして
解析された結果が韻律生成部２０５に入力される。韻律
生成部２０５は、言語解析部２０３における解析結果
と、韻律生成規則保持部２０４に保持されている韻律生
成規則に関する情報とを基に音韻系列と韻律情報を生成
して音声素片選択部２０７及び音声素片編集・接続部２
０８に出力する。続いて、音声素片選択部２０７は、韻
律生成部２０５から入力される韻律生成結果を用いて、
音声素片保持部２０６に保持されている音声素片から対
応する音声素片を選択する。音声素片編集・接続部２０
８は、韻律生成部２０５から入力される韻律生成結果に
従って、音声素片選択部２０７から出力される音声素片
を編集及び接続して音声波形を生成する。こうして生成
された音声波形は、音声波形出力部２０９で出力され
る。

【００１５】次に、上記構成を備えた本実施の形態の音
声合成処理について説明する。

【００１６】図３は、本実施の形態に係る音声合成ユニ
ット１１０における音声合成処理の流れを示すフローチ
ャートである。

【００１７】まずステップＳ３０１で、テキスト入力部
２０１は、文、文節、単語等の単位毎に、テキストデー
タを入力してステップＳ３０２に移る。ステップＳ３０
２では、言語解析部２０３により当該テキストデータの
言語解析を行う。次にステップＳ３０３に進み、音韻生
成部２０５は、ステップＳ３０２で解析された結果と所
定の韻律規則とに基づいて、音韻系列と韻律情報を生成
する。次にステップＳ３０４に進み、各音韻毎に、ステ
ップＳ３０３で得られた韻律情報と所定の音韻環境とに
基づいて、音声素片選択部２０７が音声素片保持部２０
６に登録されている音声素片を選択する。次にステップ
Ｓ３０５に進み、その選択された音声素片及びステップ
Ｓ３０３で生成された韻律情報とに基づいて、音声素片
編集・接続部２０８により音声素片の編集および接続を
行なってステップＳ３０６に進む。ステップＳ３０６で
は、音声素片編集・接続部２０８によって生成された音
声波形を、音声波形出力部２０９が音声信号として出力
する。このようにして、入力されたテキストに対応する
音声が出力されることになる。

【００１８】図４は、図３のステップＳ３０４（音声素
片選択）の処理の詳細を示すフローチャートである。

【００１９】このステップＳ３０４では、音声素片同士
の接続歪（後述する）と、音声素片の変形歪（後述す
る）とに基づいて決定される歪値（後述）に従って、動
的計画法により、入力テキストデータの全体に亙って歪
値が最小となる音声素片系列を決定する。つまり、韻律
生成部２０５が生成する音韻系列Ｐn（０≦ｎ＜Ｎ）の
先頭（ｎ＝０）から順に処理することになる。まず最初
のｎ＝０にセットし、ステップＳ４０１で、音韻系列の
終端まで処理が終了していない場合、つまりｎ＜Ｎの場
合はステップＳ４０２に進み、ｎ番目の音韻における音
声素片の候補を音声素片保持部２０６から取り出し、そ
れら音声素片の候補の個数をＭnとしてステップＳ４０
３に進む。ステップＳ４０３では、まず最初にｍ＝０に
セットし、上記ｎ，ｍで特定される音声素片候補Ｐn,m
（０≦ｍ＜Ｍn）に着目し、ｎ番目の音韻における音声
素片の候補の先頭（ｍ＝０）から順に処理すして、候補
の最後まで処理が終了していない場合、つまりｍ＜Ｍn
の場合はステップＳ４０４に進むが、最後まで処理が終
了した場合は、次の音韻の処理に移行するためｎ＝ｎ＋
１としてステップＳ４０１に戻る。ステップＳ４０４で
は、一つ前の音韻Ｐn-1の各音声素片候補Ｐn-1,k（０≦
ｋ＜Ｍn-1：Ｍn-1は一つ前の音韻Ｐn-1の音声素片候補
の数）と、候補Ｐn,mとの間の歪値Ｄk,mをそれぞれ計算
してステップＳ４０５に進む。ステップＳ４０５では、
候補Ｐn,mに至るまでの歪値の総和の最小値である総和
Ｓn,mを求める。この総和Ｓn,mは、次式で表現される。

【００２０】Ｓn,m ＝ min（Ｓn-1,k ＋Ｄk,m ）：０≦ｋ＜Ｍn-1 この式において、min（）は、ｋを“０”から“Ｍn-1”
まで変化させた場合の最小値を意味する。また、そのと
きのｋの値をＰＲＥn,mとして保持しておく。このＰＲ
Ｅn,mは、候補Ｐn,mに至るまでの歪値の総和が最小とな
る経路を示し、ステップＳ４０６において最小歪経路を
特定するために利用される。この候補Ｐn,mの総和Ｓn,m
とＰＲＥn,mが決定したら、次の音声素片候補に対する
処理を行なうためにｍ＝ｍ＋１としてステップＳ４０３
に戻る。

【００２１】こうしてステップＳ４０１で、最終である
Ｎ番目の音韻系列までの処理が終了するとステップＳ４
０６に進み、総和ＳN-1,m（０≦ｍ＜Ｍn）が最小となる
候補ＰN-1,mを特定し、そこから順次ＰＲＥn,mを辿るこ
とによって最小歪経路となる音声素片系列を特定する。
こうして音声素片系列が特定されたら図３のステップＳ
３０５に進んで、これら特定された音声素片の編集・接
続を実行する。

【００２２】図５は、ｎ番目の音韻（現在注目している
音韻）の音声素片候補Ｐn,1における総和Ｓn,1の算出を
模式的に示した図である。本実施の形態では、音韻の単
位としてdiphoneを採用した場合について記述する。

【００２３】図中、一つの円が音声素片の１候補Ｐn,m
を示し、円内の数字が歪値の総和の最小値である総和Ｓ
n,mを示している。また矢印は、上述のＰＲＥn,mを指
す。また、四角で囲まれた数字は、音声素片候補Ｐn,m
の歪値Ｄk,mを表わしている。

【００２４】次に、本実施の形態における歪値について
説明する。

【００２５】ここでは、歪値Ｄk,mを接続歪Ｄcと変形歪
Ｄtの重み付き和として定義する。即ち、Ｄ＝ｗ×Ｄc ＋（１−ｗ）×Ｄt ：（０≦ｗ≦１）ここで、重み係数ｗは、予備実験など経験的に求める係
数で、ｗ＝０の場合は、歪値が変形歪Ｄtのみで説明さ
れ、ｗ＝１の場合は歪値が接続歪Ｄcのみに依存するこ
とになる。

【００２６】図５では、音声素片候補Ｐn,1の一つ前の
音韻の音声素片候補Ｐn-1,2５０との間の歪値Ｄ2,1が
“３”であり、音声素片候補Ｐn-1,2５０に至るまでの
歪値の総和Ｓn-1,2が“８”であるため、経路５１がＰ
ＲＥn,1として決定される。

【００２７】図６は、本実施の形態における接続歪Ｄc
の求め方を説明する図である。

【００２８】接続歪Ｄcは、一つ前の音声素片と現在の
音声素片との接続箇所において生じる歪で、本実施の形
態では、ケプストラム距離を用いて表す。ここでは、音
声素片境界が存在するフレーム６０，６１（フレーム長
５ミリ秒、分析窓幅２５.６ミリ秒）と、それを挟む前
後それぞれの２フレームからなる計５フレームを接続歪
の算出対象とする。ケプストラムは、０次（パワー）〜
１６次（パワー）までの計１７次元とする。このケプス
トラムベクトルの各要素の差の絶対値の和を、現在注目
している音声素片における接続歪とする。一つ前の音声
素片における終端部のケプストラムベクトルの各要素を
Ｃp i,j（ｉはフレーム番号で、ｉ＝０が音声素片境界
があるフレームである。ｊはベクトルの要素番号を示
す）、当該音声素片における始端部のケプストラムベク
トルの各要素をＣc i,jとすると、現在注目している音
声素片の接続歪Ｄcは、Ｄc＝ΣΣ｜Ｃp i,j − Ｃc i,j｜となる。ここで最初のΣはｉ＝−２〜２の総和を示し、
次のΣはｊ＝０〜１６の総和を示している。

【００２９】図７は、本実施の形態に係る変形歪Ｄcの
求め方を説明する図である。

【００３０】ここでは、PSOLA法によりピッチ間隔を広
げる場合について図示している。矢印はピッチマーク、
点線は変形前と変形後のピッチ素片の対応関係を表わし
ている。本実施の形態では、各ピッチ素片（微細素片と
もいう）の変形前後のケプストラム距離に基づいて変形
歪を表す。具体的には、まず、変形後のあるピッチ素片
（例えば７０で示す）のピッチマーク７１を中心にハニ
ング窓７２（窓長２５.６ミリ秒）をかけ、そのピッチ
素片７０を周辺のピッチ素片を含めて切り出す。こうし
て切り出したピッチ素片７０をケプストラム分析する。
次に、ピッチマーク７１に対応する変形前のピッチ素片
７３のピッチマーク７４を中心にして同じ窓長のハニン
グ窓７５でピッチ素片を切り出し、変形後の場合と同様
にしてケプストラムを求める。このようにして求めたケ
プストラム同士の距離を、着目しているピッチ素片７０
の変形歪として、変形後のピッチ素片とそれに対応する
変形前のピッチ素片間の変形歪の総和をPSOLAで採用さ
れるピッチ素片数Ｎpで割った値を、その音声素片の変
形歪とする。こうして求められる変形歪を式で記述する
と以下のようになる。

【００３１】Ｄt ＝ ΣΣ｜Ｃorg i,j − Ｃtar i,j｜／Ｎp ここで最初のΣは、ｉ＝１からＮまでの総和を示し、次
のΣはｊ＝０〜１６までの総和を示している。またＣta
r i,jは、変形後のｉ番目のピッチ素片のケプストラム
のｊ次元目の要素を表わし、同様に、Ｃorg i,jは、変
形後に対応する変形前のピッチ素片のケプストラムのｊ
次元目の要素を表わしている。

【００３２】このように本実施の形態１によれば、各音
声素片における接続歪及び変形歪を求め、これら歪を基
に重み付け計算を行なって各音声素片における歪値を求
め、この歪値の総和が最小となる音声素片系列を特定し
て音声合成することにより、良好な音声合成結果を得る
ことができるという効果がある。

【００３３】［実施の形態２］前述の実施の形態１で
は、音韻の単位としてdiphoneを用いる場合について記
述したが、本発明はこれに限定されるものではなく、音
素や半diphoneなどを単位としてもよい。半diphoneと
は、diphoneを音素境界で２つに分割したもののことで
ある。

【００３４】図８は、半diphoneを単位とした場合の概
念図である。この半diphoneを単位とした場合のメリッ
トについて簡単に説明する。任意のテキストを合成する
場合、素片辞書は、全種類のdiphoneを用意しておく必
要がある。これに対して、半diphoneを単位とした場合
は、足りない半diphoneを別の半diphoneで代替できる。
例えば、半diphoneの「/a.b.0/(diphone a.bの左
側）」の代わりに「/a.n.0/」を利用しても、音質の劣
化を少なくして良好に音声を再生できる。これにより、
素片辞書のサイズをより小さくできる。

【００３５】［実施の形態３］前述の実施の形態１及び
２では、音韻の単位としてdiphoneや音素や半diphoneを
用いる場合について説明したが、本発明はこれに限定さ
れるものではなく、これらを混合して用いてもよい。例
えば、利用頻度が高い音韻については、diphoneを単位
として、利用頻度が低い音韻については、２つの半diph
oneを用いて表現するようにしても良い。

【００３６】図９は、音声素片単位を混合した場合の一
例を示した図で、ここでは音韻「o.w」がdiphoneで表さ
れ、その前後の音韻は半diphoneで表されている。

【００３７】［実施の形態４］実施の形態３において、
元のデータベース中で連続する場所から取り出されたか
どうかの情報を持ち、連続していた場合は、半diphone
の組を仮想的にdiphoneとして扱うようにしてもよい。
つまり、元のデータベース中で連続するということは接
続歪が“０”であるため、この場合には変形歪だけを考
慮すればよいことになり計算量を大幅に軽減できる。

【００３８】図１０は、この様子を表わした概念図であ
る。図中の線上の数字は接続歪を表している。

【００３９】図１０において、１１００で示される半di
phoneの組は、元のデータベース中で連続する場所から
取り出されたものであり、その接続歪みは“０”に一義
的に決定されている。また１１０１で示された半diphon
eの組は、元のデータベース中で連続する場所から取り
出されたものではないため、それぞれに対して接続歪み
が計算される。

【００４０】［実施の形態５］上述の実施の形態１で
は、動的計画法を、１単位のテキストデータから得られ
た音韻系列全体に対して適用する場合について説明した
が、本発明はこれに限定されるものではない。例えば、
ポーズや無音部分までを一つの区間として音韻系列を分
割し、各区間毎に動的計画法を実行してもよい。尚、こ
こで言う無音部分とは、p,t,kなどの無音部分のことで
ある。このようなポーズや無音部分では、接続歪が
“０”であると考えられるため、このような分割が有効
となる。これにより、区間ごとに適当な選択結果を得る
ことができるだけでなく、合成音声の生成に要する時間
が短縮できる。

【００４１】［実施の形態６］前述の実施の形態１で
は、接続歪の計算にケプストラムを用いる場合について
説明したが、本発明はこれに限定されるものではなく
い。例えば、接続点の前後に亙る波形の差分の和を用い
て接続歪を求めてもよい。またスペクトル距離などを用
いて接続歪を求めてもよい。この場合、接続点はピッチ
マークに同期させるのが、より好ましい。

【００４２】［実施の形態７］前述の実施の形態１で
は、接続歪の計算において、窓長、シフト長、ケプスト
ラムの次数、フレーム数などを具体的数字を使って説明
したが、本発明はこれに限定されるものではない。任意
の窓長、シフト長、次数、フレーム数を使って接続歪を
算出してもよい。

【００４３】［実施の形態８］前述の実施の形態１で
は、接続歪の計算にケプストラムの次数ごとに差分を取
ったものの総和を用いる場合について説明したが、本発
明はこれに限定されるものではない。例えば、各次数を
統計的性質などを使って正規化（正規化係数ｒj）して
もよい。この場合の接続歪Ｄcは、Ｄc＝ΣΣ（ｒj×｜Ｃpre i,j − Ｃcur i,j｜）となる。ここで、最初のΣはｉ＝−２〜２の総和を、次
のΣはｊ＝０〜１６までの総和を示す。

【００４４】［実施の形態９］実施の形態１では、ケプ
ストラムの次数ごとの差分の絶対値をベースに接続歪の
算出を行なう場合について説明したが、本発明はこれに
限定されるものではない。例えば、差分の絶対値の累乗
（累数が偶数の場合は絶対値でなくてもよい）をベース
に接続歪の算出を行なってもよい。ここで累数をＮとす
ると、接続歪Ｄcは、Ｄc＝ΣΣ｜Ｃpre i,j − Ｃcur i,j｜^N となる。ここで“^N”はＮ乗を示す。ここでＮの値を大
きくすることは、大きな差分について敏感になることを
意味しているので、その結果、接続歪が平均的に小さく
なるように働くことになる。

【００４５】［実施の形態１０］前述の実施の形態１で
は、変形歪としてケプストラムを用いる場合について説
明したが、本発明はこれに限定されるものではない。例
えば、変形前後の一定区間の波形の差分の和を用いて変
形歪を求めてもよい。また、スペクトル距離などを用い
て変形歪としてもよい。

【００４６】［実施の形態１１］前述の実施の形態１で
は、変形歪を波形から得られる情報を基に算出する場合
について説明したが、本発明はこれに限定されるもので
はない。例えば、PSOLAによるピッチ素片の削除および
複製の回数などを変形歪を算出する要素としてもよい。

【００４７】［実施の形態１２］前述の実施の形態１で
は、音声合成時に音声素片を読み出す毎に接続歪を計算
する場合について説明したが、本発明はこれに限定され
るものではない。例えば、接続歪を予め計算しておき、
テーブルとして保持しておいてもよい。

【００４８】図１１は、diphone「/a.r/」とdiphone「/
r.i/」との間の接続歪を記憶したテーブルの一例を示す
図である。ここでは縦軸に「/a.r/」の音声素片、横軸
に「/r.i/」の音声素片をとっている。例えば、「/a.r
/」の「id3」の音声素片と「/r.i/」の「id2」の音声素
片との接続歪は“３.６”で表されている。このように
接続可能なdiphone間の接続歪を全てテーブル化して用
意することにより、音声素片同士の合成時の接続歪の算
出がテーブルの参照だけで済むため、その計算量を大幅
に軽減でき、算出時間を大幅に短縮できる。

【００４９】［実施の形態１３］前述の実施の形態１で
は、音声合成時に、音声素片編集する毎に変形歪を計算
する場合について説明したが、本発明はこれに限定され
るものではない。例えば、変形歪を予め計算しておき、
テーブルとして保持しておいてもよい。

【００５０】図１２は、あるdiphoneを基本周波数と音
韻時間長について変化させた場合の変形歪をテーブルで
表した図である。

【００５１】図中、μは、そのdiphoneの統計的な平均
値を示し、σは標準偏差である。具体的な表の作成方法
としては、次のような作成方法が考えられる。まず、基
本周波数と音韻時間長に関して統計的に平均値と分散を
求める。次に、それらを基に（５×５＝）２５通りの基
本周波数と音韻時間長をターゲットとしてPSOLA法をそ
れぞれ適用し、テーブルの変形歪を一つずつ求めていけ
ばよい。合成時は、ターゲットの基本周波数と音韻時間
長が決まれば、テーブルの近傍の値で内挿（もしくは外
挿）することによって、変形歪を推定することが可能で
ある。

【００５２】図１３は、合成時に変形歪を推定するため
の具体例を示した図である。

【００５３】図中、黒丸がターゲットの基本周波数と音
韻時間長であり、このとき、各格子点の変形歪がテーブ
ルからＡ，Ｂ，Ｃ，Ｄと求まっていると仮定すると、変
形歪Ｄtは、以下の式により求めることができる。Ｄt＝{Ａ・(１−ｙ)＋Ｃ・ｙ}×(１−ｘ)＋｛Ｂ・(１−
ｙ)＋Ｄ・ｙ｝×ｘ

【００５４】［実施の形態１４］前述の実施の形態１３
では、変形歪テーブルの格子点として、そのdiphoneの
統計的な平均値と標準偏差を基に５×５のテーブルを作
成したが、本発明はこれに限定されるものではなく、任
意の格子点を持つテーブルとしてもよい。また、格子点
を平均値などに依らず決定的に与えてもよいものとす
る。例えば、韻律推定で推定されうる範囲を等分割する
などもよいものとする。

【００５５】［実施の形態１５］前述の実施の形態１で
は、接続歪と変形歪の重み和で歪を定量化する場合につ
いて説明したが本発明はこれに限定されるものではな
く、接続歪と変形歪それぞれに閾値を設定しておき、ど
ちらか一方でもその閾値を越えた場合はその音声素片が
選択されないようにして、十分大きな歪の値を与えるよ
うにしてもよい。

【００５６】上記実施の形態においては、各部を同一の
計算機上で構成する場合について説明したが本発明はこ
れに限定されるものではなく、例えばネットワーク上に
分散した計算機や処理装置などに分かれて各部を構成し
てもよい。

【００５７】上記実施の形態においては、各部を同一の
計算機上で構成する場合について説明したが、これに限
定されるものではなく、ネットワーク上に分散した計算
機や処理装置などに分かれて各部を構成してもよい。

【００５８】上記実施の形態においては、プログラムを
制御メモリ（ＲＯＭ）に保持する場合について説明した
が、これに限定されるものではなく、外部記憶など任意
の記憶媒体を用いて実現してもよい。また、同様の動作
をする回路で実現してもよい。

【００５９】なお本発明は、複数の機器から構成される
システムに適用しても、１つの機器からなる装置に適用
してもよい。前述した実施の形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても達成される。

【００６０】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記録した記録媒
体は本発明を構成することになる。このようなプログラ
ムコードを供給するための記録媒体としては、例えば、
フロッピー（登録商標）ディスク、ハードディスク、光
ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、
磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用
いることができる。

【００６１】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているＯＳなど
が実際の処理の一部または全部を行ない、その処理によ
って前述した実施の形態の機能が実現される場合も含ま
れる。

【００６２】更に、記録媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるＣＰＵなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施の形態の機能が実現
される場合も含まれる。

【００６３】以上説明したように本実施の形態によれ
ば、音声合成に際して、音声素片を選択する際に接続歪
と変形歪を基準とするようにしたため、音質の劣化を最
小限に抑えた音声素片系列を求めて音声合成できる。

【００６４】

【発明の効果】以上説明したように本発明によれば、接
続や変形に基づく歪の影響を小さくした音声を合成する
ことができる。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。

【図２】本発明の実施の形態１に係る音声合成装置の機
能構成を示すブロック図である。

【図３】本実施の形態に係る音声合成装置における処理
の流れを示すフローチャートである。

【図４】図３のステップＳ３０４の音素素片選択処理の
詳細を示すフローチャートである。

【図５】ｎ番目の音韻の音声素片候補Ｐn,1における最
小歪の総和Ｓn,1の算出を模式的に示した図である。

【図６】本発明の実施の形態に係る音声素片の接続歪を
説明する図である。

【図７】本発明の実施の形態に係る音声素片の変形を説
明する図である。

【図８】半diphoneを単位とした場合の概念図である。

【図９】本発明の実施の形態３に係る音声素片の単位を
diphoneと半diphoneとで混合した場合を説明する図であ
る。

【図１０】本発明の実施の形態４に係る音声素片の単位
を取り出した半diphoneによって混合した例を示した図
である。

【図１１】本発明の実施の形態１２に係るdiphoneの /
a.r/ と/r.i/間の接続歪を決定するテーブル構成例を示
す図である。

【図１２】本発明の実施の形態１３に係る変形歪を表わ
すテーブル例を示す図である。

【図１３】本発明の実施の形態１３に係る変形歪を推定
する具体例を示した図である。

Claims

【特許請求の範囲】

【請求項１】音声素片を所定の韻律情報に基づいて編
集することによって生じる歪を求める歪出力手段と、前記歪出力手段から出力された歪に基づいて、音声合成
に使用する音声素片を選択する選択手段と、前記選択手段により選択された音声素片に基づいて、音
声合成を行う音声合成手段と、を有することを特徴とす
る音声情報処理装置。
【請求項２】前記選択手段は、歪が最小となるように
音声合成に使用する音声素片を選択することを特徴とす
る請求項１に記載の音声情報処理装置。
【請求項３】前記歪出力手段は、前記音素素片を他の
音声素片と接続することによって生じる接続歪と前記音
声素片を変形することによって生じる変形歪とに基づい
て、前記歪を求めることを特徴とする請求項１又は２に
記載の音声情報処理装置。
【請求項４】前記歪出力手段は、前記接続歪と、前記
変形歪との重み付き和として前記歪を算出することを特
徴とする請求項３に記載の音声情報処理装置。
【請求項５】前記歪出力手段は、ケプストラム距離を
用いて前記接続歪を算出することを特徴とする請求項３
又は４に記載の音声情報処理装置。
【請求項６】前記歪出力手段は、ケプストラム距離を
用いて前記変形歪を算出することを特徴とする請求項３
又は４に記載の音声情報処理装置。
【請求項７】前記歪出力手段は、前記変形歪を記憶し
たテーブルを有し、当該テーブルを参照して前記変形歪
を決定することを特徴とする請求項３又は４に記載の音
声情報処理装置。
【請求項８】前記歪出力手段は、前記接続歪を記憶し
たテーブルを有し、当該テーブルを参照して前記接続歪
を決定することを特徴とする請求項３又は４に記載の音
声情報処理装置。
【請求項９】テキストデータを入力する入力手段と、前記テキストデータを言語解析する言語解析手段と、前記言語解析手段により解析された結果に基づいて前記
所定の韻律情報を生成する韻律情報生成手段と、を更に
備えることを特徴とする請求項１乃至８のいずれか１項
に記載の音声情報処理装置。
【請求項１０】音声素片を所定の韻律情報に基づいて
編集することによって生じる歪を求める歪出力工程と、前記歪出力工程で出力された歪に基づいて、音声合成に
使用する音声素片を選択する選択工程と、前記選択工程で選択された音声素片に基づいて、音声合
成を行う音声合成工程と、を有することを特徴とする音
声情報処理方法。
【請求項１１】前記選択工程では、前記歪が最小とな
るように音声合成に使用する音声素片を選択することを
特徴とする請求項１０に記載の音声情報処理方法。
【請求項１２】前記歪出力工程では、前記音素素片を
他の音声素片と接続することによって生じる接続歪と前
記音声素片を変形することによって生じる変形歪とに基
づいて、前記歪を求めることを特徴とする請求項１０又
は１１に記載の音声情報処理方法。
【請求項１３】前記歪出力工程では、前記接続歪と、
前記変形歪との重み付き和として前記歪を算出すること
を特徴とする請求項１２に記載の音声情報処理方法。
【請求項１４】前記歪出力工程では、ケプストラム距
離を用いて前記接続歪を算出することを特徴とする請求
項１２又は１３に記載の音声情報処理方法。
【請求項１５】前記歪出力工程では、ケプストラム距
離を用いて前記変形歪を算出することを特徴とする請求
項１２又は１３に記載の音声情報処理方法。
【請求項１６】前記歪出力工程では、前記変形歪を記
憶したテーブルを有し、当該テーブルを参照して前記変
形歪を決定することを特徴とする請求項１２又は１３に
記載の音声情報処理方法。
【請求項１７】前記歪算出工程では、前記接続歪を記
憶したテーブルを有し、当該テーブルを参照して前記接
続歪を決定することを特徴とする請求項１２又は１３に
記載の音声情報処理方法。
【請求項１８】テキストデータを入力する入力工程
と、前記テキストデータを言語解析する言語解析工程と、前記言語解析工程で解析された結果に基づいて前記所定
の韻律情報を生成する韻律情報生成工程と、を更に備え
ることを特徴とする請求項１０乃至１７のいずれか１項
に記載の音声情報処理方法。
【請求項１９】請求項１０乃至１８のいずれか１項に
記載の方法を実行するプログラムを記憶したことを特徴
とする、コンピュータにより読取り可能な記憶媒体。