JPH11219196A

JPH11219196A - 音声合成方法

Info

Publication number: JPH11219196A
Application number: JP10018882A
Authority: JP
Inventors: Katsumi Tsuchiya; 勝美土谷; Takehiko Kagoshima; 岳彦籠嶋; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-01-30
Filing date: 1998-01-30
Publication date: 1999-08-10
Anticipated expiration: 2018-01-30
Also published as: JP3268750B2; US6202048B1

Abstract

(57)【要約】【課題】合成音声の品質を保持しつつ符号帳サイズを小
さくして、少ない記憶容量の下で高品質の合成音声を生
成する音声合成方法を提供する。【解決手段】代表音声素片を音源信号と合成フィルタの
特性を表す係数との組で表現し、音源信号を合成フィル
タ１３に通すことにより合成音声信号を生成する音声合
成方法において、音源信号を音源符号帳のコード番号で
ある音源信号インデックスおよびコードベクトルに対す
るシフト数として符号化して素片辞書記憶部１１に記憶
しておき、合成音声信号の生成時に音源信号インデック
ス１１１に従って音源信号逆量子化部２４で音源符号帳
２１から選択されたコードベクトルをコードベクトルシ
フト部１６でシフト数１１２に従ってシフトすることに
よって音源信号を復号する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えばテキスト合
成に用いられる音声合成方法に係り、特に音源信号と合
成フィルタの特性を表す係数の組から構成される代表音
声素片を用いて合成音声信号を生成する音声合成方法に
関する。

【０００２】

【従来の技術】音声合成方式の一つである規則合成方式
は、入力された韻律情報から自動的に合成音声信号を生
成する技術であり、音韻記号列、音韻継続時間長、ピッ
チパターンおよびパワーなどの韻律情報に従って素片辞
書記憶部に記憶されている音節、音素および１ピッチ区
間などの小さな単位（代表音声素片）の特徴パラメータ
を選択し、これらをピッチや継続時間長の制御を行った
後に接続することにより、合成音声信号を生成する。こ
の規則合成方式による音声合成技術は、例えば任意の文
章（テキスト）から人工的に音声を作り出すテキスト合
成に使用される。

【０００３】このような規則合成方式による音声合成技
術では、合成音声信号の品質を向上させるために、代表
音声素片の特徴パラメータには、音声データから切り出
した音声波形や、それを分析して得られる音源信号と合
成フィルタの特性を表す係数の組が用いられる。

【０００４】また、合成音声の品質をより向上させるた
めに、音源信号と合成フィルタの特性を表す係数の組に
よって表現される多数の代表音声素片を素片辞書として
蓄えておき、それらの中から最適な代表音声素片を選択
して接続する方式も提案されている。

【０００５】さらに、これらの方式では素片辞書の記憶
容量が膨大となってしまうという問題を回避するため
に、予め素片辞書情報を符号化しておき、音声合成を行
う時に符号化された素片辞書情報を符号帳を参照して復
号して使用する方式が提案されている。

【０００６】図９に、符号化された素片辞書情報を用い
た従来の規則合成系の構成を示す。まず、入力された音
韻記号列１００、音韻継続時間長１０１、ピッチーパタ
ーン１０２およびパワ−１０３に従って素片選択部１０
により素片辞書記憶部１１から素片辞書情報である符号
化された代表音声素片（以下、符号化代表音声素片とい
う）が選択される。

【０００７】符号化代表音声素片は図１０に示される構
成になっており、合成フィルタのフィルタ係数として用
いられる線形予測係数が線形予測係数符号帳のコード番
号（以下、線形予測係数インデックスという）１１３と
して、音源信号が音源信号符号帳のコード番号（以下、
音源信号インデックスという）１１１として、またゲイ
ンがゲイン符号帳のコード番号（以下、ゲインインデッ
クスという）１１０としてそれぞれ記憶されている。

【０００８】素片辞書記憶部１１から素片選択部１０で
選択された符号化代表音声素片は、代表音声素片復号部
１２に入力される。代表音声素片復号部１２において
は、線形予測係数逆量子化部２５により線形予測インデ
ックス１１３から線形予測係数１２２が線形予測係数符
号帳２２を参照して復号され、音源信号逆量子化部２４
により音源信号インデックス１１１から音源信号が音源
信号符号帳２１を参照して復号され、ゲイン逆量子化部
２３によりゲインインデックス１１０からゲイン１２０
がゲイン符号帳２０を参照して復号される。また、ゲイ
ン乗算部２７では音源信号逆量子化部２４で復号された
音源信号に、ゲイン逆量子化部２３で復号されたゲイン
１２０が乗じられる。

【０００９】線形予測係数逆量子化部２５で復号された
線形予測係数１２２は、合成フィルタ部１３にフィルタ
係数情報として与えられ、この合成フィルタ部１３によ
りゲイン乗算部２７でゲイン１２０が乗じられた音源信
号１２１がフィルタリング処理されることによって、音
声信号１２３が生成される。このようにして生成された
音声信号は、ピッチ・時間長制御部１４によってピッチ
や時間長が制御された後、素片接続部１５で接続され、
合成音声信号１０４が生成される。

【００１０】このような規則合成系では、素片辞書記憶
部１１に記憶されている素片辞書情報である符号化代表
音声素片が合成音声の品質に大きく左右する。合成音声
の品質を良くするためには、言い換えると符号化による
合成音声の品質の劣化を抑えるためには、代表音声素片
の符号化ビット数を増加させる必要があるが、この符号
化ビット数を増加させると符号化時と合成時に用いる符
号帳（図９の場合は、ゲイン符号帳２０、音源信号符号
帳２１および線形予測係数符号帳２２）の記憶容量が大
幅に増加する。

【００１１】特に、符号化にベクトル量子化が適用され
ている場合には、代表音声素片の符号化ビット数が増加
するに従い符号帳の記憶容量は指数的に増加し、膨大な
ものとなる。逆に、記憶容量を削減するために符号帳サ
イズを小さくすると、合成音声の品質は劣化してしま
う。

【００１２】

【発明が解決しようとする課題】このように従来の音声
合成方法では、合成音声の品質の劣化を抑えるために符
号化代表音声素片の符号化ビット数を増加すると、規則
合成に必要な記憶容量が大幅に増加し、また記憶容量を
削減するために符号帳サイズを小さくすると、合成音声
の品質が劣化してしまうという問題が生じ、合成音声の
品質を保持しつつ記憶容量を削減することは非常に困難
であった。

【００１３】本発明は、このような従来の問題点を解消
するためになされたもので、合成音声の品質を保持しつ
つ符号帳サイズを小さくすることを可能として、少ない
記憶容量の下で高品質の合成音声を生成することができ
る音声合成方法を提供することを目的とする。

【００１４】

【課題を解決するための手段】上記の課題を解決するた
め、本発明は代表音声素片を音源信号と合成フィルタの
特性を表す係数との組で表現し、音源信号を合成フィル
タに通すことにより合成音声信号を生成する音声合成方
法において、音源信号を複数の音源信号がコードベクト
ルとして格納された音源符号帳のコード番号およびコー
ドベクトルに対するシフト数として符号化して記憶して
おき、合成音声信号の生成時にコード番号に従って音源
符号帳から選択されたコードベクトルをシフト数に従っ
てシフトすることにより音源信号を復号することを基本
的な特徴とする。

【００１５】ここで、コードベクトルに対するシフト数
は、例えば音源信号と合成フィルタの特性を表す係数の
組で表現される代表音声素片を用いて生成される音声信
号の歪みを最小化するように決定されるか、または音源
信号符号帳から選択されるコードベクトルのピークと音
源信号のピークが一致するように決定される。

【００１６】また、本発明は音源信号を複数の音源信号
がコードベクトルとして格納された音源符号帳のコード
番号とコードベクトルに対するシフト数およびゲインと
して符号化して記憶しておき、合成音声信号の生成時に
コード番号に従って音源符号帳から選択されたコードベ
クトルをシフト数に従ってシフトした後、ゲインを乗じ
ることにより音源信号を復号することを特徴とする。こ
の場合、ゲインを複数のゲインがコードベクトルとして
格納されたゲイン符号帳のコード番号として符号化して
記憶しておけばよい。

【００１７】さらに、本発明においては合成フィルタの
特性を表す係数を複数の合成フィルタの特性を表す係数
が格納された符号帳のコード番号として符号化して記憶
しておくようにしてもよい。

【００１８】また、合成フィルタの特性を表す係数は、
スペクトルパラメータ、すなわちケプストラムあるいは
ＬＰＣ係数、ＰＡＲＣＯＲ係数、ＬＳＰ係数などの線形
予測係数や、これらの線形予測係数を変換することによ
って生成される係数であり、複数の合成フィルタの特性
を表す係数を格納した符号帳のコード番号として符号化
される。

【００１９】このように本発明の音声符号化方法では、
音源符号帳のコード番号とコードベクトルに対するシフ
ト数、さらにはゲインと合成フィルタの特性を表す情報
を素片辞書記憶部に符号化代表音声素片として記憶して
おき、合成音声信号の生成時に、コード番号に従って音
源符号帳から選択されたコードベクトルをシフト数に従
ってシフトすることで音源信号を復号することにより、
素片辞書記憶部および音源符号帳に必要なトータルの記
憶容量を抑えつつ、高品質の合成音声を生成することが
可能となる。

【００２０】すなわち、音源符号帳から選択されたコー
ドベクトルをシフトすることによって、一つの音源信号
のコードベクトルからシフト数倍のコードベクトル候補
を生成することができるため、素片辞書記憶部にはシフ
ト数の情報が新たに必要となるが、このシフト数の情報
量は僅かで済むにもかかわらず、音源符号帳のサイズは
シフト数分の１と大幅に圧縮される。

【００２１】従って、従来の代表音声素片を符号化する
方式と比較して、合成音声の品質を同等とすれば必要な
トータルの記憶容量は削減され、また記憶容量が同じで
あれば、合成音声の品質が向上する。さらに、ゲインや
合成フィルタの特性を表す係数の情報も符号化すれば、
記憶容量の削減と合成音声の品質向上の効果はより一層
向上する。

【００２２】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。本発明の音声合成方法に基づく音声
合成システムは、大きく規則合成系と素片辞書符号化系
の二つの部分から構成される。実際に音声合成を行う場
合に動作するのは規則合成系であり、素片辞書符号化系
は事前に符号化を行って素片辞書情報である符号化代表
音声素片を生成するものである。以下、第１および第２
の実施形態として規則合成系について説明し、第３、第
４および第５の実施形態として素片辞書符号化系につい
て説明する。

【００２３】（第１の実施形態）図１に、本発明の第１
の実施形態に係る規則合成系の構成を示す。この規則合
成系は素片選択部１０、複数の符号化代表音声素片が素
片辞書情報として格納されている素片辞書記憶部１１、
符号化代表音声素片を復号する代表音声素片復号部１
２、合成フィルタ部１３、ピッチ・時間長制御部１４お
よび素片接続部１５から構成されている。

【００２４】素片辞書記憶部１１に素片辞書情報として
格納された各々の符号化代表音声素片は、図２に示され
るように線形予測係数インデックス１１３、音源信号イ
ンデックス１１１、音源信号符号帳２１から選択される
コードベクトルに対するシフト数１１２、およびゲイン
インデックス１１０から構成される。すなわち、シフト
数１１２が符号化代表音声素片に追加されている点が図
９および図１０で説明した従来の構成とことなってい
る。

【００２５】一方、代表音声素片復号部１２は線形予測
係数符号帳２２、線形予測係数逆量子化部２５、音源信
号符号帳２１、音源信号逆量子化部２４、ゲイン符号帳
２０、ゲイン逆量子化部２３、およびコードベクトルシ
フト部２６から構成される。コードベクトルシフト部２
６は、音源信号符号帳２１から選択されるコードベクト
ルをシフト数１１２で示される数だけシフトさせるもの
である。

【００２６】次に、本実施形態の規則合成系の動作をテ
キスト合成の場合を例にとって説明する。まず、例えば
図示しない文解析・韻律制御部でテキスト合成に供され
るテキストを解析して得られる音韻記号列１００、音韻
継続時間長１０１、ピッチパターン１０２およびパワ−
１０３などの韻律情報が入力され、これらの韻律情報に
従って素片選択部１０により素片辞書記憶部１１から素
片辞書情報である一組の符号化代表音声素片が選択され
る。素片選択部１０で素片辞書記憶部１１から選択され
た符号化代表音声素片は、代表音声素片復号部１２に入
力される。

【００２７】代表音声素片復号部１２では、まず線形予
測線形係数インデックス１１３が線形予測係数逆量子化
部２５に入力され、この線形予測係数逆量子化部２５に
より線形予測係数符号帳２２から線形予測係数インデッ
クス１１３に対応するコードベクトルが選択され、線形
予測係数１２２が復号される。また、ゲインインデック
ス１１０がゲイン逆量子化部２３に入力され、このゲイ
ン逆量子化部２３によりゲイン符号帳２０からゲインイ
ンデックス１１０に対応するコードベクトルが選択さ
れ、ゲイン１２０が復号される。

【００２８】さらに、音源信号逆量子化部２４に入力さ
れた音源信号インデックス１１１に従って音源信号符号
帳２１から選択されたコードベクトルがコードベクトル
シフト部２６によりシフト数１１２で示される数分だけ
巡回シフトされた後、ゲイン乗算部２７においてゲイン
逆量子化部２３で復号されたゲイン１２０が乗じられる
ことによって、音源信号１２１が復号される。

【００２９】ここで、コードベクトルのシフトとは、選
択されたコードベクトルをシフト数分ずらせて一定長だ
け切り出す操作である。巡回シフトは、このシフト操作
の一種であり、シフト数分ずらせた一定長の部分がコー
ドベクトルの最後尾にかかるときは、先頭に戻って切り
出す操作である。

【００３０】まず、図３を参照して通常のシフト（これ
を単純シフトと呼ぶことにする）を説明する。図３
（ａ）に、音源符号帳２１に格納されたコードベクトル
と各シフト数に対応して切り出される範囲を示してい
る。この例ではコードベクトルの長さは「１０」であ
る。図３（ｂ）〜（ｅ）は、それぞれシフト数「０」〜
「３」の場合の単純シフトのシフト動作を示している。

【００３１】図３に示されるように、単純シフトでは例
えば音源信号符号帳２１に格納されたコードベクトルの
長さが「１０」で、切り出す長さが「７」であるとすれ
ば、シフト数が「０」のときには０番目から６番目まで
を切り出し（図３（ｂ））、シフト数が「１」のときに
は１番目から７番目までを切り出し（図３（ｃ））、シ
フト数が「２」のときには２番目から８番目までを切り
出し（図３（ｄ））、シフト数が「３」のときには３番
目から９番目までを切り出す（図３（ｅ）。

【００３２】次に、図４を参照して巡回シフトについて
説明する。図４（ａ）は、音源符号帳２１に格納された
コードベクトルの各シフト数に対応して切り出される範
囲を示している。この例では、コードベクトルの長さは
「７」である。図４（ｂ）〜（ｅ）は、それぞれシフト
数「０」〜「３」の場合の巡回シフトのシフト動作を示
している。

【００３３】図４に示されるように、巡回シフトでは例
えば音源信号符号帳２１に格納されたコードベクトルの
長さが「７」で、切り出す長さも「７」であるとすれ
ば、シフト数が「０」のときには、０番目から６番目ま
でを切り出す（図４（ｂ））。シフト数が「１」のとき
には１番目から６番目までを切り出し、引き続き０番目
を切り出す（図４（ｃ））。シフト数が「２」のときに
は２番目から６番目までを切り出し、引き続き０番目か
ら１番目までを切り出す（図４（ｄ））。シフト数が
「３」のときには３番目から６番目までを切り出し、引
き続き０番目から２番目までを切り出すことになる（図
４（ｅ））。

【００３４】これら通常のシフトと巡回シフトのいずれ
を用いてもよいが、上述から明らかなように巡回シフト
を用いると音源信号符号帳２１に格納されるコードベク
トルの長さが短くて済み、記憶容量の点でさらに有利と
なる。

【００３５】そして、線形予測係数逆量子化部２５で復
号された線形予測係数１２２が合成フィルタ部１３にフ
ィルタ係数として与えられ、合成フィルタ部１３により
ゲイン乗算部２７でゲインの乗じられた音源信号１２１
がフィルタリング処理されることによって、素片単位の
音声信号１２３が生成される。

【００３６】このようにして生成された素片単位の音声
信号１２３はピッチ・時間長制御部１４に入力され、こ
こで音韻記号列１００、音韻継続時間長１０１、ピッチ
パターン１０２およびパワ−１０３などの韻律情報に基
づいてピッチや時間長が制御された後、素片接続部１２
において接続されることにより、合成音声信号１０４が
生成される。

【００３７】このように音源符号帳２１から選択された
コードベクトルをシフトすることによって、一つの音源
信号のコードベクトルからシフト数倍のコードベクトル
候補を生成することができる。この場合、素片辞書記憶
部１２にはシフト数１１２の情報が新たに必要となる
が、このシフト数１１２の情報量は僅かである一方、音
源符号帳２１のサイズはシフト数分の１に削減される。
従って、素片辞書記憶部１２と各符号帳２０、２１、２
２のトータルの記憶容量を削減しつつ、合成音声の品質
を向上させることができる。また、本実施形態ではゲイ
ンや合成フィルタ１３の特性を表す係数の情報も符号化
しているため、記憶容量の削減と合成音声の品質向上に
より有利となる。

【００３８】（第２の実施形態２）図５に、本発明の第
２の実施形態に係る規則合成系の構成を示す。図５にお
いて、図１と同一の構成要素に同一の参照符号を付して
第１の実施形態との相違点を中心に説明すると、本実施
形態では図１におけるゲイン乗算部２７とピッチ・時間
長制御部１４との間に挿入されていた合成フィルタ部１
３を除去し、代わりに素片接続部１５の出力側に合成フ
ィルタ部１７を挿入した点が第１の実施形態と異なって
いる。

【００３９】この規則合成系の動作は以下の通りであ
る。まず、第１の実施形態と同様に、音韻記号列１０
０、音韻継続時間長１０１、ピッチパターン１０２およ
びパワ−１０３などの韻律情報が入力され、これらの韻
律情報に従って素片選択部１０により素片辞書記憶部１
１から素片辞書情報である符号化代表音声素片が選択さ
れ、素片選択部１０で選択された符号化代表音声素片は
代表音声素片復号部１２に入力される。

【００４０】代表音声素片復号部１２では、まず線形予
測線形係数インデックス１１３が線形予測係数逆量子化
部２５に入力され、この線形予測係数逆量子化部２５に
より線形予測係数符号帳２２から線形予測係数インデッ
クス１１３に対応するコードベクトルが選択され、線形
予測係数１２２が復号される。また、ゲインインデック
ス１１０がゲイン逆量子化部２３に入力され、このゲイ
ン逆量子化部２３によりゲイン符号帳２０からゲインイ
ンデックス１１０に対応するコードベクトルが選択さ
れ、ゲイン１２０が復号される。

【００４１】さらに、音源信号逆量子化部２４に入力さ
れた音源信号インデックス１１１に従って音源信号符号
帳２１から選ばれたコードベクトルがコードベクトルシ
フト部２６によりシフト数１１２だけ巡回シフトされた
後、ゲイン乗算部２７によりゲイン逆量子化部２３で復
号されたゲイン１２０が乗じられることによって、音源
信号１２１が復号される。

【００４２】こうして復号された音源信号１２１はピッ
チ・時間長制御部１４により音韻記号列１００、音韻継
続時間長１０１、ピッチパターン１０２およびパワー１
０３などの韻律情報に基づいてピッチや時間長が制御さ
れた後、素片接続部１５において接続される。そして、
素片接続部１５で接続された音源信号が線形予測係数逆
量子化部２５で復号された線形予測係数１２２がフィル
タ係数として与えられた合成フィルタ部１７に供給さ
れ、ここでフィルタリング処理が行われることによっ
て、合成音声信号１０４が生成される。

【００４３】本実施形態によっても、第１の実施形態と
同様の効果が得られることは明らかである。（第３の実施形態）図６に、本発明の第３の実施形態に
係る素片辞書符号化系の構成を示す。この素片辞書符号
化系は、線形予測分析部３１、線形予測係数符号化／復
号部３２、線形予測係数符号帳２２、再生音声信号生成
合成フィルタ部３３、ゲイン符号帳２０、音源信号符号
帳２１、コードベクトルシフト部２６、ゲイン乗算部３
４、減算部３５および歪み計算部３６から構成される。
ゲイン符号帳２０、音源信号符号帳２１およびコードベ
クトルシフト部２６は、図１または図２中に同一参照符
号で示した要素と共用することができる。

【００４４】まず、代表音声素片に格納されている音声
信号が線形予測分析部３１に入力され、線形予測係数が
計算される。線形予測分析部３１で計算された線形予測
係数は、線形予測係数符号化／復号部３２により符号化
および復号の処理が行われた後、再生音声信号生成合成
フィルタ部３３に供給される。

【００４５】ここで、線形予測係数符号化／復号部３２
は、線形予測係数を符号化する符号化部と、符号化され
た線形予測係数を復号する復号部から構成されている。
線形予測係数符号化／復号部３２の符号化部では、線形
予測係数が線形予測係数符号帳２２を参照しながら符号
化され、その結果が線形予測係数符号化／復号部３２の
復号部において線形予測係数符号帳２２を参照しながら
線形予測係数として復号される。この場合、線形予測係
数の符号化は、線形予測分析部３１で求められた線形予
測係数に対する歪みが最小となるコードベクトルを線形
予測係数符号帳２２から探索することによって実現され
る。

【００４６】一方、音源信号符号帳２１から音源信号の
候補となるコードベクトルが選び出され、このコードベ
クトルに対してコードベクトルシフト部２６により巡回
シフト処理が行われた後、ゲイン符号帳２０から選び出
されたゲインがゲイン乗算部３４で乗じられ、さらに再
生音声信号生成合成フィルタ部３３でフィルタリング処
理されることによって、再生音声信号が生成される。

【００４７】次に、再生音声信号生成合成フィルタ部３
３によるフィルタリング処理によって生成された再生音
声信号の原音声信号（代表音声素片に格納されている音
声信号）に対する歪みが歪み計算部３６で計算され、こ
の歪みが最小となるゲインインデックス、音源信号イン
デックスおよびシフト数が求められる。ここで、歪み計
算部３６では例えば式（１）で定義される歪み評価尺度
が用いられる。

【００４８】ただし、歪み評価尺度は式（１）に限定さ
れることはなく、式（２）で定義されるような、聴覚重
み付けを考慮した歪みなどを用いることもできる。ｄ＝｜ｅ_ijs ｜² ＝｜Ｘ−ｇ_i Ｈ′ｖ_js｜² （１）ｄ_W ＝｜ｅ_Wijs｜² ＝｜ｅ_ijs Ｗ｜² ＝｜（Ｘ−ｇ_i Ｈ′ｖ_js）Ｗ｜² （２）ここで、ｄは歪み評価尺度、ｄ_W は重み付け歪み評価尺
度、Ｘは代表音声素片に格納されている音声信号、
Ｈ′は符号化復号処理された線形予測係数で決定され
る合成フィルタの特性を表す行列、ｇ_i はゲイン符号帳
に格納されているｉ番目のゲイン、ｖ_jsは音源符号帳に
格納されているｊ番目のコードベクトルをｓだけシフト
処理して得られる音源信号、Ｗは重み付けを示す行
列、ｅ_ijs は原音声信号に対する再生音声信号の誤差信
号、ｅ_Wijsは原音声信号に対する再生音声信号の重み付
け誤差信号を表す。

【００４９】また、Ｃ_j を音源信号符号帳に格納されて
いるｊ番目のコードベクトルとし、Ｓ_s を式（３）で
定義されるシフト数がｓの巡回シフト操作を表す行列、
Ｚをコードベクトルの次元数とする。

【００５０】

【数１】

【００５１】ｖ_jsは次式で表される。ｖ_js＝Ｓ_s Ｃ_j （４）（第４の実施形態）図７に、本発明の第４の実施形態に
係る素片辞書符号化系の構成を示す。本実施形態の素片
辞書符号化系では、まず代表音声素片に格納されている
線形予測係数が線形予測係数符号化／復号部３２に入力
され、ここで符号化および復号の処理が行われた後、目
標音声信号生成合成フィルタ部３７および再生信号生成
合成フィルタ部３３に入力される。

【００５２】目標音声信号生成合成フィルタ部３７は原
音源信号を入力として目標音声信号を生成するものであ
り、再生信号生成合成フィルタ部３３は音源符号帳のコ
ードベクトルを処理した信号を入力として再生音声信号
を生成するものである。

【００５３】線形予測係数符号化／復号部３２は、第３
の実施形態と同様に、線形予測係数を符号化する符号化
部および符号化された線形予測係数を復号する復号部か
ら構成されており、線形予測係数符号化／復号部３２の
符号化部では線形予測係数が線形予測係数符号帳２２を
参照しながら符号化され、その結果が線形予測係数符号
化／復号部３２の復号部において線形予測係数符号帳２
２を参照しながら線形予測係数として復号される。線形
予測係数の符号化は、線形予測係数の歪みが最小となる
コードベクトルを線形予測係数符号帳２２から探索する
ことによって実現される。

【００５４】音源信号符号帳２１からは、第３の実施形
態と同様、音源信号の候補となるコードベクトルが選び
出され、このコードベクトルに対してコードベクトルシ
フト部２６により巡回シフト処理が行われた後、ゲイン
符号帳２０から選び出されたゲインがゲイン乗算部３４
で乗じられ、さらに再生音声信号生成合成フィルタ部３
３でフィルタリング処理されることによって、再生音声
信号が生成される。

【００５５】また、目標音声信号生成合成フィルタ部３
４では、線形予測係数符号化／復号部３２から符号化お
よび復号の処理がなされた線形予測係数がフィルタ係数
として与えられ、原音源信号がフィルタリング処理され
ることにより、目標音声信号が生成される。

【００５６】最後に、第３の実施形態と同様に、再生音
声信号生成合成フィルタ部３３によるフィルタリング処
理によって生成された再生音声信号の目標音声信号に対
する歪みが歪み計算部３６で計算され、この歪みが最小
になるようにゲインインデックス、音源信号インデック
スおよびシフト数が求められる。

【００５７】（第５の実施形態）図８に、本発明の第５
の実施形態に係る素片辞書符号化系の構成を示す。本実
施形態の素片辞書符号化系では、まず図示しない代表音
声素片に格納されている線形予測係数が線形予測係数符
号化／復号部３２に入力され、ここで符号化および復号
の処理がなされた後、再生音声信号生成合成フィルタ部
３３にフィルタ係数として与えられる。

【００５８】線形予測係数符号化／復号部３２は、第３
および第４の実施形態と同様に、線形予測係数を符号化
する符号化部および符号化された線形予測係数を復号す
る復号部から構成されており、線形予測係数符号化／復
号部３２の符号化部では線形予測係数が線形予測係数符
号帳２２を参照しながら符号化され、その結果が線形予
測係数符号化／復号部３２の復号部において線形予測係
数符号帳２２を参照しながら線形予測係数として復号さ
れる。線形予測係数の符号化は、線形予測係数の歪みが
最小となるコードベクートルを線形予測係数符号帳２２
から探索することによって実現される。

【００５９】一方、音源信号符号帳２１から第３および
第４の実施形態と同様に、音源信号の候補となるコード
ベクトルが選び出され、このコードベクトルに対してコ
ードベクトルシフト部２６により巡回シフト処理が行わ
れた後、ゲイン符号帳２０から選び出されたゲインがゲ
イン乗算部３４で乗じられ、さらに再生音声信号生成合
成フィルタ部３３でフィルタリング処理されることによ
って、再生音声信号が生成される。また、目標音声信号
生成合成フィルタ部３４では、原音源信号および原線形
予測係数を入力として目標音声信号が生成される。

【００６０】その後、フィルタリング処理によって生成
された再生音声信号の歪み（再生音声信号の目標音声信
号に対する誤差）が歪み計算部３６で計算され、この歪
みが最小になるようにゲインインデックス、音源信号イ
ンデックスおよびシフト数が求められる。

【００６１】なお、上記各実施形態において合成フィル
タの特性を表す線形予測係数としてはＬＰＣ係数、ＰＡ
ＲＣＯＲ係数あるいはＬＳＰ係数などのパラメータを用
いることができる。また、合成フィルタ部の特性を一意
に決定できるような係数であれば、線形予測係数に限定
される必要はなく、ケプストラムや、ＬＰＣ係数、ＰＡ
ＲＣＯＲ係数、ＬＳＰ係数あるいはケプストラムを変換
した結果得られる係数を用いることもでき、要するに合
成フィルタの特性を表す係数としてはスペクトルパラメ
ータを用いればよい。

【００６２】さらに、上記各実施形態では音源信号符号
帳のコードベクトルのシフト数は再生音声信号の目標音
声信号に対する歪みが最小になるように決定されている
が、コードベクトルのシフト数の決定方法は上記手法に
限らず、例えば音源信号符号帳のコードベクトルのピー
クと原音源信号のピークが一致するように決定すること
もできる。このような決定法によっても、近似的に再生
音声信号の目標音声信号に対する歪みが最小となるよう
にシフト数を決定することができる。

【００６３】以上、本発明の実施形態を幾つか説明した
が、本発明は上述した実施形態に限られるものではな
く、種々変形して実施が可能である。例えば、上記実施
形態では、線形予測係数、音源信号およびゲインを全て
符号化しているが、本発明は少なくとも音源信号を符号
化し、線形予測係数およびゲインを符号化しない場合に
も適用が可能である。

【００６４】

【発明の効果】以上説明したように、本発明によれば音
源信号を音源符号帳のコード番号（音源信号インデック
ス）およびコードベクトルに対するシフト数として符号
化して記憶しておき、合成音声信号の生成時に音源信号
インデックスに従って音源符号帳から選択されたコード
ベクトルをシフト数に従ってシフトすることで音源信号
を復号して生成し、この音源信号を合成フィルタに通し
て合成音声信号を生成することにより、符号帳サイズを
小さくして記憶容量を抑えつつ、高品質の合成音声を得
ることができる。

【図面の簡単な説明】

【図１】本発明に係る音声合成方法の第１の実施形態を
説明するための規則合成系の構成を示すブロック図

【図２】図１における素片辞書の構成を示す図

【図３】図１におけるコードベクトルシフト部の単純シ
フト動作を説明するための図

【図４】図１におけるコードベクトルシフト部の巡回シ
フト動作を説明するための図

【図５】本発明に係る音声合成方法の第２の実施形態を
説明するための規則合成系の構成を示すブロック図

【図６】本発明に係る音声合成方法の第３の実施形態を
説明するための素片辞書符号化系の構成を示すブロック
図

【図７】本発明に係る音声合成方法の第４の実施形態を
説明するための素片辞書符号化系の構成を示すブロック
図

【図８】本発明に係る音声合成方法の第５の実施形態を
説明するための素片辞書符号化系の構成を示すブロック
図

【図９】従来の音声合成方法を説明するための規則合成
系の構成を示すブロック図

【図１０】図９における素片辞書の構成を示す図

【符号の説明】

１０…素片選択部１１…素片辞書記憶部１２…代表音声素片復号部１３…合成フィルタ部１４…ピッチ・時間長制御部１５…素片接続部１７…合成フィルタ部２０…ゲイン符号帳２１…音源信号符号帳２２…線形予測係数符号帳２３…ゲイン逆量子化部２４…音源信号逆量子化部２５…線形予測係数逆量子化部２６…コードベクトルシフト部３０…歪み計算部３１…線形予測係数符号化復号部３２…線形予測分析部３３…再生音声信号生成合成フィルタ部３４…目標音声信号生成合成フィルタ部１００…音韻記号列１０１…音韻継続時間長１０２…ピッチパターン１０３…パワー１０４…合成音声信号１１０…ゲインインデックス１１１…音源信号インデックス１１２…シフト数１１３…線形予測係数インデックス１２０…ゲイン１２１…音源信号１２２…線形予測係数１２３…音声信号

Claims

【特許請求の範囲】

【請求項１】代表音声素片を音源信号と合成フィルタの
特性を表す係数との組で表現し、音源信号を合成フィル
タに通すことにより合成音声信号を生成する音声合成方
法において、前記音源信号を複数の音源信号がコードベクトルとして
格納された音源符号帳のコード番号およびコードベクト
ルに対するシフト数として符号化して記憶しておき、前
記合成音声信号の生成時に前記コード番号に従って前記
音源符号帳から選択された前記コードベクトルを前記シ
フト数に従ってシフトすることにより前記音源信号を復
号することを特徴とする音声合成方法。
【請求項２】代表音声素片を音源信号と合成フィルタの
特性を表す係数との組で表現し、音源信号を合成フィル
タに通すことにより合成音声信号を生成する音声合成方
法において、前記音源信号を複数の音源信号がコードベクトルとして
格納された音源符号帳のコード番号とコードベクトルに
対するシフト数およびゲインとして符号化して記憶して
おき、前記合成音声信号の生成時に前記コード番号に従
って前記音源符号帳から選択された前記コードベクトル
を前記シフト数に従ってシフトした後、前記ゲインを乗
じることにより前記音源信号を復号することを特徴とす
る音声合成方法。
【請求項３】前記ゲインを複数のゲインがコードベクト
ルとして格納されたゲイン符号帳のコード番号として符
号化して記憶しておくことを特徴とする請求項２に記載
の音声合成方法。
【請求項４】前記合成フィルタの特性を表す係数を複数
の合成フィルタの特性を表す係数が格納された符号帳の
コード番号として符号化して記憶しておくことを特徴と
する請求項１〜３のいずれか１項に記載の音声合成方
法。
【請求項５】前記コードベクトルに対するシフト数は、
前記音源信号と前記合成フィルタの特性を表す係数の組
から生成される音声信号の歪みが最小となるように決定
されていることを特徴とする請求項１〜４のいずれか１
項に記載の音声合成方法。
【請求項６】前記コードベクトルに対するシフト数は、
前記音源信号符号帳から選択されるコードベクトルのピ
ークと前記音源信号のピークが一致するように決定され
ていることを特徴とする請求項１〜４のいずれか１項に
記載の音声合成方法。