JPH11219196A - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JPH11219196A
JPH11219196A JP10018882A JP1888298A JPH11219196A JP H11219196 A JPH11219196 A JP H11219196A JP 10018882 A JP10018882 A JP 10018882A JP 1888298 A JP1888298 A JP 1888298A JP H11219196 A JPH11219196 A JP H11219196A
Authority
JP
Japan
Prior art keywords
unit
speech
signal
sound source
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10018882A
Other languages
English (en)
Other versions
JP3268750B2 (ja
Inventor
Katsumi Tsuchiya
勝美 土谷
Takehiko Kagoshima
岳彦 籠嶋
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP01888298A priority Critical patent/JP3268750B2/ja
Priority to US09/239,966 priority patent/US6202048B1/en
Publication of JPH11219196A publication Critical patent/JPH11219196A/ja
Application granted granted Critical
Publication of JP3268750B2 publication Critical patent/JP3268750B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】合成音声の品質を保持しつつ符号帳サイズを小
さくして、少ない記憶容量の下で高品質の合成音声を生
成する音声合成方法を提供する。 【解決手段】代表音声素片を音源信号と合成フィルタの
特性を表す係数との組で表現し、音源信号を合成フィル
タ13に通すことにより合成音声信号を生成する音声合
成方法において、音源信号を音源符号帳のコード番号で
ある音源信号インデックスおよびコードベクトルに対す
るシフト数として符号化して素片辞書記憶部11に記憶
しておき、合成音声信号の生成時に音源信号インデック
ス111に従って音源信号逆量子化部24で音源符号帳
21から選択されたコードベクトルをコードベクトルシ
フト部16でシフト数112に従ってシフトすることに
よって音源信号を復号する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えばテキスト合
成に用いられる音声合成方法に係り、特に音源信号と合
成フィルタの特性を表す係数の組から構成される代表音
声素片を用いて合成音声信号を生成する音声合成方法に
関する。
【0002】
【従来の技術】音声合成方式の一つである規則合成方式
は、入力された韻律情報から自動的に合成音声信号を生
成する技術であり、音韻記号列、音韻継続時間長、ピッ
チパターンおよびパワーなどの韻律情報に従って素片辞
書記憶部に記憶されている音節、音素および1ピッチ区
間などの小さな単位(代表音声素片)の特徴パラメータ
を選択し、これらをピッチや継続時間長の制御を行った
後に接続することにより、合成音声信号を生成する。こ
の規則合成方式による音声合成技術は、例えば任意の文
章(テキスト)から人工的に音声を作り出すテキスト合
成に使用される。
【0003】このような規則合成方式による音声合成技
術では、合成音声信号の品質を向上させるために、代表
音声素片の特徴パラメータには、音声データから切り出
した音声波形や、それを分析して得られる音源信号と合
成フィルタの特性を表す係数の組が用いられる。
【0004】また、合成音声の品質をより向上させるた
めに、音源信号と合成フィルタの特性を表す係数の組に
よって表現される多数の代表音声素片を素片辞書として
蓄えておき、それらの中から最適な代表音声素片を選択
して接続する方式も提案されている。
【0005】さらに、これらの方式では素片辞書の記憶
容量が膨大となってしまうという問題を回避するため
に、予め素片辞書情報を符号化しておき、音声合成を行
う時に符号化された素片辞書情報を符号帳を参照して復
号して使用する方式が提案されている。
【0006】図9に、符号化された素片辞書情報を用い
た従来の規則合成系の構成を示す。まず、入力された音
韻記号列100、音韻継続時間長101、ピッチーパタ
ーン102およびパワ−103に従って素片選択部10
により素片辞書記憶部11から素片辞書情報である符号
化された代表音声素片(以下、符号化代表音声素片とい
う)が選択される。
【0007】符号化代表音声素片は図10に示される構
成になっており、合成フィルタのフィルタ係数として用
いられる線形予測係数が線形予測係数符号帳のコード番
号(以下、線形予測係数インデックスという)113と
して、音源信号が音源信号符号帳のコード番号(以下、
音源信号インデックスという)111として、またゲイ
ンがゲイン符号帳のコード番号(以下、ゲインインデッ
クスという)110としてそれぞれ記憶されている。
【0008】素片辞書記憶部11から素片選択部10で
選択された符号化代表音声素片は、代表音声素片復号部
12に入力される。代表音声素片復号部12において
は、線形予測係数逆量子化部25により線形予測インデ
ックス113から線形予測係数122が線形予測係数符
号帳22を参照して復号され、音源信号逆量子化部24
により音源信号インデックス111から音源信号が音源
信号符号帳21を参照して復号され、ゲイン逆量子化部
23によりゲインインデックス110からゲイン120
がゲイン符号帳20を参照して復号される。また、ゲイ
ン乗算部27では音源信号逆量子化部24で復号された
音源信号に、ゲイン逆量子化部23で復号されたゲイン
120が乗じられる。
【0009】線形予測係数逆量子化部25で復号された
線形予測係数122は、合成フィルタ部13にフィルタ
係数情報として与えられ、この合成フィルタ部13によ
りゲイン乗算部27でゲイン120が乗じられた音源信
号121がフィルタリング処理されることによって、音
声信号123が生成される。このようにして生成された
音声信号は、ピッチ・時間長制御部14によってピッチ
や時間長が制御された後、素片接続部15で接続され、
合成音声信号104が生成される。
【0010】このような規則合成系では、素片辞書記憶
部11に記憶されている素片辞書情報である符号化代表
音声素片が合成音声の品質に大きく左右する。合成音声
の品質を良くするためには、言い換えると符号化による
合成音声の品質の劣化を抑えるためには、代表音声素片
の符号化ビット数を増加させる必要があるが、この符号
化ビット数を増加させると符号化時と合成時に用いる符
号帳(図9の場合は、ゲイン符号帳20、音源信号符号
帳21および線形予測係数符号帳22)の記憶容量が大
幅に増加する。
【0011】特に、符号化にベクトル量子化が適用され
ている場合には、代表音声素片の符号化ビット数が増加
するに従い符号帳の記憶容量は指数的に増加し、膨大な
ものとなる。逆に、記憶容量を削減するために符号帳サ
イズを小さくすると、合成音声の品質は劣化してしま
う。
【0012】
【発明が解決しようとする課題】このように従来の音声
合成方法では、合成音声の品質の劣化を抑えるために符
号化代表音声素片の符号化ビット数を増加すると、規則
合成に必要な記憶容量が大幅に増加し、また記憶容量を
削減するために符号帳サイズを小さくすると、合成音声
の品質が劣化してしまうという問題が生じ、合成音声の
品質を保持しつつ記憶容量を削減することは非常に困難
であった。
【0013】本発明は、このような従来の問題点を解消
するためになされたもので、合成音声の品質を保持しつ
つ符号帳サイズを小さくすることを可能として、少ない
記憶容量の下で高品質の合成音声を生成することができ
る音声合成方法を提供することを目的とする。
【0014】
【課題を解決するための手段】上記の課題を解決するた
め、本発明は代表音声素片を音源信号と合成フィルタの
特性を表す係数との組で表現し、音源信号を合成フィル
タに通すことにより合成音声信号を生成する音声合成方
法において、音源信号を複数の音源信号がコードベクト
ルとして格納された音源符号帳のコード番号およびコー
ドベクトルに対するシフト数として符号化して記憶して
おき、合成音声信号の生成時にコード番号に従って音源
符号帳から選択されたコードベクトルをシフト数に従っ
てシフトすることにより音源信号を復号することを基本
的な特徴とする。
【0015】ここで、コードベクトルに対するシフト数
は、例えば音源信号と合成フィルタの特性を表す係数の
組で表現される代表音声素片を用いて生成される音声信
号の歪みを最小化するように決定されるか、または音源
信号符号帳から選択されるコードベクトルのピークと音
源信号のピークが一致するように決定される。
【0016】また、本発明は音源信号を複数の音源信号
がコードベクトルとして格納された音源符号帳のコード
番号とコードベクトルに対するシフト数およびゲインと
して符号化して記憶しておき、合成音声信号の生成時に
コード番号に従って音源符号帳から選択されたコードベ
クトルをシフト数に従ってシフトした後、ゲインを乗じ
ることにより音源信号を復号することを特徴とする。こ
の場合、ゲインを複数のゲインがコードベクトルとして
格納されたゲイン符号帳のコード番号として符号化して
記憶しておけばよい。
【0017】さらに、本発明においては合成フィルタの
特性を表す係数を複数の合成フィルタの特性を表す係数
が格納された符号帳のコード番号として符号化して記憶
しておくようにしてもよい。
【0018】また、合成フィルタの特性を表す係数は、
スペクトルパラメータ、すなわちケプストラムあるいは
LPC係数、PARCOR係数、LSP係数などの線形
予測係数や、これらの線形予測係数を変換することによ
って生成される係数であり、複数の合成フィルタの特性
を表す係数を格納した符号帳のコード番号として符号化
される。
【0019】このように本発明の音声符号化方法では、
音源符号帳のコード番号とコードベクトルに対するシフ
ト数、さらにはゲインと合成フィルタの特性を表す情報
を素片辞書記憶部に符号化代表音声素片として記憶して
おき、合成音声信号の生成時に、コード番号に従って音
源符号帳から選択されたコードベクトルをシフト数に従
ってシフトすることで音源信号を復号することにより、
素片辞書記憶部および音源符号帳に必要なトータルの記
憶容量を抑えつつ、高品質の合成音声を生成することが
可能となる。
【0020】すなわち、音源符号帳から選択されたコー
ドベクトルをシフトすることによって、一つの音源信号
のコードベクトルからシフト数倍のコードベクトル候補
を生成することができるため、素片辞書記憶部にはシフ
ト数の情報が新たに必要となるが、このシフト数の情報
量は僅かで済むにもかかわらず、音源符号帳のサイズは
シフト数分の1と大幅に圧縮される。
【0021】従って、従来の代表音声素片を符号化する
方式と比較して、合成音声の品質を同等とすれば必要な
トータルの記憶容量は削減され、また記憶容量が同じで
あれば、合成音声の品質が向上する。さらに、ゲインや
合成フィルタの特性を表す係数の情報も符号化すれば、
記憶容量の削減と合成音声の品質向上の効果はより一層
向上する。
【0022】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。本発明の音声合成方法に基づく音声
合成システムは、大きく規則合成系と素片辞書符号化系
の二つの部分から構成される。実際に音声合成を行う場
合に動作するのは規則合成系であり、素片辞書符号化系
は事前に符号化を行って素片辞書情報である符号化代表
音声素片を生成するものである。以下、第1および第2
の実施形態として規則合成系について説明し、第3、第
4および第5の実施形態として素片辞書符号化系につい
て説明する。
【0023】(第1の実施形態)図1に、本発明の第1
の実施形態に係る規則合成系の構成を示す。この規則合
成系は素片選択部10、複数の符号化代表音声素片が素
片辞書情報として格納されている素片辞書記憶部11、
符号化代表音声素片を復号する代表音声素片復号部1
2、合成フィルタ部13、ピッチ・時間長制御部14お
よび素片接続部15から構成されている。
【0024】素片辞書記憶部11に素片辞書情報として
格納された各々の符号化代表音声素片は、図2に示され
るように線形予測係数インデックス113、音源信号イ
ンデックス111、音源信号符号帳21から選択される
コードベクトルに対するシフト数112、およびゲイン
インデックス110から構成される。すなわち、シフト
数112が符号化代表音声素片に追加されている点が図
9および図10で説明した従来の構成とことなってい
る。
【0025】一方、代表音声素片復号部12は線形予測
係数符号帳22、線形予測係数逆量子化部25、音源信
号符号帳21、音源信号逆量子化部24、ゲイン符号帳
20、ゲイン逆量子化部23、およびコードベクトルシ
フト部26から構成される。コードベクトルシフト部2
6は、音源信号符号帳21から選択されるコードベクト
ルをシフト数112で示される数だけシフトさせるもの
である。
【0026】次に、本実施形態の規則合成系の動作をテ
キスト合成の場合を例にとって説明する。まず、例えば
図示しない文解析・韻律制御部でテキスト合成に供され
るテキストを解析して得られる音韻記号列100、音韻
継続時間長101、ピッチパターン102およびパワ−
103などの韻律情報が入力され、これらの韻律情報に
従って素片選択部10により素片辞書記憶部11から素
片辞書情報である一組の符号化代表音声素片が選択され
る。素片選択部10で素片辞書記憶部11から選択され
た符号化代表音声素片は、代表音声素片復号部12に入
力される。
【0027】代表音声素片復号部12では、まず線形予
測線形係数インデックス113が線形予測係数逆量子化
部25に入力され、この線形予測係数逆量子化部25に
より線形予測係数符号帳22から線形予測係数インデッ
クス113に対応するコードベクトルが選択され、線形
予測係数122が復号される。また、ゲインインデック
ス110がゲイン逆量子化部23に入力され、このゲイ
ン逆量子化部23によりゲイン符号帳20からゲインイ
ンデックス110に対応するコードベクトルが選択さ
れ、ゲイン120が復号される。
【0028】さらに、音源信号逆量子化部24に入力さ
れた音源信号インデックス111に従って音源信号符号
帳21から選択されたコードベクトルがコードベクトル
シフト部26によりシフト数112で示される数分だけ
巡回シフトされた後、ゲイン乗算部27においてゲイン
逆量子化部23で復号されたゲイン120が乗じられる
ことによって、音源信号121が復号される。
【0029】ここで、コードベクトルのシフトとは、選
択されたコードベクトルをシフト数分ずらせて一定長だ
け切り出す操作である。巡回シフトは、このシフト操作
の一種であり、シフト数分ずらせた一定長の部分がコー
ドベクトルの最後尾にかかるときは、先頭に戻って切り
出す操作である。
【0030】まず、図3を参照して通常のシフト(これ
を単純シフトと呼ぶことにする)を説明する。図3
(a)に、音源符号帳21に格納されたコードベクトル
と各シフト数に対応して切り出される範囲を示してい
る。この例ではコードベクトルの長さは「10」であ
る。図3(b)〜(e)は、それぞれシフト数「0」〜
「3」の場合の単純シフトのシフト動作を示している。
【0031】図3に示されるように、単純シフトでは例
えば音源信号符号帳21に格納されたコードベクトルの
長さが「10」で、切り出す長さが「7」であるとすれ
ば、シフト数が「0」のときには0番目から6番目まで
を切り出し(図3(b))、シフト数が「1」のときに
は1番目から7番目までを切り出し(図3(c))、シ
フト数が「2」のときには2番目から8番目までを切り
出し(図3(d))、シフト数が「3」のときには3番
目から9番目までを切り出す(図3(e)。
【0032】次に、図4を参照して巡回シフトについて
説明する。図4(a)は、音源符号帳21に格納された
コードベクトルの各シフト数に対応して切り出される範
囲を示している。この例では、コードベクトルの長さは
「7」である。図4(b)〜(e)は、それぞれシフト
数「0」〜「3」の場合の巡回シフトのシフト動作を示
している。
【0033】図4に示されるように、巡回シフトでは例
えば音源信号符号帳21に格納されたコードベクトルの
長さが「7」で、切り出す長さも「7」であるとすれ
ば、シフト数が「0」のときには、0番目から6番目ま
でを切り出す(図4(b))。シフト数が「1」のとき
には1番目から6番目までを切り出し、引き続き0番目
を切り出す(図4(c))。シフト数が「2」のときに
は2番目から6番目までを切り出し、引き続き0番目か
ら1番目までを切り出す(図4(d))。シフト数が
「3」のときには3番目から6番目までを切り出し、引
き続き0番目から2番目までを切り出すことになる(図
4(e))。
【0034】これら通常のシフトと巡回シフトのいずれ
を用いてもよいが、上述から明らかなように巡回シフト
を用いると音源信号符号帳21に格納されるコードベク
トルの長さが短くて済み、記憶容量の点でさらに有利と
なる。
【0035】そして、線形予測係数逆量子化部25で復
号された線形予測係数122が合成フィルタ部13にフ
ィルタ係数として与えられ、合成フィルタ部13により
ゲイン乗算部27でゲインの乗じられた音源信号121
がフィルタリング処理されることによって、素片単位の
音声信号123が生成される。
【0036】このようにして生成された素片単位の音声
信号123はピッチ・時間長制御部14に入力され、こ
こで音韻記号列100、音韻継続時間長101、ピッチ
パターン102およびパワ−103などの韻律情報に基
づいてピッチや時間長が制御された後、素片接続部12
において接続されることにより、合成音声信号104が
生成される。
【0037】このように音源符号帳21から選択された
コードベクトルをシフトすることによって、一つの音源
信号のコードベクトルからシフト数倍のコードベクトル
候補を生成することができる。この場合、素片辞書記憶
部12にはシフト数112の情報が新たに必要となる
が、このシフト数112の情報量は僅かである一方、音
源符号帳21のサイズはシフト数分の1に削減される。
従って、素片辞書記憶部12と各符号帳20、21、2
2のトータルの記憶容量を削減しつつ、合成音声の品質
を向上させることができる。また、本実施形態ではゲイ
ンや合成フィルタ13の特性を表す係数の情報も符号化
しているため、記憶容量の削減と合成音声の品質向上に
より有利となる。
【0038】(第2の実施形態2)図5に、本発明の第
2の実施形態に係る規則合成系の構成を示す。図5にお
いて、図1と同一の構成要素に同一の参照符号を付して
第1の実施形態との相違点を中心に説明すると、本実施
形態では図1におけるゲイン乗算部27とピッチ・時間
長制御部14との間に挿入されていた合成フィルタ部1
3を除去し、代わりに素片接続部15の出力側に合成フ
ィルタ部17を挿入した点が第1の実施形態と異なって
いる。
【0039】この規則合成系の動作は以下の通りであ
る。まず、第1の実施形態と同様に、音韻記号列10
0、音韻継続時間長101、ピッチパターン102およ
びパワ−103などの韻律情報が入力され、これらの韻
律情報に従って素片選択部10により素片辞書記憶部1
1から素片辞書情報である符号化代表音声素片が選択さ
れ、素片選択部10で選択された符号化代表音声素片は
代表音声素片復号部12に入力される。
【0040】代表音声素片復号部12では、まず線形予
測線形係数インデックス113が線形予測係数逆量子化
部25に入力され、この線形予測係数逆量子化部25に
より線形予測係数符号帳22から線形予測係数インデッ
クス113に対応するコードベクトルが選択され、線形
予測係数122が復号される。また、ゲインインデック
ス110がゲイン逆量子化部23に入力され、このゲイ
ン逆量子化部23によりゲイン符号帳20からゲインイ
ンデックス110に対応するコードベクトルが選択さ
れ、ゲイン120が復号される。
【0041】さらに、音源信号逆量子化部24に入力さ
れた音源信号インデックス111に従って音源信号符号
帳21から選ばれたコードベクトルがコードベクトルシ
フト部26によりシフト数112だけ巡回シフトされた
後、ゲイン乗算部27によりゲイン逆量子化部23で復
号されたゲイン120が乗じられることによって、音源
信号121が復号される。
【0042】こうして復号された音源信号121はピッ
チ・時間長制御部14により音韻記号列100、音韻継
続時間長101、ピッチパターン102およびパワー1
03などの韻律情報に基づいてピッチや時間長が制御さ
れた後、素片接続部15において接続される。そして、
素片接続部15で接続された音源信号が線形予測係数逆
量子化部25で復号された線形予測係数122がフィル
タ係数として与えられた合成フィルタ部17に供給さ
れ、ここでフィルタリング処理が行われることによっ
て、合成音声信号104が生成される。
【0043】本実施形態によっても、第1の実施形態と
同様の効果が得られることは明らかである。 (第3の実施形態)図6に、本発明の第3の実施形態に
係る素片辞書符号化系の構成を示す。この素片辞書符号
化系は、線形予測分析部31、線形予測係数符号化/復
号部32、線形予測係数符号帳22、再生音声信号生成
合成フィルタ部33、ゲイン符号帳20、音源信号符号
帳21、コードベクトルシフト部26、ゲイン乗算部3
4、減算部35および歪み計算部36から構成される。
ゲイン符号帳20、音源信号符号帳21およびコードベ
クトルシフト部26は、図1または図2中に同一参照符
号で示した要素と共用することができる。
【0044】まず、代表音声素片に格納されている音声
信号が線形予測分析部31に入力され、線形予測係数が
計算される。線形予測分析部31で計算された線形予測
係数は、線形予測係数符号化/復号部32により符号化
および復号の処理が行われた後、再生音声信号生成合成
フィルタ部33に供給される。
【0045】ここで、線形予測係数符号化/復号部32
は、線形予測係数を符号化する符号化部と、符号化され
た線形予測係数を復号する復号部から構成されている。
線形予測係数符号化/復号部32の符号化部では、線形
予測係数が線形予測係数符号帳22を参照しながら符号
化され、その結果が線形予測係数符号化/復号部32の
復号部において線形予測係数符号帳22を参照しながら
線形予測係数として復号される。この場合、線形予測係
数の符号化は、線形予測分析部31で求められた線形予
測係数に対する歪みが最小となるコードベクトルを線形
予測係数符号帳22から探索することによって実現され
る。
【0046】一方、音源信号符号帳21から音源信号の
候補となるコードベクトルが選び出され、このコードベ
クトルに対してコードベクトルシフト部26により巡回
シフト処理が行われた後、ゲイン符号帳20から選び出
されたゲインがゲイン乗算部34で乗じられ、さらに再
生音声信号生成合成フィルタ部33でフィルタリング処
理されることによって、再生音声信号が生成される。
【0047】次に、再生音声信号生成合成フィルタ部3
3によるフィルタリング処理によって生成された再生音
声信号の原音声信号(代表音声素片に格納されている音
声信号)に対する歪みが歪み計算部36で計算され、こ
の歪みが最小となるゲインインデックス、音源信号イン
デックスおよびシフト数が求められる。ここで、歪み計
算部36では例えば式(1)で定義される歪み評価尺度
が用いられる。
【0048】ただし、歪み評価尺度は式(1)に限定さ
れることはなく、式(2)で定義されるような、聴覚重
み付けを考慮した歪みなどを用いることもできる。 d=|eijs2 =|X−gi H′vjs2 (1) dW =|eWijs2 =|eijs W|2 =|(X−gi H′vjs)W|2 (2) ここで、dは歪み評価尺度、dW は重み付け歪み評価尺
度、Xは代表音声素片に格納されている音声信号、
H′は符号化復号処理された線形予測係数で決定され
る合成フィルタの特性を表す行列、gi はゲイン符号帳
に格納されているi番目のゲイン、vjsは音源符号帳に
格納されているj番目のコードベクトルをsだけシフト
処理して得られる音源信号、Wは重み付けを示す行
列、eijs は原音声信号に対する再生音声信号の誤差信
号、eWijsは原音声信号に対する再生音声信号の重み付
け誤差信号を表す。
【0049】また、Cj を音源信号符号帳に格納されて
いるj番目のコードベクトルとし、Ss を式(3)で
定義されるシフト数がsの巡回シフト操作を表す行列、
Zをコードベクトルの次元数とする。
【0050】
【数1】
【0051】vjsは次式で表される。 vjs=Ssj (4) (第4の実施形態)図7に、本発明の第4の実施形態に
係る素片辞書符号化系の構成を示す。本実施形態の素片
辞書符号化系では、まず代表音声素片に格納されている
線形予測係数が線形予測係数符号化/復号部32に入力
され、ここで符号化および復号の処理が行われた後、目
標音声信号生成合成フィルタ部37および再生信号生成
合成フィルタ部33に入力される。
【0052】目標音声信号生成合成フィルタ部37は原
音源信号を入力として目標音声信号を生成するものであ
り、再生信号生成合成フィルタ部33は音源符号帳のコ
ードベクトルを処理した信号を入力として再生音声信号
を生成するものである。
【0053】線形予測係数符号化/復号部32は、第3
の実施形態と同様に、線形予測係数を符号化する符号化
部および符号化された線形予測係数を復号する復号部か
ら構成されており、線形予測係数符号化/復号部32の
符号化部では線形予測係数が線形予測係数符号帳22を
参照しながら符号化され、その結果が線形予測係数符号
化/復号部32の復号部において線形予測係数符号帳2
2を参照しながら線形予測係数として復号される。線形
予測係数の符号化は、線形予測係数の歪みが最小となる
コードベクトルを線形予測係数符号帳22から探索する
ことによって実現される。
【0054】音源信号符号帳21からは、第3の実施形
態と同様、音源信号の候補となるコードベクトルが選び
出され、このコードベクトルに対してコードベクトルシ
フト部26により巡回シフト処理が行われた後、ゲイン
符号帳20から選び出されたゲインがゲイン乗算部34
で乗じられ、さらに再生音声信号生成合成フィルタ部3
3でフィルタリング処理されることによって、再生音声
信号が生成される。
【0055】また、目標音声信号生成合成フィルタ部3
4では、線形予測係数符号化/復号部32から符号化お
よび復号の処理がなされた線形予測係数がフィルタ係数
として与えられ、原音源信号がフィルタリング処理され
ることにより、目標音声信号が生成される。
【0056】最後に、第3の実施形態と同様に、再生音
声信号生成合成フィルタ部33によるフィルタリング処
理によって生成された再生音声信号の目標音声信号に対
する歪みが歪み計算部36で計算され、この歪みが最小
になるようにゲインインデックス、音源信号インデック
スおよびシフト数が求められる。
【0057】(第5の実施形態)図8に、本発明の第5
の実施形態に係る素片辞書符号化系の構成を示す。本実
施形態の素片辞書符号化系では、まず図示しない代表音
声素片に格納されている線形予測係数が線形予測係数符
号化/復号部32に入力され、ここで符号化および復号
の処理がなされた後、再生音声信号生成合成フィルタ部
33にフィルタ係数として与えられる。
【0058】線形予測係数符号化/復号部32は、第3
および第4の実施形態と同様に、線形予測係数を符号化
する符号化部および符号化された線形予測係数を復号す
る復号部から構成されており、線形予測係数符号化/復
号部32の符号化部では線形予測係数が線形予測係数符
号帳22を参照しながら符号化され、その結果が線形予
測係数符号化/復号部32の復号部において線形予測係
数符号帳22を参照しながら線形予測係数として復号さ
れる。線形予測係数の符号化は、線形予測係数の歪みが
最小となるコードベクートルを線形予測係数符号帳22
から探索することによって実現される。
【0059】一方、音源信号符号帳21から第3および
第4の実施形態と同様に、音源信号の候補となるコード
ベクトルが選び出され、このコードベクトルに対してコ
ードベクトルシフト部26により巡回シフト処理が行わ
れた後、ゲイン符号帳20から選び出されたゲインがゲ
イン乗算部34で乗じられ、さらに再生音声信号生成合
成フィルタ部33でフィルタリング処理されることによ
って、再生音声信号が生成される。また、目標音声信号
生成合成フィルタ部34では、原音源信号および原線形
予測係数を入力として目標音声信号が生成される。
【0060】その後、フィルタリング処理によって生成
された再生音声信号の歪み(再生音声信号の目標音声信
号に対する誤差)が歪み計算部36で計算され、この歪
みが最小になるようにゲインインデックス、音源信号イ
ンデックスおよびシフト数が求められる。
【0061】なお、上記各実施形態において合成フィル
タの特性を表す線形予測係数としてはLPC係数、PA
RCOR係数あるいはLSP係数などのパラメータを用
いることができる。また、合成フィルタ部の特性を一意
に決定できるような係数であれば、線形予測係数に限定
される必要はなく、ケプストラムや、LPC係数、PA
RCOR係数、LSP係数あるいはケプストラムを変換
した結果得られる係数を用いることもでき、要するに合
成フィルタの特性を表す係数としてはスペクトルパラメ
ータを用いればよい。
【0062】さらに、上記各実施形態では音源信号符号
帳のコードベクトルのシフト数は再生音声信号の目標音
声信号に対する歪みが最小になるように決定されている
が、コードベクトルのシフト数の決定方法は上記手法に
限らず、例えば音源信号符号帳のコードベクトルのピー
クと原音源信号のピークが一致するように決定すること
もできる。このような決定法によっても、近似的に再生
音声信号の目標音声信号に対する歪みが最小となるよう
にシフト数を決定することができる。
【0063】以上、本発明の実施形態を幾つか説明した
が、本発明は上述した実施形態に限られるものではな
く、種々変形して実施が可能である。例えば、上記実施
形態では、線形予測係数、音源信号およびゲインを全て
符号化しているが、本発明は少なくとも音源信号を符号
化し、線形予測係数およびゲインを符号化しない場合に
も適用が可能である。
【0064】
【発明の効果】以上説明したように、本発明によれば音
源信号を音源符号帳のコード番号(音源信号インデック
ス)およびコードベクトルに対するシフト数として符号
化して記憶しておき、合成音声信号の生成時に音源信号
インデックスに従って音源符号帳から選択されたコード
ベクトルをシフト数に従ってシフトすることで音源信号
を復号して生成し、この音源信号を合成フィルタに通し
て合成音声信号を生成することにより、符号帳サイズを
小さくして記憶容量を抑えつつ、高品質の合成音声を得
ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声合成方法の第1の実施形態を
説明するための規則合成系の構成を示すブロック図
【図2】図1における素片辞書の構成を示す図
【図3】図1におけるコードベクトルシフト部の単純シ
フト動作を説明するための図
【図4】図1におけるコードベクトルシフト部の巡回シ
フト動作を説明するための図
【図5】本発明に係る音声合成方法の第2の実施形態を
説明するための規則合成系の構成を示すブロック図
【図6】本発明に係る音声合成方法の第3の実施形態を
説明するための素片辞書符号化系の構成を示すブロック
【図7】本発明に係る音声合成方法の第4の実施形態を
説明するための素片辞書符号化系の構成を示すブロック
【図8】本発明に係る音声合成方法の第5の実施形態を
説明するための素片辞書符号化系の構成を示すブロック
【図9】従来の音声合成方法を説明するための規則合成
系の構成を示すブロック図
【図10】図9における素片辞書の構成を示す図
【符号の説明】
10…素片選択部 11…素片辞書記憶部 12…代表音声素片復号部 13…合成フィルタ部 14…ピッチ・時間長制御部 15…素片接続部 17…合成フィルタ部 20…ゲイン符号帳 21…音源信号符号帳 22…線形予測係数符号帳 23…ゲイン逆量子化部 24…音源信号逆量子化部 25…線形予測係数逆量子化部 26…コードベクトルシフト部 30…歪み計算部 31…線形予測係数符号化復号部 32…線形予測分析部 33…再生音声信号生成合成フィルタ部 34…目標音声信号生成合成フィルタ部 100…音韻記号列 101…音韻継続時間長 102…ピッチパターン 103…パワー 104…合成音声信号 110…ゲインインデックス 111…音源信号インデックス 112…シフト数 113…線形予測係数インデックス 120…ゲイン 121…音源信号 122…線形予測係数 123…音声信号

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】代表音声素片を音源信号と合成フィルタの
    特性を表す係数との組で表現し、音源信号を合成フィル
    タに通すことにより合成音声信号を生成する音声合成方
    法において、 前記音源信号を複数の音源信号がコードベクトルとして
    格納された音源符号帳のコード番号およびコードベクト
    ルに対するシフト数として符号化して記憶しておき、前
    記合成音声信号の生成時に前記コード番号に従って前記
    音源符号帳から選択された前記コードベクトルを前記シ
    フト数に従ってシフトすることにより前記音源信号を復
    号することを特徴とする音声合成方法。
  2. 【請求項2】代表音声素片を音源信号と合成フィルタの
    特性を表す係数との組で表現し、音源信号を合成フィル
    タに通すことにより合成音声信号を生成する音声合成方
    法において、 前記音源信号を複数の音源信号がコードベクトルとして
    格納された音源符号帳のコード番号とコードベクトルに
    対するシフト数およびゲインとして符号化して記憶して
    おき、前記合成音声信号の生成時に前記コード番号に従
    って前記音源符号帳から選択された前記コードベクトル
    を前記シフト数に従ってシフトした後、前記ゲインを乗
    じることにより前記音源信号を復号することを特徴とす
    る音声合成方法。
  3. 【請求項3】前記ゲインを複数のゲインがコードベクト
    ルとして格納されたゲイン符号帳のコード番号として符
    号化して記憶しておくことを特徴とする請求項2に記載
    の音声合成方法。
  4. 【請求項4】前記合成フィルタの特性を表す係数を複数
    の合成フィルタの特性を表す係数が格納された符号帳の
    コード番号として符号化して記憶しておくことを特徴と
    する請求項1〜3のいずれか1項に記載の音声合成方
    法。
  5. 【請求項5】前記コードベクトルに対するシフト数は、
    前記音源信号と前記合成フィルタの特性を表す係数の組
    から生成される音声信号の歪みが最小となるように決定
    されていることを特徴とする請求項1〜4のいずれか1
    項に記載の音声合成方法。
  6. 【請求項6】前記コードベクトルに対するシフト数は、
    前記音源信号符号帳から選択されるコードベクトルのピ
    ークと前記音源信号のピークが一致するように決定され
    ていることを特徴とする請求項1〜4のいずれか1項に
    記載の音声合成方法。
JP01888298A 1998-01-30 1998-01-30 音声合成方法及びシステム Expired - Lifetime JP3268750B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP01888298A JP3268750B2 (ja) 1998-01-30 1998-01-30 音声合成方法及びシステム
US09/239,966 US6202048B1 (en) 1998-01-30 1999-01-29 Phonemic unit dictionary based on shifted portions of source codebook vectors, for text-to-speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01888298A JP3268750B2 (ja) 1998-01-30 1998-01-30 音声合成方法及びシステム

Publications (2)

Publication Number Publication Date
JPH11219196A true JPH11219196A (ja) 1999-08-10
JP3268750B2 JP3268750B2 (ja) 2002-03-25

Family

ID=11983939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01888298A Expired - Lifetime JP3268750B2 (ja) 1998-01-30 1998-01-30 音声合成方法及びシステム

Country Status (2)

Country Link
US (1) US6202048B1 (ja)
JP (1) JP3268750B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP2005309164A (ja) * 2004-04-23 2005-11-04 Nippon Hoso Kyokai <Nhk> 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
EP1970900A1 (en) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2027705C (en) * 1989-10-17 1994-02-15 Masami Akamine Speech coding system utilizing a recursive computation technique for improvement in processing speed
JP2834260B2 (ja) * 1990-03-07 1998-12-09 三菱電機株式会社 音声のスペクトル包絡パラメータ符号化装置
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JPH088501A (ja) 1994-06-16 1996-01-12 Toshiba Chem Corp 低誘電率プリント回路用積層板
JPH088500A (ja) 1994-06-22 1996-01-12 Matsushita Electric Ind Co Ltd 識別マーク付加基板、基板の識別方法と実装支援方法およびその装置
JP3137176B2 (ja) * 1995-12-06 2001-02-19 日本電気株式会社 音声符号化装置
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
JP3364825B2 (ja) * 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
US6055496A (en) * 1997-03-19 2000-04-25 Nokia Mobile Phones, Ltd. Vector quantization in celp speech coder

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP4824167B2 (ja) * 1998-12-21 2011-11-30 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP2005309164A (ja) * 2004-04-23 2005-11-04 Nippon Hoso Kyokai <Nhk> 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム

Also Published As

Publication number Publication date
JP3268750B2 (ja) 2002-03-25
US6202048B1 (en) 2001-03-13

Similar Documents

Publication Publication Date Title
JP3134817B2 (ja) 音声符号化復号装置
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
CA2430111C (en) Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
JP3114197B2 (ja) 音声パラメータ符号化方法
EP0926660B1 (en) Speech encoding/decoding method
JPH1091194A (ja) 音声復号化方法及び装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
US6768978B2 (en) Speech coding/decoding method and apparatus
JP2002268686A (ja) 音声符号化装置及び音声復号化装置
JP3268750B2 (ja) 音声合成方法及びシステム
JP2538450B2 (ja) 音声の励振信号符号化・復号化方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP2968109B2 (ja) コード励振線形予測符号化器及び復号化器
JP3579276B2 (ja) 音声符号化/復号化方法
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JPH08234795A (ja) 音声符号化装置
JP3552201B2 (ja) 音声符号化方法および装置
JP3874851B2 (ja) 音声符号化装置
JP2003248495A (ja) 音声合成方法と装置及びプログラム
JP3192051B2 (ja) 音声符号化装置
JPH10276096A (ja) ベクトルサーチ方法
JP3335650B2 (ja) 音声符号化方式
JP3277090B2 (ja) ゲイン量子化方法及び装置、音声符号化方法及び装置並びに音声復号化方法及び装置
JPH0455899A (ja) 音声信号符号化方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 12

EXPY Cancellation because of completion of term