JP2003255976A - 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法 - Google Patents

音声素片データベースの圧縮伸張を行なう音声合成装置及び方法

Info

Publication number
JP2003255976A
JP2003255976A JP2002053063A JP2002053063A JP2003255976A JP 2003255976 A JP2003255976 A JP 2003255976A JP 2002053063 A JP2002053063 A JP 2002053063A JP 2002053063 A JP2002053063 A JP 2002053063A JP 2003255976 A JP2003255976 A JP 2003255976A
Authority
JP
Japan
Prior art keywords
pulse
segment
decoding
circuit
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002053063A
Other languages
English (en)
Inventor
Masahiro Serizawa
芹沢  昌宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002053063A priority Critical patent/JP2003255976A/ja
Priority to US10/376,151 priority patent/US20030163318A1/en
Publication of JP2003255976A publication Critical patent/JP2003255976A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 音源信号の圧縮率を向上させ、かつ合成音声
の品質を向上させる音声合成装置および方法を提供す
る。 【解決手段】 パルス位置探索回路60は、自己相関と
相互相関に基づきパルス位置とパルス振幅を計算する。
更に、パルス数を増加させる毎に自己相関と相互相関か
らパルス数kでの信号対雑(SN)比を計算し、パルス制御
回路65に順次渡す。パルス数制御回路65から終了フ
ラグを受けるまでパルス数kを増加させる。パルス数制
御回路65は、パルス位置探索回路60から順次渡され
たSN比が予め定めた閾値より大きくなったパルス数Npで
パルス位置探索回路60に終了フラグを渡す。これによ
り素片に応じたパルス数の制御を行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキスト音声合成装
置に係り、音声の素片データを高ビットレート且つ低歪
みで符号化する圧縮伸張部を具備する音声合成装置に関
するものである。
【0002】
【従来の技術】規則音声合成は、韻律生成情報から合成
音声信号を生成する技術である。音韻生成情報には、音
韻情報や継続時間長制御情報やピッチパタン制御情報が
ある。音声合成では、これらの情報を用いて1ピッチ分
や1音素分の音声波形信号からなる素片データベースか
ら素片信号を選択し、ピッチや継続時間を制御して接続
することにより音声波形を生成する。合成音声の品質は
用意した素片データベースの性能に大きく依存し、一般
に素片種類が多いほど音質を向上させることができる。
従って、規則合成技術を適用する装置によっては素片デ
ータベースの規模が問題となる。
【0003】音声信号を効率的に圧縮する方法としてCE
LP (Code Excited Linear Prediction)方式が知られて
いる。CELPに関しては、例えば「M. R. Schroeder and
Bishnu S. Atal. Code-excited linear prediction CEL
P: High quality speech at very low bit rates. In P
roceedings of the 1985 International Conferenc
e on Acoustics, Speech, and Signal Processing, vol
ume 1, pages 937--940, March 1985. Inst
itute of Electrical and Electronic Engineers.」(文
献1)を参照されたい。ピッチ周期性を有する有声音素
片データベースの圧縮でもCELP方式が有効であるが、音
声合成では素片データベースの任意位置を伸張する必要
があるため、ピッチ予測を用いるCELP方式は不向きであ
る。ピッチ予測を用いるためには本来不必要な過去の伸
張信号を復号する必要が生じる。
【0004】これを避けるために、ピッチ予測を含まな
いマルチパルス音源方式がある。例えば、「K. Ozawa,
S. Ono and T. Araseki, “A study on pulse search a
lgorithms for multi-pulse excited speech coder rea
lization,” IEEE Journal of Selected Areas Communi
cations, vol.SAC-4, No.1, pp.133-141, Febr
uary 1986.」(文献2)を参照されたい。マルチパル
ス符号化方式による圧縮処理では、入力信号を線形予測
(LP)分析して計算したスペクトル包絡特性を表すLP係数
とこのLP係数で構成されるLP合成フィルタを駆動する励
振信号とに分けて圧縮処理を行なう。LP分析とLP係数の
符号化は、予め定めた長さ(フレーム)毎の信号毎に行な
う。励振信号の符号化は、フレームを更にサブフレーム
に分割してサブフレーム毎に行なう。ここで、励振信号
は、音源コードベクトルと呼ばれる複数のパルスからな
るマルチパルス信号で表す。伸張処理では、復号した前
記LP係数で構成する合成フィルタに復号した励振信号を
入力して音声信号を得る。
【0005】図8は、音声合成装置の一般的な構成例を
示すブロック図である。素片データベース220と圧縮
部225は、圧縮合成装置で必要とする圧縮素片データ
ベースを生成するために必要であるが、合成装置に組み
込まれる場合は不要である。素片データベース220
は、予め音声信号を切り出した音声素片群を蓄積してお
り、圧縮部225はこれを圧縮し、圧縮素片データベー
ス235として蓄積する。
【0006】圧縮素片データベース235は、圧縮され
た音声素片群を有し、入力端子230から入力した音韻
情報に従って圧縮素片を出力する。伸張部240は、圧
縮素片データベース235から渡された圧縮素片を伸張
して得た素片を出力する。韻律制御回路255は、入力
端子250から入力した韻律情報を用いて、伸張部24
0から渡された素片の韻律を制御する。この韻律を制御
された素片は素片接続回路260で接続され、合成音声
として出力端子265から出力する。
【0007】図9は、音声合成装置に用いられる従来の
圧縮部の一例を示すブロック図である。LP分析回路15
は、入力端子5から入力した素片からLP分析を用いてLP
係数を計算する。LP-LSP変換回路20は、LP分析回路1
5から渡されたLP係数を線スペクトル対(LSP)係数に変
換する。
【0008】LSP符号化回路25はLP-LSP変換回路20
から渡されたLSP係数を符号化し、その符号をビットス
トリームか回路84に渡す。また、その符号から復号し
た量子化LSP係数をLSP-LP変換回路30に渡す。
【0009】LSPの符号化方法としてはベクトル量子化
がある。ベクトル量子化では、符号化器と復号器で同一
の量子化ベクトルテーブルを有し、各ベクトルに付けら
れた符号を伝送する。復号器では、渡された符号に対応
するベクトルを出力する。ベクトル量子化法の詳細は、
「Efficient Vector Quantization of LPC Parameters
at 24 Bits/Frame (IEEE Proc. ICASSP-91, pp.6
61-664, 1991)」(文献2)を参照されたい。
【0010】LSP-LP変換回路30は、LSP符号化回路2
5から渡された量子化LSP係数をLP係数に変換し、量子
化LP係数a^(i), i = 1, …, p(ただし、“a^”は、
^がaの上に付いていることを表す。以下同じ。)とし
て荷重インパルス応答回路35に渡す。荷重インパルス
応答回路35は、LSP-LP変換回路30から渡された量子
化LP係数とLP分析回路15から渡されたLP係数a(i), i
= 1,…, pとを用いて、次の荷重合成フィルタHw(z)を構
成し、そのインパルス応答を計算する。荷重関数は聴感
的な音質を改善するために用いる。
【0011】
【数1】 ここで、pはLP分析次数であり、βとγは聴覚的な音質
改善を行なうための荷重具合を調整する係数であり、0
<γ<β≦1を満たす値を取る。
【0012】荷重回路40は、入力端子5から入力した
素片に次の荷重関数W(z)を施すことにより荷重素片を生
成する。
【0013】
【数2】 相互相関回路54は、荷重関数40から渡された荷重素
片sw(n),n=1,…Nと、荷重インパルス応答回路35から
渡されたインパルス応答hw(n),n=1,…Nの相互相関C(i),
n=1,…,Nを次式で計算する。
【0014】
【数3】 ここでNは素片の長さである。
【0015】自己相関回路50は荷重インパルス応答回
路35から渡されたインパルス応答hw(n),n=1,…Nの自
己相関R(i),n=1,…Nを次式で計算する。
【0016】
【数4】 パルス位置探索回路59は、相互相関回路54から渡さ
れる相互相関C(i),n=1,…,Nと自己相関回路50から渡
される自己相関R(i),n=1,…Nを用いて次式が最小になる
ようにk番目のパルス位置を順次決定する。
【0017】
【数5】 ここでg(i) はi番目のパルスが有する振幅であり、次式
で計算する。
【0018】
【数6】 D(k)を最小とすることは、入力した素片と、パルス列
で合成フィルタを励振して得る信号との距離を最小にす
ることと等価である。
【0019】また、パルス位置探索回路59は得た各パ
ルス位置の情報をビットストリーム回路84に渡す。最
大振幅回路70は、パルス位置探索回路59から渡され
た各パルスの振幅の最大値を選択する。最大振幅SQ回路
75は、最大振幅回路70で選択された最大振幅をスカ
ラー量子化(SQ)により符号化し、その符号をビットスト
リーム化回路84に渡す。
【0020】量子化された最大振幅は、振幅SQ回路80
a、80bでの符号化に用いられる。振幅SQ回路80a、
80bはパルスと同一数だけ存在し、各回路において、
パルス位置探索回路59で計算されたパルス振幅をスカ
ラー量子化で符号化する。但し、最大振幅SQ回路75で
符号化されたパルス振幅はこの符号化対象とならない。
【0021】ビットストリーム化回路84は、LSP符号
化回路25とパルス位置探索回路59と振幅SQ回路80
a、80b及び最大振幅SQ回路75から各々渡された符号
を並べてビットストリームを生成し、出力端子90から
出力する。
【0022】図10は、音声合成装置に用いられる従来
の伸張部の一例を示すブロック図である。符号回路10
4は、入力端子105から入力したビットストリームを
分割して各回路の符号を生成する。LSP復号回路115
は、符号回路104から得た符号からLSP係数を復号す
る。LSP-LP変換回路120は、LSP復号回路115で復
号されたLSP係数をLP係数に変換する。
【0023】回路144は、パルス数個の位置回路14
4a、144bを有し、符号回路104から渡された各々
の符号からパルス位置を復号する。最大振幅復号回路1
35は、符号回路104から渡された符号から最大パル
ス振幅を復号する。
【0024】回路139は、最大振幅のパルス以外のパ
ルスに対応する振幅回路139a、139bを有し、符号
回路104から渡された各々の符号からパルス振幅を復
号する。音源合成回路150は、回路144から渡され
るパルス位置に回路139から渡された振幅を有するパ
ルスを生成することにより、音源信号を生成する。LP合
成回路125は、LSP-LP変換回路120から渡されるLP
係数で構成するLPフィルタを音源合成回路150から渡
される音源信号で励振することにより、音声信号を合成
し、出力端子165から出力する。聴感的な音質を向上
するために、合成した音声信号にポストフィルタと呼ば
れるスペクトルピークを強調するフィルタを施すことも
できる。
【0025】
【発明が解決しようとする課題】しかしながら、上記従
来の音声合成装置では、素片に依らず一定数のパルスを
用いて素片の圧縮を行なうために、音源信号の圧縮率が
低くなり全体として圧縮率が低下するという問題(第1
の問題点)がある。
【0026】特に、サンプリングレートが高い時には、
高周波数領域で小さい荷重の評価関数を用いて圧縮処理
を行なうために、高周波数領域の量子化精度が落ち、伸
張信号の高周波数領域が欠落するという問題(第2の問
題点)がある。
【0027】さらに、入力した素片の両端は零になるよ
うに調整されているにも関らず伸張した素片の両端は零
にならないために、素片を結合する際に不連続性が生じ
合成音声の品質が劣化するという問題(第3の問題点)
もある。
【0028】本発明の目的は、音源信号の圧縮率を向上
させ、かつ合成音声の品質を向上させる音声合成装置お
よび方法を提供することにある。
【0029】
【課題を解決するための手段】本発明の第1の観点によ
る音声合成装置は、素片データベースからフィルタとパ
ルスに関する情報を抽出する手段(図1の参照番号1
5、60)と、これらを符号化する手段(図1の参照番号
25、60、75、80)と、素片毎にパルス数を変更
する手段(図1の参照番号65)と、を有することを特徴
とする。
【0030】本発明の第2の観点による音声合成装置
は、素片データベースからフィルタとパルスに関する情
報を抽出する手段(図3の参照番号15、60)と、これ
らを符号化する手段(図3の参照番号25、60、7
5、80)と、前記パルスと前記LPフィルタを抽出する
前に素片データベースに高域強調フィルタを施す手段
(図3の参照番号10)と、前記高域強調フィルタの逆特
性を有する荷重関数を用いて前記パルスの位置と振幅を
計算する手段(図3の参照番号36)を有することを特徴
とする。
【0031】本発明の第3の観点による音声合成装置
は、フィルタとパルスに関する情報を用いて素片データ
ベースを復号する手段(図2の参照番号115、12
0、145、140、150、125)と、素片毎にパ
ルス数を変える手段(図2の参照番号130)を有するこ
とを特徴とする。
【0032】本発明の第4の観点による音声合成装置
は、フィルタとパルスに関する情報を用いて素片データ
ベースを復号する手段(図4の参照番号115、12
0、145、140、150、125)と、伸張した素
片データベースに低域強調フィルタを施す手段(図4の
参照番号155)を有することを特徴とする。
【0033】本発明の第5の観点による音声合成装置
は、フィルタとパルスに関する情報を用いて素片データ
ベースを復号する手段(図5の参照番号115、12
0、145、140、150、125)と、伸張した素
片毎に先頭と最後が零になる窓関数を施す手段(図5の
参照番号160)を有することを特徴とする。
【0034】本発明の第6の観点による音声合成装置
は、フィルタとパルスに関する情報を用いて素片データ
ベースを復号する手段(図6の参照番号115、12
0、145、140、150、125)と、前記パルス
の振幅を復号する際に、最大の振幅は第1の量子化テー
ブルを用いて復号する手段(図6の参照番号135)と、
他の少なくとも一つのパルスの振幅は前記第1の量子化
テーブルのレベル毎に予め設計した第2の量子化テーブ
ルを用いて復号する手段(図6の参照番号141)を有す
ることを特徴とする。
【0035】
【作用】従来の第1の問題点を解決できる。すなわち、
素片毎に信号対雑音(SN)比等を用いて最良のパルス数を
決定し、この決定に従って素片毎に異なるパルス数を設
定できるために、全体としての圧縮率を向上させること
ができる。
【0036】従来の第2の問題点を解決できる。すなわ
ち、入力した素片へ高域周波数に重みを付ける荷重Wpre
(z) = 1 - z-1を施し、パルスの位置と振幅を計算する
時の評価関数に前記荷重の逆特性を有する荷重W
percep(z) = 1/(1 - z-1)を用いる。これにより、次式
のように再生素片Y^(z)に低周波数領域荷重を施した信
号で素片Y(z)を近似することになり、その結果、Y^(z)
の評価では高周波数領域で荷重できる。 D(z) = Wpercep(z)[Wpre(z)Y(z)-Y^(z)] = [Y(z)-W
percep(z)Y^(z)] また、伸張時には、圧縮時の荷重Wpre(z)の特性を除去
するためにその逆特性であるWpercep(z)を施す。
【0037】従来の第3の問題点を解決できる。すなわ
ち、伸張時に始端と終端が零になり、且つ音質に影響を
与える影響が少ない窓を施す。例えば、LP分析で用いる
ハニング窓やハミング窓がある。その結果、素片の両端
を零とすることができる。
【0038】
【発明の実施の形態】以下、本発明による音声合成装置
について、図面を参照しながら詳細に説明する。
【0039】本発明の実施形態においても、素片データ
ベースの圧縮部及び伸張部を用いた音声合成装置の全体
的構成は既に説明した図8に示したものと同一である。
したがって、以下、本発明による圧縮部および伸張部に
ついて主に説明する。
【0040】図1は、本発明の第1実施形態による圧縮
部の構成を示すブロック図である。図9に示した従来の
圧縮部の構成と比べて、パルス位置探索回路60および
パルス数制御回路65が異なるので、以下、これらの回
路に関して説明する。
【0041】パルス位置探索回路60は、従来のパルス
位置探索回路59(図9参照)と同様に、自己相関と相
互相関とに基づきパルス位置とパルス振幅を計算する。
更に、パルス数を増加させる毎に自己相関と相互相関と
から次式によりパルス数kでのSN(信号対雑音)比を
計算し、パルス制御回路65に順次渡す。パルス数制御
回路65から終了フラグを受けるまでパルス数kを増加
させる。
【0042】
【数7】 パルス数制御回路65は、パルス位置探索回路60から
順次渡されたSN比が予め定めた閾値より大きくなったパ
ルス数Npでパルス位置探索回路60に終了フラグを渡
す。また、パルス数Np-1をビットストリーム化回路9
0に渡す。選択可能なパルス数は予め定めた離散値、例
えば5の倍数に制限することもできる。これにより、パ
ルス数を伝送するために必要なビット数を低減できる。
【0043】図2は、本発明の第2実施形態による伸張
部の構成を示すブロック図である。図10に示す従来の
伸張部と比べて、符号回路106、パルス数回路13
0、位置回路146、および振幅回路141が異なる。
以下、これらの回路について主に説明する。
【0044】符号回路106は、入力端子105から入
力したビットストリームを分割して、各回路の符号を生
成する。回路146は、パルス数回路130から渡され
るパルス数個だけ位置回路146a、146bを有し、符
号回路106から渡された各々の符号からパルス位置を
復号する。回路141は、最大振幅のパルス以外のパル
スに対応する振幅回路141a、141bをパルス数回路
130から渡されるパルス数分だけ有する。回路141
は、最大振幅復号回路135から渡される量子化最大値
を用いて、符号回路106から渡された各々の符号から
パルス振幅を復号する。
【0045】図3は、本発明の第3実施形態による圧縮
部の構成を示すブロック図である。図9に示す従来の圧
縮部と比べて、前フィルタ回路10と高域荷重インパル
ス応答回路36が異なっており、以下、これら回路につ
いて主に説明する。
【0046】前フィルタ回路10は、入力端子5から入
力した素片にWpre(z) = 1 - z-1を施した後にLP分析回
路15と荷重回路40に渡す。
【0047】高域荷重インパルス応答回路36は、LSP-
LP変換回路30から渡された量子化LP係数a^(i), i =
1, …, pと、LP分析回路15から渡されたLP係数a(i),
i = 1, …, pと、荷重Wpercep(z) = 1/(1 - z-1)とを用
いて、次式に示す荷重合成フィルタHw2(z)を構成し、そ
のインパルス応答を計算する。荷重関数は聴感的な音質
を改善するために用いる。
【0048】
【数8】 ここで、pはLP分析次数であり、βとγは聴覚的な音質
改善を行なうための荷重具合を調整する係数であり、0
<γ<β≦1を満たす値を取る。尚、この荷重は第1実施
形態の圧縮部(図1参照)に適用することもできる。
【0049】図4は、本発明の第4実施形態による伸張
部の構成を示すブロック図である。図10に示す従来の
伸張部と比べて、後フィルタ回路155が追加されてい
る。
【0050】後フィルタ回路155は、LP合成回路12
5で合成された素片に対し荷重Wper cep(z) = 1/(1 - z
-1)を施して出力端子165へ出力する。尚、この荷重
は図2、5及び後述する図6の伸張部にも適用すること
ができる。
【0051】図5は、本発明の第5実施形態による伸張
部の構成を示すブロック図である。図10に示す従来の
伸張部と比べて、後窓回路160が追加されている。
【0052】後窓回路160は、LP合成回路125で合
成された素片に対して、始点と終点が零となる時間窓を
施して出力端子165へ出力する。時間窓としてLP係数
分析で用いるハミング窓やハニング窓等を使用できる。
尚、この窓関数は図2、4及び後述する図6の伸張部に
も適用することができる。
【0053】図6は、本発明の第6実施形態による伸張
部の構成を示すブロック図である。図10に示す従来の
伸張部と比べて、最大振幅テーブル復号回路136と回
路141が異なっており、以下、これらの回路について
主に説明する。
【0054】最大振幅テーブル復号回路136は、予め
作成したスカラー量子化テーブルを有し、このテーブル
を用いて最大振幅を復号し、復号した最大振幅を合成音
声回路150に渡す。また、その符号をテーブル振幅回
路141に渡す。回路141は、最大振幅のパルス以外
のパルスに対応するテーブル振幅回路141a、141b
を有する。各テーブル振幅回路141a、141bは、符
号回路104から渡された各々の符号からパルス振幅を
復号する。
【0055】図7は、本発明の第2及び第6実施形態に
おけるテーブル振幅回路141a、141bの詳細構成を
示すブロック図である。テーブル振幅回路は複数の振幅
テーブルを有し、各テーブルは最大振幅テーブル復号回
路136のレベル毎に予め設計されている。入力端子3
01から入力した符号に基づき振幅テーブルを切り替え
る。入力端子300から入力した符号からこの選択され
た振幅テーブルを用いて復号した振幅後を出力端子30
5へ出力する。
【0056】
【発明の効果】第1の効果は、各素片で必要なパルス数
が設定されるようにパルス数を変更することにより、音
源信号の圧縮率が高くなる。その結果、素片データベー
スの圧縮率を高くできる。
【0057】第2の効果は、高周波数領域で大きい荷重
の評価関数を用いることにより、高周波数領域での情報
欠落を低減できることである。その結果、高周波数領域
の量子化精度を向上できる。
【0058】第3の効果は、伸張した素片に両端を零に
する時間窓を施すことにより、零素片を結合する際に生
ずる不連続性を低減できることである。その結果、合成
音声の品質を改善できる。
【図面の簡単な説明】
【図1】本発明の第1実施形態による圧縮部の構成を示
すブロック図である。
【図2】本発明の第2実施形態による伸張部の構成を示
すブロック図である。
【図3】本発明の第3実施形態による圧縮部の構成を示
すブロック図である。
【図4】本発明の第4実施形態による伸張部の構成を示
すブロック図である。
【図5】本発明の第5実施形態による伸張部の構成を示
すブロック図である。
【図6】本発明の第6実施形態による伸張部の構成を示
すブロック図である。
【図7】本発明の第2および第6実施形態による伸張部
におけるテーブル振幅回路141a、141bの詳細なブ
ロック図である。
【図8】素片データバースに圧縮伸張を適用した音声合
成の一般的な構成例を示すブロック図である。
【図9】従来方式による圧縮部の一例を示すブロック図
である。
【図10】従来方式による伸張部の一例を示すブロック
図である。
【符号の説明】
5 素片入力端子 10 前フィルタ回路 15 LP分析回路 20 LP-LSP変換回路 25 LSP符号化回路 30、120 LSP-LP変換回路 35 荷重インパルス応答回路 36 高域荷重インパルス応答回路 40 荷重回路 54 自己相関回路 54 相互相関回路 59 パルス位置探索回路 60 パルス位置探索回路 65 パルス数制御回路 70 最大振幅回路 75 最大振幅SQ回路 80a、80b 振幅SQ回路 84 ビットストリーム化回路 85 ビットストリーム化回路 90 ビットストリーム出力端子 104 符号回路 105 ビットストリーム入力端子 106 符号回路 115 LSP復号回路 125 LP合成回路 130 パルス数回路 135 最大振幅復号回路 139a、139b 振幅回路 140a、140b 振幅回路 141a、141b テーブル振幅回路 145a、145b 位置回路 146a、146b 位置回路 150 音源合成回路 155 後フィルタ回路 160 後窓回路 165 合成素片出力端子 220 素片データベース 225 圧縮部 230 音韻情報入力端子 235 圧縮素片データベース 240 伸張部 250 韻律情報入力端子 255 韻律制御回路 260 素片接続回路 265 合成音声出力端子 300、301 符号入力端子 302 切り替え回路 304 切り替え回路 303a、303b 振幅テーブル 305 量子化値出力端子

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 素片データベースからフィルタおよびパ
    ルスに関する情報を抽出して符号化する音声合成装置に
    おいて、 素片毎にパルス数を変更するパルス数制御手段を有する
    ことを特徴とする音声合成装置。
  2. 【請求項2】 素片データベースからフィルタおよびパ
    ルスに関する情報を抽出して符号化する音声合成装置に
    おいて、 前記パルスおよび前記フィルタを抽出する前に、前記素
    片データベースに高域強調フィルタを施すための前フィ
    ルタ手段と、 前記高域強調フィルタの逆特性を有する荷重関数を用い
    て、前記パルスの位置および振幅を計算する演算手段
    と、 を有することを特徴とする音声合成装置。
  3. 【請求項3】 素片毎にパルス数を変更するパルス数制
    御手段を更に有することを特徴とする請求項2記載の音
    声合成装置。
  4. 【請求項4】 前記パルス数制御手段は、素片毎に計算
    した圧縮性能に応じて前記パルス数を決定する、ことを
    特徴とする請求項1または3に記載の音声合成装置。
  5. 【請求項5】 フィルタおよびパルスに関する情報を用
    いて素片データベースを復号する音声合成装置におい
    て、 符号化素片データベースから素片毎に変更されたパルス
    数を出力するパルス数手段と、 前記パルス数に基づいて前記素片データベースを復号す
    る復号手段と、 を有することを特徴とする音声合成装置。
  6. 【請求項6】 フィルタおよびパルスに関する情報を用
    いて素片データベースを復号する音声合成装置におい
    て、 伸張された素片データベースに低域強調フィルタを施す
    後フィルタ手段を有することを特徴とする音声合成装
    置。
  7. 【請求項7】 フィルタおよびパルスに関する情報を用
    いて素片データベースを復号する音声合成装置におい
    て、 伸張された素片毎に先頭と最後が零になる窓関数を施す
    後窓手段を有することを特徴とする音声合成装置。
  8. 【請求項8】 伸張された素片毎に先頭と最後が零にな
    る窓関数を施す後窓手段を更に有することを特徴とする
    請求項6記載の音声合成装置。
  9. 【請求項9】 フィルタおよびパルスに関する情報を用
    いて素片データベースを復号する音声合成装置におい
    て、 前記パルスの最大振幅を復号するための第1量子化テー
    ブルと、 他の少なくとも一つのパルスの振幅を復号するために使
    用される、前記第1の量子化テーブルのレベル毎に予め
    設計した複数の第2量子化テーブルと、 を有することを特徴とする音声合成装置。
  10. 【請求項10】 前記パルスの最大振幅を復号するため
    の第1量子化テーブルと、 他の少なくとも一つのパルスの振幅を復号するために使
    用される、前記第1の量子化テーブルのレベル毎に予め
    設計した複数の第2量子化テーブルと、 を更に有することを特徴とする請求項5ないし8のいず
    れかに記載の音声合成装置。
  11. 【請求項11】 素片データベースからフィルタとパル
    スに関する情報を抽出するステップと、 前記情報を符号化するステップと、 素片毎に前記パルスの数を変更するステップと、 を有することを特徴とする音声合成方法。
  12. 【請求項12】 素片データベースからフィルタおよび
    パルスに関する情報を抽出するステップと、 前記情報を符号化するステップと、 前記パルスと前記フィルタとを抽出する前に、前記素片
    データベースに高域強調フィルタを施すステップと、 前記高域強調フィルタの逆特性を有する荷重関数を用い
    て前記パルスの位置と振幅を計算するステップと、 を有することを特徴とする音声合成方法。
  13. 【請求項13】 素片毎にパルス数を変更するステップ
    を更に有することを特徴とする請求項12記載の音声合
    成方法。
  14. 【請求項14】 素片毎に計算した圧縮性能に応じてパ
    ルス数を決定するステップを更に有することを特徴とす
    る請求項12または13記載の音声合成方法。
  15. 【請求項15】 フィルタおよびパルスに関する情報を
    用いて素片データベースを復号するステップと、 素片毎にパルス数を変更するステップと、 を有することを特徴とする音声合成方法。
  16. 【請求項16】 フィルタおよびパルスに関する情報を
    用いて素片データベースを復号するステップと、 伸張した素片データベースに低域強調フィルタを施すス
    テップと、 を有することを特徴とする音声合成方法。
  17. 【請求項17】 フィルタおよびパルスに関する情報を
    用いて素片データベースを復号するステップと、 伸張した素片毎に先頭と最後が零になる窓関数を施すス
    テップと、 を有することを特徴とする音声合成方法。
  18. 【請求項18】 伸張した素片毎に先頭と最後が零にな
    る窓関数を施すステップを更に有することを特徴とする
    請求項16記載の音声合成方法。
  19. 【請求項19】 フィルタおよびパルスに関する情報を
    用いて素片データベースを復号するステップと、 前記パルスの振幅を復号する際に最大の振幅は第1の量
    子化テーブルを用いて復号するステップと、 他の少なくとも一つのパルスの振幅は前記第1の量子化
    テーブルのレベル毎に予め設計した第2の量子化テーブ
    ルを用いて復号するステップと、 を有することを特徴とする音声合成方法。
  20. 【請求項20】 前記パルスの振幅を復号する際に最大
    の振幅は第1の量子化テーブルを用いて復号するステッ
    プと、 他の少なくとも一つのパルスの振幅は前記第1の量子化
    テーブルのレベル毎に予め設計した第2の量子化テーブ
    ルを用いて復号するステップと、 を更に有することを特徴とする請求項15ないし18の
    いずれかに記載の音声合成方法。
JP2002053063A 2002-02-28 2002-02-28 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法 Pending JP2003255976A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002053063A JP2003255976A (ja) 2002-02-28 2002-02-28 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法
US10/376,151 US20030163318A1 (en) 2002-02-28 2003-02-28 Compression/decompression technique for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002053063A JP2003255976A (ja) 2002-02-28 2002-02-28 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法

Publications (1)

Publication Number Publication Date
JP2003255976A true JP2003255976A (ja) 2003-09-10

Family

ID=27750906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002053063A Pending JP2003255976A (ja) 2002-02-28 2002-02-28 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法

Country Status (2)

Country Link
US (1) US20030163318A1 (ja)
JP (1) JP2003255976A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1323934C (en) * 1986-04-15 1993-11-02 Tetsu Taguchi Speech processing apparatus
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
CA1312673C (en) * 1986-09-18 1993-01-12 Akira Fukui Method and apparatus for speech coding
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals

Also Published As

Publication number Publication date
US20030163318A1 (en) 2003-08-28

Similar Documents

Publication Publication Date Title
JP3483958B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
JP3364825B2 (ja) 音声符号化装置および音声符号化復号化装置
EP1096476B1 (en) Speech signal decoding
JP2003255976A (ja) 音声素片データベースの圧縮伸張を行なう音声合成装置及び方法
JP3598111B2 (ja) 広帯域音声復元装置
JP4447546B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770901B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748081B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JPH10111700A (ja) 音声圧縮符号化方法および音声圧縮符号化装置
JP3166697B2 (ja) 音声符号化・復号装置及びシステム
JP3560964B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
JP3676801B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3773509B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法
JP4087823B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3636327B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748083B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748080B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770900B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748082B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770899B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3598112B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2005321828A (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3277090B2 (ja) ゲイン量子化方法及び装置、音声符号化方法及び装置並びに音声復号化方法及び装置
JP2005284316A (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070619