JP3410931B2 - 音声符号化方法及び装置 - Google Patents

音声符号化方法及び装置

Info

Publication number
JP3410931B2
JP3410931B2 JP17967797A JP17967797A JP3410931B2 JP 3410931 B2 JP3410931 B2 JP 3410931B2 JP 17967797 A JP17967797 A JP 17967797A JP 17967797 A JP17967797 A JP 17967797A JP 3410931 B2 JP3410931 B2 JP 3410931B2
Authority
JP
Japan
Prior art keywords
pitch
signal
speech
excitation signal
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17967797A
Other languages
English (en)
Other versions
JPH10319995A (ja
Inventor
皇 天田
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP17967797A priority Critical patent/JP3410931B2/ja
Priority to US09/039,317 priority patent/US6167375A/en
Publication of JPH10319995A publication Critical patent/JPH10319995A/ja
Priority to US09/696,962 priority patent/US6427135B1/en
Application granted granted Critical
Publication of JP3410931B2 publication Critical patent/JP3410931B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を圧縮符
号化する音声符号化方法に係り、特にディジタル電話等
に用いられる音声符号化や、テキスト読み上げソフト等
に用いられる音声合成のための音声符号化方法及び装置
に関する。
【0002】
【従来の技術】近年、電話帯域の音声を効率良く圧縮符
号化する方法として、CELP(CodeExcited Linear P
rediction)方式が良く用いられている。CELP方式
に関しては、例えば M.R.Schroeder and B.S.Atal,“ C
ode Excited Linear Prediction(CELP) : High Quality
Speech at Very Low Bit Rates,” Proc. ICASSP,pp.9
37-940, 1985 (文献1)および W.S.Kleijin, D.J.Kras
inski et al.“ Improved Speech Quality and Efficie
nt Vector Quantization in SELP, ” Proc.ICASSP, p
p.155-158, 1988(文献2)で詳しく述べられている。
【0003】CELPは、線形予測分析に基づく符号化
方式である。この方式によると、入力音声はまず線形予
測分析によって音韻情報を表す線形予測係数と音の高さ
等を表す予測残差信号に分けられる。線形予測係数は合
成フィルタと呼ばれる再帰型のディジタルフィルタの伝
達関数で実現され、この合成フィルタに予測残差信号を
入力すれば元の入力音声が合成される。
【0004】低レートで符号化するためには、予測残差
信号をできるだけ少ない情報で表す必要がある。CEL
P方式の特徴は、この予測残差信号の候補である励振信
号と呼ばれる信号を符号帳に何種類も格納しておき、各
励振信号を合成フィルタに通して合成音声を生成し、こ
の合成音声と入力音声がどの程度近いかを評価し、最も
近い合成音声を生成する励振信号を選ぶという構成にあ
る。従って、入力音声と全く同じ合成音声が得られるわ
けではなく、励振信号の候補数が少ない場合は合成音声
の劣化が目立つ。この劣化を聴覚上目立たないようにす
るために、聴感重みフィルタが用いられる。聴感重みフ
ィルタは、入力音声に対する合成音声の誤差、すなわち
合成音声の歪みに対して聴覚特性の重みをかけること
で、聴覚的に歪みの目立ちにくい候補が選ばれるように
する。
【0005】合成フィルタの入力となる駆動信号は、通
常、2種類の励振信号を足し合わせて作られる。一つは
ピッチ励振信号と呼ばれ、もう一つは雑音励振信号と呼
ばれる。ピッチ励振信号は、適応符号帳に格納された過
去に生成した駆動信号から適当な長さでベクトルを切り
出し、これを所定の長さになるまで繰り返すことよって
得られる。一方、雑音励振信号はランダムもしくは学習
によって得られた固定の符号帳からベクトルを選び出す
ことで得られる。合成フィルタの駆動信号は、これらの
ピッチ励振信号と雑音励振信号をそれぞれ適当なゲイン
をかけて足し合わせることで得られる。
【0006】合成音声の品質を左右する有声区間におい
ては、適応符号帳を用いることによる効果は大きい。有
声区間では駆動信号は周期的な信号と見なすことがで
き、このような区間では過去の駆動信号を繰り返すこと
で生成されるピッチ励振信号のみを駆動信号として用い
ても、かなり良い品質の合成音声が得られる。そのた
め、CELP方式では適応符号帳は欠かすことのできな
い要素であった。
【0007】
【発明が解決しようとする課題】しかしながら、入力音
声を分析して得た実際の予測残差信号はピッチ波形の長
さや形が一定ではない。その主要な要因として次の2点
が挙げられる。第1に、ピッチ周期が急激に変化する区
間では、フレームの前半と後半でピッチ周期が大きく異
なる点である。第2は、フレーム内のピッチ周期が一定
の区間においてもピッチ周期の揺らぎによりピッチ波形
毎に長さ(周期)が異なる点である。
【0008】従来の適応符号帳では、このようなピッチ
周期の急激な変化や揺らぎについて考慮せず、過去の駆
動信号の一部を繰り返してピッチ周期が一定の励振信号
を生成していた。図2にその様子を摸式的に示す。図2
の(a)が実際の予測残差信号であり、ピッチ周期の揺
らぎは誇張して示している。図2の(b)が適応符号帳
から得られた励振信号である。(b)の励振信号は平均
的には(a)の予測残差信号に近いが、個々のピッチ波
形間では、ずれが存在する。
【0009】実際には、フレーム内ではピッチ周期の変
化は僅かであるため、従来の適応符号帳でもある程度の
品質が得られるのは事実である。しかしながら、より原
音に近い合成音声を得ようとした場合、ピッチ周期の変
化は無視できない。特に、パワーの集中するピーク位置
を正確に合わせないと、音がこもるなど音質が劣化する
原因となる。
【0010】本発明は、このような従来の問題点を解決
して、ピッチ周期の急激な変化や揺らぎを反映した符号
化を行うことにより、高音質の復号音声を得ることがで
きる音声符号化方法及び装置を提供することを目的とす
る。
【0011】
【課題を解決するための手段】上記の課題を解決するた
め、本発明は駆動信号を入力して合成音声信号を生成す
る合成フィルタの伝達特性を表す合成フィルタ特性情報
と、入力音声信号の連続する複数のピッチ波形の平均的
なピッチ周期を表す大域ピッチ周期を該入力音声信号か
ら求め、大域ピッチ周期を基に該大域ピッチ周期で繰り
返す第1のピッチ励振信号を生成し、第1のピッチ励振
信号に対して変換パターン符号帳に格納された変換パタ
ーンに従い時間および振幅方向の変換を施して第2のピ
ッチ励振信号を生成し、第2のピッチ励振信号を用いて
合成音声信号の歪みが最小となる駆動信号を生成し、少
なくとも合成フィルタ特性情報と大域ピッチ周期を表す
情報と変換パターンを表す情報および駆動信号を表す情
報を符号化データとして出力することを特徴とする。
【0012】
【0013】
【0014】
【0015】
【0016】
【0017】
【0018】
【0019】
【0020】このように入力音声信号の連続する複数の
ピッチ波形の平均的なピッチ周期を表す大域ピッチ周期
を求め、この大域ピッチ周期を基に第1のピッチ励振信
号を生成し、第1のピッチ励振信号に時間および振幅方
向への変換を施すことで局所ピッチ周期に基づいて生成
した駆動信号と等価な第2のピッチ励振信号を生成し、
この第2の励振信号を合成フィルタに入力することで、
局所ピッチ周期を直接求める方法に比較して必要な計算
量を減少させつつ、合成音声信号に入力音声信号のピッ
チ周期の急激な変化や揺らぎを反映させ、復号音声の音
質を向上させることができる。
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
【0027】
【0028】
【0029】
【0030】
【0031】
【0032】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。 (第1の実施形態)図1に、本発明の音声符号化方法を
適用した第1の実施形態に係る音声符号化装置を示す。
入力端子100には、符号化すべき音声信号が1フレー
ム分の長さの単位で入力され、この1フレーム分の音声
信号の入力に同期してLPC分析部101で線形予測分
析(LPC分析)が行われて線形予測係数が求められ
る。線形予測係数は、必要に応じて量子化や前のフレー
ムの線形予測係数と補間される。量子化や補間処理は、
通常、予測係数をLSP(Line Spectrum Pair;線スペ
クトル対)というパラメータに変換することにより行わ
れる。
【0033】このような処理を経て得られた線形予測係
数(以下、LPC係数という)は、合成フィルタ106
にセットされると同時に、合成フィルタ106の伝達特
性を表す合成フィルタ特性情報であるLPC情報11と
して出力される。また、ピッチマーク生成部102や駆
動信号生成部104の構成によっては、破線で示すよう
にピッチマーク生成部102や駆動信号生成部104に
もLPC係数が渡される場合もある。
【0034】入力端子100からの入力音声信号は、ピ
ッチマーク生成部102にも入力される。ピッチマーク
生成部102では、入力音声信号を分析してフレーム内
のどの位置にピッチ波形を張り付けるかを示す印(以
下、ピッチマークという)を立てる。ピッチマーク生成
部102からは、ピッチマークをどのように立てたかを
示す情報(以下、ピッチマーク情報という)が出力され
る。このピッチマーク情報12は入力音声信号の1ピッ
チ波形の時間長を表す局所ピッチ周期を示しており、駆
動信号生成部104に渡されると同時に、局所ピッチ周
期を表す情報として出力される。
【0035】図2(a)に、ピッチマークの立て方の例
を示す。この例ではピッチ波形のピーク位置にピッチマ
ークを立てている。ピッチマークの立て方やピッチ波形
の張り付け方については、第3の実施形態で詳しく述べ
る。
【0036】ピッチマークの数は音声の高低で変わり、
ピッチが高くなるほどマーク間の間隔が狭くなるので、
多くなる。また、ピッチマークは有声区間ではほぼ等間
隔で並ぶのに対し、無声区間では間隔は不規則になる。
【0037】駆動信号生成部104では、ピッチマーク
の位置にピッチ波形を張り付け、さらにゲインをかけて
駆動信号を生成する。ピッチ波形やゲインについては、
フレーム内のピッチマーク全てに同じものを用いる方法
や、ピッチマーク毎に最適なものを選択する方法など、
様々な方法を用いることができる。ピッチ波形やゲイン
の選択は、閉ループ探索で行う方法が望ましい。すなわ
ち、生成し得る全ての駆動信号に対して合成フィルタ1
06でフィルタリングを行い、このフィルタリング後の
駆動信号と入力音声信号との誤差を減算器108で計算
し、この誤差に対してさらに聴感重み付け部107で重
み付けを行い、この重み付け後の誤差の電力を評価部1
09で計算して、この誤差電力、すなわち入力音声信号
の歪みがが最小になる駆動信号を選ぶ方法である。
【0038】ピッチ波形生成部103におけるピッチ波
形の生成方法としては、予め典型的なピッチ波形を符号
帳に複数個格納しておき、この中から閉ループ探索によ
って最適なピッチ波形を選択する方法が簡単である。し
かし、ピッチ波形は時間的な相関が強く、時間的に隣り
合うピッチ波形は似た形をしている場合が多い。そこ
で、駆動信号生成部104の出力を参照して過去に用い
たピッチ波形をメモリに記憶しておき、これらと現在の
ピッチ波形との差を符号帳に格納されたピッチ波形で補
う方法の方が効率がよい。ゲイン付与部105に関して
も同様であり、隣り合うピッチ波形のゲインは滑らかに
変化する性質を利用することで、伝送量を減らすことが
できる。駆動信号生成部104からは最終的にピッチ波
形とゲインの情報13が出力され、現フレームの符号化
が完了する。
【0039】このようにして本実施形態の音声符号化装
置では、符号化データとして合成フィルタ特性情報であ
るLPC情報11と、局所ピッチ周期を表す情報である
ピッチマーク情報12と、駆動信号を表す情報であるピ
ッチ波形とゲイン情報13が出力され、これらが図示し
ないマルチプレクサによって合成されることにより、符
号化ストリームとなって出力される。
【0040】本発明は、ピッチ周期の急激な変化や揺ら
ぎなど、フレーム内のピッチ波形の変化に着目すること
で、復号音声の品質向上を実現するものである。フレー
ム内でのピッチ波形の変化に着目して、ピッチ周期を徐
々に変化させることで音質改善を目指した方法は、従来
にも存在する。それらの従来技術では、ピッチ周期は決
められたパターンで変化することを仮定しており、多く
の場合、あるピッチ周期から別のピッチ周期へ時間に対
して一定の速度で変化するパターンを用いている。しか
し実際には、変化する速度は一定ではないし、僅かでは
あるがピッチ周期が長くなったり短くなったりしながら
変化してゆく場合もある。従って、決められたパターン
を仮定した方法では音質の向上は困難である。特に、駆
動信号に含まれているパルス状の波形(ピッチパルス)
は電力が大きいため、位置がずれると音質に与える影響
が大きい。
【0041】そこで、本実施形態ではピッチ周期は1ピ
ッチ波形程度の解像度で変化するものとして扱い、これ
を前述のように局所ピッチ周期と称する。すなわち、こ
の局所ピッチ周期は入力音声信号の1ピッチ波形の時間
長を表し、図2(a)に示すT1,T2,T3がこれに
相当する。駆動信号生成部104では、この局所ピッチ
周期を符号化区間として、この符号化区間毎に合成音声
信号の歪みが最小となる駆動信号を生成することにな
る。これに対し、従来のピッチ分析方法、すなわち所定
の長さ(ピッチ波形の数倍程度)の信号に窓を掛け、自
己相関関数から計算する方法などで求まるピッチ周期を
大域ピッチ周期と呼ぶことにする。この大域ピッチ周期
は、入力音声の連続する複数のピッチ波形の平均的なピ
ッチ周期を表し、図2(b)に示すTに相当する。
【0042】局所ピッチ周期を求める方法は種々考えら
れるが、本実施形態では前述のようにピッチマークを立
てることでこれを実現している。この場合、ピッチマー
クは図2(a)に示したように1ピッチ波形のピーク位
置に立てるよう探索されるので、ピッチマークの間隔が
局所ピッチ周期を表すことになる。具体的にどのように
ピッチマークを立てるかの好ましい態様については、後
述する第3の実施形態で説明する。
【0043】聴感重みフィルタ107は、本実施形態で
は減算器107の後段に設けられている。聴感重みフィ
ルタの構成によっては、減算器107の前段に聴感重み
フィルタと合成フィルタと聴感重みフィルタの機能を合
わせた重み付き合成フィルタを配置してもよい。これは
CELP符号化方式などでは周知の手法であり、聴感重
みフィルタの位置は図1、図4に示すいずれの構成でも
可能である。このことは、以下の実施形態でも同様であ
る。
【0044】また、ピッチマーク生成部102において
は、評価部109による駆動信号の探索と同時に生成す
るピッチマークを変えることも可能である。すなわち、
ピッチパターンとピッチ波形を同時に探索することもで
きる。これには多くの計算量を必要とするが、音質はそ
れだけ良くなる。このことは、以下の実施形態でも同様
である。
【0045】なお、局所ピッチ周期に基づいて分割され
た符号化区間はピッチ波形の符号化についてのものであ
り、他のパラメータ(線形予測係数、利得、雑音符号べ
クトルなど)の符号化区間と必ずしも一致しない。例え
ば、雑音符号ベクトルはフレーム単位で、線形予測係数
は数フレーム単位で求めれば十分な場合が多い。
【0046】また、それぞれの符号化区間をどのような
順序で計算するかについても、いくつかの方法がある。
第1の例として、1符号化区間ずつ左から順に(時間順
に)歪みを計算し、パラメータを決定してゆく逐次型の
計算方法がある。この方法は1つの符号化区間内で処理
が完了するため、構造が簡単であり、計算量やメモリ量
も少なくて済む。ある符号化区間で求められたピッチ波
形を合成フィルタに通した場合、その応答は次の符号化
区間にまで及ぶ。本来は、この応答が次の符号化区間に
及ぼす影響を考慮しながら現符号化区間のパラメータを
決定すべきであるが、第1の例はこれを無視しているこ
とになる。
【0047】そこで、第2の例として、各符号化区間の
パラメータを変えながらフレーム全体の歪みを計算する
方法が挙げられる。この方法では全ての符号化区間のパ
ラメータの組合せをフレーム単位で計算するため、計算
量、メモリ量などを多く必要とするが、符号化の精度は
高くなる。
【0048】なお、本発明による音声符号化方法は有声
区間で音質改善の効果が大きく、無声区間では効果が薄
い。従って、実現上問題がない場合は、本発明による音
声符号化方法は有声区間にのみ用い、無声区間には無声
区間専用のコーデック(例えば適応符号帳を使わないC
ELP方式による音声符号化装置など)を用いた方が望
ましい。
【0049】このように本実施形態によれば、駆動信号
を合成フィルタ106に入力して得られた合成音声信号
の歪みが最小となる駆動信号を探索して符号化を行う
際、入力音声信号の1ピッチ波形の時間長を表す局所ピ
ッチ周期を基に符号化区間を決定し、この符号化区間単
位で駆動信号生成部104において駆動信号の生成を行
うことにより、入力音声信号のピッチ周期の急激な変化
や揺らぎを反映させた符号化を行うことができるため、
復号側で得られる復号音声の音質が向上するという利点
がある。
【0050】(第2の実施形態)図3に、本発明による
音声符号化方法を適用した第2の実施形態に係る音声符
号化装置を示す。この音声符号化装置は、図1に示した
第1の実施形態の音声符号化装置から合成フィルタ10
6を取り除き、さらに駆動信号生成部104を音声信号
生成部114に置き換えた構成になっている。
【0051】音声信号生成部114は、構成は駆動信号
生成部104と同じであり、ピッチマーク生成部102
で求められた局所ピッチ周期を符号化区間として、この
符号化区間毎に歪みが最小となる合成音声信号を生成す
る。そして、駆動信号生成部104からは最終的にピッ
チ波形とゲインの情報13が出力され、現フレームの符
号化が完了する。
【0052】このようにして本実施形態の音声符号化装
置では、符号化データとして局所ピッチ周期を表す情報
であるピッチマーク情報12と、合成音声信号の情報で
あるピッチ波形とゲイン情報13が符号化データとして
出力され、これらが図示しないマルチプレクサにより合
成されることにより、符号化ストリームとなって出力さ
れる。
【0053】第1の実施形態では、線形予測分析によっ
て入力音声信号をLPC係数と残差信号に分けて符号化
し、残差信号の符号化において局所ピッチ周期を用いた
手法を採用していた。これに対し、本実施形態は入力音
声信号を直接符号化する方式であり、第1の実施形態に
おける残差信号に相当するものが本実施形態では音声信
号(合成音声信号)そのものとなっている。
【0054】また、符号化に当たり人間の聴感特性を利
用して量子化ノイズが目立たないようにするため、本実
施形態においても減算器108からの誤差を聴感重み付
け部107で重み付けしてから評価部109で評価した
方が望ましい。聴感重み付け部107での重み付けに用
いる係数は、入力音声信号から重み係数算出部111で
求められる。
【0055】LPC分析は、特に人の声に対して優れた
性能を示すことは知られている。従って、電話のように
人の声を専門に扱う用途では、LPC分析を用いる第1
の実施形態が好ましい。しかし、人の声以外の音声信号
(環境音信号、オーディオ信号等)を符号化する場合、
LPC分析が期待したほど性能を発揮しない場合があ
る。このような場合は、むしろ波形を直接符号化したほ
うが有利であり、実際オーディオ信号の符号化ではLP
C分析を行わないのが普通である。本実施形態では、こ
のようなLPC分析が苦手とする種類の音声信号を符号
化する場合に効果的である。
【0056】このように本実施形態では、合成フィルタ
を用いずに歪みが最小となる合成音声信号を生成して符
号化を行う際、第1の実施形態と同様に局所ピッチ周期
を基に符号化区間を決定し、この符号化区間毎に音声信
号生成部114で合成音声信号を生成することによっ
て、合成音声信号に入力音声信号のピッチ周期の急激な
変化や揺らぎを反映させ、復号側で得られる復号音声の
音質を向上させることができる。
【0057】(第3の実施形態)図4に、本発明の音声
符号化方法を適用した第3の実施形態に係る音声符号化
装置を示す。この音声符号化装置は、ピッチマーク生成
部102の後に間引き部211を挿入した点が図1に示
した第1の実施形態と異なる。さらに、図1に示した合
成フィルタ106が聴感重み付き合成フィルタ206に
置き換えられている。ピッチ周期が短くなると、ピッチ
マークの数が必然的に増加する。間引き部211の働き
は、効率の悪いピッチマークを間引いて、ピッチマーク
の数が不必要に増加しないようにすることにより、ピッ
チマーク情報12の伝送に必要なビットレートを削減す
ることにある。
【0058】まず、本実施形態におけるピッチマークの
立て方の例について図5を用いて説明する。まず従来の
ピッチ分析法を用いて大域ピッチ周期を求めておく。ピ
ッチパルスはほぼ大域ピッチ周期で立つことを利用し、
パルスで構成される励振信号を作成する。パルスをどこ
に立てるかは、従来のマルチパルス符号化と同様の手法
で求めることができる。すなわち、パルスの位置を少し
ずつ変えながら入力音声信号との誤差(合成音声信号の
歪み)を計算し、この歪みが最小になる所を探索する。
このようにして、図5の(a1)に示したようなパルス
で構成される励振信号が生成される。
【0059】次に、局所ピッチ周期毎にフレームをサブ
フレームに分割する。符号化は、このサブフレーム単位
で行う。ピッチマークの位置はピッチパルスがくるの
で、前後のサブフレームにまたがらないようにする必要
がある。また、ピッチマークの位置は局所ピッチ周期に
関係なくサブフレームの先頭から決まった位置にあるこ
とが望ましい。その理由は、後述する雑音符号ベクトル
の決まった位置にピッチパルスが当たることになり、雑
音符号ベクトルの学習を行ったときに、容易に学習効果
を高めることが出来るからである。決まった位置にピッ
チマークをもってこなくとも、雑音符号ベクトルの所定
の位置をピッチマークに合わせることは可能であるが、
位置合わせの処理が必要となる。
【0060】図5の(a2)に、局所ピッチ周期毎にフ
レームをサブフレームに分割した状態を示す。点線で囲
まれた部分が1サブフレームであり、p1〜p6がそれ
ぞれのサブフレームの長さである。p2〜p5は、それ
ぞれの局所ピッチ周期を表していることになる。p1,
p6は、フレームの境界に接しているので、例外であ
る。同図からも分かるように、フレームの途中まではピ
ッチ周期が一定で、途中からピッチ周期が変化する場合
などには、従来のようにピッチ周期が一定であったり同
じ速度で変化すると仮定する方法では、ピッチパルスの
位置を合わせることは不可能である。
【0061】次に、このようにして得られたサブフレー
ム単位でピッチ波形をピッチマークに合わせて張り付け
ゲインをかけて駆動信号を生成する。ピッチ波形は、過
去の駆動信号から得られた適応ピッチ波形と雑音符号帳
から得られた雑音ピッチ波形の2つを足し合わせて作る
と効率がよい。それぞれのピッチ波形にはピッチマーク
が付いていて、その位置をサブフレームのピッチマーク
に合わせて張り付けることで、残差信号のピッチパルス
の位置を保持することができる。
【0062】図5(a2)の×印は間引き部211で間
引かれるパルスを示している。ピッチ周期が短くなると
パルス数が増え、必然的にサブフレームの数も増える。
サブフレーム単位で符号化すると、伝送するピッチ波形
やゲインも増え、伝送量が増してしまう。
【0063】そこで、本実施形態では伝送量を減らすた
めにピッチマークの間引きを行う。具体的には、ピッチ
マークを立てた後、フレーム内で比較的等間隔で並んで
いるマークを探し、これを間引く。間引かれた区間は、
実際の2ピッチ分の波形が1ピッチとして扱われる。し
かし、マークの間隔が安定していれば、ピーク位置がず
れることはない。すなわち、過去の信号からできる適応
ピッチ信号は等間隔でパルスが立っているので、2ピッ
チ分切り取って持ってきてもパルスの位置はずれない。
【0064】間引き部211でパルスが間引かれるもう
一つのケースは、フレームの最後で極めて短いサブフレ
ームが発生したときである。極端に短いサブフレームに
ピッチ波形とゲインの符号を割り振るのは効率が悪いば
かりでなく、次のフレームの先頭に悪い影響を与えるこ
とがある。このようなパルスは間引いた方がよい。
【0065】図5の(a3)に、図5の(a2)中に×
印で示すパルスを間引いた後の状態を示す。この場合、
図5の(a2)のp2,p3の局所ピッチ周期が結合さ
れることにより、図5の(a3)中にp2で示す局所ピ
ッチ周期(これを局所結合ピッチ周期という)が求めら
れる。同様に、図5の(a2)のp4,p5の局所ピッ
チ周期が結合されることにより、図5の(a3)中にp
4で示す局所結合ピッチ周期が求められる。
【0066】以上は、フレーム長一定の条件で符号化す
る場合の例である。この場合、フレームの両端で局所ピ
ッチ周期と関係のない長さのサブフレームが発生する
が、原理的には、特に問題はない。例えば、1.5ピッ
チのサブフレームが発生した場合は、過去の駆動信号の
中で1.5ピッチの長さが取れる位置から波形を切り出
して、それらの波形をピッチマークを合わせて張り付け
ればよい。ただし、そのだけ余分に過去に遡らなければ
ならないため、直近の駆動信号を利用することはできな
い。
【0067】一方、遅延などの制約が少ない蓄積系への
応用などでは、フレーム長を可変にすることが可能であ
る。図5の(b1)〜(b3)に、その様子を示した。
【0068】図5(b2)では、p1のサブフレームが
前のフレームの最後のピッチマークにはみ出すことで、
局所ピッチ周期の長さのサブフレームを確保している。
同様に、p7のサブフレームが後のフレームの先頭ピッ
チマークにはみ出すことで、局所ピッチ周期の長さのサ
ブフレームを確保している。
【0069】図5(b3)には、間引かれた後のサブフ
レーム長を示してあり、これらは局所ピッチ周期(この
場合はp1,p2,p4がこれに相当する)か、隣接す
るピッチ周期を結合した局所結合ピッチ周期(この場合
はp3,p5がこれに相当する)となっている。
【0070】このように本実施形態では、局所ピッチ周
期に加えて隣り合う局所ピッチ周期を適宜結合した局所
結合ピッチ周期を求め、これら局所ピッチ周期および局
所結合ピッチ周期を基に符号化区間を決定し、この符号
化区間単位で駆動信号生成部104において駆動信号の
生成を行うことにより、入力音声信号のピッチ周期の急
激な変化や揺らぎを反映させた符号化を行って、復号側
で得られる復号音声の音質が向上するという利点に加え
て、局所ピッチ周期および局所結合ピッチ周期を示す情
報であるピッチマーク情報12の伝送に必要なビットレ
ートが減少し、符号化効率が向上するという効果が得ら
れる。
【0071】(第4の実施形態)図6に、本発明による
音声符号化方法を適用した第4の実施形態に係る音声符
号化装置を示す。この音声符号化装置は、第3の実施形
態における図4中の聴感重み付き合成フィルタ206を
除去して聴感重み付け部207に置き換え、これに伴い
駆動信号生成部104を音声信号合成部114に置き換
えた構成となっている。第3の実施形態に対する第4の
実施形態の関係は、第1の実施形態に対する第2の実施
形態の関係と同じであり、その効果も同様である。
【0072】すなわち、本実施形態によれば合成フィル
タを用いずに歪みが最小となる合成音声信号を生成して
符号化を行う際、第3の実施形態と同様に局所ピッチ周
期に加えて隣り合う局所ピッチ周期を適宜結合した局所
結合ピッチ周期を求め、これら局所ピッチ周期および局
所結合ピッチ周期を基に符号化区間を決定し、この符号
化区間単位で音声信号生成部114で合成音声信号の生
成を行うことにより、入力音声信号のピッチ周期の急激
な変化や揺らぎを反映させた符号化を行って、復号側で
得られる復号音声の音質が向上するという利点に加え
て、局所ピッチ周期および局所結合ピッチ周期を示す情
報であるピッチマーク情報12の伝送に必要なビットレ
ートが減少し、符号化効率が向上するという効果が得ら
れる。
【0073】(第5の実施形態)図7に、本発明による
音声符号化方法を適用した第5の実施形態に係る音声符
号化装置を示す。この音声符号化装置は、第3の実施形
態における図4中のピッチマーク生成部102を局所ピ
ッチ周期探索部302に置き換えた構成となっている。
また、これに伴い間引き部311も図4中の間引き部2
11と若干構成を異ならせている。
【0074】既に述べたように、局所ピッチ周期の探索
方法は種々考えられる。本実施形態は、CELP方式で
用いられている適応符号帳を応用した手法で局所ピッチ
周期を求めるものであり、その手順を以下に示す。
【0075】まず、適応符号帳から直近の長さTのピッ
チベクトルを切り出す。CELP方式では、こうして切
り出したピッチベクトルをサブフレーム長になるまで繰
り返して用いるが、本実施形態ではサブフレーム長の長
さをTとし、ピッチベクトルを繰り返さない。
【0076】次に、長さTのサブフレームで、最適ゲイ
ンの下でのSNRを計算し、次いでTを変えて同様にし
てSNRを計算する。このようにして全てのピッチ周期
に対してSNRを計算し、最も高いSNR与えたTを局
所ピッチ周期として、そのサブフレームの長さとする。
以後は、先の実施形態と同様に適応ピッチ波形と雑音ピ
ッチ波形を求め、駆動信号を生成する。この操作をフレ
ームの終端に達するまで行う。
【0077】本実施形態によると、先の実施形態のよう
にピッチマークを立てる方法よりも多くの計算量を必要
とするが、実際に用いられるピッチ波形に近い波形で探
索をするので、より精度の高い局所ピッチ周期を求める
ことができる。
【0078】(第6の実施形態)図8に、本発明による
音声符号化方法を適用した第6の実施形態に係る音声符
号化装置を示す。この音声符号化装置は、入力音声信号
の連続する複数のピッチ波形の平均的なピッチ周期を表
す大域ピッチ周期を求めて、この周期で繰り返す第1の
ピッチ励振信号を作成しておき、これに時間および振幅
方向への変換を施して駆動信号のピッチパルスの位置を
揃えることで、等価的に局所ピッチ周期を求めて生成し
た駆動信号と同様の第2の励振信号を得るものである。
【0079】すなわち、本実施形態では入力音声信号か
ら大域ピッチ周期探索部403により前述した大域ピッ
チ周期が従来の手法を用いて求められる。励振信号生成
部402では、この大域ピッチ周期と励振信号バッファ
406に蓄えられている以前の駆動信号を基に、第1の
ピッチ励振信号を生成する。この第1のピッチ励振信号
は、ピッチ波形が大域ピッチ周期で等間隔に繰り返すも
のである。
【0080】この第1のピッチ励振信号に対し、変換部
404で変換パターン符号帳407を参照しながら時
間、振幅方向への変換(引き延ばし、シフトなど)を施
して第2の励振信号を生成し、これを駆動信号生成部4
05に渡す。駆動信号生成部405では、必要に応じて
第1の励振信号に雑音符号ベクトルを付加して駆動信号
を生成し、聴感重み付き合成フィルタ206へ供給す
る。変換パターン、雑音符号ベクトルは閉ループ探索さ
れる。
【0081】本実施形態においては、聴感重み付き合成
フィルタ206の伝達特性の情報および大域ピッチ周期
を表す情報の両方を表すLPC情報11と、第1の励振
信号に施す変換を表す情報である変換パターン符号帳4
07の変換パターン符号インデックス14および駆動信
号を表す情報13となる。
【0082】このように本実施形態によると、大域ピッ
チ周期探索部403において入力音声信号の連続する複
数のピッチ波形の平均的なピッチ周期を表す大域ピッチ
周期を求め、この大域ピッチ周期を基に励振信号生成部
402で第1のピッチ励振信号を生成し、変換部404
により第1のピッチ励振信号に例えば時間および振幅方
向への変換を施すことで局所ピッチ周期に基づいて生成
した駆動信号と等価な第2のピッチ励振信号を駆動信号
生成部405で生成し、この第2の励振信号を聴感重み
付き合成フィルタ206に入力することで、局所ピッチ
周期を直接求める方法に比較して必要な計算量を減少さ
せつつ、駆動信号に入力音声信号のピッチ周期の急激な
変化や揺らぎを反映させ、復号音声の音質を向上させる
ことができる。さらに、変換パターンとして時間に比例
して波形を引き延ばすパターンを用意すれば、従来のピ
ッチ周期が一定の速度で変化する手法と等価な方法が実
現できる。
【0083】(第7の実施形態)本発明による符号化方
法の第7の実施形態は、第6の実施形態を第2の実施形
態と同様に音声信号を直接符号化する方式に適用した例
であり、具体的には図8における励振信号生成部402
および駆動信号生成部405をそれぞれ第1および第2
の音声信号生成部に置き換えて、第1の音声信号生成部
で大域ピッチ周期を基に第1の合成音声信号を生成し、
第2の音声信号生成部で第1の合成音声信号に変換を施
して、入力音声信号に対する歪みが最小となる第2の合
成音声信号を生成する。また、LPC分析部101と聴
感重み付き合成フィルタ206を除去し、第2の合成音
声信号を減算器108に直接渡すようにする。
【0084】この場合、大域ピッチ周期を表す情報およ
び第2の合成音声信号を表す情報が符号化データとして
出力される。
【0085】このように本実施形態では合成フィルタを
用いずに歪みが最小となる合成音声信号を生成して符号
化を行う際、第6の実施形態と同様に大域ピッチ周期を
基に第1の合成音声信号を生成し、この第1の合成音声
信号に例えば時間および振幅方向への変換を施すことで
局所ピッチ周期に基づいて生成した合成音声信号と等価
な第2の合成音声信号を生成することで、局所ピッチ周
期を直接求める方法に比較して必要な計算量を減少させ
つつ、合成音声信号に入力音声信号のピッチ周期の急激
な変化や揺らぎを反映させ、復号音声の音質を向上させ
ることができるという利点がある。
【0086】(第8の実施形態)図9に、本発明による
音声符号化方法を適用した第8の実施形態に係る音声符
号化/復号システムを示す。この音声符号化/復号シス
テムでは、符号化側において入力端子500からの入力
音声信号に基づいて局所ピッチ周期判別部501で局所
ピッチ周期が判定される。そして、この判定結果によっ
て第1、第2の符号化器502,503のいずれかがス
イッチSW1により選択され、選択された符号化器から
の符号化ビットストリームとともに局所ピッチ周期判別
部501の判定結果がマルチプレクサ504を介して伝
送される。
【0087】一方、復号側ではデマルチプレクサ505
により分離された判別結果に従って第1、第2の復号器
506,507のいずれかがスイッチSW2,SW3に
より選択され、選択された復号器の復号結果が再生音声
信号508として取り出される。
【0088】前述したように、局所ピッチ周期は入力音
声信号の有声区間では周期的になるが、無声区間では不
規則になる。全てのパターンを伝送するには多くの伝送
量を必要とする。そこで、局所ピッチ周期判別部501
で局所ピッチ周期の連続性の度合いを調べて、局所ピッ
チ周期に基づく符号化方式が適しているか否か、具体的
には例えばピッチマークがほぼ等間隔で並んでいるか否
か、すなわち局所ピッチ周期の連続性の度合いを判断
し、局所ピッチ周期に基づく符号化方式が適していれば
第1の符号化器502を用い、そうでなければ第2の符
号化器503を用いる。第1の符号化器502はこれま
での実施形態で述べてきた方式の音声符号化装置が該当
し、第2の符号化器503は無声区間専用のコーデッ
ク、例えば適応符号帳を用いないCELP方式による音
声符号化装置などが該当する。
【0089】本実施形態によると、ピッチマーク情報の
伝送に必要なビット数を削減すると同時に、有声/無声
それぞれに適したコーデックを用いることで、音声符号
化/復号システム全体の音質を向上させることができ
る。
【0090】(第9の実施形態)図10に、本発明の音
声符号化方法を適用した第9の実施形態に係る音声符号
化装置を示す。本実施形態の音声符号化装置は、図4に
示した第3の実施形態におけるピッチマーク生成部10
2、ピッチは形生成部103、駆動信号生成部104、
ゲイン付与部105および間引き部211の部分が加算
器701、雑音ベクトル生成部702、部分ピッチ波形
結合部703、部分ピッチ波形切り出し部704、励振
信号バッファ705およびピッチパターン符号帳706
に置き換えられた形となっている。
【0091】入力端子100には、符号化すべき音声信
号が1フレーム分の長さの単位で入力される。この入力
音声信号は、これまで述べてきた実施形態と同様にLP
C分析部101でLPC分析されてLPC係数(線形予
測係数)が求められ、聴感重み付き合成フィルタ206
の係数および聴感重み付け部107の係数が決定される
と共に、聴感重み付き合成フィルタ106の伝達特性を
表す合成フィルタ特性情報であるLPC情報11が出力
される。LPC分析部101でLPC係数はフレーム単
位で求められるが、聴感重み付き合成フィルタ206の
入力である駆動信号はフレームを数個に分割したサブフ
レームの単位で求められる。
【0092】ピッチパターン符号帳706は、複数のピ
ッチパターンを格納している。各ピッチパターンは、サ
ブフレームをさらに分割したミニフレーム単位のピッチ
周期の情報からなっている。励振信号バッファ705に
は、加算器701から聴感重み付き合成フィルタ206
を駆動する過去の励振信号(駆動信号)が入力され、こ
の励振信号が所定の長さだけ保存されている。
【0093】部分ピッチ波形切り出し部704は、ピッ
チパターンによって示されるミニフレーム単位のピッチ
周期に基づいて、励振信号バッファ705からミニフレ
ーム長の複数の部分ピッチ波形を切り出して出力する。
部分ピッチ波形結合部703では、この部分ピッチ波形
をつなぎ合わせてサブフレーム長のピッチ励振信号を現
フレームの駆動信号として生成する。このとき、必要に
応じてピッチ励振信号にゲインを乗じて現フレームの駆
動信号とする。さらに、この現フレームの駆動信号を表
す情報として、部分ピッチ波形の切り出しと結合に関す
る情報、すなわち部分ピッチ波形結合部703において
どのピッチパターンに基づいて部分ピッチ波形がどのよ
うに結合されたかを示す情報がピッチ励振信号情報15
として出力される。
【0094】雑音ベクトル生成部702は、CELP方
式の場合と同様にして雑音ベクトルを生成する。すなわ
ち、複数の雑音または学習された励振信号から最適な励
振信号を雑音ベクトル候補として選択し、これに必要に
応じてゲインを乗じて雑音励振信号とする。雑音ベクト
ル生成部702からは、選択された雑音ベクトル候補と
ゲインが雑音励振信号情報16として出力される。
【0095】部分ピッチ波形結合部703からのピッチ
励振信号および雑音ベクトル生成部702からの雑音励
振信号は加算器701で合わせられ、聴感重み付き合成
フィルタ206を通して聴感重み付き合成音声信号が得
られる。
【0096】一方、入力音声信号は聴感重み付け部10
7を通ることによって聴感重み付き音声信号となる。こ
の聴感重み付き音声信号に対する聴感重み付き合成フィ
ルタ206からの聴感重み付き合成音声信号の誤差が減
算器108で計算され、その誤差が評価部109に入力
される。評価部109では、この誤差が最小となるよう
にピッチパターン符号帳706と雑音ベクトル生成部7
02からそれぞれ最適なピッチパターンと雑音励振信号
を選ぶ。
【0097】CELP方式などの従来の音声符号化方法
では、部分ピッチ波形結合部703の出力であるピッチ
励振信号を得るために、適応符号帳が用いられてきた。
適応符号帳は先に挙げた文献2で述べられているよう
に、過去の駆動信号を格納しておき、目標ベクトルに最
も近い1ピッチ波形を繰り返すことでピッチ励振信号を
得るものである。しかし、既に述べてきたように、波形
の単純な繰り返しではピッチの変化や揺らぎを表すこと
ができず、十分な性能が得られない。
【0098】これを解決するため、本実施形態ではミニ
フレームの長さをサブフレームにおける平均的なピッチ
周期(大域ピッチ周期)よりも短くしている。言い換え
れば、ピッチパターンに示されているピッチ周期は、1
ピッチ波形の長さよりも短い周期で変化している。これ
を実現する簡単な方法のーつとして、ピッチ周期の更新
周期を符号化で扱う最小ピッチ周期(人の声の場合、4
msec程度)あるいはそれ以下の固定値とする方法が
挙げられる。このようにしておけば、大域ピッチ周期の
値に関わらず常にピッチパターンの変化速度をピッチ周
期よりも早めることができる。
【0099】ピッチ波形で重要な要素は、ピークの位置
や形状である。従来の適応符号帳では目標ベクトルに最
も近いピッチ波形を繰り返すため、ピークの位置と形状
が目標と正確に合わないことがあるという問題点があっ
た。この問題を解決するために、本実施形態ではピッチ
パターンを予め用意しておき、ピッチパターンに示され
ているピッチ周期を大域ピッチ周期より短い更新周期で
更新している。ピーク位置は1ピッチ波形で1箇所であ
るのが普通なので、1ピッチ周期より短い周期で波形に
変化を与えることによって、ピーク位置と形状をより正
確に目標ベクトルと合わせることが可能になる。
【0100】符号化という観点からみると、このような
方法は伝送レートが急激に増えるおそれがある。しか
し、数あるパターンの中で実際にありうるパターンは限
られており、このことはピッチパターンの学習のシミュ
レーションによっても確認できる。従って、ピッチパタ
ーンをオフラインで学習しておけば、従来の適応符号帳
とほぼ同等の伝送レートで実現可能である。十分な学習
が行なわれれば、ピッチ周期の揺らぎや変化を反映した
音声信号特有のピッチパターンが得られ、ピッチ励振信
号の符号化効率を向上させることができる。
【0101】また、従来の適応符号帳では割り当てられ
るビットが1サブフレーム当たり7〜8ビットと固定で
あった。これはサンプリングレート8kHzに対し、ピ
ッチ周期が16〜150サンプル程度であることに起因
している。1サブフレーム当たり8ビットを割り当てる
場合は、非整数のピッチ周期(20.5など)を用いる
ことが多い。これ以上ビットを割り当てても、音質の改
善は少ない。数百サンプルという長いピッチ周期や、数
サンプルという短い周期はあり得ないからである。
【0102】これに対し、本実施形態の場合はビット数
の増加と共にピッチパターンの数が増えるため、向上の
程度は減少していくものの、音質は単調に向上してい
く。従って、高音質のコーデックを設計する場合などビ
ット数に余裕がある場合は、多くのビットを割り当て音
質の向上を目指すなど、ビットの割り振り方が自由にで
きる利点もある。
【0103】また、ピッチパターンを学習する時に学習
データとして特定の話者のデータを用いることによっ
て、その話者に適合したパターン符号帳を作ることもで
きる。例えば、アナウンスの声など女性の声しか対象と
しない場合は、女性の声のみで学習することでピッチ周
期の高いパターンが多く生成され、音質の向上を図るこ
とができる。
【0104】次に、図11および図12を用いて本発明
と従来の適応符号帳を用いた場合で生成されるピッチ励
振信号の違いを説明する。図11および図12におい
て、左方向が時間的に古いサンプルである。ベクトルの
長さは1サブフレーム分であり、4つのミニフレームに
等分されている。図11はピッチ周期が短い場合、図1
2はピッチ周期が長い場合である。
【0105】まず、図11を用いてピッチ周期が短い場
合について説明する。図11(a)は、目標ベクトルと
してのピッチ励振信号を示している。この目標ベクトル
により近いピッチ励振信号を生成する。目標ベクトルに
対するピッチ励振信号の近さを示す尺度としては、例え
ばピッチ励振信号を聴感重み付き合成フィルタ206に
通した後でのベクトル間の距離(音声信号レベルでの歪
み)を用いる。この例の目標ベクトルは周期がほぼミニ
フレーム長であり、前半と後半ではパルスの全体的な形
状が変化しており、さらに前半の2ピッチ目は大きさと
位相が他のパルスと少しずれている。
【0106】図11(b)は、励振信号バッファ705
に格納された過去の駆動信号を示している。CELP方
式では通常、励振信号バッファ705に相当するものを
適応符号帳と呼ぶ。本実施形態では、この励振信号バッ
ファ705から部分ピッチ波形切り出し部704で図1
1(b)の下側に示した番号「1」〜「4」の位置に当
たる波形を部分ピッチ波形として切り出し、これらを適
当なゲインをかけてから部分ピッチ波形結合部703で
結合することで、図11(c)に示すピッチ励振信号を
得ている。「1」〜「4」の区間をそれぞれ励振信号バ
ッファ705のどこに配置するかを示す情報がピッチパ
ターンである。
【0107】図11では最適なピッチパターンが存在
し、かつ、目標ベクトルの後半のパルス形状がたまたま
励振信号バッファ705に存在しているために、図11
(a)に示す目標ベクトルと同一のピッチ励振信号が図
11(c)に示すように得られている。実際には、この
ようにうまく行くことは稀であるが、音声レベルでの歪
みが最小になるパターンが選ばれる。すなわち、形状や
位相を考慮して、全体のバランスが最良になるパターン
が選ばれるわけである。
【0108】図11(d)は、適応符号帳を用いて従来
法に基づいて生成したピッチ励振信号(駆動信号)の例
であり、CELP方式で適応符号帳を用いる場合は、こ
の生成方法を用いるのが通常である。すなわち、図11
(b)の励振信号バッファ705に相当する適応符号帳
内の目標ベクトルに最も近い1ピッチ分(「1」の区
間)の波形をサブフレーム長になるまで繰り返す。この
ようにして得られたピッチ励振信号が図11(d)であ
り、サブフレーム内での波形の形状の変化や位相のずれ
を原理的に表せない構造になっている。
【0109】次に、図12を用いてピッチ周期が長い場
合について説明する。図12(a)〜図12(d)の意
味は、図11(a)〜(d)と同様である。図12
(a)に示す目標ベクトルのピッチ波形の長さは3ミニ
フレーム強であるのに対して、図12(b)に示す励振
信号バッファ705内のピッチ波形の長さは3ミニフレ
ームである。本実施形態では、図12(b)の下側に示
した示した番号「1」〜「4」の位置からピッチ波形を
切り出してつなぎ合わせることで、図12(c)のよう
にピッチ周期が伸張されたピッチ励振信号を生成するこ
とができる。これに対し、従来法では適応符号帳内の目
標ベクトルに最も近い1ピッチ分を繰り返すため、図1
2(d)のようなピッチ励振信号となり、ピッチ周期の
変化を原理的に表せない構造になっている。
【0110】厳密には、CELP方式では目標ベクトル
に最も近い1ピッチ分を選ぶ作業を閉ループで行ってい
る。すなわち、全てのピッチ周期に対して音声信号レベ
ルでの歪みを計算し、歪みの最小になるピッチ周期を選
んでいる。従って、ピッチ周期が不安定な箇所では、目
視でみた平均的なピッチ周期と適応符号帳探索で求まっ
たピッチ周期が異なることがある。
【0111】以上の説明から分かるように、本実施形態
の音声符号化方法はピッチ波形の形状や位相の変化、お
よび緩やかなピッチ周期の変化に対応したピッチ励振信
号を生成することが可能であり、ピッチ周期の変化の激
しい箇所はもちろん、定常的な部分でもピッチパラメー
タの僅かなずれを表現することで、より高音質の復号音
声を得ることができる。
【0112】また、ピッチパターン符号帳706の学習
を行うことによって、ビットレートに応じた最適な符号
帳が作成できる。さらに、ピッチパターン符号帳706
の学習に用いる音声を特定の話者に制限することによっ
て、話者に適応した符号長を生成でき、より一層の音質
向上が可能になる。
【0113】なお、本実施形態の音声符号化装置はピッ
チパターンの作り方によって従来の適応符号帳と全く同
じ動作をするように構成することも可能である。このよ
うに構成した場合でも、従来法に比べて量子化精度が劣
化することはない。
【0114】このように本実施形態によれば、駆動信号
を聴感重み付き合成フィルタ206に入力して得られた
合成音声信号の歪みが最小となる駆動信号を探索して符
号化を行う際、過去のフレームの駆動信号から例えば現
フレームの平均ピッチ周期よりも短い区間のピッチ周期
の変化を示すピッチパターンによって示されるピッチ周
期に基づいて、入力音声信号のピッチ周期より短い波形
を部分ピッチ波形として切り出し、切り出した部分ピッ
チ波形を結合して現フレームの駆動信号を生成すること
により、入力音声信号のピッチ周期の急激な変化や揺ら
ぎを反映させた符号化を行うことができ、復号側で得ら
れる復号音声の音質が向上するという利点がある。
【0115】ところで、第8の実施形態で既に述べたよ
うに、入力音声信号をピッチ的な区間、つまりピッチ成
分を多く含む区間とピッチ的でない区間(以下、それぞ
れピッチ性区間、非ピッチ性区間という)とに分類し、
これによって符号化方法を切り替える手法を本実施形態
に適用することも有効である。また、符号化効率を上げ
るためにピッチ性区間のモードをさらにピッチ周期の変
化パターン、例えばピッチ周期が上昇している、平坦で
ある、下降しているなどに応じて複数のモードに分類
し、モード毎にピッチパターン符号帳を切り替えるなど
の適応化を行う方法も考えられる。このようにすると、
ピッチパターン符号帳は学習によって各モード毎に最適
化されるので、量子化効率が上がる。
【0116】モード分けの方法としては、入力音声信号
をフレームの先頭と最後でピッチ分析し、ピッチゲイン
が大きければピッチ性区間に、ピッチゲインが小さけれ
ば非ピッチ性区間にそれぞれ分類する方法を用いること
ができる。さらに、2つのピッチ周期の違いから「上
昇」、「平坦」、「下降」の3モードに分類する方法も
効果的である。
【0117】一方、モード分けを行わなかった場合は、
「上昇」と「下降」が混在した形でピッチパターン符号
帳が作られ、探索時には符号長全体が探索されるので、
例えばピッチ周期が上昇している場合でも、平坦パター
ンや下降パターンを探索することになり、無駄がある。
上述のようなモード分けを行うことで、例えばピッチ周
期が上昇している区間では上昇パターンのみを探索すれ
ばよいので、効率が向上し、計算量の大幅な削減が可能
となる。
【0118】(第10の実施形態)図13に、本発明に
よる音声符号化方法を適用した第10の実施形態に係る
音声符号化装置を示す。この音声符号化装置は、第9の
実施形態における図10中の聴感重み付き合成フィルタ
206を除去して聴感重み付け部207に置き換え、こ
れに伴い励振信号バッファ705を音声信号バッファ7
07に置き換えた構成となっている。また、LPC分析
部101は重み係数算出部111に置き換えられてい
る。さらに、第9の実施形態におけるピッチ励振信号情
報15および雑音励振信号情報16は、それぞれ合成音
声信号の情報を表すピッチ信号情報17および雑音信号
情報18に置き換えられている。第9の実施形態に対す
る第10の実施形態の関係は、第1の実施形態に対する
第2の実施形態の関係と同じであり、その効果も第9の
実施形態と同様である。
【0119】すなわち、本実施形態によれば合成フィル
タを用いずに歪みが最小となる合成音声信号を生成して
符号化を行う際、過去のフレームの合成音声信号から、
例えば現フレームの平均ピッチ周期よりも短い区間のピ
ッチ周期の変化を示すピッチパターンによって示される
ピッチ周期に基づいて、入力音声信号のピッチ周期より
短い波形を部分ピッチ波形として切り出し、切り出した
部分ピッチ波形を結合して現フレームの合成音声信号を
生成することにより、入力音声信号のピッチ周期の急激
な変化や揺らぎを反映させた符号化を行うことができ、
復号側で得られる復号音声の音質が向上する。
【0120】(第11の実施形態)図14に、第10の
実施形態として本発明をテキスト音声合成装置に適用し
た例を示す。テキスト音声合成は、入力されたテキスト
から自動的に合成音声を生成する技術であり、図14に
示すようにテキスト600を解析するテキスト解析部6
01、合成パラメータを生成する合成パラメータ生成部
602および合成音声を生成する音声合成部603の三
つの要素から構成される。各々の構成要素は、基本的に
は以下に示すような処理を行っている。
【0121】入力されたテキスト600は、まずテキス
ト解析部601において形態素解析や構文解析が行われ
る。次に、合成パラメータ生成部602においてテキス
ト解析データ610を用いて音韻記号列611、音韻継
続時間長612、ピッチパターン613およびパワー6
14などの合成パラメータが生成される。そして、音声
合成部603において、音節、音素および1ピッチ区間
などの基本となる小さな単位(音声合成単位という)の
特徴パラメータが音韻記号列611、音韻継続時間長6
12およびピッチパターン613などの情報に従って選
択され、これらがピッチや継続時間長が制御された後に
接続されることにより、合成音声615が生成される。
【0122】このようなテキスト音声合成装置におい
て、合成パラメータ生成部602でピッチパターン61
3を生成する際に、これまでの実施形態で説明した局所
ピッチ周期の検出を利用することができる。
【0123】
【発明の効果】以上説明したように、本発明によればピ
ッチ周期の急激な変化や揺らぎが符号化できるようにな
り、高音質の復号音声が得られる音声符号化を行うこと
が可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声符号化装置
の構成を示すブロック図
【図2】予測誤差信号および適応符号化帳から得られる
励振信号のピッチ波形とピッチマークを示す図
【図3】本発明の第2の実施形態に係る音声符号化装置
の構成を示すブロック図
【図4】本発明の第3の実施形態に係る音声符号化装置
の構成を示すブロック図
【図5】同実施形態におけるピッチマークの立て方を示
す図
【図6】本発明の第4の実施形態に係る音声符号化装置
の構成を示すブロック図
【図7】本発明の第5の実施形態に係る音声符号化装置
の構成を示すブロック図
【図8】本発明の第6の実施形態に係る音声符号化装置
の構成を示すブロック図
【図9】本発明の第8の実施形態に係る音声符号化/復
号システムの構成を示すブロック図
【図10】本発明の第9の実施形態に係る音声符号化装
置の構成を示すブロック図
【図11】同実施形態の動作を説明するためのピッチ周
期が短い場合のピッチ励振信号についての説明図
【図12】同実施形態の動作を説明するためのピッチ周
期が長い場合のピッチ励振信号についての説明図
【図13】本発明の第10の実施形態に係る音声符号化
装置の構成を示すブロック図
【図14】本発明の第11の実施形態に係るテキスト音
声合成装置の構成を示すブロック図
【符号の説明】
100…音声入力端子 101…LPC分析部 102…ピッチマーク生成部 103…ピッチ波形生成部 104…駆動信号生成部 105…ゲイン付与部 106…合成フィルタ 107…聴感重み付け部 108…減算器 109…評価部 111…重み係数算出部 206…聴感重み付き合成フィルタ 211…間引き部 302…局所ピッチ周期探索部 303…ピッチ波形生成部 304…駆動信号生成部 305…ゲイン付与部 311…間引き部 402…励振信号生成部 403…大域ピッチ周期探索部 404…励振信号変換部 405…駆動信号生成部 406…励振信号バッファ 500…音声入力端子 501…局所ピッチ周期判別部 502,503…符号化器 504…マルチプレクサ 505…デマルチプレクサ 506,507…復号器 508…合成音声信号 701…加算器 702…雑音ベクトル生成部 703…部分ピッチ波形結合部 704…部分ピッチ波形切り出し部 705…励振信号バッファ 706…ピッチパターン符号帳 707…音声信号バッファ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平9−146596(JP,A) 特開 平9−34499(JP,A) 特開 平2−216200(JP,A) 特開 平1−223499(JP,A) 特開 平7−334195(JP,A) 特開 平4−125700(JP,A) 特開 平8−63195(JP,A) 特開 昭61−20997(JP,A) 特開 平1−152500(JP,A) 特開 平2−281300(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/12 G10L 19/08

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】駆動信号を入力して合成音声信号を生成す
    る合成フィルタの伝達特性を表す合成フィルタ特性情報
    と、入力音声信号の連続する複数のピッチ波形の平均的
    なピッチ周期を表す大域ピッチ周期を該入力音声信号か
    ら求め、 前記大域ピッチ周期を基に該大域ピッチ周期で繰り返す
    第1のピッチ励振信号を生成し、 前記第1のピッチ励振信号に対して変換パターン符号帳
    に格納された変換パターンに従い時間および振幅方向の
    変換を施して第2のピッチ励振信号を生成し、 前記第2のピッチ励振信号を用いて前記合成音声信号の
    歪みが最小となる前記駆動信号を生成し、 少なくとも前記合成フィルタ特性情報と前記大域ピッチ
    周期を表す情報と前記変換パターンを表す情報および前
    記駆動信号を表す情報を符号化データとして出力するこ
    とを特徴とする音声符号化方法。
  2. 【請求項2】前記変換パターン符号帳に格納された変換
    パターンは、時間に比例して前記第1のピッチ励振信号
    の波形を引き延ばすパターンである請求項1記載の音声
    符号化方法。
  3. 【請求項3】駆動信号を入力して合成音声信号を生成す
    る合成フィルタと、 入力音声信号から前記合成フィルタの伝達特性を表す合
    成フィルタ特性情報を求める手段と、 前記入力音声信号から該入力音声信号の連続する複数の
    ピッチ波形の平均的なピッチ周期を表す大域ピッチ周期
    を求める手段と、 前記大域ピッチ周期を基に該大域ピッチ周期で繰り返す
    第1のピッチ励振信号を生成する手段と、 前記第1のピッチ励振信号に対して変換パターン符号帳
    に格納された変換パターンに従い時間および振幅方向の
    変換を施して第2のピッチ励振信号を生成する手段と、 前記第2のピッチ励振信号を用いて前記合成音声信号の
    歪みが最小となる前記駆動信号を生成する手段と、 少なくとも前記合成フィルタ特性情報と前記大域ピッチ
    周期を表す情報と前記変換パターンを表す情報および前
    記駆動信号を表す情報を符号化データとして出力する手
    段とを具備することを特徴とする音声符号化装置。
JP17967797A 1997-03-17 1997-07-04 音声符号化方法及び装置 Expired - Fee Related JP3410931B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP17967797A JP3410931B2 (ja) 1997-03-17 1997-07-04 音声符号化方法及び装置
US09/039,317 US6167375A (en) 1997-03-17 1998-03-16 Method for encoding and decoding a speech signal including background noise
US09/696,962 US6427135B1 (en) 1997-03-17 2000-10-27 Method for encoding speech wherein pitch periods are changed based upon input speech signal

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-63450 1997-03-17
JP6345097 1997-03-17
JP17967797A JP3410931B2 (ja) 1997-03-17 1997-07-04 音声符号化方法及び装置

Publications (2)

Publication Number Publication Date
JPH10319995A JPH10319995A (ja) 1998-12-04
JP3410931B2 true JP3410931B2 (ja) 2003-05-26

Family

ID=26404575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17967797A Expired - Fee Related JP3410931B2 (ja) 1997-03-17 1997-07-04 音声符号化方法及び装置

Country Status (1)

Country Link
JP (1) JP3410931B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100365704C (zh) * 2002-11-25 2008-01-30 松下电器产业株式会社 声音合成方法以及声音合成装置
JP5084360B2 (ja) * 2007-06-13 2012-11-28 三菱電機株式会社 音声符号化装置及び音声復号装置

Also Published As

Publication number Publication date
JPH10319995A (ja) 1998-12-04

Similar Documents

Publication Publication Date Title
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
EP0926660B1 (en) Speech encoding/decoding method
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JPH0353300A (ja) 音声符号化装置
JP4008607B2 (ja) 音声符号化/復号化方法
JP3063668B2 (ja) 音声符号化装置及び復号装置
JP2001075600A (ja) 音声符号化装置および音声復号化装置
JP3199142B2 (ja) 音声の励振信号符号化方法および装置
JP3410931B2 (ja) 音声符号化方法及び装置
JP2538450B2 (ja) 音声の励振信号符号化・復号化方法
JP2613503B2 (ja) 音声の励振信号符号化・復号化方法
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3299099B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JPH08234795A (ja) 音声符号化装置
JP3232701B2 (ja) 音声符号化方法
JP3088204B2 (ja) コード励振線形予測符号化装置及び復号化装置
JPH11259098A (ja) 音声符号化/復号化方法
JP3431655B2 (ja) 符号化装置及び復号化装置
JP3515216B2 (ja) 音声符号化装置
JP3515215B2 (ja) 音声符号化装置
JP3984048B2 (ja) 音声/音響信号の符号化方法及び電子装置
JPH05165497A (ja) コード励振線形予測符号化器及び復号化器
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP2508002B2 (ja) 音声符号化方法とその装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080320

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090320

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100320

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100320

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110320

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120320

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130320

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130320

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140320

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees