JP2007179071A

JP2007179071A - 音声符号化装置及び音声符号化方法

Info

Publication number: JP2007179071A
Application number: JP2007044048A
Authority: JP
Inventors: Hirohisa Tazaki; 裕久田崎; Tadashi Yamaura; 正山浦
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-02-23
Filing date: 2007-02-23
Publication date: 2007-07-12
Anticipated expiration: 2019-11-08
Also published as: JP4660496B2

Abstract

【課題】ピッチ周期と繰り返し周期が異なっている場合の品質劣化を防ぐ。
【解決手段】周期予備選択手段２３は、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、所定個の駆動音源の繰り返し周期候補を選択する。駆動音源符号化手段２７は、所定個の駆動音源の繰り返し周期候補毎に、符号化歪を最も小さくする音源位置と極性及びその時の符号化歪みの評価値を出力する。周期符号化手段２８は、各繰り返し周期ごとの符号化歪みの評価値を比較し、その比較結果に基づき駆動音源の繰り返し周期候補を選択して、選択情報と音源位置符号と極性を出力する。
【選択図】図１

Description

この発明は、ディジタル音声信号を少ない情報量に圧縮する音声符号化装置及び音声符号化方法に関するものである。

従来の多くの音声符号化装置及び音声復号化装置では、入力音声をスペクトル包絡情報と音源に分けて、所定長区間のフレーム単位で各々を符号化して音声符号を生成し、この音声符号を復号化して、合成フィルタによってスペクトル包絡情報と音源を合わせることで復号音声を得る構成をとっている。最も代表的な音声符号化装置及び音声復号化装置としては、符号駆動線形予測符号化（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）方式を用いたものがある。

図１４は従来のＣＥＬＰ系音声符号化装置の構成を示すブロック図であり、図１５は従来のＣＥＬＰ系音声復号化装置の構成を示すブロック図である。
図１４及び図１５において、１は入力音声、２は線形予測分析手段、３は線形予測係数符号化手段、４は適応音源符号化手段、５は駆動音源符号化手段、６はゲイン符号化手段、７は多重化手段、８は音声符号、９は分離手段、１０は線形予測係数復号化手段、１１は適応音源復号化手段、１２は駆動音源復号化手段、１３はゲイン復号化手段、１４は合成フィルタ、１５は出力音声である。

次に動作について説明する。
この従来の音声符号化装置及び音声復号化装置では、５〜５０ｍｓ程度を１フレームとして、フレーム単位で処理を行う。まず、図１４に示す音声符号化装置において、入力音声１が線形予測分析手段２と適応音源符号化手段４とゲイン符号化手段６に入力される。線形予測分析手段２は、入力音声１を分析し、音声のスペクトル包絡情報である線形予測係数を抽出する。線形予測係数符号化手段３は、この線形予測係数を符号化し、その符号を多重化手段７に出力すると共に、音源の符号化のために量子化された線形予測係数を出力する。

適応音源符号化手段４は、過去の所定長の音源（信号）を適応音源符号帳として記憶しており、内部で発生させた数ビットの２進数値で示した各適応音源符号に対応して、過去の音源を周期的に繰り返した時系列ベクトルを生成する。次に各時系列ベクトルに適切なゲインを乗じ、線形予測係数符号化手段３から出力された量子化された線形予測係数を用いた合成フィルタに通すことにより、仮の合成音を得る。この仮の合成音と入力音声１との距離を調べ、この距離を最小とする適応音源符号を選択して多重化手段７に出力すると共に、選択された適応音源符号に対応する時系列ベクトルを適応音源として、駆動音源符号化手段５とゲイン符号化手段６に出力する。また、入力音声１，又は入力音声１から適応音源による合成音を差し引いた信号を、符号化対象信号として駆動音源符号化手段５に出力する。

駆動音源符号化手段５は、まず、内部で発生させた数ビットの２進数値で示した各駆動音源符号に対応して、内部に格納してある駆動音源符号帳から時系列ベクトルを順次読み出す。次に、読み出した各時系列ベクトルと適応音源符号化手段４から出力された適応音源に適切なゲインを乗じて加算し、線形予測係数符号化手段３から出力された量子化された線形予測係数を用いた合成フィルタに通すことにより、仮の合成音を得る。この仮の合成音と、適応音源符号化手段４から出力された入力音声１又は入力音声１から適応音源に
よる合成音を差し引いた信号である符号化対象信号との距離を調べ、この距離を最小とする駆動音源符号を選択して多重化手段７に出力すると共に、選択された駆動音源符号に対応する時系列ベクトルを駆動音源として、ゲイン符号化手段６に出力する。

ゲイン符号化手段６は、まず、内部で発生させた数ビットの２進数値で示した各ゲイン符号に対応して、内部に格納してあるゲイン符号帳からのゲインベクトルを順次読み出す。そして各ゲインベクトルの各要素を、適応音源符号化手段４から出力された適応音源と駆動音源符号化手段５から出力された駆動音源に乗じて加算して音源を生成し、生成したこの音源を線形予測係数符号化手段３から出力された量子化された線形予測係数を用いた合成フィルタに通すことにより、仮の合成音を得る。この仮の合成音と入力音声１との距離を調べ、この距離を最小とするゲイン符号を選択して多重化手段７に出力する。また、このゲイン符号に対応する上記生成された音源を適応音源符号化手段４に出力する。

最後に、適応音源符号化手段４は、ゲイン符号化手段６により生成されたゲイン符号に対応する音源を用いて、内部の適応音源符号帳の更新を行う。

多重化手段７は、線形予測係数符号化手段３から出力された線形予測係数の符号と、適応音源符号化手段４から出力された適応音源符号と、駆動音源符号化手段５から出力された駆動音源符号と、ゲイン符号化手段６から出力されたゲイン符号を多重化し、得られた音声符号８を出力する。

次に、図１５に示す音声復号化装置において、分離手段９は、音声符号化装置から出力された音声符号８を分離して、線形予測係数の符号を線形予測係数復号化手段１０に出力し、適応音源符号を適応音源復号化手段１１に出力し、駆動音源符号を駆動音源復号化手段１２に出力し、ゲイン符号をゲイン復号化手段１３に出力する。線形予測係数復号化手段１０は、分離手段９が分離した線形予測係数の符号から線形予測係数を復号化し、合成フィルタ１４のフィルタ係数として設定し出力する。

次に、適応音源復号化手段１１は、内部に過去の音源を適応音源符号帳として記憶しており、分離手段９が分離した適応音源符号に対応して過去の音源を周期的に繰り返した時系列ベクトルを適応音源として出力する。また、駆動音源復号化手段１２は、分離手段９が分離した駆動音源符号に対応した時系列ベクトルを駆動音源として出力する。ゲイン復号化手段１３は、分離手段９が分離したゲイン符号に対応したゲインベクトルを出力する。そして、上記２つの時系列ベクトルに上記ゲインベクトルの各要素を乗じて加算することで音源を生成し、この音源を合成フィルタ１４に通すことで出力音声１５を生成する。最後に、適応音源復号化手段１１は、上記生成された音源を用いて内部の適応音源符号帳の更新を行う。

次に、このＣＥＬＰ系音声符号化装置及び音声復号化装置の改良を図った従来の技術について説明する。
非特許文献１には、演算量とメモリ量の削減を主な目的として、駆動音源の符号化にパルス音源を導入したＣＥＬＰ系音声符号化装置及び音声復号化装置が開示されている。この従来の構成では、駆動音源を数本のパルスの各位置情報と極性情報のみで表現している。このような音源は代数的音源と呼ばれ、構造が簡単な割に符号化特性が良く、最近の多くの標準方式に採用されている。

図１６は、非特許文献１で用いられているパルス音源の位置候補を示した表であり、上記図１４の音声符号化装置では駆動音源符号化装置５，上記図１５の音声復号化装置では駆動音源復号化装置１２に搭載される。非特許文献１では、音源符号化フレーム長が４０サンプルであり、駆動音源は４つのパルスで構成されている。音源番号１から音源番号３のパルス音源の位置候補は、図１６に示したように各々８つの位置に制約されており、パルス位置は各々３ビットで符号化できる。音源番号４のパルスは１６の位置に制約されており、パルス位置は４ビットで符号化できる。パルス音源の位置候補に制約を与えることにより、符号化特性の劣化を抑えつつ、符号化ビット数の削減、組合せ数の削減による演算量の削減を実現している。

なお、非特許文献１では、パルス位置探索の演算量を削減するために、インパルス応答（単一のパルス音源による合成音）と符号化対象信号の相関関数とインパルス応答（単一のパルス音源による合成音）の相互相関関数を予め計算して、プリテーブルとして記憶しておき、それらの値の簡単な加算によって距離（符号化歪）計算を実行する。そして、この距離を最小にするパルス位置と極性を探索する。この処理は、上記図１４の音声符号化装置の駆動音源符号化装置５より実施される。

以下、非特許文献１で用いられている探索方法を具体的に説明する。
まず、距離の最小化は次の（１）式で示される評価値Ｄを最大化することと等価であり、この評価値Ｄの計算をパルス位置の全組合せに対して実行することで探索が実行できる。
Ｄ＝Ｃ² ／Ｅ（１）
但し、

ここで、
ｍ_k はｋ番目のパルスのパルス位置、
ｇ（ｋ）はｋ番目のパルスのパルス振幅、
ｄ（ｘ）はパルス位置ｘにインパルスを立てた時のインパルス応答と符号化対象信号の相関値、
φ（ｘ，ｙ）はパルス位置ｘにインパルスを立てた時のインパルス応答とパルス位置ｙにインパルスを立てた時のインパルス応答との相関値
である。

さらに、非特許文献１では、ｇ（ｋ）をｄ（ｍ_k ）と同符号で絶対値を１として、上記（２）式と（３）式を、次の（４）式、（５）式のように単純化して計算を行う。

但し、
ｄ’（ｍ_k ）＝|ｄ（ｍ_k ）| （６）
φ’（ｍ_k ，ｍ_i ）
＝ｓｉｇｎ［ｄ（ｍ_k ）］ｓｉｇｎ［ｄ（ｍ_i ）］φ（ｍ_k ，ｍ_i ）（７）
となり、パルス位置の全組合せに対する評価値Ｄの計算を始める前に、ｄ’とφ’の計算を行っておけば、後は（４）式と（５）式の単純加算という少ない演算量で評価値Ｄが算出できる。

この代数的音源の品質を改善する構成が、特許文献１、特許文献２に開示されていると共に、非特許文献２に開示されている。

特許文献１では、複数の固定波形を用意しておいて、代数的に符号化された音源位置に、この固定波形を配置することで、駆動音源を生成するようにしている。この構成によって、品質の高い出力音声が得られるとされている。

非特許文献２では、駆動音源（非特許文献２中ではＡＣＥＬＰ音源）の生成部に、ピッチフィルタを内包させる構成について検討が行われている。これらの固定波形の導入とピッチフィルタ処理については、非特許文献１におけるインパルス応答の算出部分で同時に行うことで、探索処理量を大きく増やさずに品質改善効果を得ることができる。

特許文献２では、ピッチ利得が予め決めた値以上のときに、駆動音源を適応音源に直交化させながらパルス位置を探索する構成が開示されている。

図１７は、上記の特許文献１及び非特許文献２の改良構成を導入した、従来のＣＥＬＰ系音声符号化装置における駆動音源符号化手段５の詳細構成を示すブロック図である。図において、１６は聴覚重み付けフィルタ係数算出手段、１７，１９は聴覚重み付けフィルタ、１８は基礎応答生成手段、２０はプリテーブル算出手段、２１は探索手段、２２は音源位置テーブルである。

次に駆動音源符号化手段５の動作について説明する。
まず、図１４に示す音声符号化装置内の線形予測係数符号化手段３から、量子化された線形予測係数が聴覚重み付けフィルタ係数算出手段１６と基礎応答生成手段１８に入力され、適応音源符号化手段４から、入力音声１又は入力音声１から適応音源による合成音を差し引いた信号である符号化対象信号が聴覚重み付けフィルタ１７に入力され、適応音源符号化手段４から、適応音源符号を変換して得られる適応音源の繰り返し周期が基礎応答生成手段１８に入力される。

聴覚重み付けフィルタ係数算出手段１６は、上記量子化された線形予測係数を用いて聴覚重み付けフィルタ係数を算出し、算出した聴覚重み付けフィルタ係数を聴覚重み付けフィルタ１７と聴覚重み付けフィルタ１９のフィルタ係数として設定する。聴覚重み付けフィルタ１７は、聴覚重み付けフィルタ係数算出手段１６によって設定されたフィルタ係数により、入力された上記符号化対象信号に対してフィルタ処理を行う。

基礎応答生成手段１８は、単位インパルス又は固定波形に対して、入力された上記適応音源の繰り返し周期を用いた周期化処理を行い、得られた信号を音源として、上記量子化された線形予測係数を用いて構成した合成フィルタによる合成音を生成し、これを基礎応答として出力する。聴覚重み付けフィルタ１９は、聴覚重み付けフィルタ係数算出手段１６により設定されたフィルタ係数により、上記基礎応答に対してフィルタ処理を行う。

プリテーブル算出手段２０は、上記聴覚重み付けされた符号化対象信号と聴覚重み付けされた基礎応答の相関値を計算してｄ（ｘ）とし、聴覚重み付けされた基礎応答の相互相関値を計算してφ（ｘ，ｙ）とする。そして、上記（６）式と（７）式によりｄ’（ｘ）とφ’（ｘ，ｙ）を求めて、これらをプリテーブルとして記憶する。

音源位置テーブル２２には、図１６と同様な音源位置候補が格納されている。探索手段２１は、音源位置テーブル２２から音源の位置候補を順次読み出して、各音源位置の組み合わせに対する評価値Ｄを、上記（１）式、（４）式、（５）式に基づいて、プリテーブル算出手段２０により算出されたプリテーブルを使用して計算する。そして、探索手段２１は、評価値Ｄを最大にする音源位置の組み合わせを探索し、得られた複数の音源位置を表す音源位置符号（音源位置テーブルにおけるインデックス）と極性を、駆動音源符号として図１４に示す多重化手段７に出力すると共に、この駆動音源符号に対応する時系列ベクトルを、駆動音源としてゲイン符号化手段６に出力する。

特許文献２に開示されている直交化の導入は、プリテーブル算出手段２０に入力される聴覚重み付けされた符号化対象信号を適応音源に対して直交化させることと、探索手段２１内で上記（５）式で表されるＥの値から適応音源と各駆動音源の相関に関する寄与分を減算することにより実現されている。

特開平１０−２３２６９６号公報特開平１０−３１２１９８号公報片岡章俊、林伸二、守谷健弘、栗原祥子、間野一則「ＣＳ−ＡＣＥＬＰの基本アルゴリズム」ＮＴＴＲ＆Ｄ，Ｖｏｌ．４５，ｐｐ．３２５−３３０，１９９６年４月土屋、天田、三関「適応パルス位置ＡＣＥＬＰ音声符号化の改善」日本音響学会、１９９９年春季研究発表会講演論文集Ｉ、２１３〜２１４頁

従来の音声符号化装置及び音声復号化装置は以上のように構成されているので、駆動音源のピッチ周期化処理は、探索演算処理量を大きく増加することなく符号化特性を改善することができるが、周期化に用いる繰り返し周期に適応音源の繰り返し周期を使っているため、本来のピッチ周期とこの繰り返し周期が異なっている場合等に、品質劣化を起こすという課題があった。

図１８及び図１９は、従来の音声符号化装置及び音声復号化装置における符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。図１８は適応音源の繰り返し周期が本来のピッチ周期の約２倍になった場合で、図１９は適応音源の繰り返し周期が本来のピッチ周期の約１／２倍になった場合である。

適応音源の繰り返し周期は、符号化対象信号に対する符号化歪を最小にするように決定されるので、声帯の振動周期であるピッチ周期とは異なる値となることが頻繁である。異なる場合は、概ね本来のピッチ周期の整数分の１又は整数倍の値をとり、特に多いのは１／２倍と２倍である。

図１８では、声帯の振動が１ピッチ置きに周期的に変動したために、適応音源の繰り返し周期が本来のピッチ周期の約２倍になってしまっている。このため、この繰り返し周期を用いて駆動音源の符号化を行うと、先頭の１繰り返し周期に音源位置が集まり、これをフレーム内で該繰り返し周期で繰り返した結果が図のようになる。本来のピッチ周期とは異なる周期で繰り返された音源を用いると、そのフレームの音色が変わり、合成音に不安定な印象を生じてしまう。この課題は、低ビットレート化して駆動音源の音源情報量が少なくなる程、無視できなくなり、適応音源の振幅が駆動音源の振幅に比べて小さい区間で顕著になる。

図１９では、低域成分が支配的で、本来のピッチ周期内の前半と後半の波形が類似した形状となったため、適応音源の繰り返し周期が本来のピッチ周期の約１／２倍になってしまっている。この場合にも、図１８と同様に、本来のピッチ周期とは異なる周期で繰り返された音源を用いたために、そのフレームの音色が変わり、合成音に不安定な印象を生じてしまう。

また、低ビットレート化して駆動音源の情報量が少ない場合には、波形歪（符号化歪）を最小化するように決定した駆動音源では、低振幅の帯域の誤差が大きくなって合成音のスペクトル歪みが大きくなる傾向があり、このスペクトル歪が音質的な劣化として検知されてしまうことがある。このスペクトル歪による音質劣化を抑制するために、聴覚重み付け処理が導入されているが、聴覚重み付けを強くしていくと波形歪が増大して、これがザラザラした感じの音質劣化を引き起こすため、通常波形歪とスペクトル歪による音質劣化の影響が同程度になるように調整を行っている。しかしながら、前者のスペクトル歪の増大は特に女声で大きくなり、男声と女声で両者に最適になるようには聴覚重み付けが調整できないという課題があった。

また、従来の構成では、複数の音源位置に配置する音源（パルス含む）に対してフレーム内で一定の振幅を与えている。各音源位置の候補数を比べたときに、その数が異なっているにもかかわらず、振幅が一定というのには無駄がある。例えば、図１６に示した音源位置テーブルの場合、音源番号１から音源番号３の音源位置に対しては各々３ビットが使用され、音源番号４の音源位置に対しては４ビットが使用される。各音源番号毎に、各位置候補での音源と符号化対象信号の相関の最大値を調べると、候補数が最も多い音源番号４が確率的に最も大きい値が得られることが容易に予測される。極端な場合を考えると、ある音源番号に０ビットしか与えない場合を考える。０ビット、つまり固定位置に音源を配置する場合、極性を別途与えるとしてもその相関値は小さく、つまり他の音源番号のものに比べてあまり大きな振幅を与えることが最適でないことが分かる。よって、従来の構成では振幅に関して最適に設計されていないという課題があった。

なお、この音源番号毎の振幅については、別途ゲイン量子化時に独立の値をベクトル量子化によって与える構成も別途開示されているが、これはゲイン量子化情報量が増える、処理が複雑になる等の課題があった。

さらに、駆動音源の適応音源に対する直交化の導入においては、探索処理の増加を伴う構成となっており、代数的音源の組み合わせ数が増加した場合には、大きな負担となるという課題があった。特に固定波形やピッチ周期化を導入した構成において直交化を行う場合には、その演算量の増加は一層大きくなるという課題があった。

この発明は上記のような課題を解決するためになされたもので、高品質の音声符号化装置及び音声符号化方法を得ることを目的としている。また、演算量の増加を最小限に抑えつつ、高品質の音声符号化装置及び音声符号化方法を得ることを目的としている。

この発明に係る音声符号化装置は、過去の音源より生成した適応音源と、入力音声と上記適応音源により生成され、複数の音源位置と極性で表現した駆動音源とを用いて、上記入力音声をフレーム単位に符号化して音声符号を出力するものにおいて、１つの音源位置に所定の音源を配置した信号を仮駆動音源とし、上記入力音声等の符号化対象信号と全ての音源位置候補に対応する上記仮駆動音源に基づく合成音との間の相関値を計算すると共に、全ての候補の組み合わせに対応した上記仮駆動音源に基づく合成音間の相互相関値を計算してプリテーブルとして記憶するプリテーブル算出手段と、上記符号化対象信号と上記適応音源に基づく合成音との間の相関値を計算すると共に、上記全ての音源位置候補に対応する仮駆動音源に基づく合成音と上記適応音源に基づく合成音との間の相関値を計算して、計算したこれらの相関値を用いて上記プリテーブルを補正するプリテーブル補正手段と、上記補正されたプリテーブルを用いて複数の音源位置と極性を決定して、音源位置を表す音声位置符号と極性を出力する探索手段とを備えたものである。

この発明に係る音声符号化方法は、過去の音源より生成した適応音源と、入力音声と上記適応音源により生成され、複数の音源位置と極性で表現した駆動音源とを用いて、上記入力音声をフレーム単位に符号化して音声符号を出力するものにおいて、１つの音源位置に所定の音源を配置した信号を仮駆動音源とし、上記入力音声等の符号化対象信号と全ての音源位置候補に対応する上記仮駆動音源に基づく合成音との間の相関値を計算すると共に、全ての候補の組み合わせに対応した上記仮駆動音源に基づく合成音間の相互相関値を計算してプリテーブルとして記憶するステップと、上記符号化対象信号と上記適応音源に基づく合成音との間の相関値を計算すると共に、上記全ての音源位置候補に対応する仮駆動音源に基づく合成音と上記適応音源に基づく合成音との間の相関値を計算して、計算したこれらの相関値を用いて上記プリテーブルを補正するステップと、上記補正されたプリテーブルを用いて複数の音源位置と極性を決定して、音源位置を表す音声位置符号と極性を出力する探索ステップとを備えたものである。

この発明によれば、１つの音源位置に所定の音源を配置した信号を仮駆動音源とし、入力音声等の符号化対象信号と全ての音源位置候補に対応する仮駆動音源に基づく合成音との間の相関値を計算すると共に、全ての候補の組み合わせに対応した仮駆動音源に基づく合成音間の相互相関値を計算してプリテーブルとして記憶するプリテーブル算出手段と、符号化対象信号と適応音源に基づく合成音との間の相関値を計算すると共に、全ての音源位置候補に対応する仮駆動音源に基づく合成音と適応音源に基づく合成音との間の相関値を計算して、計算したこれらの相関値を用いてプリテーブルを補正するプリテーブル補正手段と、補正されたプリテーブルを用いて複数の音源位置と極性を決定して、音源位置を表す音声位置符号と極性を出力する探索手段とを備えたことにより、探索手段における処理量を増やさずに、符号化対象信号を適応音源に対して直交化することができ、これにより符号化特性を改善でき、高品質の音声符号化装置を提供できるという効果がある。

この発明によれば、１つの音源位置に所定の音源を配置した信号を仮駆動音源とし、入力音声等の符号化対象信号と全ての音源位置候補に対応する仮駆動音源に基づく合成音との間の相関値を計算すると共に、全ての候補の組み合わせに対応した仮駆動音源に基づく合成音間の相互相関値を計算してプリテーブルとして記憶するステップと、符号化対象信号と適応音源に基づく合成音との間の相関値を計算すると共に、全ての音源位置候補に対応する仮駆動音源に基づく合成音と適応音源に基づく合成音との間の相関値を計算して、計算したこれらの相関値を用いてプリテーブルを補正するステップと、補正されたプリテーブルを用いて複数の音源位置と極性を決定して、音源位置を表す音声位置符号と極性を出力する探索ステップとを備えたことにより、探索ステップにおける処理量を増やさずに、符号化対象信号を適応音源に対して直交化することができ、これにより符号化特性を改善でき、高品質の音声符号化方法を提供できるという効果がある。

以下、この発明の実施の一形態について説明する。
実施の形態１．
図１はこの発明の実施の形態１による音声符号化装置における駆動音源符号化手段５の構成を示すブロック図である。音声符号化装置の全体構成は図１４と同様である。図において、２３は周期予備選択手段、２７は駆動音源符号化手段、２８は周期符号化手段であり、周期予備選択手段２３は、定数テーブル２４，比較手段２５，予備選択手段２６により構成されている。

なお、駆動音源符号化手段２７が、従来の駆動音源符号化手段５と同様の動作をする手段であるが、駆動音源符号化手段２７の前後に、周期予備選択手段２３と周期符号化手段２８が新規に追加されたものを、図１４における駆動音源符号化手段５の部分としたものが、この実施の形態１による音声符号化装置である。

図２はこの発明の実施の形態１による音声復号化装置における駆動音源復号化手段１２の構成を示すブロック図である。音声復号化装置の全体構成は図１５と同様である。図２において、２９は周期復号化手段、３０は駆動音源復号化手段である。

なお、駆動音源復号化手段３０が、従来の駆動音源復号化手段１２と同様の動作をする手段であるが、駆動音源復号化手段３０の前に周期予備選択手段２３と周期復号化手段２９が新規に挿入されたものを、図１５における駆動音源復号化手段１２の部分としたものが、この実施の形態１による音声復号化装置である。

次に動作について説明する。
まず、音声符号化装置の動作について図１を用いて説明する。図１４に示す適応音源符号化手段４から、適応音源符号を変換して得られた適応音源の繰り返し周期が周期予備選択手段２３に入力される。また、適応音源符号化手段４からの符号化対象信号と、線形予測係数符号化手段３からの量子化された線形予測係数とが、駆動音源符号化手段２７に入力される。

周期予備選択手段２３内の定数テーブル２４には、１／２，１，２という３つの定数が格納されており、各定数が入力された適応音源の繰り返し周期に乗じられ、得られた３つの繰り返し周期が、駆動音源の繰り返し周期候補として予備選択手段２６に出力される。比較手段２５は、入力された適応音源の繰り返し周期を予め与えておいた所定の閾値と比較して、その比較結果を予備選択手段２６に出力する。なお、この所定の閾値としては、平均的なピッチ周期に相当する４０程度を用いる。

予備選択手段２６は、比較手段２５からの比較結果が、所定の閾値を上回る結果であった時には、入力された適応音源の繰り返し周期に１／２，１を乗じた２つの駆動音源の繰り返し周期候補を予備選択し、比較結果が所定の閾値以下の結果であった時には、入力された適応音源の繰り返し周期に１，２を乗じた２つの駆動音源の繰り返し周期候補を予備選択し、得られた２つの駆動音源の繰り返し周期候補を駆動音源符号化手段２７に順次出力する。

駆動音源符号化手段２７は、図１７に示した従来の駆動音源符号化手段５と同様に、入力された２つの駆動音源の繰り返し周期候補（図１７と異なるのは、この繰り返し周期が適応音源の定数倍となっている点である）、量子化された線形予測係数、符号化対象信号を用いて、代数的音源の符号化処理を行い、２つの駆動音源の繰り返し周期候補毎に、符号化歪を最も小さくする音源位置、極性及びその時の符号化歪に関する上記（１）式における評価値Ｄを出力する。

周期符号化手段２８は、駆動音源符号化手段２７が出力した各駆動音源の繰り返し周期候補に対する評価値Ｄを比較して、１つの評価値と残りの評価値の間の差が所定の閾値以上である（つまり１つのものだけが符号化歪みが小さい）場合には、その評価値を与えた駆動音源の繰り返し周期候補を選択し、評価値間の差異が所定の閾値未満の場合には、別途分析しておいたピッチ周期（本来のピッチ周期の推定結果）に最も近い駆動音源の繰り返し周期候補を選択して、この選択結果を１ビットで符号化した選択情報と、その時の音源位置を表す音源位置符号と極性とを、駆動音源符号として図１４に示す多重化手段７に出力すると共に、この駆動音源符号に対応する時系列ベクトルを、駆動音源として図１４に示すゲイン符号化手段６に出力する。

次に、音声復号化装置の動作について図２を用いて説明する。図１５に示す音声復号化装置において、従来と同様に、分離手段９は、音声符号化装置から出力された音声符号８を分離して、線形予測係数の符号を線形予測係数復号化手段１０に出力し、適応音源符号を適応音源復号化手段１１に出力し、駆動音源符号を駆動音源復号化手段１２に出力し、ゲイン符号をゲイン復号化手段１３に出力するが、この実施の形態では、図１５に示す適応音源復号化手段１１から、適応音源符号を変換して得られる適応音源の繰り返し周期が、駆動音源復号化手段１２に入力される。すなわち、図２において、適応音源復号化手段１１から適応音源の繰り返し周期が周期予備選択手段２３に入力される。また、分離手段９が分離した駆動音源符号内の選択情報が周期復号化手段２９に入力され、駆動音源符号内の音源位置符号と極性が駆動音源復号化手段３０に入力される。

周期予備選択手段２３は、音声符号化装置内の図１に示す周期予備選択手段２３と同じ構成を持ち、予備選択手段２６は、入力した適応音源の繰り返し周期を定数倍した複数の駆動音源の繰り返し周期候補の中から、比較手段２５の比較結果に基づき、２つの予備選択された駆動音源の繰り返し周期候補を選択して周期復号化手段２９に出力する。

周期復号化手段２９は、入力した選択情報に従って、予備選択手段２６から出力された２つの予備選択された駆動音源の繰り返し周期候補の一方を選択して、これを駆動音源の繰り返し周期として駆動音源復号化手段３０に出力する。駆動音源復号化手段３０は、従来の駆動音源復号化手段１２と同様にして、音源位置符号に対応した各位置に固定波形を配置し、繰り返し周期に基づくピッチ周期化を行い、駆動音源符号に対応した時系列ベクトルを駆動音源として出力する。

図３及び図４は、実施の形態１による音声符号化装置及び音声復号化装置における符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。なお、符号化対象信号は図１８及び図１９と同じものであり、図３が適応音源の繰り返し周期が本来のピッチ周期の約２倍になった場合で、図４が約１／２倍になった場合である。

図３の場合、本来のピッチ周期が２０以上であれば、適応音源の繰り返し周期は４０以上となるので、予備選択手段２６では、ほとんどの場合に適応音源の繰り返し周期の１／２倍と１倍の値が予備選択される。この２つの繰り返し周期を用いた時の符号化時の評価値Ｄの差異が小さければ、別途求めてある本来のピッチ周期の推定値（適応音源の繰り返し周期よりは正解率は高い）に近い１／２倍が選択されて、図のように理想的に周期化された音源位置が得られる。

図４の場合、本来のピッチ周期が８０未満であれば、適応音源の繰り返し周期は４０未満となるので、予備選択手段２６では、高い確率で適応音源の１倍と２倍の値が予備選択される。この２つの繰り返し周期を用いた時の符号化時の評価値Ｄの差異が小さければ、別途求めてある本来のピッチ周期に近い２倍が選択されて、図のように理想的に周期化された音源位置が得られる。

なお、上記実施の形態では、駆動音源の符号化と復号化に、数本のパルスの各位置と極性のみで表現した代数的音源を使用しているが、この発明は代数的音源構成に限定されるものではなく、その他の学習音源符号帳やランダム音源符号帳等を用いるＣＥＬＰ系音声符号化装置及び音声復号化装置においても適用可能である。

また、上記実施の形態では、別途ピッチ周期を求めて周期符号化手段２８での選択に用いているが、これを用いずに符号化歪を最小にする、すなわち、評価値Ｄを最大にする繰り返し周期を選択する構成も可能である。また、ピッチ周期ではなくて、過去の数フレームの適応音源の繰り返し周期を平均した値を参照値として用いても構わない。

さらに、上記実施の形態では、スペクトルパラメータとして線形予測係数を用いて説明したが、一般に多く使用されるＬＳＰ（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ：線スペクトル対）等、他のスペクトルパラメータを用いる構成でも構わない。

さらに、上記実施の形態では、定数テーブル２４内の全ての定数を適応音源の繰り返し周期に乗じているが、予備選択手段２６で定数テーブル２４内から２つの定数を選択して、その後に適応音源の繰り返し周期に乗じるようにしても同様である。

さらに、定数テーブル内から１を削除し、代わりに適応音源の繰り返し周期を直接予備選択手段２６に入力するようにしても同じ結果が得られる。

さらに、特性改善効果は減少するが、定数テーブル中の値を１／２と１のみとして、比較手段２５と予備選択手段２６をなくした構成も可能である。

以上のように、この実施の形態１によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択し、予備選択された駆動音源の各繰り返し周期候補毎に符号化歪を最も小さくする駆動音源符号を探索し、駆動音源の各繰り返し周期毎の符号化歪を比較した結果に基づいて、駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化が選択されることにより、合成音の不安定な印象の発生を抑制でき、高品質の音声符号化装置を提供できるという効果が得られる。

また、周期予備選択における予備選択個数を２とし、駆動音源の繰り返し周期の選択情報を１ビットで符号化するようにしたので、最小限の情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。

さらに、周期予備選択において、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、評価の必要のない駆動音源の繰り返し周期候補に対する駆動音源符号化処理と選択情報の配分が不要になり、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。

さらに、周期予備選択における適応音源の繰り返し周期に乗じる定数として、少なくとも１／２，１を含むようにしたので、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を選択することができ、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。

さらに、この実施の形態１によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個を予備選択し、音声符号中の駆動音源の繰り返し周期の選択情報に基づいて、予備選択された駆動音源の繰り返し周期候補の中から１つを駆動音源の繰り返し周期として選択し、この駆動音源の繰り返し周期を用いて駆動音源を復号化するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化がなされ、合成音の不安定な印象の発生を抑制でき、高品質の音声復号化装置を提供できるという効果が得られる。

さらに、周期予備選択における予備選択個数を２とし、１ビットで符号化された駆動音源の繰り返し周期の選択情報を復号化するようにしたので、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。

さらに、周期予備選択において、適応音源の繰り返し周期と所定の閾値を比較して、この比較結果に基づいて所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、必要のない駆動音源の繰り返し周期候補に対する選択情報の配分が不要になり、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。

さらに、周期予備選択における適応音源の繰り返し周期に乗じる定数として、少なくとも１／２，１を含むようにしたので、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を選択することができ、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。

実施の形態２．
図５はこの発明の実施の形態２による音声符号化装置における駆動音源符号化手段５の構成を示すブロック図である。音声符号化装置の全体構成は、実施の形態１，すなわち図１４と同様である。図５において、３１は周期予備選択手段、３３は適応音源符号化手段４内に格納されている適応音源符号帳であり、周期予備選択手段３１は、定数テーブル３２、適応音源生成手段３４、距離計算手段３５、予備選択手段３６によって構成されている。

なお、駆動音源符号化手段２７が、従来の駆動音源符号化手段５と同様の動作をする手段であるが、駆動音源符号化手段２７の前後に周期予備選択手段３１と周期符号化手段２８が新規に挿入されたものを、図１４における駆動音源符号化手段５の部分としたものが、この実施の形態２による音声符号化装置である。

図６はこの発明の実施の形態２による音声復号化装置における駆動音源復号化手段１２の構成を示すブロック図である。音声復号化装置の全体構成は、実施の形態１，すなわち図１５と同様である。図６において、３３は適応音源復号化手段１１内に格納されている適応音源符号帳である。

なお、駆動音源復号化手段３０が、従来の駆動音源復号化手段１２と同様の動作をする手段であるが、駆動音源復号化手段３０の前に周期予備選択手段３１と周期復号化手段２９が新規に挿入されたものを、図１５における駆動音源復号化手段１２の部分としたものが、この実施の形態２による音声復号化装置である。

次に動作について説明する。
まず、音声符号化装置の動作について図５を用いて説明する。実施の形態１と同様に、適応音源符号化手段４が出力した適応音源の繰り返し周期が周期予備選択手段３１に入力され、適応音源符号化手段４からの符号化対象信号、及び線形予測係数符号化手段３からの量子化された線形予測係数が駆動音源符号化手段２７に入力される。

周期予備選択手段３１内の定数テーブル３２には、１／３，１／２，１，２という４つの定数が格納されており、各定数が入力された適応音源の繰り返し周期に乗じられ、得られた４つの駆動音源の繰り返し周期候補が、適応音源生成手段３４と予備選択手段３６に出力される。

適応音源生成手段３４は、適応音源符号帳３３内に格納されている過去の音源を用いて、上記４つの駆動音源の繰り返し周期候補の各々を繰り返し周期とした時の適応音源を生成して、生成した４つの適応音源を距離計算手段３５に出力する。なお、適応音源の繰り返し周期の１倍の値に対しては、適応音源符号化手段４が既に同一の適応音源を生成しているので、適応音源生成手段３４での生成を省略することができる。

また、４つの駆動音源の繰り返し周期候補の一部が、大きすぎたり又は小さすぎたりして、ピッチ周期として不適切な値となっている場合には、適応音源符号帳３３が対応できないことも起こり得るので、適応音源生成手段３４は、その駆動音源繰り返し周期候補に対する適応音源として、０信号を出力する等して、その後の予備選択時に選択されないようにする。

距離計算手段３５は、適応音源の繰り返し周期の１倍の値を繰り返し周期とした時の適応音源（つまり適応音源符号化手段４が出力した適応音源）と、他の１／３倍、１／２倍、２倍の値を繰り返し周期とした時の適応音源との間の距離を計算して、得られた各距離を予備選択手段３６に出力する。

予備選択手段３６は、まず１／３倍の時と１／２倍の時の距離を比較して、小さい方を選択する。そして、この選択された距離を適応音源の平均振幅に所定の定数を乗じた値を比較し、前者が小さいときには、その距離を与えた繰り返し周期（適応音源の繰り返し周期の１／３倍又は１／２倍）と適応音源の繰り返し周期の１倍の値を、予備選択された駆動音源の繰り返し周期候補として出力する。前者が後者以上の時には、次にその距離と適応音源の繰り返し周期の２倍の時の距離を比較し、小さい方の距離を与えた繰り返し周期と適応音源の繰り返し周期の１倍の値を、予備選択された駆動音源の繰り返し周期候補として出力する。なお、所定の定数としては、１未満の正の値で０．１程度の小さい値を用いると良い。

駆動音源符号化手段２７は、図１７に示した従来の駆動音源符号化手段５と同様に、入力された各予備選択された駆動音源の繰り返し周期候補（図１７と異なるのは、この予備選択された駆動音源の繰り返し周期候補が適応音源の定数倍となっている点である）、量子化された線形予測係数、符号化対象信号を用いて、代数的音源の符号化処理を行い、各繰り返し候補毎に符号化歪を最も小さくする駆動音源符号を探索し、得られた複数の音源位置と極性と、その時の符号化歪みに関する上記（１）式の評価値Ｄを出力する。

周期符号化手段２８は、駆動音源符号化手段２７が出力した駆動音源の各繰り返し周期候補に対する評価値を比較して、１つの評価値と残りの評価値の間の差が閾値以上である（つまり１つのものだけが符号化歪が小さい）場合には、その評価値を与えた駆動音源の繰り返し周期候補を選択し、評価値間の差異が閾値未満の場合には、別途分析しておいたピッチ周期（本来のピッチ周期の推定結果）に最も近い駆動音源の繰り返し周期候補を選択し、この選択結果を１ビットで符号化した選択情報と、その時の音源位置を表す音源位置符号と極性とを駆動音源符号として出力する。

次に音声復号化装置の動作について図６を用いて説明する。実施の形態１と同様に、適応音源復号化手段１１が出力した適応音源の繰り返し周期が周期予備選択手段３１に入力され、分離手段９が分離した駆動音源符号内の選択情報が周期復号化手段２９に入力され、駆動音源符号内の音源位置符号と極性が駆動音源復号化手段３０に入力される。

周期予備選択手段３１は音声符号化装置内の図５に示す周期予備選択手段３１と同じ構成を持ち、入力した適応音源の繰り返し周期を定数倍した駆動音源の繰り返し周期候補の中から２つの予備選択された駆動音源の繰り返し周期候補を選択し、周期復号化手段２９に出力する。周期復号化手段２９は、入力した駆動音源の選択情報に従って、上記２つの駆動音源の繰り返し周期候補の一方を選択して、これを駆動音源の繰り返し周期として駆動音源復号化手段３０に出力する。駆動音源復号化手段３０は、従来の駆動音源復号化手段１２と同様に、音源位置符号に対応した各位置に固定波形を配置し、繰り返し周期に基づくピッチ周期化を行って、駆動音源符号に対する時系列ベクトルを駆動音源として出力する。

図７，図８，図９は、実施の形態２による音声符号化装置及び音声復号化装置における適応音源生成手段３４で生成される適応音源を説明する図であり、図７は適応音源の繰り返し周期が本来のピッチ周期と一致している場合を示し、図８は適応音源の繰り返し周期が本来のピッチ周期の２倍である場合を示し、図９は適応音源の繰り返し周期が本来のピッチ周期の３倍である場合を示している。

図７を見ると、適応音源の繰り返し周期が本来のピッチ周期と一致している場合には、適応音源の繰り返し周期の１／３倍及び１／２倍を繰り返し周期として生成した適応音源と本来の適応音源（図中の最も上のもの）との距離が大きく、２倍と１倍が予備選択されやすいことが分かる。

図８を見ると、適応音源の繰り返し周期が本来のピッチ周期の２倍である場合には、適応音源の繰り返し周期の１／２倍を繰返し周期として生成した適応音源と本来の適応音源（図中の最も上のもの）との距離が小さく、１／２倍と１倍が予備選択されやすいことが分かる。

図９を見ると、適応音源の繰り返し周期が本来のピッチ周期の３倍である場合には、適応音源の繰り返し周期の１／３倍を繰り返し周期として生成した適応音源と本来の適応音源（図中の最も上のもの）との距離が小さく、１／３倍と１倍が予備選択されやすいことが分かる。

なお、上記実施の形態では、駆動音源の符号化と復号化に代数的音源を使用しているが、この発明は代数的音源構成に限定されるものではなく、その他の学習音源符号帳やランダム音源符号帳等を用いるＣＥＬＰ系音声符号化装置及び音声復号化装置においても適用可能である。

また、上記実施の形態では、別途ピッチ周期を求めて周期符号化手段２８での選択に用いているが、これを用いずに符号化歪を最小にする、すなわち評価値Ｄを最大にする駆動音源の繰り返し周期候補を選択する構成も可能である。またピッチ周期ではなくて、過去の数フレームの適応音源の繰り返し周期を平均した値を参照値として用いても構わない。

さらに、上記実施の形態では、スペクトルパラメータとして線形予測係数を用いて説明したが、一般に多く使用されるＬＳＰ等、他のスペクトルパラメータを用いる構成でも構わない。

さらに、定数テーブル内から１を削除し、代わりに適応音源の繰り返し周期を直接予備選択手段３６に入力するようにしても同じ結果が得られる。

さらに、特性改善効果は減少するが、定数テーブル中の値を１／２，１，２のみとする構成も可能である。

以上のように、この実施の形態２によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補を、そのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化が選択され、合成音の不安定な印象の発生を抑制でき、高品質の音声符号化装置を提供できるという効果が得られる。

さらに、周期予備選択における予備選択個数を２とし、駆動音源の繰り返し周期の選択情報を１ビットで符号化するようにしたので、最小限の情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。

さらに、複数の駆動音源の繰り返し周期候補を、そのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、評価の必要のない駆動音源の繰り返し周期候補に対する駆動音源符号化処理と選択情報の配分が不要になり、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。

さらに、周期予備選択における適応音源の繰り返し周期に乗じる定数として、少なくとも１／２，１を含むようにしたので、少ない選択肢ながら高い確率で、本来のピッチ周期を含む駆動音源の繰り返し周期候補を生成することができ、最小限の演算量と情報量の追加で高品質の音声符号化装置を提供できるという効果が得られる。

さらに、この実施の形態２によれば、適応音源の繰り返し周期に複数の定数を乗じて複数の駆動音源の繰り返し周期候補を求め、この複数の駆動音源の繰り返し周期候補の中から所定個の予備選択された駆動音源の繰り返し周期候補を選択し、音声符号中の駆動音源の繰り返し周期の選択情報に基づいて、予備選択された駆動音源の繰り返し周期候補の中から１つを駆動音源の繰り返し周期として選択し、この繰り返し周期を用いて駆動音源を復号化するようにしたので、本来のピッチ周期と適応音源の繰り返し周期が異なる場合でも、高い確率で本来のピッチ周期に近い繰り返し周期を用いた駆動音源の周期化がなされ、合成音の不安定な印象の発生を抑制でき、高品質の音声復号化装置を提供できるという効果が得られる。

さらに、周期予備選択において、複数の駆動音源の繰り返し周期候補を、そのまま適応音源の繰り返し周期とした時の適応音源を各々生成し、生成された適応音源間の距離値に基づいて、所定個の駆動音源の繰り返し周期候補を選択するようにしたので、本来のピッチ周期である確率が低い駆動音源の繰り返し周期候補を排除でき、必要のない繰り返し駆動音源の繰り返し周期候補に対する選択情報の配分が不要になり、最小限の情報量の追加で高品質の音声復号化装置を提供できるという効果が得られる。

実施の形態３．
図１０はこの発明の実施の形態３による音声符号化装置における駆動音源符号化手段５と新たに追加した聴覚重み付け制御手段３７の構成を示すブロック図である。音声符号化装置の全体構成は、図１４において、聴覚重み付け制御手段３７が駆動音源符号化手段５に付随して追加されたものとなる。聴覚重み付け制御手段３７は、比較手段３８，強度制御手段３９によって構成される。駆動音源符号化手段５内の構成は、図１７で説明した従来のものと同様であり、唯一、聴覚重み付けフィルタ係数算出手段１６が聴覚重み付け制御手段３７により制御されている点のみが変更されている。

次に動作について説明する。
まず、音声符号化装置内の図１４に示す線形予測係数符号化手段３から、駆動音源符号化手段５内の聴覚重み付けフィルタ係数算出手段１６と基礎応答生成手段１８に、量子化された線形予測係数が入力される。また、適応音源符号化手段４から、駆動音源符号化手段５内の基礎応答生成手段１８と聴覚重み付け制御手段３７内の比較手段３８に、適応音源符号を変換して得られる適応音源の繰り返し周期が入力される。さらに、適応音源符号化手段４から、駆動音源符号化手段５内の聴覚重み付けフィルタ１７に、入力音声１又は入力音声１から適応音源による合成音を差し引いた信号が、符号化対象信号として入力される。

聴覚重み付け制御手段３７内の比較手段３８は、入力された繰り返し周期を所定の閾値と比較して、比較結果を強度制御手段３９に出力する。所定の閾値としては、男声と女声のピッチ周期の分布をほぼ分離する４０程度の値とする。

強度制御手段３９は、上記比較結果に基づいて、聴覚重み付けフィルタにおける強調強度を制御する強度係数を決定して、決定した強度係数を駆動音源符号化手段５内の聴覚重み付けフィルタ係数算出手段１６に出力する。比較手段３８の比較結果において、適応音源の繰り返し周期が所定の閾値以上である場合は、男声である可能性が高いので、聴覚重み付けの強度が弱めになるように強度係数を決定する。逆の比較結果において、適応音源の繰り返し周期が所定の閾値未満である場合には、女声である可能性が高いので、聴覚重み付けの強度が強めになるように強度係数を決定する。強度係数としては、聴覚重み付けフィルタ係数の算出に用いる線形予測係数への乗算値等である。

聴覚重み付けフィルタ係数算出手段１６は、上記量子化された線形予測係数と上記強度係数を用いて聴覚重み付けフィルタ係数を算出し、算出した聴覚重み付けフィルタ係数を、聴覚重み付けフィルタ１７と聴覚重み付けフィルタ１９のフィルタ係数として設定する。

以降の聴覚重み付けフィルタ１７，基礎応答生成手段１８,聴覚重み付けフィルタ１９，プリテーブル算出手段２０，探索手段２１，音源位置テーブル２２の構成と動作は、従来と同じであるので説明を省略する。

なお、上記実施の形態では、聴覚重み付け制御手段３７が所定の閾値以上か未満かに基づいて強度係数を決定したが、２つ以上の所定の閾値を使用してより細かく制御したり、閾値との差の大きさ等に基づいて連続的に制御することも可能である。

また、上記実施の形態では、駆動音源の符号化に代数的音源を使用しているが、この発明は代数的音源構成に限定されるものではなく、その他の学習音源符号帳やランダム音源符号帳等を用いるＣＥＬＰ系音声符号化装置においても適用可能である。

以上のように、この実施の形態３によれば、適応音源の繰り返し周期の値に基づいて、聴覚重み付けの強度係数を制御し、この強度係数を用いて聴覚重み付けのためのフィルタ係数を算出し、このフィルタ係数を用いて、駆動音源の符号化を行う符号化対象信号に対する聴覚重み付けを行うようにしたので、男声と女声の両方に最適に調整した聴覚重み付けが可能となり、高品質の音声符号化装置を提供できるという効果が得られる。

実施の形態４．
図１１はこの発明の実施の形態４による音声符号化装置における駆動音源符号化手段５と新たに追加した聴覚重み付け制御手段４０の構成を示すブロック図である。音声符号化装置の全体構成は、図１４において、聴覚重み付け制御手段４０が駆動音源符号化手段５に付随して追加されたものとなる。聴覚重み付け制御手段４０は、比較手段３８，強度制御手段３９，平均値更新手段４１によって構成される。駆動音源符号化手段５内の構成は、図１７で説明した従来のものと同様であり、唯一、聴覚重み付けフィルタ係数算出手段１６が聴覚重み付け制御手段４０によって制御されている点のみが変更されている。

次に動作について説明する。
この実施の形態４は、上期実施の形態３の聴覚重み付け制御手段３７内に平均値更新手段４１を追加した構成となっているので、この新しい部分の動作を中心に説明する。適応音源符号化手段４から、駆動音源符号化手段５内の基礎応答生成手段１８と聴覚重み付け制御手段４０内の平均値更新手段４１に、適応音源符号を変換して得られる適応音源の繰り返し周期が入力される。

聴覚重み付け制御手段４０内の平均値更新手段４１は、入力された適応音源の繰り返し周期を用いて、内部に格納してある適応音源の繰り返し周期の平均値を更新し、更新した平均値を比較手段３８に対して出力する。最も簡単に平均値を更新する方法としては、そのフレームの繰り返し周期に１より小さい定数αを乗じたものと、それまでの平均値に１−αを乗じたものを加算する方法がある。平均値を求める目的は、男声であるか女声であるかを安定に判定することにあるので、適応音源ゲインが大きいフレームに更新を限定する等した上で、更新することが望ましい。

そして、比較手段３８は、上記更新された平均値を所定の閾値と比較して、比較結果を強度制御手段３９に出力する。強度制御手段３９は、上記比較結果に基づいて、聴覚重み付けフィルタにおける強調強度を制御する強度係数を決定し、決定した強度係数を駆動音源符号化手段５内の聴覚重み付けフィルタ係数算出手段１６に出力する。比較手段３８の比較結果において、平均値が所定の閾値以上である場合は、男声である可能性が高いので、聴覚重み付けの強度が弱めになるように強度係数を決定する。逆の比較結果において、平均値が所定の閾値未満である場合には、女声である可能性が高いので、聴覚重み付けの強度が強めになるように強度係数を決定する。

以降の聴覚重み付けフィルタ係数算出手段１６，聴覚重み付けフィルタ１７，基礎応答生成手段１８，聴覚重み付けフィルタ１９，プリテーブル算出手段２０，探索手段２１，音源位置テーブル２２の構成と動作は、従来と同じであるので説明を省略する。

なお、上記実施の形態では、聴覚重み付け制御手段４０が所定の閾値以上か未満かに基づいて強度係数を決定したが、２つ以上の所定の閾値を使用してより細かく制御したり、所定の閾値との差の大きさ等に基づいて連続的に制御することも可能である。

以上のように、この実施の形態４によれば、適応音源の繰り返し周期の過去の平均値に基づいて、聴覚重み付けの強度係数を制御し、この強度係数を用いて聴覚重み付けのためのフィルタ係数を算出し、このフィルタ係数を用いて、駆動音源の符号化を行う符号化対象信号に対する聴覚重み付けを行うようにしたので、男声と女声の両方に最適に調整した聴覚重み付けが可能となり、高品質の音声符号化装置を提供できるという効果が得られる。

また、特に適応音源の繰り返し周期の過去の平均値を使用することで、聴覚重み付けの強度が頻繁に変更されて不安定な印象を発生することを抑制できるという効果が得られる。

実施の形態５．
図１２はこの発明の実施の形態５による音声符号化装置における駆動音源符号化手段５及び音声復号化装置における駆動音源復号化手段１２で使用する音源位置テーブル２２を示す図である。図１６に示した従来の音源位置テーブルに対して、音源番号毎に固定振幅が追加されたものとなっている。

この固定振幅の振幅値は、同一テーブル内であれば、各音源番号毎の音源位置候補数に応じて与えられる。図１２の場合には、音源番号１から音源番号３は音源位置候補数が８であり、同一の振幅値１．０が与えられている。音源番号４は音源位置候補数が１６と多いので、他のものより大きい振幅値１．２が与えられている。このように音源位置候補数が多いほど大きい振幅値が与えられる。

この振幅を付与した音源位置テーブルを用いた音源位置探索は、やはり上記（１）式に基づいて行うことができる。但し、

ｄ”（ｍ_k ）＝ａ_k ｄ’（ｍ_k ）（１０）
φ”（ｍ_k ，ｍ_i ）＝ａ_k ａ_i φ’（ｍ_k ，ｍ_i ）（１１）
とする。ここで、ａ_k はｋ番目のパルスの振幅（図１２の振幅）である。パルス位置の全組合せに対する評価値Ｄの計算を始める前に、ｄ”とφ”の計算を行っておくことにより、後は（８）式と（９）式の単純加算という少ない演算量で評価値Ｄが算出できる。

駆動音源の復号化は、音源位置符号に基づいて、図１２の音源位置テーブル中の各音源番号毎に１つずつの音源位置を選択して、その音源位置に各音源番号毎に与えられた固定振幅を乗じた音源を配置することで行う。音源がパルスでなかったり周期化を行う場合には、配置される音源の成分が重複するので、重複する部分は全て加算すれば良い。つまり、従来の代数的音源の復号化処理において、音源番号毎に与えられた固定振幅を乗じる処理を追加したものとなっている。

なお、従来の技術で、音源番号毎に固定波形を用意するものがあったが、その場合には、基礎応答を音源番号毎に算出しなければならなかった。この実施の形態では、上記の通りプリテーブルの補正が追加されるだけである。また従来の技術では、音源番号による位置情報量（候補数）の違いに対応させて振幅値を与えることはしていない。

以上のように、この実施の形態５によれば、各音源位置の選択可能な候補数に基づいて予め固定振幅を与えておき、駆動音源符号化手段５が、該音源位置に配置される音源にこの固定振幅を乗じつつ、全音源の加算を行って駆動音源を生成した時に、入力音声との符号化歪が最も小さい駆動音源を与える音源位置を表す符号と極性を探索して出力するようにしたので、簡単な構成で、処理量の増加もほとんどなしに、音源毎の振幅に関する無駄が減少し、高品質の音声符号化装置を提供できるという効果が得られる。

また、音声符号中の各音源位置に対し、各音源位置の選択可能な候補数に基づいて予め固定振幅を与えておき、該音源位置に配置される音源にこの固定振幅を乗じつつ、全音源の加算を行って駆動音源を生成するようにしたので、簡単な構成で、音源毎の振幅に関する無駄が減少し、高品質の音声復号化装置を提供できるという効果が得られる。

実施の形態６．
図１３はこの発明の実施の形態５による音声符号化装置における駆動音源符号化手段５の構成を示すブロック図である。音声符号化装置の全体構成は図１４と同様である。図１３において、４２はプリテーブル補正手段である。この実施の形態では、このプリテーブル補正手段４２のみの追加によって、聴覚重み付けされた符号化対象信号を適応音源に対して直交化する。

次に動作について説明する。
まず、音声符号化装置内の線形予測係数符号化手段３から、駆動音源符号化手段５内の聴覚重み付けフィルタ係数算出手段１６と基礎応答生成手段１８に、量子化された線形予測係数が入力される。また、適応音源符号化手段４から、駆動音源符号化手段５内の基礎応答生成手段１８に、適応音源符号を変換して得られる適応音源の繰り返し周期が入力される。また、適応音源符号化手段４から、駆動音源符号化手段５内の聴覚重み付けフィルタ１７に、入力音声１又は入力音声１から適応音源による合成音を差し引いた信号が符号化対象信号として入力される。そして、適応音源符号化手段４から、駆動音源符号化手段５内のプリテーブル補正手段４２に、適応音源が入力される。

聴覚重み付けフィルタ係数算出手段１６は、上記量子化された線形予測係数を用いて聴覚重み付けフィルタ係数を算出し、算出した聴覚重み付けフィルタ係数を聴覚重み付けフィルタ１７と聴覚重み付けフィルタ１９のフィルタ係数として設定する。聴覚重み付けフィルタ１７は、聴覚重み付けフィルタ係数算出手段１６によって設定されたフィルタ係数により、入力された符号化対象信号に対してフィルタ処理を行う。

基礎応答生成手段１８は、単位インパルス又は固定波形に対して、入力された適応音源の繰返し周期を用いた周期化処理を行い、得られた信号を音源として、上記量子化された線形予測係数を用いて構成した合成フィルタによる合成音を生成し、これを基礎応答として出力する。聴覚重み付けフィルタ１９は、聴覚重み付けフィルタ係数算出手段１６によって設定されたフィルタ係数により、入力された基礎応答に対してフィルタ処理を行う。

プリテーブル算出手段２０は、１つの音源位置に所定の音源を配置した信号を仮駆動音源とし、上記聴覚重み付けされた符号化対象信号と聴覚重み付けされた基礎応答の相関値、すなわち、聴覚重み付けされた符号化対象信号と聴覚重み付けされた全ての音源位置候補に対応する仮駆動音源に基づく合成音の相関値を計算してｄ（ｘ）とし、聴覚重み付けされた基礎応答の相互相関値、すなわち、全ての候補の組み合わせに対応した仮駆動音源に基づく合成音間の相互相関値を計算してφ（ｘ，ｙ）とする。そして、これらのｄ（ｘ）とφ（ｘ，ｙ）をプリテーブルとして記憶する。

プリテーブル補正手段４２は、適応音源とプリテーブル算出手段２０が記憶しているプリテーブルを入力し、以下の（１２）式及び（１３）式に基づく補正処理を行い、得られた結果に対して、（１４）式と（１５）式により、音源位置毎のｄ’（ｘ）とφ’（ｘ，ｙ）を求めて、これらを新たにプリテーブルとして記憶する。

但し、
ｃ_tgt は聴覚重み付けされた符号化対象信号と聴覚重み付けされた適応音源応答（合成音）の相関値、すなわち、聴覚重み付けされた符号化対象信号と聴覚重み付けされた適応音源に基づく合成音との間の相関値であり、
ｃ_x は聴覚重み付けされた基礎応答を音源位置ｘに配置した信号と聴覚重み付けされた適応音源応答（合成音）の相関値、すなわち、全ての音源位置候補に対応する仮駆動音源に基づく合成音と適応音源に基づく合成音との間の相関値であり、
ｐ_acb は聴覚重み付けされた適応音源応答（合成音）のパワーである。

最後に、探索手段２１は、音源位置テーブル２２から音源位置候補を順次読み出して、各音源位置の組み合わせに対する評価値Ｄを、（１）式、（４）式、（５）式に基づいて、プリテーブル補正手段４２が記憶しているプリテーブル、すなわち、音源位置毎のｄ’（ｘ）とφ’（ｘ，ｙ）を使用して計算する。そして、評価値Ｄを最大にする音源位置の組み合わせを探索し、得られた複数の音源位置を表す音源位置符号（音源位置テーブルにおけるインデックス）と極性を、駆動音源符号として出力すると共に、この駆動音源符号に対応する時系列ベクトルを駆動音源として出力する。

以上のように、この実施の形態６によれば、符号化対象信号と適応音源に基づく合成音との間の相関値ｃ_tgt 、全ての音源位置候補に対応する仮駆動音源に基づく合成音と適応音源に基づく合成音との間の相関値ｃ_x を求めて、これらの値を用いてプリテーブルを補正するようにしたので、探索手段２１における処理量を増やさずに、聴覚重み付けされた符号化対象信号を適応音源に対して直交化することができ、これにより符号化特性を改善でき、高品質の音声符号化装置を提供できるという効果が得られる。

この発明の実施の形態１による音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。この発明の実施の形態１による音声復号化装置における駆動音源復号化手段の構成を示すブロック図である。この発明の実施の形態１による符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。この発明の実施の形態１による符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。この発明の実施の形態２による音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。この発明の実施の形態２による音声復号化装置における駆動音源復号化手段の構成を示すブロック図である。この発明の実施の形態２による適応音源生成手段で生成される適応音源を説明する図である。この発明の実施の形態２による適応音源生成手段で生成される適応音源を説明する図である。この発明の実施の形態２による適応音源生成手段で生成される適応音源を説明する図である。この発明の実施の形態３による音声符号化装置における駆動音源符号化手段と聴覚重み付け制御手段の構成を示すブロック図である。この発明の実施の形態４による音声符号化装置における駆動音源符号化手段と聴覚重み付け制御手段の構成を示すブロック図である。この発明の実施の形態５による音源位置テーブルを示す図である。この発明の実施の形態６による音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。従来のＣＥＬＰ系音声符号化装置の構成を示すブロック図である。従来のＣＥＬＰ系音声復号化装置の構成を示すブロック図である。従来のパルス音源の位置候補を示す図である。従来のＣＥＬＰ系音声符号化装置における駆動音源符号化手段の構成を示すブロック図である。従来の符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。従来の符号化対象信号と周期化された駆動音源の音源位置の関係を説明する図である。

符号の説明

１入力音声、２線形予測分析手段、３線形予測係数符号化手段、４適応音源符号化手段、５駆動音源符号化手段、６ゲイン符号化手段、７多重化手段、８音声符号、９分離手段、１０線形予測係数復号化手段、１１適応音源復号化手段、１２駆動音源復号化手段、１３ゲイン復号化手段、１４合成フィルタ、１５出力音声、１６聴覚重み付けフィルタ係数算出手段、１７，１９聴覚重み付けフィルタ、１８基礎応答生成手段、２０プリテーブル算出手段、２１探索手段、２２音源位置テーブル、２３周期予備選択手段、２４定数テーブル、２５比較手段、２６予備選択手段、２７駆動音源符号化手段、２８周期符号化手段、２９周期復号化手段、３０駆動音源復号化手段、３１周期予備選択手段、３２定数テーブル、３３適応音源符号帳、３４適応音源生成手段、３５距離計算手段、３６予備選択手段、３７聴覚重み付け制御手段、３８比較手段、３９強度制御手段、４０聴覚重み付け制御手段、４１平均値更新手段、４２プリテーブル補正手段。

Claims

過去の音源より生成した適応音源と、入力音声と上記適応音源により生成され、複数の音源位置と極性で表現した駆動音源とを用いて、上記入力音声をフレーム単位に符号化して音声符号を出力する音声符号化装置において、
１つの音源位置に所定の音源を配置した信号を仮駆動音源とし、上記入力音声等の符号化対象信号と全ての音源位置候補に対応する上記仮駆動音源に基づく合成音との間の相関値を計算すると共に、全ての候補の組み合わせに対応した上記仮駆動音源に基づく合成音間の相互相関値を計算してプリテーブルとして記憶するプリテーブル算出手段と、
上記符号化対象信号と上記適応音源に基づく合成音との間の相関値を計算すると共に、上記全ての音源位置候補に対応する仮駆動音源に基づく合成音と上記適応音源に基づく合成音との間の相関値を計算して、計算したこれらの相関値を用いて上記プリテーブルを補正するプリテーブル補正手段と、
上記補正されたプリテーブルを用いて複数の音源位置と極性を決定して、音源位置を表す音声位置符号と極性を出力する探索手段とを
備えたことを特徴とする音声符号化装置。
過去の音源より生成した適応音源と、入力音声と上記適応音源により生成され、複数の音源位置と極性で表現した駆動音源とを用いて、上記入力音声をフレーム単位に符号化して音声符号を出力する音声符号化方法において、
１つの音源位置に所定の音源を配置した信号を仮駆動音源とし、上記入力音声等の符号化対象信号と全ての音源位置候補に対応する上記仮駆動音源に基づく合成音との間の相関値を計算すると共に、全ての候補の組み合わせに対応した上記仮駆動音源に基づく合成音間の相互相関値を計算してプリテーブルとして記憶するステップと、
上記符号化対象信号と上記適応音源に基づく合成音との間の相関値を計算すると共に、上記全ての音源位置候補に対応する仮駆動音源に基づく合成音と上記適応音源に基づく合成音との間の相関値を計算して、計算したこれらの相関値を用いて上記プリテーブルを補正するステップと、
上記補正されたプリテーブルを用いて複数の音源位置と極性を決定して、音源位置を表す音声位置符号と極性を出力する探索ステップとを
備えたことを特徴とする音声符号化方法。