JP2006301464A

JP2006301464A - ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法

Info

Publication number: JP2006301464A
Application number: JP2005125815A
Authority: JP
Inventors: Yasushi Sato; 寧佐藤
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2005-04-22
Filing date: 2005-04-22
Publication date: 2006-11-02
Anticipated expiration: 2025-04-22
Also published as: JP4599558B2; EP1876587A4; US7957958B2; EP1876587A1; WO2006114964A1; US20090299736A1; EP1876587B1

Abstract

【課題】低ビットレートを実現し、従来よりも再生音声の歪みを小さく抑えることが可能な音声符号化技術を提供する。
【解決手段】入力音声信号のピッチ周波数の検出を行うピッチ検出手段５、ピッチ周波数と基準周波数との差分（残差周波数）を演算する残差演算手段６、残差周波数に比例し入力音声信号の周波数を基準周波数に近づける方向にシフトさせピッチ周期を等化する周波数シフタ４、周波数シフタ４が出力する音声信号（ピッチ等化音声信号）に対し一定のピッチ区間数で直交変換を行い変換係数データを生成する直交変換手段、及び変換係数データを符号化する波形符号化手段を備えた。
【選択図】図１

Description

本発明は、ピッチ成分を含む音声信号のピッチ周期を等化するピッチ周期等化技術、及びそれを使用した音声符号化技術に関する。

音声符号化の分野において、１０ｋｂｐｓ以下の低ビットレートでは、現在のところ、符号励振線形予測（Code Excited Linear Prediction Coding Encoding：以下「ＣＥＬＰ」という。）符号化方式が広く用いられている（非特許文献１参照）。ＣＥＬＰ符号化方式は、人間の音声発生機構を音源成分（声帯）とスペクトル包絡成分（声道）とによってモデル化し、それぞれのパラメータを符号化する方式である。

符号化側においては、音声はフレームと呼ばれる単位に分割され、各フレームに対して、符号化が行われる。スペクトル包絡成分は、線形予測に基づく音声のＡＲモデル（Auto-Regressive model：自己回帰モデル）に基づいて計算され、線形予測（Linear Prediction Coding：以下「ＬＰＣ」という。）係数という形で与えられる。また、音源成分は、予測残差という形で与えられる。この予測残差は、ピッチ情報を表す周期情報、音源情報である雑音情報、及びピッチと音源の混合比を表す利得情報に分離される。これら各情報は、符号帳に蓄えられた符号ベクトルにより構成される。符号ベクトルの決定は、各符号ベクトルをフィルタに通して音声を合成し、入力波形に最も近いものを探索する方法、いわゆるＡｂＳ（Analysis by Synthesis）法による閉ループ探索によって行われる。

また、復号側においては、符号化された各情報を復号し、ＬＰＣ係数、周期情報（ピッチ情報）、雑音源情報、及び利得情報を復元する。雑音情報にピッチ情報を加えることにより励振源信号を生成する。この励振源信号をＬＰＣ係数で構成される線形予測合成フィルタに通すことにより、合成音声を得る。

図１６はＣＥＬＰ符号化方式による音声符号化装置の基本構成例を表す（特許文献１，図９参照）。

原音声信号は、所定のサンプル数のフレーム単位に分割され、入力端子１０１に入力される。入力端子１０１に入力された原音声信号は、線形予測分析部１０２において、周波数スペクトル包絡特性を表すＬＰＣ係数が計算される。具体的には、フレームの自己相関関数を求め、Durbinの再帰解法などを用いてＬＰＣ係数が計算される。

ＬＰＣ係数符号化部１０３は、このＬＰＣ係数を量子化し符号化することにより、ＬＰＣ係数符号を生成する。この量子化は、量子化効率の優れた線スペクトル対（Line Spectrum Pair：ＬＳＰ）パラメータ、偏自己相関方式（Partial auto-Correlation：ＰＡＲＣＯＲ）パラメータ、反射係数等に変換して行われる場合が多い。ＬＰＣ係数復号部１０４は、ＬＰＣ係数符号を復号してＬＰＣ係数を再生する。この再生されたＬＰＣ係数に基づき、各フレームの予測残差成分（音源成分）の符号化のための符号帳探索が行われる。この符号帳探索は、フレームを更に分割した単位（以下「サブフレーム」という。）に対して行われることが多い。

ここで、符号帳は、適応符号帳１０５、雑音符号帳１０６、及び利得符号帳１０７から構成されている。

適応符号帳１０５は、ピッチ周期とピッチパルスの振幅をピッチ周期ベクトルとして表し記憶した符号帳であり、音声のピッチ成分を表現する。ピッチ周期ベクトルは、以前のフレームまでの残差成分（既に量子化された直前の１〜数フレーム分の駆動音源ベクトル）を、予め設定された周期だけ繰り返すことにより構成されたサブフレーム長のベクトルである。適応符号帳１０５は、かかるピッチ周期ベクトル群を記憶している。適応符号帳１０５は、これらピッチ周期ベクトル群の中から、音声の周期成分に対応して一つのピッチ周期ベクトルを選択し、時系列符号ベクトルの候補として出力する。

雑音符号帳１０６は、残差信号からピッチ成分を除いた残りの波形である形状励振源成分を励振ベクトルとして表し記憶した符号帳であり、ピッチ以外の雑音的な成分（非周期的励振）を表現する。励振ベクトルは、入力音声とは独立に、白色雑音を基調として用意されたサブフレーム長のベクトルである。雑音符号帳１０６には、このような励振ベクトルが予め指定された数だけ記憶されている。雑音符号帳１０６は、これらピッチ励振ベクトル群の中から、音声の雑音成分に対応して一つの励振ベクトルを選択し、音声の非周期成分に対応する時系列符号ベクトルの候補として出力する。

また、利得符号帳１０７は、音声のピッチ成分及びそれ以外の成分の利得を表現する。

適応符号帳１０５及び雑音符号帳１０６から出力された各時系列符号ベクトルの候補は、それぞれ、利得部１０８，１０９においてピッチ利得ｇ_ａ，形状利得ｇ_ｒが乗算される。利得ｇ_ａ，ｇ_ｒは、利得符号帳１０７において選択され出力される。そして、両者は加算部１１０において加算され、駆動音源ベクトルの候補が生成される。

合成フィルタ１１１は、ＬＰＣ係数復号部１０４が出力するＬＰＣ係数をフィルタ係数とする線形フィルタである。合成フィルタ１１１は、加算部１１０から出力される駆動音源ベクトルの候補をフィルタリングして、再生音声候補ベクトルとして出力する。

比較部１１２は、原音声信号ベクトルから上記再生音声候補ベクトルを減算し歪データを出力する。この歪データは、聴覚重み付けフィルタ１１３において、人間の聴覚の特性に対応した係数によって重み付けがされる。この聴覚重み付けフィルタ１１３は、通常、移動平均自己回帰型の１０次程度のフィルタであり、フォルマントの山の部分をやや強調するように構成されている。この重み付けは、音声スペクトルの包絡の値が小さくなる谷の部分の周波数帯域では量子化雑音が小さくなるように符号化を行うために行われる。

距離最小化部１１４は、聴覚重み付けフィルタ１１３から出力された歪データの二乗誤差が最小となるような周期信号、雑音符号、及び利得符号を選択する。周期信号、雑音符号、及び利得符号は、それぞれ、適応符号帳１０５、雑音符号帳１０６、及び利得符号帳１０７に送られる。適応符号帳１０５は、入力される周期信号に基づいて、次の時系列符号ベクトルの候補を出力する。雑音符号帳１０６は、入力される雑音符号に基づいて次の時系列符号ベクトルの候補を出力する。また、利得符号帳１０７は、入力される利得符号に基づいて、次の利得ｇ_ａ，ｇ_ｒを出力する。

距離最小化部１１４は、このようなＡｂＳループを繰り返すことにより、聴覚重み付けフィルタ１１３が出力する歪データが最小化された時点で、上記周期信号、雑音符号、及び利得符号を、そのフレームにおける駆動音源ベクトルとして決定する。

符号送出部１１５は、距離最小化部１１４が決定する周期信号、雑音符号、及び利得符号と、ＬＰＣ係数符号化部１０３が出力するＬＰＣ係数符号を、ビット系列の符号に変換し、さらに必要に応じて訂正符号を付加して出力する。

図１７はＣＥＬＰ符号化方式による音声復号装置の基本構成例を表す（特許文献１，図１１参照）。

音声復号装置は、符号帳の検索を行わない点を除いて、音声符号化装置とほぼ同一の構成となる。符号受信部１２１は、ＬＰＣ係数符号、周期符号、雑音符号、及び利得符号を受信する。ＬＰＣ係数符号は、ＬＰＣ係数復号部１２２に送られる。ＬＰＣ係数復号部１２２は、ＬＰＣ係数符号を復号しＬＰＣ係数（フィルタ係数）を生成する。

適応符号帳１２３は、ピッチ周期ベクトル群を記憶している。ピッチ周期ベクトルは、以前のフレームまでの残差成分（既に復号された直前の１〜数フレーム分の駆動音源ベクトル）を、予め設定された周期だけ繰り返すことにより構成されたサブフレーム長のベクトルである。適応符号帳１２３は、符号受信部１２１から入力される周期符号に対応して一つのピッチ周期ベクトルを選択し、時系列符号ベクトルとして出力する。

雑音符号帳１２４は、励振ベクトル群を記憶している。励振ベクトルは、入力音声とは独立に、白色雑音を基調として用意されたサブフレーム長のベクトルである。符号受信部１２１から入力される雑音符号に対応して一つの励振ベクトルを選択し、音声の非周期成分に対応する時系列符号ベクトルとして出力する。

また、利得符号帳１２５は、音声のピッチ成分及びそれ以外の成分の利得（ピッチ利得ｇ_ａ，形状利得ｇ_ｒ）群を記憶する。利得符号帳１２５は、符号受信部１２１から入力される利得符号に対応して一組のピッチ利得ｇ_ａ，形状利得ｇ_ｒを選択して出力する。

適応符号帳１２３及び雑音符号帳１２４から出力される時系列符号ベクトルは、それぞれ、利得部１２６，１２７においてピッチ利得ｇ_ａ，形状利得ｇ_ｒが乗算される。そして、両者は加算部１２８において加算され、駆動音源ベクトルが生成される。

合成フィルタ１２９は、ＬＰＣ係数復号部１２２が出力するＬＰＣ係数をフィルタ係数とする線形フィルタである。合成フィルタ１２９は、加算部１２８から出力される駆動音源ベクトルの候補をフィルタリングして、再生音声として端子１３０に出力する。

一方、ＭＰＥＧ規格やオーディオ機器では、サブバンド符号化方式が多く用いられている。サブバンド符号化方式においては、音声信号を複数の周波数帯域（サブバンド）に分割し、各サブバンド内での信号エネルギーに応じたビット割り当てを行うことにより効率のよい符号化が行われる。サブバンド符号化方式を音声符号化に適用した技術としては、特許文献２〜４に記載の技術が公知である。

特許文献２〜４に記載の音声符号化方式においては、基本的に次のような信号処理によって音声信号の符号化を行う。

まず、入力された原音声信号からピッチを抽出する。そして、原音声信号をピッチ区間に分割する。次に、分割により得られた各ピッチ区間の音声信号について、それぞれのピッチ区間の標本化数が一定数となるようにリサンプリングを行う。そして、リサンプリングされた各ピッチ区間の音声信号に対し、ＤＣＴ等の直交変換を施すことにより、（ｎ＋１）個のデータから成るサブバンドデータを生成する。最後に、時系列的に得られる（ｎ＋１）個のデータのそれぞれに対して、フィルタリングを行うことにより、強度の時間変化のうち所定の周波数を超える成分を除去して平滑化し、（ｎ＋１）個の音響情報データを生成する。また、サブバンドデータから高周波成分の割合を閾値判定することによって、原音声信号が摩擦音か否かを判定し、その判定結果を摩擦音情報として出力する。

最終的に、原音声信号は、各ピッチ区間の元のピッチ長を表す情報（ピッチ情報）、（ｎ＋１）個の音響情報データからなる音響情報、及び摩擦音情報に分割され符号化される。

図１８は、特許文献２記載の音声符号化装置（音声信号加工装置）の構成例を表す図である。原音声信号（音声データ）は、音声データ入力部１４１に入力される。ピッチ抽出部１４２は、音声データ入力部１４１に入力された音声データからピッチの基本周波数の信号（ピッチ信号）を抽出し、音声データをピッチ信号の単位周期（単位ピッチ区間）で区切る。そして、それぞれの単位ピッチ区間の音声データを、ピッチ信号との相関が最大となるように移相して調整し、ピッチ長固定部１４３に出力する。

ピッチ長固定部１４３は、この各単位ピッチ区間の音声データを、各単位ピッチ区間の標本化数がほぼ等しくなるようにリサンプリングを行う。そして、リサンプリングされた単位ピッチ区間の音声データを、ピッチ波形データとして出力する。尚、このリサンプリングによって各単位ピッチ区間の長さ（ピッチ周期）に関する情報が除去されるので、ピッチ長固定部１４３は、各単位ピッチ区間における元のピッチ長を表す情報をピッチ情報として出力する。

サブバンド分割部１４４は、このピッチ波形データにＤＣＴ等の直交変換を施してサブバンドデータを生成する。このサブバンドデータは、音声の基本周波数成分、及びこの音声のｎ個の高調波成分の強度を表す（ｎ＋１）個のスペクトル強度データの時系列データからなる。

帯域情報制限部１４５は、上記サブバンドデータを構成する（ｎ＋１）個のスペクトル強度データをそれぞれフィルタリングすることにより、（ｎ＋１）個のスペクトル強度データの時間変化のうち、所定の周波数を超える成分を除去する。これは、ピッチ長固定部１４３におけるリサンプリングによって発生するエリアシングの影響を除去するために行われる処理である。

帯域情報制限部１４５でフィルタリングされたサブバンドデータは、非線形量子化部１４６において非線形量子化され、辞書選択部１４７でコード化されて音響情報として出力される。

一方、摩擦音検出部１４９は、サブバンドデータの全体のスペクトル強度に占める高周波成分の割合に基づき、入力された音声データが有声音か無声音（摩擦音）かを判別する。そして、この判別結果を、摩擦音情報として出力する。

このように、原音声信号をサブバンドに分割する前にピッチの揺らぎを除去し、ピッチ区間ごとに直交変換を行うことによってサブバンドに分割する。これにより、各サブバンドのスペクトル強度の時間変化が小さくなるため、音響情報に関して高い圧縮率が実現できる。

特許３１９９１２８号公報特開２００３−１０８１７２号公報特開２００３−１０８２００号公報特開２００４−１２９０８号公報 Manfred R. Schroeder and Bishnu S. Atal, "Code-excited Linear Prediction (CELP): High-Quality Speech at Very Low Bit Rates", Proceedings of ICASSP 85, pp. 25.1.1-25.1.4, 1985. 貴家仁志，「デジタル信号処理シリーズ（第１４巻）マルチレート信号処理」，初版，１９９５年１０月６日，ｐｐ．３４−４９，７８−７９．

上記従来のＣＥＬＰ符号化方式においては、残差信号のうちのピッチ成分は適応符号帳に用意されたピッチ周期ベクトル群の中から選択される。また、残差信号のうちの音源成分は雑音符号帳に用意された固定的な励振ベクトル群の中から選択される。そのため、入力音声を忠実に再現しようとした場合、適応符号帳のピッチ周期ベクトル群及び雑音符号帳の励振ベクトル群の中の候補数をできるだけ多く用意する必要がある。

しかしながら、これら候補数を多くすると、適応符号帳及び雑音符号帳のメモリ容量が莫大となり、実装面積が増大する。また、候補数をあまり多くすると、候補数の対数に比例して周期符号や雑音符号の符号量も大きくなる。そのため、低ビットレートを実現するためには適応符号帳及び雑音符号帳の候補数をあまり多くすることはできない。

したがって、限られた数のピッチ周期ベクトル及び励振ベクトルの中から候補を選択し、入力音声の音源成分を近似することとなり、歪みは或る程度以上は小さくできない。特に、音声信号において音源成分はかなりの割合を占める成分である半面、雑音的であるため予測が困難である。したがって、再生音声に或る程度の大きい歪みが生じ、更なる高音質化に限界がある。

一方、特許文献２〜４に記載の音声符号化方式では、音声信号をサブバンド符号方式により符号化するため、高音質で高圧縮率の符号化が可能である。

しかしながら、この方式では、ピッチ長固定部において音声信号をリサンプリング（通常、ダウンサンプリング）する際にエリアシングの問題及びピッチの揺らぎにより音声信号が変調を受けるという問題がある。

前者は、ダウンサンプリングによりエリアシング成分が生じる現象であり、これは、通常のデシメータと同様にデシメーション・フィルタを使用することにより回避することが可能である（例えば、非特許文献２参照）。

一方、後者は周期が揺らいだ信号をピッチ区間ごとに一定の標本化数に合わせ込むことによって、揺らぎにより音声信号が変調されることによって生じる。すなわち、ピッチ長固定部１４３は、ピッチ区間ごとに周期が揺らいでいる音声データを、それぞれのピッチ区間の標本化数が一定となるようにリサンプリングを行う。この場合、通常、ピッチの揺らぎの周期はピッチ周期に比べると１／１０程度であり、かなり長い。従って、このようにピッチ周期が揺らいでいる音声信号を、それぞれのピッチ区間が同一の標本化数となるようにむりやりリサンプリングすると、ピッチの揺らぎの周波数によって周波数変調された状態となる。従って、ピッチの揺らぎ周波数によって周波数変調された音響情報から、音声信号を再び復元した際に、このピッチの揺らぎによる変調成分（以下「ピッチ揺らぎ変調成分」という。）がゴーストトーンとなって現れ、音声に歪みが生じる。

この現象を防止するために、特許文献２，３に記載の音声符号化装置においては、サブバンド分割部１４４が出力する各サブバンド成分のスペクトル強度データを、帯域情報制限部１４５によりフィルタリングすることによりスペクトル強度データの時間変化として現れるピッチ揺らぎ変調成分を除去しようとしている。

しかしながら、帯域情報制限部１４５において通過帯域をあまり狭くしすぎると、ピッチ揺らぎ変調成分以外の原音声信号本来の時間変化成分まで平滑化されてしまうため、かえって音声信号の歪みを生じさせる結果となる。一方、帯域情報制限部１４５における通過帯域を広くすると、ピッチ揺らぎ変調成分が通過するためゴーストトーンが現れる。

また、特許文献４に記載の音声符号化装置においては、サブバンド分割部１４４が出力する各サブバンド成分のスペクトル強度データを平均化することによってピッチ揺らぎ変調成分を除去しようとしている。しかし、この平均化により、ピッチ揺らぎ変調成分以外の原音声信号本来の時間変化成分まで失われるため、結局、音声信号の歪みを生じさせる結果となる。

従って、特許文献２〜４に記載の音声符号化方式では、ピッチ揺らぎ変調成分を除去することは困難であり、この変調成分による音声信号の歪みが避けられないという問題がある。

そこで、本発明の目的は、低ビットレートを実現するとともに、ピッチの揺らぎによる周波数変調のような歪みを生じることなく、従来よりも再生音声の歪みを小さく抑えることを可能とする音声符号化技術、及びそれに使用するのに適したピッチ周期等化技術を提供することにある。

ピッチ成分を含む音声信号は、同一の音素内においては、隣接するピッチ区間の波形は比較的類似している。従って、それぞれのピッチ区間において又は一定の数のピッチ区間において変換符号化を行うことができれば、隣り合うピッチ区間でのスペクトルは類似し、冗長性の大きいスペクトルの時間系列が得られると考えられる。そして、これを符号化すれば符号化効率は向上すると考えられる。この場合、符号帳は使用する必要がない。また、原音声の波形をそのまま符号化するため、歪みの少ない再生音声を得ることも可能である。

しかしながら、原音声信号の各ピッチ周波数は男女差、個人差、音素、感情及び会話内容によって様々である。また、同一の音素においても、それぞれのピッチ周期は揺らいだり変化したりする。従って、そのままでは各ピッチ区間で変換符号化を行ったとしても、得られるスペクトル列は時間的変化が大きく、高い符号化効率は期待できない。

そこで、本発明の音声符号化方法においては、ピッチ成分を含む原音声に含まれる情報を、ピッチの基本周波数の情報、ピッチ周期の揺らぎの情報、及び各ピッチ区間内における波形の情報に分離する方法を採用する。ピッチの基本周波数の情報及びピッチ周期の揺らぎ情報が除去された原音声信号は、ピッチ周期は一定となり、各ピッチ区間又は一定数のピッチ区間における変換符号化は容易である。そして、隣接するピッチ区間の波形の相関は大きいため、変換符号化によって得られるスペクトルは、等化されたピッチ周波数及びその高調波成分に集約され高い符号化効率を得ることが期待できる。

上記本発明の音声符号化方法において、原音声信号からピッチの基本周波数の情報及びピッチ周期の揺らぎの情報を抽出し除去するのに、ピッチ周期等化技術が用いられる。そこで、以下、本発明に係るピッチ周期等化装置及び方法、並びに音声符号化装置及び方法の構成及び作用について説明する。

〔本発明の構成及び作用〕
本発明に係るピッチ周期等化装置の第１の構成は、入力される音声信号に対して有声音のピッチ周期を等化するピッチ周期等化装置において、音声信号のピッチ周波数の検出を行うピッチ検出手段；前記ピッチ周波数から所定の基準周波数を差し引いた差分である残差周波数を演算する残差演算手段；及び、前記残差周波数に基づいて、前記音声信号のピッチ周波数を前記基準周波数に近づける方向にシフトさせることにより、前記音声信号のピッチ周期を等化する周波数シフタ；を備え、前記周波数シフタは、前記入力信号を所定の変調波で振幅変調し被変調波を生成する変調手段；前記被変調波の単側波帯成分の信号のみを選択的に通過させるバンドパスフィルタ；前記バンドパスフィルタでフィルタリングした被変調波に対して所定の復調波で復調を行い、出力音声信号として出力する復調手段；及び、前記変調手段が変調に用いる変調波の周波数及び前記復調手段が復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波数を差し引いた値に設定する周波数調整手段；を備えていることを備えたことを特徴とする。

この構成によれば、音声信号のピッチ周期を基準周期（基準周波数の逆数）に等化する際に、一旦、入力された音声信号を変調波で振幅変調し、被変調波をバンドパスフィルタに通して下側波帯を除去する。そして、復調波を用いて単側波帯の被変調波を復調する。この際、残差周波数が０の場合は変調波及び復調波はともに基本キャリア周波数とされるが、残差周波数が０でない場合には、変調波又は復調波の何れか一方は、周波数調整手段によって基本キャリア周波数から残差周波数を差し引いた値に設定される。これにより、入力された音声信号のピッチの基本周波数と基準周波数の差分がキャンセルされ、出力音声信号のピッチ周期は基準周期に等化される。

このように、ピッチ周期を所定の基準周期に等化することにより、音声信号に含まれるピッチの男女差、個人差、音素、感情及び会話内容によって変化するピッチ周波数のジッタ成分や変化成分が除去される。

また、音声信号のピッチ周期を基準周期に等化する際に、単側波帯変調を用いるため、エリアシングの問題は生じない。また、ピッチ周期の等化を行う際にリサンプリングを用いないため、上記従来の方式（特許文献２〜４）のようにピッチの揺らぎにより音声信号が変調を受けるという問題を生じない。従って、ピッチ周期が等化された出力音声信号は、等化による歪みが生じることがない。

また、入力音声信号に含まれる情報は、ピッチの基準周波数の情報、ピッチ毎のピッチ周波数の変動に関する情報、及びピッチに重畳する波形成分の情報に分離される。これらはそれぞれ、基準周波数、残差周波数、及び等化後の音声信号の１ピッチ区間内の波形として得られる。基準周波数は、音素毎にほぼ一定であるため、符号化を行う場合の符号化効率が高い。また、一般的に各音素内ではピッチ周波数の揺らぎの変動幅は小さいため、ビン周波数（bin-frequency）は狭レンジであり、残差周波数は符号化を行う場合の符号化効率が高い。また、等化後の音声信号の１ピッチ区間内の波形は、ピッチの揺らぎ成分が除去されているため、各ピッチ区間で同一の標本化数となる。また、同一音素内の各ピッチ区間の波形は相似性が強いため、各ピッチ区間で同一の標本化数に等化することによって各ピッチ区間における波形は類似性の高いものとなる。したがって、一乃至所定数のピッチ区間で変換符号化することによって、符号量を大幅に圧縮することが可能である。したがって、音声信号の符号化効率を向上させることが可能となる。

尚、上記本発明の構成は、音声信号の中で、ピッチを含む有声音に対してピッチ周期を等化するものである。したがって、ピッチを含まない無声音やノイズについては、別途、公知のケプストラム解析やスペクトル形状の特徴分析を用いた方法により分別するようにすればよい。

また、このピッチ周期等化装置は、音声符号化以外にも音声検索等の音声マッチング技術に適用することも可能である。すなわち、各ピッチ区間を同一周期に等化することによって各ピッチ区間における波形は類似性の高いものとなり、音声信号の対比が容易となるため、音声検索に応用した場合には、音声のマッチング精度を向上させることが可能となる。

本発明に係るピッチ周期等化装置の第２の構成は、前記第１の構成において、前記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出手段；及び前記周波数シフタから出力される出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出手段；を備え、前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備え、前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記出力ピッチ周波数と当該基準周波数との差分である残差周波数を演算することを特徴とする。

この構成によれば、基準周波数として入力ピッチ周波数の時間平均を使用することにより、各音素内のピッチ周波数に男女差、個人差、音素による差、感情、又は会話内容による差があっても、それらの差異に適応して最適な周波数を基準周波数とすることが可能となる。

また、出力ピッチ周波数と基準周波数との差分を残差周波数として、この周波数を周波数シフタのシフト量にフィードバックすることによって、周波数シフタによるピッチ周期の等化誤差を低減させ、ピッチ毎のピッチ周波数の変動に関する情報と、ピッチに重畳する波形成分の情報との分離を効率的に行うことが可能となる。

ここで、ピッチ平均手段による時間平均は、単純な幾何学平均、加重平均等を問わない。また、ピッチ平均手段としてローパスフィルタを使用することができる。この場合、ピッチ平均手段による時間平均は加重平均となる。

本発明に係るピッチ周期等化装置の第３の構成は、前記第１の構成において、前記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出手段であり、前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備え、前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記入力ピッチ周波数と当該基準周波数との差分である残差周波数を演算することを特徴とする。

このように、基準周波数として入力ピッチ周波数の時間平均を使用することにより、上述のように最適な周波数を基準周波数とすることが可能となる。

また、入力ピッチ周波数と基準周波数との差分を残差周波数として、この周波数を周波数シフタのシフト量にフィードフォアワードすることによって、周波数シフタによるピッチ周期の等化誤差を低減させ、ピッチ毎のピッチ周波数の変動に関する情報と、ピッチに重畳する波形成分の情報との分離を効率的に行うことが可能となる。

本発明に係るピッチ周期等化装置の第４の構成は、前記第１の構成において、前記ピッチ検出手段は、前記周波数シフタから出力される出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出手段であり、前記出力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備え、前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記出力ピッチ周波数と当該基準周波数との差分である残差周波数を演算することを特徴とする。

このように、基準周波数として出力ピッチ周波数の時間平均を使用することにより、上述のように最適な周波数を基準周波数とすることが可能となる。

また、入力ピッチ周波数と基準周波数との差分を残差周波数として、この周波数を周波数シフタのシフト量にフィードバックすることによって、周波数シフタによるピッチ周期の等化誤差を低減させ、ピッチ毎のピッチ周波数の変動に関する情報と、ピッチに重畳する波形成分の情報との分離を効率的に行うことが可能となる。

本発明に係るピッチ周期等化装置の第５の構成は、前記第１の構成において、前記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出手段であり、前記基準周波数を出力する基準周波数発生手段を備え、前記残差演算手段は、前記入力ピッチ周波数と前記基準周波数との差分である残差周波数を演算することを特徴とする。

このように、基準周波数として、基準周波数発生手段が出力する決められた周波数を用いることによって、入力音声信号に含まれる音声の情報のうち、ピッチの基本周波数の情報及びピッチ毎のピッチ周波数の変動に関する情報は残差周波数として分離される。また、ピッチに重畳する波形成分の情報は、等化後の音声信号の１ピッチ区間内の波形として分離される。

ピッチの基本周波数の男女差、個人差、音素による差、又は会話内容による差は一般的に狭く、また、ピッチ毎のピッチ周波数の変動も一般的に小さい。したがって、残差周波数は狭レンジとなり、符号化を行う場合の符号化効率が高い。また、等化後の音声信号の１ピッチ区間内の波形は、ピッチの揺らぎ成分が除去されているため、変換符号化により符号量を大幅に圧縮することが可能である。したがって、音声信号の符号化効率を向上させることが可能となる。

本発明に係るピッチ周期等化装置の第６の構成は、前記第１の構成において、前記ピッチ検出手段は、前記周波数シフタから出力される出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出手段であり、前記基準周波数を出力する基準周波数発生手段を備え、前記残差演算手段は、前記出力ピッチ周波数と前記基準周波数との差分である残差周波数を演算することを特徴とする。

このように、基準周波数として、基準周波数発生手段が出力する決められた周波数を用いることによって、上述の第５の構成の場合と同様に、音声信号の符号化効率を向上させることが可能となる。

本発明に係る音声符号化装置の第１の構成は、入力される音声信号を符号化する音声符号化装置であって、前記音声信号に対して有声音のピッチ周期を等化する前記第１乃至６の何れか一の構成のピッチ周期等化装置；及び、前記ピッチ周期等化装置が出力する音声信号（以下「ピッチ等化音声信号」という。）に対して、一定のピッチ区間数で直交変換を行い、各サブバンドの変換係数データを生成する直交変換手段；を備えたことを特徴とする。

この構成によれば、上述のように、ピッチ周期等化装置において、入力音声信号に含まれる、ピッチの基本周波数の情報、ピッチ毎のピッチ周波数の変動に関する情報、及びピッチに重畳する波形成分の情報は、それぞれ、基準周波数、残差周波数、及び等化後の音声信号（ピッチ等化音声信号）の１ピッチ区間内の波形にそれぞれ分離される。

ここで得られるピッチ等化音声信号の１ピッチ区間内の波形（以下「単位ピッチ区間波形」という。）は、基本ピッチ周波数に重畳した音声波形から、ピッチ毎のピッチ周期の変動（ジッタ）や変化が除去されたものである。したがって、直交変換する際に、各ピッチ区間を同一のサンプリング間隔で同一の分解能で直交変換することができるため、ピッチ区間毎の変換符号化を容易に実行できる。また、同じ音素内で隣接するピッチ区間の単位ピッチ区間波形の相関は大きくなる。

したがって、このピッチ等化音声信号に対して一定のピッチ区間数で直交変換を行い、各サブバンドの変換係数データとすることにより、高い符号化効率を得ることが可能となる。

ここで、直交変換手段により直交変換を行う「一定のピッチ区間数」としては、１ピッチ区間又は２以上の整数倍のピッチ区間とすることができる。しかし、各サブバンドの変換係数データの時間的変化を最小とし、高い符号化効率を得るには１ピッチ区間とするのが好ましい。２以上のピッチ区間とすると各サブバンドの周波数は基準周波数の高調波成分以外の周波数が含まれてくるのに対し、１ピッチ区間とすると、各サブバンドの周波数はすべて基準周波数の高調波成分となるため、各サブバンドの変換係数データの時間的変化が最小となるからである。

また、ピッチの基本周波数の情報、及びそれぞれのピッチ区間ごとのピッチ周波数の変動に関する情報の符号化については、それぞれ、ピッチ検出手段が出力するピッチ周波数、及び残差演算手段が出力する残差周波数を符号化することにより行うことができる。ピッチの基本周波数は、音素毎にほぼ一定であるため、符号化を行う場合の符号化効率が高い。また、一般的に各音素内ではピッチの揺らぎの変動幅は小さいため、残差周波数は狭いレンジであり、符号化を行う場合の符号化効率が高い。したがって、全体としての符号化効率も高くなる。

さらに、ＣＥＬＰ方式と比較すると、本発明に係る音声符号化装置は、符号帳を使用することなく低ビットレートの音声符号化を達成できる点に特徴がある。符号帳を使用しないため、音声符号化装置及び音声復号装置において符号帳を用意する必要がない。そのため、ハードウェアで構成する際の実装面積を小さくすることができる。

また、上述したように、符号帳を利用する場合、入力音声と符号帳の候補とのマッチングの度合いにより音声の歪み度合いが定まる。したがって、符号帳の候補と大きく異なる音声が入力された場合には大きな歪みが現れることとなる。この現象を回避しようとした場合、符号帳中の候補数をできるだけ多く用意する必要がある。しかし、候補数を増やすと候補数の対数に比例して全体の符号量も大きくなる。したがって、低ビットレートを実現するためには符号帳の候補数をあまり多くすることはできないため、歪みは或る程度以上は小さくできない。

しかし、本発明に係る音声符号化装置は、入力音声を変換符号化によって直接符号化するため、常に入力音声に適合した最適な符号化が行われる。したがって、符号化による音声の歪みは最小限に抑えることが可能であり、ＳＮ比の高い音声符号化を達成することが可能となる。

本発明に係る音声符号化装置の第２の構成は、前記第１の構成において、前記ピッチ周期等化装置が出力する前記ピッチ等化音声信号に対して、１ピッチ区間の標本化数が一定となるようにリサンプリングを行うリサンプリング手段を備えていることを特徴とする。

この構成により、基準周波数として入力ピッチ周波数の平均あるいは出力ピッチ周波数の平均である平均ピッチ周波数を用いた場合において、基準周波数が時間的に緩やかに変化する場合、リサンプリングによってピッチ区間を常に一定数の標本化数としておくことにより、直交変換手段を簡単に構成することができる。すなわち、直交変換手段は、実際にはＰＦＢ（Polyphase Filter Bank：多層フィルタ・バンク）が用いられるが、ピッチ区間の標本化数が変化すると使用可能なフィルタ数（サブバンドの数）が変化するため、使用されないフィルタ（サブバンド）が生じ、無駄が生じる。従って、リサンプリングによってピッチ区間を常に一定数の標本化数としておくことにより、このような無駄をなくすことができる。

ここで、リサンプリング手段によるリサンプリングは、特許文献２〜４において用いられているリサンプリングとは異なることを注意しておく。特許文献２〜４におけるリサンプリングは、揺らぎのあるピッチ周期を一定のピッチ周期とするために行われるリサンプリングである。従って、ピッチ周期の揺らぎの周期（およそ10^-3 sec程度）に応じて各ピッチ区間のリサンプリング間隔は振動するものとなる。従って、リサンプリングの結果、ピッチ周期の揺らぎの周期による周波数変調の効果が顕著である。一方、本発明におけるリサンプリングは、既にピッチ周期が等化された音声信号に対して、基準周波数の変化によりピッチ区間ごとの標本化数が異なるのを防止するために行われるリサンプリングである。基準周波数の変化は通常極めて緩やかであり（およそ100 msec程度）、リサンプリングによる周波数変調の影響が問題となることはない。

本発明に係る音声復号装置は、原音声信号に対しピッチ周波数が所定の基準周波数に等化され、直交変換によりサブバンド成分に分解されたピッチ等化音声信号、及び前記原音声信号のピッチ周波数から前記基準周波数を差し引いた差分である残差周波数信号に基づいて前記原音声信号を復号する音声復号装置であって、一定のピッチ数区間で直交変換されたピッチ等化音声信号に対し逆直交変換を行うことによりピッチ等化音声信号を復元する逆直交変換手段；及び、前記ピッチ等化音声信号のピッチ周波数を前記基準周波数に前記残差周波数を加えた周波数に近づける方向にシフトさせることにより、前記復元音声信号を生成する周波数シフタ；を備え、前記周波数シフタは、前記ピッチ等化音声信号を所定の変調波で振幅変調し被変調波を生成する変調手段；前記被変調波の単側波帯成分の信号のみを選択的に通過させるバンドパスフィルタ；前記バンドパスフィルタでフィルタリングした被変調波に対して所定の復調波で復調を行い、復元音声信号として出力する復調手段；及び、前記変調手段が変調に用いる変調波の周波数及び前記復調手段が復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数に前記残差周波数を加えた値に設定する周波数調整手段；を備えていることを特徴とする。

この構成により、上記第１又は第２の構成の音声符号化装置により符号化された音声信号を復号することができる。

本発明に係るピッチ周期等化方法の第１の構成は、入力される音声信号（以下「入力音声信号」という。）に対して有声音のピッチ周期を等化するピッチ周期等化方法であって、前記入力音声信号を周波数シフタに入力し、前記周波数シフタからの出力信号（以下「出力音声信号」という。）を得る周波数シフトステップ；前記出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出ステップ；前記出力ピッチ周波数から所定の基準周波数を差し引いた差分である残差周波数を演算する残差周波数演算ステップ；及び、前記出力ピッチ周波数と所定の基準周波数との差分である残差周波数を演算する残差周波数演算ステップ；を有し、前記周波数シフトステップにおいては、変調に用いる変調波の周波数及び復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波数演算ステップにおいて算出される前記残差周波数を差し引いた周波数に設定する周波数設定ステップ；前記入力音声信号を前記変調波で振幅変調し被変調波を生成する変調ステップ；前記被変調波の単側波帯成分のみを通過させるバンドパスフィルタにより、前記被変調波をフィルタリングする帯域縮小ステップ；前記バンドパスフィルタでフィルタリングした被変調波に対して前記復調波で復調を行い、出力音声信号として出力する復調ステップ；を有することを特徴とする。

本発明に係るピッチ周期等化方法の第２の構成は、前記第１の構成において、前記出力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ステップ；を有し、前記残差周波数演算ステップにおいては、前記出力ピッチ周波数と前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすることを特徴とする。

本発明に係るピッチ周期等化方法の第３の構成は、前記第１の構成において、前記入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出ステップ；前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ステップ；を有し、前記残差周波数演算ステップにおいては、前記出力ピッチ周波数と前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすることを特徴とする。

本発明に係るピッチ周期等化方法の第４の構成は、入力される音声信号（以下「入力音声信号」という。）に対して有声音のピッチ周期を等化するピッチ周期等化方法であって、前記入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出ステップ；前記入力音声信号を周波数シフタに入力し、前記周波数シフタからの出力信号（以下「出力音声信号」という。）を得る周波数シフトステップ；及び、前記入力ピッチ周波数から所定の基準周波数を差し引いた差分である残差周波数を演算する残差周波数演算ステップ；を有し、前記周波数シフトステップにおいては、変調に用いる変調波の周波数及び復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波数演算ステップにおいて算出される前記残差周波数を差し引いた周波数に設定する周波数設定ステップ；前記入力音声信号を前記変調波で振幅変調し被変調波を生成する変調ステップ；前記被変調波の単側波帯成分のみを通過させるバンドパスフィルタにより、前記被変調波をフィルタリングする帯域縮小ステップ；前記バンドパスフィルタでフィルタリングした被変調波に対して前記復調波で復調を行い、出力音声信号として出力する復調ステップ；を有することを特徴とする。

本発明に係るピッチ周期等化方法の第５の構成は、前記第４の構成において、前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ステップ；を有し、前記残差周波数演算ステップにおいては、前記入力ピッチ周波数と前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすることを特徴とする。

本発明に係る音声符号化方法の第１の構成は、入力される音声信号を符号化する音声符号化方法であって、前記第１乃至５の何れか一の構成のピッチ周期等化方法により、前記音声信号に対して有声音のピッチ周期を等化するピッチ周期等化ステップ；前記ピッチ周期等化ステップで等化された音声信号（以下「ピッチ等化音声信号」という。）に対して、一定のピッチ区間数で直交変換を行い、各サブバンドの変換係数データを生成する直交変換ステップ；及び、前記変換係数データを符号化する波形符号化ステップ；を備えたことを特徴とする。

本発明に係る音声符号化方法の第２の構成は、前記第１の構成において、前記ピッチ周期等化ステップにおいて等化された前記ピッチ等化音声信号に対して、１ピッチ区間の標本化数が一定となるようにリサンプリングを行うリサンプリングステップを備えていることを特徴とする。

本発明に係るプログラムは、コンピュータで実行することにより、前記コンピュータを請求項１乃至６の何れか一記載のピッチ周期等化装置として機能させることを特徴とする。

また、本発明に係るプログラムは、コンピュータで実行することにより、前記コンピュータを請求項７又は８記載の音声符号化装置として機能させることを特徴とする。

また、本発明に係るプログラムは、コンピュータで実行することにより、前記コンピュータを上記本発明の音声復号装置として機能させることを特徴とする。

以上のように、本発明に係るピッチ周期等化装置によれば、入力音声信号に含まれる情報を、ピッチの基本周波数の情報、ピッチ毎のピッチ周波数の変動に関する情報、及びピッチに重畳する波形成分の情報に分離する。これらの情報は、それぞれ、基準周波数、残差周波数、及び等化後の音声信号の１ピッチ区間内の波形として取り出される。

このように、分離された情報から、ピッチの基本周波数の情報及びピッチに重畳する波形成分の情報のみを用いれば、マッチング誤差が小さく精度のよい音声検索が可能となる。

また、各情報を分離して、それぞれの情報を個別に最適な符号化方法で符号化することにより、入力音声信号の符号化効率を向上させることが可能となる。

故に、精度のよい音声検索を可能とし、入力音声信号の符号化効率を向上させることを可能とするピッチ周期等化装置を提供することができる。

また、本発明に係る音声符号化装置によれば、入力音声信号に含まれる情報は、ピッチ周期等化装置において、ピッチの基本周波数の情報、ピッチ毎のピッチ周波数の変動に関する情報、及びピッチに重畳する波形成分の情報に分離され、それぞれ、基準周波数、残差周波数、及びピッチ等化音声信号の１ピッチ区間内の波形として得られる。そして、このピッチ等化音声信号に対して一定のピッチ区間数で直交変換を行うことで、ピッチに重畳する波形成分の情報を効率よく符号化することができる。

以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。

図１は、本発明の実施例１に係るピッチ周期等化装置１の構成を表すブロック図である。ピッチ周期等化装置１は、入力ピッチ検出手段２、ピッチ平均手段３、周波数シフタ４、出力ピッチ検出手段５、残差演算手段６、及びＰＩＤコントローラ７を備えている。

入力ピッチ検出手段２は、入力端子Inより入力される入力音声信号ｘ_in（ｔ）から、当該音声信号に含まれるピッチの基本周波数を検出する。ピッチの基本周波数を検出する方法は、現在までに種々の方法が考案されているが、本実施例ではその代表的なものを示す。この入力ピッチ検出手段２は、ピッチ検出手段１１、バンドパスフィルタ（Band Pass Filter：以下「ＢＰＦ」という。）１２、及び周波数カウンタ１３を備えている。

ピッチ検出手段１１は、入力音声信号ｘ_in（ｔ）から、ピッチの基本周波数ｆ_０を検出する。例えば、入力音声信号ｘ_in（ｔ）が図２（ａ）のような波形であったとする。ピッチ検出手段１１は、まずこの波形に対して短時間フーリエ変換を行い、図２（ｂ）のようなスペクトル波形Ｘ（ｆ）を導出する。

通常、音声波形は、ピッチ以外にも多くの周波数成分を含み、ここで得られるスペクトル波形は、ピッチの基本周波数及びピッチの高調波成分以外にも、付加的に多くの周波数成分を有する。したがって、このスペクトル波形Ｘ（ｆ）からピッチの基本周波数ｆ_０を抽出するのは一般に困難である。そこで、ピッチ検出手段１１は、このスペクトル波形Ｘ（ｆ）に対し再度フーリエ変換を行う。これにより、スペクトル波形Ｘ（ｆ）に含まれるピッチの高調波の間隔Δｆ_０の逆数Ｆ_０＝１／Δｆ_０の点に鋭いピークを持つスペクトル波形が得られる（図２（ｃ）参照）。ピッチ検出手段１１は、このピークの位置Ｆ_０を検出することによって、ピッチの基本周波数ｆ_０＝Δｆ_０＝１／Ｆ_０を検出する。

また、ピッチ検出手段１１は、スペクトル波形Ｘ（ｆ）から、入力音声信号ｘ_in（ｔ）が有声音か無声音かを判別する。有声音の場合には、ノイズフラグ信号Ｖ_noiseとして０を出力する。無声音の場合にはノイズフラグ信号Ｖ_noiseとして１を出力する。なお、有声音と無声音の判別は、スペクトル波形Ｘ（ｆ）の傾き検出によって行われる。図５は有声音「あ」のフォルマント特性を示す図であり、図６は無声音「す」の自己相関及びケプストラム波形並びに周波数特性を示す図である。有声音は、図５のように、スペクトル波形Ｘ（ｆ）は、全体的に低周波側が大きく高周波側に向かって小さくなるようなフォルマント特性を示す。それに対して、無声音は、図６のように、全体的に高周波側に向かって大きくなるような周波数特性を示す。したがって、スペクトル波形Ｘ（ｆ）の全体的な傾きを検出することによって、入力音声信号ｘ_in（ｔ）が有声音か無声音かを判別することができる。

尚、入力音声信号ｘ_in（ｔ）が無声音の場合、ピッチが存在しないので、ピッチ検出手段１１が出力するピッチの基本周波数ｆ_０は無意味な値となる。

ＢＰＦ１２は、中心周波数が可変な狭帯域のＦＩＲ（Finite Impulse Response）型のフィルタが使用される。ＢＰＦ１２は、ピッチ検出手段１１により検出されるピッチの基本周波数ｆ_０を通過帯域の中心周波数として設定する（図２（ｄ）参照）。そして、ＢＰＦ１２は、入力音声信号ｘ_in（ｔ）をフィルタリングし、ピッチの基本周波数ｆ_０のほぼ正弦波状の波形を出力する（図２（ｅ）参照）。

周波数カウンタ１３は、ＢＰＦ１２が出力するほぼ正弦波状の波形のゼロクロス点の単位時間当たりの数をカウントすることにより、ピッチの基本周波数ｆ_０を出力する。この検出されたピッチの基本周波数ｆ_０が入力ピッチ検出手段２の出力信号（以下「基本周波数信号」）Ｖ_pitchとして出力される（図２（ｆ）参照）。

ピッチ平均手段３は、ピッチ検出手段１１が出力するピッチの基本周波数信号Ｖ_pitchを平均化するものであり、通常のローパスフィルタ（Low Pass Filter：以下「ＬＰＦ」という。）が使用される。ピッチ平均手段３により、基本周波数信号Ｖ_pitchが平滑化され、音素内では時間的にほぼ一定の信号となる（図２（ｇ）参照）。この平滑化された基本周波数が基準周波数ｆ_ｓとして使用される。

周波数シフタ４は、入力音声信号ｘ_in（ｔ）のピッチ周波数を基準周波数ｆ_０に近づける方向にシフトさせることにより、音声信号のピッチ周期を等化する。

出力ピッチ検出手段５は、周波数シフタ４より出力される出力音声信号ｘ_out（ｔ）から、当該出力音声信号ｘ_out（ｔ）に含まれるピッチの基本周波数ｆ_０’を検出する。この出力ピッチ検出手段５も、基本的に入力ピッチ検出手段２と同様の構成とすることができる。本実施例の場合、出力ピッチ検出手段５は、ＢＰＦ１５及び周波数カウンタ１６を備えている。

ＢＰＦ１５は、中心周波数が可変な狭帯域のＦＩＲ型のフィルタが使用される。ＢＰＦ１５は、ピッチ検出手段１１により検出されるピッチの基本周波数ｆ_０を通過帯域の中心周波数として設定する。そして、ＢＰＦ１５は、出力音声信号ｘ_out（ｔ）をフィルタリングし、ピッチの基本周波数ｆ_０’のほぼ正弦波状の波形を出力する。周波数カウンタ１６は、ＢＰＦ１５が出力するほぼ正弦波状の波形のゼロクロス点の単位時間当たりの数をカウントすることにより、ピッチの基本周波数ｆ_０’を出力する。この検出されたピッチの基本周波数ｆ_０’が出力ピッチ検出手段５の出力信号Ｖ_pitch’として出力される。

残差演算手段６は、出力ピッチ検出手段５が出力する基本周波数ｆ_０’からピッチ平均手段３が出力する基準周波数ｆ_ｓを引いた残差周波数Δｆ_pitchを出力する。この残差周波数Δｆ_pitchは、ＰＩＤコントローラ７を介して周波数シフタ４に入力される。周波数シフタ４は、残差周波数Δｆ_pitchに比例して、入力音声信号のピッチ周波数を基準周波数ｆ_０に近づける方向にシフトさせる。

尚、ＰＩＤコントローラ７は、直列接続されたアンプ１８及び抵抗２０、並びに、アンプ１８に対して並列接続されたコンデンサ１９から構成されている。このＰＩＤコントローラ７は、周波数シフタ４、出力ピッチ検出手段５、及び残差演算手段６からなるフィードバックループの発振を防止するためのものである。

尚、図１では、ＰＩＤコントローラ７は、アナログ回路表示しているが、デジタル回路で構成してもよい。

図３は周波数シフタ４の内部構成を表す図である。周波数シフタ４は、発信器２１、変調器２２、ＢＰＦ２３、電圧制御発信器（Voltage Controlled Oscillator：以下「ＶＣＯ」という。）２４、及び復調器２５を備えている。

発信器２１は、入力音声信号ｘ_in（ｔ）の振幅変調を行うための一定周波数の変調キャリア信号Ｃ１を出力する。通常、音声信号の帯域は８ｋＨｚ程度である（図３（ａ）参照）。したがって、発信器２１が発生する変調キャリア信号Ｃ１の周波数（以下「キャリア周波数」という。）としては、通常は２０ｋＨｚ程度のものが使用される。

変調器２２は、発信器２１が出力する変調キャリア信号Ｃ１を入力音声信号ｘ_in（ｔ）で振幅変調し、被変調信号を生成する。この被変調信号は、キャリア周波数を中心として、その両側に音声信号の帯域と同じバンド幅の側波帯（上側波帯及び下側波帯）を有する信号である（図３（ｂ）参照）。

ＢＰＦ２３は、被変調信号の上側波帯成分のみを通過させるＢＰＦである。これにより、ＢＰＦ２３から出力される被変調信号は、下側波帯のみがカットされた単側波帯信号となる。

ＶＣＯ２４は、発信器２１が出力する変調キャリア信号Ｃ１と同じキャリア周波数の信号を、ＰＩＤコントローラ７を介して残差演算手段６から入力される残差周波数Δｆ_pitchの信号（以下「残差周波数信号」という。）ΔＶ_pitchにより周波数変調して得られる信号（以下「復調キャリア信号」という。）を出力する。復調キャリア信号の周波数は、キャリア周波数から残差周波数を差し引いた周波数となる。

復調器２５は、ＢＰＦ２３が出力する上側波帯のみの被変調信号を、ＶＣＯ２４が出力する復調キャリア信号により復調し、音声信号を復元する（図３（ｄ）参照）。このとき、復調キャリア信号は、残差周波数信号ΔＶ_pitchで変調されている。そのため、被変調信号を復調する際に、入力音声信号ｘ_in（ｔ）のピッチ周波数の基準周波数ｆ_ｓからのずれが消去される。すなわち、入力音声信号ｘ_in（ｔ）のピッチ周期は、基準周期１／ｆ_ｓに等化される。

図４は、周波数シフタ４の内部構成の他の例を表す図である。図４においては、図３の発信器２１とＶＣＯ２４とを入れ替えた構成とされている。この構成によっても、図３の場合と同様に、入力音声信号ｘ_in（ｔ）のピッチ周期を基準周期１／ｆ_ｓに等化することができる。

以上のように構成された実施例１のピッチ周期等化装置１について、以下その動作を説明する。

まず、入力音声信号ｘ_in（ｔ）が入力端子Inから入力されると、入力ピッチ検出手段２は、入力音声信号ｘ_in（ｔ）が有声音か無声音かを判別してノイズフラグ信号Ｖ_noiseを出力端子OUT_４へ出力するとともに、入力音声信号ｘ_in（ｔ）からピッチ周波数を検出し、基本周波数信号Ｖ_pitchをピッチ平均手段３に出力する。ピッチ平均手段３は、基本周波数信号Ｖ_pitchを平均化し（この場合、ＬＰＦを使用するので加重平均となる。）、これを基準周波数信号ＡＶ_pitchとして出力する。この基準周波数信号ＡＶ_pitchは、出力端子OUT_３から出力されるとともに、残差演算手段６に入力される。

一方、周波数シフタ４は、入力音声信号ｘ_in（ｔ）の周波数をシフトさせ、出力音声信号ｘ_out（ｔ）として出力端子Out_１へ出力する。初期状態においては、残差周波数信号ΔＶ_pitchは０（リセット状態）であり、周波数シフタ４は、入力音声信号ｘ_in（ｔ）がそのまま出力音声信号ｘ_out（ｔ）として出力端子Out_１へ出力される。

次に、出力ピッチ検出手段５は、周波数シフタ４が出力する出力音声信号のピッチ周波数ｆ_０’を検出する。検出されたピッチ周波数ｆ_０’は、ピッチ周波数信号Ｖ_pitch’として残差演算手段６に入力される。

残差演算手段６は、ピッチ周波数信号Ｖ_pitch’から基準周波数信号ＡＶ_pitchを差し引くことにより、残差周波数信号ΔＶ_pitchを生成する。この残差周波数信号ΔＶ_pitchは、出力端子Out_２へ出力されるとともに、ＰＩＤコントローラ７を介して周波数シフタ４へ入力される。

周波数シフタ４は、ＰＩＤコントローラ７を介して入力される残差周波数信号ΔＶ_pitchに比例して、周波数のシフト量を設定する。この場合、残差周波数信号ΔＶ_pitchが正値であれば、残差周波数信号ΔＶ_pitchに比例した量だけ周波数を下げるようにシフト量が設定される。残差周波数信号ΔＶ_pitchが負値であれば、残差周波数信号ΔＶ_pitchに比例した量だけ周波数を上げるようにシフト量が設定される。

このようなフィードバック制御により、入力音声信号ｘ_in（ｔ）のピッチ周期は、常に基準周期１／ｆ_ｓに維持され、出力音声信号ｘ_out（ｔ）のピッチ周期は等化される。

以上のように、本実施例１のピッチ周期等化装置１によれば、入力音声信号ｘ_in（ｔ）に含まれる情報は、
（ａ）有声音か無声音かを示す情報；
（ｂ）１ピッチ区間の音声波形を表す情報；
（ｃ）基準ピッチ周波数の情報；
（ｄ）各ピッチ区間のピッチ周波数の基準ピッチ周波数からの偏倚量を表す残差周波数情報；
に分離される。（ａ）〜（ｄ）の情報は、それぞれ、ノイズフラグ信号Ｖ_noise、ピッチ周期が基準周期１／ｆ_ｓ（入力音声信号の過去のピッチ周波数の加重平均の逆数）に等化された出力音声信号ｘ_out（ｔ）、基準周波数信号ＡＶ_pitch、及び残差周波数信号ΔＶ_pitchとして出力される。

出力音声信号ｘ_out（ｔ）は、男女差、個人差、音素、感情及び会話内容によって変化するピッチ周波数のジッタ成分や変化成分が除去された音声信号であり、抑揚のない平坦的・機械的な音声信号である。したがって、同じ有声音の出力音声信号ｘ_out（ｔ）は、男女差、個人差、音素、感情又は会話内容に無関係にほぼ同じ波形が得られるため、出力音声信号ｘ_out（ｔ）を比較することによって有声音についてのマッチングを精度よく行うことが可能となる。すなわち、ピッチ周期等化装置１を音声検索装置に応用すれば、検索精度を向上させることが可能となる。

また、有声音の出力音声信号ｘ_out（ｔ）はピッチ周期が基準周期１／ｆ_ｓに等化されているので、一定数のピッチ区間でサブバンド符号化を行うことにより、出力音声信号ｘ_out（ｔ）の周波数スペクトルＸ_out（ｆ）は、基準周波数の高調波成分のサブバンド成分に集約される。音声はピッチ間の波形相関が大きいので、各サブバンド成分のスペクトル強度の時間変化は緩やかである。したがって、各サブバンド成分を符号化し、その他の雑音成分を省略することにより、高効率の符号化が可能となる。また、基準周波数信号ＡＶ_pitch、及び残差周波数信号ΔＶ_pitchは、音声の性質上、同一音素内で狭レンジでしか変動しないため、高効率の符号化が可能である。したがって、全体として入力音声信号ｘ_in（ｔ）の有声音成分を高効率で符号化することが可能となる。

図７は本発明の実施例２に係るピッチ周期等化装置１’の構成を表す図である。実施例１のピッチ周期等化装置１が残差周波数Δｆ_pitchのフィードバック制御によりピッチ周期を等化する構成としたのに対し、実施例２のピッチ周期等化装置１’は、残差周波数Δｆ_pitchのフィードフォアワード制御によりピッチ周期を等化する構成とされている。

図７において、入力ピッチ検出手段２、ピッチ平均手段３、周波数シフタ４、残差演算手段６、ピッチ検出手段１１、ＢＰＦ１２、及び周波数カウンタ１３は、図１のものと同様であるため、同一符号を付して説明は省略する。

ピッチ周期等化装置１’では、残差演算手段６は、入力ピッチ検出手段２が出力する基本周波数信号Ｖ_pitchから基準周波数信号ＡＶ_pitchを差し引くことによって残差周波数信号ΔＶ_pitchを生成する。また、フィードフォアワード制御であるため、発振対策は不要であり、ＰＩＤコントローラ７は省略されている。また、フィードフォアワード制御であるため、出力ピッチ検出手段５も省略されている。その他の構成は実施例１と同様である。

このような構成によっても、実施例１の場合と同様に、入力音声信号ｘ_in（ｔ）をノイズフラグ信号Ｖ_noise、出力音声信号ｘ_out（ｔ）、基準周波数信号ＡＶ_pitch、及び残差周波数信号ΔＶ_pitchに分離することが可能である。

図８は本発明の実施例３に係る音声符号化装置３０の構成を表す図である。音声符号化装置３０は、ピッチ周期等化装置１，１’、リサンプラ３１、アナライザ３２、量子化器３３、ピッチ等化波形符号化器３４、差分ビット演算器３５、及びピッチ情報符号化器３６を備えている。

ピッチ周期等化装置１，１’は、実施例１，２に示したピッチ周期等化装置である。リサンプラ３１は、ピッチ周期等化装置１，１’の出力端子Out_１から出力される出力音声信号ｘ_out（ｔ）の各ピッチ区間について、同一の標本化数となるようにリサンプリングを行い、等標本数音声信号ｘ_ｅｑ（ｔ）として出力する。

アナライザ３２は、等標本数音声信号ｘ_ｅｑ（ｔ）について、一定のピッチ区間数で変形離散コサイン変換（Modified Discrete Cosine Transform：以下「ＭＤＣＴ」という。）を行い、ｎ個のサブバンド成分の周波数スペクトル信号Ｘ（ｆ）＝｛Ｘ（ｆ_１），Ｘ（ｆ_２），…，Ｘ（ｆ_ｎ）｝を生成する。量子化器３３は、周波数スペクトル信号Ｘ（ｆ）を所定の量子化曲線に従って量子化する。ピッチ等化波形符号化器３４は、量子化器３３が出力する周波数スペクトル信号Ｘ（ｆ）を符号化し、符号化波形データとして出力する。この符号化には、ハフマン符号化法や算術符号化法等のエントロピ符号化法が使用される。

差分ビット演算器３５は、ピッチ等化波形符号化器３４が出力する符号化波形データの符号量から目的ビット数を減算し差分（以下「差分ビット数」という。）を出力する。量子化器３３は、この差分ビット数によって量子化曲線を平行移動させ、符号化波形データの符号量が目的ビット数の範囲内となるように調整する。

ピッチ情報符号化器３６は、ピッチ周期等化装置１，１’が出力する残差周波数信号ΔＶ_pitch及び基準周波数信号ＡＶ_pitchを符号化し、符号化ピッチデータとして出力する。この符号化には、ハフマン符号化法や算術符号化法等のエントロピ符号化法が使用される。

以上のように構成された本実施例に係る音声符号化装置３０について、以下その動作を説明する。

まず、入力音声信号ｘ_in（ｔ）が入力端子Inから入力される。ピッチ周期等化装置１，１’は実施例１で説明したように、入力音声信号ｘ_in（ｔ）の波形情報を、
（ａ）有声音か無声音かを示す情報；
（ｂ）１ピッチ区間の音声波形を表す情報；
（ｃ）基準ピッチ周波数の情報；
（ｄ）各ピッチ区間のピッチ周波数の基準ピッチ周波数からの偏倚量を表す残差周波数情報；
に分離し、それぞれ、ノイズフラグ信号Ｖ_noise、出力音声信号ｘ_out（ｔ）、基準周波数信号ＡＶ_pitch、及び残差周波数信号ΔＶ_pitchとして出力する。ノイズフラグ信号Ｖ_noiseは出力端子Out_４から出力され、出力音声信号ｘ_out（ｔ）は出力端子Out_１から出力され、基準周波数信号ＡＶ_pitchは出力端子Out_３から出力され、残差周波数信号ΔＶ_pitchは出力端子Out_２から出力される。

次に、リサンプラ３１は、各ピッチ区間において、基準周波数信号ＡＶ_pitchを一定のリサンプリング数ｎで除算することによりリサンプリング周期を計算する。そして、出力音声信号ｘ_out（ｔ）をそのリサンプリング周期によりリサンプリングし、等標本数音声信号ｘ_ｅｑ（ｔ）として出力する。これにより、出力音声信号ｘ_out（ｔ）の１ピッチ区間の標本化数が一定の値とされる。

次に、アナライザ３２は、等標本数音声信号ｘ_ｅｑ（ｔ）を、一定のピッチ区間数のサブフレームに区分する。そして、サブフレーム毎に変形離散コサイン変換を行うことによって周波数スペクトル信号Ｘ（ｆ）を生成する。

ここで、１つのサブフレームの長さは、１ピッチ周期の整数倍とされる。本実施例では、サブフレームの長さは１ピッチ周期（標本化数ｎ）とする。従って、ｎ個の周波数スペクトル信号｛Ｘ（ｆ_１），Ｘ（ｆ_２），…，Ｘ（ｆ_ｎ）｝が出力される。周波数ｆ_１は基準周波数の第１高調波、周波数ｆ_２は基準周波数の第２高調波、周波数ｆ_ｎは基準周波数の第ｎ高調波である。

このように、１ピッチ周期の整数倍のサブフレームに分割して各サブフレームを直交変換することによりサブバンド符号化を行うことで、音声波形データの周波数スペクトル信号は基準周波数の高調波のスペクトルに集約される。そして、音声の性質上、同一の音素内における連続するピッチ区間の波形は類似する。従って、隣接するサブフレーム間で基準周波数の高調波成分のスペクトルは類似する。従って、符号化効率は高められる。

図１０に各サブバンドのスペクトル強度の時間変化の例を示す。図１０（ａ）は日本語の母音に対する各サブバンドのスペクトル強度の時間変化を示している。下から基準周波数の第１高調波、第２高調波、…、第８高調波の順に示している。図１０（ｂ）は「アラユルゲンジツヲスベテジブンノホウヘネジマゲタノダ」という音声信号に対する各サブバンドのスペクトル強度の時間変化を示している。これも、下から基準周波数の第１高調波、第２高調波、…、第８高調波の順に示している。図１０（ａ）（ｂ）は横軸が時間であり、縦軸がスペクトル強度である。これから分かるように、有声音の各ピッチ区間では各サブバンドのスペクトル強度は平坦な（ＤＣ的な）特性を示す。従って、符号化した場合に符号化効率が高いことが容易に分かる。

次に、量子化器３３は、周波数スペクトル信号Ｘ（ｆ）を量子化する。ここで、量子化器３３はノイズフラグ信号Ｖ_noiseを参照し、ノイズフラグ信号Ｖ_noiseが０（有声音）の場合と１（無声音）の場合とで量子化曲線を切り換える。

ノイズフラグ信号Ｖ_noiseが０（有声音）の場合、量子化曲線は、図８（ａ）に示したように、周波数が高くなるに従って量子化ビット数が減少するような量子化曲線とされる。これは、有声音の周波数特性は、図５に示したように低周波数域で大きく高周波域にいくに従って減少する特性を有することに対応させたものである。

一方、ノイズフラグ信号Ｖ_noiseが１（無声音）の場合、量子化曲線は、図８（ｂ）に示したように、周波数が高くなるに従って量子化ビット数が増加するような量子化曲線とされる。これは、無声音の周波数特性は、図６に示したように高周波域にいくに従って増加する特性を有することに対応させたものである。

この量子化曲線の切り換えにより、有声音か無声音かに対応して最適な量子化曲線が選択される。

尚、補足として、量子化ビット数について説明する。量子化器３３による量子化のデータフォーマットは図９（ａ）（ｂ）に示したように、小数点以下の実数部（ＦＬ）及び２の冪乗を表す指数部（ＥＸＰ）によって表現される。但し、０以外の数を表す場合において、実数部（ＦＬ）の先頭の１ビットは必ず１であるように指数部（ＥＸＰ）が調整されるものとする。

例えば、実数部（ＦＬ）が４ビット、指数部（ＥＸＰ）が２ビットの場合において、４ビットで量子化する場合、及び２ビットで量子化する場合は、次のようになる（図９（ｃ），（ｄ）参照）。

（１）４ビットで量子化する場合
（例１）Ｘ（ｆ）＝８＝［１０００］_２（但し、［］_２は２進数表記を表す。）は、
ＦＬ＝［１０００］_２，ＥＸＰ＝［１００］_２
（例２）Ｘ（ｆ）＝７＝［０１００］_２は、
ＦＬ＝［１１１０］_２，ＥＸＰ＝［０１１］_２
（例３）Ｘ（ｆ）＝３＝［１０００］_２は、
ＦＬ＝［１１００］_２，ＥＸＰ＝［０１０］_２

（２）２ビットで量子化する場合
（例１）Ｘ（ｆ）＝８＝［１０００］_２は、
ＦＬ＝［１０００］_２，ＥＸＰ＝［１００］_２
（例２）Ｘ（ｆ）＝７＝［０１００］_２は、
ＦＬ＝［１１００］_２，ＥＸＰ＝［０１１］_２
（例３）Ｘ（ｆ）＝３＝［１０００］_２は、
ＦＬ＝［１１００］_２，ＥＸＰ＝［０１０］_２

すなわち、ｎビットで量子化する場合は、実数部（ＦＬ）の先頭からｎビットを残し、残りのビットは０とするものとする（図９（ｄ）参照）。

次に、ピッチ等化波形符号化器３４は、量子化器３３が出力する量子化された周波数スペクトル信号Ｘ（ｆ）をエントロピ符号化法により符号化し、符号化波形データを出力する。また、ピッチ等化波形符号化器３４は、符号化波形データの符号量（ビット数）を差分ビット演算器３５に出力する。差分ビット演算器３５は、符号化波形データの符号量から所定の目的ビット数を減算し、差分ビット数を出力する。量子化器３３は、差分ビット数に応じて、有声音に対する量子化曲線を平行移動的に上下させる。

例えば、｛ｆ_１，ｆ_２，ｆ_３，ｆ_４，ｆ_５，ｆ_６｝に対する量子化曲線が｛６，５，４，３，２，１｝であったとし、差分ビット数として２が入力されたとすると、量子化器３３は、量子化曲線を下方に２だけ平行移動する。その結果、量子化曲線は｛４，３，２，１，０，０｝となる。また、差分ビット数として−２が入力されたとすると、量子化器３３は、量子化曲線を上方に２だけ平行移動する。その結果、量子化曲線は｛８，７，６，５，４，３｝となる。

このように有声音の量子化曲線を上下に変化させることによって、各サブフレームの符号化波形データの符号量が目的ビット数程度に調整される。

一方、これに並行して、ピッチ情報符号化器３６は、基準周波数信号ＡＶ_pitch及び残差周波数信号ΔＶ_pitchを符号化する。

以上のように、本実施例の音声符号化装置３０によれば、有声音のピッチ周期を等化し、１ピッチ周期の整数倍の長さのサブフレームに分割し、これら各サブフレームを直交変換してサブバンド符号化することにより、時間的に変化が少ないサブフレームの周波数スペクトルが時系列的に得られる。従って、高い符号化効率で符号化することができる。

図１１は、本発明の実施例４に係る音声復号装置５０の構成を表すブロック図である。音声復号装置５０は、実施例３の音声符号化装置３０により符号化された音声信号を復号する装置である。音声復号装置５０は、ピッチ等化波形復号器５１、逆量子化器５２、シンセサイザ５３、ピッチ情報復号器５４、ピッチ周波数検出手段５５、差分器５６、加算器５７、及び周波数シフタ５８を備えている。

音声復号装置５０には、符号化波形データ及び符号化ピッチデータが入力される。符号化波形データは、図９のピッチ等化波形符号化器３４から出力される符号化波形データである。符号化ピッチデータは、図９のピッチ情報符号化器３６から出力される符号化ピッチデータである。

ピッチ等化波形復号器５１は、符号化波形データを復号し、量子化後の各サブバンドの周波数スペクトル信号（以下「量子化周波数スペクトル信号」という。）を復元する。逆量子化器５２は、この量子化周波数スペクトル信号を逆量子化し、ｎ個のサブバンドの周波数スペクトル信号Ｘ（ｆ）＝｛Ｘ（ｆ_１），Ｘ（ｆ_２），…，Ｘ（ｆ_ｎ）｝を復元する。

シンセサイザ５３は、周波数スペクトル信号Ｘ（ｆ）を逆変形離散コサイン変換（Inverse Modified Discrete Cosine Transform：以下「ＩＭＤＣＴ」という。）し、１ピッチ区間の時系列データ（以下「等化音声信号」という。）ｘ_eq（ｔ）を生成する。ピッチ周波数検出手段５５は、この等化音声信号ｘ_eq（ｔ）のピッチ周波数を検出し等化ピッチ周波数信号Ｖ_eqとして出力する。

一方、ピッチ情報復号器５４は、符号化ピッチデータを復号することにより、基準周波数信号ＡＶ_pitch及び残差周波数信号ΔＶ_pitchを復元する。差分器５６は、基準周波数信号ＡＶ_pitchから等化ピッチ周波数信号Ｖ_eqを差し引いた差分を基準周波数変化信号ΔＡＶ_pitchとして出力する。加算器５７は、残差周波数信号ΔＶ_pitchと基準周波数変化信号ΔＡＶ_pitchとを加算してこれを修正残差周波数信号ΔＶ_pitch”として出力する。

周波数シフタ５８は、図３又は図４に示した周波数シフタ４と同様の構成を有する。この場合、入力端子Inには等化音声信号ｘ_eq（ｔ）が入力され、ＶＣＯ２４には修正残差周波数信号ΔＶ_pitch”が入力される。ＶＣＯ２４は発信器２１が出力する変調キャリア信号Ｃ１と同じキャリア周波数の信号を、加算器５７から入力される修正残差周波数信号ΔＶ_pitch”により周波数変調して得られる信号（以下「復調キャリア信号」という。）を出力するが、この場合、復調キャリア信号の周波数は、キャリア周波数に残差周波数を加えた周波数となる。

これにより、周波数シフタ５８において等化音声信号ｘ_eq（ｔ）の各ピッチ区間のピッチ周期に揺らぎ成分が加えられ、音声信号ｘ_res（ｔ）が復元される。

図１２は本発明の実施例５に係るピッチ周期等化装置４１の構成を表す図である。本実施例に係るピッチ周期等化装置４１の基本構成は、実施例２に係るピッチ周期等化装置１’と略同様であるが、基準周波数として一定の周波数を使用する点において異なる。

ピッチ周期等化装置４１は、入力ピッチ検出手段２、周波数シフタ４、残差演算手段６、及び基準周波数発生器４２を備えている。入力ピッチ検出手段２、周波数シフタ４、残差演算手段６は図７と同様のものであるため説明は省略する。

基準周波数発生器４２は、予め定められた一定の基準周波数信号を発生する。残差演算手段６は、入力ピッチ検出手段２が出力する基本周波数信号Ｖ_pitchからこの基準周波数信号Ｖ_ｓを差し引いて、残差周波数信号ΔＶ_pitchを生成する。この残差周波数信号ΔＶ_pitchは周波数シフタ４にフィードフォアワードされる。あとの構成及び動作は実施例２と同様である。

この構成によれば、ピッチ周期等化装置４１は、入力音声信号ｘ_in（ｔ）の波形情報を、
（ａ）有声音か無声音かを示す情報；
（ｂ）１ピッチ区間の音声波形を表す情報；
（ｃ）各ピッチ区間のピッチ周波数の基準ピッチ周波数からの偏倚量を表す残差周波数情報；
に分離し、それぞれ、ノイズフラグ信号Ｖ_noise、出力音声信号ｘ_out（ｔ）、及び残差周波数信号ΔＶ_pitchとして出力する。実施例２と異なるのは、基準ピッチ周波数の情報を各ピッチ区間のピッチ周波数の基準ピッチ周波数からの偏倚量を表す残差周波数情報の中に繰り込んだ点である。一般にピッチ周波数はあまり大きな変化はしないため、このように残差周波数情報の中に繰り込んでも残差周波数信号ΔＶ_pitchのレンジはさほど大きくはならない。従って、これによっても高い符号化効率を可能とするピッチ周期等化装置４１が得られる。

図１３は本発明の実施例６に係るピッチ周期等化装置４１’の構成を表す図である。本実施例に係るピッチ周期等化装置４１’の基本構成は、実施例１に係るピッチ周期等化装置１と略同様であるが、基準周波数として一定の周波数を使用する点において異なる。

ピッチ周期等化装置４１’は、周波数シフタ４、出力ピッチ検出手段５”、残差演算手段６、ＰＩＤコントローラ７、及び基準周波数発生器４２を備えている。周波数シフタ４、出力ピッチ検出手段５”、残差演算手段６は図８と同様のものであるため説明は省略する。また、基準周波数発生器４２は、図１２のものと同様である。

基準周波数発生器４２は、予め定められた一定の基準周波数信号を発生する。残差演算手段６は、出力ピッチ検出手段５”が出力する基本周波数信号Ｖ_pitch’からこの基準周波数信号Ｖ_ｓを差し引いて、残差周波数信号ΔＶ_pitchを生成する。この残差周波数信号ΔＶ_pitchはＰＩＤコントローラ７を介して周波数シフタ４にフィードバックされる。あとの構成及び動作は実施例１と同様である。

この構成によれば、ピッチ周期等化装置４１’は、入力音声信号ｘ_in（ｔ）の波形情報を、
（ａ）有声音か無声音かを示す情報；
（ｂ）１ピッチ区間の音声波形を表す情報；
（ｃ）各ピッチ区間のピッチ周波数の基準ピッチ周波数からの偏倚量を表す残差周波数情報；
に分離し、それぞれ、ノイズフラグ信号Ｖ_noise、出力音声信号ｘ_out（ｔ）、及び残差周波数信号ΔＶ_pitchとして出力する。実施例３と異なるのは、基準ピッチ周波数の情報を各ピッチ区間のピッチ周波数の基準ピッチ周波数からの偏倚量を表す残差周波数情報の中に繰り込んだ点である。一般にピッチ周波数はあまり大きな変化はしないため、このように残差周波数情報の中に繰り込んでも残差周波数信号ΔＶ_pitchのレンジはさほど大きくはならない。従って、これによっても高い符号化効率を可能とするピッチ周期等化装置４１’が得られる。

図１４は本発明の実施例７に係る音声符号化装置３０’の構成を表す図である。音声符号化装置３０’は、ピッチ周期等化装置４１，４１’、アナライザ３２、量子化器３３、ピッチ等化波形符号化器３４、差分ビット演算器３５、及びピッチ情報符号化器３６’を備えている。

アナライザ３２、量子化器３３、ピッチ等化波形符号化器３４、及び差分ビット演算器３５については実施例３と同様のものである。また、ピッチ周期等化装置４１，４１’は、実施例５又は実施例６に係る音声符号化装置３０’である。

ピッチ周期等化装置４１，４１’においては、ピッチ周期は常に一定の基準周期１／ｆ_ｓに等化される。従って、１ピッチ区間の標本化数は常に一定であり、実施例３の音声符号化装置３０におけるリサンプラ３１は必要ないため省略されている。また、ピッチ周期は常に一定の基準周期１／ｆ_ｓに等化されるので、ピッチ周期等化装置４１，４１’は、基準周波数信号ＡＶ_pitchを出力しない。従って、ピッチ情報符号化器３６’は残差周波数信号ΔＶ_pitchのみを符号化する。

以上のような構成により、ピッチ周期等化装置４１，４１’を用いた音声符号化装置３０’を実現することができる。この音声符号化装置３０’を実施例３の音声符号化装置３０と比較すると、以下の点で異なる。

（１）実施例３の音声符号化装置３０では、基準周波数信号ＡＶ_pitchが時間的に多少変化するため、出力音声信号ｘ_out（ｔ）のリサンプリングが必要であったのに対し、音声符号化装置３０’は基準周波数信号Ｖ_ｓが常に一定であるためリサンプリングが必要ない。そのため、装置構成を簡略化し処理時間を高速化することができる。

（２）実施例３の音声符号化装置３０では、ピッチ情報は、基準周期情報（基準周波数信号ＡＶ_pitch）と残差周波数情報（残差周波数信号ΔＶ_pitch）とに分離され、それぞれの情報について符号化が行われていたのに対し、音声符号化装置３０’では、基準周期情報は残差周波数情報（残差周波数信号ΔＶ_pitch）の中に取り込まれ、残差周波数情報のみを符号化している。このように基準周期情報（すなわち、平均ピッチ周波数の時間変化情報）と残差周波数情報とを分離しない場合、残差周波数信号ΔＶ_pitchのレンジは実施例３の場合に比べて多少大きくなる。しかしながら、平均ピッチ周波数の時間変化は小さいため、残差周波数信号ΔＶ_pitchのレンジが若干大きくなったとしても残差周波数信号ΔＶ_pitchは依然狭レンジの信号であるため、符号化効率が極端に低下することはない。従って、高い符号化効率を得ることが可能となる。

（３）音声符号化装置３０’では、各ピッチ区間のピッチ周期を一定の基準周期に強制的に等化するため、場合によっては入力音声信号ｘ_in（ｔ）のピッチ周期と基準周期との差が大きい場合がある。かかる場合、等化によって若干の歪みが生じる場合がある。従って、実施例３の音声符号化装置３０に比べ、符号化によるＳＮの低下は多少大きくなる。

図１５は、本発明の実施例８に係る音声復号装置５０’の構成を表すブロック図である。音声復号装置５０’は、実施例７の音声符号化装置３０’により符号化された音声信号を復号する装置である。音声復号装置５０’は、ピッチ等化波形復号器５１、逆量子化器５２、シンセサイザ５３、ピッチ情報復号器５４’、及び周波数シフタ５８を備えている。このうち、実施例４と同様のものについては同符号を付してある。

音声復号装置５０’には、符号化波形データ及び符号化ピッチデータが入力される。符号化波形データは、図１４のピッチ等化波形符号化器３４から出力される符号化波形データである。符号化ピッチデータは、図１４のピッチ情報符号化器３６’から出力される符号化ピッチデータである。

本実施例の音声復号装置５０’は実施例４の音声復号装置５０に対してピッチ周波数検出手段５５、差分器５６、及び加算器５７が省略されている。ピッチ情報復号器５４’は、符号化ピッチデータを復号することにより、残差周波数信号ΔＶ_pitchを復元する。周波数シフタ５８は、シンセサイザ５３が出力する等化音声信号ｘ_eq（ｔ）の各ピッチ区間のピッチ周波数を当該ピッチ周波数に残差周波数信号ΔＶ_pitchを加えたものに変換し、音声信号ｘ_res（ｔ）として復元する。その他の動作に関しては実施例４と同様である。

尚、実施例１〜８までのピッチ周期等化装置１，１’、音声符号化装置３０，３０’、及び音声復号装置５０，５０’はハードウェア的に構成する例を示したが、各機能ブロックをプログラムとして構成し、コンピュータに実行させることによってコンピュータを各装置として機能させる構成としてもよい。

本発明の実施例１に係るピッチ周期等化装置１の構成を表すブロック図である。ピッチ検出手段１１における信号処理の概略を説明する図である。周波数シフタ４の内部構成を表す図である。周波数シフタ４の内部構成の他の励を表す図である。有声音「あ」のフォルマント特性を示す図である。無声音「す」の自己相関及びケプストラム波形並びに周波数特性を示す図である。本発明の実施例２に係るピッチ周期等化装置１’の構成を表す図である。本発明の実施例３に係る音声符号化装置３０の構成を表す図である。量子化ビット数についての説明図である。各サブバンドのスペクトル強度の時間変化の例である。本発明の実施例４に係る音声復号装置５０の構成を表すブロック図である。本発明の実施例５に係るピッチ周期等化装置４１の構成を表す図である。本発明の実施例６に係るピッチ周期等化装置４１’の構成を表す図である。本発明の実施例７に係る音声符号化装置３０’の構成を表す図である。本発明の実施例８に係る音声復号装置５０’の構成を表すブロック図である。ＣＥＬＰ符号化方式による音声符号化装置の基本構成例を表す図である。ＣＥＬＰ符号化方式による音声復号装置の基本構成例を表す図である。特許文献２記載の音声符号化装置の構成例を表す図である。

符号の説明

１，１’ ピッチ周期等化装置
２入力ピッチ検出手段
３ピッチ平均手段
４周波数シフタ
５，５” 出力ピッチ検出手段
６残差演算手段
７ＰＩＤコントローラ
１１ピッチ検出手段
１２，１５バンドパスフィルタ（ＢＰＦ）
１３周波数カウンタ
１６周波数カウンタ
１８アンプ
１９コンデンサ
２０抵抗
２１発信器
２２変調器
２３ＢＰＦ
２４電圧制御発信器（ＶＣＯ）
２５復調器
３０，３０’ 音声符号化装置
３１リサンプラ
３２アナライザ
３３量子化器
３４ピッチ等化波形符号化器
３５差分ビット演算器
３６，３６’ ピッチ情報符号化器
４１，４１’ ピッチ周期等化装置
４２基準周波数発生器
５０，５０’ 音声復号装置
５１ピッチ等化波形復号器
５２逆量子化器
５３シンセサイザ
５４，５４’ ピッチ情報復号器
５５ピッチ周波数検出手段
５６差分器
５７加算器
５８周波数シフタ

Claims

入力される音声信号に対して有声音のピッチ周期を等化するピッチ周期等化装置であって、
音声信号のピッチ周波数の検出を行うピッチ検出手段；
前記ピッチ周波数から所定の基準周波数を差し引いた差分である残差周波数を演算する残差演算手段；
及び、前記残差周波数に基づいて、前記音声信号のピッチ周波数を前記基準周波数に近づける方向にシフトさせることにより、前記音声信号のピッチ周期を等化する周波数シフタ；
を備え、
前記周波数シフタは、
前記入力信号を所定の変調波で振幅変調し被変調波を生成する変調手段；
前記被変調波の単側波帯成分の信号のみを選択的に通過させるバンドパスフィルタ；
前記バンドパスフィルタでフィルタリングした被変調波に対して所定の復調波で復調を行い、出力音声信号として出力する復調手段；
及び、前記変調手段が変調に用いる変調波の周波数及び前記復調手段が復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波数を差し引いた周波数に設定する周波数調整手段；
を備えていることを特徴とするピッチ周期等化装置。
前記ピッチ検出手段は、
前記周波数シフタに入力される入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出手段；
及び前記周波数シフタから出力される出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出手段；
を備え、
前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備え、
前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記出力ピッチ周波数と当該基準周波数との差分である残差周波数を演算すること
を特徴とする請求項１記載のピッチ周期等化装置。
前記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出手段であり、
前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備え、
前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記入力ピッチ周波数と当該基準周波数との差分である残差周波数を演算すること
を特徴とする請求項１記載のピッチ周期等化装置。
前記ピッチ検出手段は、前記周波数シフタから出力される出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出手段であり、
前記出力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備え、
前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記出力ピッチ周波数と当該基準周波数との差分である残差周波数を演算すること
を特徴とする請求項１記載のピッチ周期等化装置。
前記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出手段であり、
前記基準周波数を出力する基準周波数発生手段を備え、
前記残差演算手段は、前記入力ピッチ周波数と前記基準周波数との差分である残差周波数を演算すること
を特徴とする請求項１記載のピッチ周期等化装置。
前記ピッチ検出手段は、前記周波数シフタから出力される出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出手段であり、
前記基準周波数を出力する基準周波数発生手段を備え、
前記残差演算手段は、前記出力ピッチ周波数と前記基準周波数との差分である残差周波数を演算すること
を特徴とする請求項１記載のピッチ周期等化装置。
入力される音声信号を符号化する音声符号化装置であって、
前記音声信号に対して有声音のピッチ周期を等化する請求項１乃至６の何れか一記載のピッチ周期等化装置；
及び、前記ピッチ周期等化装置が出力する音声信号（以下「ピッチ等化音声信号」という。）に対して、一定のピッチ数区間で直交変換を行い、各サブバンドの変換係数データを生成する直交変換手段；
を備えた音声符号化装置。
前記ピッチ周期等化装置が出力する前記ピッチ等化音声信号に対して、１ピッチ区間のサンプリング数が一定となるようにリサンプリングを行うリサンプリング手段を備えていることを特徴とする請求項７記載の音声符号化装置。
原音声信号に対しピッチ周波数が所定の基準周波数に等化され、直交変換によりサブバンド成分に分解されたピッチ等化音声信号、及び前記原音声信号のピッチ周波数から前記基準周波数を差し引いた差分である残差周波数信号に基づいて前記原音声信号を復号する音声復号装置であって、
一定のピッチ数区間で直交変換されたピッチ等化音声信号に対し逆直交変換を行うことによりピッチ等化音声信号を復元する逆直交変換手段；
及び、前記ピッチ等化音声信号のピッチ周波数を前記基準周波数に前記残差周波数を加えた周波数に近づける方向にシフトさせることにより、前記復元音声信号を生成する周波数シフタ；
を備え、
前記周波数シフタは、
前記ピッチ等化音声信号を所定の変調波で振幅変調し被変調波を生成する変調手段；
前記被変調波の単側波帯成分の信号のみを選択的に通過させるバンドパスフィルタ；
前記バンドパスフィルタでフィルタリングした被変調波に対して所定の復調波で復調を行い、復元音声信号として出力する復調手段；
及び、前記変調手段が変調に用いる変調波の周波数及び前記復調手段が復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数に前記残差周波数を加えた値に設定する周波数調整手段；
を備えていることを特徴とする音声復号装置。
入力される音声信号（以下「入力音声信号」という。）に対して有声音のピッチ周期を等化するピッチ周期等化方法であって、
前記入力音声信号を周波数シフタに入力し、前記周波数シフタからの出力信号（以下「出力音声信号」という。）を得る周波数シフトステップ；
前記出力音声信号のピッチ周波数（以下「出力ピッチ周波数」という。）を検出する出力ピッチ検出ステップ；
前記出力ピッチ周波数から所定の基準周波数を差し引いた差分である残差周波数を演算する残差周波数演算ステップ；
及び、前記出力ピッチ周波数と所定の基準周波数との差分である残差周波数を演算する残差周波数演算ステップ；
を有し、
前記周波数シフトステップにおいては、
変調に用いる変調波の周波数及び復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波数演算ステップにおいて算出される前記残差周波数を差し引いた周波数に設定する周波数設定ステップ；
前記入力音声信号を前記変調波で振幅変調し被変調波を生成する変調ステップ；
前記被変調波の単側波帯成分のみを通過させるバンドパスフィルタにより、前記被変調波をフィルタリングする帯域縮小ステップ；
前記バンドパスフィルタでフィルタリングした被変調波に対して前記復調波で復調を行い、出力音声信号として出力する復調ステップ；
を有することを特徴とするピッチ周期等化方法。
前記出力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ステップ；
を有し、
前記残差周波数演算ステップにおいては、前記出力ピッチ周波数と前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすること
を特徴とする請求項１０記載のピッチ周期等化方法。
前記入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出ステップ；
前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ステップ；
を有し、
前記残差周波数演算ステップにおいては、前記出力ピッチ周波数と前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすること
を特徴とする請求項１０記載のピッチ周期等化方法。
入力される音声信号（以下「入力音声信号」という。）に対して有声音のピッチ周期を等化するピッチ周期等化方法であって、
前記入力音声信号のピッチ周波数（以下「入力ピッチ周波数」という。）を検出する入力ピッチ検出ステップ；
前記入力音声信号を周波数シフタに入力し、前記周波数シフタからの出力信号（以下「出力音声信号」という。）を得る周波数シフトステップ；
及び、前記入力ピッチ周波数から所定の基準周波数を差し引いた差分である残差周波数を演算する残差周波数演算ステップ；
を有し、
前記周波数シフトステップにおいては、
変調に用いる変調波の周波数及び復調に用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波数演算ステップにおいて算出される前記残差周波数を差し引いた周波数に設定する周波数設定ステップ；
前記入力音声信号を前記変調波で振幅変調し被変調波を生成する変調ステップ；
前記被変調波の単側波帯成分のみを通過させるバンドパスフィルタにより、前記被変調波をフィルタリングする帯域縮小ステップ；
前記バンドパスフィルタでフィルタリングした被変調波に対して前記復調波で復調を行い、出力音声信号として出力する復調ステップ；
を有することを特徴とするピッチ周期等化方法。
前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ステップ；
を有し、
前記残差周波数演算ステップにおいては、前記入力ピッチ周波数と前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすること
を特徴とする請求項１３記載のピッチ周期等化方法。
入力される音声信号を符号化する音声符号化方法であって、
請求項１０乃至１４の何れか一記載のピッチ周期等化方法により、前記音声信号に対して有声音のピッチ周期を等化するピッチ周期等化ステップ；
前記ピッチ周期等化ステップで等化された音声信号（以下「ピッチ等化音声信号」という。）に対して、一定のピッチ数区間で直交変換を行い、各サブバンドの変換係数データを生成する直交変換ステップ；
及び、前記変換係数データを符号化する波形符号化ステップ；
を備えた音声符号化方法。
前記ピッチ周期等化ステップにおいて等化された前記ピッチ等化音声信号に対して、１ピッチ区間のサンプリング数が一定となるようにリサンプリングを行うリサンプリングステップ
を備えていることを特徴とする請求項１４記載の音声符号化方法。
コンピュータで実行することにより、前記コンピュータを請求項１乃至６の何れか一記載のピッチ周期等化装置として機能させるプログラム。
コンピュータで実行することにより、前記コンピュータを請求項７又は８記載の音声符号化装置として機能させるプログラム。
コンピュータで実行することにより、前記コンピュータを請求項９記載の音声復号装置として機能させるプログラム。