JP4645869B2

JP4645869B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP4645869B2
Application number: JP2000238898A
Authority: JP
Inventors: 哲二郎近藤; 正明服部; 勉渡辺; 裕人木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2011-03-09
Anticipated expiration: 2020-08-02
Also published as: JP2002049399A

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【０００２】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル／アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル／アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【０００３】
かかるオーバサンプリング処理では、通常、線形一次（直線）補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【０００４】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもＡ／Ｄ変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【０００５】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【０００６】
本発明は以上の点を考慮してなされたもので、ディジタルオーディオ信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【０００７】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ディジタルオーディオ信号からパワースペクトルデータを算出し、算出されたパワースペクトルデータを最大値幅で正規化して正規化データを算出し、算出された正規化データに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【０００８】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【０００９】
図１においてオーディオ信号処理装置１０は、ディジタルオーディオ信号（以下これをオーディオデータと呼ぶ）のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。
【００１０】
因みに、この実施の形態におけるオーディオデータとは、人間の声や楽器の音等を表す楽音データ、さらにはその他種々の音を表すデータである。
【００１１】
すなわち、オーディオ信号処理装置１０において、スペクトル処理部１１は入力端子Ｔ_INから供給された入力オーディオデータＤ１０を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に切り出した時間軸波形データであるクラスタップを構築した後、当該構築したクラスタップについて、後述する対数データ算出方法により、入力手段１８から供給される制御データＤ１８に応じて対数データを算出する。
【００１２】
スペクトル処理部１１は入力オーディオデータＤ１０のこのとき構築されたクラスタップについて、対数データ算出方法による算出結果であってクラス分類しようとする対数データＤ１１を算出し、これをクラス分類部１４に供給する。
【００１３】
クラス分類部１３は、スペクトル処理部１１から供給された対数データＤ１１について、当該対数データＤ１１を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、対数データＤ１１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００１４】
ＡＤＲＣ回路部は対数データＤ１１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００１５】
具体的には、６つの８ビットのデータ（対数データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの対数データに対して１ビットの量子化を実行すると、６つの対数データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００１６】
ここで、ＡＤＲＣ回路部は、切り出された領域内のダイナミックレンジをＤＲ、ビット割り当てをｍ、各対数データのデータレベルをＬ、量子化コードをＱとすると、次式、
【００１７】
【数１】

【００１８】
に従って、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。なお、（１）式において｛｝は小数点以下の切り捨て処理を意味する。かくしてスペクトル処理部１１において算出された６つの対数データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００１９】
このようにして圧縮された対数データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４に設けられたクラスコード発生回路部は、圧縮された対数データｑ_nに基づいて、次式、
【００２０】
【数２】

【００２１】
に示す演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ１４を予測係数メモリ１５に供給する。このクラスコードclass は、予測係数メモリ１５から予測係数を読み出す際の読み出しアドレスを示す。因みに（２）式において、ｎは圧縮された対数データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００２２】
このようにして、クラス分類部１４は入力オーディオデータＤ１０から算出された対数データＤ１１のクラスコードデータＤ１４を生成し、これを予測係数メモリ１５に供給する。
【００２３】
予測係数メモリ１５には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部１４から供給されるクラスコードデータＤ１４に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットＷ₁〜Ｗ_nが読み出され、予測演算部１６に供給される。
【００２４】
予測演算部１６は、予測演算部抽出部１３において入力オーディオデータＤ１０から時間軸領域で切り出された予測演算しようとするオーディオ波形データ（予測タップ）Ｄ１３（Ｘ₁〜Ｘ_n）と、予測係数Ｗ₁〜Ｗ_nに対して、次式
【００２５】
【数３】

【００２６】
に示す積和演算を行うことにより、予測結果ｙ′を得る。この予測値ｙ′が、音質が改善されたオーディオデータＤ１６として予測演算部１６から出力される。
【００２７】
なお、オーディオ信号処理装置１０の構成として図１について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図２に示すコンピュータ構成の装置を用いる。すなわち、図２において、オーディオ信号処理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ(Read Only Memory)２２、予測係数メモリ１５を構成するＲＡＭ(Random Access Memory)１５、及び各回路部がそれぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２２に格納されている種々のプログラムを実行することにより、図１について上述した各機能ブロック（スペクトル処理部１１、予測演算部抽出部１３、クラス分類部１４及び予測演算部１６）として動作するようになされている。
【００２８】
また、オーディオ信号処理装置１０にはネットワークとの間で通信を行う通信インターフェース２４、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ２８を有し、ネットワーク経由又は外部記憶媒体から図１について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置２５のハードディスクに読み込み、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【００２９】
ユーザは、キーボードやマウス等の入力手段１８を介して種々のコマンドを入力することにより、ＣＰＵ２１に対して図１について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置１０はデータ入出力部２７を介して音質を向上させようとするオーディオデータ（入力オーディオデータ）Ｄ１０を入力し、当該入力オーディオデータＤ１０に対してクラス分類適用処理を施した後、音質が向上したオーディオデータＤ１６をデータ入出力部２７を介して外部に出力し得るようになされている。
【００３０】
因みに、図３はオーディオ信号処理装置１０におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置１０はステップＳＰ１０１から当該処理手順に入ると、続くステップＳＰ１０２において入力オーディオデータＤ１０の対数データＤ１１をスペクトル処理部１１において算出する。
【００３１】
この算出された対数データＤ１１は入力オーディオデータＤ１０の特徴を表すものであり、オーディオ信号処理装置１０は、ステップＳＰ１０３に移ってクラス分類部１４により対数データＤ１１に基づいてクラスを分類する。そしてオーディオ信号処理装置１０はクラス分類の結果得られたクラスコードを用いて予測係数メモリ１５から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置１０はクラスコードに対応した予測係数を読み出すことにより、このときの対数データＤ１１の特徴に合致した予測係数を用いることができる。
【００３２】
予測係数メモリ１５から読み出された予測係数は、ステップＳＰ１０４において予測演算部１６の予測演算に用いられる。これにより、入力オーディオデータＤ１０はその対数データＤ１１の特徴に適応した予測演算により、所望とするオーディオデータＤ１６に変換される。かくして入力オーディオデータＤ１０はその音質が改善されたオーディオデータＤ１６に変換され、オーディオ信号処理装置１０はステップＳＰ１０５に移って当該処理手順を終了する。
【００３３】
次に、オーディオ信号処理装置１０のスペクトル処理部１１における入力オーディオデータＤ１０の対数データＤ１１の算出方法について説明する。
【００３４】
すなわち、図４はスペクトル処理部１１における対数データ算出方法の対数データ算出処理手順を示し、スペクトル処理部１１はステップＳＰ１から当該処理手順に入ると、続くステップＳＰ２において入力オーディオデータＤ１０を所定時間毎の領域に切り出した時間軸波形データであるクラスタップを構築し、ステップＳＰ３に移る。
【００３５】
ステップＳＰ３において、スペクトル処理部１１はクラスタップに対して、窓関数を「Ｗ（ｋ）」とすると、次式、
【００３６】
【数４】

【００３７】
に示すハミング窓に従って、乗算データを算出し、ステップＳＰ４に移る。因みに、この窓関数の乗算処理においては、続くステップＳＰ４において行われる周波数分析の精度を向上させるために、このとき構築されたそれぞれのクラスタップの最初の値と最後の値を等しくするようになされている。また、（１）式において、「Ｎ」はハミング窓のサンプル数を表しており、「ｋ」は何番目のサンプルデータであるかを表している。
【００３８】
ステップＳＰ４において、スペクトル処理部１１は乗算データに対して、高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）を行うことにより、図５に示すようなパワースペクトルデータを算出し、ステップＳＰ５に移る。
【００３９】
ステップＳＰ５において、スペクトル処理部１１はパワースペクトルデータから有意であるパワースペクトルデータのみを抽出するようになされている。
【００４０】
この抽出処理において、Ｎ個の乗算データから算出したパワースペクトルデータのうち、Ｎ／２から右側のパワースペクトルデータ群ＡＲ２（図５）は、ゼロ値からＮ／２までの左側のパワースペクトルデータ群ＡＲ１（図５）とほぼ同じ成分になる（すなわち、左右対称となる）。このことは、Ｎ個の乗算データの周波数帯域内で、両端から等距離にある２個の周波数点におけるパワースペクトルデータの成分が互いに共役であることを示している。従って、スペクトル処理部１１は、ゼロ値からＮ／２までの左側のパワースペクトルデータ群ＡＲ１（図５）のみを抽出対象とする。
【００４１】
そしてスペクトル処理部１１は、このとき抽出対象としたパワースペクトルデータ群ＡＲ１のうち、予めユーザが入力手段１８（図１及び図２）を介して選択設定した以外のｍ個のパワースペクトルデータを除いて抽出する。
【００４２】
具体的には、ユーザが入力手段１８を介して例えば人間の声を一段と高音質にするように選択設定を行った場合、当該選択操作に応じた制御データＤ１８が入力手段１８からスペクトル処理部１１に出力され（図１及び図２）、これによりスペクトル処理部１１は、このとき抽出したパワースペクトルデータ群ＡＲ１（図５）から、人間の声において有意となる５００Ｈｚから４ｋＨｚ付近のパワースペクトルデータのみを抽出する（すなわち５００Ｈｚから４ｋＨｚ付近以外のパワースペクトルデータが、除くべきｍ個のパワースペクトルデータである）。
【００４３】
また、ユーザが入力手段１８（図１及び図２）を介して例えば音楽を一段と高音質にするように選択を行った場合には、当該選択操作に応じた制御データＤ１８が入力手段１８からスペクトル処理部１１に出力され、これによりスペクトル処理部１１は、このとき抽出したパワースペクトルデータ群ＡＲ１（図５）から、音楽において有意となる２０Ｈｚから２０ｋＨｚ付近のパワースペクトルデータのみを抽出する（すなわち２０Ｈｚから２０ｋＨｚ付近以外のパワースペクトルデータが、除くべきｍ個のパワースペクトルデータである）。
【００４４】
このように入力手段１８（図１及び図２）から出力される制御データＤ１８は、有意なパワースペクトルデータとして抽出する周波数成分を決定づけるようになされており、入力手段１８（図１及び図２）を介して手動で選択操作するユーザの意図を反映している。
【００４５】
従って、制御データＤ１８に応じてパワースペクトルデータを抽出するスペクトル処理部１１は、ユーザが高音質での出力を希望する特定のオーディオ成分の周波数成分を有意なパワースペクトルデータとして抽出することとなる。
【００４６】
因みに、スペクトル処理部１１は、抽出対象としたパワースペクトルデータ群ＡＲ１のうち、もとの波形の音程を表すため、有意な特徴をもたない直流成分のパワースペクトルデータをも除いて抽出するようになされている。
【００４７】
このように、ステップＳＰ５において、スペクトル処理部１１は制御データＤ１８に応じて、パワースペクトルデータ群ＡＲ１（図５）からｍ個のパワースペクトルデータを除くと共に、直流成分のパワースペクトルデータも除いてなる必要最小限のパワースペクトルデータ、すなわち有意なパワースペクトルデータのみを抽出し、続くステップＳＰ６に移る。
【００４８】
ステップＳＰ６において、スペクトル処理部１１は抽出されたパワースペクトルデータに対して、次式、
【００４９】
【数５】

【００５０】
に従って、このとき抽出されたパワースペクトルデータ（ｐｓ[k] ）の最大値（ｐｓ＿ｍａｘ）を算出し、次式、
【００５１】
【数６】

【００５２】
に従って、このとき抽出されたパワースペクトルデータ（ｐｓ[k] ）の最大値（ｐｓ＿ｍａｘ）での正規化（除算）し、このとき得られた基準値（ｐｓｎ[k] ）に対して、次式、
【００５３】
【数７】

【００５４】
に従って、対数（デシベル値）変換を行うようになされている。
【００５５】
因みに（７）式において、ｌｏｇは常用対数である。また対数変換においては、任意の基準値によって、小さな波形をもデシベル値（音圧レベル）として表し得る。従って、例えば大きな波形付近に有意である小さな波形が存在するオーディオデータをスペクトル処理部１１が対数変換しなかった場合、当該オーディオデータは一般的に１６ビット等の大きなビット数で量子化されていることにより、有意である小さな波形部分が大きな波形にマスキングされてしまう。
【００５６】
このため、スペクトル処理部１１は、特徴部分（有意である小さな波形部分）を見い出せないことになる。従って、スペクトル処理部１１は、対数変換を行うことにより、特徴部分（有意である小さな波形部分）をも見い出すようになされている。
【００５７】
また、音感等の刺激に対する人間の感覚は、ほぼその強さの対数に比例するため、対数変換にて表した量（すなわち、デシベル値）は、感覚の度合いを表すことになる。従って、スペクトル処理部１１は、対数変換を行うことにより、結果として、音声を聞く対象である人間が心地よく聞き得るようにする。
【００５８】
このように、ステップＳＰ６において、スペクトル処理部１１は最大振幅で正規化及び振幅の対数変換を行うことにより、特徴部分（有意である小さな波形部分）をも見い出すと共に、結果として、音声を聞く対象である人間が心地よく聞き得るようにする対数データＤ１１を算出し、続くステップＳＰ７に移って対数データ算出処理手順を終了する。
【００５９】
このようにして、スペクトル処理部１１は対数データ算出方法の対数データ算出処理手順によって、入力オーディオデータＤ１０で表される信号波形の特徴を一段と見い出した対数データＤ１１を算出することができる。
【００６０】
次に、図１について上述した予測係数メモリ１５に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【００６１】
図６において、学習回路３０は、高音質の教師オーディオデータＤ３０を生徒信号生成フィルタ３７に受ける。生徒信号生成フィルタ３７は、間引き率設定信号Ｄ３９により設定された間引き率で教師オーディオデータＤ３０を所定時間ごとに所定サンプル間引くようになされている。
【００６２】
この場合、生徒信号生成フィルタ３７における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置１０で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置１０においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ３７ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置１０において入力オーディオデータＤ１０の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ３７ではデータサンプルを欠落させる間引き処理を行うようになされている。
【００６３】
かくして、生徒信号生成フィルタ３７は教師オーディオデータ３０から所定の間引き処理により生徒オーディオデータＤ３７を生成し、これをスペクトル処理部３１及び予測演算部抽出部３３にそれぞれ供給する。
【００６４】
スペクトル処理部３１は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、図４について上述した対数データ算出方法による算出結果であってクラス分類しようとする対数データＤ３１を算出し、これをクラス分類部３４に供給する。
【００６５】
クラス分類部３４は、スペクトル処理部３１から供給された対数データＤ３１について、当該対数データＤ３１を圧縮して圧縮データパターンを生成するＡＤＲＣ回路部と、対数データＤ３１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００６６】
ＡＤＲＣ回路部は対数データＤ３１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００６７】
具体的には、６つの８ビットのデータ（対数データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部３４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの対数データに対して１ビットの量子化を実行すると、６つの対数データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００６８】
ここで、ＡＤＲＣ回路部は、切り出された領域内のダイナミックレンジをＤＲ、ビット割り当てをｍ、各対数データのデータレベルをＬ、量子化コードをＱとして、上述の（１）式と同様の演算により、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。かくしてスペクトル処理部３１において算出された６つの対数データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００６９】
このようにして圧縮された対数データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４に設けられたクラスコード発生回路部は、圧縮された対数データｑ_nに基づいて、上述の（２）式と同様の演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ３４を予測係数算出部３６に供給する。因みに（２）式において、ｎは圧縮された対数データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００７０】
このようにして、クラス分類部３４はスペクトル処理部３１から供給された対数データＤ３１のクラスコードデータＤ３４を生成し、これを予測係数算出部３６に供給する。また、予測係数算出部３６には、クラスコードデータＤ３４に対応した時間軸領域のオーディオ波形データＤ３３（ｘ₁、ｘ₂、……、ｘ_n）が予測演算部抽出部３３において切り出されて供給される。
【００７１】
予測係数算出部３６は、クラス分類部３４から供給されたクラスコードclass と、各クラスコードclass 毎に切り出されたオーディオ波形データＤ３３と、入力端Ｔ_INから供給された高音質の教師オーディオデータＤ３０とを用いて、正規方程式を立てる。
【００７２】
すなわち、生徒オーディオデータＤ３７のｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_nとして、それぞれにｐビットのＡＤＲＣを行った結果の量子化データをｑ₁、……、ｑ_nとする。このとき、この領域のクラスコードclass を上述の（２）式のように定義する。そして、上述のように生徒オーディオデータＤ３７のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nとし、高音質の教師オーディオデータＤ３０のレベルをｙとしたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定する。これを次式、
【００７３】
【数８】

【００７４】
とする。学習前は、Ｗ_nが未定係数である。
【００７５】
学習回路３０では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がＭの場合、上述の（８）式に従って、次式、
【００７６】
【数９】

【００７７】
が設定される。但しｋ＝１、２、……Ｍである。
【００７８】
Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは一意的に決まらないので、誤差ベクトルｅの要素を次式、
【００７９】
【数１０】

【００８０】
によって定義し（但し、ｋ＝１、２、……、Ｍ）、次式、
【００８１】
【数１１】

【００８２】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【００８３】
ここで、（１１）式によるｗ_nの偏微分係数を求める。この場合、次式、
【００８４】
【数１２】

【００８５】
を「０」にするように、各Ｗ_n（ｎ＝１〜６）を求めれば良い。
【００８６】
そして、次式、
【００８７】
【数１３】

【００８８】
【数１４】

【００８９】
のように、Ｘ_ij、Ｙ_iを定義すると、（１２）式は行列を用いて次式、
【００９０】
【数１５】

【００９１】
として表される。
【００９２】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではｎ＝６である。
【００９３】
全ての学習用データ（教師オーディオデータＤ３０、クラスコードclass 、オーディオ波形データＤ３３）の入力が完了した後、予測係数算出部３６は各クラスコードclass に上述の（１５）式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Ｗ_nについて解き、各クラスコード毎に、予測係数を算出する。予測係数算出部３６は、算出された各予測係数（Ｄ３６）を予測係数メモリ１５に書き込む。
【００９４】
このような学習を行った結果、予測係数メモリ１５には、量子化データｑ₁、……、ｑ₆で規定されるパターン毎に、高音質のオーディオデータｙを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ１５は、図１について上述したオーディオ信号処理装置１０において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【００９５】
このように、学習回路３０は、オーディオ信号処理装置１０において補間処理を行う程度を考慮して、生徒信号生成フィルタ３７で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置１０における補間処理のための予測係数を生成することができる。
【００９６】
以上の構成において、オーディオ信号処理装置１０は、入力オーディオデータＤ１０に対して高速フーリエ変換を行うことにより、周波数軸上にパワースペクトルを算出する。周波数分析（高速フーリエ変換）は、時間軸波形データからでは知りえない微妙な違いを発見することが可能であることにより、オーディオ信号処理装置１０は、時間軸領域に特徴を見い出せない微妙な特徴を見い出し得るようになる。
【００９７】
微妙な特徴を見い出し得る状態（すなわち、パワースペクトルを算出した状態）において、オーディオ信号処理装置１０は、選択範囲設定手段（ユーザが入力手段１８から手動で行う選択設定）に応じて、有意とされるパワースペクトルデータのみを抽出（すなわち、Ｎ／２−ｍ個）する。
【００９８】
これによりオーディオ信号処理装置１０は、処理負担を一段と軽減することができ、かつ処理速度を向上させることができる。
【００９９】
さらに、オーディオ信号処理装置１０は、有意とされた必要最小限のパワースペクトルデータに対して、最大振幅で正規化及び振幅の対数変換を行うことにより、対数データを生成する。この対数変換においては、特徴部分（有意である小さな波形部分）をも見い出すと共に、結果として、音声を聞く対象である人間が心地よく聞き得るようにする対数データを生成する。
【０１００】
このように、オーディオ信号処理装置１０は、周波数分析を行うことにより、微妙な特徴を見い出し得るようになされたパワースペクトルデータから有意とされるパワースペクトルデータのみを抽出し、さらに、抽出したパワースペクトルデータに対して、最大振幅で正規化及び振幅の対数変換を行うことにより得られる対数データに基づいて、そのクラスを特定する。
【０１０１】
そしてオーディオ信号処理装置１０は、抽出した有意なパワースペクトルデータに基づいて特定したクラスに基づく予測係数を用いて入力オーディオデータＤ１０を予測演算することにより、当該入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１６に変換することができる。
【０１０２】
また、クラス毎の予測係数を生成する学習時において、位相の異なる多数の教師オーディオデータについてそれぞれに対応した予測係数を求めておくことにより、オーディオ信号処理装置１０における入力オーディオデータＤ１０のクラス分類適応処理時に位相変動が生じても、位相変動に対応した処理を行うことができる。
【０１０３】
以上の構成によれば、周波数分析を行うことにより、微妙な特徴を見い出し得るようになされたパワースペクトルデータから有意とされるパワースペクトルデータのみを抽出し、さらに、抽出したパワースペクトルデータに対して最大振幅で正規化及び振幅の対数変換を行うことにより得た対数データをクラス分類した結果に基づく予測係数を用いて入力オーディオデータＤ１０を予測演算するようにしたことにより、入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１６に変換することができる。
【０１０４】
なお上述の実施の形態においては、窓関数としてハミング窓を用いて乗算する場合について述べたが、本発明はこれに限らず、ハミング窓に代えて、例えばハニング窓やブラックマン窓等、他の種々の窓関数によって乗算する、又はスペクトル処理部において予め各種窓関数（ハミング窓、ハニング窓及びブラックマン窓等）を用いて乗算し得るようにしておき、入力されるディジタルオーディオ信号の周波数特性に応じて、スペクトル処理部が所望の窓関数を用いて乗算するようにしても良い。
【０１０５】
因みに、スペクトル処理部がハニング窓を用いて乗算する場合、スペクトル処理部は、切り出し部から供給されたクラスタップに対して、次式、
【０１０６】
【数１６】

【０１０７】
からなるハニング窓を乗算して乗算データを算出する。
【０１０８】
また、スペクトル処理部がブラックマン窓を使用して乗算する場合、スペクトル処理部は、切り出し部から供給されたクラスタップに対して、次式、
【０１０９】
【数１７】

【０１１０】
からなるブラックマン窓を乗算して乗算データを算出する。
【０１１１】
また上述の実施の形態においては、高速フーリエ変換を用いる場合について述べたが、本発明はこれに限らず、例えば離散フーリエ変換（ＤＦＴ：Discrete Fourier Transformer）や離散コサイン変換（ＤＣＴ：Discrete Cosine Transform ）や最大エントロピー法、さらには線形予測分析による方法等、他の種々の周波数分析手段を適用することができる。
【０１１２】
さらに上述の実施の形態においては、スペクトル処理部１１がゼロ値からＮ／２までの左側のパワースペクトルデータ群ＡＲ１（図５）のみを抽出対象とする場合について述べたが、本発明はこれに限らず、右側のパワースペクトルデータ群ＡＲ２（図５）のみを抽出対象とするようにしても良い。
【０１１３】
この場合、オーディオ信号処理装置１０の処理負担を一段と軽減することができ、処理速度を一段と向上させることができる。
【０１１４】
さらに上述の実施の形態においては、圧縮データパターンを生成するパターン生成手段として、ＡＤＲＣを行う場合について述べたが、本発明はこれに限らず、例えば可逆符号化（ＤＰＣＭ：Differential Pulse Code Modulation）やベクトル量子化（ＶＱ：Vector Quantize ）等の圧縮手段を用いるようにしても良い。要は、信号波形のパターンを少ないクラスで表現し得るような圧縮手段であれば良い。
【０１１５】
さらに上述の実施の形態においては、ユーザが手動で選択操作し得る選択範囲設定手段として、人間の声及び音声を選択（すなわち、抽出する周波数成分として５００Ｈｚ〜４ｋＨｚ又は２０Ｈｚ〜２０ｋＨｚ）する場合について述べたが、本発明はこれに限らず、例えば図７に示すように、高域（ＵＰＰ）、中域（ＭＩＤ）及び低域（ＬＯＷ）のいづれかの周波数成分を選択する、又は図８に示すように、まばらに周波数成分を選択する、さらには図９に示すように、不均一に帯域を周波数成分する等、他の種々の選択範囲設定手段を適用し得る。
【０１１６】
この場合、オーディオ信号処理装置には、新たに設けられた選択範囲設定手段に対応するプログラムを作成してハードディスクドライブやＲＯＭ等、所定の記憶手段に格納させる。これにより、ユーザが手動で入力手段１８を介して新たに設けられた選択範囲設定手段を選択操作した場合においても、このとき選択された選択範囲設定手段に応じた制御データが入力手段からスペクトル処理部に出力され、これによりスペクトル処理部は、新たに設けられた選択範囲設定手段に対応するプログラムによって、所望の周波数成分からパワースペクトルデータの抽出を行う。
【０１１７】
このようにすれば、他の種々の選択範囲設定手段を適用することができ、ユーザの意図に応じた有意なパワースペクトルデータを抽出することができる。
【０１１８】
さらに上述の実施の形態においては、オーディオ信号処理装置１０（図２）がプログラムによってクラスコード生成処理手順を実行する場合について述べたが、本発明はこれに限らず、ハードウェア構成によってこれらの機能を実現して種々のディジタル信号処理装置（例えば、レートコンバータ、オーバーサンプリング処理装置、ＢＳ(Broadcasting Satellite)放送等に用いられているＰＣＭ(Pulse Code Modulation) ディジタル音声エラー訂正を行うＰＣＭエラー修正装置等）内に設けたり、又は各機能を実現するプログラムを格納したプログラム格納媒体（フロッピーディスク、光ディスク等）からこれらのプログラムを種々のディジタル信号処理装置にロードして各機能部を実現するようにしても良い。
【０１１９】
【発明の効果】
上述のように本発明によれば、ディジタルオーディオ信号からパワースペクトルデータを算出し、算出されたパワースペクトルデータを最大値幅で正規化して正規化データを算出し、算出された正規化データに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディオ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができ、かくして、ディジタルオーディオ信号の波形再現性を一段と向上した高音質のディジタルオーディオ信号への変換を行うことができる。
【図面の簡単な説明】
【図１】本発明によるオーディオ信号処理装置を示す機能ブロック図である。
【図２】本発明によるオーディオ信号処理装置を示すブロック図である。
【図３】オーディオデータの変換処理手順を示すフローチャートである。
【図４】対数データ算出処理手順を示すフローチャートである。
【図５】パワースペクトルデータ算出例を示す略線図である。
【図６】学習回路の構成を示すブロック図である。
【図７】パワースペクトルデータ選択例を示す略線図である。
【図８】パワースペクトルデータ選択例を示す略線図である。
【図９】パワースペクトルデータ選択例を示す略線図である。
【符号の説明】
１０……オーディオ信号処理装置、１１……スペクトル処理部、２２……ＲＯＭ、１５……ＲＡＭ、２４……通信インターフェース、２５……ハードディスクドライブ、２６……入力手段、２７……データ入出力部、２８……リムーバブルドライブ。

Claims

ディジタルオーディオ信号からパワースペクトルデータを算出する周波数分析ステップと、
上記パワースペクトルデータを最大値幅で正規化する正規化ステップと、
正規化されたパワースペクトルデータに基づいてそのクラスを分類するクラス分類ステップと、
分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を演算することにより上記ディジタルオーディオ信号を変換する予測演算ステップと
を有するディジタル信号処理方法。
上記周波数分析ステップで算出されるパワースペクトルデータの一部を抽出するスペクトルデータ抽出ステップ
をさらに有し、
上記正規化ステップは、
上記スペクトルデータ抽出ステップで抽出されるパワースペクトルデータを最大値幅で正規化する
請求項１に記載のディジタル信号処理方法。
上記スペクトルデータ抽出ステップでは、
直流成分のパワースペクトルデータが抽出対象として除外される
請求項１に記載のディジタル信号処理方法。
上記予測演算ステップでは、
予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
請求項１に記載のディジタル信号処理方法。
上記スペクトルデータ抽出ステップでは、
Ｎ個のパワースペクトルデータのうち、ゼロからＮ／２個まで又はＮ／２個からＮまでのパワースペクトルデータが抽出対象とされる
請求項１に記載のディジタル信号処理方法。
ディジタルオーディオ信号からパワースペクトルデータを算出する周波数分析手段と、
上記パワースペクトルデータを最大値幅で正規化して正規化する正規化手段と、
正規化されたパワースペクトルデータに基づいてそのクラスを分類するクラス分類手段と、
分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を演算することにより上記ディジタルオーディオ信号を変換する予測演算手段と
を具えるディジタル信号処理装置。
上記周波数分析ステップで算出されるパワースペクトルデータの一部を抽出するスペクトルデータ抽出手段
をさらに具え、
上記正規化手段は、
上記スペクトルデータ抽出手段で抽出されるパワースペクトルデータを最大値幅で正規化する
請求項６に記載のディジタル信号処理装置。
上記スペクトルデータ抽出手段は、
直流成分のパワースペクトルデータを抽出対象として除く
請求項６に記載のディジタル信号処理装置。
上記予測演算手段は、
予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
請求項６に記載のディジタル信号処理装置。
上記スペクトルデータ抽出手段は、
Ｎ個のパワースペクトルデータのうち、ゼロからＮ／２個まで又はＮ／２個からＮまでのパワースペクトルデータを抽出対象とする
請求項６に記載のディジタル信号処理装置。
コンピュータに対して、
ディジタルオーディオ信号からパワースペクトルデータを算出すること、
上記パワースペクトルデータを最大値幅で正規化すること、
正規化されたパワースペクトルデータに基づいてそのクラスを分類すること、
分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を演算することにより上記ディジタルオーディオ信号を変換すること
を実行させるプログラムが格納されるプログラム格納媒体。
ディジタルオーディオ信号を変換する変換処理の予測に用いられる予測係数を生成する学習方法において、
ディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、
上記生徒ディジタルオーディオ信号からパワースペクトルデータを算出する周波数分析ステップと、
上記パワースペクトルデータを最大値幅で正規化する正規化ステップと、
正規化されたパワースペクトルデータに基づいてそのクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を有する学習方法。
上記周波数分析ステップで算出されるパワースペクトルデータの一部を抽出するスペクトルデータ抽出ステップ
をさらに有し、
上記正規化ステップは、
上記スペクトルデータ抽出ステップで抽出されるパワースペクトルデータを最大値幅で正規化する
請求項１２に記載の学習方法。
上記スペクトルデータ抽出ステップでは、
直流成分のパワースペクトルデータが抽出対象として除外される
請求項１２に記載の学習方法。
上記スペクトルデータ抽出ステップでは、
Ｎ個のパワースペクトルデータのうち、ゼロからＮ／２個まで又はＮ／２個からＮまでのパワースペクトルデータが抽出対象とされる
請求項１２に記載の学習方法。
ディジタルオーディオ信号を変換する変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
上記生徒ディジタルオーディオ信号からパワースペクトルデータを算出する周波数分析手段と、
上記パワースペクトルデータを最大値幅で正規化する正規化手段と、
正規化されたパワースペクトルデータに基づいてそのクラスを分類するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を具える学習装置。
上記周波数分析ステップで算出されるパワースペクトルデータの一部を抽出するスペクトルデータ抽出手段
をさらに具え、
上記正規化手段は、
上記スペクトルデータ抽出手段で抽出されるパワースペクトルデータを最大値幅で正規化する
請求項１６に記載の学習装置。
上記スペクトルデータ抽出手段は、
直流成分のパワースペクトルデータを抽出対象として除く
請求項１６に記載の学習装置。
上記スペクトルデータ抽出手段は、
Ｎ個のパワースペクトルデータのうち、ゼロからＮ／２個まで又はＮ／２個からＮまでのパワースペクトルデータを抽出対象とする
請求項１６に記載の学習装置。
コンピュータに対して、
ディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成すること、
上記生徒ディジタルオーディオ信号からパワースペクトルデータを算出すること、
上記パワースペクトルデータを最大値幅で正規化すること、
正規化されたパワースペクトルデータに基づいてそのクラスを分類すること、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号とに基づいて上記クラスに対応する予測係数を算出すること
を実行させるプログラムが格納されるプログラム格納媒体。