JP4596196B2

JP4596196B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP4596196B2
Application number: JP2000238894A
Authority: JP
Inventors: 哲二郎近藤; 勉渡辺; 裕人木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2010-12-08
Anticipated expiration: 2020-08-02
Also published as: DE60134750D1; EP1306830A4; WO2002013180A1; EP1306830A1; JP2002049400A; EP1306830B1; US20050075743A1; NO20021365D0; NO20021365L; US7584008B2; NO324512B1

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【０００２】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル／アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル／アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【０００３】
かかるオーバサンプリング処理では、通常、線形一次（直線）補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【０００４】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもＡ／Ｄ変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【０００５】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【０００６】
本発明は以上の点を考慮してなされたもので、ディジタルオーディオ信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【０００７】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、入力ディジタルオーディオ信号の包絡線に基づいて入力ディジタルオーディオ信号のクラスを分類し、当該分類されたクラスオーディオに対応した予測係数を用いて入力ディジタルオーディオ信号を変換するようにしたことにより、一段と入力ディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【０００８】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【０００９】
（１）第１の実施の形態
図１においてオーディオ信号処理装置１０は、ディジタルオーディオ信号（以下これをオーディオデータと呼ぶ）のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【００１０】
すなわち、オーディオ信号処理装置１０において、包絡線算出部１１は入力端子Ｔ_INから供給された図２（Ａ）に示す入力オーディオデータＤ１０を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、後述する包絡線算出方法によりその包絡線を算出する。
【００１１】
包絡線算出部１１は入力オーディオデータＤ１０のこのとき分割された時間領域の包絡線算出結果を入力オーディオデータＤ１０の包絡線波形データＤ１１（図２（Ｂ））としてクラス分類部１４に供給する。
【００１２】
また、クラス分類部抽出部１２は入力端子Ｔ_INから供給された図２（Ａ）に示す入力オーディオデータＤ１０を、包絡線算出部１１の場合と同様の時間領域（この実施の形態の場合例えば６サンプル）に分割することによりクラス分類しようとするオーディオ波形データＤ１２を抽出し、これをクラス分類部１４に供給する。
【００１３】
クラス分類部１４は、クラス分類抽出部１２において切り出されたオーディオ波形データＤ１２に対応する包絡線波形データＤ１１について、当該包絡線波形データＤ１１を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データＤ１１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００１４】
ＡＤＲＣ回路部は包絡線波形データＤ１１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００１５】
具体的には、包絡線波形上の６つの８ビットのデータ（包絡線波形データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの包絡線波形データに対して１ビットの量子化を実行すると、６つの包絡線波形データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００１６】
ここで、ＡＤＲＣ回路部は、切り出された領域内の包絡線のダイナミックレンジをＤＲ、ビット割り当をｍ、各包絡線波形データのデータレベルをＬ、量子化コードをＱとすると、次式、
【００１７】
【数１】

【００１８】
に従って、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。なお、（１）式において｛｝は小数点以下の切り捨て処理を意味する。かくして包絡線算出部１１において算出された包絡線上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００１９】
このようにして圧縮された包絡線波形データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４に設けられたクラスコード発生回路部は、圧縮された包絡線波形データｑ_nに基づいて、次式、
【００２０】
【数２】

【００２１】
に示す演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ１４を予測係数メモリ１５に供給する。このクラスコードclass は、予測係数メモリ１５から予測係数を読み出す際の読み出しアドレスを示す。因みに（２）式において、ｎは圧縮された包絡線波形データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００２２】
このようにして、クラス分類部１４はクラス分類部抽出部１２において入力オーディオデータＤ１０から切り出されたオーディオ波形データＤ１２に対応する包絡線波形データＤ１１のクラスコードデータＤ１４を生成し、これを予測係数メモリ１５に供給する。
【００２３】
予測係数メモリ１５には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部１４から供給されるクラスコードデータＤ１４に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットｗ₁〜ｗ_nが読み出され、予測演算部１６に供給される。
【００２４】
予測演算部１６は、予測演算部抽出部１３において入力オーディオデータＤ１０から時間軸領域で切り出された予測演算しようとするオーディオ波形データ（予測タップ）Ｄ１３（ｘ₁〜ｘ_n）と、予測係数ｗ₁〜ｗ_nに対して、次式
【００２５】
【数３】

【００２６】
に示す積和演算を行うことにより、予測結果ｙ′を得る。この予測値ｙ′が、音質が改善されたオーディオデータＤ１６（図２（Ｃ））として予測演算部１６から出力される。
【００２７】
なお、オーディオ信号処理装置１０の構成として図１について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図３に示すコンピュータ構成の装置を用いる。すなわち、図３において、オーディオ信号処理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ(Read Only Memory)２２、予測係数メモリ１５を構成するＲＡＭ(Random Access Memory)１５、及び各回路部がそれぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２２に格納されている種々のプログラムを実行することにより、図１について上述した各機能ブロック（包絡線算出部１１、クラス分類部抽出部１２、予測演算部抽出部１３、クラス分類部１４及び予測演算部１６）として動作するようになされている。
【００２８】
また、オーディオ信号処理装置１０にはネットワークとの間で通信を行う通信インターフェース２４、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ２８を有し、ネットワーク経由又は外部記憶媒体から図１について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置２５のハードディスクに読み込み、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【００２９】
ユーザは、キーボードやマウス等の入力手段２６を介して種々のコマンドを入力することにより、ＣＰＵ２１に対して図１について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置１０はデータ入出力部２７を介して音質を向上させようとするオーディオデータ（入力オーディオデータ）Ｄ１０を入力し、当該入力オーディオデータＤ１０に対してクラス分類適用処理を施した後、音質が向上したオーディオデータＤ１６をデータ入出力部２７を介して外部に出力し得るようになされている。
【００３０】
因みに、図４はオーディオ信号処理装置１０におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置１０はステップＳＰ１０１から当該処理手順に入ると、続くステップＳＰ１０２において入力オーディオデータＤ１０の包絡線を包絡線算出部１１において算出する。
【００３１】
この算出された包絡線は入力オーディオデータＤ１０の特徴を表すものであり、オーディオ信号処理装置１０は、ステップＳＰ１０３に移ってクラス分類部１４により包絡線に基づいてクラスを分類する。そしてオーディオ信号処理装置１０はクラス分類の結果得られたクラスコードを用いて予測係数メモリ１５から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置１０はクラスコードに対応した予測係数を読み出すことにより、このときの包絡線の特徴に合致した予測係数を用いることができる。
【００３２】
予測係数メモリ１５から読み出された予測係数は、ステップＳＰ１０４において予測演算部１６の予測演算に用いられる。これにより、入力オーディオデータＤ１０はその包絡線の特徴に適応した予測演算により、所望とするオーディオデータＤ１６に変換される。かくして入力オーディオデータＤ１０はその音質が改善されたオーディオデータＤ１６に変換され、オーディオ信号処理装置１０はステップＳＰ１０５に移って当該処理手順を終了する。
【００３３】
次に、オーディオ信号処理装置１０の包絡線算出部１１における入力オーディオデータＤ１０の包絡線の算出方法について説明する。
【００３４】
すなわち、図５に示すように、包絡線算出部１１（図１）は包絡線算出処理手順ＲＴ１に入ると、ステップＳＰ１において外部から入力されてくる正負の極性がある入力オーディオデータＤ１０をデータ入出力部２７を介して入力し、続くステップＳＰ２及びＳＰ１０に移る。
【００３５】
ステップＳＰ２において包絡線算出部１１は、図６に示すように、外部から入力されてくる正負の極性がある入力オーディオデータＤ１０のうち、正領域ＡＲ１の信号成分のみを検出及び保持し、負領域ＡＲ２の信号線分をゼロレベルとし、ステップＳＰ３に移る。
【００３６】
ステップＳＰ３において包絡線算出部１１は、図７に示すように、正領域ＡＲ１の入力オーディオデータＤ１０の振幅がゼロレベルと重なるサンプリング時間位置ＤＯ１からその次に振幅がゼロレベルと重なるサンプリング時間位置ＤＯ２までの間（以下、これをゼロクロス間と呼ぶ）ＣＲ１での振幅の最大値ｘ１を検出し、当該最大値ｘ１が予め包絡線検出プログラムにて設定されている閾値よりも高い値であるか否かを判断する。
【００３７】
因みに、包絡線検出プログラムで予め設定される閾値は、ゼロクロス間の振幅の最大値ｘ１を包絡線の候補値（サンプリング点）とするか否かを決定づける所定の値となっており、結果としてなめらかな包絡線を検出し得るような値に設定しておき、このときの判断対象であるゼロクロス間ＣＲ１の振幅の最大値ｘ１が当該閾値よりも高い値となる場合にはステップＳＰ４に移る。また、このときの判断対象であるゼロクロス間の振幅の最大値が閾値よりも低い値となる場合、包絡線算出部１１は、当該閾値よりも高い値となる最大値ｘ１（候補値（サンプリング点））が存在するゼロクロス間ＣＲ１を検出するまで続ける。
【００３８】
ステップＳＰ４において包絡線算出部１１は、候補値（サンプルリング点）とされた最大値ｘ１が存在するゼロクロス間ＣＲ１の次のゼロクロス間ＣＲ２の最大値ｘ２を検出（図７）し、ステップＳＰ５に移る。
【００３９】
ステップＳＰ５において包絡線算出部１１は、ステップＳＰ３及びＳＰ４において得られた各最大値ｘ１及びｘ２に対してｆ（ｔ)=ｐ( ｔ₂−ｔ₁）で表される関数によって算出された値に最大値ｘ１を乗じた値が当該最大値ｘ２よりも高い値であるか否かを判断する。
【００４０】
因みに、関数ｆ（ｔ) において、「ｔ₂」及び「ｔ₁」は、各最大値ｘ１及びｘ２が検出されたサンプリング時間位置を表しており、例えばこのとき入力される信号（入力オーディオデータＤ１０）がサンプリング周波数８ｋＨｚ、量子化１６bit と想定した場合、ゼロクロス間のサンプル数は５〜２０サンプルとなる場合が多いため、「ｔ₂」及び「ｔ₁」においても５〜２０サンプルとなる。また、「ｐ」は任意に設定し得るパラメータであり、例えばこのとき入力される信号（入力オーディオデータＤ１０）がサンプリング周波数８ｋＨｚ、量子化１６bit と想定した場合、ｐ＝−９０などとされる。
【００４１】
さらに関数ｆ（ｔ)=ｐ( ｔ₂−ｔ₁）で表される値に最大値ｘ１を乗じた値は、最大値ｘ１及びｘ２間の傾きを表すようになされており、当該関数ｆ（ｔ)=ｐ( ｔ₂−ｔ₁）で表される値に最大値ｘ１を乗じた値よりも最大値ｘ２の値のほうが大きい場合には、最大値ｘ１と最大値ｘ２との振幅差が少ないことにより、結果としてなめらかな包絡線を検出し得る。従って、このときの判断対象である最大値ｘ２が当該関数によって表される値に最大値ｘ１を乗じた値よりも高い値となる場合にはステップＳＰ５において肯定結果を得、続くステップＳＰ６に移る。
【００４２】
これに対して最大値ｘ２が当該関数によって表される値に最大値ｘ１を乗じた値よりも低い値となる場合には、ステップＳＰ４において、関数によって表される値に最大値ｘ１を乗じた値よりも高い値である最大値ｘ２（図７）が検出されるまでゼロクロス間（ＣＲ３・・・ＣＲｎ）の振幅の最大値ｘ２（図７）を検出するようになされており、このとき再度検出して得られた最大値ｘ２と、ステップＳＰ３において得られた最大値ｘ１とに対して、ｆ（ｔ)=ｐ( ｔ₂−ｔ₁）で表される関数によって算出された値に最大値ｘ１を乗じた値が再度検出して得られた最大値ｘ２よりも高い値であると判断されるまで最大値ｘ２の検出を繰り返す。
【００４３】
ステップＳＰ６において包絡線算出部１１は、包絡線の候補値（サンプリング点）とされた最大値ｘ１及び最大値ｘ２間のデータに対して線形一次補間方法を用いて補間処理を施し、続くステップＳＰ７及びＳＰ８に移る。
【００４４】
ステップＳＰ７において包絡線算出部１１は、補間処理を施した最大値ｘ１及び最大値ｘ２間のデータ及び候補値（サンプリング点）を包絡線データＤ１１（図１）として、クラス分類部１４（図１）に出力する。
【００４５】
また、ステップＳＰ８において包絡線算出部１１は、外部から入力されてくる入力オーディオデータＤ１０が全て入力されたか否かを判断する。ここで否定結果が得られると、このことは入力オーディオデータＤ１０が続いて入力されていることを表しており、このとき包絡線算出部１１は、ステップＳＰ３に戻って、入力オーディオデータＤ１０の正領域ＡＲ１からゼロクロス間ＣＲ１の振幅の最大値ｘ１を再び検出する。
【００４６】
これに対して、ステップＳＰ８において肯定結果が得られると、このことは入力オーディオデータＤ１０を全て入力し終わったことを表しており、このとき包絡線算出部１１は、ステップＳＰ２０に移って包絡線算出処理手順ＲＴ１を終了する。
【００４７】
一方、ステップＳＰ１０において包絡線算出部１１は、外部から入力される正負の極性がある入力オーディオデータＤ１０のうち、負領域ＡＲ２（図６）の信号成分のみを検出及び保持し、正領域ＡＲ１（図６）の信号成分をゼロレベルとし、ステップＳＰ１１に移る。
【００４８】
ステップＳＰ１１において包絡線算出部１１は、図８に示すように、負領域ＡＲ２のゼロクロス間ＣＲ１１の振幅の最大値ｘ１１を検出し、ステップＳＰ３と同様に最大値ｘ１１が予め包絡線検出プログラムにて設定されている閾値よりも負方向に高い値であるか否かを判断する。ここで肯定結果が得られた（すなわち、閾値よりも負方向に高い値である）場合には、ステップＳＰ１２に移り、否定結果が得られた（すなわち、閾値よりも負方向に低い値である）場合には、閾値よりも負方向に高い値となる最大値ｙ１１が検出されるまでステップＳＰ１１の検出処理を続ける。
【００４９】
ステップＳＰ１２において包絡線算出部１１は、候補値（サンプリング点）とされた最大値ｘ１１が含まれるゼロクロス間ＣＲ′１の次のゼロクロス間ＣＲ′２の振幅の最大値ｘ１２を検出（図８）し、ステップＳＰ１３に移る。
【００５０】
ステップＳＰ１３において包絡線算出部１１は、ステップＳＰ５と同様にステップＳＰ１１及びＳＰ１２において得られた各最大値ｘ１１及びｘ１２に対してｆ（ｔ)=ｐ( ｔ₁₂−ｔ₁₁）で表される関数によって算出された値に最大値ｘ１１を乗じた値が最大値ｘ１２よりも負の方向に高い値であるか否かを判断する。因みに、「ｐ」は任意に設定し得るパラメータであり、例えばこのとき入力される入力オーディオデータＤ１０がサンプリング周波数８ｋＨｚ、量子化１６bit と想定した場合、ｐ＝９０などとされる。
【００５１】
包絡線算出部１１は、ステップＳＰ１３において、肯定結果が得られた（すなわち、ｆ（ｔ)=ｐ( ｔ₁₂−ｔ₁₁）で表される関数によって算出された値に最大値ｘ１１を乗じた値が最大値ｘ１２よりも負の方向に高い値である）場合には、ステップＳＰ１４に移り、否定結果が得られた（すなわち、ｆ（ｔ)=ｐ( ｔ₁₂−ｔ₁₁）で表される関数によって算出された値に最大値ｘ１１を乗じた値が最大値ｘ１２よりも負の方向に低い値である）場合には、ステップＳＰ１２において、ｆ（ｔ)=ｐ( ｔ₁₂−ｔ₁₁）で表される関数によって算出された値に最大値ｘ１１を乗じた値よりも負の方向に高い値である最大値ｘ１２（図８）が検出されるまでゼロクロス間（ＣＲ′３・・・ＣＲ′ｎ）の振幅の最大値ｘ１２（図８）を検出する。
【００５２】
ステップＳＰ１４において包絡線算出部１１は、包絡線の候補値（サンプリング点）とされた最大値ｘ１１及び最大値ｘ１２間のデータに対して線形一次補間方法を用いて補間処理を施し、続くステップＳＰ７及びＳＰ１５に移る。
【００５３】
ステップＳＰ７において包絡線算出部１１は、補間処理を施した最大値ｘ１１及び最大値ｘ１２間のデータ及び候補値（サンプリング点）を包絡線データＤ１１（図１）として、クラス分類部１４（図１）に出力する。
【００５４】
また、ステップＳＰ１５において包絡線算出部１１は、外部から入力されてくる入力オーディオデータＤ１０が全て入力されたか否かを判断する。ここで否定結果が得られると、このことは入力オーディオデータＤ１０が続いて入力されていることを表しており、このとき包絡線算出部１１は、ステップＳＰ１１に戻って、入力オーディオデータＤ１０の負領域ＡＲ２からゼロクロス間の振幅の最大値ｘ１１を再び検出する。
【００５５】
これに対して、ステップＳＰ１５において肯定結果が得られると、このことは入力オーディオデータＤ１０を全て入力し終わったことを表しており、このとき包絡線算出部１１は、ステップＳＰ２０に移って包絡線算出処理手順ＲＴ１を終了する。
【００５６】
このように、包絡線算出部１１は簡単な包絡線算出アルゴリズムによって、結果として正領域ＡＲ１では図９に示すような、なめらかな包絡線ＥＮＶ５、及び負領域ＡＲ２では図１０に示すような、なめらかな包絡線ＥＮＶ６を生成させ得る包絡線データ（候補値（サンプリング点）と、補間処理を行った候補値間のデータ）をリアルタイムに算出することができる。
【００５７】
次に、図１について上述した予測係数メモリ１５に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【００５８】
図１１において、学習回路３０は、高音質の教師オーディオデータＤ３０を生徒信号生成フィルタ３７に受ける。生徒信号生成フィルタ３７は、間引き率設定信号Ｄ３９により設定された間引き率で教師オーディオデータＤ３０を所定時間ごとに所定サンプル間引くようになされている。
【００５９】
この場合、生徒信号生成フィルタ３７における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置１０で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置１０においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ３７ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置１０において入力オーディオデータＤ１０の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ３７ではデータサンプルを欠落させる間引き処理を行うようになされている。
【００６０】
かくして、生徒信号生成フィルタ３７は教師オーディオデータ３０から所定の間引き処理により生徒オーディオデータＤ３７を生成し、これを包絡線算出部３１、クラス分類部抽出部３２及び予測演算部抽出部３３にそれぞれ供給する。
【００６１】
包絡線算出部３１は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、図５について上述した包絡線算出方法によりその包絡線を算出する。
【００６２】
包絡線算出部３１は生徒オーディオデータＤ３７のこのとき分割された時間領域の包絡線算出結果を生徒オーディオデータＤ３７の包絡線波形データＤ３１としてクラス分類部３４に供給する。
【００６３】
また、クラス分類部抽出部３２は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７を、包絡線算出部３１の場合と同様の時間領域（この実施の形態の場合例えば６サンプル）に分割することによりクラス分類しようとするオーディオ波形データＤ３２を抽出し、これをクラス分類部３４に供給する。
【００６４】
クラス分類部３４は、クラス分類抽出部３２において切り出されたオーディオ波形データＤ３２に対応する包絡線波形データＤ３１について、当該包絡線波形データＤ３１を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データＤ３１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００６５】
ＡＤＲＣ回路部は包絡線波形データＤ３１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００６６】
具体的には、包絡線波形上の６つの８ビットのデータ（包絡線波形データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの包絡線波形データに対して１ビットの量子化を実行すると、６つの包絡線波形データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００６７】
ここで、ＡＤＲＣ回路部は、切り出された領域内の包絡線のダイナミックレンジをＤＲ、ビット割り当をｍ、各包絡線波形データのデータレベルをＬ、量子化コードをＱとして、上述の（１）式と同様の演算により、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。かくして包絡線算出部１において算出された包絡線上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００６８】
このようにして圧縮された包絡線波形データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４に設けられたクラスコード発生回路部は、圧縮された包絡線波形データｑ_nに基づいて、上述の（２）式と同様の演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ３４を予測係数算出部３６に供給する。因みに（２）式において、ｎは圧縮された包絡線波形データｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００６９】
このようにして、クラス分類部３４はクラス分類部抽出部３２において切り出されたオーディオ波形データＤ３２に対応する包絡線波形データＤ３１のクラスコードデータＤ３４を生成し、これを予測係数算出部３６に供給する。また、予測係数算出部３６には、クラスコードデータＤ３４に対応した時間軸領域のオーディオ波形データＤ３３（ｘ₁、ｘ₂、……、ｘ_n）が予測演算部抽出部３３において切り出されて供給される。
【００７０】
予測係数算出部３６は、クラス分類部３４から供給されたクラスコードclass と、各クラスコードclass 毎に切り出されたオーディオ波形データＤ３３と、入力端Ｔ_INから供給された高音質の教師オーディオデータＤ３０とを用いて、正規方程式を立てる。
【００７１】
すなわち、生徒オーディオデータＤ３７のｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_nとして、それぞれにｐビットのＡＤＲＣを行った結果の量子化データをｑ₁、……、ｑ_nとする。このとき、この領域のクラスコードclass を上述の（２）式のように定義する。そして、上述のように生徒オーディオデータＤ３７のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nとし、高音質の教師オーディオデータＤ３０のレベルをｙとしたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定する。これを次式、
【００７２】
【数４】

【００７３】
とする。学習前は、ｗ_nが未定係数である。
【００７４】
学習回路３０では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がＭの場合、上述の（４）式に従って、次式、
【００７５】
【数５】

【００７６】
が設定される。但しｋ＝１、２、……Ｍである。
【００７７】
Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは一意的に決まらないので、誤差ベクトルｅの要素を次式、
【００７８】
【数６】

【００７９】
によって定義し（但し、ｋ＝１、２、……、Ｍ）、次式、
【００８０】
【数７】

【００８１】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【００８２】
ここで、（７）式によるｗ_nの偏微分係数を求める。この場合、次式、
【００８３】
【数８】

【００８４】
を「０」にするように、各ｗ_n（ｎ＝１〜６）を求めれば良い。
【００８５】
そして、次式、
【００８６】
【数９】

【００８７】
【数１０】

【００８８】
のように、Ｘ_ij、Ｙ_iを定義すると、（８）式は行列を用いて次式、
【００８９】
【数１１】

【００９０】
として表される。
【００９１】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではｎ＝６である。
【００９２】
全ての学習用データ（教師オーディオデータＤ３０、クラスコードclass 、オーディオ波形データＤ３３）の入力が完了した後、予測係数算出部３６は各クラスコードclass に上述の（１１）式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Ｗ_nについて解き、各クラスコード毎に、予測係数を算出する。予測係数算出部３６は、算出された各予測係数（Ｄ３６）を予測係数メモリ１５に書き込む。
【００９３】
このような学習を行った結果、予測係数メモリ１５には、量子化データｑ₁、……、ｑ₆で規定されるパターン毎に、高音質のオーディオデータｙを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ１５は、図１について上述したオーディオ信号処理装置１０において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【００９４】
このように、学習回路３０は、オーディオ信号処理装置１０において補間処理を行う程度を考慮して、生徒信号生成フィルタ３７で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置１０における補間処理のための予測係数を生成することができる。
【００９５】
以上の構成において、オーディオ信号処理装置１０は、包絡線算出部１１において入力オーディオデータＤ１０の時間波形領域での包絡線を算出する。この包絡線は入力オーディオデータＤ１０の音質ごとに変わるもので、オーディオ信号処理装置１０は入力オーディオデータＤ１０の包絡線に基づいてそのクラスを特定する。
【００９６】
オーディオ信号処理装置１０は、予め学習時に例えば歪みのない高音質のオーディオデータ（教師オーディオデータ）を得るための予測係数をクラス毎に求めておき、包絡線に基づいてクラス分類された入力オーディオデータＤ１０をそのクラスに応じた予測係数により予測演算する。これにより、入力オーディオデータＤ１０はその音質に応じた予測係数を用いて予測演算されるので、実用上十分な程度に音質が向上する。
【００９７】
また、クラス毎の予測係数を生成する学習時において、位相の異なる多数の教師オーディオデータについてそれぞれに対応した予測係数を求めておくことにより、オーディオ信号処理装置１０における入力オーディオデータＤ１０のクラス分類適応処理時に位相変動が生じても、位相変動に対応した処理を行うことができる。
【００９８】
以上の構成によれば、入力オーディオデータＤ１０の時間波形領域における包絡線に基づいて入力オーディオデータＤ１０をクラス分類し、当該クラス分類された結果に基づく予測係数を用いて入力オーディオデータＤ１０を予測演算するようにしたことにより、入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１６に変換することができる。
【００９９】
なお上述の実施の形態においては、オーディオ信号処理装置１０及び学習装置３０において、クラス分類部抽出部１２、３２及び予測演算部抽出部１３、３３により入力オーディオデータＤ１０、Ｄ３７を常に一定の範囲毎に切り出す場合について述べたが、本発明はこれに限らず、例えば図１及び図１１との対応部分に同一符号を付して示す図１２及び図１３に示すように、包絡線算出部１１、３１において算出された包絡線の特徴に基づいて抽出制御信号ＣＯＮＴ１１、ＣＯＮＴ３１を可変クラス分類部抽出部１２′、可変予測演算部抽出部１３′及び可変クラス分類部抽出部３２′、可変予測演算部抽出部３３′に供給することにより入力オーディオデータＤ１０、Ｄ３７の切り出し範囲を制御するようにしても良い。
【０１００】
また上述の実施の形態においては、包絡線データＤ１１に基づいてクラス分類する場合について述べたが、本発明はこれに限らず、クラス分類部抽出部１２において入力オーディオデータＤ１０の波形からクラス分類を行うと共に、包絡線算出部１１において包絡線のクラスを算出し、これら２つのクラス情報をクラス分類部１４において統合することにより、入力オーディオデータＤ１０の波形とその包絡線との両方に基づくクラス分類を行うようにしても良い。
【０１０１】
（２）第２の実施の形態
図１との対応部分に同一符号を付して示す図１４において包絡線算出部１１は入力端子Ｔ_INから供給された図１５（Ａ）に示す入力オーディオデータＤ１０を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、図５について上述した包絡線算出方法によりその包絡線を算出する。
【０１０２】
包絡線算出部１１は入力オーディオデータＤ１０のこのとき分割された時間領域の包絡線算出結果を入力オーディオデータＤ１０の包絡線波形データＤ１１（図１５（Ｃ））としてクラス分類部１４、包絡線残差算出部１１１及び包絡線予測演算部１１６に供給する。
【０１０３】
包絡線残差算出部１１１は入力オーディオデータＤ１０と、包絡線算出部１１から供給された包絡線データＤ１１との残差を求め、これを正規化部１１２において正規化することにより、入力オーディオデータＤ１０の搬送波Ｄ１１２（図１５（Ｂ））を抽出し、これを変調部１１７に供給する。
【０１０４】
クラス分類部１４は、包絡線波形データＤ１１について、当該包絡線波形データＤ１１を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データＤ１１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【０１０５】
ＡＤＲＣ回路部は包絡線波形データＤ１１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【０１０６】
具体的には、包絡線波形上の６つの８ビットのデータ（包絡線波形データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの包絡線波形データに対して１ビットの量子化を実行すると、６つの包絡線波形データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【０１０７】
ここで、ＡＤＲＣ回路部は、切り出された領域内の包絡線のダイナミックレンジをＤＲ、ビット割り当をｍ、各包絡線波形データのデータレベルをＬ、量子化コードをＱとすると、上述の（１）式に従って、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。なお、（１）式において｛｝は小数点以下の切り捨て処理を意味する。かくして包絡線算出部１において算出された包絡線上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【０１０８】
このようにして圧縮された包絡線波形データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４に設けられたクラスコード発生回路部は、圧縮された包絡線波形データｑ_nに基づいて、上述の（２）式に示す演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ１４を予測係数メモリ１５に供給する。このクラスコードclass は、予測係数メモリ１５から予測係数を読み出す際の読み出しアドレスを示す。
【０１０９】
このようにして、クラス分類部１４は包絡線波形データＤ１１のクラスコードデータＤ１４を生成し、これを予測係数メモリ１５に供給する。
【０１１０】
予測係数メモリ１５には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部１４から供給されるクラスコードデータＤ１４に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットＷ₁〜Ｗ_nが読み出され、包絡線予測演算部１１６に供給される。
【０１１１】
包絡線予測演算部１１６は、包絡線算出部１１において算出された包絡線波形データＤ１１（Ｘ₁〜Ｘ_n）と、予測係数Ｗ₁〜Ｗ_nに対して、上述の（３）式に示す積和演算を行うことにより、予測結果ｙ′を得る。この予測値ｙ′が、音質が改善されたオーディオデータの包絡線データＤ１１６（図１４（Ｃ））として変調部１１７に供給される。
【０１１２】
かくして、変調部１１７は、包絡線残差算出部１１１から供給された搬送波Ｄ１１２を包絡線データＤ１１６により変調することにより、図１５（Ｄ）に示すような音質が改善されたオーディオデータＤ１１７を生成し、これを出力する。
因みに、図１６はオーディオ信号処理装置１００におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置１００はステップＳＰ１１１から当該処理手順に入ると、続くステップＳＰ１１２において入力オーディオデータＤ１０の包絡線を包絡線算出部１１において算出する。
【０１１３】
この算出された包絡線は入力オーディオデータＤ１０の特徴を表すものであり、オーディオ信号処理装置１０は、ステップＳＰ１１３に移ってクラス分類部１４により包絡線に基づいてクラスを分類する。そしてオーディオ信号処理装置１００はクラス分類の結果得られたクラスコードを用いて予測係数メモリ１１５から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置１００はクラスコードに対応した予測係数を読み出すことにより、このときの包絡線の特徴に合致した予測係数を用いることができる。
【０１１４】
予測係数メモリ１１５から読み出された予測係数は、ステップＳＰ１１４において包絡線予測演算部１１６の予測演算に用いられる。これにより、入力オーディオデータＤ１０の包絡線の特徴に適応した予測演算により、所望とするオーディオデータＤ１１７を得るための新たな包絡線が算出される。ステップＳＰ１１４において新たな包絡線が算出されると、オーディオ信号処理装置１００は続くステップＳＰ１１５において入力オーディオデータＤ１０の搬送波を新たな包絡線により変調することにより、所望とするオーディオデータＤ１１７を得る。
【０１１５】
かくして入力オーディオデータＤ１０はその音質が改善されたオーディオデータＤ１１７に変換され、オーディオ信号処理装置１００はステップＳＰ１１６に移って当該処理手順を終了する。
【０１１６】
次に、図１４について上述した予測係数メモリ１５に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【０１１７】
図１０との対応部分に同一符号を付して示す図１６において、学習回路１３０は、高音質の教師オーディオデータＤ１３０を生徒信号生成フィルタ３７に受ける。生徒信号生成フィルタ３７は、間引き率設定信号Ｄ３９により設定された間引き率で教師オーディオデータＤ１３０を所定時間ごとに所定サンプル間引くようになされている。
【０１１８】
この場合、生徒信号生成フィルタ３７における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置１００で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置１００においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ３７ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置１００において入力オーディオデータＤ１０の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ３７ではデータサンプルを欠落させる間引き処理を行うようになされている。
【０１１９】
かくして、生徒信号生成フィルタ３７は教師オーディオデータＤ１３０から所定の間引き処理により生徒オーディオデータＤ３７を生成し、これを包絡線算出部３１に供給する。
【０１２０】
包絡線算出部３１は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７を所定時間毎の領域（この実施の形態の場合、例えば６サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、図４について上述した包絡線算出方法によりその包絡線を算出する。
【０１２１】
包絡線算出部３１は生徒オーディオデータＤ３７のこのとき分割された時間領域の包絡線算出結果を生徒オーディオデータＤ３７の包絡線波形データＤ３１としてクラス分類部３４に供給する。
【０１２２】
クラス分類部３４は、包絡線波形データＤ３１を圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データＤ３１の属するクラスコードを発生するクラスコード発生回路部とを有する。
【０１２３】
ＡＤＲＣ回路部は包絡線波形データＤ３１に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【０１２４】
具体的には、包絡線波形上の６つの８ビットのデータ（包絡線波形データ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つの包絡線波形データに対して１ビットの量子化を実行すると、６つの包絡線波形データを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【０１２５】
ここで、ＡＤＲＣ回路部は、切り出された領域内の包絡線のダイナミックレンジをＤＲ、ビット割り当をｍ、各包絡線波形データのデータレベルをＬ、量子化コードをＱとして、上述の（１）式と同様の演算により、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。かくして包絡線算出部１において算出された包絡線上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【０１２６】
このようにして圧縮された包絡線波形データをそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４に設けられたクラスコード発生回路部は、圧縮された包絡線波形データｑ_nに基づいて、上述の（２）式と同様の演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータＤ３４を予測係数算出部１３６に供給する。
【０１２７】
このようにして、クラス分類部３４は包絡線波形データＤ３１のクラスコードデータＤ３４を生成し、これを予測係数算出部１３６に供給する。また、予測係数算出部１３６には、生徒オーディオデータＤ３７に基づいて算出された包絡線波形データＤ３１（ｘ₁、ｘ₂、……、ｘ_n）が供給される。
【０１２８】
予測係数算出部１３６は、クラス分類部３４から供給されたクラスコードclass と、生徒オーディオデータＤ３７に基づいて各クラスコードclass 毎に算出された包絡線波形データＤ３１と、入力端Ｔ_INから供給された教師オーディオデータＤ１３０から包絡線算出部１３５において抽出された包絡線データ搬送波Ｄ１３５（図１５（Ｂ））とを用いて、正規方程式を立てる。
【０１２９】
すなわち、生徒オーディオデータＤ３７に基づいて算出された包絡線波形データＤ３１のｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_nとして、それぞれにｐビットのＡＤＲＣを行った結果の量子化データをｑ₁、……、ｑ_nとする。このとき、この領域のクラスコードclass を上述の（２）式のように定義する。そして、上述のように生徒オーディオデータＤ３７に基づいて算出された包絡線波形データＤ３１のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nとし、高音質の教師オーディオデータＤ１３０の包絡線波形のレベルをｙとしたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定する。これを上述の（４）式とする。学習前は、ｗ_nが未定係数である。
【０１３０】
学習回路１３０では、クラスコード毎に、複数のオーディオデータ（包絡線）に対して学習を行う。データサンプル数がＭの場合、上述の（４）式に従って、上述の（５）式が設定される。但しｋ＝１、２、……Ｍである。
【０１３１】
Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは一意的に決まらないので、誤差ベクトルｅの要素を（６）式によって定義し（但し、ｋ＝１、２、……、Ｍ）、（７）式を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【０１３２】
ここで、（７）式によるｗ_nの偏微分係数を求める。この場合、（８）式を「０」にするように、各Ｗ_n（ｎ＝１〜６）を求めれば良い。
【０１３３】
そして、（９）式及び（１０）式のように、Ｘ_ij、Ｙ_iを定義すると、（８）式は行列を用いて（１１）式として表される。
【０１３４】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではｎ＝６である。
【０１３５】
全ての学習用データ（教師オーディオデータＤ３０、クラスコードclass 、オーディオ波形データＤ３３）の入力が完了した後、予測係数算出部３６は各クラスコードclass に上述の（１１）式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Ｗ_nについて解き、各クラスコード毎に、予測係数を算出する。予測係数算出部３６は、算出された各予測係数（Ｄ３６）を予測係数メモリ１５に書き込む。
【０１３６】
このような学習を行った結果、予測係数メモリ１５には、量子化データｑ₁、……、ｑ₆で規定されるパターン毎に、高音質のオーディオデータｙを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ１５は、図１４について上述したオーディオ信号処理装置１００において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。因みに、通常のオーディオデータから高音質のオーディオデータを作成する方法としては、線形推定式に限らず、種々の方法を適用し得る。
【０１３７】
このように、学習回路１３０は、オーディオ信号処理装置１００において補間処理を行う程度を考慮して、生徒信号生成フィルタ３７で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置１００における補間処理のための予測係数を生成することができる。
【０１３８】
以上の構成において、オーディオ信号処理装置１００は、包絡線算出部１１において入力オーディオデータＤ１０の時間波形領域での包絡線を算出する。この包絡線は入力オーディオデータＤ１０の音質ごとに変わるもので、オーディオ信号処理装置１００は入力オーディオデータＤ１０の包絡線に基づいてそのクラスを特定する。
【０１３９】
オーディオ信号処理装置１０は、予め学習時に例えば歪みのない高音質のオーディオデータ（教師オーディオデータ）を得るための予測係数をクラス毎に求めておき、包絡線に基づいてクラス分類された入力オーディオデータＤ１０の包絡線をそのクラスに応じた予測係数により予測演算する。これにより、入力オーディオデータＤ１０の包絡線はその音質に応じた予測係数を用いて予測演算されるので、実用上十分な程度に音質が向上したオーディオデータ波形の包絡線が得られる。この包絡線に基づいて搬送波を変調することにより、音質が向上したオーディオデータが得られる。
【０１４０】
また、クラス毎の予測係数を生成する学習時において、位相の異なる多数の教師オーディオデータについてそれぞれに対応した予測係数を求めておくことにより、オーディオ信号処理装置１００における入力オーディオデータＤ１０のクラス分類適応処理時に位相変動が生じても、位相変動に対応した処理を行うことができる。
【０１４１】
以上の構成によれば、入力オーディオデータＤ１０の時間波形領域における包絡線に基づいて入力オーディオデータＤ１０をクラス分類し、当該クラス分類された結果に基づく予測係数を用いて入力オーディオデータＤ１０の包絡線を予測演算するようにしたことにより、入力オーディオデータＤ１０を一段と高音質のオーディオデータＤ１１７に変換し得る包絡線を生成できる。
【０１４２】
また上述の実施の形態においては、包絡線データＤ１１に基づいてクラス分類する場合について述べたが、本発明はこれに限らず、クラス分類部１４に入力オーディオデータＤ１０を入力し、当該クラス分類部１４において入力オーディオデータＤ１０の波形に基づくクラス分類を行うと共に、包絡線算出部１１において包絡線のクラス分類を行い、クラス分類部１４においてこれら２つのクラスを統合することにより、入力オーディオデータＤ１０の波形とその包絡線の両方に基づくクラス分類を行うようにしても良い。
【０１４３】
（３）他の実施の形態
なお上述の実施の形態においては、図５について上述した包絡線算出方法を用いる場合について述べたが、本発明はこれに限らず、例えば単にピーク値を結ぶ方法等、他の種々の包絡線算出方法を適用することができる。
【０１４４】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法、さらには入力端子Ｔ_INから供給されるディジタルデータが画像データの場合には、画素値自体から予測する手法等、種々の予測方式を適用することができる。
【０１４５】
また上述の実施の形態においては、クラス分類部１４においてＡＤＲＣにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化（ＤＰＣＭ:Differrential Pulse Code Modulation) 又はベクトル量子化（ＶＱ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【０１４６】
また上述の実施の形態においては、学習回路３０の生徒信号生成フィルタ３７において所定サンプル数を間引く場合について述べたが、本発明はこれに限らず、例えばビット数を削減する等、他の種々の方法を適用することができる。
【０１４７】
また上述の実施の形態においては、オーディオデータを処理する装置に本発明を適用する場合について述べたが、本発明はこれに限らず、画像データや他の種々のデータを変換する場合に広く適用することができる。
【０１４８】
【発明の効果】
上述のように本発明によれば、入力ディジタルオーディオ信号の包絡線に基づいて入力ディジタルオーディオ信号のクラスを分類し、当該分類されたクラスオーディオに対応した予測係数を用いて入力ディジタルオーディオ信号を変換するようにしたことにより、一段と入力ディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図１】本発明によるディジタル信号処理装置の第１の実施の形態を示すブロック図である。
【図２】包絡線を用いたクラス分類適応処理の説明に供する信号波形図である。
【図３】オーディオ信号処理装置の構成を示すブロック図である。
【図４】第１の実施の形態のオーディオ信号変換処理手順を示すフローチャートである。
【図５】包絡線の算出処理手順を示すフローチャートである。
【図６】包絡線の算出方法の説明に供する信号波形図である。
【図７】包絡線の算出方法の説明に供する信号波形図である。
【図８】包絡線の算出方法の説明に供する信号波形図である。
【図９】包絡線の算出方法の説明に供する信号波形図である。
【図１０】包絡線の算出方法の説明に供する信号波形図である。
【図１１】本発明による学習装置の第１の実施の形態を示すブロック図である。
【図１２】ディジタル信号処理装置の他の実施の形態を示すブロック図である。
【図１３】学習装置の他の実施の形態を示すブロック図である。
【図１４】本発明によるディジタル信号処理装置の第２の実施の形態を示すブロック図である。
【図１５】第２の実施の形態によるクラス分類適応処理の説明に供する信号波形図である。
【図１６】第２の実施の形態のオーディオ信号変換処理手順を示すフローチャートである。
【図１７】本発明による学習装置の第２の実施の形態を示すブロック図である。
【符号の説明】
１０、１００……オーディオ信号処理装置、１１、３１……包絡線算出部、１４、３４……クラス分類部、１５、１１５……予測係数メモリ、１６……予測演算部、３６……予測係数算出部、３７……生徒信号生成フィルタ、１１１……包絡線残差算出部、１１２……正規化部、１１６……包絡線予測演算部、１１７……変調部。

Claims

入力ディジタルオーディオ信号を変換するディジタル信号処理装置において、
上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出手段と、
上記算出された包絡線に基づいて上記入力ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記分類されたクラスに対応する予測係数を用いて上記入力ディジタルオーディオ信号を予測演算することにより上記入力ディジタルオーディオ信号を変換してなるディジタルオーディオ信号を生成する予測演算手段と
を具えるディジタル信号処理装置。
上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
請求項１に記載のディジタル信号処理装置。
入力ディジタルオーディオ信号を変換するディジタル信号処理方法において、
上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
上記算出された包絡線に基づいて上記入力ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応する予測係数を用いて上記入力ディジタルオーディオ信号を予測演算することにより上記入力ディジタルオーディオ信号を変換してなるディジタルオーディオ信号を生成する予測演算ステップと
を有するディジタル信号処理方法。
上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
請求項３に記載のディジタル信号処理方法。
入力ディジタルオーディオ信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成手段と、
上記生徒ディジタルオーディオ信号の包絡線を算出する包絡線算出手段と、
上記算出された包絡線に基づいて上記生徒ディジタル信号のクラスを分類するクラス分類手段と、
上記入力ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号を用いた演算により上記クラスに対応する予測係数を算出する予測係数算出手段と
を具える学習装置。
入力ディジタル信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
上記生徒ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記入力ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号を用いた演算により上記クラスに対応する予測係数を算出する予測係数算出ステップと
を有する学習方法。
入力ディジタル信号を変換するディジタルオーディオ信号処理装置において、
上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出手段と、
上記算出された包絡線に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記分類されたクラスに対応した予測係数と上記包絡線を用いて新たな包絡線を予測演算する包絡線予測演算手段と、
上記入力ディジタルオーディオ信号から搬送波を抽出する搬送波抽出手段と、
上記包絡線予測演算手段によって算出された上記新たな包絡線に基づいて上記搬送波を変調することにより上記入力ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する変調手段と
を具えるディジタル信号処理装置。
上記包絡線予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
請求項７に記載のディジタル信号処理装置。
入力ディジタルオーディオ信号を変換するディジタル信号処理方法において、
上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
上記算出された包絡線に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測係数と上記包絡線を用いて新たな包絡線を予測演算する包絡線予測演算ステップと、
上記入力ディジタルオーディオ信号から搬送波を抽出するステップと、
上記包絡線予測演算ステップによって算出された上記新たな包絡線に基づいて上記搬送波を変調することにより上記入力ディジタルオーディオ信号を変換してなる新たなディジタル信号を生成するステップと
を有するディジタル信号処理方法。
上記包絡線予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
請求項９に記載のディジタル信号処理方法。
入力ディジタル信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成手段と、
上記生徒ディジタルオーディオ信号の包絡線を算出する第１の包絡線算出手段と、
上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記入力ディジタルオーディオ信号の包絡線を算出する第２の包絡線算出手段と、
上記第１の包絡線算出手段により算出された上記生徒ディジタルオーディオ信号の包絡線と上記第２の包絡線算出手段により算出された上記入力ディジタルオーディオ信号の包絡線とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を具える学習装置。
入力ディジタルオーディオ信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
上記生徒ディジタルオーディオ信号の包絡線を算出する第１の包絡線算出ステップと、
上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記入力ディジタルオーディオ信号の包絡線を算出する第２の包絡線算出ステップと、
上記算出された上記生徒ディジタルオーディオ信号の包絡線と上記算出された上記入力ディジタルオーディオ信号の包絡線とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を有する学習方法。
上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
上記算出された包絡線に基づいて上記入力ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応する予測係数を用いて上記入力ディジタルオーディオ信号を予測演算することにより上記入力ディジタルオーディオ信号を変換してなるディジタルオーディオ信号を生成する予測演算ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
上記生徒ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記入力ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号を用いた演算により上記クラスに対応する予測係数を算出する予測係数算出ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
上記算出された包絡線に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測係数と上記包絡線を用いて新たな包絡線を予測演算する包絡線予測演算ステップと、
上記入力ディジタルオーディオ信号から搬送波を抽出するステップと、
上記包絡線予測演算ステップによって算出された上記新たな包絡線に基づいて上記搬送波を変調することにより上記入力ディジタルオーディオ信号を変換してなる新たなディジタル信号を生成するステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
所望とするディジタルオーディオ信号から当該ディジタル信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
上記生徒ディジタルオーディオ信号の包絡線を算出する第１の包絡線算出ステップと、
上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記入力ディジタルオーディオ信号の包絡線を算出する第２の包絡線算出ステップと、
上記算出された上記生徒ディジタルオーディオ信号の包絡線と上記算出された上記入力ディジタルオーディオ信号の包絡線とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。