JP4645868B2

JP4645868B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP4645868B2
Application number: JP2000238893A
Authority: JP
Inventors: 哲二郎近藤; 勉渡辺; 正明服部; 裕人木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2011-03-09
Anticipated expiration: 2020-08-02
Also published as: JP2002049396A

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【０００２】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル／アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル／アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【０００３】
かかるオーバサンプリング処理では、通常、線形一次（直線）補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【０００４】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもＡ／Ｄ変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【０００５】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【０００６】
本発明は以上の点を考慮してなされたもので、ディジタル信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【０００７】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、ディジタルオーディオ信号のピッチを検出し、当該ピッチに基づいてディジタルオーディオ信号のクラスを分類し、分類されたクラスに対応した予測係数及びディジタルオーディオ信号の直流成分の値を用いてディジタルオーディオ信号を予測演算することによりディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成するようにしたことにより、規則性を持ったオーディオ波形の特徴に基づく予測演算を行うことができると共にオーディオ波形の直流成分が補正できるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【０００８】
また、かかる課題を解決するため本発明においては、ディジタルオーディオ信号のピッチを検出し、当該ピッチに基づいてディジタルオーディオ信号のクラスを分類すると共に、ディジタルオーディオ信号の直流成分の値のクラスを分類し、分類されたそれぞれのクラスを統合して新たなクラスを生成し、新たなクラスに対応した予測係数を用いてディジタルオーディオ信号を予測演算することによりディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成するようにしたことにより、規則性を持ったオーディオ波形の特徴に基づく予測演算を行うことができると共にオーディオ波形の直流成分が補正できるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【０００９】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【００１０】
図１においてオーディオ信号処理装置１０は、ディジタルオーディオ信号（以下これをオーディオデータと呼ぶ）のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【００１１】
すなわち、オーディオ信号処理装置１０において、ピッチ検出部１１は入力端子Ｔ_INから供給された図２又は図３に示す入力オーディオデータＤ１０のピッチ（基本周波数）を例えば入力オーディオデータＤ１０の自己相関に基づいて検出する。
【００１２】
すなわちピッチ検出部１１は、入力オーディオデータＤ１０について、例えば時間軸領域に分割してなる種々の範囲ごとに自己相関値を検出し、当該自己相関値が所定の閾値よりも大きいときピッチが有ると判断する。そしてピッチ検出部１１はピッチが有る場合のピッチ周期ＰＩＴ_T及びピッチサイズとその位置をピッチクラスとする。例えば、入力オーディオデータＤ１０が図２に示すような波形を有している場合、ピッチ検出部１１はカレントピッチＰＩＴ２に対してその前後に隣接する位置に前ピッチＰＩＴ１及び後ろピッチＰＩＴ３を検出する。因みに、ピッチ検出部１１が検出する前ピッチＰＩＴ１及び後ろピッチＰＩＴ３は必ずしもカレントピッチＰＩＴ２に隣接するとは限らず、カレントピッチＰＩＴ２から所定距離離れている場合もある。
【００１３】
ピッチ検出部１１はカレントピッチＰＩＴ２に対応する前ピッチＰＩＴ１及び後ろピッチＰＩＴ３を検出すると、これらを切り出すための切り出し制御信号ＣＯＮＴ１１を可変クラス分類部抽出部１２及び可変予測演算部抽出部１３に供給する。
【００１４】
可変クラス分類部抽出部１２は切り出し制御信号ＣＯＮＴ１１に基づいて、前ピッチＰＩＴ１に対応するクラスタップＣＬ１、カレントピッチＰＩＴ２に対応するクラスタップＣＬ２及び後ろタップＰＩＴ３に対応するクラスタップＣＬ３を入力オーディオデータＤ１０から切り出し、これらをクラスタップデータＤ１２としてクラス分類部１４に供給する。
【００１５】
クラス分類部１４は、クラス分類抽出部１２において切り出されたクラスタップについて、各ピッチ（前ピッチＰＩＴ１、カレントピッチＰＩＴ２及び後ろタップＰＩＴ３）ごとに個別に、又はこれらを統合し、そのクラスタップを圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、クラスタップデータＤ１２の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００１６】
ＡＤＲＣ回路部はクラスタップデータＤ１２に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００１７】
具体的には、オーディオ波形上の６つの８ビットのデータ（クラスタップ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つのクラスタップに対して１ビットの量子化を実行すると、６つのクラスタップを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００１８】
ここで、ＡＤＲＣ回路部は、切り出された領域内のクラスタップ（オーディオ波形）のダイナミックレンジをＤＲ、ビット割り当をｍ、各クラスタップのデータレベルをＬ、量子化コードをＱとすると、次式、
【００１９】
【数１】

【００２０】
に従って、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。なお、（１）式において｛｝は小数点以下の切り捨て処理を意味する。かくして６つのクラスタップが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００２１】
このようにして圧縮されたオーディオ波形データ（クラスタップ）をそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データｑ_nに基づいて、次式、
【００２２】
【数２】

【００２３】
に示す演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出すると共に、当該算出されたクラスタップデータＤ１２に基づくクラスコード classをクラスコードデータＤ１４として予測係数メモリ１５に供給する。このクラスコード classは、予測係数メモリ１５から予測係数を読み出す際の読み出しアドレスを示す。因みに（２）式において、ｎは圧縮されたオーディオ波形データ（クラスタップ）ｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００２４】
このようにして、クラス分類部１４はクラス分類部抽出部１２において入力オーディオデータＤ１０から切り出されたクラスタップのクラスコード classを生成し、これをクラスコードデータＤ１４として予測係数メモリ１５に供給する。
【００２５】
予測係数メモリ１５には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部１４から供給されるクラスコードデータＤ１４に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットｗ₁〜ｗ_nが読み出され、予測演算部１６に供給される。
【００２６】
この実施の形態の場合、可変予測演算部抽出部１３から予測タップとして予測演算部１６に供給されるオーディオ波形データＤ１３に加えて、可変予測演算部抽出部１３から出力されるオーディオ波形データの平均値（ＤＣ成分）Ｄ１８が平均値算出部１８において算出されてＤＣ成分補正タップ（ＤＣ値クラス）として８ビットに正規化され予測演算部１６に供給されるようになされている。予測演算部１６での予測演算では、このＤＣ成分補正タップによる補正項が付加されることにより、符号化歪み等で変化したＤＣ成分が補正される。
【００２７】
予測演算部１６は、可変予測演算部抽出部１３においてピッチ検出部１１から供給される切り出し制御信号ＣＯＮＴ１１に応じて切り出された予測演算しようとするオーディオ波形データＤ１３からなる予測タップ（ｘ₁〜ｘ_n）と、予測係数ｗ₁〜ｗ_nに対して、次式
【００２８】
【数３】

【００２９】
に示す積和演算を行うことにより、予測結果ｙ′を得る。この予測値ｙ′にＤＣ成分補正項が付加された結果が、音質が改善されたオーディオデータＤ１６として予測演算部１６から出力される。
【００３０】
因みに、ピッチ検出部１１において入力オーディオデータＤ１０にピッチが無いと判断した場合、ピッチ検出部１１は前ピッチＰＩＴ１や後ろピッチＰＩＴ３を用いることなく、図３に示すようにカレントデータ近傍のオーディオ波形のレベルを切り出すための制御信号ＣＯＮＴ１１を可変クラス分類部抽出部１２及び可変予測演算部抽出部１３に供給することにより、カレントデータ近傍のオーディオ波形によりクラス分類及び予測演算を行う。
【００３１】
なお、オーディオ信号処理装置１０の構成として図１について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図４に示すコンピュータ構成の装置を用いる。すなわち、図４において、オーディオ信号処理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ(Read Only Memory)２２、予測係数メモリ１５を構成するＲＡＭ(Random Access Memory)１５、及び各回路部がそれぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２２に格納されている種々のプログラムを実行することにより、図１について上述した各機能ブロック（ピッチ検出部１１、クラス分類部抽出部１２、予測演算部抽出部１３、クラス分類部１４、予測演算部１６及び平均値算出部１８）として動作するようになされている。
【００３２】
また、オーディオ信号処理装置１０にはネットワークとの間で通信を行う通信インターフェース２４、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ２８を有し、ネットワーク経由又は外部記憶媒体から図１について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置２５のハードディスクに読み込んみ、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【００３３】
ユーザは、キーボードやマウス等の入力手段２６を介して種々のコマンドを入力することにより、ＣＰＵ２１に対して図１について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置１０はデータ入出力部２７を介して音質を向上させようとするオーディオデータ（入力オーディオデータ）Ｄ１０を入力し、当該入力オーディオデータＤ１０に対してクラス分類適用処理を施した後、音質が向上したオーディオデータＤ１６をデータ入出力部２７を介して外部に出力し得るようになされている。
【００３４】
因みに、図５はオーディオ信号処理装置１０におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置１０はステップＳＰ１１から当該処理手順に入ると、続くステップＳＰ１２において入力オーディオデータＤ１０のピッチをピッチ検出部１１において算出する。
【００３５】
この算出されたピッチ（前ピッチＰＩＴ１、カレントピッチＰＩＴ２、後ろピッチＰＩＴ３）はオーティオ波形のクラス分類を一段と確実にするためのもであり、オーディオ信号処理装置１０は、ステップＳＰ１３においてピッチに応じたクラスタップの切り出しを行った後、ステップＳＰ１４においてクラス分類部１４によりクラスタップ（オーディオ波形）をクラス分類する。そしてオーディオ信号処理装置１０は、クラス分類の結果得られたクラスコードを用いて予測係数メモリ１５から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置１０はクラスコードに対応した予測係数を読み出すことにより、このときのオーディオ波形の特徴に合致した予測係数を用いることができる。
【００３６】
予測係数メモリ１５から読み出された予測係数は、ステップＳＰ１５において予測演算部１６の予測演算に用いられる。このとき、予測演算部１６は可変予測部抽出部１３において切り出されたオーディオ波形及びその平均値と予測係数を用いて予測演算することにより、入力オーディオデータＤ１０はそのピッチに応じたクラスタップにより得られたクラスコードを用いて予測演算される。このとき、クラス分類部１４においてオーディオ波形のダイナミックレンジで正規化された際に変化するオーディオ波形のＤＣ成分を、可変予測抽出部１３において切り出されたオーディオ波形の平均値で補正することにより、所望とするオーディオデータＤ１６が得られる。かくして入力オーディオデータＤ１０はその音質が改善されたオーディオデータＤ１６に変換され、オーディオ信号処理装置１０はステップＳＰ１６に移って当該処理手順を終了する。
【００３７】
次に、図１について上述した予測係数メモリ１５に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【００３８】
図６において、学習回路３０は、高音質の教師オーディオデータＤ３０を生徒信号生成フィルタ３７に受ける。生徒信号生成フィルタ３７は、間引き率設定信号Ｄ３９により設定された間引き率で教師オーディオデータＤ３０を所定時間ごとに所定サンプル間引くようになされている。
【００３９】
この場合、生徒信号生成フィルタ３７における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置１０で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置１０においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ３７ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置１０において入力オーディオデータＤ１０の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ３７ではデータサンプルを欠落させる間引き処理を行うようになされている。
【００４０】
かくして、生徒信号生成フィルタ３７は教師オーディオデータ３０から所定の間引き処理により生徒オーディオデータＤ３７を生成し、これをピッチ検出部３１、クラス分類部抽出部３２及び予測演算部抽出部３３にそれぞれ供給する。
【００４１】
ピッチ検出部３１は生徒信号生成フィルタ３７から供給された生徒オーディオデータＤ３７について、図２及び図３について上述したピッチ（基本周波数）を生徒オーディオデータＤ３７の自己相関に基づいて検出する。
【００４２】
そしてピッチ検出部３１はカレントピッチＰＩＴ２に対応する前ピッチＰＩＴ１及び後ろピッチＰＩＴ３を検出すると、これらを切り出すための切り出し制御信号ＣＯＮＴ３１を可変クラス分類部抽出部３２及び可変予測演算部抽出部３３に供給する。
【００４３】
可変クラス分類部抽出部３２は切り出し制御信号ＣＯＮＴ３１に基づいて、前ピッチＰＩＴ１に対応するクラスタップＣＬ１、カレントピッチＰＩＴ２に対応するクラスタップＣＬ２及び後ろタップＰＩＴ３に対応するクラスタップＣＬ３を生徒オーディオデータＤ３７から切り出し、これらをクラスタップデータＤ３２としてクラス分類部３４に供給する。
【００４４】
クラス分類部３４は、クラス分類抽出部３２において切り出されたクラスタップについて、当該クラスタップを圧縮して圧縮データパターンを生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、クラスタップデータＤ３２の属するクラスコードを発生するクラスコード発生回路部とを有する。
【００４５】
ＡＤＲＣ回路部はクラスタップデータＤ３２に対して、例えば８ビットから２ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このＡＤＲＣ回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【００４６】
具体的には、オーディオ波形上の６つの８ビットのデータ（クラスタップ）をクラス分類しようとする場合、２⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部１４ではその内部に設けられたＡＤＲＣ回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば６つのクラスタップに対して１ビットの量子化を実行すると、６つのクラスタップを６ビットで表すことができ、２⁶＝６４クラスに分類することができる。
【００４７】
ここで、ＡＤＲＣ回路部は、切り出された領域内のクラスタップ（オーディオ波形）のダイナミックレンジをＤＲ、ビット割り当をｍ、各クラスタップのデータレベルをＬ、量子化コードをＱとして、上述の（１）式と同様の演算により、領域内の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビット長で均等に分割して量子化を行う。かくしてオーディオ波形上の６つの波形データが、それぞれ例えば８ビット（ｍ＝８）で構成されているとすると、これらはＡＤＲＣ回路部においてそれぞれが２ビットに圧縮される。
【００４８】
このようにして圧縮されたオーディオ波形データ（クラスタップ）をそれぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４に設けられたクラスコード発生回路部は、圧縮されたオーディオ波形データｑ_nに基づいて、上述の（２）式と同様の演算を実行することにより、そのブロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass をクラスコードデータＤ３４として予測係数算出部３６に供給する。因みに（２）式において、ｎは圧縮されたオーディオ波形データ（クラスタップ）ｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、またＰはビット割り当てを表し、この実施の形態の場合Ｐ＝２である。
【００４９】
このようにして、クラス分類部３４はクラスコードデータＤ３４を生成し、これを予測係数算出部３６に供給する。また、予測係数算出部３６には、予測演算部抽出部３３においてピッチ検出部１１から供給される切り出し制御信号ＣＯＮＴ１１に応じて切り出された予測演算しようとするオーディオ波形データ（予測タップ）Ｄ１３（ｘ₁〜ｘ_n）と平均値算出部３８において算出されたその平均値（ＤＣ値補正タップ）Ｄ３８が供給される。
【００５０】
予測係数算出部３６は、クラス分類部３４から供給されたクラスコードclass と、各クラスコードclass 毎に切り出された予測タップと、入力端Ｔ_INから供給された高音質の教師オーディオデータＤ３０とを用いて、正規方程式を立てる。
【００５１】
すなわち、予測タップのｎサンプルのレベル及び平均値をそれぞれｘ₁、ｘ₂、……、ｘ_nとして、それぞれにｐビットのＡＤＲＣを行った結果の量子化データをｑ₁、……、ｑ_nとする。このとき、この領域のクラスコードclass を上述の（２）式のように定義する。そして、上述のように予測タップのレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nとし、高音質の教師オーディオデータＤ３０のレベルをｙとしたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定する。これを次式、
【００５２】
【数４】

【００５３】
とする。学習前は、ｗ_nが未定係数である。
【００５４】
学習回路３０では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がＭの場合、上述の（４）式に従って、次式、
【００５５】
【数５】

【００５６】
が設定される。但しｋ＝１、２、……Ｍである。
【００５７】
Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは一意的に決まらないので、誤差ベクトルｅの要素を次式、
【００５８】
【数６】

【００５９】
によって定義し（但し、ｋ＝１、２、……、Ｍ）、次式、
【００６０】
【数７】

【００６１】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【００６２】
ここで、（７）式によるｗ_nの偏微分係数を求める。この場合、次式、
【００６３】
【数８】

【００６４】
を「０」にするように、各ｗ_n（ｎ＝１〜６）を求めれば良い。
【００６５】
そして、次式、
【００６６】
【数９】

【００６７】
【数１０】

【００６８】
のように、Ｘ_ij、Ｙ_iを定義すると、（８）式は行列を用いて次式、
【００６９】
【数１１】

【００７０】
として表される。
【００７１】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではｎ＝６である。
【００７２】
全ての学習用データ（教師オーディオデータＤ３０、クラスコードclass 、予測タップＤ３３、Ｄ３８）の入力が完了した後、予測係数算出部３６は各クラスコードclass に上述の（１１）式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Ｗ_nについて解き、各クラスコード毎に、予測係数を算出する。このとき、予測係数算出部３６は、平均値算出部３８から供給されたＤＣ値補正タップを補正項として各予測係数の算出時に付加して演算することにより、クラス分類部３４においてオーディオ波形のダイナミックレンジで正規化された際に変化するオーディオ波形のＤＣ成分を、可変予測抽出部３３において切り出されたオーディオ波形の平均値で補正することができ、所望とするオーディオデータＤ１６が得られる。予測係数算出部３６は、算出された各予測係数（Ｄ３６）を予測係数メモリ１５に書き込む。
【００７３】
このような学習を行った結果、予測係数メモリ１５には、量子化データｑ₁、……、ｑ₆で規定されるパターン毎に、高音質のオーディオデータ（及び平均値）ｙを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ１５は、図１について上述したオーディオ信号処理装置１０において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【００７４】
このように、学習回路３０は、オーディオ信号処理装置１０において補間処理を行う程度を考慮して、生徒信号生成フィルタ３７で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置１０における補間処理のための予測係数を生成することができる。
【００７５】
以上の構成において、学習回路３０では、生徒オーディオデータＤ３７のＤＣ成分（平均値）を予測係数演算部３６に供給することにより、予測係数算出部３６では、クラス分類部３４においてオーディオ波形のダイナミックレンジで正規化処理する際に劣化したオーディオ波形のＤＣ成分を補正することができる。従って予測係数メモリ１５には、ＤＣ成分が補正された係数が記憶される。
【００７６】
これに対してオーディオ信号処理装置１０では、入力オーディオデータＤ１０のＤＣ成分（平均値）を予測演算部１６に供給することにより、予測演算部１６では、クラス分類部１４においてオーディオ波形のダイナミックレンジで正規化処理する際に劣化したオーディオ波形のＤＣ成分を補正することができる。従ってＤＣ成分が補正された予測タップとＤＣ成分の劣化がない予測係数とを用いて予測演算が行われることにより、所望とする高音質のオーディオデータＤ１６が得られる。
【００７７】
以上の構成によれば、ＤＣ成分を抽出し、当該ＤＣ成分に基づいてオーディオ信号の変換時にＤＣ成分を補正するようにしたことにより、一段と高音質のオーディオデータＤ１６を得ることができる。
【００７８】
なお上述の実施の形態においては、可変予測演算部抽出部１３、３３において切り出されたオーディオ波形の領域の平均値を算出する場合について述べたが、本発明はこれに限らず、例えば図１及び図６との対応部分に同一符号を付して示す図７及び図８に示すように、平均値算出部抽出部１９、３９において例えばオーディオ波形のゼロクロスや極性の個数等から平均値を算出する範囲を決定し、当該決定された範囲での平均値Ｄ１９、Ｄ３９を算出するようにしても良い。
【００７９】
また上述の実施の形態においては、オーディオ信号処理装置１０及び学習回路３０において、平均値算出部１８、３８で算出された平均値（ＤＣ成分）Ｄ１８、Ｄ３８をＤＣ成分補正タップ（ＤＣ値クラス）として８ビットに正規化して予測演算部１６、３６に供給する場合について述べたが、本発明はこれに限らず、例えば図１及び図６との対応部分に同一の符号を付して示す図９及び図１０に示すように、平均値算出部１８′、３８′で算出された平均値（ＤＣ成分）をＤＣ値クラスデータＤ１８′、Ｄ３８′としてクラス分類部１４′、３４′に供給するようにしても良い。
【００８０】
この場合、クラス分類部１４′、３４′は、平均値算出部１８′、３８′から供給されるＤＣ値クラスデータＤ１８′、Ｄ３８′と同様の時間軸領域に分割されたクラスタップデータＤ１２、Ｄ３２のクラスコードclass と、ＤＣ値クラスデータＤ１８′、Ｄ３８′のクラスコードCLASS とを対応させて統合したクラスコードデータ（class ′）Ｄ１４、Ｄ３４を生成する。
【００８１】
このように平均値算出部１８′、３８′で算出された平均値（ＤＣ成分）をＤＣ値クラスデータＤ１８′、Ｄ３８′としてクラス分類部１４′、３４′に供給するようにすれば、クラス分類の頻度を一段と多くすることができ、かくして、クラス分類された結果に基づく予測係数を用いて入力オーディオデータの予測演算を行うオーディオ信号処理装置１０は、一段と高音質のオーディオデータに変換することができる。
【００８２】
また上述の実施の形態においては、オーディオ信号処理装置１０及び学習回路３０において、ピッチ検出部１１、３１で検出されたピッチサイズとその位置とをピッチクラスとして可変クラス分類部抽出部１２、３２に供給する場合について述べたが、本発明はこれに限らず、例えば図１及び図６との対応部分に同一の符号を付して示す図１１及び図１２に示すように、ピッチ検出部１１′、３１′で検出されたピッチ数をピッチクラスデータＤ１１、Ｄ３１としてクラス分類部１４′及び３４′に供給するようにしても良い。
【００８３】
この場合、クラス分類部１４′及び３４′は、可変クラス分類部抽出部１２から供給されるピッチクラスデータＤ１１、Ｄ３１と同様の時間領域に分割されたクラスタップデータＤ１２、Ｄ３２のクラスコードclass と、ピッチクラスデータＤ１１、Ｄ３１のクラスコードCLASS とを対応させて統合したクラスコードデータ（class ′）Ｄ１４、Ｄ３４を生成する。
【００８４】
このようにピッチ検出部１１′、３１′で検出されたピッチ数をピッチクラスデータＤ１１、Ｄ３１としてクラス分類部１４′及び３４′に供給するようにすれば、クラス分類の頻度を一段と多くすることができ、かくして、クラス分類された結果に基づく予測係数を用いて入力オーディオデータの予測演算を行うオーディオ信号処理装置１０は、一段と高音質のオーディオデータに変換することができる。
【００８５】
また上述の実施の形態においては、オーディオ信号処理装置１０及び学習回路３０において、平均値（ＤＣ成分）Ｄ１８、Ｄ３８をＤＣ成分補正タップ（ＤＣ値クラス）として８ビットに正規化して予測演算部１６、３６に供給すると共に、ピッチ検出部１１、３１で検出されたピッチサイズとその位置とをピッチクラスとして可変クラス分類部抽出部１２、３２に供給する場合について述べたが、本発明はこれに限らず、図９及び図１０に示したように、平均値算出部１８′、３８′で算出された平均値（ＤＣ成分）をＤＣ値クラスデータＤ１８′、Ｄ３８′としてクラス分類部１４′、３４′に供給すると共に、図１２及び図１３に示したように、ピッチ検出部１１′、３１′で検出されたピッチ数をピッチクラスデータＤ１１、Ｄ３１としてクラス分類部１４′及び３４′に供給するようにしても良い。
【００８６】
この場合、クラス分類部１４′及び３４′は、クラスタップデータＤ１２、Ｄ３２のクラスコードと、ＤＣ値クラスデータＤ１８′、Ｄ３８′のクラスコードと、ピッチクラスデータＤ１１、Ｄ３１のクラスコードとを対応させて統合したクラスコードデータを生成する。
【００８７】
これによりオーディオ信号処理装置１０及び学習回路３０は、クラス分類の頻度をさらに一段と多くすることができ、かくして、クラス分類された結果に基づく予測係数を用いて入力オーディオデータの予測演算を行うオーディオ信号処理装置１０は、一段と高音質のオーディオデータに変換することができる。
【００８８】
また上述の実施の形態においては、オーディオ波形のピッチを検出する方法として自己相関を用いる場合について述べたが、本発明はこれに限らず、例えばオーディオ波形に対してフーリエ変換を施すケプストラム分析やパターン認識等、他の種々の方法を適用することができる。
【００８９】
また上述の実施の形態においては、クラス分類のためのタップの切り出しサイズと、予測演算用のタップの切り出し領域とを同一サイズとした場合について述べたが、本発明はこれに限らず、クラス分類用のタップの切り出しサイズと予測演算用のタップの切り出しサイズは異なるようにしても良く、さらには、ピッチ検出部１１において検出された自己相関の強さに応じて切り出しサイズを変化させるようにしても良い。この場合、例えば自己相関が強い程切り出しサイズを大きくすることができる。
【００９０】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法等の種々の予測方式を適用することができる。
【００９１】
また上述の実施の形態においては、クラス分類部１４においてＡＤＲＣにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化（ＤＰＣＭ:Differrential Pulse Code Modulation) 又はベクトル量子化（ＶＱ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【００９２】
また上述の実施の形態においては、学習回路３０の生徒信号生成フィルタ３７において教師オーディオデータＤ３０から所定サンプルを間引く場合について述べたが、本発明はこれに限らず、例えばビット数を間引く等、他の種々の方法を適用することができる。
【００９３】
また上述の実施の形態においては、ピッチ検出を行うオーディオ信号処理装置１０及びその学習回路３０に本発明を適用した場合について述べたが、本発明はこれに限らず、他の種々の方法（例えば包絡線に基づいてクラス分類する方法）等においても適用することができる。
【００９４】
【発明の効果】
上述のように本発明によれば、ディジタルオーディオ信号のピッチを検出し、当該ピッチに基づいてディジタルオーディオ信号のクラスを分類し、分類されたクラスに対応した予測係数及びディジタルオーディオ信号の直流成分の値を用いてディジタルオーディオ信号を予測演算することによりディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成するようにしたことにより、規則性を持ったオーディオ波形の特徴に基づく予測演算を行うことができると共にオーディオ波形の直流成分が補正できるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができ、かくして、ディジタルオーディオ信号の波形再現性を一段と向上した高音質のディジタルオーディオ信号への変換を行うことができる。
【００９５】
また、上述のように本発明によれば、ディジタルオーディオ信号のピッチを検出し、当該ピッチに基づいてディジタルオーディオ信号のクラスを分類すると共に、ディジタルオーディオ信号の直流成分の値のクラスを分類し、分類されたそれぞれのクラスを統合して新たなクラスを生成し、新たなクラスに対応した予測係数を用いてディジタルオーディオ信号を予測演算することによりディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成するようにしたことにより、規則性を持ったオーディオ波形の特徴に基づく予測演算を行うことができると共にオーディオ波形の直流成分が補正できるので、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができ、かくして、ディジタルオーディオ信号の波形再現性を一段と向上した高音質のディジタルオーディオ信号への変換を行うことができる。
【図面の簡単な説明】
【図１】本発明によるディジタル信号処理装置の構成を示すブロック図である。
【図２】ディジタルオーディオ信号のピッチの説明に供する信号波形図である。
【図３】ピッチの無いディジタルオーディオ信号の処理の説明に供する信号波形図である。
【図４】オーディオ信号処理装置の構成を示すブロック図である。
【図５】オーディオ信号変換処理手順を示すフローチャートである。
【図６】本発明による学習装置の構成を示すブロック図である。
【図７】他の実施の形態によるオーディオ信号変換処理装置の構成を示すブロック図である。
【図８】他の実施の形態による学習装置の構成を示すブロック図である。
【図９】他の実施の形態によるオーディオ信号変換処理装置の構成を示すブロック図である。
【図１０】他の実施の形態による学習装置の構成を示すブロック図である。
【図１１】他の実施の形態によるオーディオ信号変換処理装置の構成を示すブロック図である。
【図１２】他の実施の形態による学習装置の構成を示すブロック図である。
【符号の説明】
１０……オーディオ信号処理装置、１１、３１……ピッチ検出部、１１′、３１′……ピッチ検出部、１４、３４……クラス分類部、１４′、３４′……クラス分類部、１５……予測係数メモリ、１６……予測演算部、１８、３８……平均値算出部、１８′、３８′……平均値算出部、１９、３９……平均値算出部抽出部、３６……予測係数算出部、３７……生徒信号生成フィルタ。

Claims

ディジタルオーディオ信号を変換するディジタル信号処理装置において、
上記ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記分類されたクラスに対応した予測係数及び上記ディジタルオーディオ信号の直流成分の値を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
を具えることを特徴とするディジタル信号処理装置。
上記予測係数は予め所望とするディジタルオーディオ信号に基づいて学習により生成されている
ことを特徴とする請求項１に記載のディジタル信号処理装置。
ディジタルオーディオ信号を変換するディジタル信号処理方法において、
上記ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記分類されたクラスに対応した予測係数及び上記ディジタルオーディオ信号の直流成分の値を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算ステップと
を具えることを特徴とするディジタル信号処理方法。
上記予測係数は予め所望とするディジタルオーディオ信号に基づいて学習により生成されている
ことを特徴とする請求項３に記載のディジタル信号処理方法。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号の直流成分の値とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
を具えることを特徴とする学習装置。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成するステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出ステップと、
上記ピッチに基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号の直流成分の値とに基づいて上記クラスに対応する予測係数を算出するステップと
を具えることを特徴とする学習方法。
ディジタルオーディオ信号を変換するディジタル信号処理装置において、
上記ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいて上記ディジタルオーディオ信号のクラスを分類すると共に、上記ディジタルオーディオ信号の直流成分の値のクラスを分類し、上記分類されたそれぞれのクラスを統合して新たなクラスを生成するクラス分類手段と、
上記新たなクラスに対応した予測係数を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する予測演算手段と
を具えることを特徴とするディジタル信号処理装置。
上記予測係数は予め所望とするディジタルオーディオ信号に基づいて学習により生成されている
ことを特徴とする請求項７に記載のディジタル信号処理装置。
ディジタルオーディオ信号を変換するディジタル信号処理方法において、
上記ディジタルオーディオ信号のピッチを検出するステップと、
上記ピッチに基づいて上記ディジタルオーディオ信号のクラスを分類すると共に、上記ディジタルオーディオ信号の直流成分の値のクラスを分類し、上記分類されたそれぞれのクラスを統合して新たなクラスを生成するステップと、
上記新たなクラスに対応した予測係数を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成するステップと
を具えることを特徴とするディジタル信号処理方法。
上記予測係数は予め所望とするディジタルオーディオ信号に基づいて学習により生成されている
ことを特徴とする請求項９に記載のディジタル信号処理方法。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、
上記生徒ディジタルオーディオ信号のピッチを検出するピッチ検出手段と、
上記ピッチに基づいて上記生徒ディジタルオーディオ信号のクラスを分類すると共に、上記生徒ディジタルオーディオ信号の直流成分の値のクラスを分類し、上記分類されたそれぞれのクラスを統合して新たなクラスを生成するクラス分類手段と、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号の直流成分の値とに基づいて上記新たなクラスに対応する予測係数を算出する予測係数算出手段と
を具えることを特徴とする学習装置。
ディジタルオーディオ信号を変換するディジタル信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成するステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するステップと、
上記ピッチに基づいて上記生徒ディジタルオーディオ信号のクラスを分類すると共に、上記生徒ディジタルオーディオ信号の直流成分の値のクラスを分類し、上記分類されたそれぞれのクラスを統合して新たなクラスを生成するステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号の直流成分の値とに基づいて上記新たなクラスに対応する予測係数を算出するステップと
を具えることを特徴とする学習方法。
ディジタルオーディオ信号のピッチを検出するステップと、
上記ピッチに基づいて上記ディジタルオーディオ信号をクラス分類するステップと、
上記分類されたクラスに対応した予測係数及び上記ディジタルオーディオ信号の直流成分の値を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成するステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成するステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するステップと、
上記ピッチに基づいて上記生徒ディジタルオーディオ信号クラス分類するステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号の直流成分の値とに基づいて上記クラスに対応する予測係数を算出するステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
ディジタルオーディオ信号のピッチを検出するステップと、
上記ピッチに基づいて上記ディジタルオーディオ信号のクラスを分類すると共に、上記ディジタルオーディオ信号の直流成分の値のクラスを分類し、上記分類されたそれぞれのクラスを統合して新たなクラスを生成するステップと、
上記新たなクラスに対応した予測係数を用いて上記ディジタルオーディオ信号を予測演算することにより上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成するステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成するステップと、
上記生徒ディジタルオーディオ信号のピッチを検出するステップと、
上記ピッチに基づいて上記生徒ディジタルオーディオ信号のクラスを分類すると共に、上記生徒ディジタルオーディオ信号の直流成分の値のクラスを分類し、上記分類されたそれぞれのクラスを統合して新たなクラスを生成するステップと、
上記ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号の直流成分の値とに基づいて上記新たなクラスに対応する予測係数を算出するステップと
を実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。