JP4596196B2 - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 - Google Patents

ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 Download PDF

Info

Publication number
JP4596196B2
JP4596196B2 JP2000238894A JP2000238894A JP4596196B2 JP 4596196 B2 JP4596196 B2 JP 4596196B2 JP 2000238894 A JP2000238894 A JP 2000238894A JP 2000238894 A JP2000238894 A JP 2000238894A JP 4596196 B2 JP4596196 B2 JP 4596196B2
Authority
JP
Japan
Prior art keywords
envelope
audio signal
digital audio
class
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000238894A
Other languages
English (en)
Other versions
JP2002049400A (ja
Inventor
哲二郎 近藤
勉 渡辺
裕人 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000238894A priority Critical patent/JP4596196B2/ja
Priority to PCT/JP2001/006593 priority patent/WO2002013180A1/ja
Priority to US10/089,389 priority patent/US7584008B2/en
Priority to DE60134750T priority patent/DE60134750D1/de
Priority to EP01956772A priority patent/EP1306830B1/en
Publication of JP2002049400A publication Critical patent/JP2002049400A/ja
Priority to NO20021365A priority patent/NO324512B1/no
Application granted granted Critical
Publication of JP4596196B2 publication Critical patent/JP4596196B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Description

【0001】
【発明の属する技術分野】
本発明はディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又はPCM(Pulse Code Modulation) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体に適用して好適なものである。
【0002】
【従来の技術】
従来、ディジタルオーディオ信号をディジタル/アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル/アナログコンバータから出力されたディジタルオーディオ信号はアナログ・アンチ・エイリアス・フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のイメージ雑音の影響が排除されるようになされている。
【0003】
かかるオーバサンプリング処理では、通常、線形一次(直線)補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。
【0004】
【発明が解決しようとする課題】
ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次補間によって時間軸方向に対してデータ量が数倍に緻密になっているものの、オーバサンプリング処理後のディジタルオーディオ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしもA/D変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。
【0005】
また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング・レート・コンバータを用いて周波数を変換しているが、かかる場合でも線形一次ディジタルフィルタによって直線的なデータの補間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディオ信号のデータサンプルが欠落した場合において同様である。
【0006】
本発明は以上の点を考慮してなされたもので、ディジタルオーディオ信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。
【0007】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、入力ディジタルオーディオ信号の包絡線に基づいて入力ディジタルオーディオ信号のクラスを分類し、当該分類されたクラスオーディオに対応した予測係数を用いて入力ディジタルオーディオ信号を変換するようにしたことにより、一段と入力ディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【0008】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【0009】
(1)第1の実施の形態
図1においてオーディオ信号処理装置10は、ディジタルオーディオ信号(以下これをオーディオデータと呼ぶ)のサンプリングレートを上げたり、オーディオデータを補間する際に、真値に近いオーディオデータをクラス分類適用処理によって生成するようになされている。因みに、ディジタルオーディオ信号とは、人や動物が発する声を表す音声信号、楽器が発する楽音を表す楽音信号、及びその他の音を表す信号を意味するものである。
【0010】
すなわち、オーディオ信号処理装置10において、包絡線算出部11は入力端子TINから供給された図2(A)に示す入力オーディオデータD10を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、後述する包絡線算出方法によりその包絡線を算出する。
【0011】
包絡線算出部11は入力オーディオデータD10のこのとき分割された時間領域の包絡線算出結果を入力オーディオデータD10の包絡線波形データD11(図2(B))としてクラス分類部14に供給する。
【0012】
また、クラス分類部抽出部12は入力端子TINから供給された図2(A)に示す入力オーディオデータD10を、包絡線算出部11の場合と同様の時間領域(この実施の形態の場合例えば6サンプル)に分割することによりクラス分類しようとするオーディオ波形データD12を抽出し、これをクラス分類部14に供給する。
【0013】
クラス分類部14は、クラス分類抽出部12において切り出されたオーディオ波形データD12に対応する包絡線波形データD11について、当該包絡線波形データD11を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データD11の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0014】
ADRC回路部は包絡線波形データD11に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0015】
具体的には、包絡線波形上の6つの8ビットのデータ(包絡線波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つの包絡線波形データに対して1ビットの量子化を実行すると、6つの包絡線波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0016】
ここで、ADRC回路部は、切り出された領域内の包絡線のダイナミックレンジをDR、ビット割り当をm、各包絡線波形データのデータレベルをL、量子化コードをQとすると、次式、
【0017】
【数1】
Figure 0004596196
【0018】
に従って、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。なお、(1)式において{ }は小数点以下の切り捨て処理を意味する。かくして包絡線算出部11において算出された包絡線上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0019】
このようにして圧縮された包絡線波形データをそれぞれqn (n=1〜6)とすると、クラス分類部14に設けられたクラスコード発生回路部は、圧縮された包絡線波形データqn に基づいて、次式、
【0020】
【数2】
Figure 0004596196
【0021】
に示す演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータD14を予測係数メモリ15に供給する。このクラスコードclass は、予測係数メモリ15から予測係数を読み出す際の読み出しアドレスを示す。因みに(2)式において、nは圧縮された包絡線波形データqn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0022】
このようにして、クラス分類部14はクラス分類部抽出部12において入力オーディオデータD10から切り出されたオーディオ波形データD12に対応する包絡線波形データD11のクラスコードデータD14を生成し、これを予測係数メモリ15に供給する。
【0023】
予測係数メモリ15には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部14から供給されるクラスコードデータD14に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットw1 〜wn が読み出され、予測演算部16に供給される。
【0024】
予測演算部16は、予測演算部抽出部13において入力オーディオデータD10から時間軸領域で切り出された予測演算しようとするオーディオ波形データ(予測タップ)D13(x1 〜xn )と、予測係数w1 〜wn に対して、次式
【0025】
【数3】
Figure 0004596196
【0026】
に示す積和演算を行うことにより、予測結果y′を得る。この予測値y′が、音質が改善されたオーディオデータD16(図2(C))として予測演算部16から出力される。
【0027】
なお、オーディオ信号処理装置10の構成として図1について上述した機能ブロックを示したが、この機能ブロックを構成する具体的構成として、この実施の形態においては図3に示すコンピュータ構成の装置を用いる。すなわち、図3において、オーディオ信号処理装置10は、バスBUSを介してCPU21、ROM(Read Only Memory)22、予測係数メモリ15を構成するRAM(Random Access Memory)15、及び各回路部がそれぞれ接続された構成を有し、CPU11はROM22に格納されている種々のプログラムを実行することにより、図1について上述した各機能ブロック(包絡線算出部11、クラス分類部抽出部12、予測演算部抽出部13、クラス分類部14及び予測演算部16)として動作するようになされている。
【0028】
また、オーディオ信号処理装置10にはネットワークとの間で通信を行う通信インターフェース24、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ28を有し、ネットワーク経由又は外部記憶媒体から図1について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置25のハードディスクに読み込み、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。
【0029】
ユーザは、キーボードやマウス等の入力手段26を介して種々のコマンドを入力することにより、CPU21に対して図1について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置10はデータ入出力部27を介して音質を向上させようとするオーディオデータ(入力オーディオデータ)D10を入力し、当該入力オーディオデータD10に対してクラス分類適用処理を施した後、音質が向上したオーディオデータD16をデータ入出力部27を介して外部に出力し得るようになされている。
【0030】
因みに、図4はオーディオ信号処理装置10におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置10はステップSP101から当該処理手順に入ると、続くステップSP102において入力オーディオデータD10の包絡線を包絡線算出部11において算出する。
【0031】
この算出された包絡線は入力オーディオデータD10の特徴を表すものであり、オーディオ信号処理装置10は、ステップSP103に移ってクラス分類部14により包絡線に基づいてクラスを分類する。そしてオーディオ信号処理装置10はクラス分類の結果得られたクラスコードを用いて予測係数メモリ15から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置10はクラスコードに対応した予測係数を読み出すことにより、このときの包絡線の特徴に合致した予測係数を用いることができる。
【0032】
予測係数メモリ15から読み出された予測係数は、ステップSP104において予測演算部16の予測演算に用いられる。これにより、入力オーディオデータD10はその包絡線の特徴に適応した予測演算により、所望とするオーディオデータD16に変換される。かくして入力オーディオデータD10はその音質が改善されたオーディオデータD16に変換され、オーディオ信号処理装置10はステップSP105に移って当該処理手順を終了する。
【0033】
次に、オーディオ信号処理装置10の包絡線算出部11における入力オーディオデータD10の包絡線の算出方法について説明する。
【0034】
すなわち、図5に示すように、包絡線算出部11(図1)は包絡線算出処理手順RT1に入ると、ステップSP1において外部から入力されてくる正負の極性がある入力オーディオデータD10をデータ入出力部27を介して入力し、続くステップSP2及びSP10に移る。
【0035】
ステップSP2において包絡線算出部11は、図6に示すように、外部から入力されてくる正負の極性がある入力オーディオデータD10のうち、正領域AR1の信号成分のみを検出及び保持し、負領域AR2の信号線分をゼロレベルとし、ステップSP3に移る。
【0036】
ステップSP3において包絡線算出部11は、図7に示すように、正領域AR1の入力オーディオデータD10の振幅がゼロレベルと重なるサンプリング時間位置DO1からその次に振幅がゼロレベルと重なるサンプリング時間位置DO2までの間(以下、これをゼロクロス間と呼ぶ)CR1での振幅の最大値x1を検出し、当該最大値x1が予め包絡線検出プログラムにて設定されている閾値よりも高い値であるか否かを判断する。
【0037】
因みに、包絡線検出プログラムで予め設定される閾値は、ゼロクロス間の振幅の最大値x1を包絡線の候補値(サンプリング点)とするか否かを決定づける所定の値となっており、結果としてなめらかな包絡線を検出し得るような値に設定しておき、このときの判断対象であるゼロクロス間CR1の振幅の最大値x1が当該閾値よりも高い値となる場合にはステップSP4に移る。また、このときの判断対象であるゼロクロス間の振幅の最大値が閾値よりも低い値となる場合、包絡線算出部11は、当該閾値よりも高い値となる最大値x1(候補値(サンプリング点))が存在するゼロクロス間CR1を検出するまで続ける。
【0038】
ステップSP4において包絡線算出部11は、候補値(サンプルリング点)とされた最大値x1が存在するゼロクロス間CR1の次のゼロクロス間CR2の最大値x2を検出(図7)し、ステップSP5に移る。
【0039】
ステップSP5において包絡線算出部11は、ステップSP3及びSP4において得られた各最大値x1及びx2に対してf(t)=p( t2 −t1 )で表される関数によって算出された値に最大値x1を乗じた値が当該最大値x2よりも高い値であるか否かを判断する。
【0040】
因みに、関数f(t) において、「t2 」及び「t1 」は、各最大値x1及びx2が検出されたサンプリング時間位置を表しており、例えばこのとき入力される信号(入力オーディオデータD10)がサンプリング周波数8kHz、量子化16bit と想定した場合、ゼロクロス間のサンプル数は5〜20サンプルとなる場合が多いため、「t2 」及び「t1 」においても5〜20サンプルとなる。また、「p」は任意に設定し得るパラメータであり、例えばこのとき入力される信号(入力オーディオデータD10)がサンプリング周波数8kHz、量子化16bit と想定した場合、p=−90などとされる。
【0041】
さらに関数f(t)=p( t2 −t1 )で表される値に最大値x1を乗じた値は、最大値x1及びx2間の傾きを表すようになされており、当該関数f(t)=p( t2 −t1 )で表される値に最大値x1を乗じた値よりも最大値x2の値のほうが大きい場合には、最大値x1と最大値x2との振幅差が少ないことにより、結果としてなめらかな包絡線を検出し得る。従って、このときの判断対象である最大値x2が当該関数によって表される値に最大値x1を乗じた値よりも高い値となる場合にはステップSP5において肯定結果を得、続くステップSP6に移る。
【0042】
これに対して最大値x2が当該関数によって表される値に最大値x1を乗じた値よりも低い値となる場合には、ステップSP4において、関数によって表される値に最大値x1を乗じた値よりも高い値である最大値x2(図7)が検出されるまでゼロクロス間(CR3・・・CRn)の振幅の最大値x2(図7)を検出するようになされており、このとき再度検出して得られた最大値x2と、ステップSP3において得られた最大値x1とに対して、f(t)=p( t2 −t1 )で表される関数によって算出された値に最大値x1を乗じた値が再度検出して得られた最大値x2よりも高い値であると判断されるまで最大値x2の検出を繰り返す。
【0043】
ステップSP6において包絡線算出部11は、包絡線の候補値(サンプリング点)とされた最大値x1及び最大値x2間のデータに対して線形一次補間方法を用いて補間処理を施し、続くステップSP7及びSP8に移る。
【0044】
ステップSP7において包絡線算出部11は、補間処理を施した最大値x1及び最大値x2間のデータ及び候補値(サンプリング点)を包絡線データD11(図1)として、クラス分類部14(図1)に出力する。
【0045】
また、ステップSP8において包絡線算出部11は、外部から入力されてくる入力オーディオデータD10が全て入力されたか否かを判断する。ここで否定結果が得られると、このことは入力オーディオデータD10が続いて入力されていることを表しており、このとき包絡線算出部11は、ステップSP3に戻って、入力オーディオデータD10の正領域AR1からゼロクロス間CR1の振幅の最大値x1を再び検出する。
【0046】
これに対して、ステップSP8において肯定結果が得られると、このことは入力オーディオデータD10を全て入力し終わったことを表しており、このとき包絡線算出部11は、ステップSP20に移って包絡線算出処理手順RT1を終了する。
【0047】
一方、ステップSP10において包絡線算出部11は、外部から入力される正負の極性がある入力オーディオデータD10のうち、負領域AR2(図6)の信号成分のみを検出及び保持し、正領域AR1(図6)の信号成分をゼロレベルとし、ステップSP11に移る。
【0048】
ステップSP11において包絡線算出部11は、図8に示すように、負領域AR2のゼロクロス間CR11の振幅の最大値x11を検出し、ステップSP3と同様に最大値x11が予め包絡線検出プログラムにて設定されている閾値よりも負方向に高い値であるか否かを判断する。ここで肯定結果が得られた(すなわち、閾値よりも負方向に高い値である)場合には、ステップSP12に移り、否定結果が得られた(すなわち、閾値よりも負方向に低い値である)場合には、閾値よりも負方向に高い値となる最大値y11が検出されるまでステップSP11の検出処理を続ける。
【0049】
ステップSP12において包絡線算出部11は、候補値(サンプリング点)とされた最大値x11が含まれるゼロクロス間CR′1の次のゼロクロス間CR′2の振幅の最大値x12を検出(図8)し、ステップSP13に移る。
【0050】
ステップSP13において包絡線算出部11は、ステップSP5と同様にステップSP11及びSP12において得られた各最大値x11及びx12に対してf(t)=p( t12−t11)で表される関数によって算出された値に最大値x11を乗じた値が最大値x12よりも負の方向に高い値であるか否かを判断する。因みに、「p」は任意に設定し得るパラメータであり、例えばこのとき入力される入力オーディオデータD10がサンプリング周波数8kHz、量子化16bit と想定した場合、p=90などとされる。
【0051】
包絡線算出部11は、ステップSP13において、肯定結果が得られた(すなわち、f(t)=p( t12−t11)で表される関数によって算出された値に最大値x11を乗じた値が最大値x12よりも負の方向に高い値である)場合には、ステップSP14に移り、否定結果が得られた(すなわち、f(t)=p( t12−t11)で表される関数によって算出された値に最大値x11を乗じた値が最大値x12よりも負の方向に低い値である)場合には、ステップSP12において、f(t)=p( t12−t11)で表される関数によって算出された値に最大値x11を乗じた値よりも負の方向に高い値である最大値x12(図8)が検出されるまでゼロクロス間(CR′3・・・CR′n)の振幅の最大値x12(図8)を検出する。
【0052】
ステップSP14において包絡線算出部11は、包絡線の候補値(サンプリング点)とされた最大値x11及び最大値x12間のデータに対して線形一次補間方法を用いて補間処理を施し、続くステップSP7及びSP15に移る。
【0053】
ステップSP7において包絡線算出部11は、補間処理を施した最大値x11及び最大値x12間のデータ及び候補値(サンプリング点)を包絡線データD11(図1)として、クラス分類部14(図1)に出力する。
【0054】
また、ステップSP15において包絡線算出部11は、外部から入力されてくる入力オーディオデータD10が全て入力されたか否かを判断する。ここで否定結果が得られると、このことは入力オーディオデータD10が続いて入力されていることを表しており、このとき包絡線算出部11は、ステップSP11に戻って、入力オーディオデータD10の負領域AR2からゼロクロス間の振幅の最大値x11を再び検出する。
【0055】
これに対して、ステップSP15において肯定結果が得られると、このことは入力オーディオデータD10を全て入力し終わったことを表しており、このとき包絡線算出部11は、ステップSP20に移って包絡線算出処理手順RT1を終了する。
【0056】
このように、包絡線算出部11は簡単な包絡線算出アルゴリズムによって、結果として正領域AR1では図9に示すような、なめらかな包絡線ENV5、及び負領域AR2では図10に示すような、なめらかな包絡線ENV6を生成させ得る包絡線データ(候補値(サンプリング点)と、補間処理を行った候補値間のデータ)をリアルタイムに算出することができる。
【0057】
次に、図1について上述した予測係数メモリ15に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【0058】
図11において、学習回路30は、高音質の教師オーディオデータD30を生徒信号生成フィルタ37に受ける。生徒信号生成フィルタ37は、間引き率設定信号D39により設定された間引き率で教師オーディオデータD30を所定時間ごとに所定サンプル間引くようになされている。
【0059】
この場合、生徒信号生成フィルタ37における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置10で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置10においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ37ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置10において入力オーディオデータD10の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ37ではデータサンプルを欠落させる間引き処理を行うようになされている。
【0060】
かくして、生徒信号生成フィルタ37は教師オーディオデータ30から所定の間引き処理により生徒オーディオデータD37を生成し、これを包絡線算出部31、クラス分類部抽出部32及び予測演算部抽出部33にそれぞれ供給する。
【0061】
包絡線算出部31は生徒信号生成フィルタ37から供給された生徒オーディオデータD37を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、図5について上述した包絡線算出方法によりその包絡線を算出する。
【0062】
包絡線算出部31は生徒オーディオデータD37のこのとき分割された時間領域の包絡線算出結果を生徒オーディオデータD37の包絡線波形データD31としてクラス分類部34に供給する。
【0063】
また、クラス分類部抽出部32は生徒信号生成フィルタ37から供給された生徒オーディオデータD37を、包絡線算出部31の場合と同様の時間領域(この実施の形態の場合例えば6サンプル)に分割することによりクラス分類しようとするオーディオ波形データD32を抽出し、これをクラス分類部34に供給する。
【0064】
クラス分類部34は、クラス分類抽出部32において切り出されたオーディオ波形データD32に対応する包絡線波形データD31について、当該包絡線波形データD31を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データD31の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0065】
ADRC回路部は包絡線波形データD31に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0066】
具体的には、包絡線波形上の6つの8ビットのデータ(包絡線波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つの包絡線波形データに対して1ビットの量子化を実行すると、6つの包絡線波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0067】
ここで、ADRC回路部は、切り出された領域内の包絡線のダイナミックレンジをDR、ビット割り当をm、各包絡線波形データのデータレベルをL、量子化コードをQとして、上述の(1)式と同様の演算により、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。かくして包絡線算出部1において算出された包絡線上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0068】
このようにして圧縮された包絡線波形データをそれぞれqn (n=1〜6)とすると、クラス分類部34に設けられたクラスコード発生回路部は、圧縮された包絡線波形データqn に基づいて、上述の(2)式と同様の演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータD34を予測係数算出部36に供給する。因みに(2)式において、nは圧縮された包絡線波形データqn の数を表し、この実施の形態の場合n=6であり、またPはビット割り当てを表し、この実施の形態の場合P=2である。
【0069】
このようにして、クラス分類部34はクラス分類部抽出部32において切り出されたオーディオ波形データD32に対応する包絡線波形データD31のクラスコードデータD34を生成し、これを予測係数算出部36に供給する。また、予測係数算出部36には、クラスコードデータD34に対応した時間軸領域のオーディオ波形データD33(x1 、x2 、……、xn )が予測演算部抽出部33において切り出されて供給される。
【0070】
予測係数算出部36は、クラス分類部34から供給されたクラスコードclass と、各クラスコードclass 毎に切り出されたオーディオ波形データD33と、入力端TINから供給された高音質の教師オーディオデータD30とを用いて、正規方程式を立てる。
【0071】
すなわち、生徒オーディオデータD37のnサンプルのレベルをそれぞれx1 、x2 、……、xn として、それぞれにpビットのADRCを行った結果の量子化データをq1 、……、qn とする。このとき、この領域のクラスコードclass を上述の(2)式のように定義する。そして、上述のように生徒オーディオデータD37のレベルをそれぞれ、x1 、x2 、……、xn とし、高音質の教師オーディオデータD30のレベルをyとしたとき、クラスコード毎に、予測係数w1 、w2 、……、wn によるnタップの線形推定式を設定する。これを次式、
【0072】
【数4】
Figure 0004596196
【0073】
とする。学習前は、wn が未定係数である。
【0074】
学習回路30では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数がMの場合、上述の(4)式に従って、次式、
【0075】
【数5】
Figure 0004596196
【0076】
が設定される。但しk=1、2、……Mである。
【0077】
M>nの場合、予測係数w1 、……wn は一意的に決まらないので、誤差ベクトルeの要素を次式、
【0078】
【数6】
Figure 0004596196
【0079】
によって定義し(但し、k=1、2、……、M)、次式、
【0080】
【数7】
Figure 0004596196
【0081】
を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【0082】
ここで、(7)式によるwn の偏微分係数を求める。この場合、次式、
【0083】
【数8】
Figure 0004596196
【0084】
を「0」にするように、各wn (n=1〜6)を求めれば良い。
【0085】
そして、次式、
【0086】
【数9】
Figure 0004596196
【0087】
【数10】
Figure 0004596196
【0088】
のように、Xij、Yi を定義すると、(8)式は行列を用いて次式、
【0089】
【数11】
Figure 0004596196
【0090】
として表される。
【0091】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではn=6である。
【0092】
全ての学習用データ(教師オーディオデータD30、クラスコードclass 、オーディオ波形データD33)の入力が完了した後、予測係数算出部36は各クラスコードclass に上述の(11)式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Wn について解き、各クラスコード毎に、予測係数を算出する。予測係数算出部36は、算出された各予測係数(D36)を予測係数メモリ15に書き込む。
【0093】
このような学習を行った結果、予測係数メモリ15には、量子化データq1 、……、q6 で規定されるパターン毎に、高音質のオーディオデータyを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ15は、図1について上述したオーディオ信号処理装置10において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。
【0094】
このように、学習回路30は、オーディオ信号処理装置10において補間処理を行う程度を考慮して、生徒信号生成フィルタ37で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置10における補間処理のための予測係数を生成することができる。
【0095】
以上の構成において、オーディオ信号処理装置10は、包絡線算出部11において入力オーディオデータD10の時間波形領域での包絡線を算出する。この包絡線は入力オーディオデータD10の音質ごとに変わるもので、オーディオ信号処理装置10は入力オーディオデータD10の包絡線に基づいてそのクラスを特定する。
【0096】
オーディオ信号処理装置10は、予め学習時に例えば歪みのない高音質のオーディオデータ(教師オーディオデータ)を得るための予測係数をクラス毎に求めておき、包絡線に基づいてクラス分類された入力オーディオデータD10をそのクラスに応じた予測係数により予測演算する。これにより、入力オーディオデータD10はその音質に応じた予測係数を用いて予測演算されるので、実用上十分な程度に音質が向上する。
【0097】
また、クラス毎の予測係数を生成する学習時において、位相の異なる多数の教師オーディオデータについてそれぞれに対応した予測係数を求めておくことにより、オーディオ信号処理装置10における入力オーディオデータD10のクラス分類適応処理時に位相変動が生じても、位相変動に対応した処理を行うことができる。
【0098】
以上の構成によれば、入力オーディオデータD10の時間波形領域における包絡線に基づいて入力オーディオデータD10をクラス分類し、当該クラス分類された結果に基づく予測係数を用いて入力オーディオデータD10を予測演算するようにしたことにより、入力オーディオデータD10を一段と高音質のオーディオデータD16に変換することができる。
【0099】
なお上述の実施の形態においては、オーディオ信号処理装置10及び学習装置30において、クラス分類部抽出部12、32及び予測演算部抽出部13、33により入力オーディオデータD10、D37を常に一定の範囲毎に切り出す場合について述べたが、本発明はこれに限らず、例えば図1及び図11との対応部分に同一符号を付して示す図12及び図13に示すように、包絡線算出部11、31において算出された包絡線の特徴に基づいて抽出制御信号CONT11、CONT31を可変クラス分類部抽出部12′、可変予測演算部抽出部13′及び可変クラス分類部抽出部32′、可変予測演算部抽出部33′に供給することにより入力オーディオデータD10、D37の切り出し範囲を制御するようにしても良い。
【0100】
また上述の実施の形態においては、包絡線データD11に基づいてクラス分類する場合について述べたが、本発明はこれに限らず、クラス分類部抽出部12において入力オーディオデータD10の波形からクラス分類を行うと共に、包絡線算出部11において包絡線のクラスを算出し、これら2つのクラス情報をクラス分類部14において統合することにより、入力オーディオデータD10の波形とその包絡線との両方に基づくクラス分類を行うようにしても良い。
【0101】
(2)第2の実施の形態
図1との対応部分に同一符号を付して示す図14において包絡線算出部11は入力端子TINから供給された図15(A)に示す入力オーディオデータD10を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、図5について上述した包絡線算出方法によりその包絡線を算出する。
【0102】
包絡線算出部11は入力オーディオデータD10のこのとき分割された時間領域の包絡線算出結果を入力オーディオデータD10の包絡線波形データD11(図15(C))としてクラス分類部14、包絡線残差算出部111及び包絡線予測演算部116に供給する。
【0103】
包絡線残差算出部111は入力オーディオデータD10と、包絡線算出部11から供給された包絡線データD11との残差を求め、これを正規化部112において正規化することにより、入力オーディオデータD10の搬送波D112(図15(B))を抽出し、これを変調部117に供給する。
【0104】
クラス分類部14は、包絡線波形データD11について、当該包絡線波形データD11を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データD11の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0105】
ADRC回路部は包絡線波形データD11に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0106】
具体的には、包絡線波形上の6つの8ビットのデータ(包絡線波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つの包絡線波形データに対して1ビットの量子化を実行すると、6つの包絡線波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0107】
ここで、ADRC回路部は、切り出された領域内の包絡線のダイナミックレンジをDR、ビット割り当をm、各包絡線波形データのデータレベルをL、量子化コードをQとすると、上述の(1)式に従って、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。なお、(1)式において{ }は小数点以下の切り捨て処理を意味する。かくして包絡線算出部1において算出された包絡線上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0108】
このようにして圧縮された包絡線波形データをそれぞれqn (n=1〜6)とすると、クラス分類部14に設けられたクラスコード発生回路部は、圧縮された包絡線波形データqn に基づいて、上述の(2)式に示す演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータD14を予測係数メモリ15に供給する。このクラスコードclass は、予測係数メモリ15から予測係数を読み出す際の読み出しアドレスを示す。
【0109】
このようにして、クラス分類部14は包絡線波形データD11のクラスコードデータD14を生成し、これを予測係数メモリ15に供給する。
【0110】
予測係数メモリ15には、各クラスコードに対応する予測係数のセットがクラスコードに対応するアドレスにそれぞれ記憶されており、クラス分類部14から供給されるクラスコードデータD14に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセットW1 〜Wn が読み出され、包絡線予測演算部116に供給される。
【0111】
包絡線予測演算部116は、包絡線算出部11において算出された包絡線波形データD11(X1 〜Xn )と、予測係数W1 〜Wn に対して、上述の(3)式に示す積和演算を行うことにより、予測結果y′を得る。この予測値y′が、音質が改善されたオーディオデータの包絡線データD116(図14(C))として変調部117に供給される。
【0112】
かくして、変調部117は、包絡線残差算出部111から供給された搬送波D112を包絡線データD116により変調することにより、図15(D)に示すような音質が改善されたオーディオデータD117を生成し、これを出力する。
因みに、図16はオーディオ信号処理装置100におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置100はステップSP111から当該処理手順に入ると、続くステップSP112において入力オーディオデータD10の包絡線を包絡線算出部11において算出する。
【0113】
この算出された包絡線は入力オーディオデータD10の特徴を表すものであり、オーディオ信号処理装置10は、ステップSP113に移ってクラス分類部14により包絡線に基づいてクラスを分類する。そしてオーディオ信号処理装置100はクラス分類の結果得られたクラスコードを用いて予測係数メモリ115から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置100はクラスコードに対応した予測係数を読み出すことにより、このときの包絡線の特徴に合致した予測係数を用いることができる。
【0114】
予測係数メモリ115から読み出された予測係数は、ステップSP114において包絡線予測演算部116の予測演算に用いられる。これにより、入力オーディオデータD10の包絡線の特徴に適応した予測演算により、所望とするオーディオデータD117を得るための新たな包絡線が算出される。ステップSP114において新たな包絡線が算出されると、オーディオ信号処理装置100は続くステップSP115において入力オーディオデータD10の搬送波を新たな包絡線により変調することにより、所望とするオーディオデータD117を得る。
【0115】
かくして入力オーディオデータD10はその音質が改善されたオーディオデータD117に変換され、オーディオ信号処理装置100はステップSP116に移って当該処理手順を終了する。
【0116】
次に、図14について上述した予測係数メモリ15に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。
【0117】
図10との対応部分に同一符号を付して示す図16において、学習回路130は、高音質の教師オーディオデータD130を生徒信号生成フィルタ37に受ける。生徒信号生成フィルタ37は、間引き率設定信号D39により設定された間引き率で教師オーディオデータD130を所定時間ごとに所定サンプル間引くようになされている。
【0118】
この場合、生徒信号生成フィルタ37における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置100で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置100においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ37ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置100において入力オーディオデータD10の欠落したデータサンプルを補うことで音質の向上を図る場合には、これに応じて、生徒信号生成フィルタ37ではデータサンプルを欠落させる間引き処理を行うようになされている。
【0119】
かくして、生徒信号生成フィルタ37は教師オーディオデータD130から所定の間引き処理により生徒オーディオデータD37を生成し、これを包絡線算出部31に供給する。
【0120】
包絡線算出部31は生徒信号生成フィルタ37から供給された生徒オーディオデータD37を所定時間毎の領域(この実施の形態の場合、例えば6サンプル毎とする)に分割した後、当該分割された各時間領域の波形について、図4について上述した包絡線算出方法によりその包絡線を算出する。
【0121】
包絡線算出部31は生徒オーディオデータD37のこのとき分割された時間領域の包絡線算出結果を生徒オーディオデータD37の包絡線波形データD31としてクラス分類部34に供給する。
【0122】
クラス分類部34は、包絡線波形データD31を圧縮して圧縮データパターンを生成するADRC(Adaptive Dynamic Range Coding) 回路部と、包絡線波形データD31の属するクラスコードを発生するクラスコード発生回路部とを有する。
【0123】
ADRC回路部は包絡線波形データD31に対して、例えば8ビットから2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。このADRC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。
【0124】
具体的には、包絡線波形上の6つの8ビットのデータ(包絡線波形データ)をクラス分類しようとする場合、248という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部14ではその内部に設けられたADRC回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば6つの包絡線波形データに対して1ビットの量子化を実行すると、6つの包絡線波形データを6ビットで表すことができ、26 =64クラスに分類することができる。
【0125】
ここで、ADRC回路部は、切り出された領域内の包絡線のダイナミックレンジをDR、ビット割り当をm、各包絡線波形データのデータレベルをL、量子化コードをQとして、上述の(1)式と同様の演算により、領域内の最大値MAXと最小値MINとの間を指定されたビット長で均等に分割して量子化を行う。かくして包絡線算出部1において算出された包絡線上の6つの波形データが、それぞれ例えば8ビット(m=8)で構成されているとすると、これらはADRC回路部においてそれぞれが2ビットに圧縮される。
【0126】
このようにして圧縮された包絡線波形データをそれぞれqn (n=1〜6)とすると、クラス分類部34に設けられたクラスコード発生回路部は、圧縮された包絡線波形データqn に基づいて、上述の(2)式と同様の演算を実行することにより、そのブロック(q1 〜q6 )が属するクラスを示すクラスコードclass を算出し、当該算出されたクラスコードclass を表すクラスコードデータD34を予測係数算出部136に供給する。
【0127】
このようにして、クラス分類部34は包絡線波形データD31のクラスコードデータD34を生成し、これを予測係数算出部136に供給する。また、予測係数算出部136には、生徒オーディオデータD37に基づいて算出された包絡線波形データD31(x1 、x2 、……、xn )が供給される。
【0128】
予測係数算出部136は、クラス分類部34から供給されたクラスコードclass と、生徒オーディオデータD37に基づいて各クラスコードclass 毎に算出された包絡線波形データD31と、入力端TINから供給された教師オーディオデータD130から包絡線算出部135において抽出された包絡線データ搬送波D135(図15(B))とを用いて、正規方程式を立てる。
【0129】
すなわち、生徒オーディオデータD37に基づいて算出された包絡線波形データD31のnサンプルのレベルをそれぞれx1 、x2 、……、xn として、それぞれにpビットのADRCを行った結果の量子化データをq1 、……、qn とする。このとき、この領域のクラスコードclass を上述の(2)式のように定義する。そして、上述のように生徒オーディオデータD37に基づいて算出された包絡線波形データD31のレベルをそれぞれ、x1 、x2 、……、xn とし、高音質の教師オーディオデータD130の包絡線波形のレベルをyとしたとき、クラスコード毎に、予測係数w1 、w2 、……、wn によるnタップの線形推定式を設定する。これを上述の(4)式とする。学習前は、wn が未定係数である。
【0130】
学習回路130では、クラスコード毎に、複数のオーディオデータ(包絡線)に対して学習を行う。データサンプル数がMの場合、上述の(4)式に従って、上述の(5)式が設定される。但しk=1、2、……Mである。
【0131】
M>nの場合、予測係数w1 、……wn は一意的に決まらないので、誤差ベクトルeの要素を(6)式によって定義し(但し、k=1、2、……、M)、(7)式を最小にする予測係数を求める。いわゆる、最小自乗法による解法である。
【0132】
ここで、(7)式によるwn の偏微分係数を求める。この場合、(8)式を「0」にするように、各Wn (n=1〜6)を求めれば良い。
【0133】
そして、(9)式及び(10)式のように、Xij、Yi を定義すると、(8)式は行列を用いて(11)式として表される。
【0134】
この方程式は、一般に正規方程式と呼ばれている。なお、ここではn=6である。
【0135】
全ての学習用データ(教師オーディオデータD30、クラスコードclass 、オーディオ波形データD33)の入力が完了した後、予測係数算出部36は各クラスコードclass に上述の(11)式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各Wn について解き、各クラスコード毎に、予測係数を算出する。予測係数算出部36は、算出された各予測係数(D36)を予測係数メモリ15に書き込む。
【0136】
このような学習を行った結果、予測係数メモリ15には、量子化データq1 、……、q6 で規定されるパターン毎に、高音質のオーディオデータyを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ15は、図14について上述したオーディオ信号処理装置100において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディオデータを作成するための予測係数の学習が終了する。因みに、通常のオーディオデータから高音質のオーディオデータを作成する方法としては、線形推定式に限らず、種々の方法を適用し得る。
【0137】
このように、学習回路130は、オーディオ信号処理装置100において補間処理を行う程度を考慮して、生徒信号生成フィルタ37で高音質の教師オーディオデータの間引き処理を行うことにより、オーディオ信号処理装置100における補間処理のための予測係数を生成することができる。
【0138】
以上の構成において、オーディオ信号処理装置100は、包絡線算出部11において入力オーディオデータD10の時間波形領域での包絡線を算出する。この包絡線は入力オーディオデータD10の音質ごとに変わるもので、オーディオ信号処理装置100は入力オーディオデータD10の包絡線に基づいてそのクラスを特定する。
【0139】
オーディオ信号処理装置10は、予め学習時に例えば歪みのない高音質のオーディオデータ(教師オーディオデータ)を得るための予測係数をクラス毎に求めておき、包絡線に基づいてクラス分類された入力オーディオデータD10の包絡線をそのクラスに応じた予測係数により予測演算する。これにより、入力オーディオデータD10の包絡線はその音質に応じた予測係数を用いて予測演算されるので、実用上十分な程度に音質が向上したオーディオデータ波形の包絡線が得られる。この包絡線に基づいて搬送波を変調することにより、音質が向上したオーディオデータが得られる。
【0140】
また、クラス毎の予測係数を生成する学習時において、位相の異なる多数の教師オーディオデータについてそれぞれに対応した予測係数を求めておくことにより、オーディオ信号処理装置100における入力オーディオデータD10のクラス分類適応処理時に位相変動が生じても、位相変動に対応した処理を行うことができる。
【0141】
以上の構成によれば、入力オーディオデータD10の時間波形領域における包絡線に基づいて入力オーディオデータD10をクラス分類し、当該クラス分類された結果に基づく予測係数を用いて入力オーディオデータD10の包絡線を予測演算するようにしたことにより、入力オーディオデータD10を一段と高音質のオーディオデータD117に変換し得る包絡線を生成できる。
【0142】
また上述の実施の形態においては、包絡線データD11に基づいてクラス分類する場合について述べたが、本発明はこれに限らず、クラス分類部14に入力オーディオデータD10を入力し、当該クラス分類部14において入力オーディオデータD10の波形に基づくクラス分類を行うと共に、包絡線算出部11において包絡線のクラス分類を行い、クラス分類部14においてこれら2つのクラスを統合することにより、入力オーディオデータD10の波形とその包絡線の両方に基づくクラス分類を行うようにしても良い。
【0143】
(3)他の実施の形態
なお上述の実施の形態においては、図5について上述した包絡線算出方法を用いる場合について述べたが、本発明はこれに限らず、例えば単にピーク値を結ぶ方法等、他の種々の包絡線算出方法を適用することができる。
【0144】
また上述の実施の形態においては、予測方式として線形一次による手法を用いる場合について述べたが、本発明はこれに限らず、要は学習した結果を用いるようにすれば良く、例えば多次関数による手法、さらには入力端子TINから供給されるディジタルデータが画像データの場合には、画素値自体から予測する手法等、種々の予測方式を適用することができる。
【0145】
また上述の実施の形態においては、クラス分類部14においてADRCにより圧縮データパターンを生成する場合について述べたが、本発明はこれに限らず、可逆符号化(DPCM:Differrential Pulse Code Modulation) 又はベクトル量子化(VQ:Vector Quantize) 等の圧縮手段を用いるようにしても良い。
【0146】
また上述の実施の形態においては、学習回路30の生徒信号生成フィルタ37において所定サンプル数を間引く場合について述べたが、本発明はこれに限らず、例えばビット数を削減する等、他の種々の方法を適用することができる。
【0147】
また上述の実施の形態においては、オーディオデータを処理する装置に本発明を適用する場合について述べたが、本発明はこれに限らず、画像データや他の種々のデータを変換する場合に広く適用することができる。
【0148】
【発明の効果】
上述のように本発明によれば、入力ディジタルオーディオ信号の包絡線に基づいて入力ディジタルオーディオ信号のクラスを分類し、当該分類されたクラスオーディオに対応した予測係数を用いて入力ディジタルオーディオ信号を変換するようにしたことにより、一段と入力ディジタルオーディオ信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図1】本発明によるディジタル信号処理装置の第1の実施の形態を示すブロック図である。
【図2】包絡線を用いたクラス分類適応処理の説明に供する信号波形図である。
【図3】オーディオ信号処理装置の構成を示すブロック図である。
【図4】第1の実施の形態のオーディオ信号変換処理手順を示すフローチャートである。
【図5】包絡線の算出処理手順を示すフローチャートである。
【図6】包絡線の算出方法の説明に供する信号波形図である。
【図7】包絡線の算出方法の説明に供する信号波形図である。
【図8】包絡線の算出方法の説明に供する信号波形図である。
【図9】包絡線の算出方法の説明に供する信号波形図である。
【図10】包絡線の算出方法の説明に供する信号波形図である。
【図11】本発明による学習装置の第1の実施の形態を示すブロック図である。
【図12】ディジタル信号処理装置の他の実施の形態を示すブロック図である。
【図13】学習装置の他の実施の形態を示すブロック図である。
【図14】本発明によるディジタル信号処理装置の第2の実施の形態を示すブロック図である。
【図15】第2の実施の形態によるクラス分類適応処理の説明に供する信号波形図である。
【図16】第2の実施の形態のオーディオ信号変換処理手順を示すフローチャートである。
【図17】本発明による学習装置の第2の実施の形態を示すブロック図である。
【符号の説明】
10、100……オーディオ信号処理装置、11、31……包絡線算出部、14、34……クラス分類部、15、115……予測係数メモリ、16……予測演算部、36……予測係数算出部、37……生徒信号生成フィルタ、111……包絡線残差算出部、112……正規化部、116……包絡線予測演算部、117……変調部。

Claims (16)

  1. 入力ディジタルオーディオ信号を変換するディジタル信号処理装置において、
    上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出手段と、
    上記算出された包絡線に基づいて上記入力ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
    上記分類されたクラスに対応する予測係数を用いて上記入力ディジタルオーディオ信号を予測演算することにより上記入力ディジタルオーディオ信号を変換してなるディジタルオーディオ信号を生成する予測演算手段と
    を具えるディジタル信号処理装置。
  2. 上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
    求項1に記載のディジタル信号処理装置。
  3. 入力ディジタルオーディオ信号を変換するディジタル信号処理方法において、
    上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
    上記算出された包絡線に基づいて上記入力ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記分類されたクラスに対応する予測係数を用いて上記入力ディジタルオーディオ信号を予測演算することにより上記入力ディジタルオーディオ信号を変換してなるディジタルオーディオ信号を生成する予測演算ステップと
    有するディジタル信号処理方法。
  4. 上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
    求項に記載のディジタル信号処理方法。
  5. 入力ディジタルオーディオ信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
    所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成手段と、
    上記生徒ディジタルオーディオ信号の包絡線を算出する包絡線算出手段と、
    上記算出された包絡線に基づいて上記生徒ディジタル信号のクラスを分類するクラス分類手段と、
    上記入力ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号を用いた演算により上記クラスに対応する予測係数を算出する予測係数算出手段と
    を具える学習装置。
  6. 入力ディジタル信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
    所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
    上記生徒ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
    上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記入力ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号を用いた演算により上記クラスに対応する予測係数を算出する予測係数算出ステップと
    有する学習方法。
  7. 入力ディジタル信号を変換するディジタルオーディオ信号処理装置において、
    上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出手段と、
    上記算出された包絡線に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
    上記分類されたクラスに対応した予測係数と上記包絡線を用いて新たな包絡線を予測演算する包絡線予測演算手段と、
    上記入力ディジタルオーディオ信号から搬送波を抽出する搬送波抽出手段と、
    上記包絡線予測演算手段によって算出された上記新たな包絡線に基づいて上記搬送波を変調することにより上記入力ディジタルオーディオ信号を変換してなる新たなディジタルオーディオ信号を生成する変調手段と
    を具えるディジタル信号処理装置。
  8. 上記包絡線予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる
    求項に記載のディジタル信号処理装置。
  9. 入力ディジタルオーディオ信号を変換するディジタル信号処理方法において、
    上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
    上記算出された包絡線に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記分類されたクラスに対応した予測係数と上記包絡線を用いて新たな包絡線を予測演算する包絡線予測演算ステップと、
    上記入力ディジタルオーディオ信号から搬送波を抽出するステップと、
    上記包絡線予測演算ステップによって算出された上記新たな包絡線に基づいて上記搬送波を変調することにより上記入力ディジタルオーディオ信号を変換してなる新たなディジタル信号を生成するステップと
    有するディジタル信号処理方法。
  10. 上記包絡線予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる
    求項に記載のディジタル信号処理方法。
  11. 入力ディジタル信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習装置において、
    所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成手段と、
    上記生徒ディジタルオーディオ信号の包絡線を算出する第1の包絡線算出手段と、
    上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類手段と、
    上記入力ディジタルオーディオ信号の包絡線を算出する第2の包絡線算出手段と、
    上記第1の包絡線算出手段により算出された上記生徒ディジタルオーディオ信号の包絡線と上記第2の包絡線算出手段により算出された上記入力ディジタルオーディオ信号の包絡線とに基づいて上記クラスに対応する予測係数を算出する予測係数算出手段と
    を具える学習装置。
  12. 入力ディジタルオーディオ信号を変換するディジタルオーディオ信号処理装置の変換処理の予測演算に用いられる予測係数を生成する学習方法において、
    所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
    上記生徒ディジタルオーディオ信号の包絡線を算出する第1の包絡線算出ステップと、
    上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記入力ディジタルオーディオ信号の包絡線を算出する第2の包絡線算出ステップと、
    上記算出された上記生徒ディジタルオーディオ信号の包絡線と上記算出された上記入力ディジタルオーディオ信号の包絡線とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
    有する学習方法。
  13. 上記入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
    上記算出された包絡線に基づいて上記入力ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記分類されたクラスに対応する予測係数を用いて上記入力ディジタルオーディオ信号を予測演算することにより上記入力ディジタルオーディオ信号を変換してなるディジタルオーディオ信号を生成する予測演算ステップと
    実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
  14. 所望とするディジタルオーディオ信号から当該ディジタルオーディオ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
    上記生徒ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
    上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記入力ディジタルオーディオ信号と上記生徒ディジタルオーディオ信号を用いた演算により上記クラスに対応する予測係数を算出する予測係数算出ステップと
    実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
  15. 入力ディジタルオーディオ信号の包絡線を算出する包絡線算出ステップと、
    上記算出された包絡線に基づいて上記ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記分類されたクラスに対応した予測係数と上記包絡線を用いて新たな包絡線を予測演算する包絡線予測演算ステップと、
    上記入力ディジタルオーディオ信号から搬送波を抽出するステップと、
    上記包絡線予測演算ステップによって算出された上記新たな包絡線に基づいて上記搬送波を変調することにより上記入力ディジタルオーディオ信号を変換してなる新たなディジタル信号を生成するステップと
    実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
  16. 所望とするディジタルオーディオ信号から当該ディジタル信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタル信号生成ステップと、
    上記生徒ディジタルオーディオ信号の包絡線を算出する第1の包絡線算出ステップと、
    上記算出された包絡線に基づいて上記生徒ディジタルオーディオ信号のクラスを分類するクラス分類ステップと、
    上記入力ディジタルオーディオ信号の包絡線を算出する第2の包絡線算出ステップと、
    上記算出された上記生徒ディジタルオーディオ信号の包絡線と上記算出された上記入力ディジタルオーディオ信号の包絡線とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと
    実行させるためのプログラムを記録したコンピュータ読取可能なプログラム格納媒体。
JP2000238894A 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 Expired - Fee Related JP4596196B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2000238894A JP4596196B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
PCT/JP2001/006593 WO2002013180A1 (fr) 2000-08-02 2001-07-31 Traitement de signaux numeriques, systeme d'apprentissage appareil a cet effet et support de stockage de programmes
US10/089,389 US7584008B2 (en) 2000-08-02 2001-07-31 Digital signal processing method, learning method, apparatuses for them, and program storage medium
DE60134750T DE60134750D1 (de) 2000-08-02 2001-07-31 Verfahren zur digitalen signalverarbeitung, lernmethode, vorrichtungen und programmspeichermedium dafuer
EP01956772A EP1306830B1 (en) 2000-08-02 2001-07-31 Digital signal processing method, learning method, apparatuses for them, and program storage medium
NO20021365A NO324512B1 (no) 2000-08-02 2002-03-19 Digital signalprosesseringsfremgangsmate, laeremetode og apparater av disse, og programmeringsmedium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000238894A JP4596196B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Publications (2)

Publication Number Publication Date
JP2002049400A JP2002049400A (ja) 2002-02-15
JP4596196B2 true JP4596196B2 (ja) 2010-12-08

Family

ID=18730525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000238894A Expired - Fee Related JP4596196B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Country Status (6)

Country Link
US (1) US7584008B2 (ja)
EP (1) EP1306830B1 (ja)
JP (1) JP4596196B2 (ja)
DE (1) DE60134750D1 (ja)
NO (1) NO324512B1 (ja)
WO (1) WO2002013180A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4596196B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4538704B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
JP4538705B2 (ja) 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4596197B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3879922B2 (ja) * 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
JP2006145712A (ja) * 2004-11-18 2006-06-08 Pioneer Electronic Corp オーディオデータ補間装置
JP2007133035A (ja) * 2005-11-08 2007-05-31 Sony Corp デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体
JP4321518B2 (ja) * 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4442585B2 (ja) * 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
TWI365442B (en) * 2008-04-09 2012-06-01 Realtek Semiconductor Corp Audio signal processing method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000041168A1 (en) * 1998-12-30 2000-07-13 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis celp-type speech coding

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57144600A (en) * 1981-03-03 1982-09-07 Nippon Electric Co Voice synthesizer
JPS60195600A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 パラメ−タ内插方法
JP3033159B2 (ja) * 1990-08-31 2000-04-17 ソニー株式会社 可変長符号化のビット長推定回路
JP3297751B2 (ja) 1992-03-18 2002-07-02 ソニー株式会社 データ数変換方法、符号化装置及び復号化装置
JP2747956B2 (ja) * 1992-05-20 1998-05-06 国際電気株式会社 音声復号装置
JPH0651800A (ja) * 1992-07-30 1994-02-25 Sony Corp データ数変換方法
JP3511645B2 (ja) 1993-08-30 2004-03-29 ソニー株式会社 画像処理装置及び画像処理方法
JP3400055B2 (ja) 1993-12-25 2003-04-28 ソニー株式会社 画像情報変換装置及び画像情報変換方法並びに画像処理装置及び画像処理方法
US5555465A (en) * 1994-05-28 1996-09-10 Sony Corporation Digital signal processing apparatus and method for processing impulse and flat components separately
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
JP3693187B2 (ja) 1995-03-31 2005-09-07 ソニー株式会社 信号変換装置及び信号変換方法
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
KR100499434B1 (ko) 1997-05-06 2005-07-07 소니 가부시끼 가이샤 이미지 변환기 및 이미지 변환 방법
JP4062771B2 (ja) * 1997-05-06 2008-03-19 ソニー株式会社 画像変換装置および方法、並びに記録媒体
JP3946812B2 (ja) 1997-05-12 2007-07-18 ソニー株式会社 オーディオ信号変換装置及びオーディオ信号変換方法
JP4139979B2 (ja) * 1998-06-19 2008-08-27 ソニー株式会社 画像変換装置および方法、並びに記録媒体
JP4035895B2 (ja) * 1998-07-10 2008-01-23 ソニー株式会社 画像変換装置および方法、並びに記録媒体
US6658155B1 (en) * 1999-03-25 2003-12-02 Sony Corporation Encoding apparatus
JP4596196B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645866B2 (ja) 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4596197B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4538705B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4538704B2 (ja) 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
JP4645867B2 (ja) 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645868B2 (ja) 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000041168A1 (en) * 1998-12-30 2000-07-13 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis celp-type speech coding

Also Published As

Publication number Publication date
DE60134750D1 (de) 2008-08-21
EP1306830A4 (en) 2006-09-20
WO2002013180A1 (fr) 2002-02-14
EP1306830A1 (en) 2003-05-02
JP2002049400A (ja) 2002-02-15
EP1306830B1 (en) 2008-07-09
US20050075743A1 (en) 2005-04-07
NO20021365D0 (no) 2002-03-19
NO20021365L (no) 2002-05-31
US7584008B2 (en) 2009-09-01
NO324512B1 (no) 2007-11-05

Similar Documents

Publication Publication Date Title
JP4596196B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JPH07248794A (ja) 音声信号処理方法
CN108198571B (zh) 一种基于自适应带宽判断的带宽扩展方法及系统
JP3946812B2 (ja) オーディオ信号変換装置及びオーディオ信号変換方法
JPH0644712B2 (ja) 信号処理方式
JP4596197B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645869B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US6990475B2 (en) Digital signal processing method, learning method, apparatus thereof and program storage medium
JP4645867B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US20030108108A1 (en) Decoder, decoding method, and program distribution medium therefor
JP4645866B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645868B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US5696875A (en) Method and system for compressing a speech signal using nonlinear prediction
JP2003511776A (ja) ディジタル信号を補間する方法および装置
JP4538704B2 (ja) ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
JP4024784B2 (ja) オーディオ復号装置
JP6333043B2 (ja) 音声信号処理装置
JP2019035839A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
KR19990061574A (ko) 다중 펄스 여기 선형 예측 부호화/복호화방법 및 그 장치
JP2005102257A (ja) 予測係数生成装置、予測係数生成方法及び予測係数格納媒体
JP2006078882A (ja) 音声録音再生装置
WO1997016821A1 (en) Method and system for compressing a speech signal using nonlinear prediction
JPH0816200A (ja) 音声記録装置
JP2004184568A (ja) デジタルデータ圧縮符号化装置,デジタルデータ圧縮符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100908

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees