JP2002049398A

JP2002049398A - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP2002049398A
Application number: JP2000238897A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Masaaki Hattori; 正明服部; Tsutomu Watanabe; 勉渡辺; Hiroto Kimura; 裕人木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2002-02-15
Anticipated expiration: 2020-08-02
Also published as: US20050154480A1; US6907413B2; US20020184175A1; US6990475B2; US20050177257A1; WO2002013181A1; JP4538705B2

Abstract

(57)【要約】【課題】ディジタル信号の波形再現性を一段と向上し得
るディジタル信号処理方法、学習方法及びそれらの装置
並びにプログラム格納媒体を提案する。【解決手段】ディジタルオーディオ信号Ｄ１０からパワ
ースペクトルデータを算出し、算出されたパワースペク
トルデータから一部のパワースペクトルデータを抽出
し、抽出された一部のパワースペクトルデータに基づい
てそのクラスを分類し、分類されたクラスに対応した予
測方式でディジタルオーディオ信号Ｄ１０を変換するよ
うにしたことにより、一段とディジタルオーディオ信号
Ｄ１０の特徴に適応した変換を行うことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はディジタル信号処理
方法、学習方法及びそれらの装置並びにプログラム格納
媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code
Modulation) 復号装置等においてディジタル信号に対し
てデータの補間処理を行うディジタル信号処理方法、学
習方法及びそれらの装置並びにプログラム格納媒体に適
用して好適なものである。

【０００２】

【従来の技術】従来、ディジタルオーディオ信号をディ
ジタル／アナログコンバータに入力する前に、サンプリ
ング周波数を元の値の数倍に変換するオーバサンプリン
グ処理を行っている。これにより、ディジタル／アナロ
グコンバータから出力されたディジタルオーディオ信号
はアナログ・アンチ・エイリアス・フィルタの位相特性
が可聴周波数高域で一定に保たれ、また、サンプリング
に伴うディジタル系のイメージ雑音の影響が排除される
ようになされている。

【０００３】かかるオーバサンプリング処理では、通
常、線形一次（直線）補間方式のディジタルフィルタが
用いられている。このようなディジタルフィルタは、サ
ンプリングレートが変わったりデータが欠落した場合等
に、複数の既存データの平均値を求めて直線的な補間デ
ータを生成するものである。

【０００４】

【発明が解決しようとする課題】ところが、オーバサン
プリング処理後のディジタルオーディオ信号は、線形一
次補間によって時間軸方向に対してデータ量が数倍に緻
密になっているものの、オーバサンプリング処理後のデ
ィジタルオーディオ信号の周波数帯域は変換前とあまり
変わらず、音質そのものは向上していない。さらに、補
間されたデータは必ずしもＡ／Ｄ変換前のアナログオー
ディオ信号の波形に基づいて生成されたのではないた
め、波形再現性もほとんど向上していない。

【０００５】また、サンプリング周波数の異なるディジ
タルオーディオ信号をダビングする場合において、サン
プリング・レート・コンバータを用いて周波数を変換し
ているが、かかる場合でも線形一次ディジタルフィルタ
によって直線的なデータの補間しか行うことができず、
音質や波形再現性を向上することが困難であった。さら
に、ディジタルオーディオ信号のデータサンプルが欠落
した場合において同様である。

【０００６】本発明は以上の点を考慮してなされたもの
で、ディジタルオーディオ信号の波形再現性を一段と向
上し得るディジタル信号処理方法、学習方法及びそれら
の装置並びにプログラム格納媒体を提案しようとするも
のである。

【０００７】

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、ディジタルオーディオ信号からパ
ワースペクトルデータを算出し、算出されたパワースペ
クトルデータから一部のパワースペクトルデータを抽出
し、抽出された一部のパワースペクトルデータに基づい
てそのクラスを分類し、分類されたクラスに対応した予
測方式でディジタルオーディオ信号を変換するようにし
たことにより、一段とディジタルオーディオ信号の特徴
に適応した変換を行うことができる。

【０００８】

【発明の実施の形態】以下図面について、本発明の一実
施の形態を詳述する。

【０００９】図１においてオーディオ信号処理装置１０
は、ディジタルオーディオ信号（以下これをオーディオ
データと呼ぶ）のサンプリングレートを上げたり、オー
ディオデータを補間する際に、真値に近いオーディオデ
ータをクラス分類適用処理によって生成するようになさ
れている。

【００１０】因みに、この実施の形態におけるオーディ
オデータとは、人間の声や楽器の音等を表す楽音デー
タ、さらにはその他種々の音を表すデータである。

【００１１】すなわち、オーディオ信号処理装置１０に
おいて、スペクトル処理部１１は入力端子Ｔ_INから供給
された入力オーディオデータＤ１０を所定時間毎の領域
（この実施の形態の場合、例えば６サンプル毎とする）
に切り出した時間軸波形データであるクラスタップを構
築した後、当該構築したクラスタップについて、後述す
る対数データ算出方法により、入力手段１８から供給さ
れる制御データＤ１８に応じて対数データを算出する。

【００１２】スペクトル処理部１１は入力オーディオデ
ータＤ１０のこのとき構築されたクラスタップについ
て、対数データ算出方法による算出結果であってクラス
分類しようとする対数データＤ１１を算出し、これをク
ラス分類部１４に供給する。

【００１３】クラス分類部１３は、スペクトル処理部１
１から供給された対数データＤ１１について、当該対数
データＤ１１を圧縮して圧縮データパターンを生成する
ＡＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、
対数データＤ１１の属するクラスコードを発生するクラ
スコード発生回路部とを有する。

【００１４】ＡＤＲＣ回路部は対数データＤ１１に対し
て、例えば８ビットから２ビットに圧縮するような演算
を行うことによりパターン圧縮データを形成する。この
ＡＤＲＣ回路部は、適応的量子化を行うものであり、こ
こでは、信号レベルの局所的なパターンを短い語長で効
率的に表現することができるので、信号パターンのクラ
ス分類のコード発生用に用いられる。

【００１５】具体的には、６つの８ビットのデータ（対
数データ）をクラス分類しようとする場合、２⁴⁸という
膨大な数のクラスに分類しなければならず、回路上の負
担が多くなる。そこで、この実施の形態のクラス分類部
１４ではその内部に設けられたＡＤＲＣ回路部で生成さ
れるパターン圧縮データに基づいてクラス分類を行う。
例えば６つの対数データに対して１ビットの量子化を実
行すると、６つの対数データを６ビットで表すことがで
き、２⁶＝６４クラスに分類することができる。

【００１６】ここで、ＡＤＲＣ回路部は、切り出された
領域内のダイナミックレンジをＤＲ、ビット割り当てを
ｍ、各対数データのデータレベルをＬ、量子化コードを
Ｑとすると、次式、

【００１７】

【数１】

【００１８】に従って、領域内の最大値ＭＡＸと最小値
ＭＩＮとの間を指定されたビット長で均等に分割して量
子化を行う。なお、（１）式において｛｝は小数点以
下の切り捨て処理を意味する。かくしてスペクトル処理
部１１において算出された６つの対数データが、それぞ
れ例えば８ビット（ｍ＝８）で構成されているとする
と、これらはＡＤＲＣ回路部においてそれぞれが２ビッ
トに圧縮される。

【００１９】このようにして圧縮された対数データをそ
れぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部１４
に設けられたクラスコード発生回路部は、圧縮された対
数データｑ_nに基づいて、次式、

【００２０】

【数２】

【００２１】に示す演算を実行することにより、そのブ
ロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコー
ドclass を算出し、当該算出されたクラスコードclass
を表すクラスコードデータＤ１４を予測係数メモリ１５
に供給する。このクラスコードclass は、予測係数メモ
リ１５から予測係数を読み出す際の読み出しアドレスを
示す。因みに（２）式において、ｎは圧縮された対数デ
ータｑ_nの数を表し、この実施の形態の場合ｎ＝６であ
り、またＰはビット割り当てを表し、この実施の形態の
場合Ｐ＝２である。

【００２２】このようにして、クラス分類部１４は入力
オーディオデータＤ１０から算出された対数データＤ１
１のクラスコードデータＤ１４を生成し、これを予測係
数メモリ１５に供給する。

【００２３】予測係数メモリ１５には、各クラスコード
に対応する予測係数のセットがクラスコードに対応する
アドレスにそれぞれ記憶されており、クラス分類部１４
から供給されるクラスコードデータＤ１４に基づいて、
当該クラスコードに対応するアドレスに記憶されている
予測係数のセットＷ₁〜Ｗ_nが読み出され、予測演算部
１６に供給される。

【００２４】予測演算部１６は、予測演算部抽出部１３
において入力オーディオデータＤ１０から時間軸領域で
切り出された予測演算しようとするオーディオ波形デー
タ（予測タップ）Ｄ１３（Ｘ₁〜Ｘ_n）と、予測係数Ｗ
₁〜Ｗ_nに対して、次式

【００２５】

【数３】

【００２６】に示す積和演算を行うことにより、予測結
果ｙ′を得る。この予測値ｙ′が、音質が改善されたオ
ーディオデータＤ１６として予測演算部１６から出力さ
れる。

【００２７】なお、オーディオ信号処理装置１０の構成
として図１について上述した機能ブロックを示したが、
この機能ブロックを構成する具体的構成として、この実
施の形態においては図２に示すコンピュータ構成の装置
を用いる。すなわち、図２において、オーディオ信号処
理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ
(Read Only Memory)２２、予測係数メモリ１５を構成す
るＲＡＭ(Random Access Memory)１５、及び各回路部が
それぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２
２に格納されている種々のプログラムを実行することに
より、図１について上述した各機能ブロック（スペクト
ル処理部１１、予測演算部抽出部１３、クラス分類部１
４及び予測演算部１６）として動作するようになされて
いる。

【００２８】また、オーディオ信号処理装置１０にはネ
ットワークとの間で通信を行う通信インターフェース２
４、フロッピィディスクや光磁気ディスク等の外部記憶
媒体から情報を読み出すリムーバブルドライブ２８を有
し、ネットワーク経由又は外部記憶媒体から図１につい
て上述したクラス分類適用処理を行うための各プログラ
ムをハードディスク装置２５のハードディスクに読み込
み、当該読み込まれたプログラムに従ってクラス分類適
応処理を行うこともできる。

【００２９】ユーザは、キーボードやマウス等の入力手
段１８を介して種々のコマンドを入力することにより、
ＣＰＵ２１に対して図１について上述したクラス分類処
理を実行させる。この場合、オーディオ信号処理装置１
０はデータ入出力部２７を介して音質を向上させようと
するオーディオデータ（入力オーディオデータ）Ｄ１０
を入力し、当該入力オーディオデータＤ１０に対してク
ラス分類適用処理を施した後、音質が向上したオーディ
オデータＤ１６をデータ入出力部２７を介して外部に出
力し得るようになされている。

【００３０】因みに、図３はオーディオ信号処理装置１
０におけるクラス分類適応処理の処理手順を示し、オー
ディオ信号処理装置１０はステップＳＰ１０１から当該
処理手順に入ると、続くステップＳＰ１０２において入
力オーディオデータＤ１０の対数データＤ１１をスペク
トル処理部１１において算出する。

【００３１】この算出された対数データＤ１１は入力オ
ーディオデータＤ１０の特徴を表すものであり、オーデ
ィオ信号処理装置１０は、ステップＳＰ１０３に移って
クラス分類部１４により対数データＤ１１に基づいてク
ラスを分類する。そしてオーディオ信号処理装置１０は
クラス分類の結果得られたクラスコードを用いて予測係
数メモリ１５から予測係数を読み出す。この予測係数は
予め学習によりクラス毎に対応して格納されており、オ
ーディオ信号処理装置１０はクラスコードに対応した予
測係数を読み出すことにより、このときの対数データＤ
１１の特徴に合致した予測係数を用いることができる。

【００３２】予測係数メモリ１５から読み出された予測
係数は、ステップＳＰ１０４において予測演算部１６の
予測演算に用いられる。これにより、入力オーディオデ
ータＤ１０はその対数データＤ１１の特徴に適応した予
測演算により、所望とするオーディオデータＤ１６に変
換される。かくして入力オーディオデータＤ１０はその
音質が改善されたオーディオデータＤ１６に変換され、
オーディオ信号処理装置１０はステップＳＰ１０５に移
って当該処理手順を終了する。

【００３３】次に、オーディオ信号処理装置１０のスペ
クトル処理部１１における入力オーディオデータＤ１０
の対数データＤ１１の算出方法について説明する。

【００３４】すなわち、図４はスペクトル処理部１１に
おける対数データ算出方法の対数データ算出処理手順を
示し、スペクトル処理部１１はステップＳＰ１から当該
処理手順に入ると、続くステップＳＰ２において入力オ
ーディオデータＤ１０を所定時間毎の領域に切り出した
時間軸波形データであるクラスタップを構築し、ステッ
プＳＰ３に移る。

【００３５】ステップＳＰ３において、スペクトル処理
部１１はクラスタップに対して、窓関数を「Ｗ（Ｋ）」
とすると、次式、

【００３６】

【数４】

【００３７】に示すハミング窓に従って、乗算データを
算出し、ステップＳＰ４に移る。因みに、この窓関数の
乗算処理においては、続くステップＳＰ４において行わ
れる周波数分析の精度を向上させるために、このとき構
築されたそれぞれのクラスタップの最初の値と最後の値
を等しくするようになされている。また、（１）式にお
いて、「Ｎ」はハミング窓のサンプル数を表しており、
「ｋ」は何番目のサンプルデータであるかを表してい
る。

【００３８】ステップＳＰ４において、スペクトル処理
部１１は乗算データに対して、高速フーリエ変換（ＦＦ
Ｔ：Fast Fourier Transform）を行うことにより、図５
に示すようなパワースペクトルデータを算出し、ステッ
プＳＰ５に移る。

【００３９】ステップＳＰ５において、スペクトル処理
部１１はパワースペクトルデータから有意であるパワー
スペクトルデータのみを抽出するようになされている。

【００４０】この抽出処理において、Ｎ個の乗算データ
から算出したパワースペクトルデータのうち、Ｎ／２か
ら右側のパワースペクトルデータ群ＡＲ２（図５）は、
ゼロ値からＮ／２までの左側のパワースペクトルデータ
群ＡＲ１（図５）とほぼ同じ成分になる（すなわち、左
右対称となる）。このことは、Ｎ個の乗算データの周波
数帯域内で、両端から等距離にある２個の周波数点にお
けるパワースペクトルデータの成分が互いに共役である
ことを示している。従って、スペクトル処理部１１は、
ゼロ値からＮ／２までの左側のパワースペクトルデータ
群ＡＲ１（図５）のみを抽出対象とする。

【００４１】そしてスペクトル処理部１１は、このとき
抽出対象としたパワースペクトルデータ群ＡＲ１のう
ち、予めユーザが入力手段１８（図１及び図２）を介し
て選択設定した以外のｍ個のパワースペクトルデータを
除いて抽出する。

【００４２】具体的には、ユーザが入力手段１８を介し
て例えば人間の声を一段と高音質にするように選択設定
を行った場合、当該選択操作に応じた制御データＤ１８
が入力手段１８からスペクトル処理部１１に出力され
（図１及び図２）、これによりスペクトル処理部１１
は、このとき抽出したパワースペクトルデータ群ＡＲ１
（図５）から、人間の声において有意となる５００Ｈｚ
から４ｋＨｚ付近のパワースペクトルデータのみを抽出
する（すなわち５００Ｈｚから４ｋＨｚ付近以外のパワ
ースペクトルデータが、除くべきｍ個のパワースペクト
ルデータである）。

【００４３】また、ユーザが入力手段１８（図１及び図
２）を介して例えば音楽を一段と高音質にするように選
択を行った場合には、当該選択操作に応じた制御データ
Ｄ１８が入力手段１８からスペクトル処理部１１に出力
され、これによりスペクトル処理部１１は、このとき抽
出したパワースペクトルデータ群ＡＲ１（図５）から、
音楽において有意となる２０Ｈｚから２０ｋＨｚ付近の
パワースペクトルデータのみを抽出する（すなわち２０
Ｈｚから２０ｋＨｚ付近以外のパワースペクトルデータ
が、除くべきｍ個のパワースペクトルデータである）。

【００４４】このように入力手段１８（図１及び図２）
から出力される制御データＤ１８は、有意なパワースペ
クトルデータとして抽出する周波数成分を決定づけるよ
うになされており、入力手段１８（図１及び図２）を介
して手動で選択操作するユーザの意図を反映している。

【００４５】従って、制御データＤ１８に応じてパワー
スペクトルデータを抽出するスペクトル処理部１１は、
ユーザが高音質での出力を希望する特定のオーディオ成
分の周波数成分を有意なパワースペクトルデータとして
抽出することとなる。

【００４６】因みに、スペクトル処理部１１は、抽出対
象としたパワースペクトルデータ群ＡＲ１のうち、もと
の波形の音程を表すため、有意な特徴をもたない直流成
分のパワースペクトルデータをも除いて抽出するように
なされている。

【００４７】このように、ステップＳＰ５において、ス
ペクトル処理部１１は制御データＤ１８に応じて、パワ
ースペクトルデータ群ＡＲ１（図５）からｍ個のパワー
スペクトルデータを除くと共に、直流成分のパワースペ
クトルデータも除いてなる必要最小限のパワースペクト
ルデータ、すなわち有意なパワースペクトルデータのみ
を抽出し、続くステップＳＰ６に移る。

【００４８】ステップＳＰ６において、スペクトル処理
部１１は抽出されたパワースペクトルデータに対して、
次式、

【００４９】

【数５】

【００５０】に従って、このとき抽出されたパワースペ
クトルデータ（ｐｓ[k] ）の最大値（ｐｓ＿ｍａｘ）を
算出し、次式、

【００５１】

【数６】

【００５２】に従って、このとき抽出されたパワースペ
クトルデータ（ｐｓ[k] ）の最大値（ｐｓ＿ｍａｘ）で
の正規化（除算）し、このとき得られた基準値（ｐｓｎ
[k] ）に対して、次式、

【００５３】

【数７】

【００５４】に従って、対数（デシベル値）変換を行う
ようになされている。因みに（７）式において、ｌｏｇ
は常用対数である。

【００５５】このように、ステップＳＰ６において、ス
ペクトル処理部１１は最大振幅で正規化及び振幅の対数
変換を行うことにより、特徴部分（有意である小さな波
形部分）をも見い出すと共に、結果として、音声を聞く
対象である人間が心地よく聞き得るようにする対数デー
タＤ１１を算出し、続くステップＳＰ７に移って対数デ
ータ算出処理手順を終了する。

【００５６】このようにして、スペクトル処理部１１は
対数データ算出方法の対数データ算出処理手順によっ
て、入力オーディオデータＤ１０で表される信号波形の
特徴を一段と見い出した対数データＤ１１を算出するこ
とができる。次に、図１について上述した予測係数メモ
リ１５に記憶するクラス毎の予測係数のセットを予め学
習によって得るための学習回路について説明する。

【００５７】図６において、学習回路３０は、高音質の
教師オーディオデータＤ３０を生徒信号生成フィルタ３
７に受ける。生徒信号生成フィルタ３７は、間引き率設
定信号Ｄ３９により設定された間引き率で教師オーディ
オデータＤ３０を所定時間ごとに所定サンプル間引くよ
うになされている。

【００５８】この場合、生徒信号生成フィルタ３７にお
ける間引き率によって、生成される予測係数が異なり、
これに応じて上述のオーディオ信号処理装置１０で再現
されるオーディオデータも異なる。例えば、上述のオー
ディオ信号処理装置１０においてサンプリング周波数を
高くすることでオーディオデータの音質を向上しようと
する場合、生徒信号生成フィルタ３７ではサンプリング
周波数を減らす間引き処理を行う。また、これに対して
上述のオーディオ信号処理装置１０において入力オーデ
ィオデータＤ１０の欠落したデータサンプルを補うこと
で音質の向上を図る場合には、これに応じて、生徒信号
生成フィルタ３７ではデータサンプルを欠落させる間引
き処理を行うようになされている。

【００５９】かくして、生徒信号生成フィルタ３７は教
師オーディオデータ３０から所定の間引き処理により生
徒オーディオデータＤ３７を生成し、これをスペクトル
処理部３１及び予測演算部抽出部３３にそれぞれ供給す
る。

【００６０】スペクトル処理部３１は生徒信号生成フィ
ルタ３７から供給された生徒オーディオデータＤ３７を
所定時間毎の領域（この実施の形態の場合、例えば６サ
ンプル毎とする）に分割した後、当該分割された各時間
領域の波形について、図４について上述した対数データ
算出方法による算出結果であってクラス分類しようとす
る対数データＤ３１を算出し、これをクラス分類部３４
に供給する。クラス分類部３４は、スペクトル処理部３
１から供給された対数データＤ３１について、当該対数
データＤ３１を圧縮して圧縮データパターンを生成する
ＡＤＲＣ回路部と、対数データＤ３１の属するクラスコ
ードを発生するクラスコード発生回路部とを有する。

【００６１】ＡＤＲＣ回路部は対数データＤ３１に対し
て、例えば８ビットから２ビットに圧縮するような演算
を行うことによりパターン圧縮データを形成する。この
ＡＤＲＣ回路部は、適応的量子化を行うものであり、こ
こでは、信号レベルの局所的なパターンを短い語長で効
率的に表現することができるので、信号パターンのクラ
ス分類のコード発生用に用いられる。

【００６２】具体的には、６つの８ビットのデータ（対
数データ）をクラス分類しようとする場合、２⁴⁸という
膨大な数のクラスに分類しなければならず、回路上の負
担が多くなる。そこで、この実施の形態のクラス分類部
３４ではその内部に設けられたＡＤＲＣ回路部で生成さ
れるパターン圧縮データに基づいてクラス分類を行う。
例えば６つの対数データに対して１ビットの量子化を実
行すると、６つの対数データを６ビットで表すことがで
き、２⁶＝６４クラスに分類することができる。

【００６３】ここで、ＡＤＲＣ回路部は、切り出された
領域内のダイナミックレンジをＤＲ、ビット割り当てを
ｍ、各対数データのデータレベルをＬ、量子化コードを
Ｑとして、上述の（１）式と同様の演算により、領域内
の最大値ＭＡＸと最小値ＭＩＮとの間を指定されたビッ
ト長で均等に分割して量子化を行う。かくしてスペクト
ル処理部３１において算出された６つの対数データが、
それぞれ例えば８ビット（ｍ＝８）で構成されていると
すると、これらはＡＤＲＣ回路部においてそれぞれが２
ビットに圧縮される。

【００６４】このようにして圧縮された対数データをそ
れぞれｑ_n（ｎ＝１〜６）とすると、クラス分類部３４
に設けられたクラスコード発生回路部は、圧縮された対
数データｑ_nに基づいて、上述の（２）式と同様の演算
を実行することにより、そのブロック（ｑ₁〜ｑ₆）が
属するクラスを示すクラスコードclass を算出し、当該
算出されたクラスコードclass を表すクラスコードデー
タＤ３４を予測係数算出部３６に供給する。因みに
（２）式において、ｎは圧縮された対数データｑ_nの数
を表し、この実施の形態の場合ｎ＝６であり、またＰは
ビット割り当てを表し、この実施の形態の場合Ｐ＝２で
ある。

【００６５】このようにして、クラス分類部３４はスペ
クトル処理部３１から供給された対数データＤ３１のク
ラスコードデータＤ３４を生成し、これを予測係数算出
部３６に供給する。また、予測係数算出部３６には、ク
ラスコードデータＤ３４に対応した時間軸領域のオーデ
ィオ波形データＤ３３（ｘ₁、ｘ₂、……、ｘ_n）が予
測演算部抽出部３３において切り出されて供給される。

【００６６】予測係数算出部３６は、クラス分類部３４
から供給されたクラスコードclassと、各クラスコードc
lass 毎に切り出されたオーディオ波形データＤ３３
と、入力端Ｔ_INから供給された高音質の教師オーディオ
データＤ３０とを用いて、正規方程式を立てる。

【００６７】すなわち、生徒オーディオデータＤ３７の
ｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_n
として、それぞれにｐビットのＡＤＲＣを行った結果の
量子化データをｑ₁、……、ｑ_nとする。このとき、こ
の領域のクラスコードclassを上述の（２）式のように
定義する。そして、上述のように生徒オーディオデータ
Ｄ３７のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_nと
し、高音質の教師オーディオデータＤ３０のレベルをｙ
としたとき、クラスコード毎に、予測係数ｗ₁、ｗ₂、
……、ｗ_nによるｎタップの線形推定式を設定する。こ
れを次式、

【００６８】

【数８】

【００６９】とする。学習前は、Ｗ_nが未定係数であ
る。

【００７０】学習回路３０では、クラスコード毎に、複
数のオーディオデータに対して学習を行う。データサン
プル数がＭの場合、上述の（８）式に従って、次式、

【００７１】

【数９】

【００７２】が設定される。但しｋ＝１、２、……Ｍで
ある。

【００７３】Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは
一意的に決まらないので、誤差ベクトルｅの要素を次
式、

【００７４】

【数１０】

【００７５】によって定義し（但し、ｋ＝１、２、…
…、Ｍ）、次式、

【００７６】

【数１１】

【００７７】を最小にする予測係数を求める。いわゆ
る、最小自乗法による解法である。

【００７８】ここで、（１１）式によるｗ_nの偏微分係
数を求める。この場合、次式、

【００７９】

【数１２】

【００８０】を「０」にするように、各Ｗ_n（ｎ＝１〜
６）を求めれば良い。

【００８１】そして、次式、

【００８２】

【数１３】

【００８３】

【数１４】

【００８４】のように、Ｘ_ij、Ｙ_iを定義すると、（１
２）式は行列を用いて次式、

【００８５】

【数１５】

【００８６】として表される。

【００８７】この方程式は、一般に正規方程式と呼ばれ
ている。なお、ここではｎ＝６である。

【００８８】全ての学習用データ（教師オーディオデー
タＤ３０、クラスコードclass 、オーディオ波形データ
Ｄ３３）の入力が完了した後、予測係数算出部３６は各
クラスコードclass に上述の（１５）式に示した正規方
程式を立てて、この正規方程式を掃き出し法等の一般的
な行列解法を用いて、各Ｗ_nについて解き、各クラスコ
ード毎に、予測係数を算出する。予測係数算出部３６
は、算出された各予測係数（Ｄ３６）を予測係数メモリ
１５に書き込む。

【００８９】このような学習を行った結果、予測係数メ
モリ１５には、量子化データｑ₁、……、ｑ₆で規定さ
れるパターン毎に、高音質のオーディオデータｙを推定
するための予測係数が、各クラスコード毎に格納され
る。この予測係数メモリ１５は、図１について上述した
オーディオ信号処理装置１０において用いられる。かか
る処理により、線形推定式に従って通常のオーディオデ
ータから高音質のオーディオデータを作成するための予
測係数の学習が終了する。

【００９０】このように、学習回路３０は、オーディオ
信号処理装置１０において補間処理を行う程度を考慮し
て、生徒信号生成フィルタ３７で高音質の教師オーディ
オデータの間引き処理を行うことにより、オーディオ信
号処理装置１０における補間処理のための予測係数を生
成することができる。

【００９１】以上の構成において、オーディオ信号処理
装置１０は、入力オーディオデータＤ１０に対して高速
フーリエ変換を行うことにより、周波数軸上にパワース
ペクトルを算出する。周波数分析（高速フーリエ変換）
は、時間軸波形データからでは知りえない微妙な違いを
発見することが可能であることにより、オーディオ信号
処理装置１０は、時間軸領域に特徴を見い出せない微妙
な特徴を見い出し得るようになる。

【００９２】微妙な特徴を見い出し得る状態（すなわ
ち、パワースペクトルを算出した状態）において、オー
ディオ信号処理装置１０は、選択範囲設定手段（ユーザ
が入力手段１８から手動で行う選択設定）に応じて、有
意とされるパワースペクトルデータのみを抽出（すなわ
ち、Ｎ／２−ｍ個）する。

【００９３】これによりオーディオ信号処理装置１０
は、処理負担を一段と軽減することができ、かつ処理速
度を向上させることができる。

【００９４】このように、オーディオ信号処理装置１０
は、周波数分析を行うことにより、微妙な特徴を見い出
し得るようになされたパワースペクトルデータを算出
し、さらに算出したパワースペクトルデータから有意と
されるパワースペクトルデータのみを抽出する。従って
オーディオ信号処理装置１０は、必要最低限の有意なパ
ワースペクトルデータのみを抽出したことになり、当該
抽出したパワースペクトルデータに基づいて、そのクラ
スを特定する。

【００９５】そしてオーディオ信号処理装置１０は、抽
出した有意なパワースペクトルデータに基づいて特定し
たクラスに基づく予測係数を用いて入力オーディオデー
タＤ１０を予測演算することにより、当該入力オーディ
オデータＤ１０を一段と高音質のオーディオデータＤ１
６に変換することができる。

【００９６】また、クラス毎の予測係数を生成する学習
時において、位相の異なる多数の教師オーディオデータ
についてそれぞれに対応した予測係数を求めておくこと
により、オーディオ信号処理装置１０における入力オー
ディオデータＤ１０のクラス分類適応処理時に位相変動
が生じても、位相変動に対応した処理を行うことができ
る。

【００９７】以上の構成によれば、周波数分析を行うこ
とにより、微妙な特徴を見い出し得るようになされたパ
ワースペクトルデータから有意とされるパワースペクト
ルデータのみを抽出し、これをクラス分類した結果に基
づく予測係数を用いて入力オーディオデータＤ１０を予
測演算するようにしたことにより、入力オーディオデー
タＤ１０を一段と高音質のオーディオデータＤ１６に変
換することができる。

【００９８】なお上述の実施の形態においては、窓関数
としてハミング窓を用いて乗算する場合について述べた
が、本発明はこれに限らず、ハミング窓に代えて、例え
ばハニング窓やブラックマン窓等、他の種々の窓関数に
よって乗算する、又はスペクトル処理部において予め各
種窓関数（ハミング窓、ハニング窓及びブラックマン窓
等）を用いて乗算し得るようにしておき、入力されるデ
ィジタルオーディオ信号の周波数特性に応じて、スペク
トル処理部が所望の窓関数を用いて乗算するようにして
も良い。

【００９９】因みに、スペクトル処理部がハニング窓を
用いて乗算する場合、スペクトル処理部は、切り出し部
から供給されたクラスタップに対して、次式、

【０１００】

【数１６】

【０１０１】からなるハニング窓を乗算して乗算データ
を算出する。

【０１０２】また、スペクトル処理部がブラックマン窓
を使用して乗算する場合、スペクトル処理部は、切り出
し部から供給されたクラスタップに対して、次式、

【０１０３】

【数１７】

【０１０４】からなるブラックマン窓を乗算して乗算デ
ータを算出する。

【０１０５】また上述の実施の形態においては、高速フ
ーリエ変換を用いる場合について述べたが、本発明はこ
れに限らず、例えば離散フーリエ変換（ＤＦＴ：Discre
te Fourier Transformer）や離散コサイン変換（ＤＣ
Ｔ：Discrete Cosine Transform ）又は最大エントロピ
ー法、さらには線形予測分析による方法等、他の種々の
周波数分析手段を適用することができる。

【０１０６】さらに上述の実施の形態においては、スペ
クトル処理部１１がゼロ値からＮ／２までの左側のパワ
ースペクトルデータ群ＡＲ１（図５）のみを抽出対象と
する場合について述べたが、本発明はこれに限らず、右
側のパワースペクトルデータ群ＡＲ２（図５）のみを抽
出対象とするようにしても良い。

【０１０７】この場合、オーディオ信号処理装置１０の
処理負担を一段と軽減することができ、処理速度を一段
と向上させることができる。

【０１０８】さらに上述の実施の形態においては、圧縮
データパターンを生成するパターン生成手段として、Ａ
ＤＲＣを行う場合について述べたが、本発明はこれに限
らず、例えば可逆符号化（ＤＰＣＭ：Differential Pul
se Code Modulation）やベクトル量子化（ＶＱ：Vector
Quantize ）等の圧縮手段を用いるようにしても良い。
要は、信号波形のパターンを少ないクラスで表現し得る
ような圧縮手段であれば良い。

【０１０９】さらに上述の実施の形態においては、ユー
ザが手動で選択操作し得る選択範囲設定手段として、人
間の声及び音声を選択（すなわち、抽出する周波数成分
として５００Ｈｚ〜４ｋＨｚ又は２０Ｈｚ〜２０ｋＨ
ｚ）する場合について述べたが、本発明はこれに限ら
ず、例えば図７に示すように、高域（ＵＰＰ）、中域
（ＭＩＤ）及び低域（ＬＯＷ）のいづれかの周波数成分
を選択する、又は図８に示すように、まばらに周波数成
分を選択する、さらには図９に示すように、不均一に帯
域を周波数成分する等、他の種々の選択範囲設定手段を
適用し得る。

【０１１０】この場合、オーディオ信号処理装置には、
新たに設けられた選択範囲設定手段に対応するプログラ
ムを作成してハードディスクドライブやＲＯＭ等、所定
の記憶手段に格納させる。これにより、ユーザが手動で
入力手段１８を介して新たに設けられた選択範囲設定手
段を選択操作した場合においても、このとき選択された
選択範囲設定手段に応じた制御データが入力手段からス
ペクトル処理部に出力され、これによりスペクトル処理
部は、新たに設けられた選択範囲設定手段に対応するプ
ログラムによって、所望の周波数成分からパワースペク
トルデータの抽出を行う。

【０１１１】このようにすれば、他の種々の選択範囲設
定手段を適用することができ、ユーザの意図に応じた有
意なパワースペクトルデータを抽出することができる。

【０１１２】さらに上述の実施の形態においては、オー
ディオ信号処理装置１０（図２）がプログラムによって
クラスコード生成処理手順を実行する場合について述べ
たが、本発明はこれに限らず、ハードウェア構成によっ
てこれらの機能を実現して種々のディジタル信号処理装
置（例えば、レートコンバータ、オーバーサンプリング
処理装置、ＢＳ(Broadcasting Satellite)放送等に用い
られているＰＣＭ(Pulse Code Modulation) ディジタル
音声エラー訂正を行うＰＣＭエラー修正装置等）内に設
けたり、又は各機能を実現するプログラムを格納したプ
ログラム格納媒体（フロッピー（登録商標）ディスク、
光ディスク等）からこれらのプログラムを種々のディジ
タル信号処理装置にロードして各機能部を実現するよう
にしても良い。

【０１１３】

【発明の効果】上述のように本発明によれば、ディジタ
ルオーディオ信号からパワースペクトルデータを算出
し、算出されたパワースペクトルデータから一部のパワ
ースペクトルデータを抽出し、抽出された一部のパワー
スペクトルデータに基づいてそのクラスを分類し、分類
されたクラスに対応した予測方式でディジタルオーディ
オ信号を変換するようにしたことにより、一段とディジ
タルオーディオ信号の特徴に適応した変換を行うことが
でき、かくして、ディジタルオーディオ信号の波形再現
性を一段と向上した高音質のディジタルオーディオ信号
への変換を行うことができる。

【図面の簡単な説明】

【図１】本発明によるオーディオ信号処理装置を示す機
能ブロック図である。

【図２】本発明によるオーディオ信号処理装置を示すブ
ロック図である。

【図３】オーディオデータの変換処理手順を示すフロー
チャートである。

【図４】対数データ算出処理手順を示すフローチャート
である。

【図５】パワースペクトルデータ算出例を示す略線図で
ある。

【図６】学習回路の構成を示すブロック図である。

【図７】パワースペクトルデータ選択例を示す略線図で
ある。

【図８】パワースペクトルデータ選択例を示す略線図で
ある。

【図９】パワースペクトルデータ選択例を示す略線図で
ある。

【符号の説明】

１０……オーディオ信号処理装置、１１……スペクトル
処理部、２２……ＲＯＭ、１５……ＲＡＭ、２４……通
信インターフェイス、２５……ハードディスクドライ
ブ、２６……入力手段、２７……データ入出力部、２８
……リムーバブルドライブ。

フロントページの続き (72)発明者渡辺勉東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者木村裕人東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5D045 CC01 DA06 DA11 5J064 BA04 BA06 BA13 BB03 BB04 BB11 BB12 BC01 BC02 BC12 BC21 BD03

Claims

【特許請求の範囲】

【請求項１】ディジタルオーディオ信号を変換するディ
ジタル信号処理方法において、上記ディジタルオーディオ信号からパワースペクトルデ
ータを算出する周波数分析ステップと、上記パワースペクトルデータから一部のパワースペクト
ルデータを抽出するスペクトルデータ抽出ステップと、上記一部のパワースペクトルデータに基づいてそのクラ
スを分類するクラス分類ステップと、上記分類されたクラスに対応した予測方式で上記ディジ
タルオーディオ信号を変換してなる新たなディジタルオ
ーディオ信号を生成する予測演算ステップとを具えるこ
とを特徴とするディジタル信号処理方法。
【請求項２】上記周波数分析ステップでは、窓関数の各
種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、
所望の上記演算処理方法が用いられることを特徴とする
請求項１に記載のディジタル信号処理方法。
【請求項３】上記スペクトルデータ抽出ステップでは、上記一部のパワースペクトルデータを抽出する際、直流
成分のパワースペクトルデータが除かれることを特徴と
する請求項１に記載のディジタル信号処理方法。
【請求項４】上記予測演算ステップでは、予め所望とするディジタルオーディオ信号に基づいて学
習により生成されている予測係数が用いられることを特
徴とする請求項１に記載のディジタル信号処理方法。
【請求項５】上記パワースペクトルデータは、ほぼ左右
対称の成分からなり、上記スペクトルデータ抽出ステップでは、上記パワースペクトルデータのうち、左右いづれかの成
分が抽出対象とされることを特徴とする請求項１に記載
のディジタル信号処理方法。
【請求項６】ディジタルオーディオ信号を変換するディ
ジタル信号処理装置において、上記ディジタルオーディオ信号からパワースペクトルデ
ータを算出する周波数分析手段と、上記パワースペクトルデータから一部のパワースペクト
ルデータを抽出するスペクトルデータ抽出手段と、上記一部のパワースペクトルデータに基づいてそのクラ
スを分類するクラス分類手段と、上記分類されたクラスに対応した予測方式で上記ディジ
タルオーディオ信号を変換してなる新たなディジタルオ
ーディオ信号を生成する予測演算手段とを具えることを
特徴とするディジタル信号処理装置。
【請求項７】上記周波数分析手段は、窓関数の各種演算
処理手段を具え、上記ディジタルオーディオ信号の周波数特性に応じて、
所望の上記演算処理手段を用いることを特徴とする請求
項６に記載のディジタル信号処理装置。
【請求項８】上記スペクトルデータ抽出手段は、上記一部のパワースペクトルデータを抽出する際、直流
成分のパワースペクトルデータを除くことを特徴とする
請求項６に記載のディジタル信号処理装置。
【請求項９】上記予測演算手段は、予め所望とするディジタルオーディオ信号に基づいて学
習により生成されている予測係数を用いることを特徴と
する請求項６に記載のディジタル信号処理装置。
【請求項１０】上記パワースペクトルデータは、ほぼ左
右対称の成分からなり、上記スペクトルデータ抽出手段は、上記パワースペクトルデータのうち、左右いづれかの成
分を抽出対象とすることを特徴とする請求項６に記載の
ディジタル信号処理装置。
【請求項１１】ディジタルオーディオ信号からパワース
ペクトルデータを算出する周波数分析ステップと、上記パワースペクトルデータから一部のパワースペクト
ルデータを抽出するスペクトルデータ抽出ステップと、上記一部のパワースペクトルデータに基づいてそのクラ
スを分類するクラス分類ステップと、上記分類されたクラスに対応した予測方式で上記ディジ
タルオーディオ信号を変換してなる新たなディジタルオ
ーディオ信号を生成する予測ステップとを含むプログラ
ムをディジタル信号処理装置に実行させるプログラム格
納媒体。
【請求項１２】上記周波数分析ステップでは、窓関数の
各種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、
所望の上記演算処理方法が用いられることを特徴とする
請求項１１に記載のプログラム格納媒体。
【請求項１３】上記スペクトルデータ抽出ステップで
は、上記一部のパワースペクトルデータを抽出する際、直流
成分のパワースペクトルデータが除かれることを特徴と
する請求項１１に記載のプログラム格納媒体。
【請求項１４】上記パワースペクトルデータは、ほぼ左
右対称の成分からなり、上記スペクトルデータ抽出ステップでは、上記パワースペクトルデータのうち、左右いづれかの成
分が抽出対象とされることを特徴とする請求項１１に記
載のプログラム格納媒体。
【請求項１５】ディジタルオーディオ信号を変換するデ
ィジタル信号処理装置の上記変換処理の予測に用いられ
る予測係数を生成する学習方法において、所望とするディジタルオーディオ信号から当該ディジタ
ルオーディオ信号を劣化させた生徒ディジタルオーディ
オ信号を生成する生徒ディジタルオーディオ信号生成ス
テップと、上記生徒ディジタルオーディオ信号からパワースペクト
ルデータを算出する周波数分析ステップと、上記パワースペクトルデータから一部のパワースペクト
ルデータを抽出するスペクトルデータ抽出ステップと、上記一部のパワースペクトルデータに基づいてそのクラ
スを分類するクラス分類ステップと、上記ディジタルオーディオ信号と上記生徒ディジタルオ
ーディオ信号とに基づいて上記クラスに対応する予測係
数を算出する予測係数算出ステップとを具えることを特
徴とする学習方法。
【請求項１６】上記周波数分析ステップでは、窓関数の
各種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、
所望の上記演算処理方法が用いられることを特徴とする
請求項１５に記載の学習方法。
【請求項１７】上記スペクトルデータ抽出ステップで
は、上記一部のパワースペクトルデータを抽出する際、直流
成分のパワースペクトルデータが除かれることを特徴と
する請求項１５に記載の学習方法。
【請求項１８】上記パワースペクトルデータは、ほぼ左
右対称の成分からなり、上記スペクトルデータ抽出ステップでは、上記パワースペクトルデータのうち、左右いづれかの成
分が抽出対象とされることを特徴とする請求項１５に記
載の学習方法。
【請求項１９】ディジタルオーディオ信号を変換するデ
ィジタル信号処理装置の上記変換処理の予測演算に用い
られる予測係数を生成する学習装置において、所望とするディジタルオーディオ信号から当該ディジタ
ルオーディオ信号を劣化させた生徒ディジタルオーディ
オ信号を生成する生徒ディジタルオーディオ信号生成手
段と、上記生徒ディジタルオーディオ信号からパワースペクト
ルデータを算出する周波数分析手段と、上記パワースペクトルデータから一部のパワースペクト
ルデータを抽出するスペクトルデータ抽出手段と、上記一部のパワースペクトルデータに基づいてそのクラ
スを分類するクラス分類手段と、上記ディジタルオーディオ信号と上記生徒ディジタルオ
ーディオ信号とに基づいて上記クラスに対応する予測係
数を算出する予測係数算出手段とを具えることを特徴と
する学習装置。
【請求項２０】上記周波数分析手段は、窓関数の各種演
算処理手段を具え、上記ディジタルオーディオ信号の周波数特性に応じて、
所望の上記演算処理手段を用いることを特徴とする請求
項１９に記載の学習装置。
【請求項２１】上記スペクトルデータ抽出手段は、上記一部のパワースペクトルデータを抽出する際、直流
成分のパワースペクトルデータを除くことを特徴とする
請求項１９に記載の学習装置。
【請求項２２】上記パワースペクトルデータは、ほぼ左
右対称の成分からなり、上記スペクトルデータ抽出手段は、上記パワースペクトルデータのうち、左右いづれかの成
分を抽出対象とすることを特徴とする請求項１９に記載
の学習装置。
【請求項２３】所望とするディジタルオーディオ信号か
ら当該ディジタルオーディオ信号を劣化させた生徒ディ
ジタルオーディオ信号を生成する生徒ディジタルオーデ
ィオ信号生成ステップと、上記生徒ディジタルオーディオ信号からパワースペクト
ルデータを算出する周波数分析ステップと、上記パワースペクトルデータから一部のパワースペクト
ルデータを抽出するスペクトルデータ抽出ステップと、上記一部のパワースペクトルデータに基づいてそのクラ
スを分類するクラス分類ステップと、上記ディジタルオーディオ信号と上記生徒ディジタルオ
ーディオ信号とに基づいて上記クラスに対応する予測係
数を算出する予測係数算出ステップとを含むプログラム
をディジタル信号処理装置に実行させるプログラム格納
媒体。
【請求項２４】上記周波数分析ステップでは、窓関数の
各種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、
所望の上記演算処理方法が用いられることを特徴とする
請求項２３に記載のプログラム格納媒体。
【請求項２５】上記スペクトルデータ抽出ステップで
は、上記一部のパワースペクトルデータを抽出する際、直流
成分のパワースペクトルデータが除かれることを特徴と
する請求項２３に記載のプログラム格納媒体。
【請求項２６】上記パワースペクトルデータは、ほぼ左
右対称の成分からなり、上記スペクトルデータ抽出ステップでは、上記パワースペクトルデータのうち、左右いづれかの成
分が抽出対象とされることを特徴とする請求項２３に記
載のプログラム格納媒体。