JP2002049395A

JP2002049395A - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number: JP2002049395A
Application number: JP2000238891A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Tsutomu Watanabe; 勉渡辺
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-08-02
Filing date: 2000-08-02
Publication date: 2002-02-15
Anticipated expiration: 2020-08-02
Also published as: JP4645866B2

Abstract

(57)【要約】【課題】ディジタル信号の波形再現性を一段と向上し得
るディジタル信号処理方法、学習方法及びそれらの装置
並びにプログラム格納媒体を提案する。【解決手段】ディジタルオーディオ信号Ｄ１０のピッチ
を検出し、当該検出したピッチに基づいてそのクラスを
分類し、分類されたクラスに対応した予測方式でディジ
タルオーディオ信号Ｄ１０を変換するようにしたことに
より、一段とディジタルオーディオ信号Ｄ１０の特徴に
適応した変換を行うことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はディジタル信号処理
方法、学習方法及びそれらの装置並びにプログラム格納
媒体に関し、レートコンバータ又はＰＣＭ(Pulse Code
Modulation) 復号装置等においてディジタル信号に対し
てデータの補間処理を行うディジタル信号処理方法、学
習方法及びそれらの装置並びにプログラム格納媒体に適
用して好適なものである。

【０００２】

【従来の技術】従来、ディジタルオーディオ信号をディ
ジタル／アナログコンバータに入力する前に、サンプリ
ング周波数を元の値の数倍に変換するオーバサンプリン
グ処理を行っている。これにより、ディジタル／アナロ
グコンバータから出力されたディジタルオーディオ信号
はアナログ・アンチ・エイリアス・フィルタの位相特性
が可聴周波数高域で一定に保たれ、また、サンプリング
に伴うディジタル系のイメージ雑音の影響が排除される
ようになされている。

【０００３】かかるオーバサンプリング処理では、通
常、線形一次（直線）補間方式のディジタルフィルタが
用いられている。このようなディジタルフィルタは、サ
ンプリングレートが変わったりデータが欠落した場合等
に、複数の既存データの平均値を求めて直線的な補間デ
ータを生成するものである。

【０００４】

【発明が解決しようとする課題】ところが、オーバサン
プリング処理後のディジタルオーディオ信号は、線形一
次補間によって時間軸方向に対してデータ量が数倍に緻
密になっているものの、オーバサンプリング処理後のデ
ィジタルオーディオ信号の周波数帯域は変換前とあまり
変わらず、音質そのものは向上していない。さらに、補
間されたデータは必ずしもＡ／Ｄ変換前のアナログオー
ディオ信号の波形に基づいて生成されたのではないた
め、波形再現性もほとんど向上していない。

【０００５】また、サンプリング周波数の異なるディジ
タルオーディオ信号をダビングする場合において、サン
プリング・レート・コンバータを用いて周波数を変換し
ているが、かかる場合でも線形一次ディジタルフィルタ
によって直線的なデータの補間しか行うことができず、
音質や波形再現性を向上することが困難であった。さら
に、ディジタルオーディオ信号のデータサンプルが欠落
した場合において同様である。

【０００６】本発明は以上の点を考慮してなされたもの
で、ディジタル信号の波形再現性を一段と向上し得るデ
ィジタル信号処理方法、学習方法及びそれらの装置並び
にプログラム格納媒体を提案しようとするものである。

【０００７】

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、ディジタルオーディオ信号のピッ
チを検出し、当該検出したピッチに基づいてそのクラス
を分類し、分類されたクラスに対応した予測方式でディ
ジタルオーディオ信号を変換するようにしたことによ
り、一段とディジタルオーディオ信号の特徴に適応した
変換を行うことができる。

【０００８】

【発明の実施の形態】以下図面について、本発明の一実
施の形態を詳述する。

【０００９】図１においてオーディオ信号処理装置１０
は、ディジタルオーディオ信号（以下これをオーディオ
データと呼ぶ）のサンプリングレートを上げたり、オー
ディオデータを補間する際に、真値に近いオーディオデ
ータをクラス分類適用処理によって生成するようになさ
れている。因みに、ディジタルオーディオ信号とは、人
や動物が発する声を表す音声信号、楽器が発する楽音を
表す楽音信号、及びその他の音を表す信号を意味するも
のである。

【００１０】すなわち、オーディオ信号処理装置１０に
おいて、ピッチ検出部１１は入力端子Ｔ_INから供給され
た図２又は図３に示す入力オーディオデータＤ１０のピ
ッチ（基本周波数）を例えば入力オーディオデータＤ１
０の自己相関に基づいて検出する。

【００１１】すなわちピッチ検出部１１は、入力オーデ
ィオデータＤ１０について、例えば時間軸領域に分割し
てなる種々の範囲ごとに自己相関値を検出し、当該自己
相関値が所定の閾値よりも大きいときピッチが有ると判
断する。そしてピッチ検出部１１はピッチが有る場合の
ピッチ周期ＰＩＴ_T及びピッチサイズとその位置をピッ
チクラスとする。例えば、入力オーディオデータＤ１０
が図２に示すような波形を有している場合、ピッチ検出
部１１はカレントピッチＰＩＴ２に対してその前後に隣
接する位置に前ピッチＰＩＴ１及び後ろピッチＰＩＴ３
を検出する。因みに、ピッチ検出部１１が検出する前ピ
ッチＰＩＴ１及び後ろピッチＰＩＴ３は必ずしもカレン
トピッチＰＩＴ２に隣接するとは限らず、カレントピッ
チＰＩＴ２から所定距離離れている場合もある。

【００１２】ピッチ検出部１１はカレントピッチＰＩＴ
２に対応する前ピッチＰＩＴ１及び後ろピッチＰＩＴ３
を検出すると、これらを切り出すための切り出し制御信
号ＣＯＮＴ１１を可変クラス分類部抽出部１２及び可変
予測演算部抽出部１３に供給する。

【００１３】可変クラス分類部抽出部１２は切り出し制
御信号ＣＯＮＴ１１に基づいて、前ピッチＰＩＴ１に対
応するクラスタップＣＬ１、カレントピッチＰＩＴ２に
対応するクラスタップＣＬ２及び後ろタップＰＩＴ３に
対応するクラスタップＣＬ３を入力オーディオデータＤ
１０から切り出し、これらをクラスタップデータＤ１２
としてクラス分類部１４に供給する。

【００１４】クラス分類部１４は、クラス分類抽出部１
２において切り出されたクラスタップについて、各ピッ
チ（前ピッチＰＩＴ１、カレントピッチＰＩＴ２及び後
ろタップＰＩＴ３）ごとに個別に、又はこれらを統合
し、そのクラスタップを圧縮して圧縮データパターンを
生成するＡＤＲＣ(Adaptive Dynamic Range Coding) 回
路部と、クラスタップデータＤ１２の属するクラスコー
ドを発生するクラスコード発生回路部とを有する。

【００１５】ＡＤＲＣ回路部はクラスタップデータＤ１
２に対して、例えば８ビットから２ビットに圧縮するよ
うな演算を行うことによりパターン圧縮データを形成す
る。このＡＤＲＣ回路部は、適応的量子化を行うもので
あり、ここでは、信号レベルの局所的なパターンを短い
語長で効率的に表現することができるので、信号パター
ンのクラス分類のコード発生用に用いられる。

【００１６】具体的には、オーディオ波形上の６つの８
ビットのデータ（クラスタップ）をクラス分類しようと
する場合、２⁴⁸という膨大な数のクラスに分類しなけれ
ばならず、回路上の負担が多くなる。そこで、この実施
の形態のクラス分類部１４ではその内部に設けられたＡ
ＤＲＣ回路部で生成されるパターン圧縮データに基づい
てクラス分類を行う。例えば６つのクラスタップに対し
て１ビットの量子化を実行すると、６つのクラスタップ
を６ビットで表すことができ、２⁶＝６４クラスに分類
することができる。

【００１７】ここで、ＡＤＲＣ回路部は、切り出された
領域内のクラスタップ（オーディオ波形）のダイナミッ
クレンジをＤＲ、ビット割り当をｍ、各クラスタップの
データレベルをＬ、量子化コードをＱとすると、次式、

【００１８】

【数１】

【００１９】に従って、領域内の最大値ＭＡＸと最小値
ＭＩＮとの間を指定されたビット長で均等に分割して量
子化を行う。なお、（１）式において｛｝は小数点以
下の切り捨て処理を意味する。かくして６つのクラスタ
ップが、それぞれ例えば８ビット（ｍ＝８）で構成され
ているとすると、これらはＡＤＲＣ回路部においてそれ
ぞれが２ビットに圧縮される。

【００２０】このようにして圧縮されたオーディオ波形
データ（クラスタップ）をそれぞれｑ_n（ｎ＝１〜６）
とすると、クラス分類部１４に設けられたクラスコード
発生回路部は、圧縮されたオーディオ波形データｑ_nに
基づいて、次式、

【００２１】

【数２】

【００２２】に示す演算を実行することにより、そのブ
ロック（ｑ₁〜ｑ₆）が属するクラスを示すクラスコー
ドclass を算出すると共に、当該算出されたクラスタッ
プデータＤ１２に基づくクラスコードclass をクラスコ
ードデータＤ１４として予測係数メモリ１５に供給す
る。このクラスコードclass は、予測係数メモリ１５か
ら予測係数を読み出す際の読み出しアドレスを示す。因
みに（２）式において、ｎは圧縮されたオーディオ波形
データ（クラスタップ）ｑ_nの数を表し、この実施の形
態の場合ｎ＝６であり、またＰはビット割り当てを表
し、この実施の形態の場合Ｐ＝２である。

【００２３】このようにして、クラス分類部１４はクラ
ス分類部抽出部１２において入力オーディオデータＤ１
０から切り出されたクラスタップのクラスコード class
を生成し、これをクラスコードデータＤ１４として予測
係数メモリ１５に供給する。

【００２４】予測係数メモリ１５には、各クラスコード
に対応する予測係数のセットがクラスコードに対応する
アドレスにそれぞれ記憶されており、クラス分類部１４
から供給されるクラスコードデータＤ１４に基づいて、
当該クラスコードに対応するアドレスに記憶されている
予測係数のセットｗ₁〜ｗ_nが読み出され、予測演算部
１６に供給される。

【００２５】予測演算部１６は、予測演算部抽出部１３
においてピッチ検出部１１から供給される切り出し制御
信号ＣＯＮＴ１１に応じて切り出された予測演算しよう
とするオーディオ波形データ（予測タップ）Ｄ１３（ｘ
₁〜ｘ_n）と、予測係数ｗ₁〜ｗ_nに対して、次式

【００２６】

【数３】

【００２７】に示す積和演算を行うことにより、予測結
果ｙ′を得る。この予測値ｙ′が、音質が改善されたオ
ーディオデータＤ１６として予測演算部１６から出力さ
れる。

【００２８】因みに、ピッチ検出部１１において入力オ
ーディオデータＤ１０にピッチが無いと判断した場合、
ピッチ検出部１１は前ピッチＰＩＴ１や後ろピッチＰＩ
Ｔ３を用いることなく、図３に示すようにカレントデー
タ近傍のオーディオ波形のレベルを切り出すための制御
信号ＣＯＮＴ１１を可変クラス分類部抽出部１２及び可
変予測演算部抽出部１３に供給することにより、カレン
トデータ近傍のオーディオ波形によりクラス分類及び予
測演算を行う。

【００２９】なお、オーディオ信号処理装置１０の構成
として図１について上述した機能ブロックを示したが、
この機能ブロックを構成する具体的構成として、この実
施の形態においては図４に示すコンピュータ構成の装置
を用いる。すなわち、図４において、オーディオ信号処
理装置１０は、バスＢＵＳを介してＣＰＵ２１、ＲＯＭ
(Read Only Memory)２２、予測係数メモリ１５を構成す
るＲＡＭ(Random Access Memory)１５、及び各回路部が
それぞれ接続された構成を有し、ＣＰＵ１１はＲＯＭ２
２に格納されている種々のプログラムを実行することに
より、図１について上述した各機能ブロック（ピッチ検
出部１１、クラス分類部抽出部１２、予測演算部抽出部
１３、クラス分類部１４及び予測演算部１６）として動
作するようになされている。

【００３０】また、オーディオ信号処理装置１０にはネ
ットワークとの間で通信を行う通信インターフェース２
４、フロッピィディスクや光磁気ディスク等の外部記憶
媒体から情報を読み出すリムーバブルドライブ２８を有
し、ネットワーク経由又は外部記憶媒体から図１につい
て上述したクラス分類適用処理を行うための各プログラ
ムをハードディスク装置２５のハードディスクに読み込
んみ、当該読み込まれたプログラムに従ってクラス分類
適応処理を行うこともできる。

【００３１】ユーザは、キーボードやマウス等の入力手
段２６を介して種々のコマンドを入力することにより、
ＣＰＵ２１に対して図１について上述したクラス分類処
理を実行させる。この場合、オーディオ信号処理装置１
０はデータ入出力部２７を介して音質を向上させようと
するオーディオデータ（入力オーディオデータ）Ｄ１０
を入力し、当該入力オーディオデータＤ１０に対してク
ラス分類適用処理を施した後、音質が向上したオーディ
オデータＤ１６をデータ入出力部２７を介して外部に出
力し得るようになされている。

【００３２】因みに、図５はオーディオ信号処理装置１
０におけるクラス分類適応処理の処理手順を示し、オー
ディオ信号処理装置１０はステップＳＰ１１から当該処
理手順に入ると、続くステップＳＰ１２において入力オ
ーディオデータＤ１０のピッチをピッチ検出部１１にお
いて算出する。

【００３３】この算出されたピッチ（前ピッチＰＩＴ
１、カレントピッチＰＩＴ２、後ろピッチＰＩＴ３）は
オーティオ波形のクラス分類を一段と確実にするための
もであり、オーディオ信号処理装置１０は、ステップＳ
Ｐ１３においてピッチに応じたクラスタップの切り出し
を行った後、ステップＳＰ１４においてクラス分類部１
４によりクラスタップ（オーディオ波形）をクラス分類
する。そしてオーディオ信号処理装置１０は、クラス分
類の結果得られたクラスコードを用いて予測係数メモリ
１５から予測係数を読み出す。この予測係数は予め学習
によりクラス毎に対応して格納されており、オーディオ
信号処理装置１０はクラスコードに対応した予測係数を
読み出すことにより、このときのオーディオ波形の特徴
に合致した予測係数を用いることができる。

【００３４】予測係数メモリ１５から読み出された予測
係数は、ステップＳＰ１５において予測演算部１６の予
測演算に用いられる。これにより、入力オーディオデー
タＤ１０はそのピッチに応じたクラスタップにより得ら
れたクラスコードを用いて予測演算され、所望とするオ
ーディオデータＤ１６に変換される。かくして入力オー
ディオデータＤ１０はその音質が改善されたオーディオ
データＤ１６に変換され、オーディオ信号処理装置１０
はステップＳＰ１６に移って当該処理手順を終了する。

【００３５】次に、図１について上述した予測係数メモ
リ１５に記憶するクラス毎の予測係数のセットを予め学
習によって得るための学習回路について説明する。

【００３６】図６において、学習回路３０は、高音質の
教師オーディオデータＤ３０を生徒信号生成フィルタ３
７に受ける。生徒信号生成フィルタ３７は、間引き率設
定信号Ｄ３９により設定された間引き率で教師オーディ
オデータＤ３０を所定時間ごとに所定サンプル間引くよ
うになされている。

【００３７】この場合、生徒信号生成フィルタ３７にお
ける間引き率によって、生成される予測係数が異なり、
これに応じて上述のオーディオ信号処理装置１０で再現
されるオーディオデータも異なる。例えば、上述のオー
ディオ信号処理装置１０においてサンプリング周波数を
高くすることでオーディオデータの音質を向上しようと
する場合、生徒信号生成フィルタ３７ではサンプリング
周波数を減らす間引き処理を行う。また、これに対して
上述のオーディオ信号処理装置１０において入力オーデ
ィオデータＤ１０の欠落したデータサンプルを補うこと
で音質の向上を図る場合には、これに応じて、生徒信号
生成フィルタ３７ではデータサンプルを欠落させる間引
き処理を行うようになされている。

【００３８】かくして、生徒信号生成フィルタ３７は教
師オーディオデータ３０から所定の間引き処理により生
徒オーディオデータＤ３７を生成し、これをピッチ検出
部３１、クラス分類部抽出部３２及び予測演算部抽出部
３３にそれぞれ供給する。

【００３９】ピッチ検出部３１は生徒信号生成フィルタ
３７から供給された生徒オーディオデータＤ３７につい
て、図２及び図３について上述したピッチ（基本周波
数）を生徒オーディオデータＤ３７の自己相関に基づい
て検出する。

【００４０】そしてピッチ検出部３１はカレントピッチ
ＰＩＴ２に対応する前ピッチＰＩＴ１及び後ろピッチＰ
ＩＴ３を検出すると、これらを切り出すための切り出し
制御信号ＣＯＮＴ３１を可変クラス分類部抽出部３２及
び可変予測演算部抽出部３３に供給する。

【００４１】可変クラス分類部抽出部３２は切り出し制
御信号ＣＯＮＴ３１に基づいて、前ピッチＰＩＴ１に対
応するクラスタップＣＬ１、カレントピッチＰＩＴ２に
対応するクラスタップＣＬ２及び後ろタップＰＩＴ３に
対応するクラスタップＣＬ３を生徒オーディオデータＤ
３７から切り出し、これらをクラスタップデータＤ３２
としてクラス分類部３４に供給する。

【００４２】クラス分類部３４は、クラス分類抽出部３
２において切り出されたクラスタップについて、当該ク
ラスタップを圧縮して圧縮データパターンを生成するＡ
ＤＲＣ(Adaptive Dynamic Range Coding) 回路部と、ク
ラスタップデータＤ３２の属するクラスコードを発生す
るクラスコード発生回路部とを有する。

【００４３】ＡＤＲＣ回路部はクラスタップデータＤ３
２に対して、例えば８ビットから２ビットに圧縮するよ
うな演算を行うことによりパターン圧縮データを形成す
る。このＡＤＲＣ回路部は、適応的量子化を行うもので
あり、ここでは、信号レベルの局所的なパターンを短い
語長で効率的に表現することができるので、信号パター
ンのクラス分類のコード発生用に用いられる。

【００４４】具体的には、包絡線波形上の６つの８ビッ
トのデータ（クラスタップ）をクラス分類しようとする
場合、２⁴⁸という膨大な数のクラスに分類しなければな
らず、回路上の負担が多くなる。そこで、この実施の形
態のクラス分類部１４ではその内部に設けられたＡＤＲ
Ｃ回路部で生成されるパターン圧縮データに基づいてク
ラス分類を行う。例えば６つのクラスタップに対して１
ビットの量子化を実行すると、６つのクラスタップを６
ビットで表すことができ、２⁶＝６４クラスに分類する
ことができる。

【００４５】ここで、ＡＤＲＣ回路部は、切り出された
領域内のクラスタップ（オーディオ波形）のダイナミッ
クレンジをＤＲ、ビット割り当をｍ、各クラスタップの
データレベルをＬ、量子化コードをＱとして、上述の
（１）式と同様の演算により、領域内の最大値ＭＡＸと
最小値ＭＩＮとの間を指定されたビット長で均等に分割
して量子化を行う。かくしてオーディオ波形上の６つの
波形データが、それぞれ例えば８ビット（ｍ＝８）で構
成されているとすると、これらはＡＤＲＣ回路部におい
てそれぞれが２ビットに圧縮される。

【００４６】このようにして圧縮されたオーディオ波形
データ（クラスタップ）をそれぞれｑ_n（ｎ＝１〜６）
とすると、クラス分類部３４に設けられたクラスコード
発生回路部は、圧縮されたオーディオ波形データｑ_nに
基づいて、上述の（２）式と同様の演算を実行すること
により、そのブロック（ｑ₁〜ｑ₆）が属するクラスを
示すクラスコードclass を算出し、当該算出されたクラ
スコードclass をクラスコードデータＤ３４として予測
係数算出部３６に供給する。因みに（２）式において、
ｎは圧縮されたオーディオ波形データ（クラスタップ）
ｑ_nの数を表し、この実施の形態の場合ｎ＝６であり、
またＰはビット割り当てを表し、この実施の形態の場合
Ｐ＝２である。

【００４７】このようにして、クラス分類部３４はクラ
スコードデータＤ３４を生成し、これを予測係数算出部
３６に供給する。また、予測係数算出部３６には、予測
演算部抽出部３３においてピッチ検出部１１から供給さ
れる切り出し制御信号ＣＯＮＴ１１に応じて切り出され
た予測演算しようとするオーディオ波形データ（予測タ
ップ）Ｄ１３（ｘ₁〜ｘ_n）が供給される。

【００４８】予測係数算出部３６は、クラス分類部３４
から供給されたクラスコードclassと、各クラスコードc
lass 毎に切り出された予測タップＤ３３と、入力端Ｔ
_INから供給された高音質の教師オーディオデータＤ３０
とを用いて、正規方程式を立てる。

【００４９】すなわち、生徒オーディオデータＤ３７の
ｎサンプルのレベルをそれぞれｘ₁、ｘ₂、……、ｘ_n
として、それぞれにｐビットのＡＤＲＣを行った結果の
量子化データをｑ₁、……、ｑ_nとする。このとき、こ
の領域のクラスコードclass′を上述の（２）式のよう
に定義する。そして、上述のように生徒オーディオデー
タＤ３７のレベルをそれぞれ、ｘ₁、ｘ₂、……、ｘ_n
とし、高音質の教師オーディオデータＤ３０のレベルを
ｙとしたとき、クラスコード毎に、予測係数ｗ₁、
ｗ₂、……、ｗ_nによるｎタップの線形推定式を設定す
る。これを次式、

【００５０】

【数４】

【００５１】とする。学習前は、ｗ_nが未定係数であ
る。

【００５２】学習回路３０では、クラスコード毎に、複
数のオーディオデータに対して学習を行う。データサン
プル数がＭの場合、上述の（４）式に従って、次式、

【００５３】

【数５】

【００５４】が設定される。但しｋ＝１、２、……Ｍで
ある。

【００５５】Ｍ＞ｎの場合、予測係数ｗ₁、……ｗ_nは
一意的に決まらないので、誤差ベクトルｅの要素を次
式、

【００５６】

【数６】

【００５７】によって定義し（但し、ｋ＝１、２、…
…、Ｍ）、次式、

【００５８】

【数７】

【００５９】を最小にする予測係数を求める。いわゆ
る、最小自乗法による解法である。

【００６０】ここで、（７）式によるｗ_nの偏微分係数
を求める。この場合、次式、

【００６１】

【数８】

【００６２】を「０」にするように、各ｗ_n（ｎ＝１〜
６）を求めれば良い。

【００６３】そして、次式、

【００６４】

【数９】

【００６５】

【数１０】

【００６６】のように、Ｘ_ij、Ｙ_iを定義すると、
（８）式は行列を用いて次式、

【００６７】

【数１１】

【００６８】として表される。

【００６９】この方程式は、一般に正規方程式と呼ばれ
ている。なお、ここではｎ＝６である。

【００７０】全ての学習用データ（教師オーディオデー
タＤ３０、クラスコードclass 、予測タップＤ３３）の
入力が完了した後、予測係数算出部３６は各クラスコー
ドclass に上述の（１１）式に示した正規方程式を立て
て、この正規方程式を掃き出し法等の一般的な行列解法
を用いて、各Ｗ_nについて解き、各クラスコード毎に、
予測係数を算出する。予測係数算出部３６は、算出され
た各予測係数（Ｄ３６）を予測係数メモリ１５に書き込
む。

【００７１】このような学習を行った結果、予測係数メ
モリ１５には、量子化データｑ₁、……、ｑ₆で規定さ
れるパターン毎に、高音質のオーディオデータｙを推定
するための予測係数が、各クラスコード毎に格納され
る。この予測係数メモリ１５は、図１について上述した
オーディオ信号処理装置１０において用いられる。かか
る処理により、線形推定式に従って通常のオーディオデ
ータから高音質のオーディオデータを作成するための予
測係数の学習が終了する。

【００７２】このように、学習回路３０は、オーディオ
信号処理装置１０において補間処理を行う程度を考慮し
て、生徒信号生成フィルタ３７で高音質の教師オーディ
オデータの間引き処理を行うことにより、オーディオ信
号処理装置１０における補間処理のための予測係数を生
成することができる。

【００７３】以上の構成において、オーディオ信号処理
装置１０は、入力オーディオデータＤ１０のピッチをピ
ッチ検出部１１において検出することにより、入力オー
ディオデータＤ１０のうち、特に規則性を持った波形部
分を抽出することができる。

【００７４】かかる規則性を持った波形部分（ピッチ）
は、例えば人間の声では同じ音素であっても個人毎に異
なり、この部分を正確に切り出してクラス分類すること
により、個人毎に異なるオーディオ波形の特徴が一段と
明確にクラス分けされる。

【００７５】このように、オーディオ波形の特徴を明確
にクラス分けし、当該クラス分類結果に基づく予測演算
を行うことにより、オーディオ波形の再現性が向上し、
音質の向上が図られる。

【００７６】以上の構成によれば、ピッチの検出結果に
基づいてタップの切り出し範囲を制御するようにしたこ
とにより、入力オーディオデータＤ１０を一段と高音質
のオーディオデータＤ１６に変換することができる。

【００７７】なお上述の実施の形態においては、オーデ
ィオ信号処理装置１０及び学習回路３０において、ピッ
チ検出部１１、３１で検出されたピッチサイズとその位
置とをピッチクラスとして可変クラス分類部抽出部１
２、３２に供給する場合について述べたが、本発明はこ
れに限らず、例えば図１及び図６との対応部分に同一の
符号を付して示す図７及び図８に示すように、ピッチ検
出部１１′、３１′で検出されたピッチ数をピッチクラ
スデータＤ１１、Ｄ３１としてクラス分類部１４′及び
３４′に供給するようにしても良い。

【００７８】この場合、クラス分類部１４′及び３４′
は、可変クラス分類部抽出部１２から供給されるピッチ
クラスデータＤ１１、Ｄ３１と同様の時間領域に分割さ
れたクラスタップデータＤ１２、Ｄ３２のクラスコード
class と、ピッチクラスデータＤ１１、Ｄ３１のクラス
コードCLASS とを対応させて統合したクラスコードデー
タ（class ′）Ｄ１４、Ｄ３４を生成する。

【００７９】このようにピッチ検出部１１′、３１′で
検出されたピッチ数をピッチクラスデータＤ１１、Ｄ３
１としてクラス分類部１４′及び３４′に供給するよう
にすれば、クラス分類の頻度を一段と多くすることがで
き、かくして、クラス分類された結果に基づく予測係数
を用いて入力オーディオデータの予測演算を行うオーデ
ィオ信号処理装置１０は、一段と高音質のオーディオデ
ータに変換することができる。

【００８０】また上述の実施の形態においては、オーデ
ィオ波形のピッチを検出する方法として自己相関を用い
る場合について述べたが、本発明はこれに限らず、例え
ばオーディオ波形に対してフーリエ変換を施すケプスト
ラム分析やパターン認識等、他の種々の方法を適用する
ことができる。

【００８１】また上述の実施の形態においては、入力オ
ーディオデータＤ１０の時間軸領域の波形について、ピ
ッチ検出及びクラス分類を行う場合について述べたが、
本発明はこれに限らず、周波数領域に展開してピッチ検
出、クラス分類を行うようにしても良い。

【００８２】また上述の実施の形態においては、クラス
分類のためのタップの切り出しサイズと、予測演算用の
タップの切り出し領域とを同一サイズとした場合につい
て述べたが、本発明はこれに限らず、クラス分類用のタ
ップの切り出しサイズと予測演算用のタップの切り出し
サイズは異なるようにしても良く、さらには、ピッチ検
出部１１において検出された自己相関の強さに応じて切
り出しサイズを変化させるようにしても良い。この場
合、例えば自己相関が強い程切り出しサイズを大きくす
ることができる。

【００８３】また上述の実施の形態においては、予測方
式として線形一次による手法を用いる場合について述べ
たが、本発明はこれに限らず、要は学習した結果を用い
るようにすれば良く、例えば多次関数による手法等の種
々の予測方式を適用することができる。

【００８４】また上述の実施の形態においては、クラス
分類部１４においてＡＤＲＣにより圧縮データパターン
を生成する場合について述べたが、本発明はこれに限ら
ず、可逆符号化（ＤＰＣＭ:Differrential Pulse Code
Modulation) 又はベクトル量子化（ＶＱ:Vector Quanti
ze) 等の圧縮手段を用いるようにしても良い。

【００８５】また上述の実施の形態においては、学習回
路３０の生徒信号生成フィルタ３７において教師オーデ
ィオデータＤ３０から所定サンプルを間引く場合につい
て述べたが、本発明はこれに限らず、例えばビット数を
間引く等、他の種々の方法を適用することができる。

【００８６】

【発明の効果】上述のように本発明によれば、ディジタ
ルオーディオ信号のピッチを検出し、当該検出したピッ
チに基づいてそのクラスを分類し、分類されたクラスに
対応した予測方式でディジタルオーディオ信号を変換す
るようにしたことにより、一段とディジタルオーディオ
信号の特徴に適応した変換を行うことができる。

【図面の簡単な説明】

【図１】本発明によるディジタル信号処理装置の構成を
示すブロック図である。

【図２】ディジタルオーディオ信号のピッチの説明に供
する信号波形図である。

【図３】ピッチの無いディジタルオーディオ信号の処理
の説明に供する信号波形図である。

【図４】オーディオ信号処理装置の構成を示すブロック
図である。

【図５】オーディオ信号変換処理手順を示すフローチャ
ートである。

【図６】本発明による学習装置の構成を示すブロック図
である。

【図７】他の実施の形態によるディジタル信号処理装置
の構成を示すブロック図である。

【図８】他の実施の形態による学習装置の構成を示すブ
ロック図である。

【符号の説明】

１０……オーディオ信号処理装置、１１、３１……ピッ
チ検出部、１４、３４……クラス分類部、１５……予測
係数メモリ、１６……予測演算部、３６……予測係数算
出部、３７……生徒信号生成フィルタ。

Claims

【特許請求の範囲】

【請求項１】ディジタルオーディオ信号を変換するディ
ジタル信号処理装置において、上記ディジタルオーディオ信号のピッチを検出するピッ
チ検出手段と、上記ピッチに基づいてそのクラスを分類するクラス分類
手段と、上記分類されたクラスに対応した予測方式で上記ディジ
タルオーディオ信号を予測演算することにより上記ディ
ジタルオーディオ信号を変換してなる新たなディジタル
オーディオ信号を生成する予測演算手段とを具えること
を特徴とするディジタル信号処理装置。
【請求項２】上記予測演算手段は、予め所望とするディ
ジタルオーディオ信号に基づいて学習により生成されて
いる予測係数を用いることを特徴とする請求項１に記載
のディジタル信号処理装置。
【請求項３】ディジタルオーディオ信号を変換するディ
ジタル信号処理方法において、上記ディジタルオーディオ信号のピッチを検出するピッ
チ検出ステップと、上記ピッチに基づいてそのクラスを分類するクラス分類
ステップと、上記分類されたクラスに対応した予測方式で上記ディジ
タルオーディオ信号を予測演算することにより上記ディ
ジタルオーディオ信号を変換してなる新たなディジタル
オーディオ信号を生成する予測演算ステップとを具える
ことを特徴とするディジタル信号処理方法。
【請求項４】上記予測演算ステップでは、予め所望とす
るディジタルオーディオ信号に基づいて学習により生成
されている予測係数が用いられることを特徴とする請求
項３に記載のディジタル信号処理方法。
【請求項５】ディジタルオーディオ信号を変換するディ
ジタル信号処理装置の上記変換処理の予測演算に用いら
れる予測係数を生成する学習装置において、所望とするディジタルオーディオ信号から当該ディジタ
ルオーディオ信号を劣化させた生徒ディジタルオーディ
オ信号を生成する生徒ディジタルオーディオ信号生成手
段と、上記生徒ディジタルオーディオ信号のピッチを検出する
ピッチ検出手段と、上記ピッチに基づいてそのクラスを分類するクラス分類
手段と、上記ディジタルオーディオ信号と上記生徒ディジタルオ
ーディオ信号とに基づいて上記クラスに対応する予測係
数を算出する予測係数算出手段とを具えることを特徴と
する学習装置。
【請求項６】ディジタルオーディオ信号を変換するディ
ジタル信号処理装置の上記変換処理の予測演算に用いら
れる予測係数を生成する学習方法において、所望とするディジタルオーディオ信号から当該ディジタ
ルオーディオ信号を劣化させた生徒ディジタルオーディ
オ信号を生成する生徒ディジタルオーディオ信号生成ス
テップと、上記生徒ディジタルオーディオ信号のピッチを検出する
ピッチ検出ステップと、上記ピッチに基づいてそのクラスを分類するクラス分類
ステップと、上記ディジタルオーディオ信号と上記生徒ディジタルオ
ーディオ信号とに基づいて上記クラスに対応する予測係
数を算出する予測係数算出ステップとを具えることを特
徴とする学習方法。
【請求項７】上記ディジタルオーディオ信号のピッチを
検出するピッチ検出ステップと、上記ピッチに基づいてそのクラスを分類するクラス分類
ステップと、上記分類されたクラスに対応した予測方式で上記ディジ
タルオーディオ信号を予測演算することにより上記ディ
ジタルオーディオ信号を変換してなる新たなディジタル
オーディオ信号を生成する予測演算ステップとを含むプ
ログラムをディジタル信号処理装置に実行させるプログ
ラム格納媒体。
【請求項８】所望とするディジタルオーディオ信号から
当該ディジタルオーディオ信号を劣化させた生徒ディジ
タルオーディオ信号を生成する生徒ディジタルオーディ
オ信号生成ステップと、上記生徒ディジタルオーディオ信号のピッチを検出する
ピッチ検出ステップと、上記ピッチに基づいてそのクラスを分類するクラス分類
ステップと、上記ディジタルオーディオ信号と上記生徒ディジタルオ
ーディオ信号とに基づいて上記クラスに対応する予測係
数を算出する予測係数算出ステップとを含むプログラム
を学習装置に実行させるプログラム格納媒体。