JP2002049395A - ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 - Google Patents

ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Info

Publication number
JP2002049395A
JP2002049395A JP2000238891A JP2000238891A JP2002049395A JP 2002049395 A JP2002049395 A JP 2002049395A JP 2000238891 A JP2000238891 A JP 2000238891A JP 2000238891 A JP2000238891 A JP 2000238891A JP 2002049395 A JP2002049395 A JP 2002049395A
Authority
JP
Japan
Prior art keywords
audio signal
digital audio
pitch
class
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000238891A
Other languages
English (en)
Other versions
JP4645866B2 (ja
Inventor
Tetsujiro Kondo
哲二郎 近藤
Tsutomu Watanabe
勉 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000238891A priority Critical patent/JP4645866B2/ja
Publication of JP2002049395A publication Critical patent/JP2002049395A/ja
Application granted granted Critical
Publication of JP4645866B2 publication Critical patent/JP4645866B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】ディジタル信号の波形再現性を一段と向上し得
るディジタル信号処理方法、学習方法及びそれらの装置
並びにプログラム格納媒体を提案する。 【解決手段】ディジタルオーディオ信号D10のピッチ
を検出し、当該検出したピッチに基づいてそのクラスを
分類し、分類されたクラスに対応した予測方式でディジ
タルオーディオ信号D10を変換するようにしたことに
より、一段とディジタルオーディオ信号D10の特徴に
適応した変換を行うことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はディジタル信号処理
方法、学習方法及びそれらの装置並びにプログラム格納
媒体に関し、レートコンバータ又はPCM(Pulse Code
Modulation) 復号装置等においてディジタル信号に対し
てデータの補間処理を行うディジタル信号処理方法、学
習方法及びそれらの装置並びにプログラム格納媒体に適
用して好適なものである。
【0002】
【従来の技術】従来、ディジタルオーディオ信号をディ
ジタル/アナログコンバータに入力する前に、サンプリ
ング周波数を元の値の数倍に変換するオーバサンプリン
グ処理を行っている。これにより、ディジタル/アナロ
グコンバータから出力されたディジタルオーディオ信号
はアナログ・アンチ・エイリアス・フィルタの位相特性
が可聴周波数高域で一定に保たれ、また、サンプリング
に伴うディジタル系のイメージ雑音の影響が排除される
ようになされている。
【0003】かかるオーバサンプリング処理では、通
常、線形一次(直線)補間方式のディジタルフィルタが
用いられている。このようなディジタルフィルタは、サ
ンプリングレートが変わったりデータが欠落した場合等
に、複数の既存データの平均値を求めて直線的な補間デ
ータを生成するものである。
【0004】
【発明が解決しようとする課題】ところが、オーバサン
プリング処理後のディジタルオーディオ信号は、線形一
次補間によって時間軸方向に対してデータ量が数倍に緻
密になっているものの、オーバサンプリング処理後のデ
ィジタルオーディオ信号の周波数帯域は変換前とあまり
変わらず、音質そのものは向上していない。さらに、補
間されたデータは必ずしもA/D変換前のアナログオー
ディオ信号の波形に基づいて生成されたのではないた
め、波形再現性もほとんど向上していない。
【0005】また、サンプリング周波数の異なるディジ
タルオーディオ信号をダビングする場合において、サン
プリング・レート・コンバータを用いて周波数を変換し
ているが、かかる場合でも線形一次ディジタルフィルタ
によって直線的なデータの補間しか行うことができず、
音質や波形再現性を向上することが困難であった。さら
に、ディジタルオーディオ信号のデータサンプルが欠落
した場合において同様である。
【0006】本発明は以上の点を考慮してなされたもの
で、ディジタル信号の波形再現性を一段と向上し得るデ
ィジタル信号処理方法、学習方法及びそれらの装置並び
にプログラム格納媒体を提案しようとするものである。
【0007】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、ディジタルオーディオ信号のピッ
チを検出し、当該検出したピッチに基づいてそのクラス
を分類し、分類されたクラスに対応した予測方式でディ
ジタルオーディオ信号を変換するようにしたことによ
り、一段とディジタルオーディオ信号の特徴に適応した
変換を行うことができる。
【0008】
【発明の実施の形態】以下図面について、本発明の一実
施の形態を詳述する。
【0009】図1においてオーディオ信号処理装置10
は、ディジタルオーディオ信号(以下これをオーディオ
データと呼ぶ)のサンプリングレートを上げたり、オー
ディオデータを補間する際に、真値に近いオーディオデ
ータをクラス分類適用処理によって生成するようになさ
れている。因みに、ディジタルオーディオ信号とは、人
や動物が発する声を表す音声信号、楽器が発する楽音を
表す楽音信号、及びその他の音を表す信号を意味するも
のである。
【0010】すなわち、オーディオ信号処理装置10に
おいて、ピッチ検出部11は入力端子TINから供給され
た図2又は図3に示す入力オーディオデータD10のピ
ッチ(基本周波数)を例えば入力オーディオデータD1
0の自己相関に基づいて検出する。
【0011】すなわちピッチ検出部11は、入力オーデ
ィオデータD10について、例えば時間軸領域に分割し
てなる種々の範囲ごとに自己相関値を検出し、当該自己
相関値が所定の閾値よりも大きいときピッチが有ると判
断する。そしてピッチ検出部11はピッチが有る場合の
ピッチ周期PITT 及びピッチサイズとその位置をピッ
チクラスとする。例えば、入力オーディオデータD10
が図2に示すような波形を有している場合、ピッチ検出
部11はカレントピッチPIT2に対してその前後に隣
接する位置に前ピッチPIT1及び後ろピッチPIT3
を検出する。因みに、ピッチ検出部11が検出する前ピ
ッチPIT1及び後ろピッチPIT3は必ずしもカレン
トピッチPIT2に隣接するとは限らず、カレントピッ
チPIT2から所定距離離れている場合もある。
【0012】ピッチ検出部11はカレントピッチPIT
2に対応する前ピッチPIT1及び後ろピッチPIT3
を検出すると、これらを切り出すための切り出し制御信
号CONT11を可変クラス分類部抽出部12及び可変
予測演算部抽出部13に供給する。
【0013】可変クラス分類部抽出部12は切り出し制
御信号CONT11に基づいて、前ピッチPIT1に対
応するクラスタップCL1、カレントピッチPIT2に
対応するクラスタップCL2及び後ろタップPIT3に
対応するクラスタップCL3を入力オーディオデータD
10から切り出し、これらをクラスタップデータD12
としてクラス分類部14に供給する。
【0014】クラス分類部14は、クラス分類抽出部1
2において切り出されたクラスタップについて、各ピッ
チ(前ピッチPIT1、カレントピッチPIT2及び後
ろタップPIT3)ごとに個別に、又はこれらを統合
し、そのクラスタップを圧縮して圧縮データパターンを
生成するADRC(Adaptive Dynamic Range Coding) 回
路部と、クラスタップデータD12の属するクラスコー
ドを発生するクラスコード発生回路部とを有する。
【0015】ADRC回路部はクラスタップデータD1
2に対して、例えば8ビットから2ビットに圧縮するよ
うな演算を行うことによりパターン圧縮データを形成す
る。このADRC回路部は、適応的量子化を行うもので
あり、ここでは、信号レベルの局所的なパターンを短い
語長で効率的に表現することができるので、信号パター
ンのクラス分類のコード発生用に用いられる。
【0016】具体的には、オーディオ波形上の6つの8
ビットのデータ(クラスタップ)をクラス分類しようと
する場合、248という膨大な数のクラスに分類しなけれ
ばならず、回路上の負担が多くなる。そこで、この実施
の形態のクラス分類部14ではその内部に設けられたA
DRC回路部で生成されるパターン圧縮データに基づい
てクラス分類を行う。例えば6つのクラスタップに対し
て1ビットの量子化を実行すると、6つのクラスタップ
を6ビットで表すことができ、26 =64クラスに分類
することができる。
【0017】ここで、ADRC回路部は、切り出された
領域内のクラスタップ(オーディオ波形)のダイナミッ
クレンジをDR、ビット割り当をm、各クラスタップの
データレベルをL、量子化コードをQとすると、次式、
【0018】
【数1】
【0019】に従って、領域内の最大値MAXと最小値
MINとの間を指定されたビット長で均等に分割して量
子化を行う。なお、(1)式において{ }は小数点以
下の切り捨て処理を意味する。かくして6つのクラスタ
ップが、それぞれ例えば8ビット(m=8)で構成され
ているとすると、これらはADRC回路部においてそれ
ぞれが2ビットに圧縮される。
【0020】このようにして圧縮されたオーディオ波形
データ(クラスタップ)をそれぞれqn (n=1〜6)
とすると、クラス分類部14に設けられたクラスコード
発生回路部は、圧縮されたオーディオ波形データqn
基づいて、次式、
【0021】
【数2】
【0022】に示す演算を実行することにより、そのブ
ロック(q1 〜q6 )が属するクラスを示すクラスコー
ドclass を算出すると共に、当該算出されたクラスタッ
プデータD12に基づくクラスコードclass をクラスコ
ードデータD14として予測係数メモリ15に供給す
る。このクラスコードclass は、予測係数メモリ15か
ら予測係数を読み出す際の読み出しアドレスを示す。因
みに(2)式において、nは圧縮されたオーディオ波形
データ(クラスタップ)qn の数を表し、この実施の形
態の場合n=6であり、またPはビット割り当てを表
し、この実施の形態の場合P=2である。
【0023】このようにして、クラス分類部14はクラ
ス分類部抽出部12において入力オーディオデータD1
0から切り出されたクラスタップのクラスコード class
を生成し、これをクラスコードデータD14として予測
係数メモリ15に供給する。
【0024】予測係数メモリ15には、各クラスコード
に対応する予測係数のセットがクラスコードに対応する
アドレスにそれぞれ記憶されており、クラス分類部14
から供給されるクラスコードデータD14に基づいて、
当該クラスコードに対応するアドレスに記憶されている
予測係数のセットw1 〜wn が読み出され、予測演算部
16に供給される。
【0025】予測演算部16は、予測演算部抽出部13
においてピッチ検出部11から供給される切り出し制御
信号CONT11に応じて切り出された予測演算しよう
とするオーディオ波形データ(予測タップ)D13(x
1 〜xn )と、予測係数w1〜wn に対して、次式
【0026】
【数3】
【0027】に示す積和演算を行うことにより、予測結
果y′を得る。この予測値y′が、音質が改善されたオ
ーディオデータD16として予測演算部16から出力さ
れる。
【0028】因みに、ピッチ検出部11において入力オ
ーディオデータD10にピッチが無いと判断した場合、
ピッチ検出部11は前ピッチPIT1や後ろピッチPI
T3を用いることなく、図3に示すようにカレントデー
タ近傍のオーディオ波形のレベルを切り出すための制御
信号CONT11を可変クラス分類部抽出部12及び可
変予測演算部抽出部13に供給することにより、カレン
トデータ近傍のオーディオ波形によりクラス分類及び予
測演算を行う。
【0029】なお、オーディオ信号処理装置10の構成
として図1について上述した機能ブロックを示したが、
この機能ブロックを構成する具体的構成として、この実
施の形態においては図4に示すコンピュータ構成の装置
を用いる。すなわち、図4において、オーディオ信号処
理装置10は、バスBUSを介してCPU21、ROM
(Read Only Memory)22、予測係数メモリ15を構成す
るRAM(Random Access Memory)15、及び各回路部が
それぞれ接続された構成を有し、CPU11はROM2
2に格納されている種々のプログラムを実行することに
より、図1について上述した各機能ブロック(ピッチ検
出部11、クラス分類部抽出部12、予測演算部抽出部
13、クラス分類部14及び予測演算部16)として動
作するようになされている。
【0030】また、オーディオ信号処理装置10にはネ
ットワークとの間で通信を行う通信インターフェース2
4、フロッピィディスクや光磁気ディスク等の外部記憶
媒体から情報を読み出すリムーバブルドライブ28を有
し、ネットワーク経由又は外部記憶媒体から図1につい
て上述したクラス分類適用処理を行うための各プログラ
ムをハードディスク装置25のハードディスクに読み込
んみ、当該読み込まれたプログラムに従ってクラス分類
適応処理を行うこともできる。
【0031】ユーザは、キーボードやマウス等の入力手
段26を介して種々のコマンドを入力することにより、
CPU21に対して図1について上述したクラス分類処
理を実行させる。この場合、オーディオ信号処理装置1
0はデータ入出力部27を介して音質を向上させようと
するオーディオデータ(入力オーディオデータ)D10
を入力し、当該入力オーディオデータD10に対してク
ラス分類適用処理を施した後、音質が向上したオーディ
オデータD16をデータ入出力部27を介して外部に出
力し得るようになされている。
【0032】因みに、図5はオーディオ信号処理装置1
0におけるクラス分類適応処理の処理手順を示し、オー
ディオ信号処理装置10はステップSP11から当該処
理手順に入ると、続くステップSP12において入力オ
ーディオデータD10のピッチをピッチ検出部11にお
いて算出する。
【0033】この算出されたピッチ(前ピッチPIT
1、カレントピッチPIT2、後ろピッチPIT3)は
オーティオ波形のクラス分類を一段と確実にするための
もであり、オーディオ信号処理装置10は、ステップS
P13においてピッチに応じたクラスタップの切り出し
を行った後、ステップSP14においてクラス分類部1
4によりクラスタップ(オーディオ波形)をクラス分類
する。そしてオーディオ信号処理装置10は、クラス分
類の結果得られたクラスコードを用いて予測係数メモリ
15から予測係数を読み出す。この予測係数は予め学習
によりクラス毎に対応して格納されており、オーディオ
信号処理装置10はクラスコードに対応した予測係数を
読み出すことにより、このときのオーディオ波形の特徴
に合致した予測係数を用いることができる。
【0034】予測係数メモリ15から読み出された予測
係数は、ステップSP15において予測演算部16の予
測演算に用いられる。これにより、入力オーディオデー
タD10はそのピッチに応じたクラスタップにより得ら
れたクラスコードを用いて予測演算され、所望とするオ
ーディオデータD16に変換される。かくして入力オー
ディオデータD10はその音質が改善されたオーディオ
データD16に変換され、オーディオ信号処理装置10
はステップSP16に移って当該処理手順を終了する。
【0035】次に、図1について上述した予測係数メモ
リ15に記憶するクラス毎の予測係数のセットを予め学
習によって得るための学習回路について説明する。
【0036】図6において、学習回路30は、高音質の
教師オーディオデータD30を生徒信号生成フィルタ3
7に受ける。生徒信号生成フィルタ37は、間引き率設
定信号D39により設定された間引き率で教師オーディ
オデータD30を所定時間ごとに所定サンプル間引くよ
うになされている。
【0037】この場合、生徒信号生成フィルタ37にお
ける間引き率によって、生成される予測係数が異なり、
これに応じて上述のオーディオ信号処理装置10で再現
されるオーディオデータも異なる。例えば、上述のオー
ディオ信号処理装置10においてサンプリング周波数を
高くすることでオーディオデータの音質を向上しようと
する場合、生徒信号生成フィルタ37ではサンプリング
周波数を減らす間引き処理を行う。また、これに対して
上述のオーディオ信号処理装置10において入力オーデ
ィオデータD10の欠落したデータサンプルを補うこと
で音質の向上を図る場合には、これに応じて、生徒信号
生成フィルタ37ではデータサンプルを欠落させる間引
き処理を行うようになされている。
【0038】かくして、生徒信号生成フィルタ37は教
師オーディオデータ30から所定の間引き処理により生
徒オーディオデータD37を生成し、これをピッチ検出
部31、クラス分類部抽出部32及び予測演算部抽出部
33にそれぞれ供給する。
【0039】ピッチ検出部31は生徒信号生成フィルタ
37から供給された生徒オーディオデータD37につい
て、図2及び図3について上述したピッチ(基本周波
数)を生徒オーディオデータD37の自己相関に基づい
て検出する。
【0040】そしてピッチ検出部31はカレントピッチ
PIT2に対応する前ピッチPIT1及び後ろピッチP
IT3を検出すると、これらを切り出すための切り出し
制御信号CONT31を可変クラス分類部抽出部32及
び可変予測演算部抽出部33に供給する。
【0041】可変クラス分類部抽出部32は切り出し制
御信号CONT31に基づいて、前ピッチPIT1に対
応するクラスタップCL1、カレントピッチPIT2に
対応するクラスタップCL2及び後ろタップPIT3に
対応するクラスタップCL3を生徒オーディオデータD
37から切り出し、これらをクラスタップデータD32
としてクラス分類部34に供給する。
【0042】クラス分類部34は、クラス分類抽出部3
2において切り出されたクラスタップについて、当該ク
ラスタップを圧縮して圧縮データパターンを生成するA
DRC(Adaptive Dynamic Range Coding) 回路部と、ク
ラスタップデータD32の属するクラスコードを発生す
るクラスコード発生回路部とを有する。
【0043】ADRC回路部はクラスタップデータD3
2に対して、例えば8ビットから2ビットに圧縮するよ
うな演算を行うことによりパターン圧縮データを形成す
る。このADRC回路部は、適応的量子化を行うもので
あり、ここでは、信号レベルの局所的なパターンを短い
語長で効率的に表現することができるので、信号パター
ンのクラス分類のコード発生用に用いられる。
【0044】具体的には、包絡線波形上の6つの8ビッ
トのデータ(クラスタップ)をクラス分類しようとする
場合、248という膨大な数のクラスに分類しなければな
らず、回路上の負担が多くなる。そこで、この実施の形
態のクラス分類部14ではその内部に設けられたADR
C回路部で生成されるパターン圧縮データに基づいてク
ラス分類を行う。例えば6つのクラスタップに対して1
ビットの量子化を実行すると、6つのクラスタップを6
ビットで表すことができ、26 =64クラスに分類する
ことができる。
【0045】ここで、ADRC回路部は、切り出された
領域内のクラスタップ(オーディオ波形)のダイナミッ
クレンジをDR、ビット割り当をm、各クラスタップの
データレベルをL、量子化コードをQとして、上述の
(1)式と同様の演算により、領域内の最大値MAXと
最小値MINとの間を指定されたビット長で均等に分割
して量子化を行う。かくしてオーディオ波形上の6つの
波形データが、それぞれ例えば8ビット(m=8)で構
成されているとすると、これらはADRC回路部におい
てそれぞれが2ビットに圧縮される。
【0046】このようにして圧縮されたオーディオ波形
データ(クラスタップ)をそれぞれqn (n=1〜6)
とすると、クラス分類部34に設けられたクラスコード
発生回路部は、圧縮されたオーディオ波形データqn
基づいて、上述の(2)式と同様の演算を実行すること
により、そのブロック(q1 〜q6 )が属するクラスを
示すクラスコードclass を算出し、当該算出されたクラ
スコードclass をクラスコードデータD34として予測
係数算出部36に供給する。因みに(2)式において、
nは圧縮されたオーディオ波形データ(クラスタップ)
n の数を表し、この実施の形態の場合n=6であり、
またPはビット割り当てを表し、この実施の形態の場合
P=2である。
【0047】このようにして、クラス分類部34はクラ
スコードデータD34を生成し、これを予測係数算出部
36に供給する。また、予測係数算出部36には、予測
演算部抽出部33においてピッチ検出部11から供給さ
れる切り出し制御信号CONT11に応じて切り出され
た予測演算しようとするオーディオ波形データ(予測タ
ップ)D13(x1 〜xn )が供給される。
【0048】予測係数算出部36は、クラス分類部34
から供給されたクラスコードclassと、各クラスコードc
lass 毎に切り出された予測タップD33と、入力端T
INから供給された高音質の教師オーディオデータD30
とを用いて、正規方程式を立てる。
【0049】すなわち、生徒オーディオデータD37の
nサンプルのレベルをそれぞれx1、x2 、……、xn
として、それぞれにpビットのADRCを行った結果の
量子化データをq1 、……、qn とする。このとき、こ
の領域のクラスコードclass′を上述の(2)式のよう
に定義する。そして、上述のように生徒オーディオデー
タD37のレベルをそれぞれ、x1 、x2 、……、xn
とし、高音質の教師オーディオデータD30のレベルを
yとしたとき、クラスコード毎に、予測係数w1
2 、……、wn によるnタップの線形推定式を設定す
る。これを次式、
【0050】
【数4】
【0051】とする。学習前は、wn が未定係数であ
る。
【0052】学習回路30では、クラスコード毎に、複
数のオーディオデータに対して学習を行う。データサン
プル数がMの場合、上述の(4)式に従って、次式、
【0053】
【数5】
【0054】が設定される。但しk=1、2、……Mで
ある。
【0055】M>nの場合、予測係数w1 、……wn
一意的に決まらないので、誤差ベクトルeの要素を次
式、
【0056】
【数6】
【0057】によって定義し(但し、k=1、2、…
…、M)、次式、
【0058】
【数7】
【0059】を最小にする予測係数を求める。いわゆ
る、最小自乗法による解法である。
【0060】ここで、(7)式によるwn の偏微分係数
を求める。この場合、次式、
【0061】
【数8】
【0062】を「0」にするように、各wn (n=1〜
6)を求めれば良い。
【0063】そして、次式、
【0064】
【数9】
【0065】
【数10】
【0066】のように、Xij、Yi を定義すると、
(8)式は行列を用いて次式、
【0067】
【数11】
【0068】として表される。
【0069】この方程式は、一般に正規方程式と呼ばれ
ている。なお、ここではn=6である。
【0070】全ての学習用データ(教師オーディオデー
タD30、クラスコードclass 、予測タップD33)の
入力が完了した後、予測係数算出部36は各クラスコー
ドclass に上述の(11)式に示した正規方程式を立て
て、この正規方程式を掃き出し法等の一般的な行列解法
を用いて、各Wn について解き、各クラスコード毎に、
予測係数を算出する。予測係数算出部36は、算出され
た各予測係数(D36)を予測係数メモリ15に書き込
む。
【0071】このような学習を行った結果、予測係数メ
モリ15には、量子化データq1 、……、q6 で規定さ
れるパターン毎に、高音質のオーディオデータyを推定
するための予測係数が、各クラスコード毎に格納され
る。この予測係数メモリ15は、図1について上述した
オーディオ信号処理装置10において用いられる。かか
る処理により、線形推定式に従って通常のオーディオデ
ータから高音質のオーディオデータを作成するための予
測係数の学習が終了する。
【0072】このように、学習回路30は、オーディオ
信号処理装置10において補間処理を行う程度を考慮し
て、生徒信号生成フィルタ37で高音質の教師オーディ
オデータの間引き処理を行うことにより、オーディオ信
号処理装置10における補間処理のための予測係数を生
成することができる。
【0073】以上の構成において、オーディオ信号処理
装置10は、入力オーディオデータD10のピッチをピ
ッチ検出部11において検出することにより、入力オー
ディオデータD10のうち、特に規則性を持った波形部
分を抽出することができる。
【0074】かかる規則性を持った波形部分(ピッチ)
は、例えば人間の声では同じ音素であっても個人毎に異
なり、この部分を正確に切り出してクラス分類すること
により、個人毎に異なるオーディオ波形の特徴が一段と
明確にクラス分けされる。
【0075】このように、オーディオ波形の特徴を明確
にクラス分けし、当該クラス分類結果に基づく予測演算
を行うことにより、オーディオ波形の再現性が向上し、
音質の向上が図られる。
【0076】以上の構成によれば、ピッチの検出結果に
基づいてタップの切り出し範囲を制御するようにしたこ
とにより、入力オーディオデータD10を一段と高音質
のオーディオデータD16に変換することができる。
【0077】なお上述の実施の形態においては、オーデ
ィオ信号処理装置10及び学習回路30において、ピッ
チ検出部11、31で検出されたピッチサイズとその位
置とをピッチクラスとして可変クラス分類部抽出部1
2、32に供給する場合について述べたが、本発明はこ
れに限らず、例えば図1及び図6との対応部分に同一の
符号を付して示す図7及び図8に示すように、ピッチ検
出部11′、31′で検出されたピッチ数をピッチクラ
スデータD11、D31としてクラス分類部14′及び
34′に供給するようにしても良い。
【0078】この場合、クラス分類部14′及び34′
は、可変クラス分類部抽出部12から供給されるピッチ
クラスデータD11、D31と同様の時間領域に分割さ
れたクラスタップデータD12、D32のクラスコード
class と、ピッチクラスデータD11、D31のクラス
コードCLASS とを対応させて統合したクラスコードデー
タ(class ′)D14、D34を生成する。
【0079】このようにピッチ検出部11′、31′で
検出されたピッチ数をピッチクラスデータD11、D3
1としてクラス分類部14′及び34′に供給するよう
にすれば、クラス分類の頻度を一段と多くすることがで
き、かくして、クラス分類された結果に基づく予測係数
を用いて入力オーディオデータの予測演算を行うオーデ
ィオ信号処理装置10は、一段と高音質のオーディオデ
ータに変換することができる。
【0080】また上述の実施の形態においては、オーデ
ィオ波形のピッチを検出する方法として自己相関を用い
る場合について述べたが、本発明はこれに限らず、例え
ばオーディオ波形に対してフーリエ変換を施すケプスト
ラム分析やパターン認識等、他の種々の方法を適用する
ことができる。
【0081】また上述の実施の形態においては、入力オ
ーディオデータD10の時間軸領域の波形について、ピ
ッチ検出及びクラス分類を行う場合について述べたが、
本発明はこれに限らず、周波数領域に展開してピッチ検
出、クラス分類を行うようにしても良い。
【0082】また上述の実施の形態においては、クラス
分類のためのタップの切り出しサイズと、予測演算用の
タップの切り出し領域とを同一サイズとした場合につい
て述べたが、本発明はこれに限らず、クラス分類用のタ
ップの切り出しサイズと予測演算用のタップの切り出し
サイズは異なるようにしても良く、さらには、ピッチ検
出部11において検出された自己相関の強さに応じて切
り出しサイズを変化させるようにしても良い。この場
合、例えば自己相関が強い程切り出しサイズを大きくす
ることができる。
【0083】また上述の実施の形態においては、予測方
式として線形一次による手法を用いる場合について述べ
たが、本発明はこれに限らず、要は学習した結果を用い
るようにすれば良く、例えば多次関数による手法等の種
々の予測方式を適用することができる。
【0084】また上述の実施の形態においては、クラス
分類部14においてADRCにより圧縮データパターン
を生成する場合について述べたが、本発明はこれに限ら
ず、可逆符号化(DPCM:Differrential Pulse Code
Modulation) 又はベクトル量子化(VQ:Vector Quanti
ze) 等の圧縮手段を用いるようにしても良い。
【0085】また上述の実施の形態においては、学習回
路30の生徒信号生成フィルタ37において教師オーデ
ィオデータD30から所定サンプルを間引く場合につい
て述べたが、本発明はこれに限らず、例えばビット数を
間引く等、他の種々の方法を適用することができる。
【0086】
【発明の効果】上述のように本発明によれば、ディジタ
ルオーディオ信号のピッチを検出し、当該検出したピッ
チに基づいてそのクラスを分類し、分類されたクラスに
対応した予測方式でディジタルオーディオ信号を変換す
るようにしたことにより、一段とディジタルオーディオ
信号の特徴に適応した変換を行うことができる。
【図面の簡単な説明】
【図1】本発明によるディジタル信号処理装置の構成を
示すブロック図である。
【図2】ディジタルオーディオ信号のピッチの説明に供
する信号波形図である。
【図3】ピッチの無いディジタルオーディオ信号の処理
の説明に供する信号波形図である。
【図4】オーディオ信号処理装置の構成を示すブロック
図である。
【図5】オーディオ信号変換処理手順を示すフローチャ
ートである。
【図6】本発明による学習装置の構成を示すブロック図
である。
【図7】他の実施の形態によるディジタル信号処理装置
の構成を示すブロック図である。
【図8】他の実施の形態による学習装置の構成を示すブ
ロック図である。
【符号の説明】
10……オーディオ信号処理装置、11、31……ピッ
チ検出部、14、34……クラス分類部、15……予測
係数メモリ、16……予測演算部、36……予測係数算
出部、37……生徒信号生成フィルタ。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】ディジタルオーディオ信号を変換するディ
    ジタル信号処理装置において、 上記ディジタルオーディオ信号のピッチを検出するピッ
    チ検出手段と、 上記ピッチに基づいてそのクラスを分類するクラス分類
    手段と、 上記分類されたクラスに対応した予測方式で上記ディジ
    タルオーディオ信号を予測演算することにより上記ディ
    ジタルオーディオ信号を変換してなる新たなディジタル
    オーディオ信号を生成する予測演算手段とを具えること
    を特徴とするディジタル信号処理装置。
  2. 【請求項2】上記予測演算手段は、予め所望とするディ
    ジタルオーディオ信号に基づいて学習により生成されて
    いる予測係数を用いることを特徴とする請求項1に記載
    のディジタル信号処理装置。
  3. 【請求項3】ディジタルオーディオ信号を変換するディ
    ジタル信号処理方法において、 上記ディジタルオーディオ信号のピッチを検出するピッ
    チ検出ステップと、 上記ピッチに基づいてそのクラスを分類するクラス分類
    ステップと、 上記分類されたクラスに対応した予測方式で上記ディジ
    タルオーディオ信号を予測演算することにより上記ディ
    ジタルオーディオ信号を変換してなる新たなディジタル
    オーディオ信号を生成する予測演算ステップとを具える
    ことを特徴とするディジタル信号処理方法。
  4. 【請求項4】上記予測演算ステップでは、予め所望とす
    るディジタルオーディオ信号に基づいて学習により生成
    されている予測係数が用いられることを特徴とする請求
    項3に記載のディジタル信号処理方法。
  5. 【請求項5】ディジタルオーディオ信号を変換するディ
    ジタル信号処理装置の上記変換処理の予測演算に用いら
    れる予測係数を生成する学習装置において、 所望とするディジタルオーディオ信号から当該ディジタ
    ルオーディオ信号を劣化させた生徒ディジタルオーディ
    オ信号を生成する生徒ディジタルオーディオ信号生成手
    段と、 上記生徒ディジタルオーディオ信号のピッチを検出する
    ピッチ検出手段と、 上記ピッチに基づいてそのクラスを分類するクラス分類
    手段と、 上記ディジタルオーディオ信号と上記生徒ディジタルオ
    ーディオ信号とに基づいて上記クラスに対応する予測係
    数を算出する予測係数算出手段とを具えることを特徴と
    する学習装置。
  6. 【請求項6】ディジタルオーディオ信号を変換するディ
    ジタル信号処理装置の上記変換処理の予測演算に用いら
    れる予測係数を生成する学習方法において、 所望とするディジタルオーディオ信号から当該ディジタ
    ルオーディオ信号を劣化させた生徒ディジタルオーディ
    オ信号を生成する生徒ディジタルオーディオ信号生成ス
    テップと、 上記生徒ディジタルオーディオ信号のピッチを検出する
    ピッチ検出ステップと、 上記ピッチに基づいてそのクラスを分類するクラス分類
    ステップと、 上記ディジタルオーディオ信号と上記生徒ディジタルオ
    ーディオ信号とに基づいて上記クラスに対応する予測係
    数を算出する予測係数算出ステップとを具えることを特
    徴とする学習方法。
  7. 【請求項7】上記ディジタルオーディオ信号のピッチを
    検出するピッチ検出ステップと、 上記ピッチに基づいてそのクラスを分類するクラス分類
    ステップと、 上記分類されたクラスに対応した予測方式で上記ディジ
    タルオーディオ信号を予測演算することにより上記ディ
    ジタルオーディオ信号を変換してなる新たなディジタル
    オーディオ信号を生成する予測演算ステップとを含むプ
    ログラムをディジタル信号処理装置に実行させるプログ
    ラム格納媒体。
  8. 【請求項8】所望とするディジタルオーディオ信号から
    当該ディジタルオーディオ信号を劣化させた生徒ディジ
    タルオーディオ信号を生成する生徒ディジタルオーディ
    オ信号生成ステップと、 上記生徒ディジタルオーディオ信号のピッチを検出する
    ピッチ検出ステップと、 上記ピッチに基づいてそのクラスを分類するクラス分類
    ステップと、 上記ディジタルオーディオ信号と上記生徒ディジタルオ
    ーディオ信号とに基づいて上記クラスに対応する予測係
    数を算出する予測係数算出ステップとを含むプログラム
    を学習装置に実行させるプログラム格納媒体。
JP2000238891A 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 Expired - Fee Related JP4645866B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000238891A JP4645866B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000238891A JP4645866B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Publications (2)

Publication Number Publication Date
JP2002049395A true JP2002049395A (ja) 2002-02-15
JP4645866B2 JP4645866B2 (ja) 2011-03-09

Family

ID=18730522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000238891A Expired - Fee Related JP4645866B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Country Status (1)

Country Link
JP (1) JP4645866B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907413B2 (en) 2000-08-02 2005-06-14 Sony Corporation Digital signal processing method, learning method, apparatuses for them, and program storage medium
JP2007295599A (ja) * 2007-06-04 2007-11-08 Sony Corp 学習装置および学習方法、並びにプログラムおよび記録媒体
US7412384B2 (en) 2000-08-02 2008-08-12 Sony Corporation Digital signal processing method, learning method, apparatuses for them, and program storage medium
US7584008B2 (en) 2000-08-02 2009-09-01 Sony Corporation Digital signal processing method, learning method, apparatuses for them, and program storage medium

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262800A (ja) * 1985-05-17 1986-11-20 富士通株式会社 音声符号化方式
JPS62102294A (ja) * 1985-10-30 1987-05-12 株式会社日立製作所 音声符号化方式
JPH04506575A (ja) * 1989-04-18 1992-11-12 パシフィック コミュニケイション サイエンセズ,インコーポレイテッド 長時間予測子を有する適応変換コード化装置
JPH0540500A (ja) * 1991-08-06 1993-02-19 Sharp Corp 音声符号化装置
JPH07193789A (ja) * 1993-12-25 1995-07-28 Sony Corp 画像情報変換装置
JPH08265711A (ja) * 1995-03-22 1996-10-11 Sony Corp 信号変換装置及び信号変換方法
JPH08294089A (ja) * 1995-04-20 1996-11-05 Sony Corp 信号変換装置及び信号変換方法
JPH10313251A (ja) * 1997-05-12 1998-11-24 Sony Corp オーディオ信号変換装置及び方法、予測係数生成装置及び方法、予測係数格納媒体
JP2000092456A (ja) * 1998-09-11 2000-03-31 Sony Corp 画像変換装置および方法、学習装置および方法、画像変換システム、並びに提供媒体

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262800A (ja) * 1985-05-17 1986-11-20 富士通株式会社 音声符号化方式
JPS62102294A (ja) * 1985-10-30 1987-05-12 株式会社日立製作所 音声符号化方式
JPH04506575A (ja) * 1989-04-18 1992-11-12 パシフィック コミュニケイション サイエンセズ,インコーポレイテッド 長時間予測子を有する適応変換コード化装置
JPH0540500A (ja) * 1991-08-06 1993-02-19 Sharp Corp 音声符号化装置
JPH07193789A (ja) * 1993-12-25 1995-07-28 Sony Corp 画像情報変換装置
JPH08265711A (ja) * 1995-03-22 1996-10-11 Sony Corp 信号変換装置及び信号変換方法
JPH08294089A (ja) * 1995-04-20 1996-11-05 Sony Corp 信号変換装置及び信号変換方法
JPH10313251A (ja) * 1997-05-12 1998-11-24 Sony Corp オーディオ信号変換装置及び方法、予測係数生成装置及び方法、予測係数格納媒体
JP2000092456A (ja) * 1998-09-11 2000-03-31 Sony Corp 画像変換装置および方法、学習装置および方法、画像変換システム、並びに提供媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907413B2 (en) 2000-08-02 2005-06-14 Sony Corporation Digital signal processing method, learning method, apparatuses for them, and program storage medium
US6990475B2 (en) 2000-08-02 2006-01-24 Sony Corporation Digital signal processing method, learning method, apparatus thereof and program storage medium
US7412384B2 (en) 2000-08-02 2008-08-12 Sony Corporation Digital signal processing method, learning method, apparatuses for them, and program storage medium
US7584008B2 (en) 2000-08-02 2009-09-01 Sony Corporation Digital signal processing method, learning method, apparatuses for them, and program storage medium
JP2007295599A (ja) * 2007-06-04 2007-11-08 Sony Corp 学習装置および学習方法、並びにプログラムおよび記録媒体

Also Published As

Publication number Publication date
JP4645866B2 (ja) 2011-03-09

Similar Documents

Publication Publication Date Title
JPH08335100A (ja) ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム
JPH10319996A (ja) 雑音の効率的分解と波形補間における周期信号波形
JP2738533B2 (ja) マルチレベル・フィルタ励起を用いる音声合成
JP2006521576A (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
US20070011001A1 (en) Apparatus for predicting the spectral information of voice signals and a method therefor
JP4596196B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645866B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4596197B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
JP4645868B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645867B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645869B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US6990475B2 (en) Digital signal processing method, learning method, apparatus thereof and program storage medium
JP3354252B2 (ja) 音声認識装置
JP3218679B2 (ja) 高能率符号化方法
JP4538704B2 (ja) ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
JP4618823B2 (ja) 信号符号化装置及び方法
CN118016080B (zh) 一种音频处理方法、音频处理器及相关装置
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
US5899974A (en) Compressing speech into a digital format
RU2022107245A (ru) Формат со множественным запаздыванием для кодирования звука
JPH07334189A (ja) 音声情報分析装置
JP2006508386A (ja) サウンドフレームを正弦波成分と残留ノイズとに分離する方法
JP3271966B2 (ja) 符号化装置及び符号化方法
JP2001175286A (ja) ベクトル量子化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees