JP3974408B2

JP3974408B2 - 標本化信号生成装置及び標本化信号再生装置並びにその方法

Info

Publication number: JP3974408B2
Application number: JP2002011901A
Authority: JP
Inventors: 周司橋本; 明人須藤
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2002-01-21
Filing date: 2002-01-21
Publication date: 2007-09-12
Anticipated expiration: 2022-01-21
Also published as: JP2003218806A

Description

【０００１】
【発明の属する技術分野】
この発明は、ニューラルネットを利用してオーディオ若しくは画像等の標本化信号を生成する装置及び前記装置にて生成した標本化信号を再生するための装置に関し、更には、その方法に関する。
【０００２】
【従来の技術】
周知の通り、標本化信号ｆｓから原信号ｆを復元するに際して、標本化信号ｆｓの標本化周期をＴｓとし、時間をｔとすると、標本化定理は下記の式（１）にて表される。
【数１】

上記式において、ｓｉｎ［π／Ｔｓ＊（ｔ−ｎＴｓ）］／［π／Ｔｓ＊（ｔ−ｎＴｓ）は、ｓｉｎｃ関数特性を示しており、標本化周期Ｔｓでサンプリングした各ｎ番目（−∞＜ｎ＜∞）の標本値ｆ（ｎＴｓ）を、前記ｓｉｎｃ関数を係数として−∞から∞の間で畳み込みすれば、原信号ｆのある時点ｔにおける信号ｆ（ｔ）を復元することができることを示している。
ところで、周知のように標本化定理によって標本化信号から原信号の復元を行うと、復元された信号においては標本化周期Ｔｓの１／２（ナイキスト周波数）より上の波形成分はカットされてしまう。例えば、音楽用コンパクトディスク（ＣＤ）の場合、通常は標本化周波数約４４ｋＨｚにて標本化しているため、復元信号（つまり再生音）において略々２０ｋＨｚ以上の高調波成分はカットされている。しかしながら、例えば実際の楽器音等のオーディオ波形の周波数スペクトラムは２０ｋＨｚ以上の高い成分を含んでおり、その高調波成分の含み具合の異なり様によって種々の音色の違いが生じる以上、オーディオ再生音においても高調波成分を含む高品質な音を再現できる方が望ましく、未だにアナログ盤が根強い人気を保っているのも、高調波成分を含む高品質な再生音のためといえよう。勿論、標本化周波数（標本化周期Ｔｓ）を高く設定することで高周波成分を含む高品質な再生音を得ることも可能だが、そのように細かい周期でサンプリングすると標本化信号に必要なデータ量が膨大に増加してしまい、莫大な記憶容量が必要となるため、例えば通常のＣＤ１枚に記録できる収録時間等の実質的な記憶内容量が減少する等、種々の不都合が生じていた。従って、通常のＣＤにあっては、現状のデータ量を維持したまま高周波成分を含ませて音質の向上を図ることはできなかった。
【０００３】
一方、元の標本化周波数を上げることなくオーバーサンプリングして再生することにより、ナイキスト周波数を上げ、再生音中により高域の成分を含ませることができるようにすることが知られている。すなわち、前記式（１）を変形すると下記の式（２）が得られ、これに基づきオーバーサンプリング再生を行う。
【数２】

式（２）において、ｆｓは原信号ｆを標本化周期Ｔｓでサンプリングした標本化信号の標本値であり、τはＴｓよりも細かい所定の周期（オーバーサンプリング周期）であり、Ｔｓはτの整数倍である。ｆｓ（ｔ−ｎτ）は、時刻ｔ−ｎτにおける標本化信号ｆｓの標本値を示し、時刻ｔ−ｎτがＴｓの整数倍のとき実質的な標本値を持ち、それ以外のとき０である。式（２）は、標本化周期Ｔｓで標本化した信号ｆｓに対して、Ｔｓよりも細かな周期τの分解能で畳み込み演算することを示している。すなわち、標本化周期Ｔｓの標本化信号ｆｓに基づき、Ｔｓよりも細かな周期τの分解能で、原信号ｆの復元を行うことができることを示している。この畳み込み演算は、周期τのタイミングで動作するディジタルフィルタで、標本化周期Ｔｓの標本化信号ｆｓを処理することにより実現される。この場合、重み係数すなわちフィルタ係数としては、式（２）に示すような｛ｓｉｎ［π＊ｎτ／Ｔｓ］｝／［π＊ｎτ／Ｔｓ］というｓｉｎｃ関数が、有限個のｎに関して固定値として与えられる。
しかし、このような従来のオーバーサンプリングによる再生にあっては、ナイキスト周波数を見かけ上高くすることで再生音中により高域の成分を含ませることができるにしても、予め固定されたｓｉｎｃ関数の重み付け特性でしか畳み込み演算が行われないため、原信号ｆの波形を精度よく忠実に再現するには限界があった。
音楽用ＣＤ等の物理的記憶媒体において標本化信号から原信号を復元する場合に限らず、例えば、近年通信ネットワークを介して盛んに行われている音楽データや画像データの伝送及び再生・復元においても同様の問題がある。
【０００４】
【発明が解決しようとする課題】
この発明は上述の点に鑑みてなされたもので、標本化信号のデータ量を増すことなしに、その標本化周波数以上の精度で原信号を忠実に復元できるようにした標本化信号生成装置及び標本化信号再生装置並びにその方法を提供しようとするものである。
【０００５】
【課題を解決するための手段】
本発明の請求項１に係る標本化信号生成装置は、原信号を所定の第１の分解能で標本化した標本化信号を提供する手段と、前記原信号を前記第１の分解能よりも細かい第２の分解能で標本化した教師信号を提供する手段と、前記標本化信号と前記教師信号を入力し、前記標本化信号と演算する重み係数を前記教師信号に基づく学習により生成するニューラルネットワークとを具え、前記生成した重み係数を前記標本化信号に付属させて出力することを特徴とする。
教師信号は第１の分解能よりも細かい第２の分解能で標本化したものなので、標本化信号よりも原信号の特性に近い高品質なデータである。よって、教師信号に基づく学習により生成された重み係数は、教師信号の原信号再現精度と同等の品質の波形を再現しうるものである。しかも重み係数のデータ量は標本値それ自体よりもはるかに少ない。また、標本化信号は教師信号よりも分解能が粗いので、教師信号に比べてはるかにデータ量が少ない。よって、標本化信号とそれに付属する重み係数との組み合わせからなるデータセットは、教師信号の原信号再現精度と同等の品質の波形を再現しうるものでありながら、そのデータ量が少なくて済む。
【０００６】
また、本発明の請求項２に係る標本化信号再生装置は、請求項１の標本化信号生成装置で出力した前記標本化信号及びそれに付属する前記重み係数に基づき前記原信号を復元する装置であって、前記標本化信号を前記第１の分解能に対応する第１の周期で再生する手段と、前記第２の分解能に対応する第２の周期に従って、再生された前記標本化信号とそれに付属する前記重み係数とを演算するニューラルネットワークとを具え、前記第２の分解能に対応する精度で前記原信号を復元した出力信号が前記ニューラルネットから出力されることを特徴とする。
ここで使用する重み係数は、教師信号に基づく学習により生成されたものであるから、教師信号の原信号再現精度と同等の品質の波形を再現しうるものであり、教師信号の原信号再現性能に見合った可変の重み付け特性で演算が行われることになり、原信号の波形を精度よく忠実に再現することができる。
【０００７】
また本発明は、装置の発明として構成し実施することができるのみならず、方法の発明として構成し実施することもできる。
【０００８】
また本発明に係る記憶媒体は、原信号を所定の第１の分解能で標本化した標本化信号と、前記原信号を前記第１の分解能よりも細かい第２の分解能で標本化した教師信号を用いた学習により求められた前記標本化信号と演算すべき重み係数とを組み合わせて前記原信号の標本化データとして記憶したことを特徴とする。
更に、本発明に係るデータ伝送方式は、信号を所定の第１の分解能で標本化した標本化信号と、前記原信号を前記第１の分解能よりも細かい第２の分解能で標本化した教師信号を用いた学習により求められた前記標本化信号と演算すべき重み係数とを組み合わせて前記原信号の標本化データとして伝送することを特徴とする。
【０００９】
前記原信号を複数の区間に分割し、各区間に対応して前記重み係数のセットをそれぞれ有するようにすれば好ましく、原信号の再現精度をより一層向上させることができる。
【００１０】
【発明の実施形態】
以下、添付図面を参照して本発明の一実施例として、楽曲のオーディオ波形を標本化した標本化信号からの原信号復元について説明する。
まず、データ供給側における必要なデータ生成処理の概略について、図１の本発明の一実施例の基本的ブロック図を参照して説明すると、図１において、１０は教師付きニューラルネットワーク、２０は標本化信号供給源、２１は教師信号供給源、である。ニューラルネットワーク１０は、概ね、遅延ライン１１と、畳み込み演算部１２と、教師付き学習部１３とから構成される。詳しくは後述するが、このニューラルネットワーク１０は、畳み込み演算部１２にてニューラルネットワーク１０に対して入力された標本化信号ｆｓを所定の重み係数Ｗｎで演算し、その演算結果である出力信号ｙが教師信号ｆｚと同じ信号になるように、教師付き学習部１３にて該重み係数Ｗｎを該教師信号Ｆｚに基づく学習により適切に変更（学習）して、この学習により生成した重み係数Ｗｎを前記標本化信号ｆｓに付属させて出力するものである。この出力した前記重み係数Ｗｎのデータと前記標本化信号ｆｓのデータを例えばＣＤ等の記憶媒体に記憶して、データ受け手に対して提供することができる。
【００１１】
標本化信号供給源２０は、標本化周期Ｔｓ（第１の分解能）でサンプリングした標本化信号ｆｓをニューラルネットワーク１０に対して供給するものであり、標本化信号ｆｓの波形図の一例を示すと図１中の（Ａ）のようである。（Ａ）において原信号ｆを点線で示している。標本化信号ｆｓ（ｔ）は、この原信号ｆを分解能Ｔｓで標本化した信号の、ある時点ｔにおけるデータである。標本化信号供給源２０から実践的に供給されるデータとしては、例えば、復元したい楽曲のマスター音源を所定の標本化周期Ｔｓ（例えば通常のＣＤ規格の標本化周波数（約４４ｋＨｚ）等）でサンプリングしたデータ等の任意のものを用いてよく、また、ＣＤ等に収録された既存のデータを使用することも可能である。
教師信号供給源２１は、原信号ｆをより精密な標本化周期τ（第２の分解能）でサンプリングした教師信号ｆｚをニューラルネットワーク１０に対して供給するものである。教師信号ｆｚの波形図の一例を示すと図１中の（Ｂ）のようである。（Ｂ）においても原信号ｆを点線で示している。教師信号ｆｚ（ｔ）は、この原信号ｆを分解能τで標本化した信号の、ある時点ｔにおけるデータである。教師信号ｆｚの標本化周期τは、標本化信号ｆｓの標本化周期Ｔｓの１／ａ倍（つまりａτ＝Ｔｓ、但しａは整数）になっており、標本化信号ｆｓの１標本化周期Ｔｓ中に、教師信号ｆｚの１標本化周期τがａ個入ることとなる。つまり、教師信号ｆｚは前記標本化信号ｆｓよりも精密な分解能のサンプリングデータである。よって、教師信号供給源２１から供給されるデータとしては、復元したい楽曲オーディオ波形（原信号）を標本化周期τでサンプリングした高品質なデータを用いることになる。というのも、この教師信号ｆｚを範として適切な重み係数Ｗｎを生成し、この生成した重み係数Ｗｎと標本化信号ｆｓを演算することで、所望の高品質の出力信号を得ることが可能となるからである。
なお、図１中の波形図（Ａ）及び（Ｂ）においては、一例として、標本化信号ｆｓの１標本化周期Ｔｓ中に教師信号ｆｚの標本化周期τが４個入っている。
【００１２】
遅延ライン１１は複数の遅延段から構成されており、図１において該複数の遅延段を遅延ライン１１内の点線で示す。標本化信号供給源２０から供給される標本化信号ｆｓ（ｔ）は、この遅延ライン１１に対して入力される。遅延ライン１１はシフトコマンドＣＫによって動作制御される。このシフトコマンドＣＫは標本化周期τに相当する分解能のシフトコマンドとして機能するものであるが、実際の周期τでリアルタイムで発生されるものではなく、ニューラルネットワーク１０における学習処理プログラムの進行に応じて非リアルタイムに発生されるものである。遅延ライン１１に対して入力された標本化信号ｆｓ（ｔ）は、一回のシフトコマンドＣＫ毎に順次１段づつシフトされる。
【００１３】
標本化信号供給源２０は、シフトコマンドＣＫがａ回発生する毎に、１サンプルの標本化信号ｆｓ（ｔ）を順次出力し、遅延ライン１１に入力する。図中、符号ａＣＫはシフトコマンドＣＫがａ回発生する毎に生じる出力コマンドを示す。この出力コマンドａＣＫに応じて、シフトコマンドＣＫのａ回の発生機会のうち、１回で１サンプルの標本化信号ｆｓ（ｔ）が遅延ライン１１に入力され、残りのａ−１回では０が遅延ライン１１に入力される。
この遅延ライン１１に対する標本化信号ｆｓ（ｔ）の入力動作の一例について図２を参照して説明する。ここでは仮に、シフトコマンドＣＫに対応する分解能τを標本化信号ｆｓ（ｔ）の標本化周期Ｔｓに対して１／４（つまりＴｓ＝４τ）とする。また、遅延ライン１１に入力される最新の入力データは図において左側の遅延段１１ａに入力されるものとする。
【００１４】
シフトコマンドＣＫに対応する分解能τはＴｓ／４であるから、標本化信号ｆｓ（ｔ）の標本化周期Ｔｓの１間隔につき、シフトコマンドＣＫは４回発生することになる。そのため、シフトコマンドＣＫの４回の発生機会のうち、１回で１サンプルの標本化信号ｆｓ（ｔ）が遅延ライン１１に入力され、残りの３回では０が遅延ライン１１に入力される。例えば、ｆｓ（ｔ）におけるｔが周期Ｔｓ毎に０，１，２，…と変化するとすると、実質的な値を持つ標本値は図２においてｆｓ（0），ｆｓ（1），ｆｓ（2），…で示され、これらはシフトコマンドＣＫが４回発生する毎に１回の割で遅延ライン１１に入力される。図２において、ｆｓ（ｔ）におけるｔとして、1/4、2/4、3/4、のように分数で示されたものは、標本化周期Ｔｓに同期していないものを示し、これらの値ｆｓ（1/4）、ｆｓ（2/4）、ｆｓ（3/4）としては前述の通り「０」が入力される。
具体例として、実質的な標本値を有する標本化信号ｆｓ（0）が最初の遅延段１１ａに入力されたとき、次に１シフトコマンドＣＫが発生すると、この標本化信号ｆｓ（0）は次の遅延段１１ｂにシフトされ、遅延段１１ａには信号ｆｓ（1/4）の入力データとして値０が入力される。次のシフトコマンドＣＫが発生すると、これに応じて標本化信号ｆｓ（0）は次の遅延段１１ｃにシフトし、また、遅延段１１ａの値０は次の遅延段１１ｂにシフトし、遅延段１１ａには信号ｆｓ（2/4）の入力データとして値０が入力される。このように、１シフトコマンドに応じて、各遅延段のデータが図において右側の次段に順次シフトして、遅延段１１ａに新たなデータが入力される。次の３回目のシフトでは遅延段１１ａには信号ｆｓ（3/4）の入力データとして値０が入力され、４回目のシフトで、遅延段１１ａに対して実質的な標本値を有する標本化信号ｆｓ（1）が入力される。この時、各遅延段１１ａ〜１１ｅに対して、図２に示すように、１１ａにｆｓ（1）、１１ｂに０、１１ｃに０、１１ｄに０、１１ｅにｆｓ（0）、という具合にデータが入力されていることになる。
【００１５】
畳み込み演算部１２には、遅延ライン１１の複数の遅延段に対応する複数の係数値を１セットとする重み係数Ｗｎが入力されている。畳み込み演算部１２では、前記複数の各遅延段に入力されているデータとそれに対応する各係数値とを乗算して、畳み込み演算する。この畳み込み演算については公知のため説明を省略する。上記の通り、遅延ライン１１に対して分解能τでデータが入力されるので、畳み込み演算部１２から、演算した結果として出力される出力信号ｙ（ｔ）も分解能τの信号である。ここで、既述の式（１）に示したｓｉｎｃ関数を１セットの重み係数Ｗｎの初期値Ｗｎ’として設定すると、重み係数Ｗｎは下記の式（３）のように表現される。
【数３】

このように重み係数Ｗｎをｓｉｎｃ関数で初期設定したとき、当該ニューラルネットワーク１０は既述の式（２）と等価なシステムである。この場合、図１に例示した各係数値Ｗ-2，Ｗ-1，Ｗ0，Ｗ1，Ｗ2は、それぞれ下記の式（４）、式（５）、式（６）、式（７）、式（８）のように記述される。
【数４】

式（３）にて表現されるｓｉｎｃ関数を図示すると図３のようである。１セットの重み係数Ｗｎにおける各係数…Ｗ-2，Ｗ-1，Ｗ0，Ｗ1，Ｗ2，…は、図３に示すようなｓｉｎｃ関数においてＷ0を中心にしてτの分解能で左右にプロットされる有限個の係数群からなる。ここで、Ｗ0＝１の重み係数が付与される標本値（これをｆｓ（ｉ）とする）のタイミングが現在サンプルタイミングであり、教師信号ｆｚ（ｔ）としては該現在サンプルタイミングに対応する教師信号標本値（これをｆｚ（ｉ）とする）が使用される。現在サンプルタイミングとはシフトコマンドＣＫ毎に進行する分解能τに対応する精度のサンプルタイミングのことである。尚、有限個の係数群からなる重み係数Ｗｎの数は設計上任意に設定してよく、例えば１０００個程度でも十分によい再生精度が得られる。
【００１６】
教師信号供給源２１は、分解能τに対応する精度からなる教師信号ｆｚ（ｔ）の標本値を、シフトコマンドＣＫの発生毎に（すなわち現在サンプルタイミングの進行に伴って）順次出力し、これを教師付き学習部１３に入力する。なお、例えば、標本化信号ｆｓ（ｔ）のｉ番目の時刻ｔの標本値ｆｓ（ｉ）が遅延ライン１１で重み係数Ｗ0に対応する位置までシフトされてきたときに、同じｉ番目の時刻ｔの教師信号標本値ｆｚ（ｉ）を出力するように、標本化信号供給源２０と教師信号供給源２１とが同期動作する。教師信号ｆｚ（ｔ）は、ニューラルネットワーク１０の畳み込み演算部１２から出力される出力信号ｙ（ｔ）が該教師信号ｆｚ（ｔ）と同じ信号になるような適切な重み係数Ｗｎを設定するための模範信号である。教師付き学習部１３は、教師信号ｆｚ（ｔ）を模範信号とする学習により、畳み込み演算部１２から出力される出力信号ｙ（ｔ）が教師信号ｆｚ（ｔ）と同じ値になるように、重み係数Ｗｎの値を適切に変更する。なお、教師付き学習部１３における具体的な学習アルゴリズムとしては公知又は未公開の適宜の手法を用いてよい。
【００１７】
ニューラルネットワーク１０に対して、原信号ｆの復元したい或る範囲に対応する標本化信号ｆｓと教師信号ｆｚとを順次最後まで入力して行き、入力した範囲について一通り学習することを、以下「１波形回学習する」と呼ぶ。例えば、或る楽曲全体を１波形回学習で学習させる場合は、その曲頭から曲終了までの標本化信号をニューラルネットワーク１０に対して順次入力して行き、教師信号もそれに対応すして曲頭から曲終了まで順次切り換えて入力して行く。畳み込み演算部１２からの出力信号ｙ（ｔ）と教師信号ｆｚ（ｔ）とが各々分解能τで教師付き学習部１３に入力されることからも明らかな通り、１波形回学習するに際して、或る１時点ｔに関する学習はτ相当の分解能でなされるもので、この１τ相当の学習処理を１ステップ学習と名付ける。
【００１８】
例えば、ｉ番目の１ステップ学習がなされる場合について考えると、このとき、標本化信号ｆｓ（ｔ）のｉ番目の時刻ｔの標本値ｆｓ（ｉ）が遅延ライン１１で重み係数Ｗ0に対応する位置までシフトされており、同じｉ番目の時刻ｔの教師信号標本値ｆｚ（ｉ）が教師付き学習部１３に入力される。遅延ライン１１に入力されている標本化信号に関して、畳み込み演算部１２にて重み係数Ｗｎ₁で畳み込み演算を行い、その演算結果として出力信号ｙ（ｉ）が教師付き学習部１３に対して入力され、教師付き学習部１３では、入力された教師信号ｆｚ（ｉ）の値に基づき、入力された畳み込み演算部１２からの出力信号ｙ（ｉ）が該教師信号ｆｚ（ｉ）の値と同じになるような適切な１セット全部の重み係数Ｗｎ₂に変更する。このように、１つの教師信号ｆｚの値に対応して（及びこれに対応する標本化信号の入力設定に対応して）、１ステップ学習の学習結果として重み係数Ｗｎの１セットの値が算出される。次の１ステップ学習では前記重み係数Ｗｎ₂が更新されることになる。
このように１シフトコマンドＣＫ毎に上記の１ステップ学習を順次行い、各１ステップ学習毎に１セットの重み係数Ｗｎの値が逐次更新されて行く。このようにして順次重み係数Ｗｎを更新して行き、復元したい所定範囲における一番最後のステップ学習がなされた時の１セットの重み係数Ｗｎのデータが、当該１波形回学習における学習結果として１セットの重み係数Ｗｎとして出力（図１に示すＷｎ学習結果出力）されることになる。この１波形回学習の結果として出力される重み係数Ｗｎは、原信号ｆの特性に近い高品質なデータである教師信号ｆｚに基づく学習により生成されたものなので、教師信号の原信号再現精度と同等の品質の波形を再現しうるものである。学習処理による重み係数Ｗｎの変化の１例を示すと図４のようである。学習の結果、学習処理後の重み係数Ｗｎが初期値Ｗｎ’（ｓｉｎｃ関数）と比較して変化していることが見て取れる。
【００１９】
実際に或る１楽曲について学習処理を行う際は、処理対象となるオーディオ波形（原信号ｆ）を複数の区間に分割し、分割した複数の区間夫々について１波形回学習を行い、その各区間に対応して前記重み係数のセットをそれぞれ有するようにすれば好ましく、これにより原信号ｆの再現精度をより一層向上させることができる。例えば、曲時間３分の楽曲を１波形回学習を１分間とする３波形回の区間に区切って学習することを考えると、この場合、曲の頭（０分）〜１分までを第１の区間として第１の１波形回学習を行い、１分〜２分までを第２の区間として第２の１波形回学習を行い、２分〜３分までを第３の区間として第３の１波形回学習を行う。この結果、当該楽曲の再生時に使用する重み係数Ｗｎとしては各区間毎に夫々１セットづつ、第１の区間用として第１の重み係数Ｗｎ（１）、第２の区間用として第２の重み係数Ｗｎ（２）、第３の区間用として第３の重み係数Ｗｎ（３）の計３セットの重み係数Ｗｎが得られることになる。尚、１区間あたりの時間長は均一である必要はなく、例えば第１の区間を４０秒、第２の区間を１分３０秒、第３の区間を５０秒とする等、適宜に設定することができる。
【００２０】
なお、上述した１波形回学習は同じ波形（区間）について複数回なされるようにしてもよい。すなわち、ある波形を１波形回学習して出力された重み係数Ｗｎを初期値として、前記波形に関して再度１波形回学習して、２波形回学習するようにしてもよく、同様にして、３波形回学習、４波形回学習…というように１波形回学習を重ねて行ってもよい。このように１波形回学習を同じ波形について複数回行うことで、重み係数Ｗｎの原信号復元能力を向上させることができる。
【００２１】
上述の学習処理により生成した重み係数のデータは標本化信号ｆｓに付属して出力される。この出力の形態としては例えばＣＤのような物理的記憶媒体に記録する形態がある。そのような出力形態をとる場合、本発明に従って生成された標本化信号と重み係数との組み合わせからなるデータを記録したＣＤ等の物理的記憶媒体が、一般ユーザ等のデータ受け手に供給される。このようにして出力される、本発明に従って生成された標本化信号と重み係数との組み合わせからなるデータの構成例について図５により説明する。
図５は、本発明に従って生成された標本化信号ｆｓと重み係数Ｗｎとの組み合わせからなる標本化データの構成例を示すもので、楽曲データからなる原信号を複数区間（上記の例では３区間）に分割して各区間毎に重み係数を学習・生成し、これを標本化信号に組み合わせてＣＤのような記録媒体に記録した例を示す。このデータフォーマットは、当該楽曲データの再生に必要な制御情報等を記録するヘッダ部と、再生する楽曲（原信号ｆ）を標本化周期Ｔｓで標本化した標本化信号ｆｓを時系列的に記録したオーディオデータ記録部とを含む。ヘッダ部には、標本化信号ｆｓの標本化周期Ｔｓを指示するデータ及びそれより細かな標本化周期τを指示するデータと、各区間（第１〜第３の区間）にそれぞれ対応する重み系数Ｗｎ（１）〜（３）及び各区間の継続時間を示す時間間隔データＴ（１）〜（３）とが記録されている。時間間隔データＴ（１）が第１の区間に対応し、時間間隔データＴ（２）が第２の区間に対応し、時間間隔データＴ（３）が第３の区間に対応する。この時間間隔データＴ（１）〜（３）により指示される時間に応じて、それぞれ該当する重み系数Ｗｎ（１）〜（３）を使用し、また、その切り換え時期を制御することとなる。
なお、図５に示すような全部の重み系数Ｗｎ（１）〜（３）と時間間隔データＴ（１）〜（３）とをヘッダに一括して纏めて記録するのに限らず、第１の区間に当たる重み系数Ｗｎ（１）と時間間隔データＴ（１）のみヘッダ部に記憶して、重み系数Ｗｎ（２）、Ｗｎ（３）と時間間隔データＴ（２）、Ｔ（３）については、それぞれの先行区間におけるオーディオデータ中（例えばＣＤフォーマットのサブコード領域等）に適宜分散して織り込み、該先行区間の再生中に後続区間の重み系数Ｗｎと時間間隔データＴを読み出して行くようにしてもよい。
【００２２】
例えば、標本化信号ｆｓの標本化周波数を従来のＣＤ規格と同様に４４．１ｋＨｚとすると、標本化信号ｆｓのデータ量は、たった１秒間に必要なデータ量（サンプル数）だけでも４４１００個に及ぶが、１波形回学習分の１セットの重み係数Ｗｎのデータ量は１セットに付き例えば１０００個程度でよい。このことから１波形回学習分の重み係数Ｗｎとして必要なデータ量が極めて微量なものであることが判る。従って、重み係数Ｗｎのデータを標本化信号ｆｓに付属させても、復元に要するデータ量の総量は殆ど増加しない。
このように、標本化信号ｆｓとそれに付属する重み係数Ｗｎとの組み合わせからなるデータセットは、教師信号ｆｚの原信号再現精度と同等の品質の波形を再現しうるものでありながら、そのデータ量が少なくて済む。
【００２３】
なお、本発明に従って生成された標本化信号と重み係数との組み合わせからなるデータの出力形態、すなわちデータ供給の方式は、上記のように物理的記憶媒体による限りではなく、例えば、インターネット等の通信回線を経由してデータを伝送するようにしてもよい。その場合、データ受け手では、インターネット等の通信回線を経由して受信したデータを自己のメモリ内に保存すればよい。
【００２４】
次に、ＣＤ等に収録された或いは通信回線を経由して伝送された前記標本化データの再生処理について図６を参照して説明する。図６に示すように、再生処理側（データ受け手側）は、ニューラルネットワーク３０と、標本化信号再生装置４０とを有する。ニューラルネットワーク３０は、図１のニューラルネットワーク１０内の遅延ライン１１及び畳み込み演算部１２と同様の遅延ライン３１及び畳み込み演算部３２を有するが、学習手段は不要である。
【００２５】
図６において、標本化信号再生装置４０には、上述したような標本化周期Ｔｓの標本化信号ｆｓと重み係数Ｗｎとの組み合わせからなる標本化データが、ＣＤ等の記録媒体で或いは通信回線を経由して供給される。標本化信号再生装置４０は、まず供給された標本化データのヘッダ部のデータを読み取り、該ヘッダ部にある各標本化周期Ｔｓ、τを指示するデータに基づき、各標本化周期Ｔｓ及びτに対応するクロックを生成する。また、該ヘッダ部にある最初の区間の重み係数Ｗｎを読み取ってニューラルネットワーク３０の畳み込み演算部３２に入力し、該畳み込み演算部３２における重み係数Ｗｎを設定する。このように初期設定を行った上で、オーディオデータ部にある標本化信号ｆｓの再生読み出しを開始する。
【００２６】
前述の通り、標本化信号再生装置４０で再生される標本化信号ｆｓは、比較的粗い標本化周期Ｔｓで標本化されたデータである。再生装置４０からの標本化信号ｆｓ（ｔ）の再生読み出しは、標本化周期Ｔｓに対応するタイミングで１サンプルづつ順次なされる。再生装置４０から読み出された標本化信号ｆｓ（ｔ）は、ニューラルネットワーク３０の遅延ライン３１に入力される。遅延ライン３１には、再生装置４０から細かい周期τのクロックがシフトクロックとしてリアルタイムに供給される。遅延ライン３１では、再生装置４０から入力される標本化信号ｆｓ（ｔ）を周期τのタイミングで取り込み、周期τ毎に順次シフト（遅延）する。図１の遅延ライン１１と同様に、遅延ライン３１では、標本化周期Ｔｓに同期する周期τのタイミングで標本化信号ｆｓ（ｔ）の実質的な標本値を取り込み、それ以外の周期τのタイミングでは０を取り込む。図中、符号Ｔｓ・τは、標本化周期Ｔｓに同期する周期τのタイミングを示す。図６中の（Ａ）は、再生装置４０から読み出される標本化信号ｆｓ（ｔ）の一例を示し、標本化周期Ｔｓに同期する周期τのタイミングで実質的な標本値が再生出力され、それ以外の周期τのタイミングでは０値が出力される。例えば、標本化信号ｆｓの標本化周波数（周期Ｔｓ）を１とし、これに対してクロックτの周波数（周期τ）が４として、ある１つの標本値をＳとする。クロックτの１クロックに応じて、遅延ライン３１のある１つの遅延段がＳを取り込んだとすると、この遅延段は、その後のτの３クロックでは、入力データとして０を取り込む、という具合になる。
【００２７】
畳み込み演算部３２は、再生装置４０から供給された前記重み係数Ｗｎで遅延ライン３１に順次入力されるデータを、クロックτに対応する周期τに従って、畳み込み演算し、その演算結果ｙ（ｉ）を周期τ毎に出力する。畳み込み演算部３２から演算結果として出力される信号ｙ（ｉ）は、図６中の（Ｂ）に示すような、周期τの細密な信号となる。こうして、この周期τに対応する精度で出力信号ｙ（ｉ）がニューラルネットワーク３０から出力されることとなる。ここで、畳み込み演算部３２に供給された重み係数Ｗｎは、上述の通り教師信号ｆｚの原信号再現精度と同等の品質の波形を再現しうるものであり、このような重み係数Ｗｎによる重み付け特性で演算を行うことで、原信号ｆの波形を前記教師信号に匹敵する高精度で忠実に再現した出力信号ｙ（ｉ）が得られる。
【００２８】
図７に、本発明により復元した信号と従来の方法により復元した信号とを比較したスペクトル分布例を示す。図において横軸に周波数をとり、縦軸を振幅とし、また波形信号成分はスペクトルエンベロープで表しており、１／Ｔｓは標本化周期Ｔｓに対応する標本化周波数である。従来の方式では、図において点線で示す標本化周波数１／Ｔｓの半分の周波数（ナイキスト周波数）１／２Ｔｓを上限としてそれ以上の波形成分はカットされてしまい再現されなかったが、本発明によれば、標本化信号ｆｓの標本化周波数１／Ｔｓを上げることなくデータ量を殆ど増すことなしに、そのような従来再現されていなかった高周波成分を含む原信号ｆの波形を精度よく忠実に再現できる。例えば、本発明によれば、通常のＣＤ規格による標本化周波数約４４ｋＨｚで標本化した標本化信号でも、再生時に使用する重み係数を教師信号に基づく学習により生成することで、従来カットされていた約２０ｋＨｚ以上の高周波成分を含む高品質な再生信号の出力が可能となり、更に原信号ｆの波形を精度よく忠実に再現した高品質な音楽再生ができる。
【００２９】
上述した実施例においては、ニューラルネットワーク１０，３０として１段のみから構成される単層型ニューラルネットワークを用いた例を示したが、これに限らず、ニューラルネットワークを多段にして非線形処理を行える多層型ニューラルネットワークを用いれば、更なる原信号復元能力の向上が可能となる。
なお、入力する標本化信号のサンプリング間隔は、等間隔になされて良いが、本発明においては、サンプリング間隔を不等間隔にしてもよい。
また、本実施例の別の一実施形態としては、本発明をＭＰＧやＭＰ３等の適宜のデータ圧縮方式と組み合わせて実施してもよい。すなわち、重み係数Ｗｎと標本化信号ｆｓとを組み合わせて標本化データとして伝送する際、或いは記憶媒体に記録する際、前記標本化信号ｆｓをＭＰＧやＭＰ３或いはＤＰＣＭやＡＤＰＣＭ等の適宜のデータ圧縮方式で圧縮し、この圧縮された標本化信号データを重み係数Ｗｎと共に標本化データとして伝送する、或いは記憶媒体に記録する。そして、この標本化データの再生時に、圧縮された標本化信号データの圧縮を解除してから、重み係数Ｗｎと演算すればよい。
本実施例の更に別の例としては、１波形回学習の時間間隔を極短くとることで学習に要する時間を短くし、送信側でリアルタイムにピックアップしたオーディオ信号に基づき本実施例に従って標本化信号ｆｓと重み係数Ｗｎをリアルタイムに生成し、これを通信回線等を介して伝送し、受信側で本実施例に従って再生することで、学習から再生までをリアルタイムに近い形で行うことも可能となる。
【００３０】
上述の実施例においては、主にＣＤ等のオーディオ波形データの復元について説明したが、本発明はそれに限らず、例えば画像データ等にも応用可能である。画像データの場合、画素数の粗い画像データから画素数の細かい高精度な画像データを復元できる。また、画像拡大時の補間処理に本発明を適用すれば、拡大した画像が元の画像よりも細かな精度で生成される。また、動画データのコマ数補間処理に本発明を適用すれば、元の動画データのコマ数（フレーム数）よりも多くのコマ数を補間生成することができ、元の動画よりも滑らかな動きの動画を再生することができる。
【００３１】
【発明の効果】
以上の通り本発明によれば、標本化信号のデータ量を増すことなしに、その標本化周波数以上の精度で原信号を忠実に復元できるようにした標本化信号生成装置及び標本化信号再生装置並びにその方法を提供することができるという優れた効果を奏する。
【図面の簡単な説明】
【図１】本発明に係る一実施例を示すデータ供給側の基本的なブロック図。
【図２】同実施例において、遅延ラインに対して入力される標本化信号の入力動作を示す概念図。
【図３】同実施例において、重み係数の初期値として設定したｓｉｎｃ関数の特性と各係数値を示す図。
【図４】図３に示すｓｉｎｃ関数（初期値）からの学習後の重み係数値の変化を示す図。
【図５】同実施例に係る学習処理の別の例として、原信号を複数区間に分割した場合のデータ構成例を示す図。
【図６】同実施例に係るデータ受け手側の基本的なブロック図。
【図７】本発明により復元した信号と従来の方法により復元した信号とを比較したスペクトル分布図。
【符号の説明】
１０，３０ニューラルネット
１１，３１遅延ライン
１２，３２畳み込み演算部
１３教師付き学習部
２０標本化信号供給源
２１教師信号供給源
４０標本化信号再生装置

Claims

原信号を所定の第１の分解能で標本化した標本化信号を提供する手段と、
前記原信号を前記第１の分解能よりも細かい第２の分解能で標本化した教師信号を提供する手段と、
前記標本化信号と前記教師信号を入力し、前記標本化信号と演算する重み係数を前記教師信号に基づく学習により生成するニューラルネットワークと
を具え、前記生成した重み係数を前記標本化信号に付属させて出力することを特徴とする標本化信号生成装置。
請求項１の標本化信号生成装置で出力した前記標本化信号及びそれに付属する前記重み係数に基づき前記原信号を復元する装置であって、
前記標本化信号を前記第１の分解能に対応する第１の周期で再生する手段と、前記第２の分解能に対応する第２の周期に従って、再生された前記標本化信号とそれに付属する前記重み係数とを演算するニューラルネットワークと
を具え、前記第２の分解能に対応する精度で前記原信号を復元した出力信号が前記ニューラルネットから出力されることを特徴とする標本化信号再生装置。
原信号を所定の第１の分解能で標本化した標本化信号と前記原信号を前記第１の分解能よりも細かい第２の分解能で標本化した教師信号とをニューラルネットワークに入力するステップと、
前記ニューラルネットワークにおいて、前記標本化信号と演算する重み係数を前記教師信号に基づく学習により生成するステップと、
前記生成した重み係数を前記標本化信号に付属させて出力するステップと
を備えることを特徴とする標本化信号生成方法。
請求項３の標本化信号生成方法で出力した前記標本化信号及びそれに付属する前記重み係数に基づき前記原信号を復元する方法であって、
前記標本化信号を前記第１の分解能に対応する第１の周期で再生するステップと、
ニューラルネットワークにおいて、前記第２の分解能に対応する第２の周期に従って、再生された前記標本化信号とそれに付属する前記重み係数とを演算し、前記第２の分解能に対応する精度で前記原信号を復元した信号を出力するステップと
を備えることを特徴とする標本化信号再生方法。
原信号を所定の第１の分解能で標本化した標本化信号と、
前記原信号を前記第１の分解能よりも細かい第２の分解能で標本化した教師信号を用いた学習により求められた前記標本化信号と演算すべき重み係数と
を組み合わせて前記原信号の標本化データとして記憶した記憶媒体。
原信号を所定の第１の分解能で標本化した標本化信号と、
前記原信号を前記第１の分解能よりも細かい第２の分解能で標本化した教師信号を用いた学習により求められた前記標本化信号と演算すべき重み係数と
を組み合わせて前記原信号の標本化データとして伝送することを特徴とするデータ伝送方式。
前記原信号を複数の区間に分割し、各区間に対応して前記重み係数のセットをそれぞれ有することを特徴とする請求項１乃至６のいずれかに記載の装置又は方法又は記憶媒体又はデータ伝送方式。