JP4156252B2 - 音響信号の符号化方法 - Google Patents

音響信号の符号化方法 Download PDF

Info

Publication number
JP4156252B2
JP4156252B2 JP2002060815A JP2002060815A JP4156252B2 JP 4156252 B2 JP4156252 B2 JP 4156252B2 JP 2002060815 A JP2002060815 A JP 2002060815A JP 2002060815 A JP2002060815 A JP 2002060815A JP 4156252 B2 JP4156252 B2 JP 4156252B2
Authority
JP
Japan
Prior art keywords
timbre
phoneme
phoneme data
frequency
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002060815A
Other languages
English (en)
Other versions
JP2003255930A (ja
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2002060815A priority Critical patent/JP4156252B2/ja
Publication of JP2003255930A publication Critical patent/JP2003255930A/ja
Application granted granted Critical
Publication of JP4156252B2 publication Critical patent/JP4156252B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、放送メディア(ラジオ、テレビ)、通信メディア(CS映像・音声配信、インターネット音楽配信、通信カラオケ)、パッケージメディア(CD、MD、カセット、ビデオ、LD、CD−ROM、ゲームカセット、携帯音楽プレーヤ向け固体メモリ媒体)などで提供する各種オーディオコンテンツの制作、並びに、音楽演奏録音信号から楽譜出版、通信カラオケ配信用MIDIデータ、演奏ガイド機能付き電子楽器向け自動演奏データ、携帯電話・PHS・ポケベルなどの着信メロディデータを自動的に作成する自動採譜技術に関する。
【0002】
【従来の技術】
音響信号に代表される時系列信号には、その構成要素として複数の周期信号が含まれている。このため、与えられた時系列信号にどのような周期信号が含まれているかを解析する手法は、古くから知られている。例えば、フーリエ解析は、与えられた時系列信号に含まれる周波数成分を解析するための方法として広く利用されている。
【0003】
このような時系列信号の解析方法を利用すれば、音響信号を符号化することも可能である。コンピュータの普及により、原音となるアナログ音響信号を所定のサンプリング周波数でサンプリングし、各サンプリング時の信号強度を量子化してデジタルデータとして取り込むことが容易にできるようになってきており、こうして取り込んだデジタルデータに対してフーリエ解析などの手法を適用し、原音信号に含まれていた周波数成分を抽出すれば、各周波数成分を示す符号によって原音信号の符号化が可能になる。
【0004】
一方、電子楽器による楽器音を符号化しようという発想から生まれたMIDI(Musical Instrument Digital Interface)規格も、パーソナルコンピュータの普及とともに盛んに利用されるようになってきている。このMIDI規格による符号データ(以下、MIDIデータという)は、基本的には、楽器のどの鍵盤キーを、どの程度の強さで弾いたか、という楽器演奏の操作を記述したデータであり、このMIDIデータ自身には、実際の音の波形は含まれていない。そのため、実際の音を再生する場合には、楽器音の波形を記憶したMIDI音源が別途必要になるが、その符号化効率の高さが注目を集めており、MIDI規格による符号化および復号化の技術は、現在、パーソナルコンピュータを用いて楽器演奏、楽器練習、作曲などを行うソフトウェアに広く採り入れられている。
【0005】
そこで、音響信号に代表される時系列信号に対して、所定の手法で解析を行うことにより、その構成要素となる周期信号を抽出し、抽出した周期信号をMIDIデータを用いて符号化しようとする提案がなされている。例えば、特開平10−247099号公報、特開平11−73199号公報、特開平11−73200号公報、特開平11−95753号公報、特開2000−99009号公報、特開2000−99092号公報、特開2000−99093号公報には、任意の時系列信号について、構成要素となる周波数を解析し、その解析結果からMIDIデータを作成することができる種々の方法が提案されている。
【0006】
【発明が解決しようとする課題】
近年では、音響信号の符号化に関する研究も進歩しており、複数の音色が混合された音響信号を音色別に分離符号化する試みが行われている。具体的には、2チャンネルステレオやマイクロフォンアレイを用いたマルチチャンネル入力信号に対して独立成分分析などを用いて解析する方法が一般的である。しかし、記録されたレコード媒体では、ソースがモノラルの場合が多く、ましてやマイクロフォンアレイなど多チャンネル信号が提供される場合は極めて異例であり現実的でない。そこで、モノラル信号にも適用できる方法として、本出願人は以下のような手法を提案した。
【0007】
基本的には、上記各公報または明細書において提案してきたMIDI符号化方式を利用したものであるが、特願2000−319175号では周波数のゆらぎの度合い、特願2001−321968号では倍音分布度合い・デュレーション、特願2001−8750号ではレベル分布度合いをパラメータとして算出し、1次元的な閾値処理でチャンネル分けを行う。これらにより、ピアノとボーカルなど代表的な2つの音源に分離することは可能となるが、分けられるチャンネル数は2つだけであり、双方にまたがる音素は、いずれかに振り分けられてしまうという問題がある。
【0008】
また、特願2001−35378号で提案した音色管理データベースを用いる方法では、ピアノ・ボーカルなど音色グループ別にスペクトログラムパターンのデータベースを構築し、解析された音素パターンとマッチングを総当りで行い、照合率が高い音色グループを選択する方法をとっている。この方法では、データベースを充実すれば、いくらでも多くの音色グループに分離することが可能である。ただし、膨大な回数のマッチング演算を実施しなければならず、非効率で所望の分離精度を得るのは困難である。また、この方法でも、双方のグループにまたがる音素はいずれかに振り分けられていた。
【0009】
さらに、本出願人は、特願2002−9263号において、複数の音色パラメータを用いて高精度な音源分離を行うことができる手法を提案しているが、複数の音色パラメータに対して分離を行うための閾値や係数の設定は、依然として負荷のかかる処理となっている。
【0010】
上記のような点に鑑み、本発明は、より高精度に、かつ、より少ない負荷によって、複数の音色が混合された音響信号を複数の音色として分離することが可能な音響信号の符号化方法を提供することを課題とする。
【0011】
【課題を解決するための手段】
上記課題を解決するため、本発明では、複数の音色成分が混合された音響信号を、音色成分別に複数の音色グループに分類された符号データとして符号化する方法として、前記音響信号に含まれている各々の音色成分を単独にもつ単一音色信号に対して周波数解析を施し、音色パラメータを1つ以上備える複数の音素データに符号化する単一音色解析段階、前記単一音色信号の全音素データにおける各音色パラメータの値の出現頻度を算出して、前記単一音色信号の音色グループ別に各音色パラメータの値の出現頻度が記載された音色管理テーブルを作成する音色管理テーブル作成段階、前記符号化対象とする音響信号に対して周波数解析を施し、得られた音素データの音色パラメータに基づいて前記音色管理テーブルを参照し、出現頻度が高い方の音色グループに前記音素データを分類する音素分類段階を実行し、前記単一音色解析段階および音素分類段階における周波数解析は、前記単一音色信号もしくは前記音響信号に対して、開始時刻、終了時刻、周波数および強度値で構成される時系列の音素データを生成する音素データ生成段階と、前記各音素データに対して、同一開始時刻および同一終了時刻で周波数が異なる他の音素データの分布状態を基に1つまたは複数の種類の単位音色パラメータを算出し、前記各音素データに付与する単位音色パラメータ算出段階を有することを特徴とする。本発明によれば、単一の音色を有する単一音色信号の解析を行って、その音色パラメータの値の組合せと音色グループを対応付けた音色管理テーブルを作成しておき、符号化対象とする音響信号の解析を行って、得られた連結音素データの音色パラメータの組合せで音色管理テーブルを参照して、各連結音素データを音色グループに分類するようにしたので、複数の音色が混合された音響信号を、高精度に、かつ、少ない負荷によって、複数の音色として分離することが可能となる。
【0012】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して詳細に説明する。
(1.音響信号符号化方法の基本原理)
はじめに、本発明に係る音響信号の符号化方法の基本原理を述べておく。この基本原理は、前掲の各公報あるいは明細書に開示されているので、ここではその概要のみを簡単に述べることにする。
【0013】
図1(a)に示すように、時系列信号としてアナログ音響信号が与えられたものとする。図1の例では、横軸に時間t、縦軸に振幅(強度)をとって、この音響信号を示している。ここでは、まずこのアナログ音響信号を、デジタルの音響データとして取り込む処理を行う。これは、従来の一般的なPCMの手法を用い、所定のサンプリング周波数でこのアナログ音響信号をサンプリングし、振幅を所定の量子化ビット数を用いてデジタルデータに変換する処理を行えば良い。ここでは、説明の便宜上、PCMの手法でデジタル化した音響データの波形も図1(a)のアナログ音響信号と同一の波形で示すことにする。
【0014】
続いて、この解析対象となる音響信号の時間軸上に、複数の単位区間を設定する。図1(a)に示す例では、時間軸t上に等間隔に6つの時刻t1〜t6が定義され、これら各時刻を始点および終点とする5つの単位区間d1〜d5が設定されている。図1の例では、全て同一の区間長をもった単位区間が時間軸上で重複せずに設定されているが、隣接する単位区間が時間軸上で部分的に重なり合うような区間設定を行ってもかまわない。
【0015】
こうして単位区間が設定されたら、各単位区間ごとの音響信号(以下、区間信号と呼ぶことにする)について、それぞれ代表周波数を選出する。各区間信号には、通常、様々な周波数成分が含まれているが、例えば、その中で成分の強度割合の大きな周波数成分を代表周波数として選出すれば良い。ここで、代表周波数とはいわゆる基本周波数が一般的であるが、音声のフォルマント周波数などの倍音周波数や、ノイズ音源のピーク周波数も代表周波数として扱うことがある。代表周波数は1つだけ選出しても良いが、音響信号によっては複数の代表周波数を選出した方が、より精度の高い符号化が可能になる。図1(b)には、個々の単位区間ごとにそれぞれ3つの代表周波数を選出し、1つの代表周波数を1つの代表符号(図では便宜上、音符として示してある)として符号化した例が示されている。ここでは、代表符号(音符)を収容するために3つのトラックT1,T2,T3が設けられているが、これは個々の単位区間ごとに選出された3つずつの代表符号を、それぞれ異なるトラックに収容するためである。
【0016】
例えば、単位区間d1について選出された代表符号n(d1,1),n(d1,2),n(d1,3)は、それぞれトラックT1,T2,T3に収容されている。ここで、各符号n(d1,1),n(d1,2),n(d1,3)は、MIDI符号におけるノートナンバーを示す符号である。MIDI符号におけるノートナンバーは、0〜127までの128通りの値をとり、それぞれピアノの鍵盤の1つのキーを示すことになる。具体的には、例えば、代表周波数として440Hzが選出された場合、この周波数はノートナンバーn=69(ピアノの鍵盤中央の「ラ音(A3音)」に対応)に相当するので、代表符号としては、n=69が選出されることになる。もっとも、図1(b)は、上述の方法によって得られる代表符号を音符の形式で示した概念図であり、実際には、各音符にはそれぞれ強度に関するデータも付加されている。例えば、トラックT1には、ノートナンバーn(d1,1),n(d2,1)・・・という音高を示すデータとともに、e(d1,1),e(d2,1)・・・という強度を示すデータが収容されることになる。この強度を示すデータは、各代表周波数の成分が、元の区間信号にどの程度の度合いで含まれていたかによって決定される。具体的には、各代表周波数をもった周期関数の区間信号に対する相関値に基づいて強度を示すデータが決定されることになる。また、図1(b)に示す概念図では、音符の横方向の位置によって、個々の単位区間の時間軸上での位置が示されているが、実際には、この時間軸上での位置を正確に数値として示すデータが各音符に付加されていることになる。
【0017】
音響信号を符号化する形式としては、必ずしもMIDI形式を採用する必要はないが、この種の符号化形式としてはMIDI形式が最も普及しているため、実用上はMIDI形式の符号データを用いるのが好ましい。MIDI形式では、「ノートオン」データもしくは「ノートオフ」データが、「デルタタイム」データを介在させながら存在する。「ノートオン」データは、特定のノートナンバーNとベロシティーVを指定して特定の音の演奏開始を指示するデータであり、「ノートオフ」データは、特定のノートナンバーNとベロシティーVを指定して特定の音の演奏終了を指示するデータである。また、「デルタタイム」データは、所定の時間間隔を示すデータである。ベロシティーVは、例えば、ピアノの鍵盤などを押し下げる速度(ノートオン時のベロシティー)および鍵盤から指を離す速度(ノートオフ時のベロシティー)を示すパラメータであり、特定の音の演奏開始操作もしくは演奏終了操作の強さを示すことになる。
【0018】
前述の方法では、第i番目の単位区間diについて、代表符号としてJ個のノートナンバーn(di,1),n(di,2),・・・,n(di,J)が得られ、このそれぞれについて強度e(di,1),e(di,2),・・・,e(di,J)が得られる。そこで、次のような手法により、MIDI形式の符号データを作成することができる。まず、「ノートオン」データもしくは「ノートオフ」データの中で記述するノートナンバーNとしては、得られたノートナンバーn(di,1),n(di,2),・・・,n(di,J)をそのまま用いれば良い。一方、「ノートオン」データもしくは「ノートオフ」データの中で記述するベロシティーVとしては、得られた強度e(di,1),e(di,2),・・・,e(di,J)を所定の方法で規格化した値を用いれば良い。また、「デルタタイム」データは、各単位区間の長さに応じて設定すれば良い。なお、ここでの説明においては、基本原理をわかりやすく説明するために「トラック」という概念を用いて各符号を振り分けるようにしたが、MIDI規格においては、1つのチャンネルに複数の符号を記録するようにしている。現在、MIDI規格では1つのチャンネルにつき16〜64の音を同時に発音することが可能であるため、トラックという概念はなく、図1に示した3つの符号は1つのチャンネルに記録され、和音として発音されるようになっている。この意味で、後述するチャンネルと上述のトラックとは異なるものである。
【0019】
(2.周期関数との相関を求める具体的な方法)
上述した基本原理の基づく方法では、区間信号に対して、1つまたは複数の代表周波数が選出され、この代表周波数をもった周期信号によって、当該区間信号が表現されることになる。ここで、選出される代表周波数は、文字どおり、当該単位区間内の信号成分を代表する周波数である。この代表周波数を選出する具体的な方法には、後述するように、短時間フーリエ変換を利用する方法と、一般化調和解析の手法を利用する方法とがある。いずれの方法も、基本的な考え方は同じであり、あらかじめ周波数の異なる複数の周期関数を調和信号として用意しておき、これら複数の周期関数の中から、当該単位区間内の区間信号に対する相関が高い周期関数を見つけ出し、この相関の高い周期関数の周波数を代表周波数として選出する、という手法を採ることになる。すなわち、代表周波数を選出する際には、あらかじめ用意された複数の周期関数と、単位区間内の区間信号との相関を求める演算を行うことになる。そこで、ここでは、周期関数との相関を求める具体的な方法を述べておく。
【0020】
複数の周期関数として、図2に示すような三角関数が用意されているものとする。これらの三角関数は、同一周波数をもった正弦関数と余弦関数との対から構成されており、128通りの標準周波数f(0)〜f(127)のそれぞれについて、正弦関数および余弦関数の対が定義されていることになる。ここでは、同一の周波数をもった正弦関数および余弦関数からなる一対の関数を、当該周波数についての周期関数として定義することにする。すなわち、ある特定の周波数についての周期関数は、一対の正弦関数および余弦関数によって構成されることになる。このように、一対の正弦関数と余弦関数とにより周期関数を定義するのは、信号に対する周期関数の相関値を求める際に、相関値が位相の影響を受ける事を考慮するためである。なお、図2に示す各三角関数内の変数Fおよびkは、区間信号Xについてのサンプリング周波数Fおよびサンプル番号kに相当する変数である。例えば、周波数f(0)についての正弦波は、sin(2πf(0)k/F)で示され、任意のサンプル番号kを与えると、区間信号を構成する第k番目のサンプルと同一時間位置における周期関数の振幅値が得られる。ここでは、128通りの標準周波数f(0)〜f(127)を以下に示す〔数式1〕で定義する。
【0021】
〔数式1〕
f(n)=440×2γ (n)
γ(n)=(n−69)/12
ただし、n=0,1,2,・・・,127
【0022】
このような式によって標準周波数を定義しておくと、最終的にMIDIデータを用いた符号化を行う際に便利である。なぜなら、このような定義によって設定される128通りの標準周波数f(0)〜f(127)は、等比級数をなす周波数値をとることになり、MIDIデータで利用されるノートナンバーに対応した周波数になるからである。したがって、図2に示す128通りの標準周波数f(0)〜f(127)は、対数尺度で示した周波数軸上に等間隔(MIDIにおける半音単位)に設定した周波数ということになる。このため、本願では、図に掲載するグラフにおけるノートナンバー軸を、いずれも対数尺度で示すことにする。
【0023】
(2.1.短時間フーリエ変換法)
続いて、任意の区間の区間信号に対する各周期関数の相関の求め方について、具体的な説明を行う。例えば、図3に示すように、ある単位区間dについて区間信号Xが与えられていたとする。ここでは、区間長Lをもった単位区間dについて、サンプリング周波数Fでサンプリングが行なわれており、全部でw個のサンプル値が得られているものとし、サンプル番号を図示のように、0,1,2,3,・・・,k,・・・,w−2,w−1とする(白丸で示す第w番目のサンプルは、右に隣接する次の単位区間の先頭に含まれるサンプルとする)。この場合、任意のサンプル番号kについては、X(k)なる振幅値がデジタルデータとして与えられていることになる。短時間フーリエ変換においては、X(k)に対して各サンプルごとに中央の重みが1に近く、両端の重みが0に近くなるような窓関数W(k)を乗ずることが通常である。すなわち、X(k)×W(k)をX(k)と扱って以下のような相関計算を行うもので、窓関数の形状としては余弦波形状のハミング窓が一般に用いられている。ここで、wは以下の記述においても定数のような記載をしているが、一般にはnの値に応じて変化させ、区間長Lを超えない範囲で最大となるF/f(n)の整数倍の値に設定することが望ましい。
【0024】
このような区間信号Xに対して、第n番目の標準周波数f(n)をもった正弦関数Rnとの相関値を求める原理を示す。両者の相関値A(n)は、以下の〔数式2〕によって定義することができる。
【0025】
〔数式2〕
A(n)=(2/w)Σk=0,w-1x(k) sin(2πfnk/F)
B(n)=(2/w)Σk=0,w-1x(k) cos(2πfnk/F)
{E(n)}2={A(n)}2+{B(n)}2
【0026】
上記〔数式2〕において、X(k)は、図3に示すように、区間信号Xにおけるサンプル番号kの振幅値であり、sin(2πfnk/F)は、時間軸上での同位置における正弦関数Rnの振幅値である。なお、数式が繁雑になるのを避けるため、数式内ではf(n)をfnと表現している。〔数式2〕の第1の演算式は、単位区間d内の全サンプル番号k=0〜w−1の次元について、それぞれ区間信号Xの振幅値と正弦関数Rnの振幅ベクトルの内積を求める式ということができる。
【0027】
同様に、上記〔数式2〕の第2の演算式は、区間信号Xと、第n番目の標準周波数f(n)をもった余弦関数との相関値を求める式であり、両者の相関値はB(n)で与えられる。なお、相関値A(n)を求めるための第1の演算式も、相関値B(n)を求めるための第2の演算式も、最終的に2/wが乗ぜられているが、これは相関値を規格化するためのものでり、前述のとおりwはnに依存して変化させるのが一般的であるため、この係数もnに依存する変数である。
【0028】
区間信号Xと標準周波数f(n)をもった標準周期関数との相関実効値は、上記〔数式2〕の第3の演算式に示すように、正弦関数との相関値A(n)と余弦関数との相関値B(n)との二乗和平方根のうち、正の値であるE(n)によって示すことができる。この相関実効値の大きな標準周期関数の周波数を代表周波数として選出すれば、この代表周波数を用いて区間信号Xを符号化することができる。
【0029】
すなわち、この相関値E(n)が所定の基準以上の大きさとなる1つまたは複数の標準周波数を代表周波数として選出すれば良い。なお、ここで「相関値E(n)が所定の基準以上の大きさとなる」という選出条件は、例えば、何らかの閾値を設定しておき、相関値E(n)がこの閾値を超えるような標準周波数f(n)をすべて代表周波数として選出する、という絶対的な選出条件を設定しても良いが、例えば、相関値E(n)の大きさの順にQ番目までを選出する、というような相対的な選出条件を設定しても良い。
【0030】
(2.2.一般化調和解析の手法)
ここでは、本発明に係る音響信号の符号化を行う際に有用な一般化調和解析の手法について説明する。既に説明したように、音響信号を符号化する場合、個々の単位区間内の区間信号について、相関値の高いいくつかの代表周波数を選出することになる。一般化調和解析は、より高い精度で代表周波数の選出を可能にする手法であり、その基本原理は次の通りである。
【0031】
図4(a)に示すような単位区間dについて、信号S(j)なるものが存在するとする。ここで、jは後述するように、繰り返し処理のためのパラメータである(j=1〜J)。まず、この信号S(j)に対して、図2に示すような128通りの周期関数すべてについての相関値を求める。そして、最大の相関値が得られた1つの周期関数の周波数を代表周波数として選出し、当該代表周波数をもった周期関数を要素関数として抽出する。続いて、図4(b)に示すような含有信号G(j)を定義する。この含有信号G(j)は、抽出された要素関数に、その振幅として、当該要素関数の信号S(j)に対する相関値を乗じることにより得られる信号である。例えば、周期関数として図2に示すように、一対の正弦関数と余弦関数とを用い、周波数f(n)が代表周波数として選出された場合、振幅A(n)をもった正弦関数A(n)sin(2πfnk/F)と、振幅B(n)をもった余弦関数B(n)cos(2πfnk/F)との和からなる信号が含有信号G(j)ということになる(図4(b)では、図示の便宜上、一方の関数しか示していない)。ここで、A(n),B(n)は、上記〔数式2〕で得られる規格化された相関値であるから、結局、含有信号G(j)は、信号S(j)内に含まれている周波数f(n)をもった信号成分ということができる。
【0032】
こうして、含有信号G(j)が求まったら、信号S(j)から含有信号G(j)を減じることにより、差分信号S(j+1)を求める。図4(c)は、このようにして求まった差分信号S(j+1)を示している。この差分信号S(j+1)は、もとの信号S(j)の中から、周波数f(n)をもった信号成分を取り去った残りの信号成分からなる信号ということができる。そこで、パラメータjを1だけ増加させることにより、この差分信号S(j+1)を新たな信号S(j)として取り扱い、同様の処理を、パラメータjをj=1〜Jまで1ずつ増やしながらJ回繰り返し実行すれば、J個の代表周波数を選出することができる。
【0033】
このような相関計算の結果として出力されるJ個の含有信号G(1)〜G(J)は、もとの区間信号Xの構成要素となる信号であり、もとの区間信号Xを符号化する場合には、これらJ個の含有信号の周波数を示す情報および振幅(強度)を示す情報を符号データとして用いるようにすれば良い。尚、Jは代表周波数の個数であると説明してきたが、標準周波数f(n)の個数と同一すなわちJ=128であってもよく、周波数スペクトルを求める目的においてはそのように行うのが通例である。
【0034】
(2.3.相互相関テーブルを利用した手法)
設定された単位区間における区間信号と調和信号との相関計算を行う手法としては、上記短時間フーリエ変換法と、一般化調和解析を利用した手法が有名である。しかし、短時間フーリエ変換法では周波数分解能が充分でなく、短時間フーリエ変換法の問題点をこれを解決するための一般化調和解析を利用した手法では、短時間フーリエ変換法に比べて、周期関数である調和信号との相関演算回数が桁違いに多いため、計算負荷が大きいという問題があった。そこで、本出願人は、特願2002−9223号において、相互相関テーブルを利用して周波数解析を行う手法を提案した。この手法により、短時間フーリエ変換法と同等な計算負荷で一般化調和解析と同等な周波数分解能を実現することが可能であると共に、一般化調和解析で問題になっていた、抽出される信号成分の精度の向上を図ることが可能となる。この相互相関テーブルを利用した手法を次に説明する。
【0035】
まず、上記手法と同様に、複数の標準周波数を設定し、各標準周波数に対応する標準周期関数を調和信号として準備する。このとき設定される標準周波数としては、周波数解析の特性に合わせて任意に設定することができるが、音響信号の符号化に利用するためには、図2および〔数式1〕に示したように、MIDI規格のノートナンバーnに対応させて設定することが好ましい。
【0036】
続いて、各調和信号同士の相関である相互相関を全ての組合せに対して算出し、相互相関テーブルを作成する。この際、周波数f(m)の調和信号の周波数f(n)の調和信号に対する相互相関R(fm,fn)は、以下の〔数式3〕により算出する。
【0037】
〔数式3〕
A(fm,fn)=(2/T(n))Σt=0,T(n)-1sin(2πfmt) sin(2πfnt)
B(fm,fn)=(2/T(n))Σt=0,T(n)-1sin(2πfmt) cos(2πfnt)
{R(fm,fn)}2={A(fm,fn)}2+{B(fm,fn)}2
【0038】
相互相関R(fm,fn)は、上記〔数式3〕の第3式で算出される{R(fm,fn)}2のうちの正の平方根として求められる。このとき、図2に示したようにm、nがノートナンバーに対応している場合、相互相関テーブルには、各ノートナンバーmに対応する128個のノートナンバーの相関値が記録され、全部で128×128個の相関値が記録されることになる。
【0039】
相互相関テーブルの準備ができたら、解析対象となる時系列信号の全区間に渡って単位区間を設定し、設定された単位区間の時系列信号を区間信号として抽出する。単位区間の設定は、図1(a)に示したように、先行する単位区間の終点と後続する単位区間の始点を同一とすることにより、両単位区間が重複しないように設定しても良いし、両単位区間が互いに重複するように設定しても良い。これは、解析対象となる時系列信号の特性に応じて設定することができる。
【0040】
続いて、抽出した区間信号に対して、全調和信号との相関計算を行う。例えば、図2に示したようなノートナンバーに対応して標準周波数を設定した場合には、128個の調和信号との相関計算が行われる。この段階での調和信号との相関計算は、短時間フーリエ変換法により行われる。すなわち、区間信号のうち、先頭から、相関計算を行う調和信号の周期の整数倍で単位区間長を超えない部分と、調和信号との相関を算出する。算出された相関値は、各単位区間ごとに用意される信号相関配列に格納される。ここでは、短時間フーリエ変換で相関計算を行うため、1つの区間信号に対しては、各調和信号との相関計算が行われるのは、この1回だけとなる。この段階での標準周波数f(n)の調和信号と、区間信号x(t)との相関P(fn)は、以下の〔数式4〕により算出される。
【0041】
〔数式4〕
A(fn)=(2/T(n))Σt=0,T(n)-1x(t) sin(2πfnt)
B(fn)=(2/T(n))Σt=0,T(n)-1x(t) cos(2πfnt)
{P(fn) }2={A(fn)}2+{B(fn)}2
【0042】
相関値P(fn)は、上記〔数式4〕の第3式で算出される{P(fn) }2のうちの正の平方根として求められる。この〔数式4〕は、実質的には上記〔数式2〕と同等の式であり、時刻tは、サンプリング番号kおよびサンプリング周波数Fによりk/Fと置き替えることができ、相関計算時間T(n)は相関計算サンプル数wと置き替えることができる。
【0043】
信号相関配列が得られたら、配列中の各要素である相関値を、相互相関テーブルを利用して補正する。具体的には、標準周波数f(n)との相関値P(fn)の補正値P´(fn)は、標準周波数f(m)との相関値P(fm)、標準周波数f(m)の標準周波数f(n)に対する相互相関R(fm,fn)、標準周波数f(m)の自己相関R(fm,fm)を用いて、以下の〔数式5〕により算出される。
【0044】
〔数式5〕
P´(fn)= P(fn)−Σm=0,N-1P(fm) R(fm,fn)/R(fm,fm)
【0045】
上記〔数式5〕により算出された補正値P´(fn)は、相関配列中の標準周波数f(n)に対応する位置に格納され、以降は相関値P(fm)として他の補正値P´(fn)の算出に利用される。このようにして、設定された全標準周波数に対応する補正値P´(fn)を算出する。このとき、n=0〜N−1のうち、どの相関値P(fn)から補正していくかについては、基本的には、ステップS4における相関計算時の相関値の大きさの順に従う。こうしてN個の相関値が補正された信号相関配列が得られる。ただし、この時点では配列内の要素のうち、負の値になっているものがある場合がある。その場合は、その値を0にすることにより、信号相関配列の値が全て0または正の値となるようにし、これを補正相関配列とする。このように補正相関配列の値を0以上にするのは、相関値が負の値ということは基本的に有り得ないので、現実的でない値を削除するためである。また、負の値の要素を0にする処理を、信号相関配列中の全ての要素が補正された後で行うのは、補正値P´(fn)が負であった場合に、この補正値P´(fn)を〔数式5〕に示したP(fm)として、他の補正値の算出に利用するためである。これにより、補正値が負であった場合は、〔数式5〕の右辺のΣによる総和が減少し、結果として補正前の相関値P(fn)に増加されるようになる。本発明では、このようにして補正値が負であったとしても、その値を変更せずにそのまま利用して他の要素の補正値を求めるため、一般化調和解析のように、減算する含有信号G(j)の順番により差分信号S(j+1)が変化し、得られる相関値が異なるということがない。そのため、短時間フーリエ変換時における各周波数の相関値の大きさの順番に依存することなく、補正を行うことが可能となる。
【0046】
上記相関演算、および相関補正を設定された全単位区間に対して行うことにより、全単位区間におけるN個の周波数成分が得られる。
【0047】
以上のような処理により、各単位区間について、各周波数に対する強度値の集合である周波数群が得られることになる。このようにして所定数の周波数群が選出されたら、この周波数群の各周波数に対応する「音の高さを示す情報」、選出された各周波数の信号強度に対応する「音の強さを示す情報」、当該単位区間の始点に対応する「音の発音開始時刻を示す情報」、当該単位区間に後続する単位区間の始点に対応する「音の発音終了時刻を示す情報」、の4つの情報を含む符号データ(これを音素データと呼ぶことにする)を作成すれば、当該単位区間内の区間信号Xを所定数の符号データにより符号化することができる。符号データとして、MIDIデータを作成するのであれば、「音の高さを示す情報」としてノートナンバーを用い、「音の強さを示す情報」としてベロシティーを用い、「音の発音開始時刻を示す情報」としてノートオン時刻を用い、「音の発音終了時刻を示す情報」としてノートオフ時刻を用いるようにすれば良い。
【0048】
(3.1.本発明に係る音響信号の符号化方法)
ここからは、本発明の音響信号符号化方法について、図5に示すフローチャートを用いて説明する。まず、単一の音色を有する音響信号(これを音色信号と呼ぶことにする)に対して、上記1.基本原理および2.周期関数との相関を求める具体的な方法の項で説明した手法で音素データを生成する(ステップS1)。すなわち、音色信号の時間軸上の全区間に渡って単位区間を設定し、周波数解析を行って各周波数に対応する強度値を算出し、周波数、強度値、単位区間の始点、後続する単位区間の始点の4つの情報からなる音素データを生成する。
【0049】
音素データの生成は、具体的には、図2に示したような128種の周期関数に対して区間信号の相関強度を求め、その周期関数の周波数、求めた相関強度、単位区間の始点、後続する単位区間の始点の4つの情報を音素データと定義することにより行われる。ただし、本実施形態では、上記基本原理で説明した場合のように、代表周波数を選出するのではなく、用意した周期関数全てに対応する音素データを取得する。このステップS1の処理を全単位区間に対して行うことにより、音素データ[m,n](0≦m≦M−1,0≦n≦N−1)群が得られる。ここで、Nは周期関数の総数(上述の例ではN=128)、Mは音響信号において設定された単位区間の総数である。つまり、M×N個の音素データからなる音素データ群が得られることになる。
【0050】
続いて、得られた音素データの構成要素である開始時刻・終了時刻・周波数・強度値を利用して単位音色パラメータを算出する(ステップS2)。本実施形態では、単位音色パラメータとして、ゆらぎ分布パラメータPy・倍音分布パラメータPoを算出する。さらに、音響信号としてステレオ信号を利用した場合には、強度値(ベロシティ)を左右別に算出し、その比率を基にステレオ定位パラメータPsを算出する。
【0051】
具体的には、ゆらぎ分布パラメータPyは局所的な周波数のゆらぎの分布を示すパラメータであり、各ノートナンバーnに対応するゆらぎ分布パラメータPy(n)は、以下の〔数式6〕により算出される。
【0052】
〔数式6〕
Py(n)={ V(n-1) + V(n+1) + 2V(n-2) + 2V(n+2) }×6/V(n)
【0053】
上記〔数式6〕に示すように、ゆらぎ分布パラメータは各音素データ(ノートナンバーn)について、自身よりも半音低い音(ノートナンバーn−1)、半音高い音(ノートナンバーn+1)、2半音低い音(ノートナンバーn−2)、2半音高い音(ノートナンバーn+2)の強度値Vが自身に比べてどの程度の強さであるかを示すものである。このゆらぎ分布パラメータPyは、〔数式6〕では0から11の範囲になるように規格化されているため、Pyが0に近いほど、ピアノ音傾向が高く、Pyが11に近いほど、ボーカル音傾向が高いということになる。
【0054】
また、倍音分布パラメータPoは、その単位音素データが基本音であるか、他の単位音素データの倍音であるかどうかを判定するための値である。具体的には、以下の〔数式7〕を用いてノートナンバーnに対応する倍音分布パラメータPo (n)が算出される。
【0055】
〔数式7〕
Po(n)={6V(n)+V(n+12) + V(n+19) + V(n+24) + V(n+28) + V(n+31) + V(n+34) + V(n+36) - V(n-12) - V(n-19) - V(n-24) - V(n-28) - V(n-31) - V(n-34) - V(n-36) }/V(n)
【0056】
上記〔数式7〕において、V(n)はノートナンバーnの強度値を示しており、 V(n+12) ,V(n+19) ,V(n+24) ,V(n+28) ,V(n+31) ,V(n+34) ,V(n+36) はそれぞれノートナンバーnの音の2倍音、3倍音、4倍音、5倍音、6倍音、7倍音、8倍音の強度値を、 V(n-12) ,V(n-19) ,V(n-24) ,V(n-28) ,V(n-31) ,V(n-34) ,V(n-36) はそれぞれノートナンバーnの音を2倍音、3倍音、4倍音、5倍音、6倍音、7倍音、8倍音と仮定したときの基本音の強度値を示している。結局、上記〔数式7〕で算出される倍音分布パラメータPo(n)は、0から11の範囲になるように規格化されており、自身の整数倍の周波数の音が多く存在する場合、すなわち基本音の場合には11に近い値となり、自身の整数分の1の周波数の音が多く存在する場合、すなわち倍音の場合には0に近い値となる。
【0057】
音響信号としてステレオ信号を利用した場合には、上記ステップS1において各チャンネルからの信号について周波数解析を行って音素データを算出する。そのため、各チャンネルについてM×N個の音素データが得られることになるが、各単位区間の開始点・終了点・周波数については、同一であるので両チャンネルの音素データをまとめ、各音素データの強度値としてL(左)チャンネルからの強度値とR(右)チャンネルからの強度値をそれぞれVL 、VRとしてもつようにする。そして、ステップS2においては、単位音色パラメータの1つとして、ステレオ定位パラメータPsを以下の〔数式8〕により算出する。
【0058】
〔数式8〕
Ps(n)
=6−6[{VL(n) - VR(n)}/VR(n) ]1/2 :VL(n) > VR(n)のとき
=6+6[{VR(n) - VL(n)}/VL(n) ]1/2 :VR(n) > VL(n)のとき
=6 :VR(n) = VL(n)のとき
【0059】
ステレオ定位パラメータPsは、〔数式8〕で0から11の範囲になるように規格化されており、あるノートナンバーの音について、左右のチャンネルの強度値が同一の場合に最大値6をとり、左チャンネルの強度値が右チャンネルの強度値に比べて大きい程、0に近い値をとり、右チャンネルの強度値が左チャンネルの強度値に比べて大きい程、11に近い値をとることになる。一般に楽器音はボーカルに比べて、どちらかのチャンネルに偏って記録されることが多いので、ステレオ定位パラメータPsの値が6から離れている場合には、楽器音であると判断することができる。
【0060】
単位音色パラメータが算出されたら、同一周波数で時系列方向に連続する複数の音素データを1つの連結音素データとして連結する(ステップS3)。なお、この処理を行うために、上記ステップS1またはステップS2の処理過程において、強度値が所定の基準に達しない音素データについては、あらかじめ削除しておく。この場合、所定の基準としては、音がノイズ等であって対象とする演奏録音信号ではないと判断される程度の基準を設定する。図6は音素データの連結を説明するための概念図である。図6(a)は連結前の音素データ群の様子を示す図である。図6(a)において、格子状に仕切られた各矩形は音素データを示しており、網掛けがされている矩形は、上記ステップS3において強度値が所定の基準に達しないために削除された音素データであり、その他の矩形は有効な音素データを示す。ステップS3においては、同一周波数(同一ノートナンバー)で時間t方向に連続する音素データを連結するため、図6(a)に示す音素データ群に対して連結処理を実行すると、図6(b)に示すような連結音素データ群が得られる。例えば、図6(a)に示した音素データA1、A2、A3は連結されて、図6(b)に示すような連結音素データAが得られることになる。このとき、新たに得られる連結音素データAの周波数としては、音素データA1、A2、A3に共通の周波数が与えられ、強度値としては、音素データA1、A2、A3の強度値のうち最大のものが与えられ、開始時刻としては、先頭の音素データA1の区間開始時刻t1が与えられ、終了時刻としては、最後尾の音素データA3の区間終了時刻t4が与えられる。音素データ、連結音素データ共に、周波数(ノートナンバー)、強度値、開始時刻、終了時刻の4つの情報で構成されるため、3つの音素データが1つの連結音素データに統合されることにより、データ量は3分の1に削減される。このことは、最終的にMIDI符号化される場合には、短い音符3つではなく、長い音符1つとして表現されることを意味している。
【0061】
さらに、ステップS3においては、連結の元となった音素データのうち最大の強度値をもつ音素データの単位音色パラメータを、連結音素データの単位音色パラメータとする。
【0062】
続いて、得られた連結音素データの構成要素である開始時刻・終了時刻・周波数・強度値を利用して連結音色パラメータを算出する(ステップS4)。本実施形態では、連結音色パラメータとして、レベル分布パラメータPlを算出する。具体的には、各ノートナンバーnに対応するレベル分布パラメータPl(n)は時系列方向の強度値の分布を示すパラメータであり、1つの連結音素データに連結される元の単位音素データのうち、先行する単位音素データの強度値をVi、後続する単位音素データの強度値をVi+1とすると、以下の〔数式9〕により算出される。
【0063】
〔数式9〕
Pl(n)=36×Σi=0,I|Vi+1−Vi|×(ti+1−ti)/ VmaxΣi=0,I(ti+1−ti
【0064】
上記〔数式9〕において、Iは1つの連結音素データに連結されることになった基の音素データの個数から1つ減じたものであり、tiは各音素データの始点の時刻を示している。また、Vmaxは、V0〜VIのうち最大のものを示す。なお、先頭で36を乗じているのは、Pl(n)の値を0から11の範囲に規格化するためである。算出された連結音色パラメータは連結音素データの1要素として開始時刻・終了時刻・周波数・強度値・単位音色の各パラメータに加えて付与されることになる。
【0065】
連結音色パラメータが算出されたら、各連結音素データに付与された単位音色パラメータおよび連結音色パラメータの値の出現頻度を算出し、算出された出現頻度を記録した音色管理テーブルを作成する(ステップS5)。具体的には、各単位音色パラメータおよび連結音色パラメータの組合せが単一音色信号全体における全音素データに比較してどの程度の割合で出現するかを算出する。ここで、ステップS5で作成される音色管理テーブルの一例を図7に示す。図7の例では、音色パラメータとして、ゆらぎ分布パラメータ、倍音分布パラメータ、レベル分布パラメータの3つを採用した場合を示している。音色グループは、音色をグループ分けしたものであり、例えば、ヴォーカルの音声を音色グループ1、ピアノの音を音色グループ2、という具合に割り当てることができる。ここで、ある単一音色信号を音色グループ1として音色管理テーブルに登録する場合を考えてみる。この場合、上記のようにステップS1〜ステップS4の処理を行って連結音素データの集合が得られ、各連結音素データには単位音色パラメータおよび連結音色パラメータが付与されることになる。そして、この連結音素データが有する音色パラメータの各組合せが、どの程度存在するかについての分布割合を以下の〔数式10〕により算出する。
【0066】
〔数式10〕
分布割合=
(該当する音色パラメータの組合せをもつ連結音素の強度×長さ)の総和/(全連結音素の強度×発音持続時間)の総和
【0067】
図7の例では、上記〔数式10〕で算出した割合に100を乗じて%単位で記録している。なお、本実施形態では、上述のように各音色パラメータが0〜11の整数値をとるようにしたため、各音色パラメータは12個の値をとり得る。そのため、図7に示したように3つの音色パラメータの組合せは123(=1728)通りとなる。他の単一音色を有する単一音色信号についても同様に音色管理テーブルへの登録処理を行う。図7の例では、2つの音色グループしか登録していないが、多数の音色が混在した音響信号から音色を分離するためには、それに対応した多数の音色グループを登録しておくことが必要になる。なお、各音色グループについては、1つの単一音色信号だけでなく、複数の単一音色信号についての分布割合を順次蓄積していくことにより、より精度の高い分布割合を音色管理テーブルに蓄積していくことができる。また、図7の例では、3つの音色パラメータを採用しているが、これ以外にも、ステレオ定位パラメータ、周波数(ノートナンバー)、強度値(ベロシティ)、発音持続時間(デュレーション:発音終了時刻−発音開始時刻で算出)等のパラメータを採用することもできる。
【0068】
以上のようにして音色管理テーブルが準備できたら、次に、実際に符号化対象とする音響信号を読込み、単位区間を設定し、各単位区間について周波数解析を行って音素データを生成する(ステップS6)。ステップS6における音素データの生成処理は、上記ステップS1において、単一音色信号に対して行う処理と同様の処理である。次に、生成された音素データの開始時刻・終了時刻・周波数・強度値を利用して単位音色パラメータを算出する(ステップS7)。単位音色パラメータが算出されたら、同一周波数で時系列方向に連続する複数の音素データを1つの連結音素データとして連結する(ステップS8)。次に、得られた連結音素データの構成要素である開始時刻・終了時刻・周波数・強度値を利用して連結音色パラメータを算出する(ステップS9)。符号化対象である音響信号に対するステップS7〜ステップS9の処理も、上記単一音色信号に対して行ったステップS2〜ステップS4の処理と同様の処理である。
【0069】
連結音色パラメータが算出されたら、各連結音素データに付与された単位音色パラメータおよび連結音色パラメータの値の組合せにより、音色管理テーブルを参照し、音色パラメータの組合せの分布割合が最も高い音色グループに、その連結音素データを分類する(ステップS10)。例えば、音色パラメータとして、ゆらぎ分布パラメータ、倍音分布パラメータ、レベル分布パラメータの3つを利用し、音色グループとして、ヴォーカル、ピアノ、バイオリンの3つが用意されている場合を考えてみる。このとき、符号化対象である音響信号から得られたある連結音素データのゆらぎ分布パラメータが「2」、倍音分布パラメータが「3」、レベル分布パラメータが「3」であったとする。この組合せで音色管理パラメータを参照した際、図8に示すようにヴォーカルが「2.2%」、ピアノが「8.6%」、バイオリンが「6.2%」であったとする。このとき、ゆらぎ分布パラメータ、倍音分布パラメータ、レベル分布パラメータが「2」「3」「3」である組合せは、音色グループの中ではピアノに最も多く出現することがわかる。そのため、この連結音素データは、ピアノ音として分類すべきと判断され、ピアノに対応するグループのIDが付される。
【0070】
また、例えば、ゆらぎ分布パラメータが「8」、倍音分布パラメータが「9」、レベル分布パラメータが「6」の連結音素データがあったとする。この場合、図8に示した音色管理テーブルを参照すると、ヴォーカルにおける出現割合が高いので、この連結音素データには、ヴォーカルに対応するグループのIDが付与される。また、ゆらぎ分布パラメータが「10」、倍音分布パラメータが「6」、レベル分布パラメータが「3」の連結音素データがあったとする。この場合、図8に示した音色管理テーブルを参照すると、ピアノにおける出現割合が「7.3%」、バイオリンにおける出現割合が「7.2%」でほぼ同じである。このような場合は、その連結音素データは、ピアノとバイオリンの両方のグループに分類される。すなわち、この時点では、その連結音素データには、2つのグループのIDが付与されることになる。出現割合がどの程度近似している場合に、複数のグループに分類するかについては、適宜設定することができる。なお、音色管理テーブルに登録するための単一音色信号のサンプルが少ない場合には、一度も出現したことがない音色パラメータの組合せが存在する。その場合は、出現割合は、全ての音色グループについて0%となる。音響信号を符号化することにより得られる連結音素データの音色パラメータの組合せが、全ての音色グループで0%の場合には、全てのグループに分類させる処理を行う。
【0071】
上述のように音響信号としては、広く普及しているMIDI規格に変換することが好ましい。この場合、上記連結音素データはMIDI符号データに変換されることになるが、上記ステップS10における複数のグループへの分類をMIDI符号データへの変換後に行うようにしても良い。
【0072】
各連結音素データは、付与されたIDに従って、複数の音色グループ(MIDIの場合はチャンネル)に分類されることになる。上述の例のように既にMIDIに変換されている場合には、設定されたチャンネルに記録されることになる。そして、各チャンネルにはMIDI音源で適切な音色で再生されるように、MIDI規格に基づいたプログラム番号、バンク番号といった音色指示情報が付加されることになる。各連結音素データは、各グループごとに設定された音色パラメータに基づいて分類されるため、複数のグループに分類される場合もあり、従来のように、1つの連結音素データが必ずどれか1つのグループだけに分類されるということはなくなる。
【0073】
以上、本発明の好適な実施形態について説明したが、上記符号化方法は、コンピュータ等で実行されることは当然である。具体的には、図5のフローチャートに示したようなステップを上記手順で実行するためのプログラムをコンピュータに搭載しておく。そして、単一音色信号、音響信号をPCM方式等でデジタル化した後、コンピュータに取り込み、ステップS1〜ステップS5の処理およびステップS6〜ステップS10の処理を行った後、音色管理テーブルへの登録、もしくは音色ごとに複数のチャンネルに分類されたMIDI形式等の符号データをコンピュータより出力する。出力された符号データは、例えば、MIDIデータの場合、MIDIシーケンサ、MIDI音源を用いて音響信号として再生される。
【0074】
【発明の効果】
以上、説明したように本発明によれば、符号化対象とする音響信号に含まれている複数の音色成分の各々に近い音色成分を単独にもつ単一音色信号を複数個準備し、各単一音色信号に対して周波数解析を施して音色パラメータを1つ以上備える複数の音素データに符号化し、単一音色信号の全音素データにおける各音色パラメータの値の出現頻度を算出して単一音色信号の音色グループ別に各音色パラメータの値の出現頻度が記載された音色管理テーブルを作成しておき、符号化対象とする音響信号に対して周波数解析を施し、得られた音素データの音色パラメータに基づいて音色管理テーブルを参照し、出現頻度が高い方の音色グループに音素データを分類するようにしたので、複数の音色が混合された音響信号を、高精度に、かつ、少ない負荷によって、複数の音色として分離することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の音響信号の符号化方法の基本原理を示す図である。
【図2】本発明で利用される周期関数の一例を示す図である。
【図3】解析対象となる信号と周期信号との相関計算の手法を示す図である。
【図4】一般化調和解析の基本的な手法を示す図である。
【図5】本発明に係る音響信号の符号化方法の概要を示すフローチャートである。
【図6】音素データの連結を説明するための概念図である。
【図7】音色管理テーブルの一例を示す図である。
【図8】具体的な音色グループを設定した場合の音色管理テーブルを示す図である。
【符号の説明】
A1〜A3・・・音素データ
A・・・連結音素データ
d,d1〜d5・・・単位区間
G(j)・・・含有信号
n ・・・ノートナンバー
S(j),S(j+1)・・・差分信号
X,X(k)・・・区間信号

Claims (7)

  1. 複数の音色成分が混合された音響信号を、音色成分別に複数の音色グループに分類された符号データとして符号化する方法であって、
    前記音響信号に含まれている各々の音色成分を単独にもつ単一音色信号に対して周波数解析を施し、音色パラメータを1つ以上備える複数の音素データに符号化する単一音色解析段階と、
    前記単一音色信号の全音素データにおける各音色パラメータの値の出現頻度を算出して、前記単一音色信号の音色グループ別に各音色パラメータの値の出現頻度が記載された音色管理テーブルを作成する音色管理テーブル作成段階と、
    前記符号化対象とする音響信号に対して周波数解析を施し、得られた音素データの音色パラメータに基づいて前記音色管理テーブルを参照し、出現頻度が高い方の音色グループに前記音素データを分類する音素分類段階と、を有し、
    前記単一音色解析段階および音素分類段階における周波数解析は、
    前記単一音色信号もしくは前記音響信号に対して、開始時刻、終了時刻、周波数および強度値で構成される時系列の音素データを生成する音素データ生成段階と、
    前記各音素データに対して、同一開始時刻および同一終了時刻で周波数が異なる他の音素データの分布状態を基に1つまたは複数の種類の単位音色パラメータを算出し、前記各音素データに付与する単位音色パラメータ算出段階と、
    を有することを特徴とする音響信号の符号化方法。
  2. 前記単一音色解析段階および音素分類段階における周波数解析は、
    前記音素データ生成段階により得られた各音素データのなかで先行する音素データである先行音素の周波数と、時間的に後続する音素データである後続音素の周波数が類似していて、先行音素の終了時刻と後続音素の開始時刻が類似している場合、先行音素と後続音素を1つの連結音素データに連結させ、先行音素の開始時刻、後続音素の終了時刻、および周波数、強度値として先行音素または後続音素のどちらかの要素を代表値として与える音素連結段階と、
    前記各連結音素データに対して、構成される複数の音素データの周波数、強度値などの分布状態を基に1つまたは複数の連結音色パラメータを算出し、前記各連結音素データに付与する連結音色パラメータ算出段階と、
    をさらに有することを特徴とする請求項1に記載の音響信号の符号化方法。
  3. 前記音色管理テーブルにおける音色パラメータの値の出現頻度は、各音素データの評価値を(終了時刻−開始時刻)×強度値と定義し、当該音色パラメータの値をもつ音素データの評価値の総和を全音素データの評価値の総和で除した割合で与えられるものであることを特徴とする請求項1または請求項2に記載の音響信号の符号化方法。
  4. 前記音素分類段階において参照する前記音色管理テーブルの当該音色パラメータの値の出現頻度が音色グループの違いにより顕著な差がない場合、当該音素データを双方の音色グループに分類するものであることを特徴とする請求項1に記載の音響信号の符号化方法。
  5. 前記単位音色パラメータ算出段階が、同一開始時刻および同一終了時刻で周波数が近傍である音素データの強度値分布を基に、前記単位音色パラメータを算出するものであることを特徴とする請求項1に記載の音響信号の符号化方法。
  6. 前記単位音色パラメータ算出段階が、同一開始時刻および同一終了時刻で周波数が整数倍または整数分の1になる音素データの強度値分布を基に、前記単位音色パラメータを算出するものであることを特徴とする請求項1に記載の音響信号の符号化方法。
  7. 前記連結音色パラメータ算出段階が、1つの連結音素データを構成する複数の音素データのうち時間的に隣接する音素データの開始時刻の間隔に対する強度値変化分の比率の分布状態を基に連結音色パラメータを算出するものであることを特徴とする請求項2に記載の音響信号の符号化方法。
JP2002060815A 2002-03-06 2002-03-06 音響信号の符号化方法 Expired - Fee Related JP4156252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002060815A JP4156252B2 (ja) 2002-03-06 2002-03-06 音響信号の符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002060815A JP4156252B2 (ja) 2002-03-06 2002-03-06 音響信号の符号化方法

Publications (2)

Publication Number Publication Date
JP2003255930A JP2003255930A (ja) 2003-09-10
JP4156252B2 true JP4156252B2 (ja) 2008-09-24

Family

ID=28670035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002060815A Expired - Fee Related JP4156252B2 (ja) 2002-03-06 2002-03-06 音響信号の符号化方法

Country Status (1)

Country Link
JP (1) JP4156252B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6841095B2 (ja) * 2017-03-08 2021-03-10 ヤマハ株式会社 音響解析方法および音響解析装置
JPWO2022168638A1 (ja) * 2021-02-05 2022-08-11

Also Published As

Publication number Publication date
JP2003255930A (ja) 2003-09-10

Similar Documents

Publication Publication Date Title
JP4132362B2 (ja) 音響信号の符号化方法およびプログラム記録媒体
JP4156252B2 (ja) 音響信号の符号化方法
JP4695781B2 (ja) 音響信号の符号化方法
JP2000099009A (ja) 音響信号の符号化方法
JP2003216147A (ja) 音響信号の符号化方法
JP3935745B2 (ja) 音響信号の符号化方法
JP4268328B2 (ja) 音響信号の符号化方法
JP3776782B2 (ja) 音響信号の符号化方法
JP4156269B2 (ja) 時系列信号の周波数解析方法および音響信号の符号化方法
JP2002215142A (ja) 音響信号の符号化方法
JP4156268B2 (ja) 時系列信号の周波数解析方法および音響信号の符号化方法
JP4220108B2 (ja) 音響信号符号化システム
JP2002244691A (ja) 音響信号の符号化方法
JP4061070B2 (ja) 周波数解析方法および音響信号の符号化方法
JP4662406B2 (ja) 周波数解析方法および音響信号の符号化方法
JP4697919B2 (ja) 音響信号の符号化方法
JP4662407B2 (ja) 周波数解析方法
AU2020104383A4 (en) Projection filter based universal framework to match the musical notes of synthesizer and indian classical instruments
JP2002123296A (ja) 音響信号の符号化方法および分離方法
JP4580548B2 (ja) 周波数解析方法
JP2000099093A (ja) 音響信号の符号化方法
JP4473979B2 (ja) 音響信号の符号化方法および復号化方法ならびに当該方法を実行するプログラムを記録した記録媒体
JP4601865B2 (ja) 音響信号の符号化方法
JPH1173199A (ja) 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
JP2003263155A (ja) 周波数解析装置および音響信号の符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080625

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees