JP2002229568A

JP2002229568A - 音響情報再生方法

Info

Publication number: JP2002229568A
Application number: JP2001028510A
Authority: JP
Inventors: Toshio Motegi; 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2001-02-05
Filing date: 2001-02-05
Publication date: 2002-08-16

Abstract

(57)【要約】【課題】音声サンプルをＭＩＤＩデータに符号化する
ことにより、実在しない楽器を用いた音楽表現を容易に
行うことが可能な音響情報再生方法を提供する。【解決手段】音色情報をサンプル波形データとして取り
込み（Ｓ１）、取り込んだサンプル波形データに対して
音の高さ・長さ・強さ情報が時系列に定義された音色デ
ータ部品に変換することにより音色データ部品を準備し
（Ｓ２）、準備された音色データ部品を時系列に配置さ
せるための合成指示データを入力し（Ｓ３）、入力され
た合成指示データに基づいて音色データ部品を時系列に
配置して音の高さ・長さ・強さ情報が時系列に表現され
たコンテンツ符号データを生成し（Ｓ４）、生成された
コンテンツ符号データを所定の音源を用いて再生する
（Ｓ５）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自然音を楽器音色素材
として取り込み、現実に存在しない楽器で音楽を表現す
るための音楽コンテンツの制作支援、人間の音声を音色
素材として取り込み、音声歌声を特定の人間の声で合成
する技術、心音等の生体音響信号を合成して医学教育教
材に活用するなど特殊な音響コンテンツの制作支援に関
する。

【０００２】

【従来の技術】音響信号に代表される時系列信号には、
その構成要素として複数の周期信号が含まれている。こ
のため、与えられた時系列信号にどのような周期信号が
含まれているかを解析する手法は、古くから知られてい
る。例えば、フーリエ解析は、与えられた時系列信号に
含まれる周波数成分を解析するための方法として広く利
用されている。

【０００３】このような時系列信号の解析方法を利用す
れば、音響信号を符号化することも可能である。コンピ
ュータの普及により、原音となるアナログ音響信号を所
定のサンプリング周波数でサンプリングし、各サンプリ
ング時の信号強度を量子化してデジタルデータとして取
り込むことが容易にできるようになってきており、こう
して取り込んだデジタルデータに対してフーリエ解析な
どの手法を適用し、原音信号に含まれていた周波数成分
を抽出すれば、各周波数成分を示す符号によって原音信
号の符号化が可能になる。

【０００４】また、電子楽器による楽器音を符号化しよ
うという発想から生まれたＭＩＤＩ（Musical Instrume
nt Digital Interface）規格も、パーソナルコンピュー
タの普及とともに盛んに利用されるようになってきてい
る。このＭＩＤＩ規格による符号データ（以下、ＭＩＤ
Ｉデータという）は、基本的には、楽器のどの鍵盤キー
を、どの程度の強さで弾いたか、という楽器演奏の操作
を記述したデータであり、このＭＩＤＩデータ自身に
は、実際の音の波形は含まれていない。そのため、実際
の音を再生する場合には、楽器音の波形を記憶したＭＩ
ＤＩ音源が別途必要になるが、その符号化効率の高さが
注目を集めており、ＭＩＤＩ規格による符号化および復
号化の技術は、現在、パーソナルコンピュータを用いて
楽器演奏、楽器練習、作曲などを行うソフトウェアに広
く採り入れられている。

【０００５】そこで、音響信号に代表される時系列信号
に対して、所定の手法で解析を行うことにより、その構
成要素となる周期信号を抽出し、抽出した周期信号をＭ
ＩＤＩデータを用いて符号化しようとする提案がなされ
ている。例えば、特開平１０−２４７０９９号公報、特
開平１１−７３１９９号公報、特開平１１−７３２００
号公報、特開平１１−９５７５３号公報、特開２０００
−９９００９号公報、特開２０００−９９０９２号公
報、特開２０００−９９０９３号公報、特願平１１−５
８４３１号明細書、特願平１１−１７７８７５号明細
書、特願平１１−３２９２９７号明細書には、任意の時
系列信号について、構成要素となる周波数を解析し、そ
の解析結果からＭＩＤＩデータを作成することができる
種々の方法が提案されている。

【０００６】

【発明が解決しようとする課題】一方、音楽制作・音響
特殊効果において、実在しない楽器を用いた音楽表現に
対する要望があり、これまではシンセサイザやサンプリ
ング音源で対応することにより音響コンテンツの制作が
行われてきた。シンセサイザの場合には、クリエータが
所望の音色に直感で波形合成パラメータを設定する必要
があり、クリエータの能力が低い場合は、表現できる範
囲に限界があった。サンプリング音源の場合には、所望
の音色サンプルを録音するだけで実現できるという簡便
さがあるが、音程や音の延びを波形信号処理で動かすた
め合成される音楽に不自然さを伴っていた。

【０００７】上記のような点に鑑み、本発明は上記符号
化方法を適用して、音声サンプルをＭＩＤＩデータに符
号化することにより、実在しない楽器を用いた音楽表現
を容易に行うことが可能な音響情報再生方法を提供する
ことを課題とする。

【０００８】

【課題を解決するための手段】上記課題を解決するた
め、本発明では、音色情報をサンプル波形データとして
取り込み、取り込んだサンプル波形データに対して音の
高さ・長さ・強さ情報が時系列に定義された音色データ
部品に変換することにより音色データ部品を準備し、準
備された音色データ部品を時系列に配置させるための合
成指示データを入力し、入力された合成指示データに基
づいて音色データ部品を時系列に配置して音の高さ・長
さ・強さ情報が時系列に表現されたコンテンツ符号デー
タを生成し、生成されたコンテンツ符号データを所定の
音源を用いて再生するようにしたことを特徴とする。本
発明によれば、音色情報を符号化して音色データ部品と
して準備しておき、合成指示データに従って、音色デー
タ部品を補正して時系列に配置してコンテンツ符号デー
タを生成するようにしたので、コンテンツ符号データが
音色情報の特徴を含んでいることになり、再生時に音源
を特定する必要がなく、単純な基本音源を使用するだけ
で、そのコンテンツに応じた音色情報を再現することが
可能となる。

【０００９】

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して詳細に説明する。

【００１０】（音響信号の符号化の基本原理）はじめ
に、本発明に係る音響コンテンツ生成方法に適用される
音響信号の符号化の基本原理を述べておく。この基本原
理は、前掲の各公報あるいは明細書に開示されているの
で、ここではその概要のみを簡単に述べることにする。

【００１１】図１（ａ）に示すように、時系列信号とし
てアナログ音響信号が与えられたものとする。図１の例
では、横軸に時間ｔ、縦軸に振幅（強度）をとって、こ
の音響信号を示している。ここでは、まずこのアナログ
音響信号を、デジタルの音響データとして取り込む処理
を行う。これは、従来の一般的なＰＣＭの手法を用い、
所定のサンプリング周波数でこのアナログ音響信号をサ
ンプリングし、振幅を所定の量子化ビット数を用いてデ
ジタルデータに変換する処理を行えば良い。ここでは、
説明の便宜上、ＰＣＭの手法でデジタル化した音響デー
タの波形も図１（ａ）のアナログ音響信号と同一の波形
で示すことにする。

【００１２】続いて、この解析対象となる音響信号の時
間軸上に、複数の単位区間を設定する。図１（ａ）に示
す例では、時間軸ｔ上に等間隔に６つの時刻ｔ１〜ｔ６
が定義され、これら各時刻を始点および終点とする５つ
の単位区間ｄ１〜ｄ５が設定されている。図１の例で
は、全て同一の区間長をもった単位区間が設定されてい
るが、個々の単位区間ごとに区間長を変えるようにして
もかまわない。あるいは、隣接する単位区間が時間軸上
で部分的に重なり合うような区間設定を行ってもかまわ
ない。

【００１３】こうして単位区間が設定されたら、各単位
区間ごとの音響信号（以下、区間信号と呼ぶことにす
る）について、それぞれ代表周波数を選出する。各区間
信号には、通常、様々な周波数成分が含まれているが、
例えば、その中で成分の強度割合の大きな周波数成分を
代表周波数として選出すれば良い。ここで、代表周波数
とはいわゆる基本周波数が一般的であるが、音声のフォ
ルマント周波数などの倍音周波数や、ノイズ音源のピー
ク周波数も代表周波数として扱うことがある。代表周波
数は１つだけ選出しても良いが、音響信号によっては複
数の代表周波数を選出した方が、より精度の高い符号化
が可能になる。図１（ｂ）には、個々の単位区間ごとに
それぞれ３つの代表周波数を選出し、１つの代表周波数
を１つの代表符号（図では便宜上、音符として示してあ
る）として符号化した例が示されている。ここでは、代
表符号（音符）を収容するために３つのトラックＴ１，
Ｔ２，Ｔ３が設けられているが、これは個々の単位区間
ごとに選出された３つずつの代表符号を、それぞれ異な
るトラックに収容するためである。

【００１４】例えば、単位区間ｄ１について選出された
代表符号ｎ（ｄ１，１），ｎ（ｄ１，２），ｎ（ｄ１，
３）は、それぞれトラックＴ１，Ｔ２，Ｔ３に収容され
ている。ここで、各符号ｎ（ｄ１，１），ｎ（ｄ１，
２），ｎ（ｄ１，３）は、ＭＩＤＩ符号におけるノート
ナンバーを示す符号である。ＭＩＤＩ符号におけるノー
トナンバーは、０〜１２７までの１２８通りの値をと
り、それぞれピアノの鍵盤の１つのキーを示すことにな
る。具体的には、例えば、代表周波数として４４０Ｈｚ
が選出された場合、この周波数はノートナンバーｎ＝６
９（ピアノの鍵盤中央の「ラ音（Ａ３音）」に対応）に
相当するので、代表符号としては、ｎ＝６９が選出され
ることになる。もっとも、図１（ｂ）は、上述の方法に
よって得られる代表符号を音符の形式で示した概念図で
あり、実際には、各音符にはそれぞれ強度に関するデー
タも付加されている。例えば、トラックＴ１には、ノー
トナンバーｎ（ｄ１，１），ｎ（ｄ２，１）・・・なる
音高を示すデータとともに、ｅ（ｄ１，１），ｅ（ｄ
２，１）・・・なる強度を示すデータが収容されること
になる。この強度を示すデータは、各代表周波数の成分
が、元の区間信号にどの程度の度合いで含まれていたか
によって決定される。具体的には、各代表周波数をもっ
た周期関数の区間信号に対する相関値に基づいて強度を
示すデータが決定されることになる。また、図１（ｂ）
に示す概念図では、音符の横方向の位置によって、個々
の単位区間の時間軸上での位置が示されているが、実際
には、この時間軸上での位置を正確に数値として示すデ
ータが各音符に付加されていることになる。

【００１５】音響信号を符号化する形式としては、必ず
しもＭＩＤＩ形式を採用する必要はないが、この種の符
号化形式としてはＭＩＤＩ形式が最も普及しているた
め、実用上はＭＩＤＩ形式の符号データを用いるのが好
ましい。ＭＩＤＩ形式では、「ノートオン」データもし
くは「ノートオフ」データが、「デルタタイム」データ
を介在させながら存在する。「ノートオン」データは、
特定のノートナンバーＮとベロシティーＶを指定して特
定の音の演奏開始を指示するデータであり、「ノートオ
フ」データは、特定のノートナンバーＮとベロシティー
Ｖを指定して特定の音の演奏終了を指示するデータであ
る。また、「デルタタイム」データは、所定の時間間隔
を示すデータである。ベロシティーＶは、例えば、ピア
ノの鍵盤などを押し下げる速度（ノートオン時のベロシ
ティー）および鍵盤から指を離す速度（ノートオフ時の
ベロシティー）を示すパラメータであり、特定の音の演
奏開始操作もしくは演奏終了操作の強さを示すことにな
る。

【００１６】前述の方法では、第ｉ番目の単位区間ｄｉ
について、代表符号としてＪ個のノートナンバーｎ（ｄ
ｉ，１），ｎ（ｄｉ，２），・・・，ｎ（ｄｉ，Ｊ）が
得られ、このそれぞれについて強度ｅ（ｄｉ，１），ｅ
（ｄｉ，２），・・・，ｅ（ｄｉ，Ｊ）が得られる。そ
こで、次のような手法により、ＭＩＤＩ形式の符号デー
タを作成することができる。まず、「ノートオン」デー
タもしくは「ノートオフ」データの中で記述するノート
ナンバーＮとしては、得られたノートナンバーｎ（ｄ
ｉ，１），ｎ（ｄｉ，２），・・・，ｎ（ｄｉ，Ｊ）を
そのまま用いれば良い。一方、「ノートオン」データも
しくは「ノートオフ」データの中で記述するベロシティ
ーＶとしては、得られた強度ｅ（ｄｉ，１），ｅ（ｄ
ｉ，２），・・・，ｅ（ｄｉ，Ｊ）を所定の方法で規格
化した値を用いれば良い。また、「デルタタイム」デー
タは、各単位区間の長さに応じて設定すれば良い。

【００１７】（周期関数との相関を求める具体的な方
法）上述した基本原理に基づく方法では、区間信号に対
して、１つまたは複数の代表周波数が選出され、この代
表周波数をもった周期信号によって、当該区間信号が表
現されることになる。ここで、選出される代表周波数
は、文字どおり、当該単位区間内の信号成分を代表する
周波数である。この代表周波数を選出する具体的な方法
には、後述するように、短時間フーリエ変換を利用する
方法と、一般化調和解析の手法を利用する方法とがあ
る。いずれの方法も、基本的な考え方は同じであり、あ
らかじめ周波数の異なる複数の周期関数を用意してお
き、これら複数の周期関数の中から、当該単位区間内の
区間信号に対する相関が高い周期関数を見つけ出し、こ
の相関の高い周期関数の周波数を代表周波数として選出
する、という手法を採ることになる。すなわち、代表周
波数を選出する際には、あらかじめ用意された複数の周
期関数と、単位区間内の区間信号との相関を求める演算
を行うことになる。そこで、ここでは、周期関数との相
関を求める具体的な方法を述べておく。

【００１８】複数の周期関数として、図２に示すような
三角関数が用意されているものとする。これらの三角関
数は、同一周波数をもった正弦関数と余弦関数との対か
ら構成されており、１２８通りの標準周波数ｆ（０）〜
ｆ（１２７）のそれぞれについて、正弦関数および余弦
関数の対が定義されていることになる。ここでは、同一
の周波数をもった正弦関数および余弦関数からなる一対
の関数を、当該周波数についての周期関数として定義す
ることにする。すなわち、ある特定の周波数についての
周期関数は、一対の正弦関数および余弦関数によって構
成されることになる。このように、一対の正弦関数と余
弦関数とにより周期関数を定義するのは、信号に対する
周期関数の相関値を求める際に、相関値が位相の影響を
受ける事を考慮するためである。なお、図２に示す各三
角関数内の変数Ｆおよびｋは、区間信号Ｘについてのサ
ンプリング周波数Ｆおよびサンプル番号ｋに相当する変
数である。例えば、周波数ｆ（０）についての正弦波
は、ｓｉｎ（２πｆ（０）ｋ／Ｆ）で示され、任意のサ
ンプル番号ｋを与えると、区間信号を構成する第ｋ番目
のサンプルと同一時間位置における周期関数の振幅値が
得られる。

【００１９】ここでは、１２８通りの標準周波数ｆ
（０）〜ｆ（１２７）を図３に示すような式で定義した
例を示すことにする。すなわち、第ｎ番目（０≦ｎ≦１
２７）の標準周波数ｆ（ｎ）は、ｆ（ｎ）＝４４０×２^γ(n) γ（ｎ）＝（ｎ−６９）／１２なる式で定義されることになる。このような式によって
標準周波数を定義しておくと、最終的にＭＩＤＩデータ
を用いた符号化を行う際に便利である。なぜなら、この
ような定義によって設定される１２８通りの標準周波数
ｆ（０）〜ｆ（１２７）は、等比級数をなす周波数値を
とることになり、ＭＩＤＩデータで利用されるノートナ
ンバーに対応した周波数になるからである。したがっ
て、図２に示す１２８通りの標準周波数ｆ（０）〜ｆ
（１２７）は、対数尺度で示した周波数軸上に等間隔
（ＭＩＤＩにおける半音単位）に設定した周波数という
ことになる。このため、本願では、図に掲載するグラフ
におけるノートナンバー軸を、いずれも対数尺度で示す
ことにする。

【００２０】続いて、任意の区間の区間信号に対する各
周期関数の相関の求め方について、具体的な説明を行
う。例えば、図４に示すように、ある単位区間ｄについ
て区間信号Ｘが与えられていたとする。ここでは、区間
長Ｌをもった単位区間ｄについて、サンプリング周波数
Ｆでサンプリングが行なわれており、全部でｗ個のサン
プル値が得られているものとし、サンプル番号を図示の
ように、０，１，２，３，・・・，ｋ，・・・，ｗ−
２，ｗ−１とする（白丸で示す第ｗ番目のサンプルは、
右に隣接する次の単位区間の先頭に含まれるサンプルと
する）。この場合、任意のサンプル番号ｋについては、
Ｘ（ｋ）なる振幅値がデジタルデータとして与えられて
いることになる。短時間フーリエ変換においては、Ｘ
（ｋ）に対して各サンプルごとに中央の重みが１に近
く、両端の重みが０に近くなるような窓関数Ｗ（ｋ）を
乗ずることが通常である。すなわち、Ｘ（ｋ）×Ｗ
（ｋ）をＸ（ｋ）と扱って以下のような相関計算を行う
もので、窓関数の形状としては余弦波形状のハミング窓
が一般に用いられている。ここで、ｗは以下の記述にお
いても定数のような記載をしているが、一般にはｎの値
に応じて変化させ、区間長Ｌを超えない範囲で最大とな
るＦ／ｆ（ｎ）の整数倍の値に設定することが望まし
い。

【００２１】このような区間信号Ｘに対して、第ｎ番目
の標準周波数ｆ（ｎ）をもった正弦関数Ｒｎとの相関値
を求める原理を示す。両者の相関値Ａ（ｎ）は、図５の
第１の演算式によって定義することができる。ここで、
Ｘ（ｋ）は、図４に示すように、区間信号Ｘにおけるサ
ンプル番号ｋの振幅値であり、ｓｉｎ（２πｆ（ｎ）ｋ
／Ｆ）は、時間軸上での同位置における正弦関数Ｒｎの
振幅値である。この第１の演算式は、単位区間ｄ内の全
サンプル番号ｋ＝０〜ｗ−１の次元について、それぞれ
区間信号Ｘの振幅値と正弦関数Ｒｎの振幅ベクトルの内
積を求める式ということができる。

【００２２】同様に、図５の第２の演算式は、区間信号
Ｘと、第ｎ番目の標準周波数ｆ（ｎ）をもった余弦関数
との相関値を求める式であり、両者の相関値はＢ（ｎ）
で与えられる。なお、相関値Ａ（ｎ）を求めるための第
１の演算式も、相関値Ｂ（ｎ）を求めるための第２の演
算式も、最終的に２／ｗが乗ぜられているが、これは相
関値を規格化するためのものでり、前述のとおりｗはｎ
に依存して変化させるのが一般的であるため、この係数
もｎに依存する変数である。

【００２３】区間信号Ｘと標準周波数ｆ（ｎ）をもった
標準周期関数との相関実効値は、図５の第３の演算式に
示すように、正弦関数との相関値Ａ（ｎ）と余弦関数と
の相関値Ｂ（ｎ）との二乗和平方根値Ｅ（ｎ）によって
示すことができる。この相関実効値の大きな標準周期関
数の周波数を代表周波数として選出すれば、この代表周
波数を用いて区間信号Ｘを符号化することができる。

【００２４】すなわち、この相関値Ｅ（ｎ）が所定の基
準以上の大きさとなる１つまたは複数の標準周波数を代
表周波数として選出すれば良い。なお、ここで「相関値
Ｅ（ｎ）が所定の基準以上の大きさとなる」という選出
条件は、例えば、何らかの閾値を設定しておき、相関値
Ｅ（ｎ）がこの閾値を超えるような標準周波数ｆ（ｎ）
をすべて代表周波数として選出する、という絶対的な選
出条件を設定しても良いが、例えば、相関値Ｅ（ｎ）の
大きさの順にＱ番目までを選出する、というような相対
的な選出条件を設定しても良い。

【００２５】（一般化調和解析の手法）ここでは、音響
信号の符号化を行う際に有用な一般化調和解析の手法に
ついて説明する。既に説明したように、音響信号を符号
化する場合、個々の単位区間内の区間信号について、相
関値の高いいくつかの代表周波数を選出することにな
る。一般化調和解析は、より高い精度で代表周波数の選
出を可能にする手法であり、その基本原理は次の通りで
ある。

【００２６】図６（ａ）に示すような単位区間ｄについ
て、信号Ｓ（ｊ）なるものが存在するとする。ここで、
ｊは後述するように、繰り返し処理のためのパラメータ
である（ｊ＝１〜Ｊ）。まず、この信号Ｓ（ｊ）に対し
て、図２に示すような１２８通りの周期関数すべてにつ
いての相関値を求める。そして、最大の相関値が得られ
た１つの周期関数の周波数を代表周波数として選出し、
当該代表周波数をもった周期関数を要素関数として抽出
する。続いて、図６（ｂ）に示すような含有信号Ｇ
（ｊ）を定義する。この含有信号Ｇ（ｊ）は、抽出され
た要素関数に、その振幅として、当該要素関数の信号Ｓ
（ｊ）に対する相関値を乗じることにより得られる信号
である。例えば、周期関数として図２に示すように、一
対の正弦関数と余弦関数とを用い、周波数ｆ（ｎ）が代
表周波数として選出された場合、振幅Ａ（ｎ）をもった
正弦関数Ａ（ｎ）ｓｉｎ（２πｆ（ｎ）ｋ／Ｆ）と、振
幅Ｂ（ｎ）をもった余弦関数Ｂ（ｎ）ｃｏｓ（２πｆ
（ｎ）ｋ／Ｆ）との和からなる信号が含有信号Ｇ（ｊ）
ということになる（図６（ｂ）では、図示の便宜上、一
方の関数しか示していない）。ここで、Ａ（ｎ），Ｂ
（ｎ）は、図５の式で得られる規格化された相関値であ
るから、結局、含有信号Ｇ（ｊ）は、信号Ｓ（ｊ）内に
含まれている周波数ｆ（ｎ）をもった信号成分というこ
とができる。

【００２７】こうして、含有信号Ｇ（ｊ）が求まった
ら、信号Ｓ（ｊ）から含有信号Ｇ（ｊ）を減じることに
より、差分信号Ｓ（ｊ＋１）を求める。図６（ｃ）は、
このようにして求まった差分信号Ｓ（ｊ＋１）を示して
いる。この差分信号Ｓ（ｊ＋１）は、もとの信号Ｓ
（ｊ）の中から、周波数ｆ（ｎ）をもった信号成分を取
り去った残りの信号成分からなる信号ということができ
る。そこで、パラメータｊを１だけ増加させることによ
り、この差分信号Ｓ（ｊ＋１）を新たな信号Ｓ（ｊ）と
して取り扱い、同様の処理を、パラメータｊをｊ＝１〜
Ｊまで１ずつ増やしながらＪ回繰り返し実行すれば、Ｊ
個の代表周波数を選出することができる。

【００２８】このような相関計算の結果として出力され
るＪ個の含有信号Ｇ（１）〜Ｇ（Ｊ）は、もとの区間信
号Ｘの構成要素となる信号であり、もとの区間信号Ｘを
符号化する場合には、これらＪ個の含有信号の周波数を
示す情報および振幅（強度）を示す情報を符号データと
して用いるようにすれば良い。尚、Ｊは代表周波数の個
数であると説明してきたが、標準周波数ｆ（ｎ）の個数
と同一すなわちＪ＝１２８であってもよく、周波数スペ
クトルを求める目的においてはそのように行うのが通例
である。

【００２９】（本発明に係る音響情報再生方法）続いて
上記基本原理を利用した本発明に係る音響情報再生方法
について説明する。図７は本発明による音響情報再生方
法の概略を示すフローチャートである。図７に示すよう
に、まず、音色情報をサンプル波形データとして取り込
む（ステップＳ１）。具体的には、音声、楽器音、自然
音、生体音などを録音して得たアナログ音響信号をＰＣ
Ｍ等の手法によりデジタル化することによりサンプル波
形データを得る。

【００３０】次に、このサンプル波形データの符号化を
行って、サンプル波形データを表現する符号データであ
る音色データ部品を得る（ステップＳ２）。具体的に
は、上記（音響信号の符号化の基本原理）で説明したよ
うに、図１（ａ）に示したようなサンプル波形データに
対して複数の単位区間を設定し、各単位区間ごとに一般
化調和解析等の周波数解析を行って相関値の高いいくつ
かの周波数成分を抽出し、周波数に対応する音の高さ・
周波数の強度に対応する音の強さ・音の開始時刻・音の
終了時刻の４つの情報からなる符号コードを得る。この
とき、上述のように単位区間ごとに所定数の符号コード
が得られるので、１つのサンプル波形データは多数の符
号コードの集合で表現されることになる。上述のよう
に、この符号データはＭＩＤＩ形式のデータとすること
が音響情報を扱う上では好ましい。ステップＳ２のよう
な音色データ部品の準備処理は、さまざまな音色につい
て行われ、サウンドフォントとして用意される。

【００３１】音色データ部品の準備が完了したら、音色
データ部品の配置を指示する合成指示データの入力を行
う（ステップＳ３）。この合成指示データとしては、Ｍ
ＩＤＩ形式等の符号データを利用することができる。ま
た、ＭＩＤＩ形式の符号データに加えて、さらに、音色
データ部品のＩＤが時系列に配列された符号データを利
用することもできる。このような符号データは、例えば
ＭＩＤＩ形式の場合、直接ノートナンバー、ベロシテ
ィ、デルタタイムを指示入力することにより作成するこ
ともできるし、上記（音響信号の符号化の基本原理）で
説明した手法を用いて、音響信号を符号化することによ
り作成することもできる。

【００３２】次に、入力された合成指示データに基づい
て、音色データ部品を時系列に配置することによりコン
テンツ符号データを生成する（ステップＳ４）。コンテ
ンツ符号データの生成は、合成指示データが音色データ
部品のＩＤを含んでいるか否かによって、２通りの手法
がある。音色データ部品のＩＤを含まない合成指示デー
タの場合、外部からどの音色データ部品を使用するかを
指示することにより、同一の音色データ部品がコンテン
ツ符号データの全時刻に渡って使用される。この場合の
例としては、ある楽曲の全編に渡って「こまどりの声」
で唄わせたいような場合が挙げられる。音色データ部品
のＩＤを含む合成指示データの場合、そのＩＤに従って
対応する音色データ部品を抽出し、時系列に配置してい
く。この場合の例としては、文章を人の声で再現するよ
うな場合が挙げられる。

【００３３】ステップＳ４においては、抽出された音色
データ部品は、そのまま単純に時系列に配置されるので
はなく、各情報について補正が行われる。音の高さ情報
については、抽出された音色データ部品のノートナンバ
ーが指示された値になるように補正する。例えば合成指
示データ内のある指示情報のノートナンバーがＣ３であ
り、音色データ部品のノートナンバーがＣ２であったと
する。この場合、指示情報に従って音色データ部品のノ
ートナンバーを１半音分だけ上げることになる。実際に
は、音色データ部品のノートナンバーは、音色データ部
品を構成する各符号コードのノートナンバーの平均値で
あるので、各符号コードのノートナンバーを１半音分だ
け上げることにより対応する。音の長さ情報について
は、抽出された音色データ部品の長さが、指示情報の長
さになるように、音色データ部品を構成する各符号コー
ドの長さを補正する。音の強さ情報については、音色デ
ータ部品のベロシティが指示された値になるように補正
する。例えば、合成指示データ内の指示情報のベロシテ
ィが２０であり、音色データ部品のベロシティが１０で
あったとする。この場合、指示情報に従って音色データ
部品のベロシティを２倍にすることになる。実際には、
音色データ部品のベロシティは、音色データ部品を構成
する各符号コードのベロシティの平均値であるので、各
符号コードのベロシティを２倍にすることにより対応す
る。このようにして、抽出された音色データ部品は補正
されて配置されることになる。

【００３４】続いて、コンテンツ符号データを所定の音
源を用いて再生する（ステップＳ５）。上記のようにし
てステップＳ４の処理で得られたコンテンツ符号データ
は、音の高さ・長さ・強さ情報の集合で構成されてい
る。この符号データをＭＩＤＩデータで作成しておけ
ば、そのまま、ＭＩＤＩシーケンサ、ＭＩＤＩ音源で構
成されるＭＩＤＩデータ再生装置により再生することが
可能となる。従来、ＭＩＤＩ音源を用いて再生する場合
は、ＭＩＤＩ音源に記録された波形データのうち、どれ
を利用するかを指定して再生が行われていた。例えば、
「こまどりの声」で再生するのか、「人の声」で再生す
るのか、あるいは、「ピアノの音」で再生するのかによ
って、ＭＩＤＩ音源から抽出する波形データが異なって
いた。ところが、本発明では、「こまどりの声」である
のか、「人の声」であるのか、「ピアノの音」であるの
かは、音色データ部品で表現されているため、コンテン
ツ符号データには、その情報は既にある程度含まれてい
ることになる。そのため原理的には、ＭＩＤＩ音源から
は基本となる正弦波などの波形データを読み出せば良
く、ＭＩＤＩ音源には１つの波形データだけを用意して
おけば良いと考えられる。しかし、例えば「ピアノの
音」を正弦波を重ねて忠実に表現するとなると、１００
以上の波を合成する必要があり、通常３２から６４和音
程度に同時発音数の制約があるＭＩＤＩ音源では実現が
困難である。そこで、この場合も従来通り「こまどりの
声」で再生するのか、「人の声」で再生するのか、ある
いは、「ピアノの音」で再生するのかによって、ＭＩＤ
Ｉ音源から抽出する波形データは相応しい形態に変えた
方が現実的である。

【００３５】（コンテンツ符号データ生成の具体例）こ
こで、上記ステップＳ４におけるコンテンツ符号データ
生成の処理の具体例について説明する。まず、第１の例
として、音色データ部品として自然音を用いた場合につ
いて説明する。図８は、合成指示データの一例を示す図
である。合成指示データは、上述のように音色データ部
品の識別情報と、音の高さ・長さ・強さ情報を有してい
る。図８に示した合成指示データは、ＸＭＬ（eXtensib
le Markup Language）構造化文書形式で記述されたもの
であり、ＭＩＤＩデータが埋め込まれた形となってい
る。ＸＭＬは基本的に１対のタグで実データが囲まれる
ような形式となっている。図８において、先頭の１行目
と最終の２２行目の一対のタグにより、文書の開始と終
了が定義されている。２行目に記述された一対のタグ
は、ディスプレイなどに読み込んだファイル内容を表示
させるためのコメント文である。３行目に記述された一
対のタグは、ＭＩＤＩ規格準拠のイベントデータ（<eve
nt>タグで定義）に定義されている発音開始時刻および
発音終了時刻の時間の単位（１秒あたりの分解能）が定
義されている。すなわち、図８の例では１／６００秒単
位で定義できることを示している。４行目には、使用す
る音色データ部品（ここでは、ＭＩＤＩサウンドフォン
ト）を指定する１対のタグ、およびこの文書が有する音
符データに従って演奏するためのチャンネル（ＭＩＤＩ
規格により規定）を指定する１対のタグが記述されてい
る。５行目と２１行目の１対のタグは、ＭＩＤＩ規格の
イベントデータの開始と終了を示すものである。６行目
から２０行目には、１行につき２つのイベントデータが
記述されており、これらは音符の発音開始、発音終了を
それぞれ示している。例えば、６行目の左側のイベント
データ「０，９０，Ｅ３，６４」は、直前のイベント終
了時から時間差「０」で発音を開始し、その音名はＥ
３、ベロシティーは６４であることを示している。ま
た、６行目の右側のイベントデータ「３００，８０，Ｅ
３，０」は、直前のイベント終了時（この場合は発音開
始イベント）から時間差「３００」で音階Ｅ３の発音を
終了してベロシティを「０」にすることを示している。
なお、各イベントデータのうち２つ目はイベント種類を
示すものであり、「９０」は発音開始、「８０」は発音
終了を示している。同様にして６行目から２０行目まで
で１５個の音符が定義されている。この１５個の音符を
五線譜上に記すと図８の下部に示すようになる。

【００３６】続いて、図８に示したＸＭＬ形式の合成指
示データを用いてコンテンツ符号データを生成する処理
について説明する。図９は、コンテンツ符号データ生成
処理の様子を示す図であり、上段は音色データ部品（こ
まどりの声）、中段は合成指示データ、下段はコンテン
ツ符号データを示している。図９において、各データは
音符を表わす符号データの集合となっており、各音符は
下向きの三角形で表現されている。また、各音符は三角
形の上下方向の位置が音の高さを、三角形の上辺の長さ
が音の長さを、三角形の高さが音の強さをそれぞれ表わ
している。図９の中段の合成指示データは、図８の下部
にある音符を示している。図９中段の合成指示データ
に、図９上段の音色データ部品をあてはめていくと、図
９下段のようなコンテンツ符号データが得られることに
なる。元の合成指示データをＭＩＤＩデータで作成すれ
ば、そのままでも従来のようにＭＩＤＩ音源を利用して
再生することは可能であるが、このように、音色データ
部品を利用してコンテンツ符合データを生成すると、単
純なメロディーだけでなく、こまどりの声の特徴を含ん
だ符号データが得られることになる。

【００３７】次に、第２の例として、音色データ部品と
して心音を用いた場合について説明する。図１０は、音
色データ部品として心音を用いた場合の合成指示データ
の一例を示す図である。図１０に示した合成指示データ
も、ＸＭＬ構造化文書形式で記述されたものであり、Ｍ
ＩＤＩデータが埋め込まれた形となっている。図１０に
おいて、先頭の１行目と最終の２１行目の一対のタグに
より、文書の開始と終了が定義されている。２行目に記
述された一対のタグは、ＭＩＤＩ規格準拠のイベントデ
ータに定義されている発音開始時刻（<StartTime>タグ
で定義）および発音終了時刻（<EndTime>タグで定義）
の時間の単位（１秒あたりの分解能）が定義されてい
る。すなわち、図１０の例では１／２００秒単位で定義
できることを示している。３行目には、使用する音色デ
ータ部品群（ここでは、ＭＩＤＩサウンドフォント）を
指定する１対のタグが記述されている。４行目の<Heart
Cycle>タグは心音の一周期分のデータが以下記載されて
いることを示している。５行目から７行目は心音第Ｉ音
を記述したものであり、５行目と７行目の後半は、心音
第Ｉ音を示す１対のタグ、６行目と７行目の前半は、心
音をＭＩＤＩ規格に準拠して記述したものである。例え
ば、６行目の<StartTime>、<EndTime>はＭＩＤＩ規格で
はデルタタイムという相対時刻で表現されている時刻を
絶対時刻で記述しており、時刻「１０」から時刻「４
０」まで発音されることを示している。また、７行目の
<Pitch>はＭＩＤＩ規格のノートナンバーに対応してお
り、ノートナンバー「３０」に対応する音高で発音され
ることを示している。７行目の<Level>はＭＩＤＩ規格
のベロシティに対応しており、ベロシティ「６０」に対
応する音の強さで発音されることを示している。

【００３８】図１０に示した合成指示データは、図８に
示したものとは異なり、複数の音色データ部品を使用し
ている。この場合、「心音第Ｉ音」「心音第II音」「心
音第III・IV音」「クリック音」等をそれぞれ音色デー
タ部品として準備しておく。そして、図１０の合成指示
データにおける５、８、１１、１４、１７行目に示すよ
うなタグにより音色データ部品が特定されて、コンテン
ツ符号データが生成される。

【００３９】次に、第３の例として、音色データ部品と
して日本語の五十音を用いた場合について説明する。図
１１は、音色データ部品として日本語を用いた場合の合
成指示データの一例を示す図である。図１１に示した合
成指示データも、ＸＭＬ構造化文書形式で記述されたも
のであり、ＭＩＤＩデータが埋め込まれた形となってい
る。図１１において、先頭の１行目と最終の１０行目の
一対のタグにより、文書の開始と終了が定義されてい
る。１行目の後半はコメントとなっている。２行目に記
述された一対のタグは、ＭＩＤＩ規格準拠のイベントデ
ータに定義されている発音開始時刻および発音終了時刻
の時間の単位（１秒あたりの分解能）が定義されてい
る。すなわち、図１１の例では１／６００秒単位で定義
できることを示している。３行目には、使用する音色デ
ータ部品群（ここでは、日本女性のＭＩＤＩサウンドフ
ォント）を指定する１対のタグが記述されている。４行
目はコメント行である。５行目から９行目には、１行に
つき１つのイベントデータ（<TextEvent>タグで定義）
が記述されており、１行が五十音中の１音を表現してい
る。例えば、５行目のイベントデータでは<Text>タグが
音色データ部品の識別情報（ＩＤ）を示しており、
「こ」を指定している。５行目の<Duration>タグは、発
音の持続時間を定義している。また、<Note>タグは音名
を定義し、<Velocity>タグはＭＩＤＩ規格のベロシティ
を定義している。５行目から９行目のような定義が行わ
れることにより、「こ」「ん」「に」「ち」「わ」とい
う音が連続して発音されることになる。

【００４０】図１１に示した合成指示データは、図１０
に示したものと同様、複数の音色データ部品を使用して
いる。この場合、五十音の各音をそれぞれ音色データ部
品として準備しておく。そして、図１１の合成指示デー
タにおける５〜９行目に示すようなタグにより音色デー
タ部品が特定されて、コンテンツ符号データが生成され
る。図１２に、「こ」「ん」「に」「ち」「わ」各音の
音色データ部品を示す。図１２において、下向きの三角
形は図９と同様に符号コードを示しており、１つの音が
多数の符号コードで表現されていることを示している。

【００４１】（装置構成）次に、上記本発明による音響
情報再生方法を実行するための装置構成について説明す
る。図１３に、装置構成の一例を示す。図１３におい
て、１はデータ入力手段、２は音色データベース、３は
コンテンツ符号データ生成手段、４は再生手段、５はデ
ータ出力手段である。

【００４２】データ入力手段１は、図７に示したフロー
チャートのステップＳ３における合成指示データの入力
処理を行うためのものであり、コンピュータにデジタル
データを入力するための入力機器により実現される。音
色データベース２は、音色データ部品を記憶したデータ
ベースであり、コンピュータに接続されたハードディス
ク等の大容量記憶装置にて実現される。図７に示したフ
ローチャートのステップＳ１、Ｓ２により作成された音
色データ部品は、この音色データベース２に登録される
ことにより、準備が行われることになる。コンテンツ符
号データ生成手段３は、図７に示したフローチャートの
ステップＳ４における処理を実行するためのものであ
り、コンピュータに専用のプログラムを搭載することに
より実現される。データ入力手段１から合成指示データ
が入力されると、コンテンツ符号データ生成手段３は合
成指示データの内容に従って、音色データベース２から
対応する音色データ部品を読み出し、音の高さ・長さ・
強さ情報等の補正を行ってコンテンツ符号データを生成
する。再生手段４は、コンテンツ符号データ生成手段３
により生成されたコンテンツ符号データを音響信号とし
て再生するためのものであり、ＭＩＤＩシーケンサ、Ｍ
ＩＤＩ音源、オーディオ出力アンプ、スピーカ等を備え
た装置により実現される。データ出力手段５は、コンテ
ンツ符号データをデジタルデータとして出力するための
ものであり、ＣＤ−Ｒ等の記録媒体、あるいは通信回線
等により実現される。出力されたコンテンツ符号データ
は、音色の特徴を含んだ旋律データとして流通されるこ
とになる。

【００４３】コンテンツ符号データ生成手段３がコンテ
ンツ符号データをＸＭＬ形式で生成するようにした場合
は、データ出力手段５から出力されたコンテンツ符号デ
ータは、インターネット・ブラウザで閲覧できると共
に、ユーザ側においても専用プレイヤーソフトウェアと
ＭＩＤＩ音源を用いて音響信号として再生することがで
きる。具体的には、作成されたコンテンツ符号データを
ＷＷＷサーバに登録しておき、ユーザは自分のパソコン
でブラウザを起動してインターネットでＷＷＷサーバに
アクセスし、ＸＭＬ文書を得る。次に、ブラウザにプラ
グインされているＭＩＤＩシーケンサソフトが、ＸＭＬ
文書に記録されているＭＩＤＩデータに従ってＭＩＤＩ
音源を制御しながら、音響信号の再生を行なう。

【００４４】

【発明の効果】以上、説明したように本発明によれば、
音色情報をサンプル波形データとして取り込み、取り込
んだサンプル波形データに対して音の高さ・長さ・強さ
情報が時系列に定義された音色データ部品に変換するこ
とにより音色データ部品を準備し、準備された音色デー
タ部品を時系列に配置させるための合成指示データを入
力し、入力された合成指示データに基づいて音色データ
部品を時系列に配置して音の高さ・長さ・強さ情報が時
系列に表現されたコンテンツ符号データを生成し、生成
されたコンテンツ符号データを所定の音源を用いて再生
するようにしたので、コンテンツ符号データが音色情報
の特徴を含んでいることになり、再生時に使用する音源
に所望の音色が登録されておらず音源自体に表現する能
力がなくても、通常の音源に搭載されている類似した音
色を代用して使用するだけで、そのコンテンツに応じた
音色情報を再現することが可能となるという効果を奏す
る。

【図面の簡単な説明】

【図１】本発明の時系列信号解析装置における信号解析
の基本原理を示す図である。

【図２】本発明で利用される周期関数の一例を示す図で
ある。

【図３】図２に示す各周期関数の周波数とＭＩＤＩノー
トナンバーｎとの関係式を示す図である。

【図４】解析対象となる信号と周期信号との相関計算の
手法を示す図である。

【図５】図４に示す相関計算を行うための計算式を示す
図である。

【図６】一般化調和解析の基本的な手法を示す図であ
る。

【図７】本発明による音響情報再生方法の概略を示すフ
ローチャートである。

【図８】音色データ部品として自然音を利用した合成指
示データの一例を示す図である。

【図９】図８の合成指示データに従ったコンテンツ符号
データ生成処理の様子を示す図である。

【図１０】音色データ部品として心音を利用した合成指
示データの一例を示す図である。

【図１１】音色データ部品として日本語を利用した合成
指示データの一例を示す図である。

【図１２】日本語音色データ部品を構成する符号コード
群を示す図である。

【図１３】本発明による音響情報再生方法を実行するた
めの装置構成を示す機能ブロック図である。

【符号の説明】

１・・・データ入力手段２・・・コンテンツ符号データ生成手段３・・・音色データベース４・・・再生手段５・・・データ出力手段

Claims

【特許請求の範囲】

【請求項１】音色情報をサンプル波形データとして取り
込むためのサンプリング段階と、前記サンプル波形データに対して、音の高さ・長さ・強
さ情報が時系列に定義された音色データ部品に変換する
音色データ部品準備段階と、前記音色データ部品を時系列に配置させるための合成指
示データを入力する合成指示データ入力段階と、前記入力された合成指示データに基づいて前記音色デー
タ部品を時系列に配置し、音の高さ・長さ・強さ情報が
時系列に表現されたコンテンツ符号データを生成するコ
ンテンツ符号データ生成段階と、前記コンテンツ符号データを所定の音源を用いて再生す
るコンテンツ再生段階と、を有することを特徴とする音響情報再生方法。
【請求項２】前記合成指示データが参照する音色データ
部品の識別情報と音の高さ・長さ・強さ情報を有してお
り、前記コンテンツ符号データ生成段階は、配置する音
色データ部品が有する全ての音の高さ・長さ・強さ情報
に対して、前記合成指示データに含まれる音の高さ・長
さ・強さ情報に基づいて補正をかけるようにすることを
特徴とする請求項１に記載の音響情報再生方法。
【請求項３】前記音色データ部品、合成指示データ、コ
ンテンツ符号データに含まれる音の高さ・長さ・強さ情
報がＭＩＤＩデータで形成されており、前記コンテンツ
再生段階は、ＭＩＤＩシーケンサおよびＭＩＤＩ音源を
用いて実行されることを特徴とする請求項１または請求
項２に記載の音響情報再生方法。
【請求項４】前記音色データ部品、合成指示データ、コ
ンテンツ符号データがＸＭＬ構造化文書形式で表現され
ていることを特徴とする請求項１から請求項３のいずれ
かに記載の音響情報再生方法。