JP2003255930A

JP2003255930A - 音響信号の符号化方法

Info

Publication number: JP2003255930A
Application number: JP2002060815A
Authority: JP
Inventors: Toshio Motegi; 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2003-09-10
Anticipated expiration: 2022-03-06
Also published as: JP4156252B2

Abstract

(57)【要約】【課題】より高精度に、かつ、より少ない負荷によっ
て、複数の音色が混合された音響信号を複数の音色とし
て分離することが可能な音響信号の符号化方法を提供す
る。【解決手段】単一の音色を有する単一音色信号に対し
て周波数解析を行って開始時刻・終了時刻・周波数・強
度で構成される時系列の音素データを生成する（Ｓ
１）。各音素データの特徴を基に単位音色パラメータを
算出し（Ｓ２）、各音素データを時系列に連結（Ｓ３）
した連結音素データの特徴を基に連結音色パラメータを
算出する（Ｓ４）。これらの音色パラメータの値の出現
割合を音色管理テーブルに登録する（Ｓ５）。音響信号
に対しても同様に周波数解析を行って音色パラメータの
算出を行い（Ｓ６〜Ｓ９）、各音色パラメータの値で音
色管理テーブルを参照し、その値の出現割合が最も高い
音色グループに、その連結音素データを分類する（Ｓ１
０）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、放送メディア（ラジ
オ、テレビ）、通信メディア（ＣＳ映像・音声配信、イ
ンターネット音楽配信、通信カラオケ）、パッケージメ
ディア（ＣＤ、ＭＤ、カセット、ビデオ、ＬＤ、ＣＤ−
ＲＯＭ、ゲームカセット、携帯音楽プレーヤ向け固体メ
モリ媒体）などで提供する各種オーディオコンテンツの
制作、並びに、音楽演奏録音信号から楽譜出版、通信カ
ラオケ配信用ＭＩＤＩデータ、演奏ガイド機能付き電子
楽器向け自動演奏データ、携帯電話・ＰＨＳ・ポケベル
などの着信メロディデータを自動的に作成する自動採譜
技術に関する。

【０００２】

【従来の技術】音響信号に代表される時系列信号には、
その構成要素として複数の周期信号が含まれている。こ
のため、与えられた時系列信号にどのような周期信号が
含まれているかを解析する手法は、古くから知られてい
る。例えば、フーリエ解析は、与えられた時系列信号に
含まれる周波数成分を解析するための方法として広く利
用されている。

【０００３】このような時系列信号の解析方法を利用す
れば、音響信号を符号化することも可能である。コンピ
ュータの普及により、原音となるアナログ音響信号を所
定のサンプリング周波数でサンプリングし、各サンプリ
ング時の信号強度を量子化してデジタルデータとして取
り込むことが容易にできるようになってきており、こう
して取り込んだデジタルデータに対してフーリエ解析な
どの手法を適用し、原音信号に含まれていた周波数成分
を抽出すれば、各周波数成分を示す符号によって原音信
号の符号化が可能になる。

【０００４】一方、電子楽器による楽器音を符号化しよ
うという発想から生まれたＭＩＤＩ（Musical Instrume
nt Digital Interface）規格も、パーソナルコンピュー
タの普及とともに盛んに利用されるようになってきてい
る。このＭＩＤＩ規格による符号データ（以下、ＭＩＤ
Ｉデータという）は、基本的には、楽器のどの鍵盤キー
を、どの程度の強さで弾いたか、という楽器演奏の操作
を記述したデータであり、このＭＩＤＩデータ自身に
は、実際の音の波形は含まれていない。そのため、実際
の音を再生する場合には、楽器音の波形を記憶したＭＩ
ＤＩ音源が別途必要になるが、その符号化効率の高さが
注目を集めており、ＭＩＤＩ規格による符号化および復
号化の技術は、現在、パーソナルコンピュータを用いて
楽器演奏、楽器練習、作曲などを行うソフトウェアに広
く採り入れられている。

【０００５】そこで、音響信号に代表される時系列信号
に対して、所定の手法で解析を行うことにより、その構
成要素となる周期信号を抽出し、抽出した周期信号をＭ
ＩＤＩデータを用いて符号化しようとする提案がなされ
ている。例えば、特開平１０−２４７０９９号公報、特
開平１１−７３１９９号公報、特開平１１−７３２００
号公報、特開平１１−９５７５３号公報、特開２０００
−９９００９号公報、特開２０００−９９０９２号公
報、特開２０００−９９０９３号公報には、任意の時系
列信号について、構成要素となる周波数を解析し、その
解析結果からＭＩＤＩデータを作成することができる種
々の方法が提案されている。

【０００６】

【発明が解決しようとする課題】近年では、音響信号の
符号化に関する研究も進歩しており、複数の音色が混合
された音響信号を音色別に分離符号化する試みが行われ
ている。具体的には、２チャンネルステレオやマイクロ
フォンアレイを用いたマルチチャンネル入力信号に対し
て独立成分分析などを用いて解析する方法が一般的であ
る。しかし、記録されたレコード媒体では、ソースがモ
ノラルの場合が多く、ましてやマイクロフォンアレイな
ど多チャンネル信号が提供される場合は極めて異例であ
り現実的でない。そこで、モノラル信号にも適用できる
方法として、本出願人は以下のような手法を提案した。

【０００７】基本的には、上記各公報または明細書にお
いて提案してきたＭＩＤＩ符号化方式を利用したもので
あるが、特願２０００−３１９１７５号では周波数のゆ
らぎの度合い、特願２００１−３２１９６８号では倍音
分布度合い・デュレーション、特願２００１−８７５０
号ではレベル分布度合いをパラメータとして算出し、１
次元的な閾値処理でチャンネル分けを行う。これらによ
り、ピアノとボーカルなど代表的な２つの音源に分離す
ることは可能となるが、分けられるチャンネル数は２つ
だけであり、双方にまたがる音素は、いずれかに振り分
けられてしまうという問題がある。

【０００８】また、特願２００１−３５３７８号で提案
した音色管理データベースを用いる方法では、ピアノ・
ボーカルなど音色グループ別にスペクトログラムパター
ンのデータベースを構築し、解析された音素パターンと
マッチングを総当りで行い、照合率が高い音色グループ
を選択する方法をとっている。この方法では、データベ
ースを充実すれば、いくらでも多くの音色グループに分
離することが可能である。ただし、膨大な回数のマッチ
ング演算を実施しなければならず、非効率で所望の分離
精度を得るのは困難である。また、この方法でも、双方
のグループにまたがる音素はいずれかに振り分けられて
いた。

【０００９】さらに、本出願人は、特願２００２−９２
６３号において、複数の音色パラメータを用いて高精度
な音源分離を行うことができる手法を提案しているが、
複数の音色パラメータに対して分離を行うための閾値や
係数の設定は、依然として負荷のかかる処理となってい
る。

【００１０】上記のような点に鑑み、本発明は、より高
精度に、かつ、より少ない負荷によって、複数の音色が
混合された音響信号を複数の音色として分離することが
可能な音響信号の符号化方法を提供することを課題とす
る。

【００１１】

【課題を解決するための手段】上記課題を解決するた
め、本発明では、与えられた音響信号を複数のグループ
に分類された符号データとして符号化する方法として、
符号化対象とする音響信号に含まれている複数の音色成
分の各々に近い音色成分を単独にもつ単一音色信号を複
数個準備する単一音色信号準備段階、前記各単一音色信
号に対して周波数解析を施し、音色パラメータを１つ以
上備える複数の音素データに符号化する単一音色解析段
階、前記単一音色信号の全音素データにおける各音色パ
ラメータの値の出現頻度を算出して、前記単一音色信号
の音色グループ別に各音色パラメータの値の出現頻度が
記載された音色管理テーブルを作成する音色管理テーブ
ル作成段階、前記符号化対象とする音響信号に対して周
波数解析を施し、得られた音素データの音色パラメータ
に基づいて前記音色管理テーブルを参照し、出現頻度が
高い方の音色グループに前記音素データを分類する音素
分類段階を実行するようにしたことを特徴とする。本発
明によれば、単一の音色を有する単一音色信号の解析を
行って、その音色パラメータの値の組合せと音色グルー
プを対応付けた音色管理テーブルを作成しておき、符号
化対象とする音響信号の解析を行って、得られた連結音
素データの音色パラメータの組合せで音色管理テーブル
を参照して、各連結音素データを音色グループに分類す
るようにしたので、複数の音色が混合された音響信号
を、高精度に、かつ、少ない負荷によって、複数の音色
として分離することが可能となる。

【００１２】

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して詳細に説明する。（1.音響信号符号化方法の基本原理）はじめに、本発明
に係る音響信号の符号化方法の基本原理を述べておく。
この基本原理は、前掲の各公報あるいは明細書に開示さ
れているので、ここではその概要のみを簡単に述べるこ
とにする。

【００１３】図１（ａ）に示すように、時系列信号とし
てアナログ音響信号が与えられたものとする。図１の例
では、横軸に時間ｔ、縦軸に振幅（強度）をとって、こ
の音響信号を示している。ここでは、まずこのアナログ
音響信号を、デジタルの音響データとして取り込む処理
を行う。これは、従来の一般的なＰＣＭの手法を用い、
所定のサンプリング周波数でこのアナログ音響信号をサ
ンプリングし、振幅を所定の量子化ビット数を用いてデ
ジタルデータに変換する処理を行えば良い。ここでは、
説明の便宜上、ＰＣＭの手法でデジタル化した音響デー
タの波形も図１（ａ）のアナログ音響信号と同一の波形
で示すことにする。

【００１４】続いて、この解析対象となる音響信号の時
間軸上に、複数の単位区間を設定する。図１（ａ）に示
す例では、時間軸ｔ上に等間隔に６つの時刻ｔ１〜ｔ６
が定義され、これら各時刻を始点および終点とする５つ
の単位区間ｄ１〜ｄ５が設定されている。図１の例で
は、全て同一の区間長をもった単位区間が時間軸上で重
複せずに設定されているが、隣接する単位区間が時間軸
上で部分的に重なり合うような区間設定を行ってもかま
わない。

【００１５】こうして単位区間が設定されたら、各単位
区間ごとの音響信号（以下、区間信号と呼ぶことにす
る）について、それぞれ代表周波数を選出する。各区間
信号には、通常、様々な周波数成分が含まれているが、
例えば、その中で成分の強度割合の大きな周波数成分を
代表周波数として選出すれば良い。ここで、代表周波数
とはいわゆる基本周波数が一般的であるが、音声のフォ
ルマント周波数などの倍音周波数や、ノイズ音源のピー
ク周波数も代表周波数として扱うことがある。代表周波
数は１つだけ選出しても良いが、音響信号によっては複
数の代表周波数を選出した方が、より精度の高い符号化
が可能になる。図１（ｂ）には、個々の単位区間ごとに
それぞれ３つの代表周波数を選出し、１つの代表周波数
を１つの代表符号（図では便宜上、音符として示してあ
る）として符号化した例が示されている。ここでは、代
表符号（音符）を収容するために３つのトラックＴ１，
Ｔ２，Ｔ３が設けられているが、これは個々の単位区間
ごとに選出された３つずつの代表符号を、それぞれ異な
るトラックに収容するためである。

【００１６】例えば、単位区間ｄ１について選出された
代表符号ｎ（ｄ１，１），ｎ（ｄ１，２），ｎ（ｄ１，
３）は、それぞれトラックＴ１，Ｔ２，Ｔ３に収容され
ている。ここで、各符号ｎ（ｄ１，１），ｎ（ｄ１，
２），ｎ（ｄ１，３）は、ＭＩＤＩ符号におけるノート
ナンバーを示す符号である。ＭＩＤＩ符号におけるノー
トナンバーは、０〜１２７までの１２８通りの値をと
り、それぞれピアノの鍵盤の１つのキーを示すことにな
る。具体的には、例えば、代表周波数として４４０Ｈｚ
が選出された場合、この周波数はノートナンバーｎ＝６
９（ピアノの鍵盤中央の「ラ音（Ａ３音）」に対応）に
相当するので、代表符号としては、ｎ＝６９が選出され
ることになる。もっとも、図１（ｂ）は、上述の方法に
よって得られる代表符号を音符の形式で示した概念図で
あり、実際には、各音符にはそれぞれ強度に関するデー
タも付加されている。例えば、トラックＴ１には、ノー
トナンバーｎ（ｄ１，１），ｎ（ｄ２，１）・・・とい
う音高を示すデータとともに、ｅ（ｄ１，１），ｅ（ｄ
２，１）・・・という強度を示すデータが収容されるこ
とになる。この強度を示すデータは、各代表周波数の成
分が、元の区間信号にどの程度の度合いで含まれていた
かによって決定される。具体的には、各代表周波数をも
った周期関数の区間信号に対する相関値に基づいて強度
を示すデータが決定されることになる。また、図１
（ｂ）に示す概念図では、音符の横方向の位置によっ
て、個々の単位区間の時間軸上での位置が示されている
が、実際には、この時間軸上での位置を正確に数値とし
て示すデータが各音符に付加されていることになる。

【００１７】音響信号を符号化する形式としては、必ず
しもＭＩＤＩ形式を採用する必要はないが、この種の符
号化形式としてはＭＩＤＩ形式が最も普及しているた
め、実用上はＭＩＤＩ形式の符号データを用いるのが好
ましい。ＭＩＤＩ形式では、「ノートオン」データもし
くは「ノートオフ」データが、「デルタタイム」データ
を介在させながら存在する。「ノートオン」データは、
特定のノートナンバーＮとベロシティーＶを指定して特
定の音の演奏開始を指示するデータであり、「ノートオ
フ」データは、特定のノートナンバーＮとベロシティー
Ｖを指定して特定の音の演奏終了を指示するデータであ
る。また、「デルタタイム」データは、所定の時間間隔
を示すデータである。ベロシティーＶは、例えば、ピア
ノの鍵盤などを押し下げる速度（ノートオン時のベロシ
ティー）および鍵盤から指を離す速度（ノートオフ時の
ベロシティー）を示すパラメータであり、特定の音の演
奏開始操作もしくは演奏終了操作の強さを示すことにな
る。

【００１８】前述の方法では、第ｉ番目の単位区間ｄｉ
について、代表符号としてＪ個のノートナンバーｎ（ｄ
ｉ，１），ｎ（ｄｉ，２），・・・，ｎ（ｄｉ，Ｊ）が
得られ、このそれぞれについて強度ｅ（ｄｉ，１），ｅ
（ｄｉ，２），・・・，ｅ（ｄｉ，Ｊ）が得られる。そ
こで、次のような手法により、ＭＩＤＩ形式の符号デー
タを作成することができる。まず、「ノートオン」デー
タもしくは「ノートオフ」データの中で記述するノート
ナンバーＮとしては、得られたノートナンバーｎ（ｄ
ｉ，１），ｎ（ｄｉ，２），・・・，ｎ（ｄｉ，Ｊ）を
そのまま用いれば良い。一方、「ノートオン」データも
しくは「ノートオフ」データの中で記述するベロシティ
ーＶとしては、得られた強度ｅ（ｄｉ，１），ｅ（ｄ
ｉ，２），・・・，ｅ（ｄｉ，Ｊ）を所定の方法で規格
化した値を用いれば良い。また、「デルタタイム」デー
タは、各単位区間の長さに応じて設定すれば良い。な
お、ここでの説明においては、基本原理をわかりやすく
説明するために「トラック」という概念を用いて各符号
を振り分けるようにしたが、ＭＩＤＩ規格においては、
１つのチャンネルに複数の符号を記録するようにしてい
る。現在、ＭＩＤＩ規格では１つのチャンネルにつき１
６〜６４の音を同時に発音することが可能であるため、
トラックという概念はなく、図１に示した３つの符号は
１つのチャンネルに記録され、和音として発音されるよ
うになっている。この意味で、後述するチャンネルと上
述のトラックとは異なるものである。

【００１９】（2.周期関数との相関を求める具体的な方
法）上述した基本原理の基づく方法では、区間信号に対
して、１つまたは複数の代表周波数が選出され、この代
表周波数をもった周期信号によって、当該区間信号が表
現されることになる。ここで、選出される代表周波数
は、文字どおり、当該単位区間内の信号成分を代表する
周波数である。この代表周波数を選出する具体的な方法
には、後述するように、短時間フーリエ変換を利用する
方法と、一般化調和解析の手法を利用する方法とがあ
る。いずれの方法も、基本的な考え方は同じであり、あ
らかじめ周波数の異なる複数の周期関数を調和信号とし
て用意しておき、これら複数の周期関数の中から、当該
単位区間内の区間信号に対する相関が高い周期関数を見
つけ出し、この相関の高い周期関数の周波数を代表周波
数として選出する、という手法を採ることになる。すな
わち、代表周波数を選出する際には、あらかじめ用意さ
れた複数の周期関数と、単位区間内の区間信号との相関
を求める演算を行うことになる。そこで、ここでは、周
期関数との相関を求める具体的な方法を述べておく。

【００２０】複数の周期関数として、図２に示すような
三角関数が用意されているものとする。これらの三角関
数は、同一周波数をもった正弦関数と余弦関数との対か
ら構成されており、１２８通りの標準周波数ｆ（０）〜
ｆ（１２７）のそれぞれについて、正弦関数および余弦
関数の対が定義されていることになる。ここでは、同一
の周波数をもった正弦関数および余弦関数からなる一対
の関数を、当該周波数についての周期関数として定義す
ることにする。すなわち、ある特定の周波数についての
周期関数は、一対の正弦関数および余弦関数によって構
成されることになる。このように、一対の正弦関数と余
弦関数とにより周期関数を定義するのは、信号に対する
周期関数の相関値を求める際に、相関値が位相の影響を
受ける事を考慮するためである。なお、図２に示す各三
角関数内の変数Ｆおよびｋは、区間信号Ｘについてのサ
ンプリング周波数Ｆおよびサンプル番号ｋに相当する変
数である。例えば、周波数ｆ（０）についての正弦波
は、ｓｉｎ（２πｆ（０）ｋ／Ｆ）で示され、任意のサ
ンプル番号ｋを与えると、区間信号を構成する第ｋ番目
のサンプルと同一時間位置における周期関数の振幅値が
得られる。ここでは、１２８通りの標準周波数ｆ（０）
〜ｆ（１２７）を以下に示す〔数式１〕で定義する。

【００２１】〔数式１〕ｆ（ｎ）＝４４０×２^γ ⁽ⁿ⁾ γ（ｎ）＝（ｎ−６９）／１２ただし、ｎ＝０，１，２，・・・，１２７

【００２２】このような式によって標準周波数を定義し
ておくと、最終的にＭＩＤＩデータを用いた符号化を行
う際に便利である。なぜなら、このような定義によって
設定される１２８通りの標準周波数ｆ（０）〜ｆ（１２
７）は、等比級数をなす周波数値をとることになり、Ｍ
ＩＤＩデータで利用されるノートナンバーに対応した周
波数になるからである。したがって、図２に示す１２８
通りの標準周波数ｆ（０）〜ｆ（１２７）は、対数尺度
で示した周波数軸上に等間隔（ＭＩＤＩにおける半音単
位）に設定した周波数ということになる。このため、本
願では、図に掲載するグラフにおけるノートナンバー軸
を、いずれも対数尺度で示すことにする。

【００２３】（2.1.短時間フーリエ変換法）続いて、任
意の区間の区間信号に対する各周期関数の相関の求め方
について、具体的な説明を行う。例えば、図３に示すよ
うに、ある単位区間ｄについて区間信号Ｘが与えられて
いたとする。ここでは、区間長Ｌをもった単位区間ｄに
ついて、サンプリング周波数Ｆでサンプリングが行なわ
れており、全部でｗ個のサンプル値が得られているもの
とし、サンプル番号を図示のように、０，１，２，３，
・・・，ｋ，・・・，ｗ−２，ｗ−１とする（白丸で示
す第ｗ番目のサンプルは、右に隣接する次の単位区間の
先頭に含まれるサンプルとする）。この場合、任意のサ
ンプル番号ｋについては、Ｘ（ｋ）なる振幅値がデジタ
ルデータとして与えられていることになる。短時間フー
リエ変換においては、Ｘ（ｋ）に対して各サンプルごと
に中央の重みが１に近く、両端の重みが０に近くなるよ
うな窓関数Ｗ（ｋ）を乗ずることが通常である。すなわ
ち、Ｘ（ｋ）×Ｗ（ｋ）をＸ（ｋ）と扱って以下のよう
な相関計算を行うもので、窓関数の形状としては余弦波
形状のハミング窓が一般に用いられている。ここで、ｗ
は以下の記述においても定数のような記載をしている
が、一般にはｎの値に応じて変化させ、区間長Ｌを超え
ない範囲で最大となるＦ／ｆ（ｎ）の整数倍の値に設定
することが望ましい。

【００２４】このような区間信号Ｘに対して、第ｎ番目
の標準周波数ｆ（ｎ）をもった正弦関数Ｒｎとの相関値
を求める原理を示す。両者の相関値Ａ（ｎ）は、以下の
〔数式２〕によって定義することができる。

【００２５】〔数式２〕Ａ(ｎ)＝(２／ｗ)Σ_k=0,w-1ｘ(ｋ) sin(２πｆ_nｋ／Ｆ) Ｂ(ｎ)＝(２／ｗ)Σ_k=0,w-1ｘ(ｋ) cos(２πｆ_nｋ／Ｆ) ｛Ｅ(ｎ)｝²＝｛Ａ(ｎ)｝²＋｛Ｂ(ｎ)｝²

【００２６】上記〔数式２〕において、Ｘ（ｋ）は、図
３に示すように、区間信号Ｘにおけるサンプル番号ｋの
振幅値であり、ｓｉｎ（２πｆ_nｋ／Ｆ）は、時間軸上
での同位置における正弦関数Ｒｎの振幅値である。な
お、数式が繁雑になるのを避けるため、数式内ではｆ
（ｎ）をｆ_nと表現している。〔数式２〕の第１の演算
式は、単位区間ｄ内の全サンプル番号ｋ＝０〜ｗ−１の
次元について、それぞれ区間信号Ｘの振幅値と正弦関数
Ｒｎの振幅ベクトルの内積を求める式ということができ
る。

【００２７】同様に、上記〔数式２〕の第２の演算式
は、区間信号Ｘと、第ｎ番目の標準周波数ｆ（ｎ）をも
った余弦関数との相関値を求める式であり、両者の相関
値はＢ（ｎ）で与えられる。なお、相関値Ａ（ｎ）を求
めるための第１の演算式も、相関値Ｂ（ｎ）を求めるた
めの第２の演算式も、最終的に２／ｗが乗ぜられている
が、これは相関値を規格化するためのものでり、前述の
とおりｗはｎに依存して変化させるのが一般的であるた
め、この係数もｎに依存する変数である。

【００２８】区間信号Ｘと標準周波数ｆ（ｎ）をもった
標準周期関数との相関実効値は、上記〔数式２〕の第３
の演算式に示すように、正弦関数との相関値Ａ（ｎ）と
余弦関数との相関値Ｂ（ｎ）との二乗和平方根のうち、
正の値であるＥ（ｎ）によって示すことができる。この
相関実効値の大きな標準周期関数の周波数を代表周波数
として選出すれば、この代表周波数を用いて区間信号Ｘ
を符号化することができる。

【００２９】すなわち、この相関値Ｅ（ｎ）が所定の基
準以上の大きさとなる１つまたは複数の標準周波数を代
表周波数として選出すれば良い。なお、ここで「相関値
Ｅ（ｎ）が所定の基準以上の大きさとなる」という選出
条件は、例えば、何らかの閾値を設定しておき、相関値
Ｅ（ｎ）がこの閾値を超えるような標準周波数ｆ（ｎ）
をすべて代表周波数として選出する、という絶対的な選
出条件を設定しても良いが、例えば、相関値Ｅ（ｎ）の
大きさの順にＱ番目までを選出する、というような相対
的な選出条件を設定しても良い。

【００３０】（2.2.一般化調和解析の手法）ここでは、
本発明に係る音響信号の符号化を行う際に有用な一般化
調和解析の手法について説明する。既に説明したよう
に、音響信号を符号化する場合、個々の単位区間内の区
間信号について、相関値の高いいくつかの代表周波数を
選出することになる。一般化調和解析は、より高い精度
で代表周波数の選出を可能にする手法であり、その基本
原理は次の通りである。

【００３１】図４（ａ）に示すような単位区間ｄについ
て、信号Ｓ（ｊ）なるものが存在するとする。ここで、
ｊは後述するように、繰り返し処理のためのパラメータ
である（ｊ＝１〜Ｊ）。まず、この信号Ｓ（ｊ）に対し
て、図２に示すような１２８通りの周期関数すべてにつ
いての相関値を求める。そして、最大の相関値が得られ
た１つの周期関数の周波数を代表周波数として選出し、
当該代表周波数をもった周期関数を要素関数として抽出
する。続いて、図４（ｂ）に示すような含有信号Ｇ
（ｊ）を定義する。この含有信号Ｇ（ｊ）は、抽出され
た要素関数に、その振幅として、当該要素関数の信号Ｓ
（ｊ）に対する相関値を乗じることにより得られる信号
である。例えば、周期関数として図２に示すように、一
対の正弦関数と余弦関数とを用い、周波数ｆ（ｎ）が代
表周波数として選出された場合、振幅Ａ（ｎ）をもった
正弦関数Ａ（ｎ）ｓｉｎ（２πｆ_nｋ／Ｆ）と、振幅Ｂ
（ｎ）をもった余弦関数Ｂ（ｎ）ｃｏｓ（２πｆ_nｋ／
Ｆ）との和からなる信号が含有信号Ｇ（ｊ）ということ
になる（図４（ｂ）では、図示の便宜上、一方の関数し
か示していない）。ここで、Ａ（ｎ），Ｂ（ｎ）は、上
記〔数式２〕で得られる規格化された相関値であるか
ら、結局、含有信号Ｇ（ｊ）は、信号Ｓ（ｊ）内に含ま
れている周波数ｆ（ｎ）をもった信号成分ということが
できる。

【００３２】こうして、含有信号Ｇ（ｊ）が求まった
ら、信号Ｓ（ｊ）から含有信号Ｇ（ｊ）を減じることに
より、差分信号Ｓ（ｊ＋１）を求める。図４（ｃ）は、
このようにして求まった差分信号Ｓ（ｊ＋１）を示して
いる。この差分信号Ｓ（ｊ＋１）は、もとの信号Ｓ
（ｊ）の中から、周波数ｆ（ｎ）をもった信号成分を取
り去った残りの信号成分からなる信号ということができ
る。そこで、パラメータｊを１だけ増加させることによ
り、この差分信号Ｓ（ｊ＋１）を新たな信号Ｓ（ｊ）と
して取り扱い、同様の処理を、パラメータｊをｊ＝１〜
Ｊまで１ずつ増やしながらＪ回繰り返し実行すれば、Ｊ
個の代表周波数を選出することができる。

【００３３】このような相関計算の結果として出力され
るＪ個の含有信号Ｇ（１）〜Ｇ（Ｊ）は、もとの区間信
号Ｘの構成要素となる信号であり、もとの区間信号Ｘを
符号化する場合には、これらＪ個の含有信号の周波数を
示す情報および振幅（強度）を示す情報を符号データと
して用いるようにすれば良い。尚、Ｊは代表周波数の個
数であると説明してきたが、標準周波数ｆ（ｎ）の個数
と同一すなわちＪ＝１２８であってもよく、周波数スペ
クトルを求める目的においてはそのように行うのが通例
である。

【００３４】（2.3.相互相関テーブルを利用した手法）
設定された単位区間における区間信号と調和信号との相
関計算を行う手法としては、上記短時間フーリエ変換法
と、一般化調和解析を利用した手法が有名である。しか
し、短時間フーリエ変換法では周波数分解能が充分でな
く、短時間フーリエ変換法の問題点をこれを解決するた
めの一般化調和解析を利用した手法では、短時間フーリ
エ変換法に比べて、周期関数である調和信号との相関演
算回数が桁違いに多いため、計算負荷が大きいという問
題があった。そこで、本出願人は、特願２００２−９２
２３号において、相互相関テーブルを利用して周波数解
析を行う手法を提案した。この手法により、短時間フー
リエ変換法と同等な計算負荷で一般化調和解析と同等な
周波数分解能を実現することが可能であると共に、一般
化調和解析で問題になっていた、抽出される信号成分の
精度の向上を図ることが可能となる。この相互相関テー
ブルを利用した手法を次に説明する。

【００３５】まず、上記手法と同様に、複数の標準周波
数を設定し、各標準周波数に対応する標準周期関数を調
和信号として準備する。このとき設定される標準周波数
としては、周波数解析の特性に合わせて任意に設定する
ことができるが、音響信号の符号化に利用するために
は、図２および〔数式１〕に示したように、ＭＩＤＩ規
格のノートナンバーｎに対応させて設定することが好ま
しい。

【００３６】続いて、各調和信号同士の相関である相互
相関を全ての組合せに対して算出し、相互相関テーブル
を作成する。この際、周波数ｆ（ｍ）の調和信号の周波
数ｆ（ｎ）の調和信号に対する相互相関Ｒ(ｆ_m,ｆ_n)
は、以下の〔数式３〕により算出する。

【００３７】〔数式３〕Ａ(ｆ_m,ｆ_n)＝(２／Ｔ(ｎ))Σ_t=0,T(n)-1sin(２πｆ
_mｔ) sin(２πｆ_nｔ) Ｂ(ｆ_m,ｆ_n)＝(２／Ｔ(ｎ))Σ_t=0,T(n)-1sin(２πｆ
_mｔ) cos(２πｆ_nｔ) ｛Ｒ(ｆ_m,ｆ_n)｝²＝｛Ａ(ｆ_m,ｆ_n)｝²＋｛Ｂ(ｆ_m,
ｆ_n)｝²

【００３８】相互相関Ｒ(ｆ_m,ｆ_n)は、上記〔数式３〕
の第３式で算出される｛Ｒ(ｆ_m,ｆ_n)｝²のうちの正の平
方根として求められる。このとき、図２に示したように
ｍ、ｎがノートナンバーに対応している場合、相互相関
テーブルには、各ノートナンバーｍに対応する１２８個
のノートナンバーの相関値が記録され、全部で１２８×
１２８個の相関値が記録されることになる。

【００３９】相互相関テーブルの準備ができたら、解析
対象となる時系列信号の全区間に渡って単位区間を設定
し、設定された単位区間の時系列信号を区間信号として
抽出する。単位区間の設定は、図１（ａ）に示したよう
に、先行する単位区間の終点と後続する単位区間の始点
を同一とすることにより、両単位区間が重複しないよう
に設定しても良いし、両単位区間が互いに重複するよう
に設定しても良い。これは、解析対象となる時系列信号
の特性に応じて設定することができる。

【００４０】続いて、抽出した区間信号に対して、全調
和信号との相関計算を行う。例えば、図２に示したよう
なノートナンバーに対応して標準周波数を設定した場合
には、１２８個の調和信号との相関計算が行われる。こ
の段階での調和信号との相関計算は、短時間フーリエ変
換法により行われる。すなわち、区間信号のうち、先頭
から、相関計算を行う調和信号の周期の整数倍で単位区
間長を超えない部分と、調和信号との相関を算出する。
算出された相関値は、各単位区間ごとに用意される信号
相関配列に格納される。ここでは、短時間フーリエ変換
で相関計算を行うため、１つの区間信号に対しては、各
調和信号との相関計算が行われるのは、この１回だけと
なる。この段階での標準周波数ｆ（ｎ）の調和信号と、
区間信号ｘ（ｔ）との相関Ｐ(ｆ_n)は、以下の〔数式
４〕により算出される。

【００４１】〔数式４〕Ａ(ｆ_n)＝(２／Ｔ(ｎ))Σ_t=0,T(n)-1ｘ(ｔ) sin(２πｆ
_nｔ) Ｂ(ｆ_n)＝(２／Ｔ(ｎ))Σ_t=0,T(n)-1ｘ(ｔ) cos(２πｆ
_nｔ) ｛Ｐ(ｆ_n) ｝²＝｛Ａ(ｆ_n)｝²＋｛Ｂ(ｆ_n)｝²

【００４２】相関値Ｐ(ｆ_n)は、上記〔数式４〕の第３
式で算出される｛Ｐ(ｆ_n) ｝²のうちの正の平方根とし
て求められる。この〔数式４〕は、実質的には上記〔数
式２〕と同等の式であり、時刻ｔは、サンプリング番号
ｋおよびサンプリング周波数Ｆによりｋ／Ｆと置き替え
ることができ、相関計算時間Ｔ(ｎ)は相関計算サンプル
数ｗと置き替えることができる。

【００４３】信号相関配列が得られたら、配列中の各要
素である相関値を、相互相関テーブルを利用して補正す
る。具体的には、標準周波数ｆ（ｎ）との相関値Ｐ
(ｆ_n)の補正値Ｐ´(ｆ_n)は、標準周波数ｆ（ｍ）との相
関値Ｐ(ｆ_m)、標準周波数ｆ（ｍ）の標準周波数ｆ
（ｎ）に対する相互相関Ｒ(ｆ_m,ｆ_n)、標準周波数ｆ
（ｍ）の自己相関Ｒ(ｆ_m,ｆ_m)を用いて、以下の〔数式
５〕により算出される。

【００４４】〔数式５〕Ｐ´(ｆ_n)＝Ｐ(ｆ_n)−Σ_m=0,N-1Ｐ(ｆ_m) Ｒ(ｆ_m,ｆ_n)
／Ｒ(ｆ_m,ｆ_m)

【００４５】上記〔数式５〕により算出された補正値Ｐ
´(ｆ_n)は、相関配列中の標準周波数ｆ（ｎ）に対応す
る位置に格納され、以降は相関値Ｐ(ｆ_m)として他の補
正値Ｐ´(ｆ_n)の算出に利用される。このようにして、
設定された全標準周波数に対応する補正値Ｐ´(ｆ_n)を
算出する。このとき、ｎ＝０〜Ｎ−１のうち、どの相関
値Ｐ(ｆ_n)から補正していくかについては、基本的に
は、ステップＳ４における相関計算時の相関値の大きさ
の順に従う。こうしてＮ個の相関値が補正された信号相
関配列が得られる。ただし、この時点では配列内の要素
のうち、負の値になっているものがある場合がある。そ
の場合は、その値を０にすることにより、信号相関配列
の値が全て０または正の値となるようにし、これを補正
相関配列とする。このように補正相関配列の値を０以上
にするのは、相関値が負の値ということは基本的に有り
得ないので、現実的でない値を削除するためである。ま
た、負の値の要素を０にする処理を、信号相関配列中の
全ての要素が補正された後で行うのは、補正値Ｐ´
(ｆ_n)が負であった場合に、この補正値Ｐ´(ｆ_n)を〔数
式５〕に示したＰ(ｆ_m)として、他の補正値の算出に利
用するためである。これにより、補正値が負であった場
合は、〔数式５〕の右辺のΣによる総和が減少し、結果
として補正前の相関値Ｐ(ｆ_n)に増加されるようにな
る。本発明では、このようにして補正値が負であったと
しても、その値を変更せずにそのまま利用して他の要素
の補正値を求めるため、一般化調和解析のように、減算
する含有信号Ｇ（ｊ）の順番により差分信号Ｓ（ｊ＋
１）が変化し、得られる相関値が異なるということがな
い。そのため、短時間フーリエ変換時における各周波数
の相関値の大きさの順番に依存することなく、補正を行
うことが可能となる。

【００４６】上記相関演算、および相関補正を設定され
た全単位区間に対して行うことにより、全単位区間にお
けるＮ個の周波数成分が得られる。

【００４７】以上のような処理により、各単位区間につ
いて、各周波数に対する強度値の集合である周波数群が
得られることになる。このようにして所定数の周波数群
が選出されたら、この周波数群の各周波数に対応する
「音の高さを示す情報」、選出された各周波数の信号強
度に対応する「音の強さを示す情報」、当該単位区間の
始点に対応する「音の発音開始時刻を示す情報」、当該
単位区間に後続する単位区間の始点に対応する「音の発
音終了時刻を示す情報」、の４つの情報を含む符号デー
タ（これを音素データと呼ぶことにする）を作成すれ
ば、当該単位区間内の区間信号Ｘを所定数の符号データ
により符号化することができる。符号データとして、Ｍ
ＩＤＩデータを作成するのであれば、「音の高さを示す
情報」としてノートナンバーを用い、「音の強さを示す
情報」としてベロシティーを用い、「音の発音開始時刻
を示す情報」としてノートオン時刻を用い、「音の発音
終了時刻を示す情報」としてノートオフ時刻を用いるよ
うにすれば良い。

【００４８】（3.1.本発明に係る音響信号の符号化方
法）ここからは、本発明の音響信号符号化方法につい
て、図５に示すフローチャートを用いて説明する。ま
ず、単一の音色を有する音響信号（これを音色信号と呼
ぶことにする）に対して、上記1.基本原理および2.周期
関数との相関を求める具体的な方法の項で説明した手法
で音素データを生成する（ステップＳ１）。すなわち、
音色信号の時間軸上の全区間に渡って単位区間を設定
し、周波数解析を行って各周波数に対応する強度値を算
出し、周波数、強度値、単位区間の始点、後続する単位
区間の始点の４つの情報からなる音素データを生成す
る。

【００４９】音素データの生成は、具体的には、図２に
示したような１２８種の周期関数に対して区間信号の相
関強度を求め、その周期関数の周波数、求めた相関強
度、単位区間の始点、後続する単位区間の始点の４つの
情報を音素データと定義することにより行われる。ただ
し、本実施形態では、上記基本原理で説明した場合のよ
うに、代表周波数を選出するのではなく、用意した周期
関数全てに対応する音素データを取得する。このステッ
プＳ１の処理を全単位区間に対して行うことにより、音
素データ[ｍ，ｎ]（０≦ｍ≦Ｍ−１，０≦ｎ≦Ｎ−１）
群が得られる。ここで、Ｎは周期関数の総数（上述の例
ではＮ＝１２８）、Ｍは音響信号において設定された単
位区間の総数である。つまり、Ｍ×Ｎ個の音素データか
らなる音素データ群が得られることになる。

【００５０】続いて、得られた音素データの構成要素で
ある開始時刻・終了時刻・周波数・強度値を利用して単
位音色パラメータを算出する（ステップＳ２）。本実施
形態では、単位音色パラメータとして、ゆらぎ分布パラ
メータＰｙ・倍音分布パラメータＰｏを算出する。さら
に、音響信号としてステレオ信号を利用した場合には、
強度値（ベロシティ）を左右別に算出し、その比率を基
にステレオ定位パラメータＰｓを算出する。

【００５１】具体的には、ゆらぎ分布パラメータＰｙは
局所的な周波数のゆらぎの分布を示すパラメータであ
り、各ノートナンバーｎに対応するゆらぎ分布パラメー
タＰｙ（ｎ）は、以下の〔数式６〕により算出される。

【００５２】〔数式６〕Ｐｙ（ｎ）＝｛ V(n-1) + V(n+1) + 2V(n-2) + 2V(n+2)
｝×６／V(n)

【００５３】上記〔数式６〕に示すように、ゆらぎ分布
パラメータは各音素データ（ノートナンバーｎ）につい
て、自身よりも半音低い音（ノートナンバーｎ−１）、
半音高い音（ノートナンバーｎ＋１）、２半音低い音
（ノートナンバーｎ−２）、２半音高い音（ノートナン
バーｎ＋２）の強度値Ｖが自身に比べてどの程度の強さ
であるかを示すものである。このゆらぎ分布パラメータ
Ｐｙは、〔数式６〕では０から１１の範囲になるように
規格化されているため、Ｐｙが０に近いほど、ピアノ音
傾向が高く、Ｐｙが１１に近いほど、ボーカル音傾向が
高いということになる。

【００５４】また、倍音分布パラメータＰｏは、その単
位音素データが基本音であるか、他の単位音素データの
倍音であるかどうかを判定するための値である。具体的
には、以下の〔数式７〕を用いてノートナンバーｎに対
応する倍音分布パラメータＰｏ（ｎ）が算出される。

【００５５】〔数式７〕Ｐｏ（ｎ）＝｛６V(n)＋V(n+12) + V(n+19) + V(n+24)
+ V(n+28) + V(n+31) +V(n+34) + V(n+36) - V(n-12) -
V(n-19) - V(n-24) - V(n-28) - V(n-31) - V(n-34) -
V(n-36) ｝／V(n)

【００５６】上記〔数式７〕において、V(n)はノートナ
ンバーｎの強度値を示しており、 V(n+12) ,V(n+19) ,V
(n+24) ,V(n+28) ,V(n+31) ,V(n+34) ,V(n+36) はそれ
ぞれノートナンバーｎの音の２倍音、３倍音、４倍音、
５倍音、６倍音、７倍音、８倍音の強度値を、 V(n-12)
,V(n-19) ,V(n-24) ,V(n-28) ,V(n-31) ,V(n-34) ,V(n
-36) はそれぞれノートナンバーｎの音を２倍音、３倍
音、４倍音、５倍音、６倍音、７倍音、８倍音と仮定し
たときの基本音の強度値を示している。結局、上記〔数
式７〕で算出される倍音分布パラメータＰｏ（ｎ）は、
０から１１の範囲になるように規格化されており、自身
の整数倍の周波数の音が多く存在する場合、すなわち基
本音の場合には１１に近い値となり、自身の整数分の１
の周波数の音が多く存在する場合、すなわち倍音の場合
には０に近い値となる。

【００５７】音響信号としてステレオ信号を利用した場
合には、上記ステップＳ１において各チャンネルからの
信号について周波数解析を行って音素データを算出す
る。そのため、各チャンネルについてＭ×Ｎ個の音素デ
ータが得られることになるが、各単位区間の開始点・終
了点・周波数については、同一であるので両チャンネル
の音素データをまとめ、各音素データの強度値としてＬ
（左）チャンネルからの強度値とＲ（右）チャンネルか
らの強度値をそれぞれＶ_L 、Ｖ_Rとしてもつようにす
る。そして、ステップＳ２においては、単位音色パラメ
ータの１つとして、ステレオ定位パラメータＰｓを以下
の〔数式８〕により算出する。

【００５８】〔数式８〕Ｐｓ（ｎ）＝６−６［｛V_L(n) - V_R(n)｝／V_R(n) ］^1/2 ：V_L(n) ＞ V_R(n)のとき＝６＋６［｛V_R(n) - V_L(n)｝／V_L(n) ］^1/2 ：V_R(n) ＞ V_L(n)のとき＝６：V_R(n) ＝ V_L(n)のとき

【００５９】ステレオ定位パラメータＰｓは、〔数式
８〕で０から１１の範囲になるように規格化されてお
り、あるノートナンバーの音について、左右のチャンネ
ルの強度値が同一の場合に最大値６をとり、左チャンネ
ルの強度値が右チャンネルの強度値に比べて大きい程、
０に近い値をとり、右チャンネルの強度値が左チャンネ
ルの強度値に比べて大きい程、１１に近い値をとること
になる。一般に楽器音はボーカルに比べて、どちらかの
チャンネルに偏って記録されることが多いので、ステレ
オ定位パラメータＰｓの値が６から離れている場合に
は、楽器音であると判断することができる。

【００６０】単位音色パラメータが算出されたら、同一
周波数で時系列方向に連続する複数の音素データを１つ
の連結音素データとして連結する（ステップＳ３）。な
お、この処理を行うために、上記ステップＳ１またはス
テップＳ２の処理過程において、強度値が所定の基準に
達しない音素データについては、あらかじめ削除してお
く。この場合、所定の基準としては、音がノイズ等であ
って対象とする演奏録音信号ではないと判断される程度
の基準を設定する。図６は音素データの連結を説明する
ための概念図である。図６（ａ）は連結前の音素データ
群の様子を示す図である。図６（ａ）において、格子状
に仕切られた各矩形は音素データを示しており、網掛け
がされている矩形は、上記ステップＳ３において強度値
が所定の基準に達しないために削除された音素データで
あり、その他の矩形は有効な音素データを示す。ステッ
プＳ３においては、同一周波数（同一ノートナンバー）
で時間ｔ方向に連続する音素データを連結するため、図
６（ａ）に示す音素データ群に対して連結処理を実行す
ると、図６（ｂ）に示すような連結音素データ群が得ら
れる。例えば、図６（ａ）に示した音素データＡ１、Ａ
２、Ａ３は連結されて、図６（ｂ）に示すような連結音
素データＡが得られることになる。このとき、新たに得
られる連結音素データＡの周波数としては、音素データ
Ａ１、Ａ２、Ａ３に共通の周波数が与えられ、強度値と
しては、音素データＡ１、Ａ２、Ａ３の強度値のうち最
大のものが与えられ、開始時刻としては、先頭の音素デ
ータＡ１の区間開始時刻ｔ１が与えられ、終了時刻とし
ては、最後尾の音素データＡ３の区間終了時刻ｔ４が与
えられる。音素データ、連結音素データ共に、周波数
（ノートナンバー）、強度値、開始時刻、終了時刻の４
つの情報で構成されるため、３つの音素データが１つの
連結音素データに統合されることにより、データ量は３
分の１に削減される。このことは、最終的にＭＩＤＩ符
号化される場合には、短い音符３つではなく、長い音符
１つとして表現されることを意味している。

【００６１】さらに、ステップＳ３においては、連結の
元となった音素データのうち最大の強度値をもつ音素デ
ータの単位音色パラメータを、連結音素データの単位音
色パラメータとする。

【００６２】続いて、得られた連結音素データの構成要
素である開始時刻・終了時刻・周波数・強度値を利用し
て連結音色パラメータを算出する（ステップＳ４）。本
実施形態では、連結音色パラメータとして、レベル分布
パラメータＰｌを算出する。具体的には、各ノートナン
バーｎに対応するレベル分布パラメータＰｌ（ｎ）は時
系列方向の強度値の分布を示すパラメータであり、１つ
の連結音素データに連結される元の単位音素データのう
ち、先行する単位音素データの強度値をＶ_i、後続する
単位音素データの強度値をＶ_i+1とすると、以下の〔数
式９〕により算出される。

【００６３】〔数式９〕Ｐｌ（ｎ）＝３６×Σ_i=0,I｜Ｖ_i+1−Ｖ_i｜×（ｔ_i+1−
ｔ_i）／Ｖ_maxΣ_i=0,I（ｔ_i+1−ｔ_i）

【００６４】上記〔数式９〕において、Ｉは１つの連結
音素データに連結されることになった基の音素データの
個数から１つ減じたものであり、ｔ_iは各音素データの
始点の時刻を示している。また、Ｖ_maxは、Ｖ₀〜Ｖ_Iの
うち最大のものを示す。なお、先頭で３６を乗じている
のは、Ｐｌ（ｎ）の値を０から１１の範囲に規格化する
ためである。算出された連結音色パラメータは連結音素
データの１要素として開始時刻・終了時刻・周波数・強
度値・単位音色の各パラメータに加えて付与されること
になる。

【００６５】連結音色パラメータが算出されたら、各連
結音素データに付与された単位音色パラメータおよび連
結音色パラメータの値の出現頻度を算出し、算出された
出現頻度を記録した音色管理テーブルを作成する（ステ
ップＳ５）。具体的には、各単位音色パラメータおよび
連結音色パラメータの組合せが単一音色信号全体におけ
る全音素データに比較してどの程度の割合で出現するか
を算出する。ここで、ステップＳ５で作成される音色管
理テーブルの一例を図７に示す。図７の例では、音色パ
ラメータとして、ゆらぎ分布パラメータ、倍音分布パラ
メータ、レベル分布パラメータの３つを採用した場合を
示している。音色グループは、音色をグループ分けした
ものであり、例えば、ヴォーカルの音声を音色グループ
１、ピアノの音を音色グループ２、という具合に割り当
てることができる。ここで、ある単一音色信号を音色グ
ループ１として音色管理テーブルに登録する場合を考え
てみる。この場合、上記のようにステップＳ１〜ステッ
プＳ４の処理を行って連結音素データの集合が得られ、
各連結音素データには単位音色パラメータおよび連結音
色パラメータが付与されることになる。そして、この連
結音素データが有する音色パラメータの各組合せが、ど
の程度存在するかについての分布割合を以下の〔数式１
０〕により算出する。

【００６６】〔数式１０〕分布割合＝（該当する音色ハ゜ラメータの組合せをもつ連結音
素の強度×長さ）の総和／（全連結音素の強度×発音持
続時間）の総和

【００６７】図７の例では、上記〔数式１０〕で算出し
た割合に１００を乗じて％単位で記録している。なお、
本実施形態では、上述のように各音色パラメータが０〜
１１の整数値をとるようにしたため、各音色パラメータ
は１２個の値をとり得る。そのため、図７に示したよう
に３つの音色パラメータの組合せは１２³（＝１７２
８）通りとなる。他の単一音色を有する単一音色信号に
ついても同様に音色管理テーブルへの登録処理を行う。
図７の例では、２つの音色グループしか登録していない
が、多数の音色が混在した音響信号から音色を分離する
ためには、それに対応した多数の音色グループを登録し
ておくことが必要になる。なお、各音色グループについ
ては、１つの単一音色信号だけでなく、複数の単一音色
信号についての分布割合を順次蓄積していくことによ
り、より精度の高い分布割合を音色管理テーブルに蓄積
していくことができる。また、図７の例では、３つの音
色パラメータを採用しているが、これ以外にも、ステレ
オ定位パラメータ、周波数（ノートナンバー）、強度値
（ベロシティ）、発音持続時間（デュレーション：発音
終了時刻−発音開始時刻で算出）等のパラメータを採用
することもできる。

【００６８】以上のようにして音色管理テーブルが準備
できたら、次に、実際に符号化対象とする音響信号を読
込み、単位区間を設定し、各単位区間について周波数解
析を行って音素データを生成する（ステップＳ６）。ス
テップＳ６における音素データの生成処理は、上記ステ
ップＳ１において、単一音色信号に対して行う処理と同
様の処理である。次に、生成された音素データの開始時
刻・終了時刻・周波数・強度値を利用して単位音色パラ
メータを算出する（ステップＳ７）。単位音色パラメー
タが算出されたら、同一周波数で時系列方向に連続する
複数の音素データを１つの連結音素データとして連結す
る（ステップＳ８）。次に、得られた連結音素データの
構成要素である開始時刻・終了時刻・周波数・強度値を
利用して連結音色パラメータを算出する（ステップＳ
９）。符号化対象である音響信号に対するステップＳ７
〜ステップＳ９の処理も、上記単一音色信号に対して行
ったステップＳ２〜ステップＳ４の処理と同様の処理で
ある。

【００６９】連結音色パラメータが算出されたら、各連
結音素データに付与された単位音色パラメータおよび連
結音色パラメータの値の組合せにより、音色管理テーブ
ルを参照し、音色パラメータの組合せの分布割合が最も
高い音色グループに、その連結音素データを分類する
（ステップＳ１０）。例えば、音色パラメータとして、
ゆらぎ分布パラメータ、倍音分布パラメータ、レベル分
布パラメータの３つを利用し、音色グループとして、ヴ
ォーカル、ピアノ、バイオリンの３つが用意されている
場合を考えてみる。このとき、符号化対象である音響信
号から得られたある連結音素データのゆらぎ分布パラメ
ータが「２」、倍音分布パラメータが「３」、レベル分
布パラメータが「３」であったとする。この組合せで音
色管理パラメータを参照した際、図８に示すようにヴォ
ーカルが「２．２％」、ピアノが「８．６％」、バイオ
リンが「６．２％」であったとする。このとき、ゆらぎ
分布パラメータ、倍音分布パラメータ、レベル分布パラ
メータが「２」「３」「３」である組合せは、音色グル
ープの中ではピアノに最も多く出現することがわかる。
そのため、この連結音素データは、ピアノ音として分類
すべきと判断され、ピアノに対応するグループのＩＤが
付される。

【００７０】また、例えば、ゆらぎ分布パラメータが
「８」、倍音分布パラメータが「９」、レベル分布パラ
メータが「６」の連結音素データがあったとする。この
場合、図８に示した音色管理テーブルを参照すると、ヴ
ォーカルにおける出現割合が高いので、この連結音素デ
ータには、ヴォーカルに対応するグループのＩＤが付与
される。また、ゆらぎ分布パラメータが「１０」、倍音
分布パラメータが「６」、レベル分布パラメータが
「３」の連結音素データがあったとする。この場合、図
８に示した音色管理テーブルを参照すると、ピアノにお
ける出現割合が「７．３％」、バイオリンにおける出現
割合が「７．２％」でほぼ同じである。このような場合
は、その連結音素データは、ピアノとバイオリンの両方
のグループに分類される。すなわち、この時点では、そ
の連結音素データには、２つのグループのＩＤが付与さ
れることになる。出現割合がどの程度近似している場合
に、複数のグループに分類するかについては、適宜設定
することができる。なお、音色管理テーブルに登録する
ための単一音色信号のサンプルが少ない場合には、一度
も出現したことがない音色パラメータの組合せが存在す
る。その場合は、出現割合は、全ての音色グループにつ
いて０％となる。音響信号を符号化することにより得ら
れる連結音素データの音色パラメータの組合せが、全て
の音色グループで０％の場合には、全てのグループに分
類させる処理を行う。

【００７１】上述のように音響信号としては、広く普及
しているＭＩＤＩ規格に変換することが好ましい。この
場合、上記連結音素データはＭＩＤＩ符号データに変換
されることになるが、上記ステップＳ１０における複数
のグループへの分類をＭＩＤＩ符号データへの変換後に
行うようにしても良い。

【００７２】各連結音素データは、付与されたＩＤに従
って、複数の音色グループ（ＭＩＤＩの場合はチャンネ
ル）に分類されることになる。上述の例のように既にＭ
ＩＤＩに変換されている場合には、設定されたチャンネ
ルに記録されることになる。そして、各チャンネルには
ＭＩＤＩ音源で適切な音色で再生されるように、ＭＩＤ
Ｉ規格に基づいたプログラム番号、バンク番号といった
音色指示情報が付加されることになる。各連結音素デー
タは、各グループごとに設定された音色パラメータに基
づいて分類されるため、複数のグループに分類される場
合もあり、従来のように、１つの連結音素データが必ず
どれか１つのグループだけに分類されるということはな
くなる。

【００７３】以上、本発明の好適な実施形態について説
明したが、上記符号化方法は、コンピュータ等で実行さ
れることは当然である。具体的には、図５のフローチャ
ートに示したようなステップを上記手順で実行するため
のプログラムをコンピュータに搭載しておく。そして、
単一音色信号、音響信号をＰＣＭ方式等でデジタル化し
た後、コンピュータに取り込み、ステップＳ１〜ステッ
プＳ５の処理およびステップＳ６〜ステップＳ１０の処
理を行った後、音色管理テーブルへの登録、もしくは音
色ごとに複数のチャンネルに分類されたＭＩＤＩ形式等
の符号データをコンピュータより出力する。出力された
符号データは、例えば、ＭＩＤＩデータの場合、ＭＩＤ
Ｉシーケンサ、ＭＩＤＩ音源を用いて音響信号として再
生される。

【００７４】

【発明の効果】以上、説明したように本発明によれば、
符号化対象とする音響信号に含まれている複数の音色成
分の各々に近い音色成分を単独にもつ単一音色信号を複
数個準備し、各単一音色信号に対して周波数解析を施し
て音色パラメータを１つ以上備える複数の音素データに
符号化し、単一音色信号の全音素データにおける各音色
パラメータの値の出現頻度を算出して単一音色信号の音
色グループ別に各音色パラメータの値の出現頻度が記載
された音色管理テーブルを作成しておき、符号化対象と
する音響信号に対して周波数解析を施し、得られた音素
データの音色パラメータに基づいて音色管理テーブルを
参照し、出現頻度が高い方の音色グループに音素データ
を分類するようにしたので、複数の音色が混合された音
響信号を、高精度に、かつ、少ない負荷によって、複数
の音色として分離することが可能となるという効果を奏
する。

【図面の簡単な説明】

【図１】本発明の音響信号の符号化方法の基本原理を示
す図である。

【図２】本発明で利用される周期関数の一例を示す図で
ある。

【図３】解析対象となる信号と周期信号との相関計算の
手法を示す図である。

【図４】一般化調和解析の基本的な手法を示す図であ
る。

【図５】本発明に係る音響信号の符号化方法の概要を示
すフローチャートである。

【図６】音素データの連結を説明するための概念図であ
る。

【図７】音色管理テーブルの一例を示す図である。

【図８】具体的な音色グループを設定した場合の音色管
理テーブルを示す図である。

【符号の説明】

Ａ１〜Ａ３・・・音素データＡ・・・連結音素データｄ，ｄ１〜ｄ５・・・単位区間Ｇ（ｊ）・・・含有信号ｎ・・・ノートナンバーＳ（ｊ），Ｓ（ｊ＋１）・・・差分信号Ｘ，Ｘ（ｋ）・・・区間信号

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 19/02 Ｈ０３Ｍ 7/30 ＡＨ０３Ｍ 7/30 Ｇ１０Ｌ 7/04 Ｆ

Claims

【特許請求の範囲】

【請求項１】与えられた音響信号を複数のグループに分
類された符号データとして符号化する方法であって、符号化対象とする音響信号に含まれている複数の音色成
分の各々に近い音色成分を単独にもつ単一音色信号を複
数個準備する単一音色信号準備段階と、前記各単一音色信号に対して周波数解析を施し、音色パ
ラメータを１つ以上備える複数の音素データに符号化す
る単一音色解析段階と、前記単一音色信号の全音素データにおける各音色パラメ
ータの値の出現頻度を算出して、前記単一音色信号の音
色グループ別に各音色パラメータの値の出現頻度が記載
された音色管理テーブルを作成する音色管理テーブル作
成段階と、前記符号化対象とする音響信号に対して周波数解析を施
し、得られた音素データの音色パラメータに基づいて前
記音色管理テーブルを参照し、出現頻度が高い方の音色
グループに前記音素データを分類する音素分類段階と、を有することを特徴とする音響信号の符号化方法。
【請求項２】前記単一音色解析段階および音素分類段階
における周波数解析は、前記単一音色信号もしくは前記音響信号に対して、開始
時刻、終了時刻、周波数および強度値で構成される時系
列の音素データを生成する音素データ生成段階と、前記各音素データに対して、同一開始時刻および同一終
了時刻で周波数が異なる他の音素データの分布状態を基
に１つまたは複数の単位音色パラメータを算出し、前記
各音素データに付与する単位音色パラメータ算出段階
と、を有することを特徴とする請求項１に記載の音響信号の
符号化方法。
【請求項３】前記単一音色解析段階および音素分類段階
における周波数解析は、前記音素データ生成段階により得られた各音素データの
なかで先行する音素データである先行音素の周波数と、
時間的に後続する音素データである後続音素の周波数が
類似していて、先行音素の終了時刻と後続音素の開始時
刻が類似している場合、先行音素と後続音素を１つの連
結音素データに連結させ、先行音素の開始時刻、後続音
素の終了時刻、および周波数、強度値として先行音素ま
たは後続音素のどちらかの要素を代表値として与える音
素連結段階と、前記各連結音素データに対して、構成される複数の音素
データの周波数、強度値などの分布状態を基に１つまた
は複数の連結音色パラメータを算出し、前記各連結音素
データに付与する連結音色パラメータ算出段階と、を有することを特徴とする請求項２に記載の音響信号の
符号化方法。
【請求項４】前記音色管理テーブルにおける音色パラメ
ータの値の出現頻度は、各音素データの評価値を（終了
時刻−開始時刻）×強度値と定義し、当該音色パラメー
タの値をもつ音素データの評価値の総和を全音素データ
の評価値の総和で除した割合で与えられるものであるこ
とを特徴とする請求項２または請求項３に記載の音響信
号の符号化方法。
【請求項５】前記音素分類段階において参照する前記音
色管理テーブルの当該音色パラメータの値の出現頻度が
音色グループの違いにより顕著な差がない場合、当該音
素データを双方の音色グループに分類するものであるこ
とを特徴とする請求項１に記載の音響信号の符号化方
法。
【請求項６】前記単位音色パラメータ算出段階が、同一
開始時刻および同一終了時刻で周波数が近傍である音素
データの強度値分布を基に、前記単位音色パラメータを
算出するものであることを特徴とする請求項２に記載の
音響信号の符号化方法。
【請求項７】前記単位音色パラメータ算出段階が、同一
開始時刻および同一終了時刻で周波数が整数倍または整
数分の１になる音素データの強度値分布を基に、前記単
位音色パラメータを算出するものであることを特徴とす
る請求項２に記載の音響信号の符号化方法。
【請求項８】前記連結音色パラメータ算出段階が、１つ
の連結音素データを構成する複数の音素データのうち時
間的に隣接する音素データの開始時刻の間隔に対する強
度値変化分の比率の分布状態を基に連結音色パラメータ
を算出するものであることを特徴とする請求項３に記載
の音響信号の符号化方法。