JP4331289B2

JP4331289B2 - 音響信号の符号化方法

Info

Publication number: JP4331289B2
Application number: JP28345498A
Authority: JP
Inventors: 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 1998-09-18
Filing date: 1998-09-18
Publication date: 2009-09-16
Anticipated expiration: 2018-09-18
Also published as: JP2000099093A

Description

【０００１】
【発明の属する技術分野】
本発明は音響信号の符号化方法に関し、時系列の強度信号として与えられる音響信号を符号化し、これを復号化して再生する技術に関する。特に、本発明はヴォーカル音響信号（人の話声，歌声の信号）を、ＭＩＤＩ形式の符号データに効率良く変換する処理に適しており、音声を記録する種々の産業分野への応用が期待される。
【０００２】
【従来の技術】
音響信号を符号化する技術として、ＰＣＭ（Pulse Code Modulation ）の手法は最も普及している手法であり、現在、オーディオＣＤやＤＡＴなどの記録方式として広く利用されている。このＰＣＭの手法の基本原理は、アナログ音響信号を所定のサンプリング周波数でサンプリングし、各サンプリング時の信号強度を量子化してデジタルデータとして表現する点にあり、サンプリング周波数や量子化ビット数を高くすればするほど、原音を忠実に再生することが可能になる。ただ、サンプリング周波数や量子化ビット数を高くすればするほど、必要な情報量も増えることになる。そこで、できるだけ情報量を低減するための手法として、信号の変化差分のみを符号化するＡＤＰＣＭ（Adaptive Differential Pulse Code Modulation ）の手法も用いられている。
【０００３】
一方、電子楽器による楽器音を符号化しようという発想から生まれたＭＩＤＩ（Musical Instrument Digital Interface）規格も、パーソナルコンピュータの普及とともに盛んに利用されるようになってきている。このＭＩＤＩ規格による符号データ（以下、ＭＩＤＩデータという）は、基本的には、楽器のどの鍵盤キーを、どの程度の強さで弾いたか、という楽器演奏の操作を記述したデータであり、このＭＩＤＩデータ自身には、実際の音の波形は含まれていない。そのため、実際の音を再生する場合には、楽器音の波形を記憶したＭＩＤＩ音源が別途必要になる。しかしながら、上述したＰＣＭの手法で音を記録する場合に比べて、情報量が極めて少なくてすむという特徴を有し、その符号化効率の高さが注目を集めている。このＭＩＤＩ規格による符号化および復号化の技術は、現在、パーソナルコンピュータを用いて楽器演奏、楽器練習、作曲などを行うソフトウエアに広く採り入れられており、カラオケ、ゲームの効果音といった分野でも広く利用されている。
【０００４】
【発明が解決しようとする課題】
上述したように、ＰＣＭの手法により音響信号を符号化する場合、十分な音質を確保しようとすれば情報量が膨大になり、データ処理の負担が重くならざるを得ない。したがって、通常は、ある程度の情報量に抑えるため、ある程度の音質に妥協せざるを得ない。もちろん、ＭＩＤＩ規格による符号化の手法を採れば、非常に少ない情報量で十分な音質をもった音の再生が可能であるが、上述したように、ＭＩＤＩ規格そのものが、もともと楽器演奏の操作を符号化するためのものであるため、広く一般音響への適用を行うことはできない。別言すれば、ＭＩＤＩデータを作成するためには、実際に楽器を演奏するか、あるいは、楽譜の情報を用意する必要がある。
【０００５】
このように、従来用いられているＰＣＭの手法にしても、ＭＩＤＩの手法にしても、それぞれ音響信号の符号化方法としては一長一短があり、一般の音響について、少ない情報量で十分な音質を確保することはできない。ところが、一般の音響についても効率的な符号化を行いたいという要望は、益々強くなってきている。いわゆるヴォーカル音響と呼ばれる人間の話声や歌声を取り扱う分野では、かねてからこのような要望が強く出されている。たとえば、語学教育、声楽教育、犯罪捜査などの分野では、ヴォーカル音響信号を効率的に符号化する技術が切望されている。ところが、ヴォーカル音響には、基本周波数のほか、その倍音となる高調波成分の分布として特徴的なフォルマント特性が現れることが知られており、更に、声帯の基本周波数に相当する有声音の成分が重畳することによりスペクトルに微細構造が生じるという特徴があるため、これまでの技術では効率的な符号化を行うことはできなかった。
【０００６】
そこで本発明は、人の声音や歌声を含む音響信号に対して効率的な符号化を行うことができる音響信号の符号化方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
(1) 本発明の第１の態様は、時系列の強度信号として与えられる音響信号を符号化するための音響信号の符号化方法において、
符号化対象となる音響信号を所定のサンプリング周期でサンプリングしてデジタル音響データとして取り込むデータ取込段階と、
デジタル音響データの各サンプルが配置された時間軸上に、それぞれＬ個分のサンプルを含む区間長をもった複数の単位区間を、ΔＬ個分（ΔＬ＜Ｌ）のサンプルだけずらして設定し、隣接する単位区間が時間軸上で（Ｌ−ΔＬ）個分のサンプルだけ重複するようにする区間設定段階と、
単位区間の中心位置から両端位置に向かって減少し、かつ、ΔＬ個分のサンプルに対応する半値幅をもつ重み関数を定義し、個々の単位区間ごとに、当該単位区間内のサンプルの値に前記重み関数を乗じる処理を行った後にフーリエ変換を行い、音響信号に含まれる周波数成分を第１の軸に、各周波数成分ごとの強度を第２の軸にとったスペクトルを作成するスペクトル作成段階と、
所定のしきい値を設定し、スペクトルのうち強度がしきい値以上となる一連の連続部分を１つのフォルマントとして認識し、各フォルマントにおける最大強度を示す周波数を当該フォルマントを代表する代表周波数として抽出する代表周波数抽出段階と、
抽出した代表周波数に対応した符号コードとして、ＭＩＤＩ規格に基づくＭＩＤＩデータで利用されるノートナンバーを用い、個々の単位区間の音響信号を、符号コードとして定義されたノートナンバーと、このノートナンバーに対応する周波数成分の強度に基いて決定されたベロシティーと、当該単位区間の長さに基いて決定されたデルタタイムと、を示すデータからなるＭＩＤＩ形式の符号データによって表現する符号化段階と、
を行うようにしたものである。
【０００８】
(2) 本発明の第２の態様は、上述の第１の態様に係る音響信号の符号化方法において、
符号化段階で、１つの単位区間をＰ個の代表周波数によって表現するという条件を設定し、個々の単位区間の音響信号を符号化する際に強度の大きい順にＰ個の代表周波数を選択し、選択された代表周波数についてのみＭＩＤＩ形式の符号データに符号化するようにしたものである。
【０００９】
(3) 本発明の第３の態様は、上述の第１または第２の態様に係る音響信号の符号化方法において、
スペクトル作成段階で、
α＝Ｌ／２−ΔＬ／２
β＝Ｌ／２＋ΔＬ／２
なるα，βを定め、区間［α，β］で表される中央近傍区間（単位区間の中央位置に定義された幅ΔＬの区間）を定義し、第ｋ番目（１≦ｋ≦Ｌ）のサンプルの値に対して、
ｋ＝１〜αのとき
Ｈ（ｋ）＝０．５−０．５＊ｃｏｓ（πｋ／２α）
ｋ＝α〜βのとき
Ｈ（ｋ）＝０．５−０．５
＊ｃｏｓ（π（ｋ−α）／ΔＬ＋π／２）
ｋ＝β〜Ｌのとき
Ｈ（ｋ）＝０．５−０．５
＊ｃｏｓ（π（ｋ−β）／２α＋３π／２）
なる窓関数Ｈ（ｋ）を重み関数として乗じるようにしたものである。
【００１０】
(4) 本発明の第４の態様は、上述の第１〜第３の態様に係る音響信号の符号化方法を実行する音響信号の符号化のためのプログラムを、コンピュータ読み取り可能な記録媒体に記録するようにしたものである。
【００１４】
【発明の実施の形態】
以下、本発明を図示する実施形態に基づいて説明する。
【００１５】
§１．本発明に係る音響信号の符号化方法の基本原理
はじめに、本発明に係る音響信号の符号化方法の基本原理を図１を参照しながら説明する。いま、図１(a) に示すように、時系列の強度信号としてアナログ音響信号が与えられたものとしよう。図示の例では、横軸に時間ｔ、縦軸に振幅（強度）をとってこの音響信号を示している。ここでは、まずこのアナログ音響信号を、デジタルの音響データとして取り込む処理を行う。これは、従来の一般的なＰＣＭの手法を用い、所定のサンプリング周期でこのアナログ音響信号をサンプリングし、振幅を所定の量子化ビット数を用いてデジタルデータに変換する処理を行えばよい。ここでは、説明の便宜上、ＰＣＭの手法でデジタル化した音響データの波形も、図１(a) のアナログ音響信号と同一の波形で示すことにする。
【００１６】
続いて、この符号化対象となる音響信号の時間軸上に、複数の単位区間を設定する。図１(a) に示す例では、時間軸ｔ上に等間隔に６つの時刻ｔ１〜ｔ６が定義され、これら各時刻を始点および終点とする５つの単位区間ｄ１〜ｄ５が設定されている（より実用的な区間設定方法については後述する）。
【００１７】
こうして単位区間が設定されたら、各単位区間ごとの音響信号に対してそれぞれフーリエ変換を行い、スペクトルを作成する。このとき、ハニング窓（Hanning Window )など周知の窓関数で切り出した音響信号にフィルタをかけてフーリエ変換を施すことが望ましい。一般にフーリエ変換は、切り出した区間前後に同様な信号が無限に存在することが想定されているため、矩形窓（窓なし）の場合、作成したスペクトルに高周波ノイズがのることが多い。このような場合、ハニング窓など区間の両端の重みが０になるような関数を用いるのが望ましい。ハニング窓関数Ｈ（ｋ）は、単位区間長をＬとすると、ｋ＝１…Ｌに対して、
Ｈ（ｋ）＝０．５−０．５＊ｃｏｓ（２πｋ／Ｌ）
で与えられる関数である。
【００１８】
図１(b) には、単位区間ｄ１について作成されたスペクトルの一例が示されている。このスペクトルでは、横軸上に定義された周波数ｆによって、単位区間ｄ１内の音響信号に含まれる周波数成分（０〜Ｆｓ：ここでＦｓはサンプリング周波数）が示されており、縦軸上に定義された複素強度Ａによって、各周波数成分ごとの複素強度が示されている。なお、このようなスペクトルを得る手法としては、フーリエ変換の他にも種々の手法が知られており、どのような手法を利用してもかまわない。また、アナログ音響信号から直接的にスペクトルを作成する手法を用いれば、音響信号をＰＣＭの手法でデジタル化する必要はない。
【００１９】
次に、このスペクトルの周波数軸ｆに対応させて、離散的に複数Ｑ個の符号コードを定義する。この例では、符号コードとしてＭＩＤＩデータで利用されるノートナンバーＮを用いており、Ｎ＝０〜１２７までの１２８個の符号コードを定義している。ノートナンバーＮは、音符の音階を示すパラメータであり、たとえば、ノートナンバーＮ＝６９は、ピアノの鍵盤中央の「ラ音（Ａ３音）」を示しており、４４０Ｈｚの音に相当する。このように、１２８個のノートナンバーには、いずれも所定の周波数が対応づけられるので、スペクトルの周波数軸ｆ上の所定位置に、それぞれ１２８個のノートナンバーＮが離散的に定義されることになる。
【００２０】
ここで、ノートナンバーＮは、１オクターブ上がると、周波数が２倍になる対数尺度の音階を示すため、周波数軸ｆに対して線形には対応しない。そこで、周波数軸ｆを対数尺度で表し、この対数尺度軸上にノートナンバーＮを定義した強度グラフを作成する。図１(c) は、このようにして作成された単位区間ｄ１についての強度グラフを示す。この強度グラフの横軸は、図１(b) に示すスペクトログラムの横軸を対数尺度に変換したものであり、ノートナンバーＮ＝０〜１２７が等間隔にプロットされている。一方、この強度グラフの縦軸は、図１(b) に示すスペクトルの複素強度Ａを実効強度Ｅに変換したものであり、各ノートナンバーＮの位置における強度を示している。一般に、フーリエ変換によって得られる複素強度Ａは、実数部Ｒと虚数部Ｉとによって表されるが、実効強度Ｅは、Ｅ＝（Ｒ^２＋Ｉ^２）^１／２なる演算によって求めることができる。
【００２１】
こうして求められた単位区間ｄ１の強度グラフは、単位区間ｄ１の音響信号に含まれる振動成分について、ノートナンバーＮ＝０〜１２７に相当する各振動成分の割合を実効強度として示すグラフということができる。そこで、この強度グラフに示されている各実効強度に基いて、全Ｑ個（この例ではＱ＝１２８）のノートナンバーの中からＰ個のノートナンバーを選択し、このＰ個のノートナンバーＮを、単位区間ｄ１を代表する代表符号コードとして抽出する。ここでは、説明の便宜上、Ｐ＝３として、全１２８個の候補の中から３個のノートナンバーを代表符号コードとして抽出する場合を示すことにする。たとえば、「候補の中から強度の大きい順にＰ個の符号コードを抽出する」という基準に基いて抽出を行えば、図１(c) に示す例では、第１番目の代表符号コードとしてノートナンバーＮｐ（ｄ１，１）が、第２番目の代表符号コードとしてノートナンバーＮｐ（ｄ１，２）が、第３番目の代表符号コードとしてノートナンバーＮｐ（ｄ１，３）が、それぞれ抽出されることになる。
【００２２】
このようにして、Ｐ個の代表符号コードが抽出されたら、これらの代表符号コードとその実効強度によって、単位区間ｄ１の音響信号を表現することができる。たとえば、上述の例の場合、図１(c) に示す強度グラフにおいて、ノートナンバーＮｐ（ｄ１，１）、Ｎｐ（ｄ１，２）、Ｎｐ（ｄ１，３）の実効強度がそれぞれＥｐ（ｄ１，１）、Ｅｐ（ｄ１，２）、Ｅｐ（ｄ１，３）であったとすれば、以下に示す３組のデータ対によって、単位区間ｄ１の音響信号を表現することができる。
【００２３】
Ｎｐ（ｄ１，１），Ｅｐ（ｄ１，１）
Ｎｐ（ｄ１，２），Ｅｐ（ｄ１，２）
Ｎｐ（ｄ１，３），Ｅｐ（ｄ１，３）
以上、単位区間ｄ１についての処理について説明したが、単位区間ｄ２〜ｄ５についても、それぞれ別個に同様の処理が行われ、代表符号コードおよびその強度を示すデータが得られることになる。たとえば、単位区間ｄ２については、
Ｎｐ（ｄ２，１），Ｅｐ（ｄ２，１）
Ｎｐ（ｄ２，２），Ｅｐ（ｄ２，２）
Ｎｐ（ｄ２，３），Ｅｐ（ｄ２，３）
なる３組のデータ対が得られる。このようにして各単位区間ごとに得られたデータによって、原音響信号を符号化することができる。
【００２４】
図２は、上述の方法による符号化の概念図である。図２(a) には、図１(a) と同様に、原音響信号について５つの単位区間ｄ１〜ｄ５を設定した状態が示されており、図２(b) には、各単位区間ごとに得られた符号データが音符の形式で示されている。この例では、個々の単位区間ごとに３個の代表符号コードを抽出しており（Ｐ＝３）、これら代表符号コードに関するデータを３つのトラックＴ１〜Ｔ３に分けて収容するようにしている。たとえば、単位区間ｄ１について抽出された代表符号コードＮｐ（ｄ１，１），Ｎｐ（ｄ１，２），Ｎｐ（ｄ１，３）は、それぞれトラックＴ１，Ｔ２，Ｔ３に収容されている。もっとも、図２(b) は、本発明によって得られる符号データを音符の形式で示した概念図であり、実際には、各音符にはそれぞれ強度に関するデータが付加されている。たとえば、トラックＴ１には、ノートナンバーＮｐ（ｄ１，１），Ｎｐ（ｄ２，１），Ｎｐ（ｄ３，１）…なる音階を示すデータとともに、Ｅｐ（ｄ１，１），Ｅｐ（ｄ２，１），Ｅｐ（ｄ３，１）…なる強度を示すデータが収容されることになる。
【００２５】
本発明における符号化の形式としては、必ずしもＭＩＤＩ形式を採用する必要はないが、この種の符号化形式としてはＭＩＤＩ形式が最も普及しているため、実用上はＭＩＤＩ形式の符号データを用いるのが最も好ましい。ＭＩＤＩ形式では、「ノートオン」データもしくは「ノートオフ」データが、「デルタタイム」データを介在させながら存在する。「ノートオン」データは、特定のノートナンバーＮとベロシティーＶとを指定して特定の音の演奏開始を指示するデータであり、「ノートオフ」データは、特定のノートナンバーＮとベロシティーＶとを指定して特定の音の演奏終了を指示するデータである。また、「デルタタイム」データは、所定の時間間隔を示すデータである。ベロシティーＶは、たとえば、ピアノの鍵盤などを押し下げる速度（ノートオン時のベロシティー）および鍵盤から指を離す速度（ノートオフ時のベロシティー）を示すパラメータであり、特定の音の演奏開始操作もしくは演奏終了操作の強さを示すことになる。
【００２６】
本実施形態では、上述したように、第ｉ番目の単位区間ｄｉについて、代表符号コードとしてＰ個のノートナンバーＮｐ（ｄｉ，１），Ｎｐ（ｄｉ，２），…，Ｎｐ（ｄｉ，Ｐ）が得られ、このそれぞれについて実効強度Ｅｐ（ｄｉ，１），Ｅｐ（ｄｉ，２），…，Ｅｐ（ｄｉ，Ｐ）が得られる。そこで本実施形態では、次のような手法により、ＭＩＤＩ形式の符号データを作成している。まず、「ノートオン」データもしくは「ノートオフ」データの中で記述するノートナンバーＮとしては、得られたノートナンバーＮｐ（ｄｉ，１），Ｎｐ（ｄｉ，２），…，Ｎｐ（ｄｉ，Ｐ）をそのまま用いている。一方、「ノートオン」データもしくは「ノートオフ」データの中で記述するベロシティーＶとしては、得られた実効強度Ｅｐ（ｄｉ，１），Ｅｐ（ｄｉ，２），…，Ｅｐ（ｄｉ，Ｐ）を、値が０〜１の範囲となるように規格化し、この規格化後の実効強度Ｅの平方根に１２７を乗じた値を用いている。すなわち、実効強度Ｅについての最大値をＥmax とした場合、
Ｖ＝（Ｅ／Ｅmax ）^１／２・１２７
なる演算で求まる値Ｖをベロシティーとして用いている。あるいは対数をとって、
Ｖ＝ｌｏｇ（Ｅ／Ｅmax ）・１２７＋１２７
（ただし、Ｖ＜０の場合はＶ＝０とする）
なる演算で求まる値Ｖをベロシティーとして用いてもよい。また、「デルタタイム」データは、各単位区間の長さに応じて設定すればよい。
【００２７】
結局、上述した実施形態では、３トラックからなるＭＩＤＩ符号データが得られることになる。このＭＩＤＩ符号データを３台のＭＩＤＩ音源を用いて再生すれば、６チャンネルのステレオ再生音として音響信号が再生される。
【００２８】
上述した手順による符号化処理は、実際にはコンピュータを用いて実行される。本発明による符号化処理を実現するためのプログラムは、磁気ディスクや光ディスクなどのコンピュータ読み取り可能な記録媒体に記録して供給することができ、また、本発明による符号化処理によって符号化された符号データは、同様に、磁気ディスクや光ディスクなどのコンピュータ読み取り可能な記録媒体に記録して供給することができる。
【００２９】
§２．より実用的な区間設定方法
これまで、本発明に係る音響信号の符号化方法の基本原理を述べたが、以下、より実用的な符号化方法を述べる。ここでは、区間設定を行う上でのより実用的な手法を説明する。図２(a) に示された例では、時間軸ｔ上に等間隔に定義された６つの時刻ｔ１〜ｔ６を境界として、５つの単位区間ｄ１〜ｄ５が設定されている。このような区間設定に基いて符号化を行った場合、再生時に、境界となる時刻において音の不連続が発生しやすい。したがって、実用上は、隣接する単位区間が時間軸上で部分的に重複するような区間設定を行うのが好ましい。
【００３０】
図３(a) は、このように部分的に重複する区間設定を行った例である。図示されている単位区間ｄ１〜ｄ４は、いずれも部分的に重なっており、このような区間設定に基いて前述の処理を行うと、図３(b) の概念図に示されているような符号化が行われることになる。この例では、それぞれの単位区間の中心を基準位置として、各音符をそれぞれの基準位置に配置しているが、単位区間に対する相対的な基準位置は、必ずしも中心に設定する必要はない。図３(b) に示す概念図を図２(b) に示す概念図と比較すると、音符の密度が高まっていることがわかる。このように重複した区間設定を行うと、作成される符号データの数は増加することになるが、再生時に音の不連続が生じない自然な符号化が可能になる。
【００３１】
図４は、時間軸上で部分的に重複する区間設定を行う具体的な手法を示す図である。この具体例では、音響信号を２２ｋＨｚのサンプリング周波数でサンプリングすることによりデジタル音響データとして取り込み、個々の単位区間の区間長Ｌを１０２４サンプル分（約４７ｍｓｅｃ）に設定し、各単位区間ごとのずれ量を示すオフセット長ΔＬを２０サンプル分（約０．９ｍｓｅｃ）に設定したものである。すなわち、任意のｉに対して、第ｉ番目の単位区間の始点と第（ｉ＋１）番目の単位区間の始点との時間軸上での隔たりがオフセット長ΔＬに設定されることになる。たとえば、第１番目の単位区間ｄ１は、１〜１０２４番目のサンプルを含んでおり、第２番目の単位区間ｄ２は、２０サンプル分ずれた２１〜１０４４番目のサンプルを含んでいることになる。
【００３２】
このように、時間軸上で部分的に重複する区間設定を行った場合、隣接する単位区間においてかなりのサンプルが共通して用いられることになり、各単位区間ごとに求めたスペクトルに有効な差が生じないことが予想される。たとえば、上述の例の場合、第１番目の単位区間ｄ１と第２番目の単位区間ｄ２とを比較すると、２１〜１０２４番目のサンプルは両単位区間で全く共通して利用されており、両者の相違は、わずか２０サンプル分に依存していることになる。ただ、幸いにして、フーリエ変換の処理では２０サンプルに相当する位相の差が生じるため、両単位区間における複素強度Ａに大幅な差が生じる。しかし、実効強度Ｅはあまり変化しないと予想される。このように、隣接する単位区間のスペクトルに十分な差が得られないと、変化の激しい音響信号に追従できず、結果的に時間分解能が低下するという問題が生じることになる。このような問題に対処するためには、わずか２０サンプル分の相違により、フーリエ変換の入力側に大きな変化が生じるような対策を講じればよい。
【００３３】
そこで、本願発明者は、§１で言及した窓関数に対して、変化する２０サンプル分を強調するような細工を施すことを考案した。前述した周知のハニング窓は、むしろ隣接区間の変動を抑える方向に働くため、上述の問題に対処する観点からは逆効果である。そこで、区間両端の重みが減少するというハニング窓の特徴を継承しつつ、２０サンプル分を強調するような関数を考案し、実際に適用してみた。具体的には、単位区間の区間長をＬ、オフセット長をΔＬとして、
α＝Ｌ／２−ΔＬ／２
β＝Ｌ／２＋ΔＬ／２
なるα，βを定め、区間［α，β］で表される中央近傍区間（単位区間の中央位置に定義された幅ΔＬの区間）を定義し、

なる改良型窓関数Ｈ（ｋ）を用いるようにすればよい。この改良型窓関数Ｈ（ｋ）は、半値幅がちょうどΔＬになるように狭幅に変形した分布関数であり、この関数を用いて実験を行ったところ、十分な効果が確認できた。
【００３４】
なお、強度グラフの横軸に定義された１２８種類のノートナンバーのそれぞれについての実効強度Ｅを求めるには、たとえば、各ノートナンバーＮに所定の周波数レンジを割り当て、割り当てられたレンジ内の各周波数の実効強度の平均値を、当該ノートナンバーＮの実効強度とすればよい。図５は、このような手法で実効強度を求める概念を示すグラフである。まず、フーリエ変換によって得られたスペクトルの横軸を対数尺度に変換し、縦軸を実効強度に変換すれば、図５に示すようなグラフが得られる。横軸上に示された周波数値２６２，２７８，２９４，…は、それぞれノートナンバーＮ＝６０，６１，６２，…に対応する周波数である。ここで、たとえば、ノートナンバーＮ＝６１についての実効強度を求めるには、周波数値２７８の近傍の所定の周波数レンジ（図にハッチングを施した領域）を、ノートナンバーＮ＝６１に割り当て、このレンジ内の各周波数の実効強度の最大値を、ノートナンバーＮ＝６１についての実効強度とすればよい。
【００３５】
§３．ヴォーカル音響に適した符号化
以上、§１および§２において、本発明に係る音響信号の符号化方法の基本的な手法を述べた。しかしながら、これまで述べてきた手法、特に、図１(c) に示す段階において、Ｐ個の代表符号コードを抽出する手法は、原音響信号がヴォーカル（人間の話声や歌声）音響信号である場合には、必ずしも効果的な符号化を行うことができない。その理由を、図６に示す鳥の声のスペクトルと図７に示すヴォーカルのスペクトルとを比較しながら説明する。
【００３６】
声帯を持たない鳥では、その鳴き声のスペクトル特性は、一般にシングル・フォルマント特性と呼ばれており、図６のスペクトルＳに示すように、ピーク周波数ｆｐの位置に典型的な山が形成される特徴をもつ。これに対し、声帯を有する人間の声のスペクトルは、図７のスペクトルＳに示すような特徴をもつ。このヴォーカルのスペクトルＳには、大きく２つの特徴が現れている。第１の特徴は、図７に示すように、スペクトルＳについての包絡線Ｅｎｖを描くと、一般にマルチ・フォルマント特性と呼ばれている複数の大きな山が形成される点である。図示の例では、５つの山が形成されており、ここでは、それぞれの山をフォルマントＦ１〜Ｆ５と呼ぶことにする。第２の特徴は、図７における包絡線ＥｎｖとスペクトルＳとを比較すればわかるように、本来のマルチ・フォルマント特性のスペクトルに、声帯の基本周波数の倍音成分が周期的に重畳することによりスペクトルに微細構造が生じているという点である。図７に示すスペクトルＳは、包絡線Ｅｎｖに対していわゆるギザギザの成分を重畳させた形態をなしているが、これは声帯から発っせられる有声音に基く基本周波数の倍音成分であり、図７の横軸がリニアスケールである場合、これらは等間隔に配置される。
【００３７】
さて、図６に示すようなシングル・フォルマント特性をもった鳥の声を符号化する場合、ピーク周波数ｆｐを代表周波数として選択すれば何ら問題はない。ところが、図７に示すようなマルチ・フォルマント特性をもったヴォーカル音は、図示のとおりのフォルマントＦ１〜Ｆ５に特徴があるため、代表周波数としては、各フォルマントＦ１〜Ｆ５のそれぞれのピーク周波数ｆｐ１〜ｆｐ５を抽出する必要がある。
【００３８】
しかしながら、スペクトルＳの各ピーク位置を求め、このピーク位置の周波数を、その強度の大きい順に代表周波数として抽出する、という図１(c) で説明した手法を採った場合、各フォルマントのピーク周波数を抽出することはできない。たとえば、図８には、スペクトルＳの各ピーク位置を求め、このピーク位置の周波数を、その強度の大きい順に５番目までを代表周波数として抽出した例が示されている。図示のとおり、抽出された周波数ｆｐ１〜ｆｐ５は、フォルマントＦ１に集中する結果となっており、フォルマントＦ２，Ｆ４，Ｆ５からは代表周波数が１つも抽出されていない。
【００３９】
そこで本発明では、ヴォーカル音響信号を原音響信号とする場合には、単位区間について求めたスペクトルＳから複数のフォルマントを認識し、各フォルマントを代表する代表周波数とこれに対応する強度とによって、当該単位区間の音響信号を表現するようにしている。各フォルマントを代表する代表周波数を求めるには、原理的には、図７に示すように、スペクトルＳの包絡線Ｅｎｖを求め、この包絡線Ｅｎｖのピーク位置に相当する周波数ｆｐ１〜ｆｐ５を、各フォルマントを代表する代表周波数として抽出すればよい。
【００４０】
ここでは、更に実用的な各フォルマントごとの代表周波数を抽出する方法を述べておく。まず、スペクトル強度に関して所定のしきい値Ｌを設定する。このしきい値Ｌは、フォルマントを認識することができるような値であればどのような値に設定してもよいが、実用上は、スペクトル強度の最大値の１／３〜１／４程度に設定するのが好ましい。図９は、スペクトルＳに対して、所定のしきい値Ｌを設定した状態を示す図である。続いて、図１０に示すように、このしきい値Ｌ未満のスペクトル部分を削除すると、もとのスペクトルＳは、５つのグループＧ１〜Ｇ５に分断されることになる。ここでは、グループＧ１〜Ｇ５に所属する各スペクトルを、分断スペクトルＳ１〜Ｓ５と呼ぶことにする。この分断スペクトルＳ１〜Ｓ５は、それぞれフォルマントＦ１〜Ｆ５に対応したスペクトルである。そこで、各分断スペクトルＳ１〜Ｓ５について、それぞれ最大強度を示す周波数ｆｐ１〜ｆｐ５を求めれば、これらの周波数ｆｐ１〜ｆｐ５は、各フォルマントＦ１〜Ｆ５についての代表周波数となる。図１１は、このようにして得られた代表周波数ｆｐ１〜ｆｐ５を示す図である。
【００４１】
結局、上述した手法は、所定のしきい値Ｌを設定し、スペクトルＳのうち強度がこのしきい値Ｌ以上となる一連の連続部分を１つのフォルマントとして認識し、各フォルマントにおける最大強度を示す周波数を当該フォルマントを代表する代表周波数として抽出する手法ということができる。なお、符号データとしてＭＩＤＩデータを用いるのであれば、こうして得られた代表周波数ｆｐ１〜ｆｐ５のそれぞれに対応した符号コードとして、ＭＩＤＩデータで利用されるノートナンバーを対応させ、個々の単位区間の音響信号を、それぞれ対応するノートナンバーと、各代表周波数ｆｐ１〜ｆｐ５における強度に基いて決定されたベロシティーと、当該単位区間の長さに基いて決定されたデルタタイムと、を示すデータからなるＭＩＤＩ形式の符号データによって表現するようにすればよい。
【００４２】
なお、上述の例では、すべてのフォルマントについてそれぞれ１つずつ代表周波数を求め、これら各代表周波数に応じた符号を生成するようにしているが、たとえば、１つの単位区間をＰ個の代表周波数によって表現する、というような条件を付加した場合には、全フォルマントの代表周波数のうちから、強度の大きい順にＰ個の代表周波数を選択して用いるようにすればよい。
【００４３】
【発明の効果】
以上のとおり本発明に係る符号化方法によれば、人の声音や歌声を含む音響信号に対して効率的な符号化を行うことができるようになる。
【図面の簡単な説明】
【図１】本発明に係る音響信号の符号化方法の基本原理を示す図である。
【図２】図１(c) に示す強度グラフに基いて作成された符号コードを示す図である。
【図３】時間軸上に部分的に重複するように単位区間設定を行うことにより作成された符号コードを示す図である。
【図４】時間軸上に部分的に重複するような単位区間設定の具体例を示す図である。
【図５】周波数軸とノートナンバーとの対応関係を示すグラフである。
【図６】シングル・フォルマント特性をもった鳥の声のスペクトルを示す図である。
【図７】マルチ・フォルマント特性をもったヴォーカルのスペクトルを示す図である。
【図８】図７に示すスペクトルから、ピークの大きい順に代表周波数を抽出した例を示す図である。
【図９】図７に示すスペクトルに対して、しきい値Ｌを設定した状態を示す図である。
【図１０】図９に示す状態から、しきい値Ｌ未満のスペクトルを削除した状態を示す図である。
【図１１】図１０に示す状態において、各分断スペクトルのそれぞれの最大ピークを代表周波数として抽出した例を示す図である。
【符号の説明】
Ａ…複素強度
ｄ１〜ｄ５…単位区間
Ｅ…実効強度
Ｅｎｖ…スペクトルＳの包絡線
Ｆｓ…サンプリング周波数
Ｆ１〜Ｆ５…フォルマント
ｆ…周波数
ｆｐ，ｆｐ１〜ｆｐ５…ピーク周波数
Ｇ１〜Ｇ５…スペクトルのグループ
Ｌ…単位区間の区間長
ΔＬ…オフセット長
Ｎ…ノートナンバー
Ｎｐ（ｄｊ，ｉ）…単位区間ｄｊについて抽出された第ｉ番目の代表符号コード（ノートナンバー）
Ｅｐ（ｄｊ，ｉ）…代表符号コードＮｐ（ｄｊ，ｉ）の実効強度
Ｓ…スペクトル
Ｓ１〜Ｓ５…分断スペクトル
Ｔ１〜Ｔ３…トラック
ｔ１〜ｔ６…時刻

Claims

時系列の強度信号として与えられる音響信号を符号化するための符号化方法であって、
符号化対象となる音響信号を所定のサンプリング周期でサンプリングしてデジタル音響データとして取り込むデータ取込段階と、
前記デジタル音響データの各サンプルが配置された時間軸上に、それぞれＬ個分のサンプルを含む区間長をもった複数の単位区間を、ΔＬ個分（ΔＬ＜Ｌ）のサンプルだけずらして設定し、隣接する単位区間が時間軸上で（Ｌ−ΔＬ）個分のサンプルだけ重複するようにする区間設定段階と、
前記単位区間の中心位置から両端位置に向かって減少し、かつ、ΔＬ個分のサンプルに対応する半値幅をもつ重み関数を定義し、個々の単位区間ごとに、当該単位区間内のサンプルの値に前記重み関数を乗じる処理を行った後にフーリエ変換を行い、音響信号に含まれる周波数成分を第１の軸に、各周波数成分ごとの強度を第２の軸にとったスペクトルを作成するスペクトル作成段階と、
所定のしきい値を設定し、前記スペクトルのうち強度が前記しきい値以上となる一連の連続部分を１つのフォルマントとして認識し、各フォルマントにおける最大強度を示す周波数を当該フォルマントを代表する代表周波数として抽出する代表周波数抽出段階と、
抽出した代表周波数に対応した符号コードとして、ＭＩＤＩ規格に基づくＭＩＤＩデータで利用されるノートナンバーを用い、個々の単位区間の音響信号を、符号コードとして定義されたノートナンバーと、このノートナンバーに対応する周波数成分の強度に基いて決定されたベロシティーと、当該単位区間の長さに基いて決定されたデルタタイムと、を示すデータからなるＭＩＤＩ形式の符号データによって表現する符号化段階と、
を有することを特徴とする音響信号の符号化方法。
請求項１に記載の符号化方法において、
符号化段階で、１つの単位区間をＰ個の代表周波数によって表現するという条件を設定し、個々の単位区間の音響信号を符号化する際に強度の大きい順にＰ個の代表周波数を選択し、選択された代表周波数についてのみＭＩＤＩ形式の符号データに符号化することを特徴とする音響信号の符号化方法。
請求項１または２に記載の符号化方法において、
スペクトル作成段階で、
α＝Ｌ／２−ΔＬ／２
β＝Ｌ／２＋ΔＬ／２
なるα，βを定め、区間［α，β］で表される中央近傍区間（単位区間の中央位置に定義された幅ΔＬの区間）を定義し、第ｋ番目（１≦ｋ≦Ｌ）のサンプルの値に対して、
ｋ＝１〜αのとき
Ｈ（ｋ）＝０．５−０．５＊ｃｏｓ（πｋ／２α）
ｋ＝α〜βのとき
Ｈ（ｋ）＝０．５−０．５
＊ｃｏｓ（π（ｋ−α）／ΔＬ＋π／２）
ｋ＝β〜Ｌのとき
Ｈ（ｋ）＝０．５−０．５
＊ｃｏｓ（π（ｋ−β）／２α＋３π／２）
なる窓関数Ｈ（ｋ）を重み関数として乗じることを特徴とする音響信号の符号化方法。
請求項１〜３のいずれかに記載の符号化方法を実行する音響信号の符号化のためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。