JP3776196B2

JP3776196B2 - 音声信号の符号化方法および音声の記録再生装置

Info

Publication number: JP3776196B2
Application number: JP06746797A
Authority: JP
Inventors: 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 1997-03-05
Filing date: 1997-03-05
Publication date: 2006-05-17
Anticipated expiration: 2017-03-05
Also published as: JPH10247099A

Description

【０００１】
【発明の属する技術分野】
本発明は音声信号の符号化方法および音声の記録再生装置に関し、時系列の強度信号として与えられる音声信号を符号化し、これを復号化して再生する技術に関する。特に、本発明は心音や肺音などの生理的リズム音を、ＭＩＤＩ形式の符号データに変換する処理に適しており、医療診断や診断教育の分野への応用が期待される。
【０００２】
【従来の技術】
音声信号を符号化する技術として、ＰＣＭ（Pulse Code Modulation ）の手法は最も普及している手法であり、現在、オーディオＣＤやＤＡＴなどの記録方式として広く利用されている。このＰＣＭの手法の基本原理は、アナログ音声信号を所定のサンプリング周波数でサンプリングし、各サンプリング時の信号強度を量子化してデジタルデータとして表現する点にあり、サンプリング周波数や量子化ビット数を高くすればするほど、原音を忠実に再生することが可能になる。ただ、サンプリング周波数や量子化ビット数を高くすればするほど、必要な情報量も増えることになる。そこで、できるだけ情報量を低減するための手法として、信号の変化差分のみを符号化するＡＤＰＣＭ（Adaptive Differential Pulse Code Modulation ）の手法も用いられている。
【０００３】
一方、電子楽器による楽器音を符号化しようという発想から生まれたＭＩＤＩ（Musical Instrument Digital Interface）規格も、パーソナルコンピュータの普及とともに盛んに利用されるようになってきている。このＭＩＤＩ規格による符号データ（以下、ＭＩＤＩデータという）は、基本的には、楽器のどの鍵盤キーを、どの程度の強さで弾いたか、という楽器演奏の操作を記述したデータであり、このＭＩＤＩデータ自身には、実際の音の波形は含まれていない。そのため、実際の音を再生する場合には、楽器音の波形を記憶したＭＩＤＩ音源が別途必要になる。しかしながら、上述したＰＣＭの手法で音を記録する場合に比べて、情報量が極めて少なくてすむという特徴を有し、その符号化効率の高さが注目を集めている。このＭＩＤＩ規格による符号化および復号化の技術は、現在、パーソナルコンピュータを用いて楽器演奏、楽器練習、作曲などを行うソフトウエアに広く採り入れられており、カラオケ、ゲームの効果音といった分野でも広く利用されている。
【０００４】
【発明が解決しようとする課題】
上述したように、ＰＣＭの手法により音声信号を符号化する場合、十分な音質を確保しようとすれば情報量が膨大になり、データ処理の負担が重くならざるを得ない。したがって、通常は、ある程度の情報量に抑えるため、ある程度の音質に妥協せざるを得ない。もちろん、ＭＩＤＩ規格による符号化の手法を採れば、非常に少ない情報量で十分な音質をもった音の再生が可能であるが、上述したように、ＭＩＤＩ規格そのものが、もともと楽器演奏の操作を符号化するためのものであるため、広く一般音声への適用を行うことはできない。別言すれば、ＭＩＤＩデータを作成するためには、実際に楽器を演奏するか、あるいは、楽譜の情報を用意する必要がある。
【０００５】
このように、従来用いられているＰＣＭの手法にしても、ＭＩＤＩの手法にしても、それぞれ音声信号の符号化方法としては一長一短があり、一般の音声について、少ない情報量で十分な音質を確保することはできない。ところが、一般の音声についても効率的な符号化を行いたいという要望は、益々強くなってきている。特に、医療診断や診断教育の分野では、かねてからこのような要望が強く出されている。たとえば、心音や肺音といった生理的リズムのある音声の解析は、古くから診断の材料として利用されてきている。このような生理的リズム音をコンピュータを利用して解析するには、効率良い符号化を行うことが不可欠である。また、この生理的リズム音を解析する場合、従来は、耳を頼りにして特徴を聞き分ける手法を採るか、あるいは音声波形そのものを表示させ、視覚的に波形の特徴を分析する手法を採るしかなく、解析にはかなりの熟練を要していた。このため、医学生やインターンなどに対する診断教育の分野でも、明確な指導が困難であり、多くの経験に基づいて診断技術を習得しているのが現状である。
【０００６】
そこで本発明は、より効率的な符号化を行うことができる音声信号の符号化方法を提供することを目的とし、また、そのような符号化方法を利用した音声の記録再生装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
(1) 本発明の第１の態様は、時系列の強度信号として与えられる音声信号を符号化するための音声信号の符号化方法において、
符号化対象となる音声信号を、デジタルの音声データとして取り込む入力段階と、
取り込んだ音声データの波形について変極点を求める変極点定義段階と、
音声データの時間軸上に複数の単位区間を設定する区間設定段階と、
個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と代表周波数および代表強度を示す情報とを含む符号データを生成し、個々の単位区間の音声データを個々の符号データによって表現する符号化段階と、
を行うようにし、
区間設定段階では、各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義し、１つの単位区間に含まれる変極点の固有周波数が所定の近似範囲内になるように、単位区間の設定を行い、
符号化段階では、単位区間内に含まれる変極点の固有周波数に基づいて代表周波数を定義し、単位区間内に含まれる変極点のもつ信号強度に基づいて代表強度を定義するようにしたものである。
【０００９】
(2) 本発明の第２の態様は、上述の第１の態様に係る音声信号の符号化方法において、
入力段階で、正および負の両極性デジタル値を信号強度としてもった音声データを用意し、
変極点定義段階で、同極性のデジタル値をもった変極点が複数連続する場合に、絶対値が最大のデジタル値をもった変極点のみを残す間引処理を行い、極性の異なる変極点が交互に現れるようにしたものである。
【００１２】
(3) 本発明の第３の態様は、上述の第１または第２の態様に係る音声信号の符号化方法において、
区間設定段階で、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外する処理を行うようにしたものである。
【００１３】
(4) 本発明の第４の態様は、上述の第１〜第３の態様に係る音声信号の符号化方法において、
各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義する第１のステップと、
絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外し、除外された変極点の位置で分割されるような区間を定義する第２のステップと、
時間軸上において、変極点の固有周波数の値が不連続となる不連続位置を探し、第２のステップで定義された個々の区間を、更に不連続位置で分割することにより、新たな区間を定義する第３のステップと、
を区間設定段階で行い、最終的に定義された区間を単位区間として設定するようにしたものである。
【００１４】
(5) 本発明の第５の態様は、上述の第４の態様に係る音声信号の符号化方法において、
第３のステップで定義された区間のうち、一方の区間内の変極点の固有周波数の平均と、他方の区間内の変極点の固有周波数の平均との差が、所定の許容範囲内であるような２つの隣接区間が存在する場合に、この隣接区間を１つの区間に統合する統合処理を行う第４のステップを更に行い、区間設定段階では、第４のステップにおける統合処理後の区間を単位区間として設定するようにしたものである。
【００１６】
(6) 本発明の第６の態様は、上述の第１〜第５の態様に係る音声信号の符号化方法において、
符号化段階で、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、１つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるＭＩＤＩ形式の符号データに変換するようにしたものである。
【００１７】
(7) 本発明の第７の態様は、上述の第１〜第６の態様に係る音声信号の符号化方法において、
符号化段階で、復号化に用いる再生音源装置の特性に適合させるための修正処理を行うようにしたものである。
【００１８】
(8) 本発明の第８の態様は、上述の第７の態様に係る音声信号の符号化方法において、
特定の単位区間に対応する符号データに基づいて、再生音源装置により音の再生を行うと、特定の単位区間の長さよりも再生音の持続時間が短くなる場合に、特定の単位区間を複数の小区間に分割し、各小区間ごとにそれぞれ別個の符号データを生成する修正処理を行うようにしたものである。
【００１９】
(9) 本発明の第９の態様は、上述の第７の態様に係る音声信号の符号化方法において、
生成された一連の符号データに基づいて、再生音源装置により音の再生を行うと、再生音の周波数レンジが、再生音源装置により再生可能な固有周波数レンジに対して偏りを生じる場合に、一連の符号データ内に含まれる代表周波数の平均が、再生音源装置の固有周波数レンジの中心に近付くように、代表周波数に対する修正処理を行うようにしたものである。
【００２０】
(10) 本発明の第１０の態様は、上述の第１〜第９の態様に係る音声信号の符号化方法において、
各変極点について、それぞれ複数の固有周波数を定義し、符号化段階で、各単位区間に対してそれぞれ複数の代表周波数を定義し、各代表周波数ごとに別個の符号データを生成し、和声として同時に再生することができる複数組の符号データを生成するようにしたものである。
【００２１】
(11) 本発明の第１１の態様は、上述の第１〜第１０の態様に係る音声信号の符号化方法において、
入力段階において、それぞれ主たる周波数成分が異なる複数ｎ個の部分音声データを生成する周波数分離処理を行い、ｎ個の部分音声データのそれぞれについて、後続する各段階を別個独立して実施し、和声として同時に再生することができるｎ組の符号データを生成するようにしたものである。
【００２３】
(12) 本発明の第１２の態様は、時系列の強度信号として与えられる音声信号を符号化して記録し、これを復号化して再生する音声の記録再生装置において、
記録対象となるアナログ音声信号を入力する音声信号入力装置と、
入力されたアナログ音声信号を、デジタルの音声データとして取り込み、この音声データの時間軸上に複数の単位区間を設定し、各単位区間内の音声データを、時間軸上での単位区間の始端位置および終端位置を示す情報と所定の代表周波数および代表強度を示す情報とを含む符号データに変換する符号化処理装置と、
符号化処理装置によって符号化された符号データを記憶する記憶装置と、
符号データの復号化に用いる再生音波形を格納した再生音源装置と、
記憶装置内の符号データを、再生音源装置に格納された所定の再生音波形を用いて復号化する復号化処理装置と、
復号化された音を再生するためのスピーカ装置と、
を設け、符号化処理装置に、上述の第１〜第１１の態様に係る符号化方法を実行する機能をもたせるようにしたものである。
【００２４】
(13) 本発明の第１３の態様は、上述の第１２の態様に係る音声の記録再生装置において、
記憶装置内の符号データを、単位区間の長さ、代表周波数、代表強度、を認識しうる態様で、画像として提示する符号データ提示装置を更に設けるようにしたものである。
【００２５】
(14) 本発明の第１４の態様は、上述の第１２または第１３の態様に係る音声の記録再生装置において、
符号化処理装置が、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、１つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるＭＩＤＩ形式の符号データに変換する機能を有し、
再生音源装置としてＭＩＤＩ形式の音源を用いるようにしたものである。
【００２６】
(15) 本発明の第１５の態様は、上述の第１２〜第１４の態様に係る音声の記録再生装置において、
医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置を構成し、
生体が発する音声を表現した再生音波形を格納した再生音源装置を用い、
音符もしくは音符に準じた符号を二次元平面上に時系列で配置した楽譜形式の画像として、記憶装置内の符号データを提示する符号データ提示装置を設けるようにしたものである。
【００２７】
【発明の実施の形態】
以下、本発明を図示する実施形態に基づいて説明する。
【００２８】
§１．本発明に係る音声信号の符号化方法の基本原理
はじめに、本発明に係る音声信号の符号化方法の基本原理を図１を参照しながら説明する。いま、図１の上段に示すように、時系列の強度信号としてアナログ音声信号が与えられたものとしよう。図示の例では、横軸に時間軸ｔ、縦軸に信号強度Ａをとってこの音声信号を示している。本発明では、まずこのアナログ音声信号を、デジタルの音声データとして取り込む処理を行う。これは、従来の一般的なＰＣＭの手法を用い、所定のサンプリング周波数でこのアナログ音声信号をサンプリングし、信号強度Ａを所定の量子化ビット数を用いてデジタルデータに変換する処理を行えばよい。ここでは、説明の便宜上、ＰＣＭの手法でデジタル化した音声データの波形も、図１の上段のアナログ音声信号と同一の波形で示すことにする。
【００２９】
次に、このデジタル音声データの時間軸ｔ上に複数の単位区間を設定する。図示の例では、６つの単位区間Ｕ１〜Ｕ６が設定されている。第ｉ番目の単位区間Ｕｉは、時間軸ｔ上の始端ｓｉおよび終端ｅｉの座標値によって、その時間軸ｔ上での位置と長さとが示される。たとえば、単位区間Ｕ１は、始端ｓ１〜終端ｅ１までの（ｅ１−ｓ１）なる長さをもつ区間である。
【００３０】
こうして、複数の単位区間が設定されたら、個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義する。ここでは、第ｉ番目の単位区間Ｕｉについて、代表周波数Ｆｉおよび代表強度Ａｉが定義された状態が示されている。たとえば、第１番目の単位区間Ｕ１については、代表周波数Ｆ１および代表強度Ａ１が定義されている。代表周波数Ｆ１は、始端ｓ１〜終端ｅ１までの区間に含まれている音声データの周波数成分の代表値であり、代表強度Ａｉは、同じく始端ｓ１〜終端ｅ１までの区間に含まれている音声データの信号強度の代表値である。単位区間Ｕ１内の音声データに含まれる周波数成分は、通常、単一ではなく、信号強度も変動するのが一般的である。本発明のポイントは、１つの単位区間について、単一の代表周波数と単一の代表強度を定義し、これら代表値を用いて符号化を行う点にある。
【００３１】
すなわち、個々の単位区間について、それぞれ代表周波数および代表強度が定義されたら、時間軸ｔ上での個々の単位区間の始端位置および終端位置を示す情報と、定義された代表周波数および代表強度を示す情報と、により符号データを生成し、個々の単位区間の音声データを個々の符号データによって表現するのである。単一の周波数をもち、単一の信号強度をもった音声信号が、所定の期間だけ持続する、という事象を符号化する手法として、ＭＩＤＩ規格に基づく符号化を利用することができる。ＭＩＤＩ規格による符号データ（ＭＩＤＩデータ）は、いわば音符によって音を表現したデータということができ、図１では、下段に示す音符によって、最終的に得られる符号データの概念を示している。
【００３２】
結局、各単位区間内の音声データは、代表周波数Ｆ１に相当する音程情報（ＭＩＤＩ規格におけるノートナンバー）と、代表強度Ａ１に相当する強度情報（ＭＩＤＩ規格におけるベロシティー）と、単位区間の長さ（ｅ１−ｓ１）に相当する長さ情報（ＭＩＤＩ規格におけるデルタタイム）と、をもった符号データに変換されることになる。このようにして得られる符号データの情報量は、もとの音声信号のもつ情報量に比べて、著しく小さくなり、飛躍的な符号化効率が得られることになる。これまで、ＭＩＤＩデータを生成する手法としては、演奏者が実際に楽器を演奏するときの操作をそのまま取り込んで符号化するか、あるいは、楽譜上の音符をデータとして入力するしかなかったが、上述した本発明に係る手法を用いれば、実際のアナログ音声信号からＭＩＤＩデータを直接生成することが可能になる。
【００３３】
もっとも、本発明に係る符号化方法を実用化するためには、いくつか留意すべき点がある。第１の留意点は、再生時に音源を用意する必要があるという点である。本発明に係る手法によって最終的に得られる符号データには、もとの音声信号の波形データそのものは含まれていないため、何らかの音声波形のデータをもった音源が必要になる。たとえば、ＭＩＤＩデータを再生する場合には、ＭＩＤＩ音源が必要になる。もっとも、ＭＩＤＩ規格が普及した現在では、種々のＭＩＤＩ音源が入手可能であり、実用上は大きな問題は生じない。ただ、もとの音声信号に忠実な再生音を得るためには、もとの音声信号に含まれていた音声波形に近似した波形データをもったＭＩＤＩ音源を用意する必要がある。適当なＭＩＤＩ音源を用いた再生を行うことができれば、むしろもとの音声信号よりも高い音質で、臨場感あふれる再生音を得ることも可能になる。
【００３４】
第２の留意点は、１つの単位区間に含まれる音声データの周波数を、単一の代表周波数に置き換えてしまうという基本原理に基づく符号化手法であるため、非常に幅の広い周波数成分を同時に含んでいるような音声信号の符号化には不向きであるという点である。もちろん、この符号化手法は、どのような音声信号に対しても適用可能であるが、人間の声音のように、非常に周波数レンジの広い音声信号に対して符号化を行っても、再生時に十分な再現性は得られなくなる。したがって、本発明の符号化手法は、主として、生体の発生するリズム音や、波や風などの自然が発生するリズム音のように、個々の単位区間内には、ある程度限定された周波数成分のみを含む音声信号に対して利用するのが好ましい。もっとも、入力段階で、符号化の対象となる音声データをいくつかの部分音声データに分ける手法を採れば、本発明の利用範囲を更に広げることは可能である。この点については、§４で述べることにする。
【００３５】
第３の留意点は、効率的で再現性の高い符号化を行うためには、単位区間の設定方法に工夫を凝らす必要があるという点である。本発明の基本原理は、上述したように、もとの音声データを複数の単位区間に分割し、各単位区間ごとに、単一周波数および単一強度を示す符号データに変換するという点にある。したがって、最終的に得られる符号データは、単位区間の設定方法に大きく依存することになる。最も単純な単位区間の設定方法は、時間軸上で、たとえば１０ｍｓごとというように、等間隔に単位区間を一義的に定義する方法である。しかしながら、この方法では、符号化対象となるもとの音声データにかかわらず、常に一定の方法で単位区間の定義が行われることになり、必ずしも効率的で再現性の高い符号化は期待できない。したがって、実用上は、もとの音声データの波形を解析し、個々の音声データに適した単位区間の設定を行うようにするのが好ましい。
【００３６】
効率的な単位区間の設定を行う１つのアプローチは、音声データの中で周波数帯域が近似した区間を１つのまとまった単位区間として抽出するという方法である。単位区間内の周波数成分は１つの代表周波数によって置き換えられてしまうので、この代表周波数とあまりにかけ離れた周波数成分が含まれていると、再生時の再現性が低減する。したがって、ある程度近似した周波数が持続する区間を１つの単位区間として抽出することは、再現性のよい効率的な符号化を行う上で重要である。このアプローチを採る場合、具体的には、もとの音声データの周波数の変化点を認識し、この変化点を境界とする単位区間の設定を行うようにすればよい。
【００３７】
効率的な単位区間の設定を行うもう１つのアプローチは、音声データの中で信号強度が近似した区間を１つのまとまった単位区間として抽出するという方法である。単位区間内の信号強度は１つの代表強度によって置き換えられてしまうので、この代表強度とあまりにかけ離れた信号強度が含まれていると、再生時の再現性が低減する。したがって、ある程度近似した信号強度が持続する区間を１つの単位区間として抽出することは、再現性のよい効率的な符号化を行う上で重要である。このアプローチを採る場合、具体的には、もとの音声データの信号強度の変化点を認識し、この変化点を境界とする単位区間の設定を行うようにすればよい。
【００３８】
§２．本発明に係る音声信号の符号化方法の実用的な手順
図２は、本発明のより実用的な手順を示す流れ図である。この手順は、入力段階Ｓ１０、変極点定義段階Ｓ２０、区間設定段階Ｓ３０、符号化段階Ｓ４０の４つの大きな段階から構成されている。入力段階Ｓ１０は、符号化対象となる音声信号を、デジタルの音声データとして取り込む段階である。変極点定義段階Ｓ２０は、後の区間設定段階Ｓ３０の準備段階ともいうべき段階であり、取り込んだ音声データの波形について変極点（ローカルピーク）を求める段階である。また、区間設定段階Ｓ３０は、この変極点に基づいて、音声データの時間軸上に複数の単位区間を設定する段階であり、符号化段階Ｓ４０は、個々の単位区間の音声データを個々の符号データに変換する段階である。符号データへの変換原理は、既に§１で述べたとおりである。すなわち、個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報と、によって符号データが生成されることになる。以下、これらの各段階において行われる処理を順に説明する。
【００３９】
＜＜＜２．１入力段階＞＞＞
入力段階Ｓ１０では、サンプリング処理Ｓ１１と直流成分除去処理Ｓ１２とが実行される。サンプリング処理Ｓ１１は、符号化の対象となるアナログ音声信号を、デジタルの音声データとして取り込む処理であり、従来の一般的なＰＣＭの手法を用いてサンプリングを行う処理である。この実施形態では、サンプリング周波数：４４．１ｋＨｚ、量子化ビット数：１６ビットという条件でサンプリングを行い、デジタルの音声データを用意している。
【００４０】
続く、直流成分除去処理Ｓ１２は、入力した音声データに含まれている直流成分を除去するデジタル処理である。たとえば、図３に示す音声データは、振幅の中心レベルが、信号強度を示すデータレンジの中心レベル（具体的なデジタル値としては、たとえば、１６ビットでサンプリングを行い、０〜６５５３５のデータレンジが設定されている場合には３２７６８なる値。以下、説明の便宜上、図３のグラフに示すように、データレンジの中心レベルに０をとり、サンプリングされた個々の信号強度の値を正または負で表現する）よりもＤだけ高い位置にきている。別言すれば、この音声データには、値Ｄに相当する直流成分が含まれていることになる。サンプリング処理の対象になったアナログ音声信号に直流成分が含まれていると、デジタル音声データにもこの直流成分が残ることになる。そこで、直流成分除去処理Ｓ１２によって、この直流成分Ｄを除去する処理を行い、振幅の中心レベルとデータレンジの中心レベルとを一致させる。具体的には、サンプリングされた個々の信号強度の平均が０になるように、直流成分Ｄを差し引く演算を行えばよい。これにより、正および負の両極性デジタル値を信号強度としてもった音声データが用意できる。
【００４１】
＜＜＜２．２変極点定義段階＞＞＞
変極点定義段階Ｓ２０では、変極点探索処理Ｓ２１と同極性変極点の間引処理Ｓ２２とが実行される。変極点探索処理Ｓ２１は、取り込んだ音声データの波形について変極点を求める処理である。図４は、図３に示す音声データの一部を時間軸に関して拡大して示したグラフである。このグラフでは、矢印Ｐ１〜Ｐ６の先端位置の点が変極点（極大もしくは極小の点）に相当し、各変極点はいわゆるローカルピークに相当する点となる。このような変極点を探索する方法としては、たとえば、サンプリングされたデジタル値を時間軸に沿って順に注目してゆき、増加から減少に転じた位置、あるいは減少から増加に転じた位置を認識すればよい。ここでは、この変極点を図示のような矢印で示すことにする。
【００４２】
各変極点は、サンプリングされた１つのデジタルデータに対応する点であり、所定の信号強度の情報（矢印の長さに相当）をもつとともに、時間軸ｔ上での位置の情報をもつことになる。図５は、図４に矢印で示す変極点Ｐ１〜Ｐ６のみを抜き出して示した図である。以下の説明では、この図５に示すように、第ｉ番目の変極点Ｐｉのもつ信号強度（絶対値）を矢印の長さａｉとして示し、時間軸ｔ上での変極点Ｐｉの位置をｔｉとして示すことにする。結局、変極点探索処理Ｓ２１は、図３に示すような音声データに基づいて、図５に示すような各変極点に関する情報を求める処理ということになる。
【００４３】
ところで、図５に示す各変極点Ｐ１〜Ｐ６は、交互に極性が反転する性質を有する。すなわち、図５の例では、奇数番目の変極点Ｐ１，Ｐ３，Ｐ５は上向きの矢印で示され、偶数番目の変極点Ｐ２，Ｐ４，Ｐ６は下向きの矢印で示されている。これは、もとの音声データ波形の振幅が正負交互に現れる振動波形としての本来の姿をしているためである。しかしながら、実際には、このような本来の振動波形が必ずしも得られるとは限らず、たとえば、図６に示すように、多少乱れた波形が得られる場合もある。この図６に示すような音声データに対して変極点探索処理Ｓ２１を実行すると、個々の変極点Ｐ１〜Ｐ７のすべてが検出されてしまうため、図７に示すように、変極点を示す矢印の向きは交互に反転するものにはならない。しかしながら、単一の代表周波数を定義する上では、向きが交互に反転した矢印列が得られるのが好ましい。
【００４４】
同極性変極点の間引処理Ｓ２２は、図７に示すように、同極性のデジタル値をもった変極点（同じ向きの矢印）が複数連続した場合に、絶対値が最大のデジタル値をもった変極点（最も長い矢印）のみを残し、残りを間引きしてしまう処理である。図７に示す例の場合、上向きの３本の矢印Ｐ１〜Ｐ３のうち、最も長いＰ２のみが残され、下向きの３本の矢印Ｐ４〜Ｐ６のうち、最も長いＰ４のみが残され、結局、間引処理Ｓ２２により、図８に示すように、３つの変極点Ｐ２，Ｐ４，Ｐ７のみが残されることになる。この図８に示す変極点は、図６に示す音声データの波形の本来の姿に対応したものになる。
【００４５】
＜＜＜２．３区間設定段階＞＞＞
既に述べたように、本発明に係る符号化方法において、効率的で再現性の高い符号化を行うためには、単位区間の設定方法に工夫を凝らす必要がある。その意味で、図２に示す各段階のうち、区間設定段階Ｓ３０は、実用上非常に重要な段階である。上述した変極点定義段階Ｓ２０は、この区間設定段階Ｓ３０の準備段階になっており、単位区間の設定は、個々の変極点の情報を利用して行われる。すなわち、この区間設定段階Ｓ３０では、変極点に基づいて音声データの周波数もしくは信号強度の変化点を認識し、この変化点を境界とする単位区間を設定する、という基本的な考え方に沿って処理が進められる。
【００４６】
図５に示すように、矢印で示されている個々の変極点Ｐ１〜Ｐ６には、それぞれ信号強度ａ１〜ａ６が定義されている。しかしながら、個々の変極点Ｐ１〜Ｐ６それ自身には、周波数に関する情報は定義されていない。区間設定段階Ｓ３０において最初に行われる固有周波数定義処理Ｓ３１は、個々の変極点それぞれに、所定の固有周波数を定義する処理である。本来、周波数というものは、時間軸上の所定の区間内の波について定義される物理量であり、時間軸上のある１点について定義されるべきものではない。ただ、ここでは便宜上、個々の変極点について、疑似的に固有周波数なるものを定義することにする（一般に、物理学における「固有周波数」という文言は、物体が音波などに共鳴して振動する物体固有の周波数を意味するが、本願における「固有周波数」とは、このような物体固有の周波数を意味するものではなく、個々の変極点それぞれに定義された疑似的な周波数、別言すれば、信号のある瞬間における基本周波数を意味するものである。）。
【００４７】
いま、図９に示すように、多数の変極点のうち、第ｎ番目〜第（ｎ＋２）番目の変極点Ｐ（ｎ），Ｐ（ｎ＋１），Ｐ（ｎ＋２）に着目する。これら各変極点には、それぞれ信号値ａ（ｎ），ａ（ｎ＋１），ａ（ｎ＋２）が定義されており、また、時間軸上での位置ｔ（ｎ），ｔ（ｎ＋１），ｔ（ｎ＋２）が定義されている。ここで、これら各変極点が、音声データ波形のローカルピーク位置に相当する点であることを考慮すれば、図示のように、変極点Ｐ（ｎ）とＰ（ｎ＋２）との間の時間軸上での距離φは、もとの波形の１周期に対応することがわかる。そこで、たとえば、第ｎ番目の変極点Ｐ（ｎ）の固有周波数ｆ（ｎ）なるものを、ｆ（ｎ）＝１／φと定義すれば、個々の変極点について、それぞれ固有周波数を定義することができる。時間軸上での位置ｔ（ｎ），ｔ（ｎ＋１），ｔ（ｎ＋２）が、「秒」の単位で表現されていれば、
φ＝（ｔ（ｎ＋２）−ｔ（ｎ））
であるから、
ｆ（ｎ）＝１／（ｔ（ｎ＋２）−ｔ（ｎ））
として定義できる。
【００４８】
なお、実際のデジタルデータ処理の手順を考慮すると、個々の変極点の位置は、「秒」の単位ではなく、サンプル番号ｘ（サンプリング処理Ｓ１１における何番目のサンプリング時に得られたデータであるかを示す番号）によって表されることになるが、このサンプル番号ｘと実時間「秒」とは、サンプリング周波数ｆｓによって一義的に対応づけられる。たとえば、第ｍ番目のサンプルｘ（ｍ）と第（ｍ＋１）番目のサンプルｘ（ｍ＋１）との間の実時間軸上での間隔は、１／ｆｓになる。
【００４９】
さて、このようにして個々の変極点に定義された固有周波数は、物理的には、その変極点付近のローカルな周波数を示す量ということになる。隣接する別な変極点との距離が短ければ、その付近のローカルな周波数は高く、隣接する別な変極点との距離が長ければ、その付近のローカルな周波数は低いということになる。もっとも、上述の例では、後続する２つ目の変極点との間の距離に基づいて固有周波数を定義しているが、固有周波数の定義方法としては、この他どのような方法を採ってもかまわない。たとえば、第ｎ番目の変極点の固有周波数ｆ（ｎ）を、先行する第（ｎ−２）番目の変極点との間の距離を用いて、
ｆ（ｎ）＝１／（ｔ（ｎ）−ｔ（ｎ−２））
と定義することもできる。また、前述したように、後続する２つ目の変極点との間の距離に基づいて、固有周波数ｆ（ｎ）を、
ｆ（ｎ）＝１／（ｔ（ｎ＋２）−ｔ（ｎ））
なる式で定義した場合であっても、最後の２つの変極点については、後続する２つ目の変極点が存在しないので、先行する変極点を利用して、
ｆ（ｎ）＝１／（ｔ（ｎ）−ｔ（ｎ−２））
なる式で定義すればよい。
【００５０】
あるいは、後続する次の変極点との間の距離に基づいて、第ｎ番目の変極点の固有周波数ｆ（ｎ）を、
ｆ（ｎ）＝（１／２）・１／（ｔ（ｎ＋１）−ｔ（ｎ））
なる式で定義することもできるし、後続する３つ目の変極点との間の距離に基づいて、
ｆ（ｎ）＝（３／２）・１／（ｔ（ｎ＋３）−ｔ（ｎ））
なる式で定義することもできる。結局、一般式を用いて示せば、第ｎ番目の変極点についての固有周波数ｆ（ｎ）は、ｋ個離れた変極点（ｋが正の場合は後続する変極点、負の場合は先行する変極点）との間の時間軸上での距離に基づいて、
ｆ（ｎ）＝（ｋ／２）・１／（ｔ（ｎ＋ｋ）−ｔ（ｎ））
なる式で定義することができる。ｋの値は、予め適当な値に設定しておけばよい。変極点の時間軸上での間隔が比較的小さい場合には、ｋの値をある程度大きく設定した方が、誤差の少ない固有周波数を定義することができる。ただし、ｋの値をあまり大きく設定しすぎると、ローカルな周波数としての意味が失われてしまうことになり好ましくない。
【００５１】
こうして、固有周波数定義処理Ｓ３１が完了すると、個々の変極点Ｐ（ｎ）には、信号強度ａ（ｎ）と、固有周波数ｆ（ｎ）と、時間軸上での位置ｔ（ｎ）とが定義されることになる。
【００５２】
さて、§１では、効率的で再現性の高い符号化を行うためには、１つの単位区間に含まれる変極点の周波数が所定の近似範囲内になるように単位区間を設定するという第１のアプローチと、１つの単位区間に含まれる変極点の信号強度が所定の近似範囲内になるように単位区間を設定するという第２のアプローチとがあることを述べた。ここでは、この２つのアプローチを用いた単位区間の設定手法を、具体例に即して説明しよう。
【００５３】
いま、図１０に示すように、９つの変極点Ｐ１〜Ｐ９のそれぞれについて、信号強度ａ１〜ａ９と固有周波数ｆ１〜ｆ９とが定義されている場合を考える。この場合、第１のアプローチに従えば、個々の固有周波数ｆ１〜ｆ９に着目し、互いに近似した固有周波数をもつ空間的に連続した変極点の一群を１つの単位区間とする処理を行えばよい。たとえば、固有周波数ｆ１〜ｆ５がほぼ同じ値（第１の基準値）をとり、固有周波数ｆ６〜ｆ９がほぼ同じ値（第２の基準値）をとっており、第１の基準値と第２の基準値との差が所定の許容範囲を越えていた場合、図１０に示すように、第１の基準値の近似範囲に含まれる固有周波数ｆ１〜ｆ５をもつ変極点Ｐ１〜Ｐ５を含む区間を単位区間Ｕ１とし、第２の基準値の近似範囲に含まれる固有周波数ｆ６〜ｆ９をもつ変極点Ｐ６〜Ｐ９を含む区間を単位区間Ｕ２として設定すればよい。本発明による手法では、１つの単位区間については、単一の代表周波数が与えられることになるが、このように、固有周波数が互いに近似範囲内にある複数の変極点が存在する区間を１つの単位区間として設定すれば、代表周波数と個々の固有周波数との差が所定の許容範囲内に抑えられることになり、大きな問題は生じない。
【００５４】
続いて、固有周波数が近似する変極点を１グループにまとめて、１つの単位区間を定義するための具体的な手法の一例を以下に示す。たとえば、図１０に示すように、９つの変極点Ｐ１〜Ｐ９が与えられた場合、まず変極点Ｐ１とＰ２について、固有周波数を比較し、両者の差が所定の許容範囲ｆｆ内にあるか否かを調べる。もし、
｜ｆ１−ｆ２｜＜ｆｆ
であれば、変極点Ｐ１，Ｐ２を第１の単位区間Ｕ１に含ませる。そして、今度は、変極点Ｐ３を、この第１の単位区間Ｕ１に含ませてよいか否かを調べる。これは、この第１の単位区間Ｕ１についての平均固有周波数（ｆ１＋ｆ２）／２と、ｆ３との比較を行い、
｜（ｆ１＋ｆ２）／２−ｆ３｜＜ｆｆ
であれば、変極点Ｐ３を第１の単位区間Ｕ１に含ませればよい。更に、変極点Ｐ４に関しては、
｜（ｆ１＋ｆ２＋ｆ３）／３−ｆ４｜＜ｆｆ
であれば、これを第１の単位区間Ｕ１に含ませることができ、変極点Ｐ５に関しては、
｜（ｆ１＋ｆ２＋ｆ３＋ｆ４）／４−ｆ５｜＜ｆｆ
であれば、これを第１の単位区間Ｕ１に含ませることができる。ここで、もし、変極点Ｐ６について、
｜（ｆ１＋ｆ２＋ｆ３＋ｆ４＋ｆ５）／５−ｆ６｜＞ｆｆ
なる結果が得られたしまった場合、すなわち、固有周波数ｆ６と、第１の単位区間Ｕ１の平均固有周波数との差が、所定の許容範囲ｆｆを越えてしまった場合、変極点Ｐ５とＰ６との間に不連続位置が検出されたことになり、変極点Ｐ６を第１の単位区間Ｕ１に含ませることはできない。そこで、変極点Ｐ５をもって第１の単位区間Ｕ１の終端とし、変極点Ｐ６は別な第２の単位区間Ｕ２の始端とする。そして、変極点Ｐ６とＰ７について、固有周波数を比較し、両者の差が所定の許容範囲ｆｆ内にあるか否かを調べ、もし、
｜ｆ６−ｆ７｜＜ｆｆ
であれば、変極点Ｐ６，Ｐ７を第２の単位区間Ｕ２に含ませる。そして、今度は、変極点Ｐ８に関して、
｜（ｆ６＋ｆ７）／２−ｆ８｜＜ｆｆ
であれば、これを第２の単位区間Ｕ２に含ませ、変極点Ｐ９に関して、
｜（ｆ６＋ｆ７＋ｆ８）／３−ｆ９｜＜ｆｆ
であれば、これを第２の単位区間Ｕ２に含ませる。
【００５５】
このような手法で、不連続位置の検出を順次行ってゆき、各単位区間を順次設定してゆけば、上述した第１のアプローチに沿った区間設定が可能になる。もちろん、上述した具体的な手法は、一例として示したものであり、この他にも種々の手法を採ることができる。たとえば、平均値と比較する代わりに、常に隣接する変極点の固有周波数を比較し、差が許容範囲ｆｆを越えた場合に不連続位置と認識する簡略化した手法を採ってもかまわない。すなわち、ｆ１とｆ２との差、ｆ２とｆ３との差、ｆ３とｆ４との差、…というように、個々の差を検討してゆき、差が許容範囲ｆｆを越えた場合には、そこを不連続位置として認識すればよい。
【００５６】
以上、第１のアプローチについて述べたが、第２のアプローチに基づく単位区間の設定も同様に行うことができる。この場合は、個々の変極点の信号強度ａ１〜ａ９に着目し、所定の許容範囲ａａとの比較を行うようにすればよい。もちろん、第１のアプローチと第２のアプローチとの双方を組み合わせて、単位区間の設定を行ってもよい。この場合は、個々の変極点の固有周波数ｆ１〜ｆ９と信号強度ａ１〜ａ９との双方に着目し、両者がともに所定の許容範囲ｆｆおよびａａ内に入っていれば、同一の単位区間に含ませるというような厳しい条件を課してもよいし、いずれか一方が許容範囲内に入っていれば、同一の単位区間に含ませるというような緩い条件を課してもよい。
【００５７】
なお、この区間設定段階Ｓ３０においては、上述した各アプローチに基づいて単位区間の設定を行う前に、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外する処理を行っておくのが好ましい。たとえば、図１１に示す例のように所定の許容レベルＬＬを設定すると、変極点Ｐ４の信号強度ａ４と変極点Ｐ９の信号強度ａ９は、その絶対値がこの許容レベルＬＬ未満になる。このような場合、変極点Ｐ４，Ｐ９を除外する処理を行うのである。このような除外処理を行う第１の意義は、もとの音声信号に含まれていたノイズ成分を除去することにある。通常、音声信号を電気的に取り込む過程では、種々のノイズ成分が混入することが多く、このようなノイズ成分までも含めて符号化が行われると好ましくない。
【００５８】
もっとも、許容レベルＬＬをある程度以上に設定すると、ノイズ成分以外のものも除外されることになるが、このようにノイズ成分以外の信号を除外することも、場合によっては、十分に意味のある処理になる。すなわち、この除外処理を行う第２の意義は、もとの音声信号に含まれていた情報のうち、興味の対象外となる情報を除外することにある。たとえば、図１の上段に示す音声信号は、人間の心音を示す信号であるが、この音声信号のうち、疾患の診断などに有効な情報は、振幅の大きな部分（各単位区間Ｕ１〜Ｕ６の部分）に含まれており、それ以外の部分の情報はあまり役にたたない。そこで、所定の許容レベルＬＬを設定し、無用な情報部分を除外する処理を行うと、より効率的な符号化が可能になる。
【００５９】
また、心音や肺音のように、生体が発生する生理的リズム音における比較的振幅の小さな成分は、生体内で発生する反響音であることが多く、このような反響音は、符号化の時点で一旦除外してしまっても、再生時にエコーなどの音響効果を加えることにより容易に付加することが可能である。このような点においても、許容レベル未満の変極点を除外する処理は意味をもつ。
【００６０】
なお、許容レベル未満の変極点を除外する処理を行った場合は、除外された変極点の位置で分割されるように単位区間定義を行うようにするのが好ましい。たとえば、図１１に示す例の場合、除外された変極点Ｐ４，Ｐ９の位置（一点鎖線で示す）で分割された単位区間Ｕ１，Ｕ２が定義されている。このような単位区間定義を行えば、図１の上段に示す音声信号のように、信号強度が許容レベル以上の区間（単位区間Ｕ１〜Ｕ６の各区間）と、許容レベル未満の区間（単位区間Ｕ１〜Ｕ６以外の区間）とが交互に出現するような音声信号の場合、非常に的確な単位区間の定義が可能になる。
【００６１】
これまで、区間設定段階Ｓ３０で行われる効果的な区間設定手法の要点を述べてきたが、ここでは、より具体的な手順を述べることにする。図２の流れ図に示されているように、この区間設定段階Ｓ３０は、４つの処理Ｓ３１〜Ｓ３４によって構成されている。固有周波数定義処理Ｓ３１は、既に述べたように、各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義する処理である。ここでは、図１２に示すように、変極点Ｐ１〜Ｐ１７のそれぞれについて、固有周波数ｆ１〜ｆ１７が定義された例を考える。
【００６２】
続く、レベルによるスライス処理Ｓ３２は、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外し、除外された変極点の位置で分割されるような区間を定義する処理である。ここでは、図１２に示すような変極点Ｐ１〜Ｐ１７に対して、図１３に示すような許容レベルＬＬを設定した場合を考える。この場合、変極点Ｐ１，Ｐ２，Ｐ１１，Ｐ１６，Ｐ１７が、許容レベル未満の変極点として除外されることになる。図１４では、このようにして除外された変極点を破線の矢印で示す。この「レベルによるスライス処理Ｓ３２」では、更に、除外された変極点の位置で分割されるような区間Ｋ１，Ｋ２が定義される。ここでは、１つでも除外された変極点が存在する場合には、その位置の左右に異なる区間を設定するようにしており、結果的に、変極点Ｐ３〜Ｐ１０までの区間Ｋ１と、変極点Ｐ１２〜Ｐ１５までの区間Ｋ２とが設定されることになる。なお、ここで定義された区間Ｋ１，Ｋ２は、暫定的な区間であり、必ずしも最終的な単位区間になるとは限らない。
【００６３】
次の不連続部分割処理Ｓ３３は、時間軸上において、変極点の固有周波数もしくは信号強度の値が不連続となる不連続位置を探し、処理Ｓ３２で定義された個々の区間を、更にこの不連続位置で分割することにより、新たな区間を定義する処理である。たとえば、上述の例の場合、図１５に示すような暫定区間Ｋ１，Ｋ２が定義されているが、ここで、もし暫定区間Ｋ１内の変極点Ｐ６とＰ７との間に不連続が生じていた場合は、この不連続位置で暫定区間Ｋ１を分割し、図１６に示すように、新たに暫定区間Ｋ１−１とＫ１−２とが定義され、結局、３つの暫定区間Ｋ１−１，Ｋ１−２，Ｋ２が形成されることになる。不連続位置の具体的な探索手法は既に述べたとおりである。たとえば、図１５の例の場合、
｜（ｆ３＋ｆ４＋ｆ５＋ｆ６）／４−ｆ７｜＞ｆｆ
の場合に、変極点Ｐ６とＰ７との間に固有周波数の不連続が生じていると認識されることになる。同様に、変極点Ｐ６とＰ７との間の信号強度の不連続は、
｜（ａ３＋ａ４＋ａ５＋ａ６）／４−ａ７｜＞ａａ
の場合に認識される。
【００６４】
不連続部分割処理Ｓ３３で、実際に区間分割を行うための条件としては、
▲１▼固有周波数の不連続が生じた場合にのみ区間の分割を行う、
▲２▼信号強度の不連続が生じた場合にのみ区間の分割を行う、
▲３▼固有周波数の不連続か信号強度の不連続かの少なくとも一方が生じた場合に区間の分割を行う、
▲４▼固有周波数の不連続と信号強度の不連続との両方が生じた場合にのみ区間の分割を行う、
など、種々の条件を設定することが可能である。あるいは、不連続の度合いを考慮して、上述の▲１▼〜▲４▼を組み合わせるような複合条件を設定することもできる。
【００６５】
こうして、不連続部分割処理Ｓ３３によって得られた区間（上述の例の場合、３つの暫定区間Ｋ１−１，Ｋ１−２，Ｋ２）を、最終的な単位区間として設定することもできるが、ここでは更に、区間統合処理Ｓ３４を行っている。この区間統合処理Ｓ３４は、不連続部分割処理Ｓ３３によって得られた区間のうち、一方の区間内の変極点の固有周波数もしくは信号強度の平均と、他方の区間内の変極点の固有周波数もしくは信号強度の平均との差が、所定の許容範囲内であるような２つの隣接区間が存在する場合に、この隣接区間を１つの区間に統合する処理である。たとえば、上述の例の場合、図１７に示すように、区間Ｋ１−２と区間Ｋ２とを平均固有周波数で比較した結果、
｜（ｆ７＋ｆ８＋ｆ９＋ｆ１０）／４
−（ｆ１２＋ｆ１３＋ｆ１４＋ｆ１５）／４｜＜ｆｆ
のように、平均の差が所定の許容範囲ｆｆ以内であった場合には、区間Ｋ１−２と区間Ｋ２とは統合されることになる。もちろん、平均信号強度の差が許容範囲ａａ以内であった場合に統合を行うようにしてもよいし、平均固有周波数の差が許容範囲ｆｆ内という条件と平均信号強度の差が許容範囲ａａ以内という条件とのいずれか一方が満足された場合に統合を行うようにしてもよいし、両条件がともに満足された場合に統合を行うようにしてもよい。また、このような種々の条件が満足されていても、両区間の間の間隔が時間軸上で所定の距離以上離れていた場合（たとえば、多数の変極点が除外されたために、かなりの空白区間が生じているような場合）は、統合処理を行わないような加重条件を課すことも可能である。
【００６６】
かくして、この区間統合処理Ｓ３４を行った後に得られた区間が、最終的な単位区間として設定されることになる。上述の例では、最終的に、図１８に示すように、単位区間Ｕ１（図１７の暫定区間Ｋ１−１）と、単位区間Ｕ２（図１７で統合された暫定区間Ｋ１−２およびＫ２）とが設定される。
【００６７】
なお、ここに示す実施態様では、こうして得られた単位区間の始端と終端を、その区間に含まれる最初の変極点の時間軸上の位置を始端とし、その区間に含まれる最後の変極点の時間軸上の位置を終端とする、という定義で定めることにする。したがって、図１８に示す例では、単位区間Ｕ１は時間軸上の位置ｔ３〜ｔ６までの区間であり、単位区間Ｕ２は時間軸上の位置ｔ７〜ｔ１５までの区間となる。
【００６８】
＜＜＜２．４符号化段階＞＞＞
次に、図２の流れ図に示されている符号化段階Ｓ４０について説明する。ここに示す実施形態では、この符号化段階Ｓ４０は、符号データ生成処理Ｓ４１と、符号データ修正処理Ｓ４２とによって構成されている。符号データ生成処理Ｓ４１は、区間設定段階Ｓ３０において設定された個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報とを含む符号データを生成する処理であり、この処理により、個々の単位区間の音声データは個々の符号データによって表現されることになる。一方、符号データ修正処理Ｓ４２は、後述するように、生成された符号データを、復号化に用いる再生音源装置の特性に適合させるために修正する処理である。
【００６９】
符号データ生成処理Ｓ４１における符号データ生成の具体的手法は、非常に単純である。すなわち、個々の単位区間内に含まれる変極点の固有周波数に基づいて代表周波数を定義し、個々の単位区間内に含まれる変極点のもつ信号強度に基づいて代表強度を定義ればよい。これを図１８の例で具体的に示そう。この図１８に示す例では、変極点Ｐ３〜Ｐ６を含む単位区間Ｕ１と、変極点Ｐ７〜Ｐ１５（ただし、Ｐ１１は除外されている）を含む単位区間Ｕ２とが設定されている。ここに示す実施形態では、単位区間Ｕ１（始端ｔ３，終端ｔ６）については、図１９上段に示すように、代表周波数Ｆ１および代表強度Ａ１が、
Ｆ１＝（ｆ３＋ｆ４＋ｆ５＋ｆ６）／４
Ａ１＝（ａ３＋ａ４＋ａ５＋ａ６）／４
なる式で演算され、単位区間Ｕ２（始端ｔ７，終端ｔ１５）については、図１９下段に示すように、代表周波数Ｆ２および代表強度Ａ２が、
Ｆ２＝（ｆ７＋ｆ８＋ｆ９＋ｆ１０＋ｆ１２＋ｆ１３＋ｆ１４＋ｆ１５）／８
Ａ２＝（ａ７＋ａ８＋ａ９＋ａ１０＋ａ１２＋ａ１３＋ａ１４＋ａ１５）／８
なる式で演算される。別言すれば、代表周波数および代表強度は、単位区間内に含まれる変極点の固有周波数および信号強度の単純平均値となっている。もっとも、代表値としては、このような単純平均値だけでなく、重みを考慮した加重平均値をとってもかまわない。たとえば、信号強度に基づいて個々の変極点に重みづけをし、この重みづけを考慮した固有周波数の加重平均値を代表周波数としてもよい。
【００７０】
こうして個々の単位区間に、それぞれ代表周波数および代表強度が定義されれば、時間軸上での個々の単位区間の始端位置と終端位置は既に得られているので、個々の単位区間に対応する符号データの生成が可能になる。たとえば、図１８に示す例の場合、図２０に示すように、５つの区間Ｅ０，Ｕ１，Ｅ１，Ｕ２，Ｅ２を定義するための符号データを生成することができる。ここで、区間Ｕ１，Ｕ２は、前段階で設定された単位区間であり、区間Ｅ０，Ｅ１，Ｅ２は、各単位区間の間に相当する空白区間である。各単位区間Ｕ１，Ｕ２には、それぞれ代表周波数Ｆ１，Ｆ２と代表強度Ａ１，Ａ２が定義されているが、空白区間Ｅ０，Ｅ１，Ｅ２は、単に始端および終端のみが定義されている区間である。
【００７１】
図２１は、図２０に示す個々の区間に対応する符号データの構成例を示す図表である。この例では、１行に示された符号データは、区間名（実際には、不要）と、区間の始端位置および終端位置と、代表周波数および代表強度と、によって構成されている。一方、図２２は、図２０に示す個々の区間に対応する符号データの別な構成例を示す図表である。図２１に示す例では、各単位区間の始端位置および終端位置を直接符号データとして表現していたが、図２２に示す例では、各単位区間の始端位置および終端位置を示す情報として、区間長Ｌ１〜Ｌ４（図２０参照）を用いている。なお、図２１に示す構成例のように、単位区間の始端位置および終端位置を直接符号データとして用いる場合には、実際には、空白区間Ｅ０，Ｅ１，…についての符号データは不要である（図２１に示す単位区間Ｕ１，Ｕ２の符号データのみから、図２０の構成が再現できる）。
【００７２】
本発明に係る音声信号の符号化方法によって、最終的に得られる符号データは、この図２１あるいは図２２に示すような符号データである。もっとも、符号データとしては、各単位区間の時間軸上での始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報とが含まれていれば、どのような構成のデータを用いてもかまわない。最終的に得られる符号データに、上述の情報さえ含まれていれば、所定の音源を用いて音声の再生（復号化）が可能になる。たとえば、図２０に示す例の場合、時刻０〜ｔ３の期間は沈黙を守り、時刻ｔ３〜ｔ６の期間に周波数Ｆ１に相当する音を強度Ａ１で鳴らし、時刻ｔ６〜ｔ７の期間は沈黙を守り、時刻ｔ７〜ｔ１５の期間に周波数Ｆ２に相当する音を強度Ａ２で鳴らせば、もとの音声信号の再生が行われることになる。
【００７３】
§３．ＭＩＤＩ形式の符号データを用いる実施形態
＜＜＜３．１ＭＩＤＩデータへの変換原理＞＞＞
上述したように、本発明に係る音声信号の符号化方法では、最終的に、個々の単位区間についての始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報とが含まれた符号データであれば、どのような形式の符号データを用いてもかまわない。しかしながら、実用上は、そのような符号データとして、ＭＩＤＩ形式の符号データを採用するのが最も好ましい。ここでは、ＭＩＤＩ形式の符号データの中でも、最も標準的に利用されているＳＭＦ（Standard MIDI File）形式の符号データを採用した具体的な実施形態を示す。
【００７４】
図２３は、一般的なＳＭＦ形式の符号データの構成を示す図である。図示のとおり、このＳＭＦ形式では、「ノートオン」データもしくは「ノートオフ」データが、「デルタタイム」データを介在させながら存在する。「デルタタイム」データは、１〜４バイトのデータで構成され、所定の時間間隔を示すデータである。一方、「ノートオン」データは、全部で３バイトから構成されるデータであり、１バイト目は常にノートオン符号「９０ H」に固定されており（ Hは１６進数を示す）、２バイト目にノートナンバーＮを示すコードが、３バイト目にベロシティーＶを示すコードが、それぞれ配置される。ノートナンバーＮは、音階（一般の音楽でいう全音７音階の音階ではなく、ここでは半音１２音階の音階をさす）の番号を示す数値であり、このノートナンバーＮが定まると、たとえば、ピアノの特定の鍵盤キーが指定されることになる（Ｃ−２の音階がノートナンバーＮ＝０に対応づけられ、以下、Ｎ＝１２７までの１２８通りの音階が対応づけられる。ピアノの鍵盤中央のラの音（Ａ３音）は、ノートナンバーＮ＝６９になる）。ベロシティーＶは、音の強さを示すパラメータであり（もともとは、ピアノの鍵盤などを弾く速度を意味する）、Ｖ＝０〜１２７までの１２８段階の強さが定義される。
【００７５】
同様に、「ノートオフ」データも、全部で３バイトから構成されるデータであり、１バイト目は常にノートオフ符号「８０ H」に固定されており、２バイト目にノートナンバーＮを示すコードが、３バイト目にベロシティーＶを示すコードが、それぞれ配置される。「ノートオン」データと「ノートオフ」データとは対になって用いられる。たとえば、「９０ H，６９，８０」なる３バイトの「ノートオン」データは、ノートナンバーＮ＝６９に対応する鍵盤中央のラのキーを押し下げる操作を意味し、以後、同じノートナンバーＮ＝６９を指定した「ノートオフ」データが与えられるまで、そのキーを押し下げた状態が維持される（実際には、ピアノなどのＭＩＤＩ音源の波形を用いた場合、有限の時間内に、ラの音の波形は減衰してしまう）。ノートナンバーＮ＝６９を指定した「ノートオフ」データは、たとえば、「８０ H，６９，５０」のような３バイトのデータとして与えられる。「ノートオフ」データにおけるベロシティーＶの値は、たとえばピアノの場合、鍵盤キーから指を離す速度を示すパラメータになる。
【００７６】
なお、上述の説明では、ノートオン符号「９０ H」およびノートオフ符号「８０ H」は固定であると述べたが、これらの符号の下位４ビットは必ずしも０に固定されているわけではなく、チャネル番号０〜１５のいずれかを特定するコードとして利用することができ、チャネルごとにそれぞれ別々の楽器の音色についてのオン・オフを指定することができる。
【００７７】
このように、ＭＩＤＩデータは、もともと楽器演奏の操作に関する情報（別言すれば、楽譜の情報）を記述する目的で利用されている符号データであるが、本発明に係る音声信号の符号化方法への利用にも適している。すなわち、各単位区間についての代表周波数Ｆに基づいてノートナンバーＮを定め、代表強度Ａに基づいてベロシティーＶを定め、単位区間の長さＬに基づいてデルタタイムＴを定めるようにすれば、１つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるＭＩＤＩ形式の符号データに変換することが可能になる。このようなＭＩＤＩデータへの具体的な変換方法を図２４に示す。
【００７８】
まず、ＭＩＤＩデータのデルタタイムＴは、単位区間の区間長Ｌ（単位：秒）を用いて、
Ｔ＝Ｌ・７６８
なる簡単な式で定義できる。ここで、数値「７６８」は、四分音符を基準にして、その長さ分解能（たとえば、長さ分解能を１／２に設定すれば八分音符まで、１／８に設定すれば三十二分音符まで表現可能：一般の音楽では１／１６程度の設定が使われる）を、ＭＩＤＩ規格での最小値である１／３８４に設定し、メトロノーム指定を四分音符＝１２０（毎分１２０音符）にした場合のＭＩＤＩデータによる表現形式における時間分解能を示す固有の数値である。
【００７９】
また、ＭＩＤＩデータのノートナンバーＮは、１オクターブ上がると、周波数が２倍になる対数尺度の音階では、単位区間の代表周波数Ｆ（単位：Ｈｚ）を用いて、
Ｎ＝（１２／ｌｏｇ_１０２）・（ｌｏｇ_１０（Ｆ／４４０）＋６９
なる式で定義できる。ここで、右辺第２項の数値「６９」は、ピアノ鍵盤中央のラの音（Ａ３音）のノートナンバー（基準となるノートナンバー）を示しており、右辺第１項の数値「４４０」は、このラの音の周波数（４４０Ｈｚ）を示しており、右辺第１項の数値「１２」は、半音を１音階として数えた場合の１オクターブの音階数を示している。
【００８０】
更に、ＭＩＤＩデータのベロシティーＶは、単位区間の代表強度Ａと、その最大値Ａmax とを用いて、
Ｖ＝（Ａ／Ａmax ）・１２７
なる式で、Ｖ＝０〜１２７の範囲の値を定義することができる。なお、通常の楽器の場合、「ノートオン」データにおけるベロシティーＶと、「ノートオフ」データにおけるベロシティーＶとは、上述したように、それぞれ異なる意味をもつが、この実施形態では、「ノートオフ」データにおけるベロシティーＶとして、「ノートオン」データにおけるベロシティーＶと同一の値をそのまま用いるようにしている。
【００８１】
前章の§２では、図２０に示すような２つの単位区間Ｕ１，Ｕ２内の音声データに対して、図２１あるいは図２２に示すような符号データが生成される例を示したが、ＳＭＦ形式のＭＩＤＩデータを用いた場合、単位区間Ｕ１，Ｕ２内の音声データは、図２５の図表に示すような各データ列で表現されることになる。ここで、ノートナンバーＮ１，Ｎ２は、代表周波数Ｆ１，Ｆ２を用いて上述の式により得られた値であり、ベロシティーＶ１，Ｖ２は、代表強度Ａ１，Ａ２を用いて上述の式により得られた値である。
【００８２】
＜＜＜３．２ＭＩＤＩデータの修正処理＞＞＞
図２に示す流れ図における符号化段階Ｓ４０では、符号データ生成処理Ｓ４１の後に、符号データ修正処理Ｓ４２が行われる。符号データ生成処理Ｓ４１は、上述した具体的な手法により、たとえば、図２５に示すようなＭＩＤＩデータ列を生成する処理であり、符号データ修正処理Ｓ４２は、このようなＭＩＤＩデータ列に対して、更に修正を加える処理である。後述するように、図２５に示すようなＭＩＤＩデータ列に基づいて、音声を再生（復号化）するには、実際の音声の波形データをもった再生音源装置（ＭＩＤＩ音源）が必要になるが、このＭＩＤＩ音源の特性は個々の音源ごとに様々であり、必要に応じて、用いるＭＩＤＩ音源の特性に適合させるために、ＭＩＤＩデータに修正処理を加えた方が好ましい場合がある。以下に、このような修正処理が必要な具体的な事例を述べる。
【００８３】
いま、図２６の上段に示すように、区間長Ｌｉをもった単位区間Ｕｉ内の音声データが所定のＭＩＤＩデータ（修正前のＭＩＤＩデータ）によって表現されていた場合を考える。すなわち、この単位区間Ｕｉには、代表周波数Ｆｉおよび代表強度Ａｉが定義されており、代表周波数Ｆｉ，代表強度Ａｉ，区間長Ｌｉに基づいて、ノートナンバーＮｉ，ベロシティーＶｉ，デルタタイムＴｉが設定されていることになる。このとき、このＭＩＤＩデータを再生するために用いる予定のＭＩＤＩ音源のノートナンバーＮｉに対応する再生音の波形が、図２６の中段に示すようなものであったとしよう。この場合、単位区間Ｕｉの単位長Ｌｉよりも、ＭＩＤＩ音源の再生音の持続時間ＬＬｉの方が短いことになる。したがって、修正前のＭＩＤＩデータを、このＭＩＤＩ音源を用いてそのまま再生すると、本来の音が鳴り続けなければならない時間Ｌｉよりも短い持続時間ＬＬｉで、再生音は減衰してしまうことになる。このような事態が生じると、もとの音声信号の再現性が低下してしまう。
【００８４】
そこで、このような場合、単位区間を複数の小区間に分割し、各小区間ごとにそれぞれ別個の符号データを生成する修正処理を行うとよい。この図２６に示す例の場合、図の下段に示すように、もとの単位区間Ｕｉを、２つの小区間Ｕｉ１，Ｕｉ２に分割し、それぞれについて別個のＭＩＤＩデータを生成するようにしている。個々の小区間Ｕｉ１，Ｕｉ２に定義される代表周波数および代表強度は、いずれも分割前の単位区間Ｕｉの代表周波数Ｆｉおよび代表強度Ａｉと同じであり、区間長だけがＬｉ／２になったわけであるから、修正後のＭＩＤＩデータとしては、結局、ノートナンバーＮｉ，ベロシティーＶｉ，デルタタイムＴｉ／２を示すＭＩＤＩデータが２組得られることになる。
【００８５】
一般のＭＩＤＩ音源では、通常、再生音の持続時間はその再生音の周波数に応じて決まる。特に、心音などの音色についての音源では、再生音の周波数をｆ（Ｈｚ）とした場合、その持続時間は５／ｆ（秒）程度である。したがって、このような音源を用いたときには、特定の単位区間Ｕｉについて、代表周波数Ｆｉと区間長Ｌｉとの関係が、Ｌｉ＞５／Ｆｉとなるような場合には、Ｌｉ／ｍ＜５／Ｆｉとなるような適当な分割数ｍを求め、上述した修正処理により、単位区間Ｕｉをｍ個の小区間に分割するような処理を行うのが好ましい。
【００８６】
続いて、修正処理が必要な別な事例を示そう。いま、再生に用いる予定のＭＩＤＩ音源の再生音が、図２７の左側に示すような周波数レンジを有しているのに対し、生成された一連のＭＩＤＩデータに基づく再生音の周波数レンジが、図２７の右側に示すように、低音側にオフセット量ｄだけ偏りを生じていたとしよう。このような場合、再生音はＭＩＤＩ音源の一部の周波数帯域のみを使って提示されるようになるため、一般的には好ましくない。そこで、ＭＩＤＩデータの周波数の平均が、ＭＩＤＩ音源の周波数レンジの中心（この例では、４４０Ｈｚの基準ラ音（ノートナンバーＮ＝６９））に近付くように、ＭＩＤＩデータ側の周波数（ノートナンバー）を全体的に引き上げる修正処理を行い、図２８に示すように、オフセット量ｄが０になるようにするとよい。
【００８７】
もっとも、音声信号の性質によっては、むしろ低音側にシフトした状態のままで再生した方が好ましいものもあり、上述のような修正処理によって必ずしも良好な結果が得られるとは限らない。したがって、個々の音声信号の性質を考慮した上で、このような修正処理を行うか否かを適宜判断するのが好ましい。
【００８８】
この他にも、用いるＭＩＤＩ音源によっては、特性に適合させるために種々の修正処理が必要な場合がある。たとえば、１オクターブの音階差が２倍の周波数に対応していないような特殊な規格のＭＩＤＩ音源を用いた場合には、この規格に適合させるように、ノートナンバーの修正処理などが必要になる。
【００８９】
§４．一般の音声信号への適用
既に述べたとおり、本発明は、１つの単位区間に含まれる音声データの周波数を、単一の代表周波数に置き換えてしまうという基本原理に基づく符号化手法であるため、非常に幅の広い周波数成分を同時に含んでいるような一般の音声信号の符号化には不向きであり、主として、生体の発生するリズム音や、波や風などの自然が発生するリズム音のように、個々の単位区間内には、ある程度限定された周波数成分のみを含む音声信号の符号化に向いている。ただ、一般の音声信号の符号化に広く適用することが不可能なわけではなく、周波数を分離する準備処理を付加すれば、原理的にはどのような音声信号に対しても適用可能である。
【００９０】
たとえば、図２９の上段に示すように、種々の周波数成分が混在する一般の音声信号（音声データ）が与えられた場合、入力段階において、帯域フィルタ処理やフーリエ変換処理などを利用した分離処理を施して、それぞれ周波数特性が異なる複数ｎ個の部分音声データを生成し、このｎ個の部分音声データのそれぞれについて、後続する各段階を別個独立して実施し、最終的に和声（和音）として同時に再生することができるｎ組の符号データを生成するようにすればよい。図２９の例では、周波数特性ｆａ，ｆｂ，ｆｃを含む３組の部分音声データを生成し、これらについて別個に符号化処理を施して符号データ（図では音符で示してある）を生成し、最後に、これら３組の符号データを同時に再生して和音としての提示を行っている。
【００９１】
たとえば、フルオーケストラの合奏を音声データとして取り込んだ場合、種々の周波数特性をもった楽器音が混在することになるが、個々の楽器音はそれぞれ固有の周波数特性を有する。たとえば、ピアノの場合、基本周波数に対して奇数倍の倍音しか発生しないといった独特の倍音分布特性を有する。したがって、グラフィック・イコライザなどを利用すれば、このような個々の楽器の周波数特性に基づいて、オーケストラの音声データを、各楽器ごとの部分音声データに分離することが可能である。こうして、楽器ごとの部分音声データが得られたら、各部分音声データごとに符号データの生成処理を別個に行い、最終的に得られた複数組の符号データを和声として同時に再生すれば、もとのフルオーケストラの合奏に近い形での再生が可能になる。
【００９２】
また、ピアノの独奏のようなソロ楽器演奏を音声データとして取り込んだ場合は、符号化処理段階で複数の符号データを生成する手法を採ることも有効である。すなわち、各変極点について、それぞれ複数の固有周波数を定義し、符号化段階で、各単位区間に対してそれぞれ複数の代表周波数を定義し、各代表周波数ごとに別個の符号データを生成するのである。こうして生成した複数組の符号データを、和声として同時に再生すれば、もとの音に近い形での再生が可能になる。
【００９３】
もっとも、本発明に係る音声信号の符号化方法の特徴のひとつは、符号化処理のための演算が非常に単純である点にあり、実際、§２および§３で述べた具体的な手法を実施する上での演算負担は極めて軽いものである。このため、一般のパーソナルコンピュータを用いたシステムでも、この符号化処理演算を十分に実施することができる。ところが、上述した周波数特性に基づく分離処理は、通常、かなりの演算負担を強いられる処理であり、この分離のための付加的な処理を含めると、全体的な演算負担は重くならざるを得ず、現時点でのハードウエア技術を考慮すると、生体が発生する生理的リズム音などの分野において利用するのが好ましい。
【００９４】
§５．本発明に係る音声の記録再生装置
本発明に係る音声の記録再生装置は、これまで述べてきた音声信号の符号化方法を利用して、時系列の強度信号として与えられる音声信号を符号化して記録し、ＭＩＤＩ音源などを利用して、これを復号化して再生する装置である。
【００９５】
図３０は、本発明の一実施形態に係る記録再生装置の基本構成を示すブロック図である。この装置の基本構成要素は、図示のとおり、音声信号入力装置１０、符号化処理装置２０、記憶装置３０、再生音源装置４０、復号化処理装置５０、スピーカ装置６０、符号データ提示装置７０、ディスプレイ装置８０、プリンタ装置９０である。音声信号入力装置１０は、記録対象となるアナログ音声信号を入力する機能を有し、ここで入力されたアナログ音声信号は、符号化処理装置２０へ与えられる。この符号化処理装置２０は、入力されたアナログ音声信号を、デジタルの音声データとして取り込み、この音声データの時間軸上に複数の単位区間を設定し、各単位区間内の音声データを、時間軸上での単位区間の長さを示す情報と所定の代表周波数および代表強度を示す情報とを含む符号データに変換する機能をもった装置であり、§１〜§４において述べた音声信号の符号化手順を実行する装置である。ＭＩＤＩ規格の符号データを用いた場合、この符号化処理装置２０によって、ＭＩＤＩデータが生成されることになる。記憶装置３０は、この符号化処理装置２０によって符号化された符号データ（たとえば、ＭＩＤＩデータ）を記憶する装置であり、ここに記録された符号データは、復号化に用いる再生音波形を格納した再生音源装置４０（たとえば、ＭＩＤＩ音源）を用いて、復号化処理装置５０によって復号化され、スピーカ装置６０によって再生されることになる。
【００９６】
また、符号データ提示装置７０は、記憶装置３０内の符号データを、単位区間の長さ、代表周波数、代表強度、を認識しうる態様で、画像として提示する機能を有し、ディスプレイ装置８０の表示画面、あるいはプリンタ装置９０による印刷面に、この符号データの内容が提示されることになる。たとえば、ＭＩＤＩデータの場合、音符を用いた楽譜形式の表示態様により、視覚的に認識しうる形で提示を行うことができる。
【００９７】
なお、図３０に示すブロック図において、一点鎖線で囲った構成要素１００は、汎用のパーソナルコンピュータを利用して構成することができる。すなわち、記憶装置３０は、このパーソナルコンピュータのメモリや外部記憶装置を利用して構成することができ、符号化処理装置２０，復号化処理装置５０，符号データ提示装置７０は、このパーソナルコンピュータ用のアプリケーションソフトウエアという形式で構成することができる。また、音声信号入力装置１０は、このコンピュータに接続されたマイクロフォンなどにより構成することができ、スピーカ装置６０は、このコンピュータに内蔵もしくは接続されたスピーカやアンプ装置により構成することができ、ディスプレイ装置８０およびプリンタ装置９０は、このコンピュータに接続されたディスプレイやプリンタにより構成することができるので、この装置全体は、汎用のパーソナルコンピュータおよびその周辺機器のハードウエアをそのまま利用して構成することが可能である。
【００９８】
また、復号化処理装置５０や符号データ提示装置７０の機能を果たすアプリケーションソフトウエアとしては、一般に市販されているＭＩＤＩ楽器演奏用のソフトウエアや、作曲用のソフトウエアをそのまま利用することもできるので、結局、本発明に係る音声の記録再生装置は、符号化処理装置２０としての機能を果たすアプリケーションソフトウエア（すなわち、§１〜§４で述べた音声信号の符号化処理を実行するソフトウエア）を、ＭＩＤＩ機能を備えた汎用パーソナルコンピュータに組み込むことにより容易に実現可能である。もちろん、符号化処理装置２０としての機能を果たすアプリケーションソフトウエアは、フロッピディスク、ＭＯディスク、ＣＤ−ＲＯＭといった汎用のプログラム記録媒体によって提供可能である。
【００９９】
§６．生理的リズム音の記録再生装置
本発明に係る音声信号の符号化方法や音声の記録再生装置は、もともと心音や肺音などの生理的リズム音を記録再生するための技術として開発されたものである。そこで、ここでは、本発明を、特に、生理的リズム音の記録再生に応用した実施形態を述べておく。
【０１００】
図３１は、医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置１０を構成した例を示す図である（説明の便宜上、断面図とブロック図との混合図で示す）。聴診器本体１１は、高周波の音波を集音するための膜部１２と低周波の音波を集音するためのベル面１３とを有し、集められた音波は、導音管１４を介して側部へと導かれる。導音管１４の端部には、ゴム管１５が接続されており、このゴム管１５の他端には、ＰＩＮ型マイクロフォン１６が挿入されている。また、ＰＩＮ型マイクロフォン１６は、電源／信号ケーブル１７によってコンデンサマイクドライバ１８に接続されている。コンデンサマイクドライバ１８から、電源／信号ケーブル１７を介して、ＰＩＮ型マイクロフォン１６に電源供給を行うと、導音管１４を介して導かれた音波に対応するアナログ音声信号が、電源／信号ケーブル１７を介してコンデンサマイクドライバ１８へと伝達される。このアナログ音声信号は、マイクミキサー１９を介して、符号化処理装置２０へと入力されることになる。
【０１０１】
心音を測定するには、聴診器本体１１を患者の胸に当てて音声信号を拾うようにすればよい。なお、一般に心音の測定では、心基部に聴診器を当てたときに得られる音声信号と、心尖部に聴診器を当てたときに得られる音声信号との２とおりの音声信号が用いられている。このように、２とおりの音声信号を同時に測定するには、図３１に示す聴診器本体１１からコンデンサマイクドライバ１８に至るまでの測定系をもう１組別個用意し、マイクミキサー１９において、２系統の音声信号をステレオ信号として合成し、符号化処理装置２０へと信号を伝送すればよい。
【０１０２】
このように、心音をＭＩＤＩデータの形式に符号化した場合、再生音源装置４０としても、心音についての再生音波形を有するＭＩＤＩ音源を用いるのが好ましい。現在、市販のＭＩＤＩ音源としては、たとえば、ヤマハ株式会社から供給されている商品名「ＭＵ８０ＸＧ」なるＭＩＤＩ音源に、「ＳＦＸＮｏ．１００“HEART ”」なる音色として、心音の波形データが用意されている。この心音の波形データを用いて再生を行えば、非常に臨場感に富んだ心音再生を行うことが可能である。
【０１０３】
また、図３０に示す記録再生装置には、符号データ提示装置７０が設けられており、記憶装置３０内に格納されたＭＩＤＩデータを、ディスプレイ装置８０の表示画面あるいはプリンタ装置９０の印刷面に画像として提示することが可能である。図３２および図３３は、ディスプレイ装置８０の表示画面の一例を示す図である。図３２は、入力された音声信号の波形そのものを上段表示部８１に表示させ、この波形を符号化することにより得られたＭＩＤＩデータを下段表示部８２に表示させたものである。いずれも、図の横軸が時間軸であり、上段表示部８１および下段表示部８２で、時間軸は共通化されているため、上下の表示を比較することが可能である。上段表示部８１の縦軸は、信号強度を示すものであるが、下段表示部８２の縦軸は、音階（周波数）を示すものになっている。すなわち、下段表示部８２の中央の水平線は、ピアノ鍵盤中央のラの音（Ａ３音：４４０Ｈｚ）を示し、水平の破線は、それぞれ１オクターブごとの区切りを示している。
【０１０４】
下段表示部８２内の個々の黒い矩形８３は、いわば音符に相当するものであり、個々の矩形の縦軸上の割付位置はその音階（ノートナンバーＮ）を示し、横軸上の割付位置はその時間軸上での配置を示している。ＭＩＤＩデータでは、ノートナンバーＮと、ベロシティーＶと、デルタタイムＴとが記述されることになるが、この黒い矩形による音符表示では、ノートナンバーＮとともに、ベロシティーＶおよびデルタタイムＴが表現できるように工夫されている。すなわち、各矩形の縦軸方向の幅によってベロシティーＶが表現されており、横軸方向の幅によってデルタタイムＴ（発音の持続時間）が表現されている（時間軸上での矩形の左辺位置が始端位置、右辺位置が終端位置を示す）。このように、下段表示部８２における黒い矩形は、ＭＩＤＩデータの３要素であるノートナンバーＮ、ベロシティーＶ、デルタタイムＴのすべてを表現しており、音声信号の特性を抽出した符号表現になっている。
【０１０５】
このような符号表現は、むしろ上段表示部８１に示すような波形表現よりも貴重な情報を提示することが多い。たとえば、種々の心臓疾患の兆候は、心音の特徴として現れることが多いが、再生音を耳で聞いただけで、あるいは、上段表示部８１に示されたような波形を目で観察しただけで、この兆候を示す独特の特徴を認識するには、多くの経験と実績が必要になる。ところが、下段表示部８２に示すような符号表現では、縦に細長い矩形は振幅の大きな信号部を示し、横に細長い矩形は持続時間の長い信号部を示し、各矩形の上下位置は信号部の周波数成分を示すことになるので、個々の心音の特徴部分を客観的に認識することができ、個々の特徴と個々の疾患との関連を認識しやすくなるのである。
【０１０６】
このように、図３０に示す音声の記録再生装置を、心音あるいは肺音など、生理的リズム音の記録再生に利用した場合、単に、もとの音を再生するというメリットだけでなく、符号化されたデータを符号化された状態のまま視覚的に表示することにより、その特徴を顕在化させるというメリットも得られることになる。
【０１０７】
もちろん、符号データとしてＭＩＤＩデータを用いた場合、図３３に示すような、楽譜の形態での表示も可能である。これまでの医療分野では、生理的リズム音を楽譜表示して解析するという手法は採られたことがないが、音声波形の特徴を抽出した符号表示という意味では、このような楽譜表示も十分に利用価値のある表示形態である。たとえば、楽譜表示では、同一の繰り返し部分をリピート記号によって表示することが可能である。このようなリピート記号による表示を行えば、繰り返し部分が明瞭に認識されることになり、疾患との関連性認識にひとつの手掛かりを与えることもできよう。
【０１０８】
最後に、本発明に係る音声の記録再生装置を、生理的リズム音の記録再生という医療分野に利用した場合のメリットを述べておく。
▲１▼ 従来のＰＣＭの手法による波形記録に比べて、極めて高いデータ圧縮率が得られる。たとえば、サンプリング周波数：４４．１ｋＨｚ，量子化ビット数：１６ビットで１秒間の心音波形をＰＣＭの手法でデジタル化すると、約８０ｋバイトのデータ量が必要であるのに対し、ＭＩＤＩデータに符号化すると、約８０バイトのデータ量ですみ、データ量は実に１／１０００程度に圧縮される。このような高い圧縮率のメリットを生かせば、電話回線を用いたデータ転送も可能になり、遠隔医療診断などの用途に利用できる。また、ＩＣカードなどの低容量記録媒体にデータを保存することができるので、ＩＣカードを用いた電子カルテなどへの応用も可能になる。
▲２▼ ＭＩＤＩ音源などを利用して再生を行うため、高い圧縮率にもかかわらず、高い再現性を確保でき、診断ミスなどの弊害を防ぐことができる。
▲３▼ ＭＩＤＩデータという符号化された状態のままで、視覚的な表示を行うことができるので、音声波形の特徴を視覚的に把握することができ、医学教育や患者への説明用に利用でき、また、家庭用の医療機器としての用途も広がる。
▲４▼ ＭＩＤＩデータを再生する場合、音程、音色、テンポなどを適宜変更することが可能なので、より聞き取りやすい音で再生することが可能になる。
▲５▼ 繰り返し部をリピート記号などを用いて表現することができるため、更なるデータ圧縮効果が期待できるとともに、不整脈などのリズム変動部を顕在化させることができる。
▲６▼ ＭＩＤＩ規格では、最大１６チャネルの音声信号を同期符号化することができるので、肺音と心音との同時測定など、患者の複数の部位からのリズム音を同時に記録することができ、同一の時間軸上で比較解析を行うことが可能になる。
▲７▼ 市販の汎用パーソナルコンピュータシステムにＭＩＤＩ機器を組み合わせた安価なハードウエア構成で実現することができるため、携帯用機器として提供することも可能になり、家庭向けの医療機器としての提供もしやすい。
【０１０９】
【発明の効果】
以上のとおり本発明によれば、音声信号の効率的な符号化が可能になり、効率的な音声の記録再生装置を提供することができる。
【図面の簡単な説明】
【図１】本発明に係る音声信号の符号化方法の基本原理を示す図である。
【図２】本発明に係る音声信号の符号化方法の実用的な手順を示す流れ図である。
【図３】入力した音声データに含まれている直流成分を除去するデジタル処理を示すグラフである。
【図４】図３に示す音声データの一部を時間軸に関して拡大して示したグラフである。
【図５】図４に矢印で示す変極点Ｐ１〜Ｐ６のみを抜き出した示した図である。
【図６】多少乱れた音声データの波形を示すグラフである。
【図７】図６に矢印で示す変極点Ｐ１〜Ｐ７のみを抜き出した示した図である。
【図８】図７に示す変極点Ｐ１〜Ｐ７の一部を間引処理した状態を示す図である。
【図９】個々の変極点について、固有周波数を定義する方法を示す図である。
【図１０】個々の変極点に関する情報に基づいて、単位区間を設定する具体的手法を示す図である。
【図１１】所定の許容レベルＬＬに基づくスライス処理を示す図である。
【図１２】単位区間設定の対象となる多数の変極点を矢印で示した図である。
【図１３】図１２に示す変極点に対して、所定の許容レベルＬＬに基づくスライス処理を行う状態を示す図である。
【図１４】図１３に示すスライス処理によって変極点を除外し、暫定区間Ｋ１，Ｋ２を設定した状態を示す図である。
【図１５】図１４に示す暫定区間Ｋ１についての不連続位置を探索する処理を示す図である。
【図１６】図１５で探索された不連続位置に基づいて、暫定区間Ｋ１を分割し、新たな暫定区間Ｋ１−１とＫ１−２とを定義した状態を示す図である。
【図１７】図１６に示す暫定区間Ｋ１−２，Ｋ２についての統合処理を示す図である。
【図１８】図１７に示す統合処理によって、最終的に設定された単位区間Ｕ１，Ｕ２を示す図である。
【図１９】各単位区間についての代表周波数および代表強度を求める手法を示す図である。
【図２０】５つの区間Ｅ０，Ｕ１，Ｅ１，Ｕ２，Ｅ２を定義するための符号データを示す図である。
【図２１】図２０に示す単位区間Ｕ１，Ｕ２内の音声データを符号化して得られる符号データの一例を示す図表である。
【図２２】図２０に示す単位区間Ｕ１，Ｕ２内の音声データを符号化して得られる符号データの別な一例を示す図表である。
【図２３】一般的なＳＭＦ形式の符号データの構成を示す図である。
【図２４】各単位区間内の音声データについてのＭＩＤＩデータへの具体的な変換方法を示す図である。
【図２５】図２０に示す単位区間Ｕ１，Ｕ２内の音声データを、ＳＭＦ形式のＭＩＤＩデータを用いて符号化した状態を示す図表である。
【図２６】生成したＭＩＤＩデータに対して修正処理が必要な第１の事例を示す図である。
【図２７】生成したＭＩＤＩデータに対して修正処理が必要な第２の事例を示す図である。
【図２８】図２７に示す事例における修正後の状態を示す図である。
【図２９】入力段階において周波数分離処理を施す実施形態の基本概念を示す図である。
【図３０】本発明の一実施形態に係る記録再生装置の基本構成を示すブロック図である。
【図３１】医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置を構成した例を示す図である。
【図３２】図３０に示す装置におけるディスプレイ装置８０の表示画面の一例を示す図である。
【図３３】図３０に示す装置におけるディスプレイ装置８０の別な表示画面の一例を示す図である。
【符号の説明】
１０…音声信号入力装置
１１…聴診器本体
１２…膜部
１３…ベル面
１４…導音管
１５…ゴム管
１６…ＰＩＮ型マイクロフォン
１７…電源／信号ケーブル
１８…コンデンサマイクドライバ
１９…マイクミキサー
２０…符号化処理装置
３０…記憶装置
４０…再生音源装置
５０…復号化処理装置
６０…スピーカ装置
７０…符号データ提示装置
８０…ディスプレイ装置
８１…上段表示部
８２…下段表示部
８３…矩形状の音符
９０…プリンタ装置
１００…パーソナルコンピュータ
Ａ，Ａ１，Ａ２，Ａｉ…代表強度
Ａmax …代表強度の最大値
ａ１〜ａ９…変極点の信号強度
ａａ…許容範囲
Ｄ…直流成分
ｄ…オフセット量
Ｅ０，Ｅ１，Ｅ２…空白区間
ｅ１〜ｅ６…終端位置
Ｆ，Ｆ１，Ｆ２，Ｆｉ…代表周波数
ｆ１〜ｆ１７…変極点の固有周波数
ｆａ，ｆｂ，ｆｃ…周波数特性
ｆｆ…許容範囲
ｆｓ…サンプリング周波数
Ｋ１，Ｋ１−１，Ｋ１−２，Ｋ２…暫定区間
Ｌ，Ｌ１〜Ｌ４，Ｌｉ…区間長
ＬＬ…許容レベル
ＬＬｉ…再生音の持続時間
Ｎ，Ｎｉ…ノートナンバー
Ｐ１〜Ｐ１７…変極点
ｓ１〜ｓ６…始端位置
Ｔ，Ｔｉ…デルタタイム
ｔ１〜ｔ１７…時間軸上の位置
Ｕ１〜Ｕ６，Ｕｉ，Ｕｉ１，Ｕｉ２…単位区間
Ｖ，Ｖｉ…ベロシティー
ｘ…サンプル番号
φ…周期

Claims

時系列の強度信号として与えられる音声信号を符号化するための符号化方法であって、
符号化対象となる音声信号を、デジタルの音声データとして取り込む入力段階と、
取り込んだ音声データの波形について変極点を求める変極点定義段階と、
前記音声データの時間軸上に複数の単位区間を設定する区間設定段階と、
個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と前記代表周波数および前記代表強度を示す情報とを含む符号データを生成し、個々の単位区間の音声データを個々の符号データによって表現する符号化段階と、
を有し、
前記区間設定段階では、各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義し、１つの単位区間に含まれる変極点の固有周波数が所定の近似範囲内になるように、単位区間の設定を行い、
前記符号化段階では、単位区間内に含まれる変極点の固有周波数に基づいて代表周波数を定義し、単位区間内に含まれる変極点のもつ信号強度に基づいて代表強度を定義することを特徴とする音声信号の符号化方法。
請求項１に記載の符号化方法において、
入力段階で、正および負の両極性デジタル値を信号強度としてもった音声データを用意し、
変極点定義段階で、同極性のデジタル値をもった変極点が複数連続する場合に、絶対値が最大のデジタル値をもった変極点のみを残す間引処理を行い、極性の異なる変極点が交互に現れるようにすることを特徴とする音声信号の符号化方法。
請求項１または２に記載の符号化方法において、
区間設定段階で、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外する処理を行うことを特徴とする音声信号の符号化方法。
請求項１〜３のいずれかに記載の符号化方法において、
各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義する第１のステップと、
絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外し、除外された変極点の位置で分割されるような区間を定義する第２のステップと、
時間軸上において、変極点の固有周波数の値が不連続となる不連続位置を探し、前記第２のステップで定義された個々の区間を、更に前記不連続位置で分割することにより、新たな区間を定義する第３のステップと、
を区間設定段階で行い、最終的に定義された区間を単位区間として設定することを特徴とする音声信号の符号化方法。
請求項４に記載の符号化方法において、
第３のステップで定義された区間のうち、一方の区間内の変極点の固有周波数の平均と、他方の区間内の変極点の固有周波数の平均との差が、所定の許容範囲内であるような２つの隣接区間が存在する場合に、この隣接区間を１つの区間に統合する統合処理を行う第４のステップを更に行い、区間設定段階では、前記第４のステップにおける統合処理後の区間を単位区間として設定することを特徴とする音声信号の符号化方法。
請求項１〜５のいずれかに記載の符号化方法において、
符号化段階で、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、１つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるＭＩＤＩ形式の符号データに変換することを特徴とする音声信号の符号化方法。
請求項１〜６のいずれかに記載の符号化方法において、
符号化段階で、復号化に用いる再生音源装置の特性に適合させるための修正処理を行うことを特徴とする音声信号の符号化方法。
請求項７に記載の符号化方法において、
特定の単位区間に対応する符号データに基づいて、再生音源装置により音の再生を行うと、前記特定の単位区間の長さよりも再生音の持続時間が短くなる場合に、前記特定の単位区間を複数の小区間に分割し、各小区間ごとにそれぞれ別個の符号データを生成する修正処理を行うことを特徴とする音声信号の符号化方法。
請求項７に記載の符号化方法において、
生成された一連の符号データに基づいて、再生音源装置により音の再生を行うと、再生音の周波数レンジが、前記再生音源装置により再生可能な固有周波数レンジに対して偏りを生じる場合に、前記一連の符号データ内に含まれる代表周波数の平均が前記固有周波数レンジの中心に近付くように、代表周波数に対する修正処理を行うことを特徴とする音声信号の符号化方法。
請求項１〜９のいずれかに記載の符号化方法において、
各変極点について、それぞれ複数の固有周波数を定義し、符号化段階で、各単位区間に対してそれぞれ複数の代表周波数を定義し、各代表周波数ごとに別個の符号データを生成し、和声として同時に再生することができる複数組の符号データを生成することを特徴とする音声信号の符号化方法。
請求項１〜１０のいずれかに記載の符号化方法において、
入力段階において、それぞれ周波数特性が異なる複数ｎ個の部分音声データを生成する分離処理を行い、ｎ個の部分音声データのそれぞれについて、後続する各段階を別個独立して実施し、異なる音源設定により和声として同時に再生することができるｎ組の符号データを生成することを特徴とする音声信号の符号化方法。
時系列の強度信号として与えられる音声信号を符号化して記録し、これを復号化して再生する音声の記録再生装置であって、
記録対象となるアナログ音声信号を入力する音声信号入力装置と、
入力されたアナログ音声信号を、デジタルの音声データとして取り込み、この音声データの時間軸上に複数の単位区間を設定し、各単位区間内の音声データを、時間軸上での単位区間の始端位置および終端位置を示す情報と所定の代表周波数および代表強度を示す情報とを含む符号データに変換する符号化処理装置と、
前記符号化処理装置によって符号化された符号データを記憶する記憶装置と、
前記符号データの復号化に用いる再生音波形を格納した再生音源装置と、
前記記憶装置内の符号データを、前記再生音源装置に格納された所定の再生音波形を用いて復号化する復号化処理装置と、
復号化された音を再生するためのスピーカ装置と、
を備え、前記符号化処理装置が、請求項１〜１１のいずれかに記載の符号化方法を実行する機能を有することを特徴とする音声の記録再生装置。
請求項１２に記載の音声の記録再生装置において、
記憶装置内の符号データを、単位区間の長さ、代表周波数、代表強度、を認識しうる態様で、画像として提示する符号データ提示装置を更に備えることを特徴とする音声の記録再生装置。
請求項１２または１３に記載の音声の記録再生装置において、
符号化処理装置が、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、１つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるＭＩＤＩ形式の符号データに変換する機能を有し、
再生音源装置としてＭＩＤＩ形式の音源を用いることを特徴とする音声の記録再生装置。
請求項１２〜１４のいずれかに記載の音声の記録再生装置において、
医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置を構成し、
生体が発する音声を表現した再生音波形を格納した再生音源装置を用い、
音符もしくは音符に準じた符号を二次元平面上に時系列で配置した楽譜形式の画像として、記憶装置内の符号データを提示する符号データ提示装置を備えることを特徴とする音声の記録再生装置。