JP3776196B2 - 音声信号の符号化方法および音声の記録再生装置 - Google Patents
音声信号の符号化方法および音声の記録再生装置 Download PDFInfo
- Publication number
- JP3776196B2 JP3776196B2 JP06746797A JP6746797A JP3776196B2 JP 3776196 B2 JP3776196 B2 JP 3776196B2 JP 06746797 A JP06746797 A JP 06746797A JP 6746797 A JP6746797 A JP 6746797A JP 3776196 B2 JP3776196 B2 JP 3776196B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sound
- representative
- section
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
【発明の属する技術分野】
本発明は音声信号の符号化方法および音声の記録再生装置に関し、時系列の強度信号として与えられる音声信号を符号化し、これを復号化して再生する技術に関する。特に、本発明は心音や肺音などの生理的リズム音を、MIDI形式の符号データに変換する処理に適しており、医療診断や診断教育の分野への応用が期待される。
【0002】
【従来の技術】
音声信号を符号化する技術として、PCM(Pulse Code Modulation )の手法は最も普及している手法であり、現在、オーディオCDやDATなどの記録方式として広く利用されている。このPCMの手法の基本原理は、アナログ音声信号を所定のサンプリング周波数でサンプリングし、各サンプリング時の信号強度を量子化してデジタルデータとして表現する点にあり、サンプリング周波数や量子化ビット数を高くすればするほど、原音を忠実に再生することが可能になる。ただ、サンプリング周波数や量子化ビット数を高くすればするほど、必要な情報量も増えることになる。そこで、できるだけ情報量を低減するための手法として、信号の変化差分のみを符号化するADPCM(Adaptive Differential Pulse Code Modulation )の手法も用いられている。
【0003】
一方、電子楽器による楽器音を符号化しようという発想から生まれたMIDI(Musical Instrument Digital Interface)規格も、パーソナルコンピュータの普及とともに盛んに利用されるようになってきている。このMIDI規格による符号データ(以下、MIDIデータという)は、基本的には、楽器のどの鍵盤キーを、どの程度の強さで弾いたか、という楽器演奏の操作を記述したデータであり、このMIDIデータ自身には、実際の音の波形は含まれていない。そのため、実際の音を再生する場合には、楽器音の波形を記憶したMIDI音源が別途必要になる。しかしながら、上述したPCMの手法で音を記録する場合に比べて、情報量が極めて少なくてすむという特徴を有し、その符号化効率の高さが注目を集めている。このMIDI規格による符号化および復号化の技術は、現在、パーソナルコンピュータを用いて楽器演奏、楽器練習、作曲などを行うソフトウエアに広く採り入れられており、カラオケ、ゲームの効果音といった分野でも広く利用されている。
【0004】
【発明が解決しようとする課題】
上述したように、PCMの手法により音声信号を符号化する場合、十分な音質を確保しようとすれば情報量が膨大になり、データ処理の負担が重くならざるを得ない。したがって、通常は、ある程度の情報量に抑えるため、ある程度の音質に妥協せざるを得ない。もちろん、MIDI規格による符号化の手法を採れば、非常に少ない情報量で十分な音質をもった音の再生が可能であるが、上述したように、MIDI規格そのものが、もともと楽器演奏の操作を符号化するためのものであるため、広く一般音声への適用を行うことはできない。別言すれば、MIDIデータを作成するためには、実際に楽器を演奏するか、あるいは、楽譜の情報を用意する必要がある。
【0005】
このように、従来用いられているPCMの手法にしても、MIDIの手法にしても、それぞれ音声信号の符号化方法としては一長一短があり、一般の音声について、少ない情報量で十分な音質を確保することはできない。ところが、一般の音声についても効率的な符号化を行いたいという要望は、益々強くなってきている。特に、医療診断や診断教育の分野では、かねてからこのような要望が強く出されている。たとえば、心音や肺音といった生理的リズムのある音声の解析は、古くから診断の材料として利用されてきている。このような生理的リズム音をコンピュータを利用して解析するには、効率良い符号化を行うことが不可欠である。また、この生理的リズム音を解析する場合、従来は、耳を頼りにして特徴を聞き分ける手法を採るか、あるいは音声波形そのものを表示させ、視覚的に波形の特徴を分析する手法を採るしかなく、解析にはかなりの熟練を要していた。このため、医学生やインターンなどに対する診断教育の分野でも、明確な指導が困難であり、多くの経験に基づいて診断技術を習得しているのが現状である。
【0006】
そこで本発明は、より効率的な符号化を行うことができる音声信号の符号化方法を提供することを目的とし、また、そのような符号化方法を利用した音声の記録再生装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
(1) 本発明の第1の態様は、時系列の強度信号として与えられる音声信号を符号化するための音声信号の符号化方法において、
符号化対象となる音声信号を、デジタルの音声データとして取り込む入力段階と、
取り込んだ音声データの波形について変極点を求める変極点定義段階と、
音声データの時間軸上に複数の単位区間を設定する区間設定段階と、
個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と代表周波数および代表強度を示す情報とを含む符号データを生成し、個々の単位区間の音声データを個々の符号データによって表現する符号化段階と、
を行うようにし、
区間設定段階では、各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義し、1つの単位区間に含まれる変極点の固有周波数が所定の近似範囲内になるように、単位区間の設定を行い、
符号化段階では、単位区間内に含まれる変極点の固有周波数に基づいて代表周波数を定義し、単位区間内に含まれる変極点のもつ信号強度に基づいて代表強度を定義するようにしたものである。
【0009】
(2) 本発明の第2の態様は、上述の第1の態様に係る音声信号の符号化方法において、
入力段階で、正および負の両極性デジタル値を信号強度としてもった音声データを用意し、
変極点定義段階で、同極性のデジタル値をもった変極点が複数連続する場合に、絶対値が最大のデジタル値をもった変極点のみを残す間引処理を行い、極性の異なる変極点が交互に現れるようにしたものである。
【0012】
(3) 本発明の第3の態様は、上述の第1または第2の態様に係る音声信号の符号化方法において、
区間設定段階で、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外する処理を行うようにしたものである。
【0013】
(4) 本発明の第4の態様は、上述の第1〜第3の態様に係る音声信号の符号化方法において、
各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義する第1のステップと、
絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外し、除外された変極点の位置で分割されるような区間を定義する第2のステップと、
時間軸上において、変極点の固有周波数の値が不連続となる不連続位置を探し、第2のステップで定義された個々の区間を、更に不連続位置で分割することにより、新たな区間を定義する第3のステップと、
を区間設定段階で行い、最終的に定義された区間を単位区間として設定するようにしたものである。
【0014】
(5) 本発明の第5の態様は、上述の第4の態様に係る音声信号の符号化方法において、
第3のステップで定義された区間のうち、一方の区間内の変極点の固有周波数の平均と、他方の区間内の変極点の固有周波数の平均との差が、所定の許容範囲内であるような2つの隣接区間が存在する場合に、この隣接区間を1つの区間に統合する統合処理を行う第4のステップを更に行い、区間設定段階では、第4のステップにおける統合処理後の区間を単位区間として設定するようにしたものである。
【0016】
(6) 本発明の第6の態様は、上述の第1〜第5の態様に係る音声信号の符号化方法において、
符号化段階で、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、1つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるMIDI形式の符号データに変換するようにしたものである。
【0017】
(7) 本発明の第7の態様は、上述の第1〜第6の態様に係る音声信号の符号化方法において、
符号化段階で、復号化に用いる再生音源装置の特性に適合させるための修正処理を行うようにしたものである。
【0018】
(8) 本発明の第8の態様は、上述の第7の態様に係る音声信号の符号化方法において、
特定の単位区間に対応する符号データに基づいて、再生音源装置により音の再生を行うと、特定の単位区間の長さよりも再生音の持続時間が短くなる場合に、特定の単位区間を複数の小区間に分割し、各小区間ごとにそれぞれ別個の符号データを生成する修正処理を行うようにしたものである。
【0019】
(9) 本発明の第9の態様は、上述の第7の態様に係る音声信号の符号化方法において、
生成された一連の符号データに基づいて、再生音源装置により音の再生を行うと、再生音の周波数レンジが、再生音源装置により再生可能な固有周波数レンジに対して偏りを生じる場合に、一連の符号データ内に含まれる代表周波数の平均が、再生音源装置の固有周波数レンジの中心に近付くように、代表周波数に対する修正処理を行うようにしたものである。
【0020】
(10) 本発明の第10の態様は、上述の第1〜第9の態様に係る音声信号の符号化方法において、
各変極点について、それぞれ複数の固有周波数を定義し、符号化段階で、各単位区間に対してそれぞれ複数の代表周波数を定義し、各代表周波数ごとに別個の符号データを生成し、和声として同時に再生することができる複数組の符号データを生成するようにしたものである。
【0021】
(11) 本発明の第11の態様は、上述の第1〜第10の態様に係る音声信号の符号化方法において、
入力段階において、それぞれ主たる周波数成分が異なる複数n個の部分音声データを生成する周波数分離処理を行い、n個の部分音声データのそれぞれについて、後続する各段階を別個独立して実施し、和声として同時に再生することができるn組の符号データを生成するようにしたものである。
【0023】
(12) 本発明の第12の態様は、時系列の強度信号として与えられる音声信号を符号化して記録し、これを復号化して再生する音声の記録再生装置において、
記録対象となるアナログ音声信号を入力する音声信号入力装置と、
入力されたアナログ音声信号を、デジタルの音声データとして取り込み、この音声データの時間軸上に複数の単位区間を設定し、各単位区間内の音声データを、時間軸上での単位区間の始端位置および終端位置を示す情報と所定の代表周波数および代表強度を示す情報とを含む符号データに変換する符号化処理装置と、
符号化処理装置によって符号化された符号データを記憶する記憶装置と、
符号データの復号化に用いる再生音波形を格納した再生音源装置と、
記憶装置内の符号データを、再生音源装置に格納された所定の再生音波形を用いて復号化する復号化処理装置と、
復号化された音を再生するためのスピーカ装置と、
を設け、符号化処理装置に、上述の第1〜第11の態様に係る符号化方法を実行する機能をもたせるようにしたものである。
【0024】
(13) 本発明の第13の態様は、上述の第12の態様に係る音声の記録再生装置において、
記憶装置内の符号データを、単位区間の長さ、代表周波数、代表強度、を認識しうる態様で、画像として提示する符号データ提示装置を更に設けるようにしたものである。
【0025】
(14) 本発明の第14の態様は、上述の第12または第13の態様に係る音声の記録再生装置において、
符号化処理装置が、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、1つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるMIDI形式の符号データに変換する機能を有し、
再生音源装置としてMIDI形式の音源を用いるようにしたものである。
【0026】
(15) 本発明の第15の態様は、上述の第12〜第14の態様に係る音声の記録再生装置において、
医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置を構成し、
生体が発する音声を表現した再生音波形を格納した再生音源装置を用い、
音符もしくは音符に準じた符号を二次元平面上に時系列で配置した楽譜形式の画像として、記憶装置内の符号データを提示する符号データ提示装置を設けるようにしたものである。
【0027】
【発明の実施の形態】
以下、本発明を図示する実施形態に基づいて説明する。
【0028】
§1. 本発明に係る音声信号の符号化方法の基本原理
はじめに、本発明に係る音声信号の符号化方法の基本原理を図1を参照しながら説明する。いま、図1の上段に示すように、時系列の強度信号としてアナログ音声信号が与えられたものとしよう。図示の例では、横軸に時間軸t、縦軸に信号強度Aをとってこの音声信号を示している。本発明では、まずこのアナログ音声信号を、デジタルの音声データとして取り込む処理を行う。これは、従来の一般的なPCMの手法を用い、所定のサンプリング周波数でこのアナログ音声信号をサンプリングし、信号強度Aを所定の量子化ビット数を用いてデジタルデータに変換する処理を行えばよい。ここでは、説明の便宜上、PCMの手法でデジタル化した音声データの波形も、図1の上段のアナログ音声信号と同一の波形で示すことにする。
【0029】
次に、このデジタル音声データの時間軸t上に複数の単位区間を設定する。図示の例では、6つの単位区間U1〜U6が設定されている。第i番目の単位区間Uiは、時間軸t上の始端siおよび終端eiの座標値によって、その時間軸t上での位置と長さとが示される。たとえば、単位区間U1は、始端s1〜終端e1までの(e1−s1)なる長さをもつ区間である。
【0030】
こうして、複数の単位区間が設定されたら、個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義する。ここでは、第i番目の単位区間Uiについて、代表周波数Fiおよび代表強度Aiが定義された状態が示されている。たとえば、第1番目の単位区間U1については、代表周波数F1および代表強度A1が定義されている。代表周波数F1は、始端s1〜終端e1までの区間に含まれている音声データの周波数成分の代表値であり、代表強度Aiは、同じく始端s1〜終端e1までの区間に含まれている音声データの信号強度の代表値である。単位区間U1内の音声データに含まれる周波数成分は、通常、単一ではなく、信号強度も変動するのが一般的である。本発明のポイントは、1つの単位区間について、単一の代表周波数と単一の代表強度を定義し、これら代表値を用いて符号化を行う点にある。
【0031】
すなわち、個々の単位区間について、それぞれ代表周波数および代表強度が定義されたら、時間軸t上での個々の単位区間の始端位置および終端位置を示す情報と、定義された代表周波数および代表強度を示す情報と、により符号データを生成し、個々の単位区間の音声データを個々の符号データによって表現するのである。単一の周波数をもち、単一の信号強度をもった音声信号が、所定の期間だけ持続する、という事象を符号化する手法として、MIDI規格に基づく符号化を利用することができる。MIDI規格による符号データ(MIDIデータ)は、いわば音符によって音を表現したデータということができ、図1では、下段に示す音符によって、最終的に得られる符号データの概念を示している。
【0032】
結局、各単位区間内の音声データは、代表周波数F1に相当する音程情報(MIDI規格におけるノートナンバー)と、代表強度A1に相当する強度情報(MIDI規格におけるベロシティー)と、単位区間の長さ(e1−s1)に相当する長さ情報(MIDI規格におけるデルタタイム)と、をもった符号データに変換されることになる。このようにして得られる符号データの情報量は、もとの音声信号のもつ情報量に比べて、著しく小さくなり、飛躍的な符号化効率が得られることになる。これまで、MIDIデータを生成する手法としては、演奏者が実際に楽器を演奏するときの操作をそのまま取り込んで符号化するか、あるいは、楽譜上の音符をデータとして入力するしかなかったが、上述した本発明に係る手法を用いれば、実際のアナログ音声信号からMIDIデータを直接生成することが可能になる。
【0033】
もっとも、本発明に係る符号化方法を実用化するためには、いくつか留意すべき点がある。第1の留意点は、再生時に音源を用意する必要があるという点である。本発明に係る手法によって最終的に得られる符号データには、もとの音声信号の波形データそのものは含まれていないため、何らかの音声波形のデータをもった音源が必要になる。たとえば、MIDIデータを再生する場合には、MIDI音源が必要になる。もっとも、MIDI規格が普及した現在では、種々のMIDI音源が入手可能であり、実用上は大きな問題は生じない。ただ、もとの音声信号に忠実な再生音を得るためには、もとの音声信号に含まれていた音声波形に近似した波形データをもったMIDI音源を用意する必要がある。適当なMIDI音源を用いた再生を行うことができれば、むしろもとの音声信号よりも高い音質で、臨場感あふれる再生音を得ることも可能になる。
【0034】
第2の留意点は、1つの単位区間に含まれる音声データの周波数を、単一の代表周波数に置き換えてしまうという基本原理に基づく符号化手法であるため、非常に幅の広い周波数成分を同時に含んでいるような音声信号の符号化には不向きであるという点である。もちろん、この符号化手法は、どのような音声信号に対しても適用可能であるが、人間の声音のように、非常に周波数レンジの広い音声信号に対して符号化を行っても、再生時に十分な再現性は得られなくなる。したがって、本発明の符号化手法は、主として、生体の発生するリズム音や、波や風などの自然が発生するリズム音のように、個々の単位区間内には、ある程度限定された周波数成分のみを含む音声信号に対して利用するのが好ましい。もっとも、入力段階で、符号化の対象となる音声データをいくつかの部分音声データに分ける手法を採れば、本発明の利用範囲を更に広げることは可能である。この点については、§4で述べることにする。
【0035】
第3の留意点は、効率的で再現性の高い符号化を行うためには、単位区間の設定方法に工夫を凝らす必要があるという点である。本発明の基本原理は、上述したように、もとの音声データを複数の単位区間に分割し、各単位区間ごとに、単一周波数および単一強度を示す符号データに変換するという点にある。したがって、最終的に得られる符号データは、単位区間の設定方法に大きく依存することになる。最も単純な単位区間の設定方法は、時間軸上で、たとえば10msごとというように、等間隔に単位区間を一義的に定義する方法である。しかしながら、この方法では、符号化対象となるもとの音声データにかかわらず、常に一定の方法で単位区間の定義が行われることになり、必ずしも効率的で再現性の高い符号化は期待できない。したがって、実用上は、もとの音声データの波形を解析し、個々の音声データに適した単位区間の設定を行うようにするのが好ましい。
【0036】
効率的な単位区間の設定を行う1つのアプローチは、音声データの中で周波数帯域が近似した区間を1つのまとまった単位区間として抽出するという方法である。単位区間内の周波数成分は1つの代表周波数によって置き換えられてしまうので、この代表周波数とあまりにかけ離れた周波数成分が含まれていると、再生時の再現性が低減する。したがって、ある程度近似した周波数が持続する区間を1つの単位区間として抽出することは、再現性のよい効率的な符号化を行う上で重要である。このアプローチを採る場合、具体的には、もとの音声データの周波数の変化点を認識し、この変化点を境界とする単位区間の設定を行うようにすればよい。
【0037】
効率的な単位区間の設定を行うもう1つのアプローチは、音声データの中で信号強度が近似した区間を1つのまとまった単位区間として抽出するという方法である。単位区間内の信号強度は1つの代表強度によって置き換えられてしまうので、この代表強度とあまりにかけ離れた信号強度が含まれていると、再生時の再現性が低減する。したがって、ある程度近似した信号強度が持続する区間を1つの単位区間として抽出することは、再現性のよい効率的な符号化を行う上で重要である。このアプローチを採る場合、具体的には、もとの音声データの信号強度の変化点を認識し、この変化点を境界とする単位区間の設定を行うようにすればよい。
【0038】
§2. 本発明に係る音声信号の符号化方法の実用的な手順
図2は、本発明のより実用的な手順を示す流れ図である。この手順は、入力段階S10、変極点定義段階S20、区間設定段階S30、符号化段階S40の4つの大きな段階から構成されている。入力段階S10は、符号化対象となる音声信号を、デジタルの音声データとして取り込む段階である。変極点定義段階S20は、後の区間設定段階S30の準備段階ともいうべき段階であり、取り込んだ音声データの波形について変極点(ローカルピーク)を求める段階である。また、区間設定段階S30は、この変極点に基づいて、音声データの時間軸上に複数の単位区間を設定する段階であり、符号化段階S40は、個々の単位区間の音声データを個々の符号データに変換する段階である。符号データへの変換原理は、既に§1で述べたとおりである。すなわち、個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報と、によって符号データが生成されることになる。以下、これらの各段階において行われる処理を順に説明する。
【0039】
<<< 2.1 入力段階 >>>
入力段階S10では、サンプリング処理S11と直流成分除去処理S12とが実行される。サンプリング処理S11は、符号化の対象となるアナログ音声信号を、デジタルの音声データとして取り込む処理であり、従来の一般的なPCMの手法を用いてサンプリングを行う処理である。この実施形態では、サンプリング周波数:44.1kHz、量子化ビット数:16ビットという条件でサンプリングを行い、デジタルの音声データを用意している。
【0040】
続く、直流成分除去処理S12は、入力した音声データに含まれている直流成分を除去するデジタル処理である。たとえば、図3に示す音声データは、振幅の中心レベルが、信号強度を示すデータレンジの中心レベル(具体的なデジタル値としては、たとえば、16ビットでサンプリングを行い、0〜65535のデータレンジが設定されている場合には32768なる値。以下、説明の便宜上、図3のグラフに示すように、データレンジの中心レベルに0をとり、サンプリングされた個々の信号強度の値を正または負で表現する)よりもDだけ高い位置にきている。別言すれば、この音声データには、値Dに相当する直流成分が含まれていることになる。サンプリング処理の対象になったアナログ音声信号に直流成分が含まれていると、デジタル音声データにもこの直流成分が残ることになる。そこで、直流成分除去処理S12によって、この直流成分Dを除去する処理を行い、振幅の中心レベルとデータレンジの中心レベルとを一致させる。具体的には、サンプリングされた個々の信号強度の平均が0になるように、直流成分Dを差し引く演算を行えばよい。これにより、正および負の両極性デジタル値を信号強度としてもった音声データが用意できる。
【0041】
<<< 2.2 変極点定義段階 >>>
変極点定義段階S20では、変極点探索処理S21と同極性変極点の間引処理S22とが実行される。変極点探索処理S21は、取り込んだ音声データの波形について変極点を求める処理である。図4は、図3に示す音声データの一部を時間軸に関して拡大して示したグラフである。このグラフでは、矢印P1〜P6の先端位置の点が変極点(極大もしくは極小の点)に相当し、各変極点はいわゆるローカルピークに相当する点となる。このような変極点を探索する方法としては、たとえば、サンプリングされたデジタル値を時間軸に沿って順に注目してゆき、増加から減少に転じた位置、あるいは減少から増加に転じた位置を認識すればよい。ここでは、この変極点を図示のような矢印で示すことにする。
【0042】
各変極点は、サンプリングされた1つのデジタルデータに対応する点であり、所定の信号強度の情報(矢印の長さに相当)をもつとともに、時間軸t上での位置の情報をもつことになる。図5は、図4に矢印で示す変極点P1〜P6のみを抜き出して示した図である。以下の説明では、この図5に示すように、第i番目の変極点Piのもつ信号強度(絶対値)を矢印の長さaiとして示し、時間軸t上での変極点Piの位置をtiとして示すことにする。結局、変極点探索処理S21は、図3に示すような音声データに基づいて、図5に示すような各変極点に関する情報を求める処理ということになる。
【0043】
ところで、図5に示す各変極点P1〜P6は、交互に極性が反転する性質を有する。すなわち、図5の例では、奇数番目の変極点P1,P3,P5は上向きの矢印で示され、偶数番目の変極点P2,P4,P6は下向きの矢印で示されている。これは、もとの音声データ波形の振幅が正負交互に現れる振動波形としての本来の姿をしているためである。しかしながら、実際には、このような本来の振動波形が必ずしも得られるとは限らず、たとえば、図6に示すように、多少乱れた波形が得られる場合もある。この図6に示すような音声データに対して変極点探索処理S21を実行すると、個々の変極点P1〜P7のすべてが検出されてしまうため、図7に示すように、変極点を示す矢印の向きは交互に反転するものにはならない。しかしながら、単一の代表周波数を定義する上では、向きが交互に反転した矢印列が得られるのが好ましい。
【0044】
同極性変極点の間引処理S22は、図7に示すように、同極性のデジタル値をもった変極点(同じ向きの矢印)が複数連続した場合に、絶対値が最大のデジタル値をもった変極点(最も長い矢印)のみを残し、残りを間引きしてしまう処理である。図7に示す例の場合、上向きの3本の矢印P1〜P3のうち、最も長いP2のみが残され、下向きの3本の矢印P4〜P6のうち、最も長いP4のみが残され、結局、間引処理S22により、図8に示すように、3つの変極点P2,P4,P7のみが残されることになる。この図8に示す変極点は、図6に示す音声データの波形の本来の姿に対応したものになる。
【0045】
<<< 2.3 区間設定段階 >>>
既に述べたように、本発明に係る符号化方法において、効率的で再現性の高い符号化を行うためには、単位区間の設定方法に工夫を凝らす必要がある。その意味で、図2に示す各段階のうち、区間設定段階S30は、実用上非常に重要な段階である。上述した変極点定義段階S20は、この区間設定段階S30の準備段階になっており、単位区間の設定は、個々の変極点の情報を利用して行われる。すなわち、この区間設定段階S30では、変極点に基づいて音声データの周波数もしくは信号強度の変化点を認識し、この変化点を境界とする単位区間を設定する、という基本的な考え方に沿って処理が進められる。
【0046】
図5に示すように、矢印で示されている個々の変極点P1〜P6には、それぞれ信号強度a1〜a6が定義されている。しかしながら、個々の変極点P1〜P6それ自身には、周波数に関する情報は定義されていない。区間設定段階S30において最初に行われる固有周波数定義処理S31は、個々の変極点それぞれに、所定の固有周波数を定義する処理である。本来、周波数というものは、時間軸上の所定の区間内の波について定義される物理量であり、時間軸上のある1点について定義されるべきものではない。ただ、ここでは便宜上、個々の変極点について、疑似的に固有周波数なるものを定義することにする(一般に、物理学における「固有周波数」という文言は、物体が音波などに共鳴して振動する物体固有の周波数を意味するが、本願における「固有周波数」とは、このような物体固有の周波数を意味するものではなく、個々の変極点それぞれに定義された疑似的な周波数、別言すれば、信号のある瞬間における基本周波数を意味するものである。)。
【0047】
いま、図9に示すように、多数の変極点のうち、第n番目〜第(n+2)番目の変極点P(n),P(n+1),P(n+2)に着目する。これら各変極点には、それぞれ信号値a(n),a(n+1),a(n+2)が定義されており、また、時間軸上での位置t(n),t(n+1),t(n+2)が定義されている。ここで、これら各変極点が、音声データ波形のローカルピーク位置に相当する点であることを考慮すれば、図示のように、変極点P(n)とP(n+2)との間の時間軸上での距離φは、もとの波形の1周期に対応することがわかる。そこで、たとえば、第n番目の変極点P(n)の固有周波数f(n)なるものを、f(n)=1/φと定義すれば、個々の変極点について、それぞれ固有周波数を定義することができる。時間軸上での位置t(n),t(n+1),t(n+2)が、「秒」の単位で表現されていれば、
φ=(t(n+2)−t(n))
であるから、
f(n)=1/(t(n+2)−t(n))
として定義できる。
【0048】
なお、実際のデジタルデータ処理の手順を考慮すると、個々の変極点の位置は、「秒」の単位ではなく、サンプル番号x(サンプリング処理S11における何番目のサンプリング時に得られたデータであるかを示す番号)によって表されることになるが、このサンプル番号xと実時間「秒」とは、サンプリング周波数fsによって一義的に対応づけられる。たとえば、第m番目のサンプルx(m)と第(m+1)番目のサンプルx(m+1)との間の実時間軸上での間隔は、1/fsになる。
【0049】
さて、このようにして個々の変極点に定義された固有周波数は、物理的には、その変極点付近のローカルな周波数を示す量ということになる。隣接する別な変極点との距離が短ければ、その付近のローカルな周波数は高く、隣接する別な変極点との距離が長ければ、その付近のローカルな周波数は低いということになる。もっとも、上述の例では、後続する2つ目の変極点との間の距離に基づいて固有周波数を定義しているが、固有周波数の定義方法としては、この他どのような方法を採ってもかまわない。たとえば、第n番目の変極点の固有周波数f(n)を、先行する第(n−2)番目の変極点との間の距離を用いて、
f(n)=1/(t(n)−t(n−2))
と定義することもできる。また、前述したように、後続する2つ目の変極点との間の距離に基づいて、固有周波数f(n)を、
f(n)=1/(t(n+2)−t(n))
なる式で定義した場合であっても、最後の2つの変極点については、後続する2つ目の変極点が存在しないので、先行する変極点を利用して、
f(n)=1/(t(n)−t(n−2))
なる式で定義すればよい。
【0050】
あるいは、後続する次の変極点との間の距離に基づいて、第n番目の変極点の固有周波数f(n)を、
f(n)=(1/2)・1/(t(n+1)−t(n))
なる式で定義することもできるし、後続する3つ目の変極点との間の距離に基づいて、
f(n)=(3/2)・1/(t(n+3)−t(n))
なる式で定義することもできる。結局、一般式を用いて示せば、第n番目の変極点についての固有周波数f(n)は、k個離れた変極点(kが正の場合は後続する変極点、負の場合は先行する変極点)との間の時間軸上での距離に基づいて、
f(n)=(k/2)・1/(t(n+k)−t(n))
なる式で定義することができる。kの値は、予め適当な値に設定しておけばよい。変極点の時間軸上での間隔が比較的小さい場合には、kの値をある程度大きく設定した方が、誤差の少ない固有周波数を定義することができる。ただし、kの値をあまり大きく設定しすぎると、ローカルな周波数としての意味が失われてしまうことになり好ましくない。
【0051】
こうして、固有周波数定義処理S31が完了すると、個々の変極点P(n)には、信号強度a(n)と、固有周波数f(n)と、時間軸上での位置t(n)とが定義されることになる。
【0052】
さて、§1では、効率的で再現性の高い符号化を行うためには、1つの単位区間に含まれる変極点の周波数が所定の近似範囲内になるように単位区間を設定するという第1のアプローチと、1つの単位区間に含まれる変極点の信号強度が所定の近似範囲内になるように単位区間を設定するという第2のアプローチとがあることを述べた。ここでは、この2つのアプローチを用いた単位区間の設定手法を、具体例に即して説明しよう。
【0053】
いま、図10に示すように、9つの変極点P1〜P9のそれぞれについて、信号強度a1〜a9と固有周波数f1〜f9とが定義されている場合を考える。この場合、第1のアプローチに従えば、個々の固有周波数f1〜f9に着目し、互いに近似した固有周波数をもつ空間的に連続した変極点の一群を1つの単位区間とする処理を行えばよい。たとえば、固有周波数f1〜f5がほぼ同じ値(第1の基準値)をとり、固有周波数f6〜f9がほぼ同じ値(第2の基準値)をとっており、第1の基準値と第2の基準値との差が所定の許容範囲を越えていた場合、図10に示すように、第1の基準値の近似範囲に含まれる固有周波数f1〜f5をもつ変極点P1〜P5を含む区間を単位区間U1とし、第2の基準値の近似範囲に含まれる固有周波数f6〜f9をもつ変極点P6〜P9を含む区間を単位区間U2として設定すればよい。本発明による手法では、1つの単位区間については、単一の代表周波数が与えられることになるが、このように、固有周波数が互いに近似範囲内にある複数の変極点が存在する区間を1つの単位区間として設定すれば、代表周波数と個々の固有周波数との差が所定の許容範囲内に抑えられることになり、大きな問題は生じない。
【0054】
続いて、固有周波数が近似する変極点を1グループにまとめて、1つの単位区間を定義するための具体的な手法の一例を以下に示す。たとえば、図10に示すように、9つの変極点P1〜P9が与えられた場合、まず変極点P1とP2について、固有周波数を比較し、両者の差が所定の許容範囲ff内にあるか否かを調べる。もし、
|f1−f2|<ff
であれば、変極点P1,P2を第1の単位区間U1に含ませる。そして、今度は、変極点P3を、この第1の単位区間U1に含ませてよいか否かを調べる。これは、この第1の単位区間U1についての平均固有周波数(f1+f2)/2と、f3との比較を行い、
|(f1+f2)/2−f3|<ff
であれば、変極点P3を第1の単位区間U1に含ませればよい。更に、変極点P4に関しては、
|(f1+f2+f3)/3−f4|<ff
であれば、これを第1の単位区間U1に含ませることができ、変極点P5に関しては、
|(f1+f2+f3+f4)/4−f5|<ff
であれば、これを第1の単位区間U1に含ませることができる。ここで、もし、変極点P6について、
|(f1+f2+f3+f4+f5)/5−f6|>ff
なる結果が得られたしまった場合、すなわち、固有周波数f6と、第1の単位区間U1の平均固有周波数との差が、所定の許容範囲ffを越えてしまった場合、変極点P5とP6との間に不連続位置が検出されたことになり、変極点P6を第1の単位区間U1に含ませることはできない。そこで、変極点P5をもって第1の単位区間U1の終端とし、変極点P6は別な第2の単位区間U2の始端とする。そして、変極点P6とP7について、固有周波数を比較し、両者の差が所定の許容範囲ff内にあるか否かを調べ、もし、
|f6−f7|<ff
であれば、変極点P6,P7を第2の単位区間U2に含ませる。そして、今度は、変極点P8に関して、
|(f6+f7)/2−f8|<ff
であれば、これを第2の単位区間U2に含ませ、変極点P9に関して、
|(f6+f7+f8)/3−f9|<ff
であれば、これを第2の単位区間U2に含ませる。
【0055】
このような手法で、不連続位置の検出を順次行ってゆき、各単位区間を順次設定してゆけば、上述した第1のアプローチに沿った区間設定が可能になる。もちろん、上述した具体的な手法は、一例として示したものであり、この他にも種々の手法を採ることができる。たとえば、平均値と比較する代わりに、常に隣接する変極点の固有周波数を比較し、差が許容範囲ffを越えた場合に不連続位置と認識する簡略化した手法を採ってもかまわない。すなわち、f1とf2との差、f2とf3との差、f3とf4との差、…というように、個々の差を検討してゆき、差が許容範囲ffを越えた場合には、そこを不連続位置として認識すればよい。
【0056】
以上、第1のアプローチについて述べたが、第2のアプローチに基づく単位区間の設定も同様に行うことができる。この場合は、個々の変極点の信号強度a1〜a9に着目し、所定の許容範囲aaとの比較を行うようにすればよい。もちろん、第1のアプローチと第2のアプローチとの双方を組み合わせて、単位区間の設定を行ってもよい。この場合は、個々の変極点の固有周波数f1〜f9と信号強度a1〜a9との双方に着目し、両者がともに所定の許容範囲ffおよびaa内に入っていれば、同一の単位区間に含ませるというような厳しい条件を課してもよいし、いずれか一方が許容範囲内に入っていれば、同一の単位区間に含ませるというような緩い条件を課してもよい。
【0057】
なお、この区間設定段階S30においては、上述した各アプローチに基づいて単位区間の設定を行う前に、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外する処理を行っておくのが好ましい。たとえば、図11に示す例のように所定の許容レベルLLを設定すると、変極点P4の信号強度a4と変極点P9の信号強度a9は、その絶対値がこの許容レベルLL未満になる。このような場合、変極点P4,P9を除外する処理を行うのである。このような除外処理を行う第1の意義は、もとの音声信号に含まれていたノイズ成分を除去することにある。通常、音声信号を電気的に取り込む過程では、種々のノイズ成分が混入することが多く、このようなノイズ成分までも含めて符号化が行われると好ましくない。
【0058】
もっとも、許容レベルLLをある程度以上に設定すると、ノイズ成分以外のものも除外されることになるが、このようにノイズ成分以外の信号を除外することも、場合によっては、十分に意味のある処理になる。すなわち、この除外処理を行う第2の意義は、もとの音声信号に含まれていた情報のうち、興味の対象外となる情報を除外することにある。たとえば、図1の上段に示す音声信号は、人間の心音を示す信号であるが、この音声信号のうち、疾患の診断などに有効な情報は、振幅の大きな部分(各単位区間U1〜U6の部分)に含まれており、それ以外の部分の情報はあまり役にたたない。そこで、所定の許容レベルLLを設定し、無用な情報部分を除外する処理を行うと、より効率的な符号化が可能になる。
【0059】
また、心音や肺音のように、生体が発生する生理的リズム音における比較的振幅の小さな成分は、生体内で発生する反響音であることが多く、このような反響音は、符号化の時点で一旦除外してしまっても、再生時にエコーなどの音響効果を加えることにより容易に付加することが可能である。このような点においても、許容レベル未満の変極点を除外する処理は意味をもつ。
【0060】
なお、許容レベル未満の変極点を除外する処理を行った場合は、除外された変極点の位置で分割されるように単位区間定義を行うようにするのが好ましい。たとえば、図11に示す例の場合、除外された変極点P4,P9の位置(一点鎖線で示す)で分割された単位区間U1,U2が定義されている。このような単位区間定義を行えば、図1の上段に示す音声信号のように、信号強度が許容レベル以上の区間(単位区間U1〜U6の各区間)と、許容レベル未満の区間(単位区間U1〜U6以外の区間)とが交互に出現するような音声信号の場合、非常に的確な単位区間の定義が可能になる。
【0061】
これまで、区間設定段階S30で行われる効果的な区間設定手法の要点を述べてきたが、ここでは、より具体的な手順を述べることにする。図2の流れ図に示されているように、この区間設定段階S30は、4つの処理S31〜S34によって構成されている。固有周波数定義処理S31は、既に述べたように、各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義する処理である。ここでは、図12に示すように、変極点P1〜P17のそれぞれについて、固有周波数f1〜f17が定義された例を考える。
【0062】
続く、レベルによるスライス処理S32は、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外し、除外された変極点の位置で分割されるような区間を定義する処理である。ここでは、図12に示すような変極点P1〜P17に対して、図13に示すような許容レベルLLを設定した場合を考える。この場合、変極点P1,P2,P11,P16,P17が、許容レベル未満の変極点として除外されることになる。図14では、このようにして除外された変極点を破線の矢印で示す。この「レベルによるスライス処理S32」では、更に、除外された変極点の位置で分割されるような区間K1,K2が定義される。ここでは、1つでも除外された変極点が存在する場合には、その位置の左右に異なる区間を設定するようにしており、結果的に、変極点P3〜P10までの区間K1と、変極点P12〜P15までの区間K2とが設定されることになる。なお、ここで定義された区間K1,K2は、暫定的な区間であり、必ずしも最終的な単位区間になるとは限らない。
【0063】
次の不連続部分割処理S33は、時間軸上において、変極点の固有周波数もしくは信号強度の値が不連続となる不連続位置を探し、処理S32で定義された個々の区間を、更にこの不連続位置で分割することにより、新たな区間を定義する処理である。たとえば、上述の例の場合、図15に示すような暫定区間K1,K2が定義されているが、ここで、もし暫定区間K1内の変極点P6とP7との間に不連続が生じていた場合は、この不連続位置で暫定区間K1を分割し、図16に示すように、新たに暫定区間K1−1とK1−2とが定義され、結局、3つの暫定区間K1−1,K1−2,K2が形成されることになる。不連続位置の具体的な探索手法は既に述べたとおりである。たとえば、図15の例の場合、
|(f3+f4+f5+f6)/4−f7|>ff
の場合に、変極点P6とP7との間に固有周波数の不連続が生じていると認識されることになる。同様に、変極点P6とP7との間の信号強度の不連続は、
|(a3+a4+a5+a6)/4−a7|>aa
の場合に認識される。
【0064】
不連続部分割処理S33で、実際に区間分割を行うための条件としては、
▲1▼固有周波数の不連続が生じた場合にのみ区間の分割を行う、
▲2▼信号強度の不連続が生じた場合にのみ区間の分割を行う、
▲3▼固有周波数の不連続か信号強度の不連続かの少なくとも一方が生じた場合に区間の分割を行う、
▲4▼固有周波数の不連続と信号強度の不連続との両方が生じた場合にのみ区間の分割を行う、
など、種々の条件を設定することが可能である。あるいは、不連続の度合いを考慮して、上述の▲1▼〜▲4▼を組み合わせるような複合条件を設定することもできる。
【0065】
こうして、不連続部分割処理S33によって得られた区間(上述の例の場合、3つの暫定区間K1−1,K1−2,K2)を、最終的な単位区間として設定することもできるが、ここでは更に、区間統合処理S34を行っている。この区間統合処理S34は、不連続部分割処理S33によって得られた区間のうち、一方の区間内の変極点の固有周波数もしくは信号強度の平均と、他方の区間内の変極点の固有周波数もしくは信号強度の平均との差が、所定の許容範囲内であるような2つの隣接区間が存在する場合に、この隣接区間を1つの区間に統合する処理である。たとえば、上述の例の場合、図17に示すように、区間K1−2と区間K2とを平均固有周波数で比較した結果、
|(f7+f8+f9+f10)/4
−(f12+f13+f14+f15)/4|<ff
のように、平均の差が所定の許容範囲ff以内であった場合には、区間K1−2と区間K2とは統合されることになる。もちろん、平均信号強度の差が許容範囲aa以内であった場合に統合を行うようにしてもよいし、平均固有周波数の差が許容範囲ff内という条件と平均信号強度の差が許容範囲aa以内という条件とのいずれか一方が満足された場合に統合を行うようにしてもよいし、両条件がともに満足された場合に統合を行うようにしてもよい。また、このような種々の条件が満足されていても、両区間の間の間隔が時間軸上で所定の距離以上離れていた場合(たとえば、多数の変極点が除外されたために、かなりの空白区間が生じているような場合)は、統合処理を行わないような加重条件を課すことも可能である。
【0066】
かくして、この区間統合処理S34を行った後に得られた区間が、最終的な単位区間として設定されることになる。上述の例では、最終的に、図18に示すように、単位区間U1(図17の暫定区間K1−1)と、単位区間U2(図17で統合された暫定区間K1−2およびK2)とが設定される。
【0067】
なお、ここに示す実施態様では、こうして得られた単位区間の始端と終端を、その区間に含まれる最初の変極点の時間軸上の位置を始端とし、その区間に含まれる最後の変極点の時間軸上の位置を終端とする、という定義で定めることにする。したがって、図18に示す例では、単位区間U1は時間軸上の位置t3〜t6までの区間であり、単位区間U2は時間軸上の位置t7〜t15までの区間となる。
【0068】
<<< 2.4 符号化段階 >>>
次に、図2の流れ図に示されている符号化段階S40について説明する。ここに示す実施形態では、この符号化段階S40は、符号データ生成処理S41と、符号データ修正処理S42とによって構成されている。符号データ生成処理S41は、区間設定段階S30において設定された個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報とを含む符号データを生成する処理であり、この処理により、個々の単位区間の音声データは個々の符号データによって表現されることになる。一方、符号データ修正処理S42は、後述するように、生成された符号データを、復号化に用いる再生音源装置の特性に適合させるために修正する処理である。
【0069】
符号データ生成処理S41における符号データ生成の具体的手法は、非常に単純である。すなわち、個々の単位区間内に含まれる変極点の固有周波数に基づいて代表周波数を定義し、個々の単位区間内に含まれる変極点のもつ信号強度に基づいて代表強度を定義ればよい。これを図18の例で具体的に示そう。この図18に示す例では、変極点P3〜P6を含む単位区間U1と、変極点P7〜P15(ただし、P11は除外されている)を含む単位区間U2とが設定されている。ここに示す実施形態では、単位区間U1(始端t3,終端t6)については、図19上段に示すように、代表周波数F1および代表強度A1が、
F1=(f3+f4+f5+f6)/4
A1=(a3+a4+a5+a6)/4
なる式で演算され、単位区間U2(始端t7,終端t15)については、図19下段に示すように、代表周波数F2および代表強度A2が、
F2=(f7+f8+f9+f10+f12+f13+f14+f15)/8
A2=(a7+a8+a9+a10+a12+a13+a14+a15)/8
なる式で演算される。別言すれば、代表周波数および代表強度は、単位区間内に含まれる変極点の固有周波数および信号強度の単純平均値となっている。もっとも、代表値としては、このような単純平均値だけでなく、重みを考慮した加重平均値をとってもかまわない。たとえば、信号強度に基づいて個々の変極点に重みづけをし、この重みづけを考慮した固有周波数の加重平均値を代表周波数としてもよい。
【0070】
こうして個々の単位区間に、それぞれ代表周波数および代表強度が定義されれば、時間軸上での個々の単位区間の始端位置と終端位置は既に得られているので、個々の単位区間に対応する符号データの生成が可能になる。たとえば、図18に示す例の場合、図20に示すように、5つの区間E0,U1,E1,U2,E2を定義するための符号データを生成することができる。ここで、区間U1,U2は、前段階で設定された単位区間であり、区間E0,E1,E2は、各単位区間の間に相当する空白区間である。各単位区間U1,U2には、それぞれ代表周波数F1,F2と代表強度A1,A2が定義されているが、空白区間E0,E1,E2は、単に始端および終端のみが定義されている区間である。
【0071】
図21は、図20に示す個々の区間に対応する符号データの構成例を示す図表である。この例では、1行に示された符号データは、区間名(実際には、不要)と、区間の始端位置および終端位置と、代表周波数および代表強度と、によって構成されている。一方、図22は、図20に示す個々の区間に対応する符号データの別な構成例を示す図表である。図21に示す例では、各単位区間の始端位置および終端位置を直接符号データとして表現していたが、図22に示す例では、各単位区間の始端位置および終端位置を示す情報として、区間長L1〜L4(図20参照)を用いている。なお、図21に示す構成例のように、単位区間の始端位置および終端位置を直接符号データとして用いる場合には、実際には、空白区間E0,E1,…についての符号データは不要である(図21に示す単位区間U1,U2の符号データのみから、図20の構成が再現できる)。
【0072】
本発明に係る音声信号の符号化方法によって、最終的に得られる符号データは、この図21あるいは図22に示すような符号データである。もっとも、符号データとしては、各単位区間の時間軸上での始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報とが含まれていれば、どのような構成のデータを用いてもかまわない。最終的に得られる符号データに、上述の情報さえ含まれていれば、所定の音源を用いて音声の再生(復号化)が可能になる。たとえば、図20に示す例の場合、時刻0〜t3の期間は沈黙を守り、時刻t3〜t6の期間に周波数F1に相当する音を強度A1で鳴らし、時刻t6〜t7の期間は沈黙を守り、時刻t7〜t15の期間に周波数F2に相当する音を強度A2で鳴らせば、もとの音声信号の再生が行われることになる。
【0073】
§3. MIDI形式の符号データを用いる実施形態
<<< 3.1 MIDIデータへの変換原理 >>>
上述したように、本発明に係る音声信号の符号化方法では、最終的に、個々の単位区間についての始端位置および終端位置を示す情報と、代表周波数および代表強度を示す情報とが含まれた符号データであれば、どのような形式の符号データを用いてもかまわない。しかしながら、実用上は、そのような符号データとして、MIDI形式の符号データを採用するのが最も好ましい。ここでは、MIDI形式の符号データの中でも、最も標準的に利用されているSMF(Standard MIDI File)形式の符号データを採用した具体的な実施形態を示す。
【0074】
図23は、一般的なSMF形式の符号データの構成を示す図である。図示のとおり、このSMF形式では、「ノートオン」データもしくは「ノートオフ」データが、「デルタタイム」データを介在させながら存在する。「デルタタイム」データは、1〜4バイトのデータで構成され、所定の時間間隔を示すデータである。一方、「ノートオン」データは、全部で3バイトから構成されるデータであり、1バイト目は常にノートオン符号「90 H」に固定されており( Hは16進数を示す)、2バイト目にノートナンバーNを示すコードが、3バイト目にベロシティーVを示すコードが、それぞれ配置される。ノートナンバーNは、音階(一般の音楽でいう全音7音階の音階ではなく、ここでは半音12音階の音階をさす)の番号を示す数値であり、このノートナンバーNが定まると、たとえば、ピアノの特定の鍵盤キーが指定されることになる(C−2の音階がノートナンバーN=0に対応づけられ、以下、N=127までの128通りの音階が対応づけられる。ピアノの鍵盤中央のラの音(A3音)は、ノートナンバーN=69になる)。ベロシティーVは、音の強さを示すパラメータであり(もともとは、ピアノの鍵盤などを弾く速度を意味する)、V=0〜127までの128段階の強さが定義される。
【0075】
同様に、「ノートオフ」データも、全部で3バイトから構成されるデータであり、1バイト目は常にノートオフ符号「80 H」に固定されており、2バイト目にノートナンバーNを示すコードが、3バイト目にベロシティーVを示すコードが、それぞれ配置される。「ノートオン」データと「ノートオフ」データとは対になって用いられる。たとえば、「90 H,69,80」なる3バイトの「ノートオン」データは、ノートナンバーN=69に対応する鍵盤中央のラのキーを押し下げる操作を意味し、以後、同じノートナンバーN=69を指定した「ノートオフ」データが与えられるまで、そのキーを押し下げた状態が維持される(実際には、ピアノなどのMIDI音源の波形を用いた場合、有限の時間内に、ラの音の波形は減衰してしまう)。ノートナンバーN=69を指定した「ノートオフ」データは、たとえば、「80 H,69,50」のような3バイトのデータとして与えられる。「ノートオフ」データにおけるベロシティーVの値は、たとえばピアノの場合、鍵盤キーから指を離す速度を示すパラメータになる。
【0076】
なお、上述の説明では、ノートオン符号「90 H」およびノートオフ符号「80 H」は固定であると述べたが、これらの符号の下位4ビットは必ずしも0に固定されているわけではなく、チャネル番号0〜15のいずれかを特定するコードとして利用することができ、チャネルごとにそれぞれ別々の楽器の音色についてのオン・オフを指定することができる。
【0077】
このように、MIDIデータは、もともと楽器演奏の操作に関する情報(別言すれば、楽譜の情報)を記述する目的で利用されている符号データであるが、本発明に係る音声信号の符号化方法への利用にも適している。すなわち、各単位区間についての代表周波数Fに基づいてノートナンバーNを定め、代表強度Aに基づいてベロシティーVを定め、単位区間の長さLに基づいてデルタタイムTを定めるようにすれば、1つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるMIDI形式の符号データに変換することが可能になる。このようなMIDIデータへの具体的な変換方法を図24に示す。
【0078】
まず、MIDIデータのデルタタイムTは、単位区間の区間長L(単位:秒)を用いて、
T=L・768
なる簡単な式で定義できる。ここで、数値「768」は、四分音符を基準にして、その長さ分解能(たとえば、長さ分解能を1/2に設定すれば八分音符まで、1/8に設定すれば三十二分音符まで表現可能:一般の音楽では1/16程度の設定が使われる)を、MIDI規格での最小値である1/384に設定し、メトロノーム指定を四分音符=120(毎分120音符)にした場合のMIDIデータによる表現形式における時間分解能を示す固有の数値である。
【0079】
また、MIDIデータのノートナンバーNは、1オクターブ上がると、周波数が2倍になる対数尺度の音階では、単位区間の代表周波数F(単位:Hz)を用いて、
N=(12/log102)・(log10(F/440)+69
なる式で定義できる。ここで、右辺第2項の数値「69」は、ピアノ鍵盤中央のラの音(A3音)のノートナンバー(基準となるノートナンバー)を示しており、右辺第1項の数値「440」は、このラの音の周波数(440Hz)を示しており、右辺第1項の数値「12」は、半音を1音階として数えた場合の1オクターブの音階数を示している。
【0080】
更に、MIDIデータのベロシティーVは、単位区間の代表強度Aと、その最大値Amax とを用いて、
V=(A/Amax )・127
なる式で、V=0〜127の範囲の値を定義することができる。なお、通常の楽器の場合、「ノートオン」データにおけるベロシティーVと、「ノートオフ」データにおけるベロシティーVとは、上述したように、それぞれ異なる意味をもつが、この実施形態では、「ノートオフ」データにおけるベロシティーVとして、「ノートオン」データにおけるベロシティーVと同一の値をそのまま用いるようにしている。
【0081】
前章の§2では、図20に示すような2つの単位区間U1,U2内の音声データに対して、図21あるいは図22に示すような符号データが生成される例を示したが、SMF形式のMIDIデータを用いた場合、単位区間U1,U2内の音声データは、図25の図表に示すような各データ列で表現されることになる。ここで、ノートナンバーN1,N2は、代表周波数F1,F2を用いて上述の式により得られた値であり、ベロシティーV1,V2は、代表強度A1,A2を用いて上述の式により得られた値である。
【0082】
<<< 3.2 MIDIデータの修正処理 >>>
図2に示す流れ図における符号化段階S40では、符号データ生成処理S41の後に、符号データ修正処理S42が行われる。符号データ生成処理S41は、上述した具体的な手法により、たとえば、図25に示すようなMIDIデータ列を生成する処理であり、符号データ修正処理S42は、このようなMIDIデータ列に対して、更に修正を加える処理である。後述するように、図25に示すようなMIDIデータ列に基づいて、音声を再生(復号化)するには、実際の音声の波形データをもった再生音源装置(MIDI音源)が必要になるが、このMIDI音源の特性は個々の音源ごとに様々であり、必要に応じて、用いるMIDI音源の特性に適合させるために、MIDIデータに修正処理を加えた方が好ましい場合がある。以下に、このような修正処理が必要な具体的な事例を述べる。
【0083】
いま、図26の上段に示すように、区間長Liをもった単位区間Ui内の音声データが所定のMIDIデータ(修正前のMIDIデータ)によって表現されていた場合を考える。すなわち、この単位区間Uiには、代表周波数Fiおよび代表強度Aiが定義されており、代表周波数Fi,代表強度Ai,区間長Liに基づいて、ノートナンバーNi,ベロシティーVi,デルタタイムTiが設定されていることになる。このとき、このMIDIデータを再生するために用いる予定のMIDI音源のノートナンバーNiに対応する再生音の波形が、図26の中段に示すようなものであったとしよう。この場合、単位区間Uiの単位長Liよりも、MIDI音源の再生音の持続時間LLiの方が短いことになる。したがって、修正前のMIDIデータを、このMIDI音源を用いてそのまま再生すると、本来の音が鳴り続けなければならない時間Liよりも短い持続時間LLiで、再生音は減衰してしまうことになる。このような事態が生じると、もとの音声信号の再現性が低下してしまう。
【0084】
そこで、このような場合、単位区間を複数の小区間に分割し、各小区間ごとにそれぞれ別個の符号データを生成する修正処理を行うとよい。この図26に示す例の場合、図の下段に示すように、もとの単位区間Uiを、2つの小区間Ui1,Ui2に分割し、それぞれについて別個のMIDIデータを生成するようにしている。個々の小区間Ui1,Ui2に定義される代表周波数および代表強度は、いずれも分割前の単位区間Uiの代表周波数Fiおよび代表強度Aiと同じであり、区間長だけがLi/2になったわけであるから、修正後のMIDIデータとしては、結局、ノートナンバーNi,ベロシティーVi,デルタタイムTi/2を示すMIDIデータが2組得られることになる。
【0085】
一般のMIDI音源では、通常、再生音の持続時間はその再生音の周波数に応じて決まる。特に、心音などの音色についての音源では、再生音の周波数をf(Hz)とした場合、その持続時間は5/f(秒)程度である。したがって、このような音源を用いたときには、特定の単位区間Uiについて、代表周波数Fiと区間長Liとの関係が、Li>5/Fiとなるような場合には、Li/m<5/Fiとなるような適当な分割数mを求め、上述した修正処理により、単位区間Uiをm個の小区間に分割するような処理を行うのが好ましい。
【0086】
続いて、修正処理が必要な別な事例を示そう。いま、再生に用いる予定のMIDI音源の再生音が、図27の左側に示すような周波数レンジを有しているのに対し、生成された一連のMIDIデータに基づく再生音の周波数レンジが、図27の右側に示すように、低音側にオフセット量dだけ偏りを生じていたとしよう。このような場合、再生音はMIDI音源の一部の周波数帯域のみを使って提示されるようになるため、一般的には好ましくない。そこで、MIDIデータの周波数の平均が、MIDI音源の周波数レンジの中心(この例では、440Hzの基準ラ音(ノートナンバーN=69))に近付くように、MIDIデータ側の周波数(ノートナンバー)を全体的に引き上げる修正処理を行い、図28に示すように、オフセット量dが0になるようにするとよい。
【0087】
もっとも、音声信号の性質によっては、むしろ低音側にシフトした状態のままで再生した方が好ましいものもあり、上述のような修正処理によって必ずしも良好な結果が得られるとは限らない。したがって、個々の音声信号の性質を考慮した上で、このような修正処理を行うか否かを適宜判断するのが好ましい。
【0088】
この他にも、用いるMIDI音源によっては、特性に適合させるために種々の修正処理が必要な場合がある。たとえば、1オクターブの音階差が2倍の周波数に対応していないような特殊な規格のMIDI音源を用いた場合には、この規格に適合させるように、ノートナンバーの修正処理などが必要になる。
【0089】
§4. 一般の音声信号への適用
既に述べたとおり、本発明は、1つの単位区間に含まれる音声データの周波数を、単一の代表周波数に置き換えてしまうという基本原理に基づく符号化手法であるため、非常に幅の広い周波数成分を同時に含んでいるような一般の音声信号の符号化には不向きであり、主として、生体の発生するリズム音や、波や風などの自然が発生するリズム音のように、個々の単位区間内には、ある程度限定された周波数成分のみを含む音声信号の符号化に向いている。ただ、一般の音声信号の符号化に広く適用することが不可能なわけではなく、周波数を分離する準備処理を付加すれば、原理的にはどのような音声信号に対しても適用可能である。
【0090】
たとえば、図29の上段に示すように、種々の周波数成分が混在する一般の音声信号(音声データ)が与えられた場合、入力段階において、帯域フィルタ処理やフーリエ変換処理などを利用した分離処理を施して、それぞれ周波数特性が異なる複数n個の部分音声データを生成し、このn個の部分音声データのそれぞれについて、後続する各段階を別個独立して実施し、最終的に和声(和音)として同時に再生することができるn組の符号データを生成するようにすればよい。図29の例では、周波数特性fa,fb,fcを含む3組の部分音声データを生成し、これらについて別個に符号化処理を施して符号データ(図では音符で示してある)を生成し、最後に、これら3組の符号データを同時に再生して和音としての提示を行っている。
【0091】
たとえば、フルオーケストラの合奏を音声データとして取り込んだ場合、種々の周波数特性をもった楽器音が混在することになるが、個々の楽器音はそれぞれ固有の周波数特性を有する。たとえば、ピアノの場合、基本周波数に対して奇数倍の倍音しか発生しないといった独特の倍音分布特性を有する。したがって、グラフィック・イコライザなどを利用すれば、このような個々の楽器の周波数特性に基づいて、オーケストラの音声データを、各楽器ごとの部分音声データに分離することが可能である。こうして、楽器ごとの部分音声データが得られたら、各部分音声データごとに符号データの生成処理を別個に行い、最終的に得られた複数組の符号データを和声として同時に再生すれば、もとのフルオーケストラの合奏に近い形での再生が可能になる。
【0092】
また、ピアノの独奏のようなソロ楽器演奏を音声データとして取り込んだ場合は、符号化処理段階で複数の符号データを生成する手法を採ることも有効である。すなわち、各変極点について、それぞれ複数の固有周波数を定義し、符号化段階で、各単位区間に対してそれぞれ複数の代表周波数を定義し、各代表周波数ごとに別個の符号データを生成するのである。こうして生成した複数組の符号データを、和声として同時に再生すれば、もとの音に近い形での再生が可能になる。
【0093】
もっとも、本発明に係る音声信号の符号化方法の特徴のひとつは、符号化処理のための演算が非常に単純である点にあり、実際、§2および§3で述べた具体的な手法を実施する上での演算負担は極めて軽いものである。このため、一般のパーソナルコンピュータを用いたシステムでも、この符号化処理演算を十分に実施することができる。ところが、上述した周波数特性に基づく分離処理は、通常、かなりの演算負担を強いられる処理であり、この分離のための付加的な処理を含めると、全体的な演算負担は重くならざるを得ず、現時点でのハードウエア技術を考慮すると、生体が発生する生理的リズム音などの分野において利用するのが好ましい。
【0094】
§5. 本発明に係る音声の記録再生装置
本発明に係る音声の記録再生装置は、これまで述べてきた音声信号の符号化方法を利用して、時系列の強度信号として与えられる音声信号を符号化して記録し、MIDI音源などを利用して、これを復号化して再生する装置である。
【0095】
図30は、本発明の一実施形態に係る記録再生装置の基本構成を示すブロック図である。この装置の基本構成要素は、図示のとおり、音声信号入力装置10、符号化処理装置20、記憶装置30、再生音源装置40、復号化処理装置50、スピーカ装置60、符号データ提示装置70、ディスプレイ装置80、プリンタ装置90である。音声信号入力装置10は、記録対象となるアナログ音声信号を入力する機能を有し、ここで入力されたアナログ音声信号は、符号化処理装置20へ与えられる。この符号化処理装置20は、入力されたアナログ音声信号を、デジタルの音声データとして取り込み、この音声データの時間軸上に複数の単位区間を設定し、各単位区間内の音声データを、時間軸上での単位区間の長さを示す情報と所定の代表周波数および代表強度を示す情報とを含む符号データに変換する機能をもった装置であり、§1〜§4において述べた音声信号の符号化手順を実行する装置である。MIDI規格の符号データを用いた場合、この符号化処理装置20によって、MIDIデータが生成されることになる。記憶装置30は、この符号化処理装置20によって符号化された符号データ(たとえば、MIDIデータ)を記憶する装置であり、ここに記録された符号データは、復号化に用いる再生音波形を格納した再生音源装置40(たとえば、MIDI音源)を用いて、復号化処理装置50によって復号化され、スピーカ装置60によって再生されることになる。
【0096】
また、符号データ提示装置70は、記憶装置30内の符号データを、単位区間の長さ、代表周波数、代表強度、を認識しうる態様で、画像として提示する機能を有し、ディスプレイ装置80の表示画面、あるいはプリンタ装置90による印刷面に、この符号データの内容が提示されることになる。たとえば、MIDIデータの場合、音符を用いた楽譜形式の表示態様により、視覚的に認識しうる形で提示を行うことができる。
【0097】
なお、図30に示すブロック図において、一点鎖線で囲った構成要素100は、汎用のパーソナルコンピュータを利用して構成することができる。すなわち、記憶装置30は、このパーソナルコンピュータのメモリや外部記憶装置を利用して構成することができ、符号化処理装置20,復号化処理装置50,符号データ提示装置70は、このパーソナルコンピュータ用のアプリケーションソフトウエアという形式で構成することができる。また、音声信号入力装置10は、このコンピュータに接続されたマイクロフォンなどにより構成することができ、スピーカ装置60は、このコンピュータに内蔵もしくは接続されたスピーカやアンプ装置により構成することができ、ディスプレイ装置80およびプリンタ装置90は、このコンピュータに接続されたディスプレイやプリンタにより構成することができるので、この装置全体は、汎用のパーソナルコンピュータおよびその周辺機器のハードウエアをそのまま利用して構成することが可能である。
【0098】
また、復号化処理装置50や符号データ提示装置70の機能を果たすアプリケーションソフトウエアとしては、一般に市販されているMIDI楽器演奏用のソフトウエアや、作曲用のソフトウエアをそのまま利用することもできるので、結局、本発明に係る音声の記録再生装置は、符号化処理装置20としての機能を果たすアプリケーションソフトウエア(すなわち、§1〜§4で述べた音声信号の符号化処理を実行するソフトウエア)を、MIDI機能を備えた汎用パーソナルコンピュータに組み込むことにより容易に実現可能である。もちろん、符号化処理装置20としての機能を果たすアプリケーションソフトウエアは、フロッピディスク、MOディスク、CD−ROMといった汎用のプログラム記録媒体によって提供可能である。
【0099】
§6. 生理的リズム音の記録再生装置
本発明に係る音声信号の符号化方法や音声の記録再生装置は、もともと心音や肺音などの生理的リズム音を記録再生するための技術として開発されたものである。そこで、ここでは、本発明を、特に、生理的リズム音の記録再生に応用した実施形態を述べておく。
【0100】
図31は、医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置10を構成した例を示す図である(説明の便宜上、断面図とブロック図との混合図で示す)。聴診器本体11は、高周波の音波を集音するための膜部12と低周波の音波を集音するためのベル面13とを有し、集められた音波は、導音管14を介して側部へと導かれる。導音管14の端部には、ゴム管15が接続されており、このゴム管15の他端には、PIN型マイクロフォン16が挿入されている。また、PIN型マイクロフォン16は、電源/信号ケーブル17によってコンデンサマイクドライバ18に接続されている。コンデンサマイクドライバ18から、電源/信号ケーブル17を介して、PIN型マイクロフォン16に電源供給を行うと、導音管14を介して導かれた音波に対応するアナログ音声信号が、電源/信号ケーブル17を介してコンデンサマイクドライバ18へと伝達される。このアナログ音声信号は、マイクミキサー19を介して、符号化処理装置20へと入力されることになる。
【0101】
心音を測定するには、聴診器本体11を患者の胸に当てて音声信号を拾うようにすればよい。なお、一般に心音の測定では、心基部に聴診器を当てたときに得られる音声信号と、心尖部に聴診器を当てたときに得られる音声信号との2とおりの音声信号が用いられている。このように、2とおりの音声信号を同時に測定するには、図31に示す聴診器本体11からコンデンサマイクドライバ18に至るまでの測定系をもう1組別個用意し、マイクミキサー19において、2系統の音声信号をステレオ信号として合成し、符号化処理装置20へと信号を伝送すればよい。
【0102】
このように、心音をMIDIデータの形式に符号化した場合、再生音源装置40としても、心音についての再生音波形を有するMIDI音源を用いるのが好ましい。現在、市販のMIDI音源としては、たとえば、ヤマハ株式会社から供給されている商品名「MU80 XG」なるMIDI音源に、「SFX No.100“HEART ”」なる音色として、心音の波形データが用意されている。この心音の波形データを用いて再生を行えば、非常に臨場感に富んだ心音再生を行うことが可能である。
【0103】
また、図30に示す記録再生装置には、符号データ提示装置70が設けられており、記憶装置30内に格納されたMIDIデータを、ディスプレイ装置80の表示画面あるいはプリンタ装置90の印刷面に画像として提示することが可能である。図32および図33は、ディスプレイ装置80の表示画面の一例を示す図である。図32は、入力された音声信号の波形そのものを上段表示部81に表示させ、この波形を符号化することにより得られたMIDIデータを下段表示部82に表示させたものである。いずれも、図の横軸が時間軸であり、上段表示部81および下段表示部82で、時間軸は共通化されているため、上下の表示を比較することが可能である。上段表示部81の縦軸は、信号強度を示すものであるが、下段表示部82の縦軸は、音階(周波数)を示すものになっている。すなわち、下段表示部82の中央の水平線は、ピアノ鍵盤中央のラの音(A3音:440Hz)を示し、水平の破線は、それぞれ1オクターブごとの区切りを示している。
【0104】
下段表示部82内の個々の黒い矩形83は、いわば音符に相当するものであり、個々の矩形の縦軸上の割付位置はその音階(ノートナンバーN)を示し、横軸上の割付位置はその時間軸上での配置を示している。MIDIデータでは、ノートナンバーNと、ベロシティーVと、デルタタイムTとが記述されることになるが、この黒い矩形による音符表示では、ノートナンバーNとともに、ベロシティーVおよびデルタタイムTが表現できるように工夫されている。すなわち、各矩形の縦軸方向の幅によってベロシティーVが表現されており、横軸方向の幅によってデルタタイムT(発音の持続時間)が表現されている(時間軸上での矩形の左辺位置が始端位置、右辺位置が終端位置を示す)。このように、下段表示部82における黒い矩形は、MIDIデータの3要素であるノートナンバーN、ベロシティーV、デルタタイムTのすべてを表現しており、音声信号の特性を抽出した符号表現になっている。
【0105】
このような符号表現は、むしろ上段表示部81に示すような波形表現よりも貴重な情報を提示することが多い。たとえば、種々の心臓疾患の兆候は、心音の特徴として現れることが多いが、再生音を耳で聞いただけで、あるいは、上段表示部81に示されたような波形を目で観察しただけで、この兆候を示す独特の特徴を認識するには、多くの経験と実績が必要になる。ところが、下段表示部82に示すような符号表現では、縦に細長い矩形は振幅の大きな信号部を示し、横に細長い矩形は持続時間の長い信号部を示し、各矩形の上下位置は信号部の周波数成分を示すことになるので、個々の心音の特徴部分を客観的に認識することができ、個々の特徴と個々の疾患との関連を認識しやすくなるのである。
【0106】
このように、図30に示す音声の記録再生装置を、心音あるいは肺音など、生理的リズム音の記録再生に利用した場合、単に、もとの音を再生するというメリットだけでなく、符号化されたデータを符号化された状態のまま視覚的に表示することにより、その特徴を顕在化させるというメリットも得られることになる。
【0107】
もちろん、符号データとしてMIDIデータを用いた場合、図33に示すような、楽譜の形態での表示も可能である。これまでの医療分野では、生理的リズム音を楽譜表示して解析するという手法は採られたことがないが、音声波形の特徴を抽出した符号表示という意味では、このような楽譜表示も十分に利用価値のある表示形態である。たとえば、楽譜表示では、同一の繰り返し部分をリピート記号によって表示することが可能である。このようなリピート記号による表示を行えば、繰り返し部分が明瞭に認識されることになり、疾患との関連性認識にひとつの手掛かりを与えることもできよう。
【0108】
最後に、本発明に係る音声の記録再生装置を、生理的リズム音の記録再生という医療分野に利用した場合のメリットを述べておく。
▲1▼ 従来のPCMの手法による波形記録に比べて、極めて高いデータ圧縮率が得られる。たとえば、サンプリング周波数:44.1kHz,量子化ビット数:16ビットで1秒間の心音波形をPCMの手法でデジタル化すると、約80kバイトのデータ量が必要であるのに対し、MIDIデータに符号化すると、約80バイトのデータ量ですみ、データ量は実に1/1000程度に圧縮される。このような高い圧縮率のメリットを生かせば、電話回線を用いたデータ転送も可能になり、遠隔医療診断などの用途に利用できる。また、ICカードなどの低容量記録媒体にデータを保存することができるので、ICカードを用いた電子カルテなどへの応用も可能になる。
▲2▼ MIDI音源などを利用して再生を行うため、高い圧縮率にもかかわらず、高い再現性を確保でき、診断ミスなどの弊害を防ぐことができる。
▲3▼ MIDIデータという符号化された状態のままで、視覚的な表示を行うことができるので、音声波形の特徴を視覚的に把握することができ、医学教育や患者への説明用に利用でき、また、家庭用の医療機器としての用途も広がる。
▲4▼ MIDIデータを再生する場合、音程、音色、テンポなどを適宜変更することが可能なので、より聞き取りやすい音で再生することが可能になる。
▲5▼ 繰り返し部をリピート記号などを用いて表現することができるため、更なるデータ圧縮効果が期待できるとともに、不整脈などのリズム変動部を顕在化させることができる。
▲6▼ MIDI規格では、最大16チャネルの音声信号を同期符号化することができるので、肺音と心音との同時測定など、患者の複数の部位からのリズム音を同時に記録することができ、同一の時間軸上で比較解析を行うことが可能になる。
▲7▼ 市販の汎用パーソナルコンピュータシステムにMIDI機器を組み合わせた安価なハードウエア構成で実現することができるため、携帯用機器として提供することも可能になり、家庭向けの医療機器としての提供もしやすい。
【0109】
【発明の効果】
以上のとおり本発明によれば、音声信号の効率的な符号化が可能になり、効率的な音声の記録再生装置を提供することができる。
【図面の簡単な説明】
【図1】本発明に係る音声信号の符号化方法の基本原理を示す図である。
【図2】本発明に係る音声信号の符号化方法の実用的な手順を示す流れ図である。
【図3】入力した音声データに含まれている直流成分を除去するデジタル処理を示すグラフである。
【図4】図3に示す音声データの一部を時間軸に関して拡大して示したグラフである。
【図5】図4に矢印で示す変極点P1〜P6のみを抜き出した示した図である。
【図6】多少乱れた音声データの波形を示すグラフである。
【図7】図6に矢印で示す変極点P1〜P7のみを抜き出した示した図である。
【図8】図7に示す変極点P1〜P7の一部を間引処理した状態を示す図である。
【図9】個々の変極点について、固有周波数を定義する方法を示す図である。
【図10】個々の変極点に関する情報に基づいて、単位区間を設定する具体的手法を示す図である。
【図11】所定の許容レベルLLに基づくスライス処理を示す図である。
【図12】単位区間設定の対象となる多数の変極点を矢印で示した図である。
【図13】図12に示す変極点に対して、所定の許容レベルLLに基づくスライス処理を行う状態を示す図である。
【図14】図13に示すスライス処理によって変極点を除外し、暫定区間K1,K2を設定した状態を示す図である。
【図15】図14に示す暫定区間K1についての不連続位置を探索する処理を示す図である。
【図16】図15で探索された不連続位置に基づいて、暫定区間K1を分割し、新たな暫定区間K1−1とK1−2とを定義した状態を示す図である。
【図17】図16に示す暫定区間K1−2,K2についての統合処理を示す図である。
【図18】図17に示す統合処理によって、最終的に設定された単位区間U1,U2を示す図である。
【図19】各単位区間についての代表周波数および代表強度を求める手法を示す図である。
【図20】5つの区間E0,U1,E1,U2,E2を定義するための符号データを示す図である。
【図21】図20に示す単位区間U1,U2内の音声データを符号化して得られる符号データの一例を示す図表である。
【図22】図20に示す単位区間U1,U2内の音声データを符号化して得られる符号データの別な一例を示す図表である。
【図23】一般的なSMF形式の符号データの構成を示す図である。
【図24】各単位区間内の音声データについてのMIDIデータへの具体的な変換方法を示す図である。
【図25】図20に示す単位区間U1,U2内の音声データを、SMF形式のMIDIデータを用いて符号化した状態を示す図表である。
【図26】生成したMIDIデータに対して修正処理が必要な第1の事例を示す図である。
【図27】生成したMIDIデータに対して修正処理が必要な第2の事例を示す図である。
【図28】図27に示す事例における修正後の状態を示す図である。
【図29】入力段階において周波数分離処理を施す実施形態の基本概念を示す図である。
【図30】本発明の一実施形態に係る記録再生装置の基本構成を示すブロック図である。
【図31】医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置を構成した例を示す図である。
【図32】図30に示す装置におけるディスプレイ装置80の表示画面の一例を示す図である。
【図33】図30に示す装置におけるディスプレイ装置80の別な表示画面の一例を示す図である。
【符号の説明】
10…音声信号入力装置
11…聴診器本体
12…膜部
13…ベル面
14…導音管
15…ゴム管
16…PIN型マイクロフォン
17…電源/信号ケーブル
18…コンデンサマイクドライバ
19…マイクミキサー
20…符号化処理装置
30…記憶装置
40…再生音源装置
50…復号化処理装置
60…スピーカ装置
70…符号データ提示装置
80…ディスプレイ装置
81…上段表示部
82…下段表示部
83…矩形状の音符
90…プリンタ装置
100…パーソナルコンピュータ
A,A1,A2,Ai…代表強度
Amax …代表強度の最大値
a1〜a9…変極点の信号強度
aa…許容範囲
D…直流成分
d…オフセット量
E0,E1,E2…空白区間
e1〜e6…終端位置
F,F1,F2,Fi…代表周波数
f1〜f17…変極点の固有周波数
fa,fb,fc…周波数特性
ff…許容範囲
fs…サンプリング周波数
K1,K1−1,K1−2,K2…暫定区間
L,L1〜L4,Li…区間長
LL…許容レベル
LLi…再生音の持続時間
N,Ni…ノートナンバー
P1〜P17…変極点
s1〜s6…始端位置
T,Ti…デルタタイム
t1〜t17…時間軸上の位置
U1〜U6,Ui,Ui1,Ui2…単位区間
V,Vi…ベロシティー
x…サンプル番号
φ…周期
Claims (15)
- 時系列の強度信号として与えられる音声信号を符号化するための符号化方法であって、
符号化対象となる音声信号を、デジタルの音声データとして取り込む入力段階と、
取り込んだ音声データの波形について変極点を求める変極点定義段階と、
前記音声データの時間軸上に複数の単位区間を設定する区間設定段階と、
個々の単位区間内の音声データに基づいて、個々の単位区間を代表する所定の代表周波数および代表強度を定義し、時間軸上での個々の単位区間の始端位置および終端位置を示す情報と前記代表周波数および前記代表強度を示す情報とを含む符号データを生成し、個々の単位区間の音声データを個々の符号データによって表現する符号化段階と、
を有し、
前記区間設定段階では、各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義し、1つの単位区間に含まれる変極点の固有周波数が所定の近似範囲内になるように、単位区間の設定を行い、
前記符号化段階では、単位区間内に含まれる変極点の固有周波数に基づいて代表周波数を定義し、単位区間内に含まれる変極点のもつ信号強度に基づいて代表強度を定義することを特徴とする音声信号の符号化方法。 - 請求項1に記載の符号化方法において、
入力段階で、正および負の両極性デジタル値を信号強度としてもった音声データを用意し、
変極点定義段階で、同極性のデジタル値をもった変極点が複数連続する場合に、絶対値が最大のデジタル値をもった変極点のみを残す間引処理を行い、極性の異なる変極点が交互に現れるようにすることを特徴とする音声信号の符号化方法。 - 請求項1または2に記載の符号化方法において、
区間設定段階で、絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外する処理を行うことを特徴とする音声信号の符号化方法。 - 請求項1〜3のいずれかに記載の符号化方法において、
各変極点について、それぞれ近傍の変極点との間の時間軸上での距離に基づいて所定の固有周波数を定義する第1のステップと、
絶対値が所定の許容レベル未満となる信号強度をもつ変極点を除外し、除外された変極点の位置で分割されるような区間を定義する第2のステップと、
時間軸上において、変極点の固有周波数の値が不連続となる不連続位置を探し、前記第2のステップで定義された個々の区間を、更に前記不連続位置で分割することにより、新たな区間を定義する第3のステップと、
を区間設定段階で行い、最終的に定義された区間を単位区間として設定することを特徴とする音声信号の符号化方法。 - 請求項4に記載の符号化方法において、
第3のステップで定義された区間のうち、一方の区間内の変極点の固有周波数の平均と、他方の区間内の変極点の固有周波数の平均との差が、所定の許容範囲内であるような2つの隣接区間が存在する場合に、この隣接区間を1つの区間に統合する統合処理を行う第4のステップを更に行い、区間設定段階では、前記第4のステップにおける統合処理後の区間を単位区間として設定することを特徴とする音声信号の符号化方法。 - 請求項1〜5のいずれかに記載の符号化方法において、
符号化段階で、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、1つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるMIDI形式の符号データに変換することを特徴とする音声信号の符号化方法。 - 請求項1〜6のいずれかに記載の符号化方法において、
符号化段階で、復号化に用いる再生音源装置の特性に適合させるための修正処理を行うことを特徴とする音声信号の符号化方法。 - 請求項7に記載の符号化方法において、
特定の単位区間に対応する符号データに基づいて、再生音源装置により音の再生を行うと、前記特定の単位区間の長さよりも再生音の持続時間が短くなる場合に、前記特定の単位区間を複数の小区間に分割し、各小区間ごとにそれぞれ別個の符号データを生成する修正処理を行うことを特徴とする音声信号の符号化方法。 - 請求項7に記載の符号化方法において、
生成された一連の符号データに基づいて、再生音源装置により音の再生を行うと、再生音の周波数レンジが、前記再生音源装置により再生可能な固有周波数レンジに対して偏りを生じる場合に、前記一連の符号データ内に含まれる代表周波数の平均が前記固有周波数レンジの中心に近付くように、代表周波数に対する修正処理を行うことを特徴とする音声信号の符号化方法。 - 請求項1〜9のいずれかに記載の符号化方法において、
各変極点について、それぞれ複数の固有周波数を定義し、符号化段階で、各単位区間に対してそれぞれ複数の代表周波数を定義し、各代表周波数ごとに別個の符号データを生成し、和声として同時に再生することができる複数組の符号データを生成することを特徴とする音声信号の符号化方法。 - 請求項1〜10のいずれかに記載の符号化方法において、
入力段階において、それぞれ周波数特性が異なる複数n個の部分音声データを生成する分離処理を行い、n個の部分音声データのそれぞれについて、後続する各段階を別個独立して実施し、異なる音源設定により和声として同時に再生することができるn組の符号データを生成することを特徴とする音声信号の符号化方法。 - 時系列の強度信号として与えられる音声信号を符号化して記録し、これを復号化して再生する音声の記録再生装置であって、
記録対象となるアナログ音声信号を入力する音声信号入力装置と、
入力されたアナログ音声信号を、デジタルの音声データとして取り込み、この音声データの時間軸上に複数の単位区間を設定し、各単位区間内の音声データを、時間軸上での単位区間の始端位置および終端位置を示す情報と所定の代表周波数および代表強度を示す情報とを含む符号データに変換する符号化処理装置と、
前記符号化処理装置によって符号化された符号データを記憶する記憶装置と、
前記符号データの復号化に用いる再生音波形を格納した再生音源装置と、
前記記憶装置内の符号データを、前記再生音源装置に格納された所定の再生音波形を用いて復号化する復号化処理装置と、
復号化された音を再生するためのスピーカ装置と、
を備え、前記符号化処理装置が、請求項1〜11のいずれかに記載の符号化方法を実行する機能を有することを特徴とする音声の記録再生装置。 - 請求項12に記載の音声の記録再生装置において、
記憶装置内の符号データを、単位区間の長さ、代表周波数、代表強度、を認識しうる態様で、画像として提示する符号データ提示装置を更に備えることを特徴とする音声の記録再生装置。 - 請求項12または13に記載の音声の記録再生装置において、
符号化処理装置が、代表周波数に基づいてノートナンバーを定め、代表強度に基づいてベロシティーを定め、単位区間の長さに基づいてデルタタイムを定め、1つの単位区間の音声データを、ノートナンバー、ベロシティー、デルタタイムで表現されるMIDI形式の符号データに変換する機能を有し、
再生音源装置としてMIDI形式の音源を用いることを特徴とする音声の記録再生装置。 - 請求項12〜14のいずれかに記載の音声の記録再生装置において、
医療用の聴診器と、この聴診器で集められた音声を電気信号に変換するマイクと、を用いて音声信号入力装置を構成し、
生体が発する音声を表現した再生音波形を格納した再生音源装置を用い、
音符もしくは音符に準じた符号を二次元平面上に時系列で配置した楽譜形式の画像として、記憶装置内の符号データを提示する符号データ提示装置を備えることを特徴とする音声の記録再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06746797A JP3776196B2 (ja) | 1997-03-05 | 1997-03-05 | 音声信号の符号化方法および音声の記録再生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06746797A JP3776196B2 (ja) | 1997-03-05 | 1997-03-05 | 音声信号の符号化方法および音声の記録再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10247099A JPH10247099A (ja) | 1998-09-14 |
JP3776196B2 true JP3776196B2 (ja) | 2006-05-17 |
Family
ID=13345799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06746797A Expired - Fee Related JP3776196B2 (ja) | 1997-03-05 | 1997-03-05 | 音声信号の符号化方法および音声の記録再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3776196B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296883A (ja) * | 2000-04-14 | 2001-10-26 | Sakai Yasue | 音声認識方法および装置、音声合成方法および装置、記録媒体 |
JP4647770B2 (ja) * | 2000-11-17 | 2011-03-09 | 大日本印刷株式会社 | 時系列信号解析装置 |
JP4968421B2 (ja) * | 2001-09-28 | 2012-07-04 | 大日本印刷株式会社 | 時系列信号解析装置 |
JP4665664B2 (ja) * | 2005-08-24 | 2011-04-06 | ヤマハ株式会社 | シーケンスデータ生成装置およびシーケンスデータ生成プログラム |
JP5233737B2 (ja) * | 2009-02-24 | 2013-07-10 | 大日本印刷株式会社 | 音素符号補正装置、音素符号データベース、および音声合成装置 |
JP5481957B2 (ja) * | 2009-06-17 | 2014-04-23 | 大日本印刷株式会社 | 音声合成装置 |
JP5481958B2 (ja) * | 2009-06-17 | 2014-04-23 | 大日本印刷株式会社 | 音素符号変換装置および音声合成装置 |
JP5471138B2 (ja) * | 2009-08-06 | 2014-04-16 | 大日本印刷株式会社 | 音素符号変換装置および音声合成装置 |
JP5360489B2 (ja) * | 2009-10-23 | 2013-12-04 | 大日本印刷株式会社 | 音素符号変換装置および音声合成装置 |
KR101145251B1 (ko) * | 2011-11-21 | 2012-05-24 | 이춘우 | 현악기의 음파에 연동함으로써 음악을 체감할 수 있는 의자형 음악감상장치 |
KR101276049B1 (ko) * | 2012-01-25 | 2013-06-20 | 세종대학교산학협력단 | 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법 |
-
1997
- 1997-03-05 JP JP06746797A patent/JP3776196B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10247099A (ja) | 1998-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6140568A (en) | System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal | |
US5808225A (en) | Compressing music into a digital format | |
EP1688912B1 (en) | Voice synthesizer of multi sounds | |
Maher et al. | An investigation of vocal vibrato for synthesis | |
JP3776196B2 (ja) | 音声信号の符号化方法および音声の記録再生装置 | |
WO2004051622A1 (ja) | 楽曲データ作成装置及び方法 | |
US8134062B2 (en) | Apparatus and method for generating music using bio-signal | |
JP2900976B2 (ja) | Midiデータ編集装置 | |
Lerch | Software-based extraction of objective parameters from music performances | |
CN112216260A (zh) | 一种电子二胡系统 | |
JPH079591B2 (ja) | 楽器音響解析装置 | |
JP3795201B2 (ja) | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 | |
JP4037542B2 (ja) | 音響信号の符号化方法 | |
JP3958841B2 (ja) | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 | |
JPH1173200A (ja) | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 | |
KR20190121080A (ko) | 미디어 컨텐츠 서비스 시스템 | |
JP2001005450A (ja) | 音響信号の符号化方法 | |
JP4968421B2 (ja) | 時系列信号解析装置 | |
JP4152502B2 (ja) | 音響信号の符号化装置および符号データの編集装置 | |
Knees et al. | Basic methods of audio signal processing | |
JP5879813B2 (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
CN112289289A (zh) | 一种可编辑的普遍音色合成分析系统及方法 | |
Modegi et al. | Application of MIDI technique for medical audio signal coding | |
Li et al. | Music Definition Language & Music Manipulation Language: A Coding Scheme for Music Representation and Storage | |
JPS58123591A (ja) | 電子楽器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060222 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130303 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130303 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140303 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |