JPWO2002058053A1

JPWO2002058053A1 - ディジタル音声データの符号化方法及び復号化方法

Info

Publication number: JPWO2002058053A1
Application number: JP2002558260A
Authority: JP
Inventors: 博司関口
Original assignee: カナース・データー株式会社; ペンタックス株式会社
Priority date: 2001-01-22
Filing date: 2001-01-22
Publication date: 2004-05-27
Also published as: DE10197182B4; CN1212605C; KR20030085521A; US20040054525A1; WO2002058053A1; CN1493072A; DE10197182T5; KR100601748B1

Abstract

この発明は、種々のディジタル・コンテンツに対応して、音声の明瞭度を損なうことなく再生スピードの変更を可能にするディジタル音声データの符号化及び復号化に関する。符号化では、予め設定される離散周波数ごとに、それぞれ対をなすディジタイズされたサイン波成分及びコサイン波成分を生成し、これらサイン波成分及びコサイン波成分を利用して、所定サンプリング周期でサンプリングされたディジタル音声データから、該サイン波成分の振幅情報及びコサイン波成分の各振幅情報が抽出する。そして、離散周波数それぞれに対応して抽出されたサイン波成分の振幅情報及びコサイン波成分の振幅情報の対により構成されたフレームデータが、符号化音声データの一部として順次生成される。

Description

技術分野
この発明は、所定周期でサンプリングされたディジタル音声データの符号化方法及び復号化方法に関するものである。
背景技術
従来から、音声のピッチ周期や明瞭度を保ったまま再生スピードを変更するために、波形の時間軸補間や伸張法がいくつか知られている。このような技術は音声符号化に適用することも可能である。すなわち、符号化前に一旦音声データに対して時間軸圧縮を行い、復号後に該音声データの時間軸を伸張すれば、情報圧縮が達成される。基本的には、情報圧縮はピッチ周期ごとの波形を間引くことにより行われ、伸張では波形間に新たな波形を挿入することにより波形補間される。これには、時間領域において音声ピッチの周期性を保ちながら三角窓で間引きや補間を行う時間ハーモニックスケーリング（ＴＤＨＳ）やＰＩＣＯＬＡ（ＰｏｉｎｔｅｒＩｎｔｅｒｖａｌＣｏｎｔｒｏｌＯｖｅｒｌａｐａｎｄＡｄｄ）法、高速フーリエ変換を用いて周波数領域において間引きや補間を行う方法がある。いずれも、周期性のない部分や過渡部分の処理が問題であり、量子化された音声を復号化側で伸張する処理で歪みが生じやすい。
なお、パケット伝送において１フレーム分の波形や情報が完全に欠落したときにも、前後のフレームにおける音声ピッチの周期性を保ちながら波形を補間する方法が有効である。
このような波形補間を情報圧縮の観点から見直した技術として、時間周波数補間（ＴＦＩ：ＴｉｍｅＦｒｅｑｕｅｎｃｙＩｎｔｅｒｐｏｌａｔｉｏｎ）、代表波形補間（ＰＷＩ：ＰｒｏｔｏｔｙｐｅＷａｖｅｆｏｒｍＩｎｔｅｒｐｏｌａｔｉｏｎ）、あるいはもっと一般的な波形補間（ＷＩ：ＷａｖｅｆｏｒｍＩｎｔｅｒｐｏｌａｔｉｏｎ）符号化が提案されている。
発明の開示
発明者は、上述のような従来技術を検討した結果、以下のような課題を発見した。すなわち、復号化時の再生スピード変更機能が付加された従来の音声データ符号化は、音声のピッチ情報を重要視して符号化するので、音声自体の処理には適用できるが、音楽それ自体や背景に音楽が流れている音声など、音声以外の音を含むようなディジタル・コンテンツには適用できなかった。したがって、再生スピード変更機能が付加された従来の音声データ符号化は電話などのごく限られた技術分野にしか適用できなかった。
この発明は上述のような課題を解決するためになされたものであり、電話に限らず、種々のデータ通信や記録媒体を介して配信されるディジタル・コンテンツ（主に、音声を主体とした歌、映画、ニュースなどのディジタル情報、以下、ディジタル音声データという）に対し、音声の明瞭度を維持した状態でデータ圧縮率の向上、再生スピードの変更等を可能にする符号化及び復号化を実現するディジタル音声データの符号化方法及び復号化方法を提供することを目的としている。
この発明に係るディジタル音声データの符号化方法は、音声の明瞭度を損なうことなく十分なデータ圧縮を可能にする。また、この発明に係るディジタル音声データの復号化方法は、この発明に係るディジタル音声データの符号化方法により符号化された符号化音声データを利用することにより、音程を変えずに容易かつ自由に再生スピードの変更を可能にする。
この発明に係るディジタル音声データの符号化方法は、所定間隔だけ離間した離散周波数を予め設定し、これら離散周波数それぞれに対応し、かつそれぞれディジタイズされたサイン波成分と該サイン波成分と対をなすコサイン波成分に基づいて、第１周期でサンプリングされたディジタル音声データから、該サイン波成分及びコサイン波成分の対の各振幅情報を第２周期ごとに抽出し、そして、符号化音声データの一部として、該離散周波数ごとに抽出されたサイン波成分及びコサイン波成分の振幅情報対を含むフレームデータを順次生成していく。
特に、当該ディジタル音声データの符号化方法では、サンプリングされたディジタル音声データの周波数領域のうち、所定間隔だけ離間した離散周波数を設定し、これら離散周波数それぞれにおけるディジタイズされたサイン波成分とコサイン波成分の対を生成する。例えば、特開平２０００−８１８９７号公報には、符号化側において、全周波数を複数のバンドに分割し、これら分割された各バンドごとに振幅情報を抽出する一方、復号化側では、抽出された振幅情報のサイン波を生成し、各バンドについて生成されたサイン波を合成して元の音声データを求める技術である。複数バンドへの分割は、通常ディジタル・フィルタが利用される。この場合、分離精度を高くすると著しく処理量が多くなることから符号化の高速化が難しかった。一方、当該ディジタル音声データの符号化方法では、全周波数のうち離散周波数ごとにサイン波成分及びコサイン波成分の対を生成し、該サイン波成分及びコサイン波成分の各振幅情報を抽出するので、符号化処理の高速化を可能にする。
また、当該ディジタル音声データの符号化方法は、具体的に、サンプリング周期である第１周期に対して第２周期で、ディジタル音声データに対して、対をなすサイン波成分及びコサイン波成分それぞれを乗算することにより、それら乗算結果の直流成分である各振幅情報を抽出している。このように、離散周波数ごとに対をなすサイン波成分及びコサイン波成分の各振幅情報を利用することにより、得られる符号化音声データは位相情報をも含むことになる。なお、上記第２周期はディジタル音声データのサンプリング周期である第１周期と一致している必要はなく、この第２周期が復号化側における再生周期の基準周期となる。
上述のように、この発明では、符号化側で、１つの周波数についてサイン波成分の振幅情報とコサイン波成分の振幅情報の両方が抽出される一方、復号化側で、これら両振幅情報を利用してディジタル音声データが生成されるので、その周波数の位相情報も伝送でき、より明瞭度の高い音質が得られる。すなわち、符号化側では、従来のようなディジタル音声データの波形を切り出す処理が必要ないので、音の連続性が損なわれない一方、復号化側では、波形を切り出した単位で処理しないため、再生スピードが変わらない場合は勿論のこと変更された場合であっても波形の連続性が保証されるので、明瞭度、音質が優れている。ところが、高い周波数領域では、人間の聴覚は位相を判別することがほとんどできないので、この高い周波数領域についても位相情報を伝送する必要性は低くく、振幅情報のみで十分再生音声の明瞭度は確保される。
そこで、この発明に係るディジタル音声データの符号化方法では、離散周波数のうちから選択された１又はそれ以上の周波数、特に位相情報の必要性に乏しい高周波数について、該選択された周波数ごとに、互いに対をなすサイン波成分及びコサイン波の各振幅情報の２乗和として与えられる和成分の平方根をそれぞれ算出し、これら振幅情報対から得られる前記和成分の平方根でフレームデータのうち該選択された周波数に対応した振幅情報対をそれぞれ置換してもよい。この構成により、近年頻繁に利用されるＭＰＥＧ−Ａｕｄｉｏ程度のデータ圧縮率が実現される。
また、この発明に係るディジタル音声データの符号化方法は、人間の聴覚特性を加味して重要でない振幅情報を間引くことによりデータ圧縮率を高めることができる。周波数マスキングや時間マスキングなど、人間が認知しにくいデータを意図的に間引く方法も一例であるが、例えば、フレームデータに含まれる振幅情報列全体が、離散周波数それぞれに対応したサイン波成分の振幅情報とコサイン波成分の振幅情報の対で構成された場合、互いに隣接する２以上の振幅情報対同士の和成分（サイン波成分の振幅情報とコサイン波成分の振幅情報の２乗和）の平方根を比較し、比較されたこれら振幅情報対のうちその和成分の平方根が最も大きい振幅情報対を除いた残りの振幅情報対をフレームデータから削除する構成であってもよい。また、フレームデータに含まれる振幅情報列の一部が、位相情報を持たない振幅情報（和成分の平方根、以下平方根情報という）で構成されている場合も、上述のように隣接振幅情報対（いずれも位相情報を含む）の場合と同様に、隣接する２以上の平方根情報同士を比較し、比較されたこれら平方根情報のうち最も大きい平方根情報を除いた残りの平方根情報をフレームデータから削除する構成であってもよい。いずれの構成であっても、データ圧縮率を著しく向上させることができる。
なお、近年、インターネット等を利用した音声配信システムの普及により、配信された音声データ（ニュース番組、座談会、歌、ラジオドラマ、語学番組など、人間の音声を主体とするディジタル情報）を一旦ハードディスク、半導体メモリ等の記録媒体に蓄積してから該配信された音声データを再生する機会が多くなってきた。特に、老人性難聴には、喋り方が速いと聞き取り難いタイプがある。また、外国語の学習課程では、学習対象となる言語をゆっくり喋ってほしいという強いニーズもある。
上述のような社会状況下において、この発明に係るディジタル音声データの復号化方法及び復号化方法が適用されたディジタル・コンテンツ配信が実現されれば、利用者が再生音声の音程を変えることなく任意に再生速度を調節できる（再生スピードを速くすることも遅くすることも可能）。この場合、詳しく聴きたくない部分だけ再生スピードを速くし（音程が変化しないので再生スピードが２倍程度になっても十分に聞き取れる）詳しく聴きたい部分だけ瞬時に元の再生スピードやそれよりも遅い再生スピードに戻すことができる。
具体的に、この発明に係るディジタル音声データの復号化方法は、上述のように符号化されたフレームデータ（符号化音声データの一部を構成する）の振幅情報列全体が離散周波数それぞれに対応したサイン波成分の振幅情報とコサイン波成分の振幅情報の対で構成されている場合、まず、該離散周波数ごとに第３周期でディジタイズされたサイン波成分と該サイン波成分と対をなすコサイン波成分を順次生成し、続いて、再生周期である第４周期（上記第２周期を基準として設定される）で取り込まれたフレームデータに含まれる離散周波数それぞれに対応した振幅情報対と生成されたサイン波成分及びコサイン波成分の対とに基づいて、ディジタル音声データを順次生成することを特徴としている。
一方、フレームデータの振幅情報列の一部が位相情報を含まない振幅情報（対をなすサイン波成分の振幅情報とコサイン波成分の振幅情報の２乗和で与えられる和成分の平方根）で構成されている場合、この発明に係るディジタル音声データの復号化方法は、離散周波数ごとにディジタイズされたサイン波成分あるいはコサイン波成分と、対応する和成分の平方根とに基づいて、ディジタル音声データを順次生成する。
上述された復号化方法はいずれも、上記第４周期ごとに取り込まれるフレームデータ間の振幅情報を直線補間あるいは曲線関数補間すべく、該第４周期よりも短い第５周期で１又はそれ以上の振幅補間情報を順次生成する構成であってもよい。
なお、この発明に係る各実施形態は、以下の詳細な説明及び添付図面によりさらに十分に理解可能となる。これら実施形態は単に例示のために示されるものであって、この発明を限定するものと考えるべきではない。
また、この発明のさらなる応用範囲は、以下の詳細な説明から明らかになる。しかしながら、詳細な説明及び特定の事例はこの発明の好適な実施形態を示すものではあるが、例示のためにのみ示されているものであって、この発明の思想及び範囲における様々な変形および改良はこの詳細な説明から当業者には自明であることは明らかである。
発明を実施するための最良の形態
以下、この発明に係る音声データのデータ構造等の各実施形態を図１Ａ〜１Ｂ、２〜７、８Ａ〜８Ｂ、９、１０Ａ〜１０Ｂ、１１、１２Ａ〜１２Ｂ及び１３〜１４を用いて説明する。なお、図面の説明において同一部分には同一符号を付して重複する説明は省略する。
この発明に係るディジタル音声データの符号化方法により符号化された符号化音声データは、再生時の明瞭度（聞き取り易さ）を損なうことなく、利用者が自由に設定した再生スピードの新たな再生用音声データの復号化を、該利用者側で行うことを可能にする。このような音声データの利用形態は、近年のディジタル技術の発達やデータ通信環境の整備により種々の態様が考えられる。図１Ａ及び図１Ｂは、上記符号化音声データがどのように産業上利用されるかを説明するための概念図である。
図１Ａに示されたように、この発明に係るディジタル音声データの符号化方法の符号化対象となるディジタル音声データは情報源１０から供給される。情報源１０としては、例えばＭＯ、ＣＤ（ＤＶＤを含む）、Ｈ／Ｄ（ハードディスク）等に記録されているディジタル音声データが好ましく、市販されている教材やテレビ局、ラジオ局などから提供される音声データなどでも利用可能である。また、マイクを介して直接取り込まれたり、既に磁気テープなどに記録されたアナログ音声データであっても符号化前にディジタイズすることにより利用可能である。編集者１００は、このような情報源１０を利用してパーソナル・コンピュータなどの情報処理機器を含む符号化部２００により、ディジタル音声データの符号化を行い、符号化音声データを生成する。なお、この際、現状のデータ提供方法を考えると、生成された符号化音声データはＣＤ（ＤＶＤを含む）、Ｈ／Ｄなどの記録媒体２０に一旦記録された状態で利用者に提供される場合が多い。また、これらＣＤやＨ／Ｄには当該符号化音声データとともに関連する画像データが記録される場合も十分に考えられる。
特に、記録媒体２０としてのＣＤやＤＶＤは、雑誌の付録として利用者に提供されたり、コンピュータ・ソフト、音楽ＣＤなどと同様に店舗にて販売されるのが一般的である（市場での流通）。また、生成された符号化音声データはサーバ３００から有線、無線を問わず、インターネット、携帯電話網等のネットワーク１５０や衛生１６０などの情報通信手段を介して利用者に配信される場合も十分に考えられる。
データ配信の場合、上記符号化部２００により生成された符号化音声データは、サーバ３００の記憶装置３１０（例えばＨ／Ｄ）に画像データなどとともに一旦蓄積される。そして、Ｈ／Ｄ３１０に一旦蓄積された符号化音声データ（暗号化されてもよい）は、送受信装置３２０（図中のＩ／Ｏ）を介して利用者端末４００に送信される。利用者端末４００側では、送受信装置４５０を介して受信された符号化音声データが一旦Ｈ／Ｄ（外部記憶装置３０に含まれる）に格納される。一方、ＣＤやＤＶＤ等を利用したデータ提供では、利用者が購入したＣＤを端末装置４００のＣＤドライブやＤＶＤドライブに装着することにより該端末装置の外部記録装置３０として利用される。
通常、利用者側の端末装置４００には入力装置４６０、ＣＲＴ、液晶などのディスプレイ４７０、スピーカー４８０が装備されており、外部記憶装置３００に画像データなどとともに記録されている符号化音声データは、当該端末装置４００の復号化部４１０（ソフトウエアによっても実現可能）によって、利用者自身が指示した再生速度の音声データに一旦復号化された後、スピーカー４８０から出力される。一方、外部記憶装置３００に格納された画像データは一旦ＶＲＡＭ４３２に展開された後にディスプレイ４７０に各フレームごと表示される（ビットマップ・ディスプレイ）。なお、復号化部４１０により復号化された再生用ディジタル音声データを上記外部記憶装置３０内に順次蓄積することにより、該外部記憶装置３０内には再生スピードの異なる複数種類の再生用ディジタル音声データを用意すれば、日本国特許第２５８１７００号に記載された技術を利用して再生スピードの異なる複数種類のディジタル音声データ間の切り替え再生が利用者側で可能になる。
利用者は、図１Ｂに示されたように、ディスプレイ４７０上に関連する画像４７１を表示させながらスピーカー４８０から出力される音声を聴くことになる。この際、音声のみ再生スピードが変更されていたのでは、画像の表示タイミングがずれてしまう可能性がある。そこで、復号化部４１０が画像データの表示タイミングを制御できるよう、上記符号化部２００において生成される符号化音声データに画像表示タイミングを指示する情報を予め付加しておいてもよい。
図２は、この発明に係るディジタル音声データの符号化方法を説明するためのフローチャートであり、当該符号化方法は符号化部２００に含まれる情報処理機器において実行され、当該符号化方法は、音声の明瞭度を損なうことなく高速かつ十分なデータ圧縮を可能にする。
この発明に係るディジタル音声データの符号化方法では、まず、周期Δｔでサンプリングされたディジタル音声データを特定し（ステップＳＴ１）、続いて、振幅情報を抽出すべき離散周波数（チャネルＣＨ）を設定する（ステップＳＴ２）。
一般に、音声データにはその周波数スペクトルを取ると非常に多くの周波数成分が含まれることが知られている。また、各周波数における音声スペクトル成分は位相も一定でないので、１つの周波数における音声スペクトル成分についてサイン波成分とコサイン波成分の２つの成分が存在することも知られている。
図３は、周期Δｔでサンプリングされた音声スペクトル成分を時間経過とともに示した図である。ここで、全周波数領域のうち有限個のチャネルＣＨｉ（離散周波数Ｆｉ：ｉ＝１、２、…、Ｎ）の信号成分で音声スペクトル成分を表現する場合、第ｍ番目にサンプリングされる音声スペクトル成分Ｓ（ｍ）（サンプリング開始から時間（Δｔ・ｍ）だけ経過した時点における音声スペクトル成分）は、以下のように表現される。

上記式（１）は、音声スペクトル成分Ｓ（ｍ）が１〜Ｎ番目のＮこの周波数成分で構成されていることを示している。実際の音声情報は周波数成分が１０００以上含まれる。
この発明に係るディジタル音声データの符号化方法は、人間の聴覚特性の性質上、復号化の際に符号化された音声データを離散した有限個の周波数成分で代表させたとしても、実用上音声の明瞭度や音質自体に影響がないという事実を発明者が発見したことにより完成されたものである。
続いて、ステップＳＴ１で特定された第ｍ番目にサンプリングされたディジタル音声データ（音声スペクトル成分Ｓ（ｍ）を有する）について、ステップＳＴ２において設定された周波数Ｆｉ（チャネルＣＨｉ）におけるディジタイズされたサイン波成分ｓｉｎ（２πＦｉ（Δｔ・ｍ））及びコサイン波成分ｃｏｓ（２πＦｉ（Δｔ・ｍ））を抽出し（ステップＳＴ３）、さらに、これらサイン波成分及びコサイン波成分の各振幅情報Ａｉ、Ｂｉを抽出する（ステップＳＴ４）。なお、ステップＳＴ３〜ＳＴ４は、Ｎ個全てのチャネルについて行われる（ステップＳＴ５）。
図４は、各周波数（チャネルＣＨ）における振幅情報Ａｉ及びＢｉの対を抽出する処理を概念的に示した図である。上述のように、音声スペクトル成分Ｓ（ｍ）は、周波数Ｆｉにおけるサイン波成分とコサイン波成分の合成波として表現されるため、例えば、チャネルＣＨｉの処理として、音声スペクトル成分Ｓ（ｍ）とサイン波成分ｓｉｎ（２πＦｉ（Δｔ・ｍ））を乗算すると、Ａｉを係数とするｓｉｎ（２πＦｉ（Δｔ・ｍ））の２乗項と他の波動成分（交流成分）が得られる。この２乗項は、以下の一般式（２）のように直流成分と交流成分に分けられる。

したがって、ローパスフィルタＬＰＦにより、音声スペクトル成分Ｓ（ｍ）とサイン波成分ｓｉｎ（２πＦｉ（Δｔ・ｍ））の乗算結果から直流成分、すなわち、振幅情報Ａｉ／２が抽出される。
コサイン波成分の振幅情報も同様に、ローパスフィルタＬＰＦにより、音声スペクトル成分Ｓ（ｍ）とコサイン波成分ｃｏｓ（２πＦｉ（Δｔ・ｍ））の乗算結果から直流成分、すなわち、振幅情報Ｂｉ／２が抽出される。
これら振幅情報を上記サンプリング周期よりも低い周期Ｔ_ｖ（＝Δｔ・ｖ：ｖは任意）、例えば５０〜１００サンプル／秒でサンプリングして、例えば図５に示されたような構造を有するフレームデータ８００ａを生成していく。なお、図５は、フレームデータの第１構成例を示す図であり、予め設定された周波数Ｆｉそれぞれに対応したサイン波成分の振幅情報Ａｉ及びコサイン波成分の振幅情報Ｂｉの対と、再生周期の基準周波数となる振幅情報のサンプリングレート等の制御情報から構成されている。例えば、１１０Ｈｚ〜７０００Ｈｚの６オクターブを音声帯域とし、音楽の平均律に合わせて１オクターブ当たり１２種類の周波数をチャネルＣＨとして設定すると、該音声帯域に全部で７２種類（＝Ｎ）の周波数チャネルＣＨが設定される。各周波数チャネルＣＨにおける振幅情報にそれぞれ１バイト割当てるとともに、制御情報ＣＤに８バイト割当てると、得られるフレームデータ８００ａは１５２（＝２Ｎ＋８）バイトとなる。
この発明に係るディジタル音声データの符号化方法では、サンプリングされた全てのディジタル音声データに対して上述のステップＳＴ１〜ＳＴ６を実行し、、上述のような構造を有するフレームデータ８００ａを生成して最終的に図６に示されたような符号化音声データ９００を生成する（ステップＳＴ７）。
このように、当該ディジタル音声データの符号化方法では、全周波数のうち離散周波数ごとにサイン波成分及びコサイン波成分の対を生成し、該サイン波成分及びコサイン波成分の各振幅情報を抽出するので、符号化処理の高速化を可能にする。また、離散周波数Ｆｉごとに対をなすサイン波成分とコサイン波成分の各振幅情報Ａｉ、Ｂｉにより符号化音声データ９００の一部を構成するフレームデータ８００ａを構成されるので、得られる符号化音声データ９００は位相情報をも含むことになる。さらに、元の音声データから窓かけして周波数成分を切り出す処理が不要なので、音声データの連続性が損なわれることがない。
なお、得られた符号化音声データ９００は、図１Ａに示されたようにネットワーク等を利用して利用者に提供される場合があるが、この場合、図７に示されたように、各フレームデータ８００ａを暗号化して、暗号化されたデータ８５０ａからなる符号化音声データを配信してもよい。ただし、図７では、フレームデータ単位で暗号化が行われているが、符号化音声データ全体をまとめて暗号化処理しても、また、該符号化音声データの１又はそれ以上の部分についてのみ暗号化処理してもよい。
この発明では、符号化側で、１つの周波数についてサイン波成分の振幅情報とコサイン波成分の振幅情報の両方が抽出される一方、復号化側で、これら両情報を利用してディジタル音声データが生成されるので、その周波数の位相情報も伝送でき、より明瞭度の高い音質が得られる。ところが、高い周波数領域では、人間の聴覚は位相を判別することがほとんどできないので、この高い周波数領域についても位相情報を伝送する必要性は低くく、振幅情報のみで十分再生音声の明瞭度は確保される。
そこで、この発明に係るディジタル音声データの符号化方法では、離散周波数のうちから選択された１又はそれ以上の周波数、特に位相情報の必要性に乏しい高周波数について、該選択された周波数ごとに、互いに対をなすサイン波成分及びコサイン波の各振幅情報の２乗和として与えられる和成分の平方根をそれぞれ算出し、これら振幅情報対から得られる和成分の平方根でフレームデータのうち該選択された周波数に対応した振幅情報対をそれぞれ置換する構成を備えてもよい。
すなわち、図８Ａに示されたように、対をなす振幅情報Ａｉ、Ｂｉを互いに直交するベクトルと考えると、図８Ｂに示されたような演算回路により、各振幅情報Ａｉ、Ｂｉの各２乗和で与えられる和成分の平方根Ｃｉが得られる。このように得られた平方根情報Ｃｉで、高周波数に対応した振幅情報対を置換することにより、データ圧縮されたフレームデータが得られる。図９は、上述のように位相情報が省略されたフレームデータの第２構成例を示す図である。
例えば、７２種類の周波数についてサイン波成分及びコサイン波成分の振幅情報の対のうち、高周波数側の２４種類について平方根情報Ｃｉで振幅情報対を置き換えた場合、振幅情報及び平方根情報を１バイト、制御情報ＣＤを８バイトとすると、フレームデータ８００ｂは１２８（＝２×４８＋２４＋８）バイトとなる。このため、図５に示されたフレームデータ８００ｂと比較して、近年頻繁に利用されるＭＰＥＧ−Ａｕｄｉｏ程度のデータ圧縮率が実現される。
なお、図９において、フレームデータ８００ｂにおける領域８１０が、平方根情報Ｃｉにより振幅情報対が置換された領域である。また、このフレームデータ８００ｂについても図７に示されたように、コンテンツ配信可能なように暗号化処理を施されてもよい。
さらに、この発明に係るディジタル音声データの符号化方法は、１つのフレームデータを構成する振幅情報対のうち何れかを間引くことにより、さらにデータ圧縮率を高めることができる。図１０Ａ及び図１０Ｂは、振幅情報を間引くことによりデータ圧縮方法の一例を説明するための図である。特に、図１０Ｂは、このデータ圧縮方法により得られるフレームデータの第３構成例を示す図である。なお、このデータ圧縮方法は、図５に示されたフレームデータ８００ａ、図９に示されたフレームデータ８００ｂのいずれについても適用できるが、以下の説明では、図９に示されたフレームデータ８００ｂを圧縮する場合について説明する。
まず、フレームデータ８００ｂに含まれる振幅情報列のうち、サイン波成分の振幅情報とコサイン波成分の振幅情報の対で構成されている部分については、互いに隣接する振幅情報対同士、例えば、（Ａ_１、Ｂ_１）と（Ａ_２、Ｂ_２）の組、（Ａ_３、Ｂ_３）と（Ａ_４、Ｂ_４）の組、…、（Ａ_ｉ−２、Ｂ_ｉ−２）と（Ａ_ｉ−１、Ｂ_ｉ−１）の組それぞれにおいて、各対の平方根情報Ｃ_１、Ｃ_２、…、Ｃ_ｉ−１を算出し、隣接する振幅情報対同士の比較に代えて、得られた平方根情報Ｃ_１とＣ_２、Ｃ_３とＣ_４、…、Ｃ_ｉ−２とＣ_ｉ−１をそれぞれ比較する。そして、上記組のうち、平方根情報が大きい方を残していく。なお、上述の比較は、互いに隣接する３以上の振幅情報の組ごとに行われてもよい。
この場合、図１０Ｂに示されたようにフレームデータ８００ｃに識別ビット列（識別情報）を用意し、残された振幅情報対が低周波数側の振幅情報対であれが、該識別ビットとして０をセットし、逆に残された振幅情報対が高周波数側の振幅情報対であれが、該識別ビットとして１をセットする。
一方、領域８１０（図９参照）のように、振幅情報対が予め平方根情報に置換されている場合、Ｃ_ｉとＣ_ｉ＋１、…、Ｃ_Ｎ−１とＣ_Ｎをそれぞれ比較し、大きい方だけ残す。この場合も、低周波数側の平方根情報が残っていれば識別ビットとして０をセットし、逆に高低周波数側の平方根情報が残っていれば識別ビットとして１をセットする。なお、上述の比較は、互いに隣接する３以上の平方根情報の組ごとに行われてもよい。
例えば、図９に示されたフレームデータ８００ｂが、上述のように４８対の振幅情報対（各振幅情報は１バイト）と２４個の平方根情報（１バイト）で構成されている場合、振幅情報列は４８バイト（＝２×２４）、平方根情報列は１２バイトにそれぞれ減少される一方、逆に識別ビットとして３６ビット（４．５バイト）が必要となる。したがって、フレームデータ８００ｃは、７２種類の周波数についてサイン波成分及びコサイン波成分の各振幅情報を抽出する場合、６０（＝２×２４＋１×１２）バイトの振幅情報列、約５（≒４．５）バイトの識別情報、８バイトの制御情報から構成される（７３バイト）。同様の条件で、図９に示されたフレームデータ８００ｂは１２８バイトであるから、約４３％のデータが削減できる。
なお、このフレームデータ８００ｃも図７に示されたように暗号化が施されてもよい。
近年、インターネット等を利用した音声配信システムの普及により、配信された音声データ（ニュース番組、座談会、歌、ラジオドラマ、語学番組など、人間の音声を主体とするディジタルデータ）を一旦ハードディスク等の記録媒体に蓄積してから該配信された音声データを再生する機会が多くなってきた。特に、老人性難聴には、喋り方が速いと聞き取り難いタイプがある。また、外国語の学習課程では、学習対象となる言語をゆっくり喋ってほしいという強いニーズもある。
上述のような社会状況下において、この発明に係るディジタル音声データの復号化方法及び復号化方法が適用されたディジタル・コンテンツ配信が実現されれば、利用者が再生音声の音程を変えることなく任意に再生速度を調節できる（再生スピードを速くすることも遅くすることも可能）。この場合、詳しく聴きたくない部分だけ再生スピードを速くし（音程が変化しないので再生スピードが２倍程度になっても十分に聞き取れる）詳しく聴きたい部分だけ瞬時に元の再生スピードに戻すことができる。
図１１は、この発明に係るディジタル音声データの復号化方法を説明するためのフローチャートであり、上述のように符号化された符号化音声データ９００を利用することにより、音程を変えずに容易かつ自由に話速の変更を可能にする。
まず、この発明に係るディジタル音声データの復号化方法では、再生周期Ｔ_ｗ、すなわち、Ｈ／Ｄ等の記録媒体に格納された符号化データから順次フレームデータを取り込む周期が設定されるとともに（ステップＳＴ１０）、ｎ番目の復号化すべきフレームデータが特定される（ステップＳＴ１１）。なお、この再生周期Ｔ_ｗは、上述の符号化処理における振幅情報のサンプリング周期Ｔ_ｖ（＝Δｔ・ｖ：ｖは任意）と利用者が指定した再生スピード比Ｒ（１を基準としてＲ＝０．５であれば１／２倍速、Ｒ＝２であれば２倍速を意味する）との比（Ｔ_ｖ／Ｒ）で与えられる。
続いて、周波数Ｆｉ（ｉ＝１〜Ｎ）のチャネルＣＨが設定され（ステップＳＴ１２）、各周波数Ｆｉにおけるサイン波成分ｓｉｎ（２πＦｉ（Δτ・ｎ））とコサイン波成分ｃｏｓ（２πＦｉ（Δτ・ｎ））が順次生成される（ステップＳＴ１３、ＳＴ１４）。
そして、ステップＳＴ１３で生成された各周波数Ｆｉにおけるサイン波成分及びコサイン波成分と、ステップＳＴ１１で特定されたｎ番目のフレームデータに含まれる振幅情報Ａｉ、Ｂｉとの基づいて、再生開始から時間（Δτ・ｎ）だけ経過した時点のディジタル音声データが生成される（ステップＳＴ１５）。
上述のステップＳＴ１１〜ＳＴ１５は、符号化音声データ９００（図６参照）に含まれる全てのフレームデータについて実施される（ステップＳＴ１６）。
なお、ステップＳＴ１１で特定されるフレームデータが図９に示されたフレームデータ８００ｂのように、平方根情報Ｃｉを含む場合、該Ｃｉをサイン波成分及びコサイン波成分のいずれか一方の係数として処理してもよい。該Ｃｉで置換される周波数領域は人間にとって識別しにくい周波数領域であり、サイン波成分とコサイン波成分を区別する必要性が乏しいからである。また、ステップＳＴ１１で特定されるフレームデータが図１０Ｂに示されたフレームデータ８００ｃのように、振幅情報の一部が欠落している場合、図１２Ａ及び図１２Ｂに示されたように、再生スピードを低下させた場合、再生音声の不連続性が顕著になる。このため、図１３に示されたように、再生周期Ｔ_ｗの間を（Ｔ_ｗ／Δτ）個に分割し、前後の音声データの間を直線補間あるいは曲線関数補間するのが好ましい。この場合、Ｔ_ｗ／Δτ倍の音声データを生成することとなる。
上述のような、この発明に係るディジタル音声データの復号化方法は、ワンチップ化された専用プロセッサを携帯電話などの携帯端末に組み入れることより、利用者は、移動しながら所望のスピードでコンテンツの再生や通話が可能になる。
図１４は、サーバー等の特定配信装置から配信要求のあった端末装置に対して、該端末装置によって指定されたコンテンツ・データを有線あるいは無線の通信回線を介して配信する地球規模のデータ通信システムにおける利用形態を示す図であり、主に、ケーブルテレビ網、公衆電話回線網などのインターネット回線網、携帯電話などの無線回線網、衛星通信回線等に代表される通信回線を介して音楽や画像などの特定コンテンツを利用者に個別に提供することを可能にする。また、このようなコンテンツ配信システムの利用形態は、近年のディジタル技術の発達やデータ通信環境の整備により種々の態様が考えられる。
図１４に示されたように、コンテンツ配信システムにおいて、配信装置としてのサーバー１００は、利用者の要求に応じて配信するためのコンテンツ・データ（例えば符号化音声データ）が一旦蓄積される記憶装置１１０と、有線のネットワーク１５０や通信衛星１６０を利用した無線回線を介してＰＣ２００や携帯電話３００などの利用者側端末装置に該コンテンツ・データを配信するためのデータ送信手段１２０（Ｉ／Ｏ）を備える。
端末装置（クライアント）として、ＰＣ２００は、サーバー１００からネットワーク１５０あるいは通信衛星１６０を介して配信されるコンテンツ・データを受信するための受信手段２１０（Ｉ／Ｏ）を備える。ＰＣ２００は、外部記憶手段としてハード・ディスク２２０（Ｈ／Ｄ）を備えており、制御部２３０はＩ／Ｏ２１０を介して受信されたコンテンツ・データを一旦該Ｈ／Ｄ２２０に記録する。さらに、ＰＣ２００は、利用者からの操作入力を受け付けるための入力手段２４０（例えばキーボードやマウス）、画像データを表示するための表示手段２５０（例えばＣＲＴや液晶ディスプレイ）、音声データや音楽データを出力するためのスピーカー２６０が設けられている。また、近年の目覚ましいモバイル情報処理機器の開発により、携帯電話を端末装置としたコンテンツ配信サービスや、通信機能を持たない専用再生装置用の記憶媒体４００（例えば６４Ｍバイト程度の記録容量を有するメモリカード）も実用化されている。特に、通信機能を有さない再生専用の装置で利用される記録媒体４００を提供するため、ＰＣ２００はデータ記録手段としてのＩ／Ｏ２７０を備えてもよい。
なお、端末装置としては、図１４中に示されたように、それ自体が通信機能を有する携帯型の情報処理機器３００であってもよい。
産業上の利用可能性
上述のようにこの発明によれば、サンプリングされたディジタル音声データから、複数の離散周波数それぞれに対応したサイン波成分及びコサイン波成分の対を利用して、該サイン波成分の振幅情報及び該コサイン波成分の振幅情報を抽出しているので、従来のようなバンドパスフィルタを利用した帯域分離技術と比べ、処理速度を著しく向上させることが可能になる。また、生成される符号化音声データは、予め設定された離散周波数それぞれに対応したサイン波成分の振幅情報とコサイン波成分の振幅情報の対を含んでいるため、符号化側と復号化側との間で各離散周波数の位相情報が保存される。したがって、復号化側では、音声の明瞭度を損なうことなく任意に選択された再生スピードでの音声再生も可能になる。
【図面の簡単な説明】
図１Ａ及び図１Ｂは、この発明に係る各実施形態を概念的に説明するための図である（その１）。
図２は、この発明に係るディジタル音声データの符号化方法を説明するためのフローチャートである。
図３は、周期Δｔでサンプリングされるディジタル音声データを説明するための図である。
図４は、離散周波数それぞれに対応したサイン波成分及びコサイン波成分の対の各振幅情報の抽出処理を説明するための概念図である。
図５は、符号化音声データの一部を構成するフレームデータの第１構成例を示す図である。
図６は、符号化音声データの構成を示す図である。
図７は、暗号処理を説明するための概念図である。
図８Ａ及び図８Ｂは、フレームデータに対するデータ圧縮処理の第１実施形態を説明するための概念図である。
図９は、符号化音声データの一部を構成するフレームデータの第２構成例を示す図である。
図１０Ａ及び図１０Ｂは、フレームデータに対するデータ圧縮処理の第２実施形態を説明するための概念図であり、特に、図１０Ｂは、符号化音声データの一部を構成するフレームデータの第３構成例を示す図である。
図１１は、この発明に係るディジタル音声データの復号化処理を説明するためのフローチャートである。
図１２Ａ、図１２Ｂ及び図１３は、復号化されるディジタル音声データのデータ補間処理を説明するための概念図である。
図１４は、この発明に係る各実施形態を概念的に説明するための図である（その２）。

Claims

第１周期でサンプリングされたディジタル音声データの周波数領域のうち、所定間隔だけ離間した離散周波数を設定し、
前記設定された離散周波数それぞれに対応し、かつそれぞれディジタイズされたサイン波成分及び該サイン波成分と対をなすコサイン波成分を利用して、前記ディジタル音声データから該サイン波成分及びコサイン波成分の対の各振幅情報を第２周期ごとに抽出し、そして、
符号化音声データの一部として、前記離散周波数それぞれに対応した、前記サイン波成分の振幅情報及び前記コサイン波成分の振幅情報の対を含むフレームデータを順次生成していくディジタル音声データの符号化方法。
請求項１記載のディジタル音声データの符号化において、
前記離散周波数それぞれに対応したサイン波成分及びコサイン波成分の各振幅情報は、前記ディジタル音声データに対して該サイン波成分及びコサイン波成分をそれぞれ乗算することにより抽出される。
請求項１記載のディジタル音声情報の符号化方法において、
前記離散周波数のうちから選択された１又はそれ以上の周波数について、該選択された周波数ごとに、互いに対をなすサイン波成分及びコサイン波の各振幅情報の２乗和として与えられる和成分の平方根をそれぞれ算出し、そして、
前記フレームデータに含まれる、前記選択された周波数に対応した振幅情報対を、これら振幅情報対から得られる前記和成分の平方根でそれぞれ置換する。
請求項１記載のディジタル音声データの符号化方法において、
前記フレームデータに含まれる振幅情報のうち１又はそれ以上の振幅情報は間引かれる。
請求項１記載のディジタル音声データの符号化方法において、
前記フレームデータに含まれる、互いに隣接する２以上の前記離散周波数それぞれに対応した振幅情報対同士それぞれについて、対をなすサイン波成分及びコサイン波の各振幅情報の２乗和として与えられる和成分の平方根を比較し、そして、
前記比較された２以上の振幅情報対のうちその和成分の平方根が最も大きい振幅情報対を除く残りの振幅情報対を、前記符号化音声データに含まれる前記フレームデータから削除する。
請求項３記載のディジタル音声データの符号化方法において、
前記フレームデータに含まれる、互いに隣接する２以上の前記離散周波数それぞれに対応した振幅情報対同士それぞれについて、前記和成分の平方根を比較し、そして、
前記比較された２以上の振幅情報対のうちその和成分の平方根が最も大きい振幅情報対を除く残りの振幅情報対を、前記符号化音声データに含まれる前記フレームデータから削除する。
請求項１記載のディジタル音声データの符号化方法により符号化された符号化音声データを復号化するディジタル音声データの復号化方法であって、
前記離散周波数ごとに、それぞれ第３周期でディジタイズされたサイン波成分と該サイン波成分と対をなすコサイン波成分を順次生成し、そして、
前記符号化音声データのうち再生周期である第４周期で順次取り込まれるフレームデータそれぞれについて、該取り込まれたフレームデータに含まれる前記離散周波数それぞれに対応した振幅情報対と前記サイン波成分及びコサイン波成分の対とを利用して、ディジタル音声データを順次生成するディジタル音声データの復号化方法。
請求項７記載のディジタル音声データの復号化方法において、
前記フレームデータは、前記離散周波数のうちから選択された１又はそれ以上の周波数について、互いに対をなすサインは成分及びコサインは成分の振幅情報の対が、これら振幅情報の２乗和として与えられる和成分の平方根で置換されており、
当該符号化方法により得られるディジタル音声データの一部は、前記フレームデータに含まれる前記和成分の平方根と、該和成分の平方根が属する周波数と対応するサイン波成分及びコサイン波成分のいずれか一方を利用して生成される。
請求項７又は８記載のディジタル音声データの復号化方法において、
前記第４周期で順次取り込まれるフレームデータ間の振幅情報を直線補間あるいは曲線関数補間するよう、該第４周期よりも短い第５周期で１又はそれ以上の振幅補間情報が順次生成される。