JPWO2002058053A1 - ディジタル音声データの符号化方法及び復号化方法 - Google Patents

ディジタル音声データの符号化方法及び復号化方法 Download PDF

Info

Publication number
JPWO2002058053A1
JPWO2002058053A1 JP2002558260A JP2002558260A JPWO2002058053A1 JP WO2002058053 A1 JPWO2002058053 A1 JP WO2002058053A1 JP 2002558260 A JP2002558260 A JP 2002558260A JP 2002558260 A JP2002558260 A JP 2002558260A JP WO2002058053 A1 JPWO2002058053 A1 JP WO2002058053A1
Authority
JP
Japan
Prior art keywords
audio data
amplitude information
wave component
digital audio
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002558260A
Other languages
English (en)
Inventor
博司 関口
博司 関口
Original Assignee
カナース・データー株式会社
ペンタックス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カナース・データー株式会社, ペンタックス株式会社 filed Critical カナース・データー株式会社
Publication of JPWO2002058053A1 publication Critical patent/JPWO2002058053A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

この発明は、種々のディジタル・コンテンツに対応して、音声の明瞭度を損なうことなく再生スピードの変更を可能にするディジタル音声データの符号化及び復号化に関する。符号化では、予め設定される離散周波数ごとに、それぞれ対をなすディジタイズされたサイン波成分及びコサイン波成分を生成し、これらサイン波成分及びコサイン波成分を利用して、所定サンプリング周期でサンプリングされたディジタル音声データから、該サイン波成分の振幅情報及びコサイン波成分の各振幅情報が抽出する。そして、離散周波数それぞれに対応して抽出されたサイン波成分の振幅情報及びコサイン波成分の振幅情報の対により構成されたフレームデータが、符号化音声データの一部として順次生成される。

Description

技術分野
この発明は、所定周期でサンプリングされたディジタル音声データの符号化方法及び復号化方法に関するものである。
背景技術
従来から、音声のピッチ周期や明瞭度を保ったまま再生スピードを変更するために、波形の時間軸補間や伸張法がいくつか知られている。このような技術は音声符号化に適用することも可能である。すなわち、符号化前に一旦音声データに対して時間軸圧縮を行い、復号後に該音声データの時間軸を伸張すれば、情報圧縮が達成される。基本的には、情報圧縮はピッチ周期ごとの波形を間引くことにより行われ、伸張では波形間に新たな波形を挿入することにより波形補間される。これには、時間領域において音声ピッチの周期性を保ちながら三角窓で間引きや補間を行う時間ハーモニックスケーリング(TDHS)やPICOLA(Pointer Interval Control Overlap and Add)法、高速フーリエ変換を用いて周波数領域において間引きや補間を行う方法がある。いずれも、周期性のない部分や過渡部分の処理が問題であり、量子化された音声を復号化側で伸張する処理で歪みが生じやすい。
なお、パケット伝送において1フレーム分の波形や情報が完全に欠落したときにも、前後のフレームにおける音声ピッチの周期性を保ちながら波形を補間する方法が有効である。
このような波形補間を情報圧縮の観点から見直した技術として、時間周波数補間(TFI:Time Frequency Interpolation)、代表波形補間(PWI:Prototype Waveform Interpolation)、あるいはもっと一般的な波形補間(WI:Waveform Interpolation)符号化が提案されている。
発明の開示
発明者は、上述のような従来技術を検討した結果、以下のような課題を発見した。すなわち、復号化時の再生スピード変更機能が付加された従来の音声データ符号化は、音声のピッチ情報を重要視して符号化するので、音声自体の処理には適用できるが、音楽それ自体や背景に音楽が流れている音声など、音声以外の音を含むようなディジタル・コンテンツには適用できなかった。したがって、再生スピード変更機能が付加された従来の音声データ符号化は電話などのごく限られた技術分野にしか適用できなかった。
この発明は上述のような課題を解決するためになされたものであり、電話に限らず、種々のデータ通信や記録媒体を介して配信されるディジタル・コンテンツ(主に、音声を主体とした歌、映画、ニュースなどのディジタル情報、以下、ディジタル音声データという)に対し、音声の明瞭度を維持した状態でデータ圧縮率の向上、再生スピードの変更等を可能にする符号化及び復号化を実現するディジタル音声データの符号化方法及び復号化方法を提供することを目的としている。
この発明に係るディジタル音声データの符号化方法は、音声の明瞭度を損なうことなく十分なデータ圧縮を可能にする。また、この発明に係るディジタル音声データの復号化方法は、この発明に係るディジタル音声データの符号化方法により符号化された符号化音声データを利用することにより、音程を変えずに容易かつ自由に再生スピードの変更を可能にする。
この発明に係るディジタル音声データの符号化方法は、所定間隔だけ離間した離散周波数を予め設定し、これら離散周波数それぞれに対応し、かつそれぞれディジタイズされたサイン波成分と該サイン波成分と対をなすコサイン波成分に基づいて、第1周期でサンプリングされたディジタル音声データから、該サイン波成分及びコサイン波成分の対の各振幅情報を第2周期ごとに抽出し、そして、符号化音声データの一部として、該離散周波数ごとに抽出されたサイン波成分及びコサイン波成分の振幅情報対を含むフレームデータを順次生成していく。
特に、当該ディジタル音声データの符号化方法では、サンプリングされたディジタル音声データの周波数領域のうち、所定間隔だけ離間した離散周波数を設定し、これら離散周波数それぞれにおけるディジタイズされたサイン波成分とコサイン波成分の対を生成する。例えば、特開平2000−81897号公報には、符号化側において、全周波数を複数のバンドに分割し、これら分割された各バンドごとに振幅情報を抽出する一方、復号化側では、抽出された振幅情報のサイン波を生成し、各バンドについて生成されたサイン波を合成して元の音声データを求める技術である。複数バンドへの分割は、通常ディジタル・フィルタが利用される。この場合、分離精度を高くすると著しく処理量が多くなることから符号化の高速化が難しかった。一方、当該ディジタル音声データの符号化方法では、全周波数のうち離散周波数ごとにサイン波成分及びコサイン波成分の対を生成し、該サイン波成分及びコサイン波成分の各振幅情報を抽出するので、符号化処理の高速化を可能にする。
また、当該ディジタル音声データの符号化方法は、具体的に、サンプリング周期である第1周期に対して第2周期で、ディジタル音声データに対して、対をなすサイン波成分及びコサイン波成分それぞれを乗算することにより、それら乗算結果の直流成分である各振幅情報を抽出している。このように、離散周波数ごとに対をなすサイン波成分及びコサイン波成分の各振幅情報を利用することにより、得られる符号化音声データは位相情報をも含むことになる。なお、上記第2周期はディジタル音声データのサンプリング周期である第1周期と一致している必要はなく、この第2周期が復号化側における再生周期の基準周期となる。
上述のように、この発明では、符号化側で、1つの周波数についてサイン波成分の振幅情報とコサイン波成分の振幅情報の両方が抽出される一方、復号化側で、これら両振幅情報を利用してディジタル音声データが生成されるので、その周波数の位相情報も伝送でき、より明瞭度の高い音質が得られる。すなわち、符号化側では、従来のようなディジタル音声データの波形を切り出す処理が必要ないので、音の連続性が損なわれない一方、復号化側では、波形を切り出した単位で処理しないため、再生スピードが変わらない場合は勿論のこと変更された場合であっても波形の連続性が保証されるので、明瞭度、音質が優れている。ところが、高い周波数領域では、人間の聴覚は位相を判別することがほとんどできないので、この高い周波数領域についても位相情報を伝送する必要性は低くく、振幅情報のみで十分再生音声の明瞭度は確保される。
そこで、この発明に係るディジタル音声データの符号化方法では、離散周波数のうちから選択された1又はそれ以上の周波数、特に位相情報の必要性に乏しい高周波数について、該選択された周波数ごとに、互いに対をなすサイン波成分及びコサイン波の各振幅情報の2乗和として与えられる和成分の平方根をそれぞれ算出し、これら振幅情報対から得られる前記和成分の平方根でフレームデータのうち該選択された周波数に対応した振幅情報対をそれぞれ置換してもよい。この構成により、近年頻繁に利用されるMPEG−Audio程度のデータ圧縮率が実現される。
また、この発明に係るディジタル音声データの符号化方法は、人間の聴覚特性を加味して重要でない振幅情報を間引くことによりデータ圧縮率を高めることができる。周波数マスキングや時間マスキングなど、人間が認知しにくいデータを意図的に間引く方法も一例であるが、例えば、フレームデータに含まれる振幅情報列全体が、離散周波数それぞれに対応したサイン波成分の振幅情報とコサイン波成分の振幅情報の対で構成された場合、互いに隣接する2以上の振幅情報対同士の和成分(サイン波成分の振幅情報とコサイン波成分の振幅情報の2乗和)の平方根を比較し、比較されたこれら振幅情報対のうちその和成分の平方根が最も大きい振幅情報対を除いた残りの振幅情報対をフレームデータから削除する構成であってもよい。また、フレームデータに含まれる振幅情報列の一部が、位相情報を持たない振幅情報(和成分の平方根、以下平方根情報という)で構成されている場合も、上述のように隣接振幅情報対(いずれも位相情報を含む)の場合と同様に、隣接する2以上の平方根情報同士を比較し、比較されたこれら平方根情報のうち最も大きい平方根情報を除いた残りの平方根情報をフレームデータから削除する構成であってもよい。いずれの構成であっても、データ圧縮率を著しく向上させることができる。
なお、近年、インターネット等を利用した音声配信システムの普及により、配信された音声データ(ニュース番組、座談会、歌、ラジオドラマ、語学番組など、人間の音声を主体とするディジタル情報)を一旦ハードディスク、半導体メモリ等の記録媒体に蓄積してから該配信された音声データを再生する機会が多くなってきた。特に、老人性難聴には、喋り方が速いと聞き取り難いタイプがある。また、外国語の学習課程では、学習対象となる言語をゆっくり喋ってほしいという強いニーズもある。
上述のような社会状況下において、この発明に係るディジタル音声データの復号化方法及び復号化方法が適用されたディジタル・コンテンツ配信が実現されれば、利用者が再生音声の音程を変えることなく任意に再生速度を調節できる(再生スピードを速くすることも遅くすることも可能)。この場合、詳しく聴きたくない部分だけ再生スピードを速くし(音程が変化しないので再生スピードが2倍程度になっても十分に聞き取れる)詳しく聴きたい部分だけ瞬時に元の再生スピードやそれよりも遅い再生スピードに戻すことができる。
具体的に、この発明に係るディジタル音声データの復号化方法は、上述のように符号化されたフレームデータ(符号化音声データの一部を構成する)の振幅情報列全体が離散周波数それぞれに対応したサイン波成分の振幅情報とコサイン波成分の振幅情報の対で構成されている場合、まず、該離散周波数ごとに第3周期でディジタイズされたサイン波成分と該サイン波成分と対をなすコサイン波成分を順次生成し、続いて、再生周期である第4周期(上記第2周期を基準として設定される)で取り込まれたフレームデータに含まれる離散周波数それぞれに対応した振幅情報対と生成されたサイン波成分及びコサイン波成分の対とに基づいて、ディジタル音声データを順次生成することを特徴としている。
一方、フレームデータの振幅情報列の一部が位相情報を含まない振幅情報(対をなすサイン波成分の振幅情報とコサイン波成分の振幅情報の2乗和で与えられる和成分の平方根)で構成されている場合、この発明に係るディジタル音声データの復号化方法は、離散周波数ごとにディジタイズされたサイン波成分あるいはコサイン波成分と、対応する和成分の平方根とに基づいて、ディジタル音声データを順次生成する。
上述された復号化方法はいずれも、上記第4周期ごとに取り込まれるフレームデータ間の振幅情報を直線補間あるいは曲線関数補間すべく、該第4周期よりも短い第5周期で1又はそれ以上の振幅補間情報を順次生成する構成であってもよい。
なお、この発明に係る各実施形態は、以下の詳細な説明及び添付図面によりさらに十分に理解可能となる。これら実施形態は単に例示のために示されるものであって、この発明を限定するものと考えるべきではない。
また、この発明のさらなる応用範囲は、以下の詳細な説明から明らかになる。しかしながら、詳細な説明及び特定の事例はこの発明の好適な実施形態を示すものではあるが、例示のためにのみ示されているものであって、この発明の思想及び範囲における様々な変形および改良はこの詳細な説明から当業者には自明であることは明らかである。
発明を実施するための最良の形態
以下、この発明に係る音声データのデータ構造等の各実施形態を図1A〜1B、2〜7、8A〜8B、9、10A〜10B、11、12A〜12B及び13〜14を用いて説明する。なお、図面の説明において同一部分には同一符号を付して重複する説明は省略する。
この発明に係るディジタル音声データの符号化方法により符号化された符号化音声データは、再生時の明瞭度(聞き取り易さ)を損なうことなく、利用者が自由に設定した再生スピードの新たな再生用音声データの復号化を、該利用者側で行うことを可能にする。このような音声データの利用形態は、近年のディジタル技術の発達やデータ通信環境の整備により種々の態様が考えられる。図1A及び図1Bは、上記符号化音声データがどのように産業上利用されるかを説明するための概念図である。
図1Aに示されたように、この発明に係るディジタル音声データの符号化方法の符号化対象となるディジタル音声データは情報源10から供給される。情報源10としては、例えばMO、CD(DVDを含む)、H/D(ハードディスク)等に記録されているディジタル音声データが好ましく、市販されている教材やテレビ局、ラジオ局などから提供される音声データなどでも利用可能である。また、マイクを介して直接取り込まれたり、既に磁気テープなどに記録されたアナログ音声データであっても符号化前にディジタイズすることにより利用可能である。編集者100は、このような情報源10を利用してパーソナル・コンピュータなどの情報処理機器を含む符号化部200により、ディジタル音声データの符号化を行い、符号化音声データを生成する。なお、この際、現状のデータ提供方法を考えると、生成された符号化音声データはCD(DVDを含む)、H/Dなどの記録媒体20に一旦記録された状態で利用者に提供される場合が多い。また、これらCDやH/Dには当該符号化音声データとともに関連する画像データが記録される場合も十分に考えられる。
特に、記録媒体20としてのCDやDVDは、雑誌の付録として利用者に提供されたり、コンピュータ・ソフト、音楽CDなどと同様に店舗にて販売されるのが一般的である(市場での流通)。また、生成された符号化音声データはサーバ300から有線、無線を問わず、インターネット、携帯電話網等のネットワーク150や衛生160などの情報通信手段を介して利用者に配信される場合も十分に考えられる。
データ配信の場合、上記符号化部200により生成された符号化音声データは、サーバ300の記憶装置310(例えばH/D)に画像データなどとともに一旦蓄積される。そして、H/D310に一旦蓄積された符号化音声データ(暗号化されてもよい)は、送受信装置320(図中のI/O)を介して利用者端末400に送信される。利用者端末400側では、送受信装置450を介して受信された符号化音声データが一旦H/D(外部記憶装置30に含まれる)に格納される。一方、CDやDVD等を利用したデータ提供では、利用者が購入したCDを端末装置400のCDドライブやDVDドライブに装着することにより該端末装置の外部記録装置30として利用される。
通常、利用者側の端末装置400には入力装置460、CRT、液晶などのディスプレイ470、スピーカー480が装備されており、外部記憶装置300に画像データなどとともに記録されている符号化音声データは、当該端末装置400の復号化部410(ソフトウエアによっても実現可能)によって、利用者自身が指示した再生速度の音声データに一旦復号化された後、スピーカー480から出力される。一方、外部記憶装置300に格納された画像データは一旦VRAM432に展開された後にディスプレイ470に各フレームごと表示される(ビットマップ・ディスプレイ)。なお、復号化部410により復号化された再生用ディジタル音声データを上記外部記憶装置30内に順次蓄積することにより、該外部記憶装置30内には再生スピードの異なる複数種類の再生用ディジタル音声データを用意すれば、日本国特許第2581700号に記載された技術を利用して再生スピードの異なる複数種類のディジタル音声データ間の切り替え再生が利用者側で可能になる。
利用者は、図1Bに示されたように、ディスプレイ470上に関連する画像471を表示させながらスピーカー480から出力される音声を聴くことになる。この際、音声のみ再生スピードが変更されていたのでは、画像の表示タイミングがずれてしまう可能性がある。そこで、復号化部410が画像データの表示タイミングを制御できるよう、上記符号化部200において生成される符号化音声データに画像表示タイミングを指示する情報を予め付加しておいてもよい。
図2は、この発明に係るディジタル音声データの符号化方法を説明するためのフローチャートであり、当該符号化方法は符号化部200に含まれる情報処理機器において実行され、当該符号化方法は、音声の明瞭度を損なうことなく高速かつ十分なデータ圧縮を可能にする。
この発明に係るディジタル音声データの符号化方法では、まず、周期Δtでサンプリングされたディジタル音声データを特定し(ステップST1)、続いて、振幅情報を抽出すべき離散周波数(チャネルCH)を設定する(ステップST2)。
一般に、音声データにはその周波数スペクトルを取ると非常に多くの周波数成分が含まれることが知られている。また、各周波数における音声スペクトル成分は位相も一定でないので、1つの周波数における音声スペクトル成分についてサイン波成分とコサイン波成分の2つの成分が存在することも知られている。
図3は、周期Δtでサンプリングされた音声スペクトル成分を時間経過とともに示した図である。ここで、全周波数領域のうち有限個のチャネルCHi(離散周波数Fi:i=1、2、…、N)の信号成分で音声スペクトル成分を表現する場合、第m番目にサンプリングされる音声スペクトル成分S(m)(サンプリング開始から時間(Δt・m)だけ経過した時点における音声スペクトル成分)は、以下のように表現される。
Figure 2002058053
上記式(1)は、音声スペクトル成分S(m)が1〜N番目のNこの周波数成分で構成されていることを示している。実際の音声情報は周波数成分が1000以上含まれる。
この発明に係るディジタル音声データの符号化方法は、人間の聴覚特性の性質上、復号化の際に符号化された音声データを離散した有限個の周波数成分で代表させたとしても、実用上音声の明瞭度や音質自体に影響がないという事実を発明者が発見したことにより完成されたものである。
続いて、ステップST1で特定された第m番目にサンプリングされたディジタル音声データ(音声スペクトル成分S(m)を有する)について、ステップST2において設定された周波数Fi(チャネルCHi)におけるディジタイズされたサイン波成分sin(2πFi(Δt・m))及びコサイン波成分cos(2πFi(Δt・m))を抽出し(ステップST3)、さらに、これらサイン波成分及びコサイン波成分の各振幅情報Ai、Biを抽出する(ステップST4)。なお、ステップST3〜ST4は、N個全てのチャネルについて行われる(ステップST5)。
図4は、各周波数(チャネルCH)における振幅情報Ai及びBiの対を抽出する処理を概念的に示した図である。上述のように、音声スペクトル成分S(m)は、周波数Fiにおけるサイン波成分とコサイン波成分の合成波として表現されるため、例えば、チャネルCHiの処理として、音声スペクトル成分S(m)とサイン波成分sin(2πFi(Δt・m))を乗算すると、Aiを係数とするsin(2πFi(Δt・m))の2乗項と他の波動成分(交流成分)が得られる。この2乗項は、以下の一般式(2)のように直流成分と交流成分に分けられる。
Figure 2002058053
したがって、ローパスフィルタLPFにより、音声スペクトル成分S(m)とサイン波成分sin(2πFi(Δt・m))の乗算結果から直流成分、すなわち、振幅情報Ai/2が抽出される。
コサイン波成分の振幅情報も同様に、ローパスフィルタLPFにより、音声スペクトル成分S(m)とコサイン波成分cos(2πFi(Δt・m))の乗算結果から直流成分、すなわち、振幅情報Bi/2が抽出される。
これら振幅情報を上記サンプリング周期よりも低い周期T(=Δt・v:vは任意)、例えば50〜100サンプル/秒でサンプリングして、例えば図5に示されたような構造を有するフレームデータ800aを生成していく。なお、図5は、フレームデータの第1構成例を示す図であり、予め設定された周波数Fiそれぞれに対応したサイン波成分の振幅情報Ai及びコサイン波成分の振幅情報Biの対と、再生周期の基準周波数となる振幅情報のサンプリングレート等の制御情報から構成されている。例えば、110Hz〜7000Hzの6オクターブを音声帯域とし、音楽の平均律に合わせて1オクターブ当たり12種類の周波数をチャネルCHとして設定すると、該音声帯域に全部で72種類(=N)の周波数チャネルCHが設定される。各周波数チャネルCHにおける振幅情報にそれぞれ1バイト割当てるとともに、制御情報CDに8バイト割当てると、得られるフレームデータ800aは152(=2N+8)バイトとなる。
この発明に係るディジタル音声データの符号化方法では、サンプリングされた全てのディジタル音声データに対して上述のステップST1〜ST6を実行し、、上述のような構造を有するフレームデータ800aを生成して最終的に図6に示されたような符号化音声データ900を生成する(ステップST7)。
このように、当該ディジタル音声データの符号化方法では、全周波数のうち離散周波数ごとにサイン波成分及びコサイン波成分の対を生成し、該サイン波成分及びコサイン波成分の各振幅情報を抽出するので、符号化処理の高速化を可能にする。また、離散周波数Fiごとに対をなすサイン波成分とコサイン波成分の各振幅情報Ai、Biにより符号化音声データ900の一部を構成するフレームデータ800aを構成されるので、得られる符号化音声データ900は位相情報をも含むことになる。さらに、元の音声データから窓かけして周波数成分を切り出す処理が不要なので、音声データの連続性が損なわれることがない。
なお、得られた符号化音声データ900は、図1Aに示されたようにネットワーク等を利用して利用者に提供される場合があるが、この場合、図7に示されたように、各フレームデータ800aを暗号化して、暗号化されたデータ850aからなる符号化音声データを配信してもよい。ただし、図7では、フレームデータ単位で暗号化が行われているが、符号化音声データ全体をまとめて暗号化処理しても、また、該符号化音声データの1又はそれ以上の部分についてのみ暗号化処理してもよい。
この発明では、符号化側で、1つの周波数についてサイン波成分の振幅情報とコサイン波成分の振幅情報の両方が抽出される一方、復号化側で、これら両情報を利用してディジタル音声データが生成されるので、その周波数の位相情報も伝送でき、より明瞭度の高い音質が得られる。ところが、高い周波数領域では、人間の聴覚は位相を判別することがほとんどできないので、この高い周波数領域についても位相情報を伝送する必要性は低くく、振幅情報のみで十分再生音声の明瞭度は確保される。
そこで、この発明に係るディジタル音声データの符号化方法では、離散周波数のうちから選択された1又はそれ以上の周波数、特に位相情報の必要性に乏しい高周波数について、該選択された周波数ごとに、互いに対をなすサイン波成分及びコサイン波の各振幅情報の2乗和として与えられる和成分の平方根をそれぞれ算出し、これら振幅情報対から得られる和成分の平方根でフレームデータのうち該選択された周波数に対応した振幅情報対をそれぞれ置換する構成を備えてもよい。
すなわち、図8Aに示されたように、対をなす振幅情報Ai、Biを互いに直交するベクトルと考えると、図8Bに示されたような演算回路により、各振幅情報Ai、Biの各2乗和で与えられる和成分の平方根Ciが得られる。このように得られた平方根情報Ciで、高周波数に対応した振幅情報対を置換することにより、データ圧縮されたフレームデータが得られる。図9は、上述のように位相情報が省略されたフレームデータの第2構成例を示す図である。
例えば、72種類の周波数についてサイン波成分及びコサイン波成分の振幅情報の対のうち、高周波数側の24種類について平方根情報Ciで振幅情報対を置き換えた場合、振幅情報及び平方根情報を1バイト、制御情報CDを8バイトとすると、フレームデータ800bは128(=2×48+24+8)バイトとなる。このため、図5に示されたフレームデータ800bと比較して、近年頻繁に利用されるMPEG−Audio程度のデータ圧縮率が実現される。
なお、図9において、フレームデータ800bにおける領域810が、平方根情報Ciにより振幅情報対が置換された領域である。また、このフレームデータ800bについても図7に示されたように、コンテンツ配信可能なように暗号化処理を施されてもよい。
さらに、この発明に係るディジタル音声データの符号化方法は、1つのフレームデータを構成する振幅情報対のうち何れかを間引くことにより、さらにデータ圧縮率を高めることができる。図10A及び図10Bは、振幅情報を間引くことによりデータ圧縮方法の一例を説明するための図である。特に、図10Bは、このデータ圧縮方法により得られるフレームデータの第3構成例を示す図である。なお、このデータ圧縮方法は、図5に示されたフレームデータ800a、図9に示されたフレームデータ800bのいずれについても適用できるが、以下の説明では、図9に示されたフレームデータ800bを圧縮する場合について説明する。
まず、フレームデータ800bに含まれる振幅情報列のうち、サイン波成分の振幅情報とコサイン波成分の振幅情報の対で構成されている部分については、互いに隣接する振幅情報対同士、例えば、(A、B)と(A、B)の組、(A、B)と(A、B)の組、…、(Ai−2、Bi−2)と(Ai−1、Bi−1)の組それぞれにおいて、各対の平方根情報C、C、…、Ci−1を算出し、隣接する振幅情報対同士の比較に代えて、得られた平方根情報CとC、CとC、…、Ci−2とCi−1をそれぞれ比較する。そして、上記組のうち、平方根情報が大きい方を残していく。なお、上述の比較は、互いに隣接する3以上の振幅情報の組ごとに行われてもよい。
この場合、図10Bに示されたようにフレームデータ800cに識別ビット列(識別情報)を用意し、残された振幅情報対が低周波数側の振幅情報対であれが、該識別ビットとして0をセットし、逆に残された振幅情報対が高周波数側の振幅情報対であれが、該識別ビットとして1をセットする。
一方、領域810(図9参照)のように、振幅情報対が予め平方根情報に置換されている場合、CとCi+1、…、CN−1とCをそれぞれ比較し、大きい方だけ残す。この場合も、低周波数側の平方根情報が残っていれば識別ビットとして0をセットし、逆に高低周波数側の平方根情報が残っていれば識別ビットとして1をセットする。なお、上述の比較は、互いに隣接する3以上の平方根情報の組ごとに行われてもよい。
例えば、図9に示されたフレームデータ800bが、上述のように48対の振幅情報対(各振幅情報は1バイト)と24個の平方根情報(1バイト)で構成されている場合、振幅情報列は48バイト(=2×24)、平方根情報列は12バイトにそれぞれ減少される一方、逆に識別ビットとして36ビット(4.5バイト)が必要となる。したがって、フレームデータ800cは、72種類の周波数についてサイン波成分及びコサイン波成分の各振幅情報を抽出する場合、60(=2×24+1×12)バイトの振幅情報列、約5(≒4.5)バイトの識別情報、8バイトの制御情報から構成される(73バイト)。同様の条件で、図9に示されたフレームデータ800bは128バイトであるから、約43%のデータが削減できる。
なお、このフレームデータ800cも図7に示されたように暗号化が施されてもよい。
近年、インターネット等を利用した音声配信システムの普及により、配信された音声データ(ニュース番組、座談会、歌、ラジオドラマ、語学番組など、人間の音声を主体とするディジタルデータ)を一旦ハードディスク等の記録媒体に蓄積してから該配信された音声データを再生する機会が多くなってきた。特に、老人性難聴には、喋り方が速いと聞き取り難いタイプがある。また、外国語の学習課程では、学習対象となる言語をゆっくり喋ってほしいという強いニーズもある。
上述のような社会状況下において、この発明に係るディジタル音声データの復号化方法及び復号化方法が適用されたディジタル・コンテンツ配信が実現されれば、利用者が再生音声の音程を変えることなく任意に再生速度を調節できる(再生スピードを速くすることも遅くすることも可能)。この場合、詳しく聴きたくない部分だけ再生スピードを速くし(音程が変化しないので再生スピードが2倍程度になっても十分に聞き取れる)詳しく聴きたい部分だけ瞬時に元の再生スピードに戻すことができる。
図11は、この発明に係るディジタル音声データの復号化方法を説明するためのフローチャートであり、上述のように符号化された符号化音声データ900を利用することにより、音程を変えずに容易かつ自由に話速の変更を可能にする。
まず、この発明に係るディジタル音声データの復号化方法では、再生周期T、すなわち、H/D等の記録媒体に格納された符号化データから順次フレームデータを取り込む周期が設定されるとともに(ステップST10)、n番目の復号化すべきフレームデータが特定される(ステップST11)。なお、この再生周期Tは、上述の符号化処理における振幅情報のサンプリング周期T(=Δt・v:vは任意)と利用者が指定した再生スピード比R(1を基準としてR=0.5であれば1/2倍速、R=2であれば2倍速を意味する)との比(T/R)で与えられる。
続いて、周波数Fi(i=1〜N)のチャネルCHが設定され(ステップST12)、各周波数Fiにおけるサイン波成分sin(2πFi(Δτ・n))とコサイン波成分cos(2πFi(Δτ・n))が順次生成される(ステップST13、ST14)。
そして、ステップST13で生成された各周波数Fiにおけるサイン波成分及びコサイン波成分と、ステップST11で特定されたn番目のフレームデータに含まれる振幅情報Ai、Biとの基づいて、再生開始から時間(Δτ・n)だけ経過した時点のディジタル音声データが生成される(ステップST15)。
上述のステップST11〜ST15は、符号化音声データ900(図6参照)に含まれる全てのフレームデータについて実施される(ステップST16)。
なお、ステップST11で特定されるフレームデータが図9に示されたフレームデータ800bのように、平方根情報Ciを含む場合、該Ciをサイン波成分及びコサイン波成分のいずれか一方の係数として処理してもよい。該Ciで置換される周波数領域は人間にとって識別しにくい周波数領域であり、サイン波成分とコサイン波成分を区別する必要性が乏しいからである。また、ステップST11で特定されるフレームデータが図10Bに示されたフレームデータ800cのように、振幅情報の一部が欠落している場合、図12A及び図12Bに示されたように、再生スピードを低下させた場合、再生音声の不連続性が顕著になる。このため、図13に示されたように、再生周期Tの間を(T/Δτ)個に分割し、前後の音声データの間を直線補間あるいは曲線関数補間するのが好ましい。この場合、T/Δτ倍の音声データを生成することとなる。
上述のような、この発明に係るディジタル音声データの復号化方法は、ワンチップ化された専用プロセッサを携帯電話などの携帯端末に組み入れることより、利用者は、移動しながら所望のスピードでコンテンツの再生や通話が可能になる。
図14は、サーバー等の特定配信装置から配信要求のあった端末装置に対して、該端末装置によって指定されたコンテンツ・データを有線あるいは無線の通信回線を介して配信する地球規模のデータ通信システムにおける利用形態を示す図であり、主に、ケーブルテレビ網、公衆電話回線網などのインターネット回線網、携帯電話などの無線回線網、衛星通信回線等に代表される通信回線を介して音楽や画像などの特定コンテンツを利用者に個別に提供することを可能にする。また、このようなコンテンツ配信システムの利用形態は、近年のディジタル技術の発達やデータ通信環境の整備により種々の態様が考えられる。
図14に示されたように、コンテンツ配信システムにおいて、配信装置としてのサーバー100は、利用者の要求に応じて配信するためのコンテンツ・データ(例えば符号化音声データ)が一旦蓄積される記憶装置110と、有線のネットワーク150や通信衛星160を利用した無線回線を介してPC200や携帯電話300などの利用者側端末装置に該コンテンツ・データを配信するためのデータ送信手段120(I/O)を備える。
端末装置(クライアント)として、PC200は、サーバー100からネットワーク150あるいは通信衛星160を介して配信されるコンテンツ・データを受信するための受信手段210(I/O)を備える。PC200は、外部記憶手段としてハード・ディスク220(H/D)を備えており、制御部230はI/O210を介して受信されたコンテンツ・データを一旦該H/D220に記録する。さらに、PC200は、利用者からの操作入力を受け付けるための入力手段240(例えばキーボードやマウス)、画像データを表示するための表示手段250(例えばCRTや液晶ディスプレイ)、音声データや音楽データを出力するためのスピーカー260が設けられている。また、近年の目覚ましいモバイル情報処理機器の開発により、携帯電話を端末装置としたコンテンツ配信サービスや、通信機能を持たない専用再生装置用の記憶媒体400(例えば64Mバイト程度の記録容量を有するメモリカード)も実用化されている。特に、通信機能を有さない再生専用の装置で利用される記録媒体400を提供するため、PC200はデータ記録手段としてのI/O270を備えてもよい。
なお、端末装置としては、図14中に示されたように、それ自体が通信機能を有する携帯型の情報処理機器300であってもよい。
産業上の利用可能性
上述のようにこの発明によれば、サンプリングされたディジタル音声データから、複数の離散周波数それぞれに対応したサイン波成分及びコサイン波成分の対を利用して、該サイン波成分の振幅情報及び該コサイン波成分の振幅情報を抽出しているので、従来のようなバンドパスフィルタを利用した帯域分離技術と比べ、処理速度を著しく向上させることが可能になる。また、生成される符号化音声データは、予め設定された離散周波数それぞれに対応したサイン波成分の振幅情報とコサイン波成分の振幅情報の対を含んでいるため、符号化側と復号化側との間で各離散周波数の位相情報が保存される。したがって、復号化側では、音声の明瞭度を損なうことなく任意に選択された再生スピードでの音声再生も可能になる。
【図面の簡単な説明】
図1A及び図1Bは、この発明に係る各実施形態を概念的に説明するための図である(その1)。
図2は、この発明に係るディジタル音声データの符号化方法を説明するためのフローチャートである。
図3は、周期Δtでサンプリングされるディジタル音声データを説明するための図である。
図4は、離散周波数それぞれに対応したサイン波成分及びコサイン波成分の対の各振幅情報の抽出処理を説明するための概念図である。
図5は、符号化音声データの一部を構成するフレームデータの第1構成例を示す図である。
図6は、符号化音声データの構成を示す図である。
図7は、暗号処理を説明するための概念図である。
図8A及び図8Bは、フレームデータに対するデータ圧縮処理の第1実施形態を説明するための概念図である。
図9は、符号化音声データの一部を構成するフレームデータの第2構成例を示す図である。
図10A及び図10Bは、フレームデータに対するデータ圧縮処理の第2実施形態を説明するための概念図であり、特に、図10Bは、符号化音声データの一部を構成するフレームデータの第3構成例を示す図である。
図11は、この発明に係るディジタル音声データの復号化処理を説明するためのフローチャートである。
図12A、図12B及び図13は、復号化されるディジタル音声データのデータ補間処理を説明するための概念図である。
図14は、この発明に係る各実施形態を概念的に説明するための図である(その2)。

Claims (9)

  1. 第1周期でサンプリングされたディジタル音声データの周波数領域のうち、所定間隔だけ離間した離散周波数を設定し、
    前記設定された離散周波数それぞれに対応し、かつそれぞれディジタイズされたサイン波成分及び該サイン波成分と対をなすコサイン波成分を利用して、前記ディジタル音声データから該サイン波成分及びコサイン波成分の対の各振幅情報を第2周期ごとに抽出し、そして、
    符号化音声データの一部として、前記離散周波数それぞれに対応した、前記サイン波成分の振幅情報及び前記コサイン波成分の振幅情報の対を含むフレームデータを順次生成していくディジタル音声データの符号化方法。
  2. 請求項1記載のディジタル音声データの符号化において、
    前記離散周波数それぞれに対応したサイン波成分及びコサイン波成分の各振幅情報は、前記ディジタル音声データに対して該サイン波成分及びコサイン波成分をそれぞれ乗算することにより抽出される。
  3. 請求項1記載のディジタル音声情報の符号化方法において、
    前記離散周波数のうちから選択された1又はそれ以上の周波数について、該選択された周波数ごとに、互いに対をなすサイン波成分及びコサイン波の各振幅情報の2乗和として与えられる和成分の平方根をそれぞれ算出し、そして、
    前記フレームデータに含まれる、前記選択された周波数に対応した振幅情報対を、これら振幅情報対から得られる前記和成分の平方根でそれぞれ置換する。
  4. 請求項1記載のディジタル音声データの符号化方法において、
    前記フレームデータに含まれる振幅情報のうち1又はそれ以上の振幅情報は間引かれる。
  5. 請求項1記載のディジタル音声データの符号化方法において、
    前記フレームデータに含まれる、互いに隣接する2以上の前記離散周波数それぞれに対応した振幅情報対同士それぞれについて、対をなすサイン波成分及びコサイン波の各振幅情報の2乗和として与えられる和成分の平方根を比較し、そして、
    前記比較された2以上の振幅情報対のうちその和成分の平方根が最も大きい振幅情報対を除く残りの振幅情報対を、前記符号化音声データに含まれる前記フレームデータから削除する。
  6. 請求項3記載のディジタル音声データの符号化方法において、
    前記フレームデータに含まれる、互いに隣接する2以上の前記離散周波数それぞれに対応した振幅情報対同士それぞれについて、前記和成分の平方根を比較し、そして、
    前記比較された2以上の振幅情報対のうちその和成分の平方根が最も大きい振幅情報対を除く残りの振幅情報対を、前記符号化音声データに含まれる前記フレームデータから削除する。
  7. 請求項1記載のディジタル音声データの符号化方法により符号化された符号化音声データを復号化するディジタル音声データの復号化方法であって、
    前記離散周波数ごとに、それぞれ第3周期でディジタイズされたサイン波成分と該サイン波成分と対をなすコサイン波成分を順次生成し、そして、
    前記符号化音声データのうち再生周期である第4周期で順次取り込まれるフレームデータそれぞれについて、該取り込まれたフレームデータに含まれる前記離散周波数それぞれに対応した振幅情報対と前記サイン波成分及びコサイン波成分の対とを利用して、ディジタル音声データを順次生成するディジタル音声データの復号化方法。
  8. 請求項7記載のディジタル音声データの復号化方法において、
    前記フレームデータは、前記離散周波数のうちから選択された1又はそれ以上の周波数について、互いに対をなすサインは成分及びコサインは成分の振幅情報の対が、これら振幅情報の2乗和として与えられる和成分の平方根で置換されており、
    当該符号化方法により得られるディジタル音声データの一部は、前記フレームデータに含まれる前記和成分の平方根と、該和成分の平方根が属する周波数と対応するサイン波成分及びコサイン波成分のいずれか一方を利用して生成される。
  9. 請求項7又は8記載のディジタル音声データの復号化方法において、
    前記第4周期で順次取り込まれるフレームデータ間の振幅情報を直線補間あるいは曲線関数補間するよう、該第4周期よりも短い第5周期で1又はそれ以上の振幅補間情報が順次生成される。
JP2002558260A 2001-01-22 2001-01-22 ディジタル音声データの符号化方法及び復号化方法 Pending JPWO2002058053A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2001/000383 WO2002058053A1 (en) 2001-01-22 2001-01-22 Encoding method and decoding method for digital voice data

Publications (1)

Publication Number Publication Date
JPWO2002058053A1 true JPWO2002058053A1 (ja) 2004-05-27

Family

ID=11736937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002558260A Pending JPWO2002058053A1 (ja) 2001-01-22 2001-01-22 ディジタル音声データの符号化方法及び復号化方法

Country Status (6)

Country Link
US (1) US20040054525A1 (ja)
JP (1) JPWO2002058053A1 (ja)
KR (1) KR100601748B1 (ja)
CN (1) CN1212605C (ja)
DE (1) DE10197182B4 (ja)
WO (1) WO2002058053A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7044741B2 (en) * 2000-05-20 2006-05-16 Young-Hie Leem On demand contents providing method and system
US7460684B2 (en) 2003-06-13 2008-12-02 Nielsen Media Research, Inc. Method and apparatus for embedding watermarks
CN102592638A (zh) 2004-07-02 2012-07-18 尼尔逊媒介研究股份有限公司 用于进行压缩数字位流的混合的方法及装置
SE532117C2 (sv) * 2004-12-17 2009-10-27 Ericsson Telefon Ab L M Auktorisering i cellulära kommunikationssystem
WO2008045950A2 (en) 2006-10-11 2008-04-17 Nielsen Media Research, Inc. Methods and apparatus for embedding codes in compressed audio data streams
CN103258552B (zh) * 2012-02-20 2015-12-16 扬智科技股份有限公司 调整播放速度的方法
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data
DE102017100076A1 (de) 2017-01-04 2018-07-05 Sennheiser Electronic Gmbh & Co. Kg Verfahren zur latenzarmen Audioübertragung in einem LTE-Netzwerk
CN115881131B (zh) * 2022-11-17 2023-10-13 广东保伦电子股份有限公司 一种多语音下的语音转写方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986005617A1 (en) * 1985-03-18 1986-09-25 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US5668923A (en) * 1995-02-28 1997-09-16 Motorola, Inc. Voice messaging system and method making efficient use of orthogonal modulation components
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JPH1168576A (ja) * 1997-08-22 1999-03-09 Hitachi Ltd データ伸張装置
WO1999033050A2 (en) * 1997-12-19 1999-07-01 Koninklijke Philips Electronics N.V. Removing periodicity from a lengthened audio signal
JP3617603B2 (ja) * 1998-09-03 2005-02-09 カナース・データー株式会社 音声情報の符号化方法及びその生成方法
US6195633B1 (en) * 1998-09-09 2001-02-27 Sony Corporation System and method for efficiently implementing a masking function in a psycho-acoustic modeler
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6266643B1 (en) * 1999-03-03 2001-07-24 Kenneth Canfield Speeding up audio without changing pitch by comparing dominant frequencies
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6754618B1 (en) * 2000-06-07 2004-06-22 Cirrus Logic, Inc. Fast implementation of MPEG audio coding

Also Published As

Publication number Publication date
DE10197182B4 (de) 2005-11-03
CN1212605C (zh) 2005-07-27
KR20030085521A (ko) 2003-11-05
US20040054525A1 (en) 2004-03-18
WO2002058053A1 (en) 2002-07-25
CN1493072A (zh) 2004-04-28
DE10197182T5 (de) 2004-08-26
KR100601748B1 (ko) 2006-07-19

Similar Documents

Publication Publication Date Title
KR100739723B1 (ko) 오디오 썸네일 기능을 지원하는 오디오 재생 방법 및 장치
JPH11194796A (ja) 音声再生装置
CN101379552A (zh) 用于编码/解码信号的装置和方法
JP2002041089A (ja) 周波数補間装置、周波数補間方法及び記録媒体
JP2001344905A (ja) データ再生装置、その方法及び記録媒体
JPWO2002058053A1 (ja) ディジタル音声データの符号化方法及び復号化方法
JP2005512134A (ja) リアルタイム時間伸縮用パラメータ付きデジタルオーディオ
Mores Music studio technology
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
JP2009075280A (ja) コンテンツ再生装置
JP2001184090A (ja) 信号符号化装置,及び信号復号化装置,並びに信号符号化プログラムを記録したコンピュータ読み取り可能な記録媒体,及び信号復号化プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3620787B2 (ja) 音声データの符号化方法
US20060069565A1 (en) Compressed data processing apparatus and method and compressed data processing program
JP2002297200A (ja) 話速変換装置
JP3510493B2 (ja) 音声信号の符号/復号方法及びそのプログラムを記録した記録媒体
JP2816052B2 (ja) オーディオデータ圧縮装置
JPH09146587A (ja) 話速変換装置
JP2000347697A (ja) 音声記録再生装置および記録媒体
JP3346395B2 (ja) 光記録媒体及び音声復号装置
JP2006243340A (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、および音響信号再生装置
JP2004029377A (ja) 圧縮データ処理装置、方法および圧縮データ処理プログラム
JP2021076739A (ja) 信号処理装置、振動装置、信号処理システム、プログラム、信号処理方法
JP3346400B2 (ja) 音声符号化装置
JP2000152398A (ja) オーディオ信号処理装置及び方法
JP3346403B2 (ja) 光記録媒体及び音声復号装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061212