JP5367932B2 - オーディオ速度変換を可能にするシステムおよび方法 - Google Patents

オーディオ速度変換を可能にするシステムおよび方法 Download PDF

Info

Publication number
JP5367932B2
JP5367932B2 JP2002518457A JP2002518457A JP5367932B2 JP 5367932 B2 JP5367932 B2 JP 5367932B2 JP 2002518457 A JP2002518457 A JP 2002518457A JP 2002518457 A JP2002518457 A JP 2002518457A JP 5367932 B2 JP5367932 B2 JP 5367932B2
Authority
JP
Japan
Prior art keywords
individual unit
unit cycles
audio signal
cycles
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002518457A
Other languages
English (en)
Other versions
JP2004506243A (ja
JP2004506243A5 (ja
Inventor
メゲイド,マグデイ
インカンプ,マークス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2004506243A publication Critical patent/JP2004506243A/ja
Publication of JP2004506243A5 publication Critical patent/JP2004506243A5/ja
Application granted granted Critical
Publication of JP5367932B2 publication Critical patent/JP5367932B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

(背景)
発明の分野
本発明は、一般に、オーディオ速度変換に関し、より詳細には、音声速度変換などのオーディオ速度変換(audio speed conversion)を可能にする方法およびシステムに関する。
背景情報
カラー・テレビジョン(CTV)システム、ビデオ・テープ・レコーダ(VTR)、ディジタル・ビデオ/多用途ディスク(DVD)システム、コンパクト・ディスク(CD)プレーヤ、補聴器、留守番電話などのビデオ/オーディオ再生システムでは、速度変換システムを使用して、複数の(再生)速度の動作(例えば高速、低速など)を可能にすることができる。従来のオーディオ速度変換器は、一般に、オーディオ信号中の無音区間(silence interval)と有音区間(sound interval)を区別する。無音区間を削除して有音区間を圧縮すると、オーディオ速度が上がる。逆に、無音区間および有音区間を伸張すると、オーディオ速度が下がる。従来のオーディオ速度変換器の多くは、内容に関係なく一定レート(rate:割合)でオーディオ速度を上げるかまたは下げる。従って、これらのタイプのオーディオ速度変換器は、オーディオ信号の無音区間および冗長区間を十分に活用することができない。
オーディオ信号の区間を削除(remove)または反復(repeat)するプロセスは、望ましくない「カチッ」(click)などの可聴音、即ち雑音を生じることが多いので、問題となる場合がある。さらに、オーディオ信号のピッチ(pitch:音の高低)を他の周波数に変更または変換することは、人間の耳がこれらの変化に対して非常に敏感である傾向があるので、するべきではない。「PICOLA」(pointer interval control overlap and add)アルゴリズムなど、知られている従来技術のアルゴリズムは、オーディオ信号にウィンドウ(window)関数を掛け、出力信号を平滑化して元のピッチを維持しようとすることにより、これらの問題に対処する。その結果、元のオーディオ信号の一部ではない合成波形が生み出される。さらに、このようなアルゴリズムを使用するには、通常、高速ディジタル・シグナル・プロセッサ(Digital Signal Processor:DSP)を利用する必要があり、高価となる傾向がある。従って、高価なディジタル・シグナル・プロセッサ(DSP)の使用を避け、小型プログラマブル・ロジック・デバイス(Programmable Logic Device:PLD)など、よりコスト低減効果の大きい処理手段を利用するオーディオ速度変換器を提供することが望ましい。本発明は、これらの問題および他の問題を解決しようとするものである。
(概要)
本発明の一態様によれば、オーディオ信号を処理するためのシステムは、オーディオ信号を受け取って、受け取ったオーディオ信号を1つまたは複数の個別単位サイクルに分割する手段と、1つまたは複数の個別単位サイクルを反復することと削除することのうちの一方によってオーディオ速度変換動作を可能にする手段とを具える。
本発明の別の態様によれば、オーディオ信号を処理する方法は、オーディオ信号を受け取るステップと、受け取ったオーディオ信号を1つまたは複数の個別単位サイクルに分割するステップと、1つまたは複数の個別単位サイクルを反復することと削除することのうちの一方によってオーディオ速度変換動作を可能にするステップとを含む。
本明細書に述べる例示は、本発明の好ましい実施形態を示すものであり、このような例示は、本発明の範囲を任意の態様において限定して解釈すべきではない。
(好ましい実施形態の説明)
本出願は、従来技術に勝る利点をもたらすオーディオ信号処理のためのシステムおよび方法を開示する。例示的なシステムおよび例示的な方法によれば、ディジタル音声信号などのオーディオ信号を受け取り、1つまたは複数の個別単位サイクル(individual unit cycle)に分割する。個別単位サイクルの1つまたは複数を反復または削除することにより、オーディオ速度変換動作を可能にする。具体的には、個別単位サイクルの1つまたは複数を反復する(繰返す)と、オーディオ速度が下がり、個別単位サイクルの1つまたは複数を削除(除去)すると、オーディオ速度が上がる。好ましい実施形態によれば、受け取ったオーディオ信号を基準値に従って1つまたは複数の個別単位サイクルに分割し、それにより個別単位サイクルが、基準値以上である受け取ったオーディオ信号の最初のサンプルで始まり、基準値未満である受け取ったオーディオ信号の最後のサンプルで終わるようにする。
例示的な方法はまた、1つまたは複数の個別単位サイクルのそれぞれが無音区間に該当するかどうかを決定するステップを含んでいてもよい。この決定は、1つまたは複数の個別単位サイクルそれぞれについての平均電力値(average power value)に従って行うことができる。好ましい一実施形態によれば、1つまたは複数の個別単位サイクルそれぞれについての平均電力値は、1つまたは複数の個別単位サイクルそれぞれについての平均振幅値(average amplitude value)に従って決定する。この方法はまた、受け取ったオーディオ信号中で1つまたは複数のピッチ期間(pitch period)を検出するステップを含んでいてもよく、1つまたは複数のピッチ期間はそれぞれ、個別単位サイクルの1つまたは複数を含む。この検出は、1つまたは複数の個別単位サイクルそれぞれについての平均電力値に応じたものとしてもよい。本明細書では、以上の方法を実施することのできるオーディオ速度変換システムも提供する。
次に、図面、より具体的には図1を参照すると、本発明の原理に従って構成されるオーディオ速度変換器10が示されている。図1で、オーディオ速度変換器10は、入力オーディオ信号を受け取るゼロ交差検出器11を具える。ゼロ交差検出器11は、入力オーディオ信号をサンプリングし、サンプリングした値をゼロ基準値と比較する。ゼロ基準値以上のサンプリング値は正の入力信号に対応し、ゼロ基準値未満のサンプリング値は負の入力信号に対応する。後で本明細書において説明するが、入力オーディオ信号は、一連の単一単位サイクル(single unit cycle)波形に分割される。
絶対値計算器12が、入力オーディオ信号のサンプリング値をゼロ交差検出器11から受け取り、各サンプルの絶対値を計算する。平均電力値(P)生成器13が、絶対値計算器12によって計算される絶対値を受け取り、絶対値に基づいて入力オーディオ信号の各サイクルについて平均電力値(P)を計算する。本発明の原理によれば、単一単位サイクル波形の平均電力値(P)を計算することが重要であり、従来の多くのオーディオ速度変換器のように、固定数のサンプルを含む単一フレームの平均電力値を計算するものではない。好ましい一実施形態によれば、平均電力値(P)は、平均振幅値に基づいて計算される。即ち、平均電力値(P)は、サンプル値を1サイクル中のサンプル総数で割った値の合計に等しい。このようにして、入力オーディオ信号の各サイクルについて平均電力値(P)が計算される。
無音検出器14が、平均電力値(P)を平均電力値(P)生成器13から受け取り、比較動作を行って、各サイクルが無音区間に該当するかどうかを決定する。具体的には、無音検出器14は、各平均電力値(P)を基準しきい値と比較する。無音区間に該当する1つまたは複数のサイクルが識別されるときは、本発明の原理により、無音冗長度検出器15を幾つかのモードで利用して、無音区間の持続時間を計算し、無音区間を伸張または圧縮してもよい。区間の伸張および圧縮に関するこれ以上の詳細については、後述する。あるいは、無音区間に該当しない1つまたは複数のサイクルが識別されるときは、有音検出器およびピッチ期間検出器16が、入力オーディオ信号中の有音区間を検出し、さらに、異なるピッチ期間の開始を検出する。ピッチ冗長度検出器17が、本発明の原理に従ってピッチ期間中の冗長度を検出する。有音区間およびピッチ期間の検出に関するこれ以上の詳細については、後述する。
制御回路18が、オーディオ速度変換器10の一般動作を制御する。例えば、制御回路18は、オーディオ変換器10からの出力が内部バッファ・メモリ19、あるいはハードディスク、ランダム・アクセス・メモリ(RAM)、光ディスク、またはその他の外部メモリなど、外部記憶デバイス20に記憶されるようにすることができる。制御回路18はまた、オーディオ変換器10からの出力がスピーカやその他のデバイスなど外部デバイス21に転送されるようにすることができ、動作モードに関する入力を受け取る。後で本明細書において説明するが、図1のオーディオ速度変換器10は、異なる3つの動作モード、即ち高速モード(fast mode)、低速モード(slow mode)、待機モード(stanby mode)を有する。
次に、図1〜図6を参照しながら、本発明の原理に従って構成されるオーディオ速度変換器10の動作に関する詳細について述べる。
先に図1に示したように、オーディオ速度変換器10のゼロ交差検出器11は、入力オーディオ信号を受け取る。好ましい一実施形態によれば、入力オーディオ信号は10ビットのディジタル信号である。ただし、本発明の原理により他のビット長の入力信号を適応させることができる。ゼロ交差検出器11は、入力オーディオ信号をサンプリングし、サンプリングした値をゼロ基準値と比較する。好ましい一実施形態によれば、ゼロ基準値は512である。ただし、本発明の原理により他のゼロ基準値を利用することもできる。先に示したように、入力オーディオ信号は、一連の単一単位サイクル波形に分割される。
次に、図2を参照すると、例示的な入力オーディオ信号の単一サイクル30の概略図が示されている。図2で、点(dot:ドット)は、図1のゼロ交差検出器11によってサンプリングされる例示的なポイントを表し、数字(即ち1000、560、470、24)は、幾つかのサンプル(標本)が取り得る値を表す(10ビットの分解能と仮定する)。先に示したように、ゼロ交差検出器11は、好ましい一実施形態で、最大値1024の半分であるゼロ基準値512を使用する(10ビットの分解能と仮定する)。従って、512以上のサンプリング値は、正の入力信号に対応し、512未満のサンプリング値は、負の入力信号に対応する。サンプリング値をゼロ基準値と比較することにより、入力信号は、図2に、その1つを示すような一連の単一単位サイクル波形に分割することができる。本発明の原理によれば、入力オーディオ信号の単一単位サイクルは、正の半波(値≧512)の最初のサンプルから、負の半波(値<512)の最後のサンプルまで測定される。このようなサイクルが、オーディオ速度変換器10によって消去または反復される信号の最小単位である。後で本明細書において説明するが、図1のオーディオ速度変換器10は、入力オーディオ信号の完全な単位サイクルだけを削除または反復する。この方法の利点は、信号の削除または挿入が常にゼロ交差点で行われ、従って、出力オーディオ信号中のカチッという可聴音が防止されることである。このようにして、本発明は、有利にも、合成波形のない、実際のオーディオ情報で構成される出力オーディオ信号を提供する。従来の「PICOLA」(pointer interval control overlap and add)アルゴリズムでは、入力オーディオ信号にウィンドウ関数を掛けるが、その結果、元のオーディオ信号の一部ではない合成波形が生じる。
再び図1を参照すると、絶対値計算器12は、入力オーディオ信号のサンプリング値をゼロ交差検出器11から受け取り、各サンプルの絶対値を計算する。平均電力値(P)計算器13は、絶対値計算器12によって計算される絶対値を受け取り、絶対値に基づいて入力オーディオ信号の各サイクルについて平均電力値(P)を計算する。本発明の原理によれば、単一単位サイクル波形の平均電力値(P)を計算することが重要であり、従来の多くのオーディオ速度変換器のように、固定数のサンプルを含む単一フレームの平均電力値を計算するものではない。好ましい一実施形態によれば、平均電力値(P)は、平均振幅値に基づいて計算される。即ち、平均電力値(P)は、サンプル値を1サイクル中のサンプル総数で割った値の合計に等しい。このようにして、入力オーディオ信号の各サイクルについて平均電力値(P)が計算される。
無音検出器14は、平均電力値(P)を平均電力値(P)生成器13から受け取り、比較動作を行って、各サイクルが無音区間に該当するかどうかを決定する。具体的には、無音検出器14は、各平均電力値(P)を基準しきい値PSILと比較する。PSILは、設計上の選択に従って設定することができる。P<PSILの場合は、対応するサイクルを無音区間として識別し、P≧PSILの場合は、対応するサイクルを無音区間でない(即ち認識可能な音を含む)として識別する。P<PSILの状況では、無音冗長度検出器15を幾つかのモードで利用して、無音区間の持続時間を計算し、本発明の原理に従って無音区間を伸張または圧縮することができる。次に、この動作に関する詳細について述べる。
図3を参照すると、例示的なオーディオ信号の波形40の概略図が示されている。図3の波形40は、図1のオーディオ速度変換器10への入力オーディオ信号の一例である。図3では、オーディオ信号波形40は、異なる3つのタイプの区間を示している。即ち、無音区間、擬似有音区間(quasi−sound interval)、および有音区間である。無音区間は、主に背景雑音を含み、振幅が非常に小さく、平均電力が低く一定である。図1のオーディオ速度変換器10が高速モードのとき、無音冗長度検出器15は、無音区間の一部を削除することによって無音区間を圧縮することができる。例えば、図3では、無音区間TSILが長い場合、TSIL−TTHに等しい区間を削除することができる。図3のしきい値時間TTHは、無音区間の圧縮が行えるようになる前に経過しなければならない遅延時間である。こうすることにより、オーディオ信号によって表される音(例えば発話)を聞き手がより理解し易くすることができる。
さらに、図1のオーディオ速度変換器10が低速モードのとき、無音冗長度検出器15は、TSIL―REF−TSILに等しい所定の時間区間だけ無音区間を伸張することができる。パラメータTSIL―REFは、無音区間の最大伸張時間を制限する。さらに、このパラメータは、元々長かった無音区間の伸張が、元々より短かった区間の伸張よりも少なくなるようにする。このようにすることにより、早口で話される言葉を聞き手がよりよく理解することができる。TSIL―REF−TSILの結果が負になるほど十分に無音区間が長い場合は、すでに長い無音区間を伸張することは通常は必要ないので、伸張を行わなくてもよい。
図3の波形40で示すように、擬似有音区間は、無音区間よりも大きい振幅を呈し、通常は本質的にランダムであり頻繁に変動する。これらの頻繁な変動により、擬似有音区間は、相対的に低度の周期性(即ち、冗長度)を呈する傾向がある。有音区間は、3つのタイプの区間のうちで最も大きい振幅を呈し、周期的な構造を有する。この周期性により、有音区間は、ある程度の冗長度を示す。擬似有音区間と有音区間は両方とも、音声情報を表す場合がある。
図4を参照すると、例示的なオーディオ信号の有音区間の周期性を示す波形50の概略図が示されている。具体的には、図4の波形50は、4つのピッチ期間T1〜T4を示す。図4に示すように、ピッチ期間は、オーディオ信号の有音区間中の周期性(即ち、冗長度)によって定義される。有音区間中のこの冗長度を用いて、オーディオ速度を上げることができる。例えば、図4で、第2のピッチ期間T2および第3のピッチ期間T3を波形50から削除することにより、オーディオ速度を上げることができる。逆に、第2のピッチ期間T2および第3のピッチ期間T3を波形50中で反復すると、オーディオ速度が下がる。
再び図1を参照すると、無音検出器14が所定のサイクルについてP≧PSILであると決定したとき、このサイクルは、次の処理に向けて音声検出器およびピッチ期間検出器16に転送される。具体的には、音声検出器およびピッチ期間検出器16は、図3の波形40に示したような有音区間を検出し、さらに、図4の波形50に示したようなピッチ期間の開始を検出する。次に、この動作に関する詳細について述べる。
図5を参照すると、本発明の原理による、有音区間およびピッチ期間の検出の例を示す一連の波形が示されている。図5で、波形60は、ピッチ期間T1〜T4を有する例示的な入力オーディオ信号を示す。各ピッチ期間は、1つまたは複数のサイクルを含む。例えば、図5で、ピッチ期間T1は、サイクルCy2、Cy3、Cy4を含む。ピッチ期間T2は、サイクルCy5、Cy6、Cy7を含む。ピッチ期間T3は、サイクルCy8、Cy9、Cy10を含む。ピッチ期間T4は、サイクルCy11、Cy12、Cy13を含む。ピッチ期間T1〜T4に含まれるサイクルの数を、それぞれ値N1〜N4で表す。波形61は、異なるサイクルに対応する平均振幅値を示す。具体的には、サイクルCy1〜Cy13は、それぞれ平均電力値P1〜P13を有する。図5の平均電力値P1〜P13はすべて、点線で示す無音しきい値PSILよりも大きいことに注目されたい。
波形60で示すように、サイクルCy2、Cy5、Cy8、Cy11はそれぞれ、図1の音声検出器およびピッチ期間検出器16によって検出される所定のピッチ期間の開始を表す。この検出は、平均電力値を介して可能とすることができる。即ち、サイクルCy2、Cy5、Cy8、Cy11に対応する平均電力値P2、P5、P8、P11は、他のサイクルの平均電力値よりも大きい。従って、電力(例えば、振幅)値は、ピッチ期間の開始を検出するための有用な基準である。音声信号など、ある種のオーディオ信号は、それらの電力値が時間と共に変化する点で動的なので、ピッチ期間の検出に使用される基準レベル(即ち、値)もまた、時間と共に変化して入力オーディオ信号の変化に追従すべきである。従って、本発明は、あるサイクルに対する基準値が前のサイクルの平均電力値に従って決まるようなピッチ期間を検出するために基準値を使用する。好ましい一実施形態によれば、所定のサイクルに対する基準値は、直前のサイクルの平均電力値に1〜2の間の定数を掛けた値に等しく設定される。従って、例えば、定数を1.5とすると、電力値P2は、電力値P1の1.5倍と比較される。同様に、電力値P3は、電力値P2の1.5倍と比較され、以下同様である。このようにして、ピッチ期間の検出に使用される基準値はサイクル毎に変動し、音声信号などのオーディオ信号の動的変化を正確に追従する。従って、本発明の原理によると、あるサイクルの平均振幅値がその基準値以上である場合、このサイクルは、音声検出器およびピッチ期間検出器16により、ピッチ期間の開始として識別され、ロジック(logic:論理)・ハイ(high:高)信号が出力に向けて生成される。音声検出器およびピッチ期間検出器16のこの出力信号を、図5の波形62によって示す。この出力信号の立上がりを用いて、ピッチ期間の開始を示すためのメモリ・アドレス・ポインタを設定することができる。
検出されるピッチ期間は、2つのパラメータによって特徴付けることができる。即ち、その持続時間T、およびそのサイクル総数Nである。これらのパラメータを比較することにより、連続する2つのピッチ波形の類似性を決定することができる。図1で、ピッチ冗長度検出器17は、連続する2つのピッチ期間(例えば図5のT1とT2)の持続時間の差を計算し、結果を基準値ΔTREFと比較する。次いで、ピッチ冗長度検出器17は、連続する2つのピッチ期間のサイクル数(例えば図5のN1とN2)の差を計算し、結果を別の基準値ΔNREFと比較する。好ましい一実施形態によれば、2つの条件|T2−T1|≦ΔTREFおよび|N2−N1|≦ΔNREFが満たされる場合、対応する2つのピッチ期間は同一と見做される。図3に示したような擬似有音区間で2つの同一ピッチ期間を識別する可能性は、相対的に低い。しかし、図3に示したような有音区間で2つの同一ピッチ期間を識別する可能性は、より高い。図1のオーディオ速度変換器10が高速動作モードにあるときは、2つの同一期間のうちの第2の期間がオーディオ信号から削除される。こうすることにより、信号冗長度が減少し、オーディオ速度が上がる。逆に、図1のオーディオ速度変換器10が低速動作モードにあるときは、2つの同一期間のうちの第2の期間がオーディオ信号中で反復される。こうすることにより、信号冗長度が増大し、オーディオ速度が下がる。
図6を参照すると、本発明の原理による、オーディオ信号の圧縮および伸張の例を示す一連の波形が示されている。図6で、波形70は、信号の圧縮または伸張が行われていない状況を示す。従って、持続時間T1〜T4をそれぞれ有する4つのピッチ期間が1つのオーディオ信号に含まれている。波形71は、信号圧縮が行われている状況を示す。具体的には、持続時間T1およびT3を有するピッチ期間だけがオーディオ信号に含まれ、それによって信号冗長度が減少している。波形71は、図1のオーディオ速度変換器10が高速動作モードのときに得ることができる。波形72は、信号伸張が行われている状況を示す。具体的には、持続時間T2を有するピッチ期間がオーディオ信号中で反復され、それによって信号冗長度が増大している。波形72は、図1のオーディオ速度変換器10が低速動作モードのときに得ることができる。オーディオ速度変換器10が待機動作モードにあるときは、入力オーディオ信号は、いかなる速度変化もなく単にオーディオ速度変換器10の中をループされるだけである。オーディオ速度変換器10が高速または低速の動作モードにあるとき、削除または反復されるサイクルの数は、制御回路10によって制御される。従って、制御回路18は、ある瞬間のオーディオ速度を計算し、その結果を、内部バッファ・メモリ19、外部記憶デバイス20、および/または外部デバイス21など、他のデバイスに供給することができる。
本発明に関するその他の幾つかの特性も確認されている。例えば、オーディオ速度変換器10が、高速動作モードにあるときは、元の速度の2倍を最高とする速度で、最良の結果が得られる。速度がこれよりも速い場合、発話などの音声は聞き手にとってより理解しにくくなる。しかし、オーディオ情報を完全に理解する必要のないビデオ・テープ・レコーダ(VTR)の早送り機能などの用途では、より速い速度を用いることができる。このような場合、基準パラメータTTH、TSIL−REF、PSIL、ΔTREF、ΔNREFの値を増加させる必要のある場合がある。オーディオ速度変換器10が、低速動作モードにあるときは、元の速度の半分よりも遅くはならない速度で、最良の結果が得られる。本発明は音声信号を処理するのに特に適するが、本発明の原理はまた、音声データに加えて音楽データを含む場合や、音楽データのみを含む場合など、オーディオ信号一般を処理するのに適用することもできる。
前述のように、本発明は、従来のオーディオ速度変換デバイスに勝る幾つかの利点を与える。本発明の例示的な特徴は、以下の通りである。
(1)オーディオ信号の一部の削除または挿入が常にゼロ交差点で行われるため、「カチッ」という雑音がなくなる。
(2)削除ポイントまたは挿入ポイントで乗算の必要がないので、単純且つ高速な信号処理が可能になる。
(3)入力される音声信号が可変長のサイクル/フレームに分割され、各サイクル/フレームは、入力オーディオ信号の周波数に応じた可変数の信号サンプルに等しい。
(4)オーディオ信号の一部の消去(即ち削除)または挿入(即ち反復)は、連続する2つの期間が同一であることがわかった場合にのみ行われる。
(5)無音区間の部分だけが削除される。無音区間の伸張は、その持続時間に反比例する。
(6)信号処理には、時間制限も速度制限も課されない。このことにより、品質のよいオーディオ再生が行われる。従来のオーディオ速度変換器は、バッファ・メモリのオーバーフローまたはアンダーフローに従ってオーディオ信号のセクションを消去または反復することが多い。これらはまた、守るべき時間制限および速度制限を有することが多い。この結果、しばしばオーディオ信号の完全なセクションが失われる。
(7)得られる出力信号は、瞬間的な速度とは関係なく、元のオーディオ信号の部分だけを含む。合成によって生じる部分が含まれることはない。
(8)得られるオーディオ速度は、一定ではない。速度変化のレートは、パラメータTTH、TSIL−REF、PSIL、ΔTREF、ΔNREFおよび入力信号によって決まる。高速モードでは、無音区間および同一区間をより多く含む入力信号の方が、それと同じ持続時間だが反対の特徴を有する入力信号よりも高速な出力信号になる。低速モードでは、オーディオ速度変換器は、短い無音区間を長い無音区間よりも多く伸張するようにして進行する。
好ましい設計を有するものとして本発明を述べたが、本発明は、本開示の趣旨および範囲の内でさらに変更することができる。従って、本出願は、本発明の一般原理を用いた本発明の任意の変形、用法、適合もカバーするものとする。さらに本出願は、本発明が関する技術分野における周知のまたは慣例の実施に含まれ、且つ特許請求の範囲内に含まれる、本開示からの逸脱もカバーするものとする。
本発明の原理に従って構成されるオーディオ速度変換器のブロック図である。 本発明の原理による、例示的な入力オーディオ信号の単一の単位サイクルの図である。 本発明の原理による、例示的なオーディオ信号を示す波形の図である。 本発明の原理による、例示的なオーディオ信号の有音区間の周期性を示す波形の図である。 本発明の原理による、有音区間およびピッチ期間を検出する例を示す一連の波形の図である。 本発明の原理による、オーディオ信号の圧縮および伸張の例を示す一連の波形の図である。

Claims (14)

  1. オーディオ信号を処理するシステムであって、
    前記オーディオ信号を受け取って、前記受け取ったオーディオ信号を1つまたは複数の個別単位サイクルに分割する手段と、
    前記受け取ったオーディオ信号において1つまたは複数のピッチ期間を検出する手段であって、前記1つまたは複数のピッチ期間の各々は、前記個別単位サイクルのうちの1つまたは複数を含む手段と、
    前記個別単位サイクルのうちの1つまたは複数の個別単位サイクルを反復または削除することによって聞き手に対するオーディオ速度変換動作を可能にする手段であって、反復または削除される前記個別単位サイクルは、前記検出する手段によって冗長であると決定された個別単位サイクルである、手段と、
    前記1つまたは複数の個別単位サイクルそれぞれについて平均電力値を生成する手段と、
    を具え、
    前記検出する手段が、前記受け取ったオーディオ信号において、前記1つまたは複数の個別単位サイクルそれぞれについての前記平均電力値に従って、前記1つまたは複数のピッチ期間を検出する、前記システム。
  2. 前記分割する手段が、前記受け取ったオーディオ信号を基準値に従って前記1つまたは複数の個別単位サイクルに分割し、それにより個別単位サイクルが、前記基準値以上である前記受け取ったオーディオ信号の最初のサンプルで始まり、前記基準値未満である前記受け取ったオーディオ信号の最後のサンプルで終わる、請求項1に記載のシステム。
  3. 前記個別単位サイクルのうちの1つまたは複数の個別単位サイクルを反復することによってオーディオ速度が下がる、請求項1に記載のシステム。
  4. 前記個別単位サイクルのうちの1つまたは複数の個別単位サイクルを削除することによってオーディオ速度が上がる、請求項1に記載のシステム。
  5. 前記受け取ったオーディオ信号が、ディジタル音声信号である、請求項1に記載のシステム。
  6. 前記1つまたは複数の個別単位サイクルそれぞれについての前記平均電力値に従って、前記1つまたは複数の個別単位サイクルそれぞれが無音区間に該当するかどうかを決定する手段をさらに具える、請求項1に記載のシステム。
  7. 前記生成する手段が、前記1つまたは複数の個別単位サイクルそれぞれについての平均振幅値に従って、前記1つまたは複数の個別単位サイクルそれぞれについての前記平均電力値を生成する、請求項1に記載のシステム。
  8. オーディオ信号を受け取って、前記受け取ったオーディオ信号を1つまたは複数の個別単位サイクルに分割する信号検出器と、
    前記受け取ったオーディオ信号において1つまたは複数のピッチ期間を検出するピッチ期間検出器であって1つまたは複数の前記ピッチ期間の各々が前記個別単位サイクルのうちの1つまたは複数を含むピッチ期間検出器と、
    前記個別単位サイクルのうちの1つまたは複数の個別単位サイクルを反復または削除することによって聞き手に対するオーディオ速度変換動作を可能にする回路であって、反復または削除される前記個別単位サイクルは、前記ピッチ期間検出器によって冗長であると決定された個別単位サイクルである、回路と、
    前記1つまたは複数の個別単位サイクルそれぞれについて平均電力値を生成する平均電力値生成器と、
    を具え、
    前記ピッチ期間検出器が、前記受け取ったオーディオ信号において、前記1つまたは複数の個別単位サイクルそれぞれについての前記平均電力値に従って、前記1つまたは複数のピッチ期間を検出する、オーディオ速度変換システム。
  9. 前記信号検出器が、前記受け取ったオーディオ信号を基準値に従って前記1つまたは複数の個別単位サイクルに分割し、それにより個別単位サイクルが、前記基準値以上である前記受け取ったオーディオ信号の最初のサンプルで始まり、前記基準値未満である前記受け取ったオーディオ信号の最後のサンプルで終わる、請求項8に記載のオーディオ速度変換システム。
  10. 前記個別単位サイクルのうちの1つまたは複数の個別単位サイクルを反復することによってオーディオ速度が下がる、請求項8に記載のオーディオ速度変換システム。
  11. 前記個別単位サイクルのうちの1つまたは複数の個別単位サイクルを削除することによってオーディオ速度が上がる、請求項8に記載のオーディオ速度変換システム。
  12. 前記受け取ったオーディオ信号がディジタル音声信号である、請求項8に記載のオーディオ速度変換システム。
  13. 前記1つまたは複数の個別単位サイクルそれぞれについての前記平均電力値に従って、前記1つまたは複数の個別単位サイクルそれぞれが無音区間に該当するかどうかを決定する無音検出器をさらに具える、請求項8に記載のオーディオ速度変換システム。
  14. 前記平均電力値生成器が、前記1つまたは複数の個別単位サイクルそれぞれについての平均振幅値に従って、前記1つまたは複数の個別単位サイクルそれぞれについての前記平均電力値を生成する、請求項8に記載のオーディオ速度変換システム。
JP2002518457A 2000-08-09 2001-06-29 オーディオ速度変換を可能にするシステムおよび方法 Expired - Fee Related JP5367932B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22411500P 2000-08-09 2000-08-09
US60/224,115 2000-08-09
PCT/IB2001/001161 WO2002013185A1 (en) 2000-08-09 2001-06-29 Method and system for enabling audio speed conversion

Publications (3)

Publication Number Publication Date
JP2004506243A JP2004506243A (ja) 2004-02-26
JP2004506243A5 JP2004506243A5 (ja) 2008-07-24
JP5367932B2 true JP5367932B2 (ja) 2013-12-11

Family

ID=22839331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002518457A Expired - Fee Related JP5367932B2 (ja) 2000-08-09 2001-06-29 オーディオ速度変換を可能にするシステムおよび方法

Country Status (9)

Country Link
US (2) US7363232B2 (ja)
EP (1) EP1309965B1 (ja)
JP (1) JP5367932B2 (ja)
KR (1) KR100806155B1 (ja)
CN (1) CN1211781C (ja)
AU (1) AU2001267764A1 (ja)
DE (1) DE60143662D1 (ja)
MX (1) MXPA03001198A (ja)
WO (1) WO2002013185A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
GB0228245D0 (en) 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
JP4675692B2 (ja) * 2005-06-22 2011-04-27 富士通株式会社 話速変換装置
JP2007235221A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 揺らぎ吸収バッファ装置
WO2008054471A2 (en) * 2006-03-09 2008-05-08 The Board Of Trustees Of The Leland Stanford Junior University Monolayer-protected gold clusters: improved synthesis and bioconjugation
JP2007304515A (ja) * 2006-05-15 2007-11-22 Sony Corp オーディオ信号伸張圧縮方法及び装置
JP4940888B2 (ja) * 2006-10-23 2012-05-30 ソニー株式会社 オーディオ信号伸張圧縮装置及び方法
JP5093648B2 (ja) * 2007-05-07 2012-12-12 国立大学法人電気通信大学 再生装置
US7852882B2 (en) * 2008-01-24 2010-12-14 Broadcom Corporation Jitter buffer adaptation based on audio content
CN101615397B (zh) * 2008-06-24 2013-04-24 瑞昱半导体股份有限公司 音频信号处理方法
US8484018B2 (en) * 2009-08-21 2013-07-09 Casio Computer Co., Ltd Data converting apparatus and method that divides input data into plural frames and partially overlaps the divided frames to produce output data
JP2016119588A (ja) * 2014-12-22 2016-06-30 アイシン・エィ・ダブリュ株式会社 音声情報修正システム、音声情報修正方法、及び音声情報修正プログラム
CN105957543B (zh) * 2016-04-26 2020-04-28 广东小天才科技有限公司 一种音频播放速率调整方法及系统
CN106504593A (zh) * 2016-11-16 2017-03-15 马珂 四维影像快速记忆装置
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3786195A (en) * 1971-08-13 1974-01-15 Dc Dt Liquidating Partnership Variable delay line signal processor for sound reproduction
FR2485839B1 (fr) * 1980-06-27 1985-09-06 Cit Alcatel Procede de detection de parole dans un signal de circuit telephonique et detecteur de parole le mettant en oeuvre
US4631746A (en) * 1983-02-14 1986-12-23 Wang Laboratories, Inc. Compression and expansion of digitized voice signals
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
JP3179468B2 (ja) * 1990-07-25 2001-06-25 ソニー株式会社 カラオケ装置及びカラオケ装置における歌い手の歌唱の補正方法
US5717818A (en) * 1992-08-18 1998-02-10 Hitachi, Ltd. Audio signal storing apparatus having a function for converting speech speed
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5583652A (en) * 1994-04-28 1996-12-10 International Business Machines Corporation Synchronized, variable-speed playback of digitally recorded audio and video
US5920842A (en) * 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
JP3257379B2 (ja) * 1995-12-08 2002-02-18 ヤマハ株式会社 話速変換機能付補聴器
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US5749064A (en) * 1996-03-01 1998-05-05 Texas Instruments Incorporated Method and system for time scale modification utilizing feature vectors about zero crossing points
JP3439307B2 (ja) * 1996-09-17 2003-08-25 Necエレクトロニクス株式会社 発声速度変換装置
US6049766A (en) * 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
JPH10187188A (ja) * 1996-12-27 1998-07-14 Shinano Kenshi Co Ltd 音声再生方法と音声再生装置
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
EP0944036A4 (en) * 1997-04-30 2000-02-23 Japan Broadcasting Corp METHOD AND DEVICE FOR DETECTING LANGUAGE AREAS, AND METHOD AND DEVICE FOR LANGUAGE SPEED CONVERSION
US6009386A (en) * 1997-11-28 1999-12-28 Nortel Networks Corporation Speech playback speed change using wavelet coding, preferably sub-band coding
JP4098420B2 (ja) * 1998-11-04 2008-06-11 富士通株式会社 音響データ・動画データの同期再構築方法及び装置
US7010491B1 (en) * 1999-12-09 2006-03-07 Roland Corporation Method and system for waveform compression and expansion with time axis
WO2002023523A2 (en) * 2000-09-15 2002-03-21 Lernout & Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech

Also Published As

Publication number Publication date
WO2002013185A1 (en) 2002-02-14
US20080262856A1 (en) 2008-10-23
EP1309965B1 (en) 2010-12-15
DE60143662D1 (de) 2011-01-27
EP1309965A1 (en) 2003-05-14
KR20030018072A (ko) 2003-03-04
JP2004506243A (ja) 2004-02-26
US20040015345A1 (en) 2004-01-22
MXPA03001198A (es) 2003-06-30
AU2001267764A1 (en) 2002-02-18
US7363232B2 (en) 2008-04-22
CN1211781C (zh) 2005-07-20
CN1446349A (zh) 2003-10-01
KR100806155B1 (ko) 2008-02-22

Similar Documents

Publication Publication Date Title
US20080262856A1 (en) Method and system for enabling audio speed conversion
US5611018A (en) System for controlling voice speed of an input signal
JPH10187188A (ja) 音声再生方法と音声再生装置
JP6071944B2 (ja) 話者速度変換システムおよびその方法ならびに速度変換装置
JP3378672B2 (ja) 話速変換装置
US20070192089A1 (en) Apparatus and method for reproducing audio data
JP3162945B2 (ja) ビデオテープレコーダ
JP3373933B2 (ja) 話速変換装置
JP2009229921A (ja) 音響信号分析装置
JP3357742B2 (ja) 話速変換装置
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP2004506241A (ja) オーディオ速度変換を可能にするシステムおよび方法
JP3081469B2 (ja) 話速変換装置
JPH09152889A (ja) 話速変換装置
JP2002258900A (ja) 音声再生装置及び音声再生方法
WO1997009713A1 (fr) Procede de traitement de signal audio en vue d'une reproduction fidele et a vitesse variable
JP4437703B2 (ja) 話速変換方法および装置
JPS6253093B2 (ja)
JPH05303400A (ja) 音声再生装置と音声再生方法
JPH09146587A (ja) 話速変換装置
JPH10214098A (ja) 音声変換玩具
JP5407745B2 (ja) オーディオ再生装置
JPH08137492A (ja) 音声時間軸変換装置
KR20030000400A (ko) 음성 재생속도 실시간 변환 방법 및 장치
JPS5821799A (ja) 音声再生装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060810

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20060926

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061115

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20080318

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080609

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090206

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090206

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110610

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20110630

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110630

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110909

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120814

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20120815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120815

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120905

RD15 Notification of revocation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7435

Effective date: 20121003

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20121122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130304

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130912

R150 Certificate of patent or registration of utility model

Ref document number: 5367932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees