JP4940888B2 - オーディオ信号伸張圧縮装置及び方法 - Google Patents

オーディオ信号伸張圧縮装置及び方法 Download PDF

Info

Publication number
JP4940888B2
JP4940888B2 JP2006287905A JP2006287905A JP4940888B2 JP 4940888 B2 JP4940888 B2 JP 4940888B2 JP 2006287905 A JP2006287905 A JP 2006287905A JP 2006287905 A JP2006287905 A JP 2006287905A JP 4940888 B2 JP4940888 B2 JP 4940888B2
Authority
JP
Japan
Prior art keywords
signal
section
channel
waveform
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006287905A
Other languages
English (en)
Other versions
JP2008107413A (ja
Inventor
理 中村
素嗣 安部
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006287905A priority Critical patent/JP4940888B2/ja
Priority to TW096137318A priority patent/TWI354267B/zh
Priority to KR1020070103482A priority patent/KR101440513B1/ko
Priority to US11/875,346 priority patent/US8635077B2/en
Priority to EP07254175.8A priority patent/EP1919258B1/en
Priority to CN2007101656639A priority patent/CN101169935B/zh
Publication of JP2008107413A publication Critical patent/JP2008107413A/ja
Application granted granted Critical
Publication of JP4940888B2 publication Critical patent/JP4940888B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/615Waveform editing, i.e. setting or modifying parameters for waveform synthesis.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

本発明は、音楽等の再生速度を変化させるためのオーディオ信号伸張圧縮装置及び方法に関するものである。
デジタル音声信号に対する時間領域での伸張圧縮アルゴリズムとしてPICOLA(Pointer Interval Control OverLap and Add)が知られている(非特許文献1参照。)。このアルゴリズムは、処理が単純かつ軽量でありながら、音声信号に対して良好な音質が得られるという利点がある。以下、図を用いて、このPICOLAについて簡単に説明する。以下では、音楽等音声以外の信号を音響信号、音声信号と音響信号を合わせてオーディオ信号と呼ぶことにする。
図22は、PICOLAを用いて原波形を伸張する例を示す模式図である。まず、原波形(a)から、波形がよく似ている区間Aと区間Bを見つける。区間Aと区間Bのサンプル数は同じである。続いて、区間Bでフェードアウトする波形(b)を作る。同様に、区間Aからフェードインする波形(c)を作り、波形(b)と波形(c)を足し合わせると、伸張波形(d)が得られる。このように、フェードアウトする波形とフェードインする波形を足し合わせることをクロスフェードと呼ぶ。区間Aと区間Bのクロスフェード区間を区間AxBと表すこととすると、以上の操作を行なうことにより、原波形(a)の区間Aと区間Bは、伸張波形(d)の区間Aと区間AxBと区間Bに変更される。
図23は、類似波形である区間Aと区間Bの区間長Wを検出する方法を示す模式図である。まず処理開始位置P0を起点として、jサンプルの区間Aと区間Bを図23(a)のように定める。図23(a)→(b)→(c)のように少しずつjを伸ばしながら区間Aと区間Bが最も類似するjを求める。類似度を測る尺度として、例えば、次の関数D(j)を使うことができる。
Figure 0004940888
WMIN≦j≦WMAXの範囲で計算し、D(j)が最も小さな値となるjを求める。このときのjが、区間Aと区間Bの区間長Wである。ここで、x(i)は区間Aの各サンプル値を示し、y(i)は区間Bの各サンプル値を示す。又、WMAX及びWMINは、例えば50Hz〜250Hz程度の値であり、サンプリング周波数が8kHzであれば、WMAX=160、WMIN=32程度である。図23の例では、(b)におけるjが関数D(j)を最も小さくするjとして選ばれる。
類似波形の区間長Wを求める際に、上記関数D(j)を利用することは重要である。この関数は最も似ている区間を探すだけであり、クロスフェード区間を決定するための前処理に特化したものと言える。つまり、ホワイトノイズのようにピッチを持たない波形であっても適用可能である。
図24は、任意の長さに波形を伸張する方法を示す模式図である。まず、図23で示したように処理開始位置P0を起点として関数D(j)が最小となるjを求め、W=jとおく。続いて、区間2401を区間2403にコピーし、区間2401と区間2402のクロスフェード波形を区間2404に作成する。そして、原波形(a)の位置P0から位置P0’までの区間から区間2401を除いた残りの区間を伸張波形(b)にコピーする。以上の操作により、原波形(a)の位置P0から位置P0’までのLサンプルが伸張波形(b)ではW+Lサンプルとなり、サンプル数はr倍となる。
Figure 0004940888
この(2)式をLについて書き換えると、(3)式となる。原波形(a)のサンプル数をr倍したい場合は、(4)式のように位置P0’を定めれば良い。
Figure 0004940888
更に、1/rを(5)式のように置くと、(6)式となる。
Figure 0004940888
このようにRを使うことにより、原波形(a)を「R倍速再生する」といった表現をすることができる。以下ではこのRを話速変換率と呼ぶこととする。原波形(a)の位置P0から位置P0’の処理が終了したら、位置P0’を位置P1とし、改めて処理の起点と見なして同様の処理を繰り返す。なお、図24の例は、サンプル数Lがおおよそ2.5Wであるので、約0.7倍速再生の遅聴に相当する。
続いて、原波形の圧縮について説明する。図25は、PICOLAを用いて原波形を圧縮する例を示す模式図である。まず、原波形(a)から、波形がよく似ている区間Aと区間Bを見つける。区間Aと区間Bのサンプル数は同じである。続いて、区間Aでフェードアウトする波形(b)を作る。同様に、区間Bからフェードインする波形(c)を作り、波形(b)と波形(c)を足し合わせると、圧縮波形(d)が得られる。以上の操作を行なうことにより、原波形(a)の区間Aと区間Bは、圧縮波形(d)の区間AxBに変更される。
図26は、任意の長さに波形を圧縮する方法を示す模式図である。まず、図23で示したように処理開始位置P0を起点として関数D(j)が最小となるjを求め、W=jとおく。続いて、区間2601と区間2602のクロスフェード波形を区間2603に作成する。そして、原波形(a)の位置P0から位置P0’までの区間から区間2601と区間2602を除いた残りの区間を圧縮波形(b)にコピーする。以上の操作により、原波形(a)の位置P0から位置P0’までのW+Lサンプルが圧縮波形(b)ではLサンプルとなり、サンプル数はr倍となる。
Figure 0004940888
この(7)式をLについて書き換えると、(8)式となる。原波形(a)のサンプル数をr倍する場合は、(9)式のように位置P0’を定めれば良い。
Figure 0004940888
更に、1/rを(10)式のように置くと、(11)式となる。
Figure 0004940888
このようにRを使うことにより、原波形(a)を「R倍速再生する」といった表現をすることができる。原波形(a)の位置P0から位置P0’の処理が終了したら、位置P0’を位置P1とし、改めて処理の起点と見なして同様の処理を繰り返す。なお、図26の例は、サンプル数Lがおおよそ1.5Wであるので、約1.7倍速再生の速聴に相当する。
図27は、PICOLAの波形伸張の処理の流れを示すフローチャートである。ステップS1001では、入力バッファに処理すべきオーディオ信号があるか否か調べ、オーディオ信号がない場合は処理を終了する。処理すべきオーディオ信号がある場合は、ステップS1002に進み、処理開始位置Pを起点として関数D(j)が最小になるjを求め、W=jとおく。ステップS1003では、ユーザが指定した話速変換率RからLを求め、ステップS1004では、処理開始位置PからWサンプル分の区間Aを出力バッファに出力する。ステップS1005では、処理開始位置PからWサンプル分の区間Aと次のWサンプル分の区間Bのクロスフェードを求め、区間Cとし、ステップS1006において、この区間Cを出力バッファに出力する。ステップS1007では、入力バッファの位置P+WからL−Wサンプル分を出力バッファに出力(コピー)する。S1008では、処理開始位置PをP+Lに移動してから、ステップS1001に戻り処理を繰り返す。
図28は、PICOLAの波形圧縮の処理の流れを示すフローチャートである。ステップS1101では、入力バッファに処理すべきオーディオ信号があるか否か調べ、オーディオ信号がない場合は処理を終了する。処理すべきオーディオ信号がある場合は、ステップS1102に進み、処理開始位置Pを起点として関数D(j)が最小になるjを求め、W=jとおく。ステップS1103では、ユーザが指定した話速変換率RからLを求める。ステップS1104では、処理開始位置PからWサンプル分の区間Aと次のWサンプル分の区間Bのクロスフェードを求め、区間Cとし、ステップS1105において、この区間Cを出力バッファに出力する。ステップS1106では、入力バッファの位置P+2WからL−Wサンプル分を出力バッファに出力(コピー)する。ステップS1107では、処理開始位置PをP+(W+L)に移動してから、ステップS1101に戻り処理を繰り返す。
図29は、PICOLAによる話速変換装置100の構成の一例である。処理すべき入力オーディオ信号は、まず入力バッファ101にバッファリングされる。この入力バッファ101のオーディオ信号に対して、類似波形長検出部102が、関数D(j)を最小にするjを求めて、W=jとおく。類似波形長検出部102で求まった類似波形長Wは、入力バッファ101に渡され、バッファ操作に利用される。入力バッファ101は、オーディオ信号の2Wサンプルを接続波形生成部103に渡す。接続波形生成部103は受け取った2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。話速変換率Rに合わせて入力バッファ101及び接続波形生成部103は、出力バッファ104にオーディオ信号を送る。出力バッファ104で生成されたオーディオ信号は、出力オーディオ信号として、話速変換装置100から出力される。
図30は、図29の構成例における類似波形長検出部102の処理の流れを示すフローチャートである。ステップS1201では、インデックスjに初期値WMINをセットする。ステップS1202では、図31に示すサブルーチンを実行する。サブルーチンは、例えば、次に示す関数D(j)を計算する。
Figure 0004940888
ここで、fは、入力オーディオ信号であり、例えば、図23の例であれば、位置P0を起点としたサンプルを指す。(1)式及び(12)式は同じことを表現している。以下では(12)式の形式を用いる。ステップS1203では、サブルーチンで求まった関数D(j)の値を変数minに代入し、インデックスjをWに代入する。ステップS1204では、インデックスjを1増加させる。ステップS1205では、インデックスjがWMAX以下か否か調べ、WMAX以下の場合はステップS1206に進み、WMAXより大きい場合は処理を終了する。処理を終了したときに変数Wに格納されていた値が、関数D(j)を最小にするインデックスj、つまり、類似波形長であり、そのときの変数minの値は関数D(j)の最小値である。ステップS1206では、図31に示すサブルーチンにて、新たなインデックスjに対して関数D(j)を求める。ステップS1207では、ステップS1206で求まった関数D(j)の値がmin以下か否か調べ、min以下の場合は、ステップS1208に進み、minより大きい場合は、ステップS1204に戻る。ステップS1208では、関数D(j)の値を変数minに代入し、インデックスjをWに代入する。
図31に示すサブルーチンの処理の流れは、次の通りである。ステップS1301では、インデックスiと変数sを0にリセットする。ステップS1302では、インデックスiがインデックスjより小さいか否か調べ、インデックスiがインデックスjより小さい場合は、ステップS1303に進み、インデックスiがインデックスj以上の場合は、ステップS1305に進む。ステップS1303では、入力オーディオ信号の差の自乗を求めて変数sに加算する。ステップS1304では、インデックスiを1増加させ、ステップS1302に戻る。ステップS1305では、変数sをインデックスjで割った値を関数D(j)の値とし、サブルーチンを終了する。
以上がPICOLAを用いてモノラル信号を話速変換する場合の説明である。続いて、PICOLAを用いてステレオ信号を話速変換する場合の説明を行なう。
図32は、ステレオ信号に対してPICOLAを適用する場合の構成例である。以下では、左チャンネルをLチャンネル又は単にL、右チャンネルをRチャンネル又は単にRと示す。図32の構成例では、図29に示した構成例を、単に、LチャンネルとRチャンネルの両方に独立に行なっている。この構成例は分かり易い構成ではあるが、一般に用いられることはあまりない。その理由は、左右のチャンネルを独立に話速変換することにより、左右のチャンネルの同期が微妙にずれ、音の定位が定まらなくなるためである。音の定位が定まらない場合、非常に強い不快感をユーザに与えてしまう。
例えば、ステレオ信号を再生するために2本のスピーカーが左右に置かれている場合、通常は左右のスピーカーの中央付近から音が聞こえてくるように感じる。演奏家の意図により左右のスピーカーの間を音が動いているように感じることもあるが、大抵の場合、中央付近から音が聞こえてくるように作られている。しかしながら、僅かなずれであっても、話速変換によって左右のチャンネルの信号に時間的なずれが生じた場合、左右のスピーカーの中央付近に定まっているはずの音が、左右のスピーカーの間を不規則に移動するかのように聞こえてしまう。結果として、落ち着いて聞いていられない程度の不快感をユーザに与えてしまう。このため、ステレオ信号を話速変換する場合、左右のチャンネルの同期にずれを生じさせないことは極めて重要である。
図33は、ステレオ信号を話速変換しても、左右のチャンネルの同期がずれないように工夫された構成例である(例えば、特許文献1参照。)。処理すべき入力オーディオ信号は、まず、Lチャンネルが入力バッファ301に、Rチャンネルが入力バッファ305にバッファリングされる。これら入力バッファ301と入力バッファ305のオーディオ信号に対して、類似波形長検出部302が類似波形長Wを求める。具体的には、加算部309でLチャンネルの入力バッファ301のオーディオ信号とRチャンネルの入力バッファ305のオーディオ信号との各サンプル値の平均を取ることにより、ステレオ信号をモノラル信号に変換し、このモノラル信号に対して類似波形長Wを求める。つまり、関数D(j)を最小にするjを求めて、W=jとおく。求まった類似波形長Wは、モノラル信号に対する検出結果であるが、この類似波形長Wをステレオ信号の左右のチャンネル共通の類似波形長とみなす。類似波形長検出部302で求まった類似波形長Wは、Lチャンネルの入力バッファ301とRチャンネルの入力バッファ305に渡され、バッファ操作に利用される。
Lチャンネルの入力バッファ301は、Lチャンネルのオーディオ信号2Wサンプルを接続波形生成部303に渡し、Rチャンネルの入力バッファ305は、Rチャンネルのオーディオ信号の2Wサンプルを接続波形生成部307に渡す。
接続波形生成部303は、受け取ったLチャンネルの2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。接続波形生成部307は、受け取ったRチャンネルの2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。
Lチャンネルの入力バッファ301と接続波形生成部303は話速変換率Rに合わせて出力バッファ304にオーディオ信号を送る。また、Rチャンネルの入力バッファ305及び接続波形生成部307は、出力バッファ308に話速変換率Rに合わせてオーディオ信号を送る。出力バッファ304及び出力バッファ308で生成された左右各チャンネルのオーディオ信号は、出力オーディオ信号として、話速変換装置300から出力される。
図34は、類似波形長検出部302及び加算部309の処理の流れを示すフローチャートである。この図34は、図31に示す2つの波形の類似度を計る関数D(j)を計算する処理の流れに変更を加えたものである。ここで、fLはLチャンネルのサンプル値、fRはRチャンネルのサンプル値である。
図34に示すサブルーチンの処理の流れは、次の通りである。ステップS1401では、インデックスiと変数sを0にリセットする。ステップS1402では、インデックスiがインデックスjより小さいか否か調べ、インデックスiがインデックスjより小さい場合は、ステップS1403に進み、インデックスiがインデックスj以上の場合は、ステップS1405に進む。ステップS1403では、まず、ステレオ信号をモノラル信号に変換し、そのモノラル信号の差の自乗を求めて変数sに加算する。つまり、Lチャンネルのi番目のサンプル値とRチャンネルのi番目のサンプル値の平均値aを求め、同様に、Lチャンネルのi+j番目のサンプル値とRチャンネルのi+j番目のサンプル値の平均値bを求める。これらの平均値a及び平均値bは、ステレオ信号のi番目とi+j番目をモノラル信号に変換したものである。続いて、モノラル信号に変換された平均値aと平均値bとの差を取り、その自乗を変数sに加算する。ステップS1404では、インデックスiを1増加させ、ステップS1402に戻る。ステップS1405では、変数sをインデックスjで割った値を関数D(j)の値としてサブルーチンを終了する。
また、特許文献2には、図35に示すような別の構成例が示されている。図35に示す構成例は、左右のチャンネルの同期がずれないように工夫している点は、図33に示す構成と同じであるが、類似波形長を検出する際に利用する入力信号が異なる。図33に示す構成例が、左右のチャンネルの平均を取ることでステレオ信号をモノラル信号に変換しているのに対して、図35に示す構成例は、フレーム単位のエネルギーを左右のチャンネルごとに求め、エネルギーの大きい方のチャンネルを選ぶことでステレオ信号をモノラル信号に変換している。
図35に示す構成例に対し、処理すべき入力オーディオ信号は、まず、Lチャンネルが入力バッファ401に、Rチャンネルが入力バッファ405にバッファリングされる。これら入力バッファ401及び入力バッファ405のオーディオ信号に対して、チャンネル選択部409によりチャンネルを選択し、類似波形長検出部402により類似波形長Wを求める。具体的には、チャンネル選択部409は、Lチャンネルの入力バッファ401のオーディオ信号及びRチャンネルの入力バッファ405のオーディオ信号のフレーム単位のエネルギーを求め、そのエネルギーが大きい方のチャンネルを選択することにより、ステレオ信号をモノラル信号に変換する。このモノラル信号に対して類似波形長検出部402は、類似波形長Wを求める。つまり、関数D(j)を最小にするjを求めて、W=jとおく。求まった類似波形長Wは、エネルギーの大きい方のチャンネルだけに対する検出結果であるが、この類似波形長Wをステレオ信号の左右のチャンネル共通の類似波形長と見なす。類似波形長検出部402で求まった類似波形長Wは、Lチャンネルの入力バッファ401及びRチャンネルの入力バッファ405に渡され、バッファ操作に利用される。Lチャンネルの入力バッファ401は、Lチャンネルのオーディオ信号2Wサンプルを接続波形生成部403に渡し、Rチャンネルの入力バッファ405は、Rチャンネルのオーディオ信号2Wサンプルを接続波形生成部407に渡す。接続波形生成部403は、受け取ったLチャンネルの2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。
接続波形生成部407は、受け取ったRチャンネルの2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。
Lチャンネルの入力バッファ401及び接続波形生成部403は、話速変換率Rに合わせて出力バッファ404にオーディオ信号を送る。また、Rチャンネルの入力バッファ405及び接続波形生成部407は、出力バッファ408に話速変換率Rに合わせてオーディオ信号を送る。出力バッファ404及び出力バッファ408に生成された左右各チャンネルのオーディオ信号は、出力オーディオ信号として、話速変換装置400から出力される。
図35の構成例における類似波形長検出部402の処理の流れを示すフローチャートは、図30及び図31に示すものと同様である。但し、類似波形長検出部に入力される信号は、チャンネル選択部409で左右のチャンネルのうちエネルギーが大きい方として選択された信号である。
図22〜35を用いて説明したように、話速変換アルゴリズムPICOLAを用いることによって、任意の話速変換率R(0.5≦R<1.0,1.0<R≦2.0)でオーディオ信号を伸張圧縮することが可能であり、ステレオ信号に対しても左右の音の定位を崩さないように処理することが可能である。
森田,板倉,「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,日本音響学会論文集,昭和61年10月,pp.149−150 特開2001−255894号公報 特開2002−297200号公報
しかしながら、図33及び図35に示した構成例では、左右のチャンネルの同期がずれないように工夫しているものの、別の問題を生じる結果となる。まず、図33に示した構成例における方法では、各チャンネルに含まれる同一周波数の信号に大きな位相差があった場合に、モノラル信号に変換された際、その信号の強度が減衰するという問題があった。次に、図35に示した構成例における方法では、エネルギーの大きな方のチャンネルのみによって類似波形長の検出が行なわれるため、エネルギーの小さな方のチャンネルの情報が類似波形長検出に反映されないという問題があった。
ここで、図33の構成例における問題点について、図36〜38を用いて説明する。図36は、左右のチャンネルの信号が同一周波数であるステレオ信号をモノラル信号に変換する際、左右のチャンネルの信号の位相差の違いによってどのような変化が起こるかを示したものである。
波形3601と波形3602は、それぞれステレオ信号のLチャンネルとRチャンネルであり、2つの信号の位相差は0度である。これらLチャンネルとRチャンネルの各サンプル値の平均を求めることでモノラル信号に変換した波形が波形3603である。同様に、波形3604と波形3605は、それぞれステレオ信号のLチャンネルとRチャンネルであり、2つの信号の位相差は90度である。これらLチャンネルとRチャンネルの各サンプル値の平均を求めることでモノラル信号に変換した波形が波形3606である。この波形3606の振幅は、モノラル化前の波形3604と波形3605に振幅よりも小さくなってしまっている。更に、波形3607と波形3608は、それぞれステレオ信号のLチャンネルとRチャンネルであり、2つの信号の位相差は180度である。これらLチャンネルとRチャンネルの各サンプル値の平均を求めることでモノラル信号に変換した波形が波形3609である。この波形3609の振幅は、モノラル化前の波形3607と波形3608が完全に打ち消し合った結果0になってしまっている。このように、左右のチャンネルに位相差がある場合、モノラル信号に変換された信号の振幅は減衰したものになってしまう。
図37は、左右のチャンネルに同一周波数で180度の位相差がある信号を含むステレオ信号をモノラル信号に変換する際に起こる問題の例を示したものである。
Lチャンネルには、小振幅の波形3701と大振幅の波形3702が含まれている。Rチャンネルには、Lチャンネルに含まれる波形3702と同一周波数かつ同一振幅で位相差が180度ある波形3703が含まれている。このとき、LチャンネルとRチャンネルをモノラル信号に変換すると、Lチャンネルの波形3702とRチャンネルの波形3703が打ち消し合い、モノラル信号には、Lチャンネルに含まれていた波形3701だけが残る結果となってしまう。
例えば、このモノラル信号3704を利用して類似波形長検出を行ない、検出された類似波形長Wに基づいて図37に示す信号L(3701+3702)とR(3703)を2倍の長さに波形伸張を行なった場合、図38に示すような伸張波形L’(3801+3802)とR’(3803)になってしまう。つまり、区間A1と区間B1から区間A1xB1が生成され、区間A2と区間B2から区間A2xB2が生成され、区間A3と区間B3から区間A3xB3が生成される。モノラル信号3704から検出される類似波形長に従って波形伸張が行なわれた結果、もともと大きな振幅で含まれていたはずの波形3702や波形3703は、類似波形長検出に利用されない。そのため、波形3701は、波形3801のように伸張されるので問題ないものの、波形3702と波形3703は、波形3802と波形3803のように伸張されてしまい、図より明らかなように、伸張前と伸張後で著しく異なる波形になってしまっている。結果として、伸張音には、異音が発生してしまう。
特に、ステレオ信号によって録音された音楽等を再生した際に、音の広がりを感じることができるのは、左右のチャンネルの信号の振幅や位相の差に寄るところが大きい。このため、左右のチャンネルの入力信号に位相差が存在することは、極普通のことであり、上述の従来の方法では、伸張音や圧縮音に異音が発生することがあった。
本発明は、このような状況に鑑みてなされたものであり、ステレオ信号やマルチチャンネル信号においても音の定位を崩さず、かつ、高音質に再生速度を変化させることができるオーディオ信号伸張圧縮装置及びオーディオ信号伸張圧縮方法を提供することを目的とする。
上述した課題を解決するために、本発明は、複数チャンネルからなるオーディオ信号を類似波形を用いて時間領域で伸張圧縮するオーディオ信号伸張圧縮装置において、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度をチャンネル毎に算出し、同時刻における各チャンネルの第1の区間の信号と第2の区間の信号との類似度を加算して最も高い類似度を示す第1の区間及び第2の区間の類似波形長を算出する類似波形長検出手段を備え、上記類似波形長検出手段は、少なくとも1以上のチャンネルの第1の区間の信号と第2の区間の信号との相関係数が閾値以上となる類似波形長を算出することを特徴としている。
また、本発明は、複数チャンネルからなるオーディオ信号を類似波形を用いて時間領域で伸張圧縮するオーディオ信号伸張圧縮方法において、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度をチャンネル毎に算出し、同時刻における各チャンネルの第1の区間の信号と第2の区間の信号との類似度を加算して最も高い類似度を示す第1の区間及び第2の区間の類似波形長を算出する類似波形長検出工程を有し、上記類似波形長検出工程では、少なくとも1以上のチャンネルの第1の区間の信号と第2の区間の信号との相関係数が閾値以上となる類似波形長を算出することを特徴としている。
本発明によれば、複数チャンネルからなるオーディオ信号内の連続する2つの区間の波形の類似度をチャンネル毎に算出し、各チャンネルの類似度に基づいて2つの区間の類似波形長を検出するため、ステレオ信号やマルチチャンネル信号においても音の定位を崩さず、かつ、高音質に再生速度を変化させることができる。
以下、図を参照しながら本発明の具体的内容を説明する。本発明の具体例として示すオーディオ信号の伸張圧縮は、複数チャンネルからなるオーディオ信号内の連続する2つの区間の波形の類似度をチャンネル毎に算出し、各チャンネルの類似度に基づいて2つの区間の類似波形長を検出し、時間領域でオーディオ信号を伸張圧縮するものである。これにより、ステレオ信号を話速変換しても、左右のチャンネルの同期がずれず、かつ、左右のチャンネルに同一周波数で位相差がある信号が含まれていても、影響されることがない。
図1は、本発明の一実施形態におけるオーディオ信号の伸張圧縮装置の構成を示すブロック図である。オーディオ信号伸張圧縮装置10は、Lチャンネルの入力オーディオ信号をバッファリングする入力バッファL11と、Rチャンネルの入力オーディオ信号をバッファリングする入力バッファR15と、入力バッファL11と入力バッファR15のオーディオ信号に対し、類似する波形長Wを検出する類似波形長検出部12と、2Wサンプルのオーディオ信号をクロスフェードしてWサンプルの接続波形を生成するLチャンネルの接続波形生成部L13と、2Wサンプルのオーディオ信号をクロスフェードしてWサンプルの接続波形を生成するRチャンネルの接続波形生成部R17と、話速変換率Rに応じて入力された入力オーディオ信号と接続波形とを用いてLチャンネルの出力オーディオ信号を出力する出力バッファL14と、話速変換率Rに応じて入力された入力オーディオ信号と接続波形とを用いてRチャンネルの出力オーディオ信号を出力する出力バッファR18とを備えて構成されている。
処理すべき入力オーディオ信号は、まず、Lチャンネルが入力バッファL11に、Rチャンネルが入力バッファR15にバッファリングされる。入力バッファL11及び入力バッファR15にバッファリングされたオーディオ信号に対して、類似波形長検出部12は、類似波形長Wを求める。具体的には、Lチャンネルの入力バッファL11のオーディオ信号とRチャンネルの入力バッファR15のオーディオ信号に対して別々に差の自乗の総和(自乗誤差)を求める。この自乗誤差は、オーディオ信号内の2つの類似波形を検出するための類似度を測る尺度として用いられる。
Figure 0004940888
ここで、fLはLチャンネルのサンプル値、fRはRチャンネルのサンプル値である。DL(j)はLチャンネルにおける2つの波形(区間)のサンプル値の差の自乗の総和(自乗誤差)であり、DR(j)はRチャンネルにおける2つの波形(区間)のサンプル値の差の自乗の総和(自乗誤差)である。続いて、DL(j)とDR(j)を加算したものを関数D(j)の値とする。
Figure 0004940888
この関数D(j)を最小にするjを求めて、W=jとおく。この類似波形長Wをステレオ信号の左右のチャンネル共通の類似波形長と見なす。
このようにして類似波形長検出部12で求まった類似波形長Wは、Lチャンネルの入力バッファL11とRチャンネルの入力バッファR15に渡され、バッファ操作に利用される。Lチャンネルの入力バッファL11は、Lチャンネルのオーディオ信号の2Wサンプルを接続波形生成部L13に渡し、Rチャンネルの入力バッファR15は、Rチャンネルのオーディオ信号2Wサンプルを接続波形生成部R17に渡す。接続波形生成部L13は、受け取ったLチャンネルの2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。接続波形生成部R17も同様に、受け取ったRチャンネルの2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。Lチャンネルの入力バッファL11と接続波形生成部L13は、話速変換率Rに合わせて出力バッファL14にオーディオ信号を送る。Rチャンネルの入力バッファR15と接続波形生成部R17も同様に、出力バッファR18に話速変換率Rに合わせてオーディオ信号を送る。出力バッファL14と出力バッファR18に生成された左右各チャンネルのオーディオ信号は、出力オーディオ信号として、オーディオ信号伸張圧縮装置10から出力される。
このように入力オーディオ信号の2つの区間の類似度の計算を行なう際、チャンネル毎に類似度を計算する段階と、各チャンネルの計算結果に基づいて最適値を決定する段階とに分けることにより、各チャンネルに位相差がある波形が含まれていても、その位相差による影響を受けることなく、より正確に類似波形長を検出することができる。
図2は、類似波形長検出部12の処理の流れを示すフローチャートである。このフローチャートは、図30に示すものと同様であるが、サブルーチンが異なる。つまり、2つの波形の類似度を計る関数D(j)を計算する処理の流れが図31に示したものから、図3に示すものに変更される。
ステップS11では、インデックスjに初期値WMINをセットする。ステップS12では、図3に示すサブルーチンを実行する。サブルーチンは、(15)式に示す関数D(j)を計算する。ステップS13では、サブルーチンで求まった関数D(j)の値を変数minに代入し、インデックスjをWに代入する。ステップS14では、インデックスjを1増加させる。ステップS15では、インデックスjがWMAX以下か否か調べ、WMAX以下の場合はステップS16に進み、WMAXより大きい場合は処理を終了する。処理を終了したときに変数Wに格納されていた値が、関数D(j)を最小にするインデックスj、つまり、類似波形長であり、そのときの変数minの値は関数D(j)の最小値である。
ステップS16では、図3に示すサブルーチンにて、新たなインデックスjに対して関数D(j)を求める。ステップS17では、ステップS16で求まった関数D(j)の値がmin以下か否か調べ、min以下の場合は、ステップS18に進み、minより大きい場合は、ステップS14に戻る。ステップS18では、関数D(j)の値を変数minに代入し、インデックスjをWに代入する。
図3に示すサブルーチンの処理の流れは、次の通りである。ステップS21では、インデックスiを0にリセットし、変数sLと変数sRを0にリセットする。ステップS22では、インデックスiがインデックスjより小さいか否か調べ、インデックスiがインデックスjより小さい場合は、ステップS23に進み、インデックスiがインデックスj以上の場合は、ステップS25に進む。ステップS23では、Lチャンネルの信号の差の自乗を求めて変数sLに加算し、Rチャンネルの信号の差の自乗を求めて変数sRに加算する。つまり、Lチャンネルのi番目のサンプル値とi+j番目のサンプル値の差を取り、その自乗を変数sLに加算する。同様に、Rチャンネルのi番目のサンプル値とi+j番目のサンプル値の差を取り、その自乗を変数sRに加算する。ステップS24では、インデックスiを1増加させ、ステップS22に戻る。ステップS25では、変数sLと変数sRの値をそれぞれインデックスjで割った値を加算し、その加算値を関数D(j)の値としてサブルーチンを終了する。このように類似波形長を検出することにより、話速変換しても、各チャンネルの同期がずれず、かつ、各チャンネルに同一周波数で位相差がある信号が含まれていても影響されることがない。
図4は、図37に示したステレオ信号例である波形3701〜波形3703に対して、本発明を適用した場合の波形伸張例を示したものである。図37に示すLチャンネルには、小振幅の波形3701と大振幅の波形3702が含まれている。波形3701は、波形3702の2倍の周波数である。Rチャンネルには、Lチャンネルに含まれる波形3702と同一周波数で位相差が180度ある波形3703が含まれている。
本発明を適用すると、波形3701と波形3702から成るLチャンネルから関数DL(j)を求めると同時に、波形3703から成るRチャンネルから関数DR(j)を求め、その和である関数D(j)=DL(j)+DR(j)を最小にするjを求め、W=jとおく。この類似波形長Wによって、図37に示す波形3701〜波形3703を伸張すると、図4に示すようになる。つまり、波形3701が波形401に、波形3702が波形402に、波形3703が波形403に伸張される。図4に示す例から容易に分かるように、本発明を適用した結果、伸張された波形は正確に元の波形を伸張したものとなる。
図5は、サンプリング周波数が44.1kHzで約624ミリ秒のステレオ信号の実波形例である。また、図6は、図5に示す波形例に対して、図33に示す従来の構成例によって類似波形長を求めた結果を示したものである。
まず、位置601を起点として類似波形長W1を求める。次に、位置601に類似波形長W1を加算した位置602を起点として類似波形長W2を求める。続いて、位置602に類似波形長W2を加算した位置603を起点として類似波形長W3を求める。同様に、位置604を求め、以下、波形の最後まで同様の処理を繰り返すことにより、図6に示す類似波形長が求められる。図6に示す区間1では、類似波形長がほぼ一定になっているのに対して、区間2では類似波形長が長くなったり短くなったりと安定していない。つまり、図33に示す従来の構成例によって生成された波形を再生して聴いてみると、聴覚的に異音が感じられてしまう。
図7は、図5に示す波形例に対して、本発明を適用して類似波形長を求めた結果を示すものである。図6に示す区間2の類似波形長が長くなったり短くなったりと安定していなかったのに対して、本発明を適用した図7に示す区間2の類似波形長はより正確な類似波形長が求められているため安定している。つまり、図1に示す本発明の構成例によって生成された波形を再生して聴いてみると、聴覚的な違和感が軽減されていることを容易に確認することができる。
また、本発明を適用したオーディオの信号伸張圧縮では、類似波形長を求めるために(15)式の関数D(j)を用いたが、仮に、(13)式の関数DL(j)や(14)式の関数DR(j)を直接利用した場合の結果を図8に示す。図8(A)は、ステレオ入力信号に対して、Lチャンネルの関数DL(j)を求めたグラフ例であり、同様に、図8(B)は、Rチャンネルの関数DR(j)を求めたグラフ例である。
例えば、Lチャンネルから求めた関数DL(j)によって、左右両方のチャンネルの類似波形長を決定する場合を考える。関数DL(j)が最も小さくなるのは点801である。この点801におけるjを類似波形長WLとおくことによって、左右両方のチャンネルを話速変換する場合、Lチャンネルについては最も小さな誤差で変換できるものの、Rチャンネルについては最も小さな誤差では変換できず、誤差DR(WL)(802)を生じる。逆に、Rチャンネルから求めた関数DR(j)によって、左右両方のチャンネルの類似波形長を決定する場合を考える。関数DR(j)が最も小さくなるのは点803である。この点803におけるjを類似波形長WRとおくことによって、左右両方のチャンネルを話速変換する場合、Rチャンネルについては最も小さな誤差で変換できるものの、Lチャンネルについては最も小さな誤差では変換できず、誤差DL(WR)(804)を生じる。ここで注目すべき点は、誤差DL(WR)(804)が非常に大きいことである。このように誤差が大きい場合、例えば、図37に示す波形3703が図38に示す波形3803に変換されたときと同じように、変換前の波形と変換後の波形で著しく異なる波形となってしまう。
これに対して、本発明の一実施形態のように(13)式の関数DL(j)と(14)式の関数DR(j)とを加算した(15)式の関数D(j)を用いて類似波形長を決定する場合を考える。図8(C)は、ステレオ入力信号に対して、Lチャンネルの関数DL(j)とRチャンネルの関数DR(j)を別々に求め、この関数DL(j)と関数DR(j)とを加算した関数D(j)を求めたグラフ例である。関数D(j)が最も小さくなるのは点805である。この点805におけるjを類似波形長Wとおくことによって、左右両方のチャンネルを話速変換する場合、LチャンネルとRチャンネルとの間で最も小さな誤差となっていることが確認できる。つまり、Lチャンネルの誤差DL(W)(806)やRチャンネルの誤差DR(W)(807)は、共に、とても小さな誤差に収まっている。
このように、左右両方のチャンネルの類似波形長を決定するために、関数DL(j)や関数DR(j)を単独で用いると誤差804のような大きな誤差を生じさせてしまう恐れがあるのに対して、(15)式の関数D(j)のように別々に求めた関数DL(j)と関数DR(j)を加算した関数D(j)を用いることにより、左右両方のチャンネルの誤差を小さく抑えることが可能となり、より高音質な話速変換を実現することができる。つまり、図1〜図3を用いて説明した信号伸張圧縮方法のように、左右のチャンネルで最小の誤差となる同一の類似波形長を用いることにより、LチャンネルとRチャンネルの同期のずれを生じることなく、高音質に再生速度を変化させることができる。
図9は、類似波形長検出部12の他の処理(その1)の流れを示すフローチャートである。この図9に示すフローチャートでは、類似波形長を求める際の第1の区間の信号と第2の区間の信号の相関関係によって、その区間長jを採用するか否かを判断する処理を追加している。類似度を計る関数D(j)を小さい値にする区間長jであっても、第1の区間の信号と第2の区間の信号の相関係数がLチャンネルとRチャンネル共に負になるような場合、接続波形を生成する際に打ち消し合いが大きくなることによって、異音が発生してしまうことがある。この問題に対して、図9に示すフローチャートを利用することにより、この異音の発生を防ぐことができる。
ステップS31では、インデックスjに初期値WMINをセットする。ステップS32では、図3に示すサブルーチンを実行する。サブルーチンは、(15)式に示す関数D(j)を計算する。ステップS33では、サブルーチンで求まった関数D(j)の値を変数minに代入し、インデックスjをWに代入する。ステップS34では、インデックスjを1増加させる。ステップS35では、インデックスjがWMAX以下か否か調べ、WMAX以下の場合はステップS36に進み、WMAXより大きい場合は処理を終了する。処理を終了したときに変数Wに格納されていた値は、第1の区間の信号と第2の区間の信号の相関関係を満たしながら関数D(j)を最小にするインデックスj、つまり、類似波形長である。また、そのときの変数minの値は、関数D(j)の最小値である。
ステップS36では、図3に示すサブルーチンにて、新たなインデックスjに対して関数D(j)を求める。ステップS37では、ステップS36で求まった関数D(j)の値がmin以下か否か調べ、min以下の場合は、ステップS38に進み、minより大きい場合は、ステップS34に戻る。ステップS38では、後述する図10に示すサブルーチンCをLチャンネルとRチャンネルそれぞれについて実行する。サブルーチンCは、第1の区間の信号と第2の区間の信号の相関係数を求める。Lチャンネルにおける相関係数をCL(j)、Rチャンネルにおける相関係数をCR(j)とする。
ステップS39では、ステップS38で求めた相関係数CL(j)とCR(j)が共に負であるか否か調べる。共に負である場合はステップS34に戻り、少なくとも1つは負でない場合はステップS40に進む。ステップS40では、関数D(j)の値を変数minに代入し、インデックスjをWに代入する。
図10に示すサブルーチンCの処理の流れは、次の通りである。ステップS41では、第1の区間の信号の平均値aXと第2の区間の信号の平均値aYを求める。平均値の計算は、図11に示す通りである。ステップS42では、インデックスi、変数sX、変数sY、変数sXYを0にリセットする。ステップS43では、インデックスiがインデックスjより小さいか否か調べ、インデックスiがインデックスjより小さい場合は、ステップS44に進み、インデックスiがインデックスj以上の場合は、ステップS46に進む。ステップS44では、下記式を計算する。
Figure 0004940888
ここで、fはfLやfRなど入力されるチャンネルのサンプル値を表す。ステップS45では、インデックスiを1増加させ、ステップS43に戻る。ステップS46では、下記式を計算することで相関係数Cの値を求め、サブルーチンCを終了する。
Figure 0004940888
ここでsqrtは平方根を計算している。以上の処理は、LチャンネルとRチャンネルでそれぞれ行なう。
図11は、平均値を求める処理を示すフローチャートである。ステップS51では、インデックスi、変数aX、変数aYを0にリセットする。ステップS52では、インデックスiがインデックスjより小さいか否か調べ、インデックスiがインデックスjより小さい場合は、ステップS53に進み、インデックスiがインデックスj以上の場合は、ステップS55に進む。ステップS53では、下記式を計算する。
Figure 0004940888
ステップS54では、インデックスiを1増加させ、ステップS52に戻る。ステップS55では、下記式を計算し、変数aXを第1の区間の信号の平均値、変数aYを第2の区間の信号の平均値として処理を終了する。
Figure 0004940888
このような方法により、第1の区間の信号と第2の区間の信号の相関係数がLチャンネルとRチャンネル共に負になるような区間長jは、類似波形長Wの候補から除外されることとなる。したがって、類似度を計る関数D(j)を小さい値にするような区間長jであっても、第1の区間の信号と第2の区間の信号の相関係数がLチャンネルとRチャンネル共に負になる場合、そのような区間長jは選択されない。つまり、図9〜図11に示す伸張圧縮処理を適用することにより、接続波形を生成する際の打ち消し合いによる異音の発生を防ぐことができ、より高音質な話速変換を実現することができる。
図12〜図16は、第1の区間の信号と第2の区間の信号の相関係数が負であるにも拘わらず、類似度を計る関数D(j)が小さな値になってしまう具体例を説明するものである。なお、具体例で示す信号はモノラル信号である。
図12は、入力波形例を示すものであり、そのサンプル数はWMAXの2倍である。図13(a)は、図12に示す入力波形の先頭を起点として関数D(j)を求めたグラフである。また、図13(b)は、図13(a)に示す関数D(j)を求める際に利用した各区間長jに対して第1の区間と第2の区間の相関係数を求めたものである。図30に示した類似波形長を求める処理に従えば、jはWMINからWMAXに向かって変化する。まず、図13(a)に示す点1301で関数D(j)の値が最小となり、このときの関数値D(j)が変数minに代入され、jが変数Wに代入される。続いて、点1302で関数D(j)の値が最小となり、このときの関数値D(j)が変数minに代入され、jが変数Wに代入される。同様にして、点1303、点1304、点1305、点1306、点1307、点1308、点1309が選択され、そのときの関数値D(j)が変数minに代入され、jが変数Wに代入される。jが点1309を通過した後は、点1309における関数値D(j)よりも小さな関数値D(j)は見つからないため、最終的に、点1309において関数D(j)が最小になったことが分かる。
図14は、点1301〜点1309において、第1の区間Aと第2の区間Bがどのように変化したのかを示したものである。つまり、点1301のとき、第1の区間と第2の区間は、区間1401のように設定されており、点1302のとき、第1の区間と第2の区間は、区間1402のように設定されている。点1303〜点1309に対応するのは、区間1403から区間1409である。例えば、図29に示す従来のモノラル信号伸張圧縮装置の接続波形生成部103では、区間1409の第1の区間Aと第2の区間Bを用いて、接続波形を生成することになる。
ところで、点1309において、第1の区間と第2の区間の相関係数は負であることが図13(b)に示すグラフより分かる。第1の区間と第2の区間の相関係数が負である場合、接続波形生成部におけるクロスフェード処理により、音質的に不利益が生じることがある。このことについて、図15及び図16を用いて説明する。一般に音響信号では、様々な楽器の音が同時に鳴っている。図15(a)及び図16(a)は、点線で示した大振幅の波形に、実線で示した小振幅の波形が重なっている様子を示している。
図15は、区間Aと区間Bの波形(a)を伸張して伸張波形(b)を得る場合の波形の様子を示したものであり、(a)の区間Aと区間Bの実線波形は同相である。原波形(a)を1.5倍に伸張する場合、原波形(a)の区間A(1501)を伸張波形(b)の区間A(1503)にコピーし、原波形(a)の区間A(1501)と区間B(1502)のクロスフェード波形を伸張波形(b)の区間AxB(1504)に生成し、最後に、原波形(a)の区間B(1502)を伸張波形(b)の区間B(1505)にコピーする。伸張波形(b)の実線波形の包絡線を模式的に同図(c)のように表現することとする。
同様に、図16は、区間Aと区間Bの波形(a)を伸張して伸張波形(b)を得る場合の波形の様子を示したものであり、(a)の区間Aと区間Bの実線波形は逆相である。原波形(a)を1.5倍に伸張する場合、原波形(a)の区間A(1601)を伸張波形(b)の区間A(1603)にコピーし、原波形(a)の区間A(1601)と区間B(1602)のクロスフェード波形を伸張波形(b)の区間AxB(1604)に生成し、最後に、原波形(a)の区間B(1602)を伸張波形(b)の区間B(1605)にコピーする。同図(c)は伸張波形(b)の実線波形の包絡線を模式的に表現したものである。
一般の音響信号において、図16(a)の実線波形のような波形が含まれることは考え難いが、選択された区間Aと区間Bに逆相に近い波形が含まれることは実際に頻発する。図15に示す伸張波形と図16に示す伸張波形とを比較すると容易に分かるように、クロスフェード後の波形は、クロスフェード前の2つの波形の相関関係によって、振幅を大きく変える。特に、負の相関を持った場合(図16の場合)、クロスフェード部分の振幅が大きく減衰してしまい、これが頻繁に発生すると、聴覚的にうねりのような異音を発生させてしまう。
図13の点1309が関数D(j)の最小値ではあるものの、このときの相関係数が負になっている場合、図16に示したように、接続波形生成処理におけるクロスフェードにおいてうねりのような異音を発生させてしまう恐れがある。対して、例えば、図13における点1307のように、相関係数が非負であるという条件のもとで、関数D(j)の値を最小にするような点を選択することによって、図16で示したような問題を防ぎつつ、最適な類似波形長を検出することが可能となる。
つまり、図9及び図10で示した方法では、ステレオ信号に対して第1の区間と第2に区間の相関係数を調べており、ステップS39では、左右両方のチャンネルの相関係数が同時に負になった場合に、そのときのjを類似波形長の候補から除外している。
このように左右両方のチャンネルの相関係数が同時に負になった場合、そのときのjを類似波形長の候補から除外することによって、接続波形生成処理でのクロスフェードにおいて、クロスフェード後の波形の振幅が減衰してしまうことを防ぐことができる。つまり、うねりのような異音の発生を防ぐことができる。つまり、入力オーディオ信号の2つの区間の類似度の計算を行なう際、1つ以上のチャンネルで2つの区間の相関係数が閾値以上になるものを候補とし、かつ、チャンネル毎に類似度を計算する段階と、各チャンネルの計算結果に基づいて最適値を決定する段階に分けることにより、各チャンネルに位相差がある波形が含まれていても、その位相差による影響を受けることなく、より正確に類似波形長を検出することができる。
図17は、類似波形長検出部12の他の処理(その2)の流れを示すフローチャートである。この図17に示すフローチャートでは、類似波形長を求める際の第1の区間の信号と第2の区間の信号の相関関係と、左右のチャンネルのエネルギーの関係によって、その区間長jを採用するか否かを判断する処理を追加している。類似度を計る関数D(j)を小さい値にする区間長jであっても、エネルギーの大きい方のチャンネルの第1の区間の信号と第2の区間の信号の相関係数が負になるような場合、接続波形を生成する際にエネルギーが大きいが故に打ち消し合いがより大きくなることによって、異音が発生してしまうことがある。この問題に対して、図17に示すフローチャートを利用することにより、この異音の発生を防ぐことができる。
ステップS61では、インデックスjに初期値WMINをセットする。ステップS62では、図3に示すサブルーチンを実行する。サブルーチンは、関数D(j)を計算する。ステップS63では、サブルーチンで求まった関数D(j)の値を変数minに代入し、インデックスjをWに代入する。ステップS64では、インデックスjを1増加させる。ステップS65では、インデックスjがWMAX以下か否か調べ、WMAX以下の場合はステップS66に進み、WMAXより大きい場合は処理を終了する。処理を終了したときに変数Wに格納されていた値が、第1の区間の信号と第2の区間の信号の相関関係と左右のチャンネルのエネルギーの関係を満たしながら、関数D(j)を最小にするインデックスj、つまり、類似波形長であり、そのときの変数minの値は関数D(j)の最小値である。ステップS66では、図3に示すサブルーチンにて、新たなインデックスjに対して関数D(j)を求める。ステップS67では、ステップS66で求まった関数D(j)の値がmin以下か否か調べ、min以下の場合は、ステップS68に進み、minより大きい場合は、ステップS64に戻る。ステップS68では、図10に示すサブルーチンC及び図18に示すサブルーチンEをLチャンネルとRチャンネルそれぞれについて実行する。サブルーチンCは、第1の区間の信号と第2の区間の信号の相関係数を求める。Lチャンネルにおける相関係数をCL(j)、Rチャンネルにおける相関係数をCR(j)とする。サブルーチンEは、信号のエネルギーを求める。LチャンネルにおけるエネルギーをEL(j)、RチャンネルにおけるエネルギーをER(j)とする。ステップS69では、ステップS68で求めた相関係数CL(j)とCR(j)との関係、及びエネルギーEL(j)とER(j)との関係を次の式によって調べる。
Figure 0004940888
上記式が満たされる場合、つまり、エネルギーの大きい方のチャンネルの相関係数が負である場合はステップS64に戻り、そうでない場合はステップS70に進む。ステップS70では、関数D(j)の値を変数minに代入し、インデックスjをWに代入する。
図18に示すサブルーチンEの処理の流れは、次の通りである。ステップS71では、インデックスiと変数eX、変数eYを0にリセットする。ステップS72では、インデックスiがインデックスjより小さいか否か調べ、インデックスiがインデックスjより小さい場合は、ステップS73に進み、インデックスiがインデックスj以上の場合は、ステップS75に進む。ステップS73では、次の式を計算し、第1の区間の信号のエネルギーeXと第2の区間の信号のエネルギーeYを求める。
Figure 0004940888
ステップS74では、インデックスiを1増加させ、ステップS72に戻る。ステップS75では、第1の区間の信号のエネルギーeXと第2の区間の信号のエネルギーeYの和を計算することで、第1の区間と第2の区間のエネルギーを求め、サブルーチンEを終了する。
Figure 0004940888
以上の処理は、LチャンネルとRチャンネルでそれぞれ行なう。
図17及び図18に示す方法により、エネルギーの大きい方のチャンネルの第1の区間の信号と第2の区間の信号の相関係数が負になるような区間長jは、類似波形長Wの候補から除外されることとなる。これにより、接続波形を生成する際にエネルギーが大きいが故に打ち消し合いがより大きくなることによって、うねりのような異音を発生させてしまうことを防ぐことができる。つまり、類似度を計る関数D(j)を小さい値にするような区間長jであっても、エネルギーの大きい方のチャンネルの第1の区間の信号と第2の区間の信号の相関係数が負になるような区間長jは選択されないため、図17及び図18に示す方法を適用することで、より高音質な話速変換を実現することができる。つまり、入力オーディオ信号の2つの区間の類似度の計算を行なう際、2つの区間のエネルギーが最も大きいチャンネルにおける2つの区間の相関係数が閾値以上になるものを候補とし、かつ、チャンネル毎に類似度を計算する段階と、各チャンネルの計算結果に基づいて最適値を決定する段階とに分けることにより、各チャンネルに位相差がある波形が含まれていても、その位相差による影響を受けることなく、より正確に類似波形長を検出することができる。
図19は、マルチチャンネル信号を伸張圧縮するオーディオ信号伸張圧縮装置の構成例を示すブロック図である。ここにおいて、マルチチャンネル信号は、Lfチャンネル(フロントの左チャンネル)と、Cチャンネル(センターチャンネル)と、Rfチャンネル(フロントの右チャンネル)と、Lsチャンネル(サラウンドの左チャンネル)と、Rsチャンネル(サラウンドの右チャンネル)と、LFEチャンネル(Low Frequency Effectチャンネル)とからなっている。
このオーディオ信号伸張圧縮装置20は、Lfチャンネルの信号を伸張圧縮する話速変換ユニット(U1)21と、Cチャンネルの信号を伸張圧縮する話速変換ユニット(U2)22と、Rfチャンネルの信号を伸張圧縮する話速変換ユニット(U3)23と、Lsチャンネルの信号を伸張圧縮する話速変換ユニット(U4)24と、Rsチャンネルの信号を伸張圧縮する話速変換ユニット(U5)25と、LFEチャンネルの信号を伸張圧縮する話速変換ユニット(U6)26と、各話速変換ユニット21〜26から出力されたオーディオ信号をそれぞれ重み付けする増幅部(A1〜A6)27〜32と、増幅部(A1〜A6)27〜32で重み付けられたオーディオ信号から各チャンネル共通の類似波形長を検出する類似波形長検出部33とを備えている。
処理すべき入力オーディオ信号である、Lfチャンネルは話速変換ユニット(U1)21に、Cチャンネルは話速変換ユニット(U2)22に、Rfチャンネルが話速変換ユニット(U3)23に、Lsチャンネルは話速変換ユニット(U4)24に、Rsチャンネルは話速変換ユニット(U5)25に、LFEチャンネルは話速変換ユニット(U6)26にバッファリングされる。
各話速変換ユニット21〜26は、図20に示す通りであり、入力オーディオ信号をバッファリングする入力バッファ41と、類似波形長検出部33で検出された類似波形長Wに基づいて入力バッファ41から送られる2Wサンプルのオーディオ信号をクロスフェードしてWサンプルの接続波形を生成する接続波形生成部43と、話速変換率Rに応じて入力された入力オーディオ信号と接続波形とを用いて出力オーディオ信号を出力する出力バッファ44とを備えている。
各増幅部(A1〜A6)27〜32は、各チャンネルの振幅を調整し、例えば、全チャンネルを均等に類似波形長検出に使用する場合は、(29)式の比率の設定とし、LFEを使わない場合は、(30)式の比率の設定とする。
Figure 0004940888
LFEチャンネルは、重低音用のチャンネルであり、話速変換処理のための類似波形長検出には適さない場合があるが、(30)式の比率のようにLFEチャンネルの重み付けを0にすることにより、その影響を防ぐことができる。
また、LFEを使わず、更に、効果音用として用いられることが多いサラウンドチャンネルの重みを低くする場合は、(31)式の比率に設定してもよい。
Figure 0004940888
類似波形長検出部33は、増幅部(A1〜A6)27〜32で重み付けされた各オーディオ信号に対して別々に差の自乗の総和(自乗誤差)を求める。
Figure 0004940888
ここで、fLfはLfチャンネルのサンプル値、fCはCチャンネルのサンプル値、fRfはRfチャンネルのサンプル値、fLsはLsチャンネルのサンプル値、fRsはRsチャンネルのサンプル値、及びfLFEはLFEチャンネルのサンプル値である。また、DLf(j)はLfチャンネルにおける2つの波形(区間)のサンプル値の差の自乗の総和(自乗誤差)であり、他のチャンネルについても同様である。
続いて、DLf(j)、DC(j)、DRf(j)、DLs(j)、DRs(j)及びDLFE(j)を加算したものを関数D(j)とする。
Figure 0004940888
この関数D(j)を最小にするjを求めて、W=jとおく。この類似波形長Wをマルチチャンネル信号の各チャンネル共通の類似波形長と見なす。類似波形長検出部33で求まった類似波形長Wは、各チャンネルの話速変換ユニット21〜26に渡され、バッファ操作や接続波形生成に利用される。各話速変換ユニット21〜26で生成された話速変換処理後のオーディオ信号は出力オーディオ信号として、話速変換装置20から出力される。
このように入力オーディオ信号の2つの区間の類似度の計算を行なう前に、各チャンネルの振幅の調整を行うことにより、類似波形長検出に利用されるチャンネルの影響度を重み付けでき、各チャンネルに位相差がある波形が含まれていても、その位相差による影響を受けることなく、より正確に類似波形長を検出することができる。
図20は、図19に示す各話速変換ユニット21〜26の構成例を示すブロック図である。すなわち、図1に示すLチャンネルの入力オーディオ信号を処理する入力バッファL11と接続波形生成部L13と出力バッファL14とをまとめたものである。処理すべき入力オーディオ信号はまず、入力バッファ41にバッファリングされる。入力バッファ41のオーディオ信号に対して、類似波形長Wを検出するため、入力バッファ41は、図19に示す類似波形長検出部33にオーディオ信号を出力し、検出された類似波形長Wを類似波形長検出部33から取得する。そして、入力バッファ41は、入力オーディオ信号の中からオーディオ信号2Wサンプルを接続波形生成部43に渡す。接続波形生成部43は、受け取った2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。入力バッファ41及び接続波形生成部43は、話速変換率Rに合わせて出力バッファ44にオーディオ信号を送る。出力バッファ44に生成されたオーディオ信号は、出力オーディオ信号として話速変換ユニット21〜26から出力される。
図19に示す構成例における類似波形長検出部33の処理は、図2に示す処理と同様であり、そのサブルーチンは、図21に示す通りである。つまり、図3に示す複数の波形の類似度を計る関数D(j)を計算するサブルーチンが図21に示すものに変更される。
図21に示すサブルーチンの処理の流れは、次の通りである。ステップS81では、インデックスiを0にリセットし、変数sLf、変数sC、変数sRf、変数sLs、変数sRs、変数sLFEを0にリセットする。ステップS82では、インデックスiがインデックスjより小さいか否か調べ、インデックスiがインデックスjより小さい場合は、ステップS83に進み、インデックスiがインデックスj以上の場合は、ステップS85に進む。ステップS83では、上記(32)〜(37)式のように、Lfチャンネルの信号の差の自乗を求めて変数sLfに加算し、Cチャンネルの信号の差の自乗を求めて変数sCに加算し、Rfチャンネルの信号の差の自乗を求めて変数sRfに加算し、Lsチャンネルの信号の差の自乗を求めて変数sLsに加算し、Rsチャンネルの信号の差の自乗を求めて変数sRsに加算し、LFEチャンネルの信号の差の自乗を求めて変数sLFEに加算する。ステップS84では、インデックスiを1増加させ、ステップS82に戻る。ステップS85では、変数sLf、変数sC、変数sRf、変数sLs、変数sRs、変数sLFEの値をそれぞれインデックスjで割った値を加算し、その加算値を関数D(j)の値としてサブルーチンを終了する。
なお、図19〜図21を用いて説明したオーディオ信号の伸張圧縮方法では、マルチチャンネル信号の各チャンネルの重み付けを調整するために、図19に示す増幅部(A1〜A6)27〜32を用いたが、これに限られるものではなく、重み係数を1にし、代わりに、図21のステップS85において各変数(変数sLf、変数sC、変数sRf、変数sLs、変数sRs、変数sLFE)に適切な係数を掛けることにより同様な効果が得るようにしてもよい。つまり、C1〜C6を係数とするとき、ステップS85における加算を次のように変更する。
Figure 0004940888
また、このことは、上記(38)式を次のように変更することになる。
Figure 0004940888
このように、2つの区間の類似波形長を検出する際に各チャンネルの類似度を調整するようにしても構わない。
また、上述の説明では、各チャンネルの関数D(j)の定義例として、差の自乗の総和(自乗誤差)を用いたが、差の絶対値の総和であっても構わない。また、各チャンネルの関数D(j)を相関係数の総和で定義し、全チャンネルの相関係数の総和を最大にするjをWとする構成でも構わない。つまり、2つの波形の類似度を計れればよく、上記関数に限定されるものではない。
例えば、差の絶対値の総和を各チャンネルの関数D(j)の定義として用いる場合、上記(13)式及び(14)式の代わりに、次の式を用いてもよい。
Figure 0004940888
また、各チャンネルの関数D(j)を相関係数の総和で定義する場合、(13)式の代わりに次の式を用いてもよい。
Figure 0004940888
また、上記(14)式についても同様な計算を行うことにより、各チャンネルの関数D(j)を相関係数の総和で定義することができる。
さらに、各チャンネルの関数D(j)を相関係数の総和で定義する場合、相関係数は−1〜1の範囲の値であり、1に近いほど類似度が高いので、図2、図9及び図17に示す変数minを変数maxと改め、図2に示すステップS17、図9に示すステップS37及び図17に示すステップS67を下記(49)式のように変更する。
Figure 0004940888
また、上述の説明において、マルチチャンネルの例では、5.1チャンネルの例を示したが、これに限るものではなく、7.1チャンネルや9.1チャンネルなど、2チャンネル以上のチャンネル数であってもよい。
また、上述の説明では、従来のPICOLAに本発明に係る類似波形長検出方法を適用させたが、本発明の方法は、これに限るものではなく、他のOLA(OverLap and Add)系のアルゴリズム等、類似波形長検出処理を伴う時間軸上の話速変換アルゴリズムにも適用可能である。また、PICOLAは、サンプリング周波数を一定とする場合には話速変換となり、サンプル数の増減に合わせてサンプリング周波数を変える場合はピッチシフトとなることから、本発明も、話速変換に限らず、ピッチシフトにも適用可能である。また、勿論、話速変換を応用した波形補間や補外にも適用可能である。
本発明の第1の実施形態におけるオーディオ信号伸張圧縮装置の構成を示すブロック図である。 類似波形長検出部の処理の流れを示すフローチャートである。 関数D(j)を計算するサブルーチンの処理の流れを示すフローチャートである。 本発明を適用した場合の波形伸張例を示す模式図である。 サンプリング周波数が44.1kHzで約624ミリ秒のステレオ信号の実波形例を示す図である。 従来の構成例によって類似波形長を求めた結果を示す図である。 本発明を適用して類似波形長を求めた結果を示す図である。 類似波形長を求めるために関数DL(j)、関数DR(j)及び関数DL(j)+DR(j)を利用した場合の結果を示す図である。 類似波形長検出部の他の処理(その1)の流れを示すフローチャートである。 第1の区間の信号と第2の区間の信号の相関係数を求めるサブルーチンCの処理の流れを示すフローチャートである。 平均値を求める処理を示すフローチャートである。 入力波形例を示す図である。 区間長jに対する関数D(j)及び相関係数を示すグラフである。 第1の区間Aと第2の区間Bの変化の様子を示す模式図である。 同相波形同士による波形伸張の様子を示す図である。 逆相波形同士による波形伸張の様子を示す図である。 類似波形長検出部の他の処理(その2)の流れを示すフローチャートである。 信号のエネルギーを求めるサブルーチンEの処理の流れを示すフローチャートである。 マルチチャンネル信号を伸張圧縮するオーディオ信号伸張圧縮装置の構成例を示すブロック図である。 各話速変換ユニットの構成例を示すブロック図である。 関数D(j)を計算するサブルーチンの処理の流れを示すフローチャートである。 PICOLAを用いて原波形を伸張する例を示す模式図である。 類似波形である区間Aと区間Bの区間長Wを検出する方法を示す模式図である。 任意の長さに波形を伸張する方法を示す模式図である。 PICOLAを用いて原波形を圧縮する例を示す模式図である。 任意の長さに波形を圧縮する方法を示す模式図である。 PICOLAの波形伸張の処理の流れを示すフローチャートである。 PICOLAの波形圧縮の処理の流れを示すフローチャートである。 PICOLAによる話速変換装置の構成の一例を示すブロック図である。 モノラル信号に対する類似波形長検出部の処理の流れを示すフローチャートである。 モノラル信号に対する関数D(j)を計算するサブルーチンの処理の流れを示すフローチャートである。 ステレオ信号に対してPICOLAを適用する場合の従来の構成例を示すブロック図である。 ステレオ信号に対してPICOLAを適用する場合の従来の他の構成例を示すブロック図である。 従来の構成例における処理の流れを示すフローチャートである。 ステレオ信号に対してPICOLAを適用する場合の従来の他の構成例を示すブロック図である 左右のチャンネルの信号の位相差の違いによる変化を説明するための模式図である。 左右のチャンネルに同一周波数で180度の位相差がある場合の問題を説明するための模式図である。 左右のチャンネルに同一周波数で180度の位相差がある信号を波形伸張を行なった場合の結果を示す模式図である。
符号の説明
10 オーディオ信号伸張圧縮装置、11 入力バッファL、12 類似波形長検出部、13 接続波形生成部L、14 出力バッファL、15 入力バッファR、17 接続波形生成部R、18 出力バッファR、21〜26 話速変換ユニット、27〜32 増幅部、33 類似波形長検出部

Claims (14)

  1. 複数チャンネルからなるオーディオ信号を類似波形を用いて時間領域で伸張圧縮するオーディオ信号伸張圧縮装置において、
    上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度をチャンネル毎に算出し、同時刻における各チャンネルの第1の区間の信号と第2の区間の信号との類似度を加算して最も高い類似度を示す第1の区間及び第2の区間の類似波形長を算出する類似波形長検出手段を備え
    上記類似波形長検出手段は、少なくとも1以上のチャンネルの第1の区間の信号と第2の区間の信号との相関係数が閾値以上となる類似波形長を算出するオーディオ信号伸張圧縮装置。
  2. 上記類似波形長検出手段は、エネルギーが最も大きいチャンネルの第1の区間の信号と第2の区間の信号との相関係数が閾値以上となる類似波形長を算出する請求項1記載のオーディオ信号伸張圧縮装置。
  3. 上記オーディオ信号の各チャンネルの振幅を調整する振幅調整手段をさらに備え、
    上記類似波形長検出手段は、上記振幅調整手段で調整されたオーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度をチャンネル毎に算出する請求項1記載のオーディオ信号伸張圧縮装置。
  4. 上記類似波形長検出手段は、各チャンネルの類似度を調整し、調整された各チャンネルの類似度に基づいて第1の区間及び第2の区間の類似波形長を算出する請求項1記載のオーディオ信号伸張圧縮装置。
  5. 上記類似波形長検出手段は、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度を、当該第1の区間の信号と第2の区間の信号との自乗誤差により算出し、同時刻における各チャンネルの自乗誤差の総和が最小となるように類似波形長を算出する請求項1記載のオーディオ信号伸張圧縮装置。
  6. 上記類似波形長検出手段は、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度を、当該第1の区間の信号と第2の区間の信号との差の絶対値の総和により算出し、同時刻における各チャンネルの差の絶対値の総和が最小となるように類似波形長を算出する請求項1記載のオーディオ信号伸張圧縮装置。
  7. 上記類似波形長検出手段は、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度を、当該第1の区間の信号と第2の区間の信号との相関係数により算出し、同時刻における各チャンネルの相関係数の総和が最大となるように類似波形長を算出する請求項1記載のオーディオ信号伸張圧縮装置。
  8. 複数チャンネルからなるオーディオ信号を類似波形を用いて時間領域で伸張圧縮するオーディオ信号伸張圧縮方法において、
    上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度をチャンネル毎に算出し、同時刻における各チャンネルの第1の区間の信号と第2の区間の信号との類似度を加算して最も高い類似度を示す第1の区間及び第2の区間の類似波形長を算出する類似波形長検出工程を有し、
    上記類似波形長検出工程では、少なくとも1以上のチャンネルの第1の区間の信号と第2の区間の信号との相関係数が閾値以上となる類似波形長を算出するオーディオ信号伸張圧縮方法。
  9. 上記類似波形長検出工程では、エネルギーが最も大きいチャンネルの第1の区間の信号と第2の区間の信号との相関係数が閾値以上となる類似波形長を算出する請求項8記載のオーディオ信号伸張圧縮方法。
  10. 上記オーディオ信号の各チャンネルの振幅を調整する振幅調整工程をさらに有し、
    上記類似波形長検出工程では、上記振幅調整工程で調整されたオーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度をチャンネル毎に算出する請求項記載のオーディオ信号伸張圧縮方法。
  11. 上記類似波形長検出工程は、各チャンネルの類似度を調整し、調整された各チャンネルの類似度に基づいて第1の区間及び第2の区間の類似波形長を算出する請求項記載のオーディオ信号伸張圧縮方法。
  12. 上記類似波形長検出工程では、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度を、当該第1の区間の信号と第2の区間の信号との自乗誤差により算出し、同時刻における各チャンネルの自乗誤差の総和が最小となるように類似波形長を算出する請求項記載のオーディオ信号伸張圧縮方法。
  13. 上記類似波形長検出工程では、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度を、当該第1の区間の信号と第2の区間の信号との差の絶対値の総和により算出し、同時刻における各チャンネルの差の絶対値の総和が最小となるように類似波形長を算出する請求項記載のオーディオ信号伸張圧縮方法。
  14. 上記類似波形長検出工程では、上記オーディオ信号内の連続する第1の区間の信号と第2の区間の信号との類似度を、当該第1の区間の信号と第2の区間の信号との相関係数により算出し、同時刻における各チャンネルの相関係数の総和が最大となるように類似波形長を算出する請求項記載のオーディオ信号伸張圧縮方法。
JP2006287905A 2006-10-23 2006-10-23 オーディオ信号伸張圧縮装置及び方法 Expired - Fee Related JP4940888B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006287905A JP4940888B2 (ja) 2006-10-23 2006-10-23 オーディオ信号伸張圧縮装置及び方法
TW096137318A TWI354267B (en) 2006-10-23 2007-10-04 Apparatus and method for expanding/compressing aud
KR1020070103482A KR101440513B1 (ko) 2006-10-23 2007-10-15 오디오 신호 신장 압축 장치 및 방법
US11/875,346 US8635077B2 (en) 2006-10-23 2007-10-19 Apparatus and method for expanding/compressing audio signal
EP07254175.8A EP1919258B1 (en) 2006-10-23 2007-10-22 Apparatus and method for expanding/compressing audio signal
CN2007101656639A CN101169935B (zh) 2006-10-23 2007-10-23 用于扩展/压缩音频信号的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006287905A JP4940888B2 (ja) 2006-10-23 2006-10-23 オーディオ信号伸張圧縮装置及び方法

Publications (2)

Publication Number Publication Date
JP2008107413A JP2008107413A (ja) 2008-05-08
JP4940888B2 true JP4940888B2 (ja) 2012-05-30

Family

ID=39048859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006287905A Expired - Fee Related JP4940888B2 (ja) 2006-10-23 2006-10-23 オーディオ信号伸張圧縮装置及び方法

Country Status (6)

Country Link
US (1) US8635077B2 (ja)
EP (1) EP1919258B1 (ja)
JP (1) JP4940888B2 (ja)
KR (1) KR101440513B1 (ja)
CN (1) CN101169935B (ja)
TW (1) TWI354267B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304515A (ja) * 2006-05-15 2007-11-22 Sony Corp オーディオ信号伸張圧縮方法及び装置
CN101290775B (zh) * 2008-06-25 2011-09-14 无锡中星微电子有限公司 一种快速实现语音信号变速的方法
JP5734517B2 (ja) 2011-07-15 2015-06-17 華為技術有限公司Huawei Technologies Co.,Ltd. 多チャンネル・オーディオ信号を処理する方法および装置
US9325545B2 (en) * 2012-07-26 2016-04-26 The Boeing Company System and method for generating an on-demand modulation waveform for use in communications between radios
US10296814B1 (en) 2013-06-27 2019-05-21 Amazon Technologies, Inc. Automated and periodic updating of item images data store
US10366306B1 (en) 2013-09-19 2019-07-30 Amazon Technologies, Inc. Item identification among item variations
CN106373590B (zh) * 2016-08-29 2020-04-03 湖南理工学院 一种基于语音实时时长调整的声音变速控制系统和方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920842A (en) * 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5647005A (en) * 1995-06-23 1997-07-08 Electronics Research & Service Organization Pitch and rate modifications of audio signals utilizing differential mean absolute error
US5796842A (en) * 1996-06-07 1998-08-18 That Corporation BTSC encoder
JP2905191B1 (ja) * 1998-04-03 1999-06-14 日本放送協会 信号処理装置、信号処理方法および信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3266124B2 (ja) * 1999-01-07 2002-03-18 ヤマハ株式会社 アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
JP2001255894A (ja) 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
MXPA03001198A (es) * 2000-08-09 2003-06-30 Thomson Licensing Sa Metodo y sistema para habilitar la conversion de velocidad de audio.
JP4212253B2 (ja) * 2001-03-30 2009-01-21 三洋電機株式会社 話速変換装置
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
CN1184615C (zh) * 2001-08-23 2005-01-12 无敌科技股份有限公司 准周期性波形的语音压缩方法
JP3823804B2 (ja) * 2001-10-22 2006-09-20 ソニー株式会社 信号処理方法及び装置、信号処理プログラム、並びに記録媒体
JP2003345397A (ja) * 2002-03-19 2003-12-03 Matsushita Electric Ind Co Ltd 再生速度変換装置
KR100547444B1 (ko) 2002-08-08 2006-01-31 주식회사 코스모탄 가변길이합성과 상관도계산 감축 기법을 이용한오디오신호의 시간스케일 수정방법
US7189913B2 (en) * 2003-04-04 2007-03-13 Apple Computer, Inc. Method and apparatus for time compression and expansion of audio data with dynamic tempo change during playback
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
JP2007507726A (ja) * 2003-09-29 2007-03-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号の符号化
JP4442239B2 (ja) * 2004-02-06 2010-03-31 パナソニック株式会社 音声速度変換装置と音声速度変換方法
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
CN100596075C (zh) 2005-03-31 2010-03-24 株式会社日立制作所 利用广播组播服务实现多方会议服务的方法和设备
JP4550652B2 (ja) * 2005-04-14 2010-09-22 株式会社東芝 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法
JP2007163915A (ja) * 2005-12-15 2007-06-28 Mitsubishi Electric Corp 音声速度変換装置、音声速度変換プログラム及びそのプログラムを記憶したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
EP1919258A3 (en) 2016-09-21
US20080097752A1 (en) 2008-04-24
CN101169935B (zh) 2010-09-29
CN101169935A (zh) 2008-04-30
KR101440513B1 (ko) 2014-11-04
EP1919258A2 (en) 2008-05-07
JP2008107413A (ja) 2008-05-08
EP1919258B1 (en) 2017-07-19
US8635077B2 (en) 2014-01-21
TWI354267B (en) 2011-12-11
KR20080036518A (ko) 2008-04-28
TW200834545A (en) 2008-08-16

Similar Documents

Publication Publication Date Title
Verfaille et al. Adaptive digital audio effects (A-DAFx): A new class of sound transformations
JP4940888B2 (ja) オーディオ信号伸張圧縮装置及び方法
CA2253749C (en) Method and device for instantly changing the speed of speech
EP2264696B1 (en) Voice converter with extraction and modification of attribute data
JPH11194796A (ja) 音声再生装置
JP2003150187A (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
US7945446B2 (en) Sound processing apparatus and method, and program therefor
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
KR100256718B1 (ko) 음피치 변환 장치
WO2020095950A1 (ja) 情報処理方法および情報処理システム
JP2002215195A (ja) 音楽信号処理装置
JP4608650B2 (ja) 既知音響信号除去方法及び装置
US6487536B1 (en) Time-axis compression/expansion method and apparatus for multichannel signals
US6629067B1 (en) Range control system
JP5011803B2 (ja) オーディオ信号伸張圧縮装置及びプログラム
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JP2009282536A (ja) 既知音響信号除去方法及び装置
JP2007304515A (ja) オーディオ信号伸張圧縮方法及び装置
JP2005524118A (ja) 合成音声
US20230005510A1 (en) Information processing device and method, and program
KR100870870B1 (ko) 오디오 신호의 고품질 타임 스케일링 및 피치 스케일링
JP2009237590A (ja) 音声効果付与装置
JP4512008B2 (ja) 楽音情報生成装置、方法及びプログラム
JPS5950079B2 (ja) 音声合成方法
JPH07129194A (ja) 音声合成方法及び音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120213

R151 Written notification of patent or utility model registration

Ref document number: 4940888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees