JP2007292957A - オーディオ信号伸張圧縮方法及び装置 - Google Patents

オーディオ信号伸張圧縮方法及び装置 Download PDF

Info

Publication number
JP2007292957A
JP2007292957A JP2006119731A JP2006119731A JP2007292957A JP 2007292957 A JP2007292957 A JP 2007292957A JP 2006119731 A JP2006119731 A JP 2006119731A JP 2006119731 A JP2006119731 A JP 2006119731A JP 2007292957 A JP2007292957 A JP 2007292957A
Authority
JP
Japan
Prior art keywords
signal
section
waveform
audio signal
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006119731A
Other languages
English (en)
Other versions
JP5011803B2 (ja
Inventor
Osamu Nakamura
理 中村
Mototsugu Abe
素嗣 安部
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006119731A priority Critical patent/JP5011803B2/ja
Priority to US11/738,736 priority patent/US8085953B2/en
Publication of JP2007292957A publication Critical patent/JP2007292957A/ja
Application granted granted Critical
Publication of JP5011803B2 publication Critical patent/JP5011803B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】良好な音質を得ることができるオーディオ信号伸張圧縮方法及び装置を提供する。
【解決手段】オーディオ信号からクロスフェード信号を生成するクロスフェード信号生成部131と、オーディオ信号から差信号を生成し、その差信号の時間軸を反転した時間軸反転差信号を生成する時間軸反転差信号生成部132と、時間軸反転差信号をクロスフェード信号に加算する加算部133とを備える。
【選択図】図3

Description

本発明は、音楽等の再生速度を変化させるためのオーディオ信号伸張圧縮方法及び装置に関するものである。
デジタル音声信号に対する時間領域での伸張圧縮アルゴリズムとしてPICOLA(Pointer Interval Control OverLap and Add)が知られている。このアルゴリズムは、処理が単純かつ軽量でありながら、音声信号に対して良好な音質が得られるという利点がある。以下、図を参照して、このPICOLAについて簡単に説明する。以下、本明細書では、音楽等に含まれる音声以外の信号を音響信号と呼び、音声信号と音響信号を合わせてオーディオ信号と呼ぶこととする。
図22は、PICOLAを用いて原波形を伸張する例を示している。まず、原波形(a)から波形がよく似ている区間Aと区間Bを見つける。区間Aと区間Bのサンプル数は同じである。続いて、区間Bでフェードアウトする波形(b)を作る。同様に、区間Aからフェードインする波形(c)を作り、波形(b)と波形(c)を足し合わせることにより、伸張波形(d)を得る。このように、フェードアウトする波形とフェードインする波形を足し合わせることをクロスフェードと呼ぶ。区間Aと区間Bのクロスフェード区間を区間AxBと表すこととすると、以上の操作を行なうことにより、区間Aと区間Bは、区間Aと区間AxBと区間Bとに変更され、伸張されたことになる。
図23は、類似波形である区間Aと区間Bの区間長Wを検出する方法を示す模式図である。まず、処理開始位置P0を起点として、jサンプルの区間Aと区間Bを図23(a)のように定める。図23(a)→図23(b)→図23(c)のように少しずつjを伸ばしながら区間Aと区間Bが最も類似するjを求める。類似度を測る尺度として、例えば、次の関数D(j)を使うことができる。
Figure 2007292957
WMIN≦j≦WMAXの範囲でD(j)を計算し、D(j)が最も小さな値となるjを求める。このときのjが、区間Aと区間Bの区間長Wである。ここで、x(i)は、区間Aの各サンプル値を示し、y(i)は、区間Bの各サンプル値を示す。また、WMAXとWMINは、例えば50Hz〜250Hz程度の値であり、サンプリング周波数が8kHzであれば、WMAX=160、WMIN=32程度である。図23の例では、(b)におけるjが関数D(j)を最も小さくするjとして選ばれる。
図24は、任意の長さに波形を伸張する方法を示す模式図である。まず、図23で示したように処理開始位置P0を起点として関数D(j)が最小となるjを求め、W=jとおく。続いて、図24に示すように区間2401を区間2403にコピーし、区間2401と区間2402のクロスフェード波形を区間2404に作成する。そして、原波形(a)の位置P0から位置P0’までの区間から区間2401を除いた残りの区間を伸張波形(b)にコピーする。以上の操作により、原波形(a)の位置P0から位置P0’までのLサンプルが伸張波形(b)ではW+Lサンプルとなり、サンプル数はr倍となる。
Figure 2007292957
この式をLについて書き換えると、(3)式となり、原波形(a)のサンプル数をr倍したい場合は、(4)式のように位置P0’を定めれば良いことが分かる。
Figure 2007292957
更に、1/rを(5)式のように置くと、(6)式となる。
Figure 2007292957
このようにRを使うことにより、原波形(a)を「R倍速再生する」といった表現をすることができる。以下ではこのRを話速変換率と呼ぶこととする。なお、図24の例では、サンプル数Lがおおよそ2.5Wであるので、約0.7倍速再生の遅聴に相当する。
原波形(a)の位置P0から位置P0’の処理が終了したら、位置P0’を位置P1とし、改めて処理の起点と見なして同様の処理を繰り返す。
続いて、原波形の圧縮について説明する。図25は、PICOLAを用いて原波形を圧縮する例を示している。まず、原波形(a)から、波形がよく似ている区間Aと区間Bを見つける。区間Aと区間Bのサンプル数は同じである。続いて、区間Aでフェードアウトする波形(b)を作る。同様に、区間Bからフェードインする波形(c)を作り、波形(b)と波形(c)を足し合わせると、圧縮波形(d)が得られる。以上の操作を行なうことにより、区間Aと区間Bは、区間AxBに変更される。
図26は、任意の長さに波形を圧縮する方法を示している。まず、図23で示したように処理開始位置P0を起点として関数D(j)が最小となるjを求め、W=jとおく。続いて、図26に示すように区間2601と区間2602のクロスフェード波形を区間2603に作成する。そして、原波形(a)の位置P0から位置P0’までの区間から区間2601と区間2602を除いた残りの区間を圧縮波形(b)にコピーする。以上の操作により、原波形(a)の位置P0から位置P0’までのW+Lサンプルが圧縮波形(b)ではLサンプルとなり、サンプル数はr倍となる。
Figure 2007292957
この(7)式をLについて書き換えると、(8)式となり、原波形(a)のサンプル数をr倍する場合は、(9)式のように位置P0’を定めればよい。
Figure 2007292957
更に、1/rを(10)式のように置くと、(11)式となる。
Figure 2007292957
このようにRを使うことにより、原波形(a)を「R倍速再生する」といった表現をすることができる。原波形(a)の位置P0から位置P0’の処理が終了したら、位置P0’を位置P1とし、改めて処理の起点と見なして同様の処理を繰り返す。
図26の例は、サンプル数Lがおおよそ1.5Wであるので、約1.7倍速再生の速聴に相当する。
図27は、PICOLAの波形伸張の処理の流れを示すフローチャートである。ステップS1001では、入力バッファに処理すべきオーディオ信号があるか否かを調べ、オーディオ信号がない場合は処理を終了する。処理すべきオーディオ信号がある場合は、ステップS1002に進み、処理開始位置Pを起点として関数D(j)が最小になるjを求め、W=jとおく。ステップS1003では、ユーザが指定した話速変換率RからLを求め、ステップS1004では、処理開始位置PからWサンプル分の区間Aを出力バッファに出力する。ステップS1005では、処理開始位置PからWサンプル分の区間Aと次のWサンプル分の区間Bのクロスフェードを求め、区間Cとし、ステップS1006において、この区間Cを出力バッファに出力する。ステップS1007では、入力バッファの位置P+WからL−Wサンプル分を出力バッファに出力(コピー)する。ステップS1008では、処理開始位置PをP+Lに移動させ、ステップS1001に戻り処理を繰り返す。
図28は、PICOLAの波形圧縮の処理の流れを示すフローチャートである。ステップS1101では、入力バッファに処理すべきオーディオ信号があるか否かを調べ、オーディオ信号がない場合は処理を終了する。処理すべきオーディオ信号がある場合は、ステップS1102に進み、処理開始位置Pを起点として関数D(j)が最小になるjを求め、W=jとおく。ステップS1103では、ユーザが指定した話速変換率RからLを求める。ステップS1104では、処理開始位置PからWサンプル分の区間Aと次のWサンプル分の区間Bのクロスフェードを求め、区間Cとし、ステップS1105において、この区間Cを出力バッファに出力する。ステップS1106では、入力バッファの位置P+2WからL−Wサンプル分を出力バッファに出力(コピー)する。ステップS1107では、処理開始位置PをP+(W+L)に移動してから、ステップS1101に戻り処理を繰り返す。
図29は、PICOLAによる話速変換装置100の構成の一例である。処理すべき入力オーディオ信号はまず入力バッファ101にバッファリングされる。この入力バッファ101のオーディオ信号に対して、類似波形長抽出部102が、関数D(j)を最小にするjを求めて、W=jとおく。類似波形長抽出部102で求まったWは、入力バッファ101に渡され、バッファ操作に利用される。類似波形長抽出部102は、オーディオ信号2Wサンプルを接続波形生成部103に渡す。接続波形生成部103は、受け取った2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。話速変換率Rに合わせて入力バッファ101と接続波形生成部103から出力バッファ104にオーディオ信号を送る。出力バッファ104に生成されたオーディオ信号は、出力オーディオ信号として、話速変換装置から出力される。
図30は、図29の構成例における接続波形生成部103における処理の流れを示すフローチャートである。伸張の場合、区間Aの各サンプル値をx(i)(i=0,1,・・・,W−1)、区間Bの各サンプル値をy(i)(i=0,1,・・・,W−1)とし、圧縮の場合、区間Bの各サンプル値をx(i)(i=0,1,・・・,W−1)、区間Aの各サンプル値をy(i)(i=0,1,・・・,W−1)とする。クロスフェード後の各サンプル値をz(i)(i=0,1,・・・,W−1)とする。
ステップS1201では、インデックスiを0にリセットする。ステップS1202では、インデックスiがWより小さいか否か調べ、小さい場合はステップS1203に進み、小さくない場合は処理を終了する。ステップS1203では、重みh=i/Wを求め、ステップS1204では、クロスフェード信号z(i)を計算する。
Figure 2007292957
ステップS1205では、インデックスiを1増加させた後、ステップS1202に戻り、処理を繰り返す。以上の処理によりz(i)にはx(i)とy(i)のクロスフェード値が格納される。
以上、図22〜図30を用いて説明したように、話速変換アルゴリズムPICOLAによって、任意の話速変換率R(0.5≦R<1.0,1.0<R≦2.0)でオーディオ信号を伸張圧縮させることができる。
森田,板倉,「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,日本音響学会論文集,昭和61年10月,pp.149−150
しかしながら、従来のPICOLAでは、音声信号に対しては良好な音質が得られるものの、音楽等の音響信号に対しては良好な音質が得られ難いという問題が生じることがある。これは、一般に音楽に様々な楽器の音が含まれるため、音響信号にも様々な周波数の波形が重なるからである。
図31は、区間Aと区間Bの波形(a)を伸張して伸張波形(b)を得る場合の波形の様子を示したものであり、(a)の区間Aと区間Bの実線波形は同相である。また、図31において、点線で示した波形に、実線で示した小振幅の波形が重なっている様子を示している。原波形(a)を1.5倍に伸張する場合、原波形(a)の区間A(3101)を伸張波形(b)の区間A(3103)にコピーし、原波形(a)の区間A(3101)と区間B(3102)のクロスフェード波形を伸張波形(b)の区間AxB(3104)に生成し、最後に、原波形(a)の区間B(3102)を伸張波形(b)の区間B(3105)にコピーする。この場合、伸張波形(b)の実線波形の包絡線は、模式的に同図(c)のように表現される。
同様に、図32は、区間Aと区間Bの波形(a)を伸張して伸張波形(b)を得る場合の波形の様子を示したものであり、(a)の区間Aと区間Bの実線波形は逆相である。原波形(a)を1.5倍に伸張する場合、原波形(a)の区間A(3201)を伸張波形(b)の区間A(3203)にコピーし、原波形(a)の区間A(3201)と区間B(3202)のクロスフェード波形を伸張波形(b)の区間AxB(3204)に生成し、最後に、原波形(a)の区間B(3202)を伸張波形(b)の区間B(3205)にコピーする。この場合、伸張波形(b)の実線波形の包絡線は、模式的に同図(c)のように表現される。
これら図31及び図32を比較すると容易に分かるように、クロスフェード後の波形は、クロスフェード前の2つの波形の相関関係によって、振幅が大きく変わってしまう。つまり、異音が発生してしまう。なお、一般の音響信号において、図32(a)の実線波形のような波形が含まれることは考え難いが、選択された区間Aと区間Bに逆相に近い波形が含まれることは実際に頻発する。
また、図33は、図31及び図32で説明した内容を、もう少し長い波形に対して適用した例である。図33(a)の原波形を5つの区間A1,A2,A3,A4,A5に分けた場合、それぞれの区間が同相の関係を持っていれば、図33(b)に示すような波形となり、逆相の関係を持っていれば図33(c)のような波形となり、更に、それぞれの区間が無相の関係を持っていれば、図33(d)のようになり、逆相や無相の関係を持っている場合、うねり状の異音が顕著となる。
図34は、無相の場合の具体例であり、白色ノイズである図34(a)の原波形を5つの区間A1,A2,A3,A4,A5に分けた場合、その伸張波形は、図34(b)のようになる。つまり、おおよそ図33(d)の模式図のようになり、原波形に存在しない、うねり状の異音が波形に発生してしまう。実際の音響信号では、ここまで極端ではないものの、瞬間に含まれる音の成分がこのような影響を受ける結果、聴覚的にうねり状の異音を確認するに至ってしまう。
このように、従来のPICOLAでは、原波形に存在しない、うねり状の異音が発生する傾向があり、耳障りになっていた。また、伸張圧縮処理した波形の振幅が平均的に小さくなる傾向があった。
本発明は、これらの問題点を鑑みてなされたものであり、良好な音質を得ることができるオーディオ信号伸張圧縮方法及び装置を提供することを目的とする。
上述した課題を解決するために、本発明は、オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮方法において、上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と上記第2の区間の信号のクロスフェード信号を生成するクロスフェード信号生成工程と、上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し、窓関数を乗じて補正信号を生成する補正信号生成工程と、上記クロスフェード信号と上記補正信号とを加算し、上記時間軸領域で伸張圧縮するための接続波形を生成する接続波形生成工程とを有することを特徴としている。
また、本発明は、オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮装置において、上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と上記第2の区間の信号のクロスフェード信号を生成するクロスフェード信号生成手段と、上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し、窓関数を乗じて補正信号を生成する補正信号生成手段と、上記クロスフェード信号と上記補正信号とを加算し、上記時間軸領域で伸張圧縮するための接続波形を生成する接続波形生成手段とを有することを特徴としている。
また、本発明は、オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮方法において、上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と第2の区間の信号の和信号を生成する和信号生成工程と、上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し補正信号を生成する補正信号生成工程と、上記和信号と上記補正信号とを加算する加算工程と、上記加算工程で加算された信号に上記第1の区間の信号と上記第2の区間の信号とをクロスフェードし、接続波形を生成する接続波形生成工程とを有することを特徴としている。
また、本発明は、オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮装置において、上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と第2の区間の信号の和信号を生成する和信号生成手段と、上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し補正信号を生成する補正信号生成手段と、上記和信号と上記補正信号とを加算する加算手段と、上記加算手段で加算された信号に上記第1の区間の信号と上記第2の区間の信号とをクロスフェードし、上記時間軸領域で伸張圧縮するための接続波形を生成する接続波形生成手段とを有することを特徴としている。
本発明によれば、オーディオ信号内の連続して類似する第1の区間と第2の区間を用いて、第1の区間の信号と第2の区間の信号との差信号を時間軸反転させた補正信号によりクロスフェード信号を生成することにより、うねり状の異音を軽減させることができる。
以下、本発明の具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本発明の第1の実施形態におけるオーディオ信号伸張圧縮装置の構成を示すブロック図である。
オーディオ信号伸張圧縮装置10は、入力オーディオ信号をバッファリングする入力バッファ11と、入力バッファ11のオーディオ信号に対し、連続して類似する波形長(2Wサンプル分)を抽出する類似波形長抽出部12と、2Wサンプルのオーディオ信号をクロスフェードしてWサンプルの接続波形を生成する接続波形生成部13と、話速変換率Rに応じて入力された入力オーディオ信号と接続波形とからなる出力オーディオ信号を出力する出力バッファ14とを備えて構成されている。
処理すべき入力オーディオ信号は、入力バッファ11にバッファリングされる。
類似波形長抽出部12は、図2に示すように入力バッファ11にバッファリングされたオーディオ信号に対して、処理開始位置P0を起点として、jサンプルの区間Aと区間Bを図2(a)のように定める。図2(a)→図2(b)→図2(c)のように少しずつjを伸ばしながら区間Aと区間Bが最も類似するjを求める。類似度を測る尺度として、例えば、次の関数D(j)を使うことができる。
Figure 2007292957
WMIN≦j≦WMAXの範囲でD(j)を計算し、D(j)が最も小さな値となるjを求める。このときのjが、区間Aと区間Bの区間長Wである。ここで、x(i)は、区間Aの各サンプル値を示し、y(i)は、区間Bの各サンプル値を示す。又、WMAXとWMINは、例えば50Hz〜250Hz程度の値であり、サンプリング周波数が8kHzであれば、WMAX=160、WMIN=32程度である。図2の例では、(b)におけるjが関数D(j)を最も小さくするjとして選ばれる。
類似波形長抽出部12で求められたWは、入力バッファ11に渡され、バッファ操作に利用される。類似波形長抽出部12は、オーディオ信号の2Wサンプルを接続波形生成部13に出力する。接続波形生成部13は、入力した2Wサンプルのオーディオ信号をクロスフェードしてWサンプルにする。入力バッファ11と接続波形生成部13は、話速変換率Rに合わせて出力バッファ14にオーディオ信号を出力する。出力バッファ14にバッファリングされたオーディオ信号は、オーディオ信号伸張圧縮装置10から出力オーディオ信号として出力される。
図3は、第1の実施形態における接続波形生成部13の構成を示すブロック図である。この接続波形生成部13は、オーディオ信号からクロスフェード信号を生成するクロスフェード信号生成部131と、オーディオ信号から差信号を生成し、その差信号の時間軸を反転した時間軸反転差信号を生成する時間軸反転差信号生成部132と、時間軸反転差信号をクロスフェード信号に加算する加算部133とを備えている。
接続波形を生成するためのオーディオ信号が入力されると、クロスフェード信号生成部131は、オーディオ信号からクロスフェード信号を生成する。同時に、時間軸反転差信号生成部132は、オーディオ信号から差信号を生成し、その差信号の時間軸を反転し、窓関数を掛けて時間軸反転差信号を生成する。加算部133は、時間軸反転差信号生成部132で生成された時間軸反転差信号を、クロスフェード信号生成部131で生成されたクロスフェード信号に加算し、その結果であるオーディオ信号を接続波形生成部13の出力とする。
続いて、接続波形生成部13の信号処理について説明する。図4は、接続波形生成部13における信号処理を模式的に示したものである。クロスフェード信号生成部131で生成されたクロスフェード波形AxBは、時間軸反転差信号生成部132で生成された補正信号である時間軸反転差信号により補正される。
図4(a)は、同相波形同士のクロスフェード波形の場合であり、補正は必要とされない。図4(b)は、逆相波形同士のクロスフェード波形の場合であり、図4に示すような補正信号Sを適用すれば、クロスフェード前の波形の振幅が保たれる。図4(c)は、無相波形同士のクロスフェード波形の場合であり、補正信号Sを適用すれば、クロスフェード前の波形の振幅が保たれる。本発明の具体例では、この補正を行うことにより、問題の解決を図る。
時間軸反転差信号生成部13は、クロスフェード前の2つの区間の信号x(i)(i=0,1,2,・・・,W−1)と、信号y(i)(i=0,1,2,・・・,W−1)とを入力し、補正信号Sを生成する。補正信号Sを、s(i)(i=0,1,2,・・・,W−1)とすると、補正信号Sは、(14)式のように定められる。
Figure 2007292957
ここで、△は、後述するような窓関数である。この(14)式では、クロスフェード前の2つの区間の波形の差分を求め、2で割ってから、時間軸を反転し、窓関数を掛けている。クロスフェード前の2つの区間の波形が同相であれば、クロスフェード前の信号の差信号の振幅は小さく、逆相であればその差信号の振幅は大きく、無相であればその差信号の振幅は中間程度になり、図4で示したように、クロスフェード区間の波形の振幅の減衰を適当に補うことができる。
図5は、補正信号Sを生成する際に用いる窓関数の一例である。この窓関数を用いた信号処理方法について、図6に示すフローチャートを参照して説明する。なお、W、x(i)、y(i)、z(i)等の記号の意味は、これまでの図と同様である。
ステップS101では、インデックスiを0にリセットする。ステップS102において、接続波形生成部13は、インデックスiがWより小さいか否か調べ、小さい場合はステップS103に進み、小さくない場合は処理を終了する。
ステップS103では、重みhを求め、ステップS104では、図5に示した窓関数kを求める。
Figure 2007292957
ステップS105において、クロスフェード信号生成部131は、各サンプル値x(i)とy(i)からクロスフェード信号t(i)を生成し、同時に、時間軸反転差信号生成部132は、補正信号s(i)を上記(14)式より生成する。そして、加算部133は、これらt(i)とs(i)から、接続波形であるクロスフェード信号z(i)を生成する。ステップS106では、インデックスiを1増加させた後、ステップS102に戻り、以上の処理を繰り返す。
このようにクロスフェード信号t(i)を補正信号s(i)を用いて補正し、接続波形を生成することにより、音声信号のみならず音響信号であっても、原音に近い良好な話速変換を実現することができる。
また、図7は、補正信号Sを生成する際に用いる窓関数の他の例である。図5に示す窓関数では、補正信号Sの強度を自由に決められないため、音声信号なら強度を弱く音響信号なら強度を強くするなど、ユーザの好みや音源の種類に応じたカスタマイズなどの自由度がない。そこで、図7に示す窓関数を用いて補正信号Sの強度を自由に設定できるようにした。図8は、図7に示す窓関数を用いた信号処理を説明するためのフローチャートである。
ステップS201では、インデックスiを0にリセットする。ステップS202において、接続波形生成部13は、インデックスiがWより小さいか否か調べ、小さい場合はステップS203に進み、小さくない場合は処理を終了する。
ステップS203では、重みhを求め、ステップS204では、図7に示した窓関数kを求める。
Figure 2007292957
ここで、係数aは、ユーザが定める補正信号の強度を表す。例えば、aが0に近い値の場合、補正信号の強度は弱くなる。
ステップS205において、クロスフェード信号生成部131は、各サンプル値x(i)とy(i)からクロスフェード信号t(i)を生成し、同時に、時間軸反転差信号生成部132は、補正信号s(i)を上記(14)式より生成する。そして、加算部133は、これらt(i)とs(i)から、接続波形であるクロスフェード信号z(i)を生成する。ステップS206では、インデックスiを1増加させた後、ステップS202に戻り、以上の処理を繰り返す。このような処理により、ユーザの好みや音源の種類に応じたカスタマイズなどの自由度が得られる。
また、図9は、補正信号Sを生成する際に用いる窓関数の他の一例である。図10は、図9に示す窓関数を用いた信号処理を説明するためのフローチャートである。
ステップS301では、インデックスiを0にリセットする。ステップS302では、インデックスiがWより小さいか否か調べ、小さい場合はステップS303に進み、小さくない場合は処理を終了する。
ステップS303では、重みhを求め、ステップS304では、図9に示した窓関数kを求める。
Figure 2007292957
ここで、係数aは、ユーザが定める補正信号の強度を表す。例えば、aが0に近い値の場合、補正信号の強度は弱くなる。
ステップS305において、クロスフェード信号生成部131は、各サンプル値x(i)とy(i)からクロスフェード信号t(i)を生成し、同時に、時間軸反転差信号生成部132は、補正信号s(i)を上記(14)式より生成する。そして、加算部133は、これらt(i)とs(i)から、接続波形であるクロスフェード信号z(i)を生成する。ステップS306では、インデックスiを1増加させた後、ステップS302に戻り、以上の処理を繰り返す。以上の処理により、処理する信号が音声信号のみならず音響信号であっても、原音に近い良好な話速変換の実現が可能となる。
このように窓関数を掛けることにより、クロスフェード区間の包絡に差信号を合わせることできる。また、差信号の時間軸を反転することにより、クロスフェード区間AxBと補正信号Sとの位相がずれ、補正信号として確実に働くようになる。
例えば、白色ノイズである図11(a)に示す原波形を5つの区間A1,A2,A3,A4,A5に分け、従来の方法で伸張させた場合、図11(b)に示すような原波形に存在しない、うねり状の異音が波形に発生してしまっていたが、上述した窓関数を用いて伸張させた場合、図11(c)のように、視覚的にも原波形(a)に近いものにすることができる。また、聴覚的にも、原波形(a)に近い音が出力されていることを確認することできる。
また、時間軸を反転しない場合、図12に示すように、実質的に短い区間でのクロスフェードと等価になり、振幅が小さくなる区間の長さが短くなるだけで、うねり状の異音を減衰させる効果を発揮しない。また、クロスフェード区間長を短くすることは別の異音を発生させる要因となる。
図12(a)は、区間Aと区間Bから成る原音を、クロスフェードを使って伸張した波形の模式図であり、クロスフェード区間1201は、区間Aと区間Bのそれぞれの成分の比率を示している。また、図12(b)は、区間Aの信号から区間Bの信号を引き、図5の三角窓を掛けたものであり、時間軸反転はしていない。この例は、区間Aと区間Bの波形が逆相の場合を示しており、図12(a)の信号に図12(b)の信号を加えると、図12(c)のように、結果的に、図12(a)におけるクロスフェード区間長の半分程度の長さのクロスフェードをしていることになってしまう。ここで、図12(c)のクロスフェード区間1203の位置が区間1202の区間A側になっているのは、区間Aから区間Bを引いて図12(b)の差信号を生成しているためである。逆に、区間Bから区間Aを引いて差信号を生成すれば、図12(c)のクロスフェード区間1203の位置は区間1202の区間B側になる。
なお、区間Aと区間Bの波形が同相の場合は、差信号はゼロに近くなるので、図12(c)の区間1202は、図12(a)の区間1201と同じ、単なるクロスフェードとなる。また、無相の場合は、図12(c)の区間1202と図12(a)の区間1201の中間となってしまう。
このように、差信号の時間軸反転を行なわない場合、結果的に、クロスフェード区間長を従来のクロスフェード区間長以下にしたものと等価になってしまい、良好な音質を得ることができない。
ところで、図5〜図10で示したような方法で補正信号Sを生成した場合、補正信号Sとクロスフェード信号とが正の相関を持つとは限らない。負の相関を持つよりも、正の相関を持った方が、補正信号とクロスフェード信号との加算において打ち消しあう成分が少なくなる。そこで、接続波形生成部13は、補正成分Sをクロスフェード信号に加算する前に、両者の相関を求め、相関が負の場合は、補正成分の符号を反転することによって、必ず両者の相関を非負とする。
図13及び図14は、補正信号とクロスフェード信号が非負の相関を有するように処理を施すフローチャートである。
ステップS401では、インデックスiと係数uを0にリセットする。ステップS402では、インデックスiがWより小さいか否か調べ、小さい場合はステップS403に進み、小さくない場合はステップS408に進む。ステップS403では、重みhを求め、ステップS404では、窓関数kを求める。なお、ここでは、図5に示した窓関数を用いているが、これに限るものではない。
ステップS405において、クロスフェード信号生成部131は、各サンプル値x(i)とy(i)からクロスフェード信号t(i)を生成し、同時に、時間軸反転差信号生成部132は、補正信号s(i)を上記(14)式より生成する。ステップS406では、クロスフェード信号t(i)と補正信号s(i)の相関を求めるため、これらの積の和を求める。ステップS407では、インデックスiを1増加させた後、ステップS402に戻り、以上の処理を繰り返す。
ステップS408では、クロスフェード信号t(i)と補正信号s(i)の相関が負か否か調べ、負の場合は係数uを−1、非負の場合は係数uを1にセットし、図14に示す後続処理1へ進む。
図14に示す後続処理1では、ステップS405において求めた補正信号s(i)に係数uを掛けてから、クロスフェード信号t(i)に加算することで、うねり状の異音が発生し難いクロスフェード信号z(i)を求める。つまり。ステップS501でインデックスiを0にリセットし、ステップS502でインデックスiがWより小さいか否か調べる。小さい場合はステップS503に進み、小さくない場合は処理を終了する。
ステップS503では、補正信号s(i)に係数uを掛けてから、クロスフェード信号t(i)を加算し、接続波形であるクロスフェード信号z(i)を求める。
Figure 2007292957
ステップS504では、インデックスiを1増加させた後、ステップS502に戻り、処理を繰り返す。以上の処理により更に音質の改善を図ることができる。
また、クロスフェード信号と補正信号の相関が無相に近い場合、補正の程度が弱い場合がある。これは、補正信号の中に含まれる逆相成分がクロスフェード信号を減衰させる作用を持つためである。そこで、以下では、クロスフェード前の2つの区間のエネルギーを求め、それをもとに補正信号Sの強度を調節する方法を図15及び図16に示すフローチャートを用いて説明する。
ステップS601では、インデックスi、係数u、信号x(i)のエネルギーeX、信号y(i)のエネルギーeYを0にリセットする。ステップS602では、インデックスiがWより小さいか否か調べ、小さい場合は、ステップS603に進み、小さくない場合は、ステップS608に進む。ステップS603では、重みhと窓関数kを求める。なお、ここでは、図5に示した窓関数を用いているが、これに限るものではない。
ステップS604において、クロスフェード信号生成部131は、クロスフェード信号t(i)生成し、時間軸反転差信号生成部132は、補正信号s(i)を生成する。ステップS605では、クロスフェード信号t(i)と補正信号s(i)の相関を求めるために、これらの積の和を求める。
Figure 2007292957
ステップS606では、信号x(i)と信号y(i)のエネルギーを求めるため、各サンプル値の自乗の和を求める。
Figure 2007292957
ステップS607では、インデックスiを1増加させた後、ステップS602に戻って処理を繰り返す。
ステップS608では、クロスフェード信号t(i)と補正信号s(i)の相関が負か否か調べ、負の場合は係数uを−1、非負の場合は係数uを1にセットし、図16に示す後続処理2へ進む。
図16に示す後続処理2では、ステップS604において求めた補正信号s(i)に係数uを掛けた信号の強度を調節し、クロスフェード信号t(i)に加算することで、うねり状の異音が発生し難いクロスフェード信号z(i)を求める。
ステップS701では、係数vをステップ量d(0<d≦1)にセットする。ステップ量dは、例えば0.1などと任意に定めることができる。ステップS702では、インデックスiとクロスフェード区間のエネルギーeZを0にリセットする。ステップS703では、インデックスiがWより小さいか否か調べ、小さい場合はステップS704に進み、小さくない場合はステップS707に進む。
ステップS704では、補正信号s(i)に係数uと係数vを掛けてから、クロスフェード信号t(i)と加算し、うねり状の異音が発生し難いクロスフェード信号z(i)を求める。
Figure 2007292957
ステップS705では、信号z(i)のエネルギーを求めるため、各サンプル値の自乗の和を求める。
Figure 2007292957
ステップS706では、インデックスiを1増加させた後、ステップS703に戻り、処理を繰り返す。ステップS707では、クロスフェード前の2つの区間の信号のエネルギーとクロスフェード後の信号のエネルギーの比較を行なっている。クロスフェード前の2つの区間の信号のエネルギーよりもクロスフェード後の信号のエネルギーの方が小さい場合は、ステップS708に進み、係数vにステップ量dを加算してからステップS702に戻り、処理を繰り返す。小さくない場合は、処理を終了する。
以上の処理を行うことにより、クロスフェード信号z(i)の平均振幅は、クロスフェード前の2つの区間の信号の平均振幅の平均程度になり、より音質の改善を図ることができる。
次に、本発明を適用した第2の実施形態について説明する。第1の実施形態では、オーディオ信号内の連続して類似する第1の区間と第2の区間を用いてクロスフェード信号を生成し、第1の区間の信号と第2の区間の信号との差信号を時間軸反転し、窓関数を乗じて補正信号である時間軸反転差信号を生成し、クロスフェード信号と補正信号とを加算して接続波形を生成したが、第2の実施形態では、第1の区間と第2の区間の和信号に第1の区間と第2の区間の差信号を時間軸反転させたものを加算し、クロスフェード信号を生成する。
第2の実施形態におけるオーディオ信号伸張圧縮装置20は、図1に示すオーディオ信号伸張圧縮装置10と同様であり、入力オーディオ信号をバッファリングする入力バッファ11と、入力バッファ11のオーディオ信号に対し、連続して類似する波形長(2Wサンプル分)を抽出する類似波形長抽出部12と、2Wサンプルのオーディオ信号をクロスフェードしてWサンプルの接続波形を生成する接続波形生成部21と、話速変換率Rに応じて入力された入力オーディオ信号と接続波形とからなる出力オーディオ信号を出力する出力バッファ14とを備えて構成されている。すなわち、第1の実施形態におけるオーディオ信号伸張圧縮装置10とは、接続波形生成処理が異なる。なお、第1の実施形態と同様な構成には、同一の符号を付し、説明を省略する。
図17は、接続波形生成部21の構成を示すブロック図である。接続波形生成部21は、入力オーディオ信号から和信号を生成する和信号生成部211と、入力オーディオ信号から差信号を生成し、その差信号の時間軸を反転し、時間軸反転差信号を生成する時間軸反転差信号生成部212と、時間軸反転差信号を和信号に加算する加算部213と、加算部213で加算された信号からクロスフェード信号を生成するクロスフェード信号生成部214とを備えている。
接続波形を生成するためのオーディオ信号が入力されると、和信号生成部211は、入力オーディオ信号から和信号を生成する。同時に、時間軸反転差信号生成部212は、入力オーディオ信号から差信号を生成し、その差信号の時間軸を反転し、時間軸反転差信号を生成する。加算部213は、時間軸反転差信号生成部212で生成された時間軸反転差信号を和信号生成部211で生成された和信号に加算する。クロスフェード信号生成部214は、加算部213で加算された信号が前後の波形と滑らかに繋がるように、入力オーディオ信号とクロスフェードを行ない、その結果であるオーディオ信号を接続波形生成部21の出力とする。
図18は、接続波形生成部21によって原波形を伸張する処理を示す模式図である。この伸張例では、区間Aと区間Bの間に挿入する新たな区間Cは、(24)式により求められる。
Figure 2007292957
ここで、区間Aの各サンプル値は、x(i)(i=0,1,・・・,W−1)、区間Bの各サンプル値は、y(i)(i=0,1,・・・,W−1)であり、新たな区間Cの各サンプル値は、z(i)(i=0,1,・・・,W−1)である。また、z(i)は、区間Aと区間Bの和信号に、差信号の時間軸反転を加えたものである。すなわち、z(i)は、和信号生成部211で生成された区間Aと区間Bの和信号に、時間軸反転差信号生成部212で生成された区間Aと区間Bの時間軸反転差信号を加算したものである。
さらに、クロスフェード信号生成部214において波形接続時に波形の不連続を防ぐ目的で次のようなクロスフェードを行なう。つまり、波形連続性を保つために、連続する区間の波形をフェードイン、フェードアウトさせる。
Figure 2007292957
ここで、mは、接続波形を接続する前後の波形と接続波形を繋ぐ際に行なうクロスフェードのサンプル数を表すものであり、クロスフェードを行なわない場合がm=0となり、クロスフェードの最大サンプル数はm=W/2となる。
また、図19は、接続波形生成部21によって原波形を圧縮する処理を示す模式図である。この圧縮例では、区間Aの各サンプル値をy(i)(i=0,1,・・・,W−1)、区間Bの各サンプル値をx(i)(i=0,1,・・・,W−1)とすると、上述した伸張と同じ計算にて新たな区間Cの各サンプル値z(i)を求めることができる。
以上のように、2つの区間の和信号に差信号を時間軸反転させた信号を加算し、これをクロスフェードで挿入することにより、うねり状の異音を抑えた良好な音質を、音声信号のみならず音響信号においても得ることができる。
図20及び図21は、第2の実施形態の接続波形生成部21によって、話速変換を行なう場合の、フローチャートの一例である。
ステップS801では、インデックスiを0にリセットする。ステップS802では、インデックスiがWより小さいか否か調べ、小さい場合はステップS803に進み、小さくない場合は後続処理3へ進む。
ステップS803において、上記(24)式に示すように、和信号生成部211で生成された2つの区間の和信号t(i)と、時間軸反転差信号生成部212で生成された差信号を時間軸反転させた時間軸反転差信号s(i)を求め、これらを加算部213で加算することで、z(i)を求める。ステップS804では、インデックスiを1増加させた後、ステップS802に戻り、処理を繰り返す。
図21に示す後続処理3では、ステップS901でインデックスiを0にリセットし、ステップS902でインデックスiがmより小さいか否か調べ、小さい場合は、ステップS903に進み、小さくない場合は、ステップS906に進む。
ステップS903及びステップS904において、クロスフェード信号生成部214は、重みhを求め、接続波形とその手前の波形がスムーズに繋がるようにクロスフェードを行なう。
ステップS905では、インデックスiを1増加させた後、ステップS902に戻り、処理を繰り返す。ステップS906では、インデックスiを0にリセットし、ステップS907では、インデックスiがmより小さければステップS908に進み、小さくなければ処理を終了する。
ステップS908及びステップS909において、クロスフェード信号生成部214は、重みhを求め、接続波形とその後の波形がスムーズに繋がるようにクロスフェードを行なう。
ステップS910では、インデックスiを1増加させた後、ステップS907に戻り、処理を繰り返す。
以上のように、接続波形を生成する際に、もとの2つの波形の差信号の時間軸反転を加算することにより、話速変換時に発生する傾向があるうねり状の異音を抑える効果を得られる。また、これまでの説明で明らかなように話速変換時に発生する傾向がある平均振幅の減衰を抑える効果を得ることができる。
なお、上述の説明では、従来のPICOLAのクロスフェード処理の置き換えを示してきたが、本発明の方法は、これに限るものではなく、他のOLA(OverLap and Add)系のアルゴリズム等、クロスフェード処理を伴う時間軸上の話速変換アルゴリズムに適用可能である。またPICOLAが、サンプリング周波数を一定とする場合は話速変換となり、サンプル数の増減に合わせてサンプリング周波数を変える場合はピッチシフトとなることから、本発明も、話速変換に限らず、ピッチシフトにも適用可能である。
本発明の第1の実施形態におけるオーディオ信号伸張圧縮装置の構成を示すブロック図である。 類似波形長抽出処理を模式的に示す図である。 第1の実施形態における接続波形生成部13の構成を示すブロック図である。 接続波形生成部における信号処理を模式的に示す図である。 補正信号Sを生成する際に用いる窓関数の一例を示す図である。 図5に示す窓関数を用いた際の接続波形生成処理を示すフローチャートである。 補正信号Sを生成する際に用いる窓関数の一例を示す図である。 図7に示す窓関数を用いた際の接続波形生成処理を示すフローチャートである。 補正信号Sを生成する際に用いる窓関数の一例を示す図である。 図9に示す窓関数を用いた際の接続波形生成処理を示すフローチャートである。 本発明を適用させた白色ノイズの伸張波形の具体例を示す図である。 時間軸を反転しない場合の信号処理示す模式図である。 補正信号とクロスフェード信号が非負の相関を有するように処理を施すフローチャート(その1)である。 補正信号とクロスフェード信号が非負の相関を有するように処理を施すフローチャート(その2)である。 補正信号Sの強度を調節する処理を示すフローチャート(その1)である。 補正信号Sの強度を調節する処理を示すフローチャート(その2)である。 第2の実施形態における接続波形生成部の構成を示すブロック図である。 原波形を伸張する処理を示す模式図である。 原波形を圧縮する処理を示す模式図である。 接続波形生成処理を示すフローチャート(その1)である。 接続波形生成処理を示すフローチャート(その2)である。 PICOLAを用いて原波形を伸張する例を示す模式図である。 類似波形である区間Aと区間Bの区間長Wを検出する方法を示す模式図である。 任意の長さに波形を伸張する方法を示す模式図である。 PICOLAを用いて原波形を圧縮する例を示す模式図である。 任意の長さに波形を圧縮する方法を示す模式図である。 PICOLAの波形伸張の処理の流れを示すフローチャートである。 PICOLAの波形圧縮の処理の流れを示すフローチャートである。 PICOLAによる話速変換装置の構成の一例を示すブロック図である。 接続波形生成部における処理の流れを示すフローチャートである。 区間Aと区間Bの波形(a)を伸張して伸張波形(b)を得る場合の波形の様子を示した模式図である。 区間Aと区間Bの波形(a)を伸張して伸張波形(b)を得る場合の波形の様子を示した模式図である。 原波形の5つの区間A1,A2,A3,A4,A5を伸張して伸張波形を得る場合の波形の様子を示した模式図である。 白色ノイズの伸張波形の具体例を示す図である。
符号の説明
10 オーディオ信号伸張圧縮装置、11 入力バッファ、12 類似波形長抽出部、13 接続波形生成部、14 出力バッファ、21 接続波形生成部、131 クロスフェード信号生成部、132 時間軸反転差信号生成部、133 加算部、211 和信号生成部、212 時間軸反転差信号生成部、213 加算部、214 クロスフェード信号生成部

Claims (16)

  1. オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮方法において、
    上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と上記第2の区間の信号のクロスフェード信号を生成するクロスフェード信号生成工程と、
    上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し、窓関数を乗じて補正信号を生成する補正信号生成工程と、
    上記クロスフェード信号と上記補正信号とを加算し、上記時間軸領域で伸張圧縮するための接続波形を生成する接続波形生成工程と
    を有することを特徴とするオーディオ信号伸張圧縮方法。
  2. 上記接続波形は、上記時間軸領域で伸張する際、上記第1の区間と上記第2の区間との間に挿入され、上記時間軸領域で圧縮する際、上記第1の区間と上記第2の区間とをオーバーラップさせた区間に置換されることを特徴とする請求項1記載のオーディオ信号伸張圧縮方法。
  3. 上記窓関数は、三角窓であることを特徴とする請求項1記載のオーディオ信号伸張圧縮方法。
  4. 上記窓関数は、サイン窓であることを特徴とする請求項1記載のオーディオ信号伸張圧縮方法。
  5. 上記補正信号生成工程では、上記補正信号と上記クロスフェード信号が負の相関を持つ場合、上記補正信号の符号を反転させることを特徴とする請求項1記載のオーディオ信号伸張圧縮方法。
  6. 上記補正信号生成工程では、上記接続波形のエネルギーが上記第1の区間の信号のエネルギーと上記第2の区間の信号のエネルギーの中間となるように上記補正信号の振幅を調節することを特徴とする請求項5記載のオーディオ信号伸張圧縮方法。
  7. オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮装置において、
    上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と上記第2の区間の信号のクロスフェード信号を生成するクロスフェード信号生成手段と、
    上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し、窓関数を乗じて補正信号を生成する補正信号生成手段と、
    上記クロスフェード信号と上記補正信号とを加算し、上記時間軸領域で伸張圧縮するための接続波形を生成する接続波形生成手段と
    を有することを特徴とするオーディオ信号伸張圧縮装置。
  8. 上記接続波形は、上記時間軸領域で伸張する際、上記第1の区間と上記第2の区間との間に挿入され、上記時間軸領域で圧縮する際、上記第1の区間と上記第2の区間とをオーバーラップさせた区間に置換されることを特徴とする請求項7記載のオーディオ信号伸張圧縮装置。
  9. 上記窓関数は、三角窓であることを特徴とする請求項7記載のオーディオ信号伸張圧縮装置。
  10. 上記窓関数は、サイン窓であることを特徴とする請求項7記載のオーディオ信号伸張圧縮装置。
  11. 上記補正信号生成手段では、上記補正信号と上記クロスフェード信号が負の相関を持つ場合、上記補正信号の符号を反転させることを特徴とする請求項7記載のオーディオ信号伸張圧縮装置。
  12. 上記補正信号生成手段では、上記接続波形のエネルギーが上記第1の区間の信号のエネルギーと上記第2の区間の信号のエネルギーの中間となるように上記補正信号の振幅を調節することを特徴とする請求項11記載のオーディオ信号伸張圧縮装置。
  13. オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮方法において、
    上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と第2の区間の信号の和信号を生成する和信号生成工程と、
    上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し補正信号を生成する補正信号生成工程と、
    上記和信号と上記補正信号とを加算する加算工程と、
    上記加算工程で加算された信号に上記第1の区間の信号と上記第2の区間の信号とをクロスフェードし、接続波形を生成する接続波形生成工程と
    を有することを特徴とするオーディオ信号伸張圧縮方法。
  14. 上記接続波形は、上記時間軸領域で伸張する際、上記第1の区間と上記第2の区間との間に挿入され、上記時間軸領域で圧縮する際、上記第1の区間と上記第2の区間とをオーバーラップさせた区間に置換されることを特徴とする請求項13記載のオーディオ信号伸張圧縮方法。
  15. オーディオ信号を時間軸領域で伸張圧縮するオーディオ信号伸張圧縮装置において、
    上記オーディオ信号内の類似する第1の区間と第2の区間を用いて、上記第1の区間の信号と第2の区間の信号の和信号を生成する和信号生成手段と、
    上記第1の区間の信号と上記第2の区間の信号との差信号を時間軸反転し補正信号を生成する補正信号生成手段と、
    上記和信号と上記補正信号とを加算する加算手段と、
    上記加算手段で加算された信号に上記第1の区間の信号と上記第2の区間の信号とをクロスフェードし、上記時間軸領域で伸張圧縮するための接続波形を生成する接続波形生成手段と
    を有することを特徴とするオーディオ信号伸張圧縮装置。
  16. 上記接続波形は、上記時間軸領域で伸張する際、上記第1の区間と上記第2の区間との間に挿入され、上記時間軸領域で圧縮する際、上記第1の区間と上記第2の区間とをオーバーラップさせた区間に置換されることを特徴とする請求項15記載のオーディオ信号伸張圧縮装置。
JP2006119731A 2006-04-24 2006-04-24 オーディオ信号伸張圧縮装置及びプログラム Expired - Fee Related JP5011803B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006119731A JP5011803B2 (ja) 2006-04-24 2006-04-24 オーディオ信号伸張圧縮装置及びプログラム
US11/738,736 US8085953B2 (en) 2006-04-24 2007-04-23 Audio-signal time-axis expansion/compression method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006119731A JP5011803B2 (ja) 2006-04-24 2006-04-24 オーディオ信号伸張圧縮装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007292957A true JP2007292957A (ja) 2007-11-08
JP5011803B2 JP5011803B2 (ja) 2012-08-29

Family

ID=38620556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006119731A Expired - Fee Related JP5011803B2 (ja) 2006-04-24 2006-04-24 オーディオ信号伸張圧縮装置及びプログラム

Country Status (2)

Country Link
US (1) US8085953B2 (ja)
JP (1) JP5011803B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009014827A (ja) * 2007-07-02 2009-01-22 Sony Corp 情報処理装置、信号処理方法およびプログラム
JP2017023167A (ja) * 2015-07-15 2017-02-02 株式会社三共 遊技機

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5489900B2 (ja) * 2010-07-27 2014-05-14 ヤマハ株式会社 音響データ通信装置
CN109461461B (zh) * 2018-09-29 2021-01-15 北京小米移动软件有限公司 音频播放方法、装置、电子设备及储存介质
US11074926B1 (en) * 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04289900A (ja) * 1991-03-19 1992-10-14 Casio Comput Co Ltd デジタルピッチシフター
JP2004354462A (ja) * 2003-05-27 2004-12-16 Toshiba Corp 話速変換装置、方法、及びそのプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
SG65729A1 (en) * 1997-01-31 1999-06-22 Yamaha Corp Tone generating device and method using a time stretch/compression control technique
US7010491B1 (en) * 1999-12-09 2006-03-07 Roland Corporation Method and system for waveform compression and expansion with time axis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04289900A (ja) * 1991-03-19 1992-10-14 Casio Comput Co Ltd デジタルピッチシフター
JP2004354462A (ja) * 2003-05-27 2004-12-16 Toshiba Corp 話速変換装置、方法、及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009014827A (ja) * 2007-07-02 2009-01-22 Sony Corp 情報処理装置、信号処理方法およびプログラム
JP2017023167A (ja) * 2015-07-15 2017-02-02 株式会社三共 遊技機

Also Published As

Publication number Publication date
US8085953B2 (en) 2011-12-27
US20070250324A1 (en) 2007-10-25
JP5011803B2 (ja) 2012-08-29

Similar Documents

Publication Publication Date Title
JP4675692B2 (ja) 話速変換装置
Verfaille et al. Adaptive digital audio effects (A-DAFx): A new class of sound transformations
EP0608833B1 (en) Method of and apparatus for performing time-scale modification of speech signals
KR100745387B1 (ko) 패킷 손실 또는 프레임 삭제 은폐를 실행하는 방법 및 장치
JP5247721B2 (ja) 重み付けウィンドウを用いた低遅延変換符号化
JP2007316254A (ja) オーディオ信号補間方法及びオーディオ信号補間装置
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
US7873064B1 (en) Adaptive jitter buffer-packet loss concealment
JP5011803B2 (ja) オーディオ信号伸張圧縮装置及びプログラム
CN105453172B (zh) 应用加权噪音的帧丢失的校正
EP1806740A1 (en) Pitch converting apparatus
JP4940888B2 (ja) オーディオ信号伸張圧縮装置及び方法
JP2004513381A (ja) 音声符号化パラメータを決定する方法及び装置
EP1905009B1 (en) Audio signal synthesis
US20010023399A1 (en) Audio signal processing apparatus and signal processing method of the same
JP3379348B2 (ja) ピッチ変換器
JP2007304515A (ja) オーディオ信号伸張圧縮方法及び装置
US8484018B2 (en) Data converting apparatus and method that divides input data into plural frames and partially overlaps the divided frames to produce output data
JP4442239B2 (ja) 音声速度変換装置と音声速度変換方法
JPH0777999A (ja) 音声時間軸圧縮伸長方法
JPH0713596A (ja) 音声速度変換方法
JP6011039B2 (ja) 音声合成装置および音声合成方法
JP4985152B2 (ja) 情報処理装置、信号処理方法およびプログラム
JP3285472B2 (ja) 音声復号化装置および音声復号化方法
KR101820028B1 (ko) 오버랩 범위 내의 결합을 사용하여 오디오 신호를 처리하기 위한 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees