JP2007102031A - 音声信号の圧伸方法および音声信号圧伸装置 - Google Patents

音声信号の圧伸方法および音声信号圧伸装置 Download PDF

Info

Publication number
JP2007102031A
JP2007102031A JP2005294069A JP2005294069A JP2007102031A JP 2007102031 A JP2007102031 A JP 2007102031A JP 2005294069 A JP2005294069 A JP 2005294069A JP 2005294069 A JP2005294069 A JP 2005294069A JP 2007102031 A JP2007102031 A JP 2007102031A
Authority
JP
Japan
Prior art keywords
audio signal
volume level
similarity
level function
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005294069A
Other languages
English (en)
Other versions
JP4779553B2 (ja
Inventor
Satoshi Sekine
聡 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005294069A priority Critical patent/JP4779553B2/ja
Publication of JP2007102031A publication Critical patent/JP2007102031A/ja
Application granted granted Critical
Publication of JP4779553B2 publication Critical patent/JP4779553B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音量レベルの和が一定、および音量レベルの2乗和が一定という2つの合成方法の長所を選択的に取り入れて、音質のよいクロスフェード処理方法およびこの処理を行う音声信号圧伸装置を提供する。
【解決手段】
類似度演算部3は、音声信号91、92の音声データとを比較して類似度を計算する。また、音量レベル関数計算部7は、前記類似度が予め定めた閾値より大きいか否か判断する。音量レベル関数計算部7は、前記類似度が前記閾値より大きい場合には、前記第1の信号と前記第2の信号の音量レベルの和が一定になるようにし、前記類似度が前記閾値より小さい場合には、前記第1の信号と前記第2の信号の音量レベルの2乗和が一定になるようにして、音量レベル関数を選択する。クロスフェードデータ合成部4は、この音量レベル関数により、これらの音声信号91、92をフェードアウト、フェードインして合成する。
【選択図】図3

Description

本発明は、複数の音声信号を継ぎ目なく接続するクロスフェード処理を用いた音声信号の圧伸方法および音声信号圧伸装置に関する。
従来、複数の音声信号を継ぎ目なく接続するクロスフェード処理機能を備えた音声信号圧伸装置が開示されている(例えば、特許文献1参照。)。音声信号圧伸装置は、例えばカラオケ装置のテンポを、ピッチを変換せずに変動させることや、カラオケ装置のテンポ変換に用いられている。音声信号の圧伸の方法としては、このカットアンドスプライス法が知られており、この方法は、音声信号を特定の区間で切り出して、一部重ね合わせながらそれぞれの区間の音声をクロスフェードにより重ね合わせることにより音声信号の圧伸を行なう方法である(詳細は、前記特許文献1参照。)。
このクロスフェードは、接続される第1の音声信号のフェードアウトすると共に、接続する前記第2の音声信号のフェードインを行って、連続的に第1の音声信号から第2の音声信号へ継ぎ目なく音声を出力する技術である。
特許文献1には、ディジタル信号の音声圧縮、伸張を行う手段において、波形の類似度を考慮してクロスフェード処理の接続帯域を計算する方法、装置が開示されている。
また、このフェードアウト、フェードインをする音量レベル関数を計算する処理部または処理ステップでは、2つの代表的な合成処理方法があった。これらの合成方法を図1、図2を用いて説明する。図1、図2は、クロスフェード処理におけるこれらの合成方法を表した図である。
1つの処理方法は、図1に示すように、フェードアウトする第1の音声信号とフェードインする第2の音声信号との音量和が一定となるようにして、直線的に第1の音声信号から第2の音声信号へ漸次切り替える方法がある。図1(A)上段は、フェードアウトする第1の音声信号の例を示したもので、図1(A)下段の図のような音量レベル関数(横軸:時間軸、縦軸:音量レベル、以下同じ。)を用いて、直線的に音量レベルを下げていき、第1の音声信号の音量レベルをオフにする。図1(B)上段は、フェードインする第2の音声信号の例を示したもので、図1(B)下段の図のような音量レベル関数を用いて、直線的に音量レベルを上げていき、最終的には第2の音声信号の音量レベルを適正な値にする。
他方の処理方法は、図2に示すように、フェードアウトする第1の音声信号とフェードインする第2の音声信号とのエネルギー和が一定となるようにして、第1の音声信号から第2の音声信号へ漸次切り替える方法がある。この方法の音量レベル関数は、例えば、正弦関数、余弦関数の2乗和が1であることを利用して、これら正弦関数、余弦関数で構成できる。図2(A)上段は、フェードアウトする第1の音声信号の例を示したもので、図2(A)下段の図のような余弦関数を用いて音量レベルを下げていき、最終的には第2の音声信号の音量レベルをオフにする。図2(B)下段の図のような正弦関数を用いて、最終的には第2の音声信号の音量レベルを適正な値にする。なお、この方法は、音楽の編集等によく用いられている。
特開2000−322100号公報
しかしながら、前述のクロスフェード処理方法において、前述した音量和が一定とする合成方法では、これらのクロスフェードを行う区間の第1の音声信号と第2の音声信号の類似度が高く周期性を帯びている場合には、エネルギー和が一定とする合成方法より効果的であるが、そうでない場合には、クロスフェード途中に、音質が劣化すると共に音量が小さくなる問題があった。
一方、前述したエネルギー和が一定とする合成方法では、音声信号の類似度が低くとも効果的に機能するが、音量レベルのみで計算するので、クロスフェードを行う区間の第1の音声信号と第2の音声信号の類似度が高く周期性を帯びている場合には、そのクロスフェード処理により、波形が重ね合わせにより増強され、クロスフェード途中に音量が増大する問題があった。
そこで、本発明は、このような問題に鑑み、前記した2つの合成方法の長所を選択的に取り入れることにより、音質のよい音声信号圧伸装置を提供することを目的とする。
本発明は、上述の課題を解決するための手段を以下のように構成している。
(1)本発明は、
入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
前記類似度が予め定めた閾値より大きいか否か判断する閾値判断ステップと、
前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を計算する音量レベル関数計算ステップと、
当該音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成ステップと、を備え、
前記音量レベル関数計算ステップは、
前記類似度が前記閾値より大きい場合には、前記第1の信号と前記第2の信号の音量レベルの和が一定になるようにし、
前記類似度が前記閾値より小さい場合には、前記第1の信号と前記第2の信号の音量レベルの2乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法であることを特徴とする。
このように構成すれば、類似度計算ステップにおいて、前記第1の音声信号と第2の音声信号との類似度を計算しており、閾値判断ステップにおいて閾値との値を比較して、音量レベル関数計算ステップにおいて、前記類似度が高い場合には、音量レベルの和が一定になるように音量レベル関数を計算する。類似度が低い場合には音量レベルの2乗和が一定(即ち、エネルギー和が一定)になるように音量レベル関数を演算する。そして、信号合成ステップはこの音量レベル関数に基づき音声信号を合成する。したがって、前述した2つの合成方法の長所を選択的に取り入れることができるので、音声信号の圧伸において音質のよいクロスフェード処理を行うことができる。
なお、音量レベル関数(入力:時間軸、出力:音量レベル)は、クロスフェード時のフェードアウト、フェードインの音量レベルの直線やカーブを規律する関数である。以下同様である。
また、本発明の方法において、音量レベルの和が一定になるように合成するには、直線的に音量を変動させればよい。また、本発明の方法におけるエネルギー和が一定になるようにするためには、音量レベルの2乗和を一定にすればよい。例えば、正弦関数等を用いて、2乗和一定、即ちsin2α+cos2α=1となるように、フェードアウト、フェードインをする音量レベルを計算することができる。以下の発明も同様である。
また、類似度の計算は、例えば、クロスフェードを行う区間の第1の音声信号と第2の音声信号の残差の2乗を所定の時間で平均したものが大きい場合類似度が低いとすることができる。したがって、例えば、類似度を、この残差の2乗平均の逆数や、この残差の2乗平均の正負を逆にしたものとすることができる。また、前記第1の音声信号または前記第2の音声信号のうちの所定周波数帯域の音声データを部分的に切り取って、その帯域のデータを比較して、この残差の2乗平均の最小値を前記類似度の演算に用い、当該最小値の逆数や、当該最小値の正負を逆にしたもの等を類似度とすることができる。以下の発明も同様である。
(2)本発明は、
入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
前記クロスフェード処理は、
前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算ステップと、
当該音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成ステップと、を備え、
前記音量レベル関数計算ステップは、
kを1〜2の値として、前記類似度が小さいほど前記kの値を大きくなるよう段階的にまたは連続的に前記kを変化させ、
前記第1の音声信号と前記第2の音声信号の音量レベルのk乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法であることを特徴とする。
このように構成すれば、音量レベル関数計算ステップは、前記(1)の方法の(音量レベルの和が一定)と(音量レベルの2乗和が一定)の2つの関数だけでなく、前記類似度の大小に応じてkの値を変えることにより、これら2つの関数の間を補間することができる。即ち、この類似度の傾向に応じて、漸次段階的にまたは連続的に関数を切り替えることができることになる。したがって、音声信号の圧伸のクロスフェード処理において、(1)の方法に増してより適切な信号合成方法を選択できる。
(3)本発明は、
入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
前記類似度が予め定めた閾値より大きいか否か判断する閾値判断手段と、
前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
前記音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成手段と、を備え、
前記音量レベル関数計算手段は、
前記類似度が前記閾値より大きい場合には、前記第1の信号と前記第2の信号の音量レベルの和が一定になるようにし、
前記類似度が前記閾値より小さい場合には、前記第1の信号と前記第2の信号の音量レベルの2乗和が一定になるようにして、前記音量レベル関数を計算する音声信号圧伸装置であることを特徴とする。
このように構成すれば、類似度計算手段は、前記第1の音声信号と第2の音声信号との類似度を計算しており、閾値判断手段において閾値との値を比較して、音量レベル関数計算手段は、前記類似度が高い場合には音量レベルの和が一定になるように音量レベル関数を演算する。類似度が低い場合には音量レベルの2乗和が一定(即ち、エネルギー和が一定)になるように音量レベル関数を演算する。そして、信号合成手段はこの音量レベル関数に基づき音声信号を合成する。したがって、前述した2つの合成方法の長所を選択的に取り入れることができるので、音声信号の圧伸において音質のよいクロスフェード処理を行うことができる。
(4)本発明は、
入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
当該音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成手段と、を備え、
前記音量レベル関数計算手段は、
kを1〜2の値として、前記類似度が小さいほど前記kの値を大きくなるよう段階的にまたは連続的に前記kを変化させ、
前記第1の音声信号と前記第2の音声信号の音量レベルのk乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号圧伸装置であることを特徴とする。
このように構成すれば、前記音量レベル関数計算手段は、前記(3)の構成の(音量レベルの和が一定)と(音量レベルの2乗和が一定)の2つの関数だけでなく、前記類似度の大小に応じてkの値を変えることにより、これら2つの関数の間を補間することができる。即ち、この類似度の傾向に応じて、漸次段階的にまたは連続的に関数を切り替えることができることになる。したがって、クロスフェード処理において、(3)の方法に増してより適切な信号合成方法を選択できる。
本発明の方法または装置によれば、第1の音声信号をフェードアウトすると共に第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理方法において、第1の音声信号と第2の音声信号の類似度に応じて、音量レベルの和が一定、または音量レベルのエネルギー和が一定になるように選択的に合成できるので、これらの合成方法の長所を選択的に取り入れて、音質のよいクロスフェード処理を行うことができる。
図3を用いて、本実施形態の音声信号圧伸装置について説明する。本実施形態の音声信号圧伸装置の主な目的は、音声信号のピッチやテンポを上下することなく、時間軸を短縮または拡大することである。本実施形態の音声信号圧伸装置は、複数の音声信号を継ぎ目なく接続するクロスフェード処理を行うクロスフェード処理部10を備えていると共に、入力信号を増幅してスピーカに出力するという一般的な音響装置の機能(図示省略)を備えている。このクロスフェード処理は、一般的には、DSP11内の1機能として構成されるもので、現在スピーカに出力中の音声入力信号から、次にスピーカに出力する音声入力信号を継ぎ目なく切り替える等に用いられている。音声信号圧伸装置においては、カットアンドスプライス法により音声信号圧伸を行なう場合に使用され、この特定区間ごとに音声信号を切り出して、一部重ね合わせながら、それぞれの区間の音声をクロスフェードにより重ね合わせることにより音声信号の圧伸を行なう方法である(詳細は、前記特許文献1参照。)。
本実施形態の音声信号圧伸装置は、カットアンドスプライス法を用いて音声信号圧伸を行なうが、その方法のうちのクロスフェード方法に特徴があり、以下、このクロスフェード方法を中心に説明を行なう。カットアンドスプライス法自体の説明については前述の前記特許文献1を参照して、詳細は省略する。
まず、以下の説明の容易のため、図3に示すように、現在スピーカに出力中の入力信号であってフェードアウトする入力信号を第1の音声信号入力91とする。また、次にスピーカに出力する入力信号であって、フェードインする入力信号を第2の音声信号入力92とする。
図3に示すように、クロスフェード処理部10は、その機能を働かせるための構成として、音声信号入力91、92が入力される波形メモリ1と、音声信号入力91、92の互いの類似度を計算する類似度演算部3と、この類似度に基づいて波形メモリ1に格納された音声信号入力91、92の接続開始時期を判断する開始位置制御部2とを備えている。また、クロスフェード処理部10は、音量レベルを前述の図1、図2のようにして音量レベルを加工するための音量レベル関数を計算する音量レベル関数計算部7と、音量レベル関数計算部7で計算した音声入力信号を合成するクロスフェードデータ合成部4と、これらの動作を制御する制御部6と、を備えている。また、DSP11内に、クロスフェード処理部10の他に、出力カウント部5と、イコライザ処理部等を備えている。以下それぞれの構成について説明する。
図3の波形メモリ1は、入力信号を一時的に格納するバッファである。波形メモリ1には、ディジタル音声入力、または図示しないA/D変換器により、すでにディジタル化された音声ディジタル入力が順次格納される(以下、単に音声入力という。)。
なお、このバッファの容量として、少なくとも、第1の音声信号入力91のフェードアウトする部分のデータと、第2の音声信号入力91のフェードインする部分のデータの類似度を類似度演算部3で計算するための必要な容量以上は、必要である。
図3の類似度演算部3は、第1の音声信号入力91と、第2の音声信号入力92の類似度を計算する。第1の音声信号入力91と、第2の音声信号入力92との重ね合わせ部分の音声信号入力の互いの残差を計算し、これに基づいて一定時間分の残差の2乗和を計算し、その逆数を類似度とすることができる。また、類似度の値が高くなるよう、類似度をクロスフェードされる波形同士を部分的に区切り、その任意の区分の時間帯域の組み合わせの中から、前述の一定時間分の残差の2乗和が最も小さくなる値(最小値)の逆数とすることができる。また、この最小値の正負を逆にした値を類似度とすることができる。
また、音声信号圧伸装置では、元の音声データを切り出して、音声信号入力91、92とし、後述の開始位置制御部2の制御の下、音声信号入力91、92を同時に入力することが可能であるから、類似度演算部3の類似度の計算方法として、リアルタイムで前述の一定時間分の音声信号入力の互いの残差の2乗和を計算し、随時この2乗和を更新し、この2乗和の最小値が出現した時間における、前記2乗和の逆数を類似度とすることができる。
図3の開始位置制御部2は、音声信号入力91、92について、クロスフェードデータ合成部4で合成を開始する時間を定める。この開始時間は、操作部8により指示された所定の時間軸圧伸率に応じた時間間隔となる。また、音声信号の時間軸圧伸装置のクロスフェードでは、第2の音声信号入力92が入力され始めるタイミングを微妙に調整できる。例えば、特許文献1のように類似度が高くなる位置を計算してその位置に調整できる。ここで、前述のとおり、類似度の値をクロスフェードされる波形同士を部分的に区切り、その任意の区分の時間帯域の組み合わせの中から、前述の一定時間分のデータの2乗和が最も小さくなる値(最小値)の逆数とすることができる。また、この最小値の正負を逆にした値を類似度とすることができる。音量レベルの2乗和の最小値を算出した場合には、この開始位置を、当該最小値となるデータ位置とすることができる。開始位置制御部2は、この類似度演算部3を制御して、この最小値およびクロスフェードデータ合成部4で合成を開始する時間を計算する。そして、開始位置制御部2は、その開始時を音量レベル関数計算部7に伝える。
図3の音量レベル関数計算部7は、クロスフェードデータ合成部4でフェードアウト、フェードインするデータを計算する際に、どのようなカーブに沿って、フェードアウト、フェードインするかを計算する。このカーブとして、具体的には図1、図2のように音量レベル一定、エネルギー和一定等の合成方法が選択できる(詳細は後述する)。
図3のクロスフェードデータ合成部4は、波形メモリ1から音声信号入力91、92を読み込んで、開始位置制御部2により算出したクロスフェードの開始位置から、音量レベル関数計算部7で計算した音量レベル関数に従い、図1、図2のように波形メモリ1の音声信号を加工して、その音量レベルを時間と共に縮小、拡大するよう調整する(具体的な計算方法は後述する)。そして、クロスフェードデータ合成部4は、さらに、このようにして計算したフェードアウト、フェードインしたデータを合成して、出力カウント部5に出力する。
図3の出力カウント部5は、クロスフェード処理部10の外にあって、音声の時間軸の圧縮、伸張に用いる。本実施形態の音声信号圧伸装置は、前述のとおり、音声信号を特定の区間で切り出して、一部重ね合わせながらそれぞれの区間の音声をクロスフェードにより重ね合わせることにより音声信号の圧伸を行う。したがって、音声信号の圧伸のためには、ある決まった時間ごとに、このクロスフェード処理を行うことが必要であり、そのために、クロスフェードデータ合成部4から出力されたデータの個数をカウントしている(詳細は、特許文献1参照。)。
なお、図3のDSP11は、可能な限り、ソフトウェア的に構成しても良いし、この処理をROMに焼き付けて、これを内蔵するマイクロプロセッサとして構成しても良い。
また、第1の音声信号入力91の中で、フェードアウトする部分は、本発明の「第1の音声信号入力」に相当する。第2の音声信号入力92の中で、フェードインする部分は、本発明の「第2の音声信号入力」に相当する。
類似度演算部3の処理は、本発明の「類似度計算ステップ」または、「類似度計算手段」に相当する。
音量レベル関数計算部7の処理のうち閾値と比較する処理は、本発明の「閾値判断ステップ」または「閾値判断手段」に相当する。
クロスフェードデータ合成部4は、本発明の「信号合成ステップ」または、「信号合成手段」に相当する。
また、本実施形態の装置では、音声信号をディジタル処理して合成した音声を出力しているが、アナログ音声信号の出力系統に対し、増幅処理等はすべてアナログで行い、クロスフェード処理部10がそのアナログ音声信号をA/D変換して取り込み、そのアナログ音声信号の出力系統の音量制御のみを行っても良い(図示省略。)。
以下、クロスフェードデータ合成部4、音量レベル関数計算部7の処理について、さらに詳しく具体的に説明を行う。
まず、前述で説明した図1、図2を用いて、クロスフェードデータ合成部4によるクロスフェードのカーブの演算についての具体的な方法について、以下、さらに詳しく説明する。音量レベル関数計算部7が、図1で示したような音量レベル一定の方法に従って、クロスフェードすることを選択した場合には、第1の音声信号入力91をフェードアウトした音声信号のデータは、直線的に音量レベルが減少するように、以下の式で求める。
(第1の音声信号入力91をフェードアウトした音声信号)
=(第1の音声信号入力91の音量レベル)×(1−T/N)
N:フェードアウトに要する離散時間、
T:クロスフェード開始時間からの経過離散時間
×は掛け算を表す。以下同じ。
この式から明らかなように、クロスフェード開始時間からの経過離散時間Tがフェードアウトに要する離散時間Nとなったときには、音量レベルは0になる。
また、第2の音声信号入力92をフェードインした音声信号のデータは、直線的に音量レベルが増加するように、前述のN、Tを用いて、以下の式で求める。
(第2の音声信号入力92をフェードインした音声信号)
=(第2の音声信号入力92の音量レベル)×(T/N)
この式から明らかなように、クロスフェード開始時間からの経過離散時間Tがフェードアウトに要する離散時間Nとなったときには、音量レベルは波形メモリから出力された音量レベルと同等となる。
音量レベル関数計算部7が、図2のエネルギー一定の方法に従って、クロスフェードすることを選択した場合には、音声信号入力91、92の音量レベルの2乗和が一定となるように、第1の音声信号入力91をフェードアウトした音声信号は、余弦関数を用いて以下の式で求める。
(第1の音声信号入力91をフェードアウトした音声信号)
=(第1の音声信号入力91の音量レベル)×cos(90×T/N)
N:フェードアウトに要する離散時間、
T:クロスフェード開始時間からの経過離散時間。
また、第2の音声信号入力92をフェードインした音声信号は、正弦関数と前述のN、Tを用いて、以下の式で求める。
(第2の音声信号入力92をフェードインした音声信号)
=(第2の音声信号入力92の音量レベル)×sin(90×T/N)
なお、上述の数式において、音声信号入力92の音量レベルに対し、右から積算している関数は、それぞれ、音量レベル関数計算部7で計算する音量レベル関数に相当する。
また、cos(90×T/N)の代わりに、√(1−(T/N))を用い、sin(90×T/N)の代わりに、T/Nを用いても良い。この場合も2乗和が一定となる。
次に、音量レベル関数計算部7が図1、図2で示したような音量レベル関数を選択する方法について、以下、具体的に説明する。前述したように、図1のような音量和が一定とする合成方法では、これらの音声信号の類似度が高く周期性を帯びている場合には効果的であるが、そうでない場合には、クロスフェード途中に、音質が劣化すると共に音量が小さくなる問題がある。一方、図2のようなエネルギー和が一定とする合成方法では、音声信号の類似度が低くとも効果的に機能するが、音量レベルのみで計算するので、音声信号の類似度が高く周期性を帯びている場合には、そのクロスフェード処理により波形が重ね合わせにより増強され、クロスフェード途中に、音量が増大する問題がある。本実施形態のクロスフェード処理部10では、これらの合成方法の長所のみを選択的に取り入れて、より音質の良いクロスフェード処理を行うため、予め定めた閾値を設定し、演算部3で計算した類似度と比較して、閾値との大小比較により、図1のような音量和が一定とする合成方法と、図2のようなエネルギー和が一定とする合成方法を切り替えるようにする。
したがって、図3の音量レベル関数計算部7は、演算部3で計算した類似度と比較して、閾値より大きい場合は、類似度が高いと判断して、図1のような音量和が一定とする合成方法を用いる。
一方、音量レベル関数計算部7は、演算部3で計算した類似度と比較して、閾値より小さい場合は、類似度が低いと判断して、図2のようなエネルギー和が一定とする合成方法を用いる。
また、本実施形態の装置のクロスフェード処理部10の応用として、クロスフェードデータ合成部4と、音量レベル関数計算部7を以下のように構成することが考えられる。
まず、パラメータkを1〜2の間の可変な値として、図3のクロスフェードデータ合成部4で、フェードアウト、フェードインするカーブを以下の数式により求める。
(第1の音声信号入力91をフェードアウトした音声信号)
=(第1の音声信号入力91の音量レベル) ×(1−(T/N)1/k
N:フェードアウトに要する離散時間、
T:クロスフェード開始時間からの経過離散時間。
また、第2の音声信号入力92をフェードインした音声信号のデータは、前述のN、Tを用いて、以下の式で求める。
(第2の音声信号入力92をフェードインした音声信号)
=(第2の音声信号入力92の音量レベル) ×(T/N)
このようにして、フェードアウト、フェードインした音声信号については、以下の関係を満たす。
(第1の音声信号入力91の音量レベルをフェードアウトした音声信号)
+(第2の音声信号入力92の音量レベルをフェードインした音声信号)=1
この式は、パラメータkを1〜2の間の可変な値(整数に限られない。)とした場合に、上述で求めたフェードアウト、フェードインした音声信号が、図1で示した音量和一定(k=1)、図2で示したエネルギー和一定(k=2)の間の関数を補間するような関数となることを示している。
そして、音量レベル関数計算部7においては、類似度と複数の閾値との比較により、これらの関数のパラメータkを段階的に変化させる。または、音量レベル関数計算部7において、類似度に対するパラメータkの値を関数で表して、連続的に、パラメータkを変動させる計算方法を用いても良い。この段階的にパラメータkを変化させる、または連続的にパラメータkを変化させる場合においては、いずれの場合も、類似度が高いほどパラメータkを小さく、類似度が低いほどパラメータkを大きく取るように変化させる。このようにして、パラメータkを変動させることにより、閾値が1つである前述の方法よりもさらに適切な信号合成方法を選択でき、より音質の高いクロスフェード処理が可能である。
合成時に音量和が一定となるようにしてクロスフェード処理を行う場合の概念図を示す。 合成時にエネルギー和が一定となるようにしてクロスフェード処理を行う場合の概念図を示す。 本実施形態の音声信号圧伸装置の内部構成図を示す。
符号の説明
10−クロスフェード処理部
11−DSP
1−波形メモリ
2−開始位置制御部
3−類似度演算部
4−クロスフェードデータ合成部
5−出力カウント部
6−制御部
7−音量レベル関数計算部
8−操作部
91−第1の音声信号入力
92−第2の音声信号入力

Claims (4)

  1. 入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
    前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
    前記類似度が予め定めた閾値より大きいか否か判断する閾値判断ステップと、
    前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を計算する音量レベル関数計算ステップと、
    当該音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成ステップと、を備え、
    前記音量レベル関数計算ステップは、
    前記類似度が前記閾値より大きい場合には、前記第1の信号と前記第2の信号の音量レベルの和が一定になるようにし、
    前記類似度が前記閾値より小さい場合には、前記第1の信号と前記第2の信号の音量レベルの2乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法。
  2. 入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
    前記クロスフェード処理は、
    前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
    前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算ステップと、
    当該音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成ステップと、を備え、
    前記音量レベル関数計算ステップは、
    kを1〜2の値として、前記類似度が小さいほど前記kの値を大きくなるよう段階的にまたは連続的に前記kを変化させ、
    前記第1の音声信号と前記第2の音声信号の音量レベルのk乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法。
  3. 入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
    前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
    前記類似度が予め定めた閾値より大きいか否か判断する閾値判断手段と、
    前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
    前記音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成手段と、を備え、
    前記音量レベル関数計算手段は、
    前記類似度が前記閾値より大きい場合には、前記第1の信号と前記第2の信号の音量レベルの和が一定になるようにし、
    前記類似度が前記閾値より小さい場合には、前記第1の信号と前記第2の信号の音量レベルの2乗和が一定になるようにして、前記音量レベル関数を計算する音声信号圧伸装置。
  4. 入力される第1の音声信号をフェードアウトすると共に、入力される第2の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
    前記第1の音声信号の音声データと、前記第2の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
    前記第1の音声信号をフェードアウトし、前記第2の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
    当該音量レベル関数に基づいて、前記第1の音声信号と第2の音声信号を加工して合成する信号合成手段と、を備え、
    前記音量レベル関数計算手段は、
    kを1〜2の値として、前記類似度が小さいほど前記kの値を大きくなるよう段階的にまたは連続的に前記kを変化させ、
    前記第1の音声信号と前記第2の音声信号の音量レベルのk乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号圧伸装置。
JP2005294069A 2005-10-06 2005-10-06 音声信号の圧伸方法および音声信号圧伸装置 Expired - Fee Related JP4779553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005294069A JP4779553B2 (ja) 2005-10-06 2005-10-06 音声信号の圧伸方法および音声信号圧伸装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005294069A JP4779553B2 (ja) 2005-10-06 2005-10-06 音声信号の圧伸方法および音声信号圧伸装置

Publications (2)

Publication Number Publication Date
JP2007102031A true JP2007102031A (ja) 2007-04-19
JP4779553B2 JP4779553B2 (ja) 2011-09-28

Family

ID=38029025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005294069A Expired - Fee Related JP4779553B2 (ja) 2005-10-06 2005-10-06 音声信号の圧伸方法および音声信号圧伸装置

Country Status (1)

Country Link
JP (1) JP4779553B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203482A (ja) * 2010-03-25 2011-10-13 Yamaha Corp 音声処理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06177676A (ja) * 1992-12-10 1994-06-24 Yamaha Corp 信号処理装置
JP2000322100A (ja) * 1999-05-06 2000-11-24 Yamaha Corp ディジタル信号の時間軸圧伸方法及び装置
JP2001075571A (ja) * 1999-09-07 2001-03-23 Roland Corp 波形生成装置
JP2002287758A (ja) * 2001-03-26 2002-10-04 Yamaha Corp 波形編集方法および波形編集装置
JP2004317911A (ja) * 2003-04-18 2004-11-11 Chiba Inst Of Technology 音場シミュレーション装置、音場シミュレーション方法、コンピュータプログラム、プログラム記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06177676A (ja) * 1992-12-10 1994-06-24 Yamaha Corp 信号処理装置
JP2000322100A (ja) * 1999-05-06 2000-11-24 Yamaha Corp ディジタル信号の時間軸圧伸方法及び装置
JP2001075571A (ja) * 1999-09-07 2001-03-23 Roland Corp 波形生成装置
JP2002287758A (ja) * 2001-03-26 2002-10-04 Yamaha Corp 波形編集方法および波形編集装置
JP2004317911A (ja) * 2003-04-18 2004-11-11 Chiba Inst Of Technology 音場シミュレーション装置、音場シミュレーション方法、コンピュータプログラム、プログラム記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203482A (ja) * 2010-03-25 2011-10-13 Yamaha Corp 音声処理装置

Also Published As

Publication number Publication date
JP4779553B2 (ja) 2011-09-28

Similar Documents

Publication Publication Date Title
JP4760160B2 (ja) 集音装置
US8369538B2 (en) Effect adding method and effect adding apparatus
RU2403674C2 (ru) Система и способ искусственной реверберации (варианты)
US8635077B2 (en) Apparatus and method for expanding/compressing audio signal
JP3430985B2 (ja) 合成音生成装置
WO2015020025A1 (ja) 音高補正装置及び音高補正方法
JP4702392B2 (ja) 共鳴音発生装置および電子楽器
KR101535013B1 (ko) 차량의 실내외 가상 사운드 시스템
JP4779553B2 (ja) 音声信号の圧伸方法および音声信号圧伸装置
JP4622908B2 (ja) 信号処理装置
JP2007316269A5 (ja)
JP5282469B2 (ja) 音声処理装置およびプログラム
WO2020179472A1 (ja) 信号処理装置および方法、並びにプログラム
JP2008219713A (ja) ノイズキャンセルヘッドホン
JP2008015191A (ja) オーディオ信号処理装置およびホール
JP2007094004A (ja) 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP4529513B2 (ja) 音圧周波数特性調整装置、プログラム、楽曲再生装置
JP2008262140A (ja) 音程変換装置及び音程変換方法
JP2009025340A (ja) オーディオデータ再生装置及びオーディオデータ再生速度制御方法
JP4471780B2 (ja) 音声信号処理装置及びその方法
JP3095018B2 (ja) 楽音発生装置
JP4675179B2 (ja) 遅延装置
JP4556866B2 (ja) 高能率符号化プログラム及び高能率符号化装置
JP2010008546A (ja) インパルス応答加工装置、残響付与装置およびプログラム
JP2007189530A (ja) ノイズキャンセルヘッドホンおよびヘッドホンにおけるノイズキャンセル方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110620

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees