JP2007102031A

JP2007102031A - 音声信号の圧伸方法および音声信号圧伸装置

Info

Publication number: JP2007102031A
Application number: JP2005294069A
Authority: JP
Inventors: Satoshi Sekine; 聡関根
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-10-06
Filing date: 2005-10-06
Publication date: 2007-04-19
Anticipated expiration: 2025-10-06
Also published as: JP4779553B2

Abstract

【課題】音量レベルの和が一定、および音量レベルの２乗和が一定という２つの合成方法の長所を選択的に取り入れて、音質のよいクロスフェード処理方法およびこの処理を行う音声信号圧伸装置を提供する。
【解決手段】
類似度演算部３は、音声信号９１、９２の音声データとを比較して類似度を計算する。また、音量レベル関数計算部７は、前記類似度が予め定めた閾値より大きいか否か判断する。音量レベル関数計算部７は、前記類似度が前記閾値より大きい場合には、前記第１の信号と前記第２の信号の音量レベルの和が一定になるようにし、前記類似度が前記閾値より小さい場合には、前記第１の信号と前記第２の信号の音量レベルの２乗和が一定になるようにして、音量レベル関数を選択する。クロスフェードデータ合成部４は、この音量レベル関数により、これらの音声信号９１、９２をフェードアウト、フェードインして合成する。
【選択図】図３

Description

本発明は、複数の音声信号を継ぎ目なく接続するクロスフェード処理を用いた音声信号の圧伸方法および音声信号圧伸装置に関する。

従来、複数の音声信号を継ぎ目なく接続するクロスフェード処理機能を備えた音声信号圧伸装置が開示されている（例えば、特許文献１参照。）。音声信号圧伸装置は、例えばカラオケ装置のテンポを、ピッチを変換せずに変動させることや、カラオケ装置のテンポ変換に用いられている。音声信号の圧伸の方法としては、このカットアンドスプライス法が知られており、この方法は、音声信号を特定の区間で切り出して、一部重ね合わせながらそれぞれの区間の音声をクロスフェードにより重ね合わせることにより音声信号の圧伸を行なう方法である（詳細は、前記特許文献１参照。）。
このクロスフェードは、接続される第１の音声信号のフェードアウトすると共に、接続する前記第２の音声信号のフェードインを行って、連続的に第１の音声信号から第２の音声信号へ継ぎ目なく音声を出力する技術である。

特許文献１には、ディジタル信号の音声圧縮、伸張を行う手段において、波形の類似度を考慮してクロスフェード処理の接続帯域を計算する方法、装置が開示されている。

また、このフェードアウト、フェードインをする音量レベル関数を計算する処理部または処理ステップでは、２つの代表的な合成処理方法があった。これらの合成方法を図１、図２を用いて説明する。図１、図２は、クロスフェード処理におけるこれらの合成方法を表した図である。

１つの処理方法は、図１に示すように、フェードアウトする第１の音声信号とフェードインする第２の音声信号との音量和が一定となるようにして、直線的に第１の音声信号から第２の音声信号へ漸次切り替える方法がある。図１（Ａ）上段は、フェードアウトする第１の音声信号の例を示したもので、図１（Ａ）下段の図のような音量レベル関数（横軸：時間軸、縦軸：音量レベル、以下同じ。）を用いて、直線的に音量レベルを下げていき、第１の音声信号の音量レベルをオフにする。図１（Ｂ）上段は、フェードインする第２の音声信号の例を示したもので、図１（Ｂ）下段の図のような音量レベル関数を用いて、直線的に音量レベルを上げていき、最終的には第２の音声信号の音量レベルを適正な値にする。

他方の処理方法は、図２に示すように、フェードアウトする第１の音声信号とフェードインする第２の音声信号とのエネルギー和が一定となるようにして、第１の音声信号から第２の音声信号へ漸次切り替える方法がある。この方法の音量レベル関数は、例えば、正弦関数、余弦関数の２乗和が１であることを利用して、これら正弦関数、余弦関数で構成できる。図２（Ａ）上段は、フェードアウトする第１の音声信号の例を示したもので、図２（Ａ）下段の図のような余弦関数を用いて音量レベルを下げていき、最終的には第２の音声信号の音量レベルをオフにする。図２（Ｂ）下段の図のような正弦関数を用いて、最終的には第２の音声信号の音量レベルを適正な値にする。なお、この方法は、音楽の編集等によく用いられている。
特開２０００−３２２１００号公報

しかしながら、前述のクロスフェード処理方法において、前述した音量和が一定とする合成方法では、これらのクロスフェードを行う区間の第１の音声信号と第２の音声信号の類似度が高く周期性を帯びている場合には、エネルギー和が一定とする合成方法より効果的であるが、そうでない場合には、クロスフェード途中に、音質が劣化すると共に音量が小さくなる問題があった。
一方、前述したエネルギー和が一定とする合成方法では、音声信号の類似度が低くとも効果的に機能するが、音量レベルのみで計算するので、クロスフェードを行う区間の第１の音声信号と第２の音声信号の類似度が高く周期性を帯びている場合には、そのクロスフェード処理により、波形が重ね合わせにより増強され、クロスフェード途中に音量が増大する問題があった。

そこで、本発明は、このような問題に鑑み、前記した２つの合成方法の長所を選択的に取り入れることにより、音質のよい音声信号圧伸装置を提供することを目的とする。

本発明は、上述の課題を解決するための手段を以下のように構成している。

（１）本発明は、
入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
前記類似度が予め定めた閾値より大きいか否か判断する閾値判断ステップと、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を計算する音量レベル関数計算ステップと、
当該音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成ステップと、を備え、
前記音量レベル関数計算ステップは、
前記類似度が前記閾値より大きい場合には、前記第１の信号と前記第２の信号の音量レベルの和が一定になるようにし、
前記類似度が前記閾値より小さい場合には、前記第１の信号と前記第２の信号の音量レベルの２乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法であることを特徴とする。

このように構成すれば、類似度計算ステップにおいて、前記第１の音声信号と第２の音声信号との類似度を計算しており、閾値判断ステップにおいて閾値との値を比較して、音量レベル関数計算ステップにおいて、前記類似度が高い場合には、音量レベルの和が一定になるように音量レベル関数を計算する。類似度が低い場合には音量レベルの２乗和が一定（即ち、エネルギー和が一定）になるように音量レベル関数を演算する。そして、信号合成ステップはこの音量レベル関数に基づき音声信号を合成する。したがって、前述した２つの合成方法の長所を選択的に取り入れることができるので、音声信号の圧伸において音質のよいクロスフェード処理を行うことができる。

なお、音量レベル関数（入力：時間軸、出力：音量レベル）は、クロスフェード時のフェードアウト、フェードインの音量レベルの直線やカーブを規律する関数である。以下同様である。
また、本発明の方法において、音量レベルの和が一定になるように合成するには、直線的に音量を変動させればよい。また、本発明の方法におけるエネルギー和が一定になるようにするためには、音量レベルの２乗和を一定にすればよい。例えば、正弦関数等を用いて、２乗和一定、即ちｓｉｎ²α＋ｃｏｓ²α=１となるように、フェードアウト、フェードインをする音量レベルを計算することができる。以下の発明も同様である。

また、類似度の計算は、例えば、クロスフェードを行う区間の第１の音声信号と第２の音声信号の残差の２乗を所定の時間で平均したものが大きい場合類似度が低いとすることができる。したがって、例えば、類似度を、この残差の２乗平均の逆数や、この残差の２乗平均の正負を逆にしたものとすることができる。また、前記第１の音声信号または前記第２の音声信号のうちの所定周波数帯域の音声データを部分的に切り取って、その帯域のデータを比較して、この残差の２乗平均の最小値を前記類似度の演算に用い、当該最小値の逆数や、当該最小値の正負を逆にしたもの等を類似度とすることができる。以下の発明も同様である。

（２）本発明は、
入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
前記クロスフェード処理は、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算ステップと、
当該音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成ステップと、を備え、
前記音量レベル関数計算ステップは、
ｋを１〜２の値として、前記類似度が小さいほど前記ｋの値を大きくなるよう段階的にまたは連続的に前記ｋを変化させ、
前記第１の音声信号と前記第２の音声信号の音量レベルのｋ乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法であることを特徴とする。

このように構成すれば、音量レベル関数計算ステップは、前記（１）の方法の（音量レベルの和が一定）と（音量レベルの２乗和が一定）の２つの関数だけでなく、前記類似度の大小に応じてｋの値を変えることにより、これら２つの関数の間を補間することができる。即ち、この類似度の傾向に応じて、漸次段階的にまたは連続的に関数を切り替えることができることになる。したがって、音声信号の圧伸のクロスフェード処理において、（１）の方法に増してより適切な信号合成方法を選択できる。

（３）本発明は、
入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
前記類似度が予め定めた閾値より大きいか否か判断する閾値判断手段と、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
前記音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成手段と、を備え、
前記音量レベル関数計算手段は、
前記類似度が前記閾値より大きい場合には、前記第１の信号と前記第２の信号の音量レベルの和が一定になるようにし、
前記類似度が前記閾値より小さい場合には、前記第１の信号と前記第２の信号の音量レベルの２乗和が一定になるようにして、前記音量レベル関数を計算する音声信号圧伸装置であることを特徴とする。

このように構成すれば、類似度計算手段は、前記第１の音声信号と第２の音声信号との類似度を計算しており、閾値判断手段において閾値との値を比較して、音量レベル関数計算手段は、前記類似度が高い場合には音量レベルの和が一定になるように音量レベル関数を演算する。類似度が低い場合には音量レベルの２乗和が一定（即ち、エネルギー和が一定）になるように音量レベル関数を演算する。そして、信号合成手段はこの音量レベル関数に基づき音声信号を合成する。したがって、前述した２つの合成方法の長所を選択的に取り入れることができるので、音声信号の圧伸において音質のよいクロスフェード処理を行うことができる。

（４）本発明は、
入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
当該音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成手段と、を備え、
前記音量レベル関数計算手段は、
ｋを１〜２の値として、前記類似度が小さいほど前記ｋの値を大きくなるよう段階的にまたは連続的に前記ｋを変化させ、
前記第１の音声信号と前記第２の音声信号の音量レベルのｋ乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号圧伸装置であることを特徴とする。

このように構成すれば、前記音量レベル関数計算手段は、前記（３）の構成の（音量レベルの和が一定）と（音量レベルの２乗和が一定）の２つの関数だけでなく、前記類似度の大小に応じてｋの値を変えることにより、これら２つの関数の間を補間することができる。即ち、この類似度の傾向に応じて、漸次段階的にまたは連続的に関数を切り替えることができることになる。したがって、クロスフェード処理において、（３）の方法に増してより適切な信号合成方法を選択できる。

本発明の方法または装置によれば、第１の音声信号をフェードアウトすると共に第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理方法において、第１の音声信号と第２の音声信号の類似度に応じて、音量レベルの和が一定、または音量レベルのエネルギー和が一定になるように選択的に合成できるので、これらの合成方法の長所を選択的に取り入れて、音質のよいクロスフェード処理を行うことができる。

図３を用いて、本実施形態の音声信号圧伸装置について説明する。本実施形態の音声信号圧伸装置の主な目的は、音声信号のピッチやテンポを上下することなく、時間軸を短縮または拡大することである。本実施形態の音声信号圧伸装置は、複数の音声信号を継ぎ目なく接続するクロスフェード処理を行うクロスフェード処理部１０を備えていると共に、入力信号を増幅してスピーカに出力するという一般的な音響装置の機能（図示省略）を備えている。このクロスフェード処理は、一般的には、ＤＳＰ１１内の１機能として構成されるもので、現在スピーカに出力中の音声入力信号から、次にスピーカに出力する音声入力信号を継ぎ目なく切り替える等に用いられている。音声信号圧伸装置においては、カットアンドスプライス法により音声信号圧伸を行なう場合に使用され、この特定区間ごとに音声信号を切り出して、一部重ね合わせながら、それぞれの区間の音声をクロスフェードにより重ね合わせることにより音声信号の圧伸を行なう方法である（詳細は、前記特許文献１参照。）。

本実施形態の音声信号圧伸装置は、カットアンドスプライス法を用いて音声信号圧伸を行なうが、その方法のうちのクロスフェード方法に特徴があり、以下、このクロスフェード方法を中心に説明を行なう。カットアンドスプライス法自体の説明については前述の前記特許文献１を参照して、詳細は省略する。

まず、以下の説明の容易のため、図３に示すように、現在スピーカに出力中の入力信号であってフェードアウトする入力信号を第１の音声信号入力９１とする。また、次にスピーカに出力する入力信号であって、フェードインする入力信号を第２の音声信号入力９２とする。

図３に示すように、クロスフェード処理部１０は、その機能を働かせるための構成として、音声信号入力９１、９２が入力される波形メモリ１と、音声信号入力９１、９２の互いの類似度を計算する類似度演算部３と、この類似度に基づいて波形メモリ１に格納された音声信号入力９１、９２の接続開始時期を判断する開始位置制御部２とを備えている。また、クロスフェード処理部１０は、音量レベルを前述の図１、図２のようにして音量レベルを加工するための音量レベル関数を計算する音量レベル関数計算部７と、音量レベル関数計算部７で計算した音声入力信号を合成するクロスフェードデータ合成部４と、これらの動作を制御する制御部６と、を備えている。また、ＤＳＰ１１内に、クロスフェード処理部１０の他に、出力カウント部５と、イコライザ処理部等を備えている。以下それぞれの構成について説明する。

図３の波形メモリ１は、入力信号を一時的に格納するバッファである。波形メモリ１には、ディジタル音声入力、または図示しないＡ／Ｄ変換器により、すでにディジタル化された音声ディジタル入力が順次格納される（以下、単に音声入力という。）。
なお、このバッファの容量として、少なくとも、第１の音声信号入力９１のフェードアウトする部分のデータと、第２の音声信号入力９１のフェードインする部分のデータの類似度を類似度演算部３で計算するための必要な容量以上は、必要である。

図３の類似度演算部３は、第１の音声信号入力９１と、第２の音声信号入力９２の類似度を計算する。第１の音声信号入力９１と、第２の音声信号入力９２との重ね合わせ部分の音声信号入力の互いの残差を計算し、これに基づいて一定時間分の残差の２乗和を計算し、その逆数を類似度とすることができる。また、類似度の値が高くなるよう、類似度をクロスフェードされる波形同士を部分的に区切り、その任意の区分の時間帯域の組み合わせの中から、前述の一定時間分の残差の２乗和が最も小さくなる値（最小値）の逆数とすることができる。また、この最小値の正負を逆にした値を類似度とすることができる。
また、音声信号圧伸装置では、元の音声データを切り出して、音声信号入力９１、９２とし、後述の開始位置制御部２の制御の下、音声信号入力９１、９２を同時に入力することが可能であるから、類似度演算部３の類似度の計算方法として、リアルタイムで前述の一定時間分の音声信号入力の互いの残差の２乗和を計算し、随時この２乗和を更新し、この２乗和の最小値が出現した時間における、前記２乗和の逆数を類似度とすることができる。

図３の開始位置制御部２は、音声信号入力９１、９２について、クロスフェードデータ合成部４で合成を開始する時間を定める。この開始時間は、操作部８により指示された所定の時間軸圧伸率に応じた時間間隔となる。また、音声信号の時間軸圧伸装置のクロスフェードでは、第２の音声信号入力９２が入力され始めるタイミングを微妙に調整できる。例えば、特許文献１のように類似度が高くなる位置を計算してその位置に調整できる。ここで、前述のとおり、類似度の値をクロスフェードされる波形同士を部分的に区切り、その任意の区分の時間帯域の組み合わせの中から、前述の一定時間分のデータの２乗和が最も小さくなる値（最小値）の逆数とすることができる。また、この最小値の正負を逆にした値を類似度とすることができる。音量レベルの２乗和の最小値を算出した場合には、この開始位置を、当該最小値となるデータ位置とすることができる。開始位置制御部２は、この類似度演算部３を制御して、この最小値およびクロスフェードデータ合成部４で合成を開始する時間を計算する。そして、開始位置制御部２は、その開始時を音量レベル関数計算部７に伝える。

図３の音量レベル関数計算部７は、クロスフェードデータ合成部４でフェードアウト、フェードインするデータを計算する際に、どのようなカーブに沿って、フェードアウト、フェードインするかを計算する。このカーブとして、具体的には図１、図２のように音量レベル一定、エネルギー和一定等の合成方法が選択できる（詳細は後述する）。

図３のクロスフェードデータ合成部４は、波形メモリ１から音声信号入力９１、９２を読み込んで、開始位置制御部２により算出したクロスフェードの開始位置から、音量レベル関数計算部７で計算した音量レベル関数に従い、図１、図２のように波形メモリ１の音声信号を加工して、その音量レベルを時間と共に縮小、拡大するよう調整する（具体的な計算方法は後述する）。そして、クロスフェードデータ合成部４は、さらに、このようにして計算したフェードアウト、フェードインしたデータを合成して、出力カウント部５に出力する。

図３の出力カウント部５は、クロスフェード処理部１０の外にあって、音声の時間軸の圧縮、伸張に用いる。本実施形態の音声信号圧伸装置は、前述のとおり、音声信号を特定の区間で切り出して、一部重ね合わせながらそれぞれの区間の音声をクロスフェードにより重ね合わせることにより音声信号の圧伸を行う。したがって、音声信号の圧伸のためには、ある決まった時間ごとに、このクロスフェード処理を行うことが必要であり、そのために、クロスフェードデータ合成部４から出力されたデータの個数をカウントしている（詳細は、特許文献１参照。）。

なお、図３のＤＳＰ１１は、可能な限り、ソフトウェア的に構成しても良いし、この処理をＲＯＭに焼き付けて、これを内蔵するマイクロプロセッサとして構成しても良い。
また、第１の音声信号入力９１の中で、フェードアウトする部分は、本発明の「第１の音声信号入力」に相当する。第２の音声信号入力９２の中で、フェードインする部分は、本発明の「第２の音声信号入力」に相当する。
類似度演算部３の処理は、本発明の「類似度計算ステップ」または、「類似度計算手段」に相当する。
音量レベル関数計算部７の処理のうち閾値と比較する処理は、本発明の「閾値判断ステップ」または「閾値判断手段」に相当する。
クロスフェードデータ合成部４は、本発明の「信号合成ステップ」または、「信号合成手段」に相当する。

また、本実施形態の装置では、音声信号をディジタル処理して合成した音声を出力しているが、アナログ音声信号の出力系統に対し、増幅処理等はすべてアナログで行い、クロスフェード処理部１０がそのアナログ音声信号をＡ／Ｄ変換して取り込み、そのアナログ音声信号の出力系統の音量制御のみを行っても良い（図示省略。）。

以下、クロスフェードデータ合成部４、音量レベル関数計算部７の処理について、さらに詳しく具体的に説明を行う。

まず、前述で説明した図１、図２を用いて、クロスフェードデータ合成部４によるクロスフェードのカーブの演算についての具体的な方法について、以下、さらに詳しく説明する。音量レベル関数計算部７が、図１で示したような音量レベル一定の方法に従って、クロスフェードすることを選択した場合には、第１の音声信号入力９１をフェードアウトした音声信号のデータは、直線的に音量レベルが減少するように、以下の式で求める。
（第１の音声信号入力９１をフェードアウトした音声信号）
＝(第１の音声信号入力９１の音量レベル)×(１−Ｔ／Ｎ)
Ｎ：フェードアウトに要する離散時間、
Ｔ：クロスフェード開始時間からの経過離散時間
×は掛け算を表す。以下同じ。

この式から明らかなように、クロスフェード開始時間からの経過離散時間Ｔがフェードアウトに要する離散時間Ｎとなったときには、音量レベルは０になる。

また、第２の音声信号入力９２をフェードインした音声信号のデータは、直線的に音量レベルが増加するように、前述のＮ、Ｔを用いて、以下の式で求める。
（第２の音声信号入力９２をフェードインした音声信号）
＝(第２の音声信号入力９２の音量レベル)×(Ｔ／Ｎ)
この式から明らかなように、クロスフェード開始時間からの経過離散時間Ｔがフェードアウトに要する離散時間Ｎとなったときには、音量レベルは波形メモリから出力された音量レベルと同等となる。

音量レベル関数計算部７が、図２のエネルギー一定の方法に従って、クロスフェードすることを選択した場合には、音声信号入力９１、９２の音量レベルの２乗和が一定となるように、第１の音声信号入力９１をフェードアウトした音声信号は、余弦関数を用いて以下の式で求める。
（第１の音声信号入力９１をフェードアウトした音声信号）
＝(第１の音声信号入力９１の音量レベル)×ｃｏｓ(90×Ｔ／Ｎ)
Ｎ：フェードアウトに要する離散時間、
Ｔ：クロスフェード開始時間からの経過離散時間。

また、第２の音声信号入力９２をフェードインした音声信号は、正弦関数と前述のＮ、Ｔを用いて、以下の式で求める。
（第２の音声信号入力９２をフェードインした音声信号）
＝(第２の音声信号入力９２の音量レベル)×ｓｉｎ(90×Ｔ／Ｎ)
なお、上述の数式において、音声信号入力９２の音量レベルに対し、右から積算している関数は、それぞれ、音量レベル関数計算部７で計算する音量レベル関数に相当する。
また、ｃｏｓ(90×Ｔ／Ｎ)の代わりに、√（１−（Ｔ／Ｎ）^２）を用い、ｓｉｎ（90×Ｔ／Ｎ)の代わりに、Ｔ／Ｎを用いても良い。この場合も２乗和が一定となる。

次に、音量レベル関数計算部７が図１、図２で示したような音量レベル関数を選択する方法について、以下、具体的に説明する。前述したように、図１のような音量和が一定とする合成方法では、これらの音声信号の類似度が高く周期性を帯びている場合には効果的であるが、そうでない場合には、クロスフェード途中に、音質が劣化すると共に音量が小さくなる問題がある。一方、図２のようなエネルギー和が一定とする合成方法では、音声信号の類似度が低くとも効果的に機能するが、音量レベルのみで計算するので、音声信号の類似度が高く周期性を帯びている場合には、そのクロスフェード処理により波形が重ね合わせにより増強され、クロスフェード途中に、音量が増大する問題がある。本実施形態のクロスフェード処理部１０では、これらの合成方法の長所のみを選択的に取り入れて、より音質の良いクロスフェード処理を行うため、予め定めた閾値を設定し、演算部３で計算した類似度と比較して、閾値との大小比較により、図１のような音量和が一定とする合成方法と、図２のようなエネルギー和が一定とする合成方法を切り替えるようにする。

したがって、図３の音量レベル関数計算部７は、演算部３で計算した類似度と比較して、閾値より大きい場合は、類似度が高いと判断して、図１のような音量和が一定とする合成方法を用いる。
一方、音量レベル関数計算部７は、演算部３で計算した類似度と比較して、閾値より小さい場合は、類似度が低いと判断して、図２のようなエネルギー和が一定とする合成方法を用いる。

また、本実施形態の装置のクロスフェード処理部１０の応用として、クロスフェードデータ合成部４と、音量レベル関数計算部７を以下のように構成することが考えられる。
まず、パラメータｋを１〜２の間の可変な値として、図３のクロスフェードデータ合成部４で、フェードアウト、フェードインするカーブを以下の数式により求める。
（第１の音声信号入力９１をフェードアウトした音声信号）
＝(第１の音声信号入力９１の音量レベル) ×（１−（Ｔ／Ｎ）^ｋ）^１／ｋ
Ｎ：フェードアウトに要する離散時間、
Ｔ：クロスフェード開始時間からの経過離散時間。

また、第２の音声信号入力９２をフェードインした音声信号のデータは、前述のＮ、Ｔを用いて、以下の式で求める。
（第２の音声信号入力９２をフェードインした音声信号）
＝(第２の音声信号入力９２の音量レベル) ×（Ｔ／Ｎ）^ｋ
このようにして、フェードアウト、フェードインした音声信号については、以下の関係を満たす。
（第１の音声信号入力９１の音量レベルをフェードアウトした音声信号）^ｋ
＋（第２の音声信号入力９２の音量レベルをフェードインした音声信号）^ｋ＝１
この式は、パラメータｋを１〜２の間の可変な値（整数に限られない。）とした場合に、上述で求めたフェードアウト、フェードインした音声信号が、図１で示した音量和一定（ｋ＝１）、図２で示したエネルギー和一定（ｋ＝２）の間の関数を補間するような関数となることを示している。

そして、音量レベル関数計算部７においては、類似度と複数の閾値との比較により、これらの関数のパラメータｋを段階的に変化させる。または、音量レベル関数計算部７において、類似度に対するパラメータｋの値を関数で表して、連続的に、パラメータｋを変動させる計算方法を用いても良い。この段階的にパラメータｋを変化させる、または連続的にパラメータｋを変化させる場合においては、いずれの場合も、類似度が高いほどパラメータｋを小さく、類似度が低いほどパラメータｋを大きく取るように変化させる。このようにして、パラメータｋを変動させることにより、閾値が１つである前述の方法よりもさらに適切な信号合成方法を選択でき、より音質の高いクロスフェード処理が可能である。

合成時に音量和が一定となるようにしてクロスフェード処理を行う場合の概念図を示す。合成時にエネルギー和が一定となるようにしてクロスフェード処理を行う場合の概念図を示す。本実施形態の音声信号圧伸装置の内部構成図を示す。

符号の説明

１０−クロスフェード処理部
１１−ＤＳＰ
１−波形メモリ
２−開始位置制御部
３−類似度演算部
４−クロスフェードデータ合成部
５−出力カウント部
６−制御部
７−音量レベル関数計算部
８−操作部
９１−第１の音声信号入力
９２−第２の音声信号入力

Claims

入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
前記類似度が予め定めた閾値より大きいか否か判断する閾値判断ステップと、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を計算する音量レベル関数計算ステップと、
当該音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成ステップと、を備え、
前記音量レベル関数計算ステップは、
前記類似度が前記閾値より大きい場合には、前記第１の信号と前記第２の信号の音量レベルの和が一定になるようにし、
前記類似度が前記閾値より小さい場合には、前記第１の信号と前記第２の信号の音量レベルの２乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法。
入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェード処理を用いた、音声信号の圧伸方法であって、
前記クロスフェード処理は、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算ステップと、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算ステップと、
当該音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成ステップと、を備え、
前記音量レベル関数計算ステップは、
ｋを１〜２の値として、前記類似度が小さいほど前記ｋの値を大きくなるよう段階的にまたは連続的に前記ｋを変化させ、
前記第１の音声信号と前記第２の音声信号の音量レベルのｋ乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号の圧伸方法。
入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
前記類似度が予め定めた閾値より大きいか否か判断する閾値判断手段と、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
前記音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成手段と、を備え、
前記音量レベル関数計算手段は、
前記類似度が前記閾値より大きい場合には、前記第１の信号と前記第２の信号の音量レベルの和が一定になるようにし、
前記類似度が前記閾値より小さい場合には、前記第１の信号と前記第２の信号の音量レベルの２乗和が一定になるようにして、前記音量レベル関数を計算する音声信号圧伸装置。
入力される第１の音声信号をフェードアウトすると共に、入力される第２の音声信号をフェードインして、これらの信号を継ぎ目なく接続するクロスフェードを用いた、音声信号圧伸装置であって、
前記第１の音声信号の音声データと、前記第２の音声信号の音声データとを比較して類似度を計算する類似度計算手段と、
前記第１の音声信号をフェードアウトし、前記第２の音声信号のフェードインするための音量レベル関数を演算する音量レベル関数計算手段と、
当該音量レベル関数に基づいて、前記第１の音声信号と第２の音声信号を加工して合成する信号合成手段と、を備え、
前記音量レベル関数計算手段は、
ｋを１〜２の値として、前記類似度が小さいほど前記ｋの値を大きくなるよう段階的にまたは連続的に前記ｋを変化させ、
前記第１の音声信号と前記第２の音声信号の音量レベルのｋ乗和が一定になるようにして、前記音量レベル関数を計算する、音声信号圧伸装置。