JP3829134B2

JP3829134B2 - 生成装置、再生装置、生成方法、再生方法、および、プログラム

Info

Publication number: JP3829134B2
Application number: JP2003382379A
Authority: JP
Inventors: 潤一郎兼田
Original assignee: Konami Digital Entertainment Co Ltd
Current assignee: Konami Digital Entertainment Co Ltd
Priority date: 2003-11-12
Filing date: 2003-11-12
Publication date: 2006-10-04
Anticipated expiration: 2023-11-12
Also published as: JP2005148210A

Description

本発明は、生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータにて実現するプログラムに関する。

従来から、各種のゲーム装置では、バックグランドミュージック（Back Ground Music；ＢＧＭ）として、１つの楽曲を繰り返し演奏する手法が採用されている。このような繰り返し演奏の手法としては、１曲全体を単純に繰り返し演奏するものや、１曲を２つの部分に分割し、先に演奏されるべき部分を１回だけ演奏し、それに続いて演奏されるべき部分を繰り返して演奏するものなどがある。

ここで、連続して再生されるべき２つの音声データのうち、先行して再生されるべきものを「先行音声データ」と、後行して再生されるべきものを「後行音声データ」と、それぞれ呼ぶこととし、繰り返し再生において、最初に再生すべき音声データを「冒頭音声データ」と、その後に繰り返して再生すべき音声データを「繰返音声データ」と、それぞれ呼ぶこととする。

すると、上記の前者の手法は、先行音声データならびに冒頭音声データを用いずに、後行音声データを繰返音声データとして用いることに相当する。また、後者の手法は、先行音声データを冒頭音声データとして、後行音声データを繰返音声データとして、それぞれ用いることに相当する。

従来、１つの楽曲を先行音声データと後行音声データに分割して、そのそれぞれを冒頭音声データと繰返音声データとする作業は、音響エンジニアが手作業で行って、繰り返しの切れ目が人間に感知できない区間を選択していた。

そこで、ある音声データがある場合に、これらから冒頭音声データと繰返音声データを生成して、不自然でなく繰り返し再生できるようにするための簡易な技術が強く求められている。また、ある音声データがある場合に、どのように冒頭音声データと繰返音声データとを生成するかについても、新たな技術が求められている。
本発明は、このような課題を解決するためになされたもので、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することを目的とする。

以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
本発明の第１の観点に係る生成装置は、連続して再生されるべき２つの音声データ（以下、先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。）から、最初に再生すべき音声データ（以下「冒頭音声データ」という。）とその後に繰り返して再生すべき音声データ（以下「繰返音声データ」という。）とを、生成して出力する生成装置し、生成部、および、出力部を備え、以下のように構成する。

すなわち、生成部は、当該後行音声データから当該先行音声データへクロスフェードする音声データ（以下「合成音声データ」という。）を生成する。
一方、出力部は、当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する。

上記のように、先行音声データと後行音声データとは、連続して再生されるべき音声データであるから、先行音声データの尾部近傍に続いて後行音声データの頭部近傍が再生された場合には、その移行は聴取者には自然なものと感じられる。

一方、合成音声データの頭部近傍は、後行音声データの頭部近傍と一致することとなり、合成音声データの尾部近傍は、先行音声データの尾部近傍と一致することとなる。

ここで、冒頭音声データ（先行音声データ）に続いて繰返音声データ（合成音声データ）が再生される場合は、先行音声データの尾部近傍に続いて、合成音声データの頭部近傍と一致する後行音声データの頭部近傍が再生されるから、その移行は聴取者には自然なものと感じられる。

一方、繰返音声データ（合成音声データ）が繰り返し再生される場合は、合成音声データの尾部近傍に一致する先行音声データの尾部近傍に続いて、合成音声データの頭部近傍と一致する後行音声データの頭部近傍が再生されるから、その移行もまた聴取者には自然なものと感じられる。

さらに、合成音声データ内における後行音声データから先行音声データへの移行には、クロスフェードの技術を用いるため、この移行についても聴取者には自然なものと感じられる。

したがって、本発明によれば、これが出力冒頭音声データと繰返音声データとを、たとえばゲームにおけるＢＧＭの繰り返し再生用に用いると、不自然な継目のない、なめらかな繰り返し再生が可能となる。また、先行音声データと後行音声データは、連続して再生されるべきものであれば任意の音声データが利用できるので、ある１つの音声データを分割すれば、これらから容易に冒頭音声データと繰返音声データとを、生成することができる。

また、本発明の生成装置において、生成部は当該後行音声データの時間長および当該先行音声データの時間長よりも短い時間長（以下「移行時間」という。）を、当該クロスフェードの時間長として、当該合成音声データを生成するように構成することができる。
移行時間長を先行音声データと後行音声データの時間長よりも短くすることによって、後行音声データの頭部近傍と一致する合成音声データの頭部近傍の時間長、ならびに、先行音声データの尾部近傍と一致する合成音声データの尾部近傍の時間長、のそれぞれの時間長が０よりも大きくなる。
したがって、本発明によれば、自然に繰り返しの移行を行うことができる。

また、本発明の生成装置において、生成部は、当該移行時間における当該合成音声データ中に含まれる当該後行音声データの成分が一定の割合で減少していくように当該合成音声データを生成するように構成することができる。

たとえば、移行時間をTとし、移行時間が開始されてからの経過時間をtとすると、後行音声データに対するクロスフェードの乗数を1-t/Tとし、先行音声データに対するクロスフェードの乗数をt/Tとする手法などを採用することができる。
したがって、本発明によれば、合成音声データ中における後行音声データから先行音声データへの移行を滑らかに行うことができ、聴取者は自然な移行が行われたように感じることができるようになる。

本発明の他の観点に係る生成装置は、与えられた音声データ（以下「原音声データ」という。）を３つ（以下、再生すべき順に「第１音声データ」「第２音声データ」「第３音声データ」という。）に分割する分割部をさらに備え、以下のように構成する。

すなわち、生成部は、当該第２音声データを先行音声データとし、当該第３音声データを後行音声データとして当該合成音声データを生成する。

一方、出力部は、当該先行音声データを冒頭音声データとするのにかえて、当該第１音声データと当該第２音声データとを連結した音声データを冒頭音声データとして、出力する。

本発明は、たとえば、１つの楽曲を表現する原音声データに対して、上記発明を適用するためのものである。一般に、原音声データにおいては、冒頭に１回だけ再生すべき部分が用意され、これに続いて繰り返して再生しても良い部分が用意されるのが一般的である。そこで、真に冒頭に１回だけ再生すべき部分を第１音声データとし、繰り返して再生しても良い部分を２つに分割して第２音声データ、第３音声データとして、上記の発明に適用するのである。分割の場所は、音響エンジニア等の指示によって行っても良いし、後述するように、適切な場所を生成装置にて自動的に検出することとしても良い。また、検出結果から候補を複数用意して、そこから音響エンジニア等の指示により選択を行っても良い。
本発明によれば、普通の楽曲を適切に分割して、冒頭音声データと繰返音声データとを生成することができる。

また、本発明の生成装置において、分割部は、当該原音声データの尾部移行時間長の部分（以下「移行部分」という。）と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分（以下「被対比部分」という。）のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分（以下「類似部分」という。）を得て、当該類似部分の先頭で、当該第１音声データと当該第２音声データとを分割し、当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第２音声データと当該第３音声データとを分割するように構成することができる。
すなわち、原音声データの尾部のうち移行時間長の部分（もしくはこれに類似する部分）が、当該原音声データにおいて先行して現れているかどうかを調べ、現れている場合は、当該部分の出現場所を指標として、分割を行う。
本発明によれば、普通の楽曲の分割を適切に、自動的に行うことによって、容易に、冒頭音声データと繰返音声データとを生成することができる。

また、本発明の生成装置において、分割部は、当該移行部分の音声データからなるベクトルと当該被対比部分の音声データからなるベクトルとがなす角の余弦を当該類似度として求めるように構成することができる。
本発明は、類似度を音声データの波形の相関係数から求めることに相当するもので、本発明によれば、楽曲の分割を適切に、自動的に行うことができる。

また、本発明の生成装置において、分割部は、当該類似度が所定の閾値以上である被対比部分が複数ある場合、これらからいずれかをユーザに選択させて、選択された被対比部分を当該類似部分とするように構成することができる。
本発明は、類似度が所定の閾値以上である部分が複数ある場合には、これを音響エンジニア等に提示し、これらのそれぞれに基づいて分割をした場合の繰り返し再生を行うなどの試行を行って、音響エンジニア等にいずれかを選択させる手法である。
本発明によれば、楽曲の分割を適切に、半自動的に行うとともに、人間にとって自然に移行がされるような繰り返し再生を行うための音声データの組み合わせを選択することができる。

本発明の他の観点に係る再生装置は、入力受付部、処理部、および、再生部を備え、以下のように構成する。
すなわち、入力受付部は、音声データの入力を受け付ける。
一方、処理部は、受け付けられた音声データを原音声データとして上記の生成装置に与えて、冒頭音声データと、繰返音声データと、を得る。
さらに、再生部は、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する。

本発明は、上記の生成装置を応用したものである。上記の生成装置では、繰り返し再生を行うために用いられる冒頭音声データと繰返音声データとを出力するが、本発明の再生装置では、当該冒頭音声データを１回再生した後に、繰返音声データを繰り返し再生する。
したがって、本発明によれば、入力を受け付けた音声データを元に、繰り返し再生を行うことができる。

本発明の他の観点に係る生成方法は、連続して再生されるべき２つの音声データ（先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。）から、最初に再生すべき音声データ（以下「冒頭音声データ」という。）とその後に繰り返して再生すべき音声データ（以下「繰返音声データ」という。）とを、生成して出力し、生成工程、および、出力工程を備え、以下のように構成する。

すなわち、生成工程では、当該後行音声データから当該先行音声データへクロスフェードする音声データ（以下「合成音声データ」という。）を生成する。
一方、出力工程では、当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する。

本発明の他の観点に係る再生方法は、入力受付工程、処理工程、および、再生工程を備え、以下のように構成する。
すなわち、入力受付工程では、音声データの入力を受け付ける。
一方、処理工程では、受け付けられた音声データを原音声データとして請求項９に記載の生成方法に与えて、冒頭音声データと、繰返音声データと、を得る。
さらに、再生工程では、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する。

本発明の他の観点に係るプログラムは、コンピュータを、上記の生成装置もしくは再生装置の各部として機能させ、もしくは、コンピュータに、上記の生成方法もしくは再生方法の各工程を実行させるように構成する。

また、本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記録媒体に記録することができる。上記プログラムは、当該プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記録媒体は、当該コンピュータとは独立して配布・販売することができる。

本発明によれば、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することができる。

以下に本発明の実施形態を説明する。以下では、理解を容易にするため、ゲーム装置に本発明が適用される実施形態を説明するが、各種のコンピュータ、ＰＤＡ、携帯電話などの情報処理装置においても同様に本発明を適用することができる。すなわち、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。

図１は、本発明の原理を示す説明図である。以下、本図を参照して説明する。

以下では、理解を容易にするため、音声データをA，B，Cのように大文字で表記することとし、各音声データのデータ長を#A，#B，#Cのように表記し、当該音声データが含む波形のデータをa[0]，a[1]，…，a[#A-1]，b[0]，b[1]，…，b[#B-1]，c[0]，c[1]，…，c[#C-1]のように対応する小文字の配列で表現することとする。

コンパクトディスク等で用いられているＰＣＭ（Pulse Coded Modulation）データでは、１秒間に４４１００個サンプリングされた１６ビットの符号付き整数（−３２７６８〜３２７６７）によって、音声の波形を表現する。これらの数値は適用される分野によって適宜変更が可能である。また、ステレオ再生や多チャンネル再生が行われる場合には、a[0]などの配列の要素がチャンネル数の次元のベクトルとなる。

このほか、MP3やOgg Vorbisなどの各種の音声データの圧縮フォーマットも利用されているが、これらは再生時には、適当なサンプリングレート、適当なビット精度のＰＣＭデータに変換された後、Ｄ／Ａ変換されて再生される。したがって、一旦ＰＣＭデータへの展開を行えば、本発明にこれらの圧縮フォーマットを利用することができる。

さて、音声データAに続いて音声データBが再生されるべきである、ということをA〜Bのように表記する。言い換えれば、A〜Bである場合、音声データAに続いて音声データBが再生されても、聴取者はその接続を不自然に感じない、ということを意味する。

また、音声データBから音声データCへのクロスフェードを行ったデータをB×Cのように表記する。さらに、音声データAと音声データBとをこの順に連結したデータをA:Bのように表記する。

たとえば、D = A:Bとした場合、
#D = #A + #B
であるほか、0≦i≦#A-1について
d[i] = a[i]
が成立し、0≦j≦#B-1について
d[#A+j] = b[j]
が成立する。

さらに、音声データAのi番目〜i+k-1番目（長さk）の波形データを、
A[i；k]
と表記することとすると、D = A:Bについて、
D[0；#A] = A
ならびに、
D[#A；#B] = B
が成立する。

本実施形態では、まず、１つの楽曲である原音声データ(Z)１０を、第１音声データ(A)１１と、第２音声データ(B)１２と、第３音声データ(C)１３と、に３分割する。したがって、明らかに、A〜BかつB〜Cであり、Z = A:B:Cである。

次に、第３音声データ(C)１３から第２音声データ(B)１２へ移行時間Tでクロスフェードした合成音声データ(C×B)１４を生成する。

クロスフェードを行っているので、かりにC×Bのみを再生した場合、最初は音声データCと一致する音声が出力される。これが次第に自然に音声データＢへと変化していき、最後は音声データＢと一致する音声が出力されて、再生が終了することとなる。すなわち、したがって、明らかにB〜C×BかつC×B〜Cが成立する。したがって、C×B〜C×Bである。

そこで、AならびにB連結した音声データA:Bを冒頭音声データ１５とし、C×Bを繰返音声データ１６として出力し、繰り返し再生を行うと、以下の順に音声データが再生されることになる。
A，B，C×B，C×B，C×B，…

これらの音声データの移行を考えると、上記のように、A〜B、B〜C×B、C×B〜C×Bが成立するから、移行部分が不自然に聞こえることはなく、自然な繰り返し再生を行うことができるのである。

以下、さらに詳細に、本実施形態に係る生成装置および生成方法について説明する。

（生成装置）
図２は、本実施形態に係る生成装置の概要構成図である。図３は、当該生成装置にて実行される生成方法の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。

生成装置２０１は、分割部２０２、生成部２０３、出力部２０４を備え、典型的には、マルチメディア処理が可能なコンピュータ上に実現される。

まず、分割部２０２は、あらかじめ用意された原音声データ(Z)１０を、第１音声データ(A)１１と、第２音声データ(B)１２と、第３音声データ(C)１３と、に３分割する（ステップＳ３０１）。分割の各種の手法については、後述する。

次に、生成部２０３は、第３音声データ(C)１３から第２音声データ(B)１２へ移行時間Tでクロスフェードする合成音声データ(C×B)１４を合成する（ステップＳ３０２）。生成の各種の手法についても、後述する。

最後に、出力部２０４は、第１音声データ(A)１１と第２音声データ(B)１２とを連結した音声データA:Bを冒頭音声データ１５とし、合成音声データ(C×B)１４を繰返音声データ１６として、出力して（ステップＳ３０３）、本処理を終了する。

なお、上記実施形態では、ステップＳ３０１において３分割を行っているが、原音声データ(Z)１０の種類や適用の分野、ユーザからの指示によっては、第２音声データ(B)１２と、第３音声データ(C)１３とに２分割することとし、冒頭音声データ１５として第２音声データ(B)１２を、繰返音声データ１６として合成音声データ(C×B)１４を、それぞれ採用することとしても良い。

また、上記の実施形態では、冒頭音声データ１５と繰返音声データ１６とを個別の音声データとして出力しているが、冒頭音声データ１５と繰返音声データ１６とを連結したA:B:C×Bと、冒頭音声データ１５の長さ#A + #B（やこれに対応する時間長等）と、を出力するのみとしても良い。A:B:C×Bの全音声データを再生し終わった後に、当該全音声データの先頭から#A + #Bの位置を繰り返しの開始位置とし、A:B:C×Bの終端まで至ったときに当該繰り返しの開始位置に戻るように繰り返し再生を設定して再生を行うこととすれば、冒頭音声データ１５と繰返音声データ１６とを個別の音声データとして出力し、冒頭音声データ１５の再生の後に繰返音声データ１６を繰り返し再生するのと同等だからである。

これらの各部で行われる処理は、いずれもディジタル信号処理、もしくは、ディジタルデータ処理によって実現されるため、各種のＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等にこれら各部の機能を実行させることができる。

以下、クロスフェードの手法と、分割の手法について、順に詳細に説明する。

（クロスフェードの手法）
以下では音声データBから音声データCへ移行時間Tでクロスフェードする音声データC×Bを合成する手法について説明する。なお、以下では、理解を容易にするため、移行時間Tの単位としてサンプル数（波形データを配列で表現したときの添字に相当する。）を用いることとする。たとえば、コンパクトディスク品質の音声データに対してクロスフェードの移行時間を３秒とした場合、移行時間Tは、４４１００×３＝１３２３００サンプルとなる。クロスフェードの移行時間Tは、定数としても良いし、音響エンジニア等の指示入力に応じて決定されることとしても良い。

また、移行時間Tは、音声データB，Cの長さよりも短かいことが望ましい。すなわち、T < #BかつT < #Cである。

さて、音声データC×B = Eは、以下のようにしてその波形データe[i]が計算される。
（１）0≦i≦#C-T-1である場合、e[i] = c[i]
（２）0≦t≦T-1である場合、e[#C-T + t] = (1-t/T) c[#C-T + t] + t/T b[t]
（３）T≦i≦#B-1である場合、e[#C-T + i] = b[i]

音声データE = C×Bの長さについては、
#E = #C + #B - T
が成立する。また、明らかに、
E[0；#C-T] = C[0；#C-T]
ならびに、
E[#C；#B-T] = B[T；#B-T]
である。さらに、E[#C-T；T]は、C[#C-T；T]とB[0；T]とを、先頭からの経過時間tにより、比率(1-t/T):(t/T)でミキシングした結果に相当する。
これらは、図１に示すクロスフェードの様子を計算式にて表現したものである。

このようにすると、音声データEを再生した場合、当初（E[0；#C-T]）は音声データCが再生されているが、移行時間中（E[#C-T；T]）に音声データCから音声データBへしだいに音声が変化・移行していき、移行時間が終われば（E[#C；#B-T]）、音声データBの残余部分が再生されることとなる。

上記（２）は、移行時間内での経過時間tに比例係数1/Tで比例して音声データBの成分が大きくなり、これに応じて音声データCの成分が小さくなっていくことを意味する。
このほか、一般的なクロスフェード処理で用いられる各種の技術を、本実施形態において採用することもできる。（E[0；#C-T]）（分割の手法）

分割の手法としては、もっとも単純には、原音声データ（Z）１０における分割位置を指定するように音響エンジニア等のユーザに促し、その入力によって分割位置を決める、というものが考えられる。尚、上記実施形態では、原音声データ（Z）１０全体を３つの音声データ（A，B，C）１１、１２、１３に分割しているが、音声データ（A，B，C）１１、１２、１３としては、この順に連続して再生されるべきものであれば、どのように分割するのでも良い。

たとえば、原音声データ（Z）１１の頭部の指定した時間長を除去したり、尾部の指定した時間長を除去する指定とともに、音声データ（A，B，C）１１、１２、１３に３分割するための指定を行う、という手法（この場合、除去する部分の分割を考えれば、実質的には４〜５分割していることになる。）を採用することもできる。なお、以下の説明では、理解を容易にするため、３分割する場合を例にあげることとする。

さて、他の手法としては、分割する位置として適切な位置を生成装置２０１が自動的に選択し、もしくは生成装置２０１がユーザへ提示していずれかを選択させる、というものである。上記実施形態では、３分割をする際の位置が指定すればC×Bのようなクロスフェードによって不自然でない繰り返し再生が可能であるが、本実施形態では、さらに、その自然さの度合の向上を目指す。

C×Bのクロスフェードでは、Cの時間長Tの尾部C[#C-T；T]と、Bの時間長Tの頭部B[0；T]と、がクロスフェード開始からの経過時間tによって(1-t/T):(t/T)の比率でミキシングされる。

ここで、かりにCの時間長Tの尾部C[#C-T；T]と、Bの時間長Tの頭部B[0；T]と、が、まったく同じ音声データであるとするならば、これを(1-t/T):(t/T)の比率でミキシングしたものも、同じ音声データとなる。また、二者が類似した音声データであるならば、これらが類似しない場合よりも、より自然なクロスフェードが可能であると考えられる。

そこで、原音声データZの時間長Tの尾部の音声データ（以下「移行部分」という。）を、原音声データZのそれ以外の同じ時間長Tの音声データ（以下「被対比部分」という。）のそれぞれと対比して、その類似度が高い部分を自動的に選択し、もしくは、類似度が高い部分を複数提示してユーザに選択させるのである。以下、本手法について詳細に説明する。

移行部分Z[#Z-T；T]は、モノラルの場合には、T個の波形データからなる。そこで、移行部分Z[#Z-T；T]を当該個数の次元からなるベクトルと考える。すると、一方、被対比部分は、Z[s；T] (0≦s≦#Z-2T-1)というベクトルとなる。これら２つのベクトルの類似度の計算方法としては、たとえば、以下のようなものが考えられる。
（１）ベクトルZ[#Z-T；T]とZ[s；T]とがなす角が小さければ類似度が高いとする。たとえば、ベクトルZ[#Z-T；T]とZ[s；T]とがなす角の余弦（cosine；コサイン）を類似度とする。
（２）ベクトルZ[#Z-T；T]とZ[s；T]との差のベクトルの大きさが小さければ類似度が高いとする。たとえば、当該差のベクトルの大きさの符号を反転したものを類似度とする。

本実施例では、上記（１）の手法を採用することとする。また、ベクトルVとベクトルWの内積をV・Wと、ベクトルVの長さを|V|と、それぞれ表記することとする。すると、ベクトルZ[#Z-T；T]とZ[s；T]とがなす角の余弦（cosine；コサイン）、すなわち、両者の類似度は、以下のように計算することができる。
Z[#Z-T；T]・Z[s；T]／(|Z[#Z-T；T]| |Z[s；T]|)

ここで、原音声データZと移行時間長Tとは、一旦処理が開始されれば定数と見てよいから、類似度はパラメータsによって決まることとなる。そこで、当該類似度を関数f(s)の形式で表す。
f(s) = Z[#Z-T；T]・Z[s；T]／(|Z[#Z-T；T]| |Z[s；T]|)

すると、ここで必要とされる事項は、区間(0≦s≦#Z-2T-1)において、関数f(s)を最大化（あるいは、所定閾値を超えるもの）するsを探す、ということに帰着される。このような最大化等に相当するsを求める技術としては、公知の計算法を用いることができる。

あるベクトルG[s；t]とH[u；t]との内積は、
G[s；t]・H[u；t] = Σ_i=0 ^t-1(g[s+i] h[u+i])
を計算することによって求められるし、あるベクトルG[s；t]の長さは、
|G[s；t]| = (G[s；t]・G[s；t])^1/2
を計算することによって求められるからである。これらの計算にはΣがあらわれるため、ループによる計算のほか、ベクトル計算機を用いるなど、種々の計算技術を適用することができる。

なお、上記（２）の手法を採用した場合には、類似度としては - |Z[#Z-T；T] - Z[s；T]| や - |Z[#Z-T；T] - Z[s；T]|²を利用することができる。

また、nチャンネルの場合には移行部分Z[#Z-T；T]と被対比部分Z[s；T]と、は、いずれも、nT個の波形データとなる。これらをnT次元のベクトルと考えれば、上記と同様に類似度を求めて、分割を（半）自動化する処理を行うことができる。

（再生装置）
上記実施例の生成装置２０１は、これが生成した冒頭楽曲データと繰返楽曲データとをＣＤ−ＲＯＭなどの記憶媒体に記憶して配布することを想定している。すなわち、当該記憶媒体を購入等したユーザが、自身のコンピュータやゲーム装置といったハードウェアで当該記憶媒体を用い、まず冒頭楽曲データを再生し、これに引き続いて繰返楽曲データを繰り返し演奏する形態である。

以下で説明する再生装置はこれと異なり、音響エンジニア等が繰り返し再生のための編集を行うことを想定したものである。

図４は、本実施例の再生装置の概要構成を示す模式図である。図５は、当該再生装置にて実行される再生方法の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。

本実施例の再生装置４０１は、入力受付部４０２、処理部４０３、および、再生部４０４を備える。

まず、入力受付部４０２は、音声データの入力を受け付ける（ステップＳ５０１）。当該音声データは、たとえばＣＤ−ＲＯＭなどの記憶媒体に記憶された音声情報、ネットワークなどを通じてストリーム配信される音声情報、マイク等から入力される音声情報など、種々のものを用いることができる。

次に、処理部４０３は、受け付けられた音声データを原音声データとして上記の生成装置２０１に与える（ステップＳ５０２）。

そして、当該生成装置２０１が出力する冒頭音声データと、繰返音声データと、を得る（ステップＳ５０３）。

なお、ステップＳ５０２〜ステップＳ５０３においては、ユーザからの指示入力によって原音声データを分割する位置を決めたり、分割位置の候補をユーザに提示したり、ユーザが当該候補を選択する等、の対話が行われる。
さらに、再生部４０４は、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する（ステップＳ５０４）。この様子を聞いて、ユーザが結果に満足である場合（ステップＳ５０５；Ｙｅｓ）、本処理を終了することとし、再度編集を行いたい場合（ステップＳ５０５；Ｎｏ）、ステップＳ５０２に戻ることとなる。

本再生装置４０１によれば、１つの音声データから繰り返し再生を行うための音声データを生成し、その生成のプロセスを、ユーザが満足がいくまでやり直すことができるようになる。

上記のように、本発明によれば、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することができ、ゲーム等で用いられる各種のマルチメディアコンテンツの作成や再生等に本発明を適用することができる。

本発明の原理を示す説明図である。本発明の実施例に係る生成装置の概要構成を示す説明図である。本実施形態の生成装置にて実行される生成方法の制御の流れを示すフローチャートである。本発明の実施例に係る再生装置の概要構成を示す説明図である。本実施形態の再生装置にて実行される再生方法の制御の流れを示すフローチャートである。

符号の説明

１０原音声データ
１１第１音声データ
１２第２音声データ
１３第３音声データ
１４合成音声データ
１５冒頭音声データ
１６繰返音声データ
２０１生成装置
２０２分割部
２０３生成部
２０４出力部
４０１再生装置
４０２入力受付部
４０３処理部
４０４再生部

Claims

与えられた音声データ（以下「原音声データ」という。）を３つ（以下、再生すべき順に「第１音声データ」「第２音声データ」「第３音声データ」という。）に分割する分割部、
当該第２音声データを先行音声データとし、当該第３音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ（以下「合成音声データ」という。）を生成する生成部、
当該第１音声データと当該第２音声データとを連結した音声データを最初に再生すべき音声データ（以下「冒頭音声データ」という。）とし、当該合成音声データをその後に繰り返して再生すべき音声データ（以下「繰返音声データ」という。）として出力する出力部
を備えることを特徴とする生成装置。
請求項１に記載の生成装置であって、
前記分割部は、当該原音声データの尾部移行時間長の部分（以下「移行部分」という。）と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分（以下「被対比部分」という。）のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分（以下「類似部分」という。）を得て、
当該類似部分の先頭で、当該第１音声データと当該第２音声データとを分割し、
当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第２音声データと当該第３音声データとを分割する
ことを特徴とする生成装置。
請求項２に記載の生成装置であって、
前記分割部は、当該移行部分の音声データからなるベクトルと当該被対比部分の音声データからなるベクトルとがなす角の余弦を当該類似度として求める
ことを特徴とする生成装置。
請求項２または３に記載の生成装置であって、
前記分割部は、当該類似度が所定の閾値以上である被対比部分が複数ある場合、これらからいずれかをユーザに選択させて、選択された被対比部分を当該類似部分とする
ことを特徴とする生成装置。
請求項２から４のいずれか１項に記載の生成装置であって、
前記生成部は当該後行音声データの時間長および当該先行音声データの時間長よりも短い時間長（以下「移行時間」という。）を、当該クロスフェードの時間長として、当該合成音声データを生成する
ことを特徴とする生成装置。
請求項５に記載の生成装置であって、
前記生成部は、当該移行時間における当該合成音声データ中に含まれる当該後行音声データの成分が一定の割合で減少していくように当該合成音声データを生成する
ことを特徴とする生成装置。
音声データの入力を受け付ける入力受付部、
請求項２から請求項６のいずれか１項に記載の生成装置を有し、前記受け付けられた音声データを原音声データとして当該生成装置に与えて、冒頭音声データと、繰返音声データと、を得る処理部、および、
前記得られた冒頭音声データを再生し、その後、前記得られた繰返音声データを繰り返し再生する再生部
を備えることを特徴とする再生装置。
与えられた音声データ（以下「原音声データ」という。）を３つ（以下、再生すべき順に「第１音声データ」「第２音声データ」「第３音声データ」という。）に分割する分割工程、
当該第２音声データを先行音声データとし、当該第３音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ（以下「合成音声データ」という。）を生成する生成工程、
当該第１音声データと当該第２音声データとを連結した音声データを最初に再生すべき音声データ（以下「冒頭音声データ」という。）とし、当該合成音声データをその後に繰り返して再生すべき音声データ（以下「繰返音声データ」という。）として出力する出力工程
を備えることを特徴とする生成方法。
請求項８に記載の生成方法であって、
前記分割工程では、当該原音声データの尾部移行時間長の部分（以下「移行部分」という。）と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分（以下「被対比部分」という。）のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分（以下「類似部分」という。）を得て、
当該類似部分の先頭で、当該第１音声データと当該第２音声データとを分割し、
当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第２音声データと当該第３音声データとを分割する
ことを特徴とする生成方法。
音声データの入力を受け付ける入力受付工程、
前記受け付けられた音声データ（以下「原音声データ」という。）を３つ（以下、再生すべき順に「第１音声データ」「第２音声データ」「第３音声データ」という。）に分割する分割工程、
当該第２音声データを先行音声データとし、当該第３音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ（以下「合成音声データ」という。）を生成する生成工程、
当該第１音声データと当該第２音声データとを連結した音声データを最初に再生すべき音声データ（以下「冒頭音声データ」という。）とし、当該合成音声データをその後に繰り返して再生すべき音声データ（以下「繰返音声データ」という。）として出力する出力工程、
前記出力された冒頭音声データを再生し、その後、前記出力された繰返音声データを繰り返し再生する再生工程
を備え、
前記分割工程では、当該原音声データの尾部移行時間長の部分（以下「移行部分」という。）と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分（以下「被対比部分」という。）のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分（以下「類似部分」という。）を得て、
当該類似部分の先頭で、当該第１音声データと当該第２音声データとを分割し、
当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第２音声データと当該第３音声データとを分割する
ことを特徴とする再生方法。
コンピュータを、
与えられた音声データ（以下「原音声データ」という。）を３つ（以下、再生すべき順に「第１音声データ」「第２音声データ」「第３音声データ」という。）に分割する分割部、
当該第２音声データを先行音声データとし、当該第３音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ（以下「合成音声データ」という。）を生成する生成部、
当該第１音声データと当該第２音声データとを連結した音声データを最初に再生すべき音声データ（以下「冒頭音声データ」という。）とし、当該合成音声データをその後に繰り返して再生すべき音声データ（以下「繰返音声データ」という。）として出力する出力部
として機能させることを特徴とするプログラム。
請求項１１に記載のプログラムであって、前記コンピュータにおいて、
前記分割部は、当該原音声データの尾部移行時間長の部分（以下「移行部分」という。）と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分（以下「被対比部分」という。）のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分（以下「類似部分」という。）を得て、
当該類似部分の先頭で、当該第１音声データと当該第２音声データとを分割し、
当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第２音声データと当該第３音声データとを分割する
ように機能させることを特徴とするプログラム。
請求項１２に記載のプログラムであって、当該プログラムは、当該コンピュータを、
音声データの入力を受け付けてこれを前記生成部に原音声データとして与える入力受付部、および、
前記出力部から出力された冒頭音声データを再生し、その後、前記出力部から出力された繰返音声データを繰り返し再生する再生部
としてさらに機能させることを特徴とするプログラム。