JP3829134B2 - 生成装置、再生装置、生成方法、再生方法、および、プログラム - Google Patents

生成装置、再生装置、生成方法、再生方法、および、プログラム Download PDF

Info

Publication number
JP3829134B2
JP3829134B2 JP2003382379A JP2003382379A JP3829134B2 JP 3829134 B2 JP3829134 B2 JP 3829134B2 JP 2003382379 A JP2003382379 A JP 2003382379A JP 2003382379 A JP2003382379 A JP 2003382379A JP 3829134 B2 JP3829134 B2 JP 3829134B2
Authority
JP
Japan
Prior art keywords
audio data
data
hereinafter referred
time length
reproduced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003382379A
Other languages
English (en)
Other versions
JP2005148210A (ja
Inventor
潤一郎 兼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Digital Entertainment Co Ltd
Original Assignee
Konami Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Digital Entertainment Co Ltd filed Critical Konami Digital Entertainment Co Ltd
Priority to JP2003382379A priority Critical patent/JP3829134B2/ja
Publication of JP2005148210A publication Critical patent/JP2005148210A/ja
Application granted granted Critical
Publication of JP3829134B2 publication Critical patent/JP3829134B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータにて実現するプログラムに関する。
従来から、各種のゲーム装置では、バックグランドミュージック(Back Ground Music;BGM)として、1つの楽曲を繰り返し演奏する手法が採用されている。このような繰り返し演奏の手法としては、1曲全体を単純に繰り返し演奏するものや、1曲を2つの部分に分割し、先に演奏されるべき部分を1回だけ演奏し、それに続いて演奏されるべき部分を繰り返して演奏するものなどがある。
ここで、連続して再生されるべき2つの音声データのうち、先行して再生されるべきものを「先行音声データ」と、後行して再生されるべきものを「後行音声データ」と、それぞれ呼ぶこととし、繰り返し再生において、最初に再生すべき音声データを「冒頭音声データ」と、その後に繰り返して再生すべき音声データを「繰返音声データ」と、それぞれ呼ぶこととする。
すると、上記の前者の手法は、先行音声データならびに冒頭音声データを用いずに、後行音声データを繰返音声データとして用いることに相当する。また、後者の手法は、先行音声データを冒頭音声データとして、後行音声データを繰返音声データとして、それぞれ用いることに相当する。
従来、1つの楽曲を先行音声データと後行音声データに分割して、そのそれぞれを冒頭音声データと繰返音声データとする作業は、音響エンジニアが手作業で行って、繰り返しの切れ目が人間に感知できない区間を選択していた。
そこで、ある音声データがある場合に、これらから冒頭音声データと繰返音声データを生成して、不自然でなく繰り返し再生できるようにするための簡易な技術が強く求められている。また、ある音声データがある場合に、どのように冒頭音声データと繰返音声データとを生成するかについても、新たな技術が求められている。
本発明は、このような課題を解決するためになされたもので、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することを目的とする。
以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
本発明の第1の観点に係る生成装置は、連続して再生されるべき2つの音声データ(以下、先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。)から、最初に再生すべき音声データ(以下「冒頭音声データ」という。)とその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)とを、生成して出力する生成装置し、生成部、および、出力部を備え、以下のように構成する。
すなわち、生成部は、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する。
一方、出力部は、当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する。
上記のように、先行音声データと後行音声データとは、連続して再生されるべき音声データであるから、先行音声データの尾部近傍に続いて後行音声データの頭部近傍が再生された場合には、その移行は聴取者には自然なものと感じられる。
一方、合成音声データの頭部近傍は、後行音声データの頭部近傍と一致することとなり、合成音声データの尾部近傍は、先行音声データの尾部近傍と一致することとなる。
ここで、冒頭音声データ(先行音声データ)に続いて繰返音声データ(合成音声データ)が再生される場合は、先行音声データの尾部近傍に続いて、合成音声データの頭部近傍と一致する後行音声データの頭部近傍が再生されるから、その移行は聴取者には自然なものと感じられる。
一方、繰返音声データ(合成音声データ)が繰り返し再生される場合は、合成音声データの尾部近傍に一致する先行音声データの尾部近傍に続いて、合成音声データの頭部近傍と一致する後行音声データの頭部近傍が再生されるから、その移行もまた聴取者には自然なものと感じられる。
さらに、合成音声データ内における後行音声データから先行音声データへの移行には、クロスフェードの技術を用いるため、この移行についても聴取者には自然なものと感じられる。
したがって、本発明によれば、これが出力冒頭音声データと繰返音声データとを、たとえばゲームにおけるBGMの繰り返し再生用に用いると、不自然な継目のない、なめらかな繰り返し再生が可能となる。また、先行音声データと後行音声データは、連続して再生されるべきものであれば任意の音声データが利用できるので、ある1つの音声データを分割すれば、これらから容易に冒頭音声データと繰返音声データとを、生成することができる。
また、本発明の生成装置において、生成部は当該後行音声データの時間長および当該先行音声データの時間長よりも短い時間長(以下「移行時間」という。)を、当該クロスフェードの時間長として、当該合成音声データを生成するように構成することができる。
移行時間長を先行音声データと後行音声データの時間長よりも短くすることによって、後行音声データの頭部近傍と一致する合成音声データの頭部近傍の時間長、ならびに、先行音声データの尾部近傍と一致する合成音声データの尾部近傍の時間長、のそれぞれの時間長が0よりも大きくなる。
したがって、本発明によれば、自然に繰り返しの移行を行うことができる。
また、本発明の生成装置において、生成部は、当該移行時間における当該合成音声データ中に含まれる当該後行音声データの成分が一定の割合で減少していくように当該合成音声データを生成するように構成することができる。
たとえば、移行時間をTとし、移行時間が開始されてからの経過時間をtとすると、後行音声データに対するクロスフェードの乗数を1-t/Tとし、先行音声データに対するクロスフェードの乗数をt/Tとする手法などを採用することができる。
したがって、本発明によれば、合成音声データ中における後行音声データから先行音声データへの移行を滑らかに行うことができ、聴取者は自然な移行が行われたように感じることができるようになる。
本発明の他の観点に係る生成装置は、与えられた音声データ(以下「原音声データ」という。)を3つ(以下、再生すべき順に「第1音声データ」「第2音声データ」「第3音声データ」という。)に分割する分割部をさらに備え、以下のように構成する。
すなわち、生成部は、当該第2音声データを先行音声データとし、当該第3音声データを後行音声データとして当該合成音声データを生成する。
一方、出力部は、当該先行音声データを冒頭音声データとするのにかえて、当該第1音声データと当該第2音声データとを連結した音声データを冒頭音声データとして、出力する。
本発明は、たとえば、1つの楽曲を表現する原音声データに対して、上記発明を適用するためのものである。一般に、原音声データにおいては、冒頭に1回だけ再生すべき部分が用意され、これに続いて繰り返して再生しても良い部分が用意されるのが一般的である。そこで、真に冒頭に1回だけ再生すべき部分を第1音声データとし、繰り返して再生しても良い部分を2つに分割して第2音声データ、第3音声データとして、上記の発明に適用するのである。分割の場所は、音響エンジニア等の指示によって行っても良いし、後述するように、適切な場所を生成装置にて自動的に検出することとしても良い。また、検出結果から候補を複数用意して、そこから音響エンジニア等の指示により選択を行っても良い。
本発明によれば、普通の楽曲を適切に分割して、冒頭音声データと繰返音声データとを生成することができる。
また、本発明の生成装置において、分割部は、当該原音声データの尾部移行時間長の部分(以下「移行部分」という。)と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分(以下「被対比部分」という。)のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分(以下「類似部分」という。)を得て、当該類似部分の先頭で、当該第1音声データと当該第2音声データとを分割し、当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第2音声データと当該第3音声データとを分割するように構成することができる。
すなわち、原音声データの尾部のうち移行時間長の部分(もしくはこれに類似する部分)が、当該原音声データにおいて先行して現れているかどうかを調べ、現れている場合は、当該部分の出現場所を指標として、分割を行う。
本発明によれば、普通の楽曲の分割を適切に、自動的に行うことによって、容易に、冒頭音声データと繰返音声データとを生成することができる。
また、本発明の生成装置において、分割部は、当該移行部分の音声データからなるベクトルと当該被対比部分の音声データからなるベクトルとがなす角の余弦を当該類似度として求めるように構成することができる。
本発明は、類似度を音声データの波形の相関係数から求めることに相当するもので、本発明によれば、楽曲の分割を適切に、自動的に行うことができる。
また、本発明の生成装置において、分割部は、当該類似度が所定の閾値以上である被対比部分が複数ある場合、これらからいずれかをユーザに選択させて、選択された被対比部分を当該類似部分とするように構成することができる。
本発明は、類似度が所定の閾値以上である部分が複数ある場合には、これを音響エンジニア等に提示し、これらのそれぞれに基づいて分割をした場合の繰り返し再生を行うなどの試行を行って、音響エンジニア等にいずれかを選択させる手法である。
本発明によれば、楽曲の分割を適切に、半自動的に行うとともに、人間にとって自然に移行がされるような繰り返し再生を行うための音声データの組み合わせを選択することができる。
本発明の他の観点に係る再生装置は、入力受付部、処理部、および、再生部を備え、以下のように構成する。
すなわち、入力受付部は、音声データの入力を受け付ける。
一方、処理部は、受け付けられた音声データを原音声データとして上記の生成装置に与えて、冒頭音声データと、繰返音声データと、を得る。
さらに、再生部は、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する。
本発明は、上記の生成装置を応用したものである。上記の生成装置では、繰り返し再生を行うために用いられる冒頭音声データと繰返音声データとを出力するが、本発明の再生装置では、当該冒頭音声データを1回再生した後に、繰返音声データを繰り返し再生する。
したがって、本発明によれば、入力を受け付けた音声データを元に、繰り返し再生を行うことができる。
本発明の他の観点に係る生成方法は、連続して再生されるべき2つの音声データ(先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。)から、最初に再生すべき音声データ(以下「冒頭音声データ」という。)とその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)とを、生成して出力し、生成工程、および、出力工程を備え、以下のように構成する。
すなわち、生成工程では、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する。
一方、出力工程では、当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する。
本発明の他の観点に係る再生方法は、入力受付工程、処理工程、および、再生工程を備え、以下のように構成する。
すなわち、入力受付工程では、音声データの入力を受け付ける。
一方、処理工程では、受け付けられた音声データを原音声データとして請求項9に記載の生成方法に与えて、冒頭音声データと、繰返音声データと、を得る。
さらに、再生工程では、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する。
本発明の他の観点に係るプログラムは、コンピュータを、上記の生成装置もしくは再生装置の各部として機能させ、もしくは、コンピュータに、上記の生成方法もしくは再生方法の各工程を実行させるように構成する。
また、本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記録媒体に記録することができる。上記プログラムは、当該プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記録媒体は、当該コンピュータとは独立して配布・販売することができる。
本発明によれば、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することができる。
以下に本発明の実施形態を説明する。以下では、理解を容易にするため、ゲーム装置に本発明が適用される実施形態を説明するが、各種のコンピュータ、PDA、携帯電話などの情報処理装置においても同様に本発明を適用することができる。すなわち、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。
図1は、本発明の原理を示す説明図である。以下、本図を参照して説明する。
以下では、理解を容易にするため、音声データをA,B,Cのように大文字で表記することとし、各音声データのデータ長を#A,#B,#Cのように表記し、当該音声データが含む波形のデータをa[0],a[1],…,a[#A-1],b[0],b[1],…,b[#B-1],c[0],c[1],…,c[#C-1]のように対応する小文字の配列で表現することとする。
コンパクトディスク等で用いられているPCM(Pulse Coded Modulation)データでは、1秒間に44100個サンプリングされた16ビットの符号付き整数(−32768〜32767)によって、音声の波形を表現する。これらの数値は適用される分野によって適宜変更が可能である。また、ステレオ再生や多チャンネル再生が行われる場合には、a[0]などの配列の要素がチャンネル数の次元のベクトルとなる。
このほか、MP3やOgg Vorbisなどの各種の音声データの圧縮フォーマットも利用されているが、これらは再生時には、適当なサンプリングレート、適当なビット精度のPCMデータに変換された後、D/A変換されて再生される。したがって、一旦PCMデータへの展開を行えば、本発明にこれらの圧縮フォーマットを利用することができる。
さて、音声データAに続いて音声データBが再生されるべきである、ということをA〜Bのように表記する。言い換えれば、A〜Bである場合、音声データAに続いて音声データBが再生されても、聴取者はその接続を不自然に感じない、ということを意味する。
また、音声データBから音声データCへのクロスフェードを行ったデータをB×Cのように表記する。さらに、音声データAと音声データBとをこの順に連結したデータをA:Bのように表記する。
たとえば、D = A:Bとした場合、
#D = #A + #B
であるほか、0≦i≦#A-1について
d[i] = a[i]
が成立し、0≦j≦#B-1について
d[#A+j] = b[j]
が成立する。
さらに、音声データAのi番目〜i+k-1番目(長さk)の波形データを、
A[i;k]
と表記することとすると、D = A:Bについて、
D[0;#A] = A
ならびに、
D[#A;#B] = B
が成立する。
本実施形態では、まず、1つの楽曲である原音声データ(Z)10を、第1音声データ(A)11と、第2音声データ(B)12と、第3音声データ(C)13と、に3分割する。したがって、明らかに、A〜BかつB〜Cであり、Z = A:B:Cである。
次に、第3音声データ(C)13から第2音声データ(B)12へ移行時間Tでクロスフェードした合成音声データ(C×B)14を生成する。
クロスフェードを行っているので、かりにC×Bのみを再生した場合、最初は音声データCと一致する音声が出力される。これが次第に自然に音声データBへと変化していき、最後は音声データBと一致する音声が出力されて、再生が終了することとなる。すなわち、したがって、明らかにB〜C×BかつC×B〜Cが成立する。したがって、C×B〜C×Bである。
そこで、AならびにB連結した音声データA:Bを冒頭音声データ15とし、C×Bを繰返音声データ16として出力し、繰り返し再生を行うと、以下の順に音声データが再生されることになる。
A,B,C×B,C×B,C×B,…
これらの音声データの移行を考えると、上記のように、A〜B、B〜C×B、C×B〜C×Bが成立するから、移行部分が不自然に聞こえることはなく、自然な繰り返し再生を行うことができるのである。
以下、さらに詳細に、本実施形態に係る生成装置および生成方法について説明する。
(生成装置)
図2は、本実施形態に係る生成装置の概要構成図である。図3は、当該生成装置にて実行される生成方法の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。
生成装置201は、分割部202、生成部203、出力部204を備え、典型的には、マルチメディア処理が可能なコンピュータ上に実現される。
まず、分割部202は、あらかじめ用意された原音声データ(Z)10を、第1音声データ(A)11と、第2音声データ(B)12と、第3音声データ(C)13と、に3分割する(ステップS301)。分割の各種の手法については、後述する。
次に、生成部203は、第3音声データ(C)13から第2音声データ(B)12へ移行時間Tでクロスフェードする合成音声データ(C×B)14を合成する(ステップS302)。生成の各種の手法についても、後述する。
最後に、出力部204は、第1音声データ(A)11と第2音声データ(B)12とを連結した音声データA:Bを冒頭音声データ15とし、合成音声データ(C×B)14を繰返音声データ16として、出力して(ステップS303)、本処理を終了する。
なお、上記実施形態では、ステップS301において3分割を行っているが、原音声データ(Z)10の種類や適用の分野、ユーザからの指示によっては、第2音声データ(B)12と、第3音声データ(C)13とに2分割することとし、冒頭音声データ15として第2音声データ(B)12を、繰返音声データ16として合成音声データ(C×B)14を、それぞれ採用することとしても良い。
また、上記の実施形態では、冒頭音声データ15と繰返音声データ16とを個別の音声データとして出力しているが、冒頭音声データ15と繰返音声データ16とを連結したA:B:C×Bと、冒頭音声データ15の長さ#A + #B(やこれに対応する時間長等)と、を出力するのみとしても良い。A:B:C×Bの全音声データを再生し終わった後に、当該全音声データの先頭から#A + #Bの位置を繰り返しの開始位置とし、A:B:C×Bの終端まで至ったときに当該繰り返しの開始位置に戻るように繰り返し再生を設定して再生を行うこととすれば、冒頭音声データ15と繰返音声データ16とを個別の音声データとして出力し、冒頭音声データ15の再生の後に繰返音声データ16を繰り返し再生するのと同等だからである。
これらの各部で行われる処理は、いずれもディジタル信号処理、もしくは、ディジタルデータ処理によって実現されるため、各種のCPU(Central Processing Unit)やDSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等にこれら各部の機能を実行させることができる。
以下、クロスフェードの手法と、分割の手法について、順に詳細に説明する。
(クロスフェードの手法)
以下では音声データBから音声データCへ移行時間Tでクロスフェードする音声データC×Bを合成する手法について説明する。なお、以下では、理解を容易にするため、移行時間Tの単位としてサンプル数(波形データを配列で表現したときの添字に相当する。)を用いることとする。たとえば、コンパクトディスク品質の音声データに対してクロスフェードの移行時間を3秒とした場合、移行時間Tは、44100×3=132300サンプルとなる。クロスフェードの移行時間Tは、定数としても良いし、音響エンジニア等の指示入力に応じて決定されることとしても良い。
また、移行時間Tは、音声データB,Cの長さよりも短かいことが望ましい。すなわち、T < #BかつT < #Cである。
さて、音声データC×B = Eは、以下のようにしてその波形データe[i]が計算される。
(1)0≦i≦#C-T-1である場合、e[i] = c[i]
(2)0≦t≦T-1である場合、e[#C-T + t] = (1-t/T) c[#C-T + t] + t/T b[t]
(3)T≦i≦#B-1である場合、e[#C-T + i] = b[i]
音声データE = C×Bの長さについては、
#E = #C + #B - T
が成立する。また、明らかに、
E[0;#C-T] = C[0;#C-T]
ならびに、
E[#C;#B-T] = B[T;#B-T]
である。さらに、E[#C-T;T]は、C[#C-T;T]とB[0;T]とを、先頭からの経過時間tにより、比率(1-t/T):(t/T)でミキシングした結果に相当する。
これらは、図1に示すクロスフェードの様子を計算式にて表現したものである。
このようにすると、音声データEを再生した場合、当初(E[0;#C-T])は音声データCが再生されているが、移行時間中(E[#C-T;T])に音声データCから音声データBへしだいに音声が変化・移行していき、移行時間が終われば(E[#C;#B-T])、音声データBの残余部分が再生されることとなる。
上記(2)は、移行時間内での経過時間tに比例係数1/Tで比例して音声データBの成分が大きくなり、これに応じて音声データCの成分が小さくなっていくことを意味する。
このほか、一般的なクロスフェード処理で用いられる各種の技術を、本実施形態において採用することもできる。(E[0;#C-T])(分割の手法)
分割の手法としては、もっとも単純には、原音声データ(Z)10における分割位置を指定するように音響エンジニア等のユーザに促し、その入力によって分割位置を決める、というものが考えられる。尚、上記実施形態では、原音声データ(Z)10全体を3つの音声データ(A,B,C)11、12、13に分割しているが、音声データ(A,B,C)11、12、13としては、この順に連続して再生されるべきものであれば、どのように分割するのでも良い。
たとえば、原音声データ(Z)11の頭部の指定した時間長を除去したり、尾部の指定した時間長を除去する指定とともに、音声データ(A,B,C)11、12、13に3分割するための指定を行う、という手法(この場合、除去する部分の分割を考えれば、実質的には4〜5分割していることになる。)を採用することもできる。なお、以下の説明では、理解を容易にするため、3分割する場合を例にあげることとする。
さて、他の手法としては、分割する位置として適切な位置を生成装置201が自動的に選択し、もしくは生成装置201がユーザへ提示していずれかを選択させる、というものである。上記実施形態では、3分割をする際の位置が指定すればC×Bのようなクロスフェードによって不自然でない繰り返し再生が可能であるが、本実施形態では、さらに、その自然さの度合の向上を目指す。
C×Bのクロスフェードでは、Cの時間長Tの尾部C[#C-T;T]と、Bの時間長Tの頭部B[0;T]と、がクロスフェード開始からの経過時間tによって(1-t/T):(t/T)の比率でミキシングされる。
ここで、かりにCの時間長Tの尾部C[#C-T;T]と、Bの時間長Tの頭部B[0;T]と、が、まったく同じ音声データであるとするならば、これを(1-t/T):(t/T)の比率でミキシングしたものも、同じ音声データとなる。また、二者が類似した音声データであるならば、これらが類似しない場合よりも、より自然なクロスフェードが可能であると考えられる。
そこで、原音声データZの時間長Tの尾部の音声データ(以下「移行部分」という。)を、原音声データZのそれ以外の同じ時間長Tの音声データ(以下「被対比部分」という。)のそれぞれと対比して、その類似度が高い部分を自動的に選択し、もしくは、類似度が高い部分を複数提示してユーザに選択させるのである。以下、本手法について詳細に説明する。
移行部分Z[#Z-T;T]は、モノラルの場合には、T個の波形データからなる。そこで、移行部分Z[#Z-T;T]を当該個数の次元からなるベクトルと考える。すると、一方、被対比部分は、Z[s;T] (0≦s≦#Z-2T-1)というベクトルとなる。これら2つのベクトルの類似度の計算方法としては、たとえば、以下のようなものが考えられる。
(1)ベクトルZ[#Z-T;T]とZ[s;T]とがなす角が小さければ類似度が高いとする。たとえば、ベクトルZ[#Z-T;T]とZ[s;T]とがなす角の余弦(cosine;コサイン)を類似度とする。
(2)ベクトルZ[#Z-T;T]とZ[s;T]との差のベクトルの大きさが小さければ類似度が高いとする。たとえば、当該差のベクトルの大きさの符号を反転したものを類似度とする。
本実施例では、上記(1)の手法を採用することとする。また、ベクトルVとベクトルWの内積をV・Wと、ベクトルVの長さを|V|と、それぞれ表記することとする。すると、ベクトルZ[#Z-T;T]とZ[s;T]とがなす角の余弦(cosine;コサイン)、すなわち、両者の類似度は、以下のように計算することができる。
Z[#Z-T;T]・Z[s;T]/(|Z[#Z-T;T]| |Z[s;T]|)
ここで、原音声データZと移行時間長Tとは、一旦処理が開始されれば定数と見てよいから、類似度はパラメータsによって決まることとなる。そこで、当該類似度を関数f(s)の形式で表す。
f(s) = Z[#Z-T;T]・Z[s;T]/(|Z[#Z-T;T]| |Z[s;T]|)
すると、ここで必要とされる事項は、区間(0≦s≦#Z-2T-1)において、関数f(s)を最大化(あるいは、所定閾値を超えるもの)するsを探す、ということに帰着される。このような最大化等に相当するsを求める技術としては、公知の計算法を用いることができる。
あるベクトルG[s;t]とH[u;t]との内積は、
G[s;t]・H[u;t] = Σi=0 t-1(g[s+i] h[u+i])
を計算することによって求められるし、あるベクトルG[s;t]の長さは、
|G[s;t]| = (G[s;t]・G[s;t])1/2
を計算することによって求められるからである。これらの計算にはΣがあらわれるため、ループによる計算のほか、ベクトル計算機を用いるなど、種々の計算技術を適用することができる。
なお、上記(2)の手法を採用した場合には、類似度としては - |Z[#Z-T;T] - Z[s;T]| や - |Z[#Z-T;T] - Z[s;T]|2を利用することができる。
また、nチャンネルの場合には移行部分Z[#Z-T;T]と被対比部分Z[s;T]と、は、いずれも、nT個の波形データとなる。これらをnT次元のベクトルと考えれば、上記と同様に類似度を求めて、分割を(半)自動化する処理を行うことができる。
(再生装置)
上記実施例の生成装置201は、これが生成した冒頭楽曲データと繰返楽曲データとをCD−ROMなどの記憶媒体に記憶して配布することを想定している。すなわち、当該記憶媒体を購入等したユーザが、自身のコンピュータやゲーム装置といったハードウェアで当該記憶媒体を用い、まず冒頭楽曲データを再生し、これに引き続いて繰返楽曲データを繰り返し演奏する形態である。
以下で説明する再生装置はこれと異なり、音響エンジニア等が繰り返し再生のための編集を行うことを想定したものである。
図4は、本実施例の再生装置の概要構成を示す模式図である。図5は、当該再生装置にて実行される再生方法の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。
本実施例の再生装置401は、入力受付部402、処理部403、および、再生部404を備える。
まず、入力受付部402は、音声データの入力を受け付ける(ステップS501)。当該音声データは、たとえばCD−ROMなどの記憶媒体に記憶された音声情報、ネットワークなどを通じてストリーム配信される音声情報、マイク等から入力される音声情報など、種々のものを用いることができる。
次に、処理部403は、受け付けられた音声データを原音声データとして上記の生成装置201に与える(ステップS502)。
そして、当該生成装置201が出力する冒頭音声データと、繰返音声データと、を得る(ステップS503)。
なお、ステップS502〜ステップS503においては、ユーザからの指示入力によって原音声データを分割する位置を決めたり、分割位置の候補をユーザに提示したり、ユーザが当該候補を選択する等、の対話が行われる。
さらに、再生部404は、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する(ステップS504)。この様子を聞いて、ユーザが結果に満足である場合(ステップS505;Yes)、本処理を終了することとし、再度編集を行いたい場合(ステップS505;No)、ステップS502に戻ることとなる。
本再生装置401によれば、1つの音声データから繰り返し再生を行うための音声データを生成し、その生成のプロセスを、ユーザが満足がいくまでやり直すことができるようになる。
上記のように、本発明によれば、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することができ、ゲーム等で用いられる各種のマルチメディアコンテンツの作成や再生等に本発明を適用することができる。
本発明の原理を示す説明図である。 本発明の実施例に係る生成装置の概要構成を示す説明図である。 本実施形態の生成装置にて実行される生成方法の制御の流れを示すフローチャートである。 本発明の実施例に係る再生装置の概要構成を示す説明図である。 本実施形態の再生装置にて実行される再生方法の制御の流れを示すフローチャートである。
符号の説明
10 原音声データ
11 第1音声データ
12 第2音声データ
13 第3音声データ
14 合成音声データ
15 冒頭音声データ
16 繰返音声データ
201 生成装置
202 分割部
203 生成部
204 出力部
401 再生装置
402 入力受付部
403 処理部
404 再生部

Claims (13)

  1. 与えられた音声データ(以下「原音声データ」という。)を3つ(以下、再生すべき順に「第1音声データ」「第2音声データ」「第3音声データ」という。)に分割する分割部、
    当該第2音声データを先行音声データとし、当該第3音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する生成部、
    当該第1音声データと当該第2音声データとを連結した音声データを最初に再生すべき音声データ(以下「冒頭音声データ」という。)とし、当該合成音声データをその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)として出力する出力部
    を備えることを特徴とする生成装置。
  2. 請求項1に記載の生成装置であって、
    前記分割部は、当該原音声データの尾部移行時間長の部分(以下「移行部分」という。)と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分(以下「被対比部分」という。)のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分(以下「類似部分」という。)を得て、
    当該類似部分の先頭で、当該第1音声データと当該第2音声データとを分割し、
    当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第2音声データと当該第3音声データとを分割する
    ことを特徴とする生成装置。
  3. 請求項2に記載の生成装置であって、
    前記分割部は、当該移行部分の音声データからなるベクトルと当該被対比部分の音声データからなるベクトルとがなす角の余弦を当該類似度として求める
    ことを特徴とする生成装置。
  4. 請求項2または3に記載の生成装置であって、
    前記分割部は、当該類似度が所定の閾値以上である被対比部分が複数ある場合、これらからいずれかをユーザに選択させて、選択された被対比部分を当該類似部分とする
    ことを特徴とする生成装置。
  5. 請求項2から4のいずれか1項に記載の生成装置であって、
    前記生成部は当該後行音声データの時間長および当該先行音声データの時間長よりも短い時間長(以下「移行時間」という。)を、当該クロスフェードの時間長として、当該合成音声データを生成する
    ことを特徴とする生成装置。
  6. 請求項5に記載の生成装置であって、
    前記生成部は、当該移行時間における当該合成音声データ中に含まれる当該後行音声データの成分が一定の割合で減少していくように当該合成音声データを生成する
    ことを特徴とする生成装置。
  7. 音声データの入力を受け付ける入力受付部、
    請求項2から請求項6のいずれか1項に記載の生成装置を有し、前記受け付けられた音声データを原音声データとして当該生成装置に与えて、冒頭音声データと、繰返音声データと、を得る処理部、および、
    前記得られた冒頭音声データを再生し、その後、前記得られた繰返音声データを繰り返し再生する再生部
    を備えることを特徴とする再生装置。
  8. 与えられた音声データ(以下「原音声データ」という。)を3つ(以下、再生すべき順に「第1音声データ」「第2音声データ」「第3音声データ」という。)に分割する分割工程、
    当該第2音声データを先行音声データとし、当該第3音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する生成工程、
    当該第1音声データと当該第2音声データとを連結した音声データを最初に再生すべき音声データ(以下「冒頭音声データ」という。)とし、当該合成音声データをその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)として出力する出力工程
    を備えることを特徴とする生成方法。
  9. 請求項8に記載の生成方法であって、
    前記分割工程では、当該原音声データの尾部移行時間長の部分(以下「移行部分」という。)と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分(以下「被対比部分」という。)のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分(以下「類似部分」という。)を得て、
    当該類似部分の先頭で、当該第1音声データと当該第2音声データとを分割し、
    当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第2音声データと当該第3音声データとを分割する
    ことを特徴とする生成方法。
  10. 音声データの入力を受け付ける入力受付工程、
    前記受け付けられた音声データ(以下「原音声データ」という。)を3つ(以下、再生すべき順に「第1音声データ」「第2音声データ」「第3音声データ」という。)に分割する分割工程、
    当該第2音声データを先行音声データとし、当該第3音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する生成工程、
    当該第1音声データと当該第2音声データとを連結した音声データを最初に再生すべき音声データ(以下「冒頭音声データ」という。)とし、当該合成音声データをその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)として出力する出力工程、
    前記出力された冒頭音声データを再生し、その後、前記出力された繰返音声データを繰り返し再生する再生工程
    を備え、
    前記分割工程では、当該原音声データの尾部移行時間長の部分(以下「移行部分」という。)と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分(以下「被対比部分」という。)のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分(以下「類似部分」という。)を得て、
    当該類似部分の先頭で、当該第1音声データと当該第2音声データとを分割し、
    当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第2音声データと当該第3音声データとを分割する
    ことを特徴とする再生方法。
  11. コンピュータを、
    与えられた音声データ(以下「原音声データ」という。)を3つ(以下、再生すべき順に「第1音声データ」「第2音声データ」「第3音声データ」という。)に分割する分割部、
    当該第2音声データを先行音声データとし、当該第3音声データを後行音声データとして、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する生成部、
    当該第1音声データと当該第2音声データとを連結した音声データを最初に再生すべき音声データ(以下「冒頭音声データ」という。)とし、当該合成音声データをその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)として出力する出力部
    として機能させることを特徴とするプログラム。
  12. 請求項11に記載のプログラムであって、前記コンピュータにおいて、
    前記分割部は、当該原音声データの尾部移行時間長の部分(以下「移行部分」という。)と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分(以下「被対比部分」という。)のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分(以下「類似部分」という。)を得て、
    当該類似部分の先頭で、当該第1音声データと当該第2音声データとを分割し、
    当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第2音声データと当該第3音声データとを分割する
    ように機能させることを特徴とするプログラム。
  13. 請求項12に記載のプログラムであって、当該プログラムは、当該コンピュータを、
    音声データの入力を受け付けてこれを前記生成部に原音声データとして与える入力受付部、および、
    前記出力部から出力された冒頭音声データを再生し、その後、前記出力部から出力された繰返音声データを繰り返し再生する再生部
    としてさらに機能させることを特徴とするプログラム。
JP2003382379A 2003-11-12 2003-11-12 生成装置、再生装置、生成方法、再生方法、および、プログラム Expired - Fee Related JP3829134B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003382379A JP3829134B2 (ja) 2003-11-12 2003-11-12 生成装置、再生装置、生成方法、再生方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003382379A JP3829134B2 (ja) 2003-11-12 2003-11-12 生成装置、再生装置、生成方法、再生方法、および、プログラム

Publications (2)

Publication Number Publication Date
JP2005148210A JP2005148210A (ja) 2005-06-09
JP3829134B2 true JP3829134B2 (ja) 2006-10-04

Family

ID=34691478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003382379A Expired - Fee Related JP3829134B2 (ja) 2003-11-12 2003-11-12 生成装置、再生装置、生成方法、再生方法、および、プログラム

Country Status (1)

Country Link
JP (1) JP3829134B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4735196B2 (ja) * 2005-11-04 2011-07-27 ヤマハ株式会社 オーディオ再生装置
JP6056466B2 (ja) * 2012-12-27 2017-01-11 大日本印刷株式会社 仮想空間中の音声再生装置及び方法、並びにプログラム
JP6616435B2 (ja) * 2018-01-25 2019-12-04 株式会社カプコン 音声生成装置、音声生成プログラム
JP7381856B2 (ja) * 2019-11-12 2023-11-16 株式会社カプコン 音声再生プログラム、音声再生装置、および音声生成方法

Also Published As

Publication number Publication date
JP2005148210A (ja) 2005-06-09

Similar Documents

Publication Publication Date Title
US11132984B2 (en) Automatic multi-channel music mix from multiple audio stems
CN102227769A (zh) 解码装置、解码方法、编码装置、编码方法和编辑装置
JP2009093779A (ja) コンテンツ再生装置及びコンテンツ再生方法
JP4416244B2 (ja) 音程変換装置
US8670577B2 (en) Electronically-simulated live music
JP3829134B2 (ja) 生成装置、再生装置、生成方法、再生方法、および、プログラム
US8314321B2 (en) Apparatus and method for transforming an input sound signal
CN111445914A (zh) 可拆解和再编辑音频信号的处理方法及装置
JP3617603B2 (ja) 音声情報の符号化方法及びその生成方法
JP2000311445A (ja) ディジタルデータプレーヤー、そのデータ処理方法及び記録媒体
JP3859200B2 (ja) ポータブルミキシング記録装置及びその制御方法並びにプログラム
JP2006153908A (ja) 音声データエンコード装置および音声データデコード装置
JP3859201B2 (ja) ポータブルミキシング記録装置及びその制御方法並びにプログラム
JP2003058192A (ja) 音楽データ再生装置
JP4595827B2 (ja) 楽曲再生装置およびデータファイル制作ツール
JP2005033826A (ja) ポータブルミキシング記録装置及びプログラム
US6314403B1 (en) Apparatus and method for generating a special effect on a digital signal
JP2005107285A (ja) 楽曲再生装置
JP3412209B2 (ja) 音響信号処理装置
JP4714230B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
JP2003271198A (ja) 圧縮データ処理装置、方法および圧縮データ処理プログラム
KR100826659B1 (ko) 음악파일의 특정 연주부분을 소거 또는 선택하여 청취하는방법
JP2003257125A (ja) 音再生方法および音再生装置
JP2006201655A (ja) 楽曲再生装置及び楽曲再生プログラム
JPH07287576A (ja) 音楽再生方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060427

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20060427

TRDD Decision of grant or rejection written
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060710

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100714

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110714

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees