JP2005148210A - Generating system, reproducing apparatus, generating method, reproducing method, and program - Google Patents

Generating system, reproducing apparatus, generating method, reproducing method, and program Download PDF

Info

Publication number
JP2005148210A
JP2005148210A JP2003382379A JP2003382379A JP2005148210A JP 2005148210 A JP2005148210 A JP 2005148210A JP 2003382379 A JP2003382379 A JP 2003382379A JP 2003382379 A JP2003382379 A JP 2003382379A JP 2005148210 A JP2005148210 A JP 2005148210A
Authority
JP
Japan
Prior art keywords
audio data
data
voice data
reproduced
repeated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003382379A
Other languages
Japanese (ja)
Other versions
JP3829134B2 (en
Inventor
Junichiro Kaneda
潤一郎 兼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Computer Entertainment Studios Inc
Original Assignee
Konami Computer Entertainment Studios Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Computer Entertainment Studios Inc filed Critical Konami Computer Entertainment Studios Inc
Priority to JP2003382379A priority Critical patent/JP3829134B2/en
Publication of JP2005148210A publication Critical patent/JP2005148210A/en
Application granted granted Critical
Publication of JP3829134B2 publication Critical patent/JP3829134B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a generating system etc., for speech data appropriate for naturally performing repetitive reproduction of the speech data. <P>SOLUTION: A dividing section 202 of the generating system 201 divides the original speech data Z into three of the first speech data A, the second speech data B, and the third speech data C and a generating section 203 synthesizes the synthesized speech data CxB to be cross faded from the third speech data C to the second speech data B in transit time T. An output section 204 outputs the speech data A:B connecting the first speech data A and the second speech data B as the beginning speech data and the synthesized speech data CxB as the repetitive speech data. In the reproducing apparatus, the beginning speech data A:B is reproduced and thereafter the repetitive speech data CxB is repetitively reproduced. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータにて実現するプログラムに関する。   The present invention relates to a generation device, a playback device, a generation method, a playback method, and a program that implements these on a computer.

従来から、各種のゲーム装置では、バックグランドミュージック(Back Ground Music;BGM)として、1つの楽曲を繰り返し演奏する手法が採用されている。このような繰り返し演奏の手法としては、1曲全体を単純に繰り返し演奏するものや、1曲を2つの部分に分割し、先に演奏されるべき部分を1回だけ演奏し、それに続いて演奏されるべき部分を繰り返して演奏するものなどがある。   Conventionally, various game apparatuses employ a technique of repeatedly playing one piece of music as background music (Background Music; BGM). Such repetitive performance techniques include simple repetitive performance of the entire song, or splitting one song into two parts, performing the part that should be played first, followed by performance. There is something that repeats the part that should be done.

ここで、連続して再生されるべき2つの音声データのうち、先行して再生されるべきものを「先行音声データ」と、後行して再生されるべきものを「後行音声データ」と、それぞれ呼ぶこととし、繰り返し再生において、最初に再生すべき音声データを「冒頭音声データ」と、その後に繰り返して再生すべき音声データを「繰返音声データ」と、それぞれ呼ぶこととする。   Here, of the two audio data to be reproduced continuously, the one to be reproduced in advance is “preceding audio data”, and the one to be reproduced in succession is “following audio data”. In the repeated reproduction, the audio data to be reproduced first is referred to as “starting audio data”, and the audio data to be repeatedly reproduced thereafter is referred to as “repeated audio data”.

すると、上記の前者の手法は、先行音声データならびに冒頭音声データを用いずに、後行音声データを繰返音声データとして用いることに相当する。また、後者の手法は、先行音声データを冒頭音声データとして、後行音声データを繰返音声データとして、それぞれ用いることに相当する。   Then, the former method corresponds to using the subsequent audio data as the repeated audio data without using the preceding audio data and the initial audio data. The latter method corresponds to using the preceding audio data as the initial audio data and the subsequent audio data as the repeated audio data.

従来、1つの楽曲を先行音声データと後行音声データに分割して、そのそれぞれを冒頭音声データと繰返音声データとする作業は、音響エンジニアが手作業で行って、繰り返しの切れ目が人間に感知できない区間を選択していた。   Conventionally, the work of dividing one piece of music into preceding audio data and following audio data, and making each of them into opening audio data and repeated audio data, is performed manually by an acoustic engineer, and repeated breaks are made to humans. An undetectable section was selected.

そこで、ある音声データがある場合に、これらから冒頭音声データと繰返音声データを生成して、不自然でなく繰り返し再生できるようにするための簡易な技術が強く求められている。また、ある音声データがある場合に、どのように冒頭音声データと繰返音声データとを生成するかについても、新たな技術が求められている。
本発明は、このような課題を解決するためになされたもので、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することを目的とする。
Therefore, there is a strong demand for a simple technique for generating the beginning voice data and the repeated voice data from these when there is some voice data so that they can be reproduced repeatedly without being unnatural. Also, a new technique is required for how to generate the opening audio data and the repeated audio data when there is audio data.
The present invention has been made to solve such problems, and is suitable for naturally performing repeated reproduction of audio data, an audio data generation device, a reproduction device, a generation method, a reproduction method, and these An object of the present invention is to provide a program for realizing the above by a computer.

以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
本発明の第1の観点に係る生成装置は、連続して再生されるべき2つの音声データ(以下、先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。)から、最初に再生すべき音声データ(以下「冒頭音声データ」という。)とその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)とを、生成して出力する生成装置し、生成部、および、出力部を備え、以下のように構成する。
In order to achieve the above object, the following invention is disclosed in accordance with the principle of the present invention.
The generating apparatus according to the first aspect of the present invention provides two audio data to be reproduced continuously (hereinafter referred to as “preceding audio data” to be reproduced in advance and “following audio data” to the other). From the above, audio data to be reproduced first (hereinafter referred to as “starting audio data”) and audio data to be reproduced repeatedly thereafter (hereinafter referred to as “repeated audio data”) are generated and output. The generating apparatus includes a generating unit and an output unit, and is configured as follows.

すなわち、生成部は、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する。
一方、出力部は、当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する。
That is, the generation unit generates audio data (hereinafter referred to as “synthesized audio data”) that cross-fades from the subsequent audio data to the preceding audio data.
On the other hand, the output unit outputs the preceding audio data as the initial audio data and outputs the synthesized audio data as repeated audio data.

上記のように、先行音声データと後行音声データとは、連続して再生されるべき音声データであるから、先行音声データの尾部近傍に続いて後行音声データの頭部近傍が再生された場合には、その移行は聴取者には自然なものと感じられる。   As described above, since the preceding audio data and the succeeding audio data are audio data to be reproduced continuously, the vicinity of the head of the succeeding audio data is reproduced following the vicinity of the tail of the preceding audio data. In some cases, the transition feels natural to the listener.

一方、合成音声データの頭部近傍は、後行音声データの頭部近傍と一致することとなり、合成音声データの尾部近傍は、先行音声データの尾部近傍と一致することとなる。   On the other hand, the vicinity of the head of the synthesized speech data matches the vicinity of the head of the subsequent speech data, and the vicinity of the tail of the synthesized speech data matches the vicinity of the tail of the preceding speech data.

ここで、冒頭音声データ(先行音声データ)に続いて繰返音声データ(合成音声データ)が再生される場合は、先行音声データの尾部近傍に続いて、合成音声データの頭部近傍と一致する後行音声データの頭部近傍が再生されるから、その移行は聴取者には自然なものと感じられる。   Here, when the repeated voice data (synthesized voice data) is reproduced following the beginning voice data (preceding voice data), it coincides with the vicinity of the head of the synthesized voice data following the vicinity of the tail of the preceding voice data. Since the vicinity of the head of the following audio data is reproduced, the transition is felt natural to the listener.

一方、繰返音声データ(合成音声データ)が繰り返し再生される場合は、合成音声データの尾部近傍に一致する先行音声データの尾部近傍に続いて、合成音声データの頭部近傍と一致する後行音声データの頭部近傍が再生されるから、その移行もまた聴取者には自然なものと感じられる。   On the other hand, when repetitive sound data (synthesized sound data) is repeatedly reproduced, following the vicinity of the head of the synthesized sound data following the vicinity of the head of the preceding sound data matching the vicinity of the tail of the synthesized sound data Since the vicinity of the head of the audio data is reproduced, the transition also feels natural to the listener.

さらに、合成音声データ内における後行音声データから先行音声データへの移行には、クロスフェードの技術を用いるため、この移行についても聴取者には自然なものと感じられる。   Furthermore, since the cross-fading technique is used for the transition from the succeeding voice data to the preceding voice data in the synthesized voice data, it is felt that this transition is natural for the listener.

したがって、本発明によれば、これが出力冒頭音声データと繰返音声データとを、たとえばゲームにおけるBGMの繰り返し再生用に用いると、不自然な継目のない、なめらかな繰り返し再生が可能となる。また、先行音声データと後行音声データは、連続して再生されるべきものであれば任意の音声データが利用できるので、ある1つの音声データを分割すれば、これらから容易に冒頭音声データと繰返音声データとを、生成することができる。   Therefore, according to the present invention, when the output beginning voice data and the repeated voice data are used for repeated playback of BGM in a game, for example, smooth repeated playback without an unnatural joint becomes possible. In addition, any audio data can be used as the preceding audio data and the succeeding audio data as long as they should be reproduced continuously. Therefore, if one audio data is divided, the audio data can be easily converted into the initial audio data. Repeated sound data can be generated.

また、本発明の生成装置において、生成部は当該後行音声データの時間長および当該先行音声データの時間長よりも短い時間長(以下「移行時間」という。)を、当該クロスフェードの時間長として、当該合成音声データを生成するように構成することができる。
移行時間長を先行音声データと後行音声データの時間長よりも短くすることによって、後行音声データの頭部近傍と一致する合成音声データの頭部近傍の時間長、ならびに、先行音声データの尾部近傍と一致する合成音声データの尾部近傍の時間長、のそれぞれの時間長が0よりも大きくなる。
したがって、本発明によれば、自然に繰り返しの移行を行うことができる。
In the generation apparatus of the present invention, the generation unit uses a time length shorter than the time length of the subsequent audio data and the time length of the preceding audio data (hereinafter referred to as “transition time”) as the time length of the crossfade. As above, the synthesized voice data can be generated.
By making the transition time length shorter than the time length of the preceding voice data and the succeeding voice data, the time length near the head of the synthesized voice data that matches the vicinity of the head of the following voice data, and the preceding voice data Each time length of the vicinity of the tail of the synthesized voice data that matches the vicinity of the tail is greater than zero.
Therefore, according to the present invention, it is possible to perform a repetitive transition naturally.

また、本発明の生成装置において、生成部は、当該移行時間における当該合成音声データ中に含まれる当該後行音声データの成分が一定の割合で減少していくように当該合成音声データを生成するように構成することができる。   In the generation device of the present invention, the generation unit generates the synthesized voice data so that the components of the subsequent voice data included in the synthesized voice data at the transition time decrease at a constant rate. It can be constituted as follows.

たとえば、移行時間をTとし、移行時間が開始されてからの経過時間をtとすると、後行音声データに対するクロスフェードの乗数を1-t/Tとし、先行音声データに対するクロスフェードの乗数をt/Tとする手法などを採用することができる。
したがって、本発明によれば、合成音声データ中における後行音声データから先行音声データへの移行を滑らかに行うことができ、聴取者は自然な移行が行われたように感じることができるようになる。
For example, if the transition time is T and the elapsed time from the start of the transition time is t, the crossfade multiplier for the subsequent audio data is 1-t / T and the crossfade multiplier for the preceding audio data is t The method of / T can be adopted.
Therefore, according to the present invention, the transition from the succeeding voice data to the preceding voice data in the synthesized voice data can be smoothly performed, and the listener can feel as if a natural transition has been performed. Become.

本発明の他の観点に係る生成装置は、与えられた音声データ(以下「原音声データ」という。)を3つ(以下、再生すべき順に「第1音声データ」「第2音声データ」「第3音声データ」という。)に分割する分割部をさらに備え、以下のように構成する。   A generating apparatus according to another aspect of the present invention provides three pieces of given audio data (hereinafter referred to as “original audio data”) (hereinafter, “first audio data”, “second audio data”, “ It further includes a dividing unit that divides the data into “third audio data”), and is configured as follows.

すなわち、生成部は、当該第2音声データを先行音声データとし、当該第3音声データを後行音声データとして当該合成音声データを生成する。   That is, the generation unit generates the synthesized voice data using the second voice data as the preceding voice data and the third voice data as the subsequent voice data.

一方、出力部は、当該先行音声データを冒頭音声データとするのにかえて、当該第1音声データと当該第2音声データとを連結した音声データを冒頭音声データとして、出力する。   On the other hand, the output unit outputs the audio data obtained by connecting the first audio data and the second audio data as the initial audio data, instead of setting the preceding audio data as the initial audio data.

本発明は、たとえば、1つの楽曲を表現する原音声データに対して、上記発明を適用するためのものである。一般に、原音声データにおいては、冒頭に1回だけ再生すべき部分が用意され、これに続いて繰り返して再生しても良い部分が用意されるのが一般的である。そこで、真に冒頭に1回だけ再生すべき部分を第1音声データとし、繰り返して再生しても良い部分を2つに分割して第2音声データ、第3音声データとして、上記の発明に適用するのである。分割の場所は、音響エンジニア等の指示によって行っても良いし、後述するように、適切な場所を生成装置にて自動的に検出することとしても良い。また、検出結果から候補を複数用意して、そこから音響エンジニア等の指示により選択を行っても良い。
本発明によれば、普通の楽曲を適切に分割して、冒頭音声データと繰返音声データとを生成することができる。
The present invention is for applying the above-described invention to, for example, original audio data expressing one piece of music. In general, in the original audio data, a portion to be reproduced only once is prepared at the beginning, and a portion that can be reproduced repeatedly is generally prepared subsequently. Therefore, the portion that should be reproduced only once at the beginning is set as the first audio data, the portion that may be reproduced repeatedly is divided into two, and the second audio data and the third audio data are divided into the above invention. Apply. The division location may be performed by an instruction from an acoustic engineer or the like, or an appropriate location may be automatically detected by the generation device as will be described later. Alternatively, a plurality of candidates may be prepared from the detection result, and selection may be performed based on an instruction from a sound engineer or the like.
According to the present invention, it is possible to appropriately divide a normal music piece and generate the opening sound data and the repeated sound data.

また、本発明の生成装置において、分割部は、当該原音声データの尾部移行時間長の部分(以下「移行部分」という。)と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分(以下「被対比部分」という。)のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分(以下「類似部分」という。)を得て、当該類似部分の先頭で、当該第1音声データと当該第2音声データとを分割し、当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第2音声データと当該第3音声データとを分割するように構成することができる。
すなわち、原音声データの尾部のうち移行時間長の部分(もしくはこれに類似する部分)が、当該原音声データにおいて先行して現れているかどうかを調べ、現れている場合は、当該部分の出現場所を指標として、分割を行う。
本発明によれば、普通の楽曲の分割を適切に、自動的に行うことによって、容易に、冒頭音声データと繰返音声データとを生成することができる。
In the generation apparatus of the present invention, the dividing unit includes the transition time length part (hereinafter referred to as “transition part”) of the original voice data and the transition time included in the other part of the original voice data. Each of the long parts (hereinafter referred to as “parts to be compared”) is compared with each other to obtain a similarity, and a part having a high degree of similarity (hereinafter referred to as “similar part”) among the parts to be compared is obtained. The first audio data and the second audio data are divided at the beginning of the similar portion, and the second audio data and the second audio data are divided between the end of the similar portion and the beginning of the tail transition time length portion. The third audio data can be divided.
That is, it is checked whether or not the transition time length part (or a part similar to this part) of the tail part of the original voice data appears in advance in the original voice data. Divide by using as an index.
According to the present invention, it is possible to easily generate the opening audio data and the repeated audio data by appropriately and automatically dividing an ordinary music piece.

また、本発明の生成装置において、分割部は、当該移行部分の音声データからなるベクトルと当該被対比部分の音声データからなるベクトルとがなす角の余弦を当該類似度として求めるように構成することができる。
本発明は、類似度を音声データの波形の相関係数から求めることに相当するもので、本発明によれば、楽曲の分割を適切に、自動的に行うことができる。
In the generation device of the present invention, the dividing unit is configured to obtain the cosine of the angle formed by the vector composed of the speech data of the transition portion and the vector composed of the speech data of the compared portion as the similarity. Can do.
The present invention corresponds to obtaining the similarity from the correlation coefficient of the waveform of the audio data, and according to the present invention, the music can be appropriately and automatically divided.

また、本発明の生成装置において、分割部は、当該類似度が所定の閾値以上である被対比部分が複数ある場合、これらからいずれかをユーザに選択させて、選択された被対比部分を当該類似部分とするように構成することができる。
本発明は、類似度が所定の閾値以上である部分が複数ある場合には、これを音響エンジニア等に提示し、これらのそれぞれに基づいて分割をした場合の繰り返し再生を行うなどの試行を行って、音響エンジニア等にいずれかを選択させる手法である。
本発明によれば、楽曲の分割を適切に、半自動的に行うとともに、人間にとって自然に移行がされるような繰り返し再生を行うための音声データの組み合わせを選択することができる。
Further, in the generation device of the present invention, when there are a plurality of compared parts whose similarity is equal to or greater than a predetermined threshold, the dividing unit causes the user to select one of these and select the selected compared part. It can be configured to be a similar part.
In the present invention, when there are a plurality of portions whose similarity is equal to or greater than a predetermined threshold, this is presented to an acoustic engineer, and an attempt is made to repeat reproduction when division is performed based on each of these portions. This is a technique that allows an acoustic engineer or the like to select one.
According to the present invention, it is possible to appropriately and semi-automatically divide music and to select a combination of audio data for repeated reproduction that is naturally shifted for humans.

本発明の他の観点に係る再生装置は、入力受付部、処理部、および、再生部を備え、以下のように構成する。
すなわち、入力受付部は、音声データの入力を受け付ける。
一方、処理部は、受け付けられた音声データを原音声データとして上記の生成装置に与えて、冒頭音声データと、繰返音声データと、を得る。
さらに、再生部は、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する。
A playback apparatus according to another aspect of the present invention includes an input receiving unit, a processing unit, and a playback unit, and is configured as follows.
That is, the input receiving unit receives input of audio data.
On the other hand, the processing unit gives the received audio data as original audio data to the above generation device, and obtains initial audio data and repeated audio data.
Further, the reproduction unit reproduces the obtained initial audio data, and then repeatedly reproduces the obtained repeated audio data.

本発明は、上記の生成装置を応用したものである。上記の生成装置では、繰り返し再生を行うために用いられる冒頭音声データと繰返音声データとを出力するが、本発明の再生装置では、当該冒頭音声データを1回再生した後に、繰返音声データを繰り返し再生する。
したがって、本発明によれば、入力を受け付けた音声データを元に、繰り返し再生を行うことができる。
The present invention is an application of the above generation device. In the above generation device, the beginning audio data and repeated audio data used for repeated reproduction are output. In the reproduction device of the present invention, after the beginning audio data is reproduced once, the repeated audio data is output. Play repeatedly.
Therefore, according to the present invention, it is possible to perform repetitive reproduction based on audio data that has been accepted.

本発明の他の観点に係る生成方法は、連続して再生されるべき2つの音声データ(先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。)から、最初に再生すべき音声データ(以下「冒頭音声データ」という。)とその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)とを、生成して出力し、生成工程、および、出力工程を備え、以下のように構成する。   The generation method according to another aspect of the present invention provides two audio data to be reproduced in succession (the one to be reproduced in advance is referred to as “preceding audio data”, and the other is referred to as “following audio data”). To generate, output, and generate audio data to be reproduced first (hereinafter referred to as “initial audio data”) and audio data to be reproduced repeatedly (hereinafter referred to as “repeated audio data”). A process and an output process are provided and configured as follows.

すなわち、生成工程では、当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する。
一方、出力工程では、当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する。
That is, in the generation step, audio data (hereinafter referred to as “synthesized audio data”) that crossfades from the subsequent audio data to the preceding audio data is generated.
On the other hand, in the output step, the preceding audio data is used as the beginning audio data, and the synthesized audio data is output as repeated audio data.

本発明の他の観点に係る再生方法は、入力受付工程、処理工程、および、再生工程を備え、以下のように構成する。
すなわち、入力受付工程では、音声データの入力を受け付ける。
一方、処理工程では、受け付けられた音声データを原音声データとして請求項9に記載の生成方法に与えて、冒頭音声データと、繰返音声データと、を得る。
さらに、再生工程では、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する。
A reproduction method according to another aspect of the present invention includes an input reception process, a processing process, and a reproduction process, and is configured as follows.
That is, in the input receiving process, input of audio data is received.
On the other hand, in the processing step, the received audio data is given as original audio data to the generation method according to claim 9 to obtain initial audio data and repeated audio data.
Further, in the reproduction step, the obtained initial audio data is reproduced, and then the obtained repeated audio data is repeatedly reproduced.

本発明の他の観点に係るプログラムは、コンピュータを、上記の生成装置もしくは再生装置の各部として機能させ、もしくは、コンピュータに、上記の生成方法もしくは再生方法の各工程を実行させるように構成する。   A program according to another aspect of the present invention is configured to cause a computer to function as each unit of the generation device or the playback device, or to cause the computer to execute each step of the generation method or the playback method.

また、本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記録媒体に記録することができる。上記プログラムは、当該プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記録媒体は、当該コンピュータとは独立して配布・販売することができる。   The program of the present invention can be recorded on a computer-readable information recording medium such as a compact disk, flexible disk, hard disk, magneto-optical disk, digital video disk, magnetic tape, and semiconductor memory. The above program can be distributed and sold via a computer communication network independently of the computer on which the program is executed. The information recording medium can be distributed and sold independently of the computer.

本発明によれば、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することができる。   According to the present invention, it is possible to provide an audio data generation device, a playback device, a generation method, a playback method, and a program that realizes these by a computer, which are suitable for naturally performing repeated playback of audio data. .

以下に本発明の実施形態を説明する。以下では、理解を容易にするため、ゲーム装置に本発明が適用される実施形態を説明するが、各種のコンピュータ、PDA、携帯電話などの情報処理装置においても同様に本発明を適用することができる。すなわち、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。   Embodiments of the present invention will be described below. In the following, for ease of understanding, an embodiment in which the present invention is applied to a game device will be described. However, the present invention can be similarly applied to information processing devices such as various computers, PDAs, and mobile phones. it can. That is, the embodiment described below is for explanation, and does not limit the scope of the present invention. Therefore, those skilled in the art can employ embodiments in which each or all of these elements are replaced with equivalent ones, and these embodiments are also included in the scope of the present invention.

図1は、本発明の原理を示す説明図である。以下、本図を参照して説明する。   FIG. 1 is an explanatory diagram showing the principle of the present invention. Hereinafter, a description will be given with reference to FIG.

以下では、理解を容易にするため、音声データをA,B,Cのように大文字で表記することとし、各音声データのデータ長を#A,#B,#Cのように表記し、当該音声データが含む波形のデータをa[0],a[1],…,a[#A-1],b[0],b[1],…,b[#B-1],c[0],c[1],…,c[#C-1]のように対応する小文字の配列で表現することとする。   In the following, for ease of understanding, audio data will be written in capital letters such as A, B, C, and the data length of each audio data will be written as #A, #B, #C. The waveform data included in the audio data is a [0], a [1], ..., a [# A-1], b [0], b [1], ..., b [# B-1], c [ It shall be expressed as a corresponding lowercase array such as 0], c [1], ..., c [# C-1].

コンパクトディスク等で用いられているPCM(Pulse Coded Modulation)データでは、1秒間に44100個サンプリングされた16ビットの符号付き整数(−32768〜32767)によって、音声の波形を表現する。これらの数値は適用される分野によって適宜変更が可能である。また、ステレオ再生や多チャンネル再生が行われる場合には、a[0]などの配列の要素がチャンネル数の次元のベクトルとなる。   In PCM (Pulse Coded Modulation) data used in a compact disk or the like, a voice waveform is represented by a 16-bit signed integer (-32768 to 32767) sampled 44,100 per second. These numerical values can be appropriately changed depending on the field to which they are applied. Further, when stereo reproduction or multi-channel reproduction is performed, elements of the array such as a [0] become a vector of the number of channels.

このほか、MP3やOgg Vorbisなどの各種の音声データの圧縮フォーマットも利用されているが、これらは再生時には、適当なサンプリングレート、適当なビット精度のPCMデータに変換された後、D/A変換されて再生される。したがって、一旦PCMデータへの展開を行えば、本発明にこれらの圧縮フォーマットを利用することができる。   In addition, various audio data compression formats such as MP3 and Ogg Vorbis are also used, but these are converted to PCM data with an appropriate sampling rate and appropriate bit precision during playback, and then D / A conversion. To be played. Therefore, once decompression into PCM data, these compression formats can be used in the present invention.

さて、音声データAに続いて音声データBが再生されるべきである、ということをA〜Bのように表記する。言い換えれば、A〜Bである場合、音声データAに続いて音声データBが再生されても、聴取者はその接続を不自然に感じない、ということを意味する。   Now, it is expressed as A to B that the audio data B should be reproduced after the audio data A. In other words, in the case of A to B, it means that even if the audio data B is reproduced following the audio data A, the listener does not feel the connection unnatural.

また、音声データBから音声データCへのクロスフェードを行ったデータをB×Cのように表記する。さらに、音声データAと音声データBとをこの順に連結したデータをA:Bのように表記する。   In addition, data obtained by performing crossfading from the audio data B to the audio data C is expressed as B × C. Further, data obtained by concatenating audio data A and audio data B in this order is expressed as A: B.

たとえば、D = A:Bとした場合、
#D = #A + #B
であるほか、0≦i≦#A-1について
d[i] = a[i]
が成立し、0≦j≦#B-1について
d[#A+j] = b[j]
が成立する。
For example, if D = A: B,
#D = #A + #B
And 0 ≦ i ≦ # A-1
d [i] = a [i]
For 0 ≦ j ≦ # B-1
d [# A + j] = b [j]
Is established.

さらに、音声データAのi番目〜i+k-1番目(長さk)の波形データを、
A[i;k]
と表記することとすると、D = A:Bについて、
D[0;#A] = A
ならびに、
D[#A;#B] = B
が成立する。
Furthermore, the i-th to i + k-1th (length k) waveform data of the audio data A is
A [i; k]
If D = A: B,
D [0; #A] = A
And
D [#A; #B] = B
Is established.

本実施形態では、まず、1つの楽曲である原音声データ(Z)10を、第1音声データ(A)11と、第2音声データ(B)12と、第3音声データ(C)13と、に3分割する。したがって、明らかに、A〜BかつB〜Cであり、Z = A:B:Cである。   In this embodiment, first, the original audio data (Z) 10 that is one piece of music is converted into the first audio data (A) 11, the second audio data (B) 12, and the third audio data (C) 13. Divide into three. Thus, clearly, A to B and B to C, and Z = A: B: C.

次に、第3音声データ(C)13から第2音声データ(B)12へ移行時間Tでクロスフェードした合成音声データ(C×B)14を生成する。   Next, synthesized voice data (C × B) 14 that is cross-faded from the third voice data (C) 13 to the second voice data (B) 12 at the transition time T is generated.

クロスフェードを行っているので、かりにC×Bのみを再生した場合、最初は音声データCと一致する音声が出力される。これが次第に自然に音声データBへと変化していき、最後は音声データBと一致する音声が出力されて、再生が終了することとなる。すなわち、したがって、明らかにB〜C×BかつC×B〜Cが成立する。したがって、C×B〜C×Bである。   Since crossfading is being performed, when only C × B is played back, audio that matches audio data C is output first. This gradually and naturally changes to audio data B. Finally, audio that matches audio data B is output, and reproduction ends. That is, therefore, B to C × B and C × B to C are clearly established. Therefore, C × B to C × B.

そこで、AならびにB連結した音声データA:Bを冒頭音声データ15とし、C×Bを繰返音声データ16として出力し、繰り返し再生を行うと、以下の順に音声データが再生されることになる。
A,B,C×B,C×B,C×B,…
Therefore, when A and B concatenated audio data A: B is set as the initial audio data 15 and C × B is output as the repeated audio data 16 and repeated reproduction is performed, the audio data is reproduced in the following order. .
A, B, C x B, C x B, C x B, ...

これらの音声データの移行を考えると、上記のように、A〜B、B〜C×B、C×B〜C×Bが成立するから、移行部分が不自然に聞こえることはなく、自然な繰り返し再生を行うことができるのである。   Considering the transition of these audio data, A-B, B-CxB, and CxB-CxB are established as described above, so the transition part does not sound unnatural and is natural. Repeated reproduction can be performed.

以下、さらに詳細に、本実施形態に係る生成装置および生成方法について説明する。   Hereinafter, the generation apparatus and the generation method according to the present embodiment will be described in more detail.

(生成装置)
図2は、本実施形態に係る生成装置の概要構成図である。図3は、当該生成装置にて実行される生成方法の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。
(Generator)
FIG. 2 is a schematic configuration diagram of the generation apparatus according to the present embodiment. FIG. 3 is a flowchart showing the flow of control of the generation method executed by the generation apparatus. Hereinafter, description will be given with reference to these drawings.

生成装置201は、分割部202、生成部203、出力部204を備え、典型的には、マルチメディア処理が可能なコンピュータ上に実現される。   The generation apparatus 201 includes a division unit 202, a generation unit 203, and an output unit 204, and is typically realized on a computer capable of multimedia processing.

まず、分割部202は、あらかじめ用意された原音声データ(Z)10を、第1音声データ(A)11と、第2音声データ(B)12と、第3音声データ(C)13と、に3分割する(ステップS301)。分割の各種の手法については、後述する。   First, the dividing unit 202 converts the prepared original voice data (Z) 10 into the first voice data (A) 11, the second voice data (B) 12, the third voice data (C) 13, (Step S301). Various methods of division will be described later.

次に、生成部203は、第3音声データ(C)13から第2音声データ(B)12へ移行時間Tでクロスフェードする合成音声データ(C×B)14を合成する(ステップS302)。生成の各種の手法についても、後述する。   Next, the production | generation part 203 synthesize | combines the synthetic | combination audio | voice data (CxB) 14 cross-fade with the transition time T from the 3rd audio | voice data (C) 13 to the 2nd audio | voice data (B) 12 (step S302). Various methods of generation will also be described later.

最後に、出力部204は、第1音声データ(A)11と第2音声データ(B)12とを連結した音声データA:Bを冒頭音声データ15とし、合成音声データ(C×B)14を繰返音声データ16として、出力して(ステップS303)、本処理を終了する。   Finally, the output unit 204 uses the audio data A: B obtained by connecting the first audio data (A) 11 and the second audio data (B) 12 as the initial audio data 15, and the synthesized audio data (C × B) 14 Is output as the repeated audio data 16 (step S303), and this process is terminated.

なお、上記実施形態では、ステップS301において3分割を行っているが、原音声データ(Z)10の種類や適用の分野、ユーザからの指示によっては、第2音声データ(B)12と、第3音声データ(C)13とに2分割することとし、冒頭音声データ15として第2音声データ(B)12を、繰返音声データ16として合成音声データ(C×B)14を、それぞれ採用することとしても良い。   In the above embodiment, the division into three is performed in step S301. However, depending on the type of the original audio data (Z) 10, the field of application, and the instruction from the user, the second audio data (B) 12 and the The audio data 15 is divided into three audio data (C) 13, the second audio data (B) 12 is used as the initial audio data 15, and the synthesized audio data (C × B) 14 is used as the repeated audio data 16. It's also good.

また、上記の実施形態では、冒頭音声データ15と繰返音声データ16とを個別の音声データとして出力しているが、冒頭音声データ15と繰返音声データ16とを連結したA:B:C×Bと、冒頭音声データ15の長さ#A + #B(やこれに対応する時間長等)と、を出力するのみとしても良い。A:B:C×Bの全音声データを再生し終わった後に、当該全音声データの先頭から#A + #Bの位置を繰り返しの開始位置とし、A:B:C×Bの終端まで至ったときに当該繰り返しの開始位置に戻るように繰り返し再生を設定して再生を行うこととすれば、冒頭音声データ15と繰返音声データ16とを個別の音声データとして出力し、冒頭音声データ15の再生の後に繰返音声データ16を繰り返し再生するのと同等だからである。   In the above embodiment, the opening audio data 15 and the repeated audio data 16 are output as individual audio data. However, A: B: C in which the opening audio data 15 and the repeated audio data 16 are connected. It is also possible to output only × B and the length # A + # B (and the corresponding time length, etc.) of the opening audio data 15. After playback of all audio data of A: B: C × B, the position of #A + #B from the beginning of the entire audio data is the repeat start position, and it reaches the end of A: B: C × B. If repeated playback is set so as to return to the start position of the repetition, the beginning audio data 15 and the repeated audio data 16 are output as individual audio data, and the beginning audio data 15 This is because it is equivalent to repeatedly reproducing the repeated audio data 16 after the reproduction of the above.

これらの各部で行われる処理は、いずれもディジタル信号処理、もしくは、ディジタルデータ処理によって実現されるため、各種のCPU(Central Processing Unit)やDSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等にこれら各部の機能を実行させることができる。   Since the processing performed in each of these units is realized by digital signal processing or digital data processing, various CPUs (Central Processing Units), DSPs (Digital Signal Processors), FPGAs (Field Programmable Gate Arrays), An ASIC (Application Specific Integrated Circuit) or the like can execute the functions of these units.

以下、クロスフェードの手法と、分割の手法について、順に詳細に説明する。   Hereinafter, the cross-fade method and the division method will be described in detail in order.

(クロスフェードの手法)
以下では音声データBから音声データCへ移行時間Tでクロスフェードする音声データC×Bを合成する手法について説明する。なお、以下では、理解を容易にするため、移行時間Tの単位としてサンプル数(波形データを配列で表現したときの添字に相当する。)を用いることとする。たとえば、コンパクトディスク品質の音声データに対してクロスフェードの移行時間を3秒とした場合、移行時間Tは、44100×3=132300サンプルとなる。クロスフェードの移行時間Tは、定数としても良いし、音響エンジニア等の指示入力に応じて決定されることとしても良い。
(Crossfade technique)
Hereinafter, a method of synthesizing audio data C × B that crossfades from audio data B to audio data C at transition time T will be described. In the following, for ease of understanding, the number of samples (corresponding to the subscript when the waveform data is expressed in an array) is used as the unit of the transition time T. For example, if the crossfade transition time is 3 seconds for audio data of compact disc quality, the transition time T is 44100 × 3 = 132300 samples. The crossfade transition time T may be a constant or may be determined according to an instruction input from an acoustic engineer or the like.

また、移行時間Tは、音声データB,Cの長さよりも短かいことが望ましい。すなわち、T < #BかつT < #Cである。   Further, it is desirable that the transition time T is shorter than the length of the audio data B and C. That is, T <#B and T <#C.

さて、音声データC×B = Eは、以下のようにしてその波形データe[i]が計算される。
(1)0≦i≦#C-T-1である場合、e[i] = c[i]
(2)0≦t≦T-1である場合、e[#C-T + t] = (1-t/T) c[#C-T + t] + t/T b[t]
(3)T≦i≦#B-1である場合、e[#C-T + i] = b[i]
The waveform data e [i] of the audio data C × B = E is calculated as follows.
(1) When 0 ≦ i ≦ # CT-1, e [i] = c [i]
(2) When 0 ≦ t ≦ T-1, e [#CT + t] = (1-t / T) c [#CT + t] + t / T b [t]
(3) When T ≦ i ≦ # B-1, e [#CT + i] = b [i]

音声データE = C×Bの長さについては、
#E = #C + #B - T
が成立する。また、明らかに、
E[0;#C-T] = C[0;#C-T]
ならびに、
E[#C;#B-T] = B[T;#B-T]
である。さらに、E[#C-T;T]は、C[#C-T;T]とB[0;T]とを、先頭からの経過時間tにより、比率(1-t/T):(t/T)でミキシングした結果に相当する。
これらは、図1に示すクロスフェードの様子を計算式にて表現したものである。
For the length of audio data E = C x B,
#E = #C + #B-T
Is established. And obviously,
E [0; #CT] = C [0; #CT]
And
E [#C; #BT] = B [T; #BT]
It is. Furthermore, E [#CT; T] is a ratio (1-t / T) :( t / T) of C [#CT; T] and B [0; T] according to the elapsed time t from the beginning. Corresponds to the result of mixing with.
These represent the state of the cross fade shown in FIG.

このようにすると、音声データEを再生した場合、当初(E[0;#C-T])は音声データCが再生されているが、移行時間中(E[#C-T;T])に音声データCから音声データBへしだいに音声が変化・移行していき、移行時間が終われば(E[#C;#B-T])、音声データBの残余部分が再生されることとなる。   In this way, when the audio data E is reproduced, the audio data C is initially reproduced (E [0; #CT]), but the audio data C is displayed during the transition time (E [#CT; T]). From time to time, the sound gradually changes / transfers to the audio data B, and when the transition time is over (E [#C; #BT]), the remaining portion of the audio data B is reproduced.

上記(2)は、移行時間内での経過時間tに比例係数1/Tで比例して音声データBの成分が大きくなり、これに応じて音声データCの成分が小さくなっていくことを意味する。
このほか、一般的なクロスフェード処理で用いられる各種の技術を、本実施形態において採用することもできる。(E[0;#C-T])(分割の手法)
The above (2) means that the component of the audio data B increases in proportion to the elapsed time t within the transition time by the proportional coefficient 1 / T, and the component of the audio data C decreases accordingly. To do.
In addition, various techniques used in general cross-fade processing can also be employed in this embodiment. (E [0; #CT]) (Division method)

分割の手法としては、もっとも単純には、原音声データ(Z)10における分割位置を指定するように音響エンジニア等のユーザに促し、その入力によって分割位置を決める、というものが考えられる。尚、上記実施形態では、原音声データ(Z)10全体を3つの音声データ(A,B,C)11、12、13に分割しているが、音声データ(A,B,C)11、12、13としては、この順に連続して再生されるべきものであれば、どのように分割するのでも良い。   As the dividing method, the simplest method may be to prompt a user such as an acoustic engineer to designate a dividing position in the original audio data (Z) 10 and determine the dividing position based on the input. In the above embodiment, the entire original audio data (Z) 10 is divided into three audio data (A, B, C) 11, 12, and 13, but the audio data (A, B, C) 11, 12 and 13 may be divided in any way as long as they should be reproduced successively in this order.

たとえば、原音声データ(Z)11の頭部の指定した時間長を除去したり、尾部の指定した時間長を除去する指定とともに、音声データ(A,B,C)11、12、13に3分割するための指定を行う、という手法(この場合、除去する部分の分割を考えれば、実質的には4〜5分割していることになる。)を採用することもできる。なお、以下の説明では、理解を容易にするため、3分割する場合を例にあげることとする。   For example, the voice data (A, B, C) 11, 12, and 13 are added to the voice data (A, B, C) 3 together with the designation of removing the time length designated by the head of the original voice data (Z) 11 or removing the time length designated by the tail. It is also possible to adopt a method of performing designation for division (in this case, in consideration of division of a portion to be removed, it is substantially divided into 4 to 5). In the following description, the case of dividing into three is taken as an example for easy understanding.

さて、他の手法としては、分割する位置として適切な位置を生成装置201が自動的に選択し、もしくは生成装置201がユーザへ提示していずれかを選択させる、というものである。上記実施形態では、3分割をする際の位置が指定すればC×Bのようなクロスフェードによって不自然でない繰り返し再生が可能であるが、本実施形態では、さらに、その自然さの度合の向上を目指す。   As another method, the generation apparatus 201 automatically selects an appropriate position as a position to be divided, or the generation apparatus 201 presents it to the user to select one. In the above embodiment, if the position for dividing into three parts is specified, it is possible to repeat reproduction that is not unnatural by crossfading such as C × B, but in this embodiment, the degree of naturalness is further improved. It aims to.

C×Bのクロスフェードでは、Cの時間長Tの尾部C[#C-T;T]と、Bの時間長Tの頭部B[0;T]と、がクロスフェード開始からの経過時間tによって(1-t/T):(t/T)の比率でミキシングされる。   In the C × B crossfade, the tail C [#CT; T] of the time length T of C and the head B [0; T] of the time length T of B depend on the elapsed time t from the start of the crossfade. Mixed at a ratio of (1-t / T) :( t / T).

ここで、かりにCの時間長Tの尾部C[#C-T;T]と、Bの時間長Tの頭部B[0;T]と、が、まったく同じ音声データであるとするならば、これを(1-t/T):(t/T)の比率でミキシングしたものも、同じ音声データとなる。また、二者が類似した音声データであるならば、これらが類似しない場合よりも、より自然なクロスフェードが可能であると考えられる。   If the tail C [#CT; T] of the time length T of C and the head B [0; T] of the time length T of B are exactly the same audio data, Are mixed at a ratio of (1-t / T) :( t / T), and the same audio data is obtained. Further, if the two are similar audio data, it is considered that more natural crossfading is possible than when the two are not similar.

そこで、原音声データZの時間長Tの尾部の音声データ(以下「移行部分」という。)を、原音声データZのそれ以外の同じ時間長Tの音声データ(以下「被対比部分」という。)のそれぞれと対比して、その類似度が高い部分を自動的に選択し、もしくは、類似度が高い部分を複数提示してユーザに選択させるのである。以下、本手法について詳細に説明する。   Therefore, the audio data at the tail of the time length T of the original audio data Z (hereinafter referred to as “transition portion”) is the other audio data of the same time length T of the original audio data Z (hereinafter referred to as “the compared portion”). In other words, a part having a high degree of similarity is automatically selected, or a plurality of parts having a high degree of similarity are presented and selected by the user. Hereinafter, this method will be described in detail.

移行部分Z[#Z-T;T]は、モノラルの場合には、T個の波形データからなる。そこで、移行部分Z[#Z-T;T]を当該個数の次元からなるベクトルと考える。すると、一方、被対比部分は、Z[s;T] (0≦s≦#Z-2T-1)というベクトルとなる。これら2つのベクトルの類似度の計算方法としては、たとえば、以下のようなものが考えられる。
(1)ベクトルZ[#Z-T;T]とZ[s;T]とがなす角が小さければ類似度が高いとする。たとえば、ベクトルZ[#Z-T;T]とZ[s;T]とがなす角の余弦(cosine;コサイン)を類似度とする。
(2)ベクトルZ[#Z-T;T]とZ[s;T]との差のベクトルの大きさが小さければ類似度が高いとする。たとえば、当該差のベクトルの大きさの符号を反転したものを類似度とする。
The transition portion Z [#ZT; T] is composed of T pieces of waveform data in the case of monaural. Therefore, the transition part Z [#ZT; T] is considered as a vector having the number of dimensions. Then, on the other hand, the compared portion is a vector Z [s; T] (0 ≦ s ≦ # Z-2T-1). As a method of calculating the similarity between these two vectors, for example, the following can be considered.
(1) It is assumed that the similarity is high if the angle formed by the vectors Z [#ZT; T] and Z [s; T] is small. For example, the cosine of the angle formed by the vectors Z [#ZT; T] and Z [s; T] is used as the similarity.
(2) It is assumed that the degree of similarity is high if the vector of the difference between the vectors Z [#ZT; T] and Z [s; T] is small. For example, the degree of similarity is obtained by inverting the sign of the magnitude of the difference vector.

本実施例では、上記(1)の手法を採用することとする。また、ベクトルVとベクトルWの内積をV・Wと、ベクトルVの長さを|V|と、それぞれ表記することとする。すると、ベクトルZ[#Z-T;T]とZ[s;T]とがなす角の余弦(cosine;コサイン)、すなわち、両者の類似度は、以下のように計算することができる。
Z[#Z-T;T]・Z[s;T]/(|Z[#Z-T;T]| |Z[s;T]|)
In the present embodiment, the method (1) is adopted. Further, the inner product of the vector V and the vector W is expressed as V · W, and the length of the vector V is expressed as | V |. Then, the cosine of the angle formed by the vectors Z [#ZT; T] and Z [s; T], that is, the similarity between the two can be calculated as follows.
Z [#ZT; T] · Z [s; T] / (| Z [#ZT; T] | | Z [s; T] |)

ここで、原音声データZと移行時間長Tとは、一旦処理が開始されれば定数と見てよいから、類似度はパラメータsによって決まることとなる。そこで、当該類似度を関数f(s)の形式で表す。
f(s) = Z[#Z-T;T]・Z[s;T]/(|Z[#Z-T;T]| |Z[s;T]|)
Here, since the original audio data Z and the transition time length T can be regarded as constants once the processing is started, the similarity is determined by the parameter s. Therefore, the similarity is expressed in the form of a function f (s).
f (s) = Z [#ZT; T] · Z [s; T] / (| Z [#ZT; T] | | Z [s; T] |)

すると、ここで必要とされる事項は、区間(0≦s≦#Z-2T-1)において、関数f(s)を最大化(あるいは、所定閾値を超えるもの)するsを探す、ということに帰着される。このような最大化等に相当するsを求める技術としては、公知の計算法を用いることができる。   Then, the matter required here is to search for s that maximizes the function f (s) (or exceeds a predetermined threshold) in the interval (0 ≦ s ≦ # Z-2T-1). To be reduced. A known calculation method can be used as a technique for obtaining s corresponding to such maximization.

あるベクトルG[s;t]とH[u;t]との内積は、
G[s;t]・H[u;t] = Σi=0 t-1(g[s+i] h[u+i])
を計算することによって求められるし、あるベクトルG[s;t]の長さは、
|G[s;t]| = (G[s;t]・G[s;t])1/2
を計算することによって求められるからである。これらの計算にはΣがあらわれるため、ループによる計算のほか、ベクトル計算機を用いるなど、種々の計算技術を適用することができる。
The inner product of a vector G [s; t] and H [u; t] is
G [s; t] ・ H [u; t] = Σ i = 0 t-1 (g [s + i] h [u + i])
And the length of a vector G [s; t] is
| G [s ; t] | = (G [s ; t] ・ G [s ; t]) 1/2
It is because it is calculated | required by calculating. Since Σ appears in these calculations, various calculation techniques can be applied such as using a vector calculator in addition to the calculation by a loop.

なお、上記(2)の手法を採用した場合には、類似度としては - |Z[#Z-T;T] - Z[s;T]| や - |Z[#Z-T;T] - Z[s;T]|2を利用することができる。 When the method (2) is adopted, the similarity is-| Z [#ZT; T]-Z [s; T] | or-| Z [#ZT; T]-Z [s ; T] | 2 can be used.

また、nチャンネルの場合には移行部分Z[#Z-T;T]と被対比部分Z[s;T]と、は、いずれも、nT個の波形データとなる。これらをnT次元のベクトルと考えれば、上記と同様に類似度を求めて、分割を(半)自動化する処理を行うことができる。   In the case of n channels, the transition portion Z [# Z-T; T] and the compared portion Z [s; T] are both nT waveform data. If these are considered to be nT-dimensional vectors, the degree of similarity can be obtained in the same manner as described above, and the process of (semi) automating the division can be performed.

(再生装置)
上記実施例の生成装置201は、これが生成した冒頭楽曲データと繰返楽曲データとをCD−ROMなどの記憶媒体に記憶して配布することを想定している。すなわち、当該記憶媒体を購入等したユーザが、自身のコンピュータやゲーム装置といったハードウェアで当該記憶媒体を用い、まず冒頭楽曲データを再生し、これに引き続いて繰返楽曲データを繰り返し演奏する形態である。
(Playback device)
It is assumed that the generation apparatus 201 of the above embodiment stores and distributes the initial music data and the repeated music data generated thereby in a storage medium such as a CD-ROM. That is, in a form in which a user who has purchased the storage medium uses the storage medium with his / her hardware such as a computer or game device, first plays the opening music data, and then repeatedly plays the repeated music data. is there.

以下で説明する再生装置はこれと異なり、音響エンジニア等が繰り返し再生のための編集を行うことを想定したものである。   Unlike the playback apparatus described below, it is assumed that an acoustic engineer or the like performs editing for repeated playback.

図4は、本実施例の再生装置の概要構成を示す模式図である。図5は、当該再生装置にて実行される再生方法の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。   FIG. 4 is a schematic diagram showing a schematic configuration of the playback apparatus of the present embodiment. FIG. 5 is a flowchart showing the flow of control of the playback method executed by the playback apparatus. Hereinafter, description will be given with reference to these drawings.

本実施例の再生装置401は、入力受付部402、処理部403、および、再生部404を備える。   The playback apparatus 401 of this embodiment includes an input receiving unit 402, a processing unit 403, and a playback unit 404.

まず、入力受付部402は、音声データの入力を受け付ける(ステップS501)。当該音声データは、たとえばCD−ROMなどの記憶媒体に記憶された音声情報、ネットワークなどを通じてストリーム配信される音声情報、マイク等から入力される音声情報など、種々のものを用いることができる。   First, the input receiving unit 402 receives input of audio data (step S501). As the audio data, various data such as audio information stored in a storage medium such as a CD-ROM, audio information stream-distributed through a network, and audio information input from a microphone or the like can be used.

次に、処理部403は、受け付けられた音声データを原音声データとして上記の生成装置201に与える(ステップS502)。   Next, the processing unit 403 gives the received audio data as original audio data to the generating device 201 (step S502).

そして、当該生成装置201が出力する冒頭音声データと、繰返音声データと、を得る(ステップS503)。   And the opening audio | voice data and the repetition audio | voice data which the said production | generation apparatus 201 outputs are obtained (step S503).

なお、ステップS502〜ステップS503においては、ユーザからの指示入力によって原音声データを分割する位置を決めたり、分割位置の候補をユーザに提示したり、ユーザが当該候補を選択する等、の対話が行われる。
さらに、再生部404は、得られた冒頭音声データを再生し、その後、得られた繰返音声データを繰り返し再生する(ステップS504)。この様子を聞いて、ユーザが結果に満足である場合(ステップS505;Yes)、本処理を終了することとし、再度編集を行いたい場合(ステップS505;No)、ステップS502に戻ることとなる。
In step S502 to step S503, there is an interaction such as determining the position where the original audio data is divided by inputting an instruction from the user, presenting a candidate for the division position to the user, or selecting the candidate by the user. Done.
Further, the playback unit 404 plays back the obtained initial voice data, and then plays back the obtained repeated voice data repeatedly (step S504). When this state is heard and the user is satisfied with the result (step S505; Yes), the present process is terminated. When editing is desired again (step S505; No), the process returns to step S502.

本再生装置401によれば、1つの音声データから繰り返し再生を行うための音声データを生成し、その生成のプロセスを、ユーザが満足がいくまでやり直すことができるようになる。   According to the playback apparatus 401, it is possible to generate audio data for repeated playback from one audio data, and repeat the generation process until the user is satisfied.

上記のように、本発明によれば、音声データの繰り返し再生を自然に行うのに好適な、音声データの生成装置、再生装置、生成方法、再生方法、および、これらをコンピュータによって実現するプログラムを提供することができ、ゲーム等で用いられる各種のマルチメディアコンテンツの作成や再生等に本発明を適用することができる。   As described above, according to the present invention, an audio data generating device, a reproducing device, a generating method, a reproducing method, and a program for realizing these by a computer, which are suitable for naturally reproducing audio data repeatedly, are provided. The present invention can be applied to creation and reproduction of various multimedia contents used in games and the like.

本発明の原理を示す説明図である。It is explanatory drawing which shows the principle of this invention. 本発明の実施例に係る生成装置の概要構成を示す説明図である。It is explanatory drawing which shows schematic structure of the production | generation apparatus which concerns on the Example of this invention. 本実施形態の生成装置にて実行される生成方法の制御の流れを示すフローチャートである。It is a flowchart which shows the flow of control of the production | generation method performed with the production | generation apparatus of this embodiment. 本発明の実施例に係る再生装置の概要構成を示す説明図である。It is explanatory drawing which shows schematic structure of the reproducing | regenerating apparatus based on the Example of this invention. 本実施形態の再生装置にて実行される再生方法の制御の流れを示すフローチャートである。It is a flowchart which shows the flow of control of the reproducing | regenerating method performed with the reproducing | regenerating apparatus of this embodiment.

符号の説明Explanation of symbols

10 原音声データ
11 第1音声データ
12 第2音声データ
13 第3音声データ
14 合成音声データ
15 冒頭音声データ
16 繰返音声データ
201 生成装置
202 分割部
203 生成部
204 出力部
401 再生装置
402 入力受付部
403 処理部
404 再生部
DESCRIPTION OF SYMBOLS 10 Original audio | voice data 11 1st audio | voice data 12 2nd audio | voice data 13 3rd audio | voice data 14 synthetic | combination audio | voice data 15 opening audio | voice data 16 repetitive audio | voice data 201 production | generation apparatus 202 division | segmentation part 203 production | generation part 204 output part 401 reproduction | regeneration apparatus 402 input reception Unit 403 processing unit 404 playback unit

Claims (12)

連続して再生されるべき2つの音声データ(以下、先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。)から、最初に再生すべき音声データ(以下「冒頭音声データ」という。)とその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)とを、生成して出力する生成装置であって、
当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する生成部、および、
当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する出力部
を備えることを特徴とするもの。
From two pieces of audio data to be reproduced continuously (hereinafter, the one to be reproduced in advance is referred to as “preceding audio data” and the other is referred to as “following audio data”), the audio data to be reproduced first ( A generation device that generates and outputs audio data to be repeatedly reproduced thereafter (hereinafter referred to as “repeated audio data”);
A generation unit that generates audio data (hereinafter referred to as “synthesized audio data”) that cross-fades from the subsequent audio data to the preceding audio data; and
An output unit that outputs the preceding voice data as the beginning voice data and outputs the synthesized voice data as the repeated voice data is provided.
請求項1に記載の生成装置であって、
前記生成部は当該後行音声データの時間長および当該先行音声データの時間長よりも短い時間長(以下「移行時間」という。)を、当該クロスフェードの時間長として、当該合成音声データを生成する
ことを特徴とするもの。
The generating device according to claim 1,
The generation unit generates the synthesized voice data using the time length of the subsequent voice data and the time length of the preceding voice data (hereinafter referred to as “transition time”) as the time length of the crossfade. It is characterized by
請求項2に記載の生成装置であって、
前記生成部は、当該移行時間における当該合成音声データ中に含まれる当該後行音声データの成分が一定の割合で減少していくように当該合成音声データを生成する
ことを特徴とするもの。
The generating device according to claim 2,
The generating unit generates the synthesized voice data so that components of the subsequent voice data included in the synthesized voice data at the transition time decrease at a constant rate.
請求項1から3のいずれか1項に記載の生成装置であって、
与えられた音声データ(以下「原音声データ」という。)を3つ(以下、再生すべき順に「第1音声データ」「第2音声データ」「第3音声データ」という。)に分割する分割部
をさらに備え、
前記生成部は、当該第2音声データを先行音声データとし、当該第3音声データを後行音声データとして当該合成音声データを生成し、
前記出力部は、当該先行音声データを冒頭音声データとするのにかえて、当該第1音声データと当該第2音声データとを連結した音声データを冒頭音声データとして、出力する
ことを特徴とするもの。
The generator according to any one of claims 1 to 3,
The divided audio data (hereinafter referred to as “original audio data”) is divided into three (hereinafter referred to as “first audio data”, “second audio data”, and “third audio data”) in the order to be reproduced. Further comprising
The generation unit generates the synthesized voice data using the second voice data as preceding voice data and the third voice data as subsequent voice data;
The output unit outputs the audio data obtained by connecting the first audio data and the second audio data as the initial audio data instead of setting the preceding audio data as the initial audio data. thing.
請求項4に記載の生成装置であって、
前記分割部は、当該原音声データの尾部移行時間長の部分(以下「移行部分」という。)と、当該原音声データのそれ以外の部分に含まれる当該移行時間長の部分(以下「被対比部分」という。)のそれぞれと、を対比して類似度を求め、当該被対比部分のうち類似度が高い部分(以下「類似部分」という。)を得て、
当該類似部分の先頭で、当該第1音声データと当該第2音声データとを分割し、
当該類似部分の末尾から当該尾部移行時間長の部分の先頭までのいずれかで、当該第2音声データと当該第3音声データとを分割する
ことを特徴とするもの。
The generating device according to claim 4,
The division unit includes a tail transition time length portion (hereinafter referred to as “transition portion”) of the original voice data and a transition time length portion (hereinafter referred to as “contrast”) included in other portions of the original voice data. Each of the “parts”) is compared with each other to obtain a similarity, and a part having high similarity (hereinafter referred to as “similar part”) is obtained from the compared parts
Dividing the first audio data and the second audio data at the beginning of the similar portion;
The second audio data and the third audio data are divided at either the end of the similar portion to the beginning of the tail transition time length portion.
請求項5に記載の生成装置であって、
前記分割部は、当該移行部分の音声データからなるベクトルと当該被対比部分の音声データからなるベクトルとがなす角の余弦を当該類似度として求める
ことを特徴とするもの。
The generating device according to claim 5,
The dividing unit obtains a cosine of an angle formed by a vector composed of speech data of the transition portion and a vector composed of speech data of the compared portion as the similarity.
請求項5または6に記載の生成装置であって、
前記分割部は、当該類似度が所定の閾値以上である被対比部分が複数ある場合、これらからいずれかをユーザに選択させて、選択された被対比部分を当該類似部分とする
ことを特徴とするもの。
The generation device according to claim 5 or 6, wherein
The division unit, when there are a plurality of compared parts whose similarity is equal to or greater than a predetermined threshold value, allows the user to select one of them and sets the selected compared part as the similar part. What to do.
音声データの入力を受け付ける入力受付部、
前記受け付けられた音声データを原音声データとして請求項1から請求項6のいずれか1項に記載の生成装置に与えて、冒頭音声データと、繰返音声データと、を得る処理部、および、
前記得られた冒頭音声データを再生し、その後、前記得られた繰返音声データを繰り返し再生する再生部
を備えることを特徴とする再生装置。
An input receiving unit for receiving voice data input;
A processing unit that gives the received audio data as original audio data to the generating device according to any one of claims 1 to 6 to obtain initial audio data and repeated audio data; and
A playback apparatus comprising: a playback unit that plays back the obtained beginning voice data and then plays back the obtained repeated voice data repeatedly.
連続して再生されるべき2つの音声データ(先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。)から、最初に再生すべき音声データ(以下「冒頭音声データ」という。)とその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)とを、生成して出力する生成方法であって、
当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する生成工程、および、
当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する出力工程
を備えることを特徴とする方法。
From two pieces of audio data to be reproduced continuously (the one to be reproduced in advance is referred to as “preceding audio data” and the other is referred to as “following audio data”), the audio data to be reproduced first (hereinafter “ A method of generating and outputting audio data to be repeatedly reproduced thereafter (hereinafter referred to as “repeated audio data”),
A generation step of generating audio data (hereinafter referred to as “synthesized audio data”) that cross-fades from the subsequent audio data to the preceding audio data; and
A method comprising an output step of outputting the preceding audio data as initial audio data and outputting the synthesized audio data as repeated audio data.
音声データの入力を受け付ける入力受付工程、
前記受け付けられた音声データを原音声データとして請求項9に記載の生成方法に与えて、冒頭音声データと、繰返音声データと、を得る処理工程、および、
前記得られた冒頭音声データを再生し、その後、前記得られた繰返音声データを繰り返し再生する再生工程
を備えることを特徴とする再生方法。
An input reception process for receiving input of voice data;
A process step of providing the received audio data as original audio data to the generation method according to claim 9 to obtain initial audio data and repeated audio data; and
A playback method comprising: a playback step of playing back the obtained beginning voice data and then playing back the obtained repeated voice data repeatedly.
コンピュータを、連続して再生されるべき2つの音声データ(先行して再生されるべきものを「先行音声データ」、他方を「後行音声データ」という。)から、最初に再生すべき音声データ(以下「冒頭音声データ」という。)とその後に繰り返して再生すべき音声データ(以下「繰返音声データ」という。)とを、生成して出力するように機能させるプログラムであって、
当該プログラムは、当該コンピュータを、
当該後行音声データから当該先行音声データへクロスフェードする音声データ(以下「合成音声データ」という。)を生成する生成部、および、
当該先行音声データを冒頭音声データとし、当該合成音声データを繰返音声データとして出力する出力部
として機能させることを特徴とするプログラム。
From the two audio data to be reproduced continuously (the one to be reproduced in advance is referred to as “preceding audio data” and the other is referred to as “following audio data”), the computer first reproduces the audio data to be reproduced. (Hereinafter referred to as “initial audio data”) and audio data to be repeatedly reproduced thereafter (hereinafter referred to as “repeated audio data”).
The program runs the computer
A generation unit that generates audio data (hereinafter referred to as “synthesized audio data”) that cross-fades from the subsequent audio data to the preceding audio data; and
A program that functions as an output unit that outputs the preceding voice data as initial voice data and outputs the synthesized voice data as repeated voice data.
請求項11に記載のプログラムであって、当該プログラムは、当該コンピュータを、
音声データの入力を受け付けてこれを前記生成部に原音声データとして与える入力受付部、および、
前記出力部から出力された冒頭音声データを再生し、その後、前記出力部から出力された繰返音声データを繰り返し再生する再生部
としてさらに機能させることを特徴とするプログラム。
The program according to claim 11, wherein the program
An input receiving unit that receives input of audio data and gives this to the generating unit as original audio data; and
A program that plays back the initial audio data output from the output unit and then functions as a playback unit that repeatedly plays back the repeated audio data output from the output unit.
JP2003382379A 2003-11-12 2003-11-12 GENERATION DEVICE, REPRODUCTION DEVICE, GENERATION METHOD, REPRODUCTION METHOD, AND PROGRAM Expired - Fee Related JP3829134B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003382379A JP3829134B2 (en) 2003-11-12 2003-11-12 GENERATION DEVICE, REPRODUCTION DEVICE, GENERATION METHOD, REPRODUCTION METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003382379A JP3829134B2 (en) 2003-11-12 2003-11-12 GENERATION DEVICE, REPRODUCTION DEVICE, GENERATION METHOD, REPRODUCTION METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2005148210A true JP2005148210A (en) 2005-06-09
JP3829134B2 JP3829134B2 (en) 2006-10-04

Family

ID=34691478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003382379A Expired - Fee Related JP3829134B2 (en) 2003-11-12 2003-11-12 GENERATION DEVICE, REPRODUCTION DEVICE, GENERATION METHOD, REPRODUCTION METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP3829134B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127838A (en) * 2005-11-04 2007-05-24 Yamaha Corp Audio reproduction system
JP2014127967A (en) * 2012-12-27 2014-07-07 Dainippon Printing Co Ltd Sound reproduction device in virtual space, method, and program
JP2019128492A (en) * 2018-01-25 2019-08-01 株式会社カプコン Voice generation device and voice generation program
JP2021074395A (en) * 2019-11-12 2021-05-20 株式会社カプコン Voice reproduction program, voice reproducing device, and voice generation method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127838A (en) * 2005-11-04 2007-05-24 Yamaha Corp Audio reproduction system
JP4735196B2 (en) * 2005-11-04 2011-07-27 ヤマハ株式会社 Audio playback device
JP2014127967A (en) * 2012-12-27 2014-07-07 Dainippon Printing Co Ltd Sound reproduction device in virtual space, method, and program
JP2019128492A (en) * 2018-01-25 2019-08-01 株式会社カプコン Voice generation device and voice generation program
JP2021074395A (en) * 2019-11-12 2021-05-20 株式会社カプコン Voice reproduction program, voice reproducing device, and voice generation method
JP7381856B2 (en) 2019-11-12 2023-11-16 株式会社カプコン Audio playback program, audio playback device, and audio generation method

Also Published As

Publication number Publication date
JP3829134B2 (en) 2006-10-04

Similar Documents

Publication Publication Date Title
US11132984B2 (en) Automatic multi-channel music mix from multiple audio stems
KR20090110242A (en) Method and apparatus for processing audio signal
CN102227769A (en) Decoding apparatus, decoding method, encoding apparatus, encoding method, and editing apparatus
JP2009093779A (en) Content reproducing device and contents reproducing method
US8670577B2 (en) Electronically-simulated live music
JP3829134B2 (en) GENERATION DEVICE, REPRODUCTION DEVICE, GENERATION METHOD, REPRODUCTION METHOD, AND PROGRAM
WO2021190039A1 (en) Processing method and apparatus capable of disassembling and re-editing audio signal
JP3617603B2 (en) Audio information encoding method and generation method thereof
US8314321B2 (en) Apparatus and method for transforming an input sound signal
JP2006153908A (en) Audio data encoding device and audio data decoding device
JP3859200B2 (en) Portable mixing recording apparatus, control method therefor, and program
JP4595827B2 (en) Music playback device and data file production tool
JP2005033826A (en) Portable mixing recording apparatus and program
US8767969B1 (en) Process for removing voice from stereo recordings
JP2003058192A (en) Music data reproducing device
JP3412209B2 (en) Sound signal processing device
US6477496B1 (en) Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
JP2000195234A (en) Reproducing device and method
JP4714230B2 (en) Audio processing apparatus, audio processing method, and program
US20060069565A1 (en) Compressed data processing apparatus and method and compressed data processing program
KR100826659B1 (en) Method for listening specific performance part which is erased or selected from music file
JP4563418B2 (en) Audio processing apparatus, audio processing method, and program
JP2003257125A (en) Sound reproducing method and sound reproducing device
JP2006201655A (en) Music play back device and music play back program
JP3510493B2 (en) Audio signal encoding / decoding method and recording medium recording the program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060427

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20060427

TRDD Decision of grant or rejection written
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060710

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100714

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110714

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees