JP2018155936A - Sound data edition method - Google Patents
Sound data edition method Download PDFInfo
- Publication number
- JP2018155936A JP2018155936A JP2017052947A JP2017052947A JP2018155936A JP 2018155936 A JP2018155936 A JP 2018155936A JP 2017052947 A JP2017052947 A JP 2017052947A JP 2017052947 A JP2017052947 A JP 2017052947A JP 2018155936 A JP2018155936 A JP 2018155936A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- data
- performance
- unit
- sound data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Television Signal Processing For Recording (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本発明は、複数の音データを編集する技術に関する。 The present invention relates to a technique for editing a plurality of sound data.
地理的に離れた複数の演奏者が合奏をするためのシステムが知られている。例えば特許文献1には、同期信号を基準として開始された演奏セッションにおいて、各演奏パートの演奏データを対応する端末装置が生成するシステムが記載されている。このシステムにおいて、各演奏データは同期信号に基づいて補正される。 A system for performing a concert by a plurality of performers who are geographically separated is known. For example, Patent Document 1 describes a system in which a corresponding terminal device generates performance data of each performance part in a performance session started with a synchronization signal as a reference. In this system, each performance data is corrected based on the synchronization signal.
特許文献1に記載の技術においては、同期を開始したタイミング以降の全期間に渡って2以上の音データを同期させることができなかった。
これに対し本発明は、全期間に渡って2つ以上の音データを同期させる技術を提供する。
In the technique described in Patent Document 1, two or more sound data cannot be synchronized over the entire period after the timing at which synchronization is started.
In contrast, the present invention provides a technique for synchronizing two or more sound data over the entire period.
本発明は、参照音を再生中に実演された第1の実演に基づく第1音データ及び前記参照音を再生中に実演された前記第1の実演とは異なる第2の実演に基づく第2音データを、前記参照音を用いて同期するステップを有する音データ編集方法を提供する。 The present invention provides a first sound data based on a first demonstration performed during reproduction of a reference sound and a second demonstration based on a second demonstration different from the first demonstration performed during reproduction of the reference sound. There is provided a sound data editing method including a step of synchronizing sound data using the reference sound.
この音データ編集方法は、前記第1音データ及び前記第2音データは、それぞれ、第1チャンネル及び第2チャンネルのデータを含み、前記第1チャンネルのデータは、前記参照音を表し、前記第2チャンネルのデータは、実演の音を表してもよい。 In the sound data editing method, the first sound data and the second sound data include data of a first channel and a second channel, respectively, the data of the first channel represents the reference sound, and the first sound data The 2-channel data may represent the sound of the demonstration.
この音データ編集方法は、入力音を表す入力音信号を取得するステップと、前記入力音信号に基づいて、前記第1音データ及び前記第2音データの少なくとも一方のテンポを調整するステップとを有してもよい。 The sound data editing method includes a step of obtaining an input sound signal representing an input sound, and a step of adjusting at least one tempo of the first sound data and the second sound data based on the input sound signal. You may have.
この音データ編集方法は、前記第1音データのテンポを前記参照音に合わせて調整するステップと、前記第2音データのテンポを前記参照音に合わせて調整するステップとを有し、前記同期するステップにおいて、テンポが調整された前記第1音データ及び前記第2音データが同期されてもよい。 The sound data editing method includes a step of adjusting a tempo of the first sound data according to the reference sound, and a step of adjusting a tempo of the second sound data according to the reference sound. In the step of performing, the first sound data and the second sound data whose tempo is adjusted may be synchronized.
前記第1音データは第1動画データに含まれる音データであり、前記第2音データは前記第1動画データと異なる第2動画データに含まれる音データであり、前記同期するステップにおいて、前記第1動画データ及び前記第2動画データが同期されてもよい。 In the synchronizing step, the first sound data is sound data included in the first moving image data, and the second sound data is sound data included in second moving image data different from the first moving image data. The first moving image data and the second moving image data may be synchronized.
本発明によれば、全期間に渡って2つ以上の音データを同期させることができる。 According to the present invention, two or more sound data can be synchronized over the entire period.
1.第1実施形態
1−1.構成
図1は、第1実施形態に係る音データ編集システム1の機能構成を例示する図である。音データ編集システム1は、同じ参照音を再生中に実演された複数の実演の音データを同期するサービス(以下「音データ編集サービス」という)を提供する。ここで、実演とは、時間的に変化する音の発生を伴う対象物を、演劇的に演じ、舞い、演奏し、歌い、口演し、朗詠し、又はその他の方法により演ずることをいう。対象物は、思想、感情、又は事実を表現したものであって、例えば、音楽、文芸、芸能、又は学術の分野に属するものをいう。一例として、ここでいう実演は楽器を用いた楽曲の演奏であり、音データは演奏音データである。この例で、音データ編集システム1は、第1音データ及び第2音データを同期する。第1音データは、第1実演に基づく(伴う)音声(第1音声の一例)をデータ化したものである。第2音データは、第2実演に基づく(伴う)音声(第2音声の一例)をデータ化したものである。第1実演及び第2実演は、いずれも、同じ参照音を再生中に行われる実演である。ここで、「同じ参照音を再生中に行われる」とは、各実演が行われる際に再生される参照音が同じものであることをいい、必ずしも第1実演及び第2実演が同時に行われることを意味するものではない。また、「参照音が同じ」とは2つの参照音が完全に同一であることのみを意味するものではなく、例えば、同じ楽曲を同じ奏者が演奏した演奏音を記録したものであるが記録された時期が異なるもの(いわゆるテイク違い)であってもよいし、同じ楽曲を異なる奏者が演奏した演奏音を記録したものであってもよい。第1実演はユーザーA(第1ユーザーの一例)により行われ、第2実演はユーザーB(第2ユーザーの一例)により行われる。
1. First embodiment 1-1. Configuration FIG. 1 is a diagram illustrating a functional configuration of a sound data editing system 1 according to the first embodiment. The sound data editing system 1 provides a service (hereinafter referred to as “sound data editing service”) that synchronizes sound data of a plurality of demonstrations performed while reproducing the same reference sound. Here, the demonstration means that an object accompanied by the generation of a sound that changes with time is performed in a dramatic manner, dancing, performing, singing, speaking, recitation, or performing by other methods. The target object represents an idea, emotion, or fact, and for example, belongs to the field of music, literary arts, performing arts, or academics. As an example, the demonstration here is a performance of music using a musical instrument, and the sound data is performance sound data. In this example, the sound data editing system 1 synchronizes the first sound data and the second sound data. The first sound data is data obtained by converting (accompanied) sound (an example of the first sound) based on the first performance. The second sound data is data obtained by converting (accompanied) voice (an example of the second voice) based on the second performance. Both the first demonstration and the second demonstration are demonstrations performed while reproducing the same reference sound. Here, “performed during playback of the same reference sound” means that the reference sound reproduced when each performance is performed is the same, and the first performance and the second performance are always performed simultaneously. It doesn't mean that. In addition, “the same reference sound” does not mean that the two reference sounds are completely the same. For example, a performance sound recorded by the same player on the same music is recorded. They may be different in time (so-called take differences), or may be recorded performance sounds of different players performing the same music. The first demonstration is performed by the user A (an example of the first user), and the second demonstration is performed by the user B (an example of the second user).
音データ編集システム1は、ユーザー端末10及びサーバ20を有する。ユーザー端末10は、音データ編集サービスにおけるクライアントであり、ユーザーインターフェースを提供する。ここでは、2台のユーザー端末10が図示される。ユーザーAのユーザー端末及びユーザーBのユーザー端末及びその要素を区別するときは、ユーザー端末10A及びユーザー端末10Bのように添字を用いる。
The sound data editing system 1 includes a
ユーザー端末10は、記憶部11、再生部12、記録部13、通信部14、及びUI部15を有する。記憶部11は、各種のデータを記憶する。この例で、記憶部11は、参照音を再生するためのデータDrを記憶する。再生部12は、各種のデータを再生する。この例で、再生部12は、データDrを再生する。記録部13は、参照音の再生中に行われる実演に伴う音をデータ化し、音データとして記憶部11に記憶する。通信部14は、所定の通信規格に従って他の装置と通信する。この例で、通信部14は、実演の音データをサーバ20にアップロードする。UI部15は、参照音の再生、録音開始、アップロードなど、ユーザーが各種の指示を入力するためのユーザーインターフェースを提供する。
The
サーバ20は、音データ編集サービスにおけるサーバである。サーバ20は、インターネット等のネットワーク(図示略)を介してユーザー端末10と通信する。サーバ20は、通信部21、記憶部23、及び同期部24を有する。通信部21は、所定の通信規格に従って他の装置と通信する。この例で、通信部21は、ユーザー端末10から送信された音データを受信する。記憶部23は、通信部21により受信された音データを記憶する。同期部24は、2つ以上の音データを同期し、これらを合成する。合成後の音データを「合成音データ」という。なお、ここで音データの「合成」とは、2つ以上の音をミックスする処理(ミキシング)をいう。
The
サーバ20の通信部21は、同期部24により生成された合成音データを、ユーザー端末10に配信する。ユーザー端末10において、再生部12は、サーバ20から配信された合成音データを再生する。
The
図2は、ユーザー端末10のハードウェア構成を例示する図である。ユーザー端末10は、CPU(Central Processing Unit)101、メモリー102、ストレージ103、通信IF104、ディスプレイ105、入力装置106、マイクロフォン107、スピーカー108、及びカメラ109を有するコンピュータ装置、具体的には例えばスマートフォン、タブレット端末、又はパーソナルコンピュータである。CPU101は、プログラムを実行し、ユーザー端末10の他のハードウェア要素を制御する制御装置である。メモリー102は、CPU101がプログラムを実行する際のワークエリアとして機能する主記憶装置であり、例えばRAM(Random Access Memory)を含む。ストレージ103は、各種のプログラム及びデータを記憶する不揮発性の補助記憶装置であり、例えばSSD(Solid State Drive)又はHDD(Hard Disk Drive)を含む。通信IF104は、他の装置と通信するためのインターフェースであり、例えばNIC(Network Interface Card)を含む。ディスプレイ105は、情報を表示する表示装置であり、例えばLCD(Liquid Crystal Display)を含む。入力装置106は、ユーザーがユーザー端末10に対して指示又は情報を入力するための装置であり、例えば、タッチセンサー又はキーボードを含む。マイクロフォン107は、音を集音し、集音した音を電気信号に変換する装置である。スピーカー108は、電気信号に応じて音を出力する装置である。カメラ109は、動画を撮影するための撮影装置である。
FIG. 2 is a diagram illustrating a hardware configuration of the
この例で、ストレージ103は、コンピュータ装置を音データ編集システム1におけるクライアントとして機能させるためのプログラム(以下「クライアントプログラム」という)を記憶する。CPU101がクライアントプログラムを実行している状態において、メモリー102及びストレージ103の少なくとも一方は、記憶部11の一例である。スピーカー108は、再生部12の一例である。マイクロフォン107及びカメラ109は、記録部13の一例である。ディスプレイ105及び入力装置106は、UI部15の一例である。通信IF104は、通信部14の一例である。
In this example, the
図3は、サーバ20のハードウェア構成を例示する図である。サーバ20は、CPU201、メモリー202、ストレージ203、及び通信IF204を有するコンピュータ装置である。CPU201は、プログラムを実行し、サーバ20の他のハードウェア要素を制御する制御装置である。メモリー202は、CPU201がプログラムを実行する際のワークエリアとして機能する主記憶装置であり、例えばRAMを含む。ストレージ203は、各種のプログラム及びデータを記憶する不揮発性の補助記憶装置であり、例えばSSD又はHDDを含む。通信IF204は、他の装置と通信するためのインターフェースであり、例えばNICを含む。
FIG. 3 is a diagram illustrating a hardware configuration of the
この例で、ストレージ203は、コンピュータ装置を音データ編集システム1におけるサーバとして機能させるためのプログラム(以下「サーバプログラム」という)を記憶する。サーバプログラムを実行しているCPU201により制御される通信IF204は、通信部21の一例である。サーバプログラムを実行しているCPU201は、同期部24の一例である。サーバプログラムを実行しているCPU201により制御されるメモリー202及びストレージ203の少なくとも一方は、記憶部23の一例である。
In this example, the
1−2.動作
図4は、音データ編集システム1の動作の概要を例示するシーケンスチャートである。以下の例において、音データは、楽器の演奏に係る実演を記録した動画(以下「演奏動画」という)のデータに含まれる音声データ(音声トラック)である。ここでは、動画データであるデータD[1](第1動画データの一例)とデータD[2](第2動画データの一例)とが同期される例を説明する。
1-2. Operation FIG. 4 is a sequence chart illustrating an outline of the operation of the sound data editing system 1. In the following example, the sound data is audio data (audio track) included in data of a moving image (hereinafter referred to as “performance moving image”) that records a performance related to the performance of the instrument. Here, an example will be described in which data D [1] (an example of first moving image data), which is moving image data, and data D [2] (an example of second moving image data) are synchronized.
ステップS1において、ユーザー端末10は、動画データを記録する。ステップS2において、ユーザー端末10は、動画データをサーバ20にアップロードする。図示はしないがサーバ20に対しては複数のユーザー端末10がアクセス可能であり、これら複数のユーザー端末10から複数の動画データがサーバ20にアップロードされる。この例において、複数の動画データには、データD[1]及びデータD[2]が含まれる。サーバ20は、これら複数の動画データを記憶する。
In step S1, the
ステップS3において、ユーザー端末10は、複数の動画データを同期するための同期要求をサーバ20に送信する。この同期要求は、同期処理の対象となる動画データを特定する情報を含む。この例において、同期処理の対象となる動画データにはデータD[1]及びデータD[2]が含まれる。ステップS4において、サーバ20は、同期要求により指定された複数の動画データを同期する。同期処理により生成されるデータを同期データという。ステップS5において、サーバ20は、同期データをユーザー端末10に送信する。ステップS6において、ユーザー端末10は、同期されたデータを再生する。以下、これらの処理の詳細を説明する。以下においてUI部15等の機能要素を処理の主体として記載するが、これは、クライアントプログラム等のソフトウェアを実行するCPU101等のハードウェア要素が他のハードウェア要素を用いて処理を実行することを意味する。
In step S <b> 3, the
1−2−1.音データのアップロード
図5は、音データのアップロードに係る動作を例示するフローチャートである。図5のフローは、例えば、ユーザー端末10においてユーザーが演奏の録音(演奏動画の記録)の開始を指示したことを契機として開始される。
1-2-1. Uploading Sound Data FIG. 5 is a flowchart illustrating an operation related to uploading sound data. The flow in FIG. 5 is started when, for example, the
ステップS11において、UI部15は、参照音の選択を受け付ける。参照音は実演(この例では楽器の演奏)の進行を示す音であって、例えば、演奏される楽曲そのものの音(例えばCD等から取り込んだ音)、その楽曲の一部のパート(例えばドラムパート)の演奏音、またその楽曲から一部のパート(例えばボーカルパート)を除いた演奏音である。このように参照音とは、単に周期的に繰り返されるクリック音又はビープ音のような楽曲において意味の無いものではなく、それ自体が楽曲の少なくとも一部を構成する音をいう。参照音のデータは、記憶部11及び記憶部23(サーバ20)の少なくとも一方に、少なくとも1つ以上、記憶されている。UI部15は、記憶部11及び記憶部23を検索し、参照音の一覧を生成する。UI部15は、参照音の一覧を表示し、ユーザーに一の参照音を選択するよう促す。ユーザーは、表示された一覧の中から所望の参照音を選択する。ユーザーによる参照音の選択を受け付けると、UI部15は、選択された参照音を再生部12に通知する。
In step S11, the
ステップS12において、記録部13は、演奏動画の記録を開始する。演奏動画の記録は、例えば、ユーザーがUI部15を介して記録開始の指示を入力したことを契機として開始される。演奏動画は、カメラ109により撮影される映像及びマイクロフォン107により集音される音声を含む。演奏動画は所定のデータフォーマット(例えば汎用の動画フォーマット)で記録される。
In step S12, the
ステップS13において、再生部12は、指定された参照音の再生を開始する。再生部12は、指定された参照音のデータを記憶部11又は記憶部23から読み出し、読み出したデータをデコードして音信号を生成する。再生部12は、生成した音信号をスピーカー108に出力する。こうして、参照音は順次、スピーカー108から出力される。この例においては、スピーカー108から参照音が出力されるので、演奏動画の音声トラックにおいては、参照音に演奏音が重ね合わされた状態で音声が記録される(映像ではなく音声が重ね合わされる)。
In step S13, the
図6は、参照音の再生指示を入力するためのUI画面を例示する図である。このUI画面は、ウインドウ501、ボタン502、及びウインドウ505を含む。ウインドウ501は、再生される参照音の識別情報(例えば、タイトル)を表示する領域である。ボタン502は、参照音の再生又は一時停止を指示するボタンである。再生音が停止した状態でボタン502が押されると、参照音の再生が開始される。再生音が再生されている状態でボタン502が押されると、参照音の再生が一時停止される。
FIG. 6 is a diagram illustrating a UI screen for inputting a reference sound reproduction instruction. This UI screen includes a
このUI画面は、さらに、ボタン506を含む。ボタン506は、演奏動画の記録を停止するためのボタンである。参照音の再生中、ユーザーは、参照音を聴きながら、参照音に合わせて楽器を演奏する。記録部13は、ユーザーが楽器を演奏する映像及びその演奏音を、参照音と共に記録する。参照音の再生中は図6のUI画面が表示されており、ユーザーは任意のタイミングで演奏動画の記録を停止することができる。
This UI screen further includes a
再び図5を参照する。ステップS14において、記録部13は、演奏動画の記録を停止する。演奏動画の記録は、例えば、ユーザーがボタン506を押すと停止する。ステップS11〜S14の処理は、図4のステップS1の処理の詳細である。ステップS2において、通信部14は、記録部13により生成された演奏動画の動画データをサーバ20に送信(アップロード)する。なお、参照音のデータが記憶部23ではなく記憶部11から取得された場合、通信部14は、動画データに加えて、参照音のデータをサーバ20に送信してもよい。サーバ20の記憶部23は、参照音のデータを記憶する。
Refer to FIG. 5 again. In step S14, the
サーバ20の通信部21は、ユーザー端末10から動画データを受信する。記憶部23は、通信部21が受信した動画データを記憶する。記憶部23において、動画データは、動画の属性を示す属性情報と対応付けて記憶される。属性情報は、例えば、参照音の識別情報、演奏音の識別情報、動画作成者の識別情報、及びアップロード日時を含む。なお、動画データに対応する属性情報はこの例に限定されない。例えば、属性情報は、これらすべての情報を含む必要はなく、いずれか1つ又は複数の情報のみを含んでもよい。参照音の識別情報は、例えば楽曲のタイトルを含む。演奏音の識別情報は、例えば演奏音を発した楽器名を含む。これらの情報は、例えば、UI部15を介してユーザーにより入力される。
The
1−2−2.音データの同期(合成)
図7は、音データの同期に係る動作(音データ編集方法の一例)を例示するフローチャートである。図7のフローは、図4のステップS4〜S5の処理に対応する。ここではまず、ステップS3に関し、ユーザー端末10が、複数の動画データを同期するための同期要求をサーバ20に送信する処理に関連する事項を説明する。
1-2-2. Sound data synchronization (synthesis)
FIG. 7 is a flowchart illustrating an operation related to the synchronization of sound data (an example of a sound data editing method). The flow in FIG. 7 corresponds to the processing in steps S4 to S5 in FIG. Here, first, regarding step S <b> 3, items related to processing in which the
図8は、同期される演奏動画を選択するためのUI画面を例示する図である。このUI画面は、ウインドウ601、テキストボックス602、ボタン603、及びボタン604を含む。ウインドウ601は、記憶部23に記憶されている演奏動画の一覧を表示するための領域である。この例では、演奏動画のサムネイル画像及び演奏動画のタイトルが表示される。テキストボックス602は、検索キーを入力するための領域であり、ボタン603は検索を指示するためのボタンである。検索が実行されると、ウインドウ601には、検索結果に含まれる演奏動画の一覧が表示される。ウインドウ601においては、ユーザーにより選択された演奏動画が、選択されていない演奏動画と区別して表示される。この例では、「さくらさくらのギター弾いてみた」という演奏動画、及び「さくらさくらのベース弾いてみた」という演奏動画が選択されている。ボタン604は、動画の同期を指示するためのボタンである。ユーザーによりボタン604が押されると、通信部14は、同期される動画を特定する情報を含む同期要求をサーバ20に送信する(ステップS3)。
FIG. 8 is a diagram illustrating a UI screen for selecting a performance video to be synchronized. This UI screen includes a
再び図7を参照して説明する。ステップS41において、サーバ20の同期部24は、同期要求により指定される複数の動画データを同期するためのパラメーターを計算する。このパラメーターの計算は、参照音をキーとして行われる。具体的に、同期部24は、データDr(参照音)と同期対象のデータD[i]との相互相関Criを最大にする時間差τを次式(1)に従って計算する。この例において、時間差τは複数の動画データを同期するためのパラメーターの一例である。
同期部24は、同期対象となるすべてのデータD[i]に対して、式(1)によりデータDrとの時間差τを計算する。同期対象となる2個のデータDの時間領域における位置関係は、データDrとの時間差から得られる。例えば、データDrとデータD[1]との時間差τ[r,1]、及びデータDrとデータD[2]との時間差τ[r,2]から、データD[1]とデータD[2]との時間差τ[1,2]は、次式(2)により得られる。
ステップS42において、同期部24は、複数の演奏動画の映像を同期する際の、画面における映像の位置関係を決定する。この例では、同期後の動画(以下「合成動画」という)の画面はn個の領域(nは同期される演奏動画の数以上の自然数)に分割され、同期される演奏動画の映像は、それぞれこれら複数の領域のうち1個の領域に表示される。同期部24は、所定のアルゴリズムに従って画面の分割数nを決定し、各領域に演奏動画を割り当てる。
In step S42, the
図9は、合成動画における各演奏動画の配置を例示する図である。この例では、演奏動画の画面は縦方向に2分割される。画面向かって左側の領域には「さくらさくらのギター弾いてみた」の映像が、右側の領域には「さくらさくらのベース弾いてみた」の映像が、それぞれ割り当てられる。 FIG. 9 is a diagram illustrating the arrangement of each performance video in the composite video. In this example, the performance video screen is divided into two in the vertical direction. The video “Sakura Sakura I tried playing the guitar” is assigned to the area on the left side of the screen, and the video “Sakura Sakura I played the bass” is assigned to the area on the right.
再び図7を参照する。ステップS43において、同期部24は、演奏動画の音声を同期する際の、音像の位置関係を決定する。この例において、同期部24は、音像定位を変更する処理は行わない。
Refer to FIG. 7 again. In step S43, the
ステップS44において、同期部24は、同期処理の対象となる動画データを記憶部23から読み出す(すなわち取得する)。この例において、同期部24は、ユーザーAの演奏動画データ及びユーザーBの演奏動画データを読み出す(すなわちこれらのデータを取得する)。ユーザーAの演奏動画データの音声トラックは、参照音を再生中に実演された実演の第1音データの一例であり、ユーザーBの演奏動画データの音声トラックは、参照音を再生中に実演された別の実演の第2音データの一例である。
In step S <b> 44, the
ステップS45において、同期部24は、合成動画のデータを生成する。詳細には以下のとおりである。同期部24は、複数の動画データについて、ステップ41において計算された時間差をつけて時間領域における位置を決定する。また、同期部24は、ステップS42において決定された画面配置に従って映像を同期し、さらに、ステップS43において決定された音像位置に従って音声トラックを生成する。ステップS41〜S45は、図4のステップS4の詳細である。ステップS5において、通信部21は、同期部24により生成された合成動画のデータを、同期要求の送信元のユーザー端末10に送信する。
In step S45, the
本実施形態によれば、ユーザーが指定した参照音を再生しながら行われた実演の音データを、簡単な操作で同期することができる。 According to this embodiment, the sound data of the demonstration performed while reproducing the reference sound designated by the user can be synchronized with a simple operation.
1−2−3.音データの再生
ユーザー端末10の通信部14は、合成動画のデータを受信する(すなわちダウンロードする)。再生部12は、ダウンロードした合成動画を再生する。この処理は図4のステップS6の処理に相当する。動画データの再生には周知の技術が用いられる。
1-2-3. Reproduction of sound data The
2.第2実施形態
第1実施形態において、同期処理の対象となる音データは、いずれも参照音に演奏音が重ね合わされたものであった。このような音データを同期した場合、参照音を除いて演奏音だけを同期することが難しいという問題があった。第2実施形態はこの問題に対処する。
2. Second Embodiment In the first embodiment, all of the sound data to be subjected to the synchronization process is obtained by superimposing the performance sound on the reference sound. When such sound data is synchronized, there is a problem that it is difficult to synchronize only the performance sound except the reference sound. The second embodiment addresses this problem.
第2実施形態では、同期処理の対象となる音データにおいて参照音と演奏音とは分離される。具体的には、ステレオ2チャンネルの音データにおいて、左チャンネル(第1チャンネルの一例)には参照音の音信号が、右チャンネル(第2チャンネルの一例)には演奏音の音信号が記録される。ユーザー端末10において記録部13が参照音と演奏音とを分離して記録する方法の一例は、ユーザー端末10において参照音を出力する際に、スピーカー108を介さずにヘッドホン(図示略)を介して参照音を出力することである。ユーザーは、ヘッドホンで参照音を聴きながら演奏する。このとき、記録部13は、再生している(出力している)参照音の音信号を左チャンネルに記録し、マイクロフォン107を介して入力された演奏音の音信号を右チャンネルに記録する。参照音と演奏音とを分離して記録する別の方法は、演奏音を、マイクロフォン107を介さずに例えばいわゆるライン入力を用いて記録することである。この場合、参照音はスピーカー108を介して出力されてもよいし、スピーカー108を介さずヘッドホンを介して出力されてもよい。
In the second embodiment, the reference sound and the performance sound are separated in the sound data to be synchronized. Specifically, in the stereo 2-channel sound data, the sound signal of the reference sound is recorded in the left channel (an example of the first channel), and the sound signal of the performance sound is recorded in the right channel (an example of the second channel). The An example of a method in which the
第2実施形態では、ステップS41において、同期部24は、同期対象であるデータDのうち左チャンネルに記録された音信号(参照音の音信号である)が、式(1)における音信号yiとして用いられる。第1実施形態においては、参照音と演奏音とが重ね合わされた音信号とデータDr(参照音)の音信号との相互相関を用いてデータDとデータDrとの時間差τが計算されるところ、データDにおける演奏音と参照音とのバランス等の事情により、データDとデータDrとの時間差τを正確に計算できない場合があった。しかし、この例においては、データDにおいて演奏音を含まない参照音の音信号と、データDrの音信号との相互相関を用いて時間差τが計算される。したがって、時間差τをより正確に計算できる。すなわち、複数のデータDをより正確に同期できる。
In the second embodiment, in step S41, the
また、第2実施形態では、ステップS45において、データDに含まれる音声データのうち、右チャンネルに記録された音信号(演奏音の音信号である)が合成される。左チャンネルの音信号(参照音の音信号である)は合成されない。従来、ある楽曲(参照音)を背後で流しながらその楽曲に合わせて楽器を演奏する演奏動画を記録し、この動画をインターネットの動画投稿サイトに公開することが行われている。さらに、他人がアップロードした演奏動画に自分の演奏動画を合成してあたかも両者が合奏をしているかのような動画を作成し、これを公開することも行われている。しかし、これらの演奏動画においては、参照音と演奏音が混ざった音声しか記録されないため、その後に他人の演奏動画と合成する際に参照音がノイズとなってしまうという問題がある。これに対し本実施形態においては、合成動画の音声トラックには参照音が含まれておらず、演奏音のみが含まれる。したがって、複数の音データを同期する際に、よりノイズの少ない状態で2つの音データを同期及び再生することができる。なお、参照音の音信号を記録する第1チャンネル及び演奏音の音信号を記録する第2チャンネルの具体例は上述の実施形態の例に限定されない。例えば、ステレオ2チャンネルのうち左チャンネルに演奏音の音信号が記録され、右チャンネルに参照音の音信号が記録されてもよい。別の例において、3チャンネル以上の音響システム(例えばサラウンド5.1チャンネル)において1つのチャンネルに参照音の音信号が記録され、他の1つのチャンネルに演奏音の音信号が記録されてもよい。 In the second embodiment, in step S45, the sound signal (the sound signal of the performance sound) recorded in the right channel is synthesized from the sound data included in the data D. The sound signal of the left channel (which is the sound signal of the reference sound) is not synthesized. 2. Description of the Related Art Conventionally, a performance video that plays a musical instrument in accordance with a music while playing a music (reference sound) behind is recorded, and this video is published on a video posting site on the Internet. Furthermore, the performance videos uploaded by other people are combined with their performance videos to create a video as if the two are performing together, and this is also made public. However, in these performance moving images, only a sound in which the reference sound and the performance sound are mixed is recorded, so that there is a problem that the reference sound becomes noise when synthesized with another person's performance moving image. On the other hand, in the present embodiment, the audio track of the synthesized moving image does not include the reference sound but includes only the performance sound. Therefore, when synchronizing a plurality of sound data, the two sound data can be synchronized and reproduced with less noise. Note that specific examples of the first channel for recording the sound signal of the reference sound and the second channel for recording the sound signal of the performance sound are not limited to the above-described embodiments. For example, the sound signal of the performance sound may be recorded on the left channel of the two stereo channels, and the sound signal of the reference sound may be recorded on the right channel. In another example, the sound signal of the reference sound may be recorded in one channel and the sound signal of the performance sound may be recorded in the other channel in an acoustic system having three or more channels (for example, surround 5.1 channel). .
3.第3実施形態
図10は、第3実施形態に係る音データ編集システム3の機能構成を例示する図である。音データ編集システム3において、第1実施形態に係る音データ編集システム1と共通する事項については説明を省略する。音データ編集システム3において、サーバ20は、逆アライメント部22を有する。逆アライメント部22は、通信部21により受信された音データに対し逆アライメント処理を行う。詳細は後述するが、逆アライメント処理とは、音データにより示される演奏音のテンポを規格化する処理をいう。記憶部23は、逆アライメント処理された音データを記憶する。
3. Third Embodiment FIG. 10 is a diagram illustrating a functional configuration of a sound
図11は、逆アライメント処理の概念図である。ここでは、ユーザーAの演奏動画に含まれる参照音RA及び演奏音SA、並びに通常のテンポで再生される参照音R0を概念的に示す。さらに、参照音のテンポが併せて図示される。この図において、横軸は実時間を示す。参照音として表されるドットは、参照音における楽譜内の単位時間(例えば128分音符に相当する時間)を示す。通常のテンポで再生される参照音R0においては、ドットは等間隔で一様に配置されており、楽譜内の単位時間が均一に進行する。すなわち、参照音のテンポは、楽曲全体を通じてT0一定である。一方、ユーザーAが演奏動画の記録に用いた参照音RAは、楽曲の一部の期間(期間D1)において、通常よりも遅いテンポT1で再生され、その他の期間では通常通りのテンポT0で再生されたものである。逆アライメント処理は、演奏動画のテンポを、楽曲全体を通じて、基準となるデータ(この例では通常のテンポで再生される参照音R0)と同期するように調整する処理をいう。この例では、ユーザーAの演奏動画は、期間D1における参照音RAが参照音R0と同じテンポとなるよう、期間D1の演奏動画が時間領域において圧縮される。 FIG. 11 is a conceptual diagram of the reverse alignment process. Here, the reference sound RA and the performance sound SA included in the performance video of the user A, and the reference sound R0 reproduced at a normal tempo are conceptually shown. Further, the tempo of the reference sound is also illustrated. In this figure, the horizontal axis indicates real time. The dot represented as the reference sound indicates a unit time (for example, a time corresponding to a 128th note) in the score of the reference sound. In the reference sound R0 reproduced at a normal tempo, the dots are uniformly arranged at equal intervals, and the unit time in the score progresses uniformly. That is, the tempo of the reference sound is constant T0 throughout the music. On the other hand, the reference sound RA used by the user A for recording the performance video is reproduced at a tempo T1 that is slower than normal during a part of the music (period D1), and is reproduced at a normal tempo T0 during other periods. It has been done. The reverse alignment process is a process of adjusting the tempo of the performance moving image so as to be synchronized with the reference data (in this example, the reference sound R0 reproduced at a normal tempo) throughout the music. In this example, the performance video of the user A is compressed in the time domain so that the reference sound RA in the time period D1 has the same tempo as the reference sound R0.
図12は、第3実施形態において参照音の再生指示を入力するためのUI画面を例示する図である。この例において、ユーザー端末10の再生部12は、参照音の再生速度を変更することができる。このUI画面は、ウインドウ501、ボタン502、ボタン503、ボタン504、及びウインドウ505を含む。ボタン503は、再生速度を速くするためのボタンである。ボタン504は、再生速度を遅くするためのボタンである。この例において、再生部12は、参照音の再生速度を変更することができる。再生速度は、例えば、参照音の楽曲全体を通じて全体的に指定される。例えば、再生部12は、通常の0.8倍の一定速度で参照音を再生する。あるいは、再生部12は、参照音のうちあらかじめ指定された一部のみ、他の部分と異なる速度で再生する(例えば、第35小節から第42小節まで、通常の0.8倍の速度で、その他の部分は通常速度で再生する)。さらに別の例で、再生部12は、参照音の再生中に入力される指示に応じて動的に再生速度を変更してもよい。例えば、再生部12は、参照音の再生中にボタン503が押されると、その後の再生速度を速くする。
FIG. 12 is a diagram illustrating a UI screen for inputting a reference sound reproduction instruction in the third embodiment. In this example, the
ユーザー端末10からアップロードされた音データは、そのまま記憶されるのではなく、逆アライメント部22により逆アライメント処理されてから記憶部23に記憶される。
The sound data uploaded from the
図13は、逆アライメント処理を例示するフローチャートである。ステップS221において、逆アライメント部22は、演奏動画において、参照音のテンポの時系列を特定する。楽曲が既知であり、その楽曲の楽譜が事前に与えられている条件の下、リアルタイムで演奏される楽曲の演奏音から、いま楽曲のどの部分が演奏されているのか推定する技術が知られている。この技術は、例えば以下の処理を含む。逆アライメント部22は、まず演奏動画の音声トラックの左チャンネルに記録された参照音の音声波形を複数の期間(フレーム)に分割して定Q変換を施すことにより周波数スペクトログラムを得る。逆アライメント部22は、この周波数スペクトログラムから、オンセット時刻(発音開始時刻)及び音高を抽出する。逆アライメント部22は、現在の状態の事後分布をDelayed-decisionで逐次推定し、楽譜上でオンセットとみなされる位置を事後分布のピークが通過した時点で、事後分布のラプラス近似及びいくつか統計量を出力する。具体的には、逆アライメント部22は、楽曲データ上に存在するn番目のイベントを検知すると、そのイベントが検知された時刻T[n]、事後分布により示される楽譜上の平均位置及び分散を出力する。楽譜上の平均位置が発音位置u[n]の推定値であり、分散が観測ノイズq[n]の推定値である。なお、発音位置の推定の詳細は、例えば特開2015−79183号公報に例示されている。
FIG. 13 is a flowchart illustrating the reverse alignment process. In step S221, the
逆アライメント部22は、参照音に含まれる音符(以下「対象音符」という)につき、その前及び後の少なくとも1つの音符との実時間間隔を、基準となる時間間隔(例えば参照音の楽曲を一定テンポで演奏した場合に、その対象音符と他の音符との実時間間隔)と比較することにより、対象音符の発音時点における相対的なテンポを得る。逆アライメント部22は、参照音に含まれるすべての音符についてこの処理を行うことにより、テンポの時系列を得る。
The
ステップS222において、逆アライメント部22は、複数の期間の中から、対象となる期間(以下「対象期間」という)を順次、特定する。ステップS223において、逆アライメント部22は、所定の基準に従って対象期間のテンポを規格化する。ピッチ(音高)を一定に保つため、テンポの調整は波形を単純に時間軸方向に拡大又は縮小するのではなく、いわゆるタイムストレッチ(タイムエキスパンダー又はタイムコンプレッサーと言われることもある)の技術が用いられる。タイムストレッチの技術としては、例えば、合成音の波形を複数のブロックに分割し、時間領域においてブロックの位置をずらしながら配置することによりテンポを調整する技術が用いられる。ノイズを低減するため、クロスフェードが用いられる。
In step S222, the
ステップS224において、逆アライメント部22は、参照音に含まれるすべての期間について処理が完了したか判断する。処理が完了していない期間があると判断された場合(S224:NO)、逆アライメント部22は、処理をステップS222に移行する。すべての期間について処理が完了したと判断された場合(S224:YES)、逆アライメント部22は処理を終了する。逆アライメント部22は、こうしてテンポが調整された演奏音の波形を得る。
In step S224, the
なおここでは詳細な説明を省略するが、逆アライメント部22は、演奏動画の映像も、演奏音と同期するようにテンポを調整する。
Although the detailed description is omitted here, the
従来、ある楽曲(参照音)を背後で流しながらその楽曲に合わせて楽器を演奏する演奏動画を記録し、この動画をインターネットの動画投稿サイトに公開することが行われている。さらに、他人がアップロードした演奏動画に自分の演奏動画を同期してあたかも両者が合奏をしているかのような動画を作成し、これを公開することも行われている。しかし、これらの演奏動画においては、ユーザーAが用いる参照音及びユーザーBが用いる参照音は、同じテンポで再生されたものでなければならなかった。参照音として例えばミュージックシーケンサーにより出力される演奏音を用いる場合、楽曲のテンポはユーザーが任意に設定できる。原曲どおりのテンポだと上手く弾けない演奏者でも、テンポを下げれば弾ける場合がある。しかし、テンポを原曲から変えてしまうと他のユーザーの動画と同期することができなくなってしまう。これに対し本実施形態においては、演奏動画は基準となるテンポに調整された状態で記録される。したがって、演奏動画が記録されたときに再生されていた参照音のテンポによらず、他のユーザーの演奏動画と同期することが可能となる。 2. Description of the Related Art Conventionally, a performance video that plays a musical instrument in accordance with a music while playing a music (reference sound) behind is recorded, and this video is published on a video posting site on the Internet. In addition, it is also possible to create a video as if the two perform a ensemble by synchronizing their performance video with a performance video uploaded by another person and publish it. However, in these performance moving images, the reference sound used by user A and the reference sound used by user B had to be reproduced at the same tempo. For example, when a performance sound output from a music sequencer is used as the reference sound, the tempo of the music can be arbitrarily set by the user. Even performers who do not play well with the original tempo may play if the tempo is lowered. However, if you change the tempo from the original song, you will not be able to synchronize with other users' videos. On the other hand, in the present embodiment, the performance video is recorded in a state adjusted to a reference tempo. Therefore, it is possible to synchronize with the performance video of another user regardless of the tempo of the reference sound reproduced when the performance video is recorded.
4.第4実施形態
図14は、第4実施形態に係る音データ編集システム4の機能構成を例示する図である。音データ編集システム4において、第1実施形態に係る音データ編集システム1と共通する事項については説明を省略する。音データ編集システム4において、ユーザー端末10は、アライメント部16を有する。アライメント部16は、合成音データを再生する際のテンポを、外部から入力された情報に応じて動的に調整する。
4). Fourth Embodiment FIG. 14 is a diagram illustrating a functional configuration of a sound data editing system 4 according to a fourth embodiment. In the sound data editing system 4, description of matters common to the sound data editing system 1 according to the first embodiment is omitted. In the sound data editing system 4, the
図15は、アライメント部16の機能構成を例示する図である。アライメント部16は、合成音データをアライメント再生するための機能を有する。アライメント再生とは、入力信号(例えば、楽器のリアルタイムの演奏音の音信号)に応じてタイミング又はテンポを動的に調整しながら、合成音データを再生することをいう。
FIG. 15 is a diagram illustrating a functional configuration of the
アライメント部16は、入力部161、推定部162、予想部163、及び出力部164を有する。入力部161は、入力信号を受け付ける。推定部162は、入力信号を解析し、いま楽譜上のどの位置が演奏されているか推定する。なお、入力信号がどの楽曲を演奏したものであるかは既知とする。この楽曲の楽譜を示すデータは、記憶部11に記憶されている。予想部163は、推定部162から供給される推定値を観測値として、合成音データの次の再生タイミングの予想を行う。出力部164は、予想部163から入力された予想時刻に応じて、次に発音すべき期間の再生命令を再生部12に出力する。
The
図16は、同期された音データのアライメント再生に係る動作を例示するフローチャートである。図16のフローは、例えば、ユーザー端末10においてユーザーがアライメント再生の開始を指示したことを契機として開始される。ステップS61において、入力部161は、入力音の受け付けを開始する。すなわち、入力部161は、入力音信号を取得する。
FIG. 16 is a flowchart illustrating an operation related to synchronized reproduction of synchronized sound data. The flow in FIG. 16 is started when, for example, the user instructs the start of alignment reproduction at the
ステップS62において、推定部162は、楽譜位置の推定を行う。ステップS63において、予想部163は、演奏のテンポを予想する。演奏のテンポは、実時間に対する楽譜位置の推移から予想される。ステップS64において、予想部163は、次の再生タイミングの予想を行う。出力部164は、予想部163から入力された予想時刻に応じて、次に発音すべき期間の再生命令を再生部12に出力する(ステップS65)。ステップS62〜S64の処理は、周期的に繰り返し実行される。
In step S62, the
合成音のデータは、複数の期間に区分される。複数の期間への区分は、対応する参照音の楽譜上のイベントに基づいて行われる。具体的には、合成音のデータは、例えば、参照音の小節に対応する位置で区分される。出力部164から出力される再生命令は、合成音データのうち再生すべき期間及びテンポを指定する情報を含む。再生部12は、指定された期間を、指定されたテンポで再生する。テンポの調整には、例えばタイムストレッチ技術が用いられる。
The synthesized sound data is divided into a plurality of periods. The division into a plurality of periods is performed based on the event on the score of the corresponding reference sound. Specifically, the synthesized sound data is divided at positions corresponding to the bars of the reference sound, for example. The reproduction command output from the
この例によれば、例えば、リアルタイムの楽器演奏に対し、合成音(合成動画)を同期させて再生することができる。例えば、リアルタイムの楽器演奏において音楽表現又は演奏技術に起因するテンポのゆらぎ又はタイミングのずれが発生した場合であっても、合成音はリアルタイムの楽器演奏に追従して再生される。この例によれば、合成音を伴奏として自分の楽器演奏とリアルタイムで擬似的な合奏体験をすることができる。 According to this example, for example, a synthesized sound (synthetic moving image) can be reproduced in synchronization with a real-time musical instrument performance. For example, even when a tempo fluctuation or timing shift caused by music expression or performance technique occurs in a real-time instrument performance, the synthesized sound is reproduced following the real-time instrument performance. According to this example, it is possible to have a simulated ensemble experience in real time with your own musical instrument performance with synthetic sounds as accompaniment.
5.変形例
本発明は上述の第1〜第5実施形態に限定されるものではなく種々の変形実施が可能である。上述の実施形態のうち2つ以上のものが組み合わせて用いられてもよい。また、上述の実施形態のそれぞれ、又は2つ以上の組み合わせに対し、以下の変形例のうち少なくとも1つが適用されてもよい。
5. The present invention is not limited to the first to fifth embodiments described above, and various modifications can be made. Two or more of the above embodiments may be used in combination. In addition, at least one of the following modifications may be applied to each of the above-described embodiments or a combination of two or more.
5−1.変形例1
同期部24は、ステップS43において、同期処理の対象となるデータDに含まれる音信号の定位を調整してもよい。同期部24は、例えば、あらかじめ決められたアルゴリズムにしたがって各演奏音の音像位置を決定する。あるいは、同期部24は、あらかじめ準備されたテンプレートの中からユーザーにより選択された音像位置の組み合わせ(例えば、ギターは左、キーボードは右、ベース、ドラム、及びボーカルは中央など)に従って各演奏音の音像位置を決定する。さらにあるいは、同期部24は、ユーザーの指示にしたがって各演奏音の音像位置を決定する。
5-1. Modification 1
In step S43, the
5−2.変形例2
同期部24における同期処理は、実施形態で例示したものに限定されない。2個のデータDを同期するためのパラメーターである時間差τを計算する具体的方法は、式(1)又は(2)を用いるものに限定されない。例えば、MFCC(Mel-Frequency Cepstrum Coefficients、メル周波数ケプストラム係数)又はPCP(Pitch Class Profile)等の他の特徴量を最大にする時間差が、2個のデータDを同期するためのパラメーターとして用いられてもよい。別の例において、同期部24は、各演奏音の相対的な音量を調整してもよい。音量は、例えば、演奏動画の属性に応じて調整される。演奏動画の属性は、例えば、その演奏動画を作成したユーザー(演奏動画における演奏者)の属性である。具体的には、演奏者の習熟度が他のユーザーと比較して低い場合、その演奏動画の演奏音は、他のユーザーの演奏音と比較して低い音量で合成される。別の例で、演奏動画の属性は、演奏される楽器の属性である。具体的には、特定の楽器の演奏音は、他の楽器と比較して低い音量で合成される。
5-2. Modification 2
The synchronization processing in the
5−3.変形例3
同期部24は、ユーザーAの演奏動画をユーザーBの演奏動画と同期する際に、演奏音を他の音データと差し替えてもよい。差し替えに用いられる音データは、例えば、演奏される原曲の音データから、その演奏動画に含まれるパートを抽出したものである。例えば、ユーザーAの演奏動画が、ある楽曲のギターのパートを演奏したものであった場合、原曲の音データからギターのパートの音が抽出され、この音が、ユーザーAの演奏音と差し替えられる。この例によれば、合成動画においていわゆる当て振りをすることができる。
5-3.
The
5−4.変形例4
同期部24は、合成動画における音像位置を映像の配置に応じて決定してもよい。例えば、ボーカル、ギター、ベース、及びドラムのパートをそれぞれ演奏した4つの演奏動画を同期する場合において、ボーカルの映像を画面手前に、ギターの映像を画面右手に、ベースの映像を画面左手に、ドラムの映像を画面奥に、それぞれ配置するときは、ボーカルの音像を手前に、ギターの音像を右に、ベースの音像を左に、ドラムの音像を奥に、それぞれ定位させてもよい。この例によれば、映像及び音像の位置関係が整合した合成動画を提供することができる。
5-4. Modification 4
The
5−5.変形例5
参照音を用いて同期されて合成されるデータは、映像データ及び音データに限定されない。例えば、映像又は音声の合成(ミキシング)に用いられる制御信号、映像切り替えの制御信号、CGにおける画像オブジェクトの生成を制御する制御信号、又は舞台照明の制御信号等が同期されて合成されてもよい。
5-5. Modification 5
Data that is synthesized in synchronism using the reference sound is not limited to video data and sound data. For example, a control signal used for video or audio synthesis (mixing), a video switching control signal, a control signal for controlling generation of an image object in CG, or a stage lighting control signal may be synthesized in synchronism. .
5−6.変形例6
音データ編集システム1は、同期する素材としての演奏動画を提供するためのSNS(Social Networking Service)を提供してもよい。SNSにおいては、例えば、演奏の習熟度(レベル)、音楽の嗜好、演奏の傾向、楽器の種類、又は演奏するフレーズによりユーザーがグルーピングされる。
5-6. Modification 6
The sound data editing system 1 may provide an SNS (Social Networking Service) for providing a performance video as a synchronized material. In SNS, users are grouped according to, for example, performance level (level), music preference, performance tendency, instrument type, or phrase to be played.
5−7.変形例7
ユーザー端末10及びサーバ20における機能の分担は、図1、図10、又は図14において例示したものに限定されない。図1、図10、又は図14においてユーザー端末10に実装された機能の一部をサーバ20に実装してもよいし、サーバ20に実装された機能の一部をユーザー端末10に実装してもよい。一例として、ユーザー端末10が逆アライメント部22に相当する機能を有してもよい。この場合、ユーザー端末10は、演奏動画に対して逆アライメント処理を行い、テンポが規格化された演奏動画のデータをサーバ20に送信する。別の例で、ユーザー端末10が同期部24に相当する機能を有してもよい。この場合、ユーザー端末10は、同期される複数の演奏動画を取得し、これらを合成する。さらに別の例で、サーバ20がアライメント部16に相当する機能を有してもよい。この場合、サーバ20は、ユーザー端末10を介して入力音を取得し、入力音に応じて合成音を再生する処理を行う。
5-7. Modification 7
The sharing of functions in the
5−8.変形例8
音データ編集システム1〜4の機能の一部は、省略されてもよい。例えば、音データ編集システム1は、逆アライメント部22を有さなくてもよい。この場合、ユーザー端末10において記録された演奏動画は、逆アライメント処理されずそのままサーバ20に記憶される。逆アライメント処理が行われない場合、参照音の時間領域における一部期間を通常と異なるテンポで再生しながら記録された演奏動画を他の演奏動画と同期させることはできない。
5-8. Modification 8
Some of the functions of the sound data editing systems 1 to 4 may be omitted. For example, the sound data editing system 1 may not have the
逆アライメント部22が無い場合でも、全体として一定のテンポで参照音を再生しながら記録された演奏動画については、例えばタイムストレッチ技術を用いることにより演奏音のテンポを調整することができる。この場合、参照音のテンポを特定する情報は例えばユーザー端末10から提供される。参照音は全体として一定のテンポで再生されるものに限るという制限を設ければ、逆アライメント処理が行われなくても他の演奏動画と同期させることができる。
Even if the
あるいは、音データ編集システム1は、例えばユーザーAの演奏音とユーザーBの演奏音とを同期する際、両者のいずれか一方の音信号を、伸張率又は圧縮率を変えつつ時間軸伸張又は時間軸圧縮し、両者の相互相関係数を順次計算して、相互相関係数が最大となる伸張率又は圧縮率を特定することにより、ユーザーAとユーザーBとの相対的なテンポの差を特定してもよい。テンポの差が特定されれば、タイムストレッチ技術を用いて、ユーザーAの演奏音及びユーザーBの演奏音のテンポを整合させることができる。 Alternatively, when the sound data editing system 1 synchronizes, for example, the performance sound of the user A and the performance sound of the user B, the sound data editing system 1 uses either the time axis expansion or the time of the sound signal of either of them while changing the expansion ratio or the compression ratio. The relative tempo difference between user A and user B is specified by axial compression and calculating the cross-correlation coefficient between the two and specifying the expansion or compression ratio that maximizes the cross-correlation coefficient. May be. If the tempo difference is specified, the tempo of the performance sound of the user A and the performance sound of the user B can be matched using the time stretch technique.
5−9.他の変形例
実施形態で説明した動画データのフォーマット及びこれに付随するデータはあくまで例示である。例えば、動画データは音データ編集システム1に独自のデータフォーマットを有してもよい。また、動画データは、楽器の識別情報等の属性情報を含んでいなくてもよい。実施形態において、参照音はヘッドホンを介して視聴され、演奏音と参照音とが混じっていない例を説明した。しかし、参照音はスピーカー108から出力され、演奏音に参照音が混じっていてもよい。このような場合であっても、演奏動画の音声トラックには、演奏音の録音時に再生されていた参照音のみが記録された音声チャンネルが含まれるので、演奏音と参照音とが混在するチャンネルの信号から、参照音のみが記録されたチャンネルの逆相の信号を減算する等の手法により、参照音を除去することができる。
5-9. Other Modifications The format of moving image data described in the embodiment and data associated therewith are merely examples. For example, the moving image data may have a data format unique to the sound data editing system 1. The moving image data may not include attribute information such as instrument identification information. In the embodiment, an example in which the reference sound is viewed via headphones and the performance sound and the reference sound are not mixed has been described. However, the reference sound may be output from the
同期される音データは、楽器の演奏音に限定されない。実演に伴って発生する音を記録したデータであれば、同期される音データはどのようなものであってもよい。既に説明したように、「実演」には、例えば、演奏、歌唱、朗読、及び口演が含まれる。 The sound data to be synchronized is not limited to the performance sound of the musical instrument. As long as the sound is recorded with the sound generated along with the performance, the sound data to be synchronized may be any data. As already described, “demonstration” includes, for example, performance, singing, reading, and oral performance.
音データ編集システム1の機能を実現するためのハードウェア構成は、図2及び図3で例示したものに限定されない。要求される機能を実現できるものであれば、音データ編集システム1はどのようなハードウェア構成を有していてもよい。また、機能とハードウェアとの対応関係は、実施形態で例示したものに限定されない。例えば、実施形態においてサーバ20に実装されていた機能を、2台以上の装置に分散して実装してもよい。
The hardware configuration for realizing the functions of the sound data editing system 1 is not limited to those illustrated in FIGS. 2 and 3. The sound data editing system 1 may have any hardware configuration as long as the required function can be realized. In addition, the correspondence relationship between functions and hardware is not limited to that illustrated in the embodiment. For example, the functions implemented in the
ユーザー端末10及びサーバ20において実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリーなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。また、このプログラムは、図4、図5、図7、及び図13のすべてのステップを備える必要はない。これらのステップの一部が省略されてもよい。
The program executed in the
1…音データ編集システム、3…音データ編集システム、4…音データ編集システム、10…ユーザー端末、11…記憶部、12…再生部、13…記録部、14…通信部、15…UI部、16…アライメント部、20…サーバ、21…通信部、22…逆アライメント部、23…記憶部、24…同期部、101…CPU、102…メモリー、103…ストレージ、104…通信IF、105…ディスプレイ、106…入力装置、107…マイクロフォン、108…スピーカー、109…カメラ、201…CPU、202…メモリー、203…ストレージ、204…通信IF DESCRIPTION OF SYMBOLS 1 ... Sound data editing system, 3 ... Sound data editing system, 4 ... Sound data editing system, 10 ... User terminal, 11 ... Memory | storage part, 12 ... Reproduction | regeneration part, 13 ... Recording part, 14 ... Communication part, 15 ... UI part , 16 ... alignment unit, 20 ... server, 21 ... communication unit, 22 ... reverse alignment unit, 23 ... storage unit, 24 ... synchronization unit, 101 ... CPU, 102 ... memory, 103 ... storage, 104 ... communication IF, 105 ... Display, 106 ... Input device, 107 ... Microphone, 108 ... Speaker, 109 ... Camera, 201 ... CPU, 202 ... Memory, 203 ... Storage, 204 ... Communication IF
Claims (5)
を有する音データ編集方法。 First sound data based on a first demonstration performed during playback of a reference sound and second sound data based on a second demonstration different from the first demonstration performed during playback of the reference sound, A sound data editing method comprising the step of synchronizing using the reference sound.
前記第1チャンネルのデータは、前記参照音を表し、
前記第2チャンネルのデータは、実演の音を表す
ことを特徴とする請求項1に記載の音データ編集方法。 The first sound data and the second sound data include data of a first channel and a second channel, respectively.
The data of the first channel represents the reference sound,
The sound data editing method according to claim 1, wherein the second channel data represents a performance sound.
前記入力音信号に基づいて、前記第1音データ及び前記第2音データの少なくとも一方のテンポを調整するステップと
を有する請求項1又は2に記載の音データ編集方法。 Obtaining an input sound signal representing the input sound;
The sound data editing method according to claim 1, further comprising: adjusting a tempo of at least one of the first sound data and the second sound data based on the input sound signal.
前記第2音データのテンポを前記参照音に合わせて調整するステップと
を有し、
前記同期するステップにおいて、テンポが調整された前記第1音データ及び前記第2音データが同期される
ことを特徴とする請求項1ないし3のいずれか一項に記載の音データ編集方法。 Adjusting the tempo of the first sound data according to the reference sound;
Adjusting the tempo of the second sound data according to the reference sound,
The sound data editing method according to any one of claims 1 to 3, wherein, in the synchronizing step, the first sound data and the second sound data whose tempo has been adjusted are synchronized.
前記第2音データは前記第1動画データと異なる第2動画データに含まれる音データであり、
前記同期するステップにおいて、前記第1動画データ及び前記第2動画データが同期される
ことを特徴とする請求項1ないし4のいずれか一項に記載の音データ編集方法。 The first sound data is sound data included in the first moving image data,
The second sound data is sound data included in second moving image data different from the first moving image data,
The sound data editing method according to any one of claims 1 to 4, wherein, in the synchronizing step, the first moving image data and the second moving image data are synchronized.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017052947A JP2018155936A (en) | 2017-03-17 | 2017-03-17 | Sound data edition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017052947A JP2018155936A (en) | 2017-03-17 | 2017-03-17 | Sound data edition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018155936A true JP2018155936A (en) | 2018-10-04 |
Family
ID=63716580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017052947A Pending JP2018155936A (en) | 2017-03-17 | 2017-03-17 | Sound data edition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018155936A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021028649A (en) * | 2019-08-09 | 2021-02-25 | 株式会社Nttドコモ | Information processor and program |
WO2022079853A1 (en) * | 2020-10-15 | 2022-04-21 | 株式会社SessionTree | Music data processing method |
JP7534205B2 (en) | 2019-12-27 | 2024-08-14 | 株式会社ドワンゴ | Content generation device, content distribution server, content generation method, and content generation program |
-
2017
- 2017-03-17 JP JP2017052947A patent/JP2018155936A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021028649A (en) * | 2019-08-09 | 2021-02-25 | 株式会社Nttドコモ | Information processor and program |
JP7323374B2 (en) | 2019-08-09 | 2023-08-08 | 株式会社Nttドコモ | Information processing device and program |
JP7534205B2 (en) | 2019-12-27 | 2024-08-14 | 株式会社ドワンゴ | Content generation device, content distribution server, content generation method, and content generation program |
US12120403B2 (en) | 2019-12-27 | 2024-10-15 | Dwango Co., Ltd. | Content generation device, content distribution server, content generation method, and content generation program |
WO2022079853A1 (en) * | 2020-10-15 | 2022-04-21 | 株式会社SessionTree | Music data processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7825321B2 (en) | Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals | |
US20180174559A1 (en) | Network musical instrument | |
JP5007563B2 (en) | Music editing apparatus and method, and program | |
JP6467887B2 (en) | Information providing apparatus and information providing method | |
US9601029B2 (en) | Method of presenting a piece of music to a user of an electronic device | |
WO2006079813A1 (en) | Methods and apparatus for use in sound modification | |
US11087727B2 (en) | Auto-generated accompaniment from singing a melody | |
US8887051B2 (en) | Positioning a virtual sound capturing device in a three dimensional interface | |
GB2422755A (en) | Audio signal processing | |
JP2018155936A (en) | Sound data edition method | |
JP2008286946A (en) | Data reproduction device, data reproduction method, and program | |
JP2004233698A (en) | Device, server and method to support music, and program | |
Chew et al. | Segmental tempo analysis of performances in user-centered experiments in the distributed immersive performance project | |
CN114466241B (en) | Display device and audio processing method | |
JP2016102982A (en) | Karaoke system, program, karaoke voice reproduction method, and voice input processing device | |
JP2017092832A (en) | Reproduction method and reproducer | |
JP5338312B2 (en) | Automatic performance synchronization device, automatic performance keyboard instrument and program | |
Lin et al. | VocalistMirror: A Singer Support Interface for Avoiding Undesirable Facial Expressions | |
JP7509403B2 (en) | Synchronization device, synchronization method, program, and recording medium | |
JP7026412B1 (en) | Music production equipment, terminal equipment, music production methods, programs, and recording media | |
JP2013114088A (en) | Sound reproducing device | |
Furduj | Acoustic instrument simulation in film music contexts | |
JP2009253342A (en) | Information processing device and method | |
Woszczyk et al. | Creating mixtures: The application of auditory scene analysis (ASA) to audio recording | |
Lopes | INSTRUMENT POSITION IN IMMERSIVE AUDIO: A STUDY ON GOOD PRACTICES AND COMPARISON WITH STEREO APPROACHES |