JP2008191536A

JP2008191536A - 歌声の録音及び伴奏曲との合成装置

Info

Publication number: JP2008191536A
Application number: JP2007027760A
Authority: JP
Inventors: Ketsu Ri; 杰李
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-02-07
Filing date: 2007-02-07
Publication date: 2008-08-21

Abstract

【課題】従来、カラオケの歌唱を録音したいという需要に応えるために、カラオケの店舗システムにおいて伴奏曲に合わせた歌声をCD-R等の媒体に録音するサービスが行われてきた。また、カラオケ店舗システムにて録音した歌声を伴奏曲と事後的に結合して需要者コンピュータに提供できる技術も存在する。しかし、第一に歌唱を録音できる場所がカラオケ店舗システムの存在する場所に限定されていた点、第二に歌声と伴奏曲を合成する際に、歌い出し点を伴奏曲と一致させるために、合成可能な伴奏曲の種類が限られる点が課題として生じる。
【解決手段】以上のような課題を解決するため、本発明は、家庭に通常使われている携帯電話をはじめとする、電子機器で歌声の取得が可能な伴奏曲サーバ装置を提供する。そして合成する伴奏曲の種類を選ばない、歌い出し検出及び合成機能を有する伴奏曲サーバ装置を提供する。
【選択図】図２

Description

本発明は、録音された歌声と伴奏曲をずれがなく合成する音声処理技術に関する。

カラオケの普及により、自己の歌声を録音したいという需要が存在すると考えられる。カラオケ店においては録音した歌声をCD-R（Compact Disk Recordable）等の媒体に記録するというサービスが行われてきた。
一方、近年のインターネットをはじめとする情報通信手段の発達により、自己の写真、映像や音声をWWWサーバ等にアップロードし、複数の者で視聴して楽しむということが一般的となった。
同様に、カラオケで記録した自己の歌声についても、サーバにアップロードして複数の者で楽しみたいという需要が存在すると考えられる。

特許文献１には、以下のような技術が開示されている。該技術では、カラオケ店に設置されたカラオケ店舗システムにより、伴奏曲に合わせて歌唱する人の歌声を録音する。録音した歌声は情報通信手段により、別地に設置されたサーバに転送される。転送された歌声は記憶手段に格納され、サーバ上にて編集処理を施すことができる。録音された歌声が入った作品ファイルは、Webサーバにアップされ、需要者コンピュータよりインターネットを介してアクセスできる。

ここで、録音された歌声は、カラオケ店舗システムにおいて録音された時点では伴奏曲と合成はされておらず、歌声のみが録音されたファイルがサーバに転送される。その後、編集処理において伴奏曲と合成され、作品ファイルが生成される。
合成処理は、まず録音の際に、歌声ファイルへ伴奏曲ファイルより基本リズム信号等の同期情報を取得しておき、次に合成の際に、両者に記録されている該当情報を時間軸上で一致させることにより当該合成処理を行っている。
特許３６３１６９７号公報

しかし、従来技術では、歌声を録音するために上記カラオケ店舗システムが必要とされており、需要者は当該システムが設置されているカラオケ店まで出向く必要があった。このため、歌声を録音できる場所が、上記システムが設置されている店舗に限定され、需要者の好きな時間に好きな場所で歌声を録音したいという要望に対し応えるものではなかった。
したがって従来技術においては、場所・時間を選ばず、カラオケの伴奏曲にあわせ、歌声を録音できる装置の実現が第一の課題として生じる。

また、従来技術では、歌声ファイルをサーバに転送した後、オフラインで別ファイルに録音した歌声と伴奏曲とを結合し、作品ファイルを生成する処理を行っている。具体的には、歌声が伴奏曲からずれて聞こえないように、両者の時間軸を同期する処理である。この処理では、伴奏曲中の歌い出しタイミングと録音された歌声の歌い出しタイミングとを同期させる必要がある。この点について、従来技術は、録音時に歌声の録音の開始タイミングと伴奏曲再生の開始タイミングを合わせることにより同期させている。

しかし上記方法では録音の際に何らかの要因で両者の開始タイミングにずれが生じた場合には、出来上がった作品で歌い出しのタイミングにずれが生じる。第一に、通信の遅延が無視できないほど生じる通信回線で歌声を録音した場合において、需要者が電子機器で聞いている伴奏曲が需要者への下り通信に遅延が生じることにより歌い出しタイミングがずれたり、伴奏曲サーバ装置への上り通信の遅延により需要者の歌声が本来のタイミングより遅れてサーバ装置に到達することで、サーバ装置で録音する際に、伴奏曲に対し歌声がずれて録音されたりという問題が生ずる。この問題は、高圧縮の符号化通信方式を取った場合や、電子機器と伴奏曲データとが地理的、あるいは通信経路的に大きく離れている場合には通信における遅延が大きくなるためさらに顕著となる。第二に、録音した際に再生した伴奏曲とはイントロ部分の長さが異なる伴奏曲に歌声を合成しようとした場合には、伴奏曲におけるイントロ部分の時間と、歌声を録音したファイルの録音開始から歌い出しまでの時間とが異なるため、歌い出しのタイミングの一致が不可能となる問題が生じる。第三に、歌声を録音したファイルのイントロ部分は無音である状態が望ましいが、従来技術による上記方法では、イントロ部分に雑音が入ったとしても、当該部分は歌い出しのタイミングを合わせるために必要である。したがって、雑音部分を編集により切除してしまうと、歌い出しのタイミングの一致が不可能となる問題が生じる。これらのように、伴奏曲のイントロ部分の長さが変わったり、伴奏曲と録音ファイルの開始タイミングにずれが生じたりした場合においても、歌い出しのタイミングがずれることなく伴奏曲と歌声を合成して作品ファイルを生成することができるような装置の実現が第二の課題として生じる。

以上の課題を解決するために、本発明は以下のような音声処理装置を提供する。第一に、歌声を録音する端末に、PCや携帯電話をはじめとする電子機器を使用することが可能であり、需要者が家庭で通常使用している環境で通信手段を介し歌声の録音が可能であるサーバ装置を提供する。さらに、サーバ上で録音された音声ファイルの歌い出し部分を検出し、伴奏曲と合成する音声処理装置を備えたサーバ装置を提供する。

具体的には、電子機器との通信回線を利用して電子機器から送信される歌声を伴奏曲に合成して記録する伴奏曲サーバ装置を提供する。当該装置は、伴奏曲データを蓄積する伴奏曲データ蓄積部と、蓄積されている伴奏曲データを再生する再生部と、電子機器への上り通信を利用して再生部にて再生される伴奏曲を送信する送信部Ａと、電子機器からの下り通信を利用して歌声データを含む音声データを受信する歌声受信部Ａと、受信した音声データの変化を検出して歌い出しを検出する歌出タイミング検出部Ａと、検出された歌い出しのタイミングから再生部にて再生されている伴奏曲データと、受信している音声データとを重畳して合成する合成部Ａとを有する。

第二は、上記第一のサーバ装置を基本として、端末に電話装置が使用可能なサーバ装置を提供する。サーバは電話回線を通じて伴奏曲を演奏し、需要者は受話器等のスピーカから伴奏曲を聴きながら同時に受話器等のマイクロフォンを使用して歌唱し、電話回線を介してサーバ側に到達した音声を記録するサーバ装置を提供する。
具体的には、電話装置との通信回線を利用して電話装置から送信される歌声を伴奏曲に合成して記録する伴奏曲サーバ装置を提供する。当該装置は、伴奏曲データを蓄積する伴奏曲データ蓄積部と、蓄積されている伴奏曲データを再生する再生部と、電話装置への上り回線を利用して再生部にて再生される伴奏曲を送信する送信部Ｂと、電話装置からの下り回線を利用して歌声データを含む音声データを受信する歌声受信部Ｂと、受信した音声データの変化を検出して歌い出しを検出する歌出タイミング検出部Ａと、検出された歌い出しのタイミングから再生部にて再生されている伴奏曲データと、受信している音声データとを重畳して合成する合成部Ａと、を有する。

第三は、端末装置にてサーバ装置より伴奏曲データを取得し、歌声の録音、伴奏曲との合成を行いサーバ装置にアップロードする伴奏曲合成システムを提供する。
具体的には、端末装置と、端末装置に対して伴奏曲を送信し、伴奏曲と歌声を合成した合成データを受信する伴奏曲サーバ装置と、からなる伴奏曲合成システムを提供する。当該システムは、伴奏曲サーバ装置においては、伴奏曲データファイルを蓄積する伴奏曲データ蓄積部と、蓄積されている伴奏曲データファイルを端末装置に送信する送信部Ｃと、端末装置から前記伴奏曲を伴奏として歌われた歌声データと伴奏曲とを合成した合成データを受信する合成データ受信部と、受信した合成データを記録する記録部とを有し、端末装置においては、伴奏曲データファイルを受信する伴奏曲データファイル受信部と、受信した伴奏曲データファイルを処理して伴奏曲を再生する伴奏曲再生出力部と、前記再生にあわせて歌われた歌声を歌声データとして取得する歌声取得部と、前記取得される歌声データに基づいて歌出タイミングを検出する歌出タイミング検出部Ｂと、検出された歌出タイミングから伴奏曲再生部にて再生されている伴奏曲と、歌声取得部にて取得されている歌声データとを重畳して合成し合成データとして取得する合成部Bと、合成データを伴奏曲サーバ装置に送信する合成データ送信部と、を有する。

以上のような構成をとる第一の本発明によって、ＰＣ等の家庭用電子機器を使用してカラオケの伴奏曲を、通信網を介してサーバ装置より取得し再生することができる。同時に、再生される伴奏曲を視聴しながら歌声をサーバ装置にて録音することができる。これにより、需要者は自宅に設置した機器を使用し、自宅にいながらにしてカラオケを楽しむことができる。さらに、自己の歌唱を録音して伴奏曲と合成し、作品として蓄積することができる。また、録音された歌唱は録音後に伴奏曲とサーバ装置にて合成するため、録音時とは異なる伴奏曲と合成も可能であり、録音した後も楽しむことができる。合成する際においては、音声データの変化を検出して歌い出しを検出するため、同じ楽曲であるが、イントロ部の長さが異なるアレンジの伴奏曲に合成することも可能となる。

第二の本発明によって、伴奏曲の再生と歌声の録音に電話装置を使用することで、需要者は特別な機器を準備することなく、固定電話の送受話器あるいは携帯電話端末のみを使用して歌声の録音が可能となる。これにより、例えばインターネットに接続する通信回線が準備できない屋外でも歌声の録音が可能となる。このため需要者は、場所を選ばず、気軽に歌声の録音を行うことができ、伴奏曲と合成した作品を作成し楽しむことができる。

第三の本発明では、伴奏曲をサーバ装置より端末にダウンロードし、端末側にて伴奏曲を再生し、同時に端末側にて歌声の録音が可能となる。これにより、伴奏曲をストリーム再生する必要がないため、通信回線の帯域に束縛されることなく、高音質の伴奏曲を再生することができ、また同時に高品質の録音をすることができる。そして、端末において伴奏曲と歌声の合成を行うため、サーバ装置の負荷を考慮することなく手軽に合成処理を楽しむことができる。

さらに、合成した作品のデータをサーバ装置にアップロードし蓄積し公開することで、自己または他人の作品を視聴することが可能となる。作品について評価やコメント等の情報を付加できるようにすれば、需要者間でのコミュニケーションが促進され、同好のコミュニティの形成が促進される等の効果が期待できる。

以下に、図を用いて本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。なお、実施例１は、主に請求項１などについて説明する。また、実施例２は、主に請求項２などについて説明する。また、実施例３は主に請求項３などについて説明する。

≪実施例１≫
<概要>
図１は、本装置の利用場面の概念図であり、本実施例の合成処理装置による合成処理の一例を説明するための図である。この図にあるように伴奏曲サーバ装置（０１０１）は通信回線（０１０２）でPC（Personal Computer）等をはじめとする電子機器（０１０３）と接続されている。需要者は、PC等の電子機器（０１０３）に内蔵のスピーカで伴奏曲サーバ装置（０１０１）より配信された伴奏曲を再生し、同時にマイクロフォン（０１０４）で歌唱を行うことができる。歌声は通信回線（０１０２）を介して伴奏曲サーバ装置（０１０１）に送られ、サーバ上で録音と伴奏曲との合成処理が行われる。本実施例の装置を利用することで、家庭で通常使用されているPC（Personal Computer）等の機器で店頭におけるカラオケ装置と同様に、歌声を録音することができ、さらに伴奏曲と合成することができる。

<機能的構成>
図２は、本実施例の伴奏曲サーバ装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「伴奏曲サーバ装置」（０２００）は、「伴奏曲データ蓄積部」（０２０１）と、「再生部」（０２０２）と、「送信部Ａ」（０２０３）と、「歌声受信部Ａ」（０２０４）と、「歌出タイミング検出部Ａ」（０２０５）と、「合成部Ａ」（０２０６）とを有する。

なお、以下に記載する映像処理装置の機能ブロックは、ハードウエア、ソフトウエア、又はハードウエア及びソフトウエアの両方として実現され得る。具体的には、コンピュータを利用するものであれば、CPUや主メモリ、バス、あるいは二次記録媒体（ハードディスクや不揮発性メモリ、CD−ROMやDVD−ROMなどの記憶メディアとそれらメディアの読取ドライブなど）、印刷機器や表示装置、その他の外部周辺装置などのハードウエア構成部やその外部周辺機器用のI／Oポート、それらハードウエアを制御するためのドライバプログラムやその他アプリケーションプログラム、情報入力に利用されるユーザーインターフェースなどが挙げられる。

またこれらハードウエアやソフトウエアは、主メモリ上に展開したプログラムをCPUで演算処理したり、メモリやハードディスク上に保持されているデータや、インターフェースを介して入力されたデータなどを加工、蓄積、出力処理したり、あるいは各ハードウエア構成部の制御を行ったりするために利用される。また、この発明は装置として実現できるのみでなく、方法としても実現可能である。また、このような発明の一部をソフトウエアとして構成することができる。さらに、そのようなソフトウエアをコンピュータに実行させるために用いるソフトウエア製品、及び同製品を記録媒体に固定した記録媒体も、当然にこの発明の技術的な範囲に含まれる（本明細書の全体を通じて同様である）。

「伴奏曲データ蓄積部」（０２０１）は、カラオケの伴奏曲を蓄積する機能を有する。「伴奏曲」とは、カラオケの際に演奏される歌唱が録音されていない楽曲のことである。「伴奏曲データ」は、当該装置が伴奏曲を再生部（０２０２）にて演奏をするために必要とされるデータである。伴奏曲データは、ファイルとして蓄積される。伴奏曲データファイルは、伴奏曲の音声のみが収録されている音声ファイルでもよいし、映像ファイルの形式であり、映像を伴うものでもよい。また、歌詞のテキストが曲の歌詞の進行に合わせて色が変わり、歌唱を支援する機能などを実現するための付加的情報を伴うものでもよい。
ファイル形式は、例えばMIDI(Musical Instrument Digital Interface)形式のように、再生部（０２０２）に音源装置を有し、これを使用し演奏して伴奏曲音声を出力する形式のものでもよいし、例えばWAV(RIFF waveform Audio Format)形式やMP3(MPEG-1 Audio Layer-3)形式のように、ファイル自体が楽曲の波形情報を持ち、再生部（０２０２）に有するデコーダ等を使用して伴奏曲音声を出力するファイル形式でもよい。伴奏曲データは、楽曲の音声情報の他に、楽曲固有の識別情報、楽曲の題名、歌唱者の氏名、歌詞のテキストデータあるいは当該データを特定する識別情報などを有する。これにより、需要者は、題名や歌唱者の氏名、歌詞の一部などで録音したい伴奏曲を検索し、選択することができる。さらに、伴奏曲ファイルはMPEG2(Moving Picture Experts Group phase 2)等の動画を伴う形式でもよい。

「再生部」（０２０２）は、カラオケの伴奏曲データを音声として再生する機能を有する。具体的には、需要者が電子機器より発した再生要求に応じて、「伴奏曲データ蓄積部」（０２０１）にて蓄積されている伴奏曲データの音声情報を読み込み、音声として出力する機能である。「再生部」（０２０２）は、伴奏曲データの形式に適合する機能を有している。例えば、伴奏曲データがMIDI形式であればMIDI音源を有していてもよいし、MP3形式であれば当形式の圧縮ファイルを伸張するコーデックを有してもよい。音声化した伴奏曲は送信部Ａ（０２０３）に送られ、需要者の電子機器へ送信される。

また、「再生部」（０２０２）は、音声ファイルを配信に適した形式に変換し、これを送信部Ａ（０２０３）により配信するという形態でもよい。また、「再生部」（０２０２）により、音声ファイルをストリーム形式に変換し、音声ファイルを送信部Ａ（０２０３）により需要者の電子機器に対して直接送信し、需要者の電子機器において再生するという形態でもよい。送信の形態は演奏後に需要者の電子機器（０２１０）に伴奏曲データが残るダウンロード形式でもよいし、当該データが残らないストリーム形式でもよい。

「送信部Ａ」（０２０３）は、伴奏曲の音声を需要者の電子機器（０２１０）に送信する機能を有する。具体的には、「再生部」（０２０２）にて音声信号化あるいは配信に適した形式に変換した伴奏曲の音声信号を、通信回線を通して需要者の電子機器（０２１０）に送信する。送信に使用する通信回線は光ファイバやＡＤＳＬ等のデータ通信回線でもよいし、固定電話回線や携帯電話回線、ＩＰ電話回線等の音声信号を送受信するための回線でもよい。

「歌声受信部Ａ」（０２０４）は、需要者の電子機器から送信された歌声をサーバ装置で受信する機能を有する。具体的には、電子機器（０２１０）で取得され、通信回線を介して送信された歌声の音声を受信し、さらに受信した信号を蓄積し、歌声データファイルとして「歌出タイミング検出部Ａ」（０２０５）が取得可能とする機能を有する。ここでも上記と同様に、送信に使用する通信回線は光ファイバやＡＤＳＬ等のデータ通信回線でもよいし、固定電話回線や携帯電話回線、ＩＰ電話回線等の音声信号を送受信する回線でもよい。

「歌出タイミング検出部Ａ」（０２０５）は、歌声データファイルの内容を解析し、歌声の歌い出し部分を検出する機能を有する。具体的には、歌声データファイルに記録された音声信号を表す値の大きさを一定時間の範囲で解析し、前記音声信号を表す値の大きさが一定の閾値を越えた時点を歌い出しと判断し、歌い出し点を記録する。ここで記録の方法であるが、歌い出し点の時刻を取得することによる方法でもよいし、音声データファイルのトラック上に直接歌い出し点を付す方法でもよい。歌い出し点の検出方法については後で詳細に述べる。

「合成部Ａ」（０２０６）は、歌声データファイルと伴奏曲ファイルを合成する機能を有する。具体的には、検出された歌出タイミングから伴奏曲再生部にて再生されている伴奏曲と、歌声取得部にて取得されている歌声データとを重畳して合成し合成データとして取得する機能を有する。合成にあたっては、歌声音声データより伴奏曲ファイルと重畳すべきデータを切り出すことにより行う。さらに、伴奏曲データにあらかじめ記されている歌い出し点と、歌声データファイル上に「歌出タイミング検出部Ａ」（０２０５）により検出された歌い出し点とを時間軸上で一致させることにより合成を行ってもよい。これにより、通信の遅延が発生する等の問題が生じることにより、伴奏曲の歌い出しタイミングに対し、サーバ装置にて到達する歌声の歌い出しタイミングが遅れ、合成データにおいて、歌声と伴奏曲がずれるという問題を解消することができる。

なお、需要者側の電子機器（０２１０）は一台のみでもよく、複数の電子機器がサーバ装置と通信回線で接続され、同時に伴奏を送信する形態でもよい。これにより、例えばデュエット曲等の同時に複数の者が歌唱する楽曲についても、別地点の需要者同士で同時に録音を行い、それぞれの歌声を伴奏曲に重畳合成した合成データを作成することができる。また、同時に録音を行う場合に、例えばデュエットの一方の歌唱音声を他方に聞こえるように送信するという機能を「伴奏曲サーバ装置」（０２００）が有していてもよい。上記は実施例2における電話装置についても同様である。

<処理の流れ>
図３は、本実施例におけるサーバ装置の処理の流れである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。まず、需要者によって再生する伴奏曲ファイルが選択される（ステップＳ０３００）。需要者の録音準備が整うとサーバ装置に対して再生要求を送信する。すると、選択された伴奏曲ファイルが再生され（ステップＳ０３０１）る。次に、伴奏曲は需要者の電子機器に対して通信回線を介して送信される（ステップＳ０３０２）。電子機器側ではこれを受信し（ステップＳ０３０３）、音声としてスピーカ等より出力する（ステップＳ０３０４）。同時に歌唱する需要者の歌声をマイクロフォン等より入力する（ステップＳ０３０５）。同時に需要者の電子機器により音声信号に変換された歌声が送信され（ステップＳ０３０６）、サーバ装置において受信（ステップＳ０３０７）する。同データは解析され歌声の歌い出し点の検出が行われる（ステップＳ０３０８）。歌い出し点が検出されると、受信された歌声データが伴奏曲データに重畳合成され、合成データが取得される（ステップＳ０３０９）。なお、この合成処理の間にエコーなどの音響効果を付与する処理が入ってもよい。また、図４に示すように、合成処理（ステップＳ０４０９）は、歌い出し点の検出（ステップＳ０４０８）の後、歌声データを受信（ステップＳ０４０７）しながら同時におこなってもよい。

図５は「歌出タイミング検出部Ａ」（０２０２）における歌声データの詳細な処理プロセスである。
この図にあるように、まず、楽曲固有の歌い出しタイミングtを取得する（ステップＳ０５０１）。ｔは楽曲の歌い出し時刻に近い値である。このtは演奏曲データファイルに記録されていてもよいし、他のファイルに記録されており、当楽曲データファイルと関連付けられていてもよい。次に、歌声データにおける歌い出しタイミング検出処理の空間を決定する（ステップＳ０５０２）。この空間はあらかじめ調整した値として与えられるaとbにより決定される。図６はサーバ装置に歌声の入力があったときの歌声の強さ(ｄB)の時間推移を示したものであるが、この図６において、横軸で示す時刻t-aよりt+bの時間を歌い出しタイミング検出処理の空間として決定する。a,bを用いることで、歌い出し検出およびノイズサンプリングの処理範囲が限定されるため処理負荷が軽減され、歌出タイミングの検出処理が高速に実行できる。次にノイズサンプル抽出空間を設定する。ノイズサンプル抽出空間は前出のaにより決まり、時刻t-aとtの間に決められる（ステップＳ０５０３）。図７は図６においてノイズサンプル抽出空間を決定した状態を示す。はじめに、歌声データ全体に対して白色ノイズ成分以外のノイズを除去する（ステップＳ０５０４）。次に、白色ノイズの除去を行う。ステップＳ０５０３において決定された空間においてノイズサンプルが抽出され（ステップＳ０５０５）、決定されたノイズサンプル抽出空間において歌声データにおける白色ノイズ成分が特定される。この白色ノイズ成分を使用して歌声データ全体のノイズ除去処理が行われる（ステップＳ０５０６）。これにより、背景雑音に対する歌声の信号対雑音比が向上し、後に行われる歌い出しタイミングの検出処理（ステップＳ０５０８）の精度が向上する効果がある。このノイズサンプル抽出空間において歌声は入ってはならないが、その前の時刻においては、需要者のメッセージやＤＪ（Disk Jockey）の曲紹介等が入っていてもよい。次に、区間［t-a,t］における、ノイズ除去後にかかる音声の強さの最大値Max(I)dBを取得する（ステップＳ０５０７）。なおステップＳ０５０４は、ステップＳ０５０６の後に処理を行ってもかまわないし、ステップＳＯ５０６と同時に処理を行ってもかまわない。次のステップ（ステップＳ０５０８）において、歌い出しタイミングの検出を行う。区間［t-a,t+b］において音声の強さがMax(I)＋e dBより大きくなる最初の時刻をTとし、このTを歌い出しのタイミングとする。なお、eは事前に適切な値に設定されている調整値である。図８は図７における歌声よりノイズ成分を抽出した後の歌声の強さを示す図である。この図に示すように、Tの時刻を決定する。その後、取得されたTは合成部において取得され（ステップＳ０５０８）、先に述べた合成処理（ステップＳ０３０９）が行われる。

<ハードウエア的構成>
図９は、上記機能的な各構成要件をハードウエアとして実現した際の、合成装置における構成の一例を表す概略図である。この図を利用して合成処理におけるそれぞれのハードウエア構成部の働きについて説明する。この図にあるように、伴奏曲サーバ装置は、各種演算処理を行う「ＣＰＵ（中央演算装置）」（０９０１）と、「主メモリ」（０９０２）と、「二次記憶装置」（０９０３）と、ＬＡＮカード等の通信するための機器である「通信Ｉ／Ｆ」（０９０５）とを有している。そしてそれらが「システムバス」（０９０４）などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。また、「主メモリ」は、各種処理を行うプログラムをＣＰＵに実行させるために読み出すと同時にそのプログラムの作業領域でもあるワーク領域を提供する。さらに、通信回線がアナログ回線の場合、「通信Ｉ／Ｆ」（０９０５）には、ディジタル信号からアナログ信号に変換するためのＤ／Ａ,Ａ／Ｄコンバータ等の機器も含まれる。

まず、需要者によって収録する伴奏曲が選択され、「主メモリ」上に伴奏曲データが読み込まれる。伴奏曲データは、「二次記憶装置」にあらかじめ蓄積されている。読み込まれた伴奏曲データは「通信Ｉ／Ｆ」を通して例えばストリーム形式で需要者端末に送信される。需要者端末において当該データは音声に変換され、伴奏曲音声として再生される。これと同時に需要者は伴奏曲に合わせて歌唱を行い、端末は歌声をマイクロフォン等の機器や、オーディオカード等を用いて歌声データとして取得する。端末で取得された歌声データは通信回線を介してサーバ装置の「通信Ｉ／Ｆ」に送られ、「主メモリ」および「二次記憶装置」に蓄積される。蓄積された歌声データは、「主メモリ」上で伴奏曲データと合成が行われるまず、伴奏曲固有のｔが「主メモリ」上に呼び出される。tは伴奏曲データと共に、あるいは別に、「二次記憶装置」に蓄積されている。次にあらかじめ決められた調整値であるa,bを「二次記憶装置」から「主メモリ」上に呼び出す。はじめに「ＣＰＵ」において白色ノイズ以外のノイズ除去処理を行う。次に、歌声データの[t-a,t]の区間における部分をノイズサンプルとして取得し、「ＣＰＵ」の演算処理によりノイズ処理により除去する白色ノイズ成分を決定し、白色ノイズの除去処理を「主メモリ」上の歌声データ全体について施す。その後、ノイズ除去後の[t-a,t]の区間における音声の強さの最大値Max(I)を取得し、「主メモリ」に格納する。次に、あらかじめ二次記憶上に蓄積しておいた調整値であるeを「主メモリ」上に呼び出し、「ＣＰＵ」において歌声データ内の音声の強さを時刻順に走査してゆき、音声の強さがMax(I)+e dBに達する時刻Tを「主メモリ上」に取得する。この時刻Tを用いて、「ＣＰＵ」において伴奏曲データにおけるtに対応する時刻と、音声データにおける時刻Tの点とを一致させ、両データファイルを合成し、合成ファイルとして「主メモリ」及び、「二次記憶装置」に蓄積する。

<効果の簡単な説明>
以上のような本実施例の伴奏曲サーバ装置によって、ＰＣ等の電子機器を使用してカラオケの伴奏曲を、通信網を介してサーバ装置より取得し再生することができる。同時に、再生される伴奏曲を視聴しながら歌声をサーバ装置にて録音することができる。これにより、自己の歌唱を録音して伴奏曲と合成し、作品として蓄積することができる。また、録音された歌唱は録音後に伴奏曲とサーバ装置にて合成を行う。このため、録音時とは異なる伴奏曲と合成も可能であり、録音した後も楽しむことができる。合成する際においては、音声データの変化を検出して歌い出しを検出するため、同じ楽曲であるが、イントロ部の長さが異なるアレンジの伴奏曲に合成することも可能となる。

≪実施例２≫
<概要>
図１０は、本装置の利用場面の概念図であり、本実施例の合成処理装置による合成処理の一例を説明するための図である。この図にあるように、本実施例においては、端末装置が図のような携帯電話をはじめとする電話装置（１００３）であり、これを用いて伴奏曲の再生と歌声の取得及び歌声のサーバ装置（１００１）へ送信を行う。本実施例のサーバ装置（１００１）を利用することで、電話装置で店頭におけるカラオケ装置と同様に、歌声を録音することができ、さらに伴奏曲と合成することができる。さらに、携帯電話を用いると、屋外等場所を選ぶことなく伴奏曲を再生し、歌声を録音し、歌声と伴奏曲を合成して自己の作品を作ることができる。

<機能的構成>
図１１は、本実施例の映像処理装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「伴奏曲サーバ装置」（１１００）は、実施例１の構成を基本として「伴奏曲データ蓄積部」（１１０１）と、「再生部」（１１０２）と、「歌出タイミング検出部Ａ」（１１０５）と、「合成部Ａ」（１１０６）とを有する。そして本実施例の特徴点は、実施例１における「送信部Ａ」（０２０３）と、「歌声受信部Ａ」（０２０４）とに代えて、それぞれ「送信部Ｂ」（１１０３）と、「歌声受信部Ｂ」（１１０４）とを有する点である。

「送信部Ｂ」（１１０３）は、伴奏曲の音声を需要者の電話装置（１１１０）に送信する機能を有する。具体的には、「再生部」（１１０２）にて音声信号に変換した伴奏曲の音声信号を、電話回線を通して需要者の電話装置（１１１０）に送信する。送信に使用する電話回線は固定電話回線や携帯電話回線、ＩＰ電話回線等音声通話のための回線であればどのような回線でもよい。

「歌声受信部Ｂ」（１１０４）は、需要者の電話装置から送信された歌声をサーバ装置で取得する機能を有する。具体的には、電話装置（１１１０）で取得され、サーバ装置に対する上り電話回線を介して送信された歌声の音声を受信する。さらに受信したアナログ音声信号をディジタル信号に変換した後、適切な符号化方式にてエンコードして蓄積する。当該蓄積データは、歌声データファイルとして「歌出タイミング検出部Ａ」（１１０５）が取得可能とする。ここでも上記と同様に、受信に使用する電話回線は固定電話回線や携帯電話回線、ＩＰ電話回線等でもよい。

<処理の流れ>
図１２は、本実施例におけるサーバ装置の処理の流れである。なお、以下に示すステップは、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。まず、需要者によって再生する伴奏曲ファイルが選択される（ステップＳ１２００）。需要者の録音準備が整うとサーバ装置に対して再生要求を送信する。ここでの、選択処理（ステップＳ１２００）と再生要求は電話装置を通して行うことが可能であってもよい。例えば、伴奏曲ファイルの選択は、押しボタン式電話のトーン信号を通して伴奏曲を特定する番号を送信することで行ってもよい。さらに、需要者が曲名を発話すると、音声認識によって発話された曲名を検索できることが可能であってもよいし、需要者が伴奏曲をハミングし、これを認識することで検索を行うことが可能であってもよい。すると、選択された伴奏曲ファイルが再生され（ステップＳ１２０１）音声信号に変換される。次に、伴奏曲は需要者の電話装置に対して電話回線を介して送信される（ステップＳ１２０２）。この際、音声信号は電話回線による音声通話のために、ディジタルの音声信号からアナログ音声にＤ／Ａ変換が施される（サブステップＳＳ１２１１）。電話装置側ではこれを受信し（ステップＳ１２０３）、音声としてスピーカ等より出力する（ステップＳ１２０４）。同時に歌唱する需要者の歌声をマイクロフォン等より入力する（ステップＳ１２０５）。同時に需要者の電話装置により音声信号に変換された歌声が送信され（ステップＳ１２０６）、サーバ装置において受信（ステップＳ１２０７）する。この際、需要者の歌声は電話回線を通じてアナログ音声として送信されるためこれを伴奏曲サーバ装置が取得可能なように、ディジタルデータへＡ／Ｄ変換が施された後、取得される（サブステップＳＳ１２１２）。同データは解析され歌い出し点の検出が行われる（ステップＳ１２０８）。その後、検出された歌い出し点と、伴奏曲にあらかじめ記録されている歌い出し点を一致させることにより、歌声データファイルと伴奏曲データファイルが合成され、合成データが取得される（ステップＳ１２０９）。また、図１３に示すように、合成処理（ステップＳ１３０９）は、歌い出し点の検出処理（ステップＳ１３０８）の後、歌声データを受信（ステップＳ１３０７）しながら同時におこなってもよい。

なお、歌出タイミング検出処理（ステップＳ１２０８, ステップＳ１３０８）における歌声データの歌い出し検出処理の詳細については、実施例１において図５で示して説明した処理（ステップＳ０５０１〜ステップＳ０５０７）と同様である。

<ハードウエア的構成>
図１４は、上記機能的な各構成要件をハードウエアとして実現した際の、合成装置における構成の一例を表す概略図である。この図を利用して合成処理におけるそれぞれのハードウエア構成部の働きについて説明する。この図にあるように、伴奏曲サーバ装置は、各種演算処理を行う「ＣＰＵ（中央演算装置）」（１４０１）と、「主メモリ」（１４０２）と、「二次記憶装置」（１４０３）と、モデムや固定電話端末等の「電話端末」（１４０７）と、サウンドカード等の「Ｄ／Ａ,Ａ／Ｄコンバータ」（１４０６）とを有している。そしてそれらが「システムバス」（１４０４）などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。また、「主メモリ」は、各種処理を行うプログラムを「ＣＰＵ」に実行させるために読み出すと同時にそのプログラムの作業領域でもあるワーク領域を提供する。

本構成と前出のハードウエア構成との相違は、伴奏曲及び歌声の音声を電話回線にて直接送受信するため、サーバ装置における「通信Ｉ／Ｆ」（０９０５）が「電話端末」（１４０７）となっており、また、送受信する音声信号を取得するために、サウンドカード等の「Ｄ／Ａ,Ａ／Ｄコンバータ」（１４０６）を新たに有する点である。

ここで、需要者によって収録する伴奏曲が選択され、「主メモリ」上に伴奏曲データが読み込まれる。伴奏曲データは、「二次記憶装置」にあらかじめ蓄積されている。読み込まれた伴奏曲データは「ＣＰＵ」において、その伴奏曲データの符号化方式に適したコーデック等のソフトウエアを使用して再生される。再生された伴奏曲データは「Ｄ／Ａ,Ａ／Ｄコンバータ」に送られ、アナログ音声信号に変換される。この音声信号が「電話端末」に送られ、電話回線を通して需要者側の「電話端末」に送られる。需要者は電話端末の送受話器にてサーバからの下り回線で伴奏曲を聴きながら、同時に歌唱を行い、サーバへの上り回線にて歌唱音声を送信する。ここで、伴奏曲及び歌声は、携帯電話のスピーカや、さらには外部に接続された音響機器をとおして、歌唱者以外の者に聞こえるようになっていても構わない。サーバ装置側では「電話端末」にて歌唱音声を受信し、これを「Ｄ／Ａ,Ａ／Ｄコンバータ」に送り、サーバ装置が取得可能なように、アナログ音声信号からディジタル信号に変換処理を行う。変換されたディジタル信号は「ＣＰＵ」にて定められた符号化方式でエンコードされ、ファイルとして「主メモリ」及び「二次記憶装置」に蓄積される。蓄積された歌声データは、「主メモリ」上で歌出検出処理が行われ、さらに、伴奏曲データと合成が行われる。以降の合成処理については、実施例１のハードウエア構成における説明（段落００３１）と同様である。

<効果の簡単な説明>
以上のような本実施例の伴奏曲サーバ装置によって、伴奏曲の再生と歌声の録音に電話装置を使用し、需要者は特別な機器を準備することなく、固定電話の送受話器あるいは携帯電話端末のみを使用して容易に歌声の録音が可能となる。これにより、例えばインターネットに接続する通信回線が準備できない屋外でも歌声の録音が可能となる。このため需要者は、場所を選ばず、気軽に歌声の録音を行うことができ、伴奏曲と合成した作品を作成し楽しむことができる。

≪実施例３≫
<概要>
図１５は、本システムの利用場面の概念図であり、本実施例の合成処理システムによる合成処理の一例を説明するための図である。需要者は端末装置（１５０３）に例えば専用ソフトウエアをダウンロードして、サーバ装置（１５０１）から伴奏曲をダウンロードする。そして、端末装置で伴奏曲を再生し、これに合わせて歌唱し、録音を行うことができる。録音された音声は、端末装置側で合成処理が行うことができる。完成した作品はサーバ装置（１５０１）に蓄積され、通信回線を介して第三者に公開することもできる。

<機能的構成>
図１６は、本実施例の伴奏曲サーバ装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「伴奏曲合成システム」（１６００）は、「伴奏曲サーバ装置」（１６１０）と「端末装置」（１６２０）からなる。「伴奏曲サーバ装置」（１６１０）は、「伴奏曲データ蓄積部」（１６１１）と、「送信部Ｃ」（１６１２）と、「合成データ受信部」（１６１３）と、「記録部」（１６１４）とを有する。「端末装置」（１６２０）は、「伴奏曲データファイル受信部」（１６２１）と、「伴奏曲再生出力部」（１６２２）と、「歌声取得部」（１６２３）と、「歌出タイミング検出部Ｂ」（１６２４）と、「合成部Ｂ」（１６２５）と、「合成データ送信部」（１６２６）とを有する。

「伴奏曲データ蓄積部」（１６１１）は、「伴奏曲サーバ装置」において、カラオケの伴奏曲を蓄積する機能を有する。具体的機能及び伴奏曲データの内容・形式については、実施例１における「伴奏曲データ蓄積部」（０２０１）の説明と同様である。

「送信部Ｃ」（１６１２）は、「伴奏曲サーバ装置」において、伴奏曲データファイルを「端末装置」に送信する機能を有する。具体的には、「伴奏曲データ蓄積部」にて蓄積されている伴奏曲データファイルを読み出し、通信回線を通して需要者側に属する「端末装置」内の伴奏曲データファイル受信部に対し送信する。送信はダウンロード形式で行われる。送信に使用する通信回線は光ファイバやＡＤＳＬ等のデータ通信回線でもよい。ここで、伴奏曲データファイルは、伴奏曲の音声のみが収録されている音声ファイルでもよいし、映像ファイルの形式であり、映像を伴うものでもよい。また、歌詞のテキストが曲の歌詞の進行に合わせて色が変わり、歌唱を支援する機能などを実現するための付加的情報を伴うものでもよい。

「合成データ受信部」（１６１３）は、「伴奏曲サーバ装置」において、合成データを受信し取得する機能を有する。具体的には「合成データ送信部」（１６２６）から通信回線を介して転送されて来る合成データを受信し、「記録部」（１６１４）に送る機能を有する。

「記録部」（１６１４）は、合成データを記録する機能を有する。具体的には、「合成データ受信部」（１６１３）で取得された合成データをファイルとして蓄積する機能を有する。なお、記録部において、合成データを携帯電話の着信音の形式として保存する機能を有していてもよいし、この際において、合成データより着信音化する部分の抽出を行う機能や、当該部分の編集を行う機能を有していてもよい。これに加え、記録した合成データは通信回線を通して公開する機能をさらに有していてもよい。

「伴奏曲データファイル受信部」（１６２１）は、「端末装置」（１６２０）において、「伴奏曲サーバ装置」（１６１０）より送信された伴奏曲データファイルを受信する機能を有する。具体的には、「伴奏曲サーバ装置」（１６１０）の「送信部Ｃ」（１６１２）より転送された伴奏曲データファイルを受信し、取得する機能を有する。取得されたファイルは「伴奏曲再生出力部」（１６２２）と「合成部Ｂ」（１６２５）に対して伴奏曲データとして送られる。

「伴奏曲再生出力部」（１６２２）は、「端末装置」（１６２０）において、伴奏曲を再生する機能を有する。具体的には、「伴奏曲データファイル受信部」（１６２１）にて取得された伴奏曲データを音声として再生することで需要者に伴奏曲を提供する機能を有する。音声の再生の形態は歌唱者以外の者が聞こえるようにスピーカを使用してもよいし、あるいはヘッドフォンで再生する形態でもよい。

「歌声取得部」（１６２３）は、「端末装置」（１６２０）において、歌声を歌声データとして取得する機能を有する。具体的には、マイクロフォン等の機器を使用して、需要者の歌唱した歌声をアナログ音声信号として取得し、これをディジタルデータへ変換を施す。これをさらに適切な符号化方式により符号化を行い、歌声データファイルとして取得する。

「歌出タイミング検出部Ｂ」（１６２４）は、「端末装置」（１６２０）において、歌声データに基づいて歌い出しタイミングを検出する機能を有する。なお、本機能構成部における機能の詳細については、実施例１の「歌出タイミング検出部Ａ」（０２０５）における説明と同様である。

「合成部Ｂ」（１６２５）は、「端末装置」（１６２０）において、伴奏曲データを「伴奏曲データファイル受信部」（１６２１）より取得し、これと歌声データとを重畳して合成し、合成データとして取得する機能を有する。なお、本機能構成部における機能の詳細については、実施例１の「合成部Ａ」（０２０６）における説明と同様である。

「合成データ送信部」（１６２６）は、「端末装置」（１６２０）において、合成データを伴奏曲サーバ装置に送信する機能を有する。具体的には、「合成部Ｂ」（１６２５）において取得された合成データを「端末装置」（１６２０）から「伴奏曲サーバ装置」（１６１０）に属する「合成データ受信部」（０２０３）に向けデータを転送する機能を有する。送信はファイル転送により行われる。

上記各構成要件については、媒体に記録されたプログラムによりその機能が実現されるものであっても構わない。また、「伴奏曲データファイル受信部」（１６２１）、「伴奏曲再生出力部」（１６２２）、「歌声取得部」（１６２３）、「歌出タイミング検出部Ｂ」（１６２４）、「合成部Ｂ」（１６２５）、「合成データ送信部」（１６２６）は端末装置によりその機能が提供されるが、当該機能の一部はダウンロードにより提供されるソフトウエアプログラムであっても構わないし、また、ＡＳＰ（Application Service Provider）形式の一時的な機能の提供形態であっても構わない。

さらに、伴奏曲データは上記機能（１６２１〜１６２６）を実現するソフトウエアプログラムを同梱したパッケージとして単一のファイルで提供される形態をとってもよい。当該ソフトウエアプログラムは、端末装置（１６２０）にて再生、歌い出しタイミングの検出、合成および伴奏曲サーバ装置へ合成ファイルの転送を行った後、端末装置よりパッケージすべてもしくはプログラムデータのみをを自動消去する機能を有していてもよい。そして、「伴奏曲サーバ装置」（１６１０）の「記録部」（１６１４）は、受信したパッケージから合成データの抽出を行う機能を有していてもよい。

<処理の流れ>
図１７は、本実施例における伴奏曲合成システムの処理の流れである。
まず、需要者によって録音する伴奏曲の選択が行われる（ステップＳ１７００）。選択が終了すると、伴奏曲データファイルを伴奏曲サーバ装置から端末装置へ送信し転送する（ステップＳ１７０１）。端末装置ではこれを受信し（ステップ１７０２）、転送が終了すると、端末側において、需要者の再生要求に応じて伴奏曲データを再生する（ステップＳ１７０３）。再生された伴奏曲データはスピーカ等より音声で出力され（ステップＳ１７０４）、同時に歌声をマイクロフォン等より歌声データとして取得する（ステップＳ１７０５）。その後、歌声は歌声データファイルとして記録される（ステップＳ１７０６）。伴奏曲が終了すると、取得された歌声データに対し、歌い出しタイミングの検出処理（ステップＳ１７０７）が行われる。その後、検出された歌い出し点と、伴奏曲データの歌い出し点を一致させることにより、伴奏曲データと歌声データを重畳合成する処理を行い、合成データを取得する（ステップＳ１７０８）。取得した合成データは端末装置から伴奏曲サーバ装置へ転送（ステップＳ１７０９,ステップＳ１７１０）され記録される（ステップＳ１７１１）。歌い出しタイミングの検出処理（ステップＳ１７０７）と伴奏曲データと歌声データを重畳合成する処理（ステップＳ１７０８）については、実施例1において説明した処理（ステップＳ０５０１〜ステップＳ０５０７）と同様である。なお、伴奏曲データファイルを伴奏曲サーバ装置から端末装置へ転送する（ステップＳ１７０１）前に、伴奏曲データファイル内の楽曲を検索したりする処理があってもよいし、伴奏曲データファイルの対価を支払ったり、システム全体の使用料等の課金決済処理があってもよい。また、図１８に示すように、合成処理（ステップＳ１８０８）は、歌い出し点の検出処理（ステップＳ１８０７）の後、歌声データファイルを記録（ステップＳ１８０６）しながら同時におこなってもよい。

図１９は、上記処理（ステップＳ１７００〜ステップＳ１７０１１）の流れをさらにサーバ伴奏曲サーバ装置と端末装置の処理に分けて示したものである。伴奏曲データファイルを転送する処理(ステップＳ１９０１)、伴奏曲を再生する処理（ステップＳ１９０２）、歌声を取得する処理（ステップＳ１９０３）、歌い出し点の検出処理（ステップＳ１９０４）、歌声と伴奏曲を合成する処理（ステップＳ１９０５）、合成データを伴奏曲サーバ装置へ転送する処理（ステップＳ１９０６）、さらに合成データを記録する処理（ステップＳ１９０７）を示している。また、図２０は、図１８の処理（ステップＳ１８００〜ステップＳ１８０７）をサーバ伴奏曲サーバ装置と端末装置の処理に分けて示したものである。すでに図１８において説明したように、合成処理（ステップＳ２００５）は、歌い出し点の検出処理（ステップＳ２００４）の後、歌声データを取得（ステップＳ２００３）しながら同時におこなってもよい。

<ハードウエア的構成>
図２１は、上記機能的な各構成要件をハードウエアとして実現した際の、伴奏曲合成システムにおける構成の一例を表す概略図である。この図を利用して伴奏曲合成処理におけるそれぞれのハードウエア構成部の働きについて説明する。この図にあるように、伴奏曲合成システムは、「端末装置」（２１１０）と「伴奏曲サーバ装置」（２１２０）とからなり、それぞれに各種演算処理を行う「ＣＰＵ（中央演算装置）」（２１１１,２１２１）と、各種処理を行うプログラムをＣＰＵに実行させるために読み出すと同時にそのプログラムの作業領域でもあるワーク領域を提供する「主メモリ」（２１１２,２１２２）と、ハードディスクやＣＤ−ＲＯＭ等の光学ディスク等の「二次記憶装置」（２１１３,２１２３）と、通信網を介して相互にデータをやり取りするための「通信Ｉ／Ｆ」（２１１５,２１２５）とを有している。さらに、「端末装置」においては、ディジタルデータである伴奏曲データをアナログ信号に変換するＡ／Ｄ変換機能と、需要者の歌唱する歌声音声をディジタルデータへ変換するＤ／Ａ変換機能とを有する「Ｄ／Ａ,Ａ／Ｄコンバータ」（２１１６）を有する。また、マイクロフォン（２１１７）とスピーカ（２１１８）が「Ｄ／Ａ,Ａ／Ｄコンバータ」（２１１６）に接続されている。そしてこれらは「端末装置」（２１１０）と「伴奏曲サーバ装置」（２１２０）のそれぞれにおいて「システムバス」（２１１４,２１２４）などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。

まず、「伴奏曲サーバ装置」の「二次記憶装置」に格納されている、１．伴奏曲データと、この伴奏曲固有の歌い出し時刻を示す１．tを主メモリ上に呼び出す。次にこれらのデータは「通信Ｉ／Ｆ」より通信網を経由し「端末装置」側の「通信Ｉ／Ｆ」に到達し、「端末装置」の「主メモリ」に格納される。
「主メモリ」に格納された１．伴奏曲データは当データの符号化方式に対応したソフトウエアを使用して、「ＣＰＵ」上で展開、再生される。さらにこれが「Ｄ／Ａ,Ａ／Ｄコンバータ」に送られアナログ信号として、「スピーカ」に出力され音声として再生される。同時に、伴奏曲の再生を聴きながら需要者は歌唱を行いその音声を「マイクロフォン」にて取得する。取得された音声データはアナログ信号のため、これを「Ｄ／Ａ,Ａ／Ｄコンバータ」にてディジタル信号に変換し、適切な符号化を「ＣＰＵ」上で施した後、主メモリ上に２．歌声データとして取得される。続いて、取得された２．歌声データは４．a,b、を使用し、「ＣＰＵ」上にて歌出タイミング検出処理がなされ、歌い出しタイミングを示す７．Ｔが取得される。この７．Ｔを用いて「主メモリ」上の合成処理において伴奏曲データと歌声データとが結合され、合成データが取得生成される。歌い出しタイミング検出処理と、合成処理のハードウエア動作の詳細な説明については、実施例１における説明と同様である。合成処理において生成され取得された合成データは、「通信Ｉ／Ｆ」と通信網を介して、伴奏曲サーバ装置の「通信Ｉ／Ｆ」に送られ、伴奏曲サーバ装置の「主メモリ」さらには「二次記憶装置」に蓄積される。

<効果の簡単な説明>
以上のように本実施例の伴奏曲合成システムによって、伴奏曲をサーバ装置より端末装置にダウンロードし、端末側にて伴奏曲を再生し、同時に端末側にて歌声の録音が可能となる。これにより、伴奏曲をストリーム再生する必要がないため、通信回線の帯域に束縛されることなく、高音質の伴奏曲を再生することができ、また同時に高品質の録音をすることができる。そして、端末において伴奏曲と歌声の合成を行うため、サーバ装置の負荷を考慮することなく手軽に合成処理を楽しむことができる。さらに、合成した作品のデータをサーバ装置にアップロードし蓄積し公開することで、自己または他人の作品を視聴することが可能となる。作品について評価やコメント等の情報を付加できるようにすれば、需要者間でのコミュニケーションが促進され、同好のコミュニティの形成が促進される等の効果が期待できる。

実施例１の伴奏曲サーバ装置の利用場面における一例を説明するための図実施例１の伴奏曲サーバ装置における機能ブロックの一例を表す図実施例１の伴奏曲サーバ装置における処理の流れの一例を表すフローチャート歌声の取得処理と伴奏曲と重畳合成する処理を同時に行った場合の実施例１の伴奏曲サーバ装置における処理の流れの一例を表すフローチャート実施例１の伴奏曲サーバ装置における歌出タイミング検出処理の流れの一例を表すフローチャート実施例１の伴奏曲サーバ装置における歌出タイミング検出処理において歌出タイミング検出処理空間を示す図実施例１の伴奏曲サーバ装置における歌出タイミング検出処理においてノイズサンプル抽出空間を示す図実施例１の伴奏曲サーバ装置における歌出タイミング検出処理において歌出タイミングＴを示す図実施例１の伴奏曲サーバ装置におけるハードウエア構成の一例を表す概略図実施例２の伴奏曲サーバ装置の利用場面における一例を説明するための図実施例２の伴奏曲サーバ装置における機能ブロックの一例を表す図実施例２の伴奏曲サーバ装置における処理の流れの一例を表すフローチャート歌声の取得処理と伴奏曲と重畳合成する処理とを同時に行った場合の実施例２の伴奏曲サーバ装置における処理の流れの一例を表すフローチャート実施例２の伴奏曲サーバ装置におけるハードウエア構成の一例を表す概略図実施例３の伴奏曲合成システムの利用場面における一例を説明するための図実施例３の伴奏曲合成システムにおける機能ブロックの一例を表す図実施例３の伴奏曲合成システムにおける処理の流れの一例を表すフローチャート歌声の取得処理と伴奏曲と重畳合成する処理とを同時に行った場合の実施例３の伴奏曲サーバ装置における処理の流れの一例を表すフローチャート実施例３の伴奏曲合成システムにおける処理の流れの一例を表すシーケンス図歌声の取得処理と伴奏曲と重畳合成する処理とを同時に行った場合の実施例３の伴奏曲合成システムにおける処理の流れの一例を表すシーケンス図実施例３の伴奏曲合成システムにおけるハードウエア構成の一例を表す概略図

符号の説明

０２００伴奏曲サーバ装置
０２０１伴奏曲データ蓄積部
０２０２再生部
０２０３送信部Ａ
０２０４歌声受信部Ａ
０２０５歌い出しタイミング検出部Ａ
０２０６合成部Ａ
０２１０電子機器

Claims

電子機器との通信回線を利用して電子機器から送信される歌声を伴奏曲に合成して記録する伴奏曲サーバ装置であって、
伴奏曲データを蓄積する伴奏曲データ蓄積部と、
蓄積されている伴奏曲データを再生する再生部と、
電子機器への上り通信を利用して再生部にて再生される伴奏曲を送信する送信部Ａと、
電子機器からの下り通信を利用して歌声データを含む音声データを受信する歌声受信部Ａと、
受信した音声データの変化を検出して歌い出しを検出する歌出タイミング検出部Ａと、
検出された歌い出しのタイミングから再生部にて再生されている伴奏曲データと、受信している音声データとを重畳して合成する合成部Aと、
を有する伴奏曲サーバ装置。
電話装置との通信回線を利用して電話装置から送信される歌声を伴奏曲に合成して記録する伴奏曲サーバ装置であって、
伴奏曲データを蓄積する伴奏曲データ蓄積部と、
蓄積されている伴奏曲データを再生する再生部と、
電話装置への上り回線を利用して再生部にて再生される伴奏曲を送信する送信部Ｂと、
電話装置からの下り回線を利用して歌声データを含む音声データを受信する歌声受信部Ｂと、
受信した音声データの変化を検出して歌い出しを検出する歌出タイミング検出部Ａと、
検出された歌い出しのタイミングから再生部にて再生されている伴奏曲データと、受信している音声データとを重畳して合成する合成部Ａと、
を有する伴奏曲サーバ装置。
端末装置と、端末装置に対して伴奏曲を送信し、伴奏曲と歌声を合成した合成データを受信する伴奏曲サーバ装置と、からなる伴奏曲合成システムであって、
伴奏曲サーバ装置は、
伴奏曲データファイルを蓄積する伴奏曲データ蓄積部と、
蓄積されている伴奏曲データファイルを端末装置に送信する送信部Ｃと、
端末装置から前記伴奏曲を伴奏として歌われた歌声データと伴奏曲とを合成した合成データを受信する合成データ受信部と、
受信した合成データを記録する記録部と、
を有し、
端末装置は、
伴奏曲データファイルを受信する伴奏曲データファイル受信部と、
受信した伴奏曲データファイルを処理して伴奏曲を再生する伴奏曲再生出力部と、
前記再生にあわせて歌われた歌声を歌声データとして取得する歌声取得部と、
前記取得される歌声データに基づいて歌出タイミングを検出する歌出タイミング検出部Ｂと、
検出された歌出タイミングから伴奏曲再生部にて再生されている伴奏曲と、歌声取得部にて取得されている歌声データとを重畳して合成し合成データとして取得する合成部Bと、
合成データを伴奏曲サーバ装置に送信する合成データ送信部と、を有する伴奏曲合成システム。