JP2013135310A

JP2013135310A - 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム

Info

Publication number: JP2013135310A
Application number: JP2011283817A
Authority: JP
Inventors: Kyosuke Matsumoto; 恭輔松本; Shusuke Takahashi; 秀介高橋; Kazutomo Kenmochi; 千智劔持; Akira Inoue; 晃井上
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2013-07-08
Also published as: CN103297805A; US20130162905A1

Abstract

【課題】あらかじめ時間同期のとられていない複数のコンテンツを、時間ズレなく合成する。
【解決手段】特徴量算出部は、音響を含むコンテンツに含まれる音響の音響特徴量を求め、同期関係情報生成部は、その音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する。合成部は、同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する。本技術は、例えば、同一楽曲を扱う、演奏・歌唱・踊り等を行った複数のコンテンツを合成する場合に効果的に適用できる。
【選択図】図１

Description

本技術は、情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システムに関し、複数のコンテンツを合成するときに、その複数のコンテンツの間の同期をとることができるようにする情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システムに関する。

近年、ユーザが、自分の歌や、踊り、楽器の演奏等の、画像（動画及び静止画を含む）及び音響（音声や楽器の音等を含む）を含むコンテンツ（以下、音楽パフォーマンスコンテンツともいう）を収録し、動画共有サイト等に公開することが行われている。

かかる動画共有サイトによれば、ユーザは、様々な楽曲を使用した音楽パフォーマンスコンテンツを楽しむことができる。

最近では、動画共有サイトの普及に伴い、動画共有サイトで公開されたコンテンツの中で、同一の楽曲を使用した複数の音楽パフォーマンスコンテンツを組み合わせて、その複数の音楽パフォーマンスコンテンツのそれぞれの演者があたかも共演しているかのようなコンテンツを作成する、いわゆるマッシュアップが行われている。

複数の音楽パフォーマンスコンテンツのマッシュアップには、その複数の音楽パフォーマンスコンテンツの間の（時間）同期をとる必要がある。

例えば、特許文献１には、あらかじめ同期のとれたコンテンツの入力を前提として、複数のコンテンツを合奏音源に合成する技術が記載されている。

特許文献１に記載の技術では、ユーザは、同期がとれている複数のコンテンツを用意する必要があるが、そのようなコンテンツを用意するのは、面倒である。

同期がとれている複数のコンテンツを用意する方法としては、例えば、複数のコンテンツの収録を、同期をとって行う方法がある。

複数のコンテンツの収録を、同期をとって行う方法の具体例としては、テレビジョン放送局での多視点収録や、ライブレコーディングでのマルチチャンネル録音等の、いわゆるプロユースで行われている方法がある。

しかしながら、エンドユーザが、自前で、民生の収録機器を使って、複数のコンテンツの収録を、同期をとって行うことは、収録機器の操作や性能上の制約から、極めて困難である。

また、同期がとれている複数のコンテンツを用意する方法としては、例えば、ユーザが、コンテンツに、手動で、他のコンテンツとの間で同期をとるための同期情報を付加する方法があり、現在、動画共有サイト等で行われているのはこの方法である。

しかしながら、同期情報を、手動で付加することは、多大な手間がかかり、さらに、厳密に同期をとることが難しいことがある。

また、同期情報を付加した複数のコンテンツを用意することができた場合であっても、コンテンツそのものに変更が加えられると、同期情報が役に立たなくなることがある。

具体的には、例えば、コンテンツについて、シーンカットやトリミング等の編集が行われると、編集前のコンテンツに付加されていた同期情報が役に立たなくなることがある。

なお、動画とその動画に付随する音響とを含むコンテンツを圧縮（符号化）して復号した場合に、動画に対して、音響がずれる音ずれが生じることがあるが、同期情報が付加されたコンテンツについても、同様の音ずれが生じること、すなわち、同期情報（が表すタイミング）に対して、音響がずれることがあり得る。

特開2004-233698号公報

様々な音源の音響を含む複数の音楽パフォーマンスコンテンツのマッシュアップ等のように、複数のコンテンツを合成しようとした場合、マッシュアップに利用する音楽パフォーマンスは時間同期がとれていないことが多い。

本技術は、このような状況に鑑みてなされたものであり、あらかじめ時間同期のとられていない複数のコンテンツを時間ズレ無く合成することができるようにするものである。

本技術の一側面の情報処理装置、プログラム、又は、記録媒体は、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部とを備える情報処理装置、そのような情報処理装置としてコンピュータを機能させるためのプログラム、又は、そのようなプログラムが記録されている記録媒体である。

本技術の一側面の情報処理方法は、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップとを含む情報処理方法である。

本技術の一側面の情報処理システムは、クライアントと、前記クライアントと通信するサーバとを備え、前記サーバは、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部とのうちの、少なくとも前記同期情報生成部を有し、前記クライアントは、前記特徴量算出部、前記同期情報生成部、及び、前記合成部のうちの残りを有する情報処理システムである。

本技術の一側面の情報処理システムの情報処理方法は、クライアントと、前記クライアントと通信するサーバとを備える情報処理システムの前記サーバが、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップとのうちの、少なくとも前記同期情報生成ステップを行い、前記クライアントが、前記特徴量算出ステップ、前記同期情報生成ステップ、及び、前記合成ステップのうちの残りを行う情報処理方法である。

本技術の一側面においては、音響を含むコンテンツに含まれる音響の音響特徴量が求められ、その音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報が生成される。そして、その同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツが生成される。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

本技術によれば、あらかじめ時間同期のとられていない複数のコンテンツの音響信号を、適切に時間同期させて合成することができる。

その結果、例えば、コンテンツの（時間）同期を、手動でとる必要がないので、ユーザは、同一の楽曲を扱った音楽パフォーマンスコンテンツのマッシュアップ等の同期再生を、手軽に楽しむことができる。また、例えば、シーンカットやトリミング等の編集や圧縮が行われたコンテンツであっても、そのコンテンツを含む複数のコンテンツを同期させて合成した合成コンテンツを生成することができる。さらに、例えば、同期情報を手動で付加する必要がないので、大量の、幅広いコンテンツを扱うことができ、オンラインの動画や音響の共有サービス等と連携して、多くのユーザに、合成コンテンツを提供するサービスを実施することが可能となる。

本技術を適用したコンテンツ処理システムの第１実施の形態の構成例を示すブロック図である。コンテンツ登録処理を説明するフローチャートである。合成コンテンツ提供処理を説明するフローチャートである。特徴量算出部１３の構成例を示すブロック図である。特徴量算出処理を説明するフローチャートである。同期関係情報生成部１５の構成例を示すブロック図である。同期関係情報生成処理を説明するフローチャートである。独立合成対象コンテンツ選択処理を説明するフローチャートである。連続合成対象コンテンツ選択処理を説明するフローチャートである。合成部２０の構成例を示すブロック図である。合成処理を説明するフローチャートである。音響合成部６４の第１の構成例を示すブロック図である。音響合成処理を説明するフローチャートである。画像合成部５４の構成例を示すブロック図である。画像合成処理を説明するフローチャートである。音響合成部６４の第２の構成例を示すブロック図である。音響合成処理を説明するフローチャートである。音響合成部６４の第３の構成例を示すブロック図である。音響合成処理を説明するフローチャートである。音量正規化係数算出部２０１の構成例を示すブロック図である。第１音響に含まれる共通信号成分の音量と、第２音響に含まれる共通信号成分の音量とを一致させる方法を説明する図である。音量正規化係数算出処理を説明するフローチャートである。最適音量比算出部の構成例を示すブロック図である。パート推定部２３１の第１の構成例を示すブロック図である。音量比算出部２３２の第１の構成例を示すブロック図である。パート推定部２３１の第２の構成例を示すブロック図である。パート推定処理を説明するフローチャートである。音量比算出部２３２の第２の構成例を示すブロック図である。音量比算出処理を説明するフローチャートである。本技術を適用したコンテンツ処理システムの第２実施の形態の構成例を示すブロック図である。クライアント１の処理を説明するフローチャートである。クライアント１の処理を説明するフローチャートである。サーバ２の処理を説明するフローチャートである。サーバ２の処理を説明するフローチャートである。本技術を適用したコンテンツ処理システムの第３実施の形態の構成例を示すブロック図である。クライアント１の処理を説明するフローチャートである。サーバ２の処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［本技術を適用したコンテンツ処理システムの第１実施の形態］

図１は、本技術を適用したコンテンツ処理システム（システムとは、複数の装置が論理的に集合した物をいい、各構成の装置が同一筐体中にあるか否かは、問わない）の第１実施の形態の構成例を示すブロック図である。

図１において、情報処理システムは、ユーザI/F(Interface)１１、コンテンツ記憶部１２、特徴量算出部１３、特徴量DB(Database)１４、同期関係情報生成部１５、同期可否判定部１６、同期情報DB１７、コンテンツDB１８、コンテンツ選択部１９、及び、合成部２０を有し、複数のコンテンツを合成した合成コンテンツを生成する。

ユーザI/F１１は、入力部１１Ａ、及び、出力部１１Ｂを有する。

入力部１１Ａは、例えば、キーボードや、マウス等のポインティングデバイス、タッチスクリーン、マイク等で構成され、ユーザからの操作や発話等の入力を受け付ける。ユーザI/F１１は、入力部１１Ａが受け付けた操作や発話に応じて、各種の処理を行う。すなわち、ユーザI/F１１は、例えば、入力部１１Ａが受け付けた操作等に応じて、コンテンツ記憶部１２やコンテンツ選択部１９等に各種の指令（要求）を送信することにより、コンテンツ記憶部１２やコンテンツ選択部１９等を制御する。

出力部１１Ｂは、例えば、LCD(Liquid Crystal Display)等のディスプレイやスピーカ等で構成され、画像を表示し、音響を出力する。すなわち、出力部１１Ｂは、例えば、合成部２０から供給される、複数のコンテンツを合成した合成コンテンツの再生、つまり、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行う。

コンテンツ記憶部１２は、少なくとも、音響を含むコンテンツを記憶する。また、コンテンツ記憶部１２は、ユーザによるユーザI/F１１の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、特徴量算出部１３に供給する。コンテンツ記憶部１２としては、例えば、ハードディスクや、ビデオレコーダ、ビデオカメラ等を採用することができる。

ここで、少なくとも、音響を含むコンテンツとしては、音響だけのコンテンツや、画像（動画）とその画像に付随する音響とからなるコンテンツ等がある。

特徴量算出部１３は、コンテンツ記憶部１２から供給される注目コンテンツに含まれる音響の特徴量である音響特徴量を算出し、同期関係情報生成部１５に供給する。

また、特徴量算出部１３は、コンテンツ記憶部１２から供給される注目コンテンツを、必要に応じて、コンテンツDB１８に供給して登録する（記憶させる）。

なお、注目コンテンツ（に含まれる音響）の音響特徴量としては、例えば、音響のスペクトル等を採用することができる。また、音響特徴量としては、例えば、音響の波形そのもの（音響信号そのもの）を採用することができる。

特徴量DB１４は、同期関係情報生成部１５から供給される音響特徴量を記憶する。

同期関係情報生成部１５は、特徴量算出部１３からの注目コンテンツの音響特徴量と、特徴量DB１４に記憶（登録）されている音響特徴量とに基づいて、注目コンテンツと、特徴量DB１４に音響特徴量が登録されているコンテンツ（以下、登録コンテンツともいう）との同期に関係する同期関係情報を生成し、同期可否判定部１６に供給する。

また、同期関係情報生成部１５は、特徴量算出部１３からの注目コンテンツの音響特徴量を、必要に応じて、特徴量DB１４に供給して登録する。

なお、同期関係情報生成部１５は、注目コンテンツについて、特徴量DB１４に音響特徴量が登録されているコンテンツ（登録コンテンツ）すべてとの同期関係情報を生成する。

また、注目コンテンツとある登録コンテンツとの同期関係情報は、注目コンテンツと登録コンテンツとの音響を同期させるための同期情報と、注目コンテンツと登録コンテンツとの音響を同期させることができる可能性（程度）を表す同期可否レベル（同期の妥当性の指標）とを含む。

同期可否判定部１６は、同期関係情報生成部１５からの、注目コンテンツと登録コンテンツとの同期関係情報に含まれる同期可否レベルに基づいて、登録コンテンツ（の音響）が、注目コンテンツ（の音響）と同一又は類似の音響信号成分となっている楽曲等を含み、その結果、注目コンテンツと登録コンテンツとの音響どうしの同期をとることができるかどうかを判定する。

同期可否判定部１６は、同期をとることができると判定した注目コンテンツと登録コンテンツとのセット（グループ）（を識別する情報）を、同期関係情報生成部１５からの、注目コンテンツと登録コンテンツとの同期関係情報に含まれる同期情報とともに、コンテンツ選択部１９に供給する。

同期情報DB１７は、コンテンツ選択部１９から供給される同期情報を、その同期情報によって同期がとられる注目コンテンツと登録コンテンツとのセット（を識別する情報）に対応付けて記憶する。

コンテンツDB１８は、特徴量算出部１３から供給される注目コンテンツを記憶する。

コンテンツ選択部１９は、ユーザの操作に応じて、コンテンツDB１８に記憶されたコンテンツ等から、合成コンテンツに合成する対象の合成対象コンテンツを選択し、その合成対象コンテンツの間の同期をとるための同期情報とともに、合成部２０に供給する。

すなわち、コンテンツ選択部１９は、例えば、コンテンツDB１８に記憶されたコンテンツの中で、注目コンテンツ等との間で、コンテンツに含まれる音響どうしの同期をとることができるコンテンツを、合成対象コンテンツの候補となる候補コンテンツとして選択する。

さらに、コンテンツ選択部１９は、候補コンテンツ（のタイトル等）の一覧画面等を、ユーザに合成対象コンテンツを選択させるためのインタフェースとして生成し、ユーザI/F１１（の出力部１１Ｂ）に供給して表示させる。

ユーザが、一覧画面を見て、候補コンテンツの中から、合成対象コンテンツを選択するように、ユーザI/F１１（の入力部１１Ａ）を操作すると、コンテンツ選択部１９は、ユーザによるユーザI/F１１の操作に応じて、候補コンテンツの中から、合成対象コンテンツを選択する。

さらに、コンテンツ選択部１９は、合成対象コンテンツ（のデータ）を、コンテンツDB１８から読み出すとともに、合成対象コンテンツの間の同期をとるための同期情報（以下、合成用の同期情報ともいう）を、同期情報DB１７から読み出し、合成対象コンテンツと合成用の同期情報とを、合成部２０に供給する。

また、コンテンツ選択部１９は、必要に応じて、同期可否判定部１６から供給される、注目コンテンツと登録コンテンツとを同期させるための同期情報を、注目コンテンツと登録コンテンツとのセット（を識別する情報）に対応付け、同期情報DB１７に供給して登録する。

合成部２０は、コンテンツ選択部１９からの合成用の同期情報を用いて、同じくコンテンツ選択部１９からの合成対象コンテンツを同期させて合成した合成コンテンツを生成し、ユーザI/F１１に供給する。

なお、合成対象コンテンツとなり得る登録コンテンツとしては、例えば、動画共有サイト等にアップロードされている音楽パフォーマンスコンテンツのような、任意の楽曲の音源、任意の楽曲のカラオケバージョン、又は、任意の楽曲の音源に類似した音源（例えば、主旋律が同じ音源や、伴奏パートが似ている音源等)に合わせたボーカル（歌唱）、楽器演奏、ダンスを収録したコンテンツ等が採用される。

例えば、ある登録コンテンツ#1と他の登録コンテンツ#2とが、所定の楽曲の音源、その所定の楽曲のカラオケバージョン、及び、その所定の楽曲の音源に類似した音源のうちのいずれかを用いたコンテンツである場合には、登録コンテンツ#1の音響と、登録コンテンツ#2の音響には、所定の楽曲の音源、所定の楽曲のカラオケバージョン、又は、所定の楽曲の音源に類似した音源が、同一又は類似の音響信号成分として含まれる。

いま、この、同一又は類似の音響信号成分を、共通信号成分ということとすると、図１のコンテンツ処理システムでは、注目コンテンツと登録コンテンツと（の音響）が、共通信号成分を含む場合に、同期をとることができると判定され、また、共通信号成分を利用して、同期をとることができる注目コンテンツと登録コンテンツとの同期情報が生成される。

ここで、共通信号成分としての音響信号は、ある時間幅の音響信号を観測することにより、時刻を特定することが可能で、異なる時刻の音響信号を弁別することができる信号であることが理想的ではあるが、特に、そのような信号に限定されるものではない。

図１の構成されるコンテンツ処理システムでは、コンテンツ（のデータ）を、コンテンツDB１８に登録するコンテンツ登録処理と、ユーザに、合成コンテンツを提供する合成コンテンツ提供処理とが行われる。

なお、以下では、コンテンツDB１８には、１つ以上のコンテンツ（登録コンテンツ）が、既に記憶されており、特徴量DB１４には、コンテンツDB１８に記憶された登録コンテンツすべての音響特徴量が、既に記憶されていることとする。

［コンテンツ登録処理］

図２は、図１のコンテンツ処理システムが行うコンテンツ登録処理を説明するフローチャートである。

コンテンツ登録処理では、ステップＳ１１において、ユーザが、ユーザI/F１１を操作するのを待って、コンテンツ記憶部１２が、ユーザによるユーザI/F１１の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、特徴量算出部１３に供給して、処理は、ステップＳ１２に進む。

ステップＳ１２では、特徴量算出部１３は、コンテンツ記憶部１２から供給される注目コンテンツを、コンテンツDB１８に供給して登録し、処理は、ステップＳ１３に進む。

ステップＳ１３では、特徴量算出部１３は、コンテンツ記憶部１２からの注目コンテンツに含まれる音響の音響特徴量を算出する特徴量算出処理を行う。

特徴量算出部１３は、特徴量算出処理によって得られる注目コンテンツの音響特徴量を、同期関係情報生成部１５に供給して、処理は、ステップＳ１３からステップＳ１４に進む。

ステップＳ１４では、同期関係情報生成部１５は、特徴量算出部１３からの注目コンテンツの音響特徴量を、特徴量DB１４に供給して登録して、処理は、ステップＳ１５に進む。

ステップＳ１５では、同期関係情報生成部１５は、コンテンツDB１８に記憶された登録コンテンツ（注目コンテンツを除く）から、まだ、注目コンテンツとの同期の可否を判定する対象の判定対象コンテンツとして選択されていないコンテンツの１つを、判定対象コンテンツに選択する。

さらに、同期関係情報生成部１５は、注目コンテンツと判定対象コンテンツとのセットを、注目する注目セットとして、処理は、ステップＳ１５からステップＳ１６に進む。

ステップＳ１６では、同期関係情報生成部１５は、注目セットについて、特徴量算出部１３からの、注目セットの注目コンテンツの音響特徴量と、特徴量DB１４に記憶されている、注目セットの判定対象コンテンツの音響特徴量とに基づいて、注目コンテンツと判定対象コンテンツとの同期に関係する同期関係情報を生成する同期関係情報生成処理を行う。

同期関係情報生成部１５は、同期関係情報によって得られる、注目セット（の注目コンテンツと判定対象コンテンツ）の同期関係情報を、同期可否判定部１６に供給して、処理は、ステップＳ１６からステップＳ１７に進む。

ステップＳ１７では、同期可否判定部１６は、同期関係情報生成部１５からの、注目セットの同期関係情報に含まれる同期可否レベルに基づいて、注目セットの判定対象コンテンツ（の音響）が、注目セットの注目コンテンツ（の音響）と同一又は類似の音響信号成分となっている楽曲等を含み、その結果、注目コンテンツと判定対象コンテンツとの音響どうしの同期をとることができるかどうかの同期の可否の判定を行う。

ステップＳ１７において、注目コンテンツと判定対象コンテンツと（の音響どうし）の同期をとることができると判定された場合、処理は、ステップＳ１８に進み、同期可否判定部１６は、同期をとることができると判定した注目コンテンツと登録コンテンツとの注目セット（を識別する情報）を、同期関係情報生成部１５からの、注目セットの同期関係情報に含まれる同期情報とともに、コンテンツ選択部１９に供給する。

さらに、ステップＳ１８では、コンテンツ選択部１９は、同期可否判定部１６からの注目セットの同期情報を、同じく同期可否判定部１６からの注目セット（を識別する情報）に対応付ける。そして、コンテンツ選択部１９は、注目セットと対応付けた、その注目セットの同期情報を、同期情報DB１７に供給して登録し、処理は、ステップＳ１８からステップＳ１９に進む。

一方、ステップＳ１７において、注目コンテンツと登録コンテンツとの同期をとることができないと判定された場合、処理は、ステップＳ１８をスキップして、ステップＳ１９に進む。

ステップＳ１９では、同期関係情報生成部１５は、コンテンツDB１８に記憶された登録コンテンツのすべて（注目コンテンツを除く）を、判定対象コンテンツに選択したかどうかを判定する。

ステップＳ１９において、コンテンツDB１８に記憶された登録コンテンツのすべて（注目コンテンツを除く）を、まだ、判定対象コンテンツに選択していないと判定された場合、すなわち、コンテンツDB１８に記憶された登録コンテンツ（注目コンテンツを除く）の中に、判定対象コンテンツに選択されていないコンテンツがある場合、処理は、ステップＳ１５に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１９において、コンテンツDB１８に記憶された登録コンテンツのすべて（注目コンテンツを除く）を、判定対象コンテンツに選択したと判定された場合、すなわち、注目コンテンツについて、コンテンツDB１８に記憶された登録コンテンツのすべて（注目コンテンツを除く）との間で、同期の可否の判定が行われ、さらに、注目コンテンツとの同期が可能な登録コンテンツについて、その登録コンテンツと注目コンテンツとを同期させるための同期情報が、同期情報DB１７に登録された場合、コンテンツ登録処理は、終了する。

［合成コンテンツ提供処理］

図３は、図１のコンテンツ処理システムが行う合成コンテンツ提供処理を説明するフローチャートである。

合成コンテンツ提供処理では、ステップＳ３１において、コンテンツ選択部１９が、ユーザによるユーザI/F１１の操作に応じて、コンテンツDB１８に記憶された登録コンテンツ等の中から、合成コンテンツの生成に用いる複数のコンテンツを、合成対象コンテンツとして選択する合成対象コンテンツ選択処理を行う。

そして、コンテンツ選択部１９は、合成対象コンテンツ選択処理により得られる合成対象コンテンツどうしを同期させるための同期情報（合成用の同期情報）を、同期情報DB１７から読み出し、合成対象コンテンツとともに、合成部２０に供給して、処理は、ステップＳ３１からステップＳ３２に進む。

ステップＳ３２では、合成部２０は、コンテンツ選択部１９からの合成用の同期情報を用いて、同じくコンテンツ選択部１９からの合成対象コンテンツを同期させて合成することにより、合成コンテンツを生成する合成処理を行う。

そして、合成部２０は、合成処理により得られる合成コンテンツを、ユーザI/F１１に供給して、処理は、ステップＳ３３に進む。

ステップＳ３３では、ユーザI/F１１が、合成部２０からの合成コンテンツを再生し、すなわち、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行い、合成コンテンツ提供処理は、終了する。

［特徴量算出部１３の構成例］

図４は、図１の特徴量算出部１３の構成例を示すブロック図である。

図４において、特徴算出部１３は、音響復号部３１、チャンネル統合部３２、及び、スペクトログラム算出部３３を有する。

音響復号部３１には、注目コンテンツ（のデータ）が供給される。音響復号部３１は、注目コンテンツに含まれる音響が符号化データに符号化されている場合に、その符号化データを音響に復号し、チャンネル統合部３２に供給する。

なお、注目コンテンツに含まれる音響が符号化されていない場合、音響復号部３１は、注目コンテンツに含まれる音響を、そのまま、チャンネル統合部３２に供給する。

チャンネル統合部３２は、音響復号部３１からの音響が、複数チャンネルの音響である場合に、その複数チャンネルの音響を加算することにより、１チャンネルの音響に統合し、スペクトログラム算出部３３に供給する。

なお、音響復号部３１からの音響が、１チャンネルの音響である場合、チャンネル統合部３２は、音響復号部３１からの音響を、そのまま、スペクトログラム算出部３３に供給する。

スペクトログラム算出部３３は、チャンネル統合部３２からの音響のスペクトログラムを算出し、注目コンテンツに含まれる音響の音響特徴量として出力する。

図５は、図４の特徴量算出部１３が図２のステップＳ１３で行う特徴量算出処理を説明するフローチャートである。

特徴量算出部１３では、ステップＳ４１において、音響復号部３１が、コンテンツ記憶部１２（図１）からの注目コンテンツを受信（取得）して、処理は、ステップＳ４２に進む。

ステップＳ４２では、音響復号部３１が、注目コンテンツに含まれる音響を復号し、チャンネル統合部３２に供給して、処理は、ステップＳ４３に進む。

ステップＳ４３では、チャンネル統合部３２は、音響復号部３１からの注目コンテンツの音響が、複数チャンネルの音響であるかどうかを判定する。

ステップＳ４３において、注目コンテンツの音響が、複数チャンネルの音響であると判定された場合、チャンネル統合部３２は、音響復号部３１からの注目コンテンツの音響、すなわち、注目コンテンツに含まれる複数チャンネルの音響を加算することで、１チャンネルの音響に統合し、スペクトログラム算出部３３に供給して、処理は、ステップＳ４５に進む。

一方、ステップＳ４３において、注目コンテンツの音響が、複数チャンネルの音響でないと判定された場合、すなわち、注目コンテンツの音響が、１チャンネルの音響である場合、チャンネル統合部３２は、音響復号部３１からの注目コンテンツの音響を、そのまま、スペクトログラム算出部３３に供給し、処理は、ステップＳ４４をスキップして、ステップＳ４５に進む。

ステップＳ４５では、スペクトログラム算出部３３は、チャンネル統合部３２からの音響のスペクトログラムを算出し、注目コンテンツの音響特徴量として出力して、特徴量算出処理は、終了する。

［同期関係情報生成部１５の構成例］

図６は、図１の同期関係情報生成部１５の構成例を示すブロック図である。

図６において、同期関係情報生成部１５は、相関係数算出部４１、最大値検出部４２、及び、ラグ検出部４３を有する。

相関係数算出部４１には、注目セットの注目コンテンツの音響特徴量が、特徴量算出部１３（図１）から供給されるとともに、注目セットの判定対象コンテンツの音響特徴量が、特徴量DB１４（図１）から供給される。

相関係数算出部４１は、注目コンテンツの音響特徴量と、判定対象コンテンツの音響特徴量との相互相関係数を算出し、最大値検出部４２、及び、ラグ検出部４３に供給する。

最大値検出部４２は、相関係数算出部４１から供給される注目セットの相互相関係数、すなわち、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値を検出し、注目セットとしての注目コンテンツと判定対象コンテンツとの音響を同期させることができる可能性（程度）を表す同期可否レベル（同期の妥当性の指標）として出力する。

ラグ検出部４３は、最大値検出部４２と同様に、相関係数算出部４１から供給される注目セットの相互相関係数の最大値を検出し、その最大値のラグ、すなわち、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値が得られるときの、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との間の時間ずれ（ラグ）を、注目コンテンツと判定対象コンテンツとの音響を同期させるための同期情報として出力する。

最大値検出部４２が出力する同期可否レベルと、ラグ検出部４３が出力する同期情報とのセットが、注目セットの同期関係情報として、同期関係情報生成部１５から同期可否判定部１６（図１）に供給される。

例えば、注目コンテンツ、及び、判定対象コンテンツの両方に、テンポが同一の所定の楽曲の一部、又は、全部が含まれており、注目コンテンツ、及び、判定対象コンテンツのうちの一方のコンテンツに含まれている楽曲の範囲が、他方のコンテンツに含まれている楽曲の範囲と一致するか、他方のコンテンツに含まれている楽曲の範囲に含まれる場合には、相互相関係数等のような、注目コンテンツの音響特徴量と、判定対象コンテンツの音響特徴量との相関を求めることで、注目コンテンツと判定対象コンテンツとの音響どうしを同期させることができる同期情報を生成することができる。

また、ラグ検出部４３において同期情報として検出される、注目セットの相互相関係数の最大値のラグは、注目コンテンツ、及び、判定対象コンテンツのうちの一方のコンテンツである、例えば、注目コンテンツの音響が、他方のコンテンツである、例えば、判定対象コンテンツの音響よりも、所定数秒だけ進んでいる、又は、遅れている、ということを表す。

かかる同期情報によれば、注目コンテンツ、及び、判定対象コンテンツのうちの、所定数秒だけ進んでいる方の音響を含むコンテンツの再生を、その所定数秒だけ早く開始することにより、注目コンテンツ、及び、判定対象コンテンツの音響の同期をとることができる。

なお、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値のラグ（以下、最大値ラグともいう）を、同期情報として採用する場合、注目コンテンツと判定対象コンテンツとなる２つのコンテンツのセットのうちの一部のセットについては、相互相関係数の算出を省略することができることがある。

すなわち、例えば、コンテンツ#1，#2、及び、#3について、コンテンツ#1及び#2（の音響）の同期情報#1-2として、「コンテンツ#2はコンテンツ#1より1秒だけ進んでいる」という情報が、既に生成されているとともに、コンテンツ#2及び#3の同期情報#2-3として、「コンテンツ#3はコンテンツ#2より2秒だけ進んでいる」という情報が生成されている場合には、コンテンツ#1及び#3の同期情報#1-3としては、コンテンツ#1及び#3（の音響特徴量）の相互相関係数を算出する代わりに、同期情報#1-2及び#2-3を用いて、「コンテンツ#3はコンテンツ#1より3秒だけ進んでいる」という情報を得ることができる。

図７は、図６の同期関係情報生成部１５が図２のステップＳ１６で行う同期関係情報生成処理を説明するフローチャートである。

同期関係情報生成部１５では、ステップＳ５１において、相関係数算出部４１が、特徴量算出部１３（図１）から、注目コンテンツの音響特徴量を受信するとともに、特徴量DB１４（図１）から、注目コンテンツとともに注目セットを構成する判定対象コンテンツの音響特徴量を受信し、処理は、ステップＳ５２に進む。

ステップＳ５２では、相関係数算出部４１が、注目コンテンツの音響特徴量と、判定対象コンテンツの音響特徴量との相互相関係数を算出し、最大値検出部４２、及び、ラグ検出部４３に供給して、処理は、ステップＳ５３に進む。

ステップＳ５３では、最大値検出部４２が、相関係数算出部４１からの相互相関係数の最大値を検出し、注目セットとしての注目コンテンツと判定対象コンテンツとの音響を同期させることができる可能性を表す同期可否レベルとして出力して、処理は、ステップＳ５４に進む。

ステップＳ５４では、ラグ検出部４３が、相関係数算出部４１からの相互相関係数の最大値を検出し、その最大値のラグ（最大値ラグ）を検出する。そして、ラグ検出部４３は、最大値ラグを、注目コンテンツと判定対象コンテンツと（の音響）を同期させるための時間ずれを表す同期情報として出力し、同期関係情報生成処理は、終了する。

ここで、図１のコンテンツ処理システムにおいて、同期可否判定部１６は、ステップＳ５３で最大値検出部４２が出力する（注目セットの）同期可否レベルに基づいて、注目セットとしての注目コンテンツ、及び、判定対象コンテンツ（の音響）が、例えば、同一の楽曲等の同一又は類似の音響信号成分（共通信号成分）を含み、その結果、注目コンテンツと判定対象コンテンツとの（音響どうしの）同期をとることができるかどうかを判定する。

本実施の形態では、同期可否レベルとして、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値が採用されている。

本実施の形態では、同期可否レベルとしての相互相関係数の最大値が、例えば、0.6等の所定の閾値以上である場合に、注目コンテンツ、及び、判定対象コンテンツ（の音響）が、同一の楽曲等の同一又は類似の音響信号成分（共通信号成分）を含んでおり、注目コンテンツと判定対象コンテンツとの同期をとることができるという、同期の可否の判定が行われることとする。

なお、ある２つのコンテンツどうしの同期の可否の判定は、同期可否レベルの代わりに、他の２つのコンテンツどうしの同期の可否の判定結果に基づいて行うことができることがある。

すなわち、例えば、コンテンツ#1，#2、及び、#3に関し、コンテンツ#1及び#2について、「同期可能」という同期の可否の判定結果が、既に得られているとともに、コンテンツ#2及び#3について、「同期可能」という同期の可否の判定結果が得られている場合には、コンテンツ#1及び#3については、コンテンツ#1及び#3（の音響特徴量）の相互相関係数の最大値（同期可否レベル）の代わりに、コンテンツ#1及び#2についての同期の可否の判定結果、並びに、コンテンツ#2及び#3についての同期の可否の判定結果を用いて、「同期可能」という同期の可否の判定結果を得ることができる。

以上のように、ある２つのコンテンツどうしの同期の可否の判定は、同期可否レベルの代わりに、他の２つのコンテンツどうしの同期の可否の判定結果に基づいて行うことができることがあり、この場合、同期可否レベル、すなわち、相互相関係数の最大値の検出を省略することができる。

［合成対象コンテンツ選択処理］

図８及び図９は、図１のコンテンツ選択部１９が図３のステップＳ３１で行う合成対象コンテンツ選択処理を説明するフローチャートである。

ここで、図３の合成コンテンツ提供処理は、例えば、ユーザによるユーザI/F１１（図１）の操作等に応じて、図２のコンテンツ登録処理が行われた後、そのコンテンツ登録処理に続く処理として、連続して行うこともできるし、図２のコンテンツ登録処理に関係なく行うこともできる。

以下、図２のコンテンツ登録処理が行われた後、そのコンテンツ登録処理に続く処理として、連続して行われる合成対象コンテンツ選択処理を、連続合成対象コンテンツ選択処理ともいい、図２のコンテンツ登録処理に関係なく行われる合成対象コンテンツ選択処理を、独立合成対象コンテンツ選択処理ともいう。

図８は、独立合成対象コンテンツ選択処理を説明するフローチャートであり、図９は、連続合成対象コンテンツ選択処理を説明するフローチャートである。

図８の独立合成対象コンテンツ選択処理では、ステップＳ６１において、コンテンツ選択部１９は、例えば、ユーザによるユーザI/F１１の操作に応じて、コンテンツDB１８に記憶された登録コンテンツすべて、又は、所定の条件を満たす登録コンテンツの一覧画面を生成し、ユーザI/F１１に表示させることにより、ユーザに提示して、処理は、ステップＳ６２に進む。

ここで、所定の条件を満たす登録コンテンツの一覧画面を生成するのに必要な所定の条件は、ユーザが、ユーザI/F１１を操作することにより入力することができる。

ステップＳ６２では、コンテンツ選択部１９は、一覧画面を見たユーザが一覧画面上の１つのコンテンツを選択するようにユーザI/F１１の操作を行うのを待って、そのユーザI/F１１の操作に応じて、一覧画面上の１つのコンテンツを、合成対象コンテンツとする１番目のコンテンツ（以下、第１コンテンツともいう）として選択し、処理は、ステップＳ６３に進む。

ステップＳ６３では、コンテンツ選択部１９は、同期情報DB１７を参照し、登録コンテンツの中で、第１コンテンツとの同期情報が同期情報DB１７に記憶されているコンテンツ、すなわち、第１コンテンツと（音響の）同期が可能なコンテンツを、合成対象コンテンツの候補となる候補コンテンツとして選択する。

さらに、コンテンツ選択部１９は、候補コンテンツの一覧画面（以下、候補画面ともいう）を生成し、ユーザI/F１１に表示させることにより、ユーザに提示して、処理は、ステップＳ６３からステップＳ６４に進む。

ステップＳ６４では、コンテンツ選択部１９は、候補画面を見たユーザが候補画面上の１つ以上の候補コンテンツを選択するようにユーザI/F１１の操作を行うのを待って、そのユーザI/F１１の操作に応じて、候補画面上の１つ以上のコンテンツを、合成対象コンテンツとする２番目以降のコンテンツとして選択し、合成対象コンテンツ選択処理は、終了する。

独立合成対象コンテンツ選択処理では、以上のように、ステップＳ６２において、ユーザI/F１１の操作に応じて、一覧画面から選択された１つのコンテンツ（第１コンテンツ）と、ステップＳ６４において、ユーザI/F１１の操作に応じて、候補画面から選択された１つ以上のコンテンツとが、合成対象コンテンツとなる。

なお、図８では、ユーザに、登録コンテンツのすべて、又は、所定の条件を満たす登録コンテンツの一覧画面から、合成対象コンテンツとなる第１コンテンツを選択してもらい、その後、第１コンテンツと同期が可能な候補コンテンツの候補画面から、合成対象コンテンツとなる１つ以上のコンテンツを選択してもらうこととしたが、その他、例えば、コンテンツ選択部１９では、同期可能な登録コンテンツのグループ等の一覧を生成し、その一覧から、ユーザに、合成対象コンテンツを選択してもらうことができる。

図９は、連続合成対象コンテンツ選択処理を説明するフローチャートである。

連続合成対象コンテンツ選択処理では、ステップＳ７１において、コンテンツ選択部１９は、図２のコンテンツ登録処理の注目コンテンツを、合成対象コンテンツとする１番目のコンテンツ（第１コンテンツ）として選択し、処理は、ステップＳ７２に進む。

ステップＳ７２では、コンテンツ選択部１９は、同期情報DB１７を参照し、登録コンテンツの中で、第１コンテンツとの同期情報が同期情報DB１７に記憶されているコンテンツ、すなわち、第１コンテンツと（音響の）同期が可能なコンテンツを、合成対象コンテンツの候補となる候補コンテンツとして選択する。

さらに、コンテンツ選択部１９は、候補コンテンツの一覧画面である候補画面を生成し、ユーザI/F１１に表示させることにより、ユーザに提示して、処理は、ステップＳ７２からステップＳ７３に進む。

ステップＳ７３では、コンテンツ選択部１９は、候補画面を見たユーザが候補画面上の１つ以上の候補コンテンツを選択するようにユーザI/F１１の操作を行うのを待って、そのユーザI/F１１の操作に応じて、候補画面上の１つ以上のコンテンツを、合成対象コンテンツとする２番目以降のコンテンツとして選択し、合成対象コンテンツ選択処理は、終了する。

連続合成対象コンテンツ選択処理では、以上のように、注目コンテンツと、ステップＳ７３において、ユーザI/F１１の操作に応じて、候補画面から選択された１つ以上のコンテンツとが、合成対象コンテンツとなる。

［合成部２０の構成例］

図１０は、図１の合成部２０の構成例を示すブロック図である。

図１０において、合成部２０は、画像復号部５１、画像フォーマット変換部５２、同期処理部５３、画像合成部５４、画像符号化部５５、音響復号部６１、音響フォーマット変換部６２、同期処理部６３、音響合成部６４、音響符号化部６５、及び、マキシング処理部６６を有し、コンテンツ選択部１９からの合成用の同期情報を用いて、コンテンツ選択部１９からの合成対象コンテンツを同期させて合成することにより、合成コンテンツを生成する。

合成部２０では、例えば、合成対象コンテンツが、所定の楽曲に合わせて歌っているボーカルのコンテンツ、所定の楽曲に合わせて演奏しているある楽器のパートのコンテンツ、及び、所定の楽曲に合わせて踊っているダンスのコンテンツ等である場合には、合成対象コンテンツに登場する演者が共演しているかのような合成コンテンツを得ることができる。

ここで、以下では、説明を簡単にするために、コンテンツ選択部１９等から合成部２０には、２つのコンテンツが、合成対象コンテンツとして供給されることとする。また、２つの合成対象コンテンツのうちの１番目のコンテンツである第１コンテンツに含まれる画像と音響を、それぞれ第１画像と第１音響ともいい、２番目のコンテンツである第２コンテンツに含まれる画像と音響を、それぞれ第２画像と第２音響ともいう。

図１０の合成部２０において、画像復号部５１には、第１画像及び第２画像が供給される。

画像復号部５１は、第１画像及び第２画像を復号し、画像フォーマット変換部５２に供給する。

画像フォーマット変換部５２は、画像復号部５１からの第１画像及び第２画像のフォーマット、すなわち、例えば、フレームレートや、サイズ、解像度等を統一するフォーマット変換を行い、同期処理部５３に供給する。

なお、画像フォーマット変換部５２でのフォーマット変換では、例えば、第１画像及び第２画像のうちの一方の画像のフォーマットを、他方の画像のフォーマットである画質が良い方のフォーマットに変換することができる。

同期処理部５３には、画像フォーマット変換部５２から、フォーマット変換後の第１画像及び第２画像が供給される他、コンテンツ選択部１９（図１）から、第１コンテンツと第２コンテンツと（の音響どうし）を同期させるための同期情報（合成用の同期情報）が供給される。

同期処理部５３は、画像フォーマット変換部５２からの第１画像及び第２画像を、合成用の同期情報に従って同期させ、すなわち、例えば、第１画像及び第２画像のうちの一方の再生開始のタイミングを、同期情報に従ってずらす補正を行い、その結果得られる、同期がとれた第１画像及び第２画像を、画像合成部５４に供給する。

画像合成部５４は、同期処理部５３からの第１画像及び第２画像を、例えば、左右や上下等に並べて配置することにより合成し、その第１画像及び第２画像を合成した合成画像を、画像符号化部５５に供給する。

画像符号化部５５は、画像合成部５４からの合成画像を符号化し、マキシング処理部６６に供給する。

音響復号部６１には、第１音響及び第２音響が供給される。

音響復号部６１は、第１音響及び第２音響を復号し、音響フォーマット変換部６２に供給する。

音響フォーマット変換部６２は、音響復号部６１からの第１音響及び第２音響のフォーマット、すなわち、例えば、量子化ビット数やサンプリングレート等を統一するフォーマット変換を行い、同期処理部６３に供給する。

なお、音響フォーマット変換部６２でのフォーマット変換では、例えば、第１音響及び第２音響のうちの一方の音響のフォーマットを、他方の音響のフォーマットである音質が良い方のフォーマットに変換することができる。

同期処理部６３には、音響フォーマット変換部６２から、フォーマット変換後の第１音響及び第２音響が供給される他、コンテンツ選択部１９（図１）から、第１コンテンツと第２コンテンツと（の音響どうし）を同期させるための同期情報（合成用の同期情報）が供給される。

同期処理部６３は、音響フォーマット変換部６２からの第１音響及び第２音響を、合成用の同期情報に従って同期させ、すなわち、例えば、第１音響及び第２音響のうちの一方の再生開始のタイミングを、同期情報に従ってずらす補正を行い、その結果得られる、同期がとれた第１音響及び第２音響を、音響合成部６４に供給する。

音響合成部６４は、同期処理部６３からの第１音響及び第２音響を、例えば、左チャンネルと右チャンネル等のチャンネルごとに加算することにより合成し、その第１音響及び第２音響を合成した合成音響を、音響符号化部６５に供給する。

ここで、第１音響及び第２音響が、例えば、ステレオの音響等の、同一のチャンネル数の音響である場合には、音響合成部６４では、上述のように、第１音響及び第２音響が、チャンネルごとに加算されるが、第１音響及び第２音響のチャンネル数が異なる場合には、音響合成部６４では、例えば、合成音響のチャンネル数を、第１音響及び第２音響のうちの、少ない方のチャンネル数に合わせるミキシング（ダウンミキシング）を行うことができる。

音響符号化部６５は、音響合成部６４からの合成音響を符号化し、マキシング処理部６６に供給する。

マキシング処理部６６は、画像符号化部６６からの合成画像と、音響符号化部６５からの合成音声と（の符号化結果）を、合成コンテンツとしての１本のビットストリームにマキシング（統合）して出力する。

図１１は、図１０の合成部２０が図３のステップＳ３２で行う合成処理を説明するフローチャートである。

ステップＳ８１において、画像復号部５１は、コンテンツ選択部１９からの第１コンテンツの第１画像、及び、第２コンテンツの第２画像を受信し、音響復号部６１は、コンテンツ選択部１９からの第１コンテンツの第１音響、及び、第２コンテンツの第２音響を受信する。

さらに、ステップＳ８１では、同期処理部５３及び６３が、コンテンツ選択部１９からの、第１コンテンツと第２コンテンツとを同期させるための同期情報（合成用の同期情報）を受信し、処理は、ステップＳ８２に進む。

ステップＳ８２では、画像復号部５１が、第１画像及び第２画像を復号し、画像フォーマット変換部５２に供給して、処理は、ステップＳ８３に進む。

ステップＳ８３では、画像フォーマット変換部５２は、画像復号部５１からの第１画像及び第２画像のフォーマットを統一するフォーマット変換を行い、同期処理部５３に供給して、処理は、ステップＳ８４に進む。

ステップＳ８４では、同期処理部５３は、画像フォーマット変換部５２からの第１画像及び第２画像を、合成用の同期情報に従って同期させ、その結果得られる、同期がとれた第１画像及び第２画像を、画像合成部５４に供給して、処理は、ステップＳ８５に進む。

ステップＳ８５では、画像合成部５４は、同期処理部５３からの第１画像及び第２画像を合成する画像合成処理を行い、その結果得られる合成画像を、画像符号化部５５に供給して、処理は、ステップＳ８６に進む。

ステップＳ８６では、画像符号化部５５が、画像合成部５４からの合成画像を符号化し、マキシング処理部６６に供給して、処理は、ステップＳ８７に進む。

ステップＳ８７では、音響復号部６１が、第１音響及び第２音響を復号し、音響フォーマット変換部６２に供給して、処理は、ステップＳ８８に進む。

ステップＳ８８では、音響フォーマット変換部６２は、音響復号部６１からの第１音響及び第２音響のフォーマットを統一するフォーマット変換を行い、同期処理部６３に供給して、処理は、ステップＳ８９に進む。

ステップＳ８９では、同期処理部６３は、音響フォーマット変換部６２からの第１音響及び第２音響を、合成用の同期情報に従って同期させ、その結果得られる、同期がとれた第１音響及び第２音響を、音響合成部６４に供給して、処理は、ステップＳ９０に進む。

ステップＳ９０では、音響合成部６４は、同期処理部６３からの第１音響及び第２音響を合成する音響合成処理を行い、その結果得られる合成音響を、音響符号化部６５に供給して、処理は、ステップＳ９１に進む。

ステップＳ９１では、音響符号化部６５が、音響合成部６４からの合成音響を符号化し、マキシング処理部６６に供給して、処理は、ステップＳ９２に進む。

ステップＳ９２では、マキシング処理部６６は、画像符号化部６６からの合成画像と、音響符号化部６５からの合成音響とを、合成コンテンツとしての１本のビットストリームにマキシング（統合）して出力し、合成処理は、終了する。

以上のように、図１のコンテンツ処理システムでは、音響を含むコンテンツに含まれる音響の音響特徴量を求め、その音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成し、その同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成するので、複数のコンテンツを合成するときに、その複数のコンテンツの間の同期をとることができる。

したがって、コンテンツの（時間）同期を、手動でとる必要がないので、ユーザは、同一の楽曲を扱った音楽パフォーマンスコンテンツのマッシュアップ等の同期再生を、手軽に楽しむことができる。

また、図１のコンテンツ処理システムでは、シーンカットやトリミング等の編集や圧縮が行われたコンテンツであっても、そのコンテンツを注目コンテンツとして、注目コンテンツを含む複数のコンテンツを同期させて合成した合成コンテンツを生成することができる。

さらに、図１のコンテンツ処理システムでは、同期情報を手動で付加する必要がないので、大量の、幅広いコンテンツを扱うことができ、オンラインの動画や音響の共有サービス等と連携して、多くのユーザに、合成コンテンツを提供するサービスを実施することが可能となる。

図１のコンテンツ処理システムは、共通信号成分（同一又は類似の音響信号成分）となる、例えば、同一の楽曲に合わせて歌っているユーザや、ダンスをしているユーザ、楽器を演奏しているユーザが収録された複数のコンテンツを、１つのコンテンツ（合成コンテンツ）に合成する場合に、特に、有用である。

［音響合成部６４の第１の構成例］

図１２は、図１０の音響合成部６４の第１の構成例を示すブロック図である。

図１２において、音響合成部６４は、スペクトログラム算出部１１１及び１１２、ゲイン調整部１１３、共通信号成分検出部１１４、共通信号成分抑圧部１１５及び１１６、加算部１１９、並びに、逆変換部１２０を有し、例えば、左チャンネルと右チャンネル等のチャンネルごとに、第１音響及び第２音響を、その第１音響及び第２音響に含まれる共通信号成分（同一又は類似の音響信号成分）を抑圧して合成する。

スペクトログラム算出部１１１には、同期処理部６３からの、第２音響と同期がとれた第１音響が供給される。

スペクトログラム算出部１１１は、そこに供給される第１音響のスペクトログラムを算出し、ゲイン調整部１１３、及び、共通信号成分抑圧部１１５に供給する。

スペクトログラム算出部１１２には、同期処理部６３からの、第１音響と同期がとれた第２音響が供給される。

スペクトログラム算出部１１２は、そこに供給される第２音響のスペクトログラムを算出し、ゲイン調整部１１３、及び、共通信号成分抑圧部１１６に供給する。

ゲイン調整部１１３は、スペクトログラム算出部１１１からの第１音響のスペクトログラムから、極大値であるピーク（スペクトルピーク）を検出するとともに、スペクトログラム算出部１１２からの第２音響のスペクトログラムから、スペクトルピークを検出する。

さらに、ゲイン調整部１１３は、第１音響のスペクトルピークである第１のスペクトルピーク、及び、第２音響のスペクトルピークである第２のスペクトルピークから、互いに近い位置（周波数）にある第１及び第２のスペクトルピーク（のセット）を検出する。

ここで、互いに近い位置にある第１及び第２のスペクトルピークを、近傍ピークともいう。

ゲイン調整部１１３は、スペクトログラム算出部１１１からスペクトログラムが供給される第１音響、及び、スペクトログラム算出部１１２からスペクトログラムが供給される第２音響のゲイン（パワー）（音量）を、近傍ピークになっている第１及び第２のスペクトルピークの大きさ（パワー）が、なるべく一致するように調整するゲイン調整を行い、ゲイン調整後の第１音響及び第２音響のスペクトログラムを、共通信号成分検出部１１４に供給する。

共通信号成分検出部１１４は、ゲイン調整部１１３からのゲイン調整後の第１音響及び第２音響のスペクトログラムにおいて、所定の時間以上の間、スペクトル振幅（パワー）の差が閾値以下の周波数成分を、第１音響及び第２音響の共通信号成分として検出し、共通信号成分抑圧部１１５及び１１６に供給する。

共通信号成分抑圧部１１５は、共通信号成分検出部１１４からの共通信号成分に基づいて、スペクトログラム算出部１１１からの第１音響のスペクトログラムに含まれる共通信号成分を抑圧し（第１音響のスペクトログラムのうちの、共通信号成分検出部１１４からの共通信号成分の周波数の周波数成分を0にすることを含む）、その共通信号成分を抑圧した第１音響（以下、第１抑圧音響ともいう）のスペクトログラムを、加算部１１９に供給する。

共通信号成分抑圧部１１６は、共通信号成分検出部１１４からの共通信号成分に基づいて、スペクトログラム算出部１１２からの第２音響のスペクトログラムに含まれる共通信号成分を抑圧し（第２音響のスペクトログラムのうちの、共通信号成分検出部１１４からの共通信号成分の周波数の周波数成分を0にすることを含む）、その共通信号成分を抑圧した第２音響（以下、第２抑圧音響ともいう）のスペクトログラムを、加算部１１９に供給する。

加算部１１９には、共通信号成分抑圧部１１５からの第１抑圧音響のスペクトログラム、及び、共通信号成分抑圧部１１６からの第２抑圧音響のスペクトログラムが供給される他、スペクトログラム算出部１１１に供給されるのと同一の第１音響（以下、元の第１音響ともいう）、及び、スペクトログラム算出部１１２に供給されるのと同一の第２音響（以下、元の第２音響ともいう）が供給される。

加算部１１９は、元の第１音響の位相特性を求め、その位相特性と、共通信号成分抑圧部１１５からの第１抑圧音響のスペクトログラムとを用いて、第１抑圧音響の複素スペクトルを算出する。さらに、加算部１１９は、同様にして、第２抑圧音響の複素スペクトルを算出し、第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルとをを加算して、逆変換部１２０に供給する。

逆変換部１２０は、加算部１１９からの、第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルとの加算値である周波数領域の信号を対象として、逆短時間フーリエ変換を行うことにより、時間領域の信号に逆変換をし、合成音響として出力する。

図１３は、図１２の音響合成部６４が図１１のステップＳ９０で行う音響合成処理を説明するフローチャートである。

ステップＳ１１１において、スペクトログラム算出部１１１、及び、加算部１１９が、同期処理部６３（図１０）からの第１音響を受信するとともに、スペクトログラム算出部１１２、及び、加算部１１９が、同期処理部６３からの第２音響を受信して、処理は、ステップＳ１１２に進む。

ステップＳ１１２では、スペクトログラム算出部１１１が、第１音響のスペクトログラムを算出し、ゲイン調整部１１３、及び、共通信号成分抑圧部１１５に供給するとともに、スペクトログラム算出部１１２が、第２音響のスペクトログラムを算出し、ゲイン調整部１１３、及び、共通信号成分抑圧部１１６に供給して、処理は、ステップＳ１１３に進む。

ステップＳ１１３では、ゲイン調整部１１３が、スペクトログラム算出部１１１からの第１音響のスペクトログラムからスペクトルピーク（第１のスペクトルピーク）を検出するとともに、スペクトログラム算出部１１２からの第２音響のスペクトログラムからスペクトルピーク（第２のスペクトルピーク）を検出し、処理は、ステップＳ１１４に進む。

ステップＳ１１４では、ゲイン調整部１１３は、第１音響のスペクトルピークである第１のスペクトルピーク、及び、第２音響のスペクトルピークである第２のスペクトルピークから、近傍ピークとしての第１及び第２のスペクトルピーク、すなわち、互いに近い位置にある第１及び第２のスペクトルピークを検出する。

さらに、ゲイン調整部１１３は、スペクトログラム算出部１１１からスペクトログラムが供給される第１音響、及び、スペクトログラム算出部１１２からスペクトログラムが供給される第２音響のゲインを、近傍ピークになっている第１及び第２のスペクトルピークの大きさが、なるべく一致するように調整するゲイン調整を行い、ゲイン調整後の第１音響及び第２音響のスペクトログラムを、共通信号成分検出部１１４に供給して、処理は、ステップＳ１１４からステップＳ１１５に進む。

ステップＳ１１５では、共通信号成分検出部１１４は、ゲイン調整部１１３からのゲイン調整後の第１音響及び第２音響のスペクトログラムにおいて、所定の時間以上の間、スペクトル振幅の差が閾値以下になっている周波数成分を、第１音響及び第２音響の共通信号成分として検出し、共通信号成分抑圧部１１５及び１１６に供給して、処理は、ステップＳ１１６に進む。

ステップＳ１１６では、共通信号成分抑圧部１１５は、共通信号成分検出部１１４からの共通信号成分に基づいて、スペクトログラム算出部１１１からの第１音響のスペクトログラムに含まれる共通信号成分を抑圧し、その共通信号成分を抑圧した第１音響である第１抑圧音響のスペクトログラムを、加算部１１９に供給する。

さらに、ステップＳ１１６では、共通信号成分抑圧部１１６が、共通信号成分検出部１１４からの共通信号成分に基づいて、スペクトログラム算出部１１２からの第２音響のスペクトログラムに含まれる共通信号成分を抑圧し、その共通信号成分を抑圧した第２音響である第２抑圧音響のスペクトログラムを、加算部１１９に供給して、処理は、ステップＳ１１７に進む。

ステップＳ１１７では、加算部１１９が、元の第１音響の位相特性を求める（取得する）とともに、元の第２音響の位相特性を求めて、処理は、ステップＳ１１８に進む。

ステップＳ１１８では、加算部１１９は、元の第１音響の位相特性と、共通信号成分抑圧部１１５からの第１抑圧音響のスペクトログラムとを用いて、第１抑圧音響の複素スペクトルを算出する。さらに、加算部１１９は、元の第２音響の位相特性と、共通信号成分抑圧部１１６からの第２抑圧音響のスペクトログラムとを用いて、第２抑圧音響の複素スペクトルを算出する。そして、加算部１１９は、第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルとをを加算し、その結果得られる加算値を、逆変換部１２０に供給して、処理は、ステップＳ１１８からステップＳ１１９に進む。

ステップＳ１１９では、逆変換部１２０は、加算部１１９からの、第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルとの加算値である周波数領域の信号を対象として、逆短時間フーリエ変換を行うことにより、時間領域の信号に逆変換をし、合成音響として出力して、音響合成処理は、終了する。

以上のような音響合成処理によれば、例えば、オリジナルのバンド演奏の音源に、ユーザによる歌唱を重ねて収録したコンテンツ#1、オリジナルのバンド演奏の音源に、ユーザによるピアノ演奏を重ねて収録したコンテンツ#2、及び、オリジナルのバンド演奏の音源に、ユーザによるバイオリン演奏を重ねて収録したコンテンツ#3を、合成対象コンテンツとした場合に、コンテンツ#1ないし#3それぞれの音響から、共通信号成分としての、オリジナルのバンド演奏の音源が抑圧されて合成され、その結果、ユーザによる歌唱、ピアノ演奏、及び、バイオリン演奏のアコースティックアレンジを、合成音響として得ることができる。

なお、音響合成部６４では、第１音響及び第２音響から共通信号成分を抑圧した第１抑圧音響及び第２抑圧音響を合成した合成音響の他、共通信号成分を抑圧していない第１音響及び第２音響を合成した合成音響を得ることができる。

音響合成部６４において、第１抑圧音響及び第２抑圧音響を合成した合成音響を得るか、共通信号成分を抑圧していない第１音響及び第２音響を合成した合成音響を得るかは、例えば、ユーザによるユーザI/F１１（図１）の操作に応じて選択することができる。

また、図１２の音響合成部６４では、加算の後、逆変換を行うようにしたが、すなわち、加算部１１９において、周波数領域の信号である、第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルとを加算した後、その結果得られる加算値を、逆変換部１２０において、逆短時間フーリエ変換により、時間領域の信号に逆変換したが、音響合成部６４では、逆変換の後に、加算を行うこと、すなわち、周波数領域の信号である、第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルのそれぞれを、逆短時間フーリエ変換により、時間領域の信号に逆変換し、その結果得られる時間領域の信号である第１抑圧音響と第２抑圧音響とを加算することができる。

但し、加算の後、逆変換を行う場合、逆変換である短時間フーリエ変換の対象が、（第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルとの）加算値のみであるのに対して、逆変換の後に加算を行う場合には、逆変換である短時間フーリエ変換の対象が、第１抑圧音響の複素スペクトルと第２抑圧音響の複素スペクトルとの２つであるため、演算量の観点からは、逆変換の後に加算を行うよりも、加算の後、逆変換を行う方が、有利である。

［画像合成部５４の構成例］

図１４は、図１０の画像合成部５４の構成例を示すブロック図である。

図１４において、画像合成部５４は、被写体抽出部１２１及び１２２、背景設定部１２３、配置設定部１２４、並びに、合成部１２５を有し、例えば、第１画像及び第２画像それぞれから被写体を抽出して、所定の背景に重畳した合成画像を生成する。

被写体抽出部１２１には、同期処理部５３からの、第２画像と同期がとれた第１画像が供給される。

被写体抽出部１２１は、そこに供給される第１画像から被写体（前景）を抽出し、合成部１２５に供給する。

被写体抽出部１２２には、同期処理部５３からの、第１画像と同期がとれた第２画像が供給される。

被写体抽出部１２２は、そこに供給される第２画像から被写体を抽出し、合成部１２５に供給する。

背景設定部１２３は、例えば、ユーザによるユーザI/F１１（図１）の操作に応じて、合成画像の背景（に用いる画像）を設定し、合成部１２５に供給する。

すなわち、背景設定部１２３は、例えば、合成画像の背景となる画像の候補である背景候補として、複数の画像を記憶しており、その複数の背景候補の一覧を、ユーザI/F１１に供給して表示させる。

複数の背景候補の一覧を見たユーザが、合成画像の背景に用いる背景候補を選択するように、ユーザI/F１１を操作すると、背景設定部１２３は、そのユーザI/F１１の操作に応じて、合成画像の背景を設定（選択）し、合成部１２５に供給する。

配置設定部１２４は、例えば、ユーザによるユーザI/F１１の操作に応じて、第１画像及び第２画像を合成画像に合成するときの、その第１画像及び第２画像の配置を設定し、その配置を表す配置情報を、合成部１２５に供給する。

配置情報には、例えば、合成画像上の第１画像及び第２画像の並びの方向（例えば、横並びや縦並び等）と、合成画像上の第１画像及び第２画像の並びの順番（例えば、横並びであれば、第１画像及び第２画像を、左から何番目に配置するかの配置順）とが含まれる。

第１画像及び第２画像の並びの方向、及び、第１画像及び第２画像の並びの順番は、例えば、いずれも、ユーザI/F１１の操作に応じて設定することができる。また、例えば、第１画像及び第２画像の並びの方向は、ユーザI/F１１の操作に応じて設定し、第１画像及び第２画像の並びの順番は、配置設定部１２４においてランダムに設定することができる。

合成部１２５は、被写体抽出部１２１からの第１画像に映る被写体（以下、第１の被写体ともいう）と、被写体抽出部１２２からの第２画像に映る被写体（以下、第２の被写体ともいう）とを、配置設定部１２４からの配置情報に従い、背景設定部１２３からの背景に重畳することで、第１の被写体、第２の被写体、及び、背景を合成した合成画像を生成して出力する。

図１５は、図１４の画像合成部５４が図１１のステップＳ８５で行う画像合成処理を説明するフローチャートである。

ステップＳ１２１において、被写体抽出部１２１が、同期処理部５３（図１０）からの第１画像を受信するとともに、被写体抽出部１２２が、同期処理部５３からの第２画像を受信して、処理は、ステップＳ１２２に進む。

ステップＳ１２２では、背景設定部１２３が、ユーザによるユーザI/F１１の操作に応じて、合成画像の背景を設定し、合成部１２５に供給するとともに、配置設定部１２４が、ユーザによるユーザI/F１１の操作に応じて、合成画像上の第１画像及び第２画像の配置を設定し、その配置を表す配置情報を、合成部１２５に供給して、処理は、ステップＳ１２３に進む。

ステップＳ１２３では、被写体抽出部１２１が、第１画像から被写体（第１の被写体）を抽出し、合成部１２５に供給するとともに、被写体抽出部１２２が、第２画像から被写体（第２の被写体）を抽出し、合成部１２５に供給して、処理は、ステップＳ１２４に進む。

ステップＳ１２４では、合成部１２５が、被写体抽出部１２１からの第１の被写体と、被写体抽出部１２２からの第２の被写体とを、配置設定部１２４からの配置情報に従った配置で、背景設定部１２３からの背景に重畳することにより、第１の被写体、第２の被写体、及び、背景を合成した合成画像を生成して出力し、画像合成処理は、終了する。

以上のような画像合成処理によれば、例えば、オリジナルのバンド演奏に合わせてダンスを踊っているユーザＡを撮影したコンテンツ#1、及び、オリジナルのバンド演奏に合わせて楽器の演奏を行っているユーザＢを撮影したコンテンツ#2を、合成対象コンテンツとした場合に、被写体としてのユーザＡ及びＢの画像が抽出されて合成され、その結果、ユーザＡ及びＢが、同じ舞台で演じているかのような合成画像を得ることができる。

ここで、合成画像において、第１及び第２の被写体が動く場合には、その動く第１及び第２の被写体が重ならないように、第１及び第２の被写体を、十分離して配置することが望ましい。

なお、画像合成部５４では、第１画像及び第２画像それぞれから抽出した第１の被写体及び第２の被写体を配置した合成画像の他、第１画像及び第２画像そのものを配置した合成画像を生成することができる。

画像合成部５４において、第１画像及び第２画像それぞれから抽出した第１の被写体及び第２の被写体を配置した合成画像を生成するか、第１画像及び第２画像そのものを配置した合成画像を生成するかは、例えば、ユーザによるユーザI/F１１（図１）の操作に応じて選択することができる。

［音響合成部６４の第２の構成例］

図１６は、図１０の音響合成部６４の第２の構成例を示すブロック図である。

図１６において、音響合成部６４は、定位感付加部１３１及び１３２、並びに、加算部１３３を有し、例えば、左チャンネルと右チャンネル等のチャンネルごとに、第１音響及び第２音響を合成する。

定位感付加部１３１には、同期処理部６３からの、第２音響と同期がとれた第１音響が供給される。さらに、定位感付加部１３１には、配置設定部１２４（図１４）で設定された、合成画像上の第１画像及び第２画像の配置を表す配置情報が供給される。

定位感付加部１３１は、配置設定部１２４で設定された配置情報に従い、そこに供給される第１音響に対して、その第１音響を発している被写体が映る第１画像が配置された位置の方向から、その第１音響が聞こえるかのような定位感を付加して、加算部１３３に供給する。

具体的には、定位感付加部１３１は、配置情報から、第１音響を発している被写体（例えば、楽器を演奏している演奏者）の合成画像上の配置位置を認識し、その配置位置に基づいて、第１音響を発している被写体と、合成コンテンツ（の合成画像）の仮想的な収録位置との位置関係を求める。さらに、定位感付加部１３１は、第１音響を発している被写体と、仮想的な収録位置との位置関係に応じた空間伝達応答を、第１音響に畳み込むことで、（のちに加算部１３３で得られる）合成画像上の、第１音響を発している被写体の位置の方向から、第１音響が聞こえるかのような定位感を、第１音響に付加する。

定位感付加部１３２には、同期処理部６３からの、第１音響と同期がとれた第２音響が供給される。さらに、定位感付加部１３２には、配置設定部１２４（図１４）で設定された、合成画像上の第１画像及び第２画像の配置を表す配置情報が供給される。

定位感付加部１３２は、定位感付加部１３１と同様に、配置設定部１２４で設定された配置情報に従い、そこに供給される第２音響に対して、その第２音響を発している被写体が映る第２画像が配置された位置の方向から、その第２音響が聞こえるかのような定位感を付加して、加算部１３３に供給する。

加算部１３３は、定位感付加部１３１からの第１音響と、定位感付加部１３２からの第２音響とを加算し、その加算値を、合成音響として出力する。

図１７は、図１６の音響合成部６４が図１１のステップＳ９０で行う音響合成処理を説明するフローチャートである。

ステップＳ１３１において、定位感付加部１３１が、同期処理部６３（図１０）からの第１音響、及び、配置設定部１２４（図１４）で設定された配置情報を受信するとともに、定位感付加部１３２が、同期処理部６３からの第２音響、及び、配置設定部１２４で設定された配置情報を受信して、処理は、ステップＳ１３２に進む。

ステップＳ１３２では、定位感付加部１３１が、配置情報に従い、第１音響に対して、定位感を付加して、加算部１３３に供給するとともに、定位感付加部１３２が、配置情報に従い、第２音響に対して、定位感を付加して、加算部１３３に供給して、処理は、ステップＳ１３３に進む。

ステップＳ１３３では、加算部１３３が、定位感付加部１３１からの第１音響と、定位感付加部１３２からの第２音響とを加算し、その加算値を、合成音響として出力して、音響合成処理は、終了する。

以上のような音響合成処理によれば、例えば、オリジナルのバンド演奏に合わせて歌っているボーカルが撮影されたコンテンツ#1、オリジナルのバンド演奏に合わせてギターを演奏しているギター演奏者が撮影されたコンテンツ#2、及び、オリジナルのバンド演奏に合わせてベースを演奏しているベース演奏者が撮影されたコンテンツ#3を、合成対象コンテンツとして、図１４の画像合成部５４において、ボーカルが中央に、ギター演奏者が右側に、ベース演奏者が左側に、それぞれ配置された合成画像が生成される場合に、ボーカルが正面から、ギターの演奏が右側から、ベースの演奏が左側から、それぞれ聞こえるような音像定位を生じさせる、臨場感がある合成音響を生成することができる。

［音響合成部６４の第３の構成例］

図１８は、図１０の音響合成部６４の第３の構成例を示すブロック図である。

図１８において、音響合成部６４は、音量正規化係数算出部２０１、及び、合成部２０２を有し、例えば、左チャンネルと右チャンネル等のチャンネルごとに、第１音響及び第２音響を、音量を調整して合成する。

音量正規化係数算出部２０１には、同期処理部６３（図１０）からの第１音響及び第２音響が供給される

音量正規化係数算出部２０１は、同期処理部６３からの第１音響及び第２音響に基づき、その第１音響及び第２音響の音量を変更するための音量正規化係数を算出し、合成部２０２に供給する。

ここで、音量正規化係数算出部２０１では、例えば、第１音響及び第２音響に含まれる共通信号成分のレベルが一致するように、第１音響及び第２音響の音量を変更するための音量正規化係数を算出することができる。

合成部２０２は、音量調整部２１１、及び、加算部２１２を有し、音量正規化係数算出部２０１からの音量正規化係数を用いて、第１音響と第２音響との最適な音量比を求め、その音量比に従って、第１音響及び第２音響の音量を調整して合成する。

音量調整部２１１には、同期処理部６３（図１０）からの第１音響及び第２音響が供給されるとともに、音量正規化係数算出部２０１からの音量正規化係数が供給される。

音量調整部２１１は、音量正規化係数算出部２０１からの音量正規化係数を用いて、第１音響と第２音響との最適な音量比（例えば、第１音響と第２音響とを合成した合成音響において、ユーザが適切にミキシングされていると感じるであろう第１音響と第２音響との音量比）を求める。

さらに、音量調整部２１１は、同期処理部６３からの第１音響及び第２音響の音量を、最適な音量比となるように調整し、加算部２１２に供給する。

加算部２１２は、音量調整部２１１からの音量が調整された第１音響及び第２音響を加算し、その加算値を、合成音響として出力する。

図１９は、図１８の音響合成部６４が図１１のステップＳ９０で行う音響合成処理を説明するフローチャートである。

ステップＳ２１１において、音量正規化係数算出部２０１、及び、音量調整部２１１が、同期処理部６３（図１０）からの第１音響及び第２音響を受信して、処理は、ステップＳ２１２に進む。

ステップＳ２１２では、音量正規化係数算出部２０１は、第１音響及び第２音響に含まれる共通信号成分のレベルが一致するように、第１音響及び第２音響の音量を変更するための音量正規化係数を算出する音量正規化係数算出処理を行い、その結果得られる音量正規化係数を、合成部２０２に供給して、処理は、ステップＳ２１３に進む。

ステップＳ２１３では、合成部２０２の音量調整部２１１が、音量正規化係数算出部２０１からの音量正規化係数を用いて、同期処理部６３からの第１音響と第２音響との最適な音量比を求める。そして、音量調整部２１１は、同期処理部６３からの第１音響及び第２音響の音量（振幅）を、最適な音量比となるように調整し、加算部２１２に供給して、処理は、ステップＳ２１４に進む。

ステップＳ２１４では、加算部２１２が、音量調整部２１１からの最適な音量比の第１音響と第２音響とを加算し、その加算値を、合成音響として出力して、音響合成処理は、終了する。

［音量正規化係数算出部２０１の構成例］

図２０は、図１８の音量正規化係数算出部２０１の構成例を示すブロック図である。

図２０において、音量正規化係数算出部２０１は、平滑化スペクトログラム算出部２２１及び２２２、共通ピーク検出部２２３、及び、係数算出部２２４を有し、第１音響及び第２音響に含まれる共通信号成分のレベルが一致するように、第１音響及び第２音響の音量を変更するための音量正規化係数を算出する。

平滑化スペクトログラム算出部２２１には、同期処理部６３（図１０）からの、第２音響と同期がとれた第１音響が供給される。

平滑化スペクトログラム算出部２２１は、そこに供給される第１音響のスペクトログラムを算出する。さらに、平滑化スペクトログラム算出部２２１は、第１音響のスペクトログラムを、周波数方向に平滑化することにより、例えば、調波性の周波数成分がピーク（極大値）になっている場合に、そのピークを検出することができる程度の精度のスペクトログラム（以下、平滑化スペクトログラムともいう）を、第１音響（を含む第１コンテンツ）の特徴情報として求め、共通ピーク検出部２２３、及び、係数算出部２２４に供給する。

平滑化スペクトログラム算出部２２２には、同期処理部６３からの、第１音響と同期がとれた第２音響が供給される。

平滑化スペクトログラム算出部２２２は、平滑化スペクトログラム算出部２２１と同様にして、そこに供給される第２音響の平滑化スペクトログラムを求め、共通ピーク検出部２２３、及び、係数算出部２２４に供給する。

共通ピーク検出部２２３は、平滑化スペクトログラム算出部２２１からの第１音響の平滑化スペクトログラムのピークである第１のスペクトルピークを検出するとともに、平滑化スペクトログラム算出部２２２からの第２音響の平滑化スペクトログラムのピークである第２のスペクトルピークを検出する。

さらに、共通ピーク検出部２２３は、第１及び第２のスペクトルピークから、互いに近い位置（周波数）にある第１及び第２のスペクトルピークを、共通信号成分のピークである共通ピークとして検出し、その共通ピークの周波数（位置）と大きさ（振幅）（パワー）を、共通ピーク情報として、係数算出部２２４に供給する。

係数算出部２２４は、共通ピーク検出部２２３からの共通ピーク情報に基づいて、平滑化スペクトログラム算出部２２１からの第１音響のスペクトログラム、及び、平滑化スペクトログラム算出部２２２からの第２音響のスペクトログラムにおいて、共通ピークになっている第１及び第２のスペクトルピークを認識する。さらに、係数算出部２２４は、例えば、第２音響の音量を所定数倍に補正したときの、共通ピークになっている第２のスペクトルピークである補正ピークと、その第２のスペクトルピークとともに共通ピークになっている第１のスペクトルピークとの誤差を最小化する所定数倍を、第１音響及び第２音響に含まれる共通信号成分のレベルを一致させるように、第２音響の音量を変更するための音量正規化係数として算出して出力する。

ここで、例えば、いま、第１音響が、市販の楽曲ＡのCDの音に合わせて、ユーザが独自にアレンジしたギターパートを収録したコンテンツ#1の音響であり、第２音響が、同一の楽曲ＡのCDの音、又は、その楽曲Ａのカラオケバージョンの音に合わせてユーザが歌った歌声（歌唱）を収録したコンテンツ#2の音響であるとする。

第１音響及び第２音響を合成する場合には、第１音響のギターパートの音量と、第２音響の歌声（ボーカル）の音量とを、適切（最適）な音量比で合成することが望ましい。

第１音響のギターパートの音量と、第２音響のボーカルの音量とを、適切な音量比で合成するには、その適切な音量比となるように、第１音響のギターパートの音量、及び、第２音響のボーカルの音量（のうちの少なくとも一方）を調整する必要があるが、そのためには、第１音響に含まれるギターパートのみの音量、及び、第２音響に含まれるボーカルのみの音量を、的確に把握する必要がある。

しかしながら、第１音響には、ギターパートの他に、楽曲ＡのCDの音が含まれているので、そのような第１音響のままでは、第１音響に含まれるギターパートのみの音量を、的確に求めることは困難である。

同様に、第２音響には、ボーカルの他に、楽曲ＡのCDの音、又は、その楽曲Ａのカラオケバージョンの音が含まれているので、そのような第２音響のままでは、第２音響に含まれるボーカルのみの音量を、的確に求めることは困難である。

ところで、いまの場合、第１音響及び第２音響には、楽曲ＡのCDの音、又は、その楽曲Ａのカラオケバージョンの音が、共通信号成分として含まれる。

第１音響に含まれる共通信号成分の音量と、第２音響に含まれる共通信号成分の音量とは、第１音響及び第２音響それぞれの収録時の録音レベル等によって異なるが、第１音響及び第２音響は、共通信号成分と、その他の信号成分とを、適切にバランスさせて収録されていると予想される。

すなわち、第１音響に含まれるギターパートは、その第１音響に含まれる楽曲ＡのCDの音に含まれるボーカルを引き立てるように、楽曲ＡのCDの音との関係で、ギターパートとして適切な音量で収録されていると予想される。

同様に、第２音響に含まれるボーカルは、その第２音響に含まれる楽曲ＡのCDの音、又は、楽曲Ａのカラオケバージョンの音との関係で、ボーカルとして適切な音量（第２音響に、楽曲ＡのCDの音が含まれている場合には、その楽曲ＡのCDの音に含まれるボーカルと同程度の音量）で収録されていると予想される。

この場合、第１音響に含まれる共通信号成分としての楽曲ＡのCDの音の音量と、第２音響に含まれる共通信号成分としての楽曲ＡのCDの音、又は、楽曲Ａのカラオケバージョンの音の音量とが一致するように、第１音響及び第２音響の音量比を決定（算出）し、その音量比に従って、第１音響及び第２音響の音量を調整して合成することにより、第１音響及び第２音響を、音量を適切に調整して合成することができる。

図２１は、第１音響に含まれる共通信号成分の音量と、第２音響に含まれる共通信号成分の音量とを一致させる方法を示している。

図２１Ａは、第１音響のパワースペクトルの例を示しており、図２１Ｂは、第２音響のパワースペクトルの例を示している。

図２１Ａの第１音響のパワースペクトルでは、周波数f1,f2,f3,f4が、スペクトルピーク（第１のスペクトルピーク）になっており、図２１Ｂの第２音響のパワースペクトルでは、周波数f1',f2,f3',f4が、スペクトルピーク（第２のスペクトルピーク）になっている。

いま、第１のスペクトルピークの周波数f1,f2,f3,f4、及び、第２のスペクトルピークの周波数f1',f2,f3',f4のうちの、周波数f2とf4が、共通信号成分のスペクトルピーク（又は、共通信号成分が支配的なスペクトルピーク）であることとすると、第１音響及び第２音響のうちの少なくとも一方である、例えば、第２音響の音量を調整することにより、第１のスペクトルピークのうちの共通信号成分のスペクトルピークと、第２のスペクトルピークのうちの共通信号成分のスペクトルピークとの大きさを、ほぼ一致させることができる。

図２１Ｃは、音量を調整した第２音響のパワースペクトルを示す図である。

図２１Ｄは、図２１Ａの第１音響のパワースペクトル（実線）と、図２１Ｃの音量を調整した第２音響のパワースペクトル（点線）とを重畳した図である。

図２１Ｄに示すように、第２音響の音量を調整することにより、共通信号成分のスペクトルピークである周波数f2の第１のスペクトルピークと第２のスペクトルピークとの大きさを、ほぼ一致させること、及び、共通信号成分のスペクトルピークである周波数f4の第１のスペクトルピークと第２のスペクトルピークとの大きさを、ほぼ一致させることができる。

第１音響及び第２音響が、共通信号成分と、その他の信号成分とを、適切にバランスさせて収録されている場合、第１のスペクトルピークのうちの共通信号成分のスペクトルピークと、第２のスペクトルピークのうちの共通信号成分のスペクトルピークとの大きさが、ほぼ一致するように、第２音響の音量を調整することで、第１音響及び第２音響を、適切な音量比（第１音響に含まれるギターパートの音量と、第２音響に含まれるボーカルの音量とが適切に聞こえる音量比）で合成することができる。その結果、例えば、別個に演奏を行っている複数のコンテンツから、あたかも合奏しているかのような合成コンテンツを、容易に作成することができる。

図２０の音量正規化係数算出部２０１は、第１音響及び第２音響に含まれる共通信号成分のレベルが一致するように、第２音響の音量を変更するための音量正規化係数を算出する。そのため、共通ピーク検出部２２３において、第１及び第２のスペクトルピークから、互いに近い位置（周波数）にある第１及び第２のスペクトルピークが、共通信号成分のピークである共通ピークとして検出される。

図２０では、図２０Ａの第１音響のパワースペクトルにおける、周波数f2の第１のスペクトルピーク（になっている周波数成分）と、図２０Ｂの第２音響のパワースペクトルにおける、周波数f2の第２のスペクトルピークとのセットが、共通ピークとして検出される。

さらに、図２０では、図２０Ａの第１音響のパワースペクトルにおける、周波数f4の第１のスペクトルピークと、図２０Ｂの第２音響のパワースペクトルにおける、周波数f4の第２のスペクトルピークとのセットが、共通ピークとして検出される。

そして、係数算出部２２４（図２０）において、第２音響の音量を所定数倍に補正したときの、共通ピークになっている周波数f2の第２のスペクトルピークである補正ピークと、その第２のスペクトルピークとともに共通ピークになっている、周波数f2の第１のスペクトルピークとの誤差、及び、共通ピークになっている周波数f4の第２のスペクトルピークである補正ピークと、その第２のスペクトルピークとともに共通ピークになっている、周波数f4の第１のスペクトルピークとの誤差を最小化する所定数倍が、音量正規化係数として算出される。

具体的には、図２０の音量正規化係数算出部２０１では、平滑化スペクトログラム算出部２２１及び２２２において、所定の時間長のフレームごとに、平滑化スペクトルグラムが算出される。

共通ピーク検出部２２３では、各フレームについて、第１音響の平滑化スペクトログラムのピークである第１のスペクトルピークが検出されるとともに、第２音響の平滑化スペクトログラムのピークである第２のスペクトルピークが検出される。

さらに、共通ピーク検出部２２３では、各フレームについて、第１及び第２のスペクトルピークから、互いに近い周波数の第１及び第２のスペクトルピークを、共通信号成分のピークである共通ピークとして検出し、その共通ピークの周波数と大きさを、共通ピーク情報として、係数算出部２２４に供給する。

係数算出部２２４では、共通ピーク検出部２２３からの共通ピーク情報に基づいて、共通ピークになっている第１及び第２のスペクトルピークが認識され、第２音響の音量を所定数倍に補正したときの第２のスペクトルピークである補正ピークと、その第２のスペクトルピークとともに共通ピークになっている第１のスペクトルピークとの誤差を最小化する所定数倍が、第１音響及び第２音響に含まれる共通信号成分のレベルを一致させるように、第１音響及び第２音響の音量を変更するための音量正規化係数として算出される。

すなわち、第ｉ音響の第jフレームのスペクトログラムの、k番目の共通ピークになっているスペクトルピークの大きさを、P(i,j,k)と表すこととすると、係数算出部２２４は、式（１）の誤差の総和D(α)を最小にする値αを、音量正規化係数として算出する。

D(α)＝Σ_j,k｜P(1,j,k)−αP(2,j,k)｜
・・・（１）

ここで、式（１）において、Σ_j,kは、変数jを、1からフレームの総数までの整数に代え、かつ、変数kを、1から第jフレームに存在する共通ピークの数までの整数に代えて、サメーションをとることを表す。なお、ここでは、第１音響及び第２音響は、同一の時間長の信号であることとする。

合成対象コンテンツが、３つ以上のコンテンツである場合には、係数算出部２２４では、その３つ以上のコンテンツの音響のうちの１つの音響を、いわば基準の基準音響（音量正規化係数が1の音響）として、他のコンテンツの音響それぞれの音量正規化係数が、同様にして求められる。

図２２は、図２０の音量正規化係数算出部２０１が図１９のステップＳ２１２で行う音量正規化係数算出処理を説明するフローチャートである。

ステップＳ２２１において、平滑化スペクトログラム算出部２２１が、同期処理部６３（図１０）からの第１音響を受信するとともに、平滑化スペクトログラム算出部２２２が、同期処理部６３からの第２音響を受信し、処理は、ステップＳ２２２に進む。

ステップＳ２２２では、平滑化スペクトログラム算出部２２１が、第１音響のスペクトログラムを算出し、その第１音響のスペクトログラムを、周波数方向に平滑化することにより、第１音響の平滑化スペクトログラムを求める。

さらに、ステップＳ２２２では、平滑化スペクトログラム算出部２２２が、平滑化スペクトログラム算出部２２１と同様にして、第２音響の平滑化スペクトログラムを求める。

そして、平滑化スペクトログラム算出部２２１が、第１音響のスペクトログラムを、共通ピーク検出部２２３、及び、係数算出部２２４に供給するとともに、平滑化スペクトログラム算出部２２２が、第２音響のスペクトログラムを、共通ピーク検出部２２３、及び、係数算出部２２４に供給して、処理は、ステップＳ２２２からステップＳ２２３に進む。

ステップＳ２２３では、共通ピーク検出部２２３が、平滑化スペクトログラム算出部２２１からの第１音響の平滑化スペクトログラムから、第１のスペクトルピークを検出するとともに、平滑化スペクトログラム算出部２２２からの第２音響の平滑化スペクトログラムから、第２のスペクトルピークを検出して、処理は、ステップＳ２２４に進む。

ステップＳ２２４では、共通ピーク検出部２２３は、第１及び第２のスペクトルピークから、互いに近い周波数の第１及び第２のスペクトルピークを、共通ピークとして検出し、その共通ピーク（としての第１及び第２のスペクトルピーク）の周波数と大きさを、共通ピーク情報として、係数算出部２２４に供給して、処理は、ステップＳ２２５に進む。

ステップＳ２２５では、係数算出部２２４が、共通ピーク検出部２２３からの共通ピーク情報に基づき、平滑化スペクトログラム算出部２２１からの第１音響のスペクトログラム、及び、平滑化スペクトログラム算出部２２２からの第２音響のスペクトログラムにおいて、共通ピークになっている第１及び第２のスペクトルピークを認識する。

さらに、係数算出部２２４は、第２音響の音量を、増幅率αとしての所定数倍に増幅する補正をしたときの第２のスペクトルピークである補正ピークと、その第２のスペクトルピークとともに共通ピークになっている第１のスペクトルピークとの誤差を最小化する増幅率αとしての所定数倍、すなわち、式（１）の誤差の総和D(α)を最小にする値αを算出し、第１音響及び第２音響に含まれる共通信号成分のレベルを一致させるように、第2音響の音量を変更するための音量正規化係数として出力して、音量正規化係数算出処理は、終了する。

なお、音量調整部２１１（図１８）では、第１音響の音量正規化係数を1とするとともに、音量正規化係数算出部２０１からの音量正規化係数を第２音響の音量正規化係数として用い、例えば、第１音響の音量を、第１音響の音量正規化係数である1倍に調整するとともに、第２音響の音量を、第２音響の音量正規化係数倍に調整したときの、その調整後の第１音響及び第２音響の音量の比が、最適な音量比として求められる。

［音量比算出の他の例］

図１８の音量調整部２１１では、音量正規化係数を用いずに、音量比を求めることができる。

図２３は、図１８の音量調整部２１１において、音量正規化係数を用いずに、最適な音量比を求める部分（以下、最適音量比算出部ともいう）の構成例を示すブロック図である。

図２３において、最適音量比算出部は、パート推定部２３１、及び、音量比算出部２３２を有し、第１音響及び第２音響それぞれのパートを推定し、第１音響及び第２音響それぞれのパートに基づいて、音量比を決定する。

ここで、図２０の音量正規化係数算出部２０１では、第１音響及び第２音響が、いずれも、共通信号成分と、例えば、ギターパートやボーカル等の、その他の信号成分とを、適切にバランスさせて収録された信号（以下、バランス信号ともいう）になっていることを前提としたが、第１音響及び第２音響が、必ずしも、そのようなバランス信号になっているとは限らない。

図２３の最適音量比算出部では、第１音響及び第２音響がバランス信号になっている場合は勿論、第１音響及び第２音響がバランス信号になっていない場合であっても、第１音響及び第２音響を合成するときの、適切な音量比を決定することができる。

パート推定部２３１には、同期処理部６３（図１０）からの第１音響及び第２音響が供給される。

パート推定部２３１は、同期処理部６３からの第１音響及び第２音響それぞれのパートを推定し、音量比算出部２３２に供給する。

音量比算出部２３２は、パート推定部２３１からの第１音響及び第２音響それぞれのパート（の推定結果）に基づいて、第１音響及び第２音響（を合成するとき）の音量比を算出して出力する。

［パート推定部２３１の第１の構成例］

図２４は、図２３のパート推定部２３１の第１の構成例を示すブロック図である。

図２４において、パート推定部２３１は、メタ検出部２４１、及び、パート認識部２４２を有する。

メタ検出部２４１には、同期処理部６３（図１０）からの第１音響及び第２音響が供給される。

ここで、音楽パフォーマンスコンテンツ等がアップロードされる共有動画サイトでは、コンテンツをアップロードするユーザや、コンテンツの閲覧者が、アップロードされているコンテンツに対して、コンテンツのタイトルや、検索のキーワード等のメタデータを、タグ等として付加することができる機能を備えていることがある。

ここでは、第１音響を含む第１コンテンツに、その第１音響のパートのパート情報（第１音響に含まれる、共通信号成分以外の音が、例えば、ボーカルやギター等のどのようなパートの音であるかを表す情報）が、メタデータとして付加されていることとする。同様に、第２音響を含む第２コンテンツにも、その第２音響のパートのパート情報が、メタデータとして付加されていることとする。

メタ検出部２４１は、第１音響及び第２音響それぞれのメタデータを検出し、パート認識部２４２に供給する。

パート認識部２４２は、メタ検出部２４１からの第１音響及び第２音響それぞれのメタデータから、第１音響及び第２音響それぞれのパート情報を認識（抽出）して出力する。

［音量比算出部２３２の第１の構成例］

図２５は、図２３の音量比算出部２３２の第１の構成例を示すブロック図である。

図２５において、音量比算出部２３２は、音量比DB２５１、及び、検索部２５２を有する。

音量比DB２５１には、各種の楽器編成の合奏形態における典型的な楽器やボーカル等の各パートについての音量比（例えば、ボーカル等の所定のパートを基準とする音量比）が登録されている。

検索部２５２には、パート推定部２３１（図２３）から、第１音響及び第２音響それぞれのパート情報が供給される。

検索部２５２は、第１音響及び第２音響それぞれのパート情報が表すパートによる合奏形態の各パートについての音量比を、音量比DB２５１から検索して出力する。

［パート推定部２３１の第２の構成例］

図２６は、図２３のパート推定部２３１の第２の構成例を示すブロック図である。

図２４のパート推定部２３１では、第１音響を含む第１コンテンツ、及び、第２音響を含む第２コンテンツに、パート情報のメタデータが付加されていることを前提とし、そのメタデータを用いて、第１音響及び第２音響それぞれのパートを推定したが、図２６のパート推定部２３１は、メタデータを用いずに（メタデータなしで）、第１音響及び第２音響それぞれのパートを推定する。

図２６において、パート推定部２３１は、共通信号抑圧部２６０、平均信号算出部２７７及び２７８、基本周波数推定部２７９及び２８０、ボーカルスコア算出部２８１及び２８２、並びに、パート決定部２８３を有し、第１音響及び第２音響それぞれのパートが、ボーカルパートであるか、又は、ボーカルでないパート（ギターパート等）（以下、非ボーカルパートともいう）であるかを推定する。

ここで、以下では、説明を簡単にするため、第１音響及び第２音響それぞれのパートは、単声であることとする。

共通信号抑圧部２６０は、平滑化スペクトログラム２６１及び２６２、共通ピーク検出部２６３、スペクトログラム算出部２７１及び２７２、共通信号成分抑圧部２７３及び２７４、並びに、逆変換部２７５及び２７６を有し、第１音響及び第２音響から共通信号成分を抑圧する共通信号抑圧処理を行う。

平滑化スペクトログラム算出部２６１には、同期処理部６３（図１０）からの、第２音響と同期がとれた第１音響が供給される。

平滑化スペクトログラム算出部２６１は、図２０の平滑化スペクトログラム算出部２２１と同様にして、そこに供給される第１音響の平滑化スペクトログラムを算出し、共通ピーク検出部２６３に供給する。

平滑化スペクトログラム算出部２６２には、同期処理部６３からの、第１音響と同期がとれた第２音響が供給される。

平滑化スペクトログラム算出部２６２は、図２０の平滑化スペクトログラム算出部２２２と同様にして、そこに供給される第２音響の平滑化スペクトログラムを算出し、共通ピーク検出部２６３に供給する。

共通ピーク検出部２６３は、平滑化スペクトログラム算出部２６１からの第１音響の平滑化スペクトログラム、及び、平滑化スペクトログラム算出部２６２からの第２音響の平滑化スペクトログラムから、図２０の共通ピーク検出部２２３と同様にして、共通信号成分のピークである共通ピークとしての第１及び第２のスペクトルピークを検出し、その共通ピークの周波数と大きさを表す共通ピーク情報を、共通信号成分抑圧部２７３及び２７４に供給する。

スペクトログラム算出部２７１には、同期処理部６３（図１０）からの第１音響が供給される。

スペクトログラム算出部２７１は、図１２のスペクトログラム算出部１１１と同様に、第１音響のスペクトログラムを算出し、共通信号成分抑圧部２７３に供給する。

スペクトログラム算出部２７２には、同期処理部６３からの第２音響が供給される。

スペクトログラム算出部２７２は、図１２のスペクトログラム算出部１１２と同様に、第２音響のスペクトログラムを算出し、共通信号成分抑圧部２７４に供給する。

共通信号成分抑圧部２７３は、共通ピーク検出部２６３からの共通ピーク情報に基づいて、スペクトログラム算出部２７１からの第１音響のスペクトログラムの、共通ピーク情報が表す、共通ピークとしての第１のスペクトルピークの周波数の周波数成分を0とすること等により、第１音響のスペクトログラムに含まれる共通信号成分を抑圧し、共通信号成分を抑圧した第１音響である第１抑圧音響のスペクトログラムを、逆変換部２７５に供給する。

なお、共通信号成分は、一般に、共通ピーク情報が表す、共通ピークとしての第１のスペクトルピークの周波数を中心として広がっているので、共通信号成分抑圧部２７３での共通信号成分の抑圧は、共通ピーク情報が表す周波数を中心とする半音の1/4ないし1/2に対応する周波数帯域の周波数成分を0とすること等により行うことができる。

共通信号成分抑圧部２７４は、共通ピーク検出部２６３からの共通信号成分に基づいて、スペクトログラム算出部２７２からの第２音響のスペクトログラムに含まれる共通信号成分を、共通信号成分抑圧部２７３と同様にして抑圧し、共通信号成分を抑圧した第２音響である第２抑圧音響のスペクトログラムを、逆変換部２７６に供給する。

逆変換部２７５には、共通信号成分抑圧部２７３からの第１抑圧音響のスペクトログラムが供給される他、スペクトログラム算出部２７１に供給されるのと同一の第１音響（元の第１音響）が供給される。

逆変換部２７５は、元の第１音響の位相特性を求め、その位相特性と、共通信号成分抑圧部２７３からの第１抑圧音響のスペクトログラム（振幅特性）とを用いて、逆短時間フーリエ変換を行うことにより、周波数領域の信号である、元の第１音響の位相特性、及び、第１抑圧音響のスペクトログラムを、時間領域の信号である第１抑圧音響に逆変換し、平均信号算出部２７７に供給する。

逆変換部２７６には、共通信号成分抑圧部２７４からの第２抑圧音響のスペクトログラムが供給される他、スペクトログラム算出部２７２に供給されるのと同一の第２音響（元の第２音響）が供給される。

逆変換部２７６は、元の第２音響の位相特性を求め、その位相特性と、共通信号成分抑圧部２７４からの第２抑圧音響のスペクトログラム（振幅特性）とを用いて、逆短時間フーリエ変換を行うことにより、周波数領域の信号である、元の第２音響の位相特性、及び、第２抑圧音響のスペクトログラムを、時間領域の信号である第２抑圧音響に逆変換し、平均信号算出部２７８に供給する。

ここで、共通信号抑圧部２６０では、第１音響が、例えば、左チャンネルと右チャンネル等の複数チャンネルを有する場合には、チャンネルごとに、共通信号抑圧処理が行われる。この場合、逆変換部２７５から平均信号算出部２７７には、複数チャンネルの第１抑圧音響が供給される。

同様に、第２音響が、複数のチャンネルを有する場合にも、共通信号抑圧部２６０では、チャンネルごとに、共通信号抑圧処理が行われる。この場合、逆変換部２７６から平均信号算出部２７８には、複数チャンネルの第２抑圧音響が供給される。

逆変換部２７５から平均信号算出部２７７に供給される第１抑圧音響は、元の第１音響から、共通信号成分が抑圧された信号であり、ほぼ、元の第１音響に含まれているパートの信号（成分）が支配的な音響になっている。

同様に、逆変換部２７６から平均信号算出部２７８に供給される第２抑圧音響は、ほぼ、元の第２音響に含まれているパートの信号が支配的な音響になっている。

なお、共通信号抑圧部２６０では、共通信号抑圧処理を、チャンネルごとではなく、チャンネルをまたぐ形で（マルチチャンネル処理で）行うことができる。

また、第１音響や第２音響について、事前情報としての、例えば、パート情報のメタデータが存在する場合には、その事前情報を用い、例えば、共通信号抑圧処理において、パート情報が表すパートに特徴的な周波数成分の抑圧を低減すること等により、よりパートの信号が支配的な第１抑圧音響や第２抑圧音響を得ることができる。

平均信号算出部２７７は、逆変換部２７５からの第１抑圧音響の複数チャンネルをモノラル化するために、その複数チャンネルの平均値（以下、第１抑圧音響平均信号ともいう）を求めて、基本周波数推定部２７９に供給する。

平均信号算出部２７８は、逆変換部２７６からの第２抑圧音響の複数チャンネルをモノラル化するために、その複数チャンネルの平均値（以下、第２抑圧音響平均信号ともいう）を求めて、基本周波数推定部２８０に供給する。

ここで、第１音響が１チャンネルの信号である場合、平均信号算出部２７７の出力である第１抑圧音響平均信号は、平均信号算出部２７７への入力である第１抑圧音響に等しい。第２抑圧音響平均信号についても、同様である。

基本周波数推定部２７９は、平均信号算出部２７７からの第１抑圧音響平均信号の基本周波数（ピッチ周波数）を、所定の時間長（例えば、数十ミリ秒等）のフレームごとに推定し、ボーカルスコア算出部２８１に供給する。

基本周波数推定部２８０は、平均信号算出部２７８からの第２抑圧音響平均信号の基本周波数を、基本周波数推定部２７９と同様にフレームごとに推定し、ボーカルスコア算出部２８２に供給する。

ここで、信号の基本周波数の推定方法としては、例えば、信号をFFT（高速フーリエ変換）することにより得られるスペクトルのスペクトルピークの最小の周波数を検出する方法等を採用することができる。

ボーカルスコア算出部２８１は、基本周波数推定部２７９からの、第１抑圧音響平均信号のフレームごとの基本周波数に基づいて、第１抑圧音響のボーカルらしさ（第１抑圧音響が音声（歌声）であることの程度）を表すボーカルスコアを算出し、パート決定部２８３に供給する。

ここで、ボーカル（歌声）（歌唱音）については、楽器音に比較して、２つの音の間での基本周波数の遷移が滑らかであり、また、フレーズの開始時や終了時で、どの音階にも当てはまらない曖昧な基本周波数になる傾向がある。

そこで、ボーカルスコア算出部２８１は、第１抑圧音響平均信号の各フレームの基本周波数を、西洋12音階に対応する周波数と比較し、西洋12音階に対応する周波数（のうちの基本周波数に最も近い周波数）と基本周波数との差が、例えば、1/4音以上であるフレームを、ボーカルが支配的なボーカルフレームとして、そのボーカルフレームの数をカウントする。

そして、ボーカルスコア算出部２８１は、ボーカルフレームの数を、第１抑圧音響平均信号のフレーム数で除算し（正規化し）、その結果得られる除算値を、第１抑圧音響のボーカルスコアとして、パート決定部２８３に供給する。

ボーカルスコア算出部２８２は、基本周波数推定部２８０からの、第２抑圧音響平均信号のフレームごとの基本周波数に基づいて、第２抑圧音響のボーカルスコアを、ボーカルスコア算出部２８１と同様にして算出し、パート決定部２８３に供給する。

パート決定部２８３は、ボーカルスコア算出部２８１及び２８２からのボーカルスコアに基づき、第１抑圧音響、及び、第２抑圧音響それぞれのパート（第１音響及び第２音響それぞれのパート）を推定し、それぞれのパートを表すパート情報を出力する。

すなわち、パート決定部２８３は、第１（抑圧）音響、及び、第２（抑圧）音響のうちの、ボーカルスコアが最大の音響のパートをボーカルパートに決定（ボーカルスコアが最大の音響のパートがボーカルパートであると推定）するとともに、他の音響のパートを非ボーカルパートに決定し、第１音響及び第２音響それぞれのパートを表すパート情報を出力する。

図２７は、図２６のパート推定部２３１が行う処理（パート推定処理）を説明するフローチャートである。

ステップＳ２４１において、平滑化スペクトログラム算出部２６１、スペクトログラム算出部２７１、及び、逆変換部２７５が、同期処理部６３（図１０）からの第１音響を受信する。

さらに、ステップＳ２４１では、平滑化スペクトログラム算出部２６２、スペクトログラム算出部２７２、及び、逆変換部２７６が、同期処理部６３からの第２音響を受信して、処理は、ステップＳ２４２に進む。

ステップＳ２４２では、平滑化スペクトログラム算出部２６１、及び、スペクトログラム算出部２７１が、第１音響のスペクトログラムを算出するとともに、平滑化スペクトログラム算出部２６２、及び、スペクトログラム算出部２７２が、第２音響のスペクトログラムを算出する。

さらに、ステップＳ２４２では、平滑化スペクトログラム算出部２６１が、第１音響のスペクトログラムを平滑化することにより、第１音響の平滑化スペクトルグラムを算出するとともに、平滑化スペクトログラム算出部２６２が、第２音響のスペクトログラムを平滑化することにより、第２音響の平滑化スペクトログラムを算出する。

そして、平滑化スペクトログラム算出部２６１で算出された第１音響の平滑化スペクトルグラム、及び、平滑化スペクトログラム算出部２６２で算出された第２音響の平滑化スペクトログラムが、共通ピーク検出部２６３に、スペクトログラム算出部２７１で算出された第１音響のスペクトログラムが、共通信号成分抑圧部２７３に、スペクトログラム算出部２７２で算出された第２音響のスペクトログラムが、共通信号成分抑圧部２７４に、それぞれ供給され、処理は、ステップＳ２４２からステップＳ２４３に進む。

ステップＳ２４３では、共通ピーク検出部２６３が、平滑化スペクトログラム算出部２６１からの第１音響の平滑化スペクトログラムから第１のスペクトルピークを検出するとともに、平滑化スペクトログラム算出部２６２からの第２音響の平滑化スペクトログラムから第２のスペクトルピークを検出して、処理は、ステップＳ２４４に進む。

ステップＳ２４４では、共通ピーク検出部２６３が、第１及び第２のスペクトルピークのうちの、互いに近い位置にある第１及び第２のスペクトルピークを、共通信号成分のピークである共通ピークとして検出し、その共通ピーク（である第１及び第２のスペクトルピーク）の周波数と大きさを表す共通ピーク情報を、共通信号成分抑圧部２７３及び２７４に供給して、処理は、ステップＳ２４５に進む。

ステップＳ２４５では、共通信号成分抑圧部２７３は、共通ピーク検出部２６３からの共通ピーク情報に基づいて、スペクトログラム算出部２７１からの第１音響のスペクトログラムの、共通ピーク情報が表す、共通ピークとしての第１のスペクトルピークの周波数の周波数成分を0とすること等により、第１音響のスペクトログラムに含まれる共通信号成分を抑圧し、共通信号成分を抑圧した第１音響である第１抑圧音響のスペクトログラムを、逆変換部２７５に供給する。

さらに、ステップＳ２４５では、共通信号成分抑圧部２７４が、共通ピーク検出部２６３からの共通信号成分に基づいて、スペクトログラム算出部２７２からの第２音響のスペクトログラムに含まれる共通信号成分を、共通信号成分抑圧部２７３と同様にして抑圧し、共通信号成分を抑圧した第２音響である第２抑圧音響のスペクトログラムを、逆変換部２７６に供給して、処理は、ステップＳ２４６に進む。

ステップＳ２４６では、逆変換部２７５が、そこに供給される第１音響の位相特性を求める（取得する）とともに、逆変換部２７６が、そこに供給される第２音響の位相特性を求め、処理は、ステップＳ２４７に進む。

ステップＳ２４７では、逆変換部２７５が、第１音響の位相特性と、共通信号成分抑圧部２７３からの第１抑圧音響のスペクトログラム（振幅特性）とを、時間領域の信号である第１抑圧音響に逆変換し、平均信号算出部２７７に供給する。

さらに、ステップＳ２４６では、逆変換部２７６が、第２音響の位相特性と、共通信号成分抑圧部２７３からの第２抑圧音響のスペクトログラム（振幅特性）とを、時間領域の信号である第２抑圧音響に逆変換し、平均信号算出部２７８に供給して、処理は、ステップＳ２４８に進む。

ステップＳ２４８では、平均信号算出部２７７が、逆変換部２７５からの第１抑圧音響の複数チャンネルの平均値である第１抑圧音響平均信号を求めて、基本周波数推定部２７９に供給する。

さらに、ステップＳ２４８では、平均信号算出部２７８が、逆変換部２７６からの第２抑圧音響の複数チャンネルの平均値である第２抑圧音響平均信号を求め、基本周波数推定部２８０に供給して、処理は、ステップＳ２４９に進む。

ステップＳ２４９では、基本周波数推定部２７９が、平均信号算出部２７７からの第１抑圧音響平均信号の基本周波数を推定し、ボーカルスコア算出部２８１に供給する。

さらに、ステップＳ２４９では、基本周波数推定部２８０が、平均信号算出部２７８からの第２抑圧音響平均信号の基本周波数を推定し、ボーカルスコア算出部２８２に供給して、処理は、ステップＳ２５０に進む。

ステップＳ２５０では、ボーカルスコア算出部２８１が、基本周波数推定部２７９からの第１抑圧音響平均信号の基本周波数に基づいて、第１（抑圧）音響のボーカルスコアを算出し、パート決定部２８３に供給する。

さらに、ステップＳ２５０では、ボーカルスコア算出部２８２が、基本周波数推定部２８０からの第２抑圧音響平均信号の基本周波数に基づいて、第２（抑圧）音響のボーカルスコアを算出し、パート決定部２８３に供給して、処理は、ステップＳ２５１に進む。

ステップＳ２５１では、パート決定部２８３が、ボーカルスコア算出部２８１及び２８２からのボーカルスコアに基づき、第１音響及び第２音響それぞれのパートが、ボーカルパート及び非ボーカルパートのうちのいずれであるかを推定し、第１音響及び第２音響それぞれのパートを表すパート情報を出力して、パート推定処理は、終了する。

なお、図２７において、ステップＳ２４２ないしＳ２４７の処理が、共通信号抑圧部２６０（図２６）で行われる、第１音響及び第２音響から共通信号成分を抑圧する共通信号抑圧処理である。

［音量比算出部２３２の第２の構成例］

図２８は、図２３の音量比算出部２３２の第２の構成例を示すブロック図である。

図２８において、音量比算出部２３２は、共通信号抑圧部２９１、選択部２９２、短時間パワー算出部２９３及び２９４、音量差算出部２９５、調整部２９６、及び、比算出部２９７を有する。

共通信号抑圧部２９１には、同期処理部６３（図１０）からの第１音響及び第２音響が供給される。

共通信号抑圧部２９１は、図２６の共通信号抑圧部２６０と同様に構成され、同期処理部６３からの第１音響及び第２音響それぞれの共通信号成分を抑圧する共通信号抑圧処理を行い、その結果得られる第１抑圧音響、及び、第２抑圧音響を、選択部２９２に供給する。

選択部２９２には、共通信号抑圧部２９１から、第１抑圧音響、及び、第２抑圧音響が供給される他、パート推定部２３１（図２３）から、第１音響及び第２音響それぞれのパート情報が供給される。

選択部２９２は、パート推定部２３１からのパート情報に基づき、共通信号抑圧部２９１からの第１抑圧音響、及び、第２抑圧音響から、ボーカルパートの音響（第１抑圧音響、及び、第２抑圧音響のうちの一方）を選択し、短時間パワー算出部２９３、及び、比算出部２９７に供給する。

さらに、選択部２９２は、パート推定部２３１からのパート情報に基づき、共通信号抑圧部２９１からの第１抑圧音響、及び、第２抑圧音響から、非ボーカルパートの音響（第１抑圧音響、及び、第２抑圧音響のうちの他方）を選択し、短時間パワー算出部２９４、及び、調整部２９６に供給する。

短時間パワー算出部２９３は、選択部２９２からのボーカルパートの音響の音量（例えば、dB値）を、所定の時間長（例えば、数十ミリ秒等）のフレームごとに算出し、音量差算出部２９５に供給する。

短時間パワー算出部２９４は、短時間パワー算出部２９３と同様に、選択部２９２からの非ボーカルパートの音響の音量を、フレームごとに算出し、音量差算出部２９５に供給する。

音量差算出部２９５は、短時間パワー算出部２９３からのボーカルパートの音響の音量から、短時間パワー算出部２９４からの非ボーカルパートの音響の音量を減算することにより、ボーカルパートの音響の音量と非ボーカルパートの音響の音量との音量差を、フレームごとに求め、調整部２９６に供給する。

調整部２９６は、音量差算出部２９５からのフレームごとの音量差に基づき、第１音響と第２音響とを合成した合成音響、つまり、ボーカルパートの音響と非ボーカルパートの音響とを合成した合成音において、ボーカルパートの音響と非ボーカルパートの音響との音量比が適切な音量比になるように、ボーカルパート及び非ボーカルパートの音響のうちの一方である、例えば、非ボーカルパートの音響の音量を調整するときの調整量bを求める。

具体的には、ボーカルパートの音響の音量と非ボーカルパートの音響の音量との第tフレームの音量差（ボーカルパートの音響の音量から非ボーカルパートの音響の音量を減算した減算値）を、Pd(t)と表すこととすると、調整部２９６は、例えば、式（２）に従って、調整量bを求める。

b＝min_t{Pd(t)}−γ
・・・（２）

なお、式（２）において、min_t{Pd(t)}は、フレームごとの音量差Pd(t)のうちの最小値を表す。また、γは、所定の定数であり、例えば、3[dB]等である。

調整部２９６は、選択部２９２からの非ボーカルパートの音響の音量を、調整量bだけ調整し、その調整後の非ボーカルパートの音響を、比算出部２９７に供給する。

ここで、式（２）の調整量bによれば、非ボーカルパートの音響は、ボーカルパートの音響よりも、常時、少なくとも、γ[dB]だけ小さい音量になるように調整される（調整量bが正であれば、非ボーカルパートの音響の音量は大にされ、調整量bが負であれば、非ボーカルパートの音響の音量は小にされる）。

ボーカルパートは、おそらくはメロディを担当しており、最重要のパートである。そこで、合成音響において、常にボーカルが（明瞭に）聞こえるようにするべく、非ボーカルパートの音響の音量が、ボーカルパートの音響の音量を超えないように、音量比を決定するため、調整部２９６では、調整量bに従った音量の調整後の非ボーカルパートの音響の音量が、ボーカルパートの音響の音量よりも、少なくとも、γ[dB]だけ小さくなるような調整量bが、式（２）に従って求められる。

調整部２９６による音量の調整後の非ボーカルパートの音響は、常時、ボーカルパートの音響よりも、少なくとも、γ[dB]だけ小さい音量になるので、そのような非ボーカルパートの音響とボーカルパートの音響とを合成した合成音響については、ボーカルパートの音響が、非ボーカルパートの音響に埋もれずに聞こえることが期待される。

比算出部２９７は、選択部２９２からのボーカルパートの音響の全体の音量[dB]と、調整部２９６からの音量の調整後の非ボーカルパートの音響の全体の音量[dB]と求める。

そして、比算出部２９７は、ボーカルパートの音響の音量と非ボーカルパートの音響の音量とから、第１音響及び第２音響（を合成するとき）の音量比を算出して出力する。

すなわち、比算出部２９７は、ボーカルパートの音響及び音量の調整後の非ボーカルパートの音響のうちの一方になっている第１音響の音量と、ボーカルパートの音響及び音量の調整後の非ボーカルパートの音響のうちの他方になっている第２音響の音量との比である音量比を算出して出力する。

なお、３つ以上のコンテンツが、合成対象コンテンツであり、その３つ以上の合成対象コンテンツのうちの１つの合成対象コンテンツがボーカルパートの音響を含み、残りの２つ以上の合成対象コンテンツが非ボーカルパートの音響を含む場合には、図２８の音量比算出部２３２では、２つ以上の合成対象コンテンツの非ボーカルパートの音響それぞれについて、ボーカルパートの音響を用いて、独立に、音量比が求められる。

図２９は、図２８の音量比算出部２３２の処理（音量比算出処理）を説明するフローチャートである。

ステップＳ２６１において、共通信号抑圧部２９１が、同期処理部６３（図１０）からの第１音響及び第２音響を受信するとともに、選択部２９２が、パート推定部２３１（図２３）からのパート情報を受信し、処理は、ステップＳ２６２に進む。

ステップＳ２６２では、共通信号抑圧部２９１が、図２６の共通信号抑圧部２６０と同様に、同期処理部６３からの第１音響及び第２音響それぞれの共通信号成分を抑圧する共通信号抑圧処理を行い、その結果得られる第１抑圧音響、及び、第２抑圧音響を、選択部２９２に供給して、処理は、ステップＳ２６３に進む。

ステップＳ２６３では、選択部２９２が、パート推定部２３１からのパート情報に基づき、共通信号抑圧部２９１からの第１抑圧音響、及び、第２抑圧音響のうちの一方であるボーカルパートの音響を選択し、短時間パワー算出部２９３、及び、比算出部２９７に供給する。

さらに、選択部２９２は、パート推定部２３１からのパート情報に基づき、共通信号抑圧部２９１からの第１抑圧音響、及び、第２抑圧音響のうちの他方である非ボーカルパートの音響を選択し、短時間パワー算出部２９４、及び、調整部２９６に供給して、処理は、ステップＳ２６３からステップＳ２６４に進む。

ステップＳ２６４では、短時間パワー算出部２９３が、選択部２９２からのボーカルパートの音響の音量（パワー）を、フレームごとに算出し、音量差算出部２９５に供給するとともに、短時間パワー算出部２９４が、選択部２９２からの非ボーカルパートの音響の音量を、フレームごとに算出し、音量差算出部２９５に供給して、処理は、ステップＳ２６５に進む。

ステップＳ２６５では、音量差算出部２９５が、短時間パワー算出部２９３からのボーカルパートの音響の音量と、短時間パワー算出部２９４からの非ボーカルパートの音響の音量との音量差を、フレームごとに求め、調整部２９６に供給する。

調整部２９６は、音量差算出部２９５からのフレームごとの音量差に基づき、非ボーカルパートの音響の音量を調整する調整量bを、上述の式（２）に従って求め、処理は、ステップＳ２６５からステップＳ２６６に進む。

ステップＳ２６６では、調整部２９６が、選択部２９２からの非ボーカルパートの音響の音量を、調整量bだけ調整し、その調整後の非ボーカルパートの音響を、比算出部２９７に供給して、処理は、ステップＳ２６７に進む。

ステップＳ２６７では、比算出部２９７が、選択部２９２からのボーカルパートの音響の全体の音量と、調整部２９６からの音量の調整後の非ボーカルパートの音響の全体の音量と求める。

そして、比算出部２９７は、ボーカルパートの音響の音量と非ボーカルパートの音響の音量とから、ボーカルパートの音響及び非ボーカルパートの音響のうちの一方になっている第１音響と、ボーカルパートの音響及び非ボーカルパートの音響のうちの他方になっている第２音響とを合成するときの音量比を算出して出力し、音量比算出処理は、終了する。

なお、図２３の最適音量比算出部では、図２４又は図２６のパート推定部２３１を選択的に用いるとともに、図２５又は図２８の音量比算出部２３２を選択的に用いて、音量比を求めることができる。

すなわち、例えば、合成対象コンテンツに、パート情報がメタデータとして付加されているコンテンツと、付加されていないコンテンツとが混在する場合には、パート情報がメタデータとして付加されている合成対象コンテンツについては、図２４のパート推定部２３１と図２５の音量比算出部２３２とを用いて、音量比を求め、パート情報がメタデータとして付加されていない合成対象コンテンツについては、図２６のパート推定部２３１と図２８の音量比算出部２３２とを用いて、音量比を求めることができる。

［本技術を適用したコンテンツ処理システムの第２実施の形態］

図３０は、本技術を適用したコンテンツ処理システムの第２実施の形態の構成例を示すブロック図である。

なお、図中、図１の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

コンテンツ処理システムの構成としては、スタンドアロンの構成の他、１つの機能を、ネットワークを介して複数の装置で分担し、共同して処理を行うクライアントサーバシステム等のクラウドコンピューティングの構成を採用することができる。

図３０のコンテンツ処理システムは（後述する図３５のコンテンツ処理システムも同様）、クライアントサーバシステムの構成になっており、例えば、動画共有サービスにビルトインすることができる。

図３０において、コンテンツ処理システムは、クライアント１とサーバ２とを有し、クライアント１とサーバ２とは、インターネット等のネットワークを介して接続されている。

クライアント１は、ユーザが直接操作することができる装置であり、例えば、LANを利用したホームネットワークに接続された装置や、スマートフォン等の携帯端末、その他の、ネットワーク上のサーバと通信可能な装置を採用することができる。

一方、サーバ２は、インターネット等のネットワーク上のサービスを提供するサーバであり、単一のサーバであってもよいし、クラウドコンピューティングに用いられる複数のサーバの集合であってもよい。

なお、サーバ２には、クライアント１と同様に構成される１以上の他のクライアントを接続することができるが、その図示は、省略する。

図３０では、クライアント１は、ユーザI/F１１及びコンテンツ記憶部１２を有し、サーバ２は、特徴量算出部１３ないし合成部２０を有する。

図３１は、図３０のコンテンツ処理システムのクライアント１が行う、サーバ２にコンテンツをアップロードする処理を説明するフローチャートである。

クライアント１では、ステップＳ３１１において、ユーザが、コンテンツを選択するように、ユーザI/F１１を操作するのを待って、コンテンツ記憶部１２が、ユーザによるユーザI/F１１の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、処理は、ステップＳ３１２に進む。

ステップＳ３１２では、クライアント１が、コンテンツ記憶部１２から注目コンテンツを読み出し、サーバ２に送信（アップロード）して、クライアント１は、処理を終了する。

図３２は、図３０のコンテンツ処理システムのクライアント１が行う、合成コンテンツ要求する処理を説明するフローチャートである。

ステップＳ３２１において、ユーザが、合成コンテンツの再生を要求するように、ユーザI/F１１を操作するのを待って、ユーザI/F１１は、コンテンツの合成を要求する合成要求を、サーバ２（のコンテンツ選択部１９）に送信して、処理は、ステップＳ３２２に進む。

ステップＳ３２２では、ステップＳ３２１の合成要求に対応して、サーバ２から合成コンテンツが送信されてくるのを待って、ユーザI/F１１が、サーバ２（の合成部２０）からの合成コンテンツを受信し、処理は、ステップＳ３２３に進む。

ステップＳ３２３では、ユーザI/F１１が、サーバ２の合成部２０からの合成コンテンツを再生し、すなわち、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行い、クライアント１は、処理を終了する。

図３３は、図３０のクライアント１が行う図３１の処理に応じてサーバ２が行う処理を説明するフローチャートである。

ステップＳ３３１において、サーバ２の特徴量算出部１３は、図３１のステップＳ３１２でクライアント１から送信されてくる注目コンテンツを受信し、処理は、ステップＳ３３２に進む。

ステップＳ３３２ないしＳ３３９では、図２のコンテンツ登録処理のステップＳ１２ないしＳ１９とそれぞれ同様の処理が行われ、サーバ２は、処理を終了する。

したがって、図３３の処理によれば、注目コンテンツが、コンテンツDB１８に登録され、注目コンテンツの音響特徴量が、特徴量DB１４に登録される。

さらに、コンテンツDB１８の登録コンテンツの中で、注目コンテンツとの間で同期をとることができる登録コンテンツについては、注目コンテンツとの間で同期をとるための同期情報が、同期情報DB１７に登録される。

図３４は、図３０のクライアント１が行う図３２の処理に応じてサーバ２が行う処理を説明するフローチャートである。

図３２のステップＳ３２１において、クライアント１からサーバ２に合成要求が送信されてくると、ステップＳ３５１において、サーバ２のコンテンツ選択部１９は、クライアント１からの合成要求に対応して、図３のステップＳ３１と同様の合成対象コンテンツ選択処理を行う。

ここで、ステップＳ３５１の合成対象コンテンツ選択処理によれば、図８や図９で説明したようにして、コンテンツDB１８に記憶された登録コンテンツの中から、合成コンテンツの生成に用いる複数のコンテンツが、合成対象コンテンツとして選択される。

コンテンツ選択部１９は、合成対象コンテンツ選択処理により得られる合成対象コンテンツどうしを同期させるための同期情報（合成用の同期情報）を、同期情報DB１７から読み出し、合成対象コンテンツとともに、合成部２０に供給して、処理は、ステップＳ３５１からステップＳ３５２に進む。

ステップＳ３５２では、合成部２０は、コンテンツ選択部１９からの合成用の同期情報を用いて、同じくコンテンツ選択部１９からの合成対象コンテンツを同期させて合成し、合成コンテンツを生成する合成処理を、図３のステップＳ３２と同様にして行い、処理は、ステップＳ３５３に進む。

ステップＳ３５３では、合成部２０が、合成処理により得られる合成コンテンツを、クライアント１に送信して、サーバ２は、処理を終了する。

図３０のコンテンツ処理システムでは、サーバ２が合成部２０を有し、サーバ２において、合成コンテンツが生成されるので、クライアント１からサーバ２にアップロードされたコンテンツと、コンテンツDB１８にあらかじめ記憶されている登録コンテンツとを、合成対象コンテンツとして用いて、又は、コンテンツDB１８にあらかじめ記憶されている登録コンテンツだけを、合成対象コンテンツとして用いて、合成コンテンツを生成することができる。

［本技術を適用したコンテンツ処理システムの第３実施の形態］

図３５は、本技術を適用したコンテンツ処理システムの第３実施の形態の構成例を示すブロック図である。

なお、図中、図１又は図３０の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

図３５のコンテンツ処理システムは、図３０の場合と同様に、クライアント１とサーバ２とを有し、クライアント１とサーバ２とがネットワークを介して接続されるクライアントサーバシステムの構成になっている。

但し、図３５では、クライアント１が、ユーザI/F１１及びコンテンツ記憶部１２の他に、特徴量算出部１３及び合成部２０を有する点で、ユーザI/F１１及びコンテンツ記憶部１２だけを有する図３０のクライアント１と異なっている。

さらに、図３５では、サーバ２が、特徴量DB１４ないしコンテンツ選択部１９を有し、特徴量算出部１３及び合成部２０を有しない点で、特徴量算出部１３及び合成部２０を含む特徴量算出部１３ないし合成部２０を有する図３０のサーバ２と異なっている。

なお、図３５の実施の形態では、ライセンス上、合成対象コンテンツとして用いることができるコンテンツが、登録コンテンツとして、コンテンツDB１８に登録されており、さらに、特徴量DB１４には、コンテンツDB１８に記憶（登録）されたコンテンツの音響特徴量が登録されていることとする。

図３６は、図３５のコンテンツ処理システムのクライアント１が行う処理を説明するフローチャートである。

ステップＳ３６１において、ユーザが、コンテンツを選択するように、ユーザI/F１１を操作するのを待って、コンテンツ記憶部１２が、ユーザによるユーザI/F１１の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、特徴量算出部１３に供給して、処理は、ステップＳ３６２に進む。

ステップＳ３６２では、特徴量算出部１３が、図２のステップＳ１３と同様に、コンテンツ記憶部１２からの注目コンテンツに含まれる音響の音響特徴量を算出する特徴量算出処理を行い、処理は、ステップＳ３６３に進む。

ステップＳ３６３では、特徴量算出部１３が、特徴量算出処理によって得られた注目コンテンツの音響特徴量を、サーバ２（の同期関係情報生成部１５）に送信（アップロード）して、処理は、ステップＳ３６４に進む。

ステップＳ３６４では、クライアント１の合成部２０が、サーバ２のコンテンツ選択部１９から後述するようにして送信されてくる合成対象コンテンツと（合成用の）同期情報とを受信する。

そして、合成部２０は、ユーザI/F１１を介して、コンテンツ記憶部１２から注目コンテンツを読み出し、合成対象コンテンツとして、サーバ２からの合成対象コンテンツに含め、処理は、ステップＳ３６４からステップＳ３６５に進む。

ここで、ステップＳ３６４でサーバ２からクライアント１に送信されてくる同期情報は、後述するように、注目コンテンツを含む合成対象コンテンツどうしの同期をとるための同期情報になっている。

ステップＳ３６５では、合成部２０は、サーバ２（のコンテンツ選択部１９）からの合成用の同期情報を用いて、注目コンテンツを含む合成対象コンテンツを同期させて合成し、合成コンテンツを生成する合成処理を、図３のステップＳ３２と同様にして行う。

そして、合成部２０は、合成処理により得られる合成コンテンツを、ユーザI/F１１に供給して、処理は、ステップＳ３６５からステップＳ３６６に進む。

ステップＳ３６６では、ユーザI/F１１が、合成部２０からの合成コンテンツを再生し、すなわち、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行い、クライアント１は、処理を終了する。

図３７は、図３６のクライアント１が行う図３１の処理に応じてサーバ２が行う処理を説明するフローチャートである。

ステップＳ３７１において、サーバ２の同期関係情報生成部１５は、図３６のステップＳ３６３でクライアント１から送信されてくる注目コンテンツの音響特徴量を受信し、処理は、ステップＳ３７２に進む。

ステップＳ３７２では、同期関係情報生成部１５が、コンテンツDB１８に記憶された登録コンテンツから、まだ、注目コンテンツとの同期の可否を判定する対象の判定対象コンテンツとして選択されていないコンテンツの１つを、判定対象コンテンツに選択し、注目コンテンツと判定対象コンテンツとのセットを、注目する注目セットとして、処理は、ステップＳ３７３に進む。

ステップＳ３７３では、同期関係情報生成部１５は、図２のステップＳ１６と同様に、注目セットについて、クライアント１からの、注目セットの注目コンテンツの音響特徴量と、特徴量DB１４に記憶されている、注目セットの判定対象コンテンツの音響特徴量とに基づいて、注目コンテンツと判定対象コンテンツとの同期に関係する同期関係情報を生成する同期関係情報生成処理を行う。

そして、同期関係情報生成部１５は、同期関係情報によって得られる、注目セット（の注目コンテンツと判定対象コンテンツ）の同期関係情報を、同期可否判定部１６に供給して、処理は、ステップＳ３７３からステップＳ３７４に進む。

ステップＳ３７４では、同期可否判定部１６は、図２のステップＳ１７と同様に、同期関係情報生成部１５からの、注目セットの同期関係情報に含まれる同期可否レベルに基づいて、注目コンテンツと判定対象コンテンツとの音響どうしの同期をとることができるかどうかの同期の可否の判定を行う。

ステップＳ３７４において、注目コンテンツと判定対象コンテンツと（の音響どうし）の同期をとることができると判定された場合、処理は、ステップＳ３７５に進み、同期可否判定部１６は、同期をとることができると判定した注目コンテンツと登録コンテンツとの注目セット（を識別する情報）を、同期関係情報生成部１５からの、注目セットの同期関係情報に含まれる同期情報とともに、コンテンツ選択部１９に供給する。

さらに、ステップＳ３７５では、コンテンツ選択部１９が、同期可否判定部１６からの注目セットの同期情報を、同じく同期可否判定部１６からの注目セット（を識別する情報）に対応付け、同期情報DB１７に供給して一時登録して、処理は、ステップＳ３７６に進む。

一方、ステップＳ３７４において、注目コンテンツと登録コンテンツとの同期をとることができないと判定された場合、処理は、ステップＳ３７５をスキップして、ステップＳ３７６に進む。

ステップＳ３７６では、同期関係情報生成部１５は、コンテンツDB１８に記憶された登録コンテンツのすべてを、判定対象コンテンツに選択したかどうかを判定する。

ステップＳ３７６において、コンテンツDB１８に記憶された登録コンテンツのすべてを、まだ、判定対象コンテンツに選択していないと判定された場合、すなわち、コンテンツDB１８に記憶された登録コンテンツの中に、判定対象コンテンツに選択されていないコンテンツがある場合、処理は、ステップＳ３７２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ３７６において、コンテンツDB１８に記憶された登録コンテンツのすべてを、判定対象コンテンツに選択したと判定された場合、すなわち、注目コンテンツについて、コンテンツDB１８に記憶された登録コンテンツのすべてとの間で、同期の可否の判定が行われ、さらに、注目コンテンツとの同期が可能な登録コンテンツについて、その登録コンテンツと注目コンテンツとを同期させるための同期情報が、同期情報DB１７に一時登録された場合、処理は、ステップＳ３７７に進み、コンテンツ選択部１９は、図３のステップＳ３１と同様に、ユーザによるユーザI/F１１の操作に応じて、コンテンツDB１８に記憶された登録コンテンツ等の中から、合成コンテンツの生成に用いる複数のコンテンツを、合成対象コンテンツとして選択する合成対象コンテンツ選択処理を行う。

ここで、図３５のコンテンツ処理システムでは、クライアント１（の特徴量算出部１３）からサーバ２に音響特徴量が送信される注目コンテンツは、必ず、合成対象コンテンツに含められる。

そのため、合成対象コンテンツ選択処理としては、図８の独立合成対象コンテンツ選択処理と、図９の連続合成対象コンテンツ選択処理とがあるが、図３５のコンテンツ処理システムによるステップＳ３７７の合成対象コンテンツ選択処理としては、注目コンテンツが、必ず、合成対象コンテンツに選択される図９の連続合成対象コンテンツ選択処理が行われる。

ステップＳ３７７において、コンテンツ選択部１９は、合成対象コンテンツ選択処理によって、注目コンテンツを含む合成対象コンテンツを選択すると、処理は、ステップＳ３７８に進む。

ステップＳ３７８では、コンテンツ選択部１９は、合成対象コンテンツである注目コンテンツと他の合成対象コンテンツ（注目コンテンツ以外の合成対象コンテンツ）どうしを同期させるための同期情報（注目コンテンツを含む合成対象コンテンツどうしの同期をとるための同期情報）を、同期情報DB１７から読み出し、コンテンツDB１８に登録コンテンツとして記憶されている合成対象コンテンツとともに、クライアント１（の合成部２０）に送信して、処理は、ステップＳ３７９に進む。

ここで、図３５の実施の形態では、クライアント１からサーバ２には、注目コンテンツ（のデータ）そのものではなく、注目コンテンツの音響特徴量が送信され、サーバ２において、注目コンテンツは、コンテンツDB１８に登録されない。

したがって、サーバ２（のコンテンツ選択部１９）からクライアント１に送信される合成対象コンテンツには、注目コンテンツが含まれない。

そのため、クライアント１では、図３６で説明したように、合成部２０において、ユーザI/F１１を介して、コンテンツ記憶部１２から注目コンテンツが読み出され、合成対象コンテンツとして、サーバ２からの合成対象コンテンツに含められる。

ステップＳ３７９では、コンテンツ選択部１９は、ステップＳ３７５で注目コンテンツと登録コンテンツとのセットに対応付けて一時登録した同期情報（以下、注目コンテンツについての同期情報ともいう）を、同期情報DB１７から削除し、サーバ２は、処理を終了する。

すなわち、図３５の実施の形態では、サーバ２において、注目コンテンツは、コンテンツDB１８に登録されないため、注目コンテンツを記憶しているクライアント１以外のクライアントでは、注目コンテンツを合成対象コンテンツとして、合成コンテンツを生成することはできない。

したがって、注目コンテンツについての同期情報は、クライアント１以外のクライアントにおいて、合成コンテンツの生成に用いられないため、サーバ２において、クライアント１に提供（送信）された後に削除される。

以上のように、図３５のコンテンツ処理システムでは、クライアント１が特徴量算出部１３及び合成部２０を有し、クライアント１において、注目コンテンツの音響特徴量の算出、及び、合成コンテンツの生成が行われる。

また、図３５のコンテンツ処理システムでは、クライアント１からサーバ２に、注目コンテンツそのものが送信されず、サーバ２のコンテンツDB１８に記憶された登録コンテンツの他、クライアント１のコンテンツ記憶部１２に記憶された注目コンテンツを、必ず、合成対象コンテンツとして用いて、合成コンテンツが生成される。

図３５のコンテンツ処理システムでは、注目コンテンツそのものが、サーバ２にアップロードされず、したがって、コンテンツDB１８に、登録コンテンツとして登録されないので、プライベートなコンテンツであって、不特定多数に公開したくないコンテンツや、ライセンス上、コンテンツそのもののアップロードや、コンテンツDB１８への登録が困難なコンテンツ等を注目コンテンツとし、そのような注目コンテンツを合成対象コンテンツに含めて、合成コンテンツを生成する場合等に有用である。

その他、図３５のコンテンツ処理システムでは、図３０のコンテンツ処理システムに比較して、サーバ２の負荷を軽減することができる。

［本技術を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図３８は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク４０５やROM４０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体４１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体４１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体４１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体４１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク４０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介したりして、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)４０２を内蔵しており、CPU４０２には、バス４０１を介して、入出力インタフェース４１０が接続されている。

CPU４０２は、入出力インタフェース４１０を介して、ユーザによって、入力部４０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)４０３に格納されているプログラムを実行する。あるいは、CPU４０２は、ハードディスク４０５に格納されたプログラムを、RAM(Random Access Memory)４０４にロードして実行する。

これにより、CPU４０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU４０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース４１０を介して、出力部４０６から出力、あるいは、通信部４０８から送信、さらには、ハードディスク４０５に記録等させる。

なお、入力部４０７は、キーボードや、マウス、マイク等で構成される。また、出力部４０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

なお、本技術は、以下のような構成をとることができる。

［１］
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
を備える情報処理装置。
［２］
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記同一又は類似の音響信号成分を抑圧して合成する
［１］に記載の情報処理装置。
［３］
前記合成対象コンテンツは、画像を含み、
前記合成部は、前記合成対象コンテンツから、画像に映る被写体を抽出し、所定の背景に合成する
［１］に記載の情報処理装置。
［４］
前記合成対象コンテンツは、画像を含み、
前記合成部は、
画像の配置を表す配置情報に従い、前記合成対象コンテンツに含まれる画像を、前記配置情報が表す配置に合成し、
前記配置情報に従い、前記合成対象コンテンツに含まれる音響に、定位感を付加し、その定位感を付加した音響を合成する
［１］に記載の情報処理装置。
［５］
前記合成対象コンテンツに含まれる、前記同一又は類似の音響信号成分のレベルが一致するように、前記合成対象コンテンツ各々の音量を変更するための音量正規化係数を算出する音量正規化係数算出部をさらに備え、
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量正規化係数に従って音量を調整して合成する
［１］に記載の情報処理装置。
［６］
前記音量正規化係数算出部は、
１の合成対象コンテンツに含まれる音響のスペクトルのピークである第１のスペクトルピーク、及び、他の１の合成対象コンテンツに含まれる音響のスペクトルのピークである第２のスペクトルピークから、互いに近い位置にある第１及び第２のスペクトルピークを、前記同一又は類似の音響信号成分のピークである共通ピークとして検出し、
前記共通ピークとして検出された、前記第１のスペクトルピークと、所定数倍した前記第２のスペクトルピークとの誤差を最小化する前記所定数倍を、前記音量正規化係数として算出する
［５］に記載の情報処理装置。
［７］
前記合成対象コンテンツに含まれる音響のパートを推定し、前記パートに基づいて、前記合成対象コンテンツの最適な音量比を求める最適音量比算出部をさらに備え、
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量比に従って音量を調整して合成する
［１］に記載の情報処理装置。
［８］
前記最適音量比算出部は、前記合成対象コンテンツのメタデータから、その合成対象コンテンツに含まれる音響のパートを推定する
［７］に記載の情報処理装置。
［９］
前記最適音量比算出部は、前記合成対象コンテンツに含まれる音響から、前記同一又は類似の音響信号成分を抑圧した抑圧音響の基本周波数に基づいて、前記合成対象コンテンツに含まれる音響のパートが、ボーカルパートであるかどうかを推定する
［７］に記載の情報処理装置。
［１０］
前記最適音量比算出部は、ボーカルパートの音響と、前記ボーカルパート以外のパートである非ボーカルパートの音響との音量の差が所定値以上になるように、前記音量比を求める
［７］に記載の情報処理装置。
［１１］
前記最適音量比算出部は、合奏形態における音響の各パートの音量に関する情報が登録されたデータベースを参照して、前記音量比を求める
［７］に記載の情報処理装置。
［１２］
前記同期情報生成部は、２つのコンテンツの音響特徴量の相互相関係数が最大になるときのラグを、前記２つのコンテンツを同期させるための同期情報として求める
［１］ないし［１１］のいずれかに記載の情報処理装置。
［１３］
前記相互相関係数の最大値に基づいて、前記２つのコンテンツが、同一又は類似の音響信号成分を含み、同期をとることができるかどうかの同期の可否を判定する同期可否判定部と、
ユーザの操作に応じて、同一又は類似の音響信号成分を含む２つ以上のコンテンツを、前記合成コンテンツに合成する対象の合成対象コンテンツに選択するコンテンツ選択部と
をさらに備え、
前記合成部は、前記合成対象コンテンツを、前記合成コンテンツに合成する
［１２］に記載の情報処理装置。
［１４］
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
を含む情報処理方法。
［１５］
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
して、コンピュータを機能させるためのプログラム。
［１６］
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
して、コンピュータを機能させるためのプログラムが記録された記録媒体。
［１７］
クライアントと、
前記クライアントと通信するサーバと
を備え、
前記サーバは、
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
のうちの、少なくとも、前記同期情報生成部を有し、
前記クライアントは、前記特徴量算出部、前記同期情報生成部、及び、前記合成部のうちの残りを有する
情報処理システム。
［１８］
クライアントと、
前記クライアントと通信するサーバと
を備える情報処理システムの前記サーバが、
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
のうちの、少なくとも、前記同期情報生成ステップを行い、
前記クライアントが、前記特徴量算出ステップ、前記同期情報生成ステップ、及び、前記合成ステップのうちの残りを行う
情報処理方法。

１クライアント，２サーバ，１１ユーザI/F，１１Ａ入力部，１１Ｂ出力部，１２コンテンツ記憶部，１３特徴量算出部，１４特徴量DB，１５同期関係情報生成部，１６同期可否判定部，１７同期情報DB，１８コンテンツDB，１９コンテンツ選択部，２０合成部，３１音響復号部，３２チャンネル統合部，３３スペクトログラム算出部，４１相関係数算出部，４２最大値検出部，４３ラグ検出部，５１画像復号部，５２画像フォーマット変換部，５３同期処理部，５４画像合成部，５５画像符号化部，
６１音響復号部，６２音響フォーマット変換部，６３同期処理部，６４音響合成部，６５音響符号化部，６６マキシング処理部，１１１，１１２スペクトルグラム算出部，１１３ゲイン調整部，１１４共通信号成分検出部，１１５，１１６共通信号成分抑圧部，１１９加算部，１２０逆変換部，１２１，１２２被写体研修部，１２３背景設定部，１２４配置設定部，１２５合成部，１３１，１３２定位感付加部，１３３加算部，２０１音量正規化係数算出部，２０２合成部，２１１音量調整部，２１２加算部，２２１，２２２平滑化スペクトルグラム算出部，２２３共通ピーク検出部，２２４係数算出部，２３１パート推定部，２３２音量比算出部，２４１メタ検出部，２４２パート認識部，２５１音量比DB，２５２検索部，２６０共通信号抑圧部，２６１，２６２平滑化スペクトルグラム算出部，２６３共通ピーク検出部，２７１，２７２スペクトルグラム算出部，２７３，２７４共通信号成分抑圧部，２７５，２７６逆変換部，２７７，２７８平均信号算出部，２７９，２８０基本周波数推定部，２８１，２８２ボーカルスコア算出部，２８３パート決定部，２９１共通信号抑圧部，２９２選択部，２９３，２９４短時間パワー算出部，２９５音量差算出部，２９６調整部，２９７比算出部，４０１バス，４０２ CPU，４０３ ROM，４０４ RAM，４０５ハードディスク，４０６出力部，４０７入力部，４０８通信部，４０９ドライブ，４１０入出力インタフェース，４１１リムーバブル記録媒体

Claims

音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
を備える情報処理装置。
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記同一又は類似の音響信号成分を抑圧して合成する
請求項１に記載の情報処理装置。
前記合成対象コンテンツは、画像を含み、
前記合成部は、前記合成対象コンテンツから、画像に映る被写体を抽出し、所定の背景に合成する
請求項１に記載の情報処理装置。
前記合成対象コンテンツは、画像を含み、
前記合成部は、
画像の配置を表す配置情報に従い、前記合成対象コンテンツに含まれる画像を、前記配置情報が表す配置に合成し、
前記配置情報に従い、前記合成対象コンテンツに含まれる音響に、定位感を付加し、その定位感を付加した音響を合成する
請求項１に記載の情報処理装置。
前記合成対象コンテンツに含まれる、前記同一又は類似の音響信号成分のレベルが一致するように、前記合成対象コンテンツ各々の音量を変更するための音量正規化係数を算出する音量正規化係数算出部をさらに備え、
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量正規化係数に従って音量を調整して合成する
請求項１に記載の情報処理装置。
前記音量正規化係数算出部は、
１の合成対象コンテンツに含まれる音響のスペクトルのピークである第１のスペクトルピーク、及び、他の１の合成対象コンテンツに含まれる音響のスペクトルのピークである第２のスペクトルピークから、互いに近い位置にある第１及び第２のスペクトルピークを、前記同一又は類似の音響信号成分のピークである共通ピークとして検出し、
前記共通ピークとして検出された、前記第１のスペクトルピークと、所定数倍した前記第２のスペクトルピークとの誤差を最小化する前記所定数倍を、前記音量正規化係数として算出する
請求項５に記載の情報処理装置。
前記合成対象コンテンツに含まれる音響のパートを推定し、前記パートに基づいて、前記合成対象コンテンツの最適な音量比を求める最適音量比算出部をさらに備え、
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量比に従って音量を調整して合成する
請求項１に記載の情報処理装置。
前記最適音量比算出部は、前記合成対象コンテンツのメタデータから、その合成対象コンテンツに含まれる音響のパートを推定する
請求項７に記載の情報処理装置。
前記最適音量比算出部は、前記合成対象コンテンツに含まれる音響から、前記同一又は類似の音響信号成分を抑圧した抑圧音響の基本周波数に基づいて、前記合成対象コンテンツに含まれる音響のパートが、ボーカルパートであるかどうかを推定する
請求項７に記載の情報処理装置。
前記最適音量比算出部は、ボーカルパートの音響と、前記ボーカルパート以外のパートである非ボーカルパートの音響との音量の差が所定値以上になるように、前記音量比を求める
請求項７に記載の情報処理装置。
前記最適音量比算出部は、合奏形態における音響の各パートの音量に関する情報が登録されたデータベースを参照して、前記音量比を求める
請求項７に記載の情報処理装置。
前記同期情報生成部は、２つのコンテンツの音響特徴量の相互相関係数が最大になるときのラグを、前記２つのコンテンツを同期させるための同期情報として求める
請求項１ないし１１のいずれかに記載の情報処理装置。
前記相互相関係数の最大値に基づいて、前記２つのコンテンツが、同一又は類似の音響信号成分を含み、同期をとることができるかどうかの同期の可否を判定する同期可否判定部と、
ユーザの操作に応じて、同一又は類似の音響信号成分を含む２つ以上のコンテンツを、前記合成コンテンツに合成する対象の合成対象コンテンツに選択するコンテンツ選択部と
をさらに備え、
前記合成部は、前記合成対象コンテンツを、前記合成コンテンツに合成する
請求項１２に記載の情報処理装置。
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
を含む情報処理方法。
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
して、コンピュータを機能させるためのプログラム。
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
して、コンピュータを機能させるためのプログラムが記録された記録媒体。
クライアントと、
前記クライアントと通信するサーバと
を備え、
前記サーバは、
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
のうちの、少なくとも、前記同期情報生成部を有し、
前記クライアントは、前記特徴量算出部、前記同期情報生成部、及び、前記合成部のうちの残りを有する
情報処理システム。
クライアントと、
前記クライアントと通信するサーバと
を備える情報処理システムの前記サーバが、
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
のうちの、少なくとも、前記同期情報生成ステップを行い、
前記クライアントが、前記特徴量算出ステップ、前記同期情報生成ステップ、及び、前記合成ステップのうちの残りを行う
情報処理方法。