JP2013135310A - 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム - Google Patents

情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム Download PDF

Info

Publication number
JP2013135310A
JP2013135310A JP2011283817A JP2011283817A JP2013135310A JP 2013135310 A JP2013135310 A JP 2013135310A JP 2011283817 A JP2011283817 A JP 2011283817A JP 2011283817 A JP2011283817 A JP 2011283817A JP 2013135310 A JP2013135310 A JP 2013135310A
Authority
JP
Japan
Prior art keywords
sound
unit
content
feature amount
synchronization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011283817A
Other languages
English (en)
Inventor
Kyosuke Matsumoto
恭輔 松本
Shusuke Takahashi
秀介 高橋
Kazutomo Kenmochi
千智 劔持
Akira Inoue
晃 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011283817A priority Critical patent/JP2013135310A/ja
Priority to CN2012105553755A priority patent/CN103297805A/zh
Priority to US13/719,652 priority patent/US20130162905A1/en
Publication of JP2013135310A publication Critical patent/JP2013135310A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • H04N5/06Generation of synchronising signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】あらかじめ時間同期のとられていない複数のコンテンツを、時間ズレなく合成する。
【解決手段】特徴量算出部は、音響を含むコンテンツに含まれる音響の音響特徴量を求め、同期関係情報生成部は、その音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する。合成部は、同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する。本技術は、例えば、同一楽曲を扱う、演奏・歌唱・踊り等を行った複数のコンテンツを合成する場合に効果的に適用できる。
【選択図】図1

Description

本技術は、情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システムに関し、複数のコンテンツを合成するときに、その複数のコンテンツの間の同期をとることができるようにする情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システムに関する。
近年、ユーザが、自分の歌や、踊り、楽器の演奏等の、画像(動画及び静止画を含む)及び音響(音声や楽器の音等を含む)を含むコンテンツ(以下、音楽パフォーマンスコンテンツともいう)を収録し、動画共有サイト等に公開することが行われている。
かかる動画共有サイトによれば、ユーザは、様々な楽曲を使用した音楽パフォーマンスコンテンツを楽しむことができる。
最近では、動画共有サイトの普及に伴い、動画共有サイトで公開されたコンテンツの中で、同一の楽曲を使用した複数の音楽パフォーマンスコンテンツを組み合わせて、その複数の音楽パフォーマンスコンテンツのそれぞれの演者があたかも共演しているかのようなコンテンツを作成する、いわゆるマッシュアップが行われている。
複数の音楽パフォーマンスコンテンツのマッシュアップには、その複数の音楽パフォーマンスコンテンツの間の(時間)同期をとる必要がある。
例えば、特許文献1には、あらかじめ同期のとれたコンテンツの入力を前提として、複数のコンテンツを合奏音源に合成する技術が記載されている。
特許文献1に記載の技術では、ユーザは、同期がとれている複数のコンテンツを用意する必要があるが、そのようなコンテンツを用意するのは、面倒である。
同期がとれている複数のコンテンツを用意する方法としては、例えば、複数のコンテンツの収録を、同期をとって行う方法がある。
複数のコンテンツの収録を、同期をとって行う方法の具体例としては、テレビジョン放送局での多視点収録や、ライブレコーディングでのマルチチャンネル録音等の、いわゆるプロユースで行われている方法がある。
しかしながら、エンドユーザが、自前で、民生の収録機器を使って、複数のコンテンツの収録を、同期をとって行うことは、収録機器の操作や性能上の制約から、極めて困難である。
また、同期がとれている複数のコンテンツを用意する方法としては、例えば、ユーザが、コンテンツに、手動で、他のコンテンツとの間で同期をとるための同期情報を付加する方法があり、現在、動画共有サイト等で行われているのはこの方法である。
しかしながら、同期情報を、手動で付加することは、多大な手間がかかり、さらに、厳密に同期をとることが難しいことがある。
また、同期情報を付加した複数のコンテンツを用意することができた場合であっても、コンテンツそのものに変更が加えられると、同期情報が役に立たなくなることがある。
具体的には、例えば、コンテンツについて、シーンカットやトリミング等の編集が行われると、編集前のコンテンツに付加されていた同期情報が役に立たなくなることがある。
なお、動画とその動画に付随する音響とを含むコンテンツを圧縮(符号化)して復号した場合に、動画に対して、音響がずれる音ずれが生じることがあるが、同期情報が付加されたコンテンツについても、同様の音ずれが生じること、すなわち、同期情報(が表すタイミング)に対して、音響がずれることがあり得る。
特開2004-233698号公報
様々な音源の音響を含む複数の音楽パフォーマンスコンテンツのマッシュアップ等のように、複数のコンテンツを合成しようとした場合、マッシュアップに利用する音楽パフォーマンスは時間同期がとれていないことが多い。
本技術は、このような状況に鑑みてなされたものであり、あらかじめ時間同期のとられていない複数のコンテンツを時間ズレ無く合成することができるようにするものである。
本技術の一側面の情報処理装置、プログラム、又は、記録媒体は、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部とを備える情報処理装置、そのような情報処理装置としてコンピュータを機能させるためのプログラム、又は、そのようなプログラムが記録されている記録媒体である。
本技術の一側面の情報処理方法は、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップとを含む情報処理方法である。
本技術の一側面の情報処理システムは、クライアントと、前記クライアントと通信するサーバとを備え、前記サーバは、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部とのうちの、少なくとも前記同期情報生成部を有し、前記クライアントは、前記特徴量算出部、前記同期情報生成部、及び、前記合成部のうちの残りを有する情報処理システムである。
本技術の一側面の情報処理システムの情報処理方法は、クライアントと、前記クライアントと通信するサーバとを備える情報処理システムの前記サーバが、音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップとのうちの、少なくとも前記同期情報生成ステップを行い、前記クライアントが、前記特徴量算出ステップ、前記同期情報生成ステップ、及び、前記合成ステップのうちの残りを行う情報処理方法である。
本技術の一側面においては、音響を含むコンテンツに含まれる音響の音響特徴量が求められ、その音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報が生成される。そして、その同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツが生成される。
なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術によれば、あらかじめ時間同期のとられていない複数のコンテンツの音響信号を、適切に時間同期させて合成することができる。
その結果、例えば、コンテンツの(時間)同期を、手動でとる必要がないので、ユーザは、同一の楽曲を扱った音楽パフォーマンスコンテンツのマッシュアップ等の同期再生を、手軽に楽しむことができる。また、例えば、シーンカットやトリミング等の編集や圧縮が行われたコンテンツであっても、そのコンテンツを含む複数のコンテンツを同期させて合成した合成コンテンツを生成することができる。さらに、例えば、同期情報を手動で付加する必要がないので、大量の、幅広いコンテンツを扱うことができ、オンラインの動画や音響の共有サービス等と連携して、多くのユーザに、合成コンテンツを提供するサービスを実施することが可能となる。
本技術を適用したコンテンツ処理システムの第1実施の形態の構成例を示すブロック図である。 コンテンツ登録処理を説明するフローチャートである。 合成コンテンツ提供処理を説明するフローチャートである。 特徴量算出部13の構成例を示すブロック図である。 特徴量算出処理を説明するフローチャートである。 同期関係情報生成部15の構成例を示すブロック図である。 同期関係情報生成処理を説明するフローチャートである。 独立合成対象コンテンツ選択処理を説明するフローチャートである。 連続合成対象コンテンツ選択処理を説明するフローチャートである。 合成部20の構成例を示すブロック図である。 合成処理を説明するフローチャートである。 音響合成部64の第1の構成例を示すブロック図である。 音響合成処理を説明するフローチャートである。 画像合成部54の構成例を示すブロック図である。 画像合成処理を説明するフローチャートである。 音響合成部64の第2の構成例を示すブロック図である。 音響合成処理を説明するフローチャートである。 音響合成部64の第3の構成例を示すブロック図である。 音響合成処理を説明するフローチャートである。 音量正規化係数算出部201の構成例を示すブロック図である。 第1音響に含まれる共通信号成分の音量と、第2音響に含まれる共通信号成分の音量とを一致させる方法を説明する図である。 音量正規化係数算出処理を説明するフローチャートである。 最適音量比算出部の構成例を示すブロック図である。 パート推定部231の第1の構成例を示すブロック図である。 音量比算出部232の第1の構成例を示すブロック図である。 パート推定部231の第2の構成例を示すブロック図である。 パート推定処理を説明するフローチャートである。 音量比算出部232の第2の構成例を示すブロック図である。 音量比算出処理を説明するフローチャートである。 本技術を適用したコンテンツ処理システムの第2実施の形態の構成例を示すブロック図である。 クライアント1の処理を説明するフローチャートである。 クライアント1の処理を説明するフローチャートである。 サーバ2の処理を説明するフローチャートである。 サーバ2の処理を説明するフローチャートである。 本技術を適用したコンテンツ処理システムの第3実施の形態の構成例を示すブロック図である。 クライアント1の処理を説明するフローチャートである。 サーバ2の処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
[本技術を適用したコンテンツ処理システムの第1実施の形態]
図1は、本技術を適用したコンテンツ処理システム(システムとは、複数の装置が論理的に集合した物をいい、各構成の装置が同一筐体中にあるか否かは、問わない)の第1実施の形態の構成例を示すブロック図である。
図1において、情報処理システムは、ユーザI/F(Interface)11、コンテンツ記憶部12、特徴量算出部13、特徴量DB(Database)14、同期関係情報生成部15、同期可否判定部16、同期情報DB17、コンテンツDB18、コンテンツ選択部19、及び、合成部20を有し、複数のコンテンツを合成した合成コンテンツを生成する。
ユーザI/F11は、入力部11A、及び、出力部11Bを有する。
入力部11Aは、例えば、キーボードや、マウス等のポインティングデバイス、タッチスクリーン、マイク等で構成され、ユーザからの操作や発話等の入力を受け付ける。ユーザI/F11は、入力部11Aが受け付けた操作や発話に応じて、各種の処理を行う。すなわち、ユーザI/F11は、例えば、入力部11Aが受け付けた操作等に応じて、コンテンツ記憶部12やコンテンツ選択部19等に各種の指令(要求)を送信することにより、コンテンツ記憶部12やコンテンツ選択部19等を制御する。
出力部11Bは、例えば、LCD(Liquid Crystal Display)等のディスプレイやスピーカ等で構成され、画像を表示し、音響を出力する。すなわち、出力部11Bは、例えば、合成部20から供給される、複数のコンテンツを合成した合成コンテンツの再生、つまり、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行う。
コンテンツ記憶部12は、少なくとも、音響を含むコンテンツを記憶する。また、コンテンツ記憶部12は、ユーザによるユーザI/F11の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、特徴量算出部13に供給する。コンテンツ記憶部12としては、例えば、ハードディスクや、ビデオレコーダ、ビデオカメラ等を採用することができる。
ここで、少なくとも、音響を含むコンテンツとしては、音響だけのコンテンツや、画像(動画)とその画像に付随する音響とからなるコンテンツ等がある。
特徴量算出部13は、コンテンツ記憶部12から供給される注目コンテンツに含まれる音響の特徴量である音響特徴量を算出し、同期関係情報生成部15に供給する。
また、特徴量算出部13は、コンテンツ記憶部12から供給される注目コンテンツを、必要に応じて、コンテンツDB18に供給して登録する(記憶させる)。
なお、注目コンテンツ(に含まれる音響)の音響特徴量としては、例えば、音響のスペクトル等を採用することができる。また、音響特徴量としては、例えば、音響の波形そのもの(音響信号そのもの)を採用することができる。
特徴量DB14は、同期関係情報生成部15から供給される音響特徴量を記憶する。
同期関係情報生成部15は、特徴量算出部13からの注目コンテンツの音響特徴量と、特徴量DB14に記憶(登録)されている音響特徴量とに基づいて、注目コンテンツと、特徴量DB14に音響特徴量が登録されているコンテンツ(以下、登録コンテンツともいう)との同期に関係する同期関係情報を生成し、同期可否判定部16に供給する。
また、同期関係情報生成部15は、特徴量算出部13からの注目コンテンツの音響特徴量を、必要に応じて、特徴量DB14に供給して登録する。
なお、同期関係情報生成部15は、注目コンテンツについて、特徴量DB14に音響特徴量が登録されているコンテンツ(登録コンテンツ)すべてとの同期関係情報を生成する。
また、注目コンテンツとある登録コンテンツとの同期関係情報は、注目コンテンツと登録コンテンツとの音響を同期させるための同期情報と、注目コンテンツと登録コンテンツとの音響を同期させることができる可能性(程度)を表す同期可否レベル(同期の妥当性の指標)とを含む。
同期可否判定部16は、同期関係情報生成部15からの、注目コンテンツと登録コンテンツとの同期関係情報に含まれる同期可否レベルに基づいて、登録コンテンツ(の音響)が、注目コンテンツ(の音響)と同一又は類似の音響信号成分となっている楽曲等を含み、その結果、注目コンテンツと登録コンテンツとの音響どうしの同期をとることができるかどうかを判定する。
同期可否判定部16は、同期をとることができると判定した注目コンテンツと登録コンテンツとのセット(グループ)(を識別する情報)を、同期関係情報生成部15からの、注目コンテンツと登録コンテンツとの同期関係情報に含まれる同期情報とともに、コンテンツ選択部19に供給する。
同期情報DB17は、コンテンツ選択部19から供給される同期情報を、その同期情報によって同期がとられる注目コンテンツと登録コンテンツとのセット(を識別する情報)に対応付けて記憶する。
コンテンツDB18は、特徴量算出部13から供給される注目コンテンツを記憶する。
コンテンツ選択部19は、ユーザの操作に応じて、コンテンツDB18に記憶されたコンテンツ等から、合成コンテンツに合成する対象の合成対象コンテンツを選択し、その合成対象コンテンツの間の同期をとるための同期情報とともに、合成部20に供給する。
すなわち、コンテンツ選択部19は、例えば、コンテンツDB18に記憶されたコンテンツの中で、注目コンテンツ等との間で、コンテンツに含まれる音響どうしの同期をとることができるコンテンツを、合成対象コンテンツの候補となる候補コンテンツとして選択する。
さらに、コンテンツ選択部19は、候補コンテンツ(のタイトル等)の一覧画面等を、ユーザに合成対象コンテンツを選択させるためのインタフェースとして生成し、ユーザI/F11(の出力部11B)に供給して表示させる。
ユーザが、一覧画面を見て、候補コンテンツの中から、合成対象コンテンツを選択するように、ユーザI/F11(の入力部11A)を操作すると、コンテンツ選択部19は、ユーザによるユーザI/F11の操作に応じて、候補コンテンツの中から、合成対象コンテンツを選択する。
さらに、コンテンツ選択部19は、合成対象コンテンツ(のデータ)を、コンテンツDB18から読み出すとともに、合成対象コンテンツの間の同期をとるための同期情報(以下、合成用の同期情報ともいう)を、同期情報DB17から読み出し、合成対象コンテンツと合成用の同期情報とを、合成部20に供給する。
また、コンテンツ選択部19は、必要に応じて、同期可否判定部16から供給される、注目コンテンツと登録コンテンツとを同期させるための同期情報を、注目コンテンツと登録コンテンツとのセット(を識別する情報)に対応付け、同期情報DB17に供給して登録する。
合成部20は、コンテンツ選択部19からの合成用の同期情報を用いて、同じくコンテンツ選択部19からの合成対象コンテンツを同期させて合成した合成コンテンツを生成し、ユーザI/F11に供給する。
なお、合成対象コンテンツとなり得る登録コンテンツとしては、例えば、動画共有サイト等にアップロードされている音楽パフォーマンスコンテンツのような、任意の楽曲の音源、任意の楽曲のカラオケバージョン、又は、任意の楽曲の音源に類似した音源(例えば、主旋律が同じ音源や、伴奏パートが似ている音源等)に合わせたボーカル(歌唱)、楽器演奏、ダンスを収録したコンテンツ等が採用される。
例えば、ある登録コンテンツ#1と他の登録コンテンツ#2とが、所定の楽曲の音源、その所定の楽曲のカラオケバージョン、及び、その所定の楽曲の音源に類似した音源のうちのいずれかを用いたコンテンツである場合には、登録コンテンツ#1の音響と、登録コンテンツ#2の音響には、所定の楽曲の音源、所定の楽曲のカラオケバージョン、又は、所定の楽曲の音源に類似した音源が、同一又は類似の音響信号成分として含まれる。
いま、この、同一又は類似の音響信号成分を、共通信号成分ということとすると、図1のコンテンツ処理システムでは、注目コンテンツと登録コンテンツと(の音響)が、共通信号成分を含む場合に、同期をとることができると判定され、また、共通信号成分を利用して、同期をとることができる注目コンテンツと登録コンテンツとの同期情報が生成される。
ここで、共通信号成分としての音響信号は、ある時間幅の音響信号を観測することにより、時刻を特定することが可能で、異なる時刻の音響信号を弁別することができる信号であることが理想的ではあるが、特に、そのような信号に限定されるものではない。
図1の構成されるコンテンツ処理システムでは、コンテンツ(のデータ)を、コンテンツDB18に登録するコンテンツ登録処理と、ユーザに、合成コンテンツを提供する合成コンテンツ提供処理とが行われる。
なお、以下では、コンテンツDB18には、1つ以上のコンテンツ(登録コンテンツ)が、既に記憶されており、特徴量DB14には、コンテンツDB18に記憶された登録コンテンツすべての音響特徴量が、既に記憶されていることとする。
[コンテンツ登録処理]
図2は、図1のコンテンツ処理システムが行うコンテンツ登録処理を説明するフローチャートである。
コンテンツ登録処理では、ステップS11において、ユーザが、ユーザI/F11を操作するのを待って、コンテンツ記憶部12が、ユーザによるユーザI/F11の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、特徴量算出部13に供給して、処理は、ステップS12に進む。
ステップS12では、特徴量算出部13は、コンテンツ記憶部12から供給される注目コンテンツを、コンテンツDB18に供給して登録し、処理は、ステップS13に進む。
ステップS13では、特徴量算出部13は、コンテンツ記憶部12からの注目コンテンツに含まれる音響の音響特徴量を算出する特徴量算出処理を行う。
特徴量算出部13は、特徴量算出処理によって得られる注目コンテンツの音響特徴量を、同期関係情報生成部15に供給して、処理は、ステップS13からステップS14に進む。
ステップS14では、同期関係情報生成部15は、特徴量算出部13からの注目コンテンツの音響特徴量を、特徴量DB14に供給して登録して、処理は、ステップS15に進む。
ステップS15では、同期関係情報生成部15は、コンテンツDB18に記憶された登録コンテンツ(注目コンテンツを除く)から、まだ、注目コンテンツとの同期の可否を判定する対象の判定対象コンテンツとして選択されていないコンテンツの1つを、判定対象コンテンツに選択する。
さらに、同期関係情報生成部15は、注目コンテンツと判定対象コンテンツとのセットを、注目する注目セットとして、処理は、ステップS15からステップS16に進む。
ステップS16では、同期関係情報生成部15は、注目セットについて、特徴量算出部13からの、注目セットの注目コンテンツの音響特徴量と、特徴量DB14に記憶されている、注目セットの判定対象コンテンツの音響特徴量とに基づいて、注目コンテンツと判定対象コンテンツとの同期に関係する同期関係情報を生成する同期関係情報生成処理を行う。
同期関係情報生成部15は、同期関係情報によって得られる、注目セット(の注目コンテンツと判定対象コンテンツ)の同期関係情報を、同期可否判定部16に供給して、処理は、ステップS16からステップS17に進む。
ステップS17では、同期可否判定部16は、同期関係情報生成部15からの、注目セットの同期関係情報に含まれる同期可否レベルに基づいて、注目セットの判定対象コンテンツ(の音響)が、注目セットの注目コンテンツ(の音響)と同一又は類似の音響信号成分となっている楽曲等を含み、その結果、注目コンテンツと判定対象コンテンツとの音響どうしの同期をとることができるかどうかの同期の可否の判定を行う。
ステップS17において、注目コンテンツと判定対象コンテンツと(の音響どうし)の同期をとることができると判定された場合、処理は、ステップS18に進み、同期可否判定部16は、同期をとることができると判定した注目コンテンツと登録コンテンツとの注目セット(を識別する情報)を、同期関係情報生成部15からの、注目セットの同期関係情報に含まれる同期情報とともに、コンテンツ選択部19に供給する。
さらに、ステップS18では、コンテンツ選択部19は、同期可否判定部16からの注目セットの同期情報を、同じく同期可否判定部16からの注目セット(を識別する情報)に対応付ける。そして、コンテンツ選択部19は、注目セットと対応付けた、その注目セットの同期情報を、同期情報DB17に供給して登録し、処理は、ステップS18からステップS19に進む。
一方、ステップS17において、注目コンテンツと登録コンテンツとの同期をとることができないと判定された場合、処理は、ステップS18をスキップして、ステップS19に進む。
ステップS19では、同期関係情報生成部15は、コンテンツDB18に記憶された登録コンテンツのすべて(注目コンテンツを除く)を、判定対象コンテンツに選択したかどうかを判定する。
ステップS19において、コンテンツDB18に記憶された登録コンテンツのすべて(注目コンテンツを除く)を、まだ、判定対象コンテンツに選択していないと判定された場合、すなわち、コンテンツDB18に記憶された登録コンテンツ(注目コンテンツを除く)の中に、判定対象コンテンツに選択されていないコンテンツがある場合、処理は、ステップS15に戻り、以下、同様の処理が繰り返される。
また、ステップS19において、コンテンツDB18に記憶された登録コンテンツのすべて(注目コンテンツを除く)を、判定対象コンテンツに選択したと判定された場合、すなわち、注目コンテンツについて、コンテンツDB18に記憶された登録コンテンツのすべて(注目コンテンツを除く)との間で、同期の可否の判定が行われ、さらに、注目コンテンツとの同期が可能な登録コンテンツについて、その登録コンテンツと注目コンテンツとを同期させるための同期情報が、同期情報DB17に登録された場合、コンテンツ登録処理は、終了する。
[合成コンテンツ提供処理]
図3は、図1のコンテンツ処理システムが行う合成コンテンツ提供処理を説明するフローチャートである。
合成コンテンツ提供処理では、ステップS31において、コンテンツ選択部19が、ユーザによるユーザI/F11の操作に応じて、コンテンツDB18に記憶された登録コンテンツ等の中から、合成コンテンツの生成に用いる複数のコンテンツを、合成対象コンテンツとして選択する合成対象コンテンツ選択処理を行う。
そして、コンテンツ選択部19は、合成対象コンテンツ選択処理により得られる合成対象コンテンツどうしを同期させるための同期情報(合成用の同期情報)を、同期情報DB17から読み出し、合成対象コンテンツとともに、合成部20に供給して、処理は、ステップS31からステップS32に進む。
ステップS32では、合成部20は、コンテンツ選択部19からの合成用の同期情報を用いて、同じくコンテンツ選択部19からの合成対象コンテンツを同期させて合成することにより、合成コンテンツを生成する合成処理を行う。
そして、合成部20は、合成処理により得られる合成コンテンツを、ユーザI/F11に供給して、処理は、ステップS33に進む。
ステップS33では、ユーザI/F11が、合成部20からの合成コンテンツを再生し、すなわち、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行い、合成コンテンツ提供処理は、終了する。
[特徴量算出部13の構成例]
図4は、図1の特徴量算出部13の構成例を示すブロック図である。
図4において、特徴算出部13は、音響復号部31、チャンネル統合部32、及び、スペクトログラム算出部33を有する。
音響復号部31には、注目コンテンツ(のデータ)が供給される。音響復号部31は、注目コンテンツに含まれる音響が符号化データに符号化されている場合に、その符号化データを音響に復号し、チャンネル統合部32に供給する。
なお、注目コンテンツに含まれる音響が符号化されていない場合、音響復号部31は、注目コンテンツに含まれる音響を、そのまま、チャンネル統合部32に供給する。
チャンネル統合部32は、音響復号部31からの音響が、複数チャンネルの音響である場合に、その複数チャンネルの音響を加算することにより、1チャンネルの音響に統合し、スペクトログラム算出部33に供給する。
なお、音響復号部31からの音響が、1チャンネルの音響である場合、チャンネル統合部32は、音響復号部31からの音響を、そのまま、スペクトログラム算出部33に供給する。
スペクトログラム算出部33は、チャンネル統合部32からの音響のスペクトログラムを算出し、注目コンテンツに含まれる音響の音響特徴量として出力する。
図5は、図4の特徴量算出部13が図2のステップS13で行う特徴量算出処理を説明するフローチャートである。
特徴量算出部13では、ステップS41において、音響復号部31が、コンテンツ記憶部12(図1)からの注目コンテンツを受信(取得)して、処理は、ステップS42に進む。
ステップS42では、音響復号部31が、注目コンテンツに含まれる音響を復号し、チャンネル統合部32に供給して、処理は、ステップS43に進む。
ステップS43では、チャンネル統合部32は、音響復号部31からの注目コンテンツの音響が、複数チャンネルの音響であるかどうかを判定する。
ステップS43において、注目コンテンツの音響が、複数チャンネルの音響であると判定された場合、チャンネル統合部32は、音響復号部31からの注目コンテンツの音響、すなわち、注目コンテンツに含まれる複数チャンネルの音響を加算することで、1チャンネルの音響に統合し、スペクトログラム算出部33に供給して、処理は、ステップS45に進む。
一方、ステップS43において、注目コンテンツの音響が、複数チャンネルの音響でないと判定された場合、すなわち、注目コンテンツの音響が、1チャンネルの音響である場合、チャンネル統合部32は、音響復号部31からの注目コンテンツの音響を、そのまま、スペクトログラム算出部33に供給し、処理は、ステップS44をスキップして、ステップS45に進む。
ステップS45では、スペクトログラム算出部33は、チャンネル統合部32からの音響のスペクトログラムを算出し、注目コンテンツの音響特徴量として出力して、特徴量算出処理は、終了する。
[同期関係情報生成部15の構成例]
図6は、図1の同期関係情報生成部15の構成例を示すブロック図である。
図6において、同期関係情報生成部15は、相関係数算出部41、最大値検出部42、及び、ラグ検出部43を有する。
相関係数算出部41には、注目セットの注目コンテンツの音響特徴量が、特徴量算出部13(図1)から供給されるとともに、注目セットの判定対象コンテンツの音響特徴量が、特徴量DB14(図1)から供給される。
相関係数算出部41は、注目コンテンツの音響特徴量と、判定対象コンテンツの音響特徴量との相互相関係数を算出し、最大値検出部42、及び、ラグ検出部43に供給する。
最大値検出部42は、相関係数算出部41から供給される注目セットの相互相関係数、すなわち、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値を検出し、注目セットとしての注目コンテンツと判定対象コンテンツとの音響を同期させることができる可能性(程度)を表す同期可否レベル(同期の妥当性の指標)として出力する。
ラグ検出部43は、最大値検出部42と同様に、相関係数算出部41から供給される注目セットの相互相関係数の最大値を検出し、その最大値のラグ、すなわち、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値が得られるときの、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との間の時間ずれ(ラグ)を、注目コンテンツと判定対象コンテンツとの音響を同期させるための同期情報として出力する。
最大値検出部42が出力する同期可否レベルと、ラグ検出部43が出力する同期情報とのセットが、注目セットの同期関係情報として、同期関係情報生成部15から同期可否判定部16(図1)に供給される。
例えば、注目コンテンツ、及び、判定対象コンテンツの両方に、テンポが同一の所定の楽曲の一部、又は、全部が含まれており、注目コンテンツ、及び、判定対象コンテンツのうちの一方のコンテンツに含まれている楽曲の範囲が、他方のコンテンツに含まれている楽曲の範囲と一致するか、他方のコンテンツに含まれている楽曲の範囲に含まれる場合には、相互相関係数等のような、注目コンテンツの音響特徴量と、判定対象コンテンツの音響特徴量との相関を求めることで、注目コンテンツと判定対象コンテンツとの音響どうしを同期させることができる同期情報を生成することができる。
また、ラグ検出部43において同期情報として検出される、注目セットの相互相関係数の最大値のラグは、注目コンテンツ、及び、判定対象コンテンツのうちの一方のコンテンツである、例えば、注目コンテンツの音響が、他方のコンテンツである、例えば、判定対象コンテンツの音響よりも、所定数秒だけ進んでいる、又は、遅れている、ということを表す。
かかる同期情報によれば、注目コンテンツ、及び、判定対象コンテンツのうちの、所定数秒だけ進んでいる方の音響を含むコンテンツの再生を、その所定数秒だけ早く開始することにより、注目コンテンツ、及び、判定対象コンテンツの音響の同期をとることができる。
なお、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値のラグ(以下、最大値ラグともいう)を、同期情報として採用する場合、注目コンテンツと判定対象コンテンツとなる2つのコンテンツのセットのうちの一部のセットについては、相互相関係数の算出を省略することができることがある。
すなわち、例えば、コンテンツ#1,#2、及び、#3について、コンテンツ#1及び#2(の音響)の同期情報#1-2として、「コンテンツ#2はコンテンツ#1より1秒だけ進んでいる」という情報が、既に生成されているとともに、コンテンツ#2及び#3の同期情報#2-3として、「コンテンツ#3はコンテンツ#2より2秒だけ進んでいる」という情報が生成されている場合には、コンテンツ#1及び#3の同期情報#1-3としては、コンテンツ#1及び#3(の音響特徴量)の相互相関係数を算出する代わりに、同期情報#1-2及び#2-3を用いて、「コンテンツ#3はコンテンツ#1より3秒だけ進んでいる」という情報を得ることができる。
図7は、図6の同期関係情報生成部15が図2のステップS16で行う同期関係情報生成処理を説明するフローチャートである。
同期関係情報生成部15では、ステップS51において、相関係数算出部41が、特徴量算出部13(図1)から、注目コンテンツの音響特徴量を受信するとともに、特徴量DB14(図1)から、注目コンテンツとともに注目セットを構成する判定対象コンテンツの音響特徴量を受信し、処理は、ステップS52に進む。
ステップS52では、相関係数算出部41が、注目コンテンツの音響特徴量と、判定対象コンテンツの音響特徴量との相互相関係数を算出し、最大値検出部42、及び、ラグ検出部43に供給して、処理は、ステップS53に進む。
ステップS53では、最大値検出部42が、相関係数算出部41からの相互相関係数の最大値を検出し、注目セットとしての注目コンテンツと判定対象コンテンツとの音響を同期させることができる可能性を表す同期可否レベルとして出力して、処理は、ステップS54に進む。
ステップS54では、ラグ検出部43が、相関係数算出部41からの相互相関係数の最大値を検出し、その最大値のラグ(最大値ラグ)を検出する。そして、ラグ検出部43は、最大値ラグを、注目コンテンツと判定対象コンテンツと(の音響)を同期させるための時間ずれを表す同期情報として出力し、同期関係情報生成処理は、終了する。
ここで、図1のコンテンツ処理システムにおいて、同期可否判定部16は、ステップS53で最大値検出部42が出力する(注目セットの)同期可否レベルに基づいて、注目セットとしての注目コンテンツ、及び、判定対象コンテンツ(の音響)が、例えば、同一の楽曲等の同一又は類似の音響信号成分(共通信号成分)を含み、その結果、注目コンテンツと判定対象コンテンツとの(音響どうしの)同期をとることができるかどうかを判定する。
本実施の形態では、同期可否レベルとして、注目コンテンツの音響特徴量と判定対象コンテンツの音響特徴量との相互相関係数の最大値が採用されている。
本実施の形態では、同期可否レベルとしての相互相関係数の最大値が、例えば、0.6等の所定の閾値以上である場合に、注目コンテンツ、及び、判定対象コンテンツ(の音響)が、同一の楽曲等の同一又は類似の音響信号成分(共通信号成分)を含んでおり、注目コンテンツと判定対象コンテンツとの同期をとることができるという、同期の可否の判定が行われることとする。
なお、ある2つのコンテンツどうしの同期の可否の判定は、同期可否レベルの代わりに、他の2つのコンテンツどうしの同期の可否の判定結果に基づいて行うことができることがある。
すなわち、例えば、コンテンツ#1,#2、及び、#3に関し、コンテンツ#1及び#2について、「同期可能」という同期の可否の判定結果が、既に得られているとともに、コンテンツ#2及び#3について、「同期可能」という同期の可否の判定結果が得られている場合には、コンテンツ#1及び#3については、コンテンツ#1及び#3(の音響特徴量)の相互相関係数の最大値(同期可否レベル)の代わりに、コンテンツ#1及び#2についての同期の可否の判定結果、並びに、コンテンツ#2及び#3についての同期の可否の判定結果を用いて、「同期可能」という同期の可否の判定結果を得ることができる。
以上のように、ある2つのコンテンツどうしの同期の可否の判定は、同期可否レベルの代わりに、他の2つのコンテンツどうしの同期の可否の判定結果に基づいて行うことができることがあり、この場合、同期可否レベル、すなわち、相互相関係数の最大値の検出を省略することができる。
[合成対象コンテンツ選択処理]
図8及び図9は、図1のコンテンツ選択部19が図3のステップS31で行う合成対象コンテンツ選択処理を説明するフローチャートである。
ここで、図3の合成コンテンツ提供処理は、例えば、ユーザによるユーザI/F11(図1)の操作等に応じて、図2のコンテンツ登録処理が行われた後、そのコンテンツ登録処理に続く処理として、連続して行うこともできるし、図2のコンテンツ登録処理に関係なく行うこともできる。
以下、図2のコンテンツ登録処理が行われた後、そのコンテンツ登録処理に続く処理として、連続して行われる合成対象コンテンツ選択処理を、連続合成対象コンテンツ選択処理ともいい、図2のコンテンツ登録処理に関係なく行われる合成対象コンテンツ選択処理を、独立合成対象コンテンツ選択処理ともいう。
図8は、独立合成対象コンテンツ選択処理を説明するフローチャートであり、図9は、連続合成対象コンテンツ選択処理を説明するフローチャートである。
図8の独立合成対象コンテンツ選択処理では、ステップS61において、コンテンツ選択部19は、例えば、ユーザによるユーザI/F11の操作に応じて、コンテンツDB18に記憶された登録コンテンツすべて、又は、所定の条件を満たす登録コンテンツの一覧画面を生成し、ユーザI/F11に表示させることにより、ユーザに提示して、処理は、ステップS62に進む。
ここで、所定の条件を満たす登録コンテンツの一覧画面を生成するのに必要な所定の条件は、ユーザが、ユーザI/F11を操作することにより入力することができる。
ステップS62では、コンテンツ選択部19は、一覧画面を見たユーザが一覧画面上の1つのコンテンツを選択するようにユーザI/F11の操作を行うのを待って、そのユーザI/F11の操作に応じて、一覧画面上の1つのコンテンツを、合成対象コンテンツとする1番目のコンテンツ(以下、第1コンテンツともいう)として選択し、処理は、ステップS63に進む。
ステップS63では、コンテンツ選択部19は、同期情報DB17を参照し、登録コンテンツの中で、第1コンテンツとの同期情報が同期情報DB17に記憶されているコンテンツ、すなわち、第1コンテンツと(音響の)同期が可能なコンテンツを、合成対象コンテンツの候補となる候補コンテンツとして選択する。
さらに、コンテンツ選択部19は、候補コンテンツの一覧画面(以下、候補画面ともいう)を生成し、ユーザI/F11に表示させることにより、ユーザに提示して、処理は、ステップS63からステップS64に進む。
ステップS64では、コンテンツ選択部19は、候補画面を見たユーザが候補画面上の1つ以上の候補コンテンツを選択するようにユーザI/F11の操作を行うのを待って、そのユーザI/F11の操作に応じて、候補画面上の1つ以上のコンテンツを、合成対象コンテンツとする2番目以降のコンテンツとして選択し、合成対象コンテンツ選択処理は、終了する。
独立合成対象コンテンツ選択処理では、以上のように、ステップS62において、ユーザI/F11の操作に応じて、一覧画面から選択された1つのコンテンツ(第1コンテンツ)と、ステップS64において、ユーザI/F11の操作に応じて、候補画面から選択された1つ以上のコンテンツとが、合成対象コンテンツとなる。
なお、図8では、ユーザに、登録コンテンツのすべて、又は、所定の条件を満たす登録コンテンツの一覧画面から、合成対象コンテンツとなる第1コンテンツを選択してもらい、その後、第1コンテンツと同期が可能な候補コンテンツの候補画面から、合成対象コンテンツとなる1つ以上のコンテンツを選択してもらうこととしたが、その他、例えば、コンテンツ選択部19では、同期可能な登録コンテンツのグループ等の一覧を生成し、その一覧から、ユーザに、合成対象コンテンツを選択してもらうことができる。
図9は、連続合成対象コンテンツ選択処理を説明するフローチャートである。
連続合成対象コンテンツ選択処理では、ステップS71において、コンテンツ選択部19は、図2のコンテンツ登録処理の注目コンテンツを、合成対象コンテンツとする1番目のコンテンツ(第1コンテンツ)として選択し、処理は、ステップS72に進む。
ステップS72では、コンテンツ選択部19は、同期情報DB17を参照し、登録コンテンツの中で、第1コンテンツとの同期情報が同期情報DB17に記憶されているコンテンツ、すなわち、第1コンテンツと(音響の)同期が可能なコンテンツを、合成対象コンテンツの候補となる候補コンテンツとして選択する。
さらに、コンテンツ選択部19は、候補コンテンツの一覧画面である候補画面を生成し、ユーザI/F11に表示させることにより、ユーザに提示して、処理は、ステップS72からステップS73に進む。
ステップS73では、コンテンツ選択部19は、候補画面を見たユーザが候補画面上の1つ以上の候補コンテンツを選択するようにユーザI/F11の操作を行うのを待って、そのユーザI/F11の操作に応じて、候補画面上の1つ以上のコンテンツを、合成対象コンテンツとする2番目以降のコンテンツとして選択し、合成対象コンテンツ選択処理は、終了する。
連続合成対象コンテンツ選択処理では、以上のように、注目コンテンツと、ステップS73において、ユーザI/F11の操作に応じて、候補画面から選択された1つ以上のコンテンツとが、合成対象コンテンツとなる。
[合成部20の構成例]
図10は、図1の合成部20の構成例を示すブロック図である。
図10において、合成部20は、画像復号部51、画像フォーマット変換部52、同期処理部53、画像合成部54、画像符号化部55、音響復号部61、音響フォーマット変換部62、同期処理部63、音響合成部64、音響符号化部65、及び、マキシング処理部66を有し、コンテンツ選択部19からの合成用の同期情報を用いて、コンテンツ選択部19からの合成対象コンテンツを同期させて合成することにより、合成コンテンツを生成する。
合成部20では、例えば、合成対象コンテンツが、所定の楽曲に合わせて歌っているボーカルのコンテンツ、所定の楽曲に合わせて演奏しているある楽器のパートのコンテンツ、及び、所定の楽曲に合わせて踊っているダンスのコンテンツ等である場合には、合成対象コンテンツに登場する演者が共演しているかのような合成コンテンツを得ることができる。
ここで、以下では、説明を簡単にするために、コンテンツ選択部19等から合成部20には、2つのコンテンツが、合成対象コンテンツとして供給されることとする。また、2つの合成対象コンテンツのうちの1番目のコンテンツである第1コンテンツに含まれる画像と音響を、それぞれ第1画像と第1音響ともいい、2番目のコンテンツである第2コンテンツに含まれる画像と音響を、それぞれ第2画像と第2音響ともいう。
図10の合成部20において、画像復号部51には、第1画像及び第2画像が供給される。
画像復号部51は、第1画像及び第2画像を復号し、画像フォーマット変換部52に供給する。
画像フォーマット変換部52は、画像復号部51からの第1画像及び第2画像のフォーマット、すなわち、例えば、フレームレートや、サイズ、解像度等を統一するフォーマット変換を行い、同期処理部53に供給する。
なお、画像フォーマット変換部52でのフォーマット変換では、例えば、第1画像及び第2画像のうちの一方の画像のフォーマットを、他方の画像のフォーマットである画質が良い方のフォーマットに変換することができる。
同期処理部53には、画像フォーマット変換部52から、フォーマット変換後の第1画像及び第2画像が供給される他、コンテンツ選択部19(図1)から、第1コンテンツと第2コンテンツと(の音響どうし)を同期させるための同期情報(合成用の同期情報)が供給される。
同期処理部53は、画像フォーマット変換部52からの第1画像及び第2画像を、合成用の同期情報に従って同期させ、すなわち、例えば、第1画像及び第2画像のうちの一方の再生開始のタイミングを、同期情報に従ってずらす補正を行い、その結果得られる、同期がとれた第1画像及び第2画像を、画像合成部54に供給する。
画像合成部54は、同期処理部53からの第1画像及び第2画像を、例えば、左右や上下等に並べて配置することにより合成し、その第1画像及び第2画像を合成した合成画像を、画像符号化部55に供給する。
画像符号化部55は、画像合成部54からの合成画像を符号化し、マキシング処理部66に供給する。
音響復号部61には、第1音響及び第2音響が供給される。
音響復号部61は、第1音響及び第2音響を復号し、音響フォーマット変換部62に供給する。
音響フォーマット変換部62は、音響復号部61からの第1音響及び第2音響のフォーマット、すなわち、例えば、量子化ビット数やサンプリングレート等を統一するフォーマット変換を行い、同期処理部63に供給する。
なお、音響フォーマット変換部62でのフォーマット変換では、例えば、第1音響及び第2音響のうちの一方の音響のフォーマットを、他方の音響のフォーマットである音質が良い方のフォーマットに変換することができる。
同期処理部63には、音響フォーマット変換部62から、フォーマット変換後の第1音響及び第2音響が供給される他、コンテンツ選択部19(図1)から、第1コンテンツと第2コンテンツと(の音響どうし)を同期させるための同期情報(合成用の同期情報)が供給される。
同期処理部63は、音響フォーマット変換部62からの第1音響及び第2音響を、合成用の同期情報に従って同期させ、すなわち、例えば、第1音響及び第2音響のうちの一方の再生開始のタイミングを、同期情報に従ってずらす補正を行い、その結果得られる、同期がとれた第1音響及び第2音響を、音響合成部64に供給する。
音響合成部64は、同期処理部63からの第1音響及び第2音響を、例えば、左チャンネルと右チャンネル等のチャンネルごとに加算することにより合成し、その第1音響及び第2音響を合成した合成音響を、音響符号化部65に供給する。
ここで、第1音響及び第2音響が、例えば、ステレオの音響等の、同一のチャンネル数の音響である場合には、音響合成部64では、上述のように、第1音響及び第2音響が、チャンネルごとに加算されるが、第1音響及び第2音響のチャンネル数が異なる場合には、音響合成部64では、例えば、合成音響のチャンネル数を、第1音響及び第2音響のうちの、少ない方のチャンネル数に合わせるミキシング(ダウンミキシング)を行うことができる。
音響符号化部65は、音響合成部64からの合成音響を符号化し、マキシング処理部66に供給する。
マキシング処理部66は、画像符号化部66からの合成画像と、音響符号化部65からの合成音声と(の符号化結果)を、合成コンテンツとしての1本のビットストリームにマキシング(統合)して出力する。
図11は、図10の合成部20が図3のステップS32で行う合成処理を説明するフローチャートである。
ステップS81において、画像復号部51は、コンテンツ選択部19からの第1コンテンツの第1画像、及び、第2コンテンツの第2画像を受信し、音響復号部61は、コンテンツ選択部19からの第1コンテンツの第1音響、及び、第2コンテンツの第2音響を受信する。
さらに、ステップS81では、同期処理部53及び63が、コンテンツ選択部19からの、第1コンテンツと第2コンテンツとを同期させるための同期情報(合成用の同期情報)を受信し、処理は、ステップS82に進む。
ステップS82では、画像復号部51が、第1画像及び第2画像を復号し、画像フォーマット変換部52に供給して、処理は、ステップS83に進む。
ステップS83では、画像フォーマット変換部52は、画像復号部51からの第1画像及び第2画像のフォーマットを統一するフォーマット変換を行い、同期処理部53に供給して、処理は、ステップS84に進む。
ステップS84では、同期処理部53は、画像フォーマット変換部52からの第1画像及び第2画像を、合成用の同期情報に従って同期させ、その結果得られる、同期がとれた第1画像及び第2画像を、画像合成部54に供給して、処理は、ステップS85に進む。
ステップS85では、画像合成部54は、同期処理部53からの第1画像及び第2画像を合成する画像合成処理を行い、その結果得られる合成画像を、画像符号化部55に供給して、処理は、ステップS86に進む。
ステップS86では、画像符号化部55が、画像合成部54からの合成画像を符号化し、マキシング処理部66に供給して、処理は、ステップS87に進む。
ステップS87では、音響復号部61が、第1音響及び第2音響を復号し、音響フォーマット変換部62に供給して、処理は、ステップS88に進む。
ステップS88では、音響フォーマット変換部62は、音響復号部61からの第1音響及び第2音響のフォーマットを統一するフォーマット変換を行い、同期処理部63に供給して、処理は、ステップS89に進む。
ステップS89では、同期処理部63は、音響フォーマット変換部62からの第1音響及び第2音響を、合成用の同期情報に従って同期させ、その結果得られる、同期がとれた第1音響及び第2音響を、音響合成部64に供給して、処理は、ステップS90に進む。
ステップS90では、音響合成部64は、同期処理部63からの第1音響及び第2音響を合成する音響合成処理を行い、その結果得られる合成音響を、音響符号化部65に供給して、処理は、ステップS91に進む。
ステップS91では、音響符号化部65が、音響合成部64からの合成音響を符号化し、マキシング処理部66に供給して、処理は、ステップS92に進む。
ステップS92では、マキシング処理部66は、画像符号化部66からの合成画像と、音響符号化部65からの合成音響とを、合成コンテンツとしての1本のビットストリームにマキシング(統合)して出力し、合成処理は、終了する。
以上のように、図1のコンテンツ処理システムでは、音響を含むコンテンツに含まれる音響の音響特徴量を求め、その音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成し、その同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成するので、複数のコンテンツを合成するときに、その複数のコンテンツの間の同期をとることができる。
したがって、コンテンツの(時間)同期を、手動でとる必要がないので、ユーザは、同一の楽曲を扱った音楽パフォーマンスコンテンツのマッシュアップ等の同期再生を、手軽に楽しむことができる。
また、図1のコンテンツ処理システムでは、シーンカットやトリミング等の編集や圧縮が行われたコンテンツであっても、そのコンテンツを注目コンテンツとして、注目コンテンツを含む複数のコンテンツを同期させて合成した合成コンテンツを生成することができる。
さらに、図1のコンテンツ処理システムでは、同期情報を手動で付加する必要がないので、大量の、幅広いコンテンツを扱うことができ、オンラインの動画や音響の共有サービス等と連携して、多くのユーザに、合成コンテンツを提供するサービスを実施することが可能となる。
図1のコンテンツ処理システムは、共通信号成分(同一又は類似の音響信号成分)となる、例えば、同一の楽曲に合わせて歌っているユーザや、ダンスをしているユーザ、楽器を演奏しているユーザが収録された複数のコンテンツを、1つのコンテンツ(合成コンテンツ)に合成する場合に、特に、有用である。
[音響合成部64の第1の構成例]
図12は、図10の音響合成部64の第1の構成例を示すブロック図である。
図12において、音響合成部64は、スペクトログラム算出部111及び112、ゲイン調整部113、共通信号成分検出部114、共通信号成分抑圧部115及び116、加算部119、並びに、逆変換部120を有し、例えば、左チャンネルと右チャンネル等のチャンネルごとに、第1音響及び第2音響を、その第1音響及び第2音響に含まれる共通信号成分(同一又は類似の音響信号成分)を抑圧して合成する。
スペクトログラム算出部111には、同期処理部63からの、第2音響と同期がとれた第1音響が供給される。
スペクトログラム算出部111は、そこに供給される第1音響のスペクトログラムを算出し、ゲイン調整部113、及び、共通信号成分抑圧部115に供給する。
スペクトログラム算出部112には、同期処理部63からの、第1音響と同期がとれた第2音響が供給される。
スペクトログラム算出部112は、そこに供給される第2音響のスペクトログラムを算出し、ゲイン調整部113、及び、共通信号成分抑圧部116に供給する。
ゲイン調整部113は、スペクトログラム算出部111からの第1音響のスペクトログラムから、極大値であるピーク(スペクトルピーク)を検出するとともに、スペクトログラム算出部112からの第2音響のスペクトログラムから、スペクトルピークを検出する。
さらに、ゲイン調整部113は、第1音響のスペクトルピークである第1のスペクトルピーク、及び、第2音響のスペクトルピークである第2のスペクトルピークから、互いに近い位置(周波数)にある第1及び第2のスペクトルピーク(のセット)を検出する。
ここで、互いに近い位置にある第1及び第2のスペクトルピークを、近傍ピークともいう。
ゲイン調整部113は、スペクトログラム算出部111からスペクトログラムが供給される第1音響、及び、スペクトログラム算出部112からスペクトログラムが供給される第2音響のゲイン(パワー)(音量)を、近傍ピークになっている第1及び第2のスペクトルピークの大きさ(パワー)が、なるべく一致するように調整するゲイン調整を行い、ゲイン調整後の第1音響及び第2音響のスペクトログラムを、共通信号成分検出部114に供給する。
共通信号成分検出部114は、ゲイン調整部113からのゲイン調整後の第1音響及び第2音響のスペクトログラムにおいて、所定の時間以上の間、スペクトル振幅(パワー)の差が閾値以下の周波数成分を、第1音響及び第2音響の共通信号成分として検出し、共通信号成分抑圧部115及び116に供給する。
共通信号成分抑圧部115は、共通信号成分検出部114からの共通信号成分に基づいて、スペクトログラム算出部111からの第1音響のスペクトログラムに含まれる共通信号成分を抑圧し(第1音響のスペクトログラムのうちの、共通信号成分検出部114からの共通信号成分の周波数の周波数成分を0にすることを含む)、その共通信号成分を抑圧した第1音響(以下、第1抑圧音響ともいう)のスペクトログラムを、加算部119に供給する。
共通信号成分抑圧部116は、共通信号成分検出部114からの共通信号成分に基づいて、スペクトログラム算出部112からの第2音響のスペクトログラムに含まれる共通信号成分を抑圧し(第2音響のスペクトログラムのうちの、共通信号成分検出部114からの共通信号成分の周波数の周波数成分を0にすることを含む)、その共通信号成分を抑圧した第2音響(以下、第2抑圧音響ともいう)のスペクトログラムを、加算部119に供給する。
加算部119には、共通信号成分抑圧部115からの第1抑圧音響のスペクトログラム、及び、共通信号成分抑圧部116からの第2抑圧音響のスペクトログラムが供給される他、スペクトログラム算出部111に供給されるのと同一の第1音響(以下、元の第1音響ともいう)、及び、スペクトログラム算出部112に供給されるのと同一の第2音響(以下、元の第2音響ともいう)が供給される。
加算部119は、元の第1音響の位相特性を求め、その位相特性と、共通信号成分抑圧部115からの第1抑圧音響のスペクトログラムとを用いて、第1抑圧音響の複素スペクトルを算出する。さらに、加算部119は、同様にして、第2抑圧音響の複素スペクトルを算出し、第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルとをを加算して、逆変換部120 に供給する。
逆変換部120は、加算部119からの、第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルとの加算値である周波数領域の信号を対象として、逆短時間フーリエ変換を行うことにより、時間領域の信号に逆変換をし、合成音響として出力する。
図13は、図12の音響合成部64が図11のステップS90で行う音響合成処理を説明するフローチャートである。
ステップS111において、スペクトログラム算出部111、及び、加算部119が、同期処理部63(図10)からの第1音響を受信するとともに、スペクトログラム算出部112、及び、加算部119が、同期処理部63からの第2音響を受信して、処理は、ステップS112に進む。
ステップS112では、スペクトログラム算出部111が、第1音響のスペクトログラムを算出し、ゲイン調整部113、及び、共通信号成分抑圧部115に供給するとともに、スペクトログラム算出部112が、第2音響のスペクトログラムを算出し、ゲイン調整部113、及び、共通信号成分抑圧部116に供給して、処理は、ステップS113に進む。
ステップS113では、ゲイン調整部113が、スペクトログラム算出部111からの第1音響のスペクトログラムからスペクトルピーク(第1のスペクトルピーク)を検出するとともに、スペクトログラム算出部112からの第2音響のスペクトログラムからスペクトルピーク(第2のスペクトルピーク)を検出し、処理は、ステップS114に進む。
ステップS114では、ゲイン調整部113は、第1音響のスペクトルピークである第1のスペクトルピーク、及び、第2音響のスペクトルピークである第2のスペクトルピークから、近傍ピークとしての第1及び第2のスペクトルピーク、すなわち、互いに近い位置にある第1及び第2のスペクトルピークを検出する。
さらに、ゲイン調整部113は、スペクトログラム算出部111からスペクトログラムが供給される第1音響、及び、スペクトログラム算出部112からスペクトログラムが供給される第2音響のゲインを、近傍ピークになっている第1及び第2のスペクトルピークの大きさが、なるべく一致するように調整するゲイン調整を行い、ゲイン調整後の第1音響及び第2音響のスペクトログラムを、共通信号成分検出部114に供給して、処理は、ステップS114からステップS115に進む。
ステップS115では、共通信号成分検出部114は、ゲイン調整部113からのゲイン調整後の第1音響及び第2音響のスペクトログラムにおいて、所定の時間以上の間、スペクトル振幅の差が閾値以下になっている周波数成分を、第1音響及び第2音響の共通信号成分として検出し、共通信号成分抑圧部115及び116に供給して、処理は、ステップS116に進む。
ステップS116では、共通信号成分抑圧部115は、共通信号成分検出部114からの共通信号成分に基づいて、スペクトログラム算出部111からの第1音響のスペクトログラムに含まれる共通信号成分を抑圧し、その共通信号成分を抑圧した第1音響である第1抑圧音響のスペクトログラムを、加算部119に供給する。
さらに、ステップS116では、共通信号成分抑圧部116が、共通信号成分検出部114からの共通信号成分に基づいて、スペクトログラム算出部112からの第2音響のスペクトログラムに含まれる共通信号成分を抑圧し、その共通信号成分を抑圧した第2音響である第2抑圧音響のスペクトログラムを、加算部119に供給して、処理は、ステップS117に進む。
ステップS117では、加算部119が、元の第1音響の位相特性を求める(取得する)とともに、元の第2音響の位相特性を求めて、処理は、ステップS118に進む。
ステップS118では、加算部119は、元の第1音響の位相特性と、共通信号成分抑圧部115からの第1抑圧音響のスペクトログラムとを用いて、第1抑圧音響の複素スペクトルを算出する。さらに、加算部119は、元の第2音響の位相特性と、共通信号成分抑圧部116からの第2抑圧音響のスペクトログラムとを用いて、第2抑圧音響の複素スペクトルを算出する。そして、加算部119は、第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルとをを加算し、その結果得られる加算値を、逆変換部120に供給して、処理は、ステップS118からステップS119に進む。
ステップS119では、逆変換部120は、加算部119からの、第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルとの加算値である周波数領域の信号を対象として、逆短時間フーリエ変換を行うことにより、時間領域の信号に逆変換をし、合成音響として出力して、音響合成処理は、終了する。
以上のような音響合成処理によれば、例えば、オリジナルのバンド演奏の音源に、ユーザによる歌唱を重ねて収録したコンテンツ#1、オリジナルのバンド演奏の音源に、ユーザによるピアノ演奏を重ねて収録したコンテンツ#2、及び、オリジナルのバンド演奏の音源に、ユーザによるバイオリン演奏を重ねて収録したコンテンツ#3を、合成対象コンテンツとした場合に、コンテンツ#1ないし#3それぞれの音響から、共通信号成分としての、オリジナルのバンド演奏の音源が抑圧されて合成され、その結果、ユーザによる歌唱、ピアノ演奏、及び、バイオリン演奏のアコースティックアレンジを、合成音響として得ることができる。
なお、音響合成部64では、第1音響及び第2音響から共通信号成分を抑圧した第1抑圧音響及び第2抑圧音響を合成した合成音響の他、共通信号成分を抑圧していない第1音響及び第2音響を合成した合成音響を得ることができる。
音響合成部64において、第1抑圧音響及び第2抑圧音響を合成した合成音響を得るか、共通信号成分を抑圧していない第1音響及び第2音響を合成した合成音響を得るかは、例えば、ユーザによるユーザI/F11(図1)の操作に応じて選択することができる。
また、図12の音響合成部64では、加算の後、逆変換を行うようにしたが、すなわち、加算部119において、周波数領域の信号である、第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルとを加算した後、その結果得られる加算値を、逆変換部120において、逆短時間フーリエ変換により、時間領域の信号に逆変換したが、音響合成部64では、逆変換の後に、加算を行うこと、すなわち、周波数領域の信号である、第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルのそれぞれを、逆短時間フーリエ変換により、時間領域の信号に逆変換し、その結果得られる時間領域の信号である第1抑圧音響と第2抑圧音響とを加算することができる。
但し、加算の後、逆変換を行う場合、逆変換である短時間フーリエ変換の対象が、(第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルとの)加算値のみであるのに対して、逆変換の後に加算を行う場合には、逆変換である短時間フーリエ変換の対象が、第1抑圧音響の複素スペクトルと第2抑圧音響の複素スペクトルとの2つであるため、演算量の観点からは、逆変換の後に加算を行うよりも、加算の後、逆変換を行う方が、有利である。
[画像合成部54の構成例]
図14は、図10の画像合成部54の構成例を示すブロック図である。
図14において、画像合成部54は、被写体抽出部121及び122、背景設定部123、配置設定部124、並びに、合成部125を有し、例えば、第1画像及び第2画像それぞれから被写体を抽出して、所定の背景に重畳した合成画像を生成する。
被写体抽出部121には、同期処理部53からの、第2画像と同期がとれた第1画像が供給される。
被写体抽出部121は、そこに供給される第1画像から被写体(前景)を抽出し、合成部125に供給する。
被写体抽出部122には、同期処理部53からの、第1画像と同期がとれた第2画像が供給される。
被写体抽出部122は、そこに供給される第2画像から被写体を抽出し、合成部125に供給する。
背景設定部123は、例えば、ユーザによるユーザI/F11(図1)の操作に応じて、合成画像の背景(に用いる画像)を設定し、合成部125に供給する。
すなわち、背景設定部123は、例えば、合成画像の背景となる画像の候補である背景候補として、複数の画像を記憶しており、その複数の背景候補の一覧を、ユーザI/F11に供給して表示させる。
複数の背景候補の一覧を見たユーザが、合成画像の背景に用いる背景候補を選択するように、ユーザI/F11を操作すると、背景設定部123は、そのユーザI/F11の操作に応じて、合成画像の背景を設定(選択)し、合成部125に供給する。
配置設定部124は、例えば、ユーザによるユーザI/F11の操作に応じて、第1画像及び第2画像を合成画像に合成するときの、その第1画像及び第2画像の配置を設定し、その配置を表す配置情報を、合成部125に供給する。
配置情報には、例えば、合成画像上の第1画像及び第2画像の並びの方向(例えば、横並びや縦並び等)と、合成画像上の第1画像及び第2画像の並びの順番(例えば、横並びであれば、第1画像及び第2画像を、左から何番目に配置するかの配置順)とが含まれる。
第1画像及び第2画像の並びの方向、及び、第1画像及び第2画像の並びの順番は、例えば、いずれも、ユーザI/F11の操作に応じて設定することができる。また、例えば、第1画像及び第2画像の並びの方向は、ユーザI/F11の操作に応じて設定し、第1画像及び第2画像の並びの順番は、配置設定部124においてランダムに設定することができる。
合成部125は、被写体抽出部121からの第1画像に映る被写体(以下、第1の被写体ともいう)と、被写体抽出部122からの第2画像に映る被写体(以下、第2の被写体ともいう)とを、配置設定部124からの配置情報に従い、背景設定部123からの背景に重畳することで、第1の被写体、第2の被写体、及び、背景を合成した合成画像を生成して出力する。
図15は、図14の画像合成部54が図11のステップS85で行う画像合成処理を説明するフローチャートである。
ステップS121において、被写体抽出部121が、同期処理部53(図10)からの第1画像を受信するとともに、被写体抽出部122が、同期処理部53からの第2画像を受信して、処理は、ステップS122に進む。
ステップS122では、背景設定部123が、ユーザによるユーザI/F11の操作に応じて、合成画像の背景を設定し、合成部125に供給するとともに、配置設定部124が、ユーザによるユーザI/F11の操作に応じて、合成画像上の第1画像及び第2画像の配置を設定し、その配置を表す配置情報を、合成部125に供給して、処理は、ステップS123に進む。
ステップS123では、被写体抽出部121が、第1画像から被写体(第1の被写体)を抽出し、合成部125に供給するとともに、被写体抽出部122が、第2画像から被写体(第2の被写体)を抽出し、合成部125に供給して、処理は、ステップS124に進む。
ステップS124では、合成部125が、被写体抽出部121からの第1の被写体と、被写体抽出部122からの第2の被写体とを、配置設定部124からの配置情報に従った配置で、背景設定部123からの背景に重畳することにより、第1の被写体、第2の被写体、及び、背景を合成した合成画像を生成して出力し、画像合成処理は、終了する。
以上のような画像合成処理によれば、例えば、オリジナルのバンド演奏に合わせてダンスを踊っているユーザAを撮影したコンテンツ#1、及び、オリジナルのバンド演奏に合わせて楽器の演奏を行っているユーザBを撮影したコンテンツ#2を、合成対象コンテンツとした場合に、被写体としてのユーザA及びBの画像が抽出されて合成され、その結果、ユーザA及びBが、同じ舞台で演じているかのような合成画像を得ることができる。
ここで、合成画像において、第1及び第2の被写体が動く場合には、その動く第1及び第2の被写体が重ならないように、第1及び第2の被写体を、十分離して配置することが望ましい。
なお、画像合成部54では、第1画像及び第2画像それぞれから抽出した第1の被写体及び第2の被写体を配置した合成画像の他、第1画像及び第2画像そのものを配置した合成画像を生成することができる。
画像合成部54において、第1画像及び第2画像それぞれから抽出した第1の被写体及び第2の被写体を配置した合成画像を生成するか、第1画像及び第2画像そのものを配置した合成画像を生成するかは、例えば、ユーザによるユーザI/F11(図1)の操作に応じて選択することができる。
[音響合成部64の第2の構成例]
図16は、図10の音響合成部64の第2の構成例を示すブロック図である。
図16において、音響合成部64は、定位感付加部131及び132、並びに、加算部133を有し、例えば、左チャンネルと右チャンネル等のチャンネルごとに、第1音響及び第2音響を合成する。
定位感付加部131には、同期処理部63からの、第2音響と同期がとれた第1音響が供給される。さらに、定位感付加部131には、配置設定部124(図14)で設定された、合成画像上の第1画像及び第2画像の配置を表す配置情報が供給される。
定位感付加部131は、配置設定部124で設定された配置情報に従い、そこに供給される第1音響に対して、その第1音響を発している被写体が映る第1画像が配置された位置の方向から、その第1音響が聞こえるかのような定位感を付加して、加算部133に供給する。
具体的には、定位感付加部131は、配置情報から、第1音響を発している被写体(例えば、楽器を演奏している演奏者)の合成画像上の配置位置を認識し、その配置位置に基づいて、第1音響を発している被写体と、合成コンテンツ(の合成画像)の仮想的な収録位置との位置関係を求める。さらに、定位感付加部131は、第1音響を発している被写体と、仮想的な収録位置との位置関係に応じた空間伝達応答を、第1音響に畳み込むことで、(のちに加算部133で得られる)合成画像上の、第1音響を発している被写体の位置の方向から、第1音響が聞こえるかのような定位感を、第1音響に付加する。
定位感付加部132には、同期処理部63からの、第1音響と同期がとれた第2音響が供給される。さらに、定位感付加部132には、配置設定部124(図14)で設定された、合成画像上の第1画像及び第2画像の配置を表す配置情報が供給される。
定位感付加部132は、定位感付加部131と同様に、配置設定部124で設定された配置情報に従い、そこに供給される第2音響に対して、その第2音響を発している被写体が映る第2画像が配置された位置の方向から、その第2音響が聞こえるかのような定位感を付加して、加算部133に供給する。
加算部133は、定位感付加部131からの第1音響と、定位感付加部132からの第2音響とを加算し、その加算値を、合成音響として出力する。
図17は、図16の音響合成部64が図11のステップS90で行う音響合成処理を説明するフローチャートである。
ステップS131において、定位感付加部131が、同期処理部63(図10)からの第1音響、及び、配置設定部124(図14)で設定された配置情報を受信するとともに、定位感付加部132が、同期処理部63からの第2音響、及び、配置設定部124で設定された配置情報を受信して、処理は、ステップS132に進む。
ステップS132では、定位感付加部131が、配置情報に従い、第1音響に対して、定位感を付加して、加算部133に供給するとともに、定位感付加部132が、配置情報に従い、第2音響に対して、定位感を付加して、加算部133に供給して、処理は、ステップS133に進む。
ステップS133では、加算部133が、定位感付加部131からの第1音響と、定位感付加部132からの第2音響とを加算し、その加算値を、合成音響として出力して、音響合成処理は、終了する。
以上のような音響合成処理によれば、例えば、オリジナルのバンド演奏に合わせて歌っているボーカルが撮影されたコンテンツ#1、オリジナルのバンド演奏に合わせてギターを演奏しているギター演奏者が撮影されたコンテンツ#2、及び、オリジナルのバンド演奏に合わせてベースを演奏しているベース演奏者が撮影されたコンテンツ#3を、合成対象コンテンツとして、図14の画像合成部54において、ボーカルが中央に、ギター演奏者が右側に、ベース演奏者が左側に、それぞれ配置された合成画像が生成される場合に、ボーカルが正面から、ギターの演奏が右側から、ベースの演奏が左側から、それぞれ聞こえるような音像定位を生じさせる、臨場感がある合成音響を生成することができる。
[音響合成部64の第3の構成例]
図18は、図10の音響合成部64の第3の構成例を示すブロック図である。
図18において、音響合成部64は、音量正規化係数算出部201、及び、合成部202を有し、例えば、左チャンネルと右チャンネル等のチャンネルごとに、第1音響及び第2音響を、音量を調整して合成する。
音量正規化係数算出部201には、同期処理部63(図10)からの第1音響及び第2音響が供給される
音量正規化係数算出部201は、同期処理部63からの第1音響及び第2音響に基づき、その第1音響及び第2音響の音量を変更するための音量正規化係数を算出し、合成部202に供給する。
ここで、音量正規化係数算出部201では、例えば、第1音響及び第2音響に含まれる共通信号成分のレベルが一致するように、第1音響及び第2音響の音量を変更するための音量正規化係数を算出することができる。
合成部202は、音量調整部211、及び、加算部212を有し、音量正規化係数算出部201からの音量正規化係数を用いて、第1音響と第2音響との最適な音量比を求め、その音量比に従って、第1音響及び第2音響の音量を調整して合成する。
音量調整部211には、同期処理部63(図10)からの第1音響及び第2音響が供給されるとともに、音量正規化係数算出部201からの音量正規化係数が供給される。
音量調整部211は、音量正規化係数算出部201からの音量正規化係数を用いて、第1音響と第2音響との最適な音量比(例えば、第1音響と第2音響とを合成した合成音響において、ユーザが適切にミキシングされていると感じるであろう第1音響と第2音響との音量比)を求める。
さらに、音量調整部211は、同期処理部63からの第1音響及び第2音響の音量を、最適な音量比となるように調整し、加算部212に供給する。
加算部212は、音量調整部211からの音量が調整された第1音響及び第2音響を加算し、その加算値を、合成音響として出力する。
図19は、図18の音響合成部64が図11のステップS90で行う音響合成処理を説明するフローチャートである。
ステップS211において、音量正規化係数算出部201、及び、音量調整部211が、同期処理部63(図10)からの第1音響及び第2音響を受信して、処理は、ステップS212に進む。
ステップS212では、音量正規化係数算出部201は、第1音響及び第2音響に含まれる共通信号成分のレベルが一致するように、第1音響及び第2音響の音量を変更するための音量正規化係数を算出する音量正規化係数算出処理を行い、その結果得られる音量正規化係数を、合成部202に供給して、処理は、ステップS213に進む。
ステップS213では、合成部202の音量調整部211が、音量正規化係数算出部201からの音量正規化係数を用いて、同期処理部63からの第1音響と第2音響との最適な音量比を求める。そして、音量調整部211は、同期処理部63からの第1音響及び第2音響の音量(振幅)を、最適な音量比となるように調整し、加算部212に供給して、処理は、ステップS214に進む。
ステップS214では、加算部212が、音量調整部211からの最適な音量比の第1音響と第2音響とを加算し、その加算値を、合成音響として出力して、音響合成処理は、終了する。
[音量正規化係数算出部201の構成例]
図20は、図18の音量正規化係数算出部201の構成例を示すブロック図である。
図20において、音量正規化係数算出部201は、平滑化スペクトログラム算出部221及び222、共通ピーク検出部223、及び、係数算出部224を有し、第1音響及び第2音響に含まれる共通信号成分のレベルが一致するように、第1音響及び第2音響の音量を変更するための音量正規化係数を算出する。
平滑化スペクトログラム算出部221には、同期処理部63(図10)からの、第2音響と同期がとれた第1音響が供給される。
平滑化スペクトログラム算出部221は、そこに供給される第1音響のスペクトログラムを算出する。さらに、平滑化スペクトログラム算出部221は、第1音響のスペクトログラムを、周波数方向に平滑化することにより、例えば、調波性の周波数成分がピーク(極大値)になっている場合に、そのピークを検出することができる程度の精度のスペクトログラム(以下、平滑化スペクトログラムともいう)を、第1音響(を含む第1コンテンツ)の特徴情報として求め、共通ピーク検出部223、及び、係数算出部224に供給する。
平滑化スペクトログラム算出部222には、同期処理部63からの、第1音響と同期がとれた第2音響が供給される。
平滑化スペクトログラム算出部222は、平滑化スペクトログラム算出部221と同様にして、そこに供給される第2音響の平滑化スペクトログラムを求め、共通ピーク検出部223、及び、係数算出部224に供給する。
共通ピーク検出部223は、平滑化スペクトログラム算出部221からの第1音響の平滑化スペクトログラムのピークである第1のスペクトルピークを検出するとともに、平滑化スペクトログラム算出部222からの第2音響の平滑化スペクトログラムのピークである第2のスペクトルピークを検出する。
さらに、共通ピーク検出部223は、第1及び第2のスペクトルピークから、互いに近い位置(周波数)にある第1及び第2のスペクトルピークを、共通信号成分のピークである共通ピークとして検出し、その共通ピークの周波数(位置)と大きさ(振幅)(パワー)を、共通ピーク情報として、係数算出部224に供給する。
係数算出部224は、共通ピーク検出部223からの共通ピーク情報に基づいて、平滑化スペクトログラム算出部221からの第1音響のスペクトログラム、及び、平滑化スペクトログラム算出部222からの第2音響のスペクトログラムにおいて、共通ピークになっている第1及び第2のスペクトルピークを認識する。さらに、係数算出部224は、例えば、第2音響の音量を所定数倍に補正したときの、共通ピークになっている第2のスペクトルピークである補正ピークと、その第2のスペクトルピークとともに共通ピークになっている第1のスペクトルピークとの誤差を最小化する所定数倍を、第1音響及び第2音響に含まれる共通信号成分のレベルを一致させるように、第2音響の音量を変更するための音量正規化係数として算出して出力する。
ここで、例えば、いま、第1音響が、市販の楽曲AのCDの音に合わせて、ユーザが独自にアレンジしたギターパートを収録したコンテンツ#1の音響であり、第2音響が、同一の楽曲AのCDの音、又は、その楽曲Aのカラオケバージョンの音に合わせてユーザが歌った歌声(歌唱)を収録したコンテンツ#2の音響であるとする。
第1音響及び第2音響を合成する場合には、第1音響のギターパートの音量と、第2音響の歌声(ボーカル)の音量とを、適切(最適)な音量比で合成することが望ましい。
第1音響のギターパートの音量と、第2音響のボーカルの音量とを、適切な音量比で合成するには、その適切な音量比となるように、第1音響のギターパートの音量、及び、第2音響のボーカルの音量(のうちの少なくとも一方)を調整する必要があるが、そのためには、第1音響に含まれるギターパートのみの音量、及び、第2音響に含まれるボーカルのみの音量を、的確に把握する必要がある。
しかしながら、第1音響には、ギターパートの他に、楽曲AのCDの音が含まれているので、そのような第1音響のままでは、第1音響に含まれるギターパートのみの音量を、的確に求めることは困難である。
同様に、第2音響には、ボーカルの他に、楽曲AのCDの音、又は、その楽曲Aのカラオケバージョンの音が含まれているので、そのような第2音響のままでは、第2音響に含まれるボーカルのみの音量を、的確に求めることは困難である。
ところで、いまの場合、第1音響及び第2音響には、楽曲AのCDの音、又は、その楽曲Aのカラオケバージョンの音が、共通信号成分として含まれる。
第1音響に含まれる共通信号成分の音量と、第2音響に含まれる共通信号成分の音量とは、第1音響及び第2音響それぞれの収録時の録音レベル等によって異なるが、第1音響及び第2音響は、共通信号成分と、その他の信号成分とを、適切にバランスさせて収録されていると予想される。
すなわち、第1音響に含まれるギターパートは、その第1音響に含まれる楽曲AのCDの音に含まれるボーカルを引き立てるように、楽曲AのCDの音との関係で、ギターパートとして適切な音量で収録されていると予想される。
同様に、第2音響に含まれるボーカルは、その第2音響に含まれる楽曲AのCDの音、又は、楽曲Aのカラオケバージョンの音との関係で、ボーカルとして適切な音量(第2音響に、楽曲AのCDの音が含まれている場合には、その楽曲AのCDの音に含まれるボーカルと同程度の音量)で収録されていると予想される。
この場合、第1音響に含まれる共通信号成分としての楽曲AのCDの音の音量と、第2音響に含まれる共通信号成分としての楽曲AのCDの音、又は、楽曲Aのカラオケバージョンの音の音量とが一致するように、第1音響及び第2音響の音量比を決定(算出)し、その音量比に従って、第1音響及び第2音響の音量を調整して合成することにより、第1音響及び第2音響を、音量を適切に調整して合成することができる。
図21は、第1音響に含まれる共通信号成分の音量と、第2音響に含まれる共通信号成分の音量とを一致させる方法を示している。
図21Aは、第1音響のパワースペクトルの例を示しており、図21Bは、第2音響のパワースペクトルの例を示している。
図21Aの第1音響のパワースペクトルでは、周波数f1,f2,f3,f4が、スペクトルピーク(第1のスペクトルピーク)になっており、図21Bの第2音響のパワースペクトルでは、周波数f1',f2,f3',f4が、スペクトルピーク(第2のスペクトルピーク)になっている。
いま、第1のスペクトルピークの周波数f1,f2,f3,f4、及び、第2のスペクトルピークの周波数f1',f2,f3',f4のうちの、周波数f2とf4が、共通信号成分のスペクトルピーク(又は、共通信号成分が支配的なスペクトルピーク)であることとすると、第1音響及び第2音響のうちの少なくとも一方である、例えば、第2音響の音量を調整することにより、第1のスペクトルピークのうちの共通信号成分のスペクトルピークと、第2のスペクトルピークのうちの共通信号成分のスペクトルピークとの大きさを、ほぼ一致させることができる。
図21Cは、音量を調整した第2音響のパワースペクトルを示す図である。
図21Dは、図21Aの第1音響のパワースペクトル(実線)と、図21Cの音量を調整した第2音響のパワースペクトル(点線)とを重畳した図である。
図21Dに示すように、第2音響の音量を調整することにより、共通信号成分のスペクトルピークである周波数f2の第1のスペクトルピークと第2のスペクトルピークとの大きさを、ほぼ一致させること、及び、共通信号成分のスペクトルピークである周波数f4の第1のスペクトルピークと第2のスペクトルピークとの大きさを、ほぼ一致させることができる。
第1音響及び第2音響が、共通信号成分と、その他の信号成分とを、適切にバランスさせて収録されている場合、第1のスペクトルピークのうちの共通信号成分のスペクトルピークと、第2のスペクトルピークのうちの共通信号成分のスペクトルピークとの大きさが、ほぼ一致するように、第2音響の音量を調整することで、第1音響及び第2音響を、適切な音量比(第1音響に含まれるギターパートの音量と、第2音響に含まれるボーカルの音量とが適切に聞こえる音量比)で合成することができる。その結果、例えば、別個に演奏を行っている複数のコンテンツから、あたかも合奏しているかのような合成コンテンツを、容易に作成することができる。
図20の音量正規化係数算出部201は、第1音響及び第2音響に含まれる共通信号成分のレベルが一致するように、第2音響の音量を変更するための音量正規化係数を算出する。そのため、共通ピーク検出部223において、第1及び第2のスペクトルピークから、互いに近い位置(周波数)にある第1及び第2のスペクトルピークが、共通信号成分のピークである共通ピークとして検出される。
図20では、図20Aの第1音響のパワースペクトルにおける、周波数f2の第1のスペクトルピーク(になっている周波数成分)と、図20Bの第2音響のパワースペクトルにおける、周波数f2の第2のスペクトルピークとのセットが、共通ピークとして検出される。
さらに、図20では、図20Aの第1音響のパワースペクトルにおける、周波数f4の第1のスペクトルピークと、図20Bの第2音響のパワースペクトルにおける、周波数f4の第2のスペクトルピークとのセットが、共通ピークとして検出される。
そして、係数算出部224(図20)において、第2音響の音量を所定数倍に補正したときの、共通ピークになっている周波数f2の第2のスペクトルピークである補正ピークと、その第2のスペクトルピークとともに共通ピークになっている、周波数f2の第1のスペクトルピークとの誤差、及び、共通ピークになっている周波数f4の第2のスペクトルピークである補正ピークと、その第2のスペクトルピークとともに共通ピークになっている、周波数f4の第1のスペクトルピークとの誤差を最小化する所定数倍が、音量正規化係数として算出される。
具体的には、図20の音量正規化係数算出部201では、平滑化スペクトログラム算出部221及び222において、所定の時間長のフレームごとに、平滑化スペクトルグラムが算出される。
共通ピーク検出部223では、各フレームについて、第1音響の平滑化スペクトログラムのピークである第1のスペクトルピークが検出されるとともに、第2音響の平滑化スペクトログラムのピークである第2のスペクトルピークが検出される。
さらに、共通ピーク検出部223では、各フレームについて、第1及び第2のスペクトルピークから、互いに近い周波数の第1及び第2のスペクトルピークを、共通信号成分のピークである共通ピークとして検出し、その共通ピークの周波数と大きさを、共通ピーク情報として、係数算出部224に供給する。
係数算出部224では、共通ピーク検出部223からの共通ピーク情報に基づいて、共通ピークになっている第1及び第2のスペクトルピークが認識され、第2音響の音量を所定数倍に補正したときの第2のスペクトルピークである補正ピークと、その第2のスペクトルピークとともに共通ピークになっている第1のスペクトルピークとの誤差を最小化する所定数倍が、第1音響及び第2音響に含まれる共通信号成分のレベルを一致させるように、第1音響及び第2音響の音量を変更するための音量正規化係数として算出される。
すなわち、第i音響の第jフレームのスペクトログラムの、k番目の共通ピークになっているスペクトルピークの大きさを、P(i,j,k)と表すこととすると、係数算出部224は、式(1)の誤差の総和D(α)を最小にする値αを、音量正規化係数として算出する。
D(α)=Σj,k|P(1,j,k)−αP(2,j,k)|
・・・(1)
ここで、式(1)において、Σj,kは、変数jを、1からフレームの総数までの整数に代え、かつ、変数kを、1から第jフレームに存在する共通ピークの数までの整数に代えて、サメーションをとることを表す。なお、ここでは、第1音響及び第2音響は、同一の時間長の信号であることとする。
合成対象コンテンツが、3つ以上のコンテンツである場合には、係数算出部224では、その3つ以上のコンテンツの音響のうちの1つの音響を、いわば基準の基準音響(音量正規化係数が1の音響)として、他のコンテンツの音響それぞれの音量正規化係数が、同様にして求められる。
図22は、図20の音量正規化係数算出部201が図19のステップS212で行う音量正規化係数算出処理を説明するフローチャートである。
ステップS221において、平滑化スペクトログラム算出部221が、同期処理部63(図10)からの第1音響を受信するとともに、平滑化スペクトログラム算出部222が、同期処理部63からの第2音響を受信し、処理は、ステップS222に進む。
ステップS222では、平滑化スペクトログラム算出部221が、第1音響のスペクトログラムを算出し、その第1音響のスペクトログラムを、周波数方向に平滑化することにより、第1音響の平滑化スペクトログラムを求める。
さらに、ステップS222では、平滑化スペクトログラム算出部222が、平滑化スペクトログラム算出部221と同様にして、第2音響の平滑化スペクトログラムを求める。
そして、平滑化スペクトログラム算出部221が、第1音響のスペクトログラムを、共通ピーク検出部223、及び、係数算出部224に供給するとともに、平滑化スペクトログラム算出部222が、第2音響のスペクトログラムを、共通ピーク検出部223、及び、係数算出部224に供給して、処理は、ステップS222からステップS223に進む。
ステップS223では、共通ピーク検出部223が、平滑化スペクトログラム算出部221からの第1音響の平滑化スペクトログラムから、第1のスペクトルピークを検出するとともに、平滑化スペクトログラム算出部222からの第2音響の平滑化スペクトログラムから、第2のスペクトルピークを検出して、処理は、ステップS224に進む。
ステップS224では、共通ピーク検出部223は、第1及び第2のスペクトルピークから、互いに近い周波数の第1及び第2のスペクトルピークを、共通ピークとして検出し、その共通ピーク(としての第1及び第2のスペクトルピーク)の周波数と大きさを、共通ピーク情報として、係数算出部224に供給して、処理は、ステップS225に進む。
ステップS225では、係数算出部224が、共通ピーク検出部223からの共通ピーク情報に基づき、平滑化スペクトログラム算出部221からの第1音響のスペクトログラム、及び、平滑化スペクトログラム算出部222からの第2音響のスペクトログラムにおいて、共通ピークになっている第1及び第2のスペクトルピークを認識する。
さらに、係数算出部224は、第2音響の音量を、増幅率αとしての所定数倍に増幅する補正をしたときの第2のスペクトルピークである補正ピークと、その第2のスペクトルピークとともに共通ピークになっている第1のスペクトルピークとの誤差を最小化する増幅率αとしての所定数倍、すなわち、式(1)の誤差の総和D(α)を最小にする値αを算出し、第1音響及び第2音響に含まれる共通信号成分のレベルを一致させるように、第2音響の音量を変更するための音量正規化係数として出力して、音量正規化係数算出処理は、終了する。
なお、音量調整部211(図18)では、第1音響の音量正規化係数を1とするとともに、音量正規化係数算出部201からの音量正規化係数を第2音響の音量正規化係数として用い、例えば、第1音響の音量を、第1音響の音量正規化係数である1倍に調整するとともに、第2音響の音量を、第2音響の音量正規化係数倍に調整したときの、その調整後の第1音響及び第2音響の音量の比が、最適な音量比として求められる。
[音量比算出の他の例]
図18の音量調整部211では、音量正規化係数を用いずに、音量比を求めることができる。
図23は、図18の音量調整部211において、音量正規化係数を用いずに、最適な音量比を求める部分(以下、最適音量比算出部ともいう)の構成例を示すブロック図である。
図23において、最適音量比算出部は、パート推定部231、及び、音量比算出部232を有し、第1音響及び第2音響それぞれのパートを推定し、第1音響及び第2音響それぞれのパートに基づいて、音量比を決定する。
ここで、図20の音量正規化係数算出部201では、第1音響及び第2音響が、いずれも、共通信号成分と、例えば、ギターパートやボーカル等の、その他の信号成分とを、適切にバランスさせて収録された信号(以下、バランス信号ともいう)になっていることを前提としたが、第1音響及び第2音響が、必ずしも、そのようなバランス信号になっているとは限らない。
図23の最適音量比算出部では、第1音響及び第2音響がバランス信号になっている場合は勿論、第1音響及び第2音響がバランス信号になっていない場合であっても、第1音響及び第2音響を合成するときの、適切な音量比を決定することができる。
パート推定部231には、同期処理部63(図10)からの第1音響及び第2音響が供給される。
パート推定部231は、同期処理部63からの第1音響及び第2音響それぞれのパートを推定し、音量比算出部232に供給する。
音量比算出部232は、パート推定部231からの第1音響及び第2音響それぞれのパート(の推定結果)に基づいて、第1音響及び第2音響(を合成するとき)の音量比を算出して出力する。
[パート推定部231の第1の構成例]
図24は、図23のパート推定部231の第1の構成例を示すブロック図である。
図24において、パート推定部231は、メタ検出部241、及び、パート認識部242を有する。
メタ検出部241には、同期処理部63(図10)からの第1音響及び第2音響が供給される。
ここで、音楽パフォーマンスコンテンツ等がアップロードされる共有動画サイトでは、コンテンツをアップロードするユーザや、コンテンツの閲覧者が、アップロードされているコンテンツに対して、コンテンツのタイトルや、検索のキーワード等のメタデータを、タグ等として付加することができる機能を備えていることがある。
ここでは、第1音響を含む第1コンテンツに、その第1音響のパートのパート情報(第1音響に含まれる、共通信号成分以外の音が、例えば、ボーカルやギター等のどのようなパートの音であるかを表す情報)が、メタデータとして付加されていることとする。同様に、第2音響を含む第2コンテンツにも、その第2音響のパートのパート情報が、メタデータとして付加されていることとする。
メタ検出部241は、第1音響及び第2音響それぞれのメタデータを検出し、パート認識部242に供給する。
パート認識部242は、メタ検出部241からの第1音響及び第2音響それぞれのメタデータから、第1音響及び第2音響それぞれのパート情報を認識(抽出)して出力する。
[音量比算出部232の第1の構成例]
図25は、図23の音量比算出部232の第1の構成例を示すブロック図である。
図25において、音量比算出部232は、音量比DB251、及び、検索部252を有する。
音量比DB251には、各種の楽器編成の合奏形態における典型的な楽器やボーカル等の各パートについての音量比(例えば、ボーカル等の所定のパートを基準とする音量比)が登録されている。
検索部252には、パート推定部231(図23)から、第1音響及び第2音響それぞれのパート情報が供給される。
検索部252は、第1音響及び第2音響それぞれのパート情報が表すパートによる合奏形態の各パートについての音量比を、音量比DB251から検索して出力する。
[パート推定部231の第2の構成例]
図26は、図23のパート推定部231の第2の構成例を示すブロック図である。
図24のパート推定部231では、第1音響を含む第1コンテンツ、及び、第2音響を含む第2コンテンツに、パート情報のメタデータが付加されていることを前提とし、そのメタデータを用いて、第1音響及び第2音響それぞれのパートを推定したが、図26のパート推定部231は、メタデータを用いずに(メタデータなしで)、第1音響及び第2音響それぞれのパートを推定する。
図26において、パート推定部231は、共通信号抑圧部260、平均信号算出部277及び278、基本周波数推定部279及び280、ボーカルスコア算出部281及び282、並びに、パート決定部283を有し、第1音響及び第2音響それぞれのパートが、ボーカルパートであるか、又は、ボーカルでないパート(ギターパート等)(以下、非ボーカルパートともいう)であるかを推定する。
ここで、以下では、説明を簡単にするため、第1音響及び第2音響それぞれのパートは、単声であることとする。
共通信号抑圧部260は、平滑化スペクトログラム261及び262、共通ピーク検出部263、スペクトログラム算出部271及び272、共通信号成分抑圧部273及び274、並びに、逆変換部275及び276を有し、第1音響及び第2音響から共通信号成分を抑圧する共通信号抑圧処理を行う。
平滑化スペクトログラム算出部261には、同期処理部63(図10)からの、第2音響と同期がとれた第1音響が供給される。
平滑化スペクトログラム算出部261は、図20の平滑化スペクトログラム算出部221と同様にして、そこに供給される第1音響の平滑化スペクトログラムを算出し、共通ピーク検出部263に供給する。
平滑化スペクトログラム算出部262には、同期処理部63からの、第1音響と同期がとれた第2音響が供給される。
平滑化スペクトログラム算出部262は、図20の平滑化スペクトログラム算出部222と同様にして、そこに供給される第2音響の平滑化スペクトログラムを算出し、共通ピーク検出部263に供給する。
共通ピーク検出部263は、平滑化スペクトログラム算出部261からの第1音響の平滑化スペクトログラム、及び、平滑化スペクトログラム算出部262からの第2音響の平滑化スペクトログラムから、図20の共通ピーク検出部223と同様にして、共通信号成分のピークである共通ピークとしての第1及び第2のスペクトルピークを検出し、その共通ピークの周波数と大きさを表す共通ピーク情報を、共通信号成分抑圧部273及び274に供給する。
スペクトログラム算出部271には、同期処理部63(図10)からの第1音響が供給される。
スペクトログラム算出部271は、図12のスペクトログラム算出部111と同様に、第1音響のスペクトログラムを算出し、共通信号成分抑圧部273に供給する。
スペクトログラム算出部272には、同期処理部63からの第2音響が供給される。
スペクトログラム算出部272は、図12のスペクトログラム算出部112と同様に、第2音響のスペクトログラムを算出し、共通信号成分抑圧部274に供給する。
共通信号成分抑圧部273は、共通ピーク検出部263からの共通ピーク情報に基づいて、スペクトログラム算出部271からの第1音響のスペクトログラムの、共通ピーク情報が表す、共通ピークとしての第1のスペクトルピークの周波数の周波数成分を0とすること等により、第1音響のスペクトログラムに含まれる共通信号成分を抑圧し、共通信号成分を抑圧した第1音響である第1抑圧音響のスペクトログラムを、逆変換部275に供給する。
なお、共通信号成分は、一般に、共通ピーク情報が表す、共通ピークとしての第1のスペクトルピークの周波数を中心として広がっているので、共通信号成分抑圧部273での共通信号成分の抑圧は、共通ピーク情報が表す周波数を中心とする半音の1/4ないし1/2に対応する周波数帯域の周波数成分を0とすること等により行うことができる。
共通信号成分抑圧部274は、共通ピーク検出部263からの共通信号成分に基づいて、スペクトログラム算出部272からの第2音響のスペクトログラムに含まれる共通信号成分を、共通信号成分抑圧部273と同様にして抑圧し、共通信号成分を抑圧した第2音響である第2抑圧音響のスペクトログラムを、逆変換部276に供給する。
逆変換部275には、共通信号成分抑圧部273からの第1抑圧音響のスペクトログラムが供給される他、スペクトログラム算出部271に供給されるのと同一の第1音響(元の第1音響)が供給される。
逆変換部275は、元の第1音響の位相特性を求め、その位相特性と、共通信号成分抑圧部273からの第1抑圧音響のスペクトログラム(振幅特性)とを用いて、逆短時間フーリエ変換を行うことにより、周波数領域の信号である、元の第1音響の位相特性、及び、第1抑圧音響のスペクトログラムを、時間領域の信号である第1抑圧音響に逆変換し、平均信号算出部277に供給する。
逆変換部276には、共通信号成分抑圧部274からの第2抑圧音響のスペクトログラムが供給される他、スペクトログラム算出部272に供給されるのと同一の第2音響(元の第2音響)が供給される。
逆変換部276は、元の第2音響の位相特性を求め、その位相特性と、共通信号成分抑圧部274からの第2抑圧音響のスペクトログラム(振幅特性)とを用いて、逆短時間フーリエ変換を行うことにより、周波数領域の信号である、元の第2音響の位相特性、及び、第2抑圧音響のスペクトログラムを、時間領域の信号である第2抑圧音響に逆変換し、平均信号算出部278に供給する。
ここで、共通信号抑圧部260では、第1音響が、例えば、左チャンネルと右チャンネル等の複数チャンネルを有する場合には、チャンネルごとに、共通信号抑圧処理が行われる。この場合、逆変換部275から平均信号算出部277には、複数チャンネルの第1抑圧音響が供給される。
同様に、第2音響が、複数のチャンネルを有する場合にも、共通信号抑圧部260では、チャンネルごとに、共通信号抑圧処理が行われる。この場合、逆変換部276から平均信号算出部278には、複数チャンネルの第2抑圧音響が供給される。
逆変換部275から平均信号算出部277に供給される第1抑圧音響は、元の第1音響から、共通信号成分が抑圧された信号であり、ほぼ、元の第1音響に含まれているパートの信号(成分)が支配的な音響になっている。
同様に、逆変換部276から平均信号算出部278に供給される第2抑圧音響は、ほぼ、元の第2音響に含まれているパートの信号が支配的な音響になっている。
なお、共通信号抑圧部260では、共通信号抑圧処理を、チャンネルごとではなく、チャンネルをまたぐ形で(マルチチャンネル処理で)行うことができる。
また、第1音響や第2音響について、事前情報としての、例えば、パート情報のメタデータが存在する場合には、その事前情報を用い、例えば、共通信号抑圧処理において、パート情報が表すパートに特徴的な周波数成分の抑圧を低減すること等により、よりパートの信号が支配的な第1抑圧音響や第2抑圧音響を得ることができる。
平均信号算出部277は、逆変換部275からの第1抑圧音響の複数チャンネルをモノラル化するために、その複数チャンネルの平均値(以下、第1抑圧音響平均信号ともいう)を求めて、基本周波数推定部279に供給する。
平均信号算出部278は、逆変換部276からの第2抑圧音響の複数チャンネルをモノラル化するために、その複数チャンネルの平均値(以下、第2抑圧音響平均信号ともいう)を求めて、基本周波数推定部280に供給する。
ここで、第1音響が1チャンネルの信号である場合、平均信号算出部277の出力である第1抑圧音響平均信号は、平均信号算出部277への入力である第1抑圧音響に等しい。第2抑圧音響平均信号についても、同様である。
基本周波数推定部279は、平均信号算出部277からの第1抑圧音響平均信号の基本周波数(ピッチ周波数)を、所定の時間長(例えば、数十ミリ秒等)のフレームごとに推定し、ボーカルスコア算出部281に供給する。
基本周波数推定部280は、平均信号算出部278からの第2抑圧音響平均信号の基本周波数を、基本周波数推定部279と同様にフレームごとに推定し、ボーカルスコア算出部282に供給する。
ここで、信号の基本周波数の推定方法としては、例えば、信号をFFT(高速フーリエ変換)することにより得られるスペクトルのスペクトルピークの最小の周波数を検出する方法等を採用することができる。
ボーカルスコア算出部281は、基本周波数推定部279からの、第1抑圧音響平均信号のフレームごとの基本周波数に基づいて、第1抑圧音響のボーカルらしさ(第1抑圧音響が音声(歌声)であることの程度)を表すボーカルスコアを算出し、パート決定部283に供給する。
ここで、ボーカル(歌声)(歌唱音)については、楽器音に比較して、2つの音の間での基本周波数の遷移が滑らかであり、また、フレーズの開始時や終了時で、どの音階にも当てはまらない曖昧な基本周波数になる傾向がある。
そこで、ボーカルスコア算出部281は、第1抑圧音響平均信号の各フレームの基本周波数を、西洋12音階に対応する周波数と比較し、西洋12音階に対応する周波数(のうちの基本周波数に最も近い周波数)と基本周波数との差が、例えば、1/4音以上であるフレームを、ボーカルが支配的なボーカルフレームとして、そのボーカルフレームの数をカウントする。
そして、ボーカルスコア算出部281は、ボーカルフレームの数を、第1抑圧音響平均信号のフレーム数で除算し(正規化し)、その結果得られる除算値を、第1抑圧音響のボーカルスコアとして、パート決定部283に供給する。
ボーカルスコア算出部282は、基本周波数推定部280からの、第2抑圧音響平均信号のフレームごとの基本周波数に基づいて、第2抑圧音響のボーカルスコアを、ボーカルスコア算出部281と同様にして算出し、パート決定部283に供給する。
パート決定部283は、ボーカルスコア算出部281及び282からのボーカルスコアに基づき、第1抑圧音響、及び、第2抑圧音響それぞれのパート(第1音響及び第2音響それぞれのパート)を推定し、それぞれのパートを表すパート情報を出力する。
すなわち、パート決定部283は、第1(抑圧)音響、及び、第2(抑圧)音響のうちの、ボーカルスコアが最大の音響のパートをボーカルパートに決定(ボーカルスコアが最大の音響のパートがボーカルパートであると推定)するとともに、他の音響のパートを非ボーカルパートに決定し、第1音響及び第2音響それぞれのパートを表すパート情報を出力する。
図27は、図26のパート推定部231が行う処理(パート推定処理)を説明するフローチャートである。
ステップS241において、平滑化スペクトログラム算出部261、スペクトログラム算出部271、及び、逆変換部275が、同期処理部63(図10)からの第1音響を受信する。
さらに、ステップS241では、平滑化スペクトログラム算出部262、スペクトログラム算出部272、及び、逆変換部276が、同期処理部63からの第2音響を受信して、処理は、ステップS242に進む。
ステップS242では、平滑化スペクトログラム算出部261、及び、スペクトログラム算出部271が、第1音響のスペクトログラムを算出するとともに、平滑化スペクトログラム算出部262、及び、スペクトログラム算出部272が、第2音響のスペクトログラムを算出する。
さらに、ステップS242では、平滑化スペクトログラム算出部261が、第1音響のスペクトログラムを平滑化することにより、第1音響の平滑化スペクトルグラムを算出するとともに、平滑化スペクトログラム算出部262が、第2音響のスペクトログラムを平滑化することにより、第2音響の平滑化スペクトログラムを算出する。
そして、平滑化スペクトログラム算出部261で算出された第1音響の平滑化スペクトルグラム、及び、平滑化スペクトログラム算出部262で算出された第2音響の平滑化スペクトログラムが、共通ピーク検出部263に、スペクトログラム算出部271で算出された第1音響のスペクトログラムが、共通信号成分抑圧部273に、スペクトログラム算出部272で算出された第2音響のスペクトログラムが、共通信号成分抑圧部274に、それぞれ供給され、処理は、ステップS242からステップS243に進む。
ステップS243では、共通ピーク検出部263が、平滑化スペクトログラム算出部261からの第1音響の平滑化スペクトログラムから第1のスペクトルピークを検出するとともに、平滑化スペクトログラム算出部262からの第2音響の平滑化スペクトログラムから第2のスペクトルピークを検出して、処理は、ステップS244に進む。
ステップS244では、共通ピーク検出部263が、第1及び第2のスペクトルピークのうちの、互いに近い位置にある第1及び第2のスペクトルピークを、共通信号成分のピークである共通ピークとして検出し、その共通ピーク(である第1及び第2のスペクトルピーク)の周波数と大きさを表す共通ピーク情報を、共通信号成分抑圧部273及び274に供給して、処理は、ステップS245に進む。
ステップS245では、共通信号成分抑圧部273は、共通ピーク検出部263からの共通ピーク情報に基づいて、スペクトログラム算出部271からの第1音響のスペクトログラムの、共通ピーク情報が表す、共通ピークとしての第1のスペクトルピークの周波数の周波数成分を0とすること等により、第1音響のスペクトログラムに含まれる共通信号成分を抑圧し、共通信号成分を抑圧した第1音響である第1抑圧音響のスペクトログラムを、逆変換部275に供給する。
さらに、ステップS245では、共通信号成分抑圧部274が、共通ピーク検出部263からの共通信号成分に基づいて、スペクトログラム算出部272からの第2音響のスペクトログラムに含まれる共通信号成分を、共通信号成分抑圧部273と同様にして抑圧し、共通信号成分を抑圧した第2音響である第2抑圧音響のスペクトログラムを、逆変換部276に供給して、処理は、ステップS246に進む。
ステップS246では、逆変換部275が、そこに供給される第1音響の位相特性を求める(取得する)とともに、逆変換部276が、そこに供給される第2音響の位相特性を求め、処理は、ステップS247に進む。
ステップS247では、逆変換部275が、第1音響の位相特性と、共通信号成分抑圧部273からの第1抑圧音響のスペクトログラム(振幅特性)とを、時間領域の信号である第1抑圧音響に逆変換し、平均信号算出部277に供給する。
さらに、ステップS246では、逆変換部276が、第2音響の位相特性と、共通信号成分抑圧部273からの第2抑圧音響のスペクトログラム(振幅特性)とを、時間領域の信号である第2抑圧音響に逆変換し、平均信号算出部278に供給して、処理は、ステップS248に進む。
ステップS248では、平均信号算出部277が、逆変換部275からの第1抑圧音響の複数チャンネルの平均値である第1抑圧音響平均信号を求めて、基本周波数推定部279に供給する。
さらに、ステップS248では、平均信号算出部278が、逆変換部276からの第2抑圧音響の複数チャンネルの平均値である第2抑圧音響平均信号を求め、基本周波数推定部280に供給して、処理は、ステップS249に進む。
ステップS249では、基本周波数推定部279が、平均信号算出部277からの第1抑圧音響平均信号の基本周波数を推定し、ボーカルスコア算出部281に供給する。
さらに、ステップS249では、基本周波数推定部280が、平均信号算出部278からの第2抑圧音響平均信号の基本周波数を推定し、ボーカルスコア算出部282に供給して、処理は、ステップS250に進む。
ステップS250では、ボーカルスコア算出部281が、基本周波数推定部279からの第1抑圧音響平均信号の基本周波数に基づいて、第1(抑圧)音響のボーカルスコアを算出し、パート決定部283に供給する。
さらに、ステップS250では、ボーカルスコア算出部282が、基本周波数推定部280からの第2抑圧音響平均信号の基本周波数に基づいて、第2(抑圧)音響のボーカルスコアを算出し、パート決定部283に供給して、処理は、ステップS251に進む。
ステップS251では、パート決定部283が、ボーカルスコア算出部281及び282からのボーカルスコアに基づき、第1音響及び第2音響それぞれのパートが、ボーカルパート及び非ボーカルパートのうちのいずれであるかを推定し、第1音響及び第2音響それぞれのパートを表すパート情報を出力して、パート推定処理は、終了する。
なお、図27において、ステップS242ないしS247の処理が、共通信号抑圧部260(図26)で行われる、第1音響及び第2音響から共通信号成分を抑圧する共通信号抑圧処理である。
[音量比算出部232の第2の構成例]
図28は、図23の音量比算出部232の第2の構成例を示すブロック図である。
図28において、音量比算出部232は、共通信号抑圧部291、選択部292、短時間パワー算出部293及び294、音量差算出部295、調整部296、及び、比算出部297を有する。
共通信号抑圧部291には、同期処理部63(図10)からの第1音響及び第2音響が供給される。
共通信号抑圧部291は、図26の共通信号抑圧部260と同様に構成され、同期処理部63からの第1音響及び第2音響それぞれの共通信号成分を抑圧する共通信号抑圧処理を行い、その結果得られる第1抑圧音響、及び、第2抑圧音響を、選択部292に供給する。
選択部292には、共通信号抑圧部291から、第1抑圧音響、及び、第2抑圧音響が供給される他、パート推定部231(図23)から、第1音響及び第2音響それぞれのパート情報が供給される。
選択部292は、パート推定部231からのパート情報に基づき、共通信号抑圧部291からの第1抑圧音響、及び、第2抑圧音響から、ボーカルパートの音響(第1抑圧音響、及び、第2抑圧音響のうちの一方)を選択し、短時間パワー算出部293、及び、比算出部297に供給する。
さらに、選択部292は、パート推定部231からのパート情報に基づき、共通信号抑圧部291からの第1抑圧音響、及び、第2抑圧音響から、非ボーカルパートの音響(第1抑圧音響、及び、第2抑圧音響のうちの他方)を選択し、短時間パワー算出部294、及び、調整部296に供給する。
短時間パワー算出部293は、選択部292からのボーカルパートの音響の音量(例えば、dB値)を、所定の時間長(例えば、数十ミリ秒等)のフレームごとに算出し、音量差算出部295に供給する。
短時間パワー算出部294は、短時間パワー算出部293と同様に、選択部292からの非ボーカルパートの音響の音量を、フレームごとに算出し、音量差算出部295に供給する。
音量差算出部295は、短時間パワー算出部293からのボーカルパートの音響の音量から、短時間パワー算出部294からの非ボーカルパートの音響の音量を減算することにより、ボーカルパートの音響の音量と非ボーカルパートの音響の音量との音量差を、フレームごとに求め、調整部296に供給する。
調整部296は、音量差算出部295からのフレームごとの音量差に基づき、第1音響と第2音響とを合成した合成音響、つまり、ボーカルパートの音響と非ボーカルパートの音響とを合成した合成音において、ボーカルパートの音響と非ボーカルパートの音響との音量比が適切な音量比になるように、ボーカルパート及び非ボーカルパートの音響のうちの一方である、例えば、非ボーカルパートの音響の音量を調整するときの調整量bを求める。
具体的には、ボーカルパートの音響の音量と非ボーカルパートの音響の音量との第tフレームの音量差(ボーカルパートの音響の音量から非ボーカルパートの音響の音量を減算した減算値)を、Pd(t)と表すこととすると、調整部296は、例えば、式(2)に従って、調整量bを求める。
b=mint{Pd(t)}−γ
・・・(2)
なお、式(2)において、mint{Pd(t)}は、フレームごとの音量差Pd(t)のうちの最小値を表す。また、γは、所定の定数であり、例えば、3[dB]等である。
調整部296は、選択部292からの非ボーカルパートの音響の音量を、調整量bだけ調整し、その調整後の非ボーカルパートの音響を、比算出部297に供給する。
ここで、式(2)の調整量bによれば、非ボーカルパートの音響は、ボーカルパートの音響よりも、常時、少なくとも、γ[dB]だけ小さい音量になるように調整される(調整量bが正であれば、非ボーカルパートの音響の音量は大にされ、調整量bが負であれば、非ボーカルパートの音響の音量は小にされる)。
ボーカルパートは、おそらくはメロディを担当しており、最重要のパートである。そこで、合成音響において、常にボーカルが(明瞭に)聞こえるようにするべく、非ボーカルパートの音響の音量が、ボーカルパートの音響の音量を超えないように、音量比を決定するため、調整部296では、調整量bに従った音量の調整後の非ボーカルパートの音響の音量が、ボーカルパートの音響の音量よりも、少なくとも、γ[dB]だけ小さくなるような調整量bが、式(2)に従って求められる。
調整部296による音量の調整後の非ボーカルパートの音響は、常時、ボーカルパートの音響よりも、少なくとも、γ[dB]だけ小さい音量になるので、そのような非ボーカルパートの音響とボーカルパートの音響とを合成した合成音響については、ボーカルパートの音響が、非ボーカルパートの音響に埋もれずに聞こえることが期待される。
比算出部297は、選択部292からのボーカルパートの音響の全体の音量[dB]と、調整部296からの音量の調整後の非ボーカルパートの音響の全体の音量[dB]と求める。
そして、比算出部297は、ボーカルパートの音響の音量と非ボーカルパートの音響の音量とから、第1音響及び第2音響(を合成するとき)の音量比を算出して出力する。
すなわち、比算出部297は、ボーカルパートの音響及び音量の調整後の非ボーカルパートの音響のうちの一方になっている第1音響の音量と、ボーカルパートの音響及び音量の調整後の非ボーカルパートの音響のうちの他方になっている第2音響の音量との比である音量比を算出して出力する。
なお、3つ以上のコンテンツが、合成対象コンテンツであり、その3つ以上の合成対象コンテンツのうちの1つの合成対象コンテンツがボーカルパートの音響を含み、残りの2つ以上の合成対象コンテンツが非ボーカルパートの音響を含む場合には、図28の音量比算出部232では、2つ以上の合成対象コンテンツの非ボーカルパートの音響それぞれについて、ボーカルパートの音響を用いて、独立に、音量比が求められる。
図29は、図28の音量比算出部232の処理(音量比算出処理)を説明するフローチャートである。
ステップS261において、共通信号抑圧部291が、同期処理部63(図10)からの第1音響及び第2音響を受信するとともに、選択部292が、パート推定部231(図23)からのパート情報を受信し、処理は、ステップS262に進む。
ステップS262では、共通信号抑圧部291が、図26の共通信号抑圧部260と同様に、同期処理部63からの第1音響及び第2音響それぞれの共通信号成分を抑圧する共通信号抑圧処理を行い、その結果得られる第1抑圧音響、及び、第2抑圧音響を、選択部292に供給して、処理は、ステップS263に進む。
ステップS263では、選択部292が、パート推定部231からのパート情報に基づき、共通信号抑圧部291からの第1抑圧音響、及び、第2抑圧音響のうちの一方であるボーカルパートの音響を選択し、短時間パワー算出部293、及び、比算出部297に供給する。
さらに、選択部292は、パート推定部231からのパート情報に基づき、共通信号抑圧部291からの第1抑圧音響、及び、第2抑圧音響のうちの他方である非ボーカルパートの音響を選択し、短時間パワー算出部294、及び、調整部296に供給して、処理は、ステップS263からステップS264に進む。
ステップS264では、短時間パワー算出部293が、選択部292からのボーカルパートの音響の音量(パワー)を、フレームごとに算出し、音量差算出部295に供給するとともに、短時間パワー算出部294が、選択部292からの非ボーカルパートの音響の音量を、フレームごとに算出し、音量差算出部295に供給して、処理は、ステップS265に進む。
ステップS265では、音量差算出部295が、短時間パワー算出部293からのボーカルパートの音響の音量と、短時間パワー算出部294からの非ボーカルパートの音響の音量との音量差を、フレームごとに求め、調整部296に供給する。
調整部296は、音量差算出部295からのフレームごとの音量差に基づき、非ボーカルパートの音響の音量を調整する調整量bを、上述の式(2)に従って求め、処理は、ステップS265からステップS266に進む。
ステップS266では、調整部296が、選択部292からの非ボーカルパートの音響の音量を、調整量bだけ調整し、その調整後の非ボーカルパートの音響を、比算出部297に供給して、処理は、ステップS267に進む。
ステップS267では、比算出部297が、選択部292からのボーカルパートの音響の全体の音量と、調整部296からの音量の調整後の非ボーカルパートの音響の全体の音量と求める。
そして、比算出部297は、ボーカルパートの音響の音量と非ボーカルパートの音響の音量とから、ボーカルパートの音響及び非ボーカルパートの音響のうちの一方になっている第1音響と、ボーカルパートの音響及び非ボーカルパートの音響のうちの他方になっている第2音響とを合成するときの音量比を算出して出力し、音量比算出処理は、終了する。
なお、図23の最適音量比算出部では、図24又は図26のパート推定部231を選択的に用いるとともに、図25又は図28の音量比算出部232を選択的に用いて、音量比を求めることができる。
すなわち、例えば、合成対象コンテンツに、パート情報がメタデータとして付加されているコンテンツと、付加されていないコンテンツとが混在する場合には、パート情報がメタデータとして付加されている合成対象コンテンツについては、図24のパート推定部231と図25の音量比算出部232とを用いて、音量比を求め、パート情報がメタデータとして付加されていない合成対象コンテンツについては、図26のパート推定部231と図28の音量比算出部232とを用いて、音量比を求めることができる。
[本技術を適用したコンテンツ処理システムの第2実施の形態]
図30は、本技術を適用したコンテンツ処理システムの第2実施の形態の構成例を示すブロック図である。
なお、図中、図1の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
コンテンツ処理システムの構成としては、スタンドアロンの構成の他、1つの機能を、ネットワークを介して複数の装置で分担し、共同して処理を行うクライアントサーバシステム等のクラウドコンピューティングの構成を採用することができる。
図30のコンテンツ処理システムは(後述する図35のコンテンツ処理システムも同様)、クライアントサーバシステムの構成になっており、例えば、動画共有サービスにビルトインすることができる。
図30において、コンテンツ処理システムは、クライアント1とサーバ2とを有し、クライアント1とサーバ2とは、インターネット等のネットワークを介して接続されている。
クライアント1は、ユーザが直接操作することができる装置であり、例えば、LANを利用したホームネットワークに接続された装置や、スマートフォン等の携帯端末、その他の、ネットワーク上のサーバと通信可能な装置を採用することができる。
一方、サーバ2は、インターネット等のネットワーク上のサービスを提供するサーバであり、単一のサーバであってもよいし、クラウドコンピューティングに用いられる複数のサーバの集合であってもよい。
なお、サーバ2には、クライアント1と同様に構成される1以上の他のクライアントを接続することができるが、その図示は、省略する。
図30では、クライアント1は、ユーザI/F11及びコンテンツ記憶部12を有し、サーバ2は、特徴量算出部13ないし合成部20を有する。
図31は、図30のコンテンツ処理システムのクライアント1が行う、サーバ2にコンテンツをアップロードする処理を説明するフローチャートである。
クライアント1では、ステップS311において、ユーザが、コンテンツを選択するように、ユーザI/F11を操作するのを待って、コンテンツ記憶部12が、ユーザによるユーザI/F11の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、処理は、ステップS312に進む。
ステップS312では、クライアント1が、コンテンツ記憶部12から注目コンテンツを読み出し、サーバ2に送信(アップロード)して、クライアント1は、処理を終了する。
図32は、図30のコンテンツ処理システムのクライアント1が行う、合成コンテンツ要求する処理を説明するフローチャートである。
ステップS321において、ユーザが、合成コンテンツの再生を要求するように、ユーザI/F11を操作するのを待って、ユーザI/F11は、コンテンツの合成を要求する合成要求を、サーバ2(のコンテンツ選択部19)に送信して、処理は、ステップS322に進む。
ステップS322では、ステップS321の合成要求に対応して、サーバ2から合成コンテンツが送信されてくるのを待って、ユーザI/F11が、サーバ2(の合成部20)からの合成コンテンツを受信し、処理は、ステップS323に進む。
ステップS323では、ユーザI/F11が、サーバ2の合成部20からの合成コンテンツを再生し、すなわち、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行い、クライアント1は、処理を終了する。
図33は、図30のクライアント1が行う図31の処理に応じてサーバ2が行う処理を説明するフローチャートである。
ステップS331において、サーバ2の特徴量算出部13は、図31のステップS312でクライアント1から送信されてくる注目コンテンツを受信し、処理は、ステップS332に進む。
ステップS332ないしS339では、図2のコンテンツ登録処理のステップS12ないしS19とそれぞれ同様の処理が行われ、サーバ2は、処理を終了する。
したがって、図33の処理によれば、注目コンテンツが、コンテンツDB18に登録され、注目コンテンツの音響特徴量が、特徴量DB14に登録される。
さらに、コンテンツDB18の登録コンテンツの中で、注目コンテンツとの間で同期をとることができる登録コンテンツについては、注目コンテンツとの間で同期をとるための同期情報が、同期情報DB17に登録される。
図34は、図30のクライアント1が行う図32の処理に応じてサーバ2が行う処理を説明するフローチャートである。
図32のステップS321において、クライアント1からサーバ2に合成要求が送信されてくると、ステップS351において、サーバ2のコンテンツ選択部19は、クライアント1からの合成要求に対応して、図3のステップS31と同様の合成対象コンテンツ選択処理を行う。
ここで、ステップS351の合成対象コンテンツ選択処理によれば、図8や図9で説明したようにして、コンテンツDB18に記憶された登録コンテンツの中から、合成コンテンツの生成に用いる複数のコンテンツが、合成対象コンテンツとして選択される。
コンテンツ選択部19は、合成対象コンテンツ選択処理により得られる合成対象コンテンツどうしを同期させるための同期情報(合成用の同期情報)を、同期情報DB17から読み出し、合成対象コンテンツとともに、合成部20に供給して、処理は、ステップS351からステップS352に進む。
ステップS352では、合成部20は、コンテンツ選択部19からの合成用の同期情報を用いて、同じくコンテンツ選択部19からの合成対象コンテンツを同期させて合成し、合成コンテンツを生成する合成処理を、図3のステップS32と同様にして行い、処理は、ステップS353に進む。
ステップS353では、合成部20が、合成処理により得られる合成コンテンツを、クライアント1に送信して、サーバ2は、処理を終了する。
図30のコンテンツ処理システムでは、サーバ2が合成部20を有し、サーバ2において、合成コンテンツが生成されるので、クライアント1からサーバ2にアップロードされたコンテンツと、コンテンツDB18にあらかじめ記憶されている登録コンテンツとを、合成対象コンテンツとして用いて、又は、コンテンツDB18にあらかじめ記憶されている登録コンテンツだけを、合成対象コンテンツとして用いて、合成コンテンツを生成することができる。
[本技術を適用したコンテンツ処理システムの第3実施の形態]
図35は、本技術を適用したコンテンツ処理システムの第3実施の形態の構成例を示すブロック図である。
なお、図中、図1又は図30の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
図35のコンテンツ処理システムは、図30の場合と同様に、クライアント1とサーバ2とを有し、クライアント1とサーバ2とがネットワークを介して接続されるクライアントサーバシステムの構成になっている。
但し、図35では、クライアント1が、ユーザI/F11及びコンテンツ記憶部12の他に、特徴量算出部13及び合成部20を有する点で、ユーザI/F11及びコンテンツ記憶部12だけを有する図30のクライアント1と異なっている。
さらに、図35では、サーバ2が、特徴量DB14ないしコンテンツ選択部19を有し、特徴量算出部13及び合成部20を有しない点で、特徴量算出部13及び合成部20を含む特徴量算出部13ないし合成部20を有する図30のサーバ2と異なっている。
なお、図35の実施の形態では、ライセンス上、合成対象コンテンツとして用いることができるコンテンツが、登録コンテンツとして、コンテンツDB18に登録されており、さらに、特徴量DB14には、コンテンツDB18に記憶(登録)されたコンテンツの音響特徴量が登録されていることとする。
図36は、図35のコンテンツ処理システムのクライアント1が行う処理を説明するフローチャートである。
ステップS361において、ユーザが、コンテンツを選択するように、ユーザI/F11を操作するのを待って、コンテンツ記憶部12が、ユーザによるユーザI/F11の操作に応じて、記憶しているコンテンツの中から、注目する注目コンテンツを選択し、特徴量算出部13に供給して、処理は、ステップS362に進む。
ステップS362では、特徴量算出部13が、図2のステップS13と同様に、コンテンツ記憶部12からの注目コンテンツに含まれる音響の音響特徴量を算出する特徴量算出処理を行い、処理は、ステップS363に進む。
ステップS363では、特徴量算出部13が、特徴量算出処理によって得られた注目コンテンツの音響特徴量を、サーバ2(の同期関係情報生成部15)に送信(アップロード)して、処理は、ステップS364に進む。
ステップS364では、クライアント1の合成部20が、サーバ2のコンテンツ選択部19から後述するようにして送信されてくる合成対象コンテンツと(合成用の)同期情報とを受信する。
そして、合成部20は、ユーザI/F11を介して、コンテンツ記憶部12から注目コンテンツを読み出し、合成対象コンテンツとして、サーバ2からの合成対象コンテンツに含め、処理は、ステップS364からステップS365に進む。
ここで、ステップS364でサーバ2からクライアント1に送信されてくる同期情報は、後述するように、注目コンテンツを含む合成対象コンテンツどうしの同期をとるための同期情報になっている。
ステップS365では、合成部20は、サーバ2(のコンテンツ選択部19)からの合成用の同期情報を用いて、注目コンテンツを含む合成対象コンテンツを同期させて合成し、合成コンテンツを生成する合成処理を、図3のステップS32と同様にして行う。
そして、合成部20は、合成処理により得られる合成コンテンツを、ユーザI/F11に供給して、処理は、ステップS365からステップS366に進む。
ステップS366では、ユーザI/F11が、合成部20からの合成コンテンツを再生し、すなわち、合成コンテンツに含まれる画像の表示や、合成コンテンツに含まれる音響の出力を行い、クライアント1は、処理を終了する。
図37は、図36のクライアント1が行う図31の処理に応じてサーバ2が行う処理を説明するフローチャートである。
ステップS371において、サーバ2の同期関係情報生成部15は、図36のステップS363でクライアント1から送信されてくる注目コンテンツの音響特徴量を受信し、処理は、ステップS372に進む。
ステップS372では、同期関係情報生成部15が、コンテンツDB18に記憶された登録コンテンツから、まだ、注目コンテンツとの同期の可否を判定する対象の判定対象コンテンツとして選択されていないコンテンツの1つを、判定対象コンテンツに選択し、注目コンテンツと判定対象コンテンツとのセットを、注目する注目セットとして、処理は、ステップS373に進む。
ステップS373では、同期関係情報生成部15は、図2のステップS16と同様に、注目セットについて、クライアント1からの、注目セットの注目コンテンツの音響特徴量と、特徴量DB14に記憶されている、注目セットの判定対象コンテンツの音響特徴量とに基づいて、注目コンテンツと判定対象コンテンツとの同期に関係する同期関係情報を生成する同期関係情報生成処理を行う。
そして、同期関係情報生成部15は、同期関係情報によって得られる、注目セット(の注目コンテンツと判定対象コンテンツ)の同期関係情報を、同期可否判定部16に供給して、処理は、ステップS373からステップS374に進む。
ステップS374では、同期可否判定部16は、図2のステップS17と同様に、同期関係情報生成部15からの、注目セットの同期関係情報に含まれる同期可否レベルに基づいて、注目コンテンツと判定対象コンテンツとの音響どうしの同期をとることができるかどうかの同期の可否の判定を行う。
ステップS374において、注目コンテンツと判定対象コンテンツと(の音響どうし)の同期をとることができると判定された場合、処理は、ステップS375に進み、同期可否判定部16は、同期をとることができると判定した注目コンテンツと登録コンテンツとの注目セット(を識別する情報)を、同期関係情報生成部15からの、注目セットの同期関係情報に含まれる同期情報とともに、コンテンツ選択部19に供給する。
さらに、ステップS375では、コンテンツ選択部19が、同期可否判定部16からの注目セットの同期情報を、同じく同期可否判定部16からの注目セット(を識別する情報)に対応付け、同期情報DB17に供給して一時登録して、処理は、ステップS376に進む。
一方、ステップS374において、注目コンテンツと登録コンテンツとの同期をとることができないと判定された場合、処理は、ステップS375をスキップして、ステップS376に進む。
ステップS376では、同期関係情報生成部15は、コンテンツDB18に記憶された登録コンテンツのすべてを、判定対象コンテンツに選択したかどうかを判定する。
ステップS376において、コンテンツDB18に記憶された登録コンテンツのすべてを、まだ、判定対象コンテンツに選択していないと判定された場合、すなわち、コンテンツDB18に記憶された登録コンテンツの中に、判定対象コンテンツに選択されていないコンテンツがある場合、処理は、ステップS372に戻り、以下、同様の処理が繰り返される。
また、ステップS376において、コンテンツDB18に記憶された登録コンテンツのすべてを、判定対象コンテンツに選択したと判定された場合、すなわち、注目コンテンツについて、コンテンツDB18に記憶された登録コンテンツのすべてとの間で、同期の可否の判定が行われ、さらに、注目コンテンツとの同期が可能な登録コンテンツについて、その登録コンテンツと注目コンテンツとを同期させるための同期情報が、同期情報DB17に一時登録された場合、処理は、ステップS377に進み、コンテンツ選択部19は、図3のステップS31と同様に、ユーザによるユーザI/F11の操作に応じて、コンテンツDB18に記憶された登録コンテンツ等の中から、合成コンテンツの生成に用いる複数のコンテンツを、合成対象コンテンツとして選択する合成対象コンテンツ選択処理を行う。
ここで、図35のコンテンツ処理システムでは、クライアント1(の特徴量算出部13)からサーバ2に音響特徴量が送信される注目コンテンツは、必ず、合成対象コンテンツに含められる。
そのため、合成対象コンテンツ選択処理としては、図8の独立合成対象コンテンツ選択処理と、図9の連続合成対象コンテンツ選択処理とがあるが、図35のコンテンツ処理システムによるステップS377の合成対象コンテンツ選択処理としては、注目コンテンツが、必ず、合成対象コンテンツに選択される図9の連続合成対象コンテンツ選択処理が行われる。
ステップS377において、コンテンツ選択部19は、合成対象コンテンツ選択処理によって、注目コンテンツを含む合成対象コンテンツを選択すると、処理は、ステップS378に進む。
ステップS378では、コンテンツ選択部19は、合成対象コンテンツである注目コンテンツと他の合成対象コンテンツ(注目コンテンツ以外の合成対象コンテンツ)どうしを同期させるための同期情報(注目コンテンツを含む合成対象コンテンツどうしの同期をとるための同期情報)を、同期情報DB17から読み出し、コンテンツDB18に登録コンテンツとして記憶されている合成対象コンテンツとともに、クライアント1(の合成部20)に送信して、処理は、ステップS379に進む。
ここで、図35の実施の形態では、クライアント1からサーバ2には、注目コンテンツ(のデータ)そのものではなく、注目コンテンツの音響特徴量が送信され、サーバ2において、注目コンテンツは、コンテンツDB18に登録されない。
したがって、サーバ2(のコンテンツ選択部19)からクライアント1に送信される合成対象コンテンツには、注目コンテンツが含まれない。
そのため、クライアント1では、図36で説明したように、合成部20において、ユーザI/F11を介して、コンテンツ記憶部12から注目コンテンツが読み出され、合成対象コンテンツとして、サーバ2からの合成対象コンテンツに含められる。
ステップS379では、コンテンツ選択部19は、ステップS375で注目コンテンツと登録コンテンツとのセットに対応付けて一時登録した同期情報(以下、注目コンテンツについての同期情報ともいう)を、同期情報DB17から削除し、サーバ2は、処理を終了する。
すなわち、図35の実施の形態では、サーバ2において、注目コンテンツは、コンテンツDB18に登録されないため、注目コンテンツを記憶しているクライアント1以外のクライアントでは、注目コンテンツを合成対象コンテンツとして、合成コンテンツを生成することはできない。
したがって、注目コンテンツについての同期情報は、クライアント1以外のクライアントにおいて、合成コンテンツの生成に用いられないため、サーバ2において、クライアント1に提供(送信)された後に削除される。
以上のように、図35のコンテンツ処理システムでは、クライアント1が特徴量算出部13及び合成部20を有し、クライアント1において、注目コンテンツの音響特徴量の算出、及び、合成コンテンツの生成が行われる。
また、図35のコンテンツ処理システムでは、クライアント1からサーバ2に、注目コンテンツそのものが送信されず、サーバ2のコンテンツDB18に記憶された登録コンテンツの他、クライアント1のコンテンツ記憶部12に記憶された注目コンテンツを、必ず、合成対象コンテンツとして用いて、合成コンテンツが生成される。
図35のコンテンツ処理システムでは、注目コンテンツそのものが、サーバ2にアップロードされず、したがって、コンテンツDB18に、登録コンテンツとして登録されないので、プライベートなコンテンツであって、不特定多数に公開したくないコンテンツや、ライセンス上、コンテンツそのもののアップロードや、コンテンツDB18への登録が困難なコンテンツ等を注目コンテンツとし、そのような注目コンテンツを合成対象コンテンツに含めて、合成コンテンツを生成する場合等に有用である。
その他、図35のコンテンツ処理システムでは、図30のコンテンツ処理システムに比較して、サーバ2の負荷を軽減することができる。
[本技術を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図38は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク405やROM403に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体411に格納(記録)しておくことができる。このようなリムーバブル記録媒体411は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体411としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体411からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク405にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介したりして、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)402を内蔵しており、CPU402には、バス401を介して、入出力インタフェース410が接続されている。
CPU402は、入出力インタフェース410を介して、ユーザによって、入力部407が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)403に格納されているプログラムを実行する。あるいは、CPU402は、ハードディスク405に格納されたプログラムを、RAM(Random Access Memory)404にロードして実行する。
これにより、CPU402は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース410を介して、出力部406から出力、あるいは、通信部408から送信、さらには、ハードディスク405に記録等させる。
なお、入力部407は、キーボードや、マウス、マイク等で構成される。また、出力部406は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
なお、本技術は、以下のような構成をとることができる。
[1]
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
を備える情報処理装置。
[2]
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記同一又は類似の音響信号成分を抑圧して合成する
[1]に記載の情報処理装置。
[3]
前記合成対象コンテンツは、画像を含み、
前記合成部は、前記合成対象コンテンツから、画像に映る被写体を抽出し、所定の背景に合成する
[1]に記載の情報処理装置。
[4]
前記合成対象コンテンツは、画像を含み、
前記合成部は、
画像の配置を表す配置情報に従い、前記合成対象コンテンツに含まれる画像を、前記配置情報が表す配置に合成し、
前記配置情報に従い、前記合成対象コンテンツに含まれる音響に、定位感を付加し、その定位感を付加した音響を合成する
[1]に記載の情報処理装置。
[5]
前記合成対象コンテンツに含まれる、前記同一又は類似の音響信号成分のレベルが一致するように、前記合成対象コンテンツ各々の音量を変更するための音量正規化係数を算出する音量正規化係数算出部をさらに備え、
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量正規化係数に従って音量を調整して合成する
[1]に記載の情報処理装置。
[6]
前記音量正規化係数算出部は、
1の合成対象コンテンツに含まれる音響のスペクトルのピークである第1のスペクトルピーク、及び、他の1の合成対象コンテンツに含まれる音響のスペクトルのピークである第2のスペクトルピークから、互いに近い位置にある第1及び第2のスペクトルピークを、前記同一又は類似の音響信号成分のピークである共通ピークとして検出し、
前記共通ピークとして検出された、前記第1のスペクトルピークと、所定数倍した前記第2のスペクトルピークとの誤差を最小化する前記所定数倍を、前記音量正規化係数として算出する
[5]に記載の情報処理装置。
[7]
前記合成対象コンテンツに含まれる音響のパートを推定し、前記パートに基づいて、前記合成対象コンテンツの最適な音量比を求める最適音量比算出部をさらに備え、
前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量比に従って音量を調整して合成する
[1]に記載の情報処理装置。
[8]
前記最適音量比算出部は、前記合成対象コンテンツのメタデータから、その合成対象コンテンツに含まれる音響のパートを推定する
[7]に記載の情報処理装置。
[9]
前記最適音量比算出部は、前記合成対象コンテンツに含まれる音響から、前記同一又は類似の音響信号成分を抑圧した抑圧音響の基本周波数に基づいて、前記合成対象コンテンツに含まれる音響のパートが、ボーカルパートであるかどうかを推定する
[7]に記載の情報処理装置。
[10]
前記最適音量比算出部は、ボーカルパートの音響と、前記ボーカルパート以外のパートである非ボーカルパートの音響との音量の差が所定値以上になるように、前記音量比を求める
[7]に記載の情報処理装置。
[11]
前記最適音量比算出部は、合奏形態における音響の各パートの音量に関する情報が登録されたデータベースを参照して、前記音量比を求める
[7]に記載の情報処理装置。
[12]
前記同期情報生成部は、2つのコンテンツの音響特徴量の相互相関係数が最大になるときのラグを、前記2つのコンテンツを同期させるための同期情報として求める
[1]ないし[11]のいずれかに記載の情報処理装置。
[13]
前記相互相関係数の最大値に基づいて、前記2つのコンテンツが、同一又は類似の音響信号成分を含み、同期をとることができるかどうかの同期の可否を判定する同期可否判定部と、
ユーザの操作に応じて、同一又は類似の音響信号成分を含む2つ以上のコンテンツを、前記合成コンテンツに合成する対象の合成対象コンテンツに選択するコンテンツ選択部と
をさらに備え、
前記合成部は、前記合成対象コンテンツを、前記合成コンテンツに合成する
[12]に記載の情報処理装置。
[14]
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
を含む情報処理方法。
[15]
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
して、コンピュータを機能させるためのプログラム。
[16]
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
して、コンピュータを機能させるためのプログラムが記録された記録媒体。
[17]
クライアントと、
前記クライアントと通信するサーバと
を備え、
前記サーバは、
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
のうちの、少なくとも、前記同期情報生成部を有し、
前記クライアントは、前記特徴量算出部、前記同期情報生成部、及び、前記合成部のうちの残りを有する
情報処理システム。
[18]
クライアントと、
前記クライアントと通信するサーバと
を備える情報処理システムの前記サーバが、
音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
のうちの、少なくとも、前記同期情報生成ステップを行い、
前記クライアントが、前記特徴量算出ステップ、前記同期情報生成ステップ、及び、前記合成ステップのうちの残りを行う
情報処理方法。
1 クライアント, 2 サーバ, 11 ユーザI/F, 11A 入力部, 11B 出力部, 12 コンテンツ記憶部, 13 特徴量算出部, 14 特徴量DB, 15 同期関係情報生成部, 16 同期可否判定部, 17 同期情報DB, 18 コンテンツDB, 19 コンテンツ選択部, 20 合成部, 31 音響復号部, 32 チャンネル統合部, 33 スペクトログラム算出部, 41 相関係数算出部, 42 最大値検出部, 43 ラグ検出部, 51 画像復号部, 52 画像フォーマット変換部, 53 同期処理部, 54 画像合成部, 55 画像符号化部,
61 音響復号部, 62 音響フォーマット変換部, 63 同期処理部, 64 音響合成部, 65 音響符号化部, 66 マキシング処理部, 111,112 スペクトルグラム算出部, 113 ゲイン調整部, 114 共通信号成分検出部, 115,116 共通信号成分抑圧部, 119 加算部, 120 逆変換部, 121,122 被写体研修部, 123 背景設定部, 124 配置設定部, 125 合成部, 131,132 定位感付加部, 133 加算部, 201 音量正規化係数算出部, 202 合成部, 211 音量調整部, 212 加算部, 221,222 平滑化スペクトルグラム算出部, 223 共通ピーク検出部, 224 係数算出部, 231 パート推定部, 232 音量比算出部, 241 メタ検出部, 242 パート認識部, 251 音量比DB, 252 検索部, 260 共通信号抑圧部, 261,262 平滑化スペクトルグラム算出部, 263 共通ピーク検出部, 271,272 スペクトルグラム算出部, 273,274 共通信号成分抑圧部, 275,276 逆変換部, 277,278 平均信号算出部, 279,280 基本周波数推定部, 281,282 ボーカルスコア算出部, 283 パート決定部, 291 共通信号抑圧部, 292 選択部, 293,294 短時間パワー算出部, 295 音量差算出部, 296 調整部, 297 比算出部, 401 バス, 402 CPU, 403 ROM, 404 RAM, 405 ハードディスク, 406 出力部, 407 入力部, 408 通信部, 409 ドライブ, 410 入出力インタフェース, 411 リムーバブル記録媒体

Claims (18)

  1. 音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
    前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
    前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
    を備える情報処理装置。
  2. 前記合成部は、前記合成対象コンテンツに含まれる音響を、前記同一又は類似の音響信号成分を抑圧して合成する
    請求項1に記載の情報処理装置。
  3. 前記合成対象コンテンツは、画像を含み、
    前記合成部は、前記合成対象コンテンツから、画像に映る被写体を抽出し、所定の背景に合成する
    請求項1に記載の情報処理装置。
  4. 前記合成対象コンテンツは、画像を含み、
    前記合成部は、
    画像の配置を表す配置情報に従い、前記合成対象コンテンツに含まれる画像を、前記配置情報が表す配置に合成し、
    前記配置情報に従い、前記合成対象コンテンツに含まれる音響に、定位感を付加し、その定位感を付加した音響を合成する
    請求項1に記載の情報処理装置。
  5. 前記合成対象コンテンツに含まれる、前記同一又は類似の音響信号成分のレベルが一致するように、前記合成対象コンテンツ各々の音量を変更するための音量正規化係数を算出する音量正規化係数算出部をさらに備え、
    前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量正規化係数に従って音量を調整して合成する
    請求項1に記載の情報処理装置。
  6. 前記音量正規化係数算出部は、
    1の合成対象コンテンツに含まれる音響のスペクトルのピークである第1のスペクトルピーク、及び、他の1の合成対象コンテンツに含まれる音響のスペクトルのピークである第2のスペクトルピークから、互いに近い位置にある第1及び第2のスペクトルピークを、前記同一又は類似の音響信号成分のピークである共通ピークとして検出し、
    前記共通ピークとして検出された、前記第1のスペクトルピークと、所定数倍した前記第2のスペクトルピークとの誤差を最小化する前記所定数倍を、前記音量正規化係数として算出する
    請求項5に記載の情報処理装置。
  7. 前記合成対象コンテンツに含まれる音響のパートを推定し、前記パートに基づいて、前記合成対象コンテンツの最適な音量比を求める最適音量比算出部をさらに備え、
    前記合成部は、前記合成対象コンテンツに含まれる音響を、前記音量比に従って音量を調整して合成する
    請求項1に記載の情報処理装置。
  8. 前記最適音量比算出部は、前記合成対象コンテンツのメタデータから、その合成対象コンテンツに含まれる音響のパートを推定する
    請求項7に記載の情報処理装置。
  9. 前記最適音量比算出部は、前記合成対象コンテンツに含まれる音響から、前記同一又は類似の音響信号成分を抑圧した抑圧音響の基本周波数に基づいて、前記合成対象コンテンツに含まれる音響のパートが、ボーカルパートであるかどうかを推定する
    請求項7に記載の情報処理装置。
  10. 前記最適音量比算出部は、ボーカルパートの音響と、前記ボーカルパート以外のパートである非ボーカルパートの音響との音量の差が所定値以上になるように、前記音量比を求める
    請求項7に記載の情報処理装置。
  11. 前記最適音量比算出部は、合奏形態における音響の各パートの音量に関する情報が登録されたデータベースを参照して、前記音量比を求める
    請求項7に記載の情報処理装置。
  12. 前記同期情報生成部は、2つのコンテンツの音響特徴量の相互相関係数が最大になるときのラグを、前記2つのコンテンツを同期させるための同期情報として求める
    請求項1ないし11のいずれかに記載の情報処理装置。
  13. 前記相互相関係数の最大値に基づいて、前記2つのコンテンツが、同一又は類似の音響信号成分を含み、同期をとることができるかどうかの同期の可否を判定する同期可否判定部と、
    ユーザの操作に応じて、同一又は類似の音響信号成分を含む2つ以上のコンテンツを、前記合成コンテンツに合成する対象の合成対象コンテンツに選択するコンテンツ選択部と
    をさらに備え、
    前記合成部は、前記合成対象コンテンツを、前記合成コンテンツに合成する
    請求項12に記載の情報処理装置。
  14. 音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
    前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
    前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
    を含む情報処理方法。
  15. 音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
    前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
    前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
    して、コンピュータを機能させるためのプログラム。
  16. 音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
    前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
    前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
    して、コンピュータを機能させるためのプログラムが記録された記録媒体。
  17. クライアントと、
    前記クライアントと通信するサーバと
    を備え、
    前記サーバは、
    音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出部と、
    前記特徴量算出部において求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成部と、
    前記同期情報生成部において生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成部と
    のうちの、少なくとも、前記同期情報生成部を有し、
    前記クライアントは、前記特徴量算出部、前記同期情報生成部、及び、前記合成部のうちの残りを有する
    情報処理システム。
  18. クライアントと、
    前記クライアントと通信するサーバと
    を備える情報処理システムの前記サーバが、
    音響を含むコンテンツに含まれる音響の音響特徴量を求める特徴量算出ステップと、
    前記特徴量算出ステップにおいて求められた音響特徴量に基づいて、同一又は類似の音響信号成分を含む複数のコンテンツを同期させるための同期情報を生成する同期情報生成ステップと、
    前記同期情報生成ステップにおいて生成された同期情報を用いて、複数のコンテンツを同期させて合成した合成コンテンツを生成する合成ステップと
    のうちの、少なくとも、前記同期情報生成ステップを行い、
    前記クライアントが、前記特徴量算出ステップ、前記同期情報生成ステップ、及び、前記合成ステップのうちの残りを行う
    情報処理方法。
JP2011283817A 2011-12-26 2011-12-26 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム Pending JP2013135310A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011283817A JP2013135310A (ja) 2011-12-26 2011-12-26 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム
CN2012105553755A CN103297805A (zh) 2011-12-26 2012-12-19 信息处理装置、方法、程序、记录介质和信息处理系统
US13/719,652 US20130162905A1 (en) 2011-12-26 2012-12-19 Information processing device, information processing method, program, recording medium, and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011283817A JP2013135310A (ja) 2011-12-26 2011-12-26 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム

Publications (1)

Publication Number Publication Date
JP2013135310A true JP2013135310A (ja) 2013-07-08

Family

ID=48654191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011283817A Pending JP2013135310A (ja) 2011-12-26 2011-12-26 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム

Country Status (3)

Country Link
US (1) US20130162905A1 (ja)
JP (1) JP2013135310A (ja)
CN (1) CN103297805A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150027419A (ko) * 2013-09-03 2015-03-12 주식회사 엘지유플러스 온라인 음원 제작 시스템 및 방법
JP2015081949A (ja) * 2013-10-21 2015-04-27 オリンパス株式会社 音声データ合成端末、音声データ記録端末、音声データ合成方法、音声出力方法、及びプログラム
JP2018207288A (ja) * 2017-06-02 2018-12-27 日本放送協会 再配信システム、再配信方法、およびプログラム
JP2022036359A (ja) * 2020-06-30 2022-03-08 Jeインターナショナル株式会社 楽曲制作装置、端末装置、楽曲制作方法、プログラム、および記録媒体

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10754511B2 (en) * 2013-11-20 2020-08-25 Google Llc Multi-view audio and video interactive playback
WO2015164572A1 (en) * 2014-04-25 2015-10-29 Dolby Laboratories Licensing Corporation Audio segmentation based on spatial metadata
US9641892B2 (en) 2014-07-15 2017-05-02 The Nielsen Company (Us), Llc Frequency band selection and processing techniques for media source detection
JP6669073B2 (ja) * 2015-03-31 2020-03-18 ソニー株式会社 情報処理装置、制御方法、およびプログラム
RU2019138260A (ru) * 2015-06-24 2019-12-05 Сони Корпорейшн Устройство, способ и программа аудиообработки
CN106486128B (zh) 2016-09-27 2021-10-22 腾讯科技(深圳)有限公司 一种双音源音频数据的处理方法及装置
JP2018092012A (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN107172483A (zh) * 2017-05-05 2017-09-15 广州华多网络科技有限公司 一种直播场景下的音质识别的方法、装置及终端设备
CN107959884B (zh) * 2017-12-07 2020-10-16 上海网达软件股份有限公司 一种单声道多音频流媒体文件的转码处理方法
CN111385749B (zh) * 2019-09-23 2021-02-26 合肥炬芯智能科技有限公司 蓝牙广播方法、蓝牙广播接收方法及其相关设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150027419A (ko) * 2013-09-03 2015-03-12 주식회사 엘지유플러스 온라인 음원 제작 시스템 및 방법
KR101650071B1 (ko) * 2013-09-03 2016-08-22 주식회사 엘지유플러스 온라인 음원 제작 시스템 및 방법
JP2015081949A (ja) * 2013-10-21 2015-04-27 オリンパス株式会社 音声データ合成端末、音声データ記録端末、音声データ合成方法、音声出力方法、及びプログラム
JP2018207288A (ja) * 2017-06-02 2018-12-27 日本放送協会 再配信システム、再配信方法、およびプログラム
JP2022036359A (ja) * 2020-06-30 2022-03-08 Jeインターナショナル株式会社 楽曲制作装置、端末装置、楽曲制作方法、プログラム、および記録媒体

Also Published As

Publication number Publication date
CN103297805A (zh) 2013-09-11
US20130162905A1 (en) 2013-06-27

Similar Documents

Publication Publication Date Title
JP2013135310A (ja) 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム
US11749243B2 (en) Network-based processing and distribution of multimedia content of a live musical performance
US10645518B2 (en) Distributed audio capture and mixing
US11785410B2 (en) Reproduction apparatus and reproduction method
KR101572894B1 (ko) 오디오 신호의 디코딩 방법 및 장치
TW201238279A (en) Semantic audio track mixer
US20200135237A1 (en) Systems, Methods and Applications For Modulating Audible Performances
WO2016083414A1 (en) Apparatus and method for generating visual content from an audio signal
WO2018017878A1 (en) Network-based processing and distribution of multimedia content of a live musical performance
US20230254655A1 (en) Signal processing apparatus and method, and program
KR20190009909A (ko) 콘텐츠 싱크 생성 방법, 그 장치 및 이를 위한 인터페이스 모듈
CN115699160A (zh) 电子设备、方法和计算机程序
CN114598917B (zh) 显示设备及音频处理方法
JP2013134339A (ja) 情報処理装置、情報処理方法、プログラム、記録媒体、及び、情報処理システム
CN115706913A (zh) 乐器源分离和再现的方法和系统
KR20150018194A (ko) 모창 평가 방법 및 시스템
US20230269552A1 (en) Electronic device, system, method and computer program
WO2023142363A1 (zh) 显示设备及音频处理方法
Malyshev Sound production for 360 videos: in a live music performance case study
CN118175376A (zh) 显示设备及音频处理方法
CN118175378A (zh) 显示设备及音频处理方法
CN118175377A (zh) 显示设备及音频处理方法
CN118175379A (zh) 显示设备及音频处理方法
CN118175380A (zh) 显示设备及音频处理方法
CN117121096A (zh) 现场直播传送装置、现场直播传送方法