JP2013174765A - 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法 - Google Patents

信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法 Download PDF

Info

Publication number
JP2013174765A
JP2013174765A JP2012039765A JP2012039765A JP2013174765A JP 2013174765 A JP2013174765 A JP 2013174765A JP 2012039765 A JP2012039765 A JP 2012039765A JP 2012039765 A JP2012039765 A JP 2012039765A JP 2013174765 A JP2013174765 A JP 2013174765A
Authority
JP
Japan
Prior art keywords
periodicity
information
content
similarity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012039765A
Other languages
English (en)
Other versions
JP6003083B2 (ja
JP2013174765A5 (ja
Inventor
Shusuke Takahashi
秀介 高橋
Akira Inoue
晃 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012039765A priority Critical patent/JP6003083B2/ja
Priority to US13/761,575 priority patent/US9251794B2/en
Priority to EP13155357.0A priority patent/EP2631910B1/en
Priority to CN201310053496.4A priority patent/CN103297674B/zh
Publication of JP2013174765A publication Critical patent/JP2013174765A/ja
Publication of JP2013174765A5 publication Critical patent/JP2013174765A5/ja
Application granted granted Critical
Publication of JP6003083B2 publication Critical patent/JP6003083B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Abstract

【課題】コンテンツの同期情報をロバストに生成することができるようにする。
【解決手段】特徴量算出部は、コンテンツAに含まれる音響データの周期性情報を検出する。特徴量算出部は、コンテンツBに含まれる音響データの周期性情報を検出する。同期情報生成部は、コンテンツAの周期性情報とコンテンツBの周期性情報との類似度を計算する。同期情報生成部は、類似度に基づいて、コンテンツAとコンテンツBを同期させる際に用いられる同期情報を生成する。本技術は、例えば、信号処理装置に適用することができる。
【選択図】図1

Description

本技術は、信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法に関し、特に、コンテンツの同期情報をロバストに生成することができるようにした信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法に関する。
同一のイベントを複数の機器で録画または録音することにより得られるコンテンツを、時間的に同期させて再生したり、編集したりする場合、コンテンツ間の時間同期をとる必要がある。これは、同一のイベントを録画または録音する場合であっても収録開始時刻が機器ごとに異なるためと、機器ごとに内部クロックの周波数が僅かに違うことにより時間ずれが発生するためである。なお、コンテンツとは、ここでは、音響データ、画像データ、画像データとそれに対応する音響データなどを指す。
コンテンツを時間的に同期させる際に用いられる同期情報を生成する方法としては、コンテンツのファイルに付加された撮影時の時刻情報を用いる方法がある。しかしながら、必ずしもファイルに付加された撮影時の時刻情報が正確であるとは限らない。
また、同期情報を生成する方法としては、コンテンツに含まれる音響データの共通成分を用いる方法もある。しかしながら、録音された音響データは、風音やマイクの摺れ音、その他様々なノイズ音の音響データを含むため、共通成分が非常に小さくなる場合が多く存在する。
例えば、1つの機器で録音された音響データにのみノイズ音の音響データが含まれる場合や、各機器で録音された音響データに異なった種類のノイズ音の音響データが含まれる場合、共通成分は小さくなる。また、パーティー会場などで録音された音響データには、共通成分としてBGM(Background music)の音響データが含まれるが、各機器の周辺で異なった会話が行われており、その会話がBGMに重なって録音される場合にも、共通成分は小さくなる。特に、機器間の距離が離れている場合、共通成分の減少は顕著である。
そこで、ノイズ音に対してロバストに同期情報を生成する方法が望まれている。
しかしながら、特許文献1に記載されている、音響データのレベル情報を用いて同期情報を生成する方法では、ノイズ音に対してロバストに同期情報を生成することができない。また、特許文献2に記載されている、音響データの相関を用いて同期情報を生成する方法でも、ノイズ音に対してロバストに同期情報を生成することができない。また、特許文献2の発明は、音響データの一部の区間にのみ着目して相関を計算しているため、機器ごとに内部クロックの周波数が僅かに違うことにより時間経過とともに生じる同期ずれを補正することはできない。
一方、人間のピッチ知覚をモデル化して、計算機上で実現する手法が非特許文献1に記載されている。
特開2009−10548号公報 特開2010−171625号公報
A unitary model of pitch perception,J Acoust.Soc.Am.Volume 102,Issue 3,pp.1811-1820(1997),Ray Meddis and Lowel O'Mard
上述したように、ノイズ音に対してロバストに同期情報を生成する方法が望まれているが、そのような方法は考えられていなかった。
本技術は、このような状況に鑑みてなされたものであり、コンテンツの同期情報をロバストに生成することができるようにするものである。
本技術の第1の側面の信号処理装置は、第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部とを備える信号処理装置である。
本技術の第1の側面の信号処理方法、プログラム、および電子機器は、本技術の第1の側面の信号処理装置に対応する。
本技術の第1の側面においては、第1のコンテンツに含まれる音響信号の周期性情報が第1の周期性情報として検出され、第2のコンテンツに含まれる音響信号の前記周期性情報が第2の周期性情報として検出され、前記第1の周期性情報と前記第2の周期性情報との類似度が計算され、前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報が生成される。
本技術の第2の側面の信号処理装置は、第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信部と、前記受信部により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算部と、前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部とを備える信号処理装置である。
本技術の第2の側面の信号処理方法、プログラム、および電子機器は、本技術の第2の側面の信号処理装置に対応する。
本技術の第2の側面においては、第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報が受信され、前記第1の周期性情報と前記第2の周期性情報との類似度が計算され、前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報が生成される。
本技術の第3の側面の信号処理システムは、第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部とを備える信号処理システムである。
本技術の第3の側面の信号処理方法は、本技術の第3の側面の信号処理システムに対応する。
本技術の第3の側面においては、第1のコンテンツに含まれる音響信号の周期性情報が第1の周期性情報として検出され、第2のコンテンツに含まれる音響信号の前記周期性情報が第2の周期性情報として検出され、前記第1の周期性情報と前記第2の周期性情報との類似度が計算され、前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報が生成される。
本技術の第4の側面の信号処理装置は、第1のコンテンツに含まれる音響信号を帯域分割する第1の帯域分割部と、前記第1の帯域分割部により帯域分割された前記音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、前記第1の周期性検出部により検出された前記第1の周期性情報の強度を検出する第1の周期性強度検出部と、前記第1の周期性強度検出部により検出された前記第1の周期性情報の強度に基づいて、前記第1の周期性情報を全帯域分統合する第1の周期性情報統合部と、第2のコンテンツに含まれる音響信号を帯域分割する第2の帯域分割部と、前記第2の帯域分割部により帯域分割された前記音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、前記第2の周期性検出部により検出された前記第2の周期性情報の強度を検出する第2の第2の周期性強度検出部と、前記第2の周期性強度検出部により検出された前記第2の周期性情報の強度に基づいて、前記第2の周期性情報を全帯域分統合する第2の周期性情報統合部と、前記第1の周期性情報統合部により統合された前記第1の周期性情報と、前記第2の周期性情報統合部により統合された前記第2の周期性情報との類似度を計算する類似度計算部と、前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部とを備える信号処理装置である。
本技術の第4の側面においては、第1のコンテンツに含まれる音響信号が帯域分割され、帯域分割された前記音響信号の周期性情報が第1の周期性情報として検出され、前記第1の周期性情報の強度が検出され、前記第1の周期性情報の強度に基づいて、前記第1の周期性情報が全帯域分統合され、第2のコンテンツに含まれる音響信号が帯域分割され、帯域分割された前記音響信号の前記周期性情報が第2の周期性情報として検出され、前記第2の周期性情報の強度が検出され、前記第2の周期性情報の強度に基づいて、前記第2の周期性情報が全帯域分統合され、統合された前記第1の周期性情報と、統合された前記第2の周期性情報との類似度が計算され、前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報が生成される。
本技術によれば、コンテンツの同期情報をロバストに生成することができる。
本技術を適用した信号処理システムの第1実施の形態の構成例を示すブロック図である。 図1の特徴量算出部の構成例を示すブロック図である。 特徴量の時系列データの例を示す図である。 図1の同期情報生成部の構成例を示すブロック図である。 異なる周波数特性のノイズ音が付加された音響データを説明する図である。 類似度の計算の対象とするブロックを説明する図である。 類似度の計算方法を説明する図である。 類似度マトリックスの例を示す図である。 同期情報の例を示す図である。 図1の信号処理装置の同期情報生成処理を説明するフローチャートである。 本技術を適用した信号処理システムの第2実施の形態の概要を説明する図である。 本技術を適用した信号処理システムの第3実施の形態の概要を説明する図である。 特徴量算出部の他の構成例を示すブロック図である。 コンピュータのハードウェアの構成例を示すブロック図である。
<第1実施の形態>
[信号処理システムの第1実施の形態の概要の説明]
図1は、本技術を適用した信号処理システムの第1実施の形態の構成例を示す図である。
図1に示すように、信号処理システム10は、撮影装置11−1および11−2、並びに、信号処理装置12により構成される。
撮影装置11−1は、ビデオカメラ等により構成される。撮影装置11−1は、撮影装置11−2と同一のイベントの異なる動画像と音響を取得する。撮影装置11−1は、その結果得られる動画像と音響のコンテンツAを信号処理装置12に送信する。
撮影装置11−2は、撮影装置11−1と同様に、ビデオカメラ等により構成される。撮影装置11−2は、撮影装置11−1と同一のイベントの異なる動画像と音響を取得する。撮影装置11−1は、その結果得られる動画像と音響のコンテンツBを信号処理装置12に送信する。
なお、以下では、撮影装置11−1と撮影装置11−2を特に区別する必要がない場合、それらをまとめて、撮影装置11という。
信号処理装置12は、特徴量算出部21−1および21−2、特徴量記憶部22−1および22−2、並びに同期情報生成部23により構成される。
信号処理装置12の特徴量算出部21−1は、撮影装置11−1から供給されるコンテンツAのうちの音響データに基づいて特徴量の時系列データを算出し、特徴量記憶部22−1に供給する。また、特徴量算出部21−2は、撮影装置11−2から供給されるコンテンツAのうちの音響データに基づいて特徴量の時系列データを算出し、特徴量記憶部22−2に供給する。
特徴量記憶部22−1は、メモリやハードディスクなどにより構成され、特徴量算出部21−1から供給されるコンテンツAの特徴量の時系列データを記憶する。また、特徴量記憶部22−2は、メモリやハードディスクなどにより構成され、特徴量算出部21−2から供給されるコンテンツBの特徴量の時系列データを記憶する。
同期情報生成部23は、特徴量記憶部22−1からコンテンツAの特徴量の時系列データを読み出すとともに、特徴量記憶部22−2からコンテンツBの特徴量の時系列データを読み出す。同期情報生成部23は、コンテンツAの特徴量の時系列データと、コンテンツBの特徴量の時系列データに基づいて、コンテンツAとコンテンツBを同期させる際に用いられる同期情報を生成する。同期情報生成部23は、同期情報を出力する。
なお、以下では、特徴量算出部21−1と特徴量算出部21−2を特に区別する必要がない場合、それらをまとめて特徴量算出部21という。また、特徴量記憶部22−1と特徴量記憶部22−2を特に区別する必要がない場合、それらをまとめて特徴量記憶部22という。
[特徴量算出部の構成例]
図2は、図1の特徴量算出部21の構成例を示すブロック図である。
図2の特徴量算出部21は、周波数帯域分割部101、周期性検出部102−1乃至102−4、周期性強度検出部103−1乃至103−4、周期性情報統合部104、およびピーク検出部105により構成される。
周波数帯域分割部101は、図1の撮影装置11から供給されるコンテンツのうちの音響データを、窓関数を用いて、数10msec乃至100msec程度の時間区間に分割する。周波数帯域分割部101は、複数のバンドパスフィルタを用いて、時間区間ごとの音響データを4つの周波数帯域に分割する。周波数帯域分割部101は、各周波数帯域の音響データを、周期性検出部102−1乃至102−4のそれぞれに供給する。
なお、バンドパスフィルタとしては、例えばオクターブバンドフィルタなどの、高い周波数ほど通過周波数帯域幅が広くなるフィルタを用いると効果的である。
周期性検出部102−1乃至102−4は、それぞれ、周波数帯域分割部101から供給される所定の周波数帯域の時間区間ごとの音響データの自己相関関数を計算することにより、時間区間ごとの周期性を表す周期性情報を抽出する。
なお、ここでは、周期性情報として、インデックスがbである周波数帯域の、インデックスがτである時間遅れの音響データの自己相関関数x(b,τ)そのものを用いるが、自己相関関数x(b,τ)をx(b,0)で除算した値を用いることもできる。また、自己相関関数x(b,τ)の計算方法としては、所定の周波数帯域の音響データに対して離散フーリエ変換を行うことにより得られるスペクトルのピークを用いた方法などを用いることができる。
周期性検出部102−1乃至102−4は、それぞれ、抽出された時間区間ごとの周期性情報を周期性強度検出部103−1乃至103−4と周期性情報統合部104に供給する。なお、以下では、周期性検出部102−1乃至102−4を特に区別する必要がない場合、それらをまとめて周期性検出部102という。
周期性強度検出部103−1乃至103−4は、それぞれ、周期性検出部102−1乃至102−4から供給される時間区間ごとの周期性情報に基づいて、時間区間ごとの周期性の強度を計算する。具体的には、τ=0近傍以外のτにおける周期性情報である自己相関関数x(b,τ)の最大値が周期性の強度として計算される。この周期性の強度が大きいほど、処理対象の音響データの周期性が強く、周期性の強度が小さいほど、処理対象の音響データの周期性がノイズらしくなる。
そして、周期性強度検出部103−1乃至103−4は、それぞれ、時間区間ごとの周期性の強度を、閾値を超えたかどうかで2値化し、時間区間ごとの周期性強度情報とする。即ち、時間区間ごとに、周期性の強度が所定の閾値を超えた場合、周期性強度情報は1とされ、周期性の強度が所定の閾値以下である場合、周期性強度情報は0とされる。周期性強度検出部103−1乃至103−4は、それぞれ、時間区間ごとの周期性強度情報を周期性情報統合部104に供給する。
なお、周期性強度検出部103−1乃至103−4を特に区別する必要がない場合、それらをまとめて周期性強度検出部103という。
周期性情報統合部104は、周期性検出部102から供給される時間区間ごとの周期性情報と、周期性強度検出部103から供給される時間区間ごとの周期性強度情報とに基づいて、時間区間ごとの周期性情報を統合する周期性統合処理を行う。具体的には、周期性情報統合部104は、以下の式(1)を用いて時間区間ごとに周期性情報である自己相関関数x(b,τ)の総和を求める。
Figure 2013174765
なお、式(1)において、Nbは周波数帯域の総数を表し、p(b)は周期性強度情報を表す。また、Npは周期性強度情報p(b)が1となる周波数帯域の数を表す。
周期性情報統合部104は、周期性統合処理の結果得られる時間区間ごとの周期性情報の総和S(τ)をピーク検出部105に供給する。
ピーク検出部105は、時間区間ごとに、周期性情報統合部104から供給される周期性情報の総和S(τ)に対してピーク検出を行い、ピーク位置τpの値が1となり、ピーク位置τp以外の値が0となるピーク情報P(τ)を生成する。ピーク検出方法としては、例えば、周期性情報の総和S(τ)の微分値が正から負に変わるときのインデックスτを、ピーク位置τpとして検出する方法がある。
なお、ピーク検出部105は、ピーク位置τpの周期性情報の総和S(τp)が、所定の閾値より小さい場合、そのピーク位置τpのピーク情報P(τp)を0とするようにしてもよい。これにより、ピーク情報P(τp)のノイズを低減することができる。また、ピーク情報は、周期性情報の総和S(τ)そのものであってもよい。
ピーク検出部105は、時間区間ごとのピーク情報P(τ)を、時間区間ごとの特徴量の時系列データとして図1の特徴量記憶部22に供給する。
[特徴量の時系列データの例]
図3は、特徴量の時系列データの例を示す図である。
なお、図3のグラフにおいて、横軸は、先頭からの時間区間の個数である時間区間番号を表し、縦軸はインデックスτを表す。
図3のグラフは、特徴量の時系列データP(τ)が1であるときのインデックスτと時間区間番号の位置を黒点で表している。従って、所定の時間区間の音響データの特徴量の時系列データP(τ)において、図3のグラフにおいて、その時間区間の時間区間番号に対応する横軸の位置に垂直の線上に並ぶ点に対応するτの時系列データP(τ)は1であり、その他のτの時系列データP(τ)は0である。
[同期情報生成部の構成例]
図4は、図1の同期情報生成部23の構成例を示すブロック図である。
図4の同期情報生成部23は、ブロック統合部121およびブロック統合部122、類似度計算部123、並びに最適パス検索部124により構成される。
同期情報生成部23のブロック統合部121は、図1の特徴量記憶部22−1からコンテンツAの時間区間ごとの特徴量の時系列データを読み出し、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で統合する。ブロック統合部121は、ブロック単位の特徴量の時系列データを類似度計算部123に供給する。
ブロック統合部122は、図1の特徴量記憶部22−2からコンテンツBの時間区間ごとの特徴量の時系列データを読み出し、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位で統合する。ブロック統合部122は、ブロック単位の特徴量の時系列データを類似度計算部123に供給する。
なお、ブロックを構成する複数の時間区間は、連続していなくてもよい。例えば、複数の偶数番目の時間区間を1ブロックとしたり、複数の奇数番目の時間区間を1ブロックとしたりすることもできる。この場合、時間区間ごとの特徴量の時系列データに対して間引き処理を行うことができるので、演算量を削減することができる。
また、ブロック統合部121とブロック統合部122は、全てのインデックスτの時間区間の特徴量の時系列データを統合するのではなく、一部のインデックスτの時間区間の特徴量の時系列データのみを統合するようにしてもよい。
例えば、コンテンツAとコンテンツBの音響データが、基本周波数が100Hz乃至500Hzである音声の音響データである場合、ブロック統合部121とブロック統合部122は、2msec乃至10msecの時間遅れに対応するインデックスτの時間区間の特徴量の時系列データのみを統合することができる。
また、コンテンツAとコンテンツBの音響データが、基本周波数が100Hz乃至250Hzである男声の音響データである場合、ブロック統合部121とブロック統合部122は、4msec乃至10msecの時間遅れに対応するインデックスτの時間区間の特徴量の時系列データのみを統合することができる。一方、コンテンツAとコンテンツBの音響データが、基本周波数が200Hz乃至500Hzである女声の音響データである場合、ブロック統合部121とブロック統合部122は、2msec乃至5msecの時間遅れに対応するインデックスτの時間区間の特徴量の時系列データのみを統合することができる。
類似度計算部123は、ブロック統合部121とブロック統合部122のそれぞれから供給されるブロック単位の特徴量の時系列データどうしの類似度を計算し、各ブロック間の類似度を表す類似度マトリックスを生成する。類似度計算部123は、類似度マトリックスを最適パス検索部124に供給する。
最適パス検索部124は、同期情報生成部として機能し、類似度計算部123から供給される類似度マトリックスから最適な類似度のパスを検索し、そのパス上の類似度に対応する2つのブロックの時間差を表す情報を同期情報として生成する。そして、最適パス検索部124は、同期情報を出力する。
以上のように、同期情報生成部23は、時間区間ごとのピーク情報P(τ)を特徴量の時系列データとして、その特徴量の時系列データが類似するコンテンツのブロックどうしを同期させる同期情報を生成する。即ち、同期情報生成部23は、音響データのピッチ情報に基づいて、同期情報を生成する。従って、音響データに撮影装置ごとに異なるノイズが含まれる場合などにおいても、ロバストに同期情報を生成することができる。
即ち、人間は、周波数特性を有する複数の音を聞いた場合、共通成分として、同一の基本周波数を有する音、即ちピッチが同一である音を知覚することにより、ノイズ音が含まれている場合であっても、共通成分を容易に知覚することができる。本技術は、このことを考慮して、ピッチ情報に基づいて同期情報を生成することにより、ノイズ音に対してロバストに同期情報を生成する。
これに対して、同期情報を生成する方法としては、音響データのスペクトル間の類似度を用いて同期情報を生成する方法もある。しかしながら、この方法では、例えば、2つの撮影装置において、それぞれ、図5Aに示す原音に対して図5Bと図5Cに示すように異なる周波数特性のノイズ音が付加された音響データが取得される場合、音響データ間のスペクトルの共通成分がノイズ音によって少なくなってしまう。従って、精度良く類似度を計算し、正確に同期情報を生成することができない。よって、このような方法では、ノイズ音に対してロバストに同期情報を生成することができない。
なお、ここでは、ブロックごとに同期情報が生成されるものとするが、特徴量の時系列データ全体に対して同期情報が生成されるようにしてもよい。但し、ブロックごとに同期情報が生成される場合、後述するように、コンテンツAとコンテンツBの間の内部クロックのずれも補正することができる。
[類似度の計算の説明]
図6は、類似度の計算の対象とするブロックを説明する図である。
なお、iは、コンテンツAのブロックのインデックスであり、jは、コンテンツBのブロックのインデックスである。また、X(i)は、コンテンツAのインデックスiのブロックの特徴量の時系列データを表し、Y(j)は、コンテンツBのインデックスjのブロックの特徴量の時系列データを表す。
図6に示すように、類似度の計算の対象は、n個のX(i)のそれぞれと、m個のY(j)のそれぞれとの、n×m個の組み合わせである。
図7は、類似度の計算方法を説明する図である。
なお、図7のマトリックスでは、横軸が、ブロック内の時間区間の先頭からの個数を表すブロック内時間区間番号を表し、縦軸がインデックスτを表している。また、白色の正方形は、対応するブロック内時間区間番号の時間区間のインデックスτの特徴量の時系列データP(τ)が0であることを表し、黒色の正方形は、その時系列データP(τ)が1であることを表している。さらに、図7の例では、ブロックを構成する時間区間の個数が4個であり、τが0乃至3であるものとする。
図7に示すように、X(i)とY(j)の類似度を計算する場合、まず、X(i)とY(j)の論理積X(i)∩Y(j)が計算され、次に、X(i)とY(j)の論理和X(i)∪Y(j)が計算される。例えば、図7に示すように、9個の0と7個の1からなるX(i)とY(j)の類似度を計算する場合、まず、12個の0と4個の1からなる論理積X(i)∩Y(j)が計算され、6個の0と10個の1からなる論理和X(i)∪Y(j)が計算される。
そして、以下の式(2)により、論理積X(i)∩Y(j)の1の数であるNumber(X(i)∩Y(j))と論理和の1の数であるNumber(X(i)∪Y(j))に基づいて、X(i)とY(j)の類似度A(i,j)が計算される。
A(i,j)=Number(X(i)∩Y(j))/Number(X(i)∪Y(j))
・・・(2)
図7の例では、Number(X(i)∩Y(j))が4であり、Number(X(i)∪Y(j))が10であるので、類似度A(i,j)は0.4となる。
なお、特徴量の時系列データとして、周期性情報の総和S(τ)を採用した場合には、類似度の計算方法としてコサイン距離を用いて類似度を計算する方法などを採用することができる。
[最適な類似度のパスの検索の説明]
図8は、類似度マトリックスの例を示す図である。
なお、図8の類似度マトリックスにおいて、横軸は、コンテンツBのブロックのインデックスjであり、縦軸は、コンテンツAのブロックのインデックスiである。
図8に示すように、類似度マトリックスでは、インデックスiとインデックスjに対応する点が、類似度A(i,j)が大きいほど濃くなるように、類似度A(i,j)に応じた濃度で表される。
最適パス検索部124は、動的計画法を用いて、類似度マトリックス上のパスの類似度の積算値が最大となるパスを最適な類似度のパスとして検索する。
例えば、コンテンツAとコンテンツBの時間のずれが、いずれか一方の遅延によってのみ発生している場合、類似度A(i,j)が最大となるiとjの差分は常に一定であるため、類似度マトリックスを左上から右下に進む直線状のパスが最適な類似度のパスとして検索される。一方、コンテンツAとコンテンツBの間に内部クロックのずれが発生している場合、最適な類似度のパスは直線状ではない。
なお、ここでは、最適パス検索部124が、動的計画法を用いて類似度マトリックス上のとり得る全てのパスに対して検索を行うが、コンテンツAとコンテンツBの間に内部クロックのずれが発生していないことが予めわかっている場合には、類似度マトリックス上のとり得る全ての直線状のパスに対してのみ検索を行うようにしてもよい。
最適パス検索部124は、最適な類似度のパス上の類似度に対応するインデックスの差分i-jを、同期情報として生成する。
[同期情報の例]
図9は、同期情報の例を示す図である。
図9Aに示すように、コンテンツAとコンテンツBの間に内部クロックのずれが発生しておらず、コンテンツAとコンテンツBの両方に対して編集が行われていない場合、即ち、コンテンツAとコンテンツBの時間のずれが、いずれか一方の遅延によってのみ発生している場合、一定値が同期情報として生成される。図9の例では、最適な類似度のパス上の類似度に対応するインデックスiとjの差分は常に80であり、同期情報として常に80が生成される。
一方、図9Bに示すように、コンテンツAとコンテンツBの間に内部クロックのずれが発生しておらず、コンテンツBに対して途中で編集が行われている場合、編集点より前の同期情報および編集点より後の同期情報として、それぞれ一定値が生成される。図9の例では、インデックスjが44であるブロックに編集点が存在する。従って、最適な類似度のパス上の類似度に対応するインデックスiとjの差分である同期情報は、インデックスjが41乃至44である場合、常に40であるが、インデックスjが85乃至88である場合、常に80である。
また、図9Cに示すように、コンテンツAとコンテンツBの間に内部クロックのずれが発生しており、コンテンツAとコンテンツBの両方に対して編集が行われていない場合、最適な類似度のパス上の類似度に対応するインデックスiとjの差分は、そのずれを補正するように変化する。図9の例では、インデックスiが1と2である場合、インデックスiとjの差分は79であるが、インデックスiが3である場合、内部クロックのずれの積算による同期のずれが大きくなるため、インデックスiとjの差分が1だけ増加されて80にされる。即ち、インデックスjが82であるブロックのコンテンツBがカットされる。
また、インデックスiが4である場合、インデックスiとjの差分は80のままであるが、インデックスiが5である場合、内部クロックのずれの積算による同期のずれが大きくなるため、インデクスiとjの差分が1だけ増加されて81にされる。即ち、インデックスjが85であるブロックのコンテンツBがカットされる。
さらに、インデックスiが6である場合、インデックスiとjの差分は81のままであるが、インデックスiが7である場合、内部クロックのずれの積算による同期のずれが大きくなるため、インデクスiとjの差分が1だけ増加されて82にされる。即ち、インデックスjが88であるブロックのコンテンツBがカットされる。そして、インデックスiが8である場合、インデックスiとjの差分は82のままである。
よって、インデックスiが1と2であるブロックの同期情報としては79が生成され、インデックスiが3と4であるブロックの同期情報としては80が生成される。また、インデックスiが5と6であるブロックの同期情報としては81が生成され、インデックスiが7と8であるブロックの同期情報としては82が生成される。
[信号処理装置の処理]
図10は、図1の信号処理装置12の同期情報生成処理を説明するフローチャートである。この同期情報生成処理は、撮影装置11からコンテンツが入力されたとき、開始される。
なお、図10のステップS11乃至S17の処理は、コンテンツごとに行われる。
図10のステップS11において、周波数帯域分割部101は、図1の撮影装置11から供給されるコンテンツのうちの音響データを、窓関数を用いて、数10msec乃至100msec程度の時間区間に分割する。
ステップS12において、周波数帯域分割部101は、複数のバンドパスフィルタを用いて、時間区間ごとの音響データを4つの周波数帯域に分割する。周波数帯域分割部101は、各周波数帯域の音響データを、周期性検出部102−1乃至102−4のそれぞれに供給する。
ステップS13において、周期性検出部102は、周波数帯域分割部101から供給される所定の周波数帯域の時間区間ごとの音響データの自己相関関数x(b,τ)を計算することにより、時間区間ごとの周期性情報を抽出し、周期性強度検出部103に供給する。なお、ステップS13の処理は、周期性検出部102ごとに行われる。
ステップS14において、周期性強度検出部103は、周期性検出部102から供給される時間区間ごとの周期性情報に基づいて、時間区間ごとの周期性の強度を計算する。そして、周期性強度検出部103は、時間区間ごとの周期性の強度を、閾値を超えたかどうかで2値化することにより、時間区間ごとの周期性強度情報を生成し、周期性情報統合部104に供給する。なお、ステップS14の処理は、周期性強度検出部103ごとに行われる。
ステップS15において、周期性情報統合部104は、周期性検出部102から供給される時間区間ごとの周期性情報と、周期性強度検出部103から供給される時間区間ごとの周期性強度情報とに基づいて、上述した式(1)を用いて周期性統合処理を行う。周期性情報統合部104は、周期性統合処理の結果得られる時間区間ごとの周期性情報の総和S(τ)をピーク検出部105に供給する。
ステップS16において、ピーク検出部105は、時間区間ごとに、周期性情報統合部104から供給される周期性情報の総和S(τ)に対してピーク検出を行い、ピーク情報P(τ)を生成する。
ステップS17において、ピーク検出部105は、時間区間ごとのピーク情報P(τ)を、時間区間ごとの特徴量の時系列データとして図1の特徴量記憶部22に供給し、記憶させる。
ステップS18において、同期情報生成部23のブロック統合部121は、ステップS17で図1の特徴量記憶部22−1に記憶されたコンテンツAの時間区間ごとの特徴量の時系列データを読み出す。また、ブロック統合部122は、ステップS17で図1の特徴量記憶部22−2に記憶されたコンテンツBの時間区間ごとの特徴量の時系列データを読み出す。
ステップS19において、ブロック統合部121は、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位でコンテンツAの時間区間ごとの特徴量の時系列データを統合し、類似度計算部123に供給する。また、ブロック統合部122は、連続した複数(例えば64個)の時間区間を1ブロックとして、ブロック単位でコンテンツBの時間区間ごとの特徴量の時系列データを統合し、類似度計算部123に供給する。
ステップS20において、類似度計算部123は、ブロック統合部121とブロック統合部122のそれぞれから供給されるブロック単位の特徴量の時系列データどうしの類似度を計算し、各ブロック間の類似度を表す類似度マトリックスを生成する。類似度計算部123は、類似度マトリックスを最適パス検索部124に供給する。
ステップS21において、最適パス検索部124は、類似度計算部123から供給される類似度マトリックスから最適な類似度のパスを検索し、同期情報を生成する。そして、最適パス検索部124は、同期情報を出力する。
以上のように、信号処理システム10では、信号処理装置11が、周期性情報に基づいて同期情報を生成するので、同期情報をロバストに生成することができる。
なお、信号処理システム10の後段のブロックは、例えば、コンテンツAとコンテンツBの再生位置を随時比較し、同期情報を用いて同期ずれが発生しているかどうかを確認する。そして、同期ずれが発生している場合には、信号処理システム10の後段のブロックは、同期情報を用いてコンテンツAまたはコンテンツBの再生位置を変更することで、コンテンツAとコンテンツBの同期ずれを補正する。このとき、単純にコンテンツを間引くと、間引いた点で不連続点が発生し、ノイズが発生するため、ピッチを一定に保ちながら時間のみを伸縮する方法を用いることが望ましい。
このように、信号処理システム10の後段のブロックは、コンテンツAとコンテンツBの同期ずれを補正することで、コンテンツAとコンテンツBを同期編集したり、コンテンツAとコンテンツBのいずれか一方の音響データを他方の音響データと差し替えて出力したりすることができる。
<第2実施の形態>
[信号処理システムの第2実施の形態の概要の説明]
図11は、本技術を適用した信号処理システムの第2実施の形態の概要を説明する図である。
図11に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図11の信号処理システム140の構成は、新たに撮影装置141が設けられる点、および信号処理装置12の代わりに信号処理装置142が設けられる点が図1の構成と異なる。信号処理システム140は、3つの撮影装置により取得されたコンテンツの同期情報を生成する。
具体的には、信号処理システム140の撮影装置141は、撮影装置11と同様に、ビデオカメラ等により構成される。撮影装置141は、撮影装置11−1および撮影装置11−2と同一のイベントの異なる動画像と音響を取得する。撮影装置141は、撮影装置11と同様に、その結果得られる動画像と音響のコンテンツCを信号処理装置142に送信する。
信号処理装置142は、特徴量算出部21−1、特徴量算出部21−2、および特徴量算出部151、特徴量記憶部22−1、特徴量記憶部22−2、および特徴量記憶部152、並びに同期情報生成部153により構成される。
特徴量算出部151は、図2の特徴量算出部21と同様に構成される。特徴量算出部151は、撮影装置141から供給されるコンテンツCのうちの音響データに基づいて特徴量の時系列データを算出し、特徴量記憶部152に供給する。特徴量記憶部152は、メモリやハードディスクなどにより構成され、特徴量算出部151から供給されるコンテンツCの特徴量の時系列データを記憶する。
同期情報生成部153は、特徴量記憶部22−1からコンテンツAの特徴量の時系列データを読み出し、特徴量記憶部22−2からコンテンツBの特徴量の時系列データを読み出し、特徴量記憶部152からコンテンツCの特徴量の時系列データを読み出す。同期情報生成部153は、同期情報生成部23と同様に、コンテンツAとコンテンツBの特徴量の時系列データに基づいて、コンテンツAとコンテンツBを同期させる際に用いられる同期情報を生成する。
また、同期情報生成部153は、同期情報生成部23と同様に、コンテンツAとコンテンツCの特徴量の時系列データに基づいて、コンテンツAとコンテンツCを同期させる際に用いられる同期情報を生成する。同期情報生成部153は、コンテンツAとコンテンツBの同期情報およびコンテンツAとコンテンツCの同期情報を出力する。
なお、同期情報生成部153は、コンテンツAとコンテンツB、および、コンテンツAとコンテンツC以外の組み合わせの同期情報を生成してもよい。また、同期情報生成部153は、コンテンツBとコンテンツCの同期情報を生成し、コンテンツAとコンテンツBの同期情報およびコンテンツAとコンテンツCの同期情報から求められるコンテンツBとコンテンツCの同期情報と比較することで、同期情報の精度を高めることもできる。
<第3実施の形態>
[信号処理システムの構成例]
図12は、本技術を適用した信号処理システムの第3実施の形態の構成例を示すブロック図である。
なお、図12に示す構成のうち、図1の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図12の信号処理システム370は、撮影装置11−1および撮影装置11−2、信号処理装置371、並びにサーバ372により構成される。
信号処理装置371は、図1の特徴量抽出部21−1および特徴量抽出部21−2により構成される。信号処理装置371は、撮影装置11−1から供給されるコンテンツAのうちの音響データに基づいて特徴量の時系列データを算出し、撮影装置11−2から供給されるコンテンツAのうちの音響データに基づいて特徴量の時系列データを算出する。信号処理装置371は、コンテンツAおよびコンテンツBの特徴量の時系列データをサーバ372に送信する。
サーバ372は、図1の特徴量記憶部22−1および特徴量記憶部22−2、並びに、同期情報生成部23により構成される。サーバ372は、信号処理装置371から送信されてくるコンテンツAの特徴量の時系列データを受信して記憶し、コンテンツBの特徴量の時系列データを受信して記憶する。サーバ372は、コンテンツAの特徴量の時系列データとコンテンツBの特徴量の時系列データを読み出し、コンテンツAの特徴量の時系列データとコンテンツBの特徴量の時系列データに基づいて同期情報を生成し、出力する。
なお、信号処理装置371とサーバ372の機能の割り当ては、上述した割り当てに限定されない。例えば、信号処理装置371が、コンテンツAとコンテンツBの時系列データを記憶し、読み出してサーバ372に送信するようにしてもよい。
また、第1乃至第3実施の形態では、周波数帯域分割部101が、音響データを4つの周波数帯域に分割したが、分割数は4に限定されないし、音響データは帯域分割されなくてもよい。
[特徴量算出部の他の構成例]
図13は、音響データが帯域分割されない場合の特徴量算出部21の構成例を示している。
図13の特徴量算出部21は、周波数帯域分割部391、周期性検出部392、およびピーク検出部393により構成される。
周波数帯域分割部391は、図1の撮影装置11から供給されるコンテンツのうちの音響データを、窓関数を用いて、数10msec乃至100msec程度の時間区間に分割し、時間区間ごとの音響データを周期性検出部392に供給する。
周期性検出部392は、周波数帯域分割部391から供給される時間区間ごとの音響データの自己相関関数x(b,τ)を計算することにより、時間区間ごとの周期性情報を抽出する。周期性検出部392は、抽出された時間区間ごとの周期性情報をピーク検出部393に供給する。
ピーク検出部393は、時間区間ごとに、周期性検出部392から供給される周期性情報に対してピーク検出を行い、ピーク情報P(τ)を生成する。
なお、ピーク検出部393は、ピーク位置τpの周期性情報が、所定の閾値より小さい場合、そのピーク位置τpのピーク情報P(τp)を0とするようにしてもよい。これにより、ピーク情報P(τp)のノイズを削減することができる。
ピーク検出部393は、時間区間ごとのピーク情報P(τ)を、時間区間ごとの特徴量の時系列データとして出力する。
なお、特徴量としては、ピーク情報P(τ)のほか、音響データのレベル、音響データのレベルの立ち上がり位置などの情報を採用することもできる。
例えば、音響データのレベルの情報を特徴量とする場合、音響データが数10msecの時間区間に分割され、時間区間ごとの音響データのRMS(Root Mean Square)値や平均値が特徴量の時系列データとして求められる。そして、特徴量の時系列データどうしの相互相関関数が類似度として計算される。
なお、この場合、帯域通過フィルタによって複数の周波数帯域に分割された音響データのレベルの情報を特徴量とするようにしてもよい。この場合、相互相関関数は周波数帯域ごとに求められ、各周波数帯域の相互相関関数の総和が類似度として求められる。
また、音響データのレベルの立ち上がり位置の情報を特徴量とする場合、特徴量は、例えば、音響データの立ち上がり位置、即ち微分値が閾値以上になる位置の値を1とし、それ以外の値を0とした情報である。
また、特徴量としては、George Tzanetakis and Perry Cook. Musical genre classification of audio signals. IEEE Transactions on Speech and Audio Processing, 10(5):293-302, July 2002.に開示されている特徴量のうちの、Zero Crossing Rate, Spectrum Flux, Spectrum Centroid, Roll-Offなどを単独で用いたり、組み合わせて用いたりすることも可能である。これらの特徴量を組み合わせて用いる場合、各特徴量の相互相関関数が類似度として求められる。
さらに、特徴量としては、上述した情報そのものではなく、その情報のピーク位置、即ち微分値が正から負に変わる位置のうち、レベルが閾値以上となる位置の値を1とし、それ以外を0とした情報を用いることも可能である。
また、第1乃至第3実施の形態におけるコンテンツを取得する装置は、少なくとも音響データを取得する装置であればよく、IC(Integrated Circuit)レコーダ等の録音装置であってもよい。
<本技術を適用したコンピュータの説明>
[コンピュータの構成例]
上述した一連の信号処理装置やサーバによる処理は、ハードウェアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロフォンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、第1実施の形態の信号処理システム10や第3実施の形態の信号処理システム370において、撮影装置の数は3以上であってもよい。また、第1実施の形態の信号処理システム10と第2実施の形態の信号処理システム140において、特徴量の時系列データは、信号処理装置内の記憶部ではなく、信号処理装置外のサーバ等に記憶されるようにしてもよい。
なお、本技術は、以下のような構成もとることができる。
(1)
第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
を備える信号処理装置。
(2)
前記第1のコンテンツに含まれる音響信号を帯域分割する第1の帯域分割部と、
前記第2のコンテンツに含まれる音響信号を帯域分割する第2の帯域分割部と、
全帯域の前記第1の周期性情報を統合する第1の周期性情報統合部と、
全帯域の前記第2の周期性情報を統合する第2の周期性情報統合部と
をさらに備え、
前記第1の周期性検出部は、前記第1の帯域分割部により帯域分割された前記音響信号の周期性情報を帯域ごとに前記第1の周期性情報として検出し、
前記第2の周期性検出部は、前記第2の帯域分割部により帯域分割された前記音響信号の周期性情報を帯域ごとに前記第2の周期性情報として検出し、
前記第1の周期性情報統合部は、前記第1の周期性検出部により検出された帯域ごとの前記第1の周期性情報を全帯域分統合し、
前記第2の周期性情報統合部は、前記第2の周期性検出部により検出された帯域ごとの前記第2の周期性情報を全帯域分統合する
前記(1)に記載の信号処理装置。
(3)
前記第1の周期性検出部により検出された前記第1の周期性情報の強度を検出する第1の周期性強度検出部と、
前記第2の周期性検出部により検出された前記第2の周期性情報の強度を検出する第2の周期性強度検出部と
をさらに備え、
前記第1の周期性情報統合部は、前記第1の周期性強度検出部により検出された前記第1の周期性情報の強度に基づいて、前記第1の周期性情報を全帯域分統合し、
前記第2の周期性情報統合部は、前記第2の周期性強度検出部により検出された前記第2の周期性情報の強度に基づいて、前記第2の周期性情報を全帯域分統合する
前記(2)に記載の信号処理装置。
(4)
前記類似度計算部は、前記第1の周期性情報と前記第2の周期性情報との類似度を時間区間ごとに計算し、
前記同期情報生成部は、前記時間区間ごとの類似度に基づいて、前記時間区間ごとに前記同期情報を生成する
前記(1)乃至(3)のいずれかに記載の信号処理装置。
(5)
前記類似度計算部は、各時間区間の前記第1の周期性情報と前記第2の周期性情報の類似度を表す類似度マトリックスを生成し、
前記同期情報生成部は、前記類似度マトリックス上の最適なパスを表す情報を、前記同期情報として生成する
前記(4)に記載の信号処理装置。
(6)
前記第1の周期性情報は、前記第1のコンテンツに含まれる音響信号の自己相関関数であり、
前記第2の周期性情報は、前記第2のコンテンツに含まれる音響信号の自己相関関数である
前記(1)乃至(5)のいずれかに記載の信号処理装置。
(7)
信号処理装置が、
第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出ステップと、
第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出ステップと、
前記第1の周期性検出ステップの処理により検出された前記第1の周期性情報と、前記第2の周期性検出ステップの処理により検出された前記第2の周期性情報との類似度を計算する類似度計算ステップと、
前記類似度計算ステップの処理により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成ステップと
を含む信号処理方法。
(8)
コンピュータを、
第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
して機能させるためのプログラム。
(9)
第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
を備える電子機器。
(10)
第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信部と、
前記受信部により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
を備える信号処理装置。
(11)
信号処理装置が、
第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信ステップと、
前記受信ステップの処理により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算ステップと、
前記類似度計算ステップの処理により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成ステップと
を含む信号処理方法。
(12)
コンピュータを、
第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信部と、
前記受信部により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
して機能させるためのプログラム。
(13)
第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信部と、
前記受信部により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
を備える電子機器。
(14)
第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
を備える信号処理システム。
(15)
信号処理システムが、
第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出ステップと、
第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出ステップと、
前記第1の周期性検出ステップの処理により検出された前記第1の周期性情報と、前記第2の周期性検出ステップの処理により検出された前記第2の周期性情報との類似度を計算する類似度計算ステップと、
前記類似度計算ステップの処理により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成ステップと
を含む信号処理方法。
(16)
第1のコンテンツに含まれる音響信号を帯域分割する第1の帯域分割部と、
前記第1の帯域分割部により帯域分割された前記音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
前記第1の周期性検出部により検出された前記第1の周期性情報の強度を検出する第1の周期性強度検出部と、
前記第1の周期性強度検出部により検出された前記第1の周期性情報の強度に基づいて、前記第1の周期性情報を全帯域分統合する第1の周期性情報統合部と、
第2のコンテンツに含まれる音響信号を帯域分割する第2の帯域分割部と、
前記第2の帯域分割部により帯域分割された前記音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
前記第2の周期性検出部により検出された前記第2の周期性情報の強度を検出する第2の第2の周期性強度検出部と、
前記第2の周期性強度検出部により検出された前記第2の周期性情報の強度に基づいて、前記第2の周期性情報を全帯域分統合する第2の周期性情報統合部と、
前記第1の周期性情報統合部により統合された前記第1の周期性情報と、前記第2の周期性情報統合部により統合された前記第2の周期性情報との類似度を計算する類似度計算部と、
前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
を備える信号処理装置。
10 信号処理装置, 101 周波数帯域分割部, 102−1乃至102−4 周期性検出部, 103−1乃至103−4 周期性強度検出部, 104 周期性情報統合部, 123 類似度計算部, 124 最適パス検索部, 371 信号処理装置, 372 サーバ

Claims (16)

  1. 第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
    第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
    前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    を備える信号処理装置。
  2. 前記第1のコンテンツに含まれる音響信号を帯域分割する第1の帯域分割部と、
    前記第2のコンテンツに含まれる音響信号を帯域分割する第2の帯域分割部と、
    全帯域の前記第1の周期性情報を統合する第1の周期性情報統合部と、
    全帯域の前記第2の周期性情報を統合する第2の周期性情報統合部と
    をさらに備え、
    前記第1の周期性検出部は、前記第1の帯域分割部により帯域分割された前記音響信号の周期性情報を帯域ごとに前記第1の周期性情報として検出し、
    前記第2の周期性検出部は、前記第2の帯域分割部により帯域分割された前記音響信号の周期性情報を帯域ごとに前記第2の周期性情報として検出し、
    前記第1の周期性情報統合部は、前記第1の周期性検出部により検出された帯域ごとの前記第1の周期性情報を全帯域分統合し、
    前記第2の周期性情報統合部は、前記第2の周期性検出部により検出された帯域ごとの前記第2の周期性情報を全帯域分統合する
    請求項1に記載の信号処理装置。
  3. 前記第1の周期性検出部により検出された前記第1の周期性情報の強度を検出する第1の周期性強度検出部と、
    前記第2の周期性検出部により検出された前記第2の周期性情報の強度を検出する第2の周期性強度検出部と
    をさらに備え、
    前記第1の周期性情報統合部は、前記第1の周期性強度検出部により検出された前記第1の周期性情報の強度に基づいて、前記第1の周期性情報を全帯域分統合し、
    前記第2の周期性情報統合部は、前記第2の周期性強度検出部により検出された前記第2の周期性情報の強度に基づいて、前記第2の周期性情報を全帯域分統合する
    請求項2に記載の信号処理装置。
  4. 前記類似度計算部は、前記第1の周期性情報と前記第2の周期性情報との類似度を時間区間ごとに計算し、
    前記同期情報生成部は、前記時間区間ごとの類似度に基づいて、前記時間区間ごとに前記同期情報を生成する
    請求項1に記載の信号処理装置。
  5. 前記類似度計算部は、各時間区間の前記第1の周期性情報と前記第2の周期性情報の類似度を表す類似度マトリックスを生成し、
    前記同期情報生成部は、前記類似度マトリックス上の最適なパスを表す情報を、前記同期情報として生成する
    請求項4に記載の信号処理装置。
  6. 前記第1の周期性情報は、前記第1のコンテンツに含まれる音響信号の自己相関関数であり、
    前記第2の周期性情報は、前記第2のコンテンツに含まれる音響信号の自己相関関数である
    請求項1に記載の信号処理装置。
  7. 信号処理装置が、
    第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出ステップと、
    第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出ステップと、
    前記第1の周期性検出ステップの処理により検出された前記第1の周期性情報と、前記第2の周期性検出ステップの処理により検出された前記第2の周期性情報との類似度を計算する類似度計算ステップと、
    前記類似度計算ステップの処理により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成ステップと
    を含む信号処理方法。
  8. コンピュータを、
    第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
    第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
    前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    して機能させるためのプログラム。
  9. 第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
    第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
    前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    を備える電子機器。
  10. 第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信部と、
    前記受信部により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    を備える信号処理装置。
  11. 信号処理装置が、
    第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信ステップと、
    前記受信ステップの処理により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算ステップと、
    前記類似度計算ステップの処理により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成ステップと
    を含む信号処理方法。
  12. コンピュータを、
    第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信部と、
    前記受信部により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    して機能させるためのプログラム。
  13. 第1のコンテンツに含まれる音響信号の周期性情報である第1の周期性情報と、第2のコンテンツに含まれる音響信号の前記周期性情報である第2の周期性情報を受信する受信部と、
    前記受信部により受信された前記第1の周期性情報と前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    を備える電子機器。
  14. 第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
    第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
    前記第1の周期性検出部により検出された前記第1の周期性情報と、前記第2の周期性検出部により検出された前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    を備える信号処理システム。
  15. 信号処理システムが、
    第1のコンテンツに含まれる音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出ステップと、
    第2のコンテンツに含まれる音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出ステップと、
    前記第1の周期性検出ステップの処理により検出された前記第1の周期性情報と、前記第2の周期性検出ステップの処理により検出された前記第2の周期性情報との類似度を計算する類似度計算ステップと、
    前記類似度計算ステップの処理により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成ステップと
    を含む信号処理方法。
  16. 第1のコンテンツに含まれる音響信号を帯域分割する第1の帯域分割部と、
    前記第1の帯域分割部により帯域分割された前記音響信号の周期性情報を第1の周期性情報として検出する第1の周期性検出部と、
    前記第1の周期性検出部により検出された前記第1の周期性情報の強度を検出する第1の周期性強度検出部と、
    前記第1の周期性強度検出部により検出された前記第1の周期性情報の強度に基づいて、前記第1の周期性情報を全帯域分統合する第1の周期性情報統合部と、
    第2のコンテンツに含まれる音響信号を帯域分割する第2の帯域分割部と、
    前記第2の帯域分割部により帯域分割された前記音響信号の前記周期性情報を第2の周期性情報として検出する第2の周期性検出部と、
    前記第2の周期性検出部により検出された前記第2の周期性情報の強度を検出する第2の第2の周期性強度検出部と、
    前記第2の周期性強度検出部により検出された前記第2の周期性情報の強度に基づいて、前記第2の周期性情報を全帯域分統合する第2の周期性情報統合部と、
    前記第1の周期性情報統合部により統合された前記第1の周期性情報と、前記第2の周期性情報統合部により統合された前記第2の周期性情報との類似度を計算する類似度計算部と、
    前記類似度計算部により計算された前記類似度に基づいて、前記第1のコンテンツと前記第2のコンテンツを同期させる際に用いられる同期情報を生成する同期情報生成部と
    を備える信号処理装置。
JP2012039765A 2012-02-27 2012-02-27 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法 Active JP6003083B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012039765A JP6003083B2 (ja) 2012-02-27 2012-02-27 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法
US13/761,575 US9251794B2 (en) 2012-02-27 2013-02-07 Signal processing apparatus, signal processing method, program, electronic device, signal processing system and signal processing method thereof
EP13155357.0A EP2631910B1 (en) 2012-02-27 2013-02-15 Signal processing apparatus, signal processing method and program
CN201310053496.4A CN103297674B (zh) 2012-02-27 2013-02-19 信号处理装置、系统和方法,电子器件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012039765A JP6003083B2 (ja) 2012-02-27 2012-02-27 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法

Publications (3)

Publication Number Publication Date
JP2013174765A true JP2013174765A (ja) 2013-09-05
JP2013174765A5 JP2013174765A5 (ja) 2015-03-05
JP6003083B2 JP6003083B2 (ja) 2016-10-05

Family

ID=47900513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012039765A Active JP6003083B2 (ja) 2012-02-27 2012-02-27 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法

Country Status (4)

Country Link
US (1) US9251794B2 (ja)
EP (1) EP2631910B1 (ja)
JP (1) JP6003083B2 (ja)
CN (1) CN103297674B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015059891A1 (en) 2013-10-21 2015-04-30 Sony Corporation Information processing apparatus, method, and program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796578B (zh) * 2015-04-29 2018-03-13 成都陌云科技有限公司 一种基于节目声音特征的多屏同步方法
CN108769559B (zh) * 2018-05-25 2020-12-01 数据堂(北京)科技股份有限公司 多媒体文件的同步方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59500432A (ja) * 1982-03-23 1984-03-15 ワードフィット・リミテッド オーディオ周波数出力信号発生方法および装置
JP2008015211A (ja) * 2006-07-06 2008-01-24 Dds:Kk ピッチ抽出方法、歌唱力評価方法、歌唱訓練プログラム及びカラオケ装置
JP2011053588A (ja) * 2009-09-04 2011-03-17 Yamaha Corp 音響処理装置およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US5055939A (en) * 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
GB2422755A (en) * 2005-01-27 2006-08-02 Synchro Arts Ltd Audio signal processing
JP5143569B2 (ja) * 2005-01-27 2013-02-13 シンクロ アーツ リミテッド 音響的特徴の同期化された修正のための方法及び装置
EP1729173A3 (en) * 2005-05-27 2007-01-03 Telegraf ApS System for generating synchronized add-on information
JP4760786B2 (ja) 2007-06-27 2011-08-31 株式会社日立製作所 映像音声符号化データ編集装置
JP2010171625A (ja) 2009-01-21 2010-08-05 Olympus Corp 撮像装置、録音装置、および動画撮影システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59500432A (ja) * 1982-03-23 1984-03-15 ワードフィット・リミテッド オーディオ周波数出力信号発生方法および装置
JP2008015211A (ja) * 2006-07-06 2008-01-24 Dds:Kk ピッチ抽出方法、歌唱力評価方法、歌唱訓練プログラム及びカラオケ装置
JP2011053588A (ja) * 2009-09-04 2011-03-17 Yamaha Corp 音響処理装置およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015059891A1 (en) 2013-10-21 2015-04-30 Sony Corporation Information processing apparatus, method, and program
KR20160074475A (ko) 2013-10-21 2016-06-28 소니 주식회사 정보 처리 장치, 방법, 및 프로그램
RU2675192C2 (ru) * 2013-10-21 2018-12-17 Сони Корпорейшн Устройство обработки информации, способ и программа
US10484728B2 (en) 2013-10-21 2019-11-19 Sony Corporation Information processing apparatus, method, and program
KR20210014755A (ko) 2013-10-21 2021-02-09 소니 주식회사 정보 처리 장치, 방법, 및 프로그램
US11115694B2 (en) 2013-10-21 2021-09-07 Sony Corporation Information processing apparatus, method, and program

Also Published As

Publication number Publication date
CN103297674B (zh) 2017-11-14
JP6003083B2 (ja) 2016-10-05
US20130226599A1 (en) 2013-08-29
EP2631910B1 (en) 2020-06-24
EP2631910A1 (en) 2013-08-28
CN103297674A (zh) 2013-09-11
US9251794B2 (en) 2016-02-02

Similar Documents

Publication Publication Date Title
US8849432B2 (en) Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
US11336952B2 (en) Media content identification on mobile devices
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
CN100356445C (zh) 分离声源信号的方法和装置及用来检测间距的方法和装置
US11115694B2 (en) Information processing apparatus, method, and program
WO2013170092A1 (en) Method for synchronizing disparate content files
US9646625B2 (en) Audio correction apparatus, and audio correction method thereof
US10757468B2 (en) Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings
US11736762B2 (en) Media content identification on mobile devices
JP2004528600A (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
JP2014215461A (ja) 音声処理装置および方法、並びにプログラム
CN104078051B (zh) 一种人声提取方法、系统以及人声音频播放方法及装置
JP6003083B2 (ja) 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法
Shrestha et al. Synchronization of multiple camera videos using audio-visual features
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
Kendrick et al. Perceived audio quality of sounds degraded by non-linear distortions and single-ended assessment using HASQI
CN113614828A (zh) 经由归一化对音频信号进行指纹识别的方法和装置
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
US20230005488A1 (en) Signal processing device, signal processing method, program, and signal processing system
FR3078196A1 (fr) Procede et dispositif de synchronisation d'enregistrements comprenant un signal audio provenant de differents dispositifs d'acquisition co-localises
US20160163354A1 (en) Programme Control
JP6471923B2 (ja) 信号処理装置および方法、並びにプログラム
JP2018155897A (ja) 情報処理方法
CN112309419A (zh) 多路音频的降噪、输出方法及其系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160822

R151 Written notification of patent or utility model registration

Ref document number: 6003083

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250