JP5728888B2 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP5728888B2
JP5728888B2 JP2010243912A JP2010243912A JP5728888B2 JP 5728888 B2 JP5728888 B2 JP 5728888B2 JP 2010243912 A JP2010243912 A JP 2010243912A JP 2010243912 A JP2010243912 A JP 2010243912A JP 5728888 B2 JP5728888 B2 JP 5728888B2
Authority
JP
Japan
Prior art keywords
music
input signal
time
similarity
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010243912A
Other languages
English (en)
Other versions
JP2012098360A (ja
Inventor
澁谷 崇
崇 澁谷
東山 恵祐
恵祐 東山
安部 素嗣
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010243912A priority Critical patent/JP5728888B2/ja
Priority to US13/277,971 priority patent/US8680386B2/en
Priority to CN201110329985.9A priority patent/CN102568474B/zh
Publication of JP2012098360A publication Critical patent/JP2012098360A/ja
Application granted granted Critical
Publication of JP5728888B2 publication Critical patent/JP5728888B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、信号処理装置および方法、並びにプログラムに関し、特に、楽曲と雑音とが混在する入力信号から、その楽曲を同定することができるようにする信号処理装置および方法、並びにプログラムに関する。
従来、入力信号として入力される楽曲を同定するために、入力信号の特徴量と、同定される楽曲の候補となる参照信号の特徴量とのマッチング処理が行われている。しかしながら、例えば、ドラマ等のテレビジョン番組の放送音源を入力信号とした場合、入力信号には、BGM(Back Ground Music)としての楽曲の信号成分と、人の会話や騒音(環境雑音)等、楽曲以外の信号成分である雑音成分(以下、単に雑音ともいう)とが混在していることが多く、この雑音による入力信号の特徴量の変化が、マッチング処理の結果に影響を及ぼしてしまう。
そこで、入力信号の特徴量において、信頼度の低い成分をマスクするマスクパターンを用いて、信頼度の高い成分のみを用いてマッチング処理を行う技術が提案されている。
具体的には、時間周波数領域の信号に変換された入力信号の特徴量を表現する特徴行列に対して、所定の時間周波数領域に対応する行列成分をマスクする複数種類のマスクパターンを予め用意し、入力信号の特徴量とデータベース内の複数の参照信号の特徴量とのマッチング処理を全てのマスクパターンを用いて行い、最も高い類似度が算出された参照信号の楽曲を、入力信号の楽曲として同定するようにしたものがある(例えば、特許文献1参照)。
また、入力信号において平均パワーが大きい時間区間における成分を、楽曲以外の雑音が重畳されている成分と仮定し、入力信号において平均パワーが小さい時間区間の特徴量のみを用いてマッチングを行うようにするマスクパターンを作成するようにしたものがある(例えば、特許文献2参照)。
特開2009−276776号公報 特開2004−326050号公報
しかしながら、入力信号において、どの時間にどの周波数の雑音が重畳されているかは予測できず、そのような入力信号に適したマスクパターンを予め用意することは困難であるので、特許文献1の技術では、適切なマッチング処理を行うことができず、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することはできない。
また、特許文献2によれば、入力信号に応じたマスクパターンを作成することはできるが、そのマスクパターンは、周波数成分が考慮されておらず、入力信号に適したマスクパターンとは言えない。さらに、図1の左側に示されるように、時間周波数領域の入力信号において、楽曲の信号成分Dmに人の会話による雑音Dvが含まれている場合、特許文献2の技術では、人の会話が途切れている領域S1およびS2におけるわずかな時間区間の特徴量のみを用いてしかマッチング処理を行うことができないので、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することは困難である。楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定するには、図1の右側に示されるように、領域S3およびS4における楽曲の信号成分Dmの特徴量を用いてマッチング処理を行うことが望ましい。
本発明は、このような状況に鑑みてなされたものであり、入力信号から楽曲を精度良く同定することができるようにするものである。
本発明の一側面の信号処理装置は、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理装置であって、前記入力信号から信号成分のパワースペクトルが極大となる点を検出する検出手段と、所定の時間区間における前記極大となる点の頻度に基づいて、楽曲らしさを示す楽曲度を算出する楽曲度算出手段と、時間周波数領域に変換された前記入力信号の各領域における前記楽曲度に応じた重み分布を生成する重み分布生成手段と、前記重み分布による重み付けに基づいて、時間周波数領域に変換された前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号の各領域における前記特徴量との類似度を算出する類似度算出手段とを備える。
前記重み分布生成手段には、前記楽曲度が所定の閾値を超える領域に対して前記楽曲度に応じた重み付けをし、前記楽曲度が所定の閾値を超えない領域をマスクする前記重み分布を生成させることができる。
前記頻度は、前記極大となる点の周波数毎の出現頻度とされる。
前記類似度算出手段には、前記入力信号の特徴量と、複数の前記参照信号の特徴量との前記類似度を算出させ、前記信号処理装置には、複数の前記類似度の中で、所定の閾値を超える前記類似度のうち、最大の類似度が算出された前記参照信号の楽曲を、前記入力信号の楽曲であると判定する判定手段をさらに設けることができる。
前記類似度算出手段には、前記入力信号の特徴量と、複数の前記参照信号の特徴量との前記類似度を算出させ、複数の前記類似度の中で、所定の閾値を超える前記類似度が算出された複数の前記参照信号の楽曲を、前記入力信号の楽曲であると判定する判定手段をさらに設けることができる。
前記類似度算出手段には、前記重み分布による重み付けに基づいて、時間周波数領域に変換された所定時間分の前記入力信号の各領域における前記特徴量と、時間周波数領域に変換された前記参照信号の前記所定時間に対応する領域における前記特徴量との類似度を算出させることができる。
本発明の一側面の信号処理方法は、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理方法であって、前記入力信号から信号成分のパワースペクトルが極大となる点を検出する検出ステップと、所定の時間区間における前記極大となる点の頻度に基づいて、楽曲らしさを示す楽曲度を算出する楽曲度算出ステップと、時間周波数領域に変換された前記入力信号の各領域における前記楽曲度に応じた重み分布を生成する重み分布生成ステップと、前記重み分布による重み付けに基づいて、時間周波数領域に変換された前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号の各領域における前記特徴量との類似度を算出する類似度算出ステップとを含む。
本発明の一側面のプログラムは、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理をコンピュータに実行させるプログラムであって、前記入力信号から信号成分のパワースペクトルが極大となる点を検出する検出ステップと、所定の時間区間における前記極大となる点の頻度に基づいて、楽曲らしさを示す楽曲度を算出する楽曲度算出ステップと、時間周波数領域に変換された前記入力信号の各領域における前記楽曲度に応じた重み分布を生成する重み分布生成ステップと、前記重み分布による重み付けに基づいて、時間周波数領域に変換された前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号の各領域における前記特徴量との類似度を算出する類似度算出ステップとを含む処理をコンピュータに実行させる。
本発明の一側面においては、入力信号から信号成分のパワースペクトルが極大となる点が検出され、所定の時間区間における極大となる点の頻度に基づいて、楽曲らしさを示す楽曲度が算出され、時間周波数領域に変換された入力信号の各領域における楽曲度に応じた重み分布が生成され、重み分布による重み付けに基づいて、時間周波数領域に変換された入力信号の各領域における特徴量と、時間周波数領域に変換された参照信号の各領域における特徴量との類似度を算出される。
本発明の一側面によれば、入力信号から楽曲を精度良く同定することが可能となる。
マッチング処理に用いられる入力信号の特徴量について説明する図である。 本発明を適用した信号処理装置の一実施の形態の構成を示すブロック図である。 楽曲度算出部の機能構成例を示すブロック図である。 マスクパターン生成部の機能構成例を示すブロック図である。 楽曲同定処理について説明するフローチャートである。 入力信号解析処理について説明するフローチャートである。 入力信号の特徴量について説明する図である。 楽曲度算出処理について説明するフローチャートである。 楽曲度の算出について説明する図である。 楽曲度の算出について説明する図である。 マスクパターン生成処理について説明するフローチャートである。 マスクパターンの生成について説明する図である。 参照信号解析処理について説明するフローチャートである。 マッチング処理について説明するフローチャートである。 入力信号の特徴量と参照信号の特徴量とのマッチング処理について説明する図である。 コンピュータのハードウェアの構成例を示すブロック図である。
以下、本発明の実施の形態について図を参照して説明する。
[信号処理装置の構成]
図2は、本発明を適用した信号処理装置の一実施の形態の構成を示している。
図2の信号処理装置11は、楽曲の信号成分と、人の会話や騒音等の雑音成分(雑音)とが混在した入力信号と、雑音が混在しない楽曲の信号成分からなる参照信号とを比較することで、入力信号の楽曲を同定し、その同定結果を出力する。
信号処理装置11は、入力信号解析部31、参照信号解析部32、およびマッチング処理部33から構成される。
入力信号解析部31は、外部の装置等から入力される入力信号を解析し、入力信号の特徴を表す特徴量を入力信号から抽出するとともに、入力信号と参照信号との比較に用いられるマスクパターンを生成し、これらをマッチング処理部33に供給する。マスクパターンの生成の詳細については、図12等を参照して後述する。
入力信号解析部31は、切り出し部51、時間周波数変換部52、特徴量抽出部53、楽曲度算出部54、およびマスクパターン生成部55を備えている。
切り出し部51は、入力信号から所定時間分の信号を切り出し、時間周波数変換部52に供給する。
時間周波数変換部52は、切り出し部51からの所定時間分の入力信号を、時間周波数領域の信号(スペクトログラム)に変換し、特徴量抽出部53および楽曲度算出部54に供給する。
特徴量抽出部53は、時間周波数変換部52からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に、入力信号の特徴を表す特徴量を抽出し、マッチング処理部33に供給する。
楽曲度算出部54は、時間周波数変換部52からの入力信号のスペクトログラムに基づいて、そのスペクトログラムの時間周波数領域毎に、入力信号の楽曲らしさの指標となる楽曲度を算出し、マスクパターン生成部55に供給する。
マスクパターン生成部55は、楽曲度算出部54からの、スペクトログラムの時間周波数領域毎の楽曲度に基づいて、入力信号の特徴量と参照信号の特徴量とのマッチング処理に用いられるマスクパターンを生成し、マッチング処理部33に供給する。
参照信号解析部32は、図示せぬ記憶部に蓄積されているか、または、外部の装置等から入力されてくる複数の参照信号を解析し、それぞれの参照信号の特徴を表す特徴量を参照信号から抽出し、マッチング処理部33に供給する。
参照信号解析部32は、時間周波数変換部61および特徴量抽出部62を備えている。
時間周波数変換部61は、参照信号をスペクトログラムに変換し、特徴量抽出部62に供給する。
特徴量抽出部62は、時間周波数変換部61からの参照信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に、参照信号の特徴を表す特徴量を抽出し、マッチング処理部33に供給する。
マッチング処理部33は、入力信号解析部31からのマスクパターンを用いて、入力信号解析部31からの入力信号の特徴量と、参照信号解析部32からの参照信号の特徴量とのマッチング処理を行うことで、入力信号に含まれる楽曲を同定する。
マッチング処理部33は、類似度算出部71および比較判定部72を備えている。
類似度算出部71は、入力信号解析部31からのマスクパターンを用いて、入力信号解析部31からの入力信号の特徴量と、参照信号解析部32からの複数の参照信号の特徴量との類似度を算出し、算出された複数の類似度を、比較判定部72に供給する。
比較判定部72は、類似度算出部71からの複数の類似度の中で、所定の閾値を超える類似度のうち、最大の類似度が算出された参照信号の楽曲を、入力信号に含まれる楽曲であると判定し、その参照信号の楽曲の属性を表す楽曲属性情報を、同定結果として出力する。
[楽曲度算出部の構成]
次に、図3を参照して、図2の楽曲度算出部54の詳細な構成について説明する。
図3の楽曲度算出部54は、時間区間選択部81、ピーク検出部82、ピーク頻度算出部83、強調処理部84、および出力部85を備えている。
時間区間選択部81は、時間周波数変換部52からの入力信号のスペクトログラムにおいて、所定の時間区間のスペクトログラムを選択し、ピーク検出部82に供給する。
ピーク検出部82は、時間区間選択部81によって選択された所定の時間区間のスペクトログラムにおいて、時間フレーム毎に、信号成分の強さが極大となる点であるピークを検出する。
ピーク頻度算出部83は、所定の時間区間のスペクトログラムにおいて、ピーク検出部82によって検出されたピークの、周波数毎の出現頻度を求める。
強調処理部84は、ピーク頻度算出部83によって求められた出現頻度に対して、その値を強調する強調処理を施し、出力部85に供給する。
出力部85は、強調処理部84によって強調処理が施された、所定の時間区間分のスペクトログラムについてのピーク頻度を保持する。また、出力部85は、全時間区間分のスペクトログラムについてのピーク頻度を、入力信号の楽曲らしさの指標となる楽曲度として、マスクパターン生成部55に供給(出力)する。
このようにして、時間周波数領域における所定の時間区分毎、単位周波数毎に値(要素)を持つ楽曲度が算出される。
[マスクパターン生成部の構成]
次に、図4を参照して、図2のマスクパターン生成部55の詳細な構成について説明する。
図4のマスクパターン生成部55は、抽出部91、線形変換部92、割り当て部93、マスク処理部94、およびリサンプリング処理部95を備えている。
抽出部91は、楽曲度算出部54からの楽曲度の各要素のうち、要素の値が所定の閾値を超えるものを抽出し、線形変換部92に供給する。
線形変換部92は、抽出部91によって抽出された要素の値に対して、所定の線形変換処理を施し、割り当て部93に供給する。
割り当て部93は、線形変換部92によって所定の線形変換処理が施された結果得られた値を、時間周波数領域の楽曲度において、抽出部91によって抽出された要素の周辺要素に割り当てる。
マスク処理部94は、時間周波数領域の楽曲度において、抽出部91によって抽出されず、かつ、線形変換された値が割り当て部93によって割り当てられていない領域(要素)をマスクする。
リサンプリング処理部95は、上述した領域がマスクされた時間周波数領域の楽曲度を、特徴量抽出部53によって抽出される入力信号の特徴量の時間粒度(要素あたりの時間区間の幅)に対応するように、時間方向にリサンプリング処理を行う。リサンプリング処理部95は、リサンプリング処理の結果得られた楽曲度を、入力信号の特徴量と参照信号の特徴量とのマッチング処理に用いられるマスクパターンとして、マッチング処理部33に供給する。
[信号処理装置の楽曲同定処理について]
次に、図5のフローチャートを参照して、信号処理装置11の楽曲同定処理について説明する。楽曲同定処理は、外部の装置等から、同定されるべき楽曲が含まれる入力信号が信号処理装置11に入力されると開始される。なお、信号処理装置11には、入力信号が、時間的に連続して入力される。
ステップS11において、入力信号解析部31は、入力信号解析処理を実行し、外部の装置等から入力された入力信号を解析し、入力信号の特徴量を入力信号から抽出するとともに、入力信号と参照信号との比較に用いられるマスクパターンを生成する。
[入力信号解析処理について]
ここで、図6のフローチャートを参照して、図5のフローチャートのステップS11における入力信号解析処理の詳細について説明する。
ステップS31において、入力信号解析部31の切り出し部51は、入力信号から所定時間(例えば、15秒間)分の信号を切り出し、時間周波数変換部52に供給する。
ステップS32において、時間周波数変換部52は、切り出し部51からの所定時間分の入力信号をスペクトログラムに変換し、特徴量抽出部53および楽曲度算出部54に供給する。なお、時間周波数変換部52は、スペクトログラムの周波数成分をメル尺度で圧縮するメル周波数変換などの周波数軸歪曲処理を行うようにしてもよい。
ステップS33において、特徴量抽出部53は、時間周波数変換部52からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に特徴量を抽出し、マッチング処理部33に供給する。より具体的には、特徴量抽出部53は、入力信号のスペクトログラムについて、ある時間区間(例えば、0.25秒間)毎のパワースペクトルの平均値を求め、正規化し、時系列に並べたものを特徴量とする。
図7は、特徴量抽出部53によって抽出される特徴量の例について説明する図である。
図7に示されるように、入力信号のスペクトログラムから抽出された入力信号の特徴量Sは、時間方向および周波数方向に要素(以下、成分ともいう)を有している。特徴量Sにおける四角形(マス目)のそれぞれは、各時間、各周波数毎の成分を表しており、図示されないが、それぞれ特徴量としての値を有する。また、図7に示されるように、特徴量Sの時間粒度は0.25秒とされる。
このように、入力信号のスペクトログラムから抽出される入力信号の特徴量は、各時間、各周波数毎に成分を有しているので、行列として扱うことができる。
なお、特徴量は、上述した、正規化された平均パワースペクトルに限らず、後述する楽曲度であってもよいし、入力信号が時間周波数領域の信号に変換されたままのスペクトログラムそのものであってもよい。
図6のフローチャートに戻り、ステップS34において、楽曲度算出部54は、時間周波数変換部52からの入力信号のスペクトログラムに基づいて、楽曲度算出処理を実行し、入力信号のスペクトログラムの各時間周波数領域について、入力信号の楽曲らしさの指標となる楽曲度を算出する。
楽曲度算出処理における楽曲度の算出には、入力信号におけるトーン(音調)の安定性を利用する。ここでいうトーンは、周波数毎の信号成分の強さ(パワースペクトル)で表されるものとすると、一般的に、楽曲においては、ある特定の音程(周波数)を持つ音がある一定時間鳴り続けるため、時間方向に対してトーンは安定する。一方、人の会話においては、時間方向に対してトーンはゆらぐ性質を持ち、また、環境雑音においては、時間方向に連続するトーンがあまり見られない。そこで、楽曲度算出処理においては、所定の時間区間分の入力信号について、トーンの有無および安定性を数値化することで、楽曲度を算出する。
[楽曲度算出処理について]
ここで、図8のフローチャートを参照して、図6のフローチャートのステップS34における楽曲度算出処理の詳細について説明する。
ステップS51において、楽曲度算出部54の時間区間選択部81は、時間周波数変換部52からの入力信号のスペクトログラムにおいて、所定の時間区間(例えば、15秒間の入力信号のうちの最初の1秒間)のスペクトログラムを選択し、ピーク検出部82に供給する。
ステップS52において、ピーク検出部82は、時間区間選択部81によって選択された1秒間分のスペクトログラムにおいて、時間フレーム(時間bin)毎に、各周波数帯についての信号成分のパワースペクトル(強さ)が、その周波数帯の近傍で極大となる時間周波数領域上の点であるピークを検出する。
ここで、例えば1秒間分の楽曲のスペクトログラムにおいては、ある特定の周波数を持つ音が所定時間鳴り続けるため、信号成分のピークは、図9の左側に示されるように、ある特定の周波数帯に現れる。
一方、例えば1秒間分の人の会話のスペクトログラムにおいては、そのトーンはゆらぐため、信号成分のピークは、図10の左側に示されるように、様々な周波数帯に現れる。
ステップS53において、ピーク頻度算出部83は、1秒間分のスペクトログラムにおいて、ピーク検出部82によって検出されたピークの、時間方向に対する周波数毎の出現頻度(存在頻度)(以下、ピーク頻度という)を求める。
1秒間分のスペクトログラムにおいて、例えば、図9の左側に示されるようなピークが検出された場合、そのピークは、時間方向に対して一定の周波数帯に現れるので、図9の中央に示されるような、一定の周波数においてピークを持つピーク頻度が求められる。
一方、1秒間分のスペクトログラムにおいて、例えば、図10の左側に示されるようなピークが検出された場合、そのピークは、時間方向に対して様々な周波数帯に現れるので、図10の中央に示されるような、周波数方向に対してなだらかなピーク頻度が求められる。
なお、ピーク頻度の算出においては、一定時間以上連続したピーク、すなわち、ピークの長さを考慮して、ピーク頻度を算出するようにしてもよい。
このようにして、各周波数に対して求められるピーク頻度は、1次元のベクトルとして扱うことができる。
ステップS54において、強調処理部84は、ピーク頻度算出部83によって求められたピーク頻度に対して、その値を強調する強調処理を施し、出力部85に供給する。具体的には、強調処理部84は、ピーク頻度を表す各ベクトルに対して、例えば、[-1/2,1,-1/2]のフィルタを用いたフィルタリング処理を施す。
例えば、図9の中央に示される、一定の周波数においてピークを持つピーク頻度に対して上述したフィルタリング処理を施した場合、図9の右側に示されるように、そのピークが強調されたピーク頻度が得られる。
一方、図10の中央に示される、周波数方向に対してなだらかなピーク頻度に対して上述したフィルタリング処理を施した場合、図10の右側に示されるように、ピークが減衰されたピーク頻度が得られる。
なお、強調処理においては、上述したフィルタリング処理に限らず、ピーク頻度の値から、その近傍のピーク頻度の値の平均値や中間値を減算することで、ピーク頻度の値を強調するようにしてもよい。
ステップS55において、出力部85は、強調処理部84によって強調処理が施された、1秒間分のスペクトログラムについてのピーク頻度を保持し、全ての時間区間(例えば、15秒間)について、上述した処理を行ったか否かを判定する。
ステップS55において、全ての時間区間について上述した処理が行われていないと判定された場合、処理はステップS51に戻り、次の時間区間(1秒間)のスペクトログラムに対して、ステップS51乃至S54の処理が繰り返される。なお、ステップS51乃至S54の処理は、上述したように、1秒間の時間区間ずつのスペクトログラムに対して行われるようにしてもよいし、処理対象となるスペクトログラムの時間区間を、例えば0.5秒ずつずらして、処理対象の時間区間の一部を、前の処理対象の時間区間とオーバーラップさせながら行われるようにしてもよい。
一方、ステップS55において、全ての時間区間について上述した処理が行われたと判定された場合、処理はステップS56に進む。
ステップS56において、出力部85は、保持している時間区間(1秒間)毎のピーク頻度(1次元ベクトル)を時系列に配列することで得られる行列を、楽曲度として、マスクパターン生成部55に供給(出力)し、処理はステップS34に戻る。
このように、入力信号のスペクトログラムから算出される楽曲度は、特徴量抽出部53によって抽出された特徴量と同様に、各時間、各周波数毎に成分を有する行列として扱うことができる。ただし、特徴量抽出部53によって抽出された特徴量の時間粒度は0.25秒であるのに対して、楽曲度の時間粒度は1秒とされる。
さて、図6のステップS34の後、処理はステップS35に進み、マスクパターン生成部55は、楽曲度算出部54からの楽曲度に基づいて、マスクパターン生成処理を実行し、入力信号の特徴量と参照信号の特徴量とのマッチング処理に用いられるマスクパターンを生成する。
[マスクパターン生成処理について]
ここで、図11のフローチャートを参照して、図6のフローチャートのステップS35におけるマスクパターン生成処理の詳細について説明する。
ステップS71において、マスクパターン生成部55の抽出部91は、楽曲度算出部54からの楽曲度の各要素(成分)のうち、要素の値が所定の閾値を超えるものを抽出し、線形変換部92に供給する。
例えば、楽曲度として、図12の左上段に示されるような楽曲度Gが、楽曲度算出部54から供給された場合、抽出部91は、楽曲度Gの各要素のうち、要素の値が0.3を超えるものを抽出する。ここで、楽曲度Gの各要素について、楽曲度Gの左下の要素を基準とした周波数方向の要素をf(fは、1乃至8)、時間方向の要素をu(uは、1乃至3)とした場合、抽出される要素Gfuは、値が0.8である要素G21,G22、値が0.6である要素G71、および、値が0.5である要素G63となり、その結果、図12の左中段に示される楽曲度G1が得られる。
ステップS72において、線形変換部92は、抽出部91によって抽出された要素の値に対して、所定の線形変換処理を施し、割り当て部93に供給する。
具体的には、線形変換処理前の要素の値をx、線形変換処理後の要素の値をyとしたとき、例えば、y=x-0.3を満たすように、楽曲度G1における、抽出部91によって抽出された要素の値に対して線形変換処理が施されることで、図12の左下段に示される楽曲度G2が得られる。
なお、以上においては、要素の値に対して線形変換処理を行うようにしたが、シグモイド関数等による非線形変換処理を行うようにしてもよいし、2値化処理を行うことによって所定の2値に変換するようにしてもよい。
ステップS73において、割り当て部93は、線形変換部92によって線形変換された値を、抽出部91によって抽出された要素に対応する時間周波数領域と同一時間区間の周辺領域に割り当てる。
具体的には、図12の左下段に示される楽曲度G2において、値が0.5に変換された要素G21に対応する領域と同一時間区間の隣接領域の要素、すなわち、要素G11および要素G31に値0.5が割り当てられる。同様に、値が0.5に変換された要素G22に対応する領域と同一時間区間の隣接領域の要素、すなわち、要素G12および要素G32に値0.5が割り当てられる。また、値が0.3に変換された要素G71に対応する領域と同一時間区間の隣接領域の要素、すなわち、要素G61および要素G81に値0.3が割り当てられる。さらに、値が0.2に変換された要素G63に対応する領域と同一時間区間の隣接領域の要素、すなわち、要素G53および要素G73に値0.2が割り当てられる。
このようにして、図12の右上段に示される楽曲度G3が得られる。楽曲度G3において、斜線が施されている領域における要素の値が、割り当て部93によって割り当てられた値となる。
なお、図12の楽曲度G3においては、線形変換部92によって線形変換された値を、抽出部91によって抽出された要素に対応する時間周波数領域と同一時間区間の隣接領域の要素に割り当てるようにしたが、その隣接領域にさらに隣接する領域や、そのまたさらに隣接する領域等に割り当てるようにしてもよい。
ステップS74において、マスク処理部94は、時間周波数領域の楽曲度において、抽出部91によって抽出されず、かつ、線形変換された値が割り当て部93によって割り当てられていない領域(要素)、すなわち、図12の右上段に示される楽曲度G3において空白で示される領域をマスクすることで、図12の右中段に示される楽曲度G4を得る。
ステップS75において、リサンプリング処理部95は、特定の領域がマスクされた楽曲度を、特徴量抽出部53によって抽出される入力信号の特徴量の時間粒度に対応するように、時間方向にリサンプリング処理を行う。
具体的には、リサンプリング処理部95は、図12の右中段に示される楽曲度G4について、時間方向にリサンプリング処理を行うことにより、その時間粒度を、1秒から、入力信号の特徴量の時間粒度である0.25秒に変化させる。リサンプリング処理部95は、リサンプリング処理の結果得られた楽曲度を、図12の右下段に示されるマスクパターンWとして、マッチング処理部33に供給し、処理は、図6のフローチャートのステップS35に戻る。
このように、入力信号のスペクトログラムにおいて、楽曲らしさの指標である楽曲度の高い領域には楽曲度に応じた重み付けをし、楽曲度の低い領域をマスクする、重み分布としてのマスクパターンが生成される。マスクパターンは、特徴量抽出部53によって抽出された特徴量と同様に、各時間、各周波数毎に成分を有する行列として扱うことができ、その時間粒度は、特徴量抽出部53によって抽出された特徴量の時間粒度と同一の0.25秒とされる。
さて、図6のフローチャートにおいて、ステップS35の後、処理は図5のフローチャートのステップS11に戻る。
図5のフローチャートにおいて、ステップS11の後、処理はステップS12に進み、参照信号解析部32は、参照信号解析処理を実行し、外部の装置等から入力される参照信号を解析し、参照信号の特徴量を参照信号から抽出する。
[参照信号解析処理について]
ここで、図13のフローチャートを参照して、図5のフローチャートのステップS12における参照信号解析処理の詳細について説明する。
ステップS91において、参照信号解析部32の時間周波数変換部61は、入力された参照信号をスペクトログラムに変換し、特徴量抽出部62に供給する。
ステップS92において、特徴量抽出部62は、特徴量抽出部53と同様にして、時間周波数変換部61からの参照信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に特徴量を抽出し、マッチング処理部33に供給する。
このようにして抽出される参照信号の特徴量の時間粒度は、入力信号の特徴量の時間粒度(例えば、0.25秒間)と同一とされる。また、入力信号の特徴量は、入力信号から切り出された所定時間(例えば、15秒間)分の信号に対応するのに対して、参照信号の特徴量は、楽曲1曲分の信号に対応する。したがって、参照信号の特徴量は、入力信号の特徴量と同様、各時間、各周波数毎に成分を有する行列として扱うことができるが、入力信号の特徴量と比較して、より多くの時間方向の成分を有する。
またこのとき、特徴量抽出部62は、信号処理装置11内の図示せぬデータベースから、参照信号の楽曲の属性を表す楽曲属性情報(楽曲名、演奏者名、楽曲ID等)を読み出し、抽出した参照信号の特徴量に対応付けて、マッチング処理部33に供給する。
なお、参照信号解析処理においては、複数の参照信号について上述した処理が実行される。マッチング処理部33においては、マッチング処理部33内の図示せぬ記憶領域に、複数の参照信号についての特徴量および楽曲属性情報が記憶される。
また、複数の参照信号についての特徴量および楽曲属性情報は、信号処理装置11内の図示せぬデータベースに記憶されるようにしてもよい。
図13のフローチャートにおいて、ステップS92の後、処理は図5のフローチャートのステップS12に戻る。
図5のフローチャートにおいて、ステップS12の後、処理はステップS13に進み、マッチング処理部33は、マッチング処理を実行し、入力信号に含まれる楽曲を同定し、その同定結果を出力する。
[マッチング処理について]
ここで、図14のフローチャートを参照して、図5のフローチャートのステップS13におけるマッチング処理の詳細について説明する。
ステップS111において、マッチング処理部33の類似度算出部71は、入力信号解析部31からのマスクパターンに基づいて、入力信号解析部31からの入力信号の特徴量と、参照信号解析部32から供給され、マッチング処理部33内の図示せぬ記憶領域に記憶されている所定の参照信号の特徴量との類似度を算出し、比較判定部72に供給する。なお、参照信号の特徴量および楽曲属性情報が図示せぬデータベースに記憶されている場合には、所定の参照信号の特徴量および楽曲属性情報が、データベースから読み出される。
ここで、図15を参照して、入力信号の特徴量と参照信号の特徴量との類似度の算出の例について説明する。
図15においては、上段に、参照信号の特徴量L、下段左側に、入力信号の特徴量S、そして、下段右側に、マスクパターンWが示されている。上述で説明したように、これらは行列として扱うことができる。
図15に示されるように、参照信号の特徴量Lの時間方向の成分の数は、入力信号の特徴量Sの時間方向の成分の数と比較して多い(なお、入力信号Sの時間方向の成分の数と、マスクパターンWの時間方向の成分の数とは同一である)。そこで、入力信号の特徴量と参照信号の特徴量との類似度を算出する際、類似度算出部71は、参照信号の特徴量Lから、入力信号の特徴量Sと同一の時間方向の成分の数となる部分行列Aを、時間方向(図中右方向)にずらしながら(時間方向にオフセットを与えながら)順次切り出し、この部分行列Aと入力信号の特徴量Sとの類似度を算出する。ここで、部分行列Aを切り出す際の時間方向のオフセットをtとすると、類似度R(t)は、以下の式(1)で示される。
Figure 0005728888

・・・(1)
なお、式(1)において、f,uは、参照信号の特徴量の部分行列A、入力信号の特徴量S、マスクパターンWの各行列の周波数成分および時間成分を表している。すなわち、fおよびuが添字として付されているA,S,Wは、それぞれの行列A,S,Wにおける各要素を表している。また、Mは、行列W(マスクパターンW)において要素の値を有する、マスクされていない時間周波数領域(図15のマスクパターンWにおいて網かけされていない部分)の要素を表している。したがって、式(1)で示される類似度R(t)の算出においては、各行列の全要素について演算する必要はなく、マスクパターンWにおいてマスクされていない時間周波数領域の要素について演算すればよいので、演算コストを抑えることができる。さらに、マスクパターンWにおいてマスクされていない時間周波数領域の要素の値は、入力信号の時間周波数領域毎の楽曲度に応じた重みを表しているので、楽曲らしさの高い時間周波数領域の要素に対してより大きい重み付けをして類似度R(t)を算出することができる。すなわち、より精度の高い類似度を算出することができるようになる。
このようにして、類似度算出部71は、全ての部分行列A(全ての部分行列Aを切り出す時間オフセットt)に対して類似度を算出し、最大となる類似度を、入力信号の特徴量と参照信号の特徴量との類似度として、比較判定部72に供給する。
なお、類似度は、上述した式(1)による演算に限らず、二乗誤差や絶対誤差等、2つの行列の各要素間の差に基づいて算出されるようにしてもよい。
図14のフローチャートに戻り、ステップS112において、類似度算出部71は、所定数の参照信号について、より具体的には、マッチング処理部33内の図示せぬ記憶領域に記憶されている全ての参照信号について類似度算出の処理を行ったか否かを判定する。なお、参照信号の特徴量および楽曲属性情報が図示せぬデータベースに記憶されている場合には、図示せぬデータベースに記憶されている全ての参照信号について類似度算出の処理を行ったか否かが判定される。
ステップS112において、全ての参照信号について類似度算出の処理を行っていないと判定された場合、ステップS111に戻り、全ての参照信号について類似度算出の処理を行うまで、ステップS111,S112の処理は繰り返される。
そして、ステップS112において、全ての参照信号について類似度算出の処理を行ったと判定されると、処理はステップS113に進み、比較判定部72は、類似度算出部71から供給された複数の類似度の中で、所定の閾値を超える類似度があるか否かを判定する。この閾値は、固定の値としてもよいし、全ての参照信号についての類似度に基づいて統計的に設定された値としてもよい。
ステップS113において、所定の閾値を超える類似度があると判定された場合、ステップS114に進み、比較判定部72は、所定の閾値を超える類似度のうち、最大の類似度が算出された参照信号の楽曲を、入力信号に含まれる楽曲であるとし、その参照信号の楽曲属性情報(例えば、楽曲名)を、同定結果として出力する。
なお、ここで、比較判定部72は、所定の閾値を超える類似度が算出された複数の参照信号の楽曲を、入力信号に含まれる楽曲の候補であるとし、その複数の参照信号の楽曲属性情報を、それぞれについて算出された類似度とともに、同定結果として出力するようにしてもよい。これにより、例えば、同じ楽曲名の楽曲であっても、テンポが異なっていたり、演奏に使われている楽器が異なっていたりする、いわゆる異なるバージョンの楽曲を、入力信号に含まれる楽曲の候補として提示することができる。また、複数の参照信号の楽曲属性情報とともに出力される複数の類似度について確率分布を求め、その確率に基づいて、複数の類似度(すなわち参照信号)の信頼度を求めるようにしてもよい。
一方、ステップS113において、所定の閾値を超える類似度がないと判定された場合、ステップS115に進み、参照信号の中に、入力信号に該当する楽曲がない旨の情報を出力する。
ステップS114またはステップS115の後、処理は、図5のフローチャートのステップS13に戻り、楽曲同定処理は終了する。
以上の処理によれば、楽曲と雑音とが混在した入力信号を、楽曲のみからなる参照信号と比較する際、時間周波数領域の入力信号において、楽曲らしさの指標となる楽曲度の高い領域には楽曲度に応じた重み付けをし、楽曲度の低い領域をマスクするマスクパターンが生成され、そのマスクパターンを用いて、時間周波数領域の入力信号の特徴量と参照信号の特徴量との類似度が算出されるようになる。すなわち、楽曲らしさの低い時間周波数領域については類似度算出における演算の対象外とし、楽曲らしさの高い時間周波数領域に対してはその楽曲らしさに応じた重み付けをして、類似度が算出されるので、演算コストを抑えつつ、より精度の高い類似度を算出することができるようになり、ひいては、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することが可能となる。
また、時間成分だけでなく、周波数成分を考慮した特徴量を用いて、マッチング処理を行うことができるので、図1で示されたような、途切れている時間が非常に短い会話が雑音として含まれている入力信号であっても、その入力信号から、楽曲を精度良く同定することができる。これにより、ドラマ等のテレビジョン番組において、出演者等の会話が被ってしまっているBGMを精度良く同定することが可能となる。
さらに、切り出された所定時間分の入力信号の特徴量を用いて、入力信号の特徴量と参照信号の特徴量との類似度を算出するようにしたので、ドラマ等のテレビジョン番組におけるシーンチェンジによりBGMが途切れてしまった場合であっても、途切れるまでのBGMに対応する入力信号さえあれば、そのBGMをより確実に同定することが可能となる。
なお、以上においては、入力信号の特徴量の時間粒度(例えば、0.25秒)と、楽曲度の時間粒度(例えば1秒)とが異なるようにしたが、同一の時間粒度としてもよい。
また、図5のフローチャートを参照して説明した楽曲同定処理においては、入力信号解析処理とマッチング処理との間に、参照信号解析処理が実行されるようにしたが、参照信号解析処理は、マッチング処理が実行される前に実行されていればよく、入力信号解析処理が実行される前に実行されてもよいし、入力信号解析処理と並行して実行されてもよい。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、プログラム記録媒体からインストールされる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)901,ROM(Read Only Memory)902,RAM(Random Access Memory)903は、バス904により相互に接続されている。
バス904には、さらに、入出力インタフェース905が接続されている。入出力インタフェース905には、キーボード、マウス、マイクロホン等よりなる入力部906、ディスプレイ、スピーカ等よりなる出力部907、ハードディスクや不揮発性のメモリ等よりなる記憶部908、ネットワークインタフェース等よりなる通信部909、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア911を駆動するドライブ910が接続されている。
以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部908に記憶されているプログラムを、入出力インタフェース905およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU901)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア911に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア911をドライブ910に装着することにより、入出力インタフェース905を介して、記憶部908にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部909で受信し、記憶部908にインストールすることができる。その他、プログラムは、ROM902や記憶部908に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
11 信号処理装置, 51 切り出し部, 52 時間周波数変換部, 53 特徴量抽出部, 54 楽曲度算出部, 55 マスクパターン生成部, 61 時間周波数変換部, 62 特徴量抽出部, 71 類似度算出部, 72 比較判定部

Claims (8)

  1. 入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理装置において、
    前記入力信号から信号成分のパワースペクトルが極大となる点を検出する検出手段と、
    所定の時間区間における前記極大となる点の頻度に基づいて、楽曲らしさを示す楽曲度を算出する楽曲度算出手段と、
    時間周波数領域に変換された前記入力信号の各領域における前記楽曲度に応じた重み分布を生成する重み分布生成手段と、
    前記重み分布による重み付けに基づいて、時間周波数領域に変換された前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号の各領域における前記特徴量との類似度を算出する類似度算出手段と
    を備える信号処理装置。
  2. 前記重み分布生成手段は、前記楽曲度が所定の閾値を超える領域に対して前記楽曲度に応じた重み付けをし、前記楽曲度が所定の閾値を超えない領域をマスクする前記重み分布を生成する
    請求項1に記載の信号処理装置。
  3. 前記頻度は、前記極大となる点の周波数毎の頻度である
    請求項1または2に記載の信号処理装置。
  4. 前記類似度算出手段は、前記入力信号の特徴量と、複数の前記参照信号の特徴量との前記類似度を算出し、
    複数の前記類似度の中で、所定の閾値を超える前記類似度のうち、最大の類似度が算出された前記参照信号の楽曲を、前記入力信号の楽曲であると判定する判定手段をさらに備える
    請求項1に記載の信号処理装置。
  5. 前記類似度算出手段は、前記入力信号の特徴量と、複数の前記参照信号の特徴量との前記類似度を算出し、
    複数の前記類似度の中で、所定の閾値を超える前記類似度が算出された複数の前記参照信号の楽曲を、前記入力信号の楽曲であると判定する判定手段をさらに備える
    請求項1に記載の信号処理装置。
  6. 前記類似度算出手段は、前記重み分布による重み付けに基づいて、時間周波数領域に変換された所定時間分の前記入力信号の各領域における前記特徴量と、時間周波数領域に変換された前記参照信号の前記所定時間に対応する領域における前記特徴量との類似度を算出する
    請求項1に記載の信号処理装置。
  7. 入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理方法において、
    前記入力信号から信号成分のパワースペクトルが極大となる点を検出する検出ステップと、
    所定の時間区間における前記極大となる点の頻度に基づいて、楽曲らしさを示す楽曲度を算出する楽曲度算出ステップと、
    時間周波数領域に変換された前記入力信号の各領域における前記楽曲度に応じた重み分布を生成する重み分布生成ステップと、
    前記重み分布による重み付けに基づいて、時間周波数領域に変換された前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号の各領域における前記特徴量との類似度を算出する類似度算出ステップと
    を含む信号処理方法。
  8. 入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理をコンピュータに実行させるプログラムにおいて、
    前記入力信号から信号成分のパワースペクトルが極大となる点を検出する検出ステップと、
    所定の時間区間における前記極大となる点の頻度に基づいて、楽曲らしさを示す楽曲度を算出する楽曲度算出ステップと、
    時間周波数領域に変換された前記入力信号の各領域における前記楽曲度に応じた重み分布を生成する重み分布生成ステップと、
    前記重み分布による重み付けに基づいて、時間周波数領域に変換された前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号の各領域における前記特徴量との類似度を算出する類似度算出ステップと
    を含む処理をコンピュータに実行させるプログラム。
JP2010243912A 2010-10-29 2010-10-29 信号処理装置および方法、並びにプログラム Expired - Fee Related JP5728888B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010243912A JP5728888B2 (ja) 2010-10-29 2010-10-29 信号処理装置および方法、並びにプログラム
US13/277,971 US8680386B2 (en) 2010-10-29 2011-10-20 Signal processing device, signal processing method, and program
CN201110329985.9A CN102568474B (zh) 2010-10-29 2011-10-21 信号处理装置和信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010243912A JP5728888B2 (ja) 2010-10-29 2010-10-29 信号処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2012098360A JP2012098360A (ja) 2012-05-24
JP5728888B2 true JP5728888B2 (ja) 2015-06-03

Family

ID=45995232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010243912A Expired - Fee Related JP5728888B2 (ja) 2010-10-29 2010-10-29 信号処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US8680386B2 (ja)
JP (1) JP5728888B2 (ja)
CN (1) CN102568474B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP6019858B2 (ja) * 2011-07-27 2016-11-02 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
JP2013117688A (ja) * 2011-12-05 2013-06-13 Sony Corp 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
JP5935503B2 (ja) * 2012-05-18 2016-06-15 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
JP6233625B2 (ja) * 2012-11-16 2017-11-22 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10147443B2 (en) * 2015-04-13 2018-12-04 Nippon Telegraph And Telephone Corporation Matching device, judgment device, and method, program, and recording medium therefor
CN106558318B (zh) * 2015-09-24 2020-04-28 阿里巴巴集团控股有限公司 音频识别方法和系统
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
US10878832B2 (en) * 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
CN106057211B (zh) * 2016-05-27 2018-08-21 广州多益网络股份有限公司 一种信号匹配方法及装置
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) * 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
JP7025145B2 (ja) * 2017-07-13 2022-02-24 株式会社メガチップス 電子メロディ特定装置、プログラム、及び電子メロディ特定方法
JP7025144B2 (ja) * 2017-07-13 2022-02-24 株式会社メガチップス 電子メロディ特定装置、プログラム、及び電子メロディ特定方法
FR3085785B1 (fr) * 2018-09-07 2021-05-14 Gracenote Inc Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation
US11798577B2 (en) 2021-03-04 2023-10-24 Gracenote, Inc. Methods and apparatus to fingerprint an audio signal

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
US5874686A (en) * 1995-10-31 1999-02-23 Ghias; Asif U. Apparatus and method for searching a melody
US6504089B1 (en) * 1997-12-24 2003-01-07 Canon Kabushiki Kaisha System for and method of searching music data, and recording medium for use therewith
DE19948974A1 (de) * 1999-10-11 2001-04-12 Nokia Mobile Phones Ltd Verfahren zum Erkennen und Auswählen einer Tonfolge, insbesondere eines Musikstücks
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
FI20002161A (fi) * 2000-09-29 2002-03-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä melodian tunnistamiseksi
DE10117870B4 (de) * 2001-04-10 2005-06-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank
US6995309B2 (en) * 2001-12-06 2006-02-07 Hewlett-Packard Development Company, L.P. System and method for music identification
US6967275B2 (en) * 2002-06-25 2005-11-22 Irobot Corporation Song-matching system and method
AU2003267931A1 (en) * 2002-10-11 2004-05-04 Matsushita Electric Industrial Co. Ltd. Method and apparatus for determining musical notes from sounds
AU2002343175A1 (en) * 2002-11-28 2004-06-18 Nokia Corporation Method and device for determining and outputting the similarity between two data strings
JP4125989B2 (ja) 2003-04-30 2008-07-30 日本電信電話株式会社 類似音声音楽検索装置,類似音声音楽検索処理方法,類似音声音楽検索プログラムおよびそのプログラムの記録媒体
DE102004049477A1 (de) * 2004-10-11 2006-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur harmonischen Aufbereitung einer Melodielinie
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
US20100132122A1 (en) * 2008-12-02 2010-06-03 Dan Hollingshead Bed-Mounted Computer Terminal
JP4788810B2 (ja) * 2009-08-17 2011-10-05 ソニー株式会社 楽曲同定装置及び方法、楽曲同定配信装置及び方法
US8049093B2 (en) * 2009-12-30 2011-11-01 Motorola Solutions, Inc. Method and apparatus for best matching an audible query to a set of audible targets
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US8158870B2 (en) * 2010-06-29 2012-04-17 Google Inc. Intervalgram representation of audio for melody recognition
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2012074070A1 (ja) * 2010-12-01 2012-06-07 ヤマハ株式会社 リズムパターンの類似度に基づく楽音データの検索
JP6019858B2 (ja) * 2011-07-27 2016-11-02 ヤマハ株式会社 楽曲解析装置および楽曲解析方法

Also Published As

Publication number Publication date
CN102568474B (zh) 2016-02-10
US20120103166A1 (en) 2012-05-03
JP2012098360A (ja) 2012-05-24
US8680386B2 (en) 2014-03-25
CN102568474A (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
JP5728888B2 (ja) 信号処理装置および方法、並びにプログラム
JP5732994B2 (ja) 楽曲検索装置および方法、プログラム、並びに記録媒体
JP5593608B2 (ja) 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
US9313593B2 (en) Ranking representative segments in media data
JP4465626B2 (ja) 情報処理装置および方法、並びにプログラム
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP4650662B2 (ja) 信号処理装置および信号処理方法、プログラム、並びに記録媒体
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
US7649137B2 (en) Signal processing apparatus and method, program, and recording medium
US7653534B2 (en) Apparatus and method for determining a type of chord underlying a test signal
US20080245215A1 (en) Signal Processing Apparatus and Method, Program, and Recording Medium
US8494668B2 (en) Sound signal processing apparatus and method
JP2010134231A (ja) 情報処理装置、音素材の切り出し方法、及びプログラム
WO2004027646A1 (ja) 曲分類装置、曲分類方法、及びプログラム
CN102479509A (zh) 旋律辨识方法与其装置
CN109920446B (zh) 一种音频数据处理方法、装置及计算机存储介质
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
JP2012226106A (ja) 楽曲区間検出装置および方法、プログラム、記録媒体、並びに楽曲信号検出装置
US9398387B2 (en) Sound processing device, sound processing method, and program
JP2004102023A (ja) 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体
JP2008209550A (ja) 和音判別装置、和音判別方法およびプログラム
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
JP2006195384A (ja) 楽曲調性算出装置および選曲装置
JP2011027972A (ja) 信号処理装置、信号処理方法、及び信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150323

R151 Written notification of patent or utility model registration

Ref document number: 5728888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees