JP4597919B2 - 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 - Google Patents

音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4597919B2
JP4597919B2 JP2006183131A JP2006183131A JP4597919B2 JP 4597919 B2 JP4597919 B2 JP 4597919B2 JP 2006183131 A JP2006183131 A JP 2006183131A JP 2006183131 A JP2006183131 A JP 2006183131A JP 4597919 B2 JP4597919 B2 JP 4597919B2
Authority
JP
Japan
Prior art keywords
acoustic signal
frequency
feature
signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006183131A
Other languages
English (en)
Other versions
JP2008015002A5 (ja
JP2008015002A (ja
Inventor
秀尚 永野
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006183131A priority Critical patent/JP4597919B2/ja
Publication of JP2008015002A publication Critical patent/JP2008015002A/ja
Publication of JP2008015002A5 publication Critical patent/JP2008015002A5/ja
Application granted granted Critical
Publication of JP4597919B2 publication Critical patent/JP4597919B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音響信号である参照信号を検索キーとし、この参照信号よりも長い音響信号である蓄積信号の中から参照信号に類似した信号の位置を検索する音響信号検索に関するものであり、特に各音響信号の周波数変動(移調またはピッチシフト)に対応が可能な音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体に関する。
近年、特徴抽出法と特徴照合法を要素とした音響信号検索技術が、放送のモニタリングやプレイリストの配信、或いは音楽認識サービスなどにおいて実用化されてきている。これは、音楽(またはその一部)を入力すれば自動的にその特徴を抽出し、データベースに格納された楽曲の特徴と照合することにより所望の情報を瞬時に検出できるというものである。
例えば、音響信号の高速な一致探索手法として、「時系列アクティブ探索(TAS)法」(特許文献1参照)が知られている。これは時系列信号から特徴データとしてヒストグラムを生成し、生成したヒストグラムの重なり率から類似度を算出するものであり、また、特徴照合の際、時間軸方向で照合が不要な区間を算出して探索をスキップできることから、無駄な照合を省略し、実用上十分な探索精度を保ったまま探索速度を大幅に向上させることが可能になるというものである。
また、テレビドラマのBGMやラジオのDJつき音楽番組のように、ナレーションなどがかぶさった音響信号から背景音楽を探索する技術として特許文献2に示される「分割一致探索(DAL)法」がある。DAL法の原理は、検索キーとなる音の信号を時間・周波数方向において小領域に分割し、各小領域について一致する小領域を検索対象の信号の中から探索するというものであり、この分割によりナレーションの重畳がない領域を見つけ出し、流れている音楽が検索キーと同じである区間を検出することができる。
しかしながら、これらの手法では、例えば、もとは同じ音響信号であっても、音程を変えて再生された音響信号については類似性を検出することができなかった。音程が異なるが同じ音楽を探索する手法としてハミング検索の手法がある。特にGhiasらは単旋律の音高系列を“S(同じ)”、“U(上がる)”、“D(下がる)”の相対音高の文字列で表すmelodic contour を用いた単旋律の照合手法、及びハミングを検索キーとし、類似する単旋律を検索する類似音楽の検索法を提案している(非特許文献1参照)。
melodic contourは旋律の表現としては楽譜などに比べ単純であるが、単旋律の識別、照合には有効であり、その他の研究においても単旋律の探索における特徴として用いられている。そして、これまでの類似音楽検索の多くは、ハミングなどで入力された単旋律の音高系列を検索キーとし、同じく単旋律の音高系列からなるデータベースから検索に類似するものを、単旋律同士の照合により探索するものであった。ここで、多くの手法において、データベースの音高系列は、MIDIや楽譜情報、もしくは検索キーと同じくハミングによる主旋律の入力から得られる、既に主旋律などが抽出された単旋律の音高系列であった。そのため、通常、多重奏である通常の音楽CDや放送中の音を用いた音響信号の探索に、これらのハミング検索の手法を用いるには、多重音からの主旋律抽出、もしくは多重奏と多重奏の間での主旋律の照合が必要になるなど困難な問題が多い。
特許第3065314号明細書 特開2004−102023号公報 A. Ghias, J. Logan, D. Chamberlin and B. C. Smith "Query by humming:Musical information retrieval in an audio database," Proc. ACM Multimedia '95, pp.231-236, San Francisco, USA, Nov. 1995.
上述したように、これまでの音響信号の一致探索では、同じ音響信号であっても音程を変えて再生された音響信号の探索は困難であるという問題があった。
また、入力された音響信号に対して周波数変動を付加するという方法では、照合に必要となる情報量が大幅に増大してしまうという問題があった。
本発明は、上記問題を解決すべくなされたもので、検索キーとして参照信号を入力した場合に、一致する信号が含まれる蓄積信号中の区間を、各音響信号の周波数変動に柔軟に対応しながら精度よく、かつ高速に検索することが可能な音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体を提供することにある。
上記問題を解決するために、本発明は、入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置における音響信号特徴抽出方法であって、前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とし、対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出することを特徴とする音響信号特徴抽出方法である。
本発明は、上記に記載の発明において、前記所定の基準特徴部とは、パワースペクトル値が各時間間隔において最大値となる部分であることを特徴とする。
本発明は、上記に記載の発明において、前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムの中で、パワースペクトル値が最大値となる部分であることを特徴とする。
本発明は、上記に記載の発明において、前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムのパワースペクトル値の重心となる部分であることを特徴とする。
本発明は、参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置における音響信号検索方法であって、前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とし、対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの音響信号の特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力することを特徴とする音響信号検索方法である。
本発明は、入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置であって、前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とする基準周波数検出手段と、対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する特徴量抽出手段と、を備えたことを特徴とする音響信号特徴抽出装置である。
本発明は、参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置であって、前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とする基準周波数検出手段と、対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出する特徴抽出手段と、前記特徴抽出手段が抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する類似度計算手段と、を備えたことを特徴とする音響信号検索装置である。
本発明は、入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置のコンピュータに、前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出するステップと、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とするステップと、対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出するステップと、を実行させるための音響信号特徴抽出プログラムである。
本発明は、参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置のコンピュータに、参照音響信号及び検索対象音響信号の時間周波数スペクトログラムを入力するステップと、前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出するステップと、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とするステップと、対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出するステップと、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出するステップと、抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出するステップと、前記類似度計算手段が、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出するステップと、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力するステップと、を実行させるための音響信号検索プログラムである。
本発明は、上記に記載の音響信号特徴抽出プログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明は、上記に記載の音響信号検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。
この発明によれば、時間周波数スペクトログラムの時間間隔ごとに、時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を時間間隔ごとの基準周波数とし、当該基準周波数を基準として一意に定められる周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する構成とした。これにより、音響信号の各時間周波数スペクトログラムから、パワースペクトルの所定の基準特徴部を検出して各時間間隔における基準周波数として設定し、当該基準周波数に基づいてパワースペクトルの特徴を抽出することにより、周波数による変動が発生していたとしても、その変動に影響を受けない特徴抽出を行うことができる。
また、本発明によれば、所定の基準特徴部とは、パワースペクトル値が各時間間隔において最大値となる部分である構成とした。これにより、パワースペクトル値が最大値となる周波数値を基準周波数とした特徴抽出を行うことが可能となる。
また、本発明によれば、所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムの中で、パワースペクトル値が最大値となる部分である構成とした。これにより、連続する時間の中で特徴抽出に最も適切な基準周波数を設定することが可能となる。
また、本発明によれば、所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムのパワースペクトル値の重心となる部分である構成とした。これにより、音響信号にノイズ等が含まれていたとしても特徴抽出に最も適切な基準周波数を設定することが可能となる。
また、本発明によれば、参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、抽出した所定の基準特徴部の周波数を時間間隔ごとの参照音響信号及び検索対象音響信号それぞれの基準周波数とし、参照音響信号の基準周波数を基準として一意に定められる周波数のパワースペクトル値に基づいて参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、検索対象音響信号の基準周波数を基準として一意に定められる周波数のパワースペクトル値に基づいて検索対象音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した前記検索対象音響信号の前記特徴量に基づいて区間ごとの区間特徴量を算出し、算出した区間特徴量と、参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、参照音響信号の音に類似する検索対象音響信号の区間を検索し、検索により検出した参照音響信号の音に類似する前記検索対象音響信号の区間を出力する構成とした。これにより、参照音響信号および検索対象音響信号の各時間周波数スペクトログラムから、パワースペクトルの所定の基準特徴部を検出して各時間間隔における基準周波数として設定、すなわち、周波数による変動が発生していたとしても、その周波数変動に依存しない特徴を抽出可能な基準周波数を設定することが可能となる。そして、該基準周波数に基づき各信号の周波数スペクトル特徴を抽出し、抽出した周波数スペクトル特徴に基づいて周波数の上下の変動に対応した音響信号検出が可能となる。
(本発明の原理)
最初に、図1から図4を参照して本発明の原理について説明する。本発明は、音響特徴の抽出の際、音響特徴を抽出する各時点で、音響信号の周波数の変動に応じて、音響特徴を抽出する周波数をずらす構成を有することを特徴としている。例えば、音響信号のパワースペクトログラムが、周波数軸を対数で表した場合に、図1のように表されるとする。このとき、音響特徴は、図2のように、f1,f2,…,fc,…,fkの各周波数のパワーにとして抽出される。このとき、この音響信号の周波数をa倍にして再生すると、図3のように、そのパワースペクトログラムは、パワースペクトログラム値の変化の特徴を維持したまま、周波数軸方向にa倍だけずれたものになる。すなわち、このa倍を移調やピッチシフトとすれば、aの値さえ分かれば、移調やピッチシフトによる周波数変動の影響を吸収することが可能となる。
そこで、本発明では、音響特徴を抽出する基準となる周波数をfcを、例えば、その時点のスペクトルのピークにあわせ、当該fcを基準として音響特徴を示す周波数としてf1,f2,…,fc,…fkを抽出し、抽出した周波数ごとのパワースペクトル値の平均値を算出し、算出した平均値で周波数ごとのパワースペクトル値を正規化する。そして、図4に示すように、a倍に相当する移調やピッチシフトが行われた音響信号についても、同じように基準周波数をその時点のスペクトルのピークにあわせることで、afcが基準周波数として得られ、当該afcを基準として音響特徴を示す周波数としてaf1,af2,…,afc,…afkを抽出し、上記と同じように抽出した周波数ごとのパワースペクトル値を正規化する。このようにして得られた2つの音響特徴は、周波数値の違いはあるものの、fcとafcを基準として観測した場合、対応する周波数における正規化されたパワースペクトル値は同じ値となり、周波数変動による影響が吸収された音響特徴の抽出を行うことが可能となる。以下、当該原理を実現する本発明の実施形態を図面を参照して説明する。
(本発明の第1実施形態)
次に、本発明の第1実施形態に係る音響信号検索装置1について説明する。音響信号検索装置1は、検索したい音響信号、すなわち参照信号を入力し、これより長い音響信号である蓄積信号中から参照信号と類似する信号を含む区間を検出するものである。また、音響信号検索装置1は、上述した原理を適用して音響信号の周波数変動があっても、当該変動に対して頑健、つまり、その変動を吸収して検索を可能にするものである。なお、本明細書において蓄積信号中で参照信号に類似する信号を含む区間を検出するとは、この区間が始まる区間の先頭の時点を検出することと定義する。
図5は、第1実施形態に係る音響信号検索装置1の構成を示すブロック図である。音響信号検索装置1は、基準周波数検出部11と、特徴抽出部12と、類似度計算部13とを備えている。音響信号検索装置1では、参照信号並びに蓄積信号が入力されると、まず最初に図示しない変換部により変換されて、それぞれの信号の時間周波数スペクトログラム(以下、スペクトログラムと記載)が出力される。
基準周波数検出部11は、上記の変換部から参照信号と蓄積信号のそれぞれの信号のスペクトログラムが入力され、入力される参照信号及び蓄積信号のスペクトログラムからパワースペクトルの特徴的な部分を検出し、各時点における基準周波数fcを設定する。特徴抽出部12は、基準周波数検出部によって検出された各時点における基準周波数fcを基準に、参照信号ならびに蓄積信号の特徴を算出する。類似度計算部13は、上記参照信号と同じ長さの注目窓を蓄積信号に設定し、参照信号の特徴と注目窓内における蓄積信号の特徴との類似度を算出し、類似度を所定の閾値と比較することで類似性を判定する。
次に、上述した音響信号検索装置1の動作説明を行う。図6は、図5の音響信号検索装置1の動作例を示すフローチャートである。音響信号検索装置1は、検索キーである参照信号を読み込むことで入力を行い(ステップS201)、前述した変換部により、スペクトログラムが出力される(ステップS202)。ここで、変換部によるスペクトログラムへの変換は、例えば、高速フーリエ変換を行うことにより、あるいは帯域通過フィルタを複数用いることにより行われる。
変換部により出力された参照信号のスペクトログラムは、基準周波数検出部11に入力され、基準周波数検出部11は、図7(a)に示すようにスペクトログラムを構成する周波数スペクトルの各時点においてパワースペクトルが最も高くなる周波数を特徴的な部分として検出し、検出した周波数をこの時点における基準周波数fcとして出力する(ステップS203)。
なお、基準周波数検出部11は、図7(a)、(b)に示すようにサンプリングされた全ての周波数スペクトルについて基準周波数を各々決定する代わりに、図7(c)に示すように時間軸に連続する複数の周波数スペクトルのうち強度が最大となる周波数を、これらの周波数スペクトルの基準周波数として設定するようにしてもよい。他にも、時間軸方向において連続する複数の周波数スペクトルの強度の重心を求め、これに対応する周波数を、この時間内における周波数スペクトルの基準周波数として設定するようにしてもよい。
また、基準周波数検出部11における基準周波数の決定方法は上述の方法に限られず、例えば、各サンプリング時点においてパワースペクトルのピークを複数検出し、強度がX番目の周波数を選択したり、あるいは、強度がY番目になる周波数から数Hzずらした点を選択したりすることによって基準周波数を決定することができる。また、これら複数検出されるパワースペクトルの、ピーク間に現れる谷となる点を基準周波数としてもよい。
特徴抽出部12は、参照信号について、基準周波数検出部11によって検出された基準周波数fcを基準に、周波数軸上所定の間隔でパワースペクトル値を複数選択する。例えば、対数軸上で等間隔にパワースペクトル値を複数選択するようにしてもよい。そして、特徴抽出部12は、選択したパワースペクトル値を要素とする特徴ベクトルをこの時点における周波数スペクトル特徴(参照信号の特徴量)として抽出する。次に、特徴抽出部12は、各時点における周波数スペクトル特徴となる特徴ベクトルをベクトル量子化により符号化する(ステップS204)。そして、特徴抽出部12は、更にこれらの符号の所定時間内における出現回数を符号毎に計数したヒストグラム(以下、当該ヒストグラムをヒストグラム特徴と記載)を生成して、生成したヒストグラム特徴を音響信号の固有の情報、すなわち音響指紋として類似度計算部13に送出する(ステップS205)。なお、ヒストグラムを生成する際の前記の所定時間は、参照信号の時間長に等しいものとする。
一方、音響信号検索装置1は、検索対象となる蓄積信号の音響波形信号を読み込んで入力し(ステップS206)、上記参照信号と同様の手法で時間周波数スペクトログラムを抽出する(ステップS207)。そして、基準周波数検出部11と特徴抽出部12は、参照信号と同様に基準周波数fcを検出し(ステップS208)、各時点における周波数スペクトル特徴となる特徴ベクトルを求め、ベクトル量子化により符号化する(ステップS209)。特徴抽出部12は、蓄積信号の場合には、ヒストグラム特徴を出力するのではなく、特徴ベクトルを符号化した符号系列を類似度計算部13に出力する。
なお、一般的には、蓄積信号の符号系列は、蓄積信号データベースに記憶され、検索処理が開始されると、逐次蓄積信号データベースにアクセスして蓄積信号の符号系列を読み出す構成をとることになるが、この構成には限られない。例えば、参照信号と蓄積信号を同時に入力し、参照信号のヒストグラム特徴を類似度計算部13に記憶しておき、リアルタイムに入力される蓄積信号の符号系列に対して照合を行うようにすることもできる。
類似度計算部13は、参照信号のヒストグラム特徴が特徴抽出部12から入力されると、入力される蓄積信号の符号系列について、その先頭より参照信号と同じ時間長の注目窓を設定する(ステップS210)。そして、注目窓内における符号の出現回数を符号毎に計数することによりヒストグラムを生成し(ステップS211)、生成したヒストグラムと参照信号のヒストグラム特徴との類似度を算出する(ステップS212)。算出する手法としては、例えば、時系列アクティブ探索(TAS)法(特許文献1)を適用することが可能である。
ここで、図8を参照しつつTAS法について説明する。TAS法は、参照信号ヒストグラム特徴とのヒストグラム重なり率による類似度SIRが、探索閾値θを超えるヒストグラム特徴を有する蓄積信号上の区間を全て探索するものである。具体的には、類似度計算部13は、前述したように、始めに、蓄積信号の特徴である符号系列に先頭より参照信号と同じ時間長の注目窓を設定する。次に、参照信号のヒストグラム特徴Hと蓄積信号符号系列の注目窓におけるヒストグラム特徴Hとの類似度SIRを算出する。類似度SIRの算出は、次式(1)によって行うことができる。
Figure 0004597919
ただし、式(1)において、Lは、ヒストグラムのビン数であり、Dはヒストグラムの総度数であり、hlγ、hRγは、それぞれH、Hのγ番目のビンに含まれる度数を表している。なお、本実施形態では、図8の入力にあたるスペクトログラムとして、参照信号の周波数スペクトル特徴を時系列に並べたものと、蓄積信号の周波数スペクトル特徴を時系列に並べたものを適用し、それぞれの周波数スペクトル特徴に対してベクトル量子化を行うことになる。
類似度計算部13は、算出された類似度の値が閾値θを越えた場合に、蓄積信号中の該区間に類似性があると判断して検出結果を出力する。類似度計算部13は、設定された注目窓における類似度計算が終了すると、蓄積信号の符号系列に対し新たな注目窓を設定する。そのとき、すでに算出した類似度SIRに基づき、類似する可能性のないことが保証される蓄積信号上の区間との照合を省略し、次の注目窓をどこに設定できるかを表す値であるスキップ可能幅(移動可能量)kを算出する(ステップS213)。スキップ可能幅kは、次式(2)に基づいて算出することができる。
Figure 0004597919
すなわち、注目窓の設定は、ヒストグラム重なり率による類似度から、注目窓の現在位置近傍における類似度の上限値を求め、当該上限値に基づいて蓄積信号における次の注目窓の位置を求めて設定することになる。
類似度計算部13は、設定した注目窓の位置が蓄積信号符号系列の終端に達したか否かを判定し(ステップS214)、蓄積信号符号系列の終端に達するまでステップS210からステップS213の処理を繰り返し、蓄積信号上で適宜注目窓を移動させながら類似度計算を行うことになる。そして、注目窓が蓄積信号の終端に達し、該蓄積信号について照合処理が終わると、音響信号検索装置1は検出結果を出力して全ての検索処理を終了する(ステップS215)。
なお、注目窓の設定を行う順序は、ステップS210に示した蓄積信号の特徴量である符号系列を対象として行う構成に限定されることはなく、例えば、図9に示すフローチャートのように蓄積信号の信号波形に対して行ってもよい(図9:ステップS311)。図9の場合には、注目窓内の情報についてスペクトログラム抽出、基準周波数検出、特徴量抽出、ヒストグラム生成を行い(図9:ステップS312からステップS315)、参照信号のヒストグラム特徴との類似度計算を行う(ステップS212)こととなる。
また、図10に示すフローチャートのように、まず、図6のフローチャートと同様に、蓄積信号から特徴抽出を行い(ステップS206からS209)、さらに各時点におけるヒストグラム特徴を予め算出しておくことにより(図10:ステップS321)、注目窓を蓄積信号のヒストグラム系列に対して設定(図10:ステップS322)するようにすることもできる。
また、上述した第1実施形態における音響信号検索装置1の別の形態として、図11に示す音響信号検索装置1aがある。音響信号検索装置1aは、図5に示した音響信号検索装置1の構成に加えて、特徴抽出部12より抽出されたヒストグラム特徴を符号化する符号化部14を備えた構成となっている。音響信号検索装置1aでは、ヒストグラム特徴をベクトル量子化などにより符号化し、各音響信号の音響指紋を符号系列として表現することで、類似度計算部13aにおいて、参照信号と蓄積信号中の区間との類似度を、当該符号系列間の類似性から算出することができ、照合に必要となる計算量を大幅に削減するものである。
なお、蓄積信号検索装置1aの符号化部14から出力される各音響信号の音響指紋である符号系列について、ヒストグラム特徴を符号化する代わりに、特徴抽出部12において算出される周波数スペクトル特徴(あるいは複数のスペクトル特徴を連続した一連の特徴ベクトルとしたもの)を、直接ベクトル量子化して算出するようにしてもよい。
また、さらに、上述した第1実施形態における音響信号検索装置1の別の形態として図12に示す音響信号検索装置1bがある。音響信号検索装置1bでは、図11に示した音響信号検索装置1aの構成に加えて、索引生成部15を備えた構成となっている。索引生成部15は、符号化部14により出力された蓄積信号の各符号について、予め蓄積信号上の所在を示す索引情報を生成する。このような構成とすることで、参照信号の符号に類似する蓄積信号上の符号の位置は、索引情報により容易に検出でき、これにより類似度計算部13bは、類似性のある符号を蓄積信号上で探索する処理を省略し、蓄積信号上の区間における類似度をより高速に算出できるようになる。なお、図12において、実線は、参照信号のスペクトログラムを対象とした処理の流れを示したものであり、破線は、蓄積信号のスペクトログラムを対象とした処理の流れを示したものである。
図13は、図12に示した音響信号検索装置1bの動作例を示したフローチャートである。なお、当該フローチャートにおいて、図6で説明した動作と同じ動作については、同じステップ番号を付し、以下、異なる動作について説明する。
まず、音響信号検索装置1bにおいて符号化部14は、特徴抽出部12により算出された各音響信号のヒストグラム特徴を符号化する(ステップS601、ステップS602)。索引生成部15は蓄積信号の各符号について索引情報を生成する(ステップS801)。類似度計算部13bは、参照信号の符号に類似する蓄積信号の符号を索引検索により検出し(ステップS803:Yes)、検出した蓄積信号の符号から、類似する可能性のある蓄積信号中の照合区間を出力する(ステップS804)。次に、類似度計算部13bは、出力した照合区間がなくなるまで、照合区間の選択を繰り返し、照合区間ごとに参照信号との類似度、すなわち区間類似度を算出する(ステップS805からS807)。そして、類似度計算部13bは、区間類似度を所定の閾値である探索閾値と比較し、区間類似度が探索閾値を超えているものを、類似しているものとし、区間類似度が探索閾値を超えていないものを類似していないものとして検出結果を出力する(ステップS808、ステップS809)。なお、ステップS803において、類似度計算部13bは、参照信号の符号に類似する蓄積信号の符号を索引検索により検出できない場合(ステップS803:No)、その結果を検出結果として出力する(ステップS809)。
(第1実施形態の実装例)
次に、上述した第1実施形態の実装例について説明する。
まず、音響信号としては、音楽CDなどで用いられる音響信号(サンプリング周波数44.1kHz、16bit量子化、ステレオ)をダウンサンプリング、モノラル化、量子化ビット数を変更した音響信号(サンプリング周波数11.025kHz、8ビット量子化、モノラル)を用いる。そして、この音響信号に対し、まず、1024点のFFT(Fast Fourier Transform)を10msごとに行い、10msごとにその時点のパワースペクトルを抽出する。そして、この10msごとにスペクトルを時間方向に並べたものとして、スペクトログラムを得る。また、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数においてパワーを抽出し、抽出した各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとする。ここで、xは71/6である。
そして、fcは先に抽出したスペクトルのうち1300Hzから上下10%の周波数のうちでパワーが最大となる周波数とする。このfcに基づき、各時点で、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数におけるパワーを、FFTの結果から得られる各周波数のうち、これらの周波数に最も近い周波数のパワーを((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)でのパワーとし、各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとして抽出する。
また、特徴ベクトルの各成分の対応する周波数について、その周波数を中心周波数とするバンドパスフィルタを用いて、再度パワースペクトルを抽出してもよい。
このようにして、特徴ベクトルを抽出することで、上下10%までピッチが変動した音響信号でも探索を行うことができる。
なお、これらの特徴ベクトルの次元(上記実装例では7)やxの値(上記実装例では71/6)、fcの設定範囲(上記実装例では10%)は、探索の目的とする信号やピッチ変動の幅(上記実装例では上下10%)に応じて、変更可能なものであり、上記した具体的な数値に限られないものとする。
また、特徴ベクトルの各成分が対応する周波数について、上記実装例では、第1成分から等比数列としたが、各成分間の比が決まっていれば、それらが等比である必要はない。例えば、第2成分の対応する周波数は第1成分が対応する周波数の1.2倍の周波数、第3成分の対応する周波数は第1成分の対応する周波数の2倍の周波数などとしてもよい。
(第2実施形態)
次に、本発明の第2実施形態に係る音響信号検索装置2について説明する。音響信号検索装置2は、検索したい音響信号、すなわち参照信号を入力し、これより長い信号である蓄積信号中から参照信号と類似する信号を含む区間を検出するものである。また、音響信号検索装置2は、音響信号に大きな妨害音(加法性雑音)が重畳し、周波数変動が発生した場合であっても、当該変動に対して頑健に、つまり、その変動を吸収して検索を可能にするものである。
図14は、第2実施形態に係る音響信号検索装置2の構成を示すブロック図である。
図9における音響信号検索装置2は、スペクトログラム分割部20と、基準周波数検出部21と、特徴抽出部22と、符号化部24と、索引生成部25と、類似度計算部23とを備えている。なお、図14において、実線は、参照信号のスペクトログラムを対象とした処理の流れを示したものであり、破線は、蓄積信号のスペクトログラムを対象とした処理の流れを示したものである。
スペクトログラム分割部20は、入力される参照信号ならびに蓄積信号のスペクトログラムを、小領域スペクトログラムと呼ぶ小領域のスペクトログラムに分割し、それぞれ小領域参照信号スペクトログラムおよび小領域蓄積信号スペクトログラムとして出力する。基準周波数検出部21は、参照信号ならびに蓄積信号の各小領域信号スペクトログラムからパワースペクトルの特徴的な部分を検出し、各時点における基準周波数fcを設定する。特徴抽出部22は、基準周波数検出部21によって検出された各時点における基準周波数fcを基準に、参照信号ならびに蓄積信号の小領域スペクトログラム特徴を算出する。
符号化部24は、参照信号ならびに蓄積信号の各小領域スペクトログラム特徴を符号化し、それぞれ参照信号小領域符号および蓄積信号小領域符号として出力する。索引生成部は、蓄積信号小領域符号について、蓄積信号中の所在を示す索引情報を生成する。類似度計算部23は、参照信号小領域符号に類似する符号を、後述する予め生成した小領域符号間類似度表を参照することにより検出し、検出した類似する符号について索引検索を行う。また、類似度計算部23は、蓄積信号中に、類似する符号、すなわち小領域参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムが存在することを検出すると、該小領域蓄積信号スペクトログラムを含む蓄積信号中の区間と参照信号との類似度すなわち区間類似度を算出する。
次に、上述した音響信号検索装置2の動作について説明する。図15は、音響信号検索装置2の動作例を示したフローチャートである。音響信号検索装置2は、参照信号ならびに蓄積信号の音響信号を読み込むことにより入力すると(ステップS901、ステップS911)、第1実施形態に係る音響信号検索装置1と同じく、変換部によりこれらの波形信号からパワースペクトルを得て、得られたパワースペクトルに基づいて時間周波数スペクトログラムが抽出される(ステップS911、ステップS912)。
次に、スペクトログラム分割部20は、参照信号ならびに蓄積信号の各時間周波数スペクトログラムから一定の大きさ(狭帯域・短時間)のスペクトログラム、すなわち小領域スペクトログラム(small-region spectrogram)を周波数軸方向及び時間軸方向において所定の間隔で切り出し、それぞれ小領域参照信号スペクトログラム、小領域蓄積信号スペクトログラムとして出力する(ステップS903、ステップS913)。小領域スペクトログラムは、互いに重複するようにして出力するようにしてもよいし、重複させなくともよい。ここで、先頭の時点がtnであり、周波数帯がωmである参照信号中の小領域参照信号スペクトログラムをFtn,ωmと表す。同様に蓄積信号のスペクトログラムにおいて、先頭の時点がtであり、周波数帯がωmの上記Ftn,ωmと同じサイズの小領域蓄積信号スペクトログラムをGt,ωmと表す。
また、以下の説明において、参照信号のスペクトログラムにおいて、小領域スペクトログラムFtn,ωmを切り出した全ての時点tnの集合をTR(TR={t1,t2,…})とし、全ての周波数帯ωmの集合をW(W={ω1,ω2,…})として記載する。
基準周波数検出部21は、スペクトログラム分割部20により出力された参照信号ならびに蓄積信号の各小領域スペクトログラムについて、周波数帯ωmにおけるパワースペクトルのピークを検出する(ステップS904、ステップS914)。
なお、小領域スペクトログラムの基準周波数f ωmの設定方法は、前述した第1実施形態における基準周波数検出部11と同様に、小領域スペクトログラム中のサンプリングされた全ての周波数スペクトルについて基準周波数を各々決定する方法、または、ある一定時間においてパワースペクトル値が最大となる周波数もしくはパワースペクトル値の重心に対応する周波数を、この時間内の各時点における周波数スペクトルの基準周波数として設定する方法が可能である。また、第1実施形態と同様に、各サンプリング時点においてパワースペクトルのピークを複数検出し、強度がX番目の周波数を選択したり、あるいは強度がY番目になる周波数から数Hzずらした点を選択したりすることによって基準周波数を決定する方法や、あるいは、パワースペクトルのピークに注目する代わりに、複数検出されるパワースペクトルの、ピーク間に現れる谷となる点を基準周波数とするような方法を用いるようにしてもよい。
次に、特徴抽出部22は、参照信号ならびに蓄積信号の各小領域スペクトログラムについて、上記基準周波数検出部21により検出された基準周波数f ωmを基準に、小領域スペクトログラム中の各時点における周波数スペクトル特徴を算出する(ステップS905、S915)。第2実施形態では、音量の変動に対応するため、周波数スペクトル特徴は、抽出した各時点において、その平均値で正規化する。そして、この正規化されたパワースペクトル値を要素とする周波数スペクトル特徴の特徴ベクトルをベクトル量子化により符号化し、これらの符号の小領域スペクトログラム内における出現回数を符号毎に計数したヒストグラム(ヒストグラム特徴)を生成する(ステップS906、ステップS916)。
符号化部24は、特徴抽出部22により算出された参照信号ならびに蓄積信号の各小領域スペクトログラムのヒストグラム特徴を、周波数帯ωm毎にベクトル量子化により符号化する(ステップS907、ステップS917)。具体的には、ヒストグラムのビンの値、すなわち各スペクトル符号の小領域スペクトログラム内での出現回数を要素とする特徴ベクトルをベクトル量子化して、あらかじめ生成されたベクトル量子化符号帳により、符号を割り当てる方法を用いる。なお、符号化部24は、小領域スペクトログラムを符号化する際には、同じ周波数帯ωmに属する小領域参照信号スペクトログラムならびに小領域蓄積信号スペクトログラムに対し同じベクトル符号帳を用いる。
符号化部24によるベクトル量子化は、ヒストグラム特徴とベクトル量子化符号帳の各代表ベクトル間の距離を算出し、距離値が最小となる代表特徴に対応する符号を出力することによって行われる。以下、ヒストグラム特徴が符号化されて得られた符号を、参照信号小領域符号ならびに蓄積信号小領域符号と記載し、小領域参照信号スペクトログラムFtn,ωmの参照信号小領域符号をc(Ftn,ωm)、小領域蓄積信号スペクトログラムGt,ωmの蓄積信号小領域符号をc(Gt,ωm)と定義することとする。そして、帯域ωmにおける各c(Ftn,ωm)、c(Gt,ωm)には、符号q(ωm,1)、q(ωm,2),…,q(ωm,z)のいずれかが割振られることになる。
なお、これらの小領域スペクトログラムの符号化は、上記特徴抽出部22において抽出された小領域参照信号スペクトログラム及び小領域蓄積信号スペクトログラム内の周波数スペクトル特徴(あるいは複数のスペクトル特徴を連続した一連の特徴ベクトルとしたもの)を、ヒストグラムを生成せずに直接ベクトル量子化し、各々参照信号小領域符号ならびに蓄積信号小領域符号を算出することも可能である。
索引生成部25は、符号化部24により出力された小領域蓄積信号スペクトログラムの各符号について、蓄積信号のどの時点に出現するか一覧化した索引情報を生成する(ステップS920)。索引情報は、図16のように構成されており、符号q(ωm,j)が示すリスト(出現時点の配列;横方向の列)には、符号q(ωm,j)に分類された小領域蓄積信号スペクトログラムの蓄積信号上に出現する時点が、時系列に並べられて格納されている。
類似度計算部23は、初めに小領域参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムを、参照信号小領域符号と蓄積信号小領域符号の符号間の類似度に基づいて索引情報から検出する。帯域ωmにおける全ての小領域符号間の類似度は、符号の代表ベクトル間の距離から予め算出し、図17に示す小領域符号間類似度表のように、小領域符号対毎にその類似度を表の上で定義、すなわち内部の記憶領域に記憶しておく。つまり、参照信号小領域符号q(ωm,i)と蓄積信号小領域符号q(ωm,j)との小領域符号間類似度υ(ωm,i,j)は、この表から一覧できるものである。
小領域符号間類似度υ(ωm,i,j)は、小領域符号q(ωm,i)とq(ωm,j)に対応する代表ベクトル間の距離に基づいて算出され、類似度計算部23により、距離値が小さい場合に、類似性が高いと判定され、距離値が大きい場合に類似性が低いものと判定される。本実施例においては、υ(ωm,i,j)を、0から1までの実数値として定義している。すなわち、帯域ωmにおいて距離値が最大の場合には、υ(ωm,i,j)=0であり、最小の場合には、υ(ωm,i,j)=1となる。
類似度計算部23は、参照信号小領域符号の集合から参照信号小領域符号を順次読み出して選択し(ステップS930)、図17に示す小領域符号間類似度表を参照し(ステップS931)、当該参照信号小領域符号に類似する符号、すなわち小領域符号間類似度υ(ωm,i,j)が、所定の閾値である小領域用探索閾値sthを超える符号を検出する(ステップS932)。ここでは、ある参照信号小領域符号について、同一の符号の値を有する符号を含む、少なくとも1つ以上の類似する符号を検出することになる。
なお、小領域用探索閾値sthは、例えば、予め多数の音響信号において検出処理を繰り返し、検出漏れがない値を統計的に求めることにより設定することができる。また、小領域用探索閾値sthは、全帯域で一定の値としているが、帯域ごとに異なる値を設定してもよい。
そして、類似度計算部23は、ある一つの参照信号小領域スペクトログラムについて、その符号である参照信号小領域符号に類似する上記の少なくとも一つの符号の値を持つ小領域スペクトログラムが、蓄積信号中に存在するか否かを、図16に示す索引情報により検索する(ステップS933)。蓄積信号中に、小領域参照信号スペクトログラムFtn,ωmに類似する小領域蓄積信号スペクトログラムGt+tn,ωmの存在が確認された場合、この小領域蓄積信号スペクトログラムGt+tn,ωmを含む蓄積信号中の区間に、参照信号に対する類似性があると判定し、類似小領域蓄積信号スペクトログラムの蓄積信号中の出現位置t+tnと、小領域参照信号スペクトル間の類似度S(Ftn,ωm, Gt+tn,ωm)を出力する(ステップS934)。ここで、小領域スペクトル間の類似度すなわち小領域類似度は、次式(3)により定義される。
Figure 0004597919
続いて、類似度計算部23は、検出した類似蓄積信号小領域スペクトログラムの蓄積信号中の出現位置t+tnから、類似性のある蓄積信号中の区間出現時点tを算出し(ステップS935)、小領域参照信号スペクトログラムとこれに類似する蓄積信号中の小領域スペクトログラムとの小領域類似度を、対応する区間出現時点tに、投票方式で積算する(ステップS936)。
類似度計算部23は、上記ステップS930からステップS936の処理を繰り返し(ステップS937)、参照信号の全ての小領域スペクトログラムについて順次索引検出を行い、類似する小領域蓄積信号スペクトログラムが検出された場合に、この小領域蓄積信号スペクトログラムを含む蓄積信号中の区間出現時点tに対して小領域類似度を積算する。
類似度計算部23は、各小領域参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムについて小領域類似度の積算処理が全て終了すると、次式(4)により、積算した小領域類似度を参照信号の全小領域参照信号スペクトログラム数で除算して正規化し、時点tに始まる蓄積信号中の区間と参照信号との区間類似度S(t)を算出する(ステップS940)。
Figure 0004597919
ここで、|TR|は時点TR(サンプリングされた時系列な離散的時点)の要素数を表し、|TW|は周波数帯域ωmの要素数を表している。そして、類似度計算部23は、以上のようにして算出された区間類似度S(t)が、所定の値である探索閾値Sthを超える蓄積信号上の時点tに始まる区間を、参照信号に類似する区間として出力する(ステップS941、ステップS942)。また、別の形態として、探索閾値を超えた複数の区間
を出力するかわりに、探索閾値を超え、もっとも大きな区間類似度を有する区間のみを出
力するようにしてもよい。
なお、探索閾値Sthについては、実験的に任意で設定してもよいし、また別に、類似度計算部23において算出された区間類似度S(t)の統計分布から標準偏差を算出し、得られた区間類似度S(t)の最大値に対して、−bσの値を探索閾値Sthとして設定することも可能である。ここで、前記のbは、実験を通じて適切な値が設定される。
(第2実施形態の実装例)
次に、上述した第2実施形態の実装例について説明する。
音響信号は、音楽CDなどで用いられる音響信号(サンプリング周波数44.1kHz、16bit量子化、ステレオ)をダウンサンプリング、モノラル化、量子化ビット数を変更した音響信号(サンプリング周波数11.025kHz、8ビット量子化、モノラル)を用いる。そして、この音響信号に対し、まず、1024点のFFT(Fast Fourier Transform)を10msごとに行い、10msごとにその時点のパワースペクトルを抽出する。そして、この10msごとにスペクトルを時間方向に並べたものとして、スペクトログラムを得る。そして、周波数軸方向でのスペクトログラムの分割数は本実施形態に記載の装置で利用される4とし、各帯域において、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数においてパワーを抽出し、抽出した各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとする。ここで、xは71/27としている。
そして、fcは各帯域で各々620Hz、1030Hz、1710Hz、2840Hzを中心(各帯域の浮動中心周波数とここでは記載)にして浮動的に設定するとし、各帯域で先に抽出したスペクトルのうち、浮動中心周波数から上下10%の周波数のうちでパワーが最大となる周波数をfcとする。このfcに基づき、各時点で、((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)の各周波数におけるパワーを、FFTの結果から得られる各周波数のうち、これらの周波数に最も近い周波数のパワーを((1/x)×fc,(1/x)×fc,(1/x)×fc,x×fc,x×fc,x×fc)でのパワーとし、各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとして抽出する。
また、特徴ベクトルの各成分の対応する周波数について、その周波数を中心周波数とするバンドパスフィルタをもちいて、再度パワースペクトルを抽出してもよい。
このようにして、特徴ベクトルを抽出することで、上下10%までピッチが変動した音響信号でも探索を行うことができる。
なお、これらのスペクトログラム分割数(上記実装例では4)、特徴ベクトルの次元(上記実装例では7)やxの値(上記実装例では71/27)、fcの設定範囲(上記実装例では10%)は、探索の目的とする信号やピッチ変動の幅(上記実装例では上下10%)に応じて、変更可能なものであり、具体的な数値に限られないものとする。
また、特徴ベクトルの各成分が対応する周波数について、上記実装例では、第1成分から等比数列としたが、各成分間の比が決まっていれば、それらが等比である必要はない。例えば、第2成分の対応する周波数は第1成分が対応する周波数の1.2倍の周波数、第3成分の対応する周波数は第1成分の対応する周波数の2倍の周波数などとしてもよい。
上記の第1及び第2実施形態の構成により、参照信号および蓄積信号の各時間周波数スペクトログラムから、パワースペクトルの特徴的な部分を検出して各時点における基準周波数を浮動的に設定、すなわち、周波数による変動が発生していたとしても、スペクトログラム全体の特徴を抽出可能な基準周波数を設定することが可能となる。そして、該基準周波数に基づき各信号の周波数スペクトル特徴を抽出し、抽出した周波数スペクトル特徴に基づいて周波数の上下の変動に対応した音響信号検出が可能となる。
また、第2の実施形態の構成により、各信号の時間周波数スペクトログラムを時間・周波数方向において小領域に分割し、小領域におけるピークを検出して特徴抽出を行い、参照信号と蓄積信号中のある区間との類似度を各小領域の類似性から判断するように構成することで、周波数変動がなされた音響信号に対し更に大きな妨害音が重畳していても精度よく、かつ高速に信号検出処理を行うことを可能としている。
また、第1及び第2実施形態の構成により、各信号の特徴を符号の集合として表現することにより、照合に掛かる情報量を大幅に低減することが可能となり、類似度の計算処理を高速化することが可能となる。更に、蓄積信号の符号を索引情報として予め用意しておくことで、類似性のある符号の位置を容易に検出できるようになり、参照信号に類似した信号を含有する蓄積信号中の区間検出をさらに高速に行うことを可能としている。
また、上記の実施形態によれば、テレビ放送におけるドラマの挿入曲や背景音楽のように、ストーリーの雰囲気に合わせて加工された音響信号についても検索が可能となり、マルチメディア放送のモニタリングが高速かつ高精度に行えるようになる。また、テレビ、ラジオで放送された音楽の楽曲情報やCMの情報を、多チャンネル同時にリアルタイムで検索しプレイリストを作成することが可能である。プレイリストは、例えば、放送局が視聴者からの問い合わせに対応するための広報資料、ある広告主が競合会社のCM露出状況などを調査することのできるCM確認用データ、レコード会社のマーケティングデータ、著作権料徴収のための基礎データとして幅広く活用できるものである。
また、上記の実施形態の構成により、著作権侵害物の検査、未知の音響情報の識別、インターネット著作権防止アプリケーションにも応用可能であり、メタデータ解析・配信サービスといった市場への展開が期待される。
また、本発明に記載の音響信号特徴抽出装置とは、音響信号検索装置1、1a、1bにおける基準周波数検出部11、特徴抽出部12を備えた構成であり、また、音響信号検索装置2における基準周波数検出部21、特徴抽出部22を備えた構成に該当する装置である。また、本発明に記載の参照音響信号は、参照信号に対応し、検索対象音響信号は、蓄積信号に対応する。
なお、上記の実施形態において、検出とは検索・認識を含み、特徴抽出は音響信号の分析を含む。また、上記の実施形態に記載の「各時点」とは、時間周波数スペクトログラムの時間間隔ごとの各時点の意味であり、時間軸において、時間周波数スペクトログラムの算出元となる一定の時間範囲を示すものとする。
また、実際に上述した音響信号検索装置1、1a、1b、2を構築する際には、音響信号検索装置の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータで実行することにより、蓄積信号のデータベースへの登録処理および入力信号検出処理を行っても良い。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとずる。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上述したプログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、本発明は、上述の実施形態によって限定されず、本発明の技術思想の範囲内で様々な変形が可能である。
本発明の原理を説明するためのスペクトログラムの概略図(その1)である。 本発明の原理を説明するためのスペクトログラムの概略図(その2)である。 本発明の原理を説明するためのスペクトログラムの概略図(その3)である。 本発明の原理を説明するためのスペクトログラムの概略図(その4)である。 本発明の第1実施形態に係る音響信号検索装置の概略ブロック図である。 同実施形態に係る音響信号検索装置の動作を示すフローチャート(その1)である。 同実施形態に係る基準周波数検出の概要を説明する概念図である。 同実施形態に係るTAS法を説明する概念図である。 同実施形態に係る音響信号検索装置の動作を示すフローチャート(その2)である。 同実施形態に係る音響信号検索装置の動作を示すフローチャート(その3)である。 同実施形態に係る音響信号検索装置の他の実施形態(その1)である。 同実施形態に係る音響信号検索装置の他の実施形態(その2)である。 第1実施形態の他の実施形態(その2)の音響信号検索装置の動作を示すフローチャートである。 本発明の第2実施形態に係る音響信号検索装置の概略ブロック図である。 同実施形態に係る音響信号検索装置の動作を示すフローチャートである。 同実施形態に係る索引情報の構成を説明するための概念図である。 同実施形態に係る小領域符号間類似度表の構成を説明するための概念図である。
符号の説明
1 音響信号検索装置
11 基準周波数検出部
12 特徴抽出部
13 類似度計算部

Claims (11)

  1. 入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置における音響信号特徴抽出方法であって、
    前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、
    抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とし、
    対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する
    ことを特徴とする音響信号特徴抽出方法。
  2. 前記所定の基準特徴部とは、パワースペクトル値が各時間間隔において最大値となる部分であることを特徴とする請求項1に記載の音響信号特徴抽出方法。
  3. 前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムの中で、パワースペクトル値が最大値となる部分
    であることを特徴とする請求項1に記載の音響信号特徴抽出方法。
  4. 前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムのパワースペクトル値の重心となる部分
    であることを特徴とする請求項1に記載の音響信号特徴抽出方法。
  5. 参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置における音響信号検索方法であって、
    前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、
    前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、
    前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とし、
    対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの音響信号の特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、
    対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出し、
    抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、
    算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、
    算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する
    ことを特徴とする音響信号検索方法。
  6. 入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置であって、
    前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とする基準周波数検出手段と、
    対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する特徴量抽出手段と、
    を備えたことを特徴とする音響信号特徴抽出装置。
  7. 参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置であって、
    前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とする基準周波数検出手段と、
    対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段が抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する類似度計算手段と、
    を備えたことを特徴とする音響信号検索装置。
  8. 入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置のコンピュータに、
    前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出するステップと、
    抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とするステップと、
    対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出するステップと、
    を実行させるための音響信号特徴抽出プログラム。
  9. 参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置のコンピュータに、
    参照音響信号及び検索対象音響信号の時間周波数スペクトログラムを入力するステップと、
    前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出するステップと、
    前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とするステップと、
    対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出するステップと、
    対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出するステップと、
    抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出するステップと、
    前記類似度計算手段が、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出するステップと、
    算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力するステップと、
    を実行させるための音響信号検索プログラム。
  10. 請求項8に記載の音響信号特徴抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  11. 請求項9に記載の音響信号検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006183131A 2006-07-03 2006-07-03 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 Expired - Fee Related JP4597919B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006183131A JP4597919B2 (ja) 2006-07-03 2006-07-03 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006183131A JP4597919B2 (ja) 2006-07-03 2006-07-03 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体

Publications (3)

Publication Number Publication Date
JP2008015002A JP2008015002A (ja) 2008-01-24
JP2008015002A5 JP2008015002A5 (ja) 2010-10-14
JP4597919B2 true JP4597919B2 (ja) 2010-12-15

Family

ID=39072112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006183131A Expired - Fee Related JP4597919B2 (ja) 2006-07-03 2006-07-03 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4597919B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010086020A1 (en) * 2009-01-30 2010-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal quality prediction
US8930185B2 (en) 2009-08-28 2015-01-06 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP5561041B2 (ja) * 2010-09-06 2014-07-30 大日本印刷株式会社 音響データの関連情報検索装置
JP5462827B2 (ja) * 2011-03-28 2014-04-02 日本電信電話株式会社 特定音響信号含有区間検出装置、方法、及びプログラム
JP2013117688A (ja) * 2011-12-05 2013-06-13 Sony Corp 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム
CN108962231B (zh) * 2018-07-04 2021-05-28 武汉斗鱼网络科技有限公司 一种语音分类方法、装置、服务器及存储介质
CN115696699B (zh) * 2022-09-28 2024-09-24 重庆长安汽车股份有限公司 一种氛围灯律动的处理方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004530153A (ja) * 2001-02-28 2004-09-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
JP2004536348A (ja) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド 録音の自動識別
JP2005512108A (ja) * 2000-06-20 2005-04-28 ユニバーシティ オブ ニュー ハンプシャー カオスシステムを使用してオーディオファイルの圧縮及び解凍を行うための方法及び装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005512108A (ja) * 2000-06-20 2005-04-28 ユニバーシティ オブ ニュー ハンプシャー カオスシステムを使用してオーディオファイルの圧縮及び解凍を行うための方法及び装置
JP2004530153A (ja) * 2001-02-28 2004-09-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2004536348A (ja) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド 録音の自動識別
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置

Also Published As

Publication number Publication date
JP2008015002A (ja) 2008-01-24

Similar Documents

Publication Publication Date Title
KR101578279B1 (ko) 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템
EP2659480B1 (en) Repetition detection in media data
Typke et al. A survey of music information retrieval systems
JP4597919B2 (ja) 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
EP2791935B1 (en) Low complexity repetition detection in media data
JP4945877B2 (ja) 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
JP4327202B2 (ja) 特定音響信号含有区間検出システム及びその方法並びにプログラム
JP5907511B2 (ja) オーディオメディア認識のためのシステム及び方法
US8589171B2 (en) System and method for custom marking a media file for file matching
JP2006501502A (ja) オーディオトラックのオーディオサムネイルを生成するシステムおよび方法
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
CN103729368B (zh) 一种基于局部频谱图像描述子的鲁棒音频识别方法
WO2014096832A1 (en) Audio analysis system and method using audio segment characterisation
CN100545834C (zh) 基于特征的音频内容识别的方法和装置
KR20080082022A (ko) 음악 특성 기반 유사도 측정 장치 및 그 방법과 그를이용한 음악 추천 시스템 및 그 방법
Ghosal et al. Song/instrumental classification using spectrogram based contextual features
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
JP2007072023A (ja) 情報処理装置及び情報処理方法
JP5772957B2 (ja) 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム
CN113032616A (zh) 音频推荐的方法、装置、计算机设备和存储介质
JP5462827B2 (ja) 特定音響信号含有区間検出装置、方法、及びプログラム
Six et al. A robust audio fingerprinter based on pitch class histograms: applications for ethnic music archives
Brinkman et al. Online music recognition: the Echoprint system
Rosão et al. Trends in onset detection
KR101302568B1 (ko) 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100922

R151 Written notification of patent or utility model registration

Ref document number: 4597919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees