JP5813221B2

JP5813221B2 - オーディオ信号を用いたコンテンツ認識装置及び方法

Info

Publication number: JP5813221B2
Application number: JP2014516896A
Authority: JP
Inventors: チョ、フン−ヨン; リ、ジェヒョン; シェーカルディル、チャンドラ
Original assignee: エンサーズカンパニーリミテッド
Priority date: 2012-05-23
Filing date: 2012-06-08
Publication date: 2015-11-17
Anticipated expiration: 2032-06-08
Also published as: WO2013176329A1; EP2685450A1; EP2685450A4; HK1175358A2; SG187583A1; JP2014520287A; KR101315970B1; CN103548076A; CN103548076B; EP2685450B1

Description

本発明はオーディオ信号を用いたコンテンツ認識装置及び方法に係り、より詳しくは入力されるオーディオ信号のフィンガープリント(fingerprint)に基づいてマッチングされるコンテンツ(content)情報を提供することができる装置及び方法に関する。

ネットワーク及びインターネット技術の発達及びスマートフォン(smart phone)のような移動通信端末機の急速な普及に伴って、オーディオやビデオを用いた多様なサービスがネットワークを通じて提供されている。また、これと同時に、オーディオやビデオに対して同一性有無を判別するための方法として、フィンガープリント(fingerprint)を用いる方法も広く使われており、フィンガープリントを用いてネットワークを通じて多様なオーディオやビデオを認識する技術も提案されている。

フィンガープリントを用いてオーディオやビデオを認識する技術は、与えられたオーディオまたはビデオ信号をフレーム単位で分割しながらフレームの特徴ベクターを生成し、これらを用いてマッチングを行う方法を使うが、従来のフィンガープリント生成及びマッチング方法は演算量が膨大であってフィンガープリント生成及びマッチングに時間がかかり、ネットワーク上の資源に負荷を加えるという問題点がある。これを解消するために、生成するフィンガープリントの量を減らすとかマッチング過程を単純化することはできるが、このような場合にはマッチングの正確性が低下するという問題点が発生する。

特許文献１（２００４年１１月１０日公開）は“オーディオ遺伝子生成方法及びオーディオデータ検索方法”に関するもので、オーディオ信号を一定の時間間隔で分割する時間分割段階と；時間間隔でまたは多数の時間間隔に含まれる周波数の信号の大きさを計算する周波数変換段階と；周波数領域を一定の区間に分割し、隣接周波数区間間の信号の大きさの差を計算する差計算段階と；隣接時間間隔間の前記計算値の差を求める勾配計算段階と；前記勾配が０以上の場合に１に、０未満の場合に０に量子化する量子化段階と；前記量子化された値を保存してオーディオ遺伝子を生成するオーディオ遺伝子生成段階とを持つオーディオ遺伝子生成方法について開示している。

しかし、このような技術は演算量が膨大でフィンガープリントの抽出過程が複雑であるため、負荷を引き起こすとともに、結果算出時までの時間が過多にかかるという限界点を持っている。

したがって、負荷を引き起こさないで早く正確な結果を提供することができるフィンガープリント抽出及びマッチング方法の開発が要望されていると言える。

韓国特許第１０−０４５６４０８号公報

本発明は前記のような問題点を解決するためになされたもので、速かに結果を提供しながらもマッチングの正確性及び信頼性を維持することができるオーディオ信号を用いたコンテンツ認識装置及び方法を提供することを目的とする。

特に、本発明は、入力されるオーディオ信号を複数のフレームに分割しながら、フレームの開始点間の間隔であるフレーム移動長さを多い情報量を持っている区間に対して可変的に構成することで、正確性を維持しながらも迅速なマッチング結果を提供することができる装置及び方法を提供することを目的とする。

前記のような目的を達成するために、本発明は、オーディオ信号を用いたコンテンツ認識装置であって、入力されるオーディオ信号に対し、前もって設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出するクエリーフィンガープリント抽出部；クエリーフィンガープリントと比較すべきレファレンスフィンガープリントとレファレンスフィンガープリントに対応するコンテンツ情報を保存するレファレンスフィンガープリントデータベース；及び前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別するフィンガープリントマッチング部を含み、前記クエリーフィンガープリント抽出部は、隣接したフレームの開始点間の間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成することを特徴とする、オーディオ信号を用いたコンテンツ認識装置を提供する。

ここで、前記フレーム移動長さは、隣接したフレームが互いに重なるようにフレーム長さより短いことができる。

また、前記クエリーフィンガープリント抽出部は、一部区間でのフレーム移動長さを前もって設定されたフレーム移動長さより短くしてフレームを形成することができる。

また、前記クエリーフィンガープリント抽出部は、前もって設定された時間区間に基づいて前記一部区間を決定することができる。

また、前記クエリーフィンガープリント抽出部は、信号対雑音比が臨界値より高い値を持つ時間区間を検出し、検出された時間区間に基づいて前記一部区間を決定することができる。

また、前記クエリーフィンガープリント抽出部は、前記決定された一部区間にあたるフレームのそれぞれに対してフレーム別特徴ベクターを生成することができる。

また、前記クエリーフィンガープリント抽出部は、前記決定された一部区間に含まれるフレームに対するフレーム別特徴ベクターを、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターに基づいて生成することができる。

また、前記一部区間の開始位置に相応するフレームは前記開始位置を最後に含むフレームであってもよく、前記一部区間の終了位置に相応するフレームは前記終了位置を初めて含むフレームであってもよい。

また、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターを生成し、生成されたフレーム別特徴ベクターに基づいて線形補間法によって一部区間に含まれるフレームのフレーム別特徴ベクターを生成することができる。

また、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターは二進数で形成され、前記二進数で形成されたフレーム別特徴ベクターのそれぞれのビットを比較し、相異なるビットに可能な二進数を配列することにより、一部区間に含まれるフレームのフレーム別特徴ベクターを生成することができる。

また、前記フィンガープリントマッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるフレーム特徴ベクターが含まれたレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより１次マッチングを行う第１マッチング部；及び前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して２次マッチングを行う第２マッチング部；を含むことができる。

また、前記第１マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとハミング距離がスレショルド値以下のフレーム特徴ベクターが含まれたレファレンスフィンガープリントをマッチングされるレファレンスフィンガープリントとして判別することができる。

また、前記第１マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターをレファレンスフィンガープリントのフレーム別特徴ベクターと順次比較し、マッチングされるフレームが検出された場合、以後のフレームに対する比較を省略し、次のレファレンスフィンガープリントに対する比較を行うことができる。

また、第２マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターの中で、前もって設定されたフレーム移動長さではないフレームを除いてフレーム別特徴ベクターを再構成し、再構成されたフレーム別特徴ベクターをレファレンスフィンガープリントと比較することができる。

また、前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報を提供する認識結果提供部をさらに含むことができる。

また、前記オーディオ信号を用いたコンテンツ認識装置はクライアント端末機内に含まれることができる。

また、前記レファレンスフィンガープリントデータベースはレファレンスフィンガープリントサーバーからレファレンスフィンガープリント及びコンテンツ情報を受信して保存することができる。

また、使用者がオーディオ信号を入力することができるようにする使用者インターフェースを提供するインターフェース提供部をさらに含むことができる。

また、前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報は前記レファレンスフィンガープリントサーバーに伝送されることができる。

また、前記クエリーフィンガープリント抽出部は、前もって設定された区間単位で該当の区間に含まれるフレームに対するフレーム別特徴ベクターを生成することにより区間別クエリーフィンガープリントを抽出し、前記フィンガープリントマッチング部は前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別し、前記フィンガープリントマッチング部でマッチングされるレファレンスフィンガープリントが判別されるまでクエリーフィンガープリント抽出部が前記前もって設定された区間単位で区間別クエリーフィンガープリントを連続的に抽出することができる。

本発明の他の面によれば、オーディオ信号を用いたコンテンツ認識方法であって、入力されるオーディオ信号に対して前もって設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出する第１段階；及び前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別する第２段階を含み、前記第１段階は、隣接したフレームの開始点間の間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成することを特徴とする、オーディオ信号を用いたコンテンツ認識方法を提供する。

ここで、前記第２段階は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより１次マッチングを行う第２−１段階；及び前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して２次マッチングを行う第２−２段階を含むことができる。

本発明によれば、速かに結果を提供しながらもマッチングの正確性及び信頼性を維持することができるオーディオ信号を用いたコンテンツ認識装置及び方法を提供することができる。

本発明によれば、入力されるオーディオ信号を複数のフレームに分割しながらフレームの開始点間の間隔であるフレーム移動長さを多い情報量を持っている区間に対して可変的に構成することで、正確性を維持しながらも迅速なマッチング結果を提供することができる。

また、本発明は可変的区間に対して生成されるフレームを１次マッチングに使い、１次マッチングではフレーム別にマッチングされるフレームを持つレファレンスフィンガープリントを複数のマッチング候補群に含め、２次マッチングでマッチング候補群に含まれたレファレンスに対して精密比較を行う２段階のマッチング方法を使うので、迅速性及び正確性を持つコンテンツ認識装置及び方法を提供することができる。

本発明によるオーディオ信号を用いたコンテンツ認識装置１００の一実施例の構成を示す図である。クエリーフィンガープリント抽出部１０でフレームを形成し、フレーム別に特徴ベクターを形成する方法を説明する図である。フレーム移動長さを一定区間で変動させる場合を説明する図である。隣接したフレームフィンガープリントによってフレームフィンガープリントを生成する過程を説明する図である。隣接したフレームフィンガープリントによってフレームフィンガープリントを生成するさらに他の方法を説明する図である。フィンガープリントマッチング部３０の構成を示す図である。第１マッチング部３１の動作を説明する図である。コンテンツ認識装置１００の連結及び配置状態を説明する図である。本発明によるコンテンツ認識装置１００で行われるコンテンツ認識方法を示すフローチャートである。

以下、添付図面に基づいて本発明による実施例を詳細に説明する。

図１は本発明によるオーディオ信号を用いたコンテンツ認識装置１００の一実施例の構成を示す図である。

図１を参照すれば、本実施例によるオーディオ信号を用いたコンテンツ認識装置１００（以下、コンテンツ認識装置と言う）は、クエリーフィンガープリント抽出部１０、レファレンスフィンガープリントデータベース２０、フィンガープリントマッチング部３０及び認識結果提供部４０を含む。

クエリーフィンガープリント(query fingerprint)抽出部１０は、入力されるオーディオ信号に対し、前もって設定されたフレーム長さ（ｆｒａｍｅｌｅｎｇｔｈ）を持つ複数のフレームを形成し、それぞれのフレーム別にフレーム別特徴ベクター（ｆｅａｔｕｒｅｖｅｃｔｏｒ）を生成することで、クエリー（ｑｕｅｒｙ）、つまり比較対象となるフィンガープリント（ｆｉｎｇｅｒｐｒｉｎｔ）を抽出する機能をする。ここで、複数のフレームは隣接したフレームの開始点間の間隔であるフレーム移動長さ（ｓｈｉｆｔｓｉｚｅ）を一部区間で変動させながら形成される。

一方、ここで、フィンガープリント（ｆｉｎｇｅｒｐｒｉｎｔ）とは、オーディオデータ、イメージデータまたは動画データなどのデータの特徴を示す特徴データを意味するもので、指紋データ、ＤＮＡデータまたは遺伝子データとも言う。このようなフィンガープリントを抽出し、これを用いてデータを比較する技術としては、従来技術によってさまざまな方式が提案されている。このようなフィンガープリントを活用すれば、データの同一性有無を易しく判別することができるので、著作権管理（ＤＲＭ）分野などに近年幅広く使われている。

例えば、オーディオ信号の場合、オーディオ信号の特徴を示す各種特徴データ（例えば、周波数、振幅など）を用いてフィンガープリントを生成し、イメージや動画信号の場合、イメージや動画信号のさまざまな特徴データ（例えば、フレームのモーションベクター情報、色相情報など）を用いてフィンガープリントを生成することができる。本発明はこのようなフィンガープリントを生成する方法そのものを目的とするものではなく、従来の技術による任意の形態のフィンガープリント生成／抽出方法をそのまま使うことができるので、これについての詳細な説明は省略する。

本出願人が出願した大韓民国特許出願番号第１０−２００７−００４４２５１号（オーディオフィンガープリントデータ生成方法及び装置並びにこれを用いたオーディオデータ比較方法及び装置）、同第１０−２００７−００５４６０１号（動画データの同一性判断及び同一区間検出方法及び装置）、同第１０−２００７−００６０９７８号（動画データを互いに同一性のある動画データどうしクラスタリングする方法及びシステム）、同第１０−２００７−００７１６３３号（動画データクラスタを用いた動画データ検索サービス提供方法及び装置）、同第１０−２００７−００９１５８７号（動画データクラスタを用いた広告データ設定及び提供方法及び装置）、及び同第１０−２００８−００５１６８８号（動画処理方法及びその装置）によれば、オーディオ、イメージまたはビデオデータのフィンガープリントを生成する方法と、このようなフィンガープリントを用いてデータを比較する方法とについて開示されている。このような本出願人のフィンガープリント生成及び抽出方法を本発明に使うこともできるのはいうまでもない。要するに、本発明は、フィンガープリントを抽出する方式がどんなものであるかに関係なく、従来に知られているフィンガープリント生成／抽出技術をそのまま使うことができる。

図２はクエリーフィンガープリント抽出部１０でフレームを形成し、フレーム別に特徴ベクターを形成する方法を説明する図である。

図２を参照すれば、入力されるオーディオ信号に対して所定大きさのフレーム長さを持つフレームを所定のフレーム移動長さだけのフレームの開始点が間隔を置いて形成されていることが分かる。オーディオ信号の横軸は時間（ｔｉｍｅ）であり得る。それぞれのフレーム（Ｔ_ｎ）に対するフレーム特徴ベクターをＦ（Ｔ_１）とすると、与えられたオーディオ信号に対する最終フィンガープリントは、図２の下端に示すように、これらフレーム特徴ベクターの集合と見なすことができる（Ｆ（Ｔ_１）、Ｆ（Ｔ_２）、Ｆ（Ｔ_３）、．．．、Ｆ（Ｔ_ｎ−１）、Ｆ（Ｔ_ｎ））。この際、フレーム特徴ベクターは最終に二進数形のバイナリーベクター（ｂｉｎａｒｙｖｅｃｔｏｒ）に生成できる。ここで、本発明は、フレーム移動長さをオーディオ信号の一定区間に対して変動させることを一特徴とする。

図３はフレーム移動長さを一定区間で変動させる場合を説明する図である。図３を参照すれば、オーディオ信号の一定区間（Ａ〜Ｂ）でフレーム移動長さが前もって設定されたフレーム移動長さから変動、つまり短縮されていることが分かる。

すなわち、オーディオ信号の最初位置から前もって設定されたフレーム大きさ単位に前もって設定されたフレーム移動長さだけのフレームの開始点を移動しながらフレームを形成し、特定区間に対しては前もって設定されたフレーム移動長さを変動、つまり短縮させてフレームの開始点を移動させながらフレームを形成し、形成されたフレームに対してフレーム別特徴ベクターを抽出する。

図３において、フレーム移動長さは前もって設定された移動長さより短くなるものとして示したが、移動長さは前もって設定された移動長さより長くなるようにすることもできる。このように、フレームの移動長さを一部区間で変動させることは、オーディオ信号の特定区間は他の区間に比べて多いか少ない情報量を含む場合が多いので、このような点を考慮してフレームをより多くまたは少なく生成するためである。

例えば、特定区間が他の区間に比べて多い情報を含むなら、該当の区間に対してはより詳細な分析が必要である。このためには、生成されるフレームの数を増加させれば、より多い情報を含むフィンガープリントを生成することができるようになる。一方、特定区間の情報が少ない場合であれば、該当の区間に対してはより緩く分析することができる。このために、生成されるフレームの数を減少させることができるようになる。

フレームの数を増加させれば、すなわちフレームの移動長さを短くすれば、フレーム別の特徴ベクターの数が増えるので、後述するように、フィンガープリントマッチング部、特に１次マッチング部でＮ個の候補群を高速でマッチングするのに非常に有用に使われることができる。この点についての詳細はマッチング部３０に基づいて後述する。

一方、フレーム移動長さは、図２及び図３に示すように、互いに隣接するフレームがオーディオ信号の時間軸を基準として互いに重なるように形成されることが好ましい。これは結局フレーム移動長さをフレーム長さより短くすることを意味する。もちろん、フレーム移動長さをフレーム長さと同じにするかあるいはそれより大きくする場合にも本発明は適用可能である。

一方、フレーム移動長さをオーディオ信号の特定区間に対して変動、例えば短くするかは、例えば次のような基準によって決定することができる。

まず、特定の時間区間を設定し、この時間区間に対してフレーム移動長さを短くすることができる。例えば、前もって設定されるフレーム移動長さを２０ｍｓに設定し、オーディオ信号の開始点から２秒間、終了点から２秒以前までの区間に対してはフレーム移動長さを５ｍｓにすることができる。他の方法としては、オーディオ信号の中間区間、例えば２秒〜４秒間をフレーム移動長さを短くする区間に設定することができる。このように時間区間を指定する方式の外に、オーディオ信号の全時間の中間値を含み前後区間を指定するなどの方式を使うこともできる。

また、使用者からフレーム移動長さを短くすべき区間を受けて設定する方法も可能である。

このように時間区間が設定されれば、該当の時間区間までフレームを前もって設定されたフレーム移動長さだけ移動しながらフレームを形成し、設定された時間区間に到逹する場合、その時点からはフレーム移動長さを短くして開始点を短縮されたフレーム移動長さだけ移動しながらフレームを形成する。設定された時間区間が終われば、さらに元々設定されたフレーム移動長さずつフレームの開始点を移動させながらフレームを形成し、フレーム別特徴ベクターを生成する過程を繰り返す。

一方、フレーム移動長さを変動させる区間を決定することは、信号対雑音比（Ｓ／Ｎｒａｔｉｏ）を用いることもできる。信号対雑音比の高い区間はより多い情報量を含むものとして見なすことができるので、オーディオ信号に対して予め一定時間区間単位で信号対雑音比を計算し、臨界値より高い信号対雑音比を持つ時間区間を決め、該当の時間区間に対してフレーム移動長さを短くすることもできる。信号対雑音比を計算することは従来技術に広く知られているのでその詳細説明は省略する。

このような過程により、クエリーフィンガープリント抽出部１０は、フレームを形成しながらそれぞれのフレームに対してフレーム別特徴ベクターを生成することにより、入力オーディオ信号に対するクエリーフィンガープリントを生成することになる。ここで、フレーム別に特徴ベクターを生成する具体的な過程は従来の技術をそのまま用いることができる。

例えば、次のような方法を使うことができる。すなわち、入力されるオーディオ信号に対して高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ、ＦＦＴ）を行って周波数領域のスペクトラムを計算し、これからパワースペクトラム（ｐｏｗｅｒｓｐｅｃｔｒｕｍ）または大きさスペクトラム（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｕｍ）を計算した後、Ｎ個のフィルターで構成されたフィルターバンク（ｆｉｌｔｅｒｂａｎｋ）を通過させる。ここで、一つのフィルターは特定周波数範囲内の信号成分のみを抽出する役目をし、それぞれのフィルターによって抽出された信号成分に対して通常の信号処理方法でエネルギー値を計算すれば、Ｎ次のフィルターバンクエネルギーが生成され、この値をフレーム別特徴ベクターとして使うことができる。

一方、クエリーフィンガープリント抽出部１０は、前述したように、フレーム移動長さを短くする区間に含まれるフレームに対してはフレーム別フィンガープリントを直接生成する代わりに、周辺のフレームフィンガープリントを用いる方法を使うことができる。

図３を参照すれば、Ａ〜Ｂ区間に属するフレーム、すなわちフレーム別移動区間が短くなる区間に属するフレームが例えば１０個であると仮定すると、これら１０個のフレーム特徴ベクターは隣接したフレームフィンガープリントによって線形補間法（ｌｉｎｅａｒｉｎｔｅｒｐｏｌａｔｉｏｎ）で生成できる。

図４は隣接したフレームフィンガープリントによってフレームフィンガープリントを生成する過程を説明する図である。

図４を参照すれば、オーディオ信号のＡ〜Ｂ区間はフレーム移動長さが短くなる区間であり、これらの間にＬ個のフレームが形成され、これらそれぞれのフレームに対してフレーム別特徴ベクターを生成しなければならない。この際、Ｌ個のフレームに対するフレーム特徴ベクターはＡ〜Ｂ区間の開始位置を最後に含む以前フレームとＡ〜Ｂ区間の終了位置を初めて含む後続フレームに対してフレーム特徴ベクターを計算し（Ｔ_ｎ、Ｔ_ｎ＋Ｌ）、これら値に基づいて線形補間法（ｌｉｎｅａｒｉｎｔｅｒｐｏｌａｔｉｏｎ）を適用してＬ個のフレームに対するフレーム特徴ベクターをそれぞれ生成することができるようになる。例えば、Ｔｎの値が１、Ｔｎ＋Ｌの値が１０であり、８個のフレームが含まれるなら、それぞれのフレームの特徴ベクターの値は線形補間法によって２、３、４、５、６、７、８、９に決定することができる。

このような方法を使えば、フレームの数を増加させてより多い情報量を持つ信号区間に対するより精密な分析ができるようにしながらも演算量を大きく増加させないという利点を持つ。

図５は隣接したフレームフィンガープリントによってフレームフィンガープリントを生成するさらに他の方法を説明する図である。

図５の方法は図４の方法と類似しているが、移動長さが短くなる区間に含まれるフレームに対する特徴ベクターをビットの比較によって生成することを特徴とする。フレーム特徴ベクターは、前述したような方法によって最終に二進数の形に生成でき、隣接したフレームのフレーム特徴ベクターを互いにビット別に比較して一致しないビットを捜し出した後、このビットに対して可能な場合の二進数をビットフリッピング（ＢｉｔＦｌｉｐｐｉｎｇ）することで、Ａ〜Ｂ区間に含まれるフレームに対する特徴ベクターを生成することができる。例えば、互いに異なるビット数がＲ個であれば、２^Ｒ個のフレーム特徴ベクターを生成することができ、よって２^Ｒ個のフレームをＡ〜Ｂ区間に挿入することができる。この場合、Ａ〜Ｂ区間におけるフレーム移動長さはＲによって決定される。

再び、図１を参照してコンテンツ認識装置１００の他の構成について説明する。

レファレンスフィンガープリントデータベース(Reference fingerprint database)２０は、クエリーフィンガープリントと比較すべきレファレンスフィンガープリントと、レファレンスフィンガープリントに対応するコンテンツ情報を保存する機能をする。すなわち、クエリーフィンガープリントと比較すべき対象となるレファレンスとしてのフィンガープリントと、これらに対するコンテンツ情報を保存していて、前述したようにクエリーフィンガープリント抽出部１０でクエリーフィンガープリントが抽出されれば、後述するフィンガープリントマッチング部３０でクエリーフィンガープリントとレファレンスフィンガープリントデータベース２０に保存されたレファレンスフィンガープリントを比較して、マッチングされるレファレンスフィンガープリントを判別するようになる。

ここで、コンテンツ情報は、コンテンツの識別子（ＩＤ）を含み、コンテンツの名前、著作権者、長さ、画質情報、ファイル名、説明データなどとその他の関連データを含むことができる。

レファレンスフィンガープリントデータベース２０は、ネットワークを介して外部の別途のレファレンスフィンガープリントサーバーからレファレンスフィンガープリントとコンテンツ情報を受信するように構成することもできる。

一方、フィンガープリントマッチング(fingerprint matching)部３０は、クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別する機能をする。前述したように、クエリーフィンガープリント抽出部１０でクエリーフィンガープリントが抽出され、フィンガープリントマッチング部３０はこのようなクエリーフィンガープリントと、レファレンスフィンガープリントデータベース２０に保存されているレファレンスフィンガープリントを比較して、マッチングされるレファレンスフィンガープリントを判別する。

図６はフィンガープリントマッチング部３０の構成を示す図である。図６を参照すれば、フィンガープリントマッチング部３０は１次マッチング部３１と２次マッチング部３２を含む。

第１マッチング部３１は、クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを例えばＮ−Ｂｅｓｔ方式で選んで複数のマッチング候補群を優先的に構成し、第２マッチング部３２は、マッチング候補群に含まれたレファレンスフィンガープリントを対象として精密分析を行うことで、より正確なマッチング結果を提供するようになる。

第１マッチング部３１は、複数のマッチング候補群を選別するために、フレーム単位でマッチングされるフィンガープリントが一つでも存在するかどうかを判別する方法を使うことができる。

図７は第１マッチング部３１の動作を説明する図である。

図７を参照すれば、まずレファレンスフィンガープリントデータベース２０からクエリーフィンガープリントと比較すべきレファレンスフィンガープリントを選択し、クエリーフィンガープリントのｉ番目フレームと選択されたレファレンスフィンガープリントのｊ番目フレームのフレーム別特徴ベクターを比較して、例えばハミング距離（ＨａｍｍｉｎｇＤｉｓｔａｎｃｅ）が前もって設定しておいたスレショルド(threshold)値以下であるかを判断する（Ｓ１００、Ｓ１１０、Ｓ１２０）。

ここで、クエリーフィンガープリントのｉ番目フレームと選択されたレファレンスフィンガープリントのｊ番目フレームは最初のフレームから順次選択することができる。すなわち、クエリーフィンガープリントと選択されたレファレンスフィンガープリントの最初フレームからｉとｊを順次増加させながらハミング距離を判断する。

例えば、クエリーフィンガープリントの一番目フレーム（ｉ＝１）を選択し、レファレンスフィンガープリントの一番目フレーム（ｊ＝１）を選択して、該当のフレームのフレーム別特徴ベクターのハミング距離がスレショルド値以下であるかを判断する（Ｓ１２０）。

スレショルド値以下の場合、該当のレファレンスフィンガープリントをマッチング候補群に追加させ（Ｓ１３０）、該当のレファレンスフィンガープリントの残りフレームに対する比較は省き、次のレファレンスフィンガープリントを選択して図７のような過程を繰り返す。

スレショルド値以下ではない場合、ｊを１だけ増加させてレファレントフィンガープリントの次のフレーム（ｊ＝２）とクエリーフィンガープリントの一番目フレーム（ｉ＝１）のフレーム別特徴ベクターのハミング距離がスレショルド値以下であるかを判断する過程を繰り返す。この過程で、スレショルド値以下の場合が発見されれば、前述したように該当のレファレンスフィンガープリントをマッチング候補群に追加し、残りの次のフレームに対する比較を省略し、次のレファレンスフィンガープリントを選択するようになる。

該当のレファレンスフィンガープリントの最後フレームまでハミング距離がスレショルド値以下の場合が発見されない場合には、ｉを１増加させてクエリーフィンガープリントの次のフレームを選択し、再びｊ＝１にして前述したような過程を繰り返す。

このような過程によれば、与えられたクエリーフィンガープリントのフレームの中でいずれか一つでもレファレンスフィンガープリントにマッチングされる（すなわち、ハミング距離がスレショルド値以下である）フレームが発見される場合、該当のレファレンスフィンガープリントを直ちにマッチング候補群に追加し、該当のレファレンスフィンガープリントの残りのフレームに対する比較を省略することで、高速でＮ個のマッチング候補群を判別することができるようになる。

このような方法はフレーム別特徴ベクターを比較するものであるので、正確度が低下し得るが、前述したようにクエリーフィンガープリント抽出部１０でフレーム移動長さを短くする区間ではフレームの数がより多く生成されるので、正確度を最大に維持することができるようになる。

一方、ここで、マッチングされるレファレンスフィンガープリントをマッチング候補群に付け加えるとは、該当のレファレンスフィンガープリントの識別子（ＩＤ）をマッチング候補群に含めるという意味である。

また、前述した方法は、フレームを最初のフレームから順次比較する方法を例として説明したが、必ずしもこのような方法を使う必要はなく、ランダムにフレームを選択する方法または中間フレームから選択して前後のフレームに移動する方法を使うこともできる。重要なことは、フレーム単位で比較して、マッチングされるフレームがいずれか一つ発見されれば、該当のレファレンスフィンガープリントに対しては残りのフレームに対する比較を省略することで、正確度を維持しながらも高速マッチングを可能にするという点である。

このような過程によってＮ個のマッチング候補群が決まれば、第２マッチング部３２は該当のマッチング候補群に含まれたレファレンスフィンガープリントとクエリーフィンガープリントに対して２次マッチングを行う。

第２マッチング部３２は、前述したように、第１マッチング部３１によって決定されたマッチング候補群に含まれたレファレンスフィンガープリントの識別子に相応するレファレンスフィンガープリントとクエリーフィンガープリントを比較して最終のマッチング結果を生成する機能をする。

第２マッチング部３２が２次マッチングを行うために使用するマッチング方法は、第１マッチング部３１で行った１次マッチングより正確な結果を得るためのものである。この際、前述したように、クエリーフィンガープリント抽出部１０でフレーム移動長さを変動（短縮）させながら生成したフレームの特徴ベクターは除いて２次マッチングを行う。

すなわち、前もって設定されたフレーム移動長さを持つフレームの特徴ベクターだけでクエリーフィンガープリントを再構成し、これをマッチング候補群に含まれたレファレンスフィンガープリントと精密に比較することで最終のマッチング結果を算出するようになる。

一方、第２マッチング部３２で行うマッチング方法は、従来の知られたいずれの方法も使うことができるが、この方法そのものが本発明の究極の目的ではないので、これに対する詳細な説明は省略する。

また、図１を参照して認識結果提供部４０について説明する。

認識結果提供部４０は、前述したような過程によってフィンガープリントマッチング部３０で最終に判別されたレファレンスフィンガープリントに相応するコンテンツ情報を提供する機能をする。ここで、コンテンツ情報は、前述したように、マッチングされるものとして判別されたレファレンスフィンガープリントに相応するコンテンツ識別子、コンテンツ名前、著作権者、コンテンツ長さ、画質情報などの多様な情報を含むことができる。これらは前述したようにレファレンスフィンガープリントデータベース２０に保存されている。

図８はコンテンツ認識装置１００の連結及び配置状態を説明する図である。

図８を参照すれば、コンテンツ認識装置１００はクライアント端末機３００内に備えられることができ、クライアント端末機３００はインターネットや移動通信網などのネットワークを介してレファレンスフィンガープリントサーバー２００に連結されることができる。

クライアント端末機３００はコンピュータ、または例えばスマートフォンなどの移動通信端末機であることができる。

レファレンスフィンガープリントサーバー２００は、図８に示すように、フィンガープリント生成部２１０とコンテンツグループ別フィンガープリントデータベース２２０とを含むことができる。

フィンガープリント生成部２１０は、フィンガープリント生成対象となるすべてのオーディオ信号に対してフィンガープリントを生成する機能をする。これにより生成されたフィンガープリントはそれぞれのフィンガープリントに対応するコンテンツ情報とともにコンテンツグループ別フィンガープリントデータベース２２０に保存される。

コンテンツグループ別フィンガープリントデータベース２２０は、フィンガープリント生成部２１０で生成されたフィンガープリントとコンテンツ情報をグループ別にグループ化して保存する。グループ別に保存するのには多様な基準を適用することができ、例えば特定のコンテンツに対応してグループ化することができる。例えば、“ＡＡＡ”という歌に対応するすべてのフィンガープリントとコンテンツ情報をグループ化することができる。

他の方法としては、コンテンツ別にレファレンスフィンガープリントサーバー２００の管理者によって設定するようにすることでグループ化を行うこともできる。

このように、レファレンスフィンガープリントサーバー２００は、グループ化したフィンガープリントデータベースを構築しておき、クライアント端末機３００側にグループ化したフィンガープリントデータベースを伝送し、クライアント端末機３００のコンテンツ認識装置１００内のレファレンスフィンガープリントデータベース２０を受信して保存するようになる。

このように構成することにより、クライアント端末機３００で認識が完了すれば（すなわち、マッチングが完了すれば）、認識結果を認識結果提供部４０によって使用者に提供すると同時に、その結果をレファレンスフィンガープリントサーバー２００に伝送するように構成することもできる。このような場合、レファレンスフィンガープリントサーバー２００は、グループ化したコンテンツ別に特定使用者がグループ化したコンテンツに対してオーディオ信号を実際に聞いて認識をしたかを判別することができるようになる。したがって、これを広告方法に適用すれば、特定の使用者が特定のコンテンツを認識するようにし、その結果をサーバー側で集計することができるので、広告効果やイベントなどに有用に使うことができる利点がある。

一方、図１を再び参照すれば、コンテンツ認識装置１００はインターフェース提供部（図示せず）をさらに含むことができる。インターフェース提供部は、使用者がオーディオ信号を入力することができるようにしながら認識結果を使用者に提供するようにする使用者インターフェースを提供する機能をする。

例えば、使用者インターフェースを介してオーディオ信号認識開始ボタンを提供することで、使用者が該当のボタンをクリックする場合、オーディオ信号をマイクなどの音声入力手段によって一定時間獲得するようにすることができる。また、使用者インターフェースを介した認識（マッチング）が完了した場合、コンテンツ情報を、例えば“認識されたオーディオ信号は歌手ａａａのｂｂｂという曲です”などの形で使用者に提供することができる。

一方、図１〜図８で説明したように、クエリーフィンガープリント抽出部１０は入力されるオーディオ信号を所定のフレーム長さとフレーム移動長さで構成される複数のフレームに対してそれぞれのフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出する。

この際、このようなクエリーフィンガープリントを抽出するとき、一定の時間区間を設定しておき、時間区間単位でクエリーフィンガープリントを抽出しマッチングを行った後、その区間内でマッチングに失敗した場合、時間区間を増やしながら抽出及びマッチングを進めることもできる。

例えば、時間区間単位をＮ秒であるとすれば、入力オーディオ信号はＮ_１、Ｎ_２、Ｎ_３．．．Ｎ_Ｋの区間に分割できる。この際、Ｎは前述したフレーム長さよりは遥かに大きい値である。このような時間区間に対し、まずＮ_１の区間で前述したようなクエリーフィンガープリント抽出及びマッチングを行い、マッチングに失敗した場合、次の区間Ｎ_２に対してクエリーフィンガープリント抽出及びマッチングを行うことができる。これを繰り返しながらマッチングに成功すれば過程を終了し、マッチングにずっと失敗すれば継続して次の区間に移動しながら該当の区間のフレームに対して前述したようにクエリーフィンガープリント抽出及びマッチングを繰り返すようになる。

ここで、それぞれの時間区間の大きさは同一にすることが好ましいが、互いに異なるようにすることもできるのはいうまでもない。

また、例えばＮ_２の区間でクエリーフィンガープリント抽出及びマッチングを行うとき、Ｎ_１で抽出されたクエリーフィンガープリントを一緒に使うこともできるのはいうまでもない。

図９は図１〜図８で説明した本発明によるコンテンツ認識装置１００で行われるコンテンツ認識方法を示すフローチャートである。

図９を参照すれば、まずクエリーフィンガープリント抽出部１０で前述したような方法でクエリーフィンガープリントを抽出する（Ｓ１０００）。クエリーフィンガープリントが抽出されれば、フィンガープリントマッチング部２０の第１マッチング部２１が優先的に１次マッチングを行う（Ｓ１１００）。第１マッチング部２１での１次マッチングの結果は前述したようにＮ個のマッチング候補群を判別するようになる。

ついで、フィンガープリントマッチング部２０の第２マッチング部２２は、マッチング候補群に含まれたレファレンスフィンガープリントに対して２次マッチングを行い（Ｓ１２００）、最終マッチング結果を認識結果として生成するようになる（Ｓ１３００）。

以上、本発明による好適な実施例を説明したが、本発明はこれら実施例に限定されるものではないのはいうまでもない。

例えば、前記実施例においては、オーディオ信号に対してクエリーフィンガープリントを抽出しマッチングするもののみを説明したが、本発明はビデオ信号に対してもそのまま適用することができるのはいうまでもない。ビデオ信号は、オーディオ信号と比較するとき、特徴ベクターを生成する方法において違いあるだけで、前述したフレームを構成する方法はビデオ信号に対してもそのまま適用できるからである。

また、図７において、フレームを比較するとき、ハミング距離を比較する方法を例として説明したが、ハミング距離以外の他の従来の方法を使うこともできるのはいうまでもない。

また、図８において、コンテンツ認識装置１００はクライアント端末機３００内に一体的に含まれているものとして説明したが、コンテンツ認識装置１００のそれぞれの構成要素はネットワーク上に分散配置されることもできる。例えば、クエリーフィンガープリント抽出部１０とインターフェース提供部（図示せず）のみをクライアント端末機３００内に含むようにし、他の構成要素はネットワーク上に独立したサーバーとして分散して配置することもできる。例えば、レファレンスフィンガープリントデータベースとフィンガープリントマッチング部をそれぞれ別途のサーバーに配置することもでき、これら両要素のみを統合して一つのサーバーに配置することもできる。また、これら両要素をレファレンスフィンガープリントサーバー２００内に配置することもできる。重要なことは、コンテンツ認識装置１００は物理的に一つの装置として、あるいは一つの装置内に構成できるが、ネットワーク上に分散して配置されることもできる点である。

Claims

オーディオ信号を用いたコンテンツ認識装置において、
入力されるオーディオ信号に対し、前もって時間軸に沿って設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出するクエリーフィンガープリント抽出部；
クエリーフィンガープリントと比較すべきレファレンスフィンガープリントとレファレンスフィンガープリントに対応するコンテンツ情報を保存するレファレンスフィンガープリントデータベース；及び
前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別するフィンガープリントマッチング部
を含み、
前記クエリーフィンガープリント抽出部は、隣接したフレームの開始点間の時間軸に沿った間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成し、
前記クエリーフィンガープリント抽出部は、一部区間でのフレーム移動長さを前もって設定されたフレーム移動長さより短くしてフレームを形成し、
前記クエリーフィンガープリント抽出部は、前記一部区間に含まれるフレームに対するフレーム別特徴ベクターを、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターに基づいて生成し、
前記一部区間の開始位置に相応するフレームは前記開始位置を最後に含むフレームであり、
前記一部区間の終了位置に相応するフレームは前記終了位置を初めて含むフレームであり、
一部区間に含まれるフレームのフレーム別特徴ベクターを、
前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターを生成し、生成されたフレーム別特徴ベクターに基づいて線形補間法によって、
または、
前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターは二進数で形成され、前記二進数で形成されたフレーム別特徴ベクターのそれぞれのビットを比較し、相異なるビットに可能な二進数を配列することにより、
生成することを特徴とする、オーディオ信号を用いたコンテンツ認識装置。
前記フレーム移動長さは、隣接したフレームが互いに重なるようにフレーム長さより短いことを特徴とする、請求項１に記載のオーディオ信号を用いたコンテンツ認識装置。
前記クエリーフィンガープリント抽出部は、前もって設定された時間区間に基づいて前記一部区間を決定することを特徴とする、請求項１または２に記載のオーディオ信号を用いたコンテンツ認識装置。
前記クエリーフィンガープリント抽出部は、信号対雑音比が臨界値より高い値を持つ時間区間を検出し、検出された時間区間に基づいて前記一部区間を決定することを特徴とする、請求項１から３のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
前記クエリーフィンガープリント抽出部は、前記決定された一部区間にあたるフレームのそれぞれに対してフレーム別特徴ベクターを生成することを特徴とする、請求項３または４に記載のオーディオ信号を用いたコンテンツ認識装置。
前記フィンガープリントマッチング部は、
前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるフレーム特徴ベクターが含まれたレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより１次マッチングを行う第１マッチング部；及び
前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して２次マッチングを行う第２マッチング部；
を含むことを特徴とする、請求項１から５のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
前記第１マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとハミング距離がスレショルド値以下のフレーム特徴ベクターが含まれたレファレンスフィンガープリントをマッチングされるレファレンスフィンガープリントとして判別することを特徴とする、請求項６に記載のオーディオ信号を用いたコンテンツ認識装置。
前記第１マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターをレファレンスフィンガープリントのフレーム別特徴ベクターと順次比較し、マッチングされるフレームが検出された場合、以後のフレームに対する比較を省略し、次のレファレンスフィンガープリントに対する比較を行うことを特徴とする、請求項６または７に記載のオーディオ信号を用いたコンテンツ認識装置。
第２マッチング部は、
前記クエリーフィンガープリントを構成するフレーム別特徴ベクターの中で、前もって設定されたフレーム移動長さではないフレームを除いてフレーム別特徴ベクターを再構成し、再構成されたフレーム別特徴ベクターをレファレンスフィンガープリントと比較することを特徴とする、請求項６から８のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報を提供する認識結果提供部をさらに含むことを特徴とする、請求項１から９のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
前記オーディオ信号を用いたコンテンツ認識装置はクライアント端末機内に含まれることを特徴とする、請求項１から１０のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
前記レファレンスフィンガープリントデータベースはレファレンスフィンガープリントサーバーからレファレンスフィンガープリント及びコンテンツ情報を受信して保存することを特徴とする、請求項１から１１のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
使用者がオーディオ信号を入力することができるようにする使用者インターフェースを提供するインターフェース提供部をさらに含むことを特徴とする、請求項１から１２のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報は前記レファレンスフィンガープリントサーバーに伝送されることを特徴とする、請求項１２に記載のオーディオ信号を用いたコンテンツ認識装置。
前記クエリーフィンガープリント抽出部は、前もって設定された区間単位で該当の区間に含まれるフレームに対するフレーム別特徴ベクターを生成することにより区間別クエリーフィンガープリントを抽出し、前記フィンガープリントマッチング部は前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別し、
前記フィンガープリントマッチング部でマッチングされるレファレンスフィンガープリントが判別されるまでクエリーフィンガープリント抽出部が前記前もって設定された区間単位で区間別クエリーフィンガープリントを連続的に抽出することを特徴とする、請求項１から１４のうち何れか１項に記載のオーディオ信号を用いたコンテンツ認識装置。
オーディオ信号を用いたコンテンツ認識方法において、
入力されるオーディオ信号に対して前もって時間軸に沿って設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出する第１段階；及び
前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別する第２段階
を含み、
前記第１段階は、隣接したフレームの開始点間の時間軸に沿った間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成し、
前記第１段階は、一部区間でのフレーム移動長さを前もって設定されたフレーム移動長さより短くしてフレームを形成し、
前記第１段階は、前記一部区間に含まれるフレームに対するフレーム別特徴ベクターを、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターに基づいて生成し、
前記一部区間の開始位置に相応するフレームは前記開始位置を最後に含むフレームであり、
前記一部区間の終了位置に相応するフレームは前記終了位置を初めて含むフレームであり、
一部区間に含まれるフレームのフレーム別特徴ベクターを、
前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターを生成し、生成されたフレーム別特徴ベクターに基づいて線形補間法によって、
または、
前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターは二進数で形成され、前記二進数で形成されたフレーム別特徴ベクターのそれぞれのビットを比較し、相異なるビットに可能な二進数を配列することにより、
生成することを特徴とする、オーディオ信号を用いたコンテンツ認識方法。
前記第２段階は、
前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより１次マッチングを行う第２−１段階；及び
前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して２次マッチングを行う第２−２段階
を含むことを特徴とする、請求項１６に記載のオーディオ信号を用いたコンテンツ認識方法。