JP5813221B2 - オーディオ信号を用いたコンテンツ認識装置及び方法 - Google Patents

オーディオ信号を用いたコンテンツ認識装置及び方法 Download PDF

Info

Publication number
JP5813221B2
JP5813221B2 JP2014516896A JP2014516896A JP5813221B2 JP 5813221 B2 JP5813221 B2 JP 5813221B2 JP 2014516896 A JP2014516896 A JP 2014516896A JP 2014516896 A JP2014516896 A JP 2014516896A JP 5813221 B2 JP5813221 B2 JP 5813221B2
Authority
JP
Japan
Prior art keywords
frame
fingerprint
audio signal
matching
specific feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014516896A
Other languages
English (en)
Other versions
JP2014520287A (ja
Inventor
チョ、フン−ヨン
リ、ジェヒョン
シェーカル ディル、チャンドラ
シェーカル ディル、チャンドラ
Original Assignee
エンサーズ カンパニー リミテッド
エンサーズ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エンサーズ カンパニー リミテッド, エンサーズ カンパニー リミテッド filed Critical エンサーズ カンパニー リミテッド
Publication of JP2014520287A publication Critical patent/JP2014520287A/ja
Application granted granted Critical
Publication of JP5813221B2 publication Critical patent/JP5813221B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Description

本発明はオーディオ信号を用いたコンテンツ認識装置及び方法に係り、より詳しくは入力されるオーディオ信号のフィンガープリント(fingerprint)に基づいてマッチングされるコンテンツ(content)情報を提供することができる装置及び方法に関する。
ネットワーク及びインターネット技術の発達及びスマートフォン(smart phone)のような移動通信端末機の急速な普及に伴って、オーディオやビデオを用いた多様なサービスがネットワークを通じて提供されている。また、これと同時に、オーディオやビデオに対して同一性有無を判別するための方法として、フィンガープリント(fingerprint)を用いる方法も広く使われており、フィンガープリントを用いてネットワークを通じて多様なオーディオやビデオを認識する技術も提案されている。
フィンガープリントを用いてオーディオやビデオを認識する技術は、与えられたオーディオまたはビデオ信号をフレーム単位で分割しながらフレームの特徴ベクターを生成し、これらを用いてマッチングを行う方法を使うが、従来のフィンガープリント生成及びマッチング方法は演算量が膨大であってフィンガープリント生成及びマッチングに時間がかかり、ネットワーク上の資源に負荷を加えるという問題点がある。これを解消するために、生成するフィンガープリントの量を減らすとかマッチング過程を単純化することはできるが、このような場合にはマッチングの正確性が低下するという問題点が発生する。
特許文献1(2004年11月10日公開)は“オーディオ遺伝子生成方法及びオーディオデータ検索方法”に関するもので、オーディオ信号を一定の時間間隔で分割する時間分割段階と;時間間隔でまたは多数の時間間隔に含まれる周波数の信号の大きさを計算する周波数変換段階と;周波数領域を一定の区間に分割し、隣接周波数区間間の信号の大きさの差を計算する差計算段階と;隣接時間間隔間の前記計算値の差を求める勾配計算段階と;前記勾配が0以上の場合に1に、0未満の場合に0に量子化する量子化段階と;前記量子化された値を保存してオーディオ遺伝子を生成するオーディオ遺伝子生成段階とを持つオーディオ遺伝子生成方法について開示している。
しかし、このような技術は演算量が膨大でフィンガープリントの抽出過程が複雑であるため、負荷を引き起こすとともに、結果算出時までの時間が過多にかかるという限界点を持っている。
したがって、負荷を引き起こさないで早く正確な結果を提供することができるフィンガープリント抽出及びマッチング方法の開発が要望されていると言える。
韓国特許第10−0456408号公報
本発明は前記のような問題点を解決するためになされたもので、速かに結果を提供しながらもマッチングの正確性及び信頼性を維持することができるオーディオ信号を用いたコンテンツ認識装置及び方法を提供することを目的とする。
特に、本発明は、入力されるオーディオ信号を複数のフレームに分割しながら、フレームの開始点間の間隔であるフレーム移動長さを多い情報量を持っている区間に対して可変的に構成することで、正確性を維持しながらも迅速なマッチング結果を提供することができる装置及び方法を提供することを目的とする。
前記のような目的を達成するために、本発明は、オーディオ信号を用いたコンテンツ認識装置であって、入力されるオーディオ信号に対し、前もって設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出するクエリーフィンガープリント抽出部;クエリーフィンガープリントと比較すべきレファレンスフィンガープリントとレファレンスフィンガープリントに対応するコンテンツ情報を保存するレファレンスフィンガープリントデータベース;及び前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別するフィンガープリントマッチング部を含み、前記クエリーフィンガープリント抽出部は、隣接したフレームの開始点間の間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成することを特徴とする、オーディオ信号を用いたコンテンツ認識装置を提供する。
ここで、前記フレーム移動長さは、隣接したフレームが互いに重なるようにフレーム長さより短いことができる。
また、前記クエリーフィンガープリント抽出部は、一部区間でのフレーム移動長さを前もって設定されたフレーム移動長さより短くしてフレームを形成することができる。
また、前記クエリーフィンガープリント抽出部は、前もって設定された時間区間に基づいて前記一部区間を決定することができる。
また、前記クエリーフィンガープリント抽出部は、信号対雑音比が臨界値より高い値を持つ時間区間を検出し、検出された時間区間に基づいて前記一部区間を決定することができる。
また、前記クエリーフィンガープリント抽出部は、前記決定された一部区間にあたるフレームのそれぞれに対してフレーム別特徴ベクターを生成することができる。
また、前記クエリーフィンガープリント抽出部は、前記決定された一部区間に含まれるフレームに対するフレーム別特徴ベクターを、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターに基づいて生成することができる。
また、前記一部区間の開始位置に相応するフレームは前記開始位置を最後に含むフレームであってもよく、前記一部区間の終了位置に相応するフレームは前記終了位置を初めて含むフレームであってもよい。
また、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターを生成し、生成されたフレーム別特徴ベクターに基づいて線形補間法によって一部区間に含まれるフレームのフレーム別特徴ベクターを生成することができる。
また、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターは二進数で形成され、前記二進数で形成されたフレーム別特徴ベクターのそれぞれのビットを比較し、相異なるビットに可能な二進数を配列することにより、一部区間に含まれるフレームのフレーム別特徴ベクターを生成することができる。
また、前記フィンガープリントマッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるフレーム特徴ベクターが含まれたレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより1次マッチングを行う第1マッチング部;及び前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して2次マッチングを行う第2マッチング部;を含むことができる。
また、前記第1マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとハミング距離がスレショルド値以下のフレーム特徴ベクターが含まれたレファレンスフィンガープリントをマッチングされるレファレンスフィンガープリントとして判別することができる。
また、前記第1マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターをレファレンスフィンガープリントのフレーム別特徴ベクターと順次比較し、マッチングされるフレームが検出された場合、以後のフレームに対する比較を省略し、次のレファレンスフィンガープリントに対する比較を行うことができる。
また、第2マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターの中で、前もって設定されたフレーム移動長さではないフレームを除いてフレーム別特徴ベクターを再構成し、再構成されたフレーム別特徴ベクターをレファレンスフィンガープリントと比較することができる。
また、前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報を提供する認識結果提供部をさらに含むことができる。
また、前記オーディオ信号を用いたコンテンツ認識装置はクライアント端末機内に含まれることができる。
また、前記レファレンスフィンガープリントデータベースはレファレンスフィンガープリントサーバーからレファレンスフィンガープリント及びコンテンツ情報を受信して保存することができる。
また、使用者がオーディオ信号を入力することができるようにする使用者インターフェースを提供するインターフェース提供部をさらに含むことができる。
また、前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報は前記レファレンスフィンガープリントサーバーに伝送されることができる。
また、前記クエリーフィンガープリント抽出部は、前もって設定された区間単位で該当の区間に含まれるフレームに対するフレーム別特徴ベクターを生成することにより区間別クエリーフィンガープリントを抽出し、前記フィンガープリントマッチング部は前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別し、前記フィンガープリントマッチング部でマッチングされるレファレンスフィンガープリントが判別されるまでクエリーフィンガープリント抽出部が前記前もって設定された区間単位で区間別クエリーフィンガープリントを連続的に抽出することができる。
本発明の他の面によれば、オーディオ信号を用いたコンテンツ認識方法であって、入力されるオーディオ信号に対して前もって設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出する第1段階;及び前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別する第2段階を含み、前記第1段階は、隣接したフレームの開始点間の間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成することを特徴とする、オーディオ信号を用いたコンテンツ認識方法を提供する。
ここで、前記第2段階は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより1次マッチングを行う第2−1段階;及び前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して2次マッチングを行う第2−2段階を含むことができる。
本発明によれば、速かに結果を提供しながらもマッチングの正確性及び信頼性を維持することができるオーディオ信号を用いたコンテンツ認識装置及び方法を提供することができる。
本発明によれば、入力されるオーディオ信号を複数のフレームに分割しながらフレームの開始点間の間隔であるフレーム移動長さを多い情報量を持っている区間に対して可変的に構成することで、正確性を維持しながらも迅速なマッチング結果を提供することができる。
また、本発明は可変的区間に対して生成されるフレームを1次マッチングに使い、1次マッチングではフレーム別にマッチングされるフレームを持つレファレンスフィンガープリントを複数のマッチング候補群に含め、2次マッチングでマッチング候補群に含まれたレファレンスに対して精密比較を行う2段階のマッチング方法を使うので、迅速性及び正確性を持つコンテンツ認識装置及び方法を提供することができる。
本発明によるオーディオ信号を用いたコンテンツ認識装置100の一実施例の構成を示す図である。 クエリーフィンガープリント抽出部10でフレームを形成し、フレーム別に特徴ベクターを形成する方法を説明する図である。 フレーム移動長さを一定区間で変動させる場合を説明する図である。 隣接したフレームフィンガープリントによってフレームフィンガープリントを生成する過程を説明する図である。 隣接したフレームフィンガープリントによってフレームフィンガープリントを生成するさらに他の方法を説明する図である。 フィンガープリントマッチング部30の構成を示す図である。 第1マッチング部31の動作を説明する図である。 コンテンツ認識装置100の連結及び配置状態を説明する図である。 本発明によるコンテンツ認識装置100で行われるコンテンツ認識方法を示すフローチャートである。
以下、添付図面に基づいて本発明による実施例を詳細に説明する。
図1は本発明によるオーディオ信号を用いたコンテンツ認識装置100の一実施例の構成を示す図である。
図1を参照すれば、本実施例によるオーディオ信号を用いたコンテンツ認識装置100(以下、コンテンツ認識装置と言う)は、クエリーフィンガープリント抽出部10、レファレンスフィンガープリントデータベース20、フィンガープリントマッチング部30及び認識結果提供部40を含む。
クエリーフィンガープリント(query fingerprint)抽出部10は、入力されるオーディオ信号に対し、前もって設定されたフレーム長さ(frame length)を持つ複数のフレームを形成し、それぞれのフレーム別にフレーム別特徴ベクター(feature vector)を生成することで、クエリー(query)、つまり比較対象となるフィンガープリント(fingerprint)を抽出する機能をする。ここで、複数のフレームは隣接したフレームの開始点間の間隔であるフレーム移動長さ(shift size)を一部区間で変動させながら形成される。
一方、ここで、フィンガープリント(fingerprint)とは、オーディオデータ、イメージデータまたは動画データなどのデータの特徴を示す特徴データを意味するもので、指紋データ、DNAデータまたは遺伝子データとも言う。このようなフィンガープリントを抽出し、これを用いてデータを比較する技術としては、従来技術によってさまざまな方式が提案されている。このようなフィンガープリントを活用すれば、データの同一性有無を易しく判別することができるので、著作権管理(DRM)分野などに近年幅広く使われている。
例えば、オーディオ信号の場合、オーディオ信号の特徴を示す各種特徴データ(例えば、周波数、振幅など)を用いてフィンガープリントを生成し、イメージや動画信号の場合、イメージや動画信号のさまざまな特徴データ(例えば、フレームのモーションベクター情報、色相情報など)を用いてフィンガープリントを生成することができる。本発明はこのようなフィンガープリントを生成する方法そのものを目的とするものではなく、従来の技術による任意の形態のフィンガープリント生成/抽出方法をそのまま使うことができるので、これについての詳細な説明は省略する。
本出願人が出願した大韓民国特許出願番号第10−2007−0044251号(オーディオフィンガープリントデータ生成方法及び装置並びにこれを用いたオーディオデータ比較方法及び装置)、同第10−2007−0054601号(動画データの同一性判断及び同一区間検出方法及び装置)、同第10−2007−0060978号(動画データを互いに同一性のある動画データどうしクラスタリングする方法及びシステム)、同第10−2007−0071633号(動画データクラスタを用いた動画データ検索サービス提供方法及び装置)、同第10−2007−0091587号(動画データクラスタを用いた広告データ設定及び提供方法及び装置)、及び同第10−2008−0051688号(動画処理方法及びその装置)によれば、オーディオ、イメージまたはビデオデータのフィンガープリントを生成する方法と、このようなフィンガープリントを用いてデータを比較する方法とについて開示されている。このような本出願人のフィンガープリント生成及び抽出方法を本発明に使うこともできるのはいうまでもない。要するに、本発明は、フィンガープリントを抽出する方式がどんなものであるかに関係なく、従来に知られているフィンガープリント生成/抽出技術をそのまま使うことができる。
図2はクエリーフィンガープリント抽出部10でフレームを形成し、フレーム別に特徴ベクターを形成する方法を説明する図である。
図2を参照すれば、入力されるオーディオ信号に対して所定大きさのフレーム長さを持つフレームを所定のフレーム移動長さだけのフレームの開始点が間隔を置いて形成されていることが分かる。オーディオ信号の横軸は時間(time)であり得る。それぞれのフレーム(T)に対するフレーム特徴ベクターをF(T)とすると、与えられたオーディオ信号に対する最終フィンガープリントは、図2の下端に示すように、これらフレーム特徴ベクターの集合と見なすことができる(F(T)、F(T)、F(T)、...、F(Tn−1)、F(T))。この際、フレーム特徴ベクターは最終に二進数形のバイナリーベクター(binary vector)に生成できる。ここで、本発明は、フレーム移動長さをオーディオ信号の一定区間に対して変動させることを一特徴とする。
図3はフレーム移動長さを一定区間で変動させる場合を説明する図である。図3を参照すれば、オーディオ信号の一定区間(A〜B)でフレーム移動長さが前もって設定されたフレーム移動長さから変動、つまり短縮されていることが分かる。
すなわち、オーディオ信号の最初位置から前もって設定されたフレーム大きさ単位に前もって設定されたフレーム移動長さだけのフレームの開始点を移動しながらフレームを形成し、特定区間に対しては前もって設定されたフレーム移動長さを変動、つまり短縮させてフレームの開始点を移動させながらフレームを形成し、形成されたフレームに対してフレーム別特徴ベクターを抽出する。
図3において、フレーム移動長さは前もって設定された移動長さより短くなるものとして示したが、移動長さは前もって設定された移動長さより長くなるようにすることもできる。このように、フレームの移動長さを一部区間で変動させることは、オーディオ信号の特定区間は他の区間に比べて多いか少ない情報量を含む場合が多いので、このような点を考慮してフレームをより多くまたは少なく生成するためである。
例えば、特定区間が他の区間に比べて多い情報を含むなら、該当の区間に対してはより詳細な分析が必要である。このためには、生成されるフレームの数を増加させれば、より多い情報を含むフィンガープリントを生成することができるようになる。一方、特定区間の情報が少ない場合であれば、該当の区間に対してはより緩く分析することができる。このために、生成されるフレームの数を減少させることができるようになる。
フレームの数を増加させれば、すなわちフレームの移動長さを短くすれば、フレーム別の特徴ベクターの数が増えるので、後述するように、フィンガープリントマッチング部、特に1次マッチング部でN個の候補群を高速でマッチングするのに非常に有用に使われることができる。この点についての詳細はマッチング部30に基づいて後述する。
一方、フレーム移動長さは、図2及び図3に示すように、互いに隣接するフレームがオーディオ信号の時間軸を基準として互いに重なるように形成されることが好ましい。これは結局フレーム移動長さをフレーム長さより短くすることを意味する。もちろん、フレーム移動長さをフレーム長さと同じにするかあるいはそれより大きくする場合にも本発明は適用可能である。
一方、フレーム移動長さをオーディオ信号の特定区間に対して変動、例えば短くするかは、例えば次のような基準によって決定することができる。
まず、特定の時間区間を設定し、この時間区間に対してフレーム移動長さを短くすることができる。例えば、前もって設定されるフレーム移動長さを20msに設定し、オーディオ信号の開始点から2秒間、終了点から2秒以前までの区間に対してはフレーム移動長さを5msにすることができる。他の方法としては、オーディオ信号の中間区間、例えば2秒〜4秒間をフレーム移動長さを短くする区間に設定することができる。このように時間区間を指定する方式の外に、オーディオ信号の全時間の中間値を含み前後区間を指定するなどの方式を使うこともできる。
また、使用者からフレーム移動長さを短くすべき区間を受けて設定する方法も可能である。
このように時間区間が設定されれば、該当の時間区間までフレームを前もって設定されたフレーム移動長さだけ移動しながらフレームを形成し、設定された時間区間に到逹する場合、その時点からはフレーム移動長さを短くして開始点を短縮されたフレーム移動長さだけ移動しながらフレームを形成する。設定された時間区間が終われば、さらに元々設定されたフレーム移動長さずつフレームの開始点を移動させながらフレームを形成し、フレーム別特徴ベクターを生成する過程を繰り返す。
一方、フレーム移動長さを変動させる区間を決定することは、信号対雑音比(S/N ratio)を用いることもできる。信号対雑音比の高い区間はより多い情報量を含むものとして見なすことができるので、オーディオ信号に対して予め一定時間区間単位で信号対雑音比を計算し、臨界値より高い信号対雑音比を持つ時間区間を決め、該当の時間区間に対してフレーム移動長さを短くすることもできる。信号対雑音比を計算することは従来技術に広く知られているのでその詳細説明は省略する。
このような過程により、クエリーフィンガープリント抽出部10は、フレームを形成しながらそれぞれのフレームに対してフレーム別特徴ベクターを生成することにより、入力オーディオ信号に対するクエリーフィンガープリントを生成することになる。ここで、フレーム別に特徴ベクターを生成する具体的な過程は従来の技術をそのまま用いることができる。
例えば、次のような方法を使うことができる。すなわち、入力されるオーディオ信号に対して高速フーリエ変換(Fast Fourier Transformation、FFT)を行って周波数領域のスペクトラムを計算し、これからパワースペクトラム(power spectrum)または大きさスペクトラム(magnitude spectrum)を計算した後、N個のフィルターで構成されたフィルターバンク(filter bank)を通過させる。ここで、一つのフィルターは特定周波数範囲内の信号成分のみを抽出する役目をし、それぞれのフィルターによって抽出された信号成分に対して通常の信号処理方法でエネルギー値を計算すれば、N次のフィルターバンクエネルギーが生成され、この値をフレーム別特徴ベクターとして使うことができる。
一方、クエリーフィンガープリント抽出部10は、前述したように、フレーム移動長さを短くする区間に含まれるフレームに対してはフレーム別フィンガープリントを直接生成する代わりに、周辺のフレームフィンガープリントを用いる方法を使うことができる。
図3を参照すれば、A〜B区間に属するフレーム、すなわちフレーム別移動区間が短くなる区間に属するフレームが例えば10個であると仮定すると、これら10個のフレーム特徴ベクターは隣接したフレームフィンガープリントによって線形補間法(linear interpolation)で生成できる。
図4は隣接したフレームフィンガープリントによってフレームフィンガープリントを生成する過程を説明する図である。
図4を参照すれば、オーディオ信号のA〜B区間はフレーム移動長さが短くなる区間であり、これらの間にL個のフレームが形成され、これらそれぞれのフレームに対してフレーム別特徴ベクターを生成しなければならない。この際、L個のフレームに対するフレーム特徴ベクターはA〜B区間の開始位置を最後に含む以前フレームとA〜B区間の終了位置を初めて含む後続フレームに対してフレーム特徴ベクターを計算し(T、Tn+L)、これら値に基づいて線形補間法(linear interpolation)を適用してL個のフレームに対するフレーム特徴ベクターをそれぞれ生成することができるようになる。例えば、Tnの値が1、Tn+Lの値が10であり、8個のフレームが含まれるなら、それぞれのフレームの特徴ベクターの値は線形補間法によって2、3、4、5、6、7、8、9に決定することができる。
このような方法を使えば、フレームの数を増加させてより多い情報量を持つ信号区間に対するより精密な分析ができるようにしながらも演算量を大きく増加させないという利点を持つ。
図5は隣接したフレームフィンガープリントによってフレームフィンガープリントを生成するさらに他の方法を説明する図である。
図5の方法は図4の方法と類似しているが、移動長さが短くなる区間に含まれるフレームに対する特徴ベクターをビットの比較によって生成することを特徴とする。フレーム特徴ベクターは、前述したような方法によって最終に二進数の形に生成でき、隣接したフレームのフレーム特徴ベクターを互いにビット別に比較して一致しないビットを捜し出した後、このビットに対して可能な場合の二進数をビットフリッピング(Bit Flipping)することで、A〜B区間に含まれるフレームに対する特徴ベクターを生成することができる。例えば、互いに異なるビット数がR個であれば、2個のフレーム特徴ベクターを生成することができ、よって2個のフレームをA〜B区間に挿入することができる。この場合、A〜B区間におけるフレーム移動長さはRによって決定される。
再び、図1を参照してコンテンツ認識装置100の他の構成について説明する。
レファレンスフィンガープリントデータベース(Reference fingerprint database)20は、クエリーフィンガープリントと比較すべきレファレンスフィンガープリントと、レファレンスフィンガープリントに対応するコンテンツ情報を保存する機能をする。すなわち、クエリーフィンガープリントと比較すべき対象となるレファレンスとしてのフィンガープリントと、これらに対するコンテンツ情報を保存していて、前述したようにクエリーフィンガープリント抽出部10でクエリーフィンガープリントが抽出されれば、後述するフィンガープリントマッチング部30でクエリーフィンガープリントとレファレンスフィンガープリントデータベース20に保存されたレファレンスフィンガープリントを比較して、マッチングされるレファレンスフィンガープリントを判別するようになる。
ここで、コンテンツ情報は、コンテンツの識別子(ID)を含み、コンテンツの名前、著作権者、長さ、画質情報、ファイル名、説明データなどとその他の関連データを含むことができる。
レファレンスフィンガープリントデータベース20は、ネットワークを介して外部の別途のレファレンスフィンガープリントサーバーからレファレンスフィンガープリントとコンテンツ情報を受信するように構成することもできる。
一方、フィンガープリントマッチング(fingerprint matching)部30は、クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別する機能をする。前述したように、クエリーフィンガープリント抽出部10でクエリーフィンガープリントが抽出され、フィンガープリントマッチング部30はこのようなクエリーフィンガープリントと、レファレンスフィンガープリントデータベース20に保存されているレファレンスフィンガープリントを比較して、マッチングされるレファレンスフィンガープリントを判別する。
図6はフィンガープリントマッチング部30の構成を示す図である。図6を参照すれば、フィンガープリントマッチング部30は1次マッチング部31と2次マッチング部32を含む。
第1マッチング部31は、クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを例えばN−Best方式で選んで複数のマッチング候補群を優先的に構成し、第2マッチング部32は、マッチング候補群に含まれたレファレンスフィンガープリントを対象として精密分析を行うことで、より正確なマッチング結果を提供するようになる。
第1マッチング部31は、複数のマッチング候補群を選別するために、フレーム単位でマッチングされるフィンガープリントが一つでも存在するかどうかを判別する方法を使うことができる。
図7は第1マッチング部31の動作を説明する図である。
図7を参照すれば、まずレファレンスフィンガープリントデータベース20からクエリーフィンガープリントと比較すべきレファレンスフィンガープリントを選択し、クエリーフィンガープリントのi番目フレームと選択されたレファレンスフィンガープリントのj番目フレームのフレーム別特徴ベクターを比較して、例えばハミング距離(Hamming Distance)が前もって設定しておいたスレショルド(threshold)値以下であるかを判断する(S100、S110、S120)。
ここで、クエリーフィンガープリントのi番目フレームと選択されたレファレンスフィンガープリントのj番目フレームは最初のフレームから順次選択することができる。すなわち、クエリーフィンガープリントと選択されたレファレンスフィンガープリントの最初フレームからiとjを順次増加させながらハミング距離を判断する。
例えば、クエリーフィンガープリントの一番目フレーム(i=1)を選択し、レファレンスフィンガープリントの一番目フレーム(j=1)を選択して、該当のフレームのフレーム別特徴ベクターのハミング距離がスレショルド値以下であるかを判断する(S120)。
スレショルド値以下の場合、該当のレファレンスフィンガープリントをマッチング候補群に追加させ(S130)、該当のレファレンスフィンガープリントの残りフレームに対する比較は省き、次のレファレンスフィンガープリントを選択して図7のような過程を繰り返す。
スレショルド値以下ではない場合、jを1だけ増加させてレファレントフィンガープリントの次のフレーム(j=2)とクエリーフィンガープリントの一番目フレーム(i=1)のフレーム別特徴ベクターのハミング距離がスレショルド値以下であるかを判断する過程を繰り返す。この過程で、スレショルド値以下の場合が発見されれば、前述したように該当のレファレンスフィンガープリントをマッチング候補群に追加し、残りの次のフレームに対する比較を省略し、次のレファレンスフィンガープリントを選択するようになる。
該当のレファレンスフィンガープリントの最後フレームまでハミング距離がスレショルド値以下の場合が発見されない場合には、iを1増加させてクエリーフィンガープリントの次のフレームを選択し、再びj=1にして前述したような過程を繰り返す。
このような過程によれば、与えられたクエリーフィンガープリントのフレームの中でいずれか一つでもレファレンスフィンガープリントにマッチングされる(すなわち、ハミング距離がスレショルド値以下である)フレームが発見される場合、該当のレファレンスフィンガープリントを直ちにマッチング候補群に追加し、該当のレファレンスフィンガープリントの残りのフレームに対する比較を省略することで、高速でN個のマッチング候補群を判別することができるようになる。
このような方法はフレーム別特徴ベクターを比較するものであるので、正確度が低下し得るが、前述したようにクエリーフィンガープリント抽出部10でフレーム移動長さを短くする区間ではフレームの数がより多く生成されるので、正確度を最大に維持することができるようになる。
一方、ここで、マッチングされるレファレンスフィンガープリントをマッチング候補群に付け加えるとは、該当のレファレンスフィンガープリントの識別子(ID)をマッチング候補群に含めるという意味である。
また、前述した方法は、フレームを最初のフレームから順次比較する方法を例として説明したが、必ずしもこのような方法を使う必要はなく、ランダムにフレームを選択する方法または中間フレームから選択して前後のフレームに移動する方法を使うこともできる。重要なことは、フレーム単位で比較して、マッチングされるフレームがいずれか一つ発見されれば、該当のレファレンスフィンガープリントに対しては残りのフレームに対する比較を省略することで、正確度を維持しながらも高速マッチングを可能にするという点である。
このような過程によってN個のマッチング候補群が決まれば、第2マッチング部32は該当のマッチング候補群に含まれたレファレンスフィンガープリントとクエリーフィンガープリントに対して2次マッチングを行う。
第2マッチング部32は、前述したように、第1マッチング部31によって決定されたマッチング候補群に含まれたレファレンスフィンガープリントの識別子に相応するレファレンスフィンガープリントとクエリーフィンガープリントを比較して最終のマッチング結果を生成する機能をする。
第2マッチング部32が2次マッチングを行うために使用するマッチング方法は、第1マッチング部31で行った1次マッチングより正確な結果を得るためのものである。この際、前述したように、クエリーフィンガープリント抽出部10でフレーム移動長さを変動(短縮)させながら生成したフレームの特徴ベクターは除いて2次マッチングを行う。
すなわち、前もって設定されたフレーム移動長さを持つフレームの特徴ベクターだけでクエリーフィンガープリントを再構成し、これをマッチング候補群に含まれたレファレンスフィンガープリントと精密に比較することで最終のマッチング結果を算出するようになる。
一方、第2マッチング部32で行うマッチング方法は、従来の知られたいずれの方法も使うことができるが、この方法そのものが本発明の究極の目的ではないので、これに対する詳細な説明は省略する。
また、図1を参照して認識結果提供部40について説明する。
認識結果提供部40は、前述したような過程によってフィンガープリントマッチング部30で最終に判別されたレファレンスフィンガープリントに相応するコンテンツ情報を提供する機能をする。ここで、コンテンツ情報は、前述したように、マッチングされるものとして判別されたレファレンスフィンガープリントに相応するコンテンツ識別子、コンテンツ名前、著作権者、コンテンツ長さ、画質情報などの多様な情報を含むことができる。これらは前述したようにレファレンスフィンガープリントデータベース20に保存されている。
図8はコンテンツ認識装置100の連結及び配置状態を説明する図である。
図8を参照すれば、コンテンツ認識装置100はクライアント端末機300内に備えられることができ、クライアント端末機300はインターネットや移動通信網などのネットワークを介してレファレンスフィンガープリントサーバー200に連結されることができる。
クライアント端末機300はコンピュータ、または例えばスマートフォンなどの移動通信端末機であることができる。
レファレンスフィンガープリントサーバー200は、図8に示すように、フィンガープリント生成部210とコンテンツグループ別フィンガープリントデータベース220とを含むことができる。
フィンガープリント生成部210は、フィンガープリント生成対象となるすべてのオーディオ信号に対してフィンガープリントを生成する機能をする。これにより生成されたフィンガープリントはそれぞれのフィンガープリントに対応するコンテンツ情報とともにコンテンツグループ別フィンガープリントデータベース220に保存される。
コンテンツグループ別フィンガープリントデータベース220は、フィンガープリント生成部210で生成されたフィンガープリントとコンテンツ情報をグループ別にグループ化して保存する。グループ別に保存するのには多様な基準を適用することができ、例えば特定のコンテンツに対応してグループ化することができる。例えば、“AAA”という歌に対応するすべてのフィンガープリントとコンテンツ情報をグループ化することができる。
他の方法としては、コンテンツ別にレファレンスフィンガープリントサーバー200の管理者によって設定するようにすることでグループ化を行うこともできる。
このように、レファレンスフィンガープリントサーバー200は、グループ化したフィンガープリントデータベースを構築しておき、クライアント端末機300側にグループ化したフィンガープリントデータベースを伝送し、クライアント端末機300のコンテンツ認識装置100内のレファレンスフィンガープリントデータベース20を受信して保存するようになる。
このように構成することにより、クライアント端末機300で認識が完了すれば(すなわち、マッチングが完了すれば)、認識結果を認識結果提供部40によって使用者に提供すると同時に、その結果をレファレンスフィンガープリントサーバー200に伝送するように構成することもできる。このような場合、レファレンスフィンガープリントサーバー200は、グループ化したコンテンツ別に特定使用者がグループ化したコンテンツに対してオーディオ信号を実際に聞いて認識をしたかを判別することができるようになる。したがって、これを広告方法に適用すれば、特定の使用者が特定のコンテンツを認識するようにし、その結果をサーバー側で集計することができるので、広告効果やイベントなどに有用に使うことができる利点がある。
一方、図1を再び参照すれば、コンテンツ認識装置100はインターフェース提供部(図示せず)をさらに含むことができる。インターフェース提供部は、使用者がオーディオ信号を入力することができるようにしながら認識結果を使用者に提供するようにする使用者インターフェースを提供する機能をする。
例えば、使用者インターフェースを介してオーディオ信号認識開始ボタンを提供することで、使用者が該当のボタンをクリックする場合、オーディオ信号をマイクなどの音声入力手段によって一定時間獲得するようにすることができる。また、使用者インターフェースを介した認識(マッチング)が完了した場合、コンテンツ情報を、例えば“認識されたオーディオ信号は歌手aaaのbbbという曲です”などの形で使用者に提供することができる。
一方、図1〜図8で説明したように、クエリーフィンガープリント抽出部10は入力されるオーディオ信号を所定のフレーム長さとフレーム移動長さで構成される複数のフレームに対してそれぞれのフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出する。
この際、このようなクエリーフィンガープリントを抽出するとき、一定の時間区間を設定しておき、時間区間単位でクエリーフィンガープリントを抽出しマッチングを行った後、その区間内でマッチングに失敗した場合、時間区間を増やしながら抽出及びマッチングを進めることもできる。
例えば、時間区間単位をN秒であるとすれば、入力オーディオ信号はN、N、N...Nの区間に分割できる。この際、Nは前述したフレーム長さよりは遥かに大きい値である。このような時間区間に対し、まずNの区間で前述したようなクエリーフィンガープリント抽出及びマッチングを行い、マッチングに失敗した場合、次の区間Nに対してクエリーフィンガープリント抽出及びマッチングを行うことができる。これを繰り返しながらマッチングに成功すれば過程を終了し、マッチングにずっと失敗すれば継続して次の区間に移動しながら該当の区間のフレームに対して前述したようにクエリーフィンガープリント抽出及びマッチングを繰り返すようになる。
ここで、それぞれの時間区間の大きさは同一にすることが好ましいが、互いに異なるようにすることもできるのはいうまでもない。
また、例えばNの区間でクエリーフィンガープリント抽出及びマッチングを行うとき、Nで抽出されたクエリーフィンガープリントを一緒に使うこともできるのはいうまでもない。
図9は図1〜図8で説明した本発明によるコンテンツ認識装置100で行われるコンテンツ認識方法を示すフローチャートである。
図9を参照すれば、まずクエリーフィンガープリント抽出部10で前述したような方法でクエリーフィンガープリントを抽出する(S1000)。クエリーフィンガープリントが抽出されれば、フィンガープリントマッチング部20の第1マッチング部21が優先的に1次マッチングを行う(S1100)。第1マッチング部21での1次マッチングの結果は前述したようにN個のマッチング候補群を判別するようになる。
ついで、フィンガープリントマッチング部20の第2マッチング部22は、マッチング候補群に含まれたレファレンスフィンガープリントに対して2次マッチングを行い(S1200)、最終マッチング結果を認識結果として生成するようになる(S1300)。
以上、本発明による好適な実施例を説明したが、本発明はこれら実施例に限定されるものではないのはいうまでもない。
例えば、前記実施例においては、オーディオ信号に対してクエリーフィンガープリントを抽出しマッチングするもののみを説明したが、本発明はビデオ信号に対してもそのまま適用することができるのはいうまでもない。ビデオ信号は、オーディオ信号と比較するとき、特徴ベクターを生成する方法において違いあるだけで、前述したフレームを構成する方法はビデオ信号に対してもそのまま適用できるからである。
また、図7において、フレームを比較するとき、ハミング距離を比較する方法を例として説明したが、ハミング距離以外の他の従来の方法を使うこともできるのはいうまでもない。
また、図8において、コンテンツ認識装置100はクライアント端末機300内に一体的に含まれているものとして説明したが、コンテンツ認識装置100のそれぞれの構成要素はネットワーク上に分散配置されることもできる。例えば、クエリーフィンガープリント抽出部10とインターフェース提供部(図示せず)のみをクライアント端末機300内に含むようにし、他の構成要素はネットワーク上に独立したサーバーとして分散して配置することもできる。例えば、レファレンスフィンガープリントデータベースとフィンガープリントマッチング部をそれぞれ別途のサーバーに配置することもでき、これら両要素のみを統合して一つのサーバーに配置することもできる。また、これら両要素をレファレンスフィンガープリントサーバー200内に配置することもできる。重要なことは、コンテンツ認識装置100は物理的に一つの装置として、あるいは一つの装置内に構成できるが、ネットワーク上に分散して配置されることもできる点である。

Claims (17)

  1. オーディオ信号を用いたコンテンツ認識装置において、
    入力されるオーディオ信号に対し、前もって時間軸に沿って設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出するクエリーフィンガープリント抽出部;
    クエリーフィンガープリントと比較すべきレファレンスフィンガープリントとレファレンスフィンガープリントに対応するコンテンツ情報を保存するレファレンスフィンガープリントデータベース;及び
    前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別するフィンガープリントマッチング部
    を含み、
    前記クエリーフィンガープリント抽出部は、隣接したフレームの開始点間の時間軸に沿った間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成し、
    前記クエリーフィンガープリント抽出部は、一部区間でのフレーム移動長さを前もって設定されたフレーム移動長さより短くしてフレームを形成し、
    前記クエリーフィンガープリント抽出部は、前記一部区間に含まれるフレームに対するフレーム別特徴ベクターを、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターに基づいて生成し、
    前記一部区間の開始位置に相応するフレームは前記開始位置を最後に含むフレームであり、
    前記一部区間の終了位置に相応するフレームは前記終了位置を初めて含むフレームであり、
    一部区間に含まれるフレームのフレーム別特徴ベクターを、
    前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターを生成し、生成されたフレーム別特徴ベクターに基づいて線形補間法によって、
    または、
    前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターは二進数で形成され、前記二進数で形成されたフレーム別特徴ベクターのそれぞれのビットを比較し、相異なるビットに可能な二進数を配列することにより、
    生成することを特徴とする、オーディオ信号を用いたコンテンツ認識装置。
  2. 前記フレーム移動長さは、隣接したフレームが互いに重なるようにフレーム長さより短いことを特徴とする、請求項1に記載のオーディオ信号を用いたコンテンツ認識装置。
  3. 前記クエリーフィンガープリント抽出部は、前もって設定された時間区間に基づいて前記一部区間を決定することを特徴とする、請求項1または2に記載のオーディオ信号を用いたコンテンツ認識装置。
  4. 前記クエリーフィンガープリント抽出部は、信号対雑音比が臨界値より高い値を持つ時間区間を検出し、検出された時間区間に基づいて前記一部区間を決定することを特徴とする、請求項1からのうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  5. 前記クエリーフィンガープリント抽出部は、前記決定された一部区間にあたるフレームのそれぞれに対してフレーム別特徴ベクターを生成することを特徴とする、請求項またはに記載のオーディオ信号を用いたコンテンツ認識装置。
  6. 前記フィンガープリントマッチング部は、
    前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるフレーム特徴ベクターが含まれたレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより1次マッチングを行う第1マッチング部;及び
    前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して2次マッチングを行う第2マッチング部;
    を含むことを特徴とする、請求項1から5のうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  7. 前記第1マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとハミング距離がスレショルド値以下のフレーム特徴ベクターが含まれたレファレンスフィンガープリントをマッチングされるレファレンスフィンガープリントとして判別することを特徴とする、請求項に記載のオーディオ信号を用いたコンテンツ認識装置。
  8. 前記第1マッチング部は、前記クエリーフィンガープリントを構成するフレーム別特徴ベクターをレファレンスフィンガープリントのフレーム別特徴ベクターと順次比較し、マッチングされるフレームが検出された場合、以後のフレームに対する比較を省略し、次のレファレンスフィンガープリントに対する比較を行うことを特徴とする、請求項6または7に記載のオーディオ信号を用いたコンテンツ認識装置。
  9. 第2マッチング部は、
    前記クエリーフィンガープリントを構成するフレーム別特徴ベクターの中で、前もって設定されたフレーム移動長さではないフレームを除いてフレーム別特徴ベクターを再構成し、再構成されたフレーム別特徴ベクターをレファレンスフィンガープリントと比較することを特徴とする、請求項6から8のうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  10. 前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報を提供する認識結果提供部をさらに含むことを特徴とする、請求項1から9のうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  11. 前記オーディオ信号を用いたコンテンツ認識装置はクライアント端末機内に含まれることを特徴とする、請求項1から10のうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  12. 前記レファレンスフィンガープリントデータベースはレファレンスフィンガープリントサーバーからレファレンスフィンガープリント及びコンテンツ情報を受信して保存することを特徴とする、請求項1から11のうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  13. 使用者がオーディオ信号を入力することができるようにする使用者インターフェースを提供するインターフェース提供部をさらに含むことを特徴とする、請求項1から12のうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  14. 前記フィンガープリントマッチング部によって判別されたレファレンスフィンガープリントに相応するコンテンツ情報は前記レファレンスフィンガープリントサーバーに伝送されることを特徴とする、請求項12に記載のオーディオ信号を用いたコンテンツ認識装置。
  15. 前記クエリーフィンガープリント抽出部は、前もって設定された区間単位で該当の区間に含まれるフレームに対するフレーム別特徴ベクターを生成することにより区間別クエリーフィンガープリントを抽出し、前記フィンガープリントマッチング部は前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別し、
    前記フィンガープリントマッチング部でマッチングされるレファレンスフィンガープリントが判別されるまでクエリーフィンガープリント抽出部が前記前もって設定された区間単位で区間別クエリーフィンガープリントを連続的に抽出することを特徴とする、請求項1から14のうち何れか1項に記載のオーディオ信号を用いたコンテンツ認識装置。
  16. オーディオ信号を用いたコンテンツ認識方法において、
    入力されるオーディオ信号に対して前もって時間軸に沿って設定されたフレーム長さを持つフレームを形成し、それぞれのフレームに対するフレーム別特徴ベクターを生成することによりクエリーフィンガープリントを抽出する第1段階;及び
    前記クエリーフィンガープリントにマッチングされるレファレンスフィンガープリントを判別する第2段階
    を含み、
    前記第1段階は、隣接したフレームの開始点間の時間軸に沿った間隔であるフレーム移動長さを一部区間で変動させながらフレームを形成
    前記第1段階は、一部区間でのフレーム移動長さを前もって設定されたフレーム移動長さより短くしてフレームを形成し、
    前記第1段階は、前記一部区間に含まれるフレームに対するフレーム別特徴ベクターを、前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターに基づいて生成し、
    前記一部区間の開始位置に相応するフレームは前記開始位置を最後に含むフレームであり、
    前記一部区間の終了位置に相応するフレームは前記終了位置を初めて含むフレームであり、
    一部区間に含まれるフレームのフレーム別特徴ベクターを、
    前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターを生成し、生成されたフレーム別特徴ベクターに基づいて線形補間法によって、
    または、
    前記一部区間の開始位置及び終了位置に相応するフレームのフレーム別特徴ベクターは二進数で形成され、前記二進数で形成されたフレーム別特徴ベクターのそれぞれのビットを比較し、相異なるビットに可能な二進数を配列することにより、
    生成することを特徴とする、オーディオ信号を用いたコンテンツ認識方法。
  17. 前記第2段階は、
    前記クエリーフィンガープリントを構成するフレーム別特徴ベクターのいずれか一つとマッチングされるレファレンスフィンガープリントを判別し、判別されたレファレンスフィンガープリントの識別子をマッチング候補群に含めることにより1次マッチングを行う第2−1段階;及び
    前記マッチング候補群に含まれた識別子に相応するレファレンスフィンガープリントに対して2次マッチングを行う第2−2段階
    を含むことを特徴とする、請求項16に記載のオーディオ信号を用いたコンテンツ認識方法。
JP2014516896A 2012-05-23 2012-06-08 オーディオ信号を用いたコンテンツ認識装置及び方法 Active JP5813221B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2012-0054659 2012-05-23
KR1020120054659A KR101315970B1 (ko) 2012-05-23 2012-05-23 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
PCT/KR2012/004537 WO2013176329A1 (ko) 2012-05-23 2012-06-08 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2014520287A JP2014520287A (ja) 2014-08-21
JP5813221B2 true JP5813221B2 (ja) 2015-11-17

Family

ID=48670993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014516896A Active JP5813221B2 (ja) 2012-05-23 2012-06-08 オーディオ信号を用いたコンテンツ認識装置及び方法

Country Status (7)

Country Link
EP (1) EP2685450B1 (ja)
JP (1) JP5813221B2 (ja)
KR (1) KR101315970B1 (ja)
CN (1) CN103548076B (ja)
HK (1) HK1175358A2 (ja)
SG (1) SG187583A1 (ja)
WO (1) WO2013176329A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9094714B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for on-screen graphics detection
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
KR101494309B1 (ko) 2013-10-16 2015-02-23 강릉원주대학교산학협력단 디지털 컨텐츠를 위한 비대칭형 핑거프린트 정합 시스템 및 그 제공방법
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
NL2012567B1 (en) * 2014-04-04 2016-03-08 Teletrax B V Method and device for generating improved fingerprints.
KR102255152B1 (ko) * 2014-11-18 2021-05-24 삼성전자주식회사 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램
AU2015355209B2 (en) * 2014-12-01 2019-08-29 Inscape Data, Inc. System and method for continuous media segment identification
GB2534027B8 (en) * 2014-12-30 2017-12-06 Audio Analytic Ltd Sound capturing and identifying devices
BR112017016123A2 (pt) 2015-01-30 2018-04-17 Inscape Data Inc servidor de correspondência para identificação de conteúdo de vídeo que é exibido por um sistema de televisão, método executado por computador, e produto de programa informático concretamente incorporado a um meio de armazenamento de leitura por máquina permanente de um dispositivo de informática
CN107949849B (zh) 2015-04-17 2021-10-08 构造数据有限责任公司 缩减大数据集中数据密度的系统和方法
US10997236B2 (en) 2015-04-27 2021-05-04 Samsung Electronics Co., Ltd. Audio content recognition method and device
AU2016291674B2 (en) 2015-07-16 2021-08-26 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
EP3323245B1 (en) 2015-07-16 2021-08-25 Inscape Data, Inc. Detection of common media segments
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
KR101634609B1 (ko) * 2015-07-17 2016-06-29 주식회사 디지워크 영상 음성 데이터 처리 방법 및 이를 실행하는 단말 장치
KR101970383B1 (ko) * 2015-10-30 2019-04-18 주식회사 엘지유플러스 단말 및 단말의 컨텐츠 제작 방법
KR101647012B1 (ko) * 2015-11-13 2016-08-23 주식회사 비글컴퍼니 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 방법
KR101981924B1 (ko) * 2015-11-30 2019-08-30 한국전자통신연구원 미디어 콘텐츠 식별 방법
US20170371963A1 (en) * 2016-06-27 2017-12-28 Facebook, Inc. Systems and methods for identifying matching content
US20190020913A9 (en) * 2016-06-27 2019-01-17 Facebook, Inc. Systems and methods for identifying matching content
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
WO2018157251A1 (en) 2017-03-01 2018-09-07 Soltare Inc. Systems and methods for detection of a target sound
BR112019019430A2 (pt) 2017-04-06 2020-04-14 Inscape Data Inc sistema, método e produto de programa de computador
KR102037221B1 (ko) * 2017-11-06 2019-10-29 주식회사 아이티밥 오디오 핑거프린트 매칭 방법
KR102037220B1 (ko) * 2017-11-06 2019-10-29 주식회사 아이티밥 오디오 핑거프린트 매칭 시스템
KR102494591B1 (ko) * 2018-09-18 2023-02-03 삼성전자주식회사 전자 장치, 그 제어 방법 및 전자 시스템
CN111462736B (zh) * 2019-01-17 2023-04-14 北京字节跳动网络技术有限公司 基于语音的图像生成方法、装置和电子设备
US11317128B1 (en) * 2020-10-23 2022-04-26 Synamedia Limited Systems, methods, and devices for media content tamper protection and detection
KR102611105B1 (ko) * 2021-11-16 2023-12-07 한국전자통신연구원 콘텐츠 내 음악 식별 장치 및 방법

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
JP4256393B2 (ja) * 2001-08-08 2009-04-22 日本電信電話株式会社 音声処理方法及びそのプログラム
JP3798991B2 (ja) * 2002-02-25 2006-07-19 日本電信電話株式会社 音声信号検索方法,音声信号検索装置,そのプログラムおよびそのプログラムの記録媒体
JP3744464B2 (ja) 2002-05-20 2006-02-08 ソニー株式会社 信号記録再生装置及び方法、信号再生装置及び方法、並びにプログラム及び記録媒体
GB2391322B (en) * 2002-07-31 2005-12-14 British Broadcasting Corp Signal comparison method and apparatus
US20030191764A1 (en) * 2002-08-06 2003-10-09 Isaac Richards System and method for acoustic fingerpringting
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
AU2003264774A1 (en) * 2002-11-01 2004-05-25 Koninklijke Philips Electronics N.V. Improved audio data fingerprint searching
JP4408205B2 (ja) * 2003-05-16 2010-02-03 東芝テック株式会社 話者認識装置
WO2005050620A1 (en) * 2003-11-18 2005-06-02 Koninklijke Philips Electronics N.V. Matching data objects by matching derived fingerprints
KR20050073064A (ko) * 2004-01-08 2005-07-13 (주)뮤레카 오디오데이터 인식을 이용한 광고방법
KR100456408B1 (ko) 2004-02-06 2004-11-10 (주)뮤레카 오디오유전자 생성방법 및 오디오데이터 검색방법
KR100480315B1 (ko) * 2004-06-03 2005-04-07 (주)뮤레카 오디오 유전자 생성 및 검색을 이용한 저작권 관리시스템및 관리방법
GB0412654D0 (en) 2004-06-07 2004-07-07 Univ Cambridge Tech Method of detection
EP1761895A1 (en) * 2004-06-16 2007-03-14 Koninklijke Philips Electronics N.V. Searching for a scaling factor for watermark detection
KR100692395B1 (ko) * 2004-11-01 2007-03-09 (주)뮤레카 오디오 유전자 생성을 통한 방송내용 분석시스템 및분석방법
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
KR101172404B1 (ko) 2005-10-24 2012-08-08 삼성전자주식회사 금형장치와 금형용 히터 카트리지
KR100789382B1 (ko) 2005-12-09 2007-12-28 한국전자통신연구원 지상파 dmb 비디오, 오디오, 부가 데이터의 제한수신 시스템
KR100773562B1 (ko) 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100811835B1 (ko) * 2006-10-25 2008-03-10 주식회사 에스원 동영상 특징량 추출방법 및 이를 이용한 내용 기반 동영상검색방법
KR101368762B1 (ko) 2006-12-06 2014-02-28 엘아이지에이디피 주식회사 기판 테이블 및 이를 가진 기판 합착장치
KR100893123B1 (ko) * 2007-05-07 2009-04-10 (주)엔써즈 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를이용한 오디오 데이터 비교 방법 및 장치
KR100930869B1 (ko) 2007-05-17 2009-12-10 주식회사 코난테크놀로지 오디오 식별을 통한 성인물 동영상 검열 시스템 및 방법
KR100888804B1 (ko) * 2007-06-04 2009-03-13 (주)엔써즈 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
JP5337241B2 (ja) * 2009-06-05 2013-11-06 株式会社東芝 映像編集装置

Also Published As

Publication number Publication date
WO2013176329A1 (ko) 2013-11-28
EP2685450A1 (en) 2014-01-15
EP2685450A4 (en) 2015-11-11
HK1175358A2 (en) 2013-06-28
SG187583A1 (en) 2013-12-30
JP2014520287A (ja) 2014-08-21
KR101315970B1 (ko) 2013-10-08
CN103548076A (zh) 2014-01-29
CN103548076B (zh) 2015-11-25
EP2685450B1 (en) 2020-04-22

Similar Documents

Publication Publication Date Title
JP5813221B2 (ja) オーディオ信号を用いたコンテンツ認識装置及び方法
US8886635B2 (en) Apparatus and method for recognizing content using audio signal
KR101625944B1 (ko) 오디오 인식 방법 및 기기
US9798513B1 (en) Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications
US8977067B1 (en) Audio identification using wavelet-based signatures
US9367887B1 (en) Multi-channel audio video fingerprinting
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
CN111444967B (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
US9373336B2 (en) Method and device for audio recognition
KR20180120146A (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
KR102614021B1 (ko) 오디오 컨텐츠 인식 방법 및 장치
US9159328B1 (en) Audio fingerprinting for advertisement detection
CN113177538B (zh) 一种视频循环识别方法、装置、计算机设备及存储介质
US9116898B2 (en) Information conversion device, computer-readable recording medium, and information conversion method
US20120296938A1 (en) Query and Matching for Content Recognition
CN111415653B (zh) 用于识别语音的方法和装置
CN109448732B (zh) 一种数字串语音处理方法及装置
CN103854661A (zh) 一种提取音乐特征的方法及装置
CN112399247A (zh) 一种音频处理方法、音频处理设备及可读存储介质
CN112153460A (zh) 一种视频的配乐方法、装置、电子设备和存储介质
US20110184948A1 (en) Music recommendation method and computer readable recording medium storing computer program performing the method
CN111159464B (zh) 一种音频片段的检测方法及相关设备
CN111428078B (zh) 音频指纹编码方法、装置、计算机设备及存储介质
CN113327628A (zh) 音频处理方法、装置、可读介质和电子设备
WO2021147084A1 (en) Systems and methods for emotion recognition in user-generated video(ugv)

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141128

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150915

R150 Certificate of patent or registration of utility model

Ref document number: 5813221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250