JP2006500858A - 合成された映像及び音声サインを介した拡張コマーシャル検出 - Google Patents

合成された映像及び音声サインを介した拡張コマーシャル検出 Download PDF

Info

Publication number
JP2006500858A
JP2006500858A JP2004539331A JP2004539331A JP2006500858A JP 2006500858 A JP2006500858 A JP 2006500858A JP 2004539331 A JP2004539331 A JP 2004539331A JP 2004539331 A JP2004539331 A JP 2004539331A JP 2006500858 A JP2006500858 A JP 2006500858A
Authority
JP
Japan
Prior art keywords
images
video
detecting
commercial
video segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004539331A
Other languages
English (en)
Inventor
ギュッタ,スリニヴァス
アグニホトリ,ラリタ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006500858A publication Critical patent/JP2006500858A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/90Tape-like record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/032Electronic editing of digitised analogue information signals, e.g. audio or video signals on tapes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

格納されるコンテンツにおいて番組からコマーシャルを検出するシステム及び方法。本システムは、特定のタイムウィンドウにおいて顔を検出及び抽出する画像検出モジュールを有する。抽出された顔は、以降のタイムウィンドウにおいて検出される顔とマッチングされる。何れの顔も一致しない場合、コマーシャル部分の開始を示すフラグが設定される。音声または発話解析モジュールが、顔の検出に用いられたものと同一のタイムウィンドウにおいて音声署名を解析することにより、コマーシャル部分の開始を検証する。

Description

本発明は、コマーシャルの検出に関し、より詳細には連続タイムウィンドウを介した映像及び音声サインを利用することによるコマーシャルの検出に関する。
テレビ放送信号のコマーシャル部分を他の番組コンテンツから区別する既存システムは、異なる放送モードまたは受信した映像信号のレベルの相違を検出することにより実行する。例えば、米国特許第6,275,646号は、複数の無音声部分間の時間間隔及びテレビ放送における複数の映像信号の変更ポイントの時間間隔に基づき、コマーシャルメッセージ部分を区別する映像記録/再生装置を記載している。独国特許第DE29902245は、コマーシャルなしでの視聴のためのテレビ記録装置を記載している。しかしながら、上記特許で開示されている方法は、ルールベースのものであり、変更ポイントや放送局ロゴが映像信号に与えられているなどの一定の特徴に依存したものである。他のコマーシャル検出システムは、字幕テキストや急なシーン変更の検出技術を利用して、コマーシャルを他の番組から区別する。上記検出方法は、例えば、映像信号、放送局ロゴ及び字幕テキストの変更ポイントなどの特徴の存在が変更される場合には機能しなくなる。このため、上記特徴の有無に依存することなく映像信号からコマーシャルを検出する必要性がある。
テレビコマーシャルはほとんど常に、例えば、既知の画像または顔検出技術を利用することにより認識または検出可能な人物及び他の動的または静的オブジェクトの画像を含んでいる。多数の企業及び政府により各種特定技術の研究開発により多くのリソースを拡げるに従い、より洗練された信頼性のある画像認識技術が容易に利用可能となりつつある。これらの洗練された信頼性のある画像認識ツールの出現により、これらの画像認識ツールを利用して、コマーシャル部分を他の放送コンテンツとより正確に区別することが望ましい。さらに、音声認識または署名技術などの追加的技術を利用して、検出したコマーシャルを検証することにより、コマーシャル検出を向上させるシステム及び方法が望まれる。
従って、合成された映像及び音声署名を用いる拡張コマーシャル検出システム及び方法が与えられる。一特徴では、本方法は、格納されているコンテンツの逐次的時間順序に従う複数の映像セグメントを特定する。1つの映像セグメントからの画像は、次の映像セグメントからの画像と比較される。これらの画像が一致しない場合、2つのセグメントからの音声署名が比較される。これらの音声署名が一致しない場合、通常の番組からコマーシャルまでの切り替え、あるいはその逆を示すフラグが設定される。
一特徴では、本システムは、映像セグメントから画像を検出及び抽出する画像認識モジュールと、同一の映像セグメントから音声署名を検出及び抽出する音声署名モジュールと、格納されているコンテンツのコマーシャル部分を決定するため画像及び音声署名を比較するプロセッサとを有する。
コマーシャルを検出するため、格納されるテレビ番組の特定のタイムウィンドウ(time window)における顔画像の検出及び抽出を行う既知の顔検出技術が利用されてもよい。その後、抽出した顔画像は、前のタイムウィンドウまたは所定数の以前のタイムウィンドウにおいて検出されたものと比較するようにしてもよい。これらの顔画像が一致しない場合、コマーシャルの候補となるスタートを示すフラグが設定されるようにしてもよい。
図1は、複数のタイムセグメントまたはタイムウィンドウに分割される格納された番組コンテンツのフォーマットを示す。この格納された番組コンテンツは、例えば、磁気テープや他の任意のこのような用途のために利用可能な記憶装置にビデオ収録された放映されたテレビ番組であってもよい。図1に示されるように、格納された番組コンテンツ102は、所定の時間量の複数のセグメント104a、104b、・・・、104nに分割される。各セグメント104a、104b、・・・、104nは、いくつかのフレームを有する。これらのセグメントはまた、タイムウィンドウ、映像セグメントまたはタイムセグメントとここでは呼ばれる。
図2は、一特徴による格納されたコンテンツでのコマーシャルを検出する詳細なフロー図を示す。上述のように、格納されるコンテンツは、例えば、ビデオ収録あるいは格納されたテレビ番組を含む。図2を参照するに、202においてフラグがクリアあるいは初期化される。このフラグは、コマーシャルがまだ格納されたコンテンツ102において検出されていないということを示すものである。204において、格納されたコンテンツのセグメントまたはタイムウィンドウ(図1の104a)が解析のため特定される。格納された番組の始まりからコマーシャルを検出するとき、当該セグメントは格納されているコンテンツの第1セグメントなるかもしれない。このセグメントはまた、例えば、ユーザが格納された番組のある部分においてコマーシャルを検出したい場合、格納されたコンテンツの他の任意のセグメントであってもよい。この場合、ユーザは、コマーシャルの検出を開始する地点から格納された番組における位置を示すであろう。
206において、タイムウィンドウにおいて検出された顔画像を検出及び抽出するための既知の顔検出技術が利用される。このタイムウィンドウにおいて顔画像が検出されない場合、顔画像を有するタイムウィンドウが検出されるまで、以降のタイムウィンドウが解析される。このため、ステップ204及び206は、1以上の顔画像を有するタイムウィンドウが特定されるまで繰り返されるかもしれない。208において、次のセグメントまたはタイムウィンドウ(図1の104b)が解析される。210において、次のセグメントが存在しない場合、すなわち、格納された番組のエンドに達した場合、本プロセスは224において終了される。そうでない場合、212において、タイムウィンドウ104bの顔画像がまた検出及び抽出される。顔画像が検出されない場合、本プロセスは204に戻る。214において、第1タイムウィンドウ(図1の104a)と次のタイムウィンドウ(図1の104b)から検出された顔画像が比較される。216において、顔画像が一致する場合、本プロセスは208に戻り、以降のタイムウィンドウ(例えば、図1の104c)が顔画像のマッチングのため特定及び解析される。顔画像は、現在のタイムウィンドウに先行するタイムウィンドウにおいて検出された顔画像とマッチングまたは比較される。これにより例えば、図1を参照するに、タイムウィンドウ104aにおいて検出された顔画像がタイムウィンドウ104bにおける顔画像と比較される。タイムウィンドウ104bで検出される顔画像は、タイムウィンドウ104cの顔画像らと比較される。
他の特徴では、先行する複数のタイムウィンドウからの顔画像が比較されてもよい。例えば、タイムウィンドウ104cで検出される顔画像がタイムウィンドウ104aと104bで検出されるものと比較され、これらの顔の何れもが一致しない場合、番組コンテンツに変化があると判断するようにしてもよい。現在のウィンドウの顔画像といくつかの先行するウィンドウにおいて検出される顔画像と比較することは、シーン変更により発生する異なる画像を正確に補償するするかもしれない。例えば、タイムウィンドウ104bと104cの画像の変化は、通常の番組のシーン変更により発生するものであるかもしれないし、またタイムウィンドウ104cがコマーシャルを含むため必ずしもそうでないかもしれない。従って、タイムウィンドウ104cの画像がコンテンツとして通常の番組を有するタイムウィンドウ104aの画像と比較される場合、そして一致する場合には、タイムウィンドウ104cの画像がタイムウィンドウ104bの画像と一致しなくても、タイムウィンドウ104cは通常の番組を含んでいると決定されるかもしれない。このようにして、コマーシャルは、セグメント単位で通常番組のシーン変化から区別されるかもしれない。
一特徴では、初期化段階において、シーン変化を補償したり、あるいはシーン変化をコマーシャルから区別するため、いくつかのタイムウィンドウからの画像が比較プロセスの開始前の補償のための基礎として蓄積されてもよい。例えば、図1を参照するに、最初の3つのウィンドウ104a、・・・、104cからの画像が始めに蓄積されるようにしてもよい。これら最初の3つのウィンドウ104a、・・・、104cは、通常の番組を含むと仮定されている。その後、ウィンドウ104dからの画像が104c、104b及び104aからの画像と比較されてもよい。次に、処理104e時に、ウィンドウ104eからの画像が104d、104c及び104bからの画像と比較され、例えば比較のための3つの移動ウィンドウが生成される。このようにして、初期化におけるシーン変化によるコマーシャルの誤った検出が解消されるかもしれない。
さらに、コマーシャルが記録の初期段階において再生中である場合、いくつかのタイムウィンドウの蓄積により、番組の第1シーンがコマーシャルであるとする誤った判断が解消されるであろう。
再び図2を参照するに、216において、例えば、テレビ番組からコマーシャルへの番組コンテンツの変化、あるいはその逆の変化を示すなどのように、現在ウィンドウの顔画像が一致しない場合、本プロセスは218に移行し、コマーシャルフラグが設定されているか判断される。コマーシャルフラグの設定は、例えば、現在のタイムウィンドウがコマーシャルの一部であったことを示している。
しかしながら、番組における同一の新しい顔が以降のn個のタイムフレームに対して存在し続ける場合、このことはシーンや俳優が変更され、番組は継続していることを意味しているため、コマーシャルフラグはリセットされるであろう。コマーシャルは大変短く(30秒から1分間)、本方法はコマーシャルの存在を誤ってトリガーする顔の変化を訂正するのに利用される。
コマーシャルフラグが設定される場合、顔画像の変化は異なるコマーシャルまたは番組の再開を意味するかもしれない。セグメントには一緒にグループ化された約3〜4のコマーシャルが存在するため、連続して複数のウィンドウに対して発生する新しい顔は、異なるコマーシャルが始まったことを意味するであろう。しかしながら、顔画像の変化がコマーシャルフラグの設定前のタイムセグメントの顔と一致する場合、これは通常の番組が再開したことを意味するであろう。従って、コマーシャルフラグは220においてリセットまたは再初期化される。
他方、218において、コマーシャルフラグが設定されていない場合、前のタイムウィンドウから現在のタイムウィンドウまでの顔画像の変化は、コマーシャル部分が始まったことを意味するであろう。従って、222において、コマーシャルフラグが設定される。コンピュータプログラミングの分野の当業者には既知であるように、コマーシャルフラグの設定またはリセットは、それぞれ「1」または「0」の値をメモリエリアまたはレジスタに割り当てることにより実現されてもよい。コマーシャルフラグの設定またはリセットは、コマーシャルフラグに対し指定された記憶領域にそれぞれ「yes」または「no」wp割り当てることにより示されるかもしれない。このとき、本プロセスは208に続き、格納されている番組コンテンツにおいてコマーシャル部分を検出するため、以降のタイムウィンドウが同様にして調べられる。
他の特徴では、映像コンテンツの顔画像が追跡され、その軌跡がその識別情報と共にマッピングされる。例えば、識別情報には、顔1、顔2、・・・、顔nなどの識別子が含まれてもよい。軌跡は、例えば、映像フレーム上の異なるx−y座標などの映像ストリームに出現するとき、検出された顔画像の挙動である。各顔を有する音声ストリームの音声署名または音声特徴はまた、各顔軌跡及び識別情報によりマッピングまたは特定される。顔軌跡、識別情報及び音声署名は、「マルチメディア署名」と呼ばれる。映像ストリームにおいて顔画像が変化するとき、新しい軌跡が当該顔画像に対し開始される。
コマーシャルが始まったかもしれないと判断されると、マルチメディア署名として総称される顔軌跡、その識別情報及び関連する音声署名が当該コマーシャルセグメントから特定される。その後、マルチメディア署名がコマーシャルデータベースにおいて検索される。コマーシャルデータベースには、コマーシャルであると決定されたマルチメディア署名が含まれる。マルチメディア署名がコマーシャルデータベースにおいて検出されると、当該セグメントはコマーシャルを有すると確認される。マルチメディア署名がコマーシャルデータベースにおいて検出されない場合、推定コマーシャル署名データベースが検索される。推定コマーシャル署名データベースには、おそらくコマーシャルに属すると判断されるマルチメディア署名が含まれる。マルチメディア署名が推定コマーシャル署名データベースにおいて検出される場合、マルチメディア署名はコマーシャルデータベースに追加され、マルチメディア署名がコマーシャルに属すると判断され、これにより、当該セグメントの確認はコマーシャルとして解析される。
従って、セグメントを前のセグメントと比較することによりコマーシャルがおそらく始まったということを判断すると、当該セグメントに関連するマルチメディア署名がコマーシャルデータベースにおいて特定されるかもしれない。マルチメディア署名がコマーシャルデータベースに存在する場合、当該セグメントはコマーシャルとしてマークされる。マルチメディア署名がコマーシャルデータベースに存在しない場合、推定コマーシャル署名データベースが検索される。マルチメディア署名が推定コマーシャル署名データベースに存在する場合、マルチメディア署名がコマーシャルデータベースに追加される。すなわち、繰り返し発生するマルチメディア署名はコマーシャルとしてコマーシャルデータベースにあげられる。
他の特徴では、上記コマーシャル検出方法をさらに拡張するため、音声署名解析をさらに利用して、顔画像検出技術を用いて検出されたコマーシャルが検証される。すなわち、1以上の画像認識技術を用いてコマーシャル部分が検出された後、音声解析ツールを用いて、映像セグメントの音声が変化したことを検証し、さらに番組コンテンツの変化を確認するようにしてもよい。
あるいは、顔画像検出と音声署名技術が共にコマーシャルの検出に利用されてもよい。すなわち、各映像セグメントに対し、顔画像と音声署名の両方が、1以上の以前のタイムウィンドウのものと比較されてもよい。顔画像と音声署名の両方が一致しない場合のみ、番組の変化を示すコマーシャルフラグが設定またはリセットされるであろう。これらの特徴は、図3及び4を参照して詳細に説明される。
図3は、音声署名解析技術により拡張されたコマーシャル検出方法を示すフロー図である。302において、コマーシャルフラグが初期化される。304において、格納されたコンテンツのセグメントが解析のため特定される。306において、当該セグメントから顔画像が検出及び抽出される。308において、当該セグメントから音声署名が検出及び抽出される。310において、格納されているコンテンツの以降のセグメントが特定される。312において、格納されているコンテンツのエンドを示す以降のセグメントが存在しない場合、本プロセスは326において終了される。そうでない場合、314において、以降のセグメントにおいて顔画像が検出及び抽出される。同様に、316において、当該以降のセグメントの音声署名が検出及び解析される。318において、この以降のセグメントにおいて検出及び抽出された顔画像及び音声署名の両方が、以前のセグメントから抽出されたもの、すなわち306と308において抽出されたものと比較される。
320において、顔画像と音声署名が一致しない場合、例えば、通常の番組からコマーシャルへの変更またはその逆などの格納されているコンテンツの変化の発生が検出される。このため、322において、コマーシャルフラグが設定されているか判断される。コマーシャルフラグは、番組が当該変化の前にどのモードであったか示すものである。322において、コマーシャルフラグが設定されると、324において番組がコマーシャル部分から通常の番組部分に変化したことを示すようフラグがリセットされる。従って、コマーシャルフラグがリセットされることは、コマーシャル部分のエンドを示す。そうでない場合、322において、コマーシャルフラグが設定されていない場合、ステップ328において、コマーシャル部分が始まったことを示すようコマーシャルフラグが設定される。格納されたコンテンツにおいてコマーシャル部分が検出されると、これらの映像セグメントの位置が特定され、以降の参照のためセーブされる。あるいは、磁気テープなどの格納コンテンツが他のテープまたは記憶装置にダビングされている場合、当該部分は、この検出されたコマーシャル部分をコピーするようスキップすることにより消去されてもよい。その後、本プロセスは310に戻り、次のセグメントが同様にして解析される。
他の特徴では、検出された顔画像が一致しないと判断された後、音声署名が解析されてもよい。これにより、本特徴では、音声署名はすべてのセグメントに対し検出または抽出されるわけではない。図4は、コマーシャル検出の本特徴を示すフロー図である。402において、コマーシャルフラグが初期化される。404において、コマーシャル検出を開始するため、セグメントが特定される。406において、顔画像が検出及び抽出される。408において、次のセグメントが特定される。410において、テープのエンドに到達すると、本プロセスは430で終了する。そうでない場合、412において、本プロセスはこの次のセグメントにおいて顔画像の検出及び抽出を再開する。414において、画像が比較される。前のセグメントまたはタイムウィンドウからの画像が412において抽出された画像と一致する場合、本プロセスは408に戻る。他方、画像が一致しない場合、418において、音声署名が前のセグメントと現在のセグメントから抽出される。420において、音声署名が比較される。422において、音声署名が一致している場合、本プロセスは408に戻る。そうでない場合、424において、コマーシャルフラグが設定されているか判断される。コマーシャルフラグが設定されている場合、当該フラグは426においてリセットされ、本プロセスは408に戻る。424において、コマーシャルフラグが設定されていない場合、当該フラグは428において設定され、本プロセスは408に戻る。
上述のコマーシャル検出システム及び方法は、汎用コンピュータにより実現されてもよい。例えば、図5は、一特徴によるコマーシャル検出システムの構成要素を示す図である。汎用コンピュータは、例えば、プロセッサ510、RAM(Random Access Memory)などのメモリ及び外部記憶装置514を備え、内部またはリモートデータベース512に接続されるようにしてもよい。典型的には、プロセッサ510により制御される画像認識モジュール504と音声署名モジュール506は、それぞれ画像と音声署名を検出及び抽出する。RAMなどのメモリ508は、処理中のプログラム及びデータのロードに使用される。プロセッサ510は、データベース512とテープ514にアクセスし、図1〜4を参照して説明されたように、コマーシャルを検出するため画像認識モジュール504と音声署名モジュール506を実行する。
画像認識モジュール504は、ソフトウェアの形態をとってもよいし、あるいはコントローラやプロセッサ510のハードウェアに埋め込まれてもよい。画像認識モジュール504は、映像セグメントとも呼ばれる各タイムウィンドウの画像を処理する。これらの画像は、加工されていないRGBフォーマットであってもよい。画像はまた、例えば画素データから構成されてもよい。このような画像に対する画像認識技術は、当該技術分野では周知であり、便宜上、その説明は本発明の説明に必要なもの以外は省略される。
画像認識モジュール504を用いて、例えば、画像中の人体の輪郭を認識し、これにより画像中の人物を認識することができるかもしれない。当該人物の体が特定されると、画像認識モジュール504を用いて、受信した画像における人物の顔が特定され、当該人物が識別されるようにしてもよい。
例えば、画像系列が受信され、画像認識モジュール504は人物の検出及び追跡を行うようにしてもよく、特に人物の頭のおよその位置が検出及び追跡されるようにしてもよい。このような検出及び追跡技術は、McKennaとGongによる「Tracking Faces」(Proceedings of the Second International Conference on Automatic Face and Gesture Recognition,Killington,Vt.,October14−16,1996,pp.271−276により詳細に説明されており、その内容が参照することによりここに含まれる(上記論文のセクション2は、複数の動きの追跡を説明している)。
顔検出に対して、プロセッサ510は、シンプルな形状情報を適用する既知の技術(例えば、楕円フィッティングやeigen−silhouettesなど)を利用して、画像中の輪郭に従うよう画像中の静的画像を特定するようにしてもよい。顔の対称性や典型的な皮膚の色調などの他の顔構造が(鼻、目など)特定するのに利用されてもよい。より複雑なモデリング技術は、顔の特徴の空間構成が顔の内部構造の全体表現内部で符号化される大きな多次元ハイパースペースにおける点として顔をモデル化する光度表現を利用する。顔検出は、例えば、画像ハイパースペースのあるサブスペースに対し顔のモデルと画像中のパッチ(patch)を比較することにより確率密度推定を決定するなどによって、画像のパッチを「顔」または「非顔」ベクトルの何れかに分類することにより達成される。上記及び他の顔検出技術は、上述の「Tracking Faces」の論文においてより詳細に説明されている。
あるいは、顔検出は、正面撮影像または略正面撮影像を検出するため、画像認識モジュール504内にサポートされるニューラルネットワークをトレーニングすることにより実現されるようにしてもよい。トレーニング画像は、例えば、顔画像の中心の標準的な長円形部分に焦点を当てるため、スケーリング及びマスク処理される。トレーニング画像の光度を等化させるためのいくつかの既知の技術が適用されてもよい。このトレーニングは、トレーニング用顔画像のスケールと回転を調整することにより拡張されてもよい(従って、画像の姿勢を調整するようネットワークをトレーニングする)。トレーニングはまた、真偽非顔パターンのバックプロパゲーションを伴うかもしれない。制御ユニットは、画像の一部を画像認識モジュール504のトレーニングされたニューラルネットワークルーチンに与えるようにしてもよい。ニューラルネットワークは、この画像部分を処理し、画像トレーニングに基づき顔画像であるか判断する。
顔検出のニューラルネットワーク技術はまた、上記「Tracking Faces」の論文により詳細に説明されている。ニューラルネットワークを利用した顔検出のさらなる詳細は(性別、人種及び姿勢などの他の顔サブ分類の検出と共に)、Guttaらによる「Mixture of Experts for Classification of Gender,Ethnic Prigin and Pose of Human Faces」(IEEE Transactions on Neural Networks,vol.11,no.4,pp.948−960(July2000)に説明されており、その内容が参照することによりここに含まれ、当該論文は以下では「Mixture of Experts」と呼ばれる。
画像中に顔が検出されると、この顔画像は前のタイムウィンドウで検出されたものと比較される。上述の顔検出のニューラルネットワーク技術は、あるタイムウィンドウから次のタイムウィンドウまでの顔のマッチングを行うネットワークをトレーニングさせることにより特定化のため適応されるかもしれない。他の人物の顔は、ネガティブマッチ(negative match)としてトレーニングで利用されてもよい(例えば、false−positive適応など)。従って、画像の一部が顔画像を含むかに関するニューラルネットワークによる判断は、以前のタイムウィンドウで特定される顔に対するトレーニング画像に基づくであろう。あるいは、ニューラルネットワーク(上述のものなど)以外の技術を利用して顔が画像中に検出される場合、ニューラルネットワーク手順は、顔の検出を確認するのに利用されるかもしれない。
顔認識モジュール504においてプログラミングされる顔認識及び処理に関する他の技術として、1998年11月10日に発行された、参照することによりここに含まれるLaboらによる米国特許第5,835,616号「FACE DETECTION USING TEMPLATES」は、デジタル画像中の人間の顔を自動的に検出及び/または特定し、顔の特徴を調べることにより顔の存在を確認するための2つのステップのプロセスを与えている。Loboの技術は、ニューラルネットワーク技術により与えられる顔検出の代わりに、あるいは補完的に利用されてもよい。Loboらによるシステムは、カメラの視野内の1以上の顔を、当該視野が画像内の顔の典型的位置に対応していなくても、検出に特に好適である。従って、画像認識モジュール504は、参照される米国特許第5,835,616号と同様に、肌色の位置、眉に対応する非肌色の位置、あごや鼻に対応する境界線などに基づき、顔の一般的特徴を有する領域に対する画像の一部を解析するようにしてもよい。
顔があるタイムウィンドウにおいて検出される場合、この顔は、データベースに格納されているかもしれない前のタイムウィンドウから検出される顔との比較のため特徴付けされる。好ましくは、画像における顔の特徴付けは、参照顔の特徴付けに利用される同一の特徴付けプロセスであり、「光学的」一致というよりも特徴に基づく顔の比較を容易にし、これにより、一致を検出するため、2つの同じ画像(現在の顔と前野タイムウィンドウにおいて検出される参照顔)を有する必要を回避することができる。
従って、メモリ508及び./または画像認識モジュール504は、前のタイムウィンドウにおいて特定された画像群を効果的に有する。現在タイムウィンドウにおいて検出される画像を利用して、画像認識モジュール504は、参照画像群の任意の一致する画像を効果的に決定する。この「一致」とは、参照画像群を用いてトレーニングされたニューラルネットワークにより与えられる画像中の顔の検出であってもよいし、あるいは上述のように米国特許第5,835,616号と同様のカメラ画像と参照画像の顔の特徴のマッチングであってもよい。
画像認識処理はまた、顔画像に加えてジェスチャを検出するようにしてもよい。あるタイムウィンドウで検出されるジェスチャが、次のタイムウィンドウにおいて検出されるものと比較されてもよい。画像からジェスチャを認識することに関するさらなる詳細は、Gutta、Imam及びWechslerらによる「Hand Gesture Recognition Using Ensembles Of Radial Basis Function(RBF) Networks And Decision Trees」(Int‘l Journal of Pattern Recognition and Artificial Intelligence,vol.11,no.6,pp.845−872(1997))に与えられ、その内容は参照することによりここに含まれる。
音声署名モジュール506は、例えば、通常用いられる既知の発話者特定技術の何れかを利用してもよい。これらの技術は、以下に限定されるものではないが、LPC係数、ゼロクロスオーバーレート(zero−cross over rate)、ピッチ、振幅などの特徴のマッチングを利用する標準的な音声解析技術を含む。その内容が参照することによりここに含まれる、Dongg Li、Ishwar K.Sethi、Nevenka Dimitrova及びTom McGeeらによる「Classification of General Audio Data for Content−Based Retrieval」(Pattern Recognition Letters 22(2001)533−544)は、音声パターンを抽出及び特定する様々な方法を説明している。ガウスモデルに基づく分類器、ニューラルネットワークに基づく分類器、決定木および隠れマルコフモデルに基づく分類器を含む各種音声分類スキームなどの上記論文で記載された音声認識技術の何れかを利用して、異なる音声の抽出及び特定が行われてもよい。また、上記論文に記載される特徴抽出のためのさらなる音声ツールボックスを利用して、映像セグメントの異なる音声を特定してもよい。その後、特定された音声は、音声パターンの変化を検出するためセグメント単位で比較される。音声パターンの変化があるセグメントから他のセグメントにおいて検出されると、例えば、通常の番組からコマーシャルへの番組コンテンツの変化が確認されるかもしれない。
本発明がいくつかの実施例を参照して説明されたが、本発明が例示及び説明された特定の形態に限定されないということは当業者に理解されるであろう。例えば、画像の検出、抽出及び比較が顔画像に関して説明されたが、顔画像以外、あるいは顔画像に加えて他の画像を用いてコマーシャル部分を識別及び検出するようにしてもよいということは理解されるであろう。従って、形態及び詳細の各種変更が、添付された請求項により画定されるような本発明の趣旨及び範囲を逸脱することなく可能であろう。
図1は、複数のタイムセグメントまたはタイムウィンドウに分割された格納される番組コンテンツのフォーマットを示す。 図2は、一特徴による格納されているコンテンツのコマーシャルを検出する詳細なフロー図を示す。 図3は、一特徴による音声署名解析技術により拡張されるコマーシャル検出方法を示すフロー図である。 図4は、他の特徴による音声署名解析技術により拡張されるコマーシャル検出方法を示すフロー図である。 図5は、一特徴によるコマーシャル検出システムの構成要素を示す図である。

Claims (13)

  1. 格納されるコンテンツにおいてコマーシャルを検出する方法であって、
    格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
    前記複数の映像セグメントの第1映像セグメントにおいて1以上の第1画像を検出するステップと、
    前記複数の映像セグメントの第2映像セグメントにおいて1以上の第2画像を検出するステップと、
    前記1以上の第1画像と前記1以上の第2画像とを比較するステップと、
    前記1以上の第2画像の何れもが前記1以上の第1画像と一致しない場合、前記第1映像セグメントと前記第2映像セグメントにおいて検出される1以上の音声署名を比較するステップと、
    前記第1映像セグメントと前記第2映像セグメントの音声署名が一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
    を有することを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記特定するステップは、連続時間順に複数のセグメントを特定することを特徴とする方法。
  3. 請求項1記載の方法であって、
    前記第1映像セグメントと前記第2映像セグメントは、時間系列順であることを特徴とする方法。
  4. 請求項1記載の方法であって、
    前記第1映像セグメントは、前記第2映像セグメントに先行することを特徴とする方法。
  5. 請求項1記載の方法であって、
    前記1以上の第1画像を検出するステップは、さらに、前記1以上の第1画像を抽出し、
    前記1以上の第2画像を検出するステップは、さらに、前記1以上の第2画像を抽出する、
    ことを特徴とする方法。
  6. 請求項1記載の方法であって、さらに、
    前記第1映像セグメントと前記第2映像セグメントにおいて音声署名を検出するステップを有することを特徴とする方法。
  7. 請求項1記載の方法であって、
    前記1以上の第1及び第2画像は、1以上の顔画像を有することを特徴とする方法。
  8. 請求項1記載の方法であって、
    前記1以上の第1及び第2画像は、1以上の顔特徴を有することを特徴とする方法。
  9. 請求項1記載の方法であって、
    前記1以上の第1及び第2画像は、1以上のジェスチャを有することを特徴とする方法。
  10. マシーンによる読み出し可能なプログラム記憶装置であって、格納されるコンテンツにおいてコマーシャルを検出する方法のステップを実行するよう前記マシーンにより実行可能な命令のプログラムを有形に実現し、前記方法は、
    格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
    前記複数の映像セグメントの第1映像セグメントにおいて1以上の第1画像を検出するステップと、
    前記複数の映像セグメントの第2映像セグメントにおいて1以上の第2画像を検出するステップと、
    前記1以上の第1画像と前記1以上の第2画像とを比較するステップと、
    前記1以上の第2画像の何れもが前記1以上の第1画像と一致しない場合、前記第1映像セグメントと前記第2映像セグメントにおいて検出される1以上の音声署名を比較するステップと、
    前記第1映像セグメントと前記第2映像セグメントの音声署名が一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
    を有することを特徴とする装置。
  11. 格納されるコンテンツにおいてコマーシャルを検出するシステムであって、
    複数の映像セグメントにおいて1以上の画像を検出する画像認識モジュールと、
    前記複数の映像セグメントにおいて1以上の音声署名を検出する音声解析モジュールと、
    前記複数の映像セグメントを特定し、該複数の映像セグメントにおいて1以上の画像及び音声署名を検出、抽出及び比較するため、前記画像認識モジュールと前期音声解析モジュールを実行するプロセッサと、
    を有することを特徴とするシステム。
  12. 格納されるコンテンツにおいてコマーシャルを検出する方法であって、
    格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
    前記複数の映像セグメントの1つから1以上の第1画像を検出するステップと、
    前記1以上の第1画像と前記複数の映像セグメントの1つに先行する所定数の映像セグメントから抽出される1以上の画像を比較するステップと、
    前記1以上の第1画像が前記複数の映像セグメントの1つに先行する所定数の映像セグメントから抽出される1以上の画像と一致しない場合、前記複数の映像セグメントの1つで検出される1以上の第1音声署名と前記複数の映像セグメントの1つに先行する所定数の映像セグメントから抽出される1以上の音声署名を比較するステップと、
    前記音声署名が一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
    を有することを特徴とする方法。
  13. 格納されるコンテンツにおいてコマーシャルを検出する方法であって、
    格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
    前記複数の映像セグメントの第1映像セグメントにおいて1以上の第1画像を検出するステップと、
    前記複数の映像セグメントの第2映像セグメントにおいて1以上の第2画像を検出するステップと、
    前記1以上の第1画像と前記1以上の第2画像を比較するステップと、
    前記1以上の第2画像の何れもが前記1以上の第1画像と一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
    を有することを特徴とする方法。
JP2004539331A 2002-09-27 2003-09-19 合成された映像及び音声サインを介した拡張コマーシャル検出 Withdrawn JP2006500858A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/259,707 US20040062520A1 (en) 2002-09-27 2002-09-27 Enhanced commercial detection through fusion of video and audio signatures
PCT/IB2003/004107 WO2004030350A1 (en) 2002-09-27 2003-09-19 Enhanced commercial detection through fusion of video and audio signatures

Publications (1)

Publication Number Publication Date
JP2006500858A true JP2006500858A (ja) 2006-01-05

Family

ID=32029545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004539331A Withdrawn JP2006500858A (ja) 2002-09-27 2003-09-19 合成された映像及び音声サインを介した拡張コマーシャル検出

Country Status (7)

Country Link
US (1) US20040062520A1 (ja)
EP (1) EP1547371A1 (ja)
JP (1) JP2006500858A (ja)
KR (1) KR20050057586A (ja)
CN (1) CN100336384C (ja)
AU (1) AU2003260879A1 (ja)
WO (1) WO2004030350A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
US7796860B2 (en) * 2006-02-23 2010-09-14 Mitsubishi Electric Research Laboratories, Inc. Method and system for playing back videos at speeds adapted to content
TW200742431A (en) * 2006-04-21 2007-11-01 Benq Corp Playback apparatus, playback method and computer-readable medium
KR100804678B1 (ko) * 2007-01-04 2008-02-20 삼성전자주식회사 비디오 인물별 신 분류 방법 및 그 시스템
CN101159834B (zh) * 2007-10-25 2012-01-11 中国科学院计算技术研究所 一种重复性视频音频节目片段的检测方法和系统
CN100580693C (zh) * 2008-01-30 2010-01-13 中国科学院计算技术研究所 一种广告检测识别方法及系统
US8195689B2 (en) * 2009-06-10 2012-06-05 Zeitera, Llc Media fingerprinting and identification system
KR101027159B1 (ko) 2008-07-28 2011-04-05 뮤추얼아이피서비스(주) 타겟 영상 검출 장치 및 그 방법
US20100153995A1 (en) * 2008-12-12 2010-06-17 At&T Intellectual Property I, L.P. Resuming a selected viewing channel
CN101576955B (zh) * 2009-06-22 2011-10-05 中国科学院计算技术研究所 从音视频中检测广告的方法及系统
CN102087714B (zh) * 2009-12-02 2014-08-13 宏碁股份有限公司 图像识别登陆系统及其方法
US8675981B2 (en) 2010-06-11 2014-03-18 Microsoft Corporation Multi-modal gender recognition including depth data
US8768003B2 (en) 2012-03-26 2014-07-01 The Nielsen Company (Us), Llc Media monitoring using multiple types of signatures
US8769557B1 (en) 2012-12-27 2014-07-01 The Nielsen Company (Us), Llc Methods and apparatus to determine engagement levels of audience members
US8813120B1 (en) 2013-03-15 2014-08-19 Google Inc. Interstitial audio control
US9369780B2 (en) * 2014-07-31 2016-06-14 Verizon Patent And Licensing Inc. Methods and systems for detecting one or more advertisement breaks in a media content stream
US10121056B2 (en) 2015-03-02 2018-11-06 International Business Machines Corporation Ensuring a desired distribution of content in a multimedia document for different demographic groups utilizing demographic information
US9507996B2 (en) * 2015-03-02 2016-11-29 International Business Machines Corporation Ensuring a desired distribution of images in a multimedia document utilizing facial signatures
US11166054B2 (en) 2018-04-06 2021-11-02 The Nielsen Company (Us), Llc Methods and apparatus for identification of local commercial insertion opportunities
US10621991B2 (en) * 2018-05-06 2020-04-14 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
US10692486B2 (en) * 2018-07-26 2020-06-23 International Business Machines Corporation Forest inference engine on conversation platform
JP7196656B2 (ja) * 2019-02-07 2022-12-27 日本電信電話株式会社 クレジット区間特定装置、クレジット区間特定方法及びプログラム
US11082730B2 (en) * 2019-09-30 2021-08-03 The Nielsen Company (Us), Llc Methods and apparatus for affiliate interrupt detection
EP4106984A4 (en) 2020-02-21 2024-03-20 Ditto Tech Inc EYEWEAR FRAME CONNECTION INCLUDING LIVE CONNECTION
US20210319230A1 (en) * 2020-04-10 2021-10-14 Gracenote, Inc. Keyframe Extractor
US11516522B1 (en) * 2021-07-02 2022-11-29 Alphonso Inc. System and method for identifying potential commercial breaks in a video data stream by detecting absence of identified persons associated with program type content in the video data stream

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5436653A (en) * 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5696866A (en) * 1993-01-08 1997-12-09 Srt, Inc. Method and apparatus for eliminating television commercial messages
US5835616A (en) * 1994-02-18 1998-11-10 University Of Central Florida Face detection using templates
JPH08149099A (ja) * 1994-11-25 1996-06-07 Niirusen Japan Kk テレビ放送におけるコマーシャル及び番組情報処理システム
US6002831A (en) * 1995-05-16 1999-12-14 Hitachi, Ltd. Image recording/reproducing apparatus
US5999689A (en) * 1996-11-01 1999-12-07 Iggulden; Jerry Method and apparatus for controlling a videotape recorder in real-time to automatically identify and selectively skip segments of a television broadcast signal during recording of the television signal
US6469749B1 (en) * 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content

Also Published As

Publication number Publication date
AU2003260879A1 (en) 2004-04-19
CN100336384C (zh) 2007-09-05
US20040062520A1 (en) 2004-04-01
KR20050057586A (ko) 2005-06-16
CN1685712A (zh) 2005-10-19
WO2004030350A1 (en) 2004-04-08
EP1547371A1 (en) 2005-06-29

Similar Documents

Publication Publication Date Title
JP2006500858A (ja) 合成された映像及び音声サインを介した拡張コマーシャル検出
US6219640B1 (en) Methods and apparatus for audio-visual speaker recognition and utterance verification
US7472063B2 (en) Audio-visual feature fusion and support vector machine useful for continuous speech recognition
JP5247356B2 (ja) 情報処理装置およびその制御方法
Jiang et al. Multimodal biometric human recognition for perceptual human–computer interaction
JP3337988B2 (ja) 個体識別装置
US20080193016A1 (en) Automatic Video Event Detection and Indexing
JP5483863B2 (ja) 情報処理装置およびその制御方法
US8428312B2 (en) Image processing apparatus, image processing method, and storage medium
JP2011123529A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2001285787A (ja) 映像録画方法およびそのシステムとその記録媒体
JP2004133889A (ja) 画像のオブジェクトを認識する方法及びシステム
EP1112549A1 (en) Method of face indexing for efficient browsing and searching of people in video
El Khoury et al. Audiovisual diarization of people in video content
Nandakumar et al. A multi-modal gesture recognition system using audio, video, and skeletal joint data
Xu et al. Ava-avd: Audio-visual speaker diarization in the wild
JP2006331271A (ja) 代表画像抽出装置及び代表画像抽出プログラム
KR102277929B1 (ko) 얼굴 인식에 기반한 실시간 얼굴 마스킹 시스템 및 이를 이용한 실시간 얼굴 마스킹 방법
Hung et al. Towards audio-visual on-line diarization of participants in group meetings
Zhang et al. Boosting-based multimodal speaker detection for distributed meetings
KR20150093480A (ko) 표정 인식을 이용한 영상 추출 장치 및 방법
Chaloupka A prototype of audio-visual broadcast transcription system
Kalantari et al. Visual front-end wars: Viola-Jones face detector vs Fourier Lucas-Kanade
Quenot et al. Rushes summarization by IRIM consortium: redundancy removal and multi-feature fusion
Potamianos et al. Audio-visual ASR from multiple views inside smart rooms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060915

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070731