JP2006500858A

JP2006500858A - 合成された映像及び音声サインを介した拡張コマーシャル検出

Info

Publication number: JP2006500858A
Application number: JP2004539331A
Authority: JP
Inventors: ギュッタ，スリニヴァス; アグニホトリ，ラリタ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-09-27
Filing date: 2003-09-19
Publication date: 2006-01-05
Also published as: AU2003260879A1; CN100336384C; US20040062520A1; KR20050057586A; CN1685712A; WO2004030350A1; EP1547371A1

Abstract

格納されるコンテンツにおいて番組からコマーシャルを検出するシステム及び方法。本システムは、特定のタイムウィンドウにおいて顔を検出及び抽出する画像検出モジュールを有する。抽出された顔は、以降のタイムウィンドウにおいて検出される顔とマッチングされる。何れの顔も一致しない場合、コマーシャル部分の開始を示すフラグが設定される。音声または発話解析モジュールが、顔の検出に用いられたものと同一のタイムウィンドウにおいて音声署名を解析することにより、コマーシャル部分の開始を検証する。

Description

本発明は、コマーシャルの検出に関し、より詳細には連続タイムウィンドウを介した映像及び音声サインを利用することによるコマーシャルの検出に関する。

テレビ放送信号のコマーシャル部分を他の番組コンテンツから区別する既存システムは、異なる放送モードまたは受信した映像信号のレベルの相違を検出することにより実行する。例えば、米国特許第６，２７５，６４６号は、複数の無音声部分間の時間間隔及びテレビ放送における複数の映像信号の変更ポイントの時間間隔に基づき、コマーシャルメッセージ部分を区別する映像記録/再生装置を記載している。独国特許第ＤＥ２９９０２２４５は、コマーシャルなしでの視聴のためのテレビ記録装置を記載している。しかしながら、上記特許で開示されている方法は、ルールベースのものであり、変更ポイントや放送局ロゴが映像信号に与えられているなどの一定の特徴に依存したものである。他のコマーシャル検出システムは、字幕テキストや急なシーン変更の検出技術を利用して、コマーシャルを他の番組から区別する。上記検出方法は、例えば、映像信号、放送局ロゴ及び字幕テキストの変更ポイントなどの特徴の存在が変更される場合には機能しなくなる。このため、上記特徴の有無に依存することなく映像信号からコマーシャルを検出する必要性がある。

テレビコマーシャルはほとんど常に、例えば、既知の画像または顔検出技術を利用することにより認識または検出可能な人物及び他の動的または静的オブジェクトの画像を含んでいる。多数の企業及び政府により各種特定技術の研究開発により多くのリソースを拡げるに従い、より洗練された信頼性のある画像認識技術が容易に利用可能となりつつある。これらの洗練された信頼性のある画像認識ツールの出現により、これらの画像認識ツールを利用して、コマーシャル部分を他の放送コンテンツとより正確に区別することが望ましい。さらに、音声認識または署名技術などの追加的技術を利用して、検出したコマーシャルを検証することにより、コマーシャル検出を向上させるシステム及び方法が望まれる。

従って、合成された映像及び音声署名を用いる拡張コマーシャル検出システム及び方法が与えられる。一特徴では、本方法は、格納されているコンテンツの逐次的時間順序に従う複数の映像セグメントを特定する。１つの映像セグメントからの画像は、次の映像セグメントからの画像と比較される。これらの画像が一致しない場合、２つのセグメントからの音声署名が比較される。これらの音声署名が一致しない場合、通常の番組からコマーシャルまでの切り替え、あるいはその逆を示すフラグが設定される。

一特徴では、本システムは、映像セグメントから画像を検出及び抽出する画像認識モジュールと、同一の映像セグメントから音声署名を検出及び抽出する音声署名モジュールと、格納されているコンテンツのコマーシャル部分を決定するため画像及び音声署名を比較するプロセッサとを有する。

コマーシャルを検出するため、格納されるテレビ番組の特定のタイムウィンドウ（ｔｉｍｅｗｉｎｄｏｗ）における顔画像の検出及び抽出を行う既知の顔検出技術が利用されてもよい。その後、抽出した顔画像は、前のタイムウィンドウまたは所定数の以前のタイムウィンドウにおいて検出されたものと比較するようにしてもよい。これらの顔画像が一致しない場合、コマーシャルの候補となるスタートを示すフラグが設定されるようにしてもよい。

図１は、複数のタイムセグメントまたはタイムウィンドウに分割される格納された番組コンテンツのフォーマットを示す。この格納された番組コンテンツは、例えば、磁気テープや他の任意のこのような用途のために利用可能な記憶装置にビデオ収録された放映されたテレビ番組であってもよい。図１に示されるように、格納された番組コンテンツ１０２は、所定の時間量の複数のセグメント１０４ａ、１０４ｂ、・・・、１０４ｎに分割される。各セグメント１０４ａ、１０４ｂ、・・・、１０４ｎは、いくつかのフレームを有する。これらのセグメントはまた、タイムウィンドウ、映像セグメントまたはタイムセグメントとここでは呼ばれる。

図２は、一特徴による格納されたコンテンツでのコマーシャルを検出する詳細なフロー図を示す。上述のように、格納されるコンテンツは、例えば、ビデオ収録あるいは格納されたテレビ番組を含む。図２を参照するに、２０２においてフラグがクリアあるいは初期化される。このフラグは、コマーシャルがまだ格納されたコンテンツ１０２において検出されていないということを示すものである。２０４において、格納されたコンテンツのセグメントまたはタイムウィンドウ（図１の１０４ａ）が解析のため特定される。格納された番組の始まりからコマーシャルを検出するとき、当該セグメントは格納されているコンテンツの第１セグメントなるかもしれない。このセグメントはまた、例えば、ユーザが格納された番組のある部分においてコマーシャルを検出したい場合、格納されたコンテンツの他の任意のセグメントであってもよい。この場合、ユーザは、コマーシャルの検出を開始する地点から格納された番組における位置を示すであろう。

２０６において、タイムウィンドウにおいて検出された顔画像を検出及び抽出するための既知の顔検出技術が利用される。このタイムウィンドウにおいて顔画像が検出されない場合、顔画像を有するタイムウィンドウが検出されるまで、以降のタイムウィンドウが解析される。このため、ステップ２０４及び２０６は、１以上の顔画像を有するタイムウィンドウが特定されるまで繰り返されるかもしれない。２０８において、次のセグメントまたはタイムウィンドウ（図１の１０４ｂ）が解析される。２１０において、次のセグメントが存在しない場合、すなわち、格納された番組のエンドに達した場合、本プロセスは２２４において終了される。そうでない場合、２１２において、タイムウィンドウ１０４ｂの顔画像がまた検出及び抽出される。顔画像が検出されない場合、本プロセスは２０４に戻る。２１４において、第１タイムウィンドウ（図１の１０４ａ）と次のタイムウィンドウ（図１の１０４ｂ）から検出された顔画像が比較される。２１６において、顔画像が一致する場合、本プロセスは２０８に戻り、以降のタイムウィンドウ（例えば、図１の１０４ｃ）が顔画像のマッチングのため特定及び解析される。顔画像は、現在のタイムウィンドウに先行するタイムウィンドウにおいて検出された顔画像とマッチングまたは比較される。これにより例えば、図１を参照するに、タイムウィンドウ１０４ａにおいて検出された顔画像がタイムウィンドウ１０４ｂにおける顔画像と比較される。タイムウィンドウ１０４ｂで検出される顔画像は、タイムウィンドウ１０４ｃの顔画像らと比較される。

他の特徴では、先行する複数のタイムウィンドウからの顔画像が比較されてもよい。例えば、タイムウィンドウ１０４ｃで検出される顔画像がタイムウィンドウ１０４ａと１０４ｂで検出されるものと比較され、これらの顔の何れもが一致しない場合、番組コンテンツに変化があると判断するようにしてもよい。現在のウィンドウの顔画像といくつかの先行するウィンドウにおいて検出される顔画像と比較することは、シーン変更により発生する異なる画像を正確に補償するするかもしれない。例えば、タイムウィンドウ１０４ｂと１０４ｃの画像の変化は、通常の番組のシーン変更により発生するものであるかもしれないし、またタイムウィンドウ１０４ｃがコマーシャルを含むため必ずしもそうでないかもしれない。従って、タイムウィンドウ１０４ｃの画像がコンテンツとして通常の番組を有するタイムウィンドウ１０４ａの画像と比較される場合、そして一致する場合には、タイムウィンドウ１０４ｃの画像がタイムウィンドウ１０４ｂの画像と一致しなくても、タイムウィンドウ１０４ｃは通常の番組を含んでいると決定されるかもしれない。このようにして、コマーシャルは、セグメント単位で通常番組のシーン変化から区別されるかもしれない。

一特徴では、初期化段階において、シーン変化を補償したり、あるいはシーン変化をコマーシャルから区別するため、いくつかのタイムウィンドウからの画像が比較プロセスの開始前の補償のための基礎として蓄積されてもよい。例えば、図１を参照するに、最初の３つのウィンドウ１０４ａ、・・・、１０４ｃからの画像が始めに蓄積されるようにしてもよい。これら最初の３つのウィンドウ１０４ａ、・・・、１０４ｃは、通常の番組を含むと仮定されている。その後、ウィンドウ１０４ｄからの画像が１０４ｃ、１０４ｂ及び１０４ａからの画像と比較されてもよい。次に、処理１０４ｅ時に、ウィンドウ１０４ｅからの画像が１０４ｄ、１０４ｃ及び１０４ｂからの画像と比較され、例えば比較のための３つの移動ウィンドウが生成される。このようにして、初期化におけるシーン変化によるコマーシャルの誤った検出が解消されるかもしれない。

さらに、コマーシャルが記録の初期段階において再生中である場合、いくつかのタイムウィンドウの蓄積により、番組の第１シーンがコマーシャルであるとする誤った判断が解消されるであろう。

再び図２を参照するに、２１６において、例えば、テレビ番組からコマーシャルへの番組コンテンツの変化、あるいはその逆の変化を示すなどのように、現在ウィンドウの顔画像が一致しない場合、本プロセスは２１８に移行し、コマーシャルフラグが設定されているか判断される。コマーシャルフラグの設定は、例えば、現在のタイムウィンドウがコマーシャルの一部であったことを示している。

しかしながら、番組における同一の新しい顔が以降のｎ個のタイムフレームに対して存在し続ける場合、このことはシーンや俳優が変更され、番組は継続していることを意味しているため、コマーシャルフラグはリセットされるであろう。コマーシャルは大変短く（３０秒から１分間）、本方法はコマーシャルの存在を誤ってトリガーする顔の変化を訂正するのに利用される。

コマーシャルフラグが設定される場合、顔画像の変化は異なるコマーシャルまたは番組の再開を意味するかもしれない。セグメントには一緒にグループ化された約３〜４のコマーシャルが存在するため、連続して複数のウィンドウに対して発生する新しい顔は、異なるコマーシャルが始まったことを意味するであろう。しかしながら、顔画像の変化がコマーシャルフラグの設定前のタイムセグメントの顔と一致する場合、これは通常の番組が再開したことを意味するであろう。従って、コマーシャルフラグは２２０においてリセットまたは再初期化される。

他方、２１８において、コマーシャルフラグが設定されていない場合、前のタイムウィンドウから現在のタイムウィンドウまでの顔画像の変化は、コマーシャル部分が始まったことを意味するであろう。従って、２２２において、コマーシャルフラグが設定される。コンピュータプログラミングの分野の当業者には既知であるように、コマーシャルフラグの設定またはリセットは、それぞれ「１」または「０」の値をメモリエリアまたはレジスタに割り当てることにより実現されてもよい。コマーシャルフラグの設定またはリセットは、コマーシャルフラグに対し指定された記憶領域にそれぞれ「ｙｅｓ」または「ｎｏ」ｗｐ割り当てることにより示されるかもしれない。このとき、本プロセスは２０８に続き、格納されている番組コンテンツにおいてコマーシャル部分を検出するため、以降のタイムウィンドウが同様にして調べられる。

他の特徴では、映像コンテンツの顔画像が追跡され、その軌跡がその識別情報と共にマッピングされる。例えば、識別情報には、顔１、顔２、・・・、顔ｎなどの識別子が含まれてもよい。軌跡は、例えば、映像フレーム上の異なるｘ−ｙ座標などの映像ストリームに出現するとき、検出された顔画像の挙動である。各顔を有する音声ストリームの音声署名または音声特徴はまた、各顔軌跡及び識別情報によりマッピングまたは特定される。顔軌跡、識別情報及び音声署名は、「マルチメディア署名」と呼ばれる。映像ストリームにおいて顔画像が変化するとき、新しい軌跡が当該顔画像に対し開始される。

コマーシャルが始まったかもしれないと判断されると、マルチメディア署名として総称される顔軌跡、その識別情報及び関連する音声署名が当該コマーシャルセグメントから特定される。その後、マルチメディア署名がコマーシャルデータベースにおいて検索される。コマーシャルデータベースには、コマーシャルであると決定されたマルチメディア署名が含まれる。マルチメディア署名がコマーシャルデータベースにおいて検出されると、当該セグメントはコマーシャルを有すると確認される。マルチメディア署名がコマーシャルデータベースにおいて検出されない場合、推定コマーシャル署名データベースが検索される。推定コマーシャル署名データベースには、おそらくコマーシャルに属すると判断されるマルチメディア署名が含まれる。マルチメディア署名が推定コマーシャル署名データベースにおいて検出される場合、マルチメディア署名はコマーシャルデータベースに追加され、マルチメディア署名がコマーシャルに属すると判断され、これにより、当該セグメントの確認はコマーシャルとして解析される。

従って、セグメントを前のセグメントと比較することによりコマーシャルがおそらく始まったということを判断すると、当該セグメントに関連するマルチメディア署名がコマーシャルデータベースにおいて特定されるかもしれない。マルチメディア署名がコマーシャルデータベースに存在する場合、当該セグメントはコマーシャルとしてマークされる。マルチメディア署名がコマーシャルデータベースに存在しない場合、推定コマーシャル署名データベースが検索される。マルチメディア署名が推定コマーシャル署名データベースに存在する場合、マルチメディア署名がコマーシャルデータベースに追加される。すなわち、繰り返し発生するマルチメディア署名はコマーシャルとしてコマーシャルデータベースにあげられる。

他の特徴では、上記コマーシャル検出方法をさらに拡張するため、音声署名解析をさらに利用して、顔画像検出技術を用いて検出されたコマーシャルが検証される。すなわち、１以上の画像認識技術を用いてコマーシャル部分が検出された後、音声解析ツールを用いて、映像セグメントの音声が変化したことを検証し、さらに番組コンテンツの変化を確認するようにしてもよい。

あるいは、顔画像検出と音声署名技術が共にコマーシャルの検出に利用されてもよい。すなわち、各映像セグメントに対し、顔画像と音声署名の両方が、１以上の以前のタイムウィンドウのものと比較されてもよい。顔画像と音声署名の両方が一致しない場合のみ、番組の変化を示すコマーシャルフラグが設定またはリセットされるであろう。これらの特徴は、図３及び４を参照して詳細に説明される。

図３は、音声署名解析技術により拡張されたコマーシャル検出方法を示すフロー図である。３０２において、コマーシャルフラグが初期化される。３０４において、格納されたコンテンツのセグメントが解析のため特定される。３０６において、当該セグメントから顔画像が検出及び抽出される。３０８において、当該セグメントから音声署名が検出及び抽出される。３１０において、格納されているコンテンツの以降のセグメントが特定される。３１２において、格納されているコンテンツのエンドを示す以降のセグメントが存在しない場合、本プロセスは３２６において終了される。そうでない場合、３１４において、以降のセグメントにおいて顔画像が検出及び抽出される。同様に、３１６において、当該以降のセグメントの音声署名が検出及び解析される。３１８において、この以降のセグメントにおいて検出及び抽出された顔画像及び音声署名の両方が、以前のセグメントから抽出されたもの、すなわち３０６と３０８において抽出されたものと比較される。

３２０において、顔画像と音声署名が一致しない場合、例えば、通常の番組からコマーシャルへの変更またはその逆などの格納されているコンテンツの変化の発生が検出される。このため、３２２において、コマーシャルフラグが設定されているか判断される。コマーシャルフラグは、番組が当該変化の前にどのモードであったか示すものである。３２２において、コマーシャルフラグが設定されると、３２４において番組がコマーシャル部分から通常の番組部分に変化したことを示すようフラグがリセットされる。従って、コマーシャルフラグがリセットされることは、コマーシャル部分のエンドを示す。そうでない場合、３２２において、コマーシャルフラグが設定されていない場合、ステップ３２８において、コマーシャル部分が始まったことを示すようコマーシャルフラグが設定される。格納されたコンテンツにおいてコマーシャル部分が検出されると、これらの映像セグメントの位置が特定され、以降の参照のためセーブされる。あるいは、磁気テープなどの格納コンテンツが他のテープまたは記憶装置にダビングされている場合、当該部分は、この検出されたコマーシャル部分をコピーするようスキップすることにより消去されてもよい。その後、本プロセスは３１０に戻り、次のセグメントが同様にして解析される。

他の特徴では、検出された顔画像が一致しないと判断された後、音声署名が解析されてもよい。これにより、本特徴では、音声署名はすべてのセグメントに対し検出または抽出されるわけではない。図４は、コマーシャル検出の本特徴を示すフロー図である。４０２において、コマーシャルフラグが初期化される。４０４において、コマーシャル検出を開始するため、セグメントが特定される。４０６において、顔画像が検出及び抽出される。４０８において、次のセグメントが特定される。４１０において、テープのエンドに到達すると、本プロセスは４３０で終了する。そうでない場合、４１２において、本プロセスはこの次のセグメントにおいて顔画像の検出及び抽出を再開する。４１４において、画像が比較される。前のセグメントまたはタイムウィンドウからの画像が４１２において抽出された画像と一致する場合、本プロセスは４０８に戻る。他方、画像が一致しない場合、４１８において、音声署名が前のセグメントと現在のセグメントから抽出される。４２０において、音声署名が比較される。４２２において、音声署名が一致している場合、本プロセスは４０８に戻る。そうでない場合、４２４において、コマーシャルフラグが設定されているか判断される。コマーシャルフラグが設定されている場合、当該フラグは４２６においてリセットされ、本プロセスは４０８に戻る。４２４において、コマーシャルフラグが設定されていない場合、当該フラグは４２８において設定され、本プロセスは４０８に戻る。

上述のコマーシャル検出システム及び方法は、汎用コンピュータにより実現されてもよい。例えば、図５は、一特徴によるコマーシャル検出システムの構成要素を示す図である。汎用コンピュータは、例えば、プロセッサ５１０、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのメモリ及び外部記憶装置５１４を備え、内部またはリモートデータベース５１２に接続されるようにしてもよい。典型的には、プロセッサ５１０により制御される画像認識モジュール５０４と音声署名モジュール５０６は、それぞれ画像と音声署名を検出及び抽出する。ＲＡＭなどのメモリ５０８は、処理中のプログラム及びデータのロードに使用される。プロセッサ５１０は、データベース５１２とテープ５１４にアクセスし、図１〜４を参照して説明されたように、コマーシャルを検出するため画像認識モジュール５０４と音声署名モジュール５０６を実行する。

画像認識モジュール５０４は、ソフトウェアの形態をとってもよいし、あるいはコントローラやプロセッサ５１０のハードウェアに埋め込まれてもよい。画像認識モジュール５０４は、映像セグメントとも呼ばれる各タイムウィンドウの画像を処理する。これらの画像は、加工されていないＲＧＢフォーマットであってもよい。画像はまた、例えば画素データから構成されてもよい。このような画像に対する画像認識技術は、当該技術分野では周知であり、便宜上、その説明は本発明の説明に必要なもの以外は省略される。

画像認識モジュール５０４を用いて、例えば、画像中の人体の輪郭を認識し、これにより画像中の人物を認識することができるかもしれない。当該人物の体が特定されると、画像認識モジュール５０４を用いて、受信した画像における人物の顔が特定され、当該人物が識別されるようにしてもよい。

例えば、画像系列が受信され、画像認識モジュール５０４は人物の検出及び追跡を行うようにしてもよく、特に人物の頭のおよその位置が検出及び追跡されるようにしてもよい。このような検出及び追跡技術は、ＭｃＫｅｎｎａとＧｏｎｇによる「ＴｒａｃｋｉｎｇＦａｃｅｓ」（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｅｃｏｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ，Ｋｉｌｌｉｎｇｔｏｎ，Ｖｔ．，Ｏｃｔｏｂｅｒ１４−１６，１９９６，ｐｐ．２７１−２７６により詳細に説明されており、その内容が参照することによりここに含まれる（上記論文のセクション２は、複数の動きの追跡を説明している）。

顔検出に対して、プロセッサ５１０は、シンプルな形状情報を適用する既知の技術（例えば、楕円フィッティングやｅｉｇｅｎ−ｓｉｌｈｏｕｅｔｔｅｓなど）を利用して、画像中の輪郭に従うよう画像中の静的画像を特定するようにしてもよい。顔の対称性や典型的な皮膚の色調などの他の顔構造が（鼻、目など）特定するのに利用されてもよい。より複雑なモデリング技術は、顔の特徴の空間構成が顔の内部構造の全体表現内部で符号化される大きな多次元ハイパースペースにおける点として顔をモデル化する光度表現を利用する。顔検出は、例えば、画像ハイパースペースのあるサブスペースに対し顔のモデルと画像中のパッチ（ｐａｔｃｈ）を比較することにより確率密度推定を決定するなどによって、画像のパッチを「顔」または「非顔」ベクトルの何れかに分類することにより達成される。上記及び他の顔検出技術は、上述の「ＴｒａｃｋｉｎｇＦａｃｅｓ」の論文においてより詳細に説明されている。

あるいは、顔検出は、正面撮影像または略正面撮影像を検出するため、画像認識モジュール５０４内にサポートされるニューラルネットワークをトレーニングすることにより実現されるようにしてもよい。トレーニング画像は、例えば、顔画像の中心の標準的な長円形部分に焦点を当てるため、スケーリング及びマスク処理される。トレーニング画像の光度を等化させるためのいくつかの既知の技術が適用されてもよい。このトレーニングは、トレーニング用顔画像のスケールと回転を調整することにより拡張されてもよい（従って、画像の姿勢を調整するようネットワークをトレーニングする）。トレーニングはまた、真偽非顔パターンのバックプロパゲーションを伴うかもしれない。制御ユニットは、画像の一部を画像認識モジュール５０４のトレーニングされたニューラルネットワークルーチンに与えるようにしてもよい。ニューラルネットワークは、この画像部分を処理し、画像トレーニングに基づき顔画像であるか判断する。

顔検出のニューラルネットワーク技術はまた、上記「ＴｒａｃｋｉｎｇＦａｃｅｓ」の論文により詳細に説明されている。ニューラルネットワークを利用した顔検出のさらなる詳細は（性別、人種及び姿勢などの他の顔サブ分類の検出と共に）、Ｇｕｔｔａらによる「ＭｉｘｔｕｒｅｏｆＥｘｐｅｒｔｓｆｏｒＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＧｅｎｄｅｒ，ＥｔｈｎｉｃＰｒｉｇｉｎａｎｄＰｏｓｅｏｆＨｕｍａｎＦａｃｅｓ」（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ｖｏｌ．１１，ｎｏ．４，ｐｐ．９４８−９６０（Ｊｕｌｙ２０００）に説明されており、その内容が参照することによりここに含まれ、当該論文は以下では「ＭｉｘｔｕｒｅｏｆＥｘｐｅｒｔｓ」と呼ばれる。

画像中に顔が検出されると、この顔画像は前のタイムウィンドウで検出されたものと比較される。上述の顔検出のニューラルネットワーク技術は、あるタイムウィンドウから次のタイムウィンドウまでの顔のマッチングを行うネットワークをトレーニングさせることにより特定化のため適応されるかもしれない。他の人物の顔は、ネガティブマッチ（ｎｅｇａｔｉｖｅｍａｔｃｈ）としてトレーニングで利用されてもよい（例えば、ｆａｌｓｅ−ｐｏｓｉｔｉｖｅ適応など）。従って、画像の一部が顔画像を含むかに関するニューラルネットワークによる判断は、以前のタイムウィンドウで特定される顔に対するトレーニング画像に基づくであろう。あるいは、ニューラルネットワーク（上述のものなど）以外の技術を利用して顔が画像中に検出される場合、ニューラルネットワーク手順は、顔の検出を確認するのに利用されるかもしれない。

顔認識モジュール５０４においてプログラミングされる顔認識及び処理に関する他の技術として、１９９８年１１月１０日に発行された、参照することによりここに含まれるＬａｂｏらによる米国特許第５，８３５，６１６号「ＦＡＣＥＤＥＴＥＣＴＩＯＮＵＳＩＮＧＴＥＭＰＬＡＴＥＳ」は、デジタル画像中の人間の顔を自動的に検出及び/または特定し、顔の特徴を調べることにより顔の存在を確認するための２つのステップのプロセスを与えている。Ｌｏｂｏの技術は、ニューラルネットワーク技術により与えられる顔検出の代わりに、あるいは補完的に利用されてもよい。Ｌｏｂｏらによるシステムは、カメラの視野内の１以上の顔を、当該視野が画像内の顔の典型的位置に対応していなくても、検出に特に好適である。従って、画像認識モジュール５０４は、参照される米国特許第５，８３５，６１６号と同様に、肌色の位置、眉に対応する非肌色の位置、あごや鼻に対応する境界線などに基づき、顔の一般的特徴を有する領域に対する画像の一部を解析するようにしてもよい。

顔があるタイムウィンドウにおいて検出される場合、この顔は、データベースに格納されているかもしれない前のタイムウィンドウから検出される顔との比較のため特徴付けされる。好ましくは、画像における顔の特徴付けは、参照顔の特徴付けに利用される同一の特徴付けプロセスであり、「光学的」一致というよりも特徴に基づく顔の比較を容易にし、これにより、一致を検出するため、２つの同じ画像（現在の顔と前野タイムウィンドウにおいて検出される参照顔）を有する必要を回避することができる。

従って、メモリ５０８及び./または画像認識モジュール５０４は、前のタイムウィンドウにおいて特定された画像群を効果的に有する。現在タイムウィンドウにおいて検出される画像を利用して、画像認識モジュール５０４は、参照画像群の任意の一致する画像を効果的に決定する。この「一致」とは、参照画像群を用いてトレーニングされたニューラルネットワークにより与えられる画像中の顔の検出であってもよいし、あるいは上述のように米国特許第５，８３５，６１６号と同様のカメラ画像と参照画像の顔の特徴のマッチングであってもよい。

画像認識処理はまた、顔画像に加えてジェスチャを検出するようにしてもよい。あるタイムウィンドウで検出されるジェスチャが、次のタイムウィンドウにおいて検出されるものと比較されてもよい。画像からジェスチャを認識することに関するさらなる詳細は、Ｇｕｔｔａ、Ｉｍａｍ及びＷｅｃｈｓｌｅｒらによる「ＨａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＥｎｓｅｍｂｌｅｓＯｆＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ（ＲＢＦ）ＮｅｔｗｏｒｋｓＡｎｄＤｅｃｉｓｉｏｎＴｒｅｅｓ」（Ｉｎｔ‘ｌＪｏｕｒｎａｌｏｆＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．１１，ｎｏ．６，ｐｐ．８４５−８７２（１９９７））に与えられ、その内容は参照することによりここに含まれる。

音声署名モジュール５０６は、例えば、通常用いられる既知の発話者特定技術の何れかを利用してもよい。これらの技術は、以下に限定されるものではないが、ＬＰＣ係数、ゼロクロスオーバーレート（ｚｅｒｏ−ｃｒｏｓｓｏｖｅｒｒａｔｅ）、ピッチ、振幅などの特徴のマッチングを利用する標準的な音声解析技術を含む。その内容が参照することによりここに含まれる、ＤｏｎｇｇＬｉ、ＩｓｈｗａｒＫ．Ｓｅｔｈｉ、ＮｅｖｅｎｋａＤｉｍｉｔｒｏｖａ及びＴｏｍＭｃＧｅｅらによる「ＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＧｅｎｅｒａｌＡｕｄｉｏＤａｔａｆｏｒＣｏｎｔｅｎｔ−ＢａｓｅｄＲｅｔｒｉｅｖａｌ」（ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ２２（２００１）５３３−５４４）は、音声パターンを抽出及び特定する様々な方法を説明している。ガウスモデルに基づく分類器、ニューラルネットワークに基づく分類器、決定木および隠れマルコフモデルに基づく分類器を含む各種音声分類スキームなどの上記論文で記載された音声認識技術の何れかを利用して、異なる音声の抽出及び特定が行われてもよい。また、上記論文に記載される特徴抽出のためのさらなる音声ツールボックスを利用して、映像セグメントの異なる音声を特定してもよい。その後、特定された音声は、音声パターンの変化を検出するためセグメント単位で比較される。音声パターンの変化があるセグメントから他のセグメントにおいて検出されると、例えば、通常の番組からコマーシャルへの番組コンテンツの変化が確認されるかもしれない。

本発明がいくつかの実施例を参照して説明されたが、本発明が例示及び説明された特定の形態に限定されないということは当業者に理解されるであろう。例えば、画像の検出、抽出及び比較が顔画像に関して説明されたが、顔画像以外、あるいは顔画像に加えて他の画像を用いてコマーシャル部分を識別及び検出するようにしてもよいということは理解されるであろう。従って、形態及び詳細の各種変更が、添付された請求項により画定されるような本発明の趣旨及び範囲を逸脱することなく可能であろう。

図１は、複数のタイムセグメントまたはタイムウィンドウに分割された格納される番組コンテンツのフォーマットを示す。図２は、一特徴による格納されているコンテンツのコマーシャルを検出する詳細なフロー図を示す。図３は、一特徴による音声署名解析技術により拡張されるコマーシャル検出方法を示すフロー図である。図４は、他の特徴による音声署名解析技術により拡張されるコマーシャル検出方法を示すフロー図である。図５は、一特徴によるコマーシャル検出システムの構成要素を示す図である。

Claims

格納されるコンテンツにおいてコマーシャルを検出する方法であって、
格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
前記複数の映像セグメントの第１映像セグメントにおいて１以上の第１画像を検出するステップと、
前記複数の映像セグメントの第２映像セグメントにおいて１以上の第２画像を検出するステップと、
前記１以上の第１画像と前記１以上の第２画像とを比較するステップと、
前記１以上の第２画像の何れもが前記１以上の第１画像と一致しない場合、前記第１映像セグメントと前記第２映像セグメントにおいて検出される１以上の音声署名を比較するステップと、
前記第１映像セグメントと前記第２映像セグメントの音声署名が一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
を有することを特徴とする方法。
請求項１記載の方法であって、
前記特定するステップは、連続時間順に複数のセグメントを特定することを特徴とする方法。
請求項１記載の方法であって、
前記第１映像セグメントと前記第２映像セグメントは、時間系列順であることを特徴とする方法。
請求項１記載の方法であって、
前記第１映像セグメントは、前記第２映像セグメントに先行することを特徴とする方法。
請求項１記載の方法であって、
前記１以上の第１画像を検出するステップは、さらに、前記１以上の第１画像を抽出し、
前記１以上の第２画像を検出するステップは、さらに、前記１以上の第２画像を抽出する、
ことを特徴とする方法。
請求項１記載の方法であって、さらに、
前記第１映像セグメントと前記第２映像セグメントにおいて音声署名を検出するステップを有することを特徴とする方法。
請求項１記載の方法であって、
前記１以上の第１及び第２画像は、１以上の顔画像を有することを特徴とする方法。
請求項１記載の方法であって、
前記１以上の第１及び第２画像は、１以上の顔特徴を有することを特徴とする方法。
請求項１記載の方法であって、
前記１以上の第１及び第２画像は、１以上のジェスチャを有することを特徴とする方法。
マシーンによる読み出し可能なプログラム記憶装置であって、格納されるコンテンツにおいてコマーシャルを検出する方法のステップを実行するよう前記マシーンにより実行可能な命令のプログラムを有形に実現し、前記方法は、
格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
前記複数の映像セグメントの第１映像セグメントにおいて１以上の第１画像を検出するステップと、
前記複数の映像セグメントの第２映像セグメントにおいて１以上の第２画像を検出するステップと、
前記１以上の第１画像と前記１以上の第２画像とを比較するステップと、
前記１以上の第２画像の何れもが前記１以上の第１画像と一致しない場合、前記第１映像セグメントと前記第２映像セグメントにおいて検出される１以上の音声署名を比較するステップと、
前記第１映像セグメントと前記第２映像セグメントの音声署名が一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
を有することを特徴とする装置。
格納されるコンテンツにおいてコマーシャルを検出するシステムであって、
複数の映像セグメントにおいて１以上の画像を検出する画像認識モジュールと、
前記複数の映像セグメントにおいて１以上の音声署名を検出する音声解析モジュールと、
前記複数の映像セグメントを特定し、該複数の映像セグメントにおいて１以上の画像及び音声署名を検出、抽出及び比較するため、前記画像認識モジュールと前期音声解析モジュールを実行するプロセッサと、
を有することを特徴とするシステム。
格納されるコンテンツにおいてコマーシャルを検出する方法であって、
格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
前記複数の映像セグメントの１つから１以上の第１画像を検出するステップと、
前記１以上の第１画像と前記複数の映像セグメントの１つに先行する所定数の映像セグメントから抽出される１以上の画像を比較するステップと、
前記１以上の第１画像が前記複数の映像セグメントの１つに先行する所定数の映像セグメントから抽出される１以上の画像と一致しない場合、前記複数の映像セグメントの１つで検出される１以上の第１音声署名と前記複数の映像セグメントの１つに先行する所定数の映像セグメントから抽出される１以上の音声署名を比較するステップと、
前記音声署名が一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
を有することを特徴とする方法。
格納されるコンテンツにおいてコマーシャルを検出する方法であって、
格納されるコンテンツにおいて複数の映像セグメントを特定するステップと、
前記複数の映像セグメントの第１映像セグメントにおいて１以上の第１画像を検出するステップと、
前記複数の映像セグメントの第２映像セグメントにおいて１以上の第２画像を検出するステップと、
前記１以上の第１画像と前記１以上の第２画像を比較するステップと、
前記１以上の第２画像の何れもが前記１以上の第１画像と一致しない場合、コマーシャル部分の開始を示すフラグを設定するステップと、
を有することを特徴とする方法。