JP4643829B2

JP4643829B2 - ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法

Info

Publication number: JP4643829B2
Application number: JP2000596479A
Authority: JP
Inventors: アグニホトリ，ラリサ; ディミトロヴァ，ネヴェンカ; エイチエレンバース，ジャン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-01-28
Filing date: 1999-12-24
Publication date: 2011-03-02
Anticipated expiration: 2019-12-24
Also published as: US6731788B1; CN1295690A; JP2002536853A; EP1066577A1; EP1066577B1; CN100342376C; DE69935504D1; DE69935504T2; WO2000045291A1

Description

【０００１】
［関連する出願に他所参照］
本発明は、本発明の譲受人に共通に譲受された“METHOD AND APPARATUS FOR DETECTION AND LOCATION OF TEXT IN VIDEO”なる名称の１９９９年１月２８日出願の米国仮特許出願第６０／１１７，６５８号に開示される発明に係わる。この関連する仮特許出願の開示は、本願で述べるように全ての目的に対して参考として本願に組込まれる。
【０００２】
本発明は、一般的に、ビデオ処理システム、より特定的にはビデオのコンテンツ中で検出されたテキストの属性に基づいてビデオストリームを分析し特徴付けるシステムに向けられる。
【０００３】
ディジタルテレビジョン（ＤＴＶ）、インターネットの普及の増加、及び、コンパクトディスク（ＣＤ）並びにディジタルビデオディスク（ＤＶＤ）プレーヤのような消費者マルチメディア機器の導入の到来により、大量のマルチメディア情報を消費者が利用できるようになった。ビデオのコンテンツが容易に利用できるようになり、それを入手する製品が消費者市場に参入すると、大量のマルチメディアデータの検索、インデクシング、及び、識別がより一層困難、且、重要となる。
【０００４】
ビデオをインデクシングし、分類するシステム及び方法は、M.Abdel-Mottaleb他，“CONVIAS:Content-based Image and Video Access System”Proceedings of ACM Multimedia，pp.427-428，Boston（1996）；S-F.Chang他“VideoQ:An Automated Content Based Video Search System Using Visual Cues.”Proceedings of ACM Multimedia，pp.313-324，Seattle（1994）；M.Christel他“Informedia Digital Video Library,”Comm.of the ACM,Vol.38,No.4,pp.57-58（1995）；N.Dimitrova他“Video Content Management in Consumer Devices,”IEEE Transactions on Knowledge and Data Engineering（Nov.1998）；U.Gargi他“Indexing Text Events in Digital Video Databases,”International Conference on Pattern Recognition,Brisbane,pp.916-918（Aug.1998）；M.K.Mandal他“Image Indexing Using Moments and Wavelets,”IEEE Transactions on Consumer Electronics,Vol.42，No.3（Aug.1996）；及び、S.Pfeiffer他“Abstracting Digital Moves Automatically,”Journal on Visual Communications and Image Representation,Vol.7,No.4,pp.345-353（1996）を含む多数の文献に説明される。
【０００５】
ビデオストリーム中のコマーシャルの宣伝の検出も活性的な研究域である。R.Lienhart他“On the Detection and Recognition of Television Commercials,” Proceedings of IEEE International Conference on Multimedia Computing and Systems,pp.509-516（1997）；及び、T.McGee他“Parsing TV Programs for Identification and Removal of Non-Story Segments,”SPIE Conference on Storage and Retrieval in Image and Video Databases，San Jose（Jan.1999）を参照する。
【０００６】
文書の画像中のテキスト認識は、技術において周知である。文書のスキャナ及び関連する光学式文字認識（ＯＣＲ）ソフトウェアは、幅広く利用できよく理解されている。しかしながら、ビデオフレーム中のテキストの検出及び認識は、固有の問題を発生し、印刷される文書中のテキストと異なるアプローチを要求する。印刷された文書中のテキストは、一般的に均一の背景（無地の紙）上の単色文字に制限され、テキストを背景から分離するために簡単な閾値アルゴリズムだけを一般的に必要とする。反対に、スケールダウンされたビデオ画像中の文字は、制御されていない照明状況を含む様々なノイズ成分の問題を抱える。更に、背景が頻繁に動き、テキストの文字が異なる色、大きさ、及び、フォントでもよい。
【０００７】
局部部的な閾値による文字の抽出、及び、隣接する領域間のグレイレベルの差を評価することにより文字を含む画像領域を検出することは、Ohya他による“Recognizing Characters in Scene Images,”IEEE Trasactions on Pattern Analysis and Machine Intelligence,Vol.16,pp.214-224（Feb,1994）に説明される。Ohya他は、更に、文字模様の候補を生成するために、近傍にある、同様のグレイレベルを有する検出された領域の併合を説明する。
【０００８】
テキストを検出するためにビデオテキストの空間的な情況及び高いコントラストの特徴を用いて、互いに接近した垂直及び水平なエッジを含む領域を併合することは、Computational Models for Integrating Language and Vision（1995）に関するAAAI 1995年秋のシンポジウムのA.Hauptmann他による“Text,Speech,and Vision for Video Segementation:The Informedia Project,”で説明する。R.Lienhart及びF.Suberは、“Automatic Text Recognition for Video Indexing,”SPIE Conference on Imange and Video Processing（Jan.1996）においてビデオ画像中の色の数を減少するために非線形の赤、緑、及び、青（ＲＧＢ）色システムを説明する。その後の分割―及びー併合処理は、同様の色を有する均質なセグメントを発生する。Lienhart及びSuberは、前景の文字、単色又は剛性な文字、大きさが制限された文字、及び、周囲の領域と比較して高いコントラストを有する文字を含む均質な領域中の文字を検出するために様々な発見的方法を使用する。
【０００９】
テキストの場所を確認し、画像を複数の実際の前景及び背景の画像に分離するために多価の画像の分解を使用することは、A.K.Jain及びB.Yu他による“Automatic Text Location in Images and Video Frames,”Proceedings of IEEE Pattern Recoginition,pp.2055-2076,Vol.31（Nov.12,1998）で説明される。J-C.Shim他は、“Automatic Text Extraction from Video for Contet-Based Annotation and Retrieval,”Proceedings of the International Conference on Pattern Recognition,pp.618-620（1998）において均質な領域を探し、テキストをセグメント化し抽出するために一般化された領域にラベル付けするアルゴリズムを使用することを説明する。
【００１０】
文字のセグメンテーションの他の便利なアルゴリズムは、K.V.Mardia他による“A Spatial Thresholding Method for Image Segmentation,”IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.10,pp.919-927（1998）及びA.Perez他による“An Iterative Thresholding Method for Image Segmentation,”IEEE Transactions on Pattern Analysis and machine Intelligence,Vol.9,pp.742-751（1987）で説明される。
【００１１】
しかしながら、従来技術の認識システムは、ビデオのコンテンツ中で検出されたテキストの意味論上のない属性を考慮しない。従来技術のシステムは、画像テキストの意味論上のコンテンツを単に識別し、意味論的にされたコンテンツに基づいてビデオクリップをインデクシングする。フレーム中の物理的な位置、持続時間、動き、及び/又は、番組中の時間的な場所のような画像テキストの他の属性は無視される。追加的に、ビデオクリップを識別し編集するためにビデオのコンテンツを使用する試みは全くなされていない。
【００１２】
従って、ユーザにビデオクリップのアーカイブ中を検索させ、ユーザによって選択された画像テキストの属性に適合する画像テキストの属性を含むビデオクリップの全部分又は一部分を保存及び／又は編集させることを可能にする改善されたビデオ処理システムを設けることが技術において必要である。
【００１３】
［発明の要約］
従来技術の上述した欠点を克服するために本発明は、一つ以上のユーザ選択されたテキストの属性に対してビデオストリームを検索又はフィルタ処理するビデオ処理装置を開示する。一般的にビデオストリームを「検索」することは、ユーザ定義された入力に応答して検索することを意味し、「フィルタ処理」は一般的に少ない又はユーザ入力を全く必要としない自動化された処理を意味する。しかしながら、本開示では、「検索」及び「フィルタ処理」は、置き換えられて使用されてもよい。画像プロセッサは、ビデオクリップ中のフレームから画像テキストを検出し、抽出し、抽出された画像テキストの対応する属性を決定し、抽出された画像テキストの属性とユーザ選択された画像テキストの属性を比較する。夫々の画像テキストが適合する場合、ビデオ処理装置は、変更、転送、ラベル付け、又は、さもなければユーザコマンドに従ってビデオストリームの少なくとも一部分を識別してもよい。ビデオ処理装置は、ユーザ選択された画像テキストの属性を使用して１）ニュース番組又はスポーツイベントのような特定のタイプのイベントの場所を確認し、２）特定の人又はグループを特集する番組の場所を確認し、３）名から番組の場所を確認し、４）全て又は幾つかのコマーシャルを保存又は除去し、さもなければ、ビデオクリップのフレーム中に現われる画像テキストに従ってビデオクリップの全部分又は一部分を整列、編集、及び、保存するために、ビデオクリップのアーカイブ中を検索する。
【００１４】
本発明は、ビデオフレーム中の画像テキストを分析できるシステム中で使用し、少なくとも一つの選択された画像テキストの属性の受け取りに応答してビデオストリームの検索及び／又はフィルタ処理することができるビデオ処理装置を提供することを第１の目的とする。実施例では、ビデオ処理装置は、複数のビデオフレームを有する第１のビデオストリームを受信し、複数のビデオフレームから画像テキストを検出及び抽出し、抽出された画像テキストの少なくとも一つの属性を決定し、少なくとも一つの抽出された画像テキストの属性と少なくとも一つの選択された画像テキストの属性を比較し、少なくとも一つの引き出された画像テキストの属性と少なくとも一つの選択された画像テキストの属性が適合した場合１）第１のユーザコマンドに従って第１のビデオストリームの少なくとも一部分を変更、２）第２のユーザコマンドに従って第１のビデオストリームの少なくとも一部分を転送、３）第３のユーザコマンドに従って第１のビデオストリームの少なくとも一部分をラベル付けするうちの少なくとも一つを実施できる画像プロセッサを有する。
【００１５】
本発明の実施例によると、少なくとも一つの抽出された画像テキストの属性は、複数のビデオフレーム中の画像テキストが、水平にスクロールされ、垂直にスクロールされ、フェーディングされ、特殊効果及びアニメーション効果を実施されるのいずれかであることを示す。
【００１６】
本発明の一実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストが人名、及び、グループ名のいずれかであることを示す。
【００１７】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストがコマーシャル広告の一部であることを示す。
【００１８】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性複数のビデオフレーム中の画像テキストが番組の始まり、及び、番組の終りに表示されるテキストであることを示す。
【００１９】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストが番組名の一部であることを示す。
【００２０】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストがニュース番組の一部であることを示す。
【００２１】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストがスポーツ番組の一部であることを示す。
【００２２】
上述の説明は、以下の本発明の詳細な説明を当業者がより良く理解できるよう本発明の特徴及び技術的な利点を要約したものである。本発明の特許請求の範囲の技術的内容を形成する本発明の追加的な特徴及び利点は以下に詳細に説明する。当業者は、開示する概念及び特定の実施例を本発明と同じ目的を実行する上で他の構造を変更又は設計する基礎として容易に使用し得ることを認識するべきである。当業者は、このような同等の構成は、最も広い形態において本発明の精神及び範囲から逸脱しないことを認識するべきである。
【００２３】
詳細な説明に入る前に、本特許文書を通して使用される決まった用語及び表現を先に定義することが有利となり得、「含む」及び「有する」といった用語、並びに、それから派生する語は制限無しに包有することを意味し、「又は」の用語は及び／又はの意味も含み、「関連する」及び「関連付けられる」といった表現、並びに、それから派生する表現は、含む、含まれる、相互接続される、収容する、収容される、接続する、接続される、結合する、結合される、通信可能である、協動する、インタリーブする、並置する、近似する、密接に関係する、密接に関係される、有する、〜の特性を有する又は同等のものとして意味し得、「プロセッサ」又は「コントローラ」といった用語は全ての装置、システム又は少なくとも一つの動作を制御する一部を意味し得、このような装置はハードウェア、ファームウェア、又は、ソフトウェア、若しくは、少なくともこれらのうちの２つを組み合わせたもので実施され得る。全ての特定のコントローラと関連する機能性は、局部的又は遠隔的であっても中央に集中するか分配してもよいことに注意すべきである。追加的に、「ビデオクリップ」といった用語は、ビデオセグメント、ビデオシーケンス、ビデオコンテンツ、又は、同等のものを意味し得る。ある用語及び表現の定義が本特許文書を通じて与えられる。当業者は、このような定義が殆どでなければ多くの場合、このような定義は、このように定義された用語及び表現の従来、並びに、将来的な使用に適用されることを理解すべきである。
【００２４】
［詳細な説明］
本発明及びその利点のより完全な理解のために、添付図面と共に以下の説明を参照し、ここでは、同様の番号は同等の部分を示す。
【００２５】
以下に説明する図１乃至図５及び本特許文書における本発明の原理を説明するのに使用される様々な実施例は、例示に過ぎず、如何なる方法によっても本発明の範囲を制限するものとして解釈されてはならない。当業者には、本発明の原理が全ての適切に配置された画像テキスト分析システム中に実施されてもよいことを理解すべきである。
【００２６】
図１は、本発明の一実施例による画像テキスト分析システム１００の例を示す図である。画像テキスト分析システム１００は、ビデオ処理装置１１０と、ビデオ源１８０と、モニタ１８５と、ユーザ装置１９０とを有する。ビデオ処理装置１１０は、受信されたビデオ画像を分析する手段を提供する。ビデオ画像の分析は、システム或いはユーザ定義されたテキストの属性に基づいてビデオテキストを抽出し、分析し、更に、類別する本発明の処理を実現することを含む。ビデオ源１８０は、ビデオ処理装置１１０によって検索されるビデオクリップを保管する。ビデオ源１８０は、一つ以上のアンテナ、ビデオ・テープ・レコーダ（ＶＴＲ）、ディジタル・ビデオ・ディスク（ＤＶＤ）プレーヤ／レコーダ、ビデオ・ディスク・プレーヤ、又は、オーディオを含む又は含まないディジタル化されたビデオ画像を記憶し転送することができる同様の装置でもよい。ビデオ源１８０は、より長い長さのディジタル化されたビデオ画像を含む幾つかの短いクリップ又は複数のクリップを提供してもよい。ビデオ源１８０は、ＭＰＥＧ−１、ＭＰＥＧ−２等のような全ての公知のアナログ又はディジタルフォーマットでビデオデータを提供し得る。
【００２７】
モニタ１８５は、ビデオ画像を表示する手段を提供し、必要であればオーディオ用に具備されてもよい。ユーザ装置１９０は、システムにユーザ入力を与えるために画像テキスト分析システム１００のユーザによって操作され得る一つ以上の周辺装置を表わす。典型的な周辺のユーザ入力装置は、コンピュータマウス、キーボード、ライトペン、ジョイスティック、タッチテーブル並びに関連するスタイラス、及び／又は、表示されたビデオ画像の全て又は一部分を含むデータを入力、選択、及び／又は、操作するために選択的に使用される全ての他の装置でもよい。ユーザ装置１９０は、ビデオ処理装置１１０に入力するために所望のビデオテキストの識別の属性を選択することができる。ユーザ装置１９０は、更に、特定の画像、フレーム、又は、クリップのハードコピーを再生するカラープリンタのような出力装置を含んでもよい。
【００２８】
ビデオ処理装置１１０は、画像プロセッサ１２０と、ＲＡＭ１３０と、ストレージ１４０と、ユーザＩ／Ｏカード１５０と、ビデオカード１６０と、Ｉ／Ｏバッファ１７０と、プロセッサバス１７５とを有する。プロセッサバス１７５は、ビデオ装置１１０の多数の素子間でデータを転送する。ＲＡＭ１３０は、画像テキストワークスペース１３２及びテキスト分析コントローラ１３４を更に有する。
【００２９】
画像プロセッサ１２０は、ビデオ処理装置１１０に対して全般的な制御を提供し画像テキスト分析システム１００に要求される画像処理を実施し、この画像処理は、システム選択ユーザ選択されたの属性に基づいてビデオフレーム中のテキストを分析することを含む。画像処理は、編集処理を実行し、モニタ１８５上の表示及び／又はストレージ１４０への保存のためにディジタル化されたビデオ画像を処理し、画像テキスト分析システム１００の多数の素子間でデータを転送することも含む。画像プロセッサ１２０に対する要求及びその能力は技術において周知であり、ここでは本発明に必要なもの以外は詳細に説明しない。
【００３０】
ＲＡＭ１３０は、ビデオ処理装置１１０によって発生されたデータを一時的に記憶するランダムアクセスメモリであり、この一時的なデータの記憶はシステム内の他のコンポーネントによっては提供されない。ＲＡＭ１３０は、画像テキストワークスペース１３２及びテキスト分析コントローラ１３４のためのメモリ、並びに、画像プロセッサ１２０及び関連する装置によって要求される他のメモリを含む。画像テキストワークスペース１３２は、画像テキスト分析処理中に特定のビデオクリップと関連するビデオ画像を一時的に記憶するＲＡＭ１３０の一部分を表わす。画像テキストワークスペース１３２は、元のデータに影響を与えること無くクリップ内でフレームを変更する手段を提供し、そうすることで元のデータは後に回復できる。
【００３１】
本発明の一実施例では、テキスト分析コントローラ１３４は、システム又はユーザ定義されたテキストの属性を基礎としてビデオ画像の分析を実施する画像プロセッサ１２０によって実行された適用プログラムを記憶することに貢献するＲＡＭ１３０の一部分を表わす。テキスト分析コントローラ１３４は、モーフィング又はシーン間の境界の検出のような周知の編集技法、並びに、本発明と関連するビデオテキスト分析に対して新しい技法を実行してもよい。編集コントローラ１３４は、ＣＤ−ＲＯＭ、コンピュータディスケット、或いは、ストレージ１４０又はビデオ源１８０のような他の場所にある着脱自在なディスクポート中にロードされてもよい他の記憶媒体上のプログラムとして包含されてもよい。
【００３２】
ストレージ１４０は、要求されたビデオ及びオーディオデータを含むプログラム及び他のデータを永久的に保存し着脱自在なディスク（磁気又は光学）を含む一つ以上のディスクシステムを有する。システム要求に依存して、ストレージ１４０は、ビデオ及びオーディオデータをビデオ源１８０並びに残りのシステムから、又、それらへ転送するために一つ以上の双方向バスとインタフェースするよう構成される。ストレージ１４０は、要求されるとビデオレートでデータを転送することができる。ストレージ１４０は、テキストの属性の分析を含む編集目的のためにビデオを数分の間十分に保存できるよう一定の大きさにされる。特定の適用法及び画像プロセッサ１２０の能力に依存して、ストレージ１４０は、多数のビデオクリップを保存できるよう構成されてもよい。
【００３３】
ユーザＩ／Ｏカード１５０は、ユーザ装置１９０を画像テキスト分析システム１００の残りとインタフェースする手段を提供する。ユーザＩ／Ｏカード１５０は、画像プロセッサ１２０によるその後のアクセスのためにユーザ装置１９０から受信したデータを画像プロセッサ１２０又はＲＡＭ１３０に転送するためにこのデータをインタフェースバス１７５のフォーマットに変換する。ユーザＩ／Ｏカード１５０は、更に、データをプリンタのようなユーザ出力装置に転送する。ビデオカード１６０は、モニタ１８５とビデオ処理装置１１０の残りとの間にデータバス１７５を通じてインタフェースを提供する。
【００３４】
Ｉ／Ｏバッファ１７０は、ビデオ源１８０と画像テキスト分析システム１００の残りとの間にバス１７５を通じてインタフェースを提供する。前述したように、ビデオ源１８０は、Ｉ／Ｏッファ１７０とインタフェースするために少なくとも一つの双方向バスを有する。Ｉ／Ｏバッファ１７０は、データをビデオ源１８０に又はビデオ源１８０から要求されたビデオ画像の転送速度で転送する。ビデオ処理装置１１０内では、Ｉ／Ｏバッファ１７０は、要求される通りにビデオ源１８０から受信したデータをストレージ１４０、画像プロセッサ１２０、又は、ＲＡＭ１３０に転送する。画像プロセッサ１２０へのビデオデータの同時転送は、受信されたままにビデオ画像を表示する。
【００３５】
図２は、本発明の一実施例に従ってビデオ処理装置１１０のテキストの抽出及び認識動作を示すフローチャート２００である。テキストの抽出は、個々のビデオフレームに対して実施され、Ｍ×Ｎフレームの原点（０，０）は左上コーナとして識別される。フレーム内のピクセルは（ｘ，ｙ）座標によって参照され、このときｘはピクセル列（０乃至Ｎ）であり、ｙはピクセル行（０乃至Ｍ）である。
【００３６】
チャネルの分離（処理ステップ２０５）
最初に、画像プロセッサ１２０は、ビデオ画像の一つ以上のフレームの色を分離し、テキストを抽出する際に使用するために減少された色画像を記憶する。本発明の一実施例では、画像プロセッサ１２０は、ピクセルの赤成分を隔離するために赤―緑―青（ＲＧＢ）色空間モデルを使用する。赤成分は、ビデオテキストで主に使用される白、黄色、及び、黒を検出するのにより便利である。隔離された赤フレームは、これらの頻繁なテキスト色に対して鮮明で高いコントラストなエッジを提供する。隔離された赤フレームの画像は、画像テキストワークスペース１３２中に記憶される。本発明の別の実施例では、画像プロセッサ１２０は、グレイスケール画像又はＹＩＱビデオフレームのＹ成分のような他の色空間モデルを使用してもよい。
【００３７】
画像の向上（処理ステップ２１０）
更なる処理を実施する前に、捕捉された赤フレームが３×３マスクを使用して
【００３８】
【表１】

のように向上される。
【００３９】
追加的に、ソルト・アンド・ペッパー（ランダム）ノイズは、R.C.Gonzalez及びR.E.Woodsによる“Digital Image Processing” Addison−Wesley Publishing Company,Inc.（1992）で説明されるような中央値フィルタを使用して除去される。
【００４０】
エッジの検出（処理ステップ２１５）
向上された赤画像中のテキスト文字のエッジは
【００４１】
【表２】

のマスクを使用して検出され、このとき、マトリクス中の数はエッジ演算子の重みを表わす。
【００４２】
エッジがＭ×Ｎのエッジ画像を表わす場合、
【００４３】
【数１】

がエッジ検出のために使用されてもよく、このとき、０＜ｍ＜Ｍ及び０＜ｎ＜Ｎである。値ｗ_ｉｊは、エッジマスクからの重みであり、Ｆ_{ｘ＋ｉ，ｙ＋ｊ}は、画像「Ｆ」のピクセルを表わす。フレームのピクセル行の上段及び下段と、ピクセル列の左及び右（即ち、最も外側のピクセル）は、エッジ検出処理では無視される。
【００４４】
エッジ閾値は、所定の閾値であり、固定又は可変でもよい。固定された閾値の使用は、後に除去される必要がある多数のソルト・アンド・ペッパーノイズを生じさせ得る。更に、固定された閾値の使用は、画像の周りの固定されたエッジを壊れた断続的な形態で表示することで分裂した文字を表示させる。オープニング（例えば、膨張に後続する衰退）の既知の方法を使用することは、ソルト・アンド・ペッパーノイズと共にテキストの一部を失わさせる。従って、適応閾値の使用は、静的閾値の使用より改善されている。
【００４５】
ピクセルに対して幾つか又は全ての隣り合うピクセルがエッジとして印される場合、閾値は現在のピクセルをエッジとして印すために低くされる。現在のピクセルに対する閾値は、エッジとして印される隣り合うピクセルの数に依存して低められ得る。隣り合うピクセルがエッジであることは、現在のピクセルがエッジである可能性を増加する。低いエッジ閾値は、隣り合うピクセルに対する減少された閾値を計算するために使用される。これは、ピクセルがエッジでないときエッジとして印されないことを確実にする。処理は、エッジピクセルによって囲われているピクセルをエッジとして印す場合、逆にされ得る。
【００４６】
エッジフィルタ処理（処理ステップ２２０）
文字のエッジが一旦検出されると画像プロセッサ１２０は、テキストを含まない、若しくは、テキストが確実に検出され得ない画像領域を除去するために予備的なエッジフィルタ処理を実施する。例えば、エッジフィルタ処理は、フレームレベル及びサブフレームレベルで実施されてもよい。
【００４７】
フレームレベルでは、画像プロセッサ１２０は、フレーム中における対象物の密度が高いことによりフレームの適当な部分以上がエッジから構成されているような場合、フレームを無視するかフィルタアウトする。一旦フレームがフィルタアウトされると、テキスト分析は次の入力フレームに進む。フィルタ処理のフレームレベルが使用されるとき、画像プロセッサ１２０は、画像フレーム中のエッジの数を記録しておくためにエッジカウンタを保持する。しかしながら、これは、画像の幾つかのきれいな面積においてテキストの損失に繋がり得、悪影響をもたらし得る。
【００４８】
この問題を克服するために画像プロセッサ１２０は、サブフレームレベルでエッジフィルタ処理を実施してもよい。テキストを「密集した」フレーム中で見つけるために画像プロセッサ１２０は、フレームを小面積又はサブフレームに分割する。本発明の実施例では、画像プロセッサ１２０は、サブフレームを３つのグループのピクセル列及び３つのグループのピクセル行に分割し、合計で６つのサブフレームを得る。
【００４９】
画像プロセッサ１２０は、画像の各サブ分割された部分に対してエッジカウンタを保持するためにサブフレームカウンタを割り当て、６つのサブフレームカウンタを得る。実施例では、３つのカウンタが画像の３つの垂直（列）サブフレームに対して使用される。各垂直サブフレームは、フレーム面積の三分の一を占める。同様にして、３つのカウンタが画像の３つの水平（行）サブフレームに対して使用される。各水平サブフレームはこのときもフレーム面積の三分の一を占める。
【００５０】
次に、画像プロセッサ１２０は、サブフレーム中のエッジの数を決定するために各サブフレーム面積を検査し、関連するカウンタはこの数に反映する。きれいな面積をより多く保有し画像の三分の一よりも小さい領域中でテキストを含むために、より多くのサブフレームがより小さいサブフレーム面積を形成するのに使用されてもよい。
【００５１】
文字の検出（処理ステップ２２５）
次に、画像プロセッサ１２０は、先行するステップにおいて発生したエッジに対してコネクテッド−コンポーネント（ＣＣ）を実施する。各テキスト文字は、接続されたコンポーネント又はその一部を有すると推測される。画像プロセッサ１２０は、互いから（隣りから８ピクセルのように）ある距離内にあるエッジのピクセルを単一のコネクテッド―コンポーネント構造に併合する。このコネクテッド−コンポーネント構造は、一緒に接続されたピクセルの場所も含む。この構造は、その中心の場所と共に、構造中の（ｘ軸及びｙ軸に関して）最も左、最も右、上、及び、下にあるピクセルの値を更に含む。
【００５２】
接続されたコンポーネントは、コネクテッド−コンポーネントを形成するピクセルの数のカウントも含む。ピクセルカウントは、特定のコネクテッド−コンポーネントの面積を表わす。所定のシステム及び／又はユーザ閾値は、どのコネクテッド−コンポーネントが次の処理段に進むかを決定するために、コネクテッド−コンポーネントの面積、高さ、及び、幅に対する最大及び最小の制限を画成する。閾値基準外にあるコネクテッド−コンポーネントは、フィルタアウトされる。
【００５３】
テキストボックスの検出（処理ステップ２３０）
画像プロセッサ１２０は、前のステップにおいて基準を通ったコネクテッド−コンポーネントを左下のピクセルの場所に基づいて昇順に整列させる。画像プロセッサ１２０は、列の大きさにｘを加算したもののｙ倍として与えられるピクセルの絶対的な場所を表わす（ｘ，ｙ）座標の場所を基礎として整列される。コネクテッド−コンポーネントの整列されたリストは、考察され、テキストボックスを形成するために併合される。
【００５４】
画像プロセッサ１２０は、第１の接続されたコンポーネント、即ちコネクテッド−コンポーネントを第１のボックス、更に、分析のための最初又は現在のボックスとして割り当てる。画像プロセッサ１２０は、その後のコネクテッド−コンポーネント（ｉ）の最も下にあるピクセルが現在のテキストボックスの最も下にあるピクセルからの所定の許容できるピクセル行の閾値内にあるかを見るためにその後のコネクテッド−コンポーネント（ｉ）を夫々試験する。コネクテッド−コンポーネント（ｉ）が現在のボックスの数行（例えば、２行）以内におかれる場合、現在のテキストボックス及びコネクテッド−コンポーネント（ｉ）が同じラインのテキストに属する可能性が高い。行の差の閾値は、要求されるように固定でも可変でもよい。例えば、閾値は現在のテキストボックスの高さの一部でもよい。
【００５５】
画像中で距離が離れ過ぎているコネクテッド−コンポーネントが併合されることを回避するために、コネクテッド−コンポーネント（ｉ）とテキストボックスとの間の列の距離が列の閾値よりも小さいかを見るよう第２の試験が実施される。この可変閾値は、コネクテッド−コンポーネント（ｉ）の幅の倍数である。画像プロセッサ１２０は、テキストボックスとコネクテッド−コンポーネント（ｉ）が近くにある場合、コネクテッド−コンポーネント（ｉ）を現在のテキストボックスと併合する。コネクテッド−コンポーネント（ｉ）が現在のテキストボックスとの併合のための基準に満たない場合、新しいテキストボックスが始められ、コネクテッド−コンポーネント（ｉ）はその第１のコンポーネントとされ考察が続く。この処理は、画像中の単一のラインのテキストに対して複数のテキストを生じさせ得る。
【００５６】
画像プロセッサ１２０は、最初の文字併合処理によって形成されたテキストボックス夫々に対して第２のレベルの併合を実施する。この併合は、厳しいコネクテッド−コンポーネント併合基準又は乏しいエッジ検出のいずれかによって別のラインのテキストとして誤って解釈され得たテキストボックスを併合し、同じ文字に対して複数のコネクテッド−コンポーネントを生じさせる。
【００５７】
画像プロセッサ１２０は、幾つかの状態において各ボックスをそれに後続するテキストボックスと比較する。２つのテキストボックスに対する複数の試験状態は以下の通りである。
ａ）一方のボックスの底部が他方のボックスの行の差の閾値内にある。更に、２つのボックス間の水平方向の距離が第１のボックス中の文字の平均幅に基づいた可変閾値よりも小さい、
ｂ）一方のボックスの中心が他方のボックスの面積内にある、若しくは、
ｃ）テキストボックスが重なり合うことである。
【００５８】
上記状態のいずれかが満たされた場合、画像プロセッサ１２０は第２のボックスをテキストボックスのリストから除去し第１のボックス中に併合させる。画像プロセッサ１２０は、全てのテキストボックスが互いと試験され可能な限り組み合わされるまでこの処理を繰り返す。
【００５９】
テキストラインの検出及び向上（処理ステップ２３５）
画像プロセッサ１２０は、ステップ２３５から得られたテキストボックスが面積、幅、及び、高さの制約に従う場合これらテキストボックスをテキストラインとして受ける。各テキストボックスに対して、画像プロセッサ１２０は、元の画像からのテキストボックスに対応するサブ画像を抽出する。画像プロセッサ１２０は、白い背景に対してテキストが前景となるように抽出されたサブ画像を変更する。この変更は、この段の出力が光学式文字認識（ＯＣＲ）適用プログラムによって処理され得るために必要である。
【００６０】
画像プロセッサ１２０は、テキストボックス中のピクセルの平均グレイスケール値（ＡｖｇＦＧ）を計算することでテキストボックスの画像を変更する。テキストボックスの周りの領域（例えば、５ピクセル）の平均グレイスケール値（ＡｖｇＢＧ）も計算される。テキストボックス内では、画像プロセッサ１２０は、ＡｖｇＦＧ以上の全てのものを白として印し、ＡｖｇＦＧ以下のもの全てを黒として印す。白として印されたピクセルに対する平均、Ａｖｇ１、は、黒として印されたピクセルに対する平均、Ａｖｇ２、と共に計算される。
【００６１】
テキストボックスが一旦白黒（２進）画像に変換され、画像プロセッサ１２０がＡｖｇ１及びＡｖｇ２とＡｖｇＢＧとを比較する。ＡｖｇＢＧに近い平均を有する領域が背景として割り当てられ、他の領域が前景（又はテキスト）として割り当てられる。例えば、黒の領域の平均がＡｖｇＢＧに近い場合、黒の領域が白に変換され、又は、その逆ともなる。これは、テキストが常に黒くＯＣＲプログラムへの入力に対して一貫していることを確実にする。
【００６２】
画像プロセッサ１２０は、その後、抽出されたフレームテキストを画像テキストワークスペース１３２に記憶し次のフレームが処理ステップ２０５にある状態で処理が続く。このシーケンスは、テキストが選択されたビデオクリップの全てのフレームから抽出されるまで続く。一旦ビデオ画像テキストが認識され抽出されると、画像プロセッサ１２０は更に抽出されたテキストをシステム選択又はユーザ選択されたテキストの属性に基づいて隔離し分析してもよい。ビデオシーケンス又はクリップは、フレーム中又はフレーム群中に在るテキストに基づいて検索されるかインデクシングされてもよい。例えば、「ホテル」といった単語がフレーム中に存在することは、現在及び後続するフレーム中でホテルに関連するシーンがある可能性が高いことを示し得る。道の名前及び数の存在は、都心のシーンの可能性を示す。ビルボードテキストの識別は、高速のシーンを含むフレームを検索するときに役立ち得る。
【００６３】
特定のビデオフレームを分析しラベル付けするためにテキストを使用することが可能である。例えば、画像プロセッサ１２０は、特定のニューズ番組の一部として放送されるか特定のニューズレポータによって提供されたＬｉｖｅのニューズ報道を識別し抽出してもよい。画像プロセッサ１２０は、画像テキスト中で「Ｌｉｖｅ」、番組名（例えば、「ＮＥＷＳ４ＡＴＮＩＴＥ」）、又は、レポータの名前（例えば、「キャロル・ジョーンズ」）を含むキーワードを検索することでこれを行うことができる。
【００６４】
テキストボックスを認識することにより、画像プロセッサ１２０は、ビデオフレーム及びクリップを番組名、司会者名、プロデューサ名、ディレクター名、又は、他の名に基づいてインデシングし得る。これは、画像を音楽番組名（例えば、ＭＴＶ及びＶＨ−１ビデオクリップ）、トークショーの司会者又はゲスト等に基づいて識別及び分類することを含む。更に、スクリーン上にしばしば現われるボックススコアを抽出することでスポーツ番組を引き出し得る。例えば、画像プロセッサ１２０は、スコア、チーム名、選手名、及び同等の名を検索してもよい。株式市場情報は、抽出されインデクシングされ得る。天気の情報もスクリーン上に存在するテキスト情報に基づいて抽出されインデシングされ得る。
【００６５】
試合、トークショー、ニューズ、及び同様のものの間に流れるスクロールする「チッカー」は、選択された属性に関して画像テキストを検査することによって認識され得る。スクリーンチッカーは、最新の天候状況、株式市場の現状、及び属性の分析により識別されラベル付けされ将来的な使用のために検索され得る他の情報に関する情報を送る。抽出されたチッカー情報は、それが表示される番組のビデオと関連しないため放送番組自体から独立してみることができる。
【００６６】
残りのフレームのコンテンツに関連する重畳されたテキストの分析は、ビデオセグメントのキーフレームを識別することが要求されるとき役立ち得る。このような重畳された情報は、ビジュアル、オーディオ、及び、写し（耳の不自由な人のための字幕又はテレテキスト）情報の補完である。このテキストは、テキストを中に含むキーフレームを発生するためにビデオをインデクシングするショット検出アルゴリズムと共に使用され得る。テキストを含むキーフレームは、テキストを含まないものよりも意味を持ち、ビデオシーケンスを表わす。例えば、フットボールの試合のスコアを含むキーフレームは、スコアを含まないものよりも便利である。更に、コマーシャル中のテキストの場所及び大きさの検出は、コマーシャルの確実な検出のために他の属性と共に使用され得る。
【００６７】
更に、ビデオテキスト分析は、残りの画像のビデオコンテンツを分析し類別する新しい機会を提供する。シーンのテキスト及びその属性は、ビデオコンテンツに関する手掛かりを提供する。これは、ビデオのビジュアルコンテンツを分析するよりもより少ないコンピュータメモリ及びテキストを分析するより短い時間を要求することを含む幾つかの利点を提供する。例えば、スクロールテキストの検出は、番組の最初又は最後を識別してもよい。従って、この属性は、ビデオ内の番組の境界を複数の番組のグルーピングによって見つける必要があるとき便利である。
【００６８】
図３Ａ及び図３Ｂは、図１のビデオ処理装置１１０によって識別可能な選択された属性を有する画像テキストを含むビデオフレーム３０５及び３５０を例示する。ビデオフレーム３０５及び３５０中の画像テキストは、全てのビデオクリップ中にスクリーン上に必ずしも同時に表示されない。ビデオフレーム３０５及び３５０は、スクロールの動き、場所、フェーディング、短い持続時間、及び、キーワードのような画像テキストの選択された属性を示すために表示される。簡略化及び明瞭性の目的のため、本発明の動作を説明するにあたって、異なるタイプの番組からの画像テキストがビデオフレーム３０５及び３５０の中に組み合わされる。
【００６９】
ビデオフレーム３０５は、テレビジョン番組のビデオフレームから抽出されたテキストを表わす。この場合、システム／ユーザは、番組のクレジット又はフレームの底部にある情報のチッカーラインと関連するテキストのような水平又は垂直なスクロールテキストを隔離するために属性を選択する。スクロールの属性は、フレームのシーケンスにおいて同一であるテキストを識別することで検出されるが、テキストの位置はフレームからフレームにおいて僅かに移動する。更に、スクロールされない番組のプロデューサ等の表示に対してさえも画像プロセッサ１２０は番組のプロデューサ等の表示をスクリーン上に短い間だけ現われるテキストメッセージのシーケンスを識別し、任意には、更に「プロデューサ」「ディレクター」「主演」「出演」のようなテキスト中のキーワードを識別することで識別してもよい。
【００７０】
選択された垂直なスクロールの属性を使用して、画像プロセッサ１２０は点線で描かれた長方形によって示されるように上方向のスクロールテキストであるクレジットテキストライン３１０を隔離する。選択された水平なスクロールの属性を使用して画像プロセッサ１２０は、フレームの底部において示される、長方形中で示された天候メッセージであるスクロール警告テキストメッセージ３１５を隔離し、このテキストは観察者の左の方向にスクロールされる。
【００７１】
ビデオフレーム３５０は、ビデオフレーム中で容易に識別され得る特定の属性を有する画像テキストの他の例を含む。例えば、ビデオフレーム３５０の左上コーナのボックススコアテキスト３５５は３つのラインのテキストを提供する。第１のラインは、局又はネットワークを識別し、残りの２つのラインは試合のスコアを表示する。画像プロセッサ１２０は、ボックススコアテキスト３５５と同様の属性を有するインスクリーンのスポーツスコアを識別することによってスポーツ番組を識別してもよい。多くのスコアは、スクリーンのコーナに典型的に表わされ、数値データ（即ち、各チームの合計得点）は、ボックススコアと垂直に整列して現われる。
【００７２】
同様にして、広告テキスト３６０は、広告者と関連する電話番号（例えば、「１−８００−」）のキーワードの属性を有し、広告テキスト３６５は、広告者と関連するインターネットアドレス（例えば、「www.[company name].com」）のキーワードの属性を有する。更に、広告テキスト３６０及び広告テキスト３６５は、コマーシャルの広告を識別するために使用されてもよい別のテキストの属性を有する、即ち夫々のテキストはビデオ画像３５０の中心におかれる。多くの他のタイプのテキストは、スクリーンの底部又はコーナにおかれる。最後に、テキスト面積３７０は、フレームがニューズ番組の一部であることを識別するキーワードの属性（即ち、「ニューズ」）を有する。テキスト面積３７５は、表示されたテキストフレームがニューズ番組の一部であることを示す別のキーワードの属性（即ち、「Ｌｉｖｅ」）を有する。
【００７３】
図４は、本発明の一実施例に従ってシステム定義及びユーザ定義された画像テキストの属性を有するストレージ１４０中の画像テキストの属性テーブル４００を例示する。テーブル４００中の各システム／ユーザ定義された類別は、図１の画像テキスト分析システムの特定の実行によって決定されるように固定又は可変でもよい属性のファイルに対応する。
【００７４】
コマーシャルの属性４０５は、観察するためのファイル中で抽出され得るコマーシャル広告テキストの特徴を表わす。コマーシャルコンテンツと関連する属性は、ある寸法又は配置の範囲内のテキスト、短い持続時間のテキスト、電話番号の表示、メールアドレス、インターネットアドレス、及び、「セール」「製造者リベート」等のようなコマーシャル内のキーワードを含んでもよい。
【００７５】
番組名の属性４１０は、システム／ユーザに対して特定の番組を示すテキストが表示されるビデオクリップを隔離する手段を提供する。番組名の属性４１０は、寸法及び配置、並びに、「Seinfeld」のような実際の番組名を含み得る。番組名の属性４１０は、画像プロセッサ１２０が異なる番組中に表示される番組に対してコマーシャルを除去するために番組名に対して（始まりのような）ビデオクリップの識別されたセグメントだけを見るべきことを示してもよい。
【００７６】
番組のタイプの属性４１５は、特定のタイプの番組（スポーツ、ニューズ、音楽ビデオ等）を識別するテキストの属性を含む。これらのタイプの番組は、スポーツリーグキーワード（例えば、ＮＢＡ、ＮＨＬ）、ニューズ番組のキーワード（例えば、「ニューズ」、「天気」、「Ｌｉｖｅ」）、又は、音楽ビデオのキーワード（例えば、「プロデューサ」「〜による録音」）を含むボックススコアの属性を検索することで上述のように識別されてもよい。
【００７７】
個人的な名前の属性４２０は、特定の人（「ジョン・スミス」）を識別するテキストを含み、（ニューズ番組名、スポーツ協会等のような）他のテキストの属性と共に使用されてもよい。企業名の属性４２５は、特定の企業名の存在のためにビデオクリップを検査する手段を提供する。例えば、画像プロセッサ１２０は、野球場を囲むビルボード上の特定の企業名を識別してもよい。属性の選択は、前述したテキストの特徴、企業名のために検索されるべき番組名の識別、表示のために特定の企業名の識別、特定のニューズ番組内の製品上に示された企業名等を含み得る。
【００７８】
イベントの属性４３０は、スーパーボウル又はホワイトハウスブリーフィングのような特定のタイプのイベントのテキストの属性を参照する。これに関連して、イベントの属性は、番組のタイプの属性及び人名の属性と非常に類似してもよい。
【００７９】
テキスト効果の属性４３５は、選択及び表示目的のために利用できる標準のテキスト文字の群を提供する。テキスト効果の属性４３５は、水平及び垂直スクロール、ズーム（即ち、ズームイン又はズームアウト）、フラッシング、ウェーブ（又はリプル）、ピール、スクランブル、フライ、アニメーション、及び、インシーンテキストのようなテキスト効果を含み得る。
【００８０】
ネットワークロゴの属性４４０は、ネットワーク識別ロゴと関連するテキストの属性を参照する。これらは、ロゴが最も多くおかれ得る場所でテキストと最初のフレーム面積を適合するときに使用されるネットワーク名及びロゴを含む。ネットワークのロゴのフェードされるアウトライン（又は透かし）を番組のスクリーン画像上に重畳することがネットワークにとって一般的なことである。
【００８１】
テキスト表示の属性４４５は、特定のテキスト色、フォントタイプ、テキストの高さ、テキストの幅、又は、テキストの位置のような画像テキストの一つ以上の特定の特徴を参照する。テキストの高さ、テキストの幅、又は、テキストの位置の場合、寸法又は位置は絶対的な意味（例えば、ピクセルの特定された数又は範囲）又は、関連する意味（例えば、スクリーンの大きさの特定された割合又は割合の範囲）で与えられてもよい。
【００８２】
図５は、本発明の一実施例によるビデオ処理装置１１０の画像テキストの属性分析の動作を示すフローチャートである。標準のテキストの属性の群は、システムの初期化及び／又は変更又はユーザ装置１９０中に入るときにテキスト分析コントローラ１３４によってストレージ１４０に保存されてもよい。従って、画像プロセッサ１２０は、選択されたテキストの属性をストレージ１４０からのデフォルトによって、又は、ユーザ装置１９０からの特定の入力によって受信してもよい（処理ステップ５０５）。
【００８３】
ビデオテキスト分析が活性化されるとき、画像プロセッサ１２０は、図２においてより詳細に説明されたように選択されたビデオフレームからテキストを検出、抽出、及び、保存する（処理ステップ５１０）。抽出されたテキストのテキストの属性は、決定され画像ワークスペース１３２に記憶される。次に抽出された画像テキストは、選択された属性と比較され、その結果が画像テキストワークスペース１３２及び／又はストレージ１４０に要求されるように記憶される（処理ステップ５１５）。
【００８４】
特定の適用法に依存して、ビデオ画像テキストは選択された属性に適合するビデオ画像テキストがユーザコマンドに応答して既知の編集処理を通じて変更され得る（処理ステップ５２０）。編集は、例えば、全てのコマーシャルの除去を含み得、選択的に、コマーシャルだけを保有し番組を除去することを含む。結果となるビデオファイル及び関連する分析されたテキストは、引き出す目的のためにラベル付けされ、ストレージ１４０に保存され、及び／又はその後の使用のために内部記憶装置又は外部記憶装置に送られてもよい（処理ステップ５２５）。
【００８５】
本発明は、詳細に説明されたが当業者は本発明の精神及び範囲から逸脱することなく本願において様々な変化、代用、及び、変更をなし得ることを理解すべきである。
【図面の簡単な説明】
【図１】本発明の一実施例による画像テキスト分析システムを示す図である。
【図２】本発明の一実施例による図１の画像処理装置のテキストの抽出及び認識動作を示すフローチャートである。
【図３】Ａ及びＢは、図１のビデオ処理装置によって識別可能な、選択された属性を有する画像テキストを含むビデオフレームを示す図である。
【図４】本発明の一実施例によるシステム定義及びユーザ定義された画像テキストの属性を有する画像テキストの属性テーブルを示す図である。
【図５】本発明の一実施例による図１のビデオ処理装置の画像テキストの属性の分析動作を示すフローチャートである。

Claims

ビデオストリームのサーチ及びフィルタ処理の一方を行うことが可能なビデオ処理装置であって、
ビデオフレーム中の物理的な位置、持続時間、動き、及び、上記ビデオストリーム中の時間的な場所を含む属性の群から選択される少なくとも一つの画像テキスト属性を受信する機能と、
複数のビデオフレームを有するビデオストリームを受信する機能と、
上記複数のビデオフレームから画像テキストを検出及び抽出する機能と、
上記抽出された画像テキストの少なくとも一つの属性を決定する機能であって、上記少なくとも一つの抽出された画像テキスト属性が前記属性の群に属する機能と、
上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性を比較する機能と、
上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性との適合に応じて、
上記ビデオストリームの少なくとも一部分を変更する処理、
上記ビデオストリームの少なくとも一部分を転送する処理、及び
上記ビデオストリームの少なくとも一部分のラベル付けを行う処理
のうちの少なくとも一つを実施する機能とを行うことが可能な画像プロセッサを有するビデオ処理装置。
上記少なくとも一つの抽出された画像テキスト属性は、上記複数のビデオフレーム中の上記画像テキストが
水平のスクロール、
垂直のスクロール、
フェーディング、
ズーム、
リプリング、
フライング、及び、
フラッシングの
うちのいずれかであることを示す請求項１記載のビデオ処理装置。
画像テキスト分析システムであって、
請求項１記載のビデオ処理装置と、
上記ビデオストリームの上記少なくとも一部分を表示する表示モニタと、
ユーザ入力装置と
を有する画像テキスト分析システム。
ビデオストリームをサーチし、フィルタリング処理する方法であって、
ビデオフレーム中の物理的な位置、持続時間、動き、及び、上記ビデオストリーム中の時間的な場所を含む属性の群から選択される少なくとも一つの画像テキスト属性を受信する段階と、
複数のビデオフレームを有するビデオストリームを受信する段階と、
上記複数のビデオフレームから画像テキストを検出及び抽出する段階と、
上記抽出された画像テキストの少なくとも一つの属性を決定する段階であって、上記少なくとも一つの抽出された画像テキスト属性が前記属性の群に属する段階と、
上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性を比較する段階と、
上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性との適合に応じて、
上記ビデオストリームの少なくとも一部分を変更する処理、
上記ビデオストリームの少なくとも一部分を転送する処理、及び
上記ビデオストリームの少なくとも一部分のラベル付けを行う処理
のうちの少なくとも一つを実施する段階とを含む方法。
上記少なくとも一つの抽出された画像テキスト属性は、上記複数のビデオフレーム中の上記画像テキストが
水平のスクロール、
垂直のスクロール、
フェーディング、
ズーム、
リプリング、
フライング、及び、
フラッシングのうちのいずれかであることを示す請求項４記載の方法。
ビデオストリームのサーチ及びフィルタリングの一方を行うためにプログラムを記録させたコンピュータ読み取り可能な記憶媒体であって、上記プログラムは、
ビデオフレーム中の物理的な位置、持続時間、動き、及び、上記ビデオストリーム中の時間的な場所を含む属性の群から選択される少なくとも一つの画像テキスト属性を受信する段階と、
複数のビデオフレームを有するビデオストリームを受信する段階と、
上記複数のビデオフレームから画像テキストを検出及び抽出する段階と、
上記抽出された画像テキストの少なくとも一つの属性を決定する段階であって、上記少なくとも一つの抽出された画像テキスト属性が前記属性の群に属する段階と、
上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性を比較する段階と、
上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性との適合に応じて、
上記ビデオストリームの少なくとも一部分を変更する処理、
上記ビデオストリームの少なくとも一部分を転送する処理、及び
上記ビデオストリームの少なくとも一部分のラベル付けを行う処理
のうちの少なくとも一つを実施する段階とをコンピュータに実行させるコンピュータ読み取り可能な記憶媒体。
上記少なくとも一つの抽出された画像テキスト属性は、上記複数のビデオフレーム中の上記画像テキストが
水平のスクロール、
垂直のスクロール、
フェーディング、
ズーム、
リプリング、
フライング、及び、
フラッシングのうちのいずれかであることを示す請求項６記載のコンピュータ読み取り可能な記憶媒体。