JP4643829B2 - ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法 - Google Patents

ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法 Download PDF

Info

Publication number
JP4643829B2
JP4643829B2 JP2000596479A JP2000596479A JP4643829B2 JP 4643829 B2 JP4643829 B2 JP 4643829B2 JP 2000596479 A JP2000596479 A JP 2000596479A JP 2000596479 A JP2000596479 A JP 2000596479A JP 4643829 B2 JP4643829 B2 JP 4643829B2
Authority
JP
Japan
Prior art keywords
video
image text
text
attribute
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000596479A
Other languages
English (en)
Other versions
JP2002536853A (ja
Inventor
アグニホトリ,ラリサ
ディミトロヴァ,ネヴェンカ
エイチ エレンバース,ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/370,931 external-priority patent/US6608930B1/en
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2002536853A publication Critical patent/JP2002536853A/ja
Application granted granted Critical
Publication of JP4643829B2 publication Critical patent/JP4643829B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
[関連する出願に他所参照]
本発明は、本発明の譲受人に共通に譲受された“METHOD AND APPARATUS FOR DETECTION AND LOCATION OF TEXT IN VIDEO”なる名称の1999年1月28日出願の米国仮特許出願第60/117,658号に開示される発明に係わる。この関連する仮特許出願の開示は、本願で述べるように全ての目的に対して参考として本願に組込まれる。
【0002】
本発明は、一般的に、ビデオ処理システム、より特定的にはビデオのコンテンツ中で検出されたテキストの属性に基づいてビデオストリームを分析し特徴付けるシステムに向けられる。
【0003】
ディジタルテレビジョン(DTV)、インターネットの普及の増加、及び、コンパクトディスク(CD)並びにディジタルビデオディスク(DVD)プレーヤのような消費者マルチメディア機器の導入の到来により、大量のマルチメディア情報を消費者が利用できるようになった。ビデオのコンテンツが容易に利用できるようになり、それを入手する製品が消費者市場に参入すると、大量のマルチメディアデータの検索、インデクシング、及び、識別がより一層困難、且、重要となる。
【0004】
ビデオをインデクシングし、分類するシステム及び方法は、M.Abdel-Mottaleb他,“CONVIAS:Content-based Image and Video Access System”Proceedings of ACM Multimedia,pp.427-428,Boston(1996);S-F.Chang他“VideoQ:An Automated Content Based Video Search System Using Visual Cues.”Proceedings of ACM Multimedia,pp.313-324,Seattle(1994);M.Christel他“Informedia Digital Video Library,”Comm.of the ACM,Vol.38,No.4,pp.57-58(1995);N.Dimitrova他“Video Content Management in Consumer Devices,”IEEE Transactions on Knowledge and Data Engineering(Nov.1998);U.Gargi他“Indexing Text Events in Digital Video Databases,”International Conference on Pattern Recognition,Brisbane,pp.916-918(Aug.1998);M.K.Mandal他“Image Indexing Using Moments and Wavelets,”IEEE Transactions on Consumer Electronics,Vol.42,No.3(Aug.1996);及び、S.Pfeiffer他“Abstracting Digital Moves Automatically,”Journal on Visual Communications and Image Representation,Vol.7,No.4,pp.345-353(1996)を含む多数の文献に説明される。
【0005】
ビデオストリーム中のコマーシャルの宣伝の検出も活性的な研究域である。R.Lienhart他“On the Detection and Recognition of Television Commercials,” Proceedings of IEEE International Conference on Multimedia Computing and Systems,pp.509-516(1997);及び、T.McGee他“Parsing TV Programs for Identification and Removal of Non-Story Segments,”SPIE Conference on Storage and Retrieval in Image and Video Databases,San Jose(Jan.1999)を参照する。
【0006】
文書の画像中のテキスト認識は、技術において周知である。文書のスキャナ及び関連する光学式文字認識(OCR)ソフトウェアは、幅広く利用できよく理解されている。しかしながら、ビデオフレーム中のテキストの検出及び認識は、固有の問題を発生し、印刷される文書中のテキストと異なるアプローチを要求する。印刷された文書中のテキストは、一般的に均一の背景(無地の紙)上の単色文字に制限され、テキストを背景から分離するために簡単な閾値アルゴリズムだけを一般的に必要とする。反対に、スケールダウンされたビデオ画像中の文字は、制御されていない照明状況を含む様々なノイズ成分の問題を抱える。更に、背景が頻繁に動き、テキストの文字が異なる色、大きさ、及び、フォントでもよい。
【0007】
局部部的な閾値による文字の抽出、及び、隣接する領域間のグレイレベルの差を評価することにより文字を含む画像領域を検出することは、Ohya他による“Recognizing Characters in Scene Images,”IEEE Trasactions on Pattern Analysis and Machine Intelligence,Vol.16,pp.214-224(Feb,1994)に説明される。Ohya他は、更に、文字模様の候補を生成するために、近傍にある、同様のグレイレベルを有する検出された領域の併合を説明する。
【0008】
テキストを検出するためにビデオテキストの空間的な情況及び高いコントラストの特徴を用いて、互いに接近した垂直及び水平なエッジを含む領域を併合することは、Computational Models for Integrating Language and Vision(1995)に関するAAAI 1995年秋のシンポジウムのA.Hauptmann他による“Text,Speech,and Vision for Video Segementation:The Informedia Project,”で説明する。R.Lienhart及びF.Suberは、“Automatic Text Recognition for Video Indexing,”SPIE Conference on Imange and Video Processing(Jan.1996)においてビデオ画像中の色の数を減少するために非線形の赤、緑、及び、青(RGB)色システムを説明する。その後の分割―及びー併合処理は、同様の色を有する均質なセグメントを発生する。Lienhart及びSuberは、前景の文字、単色又は剛性な文字、大きさが制限された文字、及び、周囲の領域と比較して高いコントラストを有する文字を含む均質な領域中の文字を検出するために様々な発見的方法を使用する。
【0009】
テキストの場所を確認し、画像を複数の実際の前景及び背景の画像に分離するために多価の画像の分解を使用することは、A.K.Jain及びB.Yu他による“Automatic Text Location in Images and Video Frames,”Proceedings of IEEE Pattern Recoginition,pp.2055-2076,Vol.31(Nov.12,1998)で説明される。J-C.Shim他は、“Automatic Text Extraction from Video for Contet-Based Annotation and Retrieval,”Proceedings of the International Conference on Pattern Recognition,pp.618-620(1998)において均質な領域を探し、テキストをセグメント化し抽出するために一般化された領域にラベル付けするアルゴリズムを使用することを説明する。
【0010】
文字のセグメンテーションの他の便利なアルゴリズムは、K.V.Mardia他による“A Spatial Thresholding Method for Image Segmentation,”IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.10,pp.919-927(1998)及びA.Perez他による“An Iterative Thresholding Method for Image Segmentation,”IEEE Transactions on Pattern Analysis and machine Intelligence,Vol.9,pp.742-751(1987)で説明される。
【0011】
しかしながら、従来技術の認識システムは、ビデオのコンテンツ中で検出されたテキストの意味論上のない属性を考慮しない。従来技術のシステムは、画像テキストの意味論上のコンテンツを単に識別し、意味論的にされたコンテンツに基づいてビデオクリップをインデクシングする。フレーム中の物理的な位置、持続時間、動き、及び/又は、番組中の時間的な場所のような画像テキストの他の属性は無視される。追加的に、ビデオクリップを識別し編集するためにビデオのコンテンツを使用する試みは全くなされていない。
【0012】
従って、ユーザにビデオクリップのアーカイブ中を検索させ、ユーザによって選択された画像テキストの属性に適合する画像テキストの属性を含むビデオクリップの全部分又は一部分を保存及び/又は編集させることを可能にする改善されたビデオ処理システムを設けることが技術において必要である。
【0013】
[発明の要約]
従来技術の上述した欠点を克服するために本発明は、一つ以上のユーザ選択されたテキストの属性に対してビデオストリームを検索又はフィルタ処理するビデオ処理装置を開示する。一般的にビデオストリームを「検索」することは、ユーザ定義された入力に応答して検索することを意味し、「フィルタ処理」は一般的に少ない又はユーザ入力を全く必要としない自動化された処理を意味する。しかしながら、本開示では、「検索」及び「フィルタ処理」は、置き換えられて使用されてもよい。画像プロセッサは、ビデオクリップ中のフレームから画像テキストを検出し、抽出し、抽出された画像テキストの対応する属性を決定し、抽出された画像テキストの属性とユーザ選択された画像テキストの属性を比較する。夫々の画像テキストが適合する場合、ビデオ処理装置は、変更、転送、ラベル付け、又は、さもなければユーザコマンドに従ってビデオストリームの少なくとも一部分を識別してもよい。ビデオ処理装置は、ユーザ選択された画像テキストの属性を使用して1)ニュース番組又はスポーツイベントのような特定のタイプのイベントの場所を確認し、2)特定の人又はグループを特集する番組の場所を確認し、3)名から番組の場所を確認し、4)全て又は幾つかのコマーシャルを保存又は除去し、さもなければ、ビデオクリップのフレーム中に現われる画像テキストに従ってビデオクリップの全部分又は一部分を整列、編集、及び、保存するために、ビデオクリップのアーカイブ中を検索する。
【0014】
本発明は、ビデオフレーム中の画像テキストを分析できるシステム中で使用し、少なくとも一つの選択された画像テキストの属性の受け取りに応答してビデオストリームの検索及び/又はフィルタ処理することができるビデオ処理装置を提供することを第1の目的とする。実施例では、ビデオ処理装置は、複数のビデオフレームを有する第1のビデオストリームを受信し、複数のビデオフレームから画像テキストを検出及び抽出し、抽出された画像テキストの少なくとも一つの属性を決定し、少なくとも一つの抽出された画像テキストの属性と少なくとも一つの選択された画像テキストの属性を比較し、少なくとも一つの引き出された画像テキストの属性と少なくとも一つの選択された画像テキストの属性が適合した場合1)第1のユーザコマンドに従って第1のビデオストリームの少なくとも一部分を変更、2)第2のユーザコマンドに従って第1のビデオストリームの少なくとも一部分を転送、3)第3のユーザコマンドに従って第1のビデオストリームの少なくとも一部分をラベル付けするうちの少なくとも一つを実施できる画像プロセッサを有する。
【0015】
本発明の実施例によると、少なくとも一つの抽出された画像テキストの属性は、複数のビデオフレーム中の画像テキストが、水平にスクロールされ、垂直にスクロールされ、フェーディングされ、特殊効果及びアニメーション効果を実施されるのいずれかであることを示す。
【0016】
本発明の一実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストが人名、及び、グループ名のいずれかであることを示す。
【0017】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストがコマーシャル広告の一部であることを示す。
【0018】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性複数のビデオフレーム中の画像テキストが番組の始まり、及び、番組の終りに表示されるテキストであることを示す。
【0019】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストが番組名の一部であることを示す。
【0020】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストがニュース番組の一部であることを示す。
【0021】
本発明の別の実施例によると、少なくとも一つの引き出された画像テキストの属性は、複数のビデオフレーム中の画像テキストがスポーツ番組の一部であることを示す。
【0022】
上述の説明は、以下の本発明の詳細な説明を当業者がより良く理解できるよう本発明の特徴及び技術的な利点を要約したものである。本発明の特許請求の範囲の技術的内容を形成する本発明の追加的な特徴及び利点は以下に詳細に説明する。当業者は、開示する概念及び特定の実施例を本発明と同じ目的を実行する上で他の構造を変更又は設計する基礎として容易に使用し得ることを認識するべきである。当業者は、このような同等の構成は、最も広い形態において本発明の精神及び範囲から逸脱しないことを認識するべきである。
【0023】
詳細な説明に入る前に、本特許文書を通して使用される決まった用語及び表現を先に定義することが有利となり得、「含む」及び「有する」といった用語、並びに、それから派生する語は制限無しに包有することを意味し、「又は」の用語は及び/又はの意味も含み、「関連する」及び「関連付けられる」といった表現、並びに、それから派生する表現は、含む、含まれる、相互接続される、収容する、収容される、接続する、接続される、結合する、結合される、通信可能である、協動する、インタリーブする、並置する、近似する、密接に関係する、密接に関係される、有する、〜の特性を有する又は同等のものとして意味し得、「プロセッサ」又は「コントローラ」といった用語は全ての装置、システム又は少なくとも一つの動作を制御する一部を意味し得、このような装置はハードウェア、ファームウェア、又は、ソフトウェア、若しくは、少なくともこれらのうちの2つを組み合わせたもので実施され得る。全ての特定のコントローラと関連する機能性は、局部的又は遠隔的であっても中央に集中するか分配してもよいことに注意すべきである。追加的に、「ビデオクリップ」といった用語は、ビデオセグメント、ビデオシーケンス、ビデオコンテンツ、又は、同等のものを意味し得る。ある用語及び表現の定義が本特許文書を通じて与えられる。当業者は、このような定義が殆どでなければ多くの場合、このような定義は、このように定義された用語及び表現の従来、並びに、将来的な使用に適用されることを理解すべきである。
【0024】
[詳細な説明]
本発明及びその利点のより完全な理解のために、添付図面と共に以下の説明を参照し、ここでは、同様の番号は同等の部分を示す。
【0025】
以下に説明する図1乃至図5及び本特許文書における本発明の原理を説明するのに使用される様々な実施例は、例示に過ぎず、如何なる方法によっても本発明の範囲を制限するものとして解釈されてはならない。当業者には、本発明の原理が全ての適切に配置された画像テキスト分析システム中に実施されてもよいことを理解すべきである。
【0026】
図1は、本発明の一実施例による画像テキスト分析システム100の例を示す図である。画像テキスト分析システム100は、ビデオ処理装置110と、ビデオ源180と、モニタ185と、ユーザ装置190とを有する。ビデオ処理装置110は、受信されたビデオ画像を分析する手段を提供する。ビデオ画像の分析は、システム或いはユーザ定義されたテキストの属性に基づいてビデオテキストを抽出し、分析し、更に、類別する本発明の処理を実現することを含む。ビデオ源180は、ビデオ処理装置110によって検索されるビデオクリップを保管する。ビデオ源180は、一つ以上のアンテナ、ビデオ・テープ・レコーダ(VTR)、ディジタル・ビデオ・ディスク(DVD)プレーヤ/レコーダ、ビデオ・ディスク・プレーヤ、又は、オーディオを含む又は含まないディジタル化されたビデオ画像を記憶し転送することができる同様の装置でもよい。ビデオ源180は、より長い長さのディジタル化されたビデオ画像を含む幾つかの短いクリップ又は複数のクリップを提供してもよい。ビデオ源180は、MPEG−1、MPEG−2等のような全ての公知のアナログ又はディジタルフォーマットでビデオデータを提供し得る。
【0027】
モニタ185は、ビデオ画像を表示する手段を提供し、必要であればオーディオ用に具備されてもよい。ユーザ装置190は、システムにユーザ入力を与えるために画像テキスト分析システム100のユーザによって操作され得る一つ以上の周辺装置を表わす。典型的な周辺のユーザ入力装置は、コンピュータマウス、キーボード、ライトペン、ジョイスティック、タッチテーブル並びに関連するスタイラス、及び/又は、表示されたビデオ画像の全て又は一部分を含むデータを入力、選択、及び/又は、操作するために選択的に使用される全ての他の装置でもよい。ユーザ装置190は、ビデオ処理装置110に入力するために所望のビデオテキストの識別の属性を選択することができる。ユーザ装置190は、更に、特定の画像、フレーム、又は、クリップのハードコピーを再生するカラープリンタのような出力装置を含んでもよい。
【0028】
ビデオ処理装置110は、画像プロセッサ120と、RAM130と、ストレージ140と、ユーザI/Oカード150と、ビデオカード160と、I/Oバッファ170と、プロセッサバス175とを有する。プロセッサバス175は、ビデオ装置110の多数の素子間でデータを転送する。RAM130は、画像テキストワークスペース132及びテキスト分析コントローラ134を更に有する。
【0029】
画像プロセッサ120は、ビデオ処理装置110に対して全般的な制御を提供し画像テキスト分析システム100に要求される画像処理を実施し、この画像処理は、システム選択ユーザ選択されたの属性に基づいてビデオフレーム中のテキストを分析することを含む。画像処理は、編集処理を実行し、モニタ185上の表示及び/又はストレージ140への保存のためにディジタル化されたビデオ画像を処理し、画像テキスト分析システム100の多数の素子間でデータを転送することも含む。画像プロセッサ120に対する要求及びその能力は技術において周知であり、ここでは本発明に必要なもの以外は詳細に説明しない。
【0030】
RAM130は、ビデオ処理装置110によって発生されたデータを一時的に記憶するランダムアクセスメモリであり、この一時的なデータの記憶はシステム内の他のコンポーネントによっては提供されない。RAM130は、画像テキストワークスペース132及びテキスト分析コントローラ134のためのメモリ、並びに、画像プロセッサ120及び関連する装置によって要求される他のメモリを含む。画像テキストワークスペース132は、画像テキスト分析処理中に特定のビデオクリップと関連するビデオ画像を一時的に記憶するRAM130の一部分を表わす。画像テキストワークスペース132は、元のデータに影響を与えること無くクリップ内でフレームを変更する手段を提供し、そうすることで元のデータは後に回復できる。
【0031】
本発明の一実施例では、テキスト分析コントローラ134は、システム又はユーザ定義されたテキストの属性を基礎としてビデオ画像の分析を実施する画像プロセッサ120によって実行された適用プログラムを記憶することに貢献するRAM130の一部分を表わす。テキスト分析コントローラ134は、モーフィング又はシーン間の境界の検出のような周知の編集技法、並びに、本発明と関連するビデオテキスト分析に対して新しい技法を実行してもよい。編集コントローラ134は、CD−ROM、コンピュータディスケット、或いは、ストレージ140又はビデオ源180のような他の場所にある着脱自在なディスクポート中にロードされてもよい他の記憶媒体上のプログラムとして包含されてもよい。
【0032】
ストレージ140は、要求されたビデオ及びオーディオデータを含むプログラム及び他のデータを永久的に保存し着脱自在なディスク(磁気又は光学)を含む一つ以上のディスクシステムを有する。システム要求に依存して、ストレージ140は、ビデオ及びオーディオデータをビデオ源180並びに残りのシステムから、又、それらへ転送するために一つ以上の双方向バスとインタフェースするよう構成される。ストレージ140は、要求されるとビデオレートでデータを転送することができる。ストレージ140は、テキストの属性の分析を含む編集目的のためにビデオを数分の間十分に保存できるよう一定の大きさにされる。特定の適用法及び画像プロセッサ120の能力に依存して、ストレージ140は、多数のビデオクリップを保存できるよう構成されてもよい。
【0033】
ユーザI/Oカード150は、ユーザ装置190を画像テキスト分析システム100の残りとインタフェースする手段を提供する。ユーザI/Oカード150は、画像プロセッサ120によるその後のアクセスのためにユーザ装置190から受信したデータを画像プロセッサ120又はRAM130に転送するためにこのデータをインタフェースバス175のフォーマットに変換する。ユーザI/Oカード150は、更に、データをプリンタのようなユーザ出力装置に転送する。ビデオカード160は、モニタ185とビデオ処理装置110の残りとの間にデータバス175を通じてインタフェースを提供する。
【0034】
I/Oバッファ170は、ビデオ源180と画像テキスト分析システム100の残りとの間にバス175を通じてインタフェースを提供する。前述したように、ビデオ源180は、I/Oッファ170とインタフェースするために少なくとも一つの双方向バスを有する。I/Oバッファ170は、データをビデオ源180に又はビデオ源180から要求されたビデオ画像の転送速度で転送する。ビデオ処理装置110内では、I/Oバッファ170は、要求される通りにビデオ源180から受信したデータをストレージ140、画像プロセッサ120、又は、RAM130に転送する。画像プロセッサ120へのビデオデータの同時転送は、受信されたままにビデオ画像を表示する。
【0035】
図2は、本発明の一実施例に従ってビデオ処理装置110のテキストの抽出及び認識動作を示すフローチャート200である。テキストの抽出は、個々のビデオフレームに対して実施され、M×Nフレームの原点(0,0)は左上コーナとして識別される。フレーム内のピクセルは(x,y)座標によって参照され、このときxはピクセル列(0乃至N)であり、yはピクセル行(0乃至M)である。
【0036】
チャネルの分離(処理ステップ205)
最初に、画像プロセッサ120は、ビデオ画像の一つ以上のフレームの色を分離し、テキストを抽出する際に使用するために減少された色画像を記憶する。本発明の一実施例では、画像プロセッサ120は、ピクセルの赤成分を隔離するために赤―緑―青(RGB)色空間モデルを使用する。赤成分は、ビデオテキストで主に使用される白、黄色、及び、黒を検出するのにより便利である。隔離された赤フレームは、これらの頻繁なテキスト色に対して鮮明で高いコントラストなエッジを提供する。隔離された赤フレームの画像は、画像テキストワークスペース132中に記憶される。本発明の別の実施例では、画像プロセッサ120は、グレイスケール画像又はYIQビデオフレームのY成分のような他の色空間モデルを使用してもよい。
【0037】
画像の向上(処理ステップ210)
更なる処理を実施する前に、捕捉された赤フレームが3×3マスクを使用して
【0038】
【表1】
Figure 0004643829
のように向上される。
【0039】
追加的に、ソルト・アンド・ペッパー(ランダム)ノイズは、R.C.Gonzalez及びR.E.Woodsによる“Digital Image Processing” Addison−Wesley Publishing Company,Inc.(1992)で説明されるような中央値フィルタを使用して除去される。
【0040】
エッジの検出(処理ステップ215)
向上された赤画像中のテキスト文字のエッジは
【0041】
【表2】
Figure 0004643829
のマスクを使用して検出され、このとき、マトリクス中の数はエッジ演算子の重みを表わす。
【0042】
エッジがM×Nのエッジ画像を表わす場合、
【0043】
【数1】
Figure 0004643829
がエッジ検出のために使用されてもよく、このとき、0<m<M及び0<n<Nである。値wijは、エッジマスクからの重みであり、Fx+i,y+jは、画像「F」のピクセルを表わす。フレームのピクセル行の上段及び下段と、ピクセル列の左及び右(即ち、最も外側のピクセル)は、エッジ検出処理では無視される。
【0044】
エッジ閾値は、所定の閾値であり、固定又は可変でもよい。固定された閾値の使用は、後に除去される必要がある多数のソルト・アンド・ペッパーノイズを生じさせ得る。更に、固定された閾値の使用は、画像の周りの固定されたエッジを壊れた断続的な形態で表示することで分裂した文字を表示させる。オープニング(例えば、膨張に後続する衰退)の既知の方法を使用することは、ソルト・アンド・ペッパーノイズと共にテキストの一部を失わさせる。従って、適応閾値の使用は、静的閾値の使用より改善されている。
【0045】
ピクセルに対して幾つか又は全ての隣り合うピクセルがエッジとして印される場合、閾値は現在のピクセルをエッジとして印すために低くされる。現在のピクセルに対する閾値は、エッジとして印される隣り合うピクセルの数に依存して低められ得る。隣り合うピクセルがエッジであることは、現在のピクセルがエッジである可能性を増加する。低いエッジ閾値は、隣り合うピクセルに対する減少された閾値を計算するために使用される。これは、ピクセルがエッジでないときエッジとして印されないことを確実にする。処理は、エッジピクセルによって囲われているピクセルをエッジとして印す場合、逆にされ得る。
【0046】
エッジフィルタ処理(処理ステップ220)
文字のエッジが一旦検出されると画像プロセッサ120は、テキストを含まない、若しくは、テキストが確実に検出され得ない画像領域を除去するために予備的なエッジフィルタ処理を実施する。例えば、エッジフィルタ処理は、フレームレベル及びサブフレームレベルで実施されてもよい。
【0047】
フレームレベルでは、画像プロセッサ120は、フレーム中における対象物の密度が高いことによりフレームの適当な部分以上がエッジから構成されているような場合、フレームを無視するかフィルタアウトする。一旦フレームがフィルタアウトされると、テキスト分析は次の入力フレームに進む。フィルタ処理のフレームレベルが使用されるとき、画像プロセッサ120は、画像フレーム中のエッジの数を記録しておくためにエッジカウンタを保持する。しかしながら、これは、画像の幾つかのきれいな面積においてテキストの損失に繋がり得、悪影響をもたらし得る。
【0048】
この問題を克服するために画像プロセッサ120は、サブフレームレベルでエッジフィルタ処理を実施してもよい。テキストを「密集した」フレーム中で見つけるために画像プロセッサ120は、フレームを小面積又はサブフレームに分割する。本発明の実施例では、画像プロセッサ120は、サブフレームを3つのグループのピクセル列及び3つのグループのピクセル行に分割し、合計で6つのサブフレームを得る。
【0049】
画像プロセッサ120は、画像の各サブ分割された部分に対してエッジカウンタを保持するためにサブフレームカウンタを割り当て、6つのサブフレームカウンタを得る。実施例では、3つのカウンタが画像の3つの垂直(列)サブフレームに対して使用される。各垂直サブフレームは、フレーム面積の三分の一を占める。同様にして、3つのカウンタが画像の3つの水平(行)サブフレームに対して使用される。各水平サブフレームはこのときもフレーム面積の三分の一を占める。
【0050】
次に、画像プロセッサ120は、サブフレーム中のエッジの数を決定するために各サブフレーム面積を検査し、関連するカウンタはこの数に反映する。きれいな面積をより多く保有し画像の三分の一よりも小さい領域中でテキストを含むために、より多くのサブフレームがより小さいサブフレーム面積を形成するのに使用されてもよい。
【0051】
文字の検出(処理ステップ225)
次に、画像プロセッサ120は、先行するステップにおいて発生したエッジに対してコネクテッド−コンポーネント(CC)を実施する。各テキスト文字は、接続されたコンポーネント又はその一部を有すると推測される。画像プロセッサ120は、互いから(隣りから8ピクセルのように)ある距離内にあるエッジのピクセルを単一のコネクテッド―コンポーネント構造に併合する。このコネクテッド−コンポーネント構造は、一緒に接続されたピクセルの場所も含む。この構造は、その中心の場所と共に、構造中の(x軸及びy軸に関して)最も左、最も右、上、及び、下にあるピクセルの値を更に含む。
【0052】
接続されたコンポーネントは、コネクテッド−コンポーネントを形成するピクセルの数のカウントも含む。ピクセルカウントは、特定のコネクテッド−コンポーネントの面積を表わす。所定のシステム及び/又はユーザ閾値は、どのコネクテッド−コンポーネントが次の処理段に進むかを決定するために、コネクテッド−コンポーネントの面積、高さ、及び、幅に対する最大及び最小の制限を画成する。閾値基準外にあるコネクテッド−コンポーネントは、フィルタアウトされる。
【0053】
テキストボックスの検出(処理ステップ230)
画像プロセッサ120は、前のステップにおいて基準を通ったコネクテッド−コンポーネントを左下のピクセルの場所に基づいて昇順に整列させる。画像プロセッサ120は、列の大きさにxを加算したもののy倍として与えられるピクセルの絶対的な場所を表わす(x,y)座標の場所を基礎として整列される。コネクテッド−コンポーネントの整列されたリストは、考察され、テキストボックスを形成するために併合される。
【0054】
画像プロセッサ120は、第1の接続されたコンポーネント、即ちコネクテッド−コンポーネントを第1のボックス、更に、分析のための最初又は現在のボックスとして割り当てる。画像プロセッサ120は、その後のコネクテッド−コンポーネント(i)の最も下にあるピクセルが現在のテキストボックスの最も下にあるピクセルからの所定の許容できるピクセル行の閾値内にあるかを見るためにその後のコネクテッド−コンポーネント(i)を夫々試験する。コネクテッド−コンポーネント(i)が現在のボックスの数行(例えば、2行)以内におかれる場合、現在のテキストボックス及びコネクテッド−コンポーネント(i)が同じラインのテキストに属する可能性が高い。行の差の閾値は、要求されるように固定でも可変でもよい。例えば、閾値は現在のテキストボックスの高さの一部でもよい。
【0055】
画像中で距離が離れ過ぎているコネクテッド−コンポーネントが併合されることを回避するために、コネクテッド−コンポーネント(i)とテキストボックスとの間の列の距離が列の閾値よりも小さいかを見るよう第2の試験が実施される。この可変閾値は、コネクテッド−コンポーネント(i)の幅の倍数である。画像プロセッサ120は、テキストボックスとコネクテッド−コンポーネント(i)が近くにある場合、コネクテッド−コンポーネント(i)を現在のテキストボックスと併合する。コネクテッド−コンポーネント(i)が現在のテキストボックスとの併合のための基準に満たない場合、新しいテキストボックスが始められ、コネクテッド−コンポーネント(i)はその第1のコンポーネントとされ考察が続く。この処理は、画像中の単一のラインのテキストに対して複数のテキストを生じさせ得る。
【0056】
画像プロセッサ120は、最初の文字併合処理によって形成されたテキストボックス夫々に対して第2のレベルの併合を実施する。この併合は、厳しいコネクテッド−コンポーネント併合基準又は乏しいエッジ検出のいずれかによって別のラインのテキストとして誤って解釈され得たテキストボックスを併合し、同じ文字に対して複数のコネクテッド−コンポーネントを生じさせる。
【0057】
画像プロセッサ120は、幾つかの状態において各ボックスをそれに後続するテキストボックスと比較する。2つのテキストボックスに対する複数の試験状態は以下の通りである。
a)一方のボックスの底部が他方のボックスの行の差の閾値内にある。更に、2つのボックス間の水平方向の距離が第1のボックス中の文字の平均幅に基づいた可変閾値よりも小さい、
b)一方のボックスの中心が他方のボックスの面積内にある、若しくは、
c)テキストボックスが重なり合うことである。
【0058】
上記状態のいずれかが満たされた場合、画像プロセッサ120は第2のボックスをテキストボックスのリストから除去し第1のボックス中に併合させる。画像プロセッサ120は、全てのテキストボックスが互いと試験され可能な限り組み合わされるまでこの処理を繰り返す。
【0059】
テキストラインの検出及び向上(処理ステップ235)
画像プロセッサ120は、ステップ235から得られたテキストボックスが面積、幅、及び、高さの制約に従う場合これらテキストボックスをテキストラインとして受ける。各テキストボックスに対して、画像プロセッサ120は、元の画像からのテキストボックスに対応するサブ画像を抽出する。画像プロセッサ120は、白い背景に対してテキストが前景となるように抽出されたサブ画像を変更する。この変更は、この段の出力が光学式文字認識(OCR)適用プログラムによって処理され得るために必要である。
【0060】
画像プロセッサ120は、テキストボックス中のピクセルの平均グレイスケール値(AvgFG)を計算することでテキストボックスの画像を変更する。テキストボックスの周りの領域(例えば、5ピクセル)の平均グレイスケール値(AvgBG)も計算される。テキストボックス内では、画像プロセッサ120は、AvgFG以上の全てのものを白として印し、AvgFG以下のもの全てを黒として印す。白として印されたピクセルに対する平均、Avg1、は、黒として印されたピクセルに対する平均、Avg2、と共に計算される。
【0061】
テキストボックスが一旦白黒(2進)画像に変換され、画像プロセッサ120がAvg1及びAvg2とAvgBGとを比較する。AvgBGに近い平均を有する領域が背景として割り当てられ、他の領域が前景(又はテキスト)として割り当てられる。例えば、黒の領域の平均がAvgBGに近い場合、黒の領域が白に変換され、又は、その逆ともなる。これは、テキストが常に黒くOCRプログラムへの入力に対して一貫していることを確実にする。
【0062】
画像プロセッサ120は、その後、抽出されたフレームテキストを画像テキストワークスペース132に記憶し次のフレームが処理ステップ205にある状態で処理が続く。このシーケンスは、テキストが選択されたビデオクリップの全てのフレームから抽出されるまで続く。一旦ビデオ画像テキストが認識され抽出されると、画像プロセッサ120は更に抽出されたテキストをシステム選択又はユーザ選択されたテキストの属性に基づいて隔離し分析してもよい。ビデオシーケンス又はクリップは、フレーム中又はフレーム群中に在るテキストに基づいて検索されるかインデクシングされてもよい。例えば、「ホテル」といった単語がフレーム中に存在することは、現在及び後続するフレーム中でホテルに関連するシーンがある可能性が高いことを示し得る。道の名前及び数の存在は、都心のシーンの可能性を示す。ビルボードテキストの識別は、高速のシーンを含むフレームを検索するときに役立ち得る。
【0063】
特定のビデオフレームを分析しラベル付けするためにテキストを使用することが可能である。例えば、画像プロセッサ120は、特定のニューズ番組の一部として放送されるか特定のニューズレポータによって提供されたLiveのニューズ報道を識別し抽出してもよい。画像プロセッサ120は、画像テキスト中で「Live」、番組名(例えば、「NEWS4 AT NITE」)、又は、レポータの名前(例えば、「キャロル・ジョーンズ」)を含むキーワードを検索することでこれを行うことができる。
【0064】
テキストボックスを認識することにより、画像プロセッサ120は、ビデオフレーム及びクリップを番組名、司会者名、プロデューサ名、ディレクター名、又は、他の名に基づいてインデシングし得る。これは、画像を音楽番組名(例えば、MTV及びVH−1ビデオクリップ)、トークショーの司会者又はゲスト等に基づいて識別及び分類することを含む。更に、スクリーン上にしばしば現われるボックススコアを抽出することでスポーツ番組を引き出し得る。例えば、画像プロセッサ120は、スコア、チーム名、選手名、及び同等の名を検索してもよい。株式市場情報は、抽出されインデクシングされ得る。天気の情報もスクリーン上に存在するテキスト情報に基づいて抽出されインデシングされ得る。
【0065】
試合、トークショー、ニューズ、及び同様のものの間に流れるスクロールする「チッカー」は、選択された属性に関して画像テキストを検査することによって認識され得る。スクリーンチッカーは、最新の天候状況、株式市場の現状、及び属性の分析により識別されラベル付けされ将来的な使用のために検索され得る他の情報に関する情報を送る。抽出されたチッカー情報は、それが表示される番組のビデオと関連しないため放送番組自体から独立してみることができる。
【0066】
残りのフレームのコンテンツに関連する重畳されたテキストの分析は、ビデオセグメントのキーフレームを識別することが要求されるとき役立ち得る。このような重畳された情報は、ビジュアル、オーディオ、及び、写し(耳の不自由な人のための字幕又はテレテキスト)情報の補完である。このテキストは、テキストを中に含むキーフレームを発生するためにビデオをインデクシングするショット検出アルゴリズムと共に使用され得る。テキストを含むキーフレームは、テキストを含まないものよりも意味を持ち、ビデオシーケンスを表わす。例えば、フットボールの試合のスコアを含むキーフレームは、スコアを含まないものよりも便利である。更に、コマーシャル中のテキストの場所及び大きさの検出は、コマーシャルの確実な検出のために他の属性と共に使用され得る。
【0067】
更に、ビデオテキスト分析は、残りの画像のビデオコンテンツを分析し類別する新しい機会を提供する。シーンのテキスト及びその属性は、ビデオコンテンツに関する手掛かりを提供する。これは、ビデオのビジュアルコンテンツを分析するよりもより少ないコンピュータメモリ及びテキストを分析するより短い時間を要求することを含む幾つかの利点を提供する。例えば、スクロールテキストの検出は、番組の最初又は最後を識別してもよい。従って、この属性は、ビデオ内の番組の境界を複数の番組のグルーピングによって見つける必要があるとき便利である。
【0068】
図3A及び図3Bは、図1のビデオ処理装置110によって識別可能な選択された属性を有する画像テキストを含むビデオフレーム305及び350を例示する。ビデオフレーム305及び350中の画像テキストは、全てのビデオクリップ中にスクリーン上に必ずしも同時に表示されない。ビデオフレーム305及び350は、スクロールの動き、場所、フェーディング、短い持続時間、及び、キーワードのような画像テキストの選択された属性を示すために表示される。簡略化及び明瞭性の目的のため、本発明の動作を説明するにあたって、異なるタイプの番組からの画像テキストがビデオフレーム305及び350の中に組み合わされる。
【0069】
ビデオフレーム305は、テレビジョン番組のビデオフレームから抽出されたテキストを表わす。この場合、システム/ユーザは、番組のクレジット又はフレームの底部にある情報のチッカーラインと関連するテキストのような水平又は垂直なスクロールテキストを隔離するために属性を選択する。スクロールの属性は、フレームのシーケンスにおいて同一であるテキストを識別することで検出されるが、テキストの位置はフレームからフレームにおいて僅かに移動する。更に、スクロールされない番組のプロデューサ等の表示に対してさえも画像プロセッサ120は番組のプロデューサ等の表示をスクリーン上に短い間だけ現われるテキストメッセージのシーケンスを識別し、任意には、更に「プロデューサ」「ディレクター」「主演」「出演」のようなテキスト中のキーワードを識別することで識別してもよい。
【0070】
選択された垂直なスクロールの属性を使用して、画像プロセッサ120は点線で描かれた長方形によって示されるように上方向のスクロールテキストであるクレジットテキストライン310を隔離する。選択された水平なスクロールの属性を使用して画像プロセッサ120は、フレームの底部において示される、長方形中で示された天候メッセージであるスクロール警告テキストメッセージ315を隔離し、このテキストは観察者の左の方向にスクロールされる。
【0071】
ビデオフレーム350は、ビデオフレーム中で容易に識別され得る特定の属性を有する画像テキストの他の例を含む。例えば、ビデオフレーム350の左上コーナのボックススコアテキスト355は3つのラインのテキストを提供する。第1のラインは、局又はネットワークを識別し、残りの2つのラインは試合のスコアを表示する。画像プロセッサ120は、ボックススコアテキスト355と同様の属性を有するインスクリーンのスポーツスコアを識別することによってスポーツ番組を識別してもよい。多くのスコアは、スクリーンのコーナに典型的に表わされ、数値データ(即ち、各チームの合計得点)は、ボックススコアと垂直に整列して現われる。
【0072】
同様にして、広告テキスト360は、広告者と関連する電話番号(例えば、「1−800−」)のキーワードの属性を有し、広告テキスト365は、広告者と関連するインターネットアドレス(例えば、「www.[company name].com」)のキーワードの属性を有する。更に、広告テキスト360及び広告テキスト365は、コマーシャルの広告を識別するために使用されてもよい別のテキストの属性を有する、即ち夫々のテキストはビデオ画像350の中心におかれる。多くの他のタイプのテキストは、スクリーンの底部又はコーナにおかれる。最後に、テキスト面積370は、フレームがニューズ番組の一部であることを識別するキーワードの属性(即ち、「ニューズ」)を有する。テキスト面積375は、表示されたテキストフレームがニューズ番組の一部であることを示す別のキーワードの属性(即ち、「Live」)を有する。
【0073】
図4は、本発明の一実施例に従ってシステム定義及びユーザ定義された画像テキストの属性を有するストレージ140中の画像テキストの属性テーブル400を例示する。テーブル400中の各システム/ユーザ定義された類別は、図1の画像テキスト分析システムの特定の実行によって決定されるように固定又は可変でもよい属性のファイルに対応する。
【0074】
コマーシャルの属性405は、観察するためのファイル中で抽出され得るコマーシャル広告テキストの特徴を表わす。コマーシャルコンテンツと関連する属性は、ある寸法又は配置の範囲内のテキスト、短い持続時間のテキスト、電話番号の表示、メールアドレス、インターネットアドレス、及び、「セール」「製造者リベート」等のようなコマーシャル内のキーワードを含んでもよい。
【0075】
番組名の属性410は、システム/ユーザに対して特定の番組を示すテキストが表示されるビデオクリップを隔離する手段を提供する。番組名の属性410は、寸法及び配置、並びに、「Seinfeld」のような実際の番組名を含み得る。番組名の属性410は、画像プロセッサ120が異なる番組中に表示される番組に対してコマーシャルを除去するために番組名に対して(始まりのような)ビデオクリップの識別されたセグメントだけを見るべきことを示してもよい。
【0076】
番組のタイプの属性415は、特定のタイプの番組(スポーツ、ニューズ、音楽ビデオ等)を識別するテキストの属性を含む。これらのタイプの番組は、スポーツリーグキーワード(例えば、NBA、NHL)、ニューズ番組のキーワード(例えば、「ニューズ」、「天気」、「Live」)、又は、音楽ビデオのキーワード(例えば、「プロデューサ」「〜による録音」)を含むボックススコアの属性を検索することで上述のように識別されてもよい。
【0077】
個人的な名前の属性420は、特定の人(「ジョン・スミス」)を識別するテキストを含み、(ニューズ番組名、スポーツ協会等のような)他のテキストの属性と共に使用されてもよい。企業名の属性425は、特定の企業名の存在のためにビデオクリップを検査する手段を提供する。例えば、画像プロセッサ120は、野球場を囲むビルボード上の特定の企業名を識別してもよい。属性の選択は、前述したテキストの特徴、企業名のために検索されるべき番組名の識別、表示のために特定の企業名の識別、特定のニューズ番組内の製品上に示された企業名等を含み得る。
【0078】
イベントの属性430は、スーパーボウル又はホワイトハウスブリーフィングのような特定のタイプのイベントのテキストの属性を参照する。これに関連して、イベントの属性は、番組のタイプの属性及び人名の属性と非常に類似してもよい。
【0079】
テキスト効果の属性435は、選択及び表示目的のために利用できる標準のテキスト文字の群を提供する。テキスト効果の属性435は、水平及び垂直スクロール、ズーム(即ち、ズームイン又はズームアウト)、フラッシング、ウェーブ(又はリプル)、ピール、スクランブル、フライ、アニメーション、及び、インシーンテキストのようなテキスト効果を含み得る。
【0080】
ネットワークロゴの属性440は、ネットワーク識別ロゴと関連するテキストの属性を参照する。これらは、ロゴが最も多くおかれ得る場所でテキストと最初のフレーム面積を適合するときに使用されるネットワーク名及びロゴを含む。ネットワークのロゴのフェードされるアウトライン(又は透かし)を番組のスクリーン画像上に重畳することがネットワークにとって一般的なことである。
【0081】
テキスト表示の属性445は、特定のテキスト色、フォントタイプ、テキストの高さ、テキストの幅、又は、テキストの位置のような画像テキストの一つ以上の特定の特徴を参照する。テキストの高さ、テキストの幅、又は、テキストの位置の場合、寸法又は位置は絶対的な意味(例えば、ピクセルの特定された数又は範囲)又は、関連する意味(例えば、スクリーンの大きさの特定された割合又は割合の範囲)で与えられてもよい。
【0082】
図5は、本発明の一実施例によるビデオ処理装置110の画像テキストの属性分析の動作を示すフローチャートである。標準のテキストの属性の群は、システムの初期化及び/又は変更又はユーザ装置190中に入るときにテキスト分析コントローラ134によってストレージ140に保存されてもよい。従って、画像プロセッサ120は、選択されたテキストの属性をストレージ140からのデフォルトによって、又は、ユーザ装置190からの特定の入力によって受信してもよい(処理ステップ505)。
【0083】
ビデオテキスト分析が活性化されるとき、画像プロセッサ120は、図2においてより詳細に説明されたように選択されたビデオフレームからテキストを検出、抽出、及び、保存する(処理ステップ510)。抽出されたテキストのテキストの属性は、決定され画像ワークスペース132に記憶される。次に抽出された画像テキストは、選択された属性と比較され、その結果が画像テキストワークスペース132及び/又はストレージ140に要求されるように記憶される(処理ステップ515)。
【0084】
特定の適用法に依存して、ビデオ画像テキストは選択された属性に適合するビデオ画像テキストがユーザコマンドに応答して既知の編集処理を通じて変更され得る(処理ステップ520)。編集は、例えば、全てのコマーシャルの除去を含み得、選択的に、コマーシャルだけを保有し番組を除去することを含む。結果となるビデオファイル及び関連する分析されたテキストは、引き出す目的のためにラベル付けされ、ストレージ140に保存され、及び/又はその後の使用のために内部記憶装置又は外部記憶装置に送られてもよい(処理ステップ525)。
【0085】
本発明は、詳細に説明されたが当業者は本発明の精神及び範囲から逸脱することなく本願において様々な変化、代用、及び、変更をなし得ることを理解すべきである。
【図面の簡単な説明】
【図1】 本発明の一実施例による画像テキスト分析システムを示す図である。
【図2】 本発明の一実施例による図1の画像処理装置のテキストの抽出及び認識動作を示すフローチャートである。
【図3】 A及びBは、図1のビデオ処理装置によって識別可能な、選択された属性を有する画像テキストを含むビデオフレームを示す図である。
【図4】 本発明の一実施例によるシステム定義及びユーザ定義された画像テキストの属性を有する画像テキストの属性テーブルを示す図である。
【図5】 本発明の一実施例による図1のビデオ処理装置の画像テキストの属性の分析動作を示すフローチャートである。

Claims (7)

  1. ビデオストリームのサーチ及びフィルタ処理の一方を行うことが可能なビデオ処理装置であって、
    ビデオフレーム中の物理的な位置、持続時間、動き、及び、上記ビデオストリーム中の時間的な場所を含む属性の群から選択される少なくとも一つの画像テキスト属性を受信する機能と、
    複数のビデオフレームを有するビデオストリームを受信する機能と、
    上記複数のビデオフレームから画像テキストを検出及び抽出する機能と、
    上記抽出された画像テキストの少なくとも一つの属性を決定する機能であって、上記少なくとも一つの抽出された画像テキスト属性が前記属性の群に属する機能と、
    上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性を比較する機能と、
    上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性との適合に応じて、
    上記ビデオストリームの少なくとも一部分変更する処理
    上記ビデオストリームの少なくとも一部分転送する処理、及び
    上記ビデオストリームの少なくとも一部分のラベル付けを行う処理
    のうちの少なくとも一つを実施する機能とを行うことが可能な画像プロセッサを有するビデオ処理装置。
  2. 上記少なくとも一つの抽出された画像テキスト属性は、上記複数のビデオフレーム中の上記画像テキストが
    水平のスクロール、
    垂直のスクロール、
    フェーディング、
    ズーム、
    リプリング、
    フライング、及び、
    フラッシングの
    うちのいずれかであることを示す請求項1記載のビデオ処理装置。
  3. 画像テキスト分析システムであって、
    請求項1記載のビデオ処理装置と、
    上記ビデオストリームの上記少なくとも一部分を表示する表示モニタと、
    ユーザ入力装置と
    を有する画像テキスト分析システム。
  4. ビデオストリームをサーチし、フィルタリング処理する方法であって、
    ビデオフレーム中の物理的な位置、持続時間、動き、及び、上記ビデオストリーム中の時間的な場所を含む属性の群から選択される少なくとも一つの画像テキスト属性を受信する段階と、
    複数のビデオフレームを有するビデオストリームを受信する段階と、
    上記複数のビデオフレームから画像テキストを検出及び抽出する段階と、
    上記抽出された画像テキストの少なくとも一つの属性を決定する段階であって、上記少なくとも一つの抽出された画像テキスト属性が前記属性の群に属する段階と、
    上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性を比較する段階と、
    上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性との適合に応じて、
    上記ビデオストリームの少なくとも一部分変更する処理
    上記ビデオストリームの少なくとも一部分転送する処理、及び
    上記ビデオストリームの少なくとも一部分のラベル付けを行う処理
    のうちの少なくとも一つを実施する段階とを含む方法。
  5. 上記少なくとも一つの抽出された画像テキスト属性は、上記複数のビデオフレーム中の上記画像テキストが
    水平のスクロール、
    垂直のスクロール、
    フェーディング、
    ズーム、
    リプリング、
    フライング、及び、
    フラッシングのうちのいずれかであることを示す請求項4記載の方法。
  6. ビデオストリームのサーチ及びフィルタリングの一方を行うためにプログラムを記録させたコンピュータ読み取り可能な記憶媒体であって、上記プログラムは、
    ビデオフレーム中の物理的な位置、持続時間、動き、及び、上記ビデオストリーム中の時間的な場所を含む属性の群から選択される少なくとも一つの画像テキスト属性を受信する段階と、
    複数のビデオフレームを有するビデオストリームを受信する段階と、
    上記複数のビデオフレームから画像テキストを検出及び抽出する段階と、
    上記抽出された画像テキストの少なくとも一つの属性を決定する段階であって、上記少なくとも一つの抽出された画像テキスト属性が前記属性の群に属する段階と、
    上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性を比較する段階と、
    上記少なくとも一つの抽出された画像テキスト属性と上記少なくとも一つの選択された画像テキスト属性との適合に応じて、
    上記ビデオストリームの少なくとも一部分変更する処理
    上記ビデオストリームの少なくとも一部分転送する処理、及び
    上記ビデオストリームの少なくとも一部分のラベル付けを行う処理
    のうちの少なくとも一つを実施する段階とをコンピュータに実行させるコンピュータ読み取り可能な記憶媒体。
  7. 上記少なくとも一つの抽出された画像テキスト属性は、上記複数のビデオフレーム中の上記画像テキストが
    水平のスクロール、
    垂直のスクロール、
    フェーディング、
    ズーム、
    リプリング、
    フライング、及び、
    フラッシングのうちのいずれかであることを示す請求項6記載のコンピュータ読み取り可能な記憶媒体。
JP2000596479A 1999-01-28 1999-12-24 ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法 Expired - Fee Related JP4643829B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11765899P 1999-01-28 1999-01-28
US60/117,658 1999-01-28
US09/370,931 US6608930B1 (en) 1999-08-09 1999-08-09 Method and system for analyzing video content using detected text in video frames
US09/370,931 1999-08-09
PCT/EP1999/010408 WO2000045291A1 (en) 1999-01-28 1999-12-24 System and method for analyzing video content using detected text in video frames

Publications (2)

Publication Number Publication Date
JP2002536853A JP2002536853A (ja) 2002-10-29
JP4643829B2 true JP4643829B2 (ja) 2011-03-02

Family

ID=26815500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000596479A Expired - Fee Related JP4643829B2 (ja) 1999-01-28 1999-12-24 ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法

Country Status (6)

Country Link
US (1) US6731788B1 (ja)
EP (1) EP1066577B1 (ja)
JP (1) JP4643829B2 (ja)
CN (1) CN100342376C (ja)
DE (1) DE69935504T2 (ja)
WO (1) WO2000045291A1 (ja)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6469749B1 (en) * 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
EP1149491B1 (en) * 1999-11-01 2009-10-07 Koninklijke Philips Electronics N.V. Method and apparatus for swapping the video contents of undesired commercial breaks or other video sequences
US7230653B1 (en) 1999-11-08 2007-06-12 Vistas Unlimited Method and apparatus for real time insertion of images into video
JP3535444B2 (ja) * 2000-03-27 2004-06-07 株式会社エーエスエー・システムズ 印刷物を用いた情報秘匿システム
JP2002169819A (ja) * 2000-12-01 2002-06-14 Kanebo Ltd 動画情報配信方法およびそれに用いる動画情報配信システム
US6798912B2 (en) 2000-12-18 2004-09-28 Koninklijke Philips Electronics N.V. Apparatus and method of program classification based on syntax of transcript information
US7046914B2 (en) * 2001-05-01 2006-05-16 Koninklijke Philips Electronics N.V. Automatic content analysis and representation of multimedia presentations
FR2825173B1 (fr) * 2001-05-23 2003-10-31 France Telecom Procede de detection de zones de texte dans une image video
US7206434B2 (en) * 2001-07-10 2007-04-17 Vistas Unlimited, Inc. Method and system for measurement of the duration an area is included in an image stream
US7096179B2 (en) 2001-08-15 2006-08-22 Siemens Corporate Research, Inc. Text-based automatic content classification and grouping
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
KR100473952B1 (ko) * 2001-09-29 2005-03-08 엘지전자 주식회사 디지털 영상신호에서 추출된 텍스트 영역의 이미지 향상방법
JP3924476B2 (ja) * 2002-02-26 2007-06-06 富士通株式会社 画像データ処理システム
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
WO2004053732A2 (en) * 2002-12-11 2004-06-24 Koninklijke Philips Electronics N.V. Method and system for utilizing video content to obtain text keywords or phrases for providing content related links to network-based resources
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US8666524B2 (en) 2003-01-02 2014-03-04 Catch Media, Inc. Portable music player and transmitter
US7191193B2 (en) 2003-01-02 2007-03-13 Catch Media Automatic digital music library builder
US8732086B2 (en) 2003-01-02 2014-05-20 Catch Media, Inc. Method and system for managing rights for digital music
US8918195B2 (en) 2003-01-02 2014-12-23 Catch Media, Inc. Media management and tracking
US8644969B2 (en) 2003-01-02 2014-02-04 Catch Media, Inc. Content provisioning and revenue disbursement
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7327885B2 (en) * 2003-06-30 2008-02-05 Mitsubishi Electric Research Laboratories, Inc. Method for detecting short term unusual events in videos
US7870504B1 (en) * 2003-10-01 2011-01-11 TestPlant Inc. Method for monitoring a graphical user interface on a second computer display from a first computer
EP1530156B1 (en) * 2003-11-07 2012-03-14 Mitsubishi Electric Information Technology Centre Europe B.V. Visual object detection
JP4267475B2 (ja) * 2004-02-13 2009-05-27 富士通株式会社 図面照合装置
JP2006180306A (ja) * 2004-12-24 2006-07-06 Hitachi Ltd 動画記録再生装置
US20080159585A1 (en) * 2005-02-14 2008-07-03 Inboxer, Inc. Statistical Categorization of Electronic Messages Based on an Analysis of Accompanying Images
CN100353756C (zh) * 2005-02-25 2007-12-05 英特维数位科技股份有限公司 滤除广告资料的装置及其方法
CN100517374C (zh) * 2005-12-29 2009-07-22 佳能株式会社 从复杂背景文档图像提取文本的装置、方法
US8219553B2 (en) 2006-04-26 2012-07-10 At&T Intellectual Property I, Lp Methods, systems, and computer program products for managing audio and/or video information via a web broadcast
CN1968137A (zh) * 2006-04-30 2007-05-23 华为技术有限公司 一种媒体流审查系统及审查码流生成节点设备
JP4760572B2 (ja) * 2006-06-30 2011-08-31 ソニー株式会社 編集装置および編集方法、並びにプログラム
JP4706581B2 (ja) * 2006-07-14 2011-06-22 富士ゼロックス株式会社 画像処理装置および画像形成装置
CN100401302C (zh) * 2006-09-14 2008-07-09 浙江大学 基于标注重要性次序的图像语义自动标注方法
US20080231027A1 (en) * 2007-03-21 2008-09-25 Trw Automotive U.S. Llc Method and apparatus for classifying a vehicle occupant according to stationary edges
JP4659793B2 (ja) * 2007-08-07 2011-03-30 キヤノン株式会社 画像処理装置及び画像処理方法
JP5115089B2 (ja) * 2007-08-10 2013-01-09 富士通株式会社 キーワード抽出方法
JP4814849B2 (ja) * 2007-08-10 2011-11-16 富士通株式会社 フレームの特定方法
US20090196524A1 (en) * 2008-02-05 2009-08-06 Dts Digital Images, Inc. System and method for sharpening of digital images
CN101271487B (zh) * 2008-04-22 2011-09-14 北京中星微电子有限公司 视频处理芯片的验证方法和系统
EP2136317B1 (en) 2008-06-19 2013-09-04 Samsung Electronics Co., Ltd. Method and apparatus for recognizing characters
CN101616264B (zh) * 2008-06-27 2011-03-30 中国科学院自动化研究所 新闻视频编目方法及系统
JP5353170B2 (ja) * 2008-10-02 2013-11-27 富士通株式会社 録画予約プログラム、録画予約方法、及び、録画予約装置
JP2010183301A (ja) * 2009-02-04 2010-08-19 Sony Corp 映像処理装置、映像処理方法及びプログラム
CN101887445B (zh) * 2009-05-12 2012-10-10 大相科技股份有限公司 处理动态图像的方法、系统与加值处理的方法
EP2259207B8 (en) 2009-06-02 2012-11-28 Fundacion Centro de Tecnologias de Interaccion Visual y comunicaciones Vicomtech Method of detection and recognition of logos in a video data stream
US20110066942A1 (en) 2009-09-14 2011-03-17 Barton James M Multifunction Multimedia Device
US8406528B1 (en) * 2009-10-05 2013-03-26 Adobe Systems Incorporated Methods and apparatuses for evaluating visual accessibility of displayable web based content and/or other digital images
CN101739450B (zh) * 2009-11-26 2012-08-22 北京网梯科技发展有限公司 对视频中出现的信息进行检索的方法及系统
US8682145B2 (en) 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
DE102010017152B4 (de) 2010-04-26 2013-11-14 Loewe Opta Gmbh Fernsehgerät mit automatischer Abschaltung
CN101833584A (zh) * 2010-05-20 2010-09-15 无敌科技(西安)有限公司 嵌入式设备中查询教学视频内容的系统及其方法
GB2485833A (en) * 2010-11-26 2012-05-30 S3 Res & Dev Ltd Improved OCR Using Configurable Filtering for Analysing Set Top Boxes
CN102158732A (zh) * 2011-04-22 2011-08-17 深圳创维-Rgb电子有限公司 基于电视画面的信息搜索方法及系统
US9251144B2 (en) * 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
WO2013098848A2 (en) * 2011-12-07 2013-07-04 Tata Consultancy Services Limited Method and apparatus for automatic genre identification and classification
CN103297842B (zh) * 2012-03-05 2016-12-28 联想(北京)有限公司 一种数据处理方法及电子设备
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US9256795B1 (en) * 2013-03-15 2016-02-09 A9.Com, Inc. Text entity recognition
KR102103277B1 (ko) * 2013-04-12 2020-04-22 삼성전자주식회사 이미지를 관리하는 방법 및 그 전자 장치
CN104252475B (zh) * 2013-06-27 2018-03-27 腾讯科技(深圳)有限公司 定位图片中文本信息的方法及装置
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen
GB2531969B (en) * 2013-10-03 2016-08-10 Supponor Oy Method and apparatus for image frame identification
KR102016545B1 (ko) * 2013-10-25 2019-10-21 한화테크윈 주식회사 검색 시스템 및 그의 동작 방법
US9424598B1 (en) 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
KR101406288B1 (ko) * 2014-01-02 2014-06-12 진종원 평생 학습 서비스 제공 방법
US9310518B2 (en) 2014-01-24 2016-04-12 International Business Machines Corporation Weather forecasting system and methods
US10511580B2 (en) * 2014-03-31 2019-12-17 Monticello Enterprises LLC System and method for providing a social media shopping experience
US10726472B2 (en) * 2014-03-31 2020-07-28 Monticello Enterprises LLC System and method for providing simplified in-store, product-based and rental payment processes
US11004139B2 (en) * 2014-03-31 2021-05-11 Monticello Enterprises LLC System and method for providing simplified in store purchases and in-app purchases using a use-interface-based payment API
US10832310B2 (en) * 2014-03-31 2020-11-10 Monticello Enterprises LLC System and method for providing a search entity-based payment process
US10121186B2 (en) * 2014-03-31 2018-11-06 Monticello Enterprises LLC System and method of using a browser application programming interface for making payments
US10504193B2 (en) * 2014-03-31 2019-12-10 Monticello Enterprises LLC System and method for providing a universal shopping cart
US10002396B2 (en) * 2014-03-31 2018-06-19 Monticello Enterprises LLC System and method for transitioning from a first site to a second site
US10643266B2 (en) * 2014-03-31 2020-05-05 Monticello Enterprises LLC System and method for in-app payments
CA2977929A1 (en) * 2014-03-31 2015-10-08 Monticello Enterprises LLC System and method for providing a single input field having multiple processing possibilities
US11080777B2 (en) 2014-03-31 2021-08-03 Monticello Enterprises LLC System and method for providing a social media shopping experience
US20240013283A1 (en) * 2014-03-31 2024-01-11 Monticello Enterprises LLC System and method for providing a social media shopping experience
US11250493B2 (en) 2014-03-31 2022-02-15 Monticello Enterprises LLC System and method for performing social media cryptocurrency transactions
US11282131B2 (en) * 2014-03-31 2022-03-22 Monticello Enterprises LLC User device enabling access to payment information in response to user input
US12008629B2 (en) * 2014-03-31 2024-06-11 Monticello Enterprises LLC System and method for providing a social media shopping experience
US10152756B2 (en) 2014-03-31 2018-12-11 Monticello Enterprises LLC System and method for providing multiple payment method options to browser
US10497037B2 (en) * 2014-03-31 2019-12-03 Monticello Enterprises LLC System and method for managing cryptocurrency payments via the payment request API
US20180019984A1 (en) * 2014-03-31 2018-01-18 Monticello Enterprises LLC System and method for providing a credential management api
JP6199795B2 (ja) * 2014-04-23 2017-09-20 京セラドキュメントソリューションズ株式会社 画像処理装置
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
US9965796B2 (en) * 2014-06-26 2018-05-08 Paypal, Inc. Social media buttons with payment capability
JP6225844B2 (ja) * 2014-06-30 2017-11-08 株式会社デンソー 対象物検出装置
US9508006B2 (en) * 2014-11-03 2016-11-29 Intelescope Solutions Ltd. System and method for identifying trees
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
US10679269B2 (en) * 2015-05-12 2020-06-09 Pinterest, Inc. Item selling on multiple web sites
US10269055B2 (en) 2015-05-12 2019-04-23 Pinterest, Inc. Matching user provided representations of items with sellers of those items
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
US10083369B2 (en) 2016-07-01 2018-09-25 Ricoh Company, Ltd. Active view planning by deep learning
CN106254933B (zh) * 2016-08-08 2020-02-18 腾讯科技(深圳)有限公司 字幕提取方法及装置
US10395293B1 (en) * 2016-08-25 2019-08-27 PredictSpring, Inc. Canonical order management system
CN106776831A (zh) * 2016-11-24 2017-05-31 维沃移动通信有限公司 一种多媒体组合数据的编辑方法及移动终端
CN108632639B (zh) * 2017-03-23 2020-09-25 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN108460106A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种识别广告视频的方法和装置
CN108491774B (zh) * 2018-03-12 2020-06-26 北京地平线机器人技术研发有限公司 对视频中的多个目标进行跟踪标注的方法和装置
US10880604B2 (en) 2018-09-20 2020-12-29 International Business Machines Corporation Filter and prevent sharing of videos
CN109344292B (zh) * 2018-09-28 2022-04-22 百度在线网络技术(北京)有限公司 赛事得分片段的生成方法、装置、服务器和存储介质
US11727456B2 (en) * 2018-10-11 2023-08-15 International Business Machines Corporation Generating a quote to cash solution
GB2579816B (en) 2018-12-14 2021-11-10 Sony Interactive Entertainment Inc Player identification system and method
CN110267105A (zh) * 2019-06-10 2019-09-20 深圳Tcl新技术有限公司 视频广告的过滤方法、智能终端及计算机可读存储介质
US11989771B2 (en) * 2019-06-14 2024-05-21 Fevo, Inc. Systems and methods of group electronic commerce and distribution of items
US11423463B2 (en) * 2019-12-31 2022-08-23 Paypal, Inc. Dynamically rendered interface elements during online chat sessions
US11449912B1 (en) * 2021-04-06 2022-09-20 1ClickPay Inc System and method for facilitating e-commerce transaction using an interactive support agent platform
US11741527B1 (en) * 2022-08-11 2023-08-29 Bambumeta, Llc Systems and methods for distributed commerce based on a token economy
US11887178B1 (en) * 2023-02-28 2024-01-30 Stodge Inc. Materialization of a shopping cart at an instant messaging platform

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837842A (en) 1986-09-19 1989-06-06 Holt Arthur W Character and pattern recognition machine and method
EP0329356A3 (en) 1988-02-17 1991-10-09 Wayne State University Physiologic waveform analysis
US4933872A (en) * 1988-11-15 1990-06-12 Eastman Kodak Company Method and system for wavefront reconstruction
US4912654A (en) 1988-12-14 1990-03-27 Government Systems Corporation Gte Neural networks learning method
JPH05266257A (ja) 1992-03-11 1993-10-15 Nec Corp ニューラルネット用学習データ作成装置
CH684856A5 (de) * 1992-11-30 1995-01-13 Mars Inc Verfahren zur Klassifizierung eines Musters - insbesondere eines Musters einer Banknote oder einer Münze - und Einrichtung zur Durchführung des Verfahrens.
JP3549569B2 (ja) 1993-04-27 2004-08-04 ソニー エレクトロニクス インコーポレイテッド 映像内の目標パターン探知方法
JPH0728953A (ja) 1993-07-08 1995-01-31 Nec Corp 文字検出装置
JPH0737087A (ja) 1993-07-19 1995-02-07 Matsushita Electric Ind Co Ltd 画像処理装置
JPH07192097A (ja) 1993-12-27 1995-07-28 Nec Corp 文字認識装置およびその方法
EP0677818B1 (en) 1994-04-15 2000-05-10 Canon Kabushiki Kaisha Image pre-processor for character recognition system
US5644656A (en) * 1994-06-07 1997-07-01 Massachusetts Institute Of Technology Method and apparatus for automated text recognition
US5524182A (en) * 1994-12-21 1996-06-04 Hewlett-Packard Company System and method for compressing and decompressing fonts based upon font stroke regularities
EP0720114B1 (en) 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
US5859925A (en) 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images

Also Published As

Publication number Publication date
US6731788B1 (en) 2004-05-04
CN1295690A (zh) 2001-05-16
JP2002536853A (ja) 2002-10-29
EP1066577A1 (en) 2001-01-10
EP1066577B1 (en) 2007-03-14
CN100342376C (zh) 2007-10-10
DE69935504D1 (de) 2007-04-26
DE69935504T2 (de) 2007-11-22
WO2000045291A1 (en) 2000-08-03

Similar Documents

Publication Publication Date Title
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
US6608930B1 (en) Method and system for analyzing video content using detected text in video frames
JP3361587B2 (ja) 動画像検索装置及び方法
Agnihotri et al. Text detection for video analysis
Lienhart Automatic text recognition for video indexing
US6614930B1 (en) Video stream classifiable symbol isolation method and system
US20080095442A1 (en) Detection and Modification of Text in a Image
US6937766B1 (en) Method of indexing and searching images of text in video
Aoki et al. A shot classification method of selecting effective key-frames for video browsing
Gargi et al. Indexing text events in digital video databases
EP2034426A1 (en) Moving image analyzing, method and system
Oh et al. Content-based scene change detection and classification technique using background tracking
Kuwano et al. Telop-on-demand: Video structuring and retrieval based on text recognition
JP2009123095A (ja) 映像解析装置及び映像解析方法
Ghorpade et al. Extracting text from video
Zhang et al. Accurate overlay text extraction for digital video analysis
Dimitrova et al. MPEG-7 Videotext description scheme for superimposed text in images and video
Haloi et al. Unsupervised broadcast news video shot segmentation and classification
Lee et al. Automatic person information extraction using overlay text in television news interview videos
JP3024574B2 (ja) 動画像検索装置
JP2000182028A (ja) 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置
JP4930364B2 (ja) 映像文字検出方法、装置、およびプログラム
Al-Asadi et al. Arabic-text extraction from video images
Lee et al. Automatic name line detection for person indexing based on overlay text
Gao et al. A study of intelligent video indexing system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100318

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees