JP5840130B2 - テキストを含む映像領域の前処理方法及びシステム - Google Patents

テキストを含む映像領域の前処理方法及びシステム Download PDF

Info

Publication number
JP5840130B2
JP5840130B2 JP2012533742A JP2012533742A JP5840130B2 JP 5840130 B2 JP5840130 B2 JP 5840130B2 JP 2012533742 A JP2012533742 A JP 2012533742A JP 2012533742 A JP2012533742 A JP 2012533742A JP 5840130 B2 JP5840130 B2 JP 5840130B2
Authority
JP
Japan
Prior art keywords
text
image
video
binarized
video region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012533742A
Other languages
English (en)
Other versions
JP2013508798A (ja
Inventor
チョトパッダーエ、タヌシャム
シンハ、アニルッダ
パル、アルパン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2013508798A publication Critical patent/JP2013508798A/ja
Application granted granted Critical
Publication of JP5840130B2 publication Critical patent/JP5840130B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、放送分野に関する。特に、テキストを含む映像領域を前処理するための方法及びシステムに関する。詳しくは、光学文字認識に対する入力を改善するために、テキストを含む映像領域を前処理するための方法及びシステムに関する。
近年、テレビやコンピュータなどの装置を使用する情報の動的配信が大幅に増加した。このような装置は、さまざまな分野に関連する最新情報を取得するためにますます使用されている。これらの装置による情報配信は、映像、音声、テキストまたはそれらを組み合せた方式で行われる。ニュース放送は、映像、音声、テキスト及びそれらを組み合せた形式での情報配信の最も良い例である。
現行シナリオでは、加入者は通信されている情報のみを閲覧することができる。特定の主題または対象となる領域の関連情報をさらに得るためには、ユーザーはインターネットなどの他の何らかの情報源を使用する必要がある。ユーザーは、テレビなどの情報配信装置によって通信されている情報以外のユーザーの関心領域の関連情報を得るために、手動検索を行う必要がある。
情報配信装置に表示される情報以外のユーザーの関心領域に関連する必要な情報を得るためには、光学文字認識の性能を改善するために、さらに、後の検索のために既存のテキストを含む映像領域を使用する自動化装置を有する必要がある。したがって、テキストを含む映像領域は、光学文字認識の性能を改善するために、さらにはテキストを使用して後の検索をするために、効率的に決定される必要がある。
以下に示すように、従来の方法及びシステムのいくつかは、テキストに基づいた検索を行うことが可能であるが、光学文字認識の性能を改善するために、さらに次の検索のためにテキストを含む映像領域を効果的に求めるのに十分効率的ではない。
Kimらの特許文献1は、テレビ番組の追加情報を表示するための装置及び方法を提供している。この特許は、インターネットなどの外部情報源から情報を得て、さらには必要に応じてユーザーに表示するための方法を教示している。
Tomsenらの特許文献2は、双方向テレビシステムによって表示されているテレビ放送に関連する補足内容を検索するための状況に応じたリクエストを提供している。特許文献2は、光学文字認識の性能を改善するために、さらに前処理されたテキストを含む映像領域を使用して関連情報を後に検索するためにテキストを含む映像領域を前処理することに関して教示しない。
Kimらの特許文献3は、画像表示装置と画像表示装置を使用する情報提供方法とを提供している。この特許出願は、デジタルテレビなどの画像表示装置に関して示し、ウェブサーバから提供されるRSS情報を時間帯に応じて分類し、対応する時間帯で所定のカテゴリのRSS情報とを表示する。
Ullmanらの特許文献4は、映像プログラミングをインターネットの莫大な情報資源と統合するシステムを提供している。Ullmanらは、埋め込みユニフォームリソースロケータ(URL)で映像プログラムを受信するコンピュータベースのシステムに関して教示している。
Piotrowskiの特許文献5は、自動的にあるいは要求に応じて、映像/テレビ番組の視聴者が映像/テレビ番組に関連して同期した補足のマルチメディア情報を受信できるシステム及び方法を提供する。特に取り組まれる問題は、たとえば、同期マルチメディア統合言語(SMIL)を使用してインターネット上の文書として受信される補足のマルチメディア情報に関連する。同期情報は、映像/テレビ番組から受信/抽出される。さらに、仮想のウェブページとして映像/テレビ番組と補足のマルチメディア情報とを表示することに関係している。
Chenらの非特許文献1は、フレームワークが、ウェブコンテンツを有意な方法で示したり、プッシュ配信したりすることによってテレビ視聴者にエンターテインメント体験を作り出すことができるようになっているGeoTVに関して教示している。
Farhiらの非特許文献2は、複数の情報源からニュースを配信するブロードバンドiTVアプリケーションに関して教示している。
本発明者の先行特許である特許文献6と非特許文献3では、チャネルハイパーリンクに対してスポーツ映像から商標を自動的に認識するシステムが開示されている。テキスト領域はテキストの何らかの特性を使用して位置特定され、商標は制限された商標データベースから形状の不変特徴及び色彩特徴を比較することによって認識される。
上記の従来技術は、光学文字認識の性能を改善するために、さらにテキストを含む映像領域を前処理し、前処理されたテキストを含む映像領域を使用して関連情報を後に検索できる効率的な方法及びシステムを開示していない。したがって、上記の背景技術の見地から、光学文字認識の性能を改善するために、さらにテキストを含む映像領域を正確に前処理し、出力前処理されたテキストを含む映像領域を使用して関連情報を後に検索するための方法及びシステムを提供できる解決策の必要性があることは明白である。
米国特許第6766528号 米国特許出願第20020083464号 米国特許出願第20090019482号 米国特許出願第20020038344号 米国特許出願第2002188959号 インド国特許出願第2236/MUM/2008号
Chenら、「GeoTV:navigating geocoded rss to create an IPTV experience」 Farhiら、「Broadband News Aggregator」 本発明者、「Recognition of trademarks from sports videos for channel hyper linking in consumer end」
本発明の主な目的は、光学文字認識の性能を改善するためにテキストを含む映像領域を前処理するための方法及びシステムを提供することである。
本発明の別の目的は、ビデオストリームに埋め込まれたテキストに関連する情報を後に検索して読み出し、さらに表示するために、テキストを含む映像領域を前処理するための方法及びシステムを提供することである。
本発明の方法、システム、及びハードウェアの実施可能性を記載するが、本開示に明白に説明する特定のシステム及び方法に、本発明は限定されない。また、記載に使用する用語は、特定の変形例または実施形態のみを記載する目的のためであり、本願特許請求の範囲によってのみ限定される。
本発明は、光学文字認識の性能を改善するためにテキストを含む映像領域を前処理するための方法及びシステムを提供する。
本発明の一態様は、光学文字認識の性能を改善するために、さらにビデオストリームに埋め込まれたテキストに関連する情報を後に検索して読み出し、さらに表示するためにテキストを含む映像領域を前処理するための方法及びシステムを提供することである。
本発明の別の態様では、ビデオストリームに埋め込まれたテキストを含む領域は自動的にあるいはユーザーが手動で識別してもよい。
上記の方法及びシステムは、いくつかのアプリケーションに対する入力として使用できるようにビデオストリームに埋め込まれたテキストを前処理するために好ましい。
上記の概要は、好ましい実施形態の以下の詳しい記載とともに添付の図面と併せて読むことでより良く理解される。本発明を説明する目的のために、図面には本発明の典型的な構成を示しているが、本発明は開示する特定の方法にもシステムにも限定されない。
光学文字認識の性能を改善するためにテキストを含む映像領域を前処理することを示すフローチャート テキストを含む映像領域内のテキスト画像を位置特定することを示す従来/先行技術のフローチャート テキストを含む映像領域内の位置特定されたテキスト画像をさらに高解像度化することを示すフローチャート 2値化したテキスト画像の少なくとも2つの接触文字を分割することを示すフローチャート 光学文字認識に対する改善した入力として分割したテキスト画像からキーワードを識別することを示すフローチャート 読み出した情報を後に表示して保存するために識別されたキーワードを検索することを示すフローチャート
以下に、本発明のいくつかの実施形態をすべての特徴を示しながら詳細に記載する。
「含む」、「有する」、「含有する」及び「包含する」の用語とこれらの他の形は、同じ意味であり、無制限であることを意図していて、これらのどの用語も続く項目がその総記となることや、そのような項目に限定することを意味していない。
また、本願明細書及び本願特許請求の範囲で使用するように、文脈を特に明記しない限り単数の形態は複数の参照を含む。本願明細書に記載するシステム及び方法と同じまたは均等なシステム及び方法は、本発明の実施形態の実施または試験に使用することができるが、以下に好ましいシステム及び方法を記載する。
開示する実施形態は本発明の例示に過ぎず、本発明はさまざまな形態で実施することが可能である。
本発明は、光学文字認識の性能を改善するためにテキストを含む映像領域を前処理するための方法及びシステムを可能にする。本発明の一実施形態では、出力テキストはそのようなテキストに関連する詳細を読み出し、テキストに関連して検索して読み出した情報を表示するための入力として、前処理されたテキストを含む映像領域を使用する後の検索のために使用することができる。
本発明は、光学文字認識への入力を改善するためにテキストを含む映像領域を前処理するための方法を提供し、テキストを含む映像領域は、
a.テキストを含む映像領域内のテキスト画像を位置特定し、
b.テキストを含む映像領域内の認識されたテキストをさらに高解像度化し、
c.高解像度化したテキスト画像を2値化し、
d.2値化したテキスト画像の少なくとも2つの接触文字を分割し、
e.光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別する、コンピュータに実装したステップによって前処理される。
また、本発明は光学文字認識入力を改善するためにテキストを含む映像領域を前処理するためのシステムを提案し、このシステムは、
a.テキスト画像を位置特定し、位置特定されたテキスト画像をさらに高解像度化したのち2値化し、2値化したテキスト画像の少なくとも2つの接触文字を分割し、OCRに対する改善した入力として分割したテキスト画像からキーワードをさらに識別することを可能にする少なくとも1つの画像処理装置と、
b.前処理されたテキスト入力を認識するための少なくとも1つの光学文字認識装置と、
c.前処理されたテキストを含む映像領域を保存するために互いに通信接続される、少なくとも1つのデジタル記憶装置及び記憶要素とを含む。
図1は、光学文字認識の性能を改善するために行う、テキストを含む映像領域内の前処理を示すフローチャートである。
この処理は、ステップ100で開始し、テキストを含む映像領域内のテキスト画像を位置特定する。ステップ200では、テキストを含む映像領域内の位置特定されたテキスト画像を、画像処理装置を使用することによってさらに高解像度化する。ステップ300では、高解像度化したテキスト画像を、画像処理装置を使用することによって2値化する。ステップ400では、2値化したテキスト画像の少なくとも2つの接触文字を、画像処理装置を使用することによって分割する。この処理はステップ500で終了し、分割したテキスト画像からのキーワードは光学文字認識に対する改善した入力として識別される。テキストを含む映像領域は、光学文字認識入力を改善するために、さらにテキストを含む映像領域に関連する追加情報を後に検索して読み出し、表示するために前処理する。
図2は、テキストを含む映像領域内のテキスト画像を位置特定することを示す従来/先行技術のフローチャートである。テキストを含む映像領域内のテキスト画像は、光学文字認識装置を使用することによって位置特定される。
この処理は、ステップ102で開始し、輝度の直流成分を使用してビデオストリーム内のコントラストが高いマクロブロックを見つけ出す。ステップ104では、強い垂直輪郭線を有するビデオストリームのマクロブロックを見つけ出す。ステップ106では、テキストの特徴を満たさないビデオストリーム内のマクロブロックを除外する。ステップ108では、時間領域にフィルターをかけてビデオストリーム内の鏡面候補マクロブロックを除外する。ステップ110では、ビデオストリーム内のテキスト領域をマークする。この処理はステップ112で終了し、各候補テキスト領域の画面レイアウトはテキストを含む映像領域内のテキスト画像を位置特定するために検出される。
図3は、テキストを含む映像領域内の位置特定されたテキスト画像をさらに高解像度化することを示すフローチャートである。
本発明の別の実施形態では、テキストを含む映像領域内の位置特定されたテキスト画像は画像処理装置を使用することによってさらに高解像度化される。
この処理は、ステップ202で開始し、6タップの有限インパルス応答フィルターをフィルター係数に適用して対象領域を縦横に2回拡大する。フィルター係数は1、−5、20、20、−5、1である。ステップ204では、補間法を適用して対象領域をさらに縦横に2回拡大する。ステップ206では、離散コサイン変換をさらに高解像度の画像に適用する。ステップ208では、バターワースローパスフィルターを適用することによって高周波成分を破棄する。この処理はステップ210で終了し、逆離散コサイン変換が適用され、さらに高解像度の画像が復元される。
本発明の別の実施形態では、高解像度化したテキスト画像は画像処理装置を使用することによって2値化される。テキストを含む映像領域内の認識されたテキスト画像は画像処理装置を使用することによってさらに高解像度化され、出力は適応閾値アルゴリズムを使用することによって2値化される。テキスト画像の前景部と背景部とを分離できるように2値化を実現する複数の方法があってよい。しかし、関連するテキスト領域に存在する文字と背景部は一定のグレーレベル値のものではなく、この2値化の方法では適応閾値法を使用する。閾値画像を得るためには、本解決法でOtsu法を使用する。
図4は、2値化したテキスト画像の少なくとも2つの接触文字を分割することを示すフローチャートである。
本発明の別の実施形態では、2値化したテキスト画像の少なくとも2つの接触文字が分割される。接触文字の分割は、画像処理装置を使用することによって行われる。
高解像度化したテキスト画像は、画像処理装置を使用することによって2値化される。2値化した画像形式の出力は、接触文字を分割するために使用される。2値した画像をかなり頻繁に取得すると、画像が多くの接触文字を含んでいることが認められる。これらの接触文字は、光学文字認識装置の精度を低下させる。したがって、接触文字の分割は光学文字認識の性能を改善するために必要となる。
この処理は、ステップ402で開始し、2値化した画像内の各文字の幅を計算する。幅の大きい各連結成分は文字であると推定する。i番目の要素の文字幅をWCとする。ステップ404では、2値化した画像の平均文字幅を求める。平均文字幅は次の数式を使用して計算され、式中nは対象領域内の文字数である。
Figure 0005840130
ステップ406では、2値化した画像の文字幅の標準偏差を計算する。文字幅(σwc)の標準偏差は、σwc=STDEV(WCi)で計算される。この処理はステップ408で終了し、2値化した画像の文字長の閾値が確定される。文字長(Twc)の閾値はTwc=μwc+3σwcである。WCi>Twcの場合、i番目の文字を候補接触文字としてマークする。i番目の候補接触文字の接触数は、次の数式として計算される。
Figure 0005840130
WCをn個の等間隔領域に分割する。
図5は、光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別することを示すフローチャートである。
本発明のさらに別の実施形態では、分割したテキスト画像からのキーワードが、画像処理装置を使用することによって、光学文字認識のために、さらにテキストを含む映像領域に関連する追加情報を検索して読み出し、表示するための改善した入力として識別される。
この処理は、ステップ502で開始し、ビデオストリームに埋め込まれたテキストの分割したテキスト画像からキーワードを全て大文字で選択する。ステップ504では、ビデオストリームに埋め込まれたテキストの、分割したテキスト画像のテキスト行あたりの語数を計算する。ステップ506では、テキスト行あたりの語数がヒューリスティックに得られる閾値を超える場合、テキスト行は候補キーワードであるとみなされる。ステップ508では、ストップワードが候補キーワードから除外される。ステップ510では、候補キーワードの残りの単語を連結して検索文字列を生成する。この処理はステップ512で終了し、連結されたキーワードは、光学文字認識に対する改善した入力として、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索し、後に読み出して表示するために検索文字列として使用される。
図6は、読み出した情報を後に表示して保存するために識別されたキーワードを検索することを示すフローチャートである。
本発明のさらに別の実施形態では、後にビデオストリームに埋め込まれたテキストに関連する追加情報を読み出して表示するために、分割したテキスト画像からのキーワードが検索される。
この処理はステップ602で開始され、キーワードが識別される。ステップ604では、識別したキーワードをRSSフィードまたはインターネットで検索する。ステップ606では、読み出した情報がユーザーインターフェース上に表示される。この処理はステップ608で終了し、読み出した情報は拡張可能なマーク付け言語ファイルに保存される。
上記の説明は、本発明のさまざまな実施形態に関して示している。本発明が関係する当業者は、本発明の原理、趣旨及び範囲から大きく逸脱することなく、記載する処理及び操作方法の代替及び変更を実施できる。
本発明は、例示目的でのみ提供する以下の実施例で記載しているため、本発明の範囲を制限するものではない。
一実施例では、接続されたテレビのテキストを含む映像領域を前処理するための方法及びシステムは、光学文字認識入力を改善するためにテレビに表示されるニュース画像から速報またはティッカーニュースの位置を特定することができる。この方法及びシステムは、インターネットまたはRSSフィードからテキストを含む映像領域に関連する情報を後に検索して読み出し、さらにビデオストリームに埋め込まれたテキストに関連する情報をユーザーのためにテレビに表示することを提供する。
この方法及びこのシステムは、ニュース画像を構文解析して検索クエリーを生成する。さらに、この方法及びこのシステムは、生成される検索クエリーを検索するためにGoogle(登録商標)などの検索エンジンを利用する。検索のためのキーワードの識別は、ヒューリスティックスに基づいていて、ヒューリスティックスはさらに、速報は常に大文字で表示され、重大ニュースのフォントサイズはティッカーテキストのものより大きく、重大ニュースはアンカー、スタジオまたはいくつかのニュースクリッピングが表示される中央領域の直上または直下に表示されるなどといった観察に基づいている。
上記の観察により、キーワードを識別するためには、光学文字認識の出力から認識した単語のうち全て大文字のものを選択して、テキスト行あたりの語数を求める以下の方法が導かれる。テキスト行あたりの語数がヒューリスティックに得られた閾値を超える場合は、テキスト行を候補テキスト領域とみなす。そのようなテキスト行が複数得られる場合には、この手法では映像フレームの中央より上側にそのようなテキスト行があるか否かを判定する。そのようなテキスト行が映像フレームの中央より下側に複数得られる場合、映像フレームの中央に最も近いテキスト行を候補テキストであるとみなす。この方法及びこのシステムは、RSSフィードを検索する入力としてこのテキストを使用する。次ステップでは、a、an、the、forやofといった冠詞あるいは前置詞などのストップワードが候補テキストから除外される。残りの単語を連結し、インターネット検索エンジンまたはRSSフィードのための検索文字列を生成する。インターネットまたはRSSフィードで検索された速報及びティッカーニュースに関連する情報は、読み出されてユーザーのためにテレビに表示される。
映像からテキスト領域の位置特定を提供する方法及びシステムによれば、最小誤差で動作する可能性はあるが誤検出を伴う可能性がある。しかし、これらはデータ意味解析により処理される。光学文字認識の出力は正確でない可能性もあるが、最長共通部分列マッチング法及びレーベンシュタイン距離を使用してRSSフィードから関連情報を検索するため、これらの誤差は所望の結果を得ることには影響を及ぼさない。

Claims (15)

  1. 光学文字認識入力を改善するために、コンピュータに実装したステップによって、テキストを含む映像領域内の複数のフレームを前処理する方法であって、
    a.テキストを含む映像領域内の複数のフレーム内のテキスト画像の位置を特定し、
    b.テキストを含む映像領域内の位置特定したテキスト画像を、6タップの有限インパルス応答フィルターを適用して縦横に2回拡大すると共に、補間法を適用してさらに縦横に2回拡大し、次いで、離散コサイン変換を適用し、バターワースローパスフィルターを適用することによって高周波成分を破棄し、最後に、逆離散コサイン変換を適用して高解像度化し、
    c.高解像度化したテキスト画像を、テキスト画像の前景部と背景部とを分離する適応閾値法によって2値化し、
    d.2値化したテキスト画像の少なくとも2つの接触文字を、文字幅の平均文字幅と標準偏差に基づいて、2値化した画像内の各文字の幅を計算し、2値化した画像内の平均文字幅を決定し、2値化した画像内の文字幅の標準偏差を計算し、2値化した画像内の文字長の閾値を確定し、文字長の閾値に基づいて、2値化したテキスト画像の少なくとも2つの接触文字を分割し、
    e.光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別する
    ことを特徴とするテキストを含む映像領域の前処理方法。
  2. テキストを含む映像領域内のテキストが、
    a.輝度の直流成分を用いて、テキストを含む映像領域内のコントラストの高いマクロブロックを見つけ出し、
    b.強い垂直な輪郭線を有するテキストを含む映像領域内のマクロブロックを見つけ出し、
    c.テキストの特徴を満たさないテキストを含む映像領域内のマクロブロックを除外し、
    d.テキストを含む映像領域内の鏡面候補マクロブロックを除外し、
    e.テキストを含む映像領域内のテキスト領域をマークし、
    f.テキストを含む映像領域内のテキスト画像を認識するために、各候補テキスト領域の画面レイアウトを検出して、
    コンピュータに実装したステップによって位置特定される
    請求項1に記載の方法。
  3. 分割したテキスト画像からのキーワードが、
    a.テキストを含む映像領域内の分割したテキスト画像から文字が全て大文字であるキーワードを選択し、
    b.テキストを含む映像領域内の分割したテキスト画像について、テキスト行あたりの語数を求め、
    c.テキスト行あたりの語数が所定の閾値を超える場合に、そのテキスト行が候補キーワードであるとみなし、
    d.候補キーワードからストップワードを除外し、
    e.候補キーワードの残りの単語を連結して検索文字列を生成し、
    f.光学文字認識の性能を改善するために、検索文字列として連結されたキーワードを使用して、
    コンピュータに実装したステップによって識別される
    請求項1に記載の方法。
  4. ストップワードが、a、an、the、for、ofを含む冠詞または前置詞から成る群から選択される
    請求項3に記載の方法。
  5. 分割したテキスト画像からのキーワードが、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索して読み出し、表示するための検索クエリーとして使用される
    請求項1に記載の方法。
  6. 前処理されたテキストを含む映像領域が、関連情報を含むインターネットまたはRSSフィード上でそのテキストに関連する追加情報を検索するために使用される
    請求項1に記載の方法。
  7. 前処理されたテキストを含む映像領域に関連して検索された追加情報がユーザーインターフェースに表示される
    請求項6に記載の方法。
  8. 前処理されたテキストを含む映像領域に関連して検索され、表示された追加情報が、拡張可能なマーク付け言語ファイルに保存される
    請求項7に記載の方法。
  9. テキストを含む映像領域に関連して処理され、検索され、読み出され、表示された追加情報が、テレビ視聴時のニュースに関連するものである
    請求項5に記載の方法。
  10. ニュースが、速報及びティッカーニュースから成る群から選択される
    請求項9に記載の方法。
  11. 光学文字認識入力を改善するために、テキストを含む映像領域を前処理するシステムであって、
    a.テキスト画像を位置特定し、位置特定されたテキスト画像を、6タップの有限インパルス応答フィルターを適用して縦横に2回拡大すると共に、補間法を適用してさらに縦横に2回拡大し、次いで、離散コサイン変換を適用し、バターワースローパスフィルターを適用することによって高周波成分を破棄し、最後に、逆離散コサイン変換を適用して高解像度化し、高解像度化後に、テキスト画像の前景部と背景部とを分離する適応閾値法によって2値化し、2値化後に2値化したテキスト画像の少なくとも2つの接触文字を、文字幅の平均文字幅と標準偏差に基づいて、2値化した画像内の各文字の幅を計算し、2値化した画像内の平均文字幅を決定し、2値化した画像内の文字幅の標準偏差を計算し、2値化した画像内の文字長の閾値を確定し、文字長の閾値に基づいて、2値化したテキスト画像の少なくとも2つの接触文字を分割し、光学的文字認識に対する改善された入力として分割したテキスト画像からキーワードを識別可能にする少なくとも1つの画像処理装置と、
    b.前処理されたテキスト入力を認識するための少なくとも1つの光学文字認識装置と、
    c.前処理されたテキストを含む映像領域を保存するために互いに通信接続される少なくとも1つのデジタル記憶装置及び記憶要素と、を備える
    ことを特徴とするテキストを含む映像領域の前処理システム。
  12. 分割したテキスト画像からのキーワードが、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索して読み出し、表示するための検索クエリーとして使用される
    請求項11に記載のシステム。
  13. 前処理されたテキストを含む映像領域が、関連情報を含むインターネットまたはRSSフィード上でテキストに関連する追加情報を検索するために使用される
    請求項11に記載のシステム。
  14. 前処理されたテキストを含む映像領域に関連して検索された追加情報がユーザーインターフェースに表示される
    請求項13に記載のシステム。
  15. 前処理されたテキストを含む映像領域に関連して検索され、表示された追加情報が、拡張可能なマーク付け言語ファイル形式でデジタル記憶装置に保存される
    請求項14に記載のシステム。
JP2012533742A 2009-12-31 2010-12-29 テキストを含む映像領域の前処理方法及びシステム Active JP5840130B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN3039/MUM/2009 2009-12-31
IN3039MU2009 2009-12-31
PCT/IN2010/000864 WO2011080763A1 (en) 2009-12-31 2010-12-29 A method and system for preprocessing the region of video containing text

Publications (2)

Publication Number Publication Date
JP2013508798A JP2013508798A (ja) 2013-03-07
JP5840130B2 true JP5840130B2 (ja) 2016-01-06

Family

ID=44009799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012533742A Active JP5840130B2 (ja) 2009-12-31 2010-12-29 テキストを含む映像領域の前処理方法及びシステム

Country Status (5)

Country Link
US (1) US8989491B2 (ja)
EP (1) EP2471025B1 (ja)
JP (1) JP5840130B2 (ja)
CN (1) CN102511048B (ja)
WO (1) WO2011080763A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8724928B2 (en) * 2009-08-31 2014-05-13 Intellectual Ventures Fund 83 Llc Using captured high and low resolution images
EP2734956A4 (en) * 2011-07-20 2014-12-31 Tata Consultancy Services Ltd METHOD AND SYSTEM FOR DIFFERENTIATION OF TEXT INFORMATION INTEGRATED IN VIDEO CONTENT INTERNET INFORMATION
CN103186780B (zh) * 2011-12-30 2018-01-26 乐金电子(中国)研究开发中心有限公司 视频字幕识别方法及装置
WO2013164849A2 (en) * 2012-04-12 2013-11-07 Tata Consultancy Services Limited A system and method for detection and segmentation of touching characters for ocr
US9645985B2 (en) * 2013-03-15 2017-05-09 Cyberlink Corp. Systems and methods for customizing text in media content
WO2015038749A1 (en) 2013-09-13 2015-03-19 Arris Enterprises, Inc. Content based video content segmentation
US9762950B1 (en) 2013-09-17 2017-09-12 Amazon Technologies, Inc. Automatic generation of network pages from extracted media content
US9377949B2 (en) * 2013-09-27 2016-06-28 Xiaomi Inc. Method and terminal device for selecting character
US9251614B1 (en) * 2014-08-29 2016-02-02 Konica Minolta Laboratory U.S.A., Inc. Background removal for document images
CN106162328A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种视频同步信息展示方法及系统
CN106161873A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种视频信息提取推送方法及系统
CN109165647A (zh) * 2018-08-22 2019-01-08 北京慕华信息科技有限公司 一种图像中文本信息量的计算方法及装置
CN111491177A (zh) * 2019-01-28 2020-08-04 上海博泰悦臻电子设备制造有限公司 视频信息提取方法及其装置、系统
US11386687B2 (en) * 2020-03-30 2022-07-12 Wipro Limited System and method for reconstructing an image
KR102435962B1 (ko) * 2021-11-03 2022-08-25 렉스젠(주) 영상을 이용한 정보 분석 시스템 및 그에 관한 방법

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04276885A (ja) * 1991-03-04 1992-10-01 Sumitomo Electric Ind Ltd 文字切出し装置
US20020049832A1 (en) 1996-03-08 2002-04-25 Craig Ullman Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments
US6766528B1 (en) 1999-01-27 2004-07-20 Lg Electronics Inc. Apparatus and method for displaying additional information
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
US20020083464A1 (en) 2000-11-07 2002-06-27 Mai-Ian Tomsen System and method for unprompted, context-sensitive querying during a televison broadcast
US20020188959A1 (en) 2001-06-12 2002-12-12 Koninklijke Philips Electronics N.V. Parallel and synchronized display of augmented multimedia information
DE60109278T2 (de) * 2001-06-26 2006-03-30 Nokia Corp. Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
KR20040100735A (ko) * 2003-05-24 2004-12-02 삼성전자주식회사 영상보간장치 및 영상보간방법
JP2007006194A (ja) * 2005-06-24 2007-01-11 Matsushita Electric Ind Co Ltd 画像復号再生装置
CN100517374C (zh) * 2005-12-29 2009-07-22 佳能株式会社 从复杂背景文档图像提取文本的装置、方法
US7949192B2 (en) * 2006-05-10 2011-05-24 University Of Maryland, Baltimore Techniques for converting analog medical video to digital objects
TW200802137A (en) 2006-06-16 2008-01-01 Univ Nat Chiao Tung Serial-type license plate recognition system
KR100812347B1 (ko) * 2006-06-20 2008-03-11 삼성전자주식회사 스트록 필터를 이용한 문자 추출 방법 및 그 장치
CN100533466C (zh) * 2006-06-29 2009-08-26 北大方正集团有限公司 一种字体识别方法及系统
JP4861845B2 (ja) * 2007-02-05 2012-01-25 富士通株式会社 テロップ文字抽出プログラム、記録媒体、方法及び装置
KR20090005681A (ko) 2007-07-09 2009-01-14 삼성전자주식회사 영상표시장치 및 이를 이용한 정보 제공방법
JP2009130899A (ja) * 2007-11-28 2009-06-11 Mitsubishi Electric Corp 画像再生装置
JP2009188886A (ja) * 2008-02-08 2009-08-20 Omron Corp 情報処理装置および情報処理装置用のプログラム
CN101251892B (zh) * 2008-03-07 2010-06-09 北大方正集团有限公司 一种字符切分方法和装置
CN101593276B (zh) * 2008-05-29 2011-10-12 汉王科技股份有限公司 一种视频ocr图文分离方法及系统
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR

Also Published As

Publication number Publication date
EP2471025B1 (en) 2019-06-05
JP2013508798A (ja) 2013-03-07
WO2011080763A1 (en) 2011-07-07
US20120242897A1 (en) 2012-09-27
CN102511048B (zh) 2015-08-26
US8989491B2 (en) 2015-03-24
EP2471025A1 (en) 2012-07-04
CN102511048A (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
JP5840130B2 (ja) テキストを含む映像領域の前処理方法及びシステム
US11197036B2 (en) Multimedia stream analysis and retrieval
CN108024145B (zh) 视频推荐方法、装置、计算机设备和存储介质
CN106921891B (zh) 一种视频特征信息的展示方法和装置
US9473448B2 (en) System for social media tag extraction
US8315430B2 (en) Object recognition and database population for video indexing
US20130148898A1 (en) Clustering objects detected in video
KR101644789B1 (ko) 방송 프로그램 연관 정보 제공 장치 및 방법
US8515933B2 (en) Video search method, video search system, and method thereof for establishing video database
US8316014B2 (en) Recording medium storing information attachment program, information attachment apparatus, and information attachment method
US20190007711A1 (en) Named Entity Disambiguation for providing TV content enrichment
US8559724B2 (en) Apparatus and method for generating additional information about moving picture content
US20160261894A1 (en) Detecting of graphical objects to identify video demarcations
US20200257724A1 (en) Methods, devices, and storage media for content retrieval
CN112567416A (zh) 用于处理数字视频的设备及方法
US11483617B1 (en) Automoted identification of product or brand-related metadata candidates for a commercial using temporal position of product or brand-related text or objects, or the temporal position and audio, in video frames of the commercial
CN115080792A (zh) 一种视频关联方法、装置、电子设备及存储介质
CN115035509A (zh) 一种视频检测方法、装置、电子设备和存储介质
JP2017011581A (ja) 動画処理装置及び動画処理システム
CN106951423B (zh) 一种实现影视识别的方法和装置
CN116761046A (zh) 一种对字幕翻译精准推送广告的方法
CN116887006A (zh) 滚动字幕检测方法、装置、电子设备及存储介质
Xu et al. Integration of audio and video semantic features for news video scene segmentation
Ardizzone et al. Keyword based Keyframe Extraction in Online Video Collections

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140530

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140623

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151110

R150 Certificate of patent or registration of utility model

Ref document number: 5840130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250