JP5840130B2

JP5840130B2 - テキストを含む映像領域の前処理方法及びシステム

Info

Publication number: JP5840130B2
Application number: JP2012533742A
Authority: JP
Inventors: チョトパッダーエ、タヌシャム; シンハ、アニルッダ; パル、アルパン
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2009-12-31
Filing date: 2010-12-29
Publication date: 2016-01-06
Anticipated expiration: 2030-12-29
Also published as: EP2471025B1; JP2013508798A; WO2011080763A1; US20120242897A1; CN102511048B; US8989491B2; EP2471025A1; CN102511048A

Description

本発明は、放送分野に関する。特に、テキストを含む映像領域を前処理するための方法及びシステムに関する。詳しくは、光学文字認識に対する入力を改善するために、テキストを含む映像領域を前処理するための方法及びシステムに関する。

近年、テレビやコンピュータなどの装置を使用する情報の動的配信が大幅に増加した。このような装置は、さまざまな分野に関連する最新情報を取得するためにますます使用されている。これらの装置による情報配信は、映像、音声、テキストまたはそれらを組み合せた方式で行われる。ニュース放送は、映像、音声、テキスト及びそれらを組み合せた形式での情報配信の最も良い例である。

現行シナリオでは、加入者は通信されている情報のみを閲覧することができる。特定の主題または対象となる領域の関連情報をさらに得るためには、ユーザーはインターネットなどの他の何らかの情報源を使用する必要がある。ユーザーは、テレビなどの情報配信装置によって通信されている情報以外のユーザーの関心領域の関連情報を得るために、手動検索を行う必要がある。

情報配信装置に表示される情報以外のユーザーの関心領域に関連する必要な情報を得るためには、光学文字認識の性能を改善するために、さらに、後の検索のために既存のテキストを含む映像領域を使用する自動化装置を有する必要がある。したがって、テキストを含む映像領域は、光学文字認識の性能を改善するために、さらにはテキストを使用して後の検索をするために、効率的に決定される必要がある。

以下に示すように、従来の方法及びシステムのいくつかは、テキストに基づいた検索を行うことが可能であるが、光学文字認識の性能を改善するために、さらに次の検索のためにテキストを含む映像領域を効果的に求めるのに十分効率的ではない。

Ｋｉｍらの特許文献１は、テレビ番組の追加情報を表示するための装置及び方法を提供している。この特許は、インターネットなどの外部情報源から情報を得て、さらには必要に応じてユーザーに表示するための方法を教示している。

Ｔｏｍｓｅｎらの特許文献２は、双方向テレビシステムによって表示されているテレビ放送に関連する補足内容を検索するための状況に応じたリクエストを提供している。特許文献２は、光学文字認識の性能を改善するために、さらに前処理されたテキストを含む映像領域を使用して関連情報を後に検索するためにテキストを含む映像領域を前処理することに関して教示しない。

Ｋｉｍらの特許文献３は、画像表示装置と画像表示装置を使用する情報提供方法とを提供している。この特許出願は、デジタルテレビなどの画像表示装置に関して示し、ウェブサーバから提供されるＲＳＳ情報を時間帯に応じて分類し、対応する時間帯で所定のカテゴリのＲＳＳ情報とを表示する。

Ｕｌｌｍａｎらの特許文献４は、映像プログラミングをインターネットの莫大な情報資源と統合するシステムを提供している。Ｕｌｌｍａｎらは、埋め込みユニフォームリソースロケータ（ＵＲＬ）で映像プログラムを受信するコンピュータベースのシステムに関して教示している。

Ｐｉｏｔｒｏｗｓｋｉの特許文献５は、自動的にあるいは要求に応じて、映像／テレビ番組の視聴者が映像／テレビ番組に関連して同期した補足のマルチメディア情報を受信できるシステム及び方法を提供する。特に取り組まれる問題は、たとえば、同期マルチメディア統合言語（ＳＭＩＬ）を使用してインターネット上の文書として受信される補足のマルチメディア情報に関連する。同期情報は、映像／テレビ番組から受信／抽出される。さらに、仮想のウェブページとして映像／テレビ番組と補足のマルチメディア情報とを表示することに関係している。

Ｃｈｅｎらの非特許文献１は、フレームワークが、ウェブコンテンツを有意な方法で示したり、プッシュ配信したりすることによってテレビ視聴者にエンターテインメント体験を作り出すことができるようになっているＧｅｏＴＶに関して教示している。

Ｆａｒｈｉらの非特許文献２は、複数の情報源からニュースを配信するブロードバンドｉＴＶアプリケーションに関して教示している。

本発明者の先行特許である特許文献６と非特許文献３では、チャネルハイパーリンクに対してスポーツ映像から商標を自動的に認識するシステムが開示されている。テキスト領域はテキストの何らかの特性を使用して位置特定され、商標は制限された商標データベースから形状の不変特徴及び色彩特徴を比較することによって認識される。

上記の従来技術は、光学文字認識の性能を改善するために、さらにテキストを含む映像領域を前処理し、前処理されたテキストを含む映像領域を使用して関連情報を後に検索できる効率的な方法及びシステムを開示していない。したがって、上記の背景技術の見地から、光学文字認識の性能を改善するために、さらにテキストを含む映像領域を正確に前処理し、出力前処理されたテキストを含む映像領域を使用して関連情報を後に検索するための方法及びシステムを提供できる解決策の必要性があることは明白である。

米国特許第６７６６５２８号米国特許出願第２００２００８３４６４号米国特許出願第２００９００１９４８２号米国特許出願第２００２００３８３４４号米国特許出願第２００２１８８９５９号インド国特許出願第２２３６／ＭＵＭ／２００８号

Ｃｈｅｎら、「ＧｅｏＴＶ：ｎａｖｉｇａｔｉｎｇｇｅｏｃｏｄｅｄｒｓｓｔｏｃｒｅａｔｅａｎＩＰＴＶｅｘｐｅｒｉｅｎｃｅ」Ｆａｒｈｉら、「ＢｒｏａｄｂａｎｄＮｅｗｓＡｇｇｒｅｇａｔｏｒ」本発明者、「Ｒｅｃｏｇｎｉｔｉｏｎｏｆｔｒａｄｅｍａｒｋｓｆｒｏｍｓｐｏｒｔｓｖｉｄｅｏｓｆｏｒｃｈａｎｎｅｌｈｙｐｅｒｌｉｎｋｉｎｇｉｎｃｏｎｓｕｍｅｒｅｎｄ」

本発明の主な目的は、光学文字認識の性能を改善するためにテキストを含む映像領域を前処理するための方法及びシステムを提供することである。

本発明の別の目的は、ビデオストリームに埋め込まれたテキストに関連する情報を後に検索して読み出し、さらに表示するために、テキストを含む映像領域を前処理するための方法及びシステムを提供することである。

本発明の方法、システム、及びハードウェアの実施可能性を記載するが、本開示に明白に説明する特定のシステム及び方法に、本発明は限定されない。また、記載に使用する用語は、特定の変形例または実施形態のみを記載する目的のためであり、本願特許請求の範囲によってのみ限定される。

本発明は、光学文字認識の性能を改善するためにテキストを含む映像領域を前処理するための方法及びシステムを提供する。

本発明の一態様は、光学文字認識の性能を改善するために、さらにビデオストリームに埋め込まれたテキストに関連する情報を後に検索して読み出し、さらに表示するためにテキストを含む映像領域を前処理するための方法及びシステムを提供することである。

本発明の別の態様では、ビデオストリームに埋め込まれたテキストを含む領域は自動的にあるいはユーザーが手動で識別してもよい。

上記の方法及びシステムは、いくつかのアプリケーションに対する入力として使用できるようにビデオストリームに埋め込まれたテキストを前処理するために好ましい。

上記の概要は、好ましい実施形態の以下の詳しい記載とともに添付の図面と併せて読むことでより良く理解される。本発明を説明する目的のために、図面には本発明の典型的な構成を示しているが、本発明は開示する特定の方法にもシステムにも限定されない。

光学文字認識の性能を改善するためにテキストを含む映像領域を前処理することを示すフローチャートテキストを含む映像領域内のテキスト画像を位置特定することを示す従来／先行技術のフローチャートテキストを含む映像領域内の位置特定されたテキスト画像をさらに高解像度化することを示すフローチャート２値化したテキスト画像の少なくとも２つの接触文字を分割することを示すフローチャート光学文字認識に対する改善した入力として分割したテキスト画像からキーワードを識別することを示すフローチャート読み出した情報を後に表示して保存するために識別されたキーワードを検索することを示すフローチャート

以下に、本発明のいくつかの実施形態をすべての特徴を示しながら詳細に記載する。

「含む」、「有する」、「含有する」及び「包含する」の用語とこれらの他の形は、同じ意味であり、無制限であることを意図していて、これらのどの用語も続く項目がその総記となることや、そのような項目に限定することを意味していない。

また、本願明細書及び本願特許請求の範囲で使用するように、文脈を特に明記しない限り単数の形態は複数の参照を含む。本願明細書に記載するシステム及び方法と同じまたは均等なシステム及び方法は、本発明の実施形態の実施または試験に使用することができるが、以下に好ましいシステム及び方法を記載する。

開示する実施形態は本発明の例示に過ぎず、本発明はさまざまな形態で実施することが可能である。

本発明は、光学文字認識の性能を改善するためにテキストを含む映像領域を前処理するための方法及びシステムを可能にする。本発明の一実施形態では、出力テキストはそのようなテキストに関連する詳細を読み出し、テキストに関連して検索して読み出した情報を表示するための入力として、前処理されたテキストを含む映像領域を使用する後の検索のために使用することができる。

本発明は、光学文字認識への入力を改善するためにテキストを含む映像領域を前処理するための方法を提供し、テキストを含む映像領域は、
ａ．テキストを含む映像領域内のテキスト画像を位置特定し、
ｂ．テキストを含む映像領域内の認識されたテキストをさらに高解像度化し、
ｃ．高解像度化したテキスト画像を２値化し、
ｄ．２値化したテキスト画像の少なくとも２つの接触文字を分割し、
ｅ．光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別する、コンピュータに実装したステップによって前処理される。

また、本発明は光学文字認識入力を改善するためにテキストを含む映像領域を前処理するためのシステムを提案し、このシステムは、
ａ．テキスト画像を位置特定し、位置特定されたテキスト画像をさらに高解像度化したのち２値化し、２値化したテキスト画像の少なくとも２つの接触文字を分割し、ＯＣＲに対する改善した入力として分割したテキスト画像からキーワードをさらに識別することを可能にする少なくとも１つの画像処理装置と、
ｂ．前処理されたテキスト入力を認識するための少なくとも１つの光学文字認識装置と、
ｃ．前処理されたテキストを含む映像領域を保存するために互いに通信接続される、少なくとも１つのデジタル記憶装置及び記憶要素とを含む。

図１は、光学文字認識の性能を改善するために行う、テキストを含む映像領域内の前処理を示すフローチャートである。

この処理は、ステップ１００で開始し、テキストを含む映像領域内のテキスト画像を位置特定する。ステップ２００では、テキストを含む映像領域内の位置特定されたテキスト画像を、画像処理装置を使用することによってさらに高解像度化する。ステップ３００では、高解像度化したテキスト画像を、画像処理装置を使用することによって２値化する。ステップ４００では、２値化したテキスト画像の少なくとも２つの接触文字を、画像処理装置を使用することによって分割する。この処理はステップ５００で終了し、分割したテキスト画像からのキーワードは光学文字認識に対する改善した入力として識別される。テキストを含む映像領域は、光学文字認識入力を改善するために、さらにテキストを含む映像領域に関連する追加情報を後に検索して読み出し、表示するために前処理する。

図２は、テキストを含む映像領域内のテキスト画像を位置特定することを示す従来／先行技術のフローチャートである。テキストを含む映像領域内のテキスト画像は、光学文字認識装置を使用することによって位置特定される。

この処理は、ステップ１０２で開始し、輝度の直流成分を使用してビデオストリーム内のコントラストが高いマクロブロックを見つけ出す。ステップ１０４では、強い垂直輪郭線を有するビデオストリームのマクロブロックを見つけ出す。ステップ１０６では、テキストの特徴を満たさないビデオストリーム内のマクロブロックを除外する。ステップ１０８では、時間領域にフィルターをかけてビデオストリーム内の鏡面候補マクロブロックを除外する。ステップ１１０では、ビデオストリーム内のテキスト領域をマークする。この処理はステップ１１２で終了し、各候補テキスト領域の画面レイアウトはテキストを含む映像領域内のテキスト画像を位置特定するために検出される。

図３は、テキストを含む映像領域内の位置特定されたテキスト画像をさらに高解像度化することを示すフローチャートである。

本発明の別の実施形態では、テキストを含む映像領域内の位置特定されたテキスト画像は画像処理装置を使用することによってさらに高解像度化される。

この処理は、ステップ２０２で開始し、６タップの有限インパルス応答フィルターをフィルター係数に適用して対象領域を縦横に２回拡大する。フィルター係数は１、−５、２０、２０、−５、１である。ステップ２０４では、補間法を適用して対象領域をさらに縦横に２回拡大する。ステップ２０６では、離散コサイン変換をさらに高解像度の画像に適用する。ステップ２０８では、バターワースローパスフィルターを適用することによって高周波成分を破棄する。この処理はステップ２１０で終了し、逆離散コサイン変換が適用され、さらに高解像度の画像が復元される。

本発明の別の実施形態では、高解像度化したテキスト画像は画像処理装置を使用することによって２値化される。テキストを含む映像領域内の認識されたテキスト画像は画像処理装置を使用することによってさらに高解像度化され、出力は適応閾値アルゴリズムを使用することによって２値化される。テキスト画像の前景部と背景部とを分離できるように２値化を実現する複数の方法があってよい。しかし、関連するテキスト領域に存在する文字と背景部は一定のグレーレベル値のものではなく、この２値化の方法では適応閾値法を使用する。閾値画像を得るためには、本解決法でＯｔｓｕ法を使用する。

図４は、２値化したテキスト画像の少なくとも２つの接触文字を分割することを示すフローチャートである。

本発明の別の実施形態では、２値化したテキスト画像の少なくとも２つの接触文字が分割される。接触文字の分割は、画像処理装置を使用することによって行われる。

高解像度化したテキスト画像は、画像処理装置を使用することによって２値化される。２値化した画像形式の出力は、接触文字を分割するために使用される。２値した画像をかなり頻繁に取得すると、画像が多くの接触文字を含んでいることが認められる。これらの接触文字は、光学文字認識装置の精度を低下させる。したがって、接触文字の分割は光学文字認識の性能を改善するために必要となる。

この処理は、ステップ４０２で開始し、２値化した画像内の各文字の幅を計算する。幅の大きい各連結成分は文字であると推定する。ｉ番目の要素の文字幅をＷＣ_ｉとする。ステップ４０４では、２値化した画像の平均文字幅を求める。平均文字幅は次の数式を使用して計算され、式中ｎは対象領域内の文字数である。

ステップ４０６では、２値化した画像の文字幅の標準偏差を計算する。文字幅（σｗｃ）の標準偏差は、σｗｃ＝ＳＴＤＥＶ（ＷＣｉ）で計算される。この処理はステップ４０８で終了し、２値化した画像の文字長の閾値が確定される。文字長（Ｔｗｃ）の閾値はＴｗｃ＝μｗｃ＋３σｗｃである。ＷＣｉ＞Ｔｗｃの場合、ｉ番目の文字を候補接触文字としてマークする。ｉ番目の候補接触文字の接触数は、次の数式として計算される。

ＷＣ_ｉをｎ_ｉ個の等間隔領域に分割する。

図５は、光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別することを示すフローチャートである。

本発明のさらに別の実施形態では、分割したテキスト画像からのキーワードが、画像処理装置を使用することによって、光学文字認識のために、さらにテキストを含む映像領域に関連する追加情報を検索して読み出し、表示するための改善した入力として識別される。

この処理は、ステップ５０２で開始し、ビデオストリームに埋め込まれたテキストの分割したテキスト画像からキーワードを全て大文字で選択する。ステップ５０４では、ビデオストリームに埋め込まれたテキストの、分割したテキスト画像のテキスト行あたりの語数を計算する。ステップ５０６では、テキスト行あたりの語数がヒューリスティックに得られる閾値を超える場合、テキスト行は候補キーワードであるとみなされる。ステップ５０８では、ストップワードが候補キーワードから除外される。ステップ５１０では、候補キーワードの残りの単語を連結して検索文字列を生成する。この処理はステップ５１２で終了し、連結されたキーワードは、光学文字認識に対する改善した入力として、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索し、後に読み出して表示するために検索文字列として使用される。

図６は、読み出した情報を後に表示して保存するために識別されたキーワードを検索することを示すフローチャートである。

本発明のさらに別の実施形態では、後にビデオストリームに埋め込まれたテキストに関連する追加情報を読み出して表示するために、分割したテキスト画像からのキーワードが検索される。

この処理はステップ６０２で開始され、キーワードが識別される。ステップ６０４では、識別したキーワードをＲＳＳフィードまたはインターネットで検索する。ステップ６０６では、読み出した情報がユーザーインターフェース上に表示される。この処理はステップ６０８で終了し、読み出した情報は拡張可能なマーク付け言語ファイルに保存される。

上記の説明は、本発明のさまざまな実施形態に関して示している。本発明が関係する当業者は、本発明の原理、趣旨及び範囲から大きく逸脱することなく、記載する処理及び操作方法の代替及び変更を実施できる。

本発明は、例示目的でのみ提供する以下の実施例で記載しているため、本発明の範囲を制限するものではない。

一実施例では、接続されたテレビのテキストを含む映像領域を前処理するための方法及びシステムは、光学文字認識入力を改善するためにテレビに表示されるニュース画像から速報またはティッカーニュースの位置を特定することができる。この方法及びシステムは、インターネットまたはＲＳＳフィードからテキストを含む映像領域に関連する情報を後に検索して読み出し、さらにビデオストリームに埋め込まれたテキストに関連する情報をユーザーのためにテレビに表示することを提供する。

この方法及びこのシステムは、ニュース画像を構文解析して検索クエリーを生成する。さらに、この方法及びこのシステムは、生成される検索クエリーを検索するためにＧｏｏｇｌｅ（登録商標）などの検索エンジンを利用する。検索のためのキーワードの識別は、ヒューリスティックスに基づいていて、ヒューリスティックスはさらに、速報は常に大文字で表示され、重大ニュースのフォントサイズはティッカーテキストのものより大きく、重大ニュースはアンカー、スタジオまたはいくつかのニュースクリッピングが表示される中央領域の直上または直下に表示されるなどといった観察に基づいている。

上記の観察により、キーワードを識別するためには、光学文字認識の出力から認識した単語のうち全て大文字のものを選択して、テキスト行あたりの語数を求める以下の方法が導かれる。テキスト行あたりの語数がヒューリスティックに得られた閾値を超える場合は、テキスト行を候補テキスト領域とみなす。そのようなテキスト行が複数得られる場合には、この手法では映像フレームの中央より上側にそのようなテキスト行があるか否かを判定する。そのようなテキスト行が映像フレームの中央より下側に複数得られる場合、映像フレームの中央に最も近いテキスト行を候補テキストであるとみなす。この方法及びこのシステムは、ＲＳＳフィードを検索する入力としてこのテキストを使用する。次ステップでは、ａ、ａｎ、ｔｈｅ、ｆｏｒやｏｆといった冠詞あるいは前置詞などのストップワードが候補テキストから除外される。残りの単語を連結し、インターネット検索エンジンまたはＲＳＳフィードのための検索文字列を生成する。インターネットまたはＲＳＳフィードで検索された速報及びティッカーニュースに関連する情報は、読み出されてユーザーのためにテレビに表示される。

映像からテキスト領域の位置特定を提供する方法及びシステムによれば、最小誤差で動作する可能性はあるが誤検出を伴う可能性がある。しかし、これらはデータ意味解析により処理される。光学文字認識の出力は正確でない可能性もあるが、最長共通部分列マッチング法及びレーベンシュタイン距離を使用してＲＳＳフィードから関連情報を検索するため、これらの誤差は所望の結果を得ることには影響を及ぼさない。

Claims

光学文字認識入力を改善するために、コンピュータに実装したステップによって、テキストを含む映像領域内の複数のフレームを前処理する方法であって、
ａ．テキストを含む映像領域内の複数のフレーム内のテキスト画像の位置を特定し、
ｂ．テキストを含む映像領域内の位置特定したテキスト画像を、６タップの有限インパルス応答フィルターを適用して縦横に２回拡大すると共に、補間法を適用してさらに縦横に２回拡大し、次いで、離散コサイン変換を適用し、バターワースローパスフィルターを適用することによって高周波成分を破棄し、最後に、逆離散コサイン変換を適用して高解像度化し、
ｃ．高解像度化したテキスト画像を、テキスト画像の前景部と背景部とを分離する適応閾値法によって２値化し、
ｄ．２値化したテキスト画像の少なくとも２つの接触文字を、文字幅の平均文字幅と標準偏差に基づいて、２値化した画像内の各文字の幅を計算し、２値化した画像内の平均文字幅を決定し、２値化した画像内の文字幅の標準偏差を計算し、２値化した画像内の文字長の閾値を確定し、文字長の閾値に基づいて、２値化したテキスト画像の少なくとも２つの接触文字を分割し、
ｅ．光学文字認識に対する改善した入力として、分割したテキスト画像からキーワードを識別する
ことを特徴とするテキストを含む映像領域の前処理方法。
テキストを含む映像領域内のテキストが、
ａ．輝度の直流成分を用いて、テキストを含む映像領域内のコントラストの高いマクロブロックを見つけ出し、
ｂ．強い垂直な輪郭線を有するテキストを含む映像領域内のマクロブロックを見つけ出し、
ｃ．テキストの特徴を満たさないテキストを含む映像領域内のマクロブロックを除外し、
ｄ．テキストを含む映像領域内の鏡面候補マクロブロックを除外し、
ｅ．テキストを含む映像領域内のテキスト領域をマークし、
ｆ．テキストを含む映像領域内のテキスト画像を認識するために、各候補テキスト領域の画面レイアウトを検出して、
コンピュータに実装したステップによって位置特定される
請求項１に記載の方法。
分割したテキスト画像からのキーワードが、
ａ．テキストを含む映像領域内の分割したテキスト画像から文字が全て大文字であるキーワードを選択し、
ｂ．テキストを含む映像領域内の分割したテキスト画像について、テキスト行あたりの語数を求め、
ｃ．テキスト行あたりの語数が所定の閾値を超える場合に、そのテキスト行が候補キーワードであるとみなし、
ｄ．候補キーワードからストップワードを除外し、
ｅ．候補キーワードの残りの単語を連結して検索文字列を生成し、
ｆ．光学文字認識の性能を改善するために、検索文字列として連結されたキーワードを使用して、
コンピュータに実装したステップによって識別される
請求項１に記載の方法。
ストップワードが、ａ、ａｎ、ｔｈｅ、ｆｏｒ、ｏｆを含む冠詞または前置詞から成る群から選択される
請求項３に記載の方法。
分割したテキスト画像からのキーワードが、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索して読み出し、表示するための検索クエリーとして使用される
請求項１に記載の方法。
前処理されたテキストを含む映像領域が、関連情報を含むインターネットまたはＲＳＳフィード上でそのテキストに関連する追加情報を検索するために使用される
請求項１に記載の方法。
前処理されたテキストを含む映像領域に関連して検索された追加情報がユーザーインターフェースに表示される
請求項６に記載の方法。
前処理されたテキストを含む映像領域に関連して検索され、表示された追加情報が、拡張可能なマーク付け言語ファイルに保存される
請求項７に記載の方法。
テキストを含む映像領域に関連して処理され、検索され、読み出され、表示された追加情報が、テレビ視聴時のニュースに関連するものである
請求項５に記載の方法。
ニュースが、速報及びティッカーニュースから成る群から選択される
請求項９に記載の方法。
光学文字認識入力を改善するために、テキストを含む映像領域を前処理するシステムであって、
ａ．テキスト画像を位置特定し、位置特定されたテキスト画像を、６タップの有限インパルス応答フィルターを適用して縦横に２回拡大すると共に、補間法を適用してさらに縦横に２回拡大し、次いで、離散コサイン変換を適用し、バターワースローパスフィルターを適用することによって高周波成分を破棄し、最後に、逆離散コサイン変換を適用して高解像度化し、高解像度化後に、テキスト画像の前景部と背景部とを分離する適応閾値法によって２値化し、２値化後に２値化したテキスト画像の少なくとも２つの接触文字を、文字幅の平均文字幅と標準偏差に基づいて、２値化した画像内の各文字の幅を計算し、２値化した画像内の平均文字幅を決定し、２値化した画像内の文字幅の標準偏差を計算し、２値化した画像内の文字長の閾値を確定し、文字長の閾値に基づいて、２値化したテキスト画像の少なくとも２つの接触文字を分割し、光学的文字認識に対する改善された入力として分割したテキスト画像からキーワードを識別可能にする少なくとも１つの画像処理装置と、
ｂ．前処理されたテキスト入力を認識するための少なくとも１つの光学文字認識装置と、
ｃ．前処理されたテキストを含む映像領域を保存するために互いに通信接続される少なくとも１つのデジタル記憶装置及び記憶要素と、を備える
ことを特徴とするテキストを含む映像領域の前処理システム。
分割したテキスト画像からのキーワードが、ビデオストリームに埋め込まれたテキストに関連する追加情報を検索して読み出し、表示するための検索クエリーとして使用される
請求項１１に記載のシステム。
前処理されたテキストを含む映像領域が、関連情報を含むインターネットまたはＲＳＳフィード上でテキストに関連する追加情報を検索するために使用される
請求項１１に記載のシステム。
前処理されたテキストを含む映像領域に関連して検索された追加情報がユーザーインターフェースに表示される
請求項１３に記載のシステム。
前処理されたテキストを含む映像領域に関連して検索され、表示された追加情報が、拡張可能なマーク付け言語ファイル形式でデジタル記憶装置に保存される
請求項１４に記載のシステム。