JP5588987B2 - 画像及び映像ocrのためのテキストの位置決め - Google Patents

画像及び映像ocrのためのテキストの位置決め Download PDF

Info

Publication number
JP5588987B2
JP5588987B2 JP2011526127A JP2011526127A JP5588987B2 JP 5588987 B2 JP5588987 B2 JP 5588987B2 JP 2011526127 A JP2011526127 A JP 2011526127A JP 2011526127 A JP2011526127 A JP 2011526127A JP 5588987 B2 JP5588987 B2 JP 5588987B2
Authority
JP
Japan
Prior art keywords
region
text
stroke
threshold
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011526127A
Other languages
English (en)
Other versions
JP2012502359A (ja
Inventor
ジャン ピエール ギュー
ヤン ユー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2012502359A publication Critical patent/JP2012502359A/ja
Application granted granted Critical
Publication of JP5588987B2 publication Critical patent/JP5588987B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

関連文献への相互参照
本発明は、2008年9月30日出願のYu他に付与された米国特許仮出願第61/190,992号に関連し、かつその優先権の恩典を請求するものであり、この文献は、引用によって本明細書に組み込まれている。本出願は、全てがCandeloreに付与された2007年2月14日出願の米国特許出願第11/706,919号、2007年2月14日出願の第11/706,890号、2007年3月8日出願の第11/715,856号、及び2007年2月14日出願の第11/706,529号に関連し、これらの文献は、引用によって本明細書に組み込まれている。
権利及び商標の告示
本特許文献の開示内容の一部分は、権利保護の対象になる素材を含む。権利所有者は、米国特許商標庁の特許ファイル又は記録に見られる特許文献又は特許開示のファクシミリ複製に対していかなる異存も持たないが、他の場合はいかなる場合であっても全ての著作権を保有する。商標は、そのそれぞれの所有者の所有物である。
TV映像内には、広告商品の名称、関連情報のURL(ユニバーサルリソースロケータ)、話者又は演奏者の名称、及びイベントの日付のような重要なコンテンツ情報を提供することができるテキストが多くの場合に存在する。クローズドキャプションとして人為的に追加されるか又はシーン内に組み込まれたかのいずれかであるテキストは、画像及び映像を指標付けして検索し、映像コンテンツにおける視聴者の関心を分析するか又は「インターネット」からアクセス可能な関連コンテンツを視聴者に提供するのに利用することができる。しかし、通常のテレビジョン又はビデオ画像内に組み込まれたテキストは、テキストの識別及び認識において、テキスト認識が従来の文書内に実施される時には存在しない特殊な問題を呈する。
以下に続く詳細説明を添付図面と併せて参照することにより、作動の編成及び方法を目的及び利点と合わせて例示するある一定の例示的な実施形態を最も良く理解することができる。
米国特許仮出願第61/190,992号 米国特許出願第11/706,919号 米国特許出願第11/706,890号 米国特許出願第11/715,856号 米国特許出願第11/706,529号
Rainer Lienhart著「映像OCR:要覧及び従事者ガイド」、「映像マイニング」において、「Kluwer Academic Publisher」、155〜184ページ、2003年10月 Keechul Jung、Kwang In Kim、及びAnil K.Jain著「画像及び映像におけるテキスト情報抽出:要覧」、パターン認識、第37巻、2004年、977〜997ページ Jian Liang、David Doermann、及びHuiping Li著「カメラベースのテキスト及び文書解析」、要覧、IJDAR、第7巻、第2号〜第3号、2005年 Anil K.Jain及びBin Yu著「画像及び映像フレーム内のテキスト位置決め」、パターン認識、第31巻、第12号、1998年 Shio J.Ohya及びS.Akamatsu著「シーン画像内の文字認識」、パターン分析及び機械知能に関するIEEE会報、第16巻、第2号、1994年、214〜220ページ C.M.Lee、A.Kankanhalli著「複雑な画像内の文字の自動抽出」、国際パターン認識及び人工知能ジャーナル、9(1)、1995年、67〜82ページ M.A.Smith、T.Kanade著「オーディオ及び画像特徴付けに基づく簡易走査検索のための映像スキミング」、カーネギーメロン大学技術報告書CMU−CS−95−186、1995年7月 D.Chen、K.Shearer、及びH.Bourlard著「映像OCRのための非対称フィルタによるテキスト強調」、国際画像解析及び処理会議会報、パレルモ、イタリア、2001年、192〜197ページ H.Li、D.Doermann、O.Kia著「デジタル映像における自動テキスト検出及び追跡」、IEEE画像処理会報、9(1)、2001年、147〜156ページ D.Chen、H.Boulard、J−P.Thiran著「SVMを用いた複雑な背景内でのテキスト識別」、コンピュータ視覚及びパターン認識に関するIEEE会報、第2巻、2001年、621〜626ページ Xiangrong Che、Alan L.Yuille著「自然のシーン内のテキストの検出と読取り」、コンピュータ視覚及びパターン認識に関するIEEE会報、第2巻、2004年、366〜373ページ Edward K.Wong及びMinya Chen著「映像テキスト抽出のための新しいロバストアルゴリズム」、パターン認識、第36号、2003年、1398〜1406ページ K.Subramanian、P.Natarajan、M.Decerbo、及びD.Castanon著「テキストの位置及び抽出のための文字ストローク検出」、IEEE文書解析及び認識会報、第1巻、2007年、23〜26ページ Richard Nock及びFrank Nielsen著「統計的領域融合」、パターン解析及び機械知能に関するIEEE会報、第26巻、第11号、2004年、1452〜1458ページ V.Vapnik著「統計的学習理論」、「John Wiley and Sons」、1998年 Chih−Chung Chang及びChih−Jen Lin制作「LIBSVM:サポートベクトルマシン向けライブラリ」、http://www.csie.ntu.edu.tw/〜cjlin/libsvにおいて入手可能なソフトウエア、2001年 W.Niblack著「デジタル画像処理入門」、「Prentice Hall」、1986年、115〜116ページ N.Otsu著「濃淡レベルヒストグラムからの閾値選択法」、システム、人間、及びサイバネティクスに関するIEEE会報、第9巻、第1号、1979年、62〜66ページ S.D.Yanowitz及びA.M.Bruckstein著「画像セグメント化のための新しい方法」、「CVGIPコンピュータ視覚、グラフィック、及び画像処理」、第46巻、第1号、1989年、82〜95ページ S.M.Lucas、A.Panaretos、L.Sosa、A.Tang、S.Wong、及びR.Young著「ICDAR2003ロバストな読取競合」、「文書の解析及び認識に関する第7回国際会議ICDAR2003」において、2003年 S.M.Lucas著「ICDAR2005テキスト位置決め競合結果」、ICDAR2005、80〜84ページ
本発明のある一定の実施形態によるテキスト位置決め処理の流れ図例である。 本発明のある一定の実施形態による方式による処理の前の画像例を示す図である。 本発明のある一定の実施形態による方式による処理の後の画像例を示す図である。 本発明のある一定の実施形態に従った実施例の群融合に用いられるパラメータの図である。 本発明のある一定の実施形態による方式で図2Bのセグメント化画像を予備処理した後の抽出領域のうちの一部を示す図である。 本発明のある一定の実施形態による方式に用いられるストローク幅パラメータを示す図である。 本発明のある一定の実施形態による方式に用いられるストローク幅パラメータを示す図である。 本発明のある一定の実施形態に従った例における2値化結果を示す図である。 本発明のある一定の実施形態に従った例における2値化結果を示す図である。 本発明のある一定の実施形態に従った例における2値化結果を示す図である。 本発明のある一定の実施形態に従った例における2値化結果を示す図である。 本発明のある一定の実施形態に従った例における2値化結果を示す図である。 本発明のある一定の実施形態に従った例における2値化結果を示す図である。
以下の文献を以下に詳細説明において引用する。
[1]Rainer Lienhart著「映像OCR:要覧及び従事者ガイド」、「映像マイニング」において、「Kluwer Academic Publisher」、155〜184ページ、2003年10月
[2]Keechul Jung、Kwang In Kim、及びAnil K.Jain著「画像及び映像におけるテキスト情報抽出:要覧」、パターン認識、第37巻、2004年、977〜997ページ
[3]Jian Liang、David Doermann、及びHuiping Li著「カメラベースのテキスト及び文書解析」、要覧、IJDAR、第7巻、第2号〜第3号、2005年
[4]Anil K.Jain及びBin Yu著「画像及び映像フレーム内のテキスト位置決め」、パターン認識、第31巻、第12号、1998年
[5]Shio J.Ohya及びS.Akamatsu著「シーン画像内の文字認識」、パターン分析及び機械知能に関するIEEE会報、第16巻、第2号、1994年、214〜220ページ
[6]C.M.Lee、A.Kankanhalli著「複雑な画像内の文字の自動抽出」、国際パターン認識及び人工知能ジャーナル、9(1)、1995年、67〜82ページ
[7]M.A.Smith、T.Kanade著「オーディオ及び画像特徴付けに基づく簡易走査検索のための映像スキミング」、カーネギーメロン大学技術報告書CMU−CS−95−186、1995年7月
[8]D.Chen、K.Shearer、及びH.Bourlard著「映像OCRのための非対称フィルタによるテキスト強調」、国際画像解析及び処理会議会報、パレルモ、イタリア、2001年、192〜197ページ
[9]H.Li、D.Doermann、O.Kia著「デジタル映像における自動テキスト検出及び追跡」、IEEE画像処理会報、9(1)、2001年、147〜156ページ
[10]D.Chen、H.Boulard、J−P.Thiran著「SVMを用いた複雑な背景内でのテキスト識別」、コンピュータ視覚及びパターン認識に関するIEEE会報、第2巻、2001年、621〜626ページ
[11]Xiangrong Che、Alan L.Yuille著「自然のシーン内のテキストの検出と読取り」、コンピュータ視覚及びパターン認識に関するIEEE会報、第2巻、2004年、366〜373ページ
[12]Edward K.Wong及びMinya Chen著「映像テキスト抽出のための新しいロバストアルゴリズム」、パターン認識、第36号、2003年、1398〜1406ページ
[13]K.Subramanian、P.Natarajan、M.Decerbo、及びD.Castanon著「テキストの位置及び抽出のための文字ストローク検出」、IEEE文書解析及び認識会報、第1巻、2007年、23〜26ページ
[14]Richard Nock及びFrank Nielsen著「統計的領域融合」、パターン解析及び機械知能に関するIEEE会報、第26巻、第11号、2004年、1452〜1458ページ
[15]V.Vapnik著「統計的学習理論」、「John Wiley and Sons」、1998年
[16]Chih−Chung Chang及びChih−Jen Lin制作「LIBSVM:サポートベクトルマシン向けライブラリ」、http://www.csie.ntu.edu.tw/〜cjlin/libsvにおいて入手可能なソフトウエア、2001年
[17]W.Niblack著「デジタル画像処理入門」、「Prentice Hall」、1986年、115〜116ページ
[18]N.Otsu著「濃淡レベルヒストグラムからの閾値選択法」、システム、人間、及びサイバネティクスに関するIEEE会報、第9巻、第1号、1979年、62〜66ページ
[19]S.D.Yanowitz及びA.M.Bruckstein著「画像セグメント化のための新しい方法」、「CVGIPコンピュータ視覚、グラフィック、及び画像処理」、第46巻、第1号、1989年、82〜95ページ
[20]S.M.Lucas、A.Panaretos、L.Sosa、A.Tang、S.Wong、及びR.Young著「ICDAR2003ロバストな読取競合」、「文書の解析及び認識に関する第7回国際会議ICDAR2003」において、2003年
[21]S.M.Lucas著「ICDAR2005テキスト位置決め競合結果」、ICDAR2005、80〜84ページ
本発明は、多くの異なる形態の実施形態を受け入れる余地があるが、そのような実施形態の本発明の開示が、原理の例と見なすべきであり、示して説明する特定的な実施形態に本発明を限定するように考えられているものではないという理解の下に、詳細な特定的な実施形態において図面に示し、本明細書に以下に説明する。下記の説明では、類似の参照番号を図面のいくつかの図における同じか、類似か、又は対応する部分を表す上に用いる。
本明細書に用いる用語「a」又は「an」を1つ又は1つよりも多いものとして定める。本明細書に用いる「複数」という用語を2つ又は2つよりも多いこととして定める。本明細書に用いる「別の」という用語を少なくとも第2又はそれ以外のこととして定める。本明細書に用いる「含む」及び/又は「有する」という用語を含むとして定める(すなわち、オープンランゲージ)。本明細書に用いる「結合された」という用語を必ずしも直接ではなく、必ずしも機械的にではないが、接続したこととして定める。本明細書に用いる「プログラム」又は「コンピュータプログラム」という用語、又は類似の用語をコンピュータシステム上での実行に対して設計された命令シーケンスとして定める。「プログラム」又は「コンピュータプログラム」は、1つ又はそれよりも多くのプロセッサを有するコンピュータシステム上での実行に対して設計された実行可能アプリケーション、アプレット、サーブレット、ソースコード、オブジェクトコード、共有ライブラリ/動的ロードライブラリ、及び/又は他の命令シーケンスにおけるサブルーチン、関数、手順、オブジェクトメソッド、オブジェクト実施を含むことができる。本明細書に用いる「プログラム」という用語は、第2のコンテクストに対して用いることができる(上述の定義が第1のコンテクストにおけるものである)。第2のコンテクストでは、この用語は「テレビジョン番組」の意味に用いられる。このコンテクストにおいて、この用語は、コンテンツが映画、スポーツイベント、複数回のシリーズ物の一編、ニュースブロードキャスト等であるか否かに関わらず、単一のテレビジョン番組として解釈され、電子番組ガイド(EPG)内に報じられることになるもののようなオーディオ映像コンテンツのいずれか一貫したシーケンスを意味するのに用いられる。この用語は、電子番組ガイド内に番組として報告することができないコマーシャルスポット及び他の番組様コンテンツを含むものと解釈することができる。
本明細書にわたる「一実施形態」、「ある一定の実施形態」、「実施形態」、又は類似の用語への参照は、その実施形態に関連して説明する特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態内に含まれることを意味する。従って、そのような表現の出現又は本明細書にわたる様々な箇所における出現は、必ずしも全てが同じ実施形態を参照しているわけではない。更に、特定の特徴、構造、又は特性は、制限なしに1つ又はそれよりも多くの実施形態においてあらゆる適切な方式で組み合わせることができる。
本明細書に用いる「又は」という用語は、包含的又はいずれか1つ又はあらゆる組合せと解釈すべきである。従って、「A、B、又はC」は、「A、B、C、AとB、AとC、BとC、及びAとBとCのうちのいずれか」を意味する。この定義の例外は、要素、機能、段階、又は行為の組合せが、何らかの具合で本質的に互いに排他的である場合にのみ発生することになる。本明細書にわたって、ある一定の処理における比較のために様々な閾値を用いる。本明細書に開示し、上述の参考文献素材への参照による閾値は、本明細書で提供する例示的な実施形態に関連しての参考のためのものであり、他の実施に従う他の処理に対する制限であるように考えられているものではない。
TV映像内には、広告商品の名称、関連情報のURL(ユニバーサルリソースロケータ)、話者又は演奏者の名称、及びイベントの日付のような重要なコンテンツ情報を提供することができるテキストが多くの場合に存在する。クローズドキャプションとして人為的に追加されたか、シーン内に組み込まれたかのいずれかであるテキストは、画像及び映像を指標付けして検索し、映像コンテンツにおける視聴者の関心を分析するか又は「インターネット」からアクセス可能な関連コンテンツを視聴者に提供するのに利用することができる。しかし、通常のテレビジョン又は映像画像内に組み込まれたテキストは、テキストの識別及び認識において、テキスト認識が従来の文書内に実施される時には存在しない特殊な問題を呈する。比較的高精細な映像であっても、テキストは比較的低い解像度で示される場合が多くあり、これらのテキストは、印刷されたテキストにおいて一般的な従来の光学文字認識を用いる場合よりも機械によって認識することが困難である。
光学文字認識(OCR)技術は、テキスト文書からテキストを自動的に認識するのに用いることができ、この場合、解像度は十分に高く(例えば、300dpiよりも高い)、前景テキストは、単純な構造の白色の背景上で好ましくは黒色である。しかし、画像又は映像では、解像度は、一般的に大幅に低い(例えば、50dpi又は更に低い)。画像の劣悪な品質は、センサに起因するノイズ、不均等な照明、又は圧縮等からももたらされる。更に、斜視、広角レンズ、非平面、照明等によってもたらされる歪みが存在する。最後に、テキストは、物体が動き回る複雑な背景上に存在する可能性がある。端的には、映像画像又はそこからのフレームのような画像を処理する時には、従来のOCR技術が考慮していない多くの変数が存在する。多くの場合にこれらの問題の全てが、OCR技術を画像及び映像のデータに直接適用することを困難又は更には実効不能にする。
本発明による実施形態によると、画像及び映像からテキストを認識する最初のアクションは、画像及び映像内でテキストの位置を正確に位置決めすることである。これは、非常に複雑な問題であることが分る。位置決めの後には、位置決めされた場合によっては低い解像度のテキストを抽出、強調、及び2値化することができる。最終的に、認識に対して既存のOCR技術を2値化されたテキストに対して適用することができる。
テキストを画像及び映像のデータ内で位置決めする問題は、多くの手法で対処されている。上述の参考文献にはテキストの位置決め及び抽出のアルゴリズムの網羅的な概論がある。下記の詳細説明では、上記[1]、[2]、及び[3]の文献を引用する。多くの場合に、これらの方法は、領域ベースの方法、エッジベースの方法、及びテクスチャベースの方法として分類される。
参考文献[4]、[5]、[6]に説明されている領域ベースの方法では、テキスト内の文字が同じ色を有すると仮定される。領域は、接続構成要素解析アルゴリズム、クラスター化アルゴリズム、又はセグメント化アルゴリズムによって生成される。次に、領域のサイズ、高さ/幅比、又は基線のような経験則を用いて非テキスト領域がフィルタリング除去される。最終的に、残った領域が、経験則的制約又はトレーニングされた分類子のいずれかによってテキスト又は非テキストとして分類される。
参考文献[7]及び[8]に説明されているエッジベースの方法は、テキストが背景に対して強いエッジを示し、従って、テキスト領域がエッジのクラスターであるという考察に基づいており、従って、第1の段階はエッジ検出である。次に、平滑化及び融合によってエッジがクラスター化される。最終的に、これらのクラスターは、経験則的制約又はトレーニングされた分類子のいずれかによってテキスト又は非テキストとして分類される。
テクスチャベースの方法は、テクスチャ特徴を利用してピクセル又は領域がテキストに属するか否かを判断する。全体の画像をピクセル毎又はブロック毎に走査して、局所空間分散、水平分散、2次統計、周波数特徴、局所エネルギ、又はウェーブレット変換の高次モーメントのようなテクスチャ特徴が抽出される。次に、これらの特徴は、分類子に供給され(ニューラルネットワーク[9]、サポートベクトルマシン[10]、又はアダブースティング[11])、ピクセル又はブロックがテキスト又は非テキストとして分類される。最終的に、ピクセル又はブロックが融合されて最終テキスト区域が生成される。
本明細書に説明する技術は、広義には領域ベースのテキスト位置決め法として特徴付けることができる。最初に高速で有効な画像セグメント化アルゴリズムを利用して類似色の領域が抽出される。経験則を適用してテキストではないと見なされる領域がフィルタリング除去される予備処理の後に、各領域の特徴が解析される。テキストにおけるストロークが類似する幅を有する傾向があるという考察に基づいて、ストローク特徴が抽出される。更に、重要なエッジ特徴及びフィルファクタ特徴が減算される。最終的にサポートベクトルマシン(SVM)分類子(分類子は、異なる群を有するオブジェクトを分離する)がトレーニングされ、領域がテキストと非テキストとに分類される。SVMは、テキストと非テキストの間の差を最大にするのに用いられる。
ストローク特徴は、テキストを識別するのを助けるのに用いられる。一般的に、テキストにおけるストロークの幅は、水平と垂直の両方で類似することに注意されたい。参考文献[12]及び[13]においてもストローク特徴が用いられるが、テキスト検出では水平ストローク幅のみが調べられる。本出願では、水平方向と垂直方向の両方におけるストローク幅の特徴が抽出される。更に、分類に対してエッジ及び他の重要な特徴が組み合わされる。
I.システム及び処理の概要
図1は、104で始まるある一定の実施形態による映像OCR処理100の流れ図例である。この図は、図の各ブロックが、プログラム式プロセッサ、状態機械、及び/又は専用ハードウエアを用いて実施することができるシステムの機能ブロックを表すシステム図と捉えることができる。108では、システムは、入力画像又はキーフレームを受け取る。次に、112では、画像は類似色の領域へとセグメント化される。これらの領域に代表色が割り当てられると、得られる画像は、限られた数の色でレンダリングされたものに似て、色領域の境界においてブロック状の外見を有する。予備処理ブロック116では、これらの領域が、サイズ、アスペクト比、フィルファクタのような経験則的制約によってフィルタリングされる。120では、残りの領域の特徴が抽出される。124では、これらの特徴が、領域をテキスト領域と非テキスト領域とに分類するSVM分類子に供給される。128では、これらのテキスト領域が強調され、2値化される。最後に132において、プログラム式プロセッサの形態に実施することができるOCRエンジンにおいてOCR処理が実施される。OCRエンジンは、2値化された領域に対して機能し、認識結果を認識されたテキストの形態で出力し、処理は136で終了する。図1の様々な要素を下記でより詳細に説明する。
II.SVMによるテキスト位置決め
A.分割化
ある一定の実施によると、参考文献[14]に説明されている統計的領域融合アルゴリズムが入力画像に適用されて類似色の領域が得られるが、他のアルゴリズムを用いることもできる。本明細書の目的では、本明細書において一実施例に用いる「類似色」という用語は、2つの領域の平均の赤、緑、青(R、G、B)の値の絶対差が、以下の通りに定式化することができる融合閾値内にあることを意味する(ここでは一方の領域をプライム記号によって表し、上線が平均値を表す)。
Figure 0005588987
ここでTdevは、参考文献[14]に示されているもののような融合閾値である。他の実施では、他の融合閾値及び類似色の他の定義を適切なものとすることができる。分布に対して多少限定的な仮定を用いる他の公知のセグメント化アルゴリズムの殆どとは異なり、このアルゴリズムは、少ない仮定しか伴わない画像生成モデルに基づいて、それによってこのアルゴリズムが全ての種類のシナリオにおいて有効になるので、現時点では好ましい。アルゴリズムは、3つの局面に実施される。第1の局面は、隣接ピクセルの色差を計算する段階である。第2の局面は、ピクセルの色差に従ってピクセルを分類する段階を含む。第3の局面は、領域が生成されるように、閾値よりも小さい色差を有するピクセルを融合する段階を含む。このアルゴリズムは、過融合エラーしか被らず、高い確率で低いセグメント化エラーをもたらす。最終的に、このアルゴリズムは、線形の時間/空間で効率的に近似することができ、それによって高速なセグメント化アルゴリズムが誘導される。上記に引用した米国特許仮出願第61/190,992号の図2は、セグメント化アルゴリズムの出力例を示しており、本出願において、この図を図2A及び図2Bとして再現している。
B.予備処理
セグメント化の後には、類似色の領域が得られる。目標は、これらの領域をテキスト領域と非テキスト領域とに分類することである。分類の効率を改善するために、最初にテキストではない可能性が非常に高い領域が除去される。従って、一実施では、以下の条件が調べられる。
(1)領域高さが何らかの閾値T_低よりも低いか又は領域高さがT_高よりも高い場合には、その領域は廃棄される。
(2)領域面積が、何らかの閾値T_面積よりも小さい場合には、その領域は廃棄される。
(3)領域が、画像境界の4つの辺のうちの1つに接触し、その高さが閾値Tよりも高い場合には、その領域は廃棄される。
(4)次式で定められるフィル_ファクタが、閾値T_フィルよりも小さい場合には、その領域は廃棄される。
Figure 0005588987
上述の閾値は、経験的に選択される。この実施例に用いた値は以下の通りである。
T_低=10
T_高=HEIGHT*0.9(HEIGHTは、画像サイズの高さである)
T_面積=12
T=HEIGHT/2
T_フィル=0.1
他の実施では他の値を適切なものとすることができ、この値は、経験的に更に最適化することができる。
文字は、クラスターで出現する傾向があり、文字のクラスターを分類する方が非常に容易である。同じ単語内の文字は、通常は同じ色を有し、殆どの場合、水平に整列される。以上により、領域のサイズ及び色が類似し、その水平位置が閾値内にある場合には、これらの領域はグループ化される。図3は、本実施例において、領域を融合する又はグループ化する上で以下の通りに用いられるパラメータ、D領域、D上部、及びD下部を示している。
一部の実施例に用いられる融合又はグループ化の規則は、以下の通りである。
規則1.(高さ類似性)
Figure 0005588987
ここで、HEIGHT1及びHEIGHT2は、2つの領域の高さである。
規則2.(色類似性)D(c1,c2)=
Figure 0005588987
ここで、
Figure 0005588987
及び
Figure 0005588987
は、2つの領域の平均色である。
規則3.(領域距離)D領域<T領域
ここで、D領域は2つの領域の水平距離である。
規則4.(水平アラインメント)D上部<T整列又はD下部<T整列
ここで、D上部及びD下部は、上部境界と下部境界の間の垂直距離である。D領域、D上部、及びD下部の定義に対しては図3を参照されたい。閾値は以下の通りに経験的に設定されるが、他の実施では他の設定を適切なものとすることができ、規則及び規則の修正、並びに閾値は、更に以下のように最適化することができる。
高さ_類似=2.5
=80
領域=HEIGHT1+HEIGHT2
Figure 0005588987
図4は、上述の米国特許仮出願の図2においてセグメント化された画像を予備処理した後に抽出された領域のうちの一部を示している(図2)。図4では、ボックスは、領域例の各々を取り囲むボックスの境界を示しており、黒色区域は前景領域であり、白色区域は背景領域である。次の作業は、これらの領域をテキスト領域と非テキスト領域とに分類することである。
C.特徴抽出
次に、残りの領域の特徴が抽出される。用いられる特徴は、ストローク幅特徴、エッジ特徴、及びフィルファクタ特徴であり、これらに対して以下の通りに詳述する。
ストローク幅特徴
図5は、図5A〜図Bから構成され、ストローク幅の概念を示している。本出願の論旨では、ストローク幅をストロークの2つのエッジ間の水平方向のピクセル幅であると考えられる。ストローク幅の分散が閾値内にある近傍の百分率を用いる本方法では、実際の幅は特に重要ではない。
ストローク幅特徴は、テキスト要素内のストローク幅が、垂直方向と水平方向の両方において類似する傾向があるという考察に基づいて、これを図5に示している。図5Aは、文字「F」におけるストローク例の幅が、波括弧140によって定められる垂直近傍内でほぼ一定であることを示している。矢印は、文字Fのこの区域内の幅を示している。図5Bは、水平にストロークが類似幅(すなわち、ほぼ等しい)を有するか又は類似幅を有する群へとクラスター化することができることを示している。この図では、参照番号144、148、152、及び156の各々は、ほぼ共通の幅を示している。
この状況に用いる「近傍」という用語は、ストロークを含む垂直距離範囲であり、テキスト要素が垂直方向に類似するといった場合には、それは幅が垂直近傍内にあることを意味する。水平方向には、ストローク幅は、同じ行内で又は同じy座標によって比較される。
ほぼ一定の垂直ストローク幅を反映する特徴が以下の通りに計算される。最初に計算されるものは、垂直近傍内のストローク幅の標準偏差である。本明細書に用いる垂直近傍は、領域(c,r)∈[ROW領域,HEIGHT領域]内の全てのピクセルに対してx=c、r≦y≦r+Tnである座標(x,y)を有するピクセルとして定める。特徴値s1は、領域全体の中でストローク幅の標準偏差が閾値内にある近傍の百分率である。
同様に、水平ストローク幅の特徴も計算される。行内のストローク幅が計算され、クラスター化され、ここでは「行」を同じy座標を有するピクセルとして定める。メンバ数がクラスター内のメンバ数であるか、又はクラスターがストローク幅の類似性に従って得られることから類似ストローク幅を有するストロークの数である場合に、これらのクラスターは、この例では3未満のメンバ数を有する。少数のメンバしか持たないクラスター、又は言い換えれば少数の類似ストローク幅しか持たないストロークは、高ノイズのもの又は外れ値と見なされ、考察において除外され、従って、考慮されない。このようにして、少数のメンバしか持たないクラスター(ここでは、3個未満のメンバ、又は類似ストローク幅を有するストロークを3個未満しか持たないストローククラスター)として定める外れ値が除外される。クラスター化の別の理由は、行内に様々なるストロークが存在する可能性があることである。例えば、図5Bの上側の行では、148、152、及び156とラベル付けした異なるストローク幅の3つのクラスターが存在する。一定の水平ストローク幅を反映する特徴値S2は、行のうちで水平ストローク幅の標準偏差が閾値内にある百分率、又は群へとクラスター化することができ、各群内の水平ストローク幅の標準偏差が閾値内にある百分率である。
特徴値S3は、テキストのストロークの間にある距離が存在するという考察に基づいて、現在のストローク幅と、現在のストロークから次の隣接ストロークまでの距離との平均比として抽出される。
最後のストローク特徴S4は、最も多くの場合に出現する2つのストローク幅の比である。
以下は、ストローク幅特徴を抽出するための実施例に用いられる処理に関する擬似コードの例である。
ストローク幅特徴s1、s2、s3、s4を抽出する擬似コード
特徴s1:一定の垂直ストローク幅の尺度
s1=VerticalConstStrokeWidth(img)
入力
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1であり、画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
s1:一定の垂直ストローク幅の尺度になる特徴値
1.img内の各ピクセル(x,y)に対して、ストローク幅アレイStrokeWidthMapを計算する。
a.背景内のピクセル(x,y)では、ストローク幅は0である:
StrokeWidthMap(x,y)=0
b.前景内のピクセルでは、ストローク幅は、現在のストロークのエッジ間の距離である。例えば、図Aでは、赤線内のピクセルは全て30−10=20のストローク幅を有することになる:
StrokeWidthMap(10:30,60)=20(注意:10:30は、10から30までの座標を意味する)
2.各ピクセル(x,y)に関するストローク幅マップのアレイStrokeWidthMapが得られる(注意:StrokeWidthMapは、imgと同じ次元を有する)。
3.(x,y∈[r,r+Tn])に対して(言い換えれば、各列のxに対して及びTnがTn=max(2,ceil(HEIGHT/10))で定められる場合のTn行の各近傍に対して)、
a.ストローク幅の中央値を計算する:
medianW=median(StrokeWidthMap(x,r:r+Tn)
b.ストローク幅の標準偏差を計算する。
stdW=std(StrokeWidthMap(x,r:r+Tn))
c.medianW<WIDTH/3(ストローク幅中央値が過度に大きくない)、
stdW<medianW*0.5(標準偏差が小さい)
という条件が満たされる場合に、上述の近傍は、一定の垂直ストローク幅を有し、従って、
constStrokeNum=constStrokeNum+1
4.特徴s1は、一定の垂直ストローク幅を有する近傍の比である:
s1=constStrokeNum/total
ここで、totalは、ストロークを有する近傍の数である。
特徴s2:一定の水平ストローク幅の尺度
s2=HorizontalConstStrokeWidth(img)
入力
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
s2:一定の垂直ストローク幅の尺度になる特徴値
1.img内の各行yに対して、現在の行に関するストローク幅を計算し、アレイStrokeWidthを検索する(StrokeWidthは、imgと同じ行数を有し、各行は、現在の行におけるストロークに対するストローク幅を有する)
2.StrokeWidth内の各行yに対して、
a.StrokeWidthの中央値を計算する:
medianW=median(StrokeWidth(y))
b.StrokeWidthの標準偏差を計算する:
stdW=std(StrokeWidth(y))
c.標準偏差とストローク幅の中央値との比が閾値よりも小さく、すなわち、
stdW/medianW<WidthStdT(閾値WidthStdT=0.5)
である場合には、この行は、水平一定ストローク幅を有する行と見なされ、すなわち、
constStrokeNum=constStrokeNum+1
d.他の場合はStrokeWidth(y)をクラスター化する。これらのクラスターのうちのいずれか1つが、3つよりも多くのメンバ(外れ値ではない)を有し、これらの中央値及び標準偏差が、
stdW/medianW<WidthStdT
を満たす場合には、この行は、水平一定ストローク幅を有する行と見なされ、すなわち、
constStrokeNum=constStrokeNum+1
3.特徴s2は、
s2=constStrokeNum/total
であり、ここでtotalは、画像内で1つよりも多くのストロークを有する行の数である。
特徴s3:現在のストロークから次の隣接ストロークまでの距離とストローク幅との比
s3=RatioStrokeDistWidth(img)
入力
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1であり、画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
s3:現在のストロークから次の隣接ストロークまでの距離とストローク幅との比
1.ストローク幅StrokeWidthを計算する(特徴s2を抽出する段階におけるものと同じものである)。
2.現在のストロークから次の隣接ストロークまでの距離StrokeDistを計算する。
3.比ratioを計算する。
ratio=StrokeDist/StrokeWidth
4.ratioをアレイStrokeDistWidthRatio内に入れる。
5.特徴s3=median(StrokeDistWidthRatio)
特徴s4:最頻出ストローク幅の比
s4=RatioMostStrokeWidth(img)
入力
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
s4:最頻出ストローク幅の比
1.ストローク幅アレイStrokeWidthのヒストグラムH:[H,Xw]=hist(StrokeWidth,10)を計算し、ここで、10は、ヒストグラムを計算するためのビン数であり、Hは、ビンのヒストグラム又は度数であり、Xwは、ビンの位置である。
2.ヒストグラム[sH,sI]=sort(H)を選別し、ここで、sHは、選別されたヒストグラムであり、sIは指標であり、すなわち、sH=H(sI)である。
3.sH(l)/sum(sI)=1である(1つのストローク幅しか存在しない)場合には、s4=0である。
4.他の場合は、s4=Xw(sI(1))/Xw(sI(2))であり、sI(1)及びsI(2)は、最頻出ストローク幅の指標である。
上述の各場合にテキスト幅はピクセルで測定されるが、他の測定値増分を可能にすることができる。
エッジ特徴
この実施例では、同様に、1組のエッジ特徴(e1,e2,e3)が用いられる。テキストには多くのエッジが存在する。従って、テキスト位置決めを助ける上でエッジ特徴を用いることができる。第1のエッジ特徴e1は、一般的に、テキスト文字が滑らかなエッジを有することに基づいている。特徴値e1は、同じ方向を有する5×5の近傍、すなわち、滑らかな方向を有するブロックの比として計算される。エッジ特徴e2は、通常テキスト文字が全方向のエッジを有するという考察に基づいている。特徴値e2は、最も多くの場合に出現するエッジ方向の度数である。通常テキスト文字は全方向のエッジを有するので、この度数が非常に高い場合には、非常に高い確率でそれはテキストではない。これが、テキスト領域と非テキスト領域とを区別する特徴としてe2が選択される理由である。最後のものは、テキストが有するエッジの量を特徴付けることができる領域面積に対する合計エッジ長の比である。
以下は、実施例においてエッジ特徴を抽出するのに用いられる擬似コードである。
エッジ特徴(e1,e2,e3)を抽出する擬似コード
特徴e1:エッジ滑らかさ
e1=EdgeSmoothness(img)
入力
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
e1:エッジの滑らかさの尺度になる特徴
1.Sobelエッジ検出:
Edge=SobelEdge(img)
を用いて8方向(0、π/4、π/2、3π/4、π、5π/4、3π/2、7π/4)のエッジを抽出する。
ここで、Edgeはimgと同じ次元を有し、エッジの位置で、エッジの方向に依存して1から8までの値を有し、非エッジの位置において0という値を有する。
2.Edge(x,y)≠0を満たす(x,y)に対して、
a.近傍を定める:neighborhood=edge([x−w:x+w],[y−w:y+w])
ここで、
Figure 0005588987
b.現在の方向を検索する:curDir=Edge(x,y)
c.現在の方向を有するピクセル数curDirNumを検索する。
d.近傍内でエッジピクセルの数を検索し、すなわち、
neighborEdgeNum=Length(neighborhood≠0)
e.同じ方向を有するエッジピクセルの比を計算する:
R(x,y)=curDirNum/neighborEdgeNum
3.エッジ滑らかさ特徴を計算する。
e1=length(R>T)/length(Edge≠0)
特徴2:エッジ方向の均一性。
e2=EdgeUniformity(img)
入力
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
e2:エッジの均一性の尺度になる特徴
1.段階1で抽出された特徴e1の8つのエッジ方向を4つの方向Edge4へと量子化し、すなわち、Edgeにおける(5π/4,3π/2,7π/4)は、Edge4では(π/4,π/2,3π/4)になる。
2.4つの方向のヒストグラムを計算する:H=hist(Edge4(Edge4≠0))
3.Hの極大値を計算する:maxH=max(H)、従って、maxHは、方向が出現する最大回数である。
4.エッジ均一性特徴を計算する。
e2=maxH/sum(H)
特徴e3:エッジ量
e3=EdgeAmount(img)
入力
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
e2:エッジ量の尺度になる特徴
1.Sobelエッジ検出:
Edge=SobelEdge(img)
を用いて8方向(0、π/4、π/2、3π/4、π、5π/4、3π/2、7π/4)のエッジを抽出する。
ここで、Edgeは、imgと同じ次元を有し、エッジの位置で、エッジの方向に依存して1から8までの値を有し、非エッジの位置において0という値を有する。
2.エッジ長を計算する:EdgeLength=/engtfz(Edge≠0)
3.imgの前景面積を計算する。
4.ForeArea=長さ(img(前景))
5.フィルファクタAreaFillを計算する。
6.AreaFill=ForeArea/(WIDTH*HEIGHT)
7.特徴を計算する、e3=EdgeLength/AreaFill
フィル特徴
この実施例では1組のフィルファクタ特徴(f1、f2)が同様に用いられる。この特徴群は、テキストの前景が境界ボックスを充填することに基づいている。テキストの前景は境界ボックス全体を充填するわけではないか、又は境界ボックスの僅かしか充填しない。また、狭い近傍では、テキストの前景は、近傍全体を充填するわけではないという性質を有する。
第1のフィルファクタ特徴f1は、領域全体のフィル特徴を表している。従って、フィルファクタ特徴f1は、前景面積と領域の境界ボックスの面積との比として計算される。第2のフィルファクタ特徴f2は、局所近傍のフィル特徴を説明する。最初に近傍内の前景面積の比が計算される。特徴値f2は、前景面積比が閾値よりも大きい近傍の百分率である。
以下は、実施例に用いられるフィルファクタ特徴を抽出するための擬似コードである。
フィルファクタ特徴f1、f2を抽出する擬似コード
特徴f1:領域全体のフィル特徴
f1=FillFactorWhole(img)
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
f1:候補画像のフィルファクタの尺度になる特徴
1.imgの前景面積を計算する。
2.ForeArea=長さ(img(前景))
3.imgの全体面積を計算する:WholeArea=WIDTH×HEIGHT
4.特徴を計算する、f1=ForeArea/WholeArea
特徴f2:局所近傍のフィル特徴
f2=FillFactorNeighborhood(img)
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力
f2:候補画像の局所近傍内のフィルファクタの尺度になる特徴
1.x、yがstepSize=HEIGHT/3で増加する(x,y)に対して、
a.現在の近傍を得る:curN=img(x:x+stepSize,y:y+stepSize)
b.現在の近傍内の前景面積を計算する:
AreaN=length(curN(前景))
c.近傍のフィルファクタを計算する:
FillFactorN(j)=AreaN/Area(curN)
ここで、jは、現在の近傍に対する指標である。
2.大きいフィルファクタを有する近傍の数を検索する。
N=length(FillFactorN>T)
3.特徴f2は、大きいフィルファクタを有するブロックの百分率である:
f2=N/length(FillFactorN)
D.SVMベースの分類
SVMは、参考文献[15]に説明されており、統計的学習理論を契機とする技術であり、数々の分類作業に首尾良く適用されている。重要な概念は、最大格差を有する2つのクラスを決定面を用いて分離することである。この概念は、トレーニングエラーではなく、高次元空間内でのモデルの一般化エラーに対する限度を最小にする。SVMでは、学習作業は、正のクラスと負のクラスとにおける相対的なトレーニング例の数に依存しない(この場合の検出作業では、負のクラスは、正のクラスよりも非常に多くのサンプルを有する)。従って、この実施例では、SVMが好ましい分類子として選択される。
この分類問題は、C節で定めた各成分を有するXi=[s1 i,s2 i,s3 i,s4 i,e1 i,e2 i,e3 i,f1 i,f2 i]が、9次元特徴ベクトルであり、yi=±1が、正の(テキスト)クラスと負の(非テキスト)クラスとを示す場合に(i=1,2,...,m)、m個のラベル付けされたトレーニングサンプル:(x1,y1),(x2,y2),...,(xm,ym)を有する2値分類問題である。SVMは、以下の式(3)の制約の下で式(2)の問題を解くことを試みる。
Figure 0005588987
Figure 0005588987
そのデュアルは、式(5)の制約の下での式(4)である。
Figure 0005588987
Figure 0005588987
ここで、eは全てが1のベクトルであり、C>0は上限であり、交差検定によって決められ、Qは1×1の半正定値行列であり、Qij≡yijK(xi,xj)及びK(xi,xj)≡φ(xiTφ(xj)はカーネルであり、w、α、及びbは、分離平面を判断し、最適化処理によって求解すべきであるパラメータである。非線形カーネル関数を選択することにより、特徴ベクトルxiを関数φによってより高次元の空間へとマップすることができる。用いるカーネルは、ラジアル基底関数カーネルである。
Figure 0005588987
ここで、カーネル帯域幅σは、交差検定によって判断した。w、α、及びbが決められると、領域を分類するのに以下の決定関数を用いることができる。
Figure 0005588987
SVMをLIBSVM[16]という名称のソフトウエアパッケージによってテキスト又は非テキストとラベル付けした1組のサンプルを用いてトレーニングした。交差検定を用いて、カーネル帯域幅σ及びCを判断した。トレーニング及び試験結果を次節で報告することにする。
E.強調及び2値化
テキスト領域を識別した後には、OCRソフトウエアがテキストを容易に認識することができるように、これらの領域を強調し、2値化すべきである。殆どのOCRソフトウエアは、十分に高い解像度でないとテキストを認識することができない。従って、テキストの高さが約75ピクセルより低い場合は(現時点で)、拡大段階が必要である可能性がある。拡大の前に、ヒストグラム均等化、鮮明化のようないくつかの強調を適用することができる。
次に、強調された画像に2値化が適用される。Niblackの適応的2値化アルゴリズム[17]、Otsuの方法[18]、及びYanowitz−Bruchsteinの方法[19]のような異なる種類の2値化アルゴリズムが存在する。これらの方法の中ではNiblackの方法及びOtsuの方法が幅広く用いられているが、他の2値化法を本発明による実施に適応させることができる。Niblackの方法では、サイズrの局所窓内の強度統計からの各ピクセルに対して閾値Tが適応的に決められる。
Figure 0005588987
ここで、μ及びσは、窓内のピクセル強度の平均及び標準偏差である。スカラーパラメータkは重みであり、−0.2と設定される。窓サイズrは、固定値とするか又は適応的に選択することができる。[11]では、窓サイズrをTσが固定閾値の時に、次式として選択することが提案されている。
Figure 0005588987
σの値は、Tσよりも小さい標準偏差を有する窓が滑らかな区域であるように選択される。この場合、Tσは、検出されたテキスト領域の背景面積の標準偏差として設定される。Otsuの方法[18]では、2値化閾値は、基準を差別化し、すなわち、クラス間分布を最大化し、クラス内分布を最小にすることによって見出される。Otsuの方法は、テキスト領域全体、固定サイズの窓、又は(9)にあるように適応的なものに適用することができる。画像内では背景が複雑であることに起因して、2値化が画像全体に適用された場合には、背景内の非テキスト物体もまた最終的な2値化画像内に出現する可能性がある。これを回避するために、検出されたテキスト領域内の連結成分にも2値化が適用される。
図6A〜図6Fから構成される図6は、個々の成分、固定窓、適応的窓、及び境界ボックス全体に対してOtsuの方法とNiblackの方法とが適用された時の2値化の結果を表示している。検出されたテキストは、図2の下部に例示している例からのものである。図6Aは、検出領域内の各連結成分にわたるOtsuの2値化を示している。図6Bは、適応的窓内のNiblackの2値化を示している。図6Cは、適応的窓内のOtsuの2値化を示している。図6Dは、境界ボックス全体におけるOtsuの2値化を示している。図6Eは、固定窓内のNiblackの2値化を示している。図6Fは、固定窓内のOtsuの2値化を示している。
図6から、異なる2値化法の性能が異なることが分り、図6は、この例では、境界ボックス全体に適用されたOtsuの方法が最良であることを示している。これらの方法を異なる画像において試し、いかなる単一の方法も、全ての画像において最良の結果を出すことができないことが見出された。従って、実際問題における1つの可能な解決法は、異なる2値化法の結果をOCRソフトウエアに供給し、次に、その認識結果を組み合わせることである。
III.実験及び結果
本発明のアルゴリズムを2組のデータに対して試験した。一方のものは、ICDAR2003のテキスト位置決め競合のデータセット[20]である。ICDAR2003のデータセットには、トレーニングセット内に248個の画像があり、試験セット内に251個の画像がある。各セット内には、約1000個のテキストセグメントが存在する。このデータセット内の画像の殆どは、手持ち式デバイスを用いて屋外で撮影されたものである。他方のデータセットは、ニュース、商業広告、スポーツゲーム等からの画像を含むTV番組から収集した。このデータセット内には、約5000テキストセグメントを有する489個の画像がある。
最初にICDAR2003のデータセットに対してアルゴリズムを適用した。最初に画像をセグメント化し、予備処理した。トレーニングデータセットでは、セグメント化及び予備処理の後に、841個のテキスト領域セグメントと3373個の非テキスト領域セグメントが存在した。テキストセグメントの数は真値よりも少ないことが分った。これは、一部のテキストセグメントが互いに融合される予備処理に部分的に起因して、一部のテキストセグメントが正しくセグメント化されないセグメント化エラーに部分的に起因する。処理したデータセットを用いてSVMをトレーニングした。交差検定を用いてSVMのパラメータを選択した。(6)における最適帯域幅σは0.5であり、(2)におけるパラメータCは32である。トレーニングしたSVMモデルをテキストデータセットに対して適用した。テキストサンプルを試験する段階から90.02%の正しい検出率が得られ、誤検出は、6.45%であった。他のテキスト位置決めアルゴリズムと比較するために、テキスト位置決め性能を測定するための適合率及び再現率の尺度[21]を用いた。表1は、本発明のアルゴリズムの性能と、ICDAR2003及びICDAR2005における勝者の性能とを要約している。本発明のアルゴリズムは第3位である。本発明のアルゴリズムにおけるパラメータを緊密に調整することにより、性能を更に改善することができると考えられる。表1では、fは、
Figure 0005588987
として定められ、この場合pは適合率であり、rは再現率である。適合率及び再現率の詳細説明に対しては[20]及び[21]を参照されたい。
(表1)
Figure 0005588987
次に、本発明のアルゴリズムをTVデータセットに対して適用した。このデータセットを一方がトレーニングのためのもの(245個の画像を有する)、他方が試験のためのもの(244個の画像を有する)である2つのセットに分割した。トレーニングセットでは、セグメント化及び予備処理の後に、1100個のテキスト領域セグメントと7200個の非テキスト領域セグメントが存在した。このトレーニングセットを用いてSVMをトレーニングした。交差検定を用いてSVMのパラメータを選択した。(6)における最適帯域幅σは1であり、(2)におけるパラメータCは16である。トレーニングしたSVMモデルを約850個のテキスト領域セグメントと6500個の非テキスト領域セグメントが存在するテキストデータセットに対して適用した。検出率は88.29%のであり、誤検出は9.34%であった。上述の米国特許仮出願の図7は、TVデータセット内の画像に関する検出結果例を示している。
検出したテキスト領域を上述のように強調し、2値化した。次に、2値化した画像を認識に対してOCRソフトウエアに供給した。例えば、図6にある2値化画像を認識に対してScansoftのOmnipage(登録商標)Pro12に供給した。認識結果を下記の表2に記載した。表2は、OCRソフトウエアが殆どのテキストを認識することができることを示している。異なる2値化手法からの認識結果を組合せて、結果を辞書内で参照することにより、正しい認識結果を通常的に得ることができる。
(表2)
Figure 0005588987
上述のように、領域ベースの手法を用いて画像又は映像内のテキストが位置決めされる。セグメント化を用いて異なる色の領域が得られる。次に、各領域の特徴が抽出される。この場合、抽出される特徴は、ストローク特徴、エッジ特徴、及びフィルファクタ特徴である。これらの特徴は、テキストを検出するのに非常に有効である。抽出された特徴ベクトルを用いて、領域をテキスト領域又は非テキスト領域として分類するSVMモデルがトレーニングされる。このアルゴリズムは、一般的に、入手可能なデータセットと他のデータセットの両方に対して非常に良好に機能することが示された。
以上により、ある一定の実施例によると、映像画像内でのテキスト検出の方法は、画像処理プロセッサにおいて、潜在的にテキストを含む映像フレームを受け取る段階と、画像を類似色を有する領域へとセグメント化する段階と、類似色を有する領域から高可能性の非テキスト領域を識別し、高可能性の非テキスト領域を廃棄する段階と、残りの領域をこれらの領域のサイズ及び色の類似性、並びに水平位置のアラインメントに基づいて融合する段階と、融合された区域上のストローク特徴、エッジ特徴、及びフィルファクタ特徴を抽出する特徴抽出処理を実施する段階と、どの領域がテキストであり、どの領域が非テキストであるかを決めるために、各領域の抽出された特徴ベクトルをトレーニングされた2値分類子に通す段階とを含む。
ある一定の実施では、本方法は、2値化されて分類されたテキスト領域を光学文字読取器に通す段階を更に含む。ある一定の実施では、画像を類似色の領域へとセグメント化する段階は、2つの領域の平均の赤、緑、青(R、G、B)の値の絶対差が、各々融合閾値よりも低いように判断することによって実施される。ある一定の実施では、セグメント化段階は、隣接ピクセルの色差を計算する段階と、ピクセルの色差に従ってピクセルを分類する段階と、領域が生成されるように、閾値よりも小さい色差を有するピクセルを融合する段階を含む。ある一定の実施では、2値分類子は、サポートベクトルマシン(SVM)ベースの分類子を含む。ある一定の実施では、ストローク幅は、ストローク幅値が閾値内にある場合に類似すると見なされる。ある一定の実施では、ストローク幅特徴は、画像内で、ストローク幅の標準偏差が閾値内にある近傍の百分率を表す特徴値を含み、ストローク幅値は、ストローク幅値が閾値内にある場合に類似すると見なされる。ある一定の実施では、ストローク幅特徴は、水平ストローク幅の標準偏差が閾値内にある行又は群へとクラスター化することができて各群内の水平ストローク幅の標準偏差が閾値内にある行の百分率、又は類似ストローク幅を有するストロークを有する行の百分率を含む。ある一定の実施では、ストローク幅特徴は、現在のストローク幅と、現在のストロークから隣接ストロークまでの距離との平均比を含む。ある一定の実施では、ストローク幅特徴は、最も多くの場合に出現する2つのストローク幅の比を含む。ある一定の実施では、エッジ特徴は、候補画像内のエッジの滑らかさ、エッジの均一性、及びエッジの量の測定値であり、エッジの滑らかさは、同じ方向を有する近傍の百分率によって表され、エッジの均一性は、最も多くの場合に出現するエッジ方向の度数として計算され、エッジ数は、領域の面積に対する合計のエッジの長さの比によって測定される。ある一定の実施では、フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出される。
ある一定の実施では、予備処理工程は、以下を判断するように作動する:
(1)領域_高さが、何らかの閾値T_低よりも低いか、又は領域_高さが、何らかの閾値T_高よりも高い場合、又は
(2)領域_面積が、何らかの閾値T_面積よりも小さい場合、又は
(3)領域が、画像境界の4つの辺のうちの1つに接触し、その高さが閾値Tよりも高い場合、又は
(4)
Figure 0005588987
として定められるフィル_ファクタが閾値よりも低い場合に、領域は、高可能性の非テキスト領域であると見なされる。ある一定の実施では、組み合わされる複数の出力を生成するために、2値化は複数の2値化法を用いて実施され、各2値化された出力が、光学文字読取器によって処理される。
ある一定の実施に従う別のテキスト検出処理は、HEIGHT1及びHEIGHT2が、2つの領域の高さである場合に、高さ類似性が、
Figure 0005588987
として定められ、
Figure 0005588987
及び
Figure 0005588987
が、2つの領域の平均色である時に、色類似性が、D(c1,c2)=
Figure 0005588987
として定められ、D領域が、2つの領域の水平距離である時に、領域距離が、D領域<T領域として定められ、D上部及びD下部が、上部境界と下部境界の間の垂直距離である時に、水平アラインメントが、D上部<T整列又はD下部<T整列として定められる場合に統計的領域融合を用いたセグメント化によって画像を予備処理して明確にテキストではない領域を除去する段階と、上記に定められた高さ類似性、色類似性、領域距離、及び水平アラインメントという基準に基づいて領域をグループ化する段階と、各特徴が、領域のストローク特徴、エッジ特徴、及びフィルファクタ特徴によって表される場合に、特徴抽出処理を実施して、各残りの領域を説明する段階と、下式を用いて領域がテキストであるか否かを出力するサポートベクトルマシン(SVM)分類子エンジンを用いて特徴ベクトルを分類し、1がテキストの存在を示し、−1がテキストの不在を示す分類出力を得る段階とを伴っている。
Figure 0005588987
ある一定の実施では、ストローク特徴は、垂直近傍及び類似ストローク幅を有する行の百分率を含む。ある一定の実施では、フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出される。ある一定の実施では、予備処理は、以下を判断するように作動する:
(1)領域_高さが、何らかの閾値T_低よりも低いか、又は領域_高さが、何らかの閾値T_高よりも高い場合、又は
(2)領域_面積が、何らかの閾値T_面積よりも小さい場合、又は
(3)領域が、画像境界の4つの辺のうちの1つに接触し、その高さが閾値Tよりも高い場合、又は
(4)
Figure 0005588987
で定められるフィル_ファクタが閾値よりも低い場合に、領域は、高可能性の非テキスト領域であると見なされる。ある一定の実施では、組み合わされる複数の出力を生成するために、2値化は、複数の2値化法を用いて実施され、各2値化された出力が、光学文字読取器によって処理される。
当業者は、上述の教示を考察した上で、上述の例示的な実施形態のある一定のものが、図1に示しているように構成することができる様々なソフトウエアモジュールを実行する1つ又はそれよりも多くのプログラム式プロセッサの使用に基づくことを認識するであろう。しかし、特定目的ハードウエア及び/又は専用プロセッサ、又は状態機械のようなハードウエア構成要素均等物を用いて他の実施形態を実施することができるので、本発明は、そのような例示的な実施形態に限定されない。同様に、別の均等な実施形態を構成するのに、汎用コンピュータ、マイクロプロセッサベースのコンピュータ、マイクロコントローラ、光学コンピュータ、アナログコンピュータ、専用プロセッサ、特定用途向け回路、及び/又は専用結線論理回路を用いることができる。
ある一定の例示的な実施形態を説明したが、当業者には、以上の説明を踏まえて多くの代替、修正、置換、及び変形が明らかになることは明らかである。
144、148、152、156 ほぼ共通の幅のストローク

Claims (17)

  1. 映像画像におけるテキスト検出の方法であって、
    画像処理プロセッサにおいて、潜在的にテキストを含む映像フレームを受け取る段階と、
    前記画像を類似色を有する領域へとセグメント化する段階と、
    を含み、
    前記類似色の色類似性が、
    Figure 0005588987
    及び
    Figure 0005588987
    が、2つの領域の平均色である時に、D(c 1 ,c 2 )=
    Figure 0005588987
    として定められ、T color が融合閾値であり、
    方法は、さらに、
    前記類似色を有する領域から高可能性の非テキスト領域を識別し、該高可能性の非テキスト領域を廃棄する段階と、
    前記類似色を有し、かつ、前記融合閾値T color ある水平位置を有する領域を融合する段階と、
    ストローク特徴、エッジ特徴、及びフィルファクタ特徴を抽出する特徴抽出処理を実施することにより、特徴を用いて前記領域を説明する段階と、
    OCRソフトウエアによる処理のために2値化される最終テキスト領域を得るよう、残りの領域をトレーニングされた2値分類子に通す段階と、
    を含むことを特徴とする方法。
  2. 前記2値化された最終テキスト領域を光学文字読取器に通す段階を更に含むことを特徴とする請求項1に記載の方法。
  3. 前記セグメント化する段階は、
    隣接ピクセルの色差を計算する段階と、該ピクセルをそれらの色差に従って選別する段階と、領域が生成されるように閾値よりも小さい色差を有するピクセルを融合する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記2値分類子は、サポートベクトルマシン(SVM)ベースの分類子を含むことを特徴とする請求項1に記載の方法。
  5. ストローク幅の値は、該ストローク幅が閾値内にある場合に類似すると見なされることを特徴とする請求項1に記載の方法。
  6. 前記ストローク特徴は、ストローク幅の標準偏差が閾値内にある前記画像における近傍の百分率又は類似ストローク幅を垂直に有する近傍の百分率を表す特徴値を含むことを特徴とする請求項1に記載の方法。
  7. 前記ストローク特徴は、水平ストローク幅の標準偏差が閾値内にある行又は群へとクラスター化することができ、かつ各群内の水平ストローク幅の標準偏差が閾値内にある行の百分率、又は類似ストローク幅又は類似ストローク幅のクラスターを有する行の百分率を表す特徴値を含むことを特徴とする請求項1に記載の方法。
  8. 前記ストローク特徴は、現在のストローク幅と該現在のストロークから隣接ストロークまでの距離との平均比を含むことを特徴とする請求項1に記載の方法。
  9. 前記ストローク特徴は、最も多くの場合に出現する2つのストローク幅の比を含むことを特徴とする請求項1に記載の方法。
  10. エッジ特徴は、候補領域内のエッジの滑らかさ、エッジの均一性、及びエッジの量の測定値であり、
    エッジの滑らかさは、同じ方向を有する近傍の百分率によって表され、エッジの均一性は、最も多くの場合に出現するエッジ方向の度数として計算され、前記エッジの量は、前記領域の面積に対する合計エッジの長さの比によって測定される、
    ことを特徴とする請求項1に記載の方法。
  11. フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出されることを特徴とする請求項1に記載の方法。
  12. 非テキストであることの高可能性の領域は、
    (1)領域_高さが何らかの閾値T_低よりも低いか、又は該領域_高さが、何らかの閾値T_高よりも高い場合、又は
    (2)領域_面積が、何らかの閾値T_面積よりも小さい場合、又は
    (3)前記領域が、画像境界の4つの辺のうちの1つに接触し、かつその高さが閾値Tよりも高い場合、又は
    (4)
    Figure 0005588987
    として定められるフィル_ファクタが閾値よりも低い場合に、領域が、高可能性の非テキスト領域であると見なされる、
    ことによって決められる、
    ことを特徴とする請求項1に記載の方法。
  13. 前記2値化は、複数の2値化法を用いて実施され、各2値化された出力は、組み合わされる複数の出力を生成するために光学文字読取器によって処理されることを特徴とする請求項1に記載の方法。
  14. HEIGHT1及びHEIGHT2が、2つの領域の高さである場合に、高さ類似性が、
    Figure 0005588987
    として定められ、色類似性が、
    Figure 0005588987
    及び
    Figure 0005588987
    が、2つの領域の平均色である時に、D(c1,c2)=
    Figure 0005588987
    として定められ、D領域が、2つの領域の水平距離である時に、かつ領域距離が、D領域<T領域として定められ、D上部及びD下部が、上部境界と下部境界の間の垂直距離である時に、水平アラインメントが、D上部<T整列又はD下部<T整列として定められる場合に、統計的領域融合を用いたセグメント化によって画像を予備処理し、明確にテキストではない領域を除去し、かつ上記に定めた高さ類似性、色類似性、領域距離、及び水平アラインメントの基準に基づいて領域をグループ化する段階と、
    各特徴が、前記領域のストローク特徴、エッジ特徴、及びフィルファクタ特徴によって表される場合に、特徴抽出処理を実施して各残りの領域を説明する段階と、
    下式:
    Figure 0005588987
    を用いて前記領域がテキストであるか否かを出力するサポートベクトルマシン(SVM)分類子エンジンの使用によって特徴ベクトルを分類する段階と、
    を含み、
    ここで、(xi,yi)は、前記特徴ベクトル及びトレーニングサンプルの真値ラベルであり、xは、分類される前記領域の該特徴ベクトルであり、αi及びbは、yTα=0(0≦αi≦C,i=1,...,l)の制約下で、
    Figure 0005588987
    として定められる最適化問題を解くことによって得られるパラメータであり、Kは、
    Figure 0005588987
    として定められ、1がテキストの存在を示し、かつ−1がテキストの不在を示す分類出力を取得する、
    ことを特徴とするテキスト検出方法。
  15. フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出されることを特徴とする請求項14に記載の方法。
  16. 前記予備処理は、以下の条件を満たす領域を除去するように作動し、すなわち、
    (1)領域_高さが、何らかの閾値T_低よりも低いか、又は該領域_高さが、何らかの閾値T_高よりも高い場合、又は
    (2)領域_面積が、何らかの閾値T_面積よりも小さい場合、又は
    (3)前記領域が、画像境界の4つの辺のうちの1つに接触し、かつその高さが閾値Tよりも高い場合、又は
    (4)
    Figure 0005588987
    として定められるフィル_ファクタが閾値よりも低い場合に、領域が、高可能性の非テキスト領域であると見なされ、かつ更に処理されることから除外することができる、
    ことを特徴とする請求項14に記載の方法。
  17. 前記2値化は、複数の2値化法を用いて実施され、各2値化された出力は、組み合わされる複数の出力を生成するために光学文字読取器によって処理されることを特徴とする請求項14に記載の方法。
JP2011526127A 2008-09-03 2009-08-31 画像及び映像ocrのためのテキストの位置決め Expired - Fee Related JP5588987B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US19099208P 2008-09-03 2008-09-03
US61/190,992 2008-09-03
US12/380,394 2009-02-26
US12/380,394 US8320674B2 (en) 2008-09-03 2009-02-26 Text localization for image and video OCR
PCT/US2009/055496 WO2010027933A1 (en) 2008-09-03 2009-08-31 Text localization for image and video ocr

Publications (2)

Publication Number Publication Date
JP2012502359A JP2012502359A (ja) 2012-01-26
JP5588987B2 true JP5588987B2 (ja) 2014-09-10

Family

ID=41725535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011526127A Expired - Fee Related JP5588987B2 (ja) 2008-09-03 2009-08-31 画像及び映像ocrのためのテキストの位置決め

Country Status (8)

Country Link
US (1) US8320674B2 (ja)
EP (1) EP2321767A1 (ja)
JP (1) JP5588987B2 (ja)
KR (1) KR101452562B1 (ja)
CN (1) CN102144236B (ja)
CA (1) CA2735824A1 (ja)
MX (1) MX2011002293A (ja)
WO (1) WO2010027933A1 (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306327B2 (en) * 2008-12-30 2012-11-06 International Business Machines Corporation Adaptive partial character recognition
JP4998496B2 (ja) * 2009-03-16 2012-08-15 富士ゼロックス株式会社 画像処理装置、情報処理装置および画像読取装置
US20110082735A1 (en) * 2009-10-06 2011-04-07 Qualcomm Incorporated Systems and methods for merchandising transactions via image matching in a content delivery system
JP5840130B2 (ja) * 2009-12-31 2016-01-06 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited テキストを含む映像領域の前処理方法及びシステム
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8509534B2 (en) * 2010-03-10 2013-08-13 Microsoft Corporation Document page segmentation in optical character recognition
US8660371B2 (en) * 2010-05-06 2014-02-25 Abbyy Development Llc Accuracy of recognition by means of a combination of classifiers
US9076068B2 (en) * 2010-10-04 2015-07-07 Datacolor Holding Ag Method and apparatus for evaluating color in an image
KR101506446B1 (ko) * 2010-12-15 2015-04-08 에스케이 텔레콤주식회사 움직임정보 병합을 이용한 부호움직임정보생성/움직임정보복원 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치
CN102622724A (zh) * 2011-01-27 2012-08-01 鸿富锦精密工业(深圳)有限公司 外观专利图像切割方法及系统
US20140163969A1 (en) * 2011-07-20 2014-06-12 Tata Consultancy Services Limited Method and system for differentiating textual information embedded in streaming news video
JP5853470B2 (ja) 2011-07-29 2016-02-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5796392B2 (ja) 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム
JP5842441B2 (ja) 2011-07-29 2016-01-13 ブラザー工業株式会社 画像処理装置およびプログラム
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
FI20115821A0 (fi) * 2011-08-24 2011-08-24 Syslore Oy Laite ja menetelmä kuljetusobjektissa olevien kiinnostusalueiden havaitsemiseen
US8494284B2 (en) 2011-11-21 2013-07-23 Nokia Corporation Methods and apparatuses for facilitating detection of text within an image
US9349066B2 (en) 2012-01-06 2016-05-24 Qualcomm Incorporated Object tracking and processing
EP2803013A1 (en) * 2012-01-09 2014-11-19 Qualcomm Incorporated Ocr cache update
RU2609069C2 (ru) * 2012-01-31 2017-01-30 Хьюлетт-Паккард Дивелопмент Компани, Л.П. Обнаружение текста в изображениях графических пользовательских интерфейсов
US20130205213A1 (en) * 2012-02-06 2013-08-08 edX Inc. Caption-based navigation for a video player
US8897565B1 (en) 2012-06-29 2014-11-25 Google Inc. Extracting documents from a natural scene image
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
US20140193029A1 (en) * 2013-01-08 2014-07-10 Natalia Vassilieva Text Detection in Images of Graphical User Interfaces
CN103049750B (zh) * 2013-01-11 2016-06-15 广州广电运通金融电子股份有限公司 字符识别方法
US8712566B1 (en) * 2013-03-14 2014-04-29 Zazzle Inc. Segmentation of a product markup image based on color and color differences
KR101449257B1 (ko) * 2013-03-26 2014-10-08 현대자동차주식회사 각인 문자 인식 장치 및 그 방법과 이를 이용한 문자의 각인 깊이 검출 시스템
US9148675B2 (en) * 2013-06-05 2015-09-29 Tveyes Inc. System for social media tag extraction
US8831329B1 (en) 2013-06-28 2014-09-09 Google Inc. Extracting card data with card models
US9171224B2 (en) * 2013-07-04 2015-10-27 Qualcomm Incorporated Method of improving contrast for text extraction and recognition applications
US9292763B2 (en) * 2013-07-25 2016-03-22 Analog Devices Global System, method, and medium for image object and contour feature extraction
US9076056B2 (en) * 2013-08-20 2015-07-07 Adobe Systems Incorporated Text detection in natural images
US9762950B1 (en) * 2013-09-17 2017-09-12 Amazon Technologies, Inc. Automatic generation of network pages from extracted media content
KR20150037061A (ko) 2013-09-30 2015-04-08 삼성전자주식회사 디스플레이장치 및 그 제어방법
US10297287B2 (en) 2013-10-21 2019-05-21 Thuuz, Inc. Dynamic media recording
CN103595861A (zh) * 2013-10-23 2014-02-19 南京邮电大学 一种终端识别电话号码自动拨号或发送短信的方法
US9560449B2 (en) 2014-01-17 2017-01-31 Sony Corporation Distributed wireless speaker system
US9288597B2 (en) 2014-01-20 2016-03-15 Sony Corporation Distributed wireless speaker system with automatic configuration determination when new speakers are added
US9426551B2 (en) 2014-01-24 2016-08-23 Sony Corporation Distributed wireless speaker system with light show
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
US9369801B2 (en) 2014-01-24 2016-06-14 Sony Corporation Wireless speaker system with noise cancelation
US9232335B2 (en) 2014-03-06 2016-01-05 Sony Corporation Networked speaker system with follow me
US9483997B2 (en) 2014-03-10 2016-11-01 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using infrared signaling
US9496922B2 (en) 2014-04-21 2016-11-15 Sony Corporation Presentation of content on companion display device based on content presented on primary display device
US9583149B2 (en) 2014-04-23 2017-02-28 Daniel Stieglitz Automated video logging methods and systems
US9696414B2 (en) 2014-05-15 2017-07-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using sonic signaling
US10070291B2 (en) 2014-05-19 2018-09-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using low energy bluetooth
US9036083B1 (en) * 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
CN104036292A (zh) * 2014-06-12 2014-09-10 西安华海盈泰医疗信息技术有限公司 一种医学影像数字胶片中文字区域提取方法及提取系统
US9904956B2 (en) 2014-07-15 2018-02-27 Google Llc Identifying payment card categories based on optical character recognition of images of the payment cards
US9235757B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Fast text detection
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US9830508B1 (en) 2015-01-30 2017-11-28 Quest Consultants LLC Systems and methods of extracting text from a digital image
CN104657468B (zh) * 2015-02-12 2018-07-31 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN104751142B (zh) * 2015-04-01 2018-04-27 电子科技大学 一种基于笔划特征的自然场景文本检测方法
US9864734B2 (en) * 2015-08-12 2018-01-09 International Business Machines Corporation Clickable links within live collaborative web meetings
CN105095899B (zh) * 2015-08-23 2018-10-09 华南理工大学 一种图片中相关文本的自动框选方法
US9552527B1 (en) * 2015-08-27 2017-01-24 Lead Technologies, Inc. Apparatus, method, and computer-readable storage medium for determining a rotation angle of text
HK1210371A2 (en) 2015-11-20 2016-04-15 衍利行資產有限公司 A method and system for analyzing a piece of text
US9693168B1 (en) 2016-02-08 2017-06-27 Sony Corporation Ultrasonic speaker assembly for audio spatial effect
US9826332B2 (en) 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9501696B1 (en) 2016-02-09 2016-11-22 William Cabán System and method for metadata extraction, mapping and execution
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US9693169B1 (en) 2016-03-16 2017-06-27 Sony Corporation Ultrasonic speaker assembly with ultrasonic room mapping
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
US10417516B2 (en) 2017-08-24 2019-09-17 Vastec, Inc. System and method for preprocessing images to improve OCR efficacy
US10572760B1 (en) * 2017-11-13 2020-02-25 Amazon Technologies, Inc. Image text localization
US11138438B2 (en) 2018-05-18 2021-10-05 Stats Llc Video processing for embedded information card localization and content extraction
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
CN109271999B (zh) * 2018-09-06 2020-12-22 北京京东尚科信息技术有限公司 图像的处理方法、装置和计算机可读存储介质
US10623859B1 (en) 2018-10-23 2020-04-14 Sony Corporation Networked speaker system with combined power over Ethernet and audio delivery
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法
GB2596452A (en) * 2019-02-17 2021-12-29 Vizetto Inc Systems and methods for generating documents from video content
US11176410B2 (en) * 2019-10-27 2021-11-16 John Snow Labs Inc. Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
US11521400B2 (en) 2019-12-06 2022-12-06 Synamedia Limited Systems and methods for detecting logos in a video stream
CN111062365B (zh) * 2019-12-30 2023-05-26 上海肇观电子科技有限公司 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
CA3168801A1 (en) * 2020-01-24 2021-07-29 Oswego Innovations Two Inc. Portable tire scanners and related methods and systems
CN111798542B (zh) * 2020-09-10 2020-12-22 北京易真学思教育科技有限公司 模型训练方法、数据处理方法及装置、设备、存储介质
US11544828B2 (en) 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
US11494944B2 (en) 2020-11-18 2022-11-08 Disney Enterprises, Inc. Automatic low contrast detection
JP2022092119A (ja) * 2020-12-10 2022-06-22 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
CN112949755B (zh) * 2021-03-29 2022-09-13 中国科学院合肥物质科学研究院 一种基于图像结构信息的ocr数据合成方法
CN113362319A (zh) * 2021-06-30 2021-09-07 深圳市创想三维科技股份有限公司 基于图像处理的激光打印方法和装置、激光打印机、计算机可读存储介质
US12080089B2 (en) 2021-12-08 2024-09-03 International Business Machines Corporation Enhancing machine translation of handwritten documents
US12008829B2 (en) 2022-02-16 2024-06-11 Vastec, Inc. System and method for improved OCR efficacy through image segmentation
US20240046669A1 (en) * 2022-08-08 2024-02-08 Capital One Services, Llc Systems and methods for extracting in-video moving text in live video streams

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361124B2 (ja) 1991-07-30 2003-01-07 ゼロックス・コーポレーション テキストを含む2次元画像上での画像処理方法と画像処理装置
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
DE69330513D1 (de) 1992-03-20 2001-09-06 Commw Scient Ind Res Org Gegenstands-überwachungsystem
US5262860A (en) 1992-04-23 1993-11-16 International Business Machines Corporation Method and system communication establishment utilizing captured and processed visually perceptible data within a broadcast video signal
EP0720114B1 (en) 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
JP2007058882A (ja) * 1996-09-27 2007-03-08 Fujitsu Ltd パターン認識装置
US6175844B1 (en) * 1997-05-29 2001-01-16 Adobe Systems Incorporated Ordering groups of text in an image
US6587586B1 (en) 1997-06-12 2003-07-01 Siemens Corporate Research, Inc. Extracting textual information from a video sequence
US6658662B1 (en) 1997-06-30 2003-12-02 Sun Microsystems, Inc. Retrieving information from a broadcast signal
US6249283B1 (en) 1997-07-15 2001-06-19 International Business Machines Corporation Using OCR to enter graphics as text into a clipboard
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6100941A (en) 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
US6204842B1 (en) 1998-10-06 2001-03-20 Sony Corporation System and method for a user interface to input URL addresses from captured video frames
US6614930B1 (en) 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
GB2352915A (en) 1999-08-06 2001-02-07 Television Monitoring Services A method of retrieving text data from a broadcast image
US6469749B1 (en) 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
US8528019B1 (en) 1999-11-18 2013-09-03 Koninklijke Philips N.V. Method and apparatus for audio/data/visual information
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
TW518890B (en) 2000-03-21 2003-01-21 Koninkl Philips Electronics Nv System and method for automatic content enhancement of multimedia output device
US6674900B1 (en) * 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
JP3923243B2 (ja) * 2000-07-24 2007-05-30 独立行政法人科学技術振興機構 カラー文書画像からの文字抽出方法
WO2002025575A2 (en) 2000-09-22 2002-03-28 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20020083464A1 (en) 2000-11-07 2002-06-27 Mai-Ian Tomsen System and method for unprompted, context-sensitive querying during a televison broadcast
US6778700B2 (en) 2001-03-14 2004-08-17 Electronics For Imaging, Inc. Method and apparatus for text detection
JP2003101774A (ja) * 2001-09-25 2003-04-04 Ricoh Co Ltd 画像処理装置
AU2002351310A1 (en) 2001-12-06 2003-06-23 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7073193B2 (en) 2002-04-16 2006-07-04 Microsoft Corporation Media content descriptions
KR100483451B1 (ko) 2002-05-27 2005-04-15 주식회사 아이큐브 컨텐츠 파일과 네비게이션 정보의 편집처리방법 및 그 방법에 의하여 정보가 기록된 기록매체
AU2003273253A1 (en) 2002-08-26 2004-03-11 Siftology, Inc. Relating media to information in a workflow system
EP1570655A1 (en) 2002-11-22 2005-09-07 Koninklijke Philips Electronics N.V. Device for receiving a signal containing text information that can be used for programming the reception
RU2234734C1 (ru) 2002-12-17 2004-08-20 Аби Софтвер Лтд. Способ многоэтапного анализа информации растрового изображения
JP4112968B2 (ja) 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US7139033B2 (en) 2003-02-19 2006-11-21 Sharp Laboratories Of America, Inc. System and method for television frame capture and display
US8285727B2 (en) 2003-03-06 2012-10-09 Thomson Licensing S.A. Simplified searching for media services using a control device
EP1463301A1 (en) 2003-03-19 2004-09-29 Thomson Licensing S.A. Method for identification of tokens in video sequences
US7921449B2 (en) 2003-03-27 2011-04-05 Sony Corporation Smooth still image capture
US20050246747A1 (en) 2003-03-31 2005-11-03 Matsushita Electric Industrial Co., Ltd. Utilization of data broadcasting technology with handheld control apparatus
KR100487538B1 (ko) 2003-05-01 2005-05-03 주식회사 알티캐스트 Tv 플라자 기능을 갖는 셋톱박스를 이용한 정보브라우징 방법
US20070028282A1 (en) 2003-09-12 2007-02-01 Koninklijke Philips Electronics N.V. Start up method for a television apparatus
US20060008260A1 (en) 2004-01-12 2006-01-12 Yu-Chi Chen Disk player, display control method thereof, data analyzing method thereof
US8132204B2 (en) 2004-04-07 2012-03-06 Visible World, Inc. System and method for enhanced video selection and categorization using metadata
US20060053470A1 (en) 2004-04-30 2006-03-09 Vulcan Inc. Management and non-linear presentation of augmented broadcasted or streamed multimedia content
EP1810182A4 (en) 2004-08-31 2010-07-07 Kumar Gopalakrishnan METHOD AND SYSTEM FOR PROVIDING INFORMATION SERVICES RELEVANT TO VISUAL IMAGE
US7716714B2 (en) 2004-12-01 2010-05-11 At&T Intellectual Property I, L.P. System and method for recording television content at a set top box
US20060179453A1 (en) 2005-02-07 2006-08-10 Microsoft Corporation Image and other analysis for contextual ads
US7570816B2 (en) 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7607582B2 (en) 2005-04-22 2009-10-27 Microsoft Corporation Aggregation and synchronization of nearby media
US7734092B2 (en) 2006-03-07 2010-06-08 Ancestry.Com Operations Inc. Multiple image input for optical character recognition processing systems and methods
JP2008079190A (ja) 2006-09-25 2008-04-03 Olympus Corp テレビジョン画像キャプチャシステム
US20080091713A1 (en) 2006-10-16 2008-04-17 Candelore Brant L Capture of television metadata via OCR
TWI351877B (en) 2006-11-28 2011-11-01 Mstar Semiconductor Inc System and method for tv frame capture and printin

Also Published As

Publication number Publication date
CN102144236A (zh) 2011-08-03
WO2010027933A1 (en) 2010-03-11
KR101452562B1 (ko) 2014-10-21
US8320674B2 (en) 2012-11-27
JP2012502359A (ja) 2012-01-26
CN102144236B (zh) 2013-08-21
US20100054585A1 (en) 2010-03-04
KR20110056380A (ko) 2011-05-27
MX2011002293A (es) 2011-05-24
WO2010027933A9 (en) 2010-11-04
EP2321767A1 (en) 2011-05-18
CA2735824A1 (en) 2010-03-11

Similar Documents

Publication Publication Date Title
JP5588987B2 (ja) 画像及び映像ocrのためのテキストの位置決め
US7379594B2 (en) Methods and systems for automatic detection of continuous-tone regions in document images
US9064316B2 (en) Methods of content-based image identification
Gllavata et al. A robust algorithm for text detection in images
Shivakumara et al. A laplacian approach to multi-oriented text detection in video
Jamil et al. Edge-based features for localization of artificial Urdu text in video images
Yang et al. A framework for improved video text detection and recognition
Sanketi et al. Localizing blurry and low-resolution text in natural images
Wu et al. Contour restoration of text components for recognition in video/scene images
JP5796107B2 (ja) テキスト検出の方法及び装置
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering
CN107545261A (zh) 文本检测的方法及装置
JP5283267B2 (ja) コンテンツ識別方法及び装置
Bouressace et al. A convolutional neural network for Arabic document analysis
Chen et al. Video-text extraction and recognition
Samuel et al. Automatic Text Segmentation and Recognition in Natural Scene Images Using Msocr
Sharma et al. Text Extraction from Images: A Review
Bere Sachin Survey on Scene Text Recognition by using EE-MSER and OCR for Natural Images
Xu et al. Extracting text information for content-based video retrieval
JP6191286B2 (ja) 文字認識装置、文字認識方法及び文字認識用コンピュータプログラム
CN117218637A (zh) 一种基于分割技术的视频文字识别方法
Yoshida et al. A Blanket Binarization Method for Character String Extraction.
Chung et al. Extraction of character areas from digital camera based color document images and OCR system
Saluja et al. Non text eradication from degraded and non degraded videos and images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131217

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140123

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140728

R150 Certificate of patent or registration of utility model

Ref document number: 5588987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees