JP5588987B2

JP5588987B2 - 画像及び映像ｏｃｒのためのテキストの位置決め

Info

Publication number: JP5588987B2
Application number: JP2011526127A
Authority: JP
Inventors: ジャンピエールギュー; ヤンユー
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-09-03
Filing date: 2009-08-31
Publication date: 2014-09-10
Anticipated expiration: 2029-08-31
Also published as: CN102144236A; WO2010027933A1; KR101452562B1; US8320674B2; JP2012502359A; CN102144236B; US20100054585A1; KR20110056380A; MX2011002293A; WO2010027933A9; EP2321767A1; CA2735824A1

Description

関連文献への相互参照
本発明は、２００８年９月３０日出願のＹｕ他に付与された米国特許仮出願第６１／１９０，９９２号に関連し、かつその優先権の恩典を請求するものであり、この文献は、引用によって本明細書に組み込まれている。本出願は、全てがＣａｎｄｅｌｏｒｅに付与された２００７年２月１４日出願の米国特許出願第１１／７０６，９１９号、２００７年２月１４日出願の第１１／７０６，８９０号、２００７年３月８日出願の第１１／７１５，８５６号、及び２００７年２月１４日出願の第１１／７０６，５２９号に関連し、これらの文献は、引用によって本明細書に組み込まれている。

権利及び商標の告示
本特許文献の開示内容の一部分は、権利保護の対象になる素材を含む。権利所有者は、米国特許商標庁の特許ファイル又は記録に見られる特許文献又は特許開示のファクシミリ複製に対していかなる異存も持たないが、他の場合はいかなる場合であっても全ての著作権を保有する。商標は、そのそれぞれの所有者の所有物である。

ＴＶ映像内には、広告商品の名称、関連情報のＵＲＬ（ユニバーサルリソースロケータ）、話者又は演奏者の名称、及びイベントの日付のような重要なコンテンツ情報を提供することができるテキストが多くの場合に存在する。クローズドキャプションとして人為的に追加されるか又はシーン内に組み込まれたかのいずれかであるテキストは、画像及び映像を指標付けして検索し、映像コンテンツにおける視聴者の関心を分析するか又は「インターネット」からアクセス可能な関連コンテンツを視聴者に提供するのに利用することができる。しかし、通常のテレビジョン又はビデオ画像内に組み込まれたテキストは、テキストの識別及び認識において、テキスト認識が従来の文書内に実施される時には存在しない特殊な問題を呈する。

以下に続く詳細説明を添付図面と併せて参照することにより、作動の編成及び方法を目的及び利点と合わせて例示するある一定の例示的な実施形態を最も良く理解することができる。

米国特許仮出願第６１／１９０，９９２号米国特許出願第１１／７０６，９１９号米国特許出願第１１／７０６，８９０号米国特許出願第１１／７１５，８５６号米国特許出願第１１／７０６，５２９号

ＲａｉｎｅｒＬｉｅｎｈａｒｔ著「映像ＯＣＲ：要覧及び従事者ガイド」、「映像マイニング」において、「ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒ」、１５５〜１８４ページ、２００３年１０月ＫｅｅｃｈｕｌＪｕｎｇ、ＫｗａｎｇＩｎＫｉｍ、及びＡｎｉｌＫ．Ｊａｉｎ著「画像及び映像におけるテキスト情報抽出：要覧」、パターン認識、第３７巻、２００４年、９７７〜９９７ページＪｉａｎＬｉａｎｇ、ＤａｖｉｄＤｏｅｒｍａｎｎ、及びＨｕｉｐｉｎｇＬｉ著「カメラベースのテキスト及び文書解析」、要覧、ＩＪＤＡＲ、第７巻、第２号〜第３号、２００５年ＡｎｉｌＫ．Ｊａｉｎ及びＢｉｎＹｕ著「画像及び映像フレーム内のテキスト位置決め」、パターン認識、第３１巻、第１２号、１９９８年ＳｈｉｏＪ．Ｏｈｙａ及びＳ．Ａｋａｍａｔｓｕ著「シーン画像内の文字認識」、パターン分析及び機械知能に関するＩＥＥＥ会報、第１６巻、第２号、１９９４年、２１４〜２２０ページＣ．Ｍ．Ｌｅｅ、Ａ．Ｋａｎｋａｎｈａｌｌｉ著「複雑な画像内の文字の自動抽出」、国際パターン認識及び人工知能ジャーナル、９（１）、１９９５年、６７〜８２ページＭ．Ａ．Ｓｍｉｔｈ、Ｔ．Ｋａｎａｄｅ著「オーディオ及び画像特徴付けに基づく簡易走査検索のための映像スキミング」、カーネギーメロン大学技術報告書ＣＭＵ−ＣＳ−９５−１８６、１９９５年７月Ｄ．Ｃｈｅｎ、Ｋ．Ｓｈｅａｒｅｒ、及びＨ．Ｂｏｕｒｌａｒｄ著「映像ＯＣＲのための非対称フィルタによるテキスト強調」、国際画像解析及び処理会議会報、パレルモ、イタリア、２００１年、１９２〜１９７ページＨ．Ｌｉ、Ｄ．Ｄｏｅｒｍａｎｎ、Ｏ．Ｋｉａ著「デジタル映像における自動テキスト検出及び追跡」、ＩＥＥＥ画像処理会報、９（１）、２００１年、１４７〜１５６ページＤ．Ｃｈｅｎ、Ｈ．Ｂｏｕｌａｒｄ、Ｊ−Ｐ．Ｔｈｉｒａｎ著「ＳＶＭを用いた複雑な背景内でのテキスト識別」、コンピュータ視覚及びパターン認識に関するＩＥＥＥ会報、第２巻、２００１年、６２１〜６２６ページＸｉａｎｇｒｏｎｇＣｈｅ、ＡｌａｎＬ．Ｙｕｉｌｌｅ著「自然のシーン内のテキストの検出と読取り」、コンピュータ視覚及びパターン認識に関するＩＥＥＥ会報、第２巻、２００４年、３６６〜３７３ページＥｄｗａｒｄＫ．Ｗｏｎｇ及びＭｉｎｙａＣｈｅｎ著「映像テキスト抽出のための新しいロバストアルゴリズム」、パターン認識、第３６号、２００３年、１３９８〜１４０６ページＫ．Ｓｕｂｒａｍａｎｉａｎ、Ｐ．Ｎａｔａｒａｊａｎ、Ｍ．Ｄｅｃｅｒｂｏ、及びＤ．Ｃａｓｔａｎｏｎ著「テキストの位置及び抽出のための文字ストローク検出」、ＩＥＥＥ文書解析及び認識会報、第１巻、２００７年、２３〜２６ページＲｉｃｈａｒｄＮｏｃｋ及びＦｒａｎｋＮｉｅｌｓｅｎ著「統計的領域融合」、パターン解析及び機械知能に関するＩＥＥＥ会報、第２６巻、第１１号、２００４年、１４５２〜１４５８ページＶ．Ｖａｐｎｉｋ著「統計的学習理論」、「ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ」、１９９８年Ｃｈｉｈ−ＣｈｕｎｇＣｈａｎｇ及びＣｈｉｈ−ＪｅｎＬｉｎ制作「ＬＩＢＳＶＭ：サポートベクトルマシン向けライブラリ」、ｈｔｔｐ：／／ｗｗｗ．ｃｓｉｅ．ｎｔｕ．ｅｄｕ．ｔｗ／〜ｃｊｌｉｎ／ｌｉｂｓｖにおいて入手可能なソフトウエア、２００１年Ｗ．Ｎｉｂｌａｃｋ著「デジタル画像処理入門」、「ＰｒｅｎｔｉｃｅＨａｌｌ」、１９８６年、１１５〜１１６ページＮ．Ｏｔｓｕ著「濃淡レベルヒストグラムからの閾値選択法」、システム、人間、及びサイバネティクスに関するＩＥＥＥ会報、第９巻、第１号、１９７９年、６２〜６６ページＳ．Ｄ．Ｙａｎｏｗｉｔｚ及びＡ．Ｍ．Ｂｒｕｃｋｓｔｅｉｎ著「画像セグメント化のための新しい方法」、「ＣＶＧＩＰコンピュータ視覚、グラフィック、及び画像処理」、第４６巻、第１号、１９８９年、８２〜９５ページＳ．Ｍ．Ｌｕｃａｓ、Ａ．Ｐａｎａｒｅｔｏｓ、Ｌ．Ｓｏｓａ、Ａ．Ｔａｎｇ、Ｓ．Ｗｏｎｇ、及びＲ．Ｙｏｕｎｇ著「ＩＣＤＡＲ２００３ロバストな読取競合」、「文書の解析及び認識に関する第７回国際会議ＩＣＤＡＲ２００３」において、２００３年Ｓ．Ｍ．Ｌｕｃａｓ著「ＩＣＤＡＲ２００５テキスト位置決め競合結果」、ＩＣＤＡＲ２００５、８０〜８４ページ

本発明のある一定の実施形態によるテキスト位置決め処理の流れ図例である。本発明のある一定の実施形態による方式による処理の前の画像例を示す図である。本発明のある一定の実施形態による方式による処理の後の画像例を示す図である。本発明のある一定の実施形態に従った実施例の群融合に用いられるパラメータの図である。本発明のある一定の実施形態による方式で図２Ｂのセグメント化画像を予備処理した後の抽出領域のうちの一部を示す図である。本発明のある一定の実施形態による方式に用いられるストローク幅パラメータを示す図である。本発明のある一定の実施形態による方式に用いられるストローク幅パラメータを示す図である。本発明のある一定の実施形態に従った例における２値化結果を示す図である。本発明のある一定の実施形態に従った例における２値化結果を示す図である。本発明のある一定の実施形態に従った例における２値化結果を示す図である。本発明のある一定の実施形態に従った例における２値化結果を示す図である。本発明のある一定の実施形態に従った例における２値化結果を示す図である。本発明のある一定の実施形態に従った例における２値化結果を示す図である。

以下の文献を以下に詳細説明において引用する。
［１］ＲａｉｎｅｒＬｉｅｎｈａｒｔ著「映像ＯＣＲ：要覧及び従事者ガイド」、「映像マイニング」において、「ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒ」、１５５〜１８４ページ、２００３年１０月
［２］ＫｅｅｃｈｕｌＪｕｎｇ、ＫｗａｎｇＩｎＫｉｍ、及びＡｎｉｌＫ．Ｊａｉｎ著「画像及び映像におけるテキスト情報抽出：要覧」、パターン認識、第３７巻、２００４年、９７７〜９９７ページ
［３］ＪｉａｎＬｉａｎｇ、ＤａｖｉｄＤｏｅｒｍａｎｎ、及びＨｕｉｐｉｎｇＬｉ著「カメラベースのテキスト及び文書解析」、要覧、ＩＪＤＡＲ、第７巻、第２号〜第３号、２００５年
［４］ＡｎｉｌＫ．Ｊａｉｎ及びＢｉｎＹｕ著「画像及び映像フレーム内のテキスト位置決め」、パターン認識、第３１巻、第１２号、１９９８年
［５］ＳｈｉｏＪ．Ｏｈｙａ及びＳ．Ａｋａｍａｔｓｕ著「シーン画像内の文字認識」、パターン分析及び機械知能に関するＩＥＥＥ会報、第１６巻、第２号、１９９４年、２１４〜２２０ページ
［６］Ｃ．Ｍ．Ｌｅｅ、Ａ．Ｋａｎｋａｎｈａｌｌｉ著「複雑な画像内の文字の自動抽出」、国際パターン認識及び人工知能ジャーナル、９（１）、１９９５年、６７〜８２ページ
［７］Ｍ．Ａ．Ｓｍｉｔｈ、Ｔ．Ｋａｎａｄｅ著「オーディオ及び画像特徴付けに基づく簡易走査検索のための映像スキミング」、カーネギーメロン大学技術報告書ＣＭＵ−ＣＳ−９５−１８６、１９９５年７月
［８］Ｄ．Ｃｈｅｎ、Ｋ．Ｓｈｅａｒｅｒ、及びＨ．Ｂｏｕｒｌａｒｄ著「映像ＯＣＲのための非対称フィルタによるテキスト強調」、国際画像解析及び処理会議会報、パレルモ、イタリア、２００１年、１９２〜１９７ページ
［９］Ｈ．Ｌｉ、Ｄ．Ｄｏｅｒｍａｎｎ、Ｏ．Ｋｉａ著「デジタル映像における自動テキスト検出及び追跡」、ＩＥＥＥ画像処理会報、９（１）、２００１年、１４７〜１５６ページ
［１０］Ｄ．Ｃｈｅｎ、Ｈ．Ｂｏｕｌａｒｄ、Ｊ−Ｐ．Ｔｈｉｒａｎ著「ＳＶＭを用いた複雑な背景内でのテキスト識別」、コンピュータ視覚及びパターン認識に関するＩＥＥＥ会報、第２巻、２００１年、６２１〜６２６ページ
［１１］ＸｉａｎｇｒｏｎｇＣｈｅ、ＡｌａｎＬ．Ｙｕｉｌｌｅ著「自然のシーン内のテキストの検出と読取り」、コンピュータ視覚及びパターン認識に関するＩＥＥＥ会報、第２巻、２００４年、３６６〜３７３ページ
［１２］ＥｄｗａｒｄＫ．Ｗｏｎｇ及びＭｉｎｙａＣｈｅｎ著「映像テキスト抽出のための新しいロバストアルゴリズム」、パターン認識、第３６号、２００３年、１３９８〜１４０６ページ
［１３］Ｋ．Ｓｕｂｒａｍａｎｉａｎ、Ｐ．Ｎａｔａｒａｊａｎ、Ｍ．Ｄｅｃｅｒｂｏ、及びＤ．Ｃａｓｔａｎｏｎ著「テキストの位置及び抽出のための文字ストローク検出」、ＩＥＥＥ文書解析及び認識会報、第１巻、２００７年、２３〜２６ページ
［１４］ＲｉｃｈａｒｄＮｏｃｋ及びＦｒａｎｋＮｉｅｌｓｅｎ著「統計的領域融合」、パターン解析及び機械知能に関するＩＥＥＥ会報、第２６巻、第１１号、２００４年、１４５２〜１４５８ページ
［１５］Ｖ．Ｖａｐｎｉｋ著「統計的学習理論」、「ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ」、１９９８年
［１６］Ｃｈｉｈ−ＣｈｕｎｇＣｈａｎｇ及びＣｈｉｈ−ＪｅｎＬｉｎ制作「ＬＩＢＳＶＭ：サポートベクトルマシン向けライブラリ」、ｈｔｔｐ：／／ｗｗｗ．ｃｓｉｅ．ｎｔｕ．ｅｄｕ．ｔｗ／〜ｃｊｌｉｎ／ｌｉｂｓｖにおいて入手可能なソフトウエア、２００１年
［１７］Ｗ．Ｎｉｂｌａｃｋ著「デジタル画像処理入門」、「ＰｒｅｎｔｉｃｅＨａｌｌ」、１９８６年、１１５〜１１６ページ
［１８］Ｎ．Ｏｔｓｕ著「濃淡レベルヒストグラムからの閾値選択法」、システム、人間、及びサイバネティクスに関するＩＥＥＥ会報、第９巻、第１号、１９７９年、６２〜６６ページ
［１９］Ｓ．Ｄ．Ｙａｎｏｗｉｔｚ及びＡ．Ｍ．Ｂｒｕｃｋｓｔｅｉｎ著「画像セグメント化のための新しい方法」、「ＣＶＧＩＰコンピュータ視覚、グラフィック、及び画像処理」、第４６巻、第１号、１９８９年、８２〜９５ページ
［２０］Ｓ．Ｍ．Ｌｕｃａｓ、Ａ．Ｐａｎａｒｅｔｏｓ、Ｌ．Ｓｏｓａ、Ａ．Ｔａｎｇ、Ｓ．Ｗｏｎｇ、及びＲ．Ｙｏｕｎｇ著「ＩＣＤＡＲ２００３ロバストな読取競合」、「文書の解析及び認識に関する第７回国際会議ＩＣＤＡＲ２００３」において、２００３年
［２１］Ｓ．Ｍ．Ｌｕｃａｓ著「ＩＣＤＡＲ２００５テキスト位置決め競合結果」、ＩＣＤＡＲ２００５、８０〜８４ページ

本発明は、多くの異なる形態の実施形態を受け入れる余地があるが、そのような実施形態の本発明の開示が、原理の例と見なすべきであり、示して説明する特定的な実施形態に本発明を限定するように考えられているものではないという理解の下に、詳細な特定的な実施形態において図面に示し、本明細書に以下に説明する。下記の説明では、類似の参照番号を図面のいくつかの図における同じか、類似か、又は対応する部分を表す上に用いる。

本明細書に用いる用語「ａ」又は「ａｎ」を１つ又は１つよりも多いものとして定める。本明細書に用いる「複数」という用語を２つ又は２つよりも多いこととして定める。本明細書に用いる「別の」という用語を少なくとも第２又はそれ以外のこととして定める。本明細書に用いる「含む」及び／又は「有する」という用語を含むとして定める（すなわち、オープンランゲージ）。本明細書に用いる「結合された」という用語を必ずしも直接ではなく、必ずしも機械的にではないが、接続したこととして定める。本明細書に用いる「プログラム」又は「コンピュータプログラム」という用語、又は類似の用語をコンピュータシステム上での実行に対して設計された命令シーケンスとして定める。「プログラム」又は「コンピュータプログラム」は、１つ又はそれよりも多くのプロセッサを有するコンピュータシステム上での実行に対して設計された実行可能アプリケーション、アプレット、サーブレット、ソースコード、オブジェクトコード、共有ライブラリ／動的ロードライブラリ、及び／又は他の命令シーケンスにおけるサブルーチン、関数、手順、オブジェクトメソッド、オブジェクト実施を含むことができる。本明細書に用いる「プログラム」という用語は、第２のコンテクストに対して用いることができる（上述の定義が第１のコンテクストにおけるものである）。第２のコンテクストでは、この用語は「テレビジョン番組」の意味に用いられる。このコンテクストにおいて、この用語は、コンテンツが映画、スポーツイベント、複数回のシリーズ物の一編、ニュースブロードキャスト等であるか否かに関わらず、単一のテレビジョン番組として解釈され、電子番組ガイド（ＥＰＧ）内に報じられることになるもののようなオーディオ映像コンテンツのいずれか一貫したシーケンスを意味するのに用いられる。この用語は、電子番組ガイド内に番組として報告することができないコマーシャルスポット及び他の番組様コンテンツを含むものと解釈することができる。

本明細書にわたる「一実施形態」、「ある一定の実施形態」、「実施形態」、又は類似の用語への参照は、その実施形態に関連して説明する特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態内に含まれることを意味する。従って、そのような表現の出現又は本明細書にわたる様々な箇所における出現は、必ずしも全てが同じ実施形態を参照しているわけではない。更に、特定の特徴、構造、又は特性は、制限なしに１つ又はそれよりも多くの実施形態においてあらゆる適切な方式で組み合わせることができる。

本明細書に用いる「又は」という用語は、包含的又はいずれか１つ又はあらゆる組合せと解釈すべきである。従って、「Ａ、Ｂ、又はＣ」は、「Ａ、Ｂ、Ｃ、ＡとＢ、ＡとＣ、ＢとＣ、及びＡとＢとＣのうちのいずれか」を意味する。この定義の例外は、要素、機能、段階、又は行為の組合せが、何らかの具合で本質的に互いに排他的である場合にのみ発生することになる。本明細書にわたって、ある一定の処理における比較のために様々な閾値を用いる。本明細書に開示し、上述の参考文献素材への参照による閾値は、本明細書で提供する例示的な実施形態に関連しての参考のためのものであり、他の実施に従う他の処理に対する制限であるように考えられているものではない。

ＴＶ映像内には、広告商品の名称、関連情報のＵＲＬ（ユニバーサルリソースロケータ）、話者又は演奏者の名称、及びイベントの日付のような重要なコンテンツ情報を提供することができるテキストが多くの場合に存在する。クローズドキャプションとして人為的に追加されたか、シーン内に組み込まれたかのいずれかであるテキストは、画像及び映像を指標付けして検索し、映像コンテンツにおける視聴者の関心を分析するか又は「インターネット」からアクセス可能な関連コンテンツを視聴者に提供するのに利用することができる。しかし、通常のテレビジョン又は映像画像内に組み込まれたテキストは、テキストの識別及び認識において、テキスト認識が従来の文書内に実施される時には存在しない特殊な問題を呈する。比較的高精細な映像であっても、テキストは比較的低い解像度で示される場合が多くあり、これらのテキストは、印刷されたテキストにおいて一般的な従来の光学文字認識を用いる場合よりも機械によって認識することが困難である。

光学文字認識（ＯＣＲ）技術は、テキスト文書からテキストを自動的に認識するのに用いることができ、この場合、解像度は十分に高く（例えば、３００ｄｐｉよりも高い）、前景テキストは、単純な構造の白色の背景上で好ましくは黒色である。しかし、画像又は映像では、解像度は、一般的に大幅に低い（例えば、５０ｄｐｉ又は更に低い）。画像の劣悪な品質は、センサに起因するノイズ、不均等な照明、又は圧縮等からももたらされる。更に、斜視、広角レンズ、非平面、照明等によってもたらされる歪みが存在する。最後に、テキストは、物体が動き回る複雑な背景上に存在する可能性がある。端的には、映像画像又はそこからのフレームのような画像を処理する時には、従来のＯＣＲ技術が考慮していない多くの変数が存在する。多くの場合にこれらの問題の全てが、ＯＣＲ技術を画像及び映像のデータに直接適用することを困難又は更には実効不能にする。

本発明による実施形態によると、画像及び映像からテキストを認識する最初のアクションは、画像及び映像内でテキストの位置を正確に位置決めすることである。これは、非常に複雑な問題であることが分る。位置決めの後には、位置決めされた場合によっては低い解像度のテキストを抽出、強調、及び２値化することができる。最終的に、認識に対して既存のＯＣＲ技術を２値化されたテキストに対して適用することができる。

テキストを画像及び映像のデータ内で位置決めする問題は、多くの手法で対処されている。上述の参考文献にはテキストの位置決め及び抽出のアルゴリズムの網羅的な概論がある。下記の詳細説明では、上記［１］、［２］、及び［３］の文献を引用する。多くの場合に、これらの方法は、領域ベースの方法、エッジベースの方法、及びテクスチャベースの方法として分類される。

参考文献［４］、［５］、［６］に説明されている領域ベースの方法では、テキスト内の文字が同じ色を有すると仮定される。領域は、接続構成要素解析アルゴリズム、クラスター化アルゴリズム、又はセグメント化アルゴリズムによって生成される。次に、領域のサイズ、高さ／幅比、又は基線のような経験則を用いて非テキスト領域がフィルタリング除去される。最終的に、残った領域が、経験則的制約又はトレーニングされた分類子のいずれかによってテキスト又は非テキストとして分類される。

参考文献［７］及び［８］に説明されているエッジベースの方法は、テキストが背景に対して強いエッジを示し、従って、テキスト領域がエッジのクラスターであるという考察に基づいており、従って、第１の段階はエッジ検出である。次に、平滑化及び融合によってエッジがクラスター化される。最終的に、これらのクラスターは、経験則的制約又はトレーニングされた分類子のいずれかによってテキスト又は非テキストとして分類される。

テクスチャベースの方法は、テクスチャ特徴を利用してピクセル又は領域がテキストに属するか否かを判断する。全体の画像をピクセル毎又はブロック毎に走査して、局所空間分散、水平分散、２次統計、周波数特徴、局所エネルギ、又はウェーブレット変換の高次モーメントのようなテクスチャ特徴が抽出される。次に、これらの特徴は、分類子に供給され（ニューラルネットワーク［９］、サポートベクトルマシン［１０］、又はアダブースティング［１１］）、ピクセル又はブロックがテキスト又は非テキストとして分類される。最終的に、ピクセル又はブロックが融合されて最終テキスト区域が生成される。

本明細書に説明する技術は、広義には領域ベースのテキスト位置決め法として特徴付けることができる。最初に高速で有効な画像セグメント化アルゴリズムを利用して類似色の領域が抽出される。経験則を適用してテキストではないと見なされる領域がフィルタリング除去される予備処理の後に、各領域の特徴が解析される。テキストにおけるストロークが類似する幅を有する傾向があるという考察に基づいて、ストローク特徴が抽出される。更に、重要なエッジ特徴及びフィルファクタ特徴が減算される。最終的にサポートベクトルマシン（ＳＶＭ）分類子（分類子は、異なる群を有するオブジェクトを分離する）がトレーニングされ、領域がテキストと非テキストとに分類される。ＳＶＭは、テキストと非テキストの間の差を最大にするのに用いられる。

ストローク特徴は、テキストを識別するのを助けるのに用いられる。一般的に、テキストにおけるストロークの幅は、水平と垂直の両方で類似することに注意されたい。参考文献［１２］及び［１３］においてもストローク特徴が用いられるが、テキスト検出では水平ストローク幅のみが調べられる。本出願では、水平方向と垂直方向の両方におけるストローク幅の特徴が抽出される。更に、分類に対してエッジ及び他の重要な特徴が組み合わされる。

Ｉ．システム及び処理の概要
図１は、１０４で始まるある一定の実施形態による映像ＯＣＲ処理１００の流れ図例である。この図は、図の各ブロックが、プログラム式プロセッサ、状態機械、及び／又は専用ハードウエアを用いて実施することができるシステムの機能ブロックを表すシステム図と捉えることができる。１０８では、システムは、入力画像又はキーフレームを受け取る。次に、１１２では、画像は類似色の領域へとセグメント化される。これらの領域に代表色が割り当てられると、得られる画像は、限られた数の色でレンダリングされたものに似て、色領域の境界においてブロック状の外見を有する。予備処理ブロック１１６では、これらの領域が、サイズ、アスペクト比、フィルファクタのような経験則的制約によってフィルタリングされる。１２０では、残りの領域の特徴が抽出される。１２４では、これらの特徴が、領域をテキスト領域と非テキスト領域とに分類するＳＶＭ分類子に供給される。１２８では、これらのテキスト領域が強調され、２値化される。最後に１３２において、プログラム式プロセッサの形態に実施することができるＯＣＲエンジンにおいてＯＣＲ処理が実施される。ＯＣＲエンジンは、２値化された領域に対して機能し、認識結果を認識されたテキストの形態で出力し、処理は１３６で終了する。図１の様々な要素を下記でより詳細に説明する。

ＩＩ．ＳＶＭによるテキスト位置決め
Ａ．分割化
ある一定の実施によると、参考文献［１４］に説明されている統計的領域融合アルゴリズムが入力画像に適用されて類似色の領域が得られるが、他のアルゴリズムを用いることもできる。本明細書の目的では、本明細書において一実施例に用いる「類似色」という用語は、２つの領域の平均の赤、緑、青（Ｒ、Ｇ、Ｂ）の値の絶対差が、以下の通りに定式化することができる融合閾値内にあることを意味する（ここでは一方の領域をプライム記号によって表し、上線が平均値を表す）。

ここでＴ_devは、参考文献［１４］に示されているもののような融合閾値である。他の実施では、他の融合閾値及び類似色の他の定義を適切なものとすることができる。分布に対して多少限定的な仮定を用いる他の公知のセグメント化アルゴリズムの殆どとは異なり、このアルゴリズムは、少ない仮定しか伴わない画像生成モデルに基づいて、それによってこのアルゴリズムが全ての種類のシナリオにおいて有効になるので、現時点では好ましい。アルゴリズムは、３つの局面に実施される。第１の局面は、隣接ピクセルの色差を計算する段階である。第２の局面は、ピクセルの色差に従ってピクセルを分類する段階を含む。第３の局面は、領域が生成されるように、閾値よりも小さい色差を有するピクセルを融合する段階を含む。このアルゴリズムは、過融合エラーしか被らず、高い確率で低いセグメント化エラーをもたらす。最終的に、このアルゴリズムは、線形の時間／空間で効率的に近似することができ、それによって高速なセグメント化アルゴリズムが誘導される。上記に引用した米国特許仮出願第６１／１９０，９９２号の図２は、セグメント化アルゴリズムの出力例を示しており、本出願において、この図を図２Ａ及び図２Ｂとして再現している。

Ｂ．予備処理
セグメント化の後には、類似色の領域が得られる。目標は、これらの領域をテキスト領域と非テキスト領域とに分類することである。分類の効率を改善するために、最初にテキストではない可能性が非常に高い領域が除去される。従って、一実施では、以下の条件が調べられる。
（１）領域高さが何らかの閾値Ｔ_低よりも低いか又は領域高さがＴ_高よりも高い場合には、その領域は廃棄される。
（２）領域面積が、何らかの閾値Ｔ_面積よりも小さい場合には、その領域は廃棄される。
（３）領域が、画像境界の４つの辺のうちの１つに接触し、その高さが閾値Ｔよりも高い場合には、その領域は廃棄される。
（４）次式で定められるフィル_ファクタが、閾値Ｔ_フィルよりも小さい場合には、その領域は廃棄される。

上述の閾値は、経験的に選択される。この実施例に用いた値は以下の通りである。
Ｔ_低＝１０
Ｔ_高＝ＨＥＩＧＨＴ^*０．９（ＨＥＩＧＨＴは、画像サイズの高さである）
Ｔ_面積＝１２
Ｔ＝ＨＥＩＧＨＴ／２
Ｔ_フィル＝０．１
他の実施では他の値を適切なものとすることができ、この値は、経験的に更に最適化することができる。

文字は、クラスターで出現する傾向があり、文字のクラスターを分類する方が非常に容易である。同じ単語内の文字は、通常は同じ色を有し、殆どの場合、水平に整列される。以上により、領域のサイズ及び色が類似し、その水平位置が閾値内にある場合には、これらの領域はグループ化される。図３は、本実施例において、領域を融合する又はグループ化する上で以下の通りに用いられるパラメータ、Ｄ_領域、Ｄ_上部、及びＤ_下部を示している。

一部の実施例に用いられる融合又はグループ化の規則は、以下の通りである。
規則１．（高さ類似性）

ここで、ＨＥＩＧＨＴ₁及びＨＥＩＧＨＴ₂は、２つの領域の高さである。
規則２．（色類似性）Ｄ（ｃ₁，ｃ₂）＝

ここで、

及び

は、２つの領域の平均色である。
規則３．（領域距離）Ｄ_領域＜Ｔ_領域
ここで、Ｄ_領域は２つの領域の水平距離である。
規則４．（水平アラインメント）Ｄ_上部＜Ｔ_整列又はＤ_下部＜Ｔ_整列
ここで、Ｄ_上部及びＤ_下部は、上部境界と下部境界の間の垂直距離である。Ｄ_領域、Ｄ_上部、及びＤ_下部の定義に対しては図３を参照されたい。閾値は以下の通りに経験的に設定されるが、他の実施では他の設定を適切なものとすることができ、規則及び規則の修正、並びに閾値は、更に以下のように最適化することができる。
Ｔ_{高さ_類似}＝２．５
Ｔ_色＝８０
Ｔ_領域＝ＨＥＩＧＨＴ₁＋ＨＥＩＧＨＴ₂

図４は、上述の米国特許仮出願の図２においてセグメント化された画像を予備処理した後に抽出された領域のうちの一部を示している（図２）。図４では、ボックスは、領域例の各々を取り囲むボックスの境界を示しており、黒色区域は前景領域であり、白色区域は背景領域である。次の作業は、これらの領域をテキスト領域と非テキスト領域とに分類することである。

Ｃ．特徴抽出
次に、残りの領域の特徴が抽出される。用いられる特徴は、ストローク幅特徴、エッジ特徴、及びフィルファクタ特徴であり、これらに対して以下の通りに詳述する。

ストローク幅特徴
図５は、図５Ａ〜図Ｂから構成され、ストローク幅の概念を示している。本出願の論旨では、ストローク幅をストロークの２つのエッジ間の水平方向のピクセル幅であると考えられる。ストローク幅の分散が閾値内にある近傍の百分率を用いる本方法では、実際の幅は特に重要ではない。

ストローク幅特徴は、テキスト要素内のストローク幅が、垂直方向と水平方向の両方において類似する傾向があるという考察に基づいて、これを図５に示している。図５Ａは、文字「Ｆ」におけるストローク例の幅が、波括弧１４０によって定められる垂直近傍内でほぼ一定であることを示している。矢印は、文字Ｆのこの区域内の幅を示している。図５Ｂは、水平にストロークが類似幅（すなわち、ほぼ等しい）を有するか又は類似幅を有する群へとクラスター化することができることを示している。この図では、参照番号１４４、１４８、１５２、及び１５６の各々は、ほぼ共通の幅を示している。

この状況に用いる「近傍」という用語は、ストロークを含む垂直距離範囲であり、テキスト要素が垂直方向に類似するといった場合には、それは幅が垂直近傍内にあることを意味する。水平方向には、ストローク幅は、同じ行内で又は同じｙ座標によって比較される。

ほぼ一定の垂直ストローク幅を反映する特徴が以下の通りに計算される。最初に計算されるものは、垂直近傍内のストローク幅の標準偏差である。本明細書に用いる垂直近傍は、領域（ｃ，ｒ）∈［ＲＯＷ_領域，ＨＥＩＧＨＴ_領域］内の全てのピクセルに対してｘ＝ｃ、ｒ≦ｙ≦ｒ＋Ｔ_nである座標（ｘ，ｙ）を有するピクセルとして定める。特徴値ｓ₁は、領域全体の中でストローク幅の標準偏差が閾値内にある近傍の百分率である。

同様に、水平ストローク幅の特徴も計算される。行内のストローク幅が計算され、クラスター化され、ここでは「行」を同じｙ座標を有するピクセルとして定める。メンバ数がクラスター内のメンバ数であるか、又はクラスターがストローク幅の類似性に従って得られることから類似ストローク幅を有するストロークの数である場合に、これらのクラスターは、この例では３未満のメンバ数を有する。少数のメンバしか持たないクラスター、又は言い換えれば少数の類似ストローク幅しか持たないストロークは、高ノイズのもの又は外れ値と見なされ、考察において除外され、従って、考慮されない。このようにして、少数のメンバしか持たないクラスター（ここでは、３個未満のメンバ、又は類似ストローク幅を有するストロークを３個未満しか持たないストローククラスター）として定める外れ値が除外される。クラスター化の別の理由は、行内に様々なるストロークが存在する可能性があることである。例えば、図５Ｂの上側の行では、１４８、１５２、及び１５６とラベル付けした異なるストローク幅の３つのクラスターが存在する。一定の水平ストローク幅を反映する特徴値Ｓ₂は、行のうちで水平ストローク幅の標準偏差が閾値内にある百分率、又は群へとクラスター化することができ、各群内の水平ストローク幅の標準偏差が閾値内にある百分率である。

特徴値Ｓ₃は、テキストのストロークの間にある距離が存在するという考察に基づいて、現在のストローク幅と、現在のストロークから次の隣接ストロークまでの距離との平均比として抽出される。

最後のストローク特徴Ｓ₄は、最も多くの場合に出現する２つのストローク幅の比である。

以下は、ストローク幅特徴を抽出するための実施例に用いられる処理に関する擬似コードの例である。
ストローク幅特徴ｓ１、ｓ２、ｓ３、ｓ４を抽出する擬似コード
特徴ｓ₁：一定の垂直ストローク幅の尺度
ｓ１＝ＶｅｒｔｉｃａｌＣｏｎｓｔＳｔｒｏｋｅＷｉｄｔｈ（ｉｍｇ）
入力：
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１であり、画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｓ１：一定の垂直ストローク幅の尺度になる特徴値
１．ｉｍｇ内の各ピクセル（ｘ，ｙ）に対して、ストローク幅アレイＳｔｒｏｋｅＷｉｄｔｈＭａｐを計算する。
ａ．背景内のピクセル（ｘ，ｙ）では、ストローク幅は０である：
ＳｔｒｏｋｅＷｉｄｔｈＭａｐ（ｘ，ｙ）＝０
ｂ．前景内のピクセルでは、ストローク幅は、現在のストロークのエッジ間の距離である。例えば、図Ａでは、赤線内のピクセルは全て３０−１０＝２０のストローク幅を有することになる：
ＳｔｒｏｋｅＷｉｄｔｈＭａｐ（１０：３０，６０）＝２０（注意：１０：３０は、１０から３０までの座標を意味する）
２．各ピクセル（ｘ，ｙ）に関するストローク幅マップのアレイＳｔｒｏｋｅＷｉｄｔｈＭａｐが得られる（注意：ＳｔｒｏｋｅＷｉｄｔｈＭａｐは、ｉｍｇと同じ次元を有する）。
３．（ｘ，ｙ∈［ｒ，ｒ＋Ｔｎ］）に対して（言い換えれば、各列のｘに対して及びＴｎがＴｎ＝ｍａｘ（２，ｃｅｉｌ（ＨＥＩＧＨＴ／１０））で定められる場合のＴｎ行の各近傍に対して）、
ａ．ストローク幅の中央値を計算する：
ｍｅｄｉａｎＷ＝ｍｅｄｉａｎ（ＳｔｒｏｋｅＷｉｄｔｈＭａｐ（ｘ，ｒ：ｒ＋Ｔｎ）
ｂ．ストローク幅の標準偏差を計算する。
ｓｔｄＷ＝ｓｔｄ（ＳｔｒｏｋｅＷｉｄｔｈＭａｐ（ｘ，ｒ：ｒ＋Ｔｎ））
ｃ．ｍｅｄｉａｎＷ＜ＷＩＤＴＨ／３（ストローク幅中央値が過度に大きくない）、
ｓｔｄＷ＜ｍｅｄｉａｎＷ^*０．５（標準偏差が小さい）
という条件が満たされる場合に、上述の近傍は、一定の垂直ストローク幅を有し、従って、
ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ＝ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ＋１
４．特徴ｓ₁は、一定の垂直ストローク幅を有する近傍の比である：
ｓ１＝ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ／ｔｏｔａｌ
ここで、ｔｏｔａｌは、ストロークを有する近傍の数である。
特徴ｓ２：一定の水平ストローク幅の尺度
ｓ２＝ＨｏｒｉｚｏｎｔａｌＣｏｎｓｔＳｔｒｏｋｅＷｉｄｔｈ（ｉｍｇ）
入力：
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１である。画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｓ２：一定の垂直ストローク幅の尺度になる特徴値
１．ｉｍｇ内の各行ｙに対して、現在の行に関するストローク幅を計算し、アレイＳｔｒｏｋｅＷｉｄｔｈを検索する（ＳｔｒｏｋｅＷｉｄｔｈは、ｉｍｇと同じ行数を有し、各行は、現在の行におけるストロークに対するストローク幅を有する）
２．ＳｔｒｏｋｅＷｉｄｔｈ内の各行ｙに対して、
ａ．ＳｔｒｏｋｅＷｉｄｔｈの中央値を計算する：
ｍｅｄｉａｎＷ＝ｍｅｄｉａｎ（ＳｔｒｏｋｅＷｉｄｔｈ（ｙ））
ｂ．ＳｔｒｏｋｅＷｉｄｔｈの標準偏差を計算する：
ｓｔｄＷ＝ｓｔｄ（ＳｔｒｏｋｅＷｉｄｔｈ（ｙ））
ｃ．標準偏差とストローク幅の中央値との比が閾値よりも小さく、すなわち、
ｓｔｄＷ／ｍｅｄｉａｎＷ＜ＷｉｄｔｈＳｔｄＴ（閾値ＷｉｄｔｈＳｔｄＴ＝０．５）
である場合には、この行は、水平一定ストローク幅を有する行と見なされ、すなわち、
ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ＝ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ＋１
ｄ．他の場合はＳｔｒｏｋｅＷｉｄｔｈ（ｙ）をクラスター化する。これらのクラスターのうちのいずれか１つが、３つよりも多くのメンバ（外れ値ではない）を有し、これらの中央値及び標準偏差が、
ｓｔｄＷ／ｍｅｄｉａｎＷ＜ＷｉｄｔｈＳｔｄＴ
を満たす場合には、この行は、水平一定ストローク幅を有する行と見なされ、すなわち、
ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ＝ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ＋１
３．特徴ｓ２は、
ｓ２＝ｃｏｎｓｔＳｔｒｏｋｅＮｕｍ／ｔｏｔａｌ
であり、ここでｔｏｔａｌは、画像内で１つよりも多くのストロークを有する行の数である。
特徴ｓ３：現在のストロークから次の隣接ストロークまでの距離とストローク幅との比
ｓ３＝ＲａｔｉｏＳｔｒｏｋｅＤｉｓｔＷｉｄｔｈ（ｉｍｇ）
入力：
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１であり、画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｓ３：現在のストロークから次の隣接ストロークまでの距離とストローク幅との比
１．ストローク幅ＳｔｒｏｋｅＷｉｄｔｈを計算する（特徴ｓ２を抽出する段階におけるものと同じものである）。
２．現在のストロークから次の隣接ストロークまでの距離ＳｔｒｏｋｅＤｉｓｔを計算する。
３．比ｒａｔｉｏを計算する。
ｒａｔｉｏ＝ＳｔｒｏｋｅＤｉｓｔ／ＳｔｒｏｋｅＷｉｄｔｈ
４．ｒａｔｉｏをアレイＳｔｒｏｋｅＤｉｓｔＷｉｄｔｈＲａｔｉｏ内に入れる。
５．特徴ｓ３＝ｍｅｄｉａｎ（ＳｔｒｏｋｅＤｉｓｔＷｉｄｔｈＲａｔｉｏ）
特徴ｓ４：最頻出ストローク幅の比
ｓ４＝ＲａｔｉｏＭｏｓｔＳｔｒｏｋｅＷｉｄｔｈ（ｉｍｇ）
入力：
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１である。画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｓ４：最頻出ストローク幅の比
１．ストローク幅アレイＳｔｒｏｋｅＷｉｄｔｈのヒストグラムＨ：［Ｈ，Ｘｗ］＝ｈｉｓｔ（ＳｔｒｏｋｅＷｉｄｔｈ，１０）を計算し、ここで、１０は、ヒストグラムを計算するためのビン数であり、Ｈは、ビンのヒストグラム又は度数であり、Ｘｗは、ビンの位置である。
２．ヒストグラム［ｓＨ，ｓＩ］＝ｓｏｒｔ（Ｈ）を選別し、ここで、ｓＨは、選別されたヒストグラムであり、ｓＩは指標であり、すなわち、ｓＨ＝Ｈ（ｓＩ）である。
３．ｓＨ（ｌ）／ｓｕｍ（ｓＩ）＝１である（１つのストローク幅しか存在しない）場合には、ｓ４＝０である。
４．他の場合は、ｓ４＝Ｘｗ（ｓＩ（１））／Ｘｗ（ｓＩ（２））であり、ｓＩ（１）及びｓＩ（２）は、最頻出ストローク幅の指標である。

上述の各場合にテキスト幅はピクセルで測定されるが、他の測定値増分を可能にすることができる。

エッジ特徴
この実施例では、同様に、１組のエッジ特徴（ｅ１，ｅ２，ｅ３）が用いられる。テキストには多くのエッジが存在する。従って、テキスト位置決めを助ける上でエッジ特徴を用いることができる。第１のエッジ特徴ｅ₁は、一般的に、テキスト文字が滑らかなエッジを有することに基づいている。特徴値ｅ₁は、同じ方向を有する５×５の近傍、すなわち、滑らかな方向を有するブロックの比として計算される。エッジ特徴ｅ₂は、通常テキスト文字が全方向のエッジを有するという考察に基づいている。特徴値ｅ₂は、最も多くの場合に出現するエッジ方向の度数である。通常テキスト文字は全方向のエッジを有するので、この度数が非常に高い場合には、非常に高い確率でそれはテキストではない。これが、テキスト領域と非テキスト領域とを区別する特徴としてｅ₂が選択される理由である。最後のものは、テキストが有するエッジの量を特徴付けることができる領域面積に対する合計エッジ長の比である。

以下は、実施例においてエッジ特徴を抽出するのに用いられる擬似コードである。
エッジ特徴（ｅ１，ｅ２，ｅ３）を抽出する擬似コード
特徴ｅ１：エッジ滑らかさ
ｅ１＝ＥｄｇｅＳｍｏｏｔｈｎｅｓｓ（ｉｍｇ）
入力：
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１である。画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｅ１：エッジの滑らかさの尺度になる特徴
１．Ｓｏｂｅｌエッジ検出：
Ｅｄｇｅ＝ＳｏｂｅｌＥｄｇｅ（ｉｍｇ）
を用いて８方向（０、π／４、π／２、３π／４、π、５π／４、３π／２、７π／４）のエッジを抽出する。
ここで、Ｅｄｇｅはｉｍｇと同じ次元を有し、エッジの位置で、エッジの方向に依存して１から８までの値を有し、非エッジの位置において０という値を有する。
２．Ｅｄｇｅ（ｘ，ｙ）≠０を満たす（ｘ，ｙ）に対して、
ａ．近傍を定める：ｎｅｉｇｈｂｏｒｈｏｏｄ＝ｅｄｇｅ（［ｘ−ｗ：ｘ＋ｗ］，［ｙ−ｗ：ｙ＋ｗ］）
ここで、

ｂ．現在の方向を検索する：ｃｕｒＤｉｒ＝Ｅｄｇｅ（ｘ，ｙ）
ｃ．現在の方向を有するピクセル数ｃｕｒＤｉｒＮｕｍを検索する。
ｄ．近傍内でエッジピクセルの数を検索し、すなわち、
ｎｅｉｇｈｂｏｒＥｄｇｅＮｕｍ＝Ｌｅｎｇｔｈ（ｎｅｉｇｈｂｏｒｈｏｏｄ≠０）
ｅ．同じ方向を有するエッジピクセルの比を計算する：
Ｒ（ｘ，ｙ）＝ｃｕｒＤｉｒＮｕｍ／ｎｅｉｇｈｂｏｒＥｄｇｅＮｕｍ
３．エッジ滑らかさ特徴を計算する。
ｅ１＝ｌｅｎｇｔｈ（Ｒ＞Ｔ）／ｌｅｎｇｔｈ（Ｅｄｇｅ≠０）
特徴２：エッジ方向の均一性。
ｅ２＝ＥｄｇｅＵｎｉｆｏｒｍｉｔｙ（ｉｍｇ）
入力：
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１である。画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｅ２：エッジの均一性の尺度になる特徴
１．段階１で抽出された特徴ｅ１の８つのエッジ方向を４つの方向Ｅｄｇｅ４へと量子化し、すなわち、Ｅｄｇｅにおける（５π／４，３π／２，７π／４）は、Ｅｄｇｅ４では（π／４，π／２，３π／４）になる。
２．４つの方向のヒストグラムを計算する：Ｈ＝ｈｉｓｔ（Ｅｄｇｅ４（Ｅｄｇｅ４≠０））
３．Ｈの極大値を計算する：ｍａｘＨ＝ｍａｘ（Ｈ）、従って、ｍａｘＨは、方向が出現する最大回数である。
４．エッジ均一性特徴を計算する。
ｅ２＝ｍａｘＨ／ｓｕｍ（Ｈ）
特徴ｅ３：エッジ量
ｅ３＝ＥｄｇｅＡｍｏｕｎｔ（ｉｍｇ）
入力：
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１である。画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｅ２：エッジ量の尺度になる特徴
１．Ｓｏｂｅｌエッジ検出：
Ｅｄｇｅ＝ＳｏｂｅｌＥｄｇｅ（ｉｍｇ）
を用いて８方向（０、π／４、π／２、３π／４、π、５π／４、３π／２、７π／４）のエッジを抽出する。
ここで、Ｅｄｇｅは、ｉｍｇと同じ次元を有し、エッジの位置で、エッジの方向に依存して１から８までの値を有し、非エッジの位置において０という値を有する。
２．エッジ長を計算する：ＥｄｇｅＬｅｎｇｔｈ＝／ｅｎｇｔｆｚ（Ｅｄｇｅ≠０）
３．ｉｍｇの前景面積を計算する。
４．ＦｏｒｅＡｒｅａ＝長さ（ｉｍｇ（前景））
５．フィルファクタＡｒｅａＦｉｌｌを計算する。
６．ＡｒｅａＦｉｌｌ＝ＦｏｒｅＡｒｅａ／（ＷＩＤＴＨ^*ＨＥＩＧＨＴ）
７．特徴を計算する、ｅ３＝ＥｄｇｅＬｅｎｇｔｈ／ＡｒｅａＦｉｌｌ

フィル特徴
この実施例では１組のフィルファクタ特徴（ｆ₁、ｆ₂）が同様に用いられる。この特徴群は、テキストの前景が境界ボックスを充填することに基づいている。テキストの前景は境界ボックス全体を充填するわけではないか、又は境界ボックスの僅かしか充填しない。また、狭い近傍では、テキストの前景は、近傍全体を充填するわけではないという性質を有する。

第１のフィルファクタ特徴ｆ₁は、領域全体のフィル特徴を表している。従って、フィルファクタ特徴ｆ₁は、前景面積と領域の境界ボックスの面積との比として計算される。第２のフィルファクタ特徴ｆ₂は、局所近傍のフィル特徴を説明する。最初に近傍内の前景面積の比が計算される。特徴値ｆ₂は、前景面積比が閾値よりも大きい近傍の百分率である。

以下は、実施例に用いられるフィルファクタ特徴を抽出するための擬似コードである。
フィルファクタ特徴ｆ１、ｆ２を抽出する擬似コード
特徴ｆ１：領域全体のフィル特徴
ｆ１＝ＦｉｌｌＦａｃｔｏｒＷｈｏｌｅ（ｉｍｇ）
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１である。画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｆ１：候補画像のフィルファクタの尺度になる特徴
１．ｉｍｇの前景面積を計算する。
２．ＦｏｒｅＡｒｅａ＝長さ（ｉｍｇ（前景））
３．ｉｍｇの全体面積を計算する：ＷｈｏｌｅＡｒｅａ＝ＷＩＤＴＨ×ＨＥＩＧＨＴ
４．特徴を計算する、ｆ１＝ＦｏｒｅＡｒｅａ／ＷｈｏｌｅＡｒｅａ
特徴ｆ２：局所近傍のフィル特徴
ｆ２＝ＦｉｌｌＦａｃｔｏｒＮｅｉｇｈｂｏｒｈｏｏｄ（ｉｍｇ）
ｉｍｇ：テキスト又は非テキストとして分類される２値画像：前景は黒色、背景は白色、すなわち、ｉｍｇ（前景）＝０、ｉｍｇ（背景）＝１である。画像内の行数はＨＥＩＧＨＴであり、画像内の列数はＷＩＤＴＨである。
出力：
ｆ２：候補画像の局所近傍内のフィルファクタの尺度になる特徴
１．ｘ、ｙがｓｔｅｐＳｉｚｅ＝ＨＥＩＧＨＴ／３で増加する（ｘ，ｙ）に対して、
ａ．現在の近傍を得る：ｃｕｒＮ＝ｉｍｇ（ｘ：ｘ＋ｓｔｅｐＳｉｚｅ，ｙ：ｙ＋ｓｔｅｐＳｉｚｅ）
ｂ．現在の近傍内の前景面積を計算する：
ＡｒｅａＮ＝ｌｅｎｇｔｈ（ｃｕｒＮ（前景））
ｃ．近傍のフィルファクタを計算する：
ＦｉｌｌＦａｃｔｏｒＮ（ｊ）＝ＡｒｅａＮ／Ａｒｅａ（ｃｕｒＮ）
ここで、ｊは、現在の近傍に対する指標である。
２．大きいフィルファクタを有する近傍の数を検索する。
Ｎ＝ｌｅｎｇｔｈ（ＦｉｌｌＦａｃｔｏｒＮ＞Ｔ）
３．特徴ｆ２は、大きいフィルファクタを有するブロックの百分率である：
ｆ２＝Ｎ／ｌｅｎｇｔｈ（ＦｉｌｌＦａｃｔｏｒＮ）

Ｄ．ＳＶＭベースの分類
ＳＶＭは、参考文献［１５］に説明されており、統計的学習理論を契機とする技術であり、数々の分類作業に首尾良く適用されている。重要な概念は、最大格差を有する２つのクラスを決定面を用いて分離することである。この概念は、トレーニングエラーではなく、高次元空間内でのモデルの一般化エラーに対する限度を最小にする。ＳＶＭでは、学習作業は、正のクラスと負のクラスとにおける相対的なトレーニング例の数に依存しない（この場合の検出作業では、負のクラスは、正のクラスよりも非常に多くのサンプルを有する）。従って、この実施例では、ＳＶＭが好ましい分類子として選択される。

この分類問題は、Ｃ節で定めた各成分を有するＸ_i＝［ｓ₁ ⁱ，ｓ₂ ⁱ，ｓ₃ ⁱ，ｓ₄ ⁱ，ｅ₁ ⁱ，ｅ₂ ⁱ，ｅ₃ ⁱ，ｆ₁ ⁱ，ｆ₂ ⁱ］が、９次元特徴ベクトルであり、ｙ_i＝±１が、正の（テキスト）クラスと負の（非テキスト）クラスとを示す場合に（ｉ＝１，２，．．．，ｍ）、ｍ個のラベル付けされたトレーニングサンプル：（ｘ₁，ｙ₁），（ｘ₂，ｙ₂），．．．，（ｘ_m，ｙ_m）を有する２値分類問題である。ＳＶＭは、以下の式（３）の制約の下で式（２）の問題を解くことを試みる。

そのデュアルは、式（５）の制約の下での式（４）である。

ここで、ｅは全てが１のベクトルであり、Ｃ＞０は上限であり、交差検定によって決められ、Ｑは１×１の半正定値行列であり、Ｑ_ij≡ｙ_iｙ_jＫ（ｘ_i，ｘ_j）及びＫ（ｘ_i，ｘ_j）≡φ（ｘ_i）^Tφ（ｘ_j）はカーネルであり、ｗ、α、及びｂは、分離平面を判断し、最適化処理によって求解すべきであるパラメータである。非線形カーネル関数を選択することにより、特徴ベクトルｘ_iを関数φによってより高次元の空間へとマップすることができる。用いるカーネルは、ラジアル基底関数カーネルである。

ここで、カーネル帯域幅σは、交差検定によって判断した。ｗ、α、及びｂが決められると、領域を分類するのに以下の決定関数を用いることができる。

ＳＶＭをＬＩＢＳＶＭ［１６］という名称のソフトウエアパッケージによってテキスト又は非テキストとラベル付けした１組のサンプルを用いてトレーニングした。交差検定を用いて、カーネル帯域幅σ及びＣを判断した。トレーニング及び試験結果を次節で報告することにする。

Ｅ．強調及び２値化
テキスト領域を識別した後には、ＯＣＲソフトウエアがテキストを容易に認識することができるように、これらの領域を強調し、２値化すべきである。殆どのＯＣＲソフトウエアは、十分に高い解像度でないとテキストを認識することができない。従って、テキストの高さが約７５ピクセルより低い場合は（現時点で）、拡大段階が必要である可能性がある。拡大の前に、ヒストグラム均等化、鮮明化のようないくつかの強調を適用することができる。

次に、強調された画像に２値化が適用される。Ｎｉｂｌａｃｋの適応的２値化アルゴリズム［１７］、Ｏｔｓｕの方法［１８］、及びＹａｎｏｗｉｔｚ−Ｂｒｕｃｈｓｔｅｉｎの方法［１９］のような異なる種類の２値化アルゴリズムが存在する。これらの方法の中ではＮｉｂｌａｃｋの方法及びＯｔｓｕの方法が幅広く用いられているが、他の２値化法を本発明による実施に適応させることができる。Ｎｉｂｌａｃｋの方法では、サイズｒの局所窓内の強度統計からの各ピクセルに対して閾値Ｔが適応的に決められる。

ここで、μ及びσは、窓内のピクセル強度の平均及び標準偏差である。スカラーパラメータｋは重みであり、−０．２と設定される。窓サイズｒは、固定値とするか又は適応的に選択することができる。［１１］では、窓サイズｒをＴσが固定閾値の時に、次式として選択することが提案されている。

Ｔ_σの値は、Ｔ_σよりも小さい標準偏差を有する窓が滑らかな区域であるように選択される。この場合、Ｔ_σは、検出されたテキスト領域の背景面積の標準偏差として設定される。Ｏｔｓｕの方法［１８］では、２値化閾値は、基準を差別化し、すなわち、クラス間分布を最大化し、クラス内分布を最小にすることによって見出される。Ｏｔｓｕの方法は、テキスト領域全体、固定サイズの窓、又は（９）にあるように適応的なものに適用することができる。画像内では背景が複雑であることに起因して、２値化が画像全体に適用された場合には、背景内の非テキスト物体もまた最終的な２値化画像内に出現する可能性がある。これを回避するために、検出されたテキスト領域内の連結成分にも２値化が適用される。

図６Ａ〜図６Ｆから構成される図６は、個々の成分、固定窓、適応的窓、及び境界ボックス全体に対してＯｔｓｕの方法とＮｉｂｌａｃｋの方法とが適用された時の２値化の結果を表示している。検出されたテキストは、図２の下部に例示している例からのものである。図６Ａは、検出領域内の各連結成分にわたるＯｔｓｕの２値化を示している。図６Ｂは、適応的窓内のＮｉｂｌａｃｋの２値化を示している。図６Ｃは、適応的窓内のＯｔｓｕの２値化を示している。図６Ｄは、境界ボックス全体におけるＯｔｓｕの２値化を示している。図６Ｅは、固定窓内のＮｉｂｌａｃｋの２値化を示している。図６Ｆは、固定窓内のＯｔｓｕの２値化を示している。

図６から、異なる２値化法の性能が異なることが分り、図６は、この例では、境界ボックス全体に適用されたＯｔｓｕの方法が最良であることを示している。これらの方法を異なる画像において試し、いかなる単一の方法も、全ての画像において最良の結果を出すことができないことが見出された。従って、実際問題における１つの可能な解決法は、異なる２値化法の結果をＯＣＲソフトウエアに供給し、次に、その認識結果を組み合わせることである。

ＩＩＩ．実験及び結果
本発明のアルゴリズムを２組のデータに対して試験した。一方のものは、ＩＣＤＡＲ２００３のテキスト位置決め競合のデータセット［２０］である。ＩＣＤＡＲ２００３のデータセットには、トレーニングセット内に２４８個の画像があり、試験セット内に２５１個の画像がある。各セット内には、約１０００個のテキストセグメントが存在する。このデータセット内の画像の殆どは、手持ち式デバイスを用いて屋外で撮影されたものである。他方のデータセットは、ニュース、商業広告、スポーツゲーム等からの画像を含むＴＶ番組から収集した。このデータセット内には、約５０００テキストセグメントを有する４８９個の画像がある。

最初にＩＣＤＡＲ２００３のデータセットに対してアルゴリズムを適用した。最初に画像をセグメント化し、予備処理した。トレーニングデータセットでは、セグメント化及び予備処理の後に、８４１個のテキスト領域セグメントと３３７３個の非テキスト領域セグメントが存在した。テキストセグメントの数は真値よりも少ないことが分った。これは、一部のテキストセグメントが互いに融合される予備処理に部分的に起因して、一部のテキストセグメントが正しくセグメント化されないセグメント化エラーに部分的に起因する。処理したデータセットを用いてＳＶＭをトレーニングした。交差検定を用いてＳＶＭのパラメータを選択した。（６）における最適帯域幅σは０．５であり、（２）におけるパラメータＣは３２である。トレーニングしたＳＶＭモデルをテキストデータセットに対して適用した。テキストサンプルを試験する段階から９０．０２％の正しい検出率が得られ、誤検出は、６．４５％であった。他のテキスト位置決めアルゴリズムと比較するために、テキスト位置決め性能を測定するための適合率及び再現率の尺度［２１］を用いた。表１は、本発明のアルゴリズムの性能と、ＩＣＤＡＲ２００３及びＩＣＤＡＲ２００５における勝者の性能とを要約している。本発明のアルゴリズムは第３位である。本発明のアルゴリズムにおけるパラメータを緊密に調整することにより、性能を更に改善することができると考えられる。表１では、ｆは、

として定められ、この場合ｐは適合率であり、ｒは再現率である。適合率及び再現率の詳細説明に対しては［２０］及び［２１］を参照されたい。

（表１）

次に、本発明のアルゴリズムをＴＶデータセットに対して適用した。このデータセットを一方がトレーニングのためのもの（２４５個の画像を有する）、他方が試験のためのもの（２４４個の画像を有する）である２つのセットに分割した。トレーニングセットでは、セグメント化及び予備処理の後に、１１００個のテキスト領域セグメントと７２００個の非テキスト領域セグメントが存在した。このトレーニングセットを用いてＳＶＭをトレーニングした。交差検定を用いてＳＶＭのパラメータを選択した。（６）における最適帯域幅σは１であり、（２）におけるパラメータＣは１６である。トレーニングしたＳＶＭモデルを約８５０個のテキスト領域セグメントと６５００個の非テキスト領域セグメントが存在するテキストデータセットに対して適用した。検出率は８８．２９％のであり、誤検出は９．３４％であった。上述の米国特許仮出願の図７は、ＴＶデータセット内の画像に関する検出結果例を示している。

検出したテキスト領域を上述のように強調し、２値化した。次に、２値化した画像を認識に対してＯＣＲソフトウエアに供給した。例えば、図６にある２値化画像を認識に対してＳｃａｎｓｏｆｔのＯｍｎｉｐａｇｅ（登録商標）Ｐｒｏ１２に供給した。認識結果を下記の表２に記載した。表２は、ＯＣＲソフトウエアが殆どのテキストを認識することができることを示している。異なる２値化手法からの認識結果を組合せて、結果を辞書内で参照することにより、正しい認識結果を通常的に得ることができる。

（表２）

上述のように、領域ベースの手法を用いて画像又は映像内のテキストが位置決めされる。セグメント化を用いて異なる色の領域が得られる。次に、各領域の特徴が抽出される。この場合、抽出される特徴は、ストローク特徴、エッジ特徴、及びフィルファクタ特徴である。これらの特徴は、テキストを検出するのに非常に有効である。抽出された特徴ベクトルを用いて、領域をテキスト領域又は非テキスト領域として分類するＳＶＭモデルがトレーニングされる。このアルゴリズムは、一般的に、入手可能なデータセットと他のデータセットの両方に対して非常に良好に機能することが示された。

以上により、ある一定の実施例によると、映像画像内でのテキスト検出の方法は、画像処理プロセッサにおいて、潜在的にテキストを含む映像フレームを受け取る段階と、画像を類似色を有する領域へとセグメント化する段階と、類似色を有する領域から高可能性の非テキスト領域を識別し、高可能性の非テキスト領域を廃棄する段階と、残りの領域をこれらの領域のサイズ及び色の類似性、並びに水平位置のアラインメントに基づいて融合する段階と、融合された区域上のストローク特徴、エッジ特徴、及びフィルファクタ特徴を抽出する特徴抽出処理を実施する段階と、どの領域がテキストであり、どの領域が非テキストであるかを決めるために、各領域の抽出された特徴ベクトルをトレーニングされた２値分類子に通す段階とを含む。

ある一定の実施では、本方法は、２値化されて分類されたテキスト領域を光学文字読取器に通す段階を更に含む。ある一定の実施では、画像を類似色の領域へとセグメント化する段階は、２つの領域の平均の赤、緑、青（Ｒ、Ｇ、Ｂ）の値の絶対差が、各々融合閾値よりも低いように判断することによって実施される。ある一定の実施では、セグメント化段階は、隣接ピクセルの色差を計算する段階と、ピクセルの色差に従ってピクセルを分類する段階と、領域が生成されるように、閾値よりも小さい色差を有するピクセルを融合する段階を含む。ある一定の実施では、２値分類子は、サポートベクトルマシン（ＳＶＭ）ベースの分類子を含む。ある一定の実施では、ストローク幅は、ストローク幅値が閾値内にある場合に類似すると見なされる。ある一定の実施では、ストローク幅特徴は、画像内で、ストローク幅の標準偏差が閾値内にある近傍の百分率を表す特徴値を含み、ストローク幅値は、ストローク幅値が閾値内にある場合に類似すると見なされる。ある一定の実施では、ストローク幅特徴は、水平ストローク幅の標準偏差が閾値内にある行又は群へとクラスター化することができて各群内の水平ストローク幅の標準偏差が閾値内にある行の百分率、又は類似ストローク幅を有するストロークを有する行の百分率を含む。ある一定の実施では、ストローク幅特徴は、現在のストローク幅と、現在のストロークから隣接ストロークまでの距離との平均比を含む。ある一定の実施では、ストローク幅特徴は、最も多くの場合に出現する２つのストローク幅の比を含む。ある一定の実施では、エッジ特徴は、候補画像内のエッジの滑らかさ、エッジの均一性、及びエッジの量の測定値であり、エッジの滑らかさは、同じ方向を有する近傍の百分率によって表され、エッジの均一性は、最も多くの場合に出現するエッジ方向の度数として計算され、エッジ数は、領域の面積に対する合計のエッジの長さの比によって測定される。ある一定の実施では、フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出される。

ある一定の実施では、予備処理工程は、以下を判断するように作動する：
（１）領域_高さが、何らかの閾値Ｔ_低よりも低いか、又は領域_高さが、何らかの閾値Ｔ_高よりも高い場合、又は
（２）領域_面積が、何らかの閾値Ｔ_面積よりも小さい場合、又は
（３）領域が、画像境界の４つの辺のうちの１つに接触し、その高さが閾値Ｔよりも高い場合、又は
（４）

として定められるフィル_ファクタが閾値よりも低い場合に、領域は、高可能性の非テキスト領域であると見なされる。ある一定の実施では、組み合わされる複数の出力を生成するために、２値化は複数の２値化法を用いて実施され、各２値化された出力が、光学文字読取器によって処理される。

ある一定の実施に従う別のテキスト検出処理は、ＨＥＩＧＨＴ₁及びＨＥＩＧＨＴ₂が、２つの領域の高さである場合に、高さ類似性が、

として定められ、

及び

が、２つの領域の平均色である時に、色類似性が、Ｄ（ｃ₁，ｃ₂）＝

として定められ、Ｄ_領域が、２つの領域の水平距離である時に、領域距離が、Ｄ_領域＜Ｔ_領域として定められ、Ｄ_上部及びＤ_下部が、上部境界と下部境界の間の垂直距離である時に、水平アラインメントが、Ｄ_上部＜Ｔ_整列又はＤ_下部＜Ｔ_整列として定められる場合に統計的領域融合を用いたセグメント化によって画像を予備処理して明確にテキストではない領域を除去する段階と、上記に定められた高さ類似性、色類似性、領域距離、及び水平アラインメントという基準に基づいて領域をグループ化する段階と、各特徴が、領域のストローク特徴、エッジ特徴、及びフィルファクタ特徴によって表される場合に、特徴抽出処理を実施して、各残りの領域を説明する段階と、下式を用いて領域がテキストであるか否かを出力するサポートベクトルマシン（ＳＶＭ）分類子エンジンを用いて特徴ベクトルを分類し、１がテキストの存在を示し、−１がテキストの不在を示す分類出力を得る段階とを伴っている。

ある一定の実施では、ストローク特徴は、垂直近傍及び類似ストローク幅を有する行の百分率を含む。ある一定の実施では、フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出される。ある一定の実施では、予備処理は、以下を判断するように作動する：
（１）領域_高さが、何らかの閾値Ｔ_低よりも低いか、又は領域_高さが、何らかの閾値Ｔ_高よりも高い場合、又は
（２）領域_面積が、何らかの閾値Ｔ_面積よりも小さい場合、又は
（３）領域が、画像境界の４つの辺のうちの１つに接触し、その高さが閾値Ｔよりも高い場合、又は
（４）

で定められるフィル_ファクタが閾値よりも低い場合に、領域は、高可能性の非テキスト領域であると見なされる。ある一定の実施では、組み合わされる複数の出力を生成するために、２値化は、複数の２値化法を用いて実施され、各２値化された出力が、光学文字読取器によって処理される。

当業者は、上述の教示を考察した上で、上述の例示的な実施形態のある一定のものが、図１に示しているように構成することができる様々なソフトウエアモジュールを実行する１つ又はそれよりも多くのプログラム式プロセッサの使用に基づくことを認識するであろう。しかし、特定目的ハードウエア及び／又は専用プロセッサ、又は状態機械のようなハードウエア構成要素均等物を用いて他の実施形態を実施することができるので、本発明は、そのような例示的な実施形態に限定されない。同様に、別の均等な実施形態を構成するのに、汎用コンピュータ、マイクロプロセッサベースのコンピュータ、マイクロコントローラ、光学コンピュータ、アナログコンピュータ、専用プロセッサ、特定用途向け回路、及び／又は専用結線論理回路を用いることができる。

ある一定の例示的な実施形態を説明したが、当業者には、以上の説明を踏まえて多くの代替、修正、置換、及び変形が明らかになることは明らかである。

１４４、１４８、１５２、１５６ほぼ共通の幅のストローク

Claims

映像画像におけるテキスト検出の方法であって、
画像処理プロセッサにおいて、潜在的にテキストを含む映像フレームを受け取る段階と、
前記画像を類似色を有する領域へとセグメント化する段階と、
を含み、
前記類似色の色類似性が、

及び

が、２つの領域の平均色である時に、Ｄ（ｃ ₁ ，ｃ ₂ ）＝

として定められ、T _color が融合閾値であり、
方法は、さらに、
前記類似色を有する領域から高可能性の非テキスト領域を識別し、該高可能性の非テキスト領域を廃棄する段階と、
前記類似色を有し、かつ、前記融合閾値T _color内である水平位置を有する領域を融合する段階と、
ストローク特徴、エッジ特徴、及びフィルファクタ特徴を抽出する特徴抽出処理を実施することにより、特徴を用いて前記領域を説明する段階と、
ＯＣＲソフトウエアによる処理のために２値化される最終テキスト領域を得るよう、残りの領域をトレーニングされた２値分類子に通す段階と、
を含むことを特徴とする方法。
前記２値化された最終テキスト領域を光学文字読取器に通す段階を更に含むことを特徴とする請求項１に記載の方法。
前記セグメント化する段階は、
隣接ピクセルの色差を計算する段階と、該ピクセルをそれらの色差に従って選別する段階と、領域が生成されるように閾値よりも小さい色差を有するピクセルを融合する段階と、
を含む、
ことを特徴とする請求項１に記載の方法。
前記２値分類子は、サポートベクトルマシン（ＳＶＭ）ベースの分類子を含むことを特徴とする請求項１に記載の方法。
ストローク幅の値は、該ストローク幅が閾値内にある場合に類似すると見なされることを特徴とする請求項１に記載の方法。
前記ストローク特徴は、ストローク幅の標準偏差が閾値内にある前記画像における近傍の百分率又は類似ストローク幅を垂直に有する近傍の百分率を表す特徴値を含むことを特徴とする請求項１に記載の方法。
前記ストローク特徴は、水平ストローク幅の標準偏差が閾値内にある行又は群へとクラスター化することができ、かつ各群内の水平ストローク幅の標準偏差が閾値内にある行の百分率、又は類似ストローク幅又は類似ストローク幅のクラスターを有する行の百分率を表す特徴値を含むことを特徴とする請求項１に記載の方法。
前記ストローク特徴は、現在のストローク幅と該現在のストロークから隣接ストロークまでの距離との平均比を含むことを特徴とする請求項１に記載の方法。
前記ストローク特徴は、最も多くの場合に出現する２つのストローク幅の比を含むことを特徴とする請求項１に記載の方法。
エッジ特徴は、候補領域内のエッジの滑らかさ、エッジの均一性、及びエッジの量の測定値であり、
エッジの滑らかさは、同じ方向を有する近傍の百分率によって表され、エッジの均一性は、最も多くの場合に出現するエッジ方向の度数として計算され、前記エッジの量は、前記領域の面積に対する合計エッジの長さの比によって測定される、
ことを特徴とする請求項１に記載の方法。
フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出されることを特徴とする請求項１に記載の方法。
非テキストであることの高可能性の領域は、
（１）領域＿高さが何らかの閾値Ｔ＿低よりも低いか、又は該領域＿高さが、何らかの閾値Ｔ＿高よりも高い場合、又は
（２）領域＿面積が、何らかの閾値Ｔ＿面積よりも小さい場合、又は
（３）前記領域が、画像境界の４つの辺のうちの１つに接触し、かつその高さが閾値Ｔよりも高い場合、又は
（４）

として定められるフィル＿ファクタが閾値よりも低い場合に、領域が、高可能性の非テキスト領域であると見なされる、
ことによって決められる、
ことを特徴とする請求項１に記載の方法。
前記２値化は、複数の２値化法を用いて実施され、各２値化された出力は、組み合わされる複数の出力を生成するために光学文字読取器によって処理されることを特徴とする請求項１に記載の方法。
ＨＥＩＧＨＴ₁及びＨＥＩＧＨＴ₂が、２つの領域の高さである場合に、高さ類似性が、

として定められ、色類似性が、

及び

が、２つの領域の平均色である時に、Ｄ（ｃ₁，ｃ₂）＝

として定められ、Ｄ_領域が、２つの領域の水平距離である時に、かつ領域距離が、Ｄ_領域＜Ｔ_領域として定められ、Ｄ_上部及びＤ_下部が、上部境界と下部境界の間の垂直距離である時に、水平アラインメントが、Ｄ_上部＜Ｔ_整列又はＤ_下部＜Ｔ_整列として定められる場合に、統計的領域融合を用いたセグメント化によって画像を予備処理し、明確にテキストではない領域を除去し、かつ上記に定めた高さ類似性、色類似性、領域距離、及び水平アラインメントの基準に基づいて領域をグループ化する段階と、
各特徴が、前記領域のストローク特徴、エッジ特徴、及びフィルファクタ特徴によって表される場合に、特徴抽出処理を実施して各残りの領域を説明する段階と、
下式：

を用いて前記領域がテキストであるか否かを出力するサポートベクトルマシン（ＳＶＭ）分類子エンジンの使用によって特徴ベクトルを分類する段階と、
を含み、
ここで、（ｘ_i，ｙ_i）は、前記特徴ベクトル及びトレーニングサンプルの真値ラベルであり、ｘは、分類される前記領域の該特徴ベクトルであり、α_i及びｂは、ｙ^Tα＝０（０≦α_i≦Ｃ，ｉ＝１，．．．，ｌ）の制約下で、

として定められる最適化問題を解くことによって得られるパラメータであり、Ｋは、

として定められ、１がテキストの存在を示し、かつ−１がテキストの不在を示す分類出力を取得する、
ことを特徴とするテキスト検出方法。
フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出されることを特徴とする請求項１４に記載の方法。
前記予備処理は、以下の条件を満たす領域を除去するように作動し、すなわち、
（１）領域＿高さが、何らかの閾値Ｔ＿低よりも低いか、又は該領域＿高さが、何らかの閾値Ｔ＿高よりも高い場合、又は
（２）領域＿面積が、何らかの閾値Ｔ＿面積よりも小さい場合、又は
（３）前記領域が、画像境界の４つの辺のうちの１つに接触し、かつその高さが閾値Ｔよりも高い場合、又は
（４）

として定められるフィル＿ファクタが閾値よりも低い場合に、領域が、高可能性の非テキスト領域であると見なされ、かつ更に処理されることから除外することができる、
ことを特徴とする請求項１４に記載の方法。
前記２値化は、複数の２値化法を用いて実施され、各２値化された出力は、組み合わされる複数の出力を生成するために光学文字読取器によって処理されることを特徴とする請求項１４に記載の方法。