JP2014229314A - Method and device for text detection - Google Patents

Method and device for text detection Download PDF

Info

Publication number
JP2014229314A
JP2014229314A JP2014103652A JP2014103652A JP2014229314A JP 2014229314 A JP2014229314 A JP 2014229314A JP 2014103652 A JP2014103652 A JP 2014103652A JP 2014103652 A JP2014103652 A JP 2014103652A JP 2014229314 A JP2014229314 A JP 2014229314A
Authority
JP
Japan
Prior art keywords
text
tbr
ccs
filtering
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014103652A
Other languages
Japanese (ja)
Other versions
JP5796107B2 (en
Inventor
ウェンフォア マー
Wenhua Ma
ウェンフォア マー
ルオ ツァオハイ
Zhaohai Luo
ルオ ツァオハイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201310196300.7A external-priority patent/CN104182722B/en
Priority claimed from CN201310196315.3A external-priority patent/CN104182744B/en
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2014229314A publication Critical patent/JP2014229314A/en
Application granted granted Critical
Publication of JP5796107B2 publication Critical patent/JP5796107B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide a method and device for text detection in a natural image and a method and system for text information extraction.SOLUTION: A method for detecting a text region in an image including at least one connected component (CC) includes: a TBR detection step 310 for detecting at least one text background region (TBR) from an image; a CC filtering step 320 for ensuring at least one candidate text CC by filtering at least one CC; and a CC grouping step 330 for forming at least one CC group by grouping at least one candidate text CC on the basis of the TBR detected in the TBR detection step and generating at least one text region on the basis of at least one CC group. A location of a text in an image can be promptly and/or accurately shown, and as a result, performance in text detection increases.

Description

本発明は、テキスト検出に関し、特に、テキスト検出の方法及び装置、並びにテキスト情報抽出の方法及びシステムに関する。   The present invention relates to text detection, and more particularly, to a text detection method and apparatus, and a text information extraction method and system.

画像、特に自然画像においてテキストを検出することは、視覚障碍者及び外国人のためのコンピュータ化支援、画像及び映像の自動検索、並びに都市環境でのロボットナビゲーション等の多数の画像認識の適応例にとって極めて重要である。   Detecting text in images, especially natural images, is useful for many image recognition applications such as computerized assistance for visually impaired and foreigners, automatic image and video search, and robot navigation in urban environments. Very important.

それにもかかわらず、自然シーンでのテキスト検出は難しい問題である。印刷されたページ、ファックス及び名刺の走査とは対照的に、主な課題は、フォント、サイズ、スキュー角、斜体及び傾斜による歪み等のテキストの多様性にある。不均一な照明及び反射、劣悪な照明条件、並びに複雑な背景等の環境要因により、より複雑化している。   Nevertheless, text detection in natural scenes is a difficult problem. In contrast to scanning printed pages, faxes and business cards, the main challenge is text diversity such as font, size, skew angle, italics and skew distortion. It is more complicated by environmental factors such as uneven illumination and reflection, poor lighting conditions, and complex backgrounds.

関連文献において、自然シーンにおいてテキスト領域を検出するテキスト検出方法は、通常、図1に示されたフローチャートに従う。図1の方法100はブロック110から開始し、画像から成分を生成する。ここで、成分は、同様の色又はグレースケール、あるいはストローク幅を有する画素グループである連結成分(CC)等であってもよい。   In related literature, a text detection method for detecting a text region in a natural scene usually follows the flowchart shown in FIG. The method 100 of FIG. 1 begins at block 110 and generates components from an image. Here, the component may be a connected component (CC) that is a pixel group having a similar color, gray scale, or stroke width.

次にブロック120において、種々の特徴が各成分から抽出され、その特徴に基づいて非テキスト成分がフィルタリングされる結果、候補となるテキスト成分が確保される。   Next, at block 120, various features are extracted from each component, and the non-text components are filtered based on the features to ensure candidate text components.

次にブロック130において、確保された候補となるテキスト成分は、テキスト行又は単語を定型化するために共にグループ化され、テキスト行又は単語のバウンディングボックス(テキストを含む矩形等の最小多角形)としてテキスト領域を出力する。   Next, at block 130, the reserved candidate text components are grouped together to form a text line or word, and as a text line or word bounding box (minimum polygon such as a rectangle containing text). Output text area.

従来技術の一般的な問題は、従来技術が、エッジ、隅、ストローク、色及びテクスチャ等のテキスト領域の特徴のみによってテキストを検出しようとすることである。しかし、殆どの場合に有用となりうるテキスト周囲のコンテキスト情報は無視される。その結果、従来技術では、複雑な非テキスト領域による誤検出及び自然シーン中のテキストの広範囲の多様性による非検出が発生する。従って、テキスト領域の特徴によってのみ、直接テキストを検出しようとする際には厳しいトレードオフがある。   A general problem with the prior art is that the prior art attempts to detect text only by text region features such as edges, corners, strokes, colors and textures. However, context information around text that can be useful in most cases is ignored. As a result, in the prior art, false detection due to complex non-text regions and non-detection due to wide variety of text in natural scenes occur. Therefore, there are severe tradeoffs when trying to detect text directly only by the characteristics of the text region.

従って、テキスト領域の周囲の背景情報を利用する画像でのテキスト検出のために改善された方法が必要である。   Therefore, there is a need for an improved method for text detection in images that utilize background information around the text region.

Yasuhiro Kunishige、Feng Yaokai、Seiichi Uchida、International Conference on Document Analysis and Recognition (ICDAR)により出版された文献「Scenery character detection with environmental contex」、1049〜1053ページ、2011年において、コンテキスト情報の概念を使用するテキスト検出方法が提案される。特に、文献は、対象成分の周囲に10画素の余白を追加することで形成される対象成分の拡張領域からコンテキスト特徴を抽出する。更に方法は、6個のシーン成分カテゴリ、すなわち「空」、「緑」、「看板」、「地面」、「建物」及び「その他」のうちの1つに成分を分類する。この方法の1つの問題は、「空」、「緑」等の一般的なカテゴリがテキスト検出には不適切であり、且つ「看板」が例えばロゴ、タグ、スクロール、ポスター等の全ての種類のテキスト背景領域を範囲に含まないことである。この方法の別の問題は、コンテキスト情報が、シーンの変動に適応できない固定のサイズの余白領域から抽出されることである。更に別の問題は、情報がCCのグループ化において有益である一方で、この方法が空間におけるCCの関係、例えばどのCCがある看板に属しているかを取得できないことである。   ‘Scenario charactor’, published in the text of the ‘Nenhichi Kunshige’, ‘Fen Yakkai’, ‘Senichi Uchida’, ‘International Conferencing on Document’, and the ‘Nen. A detection method is proposed. In particular, the literature extracts context features from the expanded region of the target component formed by adding a 10 pixel margin around the target component. The method further classifies the components into one of six scene component categories: “sky”, “green”, “signboard”, “ground”, “building” and “other”. One problem with this method is that general categories such as “sky” and “green” are inappropriate for text detection, and “signboards” are all types of logos, tags, scrolls, posters, etc. The text background area is not included in the range. Another problem with this method is that the context information is extracted from a fixed size blank area that cannot adapt to scene variations. Yet another problem is that while the information is useful in CC grouping, this method cannot obtain CC relationships in space, for example which CC belongs to a signboard.

従って、上述の問題の少なくとも1つに対処する必要がある。   Therefore, at least one of the above problems needs to be addressed.

本発明者は、自然シーン中の殆どのテキストは、容易に認識されるように、テキストに対して高いコントラストを有する相対的に同様の背景領域上に印刷されていることに着目した。これは、テキスト検出にとって有用だろう。   The inventor has noted that most text in a natural scene is printed on a relatively similar background area with high contrast to the text so that it can be easily recognized. This may be useful for text detection.

それにより、新規のテキスト検出の方法及び装置は、画像、特に自然シーン画像でのテキスト検出の性能を向上させるために本発明において提案される。テキストを取り囲むこの一般的な背景領域を規定するために、新しい概念であるテキスト背景領域(TBR)が本発明に導入される。自然シーン画像において、TBRは、通常、看板、ロゴ、タグ、スクロール及びポスター等として存在するが、これらの形態に限定されない。テキスト領域を直接見つけるのではなく、最初にTBRを見つけて、TBR内の成分及び全てのTBRの外、すなわち外側領域(OR)の成分として成分を分類することにより、テキストを探索する。テキストは、TBRの外よりTBR内に現れる可能性がより高いと仮定される。また、1つのテキスト行/単語は、2つの領域(2つのTBR又はTBR及びOR)を交差することはめったにない。その仮定に基づいて、TBR情報は、連結成分のフィルタリング及び/又は連結成分のグループ化において使用されうる。   Thereby, a novel text detection method and apparatus is proposed in the present invention to improve the performance of text detection in images, especially natural scene images. In order to define this general background area surrounding the text, a new concept, text background area (TBR), is introduced into the present invention. In a natural scene image, TBR usually exists as a signboard, logo, tag, scroll, poster, or the like, but is not limited to these forms. Rather than finding the text region directly, the text is searched by first finding the TBR and classifying the component as a component within the TBR and out of all TBRs, ie, components of the outer region (OR). It is assumed that the text is more likely to appear in the TBR than outside the TBR. Also, a text line / word rarely intersects two regions (two TBRs or TBR and OR). Based on that assumption, the TBR information may be used in connected component filtering and / or connected component grouping.

本発明の第1の態様によると、少なくとも1つの連結成分(CC)を含む画像においてテキスト領域を検出する方法が提供される。方法は、画像から少なくとも1つのテキスト背景領域(TBR)を検出するTBR検出ステップと、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するCCフィルタリングステップと、TBR検出ステップにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するCCグループ化ステップとを備える。   According to a first aspect of the invention, there is provided a method for detecting a text region in an image comprising at least one connected component (CC). The method includes: a TBR detection step for detecting at least one text background region (TBR) from the image; a CC filtering step for filtering at least one CC to ensure at least one candidate text CC; and a TBR detection step. A CC grouping step for grouping at least one candidate text CC based on the detected TBR to form at least one CC group and generating at least one text region based on the at least one CC group; Is provided.

本発明の第2の態様によると、少なくとも1つの連結成分(CC)を含む画像においてテキスト領域を検出するテキスト検出装置が提供される。装置は、画像からテキスト背景領域(TBR)を検出するように構成されたTBR検出ユニットと、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するように構成されたCCフィルタリングユニットと、TBR検出ユニットにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するように構成されたCCグループ化ユニットとを備える。   According to a second aspect of the present invention, there is provided a text detection device for detecting a text region in an image including at least one connected component (CC). The apparatus includes a TBR detection unit configured to detect a text background region (TBR) from the image, and CC filtering configured to filter at least one CC to ensure at least one candidate text CC. A unit and at least one candidate text CC based on the TBR detected in the TBR detection unit to form at least one CC group, and at least one text region based on the at least one CC group. A CC grouping unit configured to generate.

本発明の第3の態様によると、テキスト情報抽出方法が提供される。方法は、本発明の第1の態様に係るテキスト検出方法を使用して入力画像又は入力映像からテキスト領域を検出するステップと、検出されたテキスト領域からテキストを抽出するステップと、抽出されたテキストを認識してテキスト情報を取得するステップとを備える。   According to a third aspect of the present invention, a text information extraction method is provided. The method includes detecting a text region from an input image or input video using the text detection method according to the first aspect of the present invention, extracting text from the detected text region, and extracted text Recognizing and acquiring text information.

本発明の第4の態様によると、テキスト情報抽出システムが提供される。システムは、入力画像又は入力映像からテキスト領域を検出するように構成された本発明の第2の態様に係るテキスト検出装置と、検出されたテキスト領域からテキストを抽出するように構成された抽出装置と、抽出されたテキストを認識してテキスト情報を取得するように構成された認識装置とを備える。   According to a fourth aspect of the present invention, a text information extraction system is provided. A system includes a text detection device according to a second aspect of the present invention configured to detect a text region from an input image or an input video, and an extraction device configured to extract text from the detected text region. And a recognition device configured to recognize the extracted text and acquire text information.

これらの特徴を利用することにより、本発明に係る方法、装置及びシステムは、画像中のテキストの場所を迅速に且つ/あるいは高精度に示すことができ、その結果、テキスト検出の性能が向上する。   By utilizing these features, the method, apparatus and system according to the present invention can quickly and / or accurately indicate the location of text in an image, resulting in improved text detection performance. .

図面を参照して、以下の説明から本発明の更なる特徴及び利点が明らかになるだろう。   Further features and advantages of the present invention will become apparent from the following description with reference to the drawings.

本明細書に組み込まれ且つその一部を構成する添付の図面は、本発明の実施形態を例示し、説明と共に本発明の原理を説明するのに役立つ。
図1は、画像においてテキスト領域を検出する従来技術の方法を示すフローチャートである。 図2は、本発明の実施形態を実現できるコンピュータシステムの例示的なハードウェア構成を示すブロック図である。 図3は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出方法を示すフローチャートである。 図4は、本発明の一実施形態に係るCCと他のTBRとの関係に基づいてCCがTBRであるかを判定する例示的な処理を示す図である。 図5Aは、本発明の一実施形態に係る図3のCCフィルタリングステップを示すフローチャートである。 図5Bは、本発明の別の実施形態に係る図3のCCフィルタリングステップを示すフローチャートである。 図5Cは、本発明の一実施形態に係る訓練分類器を使用する図3のCCフィルタリングステップにおける例示的な処理を示す図である。 図6は、図3のCCグループ化ステップを実行することを示す例示的なフローチャートである。 図7は、図6のグループ化ステップを実行することを示す例示的なフローチャートである。 図8A〜図8Fは、本発明に係るテキスト検出方法を使用してそれぞれの処理結果を示す例示的な画像を示す図である。 図9は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出装置を示すブロック図である。 図10Aは、本発明の一実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。 図10Bは、本発明の別の実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。 図11Aは、本発明の一実施形態に係る図9のCCグループ化ユニットを示すブロック図である。 図11Bは、本発明の一実施形態に係る図11Aのグループ化ユニットを示すブロック図である。 図12は、本発明の一実施形態に係るテキスト情報抽出方法を示すフローチャートである。 図13は、本発明の一実施形態に係るテキスト情報抽出システムを示すブロック図である。
The accompanying drawings, which are incorporated in and constitute a part of this specification, illustrate embodiments of the invention and, together with the description, serve to explain the principles of the invention.
FIG. 1 is a flowchart illustrating a prior art method for detecting a text region in an image. FIG. 2 is a block diagram illustrating an exemplary hardware configuration of a computer system that can implement an embodiment of the present invention. FIG. 3 is a flowchart illustrating a text detection method for detecting a text region in an image according to an embodiment of the present invention. FIG. 4 is a diagram illustrating an exemplary process for determining whether a CC is a TBR based on a relationship between the CC and another TBR according to an embodiment of the present invention. FIG. 5A is a flowchart illustrating the CC filtering step of FIG. 3 according to an embodiment of the present invention. FIG. 5B is a flowchart illustrating the CC filtering step of FIG. 3 according to another embodiment of the present invention. FIG. 5C is a diagram illustrating exemplary processing in the CC filtering step of FIG. 3 using a training classifier according to an embodiment of the present invention. FIG. 6 is an exemplary flowchart illustrating performing the CC grouping step of FIG. FIG. 7 is an exemplary flowchart illustrating performing the grouping steps of FIG. , , , , , 8A to 8F are diagrams illustrating exemplary images showing respective processing results using the text detection method according to the present invention. FIG. 9 is a block diagram illustrating a text detection device that detects a text region in an image according to an embodiment of the present invention. 10A is a block diagram illustrating the CC filtering unit of FIG. 9 according to an embodiment of the present invention. 10B is a block diagram illustrating the CC filtering unit of FIG. 9 according to another embodiment of the present invention. FIG. 11A is a block diagram illustrating the CC grouping unit of FIG. 9 according to an embodiment of the present invention. FIG. 11B is a block diagram illustrating the grouping unit of FIG. 11A according to one embodiment of the present invention. FIG. 12 is a flowchart illustrating a text information extraction method according to an embodiment of the present invention. FIG. 13 is a block diagram showing a text information extraction system according to an embodiment of the present invention.

以下、図面を参照して、本発明の実施形態を詳細に説明する。本明細書に組み込まれ且つその一部を構成する添付の図面は、本発明の実施形態を例示し、説明と共に本発明の原理を説明するのに役立つ。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The accompanying drawings, which are incorporated in and constitute a part of this specification, illustrate embodiments of the invention and, together with the description, serve to explain the principles of the invention.

尚、同様の図中符号及びアルファベットは図中同様の項目を示すため、項目は、1つの図面において規定されれば、後続の図面に対して説明されることを要しない。   In addition, since the same code | symbol and alphabet in a figure show the same item in a figure, if an item is prescribed | regulated in one drawing, it is not required to be demonstrated with respect to subsequent drawing.

また、本発明において、「第1の」及び「第2の」等の用語は、要素又はステップを区別するためだけに使用され、時間順序、存在又は重要性を示すことを意図しない。   Also, in the present invention, terms such as “first” and “second” are used only to distinguish elements or steps and are not intended to indicate time order, presence or importance.

図2は、本発明の実施形態を実現できるコンピュータシステム1000のハードウェア構成を示すブロック図である。   FIG. 2 is a block diagram showing a hardware configuration of a computer system 1000 that can implement the embodiment of the present invention.

図2に示されるように、コンピュータシステムはコンピュータ1110を備える。例えばコンピュータ1110は、デジタルカメラ又はスマートフォンであってよい。コンピュータ1110は、処理ユニット1120と、システムメモリ1130と、取り外し不可能な不揮発性メモリインタフェース1140と、取り外し可能な不揮発性メモリインタフェース1150と、ユーザ入力インタフェース1160と、ネットワークインタフェース1170と、ビデオインタフェース1190と、出力周辺インタフェース1195とを備え、それらはシステムバス1121を介して接続される。   As shown in FIG. 2, the computer system includes a computer 1110. For example, the computer 1110 may be a digital camera or a smartphone. The computer 1110 includes a processing unit 1120, a system memory 1130, a non-removable non-volatile memory interface 1140, a removable non-volatile memory interface 1150, a user input interface 1160, a network interface 1170, and a video interface 1190. Output peripheral interface 1195, which are connected via a system bus 1121.

システムメモリ1130は、ROM(読み出し専用メモリ)1131及びRAM(ランダムアクセスメモリ)1132を備える。BIOS(基本入出力システム)1133はROM1131に常駐する。オペレーティングシステム1134、アプリケーションプログラム1135、他のプログラムモジュール1136及びいくつかのプログラムデータ1137は、RAM1132に常駐する。   The system memory 1130 includes a ROM (read only memory) 1131 and a RAM (random access memory) 1132. A BIOS (basic input / output system) 1133 resides in the ROM 1131. Operating system 1134, application program 1135, other program modules 1136, and some program data 1137 reside in RAM 1132.

ハードディスク等の取り外し不可の不揮発性メモリ1141は、取り外し不可の不揮発性メモリインタフェース1140に接続される。取り外し不可の不揮発性メモリ1141は、例えばオペレーティングシステム1144、アプリケーションプログラム1145、他のプログラムモジュール1146及びいくつかのプログラムデータ1147を格納できる。   A non-removable non-volatile memory 1141 such as a hard disk is connected to a non-removable non-volatile memory interface 1140. Non-removable non-volatile memory 1141 can store, for example, operating system 1144, application programs 1145, other program modules 1146, and some program data 1147.

フラッシュドライブ1151及びCD−ROMドライブ1155等の1つ以上の取り外し可能な不揮発性メモリドライブは、取り外し可能な不揮発性メモリインタフェース1150に接続される。例えば、SDカード等のフラッシュメモリ1152は、フラッシュドライブ1151に挿入可能であり、CD(コンパクトディスク)1156は、CD−ROMドライブ1155に挿入可能である。処理される画像は、不揮発性メモリに格納可能である。   One or more removable non-volatile memory drives, such as flash drive 1151 and CD-ROM drive 1155, are connected to removable non-volatile memory interface 1150. For example, a flash memory 1152 such as an SD card can be inserted into the flash drive 1151, and a CD (compact disk) 1156 can be inserted into the CD-ROM drive 1155. The image to be processed can be stored in a non-volatile memory.

マイク1161及びキーボード1162等の入力装置は、ユーザ入力インタフェース1160に接続される。   Input devices such as a microphone 1161 and a keyboard 1162 are connected to the user input interface 1160.

コンピュータ1110は、ネットワークインタフェース1170によりリモートコンピュータ1180に接続可能である。例えばネットワークインタフェース1170は、ローカルエリアネットワーク1171を介してリモートコンピュータ1180に接続可能である。あるいは、ネットワークインタフェース1170は、モデム(変調器−復調器)1172に接続可能であり、モデム1172は、ワイドエリアネットワーク1173を介してリモートコンピュータ1180に接続される。   The computer 1110 can be connected to the remote computer 1180 via the network interface 1170. For example, the network interface 1170 can be connected to the remote computer 1180 via the local area network 1171. Alternatively, the network interface 1170 can be connected to a modem (modulator-demodulator) 1172, and the modem 1172 is connected to the remote computer 1180 via the wide area network 1173.

リモートコンピュータ1180は、リモートアプリケーションプログラム1185を格納するハードディスク等のメモリ1181を含めることができる。   The remote computer 1180 can include a memory 1181 such as a hard disk that stores the remote application program 1185.

ビデオインタフェース1190は、本発明の実施形態に係る1つ以上の処理結果を表示するために使用されてもよいモニタ1191に接続される。   The video interface 1190 is connected to a monitor 1191 that may be used to display one or more processing results according to embodiments of the present invention.

出力周辺インタフェース1195は、プリンタ1196及びスピーカ1197に接続される。   The output peripheral interface 1195 is connected to the printer 1196 and the speaker 1197.

図2に示されたコンピュータシステムは、例示にすぎず、本発明、その適応例又は使用を限定することを全く意図しない。   The computer system shown in FIG. 2 is merely exemplary and is in no way intended to limit the invention, its application, or use.

図2に示されたコンピュータシステムは、スタンドアロンコンピュータ又は装置の処理システムとして、場合によっては1つ以上の不要な構成要素が除去された状態あるいは1つ以上の更なる構成要素が追加された状態で、実施形態のいずれかに対して実現されてもよい。   The computer system shown in FIG. 2 is a stand-alone computer or device processing system, possibly with one or more unnecessary components removed or with one or more additional components added. It may be realized for any of the embodiments.

図3は、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出方法300を示すフローチャートである。本発明に係るテキスト検出方法を使用して処理結果を示す図8A〜図8Fを更に参照して説明する。   FIG. 3 is a flowchart illustrating a text detection method 300 for detecting a text region in an image according to an embodiment of the present invention. Further description will be made with reference to FIGS. 8A to 8F showing processing results using the text detection method according to the present invention.

一実施形態によると、画像は少なくとも1つの連結成分(CC:Connected Component)を含む。CCは、同様の色又はグレースケール値を含む画素クラスタ(画素群)である。1つのクラスタにおける画素は、空間において4近傍又は8近傍で接続可能である。CCは、例えば色クラスタリング、適応2値化及び形態素処理等により、TBR検出ステップの前に画像から生成されうる。実施形態の1つにおいて、内容が参考として本明細書に取り入れられる「Robust wide baseline stereo from maximally stable extremal regions」、J. Matas、O. Chum、M. Urban及びT. Pajdla、Proc. of British Machine Vision Conference、384〜396ページ、2002年において説明されたMSER方法に基づいて、CCはグレースケール画像から生成されうる。一実施形態において、暗い背景上の明るいテキスト及び明るい背景上の暗いテキストの双方を検出するために、CCの生成は、一方は元の画像用であり且つ他方は倒像用である2つのチャネルに適用可能である。しかし、これは必ずしも要求されない。   According to one embodiment, the image includes at least one connected component (CC). CC is a pixel cluster (pixel group) including similar colors or gray scale values. Pixels in one cluster can be connected in the vicinity of 4 or 8 in space. The CC can be generated from the image before the TBR detection step, for example by color clustering, adaptive binarization and morphological processing. In one embodiment, “Robide wide baseline from stable stable extreme regions,” J. Pat. Matas, O.M. Chum, M.M. Urban and T.W. Pajdla, Proc. Based on the MSER method described in of the British Machine Vision Conference, pages 384-396, CCs can be generated from grayscale images. In one embodiment, in order to detect both light text on a dark background and dark text on a light background, CC generation is performed on two channels, one for the original image and the other for the inverse image. It is applicable to. However, this is not always required.

一例として、図8A及び図8Bは、それぞれ、グレースケール画像及び画像中の生成されたCCを示す。図8Bにおいて、黒線のボックスの各々はCCを示す。すなわち、黒線のボックスは、CCのバウンディングボックス(CCを含む最小の四角形)である。   As an example, FIGS. 8A and 8B show a grayscale image and the generated CC in the image, respectively. In FIG. 8B, each black line box represents a CC. In other words, the black line box is a bounding box of CC (the smallest square including CC).

ブロック310において、テキスト背景領域(TBR:Text Background Region)検出ステップは、入力画像から少なくとも1つのTBRを検出するために実行される。   In block 310, a text background region (TBR) detection step is performed to detect at least one TBR from the input image.

一実施形態によると、TBR検出ステップは、画像に含まれたCCに基づいて実行されうる。TBRは、特殊な特性を含むようなCCであってよい。一実施形態によると、TBRは、規則的な境界線及び均一な色又はグレースケールを有する画像中のテキストの周囲領域であってよい。自然シーン画像において、TBRは、通常、看板、ロゴ、タグ、スクロール、ポスター等として存在するが、これらの形態に限定されない。   According to one embodiment, the TBR detection step may be performed based on the CC included in the image. The TBR may be a CC that includes special characteristics. According to one embodiment, the TBR may be a surrounding area of text in an image having regular borders and a uniform color or gray scale. In a natural scene image, TBR usually exists as a signboard, logo, tag, scroll, poster, etc., but is not limited to these forms.

一実施形態によると、TBRは、画像に含まれたCCから選択されうる。各CCは、それがTBRであるかを判定するためにチェックされうる。特性の3つの態様は、CCの特徴、CC中のメンバCCの統計的特徴、及びCCと他のTBRとの関係の判定において考慮されうる。これらの態様は、TBRの検出のために個々に又はあらゆる組合せで使用されうる。ここで、現在のCC中のメンバCCは、現在のCCの境界内に配置されたCCであり、現在のCCに対して高いコントラストを有する。メンバCCは、現在のCCの反対側のチャネルから抽出されうる。例えば、暗いCCのメンバCCは暗いCCの領域内の明るいCCであってよく、明るいCCのメンバCCは明るいCCの領域内の暗いCCであってよい。   According to one embodiment, the TBR may be selected from CCs included in the image. Each CC can be checked to determine if it is a TBR. Three aspects of characteristics may be considered in determining CC characteristics, statistical characteristics of member CCs in the CC, and relationships between CCs and other TBRs. These aspects can be used individually or in any combination for the detection of TBR. Here, the member CC in the current CC is a CC arranged within the boundary of the current CC, and has a high contrast with respect to the current CC. The member CC can be extracted from the channel on the other side of the current CC. For example, a dark CC member CC may be a bright CC in a dark CC region, and a bright CC member CC may be a dark CC in a bright CC region.

図8Cは、白線のボックスで示される、2つのTBRが検出された画像を示す。   FIG. 8C shows an image in which two TBRs are detected, indicated by a white line box.

[CCの特徴]
CCは、それがTBRであるかを判定するため、その特徴に基づいてチェックされうる。CCの特徴は、例えば、CCの色又はグレースケールの均一性、CCのサイズ、CCの形状、CCの境界線の規則性、画像中のCCの位置、CCの平均グレースケール値及びCCのグレースケール値分布のうちの少なくとも1つを含みうる。
[Characteristics of CC]
The CC can be checked based on its characteristics to determine if it is a TBR. CC features include, for example, CC color or gray scale uniformity, CC size, CC shape, CC boundary regularity, CC location in the image, CC average gray scale value and CC gray. At least one of the scale value distributions may be included.

尚、TBRのサイズは、通常、相対的に大きい。従って、一実施形態によると、全てのCCはサイズによりソート可能であり、TBRは、上位n個の最も大きなCCから選択可能である。   Note that the size of the TBR is usually relatively large. Thus, according to one embodiment, all CCs can be sorted by size, and the TBR can be selected from the top n largest CCs.

尚、TBRは、通常、画像の余白領域ではなく、画像中の顕著な位置に配置される。従って、別の実施形態によると、余白領域に配置されたCCは、非TBR領域として除外されうる。例えば余白領域は、1/m像幅等の指定された幅又は1/m像高を有する画像の外側ループ領域として規定されうる。   Note that the TBR is usually arranged at a prominent position in the image, not in the blank area of the image. Therefore, according to another embodiment, CCs arranged in the blank area can be excluded as non-TBR areas. For example, the margin area can be defined as the outer loop area of an image having a specified width, such as a 1 / m image width, or a 1 / m image height.

更に別の実施形態によると、TBRが、通常、規則的な境界線を有するため、CCの境界線の規則性は、TBRの判定において考慮されうる。境界線の規則性は、CCの密度(バウンディングボックスにおけるCCの占有率)、境界線率(境界線画素とCC画素の量との比)及び境界線の対称性(4つの四分円における密度差により評価されうる4つの四分円における境界線の類似性)により測定されうる。   According to yet another embodiment, the regularity of the CC boundary can be considered in the determination of the TBR because the TBR typically has a regular boundary. The regularity of the boundary line is the density of CC (occupation ratio of CC in the bounding box), the boundary line ratio (ratio of the amount of boundary line pixels to the CC pixel), and the symmetry of the boundary line (density in four quadrants). Boundary similarity in four quadrants that can be evaluated by difference).

更に別の実施形態によると、TBRがフラッシュにより形成されるべきではないため、いくつかの特徴は、TBRをフラッシュから区別するために使用される。尚、フラッシュは、通常、中央において平均よりも非常により高いグレースケール値を含む高い平均グレースケール値を有する。従って、CCの平均グレースケール値及びグレースケール値分布は、TBRをフラッシュから区別するために使用されうる。   According to yet another embodiment, some features are used to distinguish the TBR from the flash since the TBR should not be formed by the flash. It should be noted that flash typically has a high average gray scale value that includes a much higher gray scale value than the average in the middle. Thus, the average grayscale value and grayscale value distribution of CC can be used to distinguish TBR from flash.

[CC中のメンバCCの統計]
CCは、それがTBRであるかを判定するために、CC中のメンバCCの統計に基づいてチェックされうる。ここで、現在のCC中のメンバCCは、現在のCCの境界内に配置されたCCであり、現在のCCに対して高いコントラストを有する。メンバCCの領域は、完全に現在のCCの境界内にある。メンバCCは、現在のCCの反対側のチャネルから抽出されうる。例えば、暗いCCのメンバCCは暗いCCの領域内の明るいCCであってよく、明るいCCのメンバCCは明るいCCの領域内の暗いCCであってよい。
[Statistics of member CC in CC]
A CC may be checked based on statistics of member CCs in the CC to determine if it is a TBR. Here, the member CC in the current CC is a CC arranged within the boundary of the current CC, and has a high contrast with respect to the current CC. The region of member CC is completely within the boundaries of the current CC. The member CC can be extracted from the channel on the other side of the current CC. For example, a dark CC member CC may be a bright CC in a dark CC region, and a bright CC member CC may be a dark CC in a bright CC region.

メンバCCの統計は、例えば、CC中のメンバCCの数、メンバCCのシードCCの数、CC中のメンバCCの平均テキスト信頼度及びCC中のメンバCCの総面積とCCの面積との比のうちの少なくとも1つを含みうる。   The statistics of the member CC include, for example, the number of member CCs in the CC, the number of seed CCs of the member CC, the average text reliability of the member CC in the CC, and the ratio of the total area of the member CC and the area of the CC in the CC. At least one of them.

説明のために、CC中のメンバCCの数は閾値より多いことが好ましい。   For the sake of explanation, it is preferable that the number of member CCs in the CC is larger than the threshold.

メンバCCの間のシードCCの数は、閾値より多いことが好ましい。ここで、シードCCは、テキスト成分である可能性が非常に高いCCを示す。例えばシードCCは、事前定義済みの閾値より高いテキスト信頼度を有するCCであってよい。シードCCを選択するために、特徴の集合は、CCのテキスト信頼度を算出するためにCCから抽出されうる。   The number of seed CCs among the members CC is preferably larger than a threshold value. Here, the seed CC indicates a CC that is very likely to be a text component. For example, the seed CC may be a CC that has a text confidence higher than a predefined threshold. In order to select a seed CC, a set of features can be extracted from the CC to calculate the text reliability of the CC.

一例として、図8Dは、白線のボックスにおけるいくつかのシードCCを示す。   As an example, FIG. 8D shows several seed CCs in a white box.

シードCCを選択するために一般的に使用される特徴は、CCのサイズ、CCの幅/高さの比、CCの密度(すなわち、バウンディングボックス内のCC画素の占有率)、CCのストローク幅の統計的特徴及びCCの領域から抽出されたテクスチャ特徴を含みうる。一実施形態において、特徴は、テキスト信頼度を調整する際に規則として使用されうる。別の実施形態において、テキスト分類器は、テキストCC及び非テキストCCの双方を含む訓練集合に基づいて習得されうる。分類器は、CCの特徴を入力として使用し、CCのテキスト信頼度値を出力する。   Commonly used features for selecting the seed CC are: CC size, CC width / height ratio, CC density (ie occupancy of CC pixels in the bounding box), CC stroke width Statistical features and texture features extracted from the CC region. In one embodiment, features can be used as rules in adjusting text confidence. In another embodiment, the text classifier can be learned based on a training set that includes both text CC and non-text CC. The classifier uses CC features as input and outputs CC text confidence values.

[CCと他のTBRとの関係]
CCは、それがTBRであるかを判定するために、他のTBRとの関係に基づいてチェックされうる。一実施形態によると、少なくとも1つのCCと他のTBRとの関係に基づいてCCからTBRを選択することは、前に判定されたあらゆるTBRにおけるメンバCCではなく、且つ前に判定されたTBRと同一のメンバCCを有さないCCに応答して、CCをTBRとして判定することを含みうる。換言すると、TBRは、通常、互いに重複しないかあるいは互いを含まない。
[Relationship between CC and other TBRs]
A CC can be checked based on relationships with other TBRs to determine if it is a TBR. According to one embodiment, selecting a TBR from a CC based on the relationship between at least one CC and another TBR is not a member CC in any previously determined TBR, and the previously determined TBR In response to CCs that do not have the same member CC, may include determining the CC as a TBR. In other words, TBRs typically do not overlap with each other or do not include each other.

一例として、図4は、CCと他のTBRとの関係に基づいてCCがTBRであるかを判定する処理400を示す。   As an example, FIG. 4 shows a process 400 for determining whether a CC is a TBR based on the relationship between the CC and another TBR.

ブロック410において、現在のCCが前に判定されたTBRのメンバCCであるかを判定する。現在のCCは、前に判定されたTBRのメンバCCである場合にはTBRではないものとして識別される。現在のCCが前に判定されたTBRのメンバCCでない場合、処理400はブロック420に進み、現在のCCが前に判定されたTBRと同一のメンバCCを有するかを判定する。現在のCCは、前に判定されたTBRと同一のメンバCCを全く有さない場合にがTBRとして識別される。現在のCCが前に判定されたTBRと同一のメンバCCを有する場合、処理400はブロック430に進み、現在のCC及び前に判定されたTBRのうちのどちらがよりTBRのようであるかを判定する。現在のCCがよりTBRのようである場合、前に判定されたTBRはTBRの集合から除去され(ブロック440)、現在のCCはTBRとして識別される。前に判定されたTBRがよりTBRのようである場合、現在のCCは、TBRではないものとして識別される。   In block 410, it is determined whether the current CC is a previously determined member BR of the TBR. The current CC is identified as not being a TBR if it is a member CC of a previously determined TBR. If the current CC is not a previously determined TBR member CC, process 400 proceeds to block 420 to determine if the current CC has the same member CC as the previously determined TBR. The current CC is identified as a TBR if it does not have any member CC identical to the previously determined TBR. If the current CC has the same member CC as the previously determined TBR, process 400 proceeds to block 430 to determine which of the current CC or the previously determined TBR is more like a TBR. To do. If the current CC is more like a TBR, the previously determined TBR is removed from the set of TBRs (block 440) and the current CC is identified as a TBR. If the previously determined TBR is more like a TBR, the current CC is identified as not being a TBR.

ブロック430においてどちらがよりTBRのようであるかを判定する種々の方法があってよい。例えば、上述の基準、例えば境界線の規則性、CCの密度及びメンバCCの平均テキスト信頼度等のうちの1つ以上が使用されうる。   There may be various ways to determine which is more like TBR at block 430. For example, one or more of the above criteria may be used, such as boundary regularity, CC density, and member CC average text reliability.

再度、図3を参照する。画像からTBRが検出されているため、処理300はブロック320に進む。ブロック320において、CCフィルタリングステップは、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するために実行される。   FIG. 3 will be referred to again. Since TBR has been detected from the image, process 300 proceeds to block 320. In block 320, a CC filtering step is performed to filter at least one CC to ensure at least one candidate text CC.

特に及び好ましくは、CCからTBRを選択した後、残りのCCは、候補となるテキストCC及び非テキストCCを含む非TBR CCである。このステップの後、候補となるテキストCCが確保されるが、非テキストCCは除去される。   In particular and preferably, after selecting a TBR from a CC, the remaining CCs are non-TBR CCs including candidate text CCs and non-text CCs. After this step, candidate text CCs are reserved, but non-text CCs are removed.

一実施形態によると、TBR情報は、CCをフィルタリングするために使用される。TBRの境界内のCC及びあらゆるTBRの境界内にないCCの双方は、同一の規則に基づいてフィルタリングされることが好ましい。例えば、TBRの境界内のCC及びあらゆるTBRの境界内にないCCは、CCのサイズ、CCの形状、CCのバウンディングボックスのアスペクト比、CCとそのバウンディングボックスとの面積比、周長とCCとの面積の比及びCCのテクスチャ特徴のうちの少なくとも1つに基づいてフィルタリングされる。   According to one embodiment, TBR information is used to filter CCs. Both CCs within the TBR boundary and CCs not within any TBR boundary are preferably filtered based on the same rule. For example, a CC within a TBR boundary and a CC that is not within any TBR boundary are: CC size, CC shape, CC bounding box aspect ratio, CC to its bounding box area ratio, perimeter and CC Based on at least one of the area ratio and the texture feature of CC.

好ましくは、CCをフィルタリングする場合、CCのサイズは、経験値に基づいて所定の範囲にあるものとして選択されうる。テキストCCのアスペクト比が、通常、高すぎないため、CCのバウンディングボックスのアスペクト比は、所定の閾値より低いものとして選択されうる。CCとそのバウンディングボックスとの面積比は、低すぎるべきではなく、経験値に従って所定の閾値より高いものとして選択されうる。CCの面積比に対する周長は、所定の閾値より短くなりうる。ノイズCCの面積比に対する周長が、通常、相対的に長いため、これはノイズCCを除去するためである。CCから抽出されたウェーブレット、Gabor、LBP等のテクスチャ特徴は、テキスト信頼度を算出するために使用されうるため、CCをフィルタリングする際に組み込まれうる。   Preferably, when filtering CC, the size of CC may be selected as being in a predetermined range based on experience values. Since the aspect ratio of the text CC is usually not too high, the aspect ratio of the bounding box of the CC can be selected as being lower than a predetermined threshold. The area ratio between the CC and its bounding box should not be too low and can be selected as higher than a predetermined threshold according to experience. The circumference with respect to the area ratio of CC can be shorter than a predetermined threshold. This is because the perimeter of the noise CC relative to the area ratio is usually relatively long, so that the noise CC is removed. Texture features such as wavelets, Gabor, LBP, etc. extracted from the CC can be used to calculate the text reliability and can therefore be incorporated when filtering the CC.

尚、テキストは、TBRの外よりTBR内に現れる可能性がより高い。従って、別の実施形態によると、TBR情報は、フィルタリングの効率及び精度を更に向上させるために、CCをフィルタリングする際に使用されうる。   Note that text is more likely to appear in the TBR than outside the TBR. Thus, according to another embodiment, TBR information can be used when filtering CCs to further improve the efficiency and accuracy of filtering.

特に、例えばCCフィルタリングステップにおいて、あらゆるTBRの境界内にないCCに対するフィルタリングは、TBRの境界内のCCに対するフィルタリングより厳しくてよい。別の例の場合、あらゆるTBRの境界内にないCCは、TBRの境界内のCCより多くの規則によりフィルタリングされうる。   In particular, the filtering for CCs that are not within the boundaries of any TBR, for example in the CC filtering step, may be stricter than the filtering for CCs within the boundaries of the TBR. In another example, CCs that are not within the boundaries of any TBR may be filtered by more rules than CCs that are within the boundaries of the TBR.

これは、あらゆるTBRの境界内にないものとして判定されるCCが算出された相対的に低いテキスト信頼度を有する結果、ノイズを被りやすいためである。従って、微フィルタリングは、非テキストCCを除去するために実行されうる。   This is because it is likely to suffer noise as a result of having a relatively low text reliability with which the CC determined to be not within the boundaries of any TBR is calculated. Thus, fine filtering can be performed to remove non-text CCs.

あらゆるTBRの境界内にないCCは、ストローク幅の統計及び/又はCCの境界線画素数とCCの画素数との比に更に基づいてフィルタリングされうることが好ましい。例えばストローク幅の統計は、ストローク幅の分散と平均ストローク幅との比を含みうる。   Preferably, CCs that are not within the boundaries of any TBR can be filtered further based on stroke width statistics and / or the ratio of CC border pixels to CC pixels. For example, the stroke width statistics may include a ratio of stroke width variance to average stroke width.

図8Dは、フィルタリングの結果を示す。確保されたテキスト候補CCは、黒線又は白線で描画されたバウンディングボックスにより示される。ここで、白線のバウンディングボックスはシードCCを示し、黒線のバウンディングボックスは非シードCCを示す。図8Bと比較して、CCの一部、特にTBRの外側に配置されたCCは除去される。   FIG. 8D shows the result of filtering. The reserved text candidate CC is indicated by a bounding box drawn with a black line or a white line. Here, a white line bounding box indicates a seed CC, and a black line bounding box indicates a non-seed CC. Compared to FIG. 8B, a part of the CC, particularly the CC arranged outside the TBR, is removed.

CCのフィルタリングを実行する例示的な方法を示すために、以下において2つの実施形態を説明する。   In order to illustrate an exemplary method for performing CC filtering, two embodiments are described below.

図5Aは、本発明の一実施形態に係る図3のCCフィルタリングステップを示すフローチャートである。   FIG. 5A is a flowchart illustrating the CC filtering step of FIG. 3 according to an embodiment of the present invention.

図5Aにおいて、非TBR CCの各々に対するテキスト信頼度は、CCがあらゆるTBRの境界内に配置されるかに基づいて算出される。   In FIG. 5A, the text reliability for each of the non-TBR CCs is calculated based on whether the CC is located within the boundaries of every TBR.

ブロック510において、各非TBR CCのテキスト信頼度は、TBR情報に基づいて算出される。計算において、CCIRはCCORより重視される。   At block 510, the text reliability of each non-TBR CC is calculated based on the TBR information. In calculation, CCIR is more important than CCOR.

ブロック520において、CCのテキスト信頼度が事前定義済みの閾値Tより高いかを判定する。テキスト信頼度が閾値より高い場合、CCはテキスト候補CCとして判定される。テキスト信頼度が閾値より低い場合、CCは非テキストCCとして判定される。   At block 520, it is determined whether the text reliability of the CC is higher than a predefined threshold T. If the text reliability is higher than the threshold, the CC is determined as a text candidate CC. If the text reliability is lower than the threshold, the CC is determined as a non-text CC.

本実施形態の特定の一例は、以下の通り提供される。現在のCCのテキスト信頼度は、ベイズの定理により規定されうる。
P(A|B)=P(B|A)P(A)/P(B)
式中、P(A)は事前確率であり、P(B|A)は条件付き確率であり、P(A|B)は事後確率である。
A specific example of this embodiment is provided as follows. The text reliability of the current CC can be defined by Bayes' theorem.
P (A | B) = P (B | A) P (A) / P (B)
Where P (A) is the prior probability, P (B | A) is the conditional probability, and P (A | B) is the posterior probability.

CCのフィルタリングの特定の例を考慮すると、Aは、ある特定のCCのラベル(テキスト又は非テキスト)を示す確率変数である。P(A)は、現在のCCのテキスト存在の事前確率を表す。P(A)はTBRにより判定されうる。CCIRは、CCORより高いP(A)を与えられうる。   Considering a specific example of CC filtering, A is a random variable that indicates a particular CC label (text or non-text). P (A) represents the prior probability of text presence of the current CC. P (A) can be determined by TBR. CCIR can be given a higher P (A) than CCOR.

P(B|A)は、テキスト存在の条件付き確率である。P(B|A)は、テキスト領域が何に見えるかを説明する。従って、値は、テキスト領域自体から抽出されたテキスト特徴に基づいて算出される。P(B)は、現在のCCの存在確率である。CCが固定される場合、P(B)は一定値である。   P (B | A) is the conditional probability of text presence. P (B | A) describes what the text area looks like. Thus, the value is calculated based on the text features extracted from the text area itself. P (B) is the existence probability of the current CC. When CC is fixed, P (B) is a constant value.

P(A|B)は、現在のCCのテキスト信頼度である。P(A|B)は、CC自体のテキスト特徴及びCCに関連したTBR情報の双方による影響を受ける。事前定義済みの閾値より高いP(A|B)値を有するCCは、テキスト候補CCとして確保される。   P (A | B) is the text reliability of the current CC. P (A | B) is affected by both the text characteristics of the CC itself and the TBR information associated with the CC. CCs having a P (A | B) value higher than a predefined threshold are reserved as text candidate CCs.

この例において、CCIRに対するP(A)/P(B)は1として設定可能であり、CCORに対するP(A)/P(B)は、(0,1)の範囲の値として設定可能である。   In this example, P (A) / P (B) for CCIR can be set as 1, and P (A) / P (B) for CCOR can be set as a value in the range of (0, 1). .

図5Bは、本発明の別の実施形態に係るCCのフィルタリングを示すフローチャートである。   FIG. 5B is a flowchart illustrating CC filtering according to another embodiment of the present invention.

図5Bにおいて、フィルタリングは、TBR情報に基づいていくつかの段階、例えば2つの段階で非TBR CCに対して実行される。例えば2つの段階は、粗フィルタリング及び微細フィルタリングを含む。全ての非TBR CCは粗フィルタリングにかけられるが、あらゆるTBRの境界外のCCのみが微細フィルタリングにかけられてもよい。単純な特徴は粗フィルタリングの際に使用可能であり、より複雑な特徴は微細フィルタリングの際に使用可能である。従って、あらゆるTBRの境界内にないCCに対するフィルタリングは、TBRの境界内のCCに対するフィルタリングより厳しく行われる。従って、微細フィルタリングにかけられるCCの量は減少し、方法の効率は向上する。   In FIG. 5B, filtering is performed on non-TBR CCs in several stages, eg, two stages, based on TBR information. For example, the two stages include coarse filtering and fine filtering. All non-TBR CCs are subject to coarse filtering, but only CCs outside any TBR boundary may be subject to fine filtering. Simple features can be used during coarse filtering, and more complex features can be used during fine filtering. Therefore, filtering for CCs that are not within the boundaries of any TBR is more severe than filtering for CCs that are within the boundaries of the TBR. Thus, the amount of CC subjected to fine filtering is reduced and the efficiency of the method is improved.

ブロック530において、非TBR CCは、CCIR、すなわちあらゆるTBRの境界内のCCと、CCOR、すなわちあらゆるTBRの境界内にないCCとの2つのグループに分離される。   At block 530, the non-TBR CCs are separated into two groups: CCIRs, ie CCs within any TBR boundary, and CCORs, CCs not within any TBR boundary.

ブロック540において、粗フィルタリング等の第1のフィルタリングステップは、全ての非TBR CCに対して実行される。特に、非TBR CCの各々は、候補となるテキストCC又は非テキストCCとして判定される。   At block 540, a first filtering step, such as coarse filtering, is performed for all non-TBR CCs. In particular, each non-TBR CC is determined as a candidate text CC or non-text CC.

第1のフィルタリングステップは、CCが候補となるテキストCCであるかを判定するために、非TBR CCの各々の1つ以上の第1の特徴に基づいて実行されうる。第1の特徴は、CCから抽出され、CCのサイズ、CCの形状、CCのバウンディングボックスのアスペクト比、CCの密度(CCとそのバウンディングボックスの面積比)、CCの面積比に対する周長及びCCのテクスチャ特徴を含むがそれらに限定されない相対的に単純な特徴であってよい。一例として、テクスチャ特徴は、ローカルバイナリパターン、エッジ方向ヒストグラム及び勾配のヒストグラムを含みうるが、それらに限定されない。   The first filtering step may be performed based on one or more first features of each of the non-TBR CCs to determine whether the CC is a candidate text CC. The first feature is extracted from the CC, the size of the CC, the shape of the CC, the aspect ratio of the bounding box of the CC, the density of the CC (the area ratio of the CC and its bounding box), the perimeter to the area ratio of the CC, and the CC May be relatively simple features including, but not limited to. As an example, texture features may include, but are not limited to, local binary patterns, edge direction histograms, and gradient histograms.

第1の特徴は、カスケード規則として使用されうるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされうる。カスケード規則の閾値又は分類器は、テキストサンプル及び非テキストサンプルの双方から習得されうる。カスケード規則がフィルタリングの際に使用される場合、各入力CCは事前定義済みの規則によりチェック可能であり、規則の少なくとも1つを満たさないCCは除去される。   The first feature can be used as a cascade rule or can be combined as a feature vector that is input to a training classifier. Cascade rule thresholds or classifiers can be learned from both text samples and non-text samples. When cascade rules are used in filtering, each input CC can be checked by a predefined rule, and CCs that do not satisfy at least one of the rules are removed.

ブロック550において、微細フィルタリング等の第2のフィルタリングステップは、候補となるテキストCCORが候補となるテキストCCであるかを更に判定するために、候補となるテキストCCOR、すなわち第1のフィルタリングステップにより候補となるテキストCCとして判定されるCCORの各々に対して実行される。CCORが、ブロック540において候補となるテキストCCとして判定されたとしてもノイズを被りやすいため、第2のフィルタリングは非テキストCCを更に除去してよい。   In block 550, a second filtering step, such as fine filtering, is performed by the candidate text CCOR, ie, the first filtering step, to further determine whether the candidate text CCOR is a candidate text CC. It is executed for each CCOR determined as a text CC. Even if the CCOR is determined as a candidate text CC in block 540, the second filtering may further remove non-text CCs because it is susceptible to noise.

第2のフィルタリングステップにおいて、ブロック540において使用された特徴に対してより厳しい条件が採用されてよく、且つ/あるいはフィルタリングのためにいくつかの他の特徴が使用されてよい。他の特徴は、ストローク幅の統計(例えば、ストローク幅の分散と平均ストローク幅との比)及び/又は境界線画素数とCC画素数との比)を含みうる。   In the second filtering step, more stringent conditions may be employed for the features used in block 540 and / or some other features may be used for filtering. Other features may include stroke width statistics (eg, ratio of stroke width variance to average stroke width) and / or ratio of borderline pixel number to CC pixel number).

第1のフィルタリングステップと同様に、第2のフィルタリングに対する特徴は、カスケード規則として使用されうるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされうる。カスケード規則の閾値又は分類器は、テキストサンプル及び非テキストサンプルの双方から習得されうる。カスケード規則がフィルタリングの際に使用される場合、各入力CCは事前定義済みの規則によりチェック可能であり、規則の少なくとも1つを満たさないCCは除去される。   Similar to the first filtering step, the features for the second filtering can be used as cascade rules or can be combined as feature vectors that are input to the training classifier. Cascade rule thresholds or classifiers can be learned from both text samples and non-text samples. When cascade rules are used in filtering, each input CC can be checked by a predefined rule, and CCs that do not satisfy at least one of the rules are removed.

図5Cは、訓練分類器を使用するCCのフィルタリングを示すフローチャートである。図5Cの方法は、第1のフィルタリングステップ及び第2のフィルタリングステップの双方に適用可能である。図5Cにおいて、テキストサンプル及び非テキストサンプルを含む訓練サンプルは、分類器を訓練するために使用される。CCは、テキスト候補CCを取得するために訓練分類器により分類される。訓練及び分類のために抽出された特徴は、第1のフィルタリング及び第2のフィルタリングに関連して上述した特徴である。本発明の主題を不必要に不明確にすることを回避するために、フローチャートに関する更なる詳細については説明しない。   FIG. 5C is a flowchart illustrating CC filtering using a training classifier. The method of FIG. 5C is applicable to both the first filtering step and the second filtering step. In FIG. 5C, training samples including text samples and non-text samples are used to train the classifier. CCs are classified by a training classifier to obtain text candidate CCs. The features extracted for training and classification are the features described above in connection with the first filtering and the second filtering. In order to avoid unnecessarily obscuring the subject matter of the present invention, no further details regarding the flowchart will be described.

再度、図3を参照する。候補となるテキストCCを取得した後、処理300はブロック330に進む。ブロック330において、CCグループ化ステップは、TBR検出ステップにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するために実行される。   FIG. 3 will be referred to again. After obtaining the candidate text CC, the process 300 proceeds to block 330. In block 330, the CC grouping step groups at least one candidate text CC based on the TBR detected in the TBR detection step to form at least one CC group, and based on the at least one CC group Executed to generate at least one text region.

CCグループ化ステップ330を実行する例示的なフローチャートを図6に示す。図6に示されるように、CCグループ化ステップ330は、ステップ610〜630を含みうる。   An exemplary flowchart for performing the CC grouping step 330 is shown in FIG. As shown in FIG. 6, the CC grouping step 330 may include steps 610-630.

CCグループ化ステップに対する入力は、候補となるテキストCCである。   The input to the CC grouping step is a candidate text CC.

ステップ610において、候補となるテキストCCは、それぞれのテキスト背景領域に割り当てられる。TBRに割り当て不可能な候補となるテキストCCは、外側領域に割り当てられる。   In step 610, candidate text CCs are assigned to respective text background regions. The text CC that is a candidate that cannot be assigned to the TBR is assigned to the outer area.

ステップ610は、図5Bのブロック530に示されるようなステップに類似する。従って、ステップ610についての説明は省略する。尚、ステップ310でTBRが検出されない場合、全てのCCは外側領域にある。候補となるテキストCCを割り当てた後、ステップ620に進む。   Step 610 is similar to the step as shown in block 530 of FIG. 5B. Therefore, the description about step 610 is omitted. If no TBR is detected in step 310, all CCs are in the outer region. After assigning the candidate text CC, the process proceeds to step 620.

ステップ620において、各TBR及び外側領域のCCは、それぞれ、グループ化されてCCグループを形成する。   In step 620, each TBR and outer region CCs are grouped together to form a CC group.

このステップにおいて、1つの領域のCCは、空間関係及び外観の類似性に基づいてグループ化される。図6のグループ化ステップ620を実行する例示的なフローチャートを図7に示す。   In this step, the CCs in one region are grouped based on spatial relationships and appearance similarities. An exemplary flowchart for performing the grouping step 620 of FIG. 6 is shown in FIG.

図7に示されるように、グループ化ステップ620は、ステップ6201〜6203を含みうる。   As shown in FIG. 7, the grouping step 620 may include steps 6201-6203.

ステップ6201において、各TBR及び外側領域のCCは、暗い領域の明るいCCの集合及び明るい領域の暗いCCの集合に分割される。   In step 6201, each TBR and outer region CC is divided into a dark region set of bright CCs and a bright region set of dark CCs.

ステップ6202において、CCグループは、それぞれ、明るいCCの集合及び暗いCCの集合内に生成される。   In step 6202, CC groups are created in the bright CC and dark CC sets, respectively.

好ましい一実施形態によると、CCグループはCCクラスタリングにより生成されうる。CCクラスタリングは、ある特定の方向に従うCCの中心の位置合わせ、CCのサイズの類似性、CCの形状の類似性、CCの色又はグレースケールの類似性、CCのストローク幅の類似性及びCC間の距離の制約のうちの1つ以上を使用する。   According to a preferred embodiment, CC groups can be generated by CC clustering. CC clustering is the alignment of CC centers according to a certain direction, CC size similarity, CC shape similarity, CC color or grayscale similarity, CC stroke width similarity and between CCs. Use one or more of the distance constraints.

別の実施形態によると、CCグループは、最初にハフ変換により生成される。ハフ変換の結果、1つの行上に中心があるCCは共にグループ化される。次に、生成されたCCグループに含まれたCCは、上記の制約を使用してフィルタリングされる。   According to another embodiment, the CC group is first generated by a Hough transform. As a result of the Hough transform, CCs centered on one row are grouped together. Next, CCs included in the generated CC group are filtered using the above constraints.

ステップ6203において、明るいCC及び暗いCCが、それぞれ、ステップ6202でグループ化された後、明るいCCの集合及び暗いCCの集合は、空間関係及び/又は外観の類似性に基づいて組み合わされる。   In step 6203, the bright CC and dark CC are grouped in step 6202, respectively, and then the bright CC set and dark CC set are combined based on spatial relationships and / or appearance similarities.

ステップ6203でCCグループを組み合わせるために一般的に使用される特徴は、例えば、2つのある特定のグループのバウンディングボックスの重複率、サイズの類似性(サイズの差は、2つのグループの高さの最大値より低いことが好ましい)及び行方向の類似性(方向の差は、30度より小さいことが好ましい)を含む。上記の特徴の1つ又はあらゆる組合せが実際に使用されてもよい。   Features commonly used to combine CC groups in step 6203 are, for example, the bounding box overlap rate of two specific groups, the size similarity (the difference in size is the height of the two groups Lower than the maximum value) and row direction similarity (direction difference is preferably less than 30 degrees). One or any combination of the above features may actually be used.

ステップ6203の完了後、各TBR及び外側領域のCCグループがそれぞれ形成されている。図6のステップ630に進む。   After the completion of step 6203, each TBR and outer area CC group are formed. Proceed to step 630 in FIG.

ステップ630において、各TBR及び外側領域間の種々の領域からのCCグループは、組み合わされてテキスト領域を生成する。   In step 630, CC groups from various regions between each TBR and the outer region are combined to produce a text region.

このステップにおいて、種々の領域からのCCグループは、行方向の整合性、CCの平均サイズの類似性、CCの平均ストローク幅の類似性及びCCの平均的な色又はグレースケールの類似性のうちの少なくとも1つに基づいて組み合わされる。   In this step, CC groups from different regions are classified into row direction consistency, CC average size similarity, CC average stroke width similarity and CC average color or grayscale similarity. Based on at least one of

種々の領域からのCCグループを組み合わせる規則は、1つの領域からのCCグループをグループ化する規則より厳しくてよいことが好ましい。種々の領域からのCCグループが互いに重複しないため、バウンディングボックスの重複率は使用されなくてもよい。   The rules for combining CC groups from different regions are preferably stricter than the rules for grouping CC groups from one region. Since CC groups from various regions do not overlap each other, the overlapping rate of bounding boxes may not be used.

CCグループ化ステップ330は、ステップ630が完了する時に完了する。   CC grouping step 330 is completed when step 630 is completed.

図8Eは、CCグループ化ステップ330の結果を示す。候補となるテキストCCは、同一の文字列に属するCCが白線を使用して接続されるテキスト行/単語にグループ化されていることが図8Eからわかるだろう。   FIG. 8E shows the result of the CC grouping step 330. It can be seen from FIG. 8E that candidate text CCs are grouped into text lines / words to which CCs belonging to the same string are connected using white lines.

テキスト検出方法300は、CCグループ化ステップ330が完了する時に終了する。   The text detection method 300 ends when the CC grouping step 330 is completed.

図8Fは、テキスト検出方法300の結果を示す。テキスト行/単語のバウンディングボックスに基づくテキスト領域は、入力画像から検出されていることが分かりうる。最後に検出されたテキスト領域は、白線のボックスで示される。   FIG. 8F shows the result of the text detection method 300. It can be seen that the text region based on the text line / word bounding box has been detected from the input image. The last detected text area is indicated by a white line box.

次に、本発明の一実施形態に係る画像においてテキスト領域を検出するテキスト検出装置900のブロック図を示す図9を参照する。装置900は、図3〜図7を参照して説明した方法を実現するために使用されうる。簡潔にするために、図3〜図7を参照して説明したものに類似するいくつかの詳細をここでは省略する。しかし、これらの詳細も装置900に適用可能であってもよいことが理解されるだろう。   Reference is now made to FIG. 9 showing a block diagram of a text detection device 900 that detects text regions in an image according to an embodiment of the present invention. The apparatus 900 can be used to implement the method described with reference to FIGS. For brevity, some details similar to those described with reference to FIGS. 3-7 are omitted here. However, it will be understood that these details may also be applicable to apparatus 900.

図9に示されるような一実施形態によると、テキスト検出装置900は、テキスト背景領域(TBR)検出ユニット910と、CCフィルタリングユニット920と、CCグループ化ユニット930とを備える。   According to one embodiment as shown in FIG. 9, the text detection device 900 comprises a text background region (TBR) detection unit 910, a CC filtering unit 920, and a CC grouping unit 930.

テキスト背景領域(TBR)検出ユニット910は、画像からTBRを検出するように構成されうる。   Text background region (TBR) detection unit 910 may be configured to detect TBR from an image.

CCフィルタリングユニット920は、少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するように構成されうる。   CC filtering unit 920 may be configured to filter at least one CC to ensure at least one candidate text CC.

CCグループ化ユニット930は、TBR検出ユニットにおいて検出されたTBRに基づいて少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するように構成されうる。   The CC grouping unit 930 groups at least one candidate text CC based on the TBR detected in the TBR detection unit to form at least one CC group, and at least one based on the at least one CC group. Can be configured to generate one text region.

本明細書において、TBRは、画像中のテキストの周囲領域として規定されてよく、規則的な境界線及び均一な色又はグレースケールを有する。   As used herein, a TBR may be defined as the surrounding area of text in an image and has a regular border and a uniform color or gray scale.

一実施形態によると、TBR検出ユニット910は、少なくとも1つのCCの特徴、少なくとも1つのCCの境界内に配置されたCCであり、少なくとも1つのCCに対して高いコントラストを有する少なくとも1つのCC中のメンバCCの統計、及び少なくとも1つのCCと他のTBRとの間の関係のうちの少なくとも1つに基づいて、少なくとも1つのCCからTBRを選択するように構成されうる。   According to one embodiment, the TBR detection unit 910 is a CC located within the boundary of at least one CC, at least one CC boundary, and in at least one CC having a high contrast to the at least one CC. May be configured to select a TBR from at least one CC based on at least one of the statistics of the member CCs and the relationship between the at least one CC and another TBR.

例えば、少なくとも1つのCCの特徴は、CCの色又はグレースケールの均一性、CCのサイズ、CCの形状、CCの境界線の規則性、画像中のCCの位置、CCの平均グレースケール値及びCCのグレースケール値分布のうちの少なくとも1つを含みうる。   For example, at least one CC feature includes CC color or gray scale uniformity, CC size, CC shape, CC border regularity, CC location in the image, CC average gray scale value, and It may include at least one of a CC grayscale value distribution.

例えば、メンバCCの統計は、CC中のメンバCCの数、第1の事前定義済みの閾値より高いテキスト信頼度を有するメンバCCのシードCCの数、CC中のメンバCCの平均テキスト信頼度及びCC中のメンバCCの総面積とCCの面積との比のうちの少なくとも1つを含みうる。   For example, the statistics of member CC may include the number of members CC in the CC, the number of seed CCs of members CC that have a text confidence higher than the first predefined threshold, the average text confidence of members CC in the CC, It may include at least one of the ratio of the total area of the members CC in CC and the area of CC.

例えば、少なくとも1つのCCと他のTBRとの間の関係に基づいて少なくとも1つのCCからTBRを選択することは、前に判定されたあらゆるTBRにおけるメンバCCではなく、且つ前に判定されたTBRと同一のメンバCCを有さないCCに応答して、CCをTBRとして判定することを含みうる。これは、TBR検出ユニット910により図4に示されたようなフローチャートを実行することで実現されうる。   For example, selecting a TBR from at least one CC based on the relationship between at least one CC and another TBR is not a member CC in any previously determined TBR, and the previously determined TBR And determining a CC as a TBR in response to a CC that does not have the same member CC. This can be realized by executing the flowchart as shown in FIG. 4 by the TBR detection unit 910.

一実施形態によると、CCフィルタリングユニット920において、あらゆるTBRの境界内にないCCに対するフィルタリングは、あらゆるTBRの境界内のCCに対するフィルタリングより厳しくてよい。   According to one embodiment, in CC filtering unit 920, filtering for CCs that are not within the boundaries of any TBR may be stricter than filtering for CCs that are within the boundaries of any TBR.

一実施形態によると、CCフィルタリングユニット920は、以下の条件、すなわちCCのサイズ、CCの形状、CCのバウンディングボックスのアスペクト比、CCとそのバウンディングボックスの面積比、周長とCCの面積との比及びCCのテクスチャ特徴のうちの少なくとも1つに基づいて、あらゆるTBRの境界内のCC及びあらゆるTBRの境界内にないCCをフィルタリングするように構成される。CCフィルタリングユニット920は、更に以下の条件、すなわちストローク幅の統計及びCCの境界線画素数とCCの画素数との比の少なくとも一方に基づいて、あらゆるTBR内にないCCをフィルタリングするように構成される。   According to one embodiment, the CC filtering unit 920 includes the following conditions: CC size, CC shape, CC bounding box aspect ratio, CC to its bounding box area ratio, perimeter and CC area. Based on at least one of the ratio and the texture feature of the CC, it is configured to filter CCs within any TBR boundary and CCs not within any TBR boundary. The CC filtering unit 920 is further configured to filter CCs that are not in any TBR based on at least one of the following conditions: stroke width statistics and CC border pixel number to CC pixel number. The

図10Aは、本発明の一実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。   10A is a block diagram illustrating the CC filtering unit of FIG. 9 according to an embodiment of the present invention.

図10Aに示されるように、一実施形態によると、CCフィルタリングユニット920は、TBR以外の少なくとも1つのCCの各々のテキスト信頼度を算出するように構成された算出ユニット1010であり、計算において、あらゆるTBRの境界内のCCが他のCCより重視される算出ユニット1010と、事前定義済みの閾値より高いテキスト信頼度を有するCCをテキスト候補CCとして判定するように構成された判定ユニット1020とを備える。   As shown in FIG. 10A, according to one embodiment, the CC filtering unit 920 is a calculation unit 1010 configured to calculate the text reliability of each of at least one CC other than TBR, A calculation unit 1010 in which CCs in every TBR boundary are more important than other CCs, and a determination unit 1020 configured to determine CCs having text reliability higher than a predefined threshold as text candidate CCs. Prepare.

図10Bは、本発明の別の実施形態に係る図9のCCフィルタリングユニットを示すブロック図である。   10B is a block diagram illustrating the CC filtering unit of FIG. 9 according to another embodiment of the present invention.

図10Bに示されるように、別の一実施形態によると、CCフィルタリングユニット920は、TBR以外の少なくとも1つのCC毎に、CCがあらゆるTBRの境界内に配置されることに応答して、CCを第1のCCとして識別するか、あるいはCCを第2のCCとして識別するように構成された識別ユニット1102と、CCがテキスト候補CCであるかを判定するために、第1のCC及び第2のCCの各々に対して第1のフィルタリングステップを実行するように構成された第1のフィルタリングユニット1104と、CCがテキスト候補CCであるかを更に判定するために、第1のフィルタリングステップによりテキスト候補CCとして判定される第2のCCの各々に対して第2のフィルタリングステップを実行するように構成された第2のフィルタリングユニット1106とを備える。   As shown in FIG. 10B, according to another embodiment, the CC filtering unit 920 is responsive to CCs being placed within the boundaries of every TBR for every at least one CC other than a TBR. In order to determine whether the CC is a text candidate CC and an identification unit 1102 configured to identify the CC as a first CC or a CC as a second CC A first filtering unit 1104 configured to perform a first filtering step for each of the two CCs, and a first filtering step to further determine whether the CC is a text candidate CC. Configured to perform a second filtering step for each second CC determined as a text candidate CC. And a second filtering unit 1106.

一実施形態によると、第1のフィルタリングユニット1104は、CCがテキスト候補CCであるかを判定するように、CCの1つ以上の第1の特徴に基づいて第1のフィルタリングステップを実行するように更に構成されうる。   According to one embodiment, the first filtering unit 1104 performs a first filtering step based on one or more first characteristics of the CC so as to determine whether the CC is a text candidate CC. Can be further configured.

一実施形態によると、第2のフィルタリングユニット1106は、CCがテキスト候補CCであるかを更に判定するように、CCの1つ以上の第2の特徴に基づいて第2のフィルタリングステップを実行するように更に構成されうる。   According to one embodiment, the second filtering unit 1106 performs a second filtering step based on one or more second characteristics of the CC to further determine whether the CC is a text candidate CC. Can be further configured.

図11Aは、本発明の一実施形態に係る図9のCCグループ化ユニット930を示すブロック図である。   FIG. 11A is a block diagram illustrating the CC grouping unit 930 of FIG. 9 according to an embodiment of the present invention.

一実施形態によると、CCグループ化ユニット930は、割り当てユニット9301と、グループ化ユニット9302と、第1の組み合わせユニット9303とを更に備えうる。   According to an embodiment, the CC grouping unit 930 may further comprise an allocation unit 9301, a grouping unit 9302, and a first combination unit 9303.

割り当てユニット9301は、候補となるテキストCCをそれぞれのテキスト背景領域に割り当て、且つTBRに割り当て不可能な候補となるテキストCCを外側領域に割り当てるように構成されうる。   The assignment unit 9301 may be configured to assign candidate text CCs to respective text background regions and assign candidate text CCs that cannot be assigned to TBRs to outer regions.

グループ化ユニット9302は、各TBR及び外側領域のCCをそれぞれグループ化してCCグループを形成するように構成されうる。   The grouping unit 9302 may be configured to group CCs in each TBR and outer region to form a CC group.

第1の組み合わせユニット9303は、各TBR及び外側領域間の種々の領域からのCCグループを組み合わせて前記少なくとも1つのテキスト領域を生成するように構成されうる。   The first combination unit 9303 may be configured to combine the CC groups from various regions between each TBR and the outer region to generate the at least one text region.

一実施形態によると、第1の組み合わせユニット9303は、以下の条件、すなわち行方向の整合性、CCグループのグループバウンディングボックスの重複率、CCの平均サイズの類似性、CCの平均ストローク幅の類似性及びCCの平均的な色又はグレースケールの類似性のうちの少なくとも1つに基づいて、種々の領域からのCCグループを組み合わせるように構成されうる。   According to one embodiment, the first combination unit 9303 includes the following conditions: row direction consistency, CC group group bounding box overlap rate, CC average size similarity, CC average stroke width similarity. Based on at least one of sex and the average color or grayscale similarity of CCs, it can be configured to combine CC groups from different regions.

図11Bは、本発明の一実施形態に係る図11Aのグループ化ユニット9302を示すブロック図である。   FIG. 11B is a block diagram illustrating the grouping unit 9302 of FIG. 11A according to one embodiment of the invention.

一実施形態によると、グループ化ユニット9302は、分割ユニット9302−1と、生成ユニット9302−2と、第2の組み合わせユニット9302−3とを更に備えうる。   According to an embodiment, the grouping unit 9302 may further comprise a split unit 9302-1, a generation unit 9302-2, and a second combination unit 9302-3.

分割ユニット9302−1は、各TBR及び外側領域のCCを暗い領域の明るいCCの集合及び明るい領域の暗いCCの集合に分割するように構成されうる。   The division unit 9302-1 may be configured to divide each TBR and outer area CC into a dark CC set of bright CCs and a dark CC set of bright areas.

生成ユニット9302−2は、それぞれ明るいCCの集合及び暗いCCの集合内にCCグループを生成するように構成されうる。   Generation unit 9302-2 may be configured to generate CC groups within a set of bright CCs and a set of dark CCs, respectively.

第2の組み合わせユニット9302−3は、空間関係及び外観の類似性のうちの少なくとも1つに基づいて、明るいCCの集合と暗いCCの集合とを組み合わせるように構成されうる。   Second combination unit 9302-3 may be configured to combine a set of bright CCs and a set of dark CCs based on at least one of spatial relationships and appearance similarities.

一実施形態によると、生成ユニット9302−2において、CCグループはCCクラスタリングにより生成されうる。CCクラスタリングは、以下の制約、すなわちある特定の方向に従うCCの中心の位置合わせ、CCのサイズの類似性、CCの形状の類似性、CCの色又はグレースケールの類似性、CCのストローク幅の類似性及びCC間の距離のうちの少なくとも1つを使用してよい。   According to an embodiment, in the generation unit 9302-2, the CC group may be generated by CC clustering. CC clustering consists of the following constraints: CC center alignment according to a certain direction, CC size similarity, CC shape similarity, CC color or grayscale similarity, CC stroke width At least one of similarity and distance between CCs may be used.

一実施形態によると、生成ユニット9302−2は、ハフ変換によりCCグループを生成し、且つ以下の制約、すなわちある特定の方向に従うCCの中心の位置合わせ、CCのサイズの類似性、CCの形状の類似性、CCの色又はグレースケールの類似性、CCのストローク幅の類似性及びCC間の距離のうちの少なくとも1つを使用して生成されたCCグループに含まれたCCをフィルタリングするように更に構成されうる。   According to one embodiment, the generating unit 9302-2 generates a CC group by Hough transform, and the following constraints: CC center alignment according to a certain direction, CC size similarity, CC shape Filtering CCs included in a CC group generated using at least one of: similarity, CC color or grayscale similarity, CC stroke width similarity, and distance between CCs Can be further configured.

一実施形態によると、第1の組み合わせユニット9303において組み合わせることに対する規則は、グループ化ユニット9302においてグループ化することに対する規則より厳しくてよい。   According to one embodiment, the rules for combining in the first combination unit 9303 may be stricter than the rules for grouping in the grouping unit 9302.

本発明に係るテキスト検出の方法及び装置は、種々の適応例を有する。例えばそれは、カメラが取り込んだ画像又は映像からテキスト情報を自動的に抽出する際に使用されうる。   The text detection method and apparatus according to the present invention have various adaptation examples. For example, it can be used in automatically extracting text information from images or video captured by a camera.

図12は、本発明の一実施形態に係るテキスト情報抽出方法を示す。   FIG. 12 shows a text information extraction method according to an embodiment of the present invention.

図12に示されるように、ブロック1210において、入力画像又は入力映像からのテキスト領域は、図3〜図7を参照して説明したテキスト検出方法に係るテキスト検出方法を使用して検出される。   As shown in FIG. 12, in block 1210, a text region from an input image or input video is detected using the text detection method according to the text detection method described with reference to FIGS.

ブロック1220において、テキストは、検出されたテキスト領域から抽出されうる。選択的に、ブロック1240において示されるように、入力映像中のテキストは、入力映像からテキスト領域を検出する際に追跡されうる。   At block 1220, text may be extracted from the detected text region. Optionally, as shown in block 1240, text in the input video can be tracked in detecting text regions from the input video.

ブロック1230において、テキスト認識は、抽出されたテキストに対して実行されてテキスト情報を取得しうる。   At block 1230, text recognition may be performed on the extracted text to obtain text information.

次に、本発明の一実施形態に係るテキスト情報抽出システム1300のブロック図を示す図13を参照する。システム1300は、図12を参照して説明した方法を実現するために使用されうる。   Reference is now made to FIG. 13 showing a block diagram of a text information extraction system 1300 according to an embodiment of the present invention. System 1300 may be used to implement the method described with reference to FIG.

図13に示されるように、システム1300は、テキスト検出装置1310と、抽出装置1320と、認識装置1330とを備える。   As illustrated in FIG. 13, the system 1300 includes a text detection device 1310, an extraction device 1320, and a recognition device 1330.

テキスト検出装置1310は、入力画像又は入力映像からテキスト領域を検出するように構成され、且つ図9に関連して説明した装置910と同一であってよい。   The text detection device 1310 is configured to detect a text region from an input image or video and may be the same as the device 910 described in connection with FIG.

抽出装置1320は、検出されたテキスト領域からテキストを抽出するように構成されうる。   The extraction device 1320 can be configured to extract text from the detected text region.

認識装置1330は、抽出されたテキストを認識してテキスト情報を取得するように構成されうる。   The recognition device 1330 may be configured to recognize the extracted text and acquire text information.

選択的に、システム1300は追跡装置1340を更に備えうる。追跡装置1340は、テキスト検出装置1310が入力映像からテキスト領域を検出するように構成される際に入力映像中のテキストを追跡するように構成されうる。   Optionally, system 1300 can further comprise a tracking device 1340. The tracking device 1340 may be configured to track text in the input video when the text detection device 1310 is configured to detect a text region from the input video.

図9〜図11及び図13に関連して上述したユニット及び装置は、種々のステップを実現する例示的なモジュール及び/又は好ましいモジュールであることが理解されるだろう。モジュールは、ハードウェアユニット(例えば、プロセッサ又は特定用途向け集積回路等)及び/又はソフトウェアモジュール(例えば、コンピュータプログラム)であってよい。種々のステップを実現するモジュールは、完全に上述されていない。しかし、ある特定の処理を実行するステップがある場合、同一の処理を実現する対応する機能モジュール又は機能ユニット(ハードウェア及び/又はソフトウェアにより実現された)があってもよい。上述及び後述のステップとこれらのステップに対応するユニットとの全ての組合せが構成する技術的解決法が完全で且つ適用可能である限り、それらによる技術的解決方法は本発明の開示内容に含まれる。   It will be appreciated that the units and devices described above in connection with FIGS. 9-11 and 13 are exemplary modules and / or preferred modules that implement various steps. A module may be a hardware unit (eg, a processor or an application specific integrated circuit) and / or a software module (eg, a computer program). The modules that implement the various steps are not fully described above. However, if there is a step of executing a specific process, there may be a corresponding functional module or functional unit (implemented by hardware and / or software) that implements the same process. As long as the technical solutions constituted by all combinations of the steps described above and below and the units corresponding to these steps are complete and applicable, the technical solutions by them are included in the disclosure content of the present invention. .

また、種々のユニットにより構成された上述の装置及びシステムは、機能モジュールとしてコンピュータ等のハードウェアデバイスに組み込まれうる。当然、コンピュータは、これらの機能モジュールに加えて、他のハードウェアコンポーネント又はソフトウェアコンポーネントを有する。   In addition, the above-described apparatus and system configured by various units can be incorporated into a hardware device such as a computer as a functional module. Of course, the computer has other hardware or software components in addition to these functional modules.

本発明の方法、装置及びシステムは、多くの方法で実行可能である。例えば、本発明の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア又はそれらのあらゆる組合せにより実行可能である。方法のステップの上述の順序は例示することのみを意図し、特に指示のない限り、本発明の方法のステップは特に上述された順序に限定されない。それに加えて、いくつかの実施形態において、本発明は、本発明に係る方法を実現する機械可読命令を含む記録媒体に記録されたプログラムとしても実施されてもよい。従って、本発明は、本発明に係る方法を実現するプログラムを格納する記録媒体も範囲に含む。   The method, apparatus and system of the present invention can be implemented in many ways. For example, the method and apparatus of the present invention can be performed by software, hardware, firmware, or any combination thereof. The above order of method steps is intended to be exemplary only, and unless otherwise indicated, the method steps of the present invention are not particularly limited to the order described above. In addition, in some embodiments, the present invention may also be implemented as a program recorded on a recording medium that includes machine-readable instructions for implementing the method according to the present invention. Therefore, the present invention also includes a recording medium that stores a program for realizing the method according to the present invention.

例を用いて本発明のいくつかの特定の実施形態を詳細に実証したが、上述の例は、本発明の範囲を限定することではなく、例示することのみを意図することが当業者により理解されるべきである。上述の実施形態は、本発明の範囲及び趣旨から逸脱することなく変更可能であることが当業者により理解されるべきである。本発明の範囲は、添付の特許請求の範囲により規定される。   While several specific embodiments of the present invention have been demonstrated in detail using examples, those skilled in the art will appreciate that the above examples are intended to be illustrative only, rather than limiting the scope of the invention. It should be. It should be understood by those skilled in the art that the embodiments described above can be modified without departing from the scope and spirit of the invention. The scope of the present invention is defined by the appended claims.

Claims (23)

少なくとも1つの連結成分(CC)を含む画像においてテキスト領域を検出するテキスト検出方法であって、
前記画像からテキスト背景領域(TBR)を検出するTBR検出ステップ(310)と、
前記少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するCCフィルタリングステップ(320)と、
前記TBR検出ステップにおいて検出された前記TBRに基づいて前記少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ前記少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するCCグループ化ステップ(330)と、
を備えることを特徴とする方法。
A text detection method for detecting a text region in an image including at least one connected component (CC) comprising:
A TBR detection step (310) for detecting a text background region (TBR) from the image;
CC filtering step (320) for filtering the at least one CC to ensure at least one candidate text CC;
Grouping the at least one candidate text CC based on the TBR detected in the TBR detection step to form at least one CC group, and at least one text region based on the at least one CC group CC grouping step (330) for generating
A method comprising the steps of:
前記TBRは前記画像中のテキストの周囲領域であって、規則的な境界線、及び、均一な色又はグレースケールを有することを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the TBR is a surrounding area of text in the image and has a regular border and a uniform color or gray scale. 前記TBR検出ステップ(310)は、
前記少なくとも1つのCCの特徴、
前記少なくとも1つのCCの境界内に配置されたCCであり、前記少なくとも1つのCCに対して高いコントラストを有する前記少なくとも1つのCC中のメンバCCの統計、及び
前記少なくとも1つのCCと他のTBRとの間の関係、
のうちの少なくとも1つに基づいて前記少なくとも1つのCCから前記TBRを選択するステップを含むことを特徴とする請求項1又は2記載の方法。
The TBR detection step (310) includes:
The at least one CC feature;
Statistics of member CCs in the at least one CC that are located within the boundary of the at least one CC and have a high contrast to the at least one CC, and the at least one CC and other TBRs The relationship between
3. The method of claim 1 or 2, comprising selecting the TBR from the at least one CC based on at least one of the following.
前記少なくとも1つのCCの前記特徴は、
前記CCの色又はグレースケールの均一性、
前記CCのサイズ、
前記CCの形状、
前記CCの境界線の規則性、
前記画像中の前記CCの位置、
前記CCの平均グレースケール値、及び
前記CCのグレースケール値分布
のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
The characteristics of the at least one CC are:
CC color or gray scale uniformity,
The size of the CC,
The shape of the CC,
Regularity of the boundary line of the CC,
The position of the CC in the image,
The method of claim 3, comprising at least one of an average grayscale value of the CC and a grayscale value distribution of the CC.
前記メンバCCの前記統計は、
前記CC中の前記メンバCCの数、
第1の事前定義済みの閾値より高いテキスト信頼度を有する前記メンバCCのシードCCの数、
前記CC中の前記メンバCCの平均テキスト信頼度、及び
前記CC中の前記メンバCCの総面積と前記CCの面積との比
のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
The statistics of the member CC are
The number of the member CCs in the CC;
The number of seed CCs of the member CC having a text confidence higher than a first predefined threshold;
The average text reliability of the member CC in the CC, and a ratio of the total area of the member CC and the area of the CC in the CC. the method of.
前記少なくとも1つのCCと他のTBRとの間の前記関係に基づいて前記少なくとも1つのCCから前記TBRを選択するステップは、
前に判定されたあらゆるTBRにおけるメンバCCではなく、且つ前記前に判定されたTBRと同一のメンバCCを有さない前記CCに応答してCCをTBRとして判定するステップを含むことを特徴とする請求項3に記載の方法。
Selecting the TBR from the at least one CC based on the relationship between the at least one CC and another TBR;
Determining a CC as a TBR in response to a CC that is not a member CC in any previously determined TBR and does not have the same member CC as the previously determined TBR. The method of claim 3.
前記CCフィルタリングステップ(320)において、あらゆるTBRの境界内にないCCに対するフィルタリングは、あらゆるTBRの境界内のCCに対するフィルタリングより厳しいことを特徴とする請求項1又は2に記載の方法。   The method according to claim 1 or 2, wherein in the CC filtering step (320), filtering for CCs not within the boundaries of any TBR is more strict than filtering for CCs within any TBR boundary. 前記CCフィルタリングステップ(320)において、あらゆるTBRの境界内のCC及びあらゆるTBRの境界内にないCCは、
前記CCのサイズ、
前記CCの形状、
前記CCのバウンディングボックスのアスペクト比、
前記CCとそのバウンディングボックスの面積比、
周長と前記CCの面積との比、及び
前記CCのテクスチャ特徴、
のうちの少なくとも1つに基づいてフィルタリングされることを特徴とする請求項1に記載の方法。
In the CC filtering step (320), CCs within any TBR boundary and CCs not within any TBR boundary are:
The size of the CC,
The shape of the CC,
The aspect ratio of the bounding box of the CC,
The area ratio of the CC and its bounding box,
The ratio of the perimeter to the area of the CC, and the texture features of the CC,
The method of claim 1, wherein the filtering is based on at least one of the following:
あらゆるTBR内にない前記CCは、
ストローク幅の統計、及び
境界線画素数とCC画素数との比、
のうちの少なくとも1つに更に基づいてフィルタリングされることを特徴とする請求項8に記載の方法。
The CC not in any TBR is
Stroke width statistics, and the ratio between the number of border pixels and CC pixels,
The method of claim 8, further filtered based on at least one of the following:
前記CCグループ化ステップ(330)は、
a)前記候補となるテキストCCをそれぞれのテキスト背景領域に割り当てること、及びTBRに割り当て不可能な前記候補となるテキストCCを外側領域に割り当てるステップ(610)と、
b)各TBR及び前記外側領域のCCをそれぞれグループ化してCCグループを形成するステップ(620)と、
c)各TBR及び前記外側領域間の種々の領域からのCCグループを組み合わせて前記少なくとも1つのテキスト領域を生成するステップ(630)と
を更に含むことを特徴とする請求項1又は2に記載の方法。
The CC grouping step (330) includes:
a) assigning the candidate text CC to each text background region and assigning the candidate text CC that cannot be assigned to a TBR to an outer region (610);
b) grouping each TBR and CC of the outer region to form a CC group (620);
and (c) combining the CC groups from various regions between each TBR and the outer region to generate the at least one text region (630). Method.
前記ステップb)は、
b1)各TBR及び前記外側領域のCCを暗い領域の明るいCCの集合及び明るい領域の暗いCCの集合に分割するステップ(6201)と、
b2)それぞれ前記明るいCCの集合及び前記暗いCCの集合内にCCグループを生成するステップ(6202)と、
b3)空間関係及び外観の類似性のうちの少なくとも1つに基づいて、前記明るいCCの集合と前記暗いCCの集合とを組み合わせるステップ(6203)と
を更に含むことを特徴とする請求項10に記載の方法。
Said step b)
b1) dividing (6201) each TBR and CC of the outer region into a set of dark CCs that are bright and a set of dark CCs that are bright;
b2) generating a CC group in the set of bright CCs and the set of dark CCs, respectively (6202);
The method of claim 10, further comprising: b3) combining (6203) the set of bright CCs and the set of dark CCs based on at least one of spatial relationship and appearance similarity. The method described.
ステップc)において、
行方向の整合性、
前記CCの平均サイズの類似性、
前記CCの平均ストローク幅の類似性、及び
前記CCの平均的な色又はグレースケールの類似性、
のうちの少なくとも1つに基づいて種々の領域からのCCグループを組み合わせることを特徴とする請求項10に記載の方法。
In step c)
Row-wise consistency,
Similarity of the average size of the CC,
The average stroke width similarity of the CC, and the average color or grayscale similarity of the CC,
11. The method of claim 10, wherein CC groups from different regions are combined based on at least one of the following.
ステップb2)において、前記CCグループはCCクラスタリングにより生成され、
当該CCクラスタリングは、以下の制約、
ある特定の方向に従うCCの中心の位置合わせ、
CCのサイズの類似性、
CCの形状の類似性、
CCの色又はグレースケールの類似性、
CCのストローク幅の類似性、及び
CC間の距離
のうちの少なくとも1つを使用することを特徴とする請求項11に記載の方法。
In step b2), the CC group is generated by CC clustering,
The CC clustering has the following constraints:
CC center alignment according to a certain direction,
CC size similarity,
CC shape similarity,
CC color or grayscale similarity,
The method according to claim 11, wherein at least one of a stroke width similarity of CCs and a distance between CCs is used.
前記ステップb2)は、
ハフ変換によりCCグループを生成するステップと、
以下の制約の少なくとも1つを用いて、生成されたCCグループに含まれるCCをフィルタリングするステップとを更に有する
前記制約は、
ある特定の方向に従うCCの中心の位置合わせ、
CCのサイズの類似性、
CCの形状の類似性、
CCの色又はグレースケールの類似性、
CCのストローク幅の類似性、及び
CC間の距離
である、
ことを特徴とする請求項11に記載の方法。
The step b2)
Generating a CC group by Hough transform;
Filtering CCs included in the generated CC group using at least one of the following constraints:
CC center alignment according to a certain direction,
CC size similarity,
CC shape similarity,
CC color or grayscale similarity,
The similarity of stroke width of CC and the distance between CC
The method according to claim 11.
前記ステップc)において前記組み合わせることに対する規則は、前記ステップb)において前記グループ化することに対する規則より厳しいことを特徴とする請求項10に記載の方法。   11. The method of claim 10, wherein the rules for combining in step c) are stricter than the rules for grouping in step b). 前記CCフィルタリングステップは、
前記TBR以外の前記少なくとも1つのCCの各々のテキスト信頼度を算出するステップと、
ここで前記計算において、あらゆるTBRの前記境界内のCCは他のCCより重視される、
第2の事前定義済みの閾値より高いテキスト信頼度を有するCCを前記テキスト候補CCとして判定するステップと
を含むことを特徴とする請求項1に記載の方法。
The CC filtering step includes:
Calculating a text reliability of each of the at least one CC other than the TBR;
Here, in the calculation, CCs within the boundary of every TBR are more important than other CCs.
And determining a CC having a text confidence higher than a second predefined threshold as the text candidate CC.
前記CCフィルタリングステップは、
前記TBR以外の前記少なくとも1つのCC毎に、前記CCがあらゆるTBRの前記境界内に配置されることに応答して、前記CCを第1のCCとして識別するか、あるいは前記CCを第2のCCとして識別するステップと、
前記CCが前記テキスト候補CCであるかを判定するために、前記第1のCC及び前記第2のCCの各々に対して第1のフィルタリングステップを実行するステップと、
前記第2のCCが前記テキスト候補CCであるかを更に判定するために、前記第1のフィルタリングステップにより前記テキスト候補CCとして判定される前記第2のCCの各々に対して第2のフィルタリングステップを実行するステップと
を含むことを特徴とする請求項1に記載の方法。
The CC filtering step includes:
For each at least one CC other than the TBR, in response to the CC being located within the boundary of every TBR, identify the CC as a first CC, or identify the CC as a second CC Identifying as CC;
Performing a first filtering step on each of the first CC and the second CC to determine whether the CC is the text candidate CC;
In order to further determine whether the second CC is the text candidate CC, a second filtering step for each of the second CCs determined as the text candidate CC by the first filtering step. The method of claim 1 comprising the steps of:
前記第1のCC及び前記第2のCCの各々に対して前記第1のフィルタリングステップを実行するステップは、
前記CCが前記テキスト候補CCであるかを判定するために、前記CCの1つ以上の第1の特徴に基づいて前記第1のフィルタリングステップを実行するステップを含むことを特徴とする請求項17に記載の方法。
Performing the first filtering step for each of the first CC and the second CC comprises:
18. The step of performing the first filtering step based on one or more first characteristics of the CC to determine whether the CC is the text candidate CC. The method described in 1.
前記第1のフィルタリングステップにより前記テキスト候補CCとして判定される前記第2のCCの各々に対して前記第2のフィルタリングステップを実行するステップは、
前記第2のCCが前記テキスト候補CCであるかを更に判定するために、前記第2のCCの1つ以上の第2の特徴に基づいて前記第2のフィルタリングステップを実行するステップを含むことを特徴とする請求項17に記載の方法。
Performing the second filtering step on each of the second CCs determined as the text candidate CC by the first filtering step,
Performing the second filtering step based on one or more second features of the second CC to further determine whether the second CC is the text candidate CC. The method of claim 17, wherein:
前記テクスチャ特徴は、
ローカルバイナリパターン、
エッジ方向ヒストグラム、及び
勾配のヒストグラム
のうちの少なくとも1つを含むことを特徴とする請求項8に記載の方法。
The texture features are:
Local binary pattern,
The method of claim 8, comprising at least one of an edge direction histogram and a gradient histogram.
前記第1のフィルタリングステップにおいて、前記第1の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項18に記載の方法。   19. The method of claim 18, wherein in the first filtering step, the first feature is used as a cascade rule or combined as a feature vector input to a training classifier. 前記第2のフィルタリングステップにおいて、前記第2の特徴は、カスケード規則として使用されるか、あるいは訓練分類器に入力される特徴ベクトルとして組み合わされることを特徴とする請求項19に記載の方法。   20. The method of claim 19, wherein in the second filtering step, the second feature is used as a cascade rule or combined as a feature vector that is input to a training classifier. 少なくとも1つの連結成分(CC)を含む画像においてテキスト領域を検出するテキスト検出装置であって、
前記画像からテキスト背景領域(TBR)を検出するように構成された前記TBR検出ユニット(910)と、
前記少なくとも1つのCCをフィルタリングして少なくとも1つの候補となるテキストCCを確保するように構成されたCCフィルタリングユニット(920)と、
前記TBR検出ユニットにおいて検出された前記TBRに基づいて前記少なくとも1つの候補となるテキストCCをグループ化して少なくとも1つのCCグループを形成し、且つ前記少なくとも1つのCCグループに基づいて少なくとも1つのテキスト領域を生成するように構成されたCCグループ化ユニット(930)と、
を備えることを特徴とする装置。
A text detection device for detecting a text region in an image including at least one connected component (CC) comprising:
The TBR detection unit (910) configured to detect a text background region (TBR) from the image;
A CC filtering unit (920) configured to filter the at least one CC to ensure at least one candidate text CC;
Grouping the at least one candidate text CC based on the TBR detected in the TBR detection unit to form at least one CC group, and at least one text region based on the at least one CC group CC grouping unit (930) configured to generate
A device comprising:
JP2014103652A 2013-05-24 2014-05-19 Method and apparatus for text detection Active JP5796107B2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310196300.7 2013-05-24
CN201310196300.7A CN104182722B (en) 2013-05-24 2013-05-24 Method for text detection and device and text message extracting method and system
CN201310196315.3A CN104182744B (en) 2013-05-24 2013-05-24 Method for text detection and device and text message extracting method and system
CN201310196315.3 2013-05-24

Publications (2)

Publication Number Publication Date
JP2014229314A true JP2014229314A (en) 2014-12-08
JP5796107B2 JP5796107B2 (en) 2015-10-21

Family

ID=52129031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014103652A Active JP5796107B2 (en) 2013-05-24 2014-05-19 Method and apparatus for text detection

Country Status (1)

Country Link
JP (1) JP5796107B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874905A (en) * 2017-01-12 2017-06-20 中南大学 A kind of method of the natural scene text detection based on self study Color-based clustering
JP2017138989A (en) * 2016-02-03 2017-08-10 株式会社ストラッドビジョン Method and device for detecting text included in image and computer readable recording medium
JP2017228297A (en) * 2016-06-23 2017-12-28 キヤノン株式会社 Text detection method and apparatus
CN109711406A (en) * 2018-12-25 2019-05-03 中南大学 A kind of multidirectional image Method for text detection based on multiple dimensioned rotation anchor mechanism

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017138989A (en) * 2016-02-03 2017-08-10 株式会社ストラッドビジョン Method and device for detecting text included in image and computer readable recording medium
JP2017228297A (en) * 2016-06-23 2017-12-28 キヤノン株式会社 Text detection method and apparatus
CN107545261A (en) * 2016-06-23 2018-01-05 佳能株式会社 The method and device of text detection
CN106874905A (en) * 2017-01-12 2017-06-20 中南大学 A kind of method of the natural scene text detection based on self study Color-based clustering
CN106874905B (en) * 2017-01-12 2019-06-11 中南大学 A method of the natural scene text detection based on self study Color-based clustering
CN109711406A (en) * 2018-12-25 2019-05-03 中南大学 A kind of multidirectional image Method for text detection based on multiple dimensioned rotation anchor mechanism

Also Published As

Publication number Publication date
JP5796107B2 (en) 2015-10-21

Similar Documents

Publication Publication Date Title
KR101452562B1 (en) A method of text detection in a video image
Shivakumara et al. A laplacian approach to multi-oriented text detection in video
Chen et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions
Shahab et al. ICDAR 2011 robust reading competition challenge 2: Reading text in scene images
US9064316B2 (en) Methods of content-based image identification
Ryan et al. An examination of character recognition on ID card using template matching approach
Anthimopoulos et al. Detection of artificial and scene text in images and video frames
CN101122953A (en) Picture words segmentation method
Phan et al. Detecting text in the real world
Shivakumara et al. Detection of curved text in video: Quad tree based method
CN104182722A (en) Text detection method and device and text information extraction method and system
JP5796107B2 (en) Method and apparatus for text detection
Shivakumara et al. Gradient-angular-features for word-wise video script identification
Zhu et al. Detecting natural scenes text via auto image partition, two-stage grouping and two-layer classification
Sun et al. A visual attention based approach to text extraction
Fraz et al. Exploiting colour information for better scene text detection and recognition
Shekar et al. Discrete wavelet transform and gradient difference based approach for text localization in videos
Faustina Joan et al. A survey on text information extraction from born-digital and scene text images
Sanketi et al. Localizing blurry and low-resolution text in natural images
Akbani et al. Character recognition in natural scene images
CN104182744A (en) Text detection method and device, and text message extraction method and system
Qin et al. Video scene text frames categorization for text detection and recognition
Liu et al. Detection and segmentation text from natural scene images based on graph model
Hesham et al. A zone classification approach for arabic documents using hybrid features
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150817

R151 Written notification of patent or utility model registration

Ref document number: 5796107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151