JP2016151978A - Image processing apparatus and image processing program - Google Patents
Image processing apparatus and image processing program Download PDFInfo
- Publication number
- JP2016151978A JP2016151978A JP2015030162A JP2015030162A JP2016151978A JP 2016151978 A JP2016151978 A JP 2016151978A JP 2015030162 A JP2015030162 A JP 2015030162A JP 2015030162 A JP2015030162 A JP 2015030162A JP 2016151978 A JP2016151978 A JP 2016151978A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- area
- module
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、画像処理装置及び画像処理プログラムに関する。 The present invention relates to an image processing apparatus and an image processing program.
特許文献1には、画像データに文字列以外の背景画像が含まれ、また文字質が劣悪な場合であっても文字領域を正確に決定できる画像の文字領域決定方法を提供することを目的とし、所定の配置をなし、且つ同じ大きさの文字からなる文字列を含む画像を入力して2値化処理し、上記処理データに含まれる全ての連結画素の中から、その特徴が所定の条件を満足する文字候補を抽出し、上記文字候補同士の位置関係が上記所定の配置をなすような文字候補の全てを含む外接矩形領域を上記画像の文字領域と決定するように構成されており、上記構成により、常に正確に文字領域を決定できることが開示されている。
特許文献2には、2次元面又は3次元空間中に存在する文字を含む情景を濃淡画像として入力し、情景画像の領域分割処理と各領域の濃度差評価により文字線に対応する可能性の高い箇所を領域として検出し、互いに近傍に存在する領域の組み合わせを文字パターン候補として抽出し、前記文字パターン候補と、文字認識用辞書中に格納されている各認識対象文字のカテゴリの標準パターンとの距離から類似度を計算し、1つでも閾値より大きい類似度を与えるカテゴリがあるか否かで、前記文字パターン候補が文字に対応するか否かの判定を行い、文字であると判定された場合には、文字と判定された文字パターン候補を高類似度パターンとして抽出し、前記高類似度パターンにおいて最も高い類似度を与えるカテゴリを文字認識結果とする文字認識処理方式において、前記互いに近傍に存在する領域の組み合わせにより得られる文字パターン候補から得られた高類似度パターンから構成される集合について、前記集合に含まれる各高類似度パターンが対応するカテゴリの標準パターンがもつ2次元図形としての特徴と前記各項類似度パターンがもつ2次元図形としての特徴との一致の程度を、前記集合に含まれる高類似度パターン間で比較し、一致の程度の高い高類似度パターンの類似度を高くし、そうでないものの類似度を低くする更新処理を反復的に行い、最終的に最大の類似度を与える高類似度パターンを文字パターンとして抽出し、その最大の類似度を与えるカテゴリを文字認識結果として出力することが開示されている。
In
非特許文献1には、情景内文字は影や反射等の影響で本来文字が備えている画像的特徴を失っている場合があり、候補領域単体では文字/非文字の判定が困難な場合があることを課題とし、単一候補領域での文字/非文字判定に続いて、候補領域2つ組、候補領域3つ組、のような領域間の特徴を用いる識別を併用して文字候補を絞り込んでいき、候補領域2つ組での識別では領域間の包含関係も考慮して判定することが開示されている。
In
画像から1つの文字が記載されている部分画像を特定する場合において、領域の文字らしさを示す情報を用いることが行われている。
本発明は、単に領域の文字らしさを示す情報を用いて1つの文字が記載されている部分画像を特定する場合に比べて、より正確に特定するようにした画像処理装置及び画像処理プログラムを提供することを目的としている。
When specifying a partial image in which one character is described from an image, information indicating the character of a region is used.
The present invention provides an image processing apparatus and an image processing program that can be specified more accurately than when a partial image in which one character is described is simply specified using information indicating the character of an area. The purpose is to do.
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像から文字としての特徴を備える部分画像を文字候補領域として検出する検出手段と、前記部分画像間の包含関係を抽出する抽出手段と、前記部分画像内の領域の文字らしさを示す情報と前記包含関係を用いて、1つの文字が記載されている部分画像を特定する特定手段を具備することを特徴とする画像処理装置である。
The gist of the present invention for achieving the object lies in the inventions of the following items.
According to the first aspect of the present invention, there is provided a detecting means for detecting a partial image having character characteristics from an image as a character candidate area, an extracting means for extracting an inclusion relationship between the partial images, and a character in an area in the partial image. An image processing apparatus comprising: specifying means for specifying a partial image in which one character is described using information indicating the likelihood and the inclusion relation.
請求項2の発明は、前記抽出手段は、前記包含関係を示す木構造を構築し、前記特定手段は、前記画像と前記部分画像から該部分画像内の領域の特徴を抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された特徴から、前記部分画像内の領域の文字らしさを示す情報を算出する算出手段と、前記算出手段によって算出された文字らしさを示す情報と前記木構造における包含関係を用いて、1つの文字が記載されている部分画像を特定する第2の特定手段を具備することを特徴とする請求項1に記載の画像処理装置である。
According to a second aspect of the present invention, the extraction unit constructs a tree structure indicating the inclusion relation, and the specifying unit extracts a feature of a region in the partial image from the image and the partial image. Means for calculating information indicating the character likeness of the area in the partial image from the features extracted by the second extracting means, information indicating the character likeness calculated by the calculating means, and the tree The image processing apparatus according to
請求項3の発明は、前記第2の特定手段は、前記木構造におけるルートからリーフまでのノードにおいて、各ノードに対応する部分画像内の領域の文字らしさを示す情報が最も高いものを1つの文字が記載されている部分画像として特定することを特徴とする請求項2に記載の画像処理装置である。
The invention according to
請求項4の発明は、前記第2の特定手段は、1つの文字が記載されている部分画像として特定したノードの親と子のノードを削除することを特徴とする請求項3に記載の画像処理装置である。
The invention according to
請求項5の発明は、コンピュータを、画像から文字としての特徴を備える部分画像を文字候補領域として検出する検出手段と、前記部分画像間の包含関係を抽出する抽出手段と、前記部分画像内の領域の文字らしさを示す情報と前記包含関係を用いて、1つの文字が記載されている部分画像を特定する特定手段として機能させるための画像処理プログラムである。 According to a fifth aspect of the present invention, there is provided a computer for detecting, as a character candidate area, a partial image having a character feature from an image, an extracting unit for extracting an inclusion relationship between the partial images, An image processing program for functioning as a specifying unit that specifies a partial image in which one character is described, using information indicating the character of an area and the inclusion relation.
請求項1の画像処理装置によれば、単に領域の文字らしさを示す情報を用いて1つの文字が記載されている部分画像を特定する場合に比べて、より正確な特定を行うことができる。 According to the image processing apparatus of the first aspect, more accurate identification can be performed as compared with the case where the partial image in which one character is described is simply identified using the information indicating the character of the area.
請求項2の画像処理装置によれば、木構造における包含関係を用いて、1つの文字が記載されている部分画像を特定することができる。 According to the image processing apparatus of the second aspect, it is possible to specify a partial image in which one character is described using the inclusion relation in the tree structure.
請求項3の画像処理装置によれば、木構造におけるルートからリーフまでのノードにおいて、各ノードに対応する部分画像内の領域の文字らしさを示す情報が最も高いものを1つの文字が記載されている部分画像として特定することができる。
According to the image processing apparatus of
請求項4の画像処理装置によれば、1つの文字が記載されている部分画像として特定したノードの親と子のノードを削除することができる。 According to the image processing apparatus of the fourth aspect, the parent and child nodes of the node specified as the partial image in which one character is described can be deleted.
請求項5の画像処理プログラムによれば、単に領域の文字らしさを示す情報を用いて1つの文字が記載されている部分画像を特定する場合に比べて、より正確な特定を行うことができる。 According to the image processing program of the fifth aspect, more accurate identification can be performed as compared with the case where the partial image in which one character is described is simply identified using the information indicating the character of the area.
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
Hereinafter, an example of a preferred embodiment for realizing the present invention will be described with reference to the drawings.
FIG. 1 shows a conceptual module configuration diagram of a configuration example of the present embodiment.
The module generally refers to components such as software (computer program) and hardware that can be logically separated. Therefore, the module in the present embodiment indicates not only a module in a computer program but also a module in a hardware configuration. Therefore, the present embodiment is a computer program for causing these modules to function (a program for causing a computer to execute each procedure, a program for causing a computer to function as each means, and a function for each computer. This also serves as an explanation of the program and system and method for realizing the above. However, for the sake of explanation, the words “store”, “store”, and equivalents thereof are used. However, when the embodiment is a computer program, these words are stored in a storage device or stored in memory. It is the control to be stored in the device. Modules may correspond to functions one-to-one, but in mounting, one module may be configured by one program, or a plurality of modules may be configured by one program, and conversely, one module May be composed of a plurality of programs. The plurality of modules may be executed by one computer, or one module may be executed by a plurality of computers in a distributed or parallel environment. Note that one module may include other modules. Hereinafter, “connection” is used not only for physical connection but also for logical connection (data exchange, instruction, reference relationship between data, etc.). “Predetermined” means that the process is determined before the target process, and not only before the process according to this embodiment starts but also after the process according to this embodiment starts. In addition, if it is before the target processing, it is used in accordance with the situation / state at that time or with the intention to be decided according to the situation / state up to that point. When there are a plurality of “predetermined values”, they may be different values, or two or more values (of course, including all values) may be the same. In addition, the description having the meaning of “do B when it is A” is used in the meaning of “determine whether or not it is A and do B when it is judged as A”. However, the case where it is not necessary to determine whether or not A is excluded.
In addition, the system or device is configured by connecting a plurality of computers, hardware, devices, and the like by communication means such as a network (including one-to-one correspondence communication connection), etc., and one computer, hardware, device. The case where it implement | achieves by etc. is included. “Apparatus” and “system” are used as synonymous terms. Of course, the “system” does not include a social “mechanism” (social system) that is an artificial arrangement.
In addition, when performing a plurality of processes in each module or in each module, the target information is read from the storage device for each process, and the processing result is written to the storage device after performing the processing. is there. Therefore, description of reading from the storage device before processing and writing to the storage device after processing may be omitted. Here, the storage device may include a hard disk, a RAM (Random Access Memory), an external storage medium, a storage device via a communication line, a register in a CPU (Central Processing Unit), and the like.
本実施の形態である画像処理装置100は、画像から1つの文字が記載されている部分画像を特定するものであって、図1の例に示すように、画像受付モジュール110、文字候補領域検出モジュール120、文字領域特定モジュール130、文字認識モジュール140を有している。
画像処理装置100は、主に、情景画像内の文字認識を行うためのものである。つまり、カメラ(デジタルカメラ、携帯電話等を含む携帯端末(ウェアラブル端末を含めてもよい)に内蔵されているカメラ等)で撮影した静止画又は動画(以下、情景画像ともいう)中から文字領域を特定し、文字認識を行うための技術に関するものである。例えば、この情景画像として、看板等の文字画像が含まれている風景画像等がある。特に、画像処理装置100は、情景画像内からの文字領域の特定技術に関するものである。なお、文字認識以外の処理(例えば、画像復元処理等)に用いるようにしてもよい。
また、画像処理装置100の処理結果を、例えば、ナビゲーション、コンテンツベース画像検索、情景画像内の案内等の翻訳、視覚障害者支援、情景画像からの地点情報抽出、情景画像へのセマンティックなタグ付け、目視確認作業の自動化等の処理に用いるようにしてもよい。
また、情景画像内の文字認識を行うにあたって、対象としての情景画像には、次のような、固有の性質がある。特に、ドキュメントの文字認識にはない性質を挙げている。
・複雑な情景からの文字領域を特定する必要がある。
・影、反射、ガラス等への映り込み等がある場合がある。
・多様なフォント、レイアウトがある。
・パースペクティブ、円柱等の曲面上の文字等を対象とする場合がある。
このような性質を有していることから、情景画像内で本来の文字領域から必ずしも高い文字スコア(文字らしさを示す情報)が得られるとは限らない。
The
The
In addition, the processing result of the
In addition, when performing character recognition in a scene image, the scene image as a target has the following unique properties. In particular, it mentions properties that are not in document character recognition.
-It is necessary to specify a character area from a complicated scene.
・ There may be shadows, reflections, reflections on glass, etc.
-There are various fonts and layouts.
-Perspectives and characters on curved surfaces such as cylinders may be targeted.
Because of such a property, a high character score (information indicating character character) is not always obtained from an original character region in a scene image.
本実施の形態を説明するにあたって、用語を定義する。
木構造とは、グラフ理論の木の構造をしたデータ構造のことである。グラフ理論では、木とは非環状(ループを持たない)グラフを意味する。
木構造は、ノードとノード間を結ぶエッジで表される。データ構造として使われる木は、ほとんどの場合、根となるノード(ルート)が決められた根付き木で、ノード間の関係は家系図に見立てた用語で表現される。木構造内の各ノードは、0個以上の子ノードを持ち、子ノードは木構造内では下方に存在する(木構造の成長方向は下とするのが一般的である)。子ノードを持つノードは、子ノードから見れば親ノードである。ノードは高々1つの親ノードを持つ。
In describing this embodiment, terms are defined.
The tree structure is a data structure having a tree structure of graph theory. In graph theory, a tree means an acyclic (no loop) graph.
The tree structure is represented by edges connecting nodes. In most cases, the tree used as a data structure is a rooted tree in which a root node (root) is determined, and the relationship between the nodes is expressed in terms similar to a family tree. Each node in the tree structure has zero or more child nodes, and the child nodes exist downward in the tree structure (generally, the growth direction of the tree structure is downward). A node having a child node is a parent node when viewed from the child node. A node has at most one parent node.
画像受付モジュール110は、文字候補領域検出モジュール120、文字領域特定モジュール130と接続されており、文字候補領域検出モジュール120、文字領域特定モジュール130に情景画像情報115を渡す。画像受付モジュール110は、文字画像が含まれている画像を受け付けて、その画像を文字候補領域検出モジュール120、文字領域特定モジュール130へ渡す。ここで、画像を受け付けるとは、例えば、カメラ、スキャナ等で画像を読み込むこと、ファックス等で通信回線を介して外部機器から画像を受信すること、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている画像を読み出すこと等が含まれる。画像は、2値、多値画像(カラー画像を含む)である。受け付ける画像は、1枚であってもよいし、複数枚であってもよい。また、画像の内容として、主に前述の情景画像である。
The
文字候補領域検出モジュール120は、画像受付モジュール110、文字領域特定モジュール130と接続されており、文字領域特定モジュール130に文字候補領域情報125を渡す。文字候補領域検出モジュール120は、画像受付モジュール110が受け付けた画像から文字としての特徴を備える部分画像を文字候補領域として検出する。検出結果を文字候補領域情報125として、文字領域特定モジュール130に渡す。文字としての特徴の例としては、背景に対するコントラストが高いことや文字領域内での濃淡の変化が小さいことなどが挙げられる。具体的な例として、本実施の形態は、これらの特徴を利用する検出技術の中で、影・反射やグラデーション文字に対してロバストな手法として、近年特に注目されているMaximally Stable Extremal Region(MSER)を用いる。MSERは、式(1)のように定義されている(「J. Matas, O. Chum, M. Urban, T. Pajdla,“Robust wide−baseline stereo from maximally stable extremal regions”,Image and Vision Computing 22, p. 761 − 767, 2004」参照)。
MSER(文字候補領域検出モジュール120による処理内容(文字候補領域情報125の生成処理))について、図5〜13を用いて説明する。
(1)図5の例に示すような対象画像500(グレイスケール画像)を、文字候補領域検出モジュール120による処理対象(情景画像情報115)とする。対象画像500は、ほぼ黒である矩形の領域510と、ほぼ白である矩形の領域530と、左から右に向かって薄くなっている灰色グラデーションの領域520の3つの領域に分かれている。
(2)二値化の閾値を最も暗い画素値から最も明るい画素値に向かって動かしながら、対象画像500を二値化する。
(3)閾値が最も暗い画素値では、全ての画素が閾値以上の画素値を有しているため、図6の例に示すように、どの領域も検出されていない。
MSER (contents of processing by the character candidate region detection module 120 (processing for generating the character candidate region information 125)) will be described with reference to FIGS.
(1) A target image 500 (grayscale image) as shown in the example of FIG. 5 is set as a processing target (scene image information 115) by the character candidate
(2) The
(3) With the pixel value having the darkest threshold value, all the pixels have pixel values equal to or greater than the threshold value, so that no region is detected as shown in the example of FIG.
(4)閾値を動かしていき、閾値が図5の例の領域510の領域の画素値を上回ると領域510が検出され、図7の例に示すように、1つ目のMSER(領域510A)が検出される。
(5)さらに、閾値を明るい側に動かしていくと、領域520の最暗部付近が検出されていく。しかし、閾値を±Δだけ変動させると検出される領域の面積も大きく変動するため、MSERの定義より領域520の最暗部付近の領域は検出されない。
(6)閾値が領域520の最明部よりも明るくなると、閾値を変動させても検出される領域の面積が変化しないので、この段階で領域520が検出され、図8の例に示すように、領域510と領域520の和領域である2つ目のMSER(領域520A)が検出される。2つ目のMSER(領域520A)は最初に検出したMSER(領域510A)を包含している。
(7)さらに閾値を明るい側に動かしていき、領域530よりも明るくなった段階で領域530が検出され、図9の例に示すように、3番目のMSER(対象画像500A)が検出される。3番目のMSER(対象画像500A)は1番目、2番目に検出したMSER(領域510A、領域520A)を包含している。
(4) The threshold value is moved, and when the threshold value exceeds the pixel value of the
(5) Further, when the threshold value is moved to the bright side, the vicinity of the darkest part of the
(6) When the threshold value becomes brighter than the brightest part of the
(7) The threshold value is further moved to the brighter side, and the
(8)次に、閾値を最も明るい画素値から最も暗い画素値に向かって動かしながら同様の処理を行う。つまり、前述とは逆方向に処理を進める。これは白抜き文字などを検出するためである。
(9)検出結果を、図10〜13の例に示す。閾値を暗から明に変化させたときと同様に、検出されるMSERは互いに包含関係を有している。
MSERの性質を説明する。
・2値化の閾値を暗から明に変動させたときのMSERと、明から暗に変動させたときのMSERはそれぞれ包含関係を有している。
・閾値を暗から明に変動させたときに検出されるMSERは、明から暗に変動させたときのMSERのいずれとも包含関係を有していない。ただし、画像全体が検出されたMSERを除く。逆の場合も同様である。
・図5の例に示す領域520のように、グラデーションのある領域も検出できる。
(8) Next, the same processing is performed while moving the threshold value from the brightest pixel value toward the darkest pixel value. That is, the process proceeds in the opposite direction to that described above. This is to detect white characters and the like.
(9) The detection results are shown in the examples of FIGS. Similar to the case where the threshold value is changed from dark to light, the detected MSERs are inclusive of each other.
The nature of MSER will be described.
The MSER when the binarization threshold is changed from dark to light and the MSER when the threshold value is changed from light to dark have an inclusive relationship.
The MSER detected when the threshold value is changed from dark to light does not have an inclusive relationship with any of the MSER values when the threshold value is changed from light to dark. However, the MSER in which the entire image is detected is excluded. The same applies to the reverse case.
A region with gradation can be detected as in the
文字領域特定モジュール130は、画像受付モジュール110、文字候補領域検出モジュール120、文字認識モジュール140と接続されており、画像受付モジュール110から情景画像情報115を、文字候補領域検出モジュール120から文字候補領域情報125を受け取り、文字認識モジュール140に特定文字領域情報135を渡す。文字領域特定モジュール130は、部分画像間の包含関係を抽出し、そして、その部分画像内の領域の文字らしさを示す情報(以下、文字スコアともいう)と包含関係を用いて、1つの文字が記載されている部分画像を特定する。文字候補領域検出モジュール120の処理結果である文字候補領域には文字以外の領域も含まれる。また、MSERを用いた場合、1つの文字から複数種類の領域候補群が抽出される場合がある(図14〜16を用いて後述)。このような文字候補領域のそれぞれについて文字/非文字判定を行い、文字領域を特定する。文字領域特定モジュール130内のモジュール構成、処理等については、図4等を用いて後述する。
The character
文字認識モジュール140は、文字領域特定モジュール130と接続されており、文字領域特定モジュール130から特定文字領域情報135を受け取る。文字認識モジュール140は、文字領域特定モジュール130によって特定された文字領域画像(特定文字領域情報135)を対象として、文字認識を行う。文字認識方法としては公知の手法を用いればよい。
The
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
画像処理装置100は、撮影装置210、情報処理装置230と接続されている。このシステムは、一体型の筐体に収められていてもよいし、別々の筐体であってもよい。各装置間の通信は、無線、有線、これらの組み合わせであってもよい。
撮影装置210は、画像処理装置100と接続されている。撮影装置210は、前述のカメラであり、例えば人が撮影するものであってもよいし、自動車等に搭載されているものであってもよいし、監視カメラ等のように固定した場所に設置されているものであってもよい。
情報処理装置230は、画像処理装置100と接続されている。情報処理装置230は、画像処理装置100(文字認識モジュール140)の処理結果を利用した処理を行う。例えば、このシステムを自動車等に搭載して、前述したようにナビゲーション等の処理を行う。また、情報処理装置230は、文字領域特定モジュール130による処理結果を利用した処理を行うようにしてもよい。例えば、前述したように画像復元等の処理を行う。
FIG. 2 is an explanatory diagram showing a system configuration example using the present embodiment.
The
The
The
図3は、本実施の形態を利用したシステム構成例を示す説明図である。
画像処理装置100、ユーザー端末310A、ユーザー端末310B、ユーザー端末310C、情報処理装置330は、通信回線390を介してそれぞれ接続されている。通信回線390は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。
情報処理装置330は、前述の情報処理装置230と同等の処理を行う。画像処理装置100、情報処理装置330、画像処理装置100と情報処理装置330の組み合わせによる機能は、クラウドサービスとして実現してもよい。
ユーザー端末310は、前述の撮影装置210と同等の処理を行う。例えば、ユーザー端末310によって撮影された画像を画像処理装置100に処理させるようにしてもよい。また、ユーザー端末310Aからの指示によって、画像処理装置100、情報処理装置330で処理が行われ、その処理結果をユーザー端末310B等に送信するようにしてもよい。
FIG. 3 is an explanatory diagram showing a system configuration example using the present embodiment.
The
The
The user terminal 310 performs processing equivalent to that of the above-described photographing
図4は、本実施の形態(文字領域特定モジュール130)の構成例についての概念的なモジュール構成図である。
文字領域特定モジュール130は、包含関係構築モジュール410、文字領域特徴抽出モジュール420、文字スコア算出モジュール430、包含関係修正モジュール440を有している。
FIG. 4 is a conceptual module configuration diagram of a configuration example of the present embodiment (character area specifying module 130).
The character
情景画像情報115は、画像受付モジュール110から出力される情景画像に関する情報(情景画像そのものであってもよい)で、カラー(グレイスケール画像を含む)又は白黒のラスタ画像情報である。カラーの場合はRGBであってもよいし、L*a*b*等の他の色空間における画像であってもよい。入力画像がカラーの場合の処理として、本実施の形態では1つの特定のチャネルのみ(例えば、RGB画像のR画像のみ等)を用いる場合を例として説明するが、全チャネルに対して個別に文字領域を特定して、最後に論理和をとるなどの方法で結果を統合してもよい。
文字候補領域情報125は、文字候補領域検出モジュール120による処理結果であって、各候補領域の輪郭画素位置情報、領域内画素位置情報等で表現される。本実施の形態では、個々のMSERとして検出される画素集合の位置座標を列挙したものをMSER情報と呼ぶことにし、対象としている画像全体から検出された全てのMSER情報の集合を文字候補領域情報125とする。
The
The character
包含関係構築モジュール410は、包含関係修正モジュール440と接続されており、文字候補領域情報125を受け付ける。包含関係構築モジュール410は、部分画像間の包含関係を抽出する。また、包含関係構築モジュール410は、包含関係を示す木構造を構築するようにしてもよい。
MSERはある領域が別の領域を包含し、このような包含関係を連ねていくと木構造を形成するという特徴がある(図5〜13を用いて前述)。そこで、具体的には、包含関係構築モジュール410では、文字候補領域情報125内の全てのMSERについて包含関係をチェックし、複数の木構造を構築する。ここで複数の木構造として、少なくとも2つの木構造がある。例えば、前述したように、2値化の閾値を暗から明へ変動させることによって生成する木構造と、閾値を明から暗へ変動させることによって生成する木構造がある。
The inclusion
MSER is characterized in that a certain region includes another region and a tree structure is formed when such inclusion relationships are linked (described above with reference to FIGS. 5 to 13). Therefore, specifically, the inclusion
木構造の例については、図14〜16を用いて説明する。
MSERの性質として、1文字から複数のMSERが検出される場合がある。例えば、元の文字画像(例えば、看板等に記載された文字画像)は、図14の例に示すような2値画像であるとする。カメラで撮影した情景画像では、影、反射、照明ムラ、撮影時の手ぶれ、ぼけ等の影響で、元々は2値画像であっても、図15の例に示すように多値の画像になる。
その結果、図16の例に示すように1つの文字から複数のMSERが検出される場合がある。
MSERなので、個々の検出領域は図16の例に示す木構造で表されるような包含関係を有している。
An example of a tree structure will be described with reference to FIGS.
As the nature of MSER, a plurality of MSERs may be detected from one character. For example, an original character image (for example, a character image written on a signboard or the like) is assumed to be a binary image as shown in the example of FIG. A scene image shot by a camera is a multi-valued image as shown in the example of FIG. 15 even if it was originally a binary image due to the influence of shadows, reflections, uneven illumination, camera shake, blurring, etc. .
As a result, a plurality of MSERs may be detected from one character as shown in the example of FIG.
Since it is MSER, each detection area has an inclusive relationship represented by the tree structure shown in the example of FIG.
文字領域特徴抽出モジュール420は、文字スコア算出モジュール430と接続されており、情景画像情報115、文字候補領域情報125を受け付ける。文字領域特徴抽出モジュール420は、対象としている画像(情景画像情報115)と文字候補領域検出モジュール120の処理結果である部分画像(文字候補領域情報125)から、その部分画像内の領域の特徴を抽出する。具体的には、文字領域特徴抽出モジュール420は、文字候補領域情報125によって示される個々のMSERに関する情報(文字候補領域情報125)と、個々のMSERに対応する情景画像情報115から、領域の文字らしさを反映する特徴量を複数抽出し、それらを並べた特徴ベクトル(特徴量をベクトルの要素とした特徴ベクトル)を生成する。文字画像の特徴として、
(1)文字領域内での色・濃淡の変化が小さい
(2)背景に対するコントラストが高い
(3)単純な輪郭
(4)一定幅の線分で構成される
等が挙げられる。そして、領域の文字らしさを反映する特徴量の例として、
(1)aspect ratio
(2)compactness
(3)convex hull area to surface ratio
(4)background color consistency
(5)relative segment height
(6)number of holes
(7)character color consistency
(8)skeleton length to perimeter ratio
等がある(L. Neumann, J. Matas, “A Method for Text Localization and Recognition in Real−World Images”,in ACCV 2010, p. 770−783, 2010参照)。
文字領域特徴抽出モジュール420は、特徴量(実数値)を並べたベクトルを特徴ベクトルとする。上記の例では、8次元のベクトルを生成することになる。
また、特徴ベクトルとしては、上記のような注目領域から抽出される特徴量だけでなく、近傍の領域との関係性に基づいて抽出される特徴量を含んでもよい。例えば、最近傍領域との平均色差やサイズ比などを特徴量として用いるようにしてもよい。
The character area
(1) The change in color and shade in the character area is small (2) The contrast with the background is high (3) Simple outline (4) Consists of line segments of a certain width, etc. And as an example of the feature value that reflects the character of the area,
(1) aspect ratio
(2) compactness
(3) Convex hull area to surface ratio
(4) background color consistency
(5) relative segment height
(6) number of holes
(7) character color consistency
(8) skeleton length to perimeter ratio
(See L. Neumann, J. Matas, “A Method for Text Localization and Recognition in Real-World Images”, in
The character area
The feature vector may include not only the feature quantity extracted from the attention area as described above but also the feature quantity extracted based on the relationship with the neighboring area. For example, an average color difference from the nearest region, a size ratio, or the like may be used as the feature amount.
文字スコア算出モジュール430は、文字領域特徴抽出モジュール420、包含関係修正モジュール440と接続されている。文字スコア算出モジュール430は、文字領域特徴抽出モジュール420によって抽出された特徴から、部分画像内の領域の文字らしさを示す情報(文字スコア)を算出する。
具体的には、文字スコア算出モジュール430は、文字領域特徴抽出モジュール420により生成された特徴ベクトルを入力とし、対応するMSERが文字領域であるスコアを算出する。例えば、文字スコアを文字の事後確率とし、事後確率はニューラルネットワークにより算定するようにしてもよい。より具体的には、文字スコアの一例として、文字領域特徴抽出モジュール420により生成された特徴ベクトルxが与えられたときの、対応する領域のラベルyに関する事後確率p(y|x)を用いることができる。ラベルは二値(y={0,1})とし、y=0が非文字、y=1が文字を表すものとする。
事後確率p(y|x)は、例えば図17の例に示すようなニューラルネットワーク(中間層1層の多層パーセプトロン)の出力として求めることができる。
特徴ベクトルをd次元の実数ベクトルx=(x1,x2,…,xd)とし、それに定数要素1を付加したベクトルX=(x1,x2,…,xd,1)をニューラルネットワークへの入力とする。このとき事後確率p(y|x)はニューラルネットワークの出力として、式(2)のように求められる。
パラメータu及びパラメータwは、学習により求める。具体的には、文字領域の特徴ベクトル(正例)と非文字領域の特徴ベクトル(負例)を学習データとして多数用意し、ニューラルネットワークが、それぞれy=1、y=0になるべく近い値を出力するように最尤学習を行う。
The character
Specifically, the character
The posterior probability p (y | x) can be obtained as an output of a neural network (multilayer perceptron having one intermediate layer) as shown in the example of FIG.
A feature vector is a d-dimensional real vector x = (x 1 , x 2 ,..., X d ), and a vector X = (x 1 , x 2 ,..., X d , 1) with a
The parameter u and the parameter w are obtained by learning. Specifically, a large number of character vector feature vectors (positive examples) and non-character region feature vectors (negative examples) are prepared as learning data, and the neural network sets values as close as possible to y = 1 and y = 0, respectively. Perform maximum likelihood learning to output.
包含関係修正モジュール440は、包含関係構築モジュール410、文字スコア算出モジュール430と接続されており、特定文字領域情報135を出力する。包含関係修正モジュール440は、文字スコア算出モジュール430によって算出された文字らしさを示す情報と木構造における包含関係を用いて、1つの文字が記載されている部分画像を特定する。
また、包含関係修正モジュール440は、木構造におけるルートからリーフまでのノードにおいて、各ノードに対応する部分画像内の領域の文字らしさを示す情報が最も高いものを1つの文字が記載されている部分画像として特定するようにしてもよい。なお、条件としての「最も高いもの」の他に、上位n個の部分画像を特定するようにしてもよい。例えば、文字数が事前に判明している場合は、その文字数をnとすればよい。
また、包含関係修正モジュール440は、1つの文字が記載されている部分画像として特定したノードの親と子のノードを削除するようにしてもよい。
具体的には、包含関係修正モジュール440は、文字スコア算出モジュール430から出力される文字スコアが最も高いMSERを文字領域として特定する。ここで、「文字スコアが最も高い」とは、木構造全体のノードにおいて、そのノードに対応する文字スコアの中で最も高いものをいう。ある文字の中に別の文字を含む例は極めて希であるため、包含関係を表す木構造の中で文字領域として特定したMSERの親と子に相当するMSERを文字候補領域から除外し、木構造から削除する。ここで除外する親には、親の親も含み、さらにその親も含み、その経路におけるルートまでを含む。除外する子には、子の子も含み、さらにその子も含み、その経路におけるリーフまでを含む。つまり、対象としているノードを含み、ルートからリーフまでの経路上でのノードの中で、その対象としているノード以外を削除する。これにより1つの木が複数の部分木に分割される。以上の処理を全ての木が単一ノードのみになるまで繰り返す。
The inclusion
In addition, the inclusion
Further, the inclusion
Specifically, the inclusion
図18〜22を用いて説明する。
包含関係構築モジュール410により構築された個々の木について、最も文字スコアの高いMSERを選択し、文字領域として特定する。図18に示す例は、図16に示す例(木構造)に、各ノード(MSER)に対して文字スコア算出モジュール430によって算出された文字スコア(数字)を記載したものである。なお、ここでは文字スコアの値が高いほど文字らしいことを示している。この中で、枠線で囲ったMSER1810が、この木構造の中で最も高いスコアを示すものである。
ある文字の中に別の文字を含む例は極めて希であるため、文字領域として特定したMSERの親と子に相当するMSERを文字候補領域から除外する。図18の例では、MSER1810の親(文字スコア:0.91のMSER)、その親(文字スコア:0.26のMSER、ルート)、MSER1810の子(文字スコア:0.11のMSERと文字スコア:0.13のMSER、2つのリーフ)を削除する。この削除処理により、図19の例に示すように、1つの木が複数の部分木(図19の例では3つ)に分割される。
再び個々の木について、最も文字スコアの高いMSERを選択し、文字領域として特定する。図20の例のように、左側の木ではMSER2010が選択され、右側の木ではMSER2020が選択されることになる。
文字領域として特定したMSERの親と子に相当するMSERを文字候補領域から除外する。具体的には、MSER2010の子(文字スコア:0.21のMSERと文字スコア:0.03のMSER、2つのリーフ)を削除し、MSER2020の親(文字スコア:0.83のMSER)、MSER2020の子(文字スコア:0.58のMSERと文字スコア:0.32のMSER、2つのリーフ)を削除して、図21の例に示すような状態になる。
以上の処理を全ての木が単一ノードのみになるまで繰り返す。
This will be described with reference to FIGS.
For each tree constructed by the inclusion
Since an example including another character in a certain character is very rare, MSER corresponding to the parent and child of the MSER specified as the character region is excluded from the character candidate region. In the example of FIG. 18, the parent of MSER 1810 (character score: 0.91 MSER), its parent (character score: MSER of 0.26, root), and child of MSER 1810 (character score: 0.11 MSER and character score) : 0.13 MSER, 2 leaves). By this deletion processing, as shown in the example of FIG. 19, one tree is divided into a plurality of subtrees (three in the example of FIG. 19).
Again, for each tree, the MSER with the highest character score is selected and specified as the character region. As in the example of FIG. 20,
The MSER corresponding to the parent and child of the MSER specified as the character area is excluded from the character candidate area. Specifically, the child of MSER 2010 (character score: 0.21 MSER and character score: 0.03 MSER, two leaves) is deleted, and
The above processing is repeated until all trees are only a single node.
図22は、本実施の形態(包含関係修正モジュール440)による処理例を示すフローチャートである。
ステップS2202では、複数のノードを有する木を選択する。
ステップS2204では、文字スコア最大のMSERを文字領域として特定する。
ステップS2206では、木構造中の親と子を削除する。
ステップS2208では、全ての木のノード数が1であるか否かを判断し、全ての木のノード数が1である場合は、処理を終了し(ステップS2299)、それ以外の場合はステップS2202へ戻る。
FIG. 22 is a flowchart illustrating a processing example according to the present exemplary embodiment (the inclusion relationship correction module 440).
In step S2202, a tree having a plurality of nodes is selected.
In step S2204, the MSER having the maximum character score is specified as the character region.
In step S2206, the parent and child in the tree structure are deleted.
In step S2208, it is determined whether or not the number of nodes of all trees is 1. If the number of nodes of all trees is 1, the process is terminated (step S2299). Otherwise, step S2202 is performed. Return to.
特定文字領域情報135は、包含関係修正モジュール440により抽出されたノード集合が文字として特定されたMSERとなる。前述の例では、図21の状態である。これを特定文字領域と呼ぶことにする。特定文字領域情報135は文字候補領域情報125と同一フォーマットか、文字候補領域情報125のインデックス情報で表現される。
The specific
情景画像内の文字は、影や反射等の影響で本来文字が備えている画像的特徴を失っている場合があり、文字領域から必ずしも高い文字スコアが得られるとは限らない。したがって、文字スコアのみを基準に文字/非文字判定すると文字スコアの低い文字領域が検出されない場合がある。
包含関係修正モジュール440では、領域間の包含関係も利用することで、文字スコアの低い領域の検出も可能となる。
文字領域は文字スコアの高い方から順に特定される。文字スコアの高い領域は文字領域としての信頼性が高いので、全体として信頼性の高い処理になる。
影や反射等の影響で文字スコアの値が低くなった文字領域は、文字スコアの低いノード群から構成される部分木に属することになる。しかし、この部分木の中で最も文字スコアの高い領域が文字領域として特定されるので、依然として結果の信頼性は高い。
The characters in the scene image may have lost the image characteristics inherent to the characters due to the influence of shadows and reflections, and a high character score is not always obtained from the character region. Accordingly, when character / non-character determination is performed based only on the character score, a character region having a low character score may not be detected.
The inclusion
Character regions are specified in order from the highest character score. Since a region having a high character score has high reliability as a character region, the processing is highly reliable as a whole.
A character area having a low character score due to the influence of shadows, reflections, etc. belongs to a subtree composed of nodes having a low character score. However, since the area having the highest character score in the partial tree is specified as the character area, the reliability of the result is still high.
図23を参照して、本実施の形態の画像処理装置のハードウェア構成例について説明する。図23に示す構成は、例えばパーソナルコンピュータ(PC)等によって構成されるものであり、スキャナ等のデータ読み取り部2317と、プリンタ等のデータ出力部2318を備えたハードウェア構成例を示している。
A hardware configuration example of the image processing apparatus according to the present embodiment will be described with reference to FIG. The configuration illustrated in FIG. 23 is configured by, for example, a personal computer (PC), and illustrates a hardware configuration example including a
CPU(Central Processing Unit)2301は、前述の実施の形態において説明した各種のモジュール、すなわち、画像受付モジュール110、文字候補領域検出モジュール120、文字領域特定モジュール130、文字認識モジュール140、包含関係構築モジュール410、文字領域特徴抽出モジュール420、文字スコア算出モジュール430、包含関係修正モジュール440等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
A CPU (Central Processing Unit) 2301 includes various modules described in the above-described embodiments, that is, the
ROM(Read Only Memory)2302は、CPU2301が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)2303は、CPU2301の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバス等から構成されるホストバス2304により相互に接続されている。
A ROM (Read Only Memory) 2302 stores programs, calculation parameters, and the like used by the CPU 2301. A RAM (Random Access Memory) 2303 stores programs used in the execution of the CPU 2301, parameters that change as appropriate during the execution, and the like. These are connected to each other by a
ホストバス2304は、ブリッジ2305を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス2306に接続されている。
The
キーボード2308、マウス等のポインティングデバイス2309は、操作者により操作される入力デバイスである。ディスプレイ2310は、液晶表示装置又はCRT(Cathode Ray Tube)等があり、各種情報をテキストやイメージ情報として表示する。
A
HDD(Hard Disk Drive)2311は、ハードディスク(フラッシュメモリ等であってもよい)を内蔵し、ハードディスクを駆動し、CPU2301によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、対象とする画像、情景画像情報115、文字候補領域情報125、特定文字領域情報135、文字認識結果等が格納される。さらに、その他の各種データ、各種コンピュータ・プログラム等が格納される。
An HDD (Hard Disk Drive) 2311 includes a hard disk (may be a flash memory or the like), drives the hard disk, and records or reproduces a program executed by the CPU 2301 and information. The hard disk stores a target image,
ドライブ2312は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体2313に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース2307、外部バス2306、ブリッジ2305、及びホストバス2304を介して接続されているRAM2303に供給する。リムーバブル記録媒体2313も、ハードディスクと同様のデータ記録領域として利用可能である。
The drive 2312 reads data or a program recorded on a removable recording medium 2313 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and the data or program is read out to the
接続ポート2314は、外部接続機器2315を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート2314は、インタフェース2307、及び外部バス2306、ブリッジ2305、ホストバス2304等を介してCPU2301等に接続されている。通信部2316は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部2317は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部2318は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
The connection port 2314 is a port for connecting the
なお、図23に示す画像処理装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図23に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図23に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。 Note that the hardware configuration of the image processing apparatus illustrated in FIG. 23 illustrates one configuration example, and the present embodiment is not limited to the configuration illustrated in FIG. 23, and the modules described in the present embodiment are executed. Any configuration is possible. For example, some modules may be configured with dedicated hardware (for example, Application Specific Integrated Circuit (ASIC), etc.), and some modules are in an external system and connected via a communication line In addition, a plurality of systems shown in FIG. 23 may be connected to each other via communication lines so as to cooperate with each other. In particular, in addition to personal computers, portable information communication devices (including mobile phones, smartphones, mobile devices, wearable computers, etc.), information appliances, copiers, fax machines, scanners, printers, multifunction devices (scanners, printers, copiers) Or an image processing apparatus having two or more functions such as a fax machine).
前述の実施の形態を次のようにしてもよい。
・最大の文字スコアを有している領域の画像を、その親・子とともに表示する文字特定領域表示モジュールを付加してもよい。
さらに、操作者の操作によって、その文字特定領域表示モジュールによって表示される親・子のいずれかの領域に文字特定結果を変更する文字特定結果修正モジュールを付加してもよい。
操作者の操作による修正を可能にするとともに、最大の文字スコアを有している領域とその親・子のみから選択すればよいので、操作者の負担を軽減できる。
・木構造の中の最大の文字スコアが予め定められた値未満又は以下の場合は、その木構造中の全ての候補領域を除外する包含関係修正モジュールを付加するようにしてもよい。
例えば、文字スコアが極端に低い場合はノイズ(非文字領域)である可能性が高いので、この処理により誤検出率を低減できる。
・本実施の形態では、文字領域の検出をしているが、例えば、画像の領域ラベリングに適用してもよい。なお、画像の領域ラベリングとは、例えば、風景画像の各領域に対して、空、雲、海、地面、木、等のラベルを付与するものである。
The above-described embodiment may be performed as follows.
-You may add the character specific area | region display module which displays the image of the area | region which has the largest character score with the parent / child.
Furthermore, a character identification result correction module for changing the character identification result may be added to either the parent or child area displayed by the character identification area display module by the operation of the operator.
The correction by the operation of the operator is possible, and it is only necessary to select from the region having the maximum character score and its parent / child.
If the maximum character score in the tree structure is less than or less than a predetermined value, an inclusion relationship correction module that excludes all candidate regions in the tree structure may be added.
For example, if the character score is extremely low, there is a high possibility of noise (non-character region), and this process can reduce the false detection rate.
In the present embodiment, the character area is detected, but may be applied to, for example, area labeling of an image. The image area labeling is, for example, assigning labels such as sky, clouds, sea, ground, and trees to each area of a landscape image.
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
The program described above may be provided by being stored in a recording medium, or the program may be provided by communication means. In that case, for example, the above-described program may be regarded as an invention of a “computer-readable recording medium recording the program”.
The “computer-readable recording medium on which a program is recorded” refers to a computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution, and the like.
The recording medium is, for example, a digital versatile disc (DVD), which is a standard established by the DVD Forum, such as “DVD-R, DVD-RW, DVD-RAM,” and DVD + RW. Standard “DVD + R, DVD + RW, etc.”, compact disc (CD), read-only memory (CD-ROM), CD recordable (CD-R), CD rewritable (CD-RW), Blu-ray disc ( Blu-ray (registered trademark) Disc), magneto-optical disk (MO), flexible disk (FD), magnetic tape, hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM (registered trademark)) )), Flash memory, Random access memory (RAM) SD (Secure Digital) memory card and the like.
The program or a part of the program may be recorded on the recording medium for storage or distribution. Also, by communication, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), a wired network used for the Internet, an intranet, an extranet, or a wireless communication It may be transmitted using a transmission medium such as a network or a combination of these, or may be carried on a carrier wave.
Furthermore, the program may be a part of another program, or may be recorded on a recording medium together with a separate program. Moreover, it may be divided and recorded on a plurality of recording media. Further, it may be recorded in any manner as long as it can be restored, such as compression or encryption.
100…画像処理装置
110…画像受付モジュール
115…情景画像情報
120…文字候補領域検出モジュール
125…文字候補領域情報
130…文字領域特定モジュール
135…特定文字領域情報
140…文字認識モジュール
210…撮影装置
230…情報処理装置
310…ユーザー端末
330…情報処理装置
390…通信回線
410…包含関係構築モジュール
420…文字領域特徴抽出モジュール
430…文字スコア算出モジュール
440…包含関係修正モジュール
DESCRIPTION OF
Claims (5)
前記部分画像間の包含関係を抽出する抽出手段と、
前記部分画像内の領域の文字らしさを示す情報と前記包含関係を用いて、1つの文字が記載されている部分画像を特定する特定手段
を具備することを特徴とする画像処理装置。 Detecting means for detecting a partial image having a feature as a character from the image as a character candidate region;
Extraction means for extracting an inclusion relationship between the partial images;
An image processing apparatus comprising: specifying means for specifying a partial image in which one character is described using information indicating the character-likeness of an area in the partial image and the inclusion relation.
前記特定手段は、
前記画像と前記部分画像から該部分画像内の領域の特徴を抽出する第2の抽出手段と、
前記第2の抽出手段によって抽出された特徴から、前記部分画像内の領域の文字らしさを示す情報を算出する算出手段と、
前記算出手段によって算出された文字らしさを示す情報と前記木構造における包含関係を用いて、1つの文字が記載されている部分画像を特定する第2の特定手段
を具備することを特徴とする請求項1に記載の画像処理装置。 The extraction means constructs a tree structure indicating the inclusion relationship,
The specifying means is:
Second extraction means for extracting features of a region in the partial image from the image and the partial image;
Calculating means for calculating information indicating the character likeness of the area in the partial image from the features extracted by the second extracting means;
2. A second specifying unit that specifies a partial image in which one character is described using information indicating the character likeness calculated by the calculating unit and an inclusion relation in the tree structure. Item 8. The image processing apparatus according to Item 1.
ことを特徴とする請求項2に記載の画像処理装置。 The second specifying means includes a portion in which one character is described in the node from the root to the leaf in the tree structure that has the highest information indicating the character of the region in the partial image corresponding to each node. The image processing apparatus according to claim 2, wherein the image processing apparatus is specified as an image.
ことを特徴とする請求項3に記載の画像処理装置。 The image processing apparatus according to claim 3, wherein the second specifying unit deletes a parent node and a child node of a node specified as a partial image in which one character is described.
画像から文字としての特徴を備える部分画像を文字候補領域として検出する検出手段と、
前記部分画像間の包含関係を抽出する抽出手段と、
前記部分画像内の領域の文字らしさを示す情報と前記包含関係を用いて、1つの文字が記載されている部分画像を特定する特定手段
として機能させるための画像処理プログラム。 Computer
Detecting means for detecting a partial image having a feature as a character from the image as a character candidate region;
Extraction means for extracting an inclusion relationship between the partial images;
An image processing program for functioning as specifying means for specifying a partial image in which one character is described, using information indicating the character-likeness of an area in the partial image and the inclusion relation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015030162A JP2016151978A (en) | 2015-02-19 | 2015-02-19 | Image processing apparatus and image processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015030162A JP2016151978A (en) | 2015-02-19 | 2015-02-19 | Image processing apparatus and image processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016151978A true JP2016151978A (en) | 2016-08-22 |
Family
ID=56696684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015030162A Pending JP2016151978A (en) | 2015-02-19 | 2015-02-19 | Image processing apparatus and image processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016151978A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6173542B1 (en) * | 2016-08-10 | 2017-08-02 | 株式会社Pfu | Image processing apparatus, image processing method, and program |
-
2015
- 2015-02-19 JP JP2015030162A patent/JP2016151978A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6173542B1 (en) * | 2016-08-10 | 2017-08-02 | 株式会社Pfu | Image processing apparatus, image processing method, and program |
US10049291B2 (en) | 2016-08-10 | 2018-08-14 | Pfu Limited | Image-processing apparatus, image-processing method, and computer program product |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4323328B2 (en) | System and method for identifying and extracting character string from captured image data | |
CN107133622B (en) | Word segmentation method and device | |
CN109583345B (en) | Road recognition method, device, computer device and computer readable storage medium | |
US11587216B2 (en) | Detection and identification of objects in images | |
US9171224B2 (en) | Method of improving contrast for text extraction and recognition applications | |
JP2013257866A (en) | Discovery of text in natural scenery | |
JP2014531097A (en) | Text detection using multi-layer connected components with histograms | |
US20230005108A1 (en) | Method and system for replacing scene text in a video sequence | |
CN112818983B (en) | Method for judging character inversion by using picture acquaintance | |
Alaei et al. | Document Image Quality Assessment: A Survey | |
Salunkhe et al. | Recognition of multilingual text from signage boards | |
Moussaoui et al. | Enhancing automated vehicle identification by integrating YOLO v8 and OCR techniques for high-precision license plate detection and recognition | |
CN111476226B (en) | Text positioning method and device and model training method | |
Vidhyalakshmi et al. | Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing | |
JP6828333B2 (en) | Image processing equipment and image processing program | |
JP5979008B2 (en) | Image processing apparatus, image processing method, and program | |
KR102026280B1 (en) | Method and system for scene text detection using deep learning | |
JP4550768B2 (en) | Image detection method and image detection apparatus | |
CN113065559B (en) | Image comparison method and device, electronic equipment and storage medium | |
JP2016151978A (en) | Image processing apparatus and image processing program | |
Pandey et al. | Review of different binarization techniques used in different areas of image analysis | |
JP4890351B2 (en) | Image processing apparatus, image processing program, computer-readable recording medium storing the image processing program, and image processing method | |
Chakraborty et al. | OCR from video stream of book flipping | |
Chakraborty et al. | Frame selection for OCR from video stream of book flipping | |
US20230260091A1 (en) | Enhancing light text in scanned documents while preserving document fidelity |