JP2012048321A - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP2012048321A JP2012048321A JP2010187560A JP2010187560A JP2012048321A JP 2012048321 A JP2012048321 A JP 2012048321A JP 2010187560 A JP2010187560 A JP 2010187560A JP 2010187560 A JP2010187560 A JP 2010187560A JP 2012048321 A JP2012048321 A JP 2012048321A
- Authority
- JP
- Japan
- Prior art keywords
- image
- separation
- path
- module
- route
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 claims abstract description 661
- 238000004364 calculation method Methods 0.000 claims abstract description 235
- 238000012545 processing Methods 0.000 claims abstract description 210
- 238000000034 method Methods 0.000 claims description 165
- 230000008569 process Effects 0.000 claims description 140
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 52
- 238000000605 extraction Methods 0.000 description 42
- 230000014509 gene expression Effects 0.000 description 25
- 230000001186 cumulative effect Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 101100517651 Caenorhabditis elegans num-1 gene Proteins 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000021438 curry Nutrition 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18086—Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
- G06V30/18095—Summing image-intensity values; Projection and histogram analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
【解決手段】画像処理装置の経路算出手段は、画像内の文字画像を分離する線分である分離経路を算出し、特徴量算出手段は、複数方向の分離経路の特徴量を算出し、選択手段は、特徴量に基づいて、画像の分離方向及び文字画像の状態を判別して分離経路を選択し、分離手段は、選択された分離経路により、画像を複数の部分画像へ分離し、再帰処理判断手段は、分離された画像の文字画像の状態に基づいて、再帰的に処理を行うか否かを判断し、経路算出手段は、再帰処理判断手段によって再帰的に処理を行うと判断された場合に、分離手段によって分離された画像に対して、該画像内の文字画像を分離する線分である分離経路を算出する。
【選択図】図42
Description
これに関連する技術として、例えば、特許文献1には、文書画像の行と段の抽出機能を持つ文書画像認識装置に関し、横行と縦行が混在する文書画像の行・段の抽出を高速かつ高精度に行うことができるようにすることを目的とし、文書画像傾き検出部は、文書画像を参照して文字を構成する成分の集合を抽出し、これをもとに横及び縦の行候補を抽出し、それらの各々の行候補に対して信頼度を推定し、推定した行信頼度に基づいて確度の高い行の集合を抽出し、その結果をもとに確度の高い行の集合の文字成分の配置を用いて傾きを推定し、レイアウト解析部は、文書画像を構成する基礎要素の集合から行方向の確定した行集合を抽出し、行どうしの関連付けによる段抽出と段を制約とした行抽出とを相互に実行して行と段を抽出することが開示されている。
請求項1の発明は、少なくとも文字画像を含む画像を受け付ける受付手段と、前記受付手段によって受け付けられた画像に対して、該画像内の文字画像を分離する線分である分離経路を算出する経路算出手段と、前記経路算出手段によって算出された複数方向の分離経路の特徴量を算出する特徴量算出手段と、前記特徴量算出手段によって算出された特徴量に基づいて、画像の分離方向及び文字画像の状態を判別し、該判別の結果によって前記複数方向の分離経路のうちの分離経路を選択する選択手段と、前記選択手段によって選択された分離経路により、前記画像を複数の部分画像へ分離する分離手段と、前記分離手段によって分離された画像の前記文字画像の状態に基づいて、再帰的に処理を行うか否かを判断する再帰処理判断手段を具備し、前記経路算出手段は、前記再帰処理判断手段によって再帰的に処理を行うと判断された場合に、前記分離手段によって分離された画像に対して、該画像内の文字画像を分離する線分である分離経路を算出することを特徴とする画像処理装置である。
まず、<A>に示す実施の形態の概略を説明する。
本実施の形態は、画像内から領域を分離する(切り出す、抽出等ともいわれる)画像処理装置に関するものである。領域を分離するためには、その領域を囲む外郭を決定する必要がある。そこで、領域を囲む外郭として最短経路を採用する。この最短経路によって画像内から領域を分離しようとするものである。
ここで、最短経路とは、対象とする画像上のピクセル(の位置)の1次元配列である線パタンであり、経路上のピクセルの輝度値の累積値をコストとして、ある範囲においてコスト最小又はコスト最大の経路を指す。特に本実施の形態において最短経路とは、図1に例示するように、画像100に対して領域を分割するための外郭にあたり、画像100の下端のあるピクセルを始点111として、画像100の上端にあるピクセルであって、終点候補のセットとしての予め定められた終点候補120内において、経路上のピクセルの輝度値の累積値が最小又は最大となるように定めたピクセルを終点121とした経路である。また、始点111と終点候補120が定まると、移動範囲130が定まることになる。
なお、コスト最小又はコスト最大の用語を用いるが、必ずしも最小、最大である必要はない。ここでのコスト最小又はコスト最大とは、その経路を抽出するための判断条件であり、その経路のコスト(経路上のピクセルの輝度値の累積値)が他の経路のコストよりも小さい又は大きいことであればよい。したがって、最短経路という場合は、特に明記する場合以外は、比較した範囲内で経路のコストが最小又は最大である経路であることの他に、画像を分割する経路を抽出するという目的を達成するための判断条件としてであれば、コストが最小又は最大から2番目等を選択した場合の経路であってもよいし、コストが最小又は最大から1番目、2番目等の複数を選択した場合の経路であってもよい。
本実施の形態は、前述の最短経路について、始点の異なる複数の経路が同一の終点をもつ(以下、経路の収束、とよぶ)ことを利用する。この様子を図2の例に模式的に示す。図2は、異なる始点をもつ複数の経路が、同じ終点をもつ例を示す説明図である。つまり、画像200を対象として、始点211〜213の3つの始点から出発した最短経路が1つの終点221に到達していることを示しており、始点214〜218の5つの始点から出発した最短経路が1つの終点222に到達していることを示している。
以下、複数の単文字を含む文字列画像を受け付けて、単文字どうしを分離することを主に例示して説明する。
本実施の形態は、最短経路の情報に基づいて、文字列画像について、単文字どうしを分離する経路を算出する。なお、前述の先行技術文献に記載されている技術において、この処理の役割をもつ処理は、投影情報又は連結成分に基づく分離領域候補の抽出処理にあたる。
図3は、対象とする画像の例を示す説明図である。画像300内には、「S」の文字画像310、「T」の文字画像320、「U」の文字画像330を含んでおり、これらは写像をとると互いに重なっているパタンである。セルはピクセルを表し、セルの値はピクセルの輝度値を表す。さらに、図3の例について、最短経路を算出したものを図4、図5の例に示す。セルの数値について、1は経路があることを、0は経路がないことを表している。図4の例は、下端のすべてのピクセルを始点として上端にあるピクセルを終点とする、上方向の最短経路を表す。図5の例は、上端のすべてのピクセルを始点として下端にあるピクセルを終点とする、下方向の最短経路を表す。それぞれ、経路が収束していることが分かる。つまり、始点の数よりも終点の数が少ないのであるから、始点の異なる複数の経路が同一の終点をもっている。
以下、上方向を開始の方向として、2回の往復により得られた最短経路の例を図7に、3回の往復により得られた最短経路の例を図8に、往復により経路の始点終点に変化がなくなった状態で得られる最短経路の例を図9に示す。ここで、経路の始点終点に変化がなくなった状態とは、上方向の経路と下方向の経路が合致することをいい、合致とは、経路が一致することをいい、その方向は問わない。つまり、一方の始点は他方の終点となり、一方の終点は他方の始点となることである。
また、図9に例示する最短経路を分離経路として、図3に例示する画像を分離する様子を図10の例に模式的に表す。つまり、画像300は、分離経路1010、分離経路1020、分離経路1030、分離経路1040によって、文字画像310(文字「S」)と文字画像320(文字「T」)と文字画像330(文字「U」)との領域に分離されていることが分かる。
本実施の形態は、このように、経路の収束に基づき、分離経路の絞り込みを行うものである。
往復回数を指定する経路の算出(つまり、必ずしも完全な収束とはならない算出)は、往復回数に対して、分離経路数は単調減少であることを利用して、本実施の形態全体が要求に合わせて分離の度合いを調節するようにしてもよい。
<本実施の形態の基本構成例>
まず、図11に、本実施の形態(画像処理装置である経路抽出装置)の基本構成例についての概念的なモジュール構成図を示す。この基本構成例は、以下の処理を行う。
(1)経路情報算出処理:経路要求を受け取ると、対象画像を解析し、経路情報を算出する処理である。この処理は、次の2種類がある。
(ア)順方向の経路情報算出(順方向経路情報算出モジュール1110による処理)
(イ)逆方向の経路情報算出(逆方向経路情報算出モジュール1130による処理)
(2)経路選択(経路選択モジュール1120による処理):経路情報を参照し、経路の収束に基づいて経路を選択する処理である。
図11の例において、破線で示す情報(開始要求1102、経路要求1121、経路要求1122)は必ずしも存在しない処理を表す。具体的に、開始要求は、経路選択の往復回数、初期方向、初期始点を指定する情報である。また、経路要求は、順方向経路情報算出モジュール1110、逆方向経路情報算出モジュール1130が経路情報を算出するための経路の始点を指定する情報である。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
また、対象とする画像として、1行の横書きの複数文字の画像とした例を主に説明する。
以降、実施の形態の例は、以下の項目によって分類している。
(1)往復回数
(2)経路情報の算出のタイミング
(3)絞り込む情報
(4)絞り込みの調節
つまり、表1の例に示すように分類している。
(2)経路情報の算出のタイミングは、経路情報の算出について、予めすべての経路情報を算出するか(以下、予め一括して算出という)、又は、逐次必要な経路情報を算出する(以下、逐次算出という)か、による分類である。ワークメモリと、処理時間のトレードオフに関係する。第A−2の実施の形態、第A−3の実施の形態は、予め一括して算出するものであり、第A−4の実施の形態、第A−5の実施の形態は、逐次算出するものである。
(4)絞り込みの調節は、予め定められた往復回数による絞り込みの結果を分離経路とするか、又は、完全な収束の結果を分離経路とするか、による分類である。両者では、処理が異なる。また、予め一括して経路情報を算出する場合(第A−2の実施の形態、第A−3の実施の形態)において、完全な収束の結果を分離経路とする例を示す。なお、逐次算出によって、完全な収束の結果を得る実施の形態の例もあるが、これは、往復回数を無限大として、終了条件を付けるものであり、往復回数を指定するものと同等であるため、実施の形態を示さない。
図12は、第A−1の実施の形態の構成例についての概念的なモジュール構成図である。第A−1の実施の形態の例は、1回の往復により、経路を絞り込むものであり、順方向経路算出モジュール1210、逆方向経路終点算出モジュール1220を有しており、順方向経路算出モジュール1210と逆方向経路終点算出モジュール1220は、接続されている。
<<step1.>>
逆方向経路算出モジュール1220は、画像1201と初期始点1202を受け付け、画像1201を解析することによって、初期始点1202に対応する最短経路の終点1221を算出し、順方向経路算出モジュール1210へ出力する。
<<step2.>>
順方向経路算出モジュール1210は、画像1201を解析することによって、受け取った終点1221を始点として、その始点に対応する分離経路1299を算出し、出力し、終了する。
なお、順方向経路算出モジュール1210は、図11の例に示した経路選択モジュール1120の役割も有していることになる。
第A−2の実施の形態以降は、複数回の往復により、経路を絞り込む構成である。
図13は、第A−2の実施の形態の構成例についての概念的なモジュール構成図である。第A−2の実施の形態の例は、予め一括して経路情報を算出し、これを絞り込むものであり、順方向経路算出モジュール1310、経路選択モジュール1320、逆方向経路始点終点表算出モジュール1330を有している。特に、予め一括してすべての経路情報を算出し、これを絞り込む場合について説明する。なお、すべての経路とは、対象とする画像の上端又は下端のすべてのピクセルを始点とする場合のすべての経路である。
また、第A−2の実施の形態、第A−3の実施の形態は、始めの1回のみ経路情報を算出するため、処理時間の削減を図る場合に用いられるものである。
<<step1.>>
逆方向経路始点終点表算出モジュール1330は、経路選択モジュール1320と接続されており、画像1301を解析することによって、始点終点表1331を算出し、経路選択モジュール1320へ出力する。
そして、順方向経路算出モジュール1310は、経路選択モジュール1320と接続されており、画像1301を解析することによって、すべての始点の経路1311を算出し、経路選択モジュール1320へ出力する。
<<step2.>>
経路選択モジュール1320は、順方向経路算出モジュール1310、逆方向経路始点終点表算出モジュール1330と接続されており、順方向の経路1311と逆方向の始点終点表1331に基づいて、経路を絞り込み、分離経路1399として出力し、終了する。
なお、始点終点表については後述する。
図14は、第A−3の実施の形態の構成例についての概念的なモジュール構成図である。第A−3の実施の形態の例は、始点終点表と経路作成情報のみを算出し、始点を絞り込んだのち、経路を算出するものであり、順方向経路始点終点表算出モジュール1410、始点選択モジュール1420、逆方向経路始点終点表算出モジュール1430、順方向経路作成モジュール1440を有している。
<<step1.>>
逆方向経路始点終点表算出モジュール1430は、始点選択モジュール1420と接続されており、画像1401を解析することによって、始点終点表1431を算出し、始点選択モジュール1420へ出力する。
そして、順方向経路始点終点表算出モジュール1410は、始点選択モジュール1420、順方向経路作成モジュール1440と接続されており、画像1401を解析することによって、始点終点表1411を算出し、始点選択モジュール1420へ出力する。さらに、経路作成情報1412を算出し、順方向経路作成モジュール1440へ出力する。
<<step2.>>
始点選択モジュール1420は、順方向経路始点終点表算出モジュール1410、逆方向経路始点終点表算出モジュール1430、順方向経路作成モジュール1440と接続されており、順方向の経路の始点終点表1411と、逆方向の経路の始点終点表1431に基づいて、経路の始点1421の絞り込みを行い、順方向経路作成モジュール1440へ出力する。
<<step3.>>
順方向経路作成モジュール1440は、順方向経路始点終点表算出モジュール1410、始点選択モジュール1420と接続されており、順方向経路始点終点表算出モジュール1410から受け取った経路作成情報1412に基づいて、始点選択モジュール1420から受け取った始点1421の経路を作成し、分離経路1499として出力する。
始点終点表とは、経路の始点と終点のペアを保持した情報である。第A−2の実施の形態(図13)、第A−3の実施の形態(図14)における経路の絞り込み処理においては、経路の始点と終点のペアの情報を利用する。以下、この処理を説明する。
いま、順方向の始点終点表を数1とする。
なお、第A−2の実施の形態(図13)の経路選択モジュール1320は、受け取った経路1311からTを算出し、以下同様の処理を行うものとする。
まず、往復回数を指定する経路(始点)の絞り込み処理は、数11にしたがう。
数12内の3行目の式は、ある方向の始点(A)に対する終点(B)を、逆方向の始点(B)とした場合に、その結果である経路の終点が(A)となることを示している。
複数回の往復により、経路を絞り込む構成のうち、逐次、必要な経路情報を算出する構成を第A−4の実施の形態(図15)、第A−5の実施の形態(図16)に示す。第A−4の実施の形態は逐次経路を算出する構成であり、第A−5の実施の形態は逐次始点を算出し、最後に経路を算出する構成である。
第A−4の実施の形態、第A−5の実施の形態に示す構成は、逐次、必要な経路情報を算出するため、ワークメモリの削減を図る場合に用いられるものである。
第A−4の実施の形態は、順方向経路算出モジュール1510、逐次経路選択モジュール1520、逆方向経路終点算出モジュール1530を有している。
なお、開始要求(図15の例に示す1502、図16の例に示す1602)とは、初期の始点のセットである。
<<step1.>>
往復回数をRとする。
逐次経路選択モジュール1520は、順方向経路算出モジュール1510、逆方向経路終点算出モジュール1530と接続されており、以下の処理を行う。
Rが偶数ならば、順方向経路算出モジュール1510に始点1521を出力し、step2.へ進む。
そうでなければ、R←R−1として、逆方向経路終点算出モジュール1530に始点1522を出力し、step4.へ進む。
<<step2.>>
順方向経路算出モジュール1510は、逐次経路選択モジュール1520と接続されており、画像1501を解析することによって、受け付けたすべての始点1521の経路1511を算出し、逐次経路選択モジュール1520へ出力する。
逐次経路選択モジュール1520は、R=0であれば、受け付けた経路1511を分離経路1599として出力し、終了する。
そうでなければ、R←R−2として、受け付けた経路1511の始点を終点として、逆方向経路終点算出モジュール1530に始点1522を出力する。
<<step4.>>
逆方向経路終点算出モジュール1530は、逐次経路選択モジュール1520と接続されており、画像1501を解析することによって、受け付けたすべての始点1522の経路の終点1531を算出し、逐次経路選択モジュール1520へ出力する。
<<step5.>>
逐次経路選択モジュール1520は、受け付けた終点1531を始点として、順方向経路算出モジュール1510に出力し、step2.へ進む。
図16は、第A−5の実施の形態の構成例についての概念的なモジュール構成図である。第A−5の実施の形態は、順方向経路終点算出モジュール1610、逐次始点選択モジュール1620、逆方向経路終点算出モジュール1630、順方向経路算出モジュール1640を有している。
<<step1.>>
往復回数をRとする。
逐次始点選択モジュール1620は順方向経路終点算出モジュール1610、逆方向経路終点算出モジュール1630、順方向経路算出モジュール1640と接続されており、以下の処理を行う。
Rが偶数ならば、順方向経路終点算出モジュール1610に始点1621を出力し、step2.へ進む。
そうでなければ、R←R−1として、逆方向経路終点算出モジュール1630に始点1622を出力し、step4.へ進む。
<<step2.>>
順方向経路終点算出モジュール1610は、逐次始点選択モジュール1620と接続されており、画像1601を解析することによって、受け付けたすべての始点1621の経路の終点1611を算出し、逐次始点選択モジュール1620へ出力する。
逐次始点選択モジュール1620は、R=0であれば、受け付けた終点1611を始点1623として順方向経路算出モジュール1640へ出力し、step6.へ進む。
そうでなければ、R←R−2として、受け付けた経路の終点1611を始点として、逆方向経路終点算出モジュール1630に始点1622を出力する。
<<step4.>>
逆方向経路終点算出モジュール1630は、逐次始点選択モジュール1620と接続されており、画像1601を解析することによって、受け付けたすべての始点1622の経路の終点1631を算出し、逐次始点選択モジュール1620へ出力する。
<<step5.>>
逐次始点選択モジュール1620は、受け付けた終点1631を始点1621として、順方向経路終点算出モジュール1610に出力し、step2.へ進む。
<<step6.>>
順方向経路算出モジュール1640は、逐次始点選択モジュール1620と接続されており、受け付けたすべての始点1623の経路を作成し、分離経路1699として出力し、終了する。
前述の実施の形態により算出した分離経路により、画像分離を行う構成を図17、図18、図19、図20の例に示す。これらの構成は、文字列画像から単文字どうしを分離し、単文字画像として出力しようとする構成である。図17、図18、図19、図20において、経路抽出モジュールとは、第A−1の実施の形態(図12)、第A−2の実施の形態(図13)、第A−3の実施の形態(図14)、第A−4の実施の形態(図15)、第A−5の実施の形態(図16)の構成である。そして、この出力した単文字画像を、例えば文字画像認識装置等によって処理させる。
画像分離モジュール1710は、経路抽出モジュール1720と接続されており、文字列画像である画像1701を受け付け、その画像1701を経路抽出モジュール1720から受け取った分離経路1721にしたがって、単文字画像の領域に分離して、部分画像1799として出力する。
画像分離モジュール1810は、画像分離モジュール1820、経路抽出モジュール1830と接続されており、経路抽出モジュール1830の前処理として、分離候補領域抽出を行うものである。例えば、画像1801から文字画像だけを部分画像1811として取り出すものである。また、投影情報等を利用する従来技術で分離可能な単文字画像の分離を行い、分離できなかったもの(部分画像1811)を経路抽出モジュール1830に渡す。
画像分離モジュール1820は、画像分離モジュール1810、経路抽出モジュール1830と接続されており、画像分離モジュール1810から受け取った部分画像1811を経路抽出モジュール1830から受け取った分離経路1831にしたがって、単文字画像の領域に分離して、部分画像1899として出力する。なお、画像分離モジュール1810も単文字画像を分離する場合は、画像分離モジュール1810から画像分離モジュール1820へ渡す部分画像1811には、画像分離モジュール1810が分離した領域の単文字画像(経路抽出モジュール1830による処理の対象外の画像)も含まれ、それはそのまま部分画像1899として出力する。
経路判定モジュール1920は、画像分離モジュール1910、経路抽出モジュール1930と接続されており、経路抽出モジュール1930の出力する分離経路1931について、その経路によって正しい分離ができるか否かを判別する処理を行う。複数の分離経路間の出現間隔が他の分離経路間の出現間隔と比べて狭い場合(例えば、漢字構成としての偏、旁等)など、意味のない分離経路を棄却するものである。その判別の際に、画像1901を利用してもよい。
画像分離モジュール1910は、経路判定モジュール1920と接続されており、画像1901を経路判定モジュール1920から受け取った分離経路1921にしたがって、単文字画像の領域に分離して、部分画像1999として出力する。
画像分離モジュール2010は、画像分離モジュール2020、経路判定モジュール2030、経路抽出モジュール2040と接続されており、図18の例に示した画像分離モジュール1810と同等の処理を行う。
経路判定モジュール2030は、画像分離モジュール2010、画像分離モジュール2020、経路抽出モジュール2040と接続されており、図19の例に示した経路判定モジュール1920と同等の処理を行う。
画像分離モジュール2020は、画像分離モジュール2010、経路判定モジュール2030と接続されており、図19の例に示した画像分離モジュール1910と同等の処理を行う。ただし、対象とする画像は画像分離モジュール2010から受け取った部分画像2011である。
図1の例に示す最短経路について、図21の例に示す最短経路を用いて、始点の異なる複数の最短経路情報を同時に算出する実施例を示す。なお、最短経路の算出法は、Dijkstra法など、いくつか選択肢がある。
図21の例に示す最短経路について説明する。
あるピクセルを親として、終点方向(図21では上方向)に隣り合うピクセル、及び、終点方向とは斜め45度に存在するピクセルの3つのピクセルを子とする木構造を対象とする。この構造を繰り返し、図21の例に示すように、画像2100の端部のあるピクセル(始点2111)を根として、もう片方の端部(終点2121等)を葉として、画像高さが木の高さとなるような木を抽出する。
本実施の形態における最短経路とは、前述の木について、根から葉へ向かうすべての経路のうち経路上のピクセル(すなわち、節)の輝度値の累積値であるコストが最小又は最大である経路をさす。根が始点であり、また、葉が終点である。
この実施例は後方帰納的な処理であり、図21の例に示す木の最短経路の探索法である。ただし、経路のコストは辺でなく節にある。<step2.画像解析>と、<step3.経路作成>とは、画像上の位置について処理を行う順序が逆であることに注意が必要である。この処理は、上方向の最短経路を算出する処理であるが、下方向はもちろんのこと、あらゆる方向に適用できることは明らかである。
なお、本処理は、「順方向経路算出」に相当する。また、step3.以降が、「順方向経路作成」に相当する。
具体的には、数18は経路のコストに関する情報であり、ラインバッファである。処理においては、直前のラインのみ参照できればよく、数18の保持部は2つのラインバッファでよい。また、数19は経路の移動に関する情報であるが、処理において、経路が存在しない領域が逐次判明する。この領域分、保持する領域を逐次削減してもよい。
さらに、始点が指定された場合、図23の例に示すように、前述の木構造を構成することから、最短経路を算出するために必要な情報は、画像サイズよりも小さいことがあり、数18、数19を保持する領域をさらに削減してもよい。なお、図23の例は、画像2300において、始点2311、始点2312とした場合、色付のピクセルは、解析において参照する必要があるピクセルであり、白色のピクセルは、解析において必ずしも参照する必要がないピクセルであることを示している。
前述の実施の形態による実験結果を図24、図25、図26を用いて説明する。
図24は、対象とする画像(「Character」の文字画像)の例を示す説明図である。図25は、本実施の形態が対象とする画像を分離した例を示す説明図である。図26は、対象とする画像の投影情報の例を示す説明図である。
(1)投影情報では分離できない文字画像間の間隙である領域であっても分離している。
対象画像内の“ter”の文字画像部分(図24の例参照)については、図26の例に示すように投影情報2600では分離困難な文字画像間の間隙である。つまり、従来技術で投影情報を利用して分離しようとしても、図26の例に示すように投影情報2600には明確な谷がないため分離することは困難である。
このような画像に対して、本実施の形態は、図25の例に示すように文字画像の周囲を通るような形状の分離経路を算出している。
(2)連結成分を分離している。
対象画像内の“har”、“act”及び“er”の文字画像部分(図24の例参照)について、隣り合う文字画像と連結している部分がある。
図25の例に示すように、本実施の形態により、連結する文字画像をも分離している。前述したように最短経路による画像分離の仕組みにより、最短経路が移動可能な範囲内でコスト最小又はコスト最大の分離経路を算出しているからである。
(3)多値画像に対応している。
図24の例に示す画像2400は多値画像である。前述の実施の形態による処理は、2値画像を含む、多値画像に対応するものである。これにより、例えば、2値化に伴う、受け付けた画像毎の閾値設定を行う必要がなくなる。
(A1) 画像内から領域を分離するための第1の経路を示す情報である第1の経路情報を算出する第1の経路情報算出手段と、
前記第1の経路とは逆方向の経路であって、前記画像内から前記領域を分離するための第2の経路を示す情報である第2の経路情報を算出する第2の経路情報算出手段と、
前記第1の経路情報算出手段によって算出された第1の経路情報、前記第2の経路情報算出手段によって算出された第2の経路情報のいずれかを選択する経路選択手段
を具備することを特徴とする画像処理装置。
(A2) 前記第1の経路及び前記第2の経路は、該経路上の画素の輝度値の累積値が予め定めた条件を満たす場合の経路である
ことを特徴とする(A1)に記載の画像処理装置。
(A3) 前記第2の経路情報算出手段は、前記第1の経路情報算出手段によって算出された第1の経路情報に基づいて、前記第2の経路情報を算出し、
前記第1の経路情報算出手段は、2回目以降の処理においては、前記第2の経路情報算出手段によって算出された第2の経路情報に基づいて、前記第1の経路情報を算出する
ことを特徴とする(A1)又は(A2)に記載の画像処理装置。
(A4) 前記第1の経路情報算出手段による処理と前記第2の経路情報算出手段による処理は、該処理が予め定められた回数行われること、又は、前記第1の経路情報算出手段によって算出された第1の経路情報と前記第2の経路情報算出手段によって算出された第2の経路情報が合致すること、を終了の条件とする
ことを特徴とする(A3)に記載の画像処理装置。
次に、<A>に示した技術を前提とした実施の形態を説明する。ただし、分離経路の特徴として、「特開平04−10089」に記載の技術に基づいて算出された分離経路を利用してもよい。
<B>の実施の形態の概要を説明する。本実施の形態では、投影分布又は連結成分を利用せず、分離経路を利用する。ここでの分離経路とは、前述した<A>のものと同等である。なお、<A>は、文字列の画像を受け付け、単文字又は準文字である部分画像を出力するための分離経路の算出に関するものであるが、<B>の実施の形態では、受け付けた文書の画像を、分離経路によって文字列である部分画像に分離して出力するものである。
また、段落を構成する文字列の方向は未知であるとき、これを判別する必要がある。<B>の実施の形態では、複数方向の分離経路を比較することで、文字列の方向を判別する。
文書の画像について、前述の分離経路を算出したとき、以下のような性質がある。
(1)正しい方向の分離経路は、誤った方向の分離経路に対して、歪曲が小さい。
(2)分離経路による分離が行われない(分離経路の数が2以下)場合、単文字又は単文字列である。
なお、以降の説明のため、文字認識の技術分野について補足する。文字認識における文字の分離技術を、便宜的に以下のように分類する。
(1)領域(文字領域、非文字領域)の属性判別及び分離
画像内の領域が文字領域であるか、文字ではない領域であるかを判別し、その領域を分離する。
(2)文字列領域の方向判別及び分離
画像(文字領域を含む)内から文字領域内の文字列の領域の方向(縦書き、横書き)を判別し、その文字列の領域を分離する。
(3)単文字領域の分離
画像(文字領域、文字列領域を含む)内から一文字ずつ分離する。
さらに、前記(2)には2つの技術がある。すなわち、以下のことである。
A)文字列の方向判別
B)文字列(領域)の分離
文字列の方向が未知の場合、前記(2)の性能は、すなわち、前記A),B)の直列の性能である。<B>に示す実施の形態は、A),B)を併合したものである。
また、分離経路を求める方向は、横方向(以下、水平方向ともいう。ただし、厳密な水平でなくてもよい)と縦方向(以下、垂直方向ともいう。ただし、厳密な垂直でなくてもよい)の2つとする。なお、分離経路とは、画像内の文字画像を分離する線分である。
分離経路の特徴量は、その本数、個々の位置と形状、経路上の画素の輝度値(以下、画素の輝度値を画素値ともいう)から算出される。これらを表2に例示する。また、対応する記号を定義する。ここで、iは経路の本数に関係するインデックスである。
まず、特徴量「Num」について、これは、分離経路の本数そのものを指す。
次に、特徴量「Curli」について、これは、分離経路iの形状の歪曲の度合いを表す値である。ただし、i≦Numである。ここで、歪曲とは、分離経路iの始点と終点から導かれる直線と、分離経路iとの差分値である。前者(分離経路iの始点と終点から導かれる直線)をfi(x)、後者(分離経路i)をpi(x)とすれば、歪曲とは、Σx|fi(x)−pi(x)|dx、Max(|fi(x)−pi(x)|)、又は、Σx(fi(x)−pi(x))2dx等となる。
次に、特徴量「Thicki」について、これは、分離経路iの太さを表す。文字列分離の目的においては、隣接する文字列どうしの間隙に相当する。ただし、i≦Numである。
次に、特徴量「Costi」について、これは、分離経路の算出により定義されるコストそのものである。又は、別途、分離経路i上の画素値の累積値を求めてもよい。ただし、i≦Numである。
さらに、前記の特徴量について、方向(水平、垂直)毎に分離経路の長さが異なるため、前記特徴量を分離経路の長さで正規化するようにしてもよい。
<B>に示す実施の形態では、「経路の特徴量算出処理」において、前記特徴量を算出するものとする。
図27を用いて説明する。図27は、分離経路の算出処理の例を示す説明図である。
<A>に示した分離経路の算出、又は「特開平04−10089」に記載の分離経路の算出は、分離経路の移動範囲内において、Costiが最小又は最大となる経路を算出するものである。このとき、分離経路の長さが長いほど、分離経路の移動範囲は広くなる。分離経路の移動範囲が必要以上に広い場合、図27(a)に例示するように、局所の障害物パタン(障害物パタン2731〜障害物パタン2747、具体的な例として文字画像等がある)の存在が、分離経路の算出に大きな影響を与える。つまり、文字列の切り出しの目的から前記のことが分離の精度に消極的な影響を与えることがある。例えば、図27(a)に例示するように、障害物パタン2736と障害物パタン2745は、ノイズ、書き込み等によって領域が接触してしまっているため、Costiが最小又は最大となる経路は、始点2711から上側の経路を通って始点2711へとつながる。
特に、<A>に示した技術では、分離経路の算出過程において、Costiに関するラインバッファを持つが、このとき、予め定められた長さ毎に前記ラインバッファを初期化するだけで、同等の処理が得られる。
<A>に記載した技術のように分離経路を算出した後、複数の等価な分離経路を結合する。
ここで、複数の等価な分離経路を結合するには、分離経路の算出において、隣り合う分離経路どうしの間隙の幅が予め定められた条件を満たす場合に、その間隙にある画素の輝度値によらず、その隣り合う分離経路は等価であると判断し、結合する。又は、分離経路の算出において、隣り合う分離経路どうしの間隙にある画素の輝度値の累積値が予め定められた条件を満たす場合に、その隣り合う分離経路は等価であると判断し、結合する。
図29の上側の3本の分離経路(分離経路2911〜分離経路2913)を結合した分離経路2951は、(20)式のように表現される。すなわち、分離経路の輪郭線の情報で表現される。
また、分離経路の結合と特徴量の算出とを併合してもよい。例えば、pathiは、n個のsrc_pathjを結合したものとすれば、後述する特徴量であるThickiをnとするようにしてもよい。
前述の分離経路の定義に基づいて、表2に示す分離経路の特徴量の具体例を示す。
以下では、簡単のため、横方向の分離経路について説明する。縦方向の分離経路については、上端を右端、下端を左端と読み替えることによって対応できる。以下、経路の始点を(xs, ys)、終点を(xe, ye)とし、xs < xeであるとする。なお、分離経路iについて、水平位置xにおける垂直位置yを「top_pathi(x), bottom_pathi(x)」とする。また、水平位置x、垂直位置yにおける、対象画像の画素値をimg(x, y)とする。ここでは、簡単のため、img(x, y)の値が大きいほど、障害物パタンであるとする。
次に、特徴量「Curli」は、(22)式、(23)式、(24)式、(25)式等を用いて抽出する。
Curliについて、分離経路3012を用いて説明する。図30の例では実線の分離経路3012に対して、その始点と終点を通る直線f(x)((32)式)との差分(射線部の面積)を、分離経路3012の長さ(= xe−xs)で正規化したものである。
Thickiについては、(26)式、(27)式、(28)式のように、最大値、最小値、又は、平均値を用いるようにしてもよい。
ここでは、文書の画像を対象とし、文字列の分離、文字列の方向判別を行う実施の形態を説明する。
<第B−1の実施の形態>
文書の画像を受け付け、文字列の分離を行う実施の形態を説明する。
第B−1の実施の形では、受け付ける文書の画像の文字列の方向は既知であるものとする。
文書の画像を受け付け、文字列の方向判別を行う実施の形態を説明する。
図32は、第B−2の実施の形態の構成例についての概念的なモジュール構成図である。第B−2の実施の形態の例は、水平方向、垂直方向の分離経路を算出し、それぞれの分離経路の特徴量を算出し、これらの特徴量を比較し、文字列の方向と状態を判別し、出力するものであって、画像受付モジュール3210、水平方向分離経路算出モジュール3220、垂直方向分離経路算出モジュール3230、経路特徴量算出モジュール3240、分離方向判別モジュール3250を有している。
水平方向分離経路算出モジュール3220は、画像受付モジュール3210によって受け付けられた画像に対して、その画像内の文字画像を分離する横方向の線分である分離経路を算出する。例えば、<A>、<B−1.1 分離経路の算出における、予め定められた区間の解析単位について>、<B−1.2 複数の等価な分離経路の結合について>に示した技術を適用して実現される。
垂直方向分離経路算出モジュール3230は、画像受付モジュール3210によって受け付けられた画像に対して、その画像内の文字画像を分離する縦方向の線分である分離経路を算出する。例えば、<A>、<B−1.1 分離経路の算出における、予め定められた区間の解析単位について>、<B−1.2 複数の等価な分離経路の結合について>に示した技術を適用して実現される。
「方向」は、以下の3つの値をとりうる。
(1)H:水平
(2)V:垂直
(3)⊥:判別不能
また、「状態」は、以下の4つの値をとりうる。
(1)P:単段落
(2)T:単文字列
(3)C:単文字
(4)⊥:判別不能
表4、表5、表6、表7を用いた判別は、それぞれ、分離経路の特徴量によって、文字列の方向を判別するものである。
まず、分離方向判別モジュール3250による方向判別は、分離経路の形状に基づいて文字列の方向を判別するものである。このため、形状の情報に基づく判別でない「Costによる判別」は、最も優先度の低い、最後段に設置する。
次に、形状の情報に基づく判別である「Curlによる判別」、「Thickによる判別」について、箇条書きのような配置に対応するためには、必ずしも、MaxThick又はAvgThickが最大の方向が文字列の方向ではない場合があり得る。ゆえに、「Thickによる判別」(表6)の前段に、「Curlによる判別」(表4、表5)を設置する。
次に、「Curlによる判別」について、対象となっている文書の画像によって、必ずしも、水平方向、垂直方向について、算出される分離経路の総数が同じであるとは限らない(すなわち、縦に長い横書き、又は、横に長い縦書き等があり得る)。ある方向の分離経路の平均値は、分離経路の総数に影響されるため、「AvgCurlによる判別」(表5)の前段に、「MaxCurlによる判別」(表4)を設置する。
以上の設計は、複数の文字列によって構成されている文書の画像を想定した判別であるが、対象とする文書の画像は必ずしも複数の文字列によって構成されているとは限らない。このため、最前段に「Numによる判別」(表3)を設置し、対象となっている文書の画像が、単文字か、単文字列か、それ以外かを判別する。
ステップS3304では、表3のNumによる判別を行う。
ステップS3306では、「状態」変数は判別不能(状態==⊥)か否かを判断し、「状態」変数が判別不能の場合はステップS3308へ進み、それ以外の場合はステップS3322へ進む。
ステップS3308では、表4のMaxCurlによる判別を行う。つまり、横方向のMaxCurlが縦方向のMaxCurlよりも小であるならば、方向は水平(H)であり、状態は単段落(P)である。横方向のMaxCurlが縦方向のMaxCurlよりも大であるならば、方向は垂直(V)であり、状態は単段落(P)である。それ以外(両方が同じ)ならば、何もしない(状態は判別不能(⊥)のままである)。
ステップS3312では、表5のAvgCurlによる判別を行う。つまり、横方向のAvgCurlが縦方向のAvgCurlよりも小であるならば、方向は水平(H)であり、状態は単段落(P)である。横方向のAvgCurlが縦方向のAvgCurlよりも大であるならば、方向は垂直(V)であり、状態は単段落(P)である。それ以外(両方が同じ)ならば、何もしない(状態は判別不能(⊥)のままである)。
ステップS3316では、表6のAvgThickによる判別を行う。つまり、横方向のAvgThickが縦方向のAvgThickよりも大であるならば、方向は水平(H)であり、状態は単段落(P)である。横方向のAvgThickが縦方向のAvgThickよりも小であるならば、方向は垂直(V)であり、状態は単段落(P)である。それ以外(両方が同じ)ならば、何もしない(状態は判別不能(⊥)のままである)。
ステップS3320では、表7のAvgCostによる判別を行う。つまり、横方向のAvgCostが縦方向のAvgCostよりも小であるならば、方向は水平(H)であり、状態は単段落(P)である。横方向のAvgCostが縦方向のAvgCostよりも大であるならば、方向は垂直(V)であり、状態は単段落(P)である。それ以外(両方が同じ)ならば、何もしない(状態は判別不能(⊥)のままである)。
ステップS3322では、「方向」変数と「状態」変数の組である(方向,状態)を出力する。
次に、文書の画像を受け付け、文字列の方向判別と、分離の処理を行う実施の形態を説明する。
図34は、第B−3の実施の形態の構成例についての概念的なモジュール構成図である。第B−3の実施の形態は、水平方向、垂直方向の分離経路を算出し、これらを一旦保持し、それぞれの分離経路の特徴量を算出し、これらの特徴量を比較し、文字列の方向と状態を判別し、判別された方向の分離経路を選択し、これらに基づいて、画像分離を行うものであって、画像受付モジュール3210、水平方向分離経路算出モジュール3220、垂直方向分離経路算出モジュール3230、分離経路記憶モジュール3435、経路特徴量算出モジュール3240、分離方向判別モジュール3250、画像分離モジュール3460を有している。
分離経路記憶モジュール3435は、水平方向分離経路算出モジュール3220、垂直方向分離経路算出モジュール3230、経路特徴量算出モジュール3240、画像分離モジュール3460と接続されており、水平方向分離経路算出モジュール3220、垂直方向分離経路算出モジュール3230によって算出された分離経路を記憶する。そして、その分離経路を経路特徴量算出モジュール3240又は画像分離モジュール3460へ渡す。
画像分離モジュール3460が行う判断、処理を表8に示す。
<B>に示した実施の形態による実験結果を、この実施の形態を用いないで行った場合と比較して説明する。
まず、本実施の形態を用いないで行った場合について説明する。本実施の形態を用いないで行った場合として背景技術で説明した技術がある。そのアプローチは、大きく2つに分類される。つまり、投影分布に基づくアプローチと、連結成分に基づくアプローチである。なお、連結成分の外接矩形の投影分布によるものは、投影分布に基づくアプローチに属するものとする。
それぞれ基本とする情報(すなわち、投影分布、連結成分)について、特徴量を算出し、複数方向の特徴量について、それぞれ比較することで、文字列の方向判別又は切り出しを行う。
投影分布による文字列の方向判別では、投影分布の値又はその形状(例えば、山、谷)の特徴を比較する。例えば、特開平04−311283号公報記載の技術では、水平方向及び垂直方向の投影分布の最大値を特徴量として、方向判別を行う。
連結成分による文字列の方向判別では、連結成分どうしの位置関係の特徴を比較する。例えば、特開平05−073718号公報記載の技術では、水平方向及び垂直方向について、最小距離が得られる連結成分の対の数を比較することで、方向判別を行う。一方、例えば、特開2000−090194号公報記載の技術では、水平方向及び垂直方向について、連結成分の外接矩形どうしの平均間隔を比較することで、方向判別を行う。
投影分布による文字列の切り出しでは、文字列の方向の投影分布について、文字列の間隙に相当する投影分布の谷を特定し、分離境界とする。
連結成分による文字列の切り出しでは、隣接する連結成分を文字列として統合する。このとき、文字列の方向が既知であれば、この情報を有効に活用する。また、連結成分の統合により、方向判別と切り出しを併合して行うことのできる学術文献(LO’Gorman, “The Document Spectrum for Page Layout Analysis,” IEEE TPAMI, Vol.15, No.11, Nov.1993, pp1162−1173)のような方式もある。
図35は、投影分布の例を示す説明図である。図35(a)は水平・垂直方向の投影分布の例であり、図35(b)は連結成分の外接矩形の水平・垂直方向の投影分布の例である。図35の例に示す文書の画像は、文字が密に配置されている。このような画像からは、文字列の切り出しを行うために有効な投影分布及び連結成分が得られないことがある。一般に、投影分布は文書画像のスキューの影響が大きく、連結成分は文書画像を構成する単文字のパタン(言語、装飾、等)、非文字のパタン(アンダーライン、ノイズ、等)による影響が大きい。特に、図35の例に示すように、文字が密に配置された文書の画像では前述の影響が顕著となる。このような状況では、文字列どうしの分離境界の情報が現れないこと、水平方向及び垂直方向で十分な差異が現れないこととなる。
また、<B>の実施の形態では、分離経路の数により、対象としている画像が単段落であるか、単文字であるか、単文字列であるかを判別する。この様子を図38の例に示す。すなわち、正しい方向と、誤った方向の分離経路とが、文字列の方向判別のために有効な差異をもつことを利用している。
図39の例は、第B−3の実施の形態による文字列切り出しの結果である。文書の画像を受け付け、状態=P、すなわち、画像は単段落であると判別した。また、文字列の方向が水平であると判別した。この結果、分離経路によって、隣接(近接)する文字列が分離されていることが分かる(図39(b)、(c)の拡大図参照)。
図40(a)の例は<B>の実施の形態による切り出し結果であり、図40(b)の例は対象とした画像と投影分布であり、図40(c)の例は連結成分の外接矩形である。図40の例から分かるように、<B>の実施の形態により、投影分布に現れない分離境界を特定すること、複数文字の連結を分離すること、単文字の誤分離を統合し、文字列の方向判別及び切り出しも行われている。
また、図41の例から分かるように、図39(b)の例に示すような密に文字の配置された画像のみでなく、図37の例に示すような文字列どうしの間隙の広い画像についても、<B>の実施の形態によって文字列の切り出しが行われている。
(B1) 少なくとも文字画像を含む画像を受け付ける受付手段と、
前記受付手段によって受け付けられた画像に対して、該画像内の文字画像を分離する線分である分離経路を算出する経路算出手段と、
前記経路算出手段によって算出された分離経路により、前記受付手段によって受け付けられた画像を複数の文字画像へ分離する分離手段
を具備し、
前記経路算出手段は、該画像内の文字画像の一部を含む予め定められた範囲内において、経路上にある画素の輝度値の累積値が予め定められた条件を満たす分離経路を算出する
ことを特徴とする画像処理装置。
(B2) 前記経路算出手段は、複数方向の分離経路を算出し、
前記経路算出手段によって算出された複数方向の分離経路の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された特徴量に基づいて、画像の分離方向及び文字画像の状態を判別し、該判別の結果によって前記複数方向の分離経路のうちの分離経路を選択する選択手段
を具備し、
前記分離手段は、前記選択手段によって選択された分離経路により、前記受付手段によって受け付けられた画像を複数の部分画像へ分離する
ことを特徴とする(B1)に記載の画像処理装置。
(B3) 前記経路算出手段は、該画像内の文字画像の一部を含む予め定められた範囲内において、経路上にある画素の輝度値と経路の移動に基づく重み係数との積の累積値が予め定められた条件を満たす分離経路を算出する
ことを特徴とする(B1)又は(B2)に記載の画像処理装置。
(B4) 前記経路算出手段は、分離経路の算出において、隣り合う分離経路どうしの間隙の幅が予め定められた条件を満たす場合に、該間隙にある画素の輝度値によらず、該隣り合う分離経路は等価であると判断し、結合すること、
又は、
前記経路算出手段は、分離経路の算出において、隣り合う分離経路どうしの間隙にある画素の輝度値の累積値が予め定められた条件を満たす場合に、該隣り合う分離経路は等価であると判断し、結合すること
を特徴とする(B1)から(B3)のいずれか一項に記載の画像処理装置。
次に、<A>、<B>に示した技術を前提とした実施の形態を説明する。つまり、前述の<B>を採用し、主に<A>による分離経路を応用し、この分離経路による画像分離を再帰的に行うことで、文字列の画像の分離を行うものである。なお、分離経路等の表記については、<B>と同じとする。
<C>の実施の形態の概要を説明する。
図42は、第C−1の実施の形態の構成例についての概念的なモジュール構成図である。
第C−1の実施の形態は、画像受付モジュール4210、解析器選択モジュール4220、分離経路算出モジュール4230、分離経路特徴量算出モジュール4240、主分離方向判別モジュール4250、主分離経路選択モジュール4260、画像分離モジュール4270、再帰処理モジュール4280、再帰のない画像分離モジュール4290を有している。
分離経路特徴量算出モジュール4240は、分離経路算出モジュール4230、主分離方向判別モジュール4250と接続されており、分離経路とその特徴量を主分離方向判別モジュール4250へ渡す。分離経路算出モジュール4230によって算出された複数方向の分離経路の特徴量を算出する。分離経路特徴量算出モジュール4240は、<B>に示した経路特徴量算出モジュール3240に該当するものである。
主分離経路選択モジュール4260は、主分離方向判別モジュール4250、画像分離モジュール4270と接続されており、分離経路とその特徴量と文字画像の方向と状態を画像分離モジュール4270へ渡す。主分離方向判別モジュール4250による判別の結果によって複数方向の分離経路のうちの分離経路を選択する。また、再帰処理モジュール4280による再帰的に処理を行うか否かの判断を行うため文字画像の状態を判別するようにしてもよい。また、主分離経路選択モジュール4260は、文字画像の状態が多段落である場合は、分離経路算出モジュール4230によって算出された分離経路の一部を間引くようにしてもよい。この間引き処理については、図52、図53を用いて後述する。
画像分離モジュール4270は、主分離経路選択モジュール4260、再帰処理モジュール4280と接続されており、部分画像とその部分画像の方向と状態を再帰処理モジュール4280へ渡す。主分離経路選択モジュール4260によって選択された分離経路により、画像を複数の部分画像へ分離する。画像分離モジュール4270は、<B>に示した画像分離モジュール3460に該当するものである。
図43は、表9に例示した特徴量の例を示す説明図である。図43の例は、図30の例に分離経路の特徴として「分離経路どうしの間隙(Gapi)」を加えたものである。
表9に例示した特徴量のうち、Curli、Thicki、Costiは、pathiについて1つずつ算出される。これに対して、Gapiは、pathiとpathi+1の間隙の特徴量であり、pathiとpathi+1のペアについて1つずつ算出される。
「分経路の歪曲」について
Curliの例を(33)式、(34)式、(35)式、(36)式に示す。
Curliについては、(33)式、(34)式、(35)式のように、始点と終点を結ぶ直線f(x)(以下、理想直線とする)との差分を評価する例がある。具体的には、(33)式は太さを持たない経路と理想直線との差分の絶対値、(34)式は前記差分の2乗誤差、(35)式は太さを持つ経路について算出した中心線について(33)式と同様の差分を評価した例である。これらは、図43の例において、pathi+1の射線部分の面積の評価に相当する。
また、(36)式のように、経路そのものの微分値を(微分距離d[px])評価する例を用いてもよい。
Curliは各pathiについて算出する。そこで、すべてのpathiのCurliについて、統計値を特徴量とする例を(37)式、(38)式、(39)式に示す。それぞれ、すべての分離経路のCurliの最大値(MaxCurl)、最小値(MinCurl)、平均値(AvgCurl)に相当する。
Thickiの例を(43)式、(44)式、(45)式に示す。
図43に例示したように、Thickiはpathiの太さである。これは、図43に例示したtop_pathiとbottom_pathiとの距離の評価に相当する。
(43)式は、pathiについて太さの最大値を特徴量とする例である。
(44)式は、pathiについて太さの最小値を特徴量とする例である。
(45)式は、pathiについて太さの平均値を特徴量とする例である。
Costiの例を(52)式、(53)式、(54)式に示す。
Costiについては、(52)式、(53)式のように、単純な経路上の画素値の累積値を評価する例がある。具体的には、(52)式は、経路上の画素値の累積値を評価する例である。(53)式は、経路の中心線上の画素値の累積値を評価する例である。さらに、(54)式のように、経路の歪曲によって、重みづけ(式中、係数cに相当する)を行った経路上の画素値の累積値を評価する例がある。
Gapiの例を(61)式、(62)式、(63)式に示す。
図43に例示したように、Gapiはpathiとpathi+1の間隙の幅である。これは、図43の例において、bottom_pathiとtop_pathi+1との距離の評価に相当する。
(61)式は、pathiとpathi+1のペアについて間隙幅の最大値を特徴量とする例である。
(62)式は、pathiとpathi+1のペアについて間隙幅の最小値を特徴量とする例である。
(63)式は、pathiとpathi+1のペアについて間隙幅の平均値を特徴量とする例である。
図44は、第C−2の実施の形態の構成例についての概念的なモジュール構成図である。
第C−2の実施の形態は、画像受付モジュール4410、分離経路による画像分離モジュール4420、再帰処理モジュール4430を有している。
分離経路による画像分離モジュール4420は、画像受付モジュール4410、再帰処理モジュール4430と接続されている。分離経路による画像分離モジュール4420は、対象となる画像を部分画像へ分離し、出力する。また、対象となる画像の分離方向(以下、方向ともいう)、及び状態を判別し、出力する。分離経路による画像分離モジュール4420については、図45を用いて後述する。
再帰処理モジュール4430は、分離経路による画像分離モジュール4420と接続されている。再帰処理モジュール4430は、対象となる画像の状態に基づいて、再帰処理を行うか否かを判別する。再帰処理を行う場合、各部分画像は分離経路による画像分離モジュール4420へ渡される。そうでなければ、文字列の画像である部分画像、方向、及び状態を出力し、処理を終了する。再帰処理モジュール4430については、図46を用いて後述する。
(1)H:水平
(2)V:垂直
(3)⊥:判別不能
また、「状態」は、以下の5つの値をとりうる。
(1)M:多段落 (再帰処理あり)
(2)P:単段落 (再帰処理の疑いあり)
(3)T:単文字列 (再帰処理なし)
(4)C:単文字 (再帰処理なし)
(5)⊥:判別不能 (再帰処理なし)
分離経路による画像分離モジュール4420は、水平方向分離経路算出モジュール4510、垂直方向分離経路算出モジュール4520、経路特徴量算出モジュール4530、主分離方向判別モジュール4540、主分離経路選択モジュール4550、画像分離モジュール4560を有している。
垂直方向分離経路算出モジュール4520は、経路特徴量算出モジュール4530、主分離経路選択モジュール4550と接続されている。対象とする画像に対して、垂直方向の分離経路を算出し、その分離経路を経路特徴量算出モジュール4530に渡す。<A>、<B>に示した垂直方向分離経路算出モジュール3230と同等のものである。
経路特徴量算出モジュール4530は、水平方向分離経路算出モジュール4510、垂直方向分離経路算出モジュール4520、主分離方向判別モジュール4540、主分離経路選択モジュール4550と接続されている。前述の分離経路の特徴量を算出し、その特徴量を主分離方向判別モジュール4540、主分離経路選択モジュール4550に渡す。<B>に示した経路特徴量算出モジュール3240と同等のものである。
主分離経路選択モジュール4550は、水平方向分離経路算出モジュール4510、垂直方向分離経路算出モジュール4520、経路特徴量算出モジュール4530、主分離方向判別モジュール4540、画像分離モジュール4560と接続されている。分離方向の分離経路の一部を、主な分離経路として選択し、その分離経路と状態を画像分離モジュール4560へ渡す。また、分離経路を間引く。また、条件が満たされた場合、状態を更新する。判別された方向の分離経路を選択し、水平方向と垂直方向の分離経路の特徴量に基づいて、再帰の判別のため、対象となる画像の状態がMであるか否かを判別する。また、このとき、分離経路を間引く。この処理フローを、図48から図53の例に示すが、説明は後述する。
画像分離モジュール4560は、主分離経路選択モジュール4550と接続されている。前述の画像分離モジュール4270と同等のものであり、部分画像、方向、状態を再帰処理モジュール4430に渡す。
再帰処理モジュール4430では、状態に基づいて、再帰処理を行うか否かを判断する。具体的には、分離する対象である画像が多段落と判別された場合、分離後の各部分画像を分離経路による画像分離モジュール4420に渡す(すなわち、再帰する)。そうでなければ、文字列画像である部分画像、方向、及び状態を出力し、処理を終了する。
フローチャートに沿って説明する。
ステップS4602では、「状態」変数が多段落(状態==M)であるか否かを判断し、「状態」変数が多段落である場合はステップS4606へ進み、それ以外の場合はステップS4604へ進む。
ステップS4604では、部分画像を出力し、方向と状態を出力する。
ステップS4606では、部分画像を受け付け(再帰)、分離経路による画像分離モジュール4420へ受け付けた画像を渡す。
まず、本実施の形態における分離方向判別は、分離経路の形状に基づいて分離方向を判別するものである。このため、形状の情報に基づく判別でない「Costによる判別」は、最も優先度が低いので、最後段に行う。
続いて、対象とする画像は多段落の可能性があり、その画像から文字列を切り出す必要があることから、まずは、段落どうしを分離する必要がある。段落どうしの間隙は、段落を構成する文字列どうしの間隙よりも広いことが一般的である。そこで、まず、「MaxThickによる判別」(表11)を行う。
次に、文字列どうしの間隙が十分に広い場合、Curlでは判別がつかないことがある。このため、「AvgThickによる判別」(表14)を行う。
最後に、複数の文字列を含む画像を想定した判別であるが、対象とする画像は必ずしも複数の文字列があるとは限らない。このため、最前段に「Numによる判別」(表10)を行い、対象とする画像が、単文字か、単文字列か、それ以外かを判別する。
ステップS4702では、「方向」変数に⊥(判別不能)を代入し、「状態」変数に⊥(判別不能)を代入する。
ステップS4704では、表10のNumによる判別を行う。つまり、横方向の分離経路と縦方向の分離経路が2本であるならば、単文字(C)である。いずれか一方が2本であるならば、単文字列(T)であり、横方向の分離経路が2本であるならば、方向は水平(H)であり、縦方向の分離経路が2本であるならば、方向は垂直(V)である。両方が2本でないならば、何もしない(状態は判別不能(⊥)のままである)。
ステップS4706では、「状態」変数は判別不能(状態==⊥)か否かを判断し、「状態」変数が判別不能の場合はステップS4708へ進み、それ以外の場合はステップS4726へ進む。
ステップS4710では、「状態」変数は判別不能(状態==⊥)か否かを判断し、「状態」変数が判別不能の場合はステップS4712へ進み、それ以外の場合はステップS4726へ進む。
ステップS4714では、「状態」変数は判別不能(状態==⊥)か否かを判断し、「状態」変数が判別不能の場合はステップS4716へ進み、それ以外の場合はステップS4726へ進む。
ステップS4718では、「状態」変数は判別不能(状態==⊥)か否かを判断し、「状態」変数が判別不能の場合はステップS4720へ進み、それ以外の場合はステップS4726へ進む。
ステップS4722では、「状態」変数は判別不能(状態==⊥)か否かを判断し、「状態」変数が判別不能の場合はステップS4724へ進み、それ以外の場合はステップS4726へ進む。
ステップS4726では、「方向」変数と「状態」変数の組である(方向,状態)を出力する。
この処理では、判別された方向の分離経路のうち、分離経路として適切な経路を選択し、出力する。また、再帰の判別のための状態の判別を行う。また、分離経路の間引きを行う。
ステップS4802では、主分離方向判別モジュール4540によって判別された方向の分離経路を選択する。
ステップS4804では、「状態」変数は単段落でない(状態≠P)か否かを判断し、「状態」変数が単段落でない場合はステップS4810へ進み、それ以外の場合はステップS4806へ進む。つまり、状態がP(段落)でなければ、ステップS4802で選択された分離経路をそのまま選択し、これ以上の再帰処理を行わないよう、状態を更新しない。これは、対象とする画像が、T(単文字列)、C(単文字)、又は⊥(判別不能)であった場合、これ以上の画像分離を行わないためである。
ステップS4808では、「状態」変数にM(多段落)を代入する。
ステップS4810では、(分離経路,状態)を出力する。
ステップS4902では、主分離方向判別モジュール4540によって判別された方向の分離経路を選択する。
ステップS4904では、「状態」変数は単段落でない(状態≠P)か否かを判断し、「状態」変数が単段落でない場合はステップS4910へ進み、それ以外の場合はステップS4906へ進む。
ステップS4908では、「状態」変数にM(多段落)を代入する。
ステップS4910では、(分離経路,状態)を出力する。
ステップS5002では、主分離方向判別モジュール4540によって判別された方向の分離経路を選択する。
ステップS5004では、「状態」変数は単段落でない(状態≠P)か否かを判断し、「状態」変数が単段落でない場合はステップS5014へ進み、それ以外の場合はステップS5006へ進む。
ステップS5006では、MaxCurl==0か否かを判断し、MaxCurl==0の場合はステップS5014へ進み、それ以外の場合はステップS5008へ進む。つまり、ステップS5002で選択した分離経路に歪曲がないとき、対象とする画像は単段落であると判別し、ステップS5002で選択された分離経路をそのまま選択する。
ステップS5010では、MaxCurl>θCurlか否かを判断し、MaxCurl>θCurlの場合はステップS5012へ進み、それ以外の場合はステップS5014へ進む。図49に例示のフローチャート内のS4906に該当する。
ステップS5012では、「状態」変数にM(多段落)を代入する。
ステップS5014では、(分離経路,状態)を出力する。
ステップS5102では、主分離方向判別モジュール4540によって判別された方向の分離経路を選択する。
ステップS5104では、「状態」変数は単段落でない(状態≠P)か否かを判断し、「状態」変数が単段落でない場合はステップS5116へ進み、それ以外の場合はステップS5106へ進む。
ステップS5106では、MaxCurl==0か否かを判断し、MaxCurl==0の場合はステップS5116へ進み、それ以外の場合はステップS5108へ進む。図50に例示のフローチャート内のS5006に該当する。
ステップS5108では、MaxThick>MaxGapか否かを判断し、MaxThick>MaxGapの場合はステップS5114へ進み、それ以外の場合はステップS5110へ進む。図48に例示のフローチャート内のS4806に該当する。
ステップS5112では、MaxCurl>θCurlか否かを判断し、MaxCurl>θCurlの場合はステップS5114へ進み、それ以外の場合はステップS5116へ進む。図49に例示のフローチャート内のS4906に該当する。
ステップS5114では、「状態」変数にM(多段落)を代入する。
ステップS5116では、(分離経路,状態)を出力する。
ステップS5202では、主分離方向判別モジュール4540によって判別された方向の分離経路を選択する。
ステップS5204では、「状態」変数は単段落でない(状態≠P)か否かを判断し、「状態」変数が単段落でない場合はステップS5218へ進み、それ以外の場合はステップS5206へ進む。
ステップS5206では、MaxCurl==0か否かを判断し、MaxCurl==0の場合はステップS5218へ進み、それ以外の場合はステップS5208へ進む。
ステップS5208では、MaxThick>MaxGapか否かを判断し、MaxThick>MaxGapの場合はステップS5214へ進み、それ以外の場合はステップS5210へ進む。
ステップS5212では、MaxCurl>θCurlか否かを判断し、MaxCurl>θCurlの場合はステップS5214へ進み、それ以外の場合はステップS5218へ進む。
ステップS5214では、「状態」変数にM(多段落)を代入する。
ステップS5216では、分離経路の歪曲(Curli)が最も小さいもの、分離経路の太さ(Thicki)が最も太いもの以外の分離経路を消去する。例えば、CurliとMinCurlとの比較、ThickiとMaxThickとの比較によって、条件を満たすpathiを消去するようにしてもよい。
ステップS5218では、(分離経路,状態)を出力する。
ステップS5302では、主分離方向判別モジュール4540によって判別された方向の分離経路を選択する。
ステップS5304では、「状態」変数は単段落でない(状態≠P)か否かを判断し、「状態」変数が単段落でない場合はステップS5318へ進み、それ以外の場合はステップS5306へ進む。
ステップS5306では、MaxCurl==0か否かを判断し、MaxCurl==0の場合はステップS5318へ進み、それ以外の場合はステップS5308へ進む。
ステップS5308では、MaxThick>MaxGapか否かを判断し、MaxThick>MaxGapの場合はステップS5314へ進み、それ以外の場合はステップS5310へ進む。
ステップS5312では、MaxCurl>θCurlか否かを判断し、MaxCurl>θCurlの場合はステップS5314へ進み、それ以外の場合はステップS5318へ進む。
ステップS5314では、「状態」変数にM(多段落)を代入する。
ステップS5316では、{pathi|Curli>θ’Curl}を消去する。つまり、予め定められた閾値(θ’Curl)と比較することによって、分離経路の間引きを行う。歪曲が閾値θ’Curlよりも小さなpathiを選択することで分離経路の間引きを実現している。
ステップS5318では、(分離経路,状態)を出力する。
図54は、第C−3の実施の形態の構成例についての概念的なモジュール構成図である。
第C−3の実施の形態は、画像から文字列を切り出すものであって、画像受付モジュール4410、解析器選択モジュール5415、分離経路による画像分離モジュール4420、再帰処理モジュール5430、再帰のない画像分離モジュール5440を有している。
ステップS5502では、多段落判別を行う。この処理については、図57、図58を用いて後述する。
ステップS5504では、状態が多段落(状態=M)であるか否かを判断し、「状態」変数が多段落である場合はステップS5508へ進み、それ以外の場合はステップS5506へ進む。
ステップS5506では、再帰のない画像分離モジュール5440へ受け付けた画像を渡す。
ステップS5508では、分離経路による画像分離モジュール4420へ受け付けた画像を渡す。この後、再帰処理モジュール5430による再帰的な処理が行われる。
再帰のない画像分離モジュール5440は、解析器選択モジュール5415と接続されている。再帰のない画像分離モジュール5440は、前述の<B>に記載の技術を用いて実現される。
図56は、再帰処理モジュール5430による処理例を示すフローチャートである。状態に基づいて、再帰処理を行うか否かを判別する。
フローチャートに沿って説明する。
ステップS5602では、状態が多段落(状態==M)であるか否かを判断し、「状態」変数が多段落である場合はステップS5606へ進み、それ以外の場合はステップS5604へ進む。
ステップS5604では、部分画像、方向、状態を出力する。
ステップS5606では、再帰的な処理を行うため、解析器選択モジュール5415へ受け付けた画像を渡す。
図57は、解析器選択モジュール5415による多段落判別の処理例(1)を示すフローチャートである。対象とする画像の縦横比を参照することで、多段落か否かを判別する例である。つまり、対象とする画像がθaspect以上に細長いか否かで判別している。より具体的には、縦横比が予め定めた閾値(θaspect)の範囲外であるとき、再帰のない画像分離モジュール5440へ画像を渡すため、状態をPに更新する。なお、判別においては、WidthとHeightの差分を利用してもよい。なお、図57の例に示した変数は以下のことを表す。
対象とする画像の横幅 : Width
対象とする画像の縦幅 : Height
縦横比閾値 : θaspect
ステップS5702では、θaspect −1<Width/Height<θaspectか否かを判断し、θaspect −1<Width/Height<θaspectの場合はステップS5706へ進み、それ以外の場合はステップS5704へ進む。
ステップS5704では、状態が単段落(状態=P)であることを出力し、画像を出力する。
ステップS5706では、状態が多段落(状態=M)であることを出力し、画像を出力する。
再帰深さ : θrecursion
ステップS5802では、再帰深さ>θrecursionか否かを判断し、再帰深さ>θrecursionの場合はステップS5806へ進み、それ以外の場合はステップS5804へ進む。
ステップS5804では、状態が単段落(状態=P)であることを出力し、画像を出力する。
ステップS5806では、状態が多段落(状態=M)であることを出力し、画像を出力する。
<第C−4の実施の形態>
図59は、第C−4の実施の形態の構成例についての概念的なモジュール構成図である。
第C−4の実施の形態は、画像受付モジュール5910、前処理モジュール5920、文字切り出しモジュール5930を有している。
画像受付モジュール5910は、前処理モジュール5920と接続されており、図42に例示した画像受付モジュール4210に該当する。また、画像5900も図42に例示した画像4200に該当する。
前処理モジュール5920は、画像受付モジュール5910、文字切り出しモジュール5930と接続されており、画像受付モジュール5910が受け付けた画像5900に対して、傾き補正、ノイズ除去、レイアウト解析等を行う。例えば、レイアウト解析で分離した部分画像を、文字切り出しモジュール5930へ渡す。
文字切り出しモジュール5930は、前処理モジュール5920と接続されており、前述の実施の形態(<B>の実施の形態を含む)で実現される。
図60は、第C−5の実施の形態の構成例についての概念的なモジュール構成図である。
第C−5の実施の形態は、画像受付モジュール6010、文字切り出しモジュール6020、後処理モジュール6030を有している。
画像受付モジュール6010は、文字切り出しモジュール6020と接続されており、図42に例示した画像受付モジュール4210に該当する。また、画像6000も図42に例示した画像4200に該当する。
文字切り出しモジュール6020は、画像受付モジュール6010、後処理モジュール6030と接続されており、前述の実施の形態(<B>の実施の形態を含む)で実現される。
後処理モジュール6030は、文字切り出しモジュール6020と接続されており、文字切り出しモジュール6020によって分離された各文字列画像に対して、傾き補正、ノイズ除去、下線除去等を行う。
<C>に示した実施の形態による実験結果を、この実施の形態を用いないで行った場合と比較して説明する。
まず、<C>に示した実施の形態を用いないで行った場合について説明する。
図61は、多段落であるにもかかわらず単段落として処理してしまった場合の処理結果の例を示す説明図である。例えば、<B>に示した実施の形態による処理結果である。<B>に示した実施の形態は、単段落であることを前提として処理を行うものであるからである。したがって、方向の異なる複数の文字列を含む画像、又は複数の段落を含む画像に対して、文字列を正しく切り出せない場合がある。
図61(a)に例示する画像は、タイトル部分の文字サイズの異なる文字列、横書きの段落、縦書きの段落が混在している多段落により構成されている文書の画像である。図61(b)に例示する画像は、図61(a)に示す画像に対して、<B>に示した実施の形態の処理による文字列切り出し結果である。縦書きの段落は、文字列領域が正しく切り出されていない。
前述の実施の形態においては、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
なお、前述の各種の実施の形態(実施例を含む)を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に適用する、入れ替えする等も含む)、各モジュールの処理内容として背景技術で説明した技術を採用してもよい。
また、前述の各種の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
4220…解析器選択モジュール
4230…分離経路算出モジュール
4240…分離経路特徴量算出モジュール
4250…主分離方向判別モジュール
4260…主分離経路選択モジュール
4270…画像分離モジュール
4280…再帰処理モジュール
4290…再帰のない画像分離モジュール
4410…画像受付モジュール
4420…分離経路による画像分離モジュール
4430…再帰処理モジュール
4510…水平方向分離経路算出モジュール
4520…垂直方向分離経路算出モジュール
4530…経路特徴量算出モジュール
4540…主分離方向判別モジュール
4550…主分離経路選択モジュール
4560…画像分離モジュール
5415…解析器選択モジュール
5430…再帰処理モジュール
5440…再帰のない画像分離モジュール
5910…画像受付モジュール
5920…前処理モジュール
5930…文字切り出しモジュール
6010…画像受付モジュール
6020…文字切り出しモジュール
6030…後処理モジュール
Claims (4)
- 少なくとも文字画像を含む画像を受け付ける受付手段と、
前記受付手段によって受け付けられた画像に対して、該画像内の文字画像を分離する線分である分離経路を算出する経路算出手段と、
前記経路算出手段によって算出された複数方向の分離経路の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された特徴量に基づいて、画像の分離方向及び文字画像の状態を判別し、該判別の結果によって前記複数方向の分離経路のうちの分離経路を選択する選択手段と、
前記選択手段によって選択された分離経路により、前記画像を複数の部分画像へ分離する分離手段と、
前記分離手段によって分離された画像の前記文字画像の状態に基づいて、再帰的に処理を行うか否かを判断する再帰処理判断手段
を具備し、
前記経路算出手段は、前記再帰処理判断手段によって再帰的に処理を行うと判断された場合に、前記分離手段によって分離された画像に対して、該画像内の文字画像を分離する線分である分離経路を算出する
ことを特徴とする画像処理装置。 - 再帰的処理を行わないで、画像を分離する第2の分離手段と、
前記受付手段が受け付けた画像又は前記分離手段によって分離された部分画像の縦方向の長さと横方向の長さの比率と予め定められた値との比較、又は前記再帰処理判断手段によって再帰的に処理を行うと判断された場合の再帰の深さに基づいて、該画像又は該部分画像を対象として、前記第2の分離手段又は前記経路算出手段に処理を行わせるか否かを判断する判断手段
をさらに具備することを特徴とする請求項1に記載の画像処理装置。 - 前記選択手段は、前記文字画像の状態が多段落である場合は、前記経路算出手段によって算出された分離経路を間引く
ことを特徴とする請求項1又は2に記載の画像処理装置。 - コンピュータを、
少なくとも文字画像を含む画像を受け付ける受付手段と、
前記受付手段によって受け付けられた画像に対して、該画像内の文字画像を分離する線分である分離経路を算出する経路算出手段と、
前記経路算出手段によって算出された複数方向の分離経路の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された特徴量に基づいて、画像の分離方向及び文字画像の状態を判別し、該判別の結果によって前記複数方向の分離経路のうちの分離経路を選択する選択手段と、
前記選択手段によって選択された分離経路により、前記画像を複数の部分画像へ分離する分離手段と、
前記分離手段によって分離された画像の前記文字画像の状態に基づいて、再帰的に処理を行うか否かを判断する再帰処理判断手段
として機能させ、
前記経路算出手段は、前記再帰処理判断手段によって再帰的に処理を行うと判断された場合に、前記分離手段によって分離された画像に対して、該画像内の文字画像を分離する線分である分離経路を算出する
ことを特徴とする画像処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010187560A JP5577948B2 (ja) | 2010-08-24 | 2010-08-24 | 画像処理装置及び画像処理プログラム |
US13/037,871 US8457404B2 (en) | 2010-08-24 | 2011-03-01 | Image processing apparatus, computer readable medium for image processing and computer data signal for image processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010187560A JP5577948B2 (ja) | 2010-08-24 | 2010-08-24 | 画像処理装置及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012048321A true JP2012048321A (ja) | 2012-03-08 |
JP5577948B2 JP5577948B2 (ja) | 2014-08-27 |
Family
ID=45696571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010187560A Expired - Fee Related JP5577948B2 (ja) | 2010-08-24 | 2010-08-24 | 画像処理装置及び画像処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8457404B2 (ja) |
JP (1) | JP5577948B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5636691B2 (ja) * | 2010-02-26 | 2014-12-10 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP2013114143A (ja) * | 2011-11-30 | 2013-06-10 | Seiko Epson Corp | 電気光学装置および電子機器 |
RU2693916C1 (ru) * | 2018-04-09 | 2019-07-05 | Общество с ограниченной ответственностью "Аби Продакшн" | Распознавание символов с использованием иерархической классификации |
US10685261B2 (en) * | 2018-06-11 | 2020-06-16 | GM Global Technology Operations LLC | Active segmention of scanned images based on deep reinforcement learning for OCR applications |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0492992A (ja) * | 1990-08-06 | 1992-03-25 | Oki Electric Ind Co Ltd | 文字切出し装置 |
JPH04352295A (ja) * | 1991-05-30 | 1992-12-07 | Toshiba Corp | 文字列方向判別装置 |
JPH05242298A (ja) * | 1991-11-19 | 1993-09-21 | Xerox Corp | 記号列の認識方法 |
JPH06508463A (ja) * | 1992-03-31 | 1994-09-22 | イーストマン コダック カンパニー | 画素に対して電荷モデルを適用したビットマップ画像セグメンテーション |
US20040146216A1 (en) * | 2003-01-29 | 2004-07-29 | Lockheed Martin Corporation | Fine segmentation refinement for an optical character recognition system |
JP2005250816A (ja) * | 2004-03-04 | 2005-09-15 | Fujitsu Ltd | 文書画像レイアウト解析プログラム |
JP2006155126A (ja) * | 2004-11-29 | 2006-06-15 | Mitsubishi Heavy Ind Ltd | 車両番号認識装置 |
US20060204096A1 (en) * | 2005-03-04 | 2006-09-14 | Fujitsu Limited | Apparatus, method, and computer program for analyzing document layout |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2776956B2 (ja) | 1990-04-27 | 1998-07-16 | 株式会社日立製作所 | Idコード識別方法 |
JP2957729B2 (ja) | 1991-04-09 | 1999-10-06 | 沖電気工業株式会社 | 行方向判定装置 |
JP3095470B2 (ja) | 1991-09-13 | 2000-10-03 | 松下電器産業株式会社 | 文字認識装置 |
JP3837193B2 (ja) | 1996-05-13 | 2006-10-25 | 松下電器産業株式会社 | 文字行抽出方法および装置 |
JP4395188B2 (ja) | 1997-11-28 | 2010-01-06 | 富士通株式会社 | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
JP4170441B2 (ja) | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
JP3852218B2 (ja) | 1998-09-10 | 2006-11-29 | 富士ゼロックス株式会社 | 画像処理方法および画像処理装置 |
JP4053188B2 (ja) * | 1999-07-06 | 2008-02-27 | 富士通株式会社 | パターン切り出し装置及びパターン認識装置 |
KR100449486B1 (ko) * | 2001-12-29 | 2004-09-22 | 한국전자통신연구원 | 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법 |
-
2010
- 2010-08-24 JP JP2010187560A patent/JP5577948B2/ja not_active Expired - Fee Related
-
2011
- 2011-03-01 US US13/037,871 patent/US8457404B2/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0492992A (ja) * | 1990-08-06 | 1992-03-25 | Oki Electric Ind Co Ltd | 文字切出し装置 |
JPH04352295A (ja) * | 1991-05-30 | 1992-12-07 | Toshiba Corp | 文字列方向判別装置 |
JPH05242298A (ja) * | 1991-11-19 | 1993-09-21 | Xerox Corp | 記号列の認識方法 |
JPH06508463A (ja) * | 1992-03-31 | 1994-09-22 | イーストマン コダック カンパニー | 画素に対して電荷モデルを適用したビットマップ画像セグメンテーション |
US20040146216A1 (en) * | 2003-01-29 | 2004-07-29 | Lockheed Martin Corporation | Fine segmentation refinement for an optical character recognition system |
JP2005250816A (ja) * | 2004-03-04 | 2005-09-15 | Fujitsu Ltd | 文書画像レイアウト解析プログラム |
JP2006155126A (ja) * | 2004-11-29 | 2006-06-15 | Mitsubishi Heavy Ind Ltd | 車両番号認識装置 |
US20060204096A1 (en) * | 2005-03-04 | 2006-09-14 | Fujitsu Limited | Apparatus, method, and computer program for analyzing document layout |
Also Published As
Publication number | Publication date |
---|---|
US20120050295A1 (en) | 2012-03-01 |
US8457404B2 (en) | 2013-06-04 |
JP5577948B2 (ja) | 2014-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4727732B2 (ja) | 車両番号認識装置 | |
US8045800B2 (en) | Active segmentation for groups of images | |
US8300942B2 (en) | Area extraction program, character recognition program, and character recognition device | |
KR102328734B1 (ko) | 이미지를 분석하기 위해, 딥러닝 네트워크에 이용하기 위한 트레이닝 이미지에 대한 라벨링 신뢰도를 자동으로 평가하기 위한 방법 및 이를 이용한 신뢰도 평가 장치 | |
Shivakumara et al. | An efficient edge based technique for text detection in video frames | |
US10740899B2 (en) | Image processing apparatus for identifying region within image, information processing method, and storage medium | |
WO2014131339A1 (zh) | 字符识别方法和字符识别装置 | |
JP5672828B2 (ja) | 画像処理装置及び画像処理プログラム | |
CN110796133B (zh) | 文案区域识别方法和装置 | |
JP5577948B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN101866418B (zh) | 确定文档阅读顺序的方法和设备 | |
JP2001052116A (ja) | パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法 | |
JP5942361B2 (ja) | 画像処理装置及び画像処理プログラム | |
US9811726B2 (en) | Chinese, Japanese, or Korean language detection | |
WO2023196661A1 (en) | Systems and methods for monitoring trailing objects | |
JP5636691B2 (ja) | 画像処理装置及び画像処理プログラム | |
CN112949458A (zh) | 目标跟踪分割模型的训练方法和目标跟踪分割方法及装置 | |
JP5724341B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5935324B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN102456139B (zh) | 图像处理设备和图像处理方法 | |
JP2016133888A (ja) | 情報処理装置及び情報処理プログラム | |
CN116884062A (zh) | 图片处理方法、图片处理设备、电子设备和存储介质 | |
JPH07262314A (ja) | 手書き文字切り出し回路 | |
CN116721425A (zh) | 证件信息录入方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140610 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5577948 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |