JP2008059298A - 罫線抽出プログラム、罫線抽出装置、罫線抽出方法 - Google Patents

罫線抽出プログラム、罫線抽出装置、罫線抽出方法 Download PDF

Info

Publication number
JP2008059298A
JP2008059298A JP2006235660A JP2006235660A JP2008059298A JP 2008059298 A JP2008059298 A JP 2008059298A JP 2006235660 A JP2006235660 A JP 2006235660A JP 2006235660 A JP2006235660 A JP 2006235660A JP 2008059298 A JP2008059298 A JP 2008059298A
Authority
JP
Japan
Prior art keywords
ruled line
condition
candidate
ruled
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006235660A
Other languages
English (en)
Other versions
JP4791295B2 (ja
Inventor
Hiroaki Takebe
浩明 武部
Katsuto Fujimoto
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006235660A priority Critical patent/JP4791295B2/ja
Priority to US11/607,758 priority patent/US7769234B2/en
Publication of JP2008059298A publication Critical patent/JP2008059298A/ja
Application granted granted Critical
Publication of JP4791295B2 publication Critical patent/JP4791295B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

【課題】所定の条件に基づいて抽出した罫線候補の信頼性が低い場合に、条件を変化させて罫線を再抽出する罫線抽出装置、罫線抽出プログラム、罫線抽出方法を提供する。
【解決手段】罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、文書画像から罫線の候補である罫線候補を抽出する抽出ステップと、抽出ステップにより抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定ステップと、判定ステップにより安定と判定された罫線候補と第1条件に基づいて、罫線の要素の図形が満たすべき条件であって第1条件と異なる第2条件を決定する条件決定ステップと、条件決定ステップにより決定された第2条件に基づいて罫線候補の再抽出を行う再抽出ステップとをコンピュータに実行させる。
【選択図】図1

Description

本発明は、文書画像中の罫線の抽出を行う罫線抽出プログラム、罫線抽出装置、罫線抽出方法に関するものである。
帳票などの文書を表す文書画像から点線罫線を抽出する従来技術として、黒画素の連結成分に対して、大きさや縦横比などの形状から点線要素の候補(点線要素候補)を選択し、点線要素候補間の距離やずれ(例えば、横罫線であれば縦方向のずれ)の大きさに基づき、点線要素候補を統合するものがある(例えば、特許文献1参照)。ここで、点線要素候補を選択するときの大きさや形状のしきい値と、点線要素候補を統合するときの点線要素候補間の距離やずれの大きさのしきい値として、固定値が用いられる。従来のしきい値の推定方法として、例えば、文書画像全体からのヒストグラムによりしきい値を推定するものがある(例えば、特許文献2参照)。
特開平9−319824号公報 特開平10−49676号公報
しかしながら、従来の点線罫線抽出処理における各部分処理のしきい値は、固定値であり、従来の点線罫線抽出処理は、それらの部分処理が直列につながる構成であった。よって、しきい値を満たす点線罫線しか抽出されずに、ひとつでも条件の合わない点線罫線は抽出されないことになる。逆に、たまたま条件を満たすノイズが点線罫線として誤抽出されることになる。
また、しきい値を緩めに設定しておくことにより点線罫線候補をもれなく仮説生成し、それらが点線罫線としての性質を満たすかどうかを検証し、正しい点線罫線のみを抽出する方法が考えられる。しかし、仮説を生成した後にそれらを単純にふるいにかけるだけでは、点線罫線の一部がノイズと過統合される場合や、点線罫線と点線罫線が過統合されるような場合に、過統合されたものを点線罫線ではないとして削除してしまう可能性がある。特に、カラー画像からの点線罫線抽出では、点線とノイズが過統合されることが大きな問題である。従って、しきい値が固定値である部分処理を直列につなげた点線罫線抽出処理は、高精度な点線罫線抽出を行うことが困難である。
本発明は上述した問題点を解決するためになされたものであり、適正な条件をを用いて罫線を抽出する罫線抽出装置、罫線抽出プログラム、罫線抽出方法を提供することを目的とする。
上述した課題を解決するため、本発明は、文書画像中の罫線の抽出をコンピュータに実行させる罫線抽出プログラムであって、前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出ステップと、前記抽出ステップにより抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定ステップと、前記判定ステップにより安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定ステップと、前記条件決定ステップにより決定された第2条件に基づいて罫線候補の再抽出を行う再抽出ステップとをコンピュータに実行させるものである。
また、本発明に係る罫線抽出プログラムにおいて、前記第1条件は、前記罫線の要素である罫線要素となるべき図形の性質を示す要素パラメータと、前記罫線候補として統合すべき前記罫線要素の図形の性質を示す統合パラメータとのうち、少なくともいずれかのパラメータの範囲を示す前記パラメータ範囲を含むことを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記抽出ステップは、前記文書画像中から前記要素パラメータがパラメータ範囲内となる図形を罫線要素とし、前記統合パラメータがパラメータ範囲内となる複数の前記罫線要素を統合して前記罫線候補とすることを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記罫線は、点線罫線であり、前記要素パラメータのパラメータ範囲は、黒画素連結成分の外接矩形のサイズのしきい値により定められ、前記抽出ステップは、2値で表現された文書画像から黒画素連結成分を抽出し、前記要素パラメータが前記パラメータ範囲内となる黒画素連結成分を罫線要素とすることを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記罫線は、点線罫線であり、前記統合パラメータのパラメータ範囲は、2つの罫線要素の間隔のしきい値、2つの罫線要素の統合する方向に垂直な方向へのずれのしきい値、統合された罫線要素の個数のしきい値の少なくともいずれかにより定められ、前記抽出ステップは、前記統合パラメータが前記パラメータ範囲内となる複数の罫線要素を罫線候補とすることを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記罫線は、実線罫線であり、前記抽出ステップは、2値で表現された文書画像を複数の領域に分割し、前記領域のうち前記要素パラメータが前記パラメータ範囲内となる領域を罫線要素とし、該罫線要素を統合して罫線候補とすることを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記判定ステップは、前記罫線候補を構成する罫線要素のパラメータに基づいて、前記第1条件のパラメータ範囲を変化させて第3条件とし、前記抽出ステップと同様にして、前記第3条件に基づいて前記文書画像から暫定の罫線候補である暫定罫線候補を抽出し、前記抽出ステップにより抽出された罫線候補のうち前記暫定罫線候補と異なるものを不安定と判定することを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記判定ステップは、前記罫線候補を構成する罫線要素のパラメータに基づいて、前記第1条件のパラメータ範囲を変化させて第3条件とし、前記抽出ステップと同様にして、前記第3条件に基づいて前記文書画像から暫定の罫線候補である暫定罫線候補を抽出し、前記暫定罫線候補を構成する罫線要素が所定のしきい値以下であるものを不安定と判定することを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記判定ステップは、前記罫線候補に含まれる罫線要素の配置が一様でない場合、該罫線候補を不安定と判断することを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記判定ステップは、前記罫線候補を構成する罫線要素の外接矩形が、罫線要素以外で所定の形状を持つ黒画素連結成分の外接矩形と重複する場合、該罫線候補を不安定と判定することを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記判定ステップは、縦方向に一様に並んだ複数の前記罫線候補と横方向に一様に並んだ複数の前記罫線候補とを抽出して規則的罫線候補群とし、該規則的罫線候補群以外の罫線候補を不安定と判定することを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記判定ステップは、第1のy座標から所定の範囲内に始点が存在し、かつ、第2のy座標から所定の範囲内に終点が存在し、かつ、罫線要素の数が同じである前記罫線候補と、第1のx座標から所定の範囲内に始点が存在し、かつ、第2のx座標から所定の範囲内に終点が存在し、かつ、罫線要素の数が同じである前記罫線候補とを、前記規則的罫線候補群とすることを特徴とする。
また、本発明に係る罫線抽出プログラムにおいて、前記条件決定ステップは、前記判定ステップにより安定と判定された罫線候補のうち、前記判定ステップにより不安定と判定された罫線候補近傍の所定の領域に含まれる罫線候補を抽出し、該罫線候補の性質を示すパラメータと前記第1条件におけるしきい値との間の値を、前記第2条件におけるしきい値とすることを特徴とする。
また、本発明は、文書画像中の罫線の抽出を行う罫線抽出装置であって、前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出部と、前記抽出部により抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定部と、前記判定部により安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定部と、前記条件決定部により決定された第2条件に基づいて罫線候補の再抽出を行う再抽出部とを備えたものである。
また、本発明に係る罫線抽出装置において、前記第1条件は、前記罫線の要素である罫線要素となるべき図形の性質を示す要素パラメータと、前記罫線候補として統合すべき前記罫線要素の図形の性質を示す統合パラメータとのうち、少なくともいずれかのパラメータの範囲を示す前記パラメータ範囲を含むことを特徴とする。
また、本発明に係る罫線抽出装置において、前記抽出部は、前記文書画像中から前記要素パラメータがパラメータ範囲内となる図形を罫線要素とし、前記統合パラメータがパラメータ範囲内となる複数の前記罫線要素を統合して前記罫線候補とすることを特徴とする。
また、本発明に係る罫線抽出装置において、前記罫線は、点線罫線であり、前記要素パラメータのパラメータ範囲は、黒画素連結成分の外接矩形のサイズのしきい値により定められ、前記抽出部は、2値で表現された文書画像から黒画素連結成分を抽出し、前記要素パラメータが前記パラメータ範囲内となる黒画素連結成分を罫線要素とすることを特徴とする。
また、本発明に係る罫線抽出装置において、前記罫線は、点線罫線であり、前記統合パラメータのパラメータ範囲は、2つの罫線要素の間隔のしきい値、2つの罫線要素の統合する方向に垂直な方向へのずれのしきい値、統合された罫線要素の個数のしきい値の少なくともいずれかにより定められ、前記抽出部は、前記統合パラメータが前記パラメータ範囲内となる複数の罫線要素を罫線候補とすることを特徴とする。
また、本発明に係る罫線抽出装置において、前記罫線は、実線罫線であり、前記抽出部は、2値で表現された文書画像を複数の領域に分割し、前記領域のうち前記要素パラメータが前記パラメータ範囲内となる領域を罫線要素とし、該罫線要素を統合して罫線候補とすることを特徴とする。
また、本発明は、文書画像中の罫線の抽出を行う罫線抽出方法であって、前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出ステップと、前記抽出ステップにより抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定ステップと、前記判定ステップにより安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定ステップと、前記条件決定ステップにより決定された第2条件に基づいて罫線候補の再抽出を行う再抽出ステップとを実行するものである。
本発明によれば、適正な条件をを用いて罫線を抽出することができる。
以下、本発明の実施の形態について図面を参照しつつ説明する。
まず、本実施の形態に係る罫線抽出装置の構成について説明する。
図1は、本実施の形態に係る罫線抽出装置の構成の一例を示すブロック図である。この罫線抽出装置は、2値化部11、ラベリング部12、罫線要素抽出部13、罫線要素統合部14、構造安定性分析部15、条件決定部16を備える。この罫線抽出装置は、入力された文書画像(カラー文書画像または2値文書画像)から罫線を抽出するものであり、点線罫線を抽出する点線罫線抽出処理と、実践罫線を抽出する実践罫線抽出処理を行う。
まず、本実施の形態に係る点線罫線抽出処理の動作について説明する。
図2は、本実施の形態に係る点線罫線抽出処理の動作の一例を示すフローチャートである。まず、カラー文書画像または2値文書画像が罫線抽出装置に入力されると、2値化部11は、入力された文書画像がカラー文書画像であるか否かの判断を行う(S10)。カラー文書画像が入力された場合(S10,Y)、2値化部11は、カラー文書画像を2値文書画像に変換する2値化処理を行い(S11)、フローは処理S12へ移行する。一方、2値文書画像が入力された場合(S10,N)、2値化部11は何もせずに、フローは処理S12へ移行する。
次に、ラベリング部12は、2値文書画像のラベリング処理を行うことにより、黒画素連結成分を抽出する(S12)。次に、罫線要素抽出部13は、黒画素連結成分の集合から、予め設定されたしきい値パラメータ(第1条件)を満たす黒画素連結成分を抽出し、点線要素(罫線要素)とする点線要素抽出処理を行う(S13)。次に、罫線要素統合部14は、点線要素のうち、しきい値パラメータ(第1条件)を満たす複数の点線要素を統合し、統合された点線要素の集合のうち、点線要素の個数に関するしきい値を満たすものを点線罫線候補(罫線候補)とする点線要素統合処理を行う(S14)。
次に、構造安定性分析部15は、各点線罫線候補について構造安定性の分析を行うことにより、各点線罫線候補が安定であるか不安定であるかの判定を行う構造安定性分析処理を行う(S15)。次に、条件決定部16は、不安定であると判定された点線罫線候補に関して、新たなしきい値パラメータ(第2条件)を計算し、罫線要素抽出部13及び罫線要素統合部14は、処理S13,S14と同様にして点線要素の抽出及び統合を行う点線要素再統合処理を行い(S16)、このフローは終了する。構造安定性分析処理により安定と判定された点線罫線候補、及び点線要素再統合処理により得られた点線罫線候補は、点線罫線として出力される。
次に、点線要素及び点線罫線候補に関するパラメータについて説明する。
点線要素を抽出するためのパラメータ(要素パラメータ)として、黒画素連結成分のx方向の長さ及びy方向の長さである黒画素連結成分サイズが用いられる。また、点線要素を統合するためのパラメータ(統合パラメータ)として、統合する方向に隣り合う2つの点線要素の間隔である点線要素間隔、2つの点線要素について統合する方向と垂直な方向への点線要素の中心のずれの大きさである点線要素ずれ、点線罫線候補に含まれる点線要素の個数である点線要素数が用いられる。また、これらのパラメータに対するしきい値パラメータ(パラメータ範囲)として、それぞれ黒画素連結成分サイズしきい値、点線要素間隔しきい値、点線要素ずれしきい値、点線要素数しきい値が存在する。
図3は、本実施の形態に係るパラメータの定義の一例を示す2値文書画像である。この図において、黒い領域は、黒画素連結成分を表す。この図における黒画素連結成分は、点線要素となる。また、黒画素連結成分のx方向の長さとy方向の長さは、黒画素連結成分サイズを表す。また、点線要素を囲む長方形は、点線要素の外接矩形を表す。また、x方向に隣り合う外接矩形の間隔は点線要素間隔を表す。点線要素をx方向に貫く一点鎖線は、点線要素のy座標中央値を表し、x方向に隣り合う点線要素のy座標中央値の差を点線要素ずれとする。
点線要素抽出処理において、黒画素連結成分サイズが黒画素連結成分サイズしきい値以下である黒画素連結成分は、点線要素と判定される。また、点線要素統合処理において、点線要素間隔が点線要素間隔しきい値以下、かつ点線要素ずれが点線要素ずれしきい値以下である2つの点線要素は、統合される。また、統合された点線要素数が点線要素数しきい値以上である点線要素の集合は、点線罫線候補と判定される。
次に、点線罫線候補に対する構造安定性分析処理について説明する。
図4は、本実施の形態に係る構造安定性分析処理の動作の一例を示すフローチャートである。まず、構造安定性分析部15は、ある点線罫線候補を選択し、選択した点線罫線候補について、しきい値パラメータを変動させたときの安定性を分析するしきい値パラメータ変動処理を行い、その結果が安定であるか否かの判断を行う(S21)。安定である場合(S21,Y)、処理S22へ移行し、不安定である場合(S21,N)、処理S25へ移行する。次に、構造安定性分析部15は、選択した点線罫線候補について、構成する点線要素の一様性に関する安定性を分析する点線要素一様性分析処理を行い、その結果が安定であるか否かの判断を行う(S22)。安定である場合(S22,Y)、処理S23へ移行し、不安定である場合(S22,N)、処理S25へ移行する。次に、構造安定性分析部15は、選択した点線罫線候補について、点線罫線候補間の相対的な関係からの安定性を分析する点線罫線候補関係分析処理を行い、その結果が安定であるか否かの判断を行う(S23)。安定である場合(S23,Y)、処理S24へ移行し、不安定である場合(S23,N)、処理S25へ移行する。
処理S24において、構造安定性分析部15は、点線罫線候補を安定と判定し、このフローは終了する。処理S25において、構造安定性分析部15は、点線罫線候補を不安定と判定し、このフローは終了する。つまり、しきい値パラメータ変動処理、点線要素一様性分析処理、点線罫線候補関係分析処理の全ての結果が安定である点線罫線候補は、安定と判定される。
次に、しきい値パラメータ変動処理について説明する。
ここでは、点線要素間隔のしきい値パラメータである点線要素間隔しきい値について説明する。まず、構造安定性分析部15は、点線罫線候補を構成する点線要素について、点線要素間隔を一つ一つ算出し、平均値を計算する。次に、構造安定性分析部15は、元の(点線要素統合処理で用いられた)点線要素間隔しきい値(第1条件)と求めた平均値との1:1の内分点を求め、新たな点線要素を統合するときの点線要素間隔しきい値(第3条件)とする。例えば、元の点線要素間隔しきい値をth、求めた平均値をaとするとき、(th+a)/2を新しい点線要素間隔しきい値とする。次に、構造安定性分析部15は、このようにして求めた新しいしきい値パラメータを用いて点線罫線候補を統合し直す。
図5は、本実施の形態に係るしきい値パラメータ変動処理結果の一例を示す2値文書画像である。この図において、左側の2値文書画像は、しきい値パラメータ変動前のしきい値パラメータにより得られた1つの点線罫線候補を示し、右側の2値文書画像は、しきい値パラメータ変動後のしきい値パラメータにより得られた2つの点線罫線候補を示す。このように、新しいしきい値パラメータにより統合し直されると、点線罫線候補は複数に分割される可能性がある。
次に、構造安定性分析部15は、点線罫線候補のうち点線要素3個以下で構成されるものを不安定であると判定する。図5において、しきい値パラメータ変動後の2つの点線罫線候補のうち、右側の点線罫線候補は、2つの点線要素で構成されるため、不安定であると判定される。
また、構造安定性分析部15は、黒画素連結成分サイズ、点線要素間隔、点線要素ずれなど、複数のパラメータについて、それぞれ新しいしきい値パラメータを求め、それらの新しいしきい値パラメータを用いて、新たに点線要素の抽出や点線要素の統合を行い、不安定であるか否かの判定を行ってもよい。
次に、点線要素一様性分析処理について説明する。
罫線要素統合部14は、同一の点線罫線候補に属する点線要素のうち、隣り合う2つの点線要素間について、それらの方向と距離を表す結合情報をリンクとして保持する。ここで、同一の点線罫線候補に属する隣り合う2つの点線要素をEiとEi+1とし、EiとEi+1の間のリンクをriと表すことにする。図6は、本実施の形態に係るリンクの定義の一例を示す概念図である。この図において、左から右へ点線要素Ei,Ei+1,Ei+2が並んでおり、点線要素Ei,Ei+1の関係を示す情報とであるリンクriと、点線要素Ei+1,Ei+2の関係を示す情報とであるリンクri+1とが保持されている。点線要素Ei,Ei+1,Ei+2において、統合された方向(x方向)の長さである点線要素長さ(統合された方向の黒画素結合成分サイズ)は、それぞれwi,wi+1,wi+2である。リンクriには、左側にEiがあり、右側にEi+1があること、点線要素Eiの左端から点線要素Ei+1の左端までの距離がdiであることが記述される。同様に、リンクri+1には、左側にEi+1があり、右側にEi+2があること、点線要素Ei+1の左端から点線要素Ei+2の左端までの距離がdi+1であることが記述される。
構造安定性分析部15は、各点線罫線候補について、リンクのラベリングを行う。次に、構造安定性分析部15は、ラベリングの結果を基にして、その点線罫線候補が不安定であるか否かの判定を行う。
次に、リンクのラベリングについて説明する。
構造安定性分析部15は、点線要素EiとEi+1を結ぶリンクriが以下の条件Aと条件Bの両方を満たさないとき、リンクriに対してラベル番号jをつけ、それ以外の時には、リンクriを消去するとともに、ラベル番号jをインクリメントする。条件A,条件Bは、以下のように表される。ここで、例えば、th_a=0.5とする。
条件A
min(di,di+1)/max(di,di+1)≦th_a
条件B
EiとEi+1を含む外接矩形が、点線要素以外の連結成分の外接矩形のうち大きさがEiと著しく異なるものと重複する。つまり、点線要素以外の連結成分で、その外接矩形がEiとEi+1を含む外接矩形と重複し、かつその大きさをxとおいたとき、次式を満たすものが存在する。ここで例えば、th_b=0.5とする。
min(wi,x)/max(wi,x)≦th_b
図7は、本実施の形態に係る条件Aによるリンクの消去の動作の一例を示す2値文書画像である。この図は、1つの点線罫線候補と、それを構成する複数の点線要素を示す。ここで、「消去」と示した点線要素間に存在したリンクは、条件Aを満たさないことにより消去される。
図8は、本実施の形態に係る条件Bによるリンクの消去の動作の一例を示す2値文書画像である。この図において、外接矩形31は、点線要素Ei,Ei+1を含む外接矩形である。外接矩形32は、点線要素以外の連結成分の外接矩形である。外接矩形32の縦方向の長さをxとする。外接矩形31と外接矩形32は重複しており、かつ、xはEiの縦方向の長さと著しく異なる。従って、リンクriは、条件Bを満たさないことにより消去される。
EiとEi+1を含む外接矩形が点線要素以外の連結成分の外接矩形と重複するかどうかを調べる処理(重複判定処理)について、効率化の方法を示す。図9は、本実施の形態に係る重複判定処理の動作の一例を示す2値文書画像である。まず、構造安定性分析部15は、点線罫線候補Kに対し、Kの点線要素以外の黒画素連結成分のうち、Kの外接矩形と重複するものを抽出し、その集合をSkとする。次に、構造安定性分析部15は、EiとEi+1を含む外接矩形が、Skの各外接矩形と重複するかどうかを調べる。
次に、構造安定性分析部15は、ある点線罫線候補において同一のラベル番号を持つ点線要素の個数が3個以下であるとき、その点線罫線候補が不安定であると判定する。
次に、点線罫線候補関係分析処理について説明する。
まず、構造安定性分析部15は、ある点線罫線候補に対し、次の条件C、条件D、条件Eの全てを満たす自分以外の点線罫線候補がt−1個以上あれば、その点線罫線候補を安定であると判断する。ここでは、縦方向(y方向)の点線罫線候補に対する具体的な処理について説明する。
条件C
点線罫線候補の始点のy座標の差がs画素以内
条件D
点線罫線候補の終点のy座標の差がs画素以内
条件E
構成する点線要素の個数が同じ
図10は、本実施の形態に係る点線罫線候補関係分析処理の動作の一例を示すフローチャートである。まず、構造安定性分析部15は、点線罫線候補の始点について、y座標のヒストグラムを算出する(S31)。図11は、本実施の形態に係る点線罫線候補関係分析処理の動作の一例を示す2値文書画像である。この図の右側は、複数の縦方向の点線罫線候補を含む2値文書画像である。この図の左側は、あるy座標に存在する点線要素の個数を示すヒストグラムであり、上方向の軸はy座標を表し、左方向の軸はy座標に対応する始点の個数を表す。
次に、構造安定性分析部15は、処理S31で求めたヒストグラムにおいて、あるy座標の近傍の連続するs画素内の始点の個数の合計を求め、合計がt個以上となるようなy座標を求める(S32)。次に、構造安定性分析部15は、処理S32で求めたy座標を持つ点線罫線について、終点のy座標のヒストグラムをとる(S33)。次に、構造安定性分析部15は、処理S33で求めたヒストグラムにおいて、あるy座標の付近の連続するs画素内の合計がt個以上となるようなy座標を求める(S34)。次に、構造安定性分析部15は、処理S34で求めたy座標を持つ点線罫線候補について、構成する点線要素の個数が同じ点線罫線候補の個数を求め、t以上であるか否かの判断を行う(S35)。構造安定性分析部15は、t以上であれば(S35,Y)、それらを安定な点線罫線候補と判定し(S36)、t以上でなければ(S35,N)、それらを不安定な点線罫線候補と判定し(S37)、このフローは終了する。ここで、例えば、t=4,s=3とする。
ここでは、縦方向(y方向)の点線罫線候補に対する処理について説明したが、横方向(x方向)の点線罫線候補に対する処理も同様である。
次に、統合パラメータ計算による点線要素再統合処理について説明する。
点線要素再統合処理において、条件決定部16は、上述した構造安定性分析処理により、不安定であると判定された点線罫線候補に関して、近傍の点線罫線候補から適切なしきい値パラメータを求め、罫線要素抽出部13及び罫線要素統合部14は、点線要素の再抽出及び再統合を行う。図12は、本実施の形態に係る点線要素再統合処理の動作の一例を示すフローチャートである。
まず、条件決定部16は、不安定な点線罫線候補に対して近傍領域を設定し、その近傍領域内にある安定な点線罫線候補を探索する(S41)。近傍領域の大きさは、文字サイズ×nの正方領域とする。ここで、nは所定の自然数であり、例えばn=5とする。また、条件決定部16は、近傍領域に含まれる安定な点線罫線候補のうち最も近いものを探索する。
次に、条件決定部16は、選択された安定な点線罫線候補に含まれる点線要素について、点線要素長さの平均値m_w、点線要素間隔の平均値m_sを計算する(S42)。
ここで、元のしきい値パラメータとして、点線要素の大きさについての元のしきい値をth_w、点線要素間隔についての元のしきい値をth_sとする。次に、th_wとm_wに対する所定の比の内分点を点線要素の大きさについての新たなしきい値とし、th_sとm_sに対する所定の比の内分点を点線要素間隔についての新たなしきい値とする(S43)。ここで、例えば、点線要素の大きさについての新たなしきい値を(th_w+m_w)/2とし、点線要素間隔についての新たなしきい値を(th_s+m_s)/2とする。次に、罫線要素抽出部13及び罫線要素統合部14は、これらのしきい値パラメータを用いて点線要素の再抽出及び再統合を行い(S45)、このフローは終了する。
点線罫線抽出処理の具体例について説明する。
ここでは、カラー帳票画像からの点線罫線の抽出の例について説明する。図13は、本実施の形態に係る点線罫線抽出処理の対象の一例を示す帳票画像である。図14は、本実施の形態に係る点線要素統合処理により抽出された点線罫線候補の一例を示す帳票画像である。この図は、図13の帳票画像から点線要素統合処理により抽出された、縦方向の点線罫線候補41a,41b,41c,41d,41e,41f,41g,41h,41i、横方向の点線罫線候補51を示す。これらの点線罫線候補のうち、点線罫線候補41a,41g,41iは、構造安定性分析処理により不安定と判定される。
図15は、本実施の形態に係る点線要素再統合処理により抽出された点線罫線候補の一例を示す帳票画像である。点線要素再統合処理により、不安定な点線罫線候補41aの近傍の安定な点線罫線候補41b,41cのパラメータに基づいて、点線罫線候補41aについての新たなしきい値パラメータが算出され、点線罫線候補42aが抽出される。同様にして、不安定な点線罫線候補41gの近傍の安定な点線罫線候補41e,41f,41hのパラメータに基づいて、点線罫線候補41gについての新たなしきい値パラメータが算出され、点線罫線候補42gが抽出される。同様にして、不安定な点線罫線候補41iの近傍の安定な点線罫線候補41hのパラメータに基づいて、点線罫線候補41iについての新たなしきい値パラメータが算出され、点線罫線候補42iが抽出される。
次に、本実施の形態に係る実線罫線抽出処理の動作について説明する。
図16は、本実施の形態に係る実線罫線抽出処理の動作の一例を示すフローチャートである。実線罫線抽出処理は、点線罫線抽出処理と同様の流れであり、同様の処理を用いて行う。まず、点線罫線抽出処理と同様、カラー文書画像または2値文書画像が罫線抽出装置に入力されると、2値化部11は、入力された文書画像がカラー文書画像であるか否かの判断を行う(S10)。カラー文書画像が入力された場合(S10,Y)、2値化部11は、2値化処理を行うことにより、カラー文書画像を2値文書画像に変換し(S11)、フローは処理S12へ移行する。一方、2値文書画像が入力された場合(S10,N)、2値化部11は何もせずに、フローは処理S63へ移行する。
次に、罫線要素抽出部13は、格子状に分割し、各格子領域に含まれる黒画素の割合(要素パラメータ)を求め、所定のしきい値(黒画素割合しきい値)以上のものを実線要素(罫線要素)として抽出する実線要素抽出処理を行う(S63)。次に、罫線要素統合部14は、実線要素を統合し、実線罫線候補(罫線候補)を生成する実線要素統合処理を行う(S64)。
次に、構造安定性分析部15は、各実線罫線候補について構造安定性の分析を行うことにより、各実線罫線候補が安定であるか不安定であるかの判定を行う構造安定性分析処理を行う(S65)。ここで、構造安定性分析部15は、黒画素の割合のしきい値に対して、点線罫線抽出処理と同様のしきい値パラメータ分析処理を行う。具体的には、構造安定性分析部15は、各実線罫線候補について、それを構成する実線要素の黒画素の割合をそれぞれ求め、全ての実線要素の平均値を求める。次に、構造安定性分析部15は、元のしきい値と平均値についていくつかの所定の比の内分点を求め、新たなしきい値とする。次に、構造安定性分析部15は、新たなしきい値パラメータを用いて実線要素抽出処理と実線要素統合処理を行う。その結果得られた新たな実線罫線候補が元の実線罫線候補と異なる場合、構造安定性分析部15は、元の実線罫線候補が不安定であると判断する。
次に、条件決定部16は、不安定であると判定された実線罫線候補に関して、新たなしきい値パラメータを計算し、罫線要素抽出部13及び罫線要素統合部14は、処理S64と同様にして実線要素の再統合を行う実線要素再統合処理を行い(S66)、このフローは終了する。ここで、罫線要素統合部14は、点線要素再統合処理と同様、不安定な実線罫線候補の周辺の安定な実線罫線候補から新たなしきい値パラメータを計算し、新たなしきい値パラメータを用いて、再度、実線要素抽出処理、実線要素統合処理を行う。
構造安定性分析処理により安定と判定された実線罫線候補、及び実線要素再統合処理により得られた実線罫線候補は、実線罫線として出力される。
本実施の形態に係る罫線抽出装置は、処理の途中結果について仮説検証を行い、生成した仮説の中から正しい仮説を選択し、仮説検証により得られた情報をフィードバックし、さらに正しい仮説を生成し、選択する。具体的に言うと、本実施の形態に係る罫線抽出装置は、パラメータに対する構造安定性により処理結果の妥当性を判断し、その構造安定性に基づいてパラメータを調整し、再び処理を行う。
また、上述した点線罫線抽出処理によれば、文字を構成するパターンの一部が誤って点線要素と過統合される場合、この点線罫線候補は不安定であると判定され、周りの安定な点線罫線候補から適切なしきい値が計算され、このしきい値により点線罫線候補が再抽出され、文字を構成するパターンと点線罫線が分離され、文字を構成するパターンは点線罫線から削除される。また、点線罫線同士が中間のノイズなどにより過統合される場合、同様に、新たなしきい値により点線罫線同士が分離され、ノイズは点線罫線から削除される。
また、上述した実線罫線抽出処理によれば、文字を構成するパターンの一部が誤って実線要素と過統合される場合、同様に、新たなしきい値により文字を構成するパターンと実線罫線が分離され、文字を構成するパターンは実線罫線から削除される。実線罫線同士が中間のノイズなどにより過統合される場合、同様に、新たなしきい値により実線罫線同士が分離され、ノイズは実線罫線から削除される。
なお、抽出ステップは、実施の形態における点線要素抽出処理または実線要素抽出処理に対応する。また、判定ステップは、実施の形態における構造安定性分析処理に対応する。また、条件決定ステップは、処理S41,S42,S43に対応する。また、再抽出ステップは、処理S45に対応する。また、抽出部は、罫線要素抽出部及び罫線要素統合部に対応する。また、判定部は、構造安定性分析部に対応する。
また、本実施の形態に係る罫線抽出装置は、情報処理装置に容易に適用することができ、情報処理装置の性能をより高めることができる。ここで、情報処理装置には、例えば、PC(Personal Computer)、サーバ、スキャナ、複写機、複合機等が含まれ得る。
更に、罫線抽出装置を構成するコンピュータにおいて上述した各ステップを実行させるプログラムを、罫線抽出プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、罫線抽出装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
(付記1) 文書画像中の罫線の抽出をコンピュータに実行させる罫線抽出プログラムであって、
前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出ステップと、
前記抽出ステップにより抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定ステップと、
前記判定ステップにより安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定ステップと、
前記条件決定ステップにより決定された第2条件に基づいて罫線候補の再抽出を行う再抽出ステップと
をコンピュータに実行させる罫線抽出プログラム。
(付記2) 付記1に記載の罫線抽出プログラムにおいて、
前記第1条件は、前記罫線の要素である罫線要素となるべき図形の性質を示す要素パラメータと、前記罫線候補として統合すべき前記罫線要素の図形の性質を示す統合パラメータとのうち、少なくともいずれかのパラメータの範囲を示す前記パラメータ範囲を含むことを特徴とする罫線抽出プログラム。
(付記3) 付記2に記載の罫線抽出プログラムにおいて、
前記抽出ステップは、前記文書画像中から前記要素パラメータがパラメータ範囲内となる図形を罫線要素とし、前記統合パラメータがパラメータ範囲内となる複数の前記罫線要素を統合して前記罫線候補とすることを特徴とする罫線抽出プログラム。
(付記4) 付記3に記載の罫線抽出プログラムにおいて、
前記罫線は、点線罫線であり、
前記要素パラメータのパラメータ範囲は、黒画素連結成分の外接矩形のサイズのしきい値により定められ、
前記抽出ステップは、2値で表現された文書画像から黒画素連結成分を抽出し、前記要素パラメータが前記パラメータ範囲内となる黒画素連結成分を罫線要素とすることを特徴とする罫線抽出プログラム。
(付記5) 付記3または付記4に記載の罫線抽出プログラムにおいて、
前記罫線は、点線罫線であり、
前記統合パラメータのパラメータ範囲は、2つの罫線要素の間隔のしきい値、2つの罫線要素の統合する方向に垂直な方向へのずれのしきい値、統合された罫線要素の個数のしきい値の少なくともいずれかにより定められ、
前記抽出ステップは、前記統合パラメータが前記パラメータ範囲内となる複数の罫線要素を罫線候補とすることを特徴とする罫線抽出プログラム。
(付記6) 付記3乃至付記5のいずれかに記載の罫線抽出プログラムにおいて、
前記罫線は、実線罫線であり、
前記抽出ステップは、2値で表現された文書画像を複数の領域に分割し、前記領域のうち前記要素パラメータが前記パラメータ範囲内となる領域を罫線要素とし、該罫線要素を統合して罫線候補とすることを特徴とする罫線抽出プログラム。
(付記7) 付記2乃至付記6のいずれかに記載の罫線抽出プログラムにおいて、
前記判定ステップは、前記罫線候補を構成する罫線要素のパラメータに基づいて、前記第1条件のパラメータ範囲を変化させて第3条件とし、前記抽出ステップと同様にして、前記第3条件に基づいて前記文書画像から暫定の罫線候補である暫定罫線候補を抽出し、前記抽出ステップにより抽出された罫線候補のうち前記暫定罫線候補と異なるものを不安定と判定することを特徴とする罫線抽出プログラム。
(付記8) 付記2乃至付記7のいずれかに記載の罫線抽出プログラムにおいて、
前記判定ステップは、前記罫線候補を構成する罫線要素のパラメータに基づいて、前記第1条件のパラメータ範囲を変化させて第3条件とし、前記抽出ステップと同様にして、前記第3条件に基づいて前記文書画像から暫定の罫線候補である暫定罫線候補を抽出し、前記暫定罫線候補を構成する罫線要素が所定のしきい値以下であるものを不安定と判定することを特徴とする罫線抽出プログラム。
(付記9) 付記2乃至付記8のいずれかに記載の罫線抽出プログラムにおいて、
前記判定ステップは、前記罫線候補に含まれる罫線要素の配置が一様でない場合、該罫線候補を不安定と判断することを特徴とする罫線抽出プログラム。
(付記10) 付記2乃至付記9のいずれかに記載の罫線抽出プログラムにおいて、
前記判定ステップは、前記罫線候補を構成する罫線要素の外接矩形が、罫線要素以外で所定の形状を持つ黒画素連結成分の外接矩形と重複する場合、該罫線候補を不安定と判定することを特徴とする罫線抽出プログラム。
(付記11) 付記2乃至付記10のいずれかに記載の罫線抽出プログラムにおいて、
前記判定ステップは、縦方向に一様に並んだ複数の前記罫線候補と横方向に一様に並んだ複数の前記罫線候補とを抽出して規則的罫線候補群とし、該規則的罫線候補群以外の罫線候補を不安定と判定することを特徴とする罫線抽出プログラム。
(付記12) 付記11に記載の罫線抽出プログラムにおいて、
前記判定ステップは、第1のy座標から所定の範囲内に始点が存在し、かつ、第2のy座標から所定の範囲内に終点が存在し、かつ、罫線要素の数が同じである前記罫線候補と、第1のx座標から所定の範囲内に始点が存在し、かつ、第2のx座標から所定の範囲内に終点が存在し、かつ、罫線要素の数が同じである前記罫線候補とを、前記規則的罫線候補群とすることを特徴とする罫線抽出プログラム。
(付記13) 付記2乃至付記12のいずれかに記載の罫線抽出プログラムにおいて、
前記条件決定ステップは、前記判定ステップにより安定と判定された罫線候補のうち、前記判定ステップにより不安定と判定された罫線候補近傍の所定の領域に含まれる罫線候補を抽出し、該罫線候補の性質を示すパラメータと前記第1条件におけるしきい値との間の値を、前記第2条件におけるしきい値とすることを特徴とする罫線抽出プログラム。
(付記14) 文書画像中の罫線の抽出を行う罫線抽出装置であって、
前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出部と、
前記抽出部により抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定部と、
前記判定部により安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定部と、
前記条件決定部により決定された第2条件に基づいて罫線候補の再抽出を行う再抽出部と
を備える罫線抽出装置。
(付記15) 付記14に記載の罫線抽出装置において、
前記第1条件は、前記罫線の要素である罫線要素となるべき図形の性質を示す要素パラメータと、前記罫線候補として統合すべき前記罫線要素の図形の性質を示す統合パラメータとのうち、少なくともいずれかのパラメータの範囲を示す前記パラメータ範囲を含むことを特徴とする罫線抽出装置。
(付記16) 付記15に記載の罫線抽出装置において、
前記抽出部は、前記文書画像中から前記要素パラメータがパラメータ範囲内となる図形を罫線要素とし、前記統合パラメータがパラメータ範囲内となる複数の前記罫線要素を統合して前記罫線候補とすることを特徴とする罫線抽出装置。
(付記17) 付記16に記載の罫線抽出装置において、
前記罫線は、点線罫線であり、
前記要素パラメータのパラメータ範囲は、黒画素連結成分の外接矩形のサイズのしきい値により定められ、
前記抽出部は、2値で表現された文書画像から黒画素連結成分を抽出し、前記要素パラメータが前記パラメータ範囲内となる黒画素連結成分を罫線要素とすることを特徴とする罫線抽出装置。
(付記18) 付記16または付記17に記載の罫線抽出装置において、
前記罫線は、点線罫線であり、
前記統合パラメータのパラメータ範囲は、2つの罫線要素の間隔のしきい値、2つの罫線要素の統合する方向に垂直な方向へのずれのしきい値、統合された罫線要素の個数のしきい値の少なくともいずれかにより定められ、
前記抽出部は、前記統合パラメータが前記パラメータ範囲内となる複数の罫線要素を罫線候補とすることを特徴とする罫線抽出装置。
(付記19) 付記16乃至付記18のいずれかに記載の罫線抽出装置において、
前記罫線は、実線罫線であり、
前記抽出部は、2値で表現された文書画像を複数の領域に分割し、前記領域のうち前記要素パラメータが前記パラメータ範囲内となる領域を罫線要素とし、該罫線要素を統合して罫線候補とすることを特徴とする罫線抽出装置。
(付記20) 文書画像中の罫線の抽出を行う罫線抽出方法であって、
前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出ステップと、
前記抽出ステップにより抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定ステップと、
前記判定ステップにより安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定ステップと、
前記条件決定ステップにより決定された第2条件に基づいて罫線候補の再抽出を行う再抽出ステップと
を実行する罫線抽出方法。
本実施の形態に係る罫線抽出装置の構成の一例を示すブロック図である。 本実施の形態に係る点線罫線抽出処理の動作の一例を示すフローチャートである。 本実施の形態に係るパラメータの定義の一例を示す2値文書画像である。 本実施の形態に係る構造安定性分析処理の動作の一例を示すフローチャートである。 本実施の形態に係るしきい値パラメータ変動処理結果の一例を示す2値文書画像である。 本実施の形態に係るリンクの定義の一例を示す概念図である。 本実施の形態に係る条件Aによるリンクの消去の動作の一例を示す2値文書画像である。 本実施の形態に係る条件Bによるリンクの消去の動作の一例を示す2値文書画像である。 本実施の形態に係る重複判定処理の動作の一例を示す2値文書画像である。 本実施の形態に係る点線罫線候補関係分析処理の動作の一例を示すフローチャートである。 本実施の形態に係る点線罫線候補関係分析処理の動作の一例を示す2値文書画像である。 本実施の形態に係る点線要素再統合処理の動作の一例を示すフローチャートである。 本実施の形態に係る点線罫線抽出処理の対象の一例を示す帳票画像である。 本実施の形態に係る点線要素統合処理により抽出された点線罫線候補の一例を示す帳票画像である。 本実施の形態に係る点線要素再統合処理により抽出された点線罫線候補の一例を示す帳票画像である。 本実施の形態に係る実線罫線抽出処理の動作の一例を示すフローチャートである。
符号の説明
11 2値化部、12 ラベリング部、13 罫線要素抽出部、14 罫線要素統合部、15 構造安定性分析部、16 条件決定部、31,32 外接矩形、41a,41b,41c,41d,41e,41f,41g,41h,41i、51,42a,42g,42i 点線罫線候補。

Claims (5)

  1. 文書画像中の罫線の抽出をコンピュータに実行させる罫線抽出プログラムであって、
    前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出ステップと、
    前記抽出ステップにより抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定ステップと、
    前記判定ステップにより安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定ステップと、
    前記条件決定ステップにより決定された第2条件に基づいて罫線候補の再抽出を行う再抽出ステップと
    をコンピュータに実行させる罫線抽出プログラム。
  2. 請求項1に記載の罫線抽出プログラムにおいて、
    前記第1条件は、前記罫線の要素である罫線要素となるべき図形の性質を示す要素パラメータと、前記罫線候補として統合すべき前記罫線要素の図形の性質を示す統合パラメータとのうち、少なくともいずれかのパラメータの範囲を示す前記パラメータ範囲を含むことを特徴とする罫線抽出プログラム。
  3. 請求項2に記載の罫線抽出プログラムにおいて、
    前記抽出ステップは、前記文書画像中から前記要素パラメータがパラメータ範囲内となる図形を罫線要素とし、前記統合パラメータがパラメータ範囲内となる複数の前記罫線要素を統合して前記罫線候補とすることを特徴とする罫線抽出プログラム。
  4. 文書画像中の罫線の抽出を行う罫線抽出装置であって、
    前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出部と、
    前記抽出部により抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定部と、
    前記判定部により安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定部と、
    前記条件決定部により決定された第2条件に基づいて罫線候補の再抽出を行う再抽出部と
    を備える罫線抽出装置。
  5. 文書画像中の罫線の抽出を行う罫線抽出方法であって、
    前記罫線の要素の図形が満たすべき条件として予め設定された第1条件に基づいて、前記文書画像から前記罫線の候補である罫線候補を抽出する抽出ステップと、
    前記抽出ステップにより抽出された罫線候補の構造安定性に基づいて、該罫線候補が安定であるか不安定であるかの判定を行う判定ステップと、
    前記判定ステップにより安定と判定された罫線候補と前記第1条件に基づいて、前記罫線の要素の図形が満たすべき条件であって前記第1条件と異なる第2条件を決定する条件決定ステップと、
    前記条件決定ステップにより決定された第2条件に基づいて罫線候補の再抽出を行う再抽出ステップと
    を実行する罫線抽出方法。
JP2006235660A 2006-08-31 2006-08-31 罫線抽出プログラム、罫線抽出装置、罫線抽出方法 Expired - Fee Related JP4791295B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006235660A JP4791295B2 (ja) 2006-08-31 2006-08-31 罫線抽出プログラム、罫線抽出装置、罫線抽出方法
US11/607,758 US7769234B2 (en) 2006-08-31 2006-11-30 Ruled line extracting program, ruled line extracting apparatus and ruled line extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006235660A JP4791295B2 (ja) 2006-08-31 2006-08-31 罫線抽出プログラム、罫線抽出装置、罫線抽出方法

Publications (2)

Publication Number Publication Date
JP2008059298A true JP2008059298A (ja) 2008-03-13
JP4791295B2 JP4791295B2 (ja) 2011-10-12

Family

ID=39151603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006235660A Expired - Fee Related JP4791295B2 (ja) 2006-08-31 2006-08-31 罫線抽出プログラム、罫線抽出装置、罫線抽出方法

Country Status (2)

Country Link
US (1) US7769234B2 (ja)
JP (1) JP4791295B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113217A1 (ja) * 2009-03-31 2010-10-07 富士通フロンテック株式会社 文字認識装置及び文字認識方法
JP2012053617A (ja) * 2010-08-31 2012-03-15 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2012093876A (ja) * 2010-10-26 2012-05-17 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2012128666A (ja) * 2010-12-15 2012-07-05 Fujitsu Ltd 弧検出装置、弧検出プログラム及び携帯端末装置
JP2016071855A (ja) * 2014-09-30 2016-05-09 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像における縦線および横線の検出および削除
WO2020157937A1 (ja) * 2019-01-31 2020-08-06 株式会社Pfu 画像処理装置、制御方法及び制御プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
US10068132B2 (en) * 2016-05-25 2018-09-04 Ebay Inc. Document optical character recognition

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230525A (ja) * 1993-12-22 1995-08-29 Ricoh Co Ltd 罫線認識方法及び表処理方法
JPH1145339A (ja) * 1997-05-30 1999-02-16 Ricoh Co Ltd 破線識別方法および記録媒体
JPH11232457A (ja) * 1998-02-12 1999-08-27 Mitsubishi Electric Corp 罫線抽出方法および装置
JPH11353478A (ja) * 1998-06-03 1999-12-24 Ricoh Co Ltd 点線認識方法、表処理方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000339454A (ja) * 1999-05-31 2000-12-08 Fujitsu Ltd 点線抽出方法、その装置及びその記録媒体
JP2002183660A (ja) * 2000-12-14 2002-06-28 Canon Inc 文書読み取り装置および文書読み取り方法
JP2004013188A (ja) * 2002-06-03 2004-01-15 Nec Corp 帳票読取り装置および帳票読取り方法ならびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06150056A (ja) * 1992-11-09 1994-05-31 Matsushita Electric Ind Co Ltd 表認識装置
JPH1049676A (ja) 1996-08-06 1998-02-20 Ricoh Co Ltd 罫線認識方法
JP3842006B2 (ja) * 2000-03-30 2006-11-08 グローリー工業株式会社 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4396376B2 (ja) * 2004-04-22 2010-01-13 日本電気株式会社 図形読み取り方法及びその装置並びに主要色抽出方法及びその装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230525A (ja) * 1993-12-22 1995-08-29 Ricoh Co Ltd 罫線認識方法及び表処理方法
JPH1145339A (ja) * 1997-05-30 1999-02-16 Ricoh Co Ltd 破線識別方法および記録媒体
JPH11232457A (ja) * 1998-02-12 1999-08-27 Mitsubishi Electric Corp 罫線抽出方法および装置
JPH11353478A (ja) * 1998-06-03 1999-12-24 Ricoh Co Ltd 点線認識方法、表処理方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000339454A (ja) * 1999-05-31 2000-12-08 Fujitsu Ltd 点線抽出方法、その装置及びその記録媒体
JP2002183660A (ja) * 2000-12-14 2002-06-28 Canon Inc 文書読み取り装置および文書読み取り方法
JP2004013188A (ja) * 2002-06-03 2004-01-15 Nec Corp 帳票読取り装置および帳票読取り方法ならびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113217A1 (ja) * 2009-03-31 2010-10-07 富士通フロンテック株式会社 文字認識装置及び文字認識方法
US8577147B2 (en) 2009-03-31 2013-11-05 Fujitsu Frontech Limited Character recognition apparatus and character recognition method
JP5385372B2 (ja) * 2009-03-31 2014-01-08 富士通フロンテック株式会社 文字認識装置及び文字認識方法
JP2012053617A (ja) * 2010-08-31 2012-03-15 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2012093876A (ja) * 2010-10-26 2012-05-17 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2012128666A (ja) * 2010-12-15 2012-07-05 Fujitsu Ltd 弧検出装置、弧検出プログラム及び携帯端末装置
JP2016071855A (ja) * 2014-09-30 2016-05-09 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像における縦線および横線の検出および削除
WO2020157937A1 (ja) * 2019-01-31 2020-08-06 株式会社Pfu 画像処理装置、制御方法及び制御プログラム

Also Published As

Publication number Publication date
JP4791295B2 (ja) 2011-10-12
US20080056576A1 (en) 2008-03-06
US7769234B2 (en) 2010-08-03

Similar Documents

Publication Publication Date Title
JP4791295B2 (ja) 罫線抽出プログラム、罫線抽出装置、罫線抽出方法
CN105184292B (zh) 自然场景图像中手写体数学公式结构分析与识别方法
JP5240047B2 (ja) キーワード識別方法及装置
JP4968075B2 (ja) パターン認識装置、パターン認識方法、およびパターン認識プログラム
JP2006059351A (ja) 劣化辞書生成プログラム、方法および装置
US20120134591A1 (en) Image processing apparatus, image processing method and computer-readable medium
KR101685472B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기억 매체
CN101814141A (zh) 存储介质、字符识别方法以及字符识别设备
JP2008158847A (ja) 画像配信装置および画像配信方法
JP2011210160A (ja) 画像処理方法、画像処理装置、プログラム、及びプログラム記憶媒体
JP2004038530A (ja) 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置
JP2009282940A (ja) パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
JP4687558B2 (ja) 画像照合装置、画像照合方法及びプログラム
JP2007295210A (ja) 画像処理装置、画像処理方法、画像処理プログラム、およびこれを記録した記録媒体
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
CN116468977B (zh) 一种视觉检测模型的对抗鲁棒性评估方法及装置
JP2023128088A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US8432555B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP2010092426A (ja) 画像処理装置、画像処理方法およびプログラム
JP5505187B2 (ja) 画像処理装置およびプログラム
JP3628536B2 (ja) 二値画像変換装置
JP4390723B2 (ja) 情報埋め込み装置、情報抽出装置、情報埋め込み方法、情報抽出方法、情報埋め込みプログラム、情報抽出プログラム及び記録媒体
CN116563855A (zh) 一种东巴字文档分割方法、装置、设备及存储介质
JP2005071243A (ja) 画像処理装置、方法およびプログラム
JP4381455B2 (ja) 文字サイズ推定方法、装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110719

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees