JP2008198157A - 表認識プログラム、表認識方法および表認識装置 - Google Patents

表認識プログラム、表認識方法および表認識装置 Download PDF

Info

Publication number
JP2008198157A
JP2008198157A JP2007035707A JP2007035707A JP2008198157A JP 2008198157 A JP2008198157 A JP 2008198157A JP 2007035707 A JP2007035707 A JP 2007035707A JP 2007035707 A JP2007035707 A JP 2007035707A JP 2008198157 A JP2008198157 A JP 2008198157A
Authority
JP
Japan
Prior art keywords
ruled line
line
ruled
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007035707A
Other languages
English (en)
Other versions
JP4835459B2 (ja
Inventor
Hiroshi Tanaka
宏 田中
Kenji Nakajima
健次 中島
Akihiro Minagawa
明洋 皆川
Hiroaki Takebe
浩明 武部
Katsuto Fujimoto
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007035707A priority Critical patent/JP4835459B2/ja
Priority to US12/071,050 priority patent/US8582888B2/en
Priority to CN2008100055672A priority patent/CN101246549B/zh
Publication of JP2008198157A publication Critical patent/JP2008198157A/ja
Application granted granted Critical
Publication of JP4835459B2 publication Critical patent/JP4835459B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文書画像に含まれる表の罫線を精度よく検出することを目的とする。
【解決手段】表を含む文書画像を読み取って罫線を抽出する表認識装置の第一の表認識プログラムは、表認識装置に以下の処理を実行させることを特徴とする。ランレングス処理によって該文書内のラン線分情報を検出し、エッジ抽出処理によって該文書内のエッジ線分情報を検出し、該ラン線分情報および該エッジ線分情報の隣接する状態と罫線の候補の種類との関係を予め定めた条件に応じて該表の罫線の候補の種類を判別し、罫線とするか否かを判別する条件情報を罫線の候補の種類に応じて切り替え、罫線の候補と条件情報とから表の罫線情報を求める。
【選択図】図1

Description

本発明は、文書画像内の表の罫線を抽出する表認識方法に関する。
紙文書で運用されてきた業務を電子化したり、紙で配布された文書を電子文書に変換したりするための技術としてOCR(optical character readerまたはoptical character recognition)などの文書画像認識技術がある。文書には表が含まれることがあり、表を認識する技術は重要である。表は一般に縦横の罫線の組み合わせによって構成される。表の認識は、文書画像から表の罫線の配置情報を抽出し、抽出した罫線の配置情報に基づいて表の構造を解析することにより表を認識する。したがって、罫線を抽出する技術は精度よく表を認識するために必要である。
表の罫線を抽出する方法は、例えば文書画像の連続画素から罫線を検出する方法がある。連続画素から罫線を検出する方法は実線を検出するときの精度は良いが実線以外の線分は検出できない。一方、画像内のエッジを抽出する技術から罫線を検出する方法もある。エッジを抽出する技術によって罫線を検出する場合、実線から2本の罫線候補が生まれ、後処理で統合する必要がある。また、連続画素から罫線を検出する方法よりも精度が悪い。両方法によって罫線を検出した後で両方法の結果を統合した場合も後処理が必要である。以上のように、連続画素から罫線を検出する方法とエッジを抽出する技術から罫線を検出する方法とを単に組み合わせただけでは複数の種類の罫線が混在した画像から罫線を抽出することは困難であった。
また、テクスチャによって形成される境界罫線は、連続画素から罫線を検出する方法では検出できない。一方、テクスチャによって形成される境界罫線は、エッジを抽出する技術によって罫線を検出する方法では画像中の文字など罫線以外からの誤抽出が増加する。
従来技術としては以下の文献がある。
特開平10−40333号公報 特開平01−217583号公報
本発明は、文書画像に含まれる形状、模様、色彩によって表される表の罫線を精度よく検出することを目的とする。
本発明の表を含む文書画像を読み取って罫線を抽出する表認識装置の第一の表認識プログラムは、表認識装置に以下の処理を実行させることを特徴とする。ランレングス処理によって該文書内のラン線分情報を検出し、エッジ抽出処理によって該文書内のエッジ線分情報を検出し、該ラン線分情報および該エッジ線分情報の隣接する状態と罫線の候補の種類との関係を予め定めた条件に応じて該表の罫線の候補の種類を判別し、罫線とするか否かを判別する条件情報を罫線の候補の種類に応じて切り替え、罫線の候補と条件情報とから表の罫線情報を求める。
また、本発明の第二の表認識プログラムは、更に表認識装置に以下の処理を実行させることを特徴とする。ラン線分を挟むようにエッジ線分が隣接する位置関係となる領域を実線罫線候補と判定し、ラン線分の片側にエッジ線分が隣接する位置関係となる領域を境界罫線候補と判定し、および、該エッジ線分に隣接するラン線分が存在しない位置関係となる領域をテクスチャ境界候補と判定する。テクスチャ境界候補を罫線と判定する長さの条件情報を実線罫線候補および境界罫線候補の長さの条件情報よりも長くする。
また、本発明の第三の表認識プログラムは、更に表認識装置に以下の処理を実行させることを特徴とする。求めた複数の罫線情報が平行でありかつ所定の距離以下のときに該複数の罫線情報を統合して新たな罫線情報を生成する。
また、本発明の第四の表認識プログラムは、更に表認識装置に以下の処理を実行させることを特徴とする。新たな罫線情報を生成するステップを行う際、実線罫線候補、境界罫線候補およびテクスチャ境界候補に応じて条件情報を切り替える。
また、本発明の第五の表認識プログラムは、更に表認識装置に以下の処理を実行させることを特徴とする。罫線情報の中で予め定めた長さ以上の罫線情報を確定罫線情報とし、平行して隣接する該確定罫線情報の組によって矩形領域を特定し、該矩形領域内の罫線情報を罫線とするか否かを判定する長さ条件を該矩形領域の大きさによって決定し、該長さ条件を超える該矩形領域内の罫線情報を罫線とする。
本発明により、ラン検出による罫線の候補とエッジ検出による罫線の候補との位置関係によって罫線の種類を特定し、罫線の種類に応じた条件によって罫線を検出するため、文書画像に含まれる形状、模様、色彩によって表される表の罫線を精度よく検出することが可能となる。
以下、本発明の実施の形態を説明する。
図1は本実施例の原理構成図である。表認識装置10は文書の画像データが入力されると以下の処理を行って表の罫線情報を出力する。画像入力手段21は、入力される文書画像データを取得する。ラン線分検出手段22は、ランレングス処理によって文書画像データの罫線候補を検出する。エッジ線分検出手段23は、エッジ検出処理によって文書画像データの罫線候補を検出する。
罫線候補抽出手段24は、ラン線分検出手段22の罫線候補とエッジ線分検出手段23の罫線候補とを重ね合わせ、予め定めた条件に応じて罫線候補の種類を判別する。罫線情報生成手段25は、罫線候補の種類に応じて罫線情報か否かを判別する。削除手段26は、表の項目内の不適当な罫線情報を削除する。出力手段27は、最終的に文書画像データから検出した表の罫線情報を出力する。
図2は、本実施例の表認識装置10のハードウェア構成図である。表認識装置10は、制御部11、入力部12、出力部13、記憶部14およびメモリ15によって構成され、各部はバス16によって接続される。制御部11は表認識装置10の全体を制御する中央処理装置である。制御部11は例えばCPUである。制御部11はメモリ15に展開した表認識プログラム1やデータ等を用いて、図1の処理を実行する。
入力部12は処理の対象となる文書画像データを受付ける機能を有する。例えばスキャナ、ネットワークインターフェース、キーボード、マウス、タッチパネル等である。ネットワークインターフェースは、制御部11がネットワーク(例えばインターネット、LAN等)を介して、外部のコンピュータ装置とデータの送受信を行うためのインターフェースである。出力部13は文書画像データの表の罫線を出力する機能を有する。例えばモニタ、プリンタ、ネットワークインターフェース等の表示装置である。
記憶部14には表認識プログラム1が格納される。記憶部14は例えば磁気ディスク装置、ROMである。メモリ15は、制御部11が表認識プログラム1を実行するために記憶部14に格納される表認識プログラム1および計算結果のデータ等を一時的に格納する領域である。メモリ15は例えばRAMである。
制御部11は記憶部14の表認識プログラム1をメモリ15に展開する。表認識プログラム1により制御部11は、画像入力手段21、ラン線分検出手段22、エッジ線分検出手段23、罫線候補抽出手段24、罫線情報生成手段25、削除手段26、および出力手段27として機能する。
本実施例で入力される文書画像データは表を含む。表認識装置10は表の罫線を抽出する。例えば、表認識装置10に入力される文書画像が帳票データである場合、表認識装置10は帳票中の表を認識する。
次に画像入力手段について説明する。画像入力手段は文書画像データを装置に読み込む機能を実現する。画像入力手段は例えば紙文書から画像を読み込むのであれば光学スキャナで電子化した文書画像データを取得する。画像入力手段は例えば既に文書画像データが存在する場合には、記憶部14等から文書画像データを取得する。
図3は本実施例で入力される文書画像データの表30である。表30は種々の形態の罫線を有する。罫線は形状、模様、色彩、あるいは形状、模様、色彩の組合せによって表される。表罫線には、領域の境界により構成される境界罫線31、境界罫線32、テクスチャ領域の境界により構成されるテクスチャ境界罫線33、テクスチャ境界罫線34、および実線によって構成される実線罫線35、実線罫線36、実線罫線37、実線罫線38がある。
図4は本実施例で表30から出力される表40である。表罫線は実線として41、42、43、44、45、46、47、および48が抽出される。ここで、実線によって構成される罫線35、36、37、38および境界罫線31、32は、同種の画素で塗り潰された領域(面塗り領域)の境界により構成されるため、ラン線分検出手段22及びエッジ線分抽出手段23によって検出することが可能である。一方、ラン線分検出手段22はテクスチャ境界罫線33、34を抽出することはできない。よって、図3のように複数種の罫線が混在する表30から表40のように罫線を抽出するためにはエッジ抽出技術を用いる必要がある。本実施例ではエッジ抽出技術の一つとしてCanny法を用いて説明する。
次にラン線分検出手段22が実行する処理について説明する。本実施例のラン線分検出手段22は、文書画像データの各画素を白と黒で二値化する。以降の説明では二値化されたときの白色の画素を白画素とし、黒色の画素を黒画素とする。ラン線分検出は一般にランレングス処理と呼ばれる。ランレングス処理は、黒画素が縦方向または横方向に予め定めた画素数以上に連続している領域をラン線分領域として抽出する。したがって、ランレングス処理により黒画素が直線的に連続した領域が抽出される。
図5はランレングス処理の原理図である。ランレングス処理は画像データ内の画素6を二値化し、同種の画素群を抽出し、同種の画素群が構成する線分の線幅50、始点51および終点52を得る。
図6はラン線分検出手段22が実行する処理のフローチャートである。ラン線分検出手段22は、画像入力手段21が取得した文書画像データを二値画像に変換する(S01)。ラン線分検出手段22は、黒画素が直線状に連続した領域をラン線分の候補として検出する(S02)。ラン線分検出手段22は、画素で構成される各行ごとに連続した画素をまとめて、横方向のラン線分の候補を検出する。ラン線分検出手段22は、線分の長さが一定値以下のものを削除する(S03)。
図7はラン線分の候補の削除の状態を示す図である。図7の上側71はラン線分検出手段22がS02において文書画像データからラン線分の候補を抽出した状態を示し、下側72はラン線分検出手段22がS03においてラン線分の候補からラン線分を削除した状態を示す。図中の各丸形状は画素6である。黒色の画素6は黒画素601であり、白色の画素6は白画素602である。ラン線分検出手段22は、例えばラン線分の候補61の中で画素の横方向63に連続する長さが3以下のものを削除する。その結果、図7の下側の状態図の中央付近にある長さ3のラン線分の候補に対応する画素群64が削除される。図6の説明に戻る。
次に、ラン線分検出手段22は、黒画素のグループ化を行う(S04)。図8は黒画素のグループ化の状態を説明する図である。文書画像データ内の隣接するラン線分の候補61をグループにまとめ、ラン線分の候補61が連結する矩形領域62を検出する。ラン線分検出手段22は、ラン線分の候補61が連結する矩形領域62を罫線候補とする。実線罫線は以上の処理で抽出される。
次にラン線分検出手段22が境界罫線から罫線候補の検出を可能するため領域境界か否かを判別する(S05)。具体的には、ラン線分検出手段22は黒画素の矩形領域の幅が予め定めた閾値を超えていた場合に、領域境界であると判断する。領域境界の罫線候補は矩形領域の両端の境界部分となる。領域境界の場合(S05:yes)、ラン線分検出手段22は矩形領域の両端を罫線候補とする(S06)。
図9は、領域境界の罫線候補の設定例である。図9上段は、グループ化された黒画素の矩形領域である。黒画素の線分の幅66は6個の画素で構成される。ラン線分検出手段22は黒画素のグループから領域境界を生成する。例えば、ラン線分検出手段22予め、領域境界か否かを判別するための閾値情報として「4」の値を有するとする。ラン線分検出手段22は、黒画素の線分の幅となる画素数が「4」以上の場合に、領域境界であると判定する。領域境界であると判定されると図9の下段のように、矩形領域の上端の白画素と黒画素との境界を罫線候補67、および、矩形領域の下端の白画素と黒画素との境界を罫線候補68と判定する。
以上の処理では、ラン線分検出手段22は横方向の罫線候補を検出する。なお、ラン線分検出手段22は縦方向の罫線候補も検出する。ラン線分検出手段22が実行する処理は、縦罫線と横罫線の方向を変更すればよい。以上によりラン線分検出手段22は実線罫線および境界罫線のラン線分の罫線候補を抽出する。
次にエッジ線分検出手段23の処理を説明する。図10はエッジ抽出の説明図である。
エッジ抽出は黒画素が構成する直線92の両脇の画素境界91を線として抽出する。エッジ抽出では一本の画素が構成する直線92の両脇に二本の線分が抽出される。
エッジ線分検出手段23は、テクスチャ領域境界を抽出する機能を有するものが必要である。図11はエッジ抽出で検出するテクスチャ領域94の境界の説明図である。黒画素が不連続なテクスチャ領域94に対して、境界線95を検出する必要がある。本実施例では、Canny法と呼ばれるエッジ抽出方法を利用する。Canny法は、テクスチャ領域の細かな模様による画素値の変動は面塗り領域に重畳されたノイズだと考える。まず入力画像をガウシアンフィルタで平滑化して、この細かな模様をある程度一様な領域に広げる。その後、画素値の変化の値をソーベルフィルタ等で求め、その値の極大値をエッジ画素とする。最後に、エッジ画素の近傍で勾配の値が大きな画素を連結してエッジを連続した線画として求める。
図12はCanny法を利用したエッジ線分抽出手段の処理のフローチャートである。図13は図12のフローチャートでの各ステップの処理の状態を説明する図である。本実施例は、画像入力手段21が取得した文書画像データを最小値が0、最大値が255の濃淡画像とする。
エッジ線分検出手段23は、画像入力手段21が取得した図13の1101に示す文書画像データの各画素間を平滑化する(S11)。画像平滑化手段は、例えばガウシアンフィルタを用い、入力画像とガウシアンフィルタの畳み込み和により得られる。例えば入力画像をI(i,j)とし、フィルタ係数をF(i,j)とする。図14はガウシアンフィルタ係数1201の例である。平滑化変換後の画像をI’(i,j)とすると式(1)のような演算で実現できる。
フィルタの高さおよび幅をW(ここでは「5」である)とすると式(2)からwは「2」である。
Cは正規化定数である。この場合は図14のフィルタの各要素の係数を全て加えた値(C=159)を用いる。図13の状態1102は、状態1101が平滑化された状態である。
エッジ線分検出手段23は勾配値を求める(S12)。勾配値は平滑化したときの両隣の画素間の数値の差が大きい場合に該当する画素の勾配値は大きくなる。勾配値は、例えば、示すソーベルフィルタを用いて取得する。図15は横方向のエッジを検出するためのソーベルフィルタ1301である。図16は縦方向のエッジを検出するためのソーベルフィルタ1401である。例えば横方向の罫線候補を抽出する場合、図16の縦方向のエッジを検出するためのソーベルフィルタ1401を用いる。一方、縦方向の罫線候補を抽出する場合、図15の横方向のエッジを検出するためのソーベルフィルタ1301を用いる。エッジ線分検出手段23は具体的には式(1)のフィルタの係数に図15、図16を用いて定数Cは「1」として各画素を演算する。また、ラプラシアンフィルタによってエッジを求める方法もある。図13の状態1103は、状態1102から勾配値を取得した状態である。なお、状態1103を横方向からみると状態1104となる。
エッジ線分検出手段23は勾配値の極大点を取得する(S13)。エッジ線分検出手段23は、例えば、極大点の勾配値があらかじめ定めた閾値(例えば「1」などの任意の数値)より大きい場合、極大点がエッジを構成する画素であるとして確定する。あるいは、エッジ線分検出手段23は例えば勾配値が隣接する点の勾配値よりも大きな点を求めることで求まる。図13の状態1105は、状態1103から勾配値の極大点を取得した状態である。
エッジ線分検出手段23は、連続するエッジを検出する(S14)。例えば、エッジ線分検出手段23は、一般にヒステリシス処理と呼ばれている処理によって連続するエッジを検出する。具体的には、エッジ線分検出手段23は、確定したエッジを構成する画素の隣に未確定の画素があり、未確定の画素の勾配値が予め定めた閾値(例えば「2」)よりも大きい場合に隣接する未確定の画素がエッジを構成する画素であるとして確定する。
図17はヒステリシス処理によるエッジを構成する画素の特定の説明図である。ヒステリシス処理は状態1701から状態1702、状態1703、状態1704と変化する。各状態において黒画素1705はエッジを構成する画素として確定した画素、斜線の画素1706は未確定だが勾配値が予め定めた閾値よりも大きな画素である。エッジ線分検出手段23は黒画素1705に隣接した斜線の画素1706を順に確定する。状態1701では、領域1707および領域1708が黒画素1705と斜線の画素1706とが隣接する。黒画素1705と斜線の画素1706とが隣接する場合、エッジ線分検出手段23は斜線の画素1706を黒画素1705とする。状態1702では、領域1709で黒画素1705と斜線の画素1706とが隣接する。エッジ線分検出手段23は斜線の画素1706を黒画素1705とする。状態1703では、領域1710、1711に斜線の画素1706が存在する。領域1710、領域1711は黒画素1705と隣接していないため、削除する。以上の処理を、エッジを構成する画素の隣に勾配値が予め定めた閾値を越えるものが存在しなくなるまで続ける。処理が完了すると状態1704のエッジを検出する。図13の状態1106は、状態1105から連続するエッジが検出された状態である。
本来、Canny法によるエッジ検出では、勾配の極大点を求める際にその勾配の傾き方向を調べ、隣接画素の勾配値が予め定めた閾値を越えているか否かを勾配と直交した方向に沿って調べる。
しかし、本実施例では表を構成する縦横方向の罫線を求めることを目的とする。よって、エッジ線分検出手段23は横方向の罫線候補を抽出する処理の場合には縦方向の勾配の極大値を検出し、その後、横方向の隣接画素の勾配の極大値を順に調べれば良い。縦罫線を抽出する場合にはその逆である。
以上で求めたエッジ画素を黒画素とみなし、エッジ線分検出手段23は黒画素のグループ化を行う(S15)。次にエッジ線分検出手段23は境界罫線から罫線候補の検出を可能するため領域境界か否かを判別する(S16)。領域境界の場合(S15:yes)、エッジ線分検出手段23は矩形領域の両端を罫線候補とする(S17)。S15からS17の処理は、ラン線分検出手段22の説明と同様であるので省略する。
次に罫線候補抽出手段24について説明をする。図18は罫線候補抽出手段24が実行する処理のフローチャートである。
罫線候補抽出手段24はラン線分検出手段22によって検出したラン線分の罫線候補、およびエッジ線分検出手段23によって検出したエッジ線分の罫線候補の位置関係に基づいて、罫線候補から罫線と判断できる罫線情報を抽出する。罫線候補抽出手段24はラン線分検出手段22とエッジ線分検出手段23から得た罫線候補を重ね合わせ、ラン線分検出手段22の罫線候補とエッジ線分検出手段23の罫線候補との位置関係を取得する(S21)。
罫線候補抽出手段24は、S21で取得した位置関係が予め定めた位置関係の条件を満たすか否かを判定する(S22)。罫線候補抽出手段24は位置関係を満たす場合(S22:yes)、各罫線情報の種類に分類する(S23)。
ここで、位置関係の条件について説明する。図19は罫線候補の位置から判断される罫線情報の位置および種類との関係である。
元の文書画像データの罫線が実線罫線1901とする。実線罫線1901の場合、ラン線分検出手段22は罫線候補1902を検出する。また、エッジ線分検出手段23は罫線候補1903および罫線候補1904として2本の罫線候補を検出する。罫線候補を重ね合わせたときの位置関係は、エッジ線分検出手段23によって得られた罫線候補1903および罫線候補1904がラン線分検出手段22によって得られた罫線候補1902を挟む位置関係となる。エッジ線分がラン線分を挟む位置関係、すなわちラン線分の両隣にエッジ線分が隣接している場合、罫線候補抽出手段24は罫線候補を実線罫線であると判別する。
次に、元の文書画像データの罫線が境界罫線1905とする。境界罫線1905の場合、ラン線分検出手段22は罫線候補1906を検出する。また、エッジ線分検出手段23は罫線候補1907を検出する。罫線候補を重ね合わせたときの位置関係は、エッジ線分検出手段23によって得られた罫線候補1907とラン線分検出手段22によって得られた罫線候補1906とが隣接する位置関係となる。エッジ線分とラン線分とが一本ずつ隣接する位置関係の場合、罫線候補抽出手段24は罫線候補を境界罫線であると判別する。
次に、元の文書画像データの罫線がテクスチャ境界罫線1908とする。テクスチャ境界罫線1908の場合、ラン線分検出手段22は罫線候補を検出しない。一方、エッジ線分検出手段23は罫線候補1909を検出する。
罫線候補を重ね合わせたときの位置関係は、エッジ線分検出手段23によって得られた罫線候補1909が存在する位置関係となる。エッジ線分のみが存在する位置関係の場合、罫線候補抽出手段24は罫線候補をテクスチャ境界罫線であると判別する。
ここで、ラン線分検出手段22による罫線候補のラン線分の長さとエッジ線分検出手段23による罫線候補のエッジ線分の長さとが異なる場合、罫線候補抽出手段24は、例えば以下の判定を行う。ラン線分検出手段22あるいはエッジ線分検出手段23の何れか一方で検出した線分の長さが他方で検出した線分の長さの半分以上あればS22の位置関係の判定を行う。あるいはラン線分検出手段22あるいはエッジ線分検出手段23の何れか一方で検出した線分の長さが他方で検出した線分の半分の長さに未満の場合は長い方の線分のみを有効にする。
更に、例えばラン線分とエッジ線分が2本ずつ隣接しているような場合のような図19の条件に当てはまらない場合、罫線候補抽出手段24は、例えば、隣接した線分の中にラン線分が存在すれば実線罫線と判定し、全てがエッジ線分であればテクスチャ境界からの罫線候補と判定することにより罫線を検出することが可能である。
更に罫線の種類は他にも点線や二重線など様々なものが考えられる。よって、罫線候補の種類判定を拡張することも可能である。例えばエッジ線分の罫線候補が3本でラン線分の罫線候補が2本である場合で、かつ各罫線候補が交互に隣接する場合、罫線候補抽出手段24は文書画像の罫線を二重線と判定することができる。また、点線からはエッジ線分が抽出されやすいので、罫線候補抽出手段24はエッジ線分が単独で抽出され、かつ罫線候補の近傍が平坦領域である場合には点線である可能性が高いと判定することも可能である。
次に罫線情報生成手段25について説明する。図20は罫線情報生成手段25が実行する処理のフローチャートである。罫線情報生成手段25は罫線候補から罫線情報を生成する。具体的には不適切な罫線候補の削除や、罫線候補の統合、修正などを行う。入力された文書画像そのものが劣化している場合、表の罫線は掠れや変色などの影響を受けていることがある。元の文書画像の表の罫線の表示が正確ではない場合、罫線を構成する直線を抽出した結果が途中で途切れたり変形していたりするおそれがある。そこで、罫線情報生成手段25は、罫線を構成する直線の一部分または全体を表わす線分を抽出して罫線の候補とし、罫線候補のうち不要なものを削除したり、隣接した罫線候補を統合したりするなどの処理を行い、最終的な罫線抽出結果としての罫線情報を生成する。
罫線情報生成手段25は、罫線候補抽出手段24で抽出した罫線候補の種類に応じて予め設定したパラメータを設定する(S31)。パラメータは、罫線候補から罫線情報を生成する際に用いる。パラメータは、例えば2本の罫線候補が並行して存在する場合にそれらを統合して1本の罫線とみなすか否かの判定をするための閾値である。パラメータは罫線候補の種類によって最適な値は異なる。したがって、罫線情報生成手段25は、罫線候補の種類によって異なるパラメータの値を有する。
罫線情報生成手段25が有するパラメータの例としては以下が有る。罫線情報生成手段25は罫線候補の長さ情報と閾値との関係から罫線候補を罫線か否かを判定するものとする。パラメータはテクスチャ境界からの罫線候補を罫線と判定する閾値を罫線情報生成手段25が実線罫線および境界罫線からの罫線候補を罫線と判定する閾値の2倍に設定する。テクスチャ境界を罫線と判定するための閾値を大きくすることにより、テクスチャ境界罫線と認められるためには、実線境界あるいは境界罫線と比較して長い直線である必要がある。
閾値を大きくする理由は、テクスチャ境界罫線は実線罫線や境界罫線に比べて、位置が曖昧になり易いこと、また、ノイズも出やすいことがあるためである。さらに、閾値を大きくする理由は、テクスチャ境界のすぐ近くに別の罫線が存在するケースは実線罫線や境界罫線に比べて少ないことが一般的であるためである。
罫線情報生成手段25は、罫線候補の種類に応じて検出するためのパラメータを切り替えることにより、誤った罫線を抽出すること、および、途中で分断される罫線を防ぐことが可能になる。罫線情報生成手段25は、所定の条件を満たすか否かを判定する(S32)。罫線情報生成手段25は、所定の条件を満たすと判定した場合(S32:yes)、条件に応じた処理を実行する(S33)。以下に罫線情報生成手段25が実行する、統合処理、削除処理、修正処理について説明する。
ここで罫線情報生成手段25での近接した罫線候補を統合して一本の罫線情報を生成する処理を説明する。
罫線情報生成手段25は、罫線候補を統合して新たな罫線候補を生成すべきか否かを判定する。罫線候補の一部が変形している場合、罫線情報全体の罫線幅や長さを再計算する。罫線情報生成手段25は、座標値の再計算に限らず、罫線の座標や種類などの属性を最適な値に変換する。最適な値は例えば、罫線情報生成手段25が罫線候補間の距離が近い場合に近接する罫線候補を一本の罫線として統合すると判定する閾値は、罫線候補の少なくとも一方がテクスチャ境界罫線の場合には閾値の値を大きくする。この構成により、罫線情報生成手段25は、実線罫線の候補あるいは境界罫線の候補が統合されやすくなる調整を行うことができる。
図21は、罫線候補の統合の第一の説明図である。罫線候補の一部の区間が重なっている場合、罫線候補を統合する。2本の罫線候補231および罫線候補232の間の間隔d234が閾値Th1より小さい場合に罫線候補231および罫線候補232を統合して一本の罫線情報235に変換する。
図22は、罫線候補の統合の第二の説明図である。
罫線候補241および罫線候補242が平行ではなく直列に並ぶ位置関係である。2本の罫線候補241および罫線候補242の間の間隔d243が閾値Th2より小さい場合に両者を統合して一本の罫線情報244に変換する。
図23は、罫線候補の統合の第三の説明図である。
罫線候補251および罫線候補252が平行に並ぶ位置関係である。本実施例では閾値がTh3とTh4の2種類を用いる。罫線候補251及び252の短い罫線候補251の長さをL1とし、長い罫線候補252の長さをL2とする。2本の罫線候補251および罫線候補252の間の間隔d253が閾値Th3より小さい場合で罫線候補252の長さL2と罫線候補251の長さL1との比が閾値Th4との積よりも大きい場合、両者を統合して一本の罫線情報254に変換する。具体的には、罫線情報生成手段25は罫線候補251を削除する。罫線情報251の長さL1と罫線情報252の長さL2との関係は、L1がL2のノイズとみなせる程度にL2がL1より長い関係とする。
例えば、入力画像が200dpi程度である場合、Th1=8dot(約0.1mm)、Th2=16dot(約0.2mm)、Th3=8dot(約0.1mm)とし、Th4=5dot(約0.06mm)等に設定する。
また、罫線候補の別の削除基準として、罫線情報生成手段25は罫線候補の長さが閾値に達しないものを削除することも可能である。他の罫線候補と隣接していない場合でも、罫線情報生成手段25は長さが予め定めた閾値よりも短い罫線候補を削除する。例えば閾値を20と設定した場合、200dpiでは罫線候補の長さが約2.54mm未満の罫線候補を削除する。文書画像データ内の表を構成する罫線の長さはある一定の下限を持っていることが一般的であり、上記の閾値は文字から誤抽出された罫線候補と、罫線から抽出された罫線候補とを区別することが可能となる。
罫線情報生成手段25は、罫線情報の位置やサイズなどの属性を罫線候補から変更する。変更する場合、罫線情報生成手段25は、修正する画素を含む罫線候補が実線罫線、境界罫線あるいはテクスチャ境界罫線かの種類によって変更の有無を判別する機能を有する。例えばテクスチャ境界罫線の候補である場合、罫線情報生成手段25はテクスチャ境界罫線の候補に接する領域がテクスチャ領域かどうかを調べる。テクスチャ境界罫線の候補に接する領域の一方がテクスチャ領域である場合、あるいは、テクスチャ境界罫線の候補に接する両側の領域がそれぞれ別の種類のテクスチャ領域である場合のみ、罫線候補と判定するよう設定することが可能である。以下に具体的に説明する。
図24にテクスチャ境界の判定の説明図を示す。
状態2601はテクスチャ領域2603と白色領域2604とがあり、罫線候補抽出手段24によってテクスチャ境界の罫線候補2602が検出された状態である。
状態2605は白色領域内に文字列2607があり、エッジ検出手段23が文字列2607の下端をテクスチャ境界罫線の罫線候補2606を誤検出した状態である。横書きの連続した文字列の下端は、横軸上に揃うためエッジ検出手段23はテクスチャ境界であると誤認識する場合があるためである。文字列の包絡線はテクスチャ境界ではないが、文字列の包絡線部分の画像の特徴とテクスチャ境界であることを示す画像の特徴とはよく似ているためである。
そこで、罫線情報生成手段25は罫線の挟む領域がテクスチャ領域か否かを調べ、テクスチャ境界から得られた罫線候補か、文字列の包絡線から得られた罫線候補かを判定する。
なお、テクスチャ領域か否かの判定は、罫線候補の位置に実線が存在する場合、罫線候補の周辺の領域を調べただけでは罫線が無いという判定はできない。しかし本実施例では、罫線候補抽出手段24において罫線候補が実線罫線、境界罫線およびテクスチャ境界罫線の何れかであることの判定を行っているため、周辺領域の判別を行うことによる罫線の有無の判定が可能である。
テクスチャ領域か否かの判定としては、例えば罫線候補の両側のそれぞれの領域毎に黒画素をグループ化し、黒画素のグループのサイズの平均値によって判定するという方法がある。テクスチャ領域の黒画素グループのサイズは文字列の黒画素グループのサイズに比べて小さくなる。そのため、予め文字の場合の黒画素のグループのサイズの統計を測定し、文字とテクスチャとを切り分ける黒画素のグループのサイズの閾値を設ければテクスチャ領域と文字列との区別が可能である。
図24では、状態2601のテクスチャ領域の黒画素のグループのサイズ2609の平均値が8dotであり、状態2601の白色領域の黒画素のグループのサイズ2610の平均値が0dotであり、状態2605の文字列を含む白色領域の黒画素のグループのサイズ2611の平均値が100dotであり、状態2605のテクスチャ領域の黒画素のグループのサイズ2612の平均値が2dotである。ここで、テクスチャ領域か否かを判別するための閾値として黒画素グループのサイズを「50」と予め定めていたとする。
罫線情報生成手段25は、状態2601でのテクスチャ境界罫線の罫線候補2602を挟む領域2603と2604に含まれる黒画素グループのサイズと閾値とを比較する。サイズ2609および2610は閾値よりも小さい値である。よって罫線情報生成手段25は、罫線候補2602をテクスチャ境界罫線であると判別する。一方、罫線情報生成手段25は、状態2605でのテクスチャ境界罫線の罫線候補2606を挟む文字列2607を含む領域および領域2604に含まれる黒画素グループのサイズと閾値とを比較する。サイズ2611は閾値よりも大きい値である。よって罫線情報生成手段25は、罫線候補2606を文字列の下端を誤検出した線であると判別する。
次に罫線情報生成手段25が実行する修正処理について説明する。罫線の幅や高さが予め定めた条件を満たす場合に罫線候補を修正することも可能である。修正とは、例えば罫線情報生成手段25は境界罫線となる罫線候補またはテクスチャ境界罫線となる罫線候補の幅を最小値(例えば1dot)に設定する処理である。
予め定めた条件とは以下の例がある。例えば、領域境界から得られる罫線には論理的には幅は無いが、実際に罫線を抽出する処理で罫線の幅が生じる。したがって境界罫線であると判定した罫線候補について修正する処理を実行することが可能である。また、別の例としてラン線分検出手段22が実行する黒画素のグループ化処理において、図8の黒画素の矩形領域62によって罫線の幅が太くなってしまう場合がある。したがって、幅が太くなった罫線の幅を修正する処理の実行が可能である。
以上のように、罫線情報生成手段25は、罫線情報に変換される前の罫線候補の位置関係に基づいて罫線情報を判別し、罫線候補の種類に応じたパラメータを使用して罫線情報を判別する。この結果、罫線情報の抽出の精度が向上する。
次に、罫線以外を誤抽出した罫線候補の削除方法について説明する。誤抽出は画像中の文字など罫線ではない線分情報を誤って罫線であるとして抽出することである。実線罫線、境界罫線、テクスチャ境界罫線等の様々な種類の罫線を抽出すると誤抽出の影響が増加する。
削除手段26は罫線以外から誤抽出された罫線候補を不正な罫線候補と判別する必要がある。誤抽出された罫線候補は表の項目内の文字等である。図25は表283と表の項目内の文字列の大きさとの関係を示す図である。表283の内部の文字列280は、一般的に表を構成する項目領域内に収まる。したがって、表283の項目内の文字列280を誤抽出した罫線候補の縦方向の長さ284は、行を構成する項目の領域の高さ281よりも短い。表283の罫線は一般に行の上下に接続しているため行を構成する領域の高さよりも長い。表283の項目の幅方向283についても同様である。例えば、表283内の他の項目285、286および287の領域と他の項目285、286および287に書かれた文字列との大きさの関係も同様である。項目領域の高さ方向の大きさは、文字列の高さ方向の大きさよりも大きい値となる。したがって、表283を構成する各項目の領域を特定すれば、項目の高さ情報あるいは幅情報に基づいて項目内の罫線候補を削除するための適切な長さの閾値を決定することが可能である。以降の説明では、罫線候補を削除するか否かの判定を行う領域を罫線判定領域とする。
次に削除手段26が実行する処理について説明する。図26は削除手段26が実行する処理のフローチャートである。削除手段26は、罫線を削除するか否かの判別を行う領域を設定する(S41)。
削除手段26は、文書画像データ内の確定罫線を検出する。確定罫線を定める判断基準は、例えば予め定めた閾値よりも長い罫線を確定罫線と判定する。例えば入力された文書画像データが200dpiの解像度では、確定罫線の判断基準となる閾値は100dot程度(約12.7mm)であれば良い。長い罫線を確定罫線とすることは、不適当な罫線情報を罫線判定領域の設定に使用することを防止することができる。不適当な罫線情報は、例えば文字から誤検出した罫線のような罫線以外から抽出された罫線情報である。削除手段26は、確定罫線の集合から平行かつ隣り合う確定罫線の組を検出し、罫線判定領域を生成する。
図27に罫線判定領域の設定例を示す。本実施例の罫線判定領域は隣り合った長い罫線に挟まれた矩形領域とする。以降の説明では、罫線判定領域を特定するための罫線を確定罫線とする。図27上段の表2900は、横方向の長い罫線情報2901、2902、2903、2904を有する。また表2900は、縦方向の罫線として2905を有する。表2900の横方向の罫線については、各罫線情報の内、平行であってかつ隣り合う罫線情報の組は2901と2902、2902と2903、2903と2904である。各組で挟む領域は図27下段のように罫線判定領域2905、2906、2907となる。
なお、平行な確定罫線の組が図27のように同じ長さとは限らない。例えば確定罫線の組が部分的に平行している場合も有る。
図28は、文書画像データ内の確定罫線が部分的に平行する状態を示す説明図である。図28は、確定罫線311、312および313がある。確定罫線311、312および313はそれぞれ部分的に平行する。確定罫線311と312とは範囲316で平行に隣接する。確定罫線311と313とは範囲317で平行に隣接する。確定罫線311と312とが範囲316で構成する矩形領域は罫線判定領域314である。確定罫線311と313とが範囲317で構成する矩形領域は罫線判定領域315である。削除手段26は確定罫線の一部分が平行になっている場合、平行に隣接する部分のみを罫線判定領域として登録する。
次に削除手段26が実行する処理を説明する。図29は削除手段26が罫線判定領域を特定を設定する処理のフローチャートである。削除手段26は、任意の確定罫線を検出対象として特定する(S51)。図28では削除手段26は、確定罫線311を検出対象として特定する。削除手段26は、検出対象の確定罫線よりも文書画像データ内の下にあって横方向が平行に隣接する確定罫線を検出する(S52)。図28では削除手段26は、確定罫線311よりも下にあって横方向が平行に隣接する確定罫線312を検出する。削除手段26は、隣接する確定罫線を検出すると(S52:yes)、検出対象の確定罫線の隣接する確定罫線とのから形成される範囲の罫線判定領域を特定する(S53)。図28では削除手段26は、確定罫線312を検出すると(S52:yes)、範囲316が作る罫線判定領域314を特定する(S53)。
削除手段26は、S51で特定した検出対象の確定罫線の全ての横方向の範囲について検出処理を行っていない場合(S54:no)、残りの検出対象の確定罫線の横方向の範囲について再度検出処理を行う。図28では削除手段26は、確定罫線311の全ての横方向の範囲について検出処理を行っていない場合(S54:no)、残りの確定罫線311の横方向の範囲について再度検出処理を行う。図28では削除手段26は、範囲317について確定罫線311よりも下にあって範囲316について横方向が平行に隣接する確定罫線313を検出する。図28では削除手段26は、範囲317が作る罫線判定領域315を特定する。
一方、削除手段26は、検出対象の確定罫線の全ての横方向の範囲について検出処理を行った場合(S54:yes)、文書画像データ内の全ての確定罫線について隣接する確定罫線の検出が完了したか否かを判定する(S55)。図28では削除手段26は、確定罫線311の全ての横方向の範囲について検出処理を行った場合、文書画像データ内の全ての確定罫線について隣接する確定罫線の検出が完了したか否かを判定する。削除手段26は、文書画像データで特定された全ての確定罫線について以上の処理を行った場合(S55:yes)、罫線判定領域を登録して処理を完了する。
図26の説明に戻る。削除手段26は罫線判定領域に対応する罫線判定値を演算する(S42)。罫線判定値は罫線判定領域に含まれる罫線を真の罫線情報とするか否かを判別する閾値である。本実施例では罫線判定値は罫線の長さ情報である。削除手段26は罫線を判別する長さ情報に基づいて、罫線候補削除手段が不正な罫線を削除する。
削除手段26は罫線判定領域毎に長さ閾値を設定する。例えば、罫線判定領域の高さ情報を取得し、高さ情報より若干短い長さを閾値とする。例えば200dpiの画像であれば罫線判定領域の高さのdot数より20dot数程度短い長さである。または、例えば罫線判定領域内にある罫線候補の長さの頻度分布を求め、頻度分布の最大値を閾値とする、あるいは、頻度分布の最大値に対応する罫線候補の長さの2倍を閾値とするという方法がある。
次に、削除手段26は不適当な罫線情報を削除する(S43)。具体的には、削除手段26は平行な確定罫線により構成される罫線判定領域内の不適当な罫線情報を削除する。不適当な罫線情報はS42で算出した罫線を判別する長さ情報よりも短い長さの罫線情報である。本実施例では横方向の確定罫線情報の組によって構成される罫線判定領域内の不適当な縦方向の罫線情報を削除する。なお、S43の処理において、罫線情報は縦方向の罫線情報だけでなく横方向の罫線情報を削除する処理を行っても良い。不適当な罫線情報は文字情報を誤検出したものが多い。誤検出した文字の横方向および縦方向の長さは、同程度であるためである。
図30は削除手段26が不適当な罫線を削除する時の説明図である。図30の上段の表3401は、罫線情報生成手段25が生成した文書画像データ内の表の罫線情報である。表3401は、確定罫線3402、確定罫線3403、確定罫線3404、確定罫線3405、確定罫線3406、および確定罫線3407を有する。また表3401は、確定罫線3402と確定罫線3403とから罫線判定領域3408、確定罫線3403と確定罫線3404とから罫線判定領域3409、確定罫線3404と確定罫線3405とから罫線判定領域3410、確定罫線3403と確定罫線3406とから罫線判定領域3411、確定罫線3406と確定罫線3407とから罫線判定領域3412、および確定罫線3407と確定罫線3405とから罫線判定領域3413を有する。
図30の中段の表3420では、各罫線判定領域毎に定められた不適当な罫線情報を削除する長さを定めるための領域の高さが示される。各罫線判定領域毎に定められた不適当な罫線情報を削除する長さ情報は、それぞれ以下を基準として削除手段26が算出する。罫線判定領域3408については罫線判定領域3408の高さ3414を基準に算出する。罫線判定領域3409については罫線判定領域3409の高さ3415を基準に算出する。罫線判定領域3410については罫線判定領域3410の高さ3416を基準に算出する。罫線判定領域3411については罫線判定領域3411の高さ3417を基準に算出する。罫線判定領域3412については罫線判定領域3412の高さ3418を基準に算出する。罫線判定領域3413については罫線判定領域3413の高さ3419を基準に削除手段26が算出する。
それぞれの罫線判定領域毎に求められた罫線を判別する長さ情報によって、削除手段26はそれぞれの罫線判定領域内の罫線情報が適当か不適当かを判別する。具体的には罫線判定領域毎に求められた罫線を判別する長さ情報よりも短い罫線情報を削除する。図30の下段の表3420は、表3401の各領域内の罫線情報3402が削除された状態を示す。
なお、罫線生成手段25がパラメータを設定する際に、罫線判定領域を特定し、各罫線判定領域毎に適切なパラメータを設定することにより高精度な罫線抽出を行うことも可能である。例えば、テクスチャ領域の場合は罫線と判断する閾値を長くすることがある。
出力手段27は以上で得られた罫線情報を出力する。
以上により本実施例によって、入力画像中に実線、境界罫線、テクスチャ境界罫線を含む複数種の罫線が混在している場合でも、それぞれの罫線種類に応じて適切な罫線抽出処理を行うことができ、罫線抽出の精度を向上させることができる。これにより罫線抽出の誤り訂正作業の負担を軽減することができ、ユーザの作業工数の低減が可能になる。
また、表を構成する領域毎に不適当な罫線を削除するための閾値情報を変更することを可能としたため、表を構成する項目の大きさが異なる場合でも誤検出を防止することが可能となる。
従来は、ラン線分やエッジ線分をそれぞれ抽出して罫線候補を生成し、罫線候補からノイズ除去を行って罫線情報を生成し、最終的に得られた結果を統合する。つまりラン線分とエッジ線分は直接比較されることは無い。テクスチャ境界と実線境界とを検出するとエッジ抽出では線分候補としてテクスチャ境界で1本、実線境界で2本、合計3本の罫線候補が検出される。しかし、テクスチャ境界と実線境界とが近くにある場合、エッジ線分の間隔が近いため実線を構成する線分の組の対応付けが困難である。したがって、従来技術は検出した3本のエッジ線分のいずれを統合して実線に変換すべきかを判断することができない。また、従来技術としてラン線分抽出手段とエッジ線分抽出手段を並行して実行し、それぞれの罫線抽出結果を統合するという方法も考えられるが、同じ領域から競合する罫線候補が抽出された場合に片方を選ぶ必要があるなど、難しい判断が必要になることに変わりはない。以上のように、従来技術を組み合わせただけでは複数の種類の罫線が混在した画像からの罫線抽出を高精度に実行することは不可能である。
一方、本実施例では、ラン線分とエッジ線分を重ね合わせた結果から、一本の実線罫線に統合されるべきエッジ線分2本の間にラン線分が挟まる形になり、実線罫線と境界罫線とを正しく生成することができる。以上のように、罫線候補から罫線情報を生成する前にラン線分とエッジ線分とを比べることによって、複数の種類の罫線を高い精度で抽出することができる。更に、罫線候補の種類に応じて罫線生成パラメータを変更するため、精度よく罫線を抽出することができる。
本実施例の原理構成図である。 本実施例の表認識装置10のハードウェア構成図である。 本実施例で入力される文書画像データの表30である。 本実施例で表30から出力される表40である。 ランレングス処理の原理図である。 ラン線分検出手段22が実行する処理のフローチャートである。 ラン線分の候補の削除の状態を示す図である。 黒画素のグループ化の状態を説明する図である。 領域境界の罫線候補の設定例である。 エッジ抽出の説明図である。 エッジ抽出で検出するテクスチャ領域94の境界の説明図である。 Canny法を利用したエッジ線分抽出手段の処理のフローチャートである。 図12のフローチャートでの各ステップの処理の状態を説明する図である。 ガウシアンフィルタ係数1201の例である。 横方向のエッジを検出するためのソーベルフィルタ1301である。 縦方向のエッジを検出するためのソーベルフィルタ1401である。 ヒステリシス処理によるエッジを構成する画素の特定の説明図である。 罫線候補抽出手段24が実行する処理のフローチャートである。 罫線候補の位置から判断される罫線情報の位置および種類との関係である。 罫線情報生成手段25が実行する処理のフローチャートである。 罫線候補の統合の第一の説明図である。 罫線候補の統合の第二の説明図である。 罫線候補の統合の第三の説明図である。 テクスチャ境界の判定の説明図である。 表283と表の項目内の文字列の大きさとの関係を示す図である。 削除手段26が実行する処理のフローチャートである。 罫線判定領域の設定例である。 文書画像データ内の確定罫線が部分的に平行する状態を示す説明図である。 削除手段26が罫線判定領域を特定を設定する処理のフローチャートである 削除手段26が不適当な罫線を削除する時の説明図である
符号の説明
21 画像入力手段
22 ラン線分検出手段
23 エッジ線分検出手段
24 罫線候補抽出手段
25 罫線情報生成手段
26 削除手段
27 出力手段
10 表認識装置10
11 制御部11
12 入力手段12
13 出力手段13
14 記憶手段14
15 メモリ15
16 バス16

Claims (7)

  1. 表を含む文書画像を読み取って罫線を抽出する表認識装置の表認識プログラムであって、
    該表認識装置に
    ランレングス処理によって該文書内のラン線分情報を検出するステップ、
    エッジ抽出処理によって該文書内のエッジ線分情報を検出するステップ、
    該ラン線分情報および該エッジ線分情報の隣接する状態と罫線の候補の種類との関係を予め定めた条件に応じて該表の罫線の候補の種類を判別するステップ、
    罫線とするか否かを判別する条件情報を該罫線の候補の種類に応じて切り替えるステップ、
    該罫線の候補と該条件情報とから該表の罫線情報を求めるステップ、
    を実行させることを特徴とする表認識プログラム。
  2. 該ラン線分を挟むように該エッジ線分が隣接する位置関係となる領域を実線罫線候補と判定し、該ラン線分の片側に該エッジ線分が隣接する位置関係となる領域を境界罫線候補と判定し、および、該エッジ線分に隣接するラン線分が存在しない位置関係となる領域をテクスチャ境界候補と判定するステップを該表認識装置に実行させ、
    該テクスチャ境界候補を罫線と判定する長さの条件情報を該実線罫線候補および該境界罫線候補の長さの条件情報よりも長くした
    ことを特徴とする請求項1に記載の表認識プログラム。
  3. 求めた複数の罫線情報が平行でありかつ所定の距離以下のときに該複数の罫線情報を統合して新たな罫線情報を生成するステップを該表認識装置に実行させることを特徴とする請求項1に記載の表認識プログラム。
  4. 該新たな罫線情報を生成するステップを行う際、該実線罫線候補、該境界罫線候補および該テクスチャ境界候補に応じて該条件情報を切り替えるステップを該表認識装置に実行させることを特徴とする請求項3に記載の表認識プログラム。
  5. 罫線情報の中で予め定めた長さ以上の罫線情報を確定罫線情報とするステップ、
    平行して隣接する該確定罫線情報の組によって矩形領域を特定するステップ、
    該矩形領域内の罫線情報を罫線とするか否かを判定する長さ条件を該矩形領域の大きさによって決定するステップ、
    該長さ条件を超える該矩形領域内の罫線情報を罫線とするステップを該表認識装置に実行させることを特徴とする請求項1記載の表認識プログラム。
  6. 表を含む文書画像を読み取って罫線を抽出する表認識方法であって、
    コンピュータが、
    ランレングス処理によって該文書内のラン線分情報を検出し、
    エッジ抽出処理によって該文書内のエッジ線分情報を検出し、
    該ラン線分情報および該エッジ線分情報の隣接する状態と罫線の候補の種類との関係を予め定めた条件に応じて該表の罫線の候補の種類を判別し、
    罫線とするか否かを判別する条件情報を該罫線の候補の種類に応じて切り替え、
    該罫線の候補と該条件情報とから該表の罫線情報を求める
    ことを特徴とする表認識方法。
  7. 表を含む文書画像を読み取って罫線を抽出する表認識装置であって、
    ランレングス処理によって該文書内のラン線分情報を検出し、
    エッジ抽出処理によって該文書内のエッジ線分情報を検出し、
    該ラン線分情報および該エッジ線分情報の隣接する状態と罫線の候補の種類との関係を予め定めた条件に応じて該表の罫線の候補の種類を判別し、
    罫線とするか否かを判別する条件情報を該罫線の候補の種類に応じて切り替え、
    該罫線の候補と該条件情報とから該表の罫線情報を求める
    ことを特徴とする表認識装置。
JP2007035707A 2007-02-16 2007-02-16 表認識プログラム、表認識方法および表認識装置 Active JP4835459B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007035707A JP4835459B2 (ja) 2007-02-16 2007-02-16 表認識プログラム、表認識方法および表認識装置
US12/071,050 US8582888B2 (en) 2007-02-16 2008-02-14 Method and apparatus for recognizing boundary line in an image information
CN2008100055672A CN101246549B (zh) 2007-02-16 2008-02-15 用于识别图像信息中的边界线的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007035707A JP4835459B2 (ja) 2007-02-16 2007-02-16 表認識プログラム、表認識方法および表認識装置

Publications (2)

Publication Number Publication Date
JP2008198157A true JP2008198157A (ja) 2008-08-28
JP4835459B2 JP4835459B2 (ja) 2011-12-14

Family

ID=39706708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007035707A Active JP4835459B2 (ja) 2007-02-16 2007-02-16 表認識プログラム、表認識方法および表認識装置

Country Status (3)

Country Link
US (1) US8582888B2 (ja)
JP (1) JP4835459B2 (ja)
CN (1) CN101246549B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282270A (ja) * 2009-06-02 2010-12-16 Takenaka Komuten Co Ltd 部材情報管理システム
JP2013084071A (ja) * 2011-10-07 2013-05-09 Hitachi Computer Peripherals Co Ltd 帳票認識方法および帳票認識装置
JP2016184914A (ja) * 2015-03-27 2016-10-20 京セラドキュメントソリューションズ株式会社 画像処理装置
JP2017097805A (ja) * 2015-11-27 2017-06-01 日本電信電話株式会社 罫線枠補正方法、罫線枠補正装置および罫線枠補正プログラム

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5208540B2 (ja) * 2008-02-27 2013-06-12 株式会社Pfu 画像ファイル振分方法、画像ファイル振分装置、および、プログラム
US20100157353A1 (en) * 2008-12-22 2010-06-24 John Thomas Writt Method and Image Forming Device for Generating Print Output
JP5385372B2 (ja) * 2009-03-31 2014-01-08 富士通フロンテック株式会社 文字認識装置及び文字認識方法
US9047653B2 (en) 2010-08-24 2015-06-02 Hewlett-Packard Development Company, L.P. Stitched digital images
US8411161B2 (en) * 2010-10-04 2013-04-02 Sony Corporation Apparatus for automatic estimate of the angle in tilted images for level correction
US20120092374A1 (en) * 2010-10-19 2012-04-19 Apple Inc. Systems, methods, and computer-readable media for placing a representation of the captured signature in a document
JP5724454B2 (ja) * 2011-02-25 2015-05-27 村田機械株式会社 画像処理装置及び画像処理方法
CN102929843B (zh) * 2012-09-14 2015-10-14 《中国学术期刊(光盘版)》电子杂志社有限公司 一种文字编改系统及编改的方法
CN103905685B (zh) * 2012-12-25 2017-09-29 联想(北京)有限公司 一种辅助移动终端进行扫描的外围设备及扫描方法
JP5822865B2 (ja) * 2013-04-25 2015-11-25 京セラドキュメントソリューションズ株式会社 画像処理装置、罫線判定方法、及び罫線判定プログラム
JP5860434B2 (ja) * 2013-05-21 2016-02-16 京セラドキュメントソリューションズ株式会社 画像形成システム、ログ画像抽出プログラムおよび画像形成装置
US9171203B2 (en) * 2013-09-10 2015-10-27 Dropbox, Inc. Scanbox
CN104424475B (zh) * 2013-09-10 2018-05-01 阿里巴巴集团控股有限公司 图像中的条纹区域的识别方法及装置
KR101338138B1 (ko) * 2013-10-18 2013-12-06 주식회사 아나패스 전환 영역 검출 방법 및 이를 이용한 영상 처리 장치
CN104680506A (zh) * 2013-11-28 2015-06-03 方正国际软件(北京)有限公司 一种分方向边界线检测方法及系统
CN103729850B (zh) * 2013-12-31 2017-01-11 楚天科技股份有限公司 一种在全景图中提取直线的方法
RU2604668C2 (ru) * 2014-06-17 2016-12-10 Общество с ограниченной ответственностью "Аби Девелопмент" Визуализация машинно-генерируемого изображения документа
KR101637716B1 (ko) * 2014-11-03 2016-07-07 현대자동차주식회사 차량의 장애물 위치 인식 장치 및 방법
GB2553005B (en) * 2016-08-19 2022-04-13 Apical Ltd Method of line detection
WO2018120238A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 用于处理文档的设备、方法和图形用户界面
JP7006009B2 (ja) * 2017-08-15 2022-01-24 富士フイルムビジネスイノベーション株式会社 画像識別装置及び画像形成プログラム
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN109559344B (zh) 2017-09-26 2023-10-13 腾讯科技(上海)有限公司 边框检测方法、装置及存储介质
JP6748857B2 (ja) * 2017-09-29 2020-09-02 パナソニックIpマネジメント株式会社 載置検出システム
CN109724776B (zh) * 2017-10-30 2021-07-20 中冶长天国际工程有限责任公司 一种烧结机台车的篦条损坏程度的确定方法及装置
CN108732148B (zh) * 2018-05-09 2023-12-22 冶金自动化研究设计院 一种荧光磁粉探伤在线检测装置及方法
CN109035276B (zh) * 2018-06-26 2022-03-18 北京中科慧眼科技有限公司 一种图像边缘提取方法、装置及自动驾驶系统
CN108712616B (zh) * 2018-08-14 2020-06-09 浙江大丰实业股份有限公司 侧光吊笼侧光检测机构
CN109522816B (zh) * 2018-10-26 2021-07-02 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN109614923B (zh) * 2018-12-07 2022-06-21 上海智臻智能网络科技股份有限公司 Ocr文档识别方法及其装置
KR102226843B1 (ko) * 2019-02-26 2021-03-12 주식회사 핀그램 오브젝트 검출 시스템 및 그 방법
CN110147765B (zh) * 2019-05-21 2021-05-28 新华三信息安全技术有限公司 一种图像处理方法及装置
CN111553187B (zh) * 2020-03-20 2023-06-02 广联达科技股份有限公司 识别cad图纸中表格的方法及系统
JP7439656B2 (ja) * 2020-06-15 2024-02-28 富士通株式会社 生成プログラム、生成方法、生成装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06150060A (ja) * 1992-11-12 1994-05-31 Ricoh Co Ltd 画像傾き検出方法及び表処理方法
JPH06337960A (ja) * 1993-05-28 1994-12-06 Matsushita Electric Ind Co Ltd 表認識装置
JPH0714000A (ja) * 1993-06-25 1995-01-17 Matsushita Electric Ind Co Ltd 表認識装置
JP2004127203A (ja) * 2002-07-30 2004-04-22 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004240500A (ja) * 2003-02-03 2004-08-26 Ricoh Co Ltd 画像処理装置、画像処理プログラムおよび記憶媒体
JP2005234845A (ja) * 2004-02-19 2005-09-02 Ricoh Co Ltd 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217583A (ja) 1988-02-25 1989-08-31 Matsushita Electric Ind Co Ltd 罫線認識装置
JPH0262671A (ja) * 1988-08-30 1990-03-02 Toshiba Corp カラー編集処理装置
DE69419439T2 (de) * 1993-01-11 1999-12-16 Canon Kk Gerät und Verfahren zur Bewegungserfassung
US5987173A (en) * 1995-03-27 1999-11-16 Nippon Steel Corporation Interactive drawing recognition processing method and apparatus thereof
JP3622347B2 (ja) 1996-07-29 2005-02-23 松下電器産業株式会社 帳票認識装置
US6317220B1 (en) * 1996-12-06 2001-11-13 Seiko Epson Corporation Image forming apparatus capable of preventing linear nonuniformity and improving image quality
US6963661B1 (en) * 1999-09-09 2005-11-08 Kabushiki Kaisha Toshiba Obstacle detection system and method therefor
JP3785061B2 (ja) * 2000-10-27 2006-06-14 三菱重工業株式会社 荷役クレーンにおけるコンテナ位置検知方法及び装置並びにコンテナ着床、段積制御方法
JP4704601B2 (ja) * 2000-11-01 2011-06-15 富士通株式会社 文字認識方法,プログラム及び記録媒体
JP2002158921A (ja) * 2000-11-20 2002-05-31 Fuji Photo Film Co Ltd 画像位置確認装置、画像位置確認支援方法及び記録媒体
US7170633B2 (en) * 2001-01-23 2007-01-30 Minolta Co., Ltd. Imaging apparatus
JP2002257679A (ja) * 2001-02-23 2002-09-11 Internatl Business Mach Corp <Ibm> 輝度情報取得方法、画質評価方法、表示装置の輝度情報取得装置および表示装置の画質評価装置
JP4196845B2 (ja) * 2003-03-31 2008-12-17 セイコーエプソン株式会社 画像処理装置
JP5124102B2 (ja) * 2006-05-16 2013-01-23 Hoya株式会社 内視鏡プロセッサ、画像処理プログラム、および内視鏡システム
US8023725B2 (en) * 2007-04-12 2011-09-20 Samsung Electronics Co., Ltd. Identification of a graphical symbol by identifying its constituent contiguous pixel groups as characters

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06150060A (ja) * 1992-11-12 1994-05-31 Ricoh Co Ltd 画像傾き検出方法及び表処理方法
JPH06337960A (ja) * 1993-05-28 1994-12-06 Matsushita Electric Ind Co Ltd 表認識装置
JPH0714000A (ja) * 1993-06-25 1995-01-17 Matsushita Electric Ind Co Ltd 表認識装置
JP2004127203A (ja) * 2002-07-30 2004-04-22 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004240500A (ja) * 2003-02-03 2004-08-26 Ricoh Co Ltd 画像処理装置、画像処理プログラムおよび記憶媒体
JP2005234845A (ja) * 2004-02-19 2005-09-02 Ricoh Co Ltd 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282270A (ja) * 2009-06-02 2010-12-16 Takenaka Komuten Co Ltd 部材情報管理システム
JP2013084071A (ja) * 2011-10-07 2013-05-09 Hitachi Computer Peripherals Co Ltd 帳票認識方法および帳票認識装置
JP2016184914A (ja) * 2015-03-27 2016-10-20 京セラドキュメントソリューションズ株式会社 画像処理装置
JP2017097805A (ja) * 2015-11-27 2017-06-01 日本電信電話株式会社 罫線枠補正方法、罫線枠補正装置および罫線枠補正プログラム

Also Published As

Publication number Publication date
US20080199082A1 (en) 2008-08-21
US8582888B2 (en) 2013-11-12
JP4835459B2 (ja) 2011-12-14
CN101246549B (zh) 2012-07-25
CN101246549A (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
JP4835459B2 (ja) 表認識プログラム、表認識方法および表認識装置
JP3833153B2 (ja) 画像処理方法及び装置
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
US8224114B2 (en) Method and apparatus for despeckling an image
US8041139B2 (en) Method and apparatus for calculating the background color of an image
JP4232800B2 (ja) ラインノイズ除去装置、ラインノイズ除去方法、ラインノイズ除去プログラム
US11004194B2 (en) Inspection device, image forming apparatus, and inspection method
JP2007028362A (ja) 背景画像と目的画像が混在する画像データを処理するための装置及び方法
JP4522468B2 (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
JP4902603B2 (ja) 画像データの特徴を特定する方法及びシステム
US8014574B2 (en) Character noise eliminating apparatus, character noise eliminating method, and character noise eliminating program
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
US6256408B1 (en) Speed and recognition enhancement for OCR using normalized height/width position
US8600175B2 (en) Apparatus and method of processing image including character string
Verma et al. Removal of obstacles in Devanagari script for efficient optical character recognition
KR100513784B1 (ko) 영상 개선 방법 및 장치
JP5011508B2 (ja) 文字列認識方法及び文字列認識装置
US11611678B2 (en) Image processing apparatus and non-transitory computer readable medium
US20090245658A1 (en) Computer-readable recording medium having character recognition program recorded thereon, character recognition device, and character recognition method
JP6144892B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP5145862B2 (ja) 画像処理プログラムおよび画像処理装置
JP6935832B2 (ja) 画像処理システム
US8432555B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110912

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4835459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150