JP2004110398A - 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置 - Google Patents
文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置 Download PDFInfo
- Publication number
- JP2004110398A JP2004110398A JP2002271979A JP2002271979A JP2004110398A JP 2004110398 A JP2004110398 A JP 2004110398A JP 2002271979 A JP2002271979 A JP 2002271979A JP 2002271979 A JP2002271979 A JP 2002271979A JP 2004110398 A JP2004110398 A JP 2004110398A
- Authority
- JP
- Japan
- Prior art keywords
- area
- character
- document image
- image feature
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
【課題】文書の方向判別等の文章画像の知りたい主要な特徴の種類に応じて、抽出された表領域や文字領域等の各領域の優先度を決め、決められた優先度の高い領域の順に所定の処理を施して文章画像の主要な特徴を知るようにした文書画像特徴検出方法、装置、プログラム、および記録媒体を提供すること。
【解決手段】抽出された表領域や文字領域等の各領域に所定の処理を施すことによって文書画像の主要な特徴を知る文書画像特徴検出方法において、前記文書画像から文書を構成する表領域、本文からなる文字領域、および本文以外の複数種類の文字領域なる領域を抽出する工程と、前記文章画像の知りたい主要な特徴の種類に応じて優先度が設定されている前記抽出された各領域について優先度を判定する工程と、前記判定された優先度の高い領域の順に前記所定の処理を施して前記文章画像の主要な特徴を知る工程とからなることを特徴とする。
【選択図】 図2
【解決手段】抽出された表領域や文字領域等の各領域に所定の処理を施すことによって文書画像の主要な特徴を知る文書画像特徴検出方法において、前記文書画像から文書を構成する表領域、本文からなる文字領域、および本文以外の複数種類の文字領域なる領域を抽出する工程と、前記文章画像の知りたい主要な特徴の種類に応じて優先度が設定されている前記抽出された各領域について優先度を判定する工程と、前記判定された優先度の高い領域の順に前記所定の処理を施して前記文章画像の主要な特徴を知る工程とからなることを特徴とする。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、OCR等の前処理部で使用される文字認識のための文書画像特徴検出方法、装置、プログラム、および記録媒体に関し、特に、文書の方向判別等の文章画像の知りたい主要な特徴の種類に応じて、抽出された表領域や文字領域等の各領域の優先度を決め、決められた優先度の高い領域の順に所定の処理を施して前記文章画像の主要な特徴を知ることを可能にした文書画像特徴検出方法、装置、プログラム、および記録媒体に関する。
【0002】
【従来の技術】
従来、文書画像の主要な特徴を知るための処理の一例として、文書の方向を判別するための技術が特許文献1に開示されている。これは、文字認識の確信度を利用して、高確信度が得られた方向の分布を利用して文書の方向を判別するものである。
【0003】
【特許文献1】
特開2000−113103号公報(第4−5頁、図1−図2)
【0004】
【発明が解決しようとする課題】
しかし、上記公報に開示されている文書方向の判別方法では、例えば、表とそのキャプションしかない文書画像の場合、キャプションが表に優先され、キャプションの文字方向を参照して文書の方向を判定してしまう。このキャプションが正常なものであれば問題はないが、定型フォームの番号等が記録されているような少ない文字列が、本文より優先されて文書の方向を判定してしまう場合がある。
【0005】
また、FAX受信等において、TTI(発信元の名前や発信日時)の情報が文書の先頭に来るような場合、この情報に基づいて方向を判別してしまうと、この情報がこの情報以降にある本文の文字方向と異なる場合、誤った方向判別をしてしまう。
このような問題を回避するために、全ての文字領域について方向判別のための処理を行うことも考えられるが、それでは判別処理に時間を要してしまう。
【0006】
本発明の目的は、上記の問題点に鑑み、文書の方向判別等の文章画像の知りたい主要な特徴の種類に応じて、抽出された表領域や文字領域等の各領域の優先度を決め、決められた優先度の高い領域の順に所定の処理を施して文章画像の主要な特徴を知るようにした文書画像特徴検出方法、装置、プログラム、および記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
本発明は、上記の課題を解決するために、次のような手段を採用した。
第1の手段は、抽出された表領域や文字領域等の各領域に所定の処理を施すことによって文書画像の主要な特徴を知る方法において、前記文書画像から文書を構成する表領域、本文からなる文字領域、および本文以外の複数種類の文字領域なる領域を抽出する工程と、前記文章画像の知りたい主要な特徴の種類に応じて優先度が設定されている前記抽出された各領域について優先度を判定する工程と、前記判定された優先度の高い領域の順に前記所定の処理を施して前記文章画像の主要な特徴を知る工程とからなることを特徴とする文書画像特徴検出方法である。
【0008】
第2の手段は、第1の手段において、前記本文以外の複数種類の各文字領域(キャプション、ヘッダー、フッター)の優先度は、前記知りたい主要な特徴の種類に応じて任意に変更可能に設定されていることを特徴とする文書画像特徴検出方法である。
【0009】
第3の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の面積の大きさの順に高く設定されていることを特徴とする文書画像特徴検出方法である。
【0010】
第4の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の文字数の多い順に高く設定されていることを特徴とする文書画像特徴検出方法である。
【0011】
第5の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の行数の多い順に高く設定されていることを特徴とする文書画像特徴検出方法である。
【0012】
第6の手段は、第5の手段において、前記行数は、行方向と対角な向きに行の投影をとり、その投影値が所定の閾値より大きいときに行であることを識別し、識別された数を計数することによって得られることを特徴とする文書画像特徴検出方法である。
【0013】
第7の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の文字サイズの大きさの順に設定されていることを特徴とする文書画像特徴検出方法である。
【0014】
第8の手段は、第7の手段において、前記文字サイズは、文字領域と対角な向きに各文字の投影をとり、その投影値が所定の閾値より大きいときに行であることを識別することによって得られることを特徴とする文書画像特徴検出方法である。
【0015】
第9の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、文字領域画像全体の基準文字サイズを推定し、該基準文字サイズに対する前記各領域の文字サイズの比率の大きさの順に設定されていることを特徴とする文書画像特徴検出方法である。
【0016】
第10の手段は、第1の手段において、前記表領域や文字領域等の各領域の先頭行の優先度は、前記知りたい主要な特徴の種類に応じて異なるように設定されていることを特徴とする文書画像特徴検出方法である。
【0017】
第11の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、文書中に最も多い行方向を持つ領域の順に設定されていることを特徴とする文書画像特徴検出方法である。
【0018】
第12の手段は、前記表領域や文字領域等の各領域の優先度の順位は、前記第の2手段ないし第11の手段のいずれか2つの請求項に記載の文書画像特徴検出方法を組み合わせて用いることを特徴とする文書画像特徴検出方法である。
【0019】
第13の手段は、第1の手段ないし第12の手段のいずれか1つの手段に記載の文書画像特徴検出方法の各工程を実行するためのプログラムである。
【0020】
第14の手段は、第13の手段に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0021】
第15の手段は、第13の手段に記載のプログラムを搭載したことを特徴とする文書画像特徴検出装置である。
【0022】
【発明の実施の形態】
以下に、本発明の一実施形態を図1ないし図4を用いて説明する。
図1は、本発明の実施形態に係る文書画像特徴検出装置の構成を示すブロックである。
同図において、スキャナー1は文書画像原稿を光学的に読み取り、電気信号である文書画像データに変換して、メモリ3に格納する。CPU2は、本発明に係る処理プログラムを格納しているプログラム格納ROM/RAM7から、またはCD−ROM/FDの記憶媒体からCD−ROM/FDドライブ5によって、処理プログラムを読み出し、ワークエリアRAM6において、メモリ3に格納されている文書画像データが読み出し、文書画像データに対する分割処理や画像処理を実行する。処理された文書画像データはCPU2の指示により、メモリ3に格納され、必要に応じてディスプレイ4に表示したり、印字装置8によって出力する。
【0023】
図2は、上記文書画像特徴検出装置における上記処理プログラムの処理手順を示すフローチャートである。
以下では、文章画像の知りたい主要な特徴として、文書の方向判別を例にして説明する。まず、前記メモリ3から文書画像データを読み出し、ステップ1にて、文書画像の領域を識別し、文字領域や表領域等の文書を構成する要素毎に領域を分割処理する。ここで、領域識別の手法としては、例えば、特許第3253356号に開示されているような文書画像の領域識別方法が用いられが、この手法に限定されるものではない。
【0024】
領域分割された後は、文字領域については本文、キャプション、ヘッダー、フッター等の詳細な分類が施され、読み順が付けられる。ここで読み順の設定方法としては、特許第3269918号に開示されているような文章画像の読み順設定方法等の公知の方法が採用される。
【0025】
ステップ2では、文章画像の知りたい主要な特徴の種類に応じて決められている優先順位に従って、ここでは、例えば文書の方向判別する際に決められている優先順位に従って、分割処理された各領域について、即ち、表領域や文字領域、さらに文字領域については本文、キャプション、ヘッダー、フッターについて、優先順位を決定する。ここで、優先順位を付ける手法としては、特開2000−113103号公報に開示されてい公知の方法が採用される。
【0026】
ステップ3では、優先順位の高い領域が選択され、ステップ4では、その選択された領域について、その領域の特徴抽出の処理が行われる。文書の方向判別について言うと、領域の文書画像から文字を抽出し、この文字を複数の方向について認識処理し、この認識処理によって得られた確信度を基に、前記文字を方向判別に採用するか否かを判定し、前記方向判定に採用された複数の文字について方向判定結果の頻度分布を基に、文書画像の方向を判定する。
【0027】
ステップ5では、領域の特徴抽出の処理が不十分と判定された時は、ステップ3にて次に優先順位の高い領域が選択され、ステップ4以降の処理が再び行われる。
【0028】
次に、上記の表領域や文字領域等の各領域の優先度の順位の決定法の幾つかのの例について述べる。
第1の方法は、本文以外の複数種類の各文字領域(キャプション、ヘッダー、フッター)に応じて優先度を決める方法であり、この方法は、知りたい主要な特徴の種類に応じて優先度を任意に変更することが可能である。主要な用途としては、文書方向の判別に有効である。
【0029】
第2の方法は、文字領域の面積の大小を利用して優先度を決める方法であり、この方法によれば、例えば、大きな表領域は面積が大きいので、本文部分の領域面積が小さいときに、表領域を優先させることができる。この方法では、キャプション等しかない場合も、表を優先させることができる。その結果、従来技術の欠点である、表領域より文字領域を優先させることに固定してしまうことによる、キャプション、ヘッダー等の文字方向に影響されることを防ぐことができる。この方法では、大きな面積を占めているものが文書の特徴として優先されるので、使用者にも理解し易いものとなる。
【0030】
第3の方法は、文字数の多少を利用して優先度を決める方法であり、この方法によれば、領域の面積が大きくても、その領域に包含される文字が非常に大きい場合は、文字数が減ることになる。例えば、タイトル等の抽象的な文書特徴を知りたい場合には、この方法によって優先度を決めることが有効である。
【0031】
また、文書方向を判別したいような場合には、処理面積の割にはデータが得られにくいので、優先度の決定方法としては採用し難い。その理由は、通常の処理、例えば、文字認識では、処理面積と処理時間はほぼ比例する関係にあるので、処理がかかる割に、得られるデータが少ないため有効な方法とはいえないからである。
この方法によれば、例えば、文字数が多いものの優先度を高めたときは、文書方向の判別には適している。
【0032】
第4の方法は、行数の多少を利用して優先度を決める方法であり、この方法は、上記第3の方法とほぼ同様の理由で利用される。なお、行数の検出は、文字認識を行う過程で通常利用される多くの公知技術あるが、重要なことは正確でなくても、高速に処理されることにある。
【0033】
図3は、行数の検出方法の一例を示す図であり、同図に示すように、各行が水平行であれば、垂直方向に射影をとり、総画素数からしきい値をダイナミックに求め、その範囲内を文字行と判断して、行数を検出するものであある。この検出方法は、比較的高速に処理することができ大凡の行数を検出するのに適している。
【0034】
第5の方法は、文字サイズの大小を利用して優先度を決める方法であり、この方法も、上記第3の方法とほぼ同様の理由で利用される。なお、文字サイズの検出は、行を抽出して、その行の高さを文字サイズとすることによって高速に文字サイズを検出することができる。
文字サイズ検出方法としては多くの公知技術があるが、図3に示した検出方法を用いることができる。この検出方法を用いると、第4の方法と第5の方法を共通化できるので、1つの処理で2つの処理が可能となる。
【0035】
第6の方法は、文字領域全体の基準文字サイズを推定し、該基準文字サイズに対する各領域の文字サイズの比率の大きさの順に優先度を決める方法である。 ここで、基準文字サイズは通常文書画像中の最頻の文字サイズ付近に自動設定するようにする。基準文字サイズの検出方法としては、特開平7−37036号公報に記載の標準文字サイズの検出方法が利用できる。標準文字サイズを基準文字サイズとした場合、基準文字サイズに近いということは本文文字サイズと同等ということであり、本文の把握をその文書画像の主要な特徴とする場合は、基準文字サイズに対する比率が1に近い程優先度を高く付ければよい。
【0036】
逆に基準文字サイズに対して比率が大きくなる場合は、タイトルや要点の把握を主要な特徴とする場合に、この比率によって優先順位を決めると有効である。タイトルや要点を示す文書特徴を利用する先行技術としては、特願2001−98915の文書画像のタイトル抽出方法等がある。
【0037】
第7の方法は、表領域や文字領域等の各領域の先頭行の優先度を、知りたい主要な特徴の種類に応じて異なるように設定する方法である。この方法は、例えば、従来技術の欠点である、FAX受信等で付加されるTTI(発信元の名前や発信日時)の情報が先頭に来ることにより、それ以降の本文の向きとは別に文書方向を決めてしまう弊害を回避するためのものである。
【0038】
この方法は、文字領域の優先度が付いた後に、その内部を処理しようとするときに、先頭行(端の行)を特別視しようとするもので、例えば、タイトルや要点を抽出することを主要な特徴とするときに、この優先順位を上げることが考えられる。一方、文章方向判別では、画像端にある文字領域の先頭行は優先順位を下げることが望ましい。
【0039】
第8の方法は、行方向を利用して優先度を決める方法であり、この方法は、領域分割をする際に、文字領域はその行方向が分かるので、その行方向の頻度を取り、水平と垂直のどちらが主たる行方向であるかを判定し、主たる行方向を持つ文字領域の優先度を上げるものである。
【0040】
第9の方法は、第1の方法ないし第8の方法のうち、2つ以上の方法を組み合わせて優先度を決める方法である。
【0041】
図4は、第1の方法ないし第8の方法のうち、2つ以上の方法を組み合わせて領域の優先度を上げて、文書画像の主要な特徴を抽出するためのフローチャートである。
ステップ11にて、まず、基準文字サイズを抽出する。次に、ステップ12にて、領域の種類に関する優先順位を決定し、ステップ13で、各領域内の文字サイズによる優先順位を決定し、ステップ14にて、各領域内の行数による優先順位を決定する。さらに、ステップ15にて、上記ステップ12からステップ14にて決定されたそれぞれの優先順位に特定の計数を掛けて加算し、総合優先順位を決定する。ステップ16では、ステップ15によって決定された優先順位が1位の領域が、領域の上下左右の端に位置する場合は、最初の1行を除いて、文書画像の主要な特徴を抽出するための処理を行う。
【0042】
【発明の効果】
請求項1に記載の発明によれば、文書画像を領域分割した結果から、その文書画像中の主要な特徴を抽出する領域の優先順位を決定することができるので、高速度で精度よく文書画像中の特徴を抽出することが可能となる。
請求項2ないし請求項12に記載の発明によれば、抽出すべき文書画像の主要な特徴に応じて、種々の優先度の決定法を選択することができる。
請求項13ないし請求項15の発明によれば、請求項1ないし請求項12に記載の文書画像特徴検出方法を文書画像特徴検出装置や任意のコンピュータにおいて容易に実行することができるようになる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る文書画像特徴検出装置の構成を示すブロックである。
【図2】文書画像特徴検出装置における上記処理プログラムの処理手順を示すフローチャートである。
【図3】行数や文字サイズの検出方法の一例を示す図である。
【図4】第1の方法ないし第8の方法のうち、2つ以上の方法を組み合わせて領域の優先度を上げて、文書画像の主要な特徴を抽出するためのフローチャートである。
【符号の説明】
1・・・スキャナー、2・・・CPU、3・・・メモリ、4・・・ディスプレイ、5・・・CD−ROM/FDドライブ、6・・・ワークエリアRAM、7・・・プログラム格納ROM/RAM、8・・・印字装置。
【発明の属する技術分野】
本発明は、OCR等の前処理部で使用される文字認識のための文書画像特徴検出方法、装置、プログラム、および記録媒体に関し、特に、文書の方向判別等の文章画像の知りたい主要な特徴の種類に応じて、抽出された表領域や文字領域等の各領域の優先度を決め、決められた優先度の高い領域の順に所定の処理を施して前記文章画像の主要な特徴を知ることを可能にした文書画像特徴検出方法、装置、プログラム、および記録媒体に関する。
【0002】
【従来の技術】
従来、文書画像の主要な特徴を知るための処理の一例として、文書の方向を判別するための技術が特許文献1に開示されている。これは、文字認識の確信度を利用して、高確信度が得られた方向の分布を利用して文書の方向を判別するものである。
【0003】
【特許文献1】
特開2000−113103号公報(第4−5頁、図1−図2)
【0004】
【発明が解決しようとする課題】
しかし、上記公報に開示されている文書方向の判別方法では、例えば、表とそのキャプションしかない文書画像の場合、キャプションが表に優先され、キャプションの文字方向を参照して文書の方向を判定してしまう。このキャプションが正常なものであれば問題はないが、定型フォームの番号等が記録されているような少ない文字列が、本文より優先されて文書の方向を判定してしまう場合がある。
【0005】
また、FAX受信等において、TTI(発信元の名前や発信日時)の情報が文書の先頭に来るような場合、この情報に基づいて方向を判別してしまうと、この情報がこの情報以降にある本文の文字方向と異なる場合、誤った方向判別をしてしまう。
このような問題を回避するために、全ての文字領域について方向判別のための処理を行うことも考えられるが、それでは判別処理に時間を要してしまう。
【0006】
本発明の目的は、上記の問題点に鑑み、文書の方向判別等の文章画像の知りたい主要な特徴の種類に応じて、抽出された表領域や文字領域等の各領域の優先度を決め、決められた優先度の高い領域の順に所定の処理を施して文章画像の主要な特徴を知るようにした文書画像特徴検出方法、装置、プログラム、および記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
本発明は、上記の課題を解決するために、次のような手段を採用した。
第1の手段は、抽出された表領域や文字領域等の各領域に所定の処理を施すことによって文書画像の主要な特徴を知る方法において、前記文書画像から文書を構成する表領域、本文からなる文字領域、および本文以外の複数種類の文字領域なる領域を抽出する工程と、前記文章画像の知りたい主要な特徴の種類に応じて優先度が設定されている前記抽出された各領域について優先度を判定する工程と、前記判定された優先度の高い領域の順に前記所定の処理を施して前記文章画像の主要な特徴を知る工程とからなることを特徴とする文書画像特徴検出方法である。
【0008】
第2の手段は、第1の手段において、前記本文以外の複数種類の各文字領域(キャプション、ヘッダー、フッター)の優先度は、前記知りたい主要な特徴の種類に応じて任意に変更可能に設定されていることを特徴とする文書画像特徴検出方法である。
【0009】
第3の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の面積の大きさの順に高く設定されていることを特徴とする文書画像特徴検出方法である。
【0010】
第4の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の文字数の多い順に高く設定されていることを特徴とする文書画像特徴検出方法である。
【0011】
第5の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の行数の多い順に高く設定されていることを特徴とする文書画像特徴検出方法である。
【0012】
第6の手段は、第5の手段において、前記行数は、行方向と対角な向きに行の投影をとり、その投影値が所定の閾値より大きいときに行であることを識別し、識別された数を計数することによって得られることを特徴とする文書画像特徴検出方法である。
【0013】
第7の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の文字サイズの大きさの順に設定されていることを特徴とする文書画像特徴検出方法である。
【0014】
第8の手段は、第7の手段において、前記文字サイズは、文字領域と対角な向きに各文字の投影をとり、その投影値が所定の閾値より大きいときに行であることを識別することによって得られることを特徴とする文書画像特徴検出方法である。
【0015】
第9の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、文字領域画像全体の基準文字サイズを推定し、該基準文字サイズに対する前記各領域の文字サイズの比率の大きさの順に設定されていることを特徴とする文書画像特徴検出方法である。
【0016】
第10の手段は、第1の手段において、前記表領域や文字領域等の各領域の先頭行の優先度は、前記知りたい主要な特徴の種類に応じて異なるように設定されていることを特徴とする文書画像特徴検出方法である。
【0017】
第11の手段は、第1の手段において、前記表領域や文字領域等の各領域の優先度の順位は、文書中に最も多い行方向を持つ領域の順に設定されていることを特徴とする文書画像特徴検出方法である。
【0018】
第12の手段は、前記表領域や文字領域等の各領域の優先度の順位は、前記第の2手段ないし第11の手段のいずれか2つの請求項に記載の文書画像特徴検出方法を組み合わせて用いることを特徴とする文書画像特徴検出方法である。
【0019】
第13の手段は、第1の手段ないし第12の手段のいずれか1つの手段に記載の文書画像特徴検出方法の各工程を実行するためのプログラムである。
【0020】
第14の手段は、第13の手段に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0021】
第15の手段は、第13の手段に記載のプログラムを搭載したことを特徴とする文書画像特徴検出装置である。
【0022】
【発明の実施の形態】
以下に、本発明の一実施形態を図1ないし図4を用いて説明する。
図1は、本発明の実施形態に係る文書画像特徴検出装置の構成を示すブロックである。
同図において、スキャナー1は文書画像原稿を光学的に読み取り、電気信号である文書画像データに変換して、メモリ3に格納する。CPU2は、本発明に係る処理プログラムを格納しているプログラム格納ROM/RAM7から、またはCD−ROM/FDの記憶媒体からCD−ROM/FDドライブ5によって、処理プログラムを読み出し、ワークエリアRAM6において、メモリ3に格納されている文書画像データが読み出し、文書画像データに対する分割処理や画像処理を実行する。処理された文書画像データはCPU2の指示により、メモリ3に格納され、必要に応じてディスプレイ4に表示したり、印字装置8によって出力する。
【0023】
図2は、上記文書画像特徴検出装置における上記処理プログラムの処理手順を示すフローチャートである。
以下では、文章画像の知りたい主要な特徴として、文書の方向判別を例にして説明する。まず、前記メモリ3から文書画像データを読み出し、ステップ1にて、文書画像の領域を識別し、文字領域や表領域等の文書を構成する要素毎に領域を分割処理する。ここで、領域識別の手法としては、例えば、特許第3253356号に開示されているような文書画像の領域識別方法が用いられが、この手法に限定されるものではない。
【0024】
領域分割された後は、文字領域については本文、キャプション、ヘッダー、フッター等の詳細な分類が施され、読み順が付けられる。ここで読み順の設定方法としては、特許第3269918号に開示されているような文章画像の読み順設定方法等の公知の方法が採用される。
【0025】
ステップ2では、文章画像の知りたい主要な特徴の種類に応じて決められている優先順位に従って、ここでは、例えば文書の方向判別する際に決められている優先順位に従って、分割処理された各領域について、即ち、表領域や文字領域、さらに文字領域については本文、キャプション、ヘッダー、フッターについて、優先順位を決定する。ここで、優先順位を付ける手法としては、特開2000−113103号公報に開示されてい公知の方法が採用される。
【0026】
ステップ3では、優先順位の高い領域が選択され、ステップ4では、その選択された領域について、その領域の特徴抽出の処理が行われる。文書の方向判別について言うと、領域の文書画像から文字を抽出し、この文字を複数の方向について認識処理し、この認識処理によって得られた確信度を基に、前記文字を方向判別に採用するか否かを判定し、前記方向判定に採用された複数の文字について方向判定結果の頻度分布を基に、文書画像の方向を判定する。
【0027】
ステップ5では、領域の特徴抽出の処理が不十分と判定された時は、ステップ3にて次に優先順位の高い領域が選択され、ステップ4以降の処理が再び行われる。
【0028】
次に、上記の表領域や文字領域等の各領域の優先度の順位の決定法の幾つかのの例について述べる。
第1の方法は、本文以外の複数種類の各文字領域(キャプション、ヘッダー、フッター)に応じて優先度を決める方法であり、この方法は、知りたい主要な特徴の種類に応じて優先度を任意に変更することが可能である。主要な用途としては、文書方向の判別に有効である。
【0029】
第2の方法は、文字領域の面積の大小を利用して優先度を決める方法であり、この方法によれば、例えば、大きな表領域は面積が大きいので、本文部分の領域面積が小さいときに、表領域を優先させることができる。この方法では、キャプション等しかない場合も、表を優先させることができる。その結果、従来技術の欠点である、表領域より文字領域を優先させることに固定してしまうことによる、キャプション、ヘッダー等の文字方向に影響されることを防ぐことができる。この方法では、大きな面積を占めているものが文書の特徴として優先されるので、使用者にも理解し易いものとなる。
【0030】
第3の方法は、文字数の多少を利用して優先度を決める方法であり、この方法によれば、領域の面積が大きくても、その領域に包含される文字が非常に大きい場合は、文字数が減ることになる。例えば、タイトル等の抽象的な文書特徴を知りたい場合には、この方法によって優先度を決めることが有効である。
【0031】
また、文書方向を判別したいような場合には、処理面積の割にはデータが得られにくいので、優先度の決定方法としては採用し難い。その理由は、通常の処理、例えば、文字認識では、処理面積と処理時間はほぼ比例する関係にあるので、処理がかかる割に、得られるデータが少ないため有効な方法とはいえないからである。
この方法によれば、例えば、文字数が多いものの優先度を高めたときは、文書方向の判別には適している。
【0032】
第4の方法は、行数の多少を利用して優先度を決める方法であり、この方法は、上記第3の方法とほぼ同様の理由で利用される。なお、行数の検出は、文字認識を行う過程で通常利用される多くの公知技術あるが、重要なことは正確でなくても、高速に処理されることにある。
【0033】
図3は、行数の検出方法の一例を示す図であり、同図に示すように、各行が水平行であれば、垂直方向に射影をとり、総画素数からしきい値をダイナミックに求め、その範囲内を文字行と判断して、行数を検出するものであある。この検出方法は、比較的高速に処理することができ大凡の行数を検出するのに適している。
【0034】
第5の方法は、文字サイズの大小を利用して優先度を決める方法であり、この方法も、上記第3の方法とほぼ同様の理由で利用される。なお、文字サイズの検出は、行を抽出して、その行の高さを文字サイズとすることによって高速に文字サイズを検出することができる。
文字サイズ検出方法としては多くの公知技術があるが、図3に示した検出方法を用いることができる。この検出方法を用いると、第4の方法と第5の方法を共通化できるので、1つの処理で2つの処理が可能となる。
【0035】
第6の方法は、文字領域全体の基準文字サイズを推定し、該基準文字サイズに対する各領域の文字サイズの比率の大きさの順に優先度を決める方法である。 ここで、基準文字サイズは通常文書画像中の最頻の文字サイズ付近に自動設定するようにする。基準文字サイズの検出方法としては、特開平7−37036号公報に記載の標準文字サイズの検出方法が利用できる。標準文字サイズを基準文字サイズとした場合、基準文字サイズに近いということは本文文字サイズと同等ということであり、本文の把握をその文書画像の主要な特徴とする場合は、基準文字サイズに対する比率が1に近い程優先度を高く付ければよい。
【0036】
逆に基準文字サイズに対して比率が大きくなる場合は、タイトルや要点の把握を主要な特徴とする場合に、この比率によって優先順位を決めると有効である。タイトルや要点を示す文書特徴を利用する先行技術としては、特願2001−98915の文書画像のタイトル抽出方法等がある。
【0037】
第7の方法は、表領域や文字領域等の各領域の先頭行の優先度を、知りたい主要な特徴の種類に応じて異なるように設定する方法である。この方法は、例えば、従来技術の欠点である、FAX受信等で付加されるTTI(発信元の名前や発信日時)の情報が先頭に来ることにより、それ以降の本文の向きとは別に文書方向を決めてしまう弊害を回避するためのものである。
【0038】
この方法は、文字領域の優先度が付いた後に、その内部を処理しようとするときに、先頭行(端の行)を特別視しようとするもので、例えば、タイトルや要点を抽出することを主要な特徴とするときに、この優先順位を上げることが考えられる。一方、文章方向判別では、画像端にある文字領域の先頭行は優先順位を下げることが望ましい。
【0039】
第8の方法は、行方向を利用して優先度を決める方法であり、この方法は、領域分割をする際に、文字領域はその行方向が分かるので、その行方向の頻度を取り、水平と垂直のどちらが主たる行方向であるかを判定し、主たる行方向を持つ文字領域の優先度を上げるものである。
【0040】
第9の方法は、第1の方法ないし第8の方法のうち、2つ以上の方法を組み合わせて優先度を決める方法である。
【0041】
図4は、第1の方法ないし第8の方法のうち、2つ以上の方法を組み合わせて領域の優先度を上げて、文書画像の主要な特徴を抽出するためのフローチャートである。
ステップ11にて、まず、基準文字サイズを抽出する。次に、ステップ12にて、領域の種類に関する優先順位を決定し、ステップ13で、各領域内の文字サイズによる優先順位を決定し、ステップ14にて、各領域内の行数による優先順位を決定する。さらに、ステップ15にて、上記ステップ12からステップ14にて決定されたそれぞれの優先順位に特定の計数を掛けて加算し、総合優先順位を決定する。ステップ16では、ステップ15によって決定された優先順位が1位の領域が、領域の上下左右の端に位置する場合は、最初の1行を除いて、文書画像の主要な特徴を抽出するための処理を行う。
【0042】
【発明の効果】
請求項1に記載の発明によれば、文書画像を領域分割した結果から、その文書画像中の主要な特徴を抽出する領域の優先順位を決定することができるので、高速度で精度よく文書画像中の特徴を抽出することが可能となる。
請求項2ないし請求項12に記載の発明によれば、抽出すべき文書画像の主要な特徴に応じて、種々の優先度の決定法を選択することができる。
請求項13ないし請求項15の発明によれば、請求項1ないし請求項12に記載の文書画像特徴検出方法を文書画像特徴検出装置や任意のコンピュータにおいて容易に実行することができるようになる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る文書画像特徴検出装置の構成を示すブロックである。
【図2】文書画像特徴検出装置における上記処理プログラムの処理手順を示すフローチャートである。
【図3】行数や文字サイズの検出方法の一例を示す図である。
【図4】第1の方法ないし第8の方法のうち、2つ以上の方法を組み合わせて領域の優先度を上げて、文書画像の主要な特徴を抽出するためのフローチャートである。
【符号の説明】
1・・・スキャナー、2・・・CPU、3・・・メモリ、4・・・ディスプレイ、5・・・CD−ROM/FDドライブ、6・・・ワークエリアRAM、7・・・プログラム格納ROM/RAM、8・・・印字装置。
Claims (15)
- 抽出された表領域や文字領域等の各領域に所定の処理を施すことによって文書画像の主要な特徴を知る方法において、
前記文書画像から文書を構成する表領域、本文からなる文字領域、および本文以外の複数種類の文字領域なる領域を抽出する工程と、前記文章画像の知りたい主要な特徴の種類に応じて優先度が設定されている前記抽出された各領域について優先度を判定する工程と、前記判定された優先度の高い領域の順に前記所定の処理を施して前記文章画像の主要な特徴を知る工程とからなることを特徴とする文書画像特徴検出方法。 - 前記本文以外の複数種類の各文字領域(キャプション、ヘッダー、フッター)の優先度は、前記知りたい主要な特徴の種類に応じて任意に変更可能に設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の面積の大きさの順に高く設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の文字数の多い順に高く設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の行数の多い順に高く設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記行数は、行方向と対角な向きに行の投影をとり、その投影値が所定の閾値より大きいときに行であることを識別し、識別された数を計数することによって得られることを特徴とする請求項5に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の優先度の順位は、前記各領域の文字サイズの大きさの順に設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記文字サイズは、文字領域と対角な向きに各文字の投影をとり、その投影値が所定の閾値より大きいときに行であることを識別することによって得られることを特徴とする請求項7に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の優先度の順位は、文字領域画像全体の基準文字サイズを推定し、該基準文字サイズに対する前記各領域の文字サイズの比率の大きさの順に設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の先頭行の優先度は、前記知りたい主要な特徴の種類に応じて異なるように設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の優先度の順位は、文書中に最も多い行方向を持つ領域の順に設定されていることを特徴とする請求項1に記載の文書画像特徴検出方法。
- 前記表領域や文字領域等の各領域の優先度の順位は、前記請求項2ないし請求項11のいずれか2つの請求項に記載の文書画像特徴検出方法を組み合わせて用いることを特徴とする文書画像特徴検出方法。
- 請求項1ないし請求項12のいずれか1つの請求項記載の文書画像特徴検出方法の各工程を実行するためのプログラム。
- 請求項13に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項13に記載のプログラムを搭載したことを特徴とする文書画像特徴検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002271979A JP2004110398A (ja) | 2002-09-18 | 2002-09-18 | 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002271979A JP2004110398A (ja) | 2002-09-18 | 2002-09-18 | 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004110398A true JP2004110398A (ja) | 2004-04-08 |
Family
ID=32269131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002271979A Pending JP2004110398A (ja) | 2002-09-18 | 2002-09-18 | 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004110398A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006067585A (ja) * | 2004-08-26 | 2006-03-09 | Seiko Epson Corp | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 |
JP2013161268A (ja) * | 2012-02-06 | 2013-08-19 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
CN104951429A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 版式电子文档的页眉页脚识别方法及装置 |
JP2019101904A (ja) * | 2017-12-06 | 2019-06-24 | コニカミノルタ株式会社 | 画像処理装置、画像処理方法及びプログラム |
-
2002
- 2002-09-18 JP JP2002271979A patent/JP2004110398A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006067585A (ja) * | 2004-08-26 | 2006-03-09 | Seiko Epson Corp | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 |
JP4626886B2 (ja) * | 2004-08-26 | 2011-02-09 | セイコーエプソン株式会社 | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 |
JP2013161268A (ja) * | 2012-02-06 | 2013-08-19 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
CN104951429A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 版式电子文档的页眉页脚识别方法及装置 |
JP2019101904A (ja) * | 2017-12-06 | 2019-06-24 | コニカミノルタ株式会社 | 画像処理装置、画像処理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101128602B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독 가능 저장 매체 | |
US6563949B1 (en) | Character string extraction apparatus and pattern extraction apparatus | |
EP2270714B1 (en) | Image processing device and image processing method | |
CN101551859B (zh) | 图像辨别装置及图像检索装置 | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
CN107430780A (zh) | 用于基于视频内容特性的输出创建的方法 | |
WO2019041442A1 (zh) | 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质 | |
US20100238474A1 (en) | Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program | |
US20090249200A1 (en) | Image processor | |
JP2004110398A (ja) | 文書画像特徴検出方法、検出プログラム及び記録媒体並びに文書画像特徴検出装置 | |
JP5412916B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP4792835B2 (ja) | 画像処理装置 | |
JP4928998B2 (ja) | 画像形成装置、及び画像形成方法 | |
JP4040905B2 (ja) | 縮小画像表示装置、方法、プログラムおよびプログラムを記録した記録媒体 | |
JP5233739B2 (ja) | 画像処理装置、画像読取装置及び画像形成装置 | |
JP4501731B2 (ja) | 画像処理装置 | |
JP4866184B2 (ja) | 画像処理装置、画像方向判別方法、および画像方向判別プログラム | |
US20080225340A1 (en) | Image processing apparatus, image processing method, and computer program product | |
JP2007280344A (ja) | 画像処理装置、画像方向判別方法、および画像方向判別プログラム | |
JP4381455B2 (ja) | 文字サイズ推定方法、装置および記録媒体 | |
JP2004046295A (ja) | タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体 | |
JP2000306041A (ja) | 文字サイズ推定方法および記録媒体 | |
JP5875551B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP2000048191A (ja) | 画像処理方法及び画像処理プログラムを記録した媒体 | |
JPH0951446A (ja) | 画像出力方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080820 |