JP2006330875A - 文書処理装置、方法およびプログラム - Google Patents
文書処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2006330875A JP2006330875A JP2005150405A JP2005150405A JP2006330875A JP 2006330875 A JP2006330875 A JP 2006330875A JP 2005150405 A JP2005150405 A JP 2005150405A JP 2005150405 A JP2005150405 A JP 2005150405A JP 2006330875 A JP2006330875 A JP 2006330875A
- Authority
- JP
- Japan
- Prior art keywords
- document
- text
- processing
- area
- partial image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
【課題】 文書処理の負担を軽減可能な文書ファイルを作成することができる文書処理装置、方法およびプログラムを提供すること。
【解決手段】 文書処理装置は、文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出部20と、領域抽出部20によって抽出された非テキスト文書領域に含まれる1つ以上の部分画像を抽出する領域内グループ分析部42と、領域内グループ分析部42によって抽出された部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理部44と、テキスト文書領域に対応するテキスト情報とともに、関数化処理部44によって抽出された特徴量を格納する文書ファイル格納部50とを備えている。
【選択図】 図1
【解決手段】 文書処理装置は、文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出部20と、領域抽出部20によって抽出された非テキスト文書領域に含まれる1つ以上の部分画像を抽出する領域内グループ分析部42と、領域内グループ分析部42によって抽出された部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理部44と、テキスト文書領域に対応するテキスト情報とともに、関数化処理部44によって抽出された特徴量を格納する文書ファイル格納部50とを備えている。
【選択図】 図1
Description
本発明は、文字と各種画像とが混在した文書をコンピュータで扱われる形式に変換する文書処理装置、方法およびプログラムに関する。
従来から、XML、SGML、HTMLなどの論理構造言語によって文書処理を行う手法が知られている(例えば、特許文献1〜4参照。)。これらの論理構造言語を用いることにより、コンピュータに適した形式で文書を処理することが可能になる。
特開平11−250041号公報(第6−21頁、図1−14)
特開2003−308311号公報(第3−6頁、図1−6)
特開2003−316766号公報(第5−14頁、図1−23)
特開2004−178010号公報(第7−18頁、図1−17)
ところで、上述した特許文献1〜4に開示された各種の文書処理では、主にテキストに対してレイアウト解析処理や文書論理構造解析処理がなされており、図形や画像等の非テキストに対しては原画像の状態で取り扱われている。例えば、「BMP」や「GIF」等の拡張子が付された画像データが文書の一部に含まれている場合には、これらの画像データがそのままの状態で文書データの一部としてコンピュータに格納される。したがって、図形や画像等の非テキスト情報に対して表示等の処理を行う場合には、データの種類に合わせた処理が必要になり、文書処理が複雑になるという問題があった。例えば、市場に出回っている多くの種類の非テキスト情報を対象にした文書処理を行う場合には、これら全ての種類の非テキスト情報を扱うことが可能な表示処理プログラムをあらかじめコンピュータにインストールしておく必要があり、処理の負担も大きくなる。
本発明は、このような点に鑑みて創作されたものであり、その目的は、文書処理の負担を軽減可能な文書ファイルを作成することができる文書処理装置、方法およびプログラムを提供することにある。
上述した課題を解決するために、本発明の文書処理装置は、文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出手段と、領域抽出手段によって抽出された非テキスト文書領域に含まれる1つ以上の部分画像を抽出する部分画像抽出手段と、部分画像抽出手段によって抽出された部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理手段と、テキスト文書領域に対応するテキスト情報とともに、関数化処理手段によって抽出された特徴量を格納する文書情報格納手段とを備えている。なお、テキスト文書領域に囲まれた部分画像はテキスト文書領域とはみなさず、非テキスト文書領域として扱う。
また、本発明の文書処理方法は、文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出ステップと、領域抽出ステップによって抽出された非テキスト文書領域に含まれる1つ以上の部分画像を抽出する部分画像抽出ステップと、
部分画像抽出ステップによって抽出された部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理ステップと、テキスト文書領域に対応するテキスト情報とともに、関数化処理ステップによって抽出された特徴量を格納する文書情報格納ステップとを有している。
部分画像抽出ステップによって抽出された部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理ステップと、テキスト文書領域に対応するテキスト情報とともに、関数化処理ステップによって抽出された特徴量を格納する文書情報格納ステップとを有している。
また、本発明の文書処理プログラムは、コンピュータを、文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出手段と、領域抽出手段によって抽出された非テキスト文書領域に含まれる1つ以上の部分画像を抽出する部分画像抽出手段と、部分画像抽出手段によって抽出された部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理手段と、テキスト文書領域に対応するテキスト情報とともに、関数化処理手段によって抽出された特徴量を格納する文書情報格納手段として機能させる。
これにより、非テキスト文書領域に含まれる図形や画像等の種類やデータの属性に関係なく関数化近似して得られた特徴量で非テキスト文書領域の内容を定義することが可能になり、テキスト文書領域と非テキスト文書領域とが混在する文書ファイルをその後に読み出して表示等の文書ファイル処理を行う場合の処理負担を軽減することができる。すなわち、文書処理の負担を軽減可能な文書ファイルを作成することができる。また、非テキスト文書領域に含まれる図形や画像等が関数化処理されるため、ビットマップ形式で画像データを保持する場合に比べてデータ量を削減することができる。
また、上述した関数近似処理手段は、部分画像の輪郭形状、濃度分布、色変化などを一あるいは複数の関数で近似する処理を行うことにより特徴量の抽出を行うことが望ましい。これにより、非テキスト文書領域に含まれる部分画像の内容を関数近似することが可能になり、その後の文書ファイル処理によってこの部分画像を復元することができる。
また、紙媒体に印刷された画像を光学的に読み取って文書ファイルを作成する文書ファイル取込手段をさらに備えることが望ましい。あるいは、紙媒体に印刷された画像を光学的に読み取って文書ファイルを作成する文書ファイル取込ステップをさらに有することが望ましい。また、コンピュータを、さらに、紙媒体に印刷された画像を光学的に読み取って文書ファイルを作成する文書ファイル取込手段として機能させることが望ましい。これにより、紙媒体に印刷されたテキスト文書領域と非テキスト文書領域とが混在した文書を取り込んでコンピュータの処理に適した形式で格納することが可能になる。
また、上述した部分画像抽出手段によって抽出されたテキスト文書領域に含まれるテキスト内容を文字認識処理によって取得する文字認識処理手段と、文字認識処理手段によって取得されたテキスト内容に対して構造化処理を行ってテキスト内容に属性情報を付加したテキスト情報を作成する構造化処理手段とを有するテキスト文書処理手段をさらに備えることが望ましい。これにより、テキスト文書領域の内容を把握して、内容編集等を行うことが可能になる。
また、本発明の文書表示装置は、上述した文書情報格納手段からレイアウト情報とテキスト情報と特徴量を読み出し、特徴量に基づいて部分画像を復元するとともにテキスト情報に基づいてテキスト文書領域に含まれる文字を復元し、レイアウト情報に基づいてこれらの復元された部分画像と文字の合成を行っている。これにより、文書ファイル内の非テキスト文書領域の内容を表示する際に、元々の部分画像のファイル形式によらずに同じ処理手順で部分画像の内容を復元することが可能になり、表示処理手順を簡略化することができる。
また、本発明の文書検索装置は、上述した文書情報格納手段に格納された特徴量と、検索対象画像に対応する特徴量とに基づいて、検索対象画像に類似する部分画像の有無を判定している。これにより、非テキスト文書領域に含まれる部分画像に対して元々の部分画像のファイル形式によらずに同じ処理手順で検索を行うことが可能になり、検索処理手順を簡略化することができる。
以下、本発明を適用した一実施形態の文書処理装置について、図面を参照しながら詳細に説明する。図1は、一実施形態の文書処理装置の構成を示す図である。図1に示すように、本実施形態の文書処理装置は、スキャナ10、文書ファイル取込部12、文書ファイル格納部14、領域抽出部20、テキスト処理部30、非テキスト処理部40、文書ファイル格納部50を含んで構成されている。この文書処理装置は、CPU、ROM、RAM、ハードディスク装置を有するコンピュータによって、あらかじめハードディスク装置にインストールされた文書処理プログラムを実行することにより実現される。
文書ファイル取込部12は、テキスト文書領域と非テキスト文書領域とが混在した文書ファイルを取り込む処理を行う。具体的には、スキャナ10を用いて、原稿台にセットされた紙媒体に印刷された画像を光学的に読み取って、処理対象となる文書ファイルを作成する。作成された文書ファイルは、画素毎に2値(白黒)の値が対応したビットマップデータ形式の画素データによって構成されている。文書ファイル格納部14は、文書ファイル取込部12によって取り込まれた文書ファイルを格納する。
領域抽出部20は、文書ファイルに含まれるテキスト文書領域と非テキスト文書領域とを抽出する。テキスト文書領域が複数箇所に分散配置されている場合には、分散配置された各テキスト文書領域が抽出される。同様に、非テキスト文書領域が複数箇所に分散配置されている場合には、分散配置された各非テキスト文書領域が抽出される。また、領域抽出部20は、これらテキスト文書領域と非テキスト文書領域のレイアウト情報を作成する。このレイアウト情報は文書ファイル格納部50に格納される。
テキスト処理部30は、領域抽出部20によって抽出されたテキスト文書領域に対応する画素データに基づいてテキスト処理を実施する。具体的には、テキスト処理部30は、テキスト処理を実施するために文字認識処理部32、文章構文解析部34、文章構造化処理部36を備えている。文字認識処理部32は、テキスト文書領域に対応する画素データに対して文字認識処理を行う。文字認識処理自体は従来から広く行われている各種の手法を用いることができる。認識結果として文字種別や各文字毎の付属情報(添え字等の情報)が得られる。文章構文解析部34は、テキスト文書領域に含まれる複数の文字からなる文章の論理構造(構文)を解析する。ここで、「論理構造」とは、文章の内容に関する階層構造であり、見出し部分や章節などに関する構造を指している。文章構造化処理部36は、文章構文解析部34による解析結果と、文字認識処理部32による文字認識の対象となった各文字のレイアウトとに基づいて文章構造を決定する処理を行う。文章構造化処理部36による処理結果としてのテキスト情報は、文書ファイル格納部50に格納される。
非テキスト処理部40は、領域抽出部20によって抽出された非テキスト文書領域に対応する画素データに基づいて非テキスト処理を実施する。具体的には、非テキスト処理部40は、非テキスト処理を実施するために、領域内グループ分析部42、関数化処理部44を備えている。領域内グループ分析部42は、抽出された非テキスト文書領域に含まれる図形や画像をグループ分けする処理を行う。例えば、非テキスト文書領域内に分離された複数の図形や画像が存在するときに、互いに分離した図形、画像のそれぞれを1グループの画像として抽出する。関数化処理部44は、領域内グループ分析部42によってグループ分けされた画像(部分画像)の輪郭形状、濃度分布、色変化などを一あるいは複数の関数で近似する処理を行う。例えば、関数化処理の対象となる部分画像が図形や2値画像の場合には、その輪郭形状を関数近似する処理が行われる。
図2は、関数化処理部44の具体的な構成を示す図である。図2に示すように、関数化処理部44は、輪郭追跡処理部44a、接合点抽出処理部44b、関数近似処理部44cを備えている。
輪郭追跡処理部44aは、領域内グループ分析部42によってグループ分けされた各部分画像に含まれる一あるいは複数の輪郭線を抽出する。具体的には、輪郭追跡処理部44aは、部分画像の画素データを用いて輪郭線を所定方向に追跡して、この輪郭線を構成する画素列(輪郭点列)を抽出する。例えば、抽出された画素列の特定は、X座標およびY座標のそれぞれの各座標値について別々に行われる。また、一の部分画像に複数の輪郭線が含まれている場合には、各輪郭線について輪郭点列の抽出が行われる。なお、上述した輪郭線の抽出処理は、被検索対象画像が白黒あるいは単色のみを用いた画像であるか、濃淡分布を有する中間調画像や色変化を有するカラー画像であるかによって場合を分けることが望ましい。すなわち、白黒あるいは単色のみを用いた画像の場合には、輪郭追跡処理部44aは、部分画像と背景との間の境界部を輪郭線として抽出する。また、中間調画像やカラー画像の場合には、輪郭追跡処理部44aは、部分画像と背景との間の境界部と、部分画像の内部領域に現れる同一濃淡あるいは同一色の縁部とを輪郭線として抽出する。
図3は、輪郭追跡処理部44aによって抽出された輪郭点列の概略を示す図である。また、図4は抽出された輪郭点列のX座標を媒介変数を用いて分離した変化の様子を示す図である。図5は、抽出された輪郭点列のY座標を媒介変数を用いて分離した変化の様子を示す図である。
図3では、丸印(○)が輪郭線を構成する画素を示しており、各丸印に付された数字は輪郭線を追跡していったときの画素の順番を示している。なお、実際の部分画像の輪郭線は図3に示す例に比べて多くの画素によって構成されているが、図3では説明を簡略化するために少ない数の画素によって輪郭点列が構成されているものとする。
例えば、輪郭追跡処理部44aは、X座標が最も小さい位置からY方向に沿って走査を開始し、X座標を大きくしていって最初に検出した画素に番号「1」を付す。図3に示した例では、輪郭追跡処理部44aは、番号「1」の画素を追跡開始画素として時計回り方向に輪郭線を追跡しながら、輪郭線を構成する各画素を検出するとともにこれらの各画素に検出順に通し番号「2」、「3」、…を付す。この輪郭線に沿った画素の検出動作は、検出する画素が追跡開始画素に一巡するまで行われる。輪郭線を構成する各画素の番号を横軸に、各画素のX座標値を縦軸にプロットしたものが図4である。また、輪郭線を構成する各画素の番号を横軸に、各画素のY座標値を縦軸にプロットしたものが図5である。このように、輪郭追跡処理部44aは、輪郭線を構成する各画素に付した検出順番を示す通し番号を媒介変数として、X座標値とY座標値を別々に記録することにより、輪郭点列の抽出を行う。なお、上述した説明では、一例として媒介変数を用いてX座標値とY座標値を別々に記録するようにしたが、媒介変数を用いずに、X座標値とY座標値の組み合わせを記録するようにしてもよい。また、一般には、部分画像には、この画像と背景との間の境界部としての多くの輪郭線が含まれるが、各輪郭線毎に輪郭点列の抽出が行われる。
接合点抽出処理部44bは、輪郭追跡処理部44aによって抽出した輪郭点列に基づいて、輪郭線の傾向が変化する接合点を抽出する。例えば、輪郭線の角度が急に変化する角点が接合点として抽出される。接合点の抽出処理や関数近似処理は、図4に示すX座標についての輪郭点列と図5に示すY座標についての輪郭点列のそれぞれについて別々に行われる。
関数近似処理部44cは、輪郭線に沿って隣接する2つの接合点で区分される部分的な領域(区分領域)を、直線、円弧、自由曲線のいずれかの関数を用いて近似し、この近似処理に関連する特徴情報を作成する。例えば、区分領域が直線で近似可能な場合には近似関数として直線が用いられ、直線で近似不可能であって円弧で近似可能な場合には近似関数として円弧が用いられる。円弧でも近似不可能な場合には近似関数として自由曲線が用いられる。近似関数として直線を用いた場合には、用いた関数が直線であることを示す符号と、直線で近似される区分領域の形状を示すパラメータとが、この区分領域に対応する近似関数に関する特徴量として作成される。同様に、近似関数として円弧を用いた場合には、用いた関数が円弧であることを示す符号と、円弧で近似される区分領域の形状を示すパラメータとが、この区分領域に対応する近似関数に関する特徴量として作成される。近似関数として自由曲線を用いた場合には、用いた関数が自由曲線であることを示す符号と、自由曲線で近似される区分領域の形状を示すパラメータとが、この区分領域に対応する近似関数に関する特徴量として作成される。
なお、着目している区分領域がどの関数で近似可能であるか否かの判定は、区分領域と近似関数との間の誤差(最小二乗法で求めた誤差)が所定値以下であるか否かを調べることにより行われる。また、区分領域の形状を示すパラメータは、この区分領域の形状を特定することが可能であればよいが、例えば、特許第2646475号公報に開示されているように、以下に示すものを用いるようにしてもよい。
(1)直線の場合:直線を示すフラグ、区分領域の始点の座標
(2)円弧の場合:円弧を示すフラグ、円弧の始点の座標、接合点間の中心角の係数、接合点間に存在する輪郭点数、近似関数の係数(円弧を例えば三角関数の線形結合の式で表現した場合の各係数)
(3)自由曲線の場合:接合点間の自由曲線を示す近似関数の次元数(≧3)、接合点間に存在する輪郭点数、接合点間における輪郭点列の変動の中心、近似関数の係数。
(1)直線の場合:直線を示すフラグ、区分領域の始点の座標
(2)円弧の場合:円弧を示すフラグ、円弧の始点の座標、接合点間の中心角の係数、接合点間に存在する輪郭点数、近似関数の係数(円弧を例えば三角関数の線形結合の式で表現した場合の各係数)
(3)自由曲線の場合:接合点間の自由曲線を示す近似関数の次元数(≧3)、接合点間に存在する輪郭点数、接合点間における輪郭点列の変動の中心、近似関数の係数。
図6および図7は、輪郭追跡処理部44a、接合点抽出処理部44b、関数近似処理部44cの各処理によって抽出される特徴量の概要を示す図である。図6に示すひとまとまりの特徴量が一の部分画像について抽出される。図6に示す例では、着目している部分画像には、輪郭線1、2、3、…で示される複数の輪郭線が含まれており(それぞれの輪郭長が輪郭長1、2、3…)で、その中で最も長い輪郭線の長さが「最大輪郭長」で示されている。また、各輪郭線には、X軸関数表とY軸関数表とが対応付けられている。
図7に示すように、X軸関数表には、関数総数、輪郭長、総標本点数、直線個数、直線総長、円弧個数、円弧総長、曲線個数、曲線総長の他に、各輪郭線毎の区間長、標本点数、始点標本番号(図3や図4において示した通し番号)、各関数に対応する区間長やパラメータが含まれている。関数総数は、着目している輪郭線に含まれる関数の総数であって区分領域の数に等しい。輪郭長は、着目している輪郭線の長さである。直線個数は、着目している輪郭線を構成する各区分領域の中で直線によって近似される区分領域の数である。直線総長は、着目している輪郭線を構成する各区分領域の中で直線によって近似される区分領域の長さの合計値である。円弧個数は、着目している輪郭線を構成する各区分領域の中で円弧によって近似される区分領域の数である。円弧総長は、着目している輪郭線を構成する各区分領域の中で円弧によって近似される区分領域の長さの合計値である。曲線個数は、着目している輪郭線を構成する各区分領域の中で自由曲線によって近似される区分領域の数である。曲線総長は、着目している輪郭線を構成する各区分領域の中で自由曲線によって近似される区分領域の長さの合計値である。また、図7において、「X軸関数」に対応する複数の関数は、着目している輪郭線を構成する各区分領域を近似する関数を示しており、これらの配置順が各区分領域の並びに対応している。なお、図7に示した特徴量は、後に文書ファイル内の画像検索を行うことができるように多くの項目を含ませているが、単に文書ファイルを復元して表示や印刷を行うことができればよい場合にはこれら全ての項目を抽出する必要はない。例えば、「X軸関数」、「始点座標」、「パラメータ」があれば各輪郭点列の両端座標やその間の形状が再現できるため、文書ファイル内の各部分画像の表示や印刷が可能になる。
上述した領域抽出部20が領域抽出手段に、領域内グループ分析部42が部分画像抽出手段に、関数化処理部44が関数化処理手段に、文書ファイル格納部50が文書情報格納手段にそれぞれ対応する。また、スキャナ10、文書ファイル取込部12が文書ファイル取込手段に、文字認識処理部32が文字認識処理手段に、文章構文解析部34、文章構造化処理部36が構造化処理手段に、テキスト処理部30がテキスト文書処理手段にそれぞれ対応する。また、領域抽出部20による動作が領域抽出ステップの動作に、領域内グループ分析部42による動作が部分画像抽出ステップの動作に、関数化処理部44による動作が関数化処理ステップの動作に、文書ファイル格納部50に非テキスト情報を格納する動作が文書情報格納ステップの動作にそれぞれ対応する。また、スキャナ10、文書ファイル取込部12によって文書ファイルを取り込む動作が文書ファイル取込ステップの動作に対応する。
本実施形態の文書処理装置はこのような構成を有しており、次にその動作を説明する。図8は、本実施形態の文書処理装置を用いて取り込んだ文書ファイルの形式をコンピュータ処理に適した形式に変換する動作手順を示す図である。
まず、文書ファイル取込部12はスキャナ10を用いて紙媒体に印刷された画像を読み取ることにより、ファイル形式の変換処理の対象となるビットマップ形式の文書ファイルの取り込みを行う(ステップ100)。取り込まれた文書ファイルは文書ファイル格納部14に格納される。
次に、領域抽出部20は、文書ファイル格納部14に格納された文書ファイルを読み出して、その中に含まれるテキスト文書領域と非テキスト文書領域を抽出する(ステップ101)。この抽出処理においてレイアウト情報が作成され、文書ファイル格納部50に格納される(ステップ102)。
図9は、テキスト文書領域と非テキスト文書領域の抽出動作の説明図である。図9に示すように、スキャナ10の原稿台にセットされた紙媒体は、文字が含まれる2つのテキスト文書領域A1、A2と、イラストや地図、写真、図形が含まれる5つの非テキスト文書領域B1〜B5が含まれている。領域抽出部20は、これらの2つのテキスト文書領域A1、A2と5つの非テキスト文書領域B1〜B5を抽出する。
次に、領域抽出部20は、抽出した一の領域を選択し(ステップ103)、この選択した領域が非テキスト領域か否かを判定する(ステップ104)。選択された領域が非テキスト文書領域でない場合には否定判断が行われ、次に、テキスト処理部30は、文字認識処理部32による文字認識処理(ステップ105)、文章構文解析部34による文章構文解析処理(ステップ106)、文章構造化処理部36による文章構造化処理(ステップ107)を行ってテキスト情報を作成する(ステップ108)。作成されたテキスト情報は文書ファイル格納部50に格納される。
また、選択された領域が非テキスト文書領域の場合にはステップ104の判定において肯定判断が行われ、次に、非テキスト処理部40は、領域内グループ分析部42による部分画像の抽出処理(ステップ109)、関数化処理部44による各部分画像に対する関数化処理(ステップ110)を行って、非テキスト情報を作成する(ステップ111)。作成された非テキスト情報は文書ファイル格納部50に格納される。
その後、領域抽出部20は、未処理の領域があるか否かを判定する(ステップ112)。未処理の領域がある場合には肯定判断が行われ、次の一の領域を選択するステップ103以後の動作が繰り返される。また、全ての領域について処理が終了した場合にはステップ112の判定において否定判断が行われ、一連のファイル変換処理が終了する。
このように、本実施形態の文書処理装置では、非テキスト文書領域に含まれる図形や画像等の種類やデータの属性に関係なく関数化近似して得られた特徴量で非テキスト文書領域の内容を定義することが可能になり、テキスト文書領域と非テキスト文書領域とが混在する文書ファイルをその後に読み出して表示等の文書ファイル処理を行う場合の処理負担を軽減することができる。また、非テキスト文書領域に含まれる図形や画像等が関数化処理されるため、ビットマップ形式で画像データを保持する場合に比べてデータ量を削減することができる。
特に、非テキスト文書領域に含まれる一あるいは複数の部分画像に対する関数近似処理を、この部分画像の輪郭形状、濃度分布、色変化などを一あるいは複数の関数で近似して行うことにより、図形や2値画像、濃淡画像、カラー画像のそれぞれを同じ処理手順で関数近似することが可能になり、しかも、その後の文書ファイル処理によってこの部分画像を復元することができる。
また、テキスト文書領域の画素データに対して文字認識処理、文章構文解析処理、文章構造化処理を行うことにより、構造化解析されたテキスト情報が得られるため、その後にテキスト情報の内容を把握して表示や内容編集を行うことが容易となる。
次に、上述した文書処理装置を用いて作成された文書ファイルを用いて各種の処理を行う場合の具体例を簡単に説明する。例えば、各種の処理として、文書ファイルを用いた表示処理と検索処理について説明する。
文書ファイルの表示処理(例えば、コンピュータによって構成された文書表示装置によって行われる)は、以下の手順を実行することにより行われる。
(ステップa1)レイアウト情報を読み込む。
(ステップa2)テキスト情報を読み込む。
(ステップa3)テキスト文書領域内に含まれる各文字を復元する。
(ステップa4)非テキスト情報を読み込む。
(ステップa5)非テキスト文書領域内の各部分画像を復元する。
(ステップa6)テキスト文書領域と非テキスト文書領域とレイアウト情報に基づいて合成する。
(ステップa1)レイアウト情報を読み込む。
(ステップa2)テキスト情報を読み込む。
(ステップa3)テキスト文書領域内に含まれる各文字を復元する。
(ステップa4)非テキスト情報を読み込む。
(ステップa5)非テキスト文書領域内の各部分画像を復元する。
(ステップa6)テキスト文書領域と非テキスト文書領域とレイアウト情報に基づいて合成する。
このように、文書ファイル内の非テキスト文書領域の内容を表示する際に、元々の部分画像のファイル形式によらずに同じ処理手順で部分画像の内容を復元することが可能になり、表示処理手順を簡略化することができる。
また、文書ファイルを用いた検索処理(例えば、コンピュータによって構成された文書検索装置によって行われる)は、以下の手順を実行することにより行われる。例えば、検索対象となる画像が指定され、非テキスト文書領域にこの検索対象画像と一致(あるいは類似)する部分画像が含まれているか否かを検索する動作が行われる。また、検索対象画像に対応する関数化近似処理がその都度あるいは前処理によって行われ、図7に示した特徴量の一部あるいは全部が検索処理前に抽出されているものとする。
(ステップb1)検索対象図形を指定する。
(ステップb2)文書ファイルの非テキスト文書領域に含まれる一あるいは複数の部分画像に対応する非テキスト情報(関数近似処理によって得られた特徴量)を読み出す。
(ステップb3)検索対象画像の特徴量と非テキスト文書領域内の各部分画像の特徴量とを比較して、検索対象画像に類似する部分画像の有無を判定する(あるいは各部分画像の類似度を判定する)。例えば、特徴量の中の輪郭長(輪郭線の長さ)、輪郭数(輪郭線の数)、輪郭線を構成する複数の関数の順番、輪郭線を構成する複数の関数のそれぞれに対応する区間長の並びの中の一つあるいは複数に着目して、それらの値が近いものほど類似度が高いと判定される。このような画像比較は、従来のビットマップ形式の画像データの場合には複雑な処理が必要であったが、本実施形態のように関数近似によって得られた特徴量を用いた場合には比較的簡単な処理で実施することができる。
(ステップb1)検索対象図形を指定する。
(ステップb2)文書ファイルの非テキスト文書領域に含まれる一あるいは複数の部分画像に対応する非テキスト情報(関数近似処理によって得られた特徴量)を読み出す。
(ステップb3)検索対象画像の特徴量と非テキスト文書領域内の各部分画像の特徴量とを比較して、検索対象画像に類似する部分画像の有無を判定する(あるいは各部分画像の類似度を判定する)。例えば、特徴量の中の輪郭長(輪郭線の長さ)、輪郭数(輪郭線の数)、輪郭線を構成する複数の関数の順番、輪郭線を構成する複数の関数のそれぞれに対応する区間長の並びの中の一つあるいは複数に着目して、それらの値が近いものほど類似度が高いと判定される。このような画像比較は、従来のビットマップ形式の画像データの場合には複雑な処理が必要であったが、本実施形態のように関数近似によって得られた特徴量を用いた場合には比較的簡単な処理で実施することができる。
このように、非テキスト文書領域に含まれる部分画像に対して元々の部分画像のファイル形式によらずに同じ処理手順で検索を行うことが可能になり、検索処理手順を簡略化することができる。
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能である。例えば、上述した実施形態では、スキャナ10を用いて紙媒体の文書を読み込んで文書ファイルを作成したが、ワープロソフトで作成した文書ファイルや、HTML形式等の文書ファイルを文書ファイル取込部12によって直接取り込むようにしてもよい。この場合には、テキスト処理部30内の文字認識処理32による文字認識処理が不要となる。また、構造化処理された後のテキスト情報を用いたが、テキスト情報については文字の表示や編集ができればよい場合もあり、このような場合には、テキスト処理部30内の文章構文解析部34や文章構造化処理部36による処理を省略してもよい。
10 スキャナ
12 文書ファイル取込部
14、50 文書ファイル格納部
20 領域抽出部
30 テキスト処理部
32 文字認識処理部
34 文章構文解析部
36 文章構造化処理部
40 非テキスト処理部
42 領域内グループ分析部
44 関数化処理部
12 文書ファイル取込部
14、50 文書ファイル格納部
20 領域抽出部
30 テキスト処理部
32 文字認識処理部
34 文章構文解析部
36 文章構造化処理部
40 非テキスト処理部
42 領域内グループ分析部
44 関数化処理部
Claims (10)
- 文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出手段と、
前記領域抽出手段によって抽出された前記非テキスト文書領域に含まれる1つ以上の部分画像を抽出する部分画像抽出手段と、
前記部分画像抽出手段によって抽出された前記部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理手段と、
前記テキスト文書領域に対応するテキスト情報とともに、前記関数化処理手段によって抽出された特徴量を格納する文書情報格納手段と、
を備えることを特徴とする文書処理装置。 - 請求項1において、
前記関数近似処理手段は、前記部分画像の輪郭形状、濃度分布、色変化などを一あるいは複数の関数で近似する処理を行うことにより前記特徴量の抽出を行うことを特徴とする文書処理装置。 - 請求項1または2において、
紙媒体に印刷された画像を光学的に読み取って前記文書ファイルを作成する文書ファイル取込手段をさらに備えることを特徴とする文書処理装置。 - 請求項3において、
前記部分画像抽出手段によって抽出された前記テキスト文書領域に含まれるテキスト内容を文字認識処理によって取得する文字認識処理手段と、前記文字認識処理手段によって取得されたテキスト内容に対して構造化処理を行って前記テキスト内容に属性情報を付加した前記テキスト情報を作成する構造化処理手段とを有するテキスト文書処理手段をさらに備えることを特徴とする文書処理装置。 - 文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出ステップと、
前記領域抽出ステップによって抽出された前記非テキスト文書領域に含まれる1つ以上の部分画像を抽出する部分画像抽出ステップと、
前記部分画像抽出ステップによって抽出された前記部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理ステップと、
前記テキスト文書領域に対応するテキスト情報とともに、前記関数化処理ステップによって抽出された特徴量を格納する文書情報格納ステップと、
を有することを特徴とする文書処理方法。 - 請求項5において、
紙媒体に印刷された画像を光学的に読み取って前記文書ファイルを作成する文書ファイル取込ステップをさらに有することを特徴とする文書処理方法。 - コンピュータを、
文書ファイルに含まれるテキスト文書領域と非テキスト文書領域を抽出する領域抽出手段と、
前記領域抽出手段によって抽出された前記非テキスト文書領域に含まれる1つ以上の部分画像を抽出する部分画像抽出手段と、
前記部分画像抽出手段によって抽出された前記部分画像に対して関数化近似処理を行って特徴量を抽出する関数化処理手段と、
前記テキスト文書領域に対応するテキスト情報とともに、前記関数化処理手段によって抽出された特徴量を格納する文書情報格納手段と、
して機能させる文書処理プログラム。 - 請求項7において、
コンピュータを、さらに、紙媒体に印刷された画像を光学的に読み取って前記文書ファイルを作成する文書ファイル取込手段として機能させる文書処理プログラム。 - 請求項1〜4のいずれかに記載された前記文書情報格納手段から前記レイアウト情報と前記テキスト情報と前記特徴量を読み出し、前記特徴量に基づいて前記部分画像を復元するとともに前記テキスト情報に基づいて前記テキスト文書領域に含まれる文字を復元し、前記レイアウト情報に基づいてこれらの復元された部分画像と文字の合成を行うことを特徴とする文書表示装置。
- 請求項1〜4のいずれかに記載された前記文書情報格納手段に格納された前記特徴量と、検索対象画像に対応する前記特徴量とに基づいて、前記検索対象画像に類似する前記部分画像の有無を判定することを特徴とする文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005150405A JP2006330875A (ja) | 2005-05-24 | 2005-05-24 | 文書処理装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005150405A JP2006330875A (ja) | 2005-05-24 | 2005-05-24 | 文書処理装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006330875A true JP2006330875A (ja) | 2006-12-07 |
Family
ID=37552531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005150405A Pending JP2006330875A (ja) | 2005-05-24 | 2005-05-24 | 文書処理装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006330875A (ja) |
-
2005
- 2005-05-24 JP JP2005150405A patent/JP2006330875A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8155445B2 (en) | Image processing apparatus, method, and processing program for image inversion with tree structure | |
US7460710B2 (en) | Converting digital images containing text to token-based files for rendering | |
US8428356B2 (en) | Image processing device and image processing method for generating electronic document with a table line determination portion | |
JP3904840B2 (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
US20070237394A1 (en) | Image processor for character recognition | |
US6711292B2 (en) | Block selection of table features | |
CN112069991A (zh) | 一种pdf的表格信息提取方法及相关装置 | |
JP4408495B2 (ja) | 画像処理方法及び画像処理装置 | |
JP4565396B2 (ja) | 画像処理装置および画像処理プログラム | |
JP5335581B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2008282149A (ja) | 画像処理装置、画像処理方法、画像処理プログラム | |
JP2008028716A (ja) | 画像処理方法及び装置 | |
JP2002342710A (ja) | 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム | |
JP4230478B2 (ja) | 文書処理装置、方法およびプログラム | |
JP2006330875A (ja) | 文書処理装置、方法およびプログラム | |
JP2003046746A (ja) | 画像処理方法及び画像処理装置 | |
JPH08237404A (ja) | 光学文字認識モードの選択方法 | |
JP4079411B2 (ja) | 画像処理方法、画像処理装置、画像処理プログラムおよび画像処理プログラムが格納されたコンピュータ読み取り可能な記憶媒体 | |
JP4974367B2 (ja) | 領域分割方法及び装置、並びにプログラム | |
JP4243577B2 (ja) | 類似画像検索装置、方法およびプログラム | |
JPH05159062A (ja) | 文書認識装置 | |
JP4548062B2 (ja) | 画像処理装置 | |
JPH0728934A (ja) | 文書画像処理装置 | |
CN118196233A (zh) | 流程图重建方法、装置、电子设备和存储介质 | |
JPH10187878A (ja) | 表処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080318 |