JP3912463B2 - 論理構造抽出装置及び論理構造抽出方法 - Google Patents

論理構造抽出装置及び論理構造抽出方法 Download PDF

Info

Publication number
JP3912463B2
JP3912463B2 JP27498598A JP27498598A JP3912463B2 JP 3912463 B2 JP3912463 B2 JP 3912463B2 JP 27498598 A JP27498598 A JP 27498598A JP 27498598 A JP27498598 A JP 27498598A JP 3912463 B2 JP3912463 B2 JP 3912463B2
Authority
JP
Japan
Prior art keywords
logical structure
area
region
logical
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27498598A
Other languages
English (en)
Other versions
JP2000105836A (ja
Inventor
宏之 左右田
正治 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP27498598A priority Critical patent/JP3912463B2/ja
Publication of JP2000105836A publication Critical patent/JP2000105836A/ja
Application granted granted Critical
Publication of JP3912463B2 publication Critical patent/JP3912463B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書画像から論理構造を抽出する論理構造抽出装置および論理構造抽出方法に関するものである。
【0002】
【従来の技術】
近年、紙等に印刷された文書を画像読取装置等で電子化し、活用しようとする試みが盛んに行われている。電子化された文書を利用する際に用いられる技術の一つとして文字認識がある。文字認識は、電子化された文書画像からテキスト情報を抽出する技術である。抽出したテキスト情報は、例えば他の文書に再利用したり、全文検索などに利用されている。
【0003】
文字認識には、前処理として、文書画像をテキスト領域、図形領域などに正確に分離する領域分割と呼ばれる処理が必要であり、従来、文書画像の様々な特徴量を用いた領域分割手法が提案されてきた。例えば、秋山ほか,「周辺分布、線密度、外接矩形特徴量を併用した文書画像の領域分割」,電子通信学会論文誌(D−II),Vol.J86−D,No.8,pp.1187−1196,1986、田中ほか,「文書画像の書式解析」,電子通信学会研究報告PRU86−115,pp.33−40,1996、特開平5−266249号公報、特開平5−277472号公報、特開平5−290211号公報、特開平7−73271号公報など、多数の文献に各種の手法が提案されている。
【0004】
しかしながら、文書には様々なレイアウトのものがあり、あらゆる文書に対応できる領域分割手法はこれまでに開発されていない。また、学術論文などのように同じようなレイアウトの文書であっても、文字サイズ、文字間隔、行間隔などが微妙に異なっている。そのため、レイアウトがほとんど同じ文書に対して同一の領域分割手法を適用しても、領域分割結果は異なってしまう。
【0005】
一方、文書画像の各領域の幾何学的特徴や文字認識結果などを利用して文書の論理構造を抽出し、より高度な文書処理を行おうとする試みがある。例えば、山田,「文書画像のODA論理構造化文書への変換方式」,電子通信学会論文誌(D−II),Vol.J76−D−II,No.11,pp.2274−2284,1993には、文書画像から抽出した各領域の幾何学的特徴と、予め登録してある文書クラスの幾何学的特徴とのマッチング処理によって論理構造を生成する方法が記載されている。また、例えば特開平8−6945号公報には、文書画像中の各行単位で辞書パターンとのマッチング処理を行い、その結果を用いて文書の論理構造を解析する方法が記載されている。
【0006】
しかし、これらの手法を含め、これまでに提案されている論理構造抽出手法では、実際に論理構造抽出手段において論理構造を抽出する前に、その論理構造抽出手段が想定している幾何学的構造に文書画像が領域分割されている必要があった。
【0007】
しかしながら、上述のように、単一の領域分割手法あるいは領域分割パラメータでは、様々な文書に対して所望の領域分割結果を得ることは不可能に近い。そのため、例えば特開平9−114923号公報では、このような領域分割の困難さを指摘し、同一の文書画像を2つ以上のパラメータあるいは方法で領域分割し、複数の領域分割結果をユーザに提示し、ユーザに選択させる領域分割装置を提案している。しかし、この文献に記載されている領域分割装置では、領域分割結果の選択をユーザが行わなければならないため、最終的な目的である文字認識あるいは論理構造抽出までを自動的に行うことができず、ユーザの負担が重くなるという欠点がある。また、2つ以上の領域分割結果をコンピュータのメモリ上に記憶する必要があり、占有する記憶容量の増大を招き、システム全体の処理速度が低下する恐れがあるという問題もある。
【0008】
【発明が解決しようとする課題】
本発明は、上述した事情に鑑みてなされたもので、ユーザやシステム全体に負担をかけることなく、様々な体裁の文書に対して、高精度に論理構造を抽出することができる論理構造抽出装置および論理構造抽出方法を提供することを目的とするものである。
【0009】
【課題を解決するための手段】
本発明は、文書画像から論理構造を抽出する論理構造抽出装置および論理構造抽出方法において、設定されているパラメータに従って文書画像の領域分割を領域分割手段が行い、論理構造指定手段によって指定された構造を論理構造抽出手段で抽出する。この論理構造抽出手段における論理構造の抽出前に、領域分割手段による領域分割の結果が、論理構造抽出手段が想定する論理構造であるか否かを領域構造判定手段で判定し、領域分割の結果が論理構造抽出手段が想定する論理構造でないと判定されたとき、領域分割手段において領域分割の際に用いるパラメータを可変設定し、領域分割をやり直す。このような処理を繰り返すことによって、指定された構造を自動的に、しかも高精度に抽出することができる。
【0010】
パラメータの可変設定の際に、論理構造指定手段で指定された論理構造の要素が存在しない場合には、論理構造指定手段で指定された論理構造の幾何学的制約条件から、指定された論理構造が得られる確率が高くなるようにパラメータを設定することができる。
【0011】
また本発明は、文書画像から論理構造を抽出する論理構造抽出装置において、さらに、それぞれ異なる論理構造を抽出する複数の論理構造抽出手段を有し、領域分割手段による領域分割の結果が複数の前記論理構造抽出手段のうちのいずれが想定する論理構造であるかを判定して複数の前記論理構造抽出手段から1つを選択するように構成することもできる。この場合には、複数の論理構造抽出手段を選択的に用いることによって、論理構造を抽出する精度をさらに向上させることができる。同様に文書画像から論理構造を抽出する論理構造抽出方法において、文書画像の領域分割を行い、領域分割の結果が想定されている複数の論理構造のいずれであるかを判定し、その判定結果に従って指定された論理構造を抽出するように構成することができる。
【0012】
この場合にも、領域分割手段による領域分割の結果が複数の前記論理構造抽出手段のいずれの想定する論理構造でもない場合に、領域分割手段において文書画像の領域分割を行う際に用いるパラメータを可変設定し、領域分割をやり直すように構成している。
【0013】
【発明の実施の形態】
図1は、本発明の論理構造抽出装置の第1の実施の形態を示すブロック図である。図中、1は画像入力部、2は文書画像管理部、3はパラメータ設定部、4は領域分割部、5は領域構造判定部、6は文字認識部、7は論理構造抽出部、8は構造化文書処理部、9は論理構造指定部である。
【0014】
画像入力部1は、例えば紙等の被記録媒体に印刷された文書を画像として電子化する。例えばスキャナやカメラなどの装置で構成することができる。なお、この画像入力部1を設けず、例えばネットワークや外部記憶装置などを介して文書画像が入力されてもよい。文書画像管理部2は、電子化された文書画像を格納、管理する。この文書画像管理部2に格納されている文書画像は、必要なときに取り出すことができる。
【0015】
パラメータ設定部3は、領域分割部4において文書画像を領域分割する際に用いる各種のパラメータを設定する。これらのパラメータを変化させることによって、同一文書画像に対して異なる領域分割の結果を領域分割部4から得ることができる。領域分割部4は、パラメータ設定部3で設定されたパラメータに従って、領域分割アルゴリズムに基づき、文書画像内のテキスト、図表などを個別の領域に分割する。
【0016】
領域構造判定部5は、領域分割部4による領域分割の結果が論理構造抽出部7が想定する論理構造になっているか否かを判断する。文字認識部6は、分割された各領域中のテキスト部分を探索して特定し、文字コードに変換するものである。
【0017】
論理構造抽出部7は、分割された各領域の幾何学的特徴とその領域中に含まれる文字コードなどの情報をもとに、各領域を必要に応じて分割・統合して、論理要素に対応させ、論理要素間の関係を決定し、論理構造を抽出する。
【0018】
構造化文書処理部8は、論理構造抽出部7の出力として得られた構造化文書を、ユーザの様々な要求に応じて文書処理を行う。例えば、論理構造を利用した検索のためのインデクスを作成したり、ある特定の論理要素を抽出してリストを作成するなどの処理を行うことができる。
【0019】
論理構造指定部9は、ユーザが予めどのような構造を抽出したいのかを指定する入力を受け付ける。この指定は、所定の文法に従って記述されているファイルを指定することによって行われる。
【0020】
図2は、本発明の論理構造抽出装置の第1の実施の形態における動作の一例を示すフローチャートである。ここでは予め画像入力部1から文書画像が入力されて、文書画像管理部2に格納、管理されているものとする。S11において、ユーザは論理構造指定部9から抽出すべき論理構造を指定する。また、S12において、パラメータ設定部3は領域分割部4に対して領域分割のためのパラメータの初期値をセットする。
【0021】
S13において、領域分割部4はパラメータ設定部3によって設定されたパラメータに従って、文書画像管理部2に格納されている文書画像の領域分割を行う。次にS14において、領域構造判定部5が必要とする領域(例えば1行のテキスト領域)のみ文字認識部6で文字認識を行い、S15において、領域構造判定部5によって論理構造抽出部7が想定する論理構造、すなわちS11でユーザが指定した抽出すべき論理構造か否かを判定する。
【0022】
領域構造判定部5による判定の結果、論理構造抽出部7が想定する論理構造でない場合には、S16においてパラメータ設定部3で領域分割のパラメータを変更し、S13へ戻って再度領域分割を行う。論理構造抽出部7が想定する論理構造であった場合には、S17において文字認識部6によりすべての領域の文字認識を行い、S18において論理構造抽出部7により各領域の幾何学的特徴と文字認識結果をもとにユーザが指定した論理構造を抽出する。抽出した論理構造は、構造化文書処理部8に送られて、各種の処理に用いられる。
【0023】
次に、上述の動作の一例を、具体例を用いながらさらに説明する。まず、抽出すべき論理構造の指定について説明する。図3は、論理構造の指定に用いられるファイルの内容の一例の説明図である。上述のように、抽出すべき論理構造の指定は、所定の文法に従って記述されているファイルを指定することによって行われる。例えば指定に用いるファイルの内容は、図3に示すようなテキストで表現することができる。図3に示す例では、「Name」、「Elements」、「Constraints」、「Products」の4つの部分から構成されている。部分「Name」は、出力すべき論理構造の名前を示す。部分「Elements」では、必要となる要素が指定される。部分「Constraints」では、要素間の幾何学的な関係を示す。部分「Products」では、結果をどのように出力するかを指定するものである。
【0024】
図3に示した例は、参考文献リストを想定している。参考文献リストは、“文献”あるいは“参考文献”という文字列からなる1行の見出しと、その直下にある文献情報から構成され、「見出し」要素は、「文献情報」要素に対して「centered」、もしくは「left−align」という幾何学的構造を持つことが示されている。「centered」はセンタリングを示し、「left−align」は左寄せを示す述語で、予め組み込まれている幾何学的関係判定関数である。「centered」関数は、2つの要素を引数とし、各要素の外接矩形のx座標の中心が、定められたしきい値以下である場合は真を返す。「left−align」関数は、2つの要素の外接矩形のx座標の最小値が、定められたしきい値以下である場合は真を返す。
【0025】
部分「Products」の指定では、「文献情報」要素中の行矩形を順番に調べる手続きが記述されている。図4は、論理構造の指定に用いられるファイルの内容の一例における出力手続の説明図である。L1〜L4は行矩形である。まず、最初の行矩形L1の内容を変数Yに格納するとともに、その行矩形L1の左端のx座標を変数X1にセットする。そして次の行矩形の処理を行うように、変数jを2にセットする。
【0026】
j番目の行矩形である行矩形Ljの有無を判定後、行矩形Ljを変数lに格納し、変数Yに何も格納されていなければ、文献の1行目として変数Yに変数lを格納する。変数Yに格納されていれば、さらに行矩形Ljの左端が変数X1からしきい値T以上のインデントが付けられているか否かを判定し、しきい値T以上のインデントがある場合には、変数Yに変数lを追加する。そうでない場合は、変数Yを「文献」という要素として結果を出力し、変数Yをクリアする。このような処理を「文献情報」要素中のすべての行矩形に対して実行した後、処理を終了する。
【0027】
このような処理によって、例えば図4に示す例においては、行矩形L1〜L3は順に変数Yに追加され、ひとまとまりとなって「文献」要素として出力される。その後、新たに行矩形L4が変数Yに格納されて、次の「文献」要素の抽出が行われる。
【0028】
図3に示したファイルの内容は、このような参考文献リストの論理構造を抽出し、出力することを示している。ユーザは、このようなファイルを指定することによって、抽出すべき論理構造の指定を行うことができる。
【0029】
次に、パラメータ設定部3が領域分割部4に対して設定する領域分割のためのパラメータについて説明する。パラメータ設定部3は、領域分割部4における領域分割処理の実行時に必要となるパラメータを組にしてパラメータセットとし、そのパラメータセットを複数保持している。図5は、パラメータセットの一例の説明図である。図5に示す例では、パラメータとして、後述する垂直方向セパレータ幅しきい値、水平方向セパレータ長さしきい値を示しているが、このほかにも多数のパラメータを設定しておくことができる。各パラメータの値の集合、すなわち図5に示す各行が、各パラメータセットを示している。各パラメータセットには通し番号が付されており、各パラメータセットが識別される。もちろん、パラメータ設定部3では、このようなパラメータセットを予め設定しておくほか、各パラメータをそれぞれ動的に変更可能に構成してもよい。
【0030】
ここで、領域分割部4による領域分割結果の変動と、その変動に対する対処方法について、図6〜図9を用いて詳細に説明する。図6は、参考文献が記載された文書画像の具体例の説明図、図7は、3つの領域に、図8は、2つの領域にそれぞれ分割された状態の説明図、図9は、1つの領域とみなされた状態の説明図である。図中、21,22は白セパレータ候補領域、23〜28は分割領域である。ここでは、領域分割部4において領域分割を行うときには、白セパレータと呼ばれる領域の有無を基準に行う場合を示している。まず、文書画像から白セパレータを求める。白セパレータは、白画素(文字などが印刷されていない部分の画素)が水平方向あるいは垂直方向にある一定の幅だけ連続した領域であり、水平方向に長い水平白セパレータと、垂直方向に長い垂直白セパレータがある。
【0031】
図6に示した文書画像の例には、水平あるいは垂直の白セパレータの候補がたくさんあるが、ここでは、ハッチングを施して示した白セパレータ候補領域21,22を例に説明する。文字「文献」の下部には、白画素が幅HspW、長さHspLで連続する白セパレータ候補領域21が存在する。この白セパレータ候補領域21が次の条件
HspW>Wh かつ HspL>Lh …条件(1)
を満たせば、水平白セパレータであるとみなす。しかし、パラメータWhあるいはLhが大きく設定され、条件(1)を満たさないとこの領域に水平白セパレータはないとみなされる。ここで、Whは水平方向セパレータ幅しきい値、Lhは水平方向セパレータ長さしきい値を示すパラメータである。
【0032】
同様に、白セパレータ候補領域22は、次の条件
VspW>Wv かつ VspL>Lv …条件(2)
を満たせば、垂直白セパレータとみなす。この条件(2)を満たさない場合には、この領域に垂直セパレータはないものとみなされる。ここで、Wvは垂直方向セパレータ幅しきい値、Lvは垂直方向セパレータ長さしきい値を示すパラメータである。上述のパラメータWh,Lhとともに、これらのパラメータはパラメータ設定部3によって設定される。
【0033】
図7に示した例では、白セパレータ候補領域21,22とも、それぞれ条件(1),(2)を満たし、それぞれ水平白セパレータ、垂直白セパレータとみなされた例を示している。文書画像は、図7に示すように分割領域23〜25の3つの領域に分割されている。
【0034】
図8に示した例では、白セパレータ候補領域21は条件(1)を満たし、水平白セパレータとみなされたが、白セパレータ候補領域22は条件(2)を満たさなかったため、垂直白セパレータがなくなった場合を示している。この場合には、分割領域26と、領域24と領域25が統合された分割領域27の2つの領域に分割されている。
【0035】
図9に示した例では、白セパレータ候補領域21,22とも、それぞれ条件(1),(2)を満たさず、水平、垂直白セパレータがない場合を示している。この場合には、分割領域28にすべて統合されている。
【0036】
図7〜図9を参照してわかるように、連続する白画素をセパレータとみなすか否かは領域分割のためのパラメータによって変化し、領域分割の結果も変わってくる。また、同じフォーマットを用いた文書であっても、各文書によって文字サイズ、文字間隔、行間隔などが微妙に異なることから、同一のパラメータであっても異なった領域分割結果が得られる。
【0037】
ところで、論理構造抽出部7は、論理構造指定部9によって指定された論理構造から所定の手順で論理構造の要素を抽出する。例えば、上述の図3に示した内容のファイルがユーザによって指定されたとき、図4を用いて説明したように、図8に示す分割領域が得られることを想定し、各参考文献要素を抽出する処理が記述されている。この場合、まず図3に示した部分「Elements」で指定されている要素「見出し」にマッチする要素、すなわち“文献”あるいは“参考文献”という単語を含む1行の領域を探索する。図8に示す例では、分割領域26がマッチする。次に、直下にある分割領域27を取り出して、指定されている幾何学的構造を満たすか否かの判定を行う。図8に示す例では、図3に示す部分「Constraints」に記述されている幾何学的構造のうち、関係「centered」を満たすので、分割領域27は指定された要素「文献情報」にマッチする。あとは、指定されたファイル内の部分「Products」に記述された手続きに従って「文献」要素が出力される。
【0038】
以上の手順で図6に示す文書画像から参考文献の要素を抽出する場合、図7に示す分割領域の構造では分割領域25内の各行がすべて同じ開始位置から始まるので、各参考文献要素の区切りを把握できず、文献要素を抽出することができない。また、図9に示すように一体化した分割領域28として領域分割された場合、「文献」または「参考文献」という1行のみの分割領域がないため、上述の手順では参考文献の領域を特定できない。
【0039】
領域構造判定部5では、例えば図8に示したように分割領域の構造が、ユーザが指定した図3に示すファイルの内容で示される論理構造になっているか否かを判定する。例えば図7や図9に示すように領域分割されている場合には、指定された論理構造になっていないものと判定する。この場合、パラメータ設定部3に対してパラメータを変更させ、領域分割をやり直す。もちろん、一度実施したパラメータセットの番号は記憶しておき、二度と実施することはないように制御する。図8に示すような領域分割の結果が得られたら、論理構造抽出部7において、上述のようにして論理構造を抽出する。
【0040】
このようにして、1回目の領域分割で想定する論理構造が得られなければ、領域分割のためのパラメータを変化させて領域分割を繰り返すことにより、様々な文書画像に対応し、指定された論理構造を抽出することができる。
【0041】
本発明の論理構造抽出装置の第2の実施の形態について説明する。この第2の実施の形態における構成は、図1と同様である。この第2の実施の形態では、上述の第1の実施の形態においてパラメータセットの変更を行う際に、領域分割の結果が想定する論理構造となる確度の高いパラメータの設定方法を用いた例を示している。
【0042】
まず、パラメータ設定部3におけるパラメータセットの保持方法について、一部変更する。図10は、パラメータセットの別の例の説明図である。パラメータセットは、上述したように領域分割部4の処理実行時に必要となるパラメータを組にしたものである。図10に示したパラメータセットの例では、図5に示したパラメータに加え、垂直方向分離度、水平方向分離度という2つの属性が付与されている。垂直方向分離度は、垂直方向の白セパレータによって、要素を分離する度合いを示すものである。同様に水平方向分離度は、水平方向の白セパレータによって要素を分離する度合いを示すものである。ともに値は整数値を取るものとし、大きくなるほど分離しやすい、すなわち小さなしきい値で白セパレータを採用することを意味する。この値は、単に大小関係がわかれば任意のものでかまわない。
【0043】
例えば図6に示した文書画像を、図10に示す通し番号1のパラメータセットを用いて領域分割を行ったとき、上述の図7に示すように3つの分割領域23〜25に分割された領域分割結果を得たとする。このとき、「見出し」要素の下にセンタリングされているあるいは左寄せになっている要素が存在しない。このとき、直下の分割領域25のx座標の中心に対して左に、左辺に対して右に「見出し」要素が存在することがわかる。このときの可能性としては、
(1)直下の要素が右側の他の要素と誤統合されている。(センタリング)
(2)直下の要素の左側にある白セパレータで誤分割されている。(センタリング)
(3)直下の要素の左側の他の要素と誤統合されている。(左寄せ)
の3つの可能性がある。
【0044】
これらの可能性は、幾何学的条件判定関数「centered」、「left−aligned」を評価する際に、その関数の中で条件を満たさなかった場合に、これらの可能性があるか否かを判定する。(1),(3)の可能性については、白セパレータの存在範囲が推定できるので、推定した白セパレータの存在範囲に白セパレータが存在するか否かを調べる。もし白セパレータが存在したならば、垂直方向のセパレータの幅のしきい値が大きすぎたとして、垂直方向分離度を上げるフラグを立てる。(2)の可能性については、左側の要素の存在範囲を推定して、そこに要素が存在していれば、垂直方向のセパレータの幅のしきい値が小さすぎたとして、垂直方向分離度を下げるフラグを立てる。
【0045】
図11、図12は、本発明の論理構造抽出装置の第2の実施の形態における分離度の変更の具体例の説明図である。図中、31,32は白セパレータの探索範囲、33は要素の探索範囲である。図7に示したように領域分離された場合、まず(1)の可能性については、「見出し」要素である分離領域23のx座標の中心位置を中心として、分離領域25の左端までの距離と同じ距離となる右側位置付近の所定範囲を図11に示す探索範囲31とし、白セパレータが存在しているか否かを調べればよい。また、(3)の可能性については、「見出し」要素である分離領域23の左端付近の所定範囲を図11に示す探索範囲32として、分離領域25内に白セパレータが存在しているか否かを調べればよい。この例では、図11に示すように、(1),(3)の可能性はないことがわかる。
【0046】
一方、(2)の可能性については、図12に示すように、「見出し」要素である分離領域23のx座標の中心位置を中心として、分離領域25の右端までのx方向の距離を左側に伸ばして探索範囲33を仮定する。この探索範囲33に別の要素が含まれているか否かを調べればよい。この例では、図12に示すように探索範囲33内に分割領域24が含まれることが確認できる。
【0047】
従って、垂直方向分離度を下げるフラグが立つことになる。これによって、前回実施した領域分割の際のパラメータセットより垂直方向分離度の低いパラメータセットをパラメータ設定部3で選択し、再び領域分割部4で領域分割処理を実行する。この領域分割処理を、対象領域だけでなく、文書画像全体に改めて実施するのは、領域の再分割や統合によって、他の論理構造に影響を与える場合が考えられるからである。
【0048】
上述の第1の実施の形態と同様、この第2の実施の形態においても、水平方向分離度、垂直方向分離度を変化させるフラグが両方とも立っていない場合には、パラメータ設定部3において任意の順にパラメータセットを適用する。また、両方のフラグが立っている場合には、いずれかのフラグを優先したり、あるいは任意の順にパラメータセットを適用することができる。
【0049】
このようにしてパラメータセットを変更しながら、指示された論理構造が得られるように、領域分割処理を繰り返すことになる。しかしこの第2の実施の形態では、指定された論理構造が得られる確率が高くなるように、パラメータセットの適用を制御するので、領域分割のリトライを減少させ、より高速に精度よく領域分割を行うことができる。
【0050】
図13は、本発明の論理構造抽出装置の第3の実施の形態を示すブロック図である。図中、図1と同様の部分には同じ符号を付して説明を省略する。41〜43は論理構造抽出部、44は論理構造抽出方法選択部である。この第3の実施の形態では、複数の論理構造抽出部41〜43を有した構成を示している。複数の論理構造抽出部41〜43は、それぞれ異なる論理構造抽出方法によって、所定の論理構造を抽出する。なお、この例では論理構造抽出部が3つの場合を示しているが、2つあるいは4つ以上であってももちろんよい。
【0051】
領域構造判定部5は、領域分割部4による領域分割の結果が論理構造抽出部41〜43のいずれが想定する論理構造になっているか、あるいは複数の論理構造抽出部41〜43のいずれの想定する論理構造でもないかを判断する。論理構造抽出方法選択部44は、領域構造判定部5において、領域分割部4による領域分割の結果が論理構造抽出部41〜43のいずれで想定する論理構造かの判定結果に従い、論理構造抽出部41〜43のいずれかを選択して、抽出された論理構造を構造化文書処理部8に出力する。
【0052】
図14は、本発明の論理構造抽出装置の第3の実施の形態における動作の一例を示すフローチャートである。この例においても、予め画像入力部1から文書画像が入力されて、文書画像管理部2に格納、管理されているものとする。また、抽出すべき論理構造は予め設定されており、各論理構造抽出部41〜43ではその予め設定された論理構造を抽出するための異なる抽出方法が設定されているものとする。
【0053】
まずS51において、パラメータ設定部3は領域分割部4に対して領域分割のためのパラメータの初期値をセットする。そしてS52において、領域分割部4はパラメータ設定部3によって設定されたパラメータに従って、文書画像管理部2に格納されている文書画像の領域分割を行う。次にS53において、領域構造判定部5が必要とする領域のみ文字認識部6で文字認識を行い、S54において、領域構造判定部5によって論理構造抽出部41〜43のいずれかが想定する論理構造であるか否かを判定する。
【0054】
領域構造判定部5による判定の結果、論理構造抽出部41〜43のいずれの想定する論理構造でもない場合には、S55においてパラメータ設定部3で領域分割のパラメータを変更し、S52へ戻って再度領域分割を行う。論理構造抽出部41〜43のいずれかが想定する論理構造であった場合には、S56において、論理構造抽出方法選択部44によって論理構造の抽出が可能な論理構造抽出部を選択する。S57において、文字認識部6によりすべての領域の文字認識を行い、S58において、S56で選択された論理構造抽出部により各領域の幾何学的特徴と文字認識結果をもとに論理構造を抽出する。抽出した論理構造は、論理構造抽出方法選択部44を介して構造化文書処理部8に送られて、各種の処理に用いられる。
【0055】
この第3の実施の形態では、上述の第1の実施の形態では対処できない事例に対応することができる。その具体例を図15〜図17を用いて詳細に説明する。図15は、文書画像の別の具体例の説明図、図16は、4つの領域に分割された状態の説明図、図17は、1つの領域とみなされた状態の説明図である。図中、61〜65は分割領域である。
【0056】
図15に示した文書画像の具体例では、2段組の印刷がなされている。そしてその右側の段組内に参考文献の記載が存在する。ここでは、このような文書画像から、参考文献の構造を抽出するものとする。
【0057】
領域分割部4において、上述の第1の実施の形態で説明したように白セパレータを用いて領域分割処理を行う。水平方向、垂直方向とも白セパレータとみなす空白の幅Wを小さくした場合には、図16に示すように、分割領域61〜64の4つの分割領域に分割される。ここで、左段の文章を含む分割領域61と参考文献番号を含む分割領域62との間隔と、分割領域62と参考文献内容を含む分割領域64との間隔がほぼ等しいとする。
【0058】
このような文献の場合、垂直方向のセパレータとみなす空白の幅Wをある一定以上大きくすると、垂直方向のセパレータが存在しなくなり、図17に示すように一つの分割領域65に統合されてしまう。しかしながら、図17に示すような分割領域の構造では、本来2段組であるのものが1段組とみなされているから、文字認識により左段1行目の後に右段1行目が来るなどといった認識結果となり、意味をなさなくなる。よってこの文書画像の場合には、上述の第1の実施の形態で採用した図8に示す分割領域の構造は採用できず、図7に示した分割領域の構造を採用して右段の分割領域62〜64から参考文献の論理構造を抽出する必要がある。
【0059】
図7に示した分割領域の構造を想定した論理構造の抽出方法としては、例えば、参考文献番号を含む分割領域24から各文献番号の垂直方向位置を求め、この位置を目安に参考文献内容を含む分割領域25から各参考文献の要素を抽出する方法が考えられる。このような方法を図16に示した分割領域62〜64に適用し、参考文献の構造を抽出することができる。
【0060】
上述の第1の実施の形態では、論理構造抽出部7を一つだけ備えているため、例えば図8に示した分割領域の構造がユーザから指定された場合には、図7に示した分割領域の構造から論理構造を抽出することができなかった。しかし、この第3の実施の形態では、複数の論理構造抽出部を備えているので、例えば図7に示した分割領域の構造を想定した論理構造抽出部41と、図8に示した分割領域の構造を想定した論理構造抽出部42を備えていれば、そのいずれの構造に領域分割された場合でも、参考文献の論理構造を抽出することができる。
【0061】
このように、この第2の実施の形態では、複数の論理構造抽出部を備えることによって、領域分割部4によって領域分割された結果が異なっていても、所望の論理構造を抽出することができ、抽出率を向上させることができる。
【0062】
【発明の効果】
以上の説明から明らかなように、本発明によれば、領域分割手段による領域分割の結果が、論理構造抽出手段で想定する論理構造と異なる場合でも、自動的に領域分割のパラメータを変化させて再度領域分割を行って論理構造抽出手段で想定する論理構造を生成し、論理構造を抽出する。あるいは、異なる論理構造を想定した複数の論理構造抽出手段を設け、そのいずれかで論理構造を抽出する。これによって、様々な文書から高い精度で自動的に論理構造を抽出することができる。
【0063】
さらに、求める構造が部分的に得られている場合は、その幾何学的な制約条件を用いて、その制約条件を満たす解釈が得られる可能性が高い領域分割のためのパラメータを自動的に選択することにより、さらなる効率化を図ることができるという効果がある。
【図面の簡単な説明】
【図1】 本発明の論理構造抽出装置の第1の実施の形態を示すブロック図である。
【図2】 本発明の論理構造抽出装置の第1の実施の形態における動作の一例を示すフローチャートである。
【図3】 論理構造の指定に用いられるファイルの内容の一例の説明図である。
【図4】 論理構造の指定に用いられるファイルの内容の一例における出力手続の説明図である。
【図5】 パラメータセットの一例の説明図である。
【図6】 参考文献が記載された文書画像の具体例の説明図である。
【図7】 図6に示す文書画像が3つの領域に分割された状態の説明図である。
【図8】 図6に示す文書画像が2つの領域に分割された状態の説明図である。
【図9】 図6に示す文書画像が1つの領域とみなされた状態の説明図である。
【図10】 パラメータセットの別の例の説明図である。
【図11】 本発明の論理構造抽出装置の第2の実施の形態における分離度の変更の具体例の説明図である。
【図12】 本発明の論理構造抽出装置の第2の実施の形態における別の分離度の変更の具体例の説明図である。
【図13】 本発明の論理構造抽出装置の第3の実施の形態を示すブロック図である。
【図14】 本発明の論理構造抽出装置の第3の実施の形態における動作の一例を示すフローチャートである。
【図15】 文書画像の別の具体例の説明図である。
【図16】 図15に示す文書画像が4つの領域に分割された状態の説明図である。
【図17】 図15に示す文書画像が1つの領域とみなされた状態の説明図である。
【符号の説明】
1…画像入力部、2…文書画像管理部、3…パラメータ設定部、4…領域分割部、5…領域構造判定部、6…文字認識部、7…論理構造抽出部、8…構造化文書処理部、9…論理構造指定部、21,22…白セパレータ候補領域、23〜28…分割領域、31,32…白セパレータの探索範囲、33…要素の探索範囲、41〜43…論理構造抽出部、44…論理構造抽出方法選択部、61〜65…分割領域。

Claims (6)

  1. 文書画像から論理構造を抽出する論理構造抽出装置において、設定されているパラメータに従って文書画像の領域分割を行う領域分割手段と、必要となる論理構造を指定する論理構造指定手段と、前記論理構造指定手段によって指定された構造を抽出する論理構造抽出手段と、前記領域分割手段による領域分割の結果が前記論理構造抽出手段が想定する論理構造であるか否かを判定する領域構造判定手段と、前記領域分割手段で文書画像を領域分割する際に用いる前記パラメータを可変設定するパラメータ設定手段を有し、前記領域構造判定手段において前記領域分割の結果が前記論理構造抽出手段が想定する論理構造でないと判定されたとき、前記パラメータ設定手段で前記パラメータを変更し、変更されたパラメータを用いて前記領域分割手段が領域分割をやり直すことを特徴とする論理構造抽出装置。
  2. 前記パラメータ設定手段は、領域構造判定手段において前記論理構造指定手段で指定された論理構造の要素が存在しない場合に、前記論理構造指定手段で指定された論理構造の幾何学的制約条件から指定された論理構造が得られる確率が高くなるように前記パラメータを設定することを特徴とする請求項1に記載の論理構造抽出装置。
  3. 文書画像から論理構造を抽出する論理構造抽出装置において、文書画像の領域分割を行う領域分割手段と、それぞれ異なる論理構造を抽出する複数の論理構造抽出手段と、前記領域分割手段による領域分割の結果が複数の前記論理構造抽出手段のうちのいずれが想定する論理構造であるかを判定する領域構造判定手段と、前記領域構造判定手段による判定結果に従って複数の前記論理構造抽出手段から1つを選択する論理構造抽出方法選択手段と、前記領域分割手段において文書画像の領域分割を行う際に用いるパラメータを可変設定するパラメータ設定手段を有し、前記領域構造判定手段において前記領域分割手段による領域分割の結果が複数の前記論理構造抽出手段のいずれの想定する論理構造でもないと判定されたとき、前記パラメータ設定手段で前記パラメータを変更し、変更されたパラメータを用いて前記領域分割手段が領域分割をやり直すことを特徴とする論理構造抽出装置。
  4. 文書画像から論理構造を抽出する論理構造抽出方法において、設定されているパラメータに従って領域分割手段が文書画像の領域分割を行い、領域分割の結果が論理構造指定手段で指定された論理構造であるか否かを領域構造判定手段が判定し、前記領域分割の結果が想定されている論理構造でないと判定されたときパラメータ設定手段が領域分割のための前記パラメータを変更して再度領域分割を行い、前記領域分割の結果が想定されている論理構造であるとき指定された論理構造を論理構造抽出手段が抽出することを特徴とする論理構造抽出方法。
  5. 領域分割の結果が想定されている論理構造か否かを領域構造判定手段が判定するときに前記指定された抽出すべき論理構造の要素が存在しないと判定される場合には、パラメータ設定手段が前記パラメータを変更する際に、前記指定された抽出すべき論理構造の幾何学的制約条件から前記指定された抽出すべき論理構造が得られる確率が高くなるように前記パラメータを設定することを特徴とする請求項4に記載の論理構造抽出方法。
  6. 文書画像から論理構造を抽出する論理構造抽出方法において、設定されているパラメータに従って領域分割手段が文書画像の領域分割を行い、前記領域分割の結果が複数の論理構造抽出手段が想定する複数の論理構造のいずれであるかを複数の前記論理構造抽出手段がそれぞれ判定し、該判定結果に従って論理構造の1つを論理構造抽出方法選択手段が選択して論理構造を抽出し、前記領域分割の結果が複数の前記論理構造から想定されている論理構造のいずれでもないと判定されたとき、前記文書画像の領域分割を行う際に用いるパラメータをパラメータ設定手段が変更し、再度領域分割を行うことを特徴とする論理構造抽出方法。
JP27498598A 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法 Expired - Fee Related JP3912463B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27498598A JP3912463B2 (ja) 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27498598A JP3912463B2 (ja) 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法

Publications (2)

Publication Number Publication Date
JP2000105836A JP2000105836A (ja) 2000-04-11
JP3912463B2 true JP3912463B2 (ja) 2007-05-09

Family

ID=17549313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27498598A Expired - Fee Related JP3912463B2 (ja) 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法

Country Status (1)

Country Link
JP (1) JP3912463B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2380009A (en) * 2001-09-21 2003-03-26 Hewlett Packard Co Apparatus and automated method of contract drafting
JP4480421B2 (ja) * 2004-03-04 2010-06-16 富士通株式会社 文書画像レイアウト解析プログラム
JP4443443B2 (ja) 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP4825243B2 (ja) * 2008-06-20 2011-11-30 富士通フロンテック株式会社 帳票認識装置、方法、データベース作成装置、方法、及びプログラム
EP2807604A1 (en) 2012-01-23 2014-12-03 Microsoft Corporation Vector graphics classification engine
EP2807608B1 (en) 2012-01-23 2024-04-10 Microsoft Technology Licensing, LLC Borderless table detection engine
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0775029B2 (ja) * 1987-07-28 1995-08-09 工業技術院長 文書解析方式
JPH0676105A (ja) * 1992-08-27 1994-03-18 Pentel Kk 文書認識システム
JP3484446B2 (ja) * 1996-11-15 2004-01-06 シャープ株式会社 光学文字認識装置

Also Published As

Publication number Publication date
JP2000105836A (ja) 2000-04-11

Similar Documents

Publication Publication Date Title
JP4311552B2 (ja) ドキュメントの自動分離
EP0854433B1 (en) Caption and photo extraction from scanned document images
JP4208918B2 (ja) 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体
US6353840B2 (en) User-defined search template for extracting information from documents
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US6351559B1 (en) User-enclosed region extraction from scanned document images
JPH0713995A (ja) 自動テキスト特徴決定装置
JPWO2021084702A1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
JP3912463B2 (ja) 論理構造抽出装置及び論理構造抽出方法
US6327382B1 (en) Image processing method and apparatus and storage medium therefor
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5412916B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP2000090194A (ja) 画像処理方法および画像処理装置
JP2000137728A (ja) 文書解析装置及びプログラム記録媒体
JP2000090117A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP2002297638A (ja) 文書画像からのタイトル抽出方法
JP3565310B2 (ja) 一般の文書画像から罫線を抽出する罫線抽出装置および方法
JP2576350B2 (ja) 文字列抽出装置
JPH0757040A (ja) Ocr付きファイリング装置
JPH0743718B2 (ja) マルチメディア文書構造化方式
JPH04241074A (ja) 自動文書清書装置
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP3647070B2 (ja) 画像処理方法及びその装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070123

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140209

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees