JP2000105836A - 論理構造抽出装置 - Google Patents

論理構造抽出装置

Info

Publication number
JP2000105836A
JP2000105836A JP10274985A JP27498598A JP2000105836A JP 2000105836 A JP2000105836 A JP 2000105836A JP 10274985 A JP10274985 A JP 10274985A JP 27498598 A JP27498598 A JP 27498598A JP 2000105836 A JP2000105836 A JP 2000105836A
Authority
JP
Japan
Prior art keywords
logical structure
area
extracting
logical
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10274985A
Other languages
English (en)
Other versions
JP3912463B2 (ja
Inventor
Hiroyuki Soda
宏之 左右田
Masaharu Ozaki
正治 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP27498598A priority Critical patent/JP3912463B2/ja
Publication of JP2000105836A publication Critical patent/JP2000105836A/ja
Application granted granted Critical
Publication of JP3912463B2 publication Critical patent/JP3912463B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ユーザやシステム全体に負担をかけることな
く、様々な体裁の文書に対して、高精度に論理構造を抽
出することができる論理構造抽出装置を提供する。 【解決手段】 ユーザは論理構造指定部9から抽出すべ
き論理構造を指定する。領域分割部4は、パラメータ設
定部3が設定する領域分割のためのパラメータに従っ
て、文書画像の領域分割を行う。その領域分割の結果が
領域構造抽出部7で想定した論理構造か否かを領域構造
判定部5で判定する。判定の結果、論理構造抽出部7が
想定する領域構造でない場合には、パラメータ設定部3
でパラメータを変更し、再度領域分割を行う。論理構造
抽出部7が想定する領域構造であった場合には、文字認
識部6によりすべての領域の文字認識を行い、論理構造
抽出部7によりユーザが指定した論理構造を抽出する。
抽出した論理構造は、構造化文書処理部8に送られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像から論理
構造を抽出する論理構造抽出装置に関するものである。
【0002】
【従来の技術】近年、紙等に印刷された文書を画像読取
装置等で電子化し、活用しようとする試みが盛んに行わ
れている。電子化された文書を利用する際に用いられる
技術の一つとして文字認識がある。文字認識は、電子化
された文書画像からテキスト情報を抽出する技術であ
る。抽出したテキスト情報は、例えば他の文書に再利用
したり、全文検索などに利用されている。
【0003】文字認識には、前処理として、文書画像を
テキスト領域、図形領域などに正確に分離する領域分割
と呼ばれる処理が必要であり、従来、文書画像の様々な
特徴量を用いた領域分割手法が提案されてきた。例え
ば、秋山ほか,「周辺分布、線密度、外接矩形特徴量を
併用した文書画像の領域分割」,電子通信学会論文誌
(D−II),Vol.J86−D,No.8,pp.
1187−1196,1986、田中ほか,「文書画像
の書式解析」,電子通信学会研究報告PRU86−11
5,pp.33−40,1996、特開平5−2662
49号公報、特開平5−277472号公報、特開平5
−290211号公報、特開平7−73271号公報な
ど、多数の文献に各種の手法が提案されている。
【0004】しかしながら、文書には様々なレイアウト
のものがあり、あらゆる文書に対応できる領域分割手法
はこれまでに開発されていない。また、学術論文などの
ように同じようなレイアウトの文書であっても、文字サ
イズ、文字間隔、行間隔などが微妙に異なっている。そ
のため、レイアウトがほとんど同じ文書に対して同一の
領域分割手法を適用しても、領域分割結果は異なってし
まう。
【0005】一方、文書画像の各領域の幾何学的特徴や
文字認識結果などを利用して文書の論理構造を抽出し、
より高度な文書処理を行おうとする試みがある。例え
ば、山田,「文書画像のODA論理構造化文書への変換
方式」,電子通信学会論文誌(D−II),Vol.J
76−D−II,No.11,pp.2274−228
4,1993には、文書画像から抽出した各領域の幾何
学的特徴と、予め登録してある文書クラスの幾何学的特
徴とのマッチング処理によって論理構造を生成する方法
が記載されている。また、例えば特開平8−6945号
公報には、文書画像中の各行単位で辞書パターンとのマ
ッチング処理を行い、その結果を用いて文書の論理構造
を解析する方法が記載されている。
【0006】しかし、これらの手法を含め、これまでに
提案されている論理構造抽出手法では、実際に論理構造
抽出手段において論理構造を抽出する前に、その論理構
造抽出手段が想定している幾何学的構造に文書画像が領
域分割されている必要があった。
【0007】しかしながら、上述のように、単一の領域
分割手法あるいは領域分割パラメータでは、様々な文書
に対して所望の領域分割結果を得ることは不可能に近
い。そのため、例えば特開平9−114923号公報で
は、このような領域分割の困難さを指摘し、同一の文書
画像を2つ以上のパラメータあるいは方法で領域分割
し、複数の領域分割結果をユーザに提示し、ユーザに選
択させる領域分割装置を提案している。しかし、この文
献に記載されている領域分割装置では、領域分割結果の
選択をユーザが行わなければならないため、最終的な目
的である文字認識あるいは論理構造抽出までを自動的に
行うことができず、ユーザの負担が重くなるという欠点
がある。また、2つ以上の領域分割結果をコンピュータ
のメモリ上に記憶する必要があり、占有する記憶容量の
増大を招き、システム全体の処理速度が低下する恐れが
あるという問題もある。
【0008】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、ユーザやシステム全体に負
担をかけることなく、様々な体裁の文書に対して、高精
度に論理構造を抽出することができる論理構造抽出装置
を提供することを目的とするものである。
【0009】
【課題を解決するための手段】本発明は、文書画像から
論理構造を抽出する論理構造抽出装置において、領域分
割手段においてパラメータに従って文書画像の領域分割
を行い、論理構造指定手段によって指定された構造を論
理構造抽出手段で抽出する。この論理構造抽出手段にお
ける論理構造の抽出前に、領域分割手段による領域分割
の結果が、論理構造抽出手段が想定する領域構造である
か否かを領域構造判定手段で判定し、領域分割の結果が
論理構造抽出手段が想定する領域構造でないと判定され
たとき、領域分割手段において領域分割の際に用いるパ
ラメータを可変設定し、領域分割をやり直す。このよう
な処理を繰り返すことによって、指定された構造を自動
的に、しかも高精度に抽出することができる。
【0010】パラメータの可変設定の際に、論理構造指
定手段で指定された論理構造が部分的に得られている場
合には、論理構造指定手段で指定された論理構造の幾何
学的制約条件から、指定された論理構造が得られる確率
が高くなるようにパラメータを設定することができる。
【0011】また本発明は、文書画像から論理構造を抽
出する論理構造抽出装置において、それぞれ異なる論理
構造を抽出する複数の論理構造抽出手段を有し、領域分
割手段による領域分割の結果が複数の前記論理構造抽出
手段のうちのいずれが想定する領域構造であるかを判定
して複数の前記論理構造抽出手段から1つを選択するよ
うに構成することもできる。この場合には、複数の論理
構造抽出手段を選択的に用いることによって、論理構造
を抽出する精度をさらに向上させることができる。
【0012】この場合にも、領域分割手段による領域分
割の結果が複数の前記論理構造抽出手段のいずれの想定
する領域構造でもない場合に、領域分割手段において文
書画像の領域分割を行う際に用いるパラメータを可変設
定し、領域分割をやり直すように構成することもでき
る。
【0013】
【発明の実施の形態】図1は、本発明の論理構造抽出装
置の第1の実施の形態を示すブロック図である。図中、
1は画像入力部、2は文書画像管理部、3はパラメータ
設定部、4は領域分割部、5は領域構造判定部、6は文
字認識部、7は論理構造抽出部、8は構造化文書処理
部、9は論理構造指定部である。
【0014】画像入力部1は、例えば紙等の被記録媒体
に印刷された文書を画像として電子化する。例えばスキ
ャナやカメラなどの装置で構成することができる。な
お、この画像入力部1を設けず、例えばネットワークや
外部記憶装置などを介して文書画像が入力されてもよ
い。文書画像管理部2は、電子化された文書画像を格
納、管理する。この文書画像管理部2に格納されている
文書画像は、必要なときに取り出すことができる。
【0015】パラメータ設定部3は、領域分割部4にお
いて文書画像を領域分割する際に用いる各種のパラメー
タを設定する。これらのパラメータを変化させることに
よって、同一文書画像に対して異なる領域分割の結果を
領域分割部4から得ることができる。領域分割部4は、
パラメータ設定部3で設定されたパラメータに従って、
領域分割アルゴリズムに基づき、文書画像内のテキス
ト、図表などを個別の領域に分割する。
【0016】領域構造判定部5は、領域分割部4による
領域分割の結果が論理構造抽出部7が想定する領域構造
になっているか否かを判断する。文字認識部6は、分割
された各領域中のテキスト部分を探索して特定し、文字
コードに変換するものである。
【0017】論理構造抽出部7は、分割された各領域の
幾何学的特徴とその領域中に含まれる文字コードなどの
情報をもとに、各領域を必要に応じて分割・統合して、
論理要素に対応させ、論理要素間の関係を決定し、論理
構造を抽出する。
【0018】構造化文書処理部8は、論理構造抽出部7
の出力として得られた構造化文書を、ユーザの様々な要
求に応じて文書処理を行う。例えば、論理構造を利用し
た検索のためのインデクスを作成したり、ある特定の論
理要素を抽出してリストを作成するなどの処理を行うこ
とができる。
【0019】論理構造指定部9は、ユーザが予めどのよ
うな構造を抽出したいのかを指定する入力を受け付け
る。この指定は、所定の文法に従って記述されているフ
ァイルを指定することによって行われる。
【0020】図2は、本発明の論理構造抽出装置の第1
の実施の形態における動作の一例を示すフローチャート
である。ここでは予め画像入力部1から文書画像が入力
されて、文書画像管理部2に格納、管理されているもの
とする。S11において、ユーザは論理構造指定部9か
ら抽出すべき論理構造を指定する。また、S12におい
て、パラメータ設定部3は領域分割部4に対して領域分
割のためのパラメータの初期値をセットする。
【0021】S13において、領域分割部4はパラメー
タ設定部3によって設定されたパラメータに従って、文
書画像管理部2に格納されている文書画像の領域分割を
行う。次にS14において、領域構造判定部5が必要と
する領域(例えば1行のテキスト領域)のみ文字認識部
6で文字認識を行い、S15において、領域構造判定部
5によって論理構造抽出部7が想定する領域構造、すな
わちS11でユーザが指定した抽出すべき論理構造か否
かを判定する。
【0022】領域構造判定部5による判定の結果、論理
構造抽出部7が想定する領域構造でない場合には、S1
6においてパラメータ設定部3で領域分割のパラメータ
を変更し、S13へ戻って再度領域分割を行う。論理構
造抽出部7が想定する領域構造であった場合には、S1
7において文字認識部6によりすべての領域の文字認識
を行い、S18において論理構造抽出部7により各領域
の幾何学的特徴と文字認識結果をもとにユーザが指定し
た論理構造を抽出する。抽出した論理構造は、構造化文
書処理部8に送られて、各種の処理に用いられる。
【0023】次に、上述の動作の一例を、具体例を用い
ながらさらに説明する。まず、抽出すべき論理構造の指
定について説明する。図3は、論理構造の指定に用いら
れるファイルの内容の一例の説明図である。上述のよう
に、抽出すべき論理構造の指定は、所定の文法に従って
記述されているファイルを指定することによって行われ
る。例えば指定に用いるファイルの内容は、図3に示す
ようなテキストで表現することができる。図3に示す例
では、「Name」、「Elements」、「Con
straints」、「Products」の4つの部
分から構成されている。部分「Name」は、出力すべ
き論理構造の名前を示す。部分「Elements」で
は、必要となる要素が指定される。部分「Constr
aints」では、要素間の幾何学的な関係を示す。部
分「Products」では、結果をどのように出力す
るかを指定するものである。
【0024】図3に示した例は、参考文献リストを想定
している。参考文献リストは、“文献”あるいは“参考
文献”という文字列からなる1行の見出しと、その直下
にある文献情報から構成され、「見出し」要素は、「文
献情報」要素に対して「centered」、もしくは
「left−align」という幾何学的構造を持つこ
とが示されている。「centered」はセンタリン
グを示し、「left−align」は左寄せを示す述
語で、予め組み込まれている幾何学的関係判定関数であ
る。「centered」関数は、2つの要素を引数と
し、各要素の外接矩形のx座標の中心が、定められたし
きい値以下である場合は真を返す。「left−ali
gn」関数は、2つの要素の外接矩形のx座標の最小値
が、定められたしきい値以下である場合は真を返す。
【0025】部分「Products」の指定では、
「文献情報」要素中の行矩形を順番に調べる手続きが記
述されている。図4は、論理構造の指定に用いられるフ
ァイルの内容の一例における出力手続の説明図である。
L1〜L4は行矩形である。まず、最初の行矩形L1の
内容を変数Yに格納するとともに、その行矩形L1の左
端のx座標を変数X1にセットする。そして次の行矩形
の処理を行うように、変数jを2にセットする。
【0026】j番目の行矩形である行矩形Ljの有無を
判定後、行矩形Ljを変数lに格納し、変数Yに何も格
納されていなければ、文献の1行目として変数Yに変数
lを格納する。変数Yに格納されていれば、さらに行矩
形Ljの左端が変数X1からしきい値T以上のインデン
トが付けられているか否かを判定し、しきい値T以上の
インデントがある場合には、変数Yに変数lを追加す
る。そうでない場合は、変数Yを「文献」という要素と
して結果を出力し、変数Yをクリアする。このような処
理を「文献情報」要素中のすべての行矩形に対して実行
した後、処理を終了する。
【0027】このような処理によって、例えば図4に示
す例においては、行矩形L1〜L3は順に変数Yに追加
され、ひとまとまりとなって「文献」要素として出力さ
れる。その後、新たに行矩形L4が変数Yに格納され
て、次の「文献」要素の抽出が行われる。
【0028】図3に示したファイルの内容は、このよう
な参考文献リストの論理構造を抽出し、出力することを
示している。ユーザは、このようなファイルを指定する
ことによって、抽出すべき論理構造の指定を行うことが
できる。
【0029】次に、パラメータ設定部3が領域分割部4
に対して設定する領域分割のためのパラメータについて
説明する。パラメータ設定部3は、領域分割部4におけ
る領域分割処理の実行時に必要となるパラメータを組に
してパラメータセットとし、そのパラメータセットを複
数保持している。図5は、パラメータセットの一例の説
明図である。図5に示す例では、パラメータとして、後
述する垂直方向セパレータ幅しきい値、水平方向セパレ
ータ長さしきい値を示しているが、このほかにも多数の
パラメータを設定しておくことができる。各パラメータ
の値の集合、すなわち図5に示す各行が、各パラメータ
セットを示している。各パラメータセットには通し番号
が付されており、各パラメータセットが識別される。も
ちろん、パラメータ設定部3では、このようなパラメー
タセットを予め設定しておくほか、各パラメータをそれ
ぞれ動的に変更可能に構成してもよい。
【0030】ここで、領域分割部4による領域分割結果
の変動と、その変動に対する対処方法について、図6〜
図9を用いて詳細に説明する。図6は、参考文献が記載
された文書画像の具体例の説明図、図7は、3つの領域
に、図8は、2つの領域にそれぞれ分割された状態の説
明図、図9は、1つの領域とみなされた状態の説明図で
ある。図中、21,22は白セパレータ候補領域、23
〜28は分割領域である。ここでは、領域分割部4にお
いて領域分割を行うときには、白セパレータと呼ばれる
領域の有無を基準に行う場合を示している。まず、文書
画像から白セパレータを求める。白セパレータは、白画
素(文字などが印刷されていない部分の画素)が水平方
向あるいは垂直方向にある一定の幅だけ連続した領域で
あり、水平方向に長い水平白セパレータと、垂直方向に
長い垂直白セパレータがある。
【0031】図6に示した文書画像の例には、水平ある
いは垂直の白セパレータの候補がたくさんあるが、ここ
では、ハッチングを施して示した白セパレータ候補領域
21,22を例に説明する。文字「文献」の下部には、
白画素が幅HspW、長さHspLで連続する白セパレ
ータ候補領域21が存在する。この白セパレータ候補領
域21が次の条件 HspW>Wh かつ HspL>Lh …条件(1) を満たせば、水平白セパレータであるとみなす。しか
し、パラメータWhあるいはLhが大きく設定され、条
件(1)を満たさないとこの領域に水平白セパレータは
ないとみなされる。ここで、Whは水平方向セパレータ
幅しきい値、Lhは水平方向セパレータ長さしきい値を
示すパラメータである。
【0032】同様に、白セパレータ候補領域22は、次
の条件 VspW>Wv かつ VspL>Lv …条件(2) を満たせば、垂直白セパレータとみなす。この条件
(2)を満たさない場合には、この領域に垂直セパレー
タはないものとみなされる。ここで、Wvは垂直方向セ
パレータ幅しきい値、Lvは垂直方向セパレータ長さし
きい値を示すパラメータである。上述のパラメータW
h,Lhとともに、これらのパラメータはパラメータ設
定部3によって設定される。
【0033】図7に示した例では、白セパレータ候補領
域21,22とも、それぞれ条件(1),(2)を満た
し、それぞれ水平白セパレータ、垂直白セパレータとみ
なされた例を示している。文書画像は、図7に示すよう
に分割領域23〜25の3つの領域に分割されている。
【0034】図8に示した例では、白セパレータ候補領
域21は条件(1)を満たし、水平白セパレータとみな
されたが、白セパレータ候補領域22は条件(2)を満
たさなかったため、垂直白セパレータがなくなった場合
を示している。この場合には、分割領域26と、領域2
4と領域25が統合された分割領域27の2つの領域に
分割されている。
【0035】図9に示した例では、白セパレータ候補領
域21,22とも、それぞれ条件(1),(2)を満た
さず、水平、垂直白セパレータがない場合を示してい
る。この場合には、分割領域28にすべて統合されてい
る。
【0036】図7〜図9を参照してわかるように、連続
する白画素をセパレータとみなすか否かは領域分割のた
めのパラメータによって変化し、領域分割の結果も変わ
ってくる。また、同じフォーマットを用いた文書であっ
ても、各文書によって文字サイズ、文字間隔、行間隔な
どが微妙に異なることから、同一のパラメータであって
も異なった領域分割結果が得られる。
【0037】ところで、論理構造抽出部7は、論理構造
指定部9によって指定された領域構造から所定の手順で
論理構造の要素を抽出する。例えば、上述の図3に示し
た内容のファイルがユーザによって指定されたとき、図
4を用いて説明したように、図8に示す分割領域が得ら
れることを想定し、各参考文献要素を抽出する処理が記
述されている。この場合、まず図3に示した部分「El
ements」で指定されている要素「見出し」にマッ
チする要素、すなわち“文献”あるいは“参考文献”と
いう単語を含む1行の領域を探索する。図8に示す例で
は、分割領域26がマッチする。次に、直下にある分割
領域27を取り出して、指定されている幾何学的構造を
満たすか否かの判定を行う。図8に示す例では、図3に
示す部分「Constraints」に記述されている
幾何学的構造のうち、関係「centered」を満た
すので、分割領域27は指定された要素「文献情報」に
マッチする。あとは、指定されたファイル内の部分「P
roducts」に記述された手続きに従って「文献」
要素が出力される。
【0038】以上の手順で図6に示す文書画像から参考
文献の要素を抽出する場合、図7に示す分割領域の構造
では分割領域25内の各行がすべて同じ開始位置から始
まるので、各参考文献要素の区切りを把握できず、文献
要素を抽出することができない。また、図9に示すよう
に一体化した分割領域28として領域分割された場合、
「文献」または「参考文献」という1行のみの分割領域
がないため、上述の手順では参考文献の領域を特定でき
ない。
【0039】領域構造判定部5では、例えば図8に示し
たように分割領域の構造が、ユーザが指定した図3に示
すファイルの内容で示される論理構造になっているか否
かを判定する。例えば図7や図9に示すように領域分割
されている場合には、指定された論理構造になっていな
いものと判定する。この場合、パラメータ設定部3に対
してパラメータを変更させ、領域分割をやり直す。もち
ろん、一度実施したパラメータセットの番号は記憶して
おき、二度と実施することはないように制御する。図8
に示すような領域分割の結果が得られたら、論理構造抽
出部7において、上述のようにして論理構造を抽出す
る。
【0040】このようにして、1回目の領域分割で想定
する領域構造が得られなければ、領域分割のためのパラ
メータを変化させて領域分割を繰り返すことにより、様
々な文書画像に対応し、指定された論理構造を抽出する
ことができる。
【0041】本発明の論理構造抽出装置の第2の実施の
形態について説明する。この第2の実施の形態における
構成は、図1と同様である。この第2の実施の形態で
は、上述の第1の実施の形態においてパラメータセット
の変更を行う際に、領域分割の結果が想定する論理構造
となる確度の高いパラメータの設定方法を用いた例を示
している。
【0042】まず、パラメータ設定部3におけるパラメ
ータセットの保持方法について、一部変更する。図10
は、パラメータセットの別の例の説明図である。パラメ
ータセットは、上述したように領域分割部4の処理実行
時に必要となるパラメータを組にしたものである。図1
0に示したパラメータセットの例では、図5に示したパ
ラメータに加え、垂直方向分離度、水平方向分離度とい
う2つの属性が付与されている。垂直方向分離度は、垂
直方向の白セパレータによって、要素を分離する度合い
を示すものである。同様に水平方向分離度は、水平方向
の白セパレータによって要素を分離する度合いを示すも
のである。ともに値は整数値を取るものとし、大きくな
るほど分離しやすい、すなわち小さなしきい値で白セパ
レータを採用することを意味する。この値は、単に大小
関係がわかれば任意のものでかまわない。
【0043】例えば図6に示した文書画像を、図10に
示す通し番号1のパラメータセットを用いて領域分割を
行ったとき、上述の図7に示すように3つの分割領域2
3〜25に分割された領域分割結果を得たとする。この
とき、「見出し」要素の下にセンタリングされているあ
るいは左寄せになっている要素が存在しない。このと
き、直下の分割領域25のx座標の中心に対して左に、
左辺に対して右に「見出し」要素が存在することがわか
る。このときの可能性としては、 (1)直下の要素が右側の他の要素と誤統合されてい
る。(センタリング) (2)直下の要素の左側にある白セパレータで誤分割さ
れている。(センタリング) (3)直下の要素の左側の他の要素と誤統合されてい
る。(左寄せ)の3つの可能性がある。
【0044】これらの可能性は、幾何学的条件判定関数
「centered」、「left−aligned」
を評価する際に、その関数の中で条件を満たさなかった
場合に、これらの可能性があるか否かを判定する。
(1),(3)の可能性については、白セパレータの存
在範囲が推定できるので、推定した白セパレータの存在
範囲に白セパレータが存在するか否かを調べる。もし白
セパレータが存在したならば、垂直方向のセパレータの
幅のしきい値が大きすぎたとして、垂直方向分離度を上
げるフラグを立てる。(2)の可能性については、左側
の要素の存在範囲を推定して、そこに要素が存在してい
れば、垂直方向のセパレータの幅のしきい値が小さすぎ
たとして、垂直方向分離度を下げるフラグを立てる。
【0045】図11、図12は、本発明の論理構造抽出
装置の第2の実施の形態における分離度の変更の具体例
の説明図である。図中、31,32は白セパレータの探
索範囲、33は要素の探索範囲である。図7に示したよ
うに領域分離された場合、まず(1)の可能性について
は、「見出し」要素である分離領域23のx座標の中心
位置を中心として、分離領域25の左端までの距離と同
じ距離となる右側位置付近の所定範囲を図11に示す探
索範囲31とし、白セパレータが存在しているか否かを
調べればよい。また、(3)の可能性については、「見
出し」要素である分離領域23の左端付近の所定範囲を
図11に示す探索範囲32として、分離領域25内に白
セパレータが存在しているか否かを調べればよい。この
例では、図11に示すように、(1),(3)の可能性
はないことがわかる。
【0046】一方、(2)の可能性については、図12
に示すように、「見出し」要素である分離領域23のx
座標の中心位置を中心として、分離領域25の右端まで
のx方向の距離を左側に伸ばして探索範囲33を仮定す
る。この探索範囲33に別の要素が含まれているか否か
を調べればよい。この例では、図12に示すように探索
範囲33内に分割領域24が含まれることが確認でき
る。
【0047】従って、垂直方向分離度を下げるフラグが
立つことになる。これによって、前回実施した領域分割
の際のパラメータセットより垂直方向分離度の低いパラ
メータセットをパラメータ設定部3で選択し、再び領域
分割部4で領域分割処理を実行する。この領域分割処理
を、対象領域だけでなく、文書画像全体に改めて実施す
るのは、領域の再分割や統合によって、他の論理構造に
影響を与える場合が考えられるからである。
【0048】上述の第1の実施の形態と同様、この第2
の実施の形態においても、水平方向分離度、垂直方向分
離度を変化させるフラグが両方とも立っていない場合に
は、パラメータ設定部3において任意の順にパラメータ
セットを適用する。また、両方のフラグが立っている場
合には、いずれかのフラグを優先したり、あるいは任意
の順にパラメータセットを適用することができる。
【0049】このようにしてパラメータセットを変更し
ながら、指示された論理構造が得られるように、領域分
割処理を繰り返すことになる。しかしこの第2の実施の
形態では、指定された論理構造が得られる確率が高くな
るように、パラメータセットの適用を制御するので、領
域分割のリトライを減少させ、より高速に精度よく領域
分割を行うことができる。
【0050】図13は、本発明の論理構造抽出装置の第
3の実施の形態を示すブロック図である。図中、図1と
同様の部分には同じ符号を付して説明を省略する。41
〜43は論理構造抽出部、44は論理構造抽出方法選択
部である。この第3の実施の形態では、複数の論理構造
抽出部41〜43を有した構成を示している。複数の論
理構造抽出部41〜43は、それぞれ異なる論理構造抽
出方法によって、所定の論理構造を抽出する。なお、こ
の例では論理構造抽出部が3つの場合を示しているが、
2つあるいは4つ以上であってももちろんよい。
【0051】領域構造判定部5は、領域分割部4による
領域分割の結果が論理構造抽出部41〜43のいずれが
想定する領域構造になっているか、あるいは複数の論理
構造抽出部41〜43のいずれの想定する領域構造でも
ないかを判断する。論理構造抽出方法選択部44は、領
域構造判定部5において、領域分割部4による領域分割
の結果が論理構造抽出部41〜43のいずれで想定する
領域構造かの判定結果に従い、論理構造抽出部41〜4
3のいずれかを選択して、抽出された論理構造を構造化
文書処理部8に出力する。
【0052】図14は、本発明の論理構造抽出装置の第
3の実施の形態における動作の一例を示すフローチャー
トである。この例においても、予め画像入力部1から文
書画像が入力されて、文書画像管理部2に格納、管理さ
れているものとする。また、抽出すべき論理構造は予め
設定されており、各論理構造抽出部41〜43ではその
予め設定された論理構造を抽出するための異なる抽出方
法が設定されているものとする。
【0053】まずS51において、パラメータ設定部3
は領域分割部4に対して領域分割のためのパラメータの
初期値をセットする。そしてS52において、領域分割
部4はパラメータ設定部3によって設定されたパラメー
タに従って、文書画像管理部2に格納されている文書画
像の領域分割を行う。次にS53において、領域構造判
定部5が必要とする領域のみ文字認識部6で文字認識を
行い、S54において、領域構造判定部5によって論理
構造抽出部41〜43のいずれかが想定する領域構造で
あるか否かを判定する。
【0054】領域構造判定部5による判定の結果、論理
構造抽出部41〜43のいずれの想定する領域構造でも
ない場合には、S55においてパラメータ設定部3で領
域分割のパラメータを変更し、S52へ戻って再度領域
分割を行う。論理構造抽出部41〜43のいずれかが想
定する領域構造であった場合には、S56において、論
理構造抽出方法選択部44によって論理構造の抽出が可
能な論理構造抽出部を選択する。S57において、文字
認識部6によりすべての領域の文字認識を行い、S58
において、S56で選択された論理構造抽出部により各
領域の幾何学的特徴と文字認識結果をもとに論理構造を
抽出する。抽出した論理構造は、論理構造抽出方法選択
部44を介して構造化文書処理部8に送られて、各種の
処理に用いられる。
【0055】この第3の実施の形態では、上述の第1の
実施の形態では対処できない事例に対応することができ
る。その具体例を図15〜図17を用いて詳細に説明す
る。図15は、文書画像の別の具体例の説明図、図16
は、4つの領域に分割された状態の説明図、図17は、
1つの領域とみなされた状態の説明図である。図中、6
1〜65は分割領域である。
【0056】図15に示した文書画像の具体例では、2
段組の印刷がなされている。そしてその右側の段組内に
参考文献の記載が存在する。ここでは、このような文書
画像から、参考文献の構造を抽出するものとする。
【0057】領域分割部4において、上述の第1の実施
の形態で説明したように白セパレータを用いて領域分割
処理を行う。水平方向、垂直方向とも白セパレータとみ
なす空白の幅Wを小さくした場合には、図16に示すよ
うに、分割領域61〜64の4つの分割領域に分割され
る。ここで、左段の文章を含む分割領域61と参考文献
番号を含む分割領域62との間隔と、分割領域62と参
考文献内容を含む分割領域64との間隔がほぼ等しいと
する。
【0058】このような文献の場合、垂直方向のセパレ
ータとみなす空白の幅Wをある一定以上大きくすると、
垂直方向のセパレータが存在しなくなり、図17に示す
ように一つの分割領域65に統合されてしまう。しかし
ながら、図17に示すような分割領域の構造では、本来
2段組であるのものが1段組とみなされているから、文
字認識により左段1行目の後に右段1行目が来るなどと
いった認識結果となり、意味をなさなくなる。よってこ
の文書画像の場合には、上述の第1の実施の形態で採用
した図8に示す分割領域の構造は採用できず、図7に示
した分割領域の構造を採用して右段の分割領域62〜6
4から参考文献の論理構造を抽出する必要がある。
【0059】図7に示した分割領域の構造を想定した論
理構造の抽出方法としては、例えば、参考文献番号を含
む分割領域24から各文献番号の垂直方向位置を求め、
この位置を目安に参考文献内容を含む分割領域25から
各参考文献の要素を抽出する方法が考えられる。このよ
うな方法を図16に示した分割領域62〜64に適用
し、参考文献の構造を抽出することができる。
【0060】上述の第1の実施の形態では、論理構造抽
出部7を一つだけ備えているため、例えば図8に示した
分割領域の構造がユーザから指定された場合には、図7
に示した分割領域の構造から論理構造を抽出することが
できなかった。しかし、この第3の実施の形態では、複
数の論理構造抽出部を備えているので、例えば図7に示
した分割領域の構造を想定した論理構造抽出部41と、
図8に示した分割領域の構造を想定した論理構造抽出部
42を備えていれば、そのいずれの構造に領域分割され
た場合でも、参考文献の論理構造を抽出することができ
る。
【0061】このように、この第2の実施の形態では、
複数の論理構造抽出部を備えることによって、領域分割
部4によって領域分割された結果が異なっていても、所
望の論理構造を抽出することができ、抽出率を向上させ
ることができる。
【0062】
【発明の効果】以上の説明から明らかなように、本発明
によれば、領域分割手段による領域分割の結果が、論理
構造抽出手段で想定する領域構造と異なる場合でも、自
動的に領域分割のパラメータを変化させて再度領域分割
を行って論理構造抽出手段で想定する領域構造を生成
し、論理構造を抽出する。あるいは、異なる領域構造を
想定した複数の論理構造抽出手段を設け、そのいずれか
で論理構造を抽出する。これによって、様々な文書から
高い精度で自動的に論理構造を抽出することができる。
【0063】さらに、求める構造が部分的に得られてい
る場合は、その幾何学的な制約条件を用いて、その制約
条件を満たす解釈が得られる可能性が高い領域分割のた
めのパラメータを自動的に選択することにより、さらな
る効率化を図ることができるという効果がある。
【図面の簡単な説明】
【図1】 本発明の論理構造抽出装置の第1の実施の形
態を示すブロック図である。
【図2】 本発明の論理構造抽出装置の第1の実施の形
態における動作の一例を示すフローチャートである。
【図3】 論理構造の指定に用いられるファイルの内容
の一例の説明図である。
【図4】 論理構造の指定に用いられるファイルの内容
の一例における出力手続の説明図である。
【図5】 パラメータセットの一例の説明図である。
【図6】 参考文献が記載された文書画像の具体例の説
明図である。
【図7】 図6に示す文書画像が3つの領域に分割され
た状態の説明図である。
【図8】 図6に示す文書画像が2つの領域に分割され
た状態の説明図である。
【図9】 図6に示す文書画像が1つの領域とみなされ
た状態の説明図である。
【図10】 パラメータセットの別の例の説明図であ
る。
【図11】 本発明の論理構造抽出装置の第2の実施の
形態における分離度の変更の具体例の説明図である。
【図12】 本発明の論理構造抽出装置の第2の実施の
形態における別の分離度の変更の具体例の説明図であ
る。
【図13】 本発明の論理構造抽出装置の第3の実施の
形態を示すブロック図である。
【図14】 本発明の論理構造抽出装置の第3の実施の
形態における動作の一例を示すフローチャートである。
【図15】 文書画像の別の具体例の説明図である。
【図16】 図15に示す文書画像が4つの領域に分割
された状態の説明図である。
【図17】 図15に示す文書画像が1つの領域とみな
された状態の説明図である。
【符号の説明】
1…画像入力部、2…文書画像管理部、3…パラメータ
設定部、4…領域分割部、5…領域構造判定部、6…文
字認識部、7…論理構造抽出部、8…構造化文書処理
部、9…論理構造指定部、21,22…白セパレータ候
補領域、23〜28…分割領域、31,32…白セパレ
ータの探索範囲、33…要素の探索範囲、41〜43…
論理構造抽出部、44…論理構造抽出方法選択部、61
〜65…分割領域。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/401 330Z Fターム(参考) 5B029 AA01 CC18 CC28 EE08 5B050 BA16 EA03 EA06 EA10 FA09 5B075 ND06 NK10 NK25 PP10 PQ05 PQ20 5B091 BA03 CB03 CB23 DA02 EA18

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書画像から論理構造を抽出する論理構
    造抽出装置において、設定されているパラメータに従っ
    て文書画像の領域分割を行う領域分割手段と、必要とな
    る論理構造を指定する論理構造指定手段と、前記論理構
    造指定手段によって指定された構造を抽出する論理構造
    抽出手段と、前記領域分割手段による領域分割の結果が
    前記論理構造抽出手段が想定する領域構造であるか否か
    を判定する領域構造判定手段と、前記領域構造判定手段
    において前記領域分割の結果が前記論理構造抽出手段が
    想定する領域構造でないと判定されたとき前記パラメー
    タを可変設定するパラメータ設定手段を有することを特
    徴とする論理構造抽出装置。
  2. 【請求項2】 前記パラメータ設定手段は、領域構造判
    定手段において前記論理構造指定手段で指定された論理
    構造が部分的に得られていると判定される場合に、前記
    論理構造指定手段で指定された論理構造の幾何学的制約
    条件から指定された論理構造が得られる確率が高くなる
    ように前記パラメータを設定することを特徴とする請求
    項1に記載の論理構造抽出装置。
  3. 【請求項3】 文書画像から論理構造を抽出する論理構
    造抽出装置において、文書画像の領域分割を行う領域分
    割手段と、それぞれ異なる論理構造を抽出する複数の論
    理構造抽出手段と、前記領域分割手段による領域分割の
    結果が複数の前記論理構造抽出手段のうちのいずれが想
    定する領域構造であるかを判定する領域構造判定手段
    と、前記領域構造判定手段による判定結果に従って複数
    の前記論理構造抽出手段から1つを選択する論理構造抽
    出方法選択手段を有することを特徴とする論理構造抽出
    装置。
  4. 【請求項4】 前記領域構造判定手段において前記領域
    分割手段による領域分割の結果が複数の前記論理構造抽
    出手段のいずれの想定する領域構造でもないと判定され
    たとき前記領域分割手段において文書画像の領域分割を
    行う際に用いるパラメータを可変設定するパラメータ設
    定手段をさらに有することを特徴とする請求項3に記載
    の論理構造抽出装置。
JP27498598A 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法 Expired - Fee Related JP3912463B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27498598A JP3912463B2 (ja) 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27498598A JP3912463B2 (ja) 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法

Publications (2)

Publication Number Publication Date
JP2000105836A true JP2000105836A (ja) 2000-04-11
JP3912463B2 JP3912463B2 (ja) 2007-05-09

Family

ID=17549313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27498598A Expired - Fee Related JP3912463B2 (ja) 1998-09-29 1998-09-29 論理構造抽出装置及び論理構造抽出方法

Country Status (1)

Country Link
JP (1) JP3912463B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2380009A (en) * 2001-09-21 2003-03-26 Hewlett Packard Co Apparatus and automated method of contract drafting
JP2005250816A (ja) * 2004-03-04 2005-09-15 Fujitsu Ltd 文書画像レイアウト解析プログラム
US7627176B2 (en) 2005-03-04 2009-12-01 Fujitsu Limited Apparatus, method, and computer program for analyzing document layout
JP2015510177A (ja) * 2012-01-23 2015-04-02 マイクロソフト コーポレーション ボーダレステーブル検出エンジン
CN101685498B (zh) * 2008-06-20 2016-04-20 富士通先端科技株式会社 帐票识别装置、方法、数据库生成装置、方法
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
US9965444B2 (en) 2012-01-23 2018-05-08 Microsoft Technology Licensing, Llc Vector graphics classification engine
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6431284A (en) * 1987-07-28 1989-02-01 Agency Ind Science Techn System for analyzing document
JPH0676105A (ja) * 1992-08-27 1994-03-18 Pentel Kk 文書認識システム
JPH10143605A (ja) * 1996-11-15 1998-05-29 Sharp Corp 光学文字認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6431284A (en) * 1987-07-28 1989-02-01 Agency Ind Science Techn System for analyzing document
JPH0676105A (ja) * 1992-08-27 1994-03-18 Pentel Kk 文書認識システム
JPH10143605A (ja) * 1996-11-15 1998-05-29 Sharp Corp 光学文字認識装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2380009A (en) * 2001-09-21 2003-03-26 Hewlett Packard Co Apparatus and automated method of contract drafting
JP2005250816A (ja) * 2004-03-04 2005-09-15 Fujitsu Ltd 文書画像レイアウト解析プログラム
JP4480421B2 (ja) * 2004-03-04 2010-06-16 富士通株式会社 文書画像レイアウト解析プログラム
US7627176B2 (en) 2005-03-04 2009-12-01 Fujitsu Limited Apparatus, method, and computer program for analyzing document layout
CN101685498B (zh) * 2008-06-20 2016-04-20 富士通先端科技株式会社 帐票识别装置、方法、数据库生成装置、方法
JP2015510177A (ja) * 2012-01-23 2015-04-02 マイクロソフト コーポレーション ボーダレステーブル検出エンジン
US9965444B2 (en) 2012-01-23 2018-05-08 Microsoft Technology Licensing, Llc Vector graphics classification engine
US9990347B2 (en) 2012-01-23 2018-06-05 Microsoft Technology Licensing, Llc Borderless table detection engine
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム

Also Published As

Publication number Publication date
JP3912463B2 (ja) 2007-05-09

Similar Documents

Publication Publication Date Title
US5907631A (en) Document image processing method and system having function of determining body text region reading order
JPS63155386A (ja) 帳票デ−タ読取装置
JPWO2021084702A1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
JP2000105836A (ja) 論理構造抽出装置
WO2020086172A1 (en) Page stream segmentation
JP2008108114A (ja) 文書処理装置および文書処理方法
JP3573945B2 (ja) フォーマット認識装置及び文字読み取り装置
JPH05334490A (ja) 表認識装置
JP2007066286A6 (ja) 画像検索装置、画像処理装置、及びそれらの方法
JP2000090194A (ja) 画像処理方法および画像処理装置
JPH07319880A (ja) キーワード抽出・検索装置
JP2918666B2 (ja) 文字画像切出し方法
JP2000090117A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP2812391B2 (ja) パターン処理方法
JPH0830725A (ja) 画像処理装置及び方法
JP2004046295A (ja) タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体
JPH0589190A (ja) 図面情報のチエツク方式
JPH06176142A (ja) 図面自動入力装置の輪郭ベクトル化方法
JPH09269970A (ja) 文字認識方法とその装置
JPH05166009A (ja) 文字切出し・認識方法及び装置
JPH04241074A (ja) 自動文書清書装置
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JPS60123961A (ja) デ−タ記憶方法
JP3116453B2 (ja) 英文字認識装置
JPH10254994A (ja) サイズ識別方法および記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070123

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140209

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees