JP3091278B2

JP3091278B2 - 文書認識方式

Info

Publication number: JP3091278B2
Application number: JP03280803A
Authority: JP
Inventors: 幸子出口
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1991-09-30
Filing date: 1991-09-30
Publication date: 2000-09-25
Anticipated expiration: 2015-09-25
Also published as: JPH0594535A

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、文書認識方式に関し、より詳細
には、知識ベースを用いた文書認識方式に関する。例え
ば、文献データベース作成、その他各種文書に対応した
知識ベースを持つことにより各種文書のデータベース作
成に応用できるものである。

【０００２】

【従来技術】オフラインの文書をスキャナから読み込
み、計算機上で利用可能な形式にするには、文書の形状
的な構造の解析に加えて、論理構造の抽出が必要とな
る。形状的な構造の解析とは、文字，図，線等の形状的
に異なる領域に分割することである。論理構造の抽出と
は、タイトル，著者，所属，アブストラクト，節のタイ
トル，パラグラフ，フットノート，参考文献，図，表，
式等の論理的な構成要素に分類すること、および、それ
らの参照関係を抽出することである。このような文書認
識に対するアプローチとして、C. Wang and S.Srihari,
「A Framework for Object Recognition in a Visuall
y Complex Environment andits Application to Locati
ng Address Blocks on Mail Pieces,」（Intl. Journal
of Computer Vision, 2, 1988.）のような汎用の枠組
みを目指す方法もある。ここでは、ある程度強い構造を
持つ技術論文を対象とし、限定した枠組みの中で文書認
識を考える。

【０００３】この問題解決の方法のアプローチとして、
いわゆるトップダウン方式と、ボトムアップ方式をあげ
ることができる。前者のトップダウン方式には、例え
ば、東野、中野、藤澤、江尻、「自動ファイリングのた
めの文書理解方式−知的ファイリング（その２）−，」
情報処理学会第３１回（昭和６０年後期）全国大会のシ
ステムがある。これは、ファイリングのための情報抽出
を目的とするもので、論理構造の構成要素と位置との関
係を記述言語を用いてあらかじめ規定し、入力文書とマ
ッチングを取る方式で、以下のような問題点がある。（１）論理構造をトップダウンに規定するため、フォー
ムが決まっている文書を処理する場合にしか適用できな
い。（２）個々の文書に関して、トップダウンの規定を人間
がすることは面倒であるので、フォームの抽出が課題と
なる。

【０００４】後者のボトムアップ方式には、例えば、S.
Tsujimoto and H. Asada, 「Understanding Multi-art
icled Documents,」（Proc. 10thICPR, 1990.）のシス
テムがある。これは、形状情報を用いた文書解析が主体
であり、幾つかのルールを用いて文書の幾何的構造を論
理構造に変化し、論理構造の構成要素名を決定するもの
で、以下のような問題点がある。（１）形状情報のみから領域をHeadとBodyに分離できる
ことを前提としている。領域のHeadとBodyの区別とその
空間的な配置に基づいて、論理構造とその構成要素名を
決定するため、少ないルール数で効率よく実行できる。
この方法は、質の高い文書、特にビジネス向けの雑誌等
では可能であるが、論文誌などでは必ずしもうまく行く
とは限らない。多くの場合、記号情報を併用する必要が
生じる。（２）幾何的構造を木構造で表し、それを論理構造に変
換しているが、幾何的構造に既に論理構造が仮定されて
いる。木構造を仮定するため、図，表，囲み記事等を別
に抽出している。また、木構造の探索順として、depth
first & left toright を仮定しているため、マニュア
ルなどの異なるフォーマットの文書は別に扱わなくては
ならない。このように、論理構造に関する知識が陰に組
み込まれている。

【０００５】前述したように、トップダウンの方式はフ
ォームの決まった文書には適しているが、柔軟性に欠け
る。例えば、技術論文には定型のフォームは存在しない
が、共通の論理構造が存在する。ボトムアップの方式
は、形状解析から論理構造を抽出する際に必要な知識が
明確に示せない場合が多い。

【０００６】

【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、例えば、技術論文を対象として、形式が一定で
ない（固定のフォーマットを有しない）文書に対して、
論理構造の構成要素やその位置関係を予め教えることな
く形状解析及び論理構造解析ができるボトムアップのア
プローチによる文書認識方式を提供することを目的とし
てなされたものである。

【０００７】

【構成】本発明は、上記目的を達成するために、（１）
イメージ情報で表現された文書中の文章及び図表等の形
状情報を、組版情報を用いて抽出する文書構造の認識方
式において、縦横の白ランにより領域を行単位レベルに
分割する白ラン分割手段と、該白ラン分割手段によって
分割された領域の形状情報から形状属性を決定する形状
属性決定手段と、該形状属性決定手段によって決定され
た形状属性と該形状属性に対応する分類情報とを用いて
分割された領域を分類する形状分類手段とからなり、文
書の分割された領域の形状情報を抽出する文書構造の認
識方式であって、前記形状属性として、領域の高さ、領
域の幅と高さの比、領域中の黒画素と全画素との比を用
いた前記形状分類手段と、予め設定してある文書の近接
した論理要素間の関係を表すモデルとを用いて、前記形
状情報より近傍の領域の中から同一物を形成する領域を
統合して最終的な文書構造を推定するようにしたこと、
更には、（２）前記（１）において、前記形状情報は、
分割領域のレイアウト情報とその領域の推定された形状
属性と領域内の文字情報とを用いるようにしたこと、更
には、（３）前記（２）において、前記形状属性は、文
字の大きさ，前の行の文字との差，段組の変化，カラム
中の水平位置，左空白，上余白，上線，表記，番号，記
号とから成ることを特徴としたものである。以下、本発
明の実施例に基づいて説明する。

【０００８】図１は、本発明による文書認識方式の一実
施例を説明するためのフローチャートである。以下、各
ステップに従って順に説明する。step１：まず、文書解析を行う。このステップにおいて
は、文書の形状的な構造の解析を行う。すなわち、文書
データの領域分割，分割された領域の分類を行う。step２：前記step１の文書解析の結果を踏まえて文字認
識を（ＯＣＲ）を行う。 step３：前記文書解析において、文書を領域分割して分
類した領域を統合し、論理構造を決定する。

【０００９】図２は、図１におけるstep１の文書解析の
フローチャートである。以下、各ステップに従って順に
説明する。step１：まず、水平方向の全長の白ランで分割する。step２：左右のマージンを除去する。step３：垂直方向の一定長の白ランで分割する。step４：各分割領域を水平方向の領域長の白ランで分割
する。step５：分割領域を形状的な属性で分類する。

【００１０】図３は、図１におけるstep３の文書理解の
フローチャートである。以下、各ステップに従って順に
説明する。step１：まず、見出しの検出による表，図，式の領域の
分類を行う。step２：表，図の領域のマージを行う。step３：モデルと属性による文字行のラベル付を行う。step４：構成要素間のリンク付を行う。

【００１１】以下、文書解析と文書理解について詳しく
説明する。まず、文書解析について説明する。１．文書解析（図１のstep１及び図２に相当）本発明の実施例において扱う文書は、組版による構造を
持った技術論文を対象としている。すなわち、本発明
は、文字行，図，表，式等に分類できること、段組が存在する場合があること、文書は、白領域が多いこと、等を利用して、効率よく文書解析を行う。１．１領域分割ここでは、図４に基づいて、文書データを領域に分割す
る方法について述べる。（１）水平方向の全長の白ランで領域を分割する。この結果、文字行は１カラムの場合は行単位で分割され
る。複数カラムの場合、カラム間で行がそろっている時
には行単位で分割され、そろっていない時は数行がまと
まって分割される。図・表がある場合、全カラムに渡る
ものは分割される。複数カラムから成り、全カラムに渡
らない図・表は分割されないことがある。除去した白ラ
ンをその下の領域に記録する。この情報は、上の領域と
の間隔を表し、後に文書理解の過程で利用される。

【００１２】（２）分割領域の左右のマージンを除去す
る。開始・終了の白ランを領域内の最小長でカットする。カ
ットした白ラン長をその領域に記録する。この情報は、
領域の水平方向の位置を表し、後に文書理解の過程で利
用される。（３）カラムを検出する。分割領域内、および複数の分割領域に渡って、垂直方向
に一定の幅以上の白ランが一定の長さ以上続く部分を検
出し、開始・終了点と接する水平方向の白ランと共に、
領域を分割し、カラムの左右の位置を領域に記録する。（４）新しい分割領域を水平方向の領域長の白ランで分
割する。除去した白ランをその下の領域に記録する。

【００１３】この時点で、文字領域は行単位に分割さ
れ、図・表の見出しは、図５に示すように、図・表と分
割される。図は、多くの場合一つの領域となるが、グラ
フ等は縦軸・横軸の数字が分割される場合がある。表
は、縦罫線がない場合は水平線と文字行の繰り返しとし
て分割される。式はまとまった領域として抽出される場
合もあるが、分数式の上下が分割される場合などが考え
られる。このようにして、水平・垂直方向の白ランで囲
まれた矩形領域を得る。これらの領域は、図・表・式
（の一部），水平・垂直線，文字行，図や式に含まれる
べき文字，ノイズ等を表している。

【００１４】１．２領域の分類領域分割で得られた矩形領域を形状情報から幾つかの属
性値を求めて分類する。ここで、属性としては、（領域
の高さ，領域の幅／高さ，領域中の黒画素／全画素）の
組を利用する。属性値の組による領域の分類方法を以下
に示す。なお、カッコ内の最初は領域の高さを示し、真
中は領域の幅／高さを示し、最後は領域中の黒画素／全
画素を各々示している。（大，中，＊） −＞図・表・式（大，小，大） −＞垂直線（小，大，大） −＞水平線（小，大，小） −＞文字行・式（小，中，＊） −＞文字・ノイズ但し、各々の属性値の大・中・小を決める値は、実験的
に決定する。

【００１５】２．文書理解（図１のｓｔｅｐ３及び図３
に相当）文書解析後、文字行・式と文字・ノイズの領域に対して
文字認識を行った後、文書理解の過程に進む。文書理解
では、文書解析において文書を領域分割して分類した領
域を統合し、タイトル，著者，所属，アブストラクト，
節のタイトル，パラグラフ，参考文献，フットノート，
ヘッダ，フッタ，図，表，図・表の見出し，式，等の論
理構造を決定し、参照関係を抽出する。以下に、文書理
解について説明する。（１）文書解析で分割された領域を統合してラベル付す
ることにより論理構造を決定する。この時、文書解析で
得られた領域のレイアウトと領域の形状的な特性に加え
て、領域内に含まれる文字情報を利用し、予め設定して
あるモデルに基づいて統合・ラベル付する。（２）一頁毎に処理する。全体を、上から下、左から右
に、解析で得られた領域単位に処理して行く。（ａ）図とその見出し、表とその見出しは文書の上から
下、左から右に出現する順に、本文とは別に先に抽出す
る。（ｂ）タイトル，著者，所属，アブストラクト，節のタ
イトル，パラグラフ，式，フットノート，参考文献，ヘ
ッダ，フッタ等は、文書の上から下、左から右の順に行
を統合しながらラベル付して抽出する。

【００１６】２．１領域の統合とラベル付領域の統合とラベル付には、領域分割の際に記録された
領域のレイアウト，領域の分類時に決定された領域の形
状特性，及び領域中の文字情報を利用する。文書理解の
過程の前に、文字行・式と文字・ノイズの領域に対して
文字認識を行ってあるので、文字情報を利用することが
できる。なお、文字認識の結果、文字行と式、および文
字とノイズが分離されている。

【００１７】２．１．１図・表・式文書解析では、図・表・式の領域は、同一の分類となっ
ているため、図，表及び式に細分類する必要がある。形
状的に２本以上の横罫線が存在すれば、表であると推定
できるが、図でないという判定は形状情報のみではむず
かしい。そこで、隣接の見出しの領域を捜して文字情報
から図と表の分類をする。また、文書解析で述べたよう
に、図や表は、文字，文字行，線に分割されて検出され
る場合があるため、隣接の領域を統合する必要が生じ
る。（１）分類図・表・式の領域の上下（またま左右）の文字行領域を
調べて、文字情報から見出しの領域を抽出する。見出し
が存在すれば文字情報から図と表の分類をする。見出し
が存在しなければ式であると判定する。

【００１８】（２）統合（ａ）図に関しては、見出し領域と図領域の近傍の領域
を統合する。見出しの上に図がある場合（通常の場合）、カラム（複
数カラムに渡る場合もある）の幅と、上の文字行の領域
までの高さの間にある文字，図，線，文字行は統合す
る。見出しの下や左右に図がある場合も同様に統合す
る。（ｂ）表に関しては、以下の(i)(ii)の順に処理する。 (i) 文書解析過程で表と判定されなかった領域から表を
検出する。水平線，文字行が連続して出現する部分を検
出し、表の見出しが存在する場合は表と判定する。 (ii) 見出し領域と表領域の近傍を統合する。見出しの
下に表がある場合（通常の場合）、カラム（複数カラム
に渡る場合もある）の幅と、下の文字行の領域までの高
さの間にある文字，表，線，文字行は統合する。見出し
の上や左右に表がある場合も同様に統合する。（ｃ）式に関しては、先に述べたように、図・表から分
離されたものと文字行から分離されたものが存在する。
式は、図・表と同様、文字行のラベル付とは独立にラベ
ルが付られるが、図・表が独立して抽出されるのと異な
り、文字行と共に出現順に抽出する。

【００１９】２．１．２文字行文字領域の統合方法は、通常、行の高さや行間隔等の形
状的・空間的情報を用いてブロックとしてまとめあげ、
後からラベル付するようにする。しかし、文書の質によ
っては行間隔等の情報でブロックを抽出できない場合が
多い。特に、技術論文の予稿集では著者のワープロ文書
がそのまま掲載されるので、ブロックの抽出はむずかし
い。（１）論理構造のモデル本発明では、文字領域の統合方法として、文字行の隣接
関係に関する制約条件を論理構造モデル化し、形状情
報，レイアウト情報，および文字情報を用いて、行を上
から下、左から右に一行ずつ統合しながら同時にラベル
付する方法をとる。論理構造モデルはつぎのように表現
する。

【００２０】

【表１】

【００２１】この制約条件は、例えば最初の行はヘッダ
かタイトルであり、ヘッダの次の行はヘッダかタイトル
であり、タイトルの次の行はタイトルか著者であること
を示している。なお、これらはつぎのような状態遷移と
等価であり、論理構造の構文を表現している。 s0：He -> s0｜Ti -> s1 s1：Ti -> s1｜Au -> s2

【００２２】（２）推論方式ここでは、構文中の句に相当するHe, Ti, Auなどを決定
する方法として、属性の組によって推論する方式を採用
した。この属性の組として、文字行の形状特性とレイア
ウト情報と文字情報を用いる。形状特性としては、例え
ば文字行の高さ、つまり文字の大きさを利用し、文書中
の文字行の平均値と比較した大・中・小の値と、前の行
との差分の同・異（または大・小等）の値を用いる。レ
イアウト情報としては、前の行との段組の変化，カラム
中の水平位置，カラム開始位置からの空白，上の領域と
の余白，および上線の存在を利用する。なお、上余白が
あるかどうかは行との相対的な大きさで判定する。文字
情報としては、Abstract等の表記と、1,* 等の番号・記
号を利用する。

【００２３】従って、（文字の大きさ(al)、前の行の文
字との差(a2)、段組の変化(a3)、カラム中の水平位置(a
4)、左空白(a5)、上余白(a6)、上線(a7)、表記(a8)、番
号・記号(a9)という属性の組を用いて推論する（以下、
これらの属性をa1からa9の番号で引用する）。ここで、
行をブロックとしてまとめあげずに一行ずつ処理するた
め、構成要素の最初の行と二番目以降の行では決定ルー
ルが変わることに注意する。例えば、Abの最初の行はAb
stractという表記や、上線，上余白の存在が推定の手が
かりとなるが、二行目以降では文字の大きさが同じで、
他の行が出現するまではAbであると判断する。各構成要
素（先に述べた属性を用いる）を決定するルールの条件
部は、最初の行(1)と二番目以降の行(2)に分けて示すと
以下のようになる。

【００２４】

【表２】

【００２５】なお、Foのみはページの最終行で段組と関
係なく位置し、ページ数や論文名や雑誌名を表すという
特徴を用いて決定する。また、Eqは前述したように既に
決定されている。これらの属性に関する条件を用い、前
記の論理構造モデルに基づいて行の遷移を決定する様子
を次に示す。

【００２６】・最初の行がHeかTiかは、文字の大きさと
水平位置で決定する。・Heの後がTiかは、文字の大きさと水平位置で決定す
る。・Tiの後がAuかは、文字の変化と上の余白で決定する。・Auの後については、Da, Ab-Ti, Abは表記と上余白、S
-Tiは番号・記号と上余白で決定するが、表記や番号・
記号がない場合は他の属性を用いる。なお、S-Tiの番号
・記号は記録しておき、次のS-Tiの判定のために用い
る。Paは左空白と上余白と文字の変化、FNは上余白と上
線と文字の大きさおよび引用符で決定する。AuとPoは決
定できない場合がある。その場合は、人名等の情報を使
って決定する必要がある。

【００２７】・Poの後については、Da, Ab-Ti, Ab, S-T
i Pa, FNは前述のように決定する。AuとPoは前述のよう
に決定できない場合がある。Recomは表記と上余白で決
定する。・Daの後については、Ab-Ti, Ab, S-Ti, Pa, FNは前述
のように決定する。・Recomの後についても同様とする。・Ab-Tiの後については、Abに一意に決定する。・Abの後については、S-Ti, Pa, FNは前述のように決定
する。Keは上余白か表記で決定するが、表記がない場合
は、単語を列挙しているという特徴を調べる必要があ
る。・Keの後については、S-Ti, Pa, FNは前述のように決定
する。・S-Tiの後については、Pa, FNは前述のように決定す
る。・Paの後については、S-Ti, FNは前述のように決定す
る。Re-Tiは表記と上余白で決定する。Reは上余白のみ
では決定できないので、人名等の情報を使う必要がある
が、通常、Re-Tiが先行し、Paの直後に出現することは
めったにない。・Eqの後については、S-Ti, FNについては前述のように
決定する。Paは決定しにくいが、Eqがすでに決定されて
いるので、S-Ti, FN, Eq以外はPaと決めることができ
る。・Re-Tiの後は、Reに一意に決定できる。・Reの後については、FNは前述のように決定する。Noは
上空白で決定する。

【００２８】ここでは、論理構造モデルをローカルな制
約条件、つまり要素間の遷移可能な組として利用し、各
要素の属性から遷移を決定する方式について述べた。し
かし、文書によっては使用できる属性が足りず、遷移を
決定できない場合は、論理構造のモデルをグローバルに
利用し、遷移を仮定して処理を進め、バックトラックし
て決定することも必要である。

【００２９】２．２参照関係各領域の統合及びラベル付が終了した後、図・表の見出
しとパラグラフ中の引用部分との間に、参照関係を示す
リンクを生成する。このとき、パラグラフ中で見出しの
番号・記号を引用せずに、単に「図」または「表」と表
現した場合は、パラグラフ近傍の図・表を指示対象とし
て決定する。参考文献に関しては、パラグラフ中の引用
部分との間に参照関係を示すリンクを生成する。さら
に、参考文献は各々から著者，タイトル，雑誌，年度等
の情報を抽出して他の論文とのリンクを生成する。３．応用なお、本発明では対象を技術論文という比較的構造の強
い文書としたが、論理構造のモデルと推論ルールの変
更、例えば属性の組の変更などにより、特許公報，ビジ
ネスレター，カード，契約書，カタログ，マニュアルな
どにも適用できる。すなわち、形状的に行単位で処理す
ることが向いており、かつ各行の間に論理的に強い制約
がありながら、固定のフォームを持たない文書に対して
応用可能である。

【００３０】

【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。（１）請求項１及び請求項２に対応する効果：分割の処
理が簡単に、かつスピーディに行なえ、後処理におい
て、例えばＯＣＲ等によって文字コード化しやすい最適
な単位に分けることができる。（２）請求項３乃至請求項５に対応する効果：形式が一
定でない文書に対して、論理構造の構成要素やその位置
関係を予め与えることなく技術論文のような文書の構造
が認識できるようになった。

【図面の簡単な説明】

【図１】本発明による文書認識方式の一実施例を説明
するためのフローチャートである。

【図２】文書解析を説明するためのフローチャートで
ある。

【図３】文書理解を説明するためのフローチャートで
ある。

【図４】領域分割を説明するための図である。

【図５】図領域のマージを説明するための図である。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06T 7/00 G06K 9/20 340

Claims

(57)【特許請求の範囲】

【請求項１】イメージ情報で表現された文書中の文章
及び図表等の形状情報を、組版情報を用いて抽出する文
書構造の認識方式において、縦横の白ランにより領域を
行単位レベルに分割する白ラン分割手段と、該白ラン分
割手段によって分割された領域の形状情報から形状属性
を決定する形状属性決定手段と、該形状属性決定手段に
よって決定された形状属性と該形状属性に対応する分類
情報とを用いて分割された領域を分類する形状分類手段
とからなり、文書の分割された領域の形状情報を抽出す
る文書構造の認識方式であって、前記形状属性として、
領域の高さ、領域の幅と高さの比、領域中の黒画素と全
画素との比を用いた前記形状分類手段と、予め設定して
ある文書の近接した論理要素間の関係を表すモデルとを
用いて、前記形状情報より近傍の領域の中から同一物を
形成する領域を統合して最終的な文書構造を推定するよ
うにしたことを特徴とする文書認識方式。
【請求項２】前記形状情報は、分割領域のレイアウト
情報とその領域の推定された形状属性と領域内の文字情
報とを用いるようにしたことを特徴とする請求項１記載
の文書認識方式。
【請求項３】前記形状属性は、文字の大きさ，前の行
の文字との差，段組の変化，カラム中の水平位置，左空
白，上余白，上線，表記，番号，記号とから成ることを
特徴とする請求項２記載の文書認識方式。