JP2000251067A - 文書解析方法及び装置並びに記録媒体 - Google Patents

文書解析方法及び装置並びに記録媒体

Info

Publication number
JP2000251067A
JP2000251067A JP11049148A JP4914899A JP2000251067A JP 2000251067 A JP2000251067 A JP 2000251067A JP 11049148 A JP11049148 A JP 11049148A JP 4914899 A JP4914899 A JP 4914899A JP 2000251067 A JP2000251067 A JP 2000251067A
Authority
JP
Japan
Prior art keywords
character frame
character
heading
document
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11049148A
Other languages
English (en)
Inventor
Masahiko Sakai
正彦 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Sumitomo Metal Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Metal Industries Ltd filed Critical Sumitomo Metal Industries Ltd
Priority to JP11049148A priority Critical patent/JP2000251067A/ja
Publication of JP2000251067A publication Critical patent/JP2000251067A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 形状が一定でない複数の独立した記事を含む
文書に対して、各記事毎の文字枠を正しく抽出して、各
記事毎の正確な論理構造を抽出する文書解析方法を提供
する。 【解決手段】 解析対象の文書における文字枠情報を生
成する文字枠生成部1と、文字枠を「見出し」文字枠と
「本文」文字枠とに分類する文字枠分類部2と、同一の
記事に属する可能性がある「見出し」文字枠と「本文」
文字枠との関連付けを判定する関連付け判定部3と、文
字枠の基準点間距離に基づいて同一の記事に属する「見
出し」文字枠と「本文」文字枠との関連付けを決定し
て、解析対象の文書の論理構造を抽出する関連付け決定
部4とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書に含まれる複
数の記事の論理構造を解析する文書解析方法及び装置、
並びに、その解析方法を実施するためのプログラムを記
録した記録媒体に関する。
【0002】
【従来の技術】既存の印刷物をスキャナで読み込んだ文
書、または、電子印刷物から取り込んだ文書を、コンピ
ュータ上で利用可能とするためには、その文書の形状的
な構造を解析して論理構造を抽出する必要がある。形状
的な構造の解析は、解析対象の文書から文字,図,線な
どを分別して文字枠を抽出する処理を示し、論理構造の
抽出は、抽出した文字枠を見出し,本文,注釈などに分
類し、それらの参照関係を求める処理を示す。
【0003】特許文書のように構造が比較的限定されて
おり1つの文書が1つの記事で構成されているような場
合には、上述したような文書解析処理は容易に行える。
しかし、このような例では、対象となる文書の自由度が
極めて低いという問題があり、構造が定型でない複数の
記事が含まれている文書に対しても、その解析対象の文
書の構成要素とその位置関係とを予め教えることなく、
文書の形状的な構造の解析及び論理構造の抽出を自動的
に行えるシステムの開発が望まれている。
【0004】このような文書解析手法の従来例として、
特開平5−94535 号公報に開示された方法がある。この
方法では、解析対象の文書を白ランにより複数の領域に
分割し、分割された領域の形状情報から形状属性を決定
し、その形状属性と形状属性に対応する分類情報とを用
いて分割された領域(文字枠)を分類し、文書の分割さ
れた領域の形状情報を抽出するようにしている。
【0005】
【発明が解決しようとする課題】しかしながら、特開平
5−94535 号公報に提案された従来の方法では、次のよ
うな問題がある。対象可能である文書が技術論文のみで
ある、横組みされた文書しか解析することができず、縦
組みされた文書には対応できないなど、対象となる文書
の種類が限定される。また、抽出した文字枠間の関連付
けを行えないので、複数の独立した記事を含む文書につ
いて、各記事における見出しと本文との関連付けを行え
ず、各記事毎の論理構造を抽出することができない。
【0006】本発明は斯かる事情に鑑みてなされたもの
であり、形状が一定でない複数の独立した記事を含む文
書についても、各記事毎の文字枠を正しく抽出でき、各
記事毎の正確な論理構造を抽出することができる文書解
析方法及び装置と、その解析方法を実施するためのプロ
グラムを記録した記録媒体とを提供することを目的とす
る。
【0007】
【課題を解決するための手段】請求項1に係る文書解析
方法は、文字枠の形態で見出しと本文とを有する記事が
複数含まれている文書の構造を解析する方法において、
解析対象の文書における文字枠を抽出するステップと、
抽出した文字枠を見出しの文字枠と本文の文字枠とに分
類するステップと、分類された文字枠について、同一の
記事に属する見出しの文字枠と本文の文字枠との関連付
けを行うステップとを有することを特徴とする。
【0008】請求項2に係る文書解析方法は、請求項1
において、前記関連付けを行うステップは、分類された
1つの本文の文字枠に対して関連付け可能な複数の見出
しの文字枠を選定する第1ステップと、選定された複数
の見出しの文字枠の中から関連付け対象の1つの見出し
の文字枠を決定する第2ステップとを含むことを特徴と
する。
【0009】請求項3に係る文書解析方法は、請求項2
において、前記第2ステップは、前記1つの本文の文字
枠と選定された前記各見出しの文字枠との間の距離を求
めるステップと、求めた距離が最も短い見出しの文字枠
を前記関連付け対象の見出しの文字枠として決定するス
テップとを含むことを特徴とする。
【0010】請求項4に係る文書解析装置は、文字枠の
形態で見出しと本文とを有する記事が複数含まれている
文書の構造を解析する装置において、解析対象の文書に
おける文字枠を抽出する手段と、抽出した文字枠を見出
しの文字枠と本文の文字枠とに分類する手段と、分類さ
れた文字枠について、同一の記事に属する見出しの文字
枠と本文の文字枠との関連付けを行う手段とを備えるこ
とを特徴とする。
【0011】請求項5に係る記録媒体は、コンピュータ
にて文字枠の形態で見出しと本文とを有する記事が複数
含まれている文書の構造を解析するためのプログラムを
記録してあるコンピュータでの読み取り可能な記録媒体
において、解析対象の文書における文字枠を抽出するこ
とをコンピュータにさせるプログラムコード手段と、抽
出した文字枠を見出しの文字枠と本文の文字枠とに分類
することをコンピュータにさせるプログラムコード手段
と、分類された文字枠について、同一の記事に属する見
出しの文字枠と本文の文字枠との関連付けを行うことを
コンピュータにさせるプログラムコード手段とを有する
ことを特徴とする。
【0012】請求項1,4,5の本発明では、解析対象
の文書に含まれる文字枠を抽出し、抽出したそれらの文
字枠を、例えば文字サイズに基づいて見出しの文字枠と
本文の文字枠とに分類する。そして、同一の記事に属す
る見出しの文字枠と本文の文字枠とを関連付ける。これ
らの関連付け結果に応じて、複数の記事毎に論理構造を
抽出する。本発明では、このような関連付け処理を行う
ので、複数の独立した記事を含む文書についても、各記
事毎の文字枠を抽出して、各記事毎の論理構造を抽出す
ることが可能である。
【0013】請求項2の本発明では、見出しの文字枠と
本文の文字枠とを関連付ける際に、まず、各文字枠の位
置関係などを考慮して、1つの本文の文字枠に対して関
連付け可能である複数の見出しの文字枠を選定し、その
複数の見出しの文字枠の中から最終的に1つの見出しの
文字枠を決定する。よって、効率良く見出しの文字枠と
本文の文字枠とを関連付けることができる。
【0014】請求項3の本発明では、ある本文の文字枠
に関連付ける見出しの文字枠を決定する際に、両文字枠
間の距離を求め、最も距離が短い見出しの文字枠と本文
の文字枠とを関連付ける。よって、同一の記事に属する
見出しの文字枠と本文の文字枠とを正確に関連付けるこ
とが可能となる。
【0015】
【発明の実施の形態】以下、本発明をその実施の形態を
示す図面を参照して具体的に説明する。図1は、本発明
の文書解析装置のブロック構成図である。本発明の文書
解析装置は、解析対象の文書の「文字枠情報」を生成す
る文字枠生成部1と、文字枠を「見出し」属性を有する
文字枠(以下、「見出し」文字枠という),「本文」属
性を有する文字枠(以下、「本文」文字枠という)など
に分類する文字枠分類部2と、「見出し」文字枠と「本
文」文字枠との関連付けの可否を判定する関連付け判定
部3と、「見出し」文字枠と「本文」文字枠との関連付
けを最終的に決定する関連付け決定部4とを有する。
【0016】文字枠生成部1にて、以下に述べるような
手順に従って、入力された解析対象の文書から「文字枠
情報」を生成する。図2,図3,図4は、文字枠生成部
1での文字枠生成処理に関係する「文字情報」,「行情
報」,「文字枠情報」のそれぞれの記録データの一例を
示す。
【0017】まず、既知の情報抽出方法を用いて文字の
並び順に抽出された「文字情報」から「行情報」を生成
する。図5は、この「行情報」を生成する際の処理手順
を示すフローチャートである。解析対象の文書に未処理
の文字がある限り(ステップS11:YES)、各行の組方向
決定処理(ステップS12)及びその行の終端決定処理
(ステップS13)を実行する。
【0018】この各行の組方向決定処理(S12)は、先
頭の未処理文字から新しい行を生成し、次文字との位置
関係から組方向(横組みか縦組か)を決定する処理であ
り、具体的には、図6のフローチャートのステップS21
〜S28で示す手順に従って、各文字が横に組まれている
か縦に組まれているかを決定する。
【0019】この行の終端決定処理(S13)は、未処理
の文字が新しい行に含まれるか否かを判定し、含まれる
全ての文字を行の要素に加えて、行の終端を決定する処
理であり、具体的には、行が横組みである場合には図7
のフローチャートのステップS31〜S38で示す手順に従
って、行が縦組みである場合には図8のフローチャート
のステップS41〜S48で示す手順に従って、行の終端を
決定する。
【0020】以上のようにして生成された「行情報」か
ら「文字枠情報」を生成する。図9は、この「文字枠情
報」を生成する際の処理手順を示すフローチャートであ
る。解析対象の文書について未処理の行がある限り(ス
テップS51:YES)、各文字枠の組方向決定処理(ステッ
プS52)及びその文字枠の終端決定処理(ステップS5
3)を実行する。
【0021】文字枠の組方向は、その文字枠を構成する
行の組方向と同じになるので、この各文字枠の組方向決
定処理(S52)は、先頭の未処理行から新しい文字枠を
生成し、行の組方向を文字枠の組方向と決定する処理で
ある。
【0022】この文字枠の終端決定処理(S53)は、未
処理の行が新しい文字枠に含まれるか否かを判定し、含
まれる全ての行を文字枠の要素に加えて、文字枠の終端
を決定する処理であり、具体的には、文字枠が横組みで
ある場合には図10のフローチャートのステップS61〜S
68で示す手順に従って、文字枠が縦組みである場合には
図11のフローチャートのステップS71〜S78で示す手順
に従って、文字枠の終端を決定する。
【0023】なお、このような「文字情報」,「行情
報」,「文字枠情報」はそれぞれ下記表1に示す属性を
有する。
【0024】
【表1】
【0025】次に、以上のようにして生成した「文字枠
情報」を用いて、文字枠分類部2にて、各文字枠に含ま
れる文字のサイズに応じて、各文字枠を複数の種別に分
類する。具体的には、以下の規則〜に従って、全文
字枠を「見出し」文字枠,「本文」文字枠,「注釈」文
字枠(「注釈」属性を有する文字枠)の3種類の内の何
れかの種別に分類する。 文書中の全文字を文字サイズ別に分類し、最大文字
数の文字サイズを『本文文字サイズ』と設定する。 『本文文字サイズ』の次に大きい文字サイズを『最
小見出し文字サイズ』と設定し、この『最小見出し文字
サイズ』以上の文字サイズの文字で構成されている文字
枠の属性を「見出し」と決定する。 『本文文字サイズ』より小さい文字サイズのなか
で、最も文字数が多い文字サイズを『最大注釈文字サイ
ズ』と設定し、この『最大注釈文字サイズ』以下の文字
サイズで構成されている文字枠の属性を「注釈」と決定
する。 『最大注釈文字サイズ』より大きく、『最小見出し
文字サイズ』より小さい文字サイズの文字から構成され
る文字枠の属性を「本文」とする。
【0026】なお、必要に応じて動作パラメータを設定
することなどによって、ユーザによる「見出し」,「本
文」,「注釈」の3種類以外の種別の設定、『本文文字
サイズ』,『最小見出し文字サイズ』,『最大注釈文字
サイズ』における任意の文字サイズの設定も可能であ
る。
【0027】次に、関連付け判定部3にて、このように
分類された「本文」文字枠と「見出し」文字枠、「注
釈」文字枠と「見出し」文字枠との関連付けの可否を判
定する。具体的には、以下に述べるように、文書の段組
の有無及び段数の情報と、対象となるそれぞれの文字枠
の「文字枠を内包する矩形座標,組方向,種別」の各情
報と、既知の情報抽出方法を用いて抽出された「罫線情
報」とを利用して、関連付けの可否を判定する。図12
は、この関連付け判定の処理手順を示すフローチャート
である。
【0028】まず、文書の段数及び各文字枠の段番号を
決定する(ステップS81,S82)。図13は、例えば横組
み文書における段数の決定処理の手順を示すフローチャ
ート、図14は、同じく横組み文書における各文字枠の段
番号の決定処理の手順を示すフローチャートである。な
お、横組み文書における段数及び段番号の決定処理につ
いてのみフローチャートで示しているが、縦組み文書に
あっては、図13,図14のフローチャートにおいて、左辺
を下辺、右辺を上辺、X軸をY軸と変更することによっ
て、文書の段数及び各文字枠の段番号を決定することが
可能である。
【0029】次に、段組みされている文書である場合に
は(ステップS83:YES)、その組方向に応じて文字枠の
座標変換処理を実施する(ステップS84)。具体的に
は、2段目以降の文字枠の行方向の座標値を、行方向が
増加する方向に(段番号×文書の行方向サイズ)分だけ
修正する。
【0030】次に、「見出し」文字枠と「本文」文字枠
との配置位置関係を調査し、その調査結果に基づく関連
付けの可否判定(第1関連付け判定)を行う(ステップ
S85)。具体的には、「本文」文字枠の組方向に応じ
て、横組みの場合には左上、縦組みの場合には右上など
の領域にある「見出し」文字枠を関連付け可能であると
判定し、それ以外の領域内にある「見出し」文字枠は当
該の「本文」文字枠とは関連付け不可能であると判定す
る。図15でハッチングを付した領域は、組方向が横組み
である「本文」文字枠に対する「見出し」文字枠の配置
可能領域を示し、図16でハッチングを付した領域は、組
方向が縦組みである「本文」文字枠に対する「見出し」
文字枠の配置可能領域を示している。
【0031】そして、「罫線情報」を利用した関連付け
の可否判定(第2関連付け判定)を行う(ステップS8
6)。具体的には、多くの文書で妥当と考えられる“文
字の組方向に平行な罫線で完全に分離することができる
「見出し」文字枠と「本文」文字枠とは関連付けられな
い”という制約Sに従って、配置位置関係に基づく第1
関連付け判定によって関連付け可能と判定された「見出
し」文字枠と「本文」文字枠とに対して、更なる関連付
けの判定を行う。
【0032】最後に、関連付け決定部4にて、1つの
「本文」文字枠に対して1つの「見出し」文字枠を決定
する。1つの「本文」文字枠に対して、関連付け判定部
3によって関連付け可能と判定された「見出し」文字枠
が複数個存在する場合には、その「本文」文字枠と各
「見出し」文字枠との基準点間距離に応じて最も関連度
が高い「見出し」文字枠を選択する。
【0033】図17は、関連付け決定部4におけるこのよ
うな関連付け決定処理の手順を示すフローチャートであ
る。ある「本文」文字枠に対して関連付け可能な「見出
し」文字枠が1個しかない場合には(ステップS131:N
O)、その「本文」文字枠とその「見出し」文字枠との
関連付けを決定する(ステップS134)。
【0034】一方、ある「本文」文字枠に対して関連付
け可能な「見出し」文字枠が複数個存在する場合には
(ステップS131:YES)、関連するそれらの文字枠の基準
点を求める(ステップS132)。具体的には、組方向に応
じて、横組みの場合には「左上」、縦組みの場合には
「右上」の文字枠矩形頂点を各文字枠の基準点とする。
次に、その「本文」文字枠と関連付け可能な各「見出
し」文字枠との基準点間距離を求めてそれらを比較する
(ステップS133)。そして、この比較結果に基づき、最
も距離が短い「見出し」文字枠との関連付けを決定する
(S134)。
【0035】以上のような処理を、すべての「本文」文
字枠に対して実施することにより、すべての「本文」文
字枠が何れかの「見出し」文字枠に関連付けられる。
【0036】また、「本文」文字枠と全く同様な処理
を、「注釈」属性を有するすべての「注釈」文字枠に対
して実施することにより、すべての「注釈」文字枠が何
れかの「見出し」文字枠に関連付けられる。
【0037】以上ような処理を行うことによって、各記
事毎に「見出し」文字枠を中心とした論理構造の抽出を
行うことができる。
【0038】なお、上述した各処理の動作は、パラメー
タ設定によって微調整可能とする。また、論理構造抽出
後にテキスト抽出を実施する場合、ある「見出し」文字
枠にに複数の「本文」文字枠,「注釈」文字枠が関連付
けられているときには、必要に応じて各文字枠の矩形座
標及び組方向,種別などの情報を利用して文字枠のソー
ト処理を実施する。
【0039】以下、本発明の具体例について説明する。
図18は、構造が一定でない複数の記事が含まれている解
析対象の文書Dを示しており、この文書Dから論理構造
を抽出する処理を具体例とする。なお、文書Dからの
「文字情報」,「罫線情報」の抽出処理、及び、組方向
を考慮した文字枠のソート処理については、既存の手法
をそのまま利用する。
【0040】(1)「文字枠情報」の生成 既存の情報抽出手法により、解析対象の文書Dから「文
字」,「罫線」,「イメージ」などの情報を抽出する。
この抽出される具体的な情報を下記表2に示す。
【0041】
【表2】
【0042】そして、抽出した「文字情報」から前述し
た図5〜図8のフローチャートに従って「行情報」を生
成し、更に、生成した「行情報」から前述した図9〜図
11のフローチャートに従って「文字枠情報」を生成す
る。図19に「文字情報」からの「行情報」の生成動作、
図20に「行情報」からの「文字枠情報」の生成動作を模
式的に示す。なお、図19,図20には、横組みの場合の動
作を示しているが、縦組みの場合にも同様に「文字情
報」から「行情報」を介して「文字枠情報」を生成す
る。図21は、このようにして「文字枠情報」を生成して
複数の文字枠を抽出した状態を模式的に示している。
【0043】(2)文字枠種別の分類 前述した規則〜に従って全文字枠を何れかの種別に
分類する。この例では、文字サイズが2種類(『本文文
字サイズ』とこれより大きい『最小見出し文字サイズ』
との2種)存在し、全文字枠が、「見出し」文字枠,
「本文」文字枠の何れかに分類される。図22は、このよ
うにして文字枠を種別分類した状態を模式的に示してお
り、横組み,縦組みの全ての文字枠が、「見出し」文字
枠,「本文」文字枠の何れかに分類されている。
【0044】(3)「見出し」文字枠と「本文」文字枠
との関連付け判定 (a)段数及び各文字枠の段番号の設定 各文字枠の矩形位置座標情報によって、文書の組方向毎
の段数を決定する。段数決定後、各文字枠の段番号を決
定する。図23は、このようにして段数及び段番号を決定
した状態を模式的に示しており、横1段と縦3段とが決
定されている。
【0045】(b)文字枠座標変換 段組されている文書では、その組方向に応じて文字枠の
座標を変換する。図24は、文字枠の座標を変換した状態
を模式的に示しており、縦2段目及び縦3段目に属する
文字枠は縦方向に座標値が修正されている。
【0046】(c)第1関連付け判定(文字枠の配置位
置による関連付け判定) 全ての「本文」文字枠に対して、全ての「見出し」文字
枠との関連付けの判定を、それぞれの配置位置の関係に
よって行う。図25は、このような第1関連付け判定を行
った状態を模式的に示しており、「本文」文字枠Aにつ
いて考えると、横組みであるので図15に従って左,上に
存在する4個の「見出し」文字枠B1 ,B2 ,B3 ,B
4 が関連付け可能な「見出し」文字枠と判定されてい
る。
【0047】(d)第2関連付け判定(「罫線情報」を
利用した関連付け判定) (c)で関連付けられた「本文」文字枠と「見出し」文
字枠とに対して、前述した制約Sによる「罫線情報」を
利用した関連付け判定を行う。図26は、このような第2
関連付け判定を行った状態を模式的に示しており、
(c)で関連付けられた4個の「見出し」文字枠B1
2 ,B3 ,B4 の中から、この制約Sに従って2個の
「見出し」文字枠B1 ,B2 のみが関連付け可能な「見
出し」文字枠と判定されている。
【0048】(4)「見出し」文字枠と「本文」文字枠
との関連付け決定 (a)「見出し」文字枠と「本文」文字枠との基準点間
距離の算出 (3)で1個の「本文」文字枠に関連付けられた「見出
し」文字枠が複数存在する場合、その「本文」文字枠と
「見出し」文字枠との基準点間距離を求める。図27は、
各文字枠の基準点及び両文字枠の基準点間距離を模式的
に示しており、何れの文字枠も横組みであってその基準
点は矩形の左上頂点であって、「本文」文字枠Aと
(3)で関連付けられた2個の各「見出し」文字枠
1 ,B2 との基準点間距離がそれぞれL1 ,L2 とな
っている。
【0049】(b)基準点間距離による関連付け決定 基準点間距離が最も短い「見出し」文字枠を選択し、そ
の選択した「見出し」文字枠と「本文」文字枠との関連
付けを決定する。図27に示す例では、L1 >L 2 、つま
り、「本文」文字枠A,「見出し」文字枠B2 の基準点
間距離が「本文」文字枠A,「見出し」文字枠B1 の基
準点間距離より短いので、「本文」文字枠Aと「見出
し」文字枠B2 との関連付けを決定する。
【0050】以上のような処理を文書Dに含まれる全て
の文字枠に対して実行することにより、文書Dの論理構
造を抽出できる。図28は、このような論理構造の抽出結
果を模式的に示しており、図18に示した解析対象の文書
Dを忠実に表した正確な論理構造を抽出できている。
【0051】図29は、本発明の記録媒体の実施例の構成
を示すブロック図である。ここに例示するプログラム
は、図5〜図14,図17に示すステップS11〜S134 を含
んでおり、以下に説明する記録媒体に記録されている。
【0052】図29において、コンピュータ40とオンライ
ン接続する記録媒体41は、コンピュータ40の設置場所か
ら隔たって設置される例えばWWW(World Wide Web)の
サーバコンピュータを用いてなり、記録媒体41には前述
の如きプログラム41a が記録されている。記録媒体41か
ら読み出されたプログラム41a がコンピュータ40を制御
することにより、コンピュータ40が、上述したような文
書解析処理(論理構造の抽出処理)を実行する。
【0053】コンピュータ40の内部に設けられた記録媒
体42は、内蔵設置される例えばハードディスクドライブ
またはROMなどを用いてなり、記録媒体42には前述の
如きプログラム42a が記録されている。記録媒体42から
読み出されたプログラム42aがコンピュータ40を制御す
ることにより、コンピュータ40が、上述したような文書
解析処理(論理構造の抽出処理)を実行する。
【0054】コンピュータ40に設けられたディスクドラ
イブ40a に装填して使用される記録媒体43は、運搬可能
な例えば光磁気ディスク,CD−ROMまたはフレキシ
ブルディスクなどを用いてなり、記録媒体43には前述の
如きプログラム43a が記録されている。記録媒体43から
読み出されたプログラム43a がコンピュータ40を制御す
ることにより、コンピュータ40が、上述したような文書
解析処理(論理構造の抽出処理)を実行する。
【0055】
【発明の効果】以上のように本発明では、見出しの文字
枠と本文の文字枠とを関連付けるようにしたので、形状
が一定でない複数の独立した記事を含む文書について
も、各記事毎の文字枠を正しく抽出でき、各記事毎の正
確な論理構造を抽出することができる。
【0056】また、見出しの文字枠と本文の文字枠とを
関連付ける際に、各文字枠の位置関係などを考慮して、
1つの本文の文字枠に対して関連付け可能である複数の
見出しの文字枠を選定した後に、それらの中から最終的
に1つの見出しの文字枠を決定するようにしたので、効
率良く見出しの文字枠と本文の文字枠との関連付けを行
える。
【0057】更に、見出しの文字枠と本文の文字枠との
間の距離に基づいて、両文字枠の関連付けを決定するよ
うにしたので、同一の記事に属する見出しの文字枠と本
文の文字枠とを正確に関連付けることができ、論理構造
の抽出精度を向上できる。
【図面の簡単な説明】
【図1】本発明の文書解析装置のブロック構成図であ
る。
【図2】文字情報の記録データの一例を示す図である。
【図3】行情報の記録データの一例を示す図である。
【図4】文字枠情報の記録データの一例を示す図であ
る。
【図5】行情報を生成する際の処理手順を示すフローチ
ャートである。
【図6】組方向を決定する際の処理手順を示すフローチ
ャートである。
【図7】横組みでの行の終端を決定する際の処理手順を
示すフローチャートである。
【図8】縦組みでの行の終端を決定する際の処理手順を
示すフローチャートである。
【図9】文字枠情報を生成する際の処理手順を示すフロ
ーチャートである。
【図10】横組みでの文字枠の終端を決定する際の処理
手順を示すフローチャートである。
【図11】縦組みでの文字枠の終端を決定する際の処理
手順を示すフローチャートである。
【図12】「見出し」文字枠と「本文」文字枠との関連
付けを判定する際の処理手順を示すフローチャートであ
る。
【図13】段数を決定する際の処理手順を示すフローチ
ャートである。
【図14】各文字枠の段番号を決定する際の処理手順を
示すフローチャートである。
【図15】組方向が横組みである場合の「本文」文字枠
に対する「見出し」文字枠の配置可能領域を示す図であ
る。
【図16】組方向が縦組みである場合の「本文」文字枠
に対する「見出し」文字枠の配置可能領域を示す図であ
る。
【図17】「見出し」文字枠と「本文」文字枠との関連
付けを決定する際の処理手順を示すフローチャートであ
る。
【図18】複数の記事が含まれている解析対象の文書の
一例を示す図である。
【図19】文字情報からの行情報の生成動作を示す図で
ある。
【図20】行情報からの文字枠情報の生成動作を示す図
である。
【図21】複数の文字枠の抽出例を示す図である。
【図22】文字枠を種別分類した後の状態を示す図であ
る。
【図23】段数及び段番号を決定した後の状態を示す図
である。
【図24】文字枠を座標変換処理した後の状態を示す図
である。
【図25】第1関連付け判定(配置位置による関連付け
判定)による判定結果を示す図である。
【図26】第2関連付け判定(罫線情報による関連付け
判定)による判定結果を示す図である。
【図27】関連付け判定された「見出し」文字枠と「本
文」文字枠との基準点間距離を示す図である。
【図28】本発明による文書の論理構造の抽出結果を示
す図である。
【図29】記録媒体の実施例の構成を示すブロック図で
ある。
【符号の説明】
1 文字枠生成部 2 文字枠分類部 3 関連付け判定部 4 関連付け決定部 40 コンピュータ 41,42,43 記録媒体 A 「本文」文字枠 B1 ,B2 ,B3 ,B4 「見出し」文字枠 D 文書 L1 ,L2 基準点間距離

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文字枠の形態で見出しと本文とを有する
    記事が複数含まれている文書の構造を解析する方法にお
    いて、解析対象の文書における文字枠を抽出するステッ
    プと、抽出した文字枠を見出しの文字枠と本文の文字枠
    とに分類するステップと、分類された文字枠について、
    同一の記事に属する見出しの文字枠と本文の文字枠との
    関連付けを行うステップとを有することを特徴とする文
    書解析方法。
  2. 【請求項2】 前記関連付けを行うステップは、分類さ
    れた1つの本文の文字枠に対して関連付け可能な複数の
    見出しの文字枠を選定する第1ステップと、選定された
    複数の見出しの文字枠の中から関連付け対象の1つの見
    出しの文字枠を決定する第2ステップとを含む請求項1
    記載の文書解析方法。
  3. 【請求項3】 前記第2ステップは、前記1つの本文の
    文字枠と選定された前記各見出しの文字枠との間の距離
    を求めるステップと、求めた距離が最も短い見出しの文
    字枠を前記関連付け対象の見出しの文字枠として決定す
    るステップとを含む請求項2記載の文書解析方法。
  4. 【請求項4】 文字枠の形態で見出しと本文とを有する
    記事が複数含まれている文書の構造を解析する装置にお
    いて、解析対象の文書における文字枠を抽出する手段
    と、抽出した文字枠を見出しの文字枠と本文の文字枠と
    に分類する手段と、分類された文字枠について、同一の
    記事に属する見出しの文字枠と本文の文字枠との関連付
    けを行う手段とを備えることを特徴とする文書解析装
    置。
  5. 【請求項5】 コンピュータにて文字枠の形態で見出し
    と本文とを有する記事が複数含まれている文書の構造を
    解析するためのプログラムを記録してあるコンピュータ
    での読み取り可能な記録媒体において、解析対象の文書
    における文字枠を抽出することをコンピュータにさせる
    プログラムコード手段と、抽出した文字枠を見出しの文
    字枠と本文の文字枠とに分類することをコンピュータに
    させるプログラムコード手段と、分類された文字枠につ
    いて、同一の記事に属する見出しの文字枠と本文の文字
    枠との関連付けを行うことをコンピュータにさせるプロ
    グラムコード手段とを有することを特徴とする記録媒
    体。
JP11049148A 1999-02-25 1999-02-25 文書解析方法及び装置並びに記録媒体 Pending JP2000251067A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11049148A JP2000251067A (ja) 1999-02-25 1999-02-25 文書解析方法及び装置並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11049148A JP2000251067A (ja) 1999-02-25 1999-02-25 文書解析方法及び装置並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2000251067A true JP2000251067A (ja) 2000-09-14

Family

ID=12823020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11049148A Pending JP2000251067A (ja) 1999-02-25 1999-02-25 文書解析方法及び装置並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2000251067A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500428A (ja) * 2008-08-13 2012-01-05 グーグル インコーポレイテッド 印刷媒体ページの記事へのセグメント化
US8611666B2 (en) 2009-03-27 2013-12-17 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
US8837818B2 (en) 2009-03-17 2014-09-16 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
JP2016212619A (ja) * 2015-05-08 2016-12-15 キヤノンマーケティングジャパン株式会社 情報処理装置、処理方法、およびプログラム
JP2018067153A (ja) * 2016-10-19 2018-04-26 富士通株式会社 形状抽出プログラム、形状抽出方法及び形状抽出装置
JP7037240B2 (ja) 2018-03-22 2022-03-16 キヤノンマーケティングジャパン株式会社 情報処理装置、処理方法、およびプログラム
JP7385075B1 (ja) 2023-06-28 2023-11-21 株式会社朝日新聞社 情報処理装置、情報処理方法、及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500428A (ja) * 2008-08-13 2012-01-05 グーグル インコーポレイテッド 印刷媒体ページの記事へのセグメント化
US8837818B2 (en) 2009-03-17 2014-09-16 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
US8611666B2 (en) 2009-03-27 2013-12-17 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
JP2016212619A (ja) * 2015-05-08 2016-12-15 キヤノンマーケティングジャパン株式会社 情報処理装置、処理方法、およびプログラム
JP2018067153A (ja) * 2016-10-19 2018-04-26 富士通株式会社 形状抽出プログラム、形状抽出方法及び形状抽出装置
JP7037240B2 (ja) 2018-03-22 2022-03-16 キヤノンマーケティングジャパン株式会社 情報処理装置、処理方法、およびプログラム
JP7385075B1 (ja) 2023-06-28 2023-11-21 株式会社朝日新聞社 情報処理装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US6996295B2 (en) Automatic document reading system for technical drawings
US6970601B1 (en) Form search apparatus and method
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JPH10228473A (ja) 文書画像処理方法、文書画像処理装置および記憶媒体
CN1525378A (zh) 票据定义数据生成方法以及票据处理装置
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
US20080040660A1 (en) Method And Apparatus For Processing Electronic Documents
JP4834351B2 (ja) 文字認識装置及び文字認識方法
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP2000251067A (ja) 文書解析方法及び装置並びに記録媒体
JPH06501801A (ja) 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置
JP3333998B2 (ja) 自動分類付与装置および方法
EP1202213B1 (en) Document format identification apparatus and method
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2020087112A (ja) 帳票処理装置および帳票処理方法
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
JPH0567237A (ja) 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JP2002342343A (ja) 文書管理システム
JP4867894B2 (ja) 画像認識装置、画像認識方法及びプログラム
JPH09319747A (ja) 文書画像の構造化方法
JP2001005804A (ja) 文字認識装置を利用したデータベース登録方法
JP7268764B1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2005275830A (ja) 帳票認識方法
JP2009223391A (ja) 画像処理装置及び画像処理プログラム