JPH08255220A - 文書解析装置 - Google Patents

文書解析装置

Info

Publication number
JPH08255220A
JPH08255220A JP7057229A JP5722995A JPH08255220A JP H08255220 A JPH08255220 A JP H08255220A JP 7057229 A JP7057229 A JP 7057229A JP 5722995 A JP5722995 A JP 5722995A JP H08255220 A JPH08255220 A JP H08255220A
Authority
JP
Japan
Prior art keywords
block
sentence
blocks
document
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7057229A
Other languages
English (en)
Inventor
Takeshi Miyashita
健 宮下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP7057229A priority Critical patent/JPH08255220A/ja
Publication of JPH08255220A publication Critical patent/JPH08255220A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】紙面上の文書データを構成する文章、図形、写
真などの各要素間の連続関係を抽出する文書解析装置を
提供する。 【構成】要素分類部110で、入力文書の各要素を、文
章要素と、文章の特定部分に関わる文章付随図形要素
と、文書全体に関わる独立図形要素とに分類し、文章付
随図形要素は文章要素の関係箇所に連続すると判定され
る。独立図形要素は、隣接要素検出部120で、その各
要素の位置情報に基づいて各要素間の隣接関係が検出さ
れる。その隣接する要素の中から、要素統合部130
で、その隣接する複数要素が紙面上に占める領域の形状
に基づいて、連続性の高い要素が抽出される。論理構造
構築部140で、前記文章要素と文章付随要素の連続性
と、前記独立図形要素の連続性を合わせられ、入力文章
に対する論理的連続性として出力される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字・図形などの視覚
的に認識可能な情報が記載された文書より、その文書を
構成するブロック(以後、要素という場合もある)間の
論理構造を抽出する文書解析装置に関する。
【0002】
【従来の技術】文字、図形、音声、画像などの媒体を複
合して情報を取り扱うことのできるいわゆるマルチメデ
ィアシステムの開発が急速に進んでいる。そのマルチメ
ディアシステムの適用例として、蓄積された種々の情報
を検索し、検索結果を文字、図形、音声、画像などの任
意好適な方法・媒体により出力し、情報を明確かつ直感
的に認識できるようなシステムも実現され始めている。
そして、既存の膨大な種々の情報を、そのようなマルチ
メディアシステムにより取り扱い可能な形式にしておけ
ば、その情報の検索や伝送などを効率よく行うことがで
き、情報の活用の面から非常に有効である。
【0003】既存の情報としては、新聞・雑誌・論文・
書籍など、紙面上に可視的に記録されている情報が、最
も基本的な情報と言え、その量も膨大である。したがっ
て、それらの情報を前述したようなマルチメディアシス
テムにおいて使用することができれば非常に有効であ
る。換言すれば、マルチメディアシステムを有効に活用
するためには、そのような既存の情報を取り扱い可能に
することが必須であると言える。
【0004】そのような、新聞、雑誌、論文、書籍など
の紙面上の情報を、前述したようなマルチメディアシス
テムで取り扱い可能なように電子的な情報にする作業に
ついて、図2に示す新聞記事を電子化する場合を例に説
明する。このような紙面情報は、まずスキャナやカメラ
のような画像入力装置によりイメージとして入力され
る。そして、その入力画像に対して画像処理が行われ、
視覚的にまとまりのある領域(ブロック、要素と言う場
合もある)を抽出する。図2の例においてはブロック1
1〜21が抽出される。そしてこの要素が各々イメージ
として記録される。ただし、文章の要素に対しては、そ
の要素をそのままイメージとして記録する場合と、OC
R装置などによる認識やキー入力を行って、テキストデ
ータとして記録する場合がある。
【0005】この際、各要素に対してその要素の種類
(その要素が、写真、図形、タイトル、サブタイトル、
文章のいずれであるか、また、文章であればあらまし、
本文、写真や図の説明のいずれであるか、など)が記録
される。図2の例においては、要素11はタイトル、要
素12,13はサブタイトル、要素14はあらまし、要
素15,16,18,19は本文、要素17が図、要素
20が写真、要素21が写真の説明となる。また、本文
が複数の要素に分割された場合などで、同一種類の文章
要素が複数存在する場合には、通常それらの要素に順序
が付与される。
【0006】このような処理を行って、紙面上の情報を
電子化しておけば、任意の編集を行ったり、情報検索を
行ったり、他の情報源から入手した情報、すなわち音声
や画像を、その記事や説明文の適切な箇所に挿入したり
することが容易に可能となる。すなわち、前述したよう
なマルチメディアシステムで取り扱い可能な情報に変換
されたことになる。
【0007】しかし、前述したようなマルチメディアシ
ステムにおける処理の高度化・複雑化や、出力装置の進
展、出力形態の多様化にともなって、マルチメディアシ
ステムに用いるデータとしてはより高度な情報が必要と
されている。具体的には、1つの記事を構成する各要素
のより詳細な論理構造を知りたいという要望が大きくな
っている。各要素間の論理構造、すなわち接続関係を知
ることができれば、たとえばその記事の出力時に有効な
出力や有効な省略を行うことが可能となる。そのため
に、これまでの文章の順序だけではなく、図形間の連続
性、図形と文章の順序関係などを情報として入力してお
く必要がある。
【0008】図9は、そのような文書を構成する各要素
の論理構造を入力する装置の構成を示すブロック図であ
る。論理構造入力装置900は、論理構造編集装置91
0と編集端末920を有する。論理構造編集装置910
は、文章データ930および図形データ940を編集端
末920に表示し、編集端末920の指示に従って前記
表示したデータに対する論理構造情報950を生成する
ものである。このように、これまでのそのような論理構
造情報の入力は、図9に示すような編集装置を用いて、
作業者が個々の文書情報をチェックしながらデータを入
力していた。
【0009】
【発明が解決しようとする課題】しかし、そのような論
理構造情報の入力は、人手を介して記事ごとに、またそ
の記事を構成する要素ごとに個々にデータを入力する方
法なので、情報の入力に非常に時間がかかるという問題
があった。そのため、前述したような膨大な量の紙面上
の情報から得られたデータを、前述したような、図形要
素同志の順序関係あるいは図形要素と文章要素の順序関
係を入力した新たな形式の情報に変換する作業が、迅速
に行えないという問題があった。
【0010】したがって、本発明の目的は、文書などの
紙面上の情報から得られたデータに対して、その文書デ
ータを構成する文章、図形、写真などの各要素の論理構
造、すなわち、各要素間の連続関係を抽出することので
きる文書解析装置を提供することにある。
【0011】
【課題を解決するための手段】前記課題を解決するため
に、処理対象とするデータが、元々文書などの2次元面
上に所定のレイアウトで配置されていたデータであるこ
とに着目し、各要素の原文書の中での位置情報に基づい
て、それらの隣接関係を調べ、隣接する要素間において
さらに各要素が原文書中に占める領域に基づいて、連続
性の高い要素を抽出するようにした。
【0012】したがって、本発明の文書解析装置は、文
字・図形などの視覚的に認識可能な情報が略矩形のブロ
ックごとに2次元面上に適宜配置された文書データよ
り、前記各ブロック間の論理的連続関係を抽出する文書
解析装置であって、前記各ブロックの位置情報に基づい
て、各ブロック間の隣接関係を検出する隣接関係検出手
段と、前記検出された隣接する複数ブロックが、前記2
次元面上に占める領域の形状に基づいて、その隣接する
ブロック間の論理的連続性を判定する連続性判定手段と
を有する。
【0013】好適には、本発明の文書解析装置は、前記
文書を構成する各ブロックより、その文書を構成する文
章の特定部分に依存しない独立図形ブロックを分類する
独立図形ブロック分類手段をさらに有し、前記分類され
た独立図形ブロックに対してのみ前記隣接関係検出手段
において隣接関係を検出し、前記連続性判定手段により
ブロック間の連続性を判定する。
【0014】また好適には、前記連続性判定手段は、前
記隣接する複数ブロックを含む最小矩形の面積に対する
その複数ブロックの個々の面積の合計の割合である面積
有効利用率を求め、その面積有効利用率が所定値以上と
なった時にその複数ブロックは連続性があると判定す
る。
【0015】さらに好適には、前記連続性判定手段は、
前記隣接する3個以上のブロックに対して、その隣接す
る複数ブロックを少なくとも2個以上のブロックを含む
グループが1以上存在するように分割し、分割された各
グループごとにそのグループの全ブロックを含む最小矩
形の面積に対するそのグループを構成する個々のブロッ
クの面積の合計の割合である面積有効利用率を求め、そ
の分割に対する前記全グループの前記面積有効利用率の
平均値を求め、その隣接する複数ブロックに対する全て
の前記分割方法の中で、前記平均値が最も高い分割方法
を選択し、その選択された分割における1つのグループ
を構成している複数ブロックは連続性があると判定す
る。
【0016】さらに好適には、本発明の文書解析装置
は、前記文書を構成する各ブロックより、図形で構成さ
れる図形ブロックであり、文章で構成される文章ブロッ
クに隣接し、その隣接する文章ブロックの行方向のその
図形ブロックの長さが、前記隣接する文章ブロックの行
の長さと同一的なブロックを、その文章ブロックに付随
する文章付随図形ブロックとして分類する文章付随図形
ブロック分類手段と、前記分類された文章付随図形ブロ
ックは、その文章付随図形ブロックに隣接する前記文章
ブロックに連続すると判定する論理構造決定手段とをさ
らに有する。
【0017】
【作用】本発明の文書解析装置は、隣接関係検出手段に
より各ブロックの原文書の2次元平面上での位置情報に
基づいて各ブロック間の隣接関係を検出し、連続性判定
手段においてその検出された隣接するブロックの中の任
意の複数ブロックが、原文書中において一連の要素を形
成するように配置されているブロックを連続性の高いブ
ロックとして抽出する。
【0018】
【実施例】本発明の文書解析装置の一実施例を図1〜図
8を参照して説明する。図1は、本発明の文書解析装置
の一実施例を示すブロック図である。文書解析装置10
0は、要素分類部110、隣接要素検出部120、要素
統合部130、および、論理構造構築部140を有す
る。図2は文書データの例を示す図である。図2に示す
文書データは、要素11〜21の11個の要素より構成
され、要素11はタイトル、要素12,13はサブタイ
トル、要素14はあらまし、要素15,16,18,1
9は本文、要素17は図、要素20は写真、要素21は
写真の説明である。本実施例においては、図2に示すよ
うな新聞記事を原文書とする文書データから論理構造を
抽出する処理を具体例として、文書解析装置100の動
作について説明する。
【0019】図3は要素ごとの記録データを示す図であ
る。データ31は属する記事を識別する番号である。デ
ータ32はその要素の種類を示すデータである。各要素
は、写真、図形、タイトル、サブタイトル、あらまし、
本文、写真や図の説明のいずれかの種類に分類される。
なお、前記種類のうち、あらましと本文は文章要素、そ
れ以外は図形要素と分類され、この分類もデータ32よ
り知ることができる。データ33は、各要素のデータ自
体である。このデータの形式は、データ32において文
章要素と分類されているデータ、すなわちあらましと本
文はテキストデータとして記録される。また、データ3
2において図形要素と分類されているデータは、イメー
ジデータとして記録される。データ34は原文書中での
その要素の座標を示すデータであり、その要素を矩形で
示した時の上下左右の座標が記録される。
【0020】データ35は、その要素の変形に対する許
容性を示すコードが記録される。このデータもデータ3
2の要素の種類から決定される。要素の種類が文章要素
の場合には、任意の大きさに変形したり、複数領域に分
割したりすることができるので、変形の許容性が高いも
のとしてその旨のデータが記録される。また、要素の種
類が図形要素の場合には、大きさを比例的に変えること
しかできないので、変形の許容性が低いものとしてその
旨のデータが記録される。データ36は、文章を中心と
した順序性を示すデータが記録される。文章はそもそも
読む順序が決まっているものである。したがって、文章
中に挿入される文章を補足する図なども、その文章の特
定箇所に対応して適宜参照される必要があり、順序性が
高いと言える。また、記事全体を説明するタイトルや図
形などは、その記事などの中においては順序はさほど重
要ではなく順序性が低いと言える。データ36にはこの
順序性の高低を示すデータが記録される。
【0021】なお、データ31〜35は、文書解析装置
100に入力される時点で既に得られ、記録されている
データであり、データ36は、文書解析装置100によ
り決定され記録されるデータである。図2に示す文書デ
ータの要素11〜21は、各々図3に示すような形式の
データとして記録されている。そして文書解析装置10
0においては、これらのデータが入力され、各構成部に
より参照され、各要素の論理構造を示すデータが得られ
る。この際に、文書解析装置100は、実際に図3に示
すような形式のデータが各構成部を伝達されるような構
成でもよいし、また、図示せぬ記憶部にこれらのデータ
が記憶されており、各構成部より適宜参照されるような
構成でもよい。
【0022】以下、文書解析装置100の各部の動作に
ついて説明する。要素分類部110は、入力された文書
データを構成する各要素を、文章、文章に付随する図
形、および、その他の独立した図形の3種類に分類す
る。そして、文章に付随する図形と分類された要素は、
その付随する文章要素の列に挿入され、その文章要素と
ともに論理構造構築部140に出力される。また、独立
した図形と分類された要素は隣接要素検出部120に出
力される。
【0023】前記文章に付随する図形とは、たとえば、
スポーツ欄の試合結果表などの文章の一部と非常に深い
関係を持ち、文章の流れに沿って文章中に組み込まれる
べき図形である。また、文章から独立した図形とは、記
事全体に関わる図形であり、たとえば、タイトル、写真
などである。そして、本実施例においては、図形要素の
中で、連続する文章要素の間に位置し、高さがその
文章要素の高さと等しい、という2つの条件を満たした
時に、その図形は文章に付随する図形と分類される。
【0024】この条件による要素分類部110の動作に
ついて図4を参照して具体的に説明する。図4は、要素
分類部110の動作を説明するための文書の例を示す図
である。図4に例示する文書は、新聞記事などに通常見
られる構成の文書である。この文書は8つの要素41〜
48より構成されており、要素41,47が図形要素、
その他が文章要素である。
【0025】このような構成の文書において、2つの図
形要素41,47に着目する。すると図形要素41は、
文章要素42,44および文章要素43,45の間に位
置しているものの、それらのいずれの文章要素とも高さ
が等しくない。したがって前記条件に基づいて、図形要
素41は独立した図形と分類される。また、図形要素4
7は、文章要素46,48の間に位置し、高さもそれら
文章要素46,48の高さと等しい。したがって図形要
素47は、文章に付随する図形と分類される。
【0026】同様の方法により、図2の例においては、
図形要素11,12,13,17,20,21の内、図
形要素17のみが前記条件に適合し文章に付随する図形
要素と分類され、その他の要素は独立した図形要素と分
類される。
【0027】なお、文章要素の順序は、本実施例におい
ては予め知られているものとする。また、図4において
は、文章が縦書きに記録されている新聞記事を例示して
いるため、前記文章に付随する図形を決定するための
の条件は、その図形の高さが文章要素の高さと等しい、
という条件となっている。この高さは、厳密には行の長
さを意味する。したがって、雑誌の記事などの横書きの
文章を対象とした場合には、の条件は図形要素の幅が
文章要素の幅と等しいという条件になる。
【0028】隣接要素検出部120は、要素分類部11
0で独立した図形と分類された要素に対して、それらの
要素間の隣接関係を各要素の位置情報に基づいて調べ
る。隣接要素検出部120は、独立した図形の要素の全
ての組み合わせについて、前記データ34に記録されて
いる2次元座標データを用いて、その要素間の境界線が
所定距離以内となる範囲が所定長さ以上連続してある場
合に、それらの要素が隣接すると判定する。
【0029】この隣接の判定について図2および図5を
参照して説明する。図5は、文書解析装置100の隣接
要素検出部120の動作を説明するための図であり、
(A)は図2の文書中の独立した図形要素を示す図、
(B)はネットワーク形状の隣接情報を模式的に示す図
である。図2の文書データに対しては、図5(A)に示
すような要素11,12,13,20,21が独立した
図形要素として分類される。そして、この各要素の間で
前記条件により隣接を判定すると、図形要素11と図形
要素12、図形要素12と図形要素13、および図形要
素20と図形要素21が隣接していると判定される。そ
の結果、図5(B)に示すような図形要素11,12,
13および、図形要素20,21の、2つのネットワー
ク形状の隣接情報が得られる。
【0030】要素統合部130は、隣接要素検出部12
0で隣接すると判定されたネットワーク形状の隣接情報
より、各要素の位置情報に基づいて、さらに連続性の高
い要素の並びを抽出する。まず、要素統合部130は、
隣接要素検出部120で求められた隣接情報の各ネット
ワークごとに、そのネットワークを分割するすべての組
み合わせを求める。その際、全く分割しないネットワー
クそのものも1つの組み合わせとする。そして、それら
の全ての組み合わせについて所定の評価を行う。
【0031】一般に、新聞・雑誌などの記事のレイアウ
トにおいては、意味上の関係が強い図形要素は、全体と
して見た時に矩形になるように配置される場合が多い。
その結果、連続する要素で構成される集合に対しては、
その要素の集合を囲む矩形の面積に対するその要素の面
積の合計の比率(面積有効利用率)が高くなる。したが
って、前記ネットワークを分割した各要素または要素の
集合に対する前記比率の平均値を求めれば、その分割方
法、すなわち、その分割が行われた状態の1の集合とさ
れている要素間の連続性を評価することができる。
【0032】したがって、要素統合部130は、次に、
前記求められた各分割状態に対して、その分割された要
素または要素の集合ごとに前記面積有効利用率を求め、
その分割の全要素または要素の集合ごとの前記面積有効
利用率の平均値を求める。そして、その平均値の最も高
い組み合わせを選択する。なお、その平均値が同じ場合
には、分割数の少ないもの、すなわち多くの要素が連続
された状態の組み合わせを選択するものとする。
【0033】このように、隣接要素検出部120で得ら
れた隣接情報のネットワークを適宜分割することによ
り、結果的にその隣接情報の中から連続性の高い要素の
並びを抽出することになる。
【0034】この要素統合部130の動作について、図
6を参照して具体的に説明する。図6は、要素統合部1
30の動作を説明するための図であり、(A)〜(D)
は各々所定の組み合わせで要素を統合した時の評価を示
す図である。図5(B)に示したように、図2の記事の
独立した図形要素からは、要素11,12,13という
ネットワーク状の隣接情報が得られている。そして、こ
のネットワークを分割する方法は、分割しない場合も含
めると図6(A)〜(D)に示すような4通りの分割方
法が考えらる。この各分割方法において、各分割された
グループごとに、矩形の面積と要素の面積の合計を求
め、その比率を求める。そして評価値である前記比率の
平均を求める。この平均を求める計算および評価値を図
6に示す。
【0035】図示するように、図6の(A)〜(D)の
分割の評価値は各々100%、75%、100%、40
%となる。また、前述した評価値が等しい場合には分割
数の少ない方を選択するという規則により、最終的には
図6(C)に示す分割が選択される。すなわち、要素統
合部130においては、隣接要素検出部120で隣接が
検出された図形要素11,12,13の中で、要素1
2,13の連続性が高いと判定する。
【0036】論理構造構築部140は、要素分類部11
0より入力された文章要素、および、文章に付随する図
形要素の情報、および、要素統合部130より入力され
た独立図形要素の連続性の情報に基づいて、最終的に入
力された記事の各要素間の論理構造を決定し、出力す
る。すなわち、要素分類部110より文章付随図形要素
が文章要素の列の適切な場所に挿入された要素の列が入
力され、また、要素統合部130より独立した図形の列
が入力され、それらを合わせて入力文書に対する論理構
造が抽出される。
【0037】図2に示した文書の例からは図7に示すよ
うな論理構造が抽出される。すなわち、要素分類部11
0より文章付随図形要素17が文章要素の列14〜19
の適切な場所に挿入された要素の列51が入力され、ま
た、要素統合部130より独立した図形の列52,5
3,54が入力され、それらを合わせて図7に示すよう
な論理構造が得られる。
【0038】このように、本発明の文書解析装置によれ
ば、文書などの既存の視覚的に認識可能な情報(視覚メ
ディア情報)より、その情報を構成する各要素が配置さ
れた位置に基づいて、その各要素間の論理構造を抽出す
ることができ、マルチメディアシステムに用いるのに、
より好適な情報にすることができる。
【0039】なお、本発明の文書解析装置は、本実施例
に限られるものではなく、種々の改変が可能である。た
とえば、本実施例においては、本発明の文書解析装置
を、図1に示すような専用の各部により構成される装置
により実現した。しかし、汎用の計算機装置などを用い
ても本発明の文書解析装置は実現可能である。その際の
処理手順を図8に示す。図8は、本発明の文書解析装置
を計算機装置により実現する場合の、処理手順を示すフ
ローチャートである。この処理手順に従えば、まずステ
ップS11において入力された紙面情報より、各要素の
種類をチェックし文章と図形の分離を行う。そして、文
章および文章に付随する図形の要素のデータに対しては
ステップS14の処理を、独立図形の要素のデータに対
してはステップS12の処理を行う。
【0040】ステップS12においては、独立した図形
のデータ相互の隣接関係を調べ、ネットワーク状の隣接
情報を生成する。その隣接情報の分割方法をステップS
13において検討し、前記面積有効利用率に基づいて最
適な分割方法を決定し、結果的に連続性の高い要素を求
める。そして、ステップS14において、ステップS1
1で分離された文章要素および文章に付随する図形要素
の連続性、および、ステップS13の結果の独立した図
形要素の連続性を合わせて、全体の論理的連続性を求め
る。このように、パーソナルコンピュータやワークステ
ーションなどの汎用の計算機装置を用いて本発明を実現
しても、本実施例と全く同様に論理構造の抽出が実現で
きる。
【0041】また、前記隣接の判定、隣接情報の分割の
評価の方法などは、文書データの性質などを考慮しなが
ら、適宜変更してよい。
【0042】
【発明の効果】本発明の文書解析装置を使用すれば、視
覚的に認識可能な新聞・雑誌・論文・書籍などの文書情
報に対して、人手を介することなく、その情報を構成す
る図形要素同志の順序関係、あるいは、図形要素と文章
要素の順序関係を抽出することができる。したがって、
文書情報に論理構造情報を迅速に追加することができ、
マルチメディアシステムに用いてより好適な、視覚的に
認識可能な文書情報のデータを構築することができる。
【図面の簡単な説明】
【図1】本発明の文書解析装置の一実施例を示すブロッ
ク図である。
【図2】文書データの例を示す図である。
【図3】要素ごとの記録データを示す図である。
【図4】図1に示した文書解析装置の要素分類部の動作
を説明するための文書の例を示す図である。
【図5】図1に示した文書解析装置の隣接要素検出部の
動作を説明するための図であり、(A)は独立した図形
要素を示す図、(B)はネットワーク形状の隣接情報を
模式的に示す図である。
【図6】図1に示した文書解析装置の要素統合部の動作
を説明するための図であり、(A)〜(D)は各々所定
の組み合わせで要素を統合した状態を示す図である。
【図7】図1に示した文書解析装置により論理構造抽出
結果を示す図である。
【図8】図1に示した文書解析装置を計算機装置により
実現する場合の、処理手順を示すフローチャートであ
る。
【図9】文書を構成する各要素の論理構造を入力する装
置の構成を示すブロック図である。
【符号の説明】
100…文書解析装置 110…要素分類部 120…隣接要素検出部 130…要素統合部 140…論理構造構築部 900…論理構造入力装置 910…論理構造編集装置 920…編集端末 930…文章データ 940…図形データ 950…論理構造情報

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】文字・図形などの視覚的に認識可能な情報
    が略矩形のブロックごとに2次元面上に適宜配置された
    文書データより、前記各ブロック間の論理的連続関係を
    抽出する文書解析装置であって、 前記各ブロックの位置情報に基づいて、各ブロック間の
    隣接関係を検出する隣接関係検出手段と、 前記検出された隣接する複数ブロックが、前記2次元面
    上に占める領域の形状に基づいて、該隣接するブロック
    間の論理的連続性を判定する連続性判定手段とを有する
    文書解析装置。
  2. 【請求項2】前記文書を構成する各ブロックより、該文
    書を構成する文章の特定部分に依存しない独立図形ブロ
    ックを分類する独立図形ブロック分類手段をさらに有
    し、 前記分類された独立図形ブロックに対してのみ前記隣接
    関係検出手段において隣接関係を検出し、前記連続性判
    定手段によりブロック間の連続性を判定する請求項1記
    載の文書解析装置。
  3. 【請求項3】前記連続性判定手段は、 前記隣接する複数ブロックを含む最小矩形の面積に対す
    る当該複数ブロックの個々の面積の合計の割合である面
    積有効利用率を求め、 該面積有効利用率が所定値以上となった時に当該複数ブ
    ロックは連続性があると判定する請求項1または2記載
    の文書解析装置。
  4. 【請求項4】前記連続性判定手段は、前記隣接する3個
    以上のブロックに対して、 該隣接する複数ブロックを少なくとも2個以上のブロッ
    クを含むグループが1以上存在するように分割し、 分割された各グループごとにそのグループの全ブロック
    を含む最小矩形の面積に対する当該グループを構成する
    個々のブロックの面積の合計の割合である面積有効利用
    率を求め、 当該分割に対する前記全グループの前記面積有効利用率
    の平均値を求め、 当該隣接する複数ブロックに対する全ての前記分割方法
    の中で、前記平均値が最も高い分割方法を選択し、 該選択された分割における1つのグループを構成してい
    る複数ブロックは連続性があると判定する請求項1〜3
    いずれか記載の文書解析装置。
  5. 【請求項5】前記文書を構成する各ブロックより、図形
    で構成される図形ブロックであり、文章で構成される文
    章ブロックに隣接し、該隣接する文章ブロックの行方向
    の当該図形ブロックの長さが、前記隣接する文章ブロッ
    クの行の長さと同一的なブロックを、当該文章ブロック
    に付随する文章付随図形ブロックとして分類する文章付
    随図形ブロック分類手段と、 前記分類された文章付随図形ブロックは、該文章付随図
    形ブロックに隣接する前記文章ブロックに連続すると判
    定する論理構造決定手段を有する請求項1〜4いずれか
    記載の文書解析装置。
JP7057229A 1995-03-16 1995-03-16 文書解析装置 Pending JPH08255220A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7057229A JPH08255220A (ja) 1995-03-16 1995-03-16 文書解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7057229A JPH08255220A (ja) 1995-03-16 1995-03-16 文書解析装置

Publications (1)

Publication Number Publication Date
JPH08255220A true JPH08255220A (ja) 1996-10-01

Family

ID=13049706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7057229A Pending JPH08255220A (ja) 1995-03-16 1995-03-16 文書解析装置

Country Status (1)

Country Link
JP (1) JPH08255220A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6832221B2 (en) 1998-08-10 2004-12-14 Ricoh Company, Ltd. Filing system and method for avoiding filing of identical document data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6832221B2 (en) 1998-08-10 2004-12-14 Ricoh Company, Ltd. Filing system and method for avoiding filing of identical document data
US7509317B2 (en) 1998-08-10 2009-03-24 Ricoh Company, Ltd. Filing system and method for avoiding filing of identical document data

Similar Documents

Publication Publication Date Title
US10339378B2 (en) Method and apparatus for finding differences in documents
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP3048330B2 (ja) 書類から記事を抽出する装置および方法
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
EP1739574B1 (en) Method of identifying words in an electronic document
Lin et al. Logical structure analysis of book document images using contents information
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
JPH08166970A (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する方法
Harit et al. Table detection in document images using header and trailer patterns
JP2003288334A (ja) 文書処理装置及び文書処理方法
JPH0314184A (ja) 文書画像再配置ファイリング装置
US9049400B2 (en) Image processing apparatus, and image processing method and program
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
JP3922396B2 (ja) レイアウト装置および表示装置
EP1304625B1 (en) Method and apparatus for forward annotating documents and for generating a summary from a document image
JPH08255220A (ja) 文書解析装置
US20020085755A1 (en) Method for region analysis of document image
CN114581934A (zh) 试卷图像的处理方法、装置及设备
KR102572130B1 (ko) 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템
JPH10198705A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体
JP2004280691A (ja) 文書ファイリング装置
JPS6154569A (ja) 文書画像処理方式
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JPH07244663A (ja) 文書情報要旨部分の抽出方法とその装置
Sherkat et al. A descriptive retrieval engine for image databases