JPH03127169A - マルチメディア文書構造化方式 - Google Patents

マルチメディア文書構造化方式

Info

Publication number
JPH03127169A
JPH03127169A JP1264919A JP26491989A JPH03127169A JP H03127169 A JPH03127169 A JP H03127169A JP 1264919 A JP1264919 A JP 1264919A JP 26491989 A JP26491989 A JP 26491989A JP H03127169 A JPH03127169 A JP H03127169A
Authority
JP
Japan
Prior art keywords
area
logical structure
document
multimedia document
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1264919A
Other languages
English (en)
Other versions
JPH0743718B2 (ja
Inventor
Hiroshi Yashiro
寛 屋代
Tatsuya Murakami
達也 村上
Yoshihiro Shima
嶋 好博
Hiromichi Fujisawa
浩道 藤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1264919A priority Critical patent/JPH0743718B2/ja
Publication of JPH03127169A publication Critical patent/JPH03127169A/ja
Publication of JPH0743718B2 publication Critical patent/JPH0743718B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文書処理方式に係り、マルチメディア文書画像
から文書の論理構造(章・節など)を油出し、ファイル
に格納するのに好適なマルチメディア文書構造化方式に
関するものである。
〔従来の技術〕
従来では、文書画像を用いてキーワード検索を行うシス
テムが提案されている。
・田中譲、堀井秀行:「トランスメディア・マシン・ア
ンド・インタ・キーワード・サーチ・オーバー・イメー
ジ・テキスッ」、リアオ′88゜1988年、“Tra
nsmedia Machine and ItsKe
yword 5earch over Image T
exts”、 RIAO’88、1988 このシステムにおけるキーワード検索の方式は、キーワ
ードの標準画像パターン対文書画像中の文字パターンの
マツチング処理によって実現されている。このため、情
報を既存の文字コードで表現しているワードプロセッサ
等、他のシステムで文書画像の持つ情報を用いることが
できなかった。
また、近年の文書処理においては、文書内容として文字
テキスト情報だけでなく、図や表などの非テキスト情報
も統一的に扱うことが要求されている。この文字テキス
ト情報、非テキスト情報が混在している文書をマルチメ
ディア文書と呼ぶ。
マルチメディア文書には、複数のメディアが存在し、各
メディアC文字領域、写真領域1図領域等)間に構造が
存在する。この構造には、ページや字間2行間などの空
間的な割付けを決めるレイアウト構造と章・節などの意
味的な構造を決める論理構造がある。
現在、計算機の世界で文書の論理構造を表現するための
形式には次のようなものがある。
・フォーマツタ(デイ−・イー・クヌス、「ザ・テフブ
ック」、アディソン・ウニスレー1984年、 ”Th
e TEXbook”、 ADDISONWESLEY
、 1984) TEXなとの著名なフォーマツタでは、章・節といった
文書の論理構造を表現するためのコマンドを用意してい
る。このコマンドを用いることによって1章題を強調文
字にしたり、目次の生成を行なうことを可能としている
・0DA10DIF、T、73 これらは文書の情報交換を行なうためのデータ形式であ
り、主に規格として存在する。前者の0DA10DI 
F (rオフィス・ドキュメント・アーキテクチャ(オ
ー・デイ−・ニー)アンド・インターチェンジ・フォー
マットJ、アイニスオー8613.1988年、“0f
fice DocumentArchitecture
  (ODA) and Interchange F
ormat”f808613.1988)は、ISOの
O5Iの規格であり、a者のT、73(rレコメンデー
ション・ティードツト73・ドキュメント・インターフ
ェース・プロトコル・フォー・ザ・テレマチイック・サ
ービス」、シー・シー・アイ・ティー・ティー1984
年、“Recomendation T、73 Doc
umentInterface Protocol f
or the TelematicServices”
、 CCITT、 1984)はCCITTの規格であ
る。なお、0DA10DI FはT、73との互換機能
を含んだ形で開発されている。これらのフォーマットの
特徴は、文書を論理構造と割り付は構造の両者で表現で
きる点にある。
上記で述べたものは、すべて、文書の整形出力を得るた
めに、論理構造が用いられている。すなわち、文書の内
容と文書の論理構造を入力すれば整形された文書が自動
的に得られる。
文書の割付は構造は、紙面の印刷上の配置を表現したも
のであり、「書式」や「レイアウト構造」などと呼ばれ
る場合がある。以下では、「レイアウト構造」は「割付
は構造」と同様な意味を持つ用語とみなし、「割付は構
造」を用いることで統一する。「書式」については、あ
る文書クラスに対する共通な「割付は構造」を示すもの
とみなすこととする。
人間が文書を読む場合、文書の割付は構造を見ながら論
理構造を推測することによって、文書の内容をより正確
に把握することができる。逆に言えば、文書の割付は構
造は、文書の論理をより効果的に判り易くするためにあ
る。また、前項で述べたように、計算機における文書の
論理構造の表現は、文書の整形のために用いられている
。文書の整形とは、割付は構造を文書に加えることに他
ならない。
以上のことから、文書においては、論理構造と割付は構
造が密接な関係にあると考えられる。従って、文書の論
理構造を理解するための手段として、文書の割付は構造
を用いることが有用であると考えられる6 前述の画像ファイリングシステムにおいて、格納しであ
る文書画像から文書の構造を求める方式がいくつか提案
されている。
・辻本他: 「英文文書のレイアウト理解」、昭和63
年電気通信情報学会春季全国大会論文集。
D−477,昭和63年 ・西村他二 「レイアウト構造による紙面識別に関する
検討」、電子通信学会技術報告PRU87−120.昭
和62年 上記の2つの方式は、文字単位に抽出した複数の矩形領
域から、ボトムアップに割り付は構造を生成する方式で
ある。生成した構造を用いることによって、構造の類似
性判断を可能としている。
しかし、意味構造に関する知識を持たないために、抽出
する文書の要素を判定して、書誌事項を抽出することが
できない。
・東野他: 「矩形領域の集合表現に基づく知識表現言
語FDLと文書画像理解への応用」、電子通信学会技術
報告PR086−31,昭和61年 書式定義言語を用いてトップダウンにタイトルや著者名
など書誌事項の抽出を行う方式であるが、テキスト中の
章・節など階層を持った構造を抽出してデータ構造に変
換することはできない。また、入力した文書画像が定義
された書式を満たさない場合には、リジェクトすること
を可能としている。
論文の標題ページにおけるタイトルなど意味的な情報が
常に文書の同じ場所に割り付けられる場合には有効であ
るが、割り付けられる位置や個数が文書によって異なる
章9節の抽出には対応できない。この方式では、文書を
分割しているだけであるため、文書の要素を抽出するこ
とはできるが、各要素間の関連をデータ構造として抽出
することができなかった。
また1文書の意味構造のうち、レイアウト構造の各要素
と対応している一階層しか持たない要素、たとえば書誌
事項や図表などの抽出は可能であったが、上記の章2節
2項など階層的な構造を構成する要素を抽出することは
できなかった。
〔発明が解決しようとする問題点〕
従来技術の問題点を整理すると次のようになる。
従来の技術では、処理対象が文書画像1ページのみであ
り、ページ中の領域の関係を抽出することは可能であっ
たが、複数ページにわたる領域の関係を抽出することは
できなかった。
従来の技術では、文書画像から文字列・写真・図形など
の文書の構造要素を矩形領域として分離抽出する。ここ
で抽出した矩形領域の綺対座標および相対座標から、各
矩形領域の位置関係を調べることによって、ボトムアッ
プもしくはトップダウンに文書の割り付は構造を解析す
る。その結果書誌事項を抽出したり、文書の割り付は構
造を用いた紙面の類似性判断を行うことが可能となる。
しかし、従来の技術では、解析の結果得られた関係情報
をファイルなどの2次記憶装置に出力する手段を持って
いなかったため、検索する度毎に解析を行なわなければ
ならなかった。
〔課題を解決するための手段〕 前記した従来技術における課題を解決するため本発明は
吹下の手段を有することを特徴とする。
まず、文書の論理構造を階層的に表現可能な手続きを定
める。文書の割り付は構造から文書の論理構造を推定す
るための手段を設ける。この手段を設けることによって
、文書画像から文書の論理構造を抽出することが可能と
なる。
次に、文書クラスの論理構造を表現する手段と文書クラ
スに属する一文書の特定な論理構造を設ける。ここでい
う、文書クラスとは、共通な割付は構造・論理構造を持
つ文書の集合を意味する。
また1文書クラスの論理構造を階層的に表現する手段を
設け、かつ、前記の論理構造を推定する手段において推
定された論理構造の要素と前記文書クラスの論理構造の
要素に対応付ける手段を設ける。以上の手段を用いるこ
とによって、入力文書に固有の論理構造を生成すること
が可能となる。
〔作用〕
本発明の方式を用いることによって、共通な文書の割付
は構造、論理構造、その両者の関係を記述しておくこと
で、スキャナ等で入力したマルチメディア文書から文書
に固有な割り付は構造及び論理構造を抽出することがで
きる。例えば、学会論文に関する文書の割付は構造、論
理構造、及び両者の関係には共通のフォーマットがある
0本発明では、この共通な部分を予め記述しておくこと
によって、論文−つ一つの割付は構造と論理構造を抽出
することができる。
抽出した論理構造に関しては、抽出した結果の論理構造
と画像、あるいは、この画像について文字認識を行った
結果の文字テキストを合わせてファイルに構造化して格
納する。格納した構造化マルチメディア文書のデータを
用いることで、論理構造情報を含めた文書の検索が可能
となる。例えば、章題のみを検索したり、目次を参照し
たりすることが可能となる。
〔実施例〕
第1図は、本発明のマルチメディア構造化方式の一実施
例を示すブロック図である。第1図を用いて本発明の方
式について簡単に説明する。
図中の100で示すカラーマルチメディア文書−とは、
テキス1−、カラー写真9図・表が混在する文書のこと
を言う、このカラーマルチメディア文書を、カラースキ
ャナなどの手段で計算機内の記憶装置に格納する場合、
大きな容量を必要とする。
例えば、A4サイズの文書を8dot/+amの解像度
、RGB (赤・緑・青)各色256階調の色表現で読
み込んだ場合、1頁当たり12MBの容量が必要である
本発明のマルチメディア構造化方式では、まず。
カラー領域抽出部110で、入力したマルチメディアカ
ラー文書画像を単一色で表現できる部分とそうでない部
分に分離する。単一色で表現できる部分とはテキスト部
分や単一色で表現された図・裏部分であり、単一色で表
現できない部分はカラー写真である。以下、単一色で表
現できない部分のことをフルカラー領域と呼ぶ。カラー
領域抽出部110では、入力マルチメディア文書画像1
00中のフルカラー領域の存在する領域の外接矩形領域
を抽出する。同様に単一色の領域も外接矩形領域として
抽出する。カラー領域抽出部110で抽出したフルカラ
ー領域はカラー補正部111を経た後、カラー画像圧縮
部112でカラー画像の圧縮を行う。
次に、前記のカラー領域抽出部110で抽出した単一色
の画像データを用いて、2値化処理120を行う。この
処理で、以降処理すべきデータを単一色のデータに絞り
込み、データ量を173にする。
前記の2値化処理部120を経て得られた画像データは
書誌事項抽出処理部130に送られる。
書誌事項は、論文の表題ページ中のタイトル、著者名、
UDC分類番号、ページ番号、柱などである。これら書
誌事項は、論文の種類ごとに一定の書式で記載されてい
る。この書式の情報を論文の種類ごとに予め記述してお
き、東野他: 「矩形領域の集合演算に基づく知識表現
言語FDLと文書画像理解への応用」信学技報PR1J
86−31゜昭和61年で述べられている方式を用いる
ことで、書誌事項の抽出が可能となる。
また、図表領域抽出処理部140では、図表領域の抽出
が行われる。インデックス情報抽出部141では、図表
領域抽出部140で抽出した図表領域からキーワードと
なるべき情報を抽出し、線画認識部142で画像として
表現されている情報をベクトルデータで表現する。
前記の処理110,130,140で得られたカラー写
真領域、書誌領域2図・表領域を除いた領域が本文の領
域である。処理150では本文の領域を抽出し、行単位
に分割する。
処理151では処理130,141,150で得られた
書誌事項領域、インデックス情報領域。
本文領域中の文字パターンについて文字認識処理を行な
う。この処理では、文字パターンから文字を表現するた
めの文字コードとフォント情報を得る。処理152では
文字認識処理部150で抽出した文字を正しく認識した
かどうかを判定するために辞書の照合を行う。
処理160では、処理150で得られた行領域の座標と
処理151で得られた文字コード及びフォント情報を用
いて論理構造の要素の抽出を行なう。
論理構造生成部170では、処理109で抽出された論
理構造を計算機内で表現するためのデータを生成する。
処理112.処理142.処理152では、それぞれカ
ラー画像、線画1文字が分離・抽出され、各メディアに
適した表現に変換される。これらのばらばらにした文書
内容を、論理構造生成部で生成した構造によって、関係
づける。
以上の処理を経て、マルチメディアカラー文書101か
ら、マルチメディア構造化ファイル180が得られる。
論理構造抽出部160の実施例について述べる前に、論
理構造を抽出するためのyX理について述べる。
文書の構造には論理構造と割り付は構造がある。
論理構造は章・節などの文書の意味的な構造のことであ
り1割り付は構造は、紙面の印刷上の配置を表現したも
のである。本節では1文書画像から文書の割り付は構造
を用いて、文書の論理構造を抽出する方法について述べ
る。
文i#(文部省大学学術局編、「ドキュメンテーション
ハンドブック)、東京電機大学出版局、第22頁から第
25頁、昭和45年)では、文書(特に論文)の論理構
造は、(i)表題、(ii)著者名、(市)抄録、(汁
)目次、(V)使用記号、特殊記号の一覧、  (vi
)まえがき、(d)本論、(vjit)むすび、(玩)
謝辞、(X)引用文献、(xi)討論1回答から構成さ
れるべきであると述べられている。
(vi)の本論については、章・節・段落に細分化され
る。さらに、マルチメディア文書となれば、図や表など
のテキストとは異なったメディアが含まれることになる
。文献では、これらの論理構造が、文書を介したコミュ
ニケーションを円滑に行なうために必要なものとされて
いる。
前述した規格0DA10DIFでは文書の論理構造を記
述する際に、共通論理構造と特定論理構造の2つを用い
ている。共通論理構造は、ある文書クラスにおける共通
な論理構造を表現したものである。ここで言う文書クラ
スとは、実存する文書の上位概念に相当するものであり
、例えば「情報処理学会の論文誌に掲載されている論文
の集合」などが挙げられる。また、特定文書論理構造と
は、ある特定の文書の論理構造を表現したものである。
第2図は、文書クラスとして雑誌 rHITACHI  REVIEWJを取り上げ、その
中に掲載されている論文の共通論理構造を0DA10D
I Fで表現したものである。図中の210で示すSE
Qは順序関係を表わし、下部の構成要素の組に順序関係
があることを意味する。
「論文」200は、rUDcJ 210.r表題」22
0、r著者名J230.r要約J 240゜「本文J2
50.r参考文献リスト」260という順番で構成され
る。図中の211で示すRFPは繰返し構造を表わし、
下部の構成要素の組が複数存在することを意味する。「
本文」250は複数の1章」から構成される。また、図
中の212で示すSELは下部の構成要素のどれか一つ
を任意に選択するという意味を持つ。1図・・表」25
13は任意存在する。
上記(7)rHITAcHI  REVIEWJを文書
クラスの例として、その論理構造を抽出するために必要
な書式を説明する。
(1)竜頭2節題の抽出 竜頭1節題の行間は本文中の行間に比べて広い。また、
竜頭・節類で使用されている文字フォントは本文中で使
用されているものとは異なる。
(2)章、iの抽出 章題9節題の下に続いている。
(3)段落の抽出 段落の行頭は字下げが存在する。
(4)参考文献リストの抽出 上記(2)の章2節の抽出と同様な考え方で抽出できる
。ただし、参考文献リストを示すヘッダREFEREN
CES”がセンタリングされている。竜頭1節題は左寄
せである。
(5)各参考文献の抽出 参考文献リストは、章2節の一種として見ることができ
る。すると、各参考文献は段落に相当する。普通の章9
節における段落と異なる点は、各参考文献はハンギング
パラグラフであるということである。すなわち、各参考
文献は先頭の行が左詰めで残りの行は字下げされている
前述した文書の論理構造に関する知識をもとに、マルチ
メディア文書から章・節の抽出を行なう。
マルチメディア文書から章・節を抽出するために用いる
方式を次に示す。
(1)マルチメディア文書をテキスト領域と非テキスト
領域に分離する。非テキスト領域には、図や表、写真な
どが存在する。この処理は、マルチメディア文書におけ
る論理構造抽出のための前処理部分に相当する。
(2)まず、割付は構造に着目して、論理構造の構成要
素に分離する。−たとえば、ページ中の本文部分の切り
出し、本文部分がマルチカラムであれば、カラム単位に
分離する。
(3)カラム単位に分離したら、その中の行、単語を要
素として論理構造を抽出する。これは、章・節に関連す
る論理構造は、前項で述べたとおり、行・単語レベルの
書式から得ることができるためである。
本実施例においては、文書の論理構造を抽出するための
手段として、書式定義言語FDL(Form Defi
nition Language)を用いた。書式定義
言語FDLは、文書の書式を定義し、与えられた文書を
書式の各構成要素に分解する機能を持つ。
第3図は、文書の竜頭・節類に関連する書式を示すため
の図である。第3図では文書の行を矩形で示しである。
301はそれぞれ本文を示す行である。302は竜頭・
節類を示す行である。303.304,305,306
はそれぞれ矩形領域のY座標を示している。前記したよ
うに1章題・節類領域302は本文領域301と比べて
、行間が広イ、コれは、303,304(7)距離、3
o5.306の距離が他の矩形領域よりも広いことを表
現している。
第4図は、書式定義言語FDLで竜頭・節類に対する書
式を表現した例である。まず、前半の3行では、矩形領
域の間の空間について記述してぃる、401の5PAC
Eは矩形領域間の空白について記述するための述語であ
る。また、?YO。
?Y1は次に示す条件で得られた空白の位置を示す座標
を記憶するための変数である。402では。
空白を調べる際にY座標方向の少ない方から調べること
を指定している。403では、空白の大きさが2.5m
m以上であることを指定している。この数値は、行間が
行の高さの3倍であるという知識をもとに割り出した数
値である。以上の手続きで、竜頭・節類を表す矩形領域
の上部の空白の座標?YO1および、?Y1の座標が得
られる。次の4行では、竜頭・節類の矩形領域の下部の
空白を取り出す、最初の3行は、401,402゜40
3で説明したものと同じ意味を持つ、404で示す部分
で、空白を探索する領域を狭めている。
これは、再び、前の3行で取り出した空白と同じ部分を
取り出さないためである。
第5図は本発明の方式の一実施例であるマルチメディア
文書構造化方式を採用したファイリング装置の機能ブロ
ック図である。装置全体の構成と動作を説明する。
本装置は構造化したい文書をディジタル画像として読み
込むための画像走査部501、原画像や構造化した文書
のテキスト・部分画像を表示するためのデイスプレィ5
02.読み込んだ文書画像をページ単位で記憶するため
頁イメージ記憶部503、文書の構造化処理を行なうた
めに必要な書式情報を格納する書式データ格納部504
、構造化した文書を蓄積する文書格納部505、読み込
んだ文書画像の構造解析をおこなうための文書構造解析
部506、文字パターン化されたデジタル画像から文字
を認識するための文字認識部507、および、膨張・収
縮・まびきなどの画像処理を行なうための画像処理部5
08から構成される。
処理の流れの概要を次に説明する。入力すべき文書51
0を画像走査部501にセットする。画像走査部501
で書類510を光学的に走査して画像データとして入力
し1頁イメージ記憶部503に格納する。画像データ1
10は画像の濃淡画像の濃淡データに対しである閾値を
定めて2値化した2値画像データからなる。次に、頁イ
メージ記憶部503に格納された入力画像データを構造
化するため、入4力文書の書式を記述したデータを書式
データ格納部504から読み込む。文書構造解析部50
6は、書式データ記憶部504から続出された書式デー
タをもとに、頁イメージ記憶部502に格納されている
文書画像データの構造解析を行なう。なお、この文書構
造解析部506では、書式データ記憶部504に格納さ
れている書式データに応じて、適宜1文字認識部507
、および画像処理部508を呼び出す。
次に、本発明方式の一部である論理構造抽出方式につい
て説明する。第6図は本発明の方式を用いた場合のPA
D図(Program Analysis Diagl
am)である0本方式におけるマルチメディア文書画像
の構造解析では、まず、文字列領域の抽出600を行な
う。
次に、ページ番号や柱部分などを除いた文字列領域の抽
出601を行なう。文字列領域の抽出では、図・表の非
文字列領域やページ番号・柱部分を除いた領域を、本文
文字列本文領域とする。この文字列本文領域に対して、
カラム単位の領域分離602、行単位の領域分1ii1
603.単語単位の領域分離604を行なう。これらの
領域分離は、前もって定義しである書式情報をもとにし
て行なう。このときに用いる書式情報はカラム間の空白
領域の大きさ2行間スペース、単語間スペースの値であ
る。
テキスト・非テキストの分離のためのアルゴリズムの処
理について説明する。テキスト・非テキストの分離では
、図や表の領域と比較した場合に文字の領域は行方向に
広がる傾向を持つという知識を用いる。例えば、横書き
の文書であれば、横方向は黒画素が詰まっているが、縦
方向は行間ごとに白画素の領域が表れる。しかし1図や
表は、領域のほぼ全面にわたって画素が分布している。
この知識を利用し、前処理に画像処理の手法を適用する
第7図は、論理構造の抽出を詳細に説明したPAD図で
ある。論理構造の抽出処理は、カラムの領域について行
単位に処理を行なう。まず、処理対象行として一番上の
行を選択する処理701を行なう。次に、論理構造の処
理対象とする行の両側の行間を求める処理702を行な
う。論理構造の油出処理を行なう前に行単位の外接矩形
領域の座標値を求めておけば、画像処理などの複雑な処
理を行なわずとも効率的に行間を調べることができる。
次に、ステップ703で、両側の行間が本文中の行間よ
りも広い場合には、この行は竜頭節類であるとみなす。
次に、章・節の構造化処理を行なう。章・節の構造化処
理とは、本文を章単位、または節単位に分離する処理の
ことである。
第8図は章・節の構造化処理の説明図である。
章・節の構造化処理では、前述の処理703で竜頭・部
属であると判定された処理対象行に章・節であることを
示すインデクスを付加する処理801を行なう。また、
次に、竜頭・部属の前の行をインデクスが章・節の終わ
りであることを示すインデクスを付加する処′RA80
2を行なう。以上の処理を用いることによって、章・節
単位の分離をすることができる。前述の2つの処理80
1゜802で付加したインデクスによって、章・節の領
域を取り出すことができる。この領域についてパラグラ
フの分離処理を行なう。
パラグラフの分離処理では、インデンテーション(字下
げ)の情報を用いる。字下げは、パラグラフに対する一
般的な書式情報である。
第9図は、パラグラフの分離処理を詳細に述べたもので
ある。パラグラフの分離処理では、まず、ステップ90
1で、処理対象行を章・節として分離した領域の最初の
行とする。処理対象行は、次の一連の処理が終了したら
、次の行に切り替える。
ステップ902では1章として抽出した領域に対して、
処理対象行の左側の空間を調べる。この左側の空間が字
下げの情報となる0判定処理903では、もし、左側の
空間が章として抽出した領域よりも下がっているかどう
かの判定を行う。もし、ここで次下げが行われているこ
とが確認されれば、判定処理904を行う。判定処理9
04では、この処理対象行が章・節での第1行目であれ
ば、処理対象行を第1パラグラフの先頭行とし、そうで
なければ、処理対象行の前の行までを第1パラグラフと
するインデックスを付加する。第1パラグラフ目の第1
行目は、インデンテーションが行われないことがあるた
めに、この処理を行う必要がある。
上述の処理を上から順番に行ない、1つのカラムに対し
て処理を行なったら、次のカラム(右のカラム)に対し
ても同様な処理を行なう、このとき、章・節を示すため
のインデックスやフラグは、前のカラムの状態のまま保
持する。
このように、カラム単位に処理を行なっていくため、論
文、雑誌など一つの文書が複数ページにまたがっていて
も論理構造の抽出が可能である。
また1行革位の抽出が行われた時点で、処理対象行につ
いて文字認識の処理も行なう、これは、行間といった大
局的な書式情報だけでは竜頭・部属を抽出できない場合
があるためである。このような場合に対処する方法につ
いて第10図を用いて説明する。第10図は、行間・字
間といった大局押な書式情報だけでは論理構造を分離抽
出できない文書の例である。第10図(a)に示す矩形
領域1001はパラグラフの最後行を示す領域、矩形領
域1002はタイトル行を示す領域、矩形領域1003
は次の章の最初のパラグラフの先頭行を示す領域、矩形
領域1004は矩形領域1003で示した行に続く行を
示す領域である。
第10図(b)に示す矩形領域1012はパラグラフの
最後行を示す領域、矩形領域1011は矩形領域101
2で示した行の前の行を示す領域、矩形領域1013は
矩形領域foil、1012で示した行と同じ章に含ま
れる次のパラグラフの先頭行を示す領域、矩形領域10
14は矩形領域1013を示した行に続く行を示す領域
である。
第10図(a)の矩形領域1001の文字列は竜頭を示
しており、第10図(b)の矩形領域1002はパラグ
ラフの最後を示している。しかし、各矩形領域の幾何学
的な位置関係は、図10(a)9図10(b)ともに同
じである。このため、行間・字間といった幾何学的な情
報を用いて、竜頭・節類を抽出することは難しい。一方
、竜頭・節類に用いる文字フォントは、本文中の文字フ
ォントよりも大きかったり、あるいは、種類が違ってい
たりする。文字のフォント情報を用いて前述の構造解析
処理を行えば、より強力な抽出能力を持たせることが可
能となる。
以上の処理を行うことによって、論理構造の要素である
章や節などの領域を抽出することが可能となる。これを
ファイルに格納するためには、取り出した領域の階層関
係を取り出すことが必要である。この関係を取り出し、
木構造データとしてファイルに格納する処理は論理構造
生成部で行われる。
次に、論理構造生成部の詳細について述べる。
第11図は典型的な文書の形式を示しており、通常、1
1図(a)、(b)のように2ページにまたがっている
。ここで、1101は章、1102はその章に含まれる
竜頭、同様に、1103は章1101に含まれるパラグ
ラフを示している。また、1104は竜頭、1105゜
1107.1108はパラグラフを示し。
1106.1109はそれぞれ1図を示している。
従来の技術では、これらの領域を分割するために例えば
公知のFDLという文法手段を用いて、(deffor
m章ブロック (forn+章題ブロ竜頭(、、、))(for+++
章題ブロッ竜頭、 、 、 ))・・・・・・) として、章を竜頭及びパラグラフの包含関係を記述すれ
ば、割付は構造と論理構造の両方の関係を記述したこと
になる。しかし、竜頭1104とパラグラフ1105,
1107,1108はページにまたがっているためにF
DLでは章として記述することができない。なぜならば
、FDLでは文書の物理的な配置だけしか記述できない
からである。従って、ページやカラムなどの物理的に離
れた領域にまたがった論理構造の要素を連結する必要が
ある。
論理構造抽出部では、ページ画像を入力し1本文テキス
ト部分9段9章題1章9節という順番に領域を分割して
いく、ここで、論理構造として必要な部分は、章1節で
あり、ページやカラムは割り付は構造の要素である。こ
のときに抽出した領域を@11に示す。
第12図は、文書クラスの論理構造の一例を示したもの
である。この図では、「本文1201は章1202、参
考文献1206から構成される」。
1章1202 ハ章111203. 節1204.説明
文付図1206から構成される」、さらに「説明文付図
1206は図1207と説明文1208から構成される
」という構造の階層的な上下関係を表している。この構
造の各要素は、文書に固有の概念ではなく、1章」 「
節」など複数の文書に共通な概念を示している0本実施
例では、この共通論理構造を表現する言語を設定し、こ
の言語を用いて共通論理構造関係表への登録を容易にし
た。
例えば、第12図の共通論理構造は次のように表現でき
る。
(dsflogic本文 (consist−of (章参考文献)))(def
logic章 (consist−of (竜頭節説明文付図)))(
def logic説明文付図 (consist−of (図説明文)))(deff
orm章ブo7り (logica1章) ・・・・・・) (defform章の続きブロック (logica1章continued)・ ・ ・ 
・ ・ ・) 文書が複数ページにわたる場合には、分離した論理構造
の要素の関係を取り出すことができなかった・ このようにすることで、領域分割の手続きだけを用いて
論理構造抽出のための手続きを記述する場合よりも簡単
に記述することが可能である。
第13図は、この関係を共通論理構造表に登録したとこ
ろを示したものである。この共通論理構造表は、共通論
理構造の親子関係を示した表であり、第12図のリンク
1212から1217までと第13図の表の部分121
2から1217が、それぞれ対応している。例えば、第
12図の本文と章の関係を示すリンク1211は、第1
3図では、「本文が親であり、章が子となる」ことを示
している。
論理構造領域抽出部で得られた結果は、第14図に示す
特定論理構造関係表1401、特定論理構造数カウント
表1402、共通・特定論理構造関係表1403.オブ
ジェクト管理表1404、の各表に登録される。特定論
理構造関係表1401には、入力した文書に特定の文書
構造が親と子の関係で格納される。特定論理構造数カウ
ント表1402には、共通論理構造とその共通論理構造
に対応する特定論理構造の数を格納する。
この特定論理構造数カウント表1402の、カウント数
は特定論理構造の名前を作成するときに用いる。また、
共通・特定論理構造関係表1403は、スタックになっ
ており、抽出した特定論理構造の要素名称を対応する共
通論理構造の所に格納する。オブジェクト管理表140
4には特定論理構造の要素名称と抽出した画像を識別す
るための名前と矩形領域を表現するために必要な2点の
座標を示している。
論理構造生成部では上述の表1401゜1402.14
03,1404を次のステップに従って埋めていく。
(1)まず、共通論理構造の最上位の要素名のインスタ
ンス生成処理を行う、インスタンスの生成処理では、共
通論理構造の要素名に番号付けして、新しい名前を生成
し、共通・特定論理構造関係表に名前を登録することで
ある。
例えば、第13図の例では、共通論理構造要素名の最上
位が「本体」であることがわかるので、特定論理構造要
素名として「本体#1」を付加する。次に、共通・特定
論理、構造関係表の親の欄に「本体」を子の欄に生成し
た名前である「本体#1」を登録する。
FDLの各フオームを先頭から呼び出し、論理構造の指
定があったフオームに対して、次の処理を行なう。
論理構造の指定は、例えば、次のようにして行なう。
(defform章ブロック (logica1章) ・・・・・・) (defform 章の続きブロック (logica1章continued)・ ・ ・ 
・ ・ ・) (2)FDLの各フオームで、論理構造の指定があった
場合には、指定した共通論理構造要素名に対応するイン
スタンスを新しく生成する。
次に、指定した共通論理構造要素名を共通論理構造表か
ら、この共通論理構造要素名の親の名前を表引きする。
この親の最新の子供を共通・特定論理構造関係表から探
し、対応する特定論理構造要素と新しく生成したインス
タンスを特定論理構造要素関係表に、それぞれ、親と子
の関係で登録する0例えば、指定された論理構造要素名
が「節」であった場合には、親は「章」であることが共
通論理構造関係表かられかる。第13図の共通・特定論
理構造関係表1301から、この章の最新インスタンス
がr章#l」であることがわかり。
特定論理構造関係表1401には、r章#1」とr節#
2」がそれぞれ、親子関係として登録される。
(3)また、論理構造の指定で論理構造の続きであると
わかった場合には、新しくインスタンスを生成せずに、
抽出した領域を指定した論理構造要素の最新のインスタ
ンスの領域として新しくオブジェクト管理表に登録する
以上の処理の結果、共通・特定論理構造関係表1401
には、共通論理構造に対応する特定論理構造の要素が登
録され、特定論理構造関係表には、各文書の包含関係が
登録される。また、オブジェクト管理表1403には1
分割した領域とそれに対応する特定論理構造要素名工4
03がそれぞれ登録される。
【図面の簡単な説明】
第1図は本発明の方式の一実施例を示す機能ブロック図
、第2図は本発明の方式で対象とする入力文書の論理構
造を0DA10DI Fで表現した図、第3図は文章の
竜頭・節類に関連する書式を示す図、第4図は書式定義
言語FDLで竜頭・節類に対する書式を表現した図、第
5図は本発明の方式を用いたシステムを示す機能ブロッ
ク図、第6図は本発明の詳細な説明するためのPAD図
、第7図は論理構造の抽出を説明するためのPAD図、
第8図は章・節の構造化処理を説明するためのPAD図
、第9図はパラグラフの分離処理を説明するためのPA
D図、第10図は幾何学的な情報を用いただけでは論理
構造を抽出できない文書を示す図、第11図は論理構造
生成部で論理構造を生成する文書の一例、第12図は共
通論理構造の一例を示す図、第13図は共通論理構造の
親子関係を表形式で示した図、第14図は特定論理構造
と共通・特定論理構造関係を生成するために必要な表形
式を示す図。 110・・・カラー領域抽出部、111・・・カラー補
正部、112・・・カラー画像圧縮部、120・・・2
値化処理部、130・・・書誌事項抽出部、140・・
・図表領域抽出部、141・・・インデックス情報抽出
部。 142・・・線画認識部、150・・・本文領域抽出部
、151・・・文字認識部、152・・・単語照合部、
160・・・論理構造抽出部、170・・・論理構造生
成部。

Claims (1)

  1. 【特許請求の範囲】 1、文書に共通する論理構造を階層的に記述する文法に
    よって書かれた表現を記憶する第1の文法表現記憶手段
    を持つことを特徴とするマルチメディア文書構造化方式
    。 2、特許請求範囲第1項記載のマルチメディア文書構造
    化方式において、抽出した章・節等の論理構造を親子関
    係として抽出し、抽出した情報を表形式でファイルに格
    納することを特徴とするマルチメディア文書構造化方式
    。 3、特許請求範囲第1項記載のマルチメディア文書構造
    化方式において、文書を複数個の矩形領域の集合として
    記述する文法によって書かれた表現を記憶する第2の文
    法表現記憶手段を持ち、上記文法の中に矩形領域の絶対
    的あるいは相対的な大きさ及び矩形領域間の絶対的ある
    いは相対的な関係を表す数量を変数として含むとともに
    、上記矩形領域の探索方法の記述を含み、上記矩形領域
    の中から上記の文法に従って書かれた表現で指定される
    矩形領域を探索し、探索結果から定まる値を上記表現の
    中の変数に代入し、未解決の同変数の解析する結果から
    領域の分割を行うことを特徴とするマルチメディア文書
    構造化方式。 4、特許請求範囲第1項記載のマルチメディア文書構造
    化方式において、上記第2の文法の中に上記第1の文法
    表現手段で表現された論理構造の内の要素の一つと上記
    第2の文法表現手段において分割した領域を対応付ける
    手段を持つことを特徴とする一つの論理構造にまとめる
    ための手段を持つことを特徴とするマルチメディア文書
    構造化方式。 5、文書中のテキスト、画像、図表などの同質なデータ
    に対して、それぞれのデータに適した特徴量抽出手段を
    持ち、上記抽出手段の結果は矩形領域と属性情報として
    抽出することを特徴とするマルチメディア文書構造化方
    式。 6、特許請求範囲第1項記載のマルチメディア文書構造
    化方式において、上記入力デジタル画像から矩形領域を
    抽出する手段と、上記入力文書の行間・字間・段組み等
    のレイアウト情報を上記矩形領域抽出手段で得られた矩
    形領域の相対座標値もしくは絶対座標値で表現する手段
    と、上記レイアウト情報を用いて、上記入力文書から章
    ・節等の論理構造を推定する手段を有することを特徴と
    するマルチメディア文書構造化方式。 7、特許請求範囲第1項記載のマルチメディア文書構造
    化方式において、上記入力デジタル画像から、上記論理
    構造推定手段を用いて得られた論理構造を表現する領域
    を矩形領域として抽出する手段を有することを特徴とす
    るマルチメディア文書構造化方式。 8、特許請求範囲第1項記載のマルチメディア文書構造
    化方式における矩形領域抽出手段において、上記入力デ
    ジタル画像がカラーで表現されている場合には、上記入
    力デジタル画像を単一色の領域と複数色の混在した領域
    とに分離する手段を有することを特徴とするマルチメデ
    ィア文書構造化方式。 9、特許請求範囲第1項記載のマルチメディア文書構造
    化方式における矩形領域抽出手段において、上記入力デ
    ジタル画像が単一色の濃淡画像で表現されている場合に
    は、上記入力デジタル画像から濃淡の度合いが明確でな
    い領域を矩形領域として抽出する手段を有することを特
    徴とするマルチメディア文書構造化方式。
JP1264919A 1989-10-13 1989-10-13 マルチメディア文書構造化方式 Expired - Lifetime JPH0743718B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1264919A JPH0743718B2 (ja) 1989-10-13 1989-10-13 マルチメディア文書構造化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1264919A JPH0743718B2 (ja) 1989-10-13 1989-10-13 マルチメディア文書構造化方式

Publications (2)

Publication Number Publication Date
JPH03127169A true JPH03127169A (ja) 1991-05-30
JPH0743718B2 JPH0743718B2 (ja) 1995-05-15

Family

ID=17410025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1264919A Expired - Lifetime JPH0743718B2 (ja) 1989-10-13 1989-10-13 マルチメディア文書構造化方式

Country Status (1)

Country Link
JP (1) JPH0743718B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325084A (ja) * 1993-01-19 1994-11-25 Canon Inf Syst Inc 文書処理装置及びその方法と文書表示装置及びその方法
JP2009021712A (ja) * 2007-07-10 2009-01-29 Canon Inc 画像処理装置及びその制御方法
JP2019101149A (ja) * 2017-11-30 2019-06-24 学校法人酪農学園 設問自動生成プログラム及び設問自動生成装置
CN113011274A (zh) * 2021-02-24 2021-06-22 南京三百云信息科技有限公司 图像识别方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325084A (ja) * 1993-01-19 1994-11-25 Canon Inf Syst Inc 文書処理装置及びその方法と文書表示装置及びその方法
JP2009021712A (ja) * 2007-07-10 2009-01-29 Canon Inc 画像処理装置及びその制御方法
US8244035B2 (en) 2007-07-10 2012-08-14 Canon Kabushiki Kaisha Image processing apparatus and control method thereof
JP2019101149A (ja) * 2017-11-30 2019-06-24 学校法人酪農学園 設問自動生成プログラム及び設問自動生成装置
CN113011274A (zh) * 2021-02-24 2021-06-22 南京三百云信息科技有限公司 图像识别方法、装置、电子设备及存储介质
CN113011274B (zh) * 2021-02-24 2024-04-09 南京三百云信息科技有限公司 图像识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JPH0743718B2 (ja) 1995-05-15

Similar Documents

Publication Publication Date Title
US11403488B2 (en) Apparatus and method for recognizing image-based content presented in a structured layout
US5848184A (en) Document page analyzer and method
JP3940491B2 (ja) 文書処理装置および文書処理方法
US5748805A (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
JP4343213B2 (ja) 文書処理装置および文書処理方法
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
US20050193327A1 (en) Method for determining logical components of a document
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
JPH05242142A (ja) 文書画像の復号なしに文書を要約するための方法
JPWO2021084702A1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
CN111492370A (zh) 用于识别结构化布局的文本图像的装置和方法
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
US20100287187A1 (en) Method for query based on layout information
CN108197119A (zh) 基于知识图谱的纸质档案数字化方法
JP3178483B2 (ja) 文書処理装置
CN114359943A (zh) Ofd版式文档段落识别方法及装置
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH03127169A (ja) マルチメディア文書構造化方式
CN114579796B (zh) 机器阅读理解方法及装置
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080515

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090515

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100515

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100515

Year of fee payment: 15