JPH0769921B2 - 文書論理構造生成方法 - Google Patents

文書論理構造生成方法

Info

Publication number
JPH0769921B2
JPH0769921B2 JP2302424A JP30242490A JPH0769921B2 JP H0769921 B2 JPH0769921 B2 JP H0769921B2 JP 2302424 A JP2302424 A JP 2302424A JP 30242490 A JP30242490 A JP 30242490A JP H0769921 B2 JPH0769921 B2 JP H0769921B2
Authority
JP
Japan
Prior art keywords
heading
symbol
headline
document
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2302424A
Other languages
English (en)
Other versions
JPH04175966A (ja
Inventor
好博 嶋
昌史 古賀
達也 村上
浩道 藤澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2302424A priority Critical patent/JPH0769921B2/ja
Publication of JPH04175966A publication Critical patent/JPH04175966A/ja
Publication of JPH0769921B2 publication Critical patent/JPH0769921B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 【産業上の利用分野】
本発明は文書データベースの構築作業において、文書の
章、節、項のツリー状の階層構造を求める論理構造の自
動生成に関する。
【従来の技術】
テキストデータより文書の構成を抽出する方法として、
大別すると、(1)文書のレイアウト、即ち、配置構造
を基に文書の論理的な構造を生成する方法、(2)テキ
ストデータに対して章や節を表わす記号を手がかりに文
書を章、節に分解し、文書を構造化する方法、が提案さ
れている。この内、H.Yashiro,T.Murakami,Y.Shima,Y.N
akano and H.Fujisawaが発表している「A New Method o
f Document Structure Extraction Using Generic ayou
t Knowlege」,Proc.Int. Workshop on Industrial Appl
ications of Machine Intelligence and Vision(MIV−
89),pp.282−287(April 1989)による(1)のレイア
ウトを基にした方法は、紙の上に印刷された文書画像か
ら文字行を抽出し、その文字行の行間、行の大きさ、配
置情報等を利用して文書の構成を抽出するもので、文字
認識により文字パターンを文字コードに変換する際の認
識誤りに影響を受けない。しかしながら、章、節の見出
し行にレイアウト上の差異が無い場合は困難であり、さ
らに、ゴシック体等のフオント情報など文字行に対する
属性情報を追加して見出し行を識別する必要がある。一
方、T.Saidが発表している「Parsing textual structur
es from a typewritten author′s work」,Proc.RIAO 8
8,User−oriented Content−based Text and Image Han
dling(AFIPS),Cambridge,vol.2,pp.925−939(March
1988)による(2)の方法は、テキストデータに対して
章、節を表わす見出し記号、例えば、「1.1」
「(a)」等を検出して文書の構成を生成する方法であ
る。この方法では、テキストデータにおいて、章、節を
表わす記号に記載上のばらつきが文献ごとに存在すると
いう問題があり、表記の上でのあいまい性、多様性を解
消する必要がある。しかしながら、これらの文献では、
表記上でのあいまい性、多様性について考慮されていな
い。また、対象が文字コードで表現されているテキスト
データであり、紙に印刷された文書画像から文書の構成
を抽出しているものではない。
【発明が解決しようとする課題】
紙に印刷されている科学技術文献は膨大な量に及び、こ
れをワークステーション等の計算機上に移してデータベ
ース化するには多くの時間と人手を必要とする。このた
め文献データベースの構築においては、紙面に印刷され
ている科学技術文献の文字を認識し、文字列の内容を解
析し、所定の形式で自動的に登録することは重要であ
る。特に、科学技術文献では、文章の章、節、項といっ
た論理的な構成も技術情報においては重要である。ま
た、文書の構成要素を関係リンクで結合したハイパーテ
キストにおいては、文書の構成要素間に関係のリンクを
張っていくととなり、要素間の関係を抽出してリンクを
張るためには多くの時間と人手を必要とする。このた
め、テキストの内容を解析し、関係リンクを自動的に抽
出して登録することが望まれている。本発明の目的は、
科学技術文献の章、節等の見出し文字列から文書の論理
構造を自動的に生成することである。
【課題を解決するための手段】
本発明では、文書を対象に、本分中の章、節、項に対応
した見出し文字列を解析し、木状の論理構造を自動的に
生成するものであり、一次元に並んだ文字列で表現され
ているテキストファイルを階層的な木構造に変換するこ
とができ、文献データベースやハイパーテキストの自動
構築に有効な論理構造生成方法である。
【作用】
本発明の論理構造生成方法は、見出し文字列の記載の仕
方にばらつきがあっても、技術文書の見出しから論理構
造を生成することができるものである。
【実施例】
以下、本発明の一実施例を第1図により説明する。文書
画像入力部100は、イメージスキャナ等の光電変換装置
からなり、紙の上に印刷された文書の表面画像を採取す
る。そして、入力された文書画像データに対して、文書
読取り部101において、文字認識を行ない、文字画像を
文字コードに変換する。この文書読取り部101では領域
抽出と文字行抽出及び文字分離、文字認識を行なうが、
ここでは既知の手法を使用することができる。認識され
た文字コードの列である文書データは、文書ごとに文書
データ格納部103に格納される。この文書データは、見
出し記号解析部102において、見出し記号を抽出し、見
出し記号の意味から文書の論理構造を生成する。この生
成した論理構造は、論理構造データ格納部104に格納さ
れる。表示制御部105は、格納されている論理構造デー
タを基に、画面を有する端末装置106に文書の論理構造
を表示する。 第2図は、見出し記号解析部103における処理の手順を
説明する図である。先ず、文字コードで表されている文
書データを入力する。ここで、対象とする文書データは
文字コードで表現されたリニアに配列された文字列であ
る。この文字列は文書の構成の順序に従って、即ち、読
み順に従って、一次元に配列されており、構造を有しな
い。この文字列に対して、次いで、見出しを抽出し、さ
ら、見出しごとの本分を抽出する。そして、見出しの文
字列に対して、数字や文字を組み合せた部分文字列であ
る見出し記号を抽出する。見出し記号は、見出し文字列
の第一桁から始まるとし、その終了桁を求める。最後
に、抽出した見出し記号を基に、文書の論理構造を生成
する。この論理構造は、木構造で表現され、最上位に文
書全体を表す木の根があり、章や節、項が階層的に位置
付けられる。この手順をステップごとに説明すると、先
ず、ステップ200で、文書データを入力し、ステップ201
で文書データから見出しを抽出する。また、ステップ20
2で見出しごとの本文を抽出する。そして、ステップ203
では、抽出した見出しから見出し記号を取り出す。次い
で、ステップ204で、見出し記号の意味を解析し、親子
関係の階層的構造で表現される文書の論理構造を生成す
る。 第3図は文書とそれから抽出した論理構造を画面に表示
した結果とを説明する図である。論理的な側面からみた
ときの構造は論理構造と呼ばれている。この文書の論理
構造は、タイトル(Title)、セグメント(Segment)、
パラグラフ(Paragraph)、図(Figure)の組合せから
なっており、論理的な階層は下位セグメントを順次設定
することで表現されている。セグメント、パラグラフが
章、節、項の区分に相当するものである。また、文書全
体のタイトルは標題と呼ばれている。セグメント、パラ
グラフについても見出しと呼ばれるタイトルが用意され
ている。章、節に相当するセグメントは文書の論理的な
単位であり、セグメント記号、スグメントタイトル、セ
グメントの内容、下位のセグメント等から構成されてい
る。ここで、番号はセグメントの番号づけに用いてお
り、見出し記号として、例えば、1.,1.1,1.2,1.2.1,1.
2.2,…,2.,2.1,…のように付与されている。技術文書30
0は、一般に、標題、著者名、抄録、序論(まえがき,
緒言)、本文(本論)、むすび(結言)、謝辞、引用文
献、付録などいくつかに区分して書かれている。また、
これらの区分は分量に応じてさらに細分される。区分の
名称は、章、節、項、目、号(細目)の順に用いられ
る。また、章より大きい分類に編または部がある。この
ような区分は見出しとして表現されており、これを階層
的に記述したものが、301で示す文書の論理構造であ
る。 ROOT302は論理構造の最上位の要素を示し、文書全体を
表している。章レベルの要素303,304,305,309,310は、
例えば「1.」のように章の見出し記号を示しており、そ
れらの親はROOT302である。また、節レベルの要素306,3
07,308は、例えば「3.1」のように節の見出し記号を示
しており、ここでは、それらの親の要素305と木の枝で
結ばれている。また、見出し320及び本文321は見出し記
号303の内容であることを示している。 第4図は、見出しの構成を説明する図である。一般に、
これらの文書の区分を示す見出しには、見出し名称と見
出し記号か付けられる。ここで、見出し記号とは、数字
記号だけ、または、文字記号と数字記号を組合せた文字
列である。章の見出しの一例を400に示す。また、節の
見出しの一例を401に示す。さらに、項の見出しの一例
を402に示す。ここでは、見出し記号がそれぞれ410,42
0,430であり、見出し名称が411,421,431である。見出し
記号として一般に用いられる数字記号、文字記号、その
他の記号の例を示している。この内、数字記号として
は、アラビア数字、ローマ数字、丸付き数字などがあ
る。また、見出し記号として用いられる文字記号として
は、英大文字、英小文字などがある。さらに、その他の
記号として、丸括弧やピリオドが用いられている。ま
た、細分の段階の違いを示すために、数字や文字の間に
ピリオドを挾んで記述する場合がある。例えば、見出し
記号として数字記号「1.」「2.」「3.1」が見出し名称
と共に用いられる。また、これとは別に、「(1)」
「(2)」のように数字記号または文字記号と括弧の組
合せを細分された構成要素の見出し記号として用いるも
のがある。これらの見出し記号の内、細分の段階の違い
を示しているポイントシステムで表現されているもの、
例えば、「(2.1)」「(2.1.1)」のような見出し記号
では、数字また文字とピリオドの組合せで、論理的な構
造を示しており、例えば、数字記号とピリオドを組合せ
たポイントシステム「1.」「1.1.」「1.1.1.」では、記
号の順序が確定しており、「1.」の下に「1.1.」があ
り、さらにこの下位に「1.1.1.」があるという階層構造
での位置付けは明白である。ここで、ポイントシステム
で表現される見出し記号を階層型見出し記号と呼ぶ。こ
の階層型見出し記号においては、同図に示すように最終
桁のピリオドの有無が文書により異なっている。また、
文字記号とピリオドを組合せたポイントシステム「a.
1」「a.1.1」なども見出し記号として用いられる。一
方、数字記号や文字記号で構成要素の見出し記号を表現
するもの、例えば、「(1)」「(2)」或いは
「(a)」「(b)」は、単独には階層構造での位置付
けを示しておらず、他の見出しに記載されている見出し
記号との相対関係で、下位に位置するものか、上位に位
置するものかが設定される。これを、単独型見出し記号
と呼ぶ。このような見出し記号では、人間はその順序を
忘れると上下関係が誤ることになる。この単独型見出し
記号には、多数の表現方法がある。例えば、数字記号と
して、「I」「1」「(1)」「1)」「i」「」な
どがある。また、文字記号として、「A)」「a)」な
どが用いられている。 このような見出し記号の記載の仕方は、論文雑誌につい
ては、執筆の手引きにより論文雑誌ごとに統一されてい
る。しかしながら、雑誌が異なればその記載の方法も異
なっている。また、一応の論文執筆の手引きがあって
も、国際会議録のように執筆者がカメラレディの原稿を
作成する場合は、論又ごとに、見出し記号の記載の仕方
はまちまちである。第5図は、見出し記号の記載のばら
つきの内で見出し記号の区切りのばらつきを説明する図
である。見出し記号の文字列の終端には、通常、区切り
記号として空白文字が用いられる。例えば、500に示す
見出し「1 Introduction」では、数字「1」は空白文字
によりそれ以下の文字列と区切られている。また、501
に示す見出し「1.Introduction」では、数字「1」とピ
リオドで構成される見出し記号は空白文字によりそれ以
下の文字列と区切られている。しかしながら、502に示
す見出しのように「1.Introduction」のように数字とピ
リオドで構成される見出し記号では、空白文字による区
切りがない見出しもある。同じく、見出し503と504に示
すように、見出しの終端が空白文字となっているもの、
区切り文字がなく英大文字が続く見出しもある。また、
「(1)Configuration of the system」「(a)Type
definition」のように数字や文字が括弧で囲まれている
見出し記号では、空白文字による区切りがある見出し
と、空白文字の区切りが無い見出しとがある。このた
め、見出し記号を文字列から抽出する際の、区切に手掛
かりとして空白文字だけを利用することができない。ま
た、階層型見出し記号では、例えば、「3.1.2.Strategy
of Method」のようにピリオドが複数個あるため、単純
にピリオドの後ろを区切りとすることはできない。 さらに、見出し記号に使用する文字に多様な用い方がさ
れており、見出し記号に使用する文字としては、先に示
したように、数字記号、文字記号、ピリオド、括弧およ
び、これらの組合せがある。数字記号としては、ローマ
数字の大文字「I」「II」「III」やローマ数字の小文
字「i」「ii」「iii」、アラビア数字「1」「2」
「3」が用いられる。また、丸付き数字「」「」
「」などもある。文字記号としては、ローマ字の大文
字「A」「B」「C」やローマ字の小文字「a」「b」
「c」が用いられる。また、ギリシア文字「α」「β」
「γ」が用いられることもある。括弧としては通常、丸
括弧( )が用いられるが、例えば「(a)」のように
括弧が両側にある見出し記号や、「a)」のように、括
弧が片側だけにある見出し記号がある。この丸括弧は、
数字記号や文字記号と組み合わされて用いられるが、さ
らに、ピリオドを挾んだ階層型見出し記号とも組み合わ
され、例えば、「(a.1.1)」のように記載されること
がある。 また、論理構造の表現のばらつきとしては、多種類の見
出し記号の混在がある。一般に、技術文書では、階層型
見出し記号と単独型見出し記号が混在されて使用され
る。第6図は階層型見出し記号の記載の多様性を説明す
る図である。600から604までに示すように章、節、など
には、多様なポイントシステムの階層型見出し記号を使
用される。 階層型見出しで示される構成要素より更に細かい構成要
素に対しては単独型見出し記号が用いれるが、その使い
わけは技術文書によりまちまちである。例えば、第7図
は見出し記号の混在使用を説明する図であるが、700に
示すように、見出し記号「1.」「1.1」のように章、節
を階層型見出し記号を用いて表現し、それ以下の同じレ
ベルの項を「(a)」「(b)」で表現する文書に対し
て、701に示すように、章、節、項を「1.」「1.1.」
「1.1.1」のように階層型見出し記号で表現し、それ以
下を「(a)」「(b)」で表現している文書もあり、
ポイントシステムの使い方が文書によりまちまちであ
る。 第8図は、見出し記号の階層関係の指示の不統一を説明
する図である。単独型見出し記号を使用した場合では、
文書により、その階層関係を表現するための記号の選択
はまちまちである。例えば、800に示すように、見出し
記号「a)」の下位に「i)」「ii)」「iii)」の見
出し記号が用いられている文書もあれば、801に示すよ
うに、見出し記号「(1)」の下位に「a)」「b)」
「c)」の見出し記号を用いている文書もある。また、
802に示すIEEEの論文の見出しのように、ローマ字の大
文字「I.」「II.」「III.」の下位に英大文字「A.」
「B.」「C.」の見出し記号を用いる文書もある。 第9図は本発明の一実施例である、文書の見出し記号解
析の処理過程を説明する図である。対象とする技術文書
は900に示すように文字列の一次元的な集合である。し
たがって、文書の構成要素である見出しと本文は一連の
文字列の集合であり、要素ごとの文字列の区分はなく一
次元的に連続している。このような文書に対して、文字
列を解析し、文書の論理構造を自動的に生成する。見出
し記号の解析は、先ず、文書要素に対応して901に示す
ように、見出しとその本文を抽出する。抽出した見出し
は、見出し記号と見出し名称で構成されている。この抽
出した見出しから、次いで、902に示すように見出し記
号を抽出する。同図では、見出し記号として「1.」「1.
1」「1.2」「(a)」「(b)」等が分離されている。
そして、分離した見出し記号を手掛かりにして、木構造
を有する文書の論理構造903を生成する。ここでは、文
書全体を表現するものとして最上位に木の根(ROOT)を
与えており、その下位に見出し記号「1.」があり、さら
に、その下位に「1.1」「1.2」が位置付けられる。ま
た、見出し記号「(a)」「(b)」は、「1.2」の下
位に設定される。 第10図は第2図のステップ203で示した見出し記号の抽
出を行なうブロック図である。見出し記号の抽出は、見
出しの文字列1000から見出し記号としての条件を満足す
る部分文字列を求め、その桁位置を登録する。このシス
テムは、1020で示した見出しの文字列を入力する機構、
文字列が見出し記号としての条件を満足するかどうかを
判定する機構1001、見出し記号として桁位置等を登録す
る機構1002からなる。見出し記号の抽出の動作は、先
ず、見出しの文字列1000に対して、第一桁を開始桁とし
て順次1003の探索方向に沿って、文字を入力する。入力
された文字列は、1010から1012で示すように予め設定し
ている条件1からnまでに対して満足しているかどうか
を判定する。ここで、条件としては、例えば、文字列が
英大文字とピリオドから構成されていること、或いは、
数字とピリオドの組合せで構成されていること、等であ
る。 第11図は第2図のステップ204で示した論理構造の生成
手順を説明する図である。その手順は、見出し記号の集
合1100を順次、文書の読み順1102に従って入力し、注目
する見出し記号の上位(親)の見出し記号を求め、木構
造を生成する。見出し記号は文書の読み順1102に従って
配列されており、順次、見出し記号「1.」1106から読み
だす。今、図中では見出し記号「2.1」1105を読みだし
ている時点であり、この見出し記号(注目見出し記号)
「2.1」1105の親見出しを探索する。親見出しの探索
は、注目見出しの直前の見出し1107を始めとして、文書
の読み順の逆の方向1103に、即ち、1107「2.」、1108
「(b)」の順に走査し、注目見出しの親見出しを探索
する。この例では、1107の見出し記号「2.」が親見出し
として求まっている。この抑見出し探索の処理は、第16
図で後述するように、見出し記号の種類を識別する処
理、及び、注目見出し記号が「*.1」や「(a)」のよ
うに下位見出しの開始記号となっていることを判定する
処理、等からなる。この文書の論理構造の生成では、送
構造は縦方向を優先して1104で示す順番に各要素が生成
されることになる。図中の論理構造において、木の生成
順序を実線で示しており、矢印で示した1120の見出し記
号「2.1」が木構造の一部に組み込まれた様子を示して
いる。 見出し記号の抽出ステップ203では、見出しの文字列か
ら、部分文字列である見出し記号の文字列を抽出する。
ここでは、第10図の1010から1012で示した文字列が見出
し記号として予め設定している条件を満足するかどうか
を判定している。これらの条件1,2,…,nにつき説明す
る。まず、見出し記号の、階層型見出し記号の抽出条件
を説明する。第12図は、階層型見出し記号に対する条件
式を、文字列の構文ダイアグラムで示している。ここで
は、見出しの文字列を順次1220より入力し、構文ダイア
グラムで示されたアラビア数字及びピリオド等の並びが
条件を満たすかどうかを判定し、条件を満たせば1221か
ら出力される。この階層型見出し記号の条件としては、
〔i〕アラビア数字1200とピリオド1201が繰返して並ん
でいること、(例:見出し記号「1.2.3.」、〔ii〕アラ
ビア数1202とピリオド1203が繰返し並びかつ最後の数12
04にはピリオドが付かず空白文字1205であること、
(例:見出し記号「1.2.3.」、〔iii〕英小文字1207が
括弧1206,1208で囲まれていること、(例:見出し記号
「(a)」)、〔iv〕英小文字1210とピリオド1211及び
アラビア数字1212の組合せであり、括弧1209,1213で囲
まれていること、(例:見出し記号「(a.1)」の条件
が設定されている。 さらに、第13図に単独型見出し記号の条件を構文ダイア
グラムで示す。この単独型見出し記号の条件は、〔i〕
英大文字1300とピリオド1301が並んでいること、(例:
見出し記号「A.」)、〔ii〕英大文字1303が括弧1302,1
304で囲まれていること、(例:見出し記号
「(A)」)、〔iii〕英大文字1305と右括弧1306が並
んでいること、(例:見出し記号「A)」)、〔iv〕英
小文字1307とピリオド1308が並んでいること、(例:見
出し記号「a.」)、〔V〕英小文字1310が括弧1309,131
1で囲まれていること、(例:見出し記号
「(a)」)、〔iv〕英小文字1312と右括弧1313が並ん
でいること、(例:見出し記号「a)」)、〔vii〕ア
ラビア数字1315の繰返しが括弧1314,1316で囲まれてい
ること、(例:見出し記号「(12)」)、〔viii〕ロー
マ数字の大文字1317とピリオド1318が並んでいること、
(例:見出し記号「IV.」)〔ix〕ローマ数字の小文字1
321とピリオド1322が並んでいること、(例:見出し記
号「iv.」)〔x〕ローマ数字の小文字1323の次に空白
文字1324があること、(例:見出し記号「iv 」)、
〔xi〕ローマ数字の小文字1326が括弧1325,1327で囲ま
れていること、(例:見出し記号「(iv)」)、〔xi
i〕ローマ数字の小文字1328と右括弧1329が並んでいる
こと、(例:見出し記号「ix)」)である。 第14図は、単独型見出し記号としてローマ数字を用いず
英大文字「I」「V」「X」を使用して数字の代用とし
た場合の見出し記号の構文ダイアグラムを示す。この単
独型見出し記号の条件は、〔i〕英大文字I1400とピリ
オド1401が並んでいること、(例:見出し記号
「I.」)、〔ii〕英大文字I1402,1403が続き、ピリオド
1404が並んでいること、(例:見出し記号「II.」)、
〔iii〕英大文字I1405,1406,1407が続き、ピリオド1408
があること、(例:見出し記号「III.」)、〔iv〕英大
文字I1409と英大文字V1410が並び、ピリオド1411がある
こと、(例:見出し記号「IV.」)、〔v〕英大文字V14
12とピリオド1413があること、(例:見出し記号
「V.」)、〔vi〕英大文字V1414と英大文字I1415、ピリ
オド1416が並んでいること、(例:見出し記号「V
I.」)、〔vii〕英大文字V1417、英大文字I1418,1419と
ピリオド1420が並んでいること、(例:見出し記号「VI
I.」)、〔vii〕英大文字V1421、英大文字I1422,1423,1
424とピリオド1425が並んでいること、(例:見出し記
号「VIII.」)、〔xi〕英大文字I1426と英大文字X142
7、ピリオド1428が並んでいること、(例:見出し記号
「IX.」)、〔x〕英大文字X1431とピリオド1432が並ん
でいること、(例:見出し記号「X.」)、〔xi〕英大文
字X1433、英大文字I1434とピリオド1435が並んでいるこ
と、(例:見出し記号「XI.」)、〔xii〕英大文字X143
6、英大文字I1437,1438とピリオド1439が並んでいるこ
と、(例:見出し記号「XII.」)である。 第15図は、単独型見出し記号としてローマ数字を用いず
英小文字「i」「v」「x」を使用して数字の代用とし
た場合の見出し記号の構文ダイアグラムを示す。この単
独型見出し記号の条件は、括弧1500が始めにあるかまた
は英小文字から始まる場合であり、最終が空白文字125
7、またはピリオド1528、または、括弧1529がある場合
であり、〔i〕英小文字i1501が並んでいること、
(例:見出し記号「i.」)、〔ii〕英小文字i1502,1503
が続いていること、(例:見出し記号「ii.」)、〔ii
i〕英小文字i1504,1505,1506が続いていること、(例:
見出し記号「iii.」)、〔iv〕英小文字i1507と英小文
字v1508が並んでいること、(例:見出し記号「i
v.」)、〔v〕英小文字v1509があること、(例:見出
し記号「v.」)、〔vi〕英小文字v1510と英小文字i1511
が並んでいること、(例:見出し記号「vi.」)、〔vi
i〕英小文字v1512、英小文字i1513、1514が並んでいる
こと、(例:見出し記号「vii.」)、〔viii〕英小文字
v1515、英小文字i1516、1517、1518が並んでいること、
(例:見出し記号「viii.」)、〔xi〕英小文字i1519と
英小文字x1520が並んでいること、(例:見出し記号「i
x.」)、〔x〕英小文字x1521が並んでいること、
(例:見出し記号「x.」)、〔xi〕英小文字x1522、英
小文字i1523が並んでいること、(例:見出し記号「x
i.」)、〔xii〕英小文字x1524、英小文字i1525,1526が
並んでいること、(例:見出し記号「xii.」)である。 次に、第2図のステップ204で示した文書論理構造の生
成について説明する。第16図は文書の論理構造の生成す
る手順を示す流れ図である。本実施例は、見出し記号を
順次、文書の読み順に従って入力し、注目する見出しの
親見出し及び、注目見出しの木構造内での深さを求め、
これによって、論理構造を生成するものである。生成手
順は、先ず、ステップ1600において木構造の最上位に
ある根の親と深さを初期化する。次いで、ステップ1601
で見出しが尽きるまで、ステップ1602で第一番目の見
出しから順次、見出し記号を入力する。この入力した見
出し記号を注目見出し記号と呼ぶ。そして、ステップ16
03で注目見出し記号に対して、記号の種類を識別す
る。階層型見出し記号では、階層の深さに対応して6種
類、ピリオドの有無と括弧のありなしについて3種類あ
り、これらの組合せで合計18個の見出し記号の種類を識
別している。単独型見出し記号については、数字記号と
ピリオド、括弧の組合せで8種類、文字記号とピリオ
ド、括弧の組合せで6種類、合計14種類がある。見出し
記号の種類を識別した後、ステップ1604で見出し記号
が開始記号であるかどうかを判定する。ここで、開始記
号とは、後述する第17図及び第18図に示すように、連続
して使用される見出し記号において第1番目の見出し記
号であり、第一章や第一節、或いは、第一項に相当する
見出し記号である。同図におて、「1.」「*.1.」
「(*.*.1」)等を開始記号と呼んでいる。但し、*
印は任意の文字を表す。この開始記号を有する見出し
は、論理構造において一段下位のレベルの見出しが始ま
ることを意味している。従って、注目する見出し記号
がこのような開始記号であると判定された場合は、ステ
ップ1605でその注目見出しの親見出しは直前に見出しで
あるとし、当該の見出しを親見出しとして登録する。そ
の理由は、当該見出し記号が開始記号であり、一段下位
の見出しが当該見出しから始まるとしているためであ
る。また、ステップ1606でこの時の注目見出しの深さ
は、親見出しの深さより一段下位にあるとして設定され
る。一方、注目見出し記号が開始記号でない場合は、
ステップ1607で、注目見出しの直前の見出しから読み順
を逆に遡って、見出しの初めまで、ステップ1608で当該
見出し記号を入力し、ステップ1609で見出し記号の種類
を識別する。そして、ステップ1610で当該見出し記号
の種類が注目見出し記号の種類と一致しない場合は、逆
の順に見出し記号を順次入力する。一方、注目見出し
記号の種類と入力した当該見出し記号とが同一である場
合は、ステップ1611で注目見出しの親見出しは、当該見
出しの親見出しと同じであるとし、該当見出しの親見出
しを登録する。また、同じく、ステップ1612でこの時の
注目見出しの深さは、抑見出しの深さより一段下位にあ
るとして設定される。そして、注目見出しに対して、上
述のように親見出しと深さが登録された後、ステップ16
13でステップ1601に戻り引き続いて次の見出しを木構
造に組み入れるため、見出し記号を入力する。このよう
に、からまでの処理を行なうことによって、見出し
記号が順次、解析され論理構造の要素として階層付けさ
れ、木構造が生成される。 第17図は階層型見出し記号における開始記号を説明する
図である。*文字は任意の文字を示し、1700,1701,1702
に示す開始記号を予め設定している。また、第18図は単
独型見出し記号における開始記号を説明する図である。
数字記号としては、1800の(1)、1801のI.、1802の
I、1803のI.、1804のIなど1812のi)まで設定してお
り、また、文字記号としては、1813のA.から1818のa)
までを設定している。 第19図は、木構造の表示のための位置関係を説明する図
である。ここでは、生成された論理構造を木構造として
画面1900に表示する。このためには、見出しの表示位置
を算出し、見出し記号の文字列を印字する。また、親見
出しと子見出しとの間の階層関係を木状の線分1903,190
4で印字する。ここで、縦方向を行1902、横方向を桁190
1と呼ぶ。見出しは、読み順に従って各行に印字され
る。また、桁方向が木構造の深さを表しており、親見出
しに対して、右方に下位の見出しが配置される。親見出
し1905と注目見出し1906のそれぞれ頭の桁について、そ
の間の距離はここでは、一定値1907としている。親見出
しとその子である注目見出しとの間の関係を示すため、
縦線分1903と横線分1904によって、これらの見出しの間
を結んでいる。親見出しの文字列の終了桁の位置におい
て、親見出しの印字行の次の行を開始行として、注目見
出しの印字されている行まで、縦線分が行方向に印字さ
れる。さらに、注目見出しの行位置において、親見出し
の文字列の終了桁の次の桁を開始桁として、注目見出し
の頭の印字桁の前桁まで、横線分が桁方向に印字され
る。 第20図は、木構造の表示処理の手順を示す流れ図であ
る。木構造を表示する手順は、先ず、ステップ2000で
印字位置を初期化して第1行目に設定し、ステップ2001
で木の根を表す文字列、ここでは、「ROOT」を印字す
る。そして、ステップ2002で、読み順に並んでいる見出
し記号が尽きるまで、以下の処理からを繰返し、見
出し記号が尽きれば、表示処理は終了となる。見出し記
号が尽きるまで繰り返される処理は、先ず、ステップ20
03で注目見出しの親見出しを読み出す。次いで、ステ
ップ2004で親見出しの印字終了桁位置を、同じく、読み
出す。そして、親見出しの印字終了桁位置を基に、ス
テップ2005で縦線分を印字する桁位置を算出し、ステッ
プ2006でその桁位置に印字桁を設定し、ステップ2007で
親ステップの行の次行から注目見出しの行位置まで、
ステップ2020で印字行位置を順次設定しながらステップ
2021,2022で縦線分を印字する。次いで、ステップ2008
で注目見出しを印字する行に設定し、ステップ2009で
横線分の開始桁位置を算出する。そして、ステップ20
10で注目見出しの深さを読み出し、ステップ2012で横
線分の終了桁の位置を算出する。ステップ2013において
この開始桁から終了桁までに対して、ステップ2023で
当該桁に印字位置を設定し、ステップ2024,2025で横線
分を印字する。さらに、ステップ2014で読み出したこ
の注目見出しの深さを基に、注目見出しの文字列を印字
する。 第21図は見出し記号解析部102の構成を示す。この構成
は、全体制御ルーチン2100と見出し記号の抽出ルーチン
2101、論理構造の生成ルーチン2104、木構造の表示ルー
チン2105からなる。また、見出し記号の抽出ルーチン21
01は、見出し記号の照合ルーチン2101と見出し記号の登
録ルーチン2103からなる。 第22図は、文書論理構造の生成結果を示す図である。見
出しの文字列2200に対して、2201に示す論理構造を生成
している。この見出しの文字列2200は、データベース関
係の国際会議の講演集(Proceedings from the First I
nternational Workshop on Expert Database Systems)
に掲載されている文献であり、その論理構造の生成結果
を2201に示している。ここでは、見出し文字列を対象に
見出し記号を抽出し、木構造で示すような論理構造を求
め階層的に表示している。この文献では、論理構造の要
素として章2203、節2204、項2205の三段階があり、木構
造の深さは3である。また、見出しの数は23個である。
生成した論理構造は、文献全体を「ROOT」2202で表わし
ており、論理構造の最上位に位置しており、さらに、例
えば、章「2」2210の下位には節「2.1」2211、「2.2」
2212があり、節「2.2」2212の下位には項「2.2.1」2213
があることが階層的に表示されている。なお、この文献
の見出し記号は数字とピリオドを用いた階層的見出し記
号である。章レベルの見出し記号は数字のみでありピリ
オドは無い。また、節並びに項レベルの見出し記号では
数字とピリオドの組合せで表現されているが、見出し記
号の最後桁には区切りを示すピリオドは無い。 第23図は他の文献に対する文書論理構造の生成結果を召
す図である。この文献2300では、章の見出し記号2310と
してはローマ数字・大文字が使用されており、節の見出
し記号2311として英大文字が使われている。このよう
に、ローマ数字と英文字によって見出し記号が表現され
ている文献に対しても正しく2301に示すように論理構造
を生成することができる。
【発明の効果】
本発明は、技術文献を対象に、本文中の章、節、項に対
応した見出しを抽出し、ツリー状の論理構造を自動的に
生成するものであり、一次元に並んだ文字列で表現され
ている文献ファイルを階層的な木構造に変換することが
でき、文献データベースやハイパーテキストの自動構築
に有効な方法である。また、紙の上に印刷された文書を
読取り、ハイパーテキストに変換することができるの
で、印刷文書を献策し有効に活用することが可能であ
る。本発明の方法は、見出し記号の記載の仕方にばらつ
きがあっても、技術文献の見出しから論理構造を抽出す
ることができるものである。
【図面の簡単な説明】
第1図は本発明の一実施例を説明する図、第2図は見出
し記号解析部における処理の手順を説明する図、第3図
は文書と抽出した論理構造を画面に表示した結果を説明
する図、第4図は見出しの構成を説明する図、第5図は
見出し記号の区切りのばらつきを説明する図、第6図は
階層型見出し記号の記載の多様性を説明する図、第7図
は見出し記号の混在使用を説明する図、第8図は見出し
記号の階層関係の指示の不統一を説明する図、第9図は
文書の見出し記号解析の処理過程を説明する図、第10図
は見出し記号の抽出を行なうブロック図、第11図は論理
構造の生成手順を説明する図、第12図は階層型見出し記
号に対する条件式を構文ダイアグラムで示した図、第13
図は単純型見出し記号の条件を構文ダイアグラムで示し
た図、第14図は英文字によってローマ数字の大文字の代
用をした場合の単純型見出し記号の構文ダイアグラム、
第15図は英文字によってローマ数字の小文字の代用をし
た場合の単純型見出し記号の構文ダイアグラム、第16図
は見出し記号からの論理構造の生成手順を説明する図、
第17図は階層型見出し記号における開始記号を説明する
図、第18図は単独型見出し記号における開始記号を説明
する図、第19図は木構造の表示のための位置関係を説明
する図、第20図は木構造の表示処理の手順を示す流れ
図、第21図は見出し記号解析部の構成を示す図、第22図
は文書論理構造の生成結果を示す図、第23図は他の文献
に対する文書論理構造の生成結果を示す図である。 符号の説明 101……文書読取り部、102……見出し記号解析部、104
……論理構造データ格納部、201……見出し抽出ステッ
プ、203……見出し記号の抽出ステップ、204……論理構
造の生成ステップ、 302……文書論理構造の例、1001……文字列が見出し記
号としての条件を満足するかどうかを判定する機構、10
00……見出しの文字列、 1103……親見出しの探索方向、1104……木の生成順序、
1200……数字、1201……ピリオド、1603……注目見出し
記号の種類の識別、 1604……見出し記号は開始記号かどうかの判定、1905…
…親見出し、1906……注目見出し、 1903……縦線分、1904……横線分、2201……生成した論
理構造。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤澤 浩道 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 昭62−229368(JP,A) 特開 昭60−17522(JP,A) 特開 昭62−40574(JP,A)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】光電変換装置から構成される文書画像入力
    手段にて、印刷された文書の画像を入力し、 文書読取り手段にて、入力された文書の画像に対して文
    字認識を行って文字コードに変換し、 見出し解析手段にて、変換された文字コードから見出し
    を解析し、解析された結果から見出し間の関係を示す論
    理構造を生成して出力する文書論理構造生成方法におい
    て、 上記見出し解析手段にて、解析された見出しから順次見
    出し記号を抽出し、抽出された見出し記号を注目する見
    出しの注目見出し記号としてその種類を識別し、上記注
    目見出し記号が所定の開始記号であるか否かを判定し、
    所定の開始記号である場合は、上記注目見出しの親見出
    しとして直前の見出しを登録し、かつ上記注目見出しの
    深さをその親見出しの深さより一段下位にある深さとし
    て登録し、 所定の開始記号でない場合は、上記注目見出しの直前の
    見出しから逆に遡って順次見出し記号を入力し、入力さ
    れた見出し記号を該当する見出しの該当見出し記号とし
    てその種類を識別し、上記注目見出し記号の種類と上記
    該当見出し記号の種類とが同一である場合は、上記注目
    見出しの親見出しとして上記該当見出しの親見出しを登
    録し、かつ上記注目見出しの深さをその親見出しの深さ
    より一段下位にある深さとして登録し、 登録された上記注目見出しの親見出しと上記注目見出し
    の深さを読み出し、上記注目見出しの深さを基に、上記
    親見出しの先頭の位置と上記注目見出しの先頭の位置は
    横方向に所定の距離を保ちつつ上記注目見出しの先頭の
    位置を揃えて、上記親見出しと上記注目見出しとを階層
    的な木構造で出力する、 ことを特徴とする文書論理構造生成方法。
JP2302424A 1990-11-09 1990-11-09 文書論理構造生成方法 Expired - Fee Related JPH0769921B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2302424A JPH0769921B2 (ja) 1990-11-09 1990-11-09 文書論理構造生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2302424A JPH0769921B2 (ja) 1990-11-09 1990-11-09 文書論理構造生成方法

Publications (2)

Publication Number Publication Date
JPH04175966A JPH04175966A (ja) 1992-06-23
JPH0769921B2 true JPH0769921B2 (ja) 1995-07-31

Family

ID=17908755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2302424A Expired - Fee Related JPH0769921B2 (ja) 1990-11-09 1990-11-09 文書論理構造生成方法

Country Status (1)

Country Link
JP (1) JPH0769921B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0528193A (ja) * 1991-07-24 1993-02-05 Dainippon Printing Co Ltd 学術論文データベースシステム
JPH06250895A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 構造化データベースシステム
JP3383049B2 (ja) * 1993-09-13 2003-03-04 株式会社東芝 文書検索装置
JP3566457B2 (ja) * 1996-05-31 2004-09-15 株式会社日立製作所 構造化文書の版管理方法および装置
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2004145375A (ja) * 2000-09-12 2004-05-20 Media Vision:Kk 構造化文書の作成、閲覧装置
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
JP5053550B2 (ja) * 2005-02-01 2012-10-17 キヤノン株式会社 文書処理装置及び方法と文書処理システム
JP4492407B2 (ja) * 2005-03-25 2010-06-30 富士ゼロックス株式会社 画像表示装置、画像表示方法及び画像表示プログラム
JP5385134B2 (ja) 2006-06-22 2014-01-08 マルチモーダル・テクノロジーズ・エルエルシー コンピュータ実装方法
JP2010113399A (ja) * 2008-11-04 2010-05-20 Toshiba Corp 薬事法フィーチャモデル作成装置および薬事法フィーチャモデル作成方法
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US11645448B2 (en) 2019-03-29 2023-05-09 Nec Corporation Document analysis apparatus, document analysis method, and computer-readable recording medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766384B2 (ja) * 1983-07-11 1995-07-19 株式会社東芝 文書作成装置
JPS6240574A (ja) * 1985-08-16 1987-02-21 Omron Tateisi Electronics Co ワ−ドプロセツサ
JPH0823864B2 (ja) * 1986-03-29 1996-03-06 株式会社東芝 見出し判定方法

Also Published As

Publication number Publication date
JPH04175966A (ja) 1992-06-23

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
André et al. Structured documents
JP3425408B2 (ja) 文書読取装置
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
JP2005526314A (ja) 文書構造識別器
JPH10207988A (ja) 文字認識方法および文字認識装置
JPH0769921B2 (ja) 文書論理構造生成方法
JP2005043990A (ja) 文書処理装置および文書処理方法
JP2013016036A (ja) 文書部品生成方法及び計算機システム
Lu et al. Retrieving imaged documents in digital libraries based on word image coding
JP2004021746A (ja) 検索結果文字列表示方法およびシステム
JPH0748217B2 (ja) 文書要約装置
EP1072986A2 (en) System and method for extracting data from semi-structured text
JPH07117961B2 (ja) 文献データ登録方法
JPH07107711B2 (ja) 文書画像の処理装置
JP2001265762A (ja) 文書構造抽出装置及び文書構造情報抽出方法
JP4907927B2 (ja) データ表示装置、データ表示方法およびデータ表示プログラム
Bhowmik Bichitra: The Online Tagore Variorum Project
JPH04123185A (ja) 文書認識方式
JPH06203018A (ja) 文書処理装置
JP2733057B2 (ja) 文字列成分抽出装置
JPH0677252B2 (ja) 和文データ入力処理装置
JP3774056B2 (ja) 文字処理装置
Holstege et al. Visual parsing: an aid to text understanding
JPH03129562A (ja) インデックス作成支援装置

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080731

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080731

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090731

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees