JP2001312489A - 文書論理構造抽出方法 - Google Patents

文書論理構造抽出方法

Info

Publication number
JP2001312489A
JP2001312489A JP2000134233A JP2000134233A JP2001312489A JP 2001312489 A JP2001312489 A JP 2001312489A JP 2000134233 A JP2000134233 A JP 2000134233A JP 2000134233 A JP2000134233 A JP 2000134233A JP 2001312489 A JP2001312489 A JP 2001312489A
Authority
JP
Japan
Prior art keywords
document
chapter
logical structure
extracted
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000134233A
Other languages
English (en)
Inventor
Takaaki Nomura
高明 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000134233A priority Critical patent/JP2001312489A/ja
Publication of JP2001312489A publication Critical patent/JP2001312489A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】べた書きの文書からの章節項等・図表・参考文
献の論理構造抽出時に、文章の追加・削除・移動等の編
集により、番号の重複や抜け・形式の間違いが発見され
ることがあり、ユーザの訂正に手間がかかっていた。 【解決手段】文書論理構造を章節項等・図表・参考文献
に対応する要素と、番号の形式・見出しの書式等を共有
する要素の集合で表し、べた書き文書108から正しく
抽出された要素のリストを提示すると共に、間違い発見
までに抽出された論理構造集合/要素の管理情報10
5、106から訂正例のリストを作成・提示し、ユーザ
はその中から正しい番号を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、べた書きの文書よ
り章節項等・図表・参考文献の論理構造の要素を抽出す
る文書論理構造抽出方法に関するものである。ここで、
べた書きの文書とは、SGMLやLATEXが提供して
いるような論理構造を直接示すためのタグやコマンドあ
るいは、論理構造を表すための制御コードのような情報
を含まない文書のことを指す。
【0002】
【従来の技術】べた書きの文書では、作成者の単純な誤
りの他に、文章の追加・削除・移動等の編集により、章
節項等・図表・参考文献の論理構造の要素の番号に重複
・抜け・形式の誤り等の不整合が生じることがある。従
来の文書論理構造抽出方法では、特開平9−10195
9号公報の「構造化文書生成装置」に見られるように、
論理構造の要素を抽出する手段の他に、論理構造抽出中
に上記の不整合によるエラーが生じた際に、ユーザに対
してエラー内容を提示して訂正を求め、訂正内容を反映
する手段を設けたものがあった。
【0003】
【発明が解決しようとする課題】上記公知例では、ユー
ザに対してはエラーの種類とエラーの原因となった部分
を表示するだけで、ユーザはそれだけを元に自らエラー
を解決するような文書の訂正を行う必要があった。その
ため、例えば章の追加で章番号の重複が生じたりする
と、章番号を含む章節項等・図表の番号を訂正するのに
手間がかかり、場合によっては新たな誤りが入る可能性
もあった。
【0004】本発明の目的は、上記エラーを解決するよ
うな番号の訂正例をユーザに提示し、上記のようなユー
ザの負担を軽減することである。
【0005】
【課題を解決するための手段】本発明では、上記目的を
達成するため、文書論理構造の個々の章節項等・図表・
参考文献を要素と呼ぶ時、該要素の階層関係や番号の形
式の管理情報を記憶し、抽出された該要素の番号の不整
合を該要素の該管理情報から検出し、抽出された該要素
の番号の訂正例のリストを該要素の該管理情報から求
め、文書の抽出中の場所をユーザに提示し、該要素の抽
出・訂正を行う毎に正しく抽出された該要素のリストに
新たに抽出された該要素を追加してユーザに提示し、不
整合を生じた該要素の番号の該訂正例のリストより正し
い番号をユーザに選択させ、該要素の番号をユーザの選
択に応じて文書中で訂正するようにした。
【0006】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態について説明する。
【0007】図1は、本発明のシステム構成図である。
中央処理装置(CPU)101は全体の制御を行う。キ
ーボード102からは、文字列入力や、矢印キーによる
位置入力、ファンクションキーによるコマンド入力等を
行う。マウス103からは、ディスプレイ104上の位
置を入力する。ディスプレイ104には、ユーザの作成
したべた書きの文書、それから抽出された章節項等(以
後簡単のために章節と書く)・図表・参考文献の論理構
造の要素のリスト、論理構造抽出中に番号や形式の不整
合を生じた要素の番号の該訂正例のリスト等を表示す
る。抽出中の論理構造集合管理情報105、論理構造要
素管理情報106は、主記憶装置107に格納する。論
理構造集合、論理構造要素については、後述する。べた
書き文書108と、抽出された論理構造情報をそれに付
加したタグ付き文 書109は、外部記憶装置110に
格納する。
【0008】図2は、べた書きの文書の一例である。第
X章(Xはアラビア数字)の形式で番号を振る章と、§
X.Y(Xは章番号、Yは節番号で共にアラビア数字)
の形式で番号を振る節が表示されている。§2.4は、
§2.3の誤りである。四角で囲ったのは、現在抽出中
であることを表す。
【0009】図3は、べた書きの文書からの論理構造抽
出中にシステムがディスプレイ104に表示した、シス
テム抽出結果の文書論理構造要素のリストで、章節目次
302、図目次303、表目次304、参考文献一覧3
05から成っている。306、307は、スクロールバ
ーである。
【0010】図4は、図2の文書に対してシステムが表
示した章節見出し訂正例のリストである。ユーザは、図
2の文書や図3の抽出結果をみながら、図4の中から適
切な訂正例をマウスやキーボードで選ぶだけで、元文書
の論理構造要素の番号やその形式の誤りを無くすことが
できる。リストの1番目は、最後に抽出された要素(§
2.2)の次の要素。2番目は§2.2の上位の要素
(第1章)の次の要素。3番目は§2.2の下位の先頭
要素。4番目はそれらのどれでもない場合でユーザ自ら
訂正したい場合に選択する。5番目はシステムが間違っ
て抽出したもの(本文中で章や節を参照している箇所
等)を無視したい場合に選択する。6番目、7番目は論
理構造抽出そのものを中止したい場合に選択する。6番
目はそれまでのシステムの訂正を保存し、7番目はそれ
を破棄する。
【0011】図5は、論理構造抽出に用いる章節・図表
の見出しのシンタクスを示す図である。図6〜図10
は、各々図5における接頭辞、要素No、分離子、接尾
辞、名称のシンタクスを示す図である。四角で示したも
のは非終端記号、四角の角を丸めたものは終端記号に相
当する。文書の種類に応じて、接頭辞、分離子、接尾辞
を表す語を追加してもよい。要素Noの文字種別も丸付き
文字等を追加してもよい。章節・図表の文書論理構造
は、個別の章節・図表を「要素」で、同一階層レベルの
要素が共有する見出しの形式・書式等を「集合」(「要
素」の集合)で表現する。集合、要素の管理情報10
5、106の内容は次のようなものである。
【0012】(1)集合管理情報 (a)集合id…各集合に作成順に付けた識別子。idは、
システムが付ける1以上の数字(以下同じ)。
【0013】(b)名称…各集合の章、節、図等の名
称。
【0014】(c)上位要素id…各集合の直ぐ上位の要
素の要素id。上位要素が存在しなければ0とする。要素
idは各要素に作成順に付けた識別子。
【0015】(d)先頭要素id…各集合の下位の先頭の
要素の要素id。先頭要素が存在しなければ0とする。先
頭から末尾までの順序は、文書における出現順とする。
【0016】(e)末尾要素id…各集合の下位の末尾の
要素の要素id。末尾要素が存在しなければ0とする。
【0017】(f)要素Noの接頭辞…各要素の要素Noの
前に来る語。要素Noの形式が「第X.Y節」であれば、
第が相当する。
【0018】(g)要素Noの分離子…各要素の要素Noと
その上位の要素の要素Noの間に来る語。要素Noの形式が
「第X.Y節」であれば、.が相当する。
【0019】(h)要素Noの接尾辞…各要素の要素Noの
後に来る語。要素Noの形式が「第X.Y節」であれば、
節が相当する。
【0020】(i)要素Noの文字サイズ…各要素の要素
Noの半角/全角。
【0021】(j)要素Noの文字種別…各要素の要素No
の表記文字。アラビア数字、英字大文字、英字小文字、
ローマ数字、漢数字等。
【0022】(k)見出しの行形式…各要素の見出しの
行形式。左揃え/中央揃え/右揃え等。
【0023】(l)見出しの文字属性…各要素の見出し
の文字属性。フォントの種類・サイズ・色等。
【0024】(m)参照Noの文字属性…各要素の参照No
(文書本文中で参照する時の番号)の文字属性。フォン
トの種類・サイズ・色等。
【0025】(2)要素管理情報 (a)要素id…各要素に作成順に付けた識別子。
【0026】(b)名称…各要素にユーザが付けた名
称。図2の§2.1では「前提ハードウェア」が相当す
る。
【0027】(c)集合id…各要素の属する集合の集合
id。
【0028】(d)前要素id…各要素の前の要素の要素
id。前要素が存在しなければ0とする。先頭から末尾ま
での順序は、文書における出現順とする。
【0029】(e)次要素id…各要素の次の要素の要素
id。次要素が存在しなければ0とする。
【0030】(f)下位集合id…各要素の直ぐ下位の集
合の集合id。下位集合が存在しなければ0とする。章節
項等、図、表、参考文献の各々に対して存在する。
【0031】(g)要素の見出しの位置…各要素の見出
しの位置。位置は、頁No、領域id、行No等で管理する。
領域は文書の各頁をテキスト・図形・表・画 像等の矩
形領域に分けて管理する場合の矩形領域のことをいう。
【0032】(1)(b)〜(m)の情報は、上位要素
を共有する同一階層の各要素に共通するので、集合で代
表して持っているが、集合を使わずに各要素毎に持つよ
うにしてもよい。
【0033】図11は、文書論理構造の抽出・訂正の処
理フローである。処理フローには、PAD(Problem An
alysis Diagram)を用いている。ステップ1101で
は、システムが外部記憶装置110内のべた書き文書の
ファイル108をオープンする。ステップ1102は、
ステップ1103、1104、1113を文書末尾まで
繰り返すことを表す。ステップ1103では、頁データ
を主記憶装置107に読み込む。ステップ1104は、
ステップ1105〜1109の処理の繰り返しを表す。
ステップ1105、1106では、現在処理している頁
にパラグラフの境界(改行コード、改頁コードあるいは
文書末尾)が無ければ、ステップ1104のループを抜
ける。ステップ1107では、パラグラフデータ(文書
先頭またはパラグラフ境界の直後から次のパラグラフ境
界までのテキスト・データ)を読み込む。ステップ11
08では、読み込んだパラグラフが章・節・項等の見出
しであるか本体であるかを判別する。ここでは1行から
成るパラグラフを見出し、それ以外のパラグラフを本体
と仮に判別する。ステップ1109では、パラグラフが
見出しである場合にステップ1110、1111の処理
を行う。ステップ1110では、見出しのシンタクスを
図5〜図10のシンタクスに基づき解析する。ステップ
1111では、見出しが図5〜図10のシンタクスに従
うならば、ステップ1112の章節論理構造の更新(後
述)を行う。ステップ1113では、ステップ1114
〜ステップ1119の処理を繰り返すことを表す。ステ
ップ1114では、頁内の図表を含む可能性のある領域
をサーチする。ステップ1115、1116では、図表
が見つからなければ、ステップ1113のループを抜け
る。ステップ1117では、領域の先頭あるいは末尾
(あるいはそれらの近く)にあるテキストデータである
見出しを求める。ステップ1118では、ステップ11
10と同様に見出しのシンタクスを解析する。ステップ
1119では、見出しが図5〜図10のシンタクスに従
うならば、ステップ1120の図表論理構造の更新(後
述)を行う。ステップ1121では、べた書き文書のフ
ァイルをクローズする。ステップ1122では、論理構
造の抽出・訂正を行ったタグ付き文書を出力する(後
述)。
【0034】図12は、図11におけるステップ111
2の章節論理構造の更新の処理フローである。ステップ
1201では、見出し中の最後の要素Noが1であるか否
かに応じて、ステップ1202〜1207、ステップ1
208〜ステップ1217の処理を各々行う。ステップ
1202では、見出し中の上位章節要素の要素Noと見出
しの形式(接頭辞、分離子、接尾辞、文字サイズ、文字
種別)を直前に抽出された章節要素及びその上位章節要
素の属する章節集合の管理情報と比較し、一致するか否
かをチェックする。ステップ1203、1204では、
不整合があった場合に見出し訂正(後述)を行う。ここ
で、論理構造の抽出の始めで直前に抽出された章節要素
が無い場合は、上位章節要素は無いので、ステップ12
02〜1204は省略する。ステップ1205では、直
前に抽出された章節要素の要素Noを、章節要素の上位要
素Noを格納するためのスタックにプッシュする。ステッ
プ1206では、直前に抽出された章節要素の下位に章
節集合とその先頭章節要素を作成し、各々現在章節集
合、現在章節要素とする。ここで、現在章節集合/要素
とは、処理の対象とする章節集合/要素のことであり、
抽出の始めには直前に抽出された章節要素が現在章節要
素となっている。ステップ1207では、見出しの形式
を現在章節集合に設定する。ステップ1208では、見
出し中の要素Noが直前に抽出された章節要素の要素No+
1に一致し、かつ見出しの形式が現在章節集合と一致す
るのでないなら、ステップ1209〜1213の処理
(直前に抽出された章節要素の上位要素の次要素の抽
出)を行う。ステップ1208の条件が満たされる場合
には、ステップ1214〜1217の処理(直前に抽出
された章節要素の次要素の抽出)を行う。ステップ12
09は、ステップ1210〜1213の処理の繰り返し
を表す。ステップ1210では、前述のスタックより要
素Noをポップする。ここで、スタックに要素Noが無くな
った場合は、スタックポインタ、現在章節集合/要素を
ステップ1209のループに入る前の状態に戻して、ス
テップ1209のループを抜け、ステップ1215、1
216で見出し訂正を行う。ステップ1211、121
2では、見出し中の要素Noがポップした要素No+1に一
致し、かつ見出しの形式が現在章節集合と一致したら、
ステップ1209のループを抜ける。ステップ1213
では、現在章節集合の上位章節要素とその属する章節集
合を各々現在章節要素・章節集合とし、ステップ121
0に戻る。ステップ1214では、ステップ1202と
同様に見出し中の上位章節要素の要素Noと見出しの形式
を直前に抽出された章節要素及びその上位章節要素の属
する章節集合の管理情報と比較し、一致するか否かをチ
ェックする。ステップ1215、1216では、不整合
があった場合に見出し訂正(後述)を行う。ステップ1
217では、現在章節要素の後に章節要素を追加し、現
在章節要素とする。ステップ1218では、図3の章節
目次302に章節要素を追加し、表示を更新する。
【0035】図11のステップ1120における図表論
理構造更新の処理について、簡単に説明する。図表は、
図X、第X図のように文書内で一貫した番号付けをされ
るか、第X.Y図のように章節の中での番号付けが成さ
れるかいずれか(そのどちらかはユーザが指定すればよ
い)であり、図表内部で階層化が行われることはまず無
い。そのため、図表の要素Noや見出しの形式のチェック
は単純であり、文書内あるいは章節の中で図12のステ
ップ1208〜1217に相当する処理を行えばよい。
【0036】図13は、図12のステップ1204、ス
テップ1216に共通する見出し訂正の処理フローであ
る。ステップ1301では、訂正例の1番目として、現
在章節要素の次要素の見出し(図4の§2.3に相当)
を、章節要素の順序やその属する章節集合の管理情報か
ら作成する。ステップ1302では、訂正例の2番目以
降として、現在章節要素の上位章節集合の末尾要素の次
要素の見出し(図4の第3章に相当)を作成する。ステ
ップ1303では、ステップ1302に続く訂正例とし
て、現在章節要素の下位章節集合の先頭要素の見出し
(図4の§2.2.1に相当)を作成する。ステップ1
304では、作成した見出し訂正例のリストをディスプ
レイ104に表示する。ステップ1305では、見出し
訂正例のリストからユーザが最も適切なものを選択す
る。ステップ1306では、ユーザの選択に基づき見出
し訂正を行う。ユーザが図4の「ユーザ訂正」を選択し
た場合はユーザ自ら訂正する。「抽出しない」を選択し
た場合は、その見出しを無視し訂正も行わない。「保存
して終了」を選択した場合は、訂正を行わず、文書を保
存する。「保存しないで終了」を選択した場合は、訂正
を行わず、文書の編集結果を破棄する。図表見出しの訂
正に関しては、図表内で階層化が行われることは無いの
で、ステップ1301に相当する見出し訂正例だけ作成
すればよい。なお、本発明の変形例として、ユーザの選
択を省略し、章節要素の階層レベルが抽出中の見出しと
変わらない見出しに自動的に訂正してしまうこともでき
る。章節の階層レベルの間違いはどちらかというと考え
にくいからである。図2〜図4の例では、§2.4を§
2.3に自動的に訂正する。
【0037】参考文献の抽出・訂正について、説明す
る。参考文献は、文書末尾あるいは章節の末尾の参考文
献一覧から抽出する。参考文献の番号の付け方は、図表
よりさらに単純で、1、2、3 …というように階層化
は全く行われない。番号の訂正も、前の文献の次の番号
に訂正すれば十分である。
【0038】図14は、図2のべた書き文書を対象に文
書論理構造抽出・訂正を行ったタグ付き文書であり、図
11の処理フローのステップ1122で出力する。章見
出しに対応して<章>タグ、<章番号>タグ、<章題>タグ
を、節見出しに対応して<節>タグ、<節番号>タグ、<節
題>タグを、節本文に対応して<節本文>タグを出力すれ
ばよい。
【0039】タグの代わりに、特開平1−38866号
公報の「文書編集装置」にあるように、章節の集合の階
層レベルの変更や要素の末尾を表す制御コード、集合・
要素の管理情報を出力するようにもできる。
【0040】
【発明の効果】本発明によれば、べた書きの文書からの
論理構造抽出に際し、章節項等・図表・参考文献の番号
や形式の不整合を自動的に発見し、訂正例を考えられる
だけ表示するため、不整合が確実に解消され、ユーザの
負担も大幅に減る。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】べた書きの文書の一例を示す図である。
【図3】システムが抽出した文書論理構造要素の一覧を
示す図である。
【図4】章節見出し訂正例のリストを示す図である。
【図5】章・節・項・図表等の見出しのシンタクスを示
す図である。
【図6】図5における接頭辞のシンタクスを示す図であ
る。
【図7】図5における要素Noのシンタクスを示す図であ
る。
【図8】図5における分離子のシンタクスを示す図であ
る。
【図9】図5における接尾辞のシンタクスを示す図であ
る。
【図10】図5における名称のシンタクスを示す図であ
る。
【図11】文書論理構造の抽出・訂正の処理フローチャ
ートである。
【図12】章・節・項等の論理構造の更新の処理フロー
チャートである。
【図13】章・節・項等の見出し訂正の処理フローチャ
ートである。
【図14】図2のべた書き文書より出力されたタグ付き
文書の一例を示す図である。
【符号の説明】
101… 中央処理装置、102…キーボード、103
…マウス、104…ディスプレイ、105…論理構造集
合管理情報、106…論理構造要素管理情報、107…
主記憶装置、108…べた書き文書、109…タグ付き
文書、110…外部記憶装置。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 べた書きの文書より章節項等・図表・参
    考文献の論理構造を抽出する文書論理構造抽出方法にお
    いて、文書論理構造の個々の章節項等・図表・参考文献
    を要素と呼ぶ時、抽出中の該要素の番号の不整合を正し
    く抽出された該要素の管理情報をもとに検出し、抽出中
    の該要素の番号の訂正例のリストを該要素の管理情報を
    もとに求め、文書の抽出中の場所をユーザに提示し、該
    要素の抽出・訂正を行う毎に正しく抽出された該要素の
    リストに新たに抽出された該要素を追加してユーザに提
    示し、不整合を生じた該要素の番号の該訂正例のリスト
    より正しい番号をユーザに選択させ、該要素の番号をユ
    ーザの選択に応じて文書中で訂正し、抽出された論理構
    造情報を文書と共に出力することを特徴とする文書論理
    構造抽出方法。
  2. 【請求項2】 第1項記載の文書論理構造抽出方法にお
    いて、訂正例のリストのうち最も適当なものを自動的に
    選択し、自動的に訂正を行うことを特徴とする文書論理
    構造抽出方法。
JP2000134233A 2000-04-28 2000-04-28 文書論理構造抽出方法 Pending JP2001312489A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000134233A JP2001312489A (ja) 2000-04-28 2000-04-28 文書論理構造抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000134233A JP2001312489A (ja) 2000-04-28 2000-04-28 文書論理構造抽出方法

Publications (1)

Publication Number Publication Date
JP2001312489A true JP2001312489A (ja) 2001-11-09

Family

ID=18642546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000134233A Pending JP2001312489A (ja) 2000-04-28 2000-04-28 文書論理構造抽出方法

Country Status (1)

Country Link
JP (1) JP2001312489A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010226384A (ja) * 2009-03-23 2010-10-07 Fuji Xerox Co Ltd 画像処理システム及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010226384A (ja) * 2009-03-23 2010-10-07 Fuji Xerox Co Ltd 画像処理システム及びプログラム
JP4735731B2 (ja) * 2009-03-23 2011-07-27 富士ゼロックス株式会社 画像処理システム
US8515173B2 (en) 2009-03-23 2013-08-20 Fuji Xerox Co., Ltd. Image processing system, image processing method and computer readable medium

Similar Documents

Publication Publication Date Title
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0766384B2 (ja) 文書作成装置
US5689723A (en) Method for allowing single-byte character set and double-byte character set fonts in a double-byte character set code page
US5835921A (en) Data processing apparatus for creating and storing a text file from input data
JP2001312489A (ja) 文書論理構造抽出方法
JP2001034611A (ja) 読み情報出力装置および記録媒体
JP3103179B2 (ja) 文書作成装置及び文書作成方法
JPH0883280A (ja) 文書処理装置
JP2696961B2 (ja) 文書書式設定方法
JPH077409B2 (ja) 文書処理装置
JPH0612548B2 (ja) 文書処理装置
JP3206600B2 (ja) 文書生成装置
JPH01136270A (ja) ワードプロセッサ装置
JPS5994132A (ja) 日本語ワ−ドプロセツサ
JP2747281B2 (ja) 辞書登録方法
JP2575947B2 (ja) 文節切出し装置
David WordPerfect 5.1
JPH11191105A (ja) 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体
JPH02143366A (ja) 図表処理方式
JPS5969831A (ja) 文書作成装置
JP2003006559A (ja) プリントパラメタ帳票出力システム
JPH10177573A (ja) 文書処理方法および装置
JPS6366665A (ja) 文書解析整形装置
JPH08190570A (ja) 文書データの比較検証システム
JPH0776970B2 (ja) 文書整形装置