JPH09101959A

JPH09101959A - 構造化文書生成装置

Info

Publication number: JPH09101959A
Application number: JP7257431A
Authority: JP
Inventors: Yoshifumi Sato; 佳史里; Takuya Okamoto; 卓哉岡本; Masanori Kato; 雅則加藤; Hisafumi Azuma; 尚史東
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-10-04
Filing date: 1995-10-04
Publication date: 1997-04-15

Abstract

(57)【要約】【課題】非構造化文書から構造化文書を生成する際に、
文字誤り等の原因によって生じる論理構造認識エラーか
ら回復し、確実に構造化文書を生成できるようにする。【解決手段】キーワード抽出部102は、非構造化文書101
から論理構造を表す文字列(キーワード)を抽出し、非構
造化文書101をキーワードとそれ以外の文字列の二種類
の要素で表現したキーワード/テキストモデル104を生成
する。論理構造認識部105は、キーワード/テキストモデ
ル104に対して論理構造認識ルール106に従った論理構造
の解析を行ない、その結果を基に構造化文書出力部115
が構造化文書116を出力する。論理構造認識に失敗した
際には、非構造化文書表示部111、文字誤り修正部112、
キーワード削除部113からなるエラー修正部110を介して
ユーザが修正情報を入力し、結果をキーワード抽出部10
2へとフィードバックする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字認識装置やワ
ードプロセッサ等の手段によって入力された、文書の構
造を明示的に表す情報を含まない文書(以下「非構造化
文書」と呼ぶ)から文書の構造を明示的に表す情報を含
む構造化文書を生成する構造化文書生成装置に関する。

【０００２】

【従来の技術】構造化文書の形式の一つに、論理構造を
明示的に表す情報をテキスト中に埋め込む方法がある。
一般にユーザが作成した構造化文書(以下「文書インス
タンス」と呼ぶ)は、文書の論理構造を規定する論理構
造定義を記述したファイルを指定する部分と、文書の内
容を表す内容テキスト部からなる。論理構造定義には、
その文書の論理構造と、その構成要素を表すマーク(以
下「タグ」と呼ぶ)が定義される。また、内容テキスト
部には、論理構造定義内で定義されたタグを、そのタグ
に対応する論理構造の内容となる文字列が一意に定まる
ように挿入し、文書の論理構造を明示的に表現する。

【０００３】このようにして構造化された文書インスタ
ンスを出力する際には、論理構造の各構成要素(以下
「論理構造要素」と呼ぶ)をどのような書式で出力する
のかを、個々の出力手段に応じて規定した出力書式定義
ファイルを参照し、出力すべきイメージを生成する。こ
の方法によると、文書の論理的な内容を規定する文書イ
ンスタンスと、個々の出力手段における出力様式を規定
する出力書式定義とが独立しているために、出力に用い
る個々の装置やシステムに関わらず文書情報を交換する
ことが可能となる。

【０００４】また、こうして構造化された構造化文書に
おける文字列の内容は、例えば「＜著者名＞」や「＜タ
イトル＞」というような、論理構造要素を表すタグによ
って明示的に表現されている。このため、構造化文書に
対応した全文検索システム等のツールと組み合わせるこ
とにより、文書インスタンスの集合をそのままデータベ
ースとして利用することができるようになる。

【０００５】こうした利点から、大量の文書を蓄積、利
用する文書処理システムにおける文書管理形式として、
構造化文書形式の採用が進んでいる。それと共に、既存
の紙面文書やワープロ入力文書等の非構造化文書を構造
化文書へと変換する手法について検討が行なわれてい
る。

【０００６】非構造化文書の構造化文書への変換に関す
る従来の技術としては、特開昭６２−２４９２７０号公
報「文書処理装置」や、「文書画像のODA論理構造化文
書への変換方式(電子情報通信学会論文誌,D-II,Vol.J76
-DII,No.11,pp.2274-2284)」に見られる方法がある。こ
れは、非構造化文書から「第１章」や「1.1」等の論理
構造を表現する文字列(以下「キーワード」と呼ぶ)を抽
出し、抽出したキーワードを手がかりとして文書全体の
論理構造を認識することにより、構造化文書を生成する
ものである。

【０００７】しかし、上述の従来技術には以下の問題点
がある。非構造化文書中の文字誤り等の原因によって論
理構造認識に失敗した場合、つまり論理構造認識エラー
が発生した場合において、エラーから回復するための手
段については考慮されていない。このような場合には、
人手で構造化文書を生成するか、あるいは非構造化文書
をエディタや文字認識結果修正システムによって修正し
た後に、再び論理構造認識を行なうことが必要になる。

【０００８】

【発明が解決しようとする課題】従来技術では、構造化
文書への変換に失敗した非構造化文書を修正するために
は、論理構造認識を行なうシステムとは独立したエディ
タや文字認識結果修正システム上で、どの箇所を修正す
べきなのかをユーザ自身が探索しなければならない。構
造化されておらず目印も存在しない非構造化文書から変
換エラーの原因となった文字列を探索する作業は、多大
な労力を必要とする。

【０００９】また、文字誤りの有無に関わらず、キーワ
ードを抽出するためのルールの抽出能力、すなわちある
文字列がキーワードであるか否かを判定する能力には、
そのルールの記述様式によって定まる限界が存在する。
そのため、本来キーワードでない文字列から誤ってキー
ワードを抽出する可能性がある。このような場合には、
非構造化文書を修正しても効果がないため、構造化文書
への自動的な変換は不可能になり、人手によって構造化
文書を生成せざるをえないことになる。

【００１０】

【課題を解決するための手段】本発明の構造化文書生成
方法は、非構造化文書のレイアウト情報と文字列情報か
ら、論理構造の構成要素を表す文字列すなわちキーワー
ドを抽出するキーワード抽出部と、キーワード抽出部で
抽出されたキーワードを手がかりとして文書の論理構造
を認識する論理構造認識部と、論理構造認識でエラーが
生じた際に、ユーザに対してエラー内容を提示して修正
を求め、修正内容を反映したキーワード抽出をキーワー
ド抽出部に対して依頼するエラー修正部と、最終的に論
理構造認識に成功した際に、その認識結果を構造化文書
として出力する構造化文書出力部で構成する。

【００１１】論理構造認識部では、エラーが生じた際
に、抽出したキーワードの位置情報、エラー位置情報、
エラー種類情報の３種類の情報を出力し、エラー修正部
を起動する。エラー修正部では、起動時に論理構造認識
部の出力した３種類の情報を読み込み、抽出したキーワ
ードと、エラーの位置及び種類をユーザに対して提示す
る。

【００１２】上記の構成において、エラー修正部は、エ
ラーの種類と、非構造化文書においてエラーの原因とな
った部分とを表示する非構造化文書表示部と、非構造化
文書の文字誤りを修正する文字誤り修正部と、キーワー
ドでない文字列から誤って抽出したキーワードの削除を
行なうキーワード削除部で構成する。上記の構成によれ
ば、まずキーワード抽出部で非構造化文書からキーワー
ドを抽出し、対象とする文書をキーワードとそれ以外の
文字列とを要素とする並びとして抽象化したキーワード
／テキストモデルを生成する。

【００１３】論理構造認識部では、キーワード抽出部で
作成されたキーワード/テキストモデルに対して論理構
造認識を行ない、各キーワード及びテキストがどの論理
構造要素に対応するのかを解析して、論理構造要素名を
示すタグ情報をキーワード／テキストモデルに付与す
る。

【００１４】論理構造認識に成功した場合には、構造化
文書出力部でキーワード／テキストモデルに付与された
タグ情報を基に、非構造化文書に論理構造を表すタグを
挿入した構造化文書を出力する。

【００１５】論理構造認識に失敗した場合、つまり論理
構造認識エラーが生じた場合には、論理構造認識部で、
どの文字列がキーワードとして抽出されているのかを示
すキーワード位置情報と、どのキーワードまたはテキス
トでエラーが生じたのかを示すエラー位置情報と、それ
がどのような種類のエラーであるのかを示すエラー種類
情報が出力される。非構造化文書表示部では、論理構造
認識部で出力されたキーワード位置情報、エラー位置情
報及びエラー種類情報を読み込み、ユーザに対してエラ
ー種類と、エラーが発生した位置近辺の非構造化文書を
提示して、ユーザに修正を要求する。このとき、ユーザ
に提示する非構造化文書において、抽出されたキーワー
ドに対応する文字列とエラーの生じた箇所の文字列と
を、背景色を変えるなどして他の部分と区別の付く形で
表示する。

【００１６】論理構造認識エラーは、以下の二つの要因
によって生じる。

【００１７】１．非構造化文書中の文字誤りによって正
しいキーワードが抽出されない。

【００１８】２．キーワードではない文字列から誤って
キーワードを抽出してしまう。

【００１９】ユーザは、非構造化文書表示部の示すエラ
ーの種類と、エラーが発生した近辺の非構造化文書の状
況から、エラーの原因が上記の二つの要因のどちらによ
るものであるかを判定し、それぞれの場合に応じて以下
の対応をとる。

【００２０】１．原因が文字誤りによるものである場合
には、ユーザが文字誤り修正部を起動し、非構造化文書
中の文字誤りを修正する。具体的には、ユーザが非構造
化文書表示部に表示された非構造化文書上で修正を施す
文字列を選択し(選択された文字列を以下「選択文字
列」と呼ぶ)、文字謝り修正部を起動して正しい文字列
を入力することにより、文字謝り修正部において非構造
化文書中の選択文字列がユーザの入力した正しい文字に
置換される。

【００２１】２．原因が非キーワード文字列からのキー
ワードの誤抽出である場合には、ユーザがキーワード削
除部を起動し、誤ったキーワードを削除する。具体的に
は、ユーザが非構造文書表示部に提示された非構造化文
書上で削除すべきキーワードを選択してキーワード削除
部を起動し、選択したキーワードの削除を承認すること
により、削除するキーワードの名称と非構造化文書中の
位置との組である削除キーワード情報を出力する。キー
ワード抽出部においては、削除キーワード情報が存在す
る場合には、その情報に該当するキーワードは抽出され
ない。

【００２２】修正処理が終了すると、修正済みの非構造
化文書に対して再びキーワード抽出処理と論理構造認識
とを行なう。このエラー修正処理と、キーワード抽出及
び論理構造認識とを、論理構造認識が成功するまで繰り
返し、論理構造認識に成功した段階で、構造化文書出力
部で構造化文書を出力する。

【００２３】したがって、論理構造認識に失敗した場合
でも、非構造化文書表示部がキーワードとして抽出され
た文字列と、エラーの原因となったキーワードまたはテ
キストと、エラーの種類とをユーザに対して提示するこ
とによって、非構造化文書において修正を施すべき位置
の探索を支援することができる。

【００２４】また、キーワード削除部によって、誤って
抽出したキーワードを除外した論理構造認識が可能にな
るため、従来の技術ではキーワードの誤抽出により構造
化文書が生成できなかった非構造化文書についても、自
動的に構造化文書を生成することが可能となる。

【００２５】

【発明の実施の形態】以下、図面を参照して本発明の一
実施例を説明する。本実施例においては、構造化文書形
式としてSGML形式を採用し、論理構造認識ルールとして
は、対象とする文書に対して設定されたSGMLの文書型定
義(以下「DTD(Document TypeDefinition)」と呼ぶ)を用
いる。また、本実施例における論理構造認識の手法とし
ては、DTDの内容に従った構文解析による認識方法を採
用する。SGML及びDTDの処理内容や記述規則は、ISO (国
際標準化機構)の標準規約であるISO8879において規定さ
れており、その詳細は文献「SGML入門」(Martin Bryan
著、アスキー出版局)において解説されている。

【００２６】図1は、本実施例に係わる、構造化文書生
成システムの構成を示すブロック図である。まず、図1
を用いてシステムの処理概要を説明する。

【００２７】図1において、101はシステムに入力される
非構造化文書であり、ワードプロセッサや文字認識装置
などの手段によって一次元的な文字列として電子化され
た文書情報である。キーワード抽出部102では、キーワ
ード抽出ルール103を用いて、非構造化文書から論理構
造を表現する文字列すなわちキーワードを抽出し、対象
文書をキーワードとそれ以外の文字列とを要素とする集
合として抽象化したキーワード/テキストモデル104を生
成する。論理構造認識部105では、キーワード/テキスト
モデル104に対して論理構造認識ルール106に従った構文
解析を行ない、各キーワード及びテキストがどの論理構
造要素に対応するのかを解析して、論理構造要素名を示
すタグ情報をキーワード/テキストモデルに付与したタ
グ情報付キーワードテキストモデル114を生成する。

【００２８】論理構造認識に成功した場合には、構造化
文書出力部115で、タグ情報付キーワード/テキストモデ
ル114に付与されたタグ情報を基に、非構造化文書に論
理構造を表すタグを挿入した構造化文書116を出力す
る。

【００２９】論理構造認識に失敗した場合、つまり論理
構造認識エラーが生じた場合には、以下の処理を行う。
論理構造認識部105において３種類の情報を出力する。
出力する情報は、キーワード位置情報107、エラー位置
情報108およびエラー種類情報109である。キーワード位
置情報107は、どの文字列がキーワードに相当するのか
を示す。エラー位置情報108は、どのキーワードまたは
テキストでエラーが生じたのかを示す。エラー種類情報
109は、それがどのような種類のエラーであるのかを示
す。次にエラー修正部110では、キーワード位置情報10
7、エラー位置情報108及びエラー種類情報109を基に、
ユーザに対して修正情報の入力を要求する。

【００３０】具体的には、非構造化文書表示部111でキ
ーワード位置情報107、エラー位置情報108及びエラー種
類情報109を読み込み、エラー種類と、エラーが発生し
た位置近辺の非構造化文書を提示して、ユーザに修正を
要求する。このとき、ユーザに提示する非構造化文書に
おいて、抽出されたキーワードに対応する文字列とエラ
ーの生じた箇所の文字列とを、背景色を変えるなどして
他の部分と区別の付く形で表示する。

【００３１】ユーザは、非構造化文書表示部が示すエラ
ー種類と、エラーが発生した近辺の非構造化文書の状況
からエラーの原因を判定し、それぞれの場合に応じて以
下の対応をとる。

【００３２】１．原因が文字誤りによるものである場合
には、ユーザが文字誤り修正部を起動し、非構造化文書
中の文字誤りを修正する。具体的には、ユーザが非構造
化文書表示部に表示された非構造化文書において修正を
施す文字列を選択し(選択された文字列を以下「選択文
字列」と呼ぶ)、文字謝り修正部を起動して正しい文字
列を入力することにより、文字謝り修正部において非構
造化文書中の選択文字列がユーザの入力した正しい文字
に置換される。

【００３３】２．原因が非キーワード文字列からのキー
ワードの誤抽出である場合には、ユーザがキーワード削
除部を起動し、誤ったキーワードを削除する。具体的に
は、ユーザが非構造文書表示部に提示された非構造化文
書から削除すべきキーワードを選択してキーワード削除
部を起動し、選択したキーワードの削除を承認すること
により、削除するキーワードの名称と非構造化文書中の
位置との組である削除キーワード情報を出力する。キー
ワード抽出部においては、削除キーワード情報が存在す
る場合には、その情報に該当するキーワードは抽出され
ない。

【００３４】修正処理が終了すると、修正済みの非構造
化文書に対して再びキーワード抽出部102と論理構造認
識部105で論理構造認識を試みる。このエラー修正処理
と、キーワード抽出及び論理構造認識とを、論理構造認
識が成功するまで繰り返し、成功した段階で、構造化文
書出力部115で構造化文書116を出力する。

【００３５】次に、図1における各処理の詳細な説明を
行なう。図1における非構造化文書101の例を図2に示
す。これは、法規を例に紙面文書に対して文字認識を行
なった結果であり、論理構造を示す明示的な表記は存在
しないが、文書の各構成要素はスペース等を用いて読み
易いようにレイアウトされている。このようなテキスト
形式の電子化文書を文書処理システムで活用するため
に、論理構造定義(DTD)が設定されている。

【００３６】図2の非構造化文書に対応するDTDの例を図
3に示す。冒頭の301は、この論理構造定義が「条例」と
いう名称であることを示す。302は、論理構造要素「条
例」が、「題名」「公布」「本則」「附則」といった論
理構造要素の並びによって構成されることを示す。「附
則」にアスタリスク(＊)がついているのは、「附則」は
任意個存在可能であることを示す。また、プラス(＋)の
付いた要素は、その要素が一個以上存在可能であること
を意味し、クエスチョン(？)の付いた要素は、その要素
が存在してもしなくてもよいことを意味する。303は、
論理構造要素「公布」が「公布年月日」「例規番号」
「公布文」の並びによって構成されることを示し、308
は「本則」が一個以上の「条」から構成されることを示
す。また、(#PCDATA)を構成要素とする303、305〜307等
は、それぞれ「題名」「公布年月日」「例規番号」「公
布文」といった論理構造要素が、その内容を表す文字列
を保持することを意味する。301から315までの論理構造
をツリー状に表現したものを図4に示す。

【００３７】本実施例における論理構造認識ルール106
は、図3に示すようなDTDにおける(#PCDATA)を、文字列
情報や位置情報に特徴があるキーワードとして抽出でき
る論理構造要素については『KEY「論理構造要素名」』
と置換し、それ以外の論理構造要素については『TEXT』
と置換したものを用いる。(キーワードの抽出方法につ
いては後述する。) 論理構造認識ルール106の例を図5に示す。例えば、ルー
ル511は、抽出されたキーワード「条番号」がすなわち
論理構造要素「条番号」に対応することを示している。
また、ルール512は、論理構造要素「条規定」がキーワ
ードでない文字列、すなわちテキストに対応することを
示しており、かつルール509より「条番号」に後接する
テキストが「条規定」に対応することが分かる。

【００３８】本システムの目的は、図5に示すような論
理構造認識ルールを用いて、非構造化文書のどの文字列
がどの論理構造要素に対応するのかを解析し、非構造化
文書全体に対して図4に示すようなツリー状の構造を割
り当てることにより、構造化文書を生成することであ
る。

【００３９】図1のキーワード抽出部102では、キーワー
ド抽出ルール103を参照して非構造化文書101からキーワ
ードを抽出し、キーワード/テキストモデル104を生成す
る。キーワード抽出ルール103の例を図6に示す。これ
は、キーワードとして抽出すべき論理構造要素名と、そ
れを抽出するためのレイアウト情報及び文字列情報を記
述した書式条件とを組合せたルールの集合である。

【００４０】図6における書式条件の記述要素の説明を
図7に示す。図6においては、各行の先頭の項目がキーワ
ードの名称であり、二番目以降の項目が書式条件であ
る。図6における601は、キーワード「題名」の書式条件
が、「行頭からスペース3文字尾位置に文字『○』が存
在し、それに任意長の文字列が続き、最後に文字列『条
例』または文字列『規則』で行が終る。」という条件で
あることを意味する。また、602については、キーワー
ド「公布年月日」の書式条件が、「行頭から任意個のス
ペースを置いて文字列『大正』または文字列『昭和』が
存在し、その後は順に整数、『年』、整数、『月』、整
数、『日』と続き、行が終る」という条件であることを
意味する。

【００４１】図1のキーワード抽出部102では、非構造化
文書中にキーワード抽出ルールの書式条件に適合する文
字列が存在するか否かを判定し、適合する場合にはその
文字列をキーワードとして抽出する。キーワードの抽出
例を図8に示す。そして、対象文書をキーワードとそれ
以外の文字列の集合として抽象化したキーワード/テキ
ストモデル104を生成する。具体的には、キーワード間
にキーワードではない文字列が挟み込まれる場合、それ
をキーワード以外の文字列である「テキスト」とみな
し、例えば図9に示すようなキーワード/テキストモデル
を生成する。図9のキーワード/テキストモデルは、901
のキーワード「題名」から始まりその後キーワード「公
布年月日」(902)、キーワード「例規番号」(903)、キー
ワード「公布文」(904)、キーワード「条番号」(905)と
続く。905のキーワード「条番号」と907のキーワード
「号番号」との間にキーワードでない文字列(906)が挟
まれるため、その部分が「テキスト」とみなされる。

【００４２】図1の論理構造認識部105では、キーワード
/テキストモデル104に対して構文解析を行ない、キーワ
ード/テキストモデルが論理構造認識ルール106に適合す
るか否かを検証し、その過程で検出した論理構造を表す
タグ情報をキーワード/テキストモデルに付与する。

【００４３】キーワード/テキストモデルにおけるキー
ワードとテキストは、共に図4の「ツリー状に表現したD
TD」における「#PCDATA」、つまり論理構造要素の内容
を表す文字列に相当する。キーワードはどの論理構造要
素に対応するのかが1対1で定まっている文字列であり、
逆にテキストはどの論理構造要素に対応するのかが定ま
っていない文字列である。このキーワードとテキストの
一次元的な並びであるキーワード/テキストモデルか
ら、図4に示すようなツリー構造を構築することが、論
理構造部105におけるキーワード/テキストモデルの検証
に相当する。この処理は、大きく分けて次の二つの処理
(a、b）から構成される。

【００４４】a.隣接するキーワードより、テキストがど
の論理構造要素に対応するのかを決定する。図9のキー
ワード/テキストモデルの例では、905「条番号」キーワ
ードの隣に位置するテキスト906は、図5のルール509及
びルール512より、論理構造要素「条規定」に対応する
とみなされる。また同様にして、「号番号」キーワード
の隣に位置するテキストは、図5のルール513及び515よ
り、論理構造要素「号規定」に対応するものとみなされ
る。

【００４５】b.隣接する論理構造要素群を、より抽象的
な論理構造要素にまとめあげる。これは、例えば図4に
おいて、隣接する論理構造要素「公布年月日」「例規番
号」「公布文」を、より抽象的な「公布」という論理構
造要素にまとめあげることに相当する。図9のキーワー
ド/テキストモデルの例では、隣接する「号番号」(907)
と「号規定」(908)については、図5のルール513に従っ
て、それら全体が一つの「号」を構成するものとして、
論理構造要素「号」にまとめあげる。これは、909と91
0、911と912、913と914のそれぞれの組合せについても
同様である。また、隣接する「条番号」(905)、「条規
定」(906)、及び複数の「号」(907〜914)については、
図5のルール509に従って、それらを論理構造要素「条」
についてまとめあげる。このとき、「条」や「号」のよ
うに番号を表すキーワード(この場合は「条番号」や
「号番号」)を自らの構成要素とするような論理構造要
素をまとめあげる場合には、その最初の番号とその後の
番号間の連続性をチェックする。つまり、番号が1から
始まっているか、その後1、2、3…と連続しているか否
かを調べる。

【００４６】入力されるキーワード/テキストモデルに
対して、冒頭の要素から逐次a,bの処理を適用し、最終
的に図4に示すように一つの論理構造要素「条例」を根
とするツリー構造が構築できるならば、そのキーワード
/テキストモデルは論理構造認識ルール106に適合し、論
理構造認識に成功したとする。逆に、キーワードやテキ
ストの並び方が論理構造認識ルール106内のルールと一
致せず、aの処理やbにおけるまとめあげ処理に失敗した
場合には、そのキーワード/テキストモデルは論理構造
認識ルール106に適合せず、論理構造認識に失敗したと
する。

【００４７】また、bにおける番号の連続性のチェック
において、最初の番号に異常がある場合や、番号間の連
続性が保たれていない場合には、論理構造認識に失敗し
たとする。例えば、1から始まるべき番号が3から始まっ
ている場合や、番号が1,2,5と跳んでいる場合がこれに
相当する。

【００４８】論理構造認識に成功した場合には、論理構
造認識部105で、各論理構造要素がキーワード/テキスト
モデル104のどの要素に対応するのかを示すタグ情報を
キーワード/テキストモデルに付与し、タグ情報付キー
ワード/テキストモデル114を生成する。具体的には、あ
る論理構造要素が単一のキーワードまたはテキストに対
応する場合には、その論理構造要素名を示す開始タグ情
報と終了タグ情報を、それぞれ該当するキーワードまた
はテキストの前タグ、後タグとして付与する。

【００４９】図9のキーワード/テキストモデルに対して
タグ情報を付与したタグ情報付キーワード/テキストモ
デルの例を図10に示す。例えば、図9の例では、908のテ
キストは「号番号」に隣接する「号規定」であると解析
されるため、908のテキストの前タグ、後タグにそれぞ
れ「号規定」の開始タグ情報と終了タグ情報が付与され
る(図10の1015,1016)。

【００５０】また、複数のキーワードおよびテキストに
対応する論理構造要素については、その冒頭と末尾のキ
ーワード/テキストに対して、それぞれ開始タグ情報、
終了タグ情報を付与する。例えば、図9において907、90
8は二つまとめて論理構造要素「号」に対応する。その
ため、907のキーワード「号番号」の前タグとして
「号」の開始タグ情報を、そして908の後タグとして
「号」の終了タグ情報をそれぞれ付与する(図10の1013,
1016)。また、905〜914は全体が論理構造要素「条」に
相当する。そのため、905のキーワード「条番号」の前
タグに「条」の開始タグ情報を、914のテキストの後タ
グに終了タグ情報をそれぞれ付与する(図10では前タグ
のみ1009に対応)。

【００５１】これらの手順によって生成されたタグ情報
付キーワード/テキストモデル114を基に、構造化文書出
力部116で出力される構造化文書であるSGML文書の例を
図11に示す。

【００５２】ところで、タグ情報付キーワード/テキス
トモデルが生成されるのは、論理構造認識部でキーワー
ド/テキストモデルの論理構造認識に成功した場合であ
り、失敗した場合にはタグ情報は付与されない。論理構
造認識エラーは、正しいキーワード/テキストモデルが
生成できないことが原因であり、それはキーワードが正
しく抽出されないことに起因する。そのため、正しいキ
ーワードを抽出できるように修正処理を行なう必要があ
る。

【００５３】論理構造認識エラーの生じる例として、図
2に示した非構造化文書の5行目の冒頭部「第１条」につ
いて、「１」(アラビア数字の１)を「ｌ」(アルファベ
ットのエル)と誤って文字認識したと想定し、「第ｌ
条」として誤入力された場合を考える。このとき、「第
ｌ条」はキーワード抽出部においてキーワードとして抽
出されないため、この非構造化文書に対応するキーワー
ド/テキストモデルは図12のようになる。

【００５４】このキーワード/テキストモデルに対して
論理構造認識部105で論理構造認識が行なわれる。1201
の「題名」から1204の「公布文」については、図5のル
ール503からルール507によって、それぞれが論理構造要
素「題名」、「公布年月日」「例規番号」「公布文」に
相当することが解析され、さらに「公布年月日」「例規
番号」「公布文」は論理構造要素「公布」に対応するこ
とが解析される。ルール502によると、「公布」の次、
すなわちキーワード「公布文」の次には「本則」が存在
すべきであり、それはルール508と509によって、キーワ
ード「条見出し」あるいはキーワード「条番号」が存在
すべきであることに相当する。しかし、「公布文」の次
に存在するのは1205のテキストであり、これは「条見出
し」でも「条番号」でもない。そのため、「公布文」の
次に「テキスト」が存在するのはおかしい、というエラ
ーが発生する。

【００５５】このように論理構造認識エラーが発生した
場合には、論理構造認識部105では、次の3つの情報を出
力する。

【００５６】1.キーワード位置情報抽出された各キーワードが、非構造化文書におけるどの
文字列に相当するのかを表す情報である。各文字が非構
造化文書の何行目の何番目の文字に相当するか(スペー
スも一文字として数える)を示す二つの数字の組を「文
字位置ID」とする。すると、各キーワードの位置情報
は、図13に示すように、キーワード名称と、キーワード
の最初と最後の文字位置IDの組で表現される。例えば13
01は、キーワード「題名」が1行目の4文字目から1行目
の13文字目までの文字列から抽出されたことを示す。

【００５７】2.エラー位置情報どのキーワードまたはテキストでエラーが生じたのかを
示す情報であり、該当する文字列の最初と最後の文字の
文字位置IDの組で表現される。図14に、図12のキーワー
ド/テキストモデルを解析した際にエラーとなったテキ
スト1205に相当するエラー位置情報の例を示す。ここで
は、エラーとなった文字列が非構造化文書の第5行の1文
字めから第6行の14文字めまでであることを示してい
る。

【００５８】3.エラー種類情報「キーワード/テキストの種類が誤っているためにエラ
ーが発生した」、あるいは「キーワード/テキストの種
類は正しいが番号チェックでエラーが発生した」といっ
た、論理構造認識エラーの種類を示す文字列である。図
12のキーワード/テキストモデルを解析した際に生じた
エラーの場合は、「＜公布文：△△県水防信号規則をこ
こに公布する。＞の次にテキストが存在するのはおかし
い」という文字列になる。

【００５９】図1の非構造化文書表示部111では、上記の
3種類の情報を読み込み、エラーの種類と、エラーが発
生した位置近辺の非構造化文書を提示して、ユーザに修
正を要求する。

【００６０】非構造化文書表示部111のユーザ・インタ
ーフェースの例を図15に示し、処理フローを図16に示
す。この二つの図を用いて、非構造化文書表示部の動作
を説明する。図15に示した例は、図12のキーワード/テ
キストモデルについて論理構造認識エラーが生じた場合
の例である。非構造化文書表示部は、論理構造認識エラ
ーが発生すると論理構造認識部105によって起動され(16
01)、論理構造認識部で出力されたキーワード位置情
報、エラー位置情報及びエラー種類情報と、非構造化文
書とを読み込む(1602)。そして、ユーザに対してエラー
種類と非構造化文書とを提示する(1603)。

【００６１】図15の1501はエラー種類表示窓であり、論
理構造認識部の出力したエラー種類情報を表示し、どの
ようなエラーが発生したのかをユーザに知らせる。1502
は非構造化文書表示窓であり、非構造化文書の中で、論
理構造認識部の出力したエラー位置情報の示す位置近辺
の部分を表示する。1503は文字誤り修正部起動ボタンで
あり、文字誤りが原因で論理構造認識エラーが生じてい
る場合には、修正箇所を非構造化文書表示窓内でマウス
を用いて選択し、このボタンを押すことにより、文字誤
り修正部が起動する(1604→1605)。1504はスクロールボ
タンであり、このボタンを押して非構造化文書表示窓中
で表示する非構造化文書の位置を移動させる(1604→160
7)。1505は再認識起動ボタンであり、エラー修正が終了
した後にこのボタンを押すと、修正内容を反映した非構
造化文書に対してキーワード抽出部102と論理構造認識
部105が処理を再び行ない、構造化文書生成を試みる(16
04→1608)。

【００６２】非構造化文書窓1502においては、キーワー
ド位置情報を参照しキーワードに相当する文字列は背景
色を変えて(例えば青色)表示する。図15では、1505〜15
08、1510〜1512に示した部分がキーワードに相当する。
また、エラー位置情報によって示されるエラー原因のキ
ーワード/テキストについては、さらに別の背景色(例え
ば赤色)によって表示する。これにより、ユーザは構造
化文書中でエラーが生じたキーワード/テキストに対応
する文字列を即座に把握することができる。図15の例で
は、赤い背景色(図中では縦線の網掛け)で示されたテキ
スト1509が問題になっていることが分かり、かつそのテ
キストにおいて本来キーワードとして抽出されるべき
「第ｌ条」が含まれていることが分かる。

【００６３】また、背景色の異なるキーワードをダブル
クリックすると、キーワード削除部113が起動するよう
に非構造化文書表示部を構成しておく(1604→1606)。ユ
ーザは、非構造化文書表示部が示すエラー種類と、エラ
ーが発生した近辺の非構造化文書の状況からエラー原因
を判定し、それぞれの場合に応じて以下の対応をとる。

【００６４】1.原因が文字誤りによるものである場合に
は、文字誤り修正部112を起動し、非構造化文書中の文
字誤りを修正する。

【００６５】2.原因が非キーワード文字列からのキーワ
ード誤抽出である場合には、キーワード削除部113を起
動し、誤ったキーワードを削除する。

【００６６】図15の例では、論理構造認識エラーを引き
起こしたテキスト1509に含まれる「第ｌ条」の「ｌ」
(エル)が「１」(いち)の文字認識誤りであり、そのため
にキーワードとして抽出されなかったことが原因となっ
ている。このように原因が文字誤りによる場合には、ユ
ーザが非構造化文書表示部110の非構造化文書表示窓150
2中の該当文字列をマウスでドラッグして選択し、文字
修正ボタン1503を押すことにより、文字誤り修正部112
が起動される。その際、非構造化文書表示部111はユー
ザの選択した文字列の位置情報を文字誤り修正部112に
渡す。選択文字列の位置情報は、エラー位置情報と同様
の構成であり、該当文字列の最初と最後の文字位置IDか
らなる。ここでは、「第ｌ条」という文字列を選択した
とすると、第5行の1文字めから3文字めまでを選択して
いることから、選択文字列の位置情報は「5-1 , 5-3」
という情報になる。

【００６７】文字誤り修正部112のユーザ・インターフ
ェースの例を図17に示し、処理フローを図18に示す。こ
の二つの図を用いて、文字誤り修正部112の処理を説明
する。

【００６８】文字誤り修正部は、起動されると、非構造
化文書表示部111から渡された選択文字列の位置情報を
読み込み(1802)、選択された非構造化文書中の文字列を
表示する(1803)。1701は選択文字列表示窓であり、この
中に非構造化文書表示部111中で選択された文字列が表
示される。1702は文字列入力窓であり、選択文字列表示
窓中の文字列と置換すべき正しい文字列を入力する。17
03は文字入力カーソルであり、文字列入力窓1702におい
て次に文字を入力する位置を示す。1704は文字誤り修正
終了ボタンであり、このボタンが押されると、文字誤り
修正部は非構造化文書に対して選択文字列表示窓1601に
表示された文字列を、文字列入力窓1602に入力された文
字列に置換する処理を行ない(1804→1805)、文字誤り修
正部112の処理を終了し、処理を非構造化文書表示部111
に戻す。1705はキャンセルボタンであり、このボタンが
押されると、非構造化文書を修正せずに処理を非構造化
文書表示部111に戻す(1804→1806)。

【００６９】ところで、論理構造認識エラーの原因が非
キーワード文字列からのキーワード誤抽出である場合に
は、ユーザが非構造化文書表示部111の非構造化文書表
示窓1502中の該当キーワードをダブルクリックすること
により、キーワード削除部113が起動する。

【００７０】例えば、図19に示すような非構造化文書か
ら構造化文書を作成する際に、キーワード抽出の結果は
図20のようになる。ここで、2001の「条見出し」は、本
来「条」における「条見出し」としては抽出すべきでな
い文字列であるが、キーワード抽出ルール603に適合す
るために誤ってキーワード「条見出し」として抽出して
しまっている。これらのキーワード群から生成されるキ
ーワード/テキストモデルを図21に示す。このキーワー
ド/テキストモデルに対して論理構造認識を行なうと、2
108の「号番号」でエラーが発生する。これは、図5の論
理構造認識ルールにおけるルール509により「条見出
し」の後には必ず「条番号」が後接することになってお
り、「号番号」は後接しないからである。

【００７１】このエラーが生じた際の非構造化文書表示
部111のユーザ・インタフェース例を図22に示す。この
とき、ユーザは、実際にエラーの生じた2202の
「（１）」がキーワードとして抽出されていることには
問題はなく、その前にキーワードとして抽出されている
2201の「（昭和６１年１月２３日改訂）」が本来キーワ
ードであってはならない文字列であることを発見する。

【００７２】このとき、背景色の異なるキーワード
「（昭和６１年１月２３日改訂）」(2201)をマウスでダ
ブルクリックして選択すると、キーワード削除部113が
起動される。このとき、選択したキーワードの名称と位
置の情報の組である「削除キーワード情報」が、非構造
化文書表示部111からキーワード削除部113に渡される。
図23は、「条見出し」についての削除キーワード情報の
例であり、キーワード名称と、該当キーワードの最初と
最後の文字位置IDから構成される。

【００７３】キーワード削除部113のユーザ・インタフ
ェースを図24に示し、処理フローを図25に示す。この二
つの図を用いて、キーワード削除部113の処理を説明す
る。キーワード削除部113は、起動されると非構造化文
書表示部111から渡された削除キーワード情報を読み込
み(2502)、ユーザが削除すべく選択したキーワードを提
示する(2503)。2401は、キーワード表示窓であり、削除
すべきキーワードとキーワードの種類とが表示される。
2402は削除承認ボタンであり、このボタンが押される
と、キーワード削除部113は削除キーワード情報を出力
し(2504→2505)、処理を非構造化文書表示部111へと戻
す(2506)。2403はキャンセルボタンであり、このボタン
が押されると、キーワード削除部113は削除キーワード
情報を生成せずに処理を非構造化文書表示部111へと戻
す(2506)。

【００７４】以上のような手続きにより、文字誤り修正
部112とキーワード削除部113のいずれかまたは両方を用
いたエラー修正処理が終了すると、ユーザは非構造化文
書表示部111の再認識起動ボタンを押し、再び構造化文
書の生成を試みる。キーワード抽出部102と論理構造認
識部105は修正内容を反映した非構造化文書に対して処
理を行ない、構造化文書生成を試みる。このとき、削除
キーワード情報がキーワード削除部112から出力されて
いる場合には、キーワード抽出部は削除キーワード情報
に記述されたキーワードについては抽出を行なわない。

【００７５】このようにして、キーワード抽出及び論理
構造認識と、エラー修正とを、論理構造認識に成功する
まで繰り返し、成功した段階で論理構造認識部105はタ
グ情報付きキーワード/テキストモデル114を生成する。
そして構造化文書生成部115がそれを基にして構造化文
書(SGML文書)116を出力する。これにより、誤りを複数
個含む非構造化文書についても、正しく構造化文書を生
成することができる。

【００７６】

【発明の効果】以上のように、本発明によれば、論理構
造認識エラーが生じた場合でも、非構造化文書表示部が
エラーの原因となったキーワードまたはテキストと、エ
ラーの種類とをユーザに対して提示することによって、
非構造化文書において修正を施すべき位置の探索と修正
を支援することができる。

【００７７】また、キーワード削除部によって、誤って
抽出したキーワードを除外した論理構造認識が可能にな
るため、従来の技術ではキーワードの誤抽出により構造
化文書が生成できなかった非構造化文書についても、自
動的に構造化文書を生成することができる。

【図面の簡単な説明】

【図１】本発明の実施例に係わる構造化文書生成システ
ムの動作概要を説明するブロック図である。

【図２】非構造化文書の例を示した図である。

【図３】図２に示した文書に対して設定されたSGML形式
の論理構造定義であるDTD(一部)を示した図である。

【図４】図３に示したDTDの一部をツリー状に表現した
図である。

【図５】図３のDTDを元に作成した論理構造認識ルール
を示した図である。

【図６】キーワード抽出ルールの例(一部)を示した図で
ある。

【図７】図６に示したキーワード抽出ルールにおける書
式条件の記述要素を示した図である。

【図８】キーワードの抽出例を示した図である。

【図９】キーワード/テキストモデルの例を示した図で
ある。

【図１０】タグ情報付キーワード/テキストモデルの例
(一部)を示した図である。

【図１１】実施例に述べる方法によって最終的に得られ
るSGML文書の例(一部)を示した図である。

【図１２】文字誤りを含んだ非構造化文書から生成した
キーワード/テキストモデルの例である。

【図１３】キーワード位置情報の例である。

【図１４】エラー位置情報の例である。

【図１５】図１２に示したキーワード/テキストモデル
に対して論理構造認識を行なった際に起動する非構造化
文書表示部のインターフェースを示した図である。

【図１６】非構造化文書表示部の処理フローを示した図
である。

【図１７】文字誤り修正部のインターフェースを示した
図である。

【図１８】文字誤り修正部の処理フローを示した図であ
る。

【図１９】キーワード誤抽出が生じるために論理構造認
識に失敗する非構造化文書の例を示した図である。

【図２０】図１９に示した非構造化文書から抽出される
キーワードを示した図である。

【図２１】図１９に示した非構造化文書から生成される
キーワード/テキストモデルを示した図である。

【図２２】図２１に示したキーワード/テキストモデル
に対して論理構造認識を行なった際に起動する非構造化
文書表示部のインターフェースを示した図である。

【図２３】削除キーワード情報の例を示した図である。

【図２４】キーワード削除部のインターフェースを示し
た図である。

【図２５】キーワード削除部の処理フローを示した図で
ある。

【符号の説明】

１０１…非構造化文書、１０２…キーワード抽出部、１
０３…キーワード抽出ルール、１０４…キーワード／テ
キストモデル、１０５…論理構造認識部、１０６…論理
構造認識ルール、１１１…非構造化文書表示部、１１２
…文字誤り修正部、１１３…キーワード削除部、１１５
…構造化文書出力部

フロントページの続き (72)発明者東尚史神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】非構造化文書のレイアウト情報と文字列情
報から、論理構造の構成要素を表す文字列すなわちキー
ワードを抽出するキーワード抽出部と、キーワード抽出部で抽出したキーワードを手がかりとし
て文書の論理構造を認識する論理構造認識部と、論理構造認識にエラーが生じた際に、ユーザに対してエ
ラー内容を提示して修正を求め、修正内容を反映したキ
ーワード抽出をキーワード抽出部に対して依頼するエラ
ー修正部と、最終的に論理構造認識に成功した結果を構造化文書とし
て出力する構造化文書出力部とから構成されることを特
徴とする構造化文書生成装置。
【請求項２】請求項１に記載の構造化文書生成装置にお
いて、前記エラー修正部は、エラーの種類と、非構造化文書に
おいてエラーの原因となった部分とを表示する非構造化
文書表示部と、前記非構造化文書の文字誤りを修正する文字誤り修正部
と、キーワードでない文字列から誤って抽出したキーワード
の削除を行なうキーワード削除部とから構成されること
を特徴とする構造化文書生成装置。