JPH0816589A - 構造化文書処理装置 - Google Patents

構造化文書処理装置

Info

Publication number
JPH0816589A
JPH0816589A JP6147371A JP14737194A JPH0816589A JP H0816589 A JPH0816589 A JP H0816589A JP 6147371 A JP6147371 A JP 6147371A JP 14737194 A JP14737194 A JP 14737194A JP H0816589 A JPH0816589 A JP H0816589A
Authority
JP
Japan
Prior art keywords
document
structured document
error
structured
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6147371A
Other languages
English (en)
Inventor
Hiroshi Kitahara
洋 北原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6147371A priority Critical patent/JPH0816589A/ja
Publication of JPH0816589A publication Critical patent/JPH0816589A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】本発明は、文書内容が文書の構成要素識別子と
対応付けて記述される構造化文書を処理する構造化文書
処理装置に関し、構造化文書の効率的な校正の実現を目
的とする。 【構成】文書内容が文書の構成要素識別子と対応付けて
記述される構造化文書を処理する構造化文書処理装置に
おいて、構成要素識別子をキーにして、誤りとなる文書
条件を管理する管理部と、処理対象となる構造化文書の
持つ構成要素識別子と、その構成要素識別子に対応付け
られる文書内容とを抽出する解析部と、解析部の抽出す
る文書内容が、その文書内容と対をなす構成要素識別子
の指す管理部の誤り文書条件に該当するか否かをチェッ
クすることで、処理対象となる構造化文書の持つ誤りを
検出する検出部とを備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書内容が文書の構成
要素識別子と対応付けて記述される構造化文書を処理す
る構造化文書処理装置に関し、特に、構造化文書の効率
的な校正を実現する構造化文書処理装置に関する。
【0002】最近、文書構造を人間にも機械にも理解で
きるようにするために、文書内容が文書の構成要素識別
子と対応付けて記述される構造化文書が用いられるよう
になってきた。このような構造化文書を扱う構造化文書
処理装置では、従来の文書処理装置とは異なる文書校正
機能を構築していく必要がある。
【0003】
【従来の技術】従来の文書処理装置は、作成された文書
の校正を行う場合、文書構造を考慮することなく、文書
全体を校正対象としてチェックを行ったり、指定された
文書部分を校正対象としてチェックを行うという構成を
採っていた。
【0004】すなわち、従来の文書処理装置の扱う文書
は、人間にはその構造が理解できるものの、機械にはそ
の構造が理解できないことから、従来の文書処理装置で
は、文書の構造を考慮することなく文書の校正を実行す
るという構成を採っていたのである。
【0005】
【発明が解決しようとする課題】しかるに、最近、文書
構造を人間にも機械にも理解できるようにするために、
文書内容が文書の構成要素識別子と対応付けて記述され
る構造化文書が用いられるようになってきた。図16
に、この構造化文書の一例を図示する。ここで、「<」
と「>」とで区切られる部分が構成要素識別子を表して
おり、その中に「/」を含むものは、その構成要素識別
子の終了を表している。
【0006】しかしながら、このような従来技術に従っ
て構造化文書の校正を行うとすると、文書の特定構成要
素をチェックする場合にも、文書全体や指定文書部分を
校正対象としてチェック処理を行って、そのチェック結
果の中から必要な部分を取り出していくという処理を行
わなくてはならない。
【0007】これから、チェックする必要のない文書部
分もチェックすることから、処理が遅くなるという問題
点があるとともに、ユーザが、チェック結果の中から自
分の校正対象とする部分を探し出していかなくてはなら
ないという問題点がある。
【0008】本発明はかかる事情に鑑みてなされたもの
であって、文書内容が文書の構成要素識別子と対応付け
て記述される構造化文書の効率的な校正を実現する新た
な構造化文書処理装置の提供を目的とする。
【0009】
【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、1は本発明を具備する構造化文書処
理装置であって、文書内容が文書の構成要素識別子と対
応付けて記述される構造化文書を処理するもの、2は構
造化文書処理装置1の備える入力文書ファイルであっ
て、処理対象となる構造化文書を格納するもの、3は構
造化文書処理装置1の備える出力文書ファイルであっ
て、処理された構造化文書等を格納するものである。
【0010】この構造化文書処理装置1は、読出部10
と、管理部11と、解析部12と、検出部13と、作成
部14と、修正部15とを備える。この読出部10は、
入力文書ファイル2から処理対象となる構造化文書を読
み出す。管理部11は、構成要素識別子をキーにして、
誤りとなる文書条件を管理し、更に、誤り文書条件に該
当する文書内容についての修正内容を管理することがあ
る。
【0011】解析部12は、読出部10の読み出した構
造化文書を解析する。検出部13は、読出部10の読み
出した構造化文書の持つ誤りを検出する。作成部14
は、読出部10の読み出した構造化文書の持つ誤り内容
の一覧を作成する。修正部15は、読出部10の読み出
した構造化文書の持つ誤り内容を修正する。
【0012】
【作用】本発明では、読出部10が、入力文書ファイル
2から処理対象となる構造化文書を読み出すと、解析部
12は、読み出された構造化文書を解析することで、処
理対象となる構造化文書の持つ構成要素識別子と、その
構成要素識別子に対応付けられる文書内容とを抽出す
る。
【0013】この解析部12による抽出結果を受けて、
検出部13は、抽出された各文書内容が、その文書内容
と対をなす構成要素識別子の指す管理部11の誤り文書
条件に該当するか否かをチェックすることで、処理対象
となる構造化文書の持つ誤りを検出する。
【0014】そして、この検出部13による検出結果を
受けて、作成部14は、処理対象となる構造化文書の持
つ誤り内容の一覧を作成する。このとき、各誤り内容が
構造化文書のどの箇所であるのかを明示するために、上
位構成要素識別子の持つ文書内容と対応を付けつつ誤り
内容の一覧を作成していくことがあり、また、どのよう
に修正したらよいのかを明示するために、管理部11の
管理する修正内容と対応を付けつつ誤り内容の一覧を作
成していくことがある。
【0015】そして、この検出部13による検出結果を
受けて、修正部15は、検出された構造化文書の持つ誤
りを管理部11の管理する対応の修正内容に従って変更
する。
【0016】このように、本発明によれば、文書内容が
文書の構成要素識別子と対応付けて記述される構造化文
書を処理対象として、その構造化文書の持つ誤りを文書
構造を考慮しつつ校正できるようになる。
【0017】
【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、本発明の一実施例を図示する。図中、図1
で説明したものと同じものについては同一の記号で示し
てある。
【0018】図中、20は誤り検出プログラムであっ
て、処理対象となる構造化文書の持つ誤りを検出するも
の、21はチェック項目表であって、誤り検出プログラ
ム20の検出処理に必要となるチェックデータを管理す
るもの、22は文書構造表であって、誤り検出プログラ
ム20の抽出する処理対象構造化文書の持つ文書構造情
報を格納するもの、23はチェック結果表であって、誤
り検出プログラム20の検出結果を格納するもの、24
は誤り作成プログラムであって、処理対象となる構造化
文書の持つ誤り内容の一覧を作成するもの、25は誤り
修正プログラムであって、処理対象となる構造化文書の
持つ誤りを修正するものである。
【0019】このチェック項目表21は、処理対象とな
る構造化文書に対してのチェック条件と、その構造化文
書の持つ誤りの修正方法とを構成要素名をキーにして管
理するものであって、「箇条書き」という構成要素の持
つ要素数が上限値の8個を超えているか否かをチェック
し、「索引の読み」という構成要素の持つ文書内容の漢
字部分をチェックし、「索引」という構成要素の持つ文
書内容の長さが15単位を超えているか否かをチェック
し、「段落」という構成要素の持つ文書内容が“猶”と
いう文字列を持っているか否かをチェックし、「段落」
という構成要素の持つ文書内容が“#”という文字列を
持っているか否かをチェックし、「見出し」という構成
要素の持つ文書内容の長さが50単位を超えているか否
かをチェックし、そして、「段落」という構成要素の持
つ文書内容の“猶”部分を“なお”に修正する場合に
は、チェック項目表21は、図3に示すようなチェック
データを管理することになる。
【0020】例えば、図4に示す構造化文書では、「<
箇条1>」から始まって、「</箇条1>」で終わる
「箇条書き」の構成要素を持つが、この「箇条書き」の
構成要素の持つ要素数が上限値の8個を超えているか否
かをチェックする場合には、チェック項目表21は、
「箇条書き」という構成要素の持つ要素数の上限値が8
個である旨のチェックデータを管理するのである。
【0021】図5に、誤り検出プログラム20の実行す
る処理フローの一実施例、図6に、誤り作成プログラム
24の実行する処理フローの一実施例、図7に、誤り修
正プログラム25の実行する処理フローの一実施例を図
示する。
【0022】次に、これらの処理フローに従って、本発
明について詳細に説明する。誤り検出プログラム20
は、ユーザから構造化文書の校正要求が発行されると、
図5の処理フローに示すように、先ず最初に、ステップ
1で、入力文書ファイル2から処理対象となる構造化文
書(以下、入力文書と称することがある)を読み込む。
【0023】続いて、ステップ2で、その入力文書の構
造解析を行うことで、入力文書の持つ構成要素名と、そ
の構成要素名に対応付けられる文書内容とを出現順に抽
出して文書構造表22に登録する。例えば、入力文書
が、「章」という上位構成要素で2つの「段落」という
下位構成要素を持って、その内の1つが、「猶、以下の
点に注意する必要があります。」という文書内容を持つ
場合には、これらの文書構造情報を抽出して、図8に示
すように文書構造表22に登録するのである。
【0024】続いて、ステップ3で、変数iに“1”を
セットし、続くステップ4で、文書構造表22のi番目
エントリーの持つ構成要素名を特定する。続いて、ステ
ップ5で、その特定した構成要素名を持つチェック項目
表21のチェック条件を特定する。例えば、チェック項
目表21が図3に示すようなチェックデータを管理する
ときにあって、ステップ4で特定した構成要素が「索
引」である場合には、その「索引」の持つ文書内容の長
さの上限値が15単位であるというチェック条件を特定
するのである。ここで、特定した構成要素名がチェック
項目表21に登録されていないときには、以下に説明す
るステップ6の処理を省略してステップ7に進むことに
なる。
【0025】続いて、ステップ6で、文書構造表22の
i番目エントリーの持つ文書内容が、特定したチェック
条件に該当するか否かを調べて、該当する場合には、そ
のチェック条件のチェックID(チェック項目表21の
登録番号)と、その文書内容の要素ID(文書構造表2
2の登録番号)と、該当部分の位置及び長さを表す補助
情報とをチェック結果表23に登録する。ここで、該当
しない場合には、チェック結果表23への登録処理は行
わない。
【0026】すなわち、特定したチェック条件が、
“猶”といったような特定の文字列を持っているか否か
のチェックを表している場合にあって、特定した文書内
容がこの特定の文字列を持っている場合には、図9に示
すようなチェック結果データをチェック結果表23に登
録し、特定したチェック条件が、漢字といったような特
定の文字種を持っているか否かのチェックを表している
場合にあって、特定した文書内容がこの特定の文字種を
持っている場合には、図10に示すようなチェック結果
データをチェック結果表23に登録し、特定したチェッ
ク条件が、文字列長が上限値を超えるか否かのチェック
を表している場合にあって、特定した文書内容の長さが
この上限値を超える場合には、図11に示すようなチェ
ック結果データをチェック結果表23に登録し、特定し
たチェック条件が、要素数が上限値を超えるか否かのチ
ェックを表している場合にあって、特定した文書内容の
要素数がこの上限値を超える場合には、図12に示すよ
うなチェック結果データをチェック結果表23に登録す
るのである。
【0027】続いて、ステップ7で、変数iの値を1つ
カウントアップし、続くステップ8で、変数iの値が文
書構造表22の全エントリーの処理終了を表示している
か否かを判断して、処理終了を表示しているときには、
全処理を終了し、処理終了を表示していないときには、
ステップ4に戻っていく。
【0028】このようにして、誤り検出プログラム20
は、図5の処理フローを実行することで、処理対象とな
る構造化文書の持つ誤りを検出して、その誤り情報をチ
ェック結果表23に登録していくのである。
【0029】一方、誤り作成プログラム24は、誤り検
出プログラム20によりチェック結果表23が作成され
ると、図6の処理フローに示すように、先ず最初に、ス
テップ1で、変数iに“1”をセットし、続くステップ
2で、チェック結果表23のi番目エントリーの持つ要
素ID/チェックID/補助情報を特定する。
【0030】続いて、ステップ3で、特定した要素ID
の指す文書構造表22の文書内容と、文書構造表22が
管理するそれの上位構成要素の文書内容とを特定する。
続いて、ステップ4で、それらの特定した文書内容を、
誤り内容情報の一覧を管理する表(以下、誤り内容表と
称する)の持つ誤り箇所情報のエントリー欄に登録する
とともに、この文書内容の登録の際に、特定した補助情
報が指すその文書内容中の誤り箇所に下線を付加する。
【0031】続いて、ステップ5で、特定したチェック
IDの指すチェック項目表21の修正方法を特定する。
ここで、修正方法がチェック項目表21に登録されてい
ないときには、以下に説明するステップ6の処理を省略
してステップ7に進むことになる。続いて、ステップ6
で、その特定した修正方法を、誤り内容表の持つ指針情
報のエントリー欄に登録する。
【0032】続いて、ステップ7で、変数iの値を1つ
カウントアップし、続くステップ8で、変数iの値がチ
ェック結果表23の全エントリーの処理終了を表示して
いるか否かを判断して、処理終了を表示しているときに
は、ステップ9に進んで、作成した誤り内容表を出力文
書ファイル3に出力し、一方、処理終了を表示していな
いときには、ステップ2に戻っていく。
【0033】このようにして、誤り作成プログラム24
は、図6の処理フローを実行することで、図13に示す
ように、処理対象となる構造化文書の持つ誤りの箇所
と、それに対する指針との一覧を管理する誤り内容表を
作成していくのである。
【0034】一方、誤り修正プログラム25は、誤り検
出プログラム20によりチェック結果表23が作成され
ると、図7の処理フローに示すように、先ず最初に、ス
テップ1で、変数iに“1”をセットし、続くステップ
2で、チェック結果表23のi番目エントリーの持つ要
素ID/チェックID/補助情報を特定する。
【0035】続いて、ステップ3で、特定した要素ID
の指す文書構造表22の文書内容を特定し、続くステッ
プ4で、特定したチェックIDの指すチェック項目表2
1の修正方法を特定する。ここで、修正方法がチェック
項目表21に登録されていないときには、以下に説明す
るステップ5の処理を省略してステップ6に進むことに
なる。続いて、ステップ5で、特定した補助情報が指す
その特定した文書内容中の誤り部分を、特定した修正方
法に従って修正する。
【0036】続いて、ステップ6で、変数iの値を1つ
カウントアップし、続くステップ7で、変数iの値がチ
ェック結果表23の全エントリーの処理終了を表示して
いるか否かを判断して、処理終了を表示しているときに
は、ステップ8に進んで、以上の処理により修正の完了
した構造化文書を出力文書ファイル3に出力し、一方、
処理終了を表示していないときには、ステップ2に戻っ
ていく。
【0037】このようにして、誤り修正プログラム25
は、図7の処理フローを実行することで、図14に示す
ように、処理対象となる構造化文書の持つ誤りを修正し
ていくのである。
【0038】すなわち、誤り作成プログラム24は、図
15(a)に示すように、処理対象となる構造化文書の
持つ誤りの箇所と、それに対する指針との一覧を管理す
る誤り内容表を作成し、誤り修正プログラム25は、図
15(b)に示すように、処理対象となる構造化文書の
持つ誤りを修正していく処理を行うものである。
【0039】
【発明の効果】以上説明したように、本発明によれば、
文書内容が文書の構成要素識別子と対応付けて記述され
る構造化文書を処理対象として、その構造化文書の持つ
誤りを文書構造を考慮しつつ校正できるようになる。
【0040】これから、任意の構成要素に限定した校正
を実行できることになって、従来のように文書全体の誤
りを検出してしまうこともなく、効率的な校正を実現で
きることになる。しかも、自動的に修正可能な誤りにつ
いては、自動的に修正できるようになるし、自動的に修
正不可能な誤りについては、誤り箇所を明示することで
ユーザが容易に誤りを修正できるようになる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】チェック項目表の一実施例である。
【図4】構造化文書の一例である。
【図5】誤り検出プログラムの実行する処理フローの一
実施例である。
【図6】誤り作成プログラムの実行する処理フローの一
実施例である。
【図7】誤り修正プログラムの実行する処理フローの一
実施例である。
【図8】文書構造表の説明図である。
【図9】チェック結果表の作成処理の説明図である。
【図10】チェック結果表の作成処理の説明図である。
【図11】チェック結果表の作成処理の説明図である。
【図12】チェック結果表の作成処理の説明図である。
【図13】誤り作成プログラムの実行処理の説明図であ
る。
【図14】誤り修正プログラムの実行処理の説明図であ
る。
【図15】誤り作成プログラムと誤り修正プログラムの
実行処理の説明図である。
【図16】構造化文書の一例である。
【符号の説明】
1 構造化文書処理装置 2 入力文書ファイル 3 出力文書ファイル 10 読出部 11 管理部 12 解析部 13 検出部 14 作成部 15 修正部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書内容が文書の構成要素識別子と対応
    付けて記述される構造化文書を処理する構造化文書処理
    装置において、 構成要素識別子をキーにして、誤りとなる文書条件を管
    理する管理部と、 処理対象となる構造化文書の持つ構成要素識別子と、該
    構成要素識別子に対応付けられる文書内容とを抽出する
    解析部と、 上記解析部の抽出する文書内容が、該文書内容と対をな
    す構成要素識別子の指す上記管理部の誤り文書条件に該
    当するか否かをチェックすることで、処理対象となる構
    造化文書の持つ誤りを検出する検出部とを備えること
    を、 特徴とする構造化文書処理装置。
  2. 【請求項2】 請求項1記載の構造化文書処理装置にお
    いて、 管理部は、特定の文字列、特定の文字種、文書内容の長
    さ、文書内容の要素数の一部又は全てを誤り文書条件と
    して管理するよう構成されることを、 特徴とする構造化文書処理装置。
  3. 【請求項3】 請求項1又は2記載の構造化文書処理装
    置において、 検出部の検出結果に従って、処理対象となる構造化文書
    の持つ誤り内容の一覧を作成する作成部を備えること
    を、 特徴とする構造化文書処理装置。
  4. 【請求項4】 請求項3記載の構造化文書処理装置にお
    いて、 作成部は、誤り内容の一覧を上位構成要素識別子の持つ
    文書内容と対応を付けつつ作成するよう処理すること
    を、 特徴とする構造化文書処理装置。
  5. 【請求項5】 請求項3又は4記載の構造化文書処理装
    置において、 管理部は、誤り文書条件に該当する文書内容についての
    修正内容を管理するとともに、 作成部は、誤り内容の一覧を上記修正内容と対応を付け
    つつ作成するよう処理することを、 特徴とする構造化文書処理装置。
  6. 【請求項6】 請求項1又は2記載の構造化文書処理装
    置において、 管理部は、誤り文書条件に該当する文書内容についての
    修正内容を管理するとともに、 検出部の検出する構造化文書の持つ誤りを上記修正内容
    に変更する修正部を備えることを、 特徴とする構造化文書処理装置。
JP6147371A 1994-06-29 1994-06-29 構造化文書処理装置 Pending JPH0816589A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6147371A JPH0816589A (ja) 1994-06-29 1994-06-29 構造化文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6147371A JPH0816589A (ja) 1994-06-29 1994-06-29 構造化文書処理装置

Publications (1)

Publication Number Publication Date
JPH0816589A true JPH0816589A (ja) 1996-01-19

Family

ID=15428724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6147371A Pending JPH0816589A (ja) 1994-06-29 1994-06-29 構造化文書処理装置

Country Status (1)

Country Link
JP (1) JPH0816589A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122661A (ja) * 2005-10-31 2007-05-17 Toshiba Corp 文書データ処理装置および文書データ処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122661A (ja) * 2005-10-31 2007-05-17 Toshiba Corp 文書データ処理装置および文書データ処理プログラム

Similar Documents

Publication Publication Date Title
US20080212901A1 (en) System and Method for Correcting Low Confidence Characters From an OCR Engine With an HTML Web Form
JP2002099428A (ja) ハッシュコンパクトxmlパーサ
JPH0816589A (ja) 構造化文書処理装置
JP2016057715A (ja) 図形式プログラム解析装置
JPH11296366A (ja) エラー検出装置及びエラー検出方法及び記録媒体
JP3966086B2 (ja) 文書処理装置および方法
JP3484446B2 (ja) 光学文字認識装置
JP2004234402A (ja) Web画面作成ツール及び用語チェックツール
JP3608864B2 (ja) 組版方法及び装置
JP2974295B2 (ja) 日本語入力システム
JP3591109B2 (ja) キーワード設定装置
JPH044467A (ja) 文書構造解析装置
JP2776069B2 (ja) 文章検査装置
JPH09138835A (ja) 文字認識装置
JP2629604B2 (ja) 管理簿作成装置
JPH07225763A (ja) 文書処理装置
JP3236868B2 (ja) 文書処理装置
JP3387582B2 (ja) 文字処理装置
JP2003316376A (ja) 未知語登録装置および未知語登録方法
JP3081622B2 (ja) 電話番号定型化装置及び電話番号定型化方法
JP3477308B2 (ja) 機械翻訳装置
JP2008262330A (ja) プログラム誤修正検知方法および装置
JP2004110483A (ja) 文書診断プログラム及び文書診断方法
JPH07319878A (ja) 機械翻訳装置
JPH05314303A (ja) 誤読文字修正方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040308

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040312

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040514