JPH02255964A - 文書変更部分の自動識別装置 - Google Patents

文書変更部分の自動識別装置

Info

Publication number
JPH02255964A
JPH02255964A JP1013525A JP1352589A JPH02255964A JP H02255964 A JPH02255964 A JP H02255964A JP 1013525 A JP1013525 A JP 1013525A JP 1352589 A JP1352589 A JP 1352589A JP H02255964 A JPH02255964 A JP H02255964A
Authority
JP
Japan
Prior art keywords
document
changed
documents
old
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1013525A
Other languages
English (en)
Inventor
Tsuneaki Kobayashi
小林 経明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Sumitomo Metal Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Metal Industries Ltd filed Critical Sumitomo Metal Industries Ltd
Priority to JP1013525A priority Critical patent/JPH02255964A/ja
Publication of JPH02255964A publication Critical patent/JPH02255964A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、OA機器の一種である文書変更部分の自動識
別装置、詳述すれば、類似する二つの文書情報を読取り
、それらの文書情報同士を比較して、変更部分を確実に
探し出すための文書変更部分の読取装置に関するもので
ある。
(従来の技術) 例えば、各種規格(JIS、 APl、 ASTMなど
)は数年ごとに改正される。かかる工業規格の改正の場
合、従来は変更部分を人手による目視で判別してその変
更に対処していた。この点は法規、学術書、小説、その
他の文書の改正または改訂についても同様である。
しかしこういった人手による方法には膨大な工数(約3
0分/^4ページ)に加え、その変更部分の判別精度の
信頼性に問題があった。
この問題に対応すべく、近年では入力された新旧の文書
情報を光学的に読取って記憶装置に記憶し、指定された
ページ内の行単位に新旧情報を比較し、等しくない部分
があれば、その部分を変更部分とみなしてCR7画面上
に表示し、またはプリンターにリスト出力を行う自動識
別装置が開発された。この装置により人手による工数は
大幅に削減され(2秒/A4ページ)、かつ判別精度も
かなり向上することができた。
(発明が解決しようとする課題) しかしながら、現在市販の上記識別装置は指定されたペ
ージ内の行単位でのみの比較しか行わないので、新旧二
つの文書の同一ページの同じ行を記憶装置から引き出し
て比較し1文字でも相違すれば、新旧のその行をCRT
に表示するかプリンターに出力するために、どの個所が
変更されたかは人間が目視判別しなければならない、い
い換えると新旧の文書の一致した行だけは表示または出
力しない識別装置である。
また現在の自動識別装置は新旧2文書の同一ページ、同
一行の比較を行っているが、改正・改訂による語句□の
追加、削除、修正によっては新旧2文書の対応個所が同
一行、場合によっては同一ページにあるとは限らない。
現在のところ、まだ計算機ソフlに人間の判断力を完全
に与えることは成功していないので、新旧2文書が大幅
に改正・改訂されると機械では両者の対応個所を発見で
きない場合もある。
かくして、本発明の目的は、従来の人手による判別をも
一段と自動化して新旧2文書の変更個所のみを表示また
は出力することが、また必要により同時に新旧2文書の
変更部分のページ、行数(第何行)をも表示または出力
することができる自動識別装置を提供することである。
さらに本発明の目的は、新旧二つの文書の対応箇所が同
一頁にない場合であっても、対応個所を自動的に索引し
て変更部分を見出して、両文書のその変更部分のページ
、行数を表示することができる自動識別装置を提供する
ことである。
(課題を解決するための手段) ここに、本発明は、文書を光学的に読取る文書読取装置
と、読取った文書情報を記憶する記憶装置と、記憶され
た二つの類似の文書情報同士を、あらかじめ与えられた
比較モードに基いて、句読点ごと、行単位、単語単位、
そして文字単位ごとに比較を行い、等しくない文書部分
を出力する比較装置とを備えたことを特徴とする、文書
変更部分の自動識別装置である。
本発明の好適態様によれば、前記記憶装置に記憶された
文書情報のうち、比較すべき比較範囲を任意に変更する
比較範囲指定機能をさらに備えることによって、新旧二
つの文書が大幅に改訂、改正された場合であっても両者
の対応箇所を容易に見出すことができる。
このように、本発明によれば、光学的読取装置(例えば
、解像度:400dpi)で読取り、記憶した新旧文書
を指定ページ(例えば、nページからmページまで)内
で句読点ごと、行単位、単語単位、文字単位ごと等のい
ずれかの比較モードに基づいて比較を行い、変更部分を
判別してその変更部分のみをCRTに表示またはプリン
ターに出力する。
この際ページ数、行数(第何行)を併記する。
この文書変更部分の自動識別装置によって膨大な文書情
報のうちから正確に変更部分を見出すことが可能になる
さらに識別速度向上のために本発明ではページ内での比
較範囲をオペレーターに指定させ、その指定されたウィ
ンドウ内のみで上記の変更部分を識別させる機能をも備
えるように構成してもよく、それは例えば、規格の例で
いえば、数表のみを指定する場合がこれに当たる。
(作用) 次に、添付図面を参照して、本発明の装置の詳細につい
て具体的に説明する。
第1図は、本発明にかかる文書変更部分の自動識別装置
のブロック図である。第1図に示すこの原理図に基づい
て各部の詳細を説明する。
(1)変更前の旧文書はあらかじめ光学的読取装置(解
像度400 dpi (dot per 1nch) 
)にて読取られ、文字、記号の情報として記憶装置に記
憶される(記t!装置の容量:フロッピー1枚でA4約
4000ページ分)0文字としてはローマ字、ギリシャ
文字、数字、漢字、カタカナ、ひらがな、表を含み、記
号には文章記号、数学記号、罫線記号等を含む。
(2)変更後の断交書も旧文書と同様に処理して記憶さ
れる。印字書体(ゴシック、イタリック等)や文字倍率
(活字号数)が異っても文字変換処理を行うので文書の
変更とは認めない。
(3)上記(1)、(2)の読取りにおいて文書の汚れ
、コピー濃度不良、読取装置のセンサー不良等により正
しく読取れない場合がある。この場合にはCRT上にエ
ラー箇所を表示するので、オペレーターが文書を目視し
てCRTキーボードより修正入力を行う。
なお、この修正入力は(5)に述べる比較処理を行った
のちでも再修正可能である。
(4)比較モードの指定を、必要により文書の句読点ご
と、行単位、単語単位そして文字単位で行うよう、指定
をCRTキーボードより行う、この指定は能率よく変更
部分を確認する目的で設けられたもので、本発明に従い
特に句読点ごとの比較を行うことにより、行単位だけの
比較を行う現用の自動識別装置に対して、文章単位で新
旧文書の変更箇所を識別できるようになった。
(5)指定された比較モードに基づき、下記要領で指定
ページ内の新旧文書の変更部分を判別する。
■句読点ごとの指定の場合、「、又は、」(ピリオド)
、「、または、」(コンマ)別に文書を区分シ、「コン
マ」〜「コンマ」間(一方カヒリオドの場合を含む)、
「ピリオド」〜「ピリオド」間の範囲で比較を行う。
■行単位ごとの指定の場合、単純に同じ行同士の文章が
等しいか否かを判断する。
■単語単位(欧文)ごとの指定の場合、文字間にスペー
スまたは句読点があるまでの間の文字ごとを比較して等
しいか否かを判断する。
■文字単位ごとの指定の場合、単純に1文字ごとに新旧
文書の同一個所の文字の異同を判別する。
本項において注意すべきことは、2行にまたがる単語は
当然最初の行とみなして連続した情報として処理するこ
とである。
なお、この比較モードの指定は、句読点ごとにまず行い
、その句読点の範囲内で、行単位、単語単位、そして文
字単位で比較を行なうのが好ましい。
(6)1ページ内の指定されたウィンドウ内のみで新旧
文書の変更個所の識別を行うこともできる。
これは第2図に示すように、比較範囲指定(ウィンドウ
)をX−Y座標軸で表示し、新旧2文書について開始点
(x+、y+)から終了点(×□、yt)まで、図中斜
線部のみを光学的に読取り記憶装置に記憶する。このよ
うな指定は、たとえば規格の表中の数値のみが変更され
たことが既知である場合などに便利である。
また1ページが第3図に例示するように2欄以上からな
る場合にも、図中の左上欄をウィンドウとして開始点(
x+、y+)および終了点(Xt、yi)とすれば比較
順序を指定するのに利用できる。
(7)変更部分の表示方法 (1)新旧文書の変更部分にアンダーラインを引く (ii)上記の箇所に斜線をかぶせる ( iii )変更部分のみを別の用紙にプリントする
これらのいずれか一つを指定する。この表示方法は上述
の3つの方法に限らず、変更部分が目視で識別できれば
、他のいずれの方法でも構わない。
次に、以上の点をさらに具体的に説明するために、旧文
書の一部に加入、削除の行われた場合を例にとって、本
発明を説明する。
■二重 本例は以下に図表的に示すように旧文書の中にrXYJ
を追加して断交書とした場合である。
(旧) (旧)ABCD△EFG△HI JKL△MNOP・(
注)Δニスペース 従来の自動識別装置を使用した場合、上記例では、rX
YJが追加されただけなのに、行単位で比較が行われる
だけであるため、結果としでそれ以降すべてが変更部分
とされてしまう。
つまり、単語や文字が文中に追加、あるいは削除された
場合、それ以降は全く変更が無い場合でも単純に比較を
行うと、文書情報位置がズレるためにそれ以降の部分は
全て変更があったと判別されてしまう。そこで、本発明
にあっては句読点ごとに比較を行い、単語、文字をもっ
て不一致点を特定するのである。
すなわち、本発明によれば、このような不具合をなくす
ために、次のような情報処理を行う。
単語毎に新旧情報を比較し、異なる単語、つまり、rX
YJがあった場合、その部分を起点として、まず、異な
る単語のうち旧情報の単語例えば「ΔEFGJが不一致
点以降の新情報の後方に存在すれば、その間の新情報、
つまりrXYJは「新たに追加された情報」として判断
し、それを変更部分として扱い、次にその間を飛ばして
新旧情報の比較を逐次行う。
■二1 本例は以下に図表的に示すように旧文書の中のrXYJ
を削除して断交書とした場合である。
(新)ABCDΔEFG△HI J K・・・・(注)
Δニスペース 従来の自動識別装置ではΔEFG以降が変更部分として
判断されてしまう。
しかし、本発明では上述の例のように文章の柊り(「、
又は。」が来るまで)までサーチしても例1の処理にて
一致する単語、つまりrXYJが存在しない場合は、逆
に新情報側の不一致部分の単語、つまり「ΔEFGJが
、旧情報側の不一致部分以降に存在するかサーチを行い
、存在すれば、その間の旧情報rXYJは「削除された
情報」として判断し、それを変更部分として扱い、次に
その間の旧情報を飛ばして、新旧情報の比較を逐次継続
する。
班ニュ 以上の両者の処理を1つの文章内で行っても一致部分が
存在しない場合、はじめて新旧情報の両者の単語を変更
部分として判断する。
(発明の効果) 規格文書で比較した場合、新(改正)旧(改正前)の規
格変更箇所を最初からの人手による目視ではA4版1ペ
ージ30分かかったものが、本発明にかかる自動識別装
置では2秒で完了した。しかも、従来の自動識別装置と
比較して目視による判別は不要となることから、このよ
うな実質的な所要時間はむしろ文書セントの時間だけと
もいえる。
【図面の簡単な説明】
第1図は、本発明にかかる文書変更部分の自動識別装置
の概略ブロック図; 第2図は、比較範囲を1ページの一部に限定する指定を
例示する説明図;および 第3図は、1ページの文書が複数個に分割して記述され
た一例を示す説明図である。 第1図

Claims (2)

    【特許請求の範囲】
  1. (1)文書を光学的に読取る文書読取装置と、読取った
    文書情報を記憶する記憶装置と、記憶された二つの類似
    の文書情報同士を、あらかじめ与えられた比較モードに
    基いて、句読点ごと、行単位、単語単位、そして文字単
    位ごとに比較を行い、等しくない文書部分を出力する比
    較装置とを備えたことを特徴とする、文書変更部分の自
    動識別装置。
  2. (2)前記記憶装置に記憶された文書情報のうち、比較
    すべき比較範囲を任意に変更する比較範囲指定機能をさ
    らに備えたことを特徴とする請求項1記載の記載の文書
    変更部分の自動識別装置。
JP1013525A 1989-01-23 1989-01-23 文書変更部分の自動識別装置 Pending JPH02255964A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1013525A JPH02255964A (ja) 1989-01-23 1989-01-23 文書変更部分の自動識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1013525A JPH02255964A (ja) 1989-01-23 1989-01-23 文書変更部分の自動識別装置

Publications (1)

Publication Number Publication Date
JPH02255964A true JPH02255964A (ja) 1990-10-16

Family

ID=11835571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1013525A Pending JPH02255964A (ja) 1989-01-23 1989-01-23 文書変更部分の自動識別装置

Country Status (1)

Country Link
JP (1) JPH02255964A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282040A (ja) * 1994-04-13 1995-10-27 Nec Commun Syst Ltd 日本語情報圧縮方式
WO1995034039A1 (fr) * 1994-06-02 1995-12-14 Hitachi, Ltd. Procede et appareil permettant l'extraction de chaines de caracteres qui different entre des documents
JPH0944494A (ja) * 1995-07-27 1997-02-14 Nec Off Syst Ltd 原稿校正装置
US5956726A (en) * 1995-06-05 1999-09-21 Hitachi, Ltd. Method and apparatus for structured document difference string extraction
JP2007041996A (ja) * 2005-08-05 2007-02-15 Fuji Xerox Co Ltd 文書管理システム、文書管理方法及び文書管理プログラム
KR100764366B1 (ko) * 2005-03-23 2007-10-08 캐논 가부시끼가이샤 인쇄 장치, 화상 처리 장치, 및 그 제어 방법
JP2014182789A (ja) * 2013-03-15 2014-09-29 Fuji Xerox Co Ltd ドキュメントを編集する装置、方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282040A (ja) * 1994-04-13 1995-10-27 Nec Commun Syst Ltd 日本語情報圧縮方式
WO1995034039A1 (fr) * 1994-06-02 1995-12-14 Hitachi, Ltd. Procede et appareil permettant l'extraction de chaines de caracteres qui different entre des documents
US5956726A (en) * 1995-06-05 1999-09-21 Hitachi, Ltd. Method and apparatus for structured document difference string extraction
JPH0944494A (ja) * 1995-07-27 1997-02-14 Nec Off Syst Ltd 原稿校正装置
KR100764366B1 (ko) * 2005-03-23 2007-10-08 캐논 가부시끼가이샤 인쇄 장치, 화상 처리 장치, 및 그 제어 방법
JP2007041996A (ja) * 2005-08-05 2007-02-15 Fuji Xerox Co Ltd 文書管理システム、文書管理方法及び文書管理プログラム
JP2014182789A (ja) * 2013-03-15 2014-09-29 Fuji Xerox Co Ltd ドキュメントを編集する装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US8379027B2 (en) Rendering engine test system
EP0093250A2 (en) Automatic text grade level analyser for a text processing system
US4677585A (en) Method for obtaining common mode information and common field attribute information for a plurality of card images
JPH02255964A (ja) 文書変更部分の自動識別装置
US6958755B1 (en) Personalized computer fonts
KR100351584B1 (ko) 한자의 일자대조에 의한 교정 시스템
JP2740575B2 (ja) 文字処理装置
JP3958722B2 (ja) イメージデータ文書検索システム
JP3457376B2 (ja) 光学式読み取り装置における文字修正方法
JPH0388086A (ja) 文書読取装置
JPH10123924A (ja) 暗記学習支援装置及び暗記学習支援装置制御プログラムを記憶した媒体
JP2795930B2 (ja) 文書作成支援装置
JP2856752B2 (ja) 文字認識結果修正方法
JPH0696272A (ja) 帳票フォーマット定義体作成装置
JPH06223221A (ja) 文字認識装置
JP2682873B2 (ja) 表形式文書の認識装置
JPH01292586A (ja) 文字認識支援装置
JPH04293185A (ja) ファイリング装置
JP2889052B2 (ja) 文字書体処理方法および装置
JP2001307020A (ja) 文字認識装置
JPH10134120A (ja) 表処理方法および表処理装置
KR20050044743A (ko) 전자화문서의 편집프로그램
EP0428713A1 (en) Method and apparatus for identifying unrecognizable characters in optical character recognition machines
Hubert Training Tesseract 3.0 x for a New Language: A Practical Manual
JPH02135568A (ja) 情報処理装置の文字モードおよびフォントモード設定方式