JPH07225761A - 文書データの一致検証方式 - Google Patents

文書データの一致検証方式

Info

Publication number
JPH07225761A
JPH07225761A JP6014610A JP1461094A JPH07225761A JP H07225761 A JPH07225761 A JP H07225761A JP 6014610 A JP6014610 A JP 6014610A JP 1461094 A JP1461094 A JP 1461094A JP H07225761 A JPH07225761 A JP H07225761A
Authority
JP
Japan
Prior art keywords
record
document data
document
paragraph
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6014610A
Other languages
English (en)
Inventor
Takaharu Hatsutori
宇春 服部
Tsunekichi Ikezawa
常吉 池沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6014610A priority Critical patent/JPH07225761A/ja
Publication of JPH07225761A publication Critical patent/JPH07225761A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書データの一致検証方式に関し、新旧ビジ
ネス文書を意味のある文単位あるいは段落単位で比較
し、新旧文書間における変更点のチェック作業を従来よ
りも容易かつ効率的に行う。 【構成】 更新前の比較基準文書Aおよび更新後の比較
対象文書Bを構成するすべての“文”の文特性コードを
算出して文特性表を生成し、さらに、この文特性表に基
づいて両文書を構成するすべての“段落”の段落特性コ
ードを算出して段落特性表を生成する。そして、文特性
コードおよび段落特性コードの一致検証を行うことによ
り、比較基準文書Aおよび比較対象文書Bを意味のある
文単位あるいは段落単位で比較して、追加,削除,変更
のあった“文”および“段落”を明確化する。以上によ
り、比較基準文書Aおよび比較対象文書Bにおける変更
点のチェック作業を従来よりも容易かつ効率的に行うこ
とができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書データの一致検証方
式に係り、特に、新旧文書間における変更箇所の特定を
行う文書データの一致検証方式に関する。
【0002】
【従来の技術】従来、ユーザが作成した文書について、
その形式的な記述(送り仮名,一文の長さなど)や表現
の分かり易さの検証を行う機能を有するワープロが提供
されている(例えば、日立製作所製の“WordPa
l”など)。この場合、上記従来技術による検証は単独
の文書について行われるものであり、その目的は一定の
基準によって文書の評価を行うことにあった。
【0003】
【発明が解決しようとする課題】近年、様々なビジネス
文書はワープロなどを用いて作成されるのが一般的とな
っている。そこで、以前に作成および保存されていた旧
バージョンのビジネス文書を書き換えて、目的とする新
バージョンのビジネス文書を効率的に作成することが容
易にできる。しかしながら、新バージョンのビジネス文
書の内容の妥当性については、人手によって直接チェッ
ク作業を行わなければならない。このため、特に長大な
ビジネス文書では、文書の作成よりも上記チェック作業
の方に多大な労力と時間が必要となってしまうという問
題点があった。
【0004】上記チェック作業を最小限に抑えるには、
何らかの比較ツールを用いてあらかじめ新旧ビジネス文
書の一致検証を行い、互いに一致しない箇所についての
み、人手による上記チェック作業を行うのがよいが、プ
ログラム言語などと異なり、ビジネス文書の場合の比較
では文字のみの比較を行ってもほとんど意味がない。ま
た、上記従来技術による検証では、文単位あるいは段落
単位で文書を評価できるものの、複数の文書を相互に比
較する機能を有していないため、上記チェック作業の軽
減を図ることはできないという問題点があった。
【0005】したがって本発明の目的は、上記の問題点
を解決して、新旧ビジネス文書を文単位あるいは段落単
位で高速に比較検証することを可能として、新旧文書間
における変更点のチェック作業を従来よりも容易かつ効
率的に行うことのできる文書データの一致検証方式を提
供することにある。
【0006】
【課題を解決するための手段】最初に、本発明にいう
“レコード”の概念について定義する。すなわち、“レ
コード”とは、複数の文字から構成された意味のあるま
とまりのことであり、具体的には“単語”,“文節”,
“文”,“段落”,“章”などがこれに相当するものと
する。
【0007】(1) 上記の目的を達成するため、本発明の
文書データの一致検証方式は、連続的に入力される文字
列からなる文書データをまとまった意味を表わすレコー
ド単位に区分することにより、前記文書データを構成す
る複数のレコードを認識するレコード認識手段と、複数
の文書データにそれぞれ含まれるレコードの一致検証を
行うレコード比較手段とを具備したものである。
【0008】(2) また、(1)の構成において、前記レコー
ドを特徴づける特性コードの算出を行う特性コード算出
手段と、前記特性コードを用いて複数の文書データにそ
れぞれ含まれるレコードの一致検証を行うレコード比較
手段とを具備したものである。
【0009】(3) また、(2)の構成において、前記レコー
ドの各々から算出された一以上の前記特性コードを含む
前記文書データの特性表を生成する特性表生成手段と、
互いに類似する第1および第2の文書データの特性表の
内容を比較することにより、前記第1および第2の文書
データの間の変更点の抽出を行うレコード変更点抽出手
段とを具備したものである。
【0010】
【作用】上記構成に基づく作用を説明する。
【0011】(1) 本発明の文書データの一致検証方式で
は、連続的に入力される文字列からなる文書データをま
とまった意味を表わすレコード単位に区分することによ
り、前記文書データを構成する複数のレコードを認識す
るレコード認識手段と、複数の文書データにそれぞれ含
まれるレコードの一致検証を行うレコード比較手段とを
具備したため、比較しようとするビジネス文書を意味の
あるレコード(例えば“単語”,“文節”,“文”,
“段落”,“章”など)の単位で一致検証することがで
きる。
【0012】(2) また、(1)の構成において、前記レコー
ドを特徴づける特性コードの算出を行う特性コード算出
手段と、前記特性コードを用いて複数の文書データにそ
れぞれ含まれるレコードの一致検証を行うレコード比較
手段とを具備したため、上記レコード単位での一致検証
をさらに容易かつ高速に行うことができる。
【0013】(3) また、(2)の構成において、前記レコー
ドの各々から算出された一以上の前記特性コードを含む
前記文書データの特性表を生成する特性表生成手段と、
互いに類似する第1および第2の文書データの特性表の
内容を比較することにより、前記第1および第2の文書
データの間の変更点の抽出を行うレコード変更点抽出手
段とを具備したため、例えば、旧文書中の“章”構成に
対して新文書中の“章”構成はどのように変更されてい
るか、あるいは、元の“段落”に対して新たな“段落”
中に追加または削除された“文”はどれか、などを明確
化し、これに基づいて文書データの変更点のチェック作
業を従来よりも容易かつ効率的に行うことができる。
【0014】
【実施例】以下、本発明の文書データの一致検証方式の
一実施例を図面を用いて詳細に説明する。
【0015】図1は、本発明の文書データの一致検証方
式を実現するためのシステム構成の一実施例を示す図で
ある。同図中、本発明の文書データの一致検証方式を実
現する一致検証プログラムは、プログラムライブラリ1
4からロードされる。旧文書データである比較基準文書
A17および新文書データである比較対象文書B18
は、文書保管用ディスク13から主記憶装置19にロー
ドされる。一致検証プログラムに対する一致検証開始の
指示はキーボード12から投入される。また、一致検証
プログラムからのメッセージは表示装置11に表示出力
され、最終的な一致検証の結果はプリンタ10に出力さ
れる。
【0016】本発明においては、連続的に入力される文
字列からなる文書データを、レコード認識手段がまとま
った意味を表わすレコード単位に区分することにより、
文書データを構成する複数のレコードの認識を行う。こ
の認識は、文書データ中に含まれる所定の区分文字列を
識別することによって行う。なお、“レコード”とは、
例えば“単語”,“文節”,“文”,“段落”,“章”
など、文字列で構成された意味のあるまとまりのことで
ある。また、“文書データ”は、複数の“レコード”で
構成されているものとする。
【0017】図2は、本発明の文書データの一致検証方
式における“文”の単位の一例を示す図である。同図
中、“空白文字”以外の文字で始まり、句点“。”で終
わる文字列をひとつの“文”と認識する。この場合“空
白文字”とは、文書データ中に文字コードとして含まれ
ているが、人が文章を読んでその意味を理解しようとす
るときに見ることのできない文字コードのことであり、
例えば“スペース”(図中では“△”)や、“改行コー
ド”(図中では“NL”),“改ページコード”などの
制御文字がこれに相当する。本実施例は、文書は人が読
んで理解するためのものであるという立場から、“空白
文字”をすべて読み飛ばして、人間が理解可能な文字列
のみを一致検証の対象とする。
【0018】図3は、本発明の文書データの一致検証方
式における“段落”の単位の一例を示す図である。一般
的には一つの主題を中心に書かれた“文”の集合が“段
落”であるが、本実施例においては2種類の形式の“段
落”のみを定義する。すなわち、図3(1)において、
“改行コード”に続いて一以上の“空白文字”があった
とき、これを“段落”と認識する。また、図3(2)に
おいて、“改行コード”,“(”,3桁までの数
字,“)”が続いたとき、これを“段落”と認識する。
【0019】次に、特性コードおよび特性コードを用い
たレコードの一致検証の概念について説明する。
【0020】文書データを構成する文字の各々は、通常
は1〜2バイトの内部コードによって表わされている。
本実施例では、各々のレコードを構成するすべての文字
について、先頭から順に各々の文字の内部コードの排他
的論理和を演算して最終的に得られた値を、当該レコー
ドを特徴づける特性コードと定義する(対象とする文書
データが日本語であった場合には、2バイトコード単位
で排他的論理和の演算を行う。)。例えば、“文”を特
徴づける文特性コードは、“文”を構成するすべての文
字について、先頭から順に各々の文字の内部コードの排
他的論理和を演算することで求められる。また、文書デ
ータ(あるいはその一部)を構成するすべてのレコード
について、先頭から順に各々のレコードを特徴づける特
性コードの排他的論理和を演算して最終的に得られた値
を、当該文書データ(あるいはその一部)を特徴づける
特性コードと定義する。例えば、“段落”を特徴づける
段落特性コードは、“段落”を構成するすべての“文”
について、先頭から順に各々の文特性コードの排他的論
理和を演算することで求められる。この場合、内部コー
ドとして文字コードそのものを使うと、全く異なるレコ
ードにもかかわらず同一の特性コードが求められるとい
う、シノニムが発生する確率が高くなってしまうので、
本実施例では文字コードに乱数を乗算して得られる数値
の低位のけた数バイト(例えば4バイト)を内部コード
として用いることにより、シノニムの発生確率の低減を
図っている。
【0021】図4は、本発明の文書データの一致検証方
式の一実施例の概要を示す図である。同図中、ボックス
番号[1]において、比較基準文書Aの中のすべての
“文”について“文”に含まれる文字間で排他的論理和
を演算して、後述する文特性表を生成する。同様に、ボ
ックス番号[2]において、比較対象文書Bの中のすべて
の“文”について“文”に含まれる文字間で排他的論理
和を演算して、後述する文特性表を生成する。ボックス
番号[3]において、比較基準文書Aの中のすべての“段
落”について“段落”に含まれる“文”を特徴づける特
性コード(ボックス番号[1]で算出済)の間で排他的論
理和を演算して、後述する段落特性表を生成する。同様
に、ボックス番号[4]において、比較対象文書Bの中の
すべての“段落”について“段落”に含まれる“文”を
特徴づける特性コード(ボックス番号[2]で算出済)の
間で排他的論理和を演算して、後述する段落特性表を生
成する。ボックス番号[5]において、比較対象文書Bの
中の“段落”について、比較基準文書Aに追加された
“段落”があるかを調べて、追加された“段落”を判断
できなかった場合には比較基準文書Aから削除された
“段落”があるかを調べて、削除された“段落”を判断
できなかった場合には変更された“段落”があると結論
づける。ボックス番号[6]において、追加,削除,変更
があったと判断された段落の内容をプリントする。
【0022】図5は、本発明の文書データの一致検証方
式における文特性表の一例を示す図であり、上述したボ
ックス番号[1]および[2]において生成される。同図
中、各々の“文”の特性データは、前述した“文”を特
徴づける特性コード(4バイト)によって表わされてお
り、文書データの先頭位置からの“文”の位置(文番
号)の順序にしたがって図1に示した文書比較処理用ワ
ークエリア15に連続的に格納される。
【0023】図6は、本発明の文書データの一致検証方
式における段落特性表の一例を示す図であり、上述した
ボックス番号[3]および[4]において生成される。同図
中、各々の“段落”の特性データは、当該“段落”を構
成する最初の“文”の文番号(2バイト),当該“段
落”を構成する最後の“文”の文番号(2バイト),前
述した“段落”を特徴づける特性コード(4バイト),
当該“段落”における変更点の種別を示す更新フラグ
(1バイト),更新フラグの内容が“U”(UPDATE)であ
ったときに比較された相手文書データの対応する段落番
号が格納される領域(4バイト)によって表わされてお
り、文書データの先頭位置からの“段落”の位置(段落
番号)の順序にしたがって図1に示した文書比較処理用
ワークエリア15に連続的に格納される。
【0024】図7は、図1に示した文特性表の生成(比
較基準文書A)の詳細を示す図であり、図4中のボック
ス番号[1]の処理に対応する。同図中、最初に比較基準
文書Aから1文字を読み出して(ボックス番号[1−
1])、その読み出し位置が文書の最後であるか否かを判
定して(ボックス番号[1−2])、最後であれば比較基準
文書Aに関する処理を終了する。文書の最後でなけれ
ば、読み出した1文字が“スペース”,“改行コー
ド”,“改ページコード”などの“空白文字”であるか
否かを判定して、“空白文字”であれば読み飛ばしてボ
ックス番号[1−1]へ戻り、“空白文字”でなければボッ
クス番号[1−4]以降の処理を行う(ボックス番号[1−
3])。ボックス番号[1−4]では、読み出した例えば2バ
イトの漢字コードに、前述したシノニムの発生を抑制す
るためのランダムファクタ(本実施例では“3F7B
H”)を乗算して4バイトの文特性コードを作り、続く
ボックス番号[1−5]で1文字前までに求められている文
特性コードとの排他的論理和を算出する。そして、現在
着目中の文字が“文”の終りを示す句点“。”であるか
否かを判定して、句点でなければボックス番号[1−1]へ
戻り、句点であればボックス番号[1−7]の処理を行う
(ボックス番号[1−6])。ボックス番号[1−7]では、今
処理を行った文特性コードを、文順序番号に対応して比
較基準文書Aの文特性コード表に格納する。
【0025】図8は、図1に示した文特性表の生成(比
較対象文書B)の詳細を示す図であり、図4中のボック
ス番号[2]の処理に対応する。この処理では、図7にお
ける“比較基準文書A”が“比較対象文書B”に入れ替
わったことを除き、処理過程は図7の場合と全く同一な
ので説明を省略する。
【0026】図9および図10は、図1に示した段落特
性表の生成(比較基準文書A)の詳細を示す図であり、
図4中のボックス番号[3]の処理に対応する。図9にお
いて、最初に比較基準文書Aから1文字を読み出して
(ボックス番号[3−1])、その読み出し位置が文書の最
後であるか否かを判定して(ボックス番号[3−2])、最
後であれば比較基準文書Aに関する処理を終了する。文
書の最後でなければ、読み出した文字が“文”の終りを
示す句点“。”であるか否かを判定して、句点でなけれ
ばボックス番号[3−1]へ戻り、句点であればボックス番
号[3−4]以降の処理を行う(ボックス番号[3−3])。ボ
ックス番号[3−4]で文順序番号に1を加えた後、同一の
“段落”内にある直前の“文”までに求められた段落特
性コード(このコードの値は、現在の“段落”内の直前
の文までのすべての文特性コードの排他的論理和の値で
ある。)と今読み出した“文”に対応する文特性コード
との排他的論理和を算出し、それを比較基準文書Aの段
落特性表に格納する(ボックス番号[3−5])。そして、
“段落”内で最も若い文順序番号を比較基準文書Aの段
落特性表に格納した後(ボックス番号[3−6])、次に読
み出される文字列が“段落”の区切りを示す2種類の文
字列(“改行コード”+“スペース”+文字,“改
行コード”+“(”+3桁までの数字+“)”)のいず
れかに相当するか否かを判定して、“段落”の区切りで
なければボックス番号[3−1]へ戻り、“段落”の区切り
であればボックス番号[3−8]以降の処理を行う(ボック
ス番号[3−7])。
【0027】図10において、ボックス番号[3−8]で現
在処理中の段落番号に相当する比較基準文書Aの段落特
性表のエントリに現在の(最後の)文順序番号を格納し
た後、段落特性表に処理中の段落の段落特性コードを退
避するとともに(ボックス番号[3−9])、段落番号に1
を加えて(ボックス番号[3-10])、ボックス番号[3−1]
へ戻る(ボックス番号[3-11])。
【0028】図11および図12は、図1に示した段落
特性表の生成(比較対象文書B)の詳細を示す図であ
り、図4中のボックス番号[4]の処理に対応する。この
処理では、図9および図10における“比較基準文書
A”が“比較対象文書B”に入れ替わったことを除き、
処理過程は図9および図10の場合と全く同一なので説
明を省略する。
【0029】図13〜15は図4中に示したボックス番
号[5]の処理を詳細に示す図であり、図13は追加され
た段落の判定の詳細を、図14は削除された段落の判定
の詳細を、図15は更新された段落の判定の詳細を、そ
れぞれ示す。
【0030】“文”や“段落”などのレコードの追加,
削除,更新の定義について、図16,図17,図18を
用いて説明する。
【0031】追加レコードの定義 ・図16において、比較基準文書Aを構成するレコード
と比較対象文書Bを構成するレコードとを、文書データ
の先頭からレコード番号にしたがって、特性コードを用
いて順次比較していったとき、異なる特性コードを有す
るレコード(不一致レコード)があった(図16の中
で、比較基準文書Aのbレコードと,比較対象文書Bの
cレコード)。 ・比較基準文書A側の上記不一致レコード(図16のb
レコード)を、比較対象文書B側の上記不一致レコード
(図16のcレコード)に続く他のレコード(図16の
cレコードの次のレコードからdレコードまで)と、特
性コードを用いて順次比較していったとき、比較基準文
書A側の上記不一致レコード(図16のbレコード)と
同一の特性コードを有するレコード(一致候補レコー
ド,図16の(b)レコード)が比較対象文書B中で見
つかった。 この場合、比較対象文書Bの中で、上記不一致レコード
(図16のcレコード)から始まり、上記一致候補レコ
ードの直前のレコード(図16のdレコード)までのレ
コードを比較基準文書Aへの追加レコードと定義する。
【0032】削除レコードの定義 ・図17において、比較基準文書Aを構成するレコード
と比較対象文書Bを構成するレコードとを、文書データ
の先頭からレコード番号にしたがって、特性コードを用
いて順次比較していったとき、異なる特性コードを有す
るレコード(不一致レコード)があった(図17の中
で、比較基準文書Aのcレコードと、比較対象文書Bの
bレコード)。 ・比較基準文書A側の上記不一致レコード(図17のc
レコード)と比較対象文書B側の上記不一致レコード
(図17のbレコード)に続く他のレコード(図17の
bレコードの次のレコードからeレコードまで)とを、
比較対象文書Bの中で、特性コードを用いて順次比較し
ていったとき、比較対象文書Bの最後(図17のeレコ
ード)まで探しても一致候補レコードは見つからなかっ
た。 ・比較対象文書B側の上記不一致レコード(図17のb
レコード)と比較基準文書A側の上記不一致レコード
(図17のcレコード)に続く他のレコード(図17の
cレコードの次のレコードからdレコードおよび(b)
レコード)とを、比較基準文書Aの中で特性コードを用
いて順次比較していったとき、比較基準文書A中で一致
候補レコード(図17の(b)レコード)が見つかっ
た。 この場合、比較基準文書A中の、上記不一致レコード
(図17のcレコード)から始まり、上記一致候補レコ
ードの直前のレコード(図17のdレコード)までのレ
コードを比較基準文書Aからの削除レコードと定義す
る。
【0033】更新レコードの定義 ・比較基準文書Aを構成するレコードと比較対象文書B
を構成するレコードとを、文書データの先頭からレコー
ド番号にしたがって特性コードを用いて順次比較してい
ったとき、不一致レコードが見つかった(図18の比較
基準文書Aのbレコードと比較対象文書Bのcレコー
ド)。 ・比較基準文書A側の上記不一致レコード(図18のb
レコード)を比較対象文書B側の上記不一致レコード
(図18のcレコード)に続く他のレコード(図18の
cレコードの次のレコードからeレコードまで)と、比
較対象文書Bの中で特性コードを用いて順次比較してい
ったとき、比較対象文書Bの最後(図18のeレコー
ド)まで探しても一致候補レコードは見つからなかっ
た。 ・比較対象文書B側の上記不一致レコード(図18のc
レコードを、比較基準文書A側の上記不一致レコード
(図18のbレコード)に続く他のレコード(図18の
bレコードの次のレコードからdレコードまで)と、比
較基準文書Aの中で特性コードを用いて順次比較してい
ったとき、比較基準文書Aの最後(図18のdレコー
ド)まで探しても一致候補レコードは見つからなかっ
た。 この場合、比較対象文書B側の上記不一致レコード(図
18のcレコード)を比較基準文書A側の上記不一致レ
コード(図18のbレコード)に対する変更レコードと
定義する。
【0034】以下、上述した“文”や“段落”などのレ
コードの追加,削除,更新の定義に基づいて、図13〜
図15について説明する。
【0035】図13において、比較基準文書Aの段落特
性表の中から、次の段落エントリをポイントした後(ボ
ックス番号[5−1])、段落特性表の終わりであるか否か
を判定して、段落特性表の終わりであれば処理を終了
し、段落特性表の終わりでなければボックス番号[5−3]
へ分岐する(ボックス番号[5−2])。ボックス番号[5−
3]で比較対象文書Bの段落特性表の中から、次の段落エ
ントリをポイントする。そして、段落特性表の終わりで
あるか否かを判定して、段落特性表の終わりであればボ
ックス番号[5−8]へ分岐し、段落特性表の終わりでなけ
れば、対応する段落同士の段落特性コードが一致するか
否かを判定して、一致するならばボックス番号[5−1]へ
戻る(ボックス番号[5−5])。続くボックス番号[5−6]
で比較対象文書Bの段落特性表の中の現在の段落エント
リに、更新フラグとして“A”(ADD)を格納した後、ボ
ックス番号[5−2]へ分岐する(ボックス番号[5−7])。
【0036】ボックス番号[5−8]で比較対象文書Bの段
落特性表の中のひとつ前の段落エントリをポイントした
後、当該段落エントリに格納された更新フラグが“A”
であるか否かを判定し、“A”であればボックス番号[5
-12]へ分岐する(ボックス番号[5−9])。続くボックス
番号[5-10]で比較対象文書Bの段落特性表の中の段落エ
ントリをひとつ進めてポイントした後、ボックス番号[5
-30]へ分岐する(ボックス番号[5-11])。また、ボック
ス番号[5-12]では、現在処理対象としている段落エント
リに格納された更新フラグを“スペース”(追加,削
除,更新のいずれでもないレコード)とした後、ボック
ス番号[5−8]へ分岐する(ボックス番号[5-13])。
【0037】図14において、ボックス番号[5-11]に引
き続いて、比較基準文書Aおよび比較対象文書Bの段落
特性表の中の段落エントリポインタをそれぞれ追加用ポ
インタとして退避するとともに(ボックス番号[5-30]お
よび[5-31])、比較基準文書Aの段落特性表の中から次
の段落エントリをポイントした後(ボックス番号[5-3
2])、比較基準文書Aの段落特性表が終わりであるか否
かを判定して、終わりであればボックス番号[5-38]へ分
岐する(ボックス番号[5-33])。そして、続くボックス
番号[5-34]で比較する段落特性コードが一致するか否か
を判定して、一致するときにはボックス番号[5-37]へ分
岐し、一致しないときには比較基準文書Aの段落特性表
の中の現在の段落エントリに更新フラグとして“D”(D
ELETE)を格納した後(ボックス番号[5-35])、ボックス
番号[5-32]へ分岐する(ボックス番号[5-36])。
【0038】ボックス番号[5-38]で比較基準文書Aの段
落特性表の中のひとつ前の段落エントリをポイントした
後、当該段落エントリに格納された更新フラグが“D”
であるか否かを判定し、“D”であればボックス番号[5
-44]へ分岐する(ボックス番号[5-39])。“D”でなけ
れば、ボックス番号[5-30]および[5-31]で退避しておい
た比較基準文書Aおよび比較対象文書Bの段落特性表の
中の段落エントリポインタをそれぞれ回復した後(ボッ
クス番号[5-40]および[5-41])、回復された段落エント
リポインタで示される比較基準文書Aおよび比較対象文
書Bの段落特性表の段落エントリに更新フラグとして
“U”(UPDATE)を格納するとともに各々の現在エントリ
に相手の段落番号を格納した後(ボックス番号[5-4
2])、ボックス番号[5-43]へ戻る。ボックス番号[5-44]
では、現在処理対象としている段落エントリに格納され
た更新フラグを“スペース”(追加,削除,更新のいず
れでもないレコード)とした後、ボックス番号[5-38]へ
分岐する(ボックス番号[5-45])。
【0039】なお、文特性コードを用いて“段落”の一
致検証を行った場合には、前述したシノニムの発生(内
容の異なる“文”であるにもかかわらず、同一の文特性
コードが算出されてしまうこと)を完全に排除すること
はできないので、万全の一致検証を行う必要があるとき
には、“文”や“段落”を構成するすべての文字を逐次
比較することにより、一致検証を行ってもよい。
【0040】また、長大な文書データの一致検証を行う
場合には、それぞれの文書をいくつかのモジュールに分
割して、モジュールごとに比較を行えば、より少ない時
間で効率的に一致検証を行うことができる。
【0041】
【発明の効果】
(1) 以上詳しく説明したように、本発明の文書データの
一致検証方式においては、連続的に入力される文字列か
らなる文書データをまとまった意味を表わすレコード単
位に区分することにより、前記文書データを構成する複
数のレコードを認識するレコード認識手段と、複数の文
書データにそれぞれ含まれるレコードの一致検証を行う
レコード比較手段とを具備したため、比較しようとする
ビジネス文書を意味のあるレコード(例えば“単語”,
“文節”,“文”,“段落”,“章”など)の単位で一
致検証することができるという効果が得られる。
【0042】(2) また、(1)の構成において、前記レコー
ドを特徴づける特性コードの算出を行う特性コード算出
手段と、前記特性コードを用いて複数の文書データにそ
れぞれ含まれるレコードの一致検証を行うレコード比較
手段とを具備したため、上記レコード単位での一致検証
をさらに容易かつ高速に行うことができるという効果が
得られる。
【0043】(3) また、(2)の構成において、前記レコー
ドの各々から算出された一以上の前記特性コードを含む
前記文書データの特性表を生成する特性表生成手段と、
互いに類似する第1および第2の文書データの特性表の
内容を比較することにより、前記第1および第2の文書
データの間の変更点の抽出を行うレコード変更点抽出手
段とを具備したため、例えば、旧文書中の“章”構成に
対して新文書中の“章”構成はどのように変更されてい
るか、あるいは、元の“段落”に対して新たな“段落”
中に追加または削除された“文”はどれか、などを明確
化し、これに基づいて文書データの変更点のチェック作
業を従来よりも容易かつ効率的に行うことができるとい
う効果が得られる。
【図面の簡単な説明】
【図1】本発明の文書データの一致検証方式を実現する
ためのシステム構成の一実施例を示す図である。
【図2】本発明の文書データの一致検証方式における
“文”の単位の一例を示す図である。
【図3】本発明の文書データの一致検証方式における
“段落”の単位の一例を示す図である。
【図4】本発明の文書データの一致検証方式の一実施例
の概要を示す図である。
【図5】本発明の文書データの一致検証方式における文
特性表の一例を示す図である。
【図6】本発明の文書データの一致検証方式における段
落特性表の一例を示す図である。
【図7】図1に示した文特性表の生成(比較基準文書
A)の詳細を示す図である。
【図8】図1に示した文特性表の生成(比較対象文書
B)の詳細を示す図である。
【図9】図1に示した段落特性表の生成(比較基準文書
A)の詳細を示す図(その1)である。
【図10】図1に示した段落特性表の生成(比較基準文
書A)の詳細を示す図(その2)である。
【図11】図1に示した段落特性表の生成(比較対象文
書B)の詳細を示す図(その1)である。
【図12】図1に示した段落特性表の生成(比較対象文
書B)の詳細を示す図(その2)である。
【図13】図4中のボックス番号[5]における追加され
た段落の判定の詳細を示す図である。
【図14】図4中のボックス番号[5]における削除され
た段落の判定の詳細を示す図である。
【図15】図4中のボックス番号[5]における更新され
た段落の判定の詳細を示す図である。
【図16】文書比較をする場合の、追加レコードの定義
を示す図である。
【図17】文書比較をする場合の、削除レコードの定義
を示す図である。
【図18】文書比較をする場合の、更新レコードの定義
を示す図である。
【符号の説明】
10 プリンタ 11 表示装置 12 キーボード 13 文書保管用ディスク 14 プログラムライブラリ 15 文書比較処理用ワークエリア 16 ワードプロセシングプログラム 17 比較基準文書A 18 比較対象文書B 19 主記憶装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 連続的に入力される文字列からなる文書
    データをまとまった意味を表わすレコード単位に区分す
    ることにより、前記文書データを構成する複数のレコー
    ドを認識するレコード認識手段と、 複数の文書データにそれぞれ含まれるレコードの一致検
    証を行うレコード比較手段とを具備したことを特徴とす
    る文書データの一致検証方式。
  2. 【請求項2】 前記レコードを特徴づける特性コードの
    算出を行う特性コード算出手段と、 前記特性コードを用いて複数の文書データにそれぞれ含
    まれるレコードの一致検証を行うレコード比較手段とを
    具備したことを特徴とする請求項1記載の文書データの
    一致検証方式。
  3. 【請求項3】 前記レコードの各々から算出された一以
    上の前記特性コードを含む前記文書データの特性表を生
    成する特性表生成手段と、 互いに類似する第1および第2の文書データの特性表の
    内容を比較することにより、前記第1および第2の文書
    データの間の変更点の抽出を行うレコード変更点抽出手
    段とを具備したことを特徴とする請求項2記載の文書デ
    ータの一致検証方式。
JP6014610A 1994-02-08 1994-02-08 文書データの一致検証方式 Pending JPH07225761A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6014610A JPH07225761A (ja) 1994-02-08 1994-02-08 文書データの一致検証方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6014610A JPH07225761A (ja) 1994-02-08 1994-02-08 文書データの一致検証方式

Publications (1)

Publication Number Publication Date
JPH07225761A true JPH07225761A (ja) 1995-08-22

Family

ID=11865975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6014610A Pending JPH07225761A (ja) 1994-02-08 1994-02-08 文書データの一致検証方式

Country Status (1)

Country Link
JP (1) JPH07225761A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11191105A (ja) * 1997-09-18 1999-07-13 Just Syst Corp 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
JP4510130B1 (ja) * 2009-11-10 2010-07-21 東屋株式会社 情報記録システム
JP2010182238A (ja) * 2009-02-09 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体
JP2011118703A (ja) * 2009-12-03 2011-06-16 Dad Co Ltd 比較プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11191105A (ja) * 1997-09-18 1999-07-13 Just Syst Corp 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
JP2010182238A (ja) * 2009-02-09 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体
JP4510130B1 (ja) * 2009-11-10 2010-07-21 東屋株式会社 情報記録システム
JP2011103055A (ja) * 2009-11-10 2011-05-26 Higashiya Kk 情報記録システム
JP2011118703A (ja) * 2009-12-03 2011-06-16 Dad Co Ltd 比較プログラム

Similar Documents

Publication Publication Date Title
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5224038A (en) Token editor architecture
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
US7584093B2 (en) Method and system for generating spelling suggestions
US5721899A (en) Retrieval apparatus using compressed trie node and retrieval method thereof
US5572423A (en) Method for correcting spelling using error frequencies
US8135717B2 (en) Processor for fast contextual matching
CN101978348B (zh) 管理关于近似串匹配的档案
US6697801B1 (en) Methods of hierarchically parsing and indexing text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US5373442A (en) Electronic translating apparatus having pre-editing learning capability
JPH07225761A (ja) 文書データの一致検証方式
CN110795617A (zh) 一种搜索词的纠错方法及相关装置
JPH0773197A (ja) 異表記語辞書作成支援装置
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2000148754A (ja) マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
JP3531222B2 (ja) 類似文字列検索装置
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
US20050102278A1 (en) Expanded search keywords
JP3585944B2 (ja) データ処理方法及びその装置
JPH0232467A (ja) 機械翻訳方式
JPH11143873A (ja) 単語間意味関連度算出方法およびその装置並びに単語間意味関連度算出処理プログラムを記憶した記憶媒体