JPH06318202A

JPH06318202A - 文書記憶方式及び文書管理方式並びに文書表示方式

Info

Publication number: JPH06318202A
Application number: JP5131194A
Authority: JP
Inventors: Toshiyuki Okunishi; 稔幸奥西
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1993-05-06
Filing date: 1993-05-06
Publication date: 1994-11-15
Anticipated expiration: 2016-03-05
Also published as: JP3139658B2

Abstract

(57)【要約】【目的】言語表現が多様な自然言語文章を比較するこ
とで自然言語文書ファイルの管理や検索を容易にする。【構成】自然言語で記述された文書ファイルに対して
記述内容である自然言語文章を、文解析部４で解析し、
１文毎の構造から文章構造を、文章構造構築部５で構築
し、構築した構造を元に文書を記憶できる。また、格納
された文章構造同士を比較することで、類似文書検索部
６で既存の文書から類似文書を検索し、差分管理部７で
類似文書間の差分を検出し、検出した差分情報に基づき
文書を差分管理できる。また、管理する差分情報に基づ
き、相違箇所表示部８で類似した文書間の相違箇所を、
作成日、作成者、キーワードなどの属性別に使用者にわ
かりやすく表示できる。この結果、類似した段落や文を
削除し、文書を要約したり、ある特定のテーマに関する
類似した文書を集め、その相違点を掲示したりする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書記憶方式及び文書
管理方式並びに文書表示方式に関し、より詳細には、言
語表現が多様な自然言語文章の文章構造を比較すること
で、自然言語文書ファイルの管理や検索を容易にする文
書記憶方式及び文書管理方式並びに文書表示方式に関す
る。例えば、自然言語処理，文書処理，ファイルシステ
ムに適用されるものである。

【０００２】

【従来の技術】日本語ワードプロセッサ、ＣＤ−ＲＯ
Ｍ，パソコン通信の急速な普及により手元に入手・蓄積
できる日本語文書ファイルが急増している。このような
現状を考慮すると、文書処理装置には従来のように、
「いかに簡単に文章を入力・作成できるか」だけではな
く「いかに効率よく大量の文書を格納できるか」といっ
たシステム的な側面から「大量の文書の中からいかに効
率よく必要な情報を見つけるか」といったユーザの立場
に立ったものまで幅広い課題が課せられる。

【０００３】このような課題に対応するために、文書差
分管理に関する公知文献としては、以下の〜があ
る。特開平３−８０７２号公報「文書管理方法」特開平２−２９７２８４号公報「文書処理システムお
よびバージョン管理方式」特開平４−５４５５８号公報「テキスト管理方式」特開平４−１８１３６７号公報「データ処理装置」

【０００４】前記は、編集中の文書に加えた「編集操
作の入力列」を編集前の文書とともに記憶しておき、編
集後の文書が必要な時には入力列を編集前の文書に施す
ことで編集後の文書を復元するという文書差分管理を行
う。前記〜は、文書中の文章そのものを比較して差
分検出・管理し、編集前後のいずれか一方のみの文書と
両者の差分を記憶するという文書差分管理である。特
に、前記では図表も考慮しており、また文章の場合は
比較単位を設定できることが特徴である。また、前記
は、複数作者による同一文書の編集を想定したものその
ような場面ではオリジナル文書に同時に２つ以上の差分
が発生することがあり、それらの差分同士をマージする
ことを特徴としている。前記は、編集前後の文書を２
つとも記憶する場合（すなわちバックアップをとる場
合）にこの差分管理技術を利用することを特徴としてい
る。

【０００５】

【発明が解決しようとする課題】前述のように、従来の
文書差分管理については、いずれも前述課題の前半のシ
ステム的な面や既存文書の編集という使用状況を強く意
識したものになっているため、新規に作成する文書や新
たに入手した文書に関しては有効ではない。特に、前記
は編集中の文書に加えた「編集操作の入力列」を差分
管理の対象にしており、既存文書の編集以外の場面では
利用できない。また、前記〜でも既存文書の編集を
想定しているため、それらの中で用いられている文章差
分検出の対象は文書の表層文字列が主である。確かに既
存文書の編集という場面では多くの表現をすっかり入れ
替えるということを毎回操り返すわけではないため、表
層文字列の比較で十分に有効かもしれない。しかしなが
ら、新規に文書を作成する時には例え同じ作者であって
もあることを表現するのに微妙に異なる表現を利用する
場合がある。ましてや他から入手した文書においては表
層上全く同じ表現が用いられることは希である。したが
って表層文字列による差分管理では前述課題の後半のユ
ーザ的課題「いかに必要な情報だけを見付け提示する
か」に対応できない。

【０００６】例えば、下記文（Ａ），文（Ｂ）について
検討する。それぞれ、ある作者のある研究に関する数年
を経た論文の１部であるとする。研究内容の差が２つの
文章の違いとなっていると考えられるため、２つの文書
の差分を検出するとその数年の間の研究の成果をすぐに
把握できる。前記で述べられている表層文字列の比較
する方式だと、文（Ａ）との差分として文（Ｂ）の下線
部でマークした文字列を検出する。しかしながら、利用
者が読んで意味のある相違点（実質的に異なる点）はそ
の中でも実線下線で示した部分だけで、それ以外の破線
下線の部分は文（Ａ）とほとんど同じ意味であり、わざ
わざこれらを差分として管理する必要はない。差分情報
に基づき２文書の相違点をユーザに提示する場合や、ま
た入手した文書から自分に不足している本当に必要な情
報だけを抽出する場面で差分管理を利用する情報フィル
タリングの場合である。

【０００７】（Ａ）「一般に自然言語解析は、形態素解
析、構文解析、意味解析の３つのフェーズから構成され
る。曖昧性解消を目指した本システムでもこれら３つの
解析部を備える。本論文では３つの解析部の実現方法に
関して報告を行なう。」

【０００８】

【表１】

【０００９】本発明は、このような実情に鑑みてなされ
たもので、言語表現が多様な自然言語文章を比較するこ
とで自然言語文書ファイルの管理や検索を容易にする文
書記憶方式及び文書管理方式並びに文書表示方式を提供
することを目的としている。

【００１０】

【課題を解決するための手段】本発明は、上記の目的を
達成するために、（１）自然言語で記述された文書ファ
イルに対して記述内容である自然言語文章を解析する文
解析手段と、１文毎の構造から文章構造を構築する文章
構造構築手段と、構築した構造を元に文書を記憶する文
書記憶手段とを有すること、或いは、（２）自然言語で
記述された文書ファイルに対して記述内容である自然言
語文章を解析する文解析手段と、１文毎の構造から文章
構造を構築する文章構造構築手段と、構築した構造を元
に文書を記憶する文書記憶手段とを有することを特徴と
する文書記憶方式において、格納された文章構造同士を
比較することで既存の文書から類似文書を検索し、類似
文書間の差分を検出する類似文書検索手段と、検出した
差分情報に基づき文書を差分管理する文書差分管理手段
とを有すること、或いは、（３）自然言語で記述された
文書ファイルに対して記述内容である自然言語文章を解
析する文解析手段と、１文毎の構造から文章構造を構築
する文章構造構築手段と、構築した構造を元に文書を記
憶する文書記憶手段とを有することを特徴とする文書記
憶方式において、管理する差分情報に基づき、類似した
文書間の相違箇所を、作成日、作成者、キーワードなど
の属性別に使用者にわかりやすく表示する相違箇所表示
手段を有することことを特徴としたものである。

【００１１】

【作用】自然言語で記述された文書ファイルに対して記
述内容である自然言語文章を解析し、１文毎の構造から
文章構造を構築し、構築した構造を元に文書を記憶でき
る。さらに、ここで格納された文章構造同士を比較する
ことで既存の文書から類似文書を検索して類似文書間の
差分を検出し、検出した差分情報に基づき文書を差分管
理できる。さらに、ここで管理する差分情報に基づき、
類似した文書間の相違箇所を、作成日、作成者、キーワ
ードなどの属性別に使用者にわかりやすく表示できる。
この結果、類似した段落や文を削除し、文書を要約した
り、ある特定のテーマに関する類似した文書を集め、そ
の相違点を提示したりすることで、今後ますます増加す
るであろう自然言語で記述された文書ファイルの管理が
容易になる。

【００１２】

【実施例】実施例について、図面を参照して以下に説明
する。図１は、本発明による文書記憶方式及び文書管理
方式並びに文書表示方式の一実施例を説明するための構
成図で、図中、１は制御部、２は表示部、３は入力部、
４は文解析部、５は文章構造構築部、６は類似文書検索
部、７は差分管理部、８は相違箇所表示部である。制御
部１は日本語入力のため仮名漢字変換などのプログラム
やテーブル・文章バッファ・外部記憶装置など以下に明
記するものを含んでいる。表示部２はＣＲＴ（Cathode
Ray Tube）またはＬＣＤ（液晶ディスプレイ）等からな
る。入力部３はキーボード等からなる。文解析部４は漢
字交じり文字列の文解析を行う。文章構造構築部５は文
解析の結果である文構造を蓄積する。類似文書検索部６
は類似文書を検索する。差分管理部７は類似文書間の差
分を管理する。相違箇所表示部８は差分を利用者にわか
りやすく提示する。

【００１３】図２は、図１における文解析部の構成図
で、図中４ａは形態素解析部、４ｂは構文解析部、４ｃ
は意味解析部である。形態素解析部４ａは、文を形態
素、文節に区切り形態素情報を付加する。構文解析部４
ｂは、文節の間の係受け関係をチェックする構文解析部
である。意味解析部４ｃは係受け関係をもとに用言を中
心とした格関係を抽出する意味解析部である。

【００１４】図３は、図１における文章構造構築部の構
成図で、図中、５ａは同一オブジェクト結合部、５ｂは
同一関係認識部である。同一オブジェクト結合部５ａは
同じ事物を指示するが文章中では異なる表現で示される
名詞どうしを結合する。同一関係認識部５ｂは同じ関係
を表現している用言（動詞，形容詞，形容動詞，助動
詞）や副詞を認識する。

【００１５】図４は、文を意味解析する時に参照する言
語データの一例として動詞に関するデータを示してい
る。図２の意味解析部４ｃで利用される。図５（ａ）〜
（ｃ）は、図１中の文章構造構築部の処理例を示してい
る。例文「私がパンを買った。太郎がそれを食べた」を
文解析すると用言を中心とした２つの格構造である図
（ａ）、図（ｂ）が抽出できる。文節毎に１つのレコー
ドが割り当てられている。図面上は表層文字列が格納さ
れているが、ここへ辞書へのポインタを格納することで
メモリの効率化も可能である。それらの構造を文章構造
構築部に与えると第２文中の「それ」が「パン」である
ことを判断し、図（ｃ）のように「それ」と「パン」の
結合（ポインタのリンク）が行われる（図３の同一オブ
ジェクト結合部５ａ）。このように入力文をそのまま記
憶するのではなく構造化を図るので、例えば「私が買っ
たパンを太郎が食ベた」を入力しても同じ構造を得るこ
とになる。

【００１６】図６は、図１中の差分管理部で用いられる
ファイル構造例を示す。差分管理用に図５の構造に差分
管理用の２つのフィールドを追加している。それぞれ
「差分情報リスト」と「ファイルＩＤ」である。差分情
報リストは相違内容をリスト構造で連結している。最終
要素には＊が入る。ファイルＩＤは比較相手の文書ＩＤ
を示す。ファイル更新前後のファイルならば日付、バー
ジョン番号などが入る。全く別のファイルならばファイ
ル名などが入る。図５で用いた例文「私がパンを買っ
た。太郎がそれを食べた」のファイル構造を図６（ａ）
に示す。差分情報リストは全て＊で他に差分候補がない
ことを示す。ファイルＩＤはすべてｔ１に統一されてい
る。この文の蓄積後に別の文書ｔ２中の例文「私が買っ
たパンを次郎と三郎が食ベた」を与えた後のファイル構
造を図６（ｂ）に示す。太郎の差分情報リストにアドレ
ス＜７＞が入っており、アドレス＜７＞の内容は「次郎
と三郎」を表す意味構造の先頭要素である「ＡＮＤ」が
格納されている。「次郎と三郎」のファイルＩＤはｔ２
になっている。

【００１７】ここでファイル構造からもとの内容を復元
する手段について説明する。またファイルＩＤがｔ１で
あるレコードを連結していけばファイルｔ１の内容が復
元できる。差分情報が＊であるレコードを連結していけ
ば最終バージョン（であるファイルｔ２）の内容が復元
できる。また中間バージョンを復元するにはそれらを組
み合わせればよい。連結の順番は表層文をレコードに分
離する文解析部で用いた言語知識を利用していけばよ
い。

【００１８】図７は、本発明の各種方式の処理フローを
示す図である。以下、各ステップに従って順に説明す
る。なお、図９及び図１０は、ある研究者のある研究テ
ーマに関する時間を経た新旧２つの論文の一部分であ
る。まず、図４に示した動詞データを利用しながら、図
９の指定された文の解析を行う（step１）。この文解析
の結果を前文までの解析結果があればそれと併せて記憶
する（step２）。図９の残りの文に関して解析・蓄積を
繰り返し（step３）、図９の文書全体の文章構造を構築
する。

【００１９】図１１は、図９の論文の文章解析の結果を
表現した一般的な意味ネットワークである。“報告す
る”“報告される”などの楕円ノードは「用言」を表
し、“自然言語解析”“本論文”などの矩形ノードは
「体言」を表す。ノード間の有向アークはそれらの語句
間に関係があることを表す。例えば、体言ノードから用
言ノードへの有向アークは格フレームのまとまり関係を
表す。次に、図１０の論文に関しても同様に解析して文
章構造を構築する。図１２がその結果となる。この時点
で、図９の文書の文章構造（すなわち図１１）との比較
を行う（step４）。なお、step４の比較手順については
図８に基づいて後述する。

【００２０】類似した構造を有する文書があれば（step
５）、両者の相違点、すなわち上記アルゴリズム中で
「対応しない」と判定した体言や用言を利用者に提示す
る（step６）。破線枠および網掛け部分が、両論文の間
で内容的に相違がある箇所である。ここの例では“ユー
ザインタフェース”に関する部分が新しく加わった構造
である。言うならば“ユーザインタフェース”に関する
記述部分が新旧２つの論文が作成された間の研究の進展
部分であり、読者がこの研究者の一連の研究をサーベイ
するために論文を読む際に注目すればよい箇所である。

【００２１】また、この比較結果を利用して類似した複
数文書の管理の効率化を図る。すなわち、最初の図９の
論文は全て記憶しておき、図１０の論文は図９との差分
だけを記憶する（step７）ことで、２つの文書すべてを
記憶するより容量的に効率よく文書ファイルを管理でき
る。

【００２２】図８は、図７におけるstep４（既存文書と
の文章構造の比較）の手順を示すフローチャートであ
る。すなわち、図１における類似文書検索部で行われる
類似文書の判定に必要な文章構造の比較に関するフロー
チャートである。以下、各ステップに従って順に説明す
る。まず、２つの文章構造をそれぞれについて用言（楕
円ノード）を集める（step４-1）。その中に対応する２
つの用言があれば（step４-2）、それらの用言に係って
いる体言同士を順次比較する（step４-3）。図１１及び
図１２は、例えば“報告する”が対応する用言であり、
それには“本論文”“実現方法”“概要”などの体言が
係っている。逆に“選択できる”が一方にしかない用言
である。すなわち、図１１及び図１２は、図９及び図１
０の２文を図１における相違箇所表示部により提示した
結果の例である。ここでは意味ネットワークに基づき、
相違箇所を網掛けすることで利用者に２つの文書の内容
をわかりやすく提示している。

【００２３】次に、対応する体言があれば（step４-
5）、その体言に係っている用言同士の比較を行う（ste
p４-6）。ここでは“本論文”“実現方法”が対応する
体言であり、逆に“概要”が対応しない体言である。さ
らに、体言同士の比較が終了した時（step４-4）に対応
する体言が多ければ（step４-7）、その体言が係る用言
は「対応する」と判定し、逆に少なければ「対応しな
い」と判定する（step４-8）。なお、これは前記step４
-2 で行った判定を覆したことになる。図１１及び図１
２の場合、“構成される”に関しては完全に対応し、
“報告する”“備える”に関しても係っている体言に対
応が多いことから「対応する」と判定する。

【００２４】同様に、全ての用言同士の比較が終了する
と（step４-9）、２つの文章構造の比較が終了したこと
になるので、最後に文書の類似の判定を行う（step４-1
0）。そこでは、一致した用言が多ければその文章構造
は類似していると判定でき、逆に少なければ文章構造は
類似していないものと判定する。図１１及び図１２の場
合だと、対応する用言は“構造される”“報告する”
“備える”で対応しない用言は“選択できる”だけなの
で図１１及び図１２は類似した文書と判定する。

【００２５】

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。（１）自然言語で記述された文書ファイルに対して記述
内容である自然言語文章を解析し、１文毎の構造から文
章構造を構築し、構築した構造を元に文書を記憶でき
る。（２）前記文書記憶方式で格納された文章構造同士を比
較することで既存の文書から類似文書を検索して類似文
書間の差分を検出し、検出した差分情報に基づき文書を
差分管理できる。（３）前記文書記憶方式で管理する差分情報に基づき、
類似した文書間の相違箇所を、作成日、作成者、キーワ
ードなどの属性別に使用者をわかりやすく表示できる。（４）前記（１）〜（３）により、類似した段落や文を
削除し、文書を要約したり、ある特定のテーマに関する
類似した文書を集め、その相違点を提示したりすること
で、今後ますます増加するであろう自然言語で記述され
た文書ファイルの管理が容易になる。

【図面の簡単な説明】

【図１】本発明による文書記憶方式及び文書管理方式並
びに文書表示方式の一実施例を説明するための構成図で
ある。

【図２】図１における文解析部の構成図である。

【図３】図１における文章構造構築部の構成図である。

【図４】本発明における文を意味解析する時に参照する
言語データの一例として動詞に関するデータを示す図で
ある。

【図５】図１における文章構造構築部の処理例を示す図
である。

【図６】図１における差分管理部で用いられるファイル
構造例を示す図である。

【図７】本発明による各種方式の処理の流れを示すフロ
ーチャートである。

【図８】図１における類似文章検索部の処理を示すフロ
ーチャートである。

【図９】本発明における実施例の説明で用いる例文を示
す図である。

【図１０】本発明における実施例の説明で用いる他の例
文を示す図である。

【図１１】図１における相違箇所表示部の表示例を示す
図である。

【図１２】図１における相違箇所表示部の他の表示例を
示す図である。

【符号の説明】

１…制御部、２…表示部、３…入力部、４…文解析部、
５…文章構造構築部、６…類似文書検索部、７…差分管
理部、８…相違箇所表示部。

Claims

【特許請求の範囲】

【請求項１】自然言語で記述された文書ファイルに対
して記述内容である自然言語文章を解析する文解析手段
と、１文毎の構造から文章構造を構築する文章構造構築
手段と、構築した構造を元に文書を記憶する文書記憶手
段とを有することを特徴とする文書記憶方式。
【請求項２】自然言語で記述された文書ファイルに対
して記述内容である自然言語文章を解析する文解析手段
と、１文毎の構造から文章構造を構築する文章構造構築
手段と、構築した構造を元に文書を記憶する文書記憶手
段とを有することを特徴とする文書記憶方式において、
格納された文章構造同士を比較することで既存の文書か
ら類似文書を検索し、類似文書間の差分を検出する類似
文書検索手段と、検出した差分情報に基づき文書を差分
管理する文書差分管理手段とを有することを特徴とする
文書管理方式。
【請求項３】自然言語で記述された文書ファイルに対
して記述内容である自然言語文章を解析する文解析手段
と、１文毎の構造から文章構造を構築する文章構造構築
手段と、構築した構造を元に文書を記憶する文書記憶手
段とを有することを特徴とする文書記憶方式において、
管理する差分情報に基づき、類似した文書間の相違箇所
を、作成日、作成者、キーワードなどの属性別に使用者
にわかりやすく表示する相違箇所表示手段を有すること
を特徴とする文書表示方式。