JP3139658B2 - Document display method - Google Patents

Document display method

Info

Publication number
JP3139658B2
JP3139658B2 JP05131194A JP13119493A JP3139658B2 JP 3139658 B2 JP3139658 B2 JP 3139658B2 JP 05131194 A JP05131194 A JP 05131194A JP 13119493 A JP13119493 A JP 13119493A JP 3139658 B2 JP3139658 B2 JP 3139658B2
Authority
JP
Japan
Prior art keywords
document
sentence
documents
unit
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05131194A
Other languages
Japanese (ja)
Other versions
JPH06318202A (en
Inventor
稔幸 奥西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP05131194A priority Critical patent/JP3139658B2/en
Publication of JPH06318202A publication Critical patent/JPH06318202A/en
Application granted granted Critical
Publication of JP3139658B2 publication Critical patent/JP3139658B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は文書表示方式に関し、よ
り詳細には、言語表現が多様な自然言語文章の文章構造
を比較することで、類似文書の検索を行い、差分情報に
て差分管理し、意味ネットワークを用いて相違箇所を区
別して表示する文書表示方式に関する。例えば、自然言
語処理,文書処理,ファイルシステムに適用されるもの
である。
The present invention relates to an document display method, and more particularly, that the language expression to compare the sentence structure of a variety of natural language text, perform a search of similar documents, the difference information
Difference management using a semantic network to identify differences.
Betsushite about the document display system to display. For example, it is applied to natural language processing, document processing, and a file system.

【0002】[0002]

【従来の技術】日本語ワードプロセッサ、CD−RO
M,パソコン通信の急速な普及により手元に入手・蓄積
できる日本語文書ファイルが急増している。このような
現状を考慮すると、文書処理装置には従来のように、
「いかに簡単に文章を入力・作成できるか」だけではな
く「いかに効率よく大量の文書を格納できるか」といっ
たシステム的な側面から「大量の文書の中からいかに効
率よく必要な情報を見つけるか」といったユーザの立場
に立ったものまで幅広い課題が課せられる。
2. Description of the Related Art Japanese word processor, CD-RO
Due to the rapid spread of M and personal computer communications, the number of Japanese document files that can be obtained and stored at hand is increasing rapidly. Considering the current situation, document processing devices are not
Not only how easy it is to enter and create sentences, but also how to efficiently find the necessary information from a large amount of documents A wide range of issues are imposed from the user's standpoint.

【0003】このような課題に対応するために、文書差
分管理に関する公知文献としては、以下の〜があ
る。 特開平3−8072号公報「文書管理方法」 特開平2−297284号公報「文書処理システムお
よびバージョン管理方式」 特開平4−54558号公報「テキスト管理方式」 特開平4−181367号公報「データ処理装置」
In order to cope with such a problem, there are the following documents as known documents relating to document difference management. JP-A-3-8072 "Document management method" JP-A-2-297284 "Document processing system and version management system" JP-A-4-54558 "Text management system" JP-A-4-181367 "Data processing"apparatus"

【0004】前記は、編集中の文書に加えた「編集操
作の入力列」を編集前の文書とともに記憶しておき、編
集後の文書が必要な時には入力列を編集前の文書に施す
ことで編集後の文書を復元するという文書差分管理を行
う。前記〜は、文書中の文章そのものを比較して差
分検出・管理し、編集前後のいずれか一方のみの文書と
両者の差分を記憶するという文書差分管理である。特
に、前記では図表も考慮しており、また文章の場合は
比較単位を設定できることが特徴である。また、前記
は、複数作者による同一文書の編集を想定したものその
ような場面ではオリジナル文書に同時に2つ以上の差分
が発生することがあり、それらの差分同士をマージする
ことを特徴としている。前記は、編集前後の文書を2
つとも記憶する場合(すなわちバックアップをとる場
合)にこの差分管理技術を利用することを特徴としてい
る。
[0004] In the above, an "input sequence of an editing operation" added to a document being edited is stored together with the document before editing, and when the edited document is required, the input sequence is applied to the document before editing. The document difference management of restoring the edited document is performed. The above-mentioned is a document difference management in which the text itself in the document is compared to detect and manage the difference, and only one of the document before and after editing and the difference between the two are stored. In particular, in the above, a chart is considered, and in the case of a sentence, a comparison unit can be set. In addition, the above description assumes that a plurality of authors edit the same document. In such a case, two or more differences may occur in the original document at the same time, and the differences are merged. The above means that the document before and after editing is 2
It is characterized in that this difference management technique is used when both are stored (that is, when a backup is taken).

【0005】[0005]

【発明が解決しようとする課題】前述のように、従来の
文書差分管理については、いずれも前述課題の前半のシ
ステム的な面や既存文書の編集という使用状況を強く意
識したものになっているため、新規に作成する文書や新
たに入手した文書に関しては有効ではない。特に、前記
は編集中の文書に加えた「編集操作の入力列」を差分
管理の対象にしており、既存文書の編集以外の場面では
利用できない。また、前記〜でも既存文書の編集を
想定しているため、それらの中で用いられている文章差
分検出の対象は文書の表層文字列が主である。確かに既
存文書の編集という場面では多くの表現をすっかり入れ
替えるということを毎回操り返すわけではないため、表
層文字列の比較で十分に有効かもしれない。しかしなが
ら、新規に文書を作成する時には例え同じ作者であって
もあることを表現するのに微妙に異なる表現を利用する
場合がある。ましてや他から入手した文書においては表
層上全く同じ表現が用いられることは希である。したが
って表層文字列による差分管理では前述課題の後半のユ
ーザ的課題「いかに必要な情報だけを見付け提示する
か」に対応できない。
As described above, all of the conventional document difference management is strongly conscious of the system aspects in the first half of the above-mentioned problem and the usage of editing existing documents. Therefore, it is not effective for newly created documents or newly obtained documents. In particular, in the above, the "input sequence of the editing operation" added to the document being edited is subject to difference management, and cannot be used in situations other than editing of an existing document. Further, since the above-mentioned is also assumed to edit an existing document, the target of the sentence difference detection used in them is mainly the surface character string of the document. Certainly, in the case of editing an existing document, it is not effective to replace many expressions every time, so comparison of surface character strings may be effective. However, when a new document is created, a slightly different expression may be used to express that the same author exists. It is rare that the same expression is used on the surface in documents obtained from other sources. Therefore, the difference management based on the surface character string cannot cope with the user problem “how to find and present only necessary information” in the latter half of the above-mentioned problem.

【0006】例えば、下記文(A),文(B)について
検討する。それぞれ、ある作者のある研究に関する数年
を経た論文の1部であるとする。研究内容の差が2つの
文章の違いとなっていると考えられるため、2つの文書
の差分を検出するとその数年の間の研究の成果をすぐに
把握できる。前記で述べられている表層文字列の比較
する方式だと、文(A)との差分として文(B)の下線
部でマークした文字列を検出する。しかしながら、利用
者が読んで意味のある相違点(実質的に異なる点)はそ
の中でも実線下線で示した部分だけで、それ以外の破線
下線の部分は文(A)とほとんど同じ意味であり、わざ
わざこれらを差分として管理する必要はない。差分情報
に基づき2文書の相違点をユーザに提示する場合や、ま
た入手した文書から自分に不足している本当に必要な情
報だけを抽出する場面で差分管理を利用する情報フィル
タリングの場合である。
For example, consider the following sentence (A) and sentence (B). Let's say each is part of a multi-year-old dissertation on a research by an author. Since the difference between the research contents is considered to be the difference between the two sentences, if the difference between the two documents is detected, the result of the research for the past several years can be immediately grasped. According to the method of comparing the surface character strings described above, a character string marked with an underlined sentence (B) is detected as a difference from the sentence (A). However, the only differences (substantially different points) that are meaningful to the user when reading are the portions indicated by solid underlines, and the other portions under broken lines have almost the same meaning as sentence (A). There is no need to manage these as differences. This is a case where the difference between two documents is presented to the user based on the difference information, or a case where information filtering that uses difference management is used in a case where only the really necessary information missing from the obtained document is extracted from the obtained document.

【0007】(A)「一般に自然言語解析は、形態素解
析、構文解析、意味解析の3つのフェーズから構成され
る。曖昧性解消を目指した本システムでもこれら3つの
解析部を備える。本論文では3つの解析部の実現方法に
関して報告を行なう。」
(A) "In general, natural language analysis consists of three phases: morphological analysis, syntactic analysis, and semantic analysis. The present system aimed at ambiguity resolution also includes these three analysis units. I will report on how to implement the three analyzers. "

【0008】[0008]

【表1】 [Table 1]

【0009】本発明は、このような実情に鑑みてなされ
たもので、言語表現が多様な自然言語文章を比較するこ
とで自然言語文書ファイルの管理や検索を容易にする文
書記憶方式及び文書管理方式並びに文書表示方式を提供
することを目的としている。
The present invention has been made in view of such circumstances, and a document storage method and a document management system which facilitate management and retrieval of natural language document files by comparing natural language sentences having various linguistic expressions. It aims to provide a method and a document display method.

【0010】[0010]

【課題を解決するための手段】本発明は、上記の目的を
達成するために、自然言語で記述された文書ファイルに
対して記述内容である自然言語文章を解析する、形態素
解析部、構文解析部及び意味解析部からなる文解析手段
と、1文毎の構造から文章構造を構築する、同一オブジ
ェクト結合部及び同一関係認識部からなる文章構造構築
手段と、構築した構造を元に文書を記憶する文書記憶手
段と、格納された文章構造同士を比較することで既存の
文書から類似文書を検索し、類似文書間の差分を検出す
る類似文書検索手段と、検出した差分情報に基づき文書
を差分管理する文書差分管理手段と、管理する差分情報
に基づき、類似した文書間の相違箇所を意味ネットワー
ク上で区別して表示する相違箇所表示手段とを有するこ
とを特徴としたものである。
SUMMARY OF THE INVENTION In order to achieve the above object, the present invention provides a morphological analysis unit for analyzing a natural language sentence, which is a description content, of a document file described in a natural language. Sentence analysis means consisting of a part and a semantic analysis part, a sentence structure construction means consisting of the same object connection part and the same relation recognition part for constructing a sentence structure from the structure of each sentence, and storing a document based on the constructed structure A similar document search unit that searches for a similar document from an existing document by comparing stored document structures with each other, and detects a difference between the similar documents, and compares the document based on the detected difference information. Based on the document difference management means to be managed and the difference information to be managed, the difference
And a different part display means for distinguishing and displaying the different parts on the screen.

【0011】[0011]

【作用】自然言語で記述された文書ファイルに対して記
述内容である自然言語文章を解析し、1文毎の構造から
文章構造を構築し、構築した構造を元に文書を記憶でき
る。さらに、ここで格納された文章構造同士を比較する
ことで既存の文書から類似文書を検索して類似文書間の
差分を検出し、検出した差分情報に基づき文書を差分管
理できる。さらに、ここで管理する差分情報に基づき、
類似した文書間の相違箇所を、意味ネットワーク上で
別して表示して、作成日、作成者、キーワードなどの属
性別に使用者にわかりやすく表示できる。この結果、類
似した段落や文を削除し、文書を要約したり、ある特定
のテーマに関する類似した文書を集め、その相違点を提
示したりすることで、今後ますます増加するであろう自
然言語で記述された文書ファイルの管理が容易になる。
The present invention can analyze a natural language sentence, which is a description content, of a document file described in a natural language, construct a sentence structure from a structure for each sentence, and store a document based on the constructed structure. Further, by comparing the sentence structures stored here, a similar document is retrieved from an existing document, a difference between the similar documents is detected, and the document can be managed based on the detected difference information. Furthermore, based on the difference information managed here,
A different part between the similar document, to display to distinguish on the meaning network, creation date, author, can be displayed on an easy-to-understand to the user by attributes such as keywords. As a result, the natural language that is likely to increase in the future by removing similar paragraphs and sentences, summarizing documents, or collecting similar documents on a particular subject and presenting the differences The management of the document file described in the above becomes easy.

【0012】[0012]

【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による文書記憶方式及び文書管理
方式並びに文書表示方式の一実施例を説明するための構
成図で、図中、1は制御部、2は表示部、3は入力部、
4は文解析部、5は文章構造構築部、6は類似文書検索
部、7は差分管理部、8は相違箇所表示部である。制御
部1は日本語入力のため仮名漢字変換などのプログラム
やテーブル・文章バッファ・外部記憶装置など以下に明
記するものを含んでいる。表示部2はCRT(Cathode
Ray Tube)またはLCD(液晶ディスプレイ)等からな
る。入力部3はキーボード等からなる。文解析部4は漢
字交じり文字列の文解析を行う。文章構造構築部5は文
解析の結果である文構造を蓄積する。類似文書検索部6
は類似文書を検索する。差分管理部7は類似文書間の差
分を管理する。相違箇所表示部8は差分を利用者にわか
りやすく提示する。
Embodiments will be described below with reference to the drawings. FIG. 1 is a configuration diagram for explaining an embodiment of a document storage system, a document management system, and a document display system according to the present invention. In the drawing, 1 is a control unit, 2 is a display unit, 3 is an input unit,
Reference numeral 4 denotes a sentence analysis unit, 5 denotes a sentence structure construction unit, 6 denotes a similar document search unit, 7 denotes a difference management unit, and 8 denotes a different part display unit. The control unit 1 includes a program for kana-kanji conversion, a table, a sentence buffer, an external storage device, and the like, which are described below, for inputting Japanese. The display unit 2 is a CRT (Cathode
Ray Tube) or LCD (Liquid Crystal Display). The input unit 3 includes a keyboard and the like. The sentence analysis unit 4 performs sentence analysis of a character string mixed with kanji. The sentence structure construction unit 5 accumulates a sentence structure as a result of the sentence analysis. Similar document search unit 6
Searches for similar documents. The difference management unit 7 manages differences between similar documents. The difference point display unit 8 presents the difference to the user in an easily understandable manner.

【0013】図2は、図1における文解析部の構成図
で、図中4aは形態素解析部、4bは構文解析部、4c
は意味解析部である。形態素解析部4aは、文を形態
素、文節に区切り形態素情報を付加する。構文解析部4
bは、文節の間の係受け関係をチェックする構文解析部
である。意味解析部4cは係受け関係をもとに用言を中
心とした格関係を抽出する意味解析部である。
FIG. 2 is a block diagram of the sentence analyzer in FIG. 1. In FIG. 2, reference numeral 4a denotes a morphological analyzer, 4b denotes a syntax analyzer, 4c.
Is a semantic analysis unit. The morphological analyzer 4a adds sentence morpheme information to morphemes and phrases. Syntax analyzer 4
b is a syntactic analysis unit that checks the dependency relationship between phrases. The semantic analysis unit 4c is a semantic analysis unit that extracts a case relation centered on a word based on the dependency relation.

【0014】図3は、図1における文章構造構築部の構
成図で、図中、5aは同一オブジェクト結合部、5bは
同一関係認識部である。同一オブジェクト結合部5aは
同じ事物を指示するが文章中では異なる表現で示される
名詞どうしを結合する。同一関係認識部5bは同じ関係
を表現している用言(動詞,形容詞,形容動詞,助動
詞)や副詞を認識する。
FIG. 3 is a block diagram of the sentence structure construction unit in FIG. 1. In FIG. 3, reference numeral 5a denotes the same object connection unit, and 5b denotes the same relation recognition unit. The same object connection unit 5a connects the nouns indicating the same thing but different expressions in the text. The same relation recognition unit 5b recognizes a verb (verb, adjective, adjective verb, auxiliary verb) or an adverb expressing the same relation.

【0015】図4は、文を意味解析する時に参照する言
語データの一例として動詞に関するデータを示してい
る。図2の意味解析部4cで利用される。図5(a)〜
(c)は、図1中の文章構造構築部の処理例を示してい
る。例文「私がパンを買った。太郎がそれを食べた」を
文解析すると用言を中心とした2つの格構造である図
(a)、図(b)が抽出できる。文節毎に1つのレコー
ドが割り当てられている。図面上は表層文字列が格納さ
れているが、ここへ辞書へのポインタを格納することで
メモリの効率化も可能である。それらの構造を文章構造
構築部に与えると第2文中の「それ」が「パン」である
ことを判断し、図(c)のように「それ」と「パン」の
結合(ポインタのリンク)が行われる(図3の同一オブ
ジェクト結合部5a)。このように入力文をそのまま記
憶するのではなく構造化を図るので、例えば「私が買っ
たパンを太郎が食ベた」を入力しても同じ構造を得るこ
とになる。
FIG. 4 shows data relating to a verb as an example of language data to be referred to when performing a semantic analysis of a sentence. It is used by the semantic analysis unit 4c of FIG. FIG.
(C) shows a processing example of the sentence structure construction unit in FIG. 1. When the example sentence "I bought bread. Taro ate it" is analyzed, it is possible to extract figures (a) and (b), which are two case structures centered on verbs. One record is assigned to each clause. Although a surface character string is stored in the drawing, the efficiency of the memory can be increased by storing a pointer to the dictionary here. When these structures are given to the sentence structure structuring unit, it is determined that "it" in the second sentence is "pan", and as shown in FIG. (The same object connection unit 5a in FIG. 3). Since the input sentence is structured rather than stored as it is, the same structure can be obtained even if, for example, "Taro eats the bread I bought" is input.

【0016】図6は、図1中の差分管理部で用いられる
ファイル構造例を示す。差分管理用に図5の構造に差分
管理用の2つのフィールドを追加している。それぞれ
「差分情報リスト」と「ファイルID」である。差分情
報リストは相違内容をリスト構造で連結している。最終
要素には*が入る。ファイルIDは比較相手の文書ID
を示す。ファイル更新前後のファイルならば日付、バー
ジョン番号などが入る。全く別のファイルならばファイ
ル名などが入る。図5で用いた例文「私がパンを買っ
た。太郎がそれを食べた」のファイル構造を図6(a)
に示す。差分情報リストは全て*で他に差分候補がない
ことを示す。ファイルIDはすべてt1に統一されてい
る。この文の蓄積後に別の文書t2中の例文「私が買っ
たパンを次郎と三郎が食ベた」を与えた後のファイル構
造を図6(b)に示す。太郎の差分情報リストにアドレ
ス<7>が入っており、アドレス<7>の内容は「次郎
と三郎」を表す意味構造の先頭要素である「AND」が
格納されている。「次郎と三郎」のファイルIDはt2
になっている。
FIG. 6 shows an example of a file structure used in the difference management unit in FIG. Two fields for difference management are added to the structure of FIG. 5 for difference management. They are "difference information list" and "file ID", respectively. The difference information list links the difference contents in a list structure. * Is entered in the last element. File ID is the document ID of the comparison partner
Is shown. For files before and after file update, date, version number, etc. are entered. If it is a completely different file, enter the file name. The file structure of the example sentence "I bought bread. Taro ate it" used in FIG. 5 is shown in FIG.
Shown in In the difference information list, * indicates that there are no other difference candidates. All file IDs are unified to t1. FIG. 6B shows the file structure after the example sentence “Jiro and Saburo ate the bread I bought” in another document t2 after the accumulation of this sentence. Address <7> is included in Taro's difference information list, and the content of address <7> stores "AND" which is the first element of the semantic structure representing "Jiro and Saburo". The file ID of "Jiro and Saburo" is t2
It has become.

【0017】ここでファイル構造からもとの内容を復元
する手段について説明する。またファイルIDがt1で
あるレコードを連結していけばファイルt1の内容が復
元できる。差分情報が*であるレコードを連結していけ
ば最終バージョン(であるファイルt2)の内容が復元
できる。また中間バージョンを復元するにはそれらを組
み合わせればよい。連結の順番は表層文をレコードに分
離する文解析部で用いた言語知識を利用していけばよ
い。
Here, means for restoring the original contents from the file structure will be described. If the records with the file ID t1 are linked, the contents of the file t1 can be restored. If records having difference information of * are linked, the contents of the final version (the file t2) can be restored. To restore the intermediate version, they can be combined. The order of connection may be determined by using the linguistic knowledge used in the sentence analysis unit that separates the surface sentence into records.

【0018】図7は、本発明の各種方式の処理フローを
示す図である。以下、各ステップに従って順に説明す
る。なお、図9及び図10は、ある研究者のある研究テ
ーマに関する時間を経た新旧2つの論文の一部分であ
る。まず、図4に示した動詞データを利用しながら、図
9の指定された文の解析を行う(step1)。この文解析
の結果を前文までの解析結果があればそれと併せて記憶
する(step2)。図9の残りの文に関して解析・蓄積を
繰り返し(step3)、図9の文書全体の文章構造を構築
する。
FIG. 7 is a diagram showing a processing flow of various methods of the present invention. Hereinafter, the steps will be sequentially described. 9 and 10 are a part of two old and new papers on a certain research theme of a certain researcher. First, the designated sentence in FIG. 9 is analyzed using the verb data shown in FIG. 4 (step 1). The sentence analysis result is stored together with the analysis result up to the previous sentence, if any (step 2). The analysis and accumulation of the remaining sentences in FIG. 9 are repeated (step 3), and the sentence structure of the entire document in FIG. 9 is constructed.

【0019】図11は、図9の論文の文章解析の結果を
表現した一般的な意味ネットワークである。“報告す
る”“報告される”などの楕円ノードは「用言」を表
し、“自然言語解析”“本論文”などの矩形ノードは
「体言」を表す。ノード間の有向アークはそれらの語句
間に関係があることを表す。例えば、体言ノードから用
言ノードへの有向アークは格フレームのまとまり関係を
表す。次に、図10の論文に関しても同様に解析して文
章構造を構築する。図12がその結果となる。この時点
で、図9の文書の文章構造(すなわち図11)との比較
を行う(step4)。なお、step4の比較手順については
図8に基づいて後述する。
FIG. 11 is a general semantic network expressing the result of the sentence analysis of the paper of FIG. Elliptical nodes such as “report” and “reported” represent “declinations”, and rectangular nodes such as “natural language analysis” and “this paper” represent “nominal”. Directed arcs between nodes indicate that there is a relationship between those phrases. For example, a directed arc from a nodal node to a verbal node indicates a united relationship of case frames. Next, the document of FIG. 10 is similarly analyzed to construct a sentence structure. FIG. 12 shows the result. At this point, a comparison is made with the sentence structure of the document in FIG. 9 (that is, FIG. 11) (step 4). The comparison procedure of step 4 will be described later with reference to FIG.

【0020】類似した構造を有する文書があれば(step
5)、両者の相違点、すなわち上記アルゴリズム中で
「対応しない」と判定した体言や用言を利用者に提示す
る(step6)。破線枠および網掛け部分が、両論文の間
で内容的に相違がある箇所である。ここの例では“ユー
ザインタフェース”に関する部分が新しく加わった構造
である。言うならば“ユーザインタフェース”に関する
記述部分が新旧2つの論文が作成された間の研究の進展
部分であり、読者がこの研究者の一連の研究をサーベイ
するために論文を読む際に注目すればよい箇所である。
If there is a document having a similar structure (step
5) The difference between the two, that is, the nomenclature or declinable word determined to be “not compatible” in the above algorithm is presented to the user (step 6). The dashed frame and the shaded portion are places where there is a difference in content between the two papers. In this example, the structure relating to the “user interface” is newly added. In other words, the description of the "user interface" is the progress of the research between the two new and old papers, and if readers pay attention when reading the paper to survey this researcher's series of research, It is a good place.

【0021】また、この比較結果を利用して類似した複
数文書の管理の効率化を図る。すなわち、最初の図9の
論文は全て記憶しておき、図10の論文は図9との差分
だけを記憶する(step7)ことで、2つの文書すべてを
記憶するより容量的に効率よく文書ファイルを管理でき
る。
Further, the efficiency of management of a plurality of similar documents is improved by utilizing the comparison result. That is, the first paper in FIG. 9 is stored, and only the difference from FIG. 9 is stored in the paper in FIG. 9 (step 7). Can be managed.

【0022】図8は、図7におけるstep4(既存文書と
の文章構造の比較)の手順を示すフローチャートであ
る。すなわち、図1における類似文書検索部で行われる
類似文書の判定に必要な文章構造の比較に関するフロー
チャートである。以下、各ステップに従って順に説明す
る。まず、2つの文章構造をそれぞれについて用言(楕
円ノード)を集める(step4-1)。その中に対応する2
つの用言があれば(step4-2)、それらの用言に係って
いる体言同士を順次比較する(step4-3)。図11及び
図12は、例えば“報告する”が対応する用言であり、
それには“本論文”“実現方法”“概要”などの体言が
係っている。逆に“選択できる”が一方にしかない用言
である。すなわち、図11及び図12は、図9及び図1
0の2文を図1における相違箇所表示部により提示した
結果の例である。ここでは意味ネットワークに基づき、
相違箇所を網掛けすることで利用者に2つの文書の内容
をわかりやすく提示している。
FIG. 8 is a flowchart showing the procedure of step 4 (comparison of the sentence structure with the existing document) in FIG. That is, it is a flowchart relating to comparison of a sentence structure necessary for determination of a similar document performed by the similar document search unit in FIG. Hereinafter, the steps will be sequentially described. First, utterances (elliptical nodes) are collected for each of the two sentence structures (step 4-1). 2 corresponding to it
If there are two verbs (step 4-2), the nominatives related to those verbs are sequentially compared (step 4-3). FIG. 11 and FIG. 12 are terms corresponding to “report”, for example.
It involves statements such as "this paper", "realization method", and "outline". Conversely, "selectable" is a word that can only be found on one side. That is, FIGS. 11 and 12 correspond to FIGS.
2 is an example of a result of presenting two sentences of 0 on a different part display unit in FIG. 1. Here, based on the semantic network,
The contents of the two documents are presented to the user in an easy-to-understand manner by shading the differences.

【0023】次に、対応する体言があれば(step4-
5)、その体言に係っている用言同士の比較を行う(ste
p4-6)。ここでは“本論文”“実現方法”が対応する
体言であり、逆に“概要”が対応しない体言である。さ
らに、体言同士の比較が終了した時(step4-4)に対応
する体言が多ければ(step4-7)、その体言が係る用言
は「対応する」と判定し、逆に少なければ「対応しな
い」と判定する(step4-8)。なお、これは前記step4
-2 で行った判定を覆したことになる。図11及び図1
2の場合、“構成される”に関しては完全に対応し、
“報告する”“備える”に関しても係っている体言に対
応が多いことから「対応する」と判定する。
Next, if there is a corresponding noun (step 4-
5) Compare the adjectives related to the noun (ste
p4-6). Here, "this paper" and "realization method" are the corresponding nouns, and conversely, "outline" is the unsupported noun. Furthermore, when the comparison of the nominals ends (step 4-4), if there is a lot of the nominatives (step 4-7), the verb to which the nominates relate is determined to be "corresponding"; Is determined (step 4-8). Note that this is the same as step 4 above.
This means you overturned the decision made in -2. 11 and 1
In the case of 2, the “composed” is completely supported,
Since there are many correspondences regarding the nomenclature related to “report” and “provide”, it is determined that “corresponds”.

【0024】同様に、全ての用言同士の比較が終了する
と(step4-9)、2つの文章構造の比較が終了したこと
になるので、最後に文書の類似の判定を行う(step4-1
0)。そこでは、一致した用言が多ければその文章構造
は類似していると判定でき、逆に少なければ文章構造は
類似していないものと判定する。図11及び図12の場
合だと、対応する用言は“構造される”“報告する”
“備える”で対応しない用言は“選択できる”だけなの
で図11及び図12は類似した文書と判定する。
Similarly, when the comparison of all the declinable words is completed (step 4-9), the comparison of the two sentence structures is completed, and the similarity of the documents is finally determined (step 4-1).
0). In this case, it can be determined that the sentence structure is similar if there are many matching declinable words, and conversely, it is determined that the sentence structure is not similar if there are few matched declinable words. In the case of FIG. 11 and FIG. 12, the corresponding verbs are “structured” and “report”.
11 and 12 are determined to be similar documents because the only word that does not correspond to “include” is “selectable”.

【0025】[0025]

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)自然言語で記述された文書ファイルに対して記述
内容である自然言語文章を解析し、1文毎の構造から文
章構造を構築し、構築した構造を元に文書を記憶でき
る。 (2)前記文書記憶方式で格納された文章構造同士を比
較することで既存の文書から類似文書を検索して類似文
書間の差分を検出し、検出した差分情報に基づき文書を
差分管理できる。 (3)前記文書記憶方式で管理する差分情報に基づき、
類似した文書間の相違箇所を、意味ネットワーク上で
掛け等により区別して表示して使用者にわかりやすく表
示できる。 (4)前記(1)〜(3)により、類似した段落や文を
削除し、文書を要約したり、ある特定のテーマに関する
類似した文書を集め、その相違点を提示したりすること
で、今後ますます増加するであろう自然言語で記述され
た文書ファイルの管理が容易になる。
As apparent from the above description, the present invention has the following effects. (1) A natural language sentence, which is a description content, is analyzed for a document file described in a natural language, a sentence structure is constructed from a structure for each sentence, and a document can be stored based on the constructed structure. (2) By comparing sentence structures stored in the document storage method, a similar document is retrieved from an existing document to detect a difference between similar documents, and the document can be managed based on the detected difference information. (3) Based on the difference information managed by the document storage method,
The different part between similar documents, can be displayed intelligibly to a user and displayed distinguished by hatching or the like on the meaning network. (4) According to the above (1) to (3), similar paragraphs and sentences are deleted, a document is summarized, or similar documents on a specific theme are collected and their differences are presented. It will be easier to manage document files written in natural language, which will be increasing in the future.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明による文書記憶方式及び文書管理方式並
びに文書表示方式の一実施例を説明するための構成図で
ある。
FIG. 1 is a configuration diagram for explaining an embodiment of a document storage system, a document management system, and a document display system according to the present invention.

【図2】図1における文解析部の構成図である。FIG. 2 is a configuration diagram of a sentence analysis unit in FIG. 1;

【図3】図1における文章構造構築部の構成図である。FIG. 3 is a configuration diagram of a sentence structure construction unit in FIG. 1;

【図4】本発明における文を意味解析する時に参照する
言語データの一例として動詞に関するデータを示す図で
ある。
FIG. 4 is a diagram showing data related to a verb as an example of language data to be referred to when analyzing a sentence according to the present invention.

【図5】図1における文章構造構築部の処理例を示す図
である。
FIG. 5 is a diagram illustrating a processing example of a sentence structure construction unit in FIG. 1;

【図6】図1における差分管理部で用いられるファイル
構造例を示す図である。
FIG. 6 is a diagram illustrating an example of a file structure used in a difference management unit in FIG. 1;

【図7】本発明による各種方式の処理の流れを示すフロ
ーチャートである。
FIG. 7 is a flowchart showing the flow of processing of various methods according to the present invention.

【図8】図1における類似文章検索部の処理を示すフロ
ーチャートである。
FIG. 8 is a flowchart showing processing of a similar sentence search unit in FIG. 1;

【図9】本発明における実施例の説明で用いる例文を示
す図である。
FIG. 9 is a diagram showing an example sentence used in the description of the embodiment of the present invention.

【図10】本発明における実施例の説明で用いる他の例
文を示す図である。
FIG. 10 is a diagram showing another example sentence used in the description of the embodiment of the present invention.

【図11】図1における相違箇所表示部の表示例を示す
図である。
FIG. 11 is a diagram showing a display example of a different part display unit in FIG. 1;

【図12】図1における相違箇所表示部の他の表示例を
示す図である。
FIG. 12 is a diagram showing another display example of the different part display unit in FIG. 1;

【符号の説明】[Explanation of symbols]

1…制御部、2…表示部、3…入力部、4…文解析部、
5…文章構造構築部、6…類似文書検索部、7…差分管
理部、8…相違箇所表示部。
DESCRIPTION OF SYMBOLS 1 ... Control part, 2 ... Display part, 3 ... Input part, 4 ... Sentence analysis part,
5: sentence structure construction section, 6: similar document search section, 7: difference management section, 8: difference section display section.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 自然言語で記述された文書ファイルに対
して記述内容である自然言語文章を解析する、形態素解
析部、構文解析部及び意味解析部からなる文解析手段
と、 1文毎の構造から文章構造を構築する、同一オブジェク
ト結合部及び同一関係認識部からなる文章構造構築手段
と、 構築した構造を元に文書を記憶する文書記憶手段と、 格納された文章構造同士を比較することで既存の文書か
ら類似文書を検索し、類似文書間の差分を検出する類似
文書検索手段と、 検出した差分情報に基づき文書を差分管理する文書差分
管理手段と、 管理する差分情報に基づき、類似した文書間の相違箇所
を意味ネットワーク上で区別して表示する相違箇所表示
手段とを有することを特徴とする文書表示方式。
1. A sentence analyzing unit comprising a morphological analysis unit, a syntax analysis unit, and a semantic analysis unit for analyzing a natural language sentence, which is a description content, of a document file described in a natural language, and a structure for each sentence. By comparing the sentence structures with each other, the sentence structure construction means consisting of the same object connection part and the identity relation recognition part, which constructs a sentence structure from the document, and the document storage means storing the document based on the constructed structure. A similar document search unit that searches for similar documents from existing documents and detects differences between similar documents, a document difference management unit that manages differences between documents based on the detected difference information, document display method characterized by having a different part display means for displaying distinguished on mean network the different part between documents.
JP05131194A 1993-05-06 1993-05-06 Document display method Expired - Fee Related JP3139658B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05131194A JP3139658B2 (en) 1993-05-06 1993-05-06 Document display method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05131194A JP3139658B2 (en) 1993-05-06 1993-05-06 Document display method

Publications (2)

Publication Number Publication Date
JPH06318202A JPH06318202A (en) 1994-11-15
JP3139658B2 true JP3139658B2 (en) 2001-03-05

Family

ID=15052228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05131194A Expired - Fee Related JP3139658B2 (en) 1993-05-06 1993-05-06 Document display method

Country Status (1)

Country Link
JP (1) JP3139658B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3523027B2 (en) * 1996-09-13 2004-04-26 株式会社東芝 Information filtering apparatus and information filtering method
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
AR070182A1 (en) * 2008-01-15 2010-03-17 Thomson Reuters Glo Resources SYSTEMS METHODS AND SOFTWARE FOR THE REDACTION AND ANALYSIS OF MULTIFUNCTIONAL DOCUMENTS
JP5593687B2 (en) * 2009-11-30 2014-09-24 富士ゼロックス株式会社 Natural language processing program and natural language processing apparatus
JP6135327B2 (en) * 2013-06-20 2017-05-31 コニカミノルタ株式会社 Information processing apparatus, document data organizing apparatus, document presentation method, and computer program
JP6137960B2 (en) * 2013-06-21 2017-05-31 日本放送協会 Content search apparatus, method, and program
JP2021149426A (en) * 2020-03-18 2021-09-27 株式会社東芝 Information processing apparatus, information processing method and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221874A (en) * 1985-03-08 1986-10-02 Sharp Corp Data base converting system for natural language
JPS62139076A (en) * 1985-12-13 1987-06-22 Agency Of Ind Science & Technol Language analysis system
JPS6421624A (en) * 1987-07-17 1989-01-25 Nippon Telegraph & Telephone Japanese document retrieval system
JP2742115B2 (en) * 1989-12-01 1998-04-22 日本電信電話株式会社 Similar document search device
JPH04237365A (en) * 1991-01-21 1992-08-25 Fujitsu Ltd Difference detecting system and automatic editing system for text processor

Also Published As

Publication number Publication date
JPH06318202A (en) 1994-11-15

Similar Documents

Publication Publication Date Title
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US5850561A (en) Glossary construction tool
EP0283685B1 (en) A spelling assistance method for compound words
JP4544674B2 (en) A system that provides information related to the selected string
US7197449B2 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
WO2009154153A1 (en) Document search system
US20020046018A1 (en) Discourse parsing and summarization
US20160224537A1 (en) Method and system for machine-based extraction and interpretation of textual information
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2003288362A (en) Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
JP7168411B2 (en) Information processing system and information processing method
JP2001290843A (en) Device and method for document retrieval, document retrieving program, and recording medium having the same program recorded
JP3139658B2 (en) Document display method
Al-Aswadi et al. Enhancing relevant concepts extraction for ontology learning using domain time relevance
JPH08129554A (en) Relation expression extracting device and retrieval device for relation expression
JP4361299B2 (en) Evaluation expression extraction apparatus, program, and storage medium
JP2894301B2 (en) Document search method and apparatus using context information
JP2003108571A (en) Document summary device, control method of document summary device, control program of document summary device and recording medium
JP3856388B2 (en) Similarity calculation method, similarity calculation program, and computer-readable recording medium recording the similarity calculation program
JP3851712B2 (en) Document management system and computer-readable recording medium storing a program for causing a computer to function as the system
JP4985096B2 (en) Document analysis system, document analysis method, and computer program
RU2242048C2 (en) Method for automated processing of text information materials
Zhou et al. Wikipedia-graph based key concept extraction towards news analysis
Ferilli et al. On Frequency-Based Approaches to Learning Stopwords and the Reliability of Existing Resources—A Study on Italian Language
JPH10207896A (en) Method and device for retrieval term extension and method and device for information retrieval

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees