JPH04182871A - Similar document retrieval device - Google Patents

Similar document retrieval device

Info

Publication number
JPH04182871A
JPH04182871A JP2313745A JP31374590A JPH04182871A JP H04182871 A JPH04182871 A JP H04182871A JP 2313745 A JP2313745 A JP 2313745A JP 31374590 A JP31374590 A JP 31374590A JP H04182871 A JPH04182871 A JP H04182871A
Authority
JP
Japan
Prior art keywords
document
input
similar
search
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2313745A
Other languages
Japanese (ja)
Inventor
Kazuhiro Koike
和弘 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2313745A priority Critical patent/JPH04182871A/en
Publication of JPH04182871A publication Critical patent/JPH04182871A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To efficiently retrieve document which are similar to desired input condition at a high speed by giving an input document concept information on a meaning level and its partial product composite item as indexes, and performing unification retrieval for the indexes by using retrieval condition items in the same form. CONSTITUTION:A document input part 1 converts, for example, an input document 30 into an electronic input document 31 and a document analytic part 10 analyzes this electronic input document 31 and outputs the obtained concept information 32 in specific item form. Then a document retrieval part 12 converts this concept information 32 into retrieval conditions 33. Then the unification retrieval is performed for an index part 8 to obtain the storage address of a document having similar concept information and then obtains a set 34 of similar documents from a document data base 7 through a document data base control part 6. Consequently, the documents which are similar to desired input conditions can be retrieved efficiently at a high speed.

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は、文書を電子化して大量に蓄積した文書デー
タベースの中から入力条件と類似する文書を検索する類
似文書検索装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a similar document search device that searches for documents similar to input conditions from a document database that has been digitized and stored in large quantities.

[従来の技術] 第9図は情報処理学会第39回(平成元年後期)全国大
会IG−5で発表された「係り受は関係を用いた類似文
書検索システム」のブロック図で、図において(1)は
主にイメージリーグや文字認識部や自然言語入力部から
なる文書入力部、(2)は入力文書の構文解析及び索引
抽出処理を行う文書加工部、(3)は入力文書に類似す
る文書を文書データベース(7)から抽出する類似文書
検索部、(4)は単語辞書、(5)はシソーラス辞書、
(6)は文書データベース管理部、(7)は文書データ
ベースである。
[Prior Art] Figure 9 is a block diagram of the ``Similar Document Search System Using Dependency Relationships,'' which was presented at the Information Processing Society of Japan's 39th (late 1989) National Conference IG-5. (1) is a document input section that mainly consists of an image league, character recognition section, and natural language input section; (2) is a document processing section that performs syntax analysis and index extraction processing of the input document; and (3) is similar to the input document. a similar document search unit that extracts documents from a document database (7), (4) a word dictionary, (5) a thesaurus dictionary,
(6) is a document database management section, and (7) is a document database.

また文書加工部(2)において(2a)は形態素解析部
、(2b)は係り受は解析部、(2c)は索引抽出処理
部である。また類似文書検索部(3)において(3a)
はシソーラス展開部、(3b)は類似度計算部である。
In the document processing section (2), (2a) is a morphological analysis section, (2b) is a dependency analysis section, and (2c) is an index extraction processing section. Also, in the similar document search section (3), (3a)
is a thesaurus expansion section, and (3b) is a similarity calculation section.

次に動作について説明する。Next, the operation will be explained.

く入力文書を蓄積する場合〉 入力文書は文書加工部(2)で構文解析及び索引抽出処
理をされた後文書データベース管理部(6)を介して文
書データベース(7)に蓄積される。その際、文書加工
部(2)において、まず形態素解析部(2a)は単語辞
書(4)を用いて入力文書を単語単位、文節単位に分割
すると共に品詞情報、意味カテゴリ情報を付与し、次い
で係り受は解析部(2b)は日本語の曖昧さを減少させ
るために単語辞書(4)とシソーラス辞書(5)を用い
て文節の係りと受けの関係を一意に決定する。次いで索
引抽出処理部(2C)は文書中に出現している名詞相当
語句から不要語を除いた単語をキーワードとして抽出す
る。
Input documents are stored in a document database (7) via a document database management unit (6) after being subjected to syntactic analysis and index extraction processing in a document processing unit (2). At this time, in the document processing unit (2), the morphological analysis unit (2a) first divides the input document into word units and phrase units using the word dictionary (4), and adds part-of-speech information and semantic category information, and then The modification analysis unit (2b) uses a word dictionary (4) and a thesaurus dictionary (5) to uniquely determine the relationship between the dependency and the usage of a clause in order to reduce ambiguity in Japanese. Next, the index extraction processing unit (2C) extracts, as keywords, words obtained by removing unnecessary words from the noun-equivalent phrases appearing in the document.

〈入力文書に類似する文書を検索する場合〉検索条件と
なる入力文書を上2同様の処理で加工し、キーワードを
抽出した後、類似文書検索部(3)において、まずシソ
ーラス展開部(3a)は漏れの少ない検索を実現するた
めにシソーラス辞書(5)を用いてキーワードを同義語
及び類義語に展開し2、これらを基に文書データベース
管理部(6)を介して文書データベース(7)を検索し
、こうして膨大な数の類似文献候補が出力される。
<When searching for a document similar to an input document> After processing the input document that is the search condition using the same process as in the above 2 and extracting keywords, the similar document search section (3) first searches the thesaurus expansion section (3a). In order to achieve a search with fewer omissions, keywords are expanded into synonyms and synonyms using a thesaurus dictionary (5)2, and based on these, the document database (7) is searched via the document database management unit (6). However, in this way, a huge number of similar document candidates are output.

そこで、類似度計算部(3b)は、まず検索条件と各候
補文書間のキーワードの一致個数をカウントしてキーワ
ード包含率を検査し、キーワード包含率の高い候補に対
しては次いで係り受は関係の類似性を調べ、もし類似し
ていたら類似度を更に上げる等の処理を行う。こうし、
て各候補文書の類似度を決定し、類似度の高いものを検
索結果とするものである。
Therefore, the similarity calculation unit (3b) first checks the keyword inclusion rate by counting the number of matching keywords between the search condition and each candidate document, and then sets the dependency for candidates with a high keyword inclusion rate. Check the similarity of the two, and if they are similar, perform processing such as further increasing the degree of similarity. instructor,
The similarity of each candidate document is determined using the search method, and those with high similarity are selected as search results.

[発明が解決しようとする課題] 上2のような従来の類似文書の検索は以上のように行わ
れ、まずキーワード包含率を調べるためには膨大な量の
文書との間でキーワードの一致個数を検査しなければな
らず、さらにキーワード包含率が高いものを絞りこんだ
後は、係り受は関係の類似検査をしなければならない等
、処理が極めて非効率的であった。
[Problems to be Solved by the Invention] Conventional searches for similar documents as described in 2 above are performed as described above. First, in order to check the keyword inclusion rate, it is necessary to calculate the number of matching keywords among a huge number of documents. Furthermore, after narrowing down the keywords to those with a high keyword inclusion rate, it is necessary to check the similarity of the relationships between the dependencies, making the process extremely inefficient.

この発明はかかる課題を解決するためになされたもので
、入力条件と類似する文書を効率的かつ高速に検索でき
る類似文書検索装置を得ることを目的とする。
The present invention has been made to solve such problems, and an object of the present invention is to provide a similar document search device that can efficiently and quickly search for documents similar to input conditions.

[課題を解決するための手段] この発明にかかる類似文書検索装置は、文書を電子化し
て大量に蓄積した文書データベースの中から入力条件と
類似する文書を検索する類似文書検索装置において、入
力文書を文書データベースに蓄積する際に、該入力文書
を構文解析・意味解析することにより所定の項形式の概
念情報を形成する文書解析部と、前記形成された概念情
報及びその部分複合項の情報を索引として展開し、当該
入力文書に付与する索引作成部と、入力条件と類似する
文書を文書データベースから検索する際に、入力文書又
は自然言語入力に基づいて作成した前言己所定の項形式
の検索条件を前記索引に対して単一化検索する文書検索
部とを備えたものである。
[Means for Solving the Problems] A similar document search device according to the present invention searches for documents similar to input conditions from a document database that has been digitized and accumulated in large quantities. When storing the input document in a document database, a document analysis unit that forms conceptual information in a predetermined term format by syntactically and semantically analyzing the input document; An index creation unit that is developed as an index and given to the input document, and a search for a predetermined term format created based on the input document or natural language input when searching the document database for documents similar to the input conditions. and a document search unit that performs a unified search for conditions against the index.

[作用コ この発明における類似文書の検索は、まず入力文書を蓄
積する場合は、当該文書が意味する概念を所定の項形式
の概念情報で表すと共に、これをその部分複合項ととも
に当該文書の索引として付与して蓄積し、次いで入力条
件に類似する文書を検索する場合は、入力文書又は自然
言語入力に基づいて前記所定の項形式の検索条件を作成
し、これを前言己索引に対し2て単一化検索することに
より効率的かつ高速に類似文書を検索するものである。
[Operations] When searching for similar documents in this invention, first, when input documents are stored, the concept that the document means is expressed as concept information in a predetermined term format, and this is indexed together with its partial compound term. If you want to search for documents similar to the input conditions, create the search conditions in the predetermined term format based on the input documents or natural language input, and apply this to the previous word index. This method searches for similar documents efficiently and quickly by performing a unified search.

[実施例] 以下、この発明の一実施例を図面を用いて説明する。第
1図はこの発明の一実施例の類似文書検索装置のブロッ
ク図で、図において(1)は文書入力部、(10)は文
書解析部であり、入力文書を構文解析・意味解析するこ
とにより所定の項形式の概念情報を形成する。(11)
は索引作成部であり、文書解析の結果得られた概念情報
及びその部分複合項の情報を当該文書が検索される際の
索引として展開し、当該入力文書に付与する。(4)は
単語辞書であり、単語についての品詞情報、活用語尾変
化情報、格情報(深層路情報)、意味素性情報等を有す
る。(13)は文法規則辞書であり、文法規則を例えば
「名詞句−名詞 助詞」のような式で表したものの集合
である。(5)は個々の概念間の関連づけを記述したシ
ソーラス辞書、(6)は文書を蓄積管理する文書データ
ベース管理部、(7)は蓄積された文書の集合である文
書データベース、(12)は入力文書と類似する文書を
文書データベース(7)から文書データベース管理部(
6)を介して検索する文書検索部、(8)は索引等を配
憶する索引部である。
[Example] An example of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a similar document retrieval device according to an embodiment of the present invention. In the figure, (1) is a document input section, and (10) is a document analysis section, which analyzes the syntax and semantics of input documents. to form conceptual information in a predetermined term format. (11)
is an index creation unit, which develops conceptual information obtained as a result of document analysis and information on its partial compound terms as an index when the document is searched, and assigns it to the input document. (4) is a word dictionary, which includes part-of-speech information, conjugation inflection information, case information (deep path information), semantic feature information, etc. for words. (13) is a grammar rule dictionary, which is a collection of grammar rules expressed in expressions such as "noun phrase - noun particle". (5) is a thesaurus dictionary that describes the relationships between individual concepts, (6) is a document database management unit that stores and manages documents, (7) is a document database that is a collection of stored documents, and (12) is an input Documents similar to the document are retrieved from the document database (7) by the document database management department (
6) is a document retrieval unit that performs a search, and (8) is an index unit that stores an index and the like.

また文書解析部(10)において、(10a)は形態素
解析部であり、入力文書中から単語辞書(4)を用いて
単語を抽出し、この単語を品詞に結び付け、さらにその
単語の活用語尾変化を認識し、後述の構文解析で使用す
る情報を得る処理を行う。(iob)は構文解析部であ
り、形態素解析部(10a)で得られた情報と文法規則
辞書(13)をもとに文法に基づいた構造を作る処理を
行う。(10e)は意味解析部であり、構文解析部(1
0b)により作られた構造から、単語辞書(4)にある
格情報をもとに格関係を解析し、文書が意味するところ
の概念を抽出する処理を行う。
In the document analysis unit (10), (10a) is a morphological analysis unit that extracts words from the input document using a word dictionary (4), associates these words with parts of speech, and furthermore, , and performs processing to obtain information used in syntax analysis described later. (iob) is a syntactic analysis unit, which performs processing to create a structure based on grammar based on the information obtained by the morphological analysis unit (10a) and the grammar rule dictionary (13). (10e) is a semantic analysis section, and a syntax analysis section (1
From the structure created by step 0b), the case relationships are analyzed based on the case information in the word dictionary (4), and the concept of the meaning of the document is extracted.

また文書検索部(12)において、(12a)はシソー
ラス辞書展開部であり、検索の漏れを防ぐために意味解
析部(l Oe)で抽出した各概念を表す語をシソーラ
ス辞書(5)を参照して同義語、類義語に展開する。(
12b)は検索条件作成部であり、シソーラス辞書展開
による検索範囲の爆発を防ぐために適当な条件に従って
検索条件式を作成する。(12c)は単一化検索処理部
であり、検索条件作成部(12b)で作成された検索条
件式で文書データベース(7)の索引に対して単一化(
ユニフィケーション)検索を行う。
In addition, in the document search unit (12), (12a) is a thesaurus dictionary expansion unit, which refers to the thesaurus dictionary (5) for words representing each concept extracted by the semantic analysis unit (lOe) to prevent omissions in the search. Expand into synonyms and synonyms. (
12b) is a search condition creation unit that creates a search condition expression according to appropriate conditions in order to prevent the search range from exploding due to thesaurus dictionary expansion. (12c) is a unification search processing unit, which performs unification (
Unification) Search.

次に動作について説明する。第2図は入力文書を文書デ
ータベースに蓄積する処理の流れを示す図で、図におい
て、まず文書入力部(])は人力文書(20)を電子計
算機で処理可能な電子イヒ入力文書(21)に変換し、
次いで文書解析部(10)はこの電子化入力文tF(2
1)を構文解析・意味解析して、その結果得られた所定
の項形式の概念情報(22)を出力する。次に索引作成
部(11)はこの概念情報(22)に従って索引(23
)を作成し、入力文書と共に文書データベース管理部(
6)に出力する。
Next, the operation will be explained. Figure 2 is a diagram showing the flow of processing for storing input documents in a document database. Convert to
Next, the document analysis unit (10) converts this electronic input text tF(2
1) is parsed and semantically analyzed, and conceptual information (22) in a predetermined term format obtained as a result is output. Next, the index creation unit (11) creates an index (23) according to this conceptual information (22).
) and send it to the document database management department (
6) Output.

第3図は文書解析部(10)の解析処理の詳細を示す図
で、文書入力部(1)より例えば図示のような電子化入
力文書(21)が入力されると、形態素解析部(10B
、)は単語辞書(4)の品詞情報、活用語尾変化情等を
用いて電子化入力文書(2])の形態素解析処理を行い
、その解析結果として図示のような形態素情報(21a
)を出力する。次いで構文解析部(fob)は文法規則
辞書(13)を参照することにより前記形態素情報(2
]、a)よりその係り受けの関係を記述した構文木(2
l b)を作成する。次に意味解析部(10c)は単語
辞書(4)の深層路情報を用いて前記構文木(21b)
から例えば図示のような項形式の概念情報(22)を得
る。ここで、深層路とは深層構造(文が表そうとする概
念の構造)においてそれぞね、の語を表す概念が動詞に
対してどのような役割を担うかを示すものである。
FIG. 3 is a diagram showing details of the analysis process of the document analysis unit (10). When an electronic input document (21) as shown is input from the document input unit (1), the morphological analysis unit (10B
, ) performs a morphological analysis process on the electronic input document (2]) using part of speech information, inflection information, etc. in the word dictionary (4), and as a result of the analysis, the morphological information (21a
) is output. Next, the syntactic analysis unit (fob) extracts the morphological information (2) by referring to the grammar rule dictionary (13).
], a), the syntax tree (2
Create l b). Next, the semantic analysis unit (10c) uses the deep path information of the word dictionary (4) to construct the syntax tree (21b).
For example, conceptual information (22) in the form of terms as shown in the figure is obtained. Here, the deep path indicates what role each concept representing the word plays with respect to the verb in the deep structure (the structure of the concept that the sentence attempts to express).

第4図は単語辞書(4)の一部を示す図で、図において
例えば見出し語「一定にする」は、その品詞が「動詞」
であり、この「動詞」に対して取り得る深層路としては
「動作主格、対象路、場所路、道具格」等があり、この
うち動作主格となり得るものの意味素性は「生物」又は
「無生物」であって、表層的(文に現される場合)には
助詞「が」又は「は」を伴って現れることを示している
。また、対象路となり得るものの意味素性は「状態」で
あって、表層的には助詞「を」を伴って現れることを示
し、ている。同様にして図には場所路、道具格の深層路
が示されており、また図示しないが他にも経験者格、源
泉格、目標格、時間路等が使われる。
Figure 4 is a diagram showing a part of the word dictionary (4).
The deep paths that can be taken for this "verb" include "action nominative, object nominative, place nominative, instrumental case", etc. Among these, the semantic feature of the action nominative is "animate" or "inanimate". This indicates that superficially (when it appears in a sentence) it appears with the particle ``ga'' or ``wa''. Furthermore, the semantic feature of something that can be a target path is ``state'', which superficially indicates that it appears with the particle ``wo''. Similarly, the diagram shows the deep path of the place path and instrumental case, and although not shown, other cases such as the experienced person case, the source case, the target case, and the time path are also used.

こうして意味解析部(10c)は、構文解析部(10b
)で得られた係り受は関係、すなわち構文木(2l b
)から上記のような単語辞書(4)の深層格情報と意味
素性情報とに基づいて夫々の格に適合する語を取り出し
、深層格情報にあてはめて行くことによって概念情報(
22)を作成する。
In this way, the semantic analysis unit (10c)
) is a relation, that is, a syntax tree (2l b
), words that fit each case are extracted based on the deep case information and semantic feature information of the word dictionary (4) as described above, and conceptual information (
22).

第5図は索引作成部(11)の処理の詳細を示す図で、
この索引作成部(11)では、まず項形式の概念情報(
22)から全ての部分複合項を抽出する。これを−船釣
に言うと、例えば概念情報がf(g (h (x) )
 、 g (y) )の形で表される時はその全ての部
分複合項とは、f(g (h (x) ) 、  g 
(y) )g (h (x) ) h (x) g (y) である。次いで索引作成部(11)は概念情報(22)
から抽出した全ての部分複合項を当該入力文書(20)
が検索される際のキー値として索引(23)に展開する
。これは、概念情報(22)に含まれる一部の概念につ
いての検索を可能にし、よりきめこまかな検索を可能に
するためである。例えば、「XとYを直列接続している
」といった概念を含む文書を検索したい場合等には、直
列接続する(対象格([X、Y] ))というキー値を
索引(23)から検索すれば良いことになる。勿論、概
念情報(22)の複合環自身も部分複合項と同様にキー
値である。次に索引作成部(11)は図示のようなキー
値と文書データベース(7)に置ける入力文書の格納ア
ドレスとを対応づけた表を作成し、これを索引(23)
とする。
FIG. 5 is a diagram showing details of the processing of the index creation section (11),
In this index creation unit (11), first, conceptual information in term form (
22). Extract all partial compound terms from 22). If we say this to boat fishing, for example, the conceptual information is f(g (h (x))
, g (y) ), all subcompound terms are f(g (h (x) ) , g
(y) ) g (h (x) ) h (x) g (y). Next, the index creation unit (11) generates conceptual information (22)
All partial compound terms extracted from the input document (20)
is expanded into the index (23) as a key value when searched. This is to enable a search for some concepts included in the concept information (22) and to enable a more detailed search. For example, if you want to search for documents that include the concept "X and Y are connected in series," search for the key value "Connect in series (objective ([X, Y]))" from index (23). It will be a good thing if you do. Of course, the composite ring itself of the conceptual information (22) is also a key value like the partial composite term. Next, the index creation unit (11) creates a table associating key values with storage addresses of input documents in the document database (7) as shown in the figure, and uses this table as an index (23).
shall be.

ここで、複合環とはPro l og言語で定義される
複合環と同じであり、 複合環:・=関数子(引数列) 間数子:・=アトム 引数列:・=引数1.引数2.。
Here, the compound ring is the same as the compound ring defined in the Prolog language, where compound ring: ·=function operator (argument string), interval number: ·=atom argument sequence: ·=argument 1. Argument 2. .

で表される。引数は複合環であっても良い。これによれ
ば概念情報(22)は関数子が「概念」で引数1の複合
環であり、しかもこの引数は「一定にする」という関数
子で、さらにその引数が複合環というように、入れ子(
ネスティング)構造になっている。
It is expressed as The argument may be a compound ring. According to this, concept information (22) is a complex ring whose functor is a "concept" and argument 1, and furthermore, this argument is a functor that says "make constant", and its argument is a complex ring, and so on. (
nesting) structure.

第6図は入力文書に類似する文書を文書データベースか
ら検索する処理の流れを示す図で、図において、まず文
書入力部(1)は例えば図示のような入力文書(30)
を電子化入力文書(31)に変換し、次いで文書解析部
(10)はこの電子化入力文書(31)を解析し、その
結果得られた所定の項形式の概念情報(32)を出力す
る。ここまでの処理は入力文書(20)を蓄積する場合
の処理と同じである。
FIG. 6 is a diagram showing the flow of processing for searching a document database for a document similar to an input document.
is converted into an electronic input document (31), and then the document analysis unit (10) analyzes this electronic input document (31) and outputs conceptual information (32) in a predetermined term format obtained as a result. . The processing up to this point is the same as the processing when storing the input document (20).

次に、文書検索部(12)はこの概念情報(32)を検
索条件(33)に変換し、索引部(8)に対して単一化
検索を行うことにより類似した概念情報をもつ文書の格
納アドレスを得、文書データベース管理部(6)を介し
て文書データベース(7)から類似文書の集合(34)
を得る。
Next, the document search unit (12) converts this conceptual information (32) into search conditions (33), and performs a unified search on the index unit (8) to find documents with similar conceptual information. Obtain the storage address and collect similar documents (34) from the document database (7) via the document database management unit (6).
get.

第7図は文書検索部(12)の処理の詳細を示す図で、
図において、まずシソーラス展開部(12a)はシソー
ラス辞書(5)を用いて概念情報(32)に現れる語を
同義語、類義語に展開し、こうしてシソーラス展開した
結果、複合環(32a)を得る。これは概念情報(32
)の語を同義語、類義語をOR結合した語の集合で置き
換えた形式ものである。シソーラス辞書(5)は関連す
る(例えば同義関係、類義関係、上位/下位関係等の)
語の表す概念と概念との間を関連づけたものであり、例
えば第8図はシソーラス辞書(5)の一部を表したもの
である。
FIG. 7 is a diagram showing details of the processing of the document search unit (12).
In the figure, first, a thesaurus expansion unit (12a) uses a thesaurus dictionary (5) to expand words appearing in the concept information (32) into synonyms and synonyms, and as a result of this thesaurus expansion, a compound ring (32a) is obtained. This is conceptual information (32
) is replaced with a set of synonyms and synonyms OR-combined. Thesaurus dictionary (5) is related (e.g. synonymous relations, similar relations, superordinate/subordinate relations, etc.)
It associates concepts expressed by words. For example, FIG. 8 shows a part of a thesaurus dictionary (5).

次に検索条件作成部(12b)’は複合環(32a)か
ら重要な又は注目する部分複合項のみを選択し、図示の
ような検索条件式(32b)を得る。ここでは対象格と
道具格を重要とした場合の例を示している。このように
、どの格が重要かという指定は、例えばあらかじめシス
テム定数として検索条件作成部(12b)に記憶させて
おく方法や、利用者が適宜指定する方法等が考えられる
。これはシソーラス辞書展開して検索の範囲を広げた結
果、語と語の組み合わせによる検索条件式数の爆発を防
ぐためである。
Next, the search condition creation unit (12b)' selects only important or noteworthy partial compound terms from the compound ring (32a) to obtain a search condition expression (32b) as shown. Here we show an example where the object case and the instrumental case are important. In this way, the designation of which case is important can be done by, for example, storing the case in advance as a system constant in the search condition creation unit (12b), or by allowing the user to designate it as appropriate. This is to prevent the number of search condition expressions from exploding due to combinations of words as a result of expanding the search range by expanding the thesaurus dictionary.

次に単一化検索処理部(12c)は、検索条件式(33
)の個々の複合環(Ctl、Cs]、。
Next, the unification search processing unit (12c) executes the search condition expression (33
) of the individual complex rings (Ctl, Cs],.

Cs2.・・・)で索引部(8)にある索引(23)の
各キー値を単一化検索し、単一化が成功したキー値に対
応する文書の格納アトし・スを得る。
Cs2. ) performs a unification search for each key value of the index (23) in the index section (8), and obtains the storage location of the document corresponding to the key value for which the unification was successful.

ここで単一化とはPro l og言語の単一化(ユニ
フィケーション)と同じであり、2つのパターン(構造
)をその中に現れる変数に適当な値を代入することによ
り1つのパターンとする機能と、2つのパターンの等値
付チエツクの機能がある。代入が成功あるいは等個性が
確かめられたときユニフィケーションが成功したという
Here, unification is the same as unification in the Pro log language, and is a function that turns two patterns (structures) into one pattern by assigning appropriate values to the variables that appear in them. There is a function to check the equality of two patterns. Unification is said to be successful when the assignment is successful or equiindividuality is confirmed.

例えば対象格(X)と対象格(抵抗)のユニフィケーシ
ョンは、 対象格=:=対象格(等値) 抵抗  ′3 X  (代入) となり、成功する。
For example, the unification of object case (X) and object case (resistance) is successful, as object case =:=object case (equivalence) resistance '3 X (assignment).

なお、上記実施例では類似文書の検索をする場合に、検
索条件となる文書を文書解析部(10)によって解析し
、文書検索部(12)で検索条件式を自動生成したが、
例えば「Xとyを直列接続している」といった概念を含
む文書を検索したい場合等に、直列接続する(対象格(
「X。
In the above embodiment, when searching for similar documents, the document analysis unit (10) analyzes the document serving as the search condition, and the document search unit (12) automatically generates the search condition expression.
For example, when you want to search for documents that include the concept "X and y are connected in series," you can connect them in series (object case (
“X.

yJ ) ) 、という検索条件を利用者が自分で作成
して検索しても良い。
yJ)), the user may create the search condition by himself/herself and perform the search.

また、対象格に対応する語が不明の場合には、例えばX
を論理変数として、直列接続する(対象格(X))とす
ることも可能である。
In addition, if the word corresponding to the target case is unknown, for example,
It is also possible to connect them in series (object case (X)) by using them as logical variables.

また、上記実施例では概念情報(22)から全ての部分
複合項を抽出したが、一定の条件のもとに部分複合項を
抽出しても良い。
Further, in the above embodiment, all partial compound terms are extracted from the concept information (22), but partial compound terms may be extracted under certain conditions.

[発明の効果] この発明は以上説明したように、入力文書に意味レベル
の概念情報とその部分複合項とを索引として付与し、こ
れと同形式の検索条件項で前記索引に対して単一化検索
をするので、所望の入力条件に類似する文書が効率的か
つ高速に検索できる効果がある。
[Effects of the Invention] As explained above, this invention adds conceptual information at the semantic level and its partial compound terms to an input document as an index, and performs a single search on the index using a search condition term in the same format. Since the search is performed based on the search criteria, documents similar to the desired input conditions can be searched efficiently and quickly.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の一実施例の類似文書検索装置のブロ
ック図、第2図は入力文書を文書データベースに蓄積す
る処理の流れを示す図、第3図は文書解析部(10)の
解析処理の詳細を示す図、第4図は単語辞書(4)の一
部を示す図、第5図は索引作成部(11)の処理の詳細
を示す図、第6図は入力文書に類似する文書を文書デー
タベースから検索する処理の流れを示す図、第7図は文
書検索部(12)の処理の詳細を示す図、第8図はシソ
ーラス辞書(5)の一部を示す図、第9図は情報処理学
会第39回(平成元年後期)全国大会IG−5で発表さ
れた「係り受は関係を用いた類似文書検索システム」の
ブロック図である。 図において(1)は文書入力部、(2)は文書加工部、
(2a)は形態素解析部、(2b)は係り受は解析部、
(2C)は索引抽出処理部、(3)は類似文書検索部、
(3a)はシソーラス展開部、(3b)は類似度計算部
、(4)は単語辞書、(5)はシソーラス辞書、(6)
は文書デー=タベース管理部、(7)は文書データベー
ス、(8)は索引部、(10)は文書解析部、(10a
)は形態素解析部、(10b)は構文解析部、(10e
)は意味解析部、(11)は索引作成部、(12)は文
書検索部、(12a)はシソーラス辞書展開部、(12
b)は検索条件作成部、(12c)は単一化検索処理部
、(13)は文法規則辞書である。 なお、各図中同一符号は同−又は相当部分を示すものと
する。
FIG. 1 is a block diagram of a similar document search device according to an embodiment of the present invention, FIG. 2 is a diagram showing the flow of processing for storing input documents in a document database, and FIG. 3 is an analysis diagram of the document analysis unit (10). A diagram showing details of the processing, FIG. 4 is a diagram showing a part of the word dictionary (4), FIG. 5 is a diagram showing details of the processing of the index creation unit (11), and FIG. 6 is similar to the input document. FIG. 7 is a diagram showing the process flow of searching a document from a document database; FIG. 7 is a diagram showing details of the processing of the document search unit (12); FIG. 8 is a diagram showing a part of the thesaurus dictionary (5); FIG. The figure is a block diagram of the ``Similar Document Search System Using Dependency Relationships,'' which was presented at the 39th (late 1989) national convention of the Information Processing Society of Japan, IG-5. In the figure, (1) is the document input section, (2) is the document processing section,
(2a) is the morphological analysis part, (2b) is the modification part of the analysis part,
(2C) is an index extraction processing unit, (3) is a similar document search unit,
(3a) is thesaurus expansion part, (3b) is similarity calculation part, (4) is word dictionary, (5) is thesaurus dictionary, (6)
is a document database management section, (7) is a document database, (8) is an index section, (10) is a document analysis section, (10a)
) is the morphological analysis unit, (10b) is the syntactic analysis unit, (10e
) is a semantic analysis unit, (11) is an index creation unit, (12) is a document search unit, (12a) is a thesaurus dictionary development unit, (12
b) is a search condition creation section, (12c) is a unification search processing section, and (13) is a grammar rule dictionary. Note that the same reference numerals in each figure indicate the same or corresponding parts.

Claims (1)

【特許請求の範囲】 文書を電子化して大量に蓄積した文書データベースの中
から入力条件と類似する文書を検索する類似文書検索装
置において、 入力文書を文書データベースに蓄積する際に、該入力文
書を構文解析・意味解析することにより所定の項形式の
概念情報を形成する文書解析部と、 前記形成された概念情報及びその部分複合項の情報を索
引として展開し、当該入力文書に付与する索引作成部と
、 入力条件と類似する文書を文書データベースから検索す
る際に、入力文書又は自然言語入力に基づいて作成した
前記所定の項形式の検索条件を前記索引に対して単一化
検索する文書検索部とを備えたことを特徴とする類似文
書検索装置。
[Claims] In a similar document search device that searches for documents similar to input conditions from a document database that has been digitized and stored in large quantities, when storing input documents in the document database, the input document is A document analysis unit that forms conceptual information in a predetermined term format through syntactic analysis and semantic analysis, and an index creation unit that develops the formed conceptual information and its partial compound term information as an index and adds it to the input document. and a document search that performs a unified search of the predetermined term-format search conditions created based on the input document or natural language input against the index when searching the document database for documents similar to the input conditions. A similar document retrieval device comprising:
JP2313745A 1990-11-19 1990-11-19 Similar document retrieval device Pending JPH04182871A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2313745A JPH04182871A (en) 1990-11-19 1990-11-19 Similar document retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2313745A JPH04182871A (en) 1990-11-19 1990-11-19 Similar document retrieval device

Publications (1)

Publication Number Publication Date
JPH04182871A true JPH04182871A (en) 1992-06-30

Family

ID=18045022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2313745A Pending JPH04182871A (en) 1990-11-19 1990-11-19 Similar document retrieval device

Country Status (1)

Country Link
JP (1) JPH04182871A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185766A (en) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting keyword and storage medium storing keyword extraction program
KR100440906B1 (en) * 2001-02-15 2004-07-19 전석진 Method and system for indexing document
JP2010079915A (en) * 1997-07-22 2010-04-08 Microsoft Corp System for processing textual input using natural language processing technique

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079915A (en) * 1997-07-22 2010-04-08 Microsoft Corp System for processing textual input using natural language processing technique
JPH1185766A (en) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting keyword and storage medium storing keyword extraction program
KR100440906B1 (en) * 2001-02-15 2004-07-19 전석진 Method and system for indexing document

Similar Documents

Publication Publication Date Title
KR100546743B1 (en) Method for automatically creating a question and indexing the question-answer by language-analysis and the question-answering method and system
JP2742115B2 (en) Similar document search device
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
JPH0424869A (en) Document processing system
JP3577972B2 (en) Similarity determination method, document search device, document classification device, storage medium storing document search program, and storage medium storing document classification program
JP2011118689A (en) Retrieval method and system
JP2006065387A (en) Text sentence search device, method, and program
JP2000276487A (en) Method and device for instance storage and retrieval, computer readable recording medium for recording instance storage program, and computer readable recording medium for recording instance retrieval program
JPH1196177A (en) Method for generating term dictionary, and storage medium recording term dictionary generation program
JP4378106B2 (en) Document search apparatus, document search method and program
JPH04182871A (en) Similar document retrieval device
Revanth et al. Nl2sql: Natural language to sql query translator
KR20000036487A (en) A Database System for Korean-English Translation Using Information Retrieval Techniques
JP2005025555A (en) Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium with the program stored thereon
JPH0228769A (en) Automatic key word generating device
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP4635585B2 (en) Question answering system, question answering method, and question answering program
JPH0594478A (en) Image data base system
Bruder et al. GETESS: Constructing a linguistic search index for an Internet search engine
JPH0320866A (en) Text base retrieval system
JPH03229367A (en) Text base retrieving system
JP2003263428A (en) Method and device for interpreting meaning by collation with sentence pattern, computer program for carrying out the method, and storage medium recording computer program for carrying out the method
JP4543819B2 (en) Information search system, information search method, and information search program
JPH07325837A (en) Communication sentence retrieval device by abstract word and communication sentence retreival method by the abstract word
JPH0561902A (en) Mechanical translation system