JP2001155027A - Method, system and device for calculating similarity between documents, and recording medium recorded with program for similarity calculation - Google Patents

Method, system and device for calculating similarity between documents, and recording medium recorded with program for similarity calculation

Info

Publication number
JP2001155027A
JP2001155027A JP33638099A JP33638099A JP2001155027A JP 2001155027 A JP2001155027 A JP 2001155027A JP 33638099 A JP33638099 A JP 33638099A JP 33638099 A JP33638099 A JP 33638099A JP 2001155027 A JP2001155027 A JP 2001155027A
Authority
JP
Japan
Prior art keywords
vector
similarity
pattern
document
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP33638099A
Other languages
Japanese (ja)
Other versions
JP3690216B2 (en
Inventor
Naoki Fujita
直毅 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP33638099A priority Critical patent/JP3690216B2/en
Publication of JP2001155027A publication Critical patent/JP2001155027A/en
Application granted granted Critical
Publication of JP3690216B2 publication Critical patent/JP3690216B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a system and a method for retrieving similar document, by which much deeper meaning processing is made possible and the dealing of compound word or phrase can be facilitated. SOLUTION: This device is provided with a first vector generating means for counting the word frequency of a word string decomposed by a word retrieval means and generating a first vector based on the word dictionary of an input document, a first similarity calculating means for comparing the first vector with a vector stored in a first vector storage means and calculating similarity, a document pattern generating means for defining the arrangement of words as a document pattern, pattern retrieving means for scanning the document pattern on the basis of patterns stored in a pattern dictionary storage means and decomposing the document pattern into the arrangements of patterns and words a second vector generating means for counting the pattern frequency in the arrangements of patterns and words and generating a second vector based on the pattern dictionary of the input document, a second similarity calculating means for comparing the second vector with a vector stored in a second vector storage means and calculating similarity, and similarity merging means for merging and outputting the outputs of the first and second similarity calculating means.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は類似度計算技術に関
し、特に、検索や分類に利用して好適とされる類似文書
検索システム、類似文書検索方法および類似文書検索用
プログラムを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a similarity calculation technique, and more particularly to a similar document search system, a similar document search method, and a recording medium storing a similar document search program which are suitable for use in search and classification. .

【0002】[0002]

【従来の技術】情報検索の分野における従来の類似文書
検索方法として、例えば、文献1(G.Salton,M.McGill,
Introduction to Modern Information Retrieval, NewY
ork, McGraw-Hill, 1983)に記載されているように、文
書における単語の出現頻度を基に、文書の距離あるいは
類似度を計算する方法が知られている。この従来の類似
文書検索方法においては、各文書における単語の頻度ベ
クトルを求め、各々のベクトルに、TF・IDFと呼ば
れる重み付けを行ない、二つのベクトルのなす角度のコ
サイン値(cosθ=(x・y)/|x||y|、但し、(x・
y)は二つのベクトルx、yの内積、|x|、|y|は絶
対値)を文書間の類似度とする。TF・IDF法におい
て、単語の重要度は、出現頻度tfと、出現件数dfの
逆数idfを用いて定義され、カテゴリCiにおける単語
tkの重要度(重み)W(tk,Ci)は、W(tk,Ci)=tf(tk,C
i)log(Li/df(tk,Ci)+1)と表され、tf(tk,Ci)はカ
テゴリCiにおける単語tkの出現頻度、df(tk,Ci)は、
カテゴリCiにおける単語tkの出現件数、LiはカテゴリCi
における総テキスト件数を表している。
2. Description of the Related Art As a conventional similar document search method in the field of information search, for example, reference 1 (G. Salton, M. McGill,
Introduction to Modern Information Retrieval, NewY
As described in Ork, McGraw-Hill, 1983), a method of calculating the distance or similarity of a document based on the frequency of occurrence of a word in the document is known. In this conventional similar document search method, a frequency vector of a word in each document is obtained, each vector is weighted by TF / IDF, and a cosine value of an angle formed by the two vectors (cos θ = (x · y ) / | X || y | where (x
y) is the inner product of two vectors x and y, and | x | and | y | are absolute values) as the similarity between documents. In the TF / IDF method, the importance of a word is defined using an appearance frequency tf and the reciprocal idf of the number of occurrences df, and the word in the category Ci
The importance (weight) W (tk, Ci) of tk is W (tk, Ci) = tf (tk, C
i) log (Li / df (tk, Ci) +1), tf (tk, Ci) is the frequency of occurrence of word tk in category Ci, and df (tk, Ci) is
Number of occurrences of word tk in category Ci, Li is category Ci
Represents the total number of texts in.

【0003】また例えば特開平11−134359号公
報等には、2つの文書の類似度を計算するにあたり、入
力された2組の文書及び概要の形態素解析を行って単語
を抽出し、概要に含まれる単語に重み付けして、それぞ
れの文書に含まれる単語に基づいて2つの文書の類似度
を計算するようにした方法が提案されている。
In calculating the similarity between two documents, for example, Japanese Patent Application Laid-Open No. 11-134359 discloses a morphological analysis of two sets of input documents and a summary to extract words and include the words in the summary. A method has been proposed in which a word to be weighted is calculated and the similarity between two documents is calculated based on the word included in each document.

【0004】[0004]

【発明が解決しようとする課題】しなしながら、上記し
た従来の方法は下記記載の問題点を有している。
However, the above-mentioned conventional method has the following problems.

【0005】第1の問題点は、文書間の類似度の精度が
低い、ということである。
A first problem is that the accuracy of similarity between documents is low.

【0006】その理由は、単語ベクトルを基準とした浅
い意味処理しか行なっていないためである。
The reason is that only shallow semantic processing is performed based on a word vector.

【0007】第2の問題点は、複合語の扱いが難かし
い、ということである。
[0007] The second problem is that it is difficult to handle compound words.

【0008】その理由は、文書を一つのベクトルで表現
しようとしたためである。
The reason is that an attempt was made to represent a document with one vector.

【0009】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、より深い意味処
理ができる類似文書検索システム及び方法並びに記録媒
体を提供することにある。
Accordingly, the present invention has been made in view of the above problems, and an object of the present invention is to provide a similar document search system and method capable of performing deeper semantic processing, and a recording medium.

【0010】本発明の他の目的は、複合語や連語の扱い
が容易な類似文書検索システム及び方法並びに記録媒体
を提供することにある。
Another object of the present invention is to provide a similar document search system and method and a recording medium which can easily handle compound words and collocations.

【0011】[0011]

【課題を解決するための手段】前記目的を達成する本発
明の類似検索システムは、単語辞書に基づく第1の類似
度計算手段と、パタン辞書に基づく第2の類似度計算手
段と、2つの類似度から1つの類似度を計算する手段と
を備えている。
A similarity search system according to the present invention that achieves the above object comprises a first similarity calculator based on a word dictionary, a second similarity calculator based on a pattern dictionary, and two similarity calculators. Means for calculating one similarity from the similarity.

【0012】また本発明は、単語辞書に基づく第1の類
似度計算手段と、第1のパタン辞書に基づく第2の類似
度計算手段と、第2のパタン辞書に基づく第3の類似度
計算手段と、3つの類似度から1つの類似度を計算する
よう手段と、を備えている。
Further, the present invention provides a first similarity calculating means based on a word dictionary, a second similarity calculating means based on a first pattern dictionary, and a third similarity calculating based on a second pattern dictionary. Means and means for calculating one similarity from the three similarities.

【0013】[0013]

【発明の実施の形態】本発明の実施の形態について説明
する。本発明の装置は、その好ましい一実施の形態にお
いて、図1を参照すると、記憶された文書の単語辞書に
よる第1のベクトルを記憶する第1のベクトル記憶手段
(31)と、単語辞書を記憶する単語辞書記憶手段(3
2)と、記憶された文書のパタン辞書による第2のベク
トルを記憶する第2のベクトル記憶手段(33)と、パ
タン辞書を記憶するパタン辞書記憶手段(34)と、を
記憶装置(3)が備え、文書を入力する文書入力手段
(1)を備え、データ処理装置が、前記単語辞書記憶手
段(34)に記憶された単語により、入力された文書を
単語列に分解する単語検索手段(21)と、分解された
単語列の単語頻度を計数し、入力された文書の単語辞書
による第1のベクトルを生成する第1のベクトル生成手
段(22)と、前記第1のベクトル生成手段(22)で
生成された第1のベクトルと前記第1のベクトル記憶手
段(31)に記憶された第1のベクトルとを比較し、そ
の類似度を計算する第1の類似度計算手段(23)と、
前記単語検索手段(21)により分解された単語の配列
を文書パタンとする文書パタン生成手段(24)と、前
記パタン辞書記憶手段(34)に記憶されたパタンによ
り、文書パタンを走査し、パタンおよび単語の配列に分
解するパタン検索手段(25)と、パタンおよび単語の
配列のパタン頻度を計数し、前記入力された文書の前記
パタン辞書による第2のベクトルを生成する第2のベク
トル生成手段(26)と、第2のベクトル生成手段(2
6)で生成された第2のベクトルと前記第2のベクトル
記憶手段(33)に記憶された第2のベクトルとを比較
し、その類似度を計算する第2の類似度計算手段(2
7)と、第1の類似度計算手段(23)の出力と第2の
類似度計算手段(27)の出力を統合して1つの類似度
として出力する類似度統合手段(20)と、を備え、さ
らに、類似度統合手段(20)から出力された類似度を
出力する手段(4)を備えている。
Embodiments of the present invention will be described. In a preferred embodiment of the apparatus of the present invention, referring to FIG. 1, a first vector storage means (31) for storing a first vector according to a word dictionary of a stored document, and storing the word dictionary. Word dictionary storage means (3
2) a second vector storage unit (33) for storing a second vector of the stored document according to the pattern dictionary, and a pattern dictionary storage unit (34) for storing the pattern dictionary (3) And a document input means (1) for inputting a document, wherein the data processing device is configured to decompose the input document into a word string based on the words stored in the word dictionary storage means (34). 21), first vector generation means (22) for counting the word frequency of the decomposed word string, and generating a first vector of the input document based on the word dictionary, and the first vector generation means ( First similarity calculating means (23) for comparing the first vector generated in 22) with the first vector stored in the first vector storing means (31) and calculating the similarity thereof; When,
A document pattern is scanned by a document pattern generation unit (24) that uses a sequence of words decomposed by the word search unit (21) as a document pattern, and a pattern stored in the pattern dictionary storage unit (34). And a pattern search means (25) for decomposing into a sequence of words and a second vector generating means for counting a pattern frequency of the sequence of patterns and words and generating a second vector of the input document by the pattern dictionary (26) and the second vector generation means (2
A second similarity calculating means (2) for comparing the second vector generated in 6) with the second vector stored in the second vector storing means (33) and calculating the similarity thereof.
7) and similarity integration means (20) for integrating the output of the first similarity calculation means (23) and the output of the second similarity calculation means (27) and outputting the same as one similarity. And means (4) for outputting the similarity output from the similarity integrating means (20).

【0014】本発明は、別の実施の形態において、図3
を参照すると、記憶装置(3)が、記憶された文書の単
語辞書による第1のベクトルを記憶する第1のベクトル
記憶手段(31)と、単語辞書を記憶する単語辞書記憶
手段(32)と、記憶された文書のパタン辞書による第
2のベクトルを記憶する第2のベクトル記憶手段(3
3)と、第1のパタン辞書を記憶するパタン辞書記憶手
段(34)と、記憶された文書の第2のパタン辞書によ
る第3のベクトルを記憶する第3のベクトル記憶手段
(35)と、第2のパタン辞書を記憶する第2のパタン
辞書記憶手段(36)と、をさらに備え、データ処理装
置が、前記単語辞書記憶手段に記憶された単語により、
入力された文書を単語列に分解する単語検索手段(2
1)と、分解された単語列の単語頻度を計数し、入力さ
れた文書の単語辞書によるベクトルを生成する第1のベ
クトル生成手段(22)と、前記第1のベクトル生成手
段(22)で生成された第1のベクトルと前記第1のベ
クトル記憶手段(31)に記憶された第1のベクトルと
を比較し、その類似度を計算する第1の類似度計算手段
(23)と、前記単語検索手段(21)により分解され
た単語の配列を文書パタンとする文書パタン生成手段
(24)と、第1のパタン辞書記憶手段(34)に記憶
されたパタンにより、文書パタンを走査し、パタンおよ
び単語の配列に分解する第1のパタン検索手段(25)
と、パタンおよび単語の配列のパタン頻度を計数し、前
記入力された文書の前記第1のパタン辞書による第2の
ベクトルを生成する第2のベクトル生成手段(26)
と、第2のベクトル生成手段(26)で生成された第2
のベクトルと前記第2のベクトル記憶手段(33)に記
憶された第2のベクトルとを比較し、その類似度を計算
する第2の類似度計算手段(27)と、第2のパタン辞
書記憶手段(36)に記憶されたパタンにより、文書パ
タンを走査し、パタンおよび単語の配列に分解する第2
のパタン検索手段(28)と、パタンおよび単語の配列
のパタン頻度を計数し、前記入力された文書の前記第2
のパタン辞書による第3のベクトルを生成する第3のベ
クトル生成手段(29)と、第3のベクトル生成手段
(29)で生成された第3のベクトルと第3のベクトル
記憶手段(35)に記憶された第3のベクトルとを比較
し、その類似度を計算する第3の類似度計算手段(2
A)と、第1乃至第3の類似度計算手段の出力を統合し
て1つの類似度として出力する類似度統合手段(20)
と、を備えている。
The present invention, in another embodiment, is shown in FIG.
, A storage device (3) includes first vector storage means (31) for storing a first vector of a stored document in a word dictionary, word dictionary storage means (32) for storing a word dictionary, A second vector storage means (3) for storing a second vector of the stored document according to the pattern dictionary.
3), pattern dictionary storage means (34) for storing the first pattern dictionary, and third vector storage means (35) for storing a third vector of the stored document according to the second pattern dictionary. And a second pattern dictionary storage means (36) for storing a second pattern dictionary, wherein the data processing device is configured to:
Word search means (2) for decomposing an input document into word strings
1), a first vector generating means (22) for counting the word frequency of the decomposed word string and generating a vector of the input document according to the word dictionary, and a first vector generating means (22). First similarity calculating means (23) for comparing the generated first vector with the first vector stored in the first vector storage means (31) and calculating the similarity; The document pattern is scanned by a document pattern generation unit (24) that uses the arrangement of words decomposed by the word search unit (21) as a document pattern and a pattern stored in the first pattern dictionary storage unit (34). First pattern retrieval means for decomposing into patterns and word arrays (25)
A second vector generating means (26) for counting a pattern frequency of a pattern and a sequence of words and generating a second vector of the input document based on the first pattern dictionary.
And the second vector generated by the second vector generating means (26).
A second similarity calculating means (27) for comparing the vector of the second vector with the second vector stored in the second vector storing means (33) and calculating the similarity thereof; A second step of scanning the document pattern by the pattern stored in the means (36) and decomposing it into an array of patterns and words;
And a pattern search means (28) for counting the pattern frequency of the pattern and the sequence of words, and calculating the second
A third vector generating means (29) for generating a third vector based on the pattern dictionary of (3), and a third vector generated by the third vector generating means (29) and a third vector storing means (35). A third similarity calculating means (2) for comparing the stored third vector with the third vector and calculating the similarity.
A) and similarity integrating means (20) for integrating the outputs of the first to third similarity calculating means and outputting as one similarity
And

【0015】本発明の実施の形態において、データ処理
装置が具備する各手段は、データ処理装置で実行される
プログラムによりその処理・機能が実現される。この場
合、該プログラムを記録した記録媒体から所定の読み出
し装置を介してデータ処理装置の主記憶に実行形式のプ
ログラムをロードして実行することで、本発明を実施す
ることができる。
In the embodiment of the present invention, the processing and functions of each means of the data processing device are realized by a program executed by the data processing device. In this case, the present invention can be implemented by loading an executable program from a recording medium on which the program is recorded via a predetermined reading device into a main storage of the data processing device and executing the program.

【0016】[0016]

【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明の実施例について図面を参照
して詳細に説明する。図1は、本発明の第1の実施例の
構成を示す図である。図1を参照すると、本発明の第1
の実施例は、文書入力手段1と、プログラム制御により
動作するデータ処理装置2と、記憶装置3と、類似度出
力手段4と、を備えている。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of the present invention; FIG. 1 is a diagram showing the configuration of the first exemplary embodiment of the present invention. Referring to FIG. 1, a first embodiment of the present invention is shown.
The embodiment includes a document input unit 1, a data processing device 2 operated by program control, a storage device 3, and a similarity output unit 4.

【0017】データ処理装置2は、図1を参照すると、
類似度統合手段20と、単語検索手段21と、第1のベ
クトル生成手段22と、第1の類似度計算手段23と、
文書パタン生成手段24と、パタン検索手段25と、第
2のベクトル生成手段26と、第2の類似度計算手段2
7とを含む。
Referring to FIG. 1, the data processing device 2
A similarity integration means 20, a word search means 21, a first vector generation means 22, a first similarity calculation means 23,
Document pattern generation means 24, pattern search means 25, second vector generation means 26, second similarity calculation means 2
7 is included.

【0018】記憶装置3は、第1のベクトル記憶手段3
1と、単語辞書記憶手段32と、第2のベクトル記憶手
段33と、パタン辞書記憶手段34とを含む。
The storage device 3 comprises a first vector storage means 3
1, a word dictionary storage means 32, a second vector storage means 33, and a pattern dictionary storage means 34.

【0019】これらの手段はそれぞれ概略つぎのように
動作する。
Each of these means operates as follows.

【0020】文書入力手段1は、文書をデータ処理装置
2に入力する。
The document input means 1 inputs a document to the data processing device 2.

【0021】類似度出力手段4は、記憶された文書と入
力された文書の類似度を出力する。
The similarity output means 4 outputs the similarity between the stored document and the input document.

【0022】類似度統合手段20は、第1の類似度計算
手段23の出力と、第2の類似度計算手段27の出力を
統合して1つの類似度として出力する。
The similarity integrating means 20 integrates the output of the first similarity calculating means 23 and the output of the second similarity calculating means 27 and outputs the result as one similarity.

【0023】単語検索手段21は、単語辞書記憶手段3
2に記憶された単語により入力された文書を単語列に分
解する。
The word search means 21 is a word dictionary storage means 3
2 is decomposed into word strings by the words stored in the second word.

【0024】第1のベクトル生成手段22は、分解され
た単語列の単語頻度を計数し、入力された文書の単語辞
書によるベクトルを生成する。
The first vector generation means 22 counts the word frequencies of the decomposed word strings, and generates a vector of the input document based on the word dictionary.

【0025】第1の類似度計算手段23は、第1のベク
トル生成手段22で生成されたベクトルと第1のベクト
ル記憶手段31に記憶されたベクトルを比較し、その類
似度を計算する。
The first similarity calculating means 23 compares the vector generated by the first vector generating means 22 with the vector stored in the first vector storing means 31, and calculates the similarity.

【0026】文書パタン生成手段24は、単語検索手段
21により分解された単語の配列を文書パタンとする。
The document pattern generation means 24 uses the arrangement of words decomposed by the word search means 21 as a document pattern.

【0027】パタン検索手段25は、パタン辞書記憶手
段34に記憶されたパタンにより、文書パタンを走査
し、パタンおよび単語の配列に分解する。
The pattern search means 25 scans the document pattern by using the pattern stored in the pattern dictionary storage means 34 and decomposes the document pattern into an array of patterns and words.

【0028】第2のベクトル生成手段26は、パタンお
よび単語の配列のパタン頻度を計数し、入力された文書
のパタン辞書によるベクトルを生成する。
The second vector generation means 26 counts the pattern frequency of the pattern and the arrangement of words, and generates a vector of the input document by the pattern dictionary.

【0029】第2の類似度計算手段27は、第2のベク
トル生成手段26で生成されたベクトルと第2のベクト
ル記憶手段33に記憶されたベクトルを比較し、その類
似度を計算する。
The second similarity calculation means 27 compares the vector generated by the second vector generation means 26 with the vector stored in the second vector storage means 33, and calculates the similarity.

【0030】第1のベクトル記憶手段31は、記憶され
た文書の単語辞書によるベクトルを記憶する。
The first vector storage means 31 stores a vector of the stored document according to the word dictionary.

【0031】単語辞書記憶手段32は、単語検索手段2
1で利用する単語辞書を記憶する。
The word dictionary storage means 32 stores the word search means 2
The word dictionary used in step 1 is stored.

【0032】第2のベクトル記憶手段33は、記憶され
た文書のパタン辞書によるベクトルを記憶する。
The second vector storage means 33 stores a vector of the stored document according to the pattern dictionary.

【0033】パタン辞書記憶手段34は、パタン検索手
段25で利用するパタン辞書を記憶する。
The pattern dictionary storage means 34 stores a pattern dictionary used by the pattern search means 25.

【0034】次に図2は、本発明の第1の実施例の処理
手順を示す流れ図である。図1及び図2を参照して、本
発明の第1の実施例の全体の動作について詳細に説明す
る。
FIG. 2 is a flowchart showing a processing procedure according to the first embodiment of the present invention. The overall operation of the first embodiment of the present invention will be described in detail with reference to FIGS.

【0035】まず、文書をデータ処理装置2に入力する
(図2のステップS1)。
First, a document is input to the data processing device 2 (step S1 in FIG. 2).

【0036】次に、単語検索を行ない文書を単語列に置
き換える(ステップS2)。
Next, a word search is performed to replace the document with a word string (step S2).

【0037】さらに、単語の頻度を計数し第1のベクト
ルを生成する(ステップS3)。
Further, the frequency of words is counted to generate a first vector (step S3).

【0038】さらに、生成されたベクトルと第1のベク
トル記憶手段31に記憶されたベクトルとの間で、第1
の類似度の計算を行なう(ステップS4)。
Further, the first vector is stored between the generated vector and the vector stored in the first vector storage means 31.
Is calculated (step S4).

【0039】次に、単語列を文書パタンとみなし(ステ
ップS5)、文書パタンに対してパタン検索を行ない文
書をパタン列に置き換える(ステップS6)。
Next, the word string is regarded as a document pattern (step S5), and a pattern search is performed on the document pattern to replace the document with the pattern string (step S6).

【0040】パタンの頻度を計数し第2のベクトルを生
成する(ステップS7)。
The frequency of the pattern is counted to generate a second vector (step S7).

【0041】生成されたベクトルと第2のベクトル記憶
手段33に記憶されたベクトルとの間で、第2の類似度
の計算を行なう(ステップS8)。
The second similarity is calculated between the generated vector and the vector stored in the second vector storage means 33 (step S8).

【0042】最後に、得られた2つの類似度の統合類似
度を計算し、出力する(ステップS9)。
Finally, an integrated similarity of the two obtained similarities is calculated and output (step S9).

【0043】次に、本発明の第1の実施例の作用効果に
ついて説明する。
Next, the operation and effect of the first embodiment of the present invention will be described.

【0044】本発明の第1の実施例では、意味情報を抽
出するためのパタンをパタン辞書として持ち、単語辞書
を利用した浅い意味処理による類似度とパタン辞書を利
用したより深い意味処理による類似度を同時に有効に利
用できるように構成されている。このため、従来の方法
よりも深い意味処理ができる。
In the first embodiment of the present invention, a pattern for extracting semantic information is provided as a pattern dictionary, and the similarity based on shallow semantic processing using a word dictionary and the similarity based on deeper semantic processing using a pattern dictionary are used. The degree is configured to be used effectively at the same time. Therefore, deeper semantic processing can be performed than in the conventional method.

【0045】次に、本発明の第1の実施例について具体
例に則して説明する。
Next, a first embodiment of the present invention will be described with reference to a specific example.

【0046】図6乃至図8に示すように、「資料を送付
してくださいね。」という内容の文書が入力されたとす
る。、図6の単語辞書により、「資料」、「を」、「送
付」、「して」、「ください」、「ね」、「。」と分解
され、さらに、「資料」、「を」、「送付」、「す
る」、「くださる」、「ね」、「。」と正規形に変換さ
れる。
As shown in FIGS. 6 to 8, it is assumed that a document having the content "Please send material." 6, the word dictionary of FIG. 6 is decomposed into "material", "wo", "send", "do", "please", "ne", ".", And "material", "wo", "Send", "Yes", "Send", "Ne", "." Are converted to normal form

【0047】これから単語頻度ベクトル(第1のベクト
ル)として、(「資料」1,「を」1,「送付」1,「す
る」1,「くださる」1,「ね」1,「。」1)が得られ
る。これを基に公知のTF・IDF法等を用いて類似度
が計算される。
From now on, as the word frequency vector (first vector), ("material" 1, "wo" 1, "send" 1, "do" 1, "give" 1, "ne" 1, "." 1 ) Is obtained. Based on this, the similarity is calculated using a known TF / IDF method or the like.

【0048】次に、図8の文書パタンの例に示されてい
るように、「資料を送付してくださいね。」という内容
の文書(元文書)は、例えば、「資料を送付してくださ
いね。$」という形(文書パタン例1)に変換される
(ただし、$は文末を表す記号)。
Next, as shown in the example of the document pattern in FIG. 8, a document (original document) having the content "Please send the material." (The document pattern example 1) is converted into (in this case, the symbol represents the end of the sentence).

【0049】また、「する」、「ね」、「。」などを不
要語とする不要語辞書を利用すると、「資料を送付*く
ださい*$」という形(文書パタン例2)にも変換され
る。
When an unnecessary word dictionary that makes unnecessary words such as “do”, “ne”, “.”, Etc. is used, it is also converted into the form “send material * please * $” (document pattern example 2). You.

【0050】このような文書パタンに対して、図7に示
すようなパタン辞書を利用すると、「資料送付希望」と
いう形に変換され、これから、ベクトル(第2ベクト
ル)として、(「資料」1,「送付希望」1)が得られ
る。
When such a document pattern is used by using a pattern dictionary as shown in FIG. 7, it is converted into a form of "material transmission request". From this, ("material" 1) is converted into a vector (second vector). , "Request to send" 1) is obtained.

【0051】このように、複数の抽象度に応じたベクト
ルを生成することにより、目的に応じた抽象度の表現を
選択することができる。
As described above, by generating vectors corresponding to a plurality of abstractions, it is possible to select an expression of the abstraction according to the purpose.

【0052】これも、前回同様に、例えば公知のTF・
IDF法などにより、類似度が計算される。
As in the previous case, for example, a well-known TF
The similarity is calculated by the IDF method or the like.

【0053】得られた2つの類似度は、単純積や重み付
き和により、一つの類似度に変換され出力される。
The obtained two similarities are converted into one similarity by a simple product or a weighted sum and output.

【0054】なお、本発明の第1の実施例において、得
られた類似度を昇順又は降順にソースするようにしても
よい。
In the first embodiment of the present invention, the obtained similarities may be sourced in ascending or descending order.

【0055】次に、本発明の第2の実施例について図面
を参照して詳細に説明する。
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.

【0056】図3は、本発明の第2の実施例の構成を示
す図である。図3を参照すると、本発明の第2の実施例
は、文書入力手段1と、プログラム制御により動作する
データ処理装置2と、記憶装置3と、類似度出力手段4
とを備えている。
FIG. 3 is a diagram showing the configuration of the second embodiment of the present invention. Referring to FIG. 3, a second embodiment of the present invention comprises a document input unit 1, a data processing device 2 operated under program control, a storage device 3, and a similarity output unit 4
And

【0057】データ処理装置2は、類似度統合手段20
と、単語検索手段21と、第1のベクトル生成手段22
と、第1の類似度計算手段23と、文書パタン生成手段
24と、第1のパタン検索手段25と、第2のベクトル
生成手段26と、第2の類似度計算手段27と、第2の
パタン検索手段28と、第3のベクトル生成手段29
と、第3の類似度計算手段2Aとを含む。
The data processing device 2 includes a similarity integration means 20
, Word search means 21 and first vector generation means 22
A first similarity calculating means 23, a document pattern generating means 24, a first pattern searching means 25, a second vector generating means 26, a second similarity calculating means 27, a second Pattern search means 28 and third vector generation means 29
And third similarity calculating means 2A.

【0058】記憶装置3は、第1のベクトル記憶手段3
1と、単語辞書記憶手段32と、第2のベクトル記憶手
段33と、第1のパタン辞書記憶手段34と、第3のベ
クトル記憶手段35と、第2のパタン辞書記憶手段36
とを含む。
The storage device 3 comprises a first vector storage means 3
1, a word dictionary storage unit 32, a second vector storage unit 33, a first pattern dictionary storage unit 34, a third vector storage unit 35, and a second pattern dictionary storage unit 36.
And

【0059】これらの手段はそれぞれ概略つぎのような
機能を有する。
Each of these means has the following functions.

【0060】文書入力手段1は、文書をデータ処理装置
2に入力する。
The document input unit 1 inputs a document to the data processing device 2.

【0061】類似度出力手段4は、記憶された文書と入
力された文書の類似度を出力する。
The similarity output means 4 outputs the similarity between the stored document and the input document.

【0062】類似度統合手段20は、第1の類似度計算
手段23の出力と、第2の類似度計算手段27の出力を
統合して1つの類似度として出力する。
The similarity integrating means 20 integrates the output of the first similarity calculating means 23 and the output of the second similarity calculating means 27 and outputs the result as one similarity.

【0063】単語検索手段21は、単語辞書記憶手段3
2に記憶された単語により入力された文書を単語列に分
解する。
The word search means 21 is used for the word dictionary storage means 3
2 is decomposed into word strings by the words stored in the second word.

【0064】第1のベクトル生成手段22は、分解され
た単語列の単語頻度を計数し、入力された文書の単語辞
書によるベクトルを生成する。
The first vector generation means 22 counts the word frequencies of the decomposed word strings, and generates a vector of the input document based on the word dictionary.

【0065】第1の類似度計算手段23は、第1のベク
トル生成手段22で生成されたベクトルと第1のベクト
ル記憶手段31に記憶されたベクトルとを比較し、その
類似度を計算する。
The first similarity calculating means 23 compares the vector generated by the first vector generating means 22 with the vector stored in the first vector storing means 31, and calculates the similarity.

【0066】文書パタン生成手段24は、単語検索手段
21により分解された単語の配列を文書パタンとする。
The document pattern generation means 24 uses the word array decomposed by the word search means 21 as a document pattern.

【0067】第1のパタン検索手段25は、第1のパタ
ン辞書記憶手段34に記憶されたパタンにより、文書パ
タンを走査し、パタンおよび単語の配列に分解する。
The first pattern search means 25 scans the document pattern using the pattern stored in the first pattern dictionary storage means 34 and decomposes the document pattern into an array of patterns and words.

【0068】第2のベクトル生成手段26は、パタンお
よび単語の配列のパタン頻度を計数し、入力された文書
のパタン辞書によるベクトルを生成する。
The second vector generation means 26 counts the pattern frequency of the pattern and the arrangement of the words, and generates a vector of the input document by the pattern dictionary.

【0069】第2の類似度計算手段27は、第2のベク
トル生成手段26で生成されたベクトルと第2のベクト
ル記憶手段33に記憶されたベクトルとを比較し、その
類似度を計算する。
The second similarity calculating means 27 compares the vector generated by the second vector generating means 26 with the vector stored in the second vector storing means 33, and calculates the similarity.

【0070】第2のパタン検索手段28は、第2のパタ
ン辞書記憶手段36に記憶されたパタンにより、文書パ
タンを走査し、パタンおよび単語の配列に分解する。
The second pattern search means 28 scans the document pattern using the pattern stored in the second pattern dictionary storage means 36 and decomposes it into an array of patterns and words.

【0071】第3のベクトル生成手段29は、パタンお
よび単語の配列のパタン頻度を計数し、入力された文書
のパタン辞書によるベクトルを生成する。
The third vector generation means 29 counts the pattern frequency of the pattern and the arrangement of words, and generates a vector of the input document by the pattern dictionary.

【0072】第3の類似度計算手段2Aは、第3のベク
トル生成手段29で生成されたベクトルと第3のベクト
ル記憶手段35に記憶されたベクトルを比較し、その類
似度を計算する。
The third similarity calculating means 2A compares the vector generated by the third vector generating means 29 with the vector stored in the third vector storing means 35, and calculates the similarity.

【0073】第1のベクトル記憶手段31は、記憶され
た文書の単語辞書によるベクトルを記憶する。
The first vector storage means 31 stores a vector of the stored document according to the word dictionary.

【0074】単語辞書記憶手段32は、単語検索手段2
1で利用する単語辞書を記憶する。
The word dictionary storage means 32 stores the word search means 2
The word dictionary used in step 1 is stored.

【0075】第2のベクトル記憶手段33は、記憶され
た文書のパタン辞書によるベクトルを記憶する。
The second vector storage means 33 stores a vector of the stored document according to the pattern dictionary.

【0076】パタン辞書記憶手段34は、パタン検索手
段25で利用するパタン辞書を記憶する。
The pattern dictionary storage means 34 stores a pattern dictionary used by the pattern search means 25.

【0077】次に、図4は、本発明の第2の実施例の処
理手順を示す流れ図である。図3及び図4を参照して、
本発明の第2の実施例の全体の動作について詳細に説明
する。なお、図4のステップS1〜S8は、図2に示し
た処理と実質的に同一である。
Next, FIG. 4 is a flowchart showing a processing procedure of the second embodiment of the present invention. Referring to FIG. 3 and FIG.
The overall operation of the second embodiment of the present invention will be described in detail. Steps S1 to S8 in FIG. 4 are substantially the same as the processing shown in FIG.

【0078】まず、文書をデータ処理装置に入力する
(図4のステップS1)。
First, a document is input to the data processing device (step S1 in FIG. 4).

【0079】次に、単語検索を行ない文書を単語列に置
き換える(ステップS2)。
Next, a word search is performed to replace the document with a word string (step S2).

【0080】さらに、単語の頻度を計数し第1のベクト
ルを生成する(ステップS3)。
Further, the frequency of words is counted to generate a first vector (step S3).

【0081】さらに、生成されたベクトルと第1のベク
トル記憶手段31に記憶されたベクトルとの間で、第1
の類似度計算を行なう(ステップS4)。
Further, between the generated vector and the vector stored in the first vector storage means 31,
Is calculated (step S4).

【0082】次に、単語列を文書パタンとみなし(ステ
ップS5)、文書パタンに対して第1のパタン辞書を利
用してパタン検索を行ない、文書をパタン列に置き換え
る(ステップS6)。
Next, the word string is regarded as a document pattern (step S5), a pattern search is performed on the document pattern using the first pattern dictionary, and the document is replaced with the pattern string (step S6).

【0083】さらに、パタンの頻度を計数し第2のベク
トルを生成する(ステップS7)。
Further, the frequency of the pattern is counted to generate a second vector (step S7).

【0084】さらに、生成されたベクトルと第2のベク
トル記憶手段33に記憶されたベクトルとの間で、第2
の類似度計算を行なう(ステップS8)。
Further, the second vector between the generated vector and the vector stored in the second vector
Is calculated (step S8).

【0085】文書パタンに対して第2のパタン辞書を利
用してパタン検索を行ない文書をパタン列に置き換える
(ステップS10)。
A pattern search is performed on the document pattern using the second pattern dictionary, and the document is replaced with a pattern sequence (step S10).

【0086】さらに、パタンの頻度を計数し第3のベク
トルを生成する(ステップS11)。
Further, the frequency of the pattern is counted to generate a third vector (step S11).

【0087】さらに、生成された第3のベクトルと第3
のベクトル記憶手段35に記憶されたベクトルとの間
で、第3の類似度計算を行なう(ステップS12)。
Further, the generated third vector and the third vector
A third similarity calculation is performed between the vector and the vector stored in the vector storage means 35 (step S12).

【0088】最後に、得られた2つの類似度の統合類似
度を計算し出力する(ステップS13)。
Finally, the integrated similarity of the two obtained similarities is calculated and output (step S13).

【0089】次に、本発明の第2の実施例の作用効果に
ついて説明する。
Next, the operation and effect of the second embodiment of the present invention will be described.

【0090】本実施例では、意味情報を抽出するための
パタンをパタン辞書として持ち、単語辞書を利用した浅
い意味処理による類似度とパタン辞書を利用したより深
い意味処理による類似度を同時に有効に利用できるよう
に構成されているため、従来より深い意味処理ができ
る。
In this embodiment, a pattern for extracting semantic information is provided as a pattern dictionary, and the similarity obtained by shallow semantic processing using a word dictionary and the similarity obtained by deeper semantic processing using a pattern dictionary can be simultaneously enabled. Since it is configured so that it can be used, deeper semantic processing than before can be performed.

【0091】次に、本発明の第2の実施例について具体
例に則して説明する。
Next, a second embodiment of the present invention will be described with reference to a specific example.

【0092】図6乃至図8に示すように、「資料を送付
してくださいね。」という内容の文書が入力されたとす
ると、図6の単語辞書により、「資料」、「を」、「送
付」、「して」、「ください」、「ね」、「。」と分解
され、さらに、「資料」、「を」、「送付」、「す
る」、「くださる」、「ね」、「。」と正規形に変換さ
れる。
As shown in FIGS. 6 to 8, if a document with the content “Please send the material” is input, “material”, “A”, “Send” ",""","","","","." To the normal form.

【0093】これから単語頻度ベクトルとして、(「資
料」1,「を」1,「送付」1,「する」1,「くださる」
1,「ね」1,「。」1)が得られ、これを基に、例えば
公知のTF・IDF法などにより、類似度が計算され
る。
[0093] From now on, as word frequency vectors, ("material" 1, "wo" 1, "send" 1, "do" 1, "given"
1, “Ne” 1, “.” 1) are obtained, and based on this, the similarity is calculated by, for example, the known TF / IDF method.

【0094】次に、図8の文書パタンの例にあるよう
に、「資料を送付してくださいね。」という内容の文書
は、例えば、「資料を送付してくださいね。$」という
形に変換される(ただし、$は文末を表す記号)。
Next, as shown in the example of the document pattern in FIG. 8, a document having the content "Please send the material." Is in the form of "Please send the material." It is converted (however, $ is a symbol indicating the end of the sentence).

【0095】また、「する」「ね」「。」などを不要語
とする不要語辞書を利用すると、「資料を送付*くださ
い*$」という形にも書ける。
Further, by using an unnecessary word dictionary that makes unnecessary words such as “do”, “ne” and “.”, It is possible to write in the form of “send material * please * $”.

【0096】このような文書パタンに対し、図7に示す
ようなパタン辞書を利用すると、「資料送付希望」とい
う形に変換され、これからベクトルとして、(「資料」
1,「送付希望」1)が得られる。
When such a document pattern is used by using a pattern dictionary as shown in FIG. 7, it is converted into a form of "material transmission request", and is converted into a vector ("material").
1, "Request to send" 1) is obtained.

【0097】このように、複数の抽象度に応じたベクト
ルを生成することにより、目的に応じた抽象度の表現を
選択できる。そして、前回と同様、例えば公知のTF・
IDF法などにより類似度が計算される。
As described above, by generating vectors corresponding to a plurality of abstractions, it is possible to select an expression of the abstraction according to the purpose. Then, as in the previous case, for example, the known TF
The similarity is calculated by the IDF method or the like.

【0098】同様に、別のパタン辞書を利用すると、別
の類似度が計算される。
Similarly, when another pattern dictionary is used, another similarity is calculated.

【0099】得られた3つの類似度は、単純積や重み付
き和により一つの類似度に変換され出力される。
The obtained three similarities are converted into one similarity by a simple product or a weighted sum and output.

【0100】なお、本発明の第1の実施例において、得
られた類似度を昇順又は降順にソースするようにしても
よい。
In the first embodiment of the present invention, the obtained similarities may be sourced in ascending or descending order.

【0101】次に、本発明の第3の実施例について図面
を参照して詳細に説明する。図5は、本発明の第3の実
施例の構成を示す図である。図5を参照すると、本発明
の第3の実施例は、類似度計算プログラムを記録した記
録媒体5を備える。この媒体としては、FD(フロッッ
ピーディスク)等の磁気ディスク、半導体メモリ、CD
−ROM、DVD(digital versatile disk)、MT
その他の記録媒体であってよい。また、データ処理装置
2が、通信手段を介して、サーバ装置等他のデータ処理
装置の記憶媒体から、類似度計算プログラムをダウンロ
ードすることで本発明を実施するようにしてもよく、こ
の場合、上記媒体5として、通信媒体も含む。
Next, a third embodiment of the present invention will be described in detail with reference to the drawings. FIG. 5 is a diagram showing the configuration of the third embodiment of the present invention. Referring to FIG. 5, the third embodiment of the present invention includes a recording medium 5 on which a similarity calculation program is recorded. Examples of the medium include a magnetic disk such as an FD (floppy disk), a semiconductor memory, and a CD.
-ROM, DVD (digital versatile disk), MT
Other recording media may be used. Further, the data processing device 2 may implement the present invention by downloading a similarity calculation program from a storage medium of another data processing device such as a server device via a communication unit. The medium 5 includes a communication medium.

【0102】類似度計算プログラムは、記録媒体5から
データ処理装置2に読み込まれ、コンピュータの動作を
制御する。コンピュータは類似度計算プログラムの制御
により以下の処理、すなわち、前記した第1の実施例、
又は第2の実例におけるデータ処理装置2による処理、
すなわち図2、図4の流れ図で規定される処理と同一の
処理を実行する。
The similarity calculation program is read into the data processing device 2 from the recording medium 5 and controls the operation of the computer. The computer performs the following processing under the control of the similarity calculation program, that is, the first embodiment described above,
Or processing by the data processing device 2 in the second example,
That is, the same processing as the processing specified in the flowcharts of FIGS. 2 and 4 is executed.

【0103】すなわち、図1を参照すると、文書入力手
段1と、プログラム制御により動作するデータ処理装置
2と、記憶装置3と、類似度出力手段4とを備え、デー
タ処理装置2は、類似度統合手段20と、単語検索手段
21と、第1のベクトル生成手段22と、第1の類似度
計算手段23と、文書パタン生成手段24と、パタン検
索手段25と、第2のベクトル生成手段26と、第2の
類似度計算手段27とを含む。
That is, referring to FIG. 1, a document input means 1, a data processing device 2 operated by program control, a storage device 3, and a similarity output means 4 are provided. Integrating means 20, word searching means 21, first vector generating means 22, first similarity calculating means 23, document pattern generating means 24, pattern searching means 25, and second vector generating means 26 And second similarity calculating means 27.

【0104】記憶装置3は、第1のベクトル記憶手段3
1と、単語辞書記憶手段32と、第2のベクトル記憶手
段33と、パタン辞書記憶手段34とを含む。
The storage device 3 comprises a first vector storage means 3
1, a word dictionary storage means 32, a second vector storage means 33, and a pattern dictionary storage means 34.

【0105】あるいは、図3を参照すると、文書入力手
段1と、プログラム制御により動作するデータ処理装置
2と、記憶装置3と、類似度出力手段4とを備え、デー
タ処理装置2は、類似度統合手段20と、単語検索手段
21と、第1のベクトル生成手段22と、第1の類似度
計算手段23と、文書パタン生成手段24と、第1のパ
タン検索手段25と、第2のベクトル生成手段26と、
第2の類似度計算手段27と、第2のパタン検索手段2
8と、第3のベクトル生成手段29と、第3の類似度計
算手段2Aとを含む。
Alternatively, referring to FIG. 3, a document input means 1, a data processing device 2 operated by program control, a storage device 3, and a similarity output means 4 are provided. Integrating means 20, word searching means 21, first vector generating means 22, first similarity calculating means 23, document pattern generating means 24, first pattern searching means 25, second vector Generating means 26;
Second similarity calculating means 27 and second pattern searching means 2
8, a third vector generating means 29, and a third similarity calculating means 2A.

【0106】記憶装置3は、第1のベクトル記憶手段3
1と、単語辞書記憶手段32と、第2のベクトル記憶手
段33と、第1のパタン辞書記憶手段34と、第3のベ
クトル記憶手段35と、第2のパタン辞書記憶手段36
とを含む。
The storage device 3 comprises a first vector storage means 3
1, a word dictionary storage unit 32, a second vector storage unit 33, a first pattern dictionary storage unit 34, a third vector storage unit 35, and a second pattern dictionary storage unit 36.
And

【0107】[0107]

【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
As described above, according to the present invention, the following effects can be obtained.

【0108】本発明の第1の効果は、従来の方法よりも
深い意味処理を行うことができる、ということである。
The first effect of the present invention is that deeper semantic processing can be performed than in the conventional method.

【0109】その理由は、本発明においては、意味情報
を抽出するためのパタンをパタン辞書として備え、単語
辞書を利用した浅い意味処理による類似度と、パタン辞
書を利用したより深い意味処理による類似度とを同時に
有効に利用できるようにしたためである。
The reason for this is that, in the present invention, a pattern for extracting semantic information is provided as a pattern dictionary, and the similarity based on shallow semantic processing using a word dictionary is similar to the similarity based on deeper semantic processing using a pattern dictionary. The reason is that the degree and the time can be used effectively at the same time.

【0110】本発明の第2の効果は、複合語や連語の扱
いを容易化する、ということである。
A second effect of the present invention is that handling of compound words and collocation words is facilitated.

【0111】その理由は、本発明においては、パタン辞
書にパタンとしてこれらを登録できるためである。
The reason for this is that, in the present invention, these can be registered as patterns in the pattern dictionary.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例の構成を示す示すブ図で
ある。
FIG. 1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention.

【図2】本発明の第1の実施例の動作を示す流れ図であ
る。
FIG. 2 is a flowchart showing the operation of the first embodiment of the present invention.

【図3】本発明の第2の実施例の構成を示す図である。FIG. 3 is a diagram showing a configuration of a second exemplary embodiment of the present invention.

【図4】本発明の第2の実施例の動作を示す流れ図であ
る。
FIG. 4 is a flowchart showing the operation of the second exemplary embodiment of the present invention.

【図5】本発明の第3の実施例の構成を示す図である。FIG. 5 is a diagram showing a configuration of a third exemplary embodiment of the present invention.

【図6】本発明の実施例を説明するための図であり、単
語辞書の具体例を示す図である。
FIG. 6 is a diagram for explaining an embodiment of the present invention, and is a diagram showing a specific example of a word dictionary.

【図7】本発明の実施例を説明するための図であり、パ
タン辞書の具体例を示す図である。
FIG. 7 is a diagram for explaining an embodiment of the present invention, and is a diagram showing a specific example of a pattern dictionary.

【図8】本発明の実施例を説明するための図であり、文
書パタンの具体例を示す図である。
FIG. 8 is a diagram for explaining an embodiment of the present invention, and is a diagram showing a specific example of a document pattern.

【符号の説明】[Explanation of symbols]

1 文書入力手段 2 データ処理装置 20 類似度統合手段 21 単語検索手段 22 第1のベクトル生成手段 23 第1の類似度計算手段 24 文書パタン生成手段 25 第1のパタン検索手段 26 第2のベクトル生成手段 27 第2の類似度計算手段 28 第2のパタン検索手段 29 第3のベクトル生成手段 2A 第3の類似度計算手段 3 記憶装置 31 第1のベクトル記憶手段 32 単語辞書記憶手段 33 第2のベクトル記憶手段 34 パタン辞書記憶手段 4 類似度出力手段 5 記録媒体 DESCRIPTION OF SYMBOLS 1 Document input means 2 Data processing apparatus 20 Similarity integration means 21 Word search means 22 First vector generation means 23 First similarity calculation means 24 Document pattern generation means 25 First pattern search means 26 Second vector generation Means 27 Second similarity calculating means 28 Second pattern searching means 29 Third vector generating means 2A Third similarity calculating means 3 Storage device 31 First vector storing means 32 Word dictionary storing means 33 Second Vector storage means 34 Pattern dictionary storage means 4 Similarity output means 5 Recording medium

Claims (20)

【特許請求の範囲】[Claims] 【請求項1】単語辞書に基づいて第1の類似度を計算す
る第1類似度計算手段と、 パタン辞書に基づいて第2の類似度を計算する第2類似
度計算手段と、 前記第1、第2の類似度から1つの類似度を計算する類
似度統合手段と、 を備えたことを特徴とする類似検索システム。
A first similarity calculating means for calculating a first similarity based on a word dictionary; a second similarity calculating means for calculating a second similarity based on a pattern dictionary; And a similarity integrating means for calculating one similarity from the second similarity.
【請求項2】単語辞書に基づいて第1の類似度を計算す
る第1類似度計算手段と、 第1のパタン辞書に基づいて第2の類似度を計算する第
2類似度計算手段と、 第2のパタン辞書に基づいて第3の類似度を計算する第
3類似度計算手段と、 前記第1、第2、第3の類似度から1つの類似度を計算
する類似度統合手段とを備えたことを特徴とする類似検
索システム。
2. A first similarity calculating means for calculating a first similarity based on a word dictionary, a second similarity calculating means for calculating a second similarity based on a first pattern dictionary, A third similarity calculating unit that calculates a third similarity based on the second pattern dictionary; and a similarity integrating unit that calculates one similarity from the first, second, and third similarities. A similarity search system comprising:
【請求項3】前記類似度計算手段が、複数の辞書に基づ
いた複数の類似度計算手段と、これら複数の類似度計算
手段から出力される類似度を統合する手段を含むことを
特徴とする請求項1又は2に記載の類似検索システム。
3. The similarity calculating means includes a plurality of similarity calculating means based on a plurality of dictionaries, and a means for integrating similarities output from the plurality of similarity calculating means. The similarity search system according to claim 1.
【請求項4】類似度順にソートする手段をさらに備えた
ことを特徴とする請求項1乃至3のいずれか一に記載の
類似検索システム。
4. The similarity search system according to claim 1, further comprising means for sorting in order of similarity.
【請求項5】前記第1類似度計算手段が、文書の単語頻
度情報に基づき生成されるベクトルを比較することで前
記第1の類似度を算出し、 前記第2類似度計算手段が、文書の意味情報を抽出する
ためのパタン情報を記憶した前記パタン辞書を用いて文
書パタンのパタン頻度情報に基づき生成されるベクトル
を比較することで前記第2の類似度を算出する、ことを
特徴とする請求項1に記載の類似検索システム。
5. The first similarity calculating means calculates the first similarity by comparing vectors generated based on word frequency information of a document, and the second similarity calculating means calculates Calculating the second similarity by comparing vectors generated based on the pattern frequency information of the document pattern using the pattern dictionary storing the pattern information for extracting the meaning information of the document pattern. The similarity search system according to claim 1.
【請求項6】前記第1類似度計算手段が、文書の単語頻
度情報に基づき生成されるベクトルを比較することで前
記第1の類似度を算出し、 前記第2類似度計算手段が、文書の意味情報を抽出する
ためのパタン情報を記憶した前記第1のパタン辞書を用
いて文書パタンのパタン頻度情報に基づき生成されるベ
クトルを比較することで前記第2の類似度を算出し、 前記第3類似度計算手段が、文書の意味情報を抽出する
ためのパタン情報を記憶した前記第2のパタン辞書を用
いて文書パタンのパタン頻度情報に基づき生成されるベ
クトルを比較することで第3の類似度を算出する、こと
を特徴とする請求項2に記載の類似検索システム。
6. The first similarity calculating means calculates the first similarity by comparing vectors generated based on word frequency information of a document. Calculating the second similarity by comparing the vectors generated based on the pattern frequency information of the document pattern using the first pattern dictionary storing the pattern information for extracting the semantic information of the The third similarity calculating means compares the vector generated based on the pattern frequency information of the document pattern using the second pattern dictionary storing the pattern information for extracting the semantic information of the document, thereby obtaining a third similarity. The similarity search system according to claim 2, wherein the similarity is calculated.
【請求項7】単語辞書に基づいて第1の類似度を計算す
るステップと、 パタン辞書に基づいて第2の類似度を計算するステップ
と、 前記第1、第2の類似度から1つの類似度を計算するス
テップと、 を含む、ことを特徴とする類似度計算方法。
7. A step of calculating a first similarity based on a word dictionary, a step of calculating a second similarity based on a pattern dictionary, and one similarity based on the first and second similarities. Calculating a degree, comprising: calculating the degree of similarity.
【請求項8】単語辞書に基づいて第1の類似度を計算す
るステップと、 第1のパタン辞書に基づいて第2の類似度を計算するス
テップと、 第2のパタン辞書に基づいて第3の類似度を計算するス
テップと、 前記第1乃至第3の類似度から1つの類似度を計算する
ステップと、 を含む、ことを特徴とする類似度計算方法。
8. A step of calculating a first similarity based on the word dictionary, a step of calculating a second similarity based on the first pattern dictionary, and a step of calculating a third similarity based on the second pattern dictionary. And calculating one similarity from the first to third similarities. A method for calculating a similarity, comprising:
【請求項9】類似度順にソートするステップをさらに含
む、ことを特徴とする請求項7又は8に記載の類似検索
方法。
9. The similarity search method according to claim 7, further comprising a step of sorting in order of similarity.
【請求項10】意味情報を抽出するためのパタンをパタ
ン辞書として備え、単語辞書を利用して求められた第1
の類似度と、前記パタン辞書を利用した意味処理により
求められた第2の類似度とを統合した類似度を出力す
る、ことを特徴とする文書間類似度計算方法。
10. A pattern for extracting semantic information is provided as a pattern dictionary, and a first pattern obtained by using a word dictionary is provided.
And outputting a similarity obtained by integrating a second similarity obtained by the semantic processing using the pattern dictionary.
【請求項11】単語辞書に基づいて第1の類似度を計算
する第1の類似度計算処理と、 パタン辞書に基づいて第2の類似度を計算する第2の類
似度計算処理と、 前記第1、第2の類似度から1つの類似度を計算する類
似度統合処理と、 をコンピュータで実行させるためのプログラムを記録し
た記録媒体。
11. A first similarity calculation process for calculating a first similarity based on a word dictionary, a second similarity calculation process for calculating a second similarity based on a pattern dictionary, And a similarity integration process for calculating one similarity from the first and second similarities; and a recording medium storing a program for causing a computer to execute the similarity integration process.
【請求項12】単語辞書に基づいて第1の類似度を計算
する第1の類似度計算処理と、 第1のパタン辞書に基づいて第2の類似度を計算する第
2の類似度計算処理と、 第2のパタン辞書に基づいて第3の類似度を計算する第
3の類似度計算処理と、 前記第1乃至第3の類似度から1つの類似度を計算する
類似度統合処理と、をコンピュータに実行させるための
プログラムを記録した記録媒体。
12. A first similarity calculation process for calculating a first similarity based on a word dictionary, and a second similarity calculation process for calculating a second similarity based on a first pattern dictionary A third similarity calculation process for calculating a third similarity based on a second pattern dictionary; a similarity integration process for calculating one similarity from the first to third similarities; Recording a program for causing a computer to execute the program.
【請求項13】請求項11又は12に記載の記録媒体に
おいて、 類似度順にソートする処理を前記コンピュータにさらに
実行させるためのプログラムを記録した記録媒体。
13. The recording medium according to claim 11, wherein a program for causing said computer to further execute a process of sorting in order of similarity is recorded.
【請求項14】入力された文書を単語列に分解する単語
検索手段と、 前記入力された文書に対して単語辞書に基づいて単語列
に分解する手段と、 単語列の単語頻度を計数し、前記入力された文書の前記
単語辞書による第1のベクトルを生成する手段と、 前記生成された第1のベクトルと予め記憶されている文
書の前記単語辞書による第1のベクトルとを比較し第1
の類似度を計算する手段と、 前記分解された単語の配列を文書パタンとする手段と、 文書の意味情報を抽出するためのパタン辞書のパタンに
基づいて、文書パタンを走査し、パタンおよび単語の配
列に分解する手段と、 パタンおよび単語の配列のパタン頻度を計数し、前記入
力された文書の前記パタン辞書による第2のベクトルを
生成する手段と、 前記生成された第2のベクトルと、予め記憶されている
文書の前記パタン辞書による第2のベクトルとを比較し
第2の類似度を計算する手段と、 前記第1の類似度と前記第2の類似度を統合して1つの
類似度として出力する手段と、 を含む、ことを特徴とする文書間類似度計算装置。
14. A word search means for decomposing an input document into a word string; a means for decomposing the input document into a word string based on a word dictionary; Means for generating a first vector based on the word dictionary of the input document; comparing the generated first vector with a first vector based on the word dictionary of a pre-stored document;
Means for calculating the degree of similarity of a document, means for using the array of the decomposed words as a document pattern, and scanning a document pattern based on a pattern of a pattern dictionary for extracting semantic information of the document. Means for decomposing into a sequence of patterns, means for counting the pattern frequency of patterns and patterns of words, and means for generating a second vector based on the pattern dictionary of the input document; and the generated second vector, Means for comparing a document stored in advance with a second vector based on the pattern dictionary to calculate a second similarity; and integrating the first similarity and the second similarity into one similarity. Means for outputting as a degree, and a similarity calculation apparatus between documents.
【請求項15】単語辞書を記憶する単語辞書記憶手段
と、 記憶された文書の前記単語辞書による第1のベクトルを
記憶する第1のベクトル記憶手段と、 文書の意味情報を抽出するためのパタン辞書を記憶する
パタン辞書記憶手段と、 記憶された文書の前記パタン辞書による第2のベクトル
を記憶する第2のベクトル記憶手段と、 文書を入力する文書入力手段と、 前記単語辞書記憶手段に記憶されている単語情報に基づ
いて、前記文書入力手段から入力された文書を単語列に
分解する単語検索手段と、 分解された単語列の単語頻度を計数し、前記入力された
文書の前記単語辞書による第1のベクトルを生成する第
1のベクトル生成手段と、 前記第1のベクトル生成手段で生成された第1のベクト
ルと前記第1のベクトル記憶手段に記憶されている第1
のベクトルとを比較し、その類似度を計算する第1の類
似度計算手段と、 前記単語検索手段により分解された単語の配列を文書パ
タンとする文書パタン生成手段と、 前記パタン辞書記憶手段に記憶されているパタンによ
り、文書パタンを走査し、パタンおよび単語の配列に分
解するパタン検索手段と、 パタンおよび単語の配列のパタン頻度を計数し、前記入
力された文書の前記パタン辞書による第2のベクトルを
生成する第2のベクトル生成手段と、 前記第2のベクトル生成手段で生成された第2のベクト
ルと前記第2のベクトル記憶手段に記憶されている第2
のベクトルとを比較し、その類似度を計算する第2の類
似度計算手段と、 前記第1の類似度計算手段から出力される類似度と前記
第2の類似度計算手段から出力される類似度を統合して
1つの類似度として出力する類似度統合手段と、 前記類似度統合手段から出力された類似度を出力する手
段と、 を備えたことを特徴とする文書間類似度計算装置。
15. A word dictionary storage means for storing a word dictionary, a first vector storage means for storing a first vector of a stored document according to the word dictionary, and a pattern for extracting document semantic information. Pattern dictionary storage means for storing a dictionary; second vector storage means for storing a second vector of the stored document according to the pattern dictionary; document input means for inputting a document; storage in the word dictionary storage means Word search means for decomposing a document input from the document input means into a word string based on the input word information; counting the word frequency of the decomposed word string; and the word dictionary of the input document A first vector generating means for generating a first vector according to the following: and a first vector generated by the first vector generating means and stored in the first vector storing means. The first
A first similarity calculating means for comparing the vector of the word and calculating the similarity thereof; a document pattern generating means for setting an array of words decomposed by the word searching means to a document pattern; and a pattern dictionary storing means. A pattern search unit that scans a document pattern using the stored pattern and decomposes the document pattern into an array of patterns and words; counts a pattern frequency of the array of patterns and words; A second vector generating means for generating a vector of the second vector, and a second vector generated by the second vector generating means and a second vector stored in the second vector storing means.
A second similarity calculating means for comparing the similarity and the similarity outputted from the first similarity calculating means with the similarity outputted from the first similarity calculating means. An inter-document similarity calculating apparatus, comprising: a similarity integrating unit that integrates degrees and outputs a single similarity; and a unit that outputs the similarity output from the similarity integrating unit.
【請求項16】単語辞書を記憶する単語辞書記憶手段
と、 記憶された文書の前記単語辞書による第1のベクトルを
記憶する第1のベクトル記憶手段と、 文書の意味情報を抽出するための第1のパタン辞書を記
憶する第1のパタン辞書記憶手段と、 記憶された文書の前記第1のパタン辞書による第2のベ
クトルを記憶する第2のベクトル記憶手段と、 文書の意味情報を抽出するための第2のパタン辞書を記
憶する第2のパタン辞書記憶手段と、 記憶された文書の前記第2のパタン辞書による第3のベ
クトルを記憶する第3のベクトル記憶手段と、 文書を入力する文書入力手段と、 前記単語辞書記憶手段に記憶されている単語情報に基づ
いて、前記文書入力手段から入力された文書を単語列に
分解する単語検索手段と、 分解された単語列の単語頻度を計数し、入力された文書
の単語辞書によるベクトルを生成する第1のベクトル生
成手段と、 前記第1のベクトル生成手段で生成された第1のベクト
ルと前記第1のベクトル記憶手段に記憶された第1のベ
クトルとを比較し、その類似度を計算する第1の類似度
計算手段と、 前記単語検索手段により分解された単語の配列を文書パ
タンとする文書パタン生成手段と、 前記第1のパタン辞書記憶手段に記憶されているパタン
により、文書パタンを走査し、パタンおよび単語の配列
に分解する第1のパタン検索手段と、 パタンおよび単語の配列のパタン頻度を計数し、前記入
力された文書の前記第1のパタン辞書による第2のベク
トルを生成する第2のベクトル生成手段と、 前記第2のベクトル生成手段で生成された第2のベクト
ルと前記第2のベクトル記憶手段に記憶された第2のベ
クトルとを比較し、その類似度を計算する第2の類似度
計算手段と、 前記第2のパタン辞書記憶手段に記憶されているパタン
により、文書パタンを走査し、パタンおよび単語の配列
に分解する第2のパタン検索手段と、 パタンおよび単語の配列のパタン頻度を計数し、前記入
力された文書の前記第2のパタン辞書による第3のベク
トルを生成する第3のベクトル生成手段と、 前記第3のベクトル生成手段で生成された第3のベクト
ルと前記第3のベクトル記憶手段に記憶された第3のベ
クトルとを比較し、その類似度を計算する第3の類似度
計算手段と、 前記第1乃至第3の類似度計算手段からそれぞれ出力さ
れる類似度を統合して1つの類似度として出力する類似
度統合手段と、 前記類似度統合手段から出力された類似度を出力する手
段と、 を備えたことを特徴とする文書間類似度計算装置。
16. A word dictionary storage means for storing a word dictionary; a first vector storage means for storing a first vector of the stored document according to the word dictionary; A first pattern dictionary storage unit for storing one pattern dictionary; a second vector storage unit for storing a second vector of the stored document according to the first pattern dictionary; and extracting semantic information of the document. Pattern dictionary storage means for storing a second pattern dictionary for storing, a third vector storage means for storing a third vector of the stored document according to the second pattern dictionary, and inputting the document Document input means; word search means for decomposing a document input from the document input means into word strings based on word information stored in the word dictionary storage means; A first vector generation unit that counts a word frequency and generates a vector of an input document according to a word dictionary; and a first vector generated by the first vector generation unit and the first vector storage unit. A first similarity calculating unit that compares the stored first vector and calculates a similarity thereof; a document pattern generating unit that uses a sequence of words decomposed by the word searching unit as a document pattern; A first pattern search unit that scans a document pattern based on the pattern stored in the first pattern dictionary storage unit and decomposes the document pattern into an array of patterns and words; and counts a pattern frequency of the array of patterns and words. A second vector generation unit that generates a second vector of the input document based on the first pattern dictionary; and a second vector generated by the second vector generation unit. A second similarity calculating means for comparing the second vector stored in the second vector storing means and calculating a similarity thereof; and a pattern stored in the second pattern dictionary storing means. A second pattern search means for scanning a document pattern and decomposing it into an array of patterns and words; counting a pattern frequency of the array of patterns and words; and obtaining a third pattern of the input document by using the second pattern dictionary. A third vector generating means for generating a vector of the third vector, and comparing a third vector generated by the third vector generating means with a third vector stored in the third vector storing means, Third similarity calculating means for calculating similarity, similarity integrating means for integrating similarities output from the first to third similarity calculating means and outputting the same as one similarity, Kind Means for outputting the similarity output from the similarity integrating means, and an inter-document similarity calculation apparatus.
【請求項17】文書を入力する第1のステップと、 単語検索を行ない文書を単語列に置き換える第2のステ
ップと、 単語の頻度を計数し、前記入力された文書に対する単語
辞書による第1のベクトルを生成する第3のステップ
と、 生成された第1のベクトルと第1のベクトル記憶手段に
予め記憶されている前記単語辞書によるベクトルとの間
で、第1の類似度の計算を行なう第4のステップと、 単語列を文書パタンとみなし、該文書パタンに対してパ
タン辞書を用いてパタン検索を行ない文書をパタン列に
置き換える第5のステップと、 パタンの頻度を計数し、前記入力された文書に対するパ
タン辞書による第2のベクトルを生成する第6のステッ
プと、 生成された第2のベクトルと第2のベクトル記憶手段に
予め記憶されている前記パタン辞書によるベクトルとの
間で第2の類似度の計算を行なう第7のステップと、 前記第1の類似度と前記第2の類似度の統合類似度を計
算して出力する第8のステップと、 を含む、ことを特徴とする文書間類似度計算方法。
17. A first step of inputting a document, a second step of performing a word search and replacing the document with a word string, counting the frequency of words, and using a word dictionary for the input document in a first step. A third step of generating a vector, and calculating a first similarity between the generated first vector and a vector based on the word dictionary stored in advance in the first vector storage means. Step 4, a word string is regarded as a document pattern, a pattern search is performed on the document pattern using a pattern dictionary, and the document is replaced with the pattern string. The frequency of the pattern is counted. A sixth step of generating a second vector based on a pattern dictionary for the generated document, and generating the second vector and the pattern stored in a second vector storage means in advance. A seventh step of calculating a second similarity between a vector based on a binary dictionary, and an eighth step of calculating and outputting an integrated similarity of the first similarity and the second similarity A method for calculating the degree of similarity between documents, comprising:
【請求項18】文書を入力する第1のステップと、 単語検索を行ない文書を単語列に置き換える第2のステ
ップと、 単語の頻度を計数し、前記入力された文書に対する単語
辞書による第1のベクトルを生成する第3のステップ
と、 生成された第1のベクトルと第1のベクトル記憶手段に
予め記憶されている第1のベクトルとの間で、第1の類
似度計算を行なう第4のステップと、 単語列を文書パタンとみなし、該文書パタンに対して第
1のパタン辞書を利用してパタン検索を行ない、文書を
パタン列に置き換える第5のステップと、 パタンの頻度を計数し第2のベクトルを生成する第6の
ステップと、 生成された第2のベクトルと第2のベクトル記憶手段に
予め記憶されている第2のベクトルとの間で、第2の類
似度計算を行なう第7のステップと、 文書パタンに対して第2のパタン辞書を利用してパタン
検索を行ない文書をパタン列に置き換える第8のステッ
プと、 パタンの頻度を計数し第3のベクトルを生成する第9の
ステップと、 生成された第3のベクトルと第3のベクトル記憶手段に
予め記憶されているベクトルとの間で第3の類似度計算
を行なう第10のステップと、 前記第1乃至第3の類似度の統合類似度を計算して出力
する第11のステップと、を含む、ことを特徴とする文
書間類似度計算方法。
18. A first step of inputting a document, a second step of performing a word search and replacing the document with a word string, counting the frequency of words, and using a word dictionary for the input document in a first step. A third step of generating a vector, and a fourth step of performing a first similarity calculation between the generated first vector and the first vector stored in the first vector storage means in advance. A step of considering the word string as a document pattern, performing a pattern search on the document pattern using the first pattern dictionary, and replacing the document with the pattern string; counting the frequency of the pattern; A sixth step of generating a second vector, and a second step of performing a second similarity calculation between the generated second vector and a second vector stored in the second vector storage means in advance. 7 of An eighth step of performing a pattern search on the document pattern using the second pattern dictionary and replacing the document with a pattern sequence, and a ninth step of counting the frequency of the pattern and generating a third vector A tenth step of performing a third similarity calculation between the generated third vector and a vector previously stored in the third vector storage means; and the first to third similarities And calculating and outputting an integrated similarity of the two documents.
【請求項19】単語辞書を記憶する単語辞書記憶手段
と、 記憶された文書の前記単語辞書による第1のベクトルを
記憶する第1のベクトル記憶手段と、 文書の意味情報を抽出するためのパタン辞書を記憶する
パタン辞書記憶手段と、 記憶された文書の前記パタン辞書による第2のベクトル
を記憶する第2のベクトル記憶手段と、 を備えた記憶装置と、 文書を入力する入力装置と、 類似度を出力する出力装置と、 プログラム制御されるデータ処理装置と、を備えた情報
処理装置において、 (a)前記単語辞書記憶手段に記憶されている単語情報
に基づいて、入力された文書を単語列に分解する単語検
索処理と、 (b)分解された単語列の単語頻度を計数し、入力され
た文書の単語辞書による第1のベクトルを生成する第1
のベクトル生成処理と、 (c)前記第1のベクトル生成処理で生成された第1の
ベクトルと前記第1のベクトル記憶手段に記憶されてい
る第1のベクトルとを比較し、その類似度を計算する第
1の類似度計算処理と、 (d)前記単語検索処理により分解された単語の配列を
文書パタンとする文書パタン生成処理と、 (e)前記パタン辞書記憶手段に記憶されているパタン
により、文書パタンを走査し、パタンおよび単語の配列
に分解するパタン検索処理と、 (f)パタンおよび単語の配列のパタン頻度を計数し、
前記入力された文書の前記パタン辞書による第2のベク
トルを生成する第2のベクトル生成処理と、 (g)前記第2のベクトル生成処理で生成された第2の
ベクトルと前記第2のベクトル記憶手段に記憶された第
2のベクトルとを比較し、その類似度を計算する第2の
類似度計算処理と、 (h)前記第1の類似度計算処理から出力される類似度
と前記第2の類似度計算処理から出力される類似度を統
合して1つの類似度として出力する類似度統合処理と、 の前記(a)乃至(h)の各処理を前記データ処理装置
に実行させるためのプログラムを記録した記録媒体。
19. Word dictionary storage means for storing a word dictionary; first vector storage means for storing a first vector of a stored document according to the word dictionary; and a pattern for extracting document semantic information. A storage device comprising: a pattern dictionary storage device for storing a dictionary; a second vector storage device for storing a second vector of the stored document according to the pattern dictionary; and an input device for inputting a document. An information processing apparatus comprising: an output device that outputs a degree; and a data processing device that is controlled by a program. (B) counting the frequency of words in the decomposed word string and generating a first vector based on a word dictionary of the input document;
And (c) comparing the first vector generated in the first vector generation process with the first vector stored in the first vector storage means, and calculating the similarity between the first vector and the first vector. A first similarity calculation process for calculating; (d) a document pattern generation process in which an array of words decomposed by the word search process is used as a document pattern; and (e) a pattern stored in the pattern dictionary storage unit. And (f) counting the pattern frequency of the pattern and word sequence by scanning the document pattern and decomposing it into a pattern and word sequence.
A second vector generation process for generating a second vector of the input document based on the pattern dictionary; and (g) storing the second vector generated in the second vector generation process and the second vector. A second similarity calculation process for comparing the second vector stored in the means and calculating the similarity, and (h) a similarity output from the first similarity calculation and the second similarity calculation. A similarity integration process of integrating similarities output from the similarity calculation process and outputting the same as one similarity; and causing the data processing device to execute each of the processes (a) to (h). A recording medium on which a program is recorded.
【請求項20】単語辞書を記憶する単語辞書記憶手段
と、 記憶された文書の前記単語辞書による第1のベクトルを
記憶する第1のベクトル記憶手段と、 文書の意味情報を抽出するための第1のパタン辞書を記
憶する第1のパタン辞書記憶手段と、 記憶された文書の前記第1のパタン辞書による第2のベ
クトルを記憶する第2のベクトル記憶手段と、 文書の意味情報を抽出するための第2のパタン辞書を記
憶する第2のパタン辞書記憶手段と、 記憶された文書の前記第2のパタン辞書による第3のベ
クトルを記憶する第3のベクトル記憶手段と、 を備えた記憶装置と、 文書を入力する入力装置と、 類似度を出力する出力装置と、 プログラム制御されるデータ処理装置と、を備えた情報
処理装置において、 (a)前記単語辞書記憶手段に記憶されている単語情報
に基づいてより、入力された文書を単語列に分解する単
語検索処理と、 (b)分解された単語列の単語頻度を計数し、入力され
た文書の単語辞書によるベクトルを生成する第1のベク
トル生成処理と、 (c)前記第1のベクトル生成処理で生成された第1の
ベクトルと前記第1のベクトル記憶手段に記憶されてい
る第1のベクトルとを比較し、その類似度を計算する第
1の類似度計算処理と、 (d)前記単語検索処理により分解された単語の配列を
文書パタンとする文書パタン生成処理と、 (e)前記第1のパタン辞書記憶手段に記憶されたパタ
ンにより、文書パタンを走査し、パタンおよび単語の配
列に分解する第1のパタン検索処理と、 (f)パタンおよび単語の配列のパタン頻度を計数し、
前記入力された文書の前記第1のパタン辞書による第2
のベクトルを生成する第2のベクトル生成処理と、 (g)前記第2のベクトル生成処理で生成された第2の
ベクトルと前記第2のベクトル記憶手段に記憶されてい
る第2のベクトルとを比較し、その類似度を計算する第
2の類似度計算処理と、 (h)前記第2のパタン辞書記憶手段に記憶されている
パタンにより、文書パタンを走査し、パタンおよび単語
の配列に分解する第2のパタン検索処理と、 (i)パタンおよび単語の配列のパタン頻度を計数し、
前記入力された文書の前記第2のパタン辞書による第3
のベクトルを生成する第3のベクトル生成処理と、 (j)前記第3のベクトル生成処理で生成された第3の
ベクトルと前記第3のベクトル記憶手段に記憶されてい
る第3のベクトルとを比較し、その類似度を計算する第
3の類似度計算処理と、 (k)前記第1乃至第3の類似度計算処理からそれぞれ
出力される類似度を統合して1つの類似度として出力す
る類似度統合処理と、 の前記(a)乃至(k)の各処理を前記データ処理装置
に実行させるためのプログラムを記録した記録媒体。
20. A word dictionary storage means for storing a word dictionary; a first vector storage means for storing a first vector of the stored document according to the word dictionary; and a second vector storage means for extracting semantic information of the document. A first pattern dictionary storage unit for storing one pattern dictionary; a second vector storage unit for storing a second vector of the stored document according to the first pattern dictionary; and extracting semantic information of the document. A second pattern dictionary storing means for storing a second pattern dictionary for storing a second vector, and a third vector storing means for storing a third vector of the stored document according to the second pattern dictionary. An information processing apparatus comprising: a device; an input device for inputting a document; an output device for outputting a degree of similarity; and a data processing device controlled by a program. A word search process for decomposing the input document into word strings based on the stored word information; and (b) counting the word frequencies of the decomposed word strings, and using the word dictionary of the input document as a vector. And (c) comparing the first vector generated in the first vector generation process with the first vector stored in the first vector storage means. A first similarity calculation process for calculating the similarity, (d) a document pattern generation process for using a sequence of words decomposed by the word search process as a document pattern, and (e) the first pattern dictionary. A first pattern search process for scanning a document pattern using the pattern stored in the storage means and decomposing the document pattern into an array of patterns and words; (f) counting a pattern frequency of the array of patterns and words;
A second of the input document according to the first pattern dictionary
(G) a second vector generation process for generating the vector of the second vector generation process, and a second vector generated in the second vector generation process and a second vector stored in the second vector storage unit. (H) scanning the document pattern by using the pattern stored in the second pattern dictionary storage means and decomposing the document pattern into an array of patterns and words; And (i) counting the pattern frequency of the pattern and the sequence of words,
A third of the input document according to the second pattern dictionary
A third vector generation process for generating a vector of the third vector, and (j) a third vector generated in the third vector generation process and a third vector stored in the third vector storage unit. A third similarity calculation process for comparing and calculating the similarity; and (k) integrating the similarities output from the first to third similarity calculation processes and outputting as one similarity. A recording medium on which a program for causing the data processing device to execute each of the above-described processes (a) to (k) is described.
JP33638099A 1999-11-26 1999-11-26 Document similarity calculation method, system and apparatus, and recording medium recording similarity calculation program Expired - Fee Related JP3690216B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33638099A JP3690216B2 (en) 1999-11-26 1999-11-26 Document similarity calculation method, system and apparatus, and recording medium recording similarity calculation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33638099A JP3690216B2 (en) 1999-11-26 1999-11-26 Document similarity calculation method, system and apparatus, and recording medium recording similarity calculation program

Publications (2)

Publication Number Publication Date
JP2001155027A true JP2001155027A (en) 2001-06-08
JP3690216B2 JP3690216B2 (en) 2005-08-31

Family

ID=18298548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33638099A Expired - Fee Related JP3690216B2 (en) 1999-11-26 1999-11-26 Document similarity calculation method, system and apparatus, and recording medium recording similarity calculation program

Country Status (1)

Country Link
JP (1) JP3690216B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281186A (en) * 2001-11-13 2003-10-03 Posco Example base retrieval method and retrieval system for determining similarity
JP2007233721A (en) * 2006-03-01 2007-09-13 Toshiba Corp Segment identification method
KR100952077B1 (en) 2009-09-30 2010-04-14 동국대학교 산학협력단 Apparatus and method for choosing entry using keywords
KR101033670B1 (en) 2008-12-04 2011-05-12 (주)야긴스텍 Document similarity calculating system and method thereof
JP2012208924A (en) * 2011-03-28 2012-10-25 Palo Alto Research Center Inc Document comparison method and document comparison system based on various inter-document similarity calculation method using adaptive weighting
JP2017068742A (en) * 2015-10-01 2017-04-06 日本電信電話株式会社 Relevant document retrieval device, model creation device, method and program therefor
CN109977995A (en) * 2019-02-11 2019-07-05 平安科技(深圳)有限公司 Text template recognition methods, device and computer readable storage medium
CN112613295A (en) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 Corpus identification method and device, electronic equipment and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838737A (en) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 Method for improving vector distance classifying quality

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153066A (en) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd Document retrieval device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153066A (en) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd Document retrieval device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281186A (en) * 2001-11-13 2003-10-03 Posco Example base retrieval method and retrieval system for determining similarity
JP2007233721A (en) * 2006-03-01 2007-09-13 Toshiba Corp Segment identification method
KR101033670B1 (en) 2008-12-04 2011-05-12 (주)야긴스텍 Document similarity calculating system and method thereof
KR100952077B1 (en) 2009-09-30 2010-04-14 동국대학교 산학협력단 Apparatus and method for choosing entry using keywords
JP2012208924A (en) * 2011-03-28 2012-10-25 Palo Alto Research Center Inc Document comparison method and document comparison system based on various inter-document similarity calculation method using adaptive weighting
JP2017068742A (en) * 2015-10-01 2017-04-06 日本電信電話株式会社 Relevant document retrieval device, model creation device, method and program therefor
CN109977995A (en) * 2019-02-11 2019-07-05 平安科技(深圳)有限公司 Text template recognition methods, device and computer readable storage medium
CN112613295A (en) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 Corpus identification method and device, electronic equipment and storage medium
CN112613295B (en) * 2020-12-21 2023-12-22 竹间智能科技(上海)有限公司 Corpus recognition method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP3690216B2 (en) 2005-08-31

Similar Documents

Publication Publication Date Title
CN108319668B (en) Method and equipment for generating text abstract
US11334608B2 (en) Method and system for key phrase extraction and generation from text
CN104462085B (en) Search key error correction method and device
US9251248B2 (en) Using context to extract entities from a document collection
EP3201795A1 (en) Distant supervision relationship extractor
JP2011118689A (en) Retrieval method and system
CN111680494A (en) Similar text generation method and device
JP3690216B2 (en) Document similarity calculation method, system and apparatus, and recording medium recording similarity calculation program
CN113822059A (en) Chinese sensitive text recognition method and device, storage medium and equipment
Lin et al. Measuring tree similarity for natural language processing based information retrieval
CN109902162B (en) Text similarity identification method based on digital fingerprints, storage medium and device
Singhal et al. Analyzing scientific publications using domain-specific word embedding and topic modelling
CN111831624A (en) Data table creating method and device, computer equipment and storage medium
Mishra et al. Similarity Search based on Text Embedding Model for detection of Near Duplicates
CN115329173A (en) Method and device for determining enterprise credit based on public opinion monitoring
Grishman Information extraction and speech recognition
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
Bellaouar et al. Efficient geometric-based computation of the string subsequence kernel
Ava et al. Intelligent Identification of Hate Speeches to address the increased rate of Individual Mental Degeneration
JP2007042028A (en) Device, method and program for evaluating validity of dictionary
Patra et al. A novel word clustering and cluster merging technique for named entity recognition
Sulaiman et al. Feature extraction using regular expression in detecting proper noun for Malay news articles based on KNN algorithm
CN116933757B (en) Document generation method and system applying language artificial intelligence
CN114723073B (en) Language model pre-training method, product searching method, device and computer equipment
Beumer Evaluation of Text Document Clustering using k-Means

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050301

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050411

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050414

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050606

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080624

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees