JP2003288366A - Similar text retrieval device - Google Patents

Similar text retrieval device

Info

Publication number
JP2003288366A
JP2003288366A JP2002090099A JP2002090099A JP2003288366A JP 2003288366 A JP2003288366 A JP 2003288366A JP 2002090099 A JP2002090099 A JP 2002090099A JP 2002090099 A JP2002090099 A JP 2002090099A JP 2003288366 A JP2003288366 A JP 2003288366A
Authority
JP
Japan
Prior art keywords
text
gram
similarity
elements
preprocessing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002090099A
Other languages
Japanese (ja)
Inventor
Taro Fujimoto
太郎 藤本
Atsushi Arima
淳 有馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002090099A priority Critical patent/JP2003288366A/en
Publication of JP2003288366A publication Critical patent/JP2003288366A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To determine how much a plurality of texts agree with each other even when they are not perfectly agree with each other at a high speed. <P>SOLUTION: This device is characterized in that it is provided with an input interface means 101 for inputting a text, a pre-processing means 103 for performing a pre-processing to the inputted text, an N-gram forming means 104 for forming the N-gram element to the text, a similarity calculation means 105 for calculating the matching degree of N-gram element for a plurality of texts, and an output interface means 108 for outputting the calculation result of the similarity calculation means 105. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は類似テキスト検索装
置に係り、特に複数のテキストが完全に一致していない
場合でもどの程度類似しているのかを高速に判別するも
のに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a similar text search apparatus, and more particularly to a method for quickly determining how similar texts are, even if a plurality of texts do not completely match.

【0002】[0002]

【従来の技術】テキストに対する検索装置として、キー
ワードの完全一致検索が行われているが、これは検索者
が入力した検索キーに完全に一致するテキストのみを出
力している。しかし「テキスト」と「テクスト」のよう
に完全に一致していないものでも一致するというように
判断する「あいまい検索」が要求されている。例えばW
indows(登録商標)に関する表現は、個人によ
り、バージョンによりWindows−NTと表現され
たりWIN NT4と表現されたり色々な表現が行われ
ているが、これらは類似のものであると判定することが
必要なことが多い。
2. Description of the Related Art An exact match search for keywords is performed as a search device for texts, but this only outputs texts that exactly match a search key entered by a searcher. However, "fuzzy search" is required to judge that even incomplete matches such as "text" and "text" match. For example W
Regarding the expressions regarding Windows (registered trademark), various expressions such as Windows-NT and WIN NT4 are made by an individual depending on the version, but it is necessary to determine that these are similar. There are many things.

【0003】[0003]

【発明が解決しようとする課題】従来の検索装置は、検
索者が入力した検索キーに完全に一致するテキストのみ
を出力しており、高精度のあいまい検索は時間がかかる
と考えられており、検索システムとしてあまり整備され
ていなかった。
The conventional search device outputs only the text that exactly matches the search key input by the searcher, and it is considered that high-precision fuzzy search takes time. The search system was not well developed.

【0004】したがって本発明の目的は、前記「Win
dows−NT」や「WIN NT4」のように、表記
にゆれがあるキーワードを高速に検索するための装置を
提供することである。
Therefore, the object of the present invention is to achieve the above-mentioned "Win.
An object of the present invention is to provide a device for high-speed search for a keyword having a variation in notation, such as "dows-NT" or "WIN NT4".

【0005】[0005]

【課題を解決するための手段】本発明の原理図を図1に
示す。図1において1は類似テキスト検索装置、101
は入力インタフェース手段、103は前処理手段、10
4はNグラム化手段、105は類似度算出手段、108
は出力インタフェース手段である。
FIG. 1 shows the principle of the present invention. In FIG. 1, 1 is a similar text search device, 101
Is an input interface means, 103 is a preprocessing means, 10
4 is an N-gram conversion unit, 105 is a similarity calculation unit, and 108.
Is an output interface means.

【0006】本発明の前記目的は下記(1)〜(5)に
より達成される。
The above object of the present invention is achieved by the following items (1) to (5).

【0007】(1)テキストが入力される入力インタフ
ェース手段101と、入力されたテキストに対する前処
理を行う前処理手段103と、テキストに対するNグラ
ム要素を作成するNグラム化手段104と、複数のテキ
ストに関するNグラム要素の一致度を演算する類似度演
算手段105と、この類似度演算手段105の演算結果
を出力する出力インタフェース手段108を具備したこ
とを特徴とする類似テキスト検索装置。
(1) Input interface means 101 for inputting text, preprocessing means 103 for preprocessing input text, N-gram conversion means 104 for creating N-gram elements for text, and a plurality of texts A similar text search device comprising: a similarity calculation means 105 for calculating the degree of coincidence of N-gram elements relating to the above and an output interface means 108 for outputting the calculation result of the similarity calculation means 105.

【0008】(2)テキストが入力される入力インタフ
ェース手段と、類似度演算対象となるテキストが保持さ
れるテキスト・データベース手段と、テキストに対する
前処理を行う前処理手段と、テキストに対するNグラム
要素を作成するNグラム化手段と、複数のテキストに関
するNグラム要素の一致度を演算する類似度演算手段
と、前記一致度の高い順から演算結果を出力するソート
手段と、このソート手段のソート結果を出力する出力イ
ンタフェース手段を具備したことを特徴とする類似テキ
スト検索装置。
(2) An input interface means for inputting text, a text database means for holding text to be a similarity calculation object, a preprocessing means for preprocessing text, and an N-gram element for text. The N-gram converting means to be created, the similarity calculating means for calculating the degree of coincidence of N-gram elements regarding a plurality of texts, the sorting means for outputting the operation result in the order of the highest degree of coincidence, and the sorting result of the sorting means A similar text search device comprising output interface means for outputting.

【0009】(3)テキストが入力される入力インタフ
ェース手段と、類似度演算対象となるテキストが保持さ
れるテキスト・データベース手段と、テキストに対する
前処理を行う前処理手段と、テキストに対するNの値が
異なる複数種類のNグラム要素を作成する複数のNグラ
ム化手段と、前記異なる複数種類のNグラム要素につい
て、それぞれのNグラム要素の頻度により類似度を算出
する類似度算出手段と、それぞれのNグラム要素の頻度
により類似度を算出した値を加算する類似度加算手段
と、この類似度加算手段の出力を大きい順から出力する
ソート手段と、このソート手段のソート結果を出力する
出力インタフェース手段を具備したことを特徴とする類
似テキスト検索装置。
(3) The input interface means for inputting text, the text database means for holding the text to be the similarity calculation object, the preprocessing means for preprocessing the text, and the value of N for the text are A plurality of N-gram converting means for creating a plurality of different types of N-gram elements, a similarity degree calculating means for calculating the degree of similarity of the different plurality of types of N-gram elements based on the frequency of each N-gram element, and each N-gram element. A similarity adding means for adding the values calculated by the frequency of the gram element, a sorting means for outputting the outputs of the similarity adding means in descending order, and an output interface means for outputting the sorting result of the sorting means. A similar text search device characterized by being provided.

【0010】(4)テキストが入力される入力インタフ
ェース手段と、類似度演算対象となるテキストが保持さ
れるテキスト・データベース手段と、テキストに対する
前処理を行う前処理手段と、テキストに対するNグラム
要素を作成するNグラム化手段と、テキスト・データベ
ース手段に保持されたテキストに対して作成されたNグ
ラム要素をインデクス保持するインデクス・データベー
ス手段と、このインデクス・データベース手段に対する
アクセス手段と、複数のテキストに関するNグラム要素
の一致度を演算する類似度演算手段と、前記一致度の高
い順から演算結果を出力するソート手段と、このソート
手段のソート結果を出力する出力インタフェース手段を
具備したことを特徴とする類似テキスト検索装置。
(4) An input interface means for inputting text, a text database means for holding text to be a similarity calculation object, a preprocessing means for preprocessing text, and an N-gram element for text. Regarding N-gram forming means for creating, index database means for holding N-gram elements created for the text held in the text database means, access means for this index database means, and a plurality of texts It is characterized by further comprising a similarity calculation means for calculating the degree of coincidence of the N-gram element, a sorting means for outputting the calculation result in the order of the highest degree of coincidence, and an output interface means for outputting the sorting result of the sorting means. Similar text search device.

【0011】(5)テキストが入力される入力インタフ
ェース手段と、類似度演算対象となるテキストが保持さ
れるテキスト・データベース手段と、テキストに対する
前処理を行う前処理手段と、テキストに対するNの値が
異なる複数種類のNグラム要素を作成する複数のNグラ
ム化手段と、テキスト・データベース手段に保持された
テキストに対して作成された、異なる複数種類のNグラ
ム要素をインデクス保持するインデクス・データベース
手段と、このインデクス・データベース手段に対するア
クセス手段と、前記異なる複数種類のNグラム要素につ
いて、それぞれのNグラム要素の頻度により類似度を算
出する類似度算出手段と、それぞれのNグラム要素の頻
度により類似度を算出した値を加算する類似度加算手段
と、この類似度加算手段の出力を大きい順から出力する
ソート手段と、このソート手段のソート結果を出力する
出力インタフェース手段を具備したことを特徴とする類
似テキスト検索装置。
(5) The input interface means for inputting a text, the text database means for holding the text to be the similarity calculation object, the preprocessing means for preprocessing the text, and the value of N for the text are A plurality of N-gram conversion means for creating different types of N-gram elements, and an index database means for indexing different types of N-gram elements created for the text stored in the text database means; , An access means for the index database means, a similarity calculation means for calculating the degree of similarity of the N-gram elements of the different plural types by the frequency of each N-gram element, and a degree of similarity by the frequency of each N-gram element. The similarity adding means for adding the calculated value and this similarity addition And sorting means for outputting the descending order output means, similar text search apparatus characterized by comprising an output interface means for outputting the sort result of the sorting means.

【0012】これにより下記の作用効果を奏する。As a result, the following operational effects are exhibited.

【0013】(1)テキストをそれぞれNグラム要素を
作成してそのマッチングを行うので、表現のぶれを吸収
した形でテキストのマッチングを検索できるので、あい
まい検索を正確に実行することができる。
(1) Since N-gram elements are created for each text and the matching is performed, the text matching can be searched in a form that absorbs the blurring of the expression, so that the fuzzy search can be accurately executed.

【0014】(2)あらかじめ比較すべき一方のテキス
トをテキスト・データベースに保持しているので、検索
の度に比較すべき全テキストを入力する必要がなく、高
速に類似テキストを検索できる。
(2) Since one of the texts to be compared is held in the text database in advance, it is not necessary to input all the texts to be compared at each search, and similar texts can be searched at high speed.

【0015】(3)一方のテキストをデータベースに保
持するとともに、Nの値が異なる複数種類のNグラム要
素を作成してその頻度によって類似度を演算するので、
例えばN=2つまり2グラム要素の場合に助詞の部分の
一致により見かけ上の類似度の上がるようなテキストに
対しても3グラム要素の場合にはこれを抑制することが
でき、類似度の判定結果の速度及び精度を向上すること
ができる。
(3) Since one of the texts is held in the database, a plurality of types of N-gram elements having different N values are created, and the degree of similarity is calculated according to the frequency.
For example, in the case of N = 2, that is, in the case of a 2-gram element, even if the apparent similarity is increased by matching the particle part, this can be suppressed in the case of a 3-gram element, and the similarity determination The speed and accuracy of the results can be improved.

【0016】(4)あらかじめテキスト・データベース
に保持していたテキストのNグラム要素を作成し、これ
をインデクス・データベースに保持しているので、テキ
ストの比較に際し、このインデクス・データベースに保
管していたNグラム要素を使用して入力されたテキスト
に対する類似度を算出することを高速に行うことができ
る。
(4) Since the N-gram element of the text stored in advance in the text database is created and stored in the index database, it is stored in this index database when the texts are compared. It is possible to quickly calculate the similarity to the input text using the N-gram element.

【0017】(5)入力テキストをNの値の異なる複数
種類のNグラム要素を作成し、またテキスト・データベ
ースに保持していたテキストについてもこれまたNの異
なる複数種類のNグラム要素を作成してインデクス・デ
ータベースに保持しているので、Nグラム要素の頻度に
よる類似度を高速に行うことができ、しかもその類似度
の精度を向上したものとすることができる。
(5) A plurality of types of N-gram elements having different N values are created from the input text, and a plurality of types of N-gram elements having different N are also created for the text held in the text database. Since it is stored in the index database, the similarity depending on the frequency of N-gram elements can be performed at high speed, and the accuracy of the similarity can be improved.

【0018】[0018]

【発明の実施の形態】本発明の実施の形態を説明する。BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described.

【0019】A.本発明の第一の実施の形態 本発明の第一の実施の形態を図1にもとづき説明する。
図1(A)は本発明の第一の実施の形態を示し、同
(B)はそのNグラム化装置の動作説明図である。
A. First Embodiment of the Present Invention A first embodiment of the present invention will be described with reference to FIG.
FIG. 1A shows a first embodiment of the present invention, and FIG. 1B is an operation explanatory diagram of the N-gram conversion device.

【0020】図1において、類似テキスト検索装置1
は、入力インタフェース手段101、前処理手段10
3、Nグラム化手段104、類似度算出手段105、出
力インタフェース手段108を具備している。
In FIG. 1, a similar text retrieval device 1
Are input interface means 101 and preprocessing means 10.
3, N-gram conversion means 104, similarity calculation means 105, and output interface means 108.

【0021】入力インタフェース手段101は、類似度
を検索されるテキストが入力されるものであり、いまテ
キスト「Win NT4」と「Windows−NT」
の類似度を求める場合、これらのテキストが入力される
ものである。そしてこの入力を行うため、例えばパーソ
ナル・コンピュータ(以下パソコンという)の如き端末
装置が接続される。
The input interface means 101 is used for inputting the text whose similarity is searched, and the texts "Win NT4" and "Windows-NT" are now input.
These texts are input when the similarity of is calculated. In order to perform this input, a terminal device such as a personal computer (hereinafter referred to as a personal computer) is connected.

【0022】前処理手段103は、テキストがアルファ
ベットの場合は大文字で統一したり、空白を除去した
り、ハイフォンを除去したり、句読点や括弧等を除去し
たり、半角文字を全角文字にするものである。
When the text is alphabetic, the preprocessing means 103 unifies them with capital letters, removes blanks, removes hyphens, removes punctuation marks, parentheses, etc., and converts half-width characters into full-width characters. Is.

【0023】Nグラム化手段104はテキストをNグラ
ム化つまりN文字ずつの要素に分けるものである。例え
ばWINNT4を2グラム化(2文字ずつの要素に分け
る)する場合の動作について、図1(B)により説明す
る。
The N-gram converting means 104 converts the text into N-grams, that is, divides the text into N-character elements. For example, the operation of converting WINNT4 into 2 grams (divided into two character elements) will be described with reference to FIG.

【0024】まずWINNT4の最初の2文字WIを
取る。
First, take the first two characters WI of WINNT4.

【0025】次に先頭から1文字ずらして2文字取
る。これによりINが取れる。
Next, two characters are taken by shifting one character from the beginning. As a result, IN can be obtained.

【0026】それからさらに1文字ずらして2文字取
る。これによりNNが取れる。
Then, one character is further shifted to take two characters. As a result, NN can be obtained.

【0027】このような処理を繰返し行うことによりW
INNT4を、図1(B)に示す如く、WI、IN、N
N、NT、T4に2グラム要素(バイグラム要素)とし
て分割することができる。
By repeating such processing, W
INT4 is connected to WI, IN, N as shown in FIG.
It can be divided into N, NT, and T4 as a 2-gram element (bigram element).

【0028】類似度算出手段105は、2つのテキスト
の例えばバイグラム要素の一致不一致を比較して類似度
を算出するものである。例えば類似度を測りたい2つの
テキストをそれぞれバイグラム要素に分けて、その共通
集合の個数を和集合の個数で割ることにより、類似度を
算出する。図1(B)に示す如く、WINNT4とWI
NDOWSNT(登録商標)との類似度を求めるとき、
共通集合は3(WI、IN、NT)、和集合は10(W
I、IN、NN、NT、T4、ND、DO、OW、W
S、SN)であり、この場合の2つのテキストの類似度
は0.3となる。
The similarity calculating means 105 calculates the similarity by comparing the coincidence and non-coincidence of bigram elements of two texts. For example, two texts whose similarity is to be measured are divided into bigram elements, and the number of common sets is divided by the number of unions to calculate the similarity. As shown in FIG. 1B, WINNT4 and WI
When obtaining the similarity with NDOWNSTNT (registered trademark),
The common set is 3 (WI, IN, NT), and the union is 10 (W
I, IN, NN, NT, T4, ND, DO, OW, W
S, SN), and the similarity between the two texts in this case is 0.3.

【0029】また2つのテキストの長さが極端に異なる
場合は、短い方のテキストのバイグラム要素の個数で共
通集合の個数を割る方法もある。この例では短い方のテ
キストWINNT4の類似度は、共通集合の個数が3、
短い方のテキストのバイグラム要素数が5のため、類似
度は0.6となる。
When the lengths of the two texts are extremely different, there is also a method of dividing the number of common sets by the number of bigram elements of the shorter text. In this example, the similarity of the shorter text WINNT4 is that the number of common sets is 3,
Since the number of bigram elements in the shorter text is 5, the similarity is 0.6.

【0030】出力インタフェース手段108は、類似度
算出手段105において算出された類似度を、例えば入
力インタフェース手段101に対しテキストを入力した
端末装置に出力するものである。
The output interface means 108 outputs the similarity calculated by the similarity calculating means 105 to, for example, the terminal device which has input the text to the input interface means 101.

【0031】図1の動作についてテキスト「WinNT
4」と「Windows−NT」の類似度を求める場合
について説明する。
For the operation of FIG. 1, the text "WinNT
A case where the similarity between “4” and “Windows-NT” is obtained will be described.

【0032】(1)まずユーザは、図示省略した端末装
置よりテキスト「WinNT4」と「Windows−
NT」を入力する。前処理手段103は、これらのテキ
ストを前処理してこれらをWINNT4、WINDOW
SNTとして、Nグラム化手段104に送出する。
(1) First, the user inputs the texts "WinNT4" and "Windows-" from a terminal device (not shown).
Enter "NT". The pre-processing unit 103 pre-processes these texts and processes them as WINNT4 and WINDOW.
It is sent to the N-gram converting means 104 as SNT.

【0033】(2)この例ではNグラム化手段104は
2グラム化手段として動作する例について説明する。N
グラム化手段104は、まずWINNT4を図1(B)
に示す如く2グラム要素に断片し、得られたWI、I
N、NN、NT、T4を類似度算出手段105に送出
し、次にWINDOWSNTを図1(B)に示す如く2
グラム要素に断片し、得られたWI、IN、ND、D
O、OW、WS、SN、NTを類似度算出手段105に
送出する。このとき同一テキストで同一の2グラム要素
が複数存在したとき、1つの要素のみ残し、重複した2
グラム要素を削除する。N(N≠2)グラム化でも同様
である。
(2) In this example, an example in which the N-gram converting means 104 operates as the 2-gram converting means will be described. N
The gram conversion means 104 first sets WINNT4 in FIG.
The resulting WI, I was fragmented into 2 gram elements as shown in
N, NN, NT, T4 are sent to the similarity calculation means 105, and then WINDOWSNT is set to 2 as shown in FIG. 1 (B).
Fragmented into gram elements and obtained WI, IN, ND, D
The O, OW, WS, SN, and NT are sent to the similarity calculation means 105. If there are multiple identical 2-gram elements with the same text, only one element is left
Delete the gram element. The same applies to N (N ≠ 2) grammarization.

【0034】(3)類似度算出手段105では、これら
の2グラム要素より共通集合(WI、IN、NT)と和
集合(WI、IN、NN、NT、T4、ND、DO、O
W、WS、SN)を求める。そして共通集合の要素数3
を和集合の要素数10で商し、得られた値0.3を出力
インタフェース108を経由して、前記テキストを入力
した端末装置にこれを出力、表示する。これによりユー
ザは2つのテキストの類似度が0.3であることを認識
する。
(3) In the similarity calculating means 105, a common set (WI, IN, NT) and a union (WI, IN, NN, NT, T4, ND, DO, O) are created from these two-gram elements.
W, WS, SN). And the number of elements in the common set is 3
Is quotient with the number of elements of the union, and the obtained value 0.3 is output and displayed on the terminal device to which the text is input via the output interface 108. Thereby, the user recognizes that the similarity between the two texts is 0.3.

【0035】B.本発明の第二の実施の形態 本発明の第二の実施の形態を図2、図3にもとづき説明
する。図2は本発明の第二の実施の形態を示し、図3は
その動作説明図である。
B. Second Embodiment of the Present Invention A second embodiment of the present invention will be described with reference to FIGS. FIG. 2 shows a second embodiment of the present invention, and FIG. 3 is an operation explanatory diagram thereof.

【0036】図2において、類似テキスト検索装置2
は、テキストからNの値が異なる複数種類のNグラム要
素を作成し、それぞれのNグラムの頻度に対して類似度
を算出した値を加算し、その加算結果で類似度を認識す
るものである。例えばテキストを2グラム要素と3グラ
ム要素の2つの種類のものを作成し、2グラム要素で算
出した類似度と、3グラム要素で算出した類似度とを加
算し、その加算結果で類似度を認識する。
In FIG. 2, a similar text search device 2
Is to create a plurality of types of N-gram elements having different values of N from the text, add the calculated values of similarity to the frequency of each N-gram, and recognize the similarity from the addition result. . For example, two types of text, a 2-gram element and a 3-gram element, are created, the similarity calculated by the 2-gram element and the similarity calculated by the 3-gram element are added, and the similarity is calculated by the addition result. recognize.

【0037】これにより、例えばテキストが文章のよう
な場合、2グラム要素では「から」、「より」、「で
は」のような2文字の助詞が一致したとき類似度が上が
ることになるが、3グラム要素ではこのような一致を防
止できるので、類似度を精度良く算出できる。以下の説
明は2グラム化と3グラム化した場合について述べる。
As a result, for example, when the text is a sentence, the degree of similarity increases when two-letter particles such as "kara", "yori", and "wa" match in the 2-gram element. Since such a match can be prevented with the 3-gram element, the similarity can be calculated accurately. In the following description, the case of converting into 2 grams and 3 grams will be described.

【0038】(1)まずユーザは図示省略した端末装置
よりテキスト「WinNT4」と「Windows−N
T」を入力する。これらのテキストは入力インタフェー
ス手段101を介して前処理手段103に入力される。
前処理手段103はこれらのテキストを前処理して、こ
れらをWINNT4、WINDOWSNTとしてNグラ
ム化手段104に送出する。
(1) First, the user inputs the texts "WinNT4" and "Windows-N" from a terminal device (not shown).
Enter "T". These texts are input to the preprocessing unit 103 via the input interface unit 101.
The pre-processing means 103 pre-processes these texts and sends them to the N-gram converting means 104 as WINNT4 and WINDOWSNT.

【0039】(2)Nグラム化手段104では、これら
を先ず2グラム要素に断片して、図3(B)に示すもの
を類似度算出手段105に出力してその2グラム要素に
おける類似度の算出を行い、(この例では3/10)次
いで3グラム要素に断片して、図3(C)に示すものを
類似度算出手段105に出力してその3グラム要素にお
ける類似度の算出を行う(この例では1/10)。
(2) In the N-gram conversion means 104, these are first fragmented into 2-gram elements, and the one shown in FIG. 3B is output to the similarity calculation means 105 to calculate the similarity between the 2-gram elements. The calculation is performed (3/10 in this example), and then fragmented into 3 gram elements, and the one shown in FIG. 3C is output to the similarity calculation means 105 to calculate the similarity in the 3 gram elements. (1/10 in this example).

【0040】(3)そしてこれら2グラム要素における
類似度と、3グラム要素における類似度とを類似度加算
手段106に送出して、これらの和を求め、これを出力
インタフェース手段108を経由して、前記テキストを
入力した端末装置にこれを出力、表示する。
(3) Then, the degree of similarity in the 2-gram element and the degree of similarity in the 3-gram element are sent to the degree-of-similarity adding means 106 to obtain the sum of these, which is then passed through the output interface means 108. , The text is output and displayed on the terminal device to which the text is input.

【0041】類似度はNの値により、また複数種類Nの
値により、変化するので、各ケースに応じて類似非類似
の基準が異なるものとなる。
Since the degree of similarity changes depending on the value of N and the value of a plurality of types N, the criteria of similarity and dissimilarity differ depending on each case.

【0042】なお前記の場合、Nグラム化手段、類似度
算出手段をそれぞれNの種類の数だけ設けてもよく、1
個ずつ設けてもよい。複数にすれば高速化をはかること
ができ、1個にすればコスト節約をはかることができ
る。
In the above case, N-gram conversion means and similarity calculation means may be provided for each of N types.
You may provide one by one. If a plurality is provided, the speed can be increased, and if only one is provided, cost can be saved.

【0043】C.本発明の第3の実施の形態 本発明の第3の実施の形態を図4にもとづき説明する。C. Third embodiment of the present invention A third embodiment of the present invention will be described based on FIG.

【0044】図4において類似テキスト検索装置3は、
類似度を算出すべき対象である複数のテキストをあらか
じめテキスト・データベース109に格納しておく。こ
れにより、類似度を算出する場合に、図示省略した端末
装置から複数のテキストを入力する必要はなく、1テキ
ストのみ入力すればよいので、入力コストが大幅に削減
され、高速に類似度を算出することができる。テキスト
・データベース109には複数のテキストが格納されて
いるので、ソート手段107を介してその類似度の高い
ものから順次出力される。
In FIG. 4, the similar text search device 3 is
A plurality of texts whose similarity is to be calculated are stored in the text database 109 in advance. Thus, when calculating the similarity, it is not necessary to input a plurality of texts from a terminal device (not shown), and only one text needs to be input, so that the input cost is significantly reduced and the similarity can be calculated at high speed. can do. Since a plurality of texts are stored in the text database 109, the texts having a high degree of similarity are sequentially output via the sorting means 107.

【0045】(1)まずテキスト・データベース109
に、あらかじめ類似度の算出対象となる複数のテキスト
1 、T2 、T3 ・・・を図示省略した、入力手段から
格納しておく。
(1) First, the text database 109
In advance, a plurality of texts T 1 , T 2 , T 3 ... For which the similarity is calculated are stored from an input means (not shown).

【0046】(2)ユーザは、図示省略した端末装置よ
りテキストT0 を入力する。このテキストT0 は入力イ
ンタフェース手段102を経由して前処理手段103に
送出されて、前記前処理が行われ、Nグラム化手段10
4によりNグラム化例えば2グラム要素に断片され、類
似度算出手段105に送出される。
(2) The user inputs the text T 0 from the terminal device (not shown). This text T 0 is sent to the preprocessing means 103 via the input interface means 102, the preprocessing is performed, and the N-gram converting means 10 is executed.
4 is fragmented into N-grams, for example, 2-gram elements, and sent to the similarity calculation means 105.

【0047】(3)テキスト・データベース109で
は、まずテキストT1 が読み出されて、前処理手段10
3で前処理され、Nグラム化手段104により、前記テ
キストT0 と同じく2グラム要素に断片され、類似度算
出手段105により、テキストT0 とT1 との類似度S
1 が算出され、ソート手段107にこれが送出される。
(3) In the text database 109, the text T 1 is read out first, and the preprocessing means 10 is read.
3 is pre-processed, and the N-gram conversion means 104 fragments the same as the text T 0 into 2-gram elements, and the similarity calculation means 105 fragments the similarity S between the texts T 0 and T 1.
1 is calculated and sent to the sorting means 107.

【0048】(4)次にテキスト・データベース109
からテキストT2 が読み出され、同様にして類似度算出
手段105によりテキストT0 とT2 との類似度S2
算出され、ソート手段107に送出される。このように
してテキスト・データベース109からテキストT3
4 ・・・が読み出され、テキストT0 との類似度
3 、S4 ・・・が算出され、ソート手段107に送出
される。
(4) Next, the text database 109
From the text T2Is read out and the similarity is calculated in the same way.
Text T by means 1050And T2Similarity S with2But
It is calculated and sent to the sorting means 107. in this way
Text database 109 to text T3,
TFour... is read and the text T0Similarity with
S 3, SFour... is calculated and sent to the sorting means 107.
To be done.

【0049】(5)このようにテキスト・データベース
109内のすべてのテキストに対して類似度が算出され
た後に、ソート手段107はそれらの類似度を高い順に
ソートして、これらを全部、あるいはあらかじめ定めら
れた数だけ出力し、出力インタフェース手段108を経
由して、前記テキストT0 を入力したユーザの端末装置
に対しこれらを出力する。
(5) After the similarities have been calculated for all the texts in the text database 109 in this way, the sorting means 107 sorts the similarities in descending order, and all of them or in advance. A predetermined number is output, and these are output to the terminal device of the user who has input the text T 0 via the output interface unit 108.

【0050】なお前記説明では、ユーザから入力された
テキストT0 に対する前処理手段、Nグラム化手段を、
テキスト・データベース109から読み出したテキスト
1、T2 ・・・に対する前処理手段、Nグラム化手段
とを別のものを使用する例について記載したが、勿論こ
れらは同一のものを使用してもよい。
In the above description, the preprocessing means and N-gram converting means for the text T 0 input by the user are
The example in which the preprocessing means and the N-gram converting means for the texts T 1 , T 2 ... Read out from the text database 109 are used separately, but of course the same ones may be used. Good.

【0051】D.本発明の第4の実施の形態 本発明の第4の実施の形態を図5に示す。図5において
類似テキスト検索装置4では、ユーザが入力したテキス
トT0 及びテキスト・データベース109に格納されて
いるテキストT1 、T2 ・・・をそれぞれNの値の異な
る複数種類のNグラム要素を作成し、類似度を算出し、
類似度を加算して類似の程度を認識するものである。
D. Fourth Embodiment of the Present Invention A fourth embodiment of the present invention is shown in FIG. 5, in the similar text search device 4, the text T 0 input by the user and the texts T 1 , T 2 ... Stored in the text database 109 are respectively converted into a plurality of types of N-gram elements having different N values. Create, calculate the similarity,
The degree of similarity is recognized by adding the degrees of similarity.

【0052】図5の動作について説明する。The operation of FIG. 5 will be described.

【0053】(1)まずテキスト・データベース109
に、あらかじめ類似度の算出対象となる複数のテキスト
1 、T2 、T3 ・・・を図示省略した入力手段から格
納しておく。
(1) First, the text database 109
In advance, a plurality of texts T 1 , T 2 , T 3 ... Which are the objects of similarity calculation are stored from an input means (not shown).

【0054】(2)ユーザは、図示省略した端末装置よ
りテキストT0 を入力する。このテキストT0 は入力イ
ンタフェース手段102を経由して前処理手段103に
送出されて、前記前処理が行われ、Nグラム化手段10
4、104によりNの値の異なる複数種類のNグラム要
素、例えば2グラム要素及び3グラム要素に断片され、
それぞれ類似度算出装置105、105に送出される。
(2) The user inputs the text T 0 from the terminal device (not shown). This text T 0 is sent to the preprocessing means 103 via the input interface means 102, the preprocessing is performed, and the N-gram converting means 10 is executed.
4, 104 are fragmented into a plurality of types of N-gram elements having different values of N, for example, a 2-gram element and a 3-gram element,
It is sent to the similarity calculation devices 105 and 105, respectively.

【0055】(3)テキスト・データベース109で
は、先ずテキストT1 が読み出されて、前処理手段10
3で前処理され、Nグラム化手段104、104によ
り、前記テキストT0 と同じく2グラム要素及び3グラ
ム要素に断片され、類似度算出手段105、105に送
出され、類似度算出手段105、105で2グラム要素
及び3グラム要素にもとづきテキストT0 とT1 の類似
度S12、S13が算出され、これらが類似度加算手段10
6に送出されてその和(S12+S13)が求められ、ソー
ト手段107に送出される。
(3) In the text database 109, the text T 1 is read out first, and the preprocessing means 10 is read.
3 is pre-processed, and the N-gram converting means 104, 104 fragment the same into the 2-gram element and the 3-gram element as the text T 0, and the fragment is sent to the similarity calculating means 105, 105, and the similarity calculating means 105, 105. The similarity S 12 and S 13 between the texts T 0 and T 1 are calculated on the basis of the 2-gram element and the 3-gram element, and these are calculated by the similarity adding means 10
6 and the sum (S 12 + S 13 ) is obtained and sent to the sorting means 107.

【0056】(4)次にテキスト・データベース109
からテキストT2 が読み出され、同様にして類似度算出
手段105、105によりテキストT0 とT2 の2グラ
ム要素及び3グラム要素にもとづき類似度S22、S23
算出され、これらが類似度加算手段106に送出されて
その和(S22+S23)が求められ、ソート手段107に
送出される。
(4) Next, the text database 109
The text T 2 is read from the text T 2 , and the similarity calculation means 105, 105 calculates the similarities S 22 and S 23 based on the 2-gram element and the 3-gram element of the texts T 0 and T 2 in the same manner. The sum (S 22 + S 23 ) is sent to the degree adding means 106 and is then sent to the sorting means 107.

【0057】(5)このようにしてテキスト・データベ
ース109からテキストT3 、T4・・・が読み出さ
れ、テキストT0 との2グラム要素及び3グラム要素に
もとづく類似度(S32、S33)、(S42、S43)・・・
が算出され、これらが類似度加算手段106に送出され
てその和(S32+S33)、(S42+S43)・・・が得ら
れ、ソート手段107に送出される。
(5) In this way, the texts T 3 , T 4, ... Are read from the text database 109 and the similarity (S 32 , S) based on the 2-gram element and the 3-gram element with the text T 0 is read. 33 ), (S 42 , S 43 ) ...
Are calculated, and these are sent to the similarity adding means 106 to obtain their sums (S 32 + S 33 ), (S 42 + S 43 ), and sent to the sorting means 107.

【0058】(6)このようにテキスト・データベース
109内の全てのテキストに対して2グラム要素、3グ
ラム要素の類似度の和が算出された後に、ソート手段1
07はこれらの類似度の和の値の高い順にソートしてこ
れらを全部、あるいはあらかじめ定められた数だけ出力
し、出力インタフェース手段108を経由して、前記テ
キストT0 を入力したユーザの端末装置に対しこれらを
出力する。
(6) After the sum of the similarities of the 2-gram element and the 3-gram element is calculated for all the texts in the text database 109, the sorting means 1
07 is sorted in descending order of the value of the sum of these similarities and outputs all or a predetermined number, and the terminal device of the user who inputs the text T 0 via the output interface means 108. These are output to.

【0059】なお前記説明では、ユーザから入力された
テキストT0 に対する前処理手段、Nグラム化手段を、
テキスト・データベース109から読み出したテキスト
1、T2 ・・・に対する前処理手段、Nグラム化手段
とを別のものを使用する例について記載したが、これら
は同一のものを使用してもよい。またNグラム化手段及
び類似度算出手段をこれまた同一のものを使用してもよ
い。
In the above description, the preprocessing means and N-gram converting means for the text T 0 input by the user are
The example in which the preprocessing means and the N-gram converting means for the texts T 1 , T 2, ... Read out from the text database 109 are used separately has been described, but the same may be used. . The same N-gram conversion means and similarity calculation means may be used.

【0060】E.本発明の第5の実施の形態 本発明の第5の実施の形態を図6〜図9にもとづき説明
する。図6は本発明の第5の実施の形態を示し、図7は
そのインデクス・データベースの説明図、図8はインデ
クス・データベースにデータを登録するときの動作説明
図、図9は検索・類似度算出のときの動作説明図であ
る。
E. Fifth Embodiment of the Invention A fifth embodiment of the invention will be described with reference to FIGS. 6 to 9. FIG. 6 shows a fifth embodiment of the present invention, FIG. 7 is an explanatory diagram of the index database, FIG. 8 is an explanatory diagram of an operation when data is registered in the index database, and FIG. 9 is a search / similarity degree. It is an operation explanatory view at the time of calculation.

【0061】図6において、類似テキスト検索装置5で
は、インデクス・データベース111には検索対象とな
るテキストT1 、T2 ・・・のNグラム要素と、テキス
トとの関係が例えば図7(D)に示す如く、テーブル化
されて格納されている。
In FIG. 6, in the similar text search apparatus 5, the relationship between the N-gram elements of the texts T 1 , T 2 ... Which are the search targets in the index database 111 and the text is, for example, FIG. 7D. As shown in FIG. 4, the data is stored in a table.

【0062】検索対象となるテキストT1 、T2 、T3
が、図7(A)に示す如く、WindowsNT、Wi
ndows2000、WinMEのとき、図7(B)に
示す如く、例えば2グラム化され、同(D)に示す如
く、各2グラム要素WI、IN・・・と、その属するテ
キスト名T1 、T2 、T3 が格納されている。なおテキ
ストT2 では2グラム要素として00が2個作成される
が、同一要素については1個のみ残すので、図7(D)
の如きものとなる。そしてt1 はテキストT1 の2グラ
ム要素の数(この場合はt1 =8)、t2 はテキストT
2 の2グラム要素の数(この場合はt2 =9)、t3
テキストT3 の2グラム要素の数(この場合はt3
4)を示す。
Texts to be searched T 1 , T 2 , T 3
However, as shown in FIG. 7 (A), WindowsNT, Wi
Ndows2000, when WinME, as shown in FIG. 7 (B), for example, be 2 g of, as shown in (D), each 2 g element WI, IN · · · and a text name T 1, T 2 thereof belonging , T 3 are stored. In the text T 2 , two 00 elements are created as 2-gram elements, but only one element is left for the same element.
It becomes something like. And t 1 is the number of 2-gram elements of the text T 1 (in this case t 1 = 8), t 2 is the text T
The number of 2 2 grams elements (t 2 = 9 in this case), t 3 Number 2 grams elements of text T 3 are (in this case t 3 =
4) is shown.

【0063】そして図7(A)に示すテキストT0 (W
inNT4)との類似度を求めるとき、テキストT0
2グラム要素をインデクス・データベース111に格納
されているテキストT1 、T2 、T3 の2グラム要素と
照合し、その一致数を求める。このときテキストT0
みに存在する2グラム要素、NN、T4をインデクス・
データベース111に登録し、他のテキストとの照合に
備える。これによりテキストT0 とT1 は3/10、T
0 とT2 は2/12、T0 とT3 は2/7という類似度
を得ることができる。このように、テキストT1
2 、T3 の2グラム要素及びその数(頻度ともいう)
1 、t2 、t3 が登録されているので類似度の演算を
高速に行うことができる。
Then, the text T 0 (W shown in FIG.
inNT4), the 2-gram element of the text T 0 is collated with the 2-gram elements of the texts T 1 , T 2 and T 3 stored in the index database 111, and the number of matches is obtained. At this time, the 2-gram elements existing only in the text T 0 , NN and T4 are indexed.
It is registered in the database 111 and prepared for collation with other text. This makes the text T 0 and T 1 3/10, T
0 and T 2 are 2/12, T 0 and T 3 can be obtained similarity of 2/7. Thus, the text T 1 ,
2-gram elements of T 2 and T 3 and their number (also called frequency)
Since t 1 , t 2 , and t 3 are registered, the similarity can be calculated at high speed.

【0064】なおインデクス・データベース111に
は、図7(C)に示す如く、テキストT1 、T2 、T3
・・・のNグラム要素(この例では2グラム要素)を格
納してもよい。
In the index database 111, as shown in FIG. 7C, the texts T 1 , T 2 , T 3 are written.
N-gram elements (..., 2-gram elements in this example) may be stored.

【0065】図6の動作を、図8に示すインデクス・デ
ータベース111にデータを登録する場合と、図9に示
す類似度算出の場合について説明する。
The operation of FIG. 6 will be described for the case of registering data in the index database 111 shown in FIG. 8 and the case of similarity calculation shown in FIG.

【0066】(1)データ登録について、 S1.まずテキスト・データベース109に、あらかじ
め類似度の算出対象となる図7(A)に示す如き、複数
のテキストT1 、T2 、T3 ・・・を図示省略した入力
手段から格納する。それからリストから得た最初のテキ
ストT1 を前処理手段103に送出し、小文字の大字化
や空白、ハイフォンの削除等の前処理を行ってキーワー
ドクリーニングする。
(1) Regarding data registration, S1. First, in the text database 109, a plurality of texts T 1 , T 2 , T 3 ... As shown in FIG. Then, the first text T 1 obtained from the list is sent to the pre-processing means 103, and the pre-processing such as lower case lettering, blanks, and deletion of hyphens is performed for keyword cleaning.

【0067】S2.このように前処理されたテキストを
Nグラム化手段104に送り、例えば2グラム要素に断
片される。
S2. The text thus preprocessed is sent to the N-gram conversion means 104, and is fragmented into, for example, 2-gram elements.

【0068】S3.同一テキストにおいて同じ2グラム
要素が存在したとき、重複した2グラム要素を削除して
1つにする。
S3. When the same 2-gram element exists in the same text, duplicate 2-gram elements are deleted to make one.

【0069】S4.このようにして得たテキストT1
2グラム要素を、データベース・アクセスインタフェー
ス手段110によりテキスト名T1 と2グラム要素数t
1 とともにインデクス・データベース111に格納す
る。このようにして、テキスト・データベース109の
リストより得た他のテキストT2 、T3 についても同様
の処理を行い、図7(D)に示す如く、インデクス・デ
ータベース111が作成される。
S4. The 2-gram element of the text T 1 thus obtained is converted by the database access interface means 110 into the text name T 1 and the 2-gram element number t.
It is stored in the index database 111 together with 1 . In this way, similar processing is performed for the other texts T 2 and T 3 obtained from the list of the text database 109, and the index database 111 is created as shown in FIG. 7D.

【0070】(2)類似度算出について S10.ユーザが、図示省略した端末装置より図7
(A)に示すテキストT0を入力する。この入力された
テキストT0 (入力キーワード)は、入力インタフェー
ス手段102を経由して前処理手段103に送出されて
前処理が行われ、入力キーワードがクリーニングされ
る。
(2) Calculation of similarity S10. The user selects a terminal device (not shown) from FIG.
Input the text T 0 shown in (A). The input text T 0 (input keyword) is sent to the preprocessing unit 103 via the input interface unit 102 to be preprocessed and the input keyword is cleaned.

【0071】S11.このように前処理されたテキスト
0 は、Nグラム化手段104により、前記テキストT
1 、T2 、T3 と同様に、図7(B)に示す如く、2グ
ラム要素に断片される。
S11. The text T 0 preprocessed in this way is processed by the N-gram conversion means 104.
Similar to 1 , T 2 and T 3 , it is fragmented into 2 gram elements as shown in FIG.

【0072】S12.この場合、2グラム要素に重複す
るものがあれば、これらを1個だけ残して他の重複2グ
ラム要素を削除する。
S12. In this case, if there are duplicate 2-gram elements, only one of them is left and the other duplicate 2-gram elements are deleted.

【0073】S13.このようにして得られた入力テキ
ストT0 の2グラム要素がNグラム化手段104から類
似度算出手段105に入力されると、類似度算出手段1
05は、データベース・アクセスインタフェース手段1
10を介してインデクス・データベース111より、図
7(D)に示す、テキストT1 のレコードを取得する。
S13. When the 2-gram element of the input text T 0 thus obtained is input from the N-gram converting means 104 to the similarity calculating means 105, the similarity calculating means 1
05 is a database access interface means 1
The record of the text T 1 shown in FIG. 7D is acquired from the index database 111 via 10.

【0074】S14.そして類似度を計算する。これに
よりテキストT0 とT1 との類似度S1 =3/10が得
られる。
S14. Then, the degree of similarity is calculated. This gives a similarity S 1 = 3/10 between the texts T 0 and T 1 .

【0075】S15.このようにしてリストに記入され
た他の全テキストT2 、T3 とテキストT0 との類似度
2 、S3 が算出され、S2 =2/12、S3 =2/7
が得られる。
S15. In this way, the similarities S 2 and S 3 between all the other texts T 2 and T 3 entered in the list and the text T 0 are calculated, and S 2 = 2/12 and S 3 = 2/7
Is obtained.

【0076】S16.これらの類似度S1 、S2 、S3
はソート手段107に送出される。ソート手段107は
これらの類似度をその高い順にソートして、これらを出
力インタフェース手段108を経由して、前記テキスト
0 を入力したユーザの端末装置に対しこれらを出力す
る。
S16. These similarities S 1 , S 2 , S 3
Is sent to the sorting means 107. The sorting means 107 sorts these similarities in the descending order and outputs them to the terminal device of the user who has input the text T 0 via the output interface means 108.

【0077】なお前記説明ではユーザから入力されたテ
キストT0 に対する前処理手段、Nグラム化手段を、テ
キスト・データベース109から読み出したテキストT
1 、T2 ・・・に対する前処理手段、Nグラム化手段と
別のものを使用する例について記載したが、これらは同
一のものを使用してもよい。
In the above description, the preprocessing means and N-gram conversion means for the text T 0 input by the user are read out from the text database 109.
Although an example in which a pretreatment means for 1 , T 2, ... And another means for N-gram conversion are used has been described, these may be the same.

【0078】F.本発明の第6の実施の形態 本発明の第6の実施の形態を図10にもとづき説明す
る。図10において、テキスト類似検索装置6におい
て、ユーザが入力したテキストT0 及びテキスト・デー
タベース109に格納されているテキストT1 、T2
・・を、それぞれNの値の異なる複数種類のNグラム要
素を作成し、類似度を算出し、類似度を加算して類似の
程度を認識するものである。またインデクス・データベ
ース111もNの値の異なる複数種類のNグラム要素用
に複数用意されている。
F. Sixth Embodiment of the Present Invention A sixth embodiment of the present invention will be described with reference to FIG. 10, in the text similarity search device 6, the text T 0 input by the user and the texts T 1 and T 2 stored in the text database 109.
.. creates a plurality of types of N-gram elements each having a different N value, calculates the degree of similarity, and adds the degrees of similarity to recognize the degree of similarity. Also, a plurality of index databases 111 are prepared for a plurality of types of N-gram elements having different N values.

【0079】(1)まずテキスト・データベース109
に、あらかじめ類似度の算出対象となる、図7(A)に
示す如き、複数のテキストT1 、T2 、T3 を図示省略
した入力手段から格納する。それから最初のテキストT
1 を前処理手段103に送出し、前処理を行ったのち、
Nグラム化手段104、104によりNの値の異なる複
数種類のNグラム要素、例えば2グラム要素及び3グラ
ム要素に断片され、それぞれデータベース・アクセスイ
ンタフェース手段110を介してNの値の異なる複数種
類のインデクス・データベース111、111に、格納
される。テキストT2 、T3 についても同様な処理が行
われ、図7(D)に示す如く、格納される。
(1) First, the text database 109
In FIG. 7, a plurality of texts T 1 , T 2 and T 3 which are the objects of similarity calculation are stored in advance from the input means (not shown) as shown in FIG. 7A. Then the first text T
After sending 1 to the pre-processing means 103 to perform pre-processing,
A plurality of types of N-gram elements having different values of N, for example, two-gram elements and three-gram elements, are fragmented by the N-gram converting means 104, 104, and a plurality of types of different values of N are respectively passed through the database access interface means 110. It is stored in the index databases 111, 111. Similar processing is performed on the texts T 2 and T 3 , and the texts are stored as shown in FIG.

【0080】(2)ユーザは、図示省略した端末装置よ
りテキストT0 を入力する。このテキストT0 は入力イ
ンタフェース手段102を経由して前処理手段103に
送出されて、前記前処理が行われ、Nグラム化手段10
4、104によりNの値の異なる複数種類のNグラム要
素、例えば2グラム要素及び3グラム要素に断片され、
それぞれ類似度算出装置105、105に送出される。
(2) The user inputs the text T 0 from the terminal device (not shown). This text T 0 is sent to the preprocessing means 103 via the input interface means 102, the preprocessing is performed, and the N-gram converting means 10 is executed.
4, 104 are fragmented into a plurality of types of N-gram elements having different values of N, for example, a 2-gram element and a 3-gram element,
It is sent to the similarity calculation devices 105 and 105, respectively.

【0081】(3)インデクス・データベース111、
111では先ずテキストT1 に対する2グラム要素及び
3グラム要素が読み出され、テキストT0 に対する2グ
ラム要素及び3グラム要素と、類似度算出手段105、
105において2グラム要素同士、3グラム要素同士で
類似度の算出を行い、テキストT0 とT1 の2グラム要
素の類似度S12、3グラム要素の類似度S13が算出さ
れ、これらが類似度加算手段106に送出されてその和
(S12+S13)が求められ、ソート手段107に送出さ
れる。
(3) Index database 111,
In 111, first, the 2-gram element and 3-gram element for the text T 1 are read out, and the 2-gram element and 3-gram element for the text T 0 and the similarity calculation means 105,
In 105, the similarity between two-gram elements and between three-gram elements is calculated, and the similarity S 12 between two-gram elements of the texts T 0 and T 1 and the similarity S 13 between three-gram elements are calculated. The sum (S 12 + S 13 ) is obtained by sending to the degree adding means 106, and sent to the sorting means 107.

【0082】(4)次にインデクス・データベース11
1、111よりテキストT2 に対する2グラム要素及び
3グラム要素が読み出されて同様にして類似度算出手段
105、105によりテキストT0 とT2 の2グラム要
素及び3グラム要素にもとづき類似度S22、S23が算出
され、これらが類似度加算手段106に送出されてその
和(S22+S23)が求められ、ソート手段107に送出
される。このようにしてテキストT0 とT3 との2グラ
ム要素及び3グラム要素にもとづき類似度S32、S33
算出されて類似度加算手段106においてその和(S32
+S33)が求められソート手段107に送出される。
(4) Next, the index database 11
The 2-gram element and 3-gram element corresponding to the text T 2 are read out from Nos. 1 and 111, and similarly, the similarity calculation means 105, 105 calculates the similarity S based on the 2-gram element and 3-gram element of the texts T 0 and T 2. 22 and S 23 are calculated, and these are sent to the similarity adding means 106 to obtain the sum (S 22 + S 23 ) and sent to the sorting means 107. In this way, the similarities S 32 and S 33 are calculated based on the 2-gram element and the 3-gram element of the texts T 0 and T 3 and the sum (S 32) is calculated by the similarity adding means 106.
+ S 33 ) is obtained and sent to the sorting means 107.

【0083】(5)ソート手段107は類似度加算手段
106から送出された類似度の和(S12+S13)、(S
22+S23)、(S32+S33)の値が高い順にソートし
て、これらをソート順に出力インタフェース手段108
を経由して、前記テキストT0を入力したユーザの端末
装置に出力する。
(5) The sorting means 107 sums the similarities sent from the similarity adding means 106 (S 12 + S 13 ), (S
22 + S 23 ), (S 32 + S 33 ) are sorted in descending order, and the output interface means 108 is sorted in the sorted order.
The text T 0 is output to the terminal device of the user who has input the text.

【0084】なお前記説明では、ユーザから入力された
テキストT0 に対する前処理手段、Nグラム化手段を、
テキスト・データベース109から読み出したテキスト
1、T2 ・・・に対する前処理手段、Nグラム化手段
を別のものを使用する例について記載したが、これらは
同一のものを使用してもよい。またNグラム化手段及び
類似度算出手段インデクス・データベースもこれまた同
一のものを使用してもよい。同一機能のものは同一のも
のを使用してもよい。
In the above description, the preprocessing means and N-gram conversion means for the text T 0 input by the user are
Although an example in which different preprocessing means and N-gram conversion means are used for the texts T 1 , T 2, ... Read from the text database 109 has been described, the same may be used. The N-gram conversion means and the similarity calculation means index database may also be the same. Those having the same function may use the same one.

【0085】なお前記説明ではテキストがプログラム名
等で記載された例について説明したが、本発明はこれに
限定されるものではない。日本語の文書でも同様に適用
することができる。例えば書籍検索システムの場合、本
の正しい書名を忘れた場合でも、その一部である有名な
文書を入力することにより書名候補を得ることができ
る。
In the above description, an example in which the text is described by a program name or the like has been described, but the present invention is not limited to this. The same applies to Japanese documents. For example, in the case of a book search system, even if the correct title of a book is forgotten, a title candidate can be obtained by inputting a famous document that is a part of it.

【0086】ある特定の検索対象に対してあいまい検索
を行うことにより、表記のゆれや入力ミスなどを吸収し
た検索を行うことができる。インデクス・データベース
に検索対象の前処理データを入れておくことにより、検
索者が入力してからの応答速度を高めることができる。
By performing a fuzzy search with respect to a specific search target, it is possible to perform a search that absorbs fluctuations in input or input errors. By putting preprocessed data to be searched in the index database, it is possible to increase the response speed after the searcher inputs.

【0087】また2テキストの長さが極端に異なる場合
は短い方のテキストのNグラム要素の個数で共通のNグ
ラム要素を商し、類似度を求めることができる。これに
より、従来行われていた最長部分列の長さによる類似度
計算に比べ、高速に類似度計算が可能である。
When the lengths of the two texts are extremely different, the common N-gram element can be quoted by the number of N-gram elements of the shorter text to obtain the similarity. As a result, the similarity calculation can be performed faster than the similarity calculation based on the length of the longest subsequence that has been conventionally performed.

【0088】本発明を検索エンジンに適用する際にさら
に高速化するために、予めデータとして保持されている
テキストに対し、前処理、Nグラム化、重複Nグラム要
素削除等の処理を行ったものを蓄えておくことで、高速
化を図ることができる。
In order to further increase the speed when the present invention is applied to a search engine, the pre-processing, N-gram conversion, deletion of duplicate N-gram elements, etc. are performed on the text stored in advance as data. By storing, it is possible to increase the speed.

【0089】本発明の実施の形態を以下に付記する。The embodiments of the present invention will be additionally described below.

【0090】(付記1)テキストが入力される入力イン
タフェース手段と、入力されたテキストに対する前処理
を行う前処理手段と、テキストに対するNグラム要素を
作成するNグラム化手段と、複数のテキストに関するN
グラム要素の一致度を演算する類似度演算手段と、この
類似度演算手段の演算結果を出力する出力インタフェー
ス手段を具備したことを特徴とする類似テキスト検索装
置。
(Supplementary Note 1) Input interface means for inputting text, preprocessing means for performing preprocessing on the input text, N-gram conversion means for creating N-gram elements for the text, and N for a plurality of texts.
A similar text search device comprising: a similarity calculation means for calculating the degree of coincidence of gram elements; and an output interface means for outputting the calculation result of the similarity calculation means.

【0091】(付記2)テキストが入力される入力イン
タフェース手段と、入力されたテキストに対する前処理
を行う前処理手段と、テキストに対するNの値が異なる
Nグラム要素を作成するNグラム化手段と、複数のテキ
ストに関するNグラム要素の一致度をNグラムの頻度に
より演算する類似度演算手段と、この類似度演算手段の
演算結果を出力する出力インタフェース手段を具備した
ことを特徴とする類似テキスト検索装置。
(Supplementary Note 2) Input interface means for inputting text, preprocessing means for preprocessing input text, and N-gram conversion means for creating N-gram elements having different N values for text. A similar text retrieval device comprising: a similarity calculation means for calculating the degree of coincidence of N-gram elements relating to a plurality of texts based on the frequency of N-grams; and an output interface means for outputting the calculation result of the similarity calculation means. .

【0092】(付記3)テキストが入力される入力イン
タフェース手段と、類似度演算対象となるテキストが保
持されるテキスト・データベース手段と、テキストに対
する前処理を行う前処理手段と、テキストに対するNグ
ラム要素を作成するNグラム化手段と、複数のテキスト
に関するNグラム要素の一致度を演算する類似度演算手
段と、前記一致度の高い順から演算結果を出力するソー
ト手段と、このソート手段のソート結果を出力する出力
インタフェース手段を具備したことを特徴とする類似テ
キスト検索装置。
(Supplementary Note 3) Input interface means for inputting text, text database means for holding text to be a similarity calculation object, preprocessing means for preprocessing text, and N-gram element for text , An N-gram conversion means for creating the N-gram element, a similarity calculation means for calculating the degree of coincidence of N-gram elements for a plurality of texts, a sorting means for outputting the calculation result in the descending order of the degree of coincidence, and a sorting result of the sorting means. A similar text search device comprising output interface means for outputting

【0093】(付記4)テキストが入力される入力イン
タフェース手段と、類似度演算対象となるテキストが保
持されるテキスト・データベース手段と、テキストに対
する前処理を行う前処理手段と、テキストに対するNの
値が異なる複数種類のNグラム要素を作成する複数のN
グラム化手段と、前記異なる複数種類のNグラム要素に
ついて、それぞれのNグラム要素の頻度により類似度を
算出する類似度算出手段と、それぞれのNグラム要素の
頻度により類似度を算出した値を加算する類似度加算手
段と、この類似度加算手段の出力を大きい順から出力す
るソート手段と、このソート手段のソート結果を出力す
る出力インタフェース手段を具備したことを特徴とする
類似テキスト検索装置。
(Supplementary Note 4) Input interface means for inputting text, text / database means for holding text to be a similarity calculation object, preprocessing means for preprocessing text, and N value for text Multiple N's that create multiple types of N-gram elements with different
The grammarizing means, the similarity calculating means for calculating the degree of similarity for each of the plurality of different N-gram elements by the frequency of each N-gram element, and the value for calculating the degree of similarity by the frequency of each N-gram element are added. A similar text search device comprising: a similarity adding means, a sorting means for outputting the outputs of the similarity adding means in descending order, and an output interface means for outputting a sorting result of the sorting means.

【0094】(付記5)テキストが入力される入力イン
タフェース手段と、類似度演算対象となるテキストが保
持されるテキスト・データベース手段と、テキストに対
する前処理を行う前処理手段と、テキストに対するNグ
ラム要素を作成するNグラム化手段と、テキスト・デー
タベース手段に保持されたテキストに対して作成された
Nグラム要素をインデクス保持するインデクス・データ
ベース手段と、このインデクス・データベース手段に対
するアクセス手段と、複数のテキストに関するNグラム
要素の一致度を演算する類似度演算手段と、前記一致度
の高い順から演算結果を出力するソート手段と、このソ
ート手段のソート結果を出力する出力インタフェース手
段を具備したことを特徴とする類似テキスト検索装置。
(Supplementary Note 5) Input interface means for inputting text, text database means for holding text to be subjected to similarity calculation, preprocessing means for preprocessing text, and N-gram element for text , An index database means for index-holding the N-gram elements created for the text held in the text database means, an access means for the index database means, and a plurality of texts. The similarity calculation means for calculating the degree of coincidence of the N-gram element, the sorting means for outputting the calculation result in the descending order of the degree of coincidence, and the output interface means for outputting the sorting result of the sorting means. And similar text search device.

【0095】(付記6)テキストが入力される入力イン
タフェース手段と、類似度演算対象となるテキストが保
持されるテキスト・データベース手段と、テキストに対
する前処理を行う前処理手段と、テキストに対するNの
値が異なる複数種類のNグラム要素を作成する複数のN
グラム化手段と、テキスト・データベース手段に保持さ
れたテキストに対して作成された、異なる複数種類のN
グラム要素をインデクス保持するインデクス・データベ
ース手段と、このインデクス・データベース手段に対す
るアクセス手段と、前記異なる複数種類のNグラム要素
について、それぞれのNグラム要素の頻度により類似度
を算出する類似度算出手段と、それぞれのNグラム要素
の頻度により類似度を算出した値を加算する類似度加算
手段と、この類似度加算手段の出力を大きい順から出力
するソート手段と、このソート手段のソート結果を出力
する出力インタフェース手段を具備したことを特徴とす
る類似テキスト検索装置。
(Supplementary Note 6) Input interface means for inputting text, text / database means for holding text to be subjected to similarity calculation, preprocessing means for preprocessing text, and N value for text Multiple N's that create multiple types of N-gram elements with different
Different types of N created for the grammarizing means and the text held in the text database means
Index database means for holding the gram element as an index, access means for the index database means, and similarity calculating means for calculating the degree of similarity of the N-gram elements of the different plurality of types by the frequency of each N-gram element. , A similarity adding means for adding a value of which the similarity is calculated according to the frequency of each N-gram element, a sorting means for outputting the outputs of the similarity adding means in descending order, and a sorting result of the sorting means. A similar text search device comprising output interface means.

【0096】[0096]

【発明の効果】本発明により下記の効果を奏することが
できる。
According to the present invention, the following effects can be obtained.

【0097】(1)テキストをそれぞれNグラム要素を
作成してそのマッチングを行うので、表現のぶれを吸収
した形でテキストのマッチングを検索できるので、あい
まい検索を正確に実行することができる。
(1) Since each N-gram element is created for each text and the matching is performed, the text matching can be searched in a form that absorbs the blurring of the expression, so that the fuzzy search can be accurately executed.

【0098】(2)あらかじめ比較すべき一方のテキス
トをテキスト・データベースに保持しているので、検索
の度に比較すべき全テキストを入力する必要がなく、高
速に類似テキストを検索できる。
(2) Since one of the texts to be compared is held in the text database in advance, it is not necessary to input all the texts to be compared each time the search is performed, and similar texts can be searched at high speed.

【0099】(3)一方のテキストをデータベースに保
持するとともに、Nの値が異なる複数種類のNグラム要
素を作成してその頻度によって類似度を演算するので、
例えばN=2つまり2グラム要素の場合に助詞の部分の
一致により見かけ上の類似度の上がるようなテキストに
対しても3グラム要素の場合にはこれを抑制することが
でき、類似度の判定結果の速度及び精度を向上すること
ができる。
(3) One of the texts is held in the database, a plurality of types of N-gram elements having different N values are created, and the degree of similarity is calculated according to the frequency.
For example, in the case of N = 2, that is, in the case of a 2-gram element, even if the apparent similarity is increased by matching the particle part, this can be suppressed in the case of a 3-gram element, and the similarity determination The speed and accuracy of the results can be improved.

【0100】(4)あらかじめテキスト・データベース
に保持していたテキストのNグラム要素を作成し、これ
をインデクス・データベースに保持しているので、テキ
ストの比較に際し、このインデクス・データベースに保
管していたNグラム要素を使用して入力されたテキスト
に対する類似度を算出することを高速に行うことができ
る。
(4) Since the N-gram element of the text stored in advance in the text database is created and stored in the index database, it is stored in this index database when the texts are compared. It is possible to quickly calculate the similarity to the input text using the N-gram element.

【0101】(5)入力テキストをNの値の異なる複数
種類のNグラム要素を作成し、またテキスト・データベ
ースに保持していたテキストについてもこれまたNの異
なる複数種類のNグラム要素を作成してインデクス・デ
ータベースに保持しているので、Nグラム要素の頻度に
よる類似度を高速に行うことができ、しかもその類似度
の精度を向上したものとすることができる。
(5) A plurality of types of N-gram elements having different N values are created for the input text, and a plurality of types of N-gram elements having different N are also created for the text held in the text database. Since it is stored in the index database, the similarity depending on the frequency of N-gram elements can be performed at high speed, and the accuracy of the similarity can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施の形態である。FIG. 1 is a first embodiment of the present invention.

【図2】本発明の第2の実施の形態である。FIG. 2 is a second embodiment of the present invention.

【図3】本発明の第2の実施の形態の動作説明図であ
る。
FIG. 3 is an operation explanatory diagram of the second embodiment of the present invention.

【図4】本発明の第3の実施の形態である。FIG. 4 is a third embodiment of the present invention.

【図5】本発明の第4の実施の形態である。FIG. 5 is a fourth embodiment of the present invention.

【図6】本発明の第5の実施の形態である。FIG. 6 is a fifth embodiment of the present invention.

【図7】インデクス・データベースの説明図である。FIG. 7 is an explanatory diagram of an index database.

【図8】インデクス・データベースにデータを登録する
ときの動作説明図である。
FIG. 8 is an operation explanatory diagram when registering data in an index database.

【図9】検索・類似度算出のときの動作説明図である。FIG. 9 is an explanatory diagram of an operation at the time of searching and calculating a similarity.

【図10】本発明の第6の実施の形態である。FIG. 10 is a sixth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1〜6 類似テキスト検索装置 101、102 入力インタフェース手段 103 前処理手段 104 Nグラム化手段 105 類似度算出手段 106 類似度加算手段 107 ソート手段 108 出力インタフェース手段 109 テキスト・データベース 110 データベース・アクセスインタフェース手段 111 インデクス・データベース 1-6 Similar text search device 101, 102 input interface means 103 pretreatment means 104 N-gram conversion means 105 similarity calculation means 106 similarity adder 107 sorting means 108 output interface means 109 Text Database 110 Database Access Interface Means 111 Index Database

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】テキストが入力される入力インタフェース
手段と、 入力されたテキストに対する前処理を行う前処理手段
と、 テキストに対するNグラム要素を作成するNグラム化手
段と、 複数のテキストに関するNグラム要素の一致度を演算す
る類似度演算手段と、 この類似度演算手段の演算結果を出力する出力インタフ
ェース手段を具備したことを特徴とする類似テキスト検
索装置。
1. Input interface means for inputting text, preprocessing means for preprocessing input text, N-gram conversion means for creating N-gram elements for text, and N-gram elements for a plurality of texts. 2. A similar text search device comprising: a similarity calculation means for calculating the degree of coincidence and an output interface means for outputting the calculation result of the similarity calculation means.
【請求項2】テキストが入力される入力インタフェース
手段と、 類似度演算対象となるテキストが保持されるテキスト・
データベース手段と、 テキストに対する前処理を行う前処理手段と、 テキストに対するNグラム要素を作成するNグラム化手
段と、 複数のテキストに関するNグラム要素の一致度を演算す
る類似度演算手段と、 前記一致度の高い順から演算結果を出力するソート手段
と、このソート手段のソート結果を出力する出力インタ
フェース手段を具備したことを特徴とする類似テキスト
検索装置。
2. An input interface means for inputting text, and a text for holding text to be a similarity calculation target.
Database means, preprocessing means for preprocessing text, N-gram conversion means for creating N-gram elements for text, similarity operation means for calculating the degree of coincidence of N-gram elements for a plurality of texts, A similar text search device comprising: sorting means for outputting a calculation result in descending order of frequency and output interface means for outputting a sorting result of the sorting means.
【請求項3】テキストが入力される入力インタフェース
手段と、 類似度演算対象となるテキストが保持されるテキスト・
データベース手段と、 テキストに対する前処理を行う前処理手段と、 テキストに対するNの値が異なる複数種類のNグラム要
素を作成する複数のNグラム化手段と、 前記異なる複数種類のNグラム要素について、それぞれ
のNグラム要素の頻度により類似度を算出する類似度算
出手段と、 それぞれのNグラム要素の頻度により類似度を算出した
値を加算する類似度加算手段と、 この類似度加算手段の出力を大きい順から出力するソー
ト手段と、 このソート手段のソート結果を出力する出力インタフェ
ース手段を具備したことを特徴とする類似テキスト検索
装置。
3. An input interface means for inputting text, and a text for holding text to be a similarity calculation target.
The database means, the preprocessing means for performing preprocessing on the text, the plurality of N-gram converting means for creating a plurality of types of N-gram elements having different N values for the text, and the different plurality of types of N-gram elements, respectively. The similarity calculation means for calculating the similarity according to the frequency of N-gram elements, the similarity addition means for adding the values calculated for the similarity with the frequency of each N-gram element, and the output of the similarity addition means are large. A similar text search device comprising a sorting means for outputting in order and an output interface means for outputting a sorting result of the sorting means.
【請求項4】テキストが入力される入力インタフェース
手段と、 類似度演算対象となるテキストが保持されるテキスト・
データベース手段と、 テキストに対する前処理を行う前処理手段と、 テキストに対するNグラム要素を作成するNグラム化手
段と、 テキスト・データベース手段に保持されたテキストに対
して作成されたNグラム要素をインデクス保持するイン
デクス・データベース手段と、 このインデクス・データベース手段に対するアクセス手
段と、 複数のテキストに関するNグラム要素の一致度を演算す
る類似度演算手段と、 前記一致度の高い順から演算結果を出力するソート手段
と、 このソート手段のソート結果を出力する出力インタフェ
ース手段を具備したことを特徴とする類似テキスト検索
装置。
4. An input interface means for inputting text, and a text for holding text to be a similarity calculation target.
Database means, preprocessing means for preprocessing text, N-gram conversion means for creating N-gram elements for text, and N-gram element creation for N-gram elements created for text held in the text database means. Index database means, access means for the index database means, similarity calculating means for calculating the degree of coincidence of N-gram elements relating to a plurality of texts, and sorting means for outputting operation results in descending order of the degree of coincidence And a similar text search device comprising output interface means for outputting the sorting result of the sorting means.
【請求項5】テキストが入力される入力インタフェース
手段と、 類似度演算対象となるテキストが保持されるテキスト・
データベース手段と、 テキストに対する前処理を行う前処理手段と、 テキストに対するNの値が異なる複数種類のNグラム要
素を作成する複数のNグラム化手段と、 テキスト・データベース手段に保持されたテキストに対
して作成された、異なる複数種類のNグラム要素をイン
デクス保持するインデクス・データベース手段と、 このインデクス・データベース手段に対するアクセス手
段と、 前記異なる複数種類のNグラム要素について、それぞれ
のNグラム要素の頻度により類似度を算出する類似度算
出手段と、 それぞれのNグラム要素の頻度により類似度を算出した
値を加算する類似度加算手段と、 この類似度加算手段の出力を大きい順から出力するソー
ト手段と、 このソート手段のソート結果を出力する出力インタフェ
ース手段を具備したことを特徴とする類似テキスト検索
装置。
5. An input interface means for inputting text, and a text for holding text to be a similarity calculation target.
The database means, the preprocessing means for preprocessing the text, the plurality of N-gram converting means for creating a plurality of types of N-gram elements having different N values for the text, and the text held in the text database means A plurality of different types of N-gram elements that are stored in the index database means, an access means for accessing the index database means, and a plurality of different types of N-gram elements according to the frequency of each N-gram element. A similarity calculation means for calculating the similarity, a similarity addition means for adding the values calculated by the frequencies of the respective N-gram elements, and a sorting means for outputting the outputs of the similarity addition means in descending order. , Output interface means for outputting the sorting result of this sorting means Similar text search apparatus, characterized in that Bei was.
JP2002090099A 2002-03-28 2002-03-28 Similar text retrieval device Pending JP2003288366A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002090099A JP2003288366A (en) 2002-03-28 2002-03-28 Similar text retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002090099A JP2003288366A (en) 2002-03-28 2002-03-28 Similar text retrieval device

Publications (1)

Publication Number Publication Date
JP2003288366A true JP2003288366A (en) 2003-10-10

Family

ID=29235477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002090099A Pending JP2003288366A (en) 2002-03-28 2002-03-28 Similar text retrieval device

Country Status (1)

Country Link
JP (1) JP2003288366A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113677A (en) * 2004-10-12 2006-04-27 Patolis Corp Apparatus and method for recognizing document classification, document classifying apparatus, programs therefor and recording medium with these programs recorded thereon
WO2007105273A1 (en) * 2006-03-10 2007-09-20 Fujitsu Limited Confidential information managing program, method and device
JP2010067250A (en) * 2008-09-09 2010-03-25 Inst For Information Industry Error-detecting apparatus and method for chinese article, and recording medium
JP2013218628A (en) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> Character string similarity calculation device, method and program
JP5866084B2 (en) * 2014-01-16 2016-02-17 三菱電機株式会社 Search device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113677A (en) * 2004-10-12 2006-04-27 Patolis Corp Apparatus and method for recognizing document classification, document classifying apparatus, programs therefor and recording medium with these programs recorded thereon
JP4615279B2 (en) * 2004-10-12 2011-01-19 ヤフー株式会社 Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof
WO2007105273A1 (en) * 2006-03-10 2007-09-20 Fujitsu Limited Confidential information managing program, method and device
JP4824750B2 (en) * 2006-03-10 2011-11-30 富士通株式会社 Confidential information management program, method and apparatus
JP2010067250A (en) * 2008-09-09 2010-03-25 Inst For Information Industry Error-detecting apparatus and method for chinese article, and recording medium
JP2013218628A (en) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> Character string similarity calculation device, method and program
JP5866084B2 (en) * 2014-01-16 2016-02-17 三菱電機株式会社 Search device

Similar Documents

Publication Publication Date Title
JP3143079B2 (en) Dictionary index creation device and document search device
US6018735A (en) Non-literal textual search using fuzzy finite-state linear non-deterministic automata
KR100451978B1 (en) A method of retrieving data and a data retrieving apparatus
US7814099B2 (en) Method for ranking and sorting electronic documents in a search result list based on relevance
US7424421B2 (en) Word collection method and system for use in word-breaking
US6289342B1 (en) Autonomous citation indexing and literature browsing using citation context
JP2742115B2 (en) Similar document search device
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
JPH0424869A (en) Document processing system
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
Yerra et al. A sentence-based copy detection approach for web documents
US20020059219A1 (en) System and methods for web resource discovery
Hajeer et al. A new stemming algorithm for efficient information retrieval systems and web search engines
JPH0782504B2 (en) Information retrieval processing method and retrieval file creation device
JP2001184358A (en) Device and method for retrieving information with category factor and program recording medium therefor
JP2003288366A (en) Similar text retrieval device
JPH06282587A (en) Automatic classifying method and device for document and dictionary preparing method and device for classification
JP3081093B2 (en) Index creation method and apparatus and document search apparatus
JP2519129B2 (en) Multi-word information retrieval processing method and retrieval file creation device
Kadwe et al. Implementation of PDF crawler using boolean inverted index and n-gram model
JP2732661B2 (en) Text type database device
KR101303363B1 (en) Data processing system and method
Islam et al. A generalized approach to word segmentation using maximum length descending frequency and entropy rate
CN116414939B (en) Article generation method based on multidimensional data
Bakar et al. An evaluation of retrieval effectiveness using spelling‐correction and string‐similarity matching methods on Malay texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070717

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071120