JP2000194713A - Method and device for retrieving character string, and storage medium stored with character string retrieval program - Google Patents

Method and device for retrieving character string, and storage medium stored with character string retrieval program

Info

Publication number
JP2000194713A
JP2000194713A JP10370933A JP37093398A JP2000194713A JP 2000194713 A JP2000194713 A JP 2000194713A JP 10370933 A JP10370933 A JP 10370933A JP 37093398 A JP37093398 A JP 37093398A JP 2000194713 A JP2000194713 A JP 2000194713A
Authority
JP
Japan
Prior art keywords
character string
search
tree
difference
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10370933A
Other languages
Japanese (ja)
Inventor
Seiichi Konya
精一 紺谷
Masashi Yamamuro
雅司 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10370933A priority Critical patent/JP2000194713A/en
Publication of JP2000194713A publication Critical patent/JP2000194713A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a method and device for retrieving character string and a storage medium in which character string retrieval program is started by which a lot of texts can approximately be retried at high speed. SOLUTION: A character string is segmented from the given text (S1), the segmented character string is stored as a tree structure (S2), the difference between a character string inputted by a user and the stored character string is predicted (S3), and the character string stored as the tree structure is retrieved based on the predicted difference (S4). The character string and pointer of the given text are stored, and at the time of search, by obtaining the difference (predictive value) from a selected retrieve key, which position of which text the character string small in difference appears. By excluding the partial tree large in predictive value from the range of search or by preferentially searching the partial tree small in predictive value, for example, the character string small in difference can efficiently be searched and a lot of texts can approximately be retrieved at high speed.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字列検索方法及
び装置及び文字列検索プログラムを格納した記憶媒体に
係り、特に、記号処理及びパターンマッチングを行う際
の、テキスト検索、音符情報による音楽検索、DNAの
塩基配列の照合方法を行うための文字列検索方法及び装
置及び文字列検索プログラムを格納した記憶媒体に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character string search method and apparatus, and a storage medium storing a character string search program. The present invention relates to a character string search method and apparatus for performing a DNA base sequence collation method and a storage medium storing a character string search program.

【0002】[0002]

【従来の技術】従来の文字列検索の方法としては、図1
3に示す「パトリシアツリー」がある。同図に示すパト
リシアツリーは、テキストのすべての文字を始点とする
文字列に対して、インデックスを張る。ここで、パトリ
シアツリーの作成を図14を用いて説明する。テキスト
“ababc”から切り出された文字列“abab
c”、“babc”、“abc”、“bc”、“c”を
順次格納する。文字列“ababc”は接頭語が一致す
るノードやリーフがないので、リーフを作成し、ルーフ
へのリンクに“ababc”とラベルを付ける。文字列
“babc”も同様に、文字列“abc”は、格納済の
ababc”と接頭語が一致するので、リーフ“ab
abc”を削除し、新たに接頭語abのノードを作成す
る。“ababc”は、“ab+abc”、“abc”
は、“ab+c”と分割し、共有の接頭語abの下にリ
ーフを作成し、ルーフへのリンクに各々“abc”、
“c”とラベルをふる。以下、文字列“bc”、“c”
について同様に処理を行う。
2. Description of the Related Art As a conventional character string search method, FIG.
There is a “Patricia tree” shown in FIG. The Patricia tree shown in FIG. 3 indexes a character string starting from all characters of the text. Here, the creation of the Patricia tree will be described with reference to FIG. Character string “abab” cut out from text “ababc”
"c", "babc", "abc", "bc", and "c" are stored in order.The character string "ababc" has no node or leaf with the same prefix, so a leaf is created and a link to the roof is created. Is labeled as “ababc.” Similarly, for the character string “babc”, the prefix of the character string “abc” matches the stored “ ab abc”, so that the leaf “ababc”
“abbc” is deleted and a new node with the prefix “ab” is created, “ababc” is “ab + abc”, “abc”
Splits as "ab + c", creates leaves under the shared prefix ab, and links "abc",
Label "c". Hereinafter, the character strings “bc”, “c”
Are similarly processed.

【0003】当該パトリシアツリーを用いた文字列検索
を図15を用いて説明する。キーとして与えられた文字
列“abc”とツリーのラベルを比較し、ラベル“a
b”がキー“abc”の接頭語に一致するので、ラベル
“ab”のリンクを辿る。次に、キーの文字列の残った
部分“ab”とノードのラベルを比較し、一致するラ
ベル“c”のリンクを辿り、リーフに辿り着く。リーフ
の持つポインタ(文字列の出現位置)からキー文字列
“abc”がテキスト“ababc”の3文字目に出現
することが分かる。
A character string search using the Patricia tree will be described with reference to FIG. The character string "abc" given as the key is compared with the tree label, and the label "a
Since “b” matches the prefix of the key “ ab c”, follow the link of the label “ab.” Next, the remaining part “ab c ” of the character string of the key is compared with the label of the node to find a match. Following the link of the label “c”, it reaches the leaf, and it can be seen from the pointer (the appearance position of the character string) of the leaf that the key character string “abc” appears in the third character of the text “ababc”.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記従
来の方法では、キーとして与えた文字列と完全一致する
文字列しか検索できず、綴り間違いや類似した文字列の
検索(以下、近似検索)が行えないという問題がある。
本発明は、上記の点に鑑みなされたもので、大量のテキ
ストに対する近似検索を高速に行うことが可能な文字列
検索方法及び装置及び文字列検索プログラムを格納した
記憶媒体を提供することを目的とする。
However, in the above-mentioned conventional method, only a character string that completely matches the character string given as a key can be searched, and a search for a misspelled word or a similar character string (hereinafter, approximate search) is performed. There is a problem that can not be done.
The present invention has been made in view of the above points, and has as its object to provide a character string search method and apparatus capable of performing an approximate search for a large amount of text at high speed, and a storage medium storing a character string search program. And

【0005】[0005]

【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、与え
られたテキスト、音符、DNAの塩基配列等から文字列
を検索するための文字列検索方法において、与えられた
テキストから文字列を切り出し(ステップ1)、切り出
された文字列を木構造として格納し(ステップ2)、利
用者により入力された文字列と蓄積されている文字列間
の差異を予測し(ステップ3)、格納されている木構造
を予測された差異に基づいて文字列を探索する(ステッ
プ4)。
FIG. 1 is a diagram for explaining the principle of the present invention. The present invention (claim 1) provides a character string search method for searching for a character string from a given text, musical note, DNA base sequence, or the like, wherein the character string is cut out from the given text (step 1). The stored character string is stored as a tree structure (step 2), the difference between the character string input by the user and the stored character string is predicted (step 3), and the stored tree structure is predicted. A character string is searched based on the difference (step 4).

【0006】本発明(請求項2)は、文字列を木構造と
して格納する際に、複数のテキストから生成された文字
列を1つの木に格納し、該木のリーフは該文字列の位置
を示すポインタを有する。本発明(請求項3)は、文字
列を木構造として格納する際に、与えられた前記テキス
トの始点をずらしながら文字列を生成する。
According to the present invention (claim 2), when storing a character string as a tree structure, a character string generated from a plurality of texts is stored in one tree, and the leaf of the tree is located at the position of the character string. Is provided. According to the present invention (claim 3), when a character string is stored as a tree structure, the character string is generated while shifting the starting point of the given text.

【0007】本発明(請求項4)は、文字列を木構造と
して格納する際に、文字列に制約を加えて生成される文
字列の数を制限する。本発明(請求項5)は、文字列を
探索する際に、木のルートノードを展開し、部分木を生
成し、利用者により入力された文字列と部分木との差異
を予測し、該部分木を予測値順に並べ、探索リストを生
成し、探索リストの先頭の部分木のノードを展開し、予
測値に従って該探索リストを更新し、更新された探索リ
ストに基づいて文字列を探索する。
According to the present invention (claim 4), when a character string is stored as a tree structure, the number of character strings generated is restricted by restricting the character string. According to the present invention (claim 5), when searching for a character string, a root node of the tree is expanded, a partial tree is generated, and a difference between the character string input by the user and the partial tree is predicted. The subtrees are arranged in order of the predicted value, a search list is generated, a node of the subtree at the head of the search list is expanded, the search list is updated according to the predicted value, and a character string is searched based on the updated search list. .

【0008】本発明(請求項6)は、与えられたテキス
ト、音符、DNAの塩基配列等から文字列を検索するた
めの文字列検索方法において、利用者により入力された
文字列と、与えられたテキストから切り出された文字列
を木構造にして蓄積している文字列間の差異を予測す
る。本発明(請求項7)は、与えられたテキスト、音
符、DNAの塩基配列等から文字列を検索するための文
字列検索方法において、利用者により入力された検索キ
ーに基づいて、与えられたテキストから切り出された文
字列を格納している木構造から予測された差異に従って
探索する。
[0008] The present invention (claim 6) provides a character string search method for searching a character string from a given text, musical note, DNA base sequence, or the like. The difference between the stored character strings is predicted by making the character strings cut out from the extracted text into a tree structure. The present invention (claim 7) provides a character string search method for searching for a character string from a given text, musical note, DNA base sequence, or the like, based on a search key input by a user. The search is performed according to the difference predicted from the tree structure storing the character string extracted from the text.

【0009】図2は、本発明の原理構成図である。本発
明(請求項8)は、与えられたテキスト、音符、DNA
の塩基配列等から文字列を検索するための文字列検索装
置であって、与えられたテキストから文字列を切り出す
文字列分割手段10と、文字列分割手段10により切り
出された文字列を木構造にして格納する格納手段20
と、利用者が入力した文字列と文字列分割手段に格納さ
れている文字列間の差異を予測する予測手段50と、予
測手段50により予測された予測値に基づいて格納手段
の木構造を探索する探索手段40とを有する。
FIG. 2 is a diagram showing the principle of the present invention. According to the present invention (claim 8), given text, musical note, DNA
A character string search device for searching for a character string from a base sequence or the like of a character string, and a character string dividing means 10 for extracting a character string from a given text; Storage means 20 for storing
A prediction unit 50 for predicting a difference between a character string input by a user and a character string stored in the character string division unit, and a tree structure of the storage unit based on a predicted value predicted by the prediction unit 50. Search means 40 for searching.

【0010】本発明(請求項9)は、文字列格納手段1
0において、複数のテキストから生成された文字列を1
つの木構造として格納し、該木構造のリーフは該文字列
の位置を示すポインタを有する。本発明(請求項10)
は、文字列格納手段10において、与えられた前記テキ
ストの始点をずらしながら文字列を生成する手段を含
む。
According to the present invention (claim 9), a character string storage means 1 is provided.
At 0, a string generated from multiple texts is 1
Stored as one tree structure, and the leaves of the tree structure have pointers indicating the positions of the character strings. The present invention (Claim 10)
Includes means for generating a character string in the character string storage means 10 while shifting the starting point of the given text.

【0011】本発明(請求項11)は、文字列格納手段
10において、文字列に制約を加えて生成される文字列
の数を制限する手段を含む。本発明(請求項12)は、
予測手段50において、木のルートノードを展開し、部
分木を生成する部分木生成手段と、利用者により入力さ
れた文字列と部分木との差異を予測し、該部分木を予測
値順に並べ、探索リストを生成する探索リスト生成手段
と、探索リストの先頭の部分木のノードを展開し、予測
値に従って該探索リストを更新する探索リスト更新手段
とを含み、探索手段40において、探索リスト更新手段
で更新された探索リストに基づいて文字列を探索する手
段を含む。
The present invention (claim 11) includes means for limiting the number of character strings generated by restricting the character strings in the character string storage means 10. The present invention (claim 12)
A prediction unit that expands a root node of the tree and generates a partial tree; and predicts a difference between a character string input by a user and the partial tree, and arranges the partial trees in order of predicted values. , A search list generating means for generating a search list, and a search list updating means for expanding a subtree node at the head of the search list and updating the search list in accordance with a predicted value. Means for searching for a character string based on the search list updated by the means.

【0012】本発明(請求項13)は、与えられたテキ
スト、音符、DNAの塩基配列等から文字列を検索する
ための文字列検索装置であって、利用者が入力した文字
列と与えられたテキストから切り出された文字列間の差
異を予測する予測手段を有する。本発明(請求項14)
は、上記予測手段において、木のルートノードを展開
し、部分木を生成する部分木生成手段と、利用者により
入力された文字列と部分木との差異を予測し、該部分木
を予測値順に並べ、探索リストを生成する探索リスト生
成手段と、探索リストの先頭の部分木のノードを展開
し、予測値に従って該探索リストを更新する探索リスト
更新手段とを含む。
The present invention (claim 13) is a character string search device for searching for a character string from a given text, musical note, DNA base sequence, or the like, wherein the character string search device is provided with a character string input by a user. Prediction means for predicting a difference between character strings cut out from the extracted text. The present invention (claim 14)
Predicts a difference between a character string input by a user and a partial tree by expanding a root node of the tree and generating a partial tree in the predicting means; Search list generating means for arranging in order and generating a search list, and search list updating means for expanding a subtree node at the head of the search list and updating the search list according to a predicted value.

【0013】本発明(請求項15)は、与えられたテキ
スト、音符、DNAの塩基配列等から文字列を検索する
ための文字列検索装置であって、予測された、利用者が
入力した文字列と与えられたテキストから切り出された
文字列間の差異に基づいて格納手段の木構造を探索する
探索手段を有する。本発明(請求項16)は、与えられ
たテキスト、音符、DNAの塩基配列等から文字列を検
索するための文字列検索プログラムを格納した記憶媒体
であって、与えられたテキストから文字列を切り出す文
字列分割プロセスと、文字列分割プロセスにより切り出
された文字列を木構造にして格納する格納プロセスと、
利用者が入力した文字列と文字列分割プロセスに格納さ
れている文字列間の差異を予測する予測プロセスと、予
測プロセスにより予測された予測値に基づいて格納プロ
セスの木構造を探索する探索プロセスとを有する。
[0013] The present invention (claim 15) is a character string search apparatus for searching a character string from a given text, musical note, DNA base sequence, or the like. A search unit that searches a tree structure of the storage unit based on a difference between the string and a character string cut out from the given text; The present invention (claim 16) is a storage medium storing a character string search program for searching for a character string from a given text, musical note, base sequence of DNA, or the like, wherein the storage medium stores a character string from the given text. A character string dividing process to be cut out, a storing process to store the character string cut out by the character string dividing process in a tree structure,
A prediction process for predicting a difference between a character string input by a user and a character string stored in a character string division process, and a search process for searching a tree structure of a storage process based on prediction values predicted by the prediction process. And

【0014】本発明(請求項17)は、文字列格納プロ
セスにおいて、複数のテキストから生成された文字列を
1つの木構造として格納し、該木構造のリーフは該文字
列の位置を示すポインタを有する。本発明(請求項1
8)は、予測プロセスにおいて、木のルートノードを展
開し、部分木を生成する部分木生成プロセスと、利用者
により入力された文字列と部分木との差異を予測し、該
部分木を予測値順に並べ、探索リストを生成する探索リ
スト生成プロセスと、探索リストの先頭の部分木のノー
ドを展開し、予測値に従って該探索リストを更新する探
索リスト更新プロセスとを含み、探索プロセスにおい
て、探索リスト更新プロセスで更新された探索リストに
基づいて文字列を探索するプロセスを含む。
According to the present invention (claim 17), in a character string storage process, a character string generated from a plurality of texts is stored as one tree structure, and a leaf of the tree structure is a pointer indicating the position of the character string. Having. The present invention (Claim 1
8) In the prediction process, the root node of the tree is expanded to generate a subtree, and the difference between the character string input by the user and the subtree is predicted, and the subtree is predicted. A search list generating process for generating a search list by arranging in order of values, and a search list updating process for expanding a subtree node at the head of the search list and updating the search list in accordance with a predicted value; Including a process of searching for a character string based on the search list updated in the list update process.

【0015】上記のように、文字列を与えられたテキス
トから切り出す際に、テキストの始点をずらしながら文
字列を生成する。このとき、与えられたテキストの性質
により、文字列に制約を加えて生成される文字列の数を
制限する。これにより、与えられたテキストの任意の位
置にある文字列を探索することが可能となる。このよう
にして生成された文字列と、当該文字列がどのテキスト
のどの位置から得られたを示す情報であるポインタを合
わせて格納する。これにより、探索時に選ばれた検索キ
ーとの差異の小さい文字列がどのテキストのどの位置に
出現したかを知ることができる。
As described above, when a character string is cut out from a given text, the character string is generated while shifting the starting point of the text. At this time, the number of generated character strings is limited by restricting the character strings according to the properties of the given text. This makes it possible to search for a character string at an arbitrary position in the given text. The character string generated in this manner is stored together with a pointer which is information indicating the position where the character string is obtained from which text. Thereby, it is possible to know at which position in which text a character string having a small difference from the search key selected at the time of the search has appeared.

【0016】さらに、格納された文字列と利用者から入
力された文字列に含まれる文字列集合との差異を予測
し、格納されている木構造を巡回して探索する差異に、
予測された値が小さい順に部分木を検索する。これによ
り、予測された値に基づいて、予測値の大きい部分木を
探索の範囲から外したり、予測値の小さい部分木を優先
して探索することにより差異の小さい文字列を効率良く
検索することが可能となる。
Further, the difference between the stored character string and the character string set included in the character string input by the user is predicted,
The subtrees are searched in ascending order of predicted values. This makes it possible to efficiently search for a character string having a small difference by excluding a subtree having a large predicted value from a search range based on a predicted value or by prioritizing a subtree having a small predicted value. Becomes possible.

【0017】[0017]

【発明の実施の形態】図3は、本発明の文字列検索装置
の構成を示す。同図に示す文字列検索装置は、文字列分
割部10、蓄積部20、メモリ30、探索部40及び予
測部50から構成される。文字列分割部10は、テキス
ト入力装置60に接続され、当該テキスト入力装置60
から与えられたテキストの始点をずらしながら文字列を
生成する。この時、与えられたテキストの性質により、
文字列に制約を加えて生成される文字列の数を制限す
る。即ち、意味のない文字列、あるいは検索の対象とな
り難い文字列の生成を抑える。例えば、 (1) 区切り記号(空白、句点、読点)を含む文字列
を生成しない; (2) 文字列はある文字数以下; 等により生成される文字列の数を制限する。
FIG. 3 shows the configuration of a character string search apparatus according to the present invention. The character string search device shown in FIG. 1 includes a character string division unit 10, a storage unit 20, a memory 30, a search unit 40, and a prediction unit 50. The character string dividing unit 10 is connected to the text input device 60,
Generates a character string while shifting the starting point of the text given by. At this time, due to the nature of the given text,
Limit the number of strings generated by constraining the strings. That is, generation of a meaningless character string or a character string that is difficult to be searched is suppressed. For example, (1) a character string including a delimiter (blank, punctuation, or punctuation) is not generated; (2) a character string is equal to or less than a certain number of characters;

【0018】蓄積部20は、文字列分割部10において
生成された文字列、及びポインタ(その文字列がどのテ
キストのどの位置から得られたかを示す情報)を木構造
にして格納する。探索部40は、蓄積部20が有する木
構造を巡回する際に、後述する予測部50によって予測
された差異が小さい順に部分木を探索する。
The storage unit 20 stores the character string generated by the character string division unit 10 and a pointer (information indicating which character string is obtained from which position in the text) in a tree structure. When traversing the tree structure of the storage unit 20, the search unit 40 searches for subtrees in the order of smaller differences predicted by the prediction unit 50 described later.

【0019】予測部50は、文字列(蓄積部20が有す
る木構造の)の部分木に含まれる文字列集合との差異を
予測する。以下に、上記の構成による動作を説明する。
最初に、テキストを蓄積するまでの動作を説明する。図
4は、本発明の文字列検索装置の動作(テキスト蓄積フ
ェーズ)を説明するためのフローチャートである。
The prediction unit 50 predicts a difference between a character string (having a tree structure included in the storage unit 20) and a character string set included in a subtree. The operation of the above configuration will be described below.
First, the operation up to storing text will be described. FIG. 4 is a flowchart for explaining the operation (text accumulation phase) of the character string search device of the present invention.

【0020】ステップ110) まず、文字列分割部1
0において、テキスト入力装置60からテキストが入力
される。 ステップ120) 文字列分割部10は、与えられたテ
キストの始点を1文字づつずらしながら、文字列を生成
する。 ステップ130) 文字列が生成されているかを判定
し、生成されていない場合には当該処理を終了する。
Step 110) First, the character string division unit 1
At 0, a text is input from the text input device 60. Step 120) The character string dividing unit 10 generates a character string while shifting the starting point of the given text by one character. Step 130: Determine whether a character string has been generated, and if not, end the process.

【0021】ステップ140) 蓄積部20は、文字列
分割部10で生成された文字列をパトリシアツリーに格
納する。この時、複数のテキストから生成された文字列
を1つのツリーに格納し、ツリーのリーフは当該文字列
がどのテキストのどの位置にあるかを示す複数のポイン
タを有するものとする。次に、文字列検索の動作につい
て説明する。
Step 140) The storage unit 20 stores the character string generated by the character string division unit 10 in the Patricia tree. At this time, a character string generated from a plurality of texts is stored in one tree, and a leaf of the tree has a plurality of pointers indicating which text is at which position in the text. Next, the operation of the character string search will be described.

【0022】図5は、本発明の文字列検索フェーズのフ
ローチャートである。 ステップ210) 検索キー入力装置80から探索部4
0に対してキーボード等により文字列を入力する。 ステップ220) 探索部40は、入力された文字列
(検索キー)に基づいて蓄積部40を探索し、探索リス
トを作成する。
FIG. 5 is a flowchart of the character string search phase of the present invention. Step 210) From the search key input device 80 to the search unit 4
A character string is input to 0 using a keyboard or the like. Step 220) The search unit 40 searches the storage unit 40 based on the input character string (search key) to create a search list.

【0023】ステップ230) 次に、ルートノードを
展開し、部分木を生成し、予測部50で検索キーと部分
木との差異を予測する。検索キーとの差異の予測として
文字列の編集距離を用いる。 ステップ240) ここで評価値が確定したか否かを判
定し、確定した場合にはステップ260に移行し、確定
しない場合にはステップ250に移行する。
Step 230) Next, the root node is expanded to generate a partial tree, and the prediction unit 50 predicts the difference between the retrieval key and the partial tree. The edit distance of the character string is used to predict the difference from the search key. (Step 240) Here, it is determined whether or not the evaluation value is determined. If the evaluation value is determined, the process proceeds to step 260, and if not, the process proceeds to step 250.

【0024】ステップ250) 確定しない場合には、
各部分木を予測値順に並べ、探索リストを更新し、ステ
ップ270に移行する。 ステップ260) 評価値が確定した場合には、評価値
順に検索結果リストに載せる。 ステップ270) 探索リストが空になるまで上記の処
理を繰り返す。空になったらステップ280に移行す
る。
Step 250) If not determined,
The subtrees are arranged in the order of predicted values, the search list is updated, and the process proceeds to step 270. Step 260) When the evaluation values are determined, they are put on the search result list in the order of the evaluation values. Step 270) Repeat the above process until the search list becomes empty. When it becomes empty, the process proceeds to step 280.

【0025】ステップ280) 検索結果を出力する。Step 280) Output the search result.

【0026】[0026]

【実施例】以下、図面と共に説明する。以下の実施例の
説明に先立って使用される用語について説明する。以下
の説明における“文字”、“文字列”、“テキスト”と
は、各々記号(1字)、意味のある記号の列、文字列の
並びである。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. Prior to the description of the embodiments, terms used will be described. In the following description, “character”, “character string”, and “text” are a symbol (one character), a sequence of meaningful symbols, and an arrangement of character strings, respectively.

【0027】例えば、指定したキーワードを含む文書の
検索に適用する場合では、文字はアルファベット、数
字、かな、漢字などとし、文字列は単語や句、テキスト
は文書に相当する。音楽検索では、文字は音符、文字列
はフレーズ、テキストは曲となる。DNAの塩基配列の
照合方法では、文字は、4つの塩基{C(シトシン)、
T(チミン)、A(アデニン)、G(グアニン)}、文
字列は、塩基の列、テキストはDNA(遺伝子)とな
る。
For example, when the present invention is applied to a search for a document including a specified keyword, characters are alphabets, numbers, kana, kanji, etc., character strings are words and phrases, and texts are documents. In music search, characters are musical notes, character strings are phrases, and texts are songs. In the method for checking the base sequence of DNA, a character consists of four bases {C (cytosine),
T (thymine), A (adenine), G (guanine)}, the character string is a sequence of bases, and the text is DNA (gene).

【0028】図3に示す構成において、文字列分割部1
0は、テキスト入力装置60からキーボード等によりテ
キストが入力されると、当該テキストの始点を1文字づ
つずらしながら、文字列を生成し、複数のテキストから
生成された文字列を1つのツリーとし、蓄積部20によ
り、メモリ30のパトリシアツリーに格納する。予測部
50は、検索キーとの差異の予測として、文字列の編集
距離を用いる。図6は、本発明の一実施例の編集距離を
説明するための図である。同図において、文字列a(a
0 1 2 …an )から編集操作(挿入、削除、置換)
を行い、文字列b(b0 1 2 …bm )との距離を求
める。文字列aを文字列bに変換する編集操作の組み合
わせは複数存在する。
In the configuration shown in FIG.
0, when a text is input from the text input device 60 using a keyboard or the like, a character string is generated while shifting the starting point of the text one character at a time, and the character string generated from a plurality of texts is defined as one tree; The data is stored in the Patricia tree of the memory 30 by the storage unit 20. The prediction unit 50 uses the edit distance of the character string as prediction of the difference from the search key. FIG. 6 is a diagram for explaining the edit distance according to one embodiment of the present invention. In the figure, a character string a (a
Editing operations (insert, delete, replace) from 0 a 1 a 2 ... a n )
To determine the distance from the character string b (b 0 b 1 b 2 ... B m ). There are a plurality of combinations of editing operations for converting a character string a into a character string b.

【0029】ユニットコスト(編集距離)は、 ユニットコスト≡min{NI +ND +NR } により求める。但し、NI は編集操作列の挿入の数、N
D は編集操作列の削除の数、NR は編集操作列の置換数
を示す。重み付き編集距離は、 重み付き編集距離≡min{wI I +wD D +wR
R } により求める。但し、wI は挿入に対する重み、wD
削除に対する重み、wRは置換に対する重みである。
The unit cost (editing distance) is obtained from the unit cost {min} N I + N D + N R }. Here, N I is the number of insertions of the editing operation sequence, N
D is the number of deletion editing operation sequence, N R represents the number of substitutions of the editing operation sequence. Weighted edit distance is weighted edit distance ≡min {w I N I + w D N D + w R
Determined by N R }. Here, w I is the weight for insertion, w D is the weight for deletion, and w R is the weight for replacement.

【0030】ここで、編集距離(ユニットコスト)は、
重み付き編集距離の特別な場合(w I =wD =wR
1)に相当する。さらに予測部50は、図7に示す方法
により予測値を求める。同図において、文字列abcd
とabx* (*は任意の文字の列)の距離の下限を予測
値とする。ユニットコスト(編集距離の場合)には、先
頭の比較で距離の下限が求められる。例えば、同図の例
ではabcdの“abc”とabx* の“abx”にお
いて、x=c→0となり、x≠c→1となる。また、重
み付き編集距離の場合には、編集操作毎に重みが違うた
め、次にくる文字で距離が変わる。例えば、abcdの
“cd”とabx* の“* ”において、x=d→wD
* =cd…→wI * =d…→wR となる。このとき、
距離が最小となる場合を想定して予測値とする。
Here, the edit distance (unit cost) is
Special case of weighted edit distance (w I= WD= WR=
This corresponds to 1). Further, the prediction unit 50 performs the method shown in FIG.
To obtain a predicted value. In the figure, a character string abcd
And abx*Predict the lower limit of the distance of (* is an arbitrary character string)
Value. Unit cost (for edit distance)
The lower limit of the distance is obtained by comparing the heads. For example, the example in the figure
Then, "abc" of abcd and abx*"Abx"
Therefore, x = c → 0, and x ≠ c → 1. Also, heavy
In the case of the edit distance, the weight differs for each edit operation.
The distance changes with the next character. For example, abcd
“Cd” and abx*of"*, X = d → wD,
*= Cd… → wI, *= D… → wRBecomes At this time,
The predicted value is set assuming a case where the distance becomes minimum.

【0031】以下に一連の動作を説明する。図8は、本
発明の一実施例の検索木を示す。メモリ30において、
図8に示す木構造に従ってテキストが蓄積されているも
のとする。まず、探索部40は探索リストを作成し、探
索木を図9に示すような探索リストに載せる。なお、当
該探索リストは探索部40が保持しているものとする。
次に、ルートノードを展開し、部分木a,b,cを生成
する。予測部50が前述の方法により、検索キーと部分
木a,b,cとの差異を予測する(予測値がPb
a ,Pc であったとする)。各部分木を予測値順に並
べ、探索リストを図10に示すように当該探索リストを
更新する(図10(A))。同図の例では、予測値がP
b <Pa <Pc であるとする。
Hereinafter, a series of operations will be described. FIG. 8 shows a search tree according to an embodiment of the present invention. In the memory 30,
It is assumed that texts are stored according to the tree structure shown in FIG. First, the search unit 40 creates a search list, and places the search tree on the search list as shown in FIG. The search list is assumed to be held by the search unit 40.
Next, the root node is expanded to generate subtrees a, b, and c. The prediction unit 50 predicts the difference between the search key and the subtrees a, b, and c by the method described above (the predicted value is P b ,
P a, assumed to be P c). Each subtree is arranged in the order of the predicted value, and the search list is updated as shown in FIG. 10 (FIG. 10A). In the example of FIG.
b <a a P a <P c.

【0032】次に、探索リストの先頭の部分木のノード
を展開し、予測値に従って探索リストを更新する(図1
0(B))。同図の例では、予測値がPk <Pa <Pl
<P c であるとする。ノードの展開に際して、部分木へ
のパス上のラベルの文字数が検索キーの文字数を越えた
場合、あるいは、探索が木のリーフに到達した場合は、
検索キーと格納された文字列との差異(評価値)が確定
する。評価値(CE <CF )が確定した文字列は、評価
値順に検索結果リストに載せる(図10(C))。同図
の例では、探索部40において確定した評価値がCE
F であるので、検索結果リストには、「E」「F」の
順に並べられる。
Next, the node of the subtree at the head of the search list
And the search list is updated according to the predicted value (see FIG. 1).
0 (B)). In the example of FIG.k<Pa<Pl
<P cAnd When expanding nodes, go to subtree
The number of characters in the label on the path exceeds the number of characters in the search key
Or if the search reaches a tree leaf,
The difference (evaluation value) between the search key and the stored character string is determined
I do. Evaluation value (CE<CF), The character string is evaluated
It is placed in the search result list in order of value (FIG. 10C). Same figure
In the example of, the evaluation value determined by the search unit 40 is CE<
CFTherefore, in the search result list, "E" and "F"
It is arranged in order.

【0033】以下、探索リストが空になるか、他の終了
条件が満たされるまで当該処理を繰り返す。検索キー及
び検索キーに対する差異の上限が与えられた場合は、図
11に示すように、予測値がPc >εである場合に、差
異の上限(ε)を越えた予測値を持つ部分木cは探索す
る必要がないため高速に探索が実行できる。
Thereafter, this process is repeated until the search list becomes empty or another termination condition is satisfied. When the search key and the upper limit of the difference with respect to the search key are given, as shown in FIG. 11, when the predicted value is P c > ε, the subtree having the predicted value exceeding the upper limit of the difference (ε) is obtained. Since c need not be searched, the search can be executed at high speed.

【0034】また、差異の小さい順に上位N件を検索す
る場合においても、図12に示すように、予測値の小さ
い順に探索するため差異の小さい文字列が優先的に検索
されており、かつ、これから検索される文字列の差異の
下限が予測値として求められているため終了条件が明確
で、不要な探索をすることなく上位N件を求めることが
できる。
Also, in the case of searching for the top N items in ascending order of difference, as shown in FIG. 12, character strings having small differences are preferentially searched for searching in order of small predicted values. Since the lower limit of the difference between the character strings to be searched for is determined as the predicted value, the end condition is clear, and the top N items can be obtained without performing unnecessary search.

【0035】上述のように、本実施例によれば、大量の
テキストに対する近似検索を高速に行うことが可能とな
る。また、上記の実施例では、図3の構成に基づいて説
明しているが、図3に示す文字列検索装置の構成要素を
プログラムとして構築し、文字列検索装置として利用さ
れるコンピュータに接続されるディスク装置や、フロッ
ピーディスクやCD−ROM等の可搬記憶媒体に格納し
ておき、本発明を実施する際にインストールすることに
より容易に本発明を実現できる。
As described above, according to the present embodiment, it is possible to perform an approximate search for a large amount of text at high speed. Although the above embodiment has been described based on the configuration of FIG. 3, the components of the character string search device shown in FIG. 3 are constructed as programs and connected to a computer used as the character string search device. The present invention can be easily realized by storing the program in a portable disk medium, a portable storage medium such as a floppy disk, a CD-ROM, or the like, and installing the program when implementing the present invention.

【0036】なお、本発明は上記の実施例に限定される
ことなく、特許請求の範囲内で種々変更・応用が可能で
ある。
It should be noted that the present invention is not limited to the above-described embodiment, but can be variously modified and applied within the scope of the claims.

【0037】[0037]

【発明の効果】上述のように、本発明によれば、与えら
れたテキストの文字列及びポインタを格納しており、探
索時において、選ばれた検索キーとの差異(予測値)を
求めることにより、差異の小さい文字列がどのテキスト
のどの位置に出現したかを知ることが可能であり、例え
ば、予測値の大きい部分木を探索の範囲から外したり、
予測値の小さい部分木を優先して探索することにより、
差異の小さい文字列を効率良く探索することが可能であ
り、大量のテキストに対する近似検索を高速に行うこと
ができる。
As described above, according to the present invention, a character string and a pointer of a given text are stored, and a difference (predicted value) from a selected search key is determined at the time of a search. By, it is possible to know at which position in which text a character string with a small difference appeared, for example, removing a subtree with a large predicted value from the search range,
By preferentially searching for a subtree with a small predicted value,
It is possible to efficiently search for a character string having a small difference, and it is possible to quickly perform an approximate search for a large amount of text.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明の文字列検索装置の構成図である。FIG. 3 is a configuration diagram of a character string search device of the present invention.

【図4】本発明の文字列検索装置の動作(テキスト蓄積
フェーズ)を説明するためのフローチャートである。
FIG. 4 is a flowchart for explaining the operation (text accumulation phase) of the character string search device of the present invention.

【図5】本発明の文字列検索フェーズのフローチャート
である。
FIG. 5 is a flowchart of a character string search phase according to the present invention.

【図6】本発明の一実施例の編集距離を説明するための
図である。
FIG. 6 is a diagram for explaining an edit distance according to an embodiment of the present invention.

【図7】本発明の一実施例の予測値計算方法を説明する
ための図である。
FIG. 7 is a diagram for explaining a prediction value calculation method according to one embodiment of the present invention.

【図8】本発明の一実施例の検索木を示す図である。FIG. 8 is a diagram showing a search tree according to one embodiment of the present invention.

【図9】本発明の一実施例の探索リストの例である。FIG. 9 is an example of a search list according to an embodiment of the present invention.

【図10】本発明の一実施例の探索リストを更新する例
である。
FIG. 10 is an example of updating a search list according to an embodiment of the present invention.

【図11】本発明の一実施例の差異がε以下の文字列の
検索の例を示す図である。
FIG. 11 is a diagram showing an example of a search for a character string having a difference of not more than ε in one embodiment of the present invention.

【図12】本発明の一実施例の上位N件の検索の例を示
す図である。
FIG. 12 is a diagram illustrating an example of a search for top N items according to an embodiment of the present invention.

【図13】パトリシアツリーの例である。FIG. 13 is an example of a Patricia tree.

【図14】パトリシアツリーのの構築の例である。FIG. 14 is an example of construction of a Patricia tree.

【図15】パトリシアツリーでの文字列検索の例であ
る。
FIG. 15 is an example of a character string search in a Patricia tree.

【符号の説明】[Explanation of symbols]

10 文字列分手段、文字列分割部 20 格納手段、蓄積部 30 メモリ 40 探索手段、探索部 50 予測手段、予測部 60 テキスト入力装置 70 表示装置 80 検索キー入力装置 DESCRIPTION OF SYMBOLS 10 Character string division | segmentation means, character string division | segmentation part 20 storage means, storage part 30 memory 40 search means, search part 50 prediction means, prediction part 60 text input device 70 display device 80 search key input device

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 与えられたテキスト、音符、DNAの塩
基配列等から文字列を検索するための文字列検索方法に
おいて、 与えられたテキストから文字列を切り出し、 切り出された前記文字列を木構造として格納し、 利用者により入力された文字列と蓄積されている前記文
字列間の差異を予測し、 格納されている木構造を予測された差異に基づいて文字
列を探索することを特徴とする文字列検索方法。
1. A character string search method for searching for a character string from a given text, musical note, DNA base sequence, or the like, wherein the character string is cut out from a given text, and the cut out character string is formed into a tree structure. And predicting a difference between a character string input by a user and the stored character string, and searching a stored tree structure for a character string based on the predicted difference. String search method to be performed.
【請求項2】 前記文字列を木構造として格納する際
に、 複数のテキストから生成された文字列を1つの木に格納
し、該木のリーフは該文字列の位置を示すポインタを有
する請求項1記載の文字列検索方法。
2. When storing the character string as a tree structure, a character string generated from a plurality of texts is stored in one tree, and a leaf of the tree has a pointer indicating a position of the character string. Item 1. The character string search method according to Item 1.
【請求項3】 前記文字列を木構造として格納する際
に、 与えられた前記テキストの始点をずらしながら文字列を
生成する請求項1及び2記載の文字列検索方法。
3. The character string search method according to claim 1, wherein when the character string is stored as a tree structure, the character string is generated while shifting a starting point of the given text.
【請求項4】 前記文字列を木構造として格納する際
に、 文字列に制約を加えて生成される文字列の数を制限する
請求項3記載の文字列検索方法。
4. The character string search method according to claim 3, wherein when storing the character string as a tree structure, the number of character strings generated by restricting the character string is limited.
【請求項5】 前記文字列を探索する際に、 前記木のルートノードを展開し、部分木を生成し、 前記利用者により入力された文字列と前記部分木との差
異を予測し、該部分木を予測値順に並べ、探索リストを
生成し、 前記探索リストの先頭の部分木のノードを展開し、前記
予測値に従って該探索リストを更新し、 更新された前記探索リストに基づいて前記文字列を探索
する請求項1記載の文字列検索方法。
5. When searching for the character string, a root node of the tree is expanded to generate a partial tree, and a difference between the character string input by the user and the partial tree is predicted. The subtrees are arranged in order of predicted value, a search list is generated, a node of a subtree at the head of the search list is expanded, the search list is updated according to the predicted value, and the character is updated based on the updated search list. 2. The character string search method according to claim 1, wherein a string is searched.
【請求項6】 与えられたテキスト、音符、DNAの塩
基配列等から文字列を検索するための文字列検索方法に
おいて、 利用者により入力された文字列と、与えられたテキスト
から切り出された文字列を木構造にして蓄積している文
字列間の差異を予測することを特徴とする文字列検索方
法。
6. A character string search method for searching for a character string from a given text, musical note, DNA base sequence, or the like, comprising: a character string input by a user; and a character cut out from the given text. A character string search method characterized by predicting a difference between stored character strings in a tree structure.
【請求項7】 与えられたテキスト、音符、DNAの塩
基配列等から文字列を検索するための文字列検索方法に
おいて、 利用者により入力された検索キーに基づいて、与えられ
たテキストから切り出された文字列を格納している木構
造から予測された差異に従って探索することを特徴とす
る文字列検索方法。
7. A character string search method for searching a character string from a given text, musical note, DNA base sequence, or the like, wherein the character string is extracted from the given text based on a search key input by a user. A character string search method characterized in that a search is performed in accordance with a difference predicted from a tree structure storing the extracted character strings.
【請求項8】 与えられたテキスト、音符、DNAの塩
基配列等から文字列を検索するための文字列検索装置で
あって、 与えられたテキストから文字列を切り出す文字列分割手
段と、 前記文字列分割手段により切り出された前記文字列を木
構造にして格納する格納手段と、 利用者が入力した文字列と前記文字列分割手段に格納さ
れている文字列間の差異を予測する予測手段と、 前記予測手段により予測された予測値に基づいて前記格
納手段の木構造を探索する探索手段とを有することを特
徴とする文字列検索装置。
8. A character string search device for searching for a character string from a given text, a musical note, a base sequence of DNA, or the like, comprising: a character string dividing unit that cuts out a character string from a given text; Storage means for storing the character string extracted by the column dividing means in a tree structure, and prediction means for predicting a difference between a character string input by a user and a character string stored in the character string dividing means. A character string search device comprising: a search unit configured to search a tree structure of the storage unit based on a predicted value predicted by the prediction unit.
【請求項9】 前記文字列格納手段は、 複数のテキストから生成された文字列を1つの木構造と
して格納し、該木構造のリーフは該文字列の位置を示す
ポインタを有する請求項8記載の文字列検索装置。
9. The character string storage unit stores a character string generated from a plurality of texts as one tree structure, and a leaf of the tree structure has a pointer indicating a position of the character string. Character string search device.
【請求項10】 前記文字列格納手段は、 与えられた前記テキストの始点をずらしながら文字列を
生成する手段を含む請求項8及び9記載の文字列検索装
置。
10. The character string search device according to claim 8, wherein said character string storage means includes means for generating a character string while shifting a starting point of the given text.
【請求項11】 前記文字列格納手段は、 文字列に制約を加えて生成される文字列の数を制限する
手段を含む請求項10記載の文字列検索装置。
11. The character string search device according to claim 10, wherein said character string storage means includes means for restricting the number of character strings generated by restricting the character string.
【請求項12】 前記予測手段は、 前記木のルートノードを展開し、部分木を生成する部分
木生成手段と、 前記利用者により入力された文字列と前記部分木との差
異を予測し、該部分木を予測値順に並べ、探索リストを
生成する探索リスト生成手段と、 前記探索リストの先頭の部分木のノードを展開し、前記
予測値に従って該探索リストを更新する探索リスト更新
手段とを含み、 前記探索手段は、 前記探索リスト更新手段で更新された前記探索リストに
基づいて前記文字列を探索する手段を含む請求項8記載
の文字列検索装置。
12. The sub-tree predictor expands a root node of the tree to generate a sub-tree, and predicts a difference between a character string input by the user and the sub-tree, Search list generating means for arranging the subtrees in the order of predicted values and generating a search list; and a search list updating means for expanding a node of a subtree at the head of the search list and updating the search list according to the predicted values. The character string search device according to claim 8, wherein the search unit includes a unit that searches for the character string based on the search list updated by the search list update unit.
【請求項13】 与えられたテキスト、音符、DNAの
塩基配列等から文字列を検索するための文字列検索装置
であって、 利用者が入力した文字列と与えられたテキストから切り
出された文字列間の差異を予測する予測手段を有するこ
とを特徴とする文字列検索装置。
13. A character string search device for searching a character string from a given text, a musical note, a base sequence of DNA or the like, wherein the character string is a character string inputted by a user and a character cut out from the given text. A character string search device comprising a prediction unit for predicting a difference between columns.
【請求項14】 前記予測手段は、 前記木のルートノードを展開し、部分木を生成する部分
木生成手段と、 前記利用者により入力された文字列と前記部分木との差
異を予測し、該部分木を予測値順に並べ、探索リストを
生成する探索リスト生成手段と、 前記探索リストの先頭の部分木のノードを展開し、前記
予測値に従って該探索リストを更新する探索リスト更新
手段とを含む請求項13記載の文字列検索装置。
14. The predicting means, comprising: expanding a root node of the tree to generate a partial tree; and predicting a difference between a character string input by the user and the partial tree, Search list generating means for arranging the subtrees in the order of predicted values and generating a search list; and a search list updating means for expanding a node of a subtree at the head of the search list and updating the search list according to the predicted values. 14. The character string search device according to claim 13, comprising:
【請求項15】 与えられたテキスト、音符、DNAの
塩基配列等から文字列を検索するための文字列検索装置
であって、 予測された、利用者が入力した文字列と与えられたテキ
ストから切り出された文字列間の差異に基づいて前記格
納手段の木構造を探索する探索手段を有することを特徴
とする文字列検索装置。
15. A character string search device for searching a character string from a given text, a musical note, a base sequence of DNA, or the like, comprising a character string predicted by a user and a given text. A character string search device, comprising: a search unit that searches a tree structure of the storage unit based on a difference between the extracted character strings.
【請求項16】 与えられたテキスト、音符、DNAの
塩基配列等から文字列を検索するための文字列検索プロ
グラムを格納した記憶媒体であって、 与えられたテキストから文字列を切り出す文字列分割プ
ロセスと、 前記文字列分割プロセスにより切り出された前記文字列
を木構造にして格納する格納プロセスと、 利用者が入力した文字列と前記文字列分割プロセスに格
納されている文字列間の差異を予測する予測プロセス
と、 前記予測プロセスにより予測された予測値に基づいて前
記格納プロセスの木構造を探索する探索プロセスとを有
することを特徴とする文字列検索プログラムを格納した
記憶媒体。
16. A storage medium storing a character string search program for searching for a character string from a given text, musical note, base sequence of DNA, etc., wherein the character string is divided from the given text. A process for storing the character string extracted by the character string division process in a tree structure, and a difference between a character string input by a user and a character string stored in the character string division process. A storage medium storing a character string search program, comprising: a prediction process for predicting; and a search process for searching a tree structure of the storage process based on a predicted value predicted by the prediction process.
【請求項17】 前記文字列格納プロセスは、 複数のテキストから生成された文字列を1つの木構造と
して格納し、該木構造のリーフは該文字列の位置を示す
ポインタを有する請求項16記載の文字列検索プログラ
ムを格納した記憶媒体。
17. The character string storage process according to claim 16, wherein a character string generated from a plurality of texts is stored as one tree structure, and a leaf of the tree structure has a pointer indicating a position of the character string. Storage medium storing a character string search program.
【請求項18】 前記予測プロセスは、 前記木のルートノードを展開し、部分木を生成する部分
木生成プロセスと、 前記利用者により入力された文字列と前記部分木との差
異を予測し、該部分木を予測値順に並べ、探索リストを
生成する探索リスト生成プロセスと、 前記探索リストの先頭の部分木のノードを展開し、前記
予測値に従って該探索リストを更新する探索リスト更新
プロセスとを含み、 前記探索プロセスは、 前記探索リスト更新プロセスで更新された前記探索リス
トに基づいて前記文字列を探索するプロセスを含む請求
項16記載の文字列検索プログラムを格納した記憶媒
体。
18. The prediction process, comprising: expanding a root node of the tree to generate a partial tree; and predicting a difference between a character string input by the user and the partial tree, A search list generation process of arranging the subtrees in the order of predicted values and generating a search list; and a search list updating process of expanding a node of a subtree at the head of the search list and updating the search list according to the predicted values. 17. The storage medium according to claim 16, wherein the search process includes a process of searching for the character string based on the search list updated in the search list update process.
JP10370933A 1998-12-25 1998-12-25 Method and device for retrieving character string, and storage medium stored with character string retrieval program Pending JP2000194713A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10370933A JP2000194713A (en) 1998-12-25 1998-12-25 Method and device for retrieving character string, and storage medium stored with character string retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10370933A JP2000194713A (en) 1998-12-25 1998-12-25 Method and device for retrieving character string, and storage medium stored with character string retrieval program

Publications (1)

Publication Number Publication Date
JP2000194713A true JP2000194713A (en) 2000-07-14

Family

ID=18497847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10370933A Pending JP2000194713A (en) 1998-12-25 1998-12-25 Method and device for retrieving character string, and storage medium stored with character string retrieval program

Country Status (1)

Country Link
JP (1) JP2000194713A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011516989A (en) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション Search result ranking using edit distance and document information
JP2012533818A (en) * 2009-07-20 2012-12-27 アリババ・グループ・ホールディング・リミテッド Ranking search results based on word weights
JP2013025805A (en) * 2011-07-14 2013-02-04 Fujitsu Ltd Method and device for extracting analogous sub-time series
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218879A (en) * 1996-02-08 1997-08-19 Fuji Xerox Co Ltd Inter-document similarity degree data calculation device
JPH10307835A (en) * 1997-05-08 1998-11-17 Canon Inc Information processor and its method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218879A (en) * 1996-02-08 1997-08-19 Fuji Xerox Co Ltd Inter-document similarity degree data calculation device
JPH10307835A (en) * 1997-05-08 1998-11-17 Canon Inc Information processor and its method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
JP2011516989A (en) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション Search result ranking using edit distance and document information
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
JP2012533818A (en) * 2009-07-20 2012-12-27 アリババ・グループ・ホールディング・リミテッド Ranking search results based on word weights
US8856098B2 (en) 2009-07-20 2014-10-07 Alibaba Group Holding Limited Ranking search results based on word weight
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
JP2013025805A (en) * 2011-07-14 2013-02-04 Fujitsu Ltd Method and device for extracting analogous sub-time series
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Similar Documents

Publication Publication Date Title
JP4538449B2 (en) String search method and equipment
US5649023A (en) Method and apparatus for indexing a plurality of handwritten objects
US7756859B2 (en) Multi-segment string search
US8095526B2 (en) Efficient retrieval of variable-length character string data
US20110055233A1 (en) Methods, Computer Systems, Software and Storage Media for Handling Many Data Elements for Search and Annotation
JP2009211263A (en) Information retrieval system, method, and program
JP6072922B2 (en) Character string search device, character string search method, and character string search program
JP2000194713A (en) Method and device for retrieving character string, and storage medium stored with character string retrieval program
US8682900B2 (en) System, method and computer program product for documents retrieval
JP3617096B2 (en) Relational expression extraction apparatus, relational expression search apparatus, relational expression extraction method, relational expression search method
JPH0844771A (en) Information retrieval device
JP4486324B2 (en) Similar word search device, method, program, and information search system
Lo et al. True suffix tree approach for discovering non-trivial repeating patterns in a music object
JP4745417B2 (en) Information retrieval apparatus and program
JP2007200252A (en) Abbreviation generation/validity evaluation method, synonym database generation/update method, abbreviation generation/validity evaluation device, synonym database generation/update device, program, and recording medium
JP2008026964A (en) Retrieval processor and program
JP2007133682A (en) Full text retrieval system and full text retrieval method therefor
JP3531222B2 (en) Similar character string search device
JP2009519535A (en) Method and apparatus for manipulating data files
JPH09245045A (en) Method and device for key retrieval
JP4319827B2 (en) Document search program
JP2019008477A (en) Discrimination program, discrimination device and discrimination method
JPH07325837A (en) Communication sentence retrieval device by abstract word and communication sentence retreival method by the abstract word
JP2002342373A (en) Method, device and program for retrieving document and, recording medium with the program recorded thereon
JPH0644305A (en) Method and system for retrieving related item