JP5494066B2 - SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM - Google Patents
SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM Download PDFInfo
- Publication number
- JP5494066B2 JP5494066B2 JP2010061451A JP2010061451A JP5494066B2 JP 5494066 B2 JP5494066 B2 JP 5494066B2 JP 2010061451 A JP2010061451 A JP 2010061451A JP 2010061451 A JP2010061451 A JP 2010061451A JP 5494066 B2 JP5494066 B2 JP 5494066B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- index
- character
- document data
- pattern file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、検索装置等に関する。 The present invention relates to a search device and the like.
複数の文書データから特定の文字列を検索する全文検索が知られている。この全文検索では、転置インデックスが用いられる。転置インデックスは、文字データに含まれる単語の位置情報等を格納する索引に対応する。転置インデックスを作成する方式には、大きく分けて文字区切方式と、単語区切方式とがある。 A full-text search for searching for a specific character string from a plurality of document data is known. In this full-text search, an inverted index is used. The transposed index corresponds to an index for storing position information of words included in character data. Methods for creating an inverted index are roughly divided into a character delimiter method and a word delimiter method.
文字区切方式では、単語の意味を考えずに、文字単位で転置インデックスを作成するものである。文字区切方式で作成した転置インデックスを文字インデックスと表記する。文字インデックスを用いれば、完全な部分一致検索が可能である。しかし、検索キーワードと文字インデックスとを一文字ずつ比較する必要があり、検索時間を多く要してしまうという欠点がある。 In the character delimiter method, an inverted index is created for each character without considering the meaning of the word. An inverted index created by the character delimiter method is referred to as a character index. If a character index is used, a complete partial match search is possible. However, it is necessary to compare the search keyword and the character index one character at a time, and there is a disadvantage that a long search time is required.
単語区切方式では、意味のある単語単位で転置インデックスを作成するものである。単語区切方式で作成した転置インデックスを単語インデックスと表記する。単語インデックスを用いれば、検索キーワードを単語毎に比較するので、文字インデックスを利用する場合と比較して、検索時間を短縮することが可能となる。しかし、単語の区切り方によっては、検索漏れが発生する場合がある。 In the word segmentation method, a transposed index is created for each meaningful word. The transposed index created by the word break method is expressed as a word index. If the word index is used, the search keyword is compared for each word, so that the search time can be shortened compared to the case where the character index is used. However, search omission may occur depending on how words are separated.
このように、文字区切方式および単語区切方式には、それぞれ長所、短所があるため、いかにして文字区切方式と単語区切方式とを使い分けるのかが重要になる。例えば、文字区切方式および単語区切方式を用いた従来技術として、検索キーワードの長さに応じて、文字インデックスと単語インデックスとを自動選択するという技術が開示されている。 As described above, since the character delimiter method and the word delimiter method have advantages and disadvantages, it is important how to properly use the character delimiter method and the word delimiter method. For example, a technique of automatically selecting a character index and a word index according to the length of a search keyword is disclosed as a conventional technique using a character partitioning system and a word partitioning system.
しかしながら、全文検索を行う文書データによっては、検索キーワードの長さが同じ場合でも、文字インデックスと単語インデックスとを使い分けた方が効率的な全文検索を行える場合がある。 However, depending on the document data for which full text search is performed, even when the length of the search keyword is the same, there are cases where efficient full text search can be performed by using different character indexes and word indexes.
例えば、バイオデータベースに記憶される文書データには、文書に加えて他のデータベースへリンクするためのID(Identification)が含まれている。一般的に、ID等の記号を有さない文書データに対しては、単語インデックスが有効であり、記号を有する文書データに対しては、文字インデックスが有効である。 For example, document data stored in a biodatabase includes an ID (Identification) for linking to another database in addition to the document. In general, a word index is effective for document data having no symbol such as an ID, and a character index is effective for document data having a symbol.
ここで、「1.1.1.1ANDsuppressor」という検索式が与えられた場合を例にして説明する。かかる検索式に対して、文字インデックスを用いて全文検索を試みる場合には、「1.1.1.1」というIDを含み、かつ、「suppressor」という単語を含む文書データのみを検索することが好ましい。しかし、上記検索式に対して、文字インデックスを用いて全文検索を試みると、実際には、「1.1.1.11」、「1.1.1.12」等のIDを含む文書データもヒットしてしまう。 Here, a case where a search expression “1.1.1.1 ANDsuppressor” is given will be described as an example. When a full-text search is attempted using a character index for such a search expression, it is preferable to search only document data that includes the ID “1.1.1.1” and the word “suppressor”. However, if a full-text search is attempted using the character index for the above search expression, document data including IDs such as “1.1.1.11” and “1.1.1.12” will actually be hit.
これに対して、上記検索式に対して、単語インデックスを用いて全文検索を試みると、「1.1.1.1」のIDを含む文書データのみを検索することが可能である。しかし、「suppressors」と「suppressor」とは完全に一致していないので、「suppressors」を含む文書データを検索することが出来なくなってしまう。 On the other hand, if a full-text search is attempted using the word index for the above search expression, only document data including the ID “1.1.1.1” can be searched. However, since “suppressors” and “suppressor” do not completely match, document data including “suppressors” cannot be searched.
開示の技術は、上記に鑑みてなされたものであって、文書データの特性によらず、効率よく全文検索を実行することができる検索装置、検索方法および検索プログラムを提供することを目的とする。 The disclosed technology has been made in view of the above, and an object thereof is to provide a search device, a search method, and a search program capable of efficiently performing a full-text search regardless of the characteristics of document data. .
本願の開示する検索装置は、一つの態様において、第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルを記憶する記憶部と、検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定部と、前記判定部の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索部とを備えたことを要件とする。 In one aspect, the search device disclosed in the present application is partitioned based on the first partitioning method, partitioned based on the first index associated with the document data, and based on the second partitioning method, and is stored in the document data. A second index that is associated, a storage unit that stores a pattern file that defines features of a predetermined character, a search keyword is received, and the first index is determined based on the search keyword and the pattern file. A determination unit that determines whether to use the second index to search for document data, and the first index or the first index based on the determination result of the determination unit. And a search unit for searching for document data using the index of No. 2.
本願の開示する検索装置の一つの態様によれば、文書データの特性によらず、効率よく全文検索を実行することができるという効果を奏する。 According to one aspect of the search device disclosed in the present application, there is an effect that a full-text search can be executed efficiently regardless of the characteristics of document data.
以下に、本願の開示する検索装置、検索方法および検索プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 Embodiments of a search device, a search method, and a search program disclosed in the present application will be described below in detail with reference to the drawings. Note that the present invention is not limited to the embodiments.
図1は、本実施例1にかかる検索装置100の構成を示す図である。図1に示すように、この検索装置100は、記憶部110、判定部120、検索部130を有する。
FIG. 1 is a diagram illustrating the configuration of the search device 100 according to the first embodiment. As illustrated in FIG. 1, the search device 100 includes a
記憶部110は、パターンファイル110a、第1のインデックス110b、第2のインデックス110cを記憶する。パターンファイル110aは、所定の文字の特徴を定義したデータである。第1のインデックス110bは、第1の区切方式に基づいて区切られ、文書データに関連付けられたデータである。第2のインデックス110cは、第2の区切方式に基づいて区切られ、文書データに関連付けられたデータである。
The
判定部120は、検索キーワードを受け付け、検索キーワードとパターンファイル110aとを基にして、第1のインデックス110bを用いて検索を行うのか、第2のインデックス110cを用いて検索を行うのかを判定する。
The determination unit 120 receives a search keyword, and determines whether to perform a search using the
検索部130は、判定部120の判定結果に基づいて、第1のインデックス110bまたは第2のインデックス110cを用いて文書データの検索を実行する。
Based on the determination result of the determination unit 120, the
上記の検索装置100は、パターンファイル110aを用いて、第1のインデックス110bを用いた検索を行うのか、第2のインデックス110cを用いた検索を行うのかを判定している。このため、検索キーワードの特徴に合わせて最適なインデックスを選択することができるので、文書データの特性によらず、効率よく全文検索を実行することができる。
The search device 100 uses the
次に、本実施例2にかかるシステムの一例について説明する。図2は、本実施例2にかかるシステムを示す図である。図2に示すように、このシステムは、利用者端末60、検索装置200を有する。利用者端末60と検索装置200は、ネットワーク50を介して接続される。
Next, an example of a system according to the second embodiment will be described. FIG. 2 is a diagram illustrating the system according to the second embodiment. As shown in FIG. 2, this system includes a
利用者端末60は、検索装置200に検索キーワードを送信し、検索キーワードに対する検索結果を検索装置200から受信する装置である。
The
検索装置200は、文書データの全文検索を行う装置である。図3は、本実施例2にかかる検索装置200の構成を示す図である。図3に示すように、この検索装置200は、記憶部210、インデクシング処理部220、入力受付部230、検索式解析処理部240、スコアリング処理部250、検索結果出力部260を有する。
The
記憶部210は、パターンファール210a、文書データ群210b、単語インデックス210c、文字インデックス210dを記憶する。
The storage unit 210 stores a pattern file 210a, a
パターンファイル210aは、所定の文字の特徴を定義したデータである。図4は、パターンファイル210aのデータ構造を示す図である。図4に示すように、このパターンファイルは、Noとパターンとを有する。Noは、各パターンを識別するものである。パターンは、所定の文字の特徴を正規表現で示したものである。ここで、文字には、一般的な文字のほかに、数字や記号等も含まれるものとする。 The pattern file 210a is data defining features of a predetermined character. FIG. 4 shows the data structure of the pattern file 210a. As shown in FIG. 4, this pattern file has No and a pattern. No identifies each pattern. The pattern represents the characteristics of a predetermined character with a regular expression. Here, it is assumed that the characters include numbers and symbols in addition to general characters.
ここで、パターンの記載方法の一例について説明する。パターン中の[]は、[と]の中に書かれたいずれかの一文字に一致する文字、数字、記号を意味する。例えば、[0−9]は、1桁の数字を意味する。パターン中の{n,m}は、直前の文字がn回からm回まで繰り返されることを意味する。例えば、[0−9]{1,3}は、1桁、2桁、3桁の数字を意味する。 Here, an example of a pattern description method will be described. [] In the pattern means a letter, number, or symbol that matches any one of the characters written in [and]. For example, [0-9] means a single digit. {N, m} in the pattern means that the immediately preceding character is repeated from n to m times. For example, [0-9] {1, 3} means a 1-digit, 2-digit, 3-digit number.
また、パターン中の+は、直前の文字が1回以上繰り返されることを意味する。例えば、[0−9]+は、数字からなる文字列を意味する。パターン中の*は、直前の文字が0回以上繰り返されることを意味する。例えば、[0−9]*は、空文字または数字からなる文字列を意味する。 Moreover, + in the pattern means that the immediately preceding character is repeated one or more times. For example, [0-9] + means a character string consisting of numbers. * In the pattern means that the immediately preceding character is repeated zero or more times. For example, [0-9] * means a character string consisting of an empty character or a number.
図3の説明に戻る。文書データ群210bは、複数の文書データを含む。また、各文書データは、固有のIDが割り当てられ、各種の文字列を含む。
Returning to the description of FIG. The
単語インデックス210cは、文書データ群210bに含まれる各文書データの単語と、この単語の存在する文書データのIDとを対応付けた転置インデックスである。文字インデックス210dは、文書データ群210bに含まれる各文書データの文字と、この文字の存在する文書データのIDとを対応付けた転置インデックスである。
The
インデクシング処理部220は、文書データ群210bから単語インデックス210cと文字インデックス210dを生成する処理部である。インデクシング処理部220は、単語区切方式により、文書データ群210bから単語インデックス210cを生成する。また、インデクシング処理部220は、文字区切方式により、文書データ群210bから文字インデックス210dを生成する。なお、単語区切方式による単語インデックス210cの生成は、周知の単語区切方式と同様である。文字区切方式による文字インデックス210dの生成は、周知の文字区切方式と同様である。
The
入力受付部230は、利用者端末60から検索キーワードを受け付け、この検索キーワードを検索式解析処理部240に出力する。なお、入力受付部230は、検索装置200に接続された入力装置から、検索キーワードを取得してもよい。入力装置は、例えば、マウスやキーボードに対応する。
The
検索式解析処理部240は、検索キーワードとパターンファイル210aとを比較して、単語インデックス210cを用いて文書データの検索を行うのか、文字インデックス210dを用いて文書データの検索を行うのかを判定する処理部である。以下において、単語インデックス210cを用いて文書データの検索を行うことを、単語区切方式の検索と表記する。文字インデックス210dを用いて文書データの検索を行うことを、文字区切方式の検索と表記する。
The search expression analysis processing unit 240 compares the search keyword with the pattern file 210a to determine whether to search for document data using the
まず、検索式解析処理部240は、検索キーワードに対して構文解析を実行する。例えば、検索キーワードを「1.1.1.1ANDsuppressor」とする。検索式解析処理部240が、検索キーワード「1.1.1.1ANDsuppressor」に対して構文解析を実行することで、この検索キーワードに含まれる条件文「AND」と、条件文を挟む文字列「1.1.1.1」、「suppressor」が抽出される。 First, the search expression analysis processing unit 240 performs syntax analysis on the search keyword. For example, the search keyword is “1.1.1.1 ANDsuppressor”. The search expression analysis processing unit 240 performs syntax analysis on the search keyword “1.1.1.1 ANDsuppressor”, so that the conditional sentence “AND” included in the search keyword and the character string “1.1.1.1” sandwiching the conditional sentence are included. ”And“ suppressor ”are extracted.
検索式解析処理部240は、検索キーワードから抽出した各文字列と、パターンファイル210aのパターンとをそれぞれ比較し、各文字列に対して、単語区切方式の検索を行うのか、文字区切方式の検索を行うのかを判定する。 The search expression analysis processing unit 240 compares each character string extracted from the search keyword with the pattern in the pattern file 210a, and performs a word delimiter search for each character string. Determine whether to perform.
具体的には、検索式解析処理部240は、パターンファイル210aのパターンのいずれかに文字列がマッチする場合には、文字区切方式の検索を行うと判定する。例えば、文字列「1.1.1.1」は、図4に示したパターンファイル210aのNo「2」のパターンとマッチする。このため、検索式解析処理部240は、文字列「1.1.1.1」に対して単語区切方式の検索を行うと判定する。
Specifically, the search formula analysis processing unit 240 determines that a character delimiter search is performed when a character string matches any of the patterns in the pattern file 210a. For example, the character string “1.1.1.1” matches the pattern “
また、文字列「suppressor」は、図4に示したパターンファイル210aのパターンとマッチしない。このため、検索式解析処理部240は、文字列「suppressor」に対して文字区切方式の検索を行うと判定する。 Further, the character string “suppressor” does not match the pattern of the pattern file 210a shown in FIG. For this reason, the search formula analysis processing unit 240 determines that the character string “suppressor” is to be searched by the character delimiter method.
検索式解析処理部240は、文字列と判定結果とを対応付けたデータをスコアリング処理部250に出力する。また、検索式解析処理部240は、検索キーワードに含まれる条件文も合わせてスコアリング処理部250に出力する。
The search expression analysis processing unit 240 outputs data in which the character string is associated with the determination result to the
スコアリング処理部250は、検索式解析処理部240の文字列、文字列の判定結果、条件文を取得し、取得したデータに基づいて、検索キーワードに対応する文書データを検索する処理部である。ここでは一例として、文字列「1.1.1.1」に対応する判定結果が「単語区切方式の検索を行う」であり、文字列「suppressor」に対応する判定結果が「文字区切方式の検索を行う」であり、条件文が「AND」とする。
The
この場合には、スコアリング処理部250は、文字列「1.1.1.1」と、文字インデックス210dとを比較して、文字列「1.1.1.1」に対応する文書データを特定し、特定した文書データを文書データ群210bから取得する。また、スコアリング処理部250は、文字列「suppressor」と、単語インデックス210cとを比較して、文字列「suppressor」に対応する文書データを特定し、特定した文書データを文書データ群210bから取得する。
In this case, the
そして、スコアリング処理部250は、条件文が「AND」であるため、文字列「1.1.1.1」に対応する文書データと文字列「suppressor」に対応する文書データとを比較し、重複する文書データを検索結果出力部260に出力する。なお、条件文が「OR」の場合には、スコアリング処理部250は、条件文が「OR」であるため、文字列「1.1.1.1」に対応する文書データと文字列「suppressor」に対応する文書データとを検索結果出力部260に出力する。
Then, since the conditional sentence is “AND”, the
スコアリング処理部250は、文書データを検索した場合に、文書データに含まれる文字列の頻度に応じて、文書データにスコアを付与してもよい。
When the document data is searched, the
検索結果出力部260は、スコアリング処理部250から受け付けた文書データを、利用者端末60に通知する。検索結果出力部260は、文書データのスコアに応じて、利用者端末60に表示させる文書データの順番を調整してもよい。また、検索結果出力部260は、検索装置200に接続された表示装置に文書データを出力してもよい。表示装置は、例えば、モニタや液晶ディスプレイに対応する。
The search
次に、本実施例2にかかる検索装置200の処理手順について説明する。図5は、本実施例2にかかる検索装置200の処理手順を示すフローチャートである。図5に示すように、検索装置200は、検索キーワードを取得し(ステップS101)、構文解析を実行する(ステップS102)。
Next, a processing procedure of the
検索装置200は、パターンファイル210aから未選択のパターンを取得し(ステップS103)、検索キーワードはパターンにマッチするか否かを判定する(ステップS104)。検索装置200は、検索キーワードがパターンにマッチする場合には(ステップS104,Yes)、単語区切方式の検索を行うと判定し(ステップS105)、ステップS108に移行する。
The
一方、検索装置200は、検索キーワードがパターンにマッチしない場合には(ステップS104,No)、未選択のパターンが存在するか否かを判定する(ステップS106)。検索装置200は、未選択のパターンが存在する場合には(ステップS106,Yes)、ステップS103に移行する。
On the other hand, when the search keyword does not match the pattern (No at Step S104), the
一方、検索装置200は、未選択のパターンが存在しない場合には(ステップS106,No)、文字区切方式の検索を行うと判定し(ステップS107)、検索を実行する(ステップS108)。
On the other hand, when there is no unselected pattern (No in step S106), the
上述してきたように、本実施例2にかかる検索装置200は、パターンファイル210aを用いて、単語区切方式の検索を行うのか、文字区切方式の検索を行うのかを判定している。このため、検索キーワードの特徴に合わせて最適なインデックスを選択することができるので、文書データの特性によらず、効率よく全文検索を実行することができる。
As described above, the
また、本実施例2では、検索キーワードが検索式の場合に、この検索式を複数の部分キーワードに分割し、部分キーワード毎に単語区切方式の検索を行うのか、文字区切方式の検索を行うのかを判定している。このため、既存の技術を踏襲した検索式をそそのまま利用して、全文検索を実行することができる。 In the second embodiment, when the search keyword is a search expression, the search expression is divided into a plurality of partial keywords, and a word-delimited search or a character-delimited search is performed for each partial keyword. Is judged. For this reason, a full-text search can be executed using a search formula that follows the existing technology as it is.
また、本実施例2のパターンファイル210aは、利用者単位の好みに合わせて容易にカスタマイズすることができる。 Further, the pattern file 210a of the second embodiment can be easily customized according to the preference of each user.
ところで、図3に示した検索装置200の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、検索装置200の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、記憶部210を、着脱可能な外部装置または携帯端末等に搭載し、かかる外部装置または携帯端末等を検索装置200に有線または無線で接続するようにしてもよい。
Incidentally, each component of the
なお、検索装置200は、既知のパーソナルコンピュータ、ワークステーション、携帯電話、PHS端末、移動体通信端末またはPDAなどの情報処理装置に、検索装置200の各機能を搭載することによって実現することもできる。
The
図6は、実施例にかかる検索装置を構成するコンピュータのハードウェア構成を示す図である。図6に示すように、このコンピュータ300は、各種演算処理を実行するCPU(Central Processing Unit)301と、ユーザからのデータの入力を受け付ける入力装置302と、モニタ303を有する。また、コンピュータ300は、記憶媒体からプログラム等を読取る媒体読み取り装置304と、ネットワークを介して他のコンピュータとの間でデータの授受を行うネットワークインターフェース装置305を有する。また、コンピュータ300は、各種情報を一時記憶するRAM(Random Access Memory)306と、ハードディスク装置307を有する。各装置301〜307は、バス308に接続される。
FIG. 6 is a diagram illustrating a hardware configuration of a computer that configures the search device according to the embodiment. As shown in FIG. 6, the
そして、ハードディスク装置307には、図3に示した検索式解析処理部240、スコアリング処理部250、インデクシング処理部220と同様の機能を有する検索プログラム307aを記憶する。また、ハードディスク装置307は、図3に示した各種データ210a〜210dにそれぞれ対応する各種データ307bを記憶する。
The hard disk device 307 stores a
CPU301が検索プログラム307aをハードディスク装置307から読み出してRAM306に展開することにより、検索プログラム307aは、検索プロセス306aとして機能するようになる。また、CPU301は、各種データ307bをRAM306に読み出す。検索プロセス306aは、各種データ306bを利用して、全文検索を実行する。
When the
なお、上記の検索プログラム307aは、必ずしもハードディスク装置307に格納されている必要はなく、CD−ROM等の記憶媒体に記憶されたプログラムを、コンピュータ300が読み出して実行するようにしてもよい。また、公衆回線、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等にこのプログラムを記憶させておき、コンピュータ300がこれらからプログラムを読み出して実行するようにしてもよい。
Note that the
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following supplementary notes are further disclosed with respect to the embodiments including the above examples.
(付記1)第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルとを記憶する記憶部と、
検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定部と、
前記判定部の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索部と
を備えたことを特徴とする検索装置。
(Supplementary Note 1) A first index that is partitioned based on the first partitioning scheme and associated with the document data, and a second index that is partitioned based on the second partitioning scheme and associated with the document data; A storage unit for storing a pattern file defining characteristics of a predetermined character;
Whether to search for document data using the first index or to search for document data using the second index based on the search keyword and the pattern file. A determination unit for determining;
A search device, comprising: a search unit that searches for document data using the first index or the second index based on a determination result of the determination unit.
(付記2)前記検索キーワードを、複数の部分キーワードに分割するキーワード分割部を更に有し、前記判定部は、部分キーワード毎に前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定することを特徴とする付記1に記載の検索装置。
(Additional remark 2) It further has the keyword division part which divides | segments the said search keyword into a some partial keyword, The said determination part searches document data using the said 1st index for every partial keyword, The search apparatus according to
(付記3)前記第1の区切方式は、意味を持つ単語毎に文字列を区切る単語区切方式であり、前記判定部は、前記パターンファイルに定義された特徴が、前記検索キーワードと一致する場合には、前記第1のインデックスを用いて文書データの検索を行うと判定することを特徴とする付記1または2に記載の検索装置。
(Additional remark 3) The said 1st division | segmentation system is a word division | segmentation system which divides | segments a character string for every meaningful word, The said determination part is when the characteristic defined in the said pattern file corresponds with the said search keyword. The search apparatus according to
(付記4)第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルとを記憶する記憶装置を有する検索装置が、
検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定ステップと、
前記判定ステップの判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索ステップと
を含むことを特徴とする検索方法。
(Supplementary Note 4) A first index that is partitioned based on the first partitioning scheme and associated with the document data, and a second index that is partitioned based on the second partitioning scheme and associated with the document data; A search device having a storage device for storing a pattern file defining features of a predetermined character,
Whether to search for document data using the first index or to search for document data using the second index based on the search keyword and the pattern file. A determination step for determining;
And a search step of searching for document data using the first index or the second index based on the determination result of the determination step.
(付記5)前記検索キーワードを、複数の部分キーワードに分割するキーワード分割ステップを更に含み、前記判定ステップでは、部分キーワード毎に前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定することを特徴とする付記4に記載の検索方法。
(Additional remark 5) It further includes the keyword division | segmentation step which divides | segments the said search keyword into a some partial keyword, In the said determination step, search of document data is performed using said 1st index for every partial keyword. 5. The search method according to
(付記6)前記第1の区切方式は、意味を持つ単語毎に文字列を区切る単語区切方式であり、前記判定ステップでは、前記パターンファイルに定義された特徴が、前記検索キーワードと一致する場合には、前記第1のインデックスを用いて文書データの検索を行うと判定することを特徴とする付記4または5に記載の検索方法。
(Additional remark 6) The said 1st division | segmentation system is a word division | segmentation system which divides | segments a character string for every meaningful word, and when the characteristic defined in the said pattern file corresponds with the said search keyword in the said determination step. The search method according to
(付記7)第1の区切方式に基づいて区切られ、文書データに関連付けられた第1のインデックスと、第2の区切方式に基づいて区切られ、文書データに関連付けられた第2のインデックスと、所定の文字の特徴を定義したパターンファイルとを記憶する記憶装置を有するコンピュータに、
検索キーワードを受け付け、前記検索キーワードと前記パターンファイルとを基にして、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定手順と、
前記判定ステップの判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索手順と
を実行させることを特徴とする検索プログラム。
(Supplementary Note 7) A first index that is partitioned based on the first partitioning scheme and associated with the document data, and a second index that is partitioned based on the second partitioning scheme and associated with the document data; A computer having a storage device for storing a pattern file defining the characteristics of a predetermined character,
Whether to search for document data using the first index or to search for document data using the second index based on the search keyword and the pattern file. A determination procedure for determining;
And a search procedure for executing a search for document data using the first index or the second index based on a determination result of the determination step.
(付記8)前記検索キーワードを、複数の部分キーワードに分割するキーワード分割手順を更にコンピュータに実行させ、前記判定手順は、部分キーワード毎に前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定することを特徴とする付記7に記載の検索プログラム。 (Supplementary Note 8) Whether or not the computer further executes a keyword dividing procedure for dividing the search keyword into a plurality of partial keywords, and the determination procedure searches the document data using the first index for each partial keyword. The search program according to appendix 7, wherein it is determined whether or not to search for document data using the second index.
(付記9)前記第1の区切方式は、意味を持つ単語毎に文字列を区切る単語区切方式であり、前記判定手順は、前記パターンファイルに定義された特徴が、前記検索キーワードと一致する場合には、前記第1のインデックスを用いて文書データの検索を行うと判定することを特徴とする付記7または8に記載の検索プログラム。 (Additional remark 9) The said 1st division | segmentation system is a word division | segmentation system which divides | segments a character string for every word with a meaning, and the said determination procedure is when the characteristics defined in the said pattern file correspond with the said search keyword. The search program according to appendix 7 or 8, wherein it is determined that the document data is searched using the first index.
100 検索装置
110a パターンファイル
110b 第1のインデックス
110c 第2のインデックス
120 判定部
130 検索部
DESCRIPTION OF SYMBOLS 100
Claims (8)
検索文字列を受け付け、前記検索文字列と前記パターンファイルとを基にして、前記パターンファイルに定義された特徴が、前記検索文字列と一致する場合には、前記単語インデックスを用いて文書データの検索を行うと判定し、前記パターンファイルに定義された特徴が、前記検索文字列と一致しない場合には、前記文字インデックスを用いて文書データの検索を行うと判定する判定部と、
前記判定部の判定結果に基づいて、前記単語インデックスまたは前記文字インデックスを用いて文書データの検索を実行する検索部と
を備えたことを特徴とする検索装置。 It is divided based on the word separation method that separates character strings for each meaningful word, and is divided based on the word index associated with document data and the character separation method that separates character strings for each character , and is associated with document data. A storage unit for storing a character index and a pattern file defining characteristics of a predetermined character string including symbols ;
It accepts a search string, based on the search string and the said pattern file, the pattern file to the defined features, when matching the search string, the document data using the word index A determination unit that determines to perform a search, and determines that the document data is to be searched using the character index if the feature defined in the pattern file does not match the search character string ;
A search device comprising: a search unit that executes a search for document data using the word index or the character index based on a determination result of the determination unit.
前記判定部は、受け付けた前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記単語インデックスを用いて文書データの検索を行うのか、前記文字インデックスを用いて文書データの検索を行うのかを判定するWhether the determination unit searches the document data using the word index based on whether or not the character format included in the received search character string matches the character format indicated in the pattern file. Determine whether to search for document data using the character index
ことを特徴とする請求項1に記載の検索装置。The search device according to claim 1.
検索文字列を受け付け、前記検索文字列と前記パターンファイルとを基にして、前記パターンファイルに定義された特徴が、前記検索文字列と一致する場合には、前記単語インデックスを用いて文書データの検索を行うと判定し、前記パターンファイルに定義された特徴が、前記検索文字列と一致しない場合には、前記文字インデックスを用いて文書データの検索を行うと判定する判定ステップと、
前記判定ステップの判定結果に基づいて、前記単語インデックスまたは前記文字インデックスを用いて文書データの検索を実行する検索ステップと
を含むことを特徴とする検索方法。 It is divided based on the word separation method that separates character strings for each meaningful word, and is divided based on the word index associated with document data and the character separation method that separates character strings for each character , and is associated with document data. A search device having a storage device for storing a character index and a pattern file defining characteristics of a predetermined character string including symbols ,
It accepts a search string, based on the search string and the said pattern file, the pattern file to the defined features, when matching the search string, the document data using the word index A determination step of determining to perform a search, and determining that a search for document data is to be performed using the character index if the feature defined in the pattern file does not match the search character string ;
And a search step of performing a search of document data using the word index or the character index based on the determination result of the determination step.
検索文字列を受け付け、前記検索文字列と前記パターンファイルとを基にして、前記パターンファイルに定義された特徴が、前記検索文字列と一致する場合には、前記単語インデックスを用いて文書データの検索を行うと判定し、前記パターンファイルに定義された特徴が、前記検索文字列と一致しない場合には、前記文字インデックスを用いて文書データの検索を行うと判定する判定手順と、
前記判定ステップの判定結果に基づいて、前記単語インデックスまたは前記文字インデックスを用いて文書データの検索を実行する検索手順と
を実行させることを特徴とする検索プログラム。 It is divided based on the word separation method that separates character strings for each meaningful word, and is divided based on the word index associated with document data and the character separation method that separates character strings for each character , and is associated with document data. A computer having a storage device for storing a character index and a pattern file defining characteristics of a predetermined character string including symbols ;
It accepts a search string, based on the search string and the said pattern file, the pattern file to the defined features, when matching the search string, the document data using the word index A determination procedure for determining to perform a search, and to determine to perform a search for document data using the character index when the characteristics defined in the pattern file do not match the search character string ;
And a search procedure for executing a search of document data using the word index or the character index based on a determination result of the determination step.
検索文字列を受け付け、前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定部と、A search character string is received, and the document data is searched using the first index based on whether the character format included in the search character string matches the character format indicated in the pattern file. A determination unit that determines whether to search for document data using the second index;
前記判定部の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索部とA search unit that searches for document data using the first index or the second index based on a determination result of the determination unit;
を備えたことを特徴とする検索装置。A search device comprising:
検索文字列を受け付け、前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定ステップと、A search character string is received, and the document data is searched using the first index based on whether the character format included in the search character string matches the character format indicated in the pattern file. A determination step for determining whether to search for document data using the second index;
前記判定ステップの判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索ステップとA search step for executing a search for document data using the first index or the second index based on a determination result of the determination step;
を含むことを特徴とする検索方法。The search method characterized by including.
検索文字列を受け付け、前記検索文字列に含まれる文字の形式と前記パターンファイルに示される文字の形式とが一致するか否かに基づき、前記第1のインデックスを用いて文書データの検索を行うのか、前記第2のインデックスを用いて文書データの検索を行うのかを判定する判定手順と、A search character string is received, and the document data is searched using the first index based on whether the character format included in the search character string matches the character format indicated in the pattern file. Or a determination procedure for determining whether to search for document data using the second index;
前記判定手順の判定結果に基づいて、前記第1のインデックスまたは前記第2のインデックスを用いて文書データの検索を実行する検索手順とA search procedure for executing a search for document data using the first index or the second index based on a determination result of the determination procedure;
を実行させることを特徴とする検索プログラム。A search program characterized in that is executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010061451A JP5494066B2 (en) | 2010-03-17 | 2010-03-17 | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010061451A JP5494066B2 (en) | 2010-03-17 | 2010-03-17 | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011197809A JP2011197809A (en) | 2011-10-06 |
JP5494066B2 true JP5494066B2 (en) | 2014-05-14 |
Family
ID=44875968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010061451A Expired - Fee Related JP5494066B2 (en) | 2010-03-17 | 2010-03-17 | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5494066B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102274381B1 (en) * | 2014-10-07 | 2021-07-26 | 인포뱅크 주식회사 | Apparatus and method for searching information |
KR102274391B1 (en) * | 2014-10-07 | 2021-07-26 | 인포뱅크 주식회사 | Apparatus and method for searching information |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3825829B2 (en) * | 1996-03-19 | 2006-09-27 | キヤノン株式会社 | Registration information retrieval apparatus and method |
JPH10307835A (en) * | 1997-05-08 | 1998-11-17 | Canon Inc | Information processor and its method |
JP3636941B2 (en) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | Information retrieval method and information retrieval apparatus |
JP4160627B2 (en) * | 2007-10-19 | 2008-10-01 | 株式会社東芝 | Structured document management system and program |
-
2010
- 2010-03-17 JP JP2010061451A patent/JP5494066B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011197809A (en) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4848317B2 (en) | Database indexing system, method and program | |
US10387435B2 (en) | Computer application query suggestions | |
US10346457B2 (en) | Platform support clusters from computer application metadata | |
JP2010009577A (en) | Information processing apparatus, full text retrieval method, full text retrieval program, and recording medium | |
KR20120123241A (en) | Query parsing for map search | |
KR100892842B1 (en) | Method and system for user centered information searching | |
WO2016121048A1 (en) | Text generation device and text generation method | |
CN104067273A (en) | Grouping search results into a profile page | |
KR101651780B1 (en) | Method and system for extracting association words exploiting big data processing technologies | |
Zhang et al. | Mining contiguous sequential generators in biological sequences | |
JP5194818B2 (en) | Data classification method and data processing apparatus | |
KR100903506B1 (en) | System and method for managing informaiton map | |
JP2010257001A (en) | Retrieval support keyword presentation device, method, and program | |
JP7172187B2 (en) | INFORMATION DISPLAY METHOD, INFORMATION DISPLAY PROGRAM AND INFORMATION DISPLAY DEVICE | |
JP5980520B2 (en) | Method and apparatus for efficiently processing a query | |
JP5494066B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
US10339148B2 (en) | Cross-platform computer application query categories | |
JP2009098811A (en) | Document sorting apparatus and program | |
JP2012104051A (en) | Document index creating device | |
CN107818091B (en) | Document processing method and device | |
JP5491446B2 (en) | Topic word acquisition apparatus, method, and program | |
JP5184987B2 (en) | Index information creating apparatus, index information creating method and program | |
JP5199968B2 (en) | Keyword type determination device, keyword type determination method, and keyword type determination program | |
JP2009294768A (en) | Information sharing device and information sharing program | |
JP2009271671A (en) | Information processor, information processing method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5494066 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |