JP2005056223A - テキストデータ検索システム、その方法及びそのプログラム - Google Patents
テキストデータ検索システム、その方法及びそのプログラム Download PDFInfo
- Publication number
- JP2005056223A JP2005056223A JP2003287465A JP2003287465A JP2005056223A JP 2005056223 A JP2005056223 A JP 2005056223A JP 2003287465 A JP2003287465 A JP 2003287465A JP 2003287465 A JP2003287465 A JP 2003287465A JP 2005056223 A JP2005056223 A JP 2005056223A
- Authority
- JP
- Japan
- Prior art keywords
- index
- record number
- search
- original information
- client computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】真に検索速度の高速化を実現可能なテキストデータ検索システムを提供する。
【解決手段】検索手段10は、サーバコンピュータ1内の検索対象データベース1a〜1bの各元情報からレコード番号及び各クライアントコンピュータ2のニーズに応じて必要な項目を抽出して、レコード番号をもつ各クライアントコンピュータ2専用のインデックスを作成するインデックス作成手段12と、クライアントコンピュータ2内のインデックスを検索して特定のレコード番号を抽出するレコード番号抽出手段14と、レコード番号に基づいてサーバコンピュータ1の検索対象データベース1a〜1bから元情報を取得する元情報取得手段16とからなる。
【選択図】 図5
【解決手段】検索手段10は、サーバコンピュータ1内の検索対象データベース1a〜1bの各元情報からレコード番号及び各クライアントコンピュータ2のニーズに応じて必要な項目を抽出して、レコード番号をもつ各クライアントコンピュータ2専用のインデックスを作成するインデックス作成手段12と、クライアントコンピュータ2内のインデックスを検索して特定のレコード番号を抽出するレコード番号抽出手段14と、レコード番号に基づいてサーバコンピュータ1の検索対象データベース1a〜1bから元情報を取得する元情報取得手段16とからなる。
【選択図】 図5
Description
本発明はテキストデータ検索システム、その方法及びそのプログラムに関する。
従来のテキストデータ検索システムでは、ユーザが所望する元情報をインデックスの検索によって取得することが行われている(例えば、特許文献1参照。)。そのシステムでは、元情報に含まれるテキスト情報によって、全文から構成されるインデックスが抽出できるようになっている。また、元情報に含まれるテキスト情報によって、文字列から構成されるインデックスも抽出できるようになっている。こうして、各インデックスでキーワードを検索することにより、インデックスに存在するキーワードの位置を特定したり、キーワードを含む文字列を特定したりすることができる。その際、検索対象となる項目が多数存在する場合、キーワードを含む文字列を特定した後、全文からその文字列に含まれるキーワードの位置を絞り込むことができる。このため、レコードの絞り込みが容易となり、高速検索を行うことができる。
しかし、上記従来のテキストデータ検索システムでは、キーワードを含む文字列を特定したり、全文からその文字列に含まれるキーワードの位置を特定したりすることを各検索対象の項目毎に繰り返すことによって、レコードの絞り込みを行っているにすぎない。こうしてレコードを絞り込む際に、何度も検索し直さなければならない。このため、真に検索速度の高速化を実現していない。
本発明は、上記従来の実情に鑑みてなされたものであって、真に検索速度の高速化を実現可能なテキストデータ検索システムを提供することを解決すべき課題としている。
本発明のテキストデータ検索システムは、テキスト情報を含み、データ型の異なる複数の項目から構成された元情報が格納された検索対象データベースを有するサーバコンピュータと、該サーバコンピュータとネットワークにより接続され、該検索対象データベースから所望する該テキスト情報を検索可能な検索手段を有する複数のクライアントコンピュータとからなり、
前記検索手段は、前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成手段と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出手段と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得手段とからなることを特徴とする。
前記検索手段は、前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成手段と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出手段と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得手段とからなることを特徴とする。
本発明のテキストデータ検索システムでは、サーバコンピュータにおいて、テキスト情報を含み、データ型の異なる複数の項目から構成された元情報が検索対象データベースに格納されている。元情報は、テキスト情報、数値情報、日付情報等といったデータ型の異なる複数の項目から構成されている。また、そのシステムは、サーバコンピュータとネットワークにより接続されたクライアントコンピュータにおいて、検索対象データベースから所望するテキスト情報を検索可能な検索手段を有している。
検索手段では、インデックス作成手段において、サーバコンピュータ内の検索対象データベースに格納された各元情報からレコード番号及び各クライアントコンピュータのニーズに応じて必要な項目を抽出して、レコード番号をもつ各クライアントコンピュータ専用のインデックスの作成を行うことができる。そして、レコード番号抽出手段において、クライアントコンピュータ内のインデックスを検索して特定のレコード番号の抽出を行うことができる。こうして、元情報取得手段において、レコード番号に基づいてサーバコンピュータの検索対象データベースから元情報の取得を行うことができる。
このため、検索手段において、インデックス作成手段で作成されるインデックスでは、各クライアントコンピュータのニーズに応じて必要な項目のみが抽出され、かつそれら検索対象となる項目をインデックス内で一つにまとめることによって検索速度の高速化を実現することができる。また、そのインデックスは、各クライアントコンピュータ専用のものであり、レコード番号を有している。そして、レコード番号抽出手段では、インデックスを検索することによって、キーワードが含まれる特定のレコード番号が抽出される。そのレコード番号は、サーバコンピュータの検索対象データベースに格納された元情報に対応している。このため、レコード番号を抽出することで元情報を取得することができる。データベースサーバでは、テキスト情報ではなく、レコード番号で検索することになるため、より一層、検索速度の高速化を実現することができる。
したがって、本発明のテキストデータ検索システムは、真に検索速度の高速化を実現することができる。
本発明のテキストデータ検索システムでは、検索対象データベースは複数のサーバコンピュータに跨る複数の個別データベースからなる場合は、データベース毎にインデックスを分けるか、各個別データベースを特定可能なフラグをもつことで対応する。インデックスが各個別データベース毎に作成されるか、又は各個別データベースを特定可能なフラグをもつことにより、複数のサーバコンピュータに跨って複数の個別データベースをもつ検索対象データベースを検索することができる。
本発明のテキストデータ検索システムでは、インデックス作成手段は、検索対象データベース内に追加された差分情報から新たなレコード番号を抽出し、該レコード番号をもつインデックスを追加的に作成することが好ましい。新たに追加されたレコード情報に対するインデックスを作成しているため、インデックスの作成時間を短縮することができる。
本発明のテキストデータ検索システムでは、インデックスはSuffix Array型であることが好ましい。Suffix Array型のインデックスであれば、検索速度の高速化を確実なものとすることができ、検索漏れのない全文検索を行うことができるからである。
本発明のテキストデータ検索システムでは、テキスト情報は顧客情報であることが好ましい。顧客情報は、顧客からの相談内容(苦情)、顧客からの相談内容に対する対応内容(相談応対)、顧客の住所、製品情報(製品のシリーズやその品番等)、顧客からの相談に対応した対応者、顧客からの相談に対応した日付等といったさまざまな情報があり、さまざまな個別データベースに格納されている。このため、このような情報の検索を高速化することが適切であると考えられる。
また、本発明のテキストデータ検索システムは、本発明のテキストデータ検索方法において検索することができる。すなわち、そのテキストデータ検索方法は、テキスト情報を含み、データ型の異なる複数の項目から構成された元情報が格納された検索対象データベースを有するサーバコンピュータと、該サーバコンピュータとネットワークにより接続された複数のクライアントコンピュータとを用い、該クライアントコンピュータによって該サーバコンピュータ内の該検索対象データベースから所望する該元情報を検索するテキストデータ検索方法において、
前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成工程と、該インデックスを前記クライアントコンピュータに保存するインデックス保存工程と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出工程と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得工程とからなることを特徴とする。
前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成工程と、該インデックスを前記クライアントコンピュータに保存するインデックス保存工程と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出工程と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得工程とからなることを特徴とする。
このテキストデータ検索方法を実行することにより、本発明のテキストデータ検索システムを実現することができる。
さらに、本発明のテキストデータ検索システムは、本発明のテキストデータ検索プログラムにおいて検索することができる。すなわち、そのテキストデータ検索プラグラムは、テキスト情報を含み、データ型の異なる複数のテキスト情報が格納された検索対象データベースを有するサーバコンピュータと、該サーバコンピュータとネットワークにより接続された複数のクライアントコンピュータとを用い、該クライアントコンピュータによって該サーバコンピュータ内の該検索対象データベースから所望する該元情報を検索するテキストデータ検索プログラムにおいて、
前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成工程と、該インデックスを前記クライアントコンピュータに保存するインデックス保存工程と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出工程と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得工程とからなることを特徴とする。
前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成工程と、該インデックスを前記クライアントコンピュータに保存するインデックス保存工程と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出工程と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得工程とからなることを特徴とする。
このテキストデータ検索プログラムを実行することにより、本発明のテキストデータ検索システムを実現することができる。
以下、本発明の実施形態を図1〜13を参照しつつ説明する。
実施形態におけるテキストデータ検索システムは、例えば、企業内のコールセンター等に蓄積された大量の顧客情報に関する元情報を検索するためのものとして利用することができる。そのシステムは、図1に示すように、サーバコンピュータ1と、このサーバコンピュータ1とネットワークにより接続された複数のクライアントコンピュータ2とにより構成されている。
サーバコンピュータ1は、図2に示すように、元情報を格納した検索対象データベース1a〜1bを有している。検索対象データベースとしては、例えば、相談応対データベース1a、苦情データベース1b等があり、その他にログデータベース1c又は辞書データベース1d等がある。相談応対データベース1aには顧客からの相談にどのように応対したかについての元情報が蓄積されている。また、苦情データベース1bには顧客からの苦情についての元情報が蓄積されている。さらに、ログデータベース1cには各クライアントコンピュータ2が検索したキーワード検索実行日時等が蓄積されている。また、辞書データベース1dには、検索するキーワードとその類語との対応等を行うための元情報が蓄積されている。検索対象データベース1a〜1bは、コールセンター等に設けられた複数のサーバーコンピュータ1にさまざまな組み合わせで存在し得る。このように検索対象データベース1a〜1bに蓄積された元情報としてはさまざまな情報があり、元情報は、例えば、図3に示すようなテキスト情報や数値情報等といったデータ型の異なる複数の項目によって構成されている。なお、元情報や検索対象データベース1a〜1bは上述したものだけに限らず、さまざまなものが存在し得る。
クライアントコンピュータ2は、図4に示すように、実施形態のテキストデータ検索プログラムがアプリケーションサーバ2aとしてインストールされている。アプリケーションサーバ2aでは、元情報としてデータ型の異なる複数の項目のうち、所望するテキスト情報を検索可能な検索手段10(図5参照)及び日付絞込手段を有している。なお、上述したログデータベース1cや辞書データベース1d等がクライアントコンピュータ2に存在する場合もある。また、クライアントコンピュータ2にはテキスト検索用のインデックス及び日付絞込用相談応対インデックス100が保存され、苦情データベース1bの元情報から抽出して作成された日付絞込用苦情インデックス101も保存されている。
検索手段10では、図5に示すインデックス作成手段12とレコード番号抽出手段14と元情報取得手段16とを備えている。
インデックス作成手段12では、先ず、図2に示すサーバコンピュータ1内の検索対象データベース1a〜1bの各元情報からレコード番号を抽出する。そして、図6に示すインデックス作成フローチャートに基づいて各クライアントコンピュータ2専用のインデックスを作成する。
インデックス作成フローチャートにおけるステップS1では、インデックスを追加作成するか否かを判断する。追加作成しない(新規作成する)場合はステップS2に進む。
ステップS2では、変数iに1が代入される。次いで、ステップS3では、空のファイルとして、Suffix Array用元ファイル11a及び日付絞込用インデックス100を作成する。そして、ステップS4に進む。
ステップS4では、図7に示すように、上述した検索対象データベース1a〜1bの各元情報に付与されたレコード番号のうち、i番目のレコード番号を有する元情報を抽出する。ここでは、一例として、相談応対データベース1aの元情報(i=1番目の元情報)を抽出している。そして、図6に示すように、ステップS5に進む。
ステップS5では、図7に示すように、相談応対データベース1aのi番目の元情報からクライアントコンピュータ2専用のインデックスに必要な項目をSuffix Array用元ファイル11aに追加する。そして、図6に示すように、ステップS6に進む。
ステップS6では、図7に示すように、相談応対データベース1aのi番目の元情報から日付項目を日付絞込用相談応対インデックス100に追加する。そして、図6に示すように、ステップS7に進む。
ステップS7では、検索対象データベース1a〜1bに次のレコードが存在するか否かを判断する。全てのレコードについて抽出した後、ステップS8に進む。
ステップS8では、図7に示すように、Suffix Array用元ファイル11aからSuffix Array型のインデックス111aを作成する。そして、図6に示すように、ステップS9に進む。
ステップS9では、図7に示すように、レコード番号とSuffix Array型のインデックス111aとの対応表111bを作成する。
こうして、Suffix Array型のインデックス111aとその対応表111bとからなるクライアントコンピュータ2専用のインデックスが作成される。ここでは、オペレータ用相談応対インデックス111が作成されている。
ここで、図6に示すように、ステップS1においてインデックスを追加作成する場合はステップS10に進む。ステップS10では、追加作成するインデックスのレコード番号を変数iに代入する。そして、ステップS4に進む。
また、ステップS7において検索対象データベース1a〜1bに次のレコードが存在する場合はステップS11に進む。ステップS11では、変数iに1が加算される。そして、ステップS4に進む。
同様にして、図7に示すように、相談応対データベース1aの元情報から必要な項目を追加したSuffix Array用元ファイル22aを作成する。そして、上述と同様に、新たなSuffix Array型のインデックス222aとその対応表222bとからなるクライアントコンピュータ2専用のインデックスが作成される。ここでは、社内公開用相談応対インデックス222が作成されている。こうして、元情報からレコード番号を抽出し、そのレコード番号をもつ複数のニーズに応じたインデックスを作成することができる。
オペレータ用相談応対インデックス111は、例えば、図8(a)に示すように、製品のシリーズ、その品番、その相談内容、相談に対する対応内容又は対応者等の項目によって構成されている。また、社内公開用相談応対インデックス222は、例えば、図8(b)に示すように、製品のシリーズ、その品番、その相談内容又は相談に対する応答内容等の項目によって構成されている。社内公開用相談応対インデックス222は、オペレータ用相談応対インデックス111に比して対応者の項目を必要としない。このように、クライアントコンピュータ2のニーズに応じて必要な項目のみを検索対象データベース1a〜1bから抽出してクライアントコンピュータ2専用のインデックスを作成することができる。このようなクライアントコンピュータ2専用のインデックスは、検索対象データベース1a〜1bの元情報に付与されたレコード番号に対応するレコード番号を有している。
こうして、作成された各クライアントコンピュータ2専用のインデックスは、図9に示す他のクライアントコンピュータ2に保存される。ここでは、オペレータ用のクライアントコンピュータ2に上述したオペレータ用相談応対インデックス111が保存され、上述と同様に苦情データベース1bの元情報から抽出して作成されたオペレータ用苦情インデックス112も保存されている。また、社内公開用のクライアントコンピュータ2に上述した社内公開用相談応対インデックス222が保存され、上述と同様に苦情データベース1bの元情報から抽出して作成された社内公開用苦情インデックス223も保存されている。
次に、図5に示すレコード番号抽出手段14及び元情報取得手段16では、図10に示す検索実行フローチャートに基づいてクライアントコンピュータ2内のインデックスを検索して特定のレコード番号を抽出し、レコード番号に基づいてサーバコンピュータ1の検索対象データベース1a〜1bから元情報を取得する。
検索実行フローチャートにおけるステップS21では、図11に示すクライアントコンピュータ2の画面20に検索したいキーワードを入力する。ここでは、クライアントコンピュータ2としてオペレータ用のものを用いている。その際、その画面20では、「すべての語を含む」、「いずれかの語を含む」又は「類語検索」のいずれかを選択することによって、キーワードのAND検索、そのOR検索又はその類語検索を行うことができるようになっている。ここで、類語検索とは、キーワードの書き間違い、その同意異表記、その上位概念又はその下位概念を検索することである。こうして、キーワードのAND検索、そのOR検索又はその類語検索のいずれかを選ぶことによって検索式が決定される。また、その画面20では、「相談応対データベース」、「苦情データベース」又な「すべて」のいずれかを選択することによって、図9に示すオペレータ用相談応対インデックス111、オペレータ用苦情インデックス112又はそれら両方を選択することができる。この際、クライアントコンピュータ2が社内公開用のものであれば、社内公開用相談応対インデックス222、社内公開用苦情インデックス223又はそれら両方を選択することができる。そして、図10に示すステップS22に進む。
ステップS22では、ステップS21において類語検索を選択したか否かを判断する。そして、類語検索を選択した場合は、ステップS23に進む。ステップS23では、上述した辞書インデックスを検索し、類語をキーワードに追加する。そして、ステップS24に進む。ステップS22において類語検索を選択しない場合は、ステップS24にジャンプする。
ステップS24では、ステップS21及びステップS23で選択したインデックスを検索し、検索したいキーワードに対応するレコード番号を取得する。こうして、図5に示すレコード番号抽出手段14が行われることとなる。そして、図10に示すステップS25に進む。
ステップS25では、日付絞込をするか否か判断する。日付絞込をする場合は、ステップS26に進み、日付絞込用インデックスを用い、取得したレコード番号の絞込みを行う。そして、ステップS27に進む。ステップS25で日付絞込をしない場合は、ステップS27にジャンプする。
ステップS27では、ステップS24で取得したレコード番号に基づいてサーバコンピュータ1の検索対象データベース1a〜1bから元情報を取得する。こうして、図5に示す元情報取得手段16が行われることとなる。そして、図10に示すステップS28に進む。
ステップS28では、検索結果を作成する。そして、ステップS29に進み、図12に示すクライアントコンピュータ2の画面20に検索結果を表示する。なお、その画面20において、検索結果で表示されるキーワードからさらに絞り込み検索を行うことができる。
こうして、実施形態の検索システムは、図13に示す検索方法によって実行されることとなる。すなわち、インデックス作成手段12によってインデックス作成工程S20が行われ、インデックスをクライアントコンピュータ2に保存することによってインデックス保存工程S30が行われ、レコード番号抽出手段14によってレコード番号抽出工程S40が行われ、元情報取得手段16によって元情報取得工程S50が行われることとなる。
以上のようにして構成される検索システムにおいて、所定のキーワードを1つ検索した場合、検索できたキーワードの数と検索に要した時間とを測定した。また、弊社既存システムを用いて検索した場合も同様に測定した。その結果を表1に示す。
表1に示すように、実施形態の検索システムでは、所定のキーワード(例えば、サティス)を1つ検索した場合、2秒で8600個のキーワードを検索することができた。また、そのキーワード(例えば、サティス・寸法)を2つ検索した場合、2秒で236個のキーワードを検索することができた。
これに対し、弊社既存システムを用いて検索した場合、所定のキーワードを1つ検索した場合、150秒で8600個のキーワードを検索することができた。また、そのキーワードを2つ検索した場合、165秒で236個のキーワードを検索することができた。
このように実施形態の検索システムでは、検索手段10において、インデックス作成手段12で作成されるインデックスが各クライアントコンピュータ2のニーズに応じて必要な項目のみを抽出し、インデックス内で一つにまとめることによって、またSuffix Arrayを用いていることから、検索速度の高速化が実現できる。また、インデックス検索後に得られたレコード番号でデータベースを再検索して元情報を取得するため、データベース負荷が低減し、より一層、検索速度の高速化を実現することができる。
したがって、実施形態のテキストデータ検索システムは、真に検索速度の高速化を実現することができる。
また、その検索システムでは、インデックスをデータベース毎に分けるか、インデックスが検索対象データベース1a〜1bを特定可能なフラグをもつことから、インデックスのフラグを検索することで検索対象データベース1a〜1bの検索が容易となる。
さらに、その検索システムでは、インデックス作成手段12において、新たに追加された差分情報に対するインデックスを追加的に作成しているため、インデックスの作成時間を短縮することができる。
また、その検索システムでは、インデックスがSuffix Array型であるため、検索速度の高速化を確実なものとすることができ、検索漏れのない全文検索を行うことができる。
本発明はコンピュータによるテキスト情報の検索に用いて好適である。
1a〜1b…検索対象データベース(1a…相談応対データベース、1b…苦情データベース)
1…サーバコンピュータ
10…検索手段
2…クライアントコンピュータ
12…インデックス作成手段
14…レコード番号抽出手段
16…元情報取得手段
S20…インデックス作成工程
S30…インデックス保存工程
S40…レコード番号抽出工程
S50…元情報取得工程
1…サーバコンピュータ
10…検索手段
2…クライアントコンピュータ
12…インデックス作成手段
14…レコード番号抽出手段
16…元情報取得手段
S20…インデックス作成工程
S30…インデックス保存工程
S40…レコード番号抽出工程
S50…元情報取得工程
Claims (7)
- テキスト情報を含み、データ型の異なる複数の項目から構成された元情報が格納された検索対象データベースを有するサーバコンピュータと、該サーバコンピュータとネットワークにより接続され、該検索対象データベースから所望する該テキスト情報を検索可能な検索手段を有する複数のクライアントコンピュータとからなり、
前記検索手段は、前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成手段と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出手段と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得手段とからなることを特徴とするテキストデータ検索システム。 - 前記検索対象データベースは複数の前記サーバコンピュータに跨る複数の個別データベースからなり、前記インデックスは、各該個別データベース毎に作成され、又は各該個別データベースを特定可能なフラグをもつことを特徴とする請求項1記載のテキストデータ検索システム。
- 前記インデックス作成手段は、前記検索対象データベース内に追加された各差分情報から新たなレコード番号を抽出し、該レコード番号をもつインデックスを追加的に作成することを特徴とする請求項1又は2記載のテキストデータ検索システム。
- 前記インデックスはSuffix Array型であることを特徴とする請求項1乃至3のいずれか1項記載のテキストデータ検索システム。
- 前記テキスト情報は顧客情報であることを特徴とする請求項1乃至4のいずれか1項記載のテキストデータ検索システム。
- テキスト情報を含み、データ型の異なる複数の項目から構成された元情報が格納された検索対象データベースを有するサーバコンピュータと、該サーバコンピュータとネットワークにより接続された複数のクライアントコンピュータとを用い、該クライアントコンピュータによって該サーバコンピュータ内の該検索対象データベースから所望する該元情報を検索するテキストデータ検索方法において、
前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成工程と、該インデックスを前記クライアントコンピュータに保存するインデックス保存工程と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出工程と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得工程とからなることを特徴とするテキストデータ検索方法。 - テキスト情報を含み、データ型の異なる複数の項目から構成された元情報が格納された検索対象データベースを有するサーバコンピュータと、該サーバコンピュータとネットワークにより接続された複数のクライアントコンピュータとを用い、該クライアントコンピュータによって該サーバコンピュータ内の該検索対象データベースから所望する該元情報を検索するテキストデータ検索プログラムにおいて、
前記サーバコンピュータ内の前記検索対象データベースの各前記元情報からレコード番号及び各前記クライアントコンピュータのニーズに応じて必要な項目を抽出して、該レコード番号をもつ各該クライアントコンピュータ専用のインデックスを作成するインデックス作成工程と、該インデックスを前記クライアントコンピュータに保存するインデックス保存工程と、該クライアントコンピュータ内の該インデックスを検索して特定の該レコード番号を抽出するレコード番号抽出工程と、該レコード番号に基づいて該サーバコンピュータの該検索対象データベースから該元情報を取得する元情報取得工程とからなることを特徴とするテキストデータ検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003287465A JP2005056223A (ja) | 2003-08-06 | 2003-08-06 | テキストデータ検索システム、その方法及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003287465A JP2005056223A (ja) | 2003-08-06 | 2003-08-06 | テキストデータ検索システム、その方法及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005056223A true JP2005056223A (ja) | 2005-03-03 |
Family
ID=34366435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003287465A Pending JP2005056223A (ja) | 2003-08-06 | 2003-08-06 | テキストデータ検索システム、その方法及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005056223A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007128365A (ja) * | 2005-11-04 | 2007-05-24 | Canon Inc | 文書管理システム、その文書管理クライアントの制御方法及びコンピュータプログラム |
JP2007272315A (ja) * | 2006-03-30 | 2007-10-18 | Sato Corp | ファイル管理システム |
JP2009544088A (ja) * | 2006-07-19 | 2009-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | パーソナライズされた検索インデックス付けのための方法 |
JP2012203456A (ja) * | 2011-03-23 | 2012-10-22 | Hitachi Ltd | 文書検索システム、文書検索方法、及びプログラム |
CN111143349A (zh) * | 2019-11-26 | 2020-05-12 | 广东三扬网络科技有限公司 | 一种快速从集合中查找信息的方法及电子设备和存储介质 |
-
2003
- 2003-08-06 JP JP2003287465A patent/JP2005056223A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007128365A (ja) * | 2005-11-04 | 2007-05-24 | Canon Inc | 文書管理システム、その文書管理クライアントの制御方法及びコンピュータプログラム |
JP4717592B2 (ja) * | 2005-11-04 | 2011-07-06 | キヤノン株式会社 | 文書管理システム、その文書管理クライアントの制御方法及びプログラム |
JP2007272315A (ja) * | 2006-03-30 | 2007-10-18 | Sato Corp | ファイル管理システム |
JP2009544088A (ja) * | 2006-07-19 | 2009-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | パーソナライズされた検索インデックス付けのための方法 |
JP2012203456A (ja) * | 2011-03-23 | 2012-10-22 | Hitachi Ltd | 文書検索システム、文書検索方法、及びプログラム |
CN111143349A (zh) * | 2019-11-26 | 2020-05-12 | 广东三扬网络科技有限公司 | 一种快速从集合中查找信息的方法及电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101450358B1 (ko) | 구조형 지리적 데이터 검색 | |
JP5435568B2 (ja) | データアクセス及びプレゼンテーション要素を再利用する方法及び装置 | |
DK177142B1 (da) | Fremgangsmåde til præsentation af et datasæt ved brug af søgning, computerlæsbart medium og computer | |
JP2005516306A (ja) | 任意の各国語での照会によるマッチング文書の検索 | |
JP2008059557A (ja) | データベースインデクシング、サーチング、及びデータ検索のシステム及び方法 | |
JP5185402B2 (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
EP2541446A1 (en) | Method and apparatus for performing a search for article content at a plurality of content sites | |
Hassanzadeh et al. | Helix: Online enterprise data analytics | |
JP2004178421A (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP2020140503A (ja) | 文書検索装置及び文書検索方法 | |
US20080082516A1 (en) | System for and method of searching distributed data base, and information management device | |
JP5423470B2 (ja) | 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法 | |
JP2005056223A (ja) | テキストデータ検索システム、その方法及びそのプログラム | |
JP2010055164A (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP2004102818A (ja) | 検索支援方法および検索支援装置 | |
JP2006236221A (ja) | ウエブページ検索のための管理サーバ装置 | |
Bennett et al. | assignFAST: An autosuggest based tool for FAST subject assignment | |
Hassan et al. | Concept search tool for multilingual hadith corpus | |
US10360243B2 (en) | Storage medium, information presentation method, and information presentation apparatus | |
JP2011186692A (ja) | 情報検索システムおよび情報検索方法 | |
JP2007011721A (ja) | 文書検索装置 | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP2000322167A (ja) | データ管理システムおよびデータ属性表示方法 | |
JP2009098829A (ja) | 漫画のコマ検索装置 | |
JP2005056154A (ja) | 文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060310 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20081029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090127 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090609 |