JP2006031209A - 全文検索システム、全文検索方法、プログラムおよび記録媒体 - Google Patents

全文検索システム、全文検索方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2006031209A
JP2006031209A JP2004206747A JP2004206747A JP2006031209A JP 2006031209 A JP2006031209 A JP 2006031209A JP 2004206747 A JP2004206747 A JP 2004206747A JP 2004206747 A JP2004206747 A JP 2004206747A JP 2006031209 A JP2006031209 A JP 2006031209A
Authority
JP
Japan
Prior art keywords
score
document
attribute
search
calculation formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004206747A
Other languages
English (en)
Inventor
Takuya Hiraoka
卓也 平岡
Tetsuya Ikeda
哲也 池田
Hiroshi Takegawa
弘志 竹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004206747A priority Critical patent/JP2006031209A/ja
Publication of JP2006031209A publication Critical patent/JP2006031209A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】全文検索におけるスコア計算をユーザに指定できるようにして、より的確な検索結果を得る全文検索システムを提供する。
【解決手段】登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成するときに、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持しておき、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録し、検索結果を取得する時には、検索条件に合致した検索結果に対して、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算し、この計算された合成スコアをもとに検索結果一覧を作成する。
【選択図】図1

Description

本発明は、全文検索システム、全文検索方法、全文検索システムの機能を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読取可能な記録媒体に関し、特に、全文検索を行うときに検索条件との適合率を計算して検索結果を得る検索技術に関する。
キーワードなどで構成される検索条件によって、文書を検索する検索システムは、検索結果として一般に、検索結果の件数やタイトルや文書の一部からなるリストなどを表示している。この検索結果がユーザの検索意図に適合しているかどうかを判定するためには、検索された文書の各々の全文をユーザが参照して判断する必要があった。
しかし、多数の文書が検索された場合や文書の全文が長い場合には、文書をすべて読むために多大な時間が必要になってしまっていた。
そこで、文書群中の各文書が指定された検索条件を満たす適合度をスコアという数値として求め、このスコアが大きい順に文書を順序付けし、スコアの大きなものから所定個数の検索結果を一覧として表示している(特許文献1参照)。
検索条件はキーワードの集合{Q}で表現され、文書DとキーワードQのスコアscore(D,Q)は、キーワードQの文書Dにおける出現数をtfij、キーワードQを含む文書数をdf、文書群における文書数をNとして、次式(1)により求めるものが知られており、文書Dのスコアはキーワードの集合{Q}の各要素の総和として求められる。
特開2003−256474号公報
しかし、上記(式1)のように、登録されている文書と検索条件として入力されたキーワードの集合とから求められたスコアでは、検索を実行した時点では、ユーザの検索意図に適合する検索結果が上位にくるとは限らない。例えば、内容が古い文書でも、キーワードとの適合度が高ければ、上位にランクされてしまう。
また、意図的に検索結果の順位を変えたい場合もある。例えば、大学の図書館で学生が本を検索する場合、貸し出し回数の多い本を上位にランクさせたり、受講している授業で取り上げられている本を上位にランクさせたりしたい場合がある。
このように、キーワードによる全文検索では、検索結果の数は膨大なものになり、ユーザが所望する検索結果が上位に現れないと、結果的に、ユーザは必要な情報を得られないことになる。このようなことを防止するためには、スコア計算自体をユーザに指定できるようにする必要がある。
本発明は、以上のような実情を考慮してなされたものであって、全文検索におけるスコア計算をユーザに指定できるようにして、より的確な検索結果を得ることができる全文検索システム、全文検索方法、全文検索システムの機能を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読取可能な記録媒体を提供することを目的とする。
上記の課題を達成するために、請求項1に記載の発明は、登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成する全文検索システムにおいて、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持し、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録するスコア登録手段と、検索結果を取得する時には、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算するスコア合成手段と、検索条件に合致した検索結果に対して、前記スコア合成手段で計算された合成スコアをもとに検索結果一覧を作成する検索手段とを備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の全文検索システムにおいて、ユーザが指定した前記属性スコア計算式をスキーマ定義時に登録する登録手段を備えることを特徴とする。
請求項3に記載の発明は、請求項1または2に記載の全文検索システムにおいて、前記属性スコア計算式にある文書の属性が更新されたときには、属性スコアを再計算して前記スコアファイルを更新するようにしたことを特徴とする。
請求項4に記載の発明は、請求項2または3に記載の全文検索システムにおいて、前記登録手段は、ユーザが指定した前記合成スコア計算式をスキーマ定義時に登録するようにしたことを特徴とする。
請求項5に記載の発明は、請求項2または3に記載の全文検索システムにおいて、前記検索手段は、ユーザが指定した合成スコア計算式に基づいて計算した合成スコアによって、検索結果一覧を作成するようにしたことを特徴とする。
請求項6に記載の発明は、登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成する全文検索方法において、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持しておき、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録し、検索結果を取得する時には、検索条件に合致した検索結果に対して、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算し、この計算された合成スコアをもとに検索結果一覧を作成することを特徴とする。
請求項7に記載の発明は、コンピュータに、請求項1乃至5のいずれかに記載の全文検索システムの機能を実行させるためのプログラムである。
請求項8に記載の発明は、請求項7に記載のプログラムを記録したコンピュータ読取可能な記録媒体である。
本発明によれば、登録した文書の属性によって計算される属性スコアを導入し、登録文書と検索条件から計算される適合度スコア(適合度に応じて計算されるスコア)との合成スコアをユーザが指定することができるので、適合度スコアだけで検索結果を求めるよりも、ユーザが所望するデータを上位ランクに持っていくことができ、より的確な検索結果を得ることができる。
また、属性スコアや合成スコアを計算する任意の計算式をユーザが登録することができるので、より利用状況や登録されている文書データの種別に適した検索結果順で検索結果を得ることができる。
さらに、文書データの種別や検索条件に応じた合成スコア計算式を検索時にユーザが指定できるようにしたので、ユーザごとにまた検索対象ごとに、よりユーザの所望する検索結果順で検索結果を得ることができる。
以下、図面を参照して、本発明の全文検索システムに係る好適な実施形態について説明する。
図1は、本実施形態に係る全文検索システムの機能構成を示すブロック図である。同図において、全文検索システムは、1台以上の端末10と全文検索サーバ20とをネットワークを介して接続されている。
この構成において、端末10は、デスクトップ型パーソナルコンピュータやモバイルコンピュータ等であって、ユーザが利用する際に、操作が容易になるようなユーザインタフェースを備えており、LAN、WANやインターネット等のネットワークに接続可能なものであればよい。
この端末10は、文書登録やスキーマ情報登録に際しては、登録する文書データやスキーマ情報を入力して全文検索サーバ20へ送信し、検索に際しては検索条件を入力して全文検索サーバ20へ送信する入力手段11と、検索結果や処理過程の状況を全文検索サーバ20から受信して出力させる出力手段12とを含んでなっている。
全文検索サーバ20は、サーバコンピュータであって、ネットワークを介して接続された端末10からの文書登録や検索要求を受信し、文書をデータベースへ登録したり、検索を実行して検索結果を端末10へ送信する。
この全文検索サーバ20は、端末10から受信した文書データやスキーマ情報を登録する登録手段21、登録する文書データに対してスコアを計算して登録するスコア登録手段22、端末10から受信した検索要求にしたがって全文検索を実行して、検索結果を端末10へ返信する検索手段23、検索結果に対する合成スコアを計算するスコア合成手段24、検索対象となる文書データに関する情報を保持管理する文書データベース25を含んでなっている。
さらに、文書データベース25は、スキーマファイル26、索引ファイル27、レコードファイル28、スコアファイル29とを含んでなっている。
まず、端末10における各機能構成について説明する。
入力手段11は、次の3つの機能を実行する。
(1)ユーザが文書を文書データベース25へ登録するときには、文書の内容を示すテキストデータとその他属性(例えば、登録日、タイトル、作成者等の書誌情報)からなる文書データを読み取って、この文書データを登録する要求(文書データ登録要求)を全文検索サーバ20へ送信する。
(2)文書データベース25のスキーマを構築または変更するときには、データベースの構造を表すスキーマ定義情報、例えば以下のようなSQL文
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト)
を読み取って、このスキーマ定義情報を更新する要求(スキーマ更新要求)を全文検索サーバ20へ送信する。
(3)ユーザが所望の検索条件により文書データベース25を検索するときには、1組以上のキーワードの組み合わせ等で構成される検索条件を読み取って、この検索条件による検索要求を全文検索サーバ20へ送信する。
これらの文書データ、スキーマ定義情報や検索条件は、キーボードを使って直接入力されてもよいし、または、ハードディスクやDVDメディア等の記憶装置から読み出されてもよい。
次に、出力手段12は、入力手段11で入力した結果や実行状況等をディスプレイ、プリンタや記憶装置へ出力する。特に、検索結果については、検索条件に対する文書の適合率を表すスコアを伴った検索一覧を全文検索サーバ20から受信してディスプレイへ表示させる。ユーザはこの検索結果一覧から所望の文書があればその内容を表示させたり、プリンタや記憶装置へ出力する等の操作が行われる。
次に、全文検索サーバ20における各機能構成について説明する。
まず、文書データベース25について説明する。
スキーマファイル26は、データベースの構造を表すデータと、属性スコアを求めるための計算式である属性スコア計算式261と、合成スコアを求めるための計算式である合成スコア計算式262とを格納するファイルである。
属性スコア計算式261は、文書データの属性(タイトル、登録日、作成者等の書誌情報)から属性スコアを求めるための式である。例えば、ある文書Dにおける登録日Yから属性スコアscoreを求める式は下記の(式2)のように指定することができ、この(式2)により、登録日が新しい文書を、より大きなスコア値を持つようにすることができる。
score(D)=(Y−1980)/20 (式2)
さらに、この式の右辺には登録日以外の他の属性を使った演算を組み合わせてもよい。例えば、文書の属性として、図書館の貸出ランクや書籍の売り上げランクが参照できるような場合には、これらのランクが高いほどスコアが高くなるような演算式を(式2)の右辺に追加するようにする。
この属性スコア計算式261は、文書データベース25を構築するときに、データベース設計者がスキーマ定義情報として以下のようなSQL文、
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト) exp 属性スコア=(登録日-1980)/20
によって予め設定してもよいが、必要に応じてユーザが同様なSQL文によって随時に属性スコア計算式を登録するようにしてもよい。これにより、ユーザが任意に属性スコア計算式を登録できるので、よりユーザが所望するスコア順で検索結果を取り出すことができる。
合成スコア計算式262は、索引ファイル27から得られる適合度スコアscoreと、スコアファイル29から得られる属性スコアscoreを合成するための式である。例えば、ある文書Dにおける合成スコアscoreは、以下の(式3)のようにすることができる。この(式3)の右辺は、平均とは限らず、適合度スコアscoreと属性スコアscoreのうちどちらのスコアを重視するかによってそれぞれの重み付けを考慮すればよい。
score(D)=
score(D)×0.5+score(D)×0.5 (式3)
この合成スコア計算式262は、文書データベース25を構築するときに、データベース設計者がスキーマ定義情報として以下のようなSQL文、
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト)
exp 合成スコア=(属性スコア*0.5 + 適合度スコア*0.5)
によって予め設定してもよいが、必要に応じてユーザが同様なSQL文によって随時に属性スコア計算式を登録するようにしてもよい。これにより、ユーザが任意に合成スコア計算式を登録できるので、よりユーザが所望するスコア順で検索結果を取り出すことができる。
また、属性スコア計算式261や合成スコア計算式262は、それぞれ別々に登録してもよいが、もちろん以下のようなSQL文で一緒に登録してもかまわない。
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト)
exp 属性スコア=(登録日-1980)/20,
exp 合成スコア=(属性スコア*0.5 + 適合度スコア*0.5)
索引ファイル27は、入力された文書のテキスト情報から転置索引を作成し、この転置索引と文書のテキスト情報を登録したファイルであり、テキスト情報を登録する際には文書識別子を割り当てて、この文書識別子とテキスト情報とを対応付けて登録する。
また、検索時には、索引ファイル27を参照して、検索にヒットした文書識別子(文書ID)と、検索条件に適合した文書との適合度を表す適合度スコアを返す。適合度スコアは、例えば、文書Dごとに、検索条件のうちのキーワードQに(式1)で計算されたスコアを、すべてのキーワード{Q}について所定の計算式でまとめた数値である。従来の検索では、この適合度スコアを基に検索結果の一覧における順番が決められていた。
レコードファイル28は、文書内容のテキスト情報を格納した索引ファイルへの文書識別子(文書ID)と、テキスト情報以外の属性(タイトル、登録日、作成者等の書誌情報)を格納するファイルである(図2参照)。
スコアファイル29は、文書ごとに、属性スコア計算式261で計算された属性スコアとその文書の文書識別子(文書ID)との組みを格納するファイルである(図3参照)。例えば以下のような構造を持つ。
次に、ユーザから受信した文書登録要求およびスキーマ更新要求に対する処理について説明する。
端末10から文書登録要求およびスキーマ更新要求を受信すると、全文検索サーバ20は登録手段21を起動して要求を渡す。
登録手段21は、文書データが渡された場合には、テキスト情報に文書識別子(文書ID)を割り当てて索引ファイル27へ登録するとともに、テキスト情報をもとに索引を作成して索引ファイル27へ格納し、文書データのうち属性(タイトル、登録日、作成者等の書誌情報)と文書識別子(文書ID)とを対応させてレコードファイル28へ格納し、スコア登録手段22を起動して、文書識別子と属性(タイトル、登録日、作成者等の書誌情報)を渡す。
また、登録手段21は、スキーマ定義情報が渡された場合には、渡されたスキーマ定義情報をスキーマファイル26に登録する。
起動されたスコア登録手段22は、スキーマファイル26から、属性スコア計算式261を取り出し、属性スコア計算式261中に要求しているパラメータ情報を文書データベース25から取り出し、このパラメータ情報の値と渡された属性とで属性スコア計算式261により計算された属性スコアを、渡された文書識別子と対応させてスコアファイル29に格納する。
図4は、文書データの登録時の処理手順を示すフローチャートである。
まず、受信した文書データのうち、テキスト情報に文書識別子を割り当てて索引ファイル27へ登録するとともに、テキスト情報から転置索引を作成して索引ファイル27に登録する(ステップS1)。
次に、受信した文書データのうち属性(タイトル、登録日、作成者等の書誌情報)を文書識別子(文書ID)と対応付けてレコードファイル28へ登録する(ステップS2)。
次に、スキーマファイル26から属性スコア計算式261を取り出し(ステップS3)、この属性スコア計算式261中で要求しているパラメータ情報を文書データベース25から取り出して、このパラメータ情報の値と渡された属性とで属性スコア計算式261により属性スコアを計算する(ステップS4)。
例えば、図5に示されるような文書データDが与えられたとき、(式2)で示される属性スコア計算式の値score(D)は、登録年が2000年であるから
score(D)=(2000−1980)/20=1
と計算される。
この計算された属性スコアを文書識別子と対応させてスコアファイル29に格納する(ステップS5)。
また、属性スコアの計算に使用された属性が更新された場合、例えば上記例のような文書の登録日が更新された場合には、属性スコアを再計算し、スコアファイル29の該当する文書の文書識別子の属性スコアを更新する。
次に、ユーザから受信した検索要求に対する処理について説明する。
端末10から検索要求を受信すると、全文検索サーバ20は検索手段23を起動して要求を渡す。
検索手段23は、検索条件から索引ファイル27を検索し、検索条件に合致した文書の文書識別子と適合度スコアの組からなる集合を取得する。この索引を利用した検索は、公知の技術により達成する。
さらに、検索手段23は、この文書識別子と適合度スコアの組からなる集合をスコア合成手段24に渡し、スコア合成手段24から計算された文書識別子と合成スコアの組からなる集合を取得し、この集合を合成スコアの値の大きい順に整列させて検索一覧を作成し、合成スコアの値の大きい方から所定量の検索一覧を端末10へ送信する。
スコア合成手段24は、スキーマファイル26から合成スコア計算式262を取り出し、渡された文書識別子ごとに合致する属性スコアをスコアファイル29から取り出す。
さらに、渡された文書識別子ごとに、渡された適合度スコアと取り出したと属性スコアとによって合成スコア計算式で合成スコアを計算し、渡されたすべての文書識別子の合成スコアを計算し終えると、計算された合成スコアと文書識別子の組の集合を検索手段23へ戻す。
図6は、検索要求の処理手順を示すフローチャートである。
索引ファイル27を参照して、受信した検索条件に合致する文書を検索し、検索条件に合致した文書の文書識別子と適合度スコアの組みからなる配列(以下、配列Aとよぶ;図7参照)を記憶装置上に設定する(ステップS11)。
さらに、検索結果一覧用の配列Bを記憶装置上に設定する。この配列Bは、検索結果の文書識別子ごとに、文書識別子、合成スコアおよびデータ一覧に表示すべきデータ項目(文書のタイトル等)を設定できるサイズとする。
スキーマファイル26から合成スコア計算式262を取り出す(ステップS12)。
配列Aに設定されているすべての文書識別子に対して以下の処理を実行する(ステップS13からS16)。
文書識別子に合致する属性スコアをスコアファイル29から取り出し(ステップS14)、この属性スコアと適合度スコアとを合成スコア計算式に適用して合成スコアを計算し(ステップS15)、計算された合成スコアとその文書識別子を配列Bへ設定する(ステップS16)。
検索結果のすべての文書識別子について合成スコアを計算し終わると(ステップS13のNO)、検索一覧表(配列B)を完成させるために、配列Bの文書識別子ごとに、レコードファイル28から文書識別子に対応する、検索結果一覧に用いるデータ項目である文書の属性を取り出し(ステップS18)、配列Bへ設定する(ステップS19)。
配列Bのすべての文書識別子に対して属性を設定した後(ステップS17のNO)、合成スコアの値が大きい順に配列Bを整列させて(図8参照)、合成スコアの値の大きい方から所定量を検索一覧として端末10へ送信する(ステップS20)。
図7の適合度スコアのみでは、文書ID2の文書が文書ID3の文書より、適合度スコアが大きくなっている。しかし、図8では、合成スコアが文書ID2より文書ID3の方が大きくなっている。このように、索引ファイル27から得られるスコアだけではなく、文書の属性から求めたスコアを合成することにより、よりユーザが所望するデータ順で検索結果を得ることができる。
また、上述の実施形態では、合成スコア計算式は文書データベースの構築時か、あるいは検索を実行する前に予めスキーマファイル26へ登録しておかなければならなかった。
しかし、合成スコア計算式はこのようなタイミングで登録するばかりでなく、検索実行時に検索条件と一緒に入力手段11で入力し、全文検索サーバ20で検索結果一覧を作成するときに利用するようにしてもかまわない。
例えば、文書中にキーワード「システム」がある文書を検索し、合成スコアを、
合成スコア=(適合度スコア*0.6 + 属性スコア*0.4)
の合成スコア計算式で計算し、文書一覧として文書IDとその文書のタイトルとを表示させるときには、以下のようなSQL文となる。
select 文書ID, タイトル from T where テキスト like ‘%システム%’
exp 合成スコア=(適合度スコア*0.6 + 属性スコア*0.4)
図9は、上述のように、合成スコア計算式を検索条件と一緒に指定した場合の検索要求の処理手順を示すフローチャートである。
索引ファイル27を参照して、受信した検索条件に合致する文書を検索し、検索条件に合致した文書の文書識別子と適合度スコアの組みからなる配列(以下、配列Aとよぶ)を記憶装置上に設定する(ステップS31)。
さらに、検索結果一覧用の配列Bを記憶装置上に設定する。この配列Bは、検索結果の文書識別子ごとに、文書識別子、合成スコアおよびデータ一覧に表示すべきデータ項目(文書のタイトル等)を設定できるサイズとする。
配列Aに設定されているすべての文書識別子に対して以下の処理を実行する(ステップS32からS35)。
文書識別子に合致する属性スコアをスコアファイル29から取り出し(ステップS33)、この属性スコアと適合度スコアとを、受信した合成スコア計算式に適用して合成スコアを計算し(ステップS34)、計算された合成スコアとその文書識別子を配列Bへ設定する(ステップS35)。
検索結果のすべての文書識別子について合成スコアを計算し終わると(ステップS32のNO)、検索一覧表(配列B)を完成させるために、配列Bの文書識別子ごとに、レコードファイル28から文書識別子に対応する、検索結果一覧に用いるデータ項目である文書の属性を取り出し(ステップS37)、配列Bへ設定する(ステップS38)。
配列Bのすべての文書識別子に対して属性を設定した後(ステップS36のNO)、合成スコアの値が大きい順に配列Bを整列させて、合成スコアの値の大きい方から所定量を検索一覧として端末10へ送信する(ステップS39)。
このように構成することによって、合成スコア計算式は検索するたびにユーザから与え、その与えられた合成スコア計算式で計算した合成スコア順で検索結果を返すので、ユーザごとに、よりユーザの所望する検索結果順で検索結果を得ることができる。
上述の実施形態では、端末10と全文検索サーバ20とを別のコンピュータとして説明したが、全文検索サーバ20が、上述した端末10の入力手段11および出力手段12の機能を有するように構成してもよい。
さらに、本発明は上述した実施形態のみに限定されたものではない。上述した実施形態の全文検索システムを構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、このCD−ROMをCD−ROMドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納して、実行することによって、本発明の目的を達成することができる。
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、ロードしたプログラムの指示に基づき、オペレーティングシステムやアプリケーションプログラム等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。
また、上述したプログラムをサーバコンピュータの磁気ディスク等の記憶装置に格納しておき、ネットワークで接続された利用者のコンピュータからダウンロードして頒布する場合、また、サーバコンピュータから配信して頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このように、本発明の機能をプログラムして、記録媒体に記録し頒布することによって、コスト、可搬性、汎用性を向上させることができる。
本実施形態に係る全文検索システムの機能構成を示すブロック図である。 レコードファイルのデータ構造例である。 スコアファイルのデータ構造例である 文書データを文書データベースへ登録するときの処理手順を示すフローチャートである。 入力される文書データ例である。 予めスキーマ定義で登録された合成スコア計算式でスコア計算する場合の検索要求の処理手順を示すフローチャートである。 検索条件によって検索された文書群とその適合度スコアの対応表(配列A)の例である。 検索結果を合成スコア順(降順)に整列したときの例である。 合成スコア計算式を検索条件と一緒に指定した場合の検索要求の処理手順を示すフローチャートである。
符号の説明
10…端末、11…入力手段、12…出力手段、20…全文検索サーバ、21…登録手段、22…スコア登録手段、23…検索手段、24…スコア合成手段、25…文書データベース、26…スキーマファイル、261…属性スコア計算式、262…合成スコア計算式、27…索引ファイル、28…レコードファイル、29…スコアファイル。

Claims (8)

  1. 登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成する全文検索システムにおいて、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持し、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録するスコア登録手段と、検索結果を取得する時には、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算するスコア合成手段と、検索条件に合致した検索結果に対して、前記スコア合成手段で計算された合成スコアをもとに検索結果一覧を作成する検索手段とを備えることを特徴とする全文検索システム。
  2. 請求項1に記載の全文検索システムにおいて、ユーザが指定した前記属性スコア計算式をスキーマ定義時に登録する登録手段を備えることを特徴とする全文検索システム。
  3. 請求項1または2に記載の全文検索システムにおいて、前記属性スコア計算式にある文書の属性が更新されたときには、属性スコアを再計算して前記スコアファイルを更新するようにしたことを特徴とする全文検索システム。
  4. 請求項2または3に記載の全文検索システムにおいて、前記登録手段は、ユーザが指定した前記合成スコア計算式をスキーマ定義時に登録するようにしたことを特徴とする全文検索システム。
  5. 請求項2または3に記載の全文検索システムにおいて、前記検索手段は、ユーザが指定した合成スコア計算式に基づいて計算した合成スコアによって、検索結果一覧を作成するようにしたことを特徴とする全文検索システム。
  6. 登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成する全文検索方法において、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持しておき、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録し、検索結果を取得する時には、検索条件に合致した検索結果に対して、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算し、この計算された合成スコアをもとに検索結果一覧を作成することを特徴とする全文検索方法。
  7. コンピュータに、請求項1乃至5のいずれかに記載の全文検索システムの機能を実行させるためのプログラム。
  8. 請求項7に記載のプログラムを記録したコンピュータ読取可能な記録媒体。
JP2004206747A 2004-07-14 2004-07-14 全文検索システム、全文検索方法、プログラムおよび記録媒体 Pending JP2006031209A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004206747A JP2006031209A (ja) 2004-07-14 2004-07-14 全文検索システム、全文検索方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004206747A JP2006031209A (ja) 2004-07-14 2004-07-14 全文検索システム、全文検索方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2006031209A true JP2006031209A (ja) 2006-02-02

Family

ID=35897508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004206747A Pending JP2006031209A (ja) 2004-07-14 2004-07-14 全文検索システム、全文検索方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2006031209A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424704C (zh) * 2006-09-30 2008-10-08 华中科技大学 基于密文的全文检索系统
JP2010061322A (ja) * 2008-09-03 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置および情報検索プログラム
US8180781B2 (en) 2008-05-28 2012-05-15 Ricoh Company, Ltd. Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents
JP2018028732A (ja) * 2016-08-15 2018-02-22 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
US11163811B2 (en) 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331527A (ja) * 2000-05-24 2001-11-30 Hitachi Ltd 類似文書検索方法
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP2004171535A (ja) * 2002-10-28 2004-06-17 Fuji Xerox Co Ltd 文書検索方法および装置並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331527A (ja) * 2000-05-24 2001-11-30 Hitachi Ltd 類似文書検索方法
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP2004171535A (ja) * 2002-10-28 2004-06-17 Fuji Xerox Co Ltd 文書検索方法および装置並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424704C (zh) * 2006-09-30 2008-10-08 华中科技大学 基于密文的全文检索系统
US8180781B2 (en) 2008-05-28 2012-05-15 Ricoh Company, Ltd. Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents
JP2010061322A (ja) * 2008-09-03 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置および情報検索プログラム
JP2018028732A (ja) * 2016-08-15 2018-02-22 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
US11163811B2 (en) 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness

Similar Documents

Publication Publication Date Title
US9020950B2 (en) System and method for generating, updating, and using meaningful tags
US8250092B2 (en) Search result diversification
US20050086204A1 (en) System and method for searching date sources
US20120290926A1 (en) Efficient document management and search
US20100114908A1 (en) Relevant navigation with deep links into query
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US8325974B1 (en) Recognition of characters and their significance within written works
WO2016021522A1 (ja) サプライヤ探索装置および探索方法
US20120179709A1 (en) Apparatus, method and program product for searching document
JP2009009461A (ja) キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム
US8140525B2 (en) Information processing apparatus, information processing method and computer readable information recording medium
Timakum et al. A data-driven analysis of the knowledge structure of library science with full-text journal articles
Steele Bibliographic citation management software as a tool for building knowledge
Fatehi et al. How to improve your PubMed/MEDLINE searches: 2. display settings, complex search queries and topic searching
JP2006031209A (ja) 全文検索システム、全文検索方法、プログラムおよび記録媒体
Lasolle et al. Assisting the RDF annotation of a digital humanities corpus using case-based reasoning
Woolcott et al. Missing the MARC: Utilization of MARC fields in the search process
Cetera-Włodarczyk et al. National e-resources of Shakespeare translations in Europe:(Dis) assembling the black box
JP2011100191A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
WO2022190404A1 (ja) マンガ広告作成支援システム、及びマンガ広告作成支援方法
JP2004287835A (ja) オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法
JP7340952B2 (ja) テンプレート検索システムおよびテンプレート検索方法
McGrath Musings on Faceted Search, Metadata, and Library Discovery Interfaces
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
US20010037330A1 (en) Data input form retrieving system, data input form retrieving method, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070625

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090210

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100405

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100629