JP2006031209A - 全文検索システム、全文検索方法、プログラムおよび記録媒体 - Google Patents
全文検索システム、全文検索方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2006031209A JP2006031209A JP2004206747A JP2004206747A JP2006031209A JP 2006031209 A JP2006031209 A JP 2006031209A JP 2004206747 A JP2004206747 A JP 2004206747A JP 2004206747 A JP2004206747 A JP 2004206747A JP 2006031209 A JP2006031209 A JP 2006031209A
- Authority
- JP
- Japan
- Prior art keywords
- score
- document
- attribute
- search
- calculation formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成するときに、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持しておき、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録し、検索結果を取得する時には、検索条件に合致した検索結果に対して、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算し、この計算された合成スコアをもとに検索結果一覧を作成する。
【選択図】図1
Description
しかし、多数の文書が検索された場合や文書の全文が長い場合には、文書をすべて読むために多大な時間が必要になってしまっていた。
請求項3に記載の発明は、請求項1または2に記載の全文検索システムにおいて、前記属性スコア計算式にある文書の属性が更新されたときには、属性スコアを再計算して前記スコアファイルを更新するようにしたことを特徴とする。
請求項5に記載の発明は、請求項2または3に記載の全文検索システムにおいて、前記検索手段は、ユーザが指定した合成スコア計算式に基づいて計算した合成スコアによって、検索結果一覧を作成するようにしたことを特徴とする。
請求項8に記載の発明は、請求項7に記載のプログラムを記録したコンピュータ読取可能な記録媒体である。
さらに、文書データの種別や検索条件に応じた合成スコア計算式を検索時にユーザが指定できるようにしたので、ユーザごとにまた検索対象ごとに、よりユーザの所望する検索結果順で検索結果を得ることができる。
この構成において、端末10は、デスクトップ型パーソナルコンピュータやモバイルコンピュータ等であって、ユーザが利用する際に、操作が容易になるようなユーザインタフェースを備えており、LAN、WANやインターネット等のネットワークに接続可能なものであればよい。
この端末10は、文書登録やスキーマ情報登録に際しては、登録する文書データやスキーマ情報を入力して全文検索サーバ20へ送信し、検索に際しては検索条件を入力して全文検索サーバ20へ送信する入力手段11と、検索結果や処理過程の状況を全文検索サーバ20から受信して出力させる出力手段12とを含んでなっている。
この全文検索サーバ20は、端末10から受信した文書データやスキーマ情報を登録する登録手段21、登録する文書データに対してスコアを計算して登録するスコア登録手段22、端末10から受信した検索要求にしたがって全文検索を実行して、検索結果を端末10へ返信する検索手段23、検索結果に対する合成スコアを計算するスコア合成手段24、検索対象となる文書データに関する情報を保持管理する文書データベース25を含んでなっている。
さらに、文書データベース25は、スキーマファイル26、索引ファイル27、レコードファイル28、スコアファイル29とを含んでなっている。
入力手段11は、次の3つの機能を実行する。
(1)ユーザが文書を文書データベース25へ登録するときには、文書の内容を示すテキストデータとその他属性(例えば、登録日、タイトル、作成者等の書誌情報)からなる文書データを読み取って、この文書データを登録する要求(文書データ登録要求)を全文検索サーバ20へ送信する。
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト)
を読み取って、このスキーマ定義情報を更新する要求(スキーマ更新要求)を全文検索サーバ20へ送信する。
これらの文書データ、スキーマ定義情報や検索条件は、キーボードを使って直接入力されてもよいし、または、ハードディスクやDVDメディア等の記憶装置から読み出されてもよい。
まず、文書データベース25について説明する。
スキーマファイル26は、データベースの構造を表すデータと、属性スコアを求めるための計算式である属性スコア計算式261と、合成スコアを求めるための計算式である合成スコア計算式262とを格納するファイルである。
score2(Dj)=(Yj−1980)/20 (式2)
さらに、この式の右辺には登録日以外の他の属性を使った演算を組み合わせてもよい。例えば、文書の属性として、図書館の貸出ランクや書籍の売り上げランクが参照できるような場合には、これらのランクが高いほどスコアが高くなるような演算式を(式2)の右辺に追加するようにする。
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト) exp 属性スコア=(登録日-1980)/20
によって予め設定してもよいが、必要に応じてユーザが同様なSQL文によって随時に属性スコア計算式を登録するようにしてもよい。これにより、ユーザが任意に属性スコア計算式を登録できるので、よりユーザが所望するスコア順で検索結果を取り出すことができる。
score3(Dj)=
score1(Dj)×0.5+score2(Dj)×0.5 (式3)
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト)
exp 合成スコア=(属性スコア*0.5 + 適合度スコア*0.5)
によって予め設定してもよいが、必要に応じてユーザが同様なSQL文によって随時に属性スコア計算式を登録するようにしてもよい。これにより、ユーザが任意に合成スコア計算式を登録できるので、よりユーザが所望するスコア順で検索結果を取り出すことができる。
create table T (テキスト nvarchar, 登録日 date, 作成者 nvarchar)
create fulltext index T_I on T(テキスト)
exp 属性スコア=(登録日-1980)/20,
exp 合成スコア=(属性スコア*0.5 + 適合度スコア*0.5)
また、検索時には、索引ファイル27を参照して、検索にヒットした文書識別子(文書ID)と、検索条件に適合した文書との適合度を表す適合度スコアを返す。適合度スコアは、例えば、文書Djごとに、検索条件のうちのキーワードQiに(式1)で計算されたスコアを、すべてのキーワード{Qi}について所定の計算式でまとめた数値である。従来の検索では、この適合度スコアを基に検索結果の一覧における順番が決められていた。
スコアファイル29は、文書ごとに、属性スコア計算式261で計算された属性スコアとその文書の文書識別子(文書ID)との組みを格納するファイルである(図3参照)。例えば以下のような構造を持つ。
端末10から文書登録要求およびスキーマ更新要求を受信すると、全文検索サーバ20は登録手段21を起動して要求を渡す。
登録手段21は、文書データが渡された場合には、テキスト情報に文書識別子(文書ID)を割り当てて索引ファイル27へ登録するとともに、テキスト情報をもとに索引を作成して索引ファイル27へ格納し、文書データのうち属性(タイトル、登録日、作成者等の書誌情報)と文書識別子(文書ID)とを対応させてレコードファイル28へ格納し、スコア登録手段22を起動して、文書識別子と属性(タイトル、登録日、作成者等の書誌情報)を渡す。
また、登録手段21は、スキーマ定義情報が渡された場合には、渡されたスキーマ定義情報をスキーマファイル26に登録する。
まず、受信した文書データのうち、テキスト情報に文書識別子を割り当てて索引ファイル27へ登録するとともに、テキスト情報から転置索引を作成して索引ファイル27に登録する(ステップS1)。
次に、受信した文書データのうち属性(タイトル、登録日、作成者等の書誌情報)を文書識別子(文書ID)と対応付けてレコードファイル28へ登録する(ステップS2)。
例えば、図5に示されるような文書データDが与えられたとき、(式2)で示される属性スコア計算式の値score2(D)は、登録年が2000年であるから
score2(D)=(2000−1980)/20=1
と計算される。
この計算された属性スコアを文書識別子と対応させてスコアファイル29に格納する(ステップS5)。
端末10から検索要求を受信すると、全文検索サーバ20は検索手段23を起動して要求を渡す。
検索手段23は、検索条件から索引ファイル27を検索し、検索条件に合致した文書の文書識別子と適合度スコアの組からなる集合を取得する。この索引を利用した検索は、公知の技術により達成する。
さらに、検索手段23は、この文書識別子と適合度スコアの組からなる集合をスコア合成手段24に渡し、スコア合成手段24から計算された文書識別子と合成スコアの組からなる集合を取得し、この集合を合成スコアの値の大きい順に整列させて検索一覧を作成し、合成スコアの値の大きい方から所定量の検索一覧を端末10へ送信する。
さらに、渡された文書識別子ごとに、渡された適合度スコアと取り出したと属性スコアとによって合成スコア計算式で合成スコアを計算し、渡されたすべての文書識別子の合成スコアを計算し終えると、計算された合成スコアと文書識別子の組の集合を検索手段23へ戻す。
索引ファイル27を参照して、受信した検索条件に合致する文書を検索し、検索条件に合致した文書の文書識別子と適合度スコアの組みからなる配列(以下、配列Aとよぶ;図7参照)を記憶装置上に設定する(ステップS11)。
さらに、検索結果一覧用の配列Bを記憶装置上に設定する。この配列Bは、検索結果の文書識別子ごとに、文書識別子、合成スコアおよびデータ一覧に表示すべきデータ項目(文書のタイトル等)を設定できるサイズとする。
配列Aに設定されているすべての文書識別子に対して以下の処理を実行する(ステップS13からS16)。
図7の適合度スコアのみでは、文書ID2の文書が文書ID3の文書より、適合度スコアが大きくなっている。しかし、図8では、合成スコアが文書ID2より文書ID3の方が大きくなっている。このように、索引ファイル27から得られるスコアだけではなく、文書の属性から求めたスコアを合成することにより、よりユーザが所望するデータ順で検索結果を得ることができる。
しかし、合成スコア計算式はこのようなタイミングで登録するばかりでなく、検索実行時に検索条件と一緒に入力手段11で入力し、全文検索サーバ20で検索結果一覧を作成するときに利用するようにしてもかまわない。
合成スコア=(適合度スコア*0.6 + 属性スコア*0.4)
の合成スコア計算式で計算し、文書一覧として文書IDとその文書のタイトルとを表示させるときには、以下のようなSQL文となる。
select 文書ID, タイトル from T where テキスト like ‘%システム%’
exp 合成スコア=(適合度スコア*0.6 + 属性スコア*0.4)
索引ファイル27を参照して、受信した検索条件に合致する文書を検索し、検索条件に合致した文書の文書識別子と適合度スコアの組みからなる配列(以下、配列Aとよぶ)を記憶装置上に設定する(ステップS31)。
さらに、検索結果一覧用の配列Bを記憶装置上に設定する。この配列Bは、検索結果の文書識別子ごとに、文書識別子、合成スコアおよびデータ一覧に表示すべきデータ項目(文書のタイトル等)を設定できるサイズとする。
文書識別子に合致する属性スコアをスコアファイル29から取り出し(ステップS33)、この属性スコアと適合度スコアとを、受信した合成スコア計算式に適用して合成スコアを計算し(ステップS34)、計算された合成スコアとその文書識別子を配列Bへ設定する(ステップS35)。
このように、本発明の機能をプログラムして、記録媒体に記録し頒布することによって、コスト、可搬性、汎用性を向上させることができる。
Claims (8)
- 登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成する全文検索システムにおいて、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持し、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録するスコア登録手段と、検索結果を取得する時には、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算するスコア合成手段と、検索条件に合致した検索結果に対して、前記スコア合成手段で計算された合成スコアをもとに検索結果一覧を作成する検索手段とを備えることを特徴とする全文検索システム。
- 請求項1に記載の全文検索システムにおいて、ユーザが指定した前記属性スコア計算式をスキーマ定義時に登録する登録手段を備えることを特徴とする全文検索システム。
- 請求項1または2に記載の全文検索システムにおいて、前記属性スコア計算式にある文書の属性が更新されたときには、属性スコアを再計算して前記スコアファイルを更新するようにしたことを特徴とする全文検索システム。
- 請求項2または3に記載の全文検索システムにおいて、前記登録手段は、ユーザが指定した前記合成スコア計算式をスキーマ定義時に登録するようにしたことを特徴とする全文検索システム。
- 請求項2または3に記載の全文検索システムにおいて、前記検索手段は、ユーザが指定した合成スコア計算式に基づいて計算した合成スコアによって、検索結果一覧を作成するようにしたことを特徴とする全文検索システム。
- 登録した文書と検索条件との適合度を表す適合度スコアによって、検索結果の順序を決定して検索結果一覧を作成する全文検索方法において、スキーマ情報として、登録した文書の属性から属性スコアを計算する属性スコア計算式と、前記適合度スコアと前記属性スコアとから合成スコアを計算する合成スコア計算式を保持しておき、文書を登録する時には、文書の属性と前記属性スコア計算式によって計算した属性スコアを文書と対応付けてスコアファイルへ登録し、検索結果を取得する時には、検索条件に合致した検索結果に対して、検索結果の文書に対応する適合度スコアと、前記スコアファイルに記憶された属性スコアとから前記合成スコア計算式によって合成スコアを計算し、この計算された合成スコアをもとに検索結果一覧を作成することを特徴とする全文検索方法。
- コンピュータに、請求項1乃至5のいずれかに記載の全文検索システムの機能を実行させるためのプログラム。
- 請求項7に記載のプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004206747A JP2006031209A (ja) | 2004-07-14 | 2004-07-14 | 全文検索システム、全文検索方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004206747A JP2006031209A (ja) | 2004-07-14 | 2004-07-14 | 全文検索システム、全文検索方法、プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006031209A true JP2006031209A (ja) | 2006-02-02 |
Family
ID=35897508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004206747A Pending JP2006031209A (ja) | 2004-07-14 | 2004-07-14 | 全文検索システム、全文検索方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006031209A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100424704C (zh) * | 2006-09-30 | 2008-10-08 | 华中科技大学 | 基于密文的全文检索系统 |
JP2010061322A (ja) * | 2008-09-03 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置および情報検索プログラム |
US8180781B2 (en) | 2008-05-28 | 2012-05-15 | Ricoh Company, Ltd. | Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents |
JP2018028732A (ja) * | 2016-08-15 | 2018-02-22 | 株式会社トヨタマップマスター | 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体 |
US11163811B2 (en) | 2017-10-30 | 2021-11-02 | International Business Machines Corporation | Ranking of documents based on their semantic richness |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331527A (ja) * | 2000-05-24 | 2001-11-30 | Hitachi Ltd | 類似文書検索方法 |
JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
JP2004171535A (ja) * | 2002-10-28 | 2004-06-17 | Fuji Xerox Co Ltd | 文書検索方法および装置並びにプログラム |
-
2004
- 2004-07-14 JP JP2004206747A patent/JP2006031209A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331527A (ja) * | 2000-05-24 | 2001-11-30 | Hitachi Ltd | 類似文書検索方法 |
JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
JP2004171535A (ja) * | 2002-10-28 | 2004-06-17 | Fuji Xerox Co Ltd | 文書検索方法および装置並びにプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100424704C (zh) * | 2006-09-30 | 2008-10-08 | 华中科技大学 | 基于密文的全文检索系统 |
US8180781B2 (en) | 2008-05-28 | 2012-05-15 | Ricoh Company, Ltd. | Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents |
JP2010061322A (ja) * | 2008-09-03 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置および情報検索プログラム |
JP2018028732A (ja) * | 2016-08-15 | 2018-02-22 | 株式会社トヨタマップマスター | 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体 |
US11163811B2 (en) | 2017-10-30 | 2021-11-02 | International Business Machines Corporation | Ranking of documents based on their semantic richness |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9020950B2 (en) | System and method for generating, updating, and using meaningful tags | |
US8250092B2 (en) | Search result diversification | |
US20050086204A1 (en) | System and method for searching date sources | |
US20120290926A1 (en) | Efficient document management and search | |
US20100114908A1 (en) | Relevant navigation with deep links into query | |
JP2006251866A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
US8325974B1 (en) | Recognition of characters and their significance within written works | |
WO2016021522A1 (ja) | サプライヤ探索装置および探索方法 | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
JP2009009461A (ja) | キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム | |
US8140525B2 (en) | Information processing apparatus, information processing method and computer readable information recording medium | |
Timakum et al. | A data-driven analysis of the knowledge structure of library science with full-text journal articles | |
Steele | Bibliographic citation management software as a tool for building knowledge | |
Fatehi et al. | How to improve your PubMed/MEDLINE searches: 2. display settings, complex search queries and topic searching | |
JP2006031209A (ja) | 全文検索システム、全文検索方法、プログラムおよび記録媒体 | |
Lasolle et al. | Assisting the RDF annotation of a digital humanities corpus using case-based reasoning | |
Woolcott et al. | Missing the MARC: Utilization of MARC fields in the search process | |
Cetera-Włodarczyk et al. | National e-resources of Shakespeare translations in Europe:(Dis) assembling the black box | |
JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
WO2022190404A1 (ja) | マンガ広告作成支援システム、及びマンガ広告作成支援方法 | |
JP2004287835A (ja) | オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法 | |
JP7340952B2 (ja) | テンプレート検索システムおよびテンプレート検索方法 | |
McGrath | Musings on Faceted Search, Metadata, and Library Discovery Interfaces | |
JP2009104475A (ja) | 類似文書検索装置、類似文書検索方法およびプログラム | |
US20010037330A1 (en) | Data input form retrieving system, data input form retrieving method, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070625 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090210 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090313 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100405 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100629 |