JP2006331117A - 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム - Google Patents
文書検索システム、文書検索装置、文書検索方法および文書検索プログラム Download PDFInfo
- Publication number
- JP2006331117A JP2006331117A JP2005154374A JP2005154374A JP2006331117A JP 2006331117 A JP2006331117 A JP 2006331117A JP 2005154374 A JP2005154374 A JP 2005154374A JP 2005154374 A JP2005154374 A JP 2005154374A JP 2006331117 A JP2006331117 A JP 2006331117A
- Authority
- JP
- Japan
- Prior art keywords
- document
- score
- search
- total
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 管理装置10は、各文書データ格納手段の登録文書数を、各文書検索装置から取得する登録文書数取得手段と、登録文書数に基づいて、複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出手段と、各文書データ格納手段の文書頻度を、各文書検索装置から取得する文書頻度取得手段と、文書頻度に基づいて、複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出手段とを有し、各文書検索装置20a〜20cは、総合登録文書数と、総合文書頻度算出手段が算出した総合文書頻度とに基づいて、検索キーワードのスコアを算出するスコア算出手段を有することを特徴とする。
【選択図】 図1
Description
図1は、実施の形態1にかかる文書管理システム1全体の構成を示すブロック図である。文書管理システム1は、管理サーバ10と複数のクライアント端末40a〜40cを備えている。管理サーバ10と複数のクライアント端末40a〜40cは、ネットワーク30を介して通信を行う。管理サーバ10は、複数の検索サーバ20a〜20cを管理する。
select 文書ID, スコアfrom T where テキスト like '%システム%' or テキスト like '%データベース%' order by スコア desc
この問い合わせ文には、検索キーワードとして「システム」および「データベース」が指定されている。
select count(*) from T where テキスト like '%システム%'
select count(*) from T where テキスト like '%データベース%'
また、以下の問い合わせ文を登録文書数の取得要求として送出する。
select count(テキスト) from T
select 文書ID, スコアfrom T where テキスト like ('%システム%' 総合文書頻度 7) or テキスト like ('%データベース%' 総合文書頻度 5) 総合登録文書数 10 order by スコア desc
次に、実施の形態2にかかる文書管理システム1について説明する。実施の形態2にかかる文書管理システム1は、平均文書長を利用してスコアを算出する。この点で、実施の形態1にかかる文書管理システム1と異なっている。
select avg(char_length(テキスト)) from T
select 文書ID, スコアfrom T where テキスト like ('%システム%' 総合文書頻度 7) or テキスト like ('%データベース%' 総合文書頻度 5) 総合登録文書数 10 総平均文書長 100.0 order by スコア desc
次に、実施の形態3にかかる文書管理システム1について説明する。実施の形態3にかかる文書管理システム1においては、スコア算出において利用するスコア計算式を指定することができる。この点で、実施の形態3にかかる文書管理システム1は、他の実施の形態にかかる文書管理システム1と異なっている。
select 文書ID, スコアfrom T where テキスト like '%システム%' or テキスト like '%データベース%' calculator 'NormalizedOkapiTfIdf' order by スコア desc
次に、実施の形態4にかかる文書管理システム1について説明する。実施の形態4にかかる文書管理システム1においては、スコア算出において利用するスコア計算式を指定することができる。この点で、実施の形態4にかかる文書管理システム1は、他の実施の形態にかかる文書管理システム1と異なっている。
select 文書ID, スコアfrom T where テキスト like '%システム%' or テキスト like '%データベース%' calculator 'NormalizedOkapiTfIdf' combiner 'Sum' order by スコア desc
10 管理サーバ
20a〜20c 検索サーバ
22a〜22c 索引ファイル
24a〜24c レコードファイル
30 ネットワーク
40a〜40c クライアント端末
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 登録部
110 検索部
112 検索条件取得部
114 検索キーワード抽出部
116 取得要求送出部
120 文書頻度取得部
122 文書頻度マージ部
124 総合文書頻度送出部
126 登録文書数取得部
128 登録文書数マージ部
130 総合登録文書数送出部
140 検索結果取得部
142 検索結果マージ部
144 総合検索結果送出部
150 平均文書長取得部
152 平均文書長マージ部
154 総平均文書長送出部
160 スコア計算式抽出部
170 スコア合成式抽出部
200 登録部
210 検索部
212 検索キーワード取得部
214 文書頻度抽出部
216 登録文書数抽出部
220 総合文書頻度取得部
222 総合登録文書数取得部
224 スコア算出部
226 検索結果送出部
230 平均文書長取得部
232 総平均文書長取得部
240 スコア計算式取得部
250 スコア合成式取得部
Claims (20)
- 文書データを格納する、複数の文書データ格納手段と、
各文書データ格納手段に格納されている文書データを検索する、複数の文書検索装置と、
前記複数の文書検索装置を管理する管理装置と
を備え、
前記管理装置は、
前記文書データを検索するための検索キーワードを取得する検索キーワード取得手段と、
各文書データ格納手段に格納されている前記文書データの数である登録文書数を、各文書検索装置から取得する登録文書数取得手段と、
前記登録文書数取得手段が各文書検索装置から取得した前記登録文書数に基づいて、前記複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出手段と、
各文書データ格納手段に格納されている前記文書データのうち、前記検索キーワード取得手段が取得した前記検索キーワードを含む文書データの数である文書頻度を、各文書検索装置から取得する文書頻度取得手段と、
前記文書頻度取得手段が各文書検索装置から取得した前記文書頻度に基づいて、前記複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出手段と
を有し、
各文書検索装置は、
前記総合登録文書数算出手段が算出した前記総合登録文書数と、前記総合文書頻度算出手段が算出した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出手段を有することを特徴とする文書検索システム。 - 前記総合登録文書数算出手段は、前記登録文書数取得手段が各文書検索装置から取得した前記登録文書数を加算して前記総合登録文書数を得ることを特徴とする請求項1に記載の文書検索システム。
- 前記総合文書頻度算出手段は、前記文書頻度取得手段が各文書検索装置から取得した前記文書頻度を加算して前記総合文書頻度を得ることを特徴とする請求項1または2に記載の文書検索システム。
- 前記管理装置は、
各文書データ格納手段に格納されている前記文書データの平均文書長を、各文書検索装置から取得する平均文書長取得手段と、
前記平均文書長取得手段が各文書検索装置から取得した前記平均文書長に基づいて、前記複数の文書データ格納手段全体に対する総平均文書長を算出する総平均文書長算出手段と
をさらに有し、
各文書検索装置の前記スコア算出手段は、さらに前記総平均文書長算出手段が算出した前記総平均文書長に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項1から3のいずれか一項に記載の文書検索システム。 - 前記総平均文書長算出手段は、前記平均文書長取得手段が各文書検索装置から取得した前記平均文書長の平均値を、前記総平均文書長として算出することを特徴とする請求項4に記載の文書検索システム。
- 各文書検索装置は、各文書データ格納手段に格納されている前記文書データ中における前記検索キーワードの出現数である文書内頻度を取得する文書内頻度取得手段をさらに有し、
前記スコア算出手段は、さらに前記文書内頻度取得手段が取得した前記文書内頻度に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項1から5のいずれか一項に記載の文書検索システム。 - 各文書検索装置は、ユーザによって指定されたスコア計算式を示すスコア計算式情報を取得するスコア計算式取得手段をさらに有し、
前記スコア算出手段は、前記スコア計算式取得手段が取得した前記スコア計算式情報に示される前記スコア計算式を利用して前記スコアを算出することを特徴とする請求項1から6のいずれか一項に記載の文書検索システム。 - 各文書検索装置は、前記スコア算出手段が前記検索キーワードに対して算出したスコアを文書データごとに合成し、合成スコアを得るスコア合成手段をさらに有することを特徴とする請求項1から7のいずれか一項に記載の文書検索システム。
- 前記スコア合成手段は、同一の文書データにおいて、複数の前記検索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得ることを特徴とする請求項8に記載の文書検索システム。
- 各文書検索装置は、ユーザによって指定されたスコア合成式を示すスコア合成式情報を取得するスコア合成式取得手段をさらに有し、
前記スコア算出手段は、前記スコア合成式取得手段が取得した前記スコア合成式情報に示される前記スコア合成式を利用して前記合成スコアを得ることを特徴とする請求項8または9に記載の文書検索システム。 - 文書データを格納する複数の文書データ格納手段を備えた文書管理システムにおいて前記文書データ格納手段に格納されている文書データを検索する文書検索装置であって、
前記文書データを検索するための検索キーワードを取得する検索キーワード取得手段と、
前記複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得する総合登録文書数取得手段と、
前記複数の文書データ格納手段全体における、前記検索キーワード取得手段が取得した前記検索キーワードを含む文書データの数である総合文書頻度を取得する総合文書頻度取得手段と、
前記総合登録文書数取得手段が取得した前記総合登録文書数と、前記総合文書頻度取得手段が取得した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出手段と
を備えたことを特徴とする文書検索装置。 - 前記複数の文書データ格納手段全体に対する総平均文書長を取得する総平均文書長取得手段をさらに備え、
前記スコア算出手段は、さらに前記総平均文書長取得手段が取得した前記総平均文書長に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項11に記載の文書検索装置。 - 前記文書データ格納手段に格納されている前記文書データ中における前記検索キーワードの出現数である文書内頻度を取得する文書内頻度取得手段をさらに備え、
前記スコア算出手段は、さらに前記文書内頻度取得手段が取得した前記文書内頻度に基づいて、前記検索キーワードのスコアを算出することを特徴とする請求項11または12に記載の文書検索装置。 - ユーザによって指定されたスコア計算式を示すスコア計算式情報を取得するスコア計算式取得手段をさらに備え、
前記スコア算出手段は、前記スコア計算式取得手段が取得した前記スコア計算式情報に示される前記スコア計算式を利用して前記スコアを算出することを特徴とする請求項11から13のいずれか一項に記載の文書検索装置。 - 前記スコア算出手段が前記探索キーワードに対して算出したスコアを、文書データごとに合成し、合成スコアを得るスコア合成手段をさらに備えたことを特徴とする請求項11から14のいずれか一項に記載の文書検索装置。
- 前記スコア合成手段は、同一の文書データにおいて、複数の前記探索キーワードそれぞれに対して算出されたスコアを加算して、文書データごとの合成スコアを得ることを特徴とする請求項15に記載の文書検索装置。
- ユーザによって指定されたスコア合成式を示すスコア合成式情報を取得するスコア合成式取得手段をさらに備え、
前記スコア算出手段は、前記スコア合成式取得手段が取得した前記スコア合成式情報に示される前記スコア合成式を利用して前記合成スコアを得ることを特徴とする請求項15または16に記載の文書検索装置。 - 文書データを格納する、複数の文書データ格納手段を備えた文書管理システムにおいて文書を管理する文書検索方法であって、
前記文書データを検索するための検索キーワードを取得する検索キーワード取得ステップと、
各文書データ格納手段に格納されている前記文書データの数である登録文書数を取得する登録文書数取得ステップと、
前記登録文書数取得ステップにおいて取得した前記登録文書数に基づいて、前記複数の文書データ格納手段全体に対する総合登録文書数を算出する総合登録文書数算出ステップと、
各文書データ格納手段に格納されている前記文書データのうち、前記検索キーワード取得ステップにおいて取得した前記検索キーワードを含む文書データの数である文書頻度を取得する文書頻度取得ステップと、
前記文書頻度取得ステップにおいて取得した前記文書頻度に基づいて、前記複数の文書データ格納手段全体に対する総合文書頻度を算出する総合文書頻度算出ステップと、
前記総合登録文書数算出ステップにおいて算出した前記総合登録文書数と、前記総合文書頻度算出ステップにおいて算出した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出ステップと
を有することを特徴とする文書検索方法。 - 文書データを格納する複数の文書データ格納手段を備えた文書管理システムにおいて前記文書データ格納手段に格納されている文書データを検索する文書検索方法であって、
前記文書データを検索するための検索キーワードを取得する検索キーワード取得ステップと、
前記複数の文書データ格納手段全体における、登録文書数である総合登録文書数を取得する総合登録文書数取得ステップと、
前記複数の文書データ格納手段全体における、前記検索キーワード取得ステップにおいて取得した前記検索キーワードを含む文書データの数である総合文書頻度を取得する総合文書頻度取得ステップと、
前記総合登録文書数取得ステップにおいて取得した前記総合登録文書数と、前記総合文書頻度取得ステップにおいて取得した前記総合文書頻度とに基づいて、前記検索キーワードのスコアを算出するスコア算出ステップと
を有することを特徴とする文書検索方法。 - 請求項19に記載の文書検索方法をコンピュータに実行させることを特徴とする文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005154374A JP2006331117A (ja) | 2005-05-26 | 2005-05-26 | 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005154374A JP2006331117A (ja) | 2005-05-26 | 2005-05-26 | 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006331117A true JP2006331117A (ja) | 2006-12-07 |
Family
ID=37552736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005154374A Pending JP2006331117A (ja) | 2005-05-26 | 2005-05-26 | 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006331117A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234204A (ja) * | 2007-03-19 | 2008-10-02 | Ricoh Co Ltd | 文書検索装置、文書検索方法および文書検索プログラム |
JP2009187211A (ja) * | 2008-02-05 | 2009-08-20 | Nec Corp | 情報検索システム、情報検索方法およびプログラム |
JP2009271659A (ja) * | 2008-05-02 | 2009-11-19 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP2010092357A (ja) * | 2008-10-09 | 2010-04-22 | Intec Systems Institute Inc | 施設関連情報検索方法および施設関連情報検索システム |
CN101944108A (zh) * | 2010-09-07 | 2011-01-12 | 深圳市彩讯科技有限公司 | 一种索引文件及索引文件建立方法 |
CN102317929A (zh) * | 2009-02-18 | 2012-01-11 | A9.Com有限公司 | 图像匹配方法和系统 |
US8180781B2 (en) | 2008-05-28 | 2012-05-15 | Ricoh Company, Ltd. | Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents |
JP2013030089A (ja) * | 2011-07-29 | 2013-02-07 | E-Jidai:Kk | 文書検索システムおよび文書検索プログラム |
US9043349B1 (en) | 2012-11-29 | 2015-05-26 | A9.Com, Inc. | Image-based character recognition |
US9147275B1 (en) | 2012-11-19 | 2015-09-29 | A9.Com, Inc. | Approaches to text editing |
JP5792871B1 (ja) * | 2014-05-23 | 2015-10-14 | 日本電信電話株式会社 | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム |
US9342930B1 (en) | 2013-01-25 | 2016-05-17 | A9.Com, Inc. | Information aggregation for recognized locations |
US9424598B1 (en) | 2013-12-02 | 2016-08-23 | A9.Com, Inc. | Visual search in a controlled shopping environment |
US9536161B1 (en) | 2014-06-17 | 2017-01-03 | Amazon Technologies, Inc. | Visual and audio recognition for scene change events |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297594A (ja) * | 2001-04-02 | 2002-10-11 | Nippon Telegr & Teleph Corp <Ntt> | 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体 |
-
2005
- 2005-05-26 JP JP2005154374A patent/JP2006331117A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297594A (ja) * | 2001-04-02 | 2002-10-11 | Nippon Telegr & Teleph Corp <Ntt> | 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234204A (ja) * | 2007-03-19 | 2008-10-02 | Ricoh Co Ltd | 文書検索装置、文書検索方法および文書検索プログラム |
JP2009187211A (ja) * | 2008-02-05 | 2009-08-20 | Nec Corp | 情報検索システム、情報検索方法およびプログラム |
JP2009271659A (ja) * | 2008-05-02 | 2009-11-19 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
US8180781B2 (en) | 2008-05-28 | 2012-05-15 | Ricoh Company, Ltd. | Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents |
JP2010092357A (ja) * | 2008-10-09 | 2010-04-22 | Intec Systems Institute Inc | 施設関連情報検索方法および施設関連情報検索システム |
US8738647B2 (en) | 2009-02-18 | 2014-05-27 | A9.Com, Inc. | Method and system for image matching |
CN102317929A (zh) * | 2009-02-18 | 2012-01-11 | A9.Com有限公司 | 图像匹配方法和系统 |
JP2012518238A (ja) * | 2009-02-18 | 2012-08-09 | エーナイン・ドット・コム インコーポレイテッド | 画像マッチングのための方法およびシステム |
CN101944108A (zh) * | 2010-09-07 | 2011-01-12 | 深圳市彩讯科技有限公司 | 一种索引文件及索引文件建立方法 |
JP2013030089A (ja) * | 2011-07-29 | 2013-02-07 | E-Jidai:Kk | 文書検索システムおよび文書検索プログラム |
US9147275B1 (en) | 2012-11-19 | 2015-09-29 | A9.Com, Inc. | Approaches to text editing |
US9043349B1 (en) | 2012-11-29 | 2015-05-26 | A9.Com, Inc. | Image-based character recognition |
US9390340B2 (en) | 2012-11-29 | 2016-07-12 | A9.com | Image-based character recognition |
US9342930B1 (en) | 2013-01-25 | 2016-05-17 | A9.Com, Inc. | Information aggregation for recognized locations |
US9424598B1 (en) | 2013-12-02 | 2016-08-23 | A9.Com, Inc. | Visual search in a controlled shopping environment |
JP5792871B1 (ja) * | 2014-05-23 | 2015-10-14 | 日本電信電話株式会社 | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム |
US9536161B1 (en) | 2014-06-17 | 2017-01-03 | Amazon Technologies, Inc. | Visual and audio recognition for scene change events |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006331117A (ja) | 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム | |
KR101063364B1 (ko) | 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법 | |
JP5474038B2 (ja) | モバイルサイトマップ | |
US7526476B2 (en) | System and method for generating attribute-based selectable search extension | |
JP2011044170A (ja) | 異なるソースからのサーチエンジン結果を1つのサーチ結果へと混合する方法及びシステム | |
JP2006107433A (ja) | 検索結果のランク付けへのアンカーテキストの組込みシステムおよび方法 | |
JP2010033197A (ja) | 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
JP2010538386A (ja) | クエリ別検索コレクション生成方法およびシステム | |
CN106095738A (zh) | 推荐表单片段 | |
JP2006285526A (ja) | 画像データに応じた情報検索 | |
JP2006099341A (ja) | 更新履歴生成装置及びプログラム | |
JP5010624B2 (ja) | 検索装置 | |
JP2006331014A (ja) | 情報提供装置、情報提供方法及び情報提供プログラム | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
US20090030900A1 (en) | Information processing apparatus, information processing method and computer readable information recording medium | |
JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
JP2006236221A (ja) | ウエブページ検索のための管理サーバ装置 | |
JP5358481B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラム | |
JP2006185020A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2010072909A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP6034584B2 (ja) | 特許調査支援装置、特許調査支援方法、およびプログラム | |
JP6751366B2 (ja) | 情報管理システム、情報管理方法および情報管理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101026 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110301 |