JP2010277542A - 文書検索装置および文書検索プログラム - Google Patents
文書検索装置および文書検索プログラム Download PDFInfo
- Publication number
- JP2010277542A JP2010277542A JP2009132378A JP2009132378A JP2010277542A JP 2010277542 A JP2010277542 A JP 2010277542A JP 2009132378 A JP2009132378 A JP 2009132378A JP 2009132378 A JP2009132378 A JP 2009132378A JP 2010277542 A JP2010277542 A JP 2010277542A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- word
- search
- document
- transposed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】ユーザ端末から検索指示された語句を含む電子文書を検索するときに、単語と電子文書との関連情報を格納する語転置索引格納手段108と、複数の単語からなる句と電子文書との関連情報を格納する句転置索引格納手段107とを利用する文書検索装置であって、検索履歴情報に含まれる句を抽出し、該抽出した各句を含む電子文書を前記語転置索引格納手段108内の語転置索引を用いて検索するときの処理時間を推測する処理時間推定手段103と、前記推定手段103により推定された各句の処理時間および検索履歴情報中での出現頻度に基づいて前記句転置索引格納手段107に格納する句を決定する格納句決定手段104とを備える。
【選択図】図1
Description
1.句を構成する単語数
2.転置リストの長さの最小値
3.転置リストの長さの最大値
4.転置リスト中の文書数の最小値
5.転置リスト中の文書数の最大値
6.転置リスト中の出現位置より得た出現回数の平均値の最小値
7.転置リスト中の出現位置より得た出現回数の平均値の最大値
これら7つの統計値に対応する係数をαi(i=1,..,7)とする。
1.句を構成する単語数
2.転置リストの長さの最小値
3.転置リストの長さの最大値
4.転置リスト中の文書数の最小値
5.転置リスト中の文書数の最大値
6.転置リスト中の出現位置より得た出現回数の平均値の最小値
7.転置リスト中の出現位置より得た出現回数の平均値の最大値
これらの統計値s1,...,s7と、係数学習手段111によって学習された係数αi,...,α7を用いた回帰式によって、入力された句を語転置索引のみを用いて処理した場合にかかる処理時間を以下のように求め、出力する。
ステップS05 前記索引生成機能は、格納句決定手段104を用いて、句転置索引格納手段107に格納すべき句を決定する。
Si=Fi×Ti…(2)
ここで、上記Siの値が大きいものから順に、事前に定められた句索引の大きさを越えない範囲で格納する句とする。
101…検索履歴格納データベース
102…句・頻度抽出手段
103…処理時間推定手段
104…格納句決定手段
105…転置索引生成手段
106…文書データベース
107…句転置索引格納手段
108…語転置索引格納手段
109…検索実行手段
110…実測結果データベース
111…係数学習手段
Claims (4)
- ユーザ端末から検索指示された語句を含む電子文書を検索するときに、単語と電子文書との関連情報を格納する語転置索引格納手段と、複数の単語からなる句と電子文書との関連情報を格納する句転置索引格納手段とを利用する文書検索装置であって、
検索履歴情報に含まれる句を抽出し、該抽出した各句を含む電子文書を前記語転置索引格納手段内の語転置索引を用いて検索するときの処理時間を推測する推測手段と、
前記推測手段により推測された各句の処理時間および検索履歴情報中での出現頻度に基づいて前記句転置索引格納手段に格納する句を決定する格納句決定手段とを備えたことを特徴とする文書検索装置。 - 前記推測手段は、前記検索履歴情報から抽出した句を構成する各単語をもって前記語転置索引格納手段内の語転置索引を参照し、該各単語の転置リストを前記関連情報として取得し、該取得した各転置リストのもつ統計量を用いた回帰分析により前記処理時間を求めることを特徴とする請求項1に記載の文書検索装置。
- 前記格納句決定手段は、前記推測された処理時間および前記出現頻度を用いて各句のスコアを算出し、該スコアに従って前記格納する句を決定することを特徴とする請求項1または2に記載の文書検索装置。
- コンピュータを請求項1ないし3のいずれか1項に記載の各手段として機能させる文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009132378A JP5193952B2 (ja) | 2009-06-01 | 2009-06-01 | 文書検索装置および文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009132378A JP5193952B2 (ja) | 2009-06-01 | 2009-06-01 | 文書検索装置および文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010277542A true JP2010277542A (ja) | 2010-12-09 |
JP5193952B2 JP5193952B2 (ja) | 2013-05-08 |
Family
ID=43424410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009132378A Expired - Fee Related JP5193952B2 (ja) | 2009-06-01 | 2009-06-01 | 文書検索装置および文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5193952B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373408B2 (en) | 2014-07-25 | 2022-06-28 | Nec Corporation | Image processing apparatus, monitoring system, image processing method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0546664A (ja) * | 1991-08-20 | 1993-02-26 | Canon Inc | 文書処理装置 |
JPH06274532A (ja) * | 1993-03-19 | 1994-09-30 | Agency Of Ind Science & Technol | 負荷分散支援装置 |
JPH06325088A (ja) * | 1993-05-13 | 1994-11-25 | Fujitsu Ltd | 情報検索システム |
JP2002073681A (ja) * | 2000-08-28 | 2002-03-12 | Hitachi Ltd | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
-
2009
- 2009-06-01 JP JP2009132378A patent/JP5193952B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0546664A (ja) * | 1991-08-20 | 1993-02-26 | Canon Inc | 文書処理装置 |
JPH06274532A (ja) * | 1993-03-19 | 1994-09-30 | Agency Of Ind Science & Technol | 負荷分散支援装置 |
JPH06325088A (ja) * | 1993-05-13 | 1994-11-25 | Fujitsu Ltd | 情報検索システム |
JP2002073681A (ja) * | 2000-08-28 | 2002-03-12 | Hitachi Ltd | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
Non-Patent Citations (1)
Title |
---|
井上 孝史: "全文検索システムにおけるフレーズインデックス保持戦略", 第1回データ工学と情報マネジメントに関するフォーラム−DEIMフォーラム−論文集, JPN6013003325, 9 May 2009 (2009-05-09), JP, pages 1 - 5, ISSN: 0002440383 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373408B2 (en) | 2014-07-25 | 2022-06-28 | Nec Corporation | Image processing apparatus, monitoring system, image processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5193952B2 (ja) | 2013-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
US8539000B2 (en) | Method and system for information modeling and applications thereof | |
KR20080049804A (ko) | 클릭 간격 결정 | |
WO2007001128A1 (en) | Method and system for determining relation between search terms in the internet search system | |
US20120130981A1 (en) | Selection of atoms for search engine retrieval | |
WO2007041800A1 (en) | Information extraction system | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
US11397731B2 (en) | Method and system for interactive keyword optimization for opaque search engines | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
US7765204B2 (en) | Method of finding candidate sub-queries from longer queries | |
Zaware et al. | Text summarization using tf-idf and textrank algorithm | |
JP5915274B2 (ja) | 情報検索方法、プログラムおよび情報検索装置 | |
CN117763077A (zh) | 数据查询方法及装置 | |
US20090216739A1 (en) | Boosting extraction accuracy by handling training data bias | |
JP5193952B2 (ja) | 文書検索装置および文書検索プログラム | |
Hurtado Martín et al. | An exploratory study on content-based filtering of call for papers | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
JP6173958B2 (ja) | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 | |
CN114385777A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
Lin et al. | Predicting next search actions with search engine query logs | |
JP6634001B2 (ja) | テキスト要約装置、方法、及びプログラム | |
CN116126893B (zh) | 一种数据关联检索方法、装置及相关设备 | |
Tang et al. | A semantic textual similarity measurement model based on the syntactic-semantic representation | |
Helin et al. | High-Speed Retrieval Method for Unstructured Big Data Platform Based on K-Ary Search Tree Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5193952 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160208 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |