JP2012128600A - 文書検索装置、文書検索方法及び文書検索プログラム - Google Patents
文書検索装置、文書検索方法及び文書検索プログラム Download PDFInfo
- Publication number
- JP2012128600A JP2012128600A JP2010278590A JP2010278590A JP2012128600A JP 2012128600 A JP2012128600 A JP 2012128600A JP 2010278590 A JP2010278590 A JP 2010278590A JP 2010278590 A JP2010278590 A JP 2010278590A JP 2012128600 A JP2012128600 A JP 2012128600A
- Authority
- JP
- Japan
- Prior art keywords
- suffix
- document
- search
- array
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】入力された複数の検索キーワードの各々の重要度を用いて、複数の文書から所望の文書を検索する文書検索装置であって、複数の文書の各々に含まれる文字列に対する接尾辞配列を構築し、接尾辞配列の各接尾辞と、各接尾辞と同じ文書に由来し、且つ、辞書順序で一つ前又は後の接尾辞と、を先頭の文字から順番に比較した場合に一致する文字の数を、各接尾辞に対応する要素とする整数配列を構築し、構築された整数配列において、入力された複数の検索キーワードの各々で始まる接尾辞に対応する要素のうち、検索キーワードの文字数より小さい値の要素の数を、当該検索キーワードを含む文書の数として算出し、算出された文書の数を用いて、当該検索キーワードの重要度を計算する。
【選択図】図4
Description
以下、本発明の第1の実施形態について説明する。
まず接尾辞配列構築手段407が、入力された文書集合データ101に基づいて、接尾辞配列データ105を構築する。具体的には、まず文書集合データ101に含まれる全文書102の全ての接尾辞を抽出する。次に、抽出された各接尾辞を辞書順にソートすることによって、ソート結果104を生成する。その後、生成されたソート結果104の中でソートされた各接尾辞の属する文書の番号及び文書内の位置に基づいて、接尾辞配列データ105を構築する。
代表シグネチャ構築手段408は、文書集合データ101及び接尾辞配列構築手段407によって構築された接尾辞配列データ105に基づいて、代表シグネチャデータ107を構築する。代表シグネチャデータ107の構築方法について図6を用いて詳細に後述する。
以下、本発明の第2の実施形態について説明する。
以下、本発明の第3の実施形態について説明する。
以下、本発明の第4の実施形態について説明する。
以下、本発明の第5の実施形態について説明する。
401 CPU(中央演算装置)
402 主記憶装置
403 補助記憶装置
404 リムーバブルメディア
405 ネットワーク
406 インターフェース部
407 接尾辞配列構築手段
408 代表シグネチャ構築手段
409 DF計算手段
410 検索手段
Claims (6)
- プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリと、を備え、複数の検索キーワードを入力し、入力された各検索キーワードの重要度を用いて、複数の文書から所望の文書を検索する文書検索装置であって、
前記プロセッサは、
前記複数の文書の各々に含まれる文字列に対する接尾辞配列を構築し、
構築された前記接尾辞配列の各接尾辞と、当該接尾辞と同じ文書に由来し、且つ、辞書順序で当該接尾辞の一つ前又は後の接尾辞と、を先頭の文字から順番に比較した場合に一致する文字の数を、当該接尾辞に対応する要素とする整数配列を構築して前記メモリに格納し、
前記メモリに格納された前記整数配列において、入力された前記複数の検索キーワードの各々で始まる接尾辞に対応する要素のうち、当該検索キーワードの文字数より小さい値の要素の数を、当該検索キーワードを含む文書の数として算出し、算出された前記文書の数を用いて、当該検索キーワードの重要度を計算することを特徴とする文書検索装置。 - 前記プロセッサは、
前記一致する文字の数が所定パラメータ値以上の値である場合、前記文字の数に代えて前記所定パラメータ値を、当該接尾辞に対応する要素とする整数配列を構築して前記メモリに格納し、
入力された前記複数の検索キーワードの各々について、
当該検索キーワードの長さが前記所定パラメータ値より小さい場合には、前記メモリに格納された前記整数配列において、当該検索キーワードで始まる接尾辞に対応する要素のうち、当該検索キーワードの文字数より小さい値の要素の数を、当該検索キーワードを含む文書の数として算出し、算出された前記文書の数を用いて、当該検索キーワードの重要度を計算し、
当該検索キーワードの長さが前記所定パラメータ値より大きい場合には、当該検索キーワードを用いた検索処理を前記複数の文書に対して実行することによって、当該検索キーワードを含む文書の数を算出し、算出された前記文書の数を用いて、当該検索キーワードの重要度を計算することを特徴とする請求項1に記載の文書検索装置。 - 前記整数配列は、前記接尾辞配列における各接尾辞に対応する文字の数を並べたウェーブレット木のデータ構造であることを特徴とする請求項1に記載の文書検索装置。
- さらに、
前記複数の文書の少なくとも一つの文書を、さらに複数の文書に分割したものを元の文書に代わる新たな文書とみなして検索する文書検索装置において、
前記整数配列の要素数と同じ数の0を含む整数配列であって、入力された前記複数の検索キーワードの各々について、前記接尾辞配列において当該検索キーワードで始まる接尾辞の範囲がc1番目からc2番目の要素であり、且つ、前記接尾辞配列においてc1番目の0とc2番目の0の要素の間にあるk+1以上の要素の値の数をxとする場合、当該検索キーワードを含む文書の数がc2-c1+1-xと一致するように別の整数配列を構築して前記メモリに格納し、
入力された前記複数の検索キーワードの各々について、それらの検索キーワードが出現するk回分割後の文書の数を算出する手段を実行し、その手段は、接尾辞配列のc1番目からc2番目の要素に対応する検索キーワードに対しては、前記メモリに格納された前記別の整数配列においてc1番目の0からc2番目0の間にあるk+1以上の値の数xを算出し、c2-c1+1-xを算出して前記文書の数を求めることを特徴とする手段であって、
前記手段により算出された前記文書の数を用いて、当該検索キーワードの重要度を計算することを特徴とする請求項1に記載の文書検索装置。 - プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリと、を備えた文書検索装置において、複数の検索キーワードを入力し、入力された各検索キーワードの重要度を用いて、複数の文書から所望の文書を検索する文書検索方法であって、
前記プロセッサが、
前記複数の文書の各々に含まれる文字列に対する接尾辞配列を構築する手順と、
構築された前記接尾辞配列の各接尾辞と、当該接尾辞と同じ文書に由来し、且つ、辞書順序で当該接尾辞の一つ前又は後の接尾辞と、を先頭の文字から順番に比較した場合に一致する文字の数を、当該接尾辞に対応する要素とする整数配列を構築して前記メモリに格納する手順と、
前記メモリに格納された前記整数配列において、入力された前記複数の検索キーワードの各々で始まる接尾辞に対応する要素のうち、当該検索キーワードの文字数より小さい値の要素の数を、当該検索キーワードを含む文書の数として算出し、算出された前記文書の数を用いて、当該検索キーワードの重要度を計算する手順と、
を含むことを特徴とする文書検索方法。 - プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリと、を備え、複数の検索キーワードを入力し、入力された各検索キーワードの重要度を用いて、複数の文書から所望の文書を検索する文書検索装置において用いられる文書検索プログラムであって、
前記複数の文書の各々に含まれる文字列に対する接尾辞配列を構築する手順と、
構築された前記接尾辞配列の各接尾辞について、当該接尾辞と、当該接尾辞と同じ文書に由来し、且つ、辞書順序で当該接尾辞の一つ前又は後の接尾辞と、を先頭の文字から順番に比較した場合に一致する文字の数を、当該接尾辞に対応する要素とする整数配列を構築して前記メモリに格納する手順と、
前記メモリに格納された前記整数配列において、入力された前記複数の検索キーワードの各々で始まる接尾辞に対応する要素のうち、当該検索キーワードの文字数より小さい値の要素の数を、当該検索キーワードを含む文書の数として算出し、算出された前記文書の数を用いて、当該検索キーワードの重要度を計算する手順と、
を前記プロセッサに実行させることを特徴とする文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010278590A JP5472929B2 (ja) | 2010-12-14 | 2010-12-14 | 文書検索装置、文書検索方法及び文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010278590A JP5472929B2 (ja) | 2010-12-14 | 2010-12-14 | 文書検索装置、文書検索方法及び文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012128600A true JP2012128600A (ja) | 2012-07-05 |
JP5472929B2 JP5472929B2 (ja) | 2014-04-16 |
Family
ID=46645561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010278590A Expired - Fee Related JP5472929B2 (ja) | 2010-12-14 | 2010-12-14 | 文書検索装置、文書検索方法及び文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5472929B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012243129A (ja) * | 2011-05-20 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話題語獲得装置、方法、及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259646A (ja) * | 1999-03-05 | 2000-09-22 | Ricoh Co Ltd | 情報索引装置 |
WO2003056460A1 (fr) * | 2001-12-27 | 2003-07-10 | Center For Advanced Science And Technology Incubation, Ltd. | Procede de calcul de la frequence d'occurrence d'une sequence, procede de calcul du degre d'isolation et procede d'estimation du degre d'adequation d'une amorce |
JP2007310746A (ja) * | 2006-05-19 | 2007-11-29 | Nagaoka Univ Of Technology | 文章更新量評価プログラム |
JP2009295097A (ja) * | 2008-06-09 | 2009-12-17 | Ricoh Co Ltd | 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体 |
-
2010
- 2010-12-14 JP JP2010278590A patent/JP5472929B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259646A (ja) * | 1999-03-05 | 2000-09-22 | Ricoh Co Ltd | 情報索引装置 |
WO2003056460A1 (fr) * | 2001-12-27 | 2003-07-10 | Center For Advanced Science And Technology Incubation, Ltd. | Procede de calcul de la frequence d'occurrence d'une sequence, procede de calcul du degre d'isolation et procede d'estimation du degre d'adequation d'une amorce |
JP2007310746A (ja) * | 2006-05-19 | 2007-11-29 | Nagaoka Univ Of Technology | 文章更新量評価プログラム |
JP2009295097A (ja) * | 2008-06-09 | 2009-12-17 | Ricoh Co Ltd | 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012243129A (ja) * | 2011-05-20 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話題語獲得装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5472929B2 (ja) | 2014-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220327137A1 (en) | Modifying field definitions to include post-processing instructions | |
JP4848317B2 (ja) | データベースのインデックス作成システム、方法及びプログラム | |
US8775410B2 (en) | Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface | |
JP5492187B2 (ja) | 編集距離および文書情報を使用する検索結果順位付け | |
Yagoubi et al. | Massively distributed time series indexing and querying | |
KR101498396B1 (ko) | 문자열 생성 방법, 프로그램 및 시스템 | |
KR20010071841A (ko) | 데이터의 검색을 위한 서치 시스템 및 방법 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
US9633059B2 (en) | Data table performance optimization | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2008083769A (ja) | 文書検索装置および文書検索方法 | |
JP4795856B2 (ja) | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR20120115005A (ko) | 효율적으로 질의를 처리하는 방법 및 장치 | |
JP5472929B2 (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
JP5374881B2 (ja) | 情報検索システム、情報検索方法およびプログラム | |
Yadav et al. | Wavelet tree based hybrid geo-textual indexing technique for geographical search | |
Truica et al. | Building an inverted index at the dbms layer for fast full text search | |
Kaporis et al. | ISB-tree: A new indexing scheme with efficient expected behaviour | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
WO2013069149A1 (ja) | データ検索装置、データの検索方法及びプログラム | |
Dang et al. | Fast forward index methods for pseudo-relevance feedback retrieval | |
JP4319827B2 (ja) | 文書検索プログラム | |
JP5416680B2 (ja) | 文書分割検索装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120322 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130607 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5472929 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |