JP2009140302A - 転置インデックス作成装置及びフォワードインデックス作成装置 - Google Patents
転置インデックス作成装置及びフォワードインデックス作成装置 Download PDFInfo
- Publication number
- JP2009140302A JP2009140302A JP2007316916A JP2007316916A JP2009140302A JP 2009140302 A JP2009140302 A JP 2009140302A JP 2007316916 A JP2007316916 A JP 2007316916A JP 2007316916 A JP2007316916 A JP 2007316916A JP 2009140302 A JP2009140302 A JP 2009140302A
- Authority
- JP
- Japan
- Prior art keywords
- index
- partial
- document
- inverted
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】部分転置インデックスを補助記憶装置に書き出す際に、索引語のハッシュ値の順に書き出す。そして、部分転置インデックスを全体の転置インデックスに統合する際に、ハッシュ表を逐次作成する。一方、部分的なフォワードインデックスを補助記憶装置に書き出す際に、索引語をハッシュ値の順に与えた仮の索引語識別番号によって表現し、仮の索引語識別番号を最終的な索引語識別番号に変換するための表を作成して、この表を用いて索引語識別番号を変換しつつ部分的なフォワードインデックスを統合して最終的なフォワードインデックスとする。
【選択図】図7
Description
2.ハッシュ値が同一の索引語は、辞書順で先のものを先に出力する。
本明細書では以下、この順序をhash-lex順と呼ぶ。
102: 転置インデックス
103: 索引語
104: 検索対象文書
105: 文書識別番号
106: 転置リスト
201: フォワードインデックス
202: 全文書の集合に対応するフォワードインデックスにおける、索引語識別番号
301: 部分転置インデックス
501: 部分フォワードインデックス
502: 部分フォワードインデックスにおける仮の索引語識別番号
601: 中央演算装置(CPU)
602: メモリ(主記憶装置)
603: 補助記憶装置
604: ネットワーク
605: ユーザ端末
606: オンメモリ転置インデックス
607: オンメモリフォワードインデックス
708: ある検索対象文書に含まれる索引語の、オンメモリフォワードインデックス用索引語番号の集合
1001: 部分転置インデックス統合手段において、処理対象となっている索引語の例
1002: 検索対象文書集合の全索引語を含むハッシュ表
1003: 部分転置インデックス統合手段において、処理対象となっている転置リスト内の文書識別番号
1301: 部分転置インデックス統合手段において、処理中の索引語も含め、それまでに処理をした全ての索引語の数
1302: 部分転置インデックス統合手段において、処理中の索引語も含め、それまでに処理をした、対応する部分転置インデックス中の索引語の数
1303: 部分フォワードインデックス統合手段において、部分フォワードインデックスにおける仮の索引語識別番号を最終的な索引語識別番号に変換するための対応表
Claims (7)
- 主記憶装置と、
補助記憶装置と、
複数の文書を含む文書集合中の個々の文書から、単語あるいは連続する複数の文字からなる文字列のいずれかを、索引語として切り出す索引語切り出し手段と、
前記文書集合中の各文書に、それぞれ異なる文書識別番号を割り当てる文書識別番号割当手段と、
前記文章集合中の一部の文書群に対して、当該文書群に出現する索引語に対するハッシュ表を作成すると共に、当該ハッシュ表を用いて前記主記憶装置上に、各索引語を含む文書の文書識別番号のリストである転置リストからなるオンメモリ転置インデックスを構築する手段と、
前記オンメモリ転置インデックスを、部分転置インデックスとして前記補助記憶装置に書き出す部分転置インデックス書出手段と、
前記補助記憶装置に記憶された複数の部分転置インデックスを1つの転置インデックスに統合する部分転置インデックス統合手段とを有し、
前記部分転置インデックス書出手段は、索引語のハッシュ値の順に、各索引語の転置リストを格納した部分転置インデックスを前記補助記憶装置に書き出し、
前記部分転置インデックス統合手段は、索引語のハッシュ値の順に、前記複数の部分転置インデックス中の各索引語の転置リストを統合し、全索引語についての転置インデックスを作成することを特徴とする転置インデックス作成装置。 - 請求項1記載の転置インデックス作成装置において、前記部分転置インデックス書出手段は、同一ハッシュ値の索引語が複数存在するとき、それらの索引語の転置リストを、事前に与えられた索引語間の全順序(total order)に従い前記部分転置インデックスに格納することを特徴とする転置インデックス作成装置。
- 請求項2記載の転置インデックス作成装置において、全順序として索引語の辞書順を用いることを特徴とする転置インデックス作成装置。
- 請求項1記載の転置インデックス作成装置において、前記部分転置インデックスを前記全索引語についての転置インデックスに統合する際に、現れる索引語をハッシュ値の順に逐次追記することにより、全索引語のハッシュ表を生成することを特徴とする転置インデックス作成装置。
- 主記憶装置と、
補助記憶装置と、
複数の文書を含む文書集合中の個々の文書から、単語あるいは連続する複数の文字からなる文字列のいずれかを、索引語として切り出す索引語切り出し手段と、
前記文書集合中の各文書に、それぞれ異なる文書識別番号を割り当てる文書識別番号割当手段と、
前記文章集合中の一部の文書群に対して、当該文書群に出現する索引語に対するハッシュ表を作成すると共に、出現順に各索引語に索引語識別番号を割り当てながら、前記主記憶装置上に、前記文書群の文書識別番号とその文書識別番号の文書に出現する索引語識別番号のリストからなるオンメモリのフォワードインデックスを構築する手段と、
前記オンメモリのフォワードインデックスを、部分フォワードインデックスとして前記補助記憶装置に書き出す部分フォワードインデックス書出手段と、
前記補助記憶装置に記憶された複数の部分フォワードインデックスを1つのフォワードインデックスに統合する部分フォワードインデックス統合手段とを有し、
前記部分フォワードインデックス書出手段は、前記部分フォワードインデックス中の前記索引語識別番号を前記ハッシュ表に格納されたハッシュ値順の仮の索引語識別番号に変換して前記補助記憶装置に書き出し、
前記部分フォワードインデックス統合手段は、複数の部分フォワードインデックスで用いられている個々の仮の索引語識別番号を全文書集合のフォワードインデックスでのハッシュ値順の索引語識別番号に変換するための変換表を作成し、当該変換表を使用して部分フォワードインデックス内での索引語識別番号を全文書集合のフォワードインデックスでの索引語識別番号に変換することを特徴とするフォワードインデックス作成装置。 - 請求項5記載のフォワードインデックス作成装置において、同一ハッシュ値の索引語が複数存在する場合には、それらの索引語の索引語識別番号を、事前に与えられた索引語間の全順序(total order)に従い決定することを特徴とするフォワードインデックス作成装置。
- 請求項6記載のフォワードインデックス作成装置において、全順序として索引語の辞書順を用いることを特徴とするフォワードインデックス作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007316916A JP5207721B2 (ja) | 2007-12-07 | 2007-12-07 | 転置インデックス作成装置及びフォワードインデックス作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007316916A JP5207721B2 (ja) | 2007-12-07 | 2007-12-07 | 転置インデックス作成装置及びフォワードインデックス作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009140302A true JP2009140302A (ja) | 2009-06-25 |
JP5207721B2 JP5207721B2 (ja) | 2013-06-12 |
Family
ID=40870833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007316916A Active JP5207721B2 (ja) | 2007-12-07 | 2007-12-07 | 転置インデックス作成装置及びフォワードインデックス作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5207721B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011215835A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | 全文検索機能を備えるストレージ装置 |
WO2012120560A1 (ja) * | 2011-03-07 | 2012-09-13 | 株式会社日立製作所 | 検索装置及び検索方法 |
KR20170050347A (ko) * | 2015-10-30 | 2017-05-11 | 삼성에스디에스 주식회사 | 검색 엔진을 이용한 타임라인 관리 방법 및 그 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0991303A (ja) * | 1995-09-22 | 1997-04-04 | Fujitsu Ltd | データ管理装置 |
JP2000250921A (ja) * | 1999-02-26 | 2000-09-14 | Hitachi Ltd | データベースの管理方法およびシステム |
-
2007
- 2007-12-07 JP JP2007316916A patent/JP5207721B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0991303A (ja) * | 1995-09-22 | 1997-04-04 | Fujitsu Ltd | データ管理装置 |
JP2000250921A (ja) * | 1999-02-26 | 2000-09-14 | Hitachi Ltd | データベースの管理方法およびシステム |
Non-Patent Citations (3)
Title |
---|
CSNJ200710055186; 安田 知弘 他: '連想検索エンジンのスケーラビリティおよび障害耐性の向上' 情報処理学会 第69回(平成19年)全国大会講演論文集(1) アーキテクチャ ソフトウェア科学・工学 , 20070306, pp.1-383〜1-384, 社団法人情報処理学会 * |
JPN6012023671; Heinz, Steffen; Zobel, Justin: 'Efficient single-pass index construction for text databases' Journal of the American Society for Information Science and Technology 第54巻,第8号, 20030630, p.713-729, Wiley Periodicals Inc. * |
JPN6013004193; 安田 知弘 他: '連想検索エンジンのスケーラビリティおよび障害耐性の向上' 情報処理学会 第69回(平成19年)全国大会講演論文集(1) アーキテクチャ ソフトウェア科学・工学 , 20070306, pp.1-383〜1-384, 社団法人情報処理学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011215835A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | 全文検索機能を備えるストレージ装置 |
US8321421B2 (en) | 2010-03-31 | 2012-11-27 | Kabushiki Kaisha Toshiba | Storage device having full-text search function |
US8682902B2 (en) | 2010-03-31 | 2014-03-25 | Kabushiki Kaisha Toshiba | Storage device having full-text search function |
WO2012120560A1 (ja) * | 2011-03-07 | 2012-09-13 | 株式会社日立製作所 | 検索装置及び検索方法 |
KR20170050347A (ko) * | 2015-10-30 | 2017-05-11 | 삼성에스디에스 주식회사 | 검색 엔진을 이용한 타임라인 관리 방법 및 그 장치 |
KR102347887B1 (ko) | 2015-10-30 | 2022-01-05 | 삼성에스디에스 주식회사 | 검색 엔진을 이용한 타임라인 관리 방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP5207721B2 (ja) | 2013-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Multi-document summarization via the minimum dominating set | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
Korenius et al. | Stemming and lemmatization in the clustering of finnish text documents | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
US8321485B2 (en) | Device and method for constructing inverted indexes | |
JP5615476B2 (ja) | 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 | |
US20210182328A1 (en) | System and method for hierarchically organizing documents based on document portions | |
US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
KR101828995B1 (ko) | 키워드 클러스터링 방법 및 장치 | |
CN103154939A (zh) | 使用依存丛林的统计机器翻译方法 | |
CN109885641B (zh) | 一种数据库中文全文检索的方法及系统 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Jain et al. | Context sensitive text summarization using k means clustering algorithm | |
CN105224624A (zh) | 一种实现倒排链快速归并的方法和装置 | |
JP5207721B2 (ja) | 転置インデックス作成装置及びフォワードインデックス作成装置 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
JP2010198425A (ja) | 文書管理方法、装置 | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP5380566B2 (ja) | 言語処理装置、プログラムおよび方法 | |
JP5346156B2 (ja) | プログラム、転置インデックスの格納方法及び検索方法 | |
JP2009048351A (ja) | 情報検索装置、情報検索方法および情報検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5207721 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |