JP2006106907A - 構造化文書管理システム、索引構築方法及びプログラム - Google Patents
構造化文書管理システム、索引構築方法及びプログラム Download PDFInfo
- Publication number
- JP2006106907A JP2006106907A JP2004289382A JP2004289382A JP2006106907A JP 2006106907 A JP2006106907 A JP 2006106907A JP 2004289382 A JP2004289382 A JP 2004289382A JP 2004289382 A JP2004289382 A JP 2004289382A JP 2006106907 A JP2006106907 A JP 2006106907A
- Authority
- JP
- Japan
- Prior art keywords
- index
- structured document
- search
- type
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】索引構築制御部153内の索引種別決定部は、索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素に基づいて、当該要素に適した索引種別を決定する。索引構築部154は、索引種別決定部によって決定された索引種別の索引を構築して、索引格納手段としてのNグラム索引DB22、単語索引DB23またはB木索引DB24に格納する。
【選択図】 図1
Description
この技術では、文字列(値)の先頭から1文字ずつずらしながら、当該文字列を順にN文字(Nグラム)に区切り、この区切りにより生成された、それぞれN文字以下の文字列毎に索引(索引レコード)が作成される。これにより、例えばN=2で、値が“あいうえお”の場合であれば、“あ”/“あい”/“いう”/“うえ”/“えお”/“お”の6種類の索引(索引レコード)が作成される。この索引に対して、例えば“うえお”の部分文字列を含む値を検索する場合、まず索引をもとに、“うえ”と“えお”の位置を探索して、当該“うえ”と“えお”を含む文書と文書内の位置を特定し、それらが含まれる値の共通集合を検索結果の候補とする。
この技術では、値(文字列)から単語が抽出される。文字列を単語に区切る方法としては“形態素解析”が知られている。抽出された単語毎に、索引(索引レコード)が作成される。これにより、例えば“本日は晴天なり”の値に対しては、“本日”/“晴天”の2つの単語が抽出されて、それぞれ索引として作成される。この索引に対して、例えば“晴天”の部分文字列を検索する場合、まず索引をもとに“晴天”の位置を探索して、当該“晴天”を含む文書と文書内の位置を特定して検索結果の候補とする。
図1は本発明の一実施形態に係る情報検索システムの構成を示すブロック図である。この情報検索システムは、主として、データベース管理システム(Data Base Management System:DBMS)10と、構造化文書データベース(構造化文書DB)21と、Nグラム索引データベース(Nグラム索引DB)22と、単語索引データベース(単語索引DB)23と、B木(B*Tree)索引データベース(B木索引DB)24と、設定ファイル25と、索引種別辞書26と、ログファイル27とを備えている。構造化文書DB21と、Nグラム索引DB22、単語索引DB23及びB木索引DB24の各索引DBと、設定ファイル25と、索引種別辞書26と、ログファイル27とは、DBMS10からアクセス可能なデータ格納手段としての図示せぬディスクドライブ(ディスク)に置かれている。
Claims (19)
- 構造化文書格納手段に格納された構造化文書の検索を高速化するために、構造化文書の索引を構築して索引格納手段に格納する構造化文書管理システムにおいて、
索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素に基づいて、当該要素に適した索引種別を決定する索引種別決定手段と、
前記索引種別決定手段によって前記各要素毎に決定された索引種別に基づいて、当該要素に対応する当該決定された索引種別の索引を構築して前記索引格納手段に格納する索引構築手段と
を具備することを特徴とする構造化文書管理システム。 - 前記索引種別決定手段は、索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素の値の長さに基づいて、当該要素に適した索引種別を決定することを特徴とする請求項1記載の構造化文書管理システム。
- 前記索引を付与すべき各要素の値の長さを値長として計算する値長計算手段と、
前記値長計算手段によって計算された前記各要素の値長を閾値と比較する比較手段と
を更に具備し、
前記索引種別決定手段は、前記比較手段による前記各要素の値長と前記閾値との比較結果に基づいて、当該要素に適した索引種別を決定する
ことを特徴とする請求項2記載の構造化文書管理システム。 - 前記索引種別決定手段は、前記比較手段の比較結果によって前記要素の値長が前記閾値を超えていることが示されている場合、当該要素に適した索引種別として形態素解析による単語索引を決定し、前記比較手段の比較結果によって前記要素の値長が前記閾値を超えていないことが示されている場合、当該要素に適した索引種別としてNグラム索引を決定することを特徴とする請求項3記載の構造化文書管理システム。
- 前記閾値を設定するための設定手段を更に具備し、
前記比較手段は、前記各要素の値長を前記設定手段によって設定されている前記閾値と比較することを特徴とする請求項3記載の構造化文書管理システム。 - 前記構造化文書格納手段に格納された各構造化文書に含まれる各要素の値の長さの統計情報を取得する値長統計情報取得手段と、
前記値長統計情報取得手段によって取得された統計情報に基づき、前記比較手段によって用いられる前記閾値を決定する閾値決定手段と
を更に具備することを特徴とする請求項3記載の構造化文書管理システム。 - 外部から与えられる検索式を解析して検索条件を抽出し、その検索条件に合致する検索結果の候補の集合を取得する検索式処理手段と、
前記検索式処理手段によって抽出された特定の種別の検索条件に合致した構造化文書に含まれている要素の値の長さの統計情報を取得する値長統計情報取得手段と、
前記値長統計情報取得手段によって取得された統計情報に基づき、前記比較手段によって用いられる前記閾値を決定する閾値決定手段と
を更に具備することを特徴とする請求項3記載の構造化文書管理システム。 - 外部から与えられる検索式を解析して検索条件を抽出し、その検索条件に合致する検索結果の候補の集合を取得する検索式処理手段と、
前記構造化文書格納手段に格納された構造化文書に含まれる各要素毎に、当該要素に対して適用された前記検索式処理手段によって抽出された検索条件の履歴を取得する検索履歴取得手段と
を更に具備し、
前記索引種別決定手段は、索引を付与すべき、構造化文書に含まれる各要素毎に、前記検索履歴取得手段によって取得された、当該要素に対して適用された検索条件の履歴に基づいて、最も多い検索種別での検索処理に適した索引種別を決定する
ことを特徴とする請求項1記載の構造化文書管理システム。 - 外部から与えられる検索式を解析して検索条件を抽出し、その検索条件に合致する検索結果の候補の集合を取得する検索式処理手段を更に具備し、
前記索引種別決定手段は、索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素の名前から推定される種別の検索条件であって、前記検索式処理手段によって抽出されて当該要素に対して適用される可能性の最も高い種別の検索条件に基づき、当該検索条件を処理するのに適した索引種別を、当該要素に適した索引種別として決定することを特徴とする請求項1記載の構造化文書管理システム。 - 前記索引種別決定手段は、索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素の名前に基づいて、当該要素に適した索引種別を決定することを特徴とする請求項1記載の構造化文書管理システム。
- 各要素の名前毎に、当該名前に対応付けて、当該名前から推定される種別の検索条件であって、前記検索式処理手段によって抽出されて当該名前の要素に対して適用される可能性の最も高い種別の検索条件を処理するのに適した索引種別の情報を格納した索引種別格納手段を更に具備し、
前記索引種別決定手段は、索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素の名前をキーにして前記索引種別格納手段を参照することで、当該要素の名前に対応付けられている索引種別を、当該要素に適した索引種別として決定することを特徴とする請求項10記載の構造化文書管理システム。 - 外部から与えられる検索式を解析して検索条件を抽出し、その検索条件に合致する検索結果の候補の集合を取得する検索式処理手段と、
前記構造化文書格納手段に格納される構造化文書の、当該構造化文書に含まれる要素の値のデータ型を含む構造を指定するためのスキーマ指定手段と
を更に具備し、
前記索引種別決定手段は、索引を付与すべき、構造化文書に含まれる各要素のうち、前記スキーマ指定手段によって指定されている要素について、当該スキーマ指定手段によって指定されているデータ型に基づいて、当該要素に適した索引種別を決定する
ことを特徴とする請求項1記載の構造化文書管理システム。 - 前記索引種別決定手段は、Nグラム索引及び形態素解析による単語索引を含む複数の索引種別から索引種別を決定し、
前記索引構築手段は、前記索引種別決定手段によって前記索引種別として前記単語索引が決定された場合、当該単語索引を構築するために対応する要素の値を形態素解析し、その解析結果に複数通りの解釈を持つ表記が含まれる場合、単語索引に代えて、Nグラム索引を構築する
ことを特徴とする請求項1に記載の構造化文書管理システム。 - 前記索引種別決定手段は、Nグラム索引及び形態素解析による単語索引を含む複数の索引種別から索引種別を決定し、
前記索引構築手段は、前記索引種別決定手段によって前記索引種別として前記単語索引が決定された場合、当該単語索引を構築するために対応する要素の値を形態素解析し、その解析結果に複数通りの解釈を持つ表記が含まれる場合、当該複数通りの解釈を持つ表記の各々を単語索引とする
ことを特徴とする請求項1に記載の構造化文書管理システム。 - 前記索引種別決定手段は、Nグラム索引及び形態素解析による単語索引を含む複数の索引種別から索引種別を決定し、
前記索引構築手段は、前記索引種別決定手段によって前記索引種別として前記単語索引が決定された場合、当該単語索引を構築するために対応する要素の値を形態素解析し、その解析結果に、意味は同じであるが表記が異なる単語が含まれている場合、いずれかの表記に統一して単語索引とする
ことを特徴とする請求項1に記載の構造化文書管理システム。 - 構造化文書格納手段に格納された構造化文書の検索を高速化するために、構造化文書の索引を構築して索引格納手段に格納する構造化文書管理システムにおいて、
外部から与えられる検索式を解析して検索条件を抽出し、その検索条件に合致する検索結果の候補の集合を取得する検索式処理手段と、
索引を付与すべき、構造化文書に含まれる各要素毎に、索引種別の異なる複数の索引を構築して前記索引格納手段に格納する索引構築手段と、
前記検索式処理手段によって抽出された検索条件を処理するのに適した索引を、対象となる要素に対して前記索引構築手段によって構築されている索引種別の異なる複数の索引の中から、当該検索条件の種別に基づいて選択する索引選択手段と
を具備することを特徴とする構造化文書管理システム。 - 構造化文書格納手段に格納された構造化文書の検索を高速化するために、構造化文書の索引を構築して索引格納手段に格納する索引構築方法において、
索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素に基づいて、当該要素に適した索引種別を決定するステップと、
前記各要素毎に決定された索引種別に基づいて、当該要素に対応する当該決定された索引種別の索引を構築して前記索引格納手段に格納するステップと
を具備することを特徴とする索引構築方法。 - 前記索引を付与すべき各要素の値の長さを値長として計算するステップと、
前記計算された前記各要素の値長を閾値と比較するステップとを更に具備し、
前記各要素の値長と前記閾値との比較結果に基づいて、当該要素に適した索引種別が決定されるようにしたことを特徴とする請求項17記載の索引構築方法。 - 構造化文書格納手段に格納された構造化文書の検索を高速化するために、構造化文書の索引を構築して索引格納手段に格納する索引構築処理が実行されるプログラムであって、
計算機に、
索引を付与すべき、構造化文書に含まれる各要素毎に、当該要素に基づいて、当該要素に適した索引種別を決定するステップと、
前記各要素毎に決定された索引種別に基づいて、当該要素に対応する当該決定された索引種別の索引を構築して前記索引格納手段に格納するステップと
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289382A JP4091586B2 (ja) | 2004-09-30 | 2004-09-30 | 構造化文書管理システム、索引構築方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289382A JP4091586B2 (ja) | 2004-09-30 | 2004-09-30 | 構造化文書管理システム、索引構築方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007272912A Division JP4160627B2 (ja) | 2007-10-19 | 2007-10-19 | 構造化文書管理システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006106907A true JP2006106907A (ja) | 2006-04-20 |
JP4091586B2 JP4091586B2 (ja) | 2008-05-28 |
Family
ID=36376607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004289382A Expired - Fee Related JP4091586B2 (ja) | 2004-09-30 | 2004-09-30 | 構造化文書管理システム、索引構築方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4091586B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316788A (ja) * | 2006-05-24 | 2007-12-06 | Sky Kk | 文書検索方法および文書検索装置 |
JP2009129176A (ja) * | 2007-11-22 | 2009-06-11 | Toshiba Corp | 構造化文書検索装置、方法およびプログラム |
JP2009129202A (ja) * | 2007-11-22 | 2009-06-11 | Ntt Data Corp | データ処理装置、データ処理方法、および、プログラム |
US8930372B2 (en) | 2008-02-27 | 2015-01-06 | International Business Machines Corporation | Search engine, search system, search method, and search program product |
KR101744017B1 (ko) | 2016-03-11 | 2017-06-07 | 주식회사 지앤클라우드 | 실시간 검색을 위한 데이터 인덱싱 방법 및 장치 |
-
2004
- 2004-09-30 JP JP2004289382A patent/JP4091586B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316788A (ja) * | 2006-05-24 | 2007-12-06 | Sky Kk | 文書検索方法および文書検索装置 |
JP4513781B2 (ja) * | 2006-05-24 | 2010-07-28 | Sky株式会社 | 文書検索方法および文書検索装置 |
JP2009129176A (ja) * | 2007-11-22 | 2009-06-11 | Toshiba Corp | 構造化文書検索装置、方法およびプログラム |
JP2009129202A (ja) * | 2007-11-22 | 2009-06-11 | Ntt Data Corp | データ処理装置、データ処理方法、および、プログラム |
US8930372B2 (en) | 2008-02-27 | 2015-01-06 | International Business Machines Corporation | Search engine, search system, search method, and search program product |
KR101744017B1 (ko) | 2016-03-11 | 2017-06-07 | 주식회사 지앤클라우드 | 실시간 검색을 위한 데이터 인덱싱 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP4091586B2 (ja) | 2008-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8301437B2 (en) | Tokenization platform | |
JP5492187B2 (ja) | 編集距離および文書情報を使用する検索結果順位付け | |
JP4237813B2 (ja) | 構造化文書管理システム | |
US20070016602A1 (en) | Method and apparatus for representation of unstructured data | |
US20070174261A1 (en) | Database retrieval apparatus, retrieval method, storage medium, and progam | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
US20210011965A1 (en) | System and method for searching based on text blocks and associated search operators | |
US8423885B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
JPH11110415A (ja) | 情報検索方法,情報検索システムおよび一組の文書から情報を検索するための命令を記録したコンピュータ読み取り可能な記録媒体 | |
US20110113052A1 (en) | Query result iteration for multiple queries | |
US20080005077A1 (en) | Encoded version columns optimized for current version access | |
US20120124060A1 (en) | Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set | |
US8229970B2 (en) | Efficient storage and retrieval of posting lists | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JP4439496B2 (ja) | 検索処理装置及びプログラム | |
JP4160627B2 (ja) | 構造化文書管理システム及びプログラム | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
KR20040039691A (ko) | 정보 검색 시스템의 인덱싱 방법 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP2008198236A (ja) | 構造化文書管理システム | |
JPH08190571A (ja) | 文書検索方法 | |
JP5906810B2 (ja) | 全文検索装置、プログラム及び記録媒体 | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP4206266B2 (ja) | 全文検索装置、処理方法、処理プログラム及び記録媒体 | |
US20050102278A1 (en) | Expanded search keywords |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080228 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110307 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120307 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130307 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140307 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |