JP2005018811A - 文字列検索装置 - Google Patents
文字列検索装置 Download PDFInfo
- Publication number
- JP2005018811A JP2005018811A JP2004297429A JP2004297429A JP2005018811A JP 2005018811 A JP2005018811 A JP 2005018811A JP 2004297429 A JP2004297429 A JP 2004297429A JP 2004297429 A JP2004297429 A JP 2004297429A JP 2005018811 A JP2005018811 A JP 2005018811A
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- index
- name
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】構造化文書を扱う文書管理システムにおいて、論理構造位置を特定するための情報を、最上位階層から順にタグ名を連ねて記述したパス名称と、パス名称の各階層の出現順序を連ねて記述したパス階層で管理することにより、様々な構造化文書検索を実現することができる。
【選択図】図4
Description
図1は本発明の実施の形態1における構造化文書管理装置の構成図である。図1に示す構造化文書管理装置は、端末101、構造化文書入力手段102、検索条件入力手段103、結果表示手段104、検索エンジン105、データ格納部106からなる。
以下、本発明の実施の形態2について説明する。図16は実施の形態2における構造化文書管理装置の構成図である。実施の形態1の構成図である図1と異なるのは、データ格納部106にパス名称ID照合テーブル格納手段1601、パス階層ID照合テーブル格納手段1602を新たに備えているところである。またそれに伴い、検索条件解析手段110、および構造照合手段112の処理が実施の形態1とは異なる。
以下、本発明の実施の形態3について説明する。実施の形態3における構造化文書管理装置の構成図は実施の形態1における図1、もしくは実施の形態2における図16と同様である。ただし、文字列索引作成手段109における文字列索引の作成方法が実施の形態1および実施の形態2とは若干異なり、それに伴い文字列索引検索手段111と構造照合手段112における処理が実施の形態1および実施の形態2とは異なる。
以下、本発明の実施の形態4について説明する。図25は実施の形態4における構造化文書管理装置の構成図である。実施の形態1の構成図である図1と異なるのは、検索エンジン105に数値型索引作成手段2401と数値型索引検索手段2402を、データ格納部106に数値型設定格納手段2403と数値型索引格納手段2404を新たに備えているところである。
以下、本発明の実施の形態5について説明する。図29は実施の形態5における構造化文書管理装置の構成図である。
102 構造化文書入力手段
103 検索条件入力手段
104 結果表示手段
105 検索エンジン
106 データ格納部
107 構造解析手段
108 構造情報作成手段
109 文字列索引作成手段
110 検索条件解析手段
111 文字列索引検索手段
112 構造照合手段
113 結果作成手段
114 構造解析済みデータ格納手段
115 要素管理テーブル格納手段
116 パス名称インデックス格納手段
117 パス階層インデックス格納手段
118 名称IDテーブル格納手段
119 文字列索引格納手段
120 実体データ格納手段
121 一覧データ格納手段
1601 パス名称ID照合テーブル格納手段
1602 パス階層ID照合テーブル格納手段
2401 数値型索引作成手段
2402 数値型索引検索手段
2403 数値型設定格納手段
2404 数値型索引格納手段
3001 構造化文書登録部
3002 文字列索引作成部
3003 文字列検索部
3004 結果表示部
Claims (14)
- 各要素実体内部にさらにタグに囲まれた要素実体(子要素)を含む構造化文書の索引作成において、各要素実体から所定の文字数で取り出した文字列が前記タグにまたがる場合は、該子要素を識別する独自の検索単位識別子を取得し、該文字列と該文字列の各文字の属する要素実体を識別する検索単位識別子と前記タグを取り除いた要素実体内での該文字列の位置を示す文字位置識別子とから成る検索用文字列索引を生成することを特徴とする文字列索引作成装置。
- 予め数値であることを定義しているタグに囲まれた文字列を含む構造化文書の索引作成において、該タグに囲まれた文字列を識別する独自の検索単位識別子を取得し、該タグに囲まれた文字列を数値データに変換し、前記検索単位識別子と前記数値データとを対応付けた数値型索引を作成する数値型索引作成手段を有していることを特徴とする請求項1記載の文字列索引作成装置。
- 所定の条件に該当する文字列を検索する場合において、タグ名を識別する名称IDと、各要素実体に至るタグ名を階層順に連ねたパス名称を識別するパス名称IDと、同一の親ノードを持ち同一な名称を持つタグの同一階層内での出現順序を階層順に連ねたパス階層を識別するパス階層IDと、各要素実体を識別する検索単位識別子と、前記検索単位識別子から前記名称IDを特定するために、少なくとも前記検索単位識別子と関係する前記名称IDを対応付けた要素管理テーブルまたは、前記検索単位識別子から前記パス名称IDと前記パス階層IDを特定するために、少なくとも前記検索単位識別子と関係する前記パス名称ID及びパス階層IDを対応付けた要素管理テーブルの少なくともいずれか一方を記憶するデータ格納部と、検索条件の入力を行う検索条件入力手段と、前記検索条件入力手段で入力された検索条件から検索条件に該当する前記名称ID、前記パス名称ID、前記パス階層IDの少なくともいずれか1つ(ID1)を特定する検索条件解析手段と、検索条件に該当する文字列を有する前記検索単位識別子を求める文字列索引検索手段と、前記文字列索引検索手段で特定した検索単位識別子を基に前記要素管理テーブルを参照して対応する名称ID、パス名称ID、パス階層IDの少なくともいずれか1つ(ID2)を求め、前記ID2と前記検索条件解析手段により求めたID1とが一致する検索単位識別子のみを抽出する構造照合手段を備えた文字列検索装置。
- 予め数値であることを定義しているタグに囲まれた文字列を含む構造化文書の数値範囲検索において、前記タグに囲まれた文字列を識別する独自の検索単位識別子と前記タグに囲まれた文字列を数値に変換した数値データとを対応付けた数値型索引を参照し、検索条件に該当する前記検索単位識別子を抽出する数値型索引検索手段を有することを特徴とする請求項3記載の文字列検索装置。
- 要素実体内部にさらにタグに囲まれた要素実体(子要素)を有する構造化文書の文字索引の生成方法について、構造解析済みデータを読み込むステップと、要素実体を有するか否かをチェックするステップと、要素実体を識別するための検索単位識別子を取得するステップと、前記子要素を含むか否かを調べるステップと、該子要素を識別する検索単位識別子を取得するステップと、要素実体から1以上の所定文字数を単位とする文字列を取り出すステップと、記文字列の各文字の属する検索単位識別子を求めるステップと、該文字列及び該文字列の各文字の属する前記検索単位識別子及び前記タグを取り除いた要素実体内での当該文字列の位置を示す文字位置識別子を有する検索文字列索引を生成するステップとを有するプログラムを記録した可搬型媒体。
- 構造化文書の数値検索用索引生成方法について、構造解析済みデータを読み込むステップと、予め数値であることを定義しているタグに囲まれた文字列であるか否かを判断するステップと、数値であることを定義したタグに囲まれた文字列を識別するための検索単位識別子を取得するステップと、該文字列を数値に変換するステップと、前記検索単位識別子と前記変換された数値とからなる数値型索引を生成するステップを有するプログラムを記録した可搬型媒体。
- 構造化文書の検索方法について、検索条件を読み込むステップと、前記検索条件に該当するタグ名を識別する名称ID又は、各要素実体に至るタグ名を階層順に連ねたパス名称を識別するパス名称ID又は、同一の親ノードを持ち同一な名称を持つタグの同一階層内での出現順序を階層順に連ねたパス階層を識別するパス階層IDの少なくともいずれか1つのID(以下、ID1)に変換するステップと、検索条件に該当する文字列を有する各要素実体を識別する検索単位識別子(以下、ID2)を特定するステップと、前記ID2から前記名称ID、前記パス名称ID、前記パス階層IDを特定するために、少なくとも前記ID2と関係する前記名称ID、前記パス名称ID、前記パス階層IDを対応付けた要素管理テーブルを参照し、前記ID2に対応する前記名称ID、前記パス名称ID、前記パス階層IDの少なくともいずれか1つのID(以下、ID3)を求めるステップと、前記ID1と前記ID3とが一致する前記検索単位識別子のみを抽出するステップを有するプログラムを記録した可搬型媒体。
- 中間ノード以下を検索範囲に指定した場合における検索範囲に含まれるノードを決定する方法について、各要素実体に至るタグ名を階層順に連ねたパス名称を識別するパス名称又は、同一の親ノードを持ち同一な名称を持つタグの同一階層内での出現順序を階層順に連ねたパス階層を、1階層登り、現在位置するノードが指定した中間ノードと一致するか又は、既に検索範囲に含まれていると判定されているノードであるかを判断し、前記いずれかの条件に該当するノードである場合はそれまでたどったノード全てを検索範囲に含まれると判定し、現在位置するノードが指定した中間ノードと一致しないか又は、既に検索範囲外と判定されているノードであるかを判断し、前記いずれかの条件に該当するノードである場合はそれまでたどったノード全てを検索範囲外であると判定する処理を、最下層ノードを起点として1階層登る毎に実行し、最上位層のノードに至るまで繰り返し実行することにより検索範囲を特定する方法。
- 各要素実体内部にさらにタグに囲まれた要素実体(子要素)を含む構造化文書の索引を作成するために汎用計算機を、各要素実体から所定の文字数で取り出した文字列が前記タグにまたがる場合は、該子要素を識別する独自の検索単位識別子を取得し、該文字列と該文字列の各文字の属する要素実体を識別する検索単位識別子と前記タグを取り除いた要素実体内での該文字列の位置を示す文字位置識別子とから成る検索用文字列索引を生成する文字列索引作成手段として機能させるための文字索引作成プログラム。
- 予め数値であることを定義しているタグに囲まれた文字列を含む構造化文書の索引を作成するために汎用計算機を、該タグに囲まれた文字列を識別する独自の検索単位識別子を取得し、該タグに囲まれた文字列を数値データに変換し、前記検索単位識別子と前記数値データとを対応付けた数値型索引を作成する数値型索引作成手段として機能させるための文字列索引作成プログラム。
- 木構造で表現されるデータにおいて所定のノード以下を検索範囲に指定した場合に、検索範囲に含まれるノードを特定するプログラムであって、
各ノードが検索範囲に含まれるか否かを示す照合フラグを格納する照合テーブルを初期化する第一のステップ、参照しているノードが検索範囲内か否か又は未定であるかを、照合テーブルをもとに判断する第二のステップ、第二のステップにより検索範囲内と判断した場合は、参照しているノードについて検索範囲内を示す照合フラグを照合テーブルに設定する第三のステップ、第二のステップにより検索範囲外と判断した場合は、参照しているノードについて検索範囲外を示す照合フラグを照合テーブルに設定する第四のステップ、第二のステップにより未定と判断した場合であって、さらに参照しているノードが指定したノードと一致する場合又は、既に検索範囲内である場合は、それまでたどった全てのノードについて検索範囲内を示す照合フラグを照合テーブルに設定する第五のステップ、第二のステップにより未定と判断した場合であって、さらに参照しているノードが既に検索範囲外である場合は、それまでたどった全てのノードについて範囲外を示す照合フラグを照合テーブルに設定する第六のステップ、第五のステップまたは第六のステップのいずれにも該当しない場合は、現在参照しているノードから1階層上る第七のステップ、前記第七のステップにより1階層上ったノードがルートノードである場合は、それまでたどった全てのノードについて検索範囲外を示す照合フラグを照合テーブルに設定する第八のステップ、前記第七のステップにより1階層上ったノードがルートノード以外である場合は、前記第五のステップへ戻る第八のステップ、とから構成されることにより、検索範囲を特定するプログラム。 - 木構造で表現可能なデータ構造を有するデータを管理するデータ管理装置であって、データの実体要素の特定は、前記木構造において同一の親ノードを持ち同一な名称を持つタグの出現順序を階層別に連ねたパス階層を格納する手段を用いることを特徴とするデータ管理装置。
- 木構造で表現されたデータのタグ名を階層別に連ねたパス名称を格納する手段をさらに備え、前記木構造におけるデータの実体要素を一意に特定するために前記パス階層を格納する手段と、前記パス名称を格納する手段とを用いることを特徴とする請求項12記載のデータ管理装置。
- 同一親ノードを持ち同一のタグ名称を有する実体要素が複数存在する場合、前記パス名称は同一に表現されることを特徴とする請求項13記載のデータ管理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004297429A JP3709890B2 (ja) | 2000-10-25 | 2004-10-12 | 文字列検索装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000325286 | 2000-10-25 | ||
JP2004297429A JP3709890B2 (ja) | 2000-10-25 | 2004-10-12 | 文字列検索装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001291628A Division JP3632643B2 (ja) | 2000-10-25 | 2001-09-25 | 構造化文書管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005018811A true JP2005018811A (ja) | 2005-01-20 |
JP3709890B2 JP3709890B2 (ja) | 2005-10-26 |
Family
ID=34196413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004297429A Expired - Fee Related JP3709890B2 (ja) | 2000-10-25 | 2004-10-12 | 文字列検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3709890B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100462973C (zh) * | 2006-11-23 | 2009-02-18 | 金蝶软件(中国)有限公司 | Xml文件预处理方法、装置、读取方法和装置 |
JP2009271819A (ja) * | 2008-05-09 | 2009-11-19 | Nec Corp | 文書検索システム、文書検索方法および文書検索プログラム |
US9454597B2 (en) | 2007-11-15 | 2016-09-27 | Nec Corporation | Document management and retrieval system and document management and retrieval method |
CN113609352A (zh) * | 2021-08-03 | 2021-11-05 | 北京恒安嘉新安全技术有限公司 | 字符串检索方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207409A (ja) * | 1999-01-14 | 2000-07-28 | Matsushita Electric Ind Co Ltd | 構造化文書管理装置及び構造化文書検索方法 |
JP2000250930A (ja) * | 1999-03-01 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 構造化文書検索システム |
-
2004
- 2004-10-12 JP JP2004297429A patent/JP3709890B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207409A (ja) * | 1999-01-14 | 2000-07-28 | Matsushita Electric Ind Co Ltd | 構造化文書管理装置及び構造化文書検索方法 |
JP2000250930A (ja) * | 1999-03-01 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 構造化文書検索システム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100462973C (zh) * | 2006-11-23 | 2009-02-18 | 金蝶软件(中国)有限公司 | Xml文件预处理方法、装置、读取方法和装置 |
US9454597B2 (en) | 2007-11-15 | 2016-09-27 | Nec Corporation | Document management and retrieval system and document management and retrieval method |
JP2009271819A (ja) * | 2008-05-09 | 2009-11-19 | Nec Corp | 文書検索システム、文書検索方法および文書検索プログラム |
CN113609352A (zh) * | 2021-08-03 | 2021-11-05 | 北京恒安嘉新安全技术有限公司 | 字符串检索方法、装置、计算机设备及存储介质 |
CN113609352B (zh) * | 2021-08-03 | 2023-08-04 | 北京恒安嘉新安全技术有限公司 | 字符串检索方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3709890B2 (ja) | 2005-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4656868B2 (ja) | 構造化文書作成装置 | |
JP4189416B2 (ja) | 構造化文書管理システム及びプログラム | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
US8112401B2 (en) | Analyzing externally generated documents in document management system | |
US7519903B2 (en) | Converting a structured document using a hash value, and generating a new text element for a tree structure | |
US7962474B2 (en) | Parent-child query indexing for XML databases | |
US6510425B1 (en) | Document search method for registering documents, generating a structure index with elements having position of occurrence in documents represented by meta-nodes | |
US7707139B2 (en) | Method and apparatus for searching and displaying structured document | |
US7069504B2 (en) | Conversion processing for XML to XML document transformation | |
KR100638695B1 (ko) | 구조화 문서의 데이터를 검색하는 장치 및 방법 | |
JP4997749B2 (ja) | 文書処理方法、プログラム及びシステム | |
JP4247135B2 (ja) | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 | |
WO2008041366A1 (fr) | Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document | |
JP2005190163A (ja) | 構造化データ検索方法、構造化データ検索装置およびプログラム | |
JP3832693B2 (ja) | 構造化文書検索表示方法及び装置 | |
JP3632643B2 (ja) | 構造化文書管理装置 | |
JP2693914B2 (ja) | 検索システム | |
JP3709890B2 (ja) | 文字列検索装置 | |
JP2000348038A (ja) | 半構造データベースのためのデータ格納装置および方法 | |
JP2003281149A (ja) | アクセス権限設定方法および構造化文書管理システム | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
JP2000003366A (ja) | 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 | |
JP2000250930A (ja) | 構造化文書検索システム | |
KR20100034868A (ko) | 구조계산서 텍스트 정보의 계층 구조 추출 방법 | |
JP2001134596A (ja) | 構造化文書管理装置および構造化文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050315 |
|
TRDD | Decision of grant or rejection written | ||
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050711 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050719 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050801 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080819 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090819 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090819 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100819 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |