JP4398988B2 - 構造化文書を管理する装置、方法およびプログラム - Google Patents
構造化文書を管理する装置、方法およびプログラム Download PDFInfo
- Publication number
- JP4398988B2 JP4398988B2 JP2007079379A JP2007079379A JP4398988B2 JP 4398988 B2 JP4398988 B2 JP 4398988B2 JP 2007079379 A JP2007079379 A JP 2007079379A JP 2007079379 A JP2007079379 A JP 2007079379A JP 4398988 B2 JP4398988 B2 JP 4398988B2
- Authority
- JP
- Japan
- Prior art keywords
- page
- vocabulary
- block
- identifier
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(A)特徴的な構造識別子に対して高速に検索することを主眼とした方法(図19)
(B)XPathで「//」を使った階層検索を高速に検索することを主眼とした方法(図22)
52 ROM
53 RAM
54 通信I/F
61 バス
100 構造化文書管理装置
101 通信部
110 格納部
111 構造解析部
112 索引生成部
113 ページ決定部
114 特徴解析部
115 ブロック分割部
120 検索部
121 制約生成部
122 ページ読込部
123 ページ判定部
124 ブロック判定部
141 構造化文書記憶部
142 構造情報記憶部
143 語彙索引記憶部
200 ネットワーク
300 クライアント
Claims (12)
- 階層化された論理構造を有する構造化文書に含まれる語彙を識別する語彙識別子と、前記語彙が出現する位置を特定する特定情報とを対応づけた語彙索引を、固定長の記憶領域であるページに記憶する語彙索引記憶部と、
前記ページに記憶された前記語彙索引に含まれる前記特定情報の前記ページ内での分布の特徴を解析する特徴解析部と、
解析された前記特徴に基づいて、前記ページ内で互いに隣接し、前記特定情報の前記特徴が相互に近似しない2つの前記語彙索引の間を境界として、前記ページを1または複数の前記語彙索引を含む複数のブロックに分割し、前記ブロックに含まれる前記語彙索引の前記特定情報の範囲を表す第1範囲を算出して前記語彙索引記憶部内の分割した前記ブロックそれぞれに保存するブロック分割部と、
を備えたことを特徴とする構造化文書管理装置。 - 前記位置は前記語彙が出現する前記構造化文書であり、前記語彙索引記憶部は、前記語彙が出現する前記構造化文書を識別する文書識別子である前記特定情報を対応づけた前記語彙索引を記憶し、
前記特徴解析部は、前記ページ内で互いに隣接する2つの前記語彙索引の前記文書識別子の差分を前記特徴として解析し、
前記ブロック分割部は、前記文書識別子の差分が予め定められた第1閾値を超えたか否かを判断し、前記文書識別子の差分が前記第1閾値を超えた2つの前記語彙索引の間を境界として前記ブロックに分割すること、
を特徴とする請求項1に記載の構造化文書管理装置。 - 前記位置は、前記語彙が出現する前記構造化文書内の前記論理構造に対応する実情報である要素のうち前記語彙が出現する前記要素であり、前記語彙索引記憶部は、前記語彙が出現する前記構造化文書を識別する文書識別子と、前記語彙が出現する前記要素を識別する要素識別子とからなる前記特定情報を対応づけた前記語彙索引を記憶し、
前記特徴解析部は、さらに、前記ページ内で互いに隣接する2つの前記語彙索引の前記要素識別子の差分を前記特徴として解析し、
前記ブロック分割部は、前記ページ内で互いに隣接する2つの前記語彙索引の前記文書識別子が一致するか否かを判断し、一致する場合に、さらに前記要素識別子間の差分が予め定められた第2閾値を超えたか否かを判断し、前記第2閾値を超えた2つの前記語彙索引の間を境界として前記ブロックに分割すること、
を特徴とする請求項1に記載の構造化文書管理装置。 - 前記位置は、前記論理構造の単位である構造要素のうち、前記語彙が出現する前記構造要素であり、前記語彙索引記憶部は、前記語彙が出現する前記構造要素を識別する構造識別子である前記特定情報を対応づけた前記語彙索引を記憶し、
前記特徴解析部は、前記ページに記憶された前記語彙索引に含まれる前記構造識別子の前記ページ内での分布の特徴を解析すること、
を特徴とする請求項1に記載の構造化文書管理装置。 - 前記特徴解析部は、前記構造識別子に対応する前記構造要素の前記ページ内での出現回数を前記特徴として解析し、
前記ブロック分割部は、前記出現回数が多い順に予め定められた個数の前記構造要素の前記構造識別子を第1グループに分類するとともに、前記第1グループに属さない前記構造識別子を第2グループに分類し、前記ページ内で互いに隣接する2つの前記語彙索引に含まれる前記構造識別子の一方が前記第1グループに属し、他方が前記第2グループに属する場合に、2つの前記語彙索引の間を境界として前記ブロックに分割すること、
を特徴とする請求項4に記載の構造化文書管理装置。 - 前記特徴解析部は、前記構造識別子に対応する前記構造要素間の前記論理構造における階層数を前記特徴として解析し、
前記ブロック分割部は、前記構造識別子を、前記階層数が互いに予め定められた第3閾値より小さい前記構造要素の前記構造識別子を含むグループに分類し、前記ページ内で互いに隣接する2つの前記語彙索引に含まれる前記構造識別子が属する前記グループが異なる場合に、2つの前記語彙索引の間を境界として前記ブロックに分割すること、
を特徴とする請求項4に記載の構造化文書管理装置。 - 入力された検索条件を解析して前記語彙索引から検索すべき前記特定情報を求め、検索すべき前記特定情報を前記語彙索引記憶部の前記ページから検索するときに、前記ページに含まれる前記ブロックのうち、検索すべき前記特定情報が前記ブロックの前記第1範囲に含まれる前記ブロックを検索対象として検索する検索部をさらに備えたこと、
を特徴とする請求項1に記載の構造化文書管理装置。 - 前記語彙索引記憶部は、前記ページごとに、前記ページに含まれる前記語彙索引の前記特定情報の範囲を表す第2範囲をさらに記憶し、
前記語彙索引を前記語彙索引記憶部に登録するときに、登録すべき前記語彙索引に含まれる前記特定情報と、前記語彙索引記憶部に記憶されている前記第2範囲とに基づいて、登録すべき前記語彙索引を登録する前記ページを決定するページ決定部をさらに備えたこと、
を特徴とする請求項1に記載の構造化文書管理装置。 - 前記ページ決定部は、登録対象となりうる前記ページの空き領域が予め定められた第4閾値より小さく、かつ、登録対象となりうる前記ページの前記第2範囲に対する登録すべき前記語彙索引を登録対象となりうる前記ページに登録した場合の前記第2範囲の割合が予め定められた第5閾値より大きい場合に、新たなページを作成し、作成したページを登録する前記ページとして決定すること、
を特徴とする請求項8に記載の構造化文書管理装置。 - 入力された検索条件を解析して前記語彙索引から検索すべき前記特定情報を求め、検索すべき前記特定情報を前記語彙索引記憶部の前記ページから検索するときに、前記ページのうち、前記ページの前記第2範囲に検索すべき前記特定情報が含まれる前記ページを検索対象として検索する検索部をさらに備えたこと、
を特徴とする請求項8に記載の構造化文書管理装置。 - 特徴解析部によって、階層化された論理構造を有する構造化文書に含まれる語彙を識別する語彙識別子と、前記語彙が出現する位置を特定する特定情報とを対応づけた語彙索引を、固定長の記憶領域であるページに記憶する語彙索引記憶部内の前記ページに記憶された前記語彙索引に含まれる前記特定情報の前記ページ内での分布の特徴を解析する特徴解析ステップと、
ブロック分割部によって、解析された前記特徴に基づいて、前記ページ内で互いに隣接し、前記特定情報の前記特徴が相互に近似しない2つの前記語彙索引の間を境界として、前記ページを1または複数の前記語彙索引を含む複数のブロックに分割し、前記ブロックに含まれる前記語彙索引の前記特定情報の範囲を表す第1範囲を算出して前記語彙索引記憶部内の分割した前記ブロックそれぞれに保存するブロック分割ステップと、
を備えたことを特徴とする構造化文書管理方法。 - 階層化された論理構造を有する構造化文書に含まれる語彙を識別する語彙識別子と、前記語彙が出現する位置を特定する特定情報とを対応づけた語彙索引を、固定長の記憶領域であるページに記憶する語彙索引記憶部内の前記ページに記憶された前記語彙索引に含まれる前記特定情報の前記ページ内での分布の特徴を解析する特徴解析手順と、
解析された前記特徴に基づいて、前記ページ内で互いに隣接し、前記特定情報の前記特徴が相互に近似しない2つの前記語彙索引の間を境界として、前記ページを1または複数の前記語彙索引を含む複数のブロックに分割し、前記ブロックに含まれる前記語彙索引の前記特定情報の範囲を表す第1範囲を算出して前記語彙索引記憶部内の分割した前記ブロックそれぞれに保存するブロック分割手順と、
をコンピュータに実行させる構造化文書管理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007079379A JP4398988B2 (ja) | 2007-03-26 | 2007-03-26 | 構造化文書を管理する装置、方法およびプログラム |
US12/040,996 US8898555B2 (en) | 2007-03-26 | 2008-03-03 | Apparatus, method, and computer program product for managing structured documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007079379A JP4398988B2 (ja) | 2007-03-26 | 2007-03-26 | 構造化文書を管理する装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008242605A JP2008242605A (ja) | 2008-10-09 |
JP4398988B2 true JP4398988B2 (ja) | 2010-01-13 |
Family
ID=39794509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007079379A Active JP4398988B2 (ja) | 2007-03-26 | 2007-03-26 | 構造化文書を管理する装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8898555B2 (ja) |
JP (1) | JP4398988B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4878178B2 (ja) * | 2006-02-28 | 2012-02-15 | 株式会社日立製作所 | データ処理方法および装置並びにその処理プログラム |
JP5135272B2 (ja) * | 2009-03-24 | 2013-02-06 | 株式会社東芝 | 構造化文書管理装置、及び方法 |
JP5412916B2 (ja) * | 2009-03-27 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
JP5083367B2 (ja) * | 2010-04-27 | 2012-11-28 | カシオ計算機株式会社 | 検索装置、検索方法、ならびに、コンピュータプログラム |
JP5971571B2 (ja) * | 2012-05-22 | 2016-08-17 | 株式会社東芝 | 構造文書管理システム、構造文書管理方法及びプログラム |
CN102750476B (zh) * | 2012-06-07 | 2015-04-08 | 腾讯科技(深圳)有限公司 | 鉴定文件安全性的方法和系统 |
WO2014038069A1 (ja) * | 2012-09-07 | 2014-03-13 | 株式会社東芝 | 構造化文書管理装置、方法およびプログラム |
WO2014045362A1 (ja) * | 2012-09-20 | 2014-03-27 | 株式会社東芝 | 構造化文書管理装置、方法およびプログラム |
US10628417B2 (en) * | 2013-12-01 | 2020-04-21 | Paraccel Llc | Physical planning of database queries using partial solutions |
CN113792042B (zh) * | 2021-08-10 | 2023-09-15 | 浪潮金融信息技术有限公司 | 一种表格分析数据集的配置方法、系统及介质 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0682370B2 (ja) * | 1987-05-26 | 1994-10-19 | シャープ株式会社 | 文字処理装置 |
JPH07160684A (ja) * | 1993-12-03 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 文書圧縮装置および文書圧縮方法 |
US5978812A (en) * | 1995-11-10 | 1999-11-02 | Sony Corporation | Information processor and method of information processing |
US6058392A (en) * | 1996-11-18 | 2000-05-02 | Wesley C. Sampson Revocable Trust | Method for the organizational indexing, storage, and retrieval of data according to data pattern signatures |
JP4011595B2 (ja) | 1998-02-02 | 2007-11-21 | 株式会社リコー | 電子化文書検索システムおよび記録媒体 |
JP3754253B2 (ja) * | 1999-11-19 | 2006-03-08 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム |
US6510434B1 (en) * | 1999-12-29 | 2003-01-21 | Bellsouth Intellectual Property Corporation | System and method for retrieving information from a database using an index of XML tags and metafiles |
JP4608740B2 (ja) * | 2000-02-21 | 2011-01-12 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム格納媒体 |
US6789229B1 (en) * | 2000-04-19 | 2004-09-07 | Microsoft Corporation | Document pagination based on hard breaks and active formatting tags |
US6826555B2 (en) * | 2000-07-24 | 2004-11-30 | Centor Software Corporation | Open format for file storage system indexing, searching and data retrieval |
US7080073B1 (en) * | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
AU2001286879A1 (en) * | 2000-08-30 | 2002-03-13 | Digimarc Corporation | Exploiting familiar media attributes and vocabulary to acces network resources |
TW548557B (en) * | 2000-09-13 | 2003-08-21 | Intumit Inc | A method and system for electronic document to have fast-search category and mutual link |
TW482964B (en) * | 2000-11-02 | 2002-04-11 | Way Tech Dev Inc | Method and system for conducting web page segmentation with automatic web page program code analysis |
US7139973B1 (en) * | 2000-11-20 | 2006-11-21 | Cisco Technology, Inc. | Dynamic information object cache approach useful in a vocabulary retrieval system |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US7257268B2 (en) * | 2003-02-28 | 2007-08-14 | Aperio Technologies, Inc. | Systems and methods for image pattern recognition |
US7502773B1 (en) * | 2003-12-31 | 2009-03-10 | Microsoft Corporation | System and method facilitating page indexing employing reference information |
US7702618B1 (en) * | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
JP2006099181A (ja) | 2004-09-28 | 2006-04-13 | Toshiba Corp | データ検索システム及びデータ格納方法 |
US7412560B2 (en) * | 2004-12-16 | 2008-08-12 | Sandisk Corporation | Non-volatile memory and method with multi-stream updating |
JP4314221B2 (ja) | 2005-07-28 | 2009-08-12 | 株式会社東芝 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
US7502765B2 (en) * | 2005-12-21 | 2009-03-10 | International Business Machines Corporation | Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering |
JP4697491B2 (ja) * | 2006-03-31 | 2011-06-08 | 日本電気株式会社 | ウェブコンテンツ閲覧情報表示装置、方法、プログラム |
US7509477B2 (en) * | 2006-04-12 | 2009-03-24 | Microsoft Corporation | Aggregating data from difference sources |
US7444461B2 (en) * | 2006-08-04 | 2008-10-28 | Sandisk Corporation | Methods for phased garbage collection |
US8086594B1 (en) * | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
US20080294619A1 (en) * | 2007-05-23 | 2008-11-27 | Hamilton Ii Rick Allen | System and method for automatic generation of search suggestions based on recent operator behavior |
US7975109B2 (en) * | 2007-05-30 | 2011-07-05 | Schooner Information Technology, Inc. | System including a fine-grained memory and a less-fine-grained memory |
US20090228777A1 (en) * | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
US8019745B2 (en) * | 2008-04-16 | 2011-09-13 | Ciena Corporation | Data retrieval from a plurality of distinct storage devices using an index value |
-
2007
- 2007-03-26 JP JP2007079379A patent/JP4398988B2/ja active Active
-
2008
- 2008-03-03 US US12/040,996 patent/US8898555B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20080240619A1 (en) | 2008-10-02 |
US8898555B2 (en) | 2014-11-25 |
JP2008242605A (ja) | 2008-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4398988B2 (ja) | 構造化文書を管理する装置、方法およびプログラム | |
US9424294B2 (en) | Method for facet searching and search suggestions | |
US7886224B2 (en) | System and method for transforming tabular form date into structured document | |
JP5338238B2 (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
JP5392077B2 (ja) | オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム | |
JPWO2009063925A1 (ja) | 文書管理・検索システムおよび文書の管理・検索方法 | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
US7822788B2 (en) | Method, apparatus, and computer program product for searching structured document | |
JP5135272B2 (ja) | 構造化文書管理装置、及び方法 | |
JP6550448B2 (ja) | データ管理装置、データ管理方法、およびプログラム | |
JP4247135B2 (ja) | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 | |
JP2006185408A (ja) | データベース構築装置及びデータベース検索装置及びデータベース装置 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP5552981B2 (ja) | 索引方法、検索方法、及びその記憶媒体 | |
JP2006127235A (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
JP4649339B2 (ja) | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
US7953761B2 (en) | System, method, and apparatus for retrieving structured document and apparatus for managing structured document | |
JP4562130B2 (ja) | Xmlデータ処理装置、xmlデータ処理方法、xmlデータ処理プログラムおよびxmlデータ処理プログラムを記録した記憶媒体 | |
JP4266584B2 (ja) | テキストデータ群生成装置、テキストデータ群生成方法、プログラムおよび記録媒体 | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム | |
JP2013175053A (ja) | Xml文書検索装置及びプログラム | |
JP5903372B2 (ja) | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム | |
JP3843574B2 (ja) | 文書変換規則生成装置、文書変換規則生成方法及び文書変換規則生成プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090929 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091023 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4398988 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131030 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |