JP2005227851A - 構造化データ記憶方法および装置 - Google Patents
構造化データ記憶方法および装置 Download PDFInfo
- Publication number
- JP2005227851A JP2005227851A JP2004033493A JP2004033493A JP2005227851A JP 2005227851 A JP2005227851 A JP 2005227851A JP 2004033493 A JP2004033493 A JP 2004033493A JP 2004033493 A JP2004033493 A JP 2004033493A JP 2005227851 A JP2005227851 A JP 2005227851A
- Authority
- JP
- Japan
- Prior art keywords
- data
- storage
- structured data
- structured
- structured document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/282—Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】複数の構造化データ中での出現頻度が第1の閾値以上の要素データに対し、複数の記憶エリア内における当該要素データを記憶するための予め定められた記憶位置を定めるエレメントIDを決定し、複数の構造化データのうちの1つである第1の構造化データに含まれる要素データ群のうち、エレメントIDの決定された各要素データを、複数の記憶エリアのうち第1の構造化データを記憶するための第1の記憶エリアの当該エレメントIDに対応する記憶位置に記憶する。
【選択図】 図2
Description
標準偏差={SumOcc2/NumRegist−(SumOcc/NumRegist)2}1/2
NumSib=INT(平均−標準偏差)
標準偏差とは誤差である。分析対象となっているデータ全体のばらつきが左右対称なつりがね型の正規分布にしたがっていると仮定するならば、「平均−標準偏差」〜「平均+標準偏差」の範囲内にデータの約68%が存在することを意味する。構造の繰り返し回数がNumSib以上である確率は84%以上であることが期待される。
図36〜図37に示すフローチャートに従って、検索処理部104の処理動作について説明する。
Claims (13)
- 複数の要素データをそれぞれ含む複数の構造化データを複数の記憶エリアのそれぞれに記憶するための構造化データ記憶方法であって、
前記複数の構造化データ中での出現頻度が第1の閾値以上の要素データに対し、前記複数の記憶エリアのそれぞれにおける記憶位置を定めるエレメントIDを決定する第1のステップと、
前記複数の構造化データのうちの1つに対応する第1の構造化データに含まれる要素データ群のうち、前記エレメントIDの決定された各要素データを、前記複数の記憶エリアのうち前記第1の構造化データを記憶するための第1の記憶エリアの当該エレメントIDに対応する記憶位置に記憶する第2のステップと、
を有することを特徴とする構造化データ記憶方法。 - 前記複数の構造化データは、前記複数の要素データを含む複数の階層構造のうちの1つをそれぞれ有し、
前記第1のステップは、
前記複数の要素データのそれぞれの前記複数の構造化データ中での出現頻度を基に前記複数の階層構造を認識する第3のステップと、
前記複数の構造化データのそれぞれを、前記複数の階層構造のうちの1つに分類する第4のステップと、
前記複数の階層構造のそれぞれについて、当該階層構造に分類された構造化データ群中での出現頻度が前記第1の閾値以上の要素データに対し、前記複数の記憶エリアのそれぞれにおける記憶位置を定めるエレメントIDを決定する第5のステップと、
を有することを特徴とする請求項1記載の構造化データ記憶方法。 - 前記第5のステップは、前記複数の階層構造で同じ位置に配置される要素データには、当該複数の階層構造で同じエレメントIDを与えることを特徴とする請求項2記載の構造化データ記憶方法。
- 前記複数の構造化データ中での出現頻度が第1の閾値以上の要素データは、当該要素データを含む構造化データを識別するためのドキュメントID、当該要素データを含む構造化データの階層構造上での当該要素データの位置を識別するためのテンプレートID、及び前記エレメントIDを含む識別子をもち、
前記複数の階層構造で同じ位置に配置される要素データに対し与えられる前記エレメントIDは当該要素データの各階層構造上での位置を識別するためのテンプレートIDに対応付けて第2の記憶手段に記憶することを特徴とする請求項3記載の構造化データ記憶方法。 - 複数の要素データをそれぞれ含む複数の構造化データを記憶するための複数の記憶エリアを有する記憶手段と、
前記複数の構造化データ中での出現頻度が第1の閾値以上の要素データに対し、前記複数の記憶エリアのそれぞれにおける記憶位置を定めるエレメントIDを決定する決定手段と、
前記複数の構造化データのうちの1つに対応する第1の構造化データに含まれる要素データ群のうち、前記エレメントIDの決定された各要素データを、前記複数の記憶エリアのうち前記第1の構造化データを記憶するための第1の記憶エリアの当該エレメントIDに対応する記憶位置に記憶する手段と、
を具備したことを特徴とする構造化データ記憶装置。 - 前記複数の構造化データは、前記複数の要素データを含む複数の階層構造のうちの1つをそれぞれ有し、
前記決定手段は、
前記複数の要素データのそれぞれの前記複数の構造化データ中での出現頻度を基に前記複数の階層構造を認識する第1の手段と、
前記複数の構造化データのそれぞれを、前記複数の階層構造のうちの1つに分類する第2の手段と、
前記複数の階層構造のそれぞれについて、当該階層構造に分類された構造化データ群中での出現頻度が前記第1の閾値以上の要素データに対し、前記複数の記憶エリアのそれぞれにおける記憶位置を定めるエレメントIDを決定する第3の手段と、
を有することを特徴とする請求項5記載の構造化データ記憶装置。 - 前記第3の手段は、前記複数の階層構造で同じ位置に配置される要素データには、当該複数の階層構造で同じエレメントIDを与えることを特徴とする請求項6記載の構造化データ記憶装置。
- 前記複数の構造化データ中での出現頻度が第1の閾値以上の要素データは、当該要素データを含む構造化データを識別するためのドキュメントID、当該要素データを含む構造化データの階層構造上での当該要素データの位置を識別するためのテンプレートID、及び前記エレメントIDを含む識別子をもち、
前記複数の階層構造で同じ位置に配置される要素データに対し与えられる前記エレメントIDを、当該要素データの各階層構造上での位置を識別するためのテンプレートIDに対応付けて記憶する第2の記憶手段をさらに具備したことを特徴とする請求項7記載の構造化データ記憶装置。 - 複数の要素データをそれぞれ含む複数の構造化データを複数の記憶エリアのそれぞれに記憶するための構造化データ記憶方法であって、
前記記憶エリアに記憶された第1の階層構造を有する所定数以上の構造化データ群中での各要素データの出現頻度を基に、第2の階層構造を認識する第1のステップと、
前記第1の階層構造を有する前記構造化データ群中での各要素データの出現頻度が第1の閾値以上の要素データに対し、前記複数の記憶エリアのそれぞれにおける当該要素データを記憶するための予め定められた記憶位置を定めるエレメントIDを決定する第2のステップと、
前記第2の階層構造を有する第1の構造化データに含まれる要素データ群のうち、前記エレメントIDの決定された各要素データを、前記複数の記憶エリアのうち前記第1の構造化データを記憶するための第1の記憶エリアの当該エレメントIDに対応する記憶位置に記憶する第3のステップと、
前記記憶エリアに記憶された前記第2の階層構造を有する所定数以上の構造化データ群中での各要素データの出現頻度を基に、第3の階層構造を認識する第4のステップと、
前記第2の階層構造を有する前記構造化データ群中での各要素データの出現頻度が第1の閾値以上の要素データであって、かつ前記エレメントIDの決定されていない要素データに対し、前記エレメントIDを決定する第5のステップと、
前記第3の階層構造を有する第2の構造化データに含まれる要素データ群のうち、前記エレメントIDの決定された各要素データを、前記複数の記憶エリアのうち前記第2の構造化データを記憶するための第2の記憶エリアの当該エレメントIDに対応する記憶位置に記憶する第6のステップと、
を有することを特徴とする構造化データ記憶方法。 - 前記第1乃至第3の階層構造で同じ位置に配置される要素データには、当該第1乃至第3の階層構造で同じエレメントIDを与えることを特徴とする請求項9記載の構造化データ記憶方法。
- 複数の要素データをそれぞれ含む複数の構造化データを複数の記憶エリアのそれぞれに記憶した記憶手段から要素データを検索する検索方法であって、
前記複数の構造化データのうちの1つである第1の構造化データに含まれる要素データ群は、第1の構造化データを識別するためのドキュメントID、当該要素データの第1の構造化データの階層構造上での位置を識別するためのテンプレートID、及び前記複数の記憶エリア内の当該テンプレートIDを有する要素データを記憶するための予め定められた記憶位置を定めるエレメントIDを含む識別子をそれぞれもち、
前記要素データ群のうちの第1の要素データの第1の識別子に含まれるテンプレートIDとエレメントIDを、第1の構造化データの階層構造において第1の要素データの上流にある要素データのテンプレートIDとエレメントIDにそれぞれ置き換えることにより第2の要素データの第2の識別子を求めることを特徴とする検索方法。 - 前記複数の構造化データは、前記複数の要素データを含む複数の階層構造のうちの1つをそれぞれ有し、
前記複数の階層構造で同じ位置に配置される要素データには、当該複数の階層構造で同じエレメントIDが与えられることを特徴とする請求項11記載の検索方法。 - 前記複数の階層構造で同じ位置に配置される要素データに対し予め定められた前記エレメントIDは当該要素データの各階層構造上でのテンプレートIDに対応付けて予め第2の記憶手段に記憶されていることを特徴とする請求項12記載の検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004033493A JP4247135B2 (ja) | 2004-02-10 | 2004-02-10 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
US11/053,173 US7664773B2 (en) | 2004-02-10 | 2005-02-09 | Structured data storage method, structured data storage apparatus, and retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004033493A JP4247135B2 (ja) | 2004-02-10 | 2004-02-10 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005227851A true JP2005227851A (ja) | 2005-08-25 |
JP4247135B2 JP4247135B2 (ja) | 2009-04-02 |
Family
ID=34879214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004033493A Expired - Fee Related JP4247135B2 (ja) | 2004-02-10 | 2004-02-10 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7664773B2 (ja) |
JP (1) | JP4247135B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009057382A1 (ja) * | 2007-10-31 | 2009-05-07 | Nec Corporation | 候補パステーブル構築装置、候補パステーブル構築方法、候補パステーブル構築プログラム |
US8914370B2 (en) | 2010-10-29 | 2014-12-16 | International Business Machines Corporation | Generating rules for classifying structured documents |
JP2015522879A (ja) * | 2012-06-27 | 2015-08-06 | テンセント テクノロジー (シェンツェン) カンパニー リミテッド | オフラインメッセージを提供するサービス装置、方法及び記憶媒体 |
US9160771B2 (en) | 2009-07-22 | 2015-10-13 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
JP2017507426A (ja) * | 2014-02-19 | 2017-03-16 | スノーフレーク コンピューティング インク.Snowflake Computing Inc. | 半構造データスキーマのトランスペアレントディスカバリ |
JP2017084162A (ja) * | 2015-10-29 | 2017-05-18 | 株式会社ディビイ | データベース処理プログラム、データベース処理方法及びデータベース処理装置 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4314221B2 (ja) * | 2005-07-28 | 2009-08-12 | 株式会社東芝 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
GB0612433D0 (en) * | 2006-06-23 | 2006-08-02 | Ibm | Method and system for defining a hierarchical structure |
US20080005719A1 (en) * | 2006-06-30 | 2008-01-03 | Morris Robert P | Methods, systems, and computer program products for providing a program execution environment |
JP4212615B2 (ja) * | 2006-09-28 | 2009-01-21 | 株式会社東芝 | 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 |
US9697211B1 (en) * | 2006-12-01 | 2017-07-04 | Synopsys, Inc. | Techniques for creating and using a hierarchical data structure |
US20080235258A1 (en) | 2007-03-23 | 2008-09-25 | Hyen Vui Chung | Method and Apparatus for Processing Extensible Markup Language Security Messages Using Delta Parsing Technology |
US8051372B1 (en) * | 2007-04-12 | 2011-11-01 | The New York Times Company | System and method for automatically detecting and extracting semantically significant text from a HTML document associated with a plurality of HTML documents |
JP5134989B2 (ja) * | 2008-01-31 | 2013-01-30 | 株式会社東芝 | サーバ、データ転送方法及びプログラム |
US8229971B2 (en) | 2008-09-29 | 2012-07-24 | Efrem Meretab | System and method for dynamically configuring content-driven relationships among data elements |
US9626339B2 (en) * | 2009-07-20 | 2017-04-18 | Mcap Research Llc | User interface with navigation controls for the display or concealment of adjacent content |
JP5100820B2 (ja) * | 2010-11-25 | 2012-12-19 | 株式会社東芝 | 問合せ式変換装置、方法およびプログラム |
US9020947B2 (en) * | 2011-11-30 | 2015-04-28 | Microsoft Technology Licensing, Llc | Web knowledge extraction for search task simplification |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1304988C (zh) * | 1996-10-16 | 2007-03-14 | 夏普公司 | 字符输入装置 |
JP3696731B2 (ja) * | 1998-04-30 | 2005-09-21 | 株式会社日立製作所 | 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000057163A (ja) | 1998-08-12 | 2000-02-25 | Nec Corp | 構造化文書データベースシステム |
JP3492246B2 (ja) | 1999-07-16 | 2004-02-03 | 富士通株式会社 | Xmlデータ検索処理方法および検索処理システム |
JP3492247B2 (ja) | 1999-07-16 | 2004-02-03 | 富士通株式会社 | Xmlデータ検索システム |
US6754676B2 (en) * | 2001-09-13 | 2004-06-22 | International Business Machines Corporation | Apparatus and method for providing selective views of on-line surveys |
-
2004
- 2004-02-10 JP JP2004033493A patent/JP4247135B2/ja not_active Expired - Fee Related
-
2005
- 2005-02-09 US US11/053,173 patent/US7664773B2/en active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009057382A1 (ja) * | 2007-10-31 | 2009-05-07 | Nec Corporation | 候補パステーブル構築装置、候補パステーブル構築方法、候補パステーブル構築プログラム |
JP5333230B2 (ja) * | 2007-10-31 | 2013-11-06 | 日本電気株式会社 | 候補パステーブル構築装置、候補パステーブル構築方法、候補パステーブル構築プログラム |
US9160771B2 (en) | 2009-07-22 | 2015-10-13 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US10079894B2 (en) | 2009-07-22 | 2018-09-18 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US10469596B2 (en) | 2009-07-22 | 2019-11-05 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US11165869B2 (en) | 2009-07-22 | 2021-11-02 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US8914370B2 (en) | 2010-10-29 | 2014-12-16 | International Business Machines Corporation | Generating rules for classifying structured documents |
JP2015522879A (ja) * | 2012-06-27 | 2015-08-06 | テンセント テクノロジー (シェンツェン) カンパニー リミテッド | オフラインメッセージを提供するサービス装置、方法及び記憶媒体 |
US10389665B2 (en) | 2012-06-27 | 2019-08-20 | Tencent Technology (Shenzhen) Company Limited | Service apparatus and method for providing deferred message, and storage medium |
US11159465B2 (en) | 2012-06-27 | 2021-10-26 | Tencent Technology (Shenzhen) Company Limited | Service apparatus and method for providing deferred message, and storage medium |
JP2017507426A (ja) * | 2014-02-19 | 2017-03-16 | スノーフレーク コンピューティング インク.Snowflake Computing Inc. | 半構造データスキーマのトランスペアレントディスカバリ |
JP2017084162A (ja) * | 2015-10-29 | 2017-05-18 | 株式会社ディビイ | データベース処理プログラム、データベース処理方法及びデータベース処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US7664773B2 (en) | 2010-02-16 |
US20050192983A1 (en) | 2005-09-01 |
JP4247135B2 (ja) | 2009-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7664773B2 (en) | Structured data storage method, structured data storage apparatus, and retrieval method | |
US6889223B2 (en) | Apparatus, method, and program for retrieving structured documents | |
US6510425B1 (en) | Document search method for registering documents, generating a structure index with elements having position of occurrence in documents represented by meta-nodes | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
US7822788B2 (en) | Method, apparatus, and computer program product for searching structured document | |
JP2008052662A (ja) | 構造化文書管理システム及びプログラム | |
JP4247108B2 (ja) | 構造化文書検索方法、構造化文書検索装置、及びプログラム | |
US8082492B2 (en) | Structured-document management apparatus, search apparatus, storage method, search method and program | |
JP4724177B2 (ja) | Xmlデータにアクセスするためのインデックス | |
US8086561B2 (en) | Document searching system and document searching method | |
JP3914081B2 (ja) | アクセス権限設定方法および構造化文書管理システム | |
JP2006127235A (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP4439497B2 (ja) | 検索処理装置及びプログラム | |
JP3632643B2 (ja) | 構造化文書管理装置 | |
JP2010267081A (ja) | 情報検索方法及び装置及びプログラム | |
JP3709890B2 (ja) | 文字列検索装置 | |
JP4866844B2 (ja) | Lobに格納されたxml内容の効率的な抽出 | |
JP4289022B2 (ja) | 構造化文書処理方法及び装置及び構造化文書処理プログラム及び構造化文書処理プログラムを格納した記憶媒体 | |
JP3842574B2 (ja) | 情報抽出方法および構造化文書管理装置およびプログラム | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
JP5439606B1 (ja) | 構造化文書管理装置、方法およびプログラム | |
JP4334450B2 (ja) | 構造化文書検索装置及び構造化文書検索方法 | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム | |
JPH06203078A (ja) | 情報検索方法およびその装置 | |
JP5225022B2 (ja) | Xmlデータ検索方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4247135 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |