CN101369268B - 一种文档库系统中文档数据的存储方法 - Google Patents

一种文档库系统中文档数据的存储方法 Download PDF

Info

Publication number
CN101369268B
CN101369268B CN2007101203253A CN200710120325A CN101369268B CN 101369268 B CN101369268 B CN 101369268B CN 2007101203253 A CN2007101203253 A CN 2007101203253A CN 200710120325 A CN200710120325 A CN 200710120325A CN 101369268 B CN101369268 B CN 101369268B
Authority
CN
China
Prior art keywords
data
document
storage
crumb
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101203253A
Other languages
English (en)
Other versions
CN101369268A (zh
Inventor
王东临
姜海峰
刘宁胜
王立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd
TIANJIN SHUSHENG INVESTMENT CO Ltd
Original Assignee
BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY Co Ltd
BEIJING SURSEN ELECTRONIC TECHNOLOGY Co Ltd
BEIJING SURSEN NETWORK TECHNOLOGY Co Ltd
BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY Co Ltd, BEIJING SURSEN ELECTRONIC TECHNOLOGY Co Ltd, BEIJING SURSEN NETWORK TECHNOLOGY Co Ltd, BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY Co Ltd
Priority to CN2007101203253A priority Critical patent/CN101369268B/zh
Priority to EP08784001A priority patent/EP2180413A4/en
Priority to PCT/CN2008/072010 priority patent/WO2009021465A1/zh
Priority to JP2010520410A priority patent/JP5152877B2/ja
Publication of CN101369268A publication Critical patent/CN101369268A/zh
Priority to US12/701,857 priority patent/US8423521B2/en
Application granted granted Critical
Publication of CN101369268B publication Critical patent/CN101369268B/zh
Priority to US13/691,865 priority patent/US9081977B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文档库系统中文档数据的存储方法,包括:设置用于描述文档数据的树型层次结构;确定文档库系统中文档数据的存储粒度,并按照该存储粒度将文档库系统中的文档数据拆成碎片数据;按照设置的文档库系统的层次结构,确定并保存各碎片数据间的组织结构,并在相应组织结构下保存拆成的碎片数据。可以实现将文档库中的文档数据拆分成更细的碎片数据并保存。这样,当用户检索或访问文档数据时,可以快速、准确定位到存储粒度的级别,进行灵活高效地数据检索与内容抽取,对于基于网络的文档应用,降低了文档传输过程中的负担。

Description

一种文档库系统中文档数据的存储方法
技术领域
本发明涉及文档存储的技术,特别涉及一种文档库系统中文档数据的存储方法。
背景技术
文档库系统是一种复杂的软件系统,提供大量电子文档的组织、管理、安全、存储和展示等功能。在本申请人在先提交的申请号为CN200510131072.0的基础专利申请说明书中,提供了一种文档库系统,该文档库系统可以存储符合通用文档模型的文档、并能对其中存储的文档按照指令进行标准操作。通用文档模型可以具体包括文档集、文档、页、层、对象组、版面对象等多个层次。
目前,在文档库系统中,对于文档数据的存储方式为:将所有的文档数据作为一个文件进行存储。对于数据的更新和查询均是通过访问文件实现的。但是,面临日益增加的信息量,文档库系统中保存的文档数据量也急剧增多。由于这些海量数据均作为一个文件进行存储,因此导致其数据的更新和查询变得非常复杂,不能迅速定位用户感兴趣的内容,使内容抽取效率较低。可见,目前的存储方式已不能适应日益增多的海量数据。要求文档库系统能够提供对海量文档数据有效的组织、管理、安全、展示、存储等诸多方面的功能。
发明内容
有鉴于此,本发明提供一种文档库系统中文档数据的存储方法,能够实现对文档内容进行灵活高效地检索与内容抽取。
为实现上述目的,本发明采用如下的技术方案:
一种文档库系统中文档数据的存储方法,利用树型层次结构描述文档数据、并包括:
确定文档库系统中文档数据的存储粒度,根据该存储粒度将文档库系统中的文档数据拆成碎片数据;其中,所述存储粒度为所述树型层次结构的任意一级;
按照描述文档数据的树型层次结构,确定并保存各碎片数据间的组织结构,并在相应组织结构下保存拆成的碎片数据。
较佳地,所述确定文档库系统中文档数据的存储粒度为:根据文档库系统设置的存储粒度结合文档数据的结构信息确定文档数据的存储粒度;和/或,根据用户的选择,确定文档数据的存储粒度。
较佳地,所述文档库系统设置存储粒度为:为文档库系统设置固定的存储粒度;和/或,在对文档库系统进行参数配置时配置所述存储粒度;和/或,在安装文档库系统时指定存储粒度。
较佳地,所述根据存储粒度将文档库系统中的文档数据拆成碎片数据为:分别将文档数据中的存储粒度相关数据和存储粒度无关数据拆成碎片数据。
较佳地,所述将文档数据中的存储粒度相关数据拆成碎片数据的方式为:以所述存储粒度为单位对存储粒度相关数据进行分解,得到所述碎片数据。
较佳地,所述将文档数据中的存储粒度无关数据拆成碎片数据的方式为:确定所述存储粒度无关数据在所述树型结构层次中的对应级,将每一级下的存储粒度无关数据拆分成一个或多个碎片数据。
较佳地,按照存储粒度无关数据的类别或者对应的文档拆分成所述碎片数据。
较佳地,利用可扩展标识语言XML数据库的树型结构表示描述文档数据的树型层次结构;
所述保存各碎片数据间的组织结构为:
将该组织结构映射到XML数据库的树型结构中进行保存。
较佳地,所述保存拆成的碎片数据为:将碎片数据存储为XML数据库中的XML文档,利用XML数据库中的集合collection描述该XML文档的树型结构。
较佳地,利用文件系统的树型结构表示描述文档数据的树型层次结构;
所述保存各碎片数据间的组织结构为:
将该组织结构存储为所述文件系统中的目录。
较佳地,利用关系型数据库中的相关表表示描述文档数据的树型层次结构;
所述保存各碎片数据间的组织结构为:
将该组织结构存储为所述关系型数据库中的相关表。
较佳地,所述保存拆成的碎片数据为:
将拆成的各个碎片数据作为数据库的XML文档存储;
或者,将拆成的各个碎片数据作为文件系统的文件存储;
或者,将拆成的各个碎片数据作为关系型数据库的大对象存储。
较佳地,所述描述文档数据的树型层次结构为:
由根至叶子节点依次包括以下的一种或任意组合:文档集、文档、页、层、对象组和对象。
较佳地,为所有文档数据设置相同的存储粒度,或者,为文档数据的不同部分设置不同的存储粒度。
由上述技术方案可见,本发明提供的在文档库系统中存储文档的方法,首先设置文档库的树型层次结构;然后根据文档数据的存储粒度,将文档库中的文档数据拆成碎片数据;确定并保存碎片数据间的组织结构,并保存碎片数据。应用上述方法,可以实现将文档库中的文档数据拆分成更细的碎片数据并保存。这样,当用户检索或访问文档数据时,可以快速、准确定位到存储粒度的级别,进行灵活高效地数据检索与内容抽取,对于基于网络的文档应用,降低了文档传输过程中的负担。
另外,由于本发明进行文档存储时,可以将多种格式的文档进行统一保存,因此对于文档的互通互联带来了极大的便利。
附图说明
图1为本发明提供的文档库系统中文档数据存储方法的总体流程图。
具体实施方式
为使本发明的目的、技术手段和优点更加清楚明白,以下结合附图对本发明作进一步详细说明。
本发明提供的最基本的文档库系统中文档数据的存储方法为:将文档数据拆成碎片数据,并记录碎片数据之间的关系。具体地,图1为本发明提供的在文档库系统中文档数据存储方法的总体流程图。如图1所示,该方法包括:
步骤101,利用树型层次结构来描述文档数据。
步骤102,确定文档库系统中文档数据的存储粒度,并按照该存储粒度将文档库系统中的文档数据拆成碎片数据。
步骤103,按照步骤101中设置的文档库系统的层次结构,确定并保存拆成的碎片数据间的组织结构,并在相应组织结构下保存拆成的碎片数据。
在上述方法中文档库系统中文档数据的存储粒度是与文档库系统所支持的层次结构、以及文档数据本身的结构信息相关的。用于描述文档数据的层次结构是树型的,具体由根到叶子节点依次可以包括下述部分:文档集、文档、页、层、对象组和版面对象。文档数据本身的结构可以为:文档、页面、层等。当文档库系统的层次结构为“文档集、文档、页”时,此时,若文档数据本身也包括页,那么文档数据的存储粒度可以为页,若文档数据本身的结构只有一层,即文档,不能再拆成页,那么文档数据的存储粒度即为文档。但无论怎样,文档库系统中的文档数据本身结构至少支持文档级,文档库系统的层次结构至少为文档集级。因此,与现有技术中将文档库系统中 的所有文档数据作为一个文件的存储方式相比,依照本发明的方式进行文档存储,其存储粒度一定更细,也就能够为更新、检索降低复杂性,进行文档数据的检索和内容抽取时,能够快速定位到存储粒度,从而实现灵活高效的检索和内容抽取。
具体地,在本发明提供的文档库系统中,文档库系统的层次结构可以通过三种形式表示:可扩展标识语言(XML)数据库方式、文件系统方式和关系型数据库方式。下面通过三个具体实施例说明上述三种方式的具体实施方式。
实施例一:
本实施例中,文档库系统应用XML数据库方式表示文档库系统的层次结构。在该种方式下,本发明提供的文档库系统中文档数据的存储方法流程包括:
步骤201,设置用于描述文档数据的树型层次结构。
本步骤中,设置的文档库系统层次结构由根到叶子节点依次可以包括下述部分:文档集、文档、页、层、对象组和版面对象。
表示上述文档库系统层次结构的方式可以为:
利用XML数据库的树型结构表示文档库的层次结构,且将文档库中文档级别以上的层次映射到XML数据库中的Collection级。
例如,对文档库设置文档集、文档、页面、层和版面对象,可以利用XML数据库的树型结构表示上述层次,即文档集中包括多个文档,文档中包括多个页面,页面中包括多个层,层中包括多个版面对象。
步骤202,确定文档库系统中文档数据的存储粒度,并根据该存储粒度,将文档库系统中的文档数据拆成碎片数据。
本实施例中,确定文档数据的存储粒度可以为:依据文档库系统设置的存储粒度结合文档数据本身提供的结构信息,确定存储粒度。其中,文档库系统设置存储粒度的方式可以为,为文档库系统设置固定的存储粒度、和/或在对文档库系统进行参数配置时配置所述存储粒度、和/或在安装文档库 系统时指定存储粒度;文档数据本身提供的结构信息如文档中是否分页面,页面是否分层等。另外,确定文档数据的存储粒度还可以通过用户指定的方式进行。最终确定的存储粒度可以是该文档库系统树型结构层次中的任意一级,如页、层等,优选地,确定页为存储粒度。对于文档数据的不同部分,可以按照相同的存储粒度进行拆分,也可以为不同的文档数据设置不同的存储粒度。
将文档数据拆成碎片数据的具体方式可以为:对文档数据中的存储粒度相关数据,以确定的存储粒度为单位进行分解,得到碎片数据;进一步优选地,对于文档数据中的存储粒度无关数据,如文档库、文档集的元数据、角色数据、权限数据、导航数据、源文件数据和字库数据等,首先确定该数据在所述树型结构层次中的对应级,然后将每一级下的存储粒度无关数据拆分成一个或多个碎片数据,作为对应级中的一个或多个碎片数据。具体地,得到多个碎片数据时,可以按照存储粒度无关数据的类别进行拆分,例如将导航数据作为一个碎片数据、将权限数据作为一个碎片数据等。其中,具体将存储粒度无关数据作为一个碎片数据还是多个碎片数据根据实际应用确定。对于属于同一类别的存储粒度无关数据,也可以进一步根据其自身特性拆分成多个碎片数据。例如,当存储粒度为文档时,存储粒度相关数据则为该文档中的内容数据等,存储粒度无关数据则为文档共享的字库数据、源文件数据、导航数据等。对于字库数据和源文件数据等存储粒度无关数据,可以将不同文档的源文件数据和字库数据拆分成不同的碎片数据,而不将所有文档的源文件数据和字库数据作为一个碎片数据;但对于导航数据等存储粒度无关数据,则可以将所有文档的导航数据作为一个碎片数据。
步骤203,保存拆成的碎片数据间的组织结构。
在本实施例中,文档库系统的层次结构是利用XML数据库的树型结构表示的。在这种表示方式下,保存碎片数据间组织结构的方式具体为:将该组织结构映射到XML数据库的树型结构中,优选地,可以利用Collection保存该映射后的树型结构。
步骤204,保存拆成的碎片数据。
本步骤中,保存碎片数据的方式具体可以为:将碎片数据转换为XML文档加入到对应的Collection中。或者,还可以将碎片数据作为文件系统中的文件或关系型数据库中的二进制大对象保存到对应的Collection中。
至此,本实施例提供的文档库系统中文档数据的存储方法流程结束。在应用上述方法后,可利用XML数据库的管理功能来管理文档库系统中的文档数据,完成应用程序的请求,定位相应数据并返回给应用程序。
使用XML数据库方式最大的好处是抽取信息时可以获得最大的灵活性,通过XML数据库支持的X路径(XPath)及X查询(XQuery)等方式,应用程序可以方便地访问到文档对象、页面对象、层对象、层内对象(如图片、文字、电子印章等),理论上文档库的结构细化到哪一级,通过XML数据库方式就可以访问到那一级的对象。
另外,在文档库系统中还存在一些描述文档库、文档集层次结构的元数据、权限数据和全局性数据、角色数据等。在不同的文档、或同一文档的不同页面中可能会多次出现上述数据,依照上述存储方式进行文档数据存储时,这些数据会在包括它的不同碎片数据中被多次保存,这样,会降低存储空间的利用率。为提高存储空间的利用率,可以将这些数据进行单独保存,下面以保存全局性数据为例,说明一致性数据的保存方式:
步骤1,提取文档库系统的全局性数据进行单独保存。
本步骤中,对全局性数据进行单独保存的方式可以包括:为全局性数据建立对应的层次结构;在建立的层次结构下,以XML文档、文件或二进制大对象的形式保存全局性数据。
步骤2,在包括全局性数据的碎片数据中记录对全局性数据的引用。
应用上述方式进行全局性数据的保存后,即可以只对全局性数据保存一次,在其它碎片数据中不再记录单独保存的全局性数据,而是记录对该全局性数据的引用,从而大大提高了存储空间的利用率。对于其它诸如权限数据、元数据等一致性数据的保存方式和上述相同,这里就不再赘述。
在本实施例中,步骤1为全局性数据建立对应的层次结构可以为:将全局性数据对应XML数据库的树型结构中的某个层次,将全局性数据保存在该层次下。对于其它元数据、角色数据等也可以建立类似的与其对应的层次结构,并将相应的数据保存在该层次下。
实施例二:
本实施例中,文档库系统应用文件系统方式表示文档库系统的层次结构。在该种方式下,本发明提供的文档库系统中文档数据的存储方法流程包括:
步骤301,设置文档库系统的层次结构。
本步骤中,设置的文档库系统层次结构与实施例一中相同,这里就不再赘述。
表示文档库系统层次结构的方式可以为:利用文件系统的树型结构表示文档库系统的层次结构。
例如,对文档库系统设置文档集、文档、页面、层和层内对象,即可以文件系统的树型结构表示上述层次,即文档集中包括多个文档,文档中包括多个页面,页面中包括多个层,层中包括多个层内对象。可以利用下图表示文档库的层次结构:
-DosBase
  -DocList
-Doc
-Page
-Object.sep
步骤302,确定文档库系统中文档数据的存储粒度,并根据该存储粒度,将文档库系统中的文档数据拆成碎片数据。
本步骤中,确定文档数据的存储粒度、以及将文档数据拆成碎片数据的方式与实施例一中的相同,这里就不再赘述。
步骤303,确定并保存拆成的碎片数据间的组织结构。
本步骤中,确定各个碎片数据间的组织结构,如,确定各个层数据所属的文档集、文档、页面等。并将该组织结构以文件系统中目录的形式进行记录。
假定存储文档Doc1中的文档数据时,该文档Doc1位于DocList1下,Doc1的文档结构为:包含3页,第一页包含3层,后两页包含一层。则在文档库中保存的组织结构如下所示:
Figure DEST_PATH_GSB00000005504900081
步骤304,保存拆成的碎片数据。
本步骤中,保存拆成的碎片数据的方式具体可以为:将拆成的各个碎片数据转换为XML文档保存到对应的目录下;或者,还可以将碎片数据作为一个文件系统中的文件或关系型数据库中的二进制大对象保存到对应的目录下。例如,上述组织结构中相应的目录下。
至此,本实施例提供的文档库系统中文档数据的存储方法流程结束。
在应用上述方法完成文档存储后,在进行文档访问时,可以通过指定文档集名+文档名+页号+层号+…的方式,快速定位到需要访问的存储粒度对象(如层对象),获取数据并返回给应用程序。
在本实施例中,也可以对文档库、文档集的元数据、角色数据、权限数据和全局性数据进行单独保存以提高存储空间的利用率,其具体方式与实施例一中步骤1~2类似。区别在于,对应本实施例中表示文档库系统层次结构的方式,为上述数据建立对应的层次结构的方式具体为:在文件系统的目录中建立一个特殊的目录作为全局性数据对应的层次结构,在该目录下保存全局性数据。具体地,上述全局性数据等可以是以XML文档、文件或二进 制大对象的形式保存的;其它包括上述全局性数据的碎片数据不需要再单独保存,而只是包括对相应数据的引用,从而大大提高了存储空间的利用率。
当然,本实施例是以层为存储粒度为例进行说明的,事实上,还可以建立更粗或更细的存储粒度对应的目录,以实现以更粗或更细的存储粒度对文档数据进行存储。
实施例三:
本实施例中,文档库系统应用关系型数据库方式表示文档库系统的层次结构。在该种方式下,本发明提供的文档库系统中文档数据的存储方法流程包括:
步骤401,设置用于描述文档数据的树型层次结构。
本步骤中,设置的描述文档数据的树型层次结构与实施例一中相同,这里就不再赘述。
表示树型层次结构的方式为:利用关系型数据库中的树型结构表示文档库系统的层次结构。
例如,对文档库系统设置目录、文档、页面三个层次,即可以关系型数据库中的3张表(目录表、文档表、页表)构建一个具有目录、文档、页面三级结构的虚拟目录系统,其中,目录表的定义如表1所示,文档表的定义如表2所示,页表的定义如表3所示。
  字段名   类型  说明
  DirID   INT  目录的唯一ID号
  DirName   char  目录的名称
  ParentID   INT  父目录的ID(为0表示根目录)
表1
  字段名   类型   说明
  DocID   INT   文档的唯一ID号
  DocName   char   文档的名称
  DirID   INT   文档所在目录的ID
表2
  字段名   类型  说明
  PageNo   INT  页号(0页代表全局性数据)
  DocID   char  页面所属文档的ID
  PageData   BLOB  页面数据
表3
步骤402,确定文档库系统中文档数据的存储粒度,并根据该存储粒度,将文档库系统中的文档数据拆成碎片数据。
本实施例中,确定文档数据的存储粒度、以及将文档数据拆成碎片数据的方式与实施例一中的相同,这里就不再赘述。
步骤403,确定并保存拆成的碎片数据间的组织结构。
本步骤中,确定各个碎片数据间的组织结构,如,确定各个层数据所属的文档集、文档、页面等。并将该层次结构以关系型数据库中相关表的形式进行记录。
假定存储文档Doc1中的文档数据时,该文档Doc1位于DocList1下,Doc1包含3页,存储粒度为页面。则在文档库中保存的组织结构和具体的碎片数据可以通过下面表4~6的相关表的方式存储。
 DirID   DirName   ParentID
 1   DocBase   0
 2   DocList1   1
 3   DocList2   1
表4
  DocID   DocName   DirID
  1   Doc1   2
表5
  PageNo   DocID   PageData
  1   1   Doc1第1页数据
  2   1   Doc1第2页数据
  3   1   Doc1第3页数据
表6
步骤404,保存拆成的碎片数据。
本步骤中,保存拆成的碎片数据的方式具体可以为:将拆成的各个碎片数据转换为XML文档保存到对应的相关表中;或者,还可以将碎片数据作 为文件系统中的一个文件或关系型数据库中的二进制大对象保存到对应的相关表。
至此,本实施例提供的文档库系统中文档数据的存储方法流程结束。
在应用上述方法完成文档存储后,在进行文档访问时,可以通过指定文档集名+文档名+页号+层号+…的方式,快速定位到需要访问的存储粒度对象(如页对象),获取数据并返回给应用程序。
在本实施例中,也可以对文档库、文档集的元数据、角色数据、权限数据和全局性数据等进行单独保存以提高存储空间的利用率,其具体方式与实施例一中步骤1~2类似。区别在于,对应本实施例中表示文档库系统层次结构的方式,为全局性数据等建立对应的层次结构的方式具体为:在关系型数据库的相关表中建立一个特殊的项作为相应数据对应的层次结构,在该目录下保存数据。
在具体实现时,对步骤401中设置的层次结构定义进行修改,将其中的存储粒度表定义(即页表定义)修改为表7。
  字段名   类型  说明
  PageNo   INT  页号(0页代表全局性数据)
  DocID   char  页面所属文档的ID
  PageData   BLOB  页面数据
表7
在进行碎片数据存储后,形成的页面表即变为表8:
  PageNo   DocID   PageData
  0   1   Doc1全局性数据
  1   1   Doc1第1页数据
  2   1   Doc1第2页数据
  3   1   Doc1第3页数据
表8
可以看出,其中利用页号为0的页面对应的相关表表示全局性数据对应的层次结构。可以将一致性数据作为关系型数据库中的二进制大对象、文件系统中的文件或数据库中的XML文档保存在对应的相关表中。其它包括一致性数据的碎片数据不需要再单独保存一致性数据,而只是包括对一致性数 据的引用,从而大大提高了存储空间的利用率。
当然,本实施例是以页面为存储粒度为例进行说明的,事实上,还可以建立更细的存储粒度对应的相关表,以实现以更细的存储粒度对文档进行存储。
通过上述本发明具体实施方式的描述,可以看出在本发明的方法中,首先设置文档库的层次结构;然后确定文档库系统中文档数据的存储粒度,并按照该存储粒度将文档库系统中的文档数据拆成碎片数据;确定并保存各碎片数据间的组织结构,并保存碎片数据。应用上述方法,可以实现将文档库系统中的文档数据拆分成更细的碎片数据并保存。这样,当用户检索或访问某文档时,可以快速、准确定位到最细存储粒度的级别,进行灵活高效地文档检索与内容抽取。对于基于网络的文档应用,可以只传输用户感兴趣的内容,降低了文档传输过程中的负担。
另外,由于本发明进行文档数据存储时,可以将多种格式的文档进行统一保存,因此对于文档的互通互联带来了极大的便利。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文档库系统中文档数据的存储方法,其特征在于,该方法利用树型层次结构描述文档数据、并包括:
确定文档库系统中文档数据的存储粒度,根据该存储粒度将文档库系统中的文档数据拆成碎片数据;其中,所述存储粒度为所述树型层次结构的任意一级;
按照描述文档数据的树型层次结构,确定并保存各碎片数据间的组织结构,并在相应组织结构下保存拆成的碎片数据。
2.根据权利要求1所述的方法,其特征在于,所述确定文档库系统中文档数据的存储粒度为:根据文档库系统设置的存储粒度结合文档数据的结构信息确定文档数据的存储粒度;和/或,根据用户的选择,确定文档数据的存储粒度。
3.根据权利要求2所述的方法,其特征在于,所述文档库系统设置存储粒度为:为文档库系统设置固定的存储粒度;和/或,在对文档库系统进行参数配置时配置所述存储粒度;和/或,在安装文档库系统时指定存储粒度。
4.根据权利要求1所述的方法,其特征在于,所述根据存储粒度将文档库系统中的文档数据拆成碎片数据为:分别将文档数据中的存储粒度相关数据和存储粒度无关数据拆成碎片数据。
5.根据权利要求4所述的方法,其特征在于,所述将文档数据中的存储粒度相关数据拆成碎片数据的方式为:以所述存储粒度为单位对存储粒度相关数据进行分解,得到所述碎片数据。
6.根据权利要求4所述的方法,其特征在于,所述将文档数据中的存储粒度无关数据拆成碎片数据的方式为:确定所述存储粒度无关数据在所述树型结构层次中的对应级,将每一级下的存储粒度无关数据拆分成一个或多个碎片数据。
7.根据权利要求6所述的方法,其特征在于,按照存储粒度无关数据的类别或者对应的文档拆分成所述碎片数据。
8.根据权利要求1所述的方法,其特征在于,
利用可扩展标识语言XML数据库的树型结构表示用于描述文档数据的树型层次结构;
所述保存各碎片数据间的组织结构为:
将该组织结构映射到XML数据库的树型结构中进行保存。
9.根据权利要求8所述的方法,其特征在于,所述保存拆成的碎片数据为:将碎片数据存储为XML数据库中的XML文档,利用XML数据库中的集合collection描述该XML文档的树型结构。
10.根据权利要求1所述的方法,其特征在于,
利用文件系统的树型结构表示用于描述文档数据的树型层次结构;
所述保存各碎片数据间的组织结构为:
将该组织结构存储为所述文件系统中的目录。
11.根据权利要求1所述的方法,其特征在于,
利用关系型数据库中的相关表表示用于描述文档数据的树型层次结构;
所述保存各碎片数据间的组织结构为:
将该组织结构存储为所述关系型数据库中的相关表。
12.根据权利要求1所述的方法,其特征在于,所述保存拆成的碎片数据为:
将拆成的各个碎片数据作为数据库的XML文档存储;
或者,将拆成的各个碎片数据作为文件系统的文件存储;
或者,将拆成的各个碎片数据作为关系型数据库的大对象存储。
13.根据权利要求1到12中任一所述的方法,其特征在于,所述描述文档数据的树型层次结构为:
由根至叶子节点依次包括以下的一种或任意组合:文档集、文档、页、层、对象组和对象。
14.根据权利要求1到12中任一所述的方法,其特征在于,为所有文档数据设置相同的存储粒度,或者,为文档数据的不同部分设置不同的存储粒度。
CN2007101203253A 2005-12-05 2007-08-15 一种文档库系统中文档数据的存储方法 Expired - Fee Related CN101369268B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2007101203253A CN101369268B (zh) 2007-08-15 2007-08-15 一种文档库系统中文档数据的存储方法
EP08784001A EP2180413A4 (en) 2007-08-15 2008-08-15 METHOD AND DEVICE FOR STORING DOCUMENT DATA IN A DOCUMENT BANKS SYSTEM
PCT/CN2008/072010 WO2009021465A1 (fr) 2007-08-15 2008-08-15 Procédé et dispositif pour mémoriser des données de document dans un système de banque de documents
JP2010520410A JP5152877B2 (ja) 2007-08-15 2008-08-15 文書ベースシステムにおける文書データ記憶方法およびその装置
US12/701,857 US8423521B2 (en) 2007-08-15 2010-02-08 Method and apparatus for storing document data in docbase management system
US13/691,865 US9081977B2 (en) 2005-12-05 2012-12-03 Method and apparatus for privilege control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101203253A CN101369268B (zh) 2007-08-15 2007-08-15 一种文档库系统中文档数据的存储方法

Publications (2)

Publication Number Publication Date
CN101369268A CN101369268A (zh) 2009-02-18
CN101369268B true CN101369268B (zh) 2011-08-24

Family

ID=40350402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101203253A Expired - Fee Related CN101369268B (zh) 2005-12-05 2007-08-15 一种文档库系统中文档数据的存储方法

Country Status (5)

Country Link
US (1) US8423521B2 (zh)
EP (1) EP2180413A4 (zh)
JP (1) JP5152877B2 (zh)
CN (1) CN101369268B (zh)
WO (1) WO2009021465A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236681A (zh) * 2010-04-20 2011-11-09 中兴通讯股份有限公司 一种数据存储及获取的系统及方法
US20120290926A1 (en) * 2011-05-12 2012-11-15 Infinote Corporation Efficient document management and search
WO2012083735A1 (zh) * 2011-09-15 2012-06-28 华为技术有限公司 一种文档模板管理方法和系统
CN102567545B (zh) * 2012-01-16 2014-10-29 北大方正集团有限公司 Xml数据库系统的xml文档组织管理方法及系统
CN103678302B (zh) * 2012-08-30 2018-11-09 北京百度网讯科技有限公司 一种文档结构化组织方法及装置
US9729603B2 (en) * 2012-09-27 2017-08-08 Alcatel Lucent Content stream delivery using variable cache replacement granularity
US20150052047A1 (en) * 2013-08-19 2015-02-19 Xerox Business Services, Llc Methods and systems for facilitating document banking
CN104657665B (zh) * 2015-03-12 2017-12-08 四川神琥科技有限公司 一种文件处理方法
CN106855866A (zh) * 2015-12-09 2017-06-16 北大方正集团有限公司 Xml文档存储方法及装置
CN106970928B (zh) * 2016-01-14 2020-12-29 平安科技(深圳)有限公司 文件管理方法和系统
CN106503274A (zh) * 2016-12-22 2017-03-15 北京览群智数据科技有限责任公司 一种数据整合与搜索方法及服务器
CN108055351B (zh) * 2017-12-29 2021-04-16 深圳市毕美科技有限公司 三维文件的处理方法及装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
JPH05101054A (ja) * 1991-10-04 1993-04-23 Fujitsu Ltd 部品合成による文書作成支援システム
US6546406B1 (en) * 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
JP2991142B2 (ja) * 1996-12-13 1999-12-20 日本電気株式会社 動的部品化機能付き構造化文書データベースシステム
JP3721747B2 (ja) * 1997-10-30 2005-11-30 富士ゼロックス株式会社 文書処理装置および方法並びに文書処理プログラムを記録した媒体
US7529756B1 (en) * 1998-07-21 2009-05-05 West Services, Inc. System and method for processing formatted text documents in a database
US6993527B1 (en) * 1998-12-21 2006-01-31 Adobe Systems Incorporated Describing documents and expressing document structure
NO992269D0 (no) * 1999-05-10 1999-05-10 Fast Search & Transfer Asa S°kemotor med todimensjonalt skalerbart, parallell arkitektur
AUPQ117599A0 (en) * 1999-06-24 1999-07-22 Canon Kabushiki Kaisha Split tree data structure
JP3879350B2 (ja) * 2000-01-25 2007-02-14 富士ゼロックス株式会社 構造化文書処理システム及び構造化文書処理方法
AUPR063400A0 (en) * 2000-10-06 2000-11-02 Canon Kabushiki Kaisha Xml encoding scheme
US20020152244A1 (en) * 2000-12-22 2002-10-17 International Business Machines Corporation Method and apparatus to dynamically create a customized user interface based on a document type definition
JP4045399B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 構造化文書管理装置及び構造化文書管理方法
CN1464440A (zh) * 2002-06-17 2003-12-31 财团法人资讯工业策进会 工作对象关联方法
US20060259524A1 (en) * 2003-03-17 2006-11-16 Horton D T Systems and methods for document project management, conversion, and filing
GB2401215A (en) * 2003-05-02 2004-11-03 David Nicholas Rousseau Digital Library System
US7380205B2 (en) * 2003-10-28 2008-05-27 Sap Ag Maintenance of XML documents
US7440967B2 (en) * 2004-11-10 2008-10-21 Xerox Corporation System and method for transforming legacy documents into XML documents
US7421651B2 (en) * 2004-12-30 2008-09-02 Google Inc. Document segmentation based on visual gaps
US7685150B2 (en) * 2005-04-19 2010-03-23 Oracle International Corporation Optimization of queries over XML views that are based on union all operators
CN100547590C (zh) * 2005-12-05 2009-10-07 北京书生国际信息技术有限公司 文档处理系统
US9015301B2 (en) * 2007-01-05 2015-04-21 Digital Doors, Inc. Information infrastructure management tools with extractor, secure storage, content analysis and classification and method therefor
CN101021858A (zh) * 2007-01-29 2007-08-22 华为技术有限公司 一种数据存储方法及装置及数据查找、添加、删除方法
US7895197B2 (en) * 2007-04-30 2011-02-22 Sap Ag Hierarchical metadata generator for retrieval systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全文.

Also Published As

Publication number Publication date
EP2180413A1 (en) 2010-04-28
EP2180413A4 (en) 2011-01-19
JP5152877B2 (ja) 2013-02-27
US8423521B2 (en) 2013-04-16
US20100146005A1 (en) 2010-06-10
WO2009021465A1 (fr) 2009-02-19
CN101369268A (zh) 2009-02-18
JP2010536105A (ja) 2010-11-25

Similar Documents

Publication Publication Date Title
CN101369268B (zh) 一种文档库系统中文档数据的存储方法
US7711703B2 (en) System and method for immutably storing electronic assets in a large-scale computer system
CN104915450A (zh) 一种基于HBase的大数据存储与检索方法及系统
CN108446323A (zh) 一种基于全文搜索引擎的数据检索方法及装置
Suleman Digital libraries without databases: The bleek and lloyd collection
CN102521383A (zh) 一种分布式系统中的海量文件存储和访问方法
CN101719162A (zh) 基于片段模式匹配的多版本开放式地理信息服务访问方法及系统
Saba et al. A comparative analysis of xml documents, xml enabled databases and native xml databases
CN101702180A (zh) 一种关联字段值的查找方法及系统
CN101419611A (zh) 用于在xml数据库上执行操作的方法
Chiu et al. Hierarchical caches for grid workflows
Gayathiri et al. Big health data processing with document-based Nosql database
CN110704421A (zh) 数据处理方法、装置、设备和计算机可读存储介质
Spahiu A Multimedia Database Server for information storage and querying
Schering et al. From box to bin–semi-automatic digitization of a huge collection of ethnological documents
CN102004727A (zh) 一种知识数据处理系统及其方法
Boddie et al. Coping with very large digital collections using greenstone
Western et al. Livestock and their management are key to the future of Africa's wildlife.
Kirk Land tenure and land management: lessons learnt from the past, challenges to be met in the future?
Wang et al. Data Warehouse Oriented Data Integration System Design and Implementation
Kim et al. New GML storage schema models for spatial and non-spatial information
Hüttl et al. Forests and energy. 1st Hannover EXPO 2000 World Forest Forum. Selected papers.
Kim et al. Steps Toward Managing Lineage Metadata in Grid Clusters
Minghetti et al. Hotel IT innovation: creating customer value through a customer information system.
Borbinha et al. The DIGMAP virtual digital library

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD. BEI

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100089 5/F, NORTHERN REAL ESTATE BUILDING, NO.81, ZIZHUYUAN ROAD, HAIDIAN DISTRICT, BEIJING TO: 100191 ROOM 408, TAIXING BUILDING, NO.11, HUAYUAN EAST ROAD, HAIDIAN DISTRICT, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20101027

Address after: 100191, Room 408, Taixing building, 11 Garden East Road, Beijing, Haidian District

Applicant after: Beijing Suresense International Information Technology Co., Ltd.

Co-applicant after: Beijing Sursen Electronic Technology Co., Ltd.

Co-applicant after: Beijing Sursen Network Technology Co., Ltd.

Co-applicant after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Address before: North real estate building 81 No. 100089 Beijing Haidian District Zizhuyuan Road 5 layer

Applicant before: Beijing Suresense International Information Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: TIANJIN SHUSHENG INVESTMENT CO., LTD.

Free format text: FORMER OWNER: BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20120305

Owner name: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY

Free format text: FORMER OWNER: BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD. BEIJING SURSEN NETWORK TECHNOLOGY CO., LTD. BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY CO., LTD.

Effective date: 20120305

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100191 HAIDIAN, BEIJING TO: 300308 HEBEI, TIANJIN

TR01 Transfer of patent right

Effective date of registration: 20120305

Address after: 300308, Tianjin Airport Economic Zone, No. 80 North River Road airport business park, 9 East, building 2

Co-patentee after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Co-patentee after: Beijing Sursen Network Technology Co., Ltd.

Co-patentee after: Beijing Suresense International Information Technology Co., Ltd.

Address before: 100191, Room 408, Taixing building, 11 Garden East Road, Beijing, Haidian District

Co-patentee before: Beijing Sursen Electronic Technology Co., Ltd.

Patentee before: Beijing Suresense International Information Technology Co., Ltd.

Co-patentee before: Beijing Sursen Network Technology Co., Ltd.

Co-patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

ASS Succession or assignment of patent right

Owner name: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY

Free format text: FORMER OWNER: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY CO., LTD. BEIJING SURSEN NETWORK TECHNOLOGY CO., LTD. BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20140319

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140319

Address after: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Patentee after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee after: Beijing Sursen Network Technology Co., Ltd.

Patentee after: Beijing Suresense International Information Technology Co., Ltd.

Patentee after: Beijing Sursen Electronic Technology Co., Ltd.

Address before: 300308, Tianjin Airport Economic Zone, No. 80 North River Road airport business park, 9 East, building 2

Patentee before: Tianjin Shusheng Investment Co., Ltd.

Patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee before: Beijing Sursen Network Technology Co., Ltd.

Patentee before: Beijing Suresense International Information Technology Co., Ltd.

ASS Succession or assignment of patent right

Owner name: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY

Free format text: FORMER OWNER: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY CO., LTD. BEIJING SURSEN NETWORK TECHNOLOGY CO., LTD. BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY CO., LTD. BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD.

Effective date: 20140827

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140827

Address after: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Patentee after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee after: Beijing Sursen Network Technology Co., Ltd.

Patentee after: Beijing Suresense International Information Technology Co., Ltd.

Address before: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Patentee before: Tianjin Shusheng Investment Co., Ltd.

Patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee before: Beijing Sursen Network Technology Co., Ltd.

Patentee before: Beijing Suresense International Information Technology Co., Ltd.

Patentee before: Beijing Sursen Electronic Technology Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170823

Address after: 300308, Tianjin Airport Economic Zone, No. 80 North River Road airport business park, 9 East, building two

Co-patentee after: Beijing Suresense International Information Technology Co., Ltd.

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Address before: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Co-patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee before: Tianjin Shusheng Investment Co., Ltd.

Co-patentee before: Beijing Sursen Network Technology Co., Ltd.

Co-patentee before: Beijing Suresense International Information Technology Co., Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110824

Termination date: 20200815