CN101226552A

CN101226552A - 一种利用多维结构树构成的目录管理海量信息的方法

Info

Publication number: CN101226552A
Application number: CNA2008100573968A
Authority: CN
Inventors: 赵文银
Original assignee: BEIJING KINGQUE DIGITAL TECHNOLOGY Co Ltd
Current assignee: BEIJING KINGQUE DIGITAL TECHNOLOGY Co Ltd
Priority date: 2008-02-01
Filing date: 2008-02-01
Publication date: 2008-07-23

Abstract

本发明属于信息管理技术领域，特别是涉及一种利用多维结构树构成的目录管理海量信息的方法。该方法包括：构建带遗传信息的地名结构树，该地方结构树只有一个根；从地名结构树中获取所需的地名信息集合，以文件方式保存到服务器上；计算机信息读取程序从存放在磁盘的文件里读取地名信息集合中包含的地名信息，根据树结点代码属性形成树状结构地名目录；将包含有分类信息的文件保存到服务器上，计算机信息读取程序从存放在磁盘的文件里读取该分类信息，在相应的地名目录下形成树状分类目录；客户端提交的目标信息存放在对应于确定地名下的对应分类目录中。利用该方法可以提高搜索和识别速度，增加了信息容量。

Description

一种利用多维结构树构成的目录管理海量信息的方法

技术领域

本发明属于信息管理技术领域，特别是涉及一种利用多维结构树构成的目录管理海量信息的方法。

背景技术

Internet/Intranet技术的发展带来了信息应用业务的迅速发展、信息化工作环境的不断完善和多类型信息的关联化应用的趋势，当今国内外企业已经开始进入依赖信息作为发展动力的时代。如今，需要企业进行管理的数据正在以指数级速度增长，以收集、整理中国城市各种综合信息为主体的大型网站为例，每天收集来自全国数万个地区的各种类型的大量信息。这些庞大的海量信息是当今大型商业网站需要面对的一个现实。任何一个企业都在面对其企业数据库由于规模扩大产生的沉重负担，提高海量数据访问能力和业务分析能力的要求也变得越来越迫切。

一般认为海量信息是以Terabyte(1000Gb)的信息为最低限度，实际上对海量信息的存储和管理应可以达到Petabyte(1000TB)的规模或者更大，比如无限扩充等。

信息组织是对信息资源进行序化和优化的过程。从网络信息特征可知，对其进行组织优化极为重要，常用的组织方式主要有四种：即文件方式、数据仓库方式、主题树方式和超媒体方式。

主题树方式提供了一个基于树浏览的、简单易用的信息检索与利用界面，适用于建立专业性或示范性的网络信息资源体系。但由于确定一个完整系统的范畴体系有一定的难度，加之要保证目录结构的清晰，每一目录下的条目不宜过多，所以不适合建立大型综合性信息资源系统。国外许多著名的搜索引擎工具都采用这种方式组织信息资源。

在现阶段，尽管有多种海量信息的管理方法，但关于海量信息的组织管理，目前还存在许多需要解决的技术困难。

发明内容

本发明为了解决现有技术中的不足，特别涉及一种利用多维结构树构成的目录管理海量信息的方法，利用该方法可以简单、方便地形成结构清晰、意义明确、目录名称属性含有遗传信息、每层目录数量可控、可扩展性强的树状结构目录，同时目标信息存放在相应地名的相应分类目录下，提高了搜索和识别速度，增加了信息容量。

本发明的技术方案如下：

一种利用多维结构树构成的目录管理海量信息的方法，该方法包括如下步骤：

1)、构建带遗传信息的地名结构树，该地名结构树只有一个根；地名结构树中的分段代码信息由2个字符、数字或符号组成；

地名结点信息包含其祖先的全部信息，一个完整的结点代码信息是分段代码信息的集合，代码信息的执行是按照从左到右的顺序执行，且代码信息中包含有纵向和横向的位置关系；

所述的代码信息是由一张2维表构成的，每个分段代码是表里的一个数据点，每个父结点的子结点数量≤99，分段代码的数量≤99，每个分段代码包含其在分段代码信息集合中的位置，位置小的分段代码为兄长。

2)、从地名结构树中获取所需的地名信息集合，以文件方式保存到服务器上；对于所述集合，至少包含一个地名结点代码，结点代码可以任意排列；其中给定一个结点代码，可以得到一个包含祖先结点的分支，以及得到分支上任意一个结点左边的兄结点代码信息。

3)、计算机信息读取程序从存放在磁盘的文件里读取地名信息集合中包含的地名信息，根据树结点代码属性形成树状结构地名目录；计算机信息读取程序从存放在磁盘的文件里读取地名信息集合里的一个地名结点代码信息，判断结点代码长度是否小于等于第一级目录设置的长度，如果是，该结点代码为第一级目录的名称属性，第二级目录的名称属性定义为root；否则，从结点代码中取与第一级目录设置的长度相等数量的代码，作为第一级目录的名称属性，剩余的代码为第二级目录的名称属性；

地名目录有一个并且只能有一个虚拟的根目录，虚拟的根目录名称属性出现在所有第一级地名目录的名称属性中。

4)、将包含有分类信息的文件保存到服务器上，计算机信息读取程序从存放在磁盘的文件里读取该分类信息，在相应的地名目录下形成树状分类目录；分类信息文件至少包含信息分类名称和工作分类名称；

分类目录属于一个确定的地名，且目录位置具有明确的含义，任何地名下分类目录的构建方式是相同的。

5)、客户端提交的目标信息存放在对应于确定地名下的对应分类目录中。目标信息以文件方式唯一地存放在相应的分类目录中，且目标信息具有确定的信息分类，时间属性和确定的工作分类。

从以上方案可以看出，本发明提供的一种利用多维结构树构成的目录管理海量信息的方法具有以下效果：

1、具有信息遗传特征的结构树使得目录具有可控性、规律性，大大提高了查找和识别信息的速度；

2、以地名作为目标信息的存放目录，大大提高了对信息的管理容量；同时由于地名目录属性、分类目录属性等包含在目标信息里，因此提高了信息的精确管理度；

3、由于地名结构树和分类结构树具有无限层的功能，对应的树状目录也同样具有无限分层的功能，因此可以对地名以及分类进行最小粒度的细分，同时由于地名结构树的独有特征，在进行地名扩充时，简单、实用、速度快。

附图说明

图1为本发明利用多维结构树构成的目录管理海量信息的方法的处理流程图。

图2为本发明多维结构树构成的树状目录的示例图。

具体实施方式

下面参照附图结合具体实施例对本发明作进一步详细的说明。

以8层地名结构以及分类、时间、工作类型等属性为例，详细说明多维结构树构成的目录管理海量信息的方法。

图1是根据本发明利用多维结构树构成的目录管理海量信息的方法的处理流程图。

步骤101、构建地名结构树。指定一个地名结构的根，本例以现实中物理存在的地名结构为原形，创建地名结构树，其根为太阳，结点代码为bb，只有一个分段代码，并且必须是分段代码集合中的第一个。

步骤102、从地名结构树中获取所需的地名信息集合。

可以根据需要从任何结点提取地名信息，本例从根开始提取信息，提取的内容为“万寿路街道”下属的全部居委会信息。

步骤103、读取集合中包含的地名信息，根据树结点代码属性逐层形成树状结构目录。比如本例中读取翠微路社区居委会的结点代码信息bbbbbbbbbbbbbbbb，其对应的树状结构目录为：

bbbbbbbbbbbb/bbbb/

该目录共8层，每层包含2个字符，为一个完整的分段代码。

第一级目录取6层，本例中6层表示地级城市以上的级别为第一级目录，之后的为第2级目录，如果代码总长度只到第6层，则第2级目录名称属性规定用root代替。

图2是本例所展示的是8层地名结构树，太阳-->地球-->亚洲-->中国-->北京市-->海淀区-->万寿路街道-->翠微路社区居委会。

翠微路社区居委会的结点代码为：bbbbbbbbbbbbbbbb，由8个分段代码组成，其树状结构目录对应的地名含义为：

海淀区/翠微路社区居委会。

步骤104、读取分类、工作类型、时间信息，在对应的地名目录下创建目录。

图2中的bbbbbbbbbbbb/bbbb/info_city/work_dnbfbd，2007-8-1是在地名“翠微路社区居委会”下的分类目录；

info_city为分类名称；

work_dnbfbd为工作类型；

2007-8-1为目标信息的创建日期。

步骤105、从目标信息中提取地名信息、分类、工作类型、创建日期属性，并把目标信息以文件的方式存放在由这些属性信息构建的目录下。

经过以上的步骤，就可以得到利用多维结构树构成的目录管理海量信息的方法。

以上，仅以8层地名结构为例，对本发明利用多维结构树构成的目录管理海量信息的方法进行了详细的说明，但是本发明所提供的方法同样使用于其它领域，在其它领域的实现方法和以上所述的方法基本一致，这里不再赘述。

以上所述，仅为本发明的具体实施例而已，并非用以限定本发明的保护范围。

Claims

1.一种利用多维结构树构成的目录管理海量信息的方法，其特征在于包括如下步骤：

1)、构建带遗传信息的地名结构树，该地名结构树只有一个根；

2)、从地名结构树中获取所需的地名信息集合，以文件方式保存到服务器上；

3)、计算机信息读取程序从存放在磁盘的文件里读取地名信息集合中包含的地名信息，根据树结点代码属性形成树状结构地名目录；

4)、将包含有分类信息的文件保存到服务器上，计算机信息读取程序从存放在磁盘的文件里读取该分类信息，在相应的地名目录下形成树状分类目录；

5)、客户端提交的目标信息存放在对应于确定地名下的对应分类目录中。

2.根据权利要求1所述的一种利用多维结构树构成的目录管理海量信息的方法，其特征在于：所述步骤1)的地名结构树中的分段代码信息由2个字符、数字或符号组成；

3.根据权利要求1所述的一种利用多维结构树构成的目录管理海量信息的方法，其特征在于：所述的结构树的形成过程如下：

给定一个根结点代码，若结点代码信息只包含一个分段代码，则该分段代码必须是分段代码信息集合中的第一个；

给定一个父结点，获取一个子结点分段代码，父结点代码加上分段代码就得到一个子结点代码；

其中每一个地名结点代码信息包含其祖先的信息。

4.根据权利要求1所述的一种利用多维结构树构成的目录管理海量信息的方法，其特征在于：所述步骤2)中，对于所述集合，至少包含一个地名结点代码，结点代码可以任意排列；其中给定一个结点代码，可以得到一个包含祖先结点的分支，以及得到分支上任意一个结点左边的兄结点代码信息。

5.根据权利要求1所述的一种利用多维结构树构成的目录管理海量信息的方法，其特征在于所述步骤3)包括：

计算机信息读取程序从存放在磁盘的文件里读取地名信息集合里的一个地名结点代码信息，判断结点代码长度是否小于等于第一级目录设置的长度，如果是，该结点代码为第一级目录的名称属性，第二级目录的名称属性定义为root；否则，从结点代码中取与第一级目录设置的长度相等数量的代码，作为第一级目录的名称属性，剩余的代码为第二级目录的名称属性；

6.根据权利要求1所述的一种利用多维结构树构成的目录管理海量信息的方法，其特征在于：所述步骤4)中分类信息文件至少包含信息分类名称和工作分类名称；

7.根据权利要求1所述的一种利用多维结构树构成的目录管理海量信息的方法，其特征在于：所述步骤5)中的目标信息以文件方式唯一地存放在相应的分类目录中，且目标信息具有确定的信息分类，时间属性和确定的工作分类。