背景技术
目前应用于计算机信息资源管理的主流技术主要包括数据库技术、数据仓库技术和大数据技术,这些技术主要包括关系型数据库技术和非关系型数据库技术,这些技术主要用于对数据的管理和使用,而管理使用数据的目的是为了管理使用信息。
通过研究数据和信息的关系可知,信息是由数据以及数据的语义标签构成的,也就是可以得出以下的式子:信息=数据+语义标签。关系型数据库技术采用数据表管理多条数据记录,并管理数据表之间的字段关联的方式来管理信息资源。关系型数据库的实质是利用数据表的表结构和字段关联作为语义标签及其关系来标识和管理业务数据,从而实现对业务实体的信息建模。
非关系型数据库的典型技术是XML文档技术,XML文档是直接采用语义标签和数据成对出现的自描述方式,来分层地直接来描述实体的树形结构的信息模型。
数据仓库技术建立在关系型数据库基础之上,采用主题-多维属性的方法建立对主题的多维度的数据描述来实现业务实体信息模型的分析抽取模型,其中主题和多维属性的定义就起到语义标签的作用。
大数据技术主要是利用计算机集群的并发处理能力,来对超出关系型数据库处理能力范围的数据,进行在有效时间周期内的信息抽取的技术。大数据处理技术的“名-值对”中的“名”,也就是起语义标签的作用的元素。
以上各种技术可统称面向数据管理的技术,运用这类技术,需要通过针对具体问题专门编制的应用程序,利用其语义标签来对相应的数据进行增删改查,才能实现从数据中抽取、挖掘信息的目的。当前这类技术的发展遇到了一些瓶颈问题,导致从数据中抽取和挖掘信息变得越来越艰难。
如何建立一种直接的信息管理技术,使得应用程序和最终用户可直接在业务层面上,通过使用标准规范的信息资源库管理系统,而不必针对具体问题开发和运行从数据中抽取和挖掘信息的程序,就能以信息本身为操作对象进行规范统一的管理和使用,是目前信息资源管理领域所需要解决的问题。
另外,由于现有的信息资源管理技术中,信息资源的通常存储在固定的路径下,导致需要查找信息资源时,往往需要清晰知道该信息资源所对应的名称或者主题标签,才能查找到相关的信息资源,导致信息资源的查找较为困难,不利于信息资源的快速查找。
发明内容
本发明的主要目的是提供一种能够通过多种路径分类快速查找信息资源的信息资源管理方法。
本发明的另一目的是提供一种通用的软件系统来直接对信息资源进行管理的装置。
为了实现上述的主要目的,本发明提供的信息资源管理方法包括建立信息资源库,信息资料库用于存储多个信息资源;建立主题库,主题库用于存储多个主题,每一主题为一个以上的信息资源的组合,每一主题的多个信息资源为内容相关联的信息资源;还包括建立标签库,标签库用于存储多个标签,每一标签对应于至少一个主题,且每一主题对应于至少一个标签;建立分类库,按照标签的语义关系建立多个分类,多个分类存储在分类库中,每一分类包括至少一个标签;建立路径库,路径库用于存储至少一个路径树,每一路径树按顺序从分类库中获取多个分类进行级联,路径树由前级分类中的标签与后级分类中的标签叉乘级联形成;在路径树中的路径被选取后,以所选路径上的标签集合作为搜索条件,获取与标签集合对应的主题的集合,在主题的集合的主题被选取后,获取与主题对应的信息资源。
由上述方案可见,建立路径库后,每个路径树通过多级分类的标签之间进行叉乘级联后形成树形展开的大量路径,其中每一条路径上都有多个标签,并且随着路径每展开深入一步,路径上的标签数就逐步增加一个,以路径经过的标签作为检索条件检索到的主题的范围就越精确。由于不同的路径树的路径之间可能存在所历标签的交集,用这些标签的交集可查找出相同的主题,因此可建立对同一个主题的多重查找路径,可满足对主题查找路径的个性化需求。一旦查找出目标主题,就找到了主题所对应的信息资源,从而让人们快速地查找出所需要的信息资源。另外,人们输入检索关键词时,可以检索出以该关键词模糊匹配标签的相关主题,从而检索出相应的信息资源。
一个优选的方案是,建立路径库后,还建立应用程序接口库,应用程序接口库包括多个用于程序接口,用于对主题库、标签库、分类库以及路径库的操作进行封装并由外部应用程序访问。
由此可见,外部的应用程序可以通过应用程序接口库访问主题库、标签库、分类库以及路径库等,从而为实现与问题无关的信息资源的管理提供自动化的解决方案,方便人们通过外部应用程序对信息资源进行管理。
进一步的方案是,建立应用程序接口库后,还建立信息资源访问接口库,信息资源访问接口库用于让外部应用程序访问信息资源库。
可见,外部应用程序可以通过信息资源访问接口库快捷地访问信息资源,从而方便地制定信息资源的检索策略,也方便人们应用外部的应用程序检索信息资源。
更进一步的方案是,分类至少包括属性分类、对象群分类或者参照物对象分类中的一种。
由此可见,通过设置不同的分类方法与分类的类型,可以方便人们从不同的维度检索信息资源。
更进一步的方案是,组合路径树时,如当前的分类是多级的对象群分类时,将后级分类的首层标签与前级分类的最底层的对象标签叉乘形成路径,如当前的分类是一个参照物对象的多级分解子对象的标签时,将后级分类的首层标签于前级第二层以后的每层对象标签叉乘形成路径树。
可见,根据不同的分类情况形成不同的形式的路径,并由此形成路径树,使得路径树的组合更加合理,也确保路径库存储足够大量的路径,从而使信息资源的检索更加方便。
为实现上述的另一目的,本发明提供的信息资源管理装置包括信息资源库管理模块,用于建立信息资源库,信息资料库用于存储多个信息资源;主题库管理模块,用于建立主题库,主题库用于存储多个主题,每一主题为一个以上的信息资源的组合,每一主题的多个信息资源为内容相关联的信息资源;还包括,标签库管理模块,用于建立标签库,标签库用于存储多个标签,每一标签对应于至少一个主题,且每一主题对应于至少一个标签;分类库管理模块,用于建立分类库,按照标签的语义关系建立多个分类,多个分类存储在分类库中,每一分类包括至少一个标签;路径库管理模块,用于建立路径库,路径库用于存储至少一个路径树,每一路径树按顺序从分类库中获取的多个分类进行级联,路径树由前级分类中的标签与后级分类中的标签叉乘级联形成;信息资源检索模块,选择路径经历的标签集合作为搜索条件,获取与标签集合对应的主题的集合,在主题的集合的主题被选取后,获取主题对应的信息资源。
由上述方案可见,通过大量的标签叉乘级联形成大量的路径,由此形成路径树,在检索信息资源时,只需要输入一个标签作为检索的关键词即可以检索到包含有该检索词的信息资源。并且,也可以显示路径树名称,通过路径树名称查找得到相关路径,并查找到路径下的标签,并且随着路径每展开深入一步,路径上的标签数就逐步增加一个,以路径经过的标签作为检索条件检索到的主题的范围就越精确。由于不同的路径树的路径之间可能存在所历标签的交集,用这些标签的交集可查找出相同的主题,因此可建立对同一个主题的多重查找路径,可满足对主题查找路径的个性化需求。查找到主题后查找到相关的信息资源。这样,信息资源的查找非常快捷、方便。
具体实施方式
本发明的信息资源管理方法是应用数据库的技术,将信息资源存储在存储器上,并且应用允许外部的应用程序查找这些信息资源。本发明的信息资源管理装置是实现上述信息资源管理方法的软件程序。
参见图1,本发明的信息资源管理装置包括信息资源库管理模块11、主题库管理模块12、标签库管理模块13、分类库管理模块14、路径库管理模块15、应用程序接口库管理模块16、信息资源访问接口库管理模块17以及信息资源检索模块18。参见图2,应用本发明的信息资源管理装置所建立的信息资源管理系统30包括信息资源管理服务器20,信息资源管理服务器20内设有信息资源库21、主题库22、标签库23、分类库24、路径库25以及应用程序接口库26、信息资源访问接口库27,信息资源管理系统30还包括服务器管理系统31,用于对信息资源管理服务器20进行管理。
信息资源库管理模块11用于建立信息资源库21,并对信息资源库21进行管理。信息资源库21存储并管理大量信息资源,使每个信息资源可索引到一个在持久化的存储装置中所存储的信息资源数据文件,信息资源为各类文档文件和数据文件。
主题库管理模块12用于建立并管理主题库22,主题库22内存储有多个主题,本发明使用主题作为信息资源的管理单元,使通过每个主题可索引到一组信息资源,这组信息资源相对独立地表达了主题所承载的某项业务的内容信息。因此,每一个主题可以对应于至少一个信息资源,在检索信息资源时,只需要选取相应的主题,即可以查找到该主题对应的一个或多个信息资源。当然,每一个主题的多个信息资源为内容相关联的信息资源的集合。
并且,主题库管理模块12可以对主题库进行新建主题、删除主题、搜索主题、修改主题等操作,其中,修改主题时可以进行主题改名、增贴主题的标签、减少主题对应的标签以及更换主题标签等操作,从而实现对主题资源的管理。
标签库管理模块13用于建立并管理标签库23,本发明中,每一个主题被贴上一个或多个语义标签,用于建立主题的多重索引的标志。优选地,每一个主题可以对应于一个或多个标签,而每一个标签可以被赋予一个或多个主题,因此,主题与标签之间存在多个主题对应多个标签的关系。例如,标签可以是时间的标签,如2015年或者11月份等,也可以是人物标签,例如使用文件的起草人作为标签,还以使用文件的内如属性作为标签,例如该文件问某一项目的审批文件,可以使用该项目的名称、该项目的对象作为标签等。另外,标签库管理模块13可以对标签库23进行新建标签、删除标签、修改标签名称、提取标签信息等管理操作。
分类管理模块14用于建立并管理分类库24,由于本发明对主题的标签进行分类管理,即按标签自身的语义关系建立标签的分类,不同的标签分类代表不同的管理维度,一个标签分类可以是一个单层的标签列表,也可以是多级树结构的标签树。
分类库24用于管理所有的分类,例如在分类库24中新增、删除、修改分类,每个分类下聚集了来自标签库23的多个标签,分类可以是按属性分类、按对象群的分类或按参照物对象分类。对于按属性的分类,聚集在分类下的标签是一个列表,代表多种可能的属性值。对于按对象群的分类,可以是一级或多级分类下的对象分组划分,底层的标签代表对象群的每个对象,上层的标签代表多层分类的类别列表。对于按参照物对象的分类,聚集在分类下的标签,代表对参照物的分解结构的标识,多级的分解结构就产生一个标签树的结构。
路径库管理模块15用于建立并管理路径库25,路径库25用于管理所有的路径组合,路径库管理模块15可以在路径库25中新增、删除、改名和修改路径的组合。路径库25还存储多个路径树,一个路径树可由分类库中的一个分类的标签形成,也可由按顺序从分类库中获取的多个分类的标签级联形成,一个路径是按顺序从分类库中取一个到多个分类,多个分类形成级联关系,前级分类的标签和后级分类的标签按叉乘的规则进行级联,也就是一个前级分类的标签下,可连接后级分类的所有第一层标签,这样便可组合出一个更大规模的树状结构的标签树。这样,路径组合的名称就是这个路径的标签树的根节点。如果当前级分类是多级的对象群分类时,后级分类的首层标签只与前级最底层的对象标签叉乘级联形成路径,如果当前级分类是一个参照物对象的多级分解子对象的标签时,后级分类的首层标签可以和前级第二层以后的每层对象标签叉乘级联形成路径。
应用程序接口库管理模块16用于建立并管理应用程序接口库26,应用程序接口库26将信息资源库管理系统的全部构建和维护的操作以程序调用接口的方式定义出来,可将信息资源库管理系统封装为一个信息资源库通用服务组件,供外部应用程序调用。因此,应用程序接口库16可以将主题库22、标签库23、分类库24以及路径库25封装并由外部应用程序访问。
信息资源访问接口管理库17用于建立并管理信息资源访问接口库27,信息资源访问接口库27用于管理信息资源库21对外的信息资源访问接口,也就是可将指定的主题访问路径和主题内的信息资源索引定义为资源访问接口,以支持外部应用程序可通过这些接口直接访问相应的信息资源。
信息资源检索模块18用于检索信息资源,当用户输入检索关键词后,信息资源检索模块18通过查找包含有该关键词作为标签的所有主题,从而方便查找这些主题对应的信息资源。另外,信息资源检索模块18还用于在检索界面下显示多条路径树的名称,当路径树被选择后,显示该路径下的所有一级标签,并且随着路径每展开深入一步,路径上的标签数就逐步增加一个,以路径经过的标签作为检索条件检索到的主题的范围就越精确。由于不同的路径树的路径之间可能存在所历标签的交集,用这些标签的交集可查找出相同的主题,因此可建立对同一个主题的多重查找路径,可满足对主题查找路径的个性化需求。当某一标签被选择后,显示该标签的下一级标签或者主题,当目标主题被选择后,显示该主题对应的信息资源。
信息资源管理系统30的服务器管理系统31用于提供用户交互操作和显示界面,可通过网络连接到后台信息资源库服务组件,完成对信息资源库21的构建和维护操作。
由于信息资源管理系统30建立了应用程序接口库26以及信息资源访问接口库27,外部的应用程序32可以接入到信息资源管理服务器20并访问信息资源,从而实现与问题无关的软件系统直接对信息资源进行管理和使用。
下面结合图3说明如何建立信息资源管理服务器20的多个库。首先,执行步骤S1,建立信息资源库21,信息资源库21存储大量的信息资源。然后,执行步骤S2,建立主题库22,主题库22内存储大量主题,每一个主题可以对应一个或多个信息资源,且同一个主题下的信息资源应该是内容具有相关性的信息资源。接着,执行步骤S3,建立标签库23,标签库23内存储多个标签,一个标签对应一个或多个主题,且每一个主题可以被贴上一个或多个标签。
然后,执行步骤S4,建立分类库24,分类库24内存储有多个分类,每一个分类是按照标签的语义进行划分,一个分类下包括一个或者多个标签,分类可以是按照属性进行分类,也可以是按照对象群进行分类,也可以是按照参照物对象进行分类。
接着,执行步骤S5,建立路径库25,路径库25存储并管理有大量的路径,路径是从分类库24中获取一个到多个分类,将多个分类级联并且将多个分类下的标签进行叉乘级联形成大量路径。然后,还执行步骤S6以及步骤S7,建立应用程序接口库以及信息资源访问接口库,以便于外部的应用程序通过应用程序接口库、信息资源访问接口库来访问信息资源,并且应用信息资源管理服务器20的功能,从而实现开放性的管理。
参见图4,需要检索信息资源时,可以通过关键字模糊匹配主题的标签来索引到相关主题集合,此时,首先执行步骤S11,用户通过操作界面输入需要搜索的关键词,优选地,关键词是标签中的一个。此时,信息资源管理服务器20判断是否接收到搜索关键词,如是,则执行步骤S12,查找得到以该检索关键词模糊匹配标签的相关的主题。由于每一标签对应有一个或多个主题,通过主题库23中每一主题与标签的关系可以查找到该标签对应的主题。此时,可以通过显示设备的操作界面将查找到的主题显示出来,供用户选择。
然后,执行步骤S13,判断是有主题被选取,如由主题被选取,则执行步骤S14,在操作界面上显示该主题下的信息资源,当用户点击相应的信息资源后,显示该信息资源的具体内容,从而实现对信息资源的检索、查阅。
上述方法是通过检索关键词检索信息资源,本发明还可以通过路径树检索信息资源。参见图5,在检索的主界面显示多个路径树的名称,当然,路径树可以是由一个分类的所有标签形成的,也可以由多个分类的所有标签级联形成的,选择一个路径树,就会显示路径树的一级标签的名称,即执行步骤S21。然后,执行步骤S22,判断是否有路径被树选取,如有路径树被选取,则执行步骤S23,显示被选中的路径树第一级标签。本发明所指的路径树是预先构造好的以标签为结点的树结构,从路径树的根结点逐层下历到叶结点的每一种不同的方法,就是一条完整的路径,一个路径树可组合产生很多的完整路径。用户选择的路径是指从根结点开始,到当前选择结点为止所选择经历的标签集合,不一定是一条完整的路径。
然后,执行步骤S24,判断是否有标签被选取,如是,则执行步骤S25,显示被选择的标签的下一级标签或者该标签下的主题,并执行步骤S26,判断是否有主题被选取,如有主题被选择,则显示该主题下的信息资源,即执行步骤S27,如没有主题被选择,则返回执行步骤S24,直至有标签下的主题被选中。
这样,通过两种不同方式检索信息资源,可以让人们快速地检索到信息资源。并且,由于通过标签的叉乘级联形成大量路径,通过路径实现信息资源的检索,确保信息资源检索的快速、便捷。
由于本发明采用以主题为单元管理信息资源的最小集合,实现了对信息资源的统一管理和访问方式,屏蔽了不同数据格式和应用特点的信息资源的差异,使得零散的信息资源统一在主题的标识下,通过主题的标签建立主题间系统性的关联可形成一个有机的整体,用于构建完整的业务系统的信息模型。
并且,采用对主题关联标签的方法,给主题建立索引属性,既实现了对主题的业务语义关联的封装,又可动态维护索引个数。通过随应用的需求动态增减主题的标签,就可实现对主题的业务含义进行动态的伸缩和主题索引路径的随机应变。通过标签集合对主题进行标识,并使用标签集合为媒介,灵活地建立主题之间的聚类关系,并为主题的精准搜索和递进搜索提供了基础。
此外,本发明采用建立标签分类的方法,对标签进行系统性的组织,一方面可动态沉淀和积累以标签为单位的业务模型参照系语境,另一方面通过标签和主题的结合,可使主题自然融入业务模型参照系的语境中。
同时,本发明采用建立路径组合的方法,对主题索引路径进行多维的扩展。利用多级标签组合爆炸的特性,可实现大规模的虚拟主题路径的动态建立,既避免了在系统持久存储器中建立大量的静态目录结构,又为实现对超大规模数量的主题的均衡管理提供便利。由于主题的标签可任意设定并且可来自多个不同的语义分类,路径组合又可灵活取不同的语义分类按指定顺序构成,因此,对同一个主题,可按照实际业务的情况建立任意多重的访问路径,可适应不同的业务角色按不同的工作习惯和规范,访问到相同的主题信息资源。
可见,本发明创新地提出了一种以主题为基础的信息资源的管理方法,即一个系统性的、可动态扩展的、语义标签的信息资源标识管理方法,可广泛用于对不同领域,对不同复杂度的业务系统进行信息资源管理框架的动态建模,通过信息资源库管理系统,可实现人工方式的通用信息资源的管理。通过建立一套应用程序接口并形成应用程序接口库,可为外部程序集成应用信息资源库管理系统的功能提供接口,为应用程序实现与问题无关的信息资源管理提供通用的自动化的解决方案。通过在信息资源库管理系统中设立信息资源访问接口库,可将人工交互的方式产生的资源访问规则,动态的录入信息资源访问接口库,供其它应用程序调用来自动获取可访问的信息资源进行其他特殊的处理,实现免编程的动态数据接口的功能,为系统的应用扩展提供方便。
当然,上述的方案只是本发明优选的实施方案,实际应用是还可以有更多的变化,例如,对标签的分类可以增加新的分类方式;或者,不设置信息资源访问接口库;又或者,不设置应用程序接口库以及信息资源访问接口库,这些改变都不影响本发明的实施,也应该包括在本发明的保护范围内。