CN103914488B - 文档的采集、标识、关联、搜索及展现的系统 - Google Patents
文档的采集、标识、关联、搜索及展现的系统 Download PDFInfo
- Publication number
- CN103914488B CN103914488B CN201310006266.2A CN201310006266A CN103914488B CN 103914488 B CN103914488 B CN 103914488B CN 201310006266 A CN201310006266 A CN 201310006266A CN 103914488 B CN103914488 B CN 103914488B
- Authority
- CN
- China
- Prior art keywords
- document
- relation
- graph
- module
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Abstract
本发明公开了文档的采集、标识、关联、搜索及展现的系统,搭建了某一专业领域的基于计算机系统的知识管理系统,提高了对专业领域知识的学习效率和利用效率。其技术方案为:在不特定文档中以关键词搜索方式标识和关联与一组关键词有文档间逻辑关系的一系列文档,并对该系列文档组成的关系图以该组关键词按一定的逻辑组合进行命名。并以符合人脑思维逻辑的方式将该系列的文档间关系图通过图形化的形式展现出来。
Description
技术领域
本发明涉及文档系统,尤其涉及在某一特定专业领域中对在线或单机文档(含手持设备)的采集、标识、关联、搜索和展现的高效的处理系统。
背景技术
通过世界上现有的许多文档的搜索及展示的系统,专业技术人员获取、学习并研究文档,并需要从多份生成日期不同、作者不同(独立作者或联合作者)的文档中获取有效的信息作为相关行事准则的参考依据。可能最终需要的某一知识内容仅占其所查询的文档内容5%以下,而且这些知识内容可能分散在若干个不明显相关的文档之中。
本申请人认识到,需要为这些专业技术人员,从他们所关心的领域中寻找到符合他们要求的、准确的特定信息,即需要在海量文档提取出相应信息的解答是非常耗时的。而且能够为这些专业人员提供相关类似服务的人员非常稀少。
因此,本申请人认识到需要建立一种更好的针对文档进行采集、标识、关联、搜索及展现的系统方法。
发明内容
本发明的目的在于解决上述问题,提供了一种文档的采集、标识、关联、搜索及展现的系统,搭建了某一专业领域的基于计算机系统的知识管理系统,提高了对专业领域知识的学习效率和利用效率。
本发明的技术方案为:本发明揭示了一种文档的采集、标识、关联、搜索及展现的系统,包括文档分类存储管理平台服务器、文档库平台服务器以及客户端访问装置,其中文档分类存储管理平台服务器包括单一文档的采集装置、单一文档的标识和关联装置以及文档间关系图建立装置,文档库平台服务器包括文档间关系图的搜索装置以及文档间关系图的展现装置,文档存储装置的主节点部署在文档分类存储管理平台服务器上,文档存储装置的主节点的镜像版本部署在文档库平台服务器上,其中:
单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导入;
单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置;
文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义;
文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到文档分类存储管理平台服务器的数据库中,将指定的格式文件归档到文档库平台服务器中,并通过数据交换引擎将相关数据信息在文档分类存储管理平台服务器和文档库平台服务器之间传输数据;
文档间关系图的搜索装置,建立具有自动维护功能的文档间关系图索引,并根据输入的查询词语对文档间关系图进行全文检索;
文档间关系图的展现装置,对文档间关系图进行展示、对文档间关系图中的某个文档单元的单独展现以及对文档间关系图中的某个文档单元对应的单一文档全文进行展现。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,单一文档的采集装置进一步包括:
格式整理模块,将文档整理成指定的格式文件;
分类信息标识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识;
文件导入模块,连接分类信息标识模块,将添加了分类信息的格式文件导入到系统中。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,单一文档的标识和关联装置进一步包括:
关键词维度设定模块,对关键词的维度进行设定;
关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义;
文档分类设定模块,按照关键词对单一文档进行分类设定;
文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,单一文档的标识和关联装置还包括:
文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元;
文档单元标识模块,对文档单元进行若干个关键词的系统标识;逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间关系图建立装置进一步包括:
关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名;
文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档存储装置进一步包括:
关系型数据库管理系统,用于建立文档分类存储管理平台;
文档库管理系统,用于建立文档库平台;
写入操作模块,对各装置的调用执行数据库的写入操作;
保存操作模块,对各装置的调用以归档功能保存相应的单一文档文件或文档间关系图文件;
平台数据传输模块,通过数据交换引擎将相关数据在文档分类存储管理平台服务器和文档库平台服务器之间传递。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间关系图的搜索装置进一步包括:
索引建立模块,建立一套具有自动维护功能的文档间关系图索引;
关键词检索模块,根据用户输入的查询词语对文档间关系图进行全文检索。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间关系图的展现装置进一步包括:
文档间关系图展现模块,根据用户的搜索结果展现指定的文档间关系图;
文档单元展现模块,根据用户的搜索结果对指定的文档间关系图中的某个文档单元的展现;
单一文档展现模块,根据用户的搜索结果对指定的文档间关系图中的某个文档单元对应的单一文档全文的展现。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,系统还包括文档释读采集平台服务器,其中包括:
文档释读采集装置,采集用户对文档的解释内容相关的输入数据;
数据采集审核装置,对采集到的输入数据进行审核;
文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,具体的实现方式还包括基于云技术构建的服务架构体系,实现诸如云端的数据查询、程序更新以及文件更新处理等服务。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的标识。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
本发明还揭示了一种文档的采集、标识、关联、搜索及展现的系统,以单机版的方式在单台设备上运行,包括:
单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导入;
单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置;
文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义;
文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到单台设备的数据库中,将指定的格式文件归档到单台设备的数据库中;
文档间关系图的搜索装置,建立具有自动维护功能的文档间关系图索引,并根据输入的查询词语对文档间关系图名称进行全文检索;
文档间关系图的展现装置,对文档间关系图进行展示、对文档间关系图中的某个文档单元的单独展现以及对文档间关系图中的某个文档单元对应的单一文档全文进行展现。
单机版打包发布装置,将通过文档存储装置所最终保存的数据及归档后指定格式的文件、文档间关系图的搜索装置程序可执行文件及配套附属文件、文档间关系图的展现装置程序可执行文件及配套附属文件打包成一个完整的发布包裹。并根据目标平台的不同有针对性的生成发布装置程序可执行文件及配套附属文件。
客户端安装装置,通过执行发布装置的程序可执行文件,将发布包裹完整的展开到单台设备上,包括:通过文档存储装置所最终保存的数据及归档后指定格式的文件、文档间关系图的搜索装置程序可执行文件及配套附属文件、文档间关系图的展现装置程序可执行文件及配套附属文件。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,单一文档的采集装置进一步包括:
格式整理模块,将文档整理成指定的格式;
分类信息标识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识;
文件导入模块,连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,单一文档的标识和关联装置进一步包括:
关键词维度设定模块,对关键词的维度进行设定;
关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义;
文档分类设定模块,按照关键词对单一文档进行分类设定;
文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,单一文档的标识和关联装置还包括:
文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元;
文档单元标识模块,对文档单元进行若干个关键词的系统标识;
逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间关系图建立装置进一步包括:
关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名;
文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间关系图的搜索装置进一步包括:
索引建立模块,建立一套具有自动维护功能的文档间关系图索引;
关键词检索模块,根据用户输入的查询词语对文档间关系图名称进行全文检索。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间关系图的展现装置进一步包括:
文档间关系图展现模块,根据用户的搜索结果展现指定的文档间关系图;
文档单元展现模块,根据用户的搜索结果展现指定的文档间关系图中的某个文档单元的展现;
单一文档展现模块,根据用户的搜索结果展现指定的文档间关系图中的某个文档单元对应的单一文档全文的展现。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,系统还包括文档释读采集子系统,其中包括:
文档释读采集装置,采集用户对文档的解释内容相关的输入数据;
数据采集审核装置,对采集到的输入数据进行审核;
文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。
根据本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例,文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
本发明对比现有技术有如下的有益效果:本发明的方案是在海量文档中以关键词搜索方式寻找到与一组特定的关键词有文档逻辑关系的一系列文档,并对该特定的一系列文档间的关系图以一组与之强相关的关键词进行命名,以符合人脑思维逻辑的方式将该系列的文档间关系图通过图形化的形式展现出来。具体而言,本发明的方案是由若干台服务器群以约定的排序方式收集保存某一专业领域的日益增多的文档,并将其放置于相应的数据库进行保存。由文档分类存储管理平台对最新文档进行采集后按多个维度的关键词对文档进行文档片段分类,根据指定的关键词抽取所有对应的文档片段组成文档单元,建立关键词索引,并通过文档单元同时产生符合人脑思维逻辑的关系图,并以多个维度的关键词组对该文档关系图进行命名。通过数据交换引擎将多个维度的关键词定义文档片段分类后的文档及其索引,以及符合人脑思维逻辑的文档关系图传送到文档库平台。系统使用者可以通过电脑终端登录或其他单机设备(含手持设备)文档库平台的网页入口,并从系统中输入多个维度的关键词来查询特定文档及文档关系图,系统以关联程度自动排序,系统将进行文档正文、文档间关系图名称等元素进行分词并进行全文检索,帮助用户找到相关特定知识点的关系图。
通过这一系统的搭建,可以帮助使用者以最快的速度从数据库的海量文档中搜索到某一具体文档间关系图完整内容和相关信息,提高对该专业领域知识的学习效率和利用效率。
附图说明
图1是对应于本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例的框图。
图2A-2F分别示出了系统中各个装置的细化结构。
图3是对应于本发明的一个操作图1系统及针对文档搜索及展现的示例性方法的框图。
图4是对应于本发明的单一文档的采集装置的数据库层面实现原理图。
图5是对应于本发明中的文档采集加工及文档间关系图定义的框图。
图6是对应于本发明的单一文档标识关联装置及文档间关系图建立装置数据库层面实现原理图。
图7是对应于本发明中的文档分类存储管理平台、文档库平台之间数据流通部分实现框图。
图8是对应于本发明中的文档间关系图的搜索实现原理框图。
图9是对应于本发明的文档间关系图搜索装置数据库层面实现原理图。
图10是对应于本发明中的文档间关系图展示实现原理框图。
图11是本发明的文档的采集、标识、关联、搜索及展现的系统的另一实施例的框图。
图12是图11所示的实施例的系统运行流程图。
图13是文档释读采集平台服务器的细化结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1示出了本发明的文档的采集、标识、关联、搜索及展现的系统的一实施例的结构。本发明的系统既适用于在线文档,也适用于单机文档(包含手持设备)。本发明的实施例是以在线文档为例来说明的,单机文档的应用类似,区别仅在于改成单机版,这是本领域技术人员熟知的。请参见图1,本实施例的系统包括文档分类存储管理平台服务器10、文档库平台服务器12以及客户端访问装置14。客户端访问装置14不限数量,可以为图1所示的三个:客户端访问装置140、142、144。
文档分类存储管理平台服务器10除了常见的中央处理器、操作系统以及数据交换引擎之外,还包括控制应用部分:单一文档的采集装置100、单一文档的标识和关联装置102、文档间关系图建立装置104、以及部署在文档分类存储管理平台服务器上的文档存储装置的主节点106。
文档库平台服务器12除了常见的中央处理器、操作系统以及数据交换引擎之外,还包括控制应用部分:文档间关系图的搜索装置120、文档间关系图的展现装置122以及部署在文档库平台服务器上的文档存储装置的主节点的镜像版本124。
单一文档的采集装置100总体实现了所需管理类型文档的搜集、初步加工以及导入系统的功能。图2A示出了单一文档的采集装置100的内部结构,结合图2A,单一文档的采集装置100部署在文档分类存储管理平台服务器10上,装置100包括:格式整理模块1000、分类信息标识模块1002、文件导入模块1004。
格式整理模块1000在系统外将文档整理成指定的格式文件。
分类信息标识模块1002在系统外将格式文件按照要求添加初步分类信息,包括但不限于:标题信息、标识号信息、文档头信息、文档正文信息、附件信息、多语言版本信息等。
文件导入模块1004将格式文件通过系统导入到文档分类存储管理平台服务器10上。
图3示出了本发明系统的运行流程,结合图3说明单一文档的采集装置100的运行流程如下。
首先,提供包含至少一个将指定格式的文档文件与文档数据关联起来的数据结构(文档信息基础表、作者表、文档全文内容表、文档全文关键词表)的知识库。图4示出了单一文档的采集装置100的数据库层面的表间关系。
本发明的系统提供给用户一套完整的采集指定文档的系统工具及其实现方法,用户可以发起一个文档采集的流程。流程请参见图5所示的第1列部分。
用户可以对由上一步搜集的文档进行判断,判断其是否具有收录的价值,如果没有则本流程终止,反之则继续进行后续处理。
然后,将文档整理成系统能够识别的指定文件格式后上传到系统临时库中。响应于接收到来自请求者的上传请求,将所使用的上传文件通过文件流的方式传送到服务器端,将指定的符合格式要求的文件分行读取并解析。
对提交的文档进行审核,判断其格式及内容是否符合要求,如果不符合要求则退回文件上传临时库这一步骤要求重新处理。如果审核通过后,则将指定格式文件中的信息分字段并经过转换后存入到文档信息基础表中,将该文档的作者存入到作者表中(一个文档可以有多个作者,因此允许有多条记录),其中基础表ID字段是文档信息基础表的外键,并将文档正文对应的关键词存入文档全文关键词表中(文档正文可以有多个关键词,因此允许有多条记录),其中全文内容表ID是全文内容表的外健。
在上述操作全部成功之后,将指定格式文件存入到文档库中,并将执行结果反馈给请求者。上述写入数据库以及文档库的操作都是调用文档存储装置106来实现的。
单一文档的标识和关联装置102是本发明的重要组成部分之一,部署于文档分类存储管理平台服务器10上,其主要实现以下功能:1、按照不同的维度对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表;2、对单一文档按照不同的属性进行定义,这些相关属性成为系统的查询条件;3、在单一文档中设置若干个文档单元;4、定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表;5、通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置。
图2B示出了单一文档的标识和关联装置102的内部结构。结合图2B,单一文档的标识和关联装置102包括:关键词维度设定模块1020、关键词定义模块1022、文档单元标识模块1023、文档分类设定模块1024、文档片段设定模块1026。
除此之外,单一文档的标识和关联装置102还包括:文档单元设置模块1021、逻辑关联模块1025。文档单元设置模块1021将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元。逻辑关联模块1025定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
关键词维度设定模块1020对关键词的维度进行设定。关键词定义模块1022连接关键词维度设定模块1022,对关键词各维度所对应的关键词进行定义。文档单元标识模块1023对文档单元进行若干个关键词的系统标识。文档分类设定模块1024按照关键词对单一文档进行分类设定。文档片段设定模块1026按照关键词对文档的各文档片段进行分类设定。
在单一文档进行属性标识的同时,建立起多个维度的关键词分类体系,使用关键词对文档进行多角度全方位的划分。具体方法包括:针对文档的每一个文档片段分别标识一组关键词;在同一个文档中将拥有含义相似、概念相近关键词的文档片段从不同维度定义为若干个文档单元;依据分门别类、解构建构的思路设定这些文档单元之间的逻辑关系,并对每一种逻辑关系设定一个专属的图标进行标识,组成的最基本展现画面称之为文档间关系图展现。例如,派生关系表示:文档B是依据文档A的某一的文档片段撰写的。平行关系表示:对于共同基于文档A的某一的文档片段撰写的两个或多个文档间的关系,为平行文档。设定平行文档时,发布时间早的居左,发布时间晚的居右。
文档间关系图一般会根据不同的专业领域分别定义若干个不同维度的关键词中至少选择不少于2个的关键词组成。
单一文档的标识和关联装置102在收到操作者的对单一文档进行标识和关联的命令后执行相关操作并与用户进行交互,内部数据库表间的关系请参见图6。
单一文档的标识和关联装置102的内部运行流程参见图5第2列所示。提供包含至少一个将关键词数据与文档数据、文档片段数据关联起来的数据结构(关键词表、文档信息基础表、文档全文内容表、文档全文关键词表、文档段落内容表、文档段落关键词表)的知识库。
系统提供对关键词维度进行定义的功能,对应数据库关键词表中的关键词种类字段。系统提供对已确认的关键词维度进行编辑具体的关键词的功能,包括但不限于:关键词名称、关键词维度(种类)等属性进行编辑,并发起一个关键词定义的流程。
系统提供对提交的关键词必要性及其各属性设置情况进行审核的功能,如果审核不通过则退回具体关键词编辑的步骤,如果审核通过则将数据保存入数据库的关键词表中。
系统提供将文档按文档片段分别定义对应的关键词的功能。该功能将数据存入文档段落内容表、文档段落关键词表。文档片段其中文档段落内容表的基础表ID字段是文档信息基础表的自增长ID字段的外键文档段落关键词表的段落表ID是文档段落内容表的自增长ID字段的外键,关键词ID字段是关键词表的自增长ID字段的外键。
系统提供将文档正式存入文档分类存储管理平台数据库及文档库,并执行发布操作的功能。
上述写入数据库、文档库的操作最终都是调用文档存储装置106来实现。
文档间关系图建立装置104部署于文档分类存储管理平台服务器10之上,其对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义。
如图2C所示,文档间关系图建立装置104包括关键词命名模块1040和文档间关系图生成模块1042。关键词命名模块1040对任一具体的文档间关系图通过特定的一组关键词进行命名。文档间关系图生成模块1042用于生成文档间关系图,包括文档间关系图中相关文档单元群的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
文档间关系图建立装置104在接收到操作者的文档间关系图建立命名后执行相关操作,并与用户进行交互,流程请参见图5第3列所示,而数据库表间关系请参见图6。
提供包含至少一个将关键词数据与文档数据、文档间关系图数据关联起来的数据结构(关键词表、文档信息基础表、文档全文内容表、文档全文关键词表、文档段落内容表、文档段落关键词表、文档间关系图头表、文档间关系图基本表、文档间关系图对应段落表)的知识库。
系统中提供一套完整的对文档间关系图进行创建及维护流程的功能。系统提供一种定义本文档间关系图所涉及到的关键词维度的功能。并定义所设计关键词维度中需要对应的具体关键词。将数据存入文档知识点头表,其中关键词维度1ID~关键词维度[N]ID分别是关键词表自增长ID字段的外键。
系统将会根据所设定的关键词列出所有符合条件的文档,并且按同时符合数的数量降序排序。
系统提供一种列出在所有符合条件的文档中筛选出最符合本文档间关系图概念的文档单元的功能。就某一特定专业领域的文档间的逻辑关系而言,可分为N类(N为自然数)逻辑关系,比如:派生关系(即A派生B)、平行关系/与关系(即A与B平行)、或关系(即A或B皆成立)、包含关系(即A包含B)、修订关系(即B对A的部分表述、内容进行修订)、覆盖关系(B的内容完全包含A,但又明显比A完整,业内广泛认同B而不是A,则A被B覆盖)、否定关系(A与B相反)。
举例来说,A教材中分为10章,每章分10节。第4章和第5章分别讲解同一事物的两个不同的属性,属于平行关系。第1章与第1章第2节属于包含关系,即第1章包含第1章第2节。第8章第3节和第8章第4节阐述了同一事物的两个相反的但都未被证实的理论假设,前者成立则后者不能成立,反之亦如是,即两者是否定关系。第9章第7节和第9章第8节阐述了同一事物的两个平行的但都未被证实的理论假设,前者成立与后者成立没有必然关系,即两者是或关系。B教材中的第X章是对A教材第5章的释读,则前者与后者是派生关系。
在此,系统将会为每一种文档间的逻辑关系赋与唯一的图形标识,在展示时以该特定标识作为两个文档单元之间的逻辑关系的标识,以便系统使用者直接理解和辨识。
每一个单一文档都可以被分解成若干个文档片段,每个文档片段可以被定义为一个文档单元。对于某一专业领域的任何文档,必然拥有该领域的一个以上专业术语的属性,这个专业术语可以通过计算机系统赋值的形式定义为与该文档单元文档片段对应的关键词。
举例来说,文档片段X和Y是平行关系,文档片段X对应的关键词为A、B、C、D,文档片段Y对应的关键词为B、C、D、E,则当以B-C-D关键词进行搜索,则系统显示结果为B-C-D。
每一个选中的文档单元都会在文档间关系图基本表中以记录的形式体现,其中知识点头表ID字段是文档间关系图头表的自增长ID字段的外键,文档基础表ID是文档信息基础表的自增长ID字段的外键,元素ID字段是根据规则自动产生的。具体规则为:
文档单元:“PF_”+选择元素时时间戳所转换的数字;
派生关系:“PL_”+选择元素时时间戳所转换的数字;
平行关系:“PE_”+选择元素时时间戳所转换的数字;
修订关系:“PM_”+选择元素时时间戳所转换的数字;
覆盖关系:“PN_”+选择元素时时间戳所转换的数字;
包含关系:“PQ_”+选择元素时时间戳所转换的数字;
否定关系:“PT_”+选择元素时时间戳所转换的数字。
同时在子表文档间关系图对应段落表中需要填入所选择文档单元具体所对应的段落号,其中文档间关系图基本表ID字段是文档间关系图基本表自增长ID字段的外键,段落序号字段是文档段落内容表的段落排序号字段的外键。
系统提供对所筛选出的文档单元进行布局,同时设置这些文档单元之间的逻辑关系的功能,这种逻辑关系包括但不仅限于:派生关系、平行关系、修订关系、覆盖关系、包含关系、否定关系等。
实现的方法为:先添加所要连接关系的文档单元到设计区上,调整坐标位置;再添加所需要设计的关系到设计区上,系统将实时画出关系图形效果,并可以根据用户的拖拽移动调整关系元素的位置、大小、粗细等细节;分别设定关系元素的连接两端的文档单元元素,关系元素的两端只能选择文档单元元素,文档单元元素也只能由关系元素连接起来。
以派生关系为例,在文档间关系图基本表中,派生关系元素需要分别设置它的上元素ID、下元素ID。同时被上元素ID、下元素ID选中的两个文档单元,在该表中同样要更新下元素ID及相应的上元素ID,以及对被上元素ID所对应的文档单元需要设置它跳过关系元素直接连接到的下元素实体ID,对被下元素ID所对应的文档单元需要设置它跳过关系元素直接连接到的上元素实体ID。这里的上元素ID、下元素ID、上元素实体ID、下元素实体ID都是文档间关系图基本表中的元素ID字段的外键。
其他如平行关系、修订关系、覆盖关系、包含关系、否定关系都是按与派生关系相同的处理方法进行处理;
同时对于文档单元在文档间关系图基本表中需要记录它在设计区上的元素开始X坐标、元素开始Y坐标,以设计区左上角为(0,0)点。
同时对于各关系元素在文档间关系图基本表中需要记录它在设计区上的元素开始X坐标、元素开始Y坐标、元素结束X坐标、元素结束Y坐标,以设计区左上角为(0,0)点,以及线条图片流数据。
其中线条图片流数据,是将在设计区上所最终确定下来关系元素的大小、粗细等细节转换成非常通用的矢量图png图片格式并再次转换成二进制的图片流数据存储到数据库。
系统提供对所提交的文档间关系图进行审核的功能,判断该文档间关系图的定义以及文档单元间的逻辑关系设置等是否正确,如果不正确则将退回文档间关系图的创建的这一步重新执行,反之审核通过则继续进行后续处理。
系统提供将文档间关系图正式存入文档分类存储管理平台数据库及文档库,并执行发布操作的功能。
上述写入数据库、文档库的操作最终都是调用文档存储装置106来实现。
文档存储装置的主节点106部署在文档分类存储管理平台服务器10之上,而在文档库平台上部署主节点的镜像版本124。文档存储装置106根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到文档分类存储管理平台服务器的数据库中,将指定的格式文件归档到文档库平台服务器中,并通过数据交换引擎将相关数据信息在文档分类存储管理平台服务器和文档库平台服务器之间传输数据。
如图2D所示,文档存储装置106包括关系型数据库管理系统1060、文档库管理系统1061、写入操作模块1062、保存操作模块1063和平台数据传输模块1064。关系型数据库管理系统1060用于建立文档分类存储管理平台。文档库管理系统1061用于建立文档库平台。写入操作模块1062对各装置的调用执行数据库的写入操作。保存操作模块1063对各装置的调用以归档功能保存相应的单一文档文件或文档间关系图文件。平台数据传输模块1064通过数据交换引擎将相关数据在文档分类存储管理平台服务器10和文档库平台服务器12之间传递。
文档存储装置106在接收到来自其他装置的请求后执行数据库存储和文档库归档的交互式方法。
请参见图7,文档存储装置106提供包含至少一个将本系统所有平台所有数据全部关联起来的数据结构的知识库。提供包含至少一个经过配置可以按版本归档指定格式文件的文档库。提供包含至少一套完整的数据库调用接口,供单一文档的采集装置100、单一文档的标识和关联装置102、文档间关系图建立装置104、文档间关系图的搜索装置120、文档间关系图的展现装置124按需使用。提供包含至少一套完整的文档库调用接口,供单一文档的采集装置100、单一文档的标识和关联装置102用来归档及更新指定格式文件。
提供包含至少一套完整的数据同步机制,并调用数据交换引擎来使恰当的数据能够及时在文档分类存储管理平台、文档库平台两者之间流通。
文档分类存储管理平台服务器10通过接口程序与文档库平台服务器12进行数据的交互传递,部分实现请参见图7。它将需要发送的数据通过远端写入的方式写入到文档库平台待同步信号表及相关临时表,再由文档库平台的接口程序进行相关后续处理。同时它也将根据并主动抓取文档库平台中的待回传信号表及同步临时表中的数据。
当在文档分类存储管理平台服务器10上执行各种发布操作,包括但不仅限于:关键词发布、单一文档发布、文档间关系图发布等时,首先将待同步信号写入到临时表,以便接口程序循环执行周期开始时进行后续相关处理。
文档分类存储管理平台服务器10上的调度定时器,根据所设定的时间步长向量,定时循环执行接口程序,一旦因为接口程序未在一个时间步长向量内完成数据传递工作,或者因为接口程序出现异常等情况,具备智能恢复的功能。
文档库平台服务器12通过接口程序来获取文档分类存储管理库平台服务器10传递过来的数据,部分实现请参见图6。根据文档分类存储管理平台服务器10的接口程序主动推送到本平台的待同步信号表及同步临时表的相关数据对目标数据库的数据进行更新处理。同时对于由本平台的包括但不仅限于:用户行为信息等操作所产生的数据进行抓取后并写入待回传信号表及同步临时表,以便文档分类存储管理平台的接口程序进行后续处理。
当文档库平台服务器12通过接口程序接收到文档间关系图等数据时,会触发全文搜索引擎重建索引的功能。
文档间关系图的搜索装置120建立具有自维护功能的文档间关系图索引,并根据输入的查询词语对文档间关系图进行全文检索。文档间关系图的搜索装置120包括如图2E所示的索引建立模块1200和关键词检索模块1202。
索引建立模块1200建立一套具有自动维护功能的文档间关系图索引。关键词检索模块1202根据用户输入的查询词语对文档间关系图进行全文检索。
文档间关系图的搜索装置120部署在文档库平台服务器12之上,在搜到来自最终用户的请求后按照既定规则执行数据检索。运行流程如图8所示,数据库表间关系图如图9所示。
系统提供包含至少一套将文档间关系图与查询条件元素建立组合索引的数据结构的知识库。在数据库中当有文档间关系图相关信息进行同步更新时系统将自动更新,针对文档间关系图查询而特别建立的由文档间关系图名称的字段而联合建立的全文搜索索引表,数据库表间关系图请参见图9。
当用户使用文档间关系图的全文检索时,系统首先调用全文搜索引擎中的分词组件进行分词处理。再次调用全文搜索引擎进行预搜索并自动完成查询词语,针对用户输入的查询词语在文档间关系图名称列中进行检索,并根据用户的渐进输入自动完成,给出的自动完成列表中按文档间关系图被查询调用的次数(根据文档间关系图被搜索词频记录表的次数字段,该表的文档间关系图头表ID字段是文档间关系图头表的自增长ID字段的外键)降序排序。
系统根据确切的查询词语或者在自动完成列表中所选择的具体文档间关系图名称,再次调用全文搜索引擎中的分词组件进行分词处理。将分词后的各词语到全文搜索索引表中根据文档间关系图名称执行检索。系统将判断是否找到相关的结果,如果未找到将执行记录查询词语的功能,反之则继续进行后续处理。
系统将记录该查询词语(写入无结果词记录表),并将通过文档存储装置调用数据交换引擎将数据传回文档分类存储管理平台。
将检索到的查询结果按文档间关系图被搜索选择次数及网罗度进行降序排序后分页返回,将由用户点击进入查看某个具体文档间关系图。并且搜索词将高亮显示。
当用户点击某个具体的文档间关系图进入明细查看画面,系统将调用文档间关系图的展现装置122进行展示。
文档间关系图的展现装置122对文档间关系图进行展示,对文档间关系图中的某个文档单元的单独展现以及对文档间关系图中的某个文档单元对应的单一文档全文进行展现。文档间关系图的展现装置122包括如图2F所示的文档间关系图展现模块1220、文档单元展现模块1222、单一文档展现模块1224。文档间关系图展现模块1220根据用户的搜索结果展现指定的文档间关系图。文档单元展现模块1222根据用户的搜索结果展现指定的文档间关系图中的某个文档单元的展现。单一文档展现模块1224根据用户的搜索结果展现指定的文档间关系图中的某个文档单元对应的单一文档全文的展现。
文档间关系图的展现装置122部署在文档库平台服务器12之上。
文档间关系图的展现装置122在收到来自最终用户的请求后按既定规则将信息进行展现的交互式方法如图10所示,具体描述如下。
系统提供包含至少一套完整文档全文信息、完整文档间关系图信息数据结构的知识库。
系统根据最终用户的选择,将所选择的文档间关系图的自增长ID到文档间关系图头表中执行检索操作,执行文档间关系图的展示功能,数据库表间关系图请参见图6。
文档间关系图的展示处理过程为:根据文档间关系图编号到文档间关系图基本表中获取该文档间关系图的所有组成元素及其相关属性。
构建所有的文档单元,并初始化文档单元的宽度和高度以及进行坐标定位。
构建所有文档单元之间的逻辑关系,并初始化这些逻辑关系线条的长度、高度、宽度以及进行坐标定位。从数据库文档间关系图基本表中的线条图片流数据字段中将二进制数据转成为png格式的图片文件并在画面上进行显示。
处理包括但不限于:修订/被修订、覆盖/被覆盖等特殊关系的位置以及文档单元的层叠属性。当某两个文档单元修订关系元素、覆盖关系元素等特殊元素所连接时,连接的文档单元将置于上层,被连接的文档单元将被置于下层。例如:覆盖关系,A覆盖于B,则A文档单元将置于上层,B文档单元将置于A文档单元的下层,两个文档单位呈层叠显示状。
获取所有文档单元中所对应文档的具体文档片段内容,根据文档间关系图基本表的文档基础表ID字段+文档间关系图对应段落表的段落序号字段到文档段落内容表获取该文档单元所对应的全部段落内容记录,并排段落序号升序排序。
至此,文档间关系图展示处理完成,将处理结果返回并显示。
根据最终用户的选择,将所选择文档单元传递给系统执行文档单元的单独展现。
根据所选择的文档单元在文档间关系图基本表的文档基础表ID字段+文档间关系图对应段落表的段落序号字段到文档段落内容表获取该文档单元所对应的全部段落内容记录,并排段落序号升序排序,以单一文档单元的独立方式展示,独立方式整个屏幕只能看到该文档单元而不显示其他文档单元。
根据所选择的文档单位,在该单元的四周按逻辑关系的不同,在不同位置,并按该文档单元的实际连接情况,构建逻辑关系连接线。例如:A文档单元被派生关系连接于下方,同时被平行关系连接于右边,则在该文档单元的上部显示派生关系向上箭头图标,在文档单元的左边显示平行关系向左箭头图标。
同时,在文档单元单独展现画面上还提供该文档单元所在文档的文档标识号连接。
通过点击文档标识号,画面将跳转到该单一文档全文展示画面,以便用户查看完整的文档内容。
文档单元的单独展现处理完毕,将处理结果返回并显示。
根据最终用户的选择,将所选择的文档标识号到文档信息基础表中执行检索操作,执行对应该文档单元的单一文档全文展示功能。
从文档段落内容表中抽取该文档的所有段落,并按段落排序号升序排序后展现在画面上。
图11示出了本发明的系统的另一实施例的结构。本实施例的系统除了图1所示的实施例的客户端访问装置、文档分类存储管理平台服务器和文档库平台服务器之外,还包括了文档释读采集平台服务器,该服务器和文档分类存储管理平台服务器、客户端访问装置均有交互。图13示出了文档释读采集平台服务器的细化结构,文档释读采集平台服务器包括文档释读采集装置160、数据采集审核装置162、文档释读存储装置164。而与图1实施例相同的模块在此不再赘述。
文档释读采集装置160采集用户对文档的解释内容相关的输入数据。数据采集审核装置162对采集到的输入数据进行审核。文档释读存储装置164将通过审核的文档解释内容相关的输入数据加入到相应的原文中进行存储。
图12示出了系统的运行流程。文档库平台展示来源于两方面,一方面是和图1实施例相同的多维度关键词定义和维护、最新文档采集、文档整理及多维度定义建立索引、关系图建立和维护;另一方面是文档释读采集、文档释读审核以及对应关系的设置。
需要注意的是,在本发明中,可以被采集、定义、关联、搜索和展现的文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告等,包括但不限于文字、音频、视频、网页等多媒体介质,包括但不限于某一特定专业领域的知识(可以是自然科学知识,也可以是社会科学知识),也不限于中文或其它文字。
此外,上述方案具体的实现方式还包括基于云技术构建的服务架构体系,例如部署于云端的数据查询、程序更新以及文件更新处理等服务。
以上的实施例均是基于在线文档来描述的,本发明的上述方案还可稍作修改之后应用于单机文档。系统是以单机版的方式在单台设备(例如单机方式运行的计算机、手持设备等)上运行。单机版系统包括:单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置、文档存储装置、文档间关系图的搜索装置、文档间关系图的展现装置、单机版打包发布装置和客户端安装装置。
单一文档的采集装置用于将所需管理类型的文档进行搜集、初步加工和系统导入。单一文档的采集装置进一步包括:格式整理模块、分类信息标识模块、文件导入模块。格式整理模块将文档整理成指定的格式。分类信息标识模块连接格式整理模块,将格式文件按要求添加初步的分类信息标识。文件导入模块连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
单一文档的标识和关联装置按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置。单一文档的标识和关联装置进一步包括:关键词维度设定模块、关键词定义模块、文档分类设定模块、文档片段设定模块。关键词维度设定模块对关键词的维度进行设定。关键词定义模块连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义。文档分类设定模块按照关键词对单一文档进行分类设定。文档片段设定模块按照关键词对文档的各文档片段进行分类设定。此外,单一文档的标识和关联装置还包括:文档单元设置模块、文档单元标识模块、逻辑关联模块。文档单元设置模块将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元。文档单元标识模块对文档单元进行若干个关键词的系统标识。逻辑关联模块定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
文档间关系图建立装置对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义。文档间关系图建立装置进一步包括:关键词命名模块、文档间关系图生成模块。关键词命名模块对任一具体的文档间关系图通过特定的一组关键词进行命名。文档间关系图生成模块生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
文档存储装置根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到单台设备的数据库中,将指定的格式文件归档到单台设备的数据库中。
文档间关系图的搜索装置,建立具有自动维护功能的文档间关系图索引,并根据输入的查询词语对文档间关系图名称进行全文检索。文档间关系图的搜索装置进一步包括:索引建立模块和关键词检索模块。索引建立模块建立一套具有自动维护功能的文档间关系图索引。关键词检索模块,根据用户输入的查询词语对文档间关系图名称进行全文检索。
文档间关系图的展现装置对文档间关系图进行展示、对文档间关系图中的某个文档单元的单独展现以及对文档间关系图中的某个文档单元对应的单一文档全文进行展现。文档间关系图的展现装置进一步包括:文档间关系图展现模块、文档单元展现模块、单一文档展现模块。文档间关系图展现模块根据用户的搜索结果展现指定的文档间关系图。文档单元展现模块根据用户的搜索结果展现指定的文档间关系图中的某个文档单元的展现。单一文档展现模块根据用户的搜索结果展现指定的文档间关系图中的某个文档单元对应的单一文档全文的展现。
单机版打包发布装置将通过文档存储装置所最终保存的数据及归档后指定格式的文件、文档间关系图的搜索装置程序可执行文件及配套附属文件、文档间关系图的展现装置程序可执行文件及配套附属文件打包成一个完整的发布包裹。并根据目标平台的不同有针对性的生成发布装置程序可执行文件及配套附属文件。
客户端安装装置通过执行发布装置的程序可执行文件,将发布包裹完整的展开到单台设备上,包括:通过文档存储装置所最终保存的数据及归档后指定格式的文件、文档间关系图的搜索装置程序可执行文件及配套附属文件、文档间关系图的展现装置程序可执行文件及配套附属文件。
系统还包括文档释读采集子系统,文档释读采集子系统包括:文档释读采集装置、数据采集审核装置、文档释读存储装置。文档释读采集装置采集用户对文档的解释内容相关的输入数据。数据采集审核装置对采集到的输入数据进行审核。文档释读存储装置将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
在单机版的实施例中,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书所提到的创新性特征的最大范围。
Claims (22)
1.一种文档的采集、标识、关联、搜索及展现的系统,包括文档分类存储管理平台服务器、文档库平台服务器以及客户端访问装置,其中文档分类存储管理平台服务器包括单一文档的采集装置、单一文档的标识和关联装置以及文档间关系图建立装置,文档库平台服务器包括文档间关系图的搜索装置以及文档间关系图的展现装置,文档存储装置的主节点部署在文档分类存储管理平台服务器上,文档存储装置的主节点的镜像版本部署在文档库平台服务器上,其中:
单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导入;
单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置;
文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义;
文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到文档分类存储管理平台服务器的数据库中,将指定的格式文件归档到文档库平台服务器中,并通过数据交换引擎将相关数据信息在文档分类存储管理平台服务器和文档库平台服务器之间传输数据;
文档间关系图的搜索装置,建立具有自动维护功能的文档间关系图索引,并根据输入的查询词语对文档间关系图名称进行全文检索;
文档间关系图的展现装置,对文档间关系图进行展示、对文档间关系图中的某个文档单元的单独展现以及对文档间关系图中的某个文档单元对应的单一文档全文进行展现。
2.根据权利要求1所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,单一文档的采集装置进一步包括:
格式整理模块,将文档整理成指定的格式;
分类信息标识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识;
文件导入模块,连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
3.根据权利要求2所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,单一文档的标识和关联装置进一步包括:
关键词维度设定模块,对关键词的维度进行设定;
关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义;
文档分类设定模块,按照关键词对单一文档进行分类设定;
文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
4.根据权利要求3所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,单一文档的标识和关联装置还包括:
文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元;
文档单元标识模块,对文档单元进行若干个关键词的系统标识;
逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
5.根据权利要求4所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间关系图建立装置进一步包括:
关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名;
文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
6.根据权利要求5所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档存储装置进一步包括:
关系型数据库管理系统,用于建立文档分类存储管理平台;
文档库管理系统,用于建立文档库平台;
写入操作模块,对各装置的调用执行数据库的写入操作;
保存操作模块,对各装置的调用以归档功能保存相应的单一文档文件或文档间关系图文件;
平台数据传输模块,通过数据交换引擎将相关数据在文档分类存储管理平台服务器和文档库平台服务器之间传递。
7.根据权利要求6所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间关系图的搜索装置进一步包括:
索引建立模块,建立一套具有自动维护功能的文档间关系图索引;
关键词检索模块,根据用户输入的查询词语对文档间关系图名称进行全文检索。
8.根据权利要求7所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间关系图的展现装置进一步包括:
文档间关系图展现模块,根据用户的搜索结果展现指定的文档间关系图;
文档单元展现模块,根据用户的搜索结果展现指定的文档间关系图中的某个文档单元的展现;
单一文档展现模块,根据用户的搜索结果展现指定的文档间关系图中的某个文档单元对应的单一文档全文的展现。
9.根据权利要求1所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,系统还包括文档释读采集平台服务器,其中包括:
文档释读采集装置,采集用户对文档的解释内容相关的输入数据;
数据采集审核装置,对采集到的输入数据进行审核;
文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
10.根据权利要求1所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。
11.根据权利要求1所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,具体的实现方式还包括基于云技术构建的服务架构体系,实现包括但不限于云端的数据查询、程序更新以及文件更新处理的服务。
12.根据权利要求1所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
13.一种文档的采集、标识、关联、搜索及展现的系统,以单机版的方式在单台设备上运行,包括:
单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导入;
单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置;
文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义;
文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到单台设备的数据库中,将指定的格式文件归档到单台设备的数据库中;
文档间关系图的搜索装置,建立具有自动维护功能的文档间关系图索引,并根据输入的查询词语对文档间关系图名称进行全文检索;
文档间关系图的展现装置,对文档间关系图进行展示、对文档间关系图中的某个文档单元的单独展现以及对文档间关系图中的某个文档单元对应的单一文档全文进行展现;
单机版打包发布装置,将通过文档存储装置所最终保存的数据及归档后指定格式的文件、文档间关系图的搜索装置程序可执行文件及配套附属文件、文档间关系图的展现装置程序可执行文件及配套附属文件打包成一个完整的发布包裹,并根据目标平台的不同有针对性的生成发布装置程序可执行文件及配套附属文件;
客户端安装装置,通过执行发布装置的程序可执行文件,将发布包裹完整的展开到单台设备上,包括:通过文档存储装置所最终保存的数据及归档后指定格式的文件、文档间关系图的搜索装置程序可执行文件及配套附属文件、文档间关系图的展现装置程序可执行文件及配套附属文件。
14.根据权利要求13所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,单一文档的采集装置进一步包括:
格式整理模块,将文档整理成指定的格式;
分类信息标识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识;
文件导入模块,连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
15.根据权利要求14所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,单一文档的标识和关联装置进一步包括:
关键词维度设定模块,对关键词的维度进行设定;
关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义;
文档分类设定模块,按照关键词对单一文档进行分类设定;
文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
16.根据权利要求15所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,单一文档的标识和关联装置还包括:
文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元;
文档单元标识模块,对文档单元进行若干个关键词的系统标识;
逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
17.根据权利要求16所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间关系图建立装置进一步包括:
关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名;
文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
18.根据权利要求17所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间关系图的搜索装置进一步包括:
索引建立模块,建立一套具有自动维护功能的文档间关系图索引;
关键词检索模块,根据用户输入的查询词语对文档间关系图名称进行全文检索。
19.根据权利要求18所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间关系图的展现装置进一步包括:
文档间关系图展现模块,根据用户的搜索结果展现指定的文档间关系图;
文档单元展现模块,根据用户的搜索结果展现指定的文档间关系图中的某个文档单元的展现;
单一文档展现模块,根据用户的搜索结果展现指定的文档间关系图中的某个文档单元对应的单一文档全文的展现。
20.根据权利要求13所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,系统还包括文档释读采集子系统,其中包括:
文档释读采集装置,采集用户对文档的解释内容相关的输入数据;
数据采集审核装置,对采集到的输入数据进行审核;
文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
21.根据权利要求13所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。
22.根据权利要求13所述的文档的采集、标识、关联、搜索及展现的系统,其特征在于,文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310006266.2A CN103914488B (zh) | 2013-01-08 | 2013-01-08 | 文档的采集、标识、关联、搜索及展现的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310006266.2A CN103914488B (zh) | 2013-01-08 | 2013-01-08 | 文档的采集、标识、关联、搜索及展现的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103914488A CN103914488A (zh) | 2014-07-09 |
CN103914488B true CN103914488B (zh) | 2016-12-28 |
Family
ID=51040179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310006266.2A Expired - Fee Related CN103914488B (zh) | 2013-01-08 | 2013-01-08 | 文档的采集、标识、关联、搜索及展现的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103914488B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095320B (zh) * | 2014-05-23 | 2019-04-19 | 邓寅生 | 基于关系叠加组合的文档的标识、关联、搜索及展现的系统 |
CN105447616A (zh) * | 2015-05-22 | 2016-03-30 | 京华信息科技股份有限公司 | 基于多维分类和全文检索的知识管理系统 |
CN113157996B (zh) * | 2020-01-23 | 2022-09-16 | 久瓴(上海)智能科技有限公司 | 文档信息处理方法、装置、计算机设备及可读存储介质 |
CN111916163B (zh) * | 2020-08-11 | 2024-04-05 | 上海太美星云数字科技有限公司 | 用于临床研究中药物试验的现场管理系统实现方法和装置 |
CN112597579A (zh) * | 2020-12-25 | 2021-04-02 | 江苏燕宁工程科技集团有限公司 | 基于bim的工程项目数字化交付方法及系统 |
CN112948374B (zh) * | 2021-01-29 | 2022-07-08 | 吉林大学 | 一种基于逻辑程序的关系型数据库搜索方法 |
WO2022184033A1 (zh) * | 2021-03-01 | 2022-09-09 | 北京字跳网络技术有限公司 | 文档关系的查询方法、搜索方法、装置和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408882A (zh) * | 2008-08-05 | 2009-04-15 | 北大方正集团有限公司 | 一种授权文档的检索方法和系统 |
CN101506767A (zh) * | 2005-04-22 | 2009-08-12 | 谷歌公司 | 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构 |
CN102819573A (zh) * | 2012-07-20 | 2012-12-12 | 宇龙计算机通信科技(深圳)有限公司 | 终端、文件存储方法和文件提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090282009A1 (en) * | 2008-05-09 | 2009-11-12 | Tags Ltd | System, method, and program product for automated grading |
-
2013
- 2013-01-08 CN CN201310006266.2A patent/CN103914488B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101506767A (zh) * | 2005-04-22 | 2009-08-12 | 谷歌公司 | 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构 |
CN101408882A (zh) * | 2008-08-05 | 2009-04-15 | 北大方正集团有限公司 | 一种授权文档的检索方法和系统 |
CN102819573A (zh) * | 2012-07-20 | 2012-12-12 | 宇龙计算机通信科技(深圳)有限公司 | 终端、文件存储方法和文件提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103914488A (zh) | 2014-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095320B (zh) | 基于关系叠加组合的文档的标识、关联、搜索及展现的系统 | |
CN105095319B (zh) | 基于时间序列化的文档的标识、关联、搜索及展现的系统 | |
CN103914488B (zh) | 文档的采集、标识、关联、搜索及展现的系统 | |
CN103914487B (zh) | 文档的采集、标识及关联的系统 | |
CN103491205B (zh) | 一种基于视频搜索的关联资源地址的推送方法和装置 | |
CN103914486B (zh) | 文档的搜索及展现的系统 | |
CN104704488B (zh) | 聚类的搜索结果 | |
US20080097985A1 (en) | Information Access With Usage-Driven Metadata Feedback | |
CN106445894B (zh) | 新媒体智能在线编辑方法、装置及网络信息发布平台 | |
CN107924402A (zh) | 来自资源内容中的搜索结果过滤器 | |
CN107092639A (zh) | 一种搜索引擎系统 | |
CN104008180B (zh) | 结构化数据与图片的关联方法与关联装置 | |
US20110208759A1 (en) | Method, Apparatus, and Interface For Creating A Chain of Binary Attribute Relations | |
CN111753104A (zh) | 对多媒体内容进行的场境搜索 | |
CN101178733A (zh) | 一种关联数据的索引、检索、存储和显示控制的信息系统 | |
KR20180096341A (ko) | 소셜 플랫폼상에서 mooc와 플립드러닝을 지원하는 온톨로지 기반 교육 콘텐츠 소셜 큐레이터 구현 시스템 및 그 방법 | |
JP5367872B2 (ja) | 選択されたコンテンツアイテムをユーザーに提供する方法 | |
Burita et al. | K-gate ontology driven knowledge based system for decision support | |
Dorn et al. | Harvesting knowledge from cultural images with assorted technologies: the example of the ChIA project | |
CN107862028A (zh) | 建立标准学术模型方法、服务器及存储介质 | |
Wang et al. | A dataflow-pattern-based recommendation approach for data service mashups | |
CN109002502B (zh) | 基于spo数据的搜索方法、装置、设备和存储介质 | |
CN110851543A (zh) | 一种数据建模的方法、装置、设备以及存储介质 | |
CN109376215A (zh) | 一种法律条文搜索方法和系统 | |
Düring | Networks as gateways. Gleanings from applications for the exploration of historical data 1 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161228 Termination date: 20220108 |
|
CF01 | Termination of patent right due to non-payment of annual fee |