CN110134800A

CN110134800A - 一种文档关系可视化处理方法及装置

Info

Publication number: CN110134800A
Application number: CN201910307156.7A
Authority: CN
Inventors: 冯田田
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-08-16

Abstract

本发明实施例提供了一种文档关系可视化处理方法及装置，本发明涉及大数据技术领域，方法包括：从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，文档的属性至少包括文档编号、文档名称；将提取到的每个文档的属性以及文档引用关系与文档关联，并存储至预设的数据表中；基于预设的数据表中的数据构建文档图谱，其中，文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系；获取预设文档的关系链查询指令，预设文档为文档图谱中的一个节点；响应于关系链查询指令，在文档图谱中可视化呈现与预设文档关联的多个文档及文档引用关系。本发明实施例提供的技术方案能够解决现有技术中文档管理效率低的问题。

Description

一种文档关系可视化处理方法及装置

【技术领域】

本发明涉及大数据技术领域，尤其涉及一种文档关系可视化处理方法及装置。

【背景技术】

目前，文档管理随着文档的更新修改变得异常复杂，各个部门之前又有很多共享的文档，用户通常只能通过文档内容中记载的引用关系来获取文档间的联系，从而导致文档更新或修改过程中，容易忽略一些关联文档的同步更新或修改，不利于全面管理文档，导致文档管理效率低。

【发明内容】

有鉴于此，本发明实施例提供了一种文档关系可视化处理方法及装置，用以解决现有技术中文档管理效率低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种文档关系可视化处理方法，所述方法包括：

从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，所述文档的属性至少包括文档编号、文档名称；将提取到的每个所述文档的属性以及所述文档引用关系与所述文档关联，并存储至预设的数据表中；基于所述预设的数据表中的数据构建文档图谱，其中，所述文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系；获取预设文档的关系链查询指令，所述预设文档为所述文档图谱中的一个所述节点；响应于所述关系链查询指令，在所述文档图谱中呈现与所述预设文档关联的多个文档及文档引用关系。

进一步地，所述基于所述预设的数据表中的数据构建文档图谱之后，所述方法包括：

对所述文档数据库的文档写入操作进行监听；当监听到有新的文档写入所述文档数据库时，触发新写入文档的提取指令；响应于所述新写入文档的提取指令，提取所述新写入文档的属性及文档引用关系；判断所述预设的数据表中是否存在与所述新写入文档的属性相同的目标文档；当不存在所述目标文档时，将提取到的所述新写入文档的属性及文档引用关系与所述新写入文档关联，并更新所述预设的数据表；根据更新后的所述预设的数据表更新所述文档图谱。

进一步地，在所述判断所述预设的数据表中是否存在与所述新写入文档的属性相同的目标文档之后，所述方法还包括：

当存在所述目标文档时，将所述新写入文档与所述目标文档进行相似度比较；当所述相似度大于预设阈值时，将所述新写入文档确认为所述目标文档的更新文件；将提取到的所述新写入文档的属性及文档引用关系与所述新写入文档关联，并替换所述预设的数据表中的所述目标文档；根据替换后的所述预设的数据表更新所述文档图谱。

进一步地，所述将所述新写入文档与所述目标文档进行相似度比较，包括：

对所述目标文档的预设段落文本进行分词处理；使用词频-逆文档频率算法提取所述分词处理后的所述目标文档的关键词；根据所述关键词对所述新写入文档进行检索，并计算所述关键词与所述新写入文档的相关性得分；根据所述关键词的相关性得分计算所述新写入文档与所述目标文档的相似度。

进一步地，所述从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，包括：

根据所述文档数据库的索引表中的预设字段获取所述文档的属性及文档引用关系。

进一步地，所述从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，还包括：

当所述索引表中不存在所述文档的属性及文档引用关系时，利用光学字符识别方法识别所述文档，得到所述文档的文本；根据所述预设字段查询所述文本，得到所述文档的属性及文档引用关系。

进一步地，在所述基于所述预设的数据表生成文档图谱之后，所述方法还包括：

从所述预设的文档数据库中提取每个文档的所属部门；将多个所述文档根据所属部门进行分类；根据所述文档所属部门为所述文档配置相应的展示配色，所述展示配色用于所述文档在所述关系图谱上展示的展示配色。

为了实现上述目的，根据本发明的一个方面，提供了一种文档关系可视化处理装置，所述装置包括：

提取单元，用于从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，所述文档的属性至少包括文档编号、文档名称；关联单元，用于将提取到的每个所述文档的属性以及所述文档引用关系与所述文档关联，并存储至预设的数据表中；构建单元，用于基于所述预设的数据表中的数据构建文档图谱，其中，所述文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系；获取单元，用于获取预设文档的关系链查询指令，所述预设文档为所述文档图谱中的一个所述节点；输出单元，用于响应于所述关系链查询指令，在所述文档图谱中呈现与所述预设文档关联的多个文档及文档引用关系。

为了实现上述目的，根据本发明的一个方面，提供了一种计算机非易失性存储介质，所述存储介质包括存储的程序，在所述程序运行时控制所述存储介质所在设备执行上述的文档关系可视化处理方法。

为了实现上述目的，根据本发明的一个方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的文档关系可视化处理方法的步骤。

在本方案中，文档图谱是结构化的文档数据库，是一个具有属性的文档通过关系链接而成的网状知识库。文档之间通过关系相互联结，构成网状的文档图谱。从而使得用户通过点击文档标识或搜索预设文档即可获取文档与文档数据库中其他文档之间的引用关系。通过建立文档图谱能够使得文档之间的关系可视化呈现，提高文档管理效率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种可选的文档关系可视化处理方法的流程图；

图2是本发明实施例提供的一种可选的文档关系可视化处理装置的示意图；

图3是本发明实施例提供的一种可选的计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端，但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一获取单元也可以被称为第二获取单元，类似地，第二获取单元也可以被称为第一获取单元。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1是根据本发明实施例的一种文档关系可视化处理方法的流程图，如图1所示，该方法包括：

步骤S101，从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，文档的属性至少包括文档编号、文档名称。

步骤S102，将提取到的每个文档的属性以及文档引用关系与文档关联，并存储至预设的数据表中。

步骤S103，基于预设的数据表中的数据构建文档图谱，其中，文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系。

步骤S104，获取预设文档的关系链查询指令，预设文档为文档图谱中的一个节点。

步骤S105，响应于关系链查询指令，在文档图谱中可视化呈现与预设文档关联的多个文档及文档引用关系。

可选地，文档通过超链接的方式链接到文档图谱中的文档标识中，可以理解地，文档的超链接也会存储至数据表中，从而使得根据数据表生成的文档图谱中的文档标识带有超链接。文档的超链接具体可以是URL链接。

其中，每个节点设有一个文档的标识，引用关系包括引用方、关联方及被引用方。具体地，引用方是指文档的引用对象，如新入职员工培训手册的引用方为人力资源管理手册，被引用方即为引用文档的对象，如人力资源管理手册的被引用方为新入职员工培训手册。关联方为与文档存在关联关系的文档，如新入职员工培训手册与新入职员工培训计划。

文档的属性还可以包括文档所属部门、文档版本、文档管理级别。可以理解地，文档之间的关系，可以根据提取到的文档引用关系，也可以根据识别到的文档的属性关系来提取文档之间的关系。例如，属于同一个部门的多个文档之间为关联部门的关系。文档所属部门例如可以是行政部、设计部等，文档版本例如可以是1.0版本、1.2版本等，文档管理级别例如可以是一级文件(如质量手册)，二级文件(ISO程序文件)，三级文件(作业指导书、检验规范等)。

可选地，将提取到的每个文档的属性以及文档引用关系与文档关联，并存储至预设的数据表中，可以采用N元组的表现方式，例如：文档、属性、关系。可以理解地，数据表中的文档呈结构化数据对(文档、属性、关系)的形式对文档进行存储和查询。根据结构化数据对(文档、属性、关系)设计数据表，完成数据存储和查询。

具体地，数据表采用哈希表方式对构建的文档图谱进行存储。该存储方式将文档作为key，其余(属性、关系)作为value，构造哈希表存储。数据表还可以采用索引表对构建的文档图谱进行存储，对文档(结构化数据对)做全文索引以完成存储和查询。

可选地，从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，包括：

根据文档数据库的索引表中的预设字段获取文档的属性及文档引用关系。可以理解地，每个正式生效的文档都会上传至文档数据库，在上传过程中，管理人员需要在索引表中填写与预设字段对应的信息，例如文档名称、文档编号、文档所属部门、文档版本、文档引用关系等。这需要前期人工地对文档进行规范化的管理，当然也会存在没纳入管理的一些文档。

可选地，从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，还包括：

当索引表中不存在文档的属性及文档引用关系时，利用光学字符识别方法识别文档，得到文档的文本；根据预设字段查询文本，得到文档的属性及文档引用关系。例如：索引表中没有将文档的所属部门、文档名称、文档编号等存储，就可以通过预设字段去查询待上传文档的预设页面(例如：首页、尾页、页眉、引用关系页等)，从而得到文档的属性及文档引用关系。一般文档在编制的时候会根据一个预设的模板来制作，这样当索引表中没有文档属性和文档引用关系时，就需要根据预设模板中的一些预设位置(例如：首页、尾页、页眉、引用关系页等)进行扫描识别，得到相关信息。

当索引表中不存在文档的属性及文档引用关系时，则根据索引表中的文档链接获取文档，并利用自然语言处理算法查找是否有与该文档内容相似度大于预设阈值的文档，将文档对齐处理。

文档对齐在发现具有不同属性标识的文档但却代表同一对象的那些文档，将这些文档归并为一个具有全局唯一属性标识的文档添加到知识图谱中。可以理解地，文档可能在应用过程中，被A部门命名为a名称，被B部门命名为b名称，虽然两个名称不同，但是其文档的实质内容相同，文档对齐就是为了让这些实质内容相同的文档都对齐在一个同一属性的文档上。在对齐过程中，可以根据文档相似度算法或一些其他的预设规则、人工的方式进行对齐。

具体地，文档之间的相似度比较，包括：对目标文档的预设段落文本Q进行分词得到关键词qi，对新写入文档d根据关键词qi进行检索，并计算关键词qi与新写入文档d的相关性得分，最后将所有的关键词进行加权求和，从而得到目标文档与新写入文档的相似度。进一步将相似度得分大于预设阈值的文档进行对齐处理。其中，d为新写入文档，Q为目标文档，qi为新写入文档的关键词，wi为关键词qi的权重。关键词qi的权重可以根据计算词汇的tf-idf(词频-逆文本频率)值来获取。

在其他实施方式中，还可以将新写入文档与目标文档都进行分词并得到各自的关键词，通过词向量表示模型(WORD2VEC模型)获取每个关键词的向量表示；再采用余弦相似度公式计算新写入文档与目标文档的相似度。可以理解地，通过将文档对齐，能够对文档数据库中的一些实质相同的文档进行去重，使得整个文档图谱更加清晰。

可选地，基于预设的数据表中的数据构建文档图谱之后，方法包括：

对文档数据库的文档写入操作进行监听；当监听到有新的文档写入文档数据库时，触发新写入文档的提取指令；响应于新写入文档的提取指令，提取新写入文档的属性及文档引用关系；判断预设的数据表中是否存在与新写入文档的属性相同的目标文档；当不存在目标文档时，将提取到的新写入文档的属性及文档引用关系与新写入文档关联，并更新预设的数据表；根据更新后的预设的数据表更新文档图谱。

可选地，在判断预设的数据表中是否存在与新写入文档的属性相同的目标文档之后，方法还包括：

当存在目标文档时，将新写入文档与目标文档进行相似度比较；当相似度大于预设阈值时，将新写入文档确认为目标文档的更新文件；将提取到的新写入文档的属性及文档引用关系与新写入文档关联，并替换预设的数据表中的目标文档；根据替换后的预设的数据表更新文档图谱。例如：A1文档被B、C、D都引用了，那么当A1更新为A2时，应同时更新文档图谱，使得点击B时能够根据引用关系关联到A2文档上。

可选地，将新写入文档与目标文档进行相似度比较，包括：

对目标文档的预设段落文本进行分词处理；使用词频-逆文档频率算法提取分词处理后的目标文档的关键词；根据关键词对新写入文档进行检索，并计算关键词与新写入文档的相关性得分；根据关键词的相关性得分计算新写入文档与目标文档的相似度。可以理解地，当相似度大于预设阈值时，将新写入文档确认为目标文档的更新文件。在进行分词处理前，可以根据预设的规则抽取文档中的几个段落，例如第一页第5段、第二页第1段、第三页第3段，从而根据随机抽取的两个文档的同一段落，将文档进行比对，可以提高比对效率。

可选地，在基于预设的数据表生成文档图谱之后，方法还包括：

从预设的文档数据库中提取每个文档的所属部门；将多个文档根据所属部门进行分类；根据文档所属部门为文档配置相应的展示配色，展示配色用于文档在关系图谱上展示的展示配色。可以理解地，通过不同的配色，能够更加明显地展示各个部门的文档，使得用户更改更加直观的看到部门的文档情况。

本发明实施例提供了一种文档关系可视化处理装置，该装置用于执行上述文档关系可视化处理方法，如图2所示，该装置包括：提取单元10、关联单元20、构建单元30、获取单元40、输出单元50。

提取单元10，用于从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，文档的属性至少包括文档编号、文档名称。

关联单元20，用于将提取到的每个文档的属性以及文档引用关系与文档关联，并存储至预设的数据表中。

构建单元30，用于基于预设的数据表中的数据构建文档图谱，其中，文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系。

获取单元40，用于获取预设文档的关系链查询指令，预设文档为文档图谱中的一个节点。

输出单元50，用于响应于关系链查询指令，在文档图谱中可视化呈现与预设文档关联的多个文档及文档引用关系。

可以理解地，文档图谱是结构化的文档数据库，是一个具有属性的文档通过关系链接而成的网状知识库。文档之间通过关系相互联结，构成网状的文档图谱。从而使得用户通过点击文档标识或搜索预设文档即可获取文档与文档数据库中其他文档之间的引用关系。通过建立文档图谱能够使得文档之间的关系可视化呈现，提高文档管理效率。

可选地，提取单元包括第一获取子单元。

第一获取子单元，用于根据文档数据库的索引表中的预设字段获取文档的属性及文档引用关系。可以理解地，每个正式生效的文档都会上传至文档数据库，在上传过程中，管理人员需要在索引表中填写与预设字段对应的信息，例如文档名称、文档编号、文档所属部门、文档版本、文档引用关系等。这需要前期人工地对文档进行规范化的管理，当然也会存在没纳入管理的一些文档。

可选地，提取单元包括还包括识别子单元、查询子单元、对齐子单元。

识别子单元，用于当索引表中不存在文档的属性及文档引用关系时，利用光学字符识别方法识别文档，得到文档的文本；查询子单元，用于根据预设字段查询文本，得到文档的属性及文档引用关系。例如：索引表中没有将文档的所属部门、文档名称、文档编号等存储，就可以通过预设字段去查询待上传文档的预设页面(例如：首页、尾页、页眉、引用关系页等)，从而得到文档的属性及文档引用关系。一般文档在编制的时候会根据一个预设的模板来制作，这样当索引表中没有文档属性和文档引用关系时，就需要根据预设模板中的一些预设位置(例如：首页、尾页、页眉、引用关系页等)进行扫描识别，得到相关信息。

对齐子单元，用于当索引表中不存在文档的属性及文档引用关系时，则根据索引表中的文档链接获取文档，并利用自然语言处理算法查找是否有与该文档内容相似度大于预设阈值的文档，将文档对齐处理。

可选地，装置包括监听单元、触发单元、第二提取单元、判断单元、第一更新单元、第二更新单元。

监听单元，用于对文档数据库的文档写入操作进行监听；触发单元，用于当监听到有新的文档写入文档数据库时，触发新写入文档的提取指令；第二提取单元，用于响应于新写入文档的提取指令，提取新写入文档的属性及文档引用关系；判断单元，用于判断预设的数据表中是否存在与新写入文档的属性相同的目标文档；第一更新单元，用于当不存在目标文档时，将提取到的新写入文档的属性及文档引用关系与新写入文档关联，并更新预设的数据表；第二更新单元，用于根据更新后的预设的数据表更新文档图谱。

可选地，装置还包括比对单元、确认单元、替换单元、第三更新单元。

比对单元，用于当存在目标文档时，将新写入文档与目标文档进行相似度比较；确认单元，用于当相似度大于预设阈值时，将新写入文档确认为目标文档的更新文件；替换单元，用于将提取到的新写入文档的属性及文档引用关系与新写入文档关联，并替换预设的数据表中的目标文档；第三更新单元，用于根据替换后的预设的数据表更新文档图谱。例如：A1文档被B、C、D都引用了，那么当A1更新为A2时，应同时更新文档图谱，使得点击B时能够根据引用关系关联到A2文档上。

可选地，比对单元包括预处理子单元、提取子单元、检索子单元、计算子单元。

预处理子单元，用于对目标文档的预设段落文本进行分词处理；提取子单元，用于使用词频-逆文档频率算法提取分词处理后的目标文档的关键词；检索子单元，用于根据关键词对新写入文档进行检索，并计算关键词与新写入文档的相关性得分；计算子单元，用于根据关键词的相关性得分计算新写入文档与目标文档的相似度。可以理解地，当相似度大于预设阈值时，将新写入文档确认为目标文档的更新文件。在进行分词处理前，可以根据预设的规则抽取文档中的几个段落，例如第一页第5段、第二页第1段、第三页第3段，从而根据随机抽取的两个文档的同一段落，将文档进行比对，可以提高比对效率。

可选地，装置还包括第三提取单元、分类单元、配置单元。

第三提取单元，用于从预设的文档数据库中提取每个文档的所属部门；分类单元，用于将多个文档根据所属部门进行分类；配置单元，用于根据文档所属部门为文档配置相应的展示配色，展示配色用于文档在关系图谱上展示的展示配色。可以理解地，通过不同的配色，能够更加明显地展示各个部门的文档，使得用户更改更加直观的看到部门的文档情况。

本发明实施例提供了一种计算机非易失性存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：

从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，文档的属性至少包括文档编号、文档名称；将提取到的每个文档的属性以及文档引用关系与文档关联，并存储至预设的数据表中；基于预设的数据表中的数据构建文档图谱，其中，文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系；获取预设文档的关系链查询指令，预设文档为文档图谱中的一个节点；响应于关系链查询指令，在文档图谱中可视化呈现与预设文档关联的多个文档及文档引用关系。

可选地，在程序运行时控制存储介质所在设备执行以下步骤：对文档数据库的文档写入操作进行监听；当监听到有新的文档写入文档数据库时，触发新写入文档的提取指令；响应于新写入文档的提取指令，提取新写入文档的属性及文档引用关系；判断预设的数据表中是否存在与新写入文档的属性相同的目标文档；当不存在目标文档时，将提取到的新写入文档的属性及文档引用关系与新写入文档关联，并更新预设的数据表；根据更新后的预设的数据表更新文档图谱。

可选地，在程序运行时控制存储介质所在设备执行以下步骤：当存在目标文档时，将新写入文档与目标文档进行相似度比较；当相似度大于预设阈值时，将新写入文档确认为目标文档的更新文件；将提取到的新写入文档的属性及文档引用关系与新写入文档关联，并替换预设的数据表中的目标文档；根据替换后的预设的数据表更新文档图谱。

可选地，在程序运行时控制存储介质所在设备执行以下步骤：对目标文档的预设段落文本进行分词处理；使用词频-逆文档频率算法提取分词处理后的目标文档的关键词；根据关键词对新写入文档进行检索，并计算关键词与新写入文档的相关性得分；根据关键词的相关性得分计算新写入文档与目标文档的相似度。

可选地，在程序运行时控制存储介质所在设备执行以下步骤：根据文档数据库的索引表中的预设字段获取文档的属性及文档引用关系。

图3是本发明实施例提供的一种计算机设备的示意图。如图3所示，该实施例的计算机设备100包括：处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103，该计算机程序103被处理器101执行时实现实施例中的文档关系可视化处理方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器101执行时实现实施例中文档关系可视化处理装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器101、存储器102。本领域技术人员可以理解，图3仅仅是计算机设备100的示例，并不构成对计算机设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器101可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器102可以是计算机设备100的内部存储单元，例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备，例如计算机设备100上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文档关系可视化处理方法，其特征在于，所述方法包括：

从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，所述文档的属性至少包括文档编号、文档名称；

将提取到的每个所述文档的属性以及所述文档引用关系与所述文档关联，并存储至预设的数据表中；

基于所述预设的数据表中的数据构建文档图谱，其中，所述文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系；

获取预设文档的关系链查询指令，所述预设文档为所述文档图谱中的一个所述节点；

响应于所述关系链查询指令，在所述文档图谱中可视化呈现与所述预设文档关联的多个文档及文档引用关系。

2.根据权利要求1所述的方法，其特征在于，所述基于所述预设的数据表中的数据构建文档图谱之后，所述方法包括：

对所述文档数据库的文档写入操作进行监听；

当监听到有新的文档写入所述文档数据库时，触发新写入文档的提取指令；

响应于所述新写入文档的提取指令，提取所述新写入文档的属性及文档引用关系；

判断所述预设的数据表中是否存在与所述新写入文档的属性相同的目标文档；

当不存在所述目标文档时，将提取到的所述新写入文档的属性及文档引用关系与所述新写入文档关联，并更新所述预设的数据表；

根据更新后的所述预设的数据表更新所述文档图谱。

3.根据权利要求2所述的方法，其特征在于，在所述判断所述预设的数据表中是否存在与所述新写入文档的属性相同的目标文档之后，所述方法还包括：

当存在所述目标文档时，将所述新写入文档与所述目标文档进行相似度比较；

当所述相似度大于预设阈值时，将所述新写入文档确认为所述目标文档的更新文件；

将提取到的所述新写入文档的属性及文档引用关系与所述新写入文档关联，并替换所述预设的数据表中的所述目标文档；

根据替换后的所述预设的数据表更新所述文档图谱。

4.根据权利要求3所述的方法，其特征在于，所述将所述新写入文档与所述目标文档进行相似度比较，包括：

对所述目标文档的预设段落文本进行分词处理；

使用词频-逆文档频率算法提取所述分词处理后的所述目标文档的关键词；

根据所述关键词对所述新写入文档进行检索，并计算所述关键词与所述新写入文档的相关性得分；

根据所述关键词的相关性得分计算所述新写入文档与所述目标文档的相似度。

5.根据权利要求1所述的方法，其特征在于，所述从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，包括：

6.根据权利要求5所述的方法，其特征在于，所述从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，还包括：

当所述索引表中不存在所述文档的属性及文档引用关系时，利用光学字符识别方法识别所述文档，得到所述文档的文本；

根据所述预设字段查询所述文本，得到所述文档的属性及文档引用关系。

7.根据权利要求1～6中任一项所述的方法，其特征在于，在所述基于所述预设的数据表生成文档图谱之后，所述方法还包括：

从所述预设的文档数据库中提取每个文档的所属部门；

将多个所述文档根据所属部门进行分类；

根据所述所属部门为所述文档配置相应的展示配色，所述展示配色用于所述文档在所述关系图谱上展示的展示配色。

8.一种文档关系可视化处理装置，其特征在于，所述装置包括：

提取单元，用于从预设的文档数据库中提取每个文档的属性以及对应的文档引用关系，所述文档的属性至少包括文档编号、文档名称；

关联单元，用于将提取到的每个所述文档的属性以及所述文档引用关系与所述文档关联，并存储至预设的数据表中；

构建单元，用于基于所述预设的数据表中的数据构建文档图谱，其中，所述文档图谱包括节点和连接线，每个节点表示一个文档，每个连接线表示文档引用关系；

获取单元，用于获取预设文档的关系链查询指令，所述预设文档为所述文档图谱中的一个所述节点；

输出单元，用于响应于所述关系链查询指令，在所述文档图谱中可视化呈现与所述预设文档关联的多个文档及文档引用关系。

9.一种计算机非易失性存储介质，所述存储介质包括存储的程序，其特征在于，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7任意一项所述的文档关系可视化处理方法。

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的文档关系可视化处理方法的步骤。