CN111259627A

CN111259627A - 文档分析方法、装置、计算机存储介质及设备

Info

Publication number: CN111259627A
Application number: CN202010019340.4A
Authority: CN
Inventors: 蔡蔚
Original assignee: Shenzhen Caiwei Technology Consulting Co Ltd
Current assignee: Shenzhen Caiwei Technology Consulting Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-06-09

Abstract

本发明提供了一种文档分析方法，所述方法包括：在第一界面区域展示目标文档信息；在第二界面区域通过第一树形控件展示目标标签集合，所述目标标签集合包括具有父子关系的标签项，所述标签项具有标签标识，所述标签标识表达相应的所述标签项的父子关系，所述标签项由所述第一树形控件的节点展示；接收标引指令，获取标引指令指向的第一目标节点，获取所述第一目标节点对应的标签项的第一目标标签标识；将所述第一目标标签标识存储到与所述目标文档信息和所述目标标签集合对应的标引记录中，所述标引记录中包含一个或一个以上的标签标识。上述文档分析方法操作简便，且由于预先设定了规范的分析特征规范，使得分析的准确度较高。

Description

文档分析方法、装置、计算机存储介质及设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种文档分析方法、装置、计算机存储介质及设备。

背景技术

随着信息技术的发展，越来越多的文档由纸件转变为电子化，从而通过网络传播，而像论文文献、专利文献或其他文献，为了深入分析其内容和价值，通常需要对其进行文档分析，而文档分析的常用方法即为为文档添加标签标引。

传统技术中，对于批量的文档的分析方法通常为利用Excel表进行分析，预先设置多个属性项或者标签，为文档逐一进行标引，标引的方法为：在excel表中与文档编号对应的一行的单元格中填入与该文档相关的属性项或标签，然而这种方式，由于Excel表的限制，为方便统计，一文档通常对应一行，而一行中只能填入一个标签或者一个路径的标签。并且，若标签项进行了调整，则需要对所有已标引了标签的文档进行复核，伴随标签项的调整重新标引，操作十分不便。

而对于部分专利分析系统，例如智慧芽，大为等，虽然提供了专利标引服务，然而，这些专利分析系统用于标引的标签项通常由用户根据文档的主题自行归纳输入，或者由专利分析系统的AI主题提取功能聚类生成，无法形成具有一定逻辑关系的标签项集合，导致分析的准确度较低。

发明内容

基于此，有必要针对上述背景技术中的技术问题，提供一种既操作便利又提高文档分析的准确度的文档分析方法。

一种文档分析方法，所述方法包括：

在第一界面区域展示目标文档信息；

在第二界面区域通过第一树形控件展示目标标签集合，所述目标标签集合包括具有父子关系的标签项，所述标签项具有标签标识，所述标签标识表达相应的所述标签项的父子关系，所述标签项由所述第一树形控件的节点展示，且所述标签项的父子关系与相应的节点在所述第一树形控件上的父子关系一致；

接收标引指令，获取标引指令指向的第一目标节点，获取所述第一目标节点对应的标签项的第一目标标签标识；

将所述第一目标标签标识存储到与所述目标文档信息和所述目标标签集合对应的标引记录中，所述标引记录中包含一个或一个以上的标签标识。

在其中一个实施例中，所述标引记录包括一个或一个以上的子分区，所述标引指令包括子分区标识；

所述将所述第一目标标签标识存储到与所述目标文档信息和所述目标标签集合对应的标引记录中包括：

获取标引指令对应的目标子分区标识；

获取与所述目标文档信息和所述目标标签集合对应的标引记录，将所述第一目标标签标识存储到与所述目标子分区标识对应的子分区中。

在其中一个实施例中，所述方法包括：

在第三界面区域通过第二树形控件展示所述目标标签集合，接收针对所述第二树形控件的标签设置指令；

获取所述标签设置指令指向的第二目标节点，根据所述标签设置指令修改所述第二目标节点对应的标签项。

在其中一个实施例中，所述根据所述标签设置指令修改所述第二目标节点对应的标签项之后还包括：

在所述第二目标节点的标签项的标签标识被修改的情况下，按照修改顺序记录所述标签项的修改记录；

获取与所述目标标签集合对应的目标标引记录集合，所述目标标引记录集合包括一条或一条以上的标引记录；

根据所述修改记录修改所述目标标引记录集合中的标引记录中的标签标识。

在其中一个实施例中，所述第二目标节点为一个或一个以上，所述修改记录包括一条或一条以上，修改记录包括改前标识和改后标识；

所述根据所述修改记录修改所述目标标引记录集合中的标引记录中的标签标识包括：

遍历所述目标标引记录集合中的标引记录；

对于遍历到的标引记录，顺序逐条获取所述修改记录，获取该条修改记录包含的改前标识和改后标识，将遍历到的所述标引记录中包含的改前标识修改为改后标识。

在其中一个实施例中，所述根据所述修改记录修改所述目标标引记录集合中的标引记录中的标签标识之前还包括：

将针对同一所述第二目标节点的两次或两次以上的修改记录合并。

备份所述目标标签集合，以及与所述目标标签集合对应的标引记录。

在其中一个实施例中，所述根据所述标签设置指令修改所述第二目标节点对应的标签项包括：

在所述第二目标节点对应的标签项的标签标识表达的父子关系不符合所述第二目标节点在所述第二树形控件的父子关系的情况下，提示错误，或自动调整所述标签标识，以使所述第二目标节点对应的标签项的标签标识表达的父子关系符合所述第二目标节点在所述第二树形控件的父子关系。

在其中一个实施例中，所述方法还包括：

获取输入的筛选表达式，所述筛选表达式包括所述目标标签集合中的一个或一个以上的标签标识；

获取输入的文档信息集合，获取与所述文档信息集合中的文档以及目标标签集合对应的标引记录；

筛选出包含的标签标识符合所述筛选表达式的标引记录所对应的文档。

此外，还有必要针对上述背景技术中的技术问题，提供一种既操作便利又提高文档分析的准确度的文档分析装置。

一种文档分析装置，包括：

文档展示模块，用于在第一界面区域展示目标文档信息；

标签集合展示模块，用于在第二界面区域通过第一树形控件展示目标标签集合，所述目标标签集合包括具有父子关系的标签项，所述标签项具有标签标识，所述标签标识表达相应的所述标签项的父子关系，所述标签项由所述第一树形控件的节点展示，且所述标签项的父子关系与相应的节点在所述第一树形控件上的父子关系一致；

标签标引模块，用于接收标引指令，获取标引指令指向的第一目标节点，获取所述第一目标节点对应的标签项的第一目标标签标识；

标引记录存储模块，用于将所述第一目标标签标识存储到与所述目标文档信息和所述目标标签集合对应的标引记录中，所述标引记录中包含一个或一个以上的标签标识。

在一个实施例中，所述标引记录包括一个或一个以上的子分区，所述标引指令包括子分区标识；

所述标引记录存储模块用于获取标引指令对应的目标子分区标识；获取与所述目标文档信息和所述目标标签集合对应的标引记录，将所述第一目标标签标识存储到与所述目标子分区标识对应的子分区中。

在一个实施例中，所述装置还包括标签集合设置模块，用于在第三界面区域通过第二树形控件展示所述目标标签集合，接收针对所述第二树形控件的标签设置指令；获取所述标签设置指令指向的第二目标节点，根据所述标签设置指令修改所述第二目标节点对应的标签项。

在一个实施例中，所述装置还包括标引记录变更模块，用于在所述第二目标节点的标签项的标签标识被修改的情况下，按照修改顺序记录所述标签项的修改记录；获取与所述目标标签集合对应的目标标引记录集合，所述目标标引记录集合包括一条或一条以上的标引记录；根据所述修改记录修改所述目标标引记录集合中的标引记录中的标签标识。

在一个实施例中，所述第二目标节点为一个或一个以上，所述修改记录包括一条或一条以上，修改记录包括改前标识和改后标识；

所述标引记录变更模块还用于遍历所述目标标引记录集合中的标引记录；对于遍历到的标引记录，顺序逐条获取所述修改记录，获取该条修改记录包含的改前标识和改后标识，将遍历到的所述标引记录中包含的改前标识修改为改后标识。

在一个实施例中，所述装置还包括修改记录合并模块，用于将针对同一所述第二目标节点的两次或两次以上的修改记录合并。

在一个实施例中，所述装置还包括标引备份模块，用于备份所述目标标签集合，以及与所述目标标签集合对应的标引记录。

在一个实施例中，所述装置还包括标签项校验模块，用于在所述第二目标节点对应的标签项的标签标识表达的父子关系不符合所述第二目标节点在所述第二树形控件的父子关系的情况下，提示错误，或自动调整所述标签标识，以使所述第二目标节点对应的标签项的标签标识表达的父子关系符合所述第二目标节点在所述第二树形控件的父子关系。

在一个实施例中，所述装置还包括标引统计模块，用于获取输入的筛选表达式，所述筛选表达式包括所述目标标签集合中的一个或一个以上的标签标识；获取输入的文档信息集合，获取与所述文档信息集合中的文档以及目标标签集合对应的标引记录；筛选出包含的标签标识符合所述筛选表达式的标引记录所对应的文档。

此外，还有必要针对上述背景技术中的技术问题，提供一种存储执行上述文档分析方法的计算机指令的计算机存储介质，使得文档分析过程操作便利又提高文档分析的准确度。

一种计算机存储介质，所述计算机存储介质存储有一条或一条以上的计算机指令，所述一条或一条以上指令适于由处理器加载并执行前述的文档分析方法。

此外，还有必要针对上述背景技术中的技术问题，提供一种执行上述文档分析方法的计算机设备，使得文档分析过程操作便利又提高文档分析的准确度。

一种文档分析设备，所述文档分析设备包括存储器以及处理器，其中，所述存储器中存储一组程序，且所述处理器用于调用所述存储器中存储的程序，用于执行如前述的文档分析方法。

上述文档分析方法、装置、计算机存储介质和设备提供了一种便捷的文档标签标引分析的操作方式，在为文档标引标签时，通过一树形控件展示标签集合，树形控件上的节点则对应标签项，标签项在设计时具有父子关系(从属关系)，而该父子关系则通过标签标识表达，标签项在映射到树形控件上时，也同时与对应的树形控件上的节点的父子关系一致。用户通过对树形控件上节点的简单操作即可完成该节点对应的标签项的标引，操作遍历快捷。

同时，由于为一文档添加的标签项的标签标识包含的该标签项的父子关系信息(分析特征分类的从属关系)，使得用户通过标签项的标签标识即可了解到该标签项在整个标签分类中的层级和从属关系，因此，仅通过一个标签标识即表达整体的分类信息，表达的信息量更大。用户只需要合理地设计标签分类，即可通过为目标文档标引的标签项的名称、描述和关键词等特征信息得到目标文档表达的内容摘要，从而实现对文档的分析，相对于主动式地人工阅读文档然后撰写分析总结的方式，本发明实施例是一种反向地分析方式，为预先对分析的特征进行规范，后续均在该预先定义的规范中标引特征；因此使得文档分析过程更简便，分析准确度更客观准确。

同时，由于为标签项设定了包含父子关系的标签标识，使得统计和筛选工作更加简单高效，只需要进行简单的字符串匹配即可对标引记录进行相应地筛选和统计，相较于传统技术中的excel表统计的方式，统计效率明显更高更准确，在标引后只需要输入筛选表达式，计算机即可按照筛选表达式中的标签标识的特定字符串进行匹配查找，从而快速筛选出文档清单或者统计出文档数量，使得操作更简便，执行效率更高。另外，由于该标签标识的设计，使得对于标引记录的筛选和统计可基于灵活的筛选表达式，筛选表达式中只需要包含特定的标签标识，并采用相应的逻辑表达式对其进行约束，即可完成多种多样的文档筛选和统计工作，使得文档的分析工作更加灵活。

附图说明

图1本发明实施例的文档分析方法的流程图；

图2为基于浏览器的文档分析应用场景中的文档分析页面示意图；

图3为图2所示的应用场景的文档分析页面通过第一树形控件展示目标标签集合的示意图；

图4为在图2所示的应用场景的文档分析页面上，通过第一树形控件的按钮组件输入标引指令的示意图；

图5为在另一个文档分析应用场景的文档分析页面上，通过第一树形控件的按钮组件分别标引主标签和次标签的示意图；

图6为在另一个文档分析应用场景的文档分析页面上，通过拖拽第一树形控件的节点分别标引主标签和次标签的示意图；

图7为一个实施例中的标签集合设置页面的示意图；

图8为一个实施例中在标签集合设置页面上通过编辑窗口编辑节点对应的标签项的示意图；

图9为一个实施例中标签集合设置页面上的编辑窗口校验修改的标签标识不通过的提示方式示意图；

图10为一个实施例中标签集合设置页面上的编辑窗口校验修改的标签标识通过的提示方式示意图；

图11为一个实施例中标引记录统计页面上根据统计结果图形化展示的技术路线图示例；

图12为一个实施例中标引记录统计页面上根据统计结果图形化展示的功效矩阵图示例；

图13为一个实施例中一种文档分析装置的示意图；

图14为一个实施例中执行上述文档分析方法的计算机系统的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

为解决上述技术问题，本发明实施例特提供了一种文档分析方法，该方法的实现可基于计算机程序，运行于计算机系统之上，特别是处理器架构基于冯诺依曼体系架构或哈佛体系架构的计算机系统，也不限于此二架构，可以是其他架构的计算机系统。

该计算机程序不限于独立桌面程序、B/S(浏览器/服务器)架构程序或C/S(客户端/服务器)架构程序，可通过浏览器程序、桌面客户端程序、手机或平板的app应用处理UI(User Interface，用户交互界面)和部分数据处理任务，通过后端的服务器程序存储数据，执行数据检索和其他数据处理任务。也可通过独立的桌面程序运行上述文档分析方法，该独立的桌面程序既处理UI，又负责存储数据(例如集成小型数据库进行数据库存储或通过文件系统存储)，执行数据检索和其他数据处理任务。

而该计算机系统可以是个人电脑、平板电脑、笔记本电脑、无盘工作站、智能手机、服务器设备等。在基于B/S架构程序或C/S架构程序的应用场景中，计算机系统可以通过个人电脑、平板电脑、笔记本电脑、无盘工作站、智能手机等终端设备处理UI，以及执行部分数据处理任务，而通过服务器设备存储数据，执行数据检索和其他数据处理任务等。

而在独立的桌面程序的应用场景中，计算机系统可以是个人电脑、平板电脑、笔记本电脑、无盘工作站或智能手机，其自身安装有数据库程序或类似于数据库程序的数据存储管理程序(例如本地数据库或本地文件系统等)，个人电脑、平板电脑、笔记本电脑、无盘工作站或智能手机通过运行独立的桌面程序，既处理UI，又负责存储数据，执行数据检索和其他数据处理任务。

该文档分析方法通过计算机程序在显示界面上展示待分析的目标文档信息，以及在显示界面上展示目标标签集合，目标标签集合即为预先定义的一个或一个以上的标签构成的集合，目标标签集合中的标签可表达多个维度的特征信息。用户可通过特定的指令输入方式在目标标签集合中选择一个或一个以上的标签，将其标注给目标文档信息，即对目标文档信息进行了标签标引，由于目标标签集合中的标签在预先定义时，表达了多个维度的特征信息，因此目标文档信息被标引的一个或一个以上的标签即反应了该文档的特性，从而实现了对目标文档的分析。

具体的，在一个实施例中，如图1所示，该文档分析方法包括：

步骤S202，在第一界面区域展示目标文档信息。

参考图2所示，图2展示的是一个分析专利文档的网页应用的应用场景，该网页应用基于B/S架构。在该应用场景中，浏览器展示了一文档分析页面，该页面分为三个区域，左侧展示列表的区域是文档列表展示区域，中间的页面区域为文档信息展示区域，右侧的页面区域为标签集合展示区域。文档列表展示区域中设置有一列表组件，以列表的形式展示了一个专利包或一个专利组合或一个专利清单中的多个专利文档的申请号(标识信息)和申请名称等文档的简略信息，一个列表项即对应一个专利文档，用户可通过点击列表组件中的列表项选择文档作为目标文档进行分析。

在本应用场景中，当用户点击列表项选择一文档作为目标文档后，中间的文档信息展示区域则展示该文档的详细信息，仍然参考图2所示，例如，用户选中了申请号为：CN201811202475.3的专利作为目标文档后，文档信息展示区域则可通过多个tab显示专利CN201811202475.3的著录项信息、法律状态信息、同族专利信息、引证数据信息、权利要求信息、说明书信息等专利文献的详细信息，用户可通过阅读该文档信息展示区域展示的内容了解目标专利文档的详细信息。

在本应用场景中，左侧的文档列表展示区域中的列表项和中间的文档信息展示区域均展示了文档信息，均可相当于第一界面区域，左侧的文档列表展示区域中的列表项展示的是目标文档的简要信息，中间的文档信息展示区域展示的是目标文档的详细信息，在其他应用场景中，例如，移动端APP界面较小的应用场景中，可仅在该文档分析页面展示目标文档的标识(例如专利号)和名称，而目标文档的详细信息需要通过点击链接跳转至另一个页面展示。

步骤S204，在第二界面区域通过第一树形控件展示目标标签集合。

仍以图2所示的应用场景为示例，而在图2所示的文档分析页面的右侧的页面区域的标签集合展示区域中，可通过第一树形控件展示目标标签集合。目标标签集合包括具有父子关系的标签项，标签项具有标签标识，标签标识表达相应的标签项的父子关系，标签项由第一树形控件的节点展示，且标签项的父子关系与相应的节点在第一树形控件上的父子关系一致。

参考图2所示，标签集合展示区域内有一标签集合选择器，用户通过在标签集合选择器中选择标签集合标识来选择在第一树形控件加载的标签集合。若用户选择了标识为“分析标准A”的标签集合，则在标签集合展示区域中加载第一树形控件，通过第一树形控件表达“分析标准A”的标签集合。

在本应用场景中，用于专利分析的标签集合“分析标准A”包括三个根标签：“技术分解”(标签标识T)、“应用分类”(标签标识A)和“功效分类”(标签标识E)，每个根标签下包含多个层级的标签。以“功效分类”的根标签为例，该根节点标签下包含了三个的子标签：“物理功效”(标签标识E.1)、“化学功效”(标签标识E.2)和“用户体验”(标签标识E.3)，子标签“物理功效”下又包括四个子标签：“电学功效”(标签标识E.11)、“光学功效”(标签标识E.12)、“热力学功效”(标签标识E.13)和“空间功效”(标签标识E.14)，子标签“光学功效”又包括6个子标签：“高亮度”(标签标识E.121)、“高均匀度”(标签标识E.122)、“高准直度”(标签标识E.123)、“散斑抑制”(标签标识E.124)、“高色纯度”(标签标识E.125)和“其它”(标签标识E.12z)。

标签项的标签标识表达了标签项之间的父子关系。如上所述，标签项“物理功效”包含了4种子功效分类的标签项：“电学功效”、“光学功效”、“空间功效”和“热学功效”，而标签项“物理功效”的标签标识为E.1，“电学功效”、“光学功效”、“空间功效”和“热学功效”的标签标识分别为E.11、E.12、E.13和E.14，均以“物理功效”的标签标识“E.1”为起始，用末位的“1”、“2”、“3”、“4”分别区分4个子标签项，则通过E.11、E.12、E.13和E.14即可表达其共同的父标签项为E.1；同样，对于子标签项标签：“高亮度”(标签标识E.121)、“高均匀度”(标签标识E.122)、“高准直度”(标签标识E.123)、“散斑抑制”(标签标识E.124)、“高色纯”(标签标识E.125)和“其它”(标签标识E.12z)，标签标识分别为E.121、E.122、E.123、E.124、E.125和E.12z，均以E.12为起始，上述6个子标签具有共同的父标签项E.12，即上述6个表示功效分类的子标签项均属于“光学功效”。

标签项以及标签项的父子关系通过第一树形控件的节点以及节点之间的关系表达。如图2所示，标签集合展示区域内加载的第一树形控件包括多个节点，每个节点与标签项一一对应。第一树形控件上的节点在树形控件中的父子关系即表达了相应的标签项的父子关系。例如，表达标签项“光学功效”E.12的节点，在第一树形控件上具有6个子节点，每个子节点依次表达标签标识为E.121、E.122、E.123、E.124、E.125和E.12z的标签项。

在本应用场景中，属于同一根节点的分支节点具有相同的节点颜色，例如，“技术分解”(标签标识T)及其子节点中的分支节点可均为蓝色、“应用分类”(标签标识A)及其子节点中的分支节点可均为橙色和“功效分类”(标签标识E)及其子节点中的分支节点可均为绿色，相应的，“功效分类”(标签标识E)的子节点“电学功效”、“光学功效”、“空间功效”和“热学功效”(标签标识分别为E.11、E.12、E.13和E.14)的颜色可均为绿色。这样设置可方便提示用户区分标签分类的大类。

而“光学功效”的子节点：“高亮度”(标签标识E.121)、“高均匀度”(标签标识E.122)、“高准直度”(标签标识E.123)、“散斑抑制”(标签标识E.124)、“高色纯”(标签标识E.125)和“其它”(标签标识E.12z)均为叶节点，可设置为灰色，与分支节点颜色进行区分，从而可方便地提示用户上述节点为叶节点。

在第一树形控件中，用户通过点击第一树形控件上的分支节点，可切换显示/隐藏子节点，参考图3所示，用户点击节点“光学功效”后，“光学功效”的子节点可展开或折叠。当标签项较多时，可隐藏不必要的节点，方便用户选择。

步骤S206，接收标引指令，获取标引指令指向的第一目标节点，获取第一目标节点对应的标签项的第一目标标签标识。

在一个实施例中，参考图4所示，第一树形控件的节点上还加载有按钮组件，一个树形控件节点与一个按钮组件对应，针对该按钮组件的触发操作即为输入指向该树形控件节点的标引指令。例如，若文档分析者希望为目标文档标引上标签“高均匀度”，则点击标签“高均匀度”的节点后的按钮组件(即图5所示的按钮“标”)，则输入了指向第一目标节点(标签“高均匀度”)的标引指令。

在本实施例中，浏览器页面上还设置有标引记录显示区域，参考图2所示，当文档分析者点击“高均匀度”的节点后的按钮组件后，则在标引记录显示区域添加“高均匀度”标签。在本实施例中，用户可选择不限于1个树形控件节点的按钮组件多次输入标引指令，从而为目标文档标引多个标签项。例如，用户在为目标文档标引了“高均匀度”标签后，还可点击“高准直度”的节点后的按钮组件再次输入标引指令，从而为目标文档标引上“高准直度”的标签项，标引记录显示区域中则可添加显示“高准直度”的标签项。

优选的，可为标引记录显示区域中的标签项添加提示信息(tips事件)，当光标移动到标引记录显示区域中的“高均匀度”标签上时，tips显示“高均匀度”标签的标签标识E.122、描述信息、关键词，以及“高均匀度”标签到其根标签“功效分类”通过父子关系连接的标签路径：

“路径：功效分类E->物理功效E.1->光学功效E.12->高均匀度E.122”

采用上述方式展示标引的标签项，用户通过移动光标到标引记录显示区域中的标签项查看tips信息即可了解标签项的父标签、祖父标签，乃至根标签项，而无需在右侧第一树形控件中繁多的标签项搜索查看，更加方便。

在一个实施例中，在通过第一树形控件加载目标标签集合时，可只为叶节点加载按钮控件。也就是说，只允许用户为目标文档标引叶节点。采用这种方式，可避免用户既标引父节点，又标引子节点，而不利于标引结果的统计。

步骤S208，将第一目标标签标识存储到与目标文档信息和目标标签集合对应的标引记录中，标引记录中包含一个或一个以上的标签标识。

如前应用场景中，参考图2所示，浏览器页面上设置有保存按钮，用户点击保存按钮，则浏览器获取目标文档的文档标识以及标引记录显示区域中的标签项的标签标识，然后上传至服务器，存储到服务器的数据库中，若已存在与包含目标文档标识的主键对应的标引记录，则更新标引记录，若不存在，则添加相应的标引记录。在其他实施例中，也可实现自动保存的功能，即标引记录显示区域发生变化后(添加或删除)，

在一个应用场景中，参考表1所示，可在数据库中建立一标引记录，该标引记录的主键包括文档标识：file_id字段，标签集合标识standard_id字段；优选的，为了区分不同用户针对在同一标签集合下对同一文档的标引数据，标引记录的主键还包括用户标识：user_id字段，用于存储标引的标签标识的字段为record字段。在其他实施例中，标引记录的主键还可包含其他的字段加以限定区分(例如权限控制中的群组标识等)，但必须要至少包含文档标识和标签集合标识，在此不做限定。

如前例中，若用户wayne对CN201811202475.3完成了标引，标引记录为E.122和E.123，浏览器上传的目标文档标识：CN201811202475.3，目标标签集合标识：分析标准A，用户标识：wayne和标引的标签标识E.121和E.123均存储到相应的字段中，存储记录参考表1所示：

表1

序号	file_id	standard_id	user_id	record
					1	CN201811202475.3	分析标准A	wayne	E.122、E.123

若预先已存在该存储记录，则对其进行覆盖。需要说明的是，表1描述的数据库结构设计仅用于说明第一目标标签标识存储到与目标文档信息和目标标签集合对应的标引记录中的逻辑过程，并不对具体的数据库设计方式进行限定。

在一个优选的实施例中，标引记录包括一个或一个以上的子分区，标引指令包括子分区标识。

将所述第一目标标签标识存储到与目标文档信息和目标标签集合对应的标引记录中包括：

获取标引指令对应的目标子分区标识；获取与目标文档信息和目标标签集合对应的标引记录，将第一目标标签标识存储到与目标子分区标识对应的子分区中。

参考表2所示，数据库记录中标引记录包括两个字段：primary和secondary，相应的页面上的标引记录显示区域也包括两个区域，参考图5中的“主标签”区域和“次标签”区域，分别对应primary字段和secondary字段。第一树形控件上的按钮组件也包括两个按钮：“主”按钮和“次”按钮，当用户点击“主”按钮，则将该按钮前的树形控件的节点的标签项添加到“主标签”区域中，当用户点击“次”按钮，则将该按钮前的树形控件的节点的标签项添加到“次标签”区域中。上传到服务器上后，服务器则将“主标签”区域中的一个或一个以上的标签项存储到该条记录的primary字段中，将“次标签”区域中的一个或一个以上的标签项存储到该条记录的secondary字段中。

表2

序号	file_id	standard_id	user_id	primary	secondary
						1	CN201811202475.3	分析标准A	wayne	E.122	E.123

需要说明的是，表2描述的数据库结构设计仅用于一个实例中分区设置标引记录的逻辑方式，并不对具体的数据库设计方式进行限定。

将标引记录设置为多个分区，可方便用户对文档进行多维度分析。以专利分析为例，用户可将针对独立权利要求的特征分析而标引的标签项通过点击“主”按钮添加到“主标签”区域，然后存储到标引记录的primary字段中；将针对从属权利要求的特征分析标引的标签项通过点击“次”按钮添加到“次标签”区域，然后存储到标引记录的secondary字段中。

参考图5和表2所示，针对目标文档CN200410038584.8，独权方案的技术效果是“高均匀度”，则用户可点击节点“高均匀度”E.122后“主”按钮，将“高均匀度”E.122添加到“主标签”区域；而从权方案带来了额外的技术效果是“高准直度”E.123，则用户可点击节点“高准直度”E.123后“次”按钮，将“高准直度”E.123添加到“次标签”区域，点击保存按钮后，则可将E.122和E.123分别存储到以CN200410038584.8和分析标准A为主键的标引记录的primary字段和secondary字段中。

在其他实施例中，标引记录还可设置2个以上的子分区，例如，在一个论文分析应用中，标引记录可设置N(N>2)个等级的子分区，可在树形控件的节点后设置N个按钮，分别对应前述的N个子分区。若用户点击按钮i(1<i<N)，就把树形控件的节点的标签项的标签标识，添加到子分区i对应的字段中存储。

在另一个实施例中，触发标引指令的方式还可以采用节点拖拽的方式。参考图6所示，第一树形控件上的节点可以在浏览器页面上拖拽(drag操作)，页面上还设置有拖拽放置区域(drop区域)，当用户将一树形控件上的节点拖拽到拖拽放置区域并释放后，即触发了标引指令，且该标引指令指向的第一目标节点即为被拖拽的节点。参考前例，该触发标引指令的方式也可适配标引记录存在两个或两个以上的子分区的实例。如图6中，拖拽放置区域也可划分为两个子区域，一个区域对应primary字段，另一个区域对应secondary字段。拖拽的第一目标节点放置在哪个区域，即将该第一目标节点的标签项的标签标识存储到哪个字段中。

由于第一树形控件上节点众多，相应的按钮组件也众多，单个按钮较小，通过按钮组件触发标引指令的方式容易出现眼花点错的情况，而采用节点拖拽的方式触发标引指令可避免这种情况，防止误操作。需要说明的是，标引指令的按钮组件触发和树形控件节点拖拽触发可以同时存在，在加载树形控件时，可同时为节点加载按钮组件和添加拖拽事件处理函数，为标引指令的触发增加多种触发方式。

在一个实施例中，用户还可对目标标签集合进行编辑修改。具体的，可在第三界面区域通过第二树形控件展示目标标签集合，接收针对第二树形控件的标签设置指令；获取标签设置指令指向的第二目标节点，根据标签设置指令修改第二目标节点对应的标签项。

在本实施例中，可在标签集合设置页面通过第二树形控件展示目标标签集合。参考图7所示，在本基于浏览器B/S架构的应用场景中，可提供一独立的标签集合设置页面进行标签集合的修改，在该页面中，通过下拉框或列表组件展示已存储的标签集合，用户在选中目标标签集合“分析标准A”后，即通过第二树形控件加载目标标签集合“分析标准A”展示。第二树形控件上的节点同样与目标标签集合“分析标准A”的标签项对应。

第二树形控件上的节点也加载有按钮组件，如图7中，按钮组件可包括“增”、“删”、“合”和“编”等。当用户点击按钮，则输入了标签设置指令，且该标签设置指令指向该按钮对应的第二目标节点即为该按钮对应第二树形控件上的节点。例如，参考图8所示，当用户点击了“编”按钮，则可弹出编辑窗口，用户可在编辑窗口中对标签项进行编辑。在本应用场景中，标签项的信息包括标签名称、标签标识、描述信息和关键词集合。用户在相应的输入框中输入即可完成修改。

在优选的实施例中，第二树形控件还支持节点的拖拽事件，用户可通过将第二树形控件上的一节点A(不限分支节点或叶节点)拖拽到另一节点B(不限分支节点或叶节点)上释放，从而将节点A变更为以节点B为父节点，相应的节点A的标签项的父标签项即变更为节点B的标签项。

用户对第二树形控件上的节点进行修改之后，页面可自动保存，获取修改后的第二树形控件上的节点对应的标签项，上传至服务器存储。也可在页面上设置保存按钮，用户在页面上对第二树形控件上的节点进行多次修改后，点击保存按钮，获取修改后的第二树形控件上的节点对应的标签项，上传至服务器存储。对于B/S架构的应用而言，采用保存按钮的方式较优，可减少浏览器访问web服务器的次数，提高效率。

需要说明的是，第二界面和第三界面也可以是同一页面区域，第一树形控件和第二树形控件可以是同一树形控件。例如，文档分析页面上可设置树形控件编辑状态切换按钮，当点击切换至编辑状态时，为树形控件加载输入标签设置指令的按钮组件，用户即可对节点上的标签项进行编辑；当点击切换至标引状态时，为树形控件加载输入标引指令的按钮组件，用户即可通过点击该按钮对目标文档进行标签标引。

也就是说，本发明实施例并不限定具体的页面布局，在一个或一个以上显示界面上设置用于展示目标文档信息的第一界面区域，用于展示标签项供用户选择的第一树形控件的第二界面，用于展示标签项供用户编辑的第二树形控件的第三界面，均属于本发明实施例支持的信息展示方式，且本发明实施例不限定上述第一界面区域、第二界面和第三界面展示在同一页面中，不限定上述第二界面和第三界面为同一显示区域，不限定第一树形控件和第二树形控件对应同一树形控件。

在一个优选的实施例中，可对针对标签项中标签标识的修改进行校验，具体的，根据所述标签设置指令修改所述第二目标节点对应的标签项包括：

对第二目标节点对应的标签项的标签标识进行校验，在其表达的父子关系符合第二目标节点在第二树形控件的父子关系的情况下，完成修改；

在第二目标节点对应的标签项的标签标识表达的父子关系不符合第二目标节点在第二树形控件的父子关系的情况下，提示错误，或自动调整标签标识，以使第二目标节点对应的标签项的标签标识表达的父子关系符合第二目标节点在第二树形控件的父子关系。

在一个实施例中，可通过比对预设的字符串位的子字符串校验改后标签标识表达的父子关系。例如，预设的字符串位可为标签标识为N位时的前N-1位，若父标签项的标签标识为E.1，则其子标签项的标签标识在为E.1*时，*为1位字符(例如*为0-9，a-z和A-Z中的任意一个字符)时通过校验，当对第二目标节点的标签项的标签标识进行修改后标签标识修改为E.1231，而其父节点的标签项的标签标识若为E.123，则校验通过，若其父节点的标签项的标签标识为E.12或E.124，则校验失败。在其他实施例中，预设的字符串位也可为标签标识为N位时的前N-2位或N-3位，乃至N-i位，区分位i越大，则可提供给用户设置标签标识的字符集越多，可父标签项可分类的子标签项就越多。

在另一个实施例中，可通过比对连接符分割的子字符串校验改后标签标识表达的父子关系。例如，连接符可设定为“-”，当对第二目标节点的标签项的标签标识进行修改后标签标识修改为E-123-12-1，通过连接符分割后的子字符串为E、123、12和1，若其父节点的标签项的标签标识若为E-123-12，则校验通过，若其父节点的标签项的标签标识为E-121-12或E-123-13，则校验失败。若其父节点的标签项的标签标识若为E-123-12，则将第二目标节点的标签项的标签标识修改为E-123-12-1或E-123-12-111或E-123-12-11d均可通过校验，但将第二目标节点的标签项的标签标识修改为E-123-12-或E-123-12-1-或E-123-12-1-2，则均校验失败。优选的，可限定标签标识中的字符的ASCII码属于0-9，a-z和A-Z的区间才可通过校验，而采用“-”、“.”、“/”等字符设置为连接符。

在其他实施例中，还可以结合上述两种方式校验改后标签标识表达的父子关系，如前应用场景中，对于同一第二树形控件上的节点，父节点E.1可采用比对预设的字符串位的子字符串的方式进行校验，若选择父节点E.12下的第一层级的子节点作为第二目标节点进行修改，则若修改后的第二目标节点的标签标识的前N-1位不为E.12，则校验失败(例如，E.12s通过校验，E.1222校验失败)。而当用户对节点E.1进行编辑时，则可采用比对连接符分割的子字符串进行校验，去掉连接符“.”后，若E.1的父节点不为E，则校验失败。

采用上述方式设置标签标识或者在用户自定义标签标识时进行校验或校正，可使得标签项的标签标识不仅可将其与其他标签项区分开来，还使得其可以表达通过父子关系连接的根标签项到该标签项的路径上的所有标签项。例如，前述的标签项E.121，反映了根标签项E到标签项E.121上的所有标签项：E、E.1、E.12和E.121，其中E是E.1的父标签项，即“物理功效”是“功效分类”的一级分类；E.1是E.12的父标签项，即“光学功效”是“物理功效”的直接子分类，是“功效分类”的二级分类；E.12是E.121的父标签项，即“高亮度”是“光学功效”的直接子分类，是“功效分类”的三级分类。这就使得，文档分析者只需要通过观察标签项的标签标识，即可了解该标签项的父标签项，祖父标签项，乃至根标签项，从而了解到标签项的从属关系，而不需要另行查阅标签项的具体分类，提高了便利性。同时，对于计算机程序而言，可通过简单的字符串位运算即可获取标签项的父标签，而不需要通过查询标签集合，从而提高了执行效率。

在本实施例中，第二目标节点对应的标签项的标签标识校验失败可提示错误，或自动调整标签标识，以使第二目标节点对应的标签项的标签标识表达的父子关系符合第二目标节点在第二树形控件的父子关系。

例如，在一个应用场景中，参考图9和图10所示，用户点击第二目标节点E.121的“编”按钮进行编辑，其父节点的标签标识为E.12，则若用户在“标签标识”一栏中将其标签标识修改为E.1222，则由于其前N-1位E.123与父节点的标签标识E.12不符，因此提示用户在E.12的基础上添加1位字符完成修改。

在一个拖拽编辑的应用场景中，用户拖拽第二目标节点E.125至节点E.1之下，由于E.125的前N-1位为E.12，与E.1不匹配，则校验不通过，此时，取E.125的末位5与节点E.1拼接实现自动调整，将第二目标节点的标签标识自动调整为E.15。可以理解，当预设的字符串位为标签标识为N位时的前N-i位时，可获取第二目标节点的标签标识的末i位与第二目标节点的父节点的标签标识拼接来进行自动调整。在对第二目标节点对应的标签项的标签标识进行修改时进行校验，并在校验失败时自动调整，可自动形成表达的父子关系符合第二目标节点在第二树形控件的父子关系的标签标识，减少了用户输入的次数，提高了操作的便利性。

在本实施例中，由于标签集合一旦被修改，则历史的标引记录也会受到影响。例如，若历史标引数据中，数个文档已经被标引了E.121标签，而用户在对标签集合修改时，将标签项E.121上移了一个分类层级，变更为E.14，则历史的标引记录中仍然存储着E.121的标签标识，没有被同步变更为E.14，这就产生了分析数据的变更错误，会产生分析不准确的问题。

为解决该问题，在一个实施例中，根据标签设置指令修改第二目标节点对应的标签项还包括：可在第二目标节点的标签项的标签标识被修改的情况下，按照修改顺序记录标签项的修改记录。

上述文档分析方法还可获取与目标标签集合对应的目标标引记录集合，目标标引记录集合包括一条或一条以上的标引记录；根据修改记录修改目标标引记录集合中的标引记录中的标签标识。

例如，在一个应用场景中，仍然参考图7所示，分析标准A下的第二目标节点E.121对应的有“编”按钮、“删”按钮。若点击“编”按钮，在弹出的编辑窗口中，将第二目标节点E.121的标签标识修改为E.129之后，则生成一条修改记录：

change E.121 to E.129，改前标识为E.121，改后标识为E.129；

当用户点击保存或自动保存，将修改记录发送至服务器后，若本实施例中，已标引的标引记录在数据库中存储的数据项参考表3所示：

表3

则可将标引记录1和2中的“已标引标签”字段中的E.121替换为E.129，标引记录1的已标引标签字段则变更为E.129，E.123；标引记录2的已标引标签字段则变更为E.129。

若点击“删”按钮，则在第二树形控件上移除第二目标节点E.121，并生成一条修改记录：

change E.121 to null(或者用remove E.121表达)，改前标识为E.121，改后标识为空；

当用户点击保存或自动保存，将修改记录发送至服务器后，同样参考表3所示，可将标引记录1和2中的“已标引标签”字段中的E.121替换为空或者删除；即标引记录1的已标引标签字段则变更为E.123；标引记录2的已标引标签字段则变更为空。

若用户选择将节点E.121合并到节点E.122中，则在第二树形控件上移除第二目标节点E.121，并生成一条修改记录：

change E.121 to E.122(或者用merge E.121 to E.122表达)，改前标识为E.121，改后标识为122；

当用户点击保存或自动保存，将修改记录发送至服务器后，参考表1所示，可将标引记录1-2中的“已标引标签”字段中的E.121变更为E.122；即标引记录1的已标引标签字段则变更为E.122，E.123；标引记录2的已标引标签字段则变更为E.122。

在本实施例中为了提高执行效率，用户可在对多个第二目标节点进行修改，产生多条修改记录后，再点击保存按钮将修改后的第二树形控件表达的目标标签集合，以及相应的修改记录上传至服务器。然后根据修改记录修改目标标引记录集合中的标引记录中的标签标识。

具体的，根据修改记录修改所述目标标引记录集合中的标引记录中的标签标识可包括：

遍历目标标引记录集合中的标引记录；对于遍历到的标引记录，顺序逐条获取修改记录，获取该条修改记录包含的改前标识和改后标识，将遍历到的标引记录中包含的改前标识修改为改后标识。

在一个应用场景中，若用户顺序进行了如下操作：

1.点击节点E.121的“编”按钮将标签标识由E.121修改为E.128

2.点击节点E.123的“删”按钮将其删除

3.拖拽节点E.128至节点E.1处释放，被自动调整标签标识为E.18

4.点击“保存”按钮

则上述操作按照修改顺序共产生了三条修改记录上传服务器：

r1：change E.121 to E.128

r2：remove E.123

r3：change E.128 to E.18

服务器在接收到上述具有顺序的修改记录之后，以表3中与“分析标准A”相关的4条标引记录为例，则遍历上述4条标引记录。对于序号1的记录，其存储的已标引标签为“E.121，E.123”，则先按照修改记录r1将其中的E.121替换为E.128，已标引标签字段数据变更为：“E.128，E.123”；然后再按照修改记录r2将其中的E.122删除，已标引标签字段数据变更为：“E.128”；然后再按照修改记录r3将其中的E.128替换为E.18，已标引标签字段数据变更为：“E.18”，对上述4条标引记录进行遍历处理，最终变更后的标引记录则如表4所示：

表4

由此可看出，随着用户在第二树形控件上对标签项的标签标识的修改，已标引了该标签项的标引记录中的标签标识也随之进行了变更，这就使得用户可在标引过程中随意对标签集合进行修改而不会影响到标引结果的准确性，不用在对标签集合修改后重复地采用修改后的标签项重新标引，大大提高了文档分析的准确度，也大大提高了文档分析的效率。

在一个优选的实施例中，根据修改记录修改目标标引记录集合中的标引记录中的标签标识之前还可将针对同一第二目标节点的两次或两次以上的修改记录合并。

如上例中，修改记录r1和r3均为针对同一第二目标节点进行的修改，即先通过编辑器将第二目标节点的标签标识由E.121变更成了E.128，再通过拖拽操作将第二目标节点的标签标识由E.128变更为了E.18。针对同一第二目标节点的修改或变更具有以下特点：即顺序记录的修改记录中，存在后次修改记录的改前标识为前次修改记录的改后标识。再参考上例中：

r1：change E.121 to E.128为前次修改记录，改后标识为E.128；

r3：change E.128 to E.18为后次修改记录，改后标识为E.18；

将二者合并的方式为：采用后次修改记录的改后标识替换前次修改记录的改后标识，即r1和r3合并后的修改记录为：

r1：change E.121 to E.18

上述合并方式可通过遍历查找修改记录通过两两比对等方法实现，在此不做限定。合并后的修改记录即为：

r1：change E.121 to E.18

r2：remove E.123

由此可看出，针对以标引记录，只需要按顺序参照修改记录对其进行两次标签标识的变更即可完成标引记录的修改，相较于未合并直接按照修改记录对标引记录进行修改的方式(每个标引记录需要变更三次)，大大减少了变更标签标识的次数，从而大大提高了执行效率。

在一个优选的实施例中，在根据修改记录修改目标标引记录集合中的标引记录中的标签标识之前还可备份目标标签集合，以及与目标标签集合对应的标引记录。

如上例中，用户在标签集合设置页面完成对第二树形控件加载的“分析标准A”的修改，点击保存后，将第二树形控件上修改后的标签集合“分析标准A”上传服务器后，服务器可先将“分析标准A”备份，并将标引记录中与“分析标准A”相关的标引记录备份。例如，可创建新的标签集合“分析标准A-backup”，将“分析标准A”的标签项信息备份到“分析标准A-backup”中，然后备份标引记录中标签集合字段为“分析标准A”的标引记录，将备份的标引记录中的标签集合字段修改为“分析标准A-backup”即完成备份。

由于对标签集合的修改会导致标引记录同步产生变更，因此，一旦标签集合的修改出现错误，则标引记录也会出现错误，从而影响到分析结果。在这种情况下，在对标签集合进行实质性的修改之前将其备份，并同步备份相应的标引记录，即使修改出现问题，历史的标签集合和标引记录仍然存在与备份中，随时可以恢复，从而避免了对标签集合的修改产生分析数据错误的风险，提高了系统的可靠性。

在一个实施例中，用户对多个文档进行了标引，产生了多条标引记录之后，还可根据已标引的标签标识对标引记录进行统计筛选，生成统计表格和和统计图表。具体的，可获取输入的筛选表达式，筛选表达式包括目标标签集合中的一个或一个以上的标签标识；获取输入的文档信息集合，获取与文档信息集合中的文档信息以及目标标签集合对应的标引记录；遍历标引记录，筛选包含的标签标识符合筛选表达式的标引记录。

如前述应用场景中，若用户在文档分析页面选中了标签集合为“分析标准A”，利用“分析标准A”中的标签项对专利包1中的数个专利文档进行了标引操作，产生了数条标引记录，则可通过多种维度对该数条标引记录进行统计筛选，统计和筛选的方式即可由输入的筛选表达式定义。

例如，在一个专利分析的应用场景中，“分析标准B”中的标签项“”T.1，技术方案2”T.2，技术方案3”T.3和技术方案4”T.4分别表示某领域下4种技术方案；“分析标准B”中的标签项“功效1”E.1，“功效2”E.2，“功效3”E.3和“功效4”E.4分别表示4种功效分类。若用户希望查看至少包含技术方案1和技术方案2但不包含技术方案3，同时至少包含功效1的专利文档，则可在筛选表达式中加入逻辑连接符拼接的各个标签标识：

“T.1 and T.2 and E.1 not T.3”

然后上传服务器，服务器根据该筛选表达式在符合“分析标准B”的标引记录中查找至少标引记录包含了T.1、T.2和E.1，但不包含T.3的文档，即可得到符合上述筛选表达式的专利清单。

再例如，在上述专利分析的应用场景中，用户希望统计上述4种技术方案的在一定年份区间的技术发展趋势，则可在筛选表达式中加入起始年和终止年的时间参数，和T.1，T.2，T.3，T.4的标签标识参数，上传至服务器。服务器分别统计包含T.1，T.2，T.3，T.4各个标签标识的标引记录的数量，再统计该数量在标引记录对应的专利文档的申请年的时间维度上的分布，即可在标引记录统计页面上展示如图11所示的X轴为时间，Y轴为数量，图例为各技术方案T.1，T.2，T.3，T.4的反映T.1，T.2，T.3，T.4技术路线的统计图表。

再例如，在上述专利分析的应用场景中，用户希望得到上述4种技术方案和该4种功效分类的效矩阵图，则可在筛选表达式中加入标签标识T.1，T.2，T.3，T.4的统计维度1，加入标签标识E.121，E.122，E.123，E124的统计维度2，并上传至服务器，服务器将统计维度1中的标签标识和统计维度2中的标签标识两两配对，构成例如“T.1 and E.121”、“T.1 andE.122”…“T.4 and E.124”的子表达式，然后在标引记录中筛选统计符合各个上述子表达式的标引记录的数量，即可在标引记录统计页面上展示如图12所示的功效矩阵图。

需要说明的是，上述描述中的筛选表达式仅用于说明筛选标引记录进而通过筛选标引记录筛选文档的筛选逻辑，并不限定举得筛选表达式形式。根据标引记录存储形式的不同(文件、流式数据、数据库)，在不同的应用场景中采用的表现形式也可不同，在此不做限定。且筛选表达式表达的筛选逻辑也不限于上述应用场景的描述，根据用户的筛选和统计需求，只要是基于标签标识的筛选方式均为本发明实施例支持的筛选表达式。

上述文档分析方法也可应用于论文等的分析，例如，在一个生物类论文分析的应用场景中，用户可预先在标签集合设置页面的第二树形控件上构建一标签集合“生物学分类”，按照生物学分类的“界、门、纲、目、科、属、种”的从属关系，设置符合生物学分类的各个标签项，并合理设置标签项的标签标识，以使得标签项的标签标识表达“界、门、纲、目、科、属、种”的从属关系。在本应用场景中，可通过使用2位字符表达一个标签项一个层级信息来设置标签项的标签标识。

例如，可定义标签标识K1为标签项“动物界”(可设置为标签项的标签名称，以下类似)，K1P1为标签项“脊索动物门”的标签标识(包含了父标签项“动物界”K1的标签标识)，K1P104为标签项“哺乳纲”的标签标识，K1P10409为标签项“食肉目”的标签标识，K1P1040918为标签项“猫科”的标签标识，K1P104091807为标签项“豹属”的标签标识，K1P10409180703为标签项“虎种”的标签标识，K1P1040915为标签项“熊科”的标签标识，K1P104091509位标签项“大熊猫属”的标签标识，K1P10409150901为标签项“大熊猫种”的标签标识。由上述标签标识的设置可看出，K1P10409，K1P1040918和K1P1040915的设置表达了“猫科”和“熊科”同属“食肉目”，但在“食肉目”的子分类下开始产生分支的信息。

在标签项设置好后，用户即可在文档分析页面进行论文的分析标引工作，若分析的主题是某一段基因的生物学分布，而一篇生物学论文的中证明了老虎和大熊猫均具有的该基因段，则可为该论文同时标引上K1P10409180703和K1P10409150901的标签项。那么批量对论文经过上述标引分析工作之后，可统计已标引的标签标识，若已标引的标签标识具有的共同前缀的最大值为“K1P10409”，则意味着，该段基因是“食肉目”特有的基因，可能与消化分解肉类有关，而若已标引的标签标识具有的共同前缀的最大值为“K1P104”，则意味着，该段基因是“哺乳纲”特有的基因，可能与胎生有关。

由此可看出，使用上述文档分析系统分析论文后，通过对标签标识的统计可产生统计学上的分析结果，且上述文档分析系统操作简便，标引之后可直接根据标签标识自动进行筛选统计，大大提高了分析统计的效率。

上述文档分析方法也可应用于法律文书的分析，例如，在一个案情分析系统的应用场景中，用户可预先按照行为主体S、行为对象O、案件事实E等维度构建标签项，例如，S.1为“自然人”，S.2为“法人”，O.1为“财物”，E.1为“和平手段”，E.2为“暴力手段”，E.3为“转移占有”等，用户在分析某案情文书时，若打上标签为S.1、O.1、E.1和E.3，则可分析得出，该案情中嫌疑人涉嫌盗窃罪，若打上标签为S.1、O.1、E.2和E.3，则可分析得出，该案情中嫌疑人涉嫌抢劫罪。

由此可看出，使用上述文档分析系统分析法律文书，也可以对完成对单一文档的分析，通过统计分析单一文档上具有的标签标识，即可分析得出该文档涉及的具体内容(例如具体罪名)，且上述文档分析系统操作简便，采用了能够表达父子关系的标签标识，使得用户可以构建更加系统的标签集合，只要用户按照一定的分类逻辑预先细分设置标签项，就能通过标引准确地对文档进行标引分析，提高了文档分析的准确度。

需要说明的是，上述应用场景为B/S架构的文档分析系统的应用场景，而本文档分析方法并不限于B/S架构的程序，也可基于C/S架构的程序或独立的桌面程序、移动端app。在C/S架构程序实现本文档分析方法的应用场景中，客户端Client程序实现的功能与B/S架构中浏览器实现的功能类似，客户端Client程序负责界面呈现、用户交互和部分数据处理，而标签集合、标引记录的存储，以及数据查询管理等业务则可由服务器端承载。在独立的桌面程序实现本文档分析方法的应用场景中，则由独立桌面程序全部执行上述文档分析方法。而在移动端APP实现上述文档分析方法的应用场景中，则移动端APP实现的功能与B/S架构中浏览器实现的功能类似，移动端APP负责界面呈现、用户交互和部分数据处理，而标签集合、标引记录的存储，以及数据查询管理等业务则可由APP的服务器端承载。也就是说，上述文档分析方法的实现可以基于多种程序语言和多种程序架构方式实现，对于本发明实施例对计算机程序本身不做限定。

为解决上述问题，本发明实施例还提出了一种文档分析装置，如图13所示，包括：文档展示模块102、标签集合展示模块104、标签标引模块106和标引记录存储模块108，其中：

文档展示模块102，用于在第一界面区域展示目标文档信息。

标签集合展示模块104，用于在第二界面区域通过第一树形控件展示目标标签集合，目标标签集合包括具有父子关系的标签项，标签项具有标签标识，标签标识表达相应的标签项的父子关系，标签项由第一树形控件的节点展示，且标签项的父子关系与相应的节点在第一树形控件上的父子关系一致。

标签标引模块106，用于接收标引指令，获取标引指令指向的第一目标节点，获取第一目标节点对应的标签项的第一目标标签标识。

标引记录存储模块108，用于将第一目标标签标识存储到与目标文档信息和目标标签集合对应的标引记录中，标引记录中包含一个或一个以上的标签标识。

在一个实施例中，标引记录包括一个或一个以上的子分区，标引指令包括子分区标识。

标引记录存储模块108还用于获取标引指令对应的目标子分区标识；获取与所述目标文档信息和所述目标标签集合对应的标引记录，将所述第一目标标签标识存储到与所述目标子分区标识对应的子分区中。

在一个实施例中，如图13所示，该装置还包括标签集合设置模块110，用于在第三界面区域通过第二树形控件展示目标标签集合，接收针对第二树形控件的标签设置指令；获取标签设置指令指向的第二目标节点，根据标签设置指令修改第二目标节点对应的标签项。

在一个实施例中，如图13所示，该装置还包括标引记录变更模块112，用于在第二目标节点的标签项的标签标识被修改的情况下，按照修改顺序记录标签项的修改记录；获取与目标标签集合对应的目标标引记录集合，目标标引记录集合包括一条或一条以上的标引记录；根据修改记录修改目标标引记录集合中的标引记录中的标签标识。

在一个实施例中，第二目标节点可以为一个或一个以上，修改记录包括一条或一条以上，修改记录包括改前标识和改后标识。标引记录变更模块112还用于遍历目标标引记录集合中的标引记录；对于遍历到的标引记录，顺序逐条获取修改记录，获取该条修改记录包含的改前标识和改后标识，将遍历到的标引记录中包含的改前标识修改为改后标识。

在一个实施例中，如图13所示，该装置还包括修改记录合并模块114，用于将针对同一第二目标节点的两次或两次以上的修改记录合并。

在一个实施例中，如图13所示，该装置还包括标引备份模块116，用于备份目标标签集合，以及与目标标签集合对应的标引记录。

在一个实施例中，如图13所示，该装置还包括标签项校验模块118，用于在第二目标节点对应的标签项的标签标识表达的父子关系不符合第二目标节点在第二树形控件的父子关系的情况下，提示错误，或自动调整所述标签标识，以使第二目标节点对应的标签项的标签标识表达的父子关系符合第二目标节点在第二树形控件的父子关系。

在一个实施例中，如图13所示，该装置还包括标引统计模块120，用于获取输入的筛选表达式，筛选表达式包括目标标签集合中的一个或一个以上的标签标识；获取输入的文档信息集合，获取与文档信息集合中的文档以及目标标签集合对应的标引记录；筛选出包含的标签标识符合筛选表达式的标引记录所对应的文档。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

在一个实施例中，如图14所示，图14展示了一种运行上述文档分析方法的计算机系统的终端。该计算机系统可以是智能手机、平板电脑、掌上电脑、笔记本电脑或个人电脑等终端设备。具体的，可包括通过系统总线连接的外部输入接口1001、处理器1002、存储器1003和输出接口1004。其中，外部输入接口1001可选的可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少包括显示屏10042等设备。

在本实施例中，本方法的运行基于计算机程序，该计算机程序的程序文件存储于前述计算机系统的外存储器10032中，在运行时被加载到内存储器10034中，然后被编译为机器码之后传递至处理器1002中执行，从而使得基于冯诺依曼体系的计算机系统中形成逻辑上的文档展示模块102、标签集合展示模块104、标签标引模块106、标引记录存储模块108。且在上述图像展示区域的形状设置方法执行过程中，输入的参数均通过外部输入接口1001接收，并传递至存储器1003中缓存，然后输入到处理器1002中进行处理，处理的结果数据或缓存于存储器1003中进行后续地处理，或被传递至输出接口1004进行输出。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文档分析方法，其特征在于，所述方法包括：

在第一界面区域展示目标文档信息；

2.根据权利要求1所述的文档分析方法，其特征在于，所述标引记录包括一个或一个以上的子分区，所述标引指令包括子分区标识；

获取标引指令对应的目标子分区标识；

3.根据权利要求1所述的文档分析方法，其特征在于，所述方法包括：

4.根据权利要求3所述的文档分析方法，其特征在于，所述根据所述标签设置指令修改所述第二目标节点对应的标签项之后还包括：

5.根据权利要求4所述的文档分析方法，其特征在于，所述第二目标节点为一个或一个以上，所述修改记录包括一条或一条以上，修改记录包括改前标识和改后标识；

遍历所述目标标引记录集合中的标引记录；

6.根据权利要求4所述的文档分析方法，其特征在于，所述根据所述修改记录修改所述目标标引记录集合中的标引记录中的标签标识之前还包括：

7.根据权利要求4所述的文档分析方法，其特征在于，所述根据所述修改记录修改所述目标标引记录集合中的标引记录中的标签标识之前还包括：

8.根据权利要求3所述的文档分析方法，其特征在于，所述根据所述标签设置指令修改所述第二目标节点对应的标签项包括：

9.根据权利要求1至8任一项所述的文档分析方法，其特征在于，所述方法还包括：

10.一种文档分析装置，其特征在于，所述装置包括：

文档展示模块，用于在第一界面区域展示目标文档信息；

11.根据权利要求10所述的文档分析装置，其特征在于，所述标引记录包括一个或一个以上的子分区，所述标引指令包括子分区标识；

12.根据权利要求10所述的文档分析装置，其特征在于，所述装置还包括标签集合设置模块，用于在第三界面区域通过第二树形控件展示所述目标标签集合，接收针对所述第二树形控件的标签设置指令；获取所述标签设置指令指向的第二目标节点，根据所述标签设置指令修改所述第二目标节点对应的标签项。

13.根据权利要求12所述的文档分析方法，其特征在于，所述装置还包括标引记录变更模块，用于在所述第二目标节点的标签项的标签标识被修改的情况下，按照修改顺序记录所述标签项的修改记录；获取与所述目标标签集合对应的目标标引记录集合，所述目标标引记录集合包括一条或一条以上的标引记录；根据所述修改记录修改所述目标标引记录集合中的标引记录中的标签标识。

14.根据权利要求13所述的文档分析装置，其特征在于，所述第二目标节点为一个或一个以上，所述修改记录包括一条或一条以上，修改记录包括改前标识和改后标识；

15.根据权利要求13所述的文档分析装置，其特征在于，所述装置还包括修改记录合并模块，用于将针对同一所述第二目标节点的两次或两次以上的修改记录合并。

16.根据权利要求13所述的文档分析装置，其特征在于，所述装置还包括标引备份模块，用于备份所述目标标签集合，以及与所述目标标签集合对应的标引记录。

17.根据权利要求12所述的文档分析装置，其特征在于，所述装置还包括标签项校验模块，用于在所述第二目标节点对应的标签项的标签标识表达的父子关系不符合所述第二目标节点在所述第二树形控件的父子关系的情况下，提示错误，或自动调整所述标签标识，以使所述第二目标节点对应的标签项的标签标识表达的父子关系符合所述第二目标节点在所述第二树形控件的父子关系。

18.根据权利要求10至17任一项所述的文档分析装置，其特征在于，所述装置还包括标引统计模块，用于获取输入的筛选表达式，所述筛选表达式包括所述目标标签集合中的一个或一个以上的标签标识；获取输入的文档信息集合，获取与所述文档信息集合中的文档以及目标标签集合对应的标引记录；筛选出包含的标签标识符合所述筛选表达式的标引记录所对应的文档。

19.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或一条以上的计算机指令，所述一条或一条以上指令适于由处理器加载并执行如权利要求1-9任一项所述的文档分析方法。

20.一种文档分析设备，其特征在于，所述文档分析设备包括存储器以及处理器，其中，所述存储器中存储一组程序，且所述处理器用于调用所述存储器中存储的程序，用于执行如权利要求1-9任一项所述的文档分析方法。