CN115146592A - 一种文档标记方法及装置、电子设备、存储介质 - Google Patents
一种文档标记方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN115146592A CN115146592A CN202210824525.1A CN202210824525A CN115146592A CN 115146592 A CN115146592 A CN 115146592A CN 202210824525 A CN202210824525 A CN 202210824525A CN 115146592 A CN115146592 A CN 115146592A
- Authority
- CN
- China
- Prior art keywords
- marking
- content
- document
- target document
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000001914 filtration Methods 0.000 claims description 61
- 238000005070 sampling Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种文档标记方法及装置、电子设备、存储介质,可应用于大数据领域或金融领域,所述方法包括:获取目标文档;分别构建标记组件库中的各个标记组件对应的所述目标文档的文档树;基于所述目标文档中的文档内容,从多个系统中筛选出所述目标文档的标记输入系统;构建与各个所述标记输入系统之间的数据库通道以及日志通道;分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
Description
技术领域
本申请涉及文档处理技术领域,特别涉及一种文档标记方法及装置、电子设备、存储介质。
背景技术
在企业内使用文档时,不可避免的需要对文档做一些标记,例如文档的标签有什么、文档的关联文档是什么、文档内的部分内容的关联内容是什么等。
当前对于文档的标记方法,主要由工作人员通过阅读设备,阅读待标记的文档,以及人工进行相关信息的搜索,并对待标记文档进行标记。
但是通过人工进行标记的方法,不仅成本高,效率低,并且还容易出现遗漏。
发明内容
基于上述现有技术的不足,本申请提供了一种文档标记方法及装置、电子设备、存储介质,以解决现有技术效率低且容易出现遗漏的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种文档标记方法,包括:
获取目标文档;
分别构建标记组件库中的各个标记组件对应的所述目标文档的文档树;
基于所述目标文档中的文档内容,从多个系统中筛选出所述目标文档的标记输入系统;
构建与各个所述标记输入系统之间的数据库通道以及日志通道;
分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
可选地,在上述的文档标记方法中,所述分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记之后,还包括:
将各个所述标记组件对应的所述目标文档的文档树的各个节点的标记内容进行交叉验证,确定出各个偶然性标记内容;
分别针对每个所述偶然性标记内容,将所述偶然性标记内容进行剪枝;
计算所述偶然性标记内容与所在层级的各个节点的所述标记内容的相似度;
将所述偶然性标记内容与相似度大于预设阈值,且相似度最高的所述标记内容进行合并;
从合并后的所述标记内容的节点起,逐级上传至根节点。
可选地,在上述的文档标记方法中,所述基于所述目标文档中的文档内容,从多个系统中筛选出所述目标文档的标记输入系统,包括:
从所述目标文档中选取预设比例的文档内容作为采样内容;
分别针对每个所述系统,对所述采样内容中各个部分的内容进行检索以及日志过滤;
若成功检索以及成功过滤的内容占所述采样内容的比例大于预设比例阈值,则将所述系统标记为所述目标文档的所述标记输入系统。
可选地,在上述的文档标记方法中,所述分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记,包括:
分别针对每个所述标记组件,分别通过与各个所述标记输入系统之间的所述数据库通道,对所述目标文档中的各个部分的内容进行检索,得到检索结果;
根据检索结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记;
获取所述标记组件中的过滤规则;
分别通过与各个所述标记输入系统之间的所述日志通道,按照所述标记组件中的过滤规则,对所述目标文档中的各个部分的内容进行日志内容过滤,得到过滤结果;
对所述过滤结果进行汇总;
根据汇总后的所述过滤结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
本申请第二方面提供了一种文档标记装置,包括:
文档获取单元,用于获取目标文档;
第一构建单元,用于分别构建标记组件库中的各个标记组件对应的所述目标文档的文档树;
筛选单元,用于基于所述目标文档中的文档内容,从多个系统中筛选出所述目标文档的标记输入系统;
第二构建单元,用于构建与各个所述标记输入系统之间的数据库通道以及日志通道;
标记单元,用于分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
可选地,在上述的文档标记装置中,还包括:
内容确定单元,用于将各个所述标记组件对应的所述目标文档的文档树的各个节点的标记内容进行交叉验证,确定出各个偶然性标记内容;
裁剪单元,分别针对每个所述偶然性标记内容,将所述偶然性标记内容进行剪枝;
计算单元,用于计算所述偶然性标记内容与所在层级的各个节点的所述标记内容的相似度;
合并单元,用于将所述偶然性标记内容与相似度大于预设阈值,且相似度最高的所述标记内容进行合并;
传导单元,用于从合并后的所述标记内容的节点起,逐级上传至根节点。
可选地,在上述的文档标记装置中,所述筛选单元,包括:
采样单元,用于从所述目标文档中选取预设比例的文档内容作为采样内容;
处理单元,用于分别针对每个所述系统,对所述采样内容中各个部分的内容进行检索以及日志过滤;
系统确定单元,用于若成功检索以及成功过滤的内容占所述采样内容的比例大于预设比例阈值,则将所述系统标记为所述目标文档的所述标记输入系统。
可选地,在上述的文档标记装置中,所述标记单元,包括:
检索单元,用于分别针对每个所述标记组件,分别通过与各个所述标记输入系统之间的所述数据库通道,对所述目标文档中的各个部分的内容进行检索,得到检索结果;
第一标记单元,用于根据检索结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记;
规则获取单元,用于获取所述标记组件中的过滤规则;
过滤单元,用于分别通过与各个所述标记输入系统之间的所述日志通道,按照所述标记组件中的过滤规则,对所述目标文档中的各个部分的内容进行日志内容过滤,得到过滤结果;
汇总单元,用于对所述过滤结果进行汇总;
第二标记单元,用于根据汇总后的所述过滤结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
本申请第三方面提供了一种电子设备,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的文档标记方法。
本申请第四方面提供了一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至4任意一项所述的文档标记方法。
本申请提供了一种文档标记方法,预先在标记组件库中配置了多个标记组件,所以在需要对目标文档进行标记时,先获取目标文档,然后分别构建标记组件库中的各个标记组件对应的目标文档的文档树。接着基于目标文档中的文档内容,从多个系统中筛选出目标文档的标记输入系统,并构建与各个标记输入系统之间的数据库通道以及日志通道,以能通过数据库通道以及日志通道自动获取到与目标文档的内容相关的信息实现标记。所以最后分别针对每个标记组件,通过数据库通道以及日志通道,对各个标记组件对应的目标文档的文档树中的各个节点的内容进行标记,从而实现了一种自动对文档进行标记的方法,提高了标记的效率,也能有效避免出现遗漏。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种文档标记方法的流程图;
图2为本申请实施例提供的一种从多个系统中筛选出目标文档的标记输入系统的方法的流程图;
图3为本申请实施例提供的一种对内容进行标记的方法的流程图;
图4为本申请实施例提供的一种对目标文档的文档树的裁剪处理方法的流程图;
图5为本申请实施例提供的一种文档标记装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种文档标记方法,如图1所示,包括以下步骤:
S101、获取目标文档。
其中,目标文档指的是当前需要进行标记处理的文档。
S102、分别构建标记组件库中的各个标记组件对应的目标文档的文档树。
需要说明的是,在本申请实施例中,预先在设计器中内置文档需要标记的各个标记组件,并将各个标记组件存入标记组件库中。其中,标记组件可以包括有标签标记组件、关联内容标记组件、最新最热文档(内容)标记组件等。
为了便于对目标文档进行标记,也为了便于后续标记后的使用,所以在本申请实施例中,对标记组件库中的每一个标记组件构建一个独立的目标文档的文档树。
可选地,目标文档的文档树的结构可以采用文档本身的具有的自然结构,例如文档标题、一级标题、内容(二级标题)、内容(三级标题)等。从而形成一个多层级,并且每个层级具有一个或多个节点的文档树。
S103、基于目标文档中的文档内容,从多个系统中筛选出目标文档的标记输入系统。
需要说明的是,对目标文档进行标记,则需要获取到对于目标文档的具体使用过程中的信息,基于这些信息可以确定目标文档中各个部分内容具体的关联内容,以及其中的最新、最热的内容,进而可以实现对目标文档中的内容的标记。
这部分信息则需要从使用目标文档的系统中获取,因此在本申请实施例中,需要先基于目标文档中的文档内容,从多个系统中筛选出目标文档的标记输入系统。
可选地,在本申请另一实施例中,步骤S103的一种具体实施方式,如图2所示,包括以下步骤:
S201、从目标文档中选取预设比例的文档内容作为采样内容。
可选地,通常通过运行其从目标文档的文档树的各个阶段的内容中,选取部分内容作为样本内容,利用这些采样内容进行后续,即对目标文档的内容文档进行采样,一般为目标文档的三分之一或二分之一的文档内容总量。通过这部分采样内容不仅可以准确地筛选出目标文档的标记输入系统,并且还可以提供处理的效率。
当然为了保证准确性,也可以选取其他预设比例的文档内容作为采用内容,执行后续的步骤。
S202、分别针对每个系统,对采样内容中各个部分的内容进行检索以及日志过滤。
需要说明的是,对于采用内容,其由多个部分的内容组成,其中,每个部分的内容可以是一个语句,或者一个段落等,具有可以根据需求设定粒度。
具体的,分别针对每个系统,对采样内容中的各个部分的内容,在该系统中进行检索,以能确定是否能成功检索出与该部分的内容相关的内容。以及在该系统的日志中进行信息过滤,以能确定是否过滤得到与该部分的内容相关的信息。
S203、判断成功检索以及成功过滤的内容占采样内容的比例是否大于预设比例阈值。
其中,成功检索指的是成功检索到与目标文档中的文档内容相关的内容,而成功过滤指的是从系统的日志中过滤得到与目标文档中的文档内容向的信息。
由于若是成功检索以及成功过滤的内容占采样内容的比例大于预设比例阈值,说明该系统会经常用到该目标文档,所以此时执行步骤S204。
S204、将该系统标记为目标文档的标记输入系统。
S104、构建与各个标记输入系统之间的数据库通道以及日志通道。
需要说明的是,为了能从各个标记输入系统的数据库中检索信息,以及从各个标记输入系统的日志中过滤所需的信息,所以需要先构建与各个标记输入系统之间的数据库通道以及日志通道。
S105、分别针对每个标记组件,通过数据库通道以及日志通道,对各个标记组件对应的目标文档的文档树中的各个节点的内容进行标记。
需要说明的是,由于每个标记组件需要标记的内容不同,所以需要分别针对每个标记组件进行标记。具体,针对目标文档的各个节点的内容,通过各个数据库通道检索各个标记输入系统的数据库中与该内容相关的信息。并且,通过各个日志通道,从各个标记输入系统的日志中过滤出与该内容相关的信息。
需要说明的是,对于某一部分内容,可能可以从多个标记输入系统中都可以得到相关的信息,此时可以利用预设规则,从中选择出最优的内容进行标记。
可选地,在本申请另一实施例中,步骤S105的一种具体实施方式,如图3所示,包括以下:
S301、分别针对每个标记组件,分别通过与各个标记输入系统之间的数据库通道,对目标文档中的各个部分的内容进行检索,得到检索结果。
具体的,对于数据库通道,可以通过自动关系检索的方式,对该标记组件的相关内容进行检索,并将集散结果直接存入标记组件库中。
S302、根据检索结果对标记组件对应的目标文档的文档树中的各个节点的内容进行标记。
S303、获取该标记组件中的过滤规则。
需要说明的是,由于不同的标记组件需要标记的内容不同,所以获取数据的规则也不同。在本申请实施例中,预先在各个标记组件中配置了相应的规则,可以从该标记组件中获取相应的过滤规则。
S304、分别通过与各个标记输入系统之间的日志通道,按照该标记组件中的过滤规则,对目标文档中的各个部分的内容进行日志内容过滤,得到过滤结果。
具体得,可以根据标记组件的过滤规则,生成过滤条件,然后按照过滤条件,分别针对各个部分的内容进行日志内容过滤,得到相应的过滤结果。
S305、对过滤结果进行汇总。
同样,对于一个部分的内容,可能可以从多个标记输入系统的日志中,过滤得到多个结果,所以需要对过滤结果进行汇总。
S306、根据汇总后的过滤结果对标记组件对应的目标文档的文档树中的各个节点的内容进行标记。
可选地,在本申请另一实施例中,在执行步骤S105之后,还可以进一步对目标文档的文档树进行裁剪处理。如图4所示,本申请实施例提供的一种对目标文档的文档树的裁剪处理方法,包括:
S401、将各个标记组件对应的目标文档的文档树的各个节点的标记内容进行交叉验证,确定出各个偶然性标记内容。
需要说明的是,对于部分内容,在进行标记时,其实质为偶然事件,所以对于这部分内容的标记是不准确的,所以需要将这部分内容查找处理,然后进行准确的记录。
具体的可以通过各个标记组件之间的约束关系,对被标记的内容进行交叉验证,以能确定出是由于偶然性事件,导致标记错误的标记内容。
S402、分别针对每个偶然性标记内容,将该偶然性标记内容进行剪枝。
由于偶然性标记内容的标记是有误的,所以需要将其进行剪枝,其将其从文档树中所在的节点上裁剪下来。
S403、计算该偶然性标记内容与所在层级的各个节点的标记内容的相似度。
为了将裁剪下来的偶然性标记内容与真正存在关系的内容进行合并,所以需要计算该偶然性标记内容与所在层级的各个节点的标记内容的相似度。
S404、将偶然性标记内容与相似度大于预设阈值,且相似度最高的标记内容进行合并。
S405、从合并后的标记内容的节点起,逐级上传至根节点。
由于在将偶然性标记内容进行合并后,可能会对文档树中的上面的层级造成影响,所以需要从合并后的标记内容的节点起,逐级上传进行检查,直至根节点,以对存在影响的层级进行相应地调整。
本申请实施例提供了一种文档标记方法,预先在标记组件库中配置了多个标记组件,所以在需要对目标文档进行标记时,先获取目标文档,然后分别构建标记组件库中的各个标记组件对应的目标文档的文档树。接着基于目标文档中的文档内容,从多个系统中筛选出目标文档的标记输入系统,并构建与各个标记输入系统之间的数据库通道以及日志通道,以能通过数据库通道以及日志通道自动获取到与目标文档的内容相关的信息实现标记。所以最后分别针对每个标记组件,通过数据库通道以及日志通道,对各个标记组件对应的目标文档的文档树中的各个节点的内容进行标记,从而实现了一种自动对文档进行标记的方法,提高了标记的效率,也能有效避免出现遗漏。
需要说明的是,附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
本申请另一实施例提供了一种文档标记装置,如图5所示,包括:
文档获取单元501,用于获取目标文档。
第一构建单元502,用于分别构建标记组件库中的各个标记组件对应的目标文档的文档树。
筛选单元503,用于基于目标文档中的文档内容,从多个系统中筛选出目标文档的标记输入系统。
第二构建单元504,用于构建与各个标记输入系统之间的数据库通道以及日志通道。
标记单元505,用于分别针对每个标记组件,通过数据库通道以及日志通道,对各个标记组件对应的目标文档的文档树中的各个节点的内容进行标记。
可选地,在本申请另一实施例提供的文档标记装置中,还包括:
内容确定单元,用于将各个标记组件对应的目标文档的文档树的各个节点的标记内容进行交叉验证,确定出各个偶然性标记内容。
裁剪单元,分别针对每个偶然性标记内容,将偶然性标记内容进行剪枝。
计算单元,用于计算偶然性标记内容与所在层级的各个节点的标记内容的相似度。
合并单元,用于将偶然性标记内容与相似度大于预设阈值,且相似度最高的标记内容进行合并。
传导单元,用于从合并后的标记内容的节点起,逐级上传至根节点。
可选地,在本申请另一实施例提供的文档标记装置中,筛选单元,包括:
采样单元,用于从目标文档中选取预设比例的文档内容作为采样内容。
处理单元,用于分别针对每个系统,对采样内容中各个部分的内容进行检索以及日志过滤。
系统确定单元,用于若成功检索以及成功过滤的内容占采样内容的比例大于预设比例阈值,则将系统标记为目标文档的标记输入系统。
可选地,在本申请另一实施例提供的文档标记装置中,标记单元,包括:
检索单元,用于分别针对每个标记组件,分别通过与各个标记输入系统之间的数据库通道,对目标文档中的各个部分的内容进行检索,得到检索结果。
第一标记单元,用于根据检索结果对标记组件对应的目标文档的文档树中的各个节点的内容进行标记。
规则获取单元,用于获取标记组件中的过滤规则。
过滤单元,用于分别通过与各个标记输入系统之间的日志通道,按照标记组件中的过滤规则,对目标文档中的各个部分的内容进行日志内容过滤,得到过滤结果。
汇总单元,用于对过滤结果进行汇总。
第二标记单元,用于根据汇总后的过滤结果对标记组件对应的目标文档的文档树中的各个节点的内容进行标记。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程,可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
本申请另一实施例提供了一种电子设备,如图6所示,包括:
存储器601和处理器602。
其中,存储器601用于存储程序。
处理器602用于执行存储器601存储的程序,并且该程序被执行时,具体用于实现如上述任意一个实施例提供的文档标记方法。
本申请另一实施例提供了一种计算机存储介质,其特征在于,用于存储计算机程序,计算机程序被执行时,用于实现如上述任意一项的文档标记方法。
计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,本发明提供的一种文档标记方法及装置、电子设备、存储介质可用于人工智能领域、大数据领域或金融领域。上述仅为示例,并不对本发明提供的一种文档标记方法及装置、电子设备、存储介质的应用领域进行限定。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文档标记方法,其特征在于,包括:
获取目标文档;
分别构建标记组件库中的各个标记组件对应的所述目标文档的文档树;
基于所述目标文档中的文档内容,从多个系统中筛选出所述目标文档的标记输入系统;
构建与各个所述标记输入系统之间的数据库通道以及日志通道;
分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
2.根据权利要求1所述的方法,其特征在于,所述分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记之后,还包括:
将各个所述标记组件对应的所述目标文档的文档树的各个节点的标记内容进行交叉验证,确定出各个偶然性标记内容;
分别针对每个所述偶然性标记内容,将所述偶然性标记内容进行剪枝;
计算所述偶然性标记内容与所在层级的各个节点的所述标记内容的相似度;
将所述偶然性标记内容与相似度大于预设阈值,且相似度最高的所述标记内容进行合并;
从合并后的所述标记内容的节点起,逐级上传至根节点。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标文档中的文档内容,从多个系统中筛选出所述目标文档的标记输入系统,包括:
从所述目标文档中选取预设比例的文档内容作为采样内容;
分别针对每个所述系统,对所述采样内容中各个部分的内容进行检索以及日志过滤;
若成功检索以及成功过滤的内容占所述采样内容的比例大于预设比例阈值,则将所述系统标记为所述目标文档的所述标记输入系统。
4.根据权利要求1所述的方法,其特征在于,所述分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记,包括:
分别针对每个所述标记组件,分别通过与各个所述标记输入系统之间的所述数据库通道,对所述目标文档中的各个部分的内容进行检索,得到检索结果;
根据检索结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记;
获取所述标记组件中的过滤规则;
分别通过与各个所述标记输入系统之间的所述日志通道,按照所述标记组件中的过滤规则,对所述目标文档中的各个部分的内容进行日志内容过滤,得到过滤结果;
对所述过滤结果进行汇总;
根据汇总后的所述过滤结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
5.一种文档标记装置,其特征在于,包括:
文档获取单元,用于获取目标文档;
第一构建单元,用于分别构建标记组件库中的各个标记组件对应的所述目标文档的文档树;
筛选单元,用于基于所述目标文档中的文档内容,从多个系统中筛选出所述目标文档的标记输入系统;
第二构建单元,用于构建与各个所述标记输入系统之间的数据库通道以及日志通道;
标记单元,用于分别针对每个所述标记组件,通过所述数据库通道以及日志通道,对各个所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
6.根据权利要求5所述的装置,其特征在于,还包括:
内容确定单元,用于将各个所述标记组件对应的所述目标文档的文档树的各个节点的标记内容进行交叉验证,确定出各个偶然性标记内容;
裁剪单元,分别针对每个所述偶然性标记内容,将所述偶然性标记内容进行剪枝;
计算单元,用于计算所述偶然性标记内容与所在层级的各个节点的所述标记内容的相似度;
合并单元,用于将所述偶然性标记内容与相似度大于预设阈值,且相似度最高的所述标记内容进行合并;
传导单元,用于从合并后的所述标记内容的节点起,逐级上传至根节点。
7.根据权利要求5所述的装置,其特征在于,所述筛选单元,包括:
采样单元,用于从所述目标文档中选取预设比例的文档内容作为采样内容;
处理单元,用于分别针对每个所述系统,对所述采样内容中各个部分的内容进行检索以及日志过滤;
系统确定单元,用于若成功检索以及成功过滤的内容占所述采样内容的比例大于预设比例阈值,则将所述系统标记为所述目标文档的所述标记输入系统。
8.根据权利要求5所述的装置,其特征在于,所述标记单元,包括:
检索单元,用于分别针对每个所述标记组件,分别通过与各个所述标记输入系统之间的所述数据库通道,对所述目标文档中的各个部分的内容进行检索,得到检索结果;
第一标记单元,用于根据检索结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记;
规则获取单元,用于获取所述标记组件中的过滤规则;
过滤单元,用于分别通过与各个所述标记输入系统之间的所述日志通道,按照所述标记组件中的过滤规则,对所述目标文档中的各个部分的内容进行日志内容过滤,得到过滤结果;
汇总单元,用于对所述过滤结果进行汇总;
第二标记单元,用于根据汇总后的所述过滤结果对所述标记组件对应的所述目标文档的文档树中的各个节点的内容进行标记。
9.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至4任意一项所述的文档标记方法。
10.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至4任意一项所述的文档标记方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210824525.1A CN115146592A (zh) | 2022-07-14 | 2022-07-14 | 一种文档标记方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210824525.1A CN115146592A (zh) | 2022-07-14 | 2022-07-14 | 一种文档标记方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115146592A true CN115146592A (zh) | 2022-10-04 |
Family
ID=83411789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210824525.1A Pending CN115146592A (zh) | 2022-07-14 | 2022-07-14 | 一种文档标记方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146592A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306307A1 (en) * | 2009-05-31 | 2010-12-02 | International Business Machines Corporation | System and method for social bookmarking/tagging at a sub-document and concept level |
CN111737623A (zh) * | 2020-06-19 | 2020-10-02 | 深圳市小满科技有限公司 | 网页信息提取方法及相关设备 |
CN112148889A (zh) * | 2020-09-23 | 2020-12-29 | 平安直通咨询有限公司上海分公司 | 一种推荐列表的生成方法及设备 |
US20210271805A1 (en) * | 2020-02-14 | 2021-09-02 | Open Text Corporation | Machine learning systems and methods for automatically tagging documents to enable accessibility to impaired individuals |
CN113642291A (zh) * | 2021-08-10 | 2021-11-12 | 东方财富信息股份有限公司 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
CN114186533A (zh) * | 2021-11-04 | 2022-03-15 | 北京百度网讯科技有限公司 | 模型训练方法及装置、知识抽取方法及装置、设备和介质 |
CN114238575A (zh) * | 2021-12-15 | 2022-03-25 | 平安科技(深圳)有限公司 | 文档解析方法、系统、计算机设备及计算机可读存储介质 |
CN114741468A (zh) * | 2022-03-22 | 2022-07-12 | 平安科技(深圳)有限公司 | 文本去重方法、装置、设备及存储介质 |
-
2022
- 2022-07-14 CN CN202210824525.1A patent/CN115146592A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306307A1 (en) * | 2009-05-31 | 2010-12-02 | International Business Machines Corporation | System and method for social bookmarking/tagging at a sub-document and concept level |
US20210271805A1 (en) * | 2020-02-14 | 2021-09-02 | Open Text Corporation | Machine learning systems and methods for automatically tagging documents to enable accessibility to impaired individuals |
CN111737623A (zh) * | 2020-06-19 | 2020-10-02 | 深圳市小满科技有限公司 | 网页信息提取方法及相关设备 |
CN112148889A (zh) * | 2020-09-23 | 2020-12-29 | 平安直通咨询有限公司上海分公司 | 一种推荐列表的生成方法及设备 |
CN113642291A (zh) * | 2021-08-10 | 2021-11-12 | 东方财富信息股份有限公司 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
CN114186533A (zh) * | 2021-11-04 | 2022-03-15 | 北京百度网讯科技有限公司 | 模型训练方法及装置、知识抽取方法及装置、设备和介质 |
CN114238575A (zh) * | 2021-12-15 | 2022-03-25 | 平安科技(深圳)有限公司 | 文档解析方法、系统、计算机设备及计算机可读存储介质 |
CN114741468A (zh) * | 2022-03-22 | 2022-07-12 | 平安科技(深圳)有限公司 | 文本去重方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019218B (zh) | 数据存储与查询方法及设备 | |
EP3869360A9 (en) | New category tag mining method and device, electronic device and computer-readable medium | |
CN108470040B (zh) | 一种非结构化数据的入库方法及装置 | |
CN111522892B (zh) | 地理要素的检索方法及装置 | |
CN110795614A (zh) | 一种索引自动优化方法及装置 | |
CN115238655A (zh) | 一种json数据编辑方法和装置 | |
CN109189343B (zh) | 一种元数据落盘方法、装置、设备及计算机可读存储介质 | |
CN115146592A (zh) | 一种文档标记方法及装置、电子设备、存储介质 | |
CN116032725B (zh) | 故障根因定位模型的生成方法及装置 | |
CN116185706A (zh) | 数据备份方法、装置、计算及存储介质及电子设备 | |
US10713232B2 (en) | Efficient data processing | |
CN113722278B (zh) | 一种基于pdf文件的知识元抽取方法、设备及介质 | |
CN115495420A (zh) | 一种项目文件的完整性检查方法、装置、设备及存储介质 | |
CN113627148A (zh) | 一种知识库中知识的自动关联方法及装置 | |
CN113282586A (zh) | 一种信息处理方法、装置、设备及可读存储介质 | |
CN109446022B (zh) | 一种数据库溢出页异常的检测方法、装置及存储介质 | |
CN113742371B (zh) | 一种sql语句块分析处理方法和装置 | |
CN110489125B (zh) | 文件管理方法和计算机存储介质 | |
CN117520787B (zh) | 基于数字孪生的高速公路智慧化数据故障分析方法和系统 | |
US12026146B2 (en) | Data analysis method, apparatus and device | |
CN118260336A (zh) | 用于元数据的全文检索方法及系统 | |
CN115309828A (zh) | 一种数据存储方法及装置、电子设备、存储介质 | |
US20230087098A1 (en) | Data analysis method, apparatus and device | |
CN117111955A (zh) | 一种执行码的自动生成方法及装置、电子设备、存储介质 | |
CN116308113A (zh) | 一种基于高效的预算数据预警处理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |