CN116244476A - 基于富文本的预标注前端可视化实现方法及系统 - Google Patents

基于富文本的预标注前端可视化实现方法及系统 Download PDF

Info

Publication number
CN116244476A
CN116244476A CN202310269508.0A CN202310269508A CN116244476A CN 116244476 A CN116244476 A CN 116244476A CN 202310269508 A CN202310269508 A CN 202310269508A CN 116244476 A CN116244476 A CN 116244476A
Authority
CN
China
Prior art keywords
entity
text
list
node
current node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310269508.0A
Other languages
English (en)
Inventor
索玉文
李守斌
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202310269508.0A priority Critical patent/CN116244476A/zh
Publication of CN116244476A publication Critical patent/CN116244476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于富文本的预标注前端可视化实现方法及系统,属于知识图谱技术领域。对输入的富文本内容进行知识自动抽取,根据知识抽取结果对照已有的富文本,构造新的虚拟节点语法树,进而对超文本标记语言字符串进行分片处理,并根据不同的分片类型构造不同的标签,最终针对富文本进行文本结构替换和重绘,实现富文本内容的预标注。本发明一方面能够解决特定领域模型算法预标注成本高、标注结果不准确的问题;另一方面能够解决预标注无法保留文本样式,特别是图片和表格的样式的问题,有助于提高标注后文本的可读性,降低人工对预标注结果进行二次编辑的标难度。

Description

基于富文本的预标注前端可视化实现方法及系统
技术领域
本发明属于知识图谱技术领域,提出一种基于富文本的实体关系抽取的预标注实现方法及系统。
背景技术
在知识图谱技术领域,为了实现深度学习算法模型的充分学习,需获取大规模的供实体抽取模型训练的语料。在实际的语料收集过程中,往往是靠人工标注的方式收集标注数据。而人工标注比较费时费力,一篇几万甚至几十万字的文章,单靠人工标注会耗费大量时间,效率低下;与此同时,在面向领域的知识抽取任务中,因领域数据的专业性较强以及领域专家稀缺,这使得领域语料的标注成本极高、标注结果不准确。因此针对特定领域进行模型算法预标注,在预标注的基础上结合人工二次标注,就可以大大提高标注效率和标注结果的准确率。
现有的标注以及预标注的可视化展示实现大都是将带有格式的文本转换成无格式文本,然后将其嵌入到SVG或者CANVAS画布中展示。虽然可以实现标注的效果,但是这种方式严重破坏了文本的原有的版面格式。
发明内容
本发明的目的是提出一种基于富文本的预标注前端可视化实现方法及系统,结合知识抽取模型算法接口调用,针对算法抽取结果对富文本进行分片和重构,实现基于富文本内容实体和关系的自动预标注,提高标注效率,提高标注结果可读性。
为实现上述目的,本发明采用的技术方案如下:
一种基于富文本的预标注前端可视化实现方法,包括以下步骤:
1)将待标注的目标文档转换成超文本标记语言字符串,在前端以富文本形式展示;
2)对所述超文本标记语言字符串进行解析处理,得到纯文本字符串,然后输入到对应领域的训练好的知识抽取算法模型中进行知识抽取,输出抽取结果,该抽取结果包括实体结果列表和关联关系列表;
3)将所述实体结果列表中的实体类型与本地存储的实体类型进行比对,将所述关联关系列表中的关联关系类型与本地存储的关联关系类型进行比对,将不存在于本地存储的实体类型和关联关系类型进行存储和展示;
4)对于所述超文本标记语言字符串的Dom节点树,为每个节点设定索引范围;然后判断所述实体结果列表中的实体项的索引范围是否在当前节点的索引范围内,如果在,则将该实体项加入当前节点的实体结果列表entityRangeList中;如果当前节点是叶子节点,则将entityRangeList作为当前节点的标注结果挂载到叶子节点上,并对当前节点的文本进行以下分片处理;
5)根据entityRangeList的实体项的索引范围是否含有交叉或包含关系划分为不同的索引区间,并将entityRangeList构建给成由普通标注和嵌套标注两种标注类型构成的多维数组annotationList,挂载到当前节点上;
6)对annotationList的每一项的索引范围与当前节点的索引范围进行比较,根据比较结果将当前节点的文本划分成普通文本、普通标注和嵌套标注三种分片类型,并构建数组segmentList挂载到当前节点上;
7)根据划分的三种分片类型,对segmentList的每项片段的Dom结构进行重构,用超文本标记语言字符串进行结构替换,同时用标注块对Dom结构进行标注,将替换的超文本标记语言字符串按照顺序进行拼接,得到拼接后的Dom结构,用该结构替换当前节点并进行可视化展示。
进一步地,步骤1)中首先使用java语言集成了Apache POI开源工具,将doc、docx或txt格式的待标注目标文档转换成超文本标记语言字符串;然后通过Http服务传给前端实现在网页中以富文本形式展示。
进一步地,步骤4)中为每个节点设定索引范围的步骤包括:为每一个Dom节点添加自定义属性startIndex和endIndex,startIndex表示节点内包含文本内容相对于全文本内容的起始索引,endIndex表示节点内包含的抽取的文本相对于全文本的结束索引。
进一步地,所述实体结果列表的实体项包括抽取的文本、实体类型、startIndex和endIndex。
进一步地,步骤4)中针对Dom节点树进行倒叙循环遍历,判断当前实体结果列表的索引范围是否在当前节点的索引范围内。
进一步地,步骤5)中对entityRangeList的实体项的索引范围按照从小到大排序,然后进行循环遍历,确定entityRangeList的实体项的索引范围是否含有交叉或包含关系。
进一步地,步骤6)中对annotationList进行循环遍历。
进一步地,segmentList的每一项包含分片类型type、文本内容text、value和索引区间range。
进一步地,步骤7)中所述标注块包括标签、区域括号和选中文本色块三部分。
一种基于富文本的预标注前端可视化实现系统,包括:
文档解析模块,用于将待标注的目标文档转换成超文本标记语言字符串,在前端以富文本形式展示;
模型算法模块,用于对超文本标记语言字符串进行解析处理,得到纯文本字符串,然后通过训练好的知识抽取算法模型对纯文本字符串进行知识抽取,输出抽取结果,该抽取结果包括实体结果列表和关联关系列表;
文本解构模块,用于将所述实体结果列表中的实体类型与本地存储的实体类型进行比对,将所述关联关系列表中的关联关系类型与本地存储的关联关系类型进行比对,将不存在于本地存储的实体类型和关联关系类型进行存储和展示;对于所述超文本标记语言字符串的Dom节点树,为每个节点设定索引范围;然后判断所述实体结果列表中的实体项的索引范围是否在当前节点的索引范围内,如果在,则将该实体项加入当前节点的实体结果列表entityRangeList中;如果当前节点是叶子节点,则将entityRangeList作为当前节点的标注结果挂载到叶子节点上,并对当前节点的文本进行以下分片处理;根据entityRangeList的实体项的索引范围是否含有交叉或包含关系划分为不同的索引区间,并将entityRangeList构建给成由普通标注和嵌套标注两种标注类型构成的多维数组annotationList,挂载到当前节点上;对annotationList的每一项的索引范围与当前节点的索引范围进行比较,根据比较结果将当前节点的文本划分成普通文本、普通标注和嵌套标注三种分片类型,并构建数组segmentList挂载到当前节点上;根据划分的三种分片类型,对segmentList的每项片段的Dom结构进行重构,用超文本标记语言字符串进行结构替换,同时用标注块对Dom结构进行标注,将替换的超文本标记语言字符串按照顺序进行拼接,得到拼接后的Dom结构,用该结构替换当前节点并进行可视化展示。
本发明的有益效果如下:
本发明方法是以富文本显示格式(文档版面)为基础,针对知识抽取模型的实体关系抽取结果和预标注结果进行无样式破坏可视化展示。相对于无格式文本的预标注,富文本格式的预标注能够更好的保留的原始文本的版面结构,尽量保证作者的原始表达的前提条件下,对待标注文本进行可视化标注。一方面提高了标注后文本的可读性,另一方面降低了预标注对二次人工标注的干扰。本发明方法能够保留富文本中的文本、图片和表格的格式,提高各类文本实体关系抽取结果的可读性,既能灵活地切换领域模型算法,又能辅助人工标注,提高标注的效率和标注结果的准确率。能够解决特定领域模型算法预标注成本高、标注结果不准确的问题,以及解决预标注无法保留文本样式,特别是图片和表格的样式的问题,有助于提高标注后文本的可读性,降低人工对预标注结果进行二次编辑的标难度。
附图说明
图1为实施例的一种基于富文本的预标注前端可视化方法流程图。
图2为实施例的一种基于富文本的预标注前端可视化系统框图。
图3为一种超文本标记语言结构分片处理的示例图。
图4为标注块结构示意图。
图5A-5B为一种标注标签的示例图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本实施例具体提出一种基于富文本的预标注前端可视化实现方法,该方法的处理流程如图1所示。该方法通过一种基于富文本的预标注前端可视化实现系统实现,该系统包括如图2所示的文档解析模块、模型算法模块和文本解构模块。具体处理步骤说明如下:
步骤一:由文档解析模块实现待标注目标文档的超文本标记语言转换
为了获取富文本格式的待标注目标文本,首先用java语言集成了Apache POI开源工具,将doc、docx以及txt等格式文档上传到服务器,调用java服务,对该上传文档进行超文本标记语言转换,并以超文本标记语言字符串的形式通过Http服务返回给前端,供前端进行富文本展示。
步骤二:由模型算法模块实现知识抽取算法实体抽取
将步骤一中转换好的超文本标记语言字符串进行解析处理,得到去标签和空格等的纯文本字符串。然后在训练多个不同领域的知识抽取算法模型,并提供知识抽取服务。根据待标注目标文本所对应的领域,调用对应的领域知识抽取算法模型服务,将该纯文本字符串作为入参传入。接口返回抽取结果,主要包含实体结果列表和关联关系列表。
步骤三:由文本解构模块实现实体类型和关系类型合并
将实体结果列表中的实体类型与DB中存储的实体类型进行比对,如果该实体类型不存在,则需要将该实体类型进行存储和展示;将关联关系列表中的关联关系类型与本地的关联关系类型进行比对,如果该关联关系类型不存在,则需要将该关联关系类型进行存储和展示。
步骤四:由文本解构模块实现超文本标记语言结构分片处理
将步骤一中得到的超文本标记语言字符串的Dom节点树与步骤二中抽取的实体结果列表进行以下处理:
首先,将Dom节点树进行广度优先遍历,为每一个Dom节点添加自定义属性startIndex和endIndex,分别代表节点内包含的抽取的文本相对于全文本的起始索引和结束索引。则实体结果列表的实体项是以抽取的文本、实体类型、抽取的文本相对于全文本的起始索引startIndex和结束索引endIndex组成。
对添加了自定义属性的Dom节点树进行倒叙循环遍历,该循环内部针对抽取的实体结果列表进行倒叙循环遍历,判定该实体结果列表的实体项的起始索引和结束索引是否在该节点的起始索引和结束索引的范围内,如果在,则将该实体项从所述实体结果列表中拆分出来并加入到新建的隶属于该节点的实体结果列表中,该节点的实体结果列表具体为entityRangeList数组,entityRangeList数组中的每一项称之该实体结果列表的实体项。
由于Dom节点树是层层递进的,所以需要判定当前Dom节点是否是叶子节点,如果不是叶子节点,需要递归调用上一段处理过程,如果是叶子节点,则将entityRangeList数组作为当前节点的标注结果挂载到叶子节点上。如果当前节点的entityRangeList数组中有值,说明当前节点上有预标注结果,则对当前节点进行以下分片处理。
对entityRangeList数组中的实体项的起始索引和结束索引按照从小到大排序,然后循环遍历排序后的该数组,根据entityRangeList数组的实体项的起始索引和结束索引是否有交叉和包含关系划分为不同的索引区间,将该entityRangeList数组构建成普通标注和嵌套标注两种标注类型构成的annotationList多维数组,并且挂载到当前节点上。
当前节点的annotationList多维数组中存有当前节点内包含普通标注抽取结果和嵌套标注抽取结果。对该多维数组进行循环遍历,根据每一项的起始索引和结束索引与当前节点的起始索引与结束索引进行比较,在普通标注结果索引区间范围内的节点文本内容划分为普通标注normal类型,在嵌套标注抽取结果索引区间范围内的节点文本内容划分为嵌套标注distinguish类型,当前节点剩余的其他文本都划分为普通文本text类型,经过比较后将该节点文本划分成普通文本text类型、普通标注normal类型与嵌套标注distinguish类型等分片类型type。并构建成segmentList数组,该segmentList数组的每一项包含当前分片类型type、文本内容text、当前annotitionList项value、当前项的索引区间range,并且挂载到当前节点上。
图3为一种超文本标记语言结构分片处理的示例图。
步骤五:由文本解构模块实现重构待标注文本的富文本标签
根据步骤四分片结果即三种分片类型,依次对segmentList中不同类型的每项片段进行Dom结构重构,进行不同的超文本标记语言字符串结构解析替换,同时利用标注块对Dom结构进行标注,将重构的Dom结构即新替换的超文本标记语言字符串按照顺序进行拼接,最后用拼接的Dom结构替换当前节点。此时即可在不破坏原始文本的表格和图片以及文本结构的基础上回显预标注的结果。页面重新渲染后,预标注的实体标签即可在浏览器页面中保留原始文档版面样式展示。
其中,为了提高标注显示效果,将标注块分为标签、区域括号、选中文本色块三部分组成,如图4所示。标注块主要是通过各类标签组合的方式实现,其中区域括号是利用SVG绘制实现。关于其布局在高度方向上依赖Flex布局,标签体自动撑开行高,并且根据标注顺序自适应高度;在水平方向上,尤其是嵌套标注时,根据被标注文本在当前嵌套文本中的索引和文本FontSize进行计算得出水平偏移量,将色块以及标签块进行水平位移。图5A-5B为一种标注标签的示例图。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于富文本的预标注前端可视化实现方法,其特征在于,包括以下步骤:
1)将待标注的目标文档转换成超文本标记语言字符串,在前端以富文本形式展示;
2)对所述超文本标记语言字符串进行解析处理,得到纯文本字符串,然后输入到对应领域的训练好的知识抽取算法模型中进行知识抽取,输出抽取结果,该抽取结果包括实体结果列表和关联关系列表;
3)将所述实体结果列表中的实体类型与本地存储的实体类型进行比对,将所述关联关系列表中的关联关系类型与本地存储的关联关系类型进行比对,将不存在于本地存储的实体类型和关联关系类型进行存储和展示;
4)对于所述超文本标记语言字符串的Dom节点树,为每个节点设定索引范围;然后判断所述实体结果列表中的实体项的索引范围是否在当前节点的索引范围内,如果在,则将该实体项加入当前节点的实体结果列表entityRangeList中;如果当前节点是叶子节点,则将entityRangeList作为当前节点的标注结果挂载到叶子节点上,并对当前节点的文本进行以下分片处理;
5)根据entityRangeList的实体项的索引范围是否含有交叉或包含关系划分为不同的索引区间,并将entityRangeList构建给成由普通标注和嵌套标注两种标注类型构成的多维数组annotationList,挂载到当前节点上;
6)对annotationList的每一项的索引范围与当前节点的索引范围进行比较,根据比较结果将当前节点的文本划分成普通文本、普通标注和嵌套标注三种分片类型,并构建数组segmentList挂载到当前节点上;
7)根据划分的三种分片类型,对segmentList的每项片段的Dom结构进行重构,用超文本标记语言字符串进行结构替换,同时用标注块对Dom结构进行标注,将替换的超文本标记语言字符串按照顺序进行拼接,得到拼接后的Dom结构,用该结构替换当前节点并进行可视化展示。
2.如权利要求1所述的方法,其特征在于,步骤1)中首先使用java语言集成了ApachePOI开源工具,将doc、docx或txt格式的待标注目标文档转换成超文本标记语言字符串;然后通过Http服务传给前端实现在网页中以富文本形式展示。
3.如权利要求1所述的方法,其特征在于,步骤4)中为每个节点设定索引范围的步骤包括:为每一个Dom节点添加自定义属性startIndex和endIndex,startIndex表示节点内包含文本内容相对于全文本内容的起始索引,endIndex表示节点内包含的抽取的文本相对于全文本的结束索引。
4.如权利要求3所述的方法,其特征在于,所述实体结果列表的实体项包括抽取的文本、实体类型、startIndex和endIndex。
5.如权利要求1所述的方法,其特征在于,步骤4)中针对Dom节点树进行倒叙循环遍历,判断当前实体结果列表的索引范围是否在当前节点的索引范围内。
6.如权利要求1所述的方法,其特征在于,步骤5)中对entityRangeList的实体项的索引范围按照从小到大排序,然后进行循环遍历,确定entityRangeList的实体项的索引范围是否含有交叉或包含关系。
7.如权利要求1所述的方法,其特征在于,步骤6)中对annotationList进行循环遍历。
8.如权利要求1所述的方法,其特征在于,segmentList的每一项包含分片类型type、文本内容text、value和索引区间range。
9.如权利要求1所述的方法,其特征在于,步骤7)中所述标注块包括标签、区域括号和选中文本色块三部分。
10.一种基于富文本的预标注前端可视化实现系统,其特征在于,包括:
文档解析模块,用于将待标注的目标文档转换成超文本标记语言字符串,在前端以富文本形式展示;
模型算法模块,用于对超文本标记语言字符串进行解析处理,得到纯文本字符串,然后通过训练好的知识抽取算法模型对纯文本字符串进行知识抽取,输出抽取结果,该抽取结果包括实体结果列表和关联关系列表;
文本解构模块,用于将所述实体结果列表中的实体类型与本地存储的实体类型进行比对,将所述关联关系列表中的关联关系类型与本地存储的关联关系类型进行比对,将不存在于本地存储的实体类型和关联关系类型进行存储和展示;对于所述超文本标记语言字符串的Dom节点树,为每个节点设定索引范围;然后判断所述实体结果列表中的实体项的索引范围是否在当前节点的索引范围内,如果在,则将该实体项加入当前节点的实体结果列表entityRangeList中;如果当前节点是叶子节点,则将entityRangeList作为当前节点的标注结果挂载到叶子节点上,并对当前节点的文本进行以下分片处理;根据entityRangeList的实体项的索引范围是否含有交叉或包含关系划分为不同的索引区间,并将entityRangeList构建给成由普通标注和嵌套标注两种标注类型构成的多维数组annotationList,挂载到当前节点上;对annotationList的每一项的索引范围与当前节点的索引范围进行比较,根据比较结果将当前节点的文本划分成普通文本、普通标注和嵌套标注三种分片类型,并构建数组segmentList挂载到当前节点上;根据划分的三种分片类型,对segmentList的每项片段的Dom结构进行重构,用超文本标记语言字符串进行结构替换,同时用标注块对Dom结构进行标注,将替换的超文本标记语言字符串按照顺序进行拼接,得到拼接后的Dom结构,用该结构替换当前节点并进行可视化展示。
CN202310269508.0A 2023-03-20 2023-03-20 基于富文本的预标注前端可视化实现方法及系统 Pending CN116244476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310269508.0A CN116244476A (zh) 2023-03-20 2023-03-20 基于富文本的预标注前端可视化实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310269508.0A CN116244476A (zh) 2023-03-20 2023-03-20 基于富文本的预标注前端可视化实现方法及系统

Publications (1)

Publication Number Publication Date
CN116244476A true CN116244476A (zh) 2023-06-09

Family

ID=86629570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310269508.0A Pending CN116244476A (zh) 2023-03-20 2023-03-20 基于富文本的预标注前端可视化实现方法及系统

Country Status (1)

Country Link
CN (1) CN116244476A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842125A (zh) * 2023-08-28 2023-10-03 武汉乾云软件开发中心(有限合伙) 一种富媒体信息的存储方法及自然语言智能检索方法
CN117034864A (zh) * 2023-09-07 2023-11-10 广州市新谷电子科技有限公司 可视化标注方法、装置、计算机设备以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842125A (zh) * 2023-08-28 2023-10-03 武汉乾云软件开发中心(有限合伙) 一种富媒体信息的存储方法及自然语言智能检索方法
CN116842125B (zh) * 2023-08-28 2023-12-26 武汉乾云软件开发中心(有限合伙) 一种富媒体信息的存储方法及自然语言智能检索方法
CN117034864A (zh) * 2023-09-07 2023-11-10 广州市新谷电子科技有限公司 可视化标注方法、装置、计算机设备以及存储介质
CN117034864B (zh) * 2023-09-07 2024-05-10 广州市新谷电子科技有限公司 可视化标注方法、装置、计算机设备以及存储介质

Similar Documents

Publication Publication Date Title
US9619448B2 (en) Automated document revision markup and change control
CN116244476A (zh) 基于富文本的预标注前端可视化实现方法及系统
CN101251855B (zh) 一种互联网网页清洗方法、系统及设备
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN106502991B (zh) 出版物处理方法和装置
CN109857956A (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN106960058A (zh) 一种网页结构变更检测方法及系统
CN107220274A (zh) 一种可视化数据接口集市实现方法
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN115756437B (zh) 基于schema文件的可视化xml数据编制方法及系统
CN116245177A (zh) 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN117312711A (zh) 一种基于ai分析的搜索引擎优化方法及系统
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN111753536A (zh) 一种专利申请文本的自动撰写方法和装置
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
CN111177401A (zh) 一种电网自由文本知识抽取方法
Yu et al. Web content information extraction based on DOM tree and statistical information
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
US20080015843A1 (en) Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data
CN113343140B (zh) 一种基于neo4j图形数据库自动提取网页正文内容的方法
CN112632421B (zh) 一种自适应结构化的文档抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination