CN115757823B - 数据处理方法、装置、电子设备和存储介质 - Google Patents
数据处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115757823B CN115757823B CN202211406828.8A CN202211406828A CN115757823B CN 115757823 B CN115757823 B CN 115757823B CN 202211406828 A CN202211406828 A CN 202211406828A CN 115757823 B CN115757823 B CN 115757823B
- Authority
- CN
- China
- Prior art keywords
- data
- tag
- production
- tag field
- under
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000004519 manufacturing process Methods 0.000 claims abstract description 177
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 34
- 230000002776 aggregation Effects 0.000 claims description 21
- 238000004220 aggregation Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 12
- 238000005520 cutting process Methods 0.000 abstract 1
- 239000003814 drug Substances 0.000 description 9
- 229940079593 drug Drugs 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002648 combination therapy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种数据处理方法、装置、电子设备和存储介质,其中方法包括:基于各预设层级的标签字段之间的层级结构,生成标签树;基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述标签字段下的生产数据,所述生产数据包括文本数据或聚合数据;基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据。本发明提供的数据处理方法、装置、电子设备和存储介质,相比于现有的标注工具只能进行平铺式的文本截选,用标签树的方式进行数据生产,实现了从生产数据中生成复杂的嵌套表格,复杂数据结构的数据生产和数据标注的统一,从而提高了工作流效率,减少了人力成本。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术
数据生产和数据标注往往被认为是两个不同的任务。在文本数据采集的场景下,需要生产的数据往往直接或间接来源于数据源中的文本片段,该类型任务也可以通过人工智能技术进行辅助,进行自动化或半自动化的抽取。
在传统的工作流程下,数据标注往往是通过单独的办公软件、标注工具进行的,而数据生产也往往是人工通过另外的流程和工具手工录入产生的。数据生产和数据标注的流程相互独立,导致数据不能得到有效利用,费时费力,效率较低。
发明内容
本发明提供一种数据处理方法、装置、电子设备和存储介质,用以解决现有技术中数据生产和数据标注的流程相互独立,导致数据不能得到有效利用,费时费力,效率较低的缺陷。
本发明提供一种数据处理方法,包括:
基于各预设层级的标签字段之间的层级结构,生成标签树;
基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述标签字段下的生产数据,所述生产数据包括文本数据或聚合数据;所述文本数据用于实体识别模型的训练数据;所述聚合数据用于关系识别模型的训练数据;所述实体识别模型用于识别源文本中的实体,所述关系识别模型用于识别各实体间的关系;
基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据。
根据本发明提供的数据处理方法,所述文本数据包括抽取文本数据和输入文本数据,在所述标签字段属于所述标签树的叶子节点的情况下,所述基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述各标签字段下的生产数据,包括如下步骤中的至少一项:
响应于在源文本中对所述标签字段对应的实体执行的抽取标注,得到所述标签字段下的抽取文本数据,所述抽取文本数据包括所述实体在源文本中的位置和标签字段;
基于所述实体识别模型,对源文本进行所述标签字段下的实体识别,得到所述标签字段下的抽取文本数据;
响应于用户针对标签字段执行的录入或选择操作,得到所述标签字段下的输入文本数据。
根据本发明提供的数据处理方法,所述基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述各标签字段下的生产数据,包括:
在所述标签字段不属于所述标签树的叶子节点的情况下,基于所述标签字段的预设层级,对所述预设层级下包含的生产数据进行聚合,得到所述标签字段下的聚合数据,所述聚合数据包括各实体之间的关系。
根据本发明提供的数据处理方法,所述基于所述标签字段的预设层级,对所述预设层级下包含的生产数据进行聚合,得到所述标签字段下的聚合数据,包括:
基于所述标签字段的预设层级,对所述预设层级下各子层级包含的生产数据,按照预设层级从低到高的顺序进行逐层级聚合,得到所述标签字段下的聚合数据。
根据本发明提供的数据处理方法,所述基于各预设层级的标签字段之间的层级结构,生成标签树,之前还包括:
获取数据生产配置文件,所述数据生产配置文件用于定义各预设层级的标签字段,以及各预设层级的标签字段分别对应的数据生产方式,所述数据生产方式包括抽取、聚合、录入或选择。
根据本发明提供的数据处理方法,所述基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据,包括:
基于所述数据生产配置文件中定义的各预设层级的标签字段,生成数据格式校验文件;
基于所述数据格式校验文件,对所述标签树中最高层级的标签字段下的生产数据进行格式校验,并在格式校验通过的情况下,确定并发布产出数据。
根据本发明提供的数据处理方法,还包括:
在前端页面可视化展示所述标签树,以及所述标签树中各标签字段下的生产数据;
采用人机交互的方式对所述标签树执行点击、选择或删除操作。
本发明还提供一种数据处理装置,包括:
标签树生成单元,用于基于各预设层级的标签字段之间的层级结构,生成标签树;
数据生产单元,用于基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述标签字段下的生产数据,所述生产数据包括文本数据或聚合数据;所述文本数据用于实体识别模型的训练数据;所述聚合数据用于关系识别模型的训练数据;所述实体识别模型用于识别源文本中的实体,所述关系识别模型用于识别各实体间的关系;
数据产出单元,用于基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据处理方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据处理方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据处理方法。
本发明提供的数据处理方法、装置、电子设备和存储介质,数据生产得到产出数据的同时进行数据标注,生产过程中得到的文本数据可用于实体识别模型的训练数据,聚合数据用于关系识别模型的训练数据,实现了生产和标注的统一。此外,针对于现有的标注工具只能进行平铺式的文本截选,无法满足复杂嵌套格式的数据生产要求的问题,采用标签树的方式进行数据生产,实现了从生产数据中生成复杂的嵌套表格,复杂数据结构的数据生产和数据标注的统一,从而提高了工作流效率,减少了人力成本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据处理方法的流程示意图之一;
图2是本发明提供的数据处理方法的流程示意图之二;
图3是本发明提供的数据处理装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在传统的工作流程下,数据标注往往是通过单独的办公软件、标注工具进行的,而数据生产也往往是人工通过另外的流程和工具手工录入产生的。数据生产和数据标注的流程相互独立,导致数据不能得到有效利用,费时费力,效率较低。
基于此,本发明实施例提供一种数据处理方法,标注任务可以与数据录入任务进行统一,从而在不改变原来工作流程的情况下自然的产生标注数据,进而引入人工智能(Artificial Intelligence,AI)算法。
图1是本发明提供的数据处理方法的流程示意图之一,该方法中各步骤的执行主体可以是数据处理装置,该装置可以通过软件和/或硬件实现。该装置可以集成在电子设备中,电子设备可以是个人电脑、云端设备、智能手机和平板电脑等。如图1所示,本发明实施例提供的数据处理方法以包括如下步骤:
步骤110,基于各预设层级的标签字段之间的层级结构,生成标签树。
具体地,标签字段是指数据生产需要得到的产出数据的字段,预设层级是指各标签字段之间存在预设的层级结构关系,各标签字段并不是平铺式的,而是嵌套式。各标签字段以及各标签字段之间的层级结构关系可以是预先设置好的,在配置文件中定义。
例如,产出数据的标签字段为“临床试验”,其下包括的各个层级的标签字段可包括“药物”、“适应症”、“临床分期”、“患者基线特征”、“联用方案”、“联用SOC”等。其中“药物”和“联用SOC”又属于“联用方案”的子层级,即“联用方案”标签字段下包括“药物”和“联用SOC”。可理解的是,产出数据可表示为包括各预设层级的标签字段的嵌套表格。
得到各预设层级的标签字段之间的层级结构,生成标签树。标签树的最高层级对应的标签字段即,最终产出数据的标签字段。
步骤120,基于标签字段在标签树中的位置,以及标签字段的数据生产方式,确定标签字段下的生产数据,生产数据包括文本数据或聚合数据;文本数据用于实体识别模型的训练数据;聚合数据用于关系识别模型的训练数据;实体识别模型用于识别源文本中的实体,关系识别模型用于识别各实体间的关系。
具体地,标签字段在标签树中的位置可表征标签字段属于标签树中的叶子节点还是非叶子节点,叶子节点是指该标签字段处于最低层级,其下没有子层级;非叶子节点是指该标签字段下还包括各个子层级的子节点。
标签字段的数据生产方式是指该标签字段下的数据是通过哪种方式生产得到的。数据生产方式可包括抽取、聚合、录入或选择。数据生产方式可以是预先配置好的,针对各个标签字段,配置与之相应的生产方式。
确定各个标签字段的数据生产方式之后,即可进行数据生产,得到各标签字段下的生产数据。具体可采用人机交互、自动生产或人工智能的方式进行数据生产,本发明实施例对此不作具体限定。
各标签字段下的生产数据可以在标签树的各标签字段下进行展示,各标签字段下的生产数据可包括文本数据或聚合数据。其中文本数据可表示该标签字段对应的文本,通常可以是该标签字段对应的实体,例如标签字段为“药物”,其下的文本数据可包括“劳拉替尼”和“纳武利尤单抗”等药物实体;再例如标签字段为“靶点”,其下的文本数据可包括“PDI”和“CD22”等靶点实体。
需要说明的是,此处得到的文本数据可以是直接从源文本中选取得到的,也可以是用户输入的,还可以是对源文本中选取的内容进行标准化化处理后得到的,本发明实施例对此不作具体限定。直接从源文本中选取的过程也可成为数据标注过程。
聚合数据可表征各个实体之间的关系,例如靶点实体与药物实体之间的对应关系,药物实体和联用治疗方案之间的关系等。聚合数据通常是对文本数据进行聚合后得到的。
在一个实施例中,生产数据中的文本数据可用text region表示,生产数据中的聚合数据可用table region表示。
考虑到有监督的AI算法往往需要人工标注的数据进行训练,由于生产数据中的文本数据包含了实体数据在源文本中的位置和实体数据对应的标签字段,聚合数据包含了各实体之间的关系,因此文本数据可用于实体识别模型的训练数据;聚合数据用于关系识别模型的训练数据;实体识别模型用于识别源文本中的实体,关系识别模型用于识别各实体间的关系。
步骤130,基于标签树中最高层级的标签字段下的生产数据,确定产出数据。
具体地,在步骤120中得到各标签字段下的生产数据的基础上,则该标签树中最高层级的标签字段下的生产数据,可确定最终的产出数据。最终的产出数据可表示为包含各个实体之间关系的表结构。
在确定产出数据之前,还可对产出数据进行各个标签字段的数据格式检查,在格式检查通过的情况下,将标签树中最高层级的标签字段下的生产数据确定为产出数据。
本发明实施例提供的方法,数据生产得到产出数据的同时进行数据标注,生产过程中得到的文本数据可用于实体识别模型的训练数据,聚合数据用于关系识别模型的训练数据,实现了生产和标注的统一。此外,针对于现有的标注工具只能进行平铺式的文本截选,无法满足复杂嵌套格式的数据生产要求的问题,本发明实施例提供的方案用标签树的方式进行数据生产,实现了从生产数据中生成复杂的嵌套表格,复杂数据结构的数据生产和数据标注的统一,从而提高了工作流效率,减少了人力成本。
基于上述任一实施例,文本数据包括抽取文本数据和输入文本数据,在标签字段属于标签树的叶子节点的情况下,步骤120包括如下步骤中的至少一项:
响应于在源文本中对标签字段对应的实体执行的抽取标注,得到标签字段下的抽取文本数据,抽取文本数据包括实体在源文本中的位置和标签字段;
基于实体识别模型,对源文本进行标签字段下的实体识别,得到标签字段下的抽取文本数据;
响应于用户针对标签字段执行的录入或选择操作,得到标签字段下的输入文本数据。
具体地,在标签字段属于标签树的叶子节点的情况下,即标签字段没有下一层级的子节点,则该标签字段的数据生产方式可包括抽取、录入或选择,其中抽取是指从源文本中选取文本片段,录入是指人工输入文本片段,选择是指在预先定义好的选项中选择文本片段。相应地,文本数据包括抽取文本数据和输入文本数据。抽取文本数据是指采用抽取方式获得的文本,输入文本数据是指采用录入或选择的方式获得的文本。
针对抽取方式,可包括人机交互的方式抽取,还可包括自动抽取。当采用人机交互的方式时,用户在源文本中对标签字段对应的实体进行抽取标注,例如可高亮显示用户抽取的文本,则得到该标签字段下的抽取文本数据。当采用自动抽取的方式,可基于实体识别模型,对源文本进行标签字段下的实体识别,得到对应标签字段下的抽取文本数据。例如对临床试验文本继续药物实体识别,得到该临床试验文本所包含的药物实体。
进一步地,由于在从源文本中进行文本抽取时,同时对抽取到的文本进行了标注,可得到抽取文本数据在源文本中的位置,例如,可采用高亮标注选取的抽取文本,并在其右上角标注该抽取文本对应的标签字段。
针对录入或选择方式,响应于用户针对该标签字段进行录入或选择操作,得到用户针对该标签字段下的输入文本数据。
本发明实施例提供的方法,针对属于标签树的叶子节点的标签字段,采用抽取、选择或录入的方式进行数据生产,得到各标签字段下的文本数据。
基于上述任一实施例,步骤120具体包括:
在标签字段不属于标签树的叶子节点的情况下,基于标签字段的预设层级,对预设层级下包含的实体数据进行聚合,得到标签字段下的聚合数据,聚合数据包括各实体之间的关系。
具体地,针对不属于标签树的叶子节点的标签字段,即该标签字段下存在子节点,该标签字段的数据生产方式为聚合方式。
针对聚合方式的标签字段,可根据标签字段的预设层级,对预设层级下包含的实体数据进行聚合,得到标签字段下的聚合数据。由此得到的聚合数据包括各实体之间的关系。
基于上述任一实施例,基于标签字段的预设层级,对预设层级下包含的实体数据进行聚合,得到标签字段下的聚合数据,包括:
基于标签字段的预设层级,对预设层级下各子层级包含的文本数据,按照预设层级从低到高的顺序进行逐层级聚合,得到标签字段下的聚合数据。
具体地,针对不属于标签树的叶子节点的标签字段,该标签字段下的数据来自于该节点下子节点的向上聚合,按照预设层级从低到高的顺序进行逐层级聚合,从而得到标签字段下的table region,即聚合数据。对应产出的JSON数据当中值为object的键值对。聚合数据不仅支持以文本数据(text region),同时也支持聚合数据(table region)自身或任意组合的向上聚合,从而可以产出任意层级的复杂嵌套JSON结构。
此外,由于生产数据当中已经包含了足够多的信息(文本信息,原文出处,上下级关系,等等),抽取文本数据包括实体在源文本中的位置和标签字段,聚合数据包括各实体之间的关系,因此导出的生产数据一部分可以直接作为训练有监督AI模型的训练数据。通过AI模型也可以直接产出生产数据,从而达到自动/半自动的数据生产,达到人机协同的目的。
基于上述任一实施例,步骤110之前还包括:
获取数据生产配置文件,数据生产配置文件用于定义各预设层级的标签字段,以及各预设层级的标签字段分别对应的数据生产方式,数据生产方式包括抽取、聚合、录入或选择。
具体地,整个数据生产的流程以配置进行驱动,因此在数据生产之前,还可获取数据生产配置文件。在进行数据生产工作之前,数据人员需要将数据生产的流程/SOP等先以定义数据模型的方式在知识中台上定义数据生产配置文件。数据生产配置文件用于定义各预设层级的标签字段,以及各预设层级的标签字段分别对应的数据生产方式。
同时,定义的数据生产配置文件也作为最终产出数据的元信息,自动生成对应的数据库表结构。因此,数据生产配置文件既包含了数据生产的方式,也以定义了产出数据的字段和格式等数据的元信息。由于产出数据都是JSON类型的文档直接存放在NOSQL文档型数据库中,数据生产配置文件支持任意层级的复杂嵌套JSON格式的定义。
基于上述任一实施例,基于标签树中最高层级的标签字段下的生产数据,确定产出数据,包括:
基于数据生产配置文件中定义的各预设层级的标签字段,生成数据格式校验文件;
基于数据格式校验文件,对标签树中最高层级的标签字段下的生产数据进行格式校验,并在格式校验通过的情况下,确定并发布产出数据。
具体地,最终导出产出数据时,数据会经过一次有效性验证,通常对数据格式进行有效性验证。根据用户在数据生产配置文件中定义的各预设层级的标签字段,生成数据格式校验文件,数据格式校验文件具体可以是json schema。所有的生产数据也会根据其对应的标签字段的层级结构进行自动的聚合,得到最高层级的标签字段下的生产数据,成为一条JSON数据。最后通过json schema对最高层级的标签字段下的生产数据进行验证。验证成功即可将该最高层级的标签字段下的生产数据作为最终的产出数据,并进行发布成为一条有效产出数据。
本发明实施例提供的方法,数据有效性验证可以保证产出数据的一致性,所有数据都能够遵循同一套数据模型定义,避免不同人员的认知差异导致的生产出的数据偏移,也能够在一定程度上将SOP进行数字化管理。
基于上述任一实施例,还包括:
在前端页面可视化展示标签树,以及标签树中各标签字段下的生产数据;
采用人机交互的方式对标签树执行点击、选择或删除操作。
具体地,由于各标签字段下的生产数据在标签树下统一管理,在前端可以有统一展示方式和交互体验。每个标签字段下的生产数据可以以相同的方式放在标签树下。采用人机交互的方式对标签树执行点击、选择或删除操作,各个标签字段都可采用一套相似的方式与用户进行交互。
基于上述任一实施例,图2是本发明提供的数据处理方法的流程示意图之二,如图2所示,该方法包括:
首先定义数据数模型,用户以定义数据模型的方式在知识中台上定义数据生产配置文件;数据生产配置文件用于定义各预设层级的标签字段,以及各预设层级的标签字段分别对应的数据生产方式,数据生产方式包括抽取、聚合、录入或选择。
根据数据生产配置文件进行人工生产或自动生产数据,其中人工生产的数据可产出标准数据,同时可作为AI模型的训练数据,训练得到的AI模型又可进行数据生产。具体过程可包括如下步骤:
S1,基于各预设层级的标签字段之间的层级结构,生成标签树。
S2,在标签字段属于标签树的叶子节点的情况下,响应于在源文本中对标签字段对应的实体执行的抽取标注,得到标签字段下的抽取文本数据,抽取文本数据包括实体在源文本中的位置和标签字段;
基于实体识别模型,对源文本进行标签字段下的实体识别,得到标签字段下的抽取文本数据;
响应于用户针对标签字段执行的录入或选择操作,得到标签字段下的输入文本数据;
文本数据包括抽取文本数据和输入文本数据,文本数据用于实体识别模型的训练数据,实体识别模型用于识别源文本中的实体,文本数据可表示为text region。
S3,在标签字段不属于标签树的叶子节点的情况下,基于标签字段的预设层级,对预设层级下各子层级包含的生产数据,按照预设层级从低到高的顺序进行逐层级聚合,得到标签字段下的聚合数据,聚合数据包括各实体之间的关系,关系识别模型用于识别各实体间的关系,聚合数据可表示为table region。
S4,基于数据生产配置文件中定义的各预设层级的标签字段,生成数据格式校验文件;基于数据格式校验文件,对标签树中最高层级的标签字段下的生产数据进行格式校验,并在格式校验通过的情况下,确定并发布产出数据。
S5,在前端页面可视化展示标签树,以及标签树中各标签字段下的生产数据;采用人机交互的方式对标签树执行点击、选择或删除操作。
本发明实施例提供的方法,以一套region概念统一了数据生产和数据标注,可以让一份数据既作为生产出的标准数据供产品使用,也可以作为AI模型的训练数据。
AI模型产生的结果可以无缝接入这套系统,给数据生产人员提供预标注的结果,以减少人工的工作量,数据生产以审核的方式代替从零开始的生产过程,审核的结果又能进入下一轮AI训练数据进行持续的迭代。
嵌套表格的自下而上的聚合方式符合复杂格式数据的生产流程,也解决了数据标注无法用于实际数据生产场景的问题。
数据有效性验证可以保证产生数据的一致性,所有数据都能够遵循同一套数据模型定义,避免不同人员的认知差异导致的生产出的数据偏移,也能够在一定程度上将SOP进行数字化管理。
下面对本发明提供的数据处理装置进行描述,下文描述的数据处理装置与上文描述的数据处理方法可相互对应参照。
图3是本发明提供的数据处理装置的结构示意图,如图3所示,数据处理装置包括标签树生成单元310、数据生产单元320和数据产出单元330,其中,
标签树生成单元310,用于基于各预设层级的标签字段之间的层级结构,生成标签树;
数据生产单元320,用于基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述标签字段下的生产数据,所述生产数据包括文本数据或聚合数据;所述文本数据用于实体识别模型的训练数据;所述聚合数据用于关系识别模型的训练数据;所述实体识别模型用于识别源文本中的实体,所述关系识别模型用于识别各实体间的关系;
数据产出单元330,用于基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据。
本发明实施例提供的数据处理装置,数据生产得到产出数据的同时进行数据标注,生产过程中得到的文本数据可用于实体识别模型的训练数据,聚合数据用于关系识别模型的训练数据,实现了生产和标注的统一。此外,针对于现有的标注工具只能进行平铺式的文本截选,无法满足复杂嵌套格式的数据生产要求的问题,采用标签树的方式进行数据生产,实现了从生产数据中生成复杂的嵌套表格,复杂数据结构的数据生产和数据标注的统一,从而提高了工作流效率,减少了人力成本。
基于上述任一实施例,所述文本数据包括抽取文本数据和输入文本数据,在所述标签字段属于所述标签树的叶子节点的情况下,所述数据生产单元320进一步用于:
响应于在源文本中对所述标签字段对应的实体执行的抽取标注,得到所述标签字段下的抽取文本数据,所述抽取文本数据包括所述实体在源文本中的位置和标签字段;
基于所述实体识别模型,对源文本进行所述标签字段下的实体识别,得到所述标签字段下的抽取文本数据;
响应于用户针对标签字段执行的录入或选择操作,得到所述标签字段下的输入文本数据。
基于上述任一实施例,所述数据生产单元320进一步用于:
在所述标签字段不属于所述标签树的叶子节点的情况下,基于所述标签字段的预设层级,对所述预设层级下包含的实体数据进行聚合,得到所述标签字段下的聚合数据,所述聚合数据包括各实体之间的关系。
基于上述任一实施例,所述数据生产单元320进一步用于:
基于所述标签字段的预设层级,对所述预设层级下各子层级包含的实体数据,按照预设层级从低到高的顺序进行逐层级聚合,得到所述标签字段下的聚合数据。
基于上述任一实施例,数据处理装置还包括配置文件获取单元,用于:
获取数据生产配置文件,所述数据生产配置文件用于定义各预设层级的标签字段,以及各预设层级的标签字段分别对应的数据生产方式,所述数据生产方式包括抽取、聚合、录入或选择。
基于上述任一实施例,数据产出单元330进一步用于:
基于所述数据生产配置文件中定义的各预设层级的标签字段,生成数据格式校验文件;
基于所述数据格式校验文件,对所述标签树中最高层级的标签字段下的生产数据进行格式校验,并在格式校验通过的情况下,确定并发布产出数据。
基于上述任一实施例,数据处理装置还包括展示单元,用于:
在前端页面可视化展示所述标签树,以及所述标签树中各标签字段下的生产数据;
采用人机交互的方式对所述标签树执行点击、选择或删除操作。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行数据处理方法,该方法包括:
基于各预设层级的标签字段分别对应的数据生产方式,对源文本进行数据生产,得到各标签字段下的实体数据或关系数据;并对所述源文本进行标注,得到所述实体数据在源文本中的位置;
基于所述实体数据在源文本中的位置和所述实体数据对应的标签字段,和/或,基于所述关系数据中各实体之间的关系,对实体识别模型进行训练迭代;每一次训练迭代得到的实体识别模型用于对源文本进行实体识别和/或关系抽取,得到各标签字段下的实体数据或关系数据。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的数据处理方法,该方法包括:
基于各预设层级的标签字段分别对应的数据生产方式,对源文本进行数据生产,得到各标签字段下的实体数据或关系数据;并对所述源文本进行标注,得到所述实体数据在源文本中的位置;
基于所述实体数据在源文本中的位置和所述实体数据对应的标签字段,和/或,基于所述关系数据中各实体之间的关系,对实体识别模型进行训练迭代;每一次训练迭代得到的实体识别模型用于对源文本进行实体识别和/或关系抽取,得到各标签字段下的实体数据或关系数据。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的数据处理方法,该方法包括:
基于各预设层级的标签字段分别对应的数据生产方式,对源文本进行数据生产,得到各标签字段下的实体数据或关系数据;并对所述源文本进行标注,得到所述实体数据在源文本中的位置;
基于所述实体数据在源文本中的位置和所述实体数据对应的标签字段,和/或,基于所述关系数据中各实体之间的关系,对实体识别模型进行训练迭代;每一次训练迭代得到的实体识别模型用于对源文本进行实体识别和/或关系抽取,得到各标签字段下的实体数据或关系数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种数据处理方法,其特征在于,包括:
基于各预设层级的标签字段之间的层级结构,生成标签树;
基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述标签字段下的生产数据,所述生产数据包括文本数据或聚合数据;所述文本数据用于实体识别模型的训练数据;所述聚合数据用于关系识别模型的训练数据;所述实体识别模型用于识别源文本中的实体,所述关系识别模型用于识别各实体间的关系;
针对属于标签树的叶子节点的标签字段,采用抽取、选择或录入的方式进行数据生产,得到各标签字段下的文本数据;所述叶子节点是指对应标签字段没有下一层级的子节点;
基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据;
所述文本数据包括抽取文本数据和输入文本数据,在所述标签字段属于所述标签树的叶子节点的情况下,所述基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述各标签字段下的生产数据,包括如下步骤中的至少一项:
响应于在源文本中对所述标签字段对应的实体执行的抽取标注,得到所述标签字段下的抽取文本数据,所述抽取文本数据包括所述实体的标签字段和所述实体在源文本中的位置;
基于所述实体识别模型,对源文本进行所述标签字段下的实体识别,得到所述标签字段下的抽取文本数据;
响应于用户针对标签字段执行的录入或选择操作,得到所述标签字段下的输入文本数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述各标签字段下的生产数据,包括:
在所述标签字段不属于所述标签树的叶子节点的情况下,基于所述标签字段的预设层级,对所述预设层级下包含的生产数据进行聚合,得到所述标签字段下的聚合数据,所述聚合数据包括各实体之间的关系。
3.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述标签字段的预设层级,对所述预设层级下包含的生产数据进行聚合,得到所述标签字段下的聚合数据,包括:
基于所述标签字段的预设层级,对所述预设层级下各子层级包含的生产数据,按照预设层级从低到高的顺序进行逐层级聚合,得到所述标签字段下的聚合数据。
4.根据权利要求1所述的数据处理方法,其特征在于,所述基于各预设层级的标签字段之间的层级结构,生成标签树,之前还包括:
获取数据生产配置文件,所述数据生产配置文件用于定义各预设层级的标签字段,以及各预设层级的标签字段分别对应的数据生产方式,所述数据生产方式包括抽取、聚合、录入或选择。
5.根据权利要求4所述的数据处理方法,其特征在于,所述基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据,包括:
基于所述数据生产配置文件中定义的各预设层级的标签字段,生成数据格式校验文件;
基于所述数据格式校验文件,对所述标签树中最高层级的标签字段下的生产数据进行格式校验,并在格式校验通过的情况下,确定并发布产出数据。
6.根据权利要求1-5中任一项所述的数据处理方法,其特征在于,还包括:
在前端页面可视化展示所述标签树,以及所述标签树中各标签字段下的生产数据;
采用人机交互的方式对所述标签树执行点击、选择或删除操作。
7.一种数据处理装置,其特征在于,包括:
标签树生成单元,用于基于各预设层级的标签字段之间的层级结构,生成标签树;
数据生产单元,用于基于标签字段在所述标签树中的位置,以及所述标签字段的数据生产方式,确定所述标签字段下的生产数据,所述生产数据包括文本数据或聚合数据;所述文本数据用于实体识别模型的训练数据;所述聚合数据用于关系识别模型的训练数据;所述实体识别模型用于识别源文本中的实体,所述关系识别模型用于识别各实体间的关系;
针对属于标签树的叶子节点的标签字段,采用抽取、选择或录入的方式进行数据生产,得到各标签字段下的文本数据;所述叶子节点是指对应标签字段没有下一层级的子节点;
数据产出单元,用于基于所述标签树中最高层级的标签字段下的生产数据,确定产出数据;
所述数据生产单元,具体用于:
所述文本数据包括抽取文本数据和输入文本数据,响应于在源文本中对所述标签字段对应的实体执行的抽取标注,得到所述标签字段下的抽取文本数据,所述抽取文本数据包括所述实体的标签字段和所述实体在源文本中的位置;
基于所述实体识别模型,对源文本进行所述标签字段下的实体识别,得到所述标签字段下的抽取文本数据;
响应于用户针对标签字段执行的录入或选择操作,得到所述标签字段下的输入文本数据。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述数据处理方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211406828.8A CN115757823B (zh) | 2022-11-10 | 2022-11-10 | 数据处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211406828.8A CN115757823B (zh) | 2022-11-10 | 2022-11-10 | 数据处理方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115757823A CN115757823A (zh) | 2023-03-07 |
CN115757823B true CN115757823B (zh) | 2024-03-05 |
Family
ID=85369114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211406828.8A Active CN115757823B (zh) | 2022-11-10 | 2022-11-10 | 数据处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757823B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN111128323A (zh) * | 2019-12-18 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 医疗电子病例的标注方法、装置、设备及存储介质 |
US10679051B2 (en) * | 2015-12-30 | 2020-06-09 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting information |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
CN112597135A (zh) * | 2021-01-04 | 2021-04-02 | 天冕信息技术(深圳)有限公司 | 用户分类方法、装置、电子设备及可读存储介质 |
CN109961094B (zh) * | 2019-03-07 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN114385776A (zh) * | 2021-11-04 | 2022-04-22 | 北京文因互联科技有限公司 | 信息定位方法、存储介质及装置 |
CN114400099A (zh) * | 2021-12-31 | 2022-04-26 | 北京华彬立成科技有限公司 | 疾病信息挖掘和检索方法、装置、电子设备和存储介质 |
CN114564482A (zh) * | 2022-03-15 | 2022-05-31 | 广东横琴数说故事信息科技有限公司 | 一种面向多实体的标签系统及处理方法 |
CN114780757A (zh) * | 2022-04-20 | 2022-07-22 | 平安科技(深圳)有限公司 | 短媒体标签抽取方法、装置、计算机设备和存储介质 |
CN114896388A (zh) * | 2022-03-07 | 2022-08-12 | 武汉理工大学 | 一种基于混合注意力的层级多标签文本分类方法 |
US11429935B2 (en) * | 2012-11-01 | 2022-08-30 | Red Hat Israel, Ltd. | Retrieving historical tags hierarchy plus related objects |
CN115238078A (zh) * | 2022-08-10 | 2022-10-25 | 数魔方(北京)医药科技有限公司 | 一种网页信息抽取方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140222448A1 (en) * | 2011-07-01 | 2014-08-07 | Biogen Idec Ma Inc. | Drug labeling tool |
-
2022
- 2022-11-10 CN CN202211406828.8A patent/CN115757823B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429935B2 (en) * | 2012-11-01 | 2022-08-30 | Red Hat Israel, Ltd. | Retrieving historical tags hierarchy plus related objects |
US10679051B2 (en) * | 2015-12-30 | 2020-06-09 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting information |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN109961094B (zh) * | 2019-03-07 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN111128323A (zh) * | 2019-12-18 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 医疗电子病例的标注方法、装置、设备及存储介质 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
CN112597135A (zh) * | 2021-01-04 | 2021-04-02 | 天冕信息技术(深圳)有限公司 | 用户分类方法、装置、电子设备及可读存储介质 |
CN114385776A (zh) * | 2021-11-04 | 2022-04-22 | 北京文因互联科技有限公司 | 信息定位方法、存储介质及装置 |
CN114400099A (zh) * | 2021-12-31 | 2022-04-26 | 北京华彬立成科技有限公司 | 疾病信息挖掘和检索方法、装置、电子设备和存储介质 |
CN114896388A (zh) * | 2022-03-07 | 2022-08-12 | 武汉理工大学 | 一种基于混合注意力的层级多标签文本分类方法 |
CN114564482A (zh) * | 2022-03-15 | 2022-05-31 | 广东横琴数说故事信息科技有限公司 | 一种面向多实体的标签系统及处理方法 |
CN114780757A (zh) * | 2022-04-20 | 2022-07-22 | 平安科技(深圳)有限公司 | 短媒体标签抽取方法、装置、计算机设备和存储介质 |
CN115238078A (zh) * | 2022-08-10 | 2022-10-25 | 数魔方(北京)医药科技有限公司 | 一种网页信息抽取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于键规则的XML实体抽取方法;刘显敏;李建中;;计算机研究与发展;20140115(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115757823A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11847574B2 (en) | Systems and methods for enriching modeling tools and infrastructure with semantics | |
US11860920B2 (en) | System and method for providing technology assisted data review with optimizing features | |
CN110292775B (zh) | 获取差异数据的方法及装置 | |
US8719299B2 (en) | Systems and methods for extraction of concepts for reuse-based schema matching | |
CN104391934A (zh) | 数据校验方法和装置 | |
US11379467B2 (en) | System for uploading information into a metadata repository | |
CN109033220B (zh) | 标注数据的自动选取方法、系统、设备和存储介质 | |
CN108665244B (zh) | 基于61850模型的定值单自动生成方法及存储介质 | |
CN112181949A (zh) | 一种在线数据建模的方法及装置 | |
CN107729474B (zh) | Cad模型的数据质量检测方法、系统、设备及存储介质 | |
CN113704343A (zh) | 一种数据治理中的数据血缘可视化实现方法及系统 | |
CN115757823B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN109308349A (zh) | 自动生成政策模板的方法及装置、计算机设备、存储介质 | |
CN117236624A (zh) | 一种基于动态图的Issue修复者推荐方法与装置 | |
CN107256167A (zh) | 应用于应用系统迁移的升级控制方法及升级控制设备 | |
CN117151415A (zh) | 一种面向城乡融合发展的基础设施规划系统 | |
US11816770B2 (en) | System for ontological graph creation via a user interface | |
CN112286879B (zh) | 基于元数据的数据资产构建方法及装置 | |
CN115167965A (zh) | 交易进度条的处理方法及装置 | |
CN111143356B (zh) | 报表检索方法及装置 | |
CN114511174A (zh) | 一种业务指标图谱构建方法及装置 | |
US20230252006A1 (en) | System for annotating input data using graphs via a user interface | |
CN112541085B (zh) | 问卷的结构化方法、问卷的结构化装置及存储介质 | |
CN117196555A (zh) | 佣金计算方法、装置、终端及存储介质 | |
WO2024049796A1 (en) | Systems and methods for legacy mbse diagram data importation using element specific ml models and schema templates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |