CN113886606A - 一种基于知识图谱的数据标注方法、装置、介质及设备 - Google Patents
一种基于知识图谱的数据标注方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN113886606A CN113886606A CN202111487568.7A CN202111487568A CN113886606A CN 113886606 A CN113886606 A CN 113886606A CN 202111487568 A CN202111487568 A CN 202111487568A CN 113886606 A CN113886606 A CN 113886606A
- Authority
- CN
- China
- Prior art keywords
- annotation
- document
- labeling
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例公开了一种基于知识图谱的数据标注方法、装置、介质及设备。其中,该方法包括:响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,图本体模型用于构建实体属性以及实体与实体之间的关系;获取标注目标文档,并根据图本体模型确定标注项数据;根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。采用本申请技术方案,可将知识图谱与标注数据相结合,从而实现标注数据的可视化,能够更加清晰、直观地反映数据,同时提高了数据标注的效率。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种基于知识图谱的数据标注方法、装置、介质及设备。
背景技术
随着深度学习方法的迅速发展,产生了基于深度学习的新的数据处理方法,使得人们对数据处理的精度和效率提出了更高的要求。
在数据处理过程中,对数据标注的需求也随之增加。现有的标注方法只能依靠标注人员的经验,采用人工标注方式对数据进行标注,因而无法实现自动数据标注。
然而,现有的人工标注方式由于受到标注人员的经验和工作效率的限制,导致数据标注的效率低下,同时也无法实现数据的可视化。
发明内容
本申请实施例提供一种基于知识图谱的数据标注方法、装置、介质及设备,可以通过将知识图谱与数据标注相结合,从而实现数据可视化的目的。
第一方面,本申请实施例提供了一种基于知识图谱的数据标注方法,所述方法包括:
响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;
获取标注目标文档,以及根据所述图本体模型确定标注项数据;
根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;
采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
第二方面,本申请实施例提供了一种基于知识图谱的数据标注装置,该装置包括:
图本体模型确定模块,用于响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;
标注项数据确定模块,用于获取标注目标文档,以及根据所述图本体模型确定标注项数据;
规范模型训练模块,用于根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;
文档标注模块,用于采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的基于知识图谱的数据标注方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的基于知识图谱的数据标注方法。
本申请实施例所提供的技术方案,首先确定标注任务关联的图本体模型;然后获取标注目标文档,并根据图本体模型确定标注项数据;进而根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;再采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。该方案通过以上手段,可以将知识图谱与标注数据相结合,从而实现标注数据可视化,能够更加清晰、直观地反映数据,根据人工标注结果对预训练模型进行训练,并通过设置验收质检环节对模型训练结果进行验收,当符合验收标准时得到规范模型,再利用规范模型进行数据标注,提高了数据标注的效率。
附图说明
图1是本申请实施例一提供的基于知识图谱的数据标注方法的流程图;
图2是本申请实施例一提供的标注结果验收的流程图;
图3为本申请实施例二提供的基于知识图谱的数据标注方法的流程图;
图4为本申请实施例三提供的基于知识图谱的数据标注方法的流程图;
图5是本申请提供的基于知识图谱的数据标注平台的功能管理示意图;
图6为本申请实施例四提供的基于知识图谱的数据标注装置的结构框图;
图7为本申请实施例六提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的基于知识图谱的数据标注方法的流程图,本实施例可适用于标注数据可视化的场景,该方法可以由本申请实施例所提供的基于知识图谱的数据标注装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于电子设备中。
如图1所示,所述基于知识图谱的数据标注方法包括:
S110,响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,图本体模型用于构建实体属性以及实体与实体之间的关系。
在本方案中,基于知识图谱来构建图本体模型。其中,知识图谱可以是指显示知识发展进程与结构关系的一系列图形,可以通过可视化技术描述知识资源及其载体,可以用于将复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制显示出来,从而揭示出知识领域的动态发展规律以及知识领域之间的相互联系。本方案可以是将知识图谱与数据标注相结合,以实现数据可视化。当由算法直接提供规范的数据标注模型和规则实现自动标注时,可能出现由于规范数值导入造成数据失效的问题。因此本方案的目的在于根据人工标注结果对预训练模型进行训练,并利用训练得到的规范模型进行数据标注,从而提高数据标注的效率。
本方案中,标注任务可以是指针对从文档库中抽取的文档进行人工标注的任务,可以用于为后续模型训练提供训练数据。具体的,标注任务可以由标注人员创建,同时可以对需要标注的文档以及标注多少篇文档进行设置,并可以按照实际需求创建多个不同领域以及不同类型的标注任务。一个标注任务可以包括任务名称、数据集以及标注项。其中,数据集可以是从文档库中选择的任意文档,可以选择一篇或者多篇文档。通常情况下可以选择同一个分类下的文档作为数据集,此时就相当于复制了一份文档进行标注,因此不同的标注任务可以对同一份文档进行标注,并且标注的内容互不影响。标注项可以是指标注的对象,可以用于提供人工标注时的可选项。示例性的,标注项可以包括实体、事件、标签以及同义词等。不同类型的文档可能标注项不一样,通过配置标注项可以让标注人员聚焦合适的标注项,从而提升易用性。
本方案中,创建请求可以是指用于创建标注任务的请求指令。图本体模型可以是指用于描述实体属性以及实体之间关系的一种知识图谱模型,可以用于表征实体的属性特点以及基于各实体的属性建立实体与实体之间的联系。其中,实体可以是指人、动物、植物以及物体等实际存在的对象。每一个实体都有自己的属性,例如一个学生的属性可以包括姓名、学号以及班级等。实体与实体之间的关系可以是基于实体各自的属性进行建立,例如同一个班级的学生A与学生B之间的关系,可以是基于学生A与学生B的班级属性建立一种同班同学的关系。可以理解的是,图本体模型是预先建立好的一种知识图谱模型,可以由技术人员根据实际应用需求进行灵活调整。
本方案中,在创建标注任务时,可以根据实际应用需求来选择是否需要对数据标注结果进行验收,若不进行选择则默认设置为需要验收。当需要验收时,可以选择验收负责人以及验收成员,并且可以通过输入验收比例和目标准确率等指标对数据标注结果进行验收。
本方案中,可以根据所创建的标注任务中的任务名称以及标注项确定出与标注任务相关联的图本体模型。示例性的,如果将标注任务中的标注项配置为人名,则与标注任务关联的图本体模型可以是以人为实体,并且概括了人与人之间关系的与任务名称相关的知识图谱。
S120,获取标注目标文档,以及根据图本体模型确定标注项数据。
其中,标注目标文档可以是指需要进行标注的文档,也就是标注任务中的数据集。其中,标注目标文档可以是一篇文档,也可以是多篇文档。标注项数据可以是指标注项的参数数据,可以用于表征对标注项进行标注的参数依据。具体的,标注项数据可以包括图本体模型、分类标签以及同义词等。示例性的,若将图本体模型作为标注依据,则可以根据图本体模型确定标注项数据。
S130,根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型。
其中,训练文档可以是指由标注人员根据标注项数据通过对选取的一部分标注目标文档进行人工标注得到的带有标注的标注目标文档。其中,训练文档中标注好的数据可以作为预训练模型的输入。预训练模型可以是指现有技术中常见的用于数据标注的模型,例如预训练模型可以是基于深度学习的数据标注模型。输出结果可以是指通过对预训练模型训练输出的完成数据标注的文档。
本方案中,为了确保标注数据的准确性,可以通过设置验收标准增加验收质检环节。其中,验收标准可以是指由标注人员设置,用于对标注数据进行验收时提供的验收依据,此处对验收标准不做具体限定。可以理解的是,如果标注数据满足验收标准,则可以判定为验收通过;相反的,如果标注数据不满足验收标准,则可以判定为验收未通过。
图2是本发明实施例一提供的标注结果验收的流程图。如图2所示,首先响应于新创建的标注任务,对标注任务中的标注目标文档进行人工标注,进而将人工标注数据输入到预训练模型进行模型训练,并将模型训练结果提交验收。若验收通过则可以生成规范模型,若验收未通过则将返回到标注未完成,继续进行人工标注、模型训练以及验收过程,直到验收通过时生成规范模型。
本方案中,规范模型可以是指通过对预训练模型进行训练得到的符合验收标准的抽取模型,可以用于将标注目标文档中未经过标注人员标注的文档进行自动标注。
在本实施例中,可选的,根据所述标注项数据确定带有标注的训练文档,包括:
响应于文档的上传操作,确定候选文档;
显示至少一篇候选文档供标注人员进行标注,并在标注完成后,形成带有标注的训练文档。
其中,上传操作可以是指将标注目标文档上传至对应领域内的文档库中的操作指令。候选文档可以是由标注工程师从上传的标注目标文档中选取的用于人工标注的文档,可以包含一篇或者多篇文档。
本方案通过这样的设置,可以通过人工标注方式提供带有标注的训练文档,并将训练文档中已经标注好的数据作为预训练模型的输入,从而可为模型训练提供训练数据。
在本实施例中,可选的,显示至少一篇候选文档供标注人员进行标注,包括:
显示至少一篇候选文档;
响应于标注人员的前实体选择操作,确定标注内容的前实体;
响应于标注人员的后实体选择操作,确定标注内容的后实体;
响应于标注人员的实体关系选择操作,确定标注内容的前实体和后实体的实体关系,以完成对候选文档的一个标注内容的标注;
遍历候选文档的所有标注内容,得到候选文档的标注结果。
其中,前实体选择操作可以是指由标注人员实施的对前实体进行选择的操作。对应的,后实体选择操作可以是指由标注人员实施的对后实体进行选择的操作。其中,前实体和后实体可以是指由标注人员通过前实体选择操作和后实体选择操作对应选择的两个不同实体。实体关系选择操作可以是指由标注人员实施的对前实体与后实体之间的实体关系进行选择的操作。标注结果可以是指候选文档所有的标注内容。
本方案通过这样的设置,根据选择的前实体、后实体以及两个实体之间的关系完成了标注人员对候选文档的标注任务,最终可以得到包含所有标注内容的候选文档标注结果。
S140,采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。
本方案中,通过由模型训练得到的规范模型对未人工标注的标注目标文档进行标注。其中,标注的内容包括实体的属性以及实体之间的关系。
本申请实施例所提供的技术方案,首先响应于标注任务的创建请求,确定标注任务关联的图本体模型;然后获取标注目标文档,以及根据图本体模型确定标注项数据;进而根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;再采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。该方案通过以上手段,将知识图谱与标注数据相结合,实现了标注数据可视化,能够更加清晰、直观地反映数据,根据人工标注结果对预训练模型进行训练,并且设置验收质检环节对模型训练结果进行验收,当符合验收标准时得到规范模型,再利用规范模型进行数据标注,提高了数据标注的效率。
实施例二
图3为本发明实施例二中的基于知识图谱的数据标注的流程图,本实施例以上述实施例为基础进行优化。具体优化为:所述标注项数据还包括事件明细元数据;相应的,根据所述标注项数据确定带有标注的训练文档,包括:根据所述图本体模型和事件明细元数据提供标注选择,以供标注人员进行文档的标注操作;将所述标注操作的标注结果作为带有标注的训练文档。
如图3所示,本实施例的方法具体包括如下步骤:
S310,响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,图本体模型用于构建实体属性以及实体与实体之间的关系。
S320,获取标注目标文档,以及根据图本体模型和事件明细元数据确定标注项数据。
其中,事件可以是指预先设置好的基于实体和图本体模型的事件。具体的,针对标注目标文档中的每一个数据都会新建一张与实体绑定的表,例如图本体模型中定义的学生实体是表中的一个子集。基于图本体模型中的关系,将不同关系进行汇总,就可以汇总为事件。示例性的,人和人是同部门,人和部门是属于关系,就可以将两种关系汇总为事件。事件明细元数据可以是指事件中所包含的具体数据。
S330,根据图本体模型和事件明细元数据提供标注选择,以供标注人员进行文档的标注操作,将标注操作的标注结果作为带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型。
其中,标注选择可以是指标注人员在对文档进行标注时所提供的选择事项。具体的,在数据标注时可以选择图本体模型和事件明细元数据的中的任意一项或者两项。此处对标注选择不做具体限定,可以由标注人员根据实际应用需求进行灵活选择。
在本实施例中,可选的,标注项数据还包括同义词集;相应的,根据标注项数据确定带有标注的训练文档,包括:
根据图本体模型、事件明细元数据以及同义词集提供标注选择,以供标注人员进行文档的标注操作;
将标注操作的标注结果作为带有标注的训练文档。
其中,同义词集可以是指由具有相同含义的词语所组成的词库。通过选择将同义词集作为标注项数据,可以自动替换掉文档中的一些信息,例如可以将A公司设置为本公司。
在本实施例中,可选的,标注项数据还包括标签分类;相应的,根据标注项数据确定带有标注的训练文档,包括:
根据图本体模型、事件明细元数据、同义词集以及标签分类提供标注选择,以供标注人员进行文档的标注操作;
将标注操作的标注结果作为带有标注的训练文档。
其中,标签可以是指语义的标签,例如可以是积极向上的,也可以是消极负面的。标签分类可以是指用创建的标签对文档中的某一个字或者词语打标签,可以用于对事先创建的标签进行管理。具体的,标签分类具有正面或者负面的属性,可以用于设置标注项数据,从而为标注提供前置条件。
本方案通过这样的设置,为数据标注提供了多种标注选择,使标注人员可以根据实际应用需求进行灵活选择与调整,提高了数据标注的灵活性。
S340,采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。
本申请实施例所提供的技术方案,可以根据图本体模型、事件明细元数据、同义词集以及标签分类提供多种标注选择,使标注人员可以根据实际应用需求进行灵活选择与调整,从而提高了数据标注的灵活性。
实施例三
图4为本发明实施例三中的基于知识图谱的数据标注的流程图,本实施例以实施例一为基础进行优化。具体优化为:在采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注之后,所述方法还包括:根据标注目标文档的标注结果,生成基于实体属性以及实体与实体之间的关系构建的图数据。
如图4所示,本实施例的方法具体包括如下步骤:
S410,响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,图本体模型用于构建实体属性以及实体与实体之间的关系。
S420,获取标注目标文档,以及根据图本体模型确定标注项数据。
S430,根据标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型。
S440,采用规范模型对标注目标文档的实体属性以及实体与实体之间的关系进行标注。
其中,S410-S440的具体实施过程可参见S110-S140中的详细描述。
S450,根据标注目标文档的标注结果,生成基于实体属性以及实体与实体之间的关系构建的图数据。
其中,图数据可以是指根据标注结果生成的反映标注数据的图,可以用于表征实体属性以及实体与实体之间的关系。
本申请实施例所提供的技术方案,通过根据标注目标文档的标注结果,将标注数据生成基于实体属性以及实体与实体间关系构建的图数据,从而将知识图谱与标注数据相结合,实现了数据可视化,能更加清晰、直观地反映数据。
优选的,所述方法可以通过数据标注平台实现。图5是本发明提供的基于知识图谱的数据标注平台的功能管理示意图。如图5所示,本实施例中的标注平台的功能可以包括系统管理、标注管理、训练任务、抽取任务、标注项管理、文档库管理、规则配置以及模型管理。
其中,系统管理可以包括用户中心管理和知识领域管理,可以用于管理用户以及领域。标注管理可以用于管理标注任务。训练任务可以用于将标注好的数据基于预训练模型进行训练得到规范模型。抽取任务可以用于对未经过人工标注的文档进行自动标注。标注项管理可以用于对图本体模型、事件明细元数据、同义词集以及标签分类进行管理。文档库管理可以用于对标注目标文档或者已经标注完成的文档进行存储。规则配置可以用于为验收质检环节设置验收标准。模型管理可以用于存储预训练模型以及训练得到的规范模型。
本方案通过这样的设置,可以通过数据标注平台实现基于知识图谱的数据标注方法,并能通过统一的功能管理完成数据标注任务。
实施例四
图6为本发明实施例四提供的基于知识图谱的数据标注装置的结构框图,该装置可执行本发明任意实施例所提供的基于知识图谱的数据标注方法,具备执行方法相应的功能模块和有益效果。如图6所示,该装置可以包括:
图本体模型确定模块610,用于响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;
标注项数据确定模块620,用于获取标注目标文档,以及根据所述图本体模型确定标注项数据;
规范模型训练模块630,用于根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;
文档标注模块640,用于采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
在上述实施例的基础上,可选地,规范模型训练模块630包括:
响应于文档的上传操作,确定候选文档;
显示至少一篇候选文档供标注人员进行标注,并在标注完成后,形成带有标注的训练文档。
在上述实施例的基础上,可选地,显示至少一篇候选文档供标注人员进行标注,包括:
显示至少一篇候选文档;
响应于标注人员的前实体选择操作,确定标注内容的前实体;
响应于标注人员的后实体选择操作,确定标注内容的后实体;
响应于标注人员的实体关系选择操作,确定标注内容的前实体和后实体的实体关系,以完成对候选文档的一个标注内容的标注;
遍历候选文档的所有标注内容,得到候选文档的标注结果。
在上述实施例的基础上,可选地,标注项数据还包括事件明细元数据;
相应的,规范模型训练模块630还包括:
根据所述图本体模型和事件明细元数据提供标注选择,以供标注人员进行文档的标注操作;
将所述标注操作的标注结果作为带有标注的训练文档。
在上述实施例的基础上,可选地,所述标注项数据还包括同义词集;
相应的,规范模型训练模块630还包括:
根据所述图本体模型、事件明细元数据以及同义词集提供标注选择,以供标注人员进行文档的标注操作;
将所述标注操作的标注结果作为带有标注的训练文档。
在上述实施例的基础上,可选地,所述标注项数据还包括标签分类;
相应的,规范模型训练模块630还包括:
根据所述图本体模型、事件明细元数据、同义词集以及标签分类提供标注选择,以供标注人员进行文档的标注操作;
将所述标注操作的标注结果作为带有标注的训练文档。
在上述实施例的基础上,可选地,所述装置还包括:
图数据生成模块,用于根据标注目标文档的标注结果,生成基于实体属性以及实体与实体之间的关系构建的图数据。
上述产品可执行本申请实施例所提供的基于知识图谱的数据标注方法,具备执行方法相应的功能模块和有益效果。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的基于知识图谱的数据标注方法:
响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;
获取标注目标文档,以及根据所述图本体模型确定标注项数据;
根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;
采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
实施例六
本申请实施例六提供了一种电子设备。图7是本申请实施例六提供的一种电子设备的结构示意图。如图7所示,本实施例提供了一种电子设备700,其包括:一个或多个处理器720;存储装置710,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器720执行,使得所述一个或多个处理器720实现本申请实施例所提供的基于知识图谱的数据标注方法,该方法包括:
响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;
获取标注目标文档,以及根据所述图本体模型确定标注项数据;
根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;
采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
当然,本领域技术人员可以理解,处理器720还实现本申请任意实施例所提供的基于知识图谱的数据标注方法的技术方案。
图7显示的电子设备700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,该电子设备700包括处理器720、存储装置710、输入装置730和输出装置740;电子设备中处理器720的数量可以是一个或多个,图7中以一个处理器720为例;电子设备中的处理器720、存储装置710、输入装置730和输出装置740可以通过总线或其他方式连接,图7中以通过总线750连接为例。
存储装置710作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的基于知识图谱的数据标注方法对应的程序指令。
存储装置710可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置710可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置710可进一步包括相对于处理器720远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏、扬声器等电子设备。
上述实施例中提供的基于知识图谱的数据标注装置、介质及电子设备可执行本申请任意实施例所提供的基于知识图谱的数据标注方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的基于知识图谱的数据标注方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于知识图谱的数据标注方法,其特征在于,所述方法包括:
响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;
获取标注目标文档,以及根据所述图本体模型确定标注项数据;
根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;
采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
2.根据权利要求1所述的方法,其特征在于,根据所述标注项数据确定带有标注的训练文档,包括:
响应于文档的上传操作,确定候选文档;
显示至少一篇候选文档供标注人员进行标注,并在标注完成后,形成带有标注的训练文档。
3.根据权利要求2所述的方法,其特征在于,显示至少一篇候选文档供标注人员进行标注,包括:
显示至少一篇候选文档;
响应于标注人员的前实体选择操作,确定标注内容的前实体;
响应于标注人员的后实体选择操作,确定标注内容的后实体;
响应于标注人员的实体关系选择操作,确定标注内容的前实体和后实体的实体关系,以完成对候选文档的一个标注内容的标注;
遍历候选文档的所有标注内容,得到候选文档的标注结果。
4.根据权利要求1所述的方法,其特征在于,所述标注项数据还包括事件明细元数据;
相应的,根据所述标注项数据确定带有标注的训练文档,包括:
根据所述图本体模型和事件明细元数据提供标注选择,以供标注人员进行文档的标注操作;
将所述标注操作的标注结果作为带有标注的训练文档。
5.根据权利要求4所述的方法,其特征在于,所述标注项数据还包括同义词集;
相应的,根据所述标注项数据确定带有标注的训练文档,包括:
根据所述图本体模型、事件明细元数据以及同义词集提供标注选择,以供标注人员进行文档的标注操作;
将所述标注操作的标注结果作为带有标注的训练文档。
6.根据权利要求5所述的方法,其特征在于,所述标注项数据还包括标签分类;
相应的,根据所述标注项数据确定带有标注的训练文档,包括:
根据所述图本体模型、事件明细元数据、同义词集以及标签分类提供标注选择,以供标注人员进行文档的标注操作;
将所述标注操作的标注结果作为带有标注的训练文档。
7.根据权利要求1所述的方法,其特征在于,在采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注之后,所述方法还包括:
根据标注目标文档的标注结果,生成基于实体属性以及实体与实体之间的关系构建的图数据。
8.一种基于知识图谱的数据标注装置,其特征在于,所述装置包括:
图本体模型确定模块,用于响应于标注任务的创建请求,确定标注任务关联的图本体模型;其中,所述图本体模型用于构建实体属性以及实体与实体之间的关系;
标注项数据确定模块,用于获取标注目标文档,以及根据所述图本体模型确定标注项数据;
规范模型训练模块,用于根据所述标注项数据确定带有标注的训练文档,以对预训练模型进行训练,若训练过程中预训练模型的输出结果符合验收标准,则得到规范模型;
文档标注模块,用于采用所述规范模型对所述标注目标文档的实体属性以及实体与实体之间的关系进行标注。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于知识图谱的数据标注方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的基于知识图谱的数据标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111487568.7A CN113886606B (zh) | 2021-12-08 | 2021-12-08 | 一种基于知识图谱的数据标注方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111487568.7A CN113886606B (zh) | 2021-12-08 | 2021-12-08 | 一种基于知识图谱的数据标注方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113886606A true CN113886606A (zh) | 2022-01-04 |
CN113886606B CN113886606B (zh) | 2022-12-13 |
Family
ID=79015889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111487568.7A Active CN113886606B (zh) | 2021-12-08 | 2021-12-08 | 一种基于知识图谱的数据标注方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886606B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114594891A (zh) * | 2022-03-09 | 2022-06-07 | 北京百度网讯科技有限公司 | 文档数据处理方法、装置、电子设备及介质 |
CN115563311A (zh) * | 2022-10-21 | 2023-01-03 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理系统 |
CN115964507A (zh) * | 2022-11-28 | 2023-04-14 | 北京海致星图科技有限公司 | 一种基于知识平台的图谱管理系统及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075013A1 (en) * | 2016-09-15 | 2018-03-15 | Infosys Limited | Method and system for automating training of named entity recognition in natural language processing |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN112052304A (zh) * | 2020-08-18 | 2020-12-08 | 中国建设银行股份有限公司 | 课程标签确定方法、装置及电子设备 |
CN112163424A (zh) * | 2020-09-17 | 2021-01-01 | 中国建设银行股份有限公司 | 数据的标注方法、装置、设备和介质 |
CN112800757A (zh) * | 2021-04-06 | 2021-05-14 | 杭州远传新业科技有限公司 | 关键词生成方法、装置、设备及介质 |
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
WO2021233041A1 (zh) * | 2020-05-18 | 2021-11-25 | 华为技术有限公司 | 数据标注方法和装置、精细粒度识别方法和装置 |
-
2021
- 2021-12-08 CN CN202111487568.7A patent/CN113886606B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075013A1 (en) * | 2016-09-15 | 2018-03-15 | Infosys Limited | Method and system for automating training of named entity recognition in natural language processing |
WO2021233041A1 (zh) * | 2020-05-18 | 2021-11-25 | 华为技术有限公司 | 数据标注方法和装置、精细粒度识别方法和装置 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN112052304A (zh) * | 2020-08-18 | 2020-12-08 | 中国建设银行股份有限公司 | 课程标签确定方法、装置及电子设备 |
CN112163424A (zh) * | 2020-09-17 | 2021-01-01 | 中国建设银行股份有限公司 | 数据的标注方法、装置、设备和介质 |
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
CN112800757A (zh) * | 2021-04-06 | 2021-05-14 | 杭州远传新业科技有限公司 | 关键词生成方法、装置、设备及介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114594891A (zh) * | 2022-03-09 | 2022-06-07 | 北京百度网讯科技有限公司 | 文档数据处理方法、装置、电子设备及介质 |
CN114594891B (zh) * | 2022-03-09 | 2023-12-22 | 北京百度网讯科技有限公司 | 文档数据处理方法、装置、电子设备及介质 |
CN115563311A (zh) * | 2022-10-21 | 2023-01-03 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理系统 |
CN115563311B (zh) * | 2022-10-21 | 2023-09-15 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理系统 |
CN115964507A (zh) * | 2022-11-28 | 2023-04-14 | 北京海致星图科技有限公司 | 一种基于知识平台的图谱管理系统及计算机可读存储介质 |
CN115964507B (zh) * | 2022-11-28 | 2023-10-27 | 北京海致星图科技有限公司 | 一种基于知识平台的图谱管理系统及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113886606B (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113886606B (zh) | 一种基于知识图谱的数据标注方法、装置、介质及设备 | |
US10733193B2 (en) | Similar document identification using artificial intelligence | |
EP2778929B1 (en) | Test script generation system | |
US9984054B2 (en) | Web interface including the review and manipulation of a web document and utilizing permission based control | |
US20210295202A1 (en) | Interface for machine teaching modeling | |
AU2017272243A1 (en) | Method and system for creating an instance model | |
CN112836018A (zh) | 应急预案的处理方法及装置 | |
Mateen et al. | Robust approaches, techniques and tools for requirement engineering in agile development | |
CN102945628B (zh) | 事故后果信息获取方法、装置及培训系统 | |
CN113779261B (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
Farr et al. | Documenting the modeling process with a standardized data structure described and implemented in DynamicVu | |
Yang et al. | User story clustering in agile development: a framework and an empirical study | |
CN112579402B (zh) | 一种应用系统故障定位的方法和装置 | |
Wang et al. | Early contractor and facility management team involvement in the BIM environment | |
US12039416B2 (en) | Facilitating machine learning using remote data | |
CN117494814A (zh) | 提示词全生命周期管理方法、系统、电子设备、存储介质 | |
US20100030712A1 (en) | Guided process/procedure and knowledge and resource scripting system, toolbox and method | |
CN117313745A (zh) | 基于语言模型的虚拟会议方法、装置、计算机设备和介质 | |
EP3306540A1 (en) | System and method for content affinity analytics | |
CN115794869A (zh) | 语义查询可视化构建与生成的实现方法及装置 | |
US20220406210A1 (en) | Automatic generation of lectures derived from generic, educational or scientific contents, fitting specified parameters | |
US20220083724A1 (en) | Methods and systems for assisting document editing | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
US20120084748A1 (en) | System and a method for generating a domain-specific software solution | |
CN114063868A (zh) | 一种ai拖拽建模系统、方法、计算机设备及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |