CN112036570A - 标注任务的调度方法、装置和可读存储介质 - Google Patents

标注任务的调度方法、装置和可读存储介质 Download PDF

Info

Publication number
CN112036570A
CN112036570A CN202010753626.5A CN202010753626A CN112036570A CN 112036570 A CN112036570 A CN 112036570A CN 202010753626 A CN202010753626 A CN 202010753626A CN 112036570 A CN112036570 A CN 112036570A
Authority
CN
China
Prior art keywords
model
original information
result
labeling
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010753626.5A
Other languages
English (en)
Inventor
陶冶
陈伟
谢佳雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202010753626.5A priority Critical patent/CN112036570A/zh
Publication of CN112036570A publication Critical patent/CN112036570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开涉及一种标注任务的调度方法、装置和可读存储介质,其中标注任务的调度方法包括:执行人工标注任务,以生成第一标注结果;执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型;执行模型标注任务,以利用知识获取模型从第二原始信息推荐池中提取知识内容,并基于知识内容生成第二标注结果;执行标注结果运用任务,以基于第一标注结果和第二标注结果进行所述知识内容的运用;其中所述标注结果运用任务的调度优先级低于人工标注任务、模型训练任务和模型标注任务中任意一个的调度优先级。本公开技术方案能够保证知识内容标注任务的全流程顺利进行。

Description

标注任务的调度方法、装置和可读存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种标注任务的调度方法、装置和可读存储介质。
背景技术
随着人工智能技术的不断发展,越来越多的利用知识获取模型从原始信息中标注知识内容,而知识获取模型通常在进行标注前需要先进行模型训练,模型训练时所需要的样本通常是由人工标注得到,由此可见,上述知识内容的标注过程涉及到人工标注任务、模型训练任务和模型标注任务三个任务过程;在通过上述三个任务过程标注出知识内容的基础上,通常还可以运用人工标注任务得到的人工标注结果,或者模型标注任务得到模型标注结果进行一些后续处理,即还需要执行标注结果运用任务,上述各个任务的执行都需要消耗计算资料。因此,为了保证知识内容标注任务的高效、快捷运行,提高标注效率,需要协调各个任务的执行。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种标注任务的调度方法、装置、设备和可读存储介质。
本发明实施例第一个方面提供了一种标注任务的调度方法,包括:
执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;
执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型;
执行模型标注任务,以利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于所述知识内容生成第二标注结果;
执行标注结果运用任务,以基于所述第一标注结果和所述第二标注结果进行所述知识内容的运用;
其中,所述标注结果运用任务的调度优先级低于所述人工标注任务、所述模型训练任务和所述模型标注任务中任意一个的调度优先级。
在一些实施例中,所述执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果,包括:
构建第一原始信息推荐池;
向用户推送所述第一原始信息推荐池中第一预设数量的原始信息,并接收用户基于所述第一预设数量的原始信息反馈的知识内容,作为第一标注结果。
在一些实施例中,所述执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型,包括:
基于所述第一标注结果对知识获取模型进行模型训练,以获取训练后的知识获取模型;
构建包括第二预设数量的原始信息的模型评估推荐池;
基于所述模型评估推荐池中的原始信息,分别利用所述训练后的知识获取模型进行知识内容提取,以获取第一模型评估结果,以及进行知识内容的人工标注,以获取人工标注结果;
基于所述第一模型评估结果和所述人工标注结果确定性能参数值满足第一预设条件的知识获取模型。
在一些实施例中,所述构建包括第二预设数量的原始信息的模型评估推荐池,包括:
从至少两个信息数据集中分别获取预设数量的原始信息,以得到包括第二预设数量的原始信息的模型评估推荐池,各信息数据集对应的预设数量之和等于所述第二预设数量;
所述基于所述第一模型评估结果和所述人工标注结果确定性能参数值满足第一预设条件的知识获取模型,包括:
基于所述第一模型评估结果和所述人工标注结果,确定所述知识获取模型从不同的信息数据集提取知识内容的性能参数值满足第一预设条件。
在一些实施例中,执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;
构建包括第三预设数量的原始信息的模型评估推荐池;
利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果。
在一些实施例中,所述执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型,包括:
基于所述模型评估推荐池中的原始信息,利用已训练的知识获取模型进行知识内容提取,以获取第二模型评估结果;
基于所述第一标注结果和所述第二模型评估结果确定所述知识获取模型的性能参数值不满足第一预设条件时,利用所述第一标注结果继续对所述知识获取模型进行重新训练;
重新构建所述模型评估推荐池,并利用重新训练的所述知识获取模型进行知识内容提取,以获取第二模型评估结果,直到所述性能参数值满足第一预设条件。
在一些实施例中,所述利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果,包括:
按照原始信息为单位,分批次利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果,每批次人工标注第四预设数量的原始信息;
所述基于第一标注结果和所述第二模型评估结果确定所述知识获取模型的性能参数值不满足第一预设条件时,利用所述第一标注结果继续对所述知识获取模型进行重新训练,包括:
在分批次利用人工标注所述模型评估推荐池中的原始信息的数量满足第五预设数量时,利用所述第一标注结果继续对所述知识获取模型进行重新训练。
在一些实施例中,还包括:
在分批次利用人工标注所述模型评估推荐池中的原始信息,获得的所述第一标注结果和所述第二模型评估结果确定所述知识获取模型的性能参数值满足第一预设条件时,开始执行模型标注任务。
在一些实施例中,还包括:
在分批次利用人工标注所述模型评估推荐池中的原始信息的数量满足第五预设数量时,利用所述第一标注结果继续对所述知识获取模型进行重新训练。
在一些实施例中,在所述模型评估推荐池中未进行人工标注的原始信息的数量小于第六预设数量时,重新获取原始信息以加入到所述模型评估推荐池,以使得所述模型评估推荐池中的原始信息的数量达到第四预设数量。
在一些实施例中,所述执行模型标注任务,以基于所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于所述知识内容生成第二标注结果,包括:
构建包括第七预设数量的原始信息的第二原始信息推荐池;
基于所述知识获取模型从所述第二原始信息推荐池提取知识内容;
基于所述知识内容生成待确认的问题;
向用户推送所述待确认的问题,以获取用户针对所述待确认的问题的作答结果;
基于所述作答结果生成第二标注结果。
在一些实施例中,所述向用户推荐所述待确认的问题,包括:
按照原始信息为单位,依次向用户推送与每个原始信息关联的待确认的问题;
所述方法还包括:
在所述第二标注结果对应的原始信息的数量达到第八预设数量时,基于所述第二标注结果对所述知识获取模型进行优化训练;
重新构建所述第七预设数量的原始信息的第二原始信息推荐池;
利用优化训练后的知识获取模型重新从所述第二原始信息推荐池提取知识内容。
在一些实施例中,还包括:
在所述第二原始信息推荐池中除所述第二标注结果对应的原始信息的数量小于第九预设数量时,重新提取原始信息以加入到第二原始信息推荐池中;
利用所述知识获取模型从所述第九预设数量的原始信息中提取知识内容。
在一些实施例中,所述执行模型标注任务,以基于所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于所述知识内容生成第二标注结果,包括:
在所述知识获取模型的性能参数值满足第二预设条件时,直接将从第二原始信息推荐池中提取的知识内容作为第二标注结果。
在一些实施例中,所述执行标注结果运用任务,以基于所述第一标注结果和所述第二标注结果进行所述知识内容的运用,包括:
基于所述第一标注结果和所述第二标注结果构建知识图谱或进行神经网络模型训练。
在一些实施例中,所述原始信息包括原始文本信息、原始图片信息或原始视频信息。
本发明实施例第二个方面提供了一种标注任务的调度装置,包括:
人工标注任务模块,用于执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;
模型训练任务模块,用于执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型;
模型标注任务模块,用于执行模型标注任务,以利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于所述知识内容生成第二标注结果;
结果运用任务模块,用于执行标注结果运用任务,以基于所述第一标注结果和所述第二标注结果进行所述知识内容的运用;
其中,所述标注结果运用任务的调度优先级低于所述人工标注任务、所述模型训练任务和所述模型标注任务中任意一个的调度优先级。
在一些实施例中,所述人工标注任务模块包括:
第一构建单元,用于构建第一原始信息推荐池;
第一标注结果获取单元,用于向用户推送所述第一原始信息推荐池中第一预设数量的原始信息,并接收用户基于所述第一预设数量的原始信息反馈的知识内容,作为第一标注结果。
在一些实施例中,所述模型训练任务模块包括:
模型训练模块,用于基于所述第一标注结果对知识获取模型进行模型训练,以获取训练后的知识获取模型;
第二构建单元,用于构建包括第二预设数量的原始信息的模型评估推荐池;
第二标注结果获取单元,用于基于所述模型评估推荐池中的原始信息,分别利用所述训练后的知识获取模型进行知识内容提取,以获取第一模型评估结果,以及进行知识内容的人工标注,以获取人工标注结果;
模型获取单元,用于基于所述第一模型评估结果和所述人工标注结果确定性能参数值满足第一预设条件的知识获取模型。
在一些实施例中,所述第一构建单元具体用于:
从至少两个信息数据集中分别获取预设数量的原始信息,以得到包括第二预设数量的原始信息的模型评估推荐池,各信息数据集对应的预设数量之和等于所述第二预设数量;
所述模型获取单元具体用于:
基于所述第一模型评估结果和所述人工标注结果,确定所述知识获取模型从不同的信息数据集提取知识内容的性能参数值满足第一预设条件。
在一些实施例中,所述第一执行模块包括:
第二构建单元,用于构建包括第三预设数量的原始信息的模型评估推荐池;
第三标注结果获取单元,用于利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果。
在一些实施例中,所述第二执行模块包括:
第四标注结果获取单元,用于基于所述模型评估推荐池中的原始信息,利用已训练的知识获取模型进行知识内容提取,以获取第二模型评估结果;
模型重训练单元,用于基于所述第一标注结果和所述第二模型评估结果确定所述知识获取模型的性能参数值不满足第一预设条件时,利用所述第一标注结果继续对所述知识获取模型进行重新训练;
第二构建单元还用于重新构建所述模型评估推荐池,第四标注结果获取单元还用于利用重新训练的所述知识获取模型进行知识内容提取,以获取第二模型评估结果,直到所述性能参数值满足第一预设条件。
在一些实施例中,所述第三标注结果获取单元具体用于:
按照原始信息为单位,分批次利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果,每批次人工标注第四预设数量的原始信息;
所述模型重训练单元具体用于:
在分批次利用人工标注所述模型评估推荐池中的原始信息的数量满足第五预设数量时,利用所述第一标注结果继续对所述知识获取模型进行重新训练。
在一些实施例中,所述第三任务执行模板具体用于:
在分批次利用人工标注所述模型评估推荐池中的原始信息,获得的所述第一标注结果和所述第二模型评估结果确定所述知识获取模型的性能参数值满足第一预设条件时,开始执行模型标注任务。
在一些实施例中,所述模型重训练单元具体用于:
在分批次利用人工标注所述模型评估推荐池中的原始信息的数量满足第五预设数量时,利用所述第一标注结果继续对所述知识获取模型进行重新训练。
在一些实施例中,所述第二构建单元还具体用于:
在所述模型评估推荐池中未进行人工标注的原始信息的数量小于第六预设数量时,重新获取原始信息以加入到所述模型评估推荐池,以使得所述模型评估推荐池中的原始信息的数量达到第四预设数量。
在一些实施例中,所述第三任务执行模板包括:
第三构建单元,用于构建包括第七预设数量的原始信息的第二原始信息推荐池;
内容提取单元,用于基于所述知识获取模型从所述第二原始信息推荐池提取知识内容;
问题生成模块,用于基于所述知识内容生成待确认的问题;
问题推送模块,用于向用户推送所述待确认的问题,以获取用户针对所述待确认的问题的作答结果;
标注结果生成单元,用于基于所述作答结果生成第二标注结果。
在一些实施例中,所述问题推送模块具体用于:
按照原始信息为单位,依次向用户推送与每个原始信息关联的待确认的问题;
所述模型标注任务模块还包括:
优化训练模块,用于在所述第二标注结果对应的原始信息的数量达到第八预设数量时,基于所述第二标注结果对所述知识获取模型进行优化训练;
所述第三构建单元,还用于重新构建所述第七预设数量的原始信息的第二原始信息推荐池;
所述内容提取单元,还用于利用优化训练后的知识获取模型重新从所述第二原始信息推荐池提取知识内容。
在一些实施例中,所述第三构建单元,还用于在所述第二原始信息推荐池中除所述第二标注结果对应的原始信息的数量小于第九预设数量时,重新提取原始信息以加入到第二原始信息推荐池中;
所述内容提取单元,还用于利用所述知识获取模型从所述第九预设数量的原始信息中提取知识内容。
在一些实施例中,所述第三任务执行模板具体用于:
在所述知识获取模型的性能参数值满足第二预设条件时,直接将从第二原始信息推荐池中提取的知识内容作为第二标注结果。
在一些实施例中,所述第四任务执行模板具体用于:
基于所述第一标注结果和所述第二标注结果构建知识图谱或进行神经网络模型训练。
在一些实施例中,所述原始信息包括原始文本信息、原始图片信息或原始视频信息。本公开实施例第三个方面提供了一种计算机装置,该计算机装置包括:
处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。
本公开实施例第四个方面提供了一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现上述任意一项所述方法的步骤。
本公开实施例提供的技术方案,将人工标注任务、模型训练任务和模型标注任务设置为高优先级任务,而将标注结果运用任务设置低优先级任务,上述设置过程主要考虑到了各任务执行之间的关系,保证知识内容标注任务的全流程顺利进行,同时各任务的运行时间能够在逻辑上相互衔接,优先运行与主流程相关的人工标注任务、模型训练任务和模型标注任务,以促使不但对知识获取模型进行模型优化,并利用训练优化后的知识获取模型应用到模型标注过程中获取第二标注结果,上述高优先级任务在运行时会尽可能的多分配计算资源,而对于低优先级任务通常不会被高优先级任务杀掉,只是在运行时会被高优先升级任务插队,能够保证在无高优先级任务时,及时进行上述第一标注结果和第二标注结果的运用。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中一种标注任务的调度方法的流程示意图;
图2为本公开实施例中冷启动阶段的流程示意图;
图3为本公开实施例中有模型阶段的流程示意图;
图4为本公开实施例中模型标注任务的流程示意图;
图5为本公开实施例中一种标注任务的调度装置的结构示意图;
图6为本公开实施例中冷启动阶段的功能结构示意图;
图7为本公开实施例中有模型阶段的功能结构示意图;
图8为本公开实施例中模型标注任务模块的功能结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
第一方面,本公开实施例提供了一种标注任务的调度方法,在本调度方法中,其中的标注任务包括人工标注任务和模型标注任务两个标注方式,上述两种方式相相结合,共同完成知识内容的标注。
具体的,其中的人工标注任务主要是对原始信息进行知识内容的人工标注,生成第一标注结果,该方法可以是预先构建第一原始材料推荐池,然后对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;模型标注任务是通过预先构建第二原始材料推荐池,然后利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于知识内容生成第二标注结果,其中在执行人工标注和模型标注任务之间还设置有模型任务,该模型训练任务主要是利用人工标注任务得到的第一标注结果度对知识获取模型进行训练的过程。图1为本公开实施例中一种标注任务的调度方法的流程示意图,如图1所示,包括如下的步骤:
步骤101、执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;
具体的,本步骤中第一原始信息推荐池中的原始信息,可以包括多种形式,例如是原始文本信息、原始图片信息或原始视频信息。且该人工标注过程,通常是由业务专家进行,即将上述原始信息推送给业务专家,接收业务专家反馈的知识内容。对于该步骤中得到的第一标注结果,一方面可以用于训练知识获取模型,该知识获取模型可以继续进行模型标注,二方面可以进行知识内容的运用,即用来作为其他神经网络模型训练的样本数据,或者是在知识图谱应用场景中,用于构建知识图谱。
步骤102、执行模型训练任务,以基于第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型;
在本步骤中的满足第一预设条件,可以是为性能参数值设置预设阈值,例如0.3,在性能参数值达到预设阈值时,即为满足第一预设条件,本步骤中在进行性能参数值是否满足第一预设条件的判断时,也可能会使用人工标注的方式获取第一标注结果,以及利用知识获取模型获取模型标注结果,然后基于上述第一标注结果和模型标注结果判断性能参数值。
步骤103、执行模型标注任务,以利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于知识内容生成第二标注结果;
具体的,本步骤中的提取知识内容,并基于知识内容生成第二标注结果可以包括两种情况,其中一种情况是可以利用知识获取模型获取的展示内容,直接作为第二标注结果,并可以针对第二标注结果进行运用,此时需要确认知识获取模型的性能参数值满足第二预设条件,即可以是达到了某一个较高的预设阈值,例如0.5;另一种情况是,需要基于知识内容生成待确认的问题,然后将待确认的问题推送给用户进行人工确认,以获得人工确认的知识内容,此时需要基于用户的作答结果生成第二标注结果,这是一种模型标注+人工确认的技术方案。
步骤104、执行标注结果运用任务,以基于第一标注结果和第二标注结果进行知识内容的运用;
本步骤中,是基于步骤101获得的第一标注结果和步骤103中获得的第二标注结果进行知识内容的运用,即可以包括利用知识内容进行其他神经网络模型训练,或者是,构建知识图谱等运用方式,在有些情况下,步骤102中也会生成第一标注结果。
在本公开实施例中对上述步骤101-步骤104的任务进行任务调度时,可以将步骤104中标注结果运用任务的调度优先级设置的低于其他步骤中执行的人工标注任务、模型训练任务和模型标注任务中任意一个的调度优先级。即将人工标注任务、模型训练任务和模型标注任务设置为高优先级任务,而将标注结果运用任务设置低优先级任务,上述设置过程主要考虑到了各任务执行之间的关系,保证知识内容标注任务的全流程顺利进行,同时各任务的运行时间能够在逻辑上相互衔接,优先运行与主流程相关的人工标注任务、模型训练任务和模型标注任务,以促使不但对知识获取模型进行模型优化,并利用训练优化后的知识获取模型应用到模型标注过程中获取第二标注结果,上述高优先级任务在运行时会尽可能的多分配计算资源,而对于低优先级任务通常不会被高优先级任务杀掉,只是在运行时会被高优先升级任务插队,能够保证在无高优先级任务时,及时进行上述第一标注结果和第二标注结果的运用。
针对上述步骤101中的执行人工标注任务,其也可以分为两种情况,第一种情况是指在还未得到知识获取模型的阶段,即可以称为冷启动阶段,该情况是指知识内容标注任务的起始阶段,此时会输入全新的信息数据集,且该信息数据中包括了原始信息,此时需要对信息数据集进行人工标注得到第一标注结果,并基于第一标注结果对知识获取模型进行训练;第二种情况是已有知识获取模型,并且该知识获取模型已进行初步训练,此时如果遇到新加入的信息数据集,或者已有的信息数据集在利用知识获取模型提取知识内容时,性能参数值仍达不满足第二预设条件,则会继续执行人工标注任务,以下分别对这两种情况进行介绍。
针对上述第一种情况,执行人工标注任务和模型训练任务的过程可以参考图2所示,该流程阶段也可以称为冷启动阶段。图2为本公开实施例中冷启动阶段的流程示意图,如图2所示,包括如下的步骤:
步骤201、对新上传的原始信息进行预处理,该预处理可以包括正则化处理、字典处理等处理方式,另外,上述原始信息可以是以信息数据集的形式进行上传。
步骤202、构建第一原始信息推荐池,具体的,可以是各个信息数据集中提取原始信息,然后将原始信息加入到上述第一原始信息推荐池中。
步骤203、向用户推送第一原始信息推荐池中第一预设数量的原始信息,并接收用户基于第一预设数量的原始信息反馈的知识内容,作为第一标注结果。
具体的,本步骤中的第一预设数量可以根据实际情况进行设定,例如可以设定为200篇,其中的用户可以是对知识内容标注比较专业的业务专家,进而本步骤生成的第一标注结果第一方面可以直接进行知识内容的运用,此时本步骤中已经进行人工标注的原始信息,则不会再用于后续标注过程;第二方面可以用作对知识获取模型进行训练,例如执行下述的步骤204。
步骤204、基于第一标注结果对知识获取模型进行模型训练,以获取训练后的知识获取模型;
本步骤中,其中的第一标注结果可以作为样本数据输入到知识获取模型中,对知识获取模型进行训练。
步骤205、构建包括第二预设数量的原始信息的模型评估推荐池;
针对步骤204中训练得到的知识获取模型,需要对其进行评估,本步骤中既是从提取原始信息构建模型评估推荐池,例如,可以构建具有500篇原始信息的推荐池。此时在原始信息来源于多个信息数据集时,可以从至少两个信息数据集中分别获取预设数量的原始信息,以得到包括第二预设数量的原始信息的模型评估推荐池,各信息数据集对应的预设数量之和等于第二预设数量。具体的,可以从各个信息数据集中平均提取原始信息,以确保能够对知识获取模型在不同数据集上的表现进行评估,例如在两个信息数据集时,可以每个信息数据集提取250篇原始信息;而为了保证每个信息数据集的评估效果,可以确定每个信息数据集提取的原始信息数量不小于一个阈值,例如100篇。上述的具体数目仅仅是一个举例,还可以是其他数目的原始信息,但通过上述方式,可以构建出一个模型评估推荐池。
步骤206、基于模型评估推荐池中的原始信息,分别利用训练后的知识获取模型进行知识内容提取,以获取第一模型评估结果,以及进行知识内容的人工标注,以获取人工标注结果;基于第一模型评估结果和人工标注结果确定性能参数值满足第一预设条件的知识获取模型。
具体的,对于上述获取的模型评估推荐池中的500篇原始信息,可以利用训练后的知识获取模型进行内容提取,以获得第一模型评估结果;同时,也会针对该500篇原始信息进行人工标注,以获得人工标注结果,通过上述的第一模型评估结果和人工标注结果进行对比,即可以得到其性能参数值,并判断其是否满足第一预设条件。具体的,可以模型评估推荐池中的部分原始信息进行性能评估,例如先利用100篇原始信息获取第一模型评估结果和人工标注结果后,即可以进行判断,此时如果性能参数值已经满足第一预设条件,就可以认为知识获取模型可以用作模型标注,即可以进入到模型标注+人工确认的任务阶段;而在通过上述100篇原始信息仍不能够满足第一预设条件时,则会利用第一标注结果继续进行模型训练,并基于训练后的模型,继续利用模型评估推荐池中的原始信息评估其性能参数值是否满足第一预设条件。如果利用模型评估推荐池中的500篇原始信息仍不能够得到满足第一预设条件的知识获取模型,则会从步骤202开始,重新构建第一原始信息推荐池,并基于该第一原始信息推荐池进行人工标注和模型训练。
在本公开实施例中会不断进行人工标注,以得到第一标注结果,使得后续进行模型训练时能够使用的样本数据也会不但增加,本公开实施例中可以设置一个阈值,即最多利用N篇原始信息对应的第一标注结果进行模型训练,N的取值可以为100000;此时,若累积了N篇以上的原始信息对应的第一标注结果,则可以使用时间上最近的N篇原始信息对应的第一标注结果进行模型训练。
另外,在上述获取的原始信息来源于不同的信息数据集时,一方面在本步骤中的性能参数值也是会区分不同的信息数据集的,此时也会存在部分信息数据集的性能参数值能够满足第一预设条件,而部分信息数据集的性能参数值不能够满足第一预设条件的情况,此时是基于第一模型评估结果和人工标注结果确定知识获取模型从不同的信息数据集提取知识内容的性能参数值满足第一预设条件。
步骤207、执行模型标注;
本步骤的详细介绍将在后续实施例中进行说明。
针对上述第二种情况,执行人工标注任务和模型训练任务的过程可以参考图3所示,该流程阶段也可以称为有模型阶段。图3为本公开实施例中有模型阶段的流程示意图,如图3所示,包括如下的步骤:
步骤301、对新上传的原始信息进行预处理,该预处理可以包括正则化处理、字典处理等处理方式,另外,上述原始信息可以是以信息数据集的形式进行上传。
步骤302、构建包括第三预设数量的原始信息的模型评估推荐池;
本步骤中,第三预设数量的具体数值可以根据实际情况进行设定,例如可以设定为500篇。
步骤303、利用人工标注模型评估推荐池中的原始信息的知识内容,以作为第一标注结果。
具体的,可以进行分批次进行人工标注,即可以按照原始信息为单位,分批次利用人工标注模型评估推荐池中的原始信息的知识内容,以作为第一标注结果,每批次人工标注第四预设数量的原始信息。例如,可以每批次标注20篇原始信息,即每次从模型评估推荐池中取出20篇原始信息进行人工标注,以获取知识内容,并作为第一标注结果,对于该第一标注结果,一方面可以进行知识内容的运用,二方面可以用于对知识获取模型的性能参数值进行判断,以及在知识获取模型的性能参数值达不到第一预设条件时,还可以用于重新对知识获取模型进行训练。
步骤304、基于模型评估推荐池中的原始信息,利用已训练的知识获取模型进行知识内容提取,以获取第二模型评估结果;
本步骤的执行过程,可以是和步骤303同时执行,也可以在步骤303之前执行,针对有知识获取模型的情况下,利用其从模型评估推荐池中提取知识内容。
步骤305、基于第一标注结果和第二模型评估结果确定知识获取模型的性能参数值不满足第一预设条件时,利用所述第一标注结果继续对所述知识获取模型进行重新训练;
本步骤305的执行过程,可以包括两个子步骤,即包括步骤3051和步骤3052:
步骤3051、根据步骤303中得到第一标注结果,以及步骤304中得到的第二模型评估结果确定是否满足第一预设条件;
步骤3052、在确定不满足第一预设条件时,利用第一标注结果继续对知识获取模型进行重新训练。
针对步骤303中分批次进行人工标注的技术方案,则上述步骤3051中是针对每个批次都会确定是否满足第一预设条件,但并不会在不满足第一预设条件时就直接执行步骤3052的步骤,而是会增加步骤3053,该步骤3053主要是判断完成人工标注的原始信息的数量是否满足第五预设数量,例如该第五预设数量是200篇,如果没有达到200篇,则会继续分批次进行人工标注,如果达到200篇,则会执行步骤3052,利用第一标注结果继续对知识获取模型进行重新训练。
步骤306、重新构建模型评估推荐池。
本步骤中重新构建的模型评估推荐池中的原始信息,也可以来源于不同的数据集。另外在重新构建模型评估推荐池的基础上,还可以新一步采用步骤304中的实施方式,利用重新训练的知识获取模型进行知识内容提取,以获取第二模型评估结果,该第二模型评估结果会应用到上述的步骤305中,会综合第一标注结果进行直到所述性能参数值满足第一预设条件。在构建模型评估推荐池的过程中,如果对于不同的信息数据集,知识获取模型从中提取知识内容的性能参照值也有所不同,则可以优先从性能参数值较低的信息数据集中提取原始信息,对于新上传的信息数据集,其性能参数值可以设置为0。
步骤307、开始执行模型标注任务;
本步骤主要是在上述步骤3051中确定性能参数值满足第一预设条件时,则执行的步骤,对于模型标注任务的具体执行过程将下述实施例中进行详细说明。并且针对3051中确定性能参数值满足第一预设条件时,还可以执行下述的步骤308。
步骤308、继续判断人工标注的原始信息的数量是否满足第五预设数量,并在分批次利用人工标注模型评估推荐池中的原始信息的数量满足第五预设数量时,利用第一标注结果继续对知识获取模型进行重新训练。本步骤主要是考虑到人工标注结果其准确性的各方面的性能参数都相对较好,此时用来对知识获取模型进行训练,也能够提高知识获取模型的性能参数值。
另外,在本公开实施例中会不断进行人工标注,以得到第一标注结果,使得后续进行模型训练时能够使用的样本数据也会不但增加,本公开实施例中可以设置一个阈值,即最多利用N篇原始信息对应的第一标注结果进行模型训练,N的取值可以为100000;此时,若累积了N篇以上的原始信息对应的第一标注结果,则可以使用时间上最近的N篇原始信息对应的第一标注结果进行模型训练。
在一些实施例中,如果已经启动模型标注任务,则模型标注任务中确定的标注结果也可以用来进行模型训练。
步骤309、判断模型评估推荐池中未进行人工标注的原始信息的数量,并在模型评估推荐池中未进行人工标注的原始信息的数量小于第六预设数量时,重新获取原始信息以加入到模型评估推荐池,以使得模型评估推荐池中的原始信息的数量达到第四预设数量。
本步骤是在上述步骤303中分批次从模型评估推荐池中提取原始信息进行人工标注的情况下,需要判断模型评估推荐池中是否还有足够的原始信息,具体的,上述第六预设数量,可以设置为250篇原始信息,在低于上述数值时,添加新的原始信息直到达到500篇。
在执行完上述实施例提供的人工标注任务和模型训练任务后,可以根据模型训练得到的性能参数值满足第一预设条件的知识获取模型进行模型标注任务。图4为本公开实施例中模型标注任务的流程示意图,如图4所示,包括如下步骤:
步骤401、构建包括第七预设数量的原始信息的第二原始信息推荐池;
本步骤中的第七预设数量可以根据实际需求进行设置,例如可以设置为5000篇原始信息。
步骤402、基于知识获取模型从第二原始信息推荐池提取知识内容;
本步骤中,在第二原始信息推荐池中包括多篇原始信息,本步骤即是从上述的原始信息中提取知识内容,对于提取得到的知识内容,可以按照所来源的原始信息进行存储,以利于后续按照原始信息为单位,依次生成向用户推送的与每个原始信息关联的待确认的问题。
步骤403、基于知识内容生成待确认的问题;
本步骤中,是针对步骤402中提取的知识内容,生成待确认的问题,具体的,针对知识图谱的应用场景中,例如提取的知识内容是一个城市“白银”,则可以生成待确认的问题“白银是一个城市吗?”。
404、向用户推送待确认的问题,以获取用户针对待确认的问题的作答结果;
本步骤中,是在上述步骤获取的待确认的问题的基础上,通过预设的推送通道发送给用户进行作答,其中只需要用户对上述的问题反馈确认、否认或不确定的结果即可,答复难度相对较低,从容不要对知识内容标注具有很多专业知识的专家,所以具有容易推广的优点,其中预设的推送通道也可以包括多种形式。
步骤405、基于作答结果生成第二标注结果。
在上述获取到用户的作答结果后,可以基于用户的作答结果获得确认的知识内容,并将确认的知识内容作为第二标注结果。
本公开实施例中,上述步骤402可以是按照原始信息为单位,依次向用户推送与每个原始信息关联的待确认的问题,即依次针对每篇原始信息中的知识内容进行确认,还可以进一步包括如下步骤:
步骤406、在第二标注结果对应的原始信息的数量达到第八预设数量时,基于第二标注结果对所述知识获取模型进行优化训练;
本步骤中,其中的第八预设数量可以设置为20篇,在第二标注结果对应的原始信息的数量达到20篇时,利用该20篇原始信息中确认的知识内容进行优化训练。
在对模型进行优化训练后,可以进一步的执行上述的步骤401重新构建第七预设数量的原始信息的第二原始信息推荐池;以及执行上述步骤402,利用优化训练后的知识获取模型重新从第二原始信息推荐池提取知识内容,进而再次基于知识内容生成待确认的问题,并推送给用户去确认。
本公开实施例中,其中在步骤403可以是按照原始信息为单位,依次向用户推送与每个原始信息关联的待确认的问题,即依次针对每篇原始信息中的知识内容进行确认,此时由于初始阶段,在步骤401中构建第二原始信息推荐池时提取的原始信息的数量为5000篇,若已经人工确认的较多,则可以添加更多的原始信息到第二原始信息推荐池中,即还可以包括如下步骤:
步骤407、在第二原始信息推荐池中除第二标注结果对应的原始信息的数量小于第九预设数量时,重新提取原始信息以加入到第二原始信息推荐池中;例如在原始信息的数量小于2000篇时,重新提取1000篇原始信息加入到第二原始信息推荐池中。
在将上述的原始信息加入到第二原始信息推荐池中后,可以继续在步骤402,利用知识获取模型从第九预设数量的原始信息中提取知识内容。
本公开上述实施例中执行的模型标注任务,其实质上是由模型标注得到知识内容,然后再生成待确认的问题进行人工确认的过程,可以概括为一种模型标注+人工确认的执行方式。
在一些实施例中,除了执行上述的模型标注任务外,还可以在知识获取模型的性能参数值满足第二预设条件时,直接将从第二原始信息推荐池中提取的知识内容作为第二标注结果。本实施例中的第二预设条件一般会比第一预设条件的要求更加严格,例如在某些实施例中,可以设置第一预设条件为预设阈值等于0.3,而此时第二预设条件可以设置为预设阈值等于0.5,此时通过对知识获取模型的性能参数值进行判断,确定其满足更加严格的第二预设条件,则可以对提取的知识内容,不再生成待确认的问题以执行上述人工确认的过程,而是直接将知识获取模型提取的知识内容作为第二标注结果。此时可以按照各数据集的性能参数值的高低,按照从高到低的顺序,每次获取预设数量的原始信息,例如1000篇原始信息,并由知识获取模型从该1000篇原始信息中直接进行知识内容提取,将提取的知识内容作为第二标注结果进行运用
本公开上述图1-图4所示实施例中,其中在人工标注任务的执行阶段,或者在模型训练任务的执行阶段,都利用人工标注方式获得了第一标注结果,以及在模型标注任务的执行阶段,通过人工确认或者模型直接标注的方式获得了第二标注结果,针对上述的第一标注结果和第二标注结果,都可以进行后续对应知识内容的运用,例如在知识图谱应用场景下,基于上述第一标注结果和第二标注结果构建知识图谱,或者是神经网络模型训练场景下,基于上述第一标注结果和第二标注结果构建知识图谱进行神经网络模型训练。
第二方面,本公开实施例提供了一种标注任务的调度装置,在本调度装置中,其中的标注任务包括人工标注任务和模型标注任务两个标注方式,上述两种方式相相结合,共同完成知识内容的标注。
具体的,其中的人工标注任务主要是对原始信息进行知识内容的人工标注,生成第一标注结果,该方法可以是预先构建第一原始材料推荐池,然后对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;模型标注任务是通过预先构建第二原始材料推荐池,然后利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于知识内容生成第二标注结果,其中在执行人工标注和模型标注任务之间还设置有模型任务,该模型训练任务主要是利用人工标注任务得到的第一标注结果度对知识获取模型进行训练的过程。图5为本公开实施例中一种标注任务的调度装置的结构示意图,如图5所示,包括人工标注任务模块11、模型训练任务模块12、模型标注任务模块13和结果运用任务模块14。
人工标注任务模块11用于执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;
具体的,本步骤中第一原始信息推荐池中的原始信息,可以包括多种形式,例如是原始文本信息、原始图片信息或原始视频信息。且该人工标注过程,通常是由业务专家进行,即将上述原始信息推送给业务专家,接收业务专家反馈的知识内容。对于该步骤中得到的第一标注结果,一方面可以用于训练知识获取模型,该知识获取模型可以继续进行模型标注,二方面可以进行知识内容的运用,即用来作为其他神经网络模型训练的样本数据,或者是在知识图谱应用场景中,用于构建知识图谱。
模型训练任务模块12用于执行模型训练任务,以基于第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型;
在本步骤中的满足第一预设条件,可以是为性能参数值设置预设阈值,例如0.3,在性能参数值达到预设阈值时,即为满足第一预设条件,本步骤中在进行性能参数值是否满足第一预设条件的判断时,也可能会使用人工标注的方式获取第一标注结果,以及利用知识获取模型获取模型标注结果,然后基于上述第一标注结果和模型标注结果判断性能参数值。
模型标注任务模块13用于执行模型标注任务,以利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于知识内容生成第二标注结果;
具体的,本步骤中的提取知识内容,并基于知识内容生成第二标注结果可以包括两种情况,其中一种情况是可以利用知识获取模型获取的展示内容,直接作为第二标注结果,并可以针对第二标注结果进行运用,此时需要确认知识获取模型的性能参数值满足第二预设条件,即可以是达到了某一个较高的预设阈值,例如0.5;另一种情况是,需要基于知识内容生成待确认的问题,然后将待确认的问题推送给用户进行人工确认,以获得人工确认的知识内容,此时需要基于用户的作答结果生成第二标注结果,这是一种模型标注+人工确认的技术方案。
结果运用任务模块14用于执行标注结果运用任务,以基于第一标注结果和第二标注结果进行知识内容的运用;
本步骤中,是基于人工标注任务模块11获得的第一标注结果和模型标注任务模块13中获得的第二标注结果进行知识内容的运用,即可以包括利用知识内容进行其他神经网络模型训练,或者是,构建知识图谱等运用方式,在有些情况下,模型训练任务模块12中也会生成第一标注结果。
在本公开实施例中对上述各模块进行的任务进行任务调度时,可以将结果运用任务模块14中标注结果运用任务的调度优先级设置的低于其他步骤中执行的人工标注任务、模型训练任务和模型标注任务中任意一个的调度优先级。即将人工标注任务、模型训练任务和模型标注任务设置为高优先级任务,而将标注结果运用任务设置低优先级任务,上述设置过程主要考虑到了各任务执行之间的关系,保证知识内容标注任务的全流程顺利进行,同时各任务的运行时间能够在逻辑上相互衔接,优先运行与主流程相关的人工标注任务、模型训练任务和模型标注任务,以促使不但对知识获取模型进行模型优化,并利用训练优化后的知识获取模型应用到模型标注过程中获取第二标注结果,上述高优先级任务在运行时会尽可能的多分配计算资源,而对于低优先级任务通常不会被高优先级任务杀掉,只是在运行时会被高优先升级任务插队,能够保证在无高优先级任务时,及时进行上述第一标注结果和第二标注结果的运用。
针对上述人工标注任务模块11中的执行人工标注任务,其也可以分为两种情况,第一种情况是指在还未得到知识获取模型的阶段,即可以称为冷启动阶段,该情况是指知识内容标注任务的起始阶段,此时会输入全新的信息数据集,且该信息数据中包括了原始信息,此时需要对信息数据集进行人工标注得到第一标注结果,并基于第一标注结果对知识获取模型进行训练;第二种情况是已有知识获取模型,并且该知识获取模型已进行初步训练,此时如果遇到新加入的信息数据集,或者已有的信息数据集在利用知识获取模型提取知识内容时,性能参数值仍达不满足第二预设条件,则会继续执行人工标注任务,以下分别对这两种情况进行介绍。
针对上述第一种情况,人工标注任务模块11和模型训练任务模块的结构可以参考图6所示,第一种情况所处理的流程阶段也可以称为冷启动阶段。图6为本公开实施例中冷启动阶段的功能结构示意图,如图6所示,包括人工标注任务模块具体包括:
预处理单元21,用于对新上传的原始信息进行预处理,该预处理可以包括正则化处理、字典处理等处理方式,另外,上述原始信息可以是以信息数据集的形式进行上传。
第一构建单元22,用于构建第一原始信息推荐池,具体的,可以是各个信息数据集中提取原始信息,然后将原始信息加入到上述第一原始信息推荐池中。
第一标注结果获取单元23,用于向用户推送第一原始信息推荐池中第一预设数量的原始信息,并接收用户基于第一预设数量的原始信息反馈的知识内容,作为第一标注结果。
具体的,本步骤中的第一预设数量可以根据实际情况进行设定,例如可以设定为200篇,其中的用户可以是对知识内容标注比较专业的业务专家,进而本步骤生成的第一标注结果第一方面可以直接进行知识内容的运用,此时本步骤中已经进行人工标注的原始信息,则不会再用于后续标注过程;第二方面可以用作对知识获取模型进行训练,例如模型训练任务模块包括:
模型训练单元24,用于基于第一标注结果对知识获取模型进行模型训练,以获取训练后的知识获取模型;其中的第一标注结果可以作为样本数据输入到知识获取模型中,对知识获取模型进行训练。
第二构建单元25,用于构建包括第二预设数量的原始信息的模型评估推荐池;
针对模型训练单元24训练得到的知识获取模型,需要对其进行评估,本单元中是从提取原始信息构建模型评估推荐池,例如,可以构建具有500篇原始信息的推荐池。此时在原始信息来源于多个信息数据集时,可以从至少两个信息数据集中分别获取预设数量的原始信息,以得到包括第二预设数量的原始信息的模型评估推荐池,各信息数据集对应的预设数量之和等于第二预设数量。具体的,可以从各个信息数据集中平均提取原始信息,以确保能够对知识获取模型在不同数据集上的表现进行评估,例如在两个信息数据集时,可以每个信息数据集提取250篇原始信息;而为了保证每个信息数据集的评估效果,可以确定每个信息数据集提取的原始信息数量不小于一个阈值,例如100篇。上述的具体数目仅仅是一个举例,还可以是其他数目的原始信息,但通过上述方式,可以构建出一个模型评估推荐池。
第二标注结果获取单元26,用于基于模型评估推荐池中的原始信息,分别利用训练后的知识获取模型进行知识内容提取,以获取第一模型评估结果,以及进行知识内容的人工标注,以获取人工标注结果;基于第一模型评估结果和人工标注结果确定性能参数值满足第一预设条件的知识获取模型。
具体的,对于上述获取的模型评估推荐池中的500篇原始信息,可以利用训练后的知识获取模型进行内容提取,以获得第一模型评估结果;同时,也会针对该500篇原始信息进行人工标注,以获得人工标注结果,通过上述的第一模型评估结果和人工标注结果进行对比,即可以得到其性能参数值,并判断其是否满足第一预设条件。具体的,可以模型评估推荐池中的部分原始信息进行性能评估,例如先利用100篇原始信息获取第一模型评估结果和人工标注结果后,即可以进行判断,此时如果性能参数值已经满足第一预设条件,就可以认为知识获取模型可以用作模型标注,即可以进入到模型标注+人工确认的任务阶段;而在通过上述100篇原始信息仍不能够满足第一预设条件时,则会利用第一标注结果继续进行模型训练,并基于训练后的模型,继续利用模型评估推荐池中的原始信息评估其性能参数值是否满足第一预设条件。如果利用模型评估推荐池中的500篇原始信息仍不能够得到满足第一预设条件的知识获取模型,则会在第一构建单元22中,重新构建第一原始信息推荐池,并基于该第一原始信息推荐池进行人工标注和模型训练。
在本公开实施例中会不断进行人工标注,以得到第一标注结果,使得后续进行模型训练时能够使用的样本数据也会不但增加,本公开实施例中可以设置一个阈值,即最多利用N篇原始信息对应的第一标注结果进行模型训练,N的取值可以为100000;此时,若累积了N篇以上的原始信息对应的第一标注结果,则可以使用时间上最近的N篇原始信息对应的第一标注结果进行模型训练。
另外,在上述获取的原始信息来源于不同的信息数据集时,一方面在本步骤中的性能参数值也是会区分不同的信息数据集的,此时也会存在部分信息数据集的性能参数值能够满足第一预设条件,而部分信息数据集的性能参数值不能够满足第一预设条件的情况,此时是基于第一模型评估结果和人工标注结果确定知识获取模型从不同的信息数据集提取知识内容的性能参数值满足第一预设条件。
在上述第二标注结果获取单元26基于第一模型评估结果和人工标注结果确定性能参数值满足第一预设条件的知识获取模型后,可以由第三业务执行模块13进行模型标注,模型标注的具体内容将会下后续后续实施例中进行详细说明。
针对上述第二种情况,第一业务执行模块和第二业务执行模块可以参考图7所示,该流程阶段也可以称为有模型阶段。图7为本公开实施例中有模型阶段的功能结构示意图,如图7所示,第一业务执行模块包括:
预处理单元31,用于对新上传的原始信息进行预处理,该预处理可以包括正则化处理、字典处理等处理方式,另外,上述原始信息可以是以信息数据集的形式进行上传。
第三构建单元32,用于构建包括第三预设数量的原始信息的模型评估推荐池;
本单元中,第三预设数量的具体数值可以根据实际情况进行设定,例如可以设定为500篇。
第三标注结果获取单元33,用于利用人工标注模型评估推荐池中的原始信息的知识内容,以作为第一标注结果。
具体的,可以进行分批次进行人工标注,即可以按照原始信息为单位,分批次利用人工标注模型评估推荐池中的原始信息的知识内容,以作为第一标注结果,每批次人工标注第四预设数量的原始信息。例如,可以每批次标注20篇原始信息,即每次从模型评估推荐池中取出20篇原始信息进行人工标注,以获取知识内容,并作为第一标注结果,对于该第一标注结果,一方面可以进行知识内容的运用,二方面可以用于对知识获取模型的性能参数值进行判断,以及在知识获取模型的性能参数值达不到第一预设条件时,还可以用于重新对知识获取模型进行训练。具体的,该模型训练任务模块12,包括:
第四标注结果获取单元34,用于基于模型评估推荐池中的原始信息,利用已训练的知识获取模型进行知识内容提取,以获取第二模型评估结果;
本单元的执行过程,可以是和第三标注结果获取单元33同时执行,也可以在第三标注结果获取单元33之前执行,针对有知识获取模型的情况下,利用其从模型评估推荐池中提取知识内容。
模型重训练单元35,用于基于第一标注结果和第二模型评估结果确定知识获取模型的性能参数值不满足第一预设条件时,利用所述第一标注结果继续对所述知识获取模型进行重新训练;
模型重训练单元35,可以包括两个子步骤,即包括第一单元351和第二单元352:
第一单元351用于根据第三标注结果获取单元33中得到第一标注结果,以及第四标注结果获取单元34中得到的第二模型评估结果确定是否满足第一预设条件;
第二单元352用于在确定不满足第一预设条件时,利用第一标注结果继续对知识获取模型进行重新训练。
针对第三标注结果获取单元33中分批次进行人工标注的技术方案,则上述第一单元351中是针对每个批次都会确定是否满足第一预设条件,但并不会在不满足第一预设条件时就直接由第二单元352执行其功能,同时还可以增加第三单元353,该第三单元353主要是用于判断完成人工标注的原始信息的数量是否满足第五预设数量,例如该第五预设数量是200篇,如果没有达到200篇,则会继续分批次进行人工标注,如果达到200篇,则会由第二单元352进行处理,利用第一标注结果继续对知识获取模型进行重新训练。
上述第三构建单元32,还用于重新构建模型评估推荐池。
本步骤中重新构建的模型评估推荐池中的原始信息,也可以来源于不同的数据集。另外在重新构建模型评估推荐池的基础上,还可以新一步采用第四标注结果获取单元34的实施方式,利用重新训练的知识获取模型进行知识内容提取,以获取第二模型评估结果,该第二模型评估结果会应用到上述的模型重训练单元35中,会综合第一标注结果进行直到所述性能参数值满足第一预设条件。在构建模型评估推荐池的过程中,如果对于不同的信息数据集,知识获取模型从中提取知识内容的性能参照值也有所不同,则可以优先从性能参数值较低的信息数据集中提取原始信息,对于新上传的信息数据集,其性能参数值可以设置为0。
在上述基础上,模型标注任务模块13可以开始执行模型标注任务;
具体的,主要是在上述第一单元351中确定性能参数值满足第一预设条件时,则模型标注任务模块13执行模型标注,对于模型标注任务的具体执行过程将下述实施例中进行详细说明。并且针对第一单元351中确定性能参数值满足第一预设条件时,模型重训练单元35还用于继续判断人工标注的原始信息的数量是否满足第五预设数量,并在分批次利用人工标注模型评估推荐池中的原始信息的数量满足第五预设数量时,利用第一标注结果继续对知识获取模型进行重新训练。本步骤主要是考虑到人工标注结果其准确性的各方面的性能参数都相对较好,此时用来对知识获取模型进行训练,也能够提高知识获取模型的性能参数值。
在本公开实施例中会不断进行人工标注,以得到第一标注结果,使得后续进行模型训练时能够使用的样本数据也会不但增加,本公开实施例中可以设置一个阈值,即最多利用N篇原始信息对应的第一标注结果进行模型训练,N的取值可以为100000;此时,若累积了N篇以上的原始信息对应的第一标注结果,则可以使用时间上最近的N篇原始信息对应的第一标注结果进行模型训练。
在一些实施例中,如果已经启动模型标注任务,则模型标注任务中确定的标注结果也可以用来进行模型训练。
上述的第三构建单元32,还用于判断模型评估推荐池中未进行人工标注的原始信息的数量,并在模型评估推荐池中未进行人工标注的原始信息的数量小于第六预设数量时,重新获取原始信息以加入到模型评估推荐池,以使得模型评估推荐池中的原始信息的数量达到第四预设数量。
具体的,是在上述第三标注结果获取单元33中分批次从模型评估推荐池中提取原始信息进行人工标注的情况下,需要判断模型评估推荐池中是否还有足够的原始信息,具体的,上述第六预设数量,可以设置为250篇原始信息,在低于上述数值时,添加新的原始信息直到达到500篇。
上述实施例中,对人工标注任务模块11和模型训练任务模块12的功能结构进行了说明,其中根据模型训练得到的性能参数值满足第一预设条件的知识获取模型后,即可以由模型标注任务模块13进行模型标注任务。图8为本公开实施例中模型标注任务模块的功能结构示意图,如图8所示,包括如下结构:
第四构建单元41,用于构建包括第七预设数量的原始信息的第二原始信息推荐池;
本单元中的第七预设数量可以根据实际需求进行设置,例如可以设置为5000篇原始信息。
内容提取单元42,用于基于知识获取模型从第二原始信息推荐池提取知识内容;
本单元中,在第二原始信息推荐池中包括多篇原始信息,本步骤即是从上述的原始信息中提取知识内容,对于提取得到的知识内容,可以按照所来源的原始信息进行存储,以利于后续按照原始信息为单位,依次生成向用户推送的与每个原始信息关联的待确认的问题。
问题生成单元43,用于基于知识内容生成待确认的问题;
本单元中,是针对内容提取单元42中提取的知识内容,生成待确认的问题,具体的,针对知识图谱的应用场景中,例如提取的知识内容是一个城市“白银”,则可以生成待确认的问题“白银是一个城市吗?”。
问题推送单元44,用于向用户推送待确认的问题,以获取用户针对待确认的问题的作答结果;
本单元中,是在上述步骤获取的待确认的问题的基础上,通过预设的推送通道发送给用户进行作答,其中只需要用户对上述的问题反馈确认、否认或不确定的结果即可,答复难度相对较低,从容不要对知识内容标注具有很多专业知识的专家,所以具有容易推广的优点,其中预设的推送通道也可以包括多种形式。
标注结果生成单元45,用于基于作答结果生成第二标注结果。
在上述获取到用户的作答结果后,可以基于用户的作答结果获得确认的知识内容,并将确认的知识内容作为第二标注结果。
本公开实施例中,上述内容提取单元42可以是按照原始信息为单位,依次向用户推送与每个原始信息关联的待确认的问题,即依次针对每篇原始信息中的知识内容进行确认,还可以进一步包括:
优化训练单元46,用于在第二标注结果对应的原始信息的数量达到第八预设数量时,基于第二标注结果对知识获取模型进行优化训练;
本步骤中,其中的第八预设数量可以设置为20篇,在第二标注结果对应的原始信息的数量达到20篇时,利用该20篇原始信息中确认的知识内容进行优化训练。
在对模型进行优化训练后,可以进一步的由上述第四构建单元41重新构建第七预设数量的原始信息的第二原始信息推荐池;以及由上述内容提取单元42利用优化训练后的知识获取模型重新从第二原始信息推荐池提取知识内容,进而再次基于知识内容生成待确认的问题,并推送给用户去确认。
本公开实施例中,其中在问题生成单元43中可以是按照原始信息为单位,依次向用户推送与每个原始信息关联的待确认的问题,即依次针对每篇原始信息中的知识内容进行确认,此时由于初始阶段,在第四构建单元41中构建第二原始信息推荐池时提取的原始信息的数量为5000篇,若已经人工确认的较多,则可以添加更多的原始信息到第二原始信息推荐池中,即还可以包括如下步骤:
第四构建单元41,还用于在第二原始信息推荐池中除第二标注结果对应的原始信息的数量小于第九预设数量时,重新提取原始信息以加入到第二原始信息推荐池中;例如在原始信息的数量小于2000篇时,重新提取1000篇原始信息加入到第二原始信息推荐池中。
在将上述的原始信息加入到第二原始信息推荐池中后,可以继续在内容提取单元42中,利用知识获取模型从第九预设数量的原始信息中提取知识内容。
本公开上述实施例中执行的模型标注任务,其实质上是由模型标注得到知识内容,然后再生成待确认的问题进行人工确认的过程,可以概括为一种模型标注+人工确认的执行方式。
在一些实施例中,除了执行上述的模型标注任务外,还可以在知识获取模型的性能参数值满足第二预设条件时,直接将从第二原始信息推荐池中提取的知识内容作为第二标注结果。本实施例中的第二预设条件一般会比第一预设条件的要求更加严格,例如在某些实施例中,可以设置第一预设条件为预设阈值等于0.3,而此时第二预设条件可以设置为预设阈值等于0.5,此时通过对知识获取模型的性能参数值进行判断,确定其满足更加严格的第二预设条件,则可以对提取的知识内容,不再生成待确认的问题以执行上述人工确认的过程,而是直接将知识获取模型提取的知识内容作为第二标注结果。此时可以按照各数据集的性能参数值的高低,按照从高到低的顺序,每次获取预设数量的原始信息,例如1000篇原始信息,并由知识获取模型从该1000篇原始信息中直接进行知识内容提取,将提取的知识内容作为第二标注结果进行运用
本公开上述图5-图8所示实施例中,其中在人工标注任务的执行阶段,或者在模型训练任务的执行阶段,都利用人工标注方式获得了第一标注结果,以及在模型标注任务的执行阶段,通过人工确认或者模型直接标注的方式获得了第二标注结果,针对上述的第一标注结果和第二标注结果,都可以进行后续对应知识内容的运用,例如在知识图谱应用场景下,基于上述第一标注结果和第二标注结果构建知识图谱,或者是神经网络模型训练场景下,基于上述第一标注结果和第二标注结果构建知识图谱进行神经网络模型训练。
第三方面,本发明实施例提供了一种计算机装置,计算机装置包括:
处理器,处理器用于执行存储器中存储的计算机程序时实现如上述构建知识图谱的方法的步骤。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制计算机中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令,以实现上文的本申请的各个实施例的方法步骤以及/或者其他期望的功能。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现如上构建知识图谱的方法的步骤。
除了上述方法和装置以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种标注任务的调度方法,其特征在于,包括:
执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;
执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型;
执行模型标注任务,以利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于所述知识内容生成第二标注结果;
执行标注结果运用任务,以基于所述第一标注结果和所述第二标注结果进行所述知识内容的运用;
其中,所述标注结果运用任务的调度优先级低于所述人工标注任务、所述模型训练任务和所述模型标注任务中任意一个的调度优先级。
2.根据权利要求1所述的方法,其特征在于,所述执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果,包括:
构建第一原始信息推荐池;
向用户推送所述第一原始信息推荐池中第一预设数量的原始信息,并接收用户基于所述第一预设数量的原始信息反馈的知识内容,作为第一标注结果。
3.根据权利要求2所述的方法,其特征在于,所述执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型,包括:
基于所述第一标注结果对知识获取模型进行模型训练,以获取训练后的知识获取模型;
构建包括第二预设数量的原始信息的模型评估推荐池;
基于所述模型评估推荐池中的原始信息,分别利用所述训练后的知识获取模型进行知识内容提取,以获取第一模型评估结果,以及进行知识内容的人工标注,以获取人工标注结果;
基于所述第一模型评估结果和所述人工标注结果确定性能参数值满足第一预设条件的知识获取模型。
4.根据权利要求3所述的方法,其特征在于,所述构建包括第二预设数量的原始信息的模型评估推荐池,包括:
从至少两个信息数据集中分别获取预设数量的原始信息,以得到包括第二预设数量的原始信息的模型评估推荐池,各信息数据集对应的预设数量之和等于所述第二预设数量;
所述基于所述第一模型评估结果和所述人工标注结果确定性能参数值满足第一预设条件的知识获取模型,包括:
基于所述第一模型评估结果和所述人工标注结果,确定所述知识获取模型从不同的信息数据集提取知识内容的性能参数值满足第一预设条件。
5.根据权利要求1所述的方法,其特征在于,执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果,包括:
构建包括第三预设数量的原始信息的模型评估推荐池;
利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果。
6.根据权利要求5所述的方法,其特征在于,所述执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型,包括:
基于所述模型评估推荐池中的原始信息,利用已训练的知识获取模型进行知识内容提取,以获取第二模型评估结果;
基于所述第一标注结果和所述第二模型评估结果确定所述知识获取模型的性能参数值不满足第一预设条件时,利用所述第一标注结果继续对所述知识获取模型进行重新训练;
重新构建所述模型评估推荐池,并利用重新训练的所述知识获取模型进行知识内容提取,以获取第二模型评估结果,直到所述性能参数值满足第一预设条件。
7.根据权利要求6所述的方法,其特征在于,所述利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果,包括:
按照原始信息为单位,分批次利用人工标注所述模型评估推荐池中的原始信息的知识内容,以作为第一标注结果,每批次人工标注第四预设数量的原始信息;
所述基于第一标注结果和所述第二模型评估结果确定所述知识获取模型的性能参数值不满足第一预设条件时,利用所述第一标注结果继续对所述知识获取模型进行重新训练,包括:
在分批次利用人工标注所述模型评估推荐池中的原始信息的数量满足第五预设数量时,利用所述第一标注结果继续对所述知识获取模型进行重新训练。
8.一种标注任务的调度装置,其特征在于,包括:
人工标注任务模块,用于执行人工标注任务,以对第一原始信息推荐池中的原始信息进行知识内容的人工标注,生成第一标注结果;
模型训练任务模块,用于执行模型训练任务,以基于所述第一标注结果对知识获取模型进行模型训练,获得性能参数值满足第一预设条件的知识获取模型;
模型标注任务模块,用于执行模型标注任务,以利用所述知识获取模型从第二原始信息推荐池中提取知识内容,并基于所述知识内容生成第二标注结果;
结果运用任务模块,用于执行标注结果运用任务,以基于所述第一标注结果和所述第二标注结果进行所述知识内容的运用;
其中,所述标注结果运用任务的调度优先级低于所述人工标注任务、所述模型训练任务和所述模型标注任务中任意一个的调度优先级。
9.一种计算机装置,其特征在于,所述计算机装置包括:
处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1-7中任意一项所述方法的步骤。
CN202010753626.5A 2020-07-30 2020-07-30 标注任务的调度方法、装置和可读存储介质 Pending CN112036570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010753626.5A CN112036570A (zh) 2020-07-30 2020-07-30 标注任务的调度方法、装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010753626.5A CN112036570A (zh) 2020-07-30 2020-07-30 标注任务的调度方法、装置和可读存储介质

Publications (1)

Publication Number Publication Date
CN112036570A true CN112036570A (zh) 2020-12-04

Family

ID=73583625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010753626.5A Pending CN112036570A (zh) 2020-07-30 2020-07-30 标注任务的调度方法、装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN112036570A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端
CN110008353A (zh) * 2019-04-09 2019-07-12 福建奇点时空数字科技有限公司 一种动态知识图谱的构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
WO2020019252A1 (zh) * 2018-07-26 2020-01-30 深圳前海达闼云端智能科技有限公司 训练人工智能模型的方法、装置、存储介质及机器人

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端
WO2020019252A1 (zh) * 2018-07-26 2020-01-30 深圳前海达闼云端智能科技有限公司 训练人工智能模型的方法、装置、存储介质及机器人
CN110008353A (zh) * 2019-04-09 2019-07-12 福建奇点时空数字科技有限公司 一种动态知识图谱的构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法

Similar Documents

Publication Publication Date Title
JP6832867B2 (ja) 画像検証コードに基づいて画像を検証するための方法及び装置
CN110148400B (zh) 发音类型的识别方法、模型的训练方法、装置及设备
KR20200145827A (ko) 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체
CN111061867B (zh) 基于质量感知的文本生成方法、设备、存储介质及装置
CN106951298A (zh) 一种提升应用启动速度的方法和装置
CN110334214A (zh) 一种自动识别案件中虚假诉讼的方法
CN112990331A (zh) 图像处理方法、电子设备和存储介质
CN111527501A (zh) 芯片适配确定方法及相关产品
CN111524043A (zh) 诉讼风险评估问卷自动生成的方法和装置
CN113342942B (zh) 语料自动化获取方法、装置、计算机设备及存储介质
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN112036570A (zh) 标注任务的调度方法、装置和可读存储介质
CN112052316A (zh) 模型评估方法、装置、存储介质及电子设备
CN112447173A (zh) 语音交互方法、装置及计算机存储介质
CN114969544A (zh) 基于热点数据的推荐内容生成方法、装置、设备及介质
CN115331139A (zh) 一种视频场景多维度分类方法、装置、设备及存储介质
CN111522914B (zh) 标注数据采集方法、装置、电子设备及存储介质
CN113963306A (zh) 基于人工智能的课件片头制作方法和装置
CN112036569B (zh) 知识内容的标注方法、装置、计算机装置和可读存储介质
CN113485619B (zh) 信息收集表的处理方法、装置、电子设备及存储介质
CN117975942A (zh) 语音识别模型的训练方法、语音识别方法及相关装置
CN111611795A (zh) 一种自动化品牌形象分析方法和系统
CN114185962A (zh) 模型训练方法、装置、电子设备及存储介质
CN117725458A (zh) 一种获取威胁情报样本数据生成模型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination