CN115687910A - 一种数据处理方法、装置、计算机设备以及可读存储介质 - Google Patents
一种数据处理方法、装置、计算机设备以及可读存储介质 Download PDFInfo
- Publication number
- CN115687910A CN115687910A CN202110876904.0A CN202110876904A CN115687910A CN 115687910 A CN115687910 A CN 115687910A CN 202110876904 A CN202110876904 A CN 202110876904A CN 115687910 A CN115687910 A CN 115687910A
- Authority
- CN
- China
- Prior art keywords
- uncertainty
- training
- model
- test sample
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、计算机设备以及可读存储介质,该方法包括:将获取到的待处理数据对象输入数据处理模型进行处理,得到目标处理结果;该数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据不确定性估计模型测试样本处理得到的不确定性目标值和标签预测模型对测试样本处理得到的伪标签,从测试样本集中确定目标测试样本,根据各个目标测试样本以及对应的伪标签对训练样本集进行更新,利用更新后的训练样本集对标签预测模型进行训练,根据训练后的标签预测模型确定数据处理模型。采用本方案,可以在模型训练过程中自动标注测试样本,标注的效率高,有利于提高模型的训练效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备以及可读存储介质。
背景技术
近年来,随着机器学习技术的逐步发展,涌现了各式各样的机器学习算法,根据不同的学习方式可以划分为有监督学习、无监督学习、半监督学习、强化学习等等,得益于数据、算法、算力的发展,大规模训练数据的深度学习技术取得了突破性地进展。
通常,利用全量有标签训练数据训练网络,能够将训练好的网络应用到相应场景的数据处理中,但是全量的标注数据也意味着更高的标注成本,尤其是专业知识领域,当数据量大时标注以及全量训练也具备一定难度。主动学习以尽可能少的人工标注样本训练模型,并从高不确定样本中快速学习到有用信息,极大地缓解了上述问题,但其通常基于某种查询策略,从没有标注的样本中筛选有价值的样本数据交由人工标注,然后再将这些样本增加到模型的训练中迭代模型,这种训练方式仍旧依赖于人工专家标注,但人工标注的效率低,会影响模型的训练效率。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备以及可读存储介质,可以在模型训练过程中自动标注测试样本,标注的效率高,有利于提高模型的训练效率。
本申请实施例一方面提供了一种数据处理方法,包括:
获取待处理数据对象;
将待处理数据对象输入数据处理模型进行处理,得到目标处理结果;
其中,数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及标签预测模型对测试样本处理得到的伪标签,从测试样本集中确定目标测试样本,根据各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对标签预测模型进行训练,根据训练后的标签预测模型确定数据处理模型。
本申请实施例一方面提供了一种数据处理装置,包括:
获取模块,用于获取待处理数据对象;
处理模块,用于将待处理数据对象输入数据处理模型进行处理,得到目标处理结果;其中,数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及标签预测模型对测试样本处理得到的伪标签,从测试样本集中确定目标测试样本,根据各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对标签预测模型进行训练,根据训练后的标签预测模型确定数据处理模型。
本申请实施例一方面提供了一种计算机设备,包括:处理器、存储器以及网络接口;处理器与存储器、网络接口相连,其中,网络接口用于提供网络通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行本申请实施例中的数据处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的数据处理方法。
相应的,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的数据处理方法。
在本申请实施例中,结合不确定性估计模型对标签预测模型进行训练可以得到数据处理模型,即训练后的标签预测模型,在模型的训练过程中,利用标签预测模型对测试数据进行标注,得到伪标签,并根据合理的筛选策略利用伪标签与不确定性估计模型对测试数据处理得到的不确定性目标值,从测试样本集中主动挑选出相对可靠的测试样本(即目标测试样本),利用该测试样本和测试样本的伪标签更新的训练样本集对模型进行再次训练,直到达到停止准则得到数据处理模型。这个过程是一种自动化地主动学习,该训练过程主动选取有价值的样本并结合模型对该样本自动标注的伪标签进行训练,采用伪标签来替代人工标注的标签,有效避免了人工干预,从而节省标注成本,并且自动化的标注相比于人工标注还能够提高标注效率,进而提升模型训练效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的网络架构图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种朗读题型的应用界面示意图;
图4是本申请实施例提供的一种开放题型的应用界面示意图;
图5是本申请实施例提供的一种基于伪标签的口语评测模型的业务流程图;
图6是本申请实施例提供的一种数据处理方法的流程示意图;
图7是本申请实施例提供的一种数据处理方法的流程示意图;
图8是本申请实施例提供的一种自动化的主动学习方案的功能框架示意图;
图9是本申请实施例提供的一种自动化的主动学习方案应用于口语考试的测试效果对比示意图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的数据处理方案是一种自动化地主动学习方案,属于人工智能领域下属的机器学习(Machine Learning,ML)。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
当本方案中的待处理数据对象为音频数据时,本申请提供的方案还涉及人工智能领域中的语音技术以及自然语言处理技术。其中,语音技术(Speech Technology)的关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)和语音合成技术(Text ToSpeech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
请参见图1,是本申请实施例提供的一种数据处理系统的网络架构图,如图1所示,包括多个终端设备101和服务器100,终端设备101和服务器100之间通过有线或无线的方式进行通信连接。其中,终端设备101可以是智能手机、平板电脑、智能可穿戴设备、个人电脑等等设备,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。对于终端设备101和服务器100在本方案中的主要功能如下:
终端设备101可以安装以及运行功能客户端(如学习教育类应用程序或者web应用平台),该功能客户端通过终端设备101可以收集和存储待处理数据对象,该待处理数据对象可以是音频数据、图像数据或其他类型的数据,例如通过终端设备101的拾音设备采集语音数据或利用拍摄设备采集图像数据等。终端设备101将这些待处理数据对象发送给服务器100,该服务器100可以认为是功能客户端的经过服务器100中相应算法处理之后可以得到处理结果,然后将处理结果发送给终端设备101,终端设备101可以通过相应形式展示该处理结果。以口语考试应用为例,终端设备101可以对用户回答或跟读的内容录音,得到音频数据,然后将音频数据提交至后台的服务器100,由后台对该音频数据进行打分处理,返回最终的分数给终端设备,也即终端设备101输出考试分数或测评分数。或者以识别植物种类的应用为例,当用户通过终端设备101采集一张包含植物的图片,在终端设备101中可能显示“正在识别中”,而这个过程,也即该图片发送给后台服务器100,利用后台的数据处理算法识别该图片中所包括的植物种类的过程,最终终端设备101中可能输出该植物名字以及相关的一系列信息。
服务器100中可以搭载数据处理模型,利用该数据处理模型对接收到的待处理数据对象进行处理,得到处理结果。相应地,数据处理模型是通过相关算法构建的,该算法可以包括提取待处理数据对象特征的功能,例如音频数据可以通过自动语音识别技术ASR进行语音识别,将音频数据转化为文本数据,进而通过提取文本的关键字得到文本特征,同时还可以通过声纹识别技术得到音频数据的声学特征,将这些特征数据输入训练好的网络中处理得到处理结果,再将该处理结果发送给终端设备101。通常,由于业务需求,服务器100可以并行处理多个终端设备101发送的待处理数据对象,得到处理结果,在此对于服务器100并行处理的数量不做限制。其中,数据处理模型的训练过程对应的算法也可以搭载在服务器100中,在训练时,包括标签预测模型和不确定性估计模型,服务器100通过接收终端设备发送的有标签样本数据进行训练,利用训练达到预期的标签预测模型对无标签的样本数据进行预测,并且将预测得到的伪标签与不确定性估计模型得到的不确定性目标值结合筛选出有价值的样本数据,进而对训练样本集进行更新,再次训练模型,直到最终满足停止条件,将多次训练得到的最优标签预测模型确定为数据处理模型,在这个过程中涉及的相关计算由服务器100的计算能力支撑。
可以发现,通过服务器100搭载的数据处理模型可以对终端设备101收集的待处理数据对象进行处理,得到准确的处理结果。这是源于在数据处理模型的训练过程中,利用伪标签和不确定性目标值筛选目标测试样本,对模型实现不断地迭代优化,进而将训练效果最优异的模型应用于实际的数据处理场景中。并且本实施例训练过程中伪标签的加入,实现了自动化的主动学习,能够避免了人工标注消耗标注资源,同时能够高效地实现对模型的优化。
为便于理解,本申请提供以下实施例对本申请的数据处理方案进一步地说明,可以理解的是,本申请实施例提供的数据处理方法可以由计算机设备执行(如上述终端设备101或服务器100)。为便于理解,在此下述提供的实施例中均以服务器作为执行主体进行说明。
请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S101~S102:
S101,获取待处理数据对象。
在一实施例中,待处理数据对象可以是音频、文本、图像、视频等数据,服务器可以通过在线或离线的方式接收终端设备自动发送的待处理数据对象,也可以是主动从终端设备中拉取这些待处理数据对象,对于待处理对象的类型以及具体的获取方式、规模等在此不做限制。
S102,将待处理数据对象输入数据处理模型进行处理,得到目标处理结果。
在一实施例中,在不同的应用场景下待处理数据对象的不同,相应地,待处理数据对象输入数据处理模型处理后得到的目标处理结果也可能是不同的。在本实施例中,以英语口语考试作为应用场景对本方案涉及的处理过程进行说明,终端设备中安装并运行具备英语口语考试的功能应用程序(Application,简称APP),口语考试的题型种类覆盖客观题型(如朗读题型)和主观题型(如看图说话、口头作文等),对应地,待处理数据对象包括用户通过该应用客户端录入的语音数据,例如在朗读题型中对一段英文的朗读、主观题型中对某个英文问题的开放性回答等,以及题目信息和对应的参考答案。终端设备收集到用户的语音数据之后与题目信息一起发送给服务器,服务器将接收到的语音数据、题目信息(属于文本数据)结合存储的参考答案的音频数据(或文本数据)输入数据处理模型处理,其中,数据处理模型包括特征提取功能模块,特征提取的主要功能是将语音数据、文本数据的特征提取出来得到声学特征和文本特征,在具体的处理过程中,是将这两个特征作为特征数据输入数据处理模型进行处理得到相应的目标处理结果。在此应用场景下,目标处理结果即为用户针对某一考试题目得到的口语考试分数,口语考试分数向用户展现的形式可以是直接给出的百分制分数,也可以是达到多少等级、达到几颗星等,对于目标处理结果在终端设备中的展现形式在此不做限定。
示例性地,请参见图3,是本申请实施例提供的一种朗读题型的应用界面示意图,用户通过点击图3子图(a)中的“开始朗读”按钮,终端设备就可以开始录音,用户开始跟读句子,当用户不准备继续跟读或者已经跟读完成,点击图3子图(b)中的“结束朗读”按钮,终端设备结束录音,至此可以后台服务器可以获取到用户在终端中录制的朗读音频并对其进行处理,返回目标处理结果,即终端设备的屏幕返回评测结果,展示给用户,如图3子图(c)所示输出的4颗星的句子评测结果。请参见图4,是本申请实施例提供的一种开放题型的应用界面示意图,和图3类似,用户点击图4子图(a)中的“开始录音”按钮,终端设备可以开始收集语音数据,当用户点击图4子图(b)中的“结束录音”按钮,表示录音完成,终端设备的屏幕中向用户将展示服务器处理并返回的评分结果,图4子图(c)最终的评测结果是分数为81的百分制分数。
在一实施例中,上述数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及标签预测模型对测试样本处理得到的伪标签,从测试样本集中确定目标测试样本,根据各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对标签预测模型进行训练,根据训练后的标签预测模型确定数据处理模型。因此,上述应用到口语考试分数评测场景的数据处理模型也可以称之为结合伪标签训练的评测模型(或称之为基于伪标签的口语评测模型)。针对数据处理模型的获取方式可参见下述实施例的内容,在此不做展开说明。
请参见图5,是本申请实施例提供的一种基于伪标签的口语评测模型的业务流程图。用户打开终端设备中的口语考试APP,屏幕显示口语考试题目,如上述图3或图4的子图(a)所示的内容,然后点击APP中指示开始录音的按钮,进行题目作答,APP通过终端设备将音频和朗读文本(或题目信息)发送给服务器端,当然,在图5所示的APP端和服务器端之间展示的是传输的主要内容,即语音数据,因为跟读的文本或者题目信息服务器也可以从数据库中获取,之后服务器端将音频和参考答案(如果是朗读题型,参考答案即朗读文本,也就是题目信息,如果是开放式题型,则是该题目对应的参考答案)经过特征提取后发送给基于伪标签的评测模型,评测模型将评分结果返回给服务器,服务器再将最终的分数返给APP端,用户即可以在APP端查看最终的考试得分。需要说明的是,如图5中将特征提取模块和评测模型与服务器分离开来单独作为一个部分是为了更好地说明整体的处理逻辑,这些模块可以是部署在如图5所示的服务器中的功能模块,也可以是部署除了图5示出的服务器的另外一台或多台服务器中,对此不做限制。
需要说明的是,上述数据处理模型可以作为一种通用的数据处理模型,应用到不同的场景,只是数据处理模型训练时采用的训练样本、测试样本以及处理时的待处理数据对象等数据需要与特定的应用场景相匹配,例如数据处理模型具备图像识别的功能,那么训练样本、测试样本、待处理数据对象等都是图像数据。这样数据处理模型的训练能够实现框架和资源的分离,也即在不同的应用场景,只需采用相应样本数据来训练模型,而不需要变动训练的大致流程。
综上所述,本申请实施例至少具有以下优点:
在模型的训练过程中,采用标签预测模型对测试样本进行自动化地标注处理,即预测得到伪标签,高效地训练模型,同时对伪标签样本并不是全部都学习,而是主动选取可靠的目标测试样本学习,这样能够减小伪标签不准确带来的误差,保证模型学习的准确率,也能够使得模型训练效率更高,运用结合伪标签自动化地主动学习得到的数据处理模型处理待处理数据对象,能够得到可靠的目标处理结果。
请参见图6,图6是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S201~S204:
S201,获取训练样本集和测试样本集。
在一实施例中,训练样本集包括多个训练样本以及各个训练样本的参考标签,测试样本集包括多个测试样本。这里的训练样本集是最原始的训练样本,后续会对该训练样本集进行更新来训练模型。前述实施例有提及由于应用场景的不同,在训练过程中所需的训练样本和测试样本也应该依据特定的应用场景来匹配。依旧以口语考试的应用场景作为示例,此处的训练样本即为带有参考标签的音频数据,也就是有标注数据,测试样本则是未带参考标签的音频数据,即无标注数据,参考标签是指人工标注该条音频数据的分数,可以视为真实标签。当然,若是其他应用场景,如图像识别,参考标签则是指人工标注某个图像所属的类别,训练样本则是带有类别标签的图像数据,测试样本是未带类别标签的图像数据。通常,为了节省人工标注的成本,训练样本的数量往往是小于测试样本的数量的,而通过少量的训练样本来对更多无标注样本打标签,进行省时省力的训练和模型性能高效地提升也是机器学习领域中致力于提升的一点。对于训练样本和测试样本的数量在此不做限制,为便于理解,下述实施例中均以口语考试的应用场景作为示例进行说明。
S202,利用训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,以及利用训练样本集对不确定性估计模型进行训练,得到训练后的不确定性估计模型。
在一实施例中,初始标签预测模型是没有经过任何数据训练的初始化模型,利用训练样本集中的训练样本和参考标签对该初始化模型进行第一次训练,可以得到初始训练后的标签预测模型,在此称之为第一标签预测模型。不论是初始标签预测模型或第一标签预测模型或者经过更新后的训练样本集二次训练或多次训练的标签预测模型,本实施例中统称为标签预测模型或基模型。
可选地,初始标签预测模型包括特征提取模块,利用训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型的步骤可以包括:将训练样本集包括的训练样本输入初始标签预测模型,利用初始标签预测模型包括的特征提取模块对训练样本进行特征提取,得到各个训练样本的特征数据;在利用各个训练样本的特征数据对初始标签预测模型进行训练的过程中,利用初始标签预测模型对各个训练样本的特征数据进行标签预测处理,得到各个训练样本的预测标签;根据各个训练样本的预测标签和参考标签确定损失信息,并根据损失信息对初始标签预测模型的模型参数进行调整,根据模型参数调整后的初始标签预测模型确定初始训练后的第一标签预测模型。
其中,特征提取模块基于训练数据(即训练样本)可以提取有效的特征数据,在口语考试的应用场景中,训练数据为音频和对应的人工标签(即参考标签),利用特征提取模块提取出来的特征数据包含文本特征和声学特征,其中,文本特征主要包含语义特征、语用特征,关键词特征、文本不流利特征。关键词特征主要包括提取标准答案中的关键词与答题内容的关键词,计算精确率、召回率等。语用特征包括答题内容的词语的多样性,句式的多样性以及基于语言模型分析答题内容的语法准确性。语义特征包含答题内容的主题特征,tf-idf(term frequency-inverse document frequency,词频-逆向文件频率)特征等。声学特征主要分为发音准确度、发音流利度、发音韵律度等。发音准确度指音素、单词、句子级别等发音分数。发音流利度包含发音过程中的语速特征、基于时长统计的特征如发音段的平均时长,发音段之间的平均停顿时长等特征。发音韵律度包含对发音节奏感的评估、句子中单词重读正确性评估、句子边界调评估等。
基于标签数据(即参考标签)以及这些提取得到的声学特征和文本特征进行标签预测模型的构建,包括用训练样本的特征数据、标签数据训练初始标签预测模型,评估训练后的标签预测模型,这里的初始标签预测模型可以是回归模型或分类模型,拟合人工打分。可选地,回归模型可以是传统的一些回归模型,如KNN(k-NearestNeighbor,K邻近)模型,SVR(support vector regression,支持向量机)模型,GBT(Gradient Boosting Tree,梯度提升树)模型等,也可以是深度神经网络模型,通过多层网络前向传播,获得最终的分数,在此对初始标签预测模型的类型不做限制。利用特征数据对初始标签预测模型进行训练的过程,主要是通过初始标签预测模型对特征提取模块提取得到的特征数据进行标签预测处理,得到的特征数据所属训练样本的预测标签。若只关注模型的输入和输出,则对应的是训练样本集中所有的训练样本都输入初始标签预测模型,输出所有训练样本的预测标签,例如有100个训练样本输入初始标签预测模型,则输出的是100个训练样本的预测标签。和参考标签不同的是,参考标签是人工对训练样本标注的真实值,而预测标签是初始标签预测模型对训练样本的处理得到一个预测值,可能和参考标签并不相同,并且由于后续模型参数的调整更迭该预测标签是一次性的,基于参考标签和预测标签可以确定损失信息(如损失值),用该损失信息来度量模型的预测值和真实值的不一致程度,从而基于该损失信息对初始标签预测模型的模型参数进行一次调整,得到调整后的初始标签预测模型,但是一次训练可能并不能得到最优的标签预测模型,因此当一次模型参数调整完成之后,继续对标签预测模型进行训练,通过损失信息收敛的情况确定是否还需要对模型参数进行调整,直到标签预测模型对训练样本的预测准确率达到最高或者损失信息在误差范围内,得到第一标签预测模型。可选地,训练的过程也可以是将有标签数据分为两份,一份作为训练样本集训练模型,另一份作为验证样本集对模型参数调整后的模型进行检验,也即输入带有真实标签的样本数据(也即验证样本集)来衡量预测效果是否达到预期结果,如果没有,重复上述训练步骤,经过不断重复地训练、调整参数,在不断地迭代更新中得到最优的标签预测模型,并将最优的标签预测模型作为第一标签预测模型。
另外,利用训练样本集对不确定性估计模型进行训练,得到训练后的不确定性估计模型,也可以是和训练初始标签预测模型类似的处理内容,对此不做赘述。本实施例中的不确定性估计模型也可以称为不确定性分析模型或不确定性模块,基于提取的特征数据(例如文本特征和声学特征),构建不确定性分析模型的方法种类也是多样的,可以采用典型的高斯过程回归、蒙特卡罗dropout方法,深度混合密度网络等。其中,高斯过程采用高斯分布建模输出,确定每个预测结果的均值和方差,该方法采用方差作为不确定性的衡量,方差越大,不确定性越大。蒙特卡罗dropout方法采用多个模型集成分析模型的不确定性,它假设对于不确定的数据,每个模型的输出具有多样性,如果输出越多样,不确定越大。深度混合密度网络与高斯过程建模类似,对结果的均值和方差和建模,该方法也采用方差作为不确定性的衡量,方差越大,不确定性越大。在本申请实施例中,基于混合密度网络和高斯过程建模不确定性分析模型,可以将其应用到前述的口语考试场景中(如口语考试系统)。
需要说明的是,上述特征提取模块可以是标签预测模型和不确定性分析模型共用的模块,得到的特征数据不确定性估计模型和标签预测模型都会使用。
S203,将测试样本集包括的测试样本输入第一标签预测模型中进行标签预测处理,得到各个测试样本的伪标签,以及将测试样本输入训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值。
在一实施例中,测试样本集包括的测试样本是无标注数据,经过有标注的训练样本训练之后得到的第一标签预测模型能够对测试样本进行较为准确的预测,因为第一标签预测模型是由原始的训练样本集训练到最优的模型,但是由于模型的准确率可能也不是百分之百,因为训练样本的标注可能出现误差且也不排除测试样本集中的测试样本是第一标签预测模型在原始的训练样本集中没有学习到的,因此预测的标签并不清楚是否是精准,将第一标签预测模型对测试样本预测的结果称之为“伪标签”。单从标签预测模型相关处理来看,是一种伪标签算法,属于半监督学习(Semi-Supervised Learning,SSL),这是一种监督学习与无监督学习相结合的学习方法,半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。但是判断上述得到的伪标签是否可靠需要采用不确定性估计模型对测试样本进行不确定性分析,得到该测试样本的不确定性目标值,例如上述高斯过程回归建模输出的均值和方差即可以作为不确定性目标值。该不确定性目标值用于描述预测结果的不确定性,也即预测结果是正确的可靠度或可信度(置信度)有多高,不确定性越高,则表示置信度越低。此外,需要说明的是,这里的输入的测试样本可以是测试样本集中的所有测试样本,也可以是部分测试样本,在此不做限制。
在一实施例中,利用不确定性估计模型处理测试样本得到对应的不确定性目标值的步骤可以包括:利用训练后的不确定性估计模型对测试样本进行不确定性分析处理,得到测试样本对应的数据不确定性预测值以及模型不确定性预测值;根据数据不确定性预测值以及模型不确定性预测值确定测试样本的不确定性目标值。这里的测试样本也是输入第一标签预测模型处理的样本,本申请实施例中,不确定性估计模型采用混合密度网络和高斯过程分别建模数据不确定性和模型不确定性,简单理解,数据不确定性是由训练样本数据的噪声所带来的,模型不确定性是由模型训练不完全导致的,通过对上述两种不确定性建模,对预测结果的不确定性可以有更准确地描述。应用到口语考试系统中,对应的数据不确定性预测值包括混合密度网络对任一测试样本的预测分数的均值和方差,模型不确定性预测值包括高斯过程输出的均值和方差,将两种不确定性预测值进行加权求和,就可以得到最终的不确定性目标值。模型不确定性建模和数据不确定性建模分别都满足高斯分布,也即混合密度网络和高斯过程输出的都是目标值的一个可能分布,在此采用如下表达式:
A~N(μ1,σ1 2),B~N(μ2,σ2 2) (1)
其中,A表示模型不确定性,μ1、σ1 2分别表示高斯过程输出的均值和方差,B表示数据不确定性,μ2、σ2 2分别表示混合密度网络输出均值和方差。
将两种不确定性预测值进行加权求和,有如下表达式:
λA+(1-λ)B~N(λμ1+(1-λ)μ2,λ2σ1 2+(1-λ)2σ2 2 (2)
其中,λ表示不确定性权重,范围取值为0到1,当模型不确定建模精度较高时,可以将λ设置为大于0.5的值。
不确定性目标值包括如式(2)示出的均值和方差,其中,方差表示不确定性结果,记为uncertainty=λ2σ1 2+(1-λ)2σ2 2。需要说明的是,对于不确定性估计模型也可以采用其他描述不确定性的网络或模型,例如贝叶斯神经网络来构建不确定性分析模型,对于不确定性估计模型的类型不做限制。
S204,根据各个测试样本的不确定性目标值和伪标签从测试样本集中确定目标测试样本,并利用各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型。
在一实施例中,可以根据合理的筛选规则,利用标签预测模型预测某条测试样本输出的伪标签以及不确定性估计模型输出的不确定性目标值(可以包括上述均值和方差),将测试样本集中符合条件的测试样本作为目标测试样本,后续利用筛选出来的目标测试样本更新训练样本集的方式可以是选择将目标测试样本和其对应的伪标签加入到训练样本集中,构成一个新的训练样本集,这里的训练样本集是原始的训练样本集(或称为初始训练样本集),训练样本的标签是人工标注的参考标签,此时,新的训练样本集中包括参考标签以及伪标签;也可以将得到的多个目标测试样本单独作为新的训练样本集,将原始的训练样本集替换掉,利用新的训练样本集对第一标签预测模型进行再次训练,得到第二标签预测模型。上述是针对第一次对训练样本更新,在第N(N大于2)次的训练中,可以利用确定出来的目标测试样本和目标测试样本的伪标签更新训练样本集对前一次训练更新后的训练样本进行更新,也可以是更新原始的训练样本集。例如,在第三次训练时,可以是对初始训练样本集进行更新,也可以是对第二次训练时更新的训练样本进行更新,在此不做限制。需要说明的是,这里的对模型的一次训练是利用一次更新的训练样本集将标签预测模型训练到最优的过程。
可选地,可以通过增量学习或重新学习的方式更新模型,从而将伪标签融入机器学习模型中,相比于主动学习中将人工标注的标签融入机器学习模型中,这种方式能够节省大量的人工标注成本,同时可以提高训练效率,是一种优异的训练方式。需要说明的是,利用训练样本集(例如更新的训练样本集)对标签预测模型的训练次数并不是限制到两次,而是当基模型满足停止训练的条件时就不再训练,这里满足训练停止的条件可以是对于测试样本的预测效果进行评估,若达到相应的评估指标,即可以不再训练。示例性地,如果第二标签预测模型和第一标签预测模型对测试样本的伪标签预测效果大致相同,那么第二标签预测模型就可以作为最终的数据处理模型,反之,如果第二标签预测模型的预测效果相比于第一标签预测效果提升显著,那么第二标签预测模型则需要继续利用更新后的训练样本集进行训练,得到第三标签预测模型,再次评估,总之,只要当前训练得到的标签预测模型对测试样本的预测效果收敛(如和前一次或多次训练得到的标签预测模型对测试样本的预测效果相同或变化微小),就可以不再训练,反之,需要循环迭代模型。需要注意的是,利用更新后的训练样本训练标签预测模型也是要在训练到预期的效果才将其用于对测试数据进行处理,也就是说一次训练到位,以保证每次学习的全面性和准确度。
综上所述,本申请实施例至少具有以下优点:
通过将主动学习与伪标签训练结合,具体是将半监督学习的伪标签训练方法与主动学习中基于不确定性结果的方式选取有价值的测试样本学习方式结合,基于训练好的标签预测模型为无标签测试数据赋予伪标签,并结合有效的伪标签测试样本对模型进行二次训练或多次训练,其中,有效伪标签是基于不确定性估计模型输出的不确定性目标值从测试样本中筛选出目标测试样本的标签数据,这些目标测试样本是信息量大的不确定样本,也即当前模型较难判别的样本,利用这些不确定样本更新训练样本集,可以使得模型训练针对性更强,训练也更高效,效果提升更明显,同时实现全自动化地训练过程,进一步降低人工标注成本,整个过程力求以更少的人工标注样本高效地训练出性能尽可能高的数据处理模型,节约标注成本和训练资源成本。
请参见图7,图7是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法至少可以包括以下步骤S301~S306:
S301,获取训练样本集和测试样本集。
S302,利用训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,以及利用训练样本集对不确定性估计模型进行训练,得到训练后的不确定性估计模型。
S303,将测试样本集包括的测试样本输入第一标签预测模型中进行标签预测处理,得到各个测试样本的伪标签,以及将测试样本输入训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值。
上述步骤S301~S303的具体实现方式可参见上述图2对应实施例中的S201~S203,这里不再进行赘述。
S304,根据各个测试样本的第一不确定性目标值确定不确定性均值。
在一实施例中,不确定性目标值包括第一不确定性目标值和第二不确定性目标值,是不确定性模块(即不确定性估计模型)对于某条测试样本的预测结果输出的值,第一不确定性目标值可以对应式(2)中的方差(即不确定性结果或简称为不确定性、不确定结果),可以记为uncertaint_i=λ2σ1 2+(1-λ)2σ2 2,第二不确定性目标值对应式(2)中的均值,可以记为puncertain_i=λμ1+(1-λ)μ2。以测试样本集中所有测试样本均经过不确定性估计模型为例进行说明,假设测试样本集包括n个测试样本,则测试样本集包括的所有测试样本的第一不确定性目标值记为Uncertain=[uncertainty_1,uncertainty_2,…,uncertainty_n],求取这批测试数据的不确定性均值表达式如下:
其中,meanuncertain表示不确定性均值,n表示测试样本数量,uncertainty_i表示第一不确定性目标值。
S305,根据不确定性均值、各个测试样本的第一不确定性目标值和第二不确定性目标值、以及各个测试样本的伪标签,从测试样本集中确定目标测试样本。
在一实施例中,此步骤的步骤可以包括:按照第一不确定性目标值从大到小的顺序对各个测试样本进行排序处理,得到排序后的各个测试样本;将排序后的各个测试样本中第二不确定性目标值大于或等于不确定性均值的测试样本作为候选测试样本;将各个候选测试样本中第二不确定性目标值与相应的伪标签之间的差异度小于差异度阈值的候选测试样本确定为目标测试样本。从测试样本集中确定目标测试样本也即从高不确定性样本中筛选相对可靠的样本的过程,和伪标签算法中采用置信度较高的伪标签样本,本实施例筛选的是置信度较低的伪标签样本,即高不确定性样本,由于这部分样本往往信息量比较大,因此融入这些伪标签样本进行二次训练能够让模型提升更加显著,但是由于高不确定性样本的伪标签,往往误差较大,可能是错误标签,因此结合多种不确定性建模结果,通过合理的筛选策略在高不确定样本中筛选有效的伪标签。假设基模型预测某条测试样本的输出伪标签为pbase_i,不确定性模块输出的第一不确定性目标值为uncertaint_i,第二不确定性目标值为puncertain_i,上述筛选策略可以对应的以下筛选流程:
(1)将测试集中所有样本的不确定性(也即第一不确定性目标值)由大到小进行排序;
(2)For遍历由高到低排序好的不确定样本:
If puncertain_i<meanuncertain:
Break停止循环;
If pbase_i-puncertain_i<threshold:
将该样本加入到筛选的样本中;
在上述筛选流程中,threshold即差异度阈值,用于衡量某个测试样本的伪标签和第二不确定性目标值的差异,以口语考试的应用场景为例,测试样本的伪标签为分数,第二不确定性目标值是某个测试样本预测分数的均值,在可能的预测分数分布中是可能性最大的点,因此理论上,这两个值的差距越接近于0则表示伪标签的准确度越高。经过不确定性估计模型处理的测试样本均可视为不确定样本,不确定性越大的测试样本也即高不确定样本,由于主动学习是基于某种查询策略将高不确定样本挑选出来进行学习,因此按照不确定性由高到低排序,对于后续筛选过程更加方便。对排序之后的测试样本进行遍历,从不确定性最高的测试样本开始,通过比较第二不确定性目标值(即预测结果的均值)与不确定性均值的关系做进一步筛选,也即在遍历的过程中一旦第二不确定性目标值小于不确定性均值,则使用break跳出循环语句,中断当前循环,也即不再遍历之后的不确定样本,反之,如果大于或等于不确定性均值的样本(即候选测试样本),则需要继续判断该第二不确定性目标值和伪标签之间的差异是否在差异度阈值范围之内,若是,才能将测试样本加入到筛选的样本之中,但是上述break语句的存在可能会导致覆盖不全面的问题,由此也可以先遍历所有的不确定样本,将符合第一个要求(即第一不确定性目标值大于或等于不确定性均值)的筛选出来,再遍历所有符合第一个要求的样本,将符合第二个要求(即第二不确定性目标值和伪标签之间的差异在差异度范围内)的筛选出来。通过双重的筛选,即结合不确定性建模得到的第一不确定性目标值和第二不确定性目标值从高不确定性样本中筛选出可靠的测试样本(即目标测试样本),将其运用到下一次训练过程,可以使得模型学习得更全面,保证模型学习的准确度和有效性。
S306,利用各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型。
在一实施例中,在利用原始的训练样本集对初始标签预测模型进行第一次训练后,得到第一标签预测模型,通过上述步骤筛选得到的目标测试样本和各个目标测试样本的伪标签更新训练样本集,例如可以是将这些目标测试样本和模型预测值(即伪标签)融入到原始训练数据中,扩充原始训练集,对第一标签预测模型进行第二次训练,由于筛选出的样本的标签为伪标签,即基模型(第一标签预测模型)的预测结果,仍可能有一定的误差,为此本实施例提供的方案结合不确定性结果,赋予伪标签样本较少的权重,原始的训练样本较高的权重,混合进行二次训练。
可选地,利用更新后的训练样本集对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型的实现方式可以包括:对各个目标测试样本的不确定性目标值进行归一化处理,得到各个目标测试样本的第一权重系数;利用各个目标测试样本、各个目标测试样本的第一权重系数、训练样本集包括的训练样本以及各个训练样本的第二权重系数,对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型;其中,第一权重系数小于第二权重系数。其中通过对各个目标测试样本的不确定性目标值包括的第一不确定性目标值进行归一化处理,得到的数值作为第一权重系数即是通过不确定性结果赋予伪标签的权重,由于归一化处理之后的不确定性结果为0至1范围的值,原始训练样本的第二权重系数取值为1,第一权重系数均为小于第二权重系数的值。可选地,还可以对所有的测试样本的不确定性结果进行最大值最小值归一化处理,这样每个测试样本都对应一个归一化的不确定性结果,目标测试样本的第一权重系数则可以使用该测试样本对应的归一化的不确定性结果。对测试样本集中所有测试样本归一化处理的表达式如下:
其中,uncertaini表示所有测试样本中第i个测试样本的第一不确定性目标值,min(uncertain)表示所有测试样本中第一不确定性目标值的最小取值,max(uncertain)表示所有测试样本中第一不确定性目标值的最大取值。
假设原始训练样本为y=[y1,y2…ym],最终二次训练样本为Y_COMBINE,那么,结合上述内容,二次训练样本的表示为 其中,表示筛选得到的目标测试样本中第i个目标测试样本的伪标签,i=1,…,k,每个目标测试样本的第一权重系数为Norm(uncertaini),i=1,…,k。yi表示原始训练样本集中第i个训练样本的参考标签,i=1,…,m,m表示原始的训练样本的数量,训练样本的第二权重系数为1。
可以发现,采用归一化之后的不确定性结果作为第一权重系数,由于每个目标测试样本的不确定性结果不同,因此每个目标测试样本的权重也并不一致,这样可以减少不准确的伪标签带来的误差,而对于较为准确的伪标签权重较大也可以使其在模型训练中发挥的作用更大,另外,本方案中将目标测试样本赋予的权重设置成小于原始训练样本的权重,这也是出于减小误差的考虑,因为伪标签是基模型预测的结果,准确率不能百分之百地保证,误差仍旧是存在的,让带有伪标签的测试样本的权重小于相对准确的训练样本的权重,尽可能地让伪标签带来的误差积累得更少,进而保证模型的准确度。需要说明的是,上述目标测试样本的权重系数和原始训练样本的第二权重系数的赋值也可以采用其他方式,但遵循的一点是标签准确度高的样本的权重需大于标签准确度低的样本。
在上述二次训练样本的表示中,权重和标签直接进行关联,将这些样本和对应的权重输入到第一标签预测模型中,进行二次训练,得到第二标签预测模型。根据第二标签预测模型确定数据处理模型,可以通过对第二标签预测模型进行评估,达到预期效果,可以将第二标签预测模型作为数据处理模型,但是如果第二标签预测模型的评估结果并没有达到预期,则还要对第二标签预测模型进行训练,具体可参见前述实施例提供的内容,在此不做赘述。
基于上述实施例提供的数据处理方案,请参加图8,是本申请实施例提供的一种自动化的主动学习方案的功能框架示意图,包括特征提取、基模型训练、模型预测、不确定性建模、筛选样本、融合不确定性本进行二次训练。对于整个流程上述实施例中相关内容已详细说明,在此进行简要地阐述。
首先,将训练数据(即训练样本和人工标签)输入特征提取模块,提取出训练样本的特征数据,对于多种特征数据,通常采用向量表示,然后将其分别输入基模型训练和不确定性建模,在基模型训练模块中,利用训练样本的特征数据和人工标签可以训练模型,在不确定性建模中,和基模型类似的方法训练不确定性估计模型。之后将无标签的测试数据(即测试样本)输入训练好的基模型中,预测出伪标签,同样在不确定性建模中,相同的无标签测试数据也会输入,以得到对应测试样本的不确定性结果(即不确定性目标值),包括方差和均值,根据这两个部分输出的伪标签和不确定性结果,并配合相应的筛选策略可以从测试数据中筛选样本,最终将筛选出来的样本和训练数据融合,对样本赋予不同的权重,再送入特征提取模块,得到对应的特征数据,结合人工标签以及伪标签对整个模型进行二次训练。通过循环迭代模型,可以得到最优的基模型,并将其应用到相应的场景中。可以发现,该方案将主动学习与伪标签训练进行结合,利用信息量较大的高不确定样本,结合有效的伪标签,进行二次训练。由于高不确定性样本的伪标签,往往误差较大,可能是错误的标签,因此结合多种不确定性建模结果,在高不确定性样本中筛选有效的伪标签,代替人工干预,进行二次训练。同时,由于筛选出的样本的标签为伪标签,即基模型的预测结果,仍可能有一定的误差。又结合不确定性结果,赋予伪标签样本较少的权重,原始训练样本较高的权重,混合进行二次训练。其中每一步的设计都致力于将模型训练中预计出现的误差尽可能地缩小,逐步地提升模型的性能,保障训练的可靠性和有效性。
本方案应用到相应场景的效果以口语考试不同题型进行测试,包括情景提问题型、快速应答题型、口头作文以及半开放题型进行测试。每种题型包含250条训练样本,1400条测试样本。评估指标为皮尔逊相关系数(用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间,在这里X可以是真实标签,Y指模型预测值,也即伪标签),以及一致率(即真实标签与模型预测值小于一定阈值的概率),结果图9所示,为一次训练结果(base)和自动化主动学习方案结果(improve)的对比图。由结果可知,基于自动化的主动学习方案,可以有效提升模型效果。需要说明的是,为了评估模型的预测效果,这里所用到的测试样本带有真实标签的样本,只是在测试样本输入基模型预测是没有输入测试样本的标签。
综上所述,本申请实施例至少具有以下优点:
基于合理有效的筛选策略,结合不确定性估计模型输出的不确定性结果筛选有效的测试样本,将其融入原始的训练样本作为下一次的训练样本,并且在训练中结合不确定性结果赋予携带伪标签的训练样本更低的权重,携带参考标签的训练样本更高的权重,这样使得样本在具备一定信息量的同时充分考虑不确定性样本的伪标签带来的误差,将伪标签带来的误差缩小在可控范围内,通过将两种权重不同的样本融合对模型进行训练,更新模型,保证训练的有效性和最终得到的数据处理模型的预测准确度。
请参见图10,是本申请实施例提供的一种数据处理装置的结构示意图,该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1000可以包括:获取模块1001、处理模块1002。
获取模块1001,用于获取待处理数据对象;
处理模块1002,用于将待处理数据对象输入数据处理模型进行处理,得到目标处理结果;其中,数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及标签预测模型对测试样本处理得到的伪标签,从测试样本集中确定目标测试样本,根据各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对标签预测模型进行训练,根据训练后的标签预测模型确定数据处理模型。
在一实施例中,该数据处理装置1000还包括训练模块1003和确定模块1004,其中:
获取模块1001,还用于获取训练样本集和测试样本集,训练样本集包括多个训练样本以及各个训练样本的参考标签,测试样本集包括多个测试样本;
训练模块1003,用于利用训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,以及利用训练样本集对不确定性估计模型进行训练,得到训练后的不确定性估计模型;
处理模块1002,还用于将测试样本集包括的测试样本输入第一标签预测模型中进行标签预测处理,得到各个测试样本的伪标签,以及将测试样本输入训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值;
确定模块1004,用于根据各个测试样本的不确定性目标值和伪标签从测试样本集中确定目标测试样本,并利用各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型。
在一实施例中,初始标签预测模型包括特征提取模块,训练模块1003用于:将训练样本集包括的训练样本输入初始标签预测模型,利用初始标签预测模型包括的特征提取模块对训练样本进行特征提取,得到各个训练样本的特征数据;在利用各个训练样本的特征数据对初始标签预测模型进行训练的过程中,利用初始标签预测模型对各个训练样本的特征数据进行标签预测处理,得到各个训练样本的预测标签;根据各个训练样本的预测标签和参考标签确定损失信息,并根据损失信息对初始标签预测模型的模型参数进行调整,根据模型参数调整后的初始标签预测模型确定初始训练后的第一标签预测模型。
在一实施例中,处理模块1002具体用于:利用训练后的不确定性估计模型对测试样本进行不确定性分析处理,得到测试样本对应的数据不确定性预测值以及模型不确定性预测值;根据数据不确定性预测值以及模型不确定性预测值确定测试样本的不确定性目标值。
在一实施例中,各个测试样本的不确定性目标值包括第一不确定性目标值和第二不确定性目标值,确定模块1004具体用于:根据各个测试样本的第一不确定性目标值确定不确定性均值;根据不确定性均值、各个测试样本的第一不确定性目标值和第二不确定性目标值、以及各个测试样本的伪标签,从测试样本集中确定目标测试样本。
在一实施例中,确定模块1004具体还用于:按照第一不确定性目标值从大到小的顺序对各个测试样本进行排序处理,得到排序后的各个测试样本;将排序后的各个测试样本中第二不确定性目标值大于或等于不确定性均值的测试样本作为候选测试样本;将各个候选测试样本中第二不确定性目标值与相应的伪标签之间的差异度小于差异度阈值的候选测试样本确定为目标测试样本。
在一实施例中,确定模块1004具体还用于:对各个目标测试样本的不确定性目标值进行归一化处理,得到各个目标测试样本的第一权重系数;利用各个目标测试样本、各个目标测试样本的第一权重系数、训练样本集包括的训练样本以及各个训练样本的第二权重系数,对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型;其中,第一权重系数小于第二权重系数。
可以理解的是,本申请实施例所描述的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
请参见图11,是本申请实施例提供的一种服务器的结构示意图,该服务器110可以包括处理器1101、存储器1102、网络接口1103和至少一个通信总线1104。其中,处理器1101用于调度计算机程序,可以包括中央处理器、控制器、微处理器;存储器1102用于存储计算机程序,可以包括高速随机存取存储器RAM,非易失性存储器,例如磁盘存储器件、闪存器件;网络接口1103可选的可以包括标准的有线接口、无线接口(如WI-FI接口),提供数据通信功能,通信总线1104负责连接各个通信元件。该服务器110可以对应于前文的服务器100。
其中,处理器1101可以用于调用存储器中的计算机程序,以执行如下操作:
获取待处理数据对象;
将待处理数据对象输入数据处理模型进行处理,得到目标处理结果;其中,数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及标签预测模型对测试样本处理得到的伪标签,从测试样本集中确定目标测试样本,根据各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对标签预测模型进行训练,根据训练后的标签预测模型确定数据处理模型。
在一实施例中,处理器1101还用于:
获取训练样本集和测试样本集,训练样本集包括多个训练样本以及各个训练样本的参考标签,测试样本集包括多个测试样本;
利用训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,以及利用训练样本集对不确定性估计模型进行训练,得到训练后的不确定性估计模型;
将测试样本集包括的测试样本输入第一标签预测模型中进行标签预测处理,得到各个测试样本的伪标签,以及将测试样本输入训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值;
根据各个测试样本的不确定性目标值和伪标签从测试样本集中确定目标测试样本,并利用各个目标测试样本以及各个目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型。
在一实施例中,处理器1101具体用于:将训练样本集包括的训练样本输入初始标签预测模型,利用初始标签预测模型包括的特征提取模块对训练样本进行特征提取,得到各个训练样本的特征数据;在利用各个训练样本的特征数据对初始标签预测模型进行训练的过程中,利用初始标签预测模型对各个训练样本的特征数据进行标签预测处理,得到各个训练样本的预测标签;根据各个训练样本的预测标签和参考标签确定损失信息,并根据损失信息对初始标签预测模型的模型参数进行调整,根据模型参数调整后的初始标签预测模型确定初始训练后的第一标签预测模型。
在一实施例中,处理器1101具体用于:利用训练后的不确定性估计模型对测试样本进行不确定性分析处理,得到测试样本对应的数据不确定性预测值以及模型不确定性预测值;根据数据不确定性预测值以及模型不确定性预测值确定测试样本的不确定性目标值。
在一实施例中,处理器1101具体用于:根据各个测试样本的第一不确定性目标值确定不确定性均值;根据不确定性均值、各个测试样本的第一不确定性目标值和第二不确定性目标值、以及各个测试样本的伪标签,从测试样本集中确定目标测试样本。
在一实施例中,处理器1101具体用于:按照第一不确定性目标值从大到小的顺序对各个测试样本进行排序处理,得到排序后的各个测试样本;将排序后的各个测试样本中第二不确定性目标值大于或等于不确定性均值的测试样本作为候选测试样本;将各个候选测试样本中第二不确定性目标值与相应的伪标签之间的差异度小于差异度阈值的候选测试样本确定为目标测试样本。
在一实施例中,处理器1101具体用于:对各个目标测试样本的不确定性目标值进行归一化处理,得到各个目标测试样本的第一权重系数;利用各个目标测试样本、各个目标测试样本的第一权重系数、训练样本集包括的训练样本以及各个训练样本的第二权重系数,对第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定数据处理模型;其中,第一权重系数小于第二权重系数。
应当理解,本申请实施例中所描述的计算机设备110可执行前文图2所对应实施例中对该数据处理方法的描述,也可执行前文图10所对应实施例中对该数据处理装置1000的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,还应指出,本申请实施例还提供一种存储介质,该存储介质中存储了前述数据处理方法的计算机程序,该计算机程序包括程序指令,当一个或多个处理器加载并执行该程序指令,可以实现实施例一种对数据处理方法的描述,这里不再赘述,对采用相同方法的有益效果描述,也在此不再赘述。可以理解的是,程序指令可以被部署在一个或能够互相通信的多个计算机设备上执行。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
最后,还需说明的是,本申请的说明书和权利要求书及上述附图中的术语,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理数据对象;
将所述待处理数据对象输入数据处理模型进行处理,得到目标处理结果;
其中,所述数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据所述不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及所述标签预测模型对所述测试样本处理得到的伪标签,从所述测试样本集中确定目标测试样本,根据各个所述目标测试样本以及各个所述目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对所述标签预测模型进行训练,根据训练后的标签预测模型确定所述数据处理模型。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述训练样本集和所述测试样本集,所述训练样本集包括多个训练样本以及各个训练样本的参考标签,所述测试样本集包括多个测试样本;
利用所述训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,以及利用所述训练样本集对不确定性估计模型进行训练,得到训练后的不确定性估计模型;
将所述测试样本集包括的测试样本输入所述第一标签预测模型中进行标签预测处理,得到各个测试样本的伪标签,以及将所述测试样本输入所述训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值;
根据所述各个测试样本的不确定性目标值和伪标签从所述测试样本集中确定目标测试样本,并利用各个目标测试样本以及所述各个目标测试样本的伪标签对所述训练样本集进行更新,利用更新后的训练样本集对所述第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定所述数据处理模型。
3.如权利要求2所述的方法,其特征在于,所述初始标签预测模型包括特征提取模块,所述利用所述训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,包括:
将所述训练样本集包括的训练样本输入初始标签预测模型,利用所述初始标签预测模型包括的特征提取模块对所述训练样本进行特征提取,得到各个训练样本的特征数据;
在利用所述各个训练样本的特征数据对所述初始标签预测模型进行训练的过程中,利用所述初始标签预测模型对所述各个训练样本的特征数据进行标签预测处理,得到各个训练样本的预测标签;
根据所述各个训练样本的预测标签和参考标签确定损失信息,并根据所述损失信息对所述初始标签预测模型的模型参数进行调整,根据模型参数调整后的初始标签预测模型确定初始训练后的第一标签预测模型。
4.如权利要求2所述的方法,其特征在于,所述将所述测试样本输入所述训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值,包括:
利用所述训练后的不确定性估计模型对所述测试样本进行不确定性分析处理,得到所述测试样本对应的数据不确定性预测值以及模型不确定性预测值;
根据所述数据不确定性预测值以及所述模型不确定性预测值确定所述测试样本的不确定性目标值。
5.如权利要求2-4中任一项所述的方法,其特征在于,所述各个测试样本的不确定性目标值包括第一不确定性目标值和第二不确定性目标值;所述根据所述各个测试样本的不确定性目标值和伪标签从所述测试样本集中确定目标测试样本,包括:
根据所述各个测试样本的第一不确定性目标值确定不确定性均值;
根据所述不确定性均值、所述各个测试样本的第一不确定性目标值和第二不确定性目标值、以及所述各个测试样本的伪标签,从所述测试样本集中确定目标测试样本。
6.如权利要求5所述的方法,其特征在于,所述根据所述不确定性均值、所述各个测试样本的第一不确定性目标值和第二不确定性目标值、以及所述各个测试样本的伪标签,从所述测试样本集中确定目标测试样本,包括:
按照第一不确定性目标值从大到小的顺序对各个测试样本进行排序处理,得到排序后的各个测试样本;
将所述排序后的各个测试样本中第二不确定性目标值大于或等于所述不确定性均值的测试样本作为候选测试样本;
将各个候选测试样本中第二不确定性目标值与相应的伪标签之间的差异度小于差异度阈值的候选测试样本确定为目标测试样本。
7.如权利要求2所述的方法,其特征在于,所述利用更新后的训练样本集对所述第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定所述数据处理模型,包括:
对所述各个目标测试样本的不确定性目标值进行归一化处理,得到各个目标测试样本的第一权重系数;
利用所述各个目标测试样本、所述各个目标测试样本的第一权重系数、所述训练样本集包括的训练样本以及各个训练样本的第二权重系数,对所述第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定所述数据处理模型;
其中,所述第一权重系数小于所述第二权重系数。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理数据对象;
处理模块,用于将所述待处理数据对象输入数据处理模型进行处理,得到目标处理结果;
其中,所述数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据所述不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及所述标签预测模型对所述测试样本处理得到的伪标签,从所述测试样本集中确定目标测试样本,根据各个所述目标测试样本以及各个所述目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对所述标签预测模型进行训练,根据训练后的标签预测模型确定所述数据处理模型。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-7任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行权利要求1-7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110876904.0A CN115687910A (zh) | 2021-07-31 | 2021-07-31 | 一种数据处理方法、装置、计算机设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110876904.0A CN115687910A (zh) | 2021-07-31 | 2021-07-31 | 一种数据处理方法、装置、计算机设备以及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687910A true CN115687910A (zh) | 2023-02-03 |
Family
ID=85059601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110876904.0A Pending CN115687910A (zh) | 2021-07-31 | 2021-07-31 | 一种数据处理方法、装置、计算机设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687910A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805157A (zh) * | 2023-08-25 | 2023-09-26 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
-
2021
- 2021-07-31 CN CN202110876904.0A patent/CN115687910A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805157A (zh) * | 2023-08-25 | 2023-09-26 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
CN116805157B (zh) * | 2023-08-25 | 2023-11-17 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
CN110377911B (zh) | 对话框架下的意图识别方法和装置 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
US11450095B2 (en) | Machine learning for video analysis and feedback | |
CN111666416A (zh) | 用于生成语义匹配模型的方法和装置 | |
CN111460101A (zh) | 知识点类型的识别方法、装置及处理器 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN115687910A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN114333787A (zh) | 口语考试的评分方法、装置、设备、存储介质及程序产品 | |
CN113590772A (zh) | 异常评分的检测方法、装置、设备及计算机可读存储介质 | |
CN113837910B (zh) | 试题推荐方法、装置、电子设备和存储介质 | |
CN113761837B (zh) | 实体关系类型确定方法、装置和设备及存储介质 | |
US20230385558A1 (en) | Text classifier for answer identification, background knowledge representation generator and training device therefor, and computer program | |
Kerkhofs | Emerging Intent Discovery For Conversational Dialog Models | |
CN113505582A (zh) | 一种音乐评论情感分析方法、设备及介质 | |
CN113590820A (zh) | 一种文本处理方法、装置、介质和电子设备 | |
KR20230073631A (ko) | IoT 및 AI를 활용한 언어학습 서비스 제공 시스템 및 방법 | |
Lauha | Improving Template-Based Bird Sound Identification | |
CN117853175A (zh) | 用户评价信息的预测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40081838 Country of ref document: HK |