CN115116474A

CN115116474A - 口语评分模型训练方法、评分方法、装置及电子设备

Info

Publication number: CN115116474A
Application number: CN202210502414.9A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-09-27

Abstract

本申请公开了一种口语评分模型训练方法、口语评分方法、装置、电子设备及存储介质。其中，口语评分模型训练方法包括：将样本回答音频输入通过元学习方式训练得到的预训练评分模型，得到预测评分；根据样本评分和预测评分，确定第一损失值；根据确定的目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值；根据第一损失值和第二损失值，对预训练评分模型进行训练，得到口语评分模型。在本申请中，通过第一损失值训练预训练评分模型的同时，引入了第二损失值训练预训练评分模型，提高了预训练评分模型对目标题型的适应能力，通过较少的训练样本也可以得到评分能力较高的口语评分模型，从而提高了口语评分模型的训练效率。

Description

口语评分模型训练方法、评分方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种口语评分模型训练方法、口语评分方法、装置、电子设备及存储介质。

背景技术

口语考试是一种考察口语能力的考试形式，所采用试题的题型包括看图说话、快速应答、主题描述、意见阐述等等。口语考试过程中，考试方完成回答后，评分方会从语音、语法以及问题回答准确性等角度对回答进行评分，从而得到考试分数。

为了提高口语考试的评分效率，可以基于已有题型的训练样本对神经网络模型进行训练，得到口语评分模型，然后，通过该口语评分模型对口语考试中的回答音频进行评分。但是，如此训练出来的口语评分模型对不同题型适应能力较差。

发明内容

有鉴于此，本申请实施例提出了一种口语评分模型训练方法、口语评分方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种口语评分模型训练方法，方法包括：获取训练样本，所述训练样本包括样本口语试题的样本回答音频和对应所述样本回答音频的样本评分，所述样本口语试题属于目标题型，所述样本评分基于对应所述目标题型的目标评分规则得到；将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，所述预训练评分模型通过元学习方式训练得到；根据所述样本评分和所述预测评分，确定第一损失值，所述第一损失值表征所述样本评分与所述预测评分之间的损失；在所述样本回答音频中确定目标回答音频；根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，所述第二损失值表征所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失；根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型。

第二方面，本申请实施例提供了一种口语评分方法，所述方法包括：获取测试口语试题对应的待评分回答音频，所述测试口语试题属于目标题型；将所述待评分回答音频输入口语评分模型，得到所述口语评分模型预测的所述待评分回答音频的口语评分，其中，所述口语评分模型由第一方面所述的口语评分模型训练方法训练得到；输出所述待评分回答音频的口语评分。

第三方面，本申请实施例提供了一种口语评分模型训练装置，装置包括：样本获取模块，用于获取训练样本，所述训练样本包括样本口语试题的样本回答音频和对应所述样本回答音频的样本评分，所述样本口语试题属于目标题型，所述样本评分基于对应所述目标题型的目标评分规则得到；第一评分模块，用于将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，所述预训练评分模型通过元学习方式训练得到；第一确定模块，用于根据所述样本评分和所述预测评分，确定第一损失值，所述第一损失值表征所述样本评分与所述预测评分之间的损失；第二确定模块，用于在所述样本回答音频中确定目标回答音频；第三确定模块，用于根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，所述第二损失值表征所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失；训练模块，用于根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型。

可选地，第三确定模块，还用于根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定每个所述目标回答音频各自的赋值；根据每个所述目标回答音频各自对应的预测评分以及赋值，确定第二损失值。

可选地，所述目标回答音频包括两个目标回答音频；第三确定模块，还用于将两个所述目标回答音频中样本评分较高的目标回答音频的赋值确定为第一数值；将两个所述目标回答音频中样本评分较低的目标回答音频的赋值确定为第二数值，所述第一数值大于所述第二数值。

可选地，所述预训练评分模型包括深度网络、规则向量矩阵以及全连接层，所述规则向量矩阵包括不同评分规则对应的规则向量；第一评分模块，还用于确定所述样本回答音频的特征信息；将所述特征信息输入所述深度网络，得到对应所述样本回答音频的深度特征；基于所述深度特征和所述规则向量矩阵，得到加权规则向量；对所述加权规则向量和所述深度特征进行拼接操作，得到拼接向量；将所述拼接向量输入所述全连接层，得到所述全连接层输出的所述样本回答音频的预测评分。

可选地，第一评分模块，还用于对所述深度特征的各个维度进行线性变换操作，得到变换后的深度特征；通过激活函数对所述变换后的深度特征进行激活处理，得到比例系数；根据所述比例系数和所述深度特征，得到处理后的深度特征；根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量；根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量；对所述处理后的深度特征以及所述加权规则向量进行拼接操作，得到拼接向量。

可选地，第一评分模块，还用于对所述处理后的深度特征和所述规则向量矩阵进行注意力计算，得到各个所述规则向量各自对应的规则权重；根据所述规则权重，对多个所述规则向量进行加权求和，得到所述加权规则向量。

可选地，所述训练样本还包括所述样本口语试题的参考答案；第一评分模块，还用于对所述样本回答音频进行声学特征提取，得到声学特征；对所述样本回答音频进行语音识别，得到回答文本；根据所述回答文本以及所述参考答案，得到文本特征；对所述声学特征和所述文本特征进行特征拼接，得到所述样本回答音频的特征信息。

可选地，第一评分模块，还用于对所述样本回答音频进行至少一级准确度评估，得到发音准确度，所述至少一级准确度评估包括音素级准确度评估、单词级准确度评估以及句子级准确度评估中的至少一种；对所述样本回答音频进行流利度评估，得到发音流利度；对所述样本回答音频进行韵律度评估，得到发音韵律度；将所述发音准确度、所述发音流利度以及所述发音韵律度中的至少一种确定为所述声学特征。

可选地，第一评分模块，还用于对所述回答文本进行语义特征提取，得到语义特征；提取所述回答文本中的第一关键词以及所述参考答案中的第二关键词；基于所述第一关键词和所述第二关键词的匹配度，确定关键词特征；对所述回答文本进行语用特征提取，得到语用特征，所述语用特征包括词汇多样性、句式多样性以及语法准确性中的至少一种；对所述回答文本进行文本流利度特征提取，得到文本流利度特征；将所述语义特征、所述关键词特征、所述语用特征以及所述文本流利度特征中的至少一种确定为所述文本特征。

可选地，训练模块，还用于计算所述第二损失值与预设参数的乘积，得到乘积结果；计算所述乘积结果与所述第一损失值的和，作为最终损失值；通过所述最终损失值对所述预训练评分模型进行训练，得到所述口语评分模型。

第四方面，本申请实施例提供了一种口语评分装置，所述装置包括：音频获取模块，用于获取测试口语试题对应的待评分回答音频，所述测试口语试题属于目标题型；第二评分模块，用于将所述待评分回答音频输入口语评分模型，得到所述口语评分模型预测的所述待评分回答音频的口语评分，其中，所述口语评分模型由第一方面所述的口语评分模型训练方法训练得到；输出模块，用于输出所述待评分回答音频的口语评分。

第五方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

第七方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述的方法。

本申请实施例提供的一种口语评分模型训练方法、口语评分方法、装置、电子设备及存储介质，通过表征样本评分与预测评分之间的损失的第一损失值训练预训练评分模型的同时，引入了表征预训练评分模型自身的评分规则与目标评分规则之间的损失的第二损失值训练预训练评分模型，提高了预训练评分模型对目标题型的适应能力，从而可以通过较少的训练样本也可以得到评分能力较高的口语评分模型，减少了训练过程所需要的样本数量，提高了口语评分模型的训练效率。同时，结合第一损失值和第二损失值对预训练评分模型进行训练，还提高了预训练评分模型针对目标题型的评分准确率和合理性，从而提高了口语评分模型的评分能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例示出的应用场景的示意图；

图2示出了本申请实施例中评分终端中的一种评分界面的示意图；

图3示出了本申请实施例中考试终端中的一种考试界面的示意图；

图4示出了本申请一个实施例提供的一种口语评分模型训练方法的流程图；

图5示出了图4中步骤S150的一种实施方式的流程图；

图6示出了图4中步骤S120的一种实施方式的流程图；

图7示出了图4中步骤S120的又一种实施方式的流程图；

图8示出了图6中步骤S310的一种实施方式的流程图；

图9示出了本申请实施例中预训练评分模型的训练过程示意图；

图10示出了本申请一个实施例提出的一种口语评分方法的流程图；

图11示出了本申请实施例中一种口语考试评分流程的示意图；

图12示出了本申请一个实施例提出的一种口语评分模型训练装置的框图；

图13示出了本申请一个实施例提出的一种口语评分装置的框图；

图14示出了用于执行根据本申请实施例的口语评分模型训练方法的电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。根据本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)、语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。本申请实施例即语音技术在口语考试场景下的应用，用于训练口语评分模型以及借助训练得到的口语评分模型，对口语试题的口语回答音频进行自动化评分。

图1示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括评分终端110、服务器120以及考试终端130。其中，考试终端130与服务器120之间通过通信网络进行数据通信，评分终端110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

评分终端110是用于进行人工评分的终端，该终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，本申请实施例对此不作限定。在一些实施例中，该评分终端110是评分人员使用的终端，该评分人员可以为教师或专业人员。

在一种可能的实施方式中，当需要训练对特定题型进行自动评分的口语评分模型时，服务器120向评分终端110提供待标注的训练样本，该训练样本包括样本口语试题(属于特定题型)、样本参考答案以及样本回答音频。评分终端110播放样本回答音频，并获取评分人员输入的样本评分，从而将样本评分反馈至服务器120。

例如，当需要对“主题描述”这一题型进行自动评分时，服务器120将待标注的训练样本发送至评分终端110，评分终端输出评分界面。如图2所示，评分终端110中的评分界面包括的题型(图2中的题型为主题描述)、口语试题、播放回答音频控件201、评分输入控件202以及确定控件203。评分终端110可以在接收到针对播放回答音频控件201发送的点击操作，播放回答音频，评分终端110在接收到针对评分输入控件202输入具体的分数的操作之后，接收到针对确定控件203的点击操作时，评分终端110将输入控件202中的分数作为样本评分，并将获取到的样本评分发送至服务器120。

服务器120是用于提供口语考试评分服务的设备，其可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例中，服务器120中设置有采用元学习方式训练得到的预训练评分模型。当需要为特定题型的口语考试提供评分服务时，服务器120即向评分终端110提供待标注的训练样本，并获取评分终端110反馈的评分，从而基于人工标注的训练样本，对预训练评分模型进行适应性训练，得到特定题型对应的口语评分模型。

考试终端130是具有口语考试者使用的终端，该终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，本申请实施例对此不作限定。

口语考试过程中，考试终端130显示口语试题，并通过音频组件进行音频采集，从而将采集到的回答音频上传至服务器120，由服务器120利用训练得到口语评分模型对该回答音频进行评分，并将评分得到的分数反馈至考试终端130。

例如，口语考试过程中，考试终端130显示服务器120发送的“主题描述”这一题型的口语试题，并通过考试终端130的考试界面输出口语试题。如图3a所示，考试终端130的考试界面可以包括题型(图3a、3b和3c中的题型为主题描述)、口语试题以及录音控件301，开始录音之前，录音控件301可以输出提示信息“开始录音”，考试终端130的录音控件301接收到点击操作时，考试终端130开始录制音频；录音过程中，考试界面如图3b所示，音控件301可以输出提示信息“录音结束”，当录音控件301再次接收到点击操作时，录音结束，得到回答音频，考试终端130将回答音频发送至服务器120，服务器120返回回答音频的口语评分，考试终端130接收到口语评分之后，考试界面如图3c所示，考试界面输出口语评分以及对应的口语试题。

需要说明的是，上述实施例中，以预训练评分模型、口语评分模型由服务器120训练得到，且评分过程由服务器120执行为例进行说明，在其他可能的实施方式中，上述模型可以由考试终端130或评分终端110训练得到，且模型可以部署在考试终端130侧，由考试终端130在本地对回答音频进行评分，本实施例对此不作限定。且为了方便表述，下述各个实施例中，以口语考试的评分方法由电子设备执行为例进行说明。

请参阅图4，图4示出了本申请一个实施例提供的一种口语评分模型训练方法的流程图，方法可以用于电子设备(例如图1中的服务器120)，方法包括：

S110、获取训练样本，所述训练样本包括样本口语试题的样本回答音频和对应所述样本回答音频的样本评分，所述样本口语试题属于目标题型，所述样本评分基于对应所述目标题型的目标评分规则得到。

训练样本包括用于训练口语评分模型的口语试题、口语试题的参考答案以及针对口语试题的回答音频，其中，训练口语评分模型的口语试题可以作为样本口语试题，样本口语试题的参考答案可以作为样本参考答案，针对样本口语试题的回答音频作为样本回答音频。样本口语试题可以是英文试题、汉语试题、俄语试题等等，本申请对样本口语试题的语种不做限定。

目标题型为具有自动评分需求的题型，且训练样本中的样本评分通过评分人员根据评分规则对样本回答音频进行人工标注得到，评分人员所依据的评分规则作为目标评分规则，目标评分规则可以是评分人员制定的规则。通常，一个目标题型对应一个目标评分规则，例如，目标题型为快速应答时，对应的目标评分规则为快速应答评分规则，又如，目标题型为看图说话时，对应的目标评分规则为看图说话评分规则。

其中，人工标注的样本评分可以采用1分制、5分制、10分制度或百分制等等，本实施例对此不作限定。

在一种可能的实施方式中，当接收到自动评分指令时，电子设备基于自动评分指令中包含的目标题型，从数据库中获取属于该目标题型的样本口语试题，并获取样本口语试题对应的样本参考答案以及样本回答音频(对样本口语试题进行回答时采集到的音频)。若该样本回答音频未经过人工标注，则进一步交由评分人员对该样本回答音频进行评分，得到样本评分。

S120、将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，所述预训练评分模型通过元学习方式训练得到。

预训练评分模型由电子设备预先训练并部署，或者，该预训练评分模型由其他设备训练得到，并部署在电子设备中，本实施例对此不作限定。

在一些实施方式中，该预训练评分模型以任务(task)为单位，采用元学习方式训练得到，预训练评分模型所对应的任务通常包括多个题型分别对应的任务，所采用的多个任务对应的题型可以包含目标题型，或者，不包含目标题型，比如，该预训练评分模型基于看图说话、快速应答以及主题描述这三种题型对应的任务训练得到，训练样本对应的目标题型为看图说话，或者，训练样本对应的目标题型为意见阐述。

元学习(Meta Learning)含义为学会学习，元学习的目的是使得模型获取一种“学会学习”的能力，使其可以在获取已有“知识”的基础上快速学习新的任务，让模型具有良好的初始化参数(即模型在预训练过程中学习到了先验知识)，该初始化参数在训练任务上可能表现得并不出色，但是以该初始化参数为起点，能够快速适应新的任务，提高模型对新任务的适配能力。

训练得到预训练评分模型之后，将目标题型的样本口语试题所对应的样本回答音频输入预训练评分模型，得到该预训练评分模型预测的评分，作为样本回答音频所对应的预测评分。

通常，需要对样本回答音频进行特征提取，得到对应的特征信息，特征信息可以包括表征样本回答音频的发音特性的声学特征以及表征样本回答音频所对应的回答文本的文本特征，样本回答音频所对应的回答文本可以是指对样本回答音频进行语音识别，得到的文本信息。

确定了样本回答音频的特征信息之后，将特征信息输入预训练评分模型，得到预训练评分模型所输出的预测评分。

S130、根据所述样本评分和所述预测评分，确定第一损失值，所述第一损失值表征所述样本评分与所述预测评分之间的损失。

可以根据样本回答音频被标注的样本评分以及预训练评分模型预测的样本回答音频的预测评分，确定所述样本评分与所述预测评分之间的损失，作为第一损失值。

可选地，可以是基于所述样本评分与所述预测评分，根据均方差损失函数，确定第一损失值。其中，第一损失值求解方法参照公式一，公式一如下：

其中，L_score为第一损失值，n为训练样本中样本回答音频的数量，p_i为第i个样本回答音频的预测评分，y_i为第i个样本回答音频的样本评分。

S140、在所述样本回答音频中确定目标回答音频。

S150、根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，所述第二损失值表征所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失。

可以在样本回答音频中确定至少两个样本回答音频，作为目标回答音频，然后根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失，作为第二损失值，第二损失值可以较准确的反映目标评分规则与所述预训练评分模型自身的评分规则之间的损失。

预训练评分模型可以是根据预训练评分模型自身的评分规则对样本回答音频进行评分预测，预训练评分模型自身的评分规则可以是指通过元学习训练得到预训练评分模型时，预训练评分模型所学习到的评分规则。

当预训练评分模型是基于一个题型的任务通过元学习得到的模型时，预训练评分模型自身的评分规则适用于该题型下的口语试题所对应的回答音频，当预训练评分模型是基于多个题型的任务通过元学习得到的模型时，预训练评分模型自身的评分规则适用于该多个题型下的口语试题所对应的回答音频。

例如，预训练评分模型是基于看图说话对应的任务，通过元学习得到的模型，该预训练评分模型自身的评分规则适用于看图说话下的口语试题所对应的回答音频；又如，预训练评分模型是基于看图说话、快速应答以及主题描述分别对应的任务，通过元学习得到的模型，该预训练评分模型自身的评分规则适用于看图说话、快速应答以及主题描述三个题型下的口语试题所对应的回答音频。

S160、根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型。

得到第一损失值和第二损失值之后，可以是将第一损失值和第二损失值汇总，得到最终损失值，然后通过最终损失值训练预训练评分模型，得到口语评分模型，得到的口语评分模型适用于目标题型。

第二损失值可以较准确的反映目标评分规则与所述预训练评分模型自身的评分规则之间的损失，从而根据第二损失值对应的最终损失值训练得到的口语评分模型可以较好的适用于目标题型，因此即使采用较少的训练样本，也可训练得到评分效果较好的口语评分模型，从而减少了训练口语评分模型的时间，提高了口语评分模型的训练效率。

例如，当需要对看图说话这一题型进行自动评分时，电子设备获取属于看图说话的样本口语试题，并获取该样本口试试题的样本参考答案、10条样本回答音频以及各条样本回答音频的样本评分。

可选地，S160可以包括：计算所述第二损失值与预设参数的乘积，得到乘积结果；计算所述乘积结果与所述第一损失值的和，作为最终损失值；通过所述最终损失值对所述预训练评分模型进行训练，得到所述口语评分模型。其中，预设参数可以是基于需求设定的值，预设参数可以是指第二损失值的权重，用于平衡第一损失值和第二损失值的影响。

最终损失值的计算方式可以参照公式二，公式二如下：

L＝L_score+γ×L_cons (二)

其中，γ为第二损失值对应的预设参数，L_cons为第二损失值，L为最终损失值。

在一些实施方式中，第一损失值的重要性可以强于第二损失值，第二损失值的预设参数通常在区间(0,1)内取值，例如0.5。

可以理解的是，目标题型可以包括多个不同的目标题型，根据不同目标题型对应的训练样本，分别训练预训练评分模型，可以得到不同目标题型分别对应的口语评分模型。例如，根据看图说话和快速应答两种题型分别对应的训练样本，分别对两个预训练评分模型进行训练，得到适用于看图说话的口语评分模型和适用于快速应答的口语评分模型。

本实施例提供了一种口语评分模型训练方法，通过获取训练样本，所述训练样本包括样本口语试题的样本回答音频和对应所述样本回答音频的样本评分，所述样本口语试题属于目标题型，所述样本评分基于对应所述目标题型的目标评分规则得到；将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，所述预训练评分模型通过元学习方式训练得到；根据所述样本评分和所述预测评分，确定第一损失值，所述第一损失值表征所述样本评分与所述预测评分之间的损失；在所述样本回答音频中确定目标回答音频；根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，所述第二损失值表征所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失；根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型。本实施例中，通过表征样本评分与预测评分之间的损失的第一损失值训练预训练评分模型的同时，引入了表征预训练评分模型自身的评分规则与目标评分规则之间的损失的第二损失值训练预训练评分模型，提高了预训练评分模型对目标题型的适应能力，使得模型可以快速适配目标题型，从而可以通过较少的训练样本也可以得到评分能力较高的口语评分模型，减少了训练过程所需要的样本数量，提高了口语评分模型的训练效率。同时，结合第一损失值和第二损失值对预训练评分模型进行训练，还提高了预训练评分模型针对目标题型的评分准确率和合理性，从而提高了口语评分模型的评分能力。

请参阅图5，图5示出了图4中步骤S150的一种实施方式的流程图，方法可以用于电子设备(例如图1中的服务器120)，S150可以包括：

S210、根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定每个所述目标回答音频各自的赋值。

用于训练预训练评分模型的样本回答音频通常包括多个，可以从多个样本回答音频中随机确定两个样本回答音频，作为目标回答音频。

确定出的两个目标回答音频的样本评分是不同的，根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定每个所述目标回答音频各自的赋值。

例如，S210可以包括：将两个所述目标回答音频中样本评分较高的目标回答音频的赋值确定为第一数值；将两个所述目标回答音频中样本评分较低的目标回答音频的赋值确定为第二数值，所述第一数值大于所述第二数值。第一数值可以是1，第二数值可以是0。

例如，两个目标回答音频分别为A1和A2，A1的样本评分为0.91(一分制的评分)，A2的样本评分为0.84，此时，将A2的赋值确定为0，A1的赋值确定为1。

S220、根据每个所述目标回答音频各自对应的预测评分以及赋值，确定第二损失值。

确定出目标回答音频各自对应的赋值后，获取预训练评分模型预测的目标回答音频的预测评分，根据每个所述目标回答音频各自对应的预测评分以及赋值，确定第二损失值。

可以是根据每个所述目标回答音频各自对应的预测评分以及赋值，通过交叉熵损失函数，确定第二损失值。第二损失值求解方法参照公式三，公式三如下：

其中，

为第i个目标回答音频对应的赋值，

为第i个目标回答音频对应的预测评分，n为目标回答音频的数量。

在一些实施方式中，目标回答音频对应的预测评分可以是百分制的，需要对预测评分进行归一化处理，得到值在区间(0，1)内的预测评分，该在区间(0，1)内的预测评分作为公式三中目标回答音频的预测评分。

不同题型对应的评分标准不同，但两个样本回答音频之间的相对好坏是固定的，本实施例通过上述两个目标回答音频的样本评分以及赋值，确定第二损失值，以通过第二损失值对评分的有序性进行建模，从而使得第二损失值可以表征预训练评分模型自身的评分规则与目标评分规则之间的损失。

在一些实施方式中，可以通过做孪生网络(siamese network)确定第二损失值。孪生网络用于衡量两个输入(两个目标回答音频)的相似程度。孪生网络包括两个神经网络，对应有两个输入，将两个输入分别输入两个神经网络(在本申请中，该两个神经网络可以是指两个相同的预训练评分模型)，这两个神经网络分别将输入映射到新的空间，得到对应两个输入的输出(两个目标回答音频对应的预测评分)，并计算两个输出的Loss(损失值)，作为第二损失值，该第二损失值用于评价两个输入的相似度。

在本实施例中，通过第二损失值对预训练评分模型进行训练，提高了预训练评分模型对目标评分规则的学习效率，提高了预训练评分模型对目标题型的适应性，从而提高了口语评分模型的训练效率。

请参阅图6，图6示出了图4中步骤S120的一种实施方式的流程图，方法可以用于电子设备(例如图1中的服务器120)，S120可以包括：

S310、确定所述样本回答音频的特征信息。

样本回答音频的特征信息可以包括表征样本回答音频的发音特性的声学特征以及表征样本回答音频所对应的回答文本的文本特征。

S320、将所述特征信息输入所述深度网络，得到对应所述样本回答音频的深度特征。

在本实施例中，预训练评分模型可以包括深度网络、规则向量矩阵以及全连接层，所述规则向量矩阵包括不同评分规则对应的规则向量。预训练评分模型对应的评分模型(评分模型是指用于得到预训练评分模型的、参数初始化的模型)包括初始化的深度网络以及初始化的规则向量矩阵，通过元学习方式对评分模型进行训练，以使初始化的深度网络学习到深度表示能力以及初始化的规则向量矩阵学习到不同的评分规则，得到预训练评分模型。

将样本回答音频的特征信息输入预训练评分模型的深度网络，得到该深度网络输出的对应所述样本回答音频的深度特征。

S330、基于所述深度特征和所述规则向量矩阵，得到加权规则向量。

得到预训练评分模型的深度网络输出的深度特征之后，根据预训练评分模型中的规则向量矩阵和预训练评分模型的深度网络输出的深度特征，得到加权规则向量。

可以是根据预训练评分模型的深度网络输出的深度特征，确定预训练评分模型中的规则向量矩阵中各个规则向量的权重，根据各个规则向量的权重，对各个规则向量进行加权求和，得到加权规则向量。

在一些实施方式中，所述基于所述深度特征和所述规则向量矩阵，得到加权规则向量，包括：对所述深度特征和所述规则向量矩阵进行注意力计算，得到各个所述规则向量各自对应的规则权重；根据所述规则权重，对多个所述规则向量进行加权求和，得到所述加权规则向量。

注意力计算可以是通过注意力机制，自动学习和计算输入数据对输出数据的贡献大小。根据深度特征和所述规则向量矩阵，进行注意力计算的过程可以参照公式四，公式四如下：

其中，M为规则向量矩阵中的任意一个规则向量，P为规则向量M对应的规则权重，

为深度特征f₁的转置。

得到各个所述规则向量各自对应的规则权重之后，对多个所述规则向量进行加权求和，得到所述加权规则向量。

S340、对所述加权规则向量和所述深度特征进行拼接操作，得到拼接向量。

S350、将所述拼接向量输入所述全连接层，得到所述全连接层输出的所述样本回答音频的预测评分。

得到加权规则向量之后，对所述加权规则向量和所述深度特征进行拼接操作，得到拼接向量，然后将拼接向量输入所述全连接层，得到所述全连接层输出的所述样本回答音频的预测评分。其中，全连接层的激活函数可以是Sigmoid激活函数。

在本实施例中，对样本回答音频对应的深度特征和加权规则向量进行拼接，得到拼接向量，拼接向量可以准确的反映预训练评分模型的预测评分，从而提高了第一损失值和第二损失值的准确性。

请参阅图7，图7示出了图4中步骤S120的又一种实施方式的流程图，方法可以用于电子设备(例如图1中的服务器120)，S120可以包括：

S410、确定所述样本回答音频的特征信息。

S420、将所述特征信息输入所述深度网络，得到对应所述样本回答音频的深度特征。

其中，S410和S420的描述参照上文S310和S320的描述，此处不再赘述。

S430、对所述深度特征的各个维度进行线性变换操作，得到变换后的深度特征；通过激活函数对所述变换后的深度特征进行激活处理，得到比例系数；根据所述比例系数和所述深度特征，得到处理后的深度特征；根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量。

其中，S430中的激活函数可以是Sigmoid激活函数。

通过对所述深度特征的各个维度进行线性变换操作，得到变换后的深度特征，通过激活函数对所述变换后的深度特征进行激活处理，得到各个维度各自的比例系数，比例系数的值在区间(0,1)内，然后将深度特征的各个维度乘以对应的比例系数，得到处理后的深度特征。通过上述对深度特征的处理，实现了抑制和激活深度特征的效果，使得得到的处理后的深度特征的准确性更高。

根据深度特征得到各个维度各自的比例系数的计算过程可以参照公式五，公式五如下：

A＝Sigmoid(ω×f+b) (五)

其中，f和b分别为对深度特征的各个维度进行线性变换操作的斜率和截距，ω为深度特征的任一维度的值，A为ω对应的比例系数。

在一些实施方式中，所述根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量，包括：对所述处理后的深度特征和所述规则向量矩阵进行注意力计算，得到各个所述规则向量各自对应的规则权重；根据所述规则权重，对多个所述规则向量进行加权求和，得到所述加权规则向量。

其中，根据处理后的深度特征和所述规则向量矩阵，进行注意力计算的过程可以参照公式六，公式六如下：

为处理后的深度特征f₂的转置。

S440、对所述处理后的深度特征以及所述加权规则向量进行拼接操作，得到拼接向量。

在得到处理后的深度特征之后，将处理后的深度特征与加权规则向量进行接，得到拼接向量，该拼接向量是基于处理后的深度特征的，拼接向量更加准确的反映了预训练评分模型对样本回答音频的预测评分。

S450、将所述拼接向量输入所述全连接层，得到所述全连接层输出的所述样本回答音频的预测评分。

其中，S450的描述参照S350的描述，不再赘述。

在本实施例中，对深度特征进行抑制和激活处理，得到处理后的深度特征，从而使得根据处理后的深度特征和加权规则向量得到的拼接向量更加准确的反映了预训练评分模型对样本回答音频的预测评分，提高了预测评分的准确性。

请参阅图8，图8示出了图6中步骤S310的一种实施方式的流程图，方法可以用于电子设备(例如图1中的服务器120)，S310可以包括：

S510、对所述样本回答音频进行声学特征提取，得到声学特征。

其中，该声学特征包括发音准确度、发音流利度以及发音韵律度中的至少一种，下面分别对各种特征的提取过程进行说明。

对所述样本回答音频进行至少一级准确度评估，得到发音准确度，所述至少一级准确度评估包括音素级准确度评估、单词级准确度评估以及句子级准确度评估中的至少一种。

电子设备对回答音频进行语音识别，从而基于语音识别结果的发音置信度(Goodness Of Pronunciation，GOP)，确定回答音频的发音准确度。电子设备可以从至少一个粒度，对回答音频进行至少一级准确度评估，得到发音准确度。其中，当粒度包括音素粒度、单词粒度以及句子粒度时，至少一级准确度评估包括音素级准确度评估、单词级准确度评估以及句子级准确度评估中的至少一种。

电子设备对所述样本回答音频进行流利度评估，得到发音流利度。

由于发音流利度与语速以及停顿时长相关，因此在一些实施方式中，电子设备基于回答音频的平均语速、发音段的平均发音时长以及发音段之间的平均停顿时长，确定发音流利度。其中，平均语速基于回答音频的音频时长以及语音识别得到的单词数确定得到，且发音流利度与平均语速呈正相关关系，发音流利度与平均发音时长呈负相关关系，发音流利度与平均停顿时长呈正相关关系。

电子设备对所述样本回答音频进行韵律度评估，得到发音韵律度。

电子设备确定回答音频进行发音节奏感评估，对回答音频中句子中的单词重读正确性进行评估(即确定句子中需要重读的单词是否被重读)，对回答音频中句子的句子边界音调进行评估(即确定是否通过音调体现出句子边界)，从而基于各项评估结果确定发音韵律度。

需要说明的是，本申请实施例仅以声学特征包含上述特征为例进行示意性说明，在其他可能的实施方式中，也可以将其他能够表征声学准确度、完整度、丰富度的特征作为声学特征，以提高特征维度的多样性，本实施例并不对此构成限定。

S520、对所述样本回答音频进行语音识别，得到回答文本。

在本实施例中，训练样本还包括对应样本口语试题的参考答案，电子设备对回答音频进行语音识别，得到回答文本，再基于回答文本以及参考答案，对回答音频进行文本特征提取，得到文本特征。

S530、根据所述回答文本以及所述参考答案，得到文本特征。

其中，该文本特征可以包括将语义特征、关键词特征、语用特征以及文本流利度特征中的至少一种，下面分别对各种特征的提取过程进行说明。

电子设备对所述回答文本进行语义特征提取，得到语义特征。其中，该语义特征可以包括主题特征、词频-反文档频率(TermFrequency Inverse Document Frequency，TF-IDF)特征等等，本申请实施例对此不作限定。

由于回答内容的准确度通常与关键词相关，因此电子设备还可以提取所述回答文本中的第一关键词以及所述参考答案中的第二关键词；基于所述第一关键词和所述第二关键词的匹配度，确定关键词特征。

该关键词特征包括关键词准确率以及关键词召回率中的至少一种。其中，关键词准确率基于召回关键词的数量(召回关键词即第一关键词和第二关键词中匹配的关键词)以及第一关键词的数量确定得到，关键词召回率基于召回关键词的数量与第二关键词的数量确定得到。比如。当提取到第一关键词的数量为5，提取到第二关键词的数量为8，且召回关键词的数量为4时，电子设备确定关键词准确率为0.8，关键词召回率为0.5。

口语考试中，除了考察表达内容的准确性外，还需要考察所使用词汇、句式以及语法的丰富性和准确性。因此，电子设备还可以对所述回答文本进行语用特征提取，得到语用特征，所述语用特征包括词汇多样性、句式多样性以及语法准确性中的至少一种。

电子设备对回答文本中所使用的词汇进行去重统计，得到词汇使用量，从而基于词汇使用量以及回答文本中的词汇总量，确定词汇多样性；电子设备对回答文本进行句式识别，并对句式类型进行统计，从而基于句式类型的数量确定句式多样性；电子设备将回答文本输入预先训练得到的语言分析模型(例如Tensorflow语法分析模型)，由语言分析模型进行语法分析，得到语法准确性。

电子设备还可以对所述回答文本进行文本流利度特征提取，得到文本流利度特征。电子设备可以识别回答文本中连续重复内容比如将同一句子中连续出现的相同词汇确定为连续重复内容，将相邻出现的重复句子确定为连续重复内容等等，从而基于连续重复内容在回答文本中所占的比例，确定回答文本的文本流利度特征。

需要说明的是，本申请实施例仅以文本特征包含上述特征为例进行示意性说明，在其他可能的实施方式中，也可以将其他能够表征文本准确度、完整度、丰富度的特征作为文本特征，以提高特征维度的多样性，本实施例并不对此构成限定。

S540、对所述声学特征和所述文本特征进行特征拼接，得到所述样本回答音频的特征信息。

对于提取到的文本特征和声学特征，首先对两者进行拼接，得到作为预训练评分模型输入的特征信息。其中，该特征信息可以采用特征向量的形式。

在本实施例中，样本回答音频的特征信息包括声学特征以及文本特征，声学特征和文本特征又分别包括多种特征，样本回答音频的特征信息可以较准确、较全面的反映样本回答音频的具体特征，使得样本回答音频对应的预测评分更加准确可靠。

为了更方便的了解本方案，下面结合具体场景，对本申请实施例中的口语评分模型的训练方法进行解释。

请参阅图9，图9示出了本申请实施例中预训练评分模型的训练过程示意图。

其中，预训练评分模型可以包括任务相关特征模块和打分规则模块，任务相关特征模块包括深度网络和全连接层，打分规则模块包括规则向量矩阵，规则向量矩阵包括Z个规则向量，Z为不为零的整数。

获取到训练样本后，确定训练样本中的样本回答音频的特征信息，将样本回答音频的特征信息输入深度网络，得到深度特征；根据深度特征，确定比例系数，根据比例系数和深度特征，得到处理后的深度特征。

根据处理后的深度特征和Z个规则向量，进行注意力计算，得到Z个规则向量各自的规则权重，并根据Z个规则向量各自的规则权重对Z个规则向量进行加权求和，得到加权规则向量。

将加权规则向量和处理后的深度特征进行拼接，得到拼接向量，然后将拼接向量输入全连接层，得到样本回答音频的预测评分，并根据样本回答音频的预测评分以及样本评分，确定第一损失值。

可以在样本回答音频中确定两个目标回答音频，将两个目标回答音频的特征信息分别输入孪生网络中的两个神经网络，得到两个神经网络各自输出的预测评分，该孪生网络中的两个神经网络可以是与预训练评分模型相同的网络模型。

根据两个目标回答音频各自的样本评分之间的大小关系，确定两个目标回答音频各自的赋值，并根据两个目标回答音频的预测评分和对应的赋值，确定第二损失值。

通过第一损失值和第二损失值计算最终损失值，并通过最终损失值对预训练评分模型进行训练，得到口语评分模型。通过最终损失值对预训练评分模型进行训练可以是指对预训练评分模型中的规则向量矩阵以及深度网络的参数进行调整。

基于训练样本对预训练评分模型进行训练的过程可以被称为微调(fine tune)，且电子设备以训练样本对应的最终损失值，对预训练评分模型的模型参数进行调整，使训练后得到的口语评分模型快速适配目标题型。

请参阅图10，图10示出了本申请一个实施例提出的一种口语评分方法的流程图，方法可以用于电子设备(电子设备可以是图1中的服务器120)，方法可以包括：

S610、获取测试口语试题对应的待评分回答音频，所述测试口语试题属于目标题型。

测试口语试题可以是指用于进行口语测试的口语试题。在电子设备为服务器时，测试口语试题可以是通过服务器发送至考试终端，考试终端输出测试口语试题，考生通过考试终端录制针对测试口语试题的回答音频，该回答音频作为待评分回答音频，待评分回答音频通过考试终端发送至服务器。

由于训练好的口语评分模型是基于目标题型的训练样本的，因此，得到的测试口语试题可以是属于目标题型的，以保证口语评分模型预测的测试口语试题对应的待评分回答音频的口语评分的准确性较高。

S620、将所述待评分回答音频输入口语评分模型，得到所述口语评分模型预测的所述待评分回答音频的口语评分，其中，所述口语评分模型由上述任一实施例所述的口语评分模型训练方法训练得到。

口语评分模型可以由上述任一实施例所述的口语评分模型训练方法训练得到，此处不再赘述。

由于预训练评分模型包括深度网络、全连接层以及规则向量矩阵，训练得到的口语评分模型也包括深度网络、全连接层以及规则向量矩阵，但是，口语评分模型的规则向量矩阵和深度网络的参数，与预训练评分模型的规则向量矩阵和深度网络的参数不同。

口语评分模型的输入是特征向量，因此，需要对待评分回答音频进行特征确定，得到待评分回答音频的特征信息，待评分回答音频的特征信息可以包括表征待评分回答音频的发音特性的声学特征以及表征待评分回答音频所对应的文本特征。

其中，待评分回答音频的特征信息的确定方法参照上文样本回答音频的确定方法，不再赘述。

将待评分回答音频的特征信息输入口语评分模型的深度网络，得到待评分的深度特征，作为待评分深度特征；根据待评分深度特征，确定新的比例系数，根据新的比例系数和待评分深度特征，得到处理后的待评分深度特征。

根据处理后的待评分深度特征和口语评分模型的规则向量矩阵中各个规则向量，进行注意力计算，得到各个规则向量各自的权重，并根据各个规则向量各自的权重对各个规则向量进行加权求和，得到新的加权规则向量。

将该新的加权规则向量和处理后的待评分深度特征进行拼接，得到新的拼接向量，然后将新的拼接向量输入口语评分模型的全连接层，得到待评分回答音频的口语评分。

S630、输出所述待评分回答音频的口语评分。

得到待评分回答音频的口语评分之后，电子设备可以输出待评分回答音频的口语评分。

在一些实施方式中，电子设备为服务器时，服务器接收考试终端发送的待评分回答音频，服务器通过口语评分模型对待评分回答音频进行评分，得到对应的口语评分，服务器将待评分回答音频的口语评分返回给考试终端，考试终端输出待评分回答音频的口语评分。

可以理解的是，口语评分模型输出的待评分回答音频的口语评分可以是归一化的评分(值在区间(0,1)内的评分)，可以对该口语评分进行处理，得到对应的实际评分，实际评分可以是百分制或者十分制的。

在一种可能的实施方式中，在训练口语评分模型之前，电子设备首先采用元学习方式训练得到预训练评分模型。下面对预训练评分模型的训练过程进行说明。

由于元学习过程中以任务为单位进行训练，因此电子设备首先需要获取元学习任务集合。针对口语考试场景，电子设备可以将特定题型的口语试题、该口语试题的参考答案、若干回答音频以及回答音频对应的样本评分作为一个元学习任务。

在一个示意性的例子中，电子设备采用三种题型进行元学习，分别为看图说话、快速应答以及主题描述，每个题型包含4道口语试题，且每道口语试题包含200条回答音频，得到包含12个元学习任务的元学习任务集合。

获取到元学习任务后，电子设备基于元学习任务集合，训练预训练评分模型。

在一种可能的实施方式中，每个元学习任务中又被进一步划分为训练任务(training task)和验证任务(valid task或testing task)。元学习过程可以包括：从元学习任务集合中选取候选元学习任务；对于各个候选元学习任务，基于候选元学习任务中的训练任务对于评分模型的全局模型参数进行参数优化，得到候选元学习任务对应的任务模型参数；基于采用任务模型参数的评分模型，确定候选元学习任务中验证任务的验证损失；基于各个候选元学习任务的验证损失对全局模型参数进行优化，得到优化后的全局模型参数；在验证损失收敛的情况下，将采用优化后的全局模型参数的评分模型确定为预训练评分模型。

每一轮元学习过程中，电子设备随机从元学习任务集合中选取若干候选元学习任务用于本轮训练。

对于当前训练轮次中的各个候选元学习任务，电子设备通过评分模型对训练任务中的各条回答音频进行评分，得到预测评分，并基于该预测评分和对应的样本评分之间的损失，采用梯度下降算法对评分模型的全局模型参数进行参数优化，得到针对当前候选元学习任务的任务模型参数，即采用该任务模型参数的评分模型较好的适配当前候选元学习任务。

候选元学习任务的损失值的求解算法可以是均方差损失函数，候选元学习任务的损失值的求解参照公式七，公式七如下：

其中，L_h为候选元学习任务的损失值，k为候选元学习任务中回答音频的数量，

为评分模型对第i个回答音频的预测评分，

为第i个回答音频的样本评分(人工标注的评分)。

电子设备通过采用任务模型参数的评分模型，对验证任务中的各条回答音频进行评分，得到预测评分，并将该预测评分和样本评分之间的损失确定为当前候选元学习任务的验证损失。其中，验证损失的计算过程可以参考上述公式七。

对于当前训练轮次中的各个候选元学习任务，电子设备通过执行上述方法，得到各个候选元学习任务对应的验证损失，并对不同候选元学习任务的验证损失进行求和，从而根据验证损失之和采用梯度下降对全局模型参数进行优化，从而得到优化后的全局模型参数。

元学习过程中，电子设备检测验证损失是否收敛。若未收敛，则重复执行上述训练步骤(在上一轮优化的全局模型参数的基础上)；若收敛，电子设备则将采用优化后的全局模型参数的评分模型确定为预训练评分模型。

在一种可能的实施方式中，电子设备可以采用MAML(Model-Agnostic Meta-Learning)进行元学习得到预训练评分模型，该过程的伪代码如下：

为了验证本申请实施例提供的方案，如表1所示，采用3种题型进行元学习的预训练，分别为看图说话、快速应答和主题描述，每个题型包含4道题目，每道题目包含50条训练数据和150条验证数据。基于元学习训练得到预训练评分模型后，进行口语评分模型的训练时，采用两种测试集，一种是元学习训练中包含的题型看图说话，另一种是不包含在元学习训练中的题型意见阐述，来测试口语评分模型对全新题型的适配能力，表1如下：

表1

基于上述测试任务数据，分别基于SVR(支持向量回归模型，Support VectorRegression)、BLSTM(双向长短记忆网络，Bidirectional Long Short-Term Memory)、MTLpre-train、MAML以及口语评分模型进行新任务的快速适配训练。其中，口语评分模型是指按照上述任一实施例所述的口语评分模型训练方法训练得到的口语评分模型，MTL pre-train为通过元学习进行训练得到的预训练评分模型。

看图说话题型的测试结果如图表2所示，表2如下：

表2

模型	分差≤0.5	分差≤1	PCC(％)
				FT-SVR	60.5	87.3	50.8
FT-BLSTM	63.2	87.5	51.5
				MTL pre-train	64.1	89.6	52.3
MAML	66.5	90.7	54.5
				口语评分模型	70.8	93.4	58.2

意见阐述题型的测试结果如表3所示，表3如下：

表3

模型	分差≤0.5	分差≤1	PCC(％)
				FT-SVR	55.1	85.3	49.8
FT-BLSTM	58.4	87.6	51.6
				MTL pre-train	60.2	88.3	53.1
MAML	63.6	89.5	56.8
				口语评分模型	67.3	92.9	59.2

其中，FT-SVR为基于SVR进行新任务的快速适配训练，得到的模型，FT-BLSTM为基于BLSTM进行新任务的快速适配训练，得到的模型。

测试结果采用三种指标表示，分别为分差≤0.5档的比例、分差≤1档的比例以及皮尔逊相关系数(PCC，用于度量两个变量X和Y之间的线性相关性，其值介于-1与1之间)，其中，分差是指评分模型的预测分数与实际的人工手动评分的样本评分的差。可以看出，采用本申请的口语评分模型，针对已知任务和新任务，任务的快速适配能力均较高。

当训练样本的数量不同时，不同模型的皮尔逊相关系数参照表4，表4如下：

表4

模型	0	10	20	50
					FT-SVR	49.8	51.1	53.5	61.7
FT-BLSTM	51.6	52.7	55.4	64.2
					MTL pre-train	53.1	56.4	60.6	73.8
MAML	56.8	61.5	63.7	78.2
					口语评分模型	59.2	63.1	65.2	79.0

可以看出，在样本数量一定的情况下，本申请中的口语评分模型具有较优的效果，同时，在极少样本下(例如10条)，本申请的口语评分模型具有较好的表现。

在一种可能的应用场景下，口语考试的评分流程如图11所示，步骤如下：

1)老师打开口语考试APP，评分终端显示口语试题并播放学生的回答音频；

2)老师对回答音频进行评分；

3)口语考试APP将标注分数(回答音频对应的样本评分)发送至服务器；

4)服务器将回答音频、参考答案、标注分数等信息发送给任务快速适配模块；

5)任务快速适配模块对预训练评分模型进行微调，得到适配当前题型的口语评分模型；

6)学生打开口语考试APP，考试终端显示口语试题，并获取学生的回答；

7)口语考试APP将回答音频和口语试题发送至服务器；

8)服务器将回答音频存储至数据库；

9)服务器从数据库中读取回答音频、参考答案和题型，输入到题型对应的口语评分模型；

10)口语评分模型对回答音频进行评分；

11)口语评分模型将分数(口语评分模型预测的口语评分)返回至服务器；

12)服务器返回分数至口语考试APP，以便学生查看。

请参阅图12，图12示出了本申请一个实施例提出的一种口语评分模型训练装置的框图，所述装置700包括：

样本获取模块710，用于获取训练样本，所述训练样本包括样本口语试题的样本回答音频和对应所述样本回答音频的样本评分，所述样本口语试题属于目标题型，所述样本评分基于对应所述目标题型的目标评分规则得到；

第一评分模块720，用于将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，所述预训练评分模型通过元学习方式训练得到；

第一确定模块730，用于根据所述样本评分和所述预测评分，确定第一损失值，所述第一损失值表征所述样本评分与所述预测评分之间的损失；

第二确定模块740，用于在所述样本回答音频中确定目标回答音频；

第三确定模块750，用于根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，所述第二损失值表征所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失；

训练模块760，用于根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型。

可选地，第三确定模块750，还用于还用于根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定每个所述目标回答音频各自的赋值；根据每个所述目标回答音频各自对应的预测评分以及赋值，确定第二损失值。

可选地，所述目标回答音频包括两个目标回答音频；第三确定模块750，还用于将两个所述目标回答音频中样本评分较高的目标回答音频的赋值确定为第一数值；将两个所述目标回答音频中样本评分较低的目标回答音频的赋值确定为第二数值，所述第一数值大于所述第二数值。

可选地，所述预训练评分模型包括深度网络、规则向量矩阵以及全连接层，所述规则向量矩阵包括不同评分规则对应的规则向量；第一评分模块730，还用于确定所述样本回答音频的特征信息；将所述特征信息输入所述深度网络，得到对应所述样本回答音频的深度特征；基于所述深度特征和所述规则向量矩阵，得到加权规则向量；对所述加权规则向量和所述深度特征进行拼接操作，得到拼接向量；将所述拼接向量输入所述全连接层，得到所述全连接层输出的所述样本回答音频的预测评分。

可选地，第一评分模块730，还用于对所述深度特征的各个维度进行线性变换操作，得到变换后的深度特征；通过激活函数对所述变换后的深度特征进行激活处理，得到比例系数；根据所述比例系数和所述深度特征，得到处理后的深度特征；根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量；根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量；对所述处理后的深度特征以及所述加权规则向量进行拼接操作，得到拼接向量。

可选地，第一评分模块730，还用于对所述处理后的深度特征和所述规则向量矩阵进行注意力计算，得到各个所述规则向量各自对应的规则权重；根据所述规则权重，对多个所述规则向量进行加权求和，得到所述加权规则向量。

可选地，所述训练样本还包括所述样本口语试题的参考答案；第一评分模块730，还用于对所述样本回答音频进行声学特征提取，得到声学特征；对所述样本回答音频进行语音识别，得到回答文本；根据所述回答文本以及所述参考答案，得到文本特征；对所述声学特征和所述文本特征进行特征拼接，得到所述样本回答音频的特征信息。

可选地，第一评分模块730，还用于对所述样本回答音频进行至少一级准确度评估，得到发音准确度，所述至少一级准确度评估包括音素级准确度评估、单词级准确度评估以及句子级准确度评估中的至少一种；对所述样本回答音频进行流利度评估，得到发音流利度；对所述样本回答音频进行韵律度评估，得到发音韵律度；将所述发音准确度、所述发音流利度以及所述发音韵律度中的至少一种确定为所述声学特征。

可选地，第一评分模块730，还用于对所述回答文本进行语义特征提取，得到语义特征；提取所述回答文本中的第一关键词以及所述参考答案中的第二关键词；基于所述第一关键词和所述第二关键词的匹配度，确定关键词特征；对所述回答文本进行语用特征提取，得到语用特征，所述语用特征包括词汇多样性、句式多样性以及语法准确性中的至少一种；对所述回答文本进行文本流利度特征提取，得到文本流利度特征；将所述语义特征、所述关键词特征、所述语用特征以及所述文本流利度特征中的至少一种确定为所述文本特征。

可选地，训练模块760，还用于计算所述第二损失值与预设参数的乘积，得到乘积结果；计算所述乘积结果与所述第一损失值的和，作为最终损失值；通过所述最终损失值对所述预训练评分模型进行训练，得到所述口语评分模型。

请参阅图13，图13示出了本申请一个实施例提出的一种口语评分装置的框图，所述装置800包括：

音频获取模块810，用于获取测试口语试题对应的待评分回答音频，所述测试口语试题属于目标题型；

第二评分模块820，用于将所述待评分回答音频输入口语评分模型，得到所述口语评分模型预测的所述待评分回答音频的口语评分，其中，所述口语评分模型由上述任一实施例所述的口语评分模型训练方法训练得到；

输出模块830，用于输出所述待评分回答音频的口语评分。

需要说明的是，本申请中的装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

图14示出了用于执行根据本申请实施例的口语评分模型训练方法的电子设备的结构框图。该电子设备可以是图1中的服务器等，需要说明的是，图14示出的电子设备的计算机系统1200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图14所示，计算机系统1200包括中央处理单元(Central Processing Unit，CPU)1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory，RAM)1203中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU1201、ROM1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令，当该计算机可读存储指令被处理器执行时，实现上述任一实施例中的方法。

根据本申请实施例的一个方面，提供了计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一实施例中的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种口语评分模型训练方法，其特征在于，所述方法包括：

获取训练样本，所述训练样本包括样本口语试题的样本回答音频和对应所述样本回答音频的样本评分，所述样本口语试题属于目标题型，所述样本评分基于对应所述目标题型的目标评分规则得到；

将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，所述预训练评分模型通过元学习方式训练得到；

根据所述样本评分和所述预测评分，确定第一损失值，所述第一损失值表征所述样本评分与所述预测评分之间的损失；

在所述样本回答音频中确定目标回答音频；

根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，所述第二损失值表征所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失；

根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型。

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，包括：

根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定每个所述目标回答音频各自的赋值；

根据每个所述目标回答音频各自对应的预测评分以及赋值，确定第二损失值。

3.根据权利要求2所述的方法，其特征在于，所述目标回答音频包括两个目标回答音频；所述根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定每个所述目标回答音频各自的赋值，包括：

将两个所述目标回答音频中样本评分较高的目标回答音频的赋值确定为第一数值；

将两个所述目标回答音频中样本评分较低的目标回答音频的赋值确定为第二数值，所述第一数值大于所述第二数值。

4.根据权利要求1所述的方法，其特征在于，所述预训练评分模型包括深度网络、规则向量矩阵以及全连接层，所述规则向量矩阵包括不同评分规则对应的规则向量；所述将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，包括：

确定所述样本回答音频的特征信息；

将所述特征信息输入所述深度网络，得到对应所述样本回答音频的深度特征；

基于所述深度特征和所述规则向量矩阵，得到加权规则向量；

对所述加权规则向量和所述深度特征进行拼接操作，得到拼接向量；

将所述拼接向量输入所述全连接层，得到所述全连接层输出的所述样本回答音频的预测评分。

5.根据权利要求4所述的方法，其特征在于，所述基于所述深度特征和所述规则向量矩阵，得到加权规则向量，包括：

对所述深度特征的各个维度进行线性变换操作，得到变换后的深度特征；

通过激活函数对所述变换后的深度特征进行激活处理，得到比例系数；

根据所述比例系数和所述深度特征，得到处理后的深度特征；

根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量；

所述对所述加权规则向量和所述深度特征进行拼接操作，得到拼接向量，包括：

对所述处理后的深度特征以及所述加权规则向量进行拼接操作，得到拼接向量。

6.根据权利要求5所述的方法，其特征在于，所述根据所述处理后的深度特征和所述规则向量矩阵，得到加权规则向量，包括：

对所述处理后的深度特征和所述规则向量矩阵进行注意力计算，得到各个所述规则向量各自对应的规则权重；

根据所述规则权重，对多个所述规则向量进行加权求和，得到所述加权规则向量。

7.根据权利要求4所述的方法，其特征在于，所述训练样本还包括所述样本口语试题的参考答案；所述确定所述样本回答音频的特征信息，包括：

对所述样本回答音频进行声学特征提取，得到声学特征；

对所述样本回答音频进行语音识别，得到回答文本；

根据所述回答文本以及所述参考答案，得到文本特征；

对所述声学特征和所述文本特征进行特征拼接，得到所述样本回答音频的特征信息。

8.根据权利要求7所述的方法，其特征在于，所述对所述样本回答音频进行声学特征提取，得到声学特征，包括：

对所述样本回答音频进行至少一级准确度评估，得到发音准确度，所述至少一级准确度评估包括音素级准确度评估、单词级准确度评估以及句子级准确度评估中的至少一种；

对所述样本回答音频进行流利度评估，得到发音流利度；

对所述样本回答音频进行韵律度评估，得到发音韵律度；

将所述发音准确度、所述发音流利度以及所述发音韵律度中的至少一种确定为所述声学特征。

9.根据权利要求8所述的方法，其特征在于，所述根据所述回答文本以及所述参考答案，得到文本特征，包括：

对所述回答文本进行语义特征提取，得到语义特征；

提取所述回答文本中的第一关键词以及所述参考答案中的第二关键词；

基于所述第一关键词和所述第二关键词的匹配度，确定关键词特征；

对所述回答文本进行语用特征提取，得到语用特征，所述语用特征包括词汇多样性、句式多样性以及语法准确性中的至少一种；

对所述回答文本进行文本流利度特征提取，得到文本流利度特征；

将所述语义特征、所述关键词特征、所述语用特征以及所述文本流利度特征中的至少一种确定为所述文本特征。

10.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型，包括：

计算所述第二损失值与预设参数的乘积，得到乘积结果；

计算所述乘积结果与所述第一损失值的和，作为最终损失值；

通过所述最终损失值对所述预训练评分模型进行训练，得到所述口语评分模型。

11.一种口语评分方法，其特征在于，所述方法包括：

获取测试口语试题对应的待评分回答音频，所述测试口语试题属于目标题型；

将所述待评分回答音频输入口语评分模型，得到所述口语评分模型预测的所述待评分回答音频的口语评分，其中，所述口语评分模型由所述权利要求1至10任一项训练得到；

输出所述待评分回答音频的口语评分。

12.一种口语评分模型训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取训练样本，所述训练样本包括样本口语试题的样本回答音频和对应所述样本回答音频的样本评分，所述样本口语试题属于目标题型，所述样本评分基于对应所述目标题型的目标评分规则得到；

第一评分模块，用于将所述样本回答音频输入预训练评分模型，得到对应所述样本回答音频的预测评分，所述预训练评分模型通过元学习方式训练得到；

第一确定模块，用于根据所述样本评分和所述预测评分，确定第一损失值，所述第一损失值表征所述样本评分与所述预测评分之间的损失；

第二确定模块，用于在所述样本回答音频中确定目标回答音频；

第三确定模块，用于根据每个所述目标回答音频各自对应的样本评分之间的大小关系，确定第二损失值，所述第二损失值表征所述预训练评分模型自身的评分规则与所述目标评分规则之间的损失；

训练模块，用于根据所述第一损失值和所述第二损失值，对所述预训练评分模型进行训练，得到所述口语评分模型。

13.一种口语评分装置，其特征在于，所述装置包括：

音频获取模块，用于获取测试口语试题对应的待评分回答音频，所述测试口语试题属于目标题型；

第二评分模块，用于将所述待评分回答音频输入口语评分模型，得到所述口语评分模型预测的所述待评分回答音频的口语评分，其中，所述口语评分模型由所述权利要求1至10任一项训练得到；

输出模块，用于输出所述待评分回答音频的口语评分。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-11中任一项所述的方法。

15.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11中任一项所述的方法。