CN114333787A

CN114333787A - 口语考试的评分方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114333787A
Application number: CN202111405039.8A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-04-12

Abstract

本申请公开了一种口语考试的评分方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：获取训练样本，训练样本中包含目标样本口语试题的样本参考答案、样本回答音频以及对样本回答音频的样本分数，目标样本口语试题属于目标题型；基于训练样本对预训练评分模型进行训练，得到目标题型对应的目标评分模型，预训练评分模型通过元学习方式训练得到；通过目标评分模型对目标回答音频进行评分，得到目标回答音频的目标分数，目标回答音频是对属于目标题型的口语试题的回答。采用本申请实施例提供的方案，能够利用训练得到的目标评分模型实现口语考试的自动化评分，提高了口语考试的评分效率。

Description

口语考试的评分方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及人工智能领域，特别涉及一种口语考试的评分方法、装置、设备、存储介质及程序产品。

背景技术

口语考试是一种考察口语能力的考试形式，所采用试题的题型包括看图说话、快速应答、主题描述、意见阐述等等。

口语考试过程中，考试方完成回答后，评分方会从语音、语法以及问题回答准确性等角度对回答进行评分，从而得到考试分数。

由于评分通常由经验丰富的教师或专家进行，因此需要耗费大量的人力和时间成本，导致口语考试评分的效率较低。

发明内容

本申请实施例提供了一种口语考试的评分方法、装置、设备、存储介质及程序产品，能够口语考试的评分效率。所述技术方案如下：

一方面，本申请实施例提供了一种口语考试的评分方法，所述方法包括：

获取训练样本，所述训练样本中包含目标样本口语试题的样本参考答案、样本回答音频以及对所述样本回答音频的样本分数，所述目标样本口语试题属于目标题型；

基于所述训练样本对预训练评分模型进行训练，得到所述目标题型对应的目标评分模型，所述预训练评分模型通过元学习方式训练得到；

通过所述目标评分模型对目标回答音频进行评分，得到所述目标回答音频的目标分数，所述目标回答音频是对属于所述目标题型的口语试题的回答。

另一方面，本申请实施例提供了一种口语考试的评分装置，所述装置包括：

第一获取模块，用于获取训练样本，所述训练样本中包含目标样本口语试题的样本参考答案、样本回答音频以及对所述样本回答音频的样本分数，所述目标样本口语试题属于目标题型；

第一训练模块，用于基于所述训练样本对预训练评分模型进行训练，得到所述目标题型对应的目标评分模型，所述预训练评分模型通过元学习方式训练得到；

评分模块，用于通过所述目标评分模型对目标回答音频进行评分，得到所述目标回答音频的目标分数，所述目标回答音频是对属于所述目标题型的口语试题的回答。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的口语考试的评分方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述方面所述的口语考试的评分方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的所述的语音合成方法，或，实现如上述方面所述的口语考试的评分方法。

本申请实施例中，预先采用元学习方式训练得到预训练评分模型，当需要对采用目标题型的口语考试进行评分时，基于目标题型的训练样本对预训练评分模型进一步训练，得到目标题型对应的目标评分模型，从而利用目标评分模型对目标口语试题的回答进行评分；由于预训练评分模型采用元学习方式训练得到，即预训练评分模型预先学习到了先验评分知识，因此只需要使用少量训练样本即可训练得到目标评分模型，降低了对人工评分的依赖程度，且训练完成后，利用目标评分模型实现口语考试的自动化评分，提高了口语考试的评分效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的口语考试的评分方法的流程图；

图3示出了本申请另一个示例性实施例提供的口语考试的评分方法的流程图；

图4是本申请一个示例性实施例示出的评分模型的结构示意图；

图5是本申请一个示例性实施例示出的目标评分模型评分过程的流程图；

图6是本申请一个示例性实施例示出的元学习过程的流程图；

图7和图8是采用不同方案时任务适配效果的实验数据对比图；

图9是本申请一个示例性实施例示出的口语考试评分流程的流程示意图；

图10示出了本申请一个示例性实施例提供的口语考试的评分装置的结构框图；

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)、语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。本申请实施例即语音技术在口语考试场景下的应用，用于借助训练得到的评分模型，对口语试题的回答音频进行自动化评分。

由于口语试题的题型丰富多样，因此若直接针对不同题型的口语考试进行评分模型训练，需要依赖大量人工标注的训练样本，导致训练前期的样本准备成本较高。为了在保证评分准确性的前提下，降低对人工标注的训练样本的依赖，本申请实施例提出了一种采用元学习方式训练得到预训练评分模型(即得到针对不同口语任务的统一初始化参数)，并利用少量训练样本对预训练评分模型进行快速适应性训练的方案。其中，元学习(Meta-Learning)又称为“学会学习”(Learning to learn)，即利用以往的知识经验来指导新任务的学习，使模型具备学会学习的能力，从而在已有知识的基础上快速学习新的任务。

图1示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括评分终端110、服务器120以及考试终端130。其中，考试终端130与服务器120之间通过通信网络进行数据通信，评分终端110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

评分终端110是用于进行人工评分的终端，该终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，本申请实施例对此不作限定。在一些实施例中，该评分终端110是评分人员使用的终端，该评分人员可以为教师或专业人员。

在一种可能的实施方式中，当需要训练对特定题型进行自动评分的评分模型时，服务器120向评分终端110提供待标注的训练样本，该训练样本包括样本口语试题(属于特定题型)、样本参考答案以及样本回答音频。评分终端110播放样本回答音频，并获取评分人员输入的样本分数，从而将样本分数反馈至服务器120。

服务器120是用于提供口语考试评分服务的设备，其可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例中，服务器120中设置有采用元学习方式训练得到的预训练评分模型。当需要为特定题型的口语考试提供评分服务时，服务器120即向评分终端110提供待标注的训练样本，并获取评分终端110反馈的样本分数，从而基于人工标注的训练样本，对预训练评分模型进行适应性训练，得到特定题型对应的目标评分模型。

考试终端130是具有口语考试者使用的终端，该终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，本申请实施例对此不作限定。

口语考试过程中，考试终端130显示口语试题，并通过音频组件进行音频采集，从而将采集到的回答音频上传至服务器120，由服务器120利用训练得到目标评分模型对该回答音频进行评分，并将评分得到的分数反馈至考试终端130。

示意性的，如图1所示，当需要对“主题描述”这一题型进行自动评分时，服务器120将待标注的训练样本发送至评分终端110。评分终端110对样本口语试题进行显示，并在接收到对音频播放控件111的点击操作时播放样本回答音频。评分人员基于样本回答音频与样本参考答案，在评分框112中输入样本分数后，评分终端110将样本分数反馈至服务器120。服务器120基于人工标注后的训练样本，在预训练评分模型的基础上，训练“主题描述”这一题型对应的目标评分模型。

口语考试过程中，考试终端130显示“主题描述”这一题型的口语试题，并在接收到录音控件131的点击操作时，录制得到考试者的回答音频，并将回答音频上传至服务器120。服务器120基于口语试题对应的回答音频以及参考答案，利用目标评分模型对回答音频进行评分，将将得到的分数反馈至考试终端130，供考试终端130进行显示。

需要说明的是，上述实施例中，以预训练评分模型、目标评分模型由服务器120训练得到，且评分过程由服务器120执行为例进行说明，在其他可能的实施方式中，上述模型可以由考试终端130或评分终端110训练得到，且模型可以部署在考试终端130侧，由考试终端130在本地对回答音频进行评分，本实施例对此不作限定。且为了方便表述，下述各个实施例中，以口语考试的评分方法由计算机设备执行为例进行说明。

请参考图2，其示出了本申请一个示例性实施例提供的口语考试的评分方法的流程图。

步骤201，获取训练样本，训练样本中包含目标样本口语试题的样本参考答案、样本回答音频以及对样本回答音频的样本分数，目标样本口语试题属于目标题型。

其中，该目标题型为具有自动评分需求的题型，且训练样本中的样本分数通过人工标注得到。可选的，该样本分数可以采用1分制、5分制、10分制度或百分制等等，本实施例对此不作限定。

在一种可能的实施方式中，当接收到自动评分指令时，计算机设备基于自动评分指令中包含的目标题型，从数据库中获取属于该目标题型的目标样本口语试题，并获取目标样本口语试题对应的样本参考答案以及样本回答音频(对目标样本口语试题进行回答时采集到的音频)。若该样本回答音频未经过人工标注，则进一步交由人工对该样本回答音频进行评分，得到样本分数。

由于后续是在预训练评分模型的基础上训练目标评分模型，因此相较于零基础模型训练，本申请实施例中计算机设备仅需要获取少量训练样本，有助于降低训练前的人工标注成本。在一个示意性的例子中，当需要对“看图说话”这一题型进行自动评分时，计算机设备获取一道属于“看图说话”的样本口语试题，并获取该样本口试试题的样本参考答案、50条样本回答音频以及各条样本音频的样本分数。

步骤202，基于训练样本对预训练评分模型进行训练，得到目标题型对应的目标评分模型，预训练评分模型通过元学习方式训练得到。

可选的，该预训练评分模型由计算机设备预先训练并部署，或者，该预训练评分模型由其他设备训练得到，并部署在计算机设备中，本实施例对此不作限定。

在一些实施例中，该预训练评分模型以任务(task)为单位，采用元学习方式训练得到。元学习的目的是让模型具有良好的初始化参数(即模型在预训练过程中学习到了先验知识)，该初始化参数在训练任务上可能表现得并不出色，但是以该初始化参数为起点，能够快速适应新的任务，提高模型对新任务的适配能力。

其中，训练该预训练评分模型过程中，所采用任务对应的题型可以包含目标题型，或者，不包含目标题型。比如，该预训练评分模型基于“看图说话”、“快速应答”以及“主题描述”这三种题型对应的任务训练得到，训练样本对应的目标题型为“看图说话”，或者，训练样本对应的目标题型为“意见阐述”。

在一些实施例中，基于训练样本对预训练评分模型进行训练的过程可以被称为微调(fine tune)，且计算机设备以训练样本中的样本分数为监督对预训练评分模型的模型参数进行调整，使训练后得到的目标评分模型快速适配目标题型。

步骤203，通过目标评分模型对目标回答音频进行评分，得到目标回答音频的目标分数，目标回答音频是对属于目标题型的口语试题的回答。

在一种可能的实施方式中，基于训练样本完成目标评分模型训练后，计算机设备利用验证样本对目标评分模型的评分准确度进行验证，并在评分准确度通过验证后进一步利用目标评分模型对实际的回答音频进行评分。

可选的，计算机设备基于目标回答音频以及目标参考答案，通过目标评分模型对目标回答音频进行评分，得到目标分数。

综上所述，本申请实施例中，预先采用元学习方式训练得到预训练评分模型，当需要对采用目标题型的口语考试进行评分时，基于目标题型的训练样本对预训练评分模型进一步训练，得到目标题型对应的目标评分模型，从而利用目标评分模型对目标口语试题的回答进行评分；由于预训练评分模型采用元学习方式训练得到，即预训练评分模型预先学习到了先验评分知识，因此只需要使用少量训练样本即可训练得到目标评分模型，降低了对人工评分的依赖程度，且训练完成后，利用目标评分模型实现口语考试的自动化评分，提高了口语考试的评分效率。

采用人工方式进行评分时，评分人员会从语音、内容以及连贯性等多个角度对回答进行综合评估，因此本申请实施例中，利用评分模型进行自动化评分前，首先需要对回答音频进行多维度特征提取，从而基于提取到的特征进行评分。下面采用示意性的实施例对具体的评分过程进行说明。

请参考图3，其示出了本申请另一个示例性实施例提供的口语考试的评分方法的流程图。

步骤301，获取训练样本，训练样本中包含目标样本口语试题的样本参考答案、样本回答音频以及对样本回答音频的样本分数，目标样本口语试题属于目标题型。

本步骤的实施方式可以参考步骤201，本实施例在此不再赘述。

步骤302，提取样本回答音频的样本文本特征以及样本声学特征。

本申请实施例中，计算机设备从声学以及文本两个维度对回答音频进行特征提取。在一种可能的实施方式中，由于无法直接对音频形式的回答音频进行特征提取，因此计算机首先需要对样本回答音频进行语音识别，得到样本回答文本，其中，计算机设备可以采用自动语音识别(Automatic Speech Recognition，ASR)技术将样本回答音频转换为样本回答文本。

进一步的，计算机设备对样本回答音频进行声学特征提取，得到样本声学特征，对样本回答文本进行文本特征提取，得到样本文本特征。

在一些实施例中，文本特征以及声学特征的提取可以由单独的特征提取模型执行(独立于评分模型)，也可以由评分模型中的特征提取模块(比如用于进行特征提取的神经网络结构)执行，本申请实施例对此不作限定。

可选的，提取到的样本声学特征包括样本发音准确度、样本发音流利度以及样本发音韵律度中的至少一种；提取到的样本文本特征包括样本语义特征、样本关键词特征、样本语用特征以及样本文本流利度特征中的至少一种。下述实施例中，将对声学特征以及文本特征的具体提取方式进行详述。

步骤303，基于样本文本特征以及样本声学特征，通过预训练评分模型对样本回答音频进行评分，得到样本回答音频的预测分数。

在一种可能的实施方式中，计算机设备对提取到的样本文本特征和样本声学特征进行特征拼接，并将拼接得到的特征输入预训练评分模型，得到预训练评分模型输出的预测分数。

由于不同题型的评分标准存在差异，因此为了更好地适应不同的评分标准，在一种可能的实施方式中，预训练评分模型由深度神经网络(Deep Neural Networks，DNN)以及指示评分标准的规则向量矩阵构成，其中，该规则向量矩阵中的规则向量支持动态存储和调整。

利用预训练评分模型对样本回答音频进行评分的过程，即根据规则向量矩阵中规则向量所指示的评分标准对样本文本特征以及样本声学特征进行评分的过程。

步骤304，基于预测分数和样本分数之间的评分损失训练预训练评分模型，得到目标评分模型。

由于预训练评分模型中的规则向量矩阵在训练过程中并非适配特定任务，因此利用预训练评分模型对样本回答音频进行评分时，得到的预测分数与样本分数之间会存在差异。训练过程中，计算机设备即根据预测分数与样本分数确定评分损失，从而基于该评分损失对预训练评分模型的模型参数进行调整，得到目标评分模型。可选的，计算机设备在训练过程中调整的模型参数包括深度神经网络的网络参数以及规则向量矩阵中的规则向量。

在一种可能的实施方式中，当评分损失满足收敛条件时，或训练轮数达到预设轮数时，计算机设备确定完成模型训练，得到目标评分模型，该目标评分模型即由深度神经网络及目标规则向量矩阵构成。

步骤305，提取目标回答音频的目标文本特征以及目标声学特征。

通过上述步骤301至304完成针对目标题型的模型训练后，当获取到待评分的目标回答音频时，计算机设备首先对目标回答音频进行特征提取，得到目标文本特征以及目标声学特征。

在一种可能的实施方式中，计算机设备对目标回答音频进行语音识别，得到目标回答文本，从而基于目标回答文本以及目标参考答案，对目标回答音频进行文本特征提取，得到目标文本特征。

可选的，该目标文本特征包括目标语义特征、目标关键词特征、目标语用特征以及目标文本流利度特征中的至少一种，下面分别对各种特征的提取过程进行说明。

1、目标语义特征

在一种可能的实施方式中，计算机设备对目标回答文本进行语义特征提取，得到目标语义特征。其中，该目标语义特征可以包括主题特征、词频-反文档频率(TermFrequency Inverse Document Frequency，TF-IDF)特征等等，本申请实施例对此不作限定。

2、目标关键词特征

由于回答内容的准确度通常与关键词相关，因此在一种可能的实施方式中，计算机设备分别对目标回答文本和目标参考答案进行关键词提取，得到目标回答文本中的第一关键词以及目标参考答案中的第二关键词，从而基于第一关键词和第二关键词之间的匹配度，确定目标回答文本的目标关键词特征。

可选的，该目标关键词特征包括关键词准确率以及关键词召回率中的至少一种。其中，关键词准确率基于召回关键词的数量(召回关键词即第一关键词和第二关键词中匹配的关键词)以及第一关键词的数量确定得到，关键词召回率基于召回关键词的数量与第二关键词的数量确定得到。比如。当提取到第一关键词的数量为5，提取到第二关键词的数量为8，且召回关键词的数量为4时，计算机设备确定关键词准确率为0.8，关键词召回率为0.5。

3、目标语用特征

口语考试中，除了考察表达内容的准确性外，还需要考察所使用词汇、句式以及语法的丰富性和准确性。因此在一种可能的实施方式中，计算机设备对目标回答文本进行语用特征提取，得到目标语用特征，该目标语用特征包括词汇多样性、句式多样性以及语法准确性中的至少一种。

可选的，计算机设备对目标回答文本中所使用的词汇进行去重统计，得到词汇使用量，从而基于词汇使用量以及目标回答文本中的词汇总量，确定词汇多样性；计算机设备对目标回答文本进行句式识别，并对句式类型进行统计，从而基于句式类型的数量确定句式多样性；计算机设备将目标回答文本输入预先训练得到的语言分析模型(例如Tensorflow语法分析模型)，由语言分析模型进行语法分析，得到语法准确性。

4、目标文本流利度特征

在一种可能的实施方式中，计算机设备识别目标回答文本中连续重复内容比如将同一句子中连续出现的相同词汇确定为连续重复内容，将相邻出现的重复句子确定为连续重复内容等等，从而基于连续重复内容在目标回答文本中所占的比例，确定目标回答文本的目标文本流利度特征。

需要说明的是，本申请实施例仅以目标文本特征包含上述特征为例进行示意性说明，在其他可能的实施方式中，也可以将其他能够表征文本准确度、完整度、丰富度的特征作为目标文本特征，以提高特征维度的多样性，本实施例并不对此构成限定。

在一种可能的实施方式中，计算机设备对目标回答音频进行声学特征提取，得到目标声学特征。可选的，该目标声学特征包括目标发音准确度、目标发音流利度以及目标发音韵律度中的至少一种，下面分别对各种特征的提取过程进行说明。

1、目标发音准确度

在一种可能的实施方式中，计算机设备对目标回答音频进行语音识别，从而基于语音识别结果的发音置信度(Goodness Of Pronunciation，GOP)，确定目标回答音频的发音准确度。

在一些实施例中，计算机设备从至少一个粒度，对目标回答音频进行至少一级准确度评估，得到目标发音准确度。其中，当粒度包括音素粒度、单词粒度以及句子粒度时，至少一级准确度评估包括音素级准确度评估、单词级准确度评估以及句子级准确度评估中的至少一种。

2、目标发音流利度

在一种可能的实施方式中，计算机设备对目标回答音频进行流利度评估，得到目标发音流利度。

由于发音流利度与语速以及停顿时长相关，因此在一些实施例中，计算机设备基于目标回答音频的平均语速、发音段的平均发音时长以及发音段之间的平均停顿时长，确定目标发音流利度。其中，平均语速基于目标回答音频的音频时长以及语音识别得到的单词数确定得到，且目标发音流利度与平均语速呈正相关关系，目标发音流利度与平均发音时长呈负相关关系，目标发音流利度与平均停顿时长呈正相关关系。

3、目标发音韵律度

在一种可能的实施方式中，计算机设备对目标回答音频进行韵律度评估，得到目标发音韵律度。

在一些实施例中，计算机设备确定目标回答音频进行发音节奏感评估，对目标回答音频中句子中的单词重读正确性进行评估(即确定句子中需要重读的单词是否被重读)，对目标回答音频中句子的句子边界音调进行评估(即确定是否通过音调体现出句子边界)，从而基于各项评估结果确定目标发音韵律度。

需要说明的是，本申请实施例仅以目标声学特征包含上述特征为例进行示意性说明，在其他可能的实施方式中，也可以将其他能够语音特征作为目标声学特征，以提高特征维度的多样性，本实施例并不对此构成限定。

步骤306，基于目标文本特征以及目标声学特征，通过目标评分模型对目标回答音频进行评分，得到目标回答音频的目标分数。

为了更好的适应不同的评分标准，在一个示意性的例子中，如图4所示，训练得到目标评分模型由深度神经网络41以及目标规则向量矩阵42构成，并在评分过程中融入注意力机制。其中，深度神经网络41由若干层隐藏层411和全连接层412构成，且该目标规则向量矩阵42由不同评分标准对应的目标规则向量421构成。

如图5所示，利用目标评分模型进行评分的过程可以包括如下步骤：

步骤306A，对目标文本特征以及目标声学特征进行特征拼接，得到目标特征。

对于提取到的目标文本特征和目标声学特征，计算机设备首先对两者进行拼接，得到作为模型输入的目标特征。其中，该目标特征可以采用特征向量的形式。

步骤306B，将目标特征输入深度神经网络，得到第一深度特征向量和第二深度特征向量，第二深度特征向量的深度大于第一深度特征向量的深度。

进一步的，计算机设备将目标特征输入深度神经网络，由深度神经网络中的隐藏层提取目标特征的深度特征，得到第一深度特征向量和第二深度特征向量，其中，深度特征向量的深度越深，该深度特征向量所表征的特征越抽象。本申请实施例中，第一深度特征向量可以由浅层的隐藏层输出，第二深度特征向量可以由深层的隐藏层输出，本申请实施例并不对深度特征向量的深度进行限定。

示意性的，如图4所示，深度神经网络41中包含第一隐藏层4111，第二隐藏层4112以及第三隐藏层4113，计算机设备将目标特征输入深度神经网络41后，得到第二隐藏层4112输出的第一深度特征向量，以及第三隐藏层4113输出的第二深度特征向量。

步骤306C，基于第一深度特征向量和目标规则向量矩阵，生成加权规则向量。

由于目标规则向量矩阵中不同目标规则向量所指示评判标准的重要程度不同，因此在进行评分时，计算机设备需要确定各个目标规则向量各自对应的规则权重，进而确定出融合规则权重的加权规则向量。

在一种可能的实施方式中，计算机设备首先基于注意力机制，对第一深度特征向量和目标规则向量矩阵进行注意力计算，得到各个目标规则向量对应的规则权重。

其中，基于注意力机制确定规则权重的过程可以采用如下公式表示：

P＝Softmax(f^TM)

其中，f^T表示第一深度特征向量的转置，M为目标规则向量矩阵。

示意性的，如图4所示，f的尺寸为1×d，M由k个目标规则向量421构成(M＝[m₁,m₂,…,m_k])，各个目标规则向量421的尺寸为1×d，基于注意力机制得到的P＝[p₁,p₂,…,p_k]，其中，p₁+p₂+…+p_k＝1。

进一步的，计算机设备对规则权重和目标规则向量(规则权重和目标规则向量一一对应)进行加权求和，得到加权规则向量。

其中，基于规则向量和目标规则向量确定加权规则向量的过程可以采用如下公式表示：

其中，O表示加权规则向量，m_i表示第i个目标规则向量，p_i表示第i个目标规则向量对应的规则权重，k为目标规则向量的个数。

示意性的，如图4所示，计算机设备基于目标规则向量矩阵42中各个目标规则向量421及其对应的规则权重，计算得到加权规则向量O。

步骤306D，基于加权规则向量和第二深度特征向量，确定目标分数。

进一步的，计算机设备基于加权规则向量和第二深度特征向量，利用深度神经网络的全连接层进行处理(非线性变换)，得到目标回答音频的目标分数。

在一种可能的实施方式中，计算机设备对加权规则向量和第二深度特征向量进行向量拼接(concat)，得到拼接向量，并将拼接向量输入深度神经网络的全连接层，得到全连接层输出的目标分数。其中，深度神经网络中可以包括至少一层全连接层，本申请实施例并不对全连接层的层数进行限定。

示意性的，如图4所示，计算机设备对加权规则向量O和第三隐藏层4113输出的第二深度特征向量进行拼接，并通过全连接层412对拼接向量进行非线性变换处理，最终输出目标分数。

本实施例中，采用深度神经网络+规则向量矩阵的评分模型结构，利用规则向量矩阵动态存储并更新评分规则，以此适应不同的评分标准；并且，评分过程中，基于注意力机制确定各条规则向量的规则权重，进而加权计算得到加权规则向量，有助于提高后续评分的准确性。

在一种可能的实施方式中，在训练目标评分模型之前，计算机设备首先采用元学习方式训练得到预训练评分模型。下面对预训练评分模型的训练过程进行说明。

由于元学习过程中以任务为单位进行训练，因此计算机设备首先需要获取元学习任务集合。针对口语考试场景，计算机设备可以将特定题型的口语试题、该口语试题的参考答案、若干回答音频以及回答音频对应的标注分数作为一个元学习任务。

在一个示意性的例子中，计算机设备采用三种题型进行元学习，分别为看图说话、快速应答以及主题描述，每个题型包含4道口语试题，且每道口语试题包含200条回答音频，得到包含12个元学习任务的元学习任务集合。

获取到元学习任务准备后，计算机设备基于元学习任务集合，训练预训练评分模型。

在一种可能的实施方式中，每个元学习任务中又被进一步划分为训练任务(training task)和验证任务(valid task或testing task)。如图6所示，元学习过程可以包括如下步骤。

步骤601，从元学习任务集合中选取候选元学习任务。

可选的，每一轮元学习过程中，计算机设备随机从元学习任务集合中选取若干候选元学习任务用于本轮训练。

步骤602，对于各个候选元学习任务，基于候选元学习任务中的训练任务对于评分模型的全局模型参数进行参数优化，得到候选元学习任务对应的任务模型参数。

可选的，对于当前训练轮次中的各个候选元学习任务，计算机设备通过评分模型对训练任务中的各条回答音频进行评分，得到预测分数，并基于该预测分数和标注分数之间的损失，采用梯度下降算法对评分模型的全局模型参数进行参数优化，得到针对当前候选元学习任务的任务模型参数，即采用该任务模型参数的评分模型较好的适配当前候选元学习任务。候选元学习任务的损失可以表示为：

其中，k为候选元学习任务中回答音频的数量，p_i为评分模型对第i个回答音频的预测分数，y_i为第i个回答音频的标注分数。

步骤603，基于采用任务模型参数的评分模型，确定候选元学习任务中验证任务的验证损失。

可选的，计算机设备通过采用任务模型参数的评分模型，对验证任务中的各条回答音频进行评分，得到预测分数，并将该预测分数和标注分数之间的损失确定为当前候选元学习任务的验证损失。其中，验证损失的计算过程可以参考上述公式。

步骤604，基于各个候选元学习任务的验证损失对全局模型参数进行优化，得到优化后的全局模型参数。

可选的，对于当前训练轮次中的各个候选元学习任务，计算机设备通过执行上述步骤603和604，得到各个候选元学习任务对应的验证损失，并对不同候选元学习任务的验证损失进行求和，从而根据验证损失之和采用梯度下降对全局模型参数进行优化，从而得到优化后的全局模型参数。

步骤605，在验证损失收敛的情况下，将采用优化后的全局模型参数的评分模型确定为预训练评分模型。

元学习过程中，计算机设备检测验证损失是否收敛。若未收敛，则重复执行上述步骤601至604(在上一轮优化的全局模型参数的基础上)；若收敛，计算机设备则将采用优化后的全局模型参数的评分模型确定为预训练评分模型。

在一种可能的实施方式中，计算机设备可以采用MAML(Model-Agnostic Meta-Learning)进行元学习得到预训练评分模型，该过程的伪代码如下：

为了验证本申请实施例提供的方案，如表一所示，采用3种题型进行元学习的预训练，分别为看图说话、快速应答和主题描述，每个题型包含4道题目，每道题目包含50条训练数据和150条验证数据。基于元学习训练得到预训练评分模型后，进行新任务快速适配时采用两种测试集，一种是元学习训练中包含的题型“看图说话”，另一种是不包含在元学习训练中的题型“意见阐述”，来测试模型对全新题型的适配能力。

表一

基于上述测试任务数据，分别采用基于FT-SVR、FT-BLSTM、MTL-finetune以及本申请方案进行任务快速适配，“看图说话”题型的适配结果如图7所示，“意见阐述”题型的适配结果如图8所示。其中，适配效果采用三种指标表示，分别为模型预测分数与实际分数≤0.5档的比例，≤1档的比例，以及皮尔逊相关系数(PCC)。可以看出，采用本申请方案，针对已知任务和新任务均能够提高任务的快速适配能力。

在一种可能的应用场景下，口语考试的评分流程如图9所示，步骤如下：

1)老师打开口语考试APP，评分终端显示口语试题并播放学生的回答音频；

2)老师对回答音频进行评分；

3)口语考试APP将标注数发送至服务器；

4)服务器将回答音频、参考答案、标注分数等信息发送给任务快速适配模块；

5)任务快速适配模块对预训练评分模型进行微调，得到适配当前题型的目标评分模型；

6)学生打开口语考试APP，考试终端显示口语试题，并获取学生的回答；

7)口语考试APP将回答音频和口语试题发送至服务器；

8)服务器将回答音频存储至数据库；

9)服务器从数据库中读取回答音频、参考答案和题型，输入到题型对应的目标评分模型；

10)目标评分模型对回答音频进行评分；

11)目标评分模型将分数返回至服务器；

12)服务器返回分数至口语考试APP，以便学生查看。

请参考图10，其示出了本申请一个示例性实施例提供的口语考试的评分装置的结构框图，该装置包括：

第一获取模块1001，用于获取训练样本，所述训练样本中包含目标样本口语试题的样本参考答案、样本回答音频以及对所述样本回答音频的样本分数，所述目标样本口语试题属于目标题型；

第一训练模块1002，用于基于所述训练样本对预训练评分模型进行训练，得到所述目标题型对应的目标评分模型，所述预训练评分模型通过元学习方式训练得到；

评分模块1003，用于通过所述目标评分模型对目标回答音频进行评分，得到所述目标回答音频的目标分数，所述目标回答音频是对属于所述目标题型的口语试题的回答。

可选的，评分模块1003，包括：

第一特征提取单元，用于提取所述目标回答音频的目标文本特征以及目标声学特征；

第一评分单元，用于基于所述目标文本特征以及所述目标声学特征，通过所述目标评分模型对所述目标回答音频进行评分，得到所述目标回答音频的所述目标分数。

可选的，所述目标评分模型由深度神经网络以及目标规则向量矩阵构成，所述目标规则向量矩阵由不同评分标准对应的目标规则向量构成；

所述第一评分单元，用于：

对所述目标文本特征以及所述目标声学特征进行特征拼接，得到目标特征；

将所述目标特征输入所述深度神经网络，得到第一深度特征向量和第二深度特征向量，所述第二深度特征向量的深度大于所述第一深度特征向量的深度；

基于所述第一深度特征向量和所述目标规则向量矩阵，生成加权规则向量；

基于所述加权规则向量和所述第二深度特征向量，确定所述目标分数。

可选的，基于所述第一深度特征向量和所述目标规则向量矩阵，生成加权规则向量时，所述第一评分单元，用于：

对所述第一深度特征向量和所述目标规则向量矩阵进行注意力计算，得到各个所述目标规则向量对应的规则权重；

对所述规则权重和所述目标规则向量进行加权求和，得到所述加权规则向量。

可选的，所述基于所述加权规则向量和所述第二深度特征向量，确定所述目标分数时，所述第一评分单元，用于：

对所述加权规则向量和所述第二深度特征向量进行向量拼接，得到拼接向量；

将所述拼接向量输入所述深度神经网络的全连接层，得到所述全连接层输出的所述目标分数。

可选的，所述第一特征提取单元，用于：

对所述目标回答音频进行声学特征提取，得到所述目标声学特征；

对所述目标回答音频进行语音识别，得到目标回答文本；基于所述目标回答文本以及目标参考答案，对所述目标回答音频进行文本特征提取，得到所述目标文本特征。

可选的，所述对所述目标回答音频进行声学特征提取，得到所述目标声学特征时，所述第一特征提取单元，用于：

对所述目标回答音频进行至少一级准确度评估，得到目标发音准确度，至少一级准确度评估包括音素级准确度评估、单词级准确度评估以及句子级准确度评估中的至少一种；

对所述目标回答音频进行流利度评估，得到目标发音流利度；

对所述目标回答音频进行韵律度评估，得到目标发音韵律度；

将所述目标发音准确度、所述目标发音流利度以及所述目标发音韵律度中的至少一种确定为所述目标声学特征。

可选的，所述基于所述目标回答文本以及目标参考答案，对所述目标回答音频进行文本特征提取，得到所述目标文本特征时，所述第一特征提取单元，用于：

对所述目标回答文本进行语义特征提取，得到目标语义特征；

提取所述目标回答文本中的第一关键词以及所述目标参考答案中的第二关键词；基于所述第一关键词和所述第二关键词的匹配度，确定目标关键词特征；

对所述目标回答文本进行语用特征提取，得到目标语用特征，所述目标语用特征包括词汇多样性、句式多样性以及语法准确性中的至少一种；

对所述目标回答文本进行文本流利度特征提取，得到目标文本流利度特征；

将所述目标语义特征、所述目标关键词特征、所述目标语用特征以及所述目标文本流利度特征中的至少一种确定为所述目标文本特征。

可选的，所述第一训练模块1002，包括：

第二特征提取单元，用于提取所述样本回答音频的样本文本特征以及样本声学特征；

第二评分单元，用于基于所述样本文本特征以及所述样本声学特征，通过所述预训练评分模型对所述样本回答音频进行评分，得到所述样本回答音频的预测分数；

训练单元，用于基于所述预测分数和所述样本分数之间的评分损失训练所述预训练评分模型，得到所述目标评分模型。

可选的，所述装置还包括：

第二获取模块，用于获取元学习任务集合，所述元学习任务集合由不同元学习任务构成，各个所述元学习任务中包含同一口语试题对应的参考答案、多条回答音频以及多个标注评分；

第二训练模块，用于基于所述元学习任务集合，训练得到所述预训练评分模型。

可选的，各个所述元学习任务由训练任务和验证任务构成；

所述第二训练模块，包括：

任务选取单元，用于从所述元学习任务集合中选取候选元学习任务；

第一优化单元，用于对于各个所述候选元学习任务，基于所述候选元学习任务中的所述训练任务对于评分模型的全局模型参数进行参数优化，得到所述候选元学习任务对应的任务模型参数；

损失确定单元，用于基于采用所述任务模型参数的评分模型，确定所述候选元学习任务中所述验证任务的验证损失；

第二优化单元，用于基于各个所述候选元学习任务的所述验证损失对所述全局模型参数进行优化，得到优化后的所述全局模型参数；

确定单元，用于在所述验证损失收敛的情况下，将采用优化后的所述全局模型参数的评分模型确定为所述预训练评分模型。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器1102和只读存储器1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还可以包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

在一些实施例中，所述基本输入/输出系统1106可以包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述任一实施例所述的口语考试的评分方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例所述的口语考试的评分方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种口语考试的评分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述目标评分模型对目标回答音频进行评分，得到所述目标回答音频的目标分数，包括：

提取所述目标回答音频的目标文本特征以及目标声学特征；

基于所述目标文本特征以及所述目标声学特征，通过所述目标评分模型对所述目标回答音频进行评分，得到所述目标回答音频的所述目标分数。

3.根据权利要求2所述的方法，其特征在于，所述目标评分模型由深度神经网络以及目标规则向量矩阵构成，所述目标规则向量矩阵由不同评分标准对应的目标规则向量构成；

所述基于所述目标文本特征以及所述目标声学特征，通过所述目标评分模型对所述目标回答音频进行评分，得到所述目标回答音频的所述目标分数，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一深度特征向量和所述目标规则向量矩阵，生成加权规则向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述加权规则向量和所述第二深度特征向量，确定所述目标分数，包括：

6.根据权利要求2所述的方法，其特征在于，所述提取所述目标回答音频的目标文本特征以及目标声学特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述目标回答音频进行声学特征提取，得到所述目标声学特征，包括：

8.根据权利要求6所述的方法，其特征在于，所述基于所述目标回答文本以及目标参考答案，对所述目标回答音频进行文本特征提取，得到所述目标文本特征，包括：

9.根据权利要求1至8任一所述的方法，其特征在于，所述基于所述训练样本对预训练评分模型进行训练，得到所述目标题型对应的目标评分模型，包括：

提取所述样本回答音频的样本文本特征以及样本声学特征；

基于所述样本文本特征以及所述样本声学特征，通过所述预训练评分模型对所述样本回答音频进行评分，得到所述样本回答音频的预测分数；

基于所述预测分数和所述样本分数之间的评分损失训练所述预训练评分模型，得到所述目标评分模型。

10.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

获取元学习任务集合，所述元学习任务集合由不同元学习任务构成，各个所述元学习任务中包含同一口语试题对应的参考答案、多条回答音频以及多个标注评分；

基于所述元学习任务集合，训练得到所述预训练评分模型。

11.根据权利要求10所述的方法，其特征在于，各个所述元学习任务由训练任务和验证任务构成；

所述基于所述元学习任务集合，训练得到所述预训练评分模型，包括：

从所述元学习任务集合中选取候选元学习任务；

对于各个所述候选元学习任务，基于所述候选元学习任务中的所述训练任务对于评分模型的全局模型参数进行参数优化，得到所述候选元学习任务对应的任务模型参数；

基于采用所述任务模型参数的评分模型，确定所述候选元学习任务中所述验证任务的验证损失；

基于各个所述候选元学习任务的所述验证损失对所述全局模型参数进行优化，得到优化后的所述全局模型参数；

在所述验证损失收敛的情况下，将采用优化后的所述全局模型参数的评分模型确定为所述预训练评分模型。

12.一种口语考试的评分装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至11任一所述的口语考试的评分方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至11任一所述的口语考试的评分方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至11任一所述的口语考试的评分方法。