CN113314100B

CN113314100B - 口语测试的评估、结果显示方法、装置、设备及存储介质

Info

Publication number: CN113314100B
Application number: CN202110867251.XA
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-08
Anticipated expiration: 2041-07-29
Also published as: CN113314100A

Abstract

本申请公开了一种口语测试的评估、结果显示方法、装置、设备及存储介质，其中，该评估方法提取口语测试数据的第一特征信息后，通过评分模型确定评分结果，并根据第一特征信息分析口语测试数据的不确定性评分和异常评分，从而根据不确定性评分和异常评分，确定出评分结果的置信度。该口语测试的评估方法在对口语测试数据进行评分时，兼顾到了口语测试数据的不确定性因素和异常因素，通过置信度指标量化得到的评分结果的可靠程度，有利于输出较为准确的评分结果，提高评分结果的准确率，可减少人工审核渠道的复核校验压力，提高口语测试数据的评分效率。本申请可广泛应用于人工智能技术领域。

Description

口语测试的评估、结果显示方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其是一种口语测试的评估、结果显示方法、装置、设备及存储介质。

背景技术

近年来，随着人工智能技术的飞速发展，各种类型的机器学习模型在图像分类、人脸识别、自动驾驶等领域均取得了较为良好的应用效果。然而，机器学习模型给出的预测结果并不总是完全可靠的，例如，在口语测试的应用中，经常使用评分模型来对被测人员进行评分，由于口语测试现场的环境可能包含各种噪声，且被测人员答题的口语测试数据复杂程度较高，基于评分模型实现的自动化评测表现往往不够稳定，输出的评分结果的准确率差异较大，需要经由人工审核渠道多次复核校验，导致整体的评分效率较低。

综上，相关技术中存在的问题亟需得到解决。

发明内容

本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种口语测试的评估方法，该评估方法能够确定出口语测试数据的评分结果的可靠程度，有利于提高评分结果的准确率和口语测试数据的评分效率。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

一方面，本申请实施例提供一种口语测试的评估方法，该方法包括以下步骤：

提取口语测试数据的第一特征信息；

将所述第一特征信息输入到评分模型中，得到所述口语测试数据的评分结果；

根据所述第一特征信息，对所述口语测试数据进行不确定性分析，得到不确定性评分；

根据所述第一特征信息，对所述口语测试数据进行异常分析，得到异常评分；所述异常分析包括噪声分析或者语义分析中的至少一种；

根据所述不确定性评分和所述异常评分，确定所述评分结果的置信度。

另一方面，本申请实施例提供一种口语测试结果的显示方法，该方法包括以下步骤：

接收待评估的口语测试数据；

显示所述口语测试数据的评分结果和所述评分结果对应的置信度；

其中，所述评分结果和所述置信度通过上述的口语测试的评估方法得到。

另一方面，本申请实施例提供一种口语测试的评估装置，包括：

提取模块，用于提取口语测试数据的第一特征信息；

评分模块，用于将所述第一特征信息输入到评分模型中，得到所述口语测试数据的评分结果；

第一分析模块，用于根据所述第一特征信息，对所述口语测试数据进行不确定性分析，得到不确定性评分；

第二分析模块，用于根据所述第一特征信息，对所述口语测试数据进行异常分析，得到异常评分；所述异常分析包括噪声分析或者语义分析中的至少一种；

处理模块，用于根据所述不确定性评分和所述异常评分，确定所述评分结果的置信度。

另一方面，本申请实施例提供了一种计算机设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的口语测试的评估方法或者口语测试结果的显示方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，上述处理器可执行的程序在由处理器执行时用于实现上述的口语测试的评估方法或者口语测试结果的显示方法。

另一方面，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在上述的计算机可读存储介质中；上述的计算机设备的处理器可以从上述的计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的口语测试的评估方法或者口语测试结果的显示方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本申请实施例中提供的口语测试的评估方法，提取口语测试数据的第一特征信息后，通过评分模型确定评分结果，并根据第一特征信息分析口语测试数据的不确定性评分和异常评分，从而根据不确定性评分和异常评分，确定出评分结果的置信度。该口语测试的评估方法在对口语测试数据进行评分时，兼顾到了口语测试数据的不确定性因素和异常因素，通过置信度指标量化得到的评分结果的可靠程度，有利于输出较为准确的评分结果，提高评分结果的准确率，可减少人工审核渠道的复核校验压力，提高口语测试数据的评分效率。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请实施例中提供的一种口语测试的评估方法的实施环境示意图；

图2为本申请实施例中提供的一种口语测试的评估方法的流程示意图；

图3为本申请实施例中提供的一种口语测试的评估方法中提取文本特征信息的示意图；

图4为本申请实施例中提供的一种口语测试的评估方法中提取文本特征信息时对语句的处理示意图；

图5为本申请实施例中提供的一种口语测试的评估方法中得到的评分结果示意图；

图6为本申请实施例中提供的另一种口语测试的评估方法中得到的评分结果示意图；

图7为本申请实施例中提供的一种口语测试的评估方法中使用的混合密度网络模型的结构示意图；

图8为本申请实施例中提供的一种口语测试的评估方法中使用的Dropout算法的示意图；

图9为本申请实施例中提供的一种口语测试的评估方法中使用多模型融合算法确定第二方差的示意图；

图10为本申请实施例中提供的一种口语测试的评估方法中确定异常评分的示意图；

图11为本申请实施例中提供的一种口语测试的评估方法的应用流程示意图；

图12为本申请实施例中提供的一种口语测试的评估方法得到的评分结果准确度示意图；

图13为本申请实施例中提供的一种口语测试结果显示方法的流程示意图；

图14为本申请实施例中提供的一种应用界面示意图；

图15为本申请实施例中提供的另一种应用界面示意图；

图16为本申请实施例中提供的一种口语测试的评估装置的结构示意图；

图17为本申请实施例中提供的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在对本申请实施例进行详细说明之前，首先对本申请实施例中涉及的部分名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

自动语音识别技术（Automatic Speech Recognition，ASR）：该技术是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术，可以将人的语音信息转换为文本信息。

AUC（Area Under Curve）：ROC曲线与坐标轴所围下方的面积。

本申请实施例中所提供的口语测试的评估方法、口语测试结果的显示方法主要涉及人工智能技术。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术；人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术、机器学习/深度学习、自动驾驶以及智慧交通等几大方向。

本申请实施例中提供的口语测试的评估方法、口语测试结果的显示方法具体涉及人工智能领域内的自然语言处理技术和机器学习。其中，自然语言处理(Nature Languageprocessing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言，所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，机器学习（深度学习）通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体地，本申请实施例中提供的方法，可以采用自然语言处理技术对口语测试数据进行处理，并结合机器学习模型预测得到口语测试数据的评分结果，进而通过机器学习算法确定这些评分结果的置信度。本申请实施例中提供的方法可以在各种人工智能领域的应用场景中被执行：例如，教育机构希望对参与口语测试的考生的成绩进行准确评估，可以采用基于本申请实施例中提供的口语测试的评估方法搭建而成的人工智能系统输出置信度较高的评分结果；考生在参加正规的口语测试前，希望事先了解到自己的口语水平以便更好地安排学习任务，可以采用基于本申请实施例中提供的口语测试结果的显示方法搭建而成的人工智能系统输出评分结果和其对应的置信度。当然，需要说明的是，以上的应用场景仅起到示例性的作用，并不意味着对本申请实施例中方法的实际应用形成限制。本领域技术人员可以理解：在不同应用场景中，人工智能系统都可以利用本申请实施例中提供的方法执行指定的任务。

口语测试是一项系统有序的语言运用能力测试项目，目的是测试被测人员对指定类型语言的听读熟练程度。一般来说，经过科学客观的测试，可以得出被测人员对应的评分结果，该评分结果在入学、就业、移民等多类场景被广泛考虑，对个人的工作生活具有比较重要的意义，故而评分结果的准确性对于口语测试来说相当重要。

相关技术中，口语测试数据的评分方式一般包括机器评测和人工审核。其中，机器评测指的是通过人工智能技术，基于计算机设备实现自动化评分的方式；人工审核指的是由教师或者专家学者听取口语测试数据后给出主观评分的方式。一般来说，人工审核更贴合自然的语言使用习惯，具有更高的评分准确性，然而受限于参与人工审核的工作人员数量，人工审核并不能广泛实施，所以需要依靠机器评测的方式辅助完成评分任务。

具体地，机器评测往往基于各种类型的机器学习模型对被测人员的口语测试数据进行评分，由于口语测试针对的人群比较多样化，包括不同年龄段、不同口语水平的被测人员；同时，口语测试的考场环境比较复杂，可能包含各种噪声以及设备异常的情况，故而机器学习模型给出的评分结果并不总是完全可靠的，存在一定的不确定性和误报率，可能导致输出的评分结果的准确率差异较大，即一部分评分结果的可靠程度较高，而另一部分的评分结果可能与真实结果相距甚远。正如前面所说的，口语测试是一项高利害相关的测试项目，当被测人员认为评分结果和预期结果差距较大时，往往会申请复查，此时需要经由人工审核渠道进行复核校验，对评分结果进行修正，这个过程会耗费大量的人力及时间成本，导致整体的口语测试评分效率较低。综上，相关技术中存在的问题亟需得到解决。

有鉴于此，本申请实施例中提供一种口语测试的评估方法，该方法提取口语测试数据的第一特征信息后，通过评分模型确定评分结果，并根据第一特征信息分析口语测试数据的不确定性评分和异常评分，从而根据不确定性评分和异常评分，确定出评分结果的置信度。该口语测试的评估方法在对口语测试数据进行评分时，兼顾到了口语测试数据的不确定性因素和异常因素，通过置信度指标量化得到的评分结果的可靠程度，有利于输出较为准确的评分结果，提高评分结果的准确率，可减少人工审核渠道的复核校验压力，提高口语测试数据的评分效率。

下面结合附图，对本申请实施例的具体实施方式进行详细说明。

参照图1，图1示出了本申请实施例中提供的口语测试的评估方法一种实施环境的示意图。在该实施环境中，主要涉及的软硬件主体包括口语测试数据收集端110、后台服务器120和评分结果汇总端130。其中，口语测试数据收集端110用于收集、整合各类信息渠道得到的口语测试数据，并上传到后台服务器120中。后台服务器120用于执行本申请实施例中的口语测试的评估方法，得到各个口语测试数据的评分结果和这些评分结果对应的置信度，并将其发送到评分结果汇总端130，评分结果汇总端130用于收集整合各个口语测试数据的评分结果。在评分结果汇总端130处，可以存储置信度较高的评分结果，并将置信度较低的评分结果对应的口语测试数据直接转发到人工审核渠道进行再次评测。

在一些实施例中，图1示出的口语测试数据收集端110和评分结果汇总端130可以包括但不限于智能手表、智能手机、平板电脑、个人数字助理（Personal DigitalAssistant，PDA)、智能语音交互设备、笔记本电脑、台式计算机、智能家电或者车载终端中的任意一种或者多种。后台服务器120可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云存储、网络服务等业务的云服务器。在一些实施例中，口语测试数据收集端110与后台服务器120、后台服务器120与评分结果汇总端130之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网（Local Area Network，LAN）、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

当然，可以理解的是，图1中的实施环境只是本申请实施例中提供的口语测试的评估方法一种可选的应用场景，实际的应用并不固定为图1所示出的软硬件环境。比如说，在一些实施例中，用于获取口语测试数据、存储评分结果的端口可以是区块链服务器；即在实施的过程中，可以从区块链中获取其他区块链节点收集、上传的口语测试数据；区块链服务器可以将得到的评分结果打包成新的区块上传至区块链中。通过区块链的去中心化的数据存储方式，可以使数据更为公开安全，也可以避免恶意的数据篡改，同时有利于使数据的利用率得到提高。

参照图2，图2是本申请实施例中提供的口语测试的评估方法一个可选的流程示意图，图2中的方法主要包括步骤210至步骤250。

步骤210、提取口语测试数据的第一特征信息；

本申请实施例中，口语测试数据主要包括进行口语测试的被测人员的语音数据。具体地，本实施例中，对于口语测试数据的获取渠道不做限制，该口语测试数据既可以是直接通过收音设备从口语测试的考场环境中采集得到的，也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机系统获取得到的。由于口语测试数据本身是非结构化的数据，为方便对其进行处理，本申请中选择提取口语测试数据的特征信息，将提取得到的特征信息记为第一特征信息。

具体地，此处的第一特征信息可以包括口语测试数据的声学特征信息，例如可以是口语测试数据的音频频谱的数字特征，具体地，可以从口语测试数据的音频频谱中按照预定的规则选取一些时间频率点，将其编码为数字序列，该数字序列即可以作为口语测试数据的声学特征信息。当然，本申请实施例中采用的特征提取算法可以根据需要任选，例如在一些实施例中，可以对口语测试数据按照一定的帧叠进行分帧和加窗，得到多个音频帧，具体地，此处分帧指的是按预设规则将整段的口语测试数据切成多段，每一段即为一个音频帧，加窗指的是使用预设的窗函数对每个音频帧进行截取，从而使分帧后的口语测试数据更加连贯，表现出更好的周期函数特征，该窗函数可以是矩形窗、汉明窗或者高斯窗等的任意一种。然后对获取的音频帧进行快速傅里叶变换（FFT，Fast FourierTransformation），得到每个音频帧的频谱，选取每帧频谱中的峰值信号作为该频谱的数字特征来构造口语测试数据的声学特征信息；在一些实施例中，在得到音频帧的频谱后，也可以在频域上将每个音频帧划分出多个子带，然后计算任意两个相邻子带之间的能量差分的差值，基于得到的差值来构造口语测试数据的声学特征信息。上述的方式在编码时一般都是将数字特征转换为哈希序列，即以哈希序列作为音频数据的声学特征信息，在一些实施例中，还可以通过神经网络模型提取口语测试数据的音频数字特征作为声学特征信息，得到的数据格式可以是数值、向量或者矩阵中的任意一种。当然，上述基于音频频谱提取声学特征信息的方式仅用于举例说明，并不意味着对本申请的实际实施形成限制，例如，本申请中还可以基于发音准确度、流利度、韵律度、信噪比、声音强度等维度提取声学特征信息。并且，在一些实施例中，还可以将多种维度提取得到的声学特征信息整合起来得到新的声学特征信息，比如说可以将多种向量形式的声学特征信息通过拼接得到一个新的向量形式的声学特征信息。

在一些实施例中，本申请的第一特征信息还可以包括口语测试数据的文本特征信息。具体地，参照图3，在提取文本特征信息时，需要先对口语测试数据310进行文本化处理，可以采用自动语音识别技术（Automatic Speech Recognition，ASR）对口语测试数据310进行语音识别，得到口语测试数据310的文本内容320，然后提取文本内容320的文本特征信息，例如可以将口语测试数据的文本内容通过自然语言处理技术转换为结构化数据，比如说向量，从而将转换得到的结构化数据作为文本特征信息。

具体地，本申请实施例中，提取得到口语测试数据310的文本内容320后，首先可以对得到的文本内容320进行句子级别的切分处理，得到多个语句。然后再分别对每个语句进行分词处理，得到组成该语句的词组。比如说参照图3中，文本内容320中包括语句321“衬衫的价格是二百”，经过分词处理后可以得到词组“衬衫，的，价格，是，二百”。此处，可以采用的分词算法有多种，例如在一些实施例中，可以采用基于词典的分词算法，先把语句按照词典切分成词，再寻找词的最佳组合方式；在一些实施例中，也可以采用基于字的分词算法，先把语句分成一个个字，再将字组合成词，寻找最优的组合方式。将语句进行分词处理后，可以通过预先建立的词典来确定词组中每个词对应的词嵌入向量，当然，在一些实施例中，词嵌入向量可以通过将词映射到一个具有统一的较低维度的向量空间中得到，生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。参照图4，比如说对于“衬衫的价格是二百”的语句，首先一一确定语句中各个词对应的词嵌入向量410，其中，词“衬衫”对应的词向量为（0，5，1，1），词“的”对应的词向量为（0，0，0，1），词“价格”对应的词向量为（4，2，3，1），词“是”对应的词向量为（0，1，0，1），词“二百”对应的词向量为（1，0，0，4）。在确定到词组“衬衫，的，价格，是，二百”中每个词对应的词嵌入向量后，可以对这些词嵌入向量进行累加，累加后的向量可以记为词组向量，如图4中词组“衬衫，的，价格，是，二百”对应的词组向量420为（5，8，4，8），对词组向量进行归一化处理，即可得到的语句对应的向量，比如说归一化处理时，可以设定语句对应的向量中元素和为1，则语句“衬衫的价格是二百”可以通过向量（0.2，0.32，0.16，0.32）来表示。可以理解的是，参照上述的方式，可以确定出口语测试数据310的文本内容320中所有语句对应的向量，对这些向量进行拼接或者将这些向量构造成矩阵，即可得到包含文本内容320所有特征信息的结构化数据，本申请实施例中，可以将这些结构化数据作为文本特征信息。当然，类似地，上述基于文本内容的语义提取文本特征信息的方式仅用于举例说明，并不意味着对本申请的实际实施形成限制，本申请中还可以基于语法特征、语用特征、关键词击中特征等维度提取文本特征信息，也同样可以将多种维度提取得到的文本特征信息整合起来得到新的文本特征信息，在此不再一一赘述。

步骤220、将第一特征信息输入到评分模型中，得到口语测试数据的评分结果；

本申请实施例中，在提取得到口语测试数据的第一特征信息后，可以将其输入到训练好的评分模型中，得到被测人员的口语测试数据的评分结果。具体地，此处评分结果的形式可以根据需要灵活设置，并且对应选择合适的算法搭建评分模型。比如说，在一些实施例中，可以将评分任务设定为分类任务，预先定义不同的评分类别，如“优秀”类别、“良好”类别、“中等”类别以及“差”类别等，此时可以选择SVM分类器、K最近邻算法、决策树算法、朴素贝叶斯算法等机器学习算法执行该分类任务。具体地，参照图5，将第一特征信息输入到评分模型中，即可得到该口语测试数据对应的评分结果，此时的评分结果用于表征被测人员的口语水平属于哪个类别。例如，以评分模型输出向量为例：当评分模型输出的向量为（1，1）时，说明口语测试数据的评分结果属于“优秀”类别；当评分模型输出的向量为（1，0）时，说明口语测试数据的评分结果属于“良好”类别；当评分模型输出的向量为（0，1）时，说明口语测试数据的评分结果属于“中等”类别；当评分模型输出的向量为（0，0）时，说明口语测试数据的评分结果属于“差”类别。当然，可以理解的是，以上以输出向量来表示分类类别的方式仅用于举例说明本申请实施例的原理，实际的实施过程可以根据需要灵活设定。

在一些实施例中，还可以将本申请中的评分任务设定为回归任务，以具体的数值表示评分结果，此时可以选择线性回归、逻辑回归、梯度提升决策树（Gradient BoostingDecision Tree，GBDT）、极端梯度提升（eXtreme Gradient Boosting，XGBoost）等机器学习算法来预测评分结果的数值。具体地，参照图6，此时将第一特征信息输入到评分模型中，即可直接得到该口语测试数据对应的分值，该分值即为评分结果，分值的大小用于表征被测人员的口语水平高低，为方便统一量化比较，可以通过调整模型的超参数将输出的分值约束到指定的范围内，比如说0～100的分值区间，在该分值区间内，分值的大小越大，表示被测人员的口语水平越高；反之，分值的大小越小，表示被测人员的口语水平越低。类似地，以上设置输出分值的回归预测方式仅用于举例说明本申请实施例的原理，实际的实施过程同样可以根据需要灵活设定。

上述执行分类任务或者回归任务的评分模型，需要事先训练完毕后投入使用，在此以执行分类任务的评分模型为例，简要说明评分模型的训练过程。在训练评分模型时，可以获取批量的带有分类标签的口语样本数据，其中的分类标签用于表征对应的口语样本数据属于哪个评分类别，分类标签的具体数据形式可以和前述的评分结果保持一致。将口语样本数据输入到初始化后的评分模型，评分模型将会输出该口语样本数据的评分结果，在此将其记为训练评分结果。根据各个口语样本数据对应的训练评分结果以及分类标签，可以确定评分模型预测各个口语样本数据的损失值。本申请实施例中，损失值可以采用0-1损失函数来确定，当评分模型预测正确时，即口语样本数据对应的训练评分结果以及分类标签一致时，损失值记为0；当评分模型预测错误时，即口语样本数据对应的训练评分结果以及分类标签不一致时，损失值记为1。当然，实际可以采用的损失值计算方式并不局限于上述的损失函数，例如平方差损失函数，交叉熵损失函数等均是可选的类型。通过约束评分模型预测多个口语样本数据的损失值之和最小化，可以对评分模型进行反向传播训练，更新其内部的参数，从而得到训练好的评分模型。

前述的评分模型，主要针对的是主观题型的口语测试，例如口头作文、看图说话等没有标准答案供参考的情况。而实际的口语测试中，还可能包括有客观题型，比如说模仿朗诵、补全对话等存在标准答案供参考的情况，此处，可以由专业人员将标准答案朗诵出来，收集记录这些语音数据，将其记为标准参考数据。对于此类客观题型的口语测试数据，可以获取与其对应的标准参考数据，通过判断两者之间的相似程度来进行评分。具体地，此时可以提取标准参考数据的特征信息，记为第二特征信息，第二特征信息的提取方式和第一特征信息类似，在此不再赘述。在评分过程中，将第一特征信息和第二特征信息一起输入到评分模型中，由评分模型计算两者的相似度，并根据相似度的大小，确定该口语测试数据的评分结果。此处的相似度用于表征第一特征信息和第二特征信息之间的相似程度，本申请实施例中，可以以百分比的形式来计量相似度，此时可以理解的是，当相似度的数值为100%时，可以认为第一特征信息和第二特征信息完全相同。

具体地，在确定第一特征信息和第二特征信息之间的相似度时，在一些实施例中，可以先确定第一特征信息和第二特征信息的数字特征之间的差异值，然后根据该差异值来确定相似度，差异值越大，相似度越小，反之，差异值越小，相似度越大。以第一特征信息和第二特征信息为前述提取的声学特征信息为例，可以先计算第一特征信息和第二特征信息对应的序列间的方差，然后将方差的绝对值作为差异值，通过差异值和预定的函数确定相似度，该函数使得相似度和差异值之间为负相关关系。应当理解的是，此处差异值的计算方式可以有多种方式，例如可以是数值间的差值、向量间的欧氏距离、矩阵间的范数差等。

在一些实施例中，还可以直接通过相似度算法计算第一特征信息和第二特征信息之间的相似度。以第一特征信息和第二特征信息为前述提取的文本特征信息，且第一特征信息和第二特征信息的数据结构均采用向量形式为例，将第一特征信息对应的向量记为第一向量，将第二特征信息对应的向量记为第二向量，然后可以通过余弦相似度算法、皮尔逊相关系数法或者杰卡德相似系数法等算法基于第一向量和第二向量计算相似度。具体地，例如，可以先确定第一向量的长度，记为第一长度，以及第二向量的长度，记为第二长度。接着计算第一长度和第二长度的乘积作为第一数值，以及计算第一向量和第二向量的内积作为第二数值，然后计算第一数值和第二数值的商作为第一向量与第二向量之间的相似度，也即第一特征信息和第二特征信息之间的相似度。本申请实施例中采用的算法公式如下：

式中，a表示第一特征信息，b表示第二特征信息；

表示相似度；

表示第一向量；

表示第二向量；“

”表示向量之间的内积；

表示第一向量的长度；

表示第二向量的长度。

步骤230、根据第一特征信息，对口语测试数据进行不确定性分析，得到不确定性评分；

本申请实施例中，由于机器学习模型预测得到的评分结果并不一定是完全可靠的，故而完全依赖前述的评分模型对口语测试数据进行评分，可能出现不公正的情况，例如部分评分结果准确而部分评分结果出现偏高或者偏低的现象。所以本申请实施例中，基于第一特征信息对口语测试数据进行不确定性分析，以辅助判断评分结果的可靠程度。具体地，导致评分模型不准确的不确定性因素主要包括两种：第一种为偶然不确定性（Aleatoric Uncertainty），偶然不确定性是由于观测数据（即口语测试数据）中的固有噪声导致的，也可以称为数据不确定性；第二种为感知不确定性（Epistemic Uncertainty），感知不确定性与机器学习模型本身相关，是由于模型训练不完全导致的，也可以称为模型不确定性。

本申请实施例中，对于口语测试数据的不确定性分析，按照上述的两种因素来源分别进行分析后综合得到不确定性评分，即一方面根据第一特征信息，对口语测试数据进行偶然不确定性分析，将得到的数值指标记为第一不确定性子评分；另一方面根据第一特征信息，对口语测试数据进行感知不确定性分析，将得到的数值指标记为第二不确定性子评分，然后对对第一不确定性子评分和第二不确定性子评分进行加权求和，得到不确定性评分。

具体地，在进行偶然不确定性分析时，可以采用混合密度网络模型（MixtureDensity Networks）。参照图7，混合密度网络模型一般包括输入层710、隐藏层720和输出层730，其中输入层710和输出层730的个数为1，隐藏层720的个数可以是大于等于1的任意个数。该模型的输出层730输出的是结果的概率分布形式，包括均值和方差两个指标。相对于一般的神经网络，混合密度网络模型具有更好的多峰分布拟合能力，属于对条件概率密度建模的框架之一。对于任意给定的输入数据，混合密度网络模型提供了一种通用的架构，将输入数据对应的输出建模为呈现出概率分布的形式。从概率的角度来说，理论上多个高斯分布的加权和可以近似任何概率分布，故而一般可以采用多个高斯分布的加权和表示模型的输出，从而取得理想的概率分布的效果。具体地，混合密度网络模型输出的概率分布可以通过如下公式表示：

式中，

表示输入数据x对应的输出结果y的概率分布；C表示参与加权的分布的个数，例如当需要混合5个高斯分布作为输出结果的概率分布时，C=5；

表示每个分布的权重参数，总的权重和为1。

表示各个参与加权的高斯分布，对于高斯分布来说，

表示第c个参与加权的高斯分布的均值，

表示第c个参与加权的高斯分布的方差。对于混合密度网络模型来说其参数主要包括参与加权的分布的个数，该参数可以由人工设定；每个参与加权的分布的均值和方差以及每个分布的权重参数，这些参数在模型训练时被更新优化。

一般来说，混合密度网络模型在训练优化时也可以通过设计损失函数来约束模型的参数，既然输出结果得到的是一个概率分布，那么按照极大似然估计的原则，这个概率分布应该使得观测到样本的概率尽可能大，故而可以最小化输出分布和训练数据分布的对数似然函数，即损失函数可以表示为：

式中，

表示混合密度网络模型的模型参数，

表示损失值，

表示输入数据x对应的输出结果y的概率分布，

表示参与加权的分布的方差，

表示参与加权的分布的均值，

表示一个常量（可省略）；对于通过多个分布加权来拟合的情况，可以求取各个分布的损失函数的均值作为总体的损失值，相应地，此时公式将变为：

式中，M表示参与加权的分布的个数，i表示参与加权的分布的编号。

本申请实施例中，将第一特征信息输入到训练好的混合密度网络模型中，可以得到模型预测的输出结果的概率分布情况，其概率分布的输出结果一般包括概率分布的均值和方差，将此处的方差记为第一方差，第一方差可以有效表征混合密度网络模型对输出结果预测的可靠程度，第一方差越大，说明混合密度网络模型预测的输出结果分布的离散程度越大，输出结果的准确性低，可靠程度不高；反之，第一方差越小，说明混合密度网络模型预测的输出结果分布的离散程度越小，输出结果的准确性较高。故而，本申请实施例中，可以通过第一方差来量化表征偶然不确定性对评分结果的影响程度。可以理解的是，第一方差和第一不确定性子评分正相关，即第一方差的数值越大，第一不确定性子评分的分值越高，具体可以采用任一种函数关系通过第一方差求取第一不确定性子评分，例如可以直接将第一方差的数值作为第一不确定性子评分。当然，为了便于数据展示的直观性以及后续计算流程的便捷性，可以设定将第一不确定性子评分约束在0～100之间。

在进行感知不确定性分析时，可以直接对不确定性进行建模，例如可以采用高斯过程回归、蒙特卡罗Dropout（Monte-Carlo Dropout）或者多模型融合算法确定感知不确定性对应的第二不确定性子评分。具体地，高斯过程回归采用高斯分布建模输出，可以确定每个预测结果的均值和它们之间的方差。

Dropout是一种用于优化神经网络中可能出现的过拟合现象的技术，参照图8，图8示出了一种神经网络采用该技术训练时的示意图，在模型训练过程的其中某一轮迭代时，原始的神经网络中每个神经元的输出（或者神经元的权重、偏置）以一定的概率被丢弃，从而形成了较为稀疏的网络结构，这种训练方式对于正则化密集的神经网络十分有效；蒙特卡罗Dropout相对来说使用更为简洁，不需要修改现有的神经网络，只需要在神经网络模型中设置Dropout层即可，蒙特卡罗Dropout的特点体现在对同一个输入数据进行多次前向传播的过程，这样在Dropout层的加持下，可以得到“不同网络结构”对于该输入数据输出的预测结果，根据预测结果可以求取平均值和统计方差，这个过程是可以并行的，在时间上可看作等于进行一次前向传播，故而具有较高的效率。

多模型融合算法则主要通过计算多个模型对输入数据进行预测，从而输出多个预测结果。此处的多个模型为两两之间不同的模型，具体可以是通过不同的机器学习算法训练得到的，当然，其中的部分模型也可以是基于同种机器学习算法，通过不同的训练数据训练得到的。参照图9，以多模型融合算法中包括四个模型为例，对第二不确定性子评分的确定过程进行解释说明。此处多模型融合算法中的四个模型依次可以记为第一模型、第二模型、第三模型和第四模型，将第一特征信息分别输入到四个模型中，得到的预测结果依次记为第一预测结果、第二预测结果、第三预测结果和第四预测结果，计算各个预测结果的平均值，然后根据该平均值可以确定出这些预测结果之间的方差。本申请实施例中，将采用高斯过程回归、蒙特卡罗Dropout（Monte-Carlo Dropout）或者多模型融合算法计算得到的方差记为第二方差。根据第二方差，可以确定出感知不确定性对应的第二不确定性子评分，具体的方式和基于第一方差确定第一不确定性子评分的过程类似，在此不再赘述。

需要说明的是，本申请实施例中，根据多个预测结果之间的方差确定不确定性子评分仅用于举例说明计算不确定性子评分一种可选的实施方式，而实际实施时也可以采用其他的方式，例如标准差或者任意一种衡量多个预测结果离散程度的指标数值，均可以用于确定上述的不确定性子评分。

本申请实施例中，对于第一不确定性子评分和第二不确定性子评分的加权求和，在一些实施例中，可以通过公式

来计算得到总的不确定性评分，式中，U表示不确定性评分，

表示第一不确定性子评分对应的加权权重，m表示第一不确定性子评分，

表示第二不确定性子评分对应的加权权重，n表示第二不确定性子评分。一般情况下，

的数值可以设置为0.5，当然，该数值可以根据实际的应用情况灵活调整，例如当发现针对感知不确定性的建模精度较高时，

的数值可设置为大于0.5。

需要补充说明的是，当第一不确定性子评分和第二不确定性子评分都基于高斯分布的方差确定时，如第一不确定性子评分m基于高斯分布

确定（

表示高斯分布A的均值，

表示高斯分布A的方差），第二不确定性子评分n基于高斯分布

确定（

表示高斯分布B的均值，

表示高斯分布B的方差），在加权时可以先确定出加权后的方差，然后根据该方差得到不确定性评分。而根据高斯分布的可叠加性，可以直接对两个高斯分布进行加权，即确定加权后的高斯分布为：

式中，

表示加权权重，D表示加权后得到的高斯分布，此时不确定性评分可以根据高斯分布D的方差

确定。

步骤240、根据第一特征信息，对口语测试数据进行异常分析，得到异常评分；异常分析包括噪声分析或者语义分析中的至少一种；

本申请实施例中，还根据第一特征信息，分析口语测试数据是否存在异常，并得出对应的异常评分。具体地，对于口语测试数据的异常分析，包括噪声分析或者语义分析中的至少一种，其中，噪声分析用于分析口语测试数据是否存在噪声，比如说环境噪声、人声噪声、电流音噪声等；语义分析用于确定口语测试数据是否存在语义上的问题，比如说是否为非正常音频（乱读）、是否缺失音频、是否不符合测试要求的语言格式等。上述所说明的每种异常情况，均可以建模、训练一个具有针对性的机器学习模型进行异常分析，输出是否存在某种异常或者存在异常的程度。例如，本申请实施例中，可以采用噪声检测模型对口语测试数据是否包含噪声数据进行检测，具体地，此时可以将前述的声学特征信息输入到噪声检测模型，噪声检测模型对声学特征信息进行处理后，输出噪声检测结果。类似地，在一些实施例中，此处的噪声检测结果既可以是分类结果，例如代表“含有噪声”的类别或者“不含噪声”的类别；在一些实施例中，噪声检测结果还可以是数值类型的结果，可以用于表示口语测试数据含有的噪声数据的比例，如0～100%。当然，本申请实施例中，还可以进一步对噪声检测模型进行细分，例如建立环境噪声模型用于检测口语测试数据中的环境噪声，建立人声噪声模型用于检测口语测试数据中的人声噪声等等。

对于语义层面的异常，本申请实施例中可以采用语义分析模型对口语测试数据进行检测，以确定口语测试数据中的文本内容是否属于预定格式的自然语言，此处，自然语言指的是符合人们日常使用规则的语言，预定格式可以包括对语言的种类、语速或者语法搭配等规则的设定。具体地，此时可以将前述的文本特征信息输入到语义分析模型，语义分析模型对文本特征信息进行处理后，输出文本检测结果。同样地，文本检测结果既可以是分类结果，也可以是数值结果。而且，语义分析模型也可以被进一步细分，例如建立语种分析模型用于检测口语测试数据中的文本内容是否属于本次测试要求的语言种类，建立语义分析模型用于检测口语测试数据中的文本内容是否符合自然语言的使用方式等等。

可以理解的是，本申请实施例中的噪声检测模型和语义分析模型可以基于任一种机器学习算法搭建，例如对于噪声检测模型来说，可以使用较为基础的分类算法或者回归算法；对于语义分析模型来说，统计语言模型或者基于深度学习的语言模型均为可选的实施方式。本申请实施例中，在得到噪声检测结果和文本检测结果后，可以确定口语测试数据的异常评分，异常评分可以用于量化该口语测试数据存在异常的程度。比如说，可以根据噪声检测结果确定一组异常评分，将其记为第一异常子评分。确定第一异常子评分的具体方式可以有多种，例如可以默认为当噪声检测结果表征口语测试数据中含有噪声数据时，输出较高的第一异常子评分；当噪声检测结果表征口语测试数据中不含有噪声数据时，输出较低的第一异常子评分。当然，在一些实施例中，当噪声检测结果为表征口语测试数据含有的噪声数据的比例这种数值型的结果时，还可以直接根据该数值确定第一异常子评分；在一些实施例中，对于含有多种噪声检测的情况，可以将每种检测得到的结果汇总起来确定第一异常子评分。口语测试数据中含有噪声数据种类越多、比例越高，第一异常子评分的分值就越高。类似地，还可以根据文本检测结果确定另一组异常评分，将其记为第二异常子评分，第二异常子评分的具体确定方式和第一异常子评分类似，在此不再赘述。

本申请实施例中，确定出第一异常子评分和第二异常子评分后，可以将其中的任意一者作为异常评分，在一些实施例中，还可以对二者进行加权求和，以得到综合的异常评分。为方便描述起见，下面以通过分类形式的输出对异常评分的加权过程进行简单说明。请参照图10，图10中的异常分析中用到了多个模型，包括前述的环境噪声模型、人声噪声模型、语种分析模型和语义分析模型，将这些模型均建模为输出异常与否的分类模型，当模型输出数值“1”时，代表存在该种类别的异常，比如说当环境噪声模型输出数值“1”时，代表口语测试数据中存在环境噪声，当语种分析模型输出数值“1”时，代表口语测试数据中的文本内容的语种不符合预定格式的语种；当模型输出数值“0”时，代表不存在该种类别的异常，比如说当人声噪声模型输出数值“0”时，代表口语测试数据中不存在人声噪声，当语义分析模型输出数值“0”时，代表口语测试数据中的文本内容属于自然语言。整合各个模型输出的数值，可以得到一个序列，比如说根据图10中的模型输出可以得到“1，0，1，0”的序列，根据这个序列可以确定得到异常评分。例如，在一些实施例中，可以将这个序列作为输入数据，进一步输入到机器学习模型中预测得到对应的异常评分；在一些实施例中，可以对这个序列中的数值进行加权求和，得到异常评分：比如说该序列中存在n个数值，第i个数值记为

（i和n均为正整数，i小于等于n），则序列可以用

表示，异常评分可以通过下式求得：

式中，E表示异常评分，

表示第i个数值

对应的加权权重，

，

的具体数值可以根据需要灵活调整。

步骤250、根据不确定性评分和异常评分，确定评分结果的置信度。

本申请实施例中，在确定到口语测试数据的不确定性评分和异常评分后，可以有效量化出根据该口语测试数据得到的评分结果的可靠程度，也即评分结果的置信度。具体地，可以理解的是，评分结果的可靠程度和口语测试数据的不确定性评分、异常评分均为负相关的关系，即口语测试数据的不确定性评分或者异常评分越高，评分结果就越不可靠，置信度越低；反之，口语测试数据的不确定性评分或者异常评分越低，评分结果就越可靠，置信度越高。故而本申请实施例中，可以先采用如下公式对不确定性评分和异常评分进行加权求和，得到的结果记为第一评分：

式中，S表示第一评分，U表示不确定性评分，

表示不确定性评分对应的权重，E表示异常评分，

表示异常评分对应的权重。类似地，此处，

的具体数值可以根据需要灵活调整。

得到第一评分后，可以再根据第一评分确定评分结果的置信度，只需保证置信度的大小和第一评分的大小负相关即可。类似地，为了便于数据展示的直观性，可以设定将置信度的大小约束在0～100之间。

可以理解的是，本申请实施例中通过提取口语测试数据的第一特征信息，将其输入到评分模型确定评分结果，并分析口语测试数据的不确定性评分和异常评分，从而确定出评分结果的置信度，有效量化了得到的评分结果的可靠程度。下面结合具体的实施例，对本申请实施例中得到的评分结果及置信度的一种应用场景进行说明。

参照图11，本申请实施例中，在获取到被测人员1110的口语测试数据后，将口语测试数据发送到后台服务器1120中进行处理。后台服务器1120对口语测试数据进行特征提取，得到第一特征信息，然后基于第一特征信息，一方面将其输入到评分模型得到被测人员1110的口语测试数据的评分结果，另一方面，对第一特征信息进行不确定性分析和异常分析，分别得到不确定性评分和异常评分，从而得到该评分结果对应的置信度数据。对于该置信度，可以在后台服务器1120中设置一个预设阈值，将评分结果对应的置信度和预设阈值比较，如果置信度大于等于预设阈值，说明该评分结果较为可靠，可以将此时机器评测得到的评分结果作为理想的评分结果输出；反之，如果置信度小于预设阈值，说明该评分结果不太可靠，此时如果将机器评测得到的评分结果作为理想的评分结果输出，很可能会导致成绩出错，影响测试的公正性和权威性，且被测人员1110再申请复核校验需要花费较长时间，整体的评分流程效率受到干扰。故而本申请实施例中，对于置信度小于预设阈值的评分结果，可以直接将其对应的口语测试数据转发到人工审核渠道1130，直接在评分结果未公布阶段就由专家审阅给出人工审核的评分结果，提高评分流程的效率和公布的评分结果的准确性。后台服务器120在汇总机器评测和人工审核得到的评分结果后，可以将该评分结果返回给被测人员1110。当然，需要说明的是，图11所示出的实施例仅用于举例说明本申请中得到的评分结果及置信度的一种可选的应用场景，在实际实施过程中，可以更改、删减图11中部分的处理流程或者执行设备，例如在确定需要进行人工审核的口语测试数据时，也可以收集批量的口语测试数据的评分结果和评分结果的置信度，按照置信度的大小进行排序，取其中置信度较小的若干评分结果对应的口语测试数据转发到人工审核渠道1130进行审核。具体地，即可以对评分结果的置信度进行降序排列，将置信度排序靠后的若干个评分结果对应的口语测试数据转发到人工审核渠道1130；或者对评分结果的置信度进行升序排列，将置信度排序靠前的若干个评分结果对应的口语测试数据转发到人工审核渠道1130。此处的若干个评分结果，既可以是直接根据个数选择的，比如说选择10个，也可以是根据预设比例选择的，比如选择靠后或靠前的10%。本申请实施例对此类实施过程中的适应性调整不作限制。

本申请实施例中，对采用本申请技术方案进行口语测试得到的评分结果的准确度进行了评估。参照图12，图12中示出了几种不同的干预方案下得到的评分结果的准确度和人工干预率的曲线关系，其中，人工干预率表示的是经人工审核渠道处理的样本数据占全体样本数据的比例。具体地，图12中的“最优干预”方案指的是直接将评分出错的样本数据对应的评分结果替换为人工审核结果，即人工干预理论上能够达到的最优评分结果；“随机干预”方案指的是随机挑选部分样本数据进行人工干预；“本申请方案”指的是基于本申请实施例中挑选出的置信度较低的样本数据进行人工干预。从图12中可以看出，相对于随机干预的策略，本申请实施例中提供的口语测试的评估方法，可以在人工干预率较低的情况下取得较高的评分准确性，而在同等人工干预率的情况下，更接近理论上能够达到的最优评分结果，说明本申请实施例中的人工干预方式更有效，能够在节省人力审核成本的情况下，提高评分结果的准确性。具体地，为了更直观地表现人工干预的效果，可以采用

指标来衡量（

表示某条曲线下方的面积）：

式中，

用于表征人工干预的效果，

表示本申请方案得到的准确率-人工干预率曲线下方的面积；

表示随机干预得到的准确率-人工干预率曲线下方的面积；

表示最优干预得到的准确率-人工干预率曲线下方的面积。

参照图13，本申请实施例中，还提供一种口语测试结果的显示方法，该方法同样可应用于终端设备中，例如可以应用于终端设备中的部分软件，用于实现一部分的软件功能。类似地，该显示方法可以应用的终端设备包括但不限于智能手表、智能手机、平板电脑、个人数字助理（Personal Digital Assistant，PDA)、智能语音交互设备、笔记本电脑、台式计算机、智能家电或者车载终端。图13中示出的是本申请实施例中提供的口语测试结果的显示方法一个可选的流程示意图，该方法主要包括步骤1310至步骤1320：

步骤1310、接收待评估的口语测试数据；

步骤1320、显示口语测试数据的评分结果和评分结果对应的置信度；

其中，评分结果和置信度通过如图2所示的口语测试的评估方法得到。

本申请实施例中，参照图14和图15，以终端设备执行该显示方法为例，终端设备可以通过自带的收音装置获取接收用户的语音数据，即待评估的口语测试数据，然后可以通过执行如图2所示的口语测试的评估方法，得到该口语测试数据的评分结果和评分结果对应的置信度，并将评分结果和置信度显示给用户。具体地，参照图14，图14中显示了一种口语测试的应用界面示意图，用户可以根据屏幕上显示的画面1410说出描述性的话语，并点击录音按钮1420录制语音数据，在录制完成后，可以点击上传测试按钮1430上传录制好的语音数据。应用软件接收到语音数据后，将其作为口语测试数据进行评估，参照图15，得到评分结果和对应的置信度后，可以在分数显示框1510中显示出本次测试的分数，比如图15中显示的“79分”，以及在分数置信度显示框1520中显示出该分数“79分”对应的置信度。

本申请实施例中的显示方法，可以令用户较为清晰地了解到自身的口语水平，同时也有效告知用户该次测试得到的评分结果的真实有效性，在一些实施例中，在置信度较低的情况下，还可以提示用户重新测试，以得到较为准确的评分结果，提高用户体验。并且，可以理解的是，图2所示的口语测试的评估方法实施例中的内容均适用于本口语测试结果的显示方法实施例中，本口语测试结果的显示方法实施例在得到评分结果和评分结果对应的置信度的过程中，所具体实现的功能与图2所示的口语测试的评估方法实施例相同，并且达到的有益效果与图2所示的口语测试的评估方法实施例所达到的有益效果也相同。

参照图16，本申请实施例还公开了一种口语测试的评估装置，包括：

提取模块1610，用于提取口语测试数据的第一特征信息；

评分模块1620，用于将第一特征信息输入到评分模型中，得到口语测试数据的评分结果；

第一分析模块1630，用于根据第一特征信息，对口语测试数据进行不确定性分析，得到不确定性评分；

第二分析模块1640，用于根据第一特征信息，对口语测试数据进行异常分析，得到异常评分；异常分析包括噪声分析或者语义分析中的至少一种；

处理模块1650，用于根据不确定性评分和异常评分，确定评分结果的置信度。

可以理解的是，图2所示的口语测试的评估方法实施例中的内容均适用于本口语测试的评估装置实施例中，本口语测试的评估装置实施例所具体实现的功能与图2所示的口语测试的评估方法实施例相同，并且达到的有益效果与图2所示的口语测试的评估方法实施例所达到的有益效果也相同。

参照图17，本申请实施例还公开了一种计算机设备，包括：

至少一个处理器1710；

至少一个存储器1720，用于存储至少一个程序；

当至少一个程序被至少一个处理器1710执行，使得至少一个处理器1710实现如图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例。

可以理解的是，如图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例中的内容均适用于本计算机设备实施例中，本计算机设备实施例所具体实现的功能与如图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例相同，并且达到的有益效果与如图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现如图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例。

可以理解的是，图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例相同，并且达到的有益效果与图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在上述的计算机可读存储介质中；图17所示的计算机设备的处理器可以从上述的计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例。

可以理解的是，图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中，本计算机程序产品或计算机程序实施例所具体实现的功能与图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例相同，并且达到的有益效果与图2所示的口语测试的评估方法实施例、图13所示的口语测试结果的显示方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种口语测试的评估方法，其特征在于，包括以下步骤：

提取口语测试数据的第一特征信息；

2.根据权利要求1所述的方法，其特征在于，所述提取口语测试数据的第一特征信息，包括：

提取所述口语测试数据的声学特征信息；

或者，

对所述口语测试数据进行语音识别，得到所述口语测试数据的文本内容；

提取所述文本内容的文本特征信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征信息，对所述口语测试数据进行不确定性分析，得到不确定性评分，包括：

根据所述第一特征信息，对所述口语测试数据进行偶然不确定性分析，得到第一不确定性子评分；

根据所述第一特征信息，对所述口语测试数据进行感知不确定性分析，得到第二不确定性子评分；

对所述第一不确定性子评分和所述第二不确定性子评分加权求和，得到所述不确定性评分。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一特征信息，对所述口语测试数据进行偶然不确定性分析，得到第一不确定性子评分，包括：

将所述第一特征信息输入到混合密度网络模型，得到所述混合密度网络模型输出的第一方差；

根据所述第一方差，确定所述第一不确定性子评分。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一特征信息，对所述口语测试数据进行感知不确定性分析，得到第二不确定性子评分，包括：

通过多模型融合算法对所述第一特征信息进行预测，得到多个预测结果；

确定多个所述预测结果之间的第二方差；

根据所述第二方差，确定所述第二不确定性子评分。

6.根据权利要求1所述的方法，其特征在于，所述异常分析包括噪声分析和语义分析；

所述根据所述第一特征信息，对所述口语测试数据进行异常分析，得到异常评分，包括：

将所述第一特征信息输入到噪声检测模型，得到所述噪声检测模型输出的噪声检测结果；所述噪声检测结果用于表征所述口语测试数据中是否包含噪声数据；

将所述第一特征信息输入到语义分析模型，得到所述语义分析模型输出的文本检测结果；所述文本检测结果用于表征所述口语测试数据中的文本内容是否属于预定格式的自然语言；

根据所述噪声检测结果，确定第一异常子评分；

根据所述文本检测结果，确定第二异常子评分；

对所述第一异常子评分和所述第二异常子评分加权求和，得到所述异常评分。

7.根据权利要求1所述的方法，其特征在于，所述根据所述不确定性评分和所述异常评分，确定所述评分结果的置信度，包括：

对所述不确定性评分和所述异常评分加权求和，得到第一评分；

根据所述第一评分确定所述评分结果的置信度；所述置信度的大小和所述第一评分的大小负相关。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括以下步骤：

获取与所述口语测试数据对应的标准参考数据；

提取所述标准参考数据的第二特征信息；

所述将所述第一特征信息输入到评分模型中，得到所述口语测试数据的评分结果，包括：

将所述第一特征信息和所述第二特征信息输入到评分模型中，确定所述第一特征信息和所述第二特征信息之间的相似度；

根据所述相似度，确定所述评分结果；所述评分结果的大小和所述相似度的大小正相关。

9.根据权利要求8所述的方法，其特征在于，所述第一特征信息包括第一向量，所述第二特征信息包括第二向量；

所述确定所述第一特征信息和所述第二特征信息之间的相似度，包括：

计算所述第一向量的第一长度和所述第二向量的第二长度；

根据所述第一长度和所述第二长度的乘积得到第一数值，根据所述第一向量和所述第二向量的内积得到第二数值；

根据所述第二数值和所述第一数值的商，得到所述相似度。

10.根据权利要求1-9中任一项所述的方法，其特征在于，所述方法还包括：

当所述置信度大于或者等于预设阈值，输出所述评分结果；或者，

当所述置信度小于预设阈值，将所述口语测试数据转发到人工审核渠道。

11.根据权利要求1-9中任一项所述的方法，其特征在于，所述方法还包括：

确定多个所述口语测试数据的评分结果和所述评分结果的置信度；

对所述评分结果的置信度进行降序排列，将所述置信度排序靠后的若干个评分结果对应的所述口语测试数据转发到人工审核渠道；或者对所述评分结果的置信度进行升序排列，将所述置信度排序靠前的若干个评分结果对应的所述口语测试数据转发到人工审核渠道。

12.一种口语测试结果的显示方法，其特征在于，包括以下步骤：

接收待评估的口语测试数据；

其中，所述评分结果和所述置信度通过如权利要求1-11中任一项所述的口语测试的评估方法得到。

13.一种口语测试的评估装置，其特征在于，包括：

提取模块，用于提取口语测试数据的第一特征信息；

14.一种计算机设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-12中任一项所述的方法。