CN114203201A

CN114203201A - 口语评测方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114203201A
Application number: CN202111546644.7A
Authority: CN
Inventors: 谢泽颖
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-18

Abstract

本申请提供一种口语评测方法、装置、设备、存储介质及程序产品，所述方法包括：获取评测请求，该评测请求携带有文本数据和文本数据对应的待评测语音数据；获取训练好的评测模型，其中，训练好的评测模型是基于自监督学习训练得到的；将文本数据和文本数据对应的待评测语音数据输入至训练好的评测模型，得到待评测语音数据的音素后验概率和音素序列对齐关系；基于音素后验概率和音素序列对齐关系，确定待评测语音的评测结果。本申请实施例中的训练好的评测模型是基于自监督学习训练得到的，无需人工标注语音数据即可实现自动地口语评测，能够大大降低人工标注成本，使得该训练好的评测模型可适用于各种语言的口语评测。

Description

口语评测方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，涉及但不限于一种口语评测方法、装置、设备、存储介质及程序产品。

背景技术

传统的口语水平评测方法依赖于人工评分，不能保证评分标准的统一性，有失客观公正，并且效率低，需要大量的人力、物力和财力支持。

随着自然语言处理和神经网络的发展，相关技术中给出了一种自动口语评测方法。该方法基于自然语言处理和神经网络训练一个自动评分模型，用于对发音人发音的准确度进行自动打分，以替代人工打分，确保评测的效率和公平。但是相关技术中训练自动评分模型时，需要人工标注大量数据作为样本，人工标注成本仍较高，而且对于小语种，由于无法获得大量数据导致无法训练得到准确的自动评分模型，影响口语评测效果。

发明内容

本申请实施例提供一种口语评测方法、装置、设备、计算机可读存储介质及计算机程序产品，无需获取大量样本数据的前提下，能够保证口语评测结果具有较高的准确度，有效地提升口语评测效果。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种口语评测方法，所述方法包括：

获取评测请求，所述评测请求携带有文本数据和所述文本数据对应的待评测语音数据；

获取训练好的评测模型，其中，所述训练好的评测模型是基于自监督学习训练得到的；

将所述文本数据和所述文本数据对应的待评测语音数据输入至所述训练好的评测模型，得到所述待评测语音数据的音素后验概率和音素序列对齐关系；

基于所述音素后验概率和所述音素序列对齐关系，确定所述待评测语音的评测结果。

本申请实施例提供一种口语评测装置，所述装置包括：

第一获取模块，用于获取评测请求，所述评测请求携带有文本数据和所述文本数据对应的待评测语音数据；

第二获取模块，用于获取训练好的评测模型，其中，所述训练好的评测模型是基于自监督学习训练得到的；

输入模块，用于将所述文本数据和所述文本数据对应的待评测语音数据输入至所述训练好的评测模型，得到所述待评测语音数据的音素后验概率和音素序列对齐关系；

第一确定模块，用于基于所述音素后验概率和所述音素序列对齐关系，确定所述待评测语音的评测结果。

在一些实施例中，所述装置还包括：

第三获取模块，用于获取语音数据集和标注数据集，所述语音数据集包括的语音数据为未标注的原始语音，所述标注数据集包括标注语音数据和所述标注语音数据对应的标注文本；

第一训练模块，用于基于自监督学习，利用所述语音数据集包括的语音数据进行训练，得到训练好的特征表示子模型；

第四获取模块，用于获取初始声学子模型；

第二训练模块，用于利用所述标注数据集对所述初始声学子模型进行训练，得到训练好的声学子模型；

第二确定模块，用于将所述训练好的特征表示子模型和所述训练好的声学子模型确定为训练好的评测模型。

在一些实施例中，所述第一训练模块，还用于：

对所述语音数据集中的各语音数据进行特征提取，得到所述各语音数据对应的特征表示；

对所述各语音数据对应的特征表示进行自监督学习训练，得到训练好的特征表示子模型。

在一些实施例中，所述第一训练模块，还用于：

对所述一个语音数据进行分帧处理，得到多个帧特征；

基于多层卷积神经网络对所述多个帧特征进行编码处理，得到多个帧级别的局部特征表示；

对各局部特征表示进行量化处理，得到各离散特征表示；

基于各离散特征表示之间的相关度，对所述各离散特征表示进行编码，得到所述一个语音数据对应的特征表示。

在一些实施例中，所述第一训练模块，还用于：

从所述各语音数据中随机筛选出部分语音数据；

对所述部分语音数据对应的特征表示进行掩码处理，得到遮掩特征表示；

将所述各语音数据对应的特征表示作为正样本，将所述遮掩特征表示作为负样本，基于所述正样本和所述负样本进行自监督学习训练，得到训练好的特征表示子模型。

在一些实施例中，所述第二训练模块，还用于：

将所述标注语音数据输入至所述训练好的特征表示子模型，得到标注特征表示；

根据所述预设词典获取所述标注文本对应的标注音素序列；

根据所述标注特征表示和所述标注音素序列，确定各标注音素的后验概率分布和训练序列对齐关系，所述训练序列对齐关系表征所述标注特征表示与所述标注音素序列之间的对齐关系；

根据所述后验概率分布和所述训练序列对齐关系，利用损失函数对所述初始声学子模型进行微调训练，得到训练好的声学子模型。

在一些实施例中，所述音素序列对齐关系表征待评测语音数据对应的特征表示与所述文本数据音素序列之间的对齐关系；所述第一确定模块1554，还用于：

根据所述音素后验概率和所述音素序列对齐关系，计算所述文本数据中每个字的每个音素的发音良好度；

基于所述发音良好度确定所述待评测语音的评测结果。

本申请实施例提供一种电子设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的口语评测方法。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的口语评测方法。

本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的口语评测方法。

本申请实施例具有以下有益效果：

在本申请实施例提供的口语评测方法中，服务端首先获取文本数据和该文本数据对应的待评测语音数据，获取预先训练好的评测模型，该训练好的评测模型是基于自监督学习，利用无标注的原始语音数据进行训练得到的；然后将文本数据和待评测语音数据输入至训练好的评测模型，得到待评测语音数据的音素后验概率和音素序列对齐关系，最后基于音素后验概率和音素序列对齐关系，确定出待评测语音的评测结果。本申请实施例中的训练好的评测模型是基于自监督学习训练得到的，无需人工标注语音数据即可实现自动地口语评测，能够大大降低人工标注成本，使得该训练好的评测模型可适用于各种语言的口语评测。

附图说明

图1为本申请实施例提供的口语评测系统的一种网络架构示意图；

图2是本申请实施例提供的电子设备的一种组成结构示意图；

图3为本申请实施例提供的口语评测方法的一种实现流程示意图；

图4为本申请实施例提供的口语评测方法的另一种实现流程示意图；

图5为本申请实施例提供的口语评测方法的一种实现流程示意图；

图6为本申请实施例提供的模型训练过程的实现流程示意图；

图7为本申请实施例提供的评测方法进行评测过程的实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)自监督学习(Self-Supervised Learning)，可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。本质上是要训练出来一个特征提取器，自动为数据生成标签。

2)损失函数(Loss Function)，又称为代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计，是机器学习模型的优化目标。

3)微调(Fine Tuning)，指将预训练过的模型作用于自己的数据集，并使参数适应自己数据集的过程。

基于上述对本申请实施例中涉及的名词和术语的解释，首先对本申请实施例提供的口语评测系统进行说明，参见图1，图1是本申请实施例提供的口语评测系统的一种网络架构示意图，该口语评测系统包括终端100、服务端200和网络300，其中终端100至少为一个，图1中以1个终端100为例示出。终端100通过网络300连接服务端200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在一些实施例中，终端100可以是智能手机，车载终端，笔记本电脑，平板电脑，台式计算机，专用消息设备，便携式游戏设备，智能音箱，智能手表等，但并不局限于此。服务端200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合。终端100以及服务端200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

终端100，用于输出文本数据，并接收用户基于文本数据输入的待评测语音数据，根据文本数据和待评测语音数据生成评测请求，将该评测请求发送至服务端200。

服务端200，用于获取评测请求，该评测请求携带有文本数据和文本数据对应的待评测语音数据；获取训练好的评测模型，其中，该训练好的评测模型是基于自监督学习训练得到的；将文本数据和文本数据对应的待评测语音数据输入至训练好的评测模型，得到待评测语音数据的音素后验概率和音素序列对齐关系；基于音素后验概率和音素序列对齐关系，确定待评测语音的评测结果，最后将评测结果发送至终端100。本申请实施例中的训练好的评测模型是基于自监督学习训练得到的，无需人工标注语音数据即可实现自动地口语评测，能够大大降低人工标注成本，使得该训练好的评测模型可适用于各种语言的口语评测。

终端100，还用于输出评测结果，用户根据评测结果，确定其口语准确度。如此，实现自动口语评测。

参见图2，图2是本申请实施例提供的电子设备的一种组成结构示意图，在实际应用中，电子设备10可以实施为图1中的终端100或服务端200，以电子设备10为图1所示的服务端200为例，对实施本申请实施例的口语评测方法的电子设备进行说明。图2所示的电子设备10包括：至少一个处理器110、存储器150、至少一个网络接口120和用户接口130。电子设备10中的各个组件通过总线系统140耦合在一起。可以理解，总线系统140用于实现这些组件之间的连接通信。总线系统140除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统140。

处理器110可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口130包括使得能够呈现媒体内容的一个或多个输出装置131，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口130还包括一个或多个输入装置132，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器150可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器150可选地包括在物理位置上远离处理器110的一个或多个存储设备。

存储器150包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器150旨在包括任意适合类型的存储器。

在一些实施例中，存储器150能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统151，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块152，用于经由一个或多个(有线或无线)网络接口120到达其他计算设备，示例性的网络接口120包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块153，用于经由一个或多个与用户接口130相关联的输出装置131(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块154，用于对一个或多个来自一个或多个输入装置132之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的口语评测装置可以采用软件方式实现，图2示出了存储在存储器150中的口语评测装置155，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块1551、第二获取模块1552、输入模块1553和第一确定模块1554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的口语评测装置可以采用硬件方式实现，作为示例，本申请实施例提供的口语评测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的口语评测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面说明本申请实施例提供的口语评测方法。在一些实施例中，本申请实施例提供的口语评测方法可以由图1所示网络架构的终端或服务端单独实施，或者由终端及服务端协同实施，接下来以终端实施为例，参见图3，图3是本申请实施例提供的口语评测方法的一种实现流程示意图，将结合图3示出的步骤进行说明。

步骤S301，获取评测请求。

该评测请求携带有文本数据和文本数据对应的待评测语音数据。现实生活中，用户可能由于各种原因，想要知道自己的口语水平高低，或者想要提高口语水平时，通过终端访问口语评测系统，终端上显示出一些文本数据，用户对显示的文本数据进行朗读，终端将接收到的语音作为待评测语音数据，根据文本数据和文本数据对应的待评测语音数据生成评测请求，将该评测请求发送至服务端。

步骤S302，获取训练好的评测模型。

这里的训练好的评测模型是基于自监督学习训练得到的。该训练好的评测模型包括训练好的特征表示子模型和训练好的声学子模型，其中，训练好的特征表示子模型是基于自监督学习训练得到的，训练好的声学子模型是基于微调训练得到的。服务端可以预先训练得到训练好的特征表示子模型和训练好的声学子模型。

本申请实施例中，服务端基于自监督学习，利用大量无标注的音频数据进行训练，得到特征表示子模型，该特征表示子模型可以对输入的音频数据进行特征抽取，得到该音频数据的语音特征表示。本申请实施例中的特征表示子模型是通过自监督学习训练的，无需人工标注大量的语音数据，能够大大降低人工标注成本，从而降低训练成本，提高训练效率，可适用于各种语言的口语评测。

本申请实施例中，服务端可以获取其他设备上现有的声学模型，或者预先训练声学模型，将声学模型作为预训练子模型；获取少量的标注样本，利用这些少量的标注样本对现有的预训练子模型进行微调训练，得到训练好的声学子模型。基于微调训练，能够省去大量的计算资源和计算时间，加快计算效率，并提高模型的准确率。这里标注样本为少量的数据，样本数据的格式为音频-文本对。该些少量的样本数据一般仅需人工进行数小时标注即可得到，相比相关技术中利用大量标注数据进行训练而言，大大减少人工标注时长，降低人工标注成本。

步骤S303，将文本数据和文本数据对应的待评测语音数据输入至训练好的评测模型，得到待评测语音数据的音素后验概率和音素序列对齐关系。

获取到评测请求后，将评测请求中携带的待评测语音数据输入至训练好的特征表示子模型，得到待评测语音数据对应的特征表示。将该特征表示和文本数据输入至训练好的声学子模型，得到待评测语音数据的音素后验概率和音素序列对齐关系。该音素序列对齐关系表征待评测语音数据对应的特征表示与文本数据音素序列之间的对齐关系。

步骤S304，基于音素后验概率和音素序列对齐关系，确定待评测语音的评测结果。

本申请实施例中，可以根据发音良好度(GOP，Goodness of Pronunciation)算法来确定待评测语音的评测结果。GOP算法的基本思想是：利用预先建立的语料库，把语音和它对应的文字做一次强制对齐，将强制对齐得到的似然分数值与在不知道对应文字情况下得到的似然分数值进行比较，得到似然比；利用该似然比作为发音好坏的评价标准。利用GOP算法确定评测结果可以实现为：根据音素后验概率和音素序列对齐关系，计算文本数据中每个字的每个音素的发音良好度；基于发音良好度确定待评测语音的评测结果。

本申请实施例提供的口语评测方法，通过获取评测请求，该评测请求携带有文本数据和文本数据对应的待评测语音数据；获取训练好的评测模型，其中，训练好的评测模型是基于自监督学习训练得到的；将文本数据和文本数据对应的待评测语音数据输入至训练好的评测模型，得到待评测语音数据的音素后验概率和音素序列对齐关系；基于音素后验概率和音素序列对齐关系，确定待评测语音的评测结果。本申请实施例中的训练好的评测模型是基于自监督学习训练得到的，无需人工标注语音数据即可实现自动地口语评测，能够大大降低人工标注成本，使得该训练好的评测模型可适用于各种语言的口语评测。

在一些实施例中，评测模型可以是预先训练好存储在存储空间的，在接收到评测请求时，从存储空间获取预先训练好的评测模型进行评测；也可以是在接收到评测请求后，再根据训练数据进行训练，得到训练好的评测模型。在一种实现方式中，在步骤S302之前，上述方法还可以包括：步骤S31：“根据语音数据集和标注数据集训练得到训练好的评测模型”，该步骤S31可以实现为以下步骤：

步骤S311，获取语音数据集和标注数据集。

其中，语音数据集包括的语音数据为未标注的原始语音，该原始语音数据可以是服务端上存储的未经标注的任意数据，可以为任意语言或方言的语音数据。

本申请实施例中，标注数据集包括标注语音数据和标注语音数据对应的标注文本。标注人员随机获取少量的语音数据，对该些语音数据进行人工标注，得到标注数据集，标注格式为音频-文本对，每一标注数据由音频和文本组成。

步骤S312，基于自监督学习，利用语音数据集包括的语音数据进行训练，得到训练好的特征表示子模型。

服务端首先对语音数据集包括的各语音数据进行特征提取，得到各语音数据对应的特征表示，然后对各语音数据对应的特征表示进行自监督学习训练，得到训练好的特征表示子模型。本申请实施例中的特征表示子模型是通过自监督学习训练的，无需人工标注大量的语音数据，能够大大降低人工标注成本，从而降低训练成本，提高训练效率，可适用于各种语言的口语评测。

步骤S313，获取初始声学子模型，并利用标注数据集对初始声学子模型进行训练，得到训练好的声学子模型。

该初始声学子模型可以为服务端从其他设备上获取的现有的声学模型，也可以为该服务端自身预先训练的声学模型。将该初始声学子模型作为预训练子模型，利用标注数据集中人工标注的少量音频-文本对数据，对预训练子模型进行微调训练，得到适应标注数据集的声学子模型。本申请实施例中声学子模型是基于微调训练得到的，能够省去大量的计算资源和计算时间，加快计算效率，并提高模型的准确率。

步骤S314，将训练好的特征表示子模型和训练好的声学子模型确定为训练好的评测模型。

本申请实施例中，可以利用大量无标注音频数据，大大降低模型构建的标注成本；并且通过自监督和预训练微调的训练方式，使现有的模型可以在少量标注样本微调后快速迁移到口语评测系统中，实现自动口语评测。

在一些实施例中，上述步骤S312“基于自监督学习，利用语音数据集包括的语音数据进行训练，得到训练好的特征表示子模型”，可以通过以下步骤实现：

步骤S3121，对语音数据集中的各语音数据进行特征提取，得到各语音数据对应的特征表示。

其中，对语音数据集中的一个语音数据进行特征提取，得到一个语音数据对应的特征表示，可以实现为：对一个语音数据进行分帧处理，得到多个帧特征；基于多层卷积神经网络(CNN，Convolutional Neural Network)对多个帧特征进行编码处理，得到多个帧级别的局部特征表示；对各局部特征表示进行量化处理，得到各离散特征表示；基于各离散特征表示之间的相关度，对各离散特征表示进行编码，得到一个语音数据对应的特征表示。

在实际应用中，帧长度可以取20ms(毫秒)对语音数据进行分帧，在分帧时，为了便于编解码，一般相邻帧之间存在重叠窗，基于此分帧时每次的移动步长可以取15ms。

本申请实施例中，先对原始音频进行分帧处理，得到多个帧特征；然后使用多层CNN对多个帧特征进行编码处理，可以去除无信息量的帧，在不减少信息量的前提下减少总帧数，能够降低系统计算开销，提高训练效率。经过多层CNN编码处理后得到帧级别的局部特征表示，对各特征表示进行量化处理，将连续的特征表示离散化，最后将离散化的特征表示输入基于转换器的双向编码器(BERT，Bidirectional Encoder Representation fromTransformers)中进行编码，基于不同特征表示之间的相关性，计算得到全局的特征表示。

步骤S3122，对各语音数据对应的特征表示进行自监督学习训练，得到训练好的特征表示子模型。

在进行自监督学习时，服务端首先从各语音数据中随机筛选出部分语音数据，获取该部分语音数据对应的特征表示，然后对该部分语音数据对应的特征表示进行掩码处理，得到遮掩特征表示；将各语音数据对应的特征表示作为正样本，将遮掩特征表示作为负样本，基于正样本和负样本进行自监督学习训练，得到训练好的特征表示子模型。

本申请实施例中，利用该训练好的特征表示子模型，可以实现对语音数据进行特征提取。

在一些实施例中，上述步骤S313中的“利用标注数据集对初始声学子模型进行训练，得到训练好的声学子模型”，可以通过以下步骤来实现：

步骤S3131，将标注语音数据输入至训练好的特征表示子模型，得到标注特征表示。

标注数据集包括多组标注数据，每组标注数据由标注语音数据和标注文本数据组成，该语音为该文本的参考语音。将标注语音数据输入至步骤S3122中训练好的特征表示子模型中，特征表示子模型对该标注语音数据进行分帧、编码、量化等处理，输出该标注语音数据对应的标注特征表示。

步骤S3132，根据预设词典获取标注文本对应的标注音素序列。

该预设词典为参考词典，在该词典中查询标准文本包括的各字，得到每个字对应的音素，按照字的排列顺序对该些字对应的音素进行组合，得到标注文本对应的标注音素序列。

步骤S3133，根据标注特征表示和标注音素序列，确定各标注音素的后验概率分布和训练序列对齐关系。

根据少量标注的训练数据确定好各个音素的后验概率分布。在一段语音数据中，不同音素对应不同的特征，在训练之前，为了使特征与音素相对应，还需要确定标注特征表示与标注音素序列之间的对齐关系。

步骤S3134，根据后验概率分布和训练序列对齐关系，利用损失函数对初始声学子模型进行微调训练，得到训练好的声学子模型。

本申请实施例中，服务端可以从其他设备获取初始声学子模型，也可以自行训练得到初始声学子模型。该初始声学子模型可以采用高斯混合模型-隐马尔可夫模型(GMM-HMM，Gaussian Mixed Model-Hidden Markov Model)，深度神经网络-隐马尔可夫模型(DNN-HMM，Deep Neural Networks-Hidden Markov Model)或者基于时序分类算法(CTC，Connectionist Temporal Classification)等方式训练得到。

得到初始声学子模型后，利用上述步骤得到的后验概率分布和训练序列对齐关系，利用损失函数(如CTC损失函数)对初始声学子模型进行优化，使得模型的参数适应于口语评测。如此，提高口语评测结果的准确度。

基于前述的实施例，本申请实施例再提供一种口语评测方法，图4为本申请实施例提供的口语评测方法的另一种实现流程示意图，应用于图1所示的网络架构，如图4所示，该口语评测方法包括以下步骤：

步骤S401，服务端获取语音数据集和标注数据集。

语音数据集包括的语音数据为未标注的原始语音，标注数据集包括标注语音数据和标注语音数据对应的标注文本。

步骤S402，服务端基于自监督学习，利用语音数据集包括的语音数据进行训练，得到训练好的特征表示子模型。

在一种实现方式中，服务端首先对语音数据集中的各语音数据进行特征提取，得到各语音数据对应的特征表示；然后对各语音数据对应的特征表示进行自监督学习训练，得到训练好的特征表示子模型。

其中，对语音数据集中的一个语音数据进行特征提取，得到一个语音数据对应的特征表示，可以实现为：对一个语音数据进行分帧处理，得到多个帧特征；基于多层卷积神经网络对多个帧特征进行编码处理，得到多个帧级别的局部特征表示；对各局部特征表示进行量化处理，得到各离散特征表示；基于各离散特征表示之间的相关度，对各离散特征表示进行编码，得到一个语音数据对应的特征表示。服务端基于该方法得到语音数据集中各语音数据对应的特征表示后，从各语音数据中随机筛选出部分语音数据；对部分语音数据对应的特征表示进行掩码处理，得到遮掩特征表示；将各语音数据对应的特征表示作为正样本，将遮掩特征表示作为负样本，基于正样本和负样本进行自监督学习训练，得到训练好的特征表示子模型。

步骤S403，服务端获取初始声学子模型，并利用标注数据集对初始声学子模型进行训练，得到训练好的声学子模型。

该步骤可以实现为：服务端将标注语音数据输入至训练好的特征表示子模型，得到标注特征表示；根据预设词典获取标注文本对应的标注音素序列；根据标注特征表示和标注音素序列，确定各标注音素的后验概率分布和训练序列对齐关系，训练序列对齐关系表征标注特征表示与标注音素序列之间的对齐关系；根据后验概率分布和训练序列对齐关系，利用损失函数对初始声学子模型进行微调训练，得到训练好的声学子模型。

步骤S404，服务端将训练好的特征表示子模型和训练好的声学子模型确定为训练好的评测模型，保存训练好的评测模型。

步骤S405，终端响应于接收到的用于评测口语的触发操作，输出文本数据。

用户登录口语评测系统，点击“开始口语评测”，终端在显示界面上输出文本数据，以便用户根据显示的文本数据输入口语，终端获得文本数据对应的待评测语音数据。

步骤S406，终端发送评测请求至服务端。

该评测请求携带有文本数据和文本数据对应的待评测语音数据。

步骤S407，服务端获取训练好的评测模型。

其中，该训练好的评测模型包括特征表示子模型和声学子模型，特征表示子模型是基于自监督学习训练得到的。服务端从自身的存储空间中获取预先存储的训练好的评测模型。

步骤S408，服务端将文本数据和文本数据对应的待评测语音数据输入至训练好的评测模型，得到待评测语音数据的音素后验概率和音素序列对齐关系。

其中，音素序列对齐关系表征待评测语音数据对应的特征表示与文本数据音素序列之间的对齐关系。

步骤S409，服务端基于音素后验概率和音素序列对齐关系，确定待评测语音的评测结果。

该步骤可以实现为：根据音素后验概率和音素序列对齐关系，计算文本数据中每个字的每个音素的发音良好度；基于发音良好度确定待评测语音的评测结果。

步骤S410，服务端发送评测结果至终端。

步骤S411，终端输出评测结果。

在一些实施例中，评测结果可以包括分数，以便用户获知其评测的语音的得分，在此基础上，还可以包括评分标准和/或提示信息等。这里的提示信息用于提示用户哪些音素或字发音不标准或发音错误，以便用户根据评分标准、提示信息等，有针对性地练习并提升口语水平。

本申请实施例提供的口语评测方法，训练好的评测模型是基于自监督学习训练得到的，无需人工标注语音数据即可实现自动地口语评测，能够大大降低人工标注成本，使得该训练好的评测模型可适用于各种语言的口语评测。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在自动口语评测系统中，发音评分模型用于对发音人发音的准确度进行自动打分，替代人工打分，能够确保评测的效率和公平，并可以将发音不够准确的地方反馈给发音人，帮助发音人有针对性地提升口语水平。

自动口语评测系统评测结果的准确性，主要取决于评测系统中发音评分模型的准确与否。目前，发音评分模型通常通过训练一个声学模型(AM，Acoustic Model)来实现，声学模型结构可以采用高斯混合模型-隐马尔可夫模型(GMM-HMM，Gaussian Mixed Model-Hidden Markov Model)，深度神经网络-隐马尔可夫模型(DNN-HMM，Deep NeuralNetworks-Hidden Markov Model)或者基于时序分类算法(CTC，Connectionist TemporalClassification)的端到端模型。训练好后，通过训练好的发音评分模型对输入语音帧和参考文本进行音素级别的强制对齐，然后根据对齐关系获取每个语音帧的音素后验概率，并基于发音良好度(GOP，Goodness of Pronunciation)算法计算得到每个音素的准确度打分。现有方案依赖于大量音频-文本对的标注数据来训练发音评分模型，需要花费大量时间和成本进行人工标注；并且对于小语种，由于无法获取大量的标注数据，导致自动口语评测系统不适用于小语种评测。

针对现有技术存在的问题，本申请实施例给出一种基于自监督预训练声学模型的自动口语评测方法，主要解决自动口语评测系统中的利用少量标注样本训练发音评分模型的问题。

图5为本申请实施例提供的口语评测方法的一种实现流程示意图，如图5所示，该方法包括以下步骤：

步骤S501，基于自监督学习(Self-supervised Learning)，利用大量无标注音频数据进行预训练(Pretrain)，得到特征表示模型。

该特征表示模型(对应上文中的特征表示子模型)为一个语音特征表示模型，可以对输入音频进行特征抽取得到语音特征表示。

图6为本申请实施例提供的模型训练过程的实现流程示意图，如图6所示，该语音特征表示模型使用多层卷积神经网络(CNN，Convolutional Neural Networks)对原始音频进行编码，得到帧级别的局部特征表示，将特征表示进行量化得到离散化特征表示，再通过基于转换器的双向编码器(BERT，Bidirectional Encoder Representation fromTransformers)对离散化特征进行编码得到全局特征表示；将得到的特征表示通过对比式目标函数进行自监督学习训练，具体的，通过随机加掩码对输入的离散化特征表示进行部分遮掩，并让模型预测被遮掩的特征，最后通过负样本采样来构造正负例对比任务，作为训练目标。

步骤S502，基于预训练的声学模型(对应上文中的初始声学子模型)，使用标注样本进行微调(Finetune)训练，得到训练好的声学模型(对应上文中的训练好的声学子模型)。

其中，标注样本是由用户对少量的音频数据进行手动标注得到的，相比现有的标注大量标注样本所需时长而言，仅需数小时即可标注完成，大大地减少人工标注的人工和时间成本。标注样本格式为音频-文本对。

输入音频经过步骤S601的特征表示模型得到语音特征表示，文本通过词典转换为对应的音素序列；使用CTC损失作为目标函数训练深度神经网络(DNN，Deep NeuralNetworks)声学模型，根据少量标注的训练数据确定好各个音素的后验概率分布，学习特征序列和音素序列之间的对齐关系，训练好的声学模型可以用于预测输入音频的音素后验概率以及对齐关系。

步骤S503，根据特征表示模型，对待评测音频进行分帧，通过声学模型前向计算得到逐帧音素后验概率，并将语音帧与参考音素序列进行强制对齐，得到对齐关系。

图7为本申请实施例提供的评测方法进行评测过程的实现流程示意图，如图7所示，在自动口语评测任务中，使用声学模型作为发音评分模型，对用户输入的音频进行分帧，通过声学模型前向计算得到逐帧的音素后验概率，并使用受约束的音素序列的维特比(Viterbi)解码算法，将语音帧与参考音素序列进行强制对齐(Force Alignment)，对齐结果为概率最大的CTC扩展序列。

步骤S504，基于逐帧音素后验概率和对齐关系，基于GOP算法计算得到每个音素的准确度打分。

通过本申请实施例提出的基于自监督预训练模型的自动口语评测方法和装置，仅需少量标注样本，即可取得与以往需要大量标注样本才能达到的效果。通过利用大量无标注音频数据，大大降低模型构建的标注成本；通过自监督预训练结合微调的方式，使模型可以在少量有标注样本微调后快速迁移到自动口语评测任务；该方法对不同音频具有更好的泛化能力和鲁棒性。

下面继续说明本申请实施例提供的口语评测装置的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器150的口语评测装置155应用于服务端，所述口语评测装置155中的软件模块可以包括：

第一获取模块1551，用于获取评测请求，所述评测请求携带有文本数据和所述文本数据对应的待评测语音数据；

第二获取模块1552，用于获取训练好的评测模型，其中，所述训练好的评测模型是基于自监督学习训练得到的；

输入模块1553，用于将所述文本数据和所述文本数据对应的待评测语音数据输入至所述训练好的评测模型，得到所述待评测语音数据的音素后验概率和音素序列对齐关系；

第一确定模块1554，用于基于所述音素后验概率和所述音素序列对齐关系，确定所述待评测语音的评测结果。

在一些实施例中，所述口语评测装置155，还包括：

第四获取模块，用于获取初始声学子模型；

在一些实施例中，所述第一训练模块，还用于：

对所述一个语音数据进行分帧处理，得到多个帧特征；

对各局部特征表示进行量化处理，得到各离散特征表示；

在一些实施例中，所述第一训练模块，还用于：

从所述各语音数据中随机筛选出部分语音数据；

在一些实施例中，所述第二训练模块，还用于：

根据所述预设词典获取所述标注文本对应的标注音素序列；

基于所述发音良好度确定所述待评测语音的评测结果。

这里需要指出的是：以上口语评测装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果。对于本申请口语评测装置实施例中未披露的技术细节，本领域的技术人员请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的口语评测方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3至图5示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种口语评测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取语音数据集和标注数据集，所述语音数据集包括的语音数据为未标注的原始语音，所述标注数据集包括标注语音数据和所述标注语音数据对应的标注文本；

基于自监督学习，利用所述语音数据集包括的语音数据进行训练，得到训练好的特征表示子模型；

获取初始声学子模型，并利用所述标注数据集对所述初始声学子模型进行训练，得到训练好的声学子模型；

将所述训练好的特征表示子模型和所述训练好的声学子模型确定为训练好的评测模型。

3.根据权利要求2所述的方法，其特征在于，所述基于自监督学习，利用所述语音数据集包括的语音数据进行训练，得到训练好的特征表示子模型，包括：

4.根据权利要求3所述的方法，其特征在于，对所述语音数据集中的一个语音数据进行特征提取，得到一个语音数据对应的特征表示，包括：

对所述一个语音数据进行分帧处理，得到多个帧特征；

对各局部特征表示进行量化处理，得到各离散特征表示；

5.根据权利要求3所述的方法，其特征在于，所述对所述各语音数据对应的特征表示进行自监督学习训练，得到训练好的特征表示子模型，包括：

从所述各语音数据中随机筛选出部分语音数据；

6.根据权利要求2所述的方法，其特征在于，所述利用所述标注数据集对所述初始声学子模型进行训练，得到训练好的声学子模型，包括：

根据所述预设词典获取所述标注文本对应的标注音素序列；

7.根据权利要求1所述的方法，其特征在于，所述音素序列对齐关系表征待评测语音数据对应的特征表示与所述文本数据音素序列之间的对齐关系，所述基于所述音素后验概率和所述音素序列对齐关系，确定所述待评测语音的评测结果，包括：

基于所述发音良好度确定所述待评测语音的评测结果。

8.一种口语评测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7任一项所述的口语评测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行指令，用于引起处理器执行时，实现权利要求1至7任一项所述的口语评测方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的口语评测方法。