CN113053395B

CN113053395B - 发音纠错学习方法、装置、存储介质及电子设备

Info

Publication number: CN113053395B
Application number: CN202110250244.5A
Authority: CN
Inventors: 钟静华
Original assignee: Speechx Ltd
Current assignee: Speechx Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2023-11-17
Anticipated expiration: 2041-03-05
Also published as: CN113053395A

Abstract

本发明公开了一种发音纠错学习方法、装置、存储介质及电子设备，涉及在线学习系统技术领域，所述方法包括：获取语音信息及对应的发音纠错反馈结果；利用说话人模型，提取语音信息的说话人特征向量；再根据说话人特征向量和已存储的目标说话人特征向量，利用目标说话人的身份判别模型，判断语音信息对应的说话人是否为目标说话人；若是，则生成目标说话人身份标记，并与发音纠错反馈结果一起存储，以在结束预设的学习课程后，进行统计分析，获得目标说话人的学习报告。本发明解决了现有在线学习系统中进行身份认证的方法存在过程复杂的问题，实现了发音纠错过程的身份认证，避免了每次发音练习前需要单独进行身份认证的情况。

Description

发音纠错学习方法、装置、存储介质及电子设备

技术领域

本发明涉及在线学习系统技术领域，尤其涉及一种发音纠错学习方法、装置、存储介质及电子设备。

背景技术

随着互联网和人工智能技术的更新迭代，为在线教育的发展提供了利好条件，在线学习系统应运而生。其中，人机交互技术已经可以非常成熟地应用到在线学习系统中，但针对用户身份的不同，识别用户是家长还是学生是人机交互的另一个关键点，这就要求在线学习系统中增加对用户进行身份识别的功能。

但目前的在线学习系统中进行身份识别的方法一般是用户先自行选择身份，再启动在线学习系统进行学习，这种方式不仅会使用户使用该系统的过程变得复杂，过于明显的身份选择，还会影响用户的体验感。

因此，现有的在线学习系统中进行身份认证的方法存在过程复杂，影响用户使用的技术问题。

发明内容

本发明的主要目的在于：提供一种发音纠错学习方法、装置、存储介质及电子设备，旨在解决现有在线学习系统中进行身份认证的方法存在过程复杂的技术问题。

为实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种发音纠错学习方法，所述方法包括以下步骤：

获取语音信息，并根据所述语音信息获得对应的发音纠错反馈结果；

提取所述语音信息的频谱特征，获得频谱特征向量；

根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量；

根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人；

当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并存储所述目标说话人身份标记和所述发音纠错反馈结果，以在结束预设的学习课程后，对所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，获得目标说话人的学习报告。

可选地，上述发音纠错学习方法中，在根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量的步骤之前，所述方法还包括：

基于Res2Net网络结构建立初始网络模型；

根据带说话人标签的域外训练数据，获得训练数据集；

利用所述训练数据集，对所述初始网络模型进行训练，获得说话人模型。

可选地，上述发音纠错学习方法中，在根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人的步骤之前，所述方法还包括：

建立支持向量机模型；

获取注册语音，并根据所述注册语音，获得目标说话人数据集；

根据无说话人标签的域内训练数据，获得背景说话人数据集；

利用所述目标说话人数据集和背景说话人数据集，对所述支持向量机模型进行训练，获得目标说话人的身份判别模型。

可选地，上述发音纠错学习方法中，根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量的步骤，具体包括：

提取所述语音信息的频谱特征，获得频谱特征向量；

将所述频谱特征向量输入所述说话人模型的卷积层，进行矩阵降维，获得映射后的频谱特征；

通过所述说话人模型的池化层，对每帧映射后的频谱特征进行均值和标准差计算，获得长度固定的输出向量；

通过所述说话人模型的全连接层，对所述长度固定的输出向量进行特征提取，获得说话人特征向量。

可选地，上述发音纠错学习方法中，根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人的步骤，具体包括：

根据所述说话人特征向量，利用概率线性判别分析技术，提取所述说话人特征向量中的说话人因子；

根据已存储的目标说话人特征向量，利用概率线性判别分析技术，提取所述目标说话人特征向量的目标说话人因子；

将所述说话人因子和所述目标说话人因子输入训练获得的目标说话人的身份判别模型，以获得所述语音信息对应的说话人与目标说话人的声纹相似度；

判断所述声纹相似度是否大于预设阈值；

若所述声纹相似度大于所述预设阈值，则判定所述语音信息对应的说话人为目标说话人；

若所述声纹相似度小于或等于所述预设阈值，则判定所述语音信息对应的说话人不是目标说话人。

可选地，上述发音纠错学习方法中，根据所述说话人特征向量，利用概率线性判别分析技术，提取所述说话人特征向量中的说话人因子的步骤，具体包括：

采用期望最大化算法对所述说话人特征向量进行迭代求解，根据最大似然准则，获得所述说话人特征向量的参数估计值；

根据所述参数估计值，通过最大后验概率估计，获得所述说话人特征向量中的说话人因子。

可选地，上述发音纠错学习方法中，利用声纹相似度计算式，获得所述语音信息对应的说话人与目标说话人的声纹相似度，其中，所述声纹相似度计算式为：

其中，test表示获取的语音信息，enroll表示目标说话人，background表示背景说话人，β^(test)表示获取的语音信息对应的说话人因子，β^(enroll)表示目标说话人因子，表示对支持向量机模型进行训练时的第i个目标说话人因子，/>表示对支持向量机模型进行训练时的第i个背景说话人因子，SV^(enroll)表示目标说话人数据集的支持向量，SV^(background)表示背景说话人数据集的支持向量，/>表示拉格朗日乘子，K表示线性核函数，d^(enroll)表示目标说话人的相关偏差值。

第二方面，本发明提供了一种发音纠错学习装置，所述装置包括：

语音获取模块，用于获取语音信息；

发音纠错反馈模块，用于根据所述语音信息获得对应的发音纠错反馈结果；

说话人特征提取模块，用于根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量；

身份判别模块，用于根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人；

存储模块，用于当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并存储所述目标说话人身份标记和所述发音纠错反馈结果；

学习报告模块，用于在结束预设的学习课程后，对所述存储模块中存储的所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，以获得目标说话人的学习报告。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，以实现如上述的发音纠错学习方法。

第四方面，本发明提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如上述的发音纠错学习方法。

本发明提供的上述一个或多个技术方案，可以具有如下优点或至少实现了如下技术效果：

本发明提出的一种发音纠错学习方法、装置、存储介质及电子设备，基于声纹识别技术，在对语音信息进行发音纠错的同时，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量，再利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人，当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并与发音纠错反馈结果一起存储，以在结束预设的学习课程后，对所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，获得目标说话人的学习报告，实现了发音纠错过程的身份认证，避免了每次发音练习前需要单独进行身份认证的情况；本发明在进行发音纠错反馈的同时进行无感式的身份认证，通过训练获得的目标说话人的身份判别模型，实现更准确和更高效地对发音纠错过程中使用者的身份识别，提高了发音纠错的效率，保证了用户的学习体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的这些附图获得其他的附图。

图1为本发明实施例一提供的一种发音纠错学习方法的流程示意图；

图2为本发明实施例一提供的一种发音纠错学习方法中说话人模型的结构示意图；

图3为本发明实施例一提供的一种发音纠错学习方法中支持向量机模型训练时分类超平面的结构示意图；

图4为本发明实施例二提供的一种发音纠错学习装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连；可以是两个元件内部的连通，也可以是两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

术语解释：

Res2Net：多尺度卷积神经网络，在多个尺度上表示特征，进行多规模特征提取；

PLDA：Probabilistic Linear Discriminant Analysis，概率线性判别分析，是一种信道补偿算法，基于I-Vector(Identity-Vector，身份认证向量)特征，为其提供信道补偿；

SVM：Support Vector Machine，支持向量机，是一类按监督学习方式对数据进行二元分类的广义线性分类器。

随着互联网和人工智能技术的更新迭代，语言学习不再只是面对面授课的线下方式，依托互联网平台进行授课的线上学习方式不仅可以解决线下英语学习受地域限制，无法找到合适的师资和课程体系的弊端，还可以让学生充分利用碎片时间进行学习。

目前，基于人机交互技术的语言学习在线课堂系统，可以应用发音纠错技术，对学生的语言学习情况提供及时反馈，即让机器能够“听懂”学生所说的内容，给学生清晰地展示读错的音标情况。系统在使用过程中，会存在学生家长引导学生发音时家长语音数据的干扰，以及多个学生使用同一学习系统无法针对学生个人情况进行发音纠错的问题。因此，为保证系统有效地分析学生的学习数据，有必要识别用户是家长还是学生，即对用户进行身份认证。

常用的身份认证方法包括人脸识别、指纹识别、声纹识别、掌纹识别等生物认证方法，其中，声纹识别是通过一段语音信号来判别说话人身份的听音识人技术，与其他生物识别技术相比，具有不怕丢失、难以伪造、安全性高、处理速度快等优势。且声纹识别技术目前正逐渐走向成熟，已支持对千万级以上容量的声纹库展开秒级检索识别。

对现有技术的分析发现，目前的在线学习系统中进行身份识别的方法一般是用户先自行选择身份，再启动在线学习系统进行学习，这种方式不仅会使用户使用该系统的过程变得复杂，过于明显的身份选择，还会影响用户的体验感。

鉴于现有技术中的在线学习系统进行身份认证的方法存在过程复杂的技术问题，本发明提供了一种发音纠错学习方法，总体思路如下：

获取语音信息，并根据所述语音信息获得对应的发音纠错反馈结果；根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量；根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人；当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并存储所述目标说话人身份标记和所述发音纠错反馈结果，以在结束预设的学习课程后，对所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，获得目标说话人的学习报告。

通过上述技术方案，基于声纹识别技术，在对语音信息进行发音纠错的同时，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量，再利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人，当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并与发音纠错反馈结果一起存储，以在结束预设的学习课程后，对所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，获得目标说话人的学习报告，实现了发音纠错过程的身份认证，避免了每次发音练习前需要单独进行身份认证的情况；本发明在进行发音纠错反馈的同时进行无感式的身份认证，通过训练获得的目标说话人的身份判别模型，实现更准确和更高效地对发音纠错过程中使用者的身份识别，提高了发音纠错的效率，保证了用户的学习体验。

实施例一

参照图1至图3，本发明第一实施例提供了一种应用于电子设备的发音纠错学习方法，所述电子设备可以是手机、电脑或平板电脑，也可以是装载有发音纠错系统的应用程序以供用户使用的其他电子设备。

下面结合图1所示的流程示意图，对本实施例提供的发音纠错学习方法进行详细描述，所述方法具体包括以下步骤：

步骤S10：获取语音信息，并根据所述语音信息获得对应的发音纠错反馈结果。

在具体实施方式中，该语音信息中可以包含学生练习发音的语音，也可以包含家长辅导发音的语音，该学生即为当前说话人，家长即为背景说话人，进行身份认证就在于对当前说话人进行识别和判断，判断该当前说话人是否为系统已存储的目标说话人。

在一种实施方式中，在步骤S1之前，所述方法还可以包括目标说话人的注册方法，具体包括：

步骤S01：获取注册语音；

步骤S02：对所述注册语音进行语音纠错，获得初始语音纠错反馈；

步骤S03：根据所述初始语音纠错反馈进行课程规划分析，获得初始学习课程。

在具体实施方式中，需要对使用该发音纠错系统的用户进行身份注册，包括学生、学生家长或多个学生，对应进行身份注册，即对首次使用该发音纠错系统的学生用户进行入门测试，获取学生的任意注册语音后，系统会反馈发音纠错结果，并得到该学生的初始发音水平情况，从而推荐适合其水平的课程内容进行学习。获得的初始学习课程，即第一阶段的学习课程。然后在具体学习时，获取语音信息，实时对该语音信息进行发音纠错，并反馈给学生。

本实施例中，用户在完成注册后，开始初始学习课程的阶段性学习，之后每一次完成阶段性学习后，会再对应获得的学习报告生成下一阶段的学习课程，即为预设的学习课程。

对目标说话人即使用该发音纠错系统的学生用户进行身份注册，方便之后对应学生用户的身份生成学习报告以及学习课程。

在另一种实施方式中，所述方法还可以包括构建并训练说话人模型的方法，具体包括：

步骤S11：基于Res2Net网络结构建立初始网络模型；

步骤S12：根据带说话人标签的域外训练数据，获得训练数据集；

步骤S13：利用所述训练数据集，对所述初始网络模型进行训练，获得说话人模型。

在具体实施方式中，基于Res2Net网络结构在图像领域任务应用中取得的显著性能提高，应用Res2Net的深度神经网络对说话人进行建模，建立初始网络模型。考虑到应用场景数据的不足，本实施例采用大量带说话人标签的域外音频训练数据进行模型训练。

首先，批量对输入音频训练数据进行特征提取操作，提取其频谱信息作为初始网络模型的输入，不同音频数据因其时长的不同对应不同帧数的频谱特征向量，每条音频数据的说话人标签信息为初始网络模型的输出。频谱信息经过卷积层训练，进行矩阵降维，然后通过池化层把每帧特征对应的输出向量进行均值和标准差计算，作为池化层的输出，这样时长不同的音频数据就映射为了固定长度的向量。池化层之后接着四层全连接层和一个softmax层为输出，输出的神经元个数和音频训练数据中的说话人数量一致，即输出层为固定长度的向量。将全连接层的倒数第二层作为所述语音信息的说话人特征向量，从而完成对初始网络模型的训练，获得说话人模型。使用该模型即可生成与输入语音信息对应的固定维度的说话人特征向量。

最后，将训练获得的说话人模型进行存储，以在实际使用时调用该模型来提取语音信息的说话人特征向量。

步骤S20：根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量。

具体的，如图2所示为说话人模型的结构示意图，所述步骤S20可以包括：

步骤S20.1：提取所述语音信息的频谱特征，获得频谱特征向量。

步骤S20.2：将所述频谱特征向量输入所述说话人模型的卷积层，进行矩阵降维，获得映射后的频谱特征。

在具体实施方式中，将步骤S20.1获得的频谱特征向量作为所述说话人模型的输入，不同语音信息因其时长的不同对应不同帧数的频谱特征向量，本实施例中定义所述频谱特征向量为X＝(x₁,x₂,…,x_t,…,x_T)，其中，T代表所述语音信息的帧数，x_t是第t帧的频谱特征向量。

步骤S20.3：通过所述说话人模型的池化层，对每帧映射后的频谱特征进行均值和标准差计算，获得长度固定的输出向量。

在具体实施方式中，池化层把每帧特征对应的输出向量进行均值和标准差计算作为池化层的输出，这样时长不同的音频数据映射为固定长度的向量。

步骤S20.4：通过所述说话人模型的全连接层，对所述长度固定的输出向量进行特征提取，获得说话人特征向量。

在具体实施方式中，全连接层为四层，以及一层softmax层为输出，每条语音信息的说话人标签信息为说话人模型的输出，输出的神经元个数和训练说话人模型时的说话人数量一致，即输出层为固定长度的向量Y＝(P(spk₁|x₁,x₂,…,x_T),P(spk₂|x₁,x₂,…,x_T),…,P(spk_K|x₁,x₂,…,x_T))，其中，K代表训练说话人模型时的说话人数量。

由于说话人模型基于Res2Net网络构建，其全连接层的每一层都有较强的特征提取能力，本实施例将全连接层的倒数第二层作为所述语音信息的说话人特征向量s，即与所述频谱特征向量对应的固定维度的说话人特征向量s。

在一种实施方式中，所述方法还可以包括获取并存储目标说话人特征向量的方法，具体包括：

步骤S21：根据所述步骤S01的注册语音，利用步骤S11～步骤S13训练获得的说话人模型，提取所述注册语音的目标说话人特征向量，并对所述目标说话人特征向量进行存储。

在具体实施方式中，获取学生的注册语音后，提取该注册语音的频谱信息，将该频谱信息输入训练获得的说话人模型，提取该学生的说话人特征向量，将该学生作为目标说话人，其说话人特征向量则为目标说话人特征向量，最后存储该目标说话人特征向量。

在另一种实施方式中，所述方法还可以包括构建并训练目标说话人的身份判别模型的方法，具体包括：

步骤S22：建立支持向量机模型；

步骤S23：根据所述步骤S01的注册语音，获得目标说话人数据集；

步骤S24：根据无说话人标签的域内训练数据，获得背景说话人数据集；

步骤S25：利用所述目标说话人数据集和背景说话人数据集，对所述支持向量机模型进行训练，获得目标说话人的身份判别模型。

在具体实施方式中，由于实际使用发音纠错系统时，经常需要家长引导学生发音，因此，家长的发音对发音纠错系统来说，是非学生本人数据的干扰项，因此，需要对获取的注册语音进行人工标注说话人标签。为快速地在产品中实现功能，以及保证声纹识别的准确性，应用无说话人标签的域内训练数据进行SVM模型的训练，SVM模型可以捕获嵌入在无说话人标签的域内训练数据中的声纹信息，从而获得训练好的身份判别模型。

对所述SVM模型进行训练时，将无说话人标签的域内训练数据(包含b条语音数据)作为背景说话人样本，将目标用户注册时获取的语音数据(包含n条语音数据)作为目标说话人样本，SVM模型将低维输入向量投影到高维空间以找到一个分类超平面，该分类超平面可以最大化目标说话人因子和背景说话人因子之间的间隔。

训练完成后，从训练数据中抽取小部分目标说话人样本和背景说话人样本的支持向量来捕获分类超平面的结构，如图3所示为支持向量机模型训练时分类超平面的结构示意图。

步骤S30：根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人。

具体的，所述步骤S30可以包括：

步骤S30.1：根据所述说话人特征向量，利用概率线性判别分析技术，提取所述说话人特征向量中的说话人因子。

在具体实施方式中，所述说话人特征向量中既包括了说话人信息，还包括了信道信息，而我们只关心说话人信息，所以在说话人特征向量中存在信道信息的干扰，这会降低系统的性能表现，因此，通过信道补偿来减少这种影响。

本实施例中，为减少说话人模型向量s中信道信息的干扰，利用PLDA技术，使用来自域外训练数据的说话人标签信息进行信道补偿，以消除信道干扰。

具体的，所述步骤S30.1可以包括：

步骤S30.1.1：采用期望最大化算法对所述说话人特征向量进行迭代求解，根据最大似然准则，获得所述说话人特征向量的参数估计值；

步骤S30.1.2：根据所述参数估计值，通过最大后验概率估计，获得所述说话人特征向量中的说话人因子。

在具体实施方式中，根据因子分析，说话人特征向量s的计算式为：

s＝m+Φβ+∈，

其中，m表示所有训练数据的说话人特征向量均值，Φ表示说话人信息的身份空间矩阵，β表示说话人在身份空间中的位置向量，∈表示残留噪声向量，为零均高斯分布，且协方差矩阵为Σ；

采用期望最大化算法对所述说话人特征向量进行迭代求解，根据最大似然准则，获得所述说话人特征向量的参数估计值{m,Φ,Σ}，然后通过最大后验概率估计得到说话人因子β：

β＝(Φ′Σ^-1Φ+I)^-1Φ′Σ^-1(s-m)，

其中，Φ′表示Φ的转置矩阵，Σ^-1表示Σ的逆矩阵。

步骤S30.2：根据已存储的目标说话人特征向量，利用概率线性判别分析技术，提取所述目标说话人特征向量的目标说话人因子。

具体的，所述步骤S30.2可以包括：

步骤S30.2.1：采用期望最大化算法对所述目标说话人特征向量进行迭代求解，根据最大似然准则，获得所述目标说话人特征向量的目标参数估计值；

步骤S30.2.2：根据所述目标参数估计值，通过最大后验概率估计，获得所述目标说话人特征向量中的目标说话人因子。

步骤S30.3：将所述说话人因子和所述目标说话人因子输入训练获得的目标说话人的身份判别模型，以获得所述语音信息对应的说话人与目标说话人的声纹相似度。

具体的，所述步骤S30.3中，利用声纹相似度计算式，获得所述语音信息对应的说话人与目标说话人的声纹相似度，其中，所述声纹相似度计算式为：

步骤S30.4：判断所述声纹相似度是否大于预设阈值；

步骤S30.5：若所述声纹相似度大于所述预设阈值，则判定所述语音信息对应的说话人为目标说话人；

步骤S30.6：若所述声纹相似度小于或等于所述预设阈值，则判定所述语音信息对应的说话人不是目标说话人。

在具体实施方式中，若所述语音信息对应的说话人为目标说话人，继续执行步骤S40，若所述语音信息对应的说话人不是目标说话人，则返回步骤S10继续获取语音信息。

步骤S40：当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并存储所述目标说话人身份标记和所述发音纠错反馈结果，以在结束预设的学习课程后，对所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，获得目标说话人的学习报告。

在具体实施方式中，当所述语音信息对应的说话人为目标说话人时，表示当前获取的语音信息对应的说话人为使用该发音纠错系统的学生；当所述语音信息对应的说话人不是目标说话人时，即为背景说话人，比如家长。结束预设的学习课程，即本阶段的学习后，进行阶段性学习总结，对该阶段内标注有目标说话人身份标记的所有学习数据进行汇总分析，即对该学生进行阶段性的学习情况分析，获得该学生的学习报告。还可以根据该学习报告匹配对应水平的学习课程，作为该学生下一阶段学习的预设的学习课程。

在具体实施方式中，使用前，先通过步骤S01～步骤S03对用户信息进行注册，保存注册用户信息，包括其声纹信息；使用时，通过步骤S10对采集到的用户的语音信息进行发音识别和分析，判断该语音信息中的发音是否准确，并实时发送发音纠错反馈结果给用户，同时，通过步骤S20～步骤S50，根据已存储的注册用户的声纹信息，对使用时采集到的语音信息进行身份识别，获取注册用户的身份标记后，与该语音信息对应的发音纠错反馈结果等学习数据一起存储到数据库；在用户完成预设的学习课程，即本阶段的学习后，再对带注册用户身份标记的学习数据进行分析，对该注册用户生成相应的学习报告，并根据该学习报告匹配相应水平的学习课程，以供用户下一阶段学习使用。

需要说明的是，当一个系统对应多个学生使用时，即有多个目标说话人时，只需要通过步骤S01至S03，获取另一目标说话人的学习课程，通过步骤S21获取该目标说话人的目标说话人特征向量并存储，以及通过步骤S22～步骤S25获取该目标说话人的身份判别模型即可。基于不同的目标说话人特征向量和身份判别模型，对获取的每一段语音信息的身份进行认证并判断是否为目标说话人，无感式的身份识别，不影响用户的使用体验。学生根据上述方法学习，获取到发音纠错反馈后，基于获取的目标说话人信息，对不同学生的数据分别进行发音情况分析，生成相应的学习报告和/或推荐对应水平的学习内容。

本实施例提供的一种发音纠错学习方法，基于声纹识别技术，在对语音信息进行发音纠错的同时，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量，再利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人，当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并与发音纠错反馈结果一起存储，以在结束预设的学习课程后，对所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，获得目标说话人的学习报告，实现了发音纠错过程的身份认证，避免了每次发音练习前需要单独进行身份认证的情况；本发明在进行发音纠错反馈的同时进行无感式的身份认证，通过训练获得的目标说话人的身份判别模型，实现更准确和更高效地对发音纠错过程中使用者的身份识别，提高了发音纠错的效率，让用户在练习的过程中无需证明“我是我”，保证了用户的学习体验。

实施例二

基于同一发明构思，参照图4，本发明第二实施例提供了一种发音纠错学习装置，基于上述本发明的第一实施例，结合图4所示的功能模块示意图，对本实施例提供的发音纠错学习装置进行描述，所述装置包括：

语音获取模块，用于获取语音信息；

其中，上述程序模块的功能的具体实施方式可参见实施例一的具体描述，为了说明书的简洁，本实施例在此不再重复赘述。

实施例三

基于同一发明构思，本实施例提供了一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，所述计算机程序被处理器执行时可以实现如下方法步骤：

上述方法步骤的具体实施方式中更多实施细节可参见实施例一中具体实施方式的描述，为了说明书的简洁，此处不再重复赘述。

实施例四

基于同一发明构思，本实施例提供了一种电子设备，该电子设备可以是手机、电脑或平板电脑等，包括存储器和处理器，存储器上存储有计算器程序，该计算机程序被处理器执行时实现如上述实施例一中所述的发音纠错方法。

可以理解，电子设备还可以包括，多媒体组件，输入/输出(I/O)接口，以及通信组件。

其中，处理器用于执行如上述实施例一中所述的发音纠错方法中的全部或部分步骤。存储器用于存储各种类型的数据，这些数据例如可以包括电子设备中的任何应用程序或方法的指令，以及应用程序相关的数据。

所述处理器可以是专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable LogicDevice，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件，用于执行如上述实施例一中所述的发音纠错方法中的全部或部分步骤。

所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述多媒体组件可以包括屏幕和音频组件，所述屏幕可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器，用于输出音频信号。

所述I/O接口为处理器和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。

所述通信组件用于该电子设备与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件可以包括：Wi-Fi模块，蓝牙模块，NFC模块等无线通讯模块。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均包括在本发明的专利保护范围内。

Claims

1.一种发音纠错学习方法，其特征在于，所述方法包括以下步骤：

当所述语音信息对应的说话人为目标说话人时，生成目标说话人身份标记，并存储所述目标说话人身份标记和所述发音纠错反馈结果，以在结束预设的学习课程后，对所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，获得目标说话人的学习报告；

根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量的步骤，具体包括：

提取所述语音信息的频谱特征，获得频谱特征向量；

2.如权利要求1所述的发音纠错学习方法，其特征在于，在根据所述语音信息，利用训练获得的说话人模型，提取所述语音信息的说话人特征向量的步骤之前，所述方法还包括：

基于Res2Net网络结构建立初始网络模型；

根据带说话人标签的域外训练数据，获得训练数据集；

3.如权利要求1所述的发音纠错学习方法，其特征在于，在根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人的步骤之前，所述方法还包括：

建立支持向量机模型；

4.如权利要求1所述的发音纠错学习方法，其特征在于，根据所述说话人特征向量和已存储的目标说话人特征向量，利用训练获得的目标说话人的身份判别模型，判断所述语音信息对应的说话人是否为目标说话人的步骤，具体包括：

判断所述声纹相似度是否大于预设阈值；

5.如权利要求4所述的发音纠错学习方法，其特征在于，根据所述说话人特征向量，利用概率线性判别分析技术，提取所述说话人特征向量中的说话人因子的步骤，具体包括：

6.如权利要求4或5所述的发音纠错学习方法，其特征在于，利用声纹相似度计算式，获得所述语音信息对应的说话人与目标说话人的声纹相似度，其中，所述声纹相似度计算式为：

7.一种发音纠错学习装置，其特征在于，所述装置包括：

语音获取模块，用于获取语音信息；

学习报告模块，用于在结束预设的学习课程后，对所述存储模块中存储的所述目标说话人身份标记和所述发音纠错反馈结果进行统计分析，以获得目标说话人的学习报告；

说话人特征提取模块，还用于提取所述语音信息的频谱特征，获得频谱特征向量；将所述频谱特征向量输入所述说话人模型的卷积层，进行矩阵降维，获得映射后的频谱特征；通过所述说话人模型的池化层，对每帧映射后的频谱特征进行均值和标准差计算，获得长度固定的输出向量；通过所述说话人模型的全连接层，对所述长度固定的输出向量进行特征提取，获得说话人特征向量。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序可被一个或多个处理器执行，以实现如权利要求1至6中任意一项所述的发音纠错学习方法。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，实现如权利要求1至6中任意一项所述的发音纠错学习方法。