CN116978359A

CN116978359A - 音素识别方法、装置、电子设备及存储介质

Info

Publication number: CN116978359A
Application number: CN202211525113.4A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-10-31
Also published as: WO2024114303A1

Abstract

本申请实施例提供了一种音素识别方法、装置、电子设备及存储介质。该方法包括：获取目标声纹特征及待识别音频；将待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，第一样本音频为单用户发音的音频，第二样本音频为多用户发音的音频，进行音素识别的过程包括：对待识别音频进行特征提取，得到待识别音频的音频特征；基于目标声纹特征对音频特征进行去噪处理，得到待识别音频的语音声学特征；对语音声学特征进行音素识别，得到语音声学特征对应的音素识别结果。通过采用上述方法，实现在多人用户发音的情况下准确识别目标用户的音频对应的音素。

Description

音素识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理和机器学习技术领域，更具体地，涉及一种音素识别方法、装置、电子设备及存储介质。

背景技术

语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。音素是根据语音的自然属性划分出来的最小语音单位，目前语音识别具有复杂的处理流程，主要包括模型训练、解码网络构建以及解码等过程，其包括了对音素识别的具体过程。

目前，语音命令识别技术是自动语音识别技术的一项具体应用，其主要功能是用户不必利用键盘、鼠标、触摸屏等输入设备，只要说出命令词的语音，则语音命令识别系统会自动识别出该语音对应的字符串。此外，如果该字符串为命令词对应的字符串，则可能触发对应的操作。例如，目前的语音唤醒系统就是一种典型的利用语音识别的系统，用户可以说出唤醒命令，系统识别用户说出的语音对应的声纹是否为指定声纹，若是则识别语音是否包括唤醒命令，如果识别出包括唤醒命令则唤醒(即启动)对应的设备，否则不唤醒对应的设备。

但是，对于有多用户同时发音的情况下，系统在识别目标用户的语音执行唤醒操作时，由于多个用户同时发音，会对目标用户的音频造成影响，进而会影响后续识别到的语音对应识别结果的准确性，从而无法唤醒系统，或者造成异常唤醒，基于此，提出一种能够在多用户同时发音的情况下，准确识别目标用户的语音是亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提出了一种音素识别方法、装置、电子设备及存储介质，可以利用更准确的音素识别模型对目标用户对应的音素进行识别，从而提高音素识别的准确性。

第一方面，本申请实施例提供了一种音素识别方法，方法包括：获取目标声纹特征及待识别音频；将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，所述第一样本音频为单用户发音的音频，所述第二样本音频为多用户发音的音频，所述进行音素识别的过程包括：对所述待识别音频进行特征提取，得到所述待识别音频的音频特征；基于目标声纹特征对所述音频特征进行去噪处理，得到所述待识别音频的语音声学特征；对所述语音声学特征进行音素识别，得到所述语音声学特征对应的音素识别结果。

第二方面，本申请实施例提供了一种音素识别装置，所述装置包括：第一获取模块，用于获取目标声纹特征及待识别音频；音素识别模块，用于将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，所述第一样本音频为单用户发音的音频，所述第二样本音频为多用户发音的音频，所述音素识别模块包括：特征提取子模块、去噪处理子模块以及音素识别子模块。特征提取子模块，用于对所述待识别音频进行特征提取，得到所述待识别音频的音频特征；去噪处理子模块，用于基于目标声纹特征对所述音频特征进行去噪处理，得到所述待识别音频的语音声学特征；音素识别子模块，用于对所述语音声学特征进行音素识别，得到所述语音声学特征对应的音素识别结果。

在一种可实施方式中，所述音素识别模型包括基础模型和蒸馏模型，所述基础模型的数据维度高于所述蒸馏模型的数据维度，装置还包括第二获取模块、损失获得模块以及模型训练模块。第二获取模块，用于获取第一样本音频和第二样本音频；损失获得模块，用于基于所述第一样本音频训练所述基础模型，获得所述基础模型训练过程中的第一损失值，基于所述第二样本音频训练所述蒸馏模型，获得所述蒸馏模型训练过程中的第二损失值；模型训练模块，用于基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数，得到训练后的音素识别模型。

在一种可实施方式中，所述模型训练模块包括：损失计算子模块和模型训练子模块，损失计算子模块，用于对所述第一损失值和所述第二损失值进行加权求和得到目标损失值；模型训练子模块，用于基于所述目标损失值分别调整所述基础模型和所述蒸馏模型的模型参数，以使所述音素识别模型收敛，得到训练后的音素识别模型。

在一种可实施方式中，所述第二获取模块，还用于获取在噪音强度低于第一预设值的环境下单用户发音的音频，作为所述第一样本音频。

在一种可实施方式中，特征提取子模块，还用于将所述待识别音频输入至训练后的蒸馏模型包括的语音编码器中，利用所述语音编码器的浅层特征提取层对所述待识别音频进行离散量化处理，得到待识别音频包括的多帧语音；利用所述语音编码器的深层特征提取层对所述待识别音频中每帧语音进行特征提取，得到所述待识别音频中每帧语音对应的音频特征。

在一种可实施方式中，所述音素识别子模块，还用于利用训练后的蒸馏模型的输出层中分类函数计算所述语音声学特征为每个音素的概率；基于所述声学特征为每个音素的概率，确定所述声学特征对应的音素识别结果。

在一种可实施方式中，去噪处理子模块包括特征拼接单元、非线性变化处理单元以及去噪处理单元。特征拼接单元，用于将所述目标声纹特征与所述音频特征进行拼接，得到拼接后的特征；非线性变化处理单元，用于对拼接后的特征进行非线性变化处理，得到所述待识别音频的掩码表示特征；去噪处理单元，用于将所述待识别音频的掩码表示特征与所述音频特征相乘，得到所述待识别音频的语音声学特征。

在一种可实施方式中，非线性变化处理单元，还用于利用训练后的音素识别模型中的激活函数对所述拼接后的特征进行非线性变化处理，得到所述待识别音频的掩码表示特征。

在一种可实施方式中，第一获取模块，包括音频获取子模块和声纹识别子模块。音频获取子模块，用于获取在噪音强度低于第二预设值时目标用户的音频；声纹识别子模块，用于对所述目标用户的音频进行声纹特征识别，得到目标声纹特征。

第三方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

本申请实施例提供的一种音素识别方法、装置、电子设备及存储介质，方法包括：获取目标声纹特征及待识别音频；将待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，第一样本音频为单用户发音的音频，第二样本音频为多用户发音的音频，进行音素识别的过程包括：对待识别音频进行特征提取，得到待识别音频的音频特征；基于目标声纹特征对音频特征进行去噪处理，得到待识别音频的语音声学特征；对语音声学特征进行音素识别，得到语音声学特征对应的音素识别结果。通过采用本申请的上述方法，在对待识别音频进行音素识别过程中，由于使用的训练后的音素识别模型是由具有单人说话的音频和多人说话的音频来训练得到的，因此使用该模型可以从多个说话人音频中准确识别出目标声纹所属目标说话人对应的音素识别结果，避免除目标说话人以外的其他人的语音干扰，进而有效提高有音素识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种音素识别模型训练方法的应用场景图；

图2示出了本申请实施例提出的一种音素识别方法的流程示意图；

图3示出了本申请实施例提供的一种录制音频的显示界面的示意图；

图4示出了图2中步骤S120的流程示意图；

图5示出了本申请实施例提出的一种音素识别练方法的另一流程示意图；

图6示出了本申请实施例提出的一种音素识别模型的结构示意图；

图7示出了本申请实施例提出的一种音素识别模型中蒸馏模型的结构示意图；

图8示出了本申请实施例提出的一种音频采集及处理的流程示意图；

图9示出了本申请实施例提供的一种客户端的显示界面的示意图；

图10示出了本申请实施例提供的一种客户端的另一显示界面的示意图；

图11示出了本申请实施例提供的一种客户端的又一显示界面的示意图；

图12示出了本申请实施例提供的一种音素识别装置的连接框图；

图13示出了本申请实施例提供的一种音素识别装置的另一连接框图；

图14示出了用于执行本申请实施例的方法的电子设备的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。以人工智能应用在机器学习上为例进行说明：

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。本申请的方案主要是利用机器学习对待识别音频进行音素识别。

在进行具体说明之前，对本申请涉及的术语进行如下解释：

音素，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。

样本音频：样本音频可以是标识有音素信息的音频，且不同的样本音频中包括的音素信息不同。在本申请中，样本音频具体可以包括第一样本音频和第二样本音频，其中，第一样本音频是由一个用户发音产生的音频，第一样本音频的标签中可以包括按照该用户发音顺序排列的所有音素。第二样本音频是由多个用户(如，至少两个用户)发音产生的音频，第二样本音频的标签中可以包括至少一个用户按照其发音顺序排列的所有音素。

音频特征：音频特征可以是指从音频中提取的为了表征语音内容的数据和识别该语音数据的特征数据，例如可以是音频中的声音频率、音量、情绪、音高、能量等数据。这些数据均可以被称为该语音数据的“音频特征数据”，以用于区分不同音频对应的不同发音用户，以及区分不同音频帧对应的不同音素。

音素识别模型：是指利用深度学习模型(如，卷积神经网络模型)进行对大量的经过标注的样本图像进行端到端的训练。经过充分训练的音素识别模型可以对某一段音频进行音素识别，或者对多用户发音的音频中某一用户的音频进行音素识别。

下面说明本发明实施例提供的用于执行上述音素识别模型训练方法的设备的示例性应用，本发明实施例提供的音素识别模型训练方法可以应用于如图1所示的应用环境中的服务器中。

图1是根据本申请一实施例示出的应用场景的示意图，如图1所示，该应用场景包括终端设备10和通过网络与终端设备10通信连接的服务器20。

终端设备20，终端设备20具体可以是手机、电脑、平板电脑或者车载终端等，终端设备20可以设有用于展示音素识别结果和录入待识别语音的客户端，如内容交互客户端、即时通信客户端、教育客户端、社交网络客户端、购物客户端、音视频播放客户端以及设备控制客户端等。

网络可以是广域网或者局域网，或者是二者的组合。终端设备10可以是智能手机、智能电视、平板电脑、笔记本电脑或者台式计算机等。

服务器10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

若利用如图1中的终端设备10和服务器20进行音素识别模型训练以及进行音素识别，得到待识别音频的音素识别结果，则可以具体执行如下步骤。用户可以通过终端设备10向服务器20上传第一样本音频和第二样本音频，服务器20在获取到第一样本音频和第二样本音频时，利用第一样本音频第二样本音频对音素识别模型进行训练，得到训练后的音素识别模型。后续，用户还可以通过终端设备10获取待识别音频和目标声纹特征并发送至服务器20，以使服务器20利用训练后的音素识别模型对待识别音频进行识别得到音素识别结果并反馈至终端设备10，其中，服务器20在对待识别音频进行音素识别时，具体执行以下步骤：对待识别音频进行特征提取，得到待识别音频的音频特征；基于目标声纹特征对音频特征进行去噪处理，得到待识别音频的语音声学特征；以及对语音声学特征进行音素识别，得到语音声学特征对应的音素识别结果。服务器20还可以向终端设备10发送待识别音频对应的音素识别结果。以使终端设备10显示音素识别结果。

其中，用于训练音素识别模型的第一样本音频为单用户发音的音频，第二样本音频为多用户发音的音频。相应的，训练后的音素识别模型可以在多用户发音的情况下，也即待识别音频包括多个用户发音的音频，且该多个用户中包括目标声纹特征对应的用户时，采用上述的训练后的音素识别模型可以识别出目标声纹特征对应的用户对应的音素识别结果，图1中示出了当待识别音频包括第一用户的语音“我想听歌”和第二用户的语音“打开电视”，且目标声纹特征为第二用户对应的声纹时，则基于第二用户对应的声纹利用训练后的音素识别模型对待识别音频进行音素识别得到的结果为“da kai dian shi”，相应的，该音素识别结果对应的语音信息为“打开电视”，如图1所示，终端设备10还可以显示音素识别结果对应的语音信息。

应当理解，上述的方法步骤也可以仅由终端设备10来执行或者仅由服务器20来执行，也即，上述描述的方法步骤仅仅是示意性的，并不作为本方案的限制。

下面将结合附图具体描述本申请的各实施例。

请阅图2，图2所示为本申请还提供一种音素识别方法，可以应用于电子设备，该电子设备可以是上述的终端设备10或服务器20，该方法包括：

步骤S110：获取目标声纹特征及待识别音频。

其中，获取目标声纹特征可以是获取预先录入的目标用户的声纹特征，也可以是从服务器或存储器中获取预先存储的目标声纹特征，还可以响应于声纹采集操作，开始录制语音信息，并对录制的语音信息进行声纹特征提取得到目标声纹特征。上述的获取目标声纹特征的方式仅为示意性的，还可以有更多的获取目标声纹特征的方式，此处不作具体限定。

在本申请的一种可实施方式中，获取目标声纹特征的方式包括：响应于用户的音频录制操作，采集目标用户的音频。对目标用户的音频进行声纹特征识别，得到目标声纹特征。

为避免采集的目标用户的音频中存在噪音，进而影响提取的目标声纹特征的准确性，在该种实施方式下，本申请在获得的音频应当为噪音强度低于一预设值(如第二预设值)时目标用户的音频。其中该第二预设值具体可以是噪音强度在低于10分贝、15分贝或者20分贝等低噪音环境下对应的分贝值。其中，获取低噪音环境下的目标用户的音频的方式可以有多种。

在一种可实施方式中，终端设备可以响应于声纹特征采集指令，生成录制音频的提醒界面，如图3所示，该提醒界面中包括显示有“采集干净录音”的提示信息的控件11，以提示用户在低噪音环境下录制语音，用户可以点击该控件11表示其处于低噪音环境并开始录入语音，当用户完成语音录入时，可以再次点击该显示有“采集干净录音”的提示信息的控件11以完成录音，获得目标用户的音频，进而可以基于该音频获得目标声纹特征。

在另一种可实施方式中，为实现获取噪音强度低于第二预设值时目标用户的音频，可以先在录制目标用户的音频前，检测环境噪声，在检测到环境噪声低于第二预设值时，提示用户录制目标用户的音频。

在获取到目标用户的音频后，对目标用户的音频进行声纹识别的方式可以是基于预先训练的声纹识别模型中的编码器对目标用户的音频进行编码，得到目标声纹特征。其中，声纹识别模型可以为基于元组的端到端模型(TE2E模型)，也可以为广义的端到端模型(GE2E模型)，还可以是任意可以进行声纹提取的模型，此处不作具体限定，根据实际需求进行选取即可。

应当理解，上述获取的目标声纹特征的数量可以是一个，也可以是多个，当为多个是，可以执行多次上述的音频录制过程，以采集多个目标用户分别对应的目标声纹特征。

获取待识别语音的方式，可以是获取电子设备录制的待识别音频，也可以是获取预先录制的待识别音频，根据实际需求进行设置。

其中，待识别音频可以是多个用户发音的音频，且该多个用户中应当包括目标声纹特征对应的目标用户。

步骤S120：将待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果。

其中，训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，第一样本音频为单用户发音的音频，第二样本音频为多用户发音的音频。

上述的音素识别模型可以是能够用于进行音素识别的卷积神经网络模型。具体的，上述的卷积神经网络可以是CTC(Connectionist Temporal Classification，基于联结时序分类的声学模型)，也可以是RNN-T(Recurrent Neural Network Transducer)，还可以是LAS(Listen,Attend and Spell)等等。

上述的音素识别模型还可以是知识蒸馏模型，知识蒸馏采取Teacher-Student模式：将复杂且大的模型作为Teacher，Student模型结构较为简单，用Teacher来辅助Student模型的训练，Teacher学习能力强，可以将它学到的知识迁移给学习能力相对弱的Student模型，以此来增强Student模型的泛化能力。而复杂笨重但是效果好的Teacher模型不上线，且部署上线进行预测任务的是灵活轻巧的Student模型。

应当理解，上述的音素识别模型的具体类型仅为示意性的，还可以有更多的种类，可以根据实际需求进行设置即可，此处不作具体限定。

在基于第一样本音频和第二样本音频对音素识别模型进行训练时，可以将第一样本音频和第二样本音频混合输入至待训练的音素识别模型，以对音素识别模型进行训练，并获得训练过程中的模型损失，在训练过程中调整模型参数以最小化模型损失，直至参数调整次数达到预设次数，或者模型损失达到最小时完成训练，得到训练后的音素识别模型。应当理解，且随着模型的训练，模型损失会逐渐减小，相应的，最终训练后的音素识别模型会更准确，在利用训练后的该音素识别模型对待识别音频进行音素识别也更准确。

请结合参阅图4，利用训练后的音素识别模型对待识别音频进行识别的过程包括如下步骤：

步骤S122：对待识别音频进行特征提取，得到待识别音频的音频特征。

其中，对待识别音频进行特征提取的方式具体可以是，利用训练后的音素识别模型中的语音编码器对待识别音频进行特征提取。该语音编码器的类型和结构具体依赖于所采用的音素识别模型确定。示例性的，若音素识别模型为RNN-T模型，则可以采用该模型中的混合编码器进行进行特征提取；若音素识别模型为知识蒸馏模型，则可以采用蒸馏模型中的学生模型中包括的编码器进行特征提取。上述仅为提取特征的编码器仅为示意性的，还可以有更多模型及对应的编码器用于提取上述的待识别音频的特征，此处不作一一赘述。

应当理解，由于待识别音频为一段时长的音频，音素是组成音频的最小单位或语音片段，因此该音频由多个音素构成。相应的，在对待识别音频进行特征提取时，具体可以是对待识别音频进行离散化处理或分帧处理，得到待识别音频包括的多帧语音，针对待识别音频包括的每帧语音分别进行特征提取，得到每帧语音对应的音频特征，以便后续对每帧语音对应的音频特征进行处理得到每帧音频对应的音素识别结果，从而获得待识别音频对应的音素识别结果。

步骤S124：基于目标声纹特征对音频特征进行去噪处理，得到待识别音频的语音声学特征。

在一种可实施方式中，基于目标声纹特征对音频特征进行去噪的方式可以是，利用训练后的音素识别模型基于目标声纹特征对音频特征进行掩码处理，以实现对待识别语音中目标用户的语音进行掩码表示，以去除待识别音频中除目标用户之外的其他人的音频干扰，从而达到去噪的目的。

在该种方式下，去噪的过程具体可以是将目标声纹特征与音频特征进行拼接，得到拼接后的特征；对拼接后的特征进行非线性变化处理，得到待识别音频的掩码表示特征；将待识别音频的掩码表示特征与音频特征相乘，得到待识别音频的语音声学特征。通过对拼接后的特征进行非线性变化处理，得到待识别音频的掩码表示特征，实现了对除目标声纹特征对应的目标用户的音频特征之外的其他音频特征进行了掩码处理，从而使将待识别音频的掩码表示特征与音频特征相乘后得到的语音声学特征中仅包括目标声纹特征对应的说话人的音频特征。

在另一种可实施方式中，基于目标声纹特征对音频特征进行去噪的方式还可以是，利用训练后的音素识别模型中的多说话人编码器对音频特征进行编码处理，得到不同说话人对应的音频特征，基于目标声纹特征查找从不同说话人对应音频特征中查找目标声纹特征对应的音频特征，以实现去除待识别音频中除目标声纹特征对应目标用户之外的其他人的音频干扰，从而达到去噪的目的，该目标声纹特征对应的音频声纹特征即为待识别音频的语音声学特征。

应当理解，上述的去噪方式仅为示意性，还可以有更多的去噪方式，在本申请实施例不作一一赘述。

步骤S126：对语音声学特征进行音素识别，得到语音声学特征对应的音素识别结果。

其中，对语音声学特征进行音素识别，具体可以是利用音素识别模型的输出层中的分类器或分类函数对语音声学特征进行分类计算，以基于语音声学特征对应的分类计算结果得到音素识别结果。

具体的，输出层中采用的分类器或者分类函数可以是softmax、SVM、XGBoost以及Logistic Regression等中的一种或多种。相应的，在对音素识别模型进行训练过程中可以利用带标注的语音声学特征分别训练softmax、SVM、XGBoost以及Logistic Regression等多种分类器或分类算法中的至少一种，从而可以利用训练后的分类器或分类算法对语音声学特征进行分类获得该语音声学特征对应的音素识别结果。

通过采用本申请的音素识别方法，通过利用单人说话的第一样本音频和多人说话的第二样本音频来训练音素识别模型，使得模型可以识别单人说话时的音频对应的音素，也可以实现识别多人说话时至少一个或多个说话对应的音频的音素，后续在利用训练后的音素识别模型可以基于目标声纹特征从多个说话人音频中准确识别出目标声纹所属目标说话人对应的音素识别结果，避免除目标说话人以外的其他人的语音干扰，进而有效提高有音素识别结果的准确性。

请参阅图5，图5是本申请实施例提供的一种音素识别方法，该方法可以应用于电子设备，该电子设备可以是如图1所示的场景中的服务器或终端设备，电子设备在执行音素识别方法时具体执行步骤S210至步骤S270：

步骤S210：获取目标声纹特征及待识别音频。

步骤S220：获取第一样本音频和第二样本音频。

其中，获取第一样本音频的方式可以是，获取录制的单个用户的音频，也可以是获取利用音频生成设备或软件程序等生成的单个用户的音频，还可以是从某一音频中截取的一个或多个单个用户的音频，应当理解，上述获取第一音频的方式仅是示意性的，还可以的获取方式，此处不作具体限定。

为使利用第一样本音频训练得到的模型的准确性，在本实施例中，第一样本音频中的噪音干扰较少，不会影响对第一样本音频中的音素识别。响应的，获取第一样本音频具体可以是获取在低噪音环境下(噪音强度低于预设值的环境下)单个用户录制的音频。上述的预设值具体可以是第一预设值，该第一预设值可以是5分贝、10分贝、15分贝或者20分贝等低噪音环境下。也可以是获取去除噪音干扰后的单个用户的音频作为作为第一样本音频。还可以是从去除噪音干扰后的音频中截取单个用户发音的音频作为第一样本音频。

在本申请的一种可实施方式中，获取第一样本音频包括：获取在噪音强度低于第一预设值的环境下单用户发音的音频，作为第一样本音频。

获取第二样本音频的方式可以是，获取录制的至少两个用户发音的音频，也可以是获取多个(至少两个)单用户发音的音频，并对上述获取的多个音频进行合成，得到多用户发音的音频。应当理解，上述获取第二样本音频的方式仅为示意性的，还可以有更多的获取方式，在本申请实施例不作一一赘述。

步骤S230：基于第一样本音频训练音素识别模型中的基础模型，获得基础模型训练过程中的第一损失值，基于第二样本音频训练音素识别模型中的蒸馏模型，获得蒸馏模型训练过程中的第二损失值。

其中，基础模型的数据维度高于蒸馏模型的数据维度。

具体的，上述的音素识别模型为一知识蒸馏模型，其由一教师模型(基础模型)和一学生模型(蒸馏模型)共同构成。知识蒸馏(Knowledge Distillation)是通过引入预先训练得到的教师模型(Teacher Modle)，利用教师模型输出的软目标(soft-target)诱导学生模型(StudentModle)的训练过程，使得学生模型能够学习教师模型的预测行为，从而将教师模型的泛化能力迁移至学生模型。

其中，教师模型(基础模型)和学生模型(蒸馏模型)均可以为任一神经网络模型，例如，卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(RecurrentNeuralNetwork，RNN)等等。

在本申请中，教师模型和学生模型分别包括的神经网络模型具体可以是wav2vec模型、vq-wav2vec模型、wav2vec 2.0模型、wav2vec3.0模型或者Discrete BERT模型等中的任意一种，应当理解，上述例举的教师模型和学生模型中包括的神经网络模型仅为示意性的，还可以有其他的模型，此处不作一一赘述。

其中，wav2vec模型是一种无监督的语音预训练模型，该模型包括将原始音频x编码为潜在空间z的encoder network(5层卷积)，和将z转换为contextualizedrepresentation的context network(9层卷积)，最终特征维度为512x帧数。且wav2vec模型的目标是在特征层面使用当前帧预测未来帧。

vq-wav2vec模型是基于wav2vec进一步引入量化模块(vq)而提出新模型，该模型对于给定输入语音信号X，首先使用encoder网络(与wav2vec相同)进行编码得到隐变量Z，再通过引入量化模块(wav2vec中没有)将隐变量Z映射为离散化隐变量Z^，最后使用context网络(与wav2vec相同)编码历史时刻的离散化隐变量得到上下文特征向量C，之后再使用BERT生成的语义特征代替声学特征(log-mel filterbanks)有监督地训练一个wav2letter ASR模型。wav2vec 2.0模型使用了自监督学习的方法，来学习音频的表征。

wav2vec 2.0模型是基于wav2vec，结合了vq-wav2vec的量化模块和Transformer提出的模型。其中，encoder network基于CNN(convolutional neural network,卷积神经网络)，而context network基于Transformer，任务是在特征层面恢复被掩码处理量化的帧。

在一种可实施方式中，待训练的音素识别模型中的基础模型和蒸馏模型分别包括wav2vec 2.0模型。

在对待训练的音素识别模型的基础模型进行训练时，将第一样本音频分别输入到基础模型中，可以基于第一样本音频的标签和基础模型对该第一样本音频的识别结果得到该基础模型的模型损失。

在对待训练的音素识别模型的蒸馏模型进行训练时，由于第二样本音频为多用户发音的音频，因此，第二样本音频的标签应当包括其中至少一个用户的音频对应的音素标签以及该用户的声纹特征，在训练蒸馏模型的过程中，蒸馏模型可以根据第二样本音频的标签中的声纹特征对第二样本音频进行音素识别得到音素识别结果，从而可以根据第二样本音频的音素识别结果和音素标签得到蒸馏模型的模型损失。

示例性地，请参阅图6，当基础模型和蒸馏模型分别包括wav2vec 2.0模型时，基础模型的模型损失计算过程可以参阅前述利用第一样本音频训练基础模型的过程如下：对于每个第一样本音频，将该第一样本音频进行离散化处理，得到该第一样本音频包括的多个第一样本音频帧(如T个第一样本音频帧)，对各第一样本音频帧分别进行特征提取，得到每个第一样本音频帧的特征，对各第一样本音频帧的特征进行音素识别，得到各第一样本音频帧对应的音素识别概率t_i，其中，SoftMax(f_teacher)为基础模型的分类函数，/>为第一样本音频的语音声学特征，基于各第一样本音频的音素标签和对应的音素识别概率即可得到基础模型的模型损失(第一损失值)l(t_i)。

蒸馏模型可以根据第二样本音频的标签中的声纹特征对第二样本音频进行音素识别得到音素识别结果的过程具体包括：对第二样本音频进行特征提取，得到第二样本音频中每帧样本音频的特征将该第二样本音频的标签中的声纹特征D与每帧样本音频的特征/>进行拼接，得到每帧样本音频拼接后的样本特征/>对每帧样本音频拼接后的样本特征进行非线性变化处理得到该第二样本音频中每帧样本音频的掩码表示特征m_i，其中，/>针对每帧样本音频，将该帧样本音频的音频特征与其掩码表示特征相乘，得到该帧样本音频的语音声学特征/>其中，/>之后，将第二样本音频的每帧样本音频的语音声学特征表示进行全连接网络变化处理后进行分类，得到第二样本音频中每帧样本音频对应的音素识别概率s_i，其中，SoftMax(f_student)为蒸馏模型的音素分类函数。基于第二样本音频中每帧样本音频的音素标签和对应的音素识别概率，即可获得蒸馏模型的模型损失(第二损失值)l(s_i)。

其中，在一种可实施方式中，第二样本音频的标签中的声纹特征可以是利用预先训练好的声纹特征提取模型对第二样本音频进行声纹特征提取得到。

步骤S240：基于第一损失值和第二损失值分别调整基础模型的模型参数和蒸馏模型的模型参数，得到训练后的音素识别模型。

其中，基于第一损失值和第二损失值分别调整基础模型的模型参数和蒸馏模型的模型参数的方式可以是，基于第一损失调整基础模型的模型参数以及基于第二损失调整蒸馏模型的模型参数；还可以是基于第一损失值和第二损失值获得一目标损失值，以基于目标损失值分别调整基础模型的模型参数和蒸馏模型的模型参数，上述基于第一损失值和第二损失值获得目标损失值的方式可以是对第一损失值和第二损失值进行加权求和得到目标损失值，也可以是从第一损失值和第二损失值中选取最大的损失值，应当理解，上述获得目标损失值的方式仅为示意性的还可以有其他的获得方式，上述的获得方式并不应当作为本方案的限制。

为使基础模型能够将学习到的知识迁移到蒸馏模型，而使基础模型能够且使得蒸馏模型能够更准确的进行音素识别。基础模型与蒸馏模型之间应具有较高的关联性，在本申请的一种可实施方式中，上述步骤S240包括：

步骤S242：对第一损失值和第二损失值进行加权求和得到目标损失值。

具体的，可以采用计算式L＝λ×l(si)+(1-λ)×l(ti)进行计算，得到目标损失值，其中，L为目标损失，λ为第一损失值的权重系数，l(ti)为基础模型的模型损失(第一损失值)，l(si)为蒸馏模型的模型损失(第二损失值)。

步骤S244：基于目标损失值分别调整基础模型和蒸馏模型的模型参数，以使音素识别模型收敛，得到训练后的音素识别模型。

其中，在基于目标损失值调整音素识别模型时，其目的是最小化模型损失，以使音素识别模型逐渐收敛，当调整模型参数达到预设次数，例如，5000次、10000次等时，则可以认为模型收敛，也可以是当模型损失逐渐趋于一固定值，如零，或者小于某一预设值，如0.05、0.01等时，则可以认为模型收敛，既可以得到训练后的音素识别模型。

请再次参阅图6，上述的目标损失值可以包括音素识别模型进行语音声学特征提取阶段的损失，还可以包括对特征进行分类阶段的损失，也即上述的目标损失可以包括KL损失和CTC损失。

通过采用上述的模型训练过程，以实现将基于干净音频的音素识别网络(基础模型)学习的知识蒸馏到基于噪声音频的音素识别网络(蒸馏模型)中，进而实现利用基础模型来指导训练蒸馏模型，使训练后的基础模型和蒸馏模型能够用于准确地描述音频的频谱特征与音素之间的关联关系。

需要说明的是，上述步骤S230-步骤S240所描述的模型训练过程仅为示意性的，并不应当作为本发明的限制。在另一种可实施方式中，模型训练过程还可以是：在获取第一样本音频和第二样本音频之后，利用第一样本音频对基础模型进行训练得到训练后的基础模型，将第二样本音频分别输入到训练后的基础模型和蒸馏模型以得到训练后的基础模型的第一输出结果和蒸馏模型的第二输出结果；基于第一输出结果和第一样本音频的音素标签获得第三损失值，以及基于第二输出结果和第一样本音频的音素标签获得第四损失值，以及基于第三损失值和第四损失值调整蒸馏模型的模型参数，得到训练后的音素识别模型。其中，基于第三损失值和第四损失值调整蒸馏模型的模型参数，具体可以是对所述第三损失值和所述第四损失值进行加权求和得到一目标损失值，并基于该目标损失值调整蒸馏模型的模型参数，以使音素识别模型收敛，得到训练后的音素识别模型。

步骤S250：利用训练后的蒸馏模型对待识别音频进行特征提取，得到待识别音频的音频特征。

在对待识别音频进行特征提取时，可以仅采用一个特征提取步骤方式进行提取，如采用卷积层进行特征提取，也可以采用多个特征提取步骤提取的方式，如同时采用预处理、卷积以及特征处理等中的至少两个步骤的特征提取方式进行提取，只要能够准确提取待识别音频的音频特征即可。

在本申请的一种可实施方式中，对待识别音频进行特征提取的步骤包括：

步骤S252：将待识别音频输入至训练后的蒸馏模型包括的语音编码器中，利用语音编码器的浅层特征提取层对待识别音频进行离散量化处理，得到待识别音频包括的多帧语音。

步骤S254：利用语音编码器的深层特征提取层对待识别音频中每帧语音进行特征提取，得到待识别音频中每帧语音对应的音频特征。

其中，上述的浅层特征提取层具体可以是由多层卷积神经网络和量化器构成，其用于对待识别音频进行离散化处理，以得到待识别音频中包括的多帧音频。上述的深层特征提取层，具体可以由多个transformer构成，也可以由CNN构成，用于提取每帧语音对应的音频特征。

请结合参阅图7，当训练后的蒸馏模型包括wav2vec 2.0模型时，则上述的提取过程包括：将待识别音频输入至训练后的蒸馏模型包括的语音编码器中，利用语音编码器的多层卷积神经网络和量化器对待识别音频进行离散量化处理，得到待识别音频包括的多帧语音。利用语音编码器的多个transformer依次对每帧语音进行特征提取，得到每帧语音对应的音频特征。

步骤S260：利用训练后的蒸馏模型基于目标声纹特征对音频特征进行去噪处理，得到待识别音频的语音声学特征。

其中，关于基于目标声纹对音频特征进行去噪的过程可以参阅前文对步骤S124的多种去噪方式的具体描述。

结合参阅图7，为了提升在多用户的音频中对某一用户的音频进行音素识别的准确性，在一种可实施方式中，上述利用目标声纹对音频特征进行去噪处理的方式具体可以包括：

步骤S262：将目标声纹特征与音频特征进行拼接，得到拼接后的特征。

步骤S264：对拼接后的特征进行非线性变化处理，得到待识别音频的掩码表示特征。

步骤S266：将待识别音频的掩码表示特征与音频特征相乘，得到待识别音频的语音声学特征。

需要说明的是，图7中方括号中的内容具体是指用特征向量的方式表示待识别音频的音频特征、目标声纹特征、拼接后的特征以及掩码表示特征，且仅为示意性的。

关于步骤S262-S266的具体说明可以参阅前文对步骤S122-126的具体描述，此处不作一一赘述。

其中，上述对拼接后的特征进行非线性变化处理的方式可以是，对拼接后的特征利用非线性变化处理的计算式进行非线性变化处理，也可以是利用训练后的音素识别模型中的激活函数对拼接后的特征进行非线性变化处理。

示例性的，若利用激活函数进行非线性变化处理，则所采用的激活函数可以是Sigmoid函数、Tanh函数或者ReLU函数等。在本实施例不作具体限定。

通过将待识别音频的掩码表示特征与音频特征相乘，得到待识别音频的语音声学特征可以实现在模型框架中显式学习目标说话人的掩码表示，以屏蔽其他说话人的影响，也即获得的待识别音频的语音声学特征仅包括目标声纹对应的目标用户的音频特征。

步骤S270：利用训练后的蒸馏模型对语音声学特征进行音素识别，得到语音声学特征对应的音素识别结果。

上述步骤S270具体可以是，利用训练后的蒸馏模型中输出层的分类器或者分类函数对语音声学特征进行分类计算，得到语音声学特征为每个音素的概率。以及根据声学特征为每个音素的概率得到声学特征对应的音素识别结果。具体的，可以将声学特征对应的概率为最大的音素作为声学特征对应的音素识别结果。

其中，关于蒸馏模型中输出层的分类器或者分类函数可以参照前文对步骤S126的具体描述，在本申请实施例不作具体赘述。

通过采用本申请的上述方法，可以实现利用单人说话的第一样本音频和多人说话的第二样本音频来训练音素识别模型中的基础模型和蒸馏模型，使得后续在利用训练后的音素识别模型中对待识别音频进行识别时，可以仅在线上部署使用蒸馏模型来识别单人说话时的音频对应的音素，也可以实现识别多人说话时一个或多个说话对应的音频的音素(如目标声纹所属目标用户对应的音频的音素)，由于蒸馏模型的模型的数据维度低，因此其结构相对简单，从而可以有效降低线上部署时占用的内存空间，同时还可以有效提升模型效率。此外，后续在利用训练后的音素识别模型可以基于目标声纹特征从多个说话人音频中准确识别出目标声纹所属目标说话人对应的音素识别结果，避免除目标说话人以外的其他人的语音干扰，进而有效提高有音素识别结果的准确性。

请参阅图8-图11，本申请实施例提供了一种音素识别方法，该方法可以应用于设置有可以采用语音的方式进行设备控制的设备控制客户端的电子设备和部署有音素识别模型的服务器中，也可以应用于嘈杂环境下的可以执行语音输入或语音交互的即时通信客户端、内容交互客户端、即时通信客户端、教育客户端、社交网络客户端、购物客户端或者音视频播放客户端等中的一种或多种的电子设备和部署有音素识别模型的服务器中，应当理解，上述的音素识别方法还可以应用于车联网系统中以使车载终端可以采用语音输入或语音交互方式控制或使用车载终端中安装的客户端。示例性地，以在设备控制客户端中使用上述的音素识别方法为例，该方法具体包括：

服务器获取噪音强度低于第一预设值的环境下单用户发音的音频作为第一样本音频，获取多用户发音的音频作为第二样本音频。

在获取到第一样本音频和第二样本音频之后，服务器可以基于第一样本音频训练知识蒸馏模型中的基础模型。其中，在对基础模型进行训练时，对于每个第一样本音频，可以利用wav2vec 2.0模型的浅层特征提取层(卷积层)将该第一样本音频进行离散化处理，得到该第一样本音频包括的多个第一样本音频帧，之后，利用wav2vec 2.0模型的森曾特征提取层(Transformer层)对各第一样本音频帧分别进行特征提取，得到每个第一样本音频帧的特征，之后，利用wav2vec 2.0模型的输出层中的softmax分类函数对各第一样本音频帧的特征进行音素识别分类，得到各第一样本音频帧对应的音素识别结果，基于该结果即可以得到对第一样本音频进行音素识别结果为正确的概率，从而可以根据各第一样本音频识别结果为正确的概率得到基础模型训练过程中的第一损失值。

服务器还可以基于第二样本音频训练知识蒸馏模型中的蒸馏模型。具体的在对蒸馏模型进行训练时，首先可以对于每个第二样本音频，可以利用wav2vec2.0模型的浅层特征提取层(卷积层)将该第二样本音频进行离散化处理，得到该第二样本音频包括的多个第二样本音频帧，之后，利用wav2vec 2.0模型的深层特征提取层(Transformer层)对各第二样本音频帧分别进行特征提取，得到每个第二样本音频帧的特征。然后，将该第二样本音频的标签中的声纹特征与每帧样本音频的特征进行拼接，得到每帧样本音频拼接后的样本特征，对每帧样本音频拼接后的样本特征进行非线性变化处理得到该第二样本音频中每帧样本音频的掩码表示特征，针对每帧样本音频，将该帧样本音频的音频特征与其掩码表示特征相乘，得到该帧样本音频的语音声学特征，再之后，将第二样本音频的每帧样本音频的语音声学特征表示进行全连接网络变化处理后利用wav2vec 2.0模型的输出层中的softmax分类函数进行分类，得到第二样本音频中每帧样本音频对应的音素识别结果。最终，可以基于第二样本音频中每帧样本音频对应的音素识别结果和音素标签，即可获得蒸馏模型的模型损失，也即获得蒸馏模型在训练过程中的第二损失。

服务器在获得基础模型训练过程中的第一损失以及蒸馏模型训练过程中的第二损失值之后，可以对第一损失值和第二损失值进行加权求和得到目标损失值，基于目标损失值分别调整基础模型和蒸馏模型的模型参数，以使音素识别模型收敛，得到训练后的音素识别模型。

其中，知识蒸馏模型中的基础模型的数据维度高于蒸馏模型的数据维度。且基础模型和蒸馏模型分别包括wav2vec 2.0模型。

应当理解，在获得训练后的音素识别模型之后，可以利用上述的音素识别实现基于音素识别方法的设备控制、语音方式输入文字以及语音搜索等。

具体的，若要实现用户采用语音的方式进行设备控制的设备控制客户端执行语音控制，如利用语音打开电视、打开窗帘、启动扫地机器人等设备控制操作，则在利用音素识别模型实现语音控制时具体可以将上述训练后的音素识别模型中的蒸馏模型进行上线部署，也即部署于服务器中，并利用电子设备中的客户端执行如下步骤以实现对设备控制操作。其中，电子设备的客户端具体执行的步骤如下：

响应于用户的声纹采集操作，生成用于提醒目标用户在噪音强度低于第二预设值的噪音环境下录制语音的提示界面。响应于目标用户对触控提示界面中的控件的触控操作开始录音得到目标用户的音频。将目标用户的音频发送至服务器，以使服务器利用其部署的声纹识别模型对目标用户的音频进行声纹特征识别，得到目标声纹特征。

具体的，请再次参阅图3和图8，录制语音的提示界面中包括一提示目标用户录入语音的控件，该控件中显示有“采集干净录音”的提示信息，以提示目标用户在噪音强度低于第二预设值的噪音环境下通过客户端录制音频，客户端可以将该目标用户的ID和对应的音频发送至服务器，以使服务器利用声纹识别模型对该目标用户的音频进行识别，得到该目标用户的声纹特征并将该声纹特征与对应的ID进行关联存储。

上述的声纹识别模型可以设置于知识蒸馏模型内，也即训练后的音素识别模型中包括基础模型、蒸馏模型以及声纹识别模型。该声纹识别模型识别到的目标声纹特征可以作为蒸馏模型的输入。

当目标用户需要通过设备控制客户端执行语音控制(如，打开电视)时，目标用户可以通过设备控制端录入待识别音频并发送至服务器。

具体的录制过程可以是：目标用户可以开启设备控制客户端，其中，设备控制客户端在启动后，可以展示如图9所示的显示界面，该显示界面中具有提示用户录制语音的第一控件12，如设置有“开始录音”这一提示信息的第一控件12，用户可以触控该第一控件12，以使电子设备开始录制语音，其中，用户在触控第一控件12后，设备控制客户端可以跳转显示如图10所示的电子设备正在录入语音的界面，该界面中具有第二控件13，且该第二控件13中具有提示电子设备正在录音的提示信息，如设置有“录音中”这一提示信息，当用户的语音信息录制完成后，用户可以触控第二控件13以使电子设备停止录音，从而完成待识别音频的录制，并在完成对待识别音频的录制之后，将待识别音频发送至服务器。

应当理解，用户在录制待识别音频的过程中，可能处于安静的环境下，也可能处于多说话人的环境下或者噪音环境下，为实现对待识别音频进行准确地音素识别，从而基于音素识别结果进行设备控制，服务器利用音素识别模型中的蒸馏模型对待识别音频进行音素识别过程如下：

服务器在接收到待识别音频后，将待识别音频输入至训练后的蒸馏模型包括的语音编码器中，利用语音编码器的浅层特征提取层对待识别音频进行离散量化处理，得到待识别音频包括的多帧语音。利用语音编码器的深层特征提取层对待识别音频中每帧语音进行特征提取，得到待识别音频中每帧语音对应的音频特征，将目标声纹特征与音频特征进行拼接，得到拼接后的特征。利用训练后的音素识别模型中的激活函数对拼接后的特征进行非线性变化处理，得到待识别音频的掩码表示特征。将待识别音频的掩码表示特征与音频特征相乘，得到待识别音频的语音声学特征。利用训练后的蒸馏模型的输出层中分类函数计算语音声学特征为每个音素的概率。基于声学特征为每个音素的概率，确定声学特征对应的音素识别结果。

应当理解，服务器在得到待识别音频对应的音素识别结果时，会向电子设备中的设备控制客户端返回相应的音素识别结果，并在设备控制客户端的显示界面中显示对待识别音频进行音素识别得到的音素识别结果。

示例性地，当待识别音频中包括多个用户的音频，且该多个用户的音频中包括目标声纹所属目标用户发出的“打开电视”的音频时，通过利用蒸馏模型基于目标声纹对待识别音频进行识别得到的音素识别结果应当包括“da kai dian shi”的音素。相应的，可以根据上述的音素得到语音识别结果为“打开电视”，也即设备控制客户端的显示界面中可以显示包括音素识别结果和语音识别结果的界面，也即显示如图11中包括“da kai dian shi(打开电视)”的音素识别结果。

在利用音素识别模型中的蒸馏模型对待识别音频获得音素识别结果，以及基于音素识别结果得到对应的语音信息之后，可以检测该语音信息中是否对应有控制命令，并在检测到语音信息对应有控制命令时，基于该语音信息对应的控制命令控制相应的设备执行该控制命令。

例如，上述获得的语音信息为“打开电视”其对应的控制命令为开启电视，则可以控制设备控制客户端关联的电视机开启。

应当理解，上述的音素识别模型的应用场景仅为示意性的，还可以有更多的应用场景，例如即时通信客户端在多用户说话的情况下目标用户进行语音录入文字的场景，又例如内容交互客户端、教育客户端、社交网络客户端、购物客户端或者音视频播放客户端在多用户说话的情况下目标用户采用语音录入文字进行内容搜索、教育信息搜索、社交内容搜索、物品搜索以及音视频搜索等的场景。

以即时通信客户端在多用户说话的情况下目标用户进行语音录入文字的场景为例，若采用现有的通过即时通信客户端中采用语音的方式录入文字操作中，在多用户场景下，则无法准确录入目标用户的语音对应的文字信息，通过采用本申请的音素识别方法，也可以实现在多说话人场景下，准确地实现将目标用户的语音录入成文字信息。

以本方案采用公开的TIMIT数据集，进行验证模型效果的验证为例进行说明。其中，TIMIT数据集中包括海量的音频，且这些音频是在噪音强度低于第一预设阈值时采集的单用户发音的音频。首先基于该数据集，进行多用户发音的音频的数据构造。首先随机选择单用户发音的音频，将其裁剪成一样大小的音频，进行音频叠加，构造多用户发音的音频，将单用户发音的音频和多用户发音的音频分别划分为训练和测试。同时，采集一批1000条真实多用户发音的音频，验证模型效果有效性。将本申请所采用的音素识别模型(ProposedASR)与两个基础模型进行对比，两个基础模型中，一个是完全基于在噪音强度第一预设阈值时单用户发音的音频作为第一样本音频训练得到的音素识别模型(clean ASR)，第二个基于多用户发音的音频训练的音素识别模型(Noisy ASR)，对比在构造的噪声音频上，在干净的音频上以及真实采集的所说话人的噪声音频上的表现(识别结果存在错误的百分比)。对比结果如下：

如上表所示，为不同模型在不同数据集上的表现，可以看到本申请提出的音素识别模型在不同场景下音素识别错误率均趋于最低，且表现最好。因此，通过采用申请的音素识别模型，可以在不同数量的用户说话的场景下均能确保音素识别的准确性。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

图12是根据一实施例示出的音素识别装置300，如图12所示，该音素识别装置300包括：第一获取模块310和音素识别模块320。

第一获取模块310，用于获取目标声纹特征及待识别音频；音素识别模块320，用于将待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，第一样本音频为单用户发音的音频，第二样本音频为多用户发音的音频，音素识别模块320包括：特征提取子模块322、去噪处理子模块324以及音素识别子模块326。特征提取子模块322，用于对待识别音频进行特征提取，得到待识别音频的音频特征；去噪处理子模块324，用于基于目标声纹特征对音频特征进行去噪处理，得到待识别音频的语音声学特征；音素识别子模块326，用于对语音声学特征进行音素识别，得到语音声学特征对应的音素识别结果。

请结合参阅图13，音素识别模型包括基础模型和蒸馏模型，基础模型的数据维度高于蒸馏模型的数据维度，装置300还包括第二获取模块330、损失获得模块340以及模型训练模块350。第二获取模块330，用于获取第一样本音频和第二样本音频；损失获得模块340，用于基于第一样本音频训练基础模型，获得基础模型训练过程中的第一损失值，基于第二样本音频训练蒸馏模型，获得蒸馏模型训练过程中的第二损失值；模型训练模块350，用于基于第一损失值和第二损失值分别调整基础模型的模型参数和蒸馏模型的模型参数，得到训练后的音素识别模型。

在一种可实施方式中，模型训练模块320包括：损失计算子模块和模型训练子模块，损失计算子模块，用于对第一损失值和第二损失值进行加权求和得到目标损失值；模型训练子模块，用于基于目标损失值分别调整基础模型和蒸馏模型的模型参数，以使音素识别模型收敛，得到训练后的音素识别模型。

在一种可实施方式中，第二获取模块330，还用于获取在噪音强度低于第一预设值的环境下单用户发音的音频，作为第一样本音频。

在一种可实施方式中，特征提取子模块322，还用于将待识别音频输入至训练后的蒸馏模型包括的语音编码器中，利用语音编码器的浅层特征提取层对待识别音频进行离散量化处理，得到待识别音频包括的多帧语音；利用语音编码器的深层特征提取层对待识别音频中每帧语音进行特征提取，得到待识别音频中每帧语音对应的音频特征。

在一种可实施方式中，去噪处理子模块324包括特征拼接单元、非线性变化处理单元以及去噪处理单元。特征拼接单元，用于将目标声纹特征与音频特征进行拼接，得到拼接后的特征；非线性变化处理单元，用于对拼接后的特征进行非线性变化处理，得到待识别音频的掩码表示特征；去噪处理单元，用于将待识别音频的掩码表示特征与音频特征相乘，得到待识别音频的语音声学特征。

在该种实施方式下，非线性变化处理单元，还用于利用训练后的音素识别模型中的激活函数对拼接后的特征进行非线性变化处理，得到待识别音频的掩码表示特征。

在一种可实施方式中，音素识别子模块326，还用于利用训练后的蒸馏模型的输出层中分类函数计算语音声学特征为每个音素的概率；基于声学特征为每个音素的概率，确定声学特征对应的音素识别结果。

下面将结合图14对本申请提供的一种电子设备进行说明。

请参阅图14，基于上述实施例提供的音素识别模型训练方法，本申请实施例还提供的另一种包括可以执行前述方法的处理器102的电子设备100，该电子设备100可以为服务器或终端设备，终端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。

电子设备100还包括存储器104。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(DigitalSignal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(GraphicsProcessing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所获取的数据(如，第一样本音频、第二样本音频以及目标声纹特征)等。

电子设备100还可以包括网络模块以及屏幕，网络模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。网络模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互，如显示对待识别音频的音素识别结果，以及通过屏幕录入音频等。

在一些实施例中，电子设备100还可以包括有：外设接口106和至少一个外围设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外设接口连接。具体地，外围设备包括：射频组件108、定位组件112、摄像头114、音频组件116、显示屏118以及电源122等中的至少一种

外设接口106可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器102和存储器104。在一些实施例中，处理器102、存储器104和外设接口106被集成在同一芯片或电路板上；在一些其他实施例中，处理器102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

射频组件108用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射频组件108将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频组件108包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频组件108还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

定位组件112用于定位电子设备的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件112可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、北斗系统或伽利略系统的定位组件。

摄像头114用于采集图像或视频。可选地，摄像头114包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备100的前面板，后置摄像头设置在电子设备100的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头114还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器102进行处理，或者输入至射频组件108以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频组件114还可以包括耳机插孔。

显示屏118用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时，显示屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器102进行处理。此时，显示屏118还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏118可以为一个，设置电子设备100的前面板；在另一些实施例中，显示屏118可以为至少两个，分别设置在电子设备100的不同表面或呈折叠设计；在又一些实施例中，显示屏118可以是柔性显示屏，设置在电子设备100的弯曲表面上或折叠面上。甚至，显示屏118还可以设置成非矩形的不规则图形，也即异形屏。显示屏118可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，机发光二极管)等材质制备。

电源122用于为电子设备100中的各个组件进行供电。电源122可以是交流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本申请实施例还提供一种计算机可读存储介质的结构框图。该计算机可读介质中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中描述的方法。

综上，本申请提供的一种音素识别方法、装置、电子设备及存储介质，在音素识别模型训练阶段，利用单个用户的音频(第一样本音频)和多个用户的音频(第二样本音频)训练音素识别模型中的基础模型和蒸馏模型，使得后续在利用训练后的音素识别模型中对待识别音频进行识别时，可以仅在线上部署使用蒸馏模型来识别单人说话时的音频对应的音素，也可以实现识别多人说话时一个或多个说话人对应的音频的音素(如目标声纹所属目标用户对应的音频的音素)，由于蒸馏模型的模型的数据维度低，因此其结构相对简单，从而可以有效降低线上部署时占用的内存空间，同时还可以有效提升模型效率。此外，后续在利用训练后的音素识别模型可以基于目标声纹特征从多个说话人音频中准确识别出目标声纹所属目标说话人对应的音素识别结果，避免除目标说话人以外的其他人的语音干扰，进而有效提高有音素识别结果的准确性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音素识别方法，其特征在于，所述方法包括：

获取目标声纹特征及待识别音频；

将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，所述第一样本音频为单用户发音的音频，所述第二样本音频为多用户发音的音频，所述进行音素识别的过程包括：

对所述待识别音频进行特征提取，得到所述待识别音频的音频特征；

基于目标声纹特征对所述音频特征进行去噪处理，得到所述待识别音频的语音声学特征；

对所述语音声学特征进行音素识别，得到所述语音声学特征对应的音素识别结果。

2.根据权利要求1所述的方法，其特征在于，所述音素识别模型包括基础模型和蒸馏模型，所述基础模型的数据维度高于所述蒸馏模型的数据维度，所述将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果之前，所述方法还包括：

获取第一样本音频和第二样本音频；

基于所述第一样本音频训练所述基础模型，获得所述基础模型训练过程中的第一损失值，基于所述第二样本音频训练所述蒸馏模型，获得所述蒸馏模型训练过程中的第二损失值；

基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数，得到训练后的音素识别模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数，得到训练后的音素识别模型，包括：

对所述第一损失值和所述第二损失值进行加权求和得到目标损失值；

基于所述目标损失值分别调整所述基础模型和所述蒸馏模型的模型参数，以使所述音素识别模型收敛，得到训练后的音素识别模型。

4.根据权利要求2所述的方法，其特征在于，所述获取第一样本音频，包括：

获取在噪音强度低于第一预设值的环境下单用户发音的音频，作为所述第一样本音频。

5.根据权利要求2所述的方法，其特征在于，所述对所述待识别音频进行特征提取，得到所述待识别音频的音频特征，包括：

将所述待识别音频输入至训练后的蒸馏模型包括的语音编码器中，利用所述语音编码器的浅层特征提取层对所述待识别音频进行离散量化处理，得到待识别音频包括的多帧语音；

利用所述语音编码器的深层特征提取层对所述待识别音频中每帧语音进行特征提取，得到所述待识别音频中每帧语音对应的音频特征。

6.根据权利要求2所述的方法，其特征在于，所述对所述语音声学特征进行音素识别，得到所述语音声学特征对应的音素识别结果，包括：

利用训练后的蒸馏模型的输出层中分类函数计算所述语音声学特征为每个音素的概率；

基于所述声学特征为每个音素的概率，确定所述声学特征对应的音素识别结果。

7.根据权利要求1所述的方法，其特征在于，所述基于目标声纹特征对所述音频特征进行去噪处理，得到所述待识别音频的语音声学特征，包括：

将所述目标声纹特征与所述音频特征进行拼接，得到拼接后的特征；

对拼接后的特征进行非线性变化处理，得到所述待识别音频的掩码表示特征；

将所述待识别音频的掩码表示特征与所述音频特征相乘，得到所述待识别音频的语音声学特征。

8.根据权利要求7所述的方法，其特征在于，所述对拼接后的特征进行非线性变化处理，得到所述待识别音频的掩码表示特征，包括：

利用训练后的音素识别模型中的激活函数对所述拼接后的特征进行非线性变化处理，得到所述待识别音频的掩码表示特征。

9.根据权利要求1所述的方法，其特征在于，所述获取目标声纹特征包括：

获取在噪音强度低于第二预设值时目标用户的音频；

对所述目标用户的音频进行声纹特征识别，得到目标声纹特征。

10.一种音素识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标声纹特征及待识别音频；

音素识别模块，用于将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，所述第一样本音频为单用户发音的音频，所述第二样本音频为多用户发音的音频，所述音素识别模块包括：

特征提取子模块，用于对所述待识别音频进行特征提取，得到所述待识别音频的音频特征；

去噪处理子模块，用于基于目标声纹特征对所述音频特征进行去噪处理，得到所述待识别音频的语音声学特征；

音素识别子模块，用于对所述语音声学特征进行音素识别，得到所述语音声学特征对应的音素识别结果。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-9中任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9中任意一项所述的方法。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-9中任意一项所述方法的步骤。