CN114120979A

CN114120979A - 语音识别模型的优化方法、训练方法、设备及介质

Info

Publication number: CN114120979A
Application number: CN202210084139.3A
Authority: CN
Inventors: 高欢; 王志超
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-03-01

Abstract

本申请涉及电子设备技术领域，具体涉及一种语音识别模型的优化方法、训练方法、设备及介质。其中该方法包括：获取在电子设备的使用过程中，接收用户语音所产生的、对应于同一期望语音指令且满足预设条件的M个历史语音数据；基于M个历史语音数据、以及各历史语音数据对应的期望语音指令，对语音识别模型进行优化；其中M为大于2的整数。该方法在用户使用电子设备的过程中，采用用户发出的、符合预设条件的历史语音数据，对电子设备上的语音识别模型进行优化，以提高电子设备中的语音识别模型对用户的语音的识别准确率。

Description

语音识别模型的优化方法、训练方法、设备及介质

技术领域

本申请涉及电子设备技术领域，具体涉及一种语音识别模型的优化方法、训练方法、设备及介质。

背景技术

随着信息和通信技术的发展，越来越多的电子设备能够与用户通过自然语言进行交互，为用户提供了便捷优质的交互体验。用户与电子设备进行人机交互时，可以通过唤醒词唤醒休眠的电子设备，或通过命令词协助用户执行一些生活上的任务，例如帮忙叫车、切换播放的歌曲等等。通常情况下，智能终端获取到用户的语音数据后，需要通过唤醒模型或命令模型判断语音数据中是否包括唤醒词或命令词。

目前，唤醒模型和命令模型往往通过通用语音数据集合进行训练，例如通用语音数据集合包括日常对话、广播等对应的语音数据。但是在实际应用过程中，用户发出的带有个人特色的语音很可能与通用语音数据中的语音存在差异。例如用户说话的快慢、用户的声调、用户的口音等，会使得用户发出的带有命令词或者唤醒词的语音与通用语音数据中的语音不同，进而使得在用户发出语音唤醒电子设备或命令电子设备执行任务时，电子设备无法快速、准确地识别出其中的唤醒词或者命令词。

发明内容

本申请实施例提供了一种语音识别模型的优化方法、训练方法、设备及介质，提高了电子设备中的唤醒模型和命令模型对用户的唤醒语音和命令语音的识别准确率。

第一方面，本申请实施例提供了一种语音识别模型的优化方法，应用于电子设备，包括：获取在电子设备的使用过程中，接收用户语音所产生的、对应于同一期望语音指令且满足预设条件的M个历史语音数据；基于M个历史语音数据、以及各历史语音数据对应的期望语音指令，对语音识别模型进行优化；其中M为大于2的整数。

可以理解，其中的语音识别模型为通过服务器进行训练后，服务器发送到电子设备的模型，例如下文中的唤醒模型1和命令模型1。

可以理解，同一期望语音指令表示历史语音数据经过语音识别模型后，手机基于语音识别模型的输出结果，会执行相同的指令。例如，历史语音数据“播放下一首”和“请切换至下一首歌曲”，均表示电子设备需要找到下一首需要播放的歌曲并进行播放，则历史语音数据“播放下一首”和“请切换至下一首歌曲”对应同一期望语音指令“播放下一首歌曲”。

可以理解，历史语音数据即为唤醒模型和命令模型优化阶段采集的符合模型优化条件的用户语音数据。

可以理解，电子设备可以是终端设备，即上述优化方法是在终端设备的使用过程中，通过采集终端设备用户的语音，对终端设备上的语音识别模型进行优化，如此本申请实施例中的语音识别模型的优化方法，在用户使用终端设备的过程中，采用用户发出的、符合预设条件的历史语音数据，对终端设备上的语音识别模型进行优化，可以得到符合用户个人语音特色的语音识别模型，提高了终端设备中的语音识别模型对用户的语音的识别准确率。

在上述第一方面的一种可能的实现方式中，预设条件与：历史语音数据输入语音识别模型后得到的输出结果和历史语音数据的数量M相关。

在上述第一方面的一种可能的实现方式中，所述语音识别模型包括声学模型，并且预设条件包括：历史语音数据输入声学模型后，声学模型输出的概率值或概率得分大于优化输出阈值；并且M大于预设数量阈值。

可以理解，在一些实施例中，历史语音数据可以满足上述预设条件中的一条，即历史语音数据输入声学模型后，声学模型输出的概率值或概率得分大于优化输出阈值，或者仅满足M大于预设数量阈值。在一些实施例中，历史语音数据可以满足上述预设条件中的两条，即历史语音数据输入声学模型后，声学模型输出的概率值或概率得分大于优化输出阈值，且M大于预设数量阈值。

在上述第一方面的一种可能的实现方式中，期望语音指令包括唤醒指令，并且语音识别模型包括唤醒模型。

可以理解，其中的唤醒模型为唤醒模型和命令模型优化阶段的唤醒模型2。其中的唤醒指令为，电子设备基于唤醒词数据执行的指令。

在上述第一方面的一种可能的实现方式中，期望语音指令包括命令指令，并且语音识别模型包括命令模型。

可以理解，其中的命令模型为唤醒模型和命令模型优化阶段的命令模型2。其中的命令指令为，电子设备基于命令词数据执行的指令。

在上述第一方面的一种可能的实现方式中，命令模型包括对应多个场景的多个命令子模型；并且基于M个历史语音数据、以及各历史语音数据对应的期望语音指令，对语音识别模型进行优化，包括：确定历史语音数据对应的场景；将历史语音数据输入对应的场景的命令子模型，并将命令子模型的输出与期望语音指令进行比对；根据比对的结果对命令子模型的模型参数进行调整。

可以理解，多个命令子模型即为，对应不同命令场景，均有一个语音识别模型与之对应，例如对应于视频播放场景的视频场景模型，对应于音乐播放场景的音乐场景模型等。

可以理解，在一些实施例中，将命令子模型的输出与期望语音指令进行比对，可以通过计算唤醒子模型的输出与期望语音指令之间的损失函数值得到。

在上述第一方面的一种可能的实现方式中，多个场景包括视频播放场景、音乐播放场景、驾驶场景、以及来电场景。

可以理解，在一些实施例中，多个场景除了上述场景外，还可以包括其他场景，例如运动场景、工作场景等，上述场景可以作为本申请实施例中的一种举例，本申请对此不作限制。

在上述第一方面的一种可能的实现方式中，多个命令子模型是通过以下训练方式得到的：获取对应多个场景的多个命令语音数据集；采用多个命令语音数据集，分别对通用语音模型进行训练，得到多个命令子模型。

可以理解，通用语音模型为电子设备通过通用语音数据集合训练得到的模型，即下文中的初始语音模型。

可以理解，在终端设备上的语音识别模型包括不同场景的子模型，进而，在用户使用终端设备阶段，对基于历史语音数据对语音识别模型进行优化时，仅需要对对应场景的子模型进行优化，减少的优化算法的优化时间，提高优化速度。

在上述第一方面的一种可能的实现方式中，上述方法还包括：基于优化后的语音识别模型对用户当前输入的语音进行语音识别。

在上述第一方面的一种可能的实现方式中，语音识别模型包括第一声学模型。

第二方面，本申请实施例提供了一种语音识别模型的训练方法，应用于电子设备，语音识别模型包括多个场景子模型；上述方法包括：获取样本语音数据集，其中，所述样本语音数据集包括多个场景下的样本语音数据；采用与各场景子模型的场景对应的样本语音数据对所述各场景子模型进行训练。

其中，样本语音数据集即下文中的场景语音数据集合，对应的，多个场景子模型，即为唤醒模型和命令模型训练阶段参与训练的多个初始语音模型。

可以理解，电子设备可以是服务器，即上述训练方法是语音识别模型在移植到终端设备之前进行训练，如此在终端设备使用前进行训练，可以训练出适用同种终端设备的语音识别模型。此外，语音识别模型包括多个场景下的场景子模型，可以减少模型训练的数据量，缩短模型训练时间，提高模型训练速度。

在上述第二方面的一种可能的实现方式中，样本语音数据集包括唤醒场景下的唤醒样本语音数据，并且多个场景子模型包括唤醒子模型；并且采用与各场景子模型的场景对应的样本语音数据对各场景子模型进行训练，包括：采用唤醒场景下的唤醒样本语音数据对唤醒子模型进行训练。

可以理解，唤醒子模型为唤醒模型和命令模型训练阶段训练得到的唤醒模型1。

在上述第二方面的一种可能的实现方式中，样本语音数据集包括多个场景下的命令样本语音数据，多个场景子模型包括多个命令场景子模型；并且采用与各场景子模型的场景对应的样本语音数据对各场景子模型进行训练，包括：采用与命令场景子模型对应的命令样本语音数据对命令场景子模型进行训练。

可以理解，命令场景子模型为唤醒模型和命令模型训练阶段训练得到的命令模型1。其中，多个命令场景子模型可例如视频场景模型11、音乐场景模型12、驾驶场景模型13和来电场景模型14等。

上述第二方面的一种可能的实现方式中，场景子模型包括声学模型部分、对齐模型部分和语言模型部分。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；一个或多个存储器；一个或多个存储器存储有一个或多个程序，当一个或者多个程序被一个或多个处理器执行时，使得电子设备执行上述语音识别模型的优化方法或上述语音识别模型的训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储介质上存储有指令，指令在计算机上执行时使计算机执行上述语音识别模型的优化方法或上述语音识别模型的训练方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述语音识别模型的优化方法或上述语音识别模型的训练方法。

附图说明

图1所示为根据本申请的一些实施例，示例性地示出了一种语音识别方法的流程示意图；

图2所示为根据本申请的一些实施例，示例性地示出了一种语音识别模型的训练、优化方法的应用场景图；

图3a所示为根据本申请的一些实施例，示例性地示出了一种语音识别模型的训练、优化方法的流程图；

图3b所示为根据本申请的一些实施例，示例性地示出了一种唤醒模型和命令模型训练阶段的命令模型的模块示意图；

图3c所示为根据本申请的一些实施例，示例性地示出了一种唤醒模型和命令模型优化阶段的命令模型的模块示意图；

图4所示为根据本申请的一些实施例，示例性地示出了一种初始语音模型训练阶段的流程示意图；

图5所示为根据本申请的一些实施例，示例性地示出了一种唤醒模型和命令模型训练阶段的流程示意图；

图6a所示为根据本申请的一些实施例，示例性地示出了一种唤醒模型和命令模型优化阶段的流程示意图；

图6b所示为根据本申请的一些实施例，示例性地示出了一种唤醒模型和命令模型优化阶段的流程示意图；

图7所示为根据本申请的一些实施例，示例性地示出了一种电子设备的硬件结构示意图；

图8所示为根据本申请的一些实施例，示例性地示出了一种服务器的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

为了解决上文提到的电子设备的唤醒模型和命令模型无法快速、准确地识别用户语音的问题，本申请公开了一种语音识别模型的训练、优化方法。具体地，在本申请实施例公开的语音识别模型的训练、优化方法中，先采用通用语音数据集合对语音模型进行训练，得到初始语音模型，然后采用后续要使用该语音模型的电子设备的各使用场景下，包括用户可能用到的各唤醒词的场景语音数据集合，对初始语音模型进行训练，训练出唤醒模型，同时采用各终端的使用场景下，包括用户可能用到的各命令词的场景语音数据集合训练出命令模型。随后，将唤醒模型和命令模型移植到电子设备中，在用户使用电子设备的过程中，采用用户发出的、符合模型优化条件的唤醒语音数据和命令语音数据，对电子设备上的唤醒模型和命令模型分别进行优化，以提高电子设备中的唤醒模型和命令模型对用户的唤醒语音和命令语音的识别准确率。

为了便于理解本申请的方案，下面对本申请实施例中涉及的术语、概念等进行介绍。

可以理解，在一些实施例中，在电子设备安装的语音识别应用，如“优优”智慧助手中，均包括唤醒模型和命令模型。在电子设备待机的情况下，电子设备中的唤醒模型可以识别出用户发出的语音中的唤醒词，然后电子设备被唤醒。在电子设备的运行状态下，命令模型用于检测用户发出的语音中所包含的命令词，以便电子设备执行命令词所指示的操作。其中，唤醒模型和命令模型均可以是声学模型。声学模型能够在模型中预设的唤醒词数据和命令词数据中，确定与根据用户发出的语音生成的语音数据匹配的命令词数据或唤醒词数据，计算两者的匹配程度，并当匹配程度达到预设的阈值时，电子设备会执行语音数据对应的任务。可以理解，此处的声学模型为提前训练好的，应用在电子设备的声学模型。

可以理解，电子设备包括但不限于手机（包括折叠屏手机）、平板电脑、膝上型计算机、台式计算机、服务器、可穿戴设备、头戴式显示器、移动电子邮件设备、车机设备、便携式游戏机、便携式音乐播放器、阅读器设备、其中嵌入或耦接有一个或多个处理器的电视机等各类电子设备。为了方便说明，下文以电子设备为手机为例，进行对本申请进行介绍。图1根据本申请一些实施例，示出了一种手机基于声学模型进行语音识别的流程图。

如图1所示，基于声学模型进行语音识别的一种流程包括：

S101：对接收到的用户语音指令进行预处理，并将处理结果输入声学模型。

可以理解，预处理包括首尾端的静音切除、去噪处理、分帧处理、特征提取处理等，进而可以将输入的语音数据处理为声学模型能够识别的数据，即特征向量。其中，首尾端的静音切除，即将语音数据开始段和结束段中不包含用户语音的部分从语音数据中去除。其中，去噪处理是指对语音数据进行滤波处理，将语音数据中噪声部分滤除，便于后续对语音数据的识别与处理。其中，分帧处理即将语音数据划分为多个语音数据片段，每个片段作为一个语音帧，且各个语音帧之间有交叠。可以理解，用户语音指令为时域的信号，特征提取处理包括将各个语音帧由时域的信号变换为频域的频谱信号，语音帧的频谱信号或将语音帧的频谱信号进行处理后即为该语音帧的特征向量，将特征向量作为特征提取结果。例如，用户输入的语音数据为“请播放下一首歌曲”，手机可以分别对语音数据进行首尾端的静音切除、去噪处理、分帧处理、特征提取处理等预处理后，得到语音数据的特征向量，即为特征提取的结果。

其中，特征提取处理可以例如采用梅尔倒频谱系数(Mel-frequency CepstralCoefficients , 简称MFCC)、滤波器组（Filter bank，简称FBank）等方式撷取语音数据的语音特征。在一些实施例中，将首尾端的静音切除、去噪处理、分帧处理后的语音数据，还可以针对需要加重语音讯号的部分进行预强调(Pre-emphasis)、进行加窗(Window)等，以得到更加清晰、明确的语音特征。

S102：声学模型对预处理结果进行音素识别。

具体地， S101中经过特征提取后得到的特征向量可以作为声学模型的输入，声学模型会对接收到的每帧语音帧的特征向量所属的音素进行识别。即，声学模型在接收到特征向量后，会识别特征向量对应的音素。

S103：根据音素识别结果，确定语音数据中包括唤醒语音数据或命令语音数据的概率或概率得分。

其中，确定语音数据中包括唤醒语音数据或命令语音数据的概率，可以理解为在声学模型预设的唤醒词数据和命令词数据中，确定与声学模型的音素识别结果匹配的命令词数据或唤醒词数据，并计算其匹配程度。其中，声学模型中预设的命令词数据为可以触发手机执行对应的操作的命令词，唤醒词数据为可以触发手机进入唤醒状态的唤醒词。其中匹配程度可以表示为概率，也可以根据模型中预设的概率与分值的映射关系，将计算得到的概率进转换为分值的形式，即概率得分。

S104：当概率或概率得分达到预设的阈值时，执行语音数据对应的指令。

可以理解，概率或概率得分达到预设的阈值，表明用户输入的语音数据与手机的声学模型中预设的命令语音数据或唤醒语音数据匹配，则手机会基于判断结果，确定需要执行语音数据对应的指令。例如，唤醒设备或者执行用户语音中的语音指令。

可以理解，在一些实施例中，在将声学模型移植到手机之前，需要采用前述通用语音数据集合和场景语音数据集合对声学模型进行训练。可以理解，为了训练出声学模型，一般还需要采用对齐模型和语言模型对齐进行辅助训练。

其中，对齐模型用于确定语音数据中每个音素对应的语音帧的范围。其中，对于中文来说，音素为拼音中的声母、韵母，对于英文来说，音素为音标中的元音、辅音。此外，可以理解，一般语音数据为连续模拟信号，在对语音数据进行分析和处理时，将语音数据划分为多个语音数据片段，每个片段作为一个语音帧。

例如，假设一条针对“你好优优”的语音数据共100帧，其中“你”包括音素“n”和“i”，“好”包括音素“h”和“ao”， “优”包括音素“y”和“ou”，“你好优优”共包括8个音素，对该语音数据进行对齐标注即是确定“你好优优”100帧语音数据中，每一个音素对应的帧范围，如“你”的音素“n”对应第3-9帧，“你”的音素“i”对应第10-18帧。

可以理解，在训练声学模型的过程中，需要采用对齐模型对语音数据中的音素进行标注，并将音素标注结果作为语音数据的标签输入声学模型中，辅助声学模型的音素识别的训练。

其中，语言模型用于计算输入的文本序列的语言得分，即该文本序列与人类日常语言习惯的匹配程度，或者可以理解为文本序列符合人类说的话的程度。具体地，将语音数据转换得到的文本序列输入语言模型，语言模型会计算该文本序列与人类日常语言习惯的匹配程度。可以理解，语言模型中会包括语法、词法知识。

可以理解，在训练声学模型的过程中，在对语音数据进行音素识别后，结合该音素识别结果对应的文本序列的语言得分，对声学模型的参数进行优化。

图2示出了本申请实施例中的语音识别模型的训练、优化方法应用场景图，图3a示出了本申请实施例中的语音识别模型的训练、优化方法的流程图。

如上图2所示，语音识别模型的训练、优化方法应用场景中包括服务器200和电子设备100。

可以理解，服务器200可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收语音训练数据，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的语言数据处理。

下面结合图2和图3a对本申请实施例中的语音识别模型的训练、优化方法的过程进行介绍。

如图2至3c所示，语音识别模型的训练、优化方发包括以下训练阶段：

1、初始语音模型训练阶段

如图2和3a所示，初始语音模型训练阶段由服务器200完成。初始语音模型训练阶段训练出的语音模型可以实现对通用场景下的语音数据的识别，并且可以判断语音数据对应的文本序列的语言得分，然后可以对初始语音模型训练阶段得到的模型分别进一步进行唤醒词和命令词的训练，得到唤醒模型1和命令模型1。

具体地，服务器200获取到通用语音训练集合，对初始化的语音模型进行训练。其中，初始化的语音模型可例如，程序员可以设置语音模型中的声学模型、语言模型、对齐模型的参数为常用的模型参数，建立出初始化的声学模型、语言模型、对齐模型。当向服务器200中输入通用语音数据集合时，会开始对初始化的声学模型、语言模型、对齐模型进行训练，对模型参数进行优化，使模型适配于输入的通用语音数据集合，得到初始语音模型，初始语音模型包括语言模型1、声学模型1和对齐模型1。

可以理解，通用语音数据集合包括多种场景、多种电子设备使用的语音数据。例如人与人之间的日常对话、影视剧语音数据、人机交互语音数据、广播语音数据等等。

可以理解，常用的模型参数可以为语音模型使用频率最高的参数，或者是随机参数。

可以理解，在获取通用语音数据集合之前，服务器200中已有初始化的声学模型、语言模型、对齐模型，初始语音模型训练阶段即为根据通用语音数据集合对初始化的模型进行参数训练的过程。

图4示出了本申请实施例中，初始语音模型训练阶段的流程图。下面结合图4对本申请实施例中的初始语音模型训练阶段进行进一步介绍。本实施例的应用主体为服务器200，下文将不作赘述。

如图4所示，在一些实施例中，初始语音模型的训练流程包括以下步骤：

S401：获取通用语音数据集合。

可以理解，通用语音数据集合中，可以包括语音数据，以及语音数据对应的文本序列。

其中，语音数据即音频格式的数据，能够被手机100或其他具有播放功能的电子设备播放，音频格式可以例如波形声音文件（WAV）、无损音频压缩编码（Free Lossless AudioCodec，FLAC）、动态影像专家压缩标准音频层面3（Moving Picture Experts Group AudioLayer III，MP3）等。

其中，文本序列即对语音数据经过科学取样和加工得到的文本内容。可以理解，文本序列是语音数据在实际使用中真实出现过的语言材料。通过借助计算机分析工具，对文本序列的进行分析处理，可得到语言理论及其应用研究。

S402：利用通用语音数据集合中的语音数据对对齐模型进行训练。

在对对齐模型进行训练时，将通用语音数据集合中的语音数据以及对应的期望输出的词语结果输入对齐模型，通过模型对语音数据进行解码，得到音素序列、音素序列对应的词语结果，以及输出的词语结果与期望输出的词语结果的匹配程度。调整对齐模型的参数，使得输出的音素序列对应的词语结果与期望输出的词语结果的匹配程度达到预设的条件，完成对对齐模型的训练。其中，解码可以理解为对齐模型对语音数据进行音素识别，根据音素识别结果生成最可能的音素序列，由最可能的音素序列可以得到该音素序列对应的词语结果。

具体地，例如，通用语音数据集合包括语音数据“你好”和期望对齐模型能够输出的词语结果“你好”。在对对齐模型进行训练时，可以将语音数据“你好”输入对齐模型，对齐模型对语音数据“你好”进行解码，并将对齐模型的解码结果和期望输出的词语结果进行比较，如果两者之间的匹配程度不满足预设的条件，则调整对齐模型的模型参数，然后再将上述语音数据“你好”或者通用语音数据集中的其他语音数据输入该对齐模型中，并判断对齐模型的解码结果是否与语音数据对应的期望输出结果之间的差异是否满足预设的条件。重复上述过程，直至通用语音数据集合中的语音数据输入对齐模型后，模型输出的解码结果与语音数据对应的期望输出结果之间的差异满足预设的条件，此时，表明对齐模型训练完成。

其中，对齐模型可以例如高斯混合模型-隐马尔可夫模型(Gaussian mixturemodel-Hidden Markov model，GMM- HMM)等。

在一些实施例中，对齐模型为高斯混合模型-隐马尔可夫模型(Gaussian mixturemodel-Hidden Markov model，GMM- HMM)。在上述对齐模型对语音数据和以及对应的文本序列进行对齐后，GMM- HMM模型可以将语音特征对应到的状态，然后基于状态确定对应的音素，根据音素组成文本序列，在此过程中，分别计算语音特征对应到状态、状态对应到音素、音素到输出的音素序列的概率，确定由语音数据得到音素序列的概率。具体地，可以向对齐模型中输入语音数据的语音特征，对齐模型中的GMM模型可以根据语音特征，采用最大期望值算法（Expectation Maximization, EM）进行联合概率密度函数中参数估计，使得对齐模型中的高斯混合模型基于语音数据，得到语音特征的观察概率最大化。HMM模型可以采用鲍姆-韦尔奇（Baum-Welch）算法，基于语音特征，对HMM模型中每个马尔科夫状态之间的跳转概率、马尔科夫链的初始概率、以及每个马尔科夫状态的观察概率分布的参数进行估计。其中状态可以理解为，相同音素在不同语音帧的表示。例如，语音信号“你好”经过计算得到的结果为nnnniiiiii…hhhhhaaaaaooo，则“n”一共有四个状态，分别处于四个语音帧中。

可以理解，由于语音数据的语音特征为连续随机变量，服从高斯混合分布，可以根据高斯混合分布模型得到其概率密度函数。高斯混合模型可以描述出语音数据中多个音素的性质，利用高斯混合模型，可以得到语音数据的语音特征的联合概率密度函数。

可以理解，隐马尔可夫模型能够描述语音数据中不平稳但有规律科学系的空间变量。具体地，隐马尔可夫模型具有顺序排列的马尔可夫状态，使得该模型能够分段的处理每个语音帧的短时平稳的语音特征，并以此来逼近语音数据的全局非平稳的语音特征。其中，马尔科夫链是随机过程中的多个状态，在第n+1刻的状态只与第n刻的状态有关，与第n刻之前的状态无关。随机过程可以理解为一些统计模型，利用这些统计模型可以对自然界的一些事物进行预测和处理。

可以理解，高斯混合模型-隐马尔可夫模型(Gaussian mixture model-HiddenMarkov model，GMM-HMM)中，HMM模型对语音特征的时序信息进行建模，在得到HMM模型的一个状态后，GMM模型对属于该状态的语音特征向量的概率分布进行建模，最终确定由语音数据得到输出的音素序列的概率。

在一些实施例中，音素到期望输出的词语结果的过程，可以采用束搜索（beam-search）算法。可以理解，束搜索（beam-search）算法通过在每个时间步长内，搜索音素识别结果中条件概率最大的多个词语对应的音素序列，作为该时间步长下的多个候选音素序列。最终在最后一个时间步长内，选择多个候选音素序列中条件概率最大的音素序列作为解码结果。

在一些实施例中，可以通过计算对齐模型的解码结果（即音素序列对应的词语结果）与期望输出结果之间的损失值，来确定解码结果与输出结果的匹配程度。在计算得到损失值后，可以判断计算得到的损失值是否满足预设条件。如果不满足预设条件，则调整对齐模型中的模型参数。对齐模型可以基于调整后的模型参数，进行下一次音素对齐以及损失值计算。

在一些实施例中，损失值的计算可以采用维特比算法、前向-后向算法。

其中，维特比算法采用动态规划，在根据音素识别结果得到对应的词语结果的多条路径中，寻找出概率最大的最优路径，其中每条路径对应一个音素序列。

其中，前向后向算法用于计算音素序列的路径数目。具体地，对输出的音素序列进行扩展，例如每个音素之间及语音数据的首尾插入blank字符。进而可以计算扩展后的音素序列与音素序列之间的递归关系，例如可以计算扩展后的音素序列与原始音素序列中每个音素的递归关系。

S403：利用通用语音数据集合中的语音数据对应的文本数据集合，对语言模型进行训练。

在对语言模型进行训练时，需要利用通用语音数据集合对应的文本数据集合中的文本序列，使得语言模型可以确定通用语音数据集中的语音数据对应的文本序列的成句概率，即该文本序列与人类日常语言习惯的匹配程度。

其中语言模型包括n元（n gram）模型，例如一元模型、二元模型、三元模型等。

具体地，在对语言模型进行训练时，将语音数据对应的文本序列与专业文本库一起输入到语言模型中。语言模型采用神经网络模型对文本序列进行分词，依次判断每个n元词组是否存在于专业文本库，并计算存在的条件概率，再根据每个n元词组的条件概率计算文本序列的条件概率，即文本序列的成句概率，作为语言模型的输出结果。如果模型的输出结果满足预设的条件，则再次输入其他语音数据。如果模型的输出结果不满足预设的条件，则根据输出结果对语言模型的模型参数进行调整，并将文本序列或其他语音数据转换的文本序列输入语言模型，基于调整后的模型参数，判断序列的成句概率是否满足预设的条件。重复上述过程，直至通用语音数据集合中的语音数据输入语言模型后，模型输出结果与满足预设的条件，此时，表明语言模型训练完成。

例如，假设为三元模型，对语音数据对应的文本序列为“我今天晚上想吃苹果”，分词结果为“我|今天|晚上|想|吃|苹果”,则“我”、“今天”、“晚上”为一个三元词组。将“我”、“今天”、“晚上”输入三元模型，在专业文本库中查找该三元词组是否存在，并计算其存在的条件概率。继续输入下一个三元词组“想”、“吃”、“苹果”，计算存在的条件概率。根据两个三元词组的存在的条件概率，取其乘积，得到文本序列“我今天晚上想吃苹果”的成句概率并输出。判断输出结果是否满足预设的条件，如果不满足，则调整语言模型的模型参数，并将文本序列“我今天晚上想吃苹果”或其他语音数据的文本序列输入语言模型，基于调整后的模型参数，判断输出结果是否满足预设的条件。重复上述过程，直至通用语音数据集合中的语音数据输入语言模型后，模型输出结果与满足预设的条件，此时，表明语言模型训练完成。

可以理解，n元模型基于马尔科夫假设：第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。在n元模型中估算条件概率时，只需要对当前词组的前 n 个词进行计算。在 n 元模型中，一般采用频率计数的比例来估算 n 元条件概率，一般三元模型使用最为广泛。

可以理解，步骤S402和S403的执行顺序没有先后之分，可以先执行步骤S402，再执行步骤S403，也可以先执行步骤S403，再执行步骤S402，本申请对此不作限制。

S404：利用训练好的对齐模型的输出结果和语言模型的输出结果，对声学模型进行训练。

在对声学模型进行训练时，需要利用通用语音数据集合，使得声学模型可以确定通用语音数据集中的语音数据与对应的文本序列的匹配程度。

由前文所述可知，声学模型在输入语音数据进行训练时，需要对齐模型辅助，进行音素的标注，以及需要语言模型中的语法、词法知识，判断声学模型输出的音素序列是否满足人类语言习惯。

具体地，在进行声学模型的训练的过程中，可以对获取的通用语音数据集合中的语音数据先进行预处理，得到语音数据的语音特征。在得到语音特征后，向声学模型中输入对齐模型输出的音素序列，将对齐模型输出结果中的音素序列作为语音数据的标签。声学模型可以计算声学模型输出的音素序列与输入的标签之间的损失值，同时调用语言模型，计算声学模型输出的音素序列对应的文本序列在语言模型的输出结果。在计算得到的损失值不满足预设的条件、或语言模型的输出结果不满足预设条件时，根据该损失值和语言模型的输出结果优化声学模型的参数。重复上述过程，直至通用语音数据集合中的语音数据输入声学模型后，模型输出结果与输入的标签的损失值和语言模型的输出结果满足预设的条件，此时，表明声学模型训练完成。可以理解，声学模型的输出结果中包括输出的音素序列以及该音素序列对应的概率或概率得分。语言模型的输出结果可以表示语音数据“你好优优”对应的文本序列的与人类日常语言习惯的匹配程度。

进行声学模型的训练例如，语音数据“你好优优”进行预处理，得到对应的语音特征，然后输入到声学模型中。此外，同时将语音数据“你好优优”输入对齐模型，输出音素序列“n”、“i”、“h”、“ao”、“y”、“ou”、“y”、“ou”，并将其输入声学模型中。其中，音素序列“n”、“i”、“h”、“ao”、“y”、“ou”、“y”、“ou”作为对应语音数据的标签输入声学模型。声学模型根据语音特征输出对应的音素序列，并计算输出的音素序列与对应的标签之间的损失值，以及将声学模型输出的音素序列对应的文本序列“你好优优”输入语言模型中，以得到语言模型的输出结果。判断损失值或语言模型的输出结果是否满足预设的条件，并根据判断结果确定是否对声学模型进行调整。然后输入其他语音数据的语音特征、标签，基于声学模型或调整后的声学模型以及对应语言模型的输出结果，再次判断损失值或语言模型的输出结果，是否满足预设的条件。

下面对本申请实施例中的一种举例中的声学模型，对语音数据输入声学模型得到输的音素序列的过程进行进一步介绍。

在一些实施例中，声学模型为深度神经网络模型-隐马尔可夫模型（Deep NeuralNetwork- Hidden Markov model，DNN-HMM）。在上述声学模型对语音数据和文本数据进行对齐后，可以确定DNN模型的目标输出值。向DNN-HMM 模型中的DNN模型输入目标输出值和语音特征，根据模型的输出结果对DNN模型中的权重参数的优化，可以用DNN模型替换GMM模型进行观察概率的计算。

可以理解，DNN模型包括输入层、隐藏层和输出层。其中，输入层依次输入语音数据的多个语音帧的语音特征。在隐藏层包括多层感知机，对前一层输出向量及其权重、与目标输出值的偏差向量等进行函数变换，例如softmax函数、sigmoid函数等，将得到的该感知机的概率分布作为输出向量，并将得到的输出向量输入对应语音帧的下一层感知机。多个语音帧的最后一层感知机的输出向量经过输出层输出，得到多个语音帧的概率分布。

可以理解，DNN-HMM模型中的HMM模型与上述GMM- HMM模型中的HMM模型相同，在此不作赘述。

可以理解，在一些实施例中，DNN模型还可以替换为卷积神经网络（ConvolutionalNeural Networks, CNN）模型、长短期记忆（Long Short-Term Memory, LSTM）模型等。

2、唤醒模型和命令模型训练阶段

继续参考图2至3a所示，唤醒模型和命令模型训练阶段由服务器200完成。此阶段训练出的唤醒模型，在手机100的待机场景下，可以识别出来自不同用户的语音中的唤醒词，进而手机100基于识别出的唤醒词与手机100中预设的唤醒词的匹配程度，确定是否被唤醒。

具体地，以唤醒模型1的训练为例，服务器200获取到唤醒场景的场景语音训练集合，对初始语音模型进行训练，得到唤醒模型1。例如，程序员可以将适用于手机100的唤醒的语音数据划分至唤醒场景。进而，服务器基于唤醒场景对应的场景语音数据集合，对初始语音模型进行定向的优化训练。可以理解，根据唤醒场景的场景语音数据集合训练得到的即为唤醒模型1。其中，唤醒模型1可以包括语言模型2、声学模型2和对齐模型2。

可以理解，命令模型2的训练与唤醒模型类似，其区别仅在与输入的场景语音数据集合不同，在此不作赘述。其中，命令模型2可以包括语言模型3、声学模型3和对齐模型3。

在一些实施例中，根据手机处于的运行状态的不同，命令模型可以包括多个场景子模型，下面结合图3b对多个场景子模型进行介绍。

图3b所示为本申请实施例中的一种命令模型2的模块示意图。

如图3b所示，在一些实施例中，根据手机处于的运行状态的不同，可以划分出视频场景、音乐场景、驾驶场景和来电场景。进而，根据不同场景语音数据集合，对初始语音模型进行训练，得到的命令模型1可以包括多个场景子模型，例如视频场景模型11、音乐场景模型12、驾驶场景模型13和来电场景模型14。

其中，场景语音数据集合中的语音数据对应的语音指令可以如下表1所示：表1

视频场景语音数据集合	音乐场景语音数据集合	驾驶场景语音数据集合	来电场景语音数据集合
				声音大一点	声音大一点	打开导航	接听电话
声音小一点	声音小一点	导航回家	挂断电话
				停止播放	停止播放	停止导航	关闭来电提醒
继续播放	继续播放	退出导航
				暂停播放	播放上一首	导航去
快进	播放下一首
				后退	这是什么歌

可以理解，上述表1中的语音指令表示了对应场景下的语音数据对应的文本内容。在本阶段对初始语音模型进行训练时，获取到的场景语音数据集合中包含了采集的多个用户、在不同条件下发出的语音，服务器接收该语音，得到场景语音数据集合。例如，对于表1中的语音指令“打开导航”，服务器会接收来自不同用户发出的语音，不同用户可为不同年龄段、不同性别的用户，例如阿姨、叔叔、女童、男童、女少年、男少年、老爷爷、老奶奶等，不同条件可例如，语速较快、语速较慢、声音较大、声音较小以及不同方言等。

可以理解，上述表中列举出的场景语音数据集合为本申请实施例中的一种举例，在一些实施例中，还可以包括比上述图1中更多的场景对应的场景语音数据集合，和/或比上述表1中列举的语音指令更多的指令，本申请对此不作限制。

可以理解，根据例如表1中的多种场景语音数据集合中的视频场景语音数据集合，对初始语音模型进行训练，可以得到视频场景模型11，视频场景模型11包括语言模型31、声学模型31和对齐模型31。根据例如表1中的多种场景语音数据集合中的音乐场景语音数据集合，对初始语音模型进行训练，可以得到音乐场景模型12，音乐场景模型12包括语言模型32、声学模型32和对齐模型32。根据例如表1中的多种场景语音数据集合中的驾驶场景语音数据集合，对初始语音模型进行训练，可以得到驾驶场景模型13，驾驶场景模型13包括语言模型33、声学模型33和对齐模型33。根据例如表1中的多种场景语音数据集合中的来电场景语音数据集合，对初始语音模型进行训练，可以得到来电场景模型14，来电场景模型14包括语言模型34、声学模型34和对齐模型34。

图5示出了本申请实施例中，唤醒模型和命令模型训练阶段的流程图。下面结合图5对本申请实施例中的唤醒模型和命令模型训练阶段进行进一步介绍。本实施例的应用主体为服务器200，下文将不作赘述。同时，由于唤醒模型和命令模型的训练的区别仅在于输入的场景语音数据集合的不同，均为基于场景语音数据集合对初始语音模型中的声学模型的训练，因此，本实施例以声学模型的训练为例，对唤醒模型和命令模型的训练流程进行介绍。

如图5所示，在一些实施例中，唤醒模型和命令模型训练阶段包括以下步骤：

S501：获取场景语音数据集合。

可以理解，场景语音数据集合与通用语音数据集合为相似语音数据集合，区别在于包含的语音数据的数据量不同，即场景语音数据集合仅包括适用于手机100的应用场景的语音数据集合，场景语音数据集合为小规模语音数据集合，通用语音数据集合为多种场景和多种设备适用的语音数据集合，通用语音数据集合为大规模语音数据集合。

S502：利用初始语音模型中的对齐模型对场景语音数据集合中的场景语音数据进行音素标注。

可以理解，在本阶段中，对齐模型可以不需要进行参数优化，可以用于辅助本阶段中的声学模型的训练优化。对齐模型进行音素标注的过程在上文中进行说明，在此不作赘述。

S503：利用场景语音数据集合中的场景语音数据，调整初始语音模型中的语言模型的命令词数据和唤醒词数据的权重，并得到语言模型的输出结果。

可以理解，场景语音数据对应的文本序列中包括唤醒词数据和命令词数据，则命令词数据和唤醒词数据的权重的调整可以为，将语言模型中匹配于唤醒词数据和命令词数据的权重调高，进而，语言模型可以被优化为输出文本序列与人类日常对话中说出的唤醒词和命令词的匹配程度。

S504：根据音素标注结果和语言模型的输出结果，对初始语音模型中的声学模型进行训练。

可以理解，步骤S504中的声学模型的训练与图4中步骤S404的训练优化方法一致，在此不作赘述。

可以理解，场景语音数据集合中的场景语音数据适用于手机100的应用场景下的，用户与手机100等电子设备之间的唤醒交互和命令交互。因此，采用不同场景下的场景语音数据集合分别对初始语音模型中的声学模型1进行训练优化，可以减少本训练阶段中声学模型需要输入的场景语音数据，多个场景的声学模型可以同时进行训练，训练速度更快、参数优化所需的时间更短，声学模型识别的准确率更高。同时多个场景的声学模型互不影响，可以灵活增加一些场景的场景语音数据集合，易于唤醒模型和命令模型的扩展。

在一些实施例中，唤醒模型和命令模型训练阶段可以对初始语音模型中的对齐模型和声学模型进行训练。在另一些实施例中，唤醒模型和命令模型训练阶段可以对初始语音模型中的对齐模型、声学模型和语言模型进行训练。可以理解，由于唤醒模型和命令模型优化阶段以及用户在手机的使用阶段，可以用到的模型为初始语音模型中的声学模型，因此唤醒模型和命令模型训练阶段可以对初始语言模型中的部分模型，利用场景语音数据集合进行训练。进而，为了提高声学模型的准确性，也可以对初始语言模型中的全部模型，利用场景语音数据进行训练。

3、唤醒模型和命令模型优化阶段

继续参考图2和3a所示，唤醒模型和命令模型优化阶段由手机100完成。此阶段训练出的唤醒模型，在手机100的待机场景下，可以识别出来自用户（即手机100的当前使用者）的语音中的唤醒词，进而手机100基于识别出的唤醒词与手机100中预设的唤醒词的匹配程度，确定是否被唤醒。

具体地，以唤醒模型2的优化为例，程序员将唤醒模型1中的声学模型2移植到手机100。用户在使用手机100的阶段，手机获取到唤醒场景下的用户语音数据，且语音数据符合模型优化条件时，对唤醒模型1进行训练，得到唤醒模型2。其中，优化训练得到唤醒模型2可以包括声学模型4。可以理解，命令模型2的优化与唤醒模型类似，其区别仅在于输入的用户语音数据的不同，在此不作赘述。其中，训练得到的命令模型2包括声学模型5。

在一些实施例中，唤醒模型和命令模型优化阶段训练出的命令模型，包括多个场景下子模型，下面结合图3c对多个场景子模型进行介绍。

图3c所示为本申请实施例中的一种命令模型3的模块示意图。

如图3c所示，在一些实施例中，根据手机处于的运行状态的不同，可以划分出视频场景、音乐场景、驾驶场景和来电场景。进而，根据不同场景语音数据集合，根据用户语音数据集合对对应命令场景的场景子模型进行训练，得到的命令模型2可以包括多个场景子模型，例如视频场景模型21、音乐场景模型22、驾驶场景模型23和来电场景模型24。

可以理解，用户语音数据集合可例如上述表1中所示的语音数据，其区别在于本阶段参与模型优化的语音数据为使用手机的用户在实际使用过程中发出的语音对应的语音数据。

可以理解，将命令模型2中的场景子模型的声学模型移植到手机后，手机可以根据多种命令场景下、符合模型优化条件的用户语音数据对命令模型2进行优化训练。具体地，手机可以根据视频场景下符合模型优化条件的用户语音数据，对视频场景模型11进行优化，可以得到视频场景模型21，视频场景模型21包括声学模型51。手机可以根据音乐场景下、符合模型优化条件的用户语音数据，对音乐场景模型12进行优化，可以得到音乐场景模型22，音乐场景模型22包括声学模型52。手机可以根据驾驶场景下、符合模型优化条件的用户语音数据，对驾驶场景模型13进行优化，可以得到驾驶场景模型23，驾驶场景模型23包括声学模型53。手机可以根据来电场景下、符合模型优化条件的用户语音数据，对来电场景模型14进行优化，可以得到来电场景模型24，来电场景模型24包括声学模型54。

可以理解，在一些实施例中，本申请中的命令模型可以包括比图3c所示的场景子模型更多或更少的模块，本申请对此不作限制。

图6a示出了本申请实施例中，唤醒模型和命令模型优化阶段的流程图。下面结合图6a对本申请实施例中的唤醒模型和命令模型优化阶段进行进一步介绍。本实施例的应用主体为手机100，下文将不作赘述。且由于唤醒模型和命令模型的训练的区别仅在与输入的用户语音数据的不同，均为基于用户语音数据集合对唤醒模型和命令模型中的声学模型的训练，因此，本实施例以声学模型的训练为例，对唤醒模型和命令模型的优化流程进行介绍。

如图6a所示，在一些实施例中，唤醒模型和命令模型优化阶段包括以下步骤：

S601：获取用户发出的用户语音数据。

可以理解，用户语音数据为用户在使用手机100的阶段，唤醒手机100或命令手机100协助其执行一些事务的语音数据。

S602：确定用户语音数据对应的场景。

可以理解，在一些实施例中，在执行步骤S602之前，手机100可以先对用户语音数据进行预处理。

可以理解，在一些实施例中，手机100根据获取到用户语音数据时的状态或手机100的当前使用情况，确定用户语音数据对应的场景。例如，用户在手机100播放歌曲时，向手机100中输入语音数据“播放下一首”，则手机100在接收到该语音数据后，确定手机100当前正在播放歌曲，则确定该语音数据为音乐场景。再例如，用户在手机100驾驶时，向手机100中输入语音数据“导航回家”，则手机100在接收到该语音数据后，确定手机100的导航系统开启，则确定该语音数据为驾驶场景。

在一些实施例中，手机100可以对获取到的用户语音数据进行文本识别，根据识别结果确定该用户语音数据对应的场景。例如，用户输入手机100中一段语音，语音识别结果为“接听电话”，则手机100可以确定该用户语音数据对应的场景为来电场景。

S603：当用户语音数据符合预设的模型优化条件时，根据用户语音数据对对应场景的声学模型的参数进行优化训练。

可以理解，根据用户语音数据对对应场景的声学模型的参数进行优化训练，即基于用户语音数据，只更新优化对应场景的声学模型，对于其余场景下的声学模型，不进行优化。可以减少手机100进行模型优化时占用的系统内存，以及手机100的工作量、优化更加快速。

可以理解，步骤S603具体包括，判断用户语音数据符合预设的模型优化条件时，将用户语音数据以及用户语音数据对应的唤醒词数据或命令词数据的期望音素标注结果输入声学模型，根据声学模型的输出结果与期望音素标注结果的误差，对声学模型的参数进行优化训练。其中，期望音素标注结果为手机100根据用户语音数据对应的唤醒词数据或命令词数据进行音素标注，得到的结果。

在一些实施例中，预设的模型优化条件可以包括将用户语音数据输入手机100的声学模型后，声学模型输出的结果符合设定的优化阈值。

进一步地，在一些实施例中，声学模型输出结果为概率值，则设定的优化阈值为概率阈值。在一些实施例中，声学模型输出结果为输入用户语音数据的概率得分，则设定的优化阈值为可信度阈值。

在一些实施例中，预设的模型优化条件可以包括具有相同语音内容的用户语音数据的数量符合设定的数量阈值。其中，设定的数量阈值可以设置为3、5等。

在一些实施例中，预设的模型优化条件可以包括用户语音数据的信噪比达到设定的信噪比阈值。进而，在对声学模型进行优化时，可以减少信噪比较低的用户语音数据对声学模型的影响，提高声学模型的准确性。

在一些实施例中，预设的模型优化条件可以包括手机100对用户语音数据的执行结果。例如，对于用户输入的用户语音数据“播放下一首”，手机100反馈识别失败，或执行结果并非播放下一首，则该用户语音数据不用作声学模型的优化。

可以理解，本阶段中，手机100在用户使用阶段对移植在其中的声学模型不断进行优化训练，可以学习到手机100的当前使用者的个人语音特色，以提高手机100中的声学模型对用户的唤醒语音和命令语音的识别准确率。

图6b所示为本申请实施例中一种唤醒模型和命令模型优化阶段的流程图。

下面结合图6b，以用户语音数据为“播放下一首歌曲”为例，对本阶段中，声学模型的优化流程进行介绍。

如图6b所示，该流程包括：

S611：获取用户输入的唤醒词数据、命令词数据。

可以理解，用户在手机100播放歌曲的状态下，向手机发出“播放下一首歌曲”播放下一首的命令语音。手机100接收到该命令语音后，可以先对该命令语音进行预处理，可以包括对用户语音数据首尾端的静音切除、去噪处理、分帧处理、特征提取处理等。手机100在对用户语音数据进行预处理后，得到用户的命令词数据“播放下一首歌曲”。

S612：将唤醒词数据、命令词数据输入声学模型。

可以理解，手机100可以确定设备当前处于播放歌曲的状态，则确定命令语音“播放下一首歌曲”对应的场景为音乐场景。手机100可以将命令词数据“播放下一首歌曲”输入音乐场景对应的音乐场景模型21的声学模型中。

S613：声学模型的输出结果大于设定阈值。

可以理解，音乐场景模型21的声学模型基于输入的命令词数据“播放下一首歌曲”，会输出对应的输出结果，手机会判断输出结果是否大于设定阈值。若输出结果大于设定阈值，表示命令词数据“播放下一首歌曲”符合部分模型优化条件，命令词数据的语音质量比较高，可以进行下一步判断，即执行步骤S614。若输出结果不大于设定阈值，表示命令词数据“播放下一首歌曲”不符合部分模型优化条件，命令词数据的语音质量比较低，参与模型优化会使声学模型的输出结果偏离期望结果，则不参与声学模型的优化，跳转到步骤S611。

具体地，手机100将“播放下一首歌曲”的命令语音输入音乐场景模型21的声学模型中，得到该命令词数据的输出概率或概率得分。手机根据得到的输出概率或概率得分判断命令语音是否符合设定的概率阈值或可信度阈值。当判断“播放下一首歌曲”的命令词数据的输出概率或可信度满足设定的概率阈值或可信度阈值，则将该命令词数据作为待参与优化的用户语音数据。

S614：内容相同的唤醒词数据、命令词数据的数量大于5。

可以理解，当内容相同的命令词数据“播放下一首歌曲”的数量大于5时，表示命令词数据“播放下一首歌曲”可以代表用户在发出该语音时的语言习惯和语言特点，符合模型优化条件，可以基于命令词数据“播放下一首歌曲”对音乐场景模型21的声学模型的参数进行优化，即执行步骤S615。当内容相同的命令词数据“播放下一首歌曲”的数量小于等于5时，表示手机中保存的内容相同的命令词数据“播放下一首歌曲”过少，该命令词数据“播放下一首歌曲”可能是用户偶然发出的语音，不能够代表用户在发出该语音时的语言习惯和语言特点，命令词数据“播放下一首歌曲”仍作为待参与优化的语音数据，等待下一条内容相同的用户语音数据出现，一起参与声学模型的优化。此时，手机100可以继续获取用户语音数据，即执行步骤S611。

S615：基于唤醒词数据、命令词数据对声学模型进行优化。

可以理解，基于命令词数据“播放下一首歌曲”以及其在声学模型中对应的命令词数据的差异，对声学模型的参数进行优化。

S616：用户的唤醒模型、命令模型的声学模型。

可以理解，用户的命令模型的声学模型，除了可以处理本实施例中的音乐场景模型21外，在其他实施例中，基于用户输入的命令词数据的不同，还可以为视频场景模型21、驾驶场景模型23和来电场景模型24等。

可以理解，本实施例中以用户语音数据为命令词数据“播放下一首歌曲”为例，在其他实时例中，用户语音数据可以为其他唤醒词数据或命令词数据，进而步骤612、612、615、616中的声学模型为对应场景的声学模型。

可以理解，手机100基于用户的“播放下一首歌曲”的命令语音对音乐场景的声学模型进行优化，可以学习用户发出的此种命令语音的语言习惯和语言特点，以提高手机100中音乐场景的声学模型对用户的命令语音“播放下一首歌曲”的识别准确率。

示例性地，图7示出了一种电子设备100的硬件结构示意图。

如图7所示，电子设备100可以包括处理器110，存储器180，传感器模块190，显示模块120、移动通信模块150、无线通信模块160、音频模块170、接口模块130、电源模块140等。其中传感器模块190可以包括压力传感器，加速度传感器，触摸传感器等。其中音频模块170可以包括扬声器170A、受话器170B、麦克风170C和耳机接口170D等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。处理器110中还可以设置存储器，用于存储指令和数据。在本申请实施例中，执行本申请的唤醒模型和命令模型的训练方法的相关指令和数据可以存储在存储器中，供处理器110调用，处理器110可以通过控制器控制执行实施唤醒模型和命令模型的训练方法的各步骤，具体实施过程已在上文详细描述，在此不再赘述。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，移动产业处理器接口(mobile industryprocessor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器等。例如：处理器110可以通过I2C接口耦合触摸传感器，使处理器110与触摸传感器通过I2C总线接口通信，实现电子设备100的触摸功能。

MIPI接口可以被用于连接处理器110与显示模块120等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serialinterface，DSI)等。处理器110和显示模块120通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110显示模块120，传感器模块190等。GPIO接口还可以被配置为I2C接口，MIPI接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100通过GPU，显示模块120，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示模块120和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示模块120用于显示图像，视频等。显示模块120包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Mini-LED，Micro-LED，Micro-OLED，量子点发光二极管(quantumdot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示模块120，N为大于1的正整数。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器可以设置于显示模块120。压力传感器的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示模块120，电子设备100根据压力传感器检测该触摸操作强度。电子设备100也可以根据压力传感器的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

加速度传感器可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

触摸传感器，也称“触控器件”。触摸传感器可以设置于显示模块120，由触摸传感器与显示模块120组成触控屏，也称“触控屏”。触摸传感器用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示模块120提供与触摸操作相关的视觉输出。在本申请实施例中，例如触摸传感器与显示模块120组成的触控屏可以检测到用户的框选操作，随着用户的框选操作，触控屏可以显示相应的界面变化，例如在显示界面显示框选轨迹等，例如用户完成框选操作，手指离开触控屏时，则触控屏可以显示框选轨迹对应的套索轨迹等，具体可以参考下文详细描述，在此不再赘述。在另一些实施例中，触摸传感器也可以设置于电子设备100的表面，与显示模块120所处的位置不同。

可以理解的是，以上图7所示的系统结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图7所示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

图8示出了根据本申请的实施例的服务器200的结构示意图，服务器200可以包括处理器210，内部存储器220，接口模块230，电源模块240，无线通信模块250。

可以理解的是，本申请实施例示意的结构并不构成对服务器200的具体限定。在本申请另一些实施例中，服务器200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器210中还可以设置存储器，用于存储指令和数据。在本申请的实施例中，处理器210可以运行本申请中的唤醒模型和命令模型的训练方法。

内部存储器220可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器220可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储服务器200使用过程中所创建的数据(比如音频数据，电话本等)等。在本申请的实施例中，服务器200的内部存储器220可以存储处理器210生成的语音模型、唤醒模型和命令模型。

接口模块230可以用于连接外部存储装置，例如外接硬盘，实现扩展服务器200的存储能力。外接硬盘通过接口模块230与处理器210通信，实现数据存储功能。

电源模块240用于接入电网，为处理器210，内部存储器220等供电。

无线通信模块250可以提供应用在服务器200上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等的无线通信的解决方案。

在说明书对“一个实施例”或“实施例”的引用意指结合实施例所描述的具体特征、结构或特性被包括在根据本申请公开的至少一个范例实施方案或技术中。说明书中的各个地方的短语“在一个实施例中”的出现不一定全部指代同一个实施例。

本申请公开还涉及用于执行文本中的操作装置。该装置可以专门处于所要求的目的而构造或者其可以包括被存储在计算机中的计算机程序选择性地激活或者重新配置的通用计算机。这样的计算机程序可以被存储在计算机可读介质中，诸如，但不限于任何类型的盘，包括软盘、光盘、CD-ROM、磁光盘、只读存储器（ROM）、随机存取存储器（RAM）、EPROM、EEPROM、磁或光卡、专用集成电路（ASIC）或者适于存储电子指令的任何类型的介质，并且每个可以被耦合到计算机系统总线。此外，说明书中所提到的计算机可以包括单个处理器或者可以是采用针对增加的计算能力的多个处理器涉及的架构。

另外，在本说明书所使用的语言已经主要被选择用于可读性和指导性的目的并且可能未被选择为描绘或限制所公开的主题。因此，本申请公开旨在说明而非限制本文所讨论的概念的区域。

Claims

1.一种语音识别模型的优化方法，应用于电子设备，其特征在于，包括：

获取在电子设备的使用过程中，接收用户语音所产生的、对应于同一期望语音指令且满足预设条件的M个历史语音数据；

基于所述M个历史语音数据、以及各所述历史语音数据对应的期望语音指令，对所述语音识别模型进行优化；

其中M为大于2的整数。

2.根据权利要求1所述的语音识别模型的优化方法，其特征在于，所述预设条件与：所述历史语音数据输入所述语音识别模型后得到的输出结果和所述历史语音数据的数量M相关。

3.根据权利要求2所述的语音识别模型的优化方法，其特征在于，所述语音识别模型包括声学模型，并且所述预设条件包括：

所述历史语音数据输入所述声学模型后，声学模型输出的概率值或概率得分大于优化输出阈值；并且M大于预设数量阈值。

4.根据权利要求1所述的语音识别模型的优化方法，其特征在于，所述期望语音指令包括唤醒指令，并且所述语音识别模型包括唤醒模型。

5.根据权利要求1所述的语音识别模型的优化方法，其特征在于，所述期望语音指令包括命令指令，并且所述语音识别模型包括命令模型。

6.根据权利要求5所述的语音识别模型的优化方法，其特征在于，所述命令模型包括对应多个场景的多个命令子模型；并且所述基于所述M个历史语音数据、以及各所述历史语音数据对应的期望语音指令，对所述语音识别模型进行优化，包括：

确定所述历史语音数据对应的场景；

将所述历史语音数据输入对应的场景的命令子模型，并将所述命令子模型的输出与所述期望语音指令进行比对；

根据所述比对的结果对所述命令子模型的模型参数进行调整。

7.根据权利要求6所述的语音识别模型的优化方法，其特征在于，所述多个场景包括视频播放场景、音乐播放场景、驾驶场景、以及来电场景。

8.根据权利要求6所述的语音识别模型的优化方法，其特征在于，所述多个命令子模型是通过以下训练方式得到的：

获取对应所述多个场景的多个命令语音数据集；

采用所述多个命令语音数据集，分别对通用语音模型进行训练，得到所述多个命令子模型。

9.根据权利要求1至8任一项所述的语音识别模型的优化方法，其特征在于，还包括：

基于优化后的语音识别模型对用户当前输入的语音进行语音识别。

10.一种语音识别模型的训练方法，应用于电子设备，其特征在于，所述语音识别模型包括多个场景子模型；

所述训练方法包括：

获取样本语音数据集，其中，所述样本语音数据集包括多个场景下的样本语音数据；

采用与各场景子模型的场景对应的样本语音数据对所述各场景子模型进行训练。

11.根据权利要求10所述的语音识别模型的训练方法，其特征在于，所述样本语音数据集包括唤醒场景下的唤醒样本语音数据，并且所述多个场景子模型包括唤醒子模型；并且所述采用与各场景子模型的场景对应的样本语音数据对所述各场景子模型进行训练，包括：

采用所述唤醒场景下的唤醒样本语音数据对所述唤醒子模型进行训练。

12.根据权利要求10所述的语音识别模型的训练方法，其特征在于，所述样本语音数据集包括多个场景下的命令样本语音数据，所述多个场景子模型包括多个命令场景子模型；并且所述采用与各场景子模型的场景对应的样本语音数据对所述各场景子模型进行训练，包括：

采用与所述命令场景子模型对应的命令样本语音数据对所述命令场景子模型进行训练。

13.根据权利要求10至12任一项所述的语音识别模型的训练方法，其特征在于，所述场景子模型包括声学模型部分、对齐模型部分和语言模型部分。

14.一种电子设备，其特征在于，包括：

存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及

处理器，是电子设备的处理器之一，用于控制执行权利要求1至9中任一项所述的语音识别模型的优化方法或者权利要求10至13中任一项所述的语音识别模型的训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质上存储有指令，所述指令在计算机上执行时使所述计算机执行权利要求1至9中任一项所述的语音识别模型的优化方法或者权利要求10至13中任一项所述的语音识别模型的训练方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，该指令在执行时使计算机执行权利要求1至9中任一项所述的语音识别模型的优化方法或者权利要求10至13中任一项所述的语音识别模型的训练方法。