CN108847222B

CN108847222B - 语音识别模型生成方法、装置、存储介质及电子设备

Info

Publication number: CN108847222B
Application number: CN201810632001.6A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2020-09-08
Anticipated expiration: 2038-06-19
Also published as: CN108847222A; WO2019242402A1

Abstract

本申请实施例提供一种语音识别模型生成方法、装置、存储介质及电子设备，所述语音识别模型生成方法包括：多次采集用户的第一语音信息，根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；根据多个所述第一识别结果生成第一模型参数；多次采集用户的第二语音信息，根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；根据多个所述第二识别结果生成第二模型参数；根据第一语音识别模型、第一模型参数、第二语音识别模型、第二模型参数生成最终语音识别模型。所述语音识别模型生成方法可以减少识别错误的次数或者减少识别时耗费的时长，从而可以提高语音识别时的效率。

Description

语音识别模型生成方法、装置、存储介质及电子设备

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音识别模型生成方法、装置、存储介质及电子设备。

背景技术

随着电子技术的快速发展，诸如智能手机等电子设备的功能越来越丰富。例如，用户可以通过语音对电子设备进行控制，以执行电子设备的各种功能应用。

用户对电子设备进行语音控制时，电子设备需要对用户的语音进行识别。当前，电子设备通常在用户首次启用语音控制功能时，采集用户的语音信息以生成语音识别模型。所述语音识别模型用于对用户的语音进行识别。

然而，用户的语音特征可能会随着时间的推移而发生改变。从而，导致电子设备进行语音识别时的准确率降低或识别速度降低。

发明内容

本申请实施例提供一种语音识别模型生成方法、装置、存储介质及电子设备，可以提高电子设备进行语音识别时的效率。

本申请实施例提供一种语音识别模型生成方法，包括：

多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；

根据多个所述第一识别结果生成第一模型参数；

多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；

根据多个所述第二识别结果生成第二模型参数；

根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。

本申请实施例还提供一种语音识别模型生成装置，包括：

语音识别模块，用于多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；

模型参数生成模块，用于根据多个所述第一识别结果生成第一模型参数；

所述语音识别模块，还用于多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；

所述模型参数生成模块，还用于根据多个所述第二识别结果生成第二模型参数；

语音识别模型生成模块，用于根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。

本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述语音识别模型生成方法。

本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行上述语音识别模型生成方法。

本申请实施例还提供一种电子设备，包括麦克风和处理器，所述麦克风与所述处理器电性连接，其中：

所述麦克风用于多次采集用户的第一语音信息；

所述处理器用于根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；

所述处理器还用于根据多个所述第一识别结果生成第一模型参数；

所述麦克风还用于多次采集用户的第二语音信息；

所述处理器还用于根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；

所述处理器还用于根据多个所述第二识别结果生成第二模型参数；

所述处理器还用于根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。

本申请实施例提供的语音识别模型生成方法，包括：多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；根据多个所述第一识别结果生成第一模型参数；多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；根据多个所述第二识别结果生成第二模型参数；根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。所述语音识别模型生成方法中，电子设备可以根据所述第一模型参数、第二模型参数从所述第一语音识别模型和第二语音识别模型中选择最优的语音识别模型作为最终语音识别模型，可以提高电子设备进行语音识别时的准确率或者识别速度，可以减少识别错误的次数或者减少识别时耗费的时长，从而可以提高语音识别时的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为用户对电子设备进行语音控制的示意图。

图2为本申请实施例提供的语音识别模型生成方法的流程示意图。

图3为本申请实施例提供的语音识别模型生成方法的另一流程示意图。

图4为本申请实施例提供的语音识别模型生成方法的又一流程示意图。

图5为本申请实施例提供的语音识别模型生成装置的结构示意图。

图6为本申请实施例提供的语音识别模型生成装置的另一结构示意图。

图7为本申请实施例提供的电子设备的结构示意图。

图8为本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

本申请的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应当理解，这样描述的对象在适当情况下可以互换。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤的过程、方法或包含了一系列模块的装置、电子设备、系统不必限于清楚地列出的那些步骤或模块，还可以包括没有清楚地列出的步骤或模块，也可以包括对于这些过程、方法、装置、电子设备或系统固有的其它步骤或模块。

参考图1，图1为用户对电子设备进行语音控制的示意图。其中，用户输出一段语音，电子设备采集用户的语音信息。随后，电子设备将采集到的语音信息与电子设备中存储的语音识别模型进行比较。当语音信息与语音识别模型吻合时，电子设备从语音信息中识别出控制指令。随后，电子设备执行与所述控制指令对应的操作，例如亮屏、开启应用、退出应用、锁屏等操作，从而实现用户对电子设备的语音控制。

本申请实施例提供一种语音识别模型生成方法，所述语音识别模型生成方法可以应用于电子设备中。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(AugmentedReality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

如图2所示，所述语音识别模型生成方法，可以包括以下步骤：

110，多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果。

当电子设备开启语音识别功能后，电子设备可以采集用户的第一语音信息。例如，电子设备中可以设置有麦克风，电子设备通过麦克风采集用户的第一语音信息。

其中，所述第一语音信息可以包括用户通过语音输出的控制指令。例如，所述第一语音信息可以包括“点亮屏幕”、“开启微信”、“退出淘宝”、“锁屏”等等控制指令。

需要说明的是，上述举例的控制指令仅为对第一语音信息的举例。本申请实施例中，所述第一语音信息还可以包括其它的内容，也可以包括未携带控制指令的语音内容。

随后，电子设备根据第一语音识别模型对所述第一语音信息进行识别，以得到第一识别结果。其中，所述第一语音识别模型为存储在电子设备中的语音识别模型。所述识别结果可以包括识别成功还是识别失败，若为识别成功，则所述第一识别结果还可以包括成功识别出所述第一语音信息所耗费的时间。

在实际应用中，电子设备可以在一段时期内持续进行上述语音识别操作，例如在一个月的时间内持续进行上述语音识别操作。从而，电子设备在所述时期内多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果。

120，根据多个所述第一识别结果生成第一模型参数。

电子设备得到多个第一识别结果后，可以根据多个所述第一识别结果生成第一模型参数。由于所述第一识别结果中包括识别成功还是识别失败，以及成功识别出第一语音信息所耗费的时间，因此所述第一模型参数可以与电子设备对每一个所述第一语音信息识别成功与否、成功识别出每一个所述第一语音信息所耗费的时间相关。从而，所述第一模型参数可以代表所述第一语音识别模型在电子设备进行语音识别过程中的优劣程度。

130，多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果。

随后，在另一段时期内，例如在一个月内，电子设备可以多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果。

其中，所述第二语音信息可以包括用户通过语音输出的控制指令，也可以包括未携带控制指令的语音内容。

所述第二语音识别模型为存储在电子设备中的语音识别模型。并且，所述第二语音识别模型是不同于所述第一语音识别模型的。

每一个所述第二识别结果也可以包括识别成功还是识别失败，若为识别成功，则所述第二识别结果还可以包括成功识别出每一所述第二语音信息所耗费的时间。

其中，电子设备采集第二语音信息并对第二语音信息进行识别的过程可以与采集所述第一语音信息并对第一语音信息进行识别的过程类似。

140，根据多个所述第二识别结果生成第二模型参数。

电子设备得到多个第二识别结果后，可以根据多个所述第二识别结果生成第二模型参数。所述第二模型参数可以与电子设备对每一个所述第二语音信息识别成功与否、成功识别出每一个所述第二语音信息所耗费的时间相关。从而，所述第二模型参数可以代表所述第二语音识别模型在电子设备进行语音识别过程中的优劣程度。

150，根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。

电子设备生成第一模型参数、第二模型参数后，即可根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。

其中，所述最终语音识别模型是综合考虑所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数所生成的。因此，电子设备生成的最终语音识别模型可以为当前电子设备中最佳的语音识别模型。

在一些实施例中，如图3所示，步骤120、根据多个所述第一识别结果生成第一模型参数，包括以下步骤：

121，对多个所述第一识别结果进行聚类分析，以得到第一识别成功率和第一识别速度；

122，获取所述第一识别成功率对应的第一预设权重值和所述第一识别速度对应的第二预设权重值；

123，根据所述第一识别成功率、第一预设权重值、第一识别速度、第二预设权重值计算第一模型参数。

其中，电子设备得到多个第一识别结果后，可以对多个所述第一识别结果进行聚类分析，以得到第一识别成功率和第一识别速度。

电子设备可以分析出识别成功的次数占所有识别次数的比例。所述比例即为所述第一识别成功率。例如，识别总次数为100次，识别成功的次数为80次，识别失败的次数为20次，则第一识别成功率为80％。其中，第一识别成功率越高，表示所述第一语音识别模型的优劣程度越好。

电子设备还可以分析出所有识别成功的次数耗费的平均时长。例如，识别总次数为100次，识别成功的次数为80次，所述80次的总耗费时长为4800ms(毫秒)，则所述80次成功识别所耗费的平均时长为60ms。所述平均时长越长，表示所述第一语音识别模型的优劣程度越差。

电子设备可以对所述平均时长进行求倒数处理，以得到第一识别速度。例如，可以计算所述平均时长的倒数与预设数值(预设数值的单位与平均时长的单位相同)的乘积，以所述乘积表示所述第一识别速度。从而，所述第一识别速度越大，表示所述第一语音识别模型的优劣程度越好。

例如，所述预设数值可以为120。若所述平均时长为60ms，则所述平均时长的倒数与所述预设数值的乘积为2，随后以2表示所述第一识别速度。

电子设备中可以预先设置第一预设权重值、第二预设权重值。其中，第一预设权重值与电子设备进行语音识别时的识别成功率对应，第二预设权重值与识别速度对应。其中，所述第一预设权重值、第二预设权重值均为数值。例如，第一预设权重值为0.8，第二预设权重值为0.2。在一些实施例中，所述第一预设权重值、第二预设权重值的和为1。

电子设备通过聚类分析得到所述第一识别成功率和第一识别速度后，可以获取所述第一识别成功率对应的第一预设权重值和所述第一识别速度对应的第二预设权重值。随后，根据所述第一识别成功率、第一预设权重值、第一识别速度、第二预设权重值计算第一模型参数。

在一些实施例中，电子设备根据以下公式计算所述第一模型参数：

K₁＝M₁×P₁+N₁×P₂

其中，K₁为所述第一模型参数，M₁为所述第一识别成功率，P₁为所述第一预设权重值，N₁为所述第一识别速度，P₂为所述第二预设权重值。

例如，M₁为80％，P₁为0.8，N₁为2，P₂为0.2，则计算得到的第一模型参数K₁为1.04。

在一些实施例中，如图3所示，步骤140、根据多个所述第二识别结果生成第二模型参数，包括以下步骤：

141，对多个所述第二识别结果进行聚类分析，以得到第二识别成功率和第二识别速度；

142，获取所述第二识别成功率对应的第一预设权重值和所述第二识别速度对应的第二预设权重值；

143，根据所述第二识别成功率、第一预设权重值、第二识别速度、第二预设权重值计算第二模型参数。

其中，电子设备得到多个第二识别结果后，可以对多个所述第二识别结果进行聚类分析，以得到第二识别成功率和第二识别速度。

电子设备通过聚类分析得到第二识别成功率的方法与上述通过聚类分析得到第一识别成功率的方法类似，通过聚类分析得到第二识别速度的方法与上述通过聚类分析得到第二识别速度的方法类似，在此不予赘述。

其中，第二识别成功率越高，表示所述第二语音识别模型的优劣程度越好。第二识别速度越大，表示所述第二语音识别模型的优劣程度越好。

随后，电子设备可以获取所述第二识别成功率对应的第一预设权重值和所述第二识别速度对应的第二预设权重值，并根据所述第二识别成功率、第一预设权重值、第二识别速度、第二预设权重值计算第二模型参数。

在一些实施例中，电子设备根据以下公式计算所述第二模型参数：

K₂＝M₂×P₁+N₂×P₂

其中，K₂为所述第二模型参数，M₂为所述第二识别成功率，P₁为所述第一预设权重值，N₂为所述第二识别速度，P₂为所述第二预设权重值。

例如，M₂为90％，P₁为0.8，N₂为2.5，P₂为0.2，则计算得到的第二模型参数K₂为1.22。

在一些实施例中，如图4所示，步骤150、根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型，包括以下步骤：

151，判断所述第二模型参数是否大于所述第一模型参数；

152，若所述第二模型参数大于所述第一模型参数，则将所述第二语音识别模型设置为最终语音识别模型；

153，若所述第二模型参数不大于所述第一模型参数，则将所述第一语音识别模型设置为最终语音识别模型。

其中，电子设备生成第一模型参数、第二模型参数后，可以将所述第二模型参数与所述第一模型参数进行比较，以判断所述第二模型参数是否大于所述第一模型参数。

若所述第二模型参数大于所述第一模型参数，则表示第二语音识别模型优于第一语音识别模型，此时电子设备将所述第二语音识别模型设置为最终语音识别模型。

若所述第二模型参数不大于所述第一模型参数，则表示第一语音识别模型优于第二语音识别模型，此时电子设备将所述第一语音识别模型设置为最终语音识别模型。

例如，第一模型参数为1.04，第二模型参数为1.22，第二模型参数大于第一模型参数。此时，表示第二语音识别模型优于第一语音识别模型，则电子设备将第二语音识别模型设置为最终语音识别模型。

从而，电子设备可以根据所述第一模型参数、第二模型参数从所述第一语音识别模型和第二语音识别模型中选择最优的语音识别模型作为最终语音识别模型，可以提高电子设备进行语音识别时的准确率或者识别速度，可以减少识别错误的次数或者减少识别时耗费的时长，从而可以提高语音识别时的效率。

在实际应用中，电子设备可以定期执行上述实施例中描述的语音识别模型生成方法，例如每两个月执行一次。从而，电子设备中的语音识别模型可以持续不断地进行更新，以不断地提高电子设备进行语音识别时的效率。

在一些实施例中，如图4所示，步骤110、多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果之前，还可以包括以下步骤：

161，采集用户的训练语音信息，所述训练语音信息包括预设关键词；

162，提取所述训练语音信息中的特征参数，所述特征参数包括线性预测系数、美尔倒谱系数；

163，对所述训练语音信息中提取到的特征参数进行训练，以得到第一语音识别模型。

电子设备可以在用户首次开启或重新设置语音识别功能时，采集用户的训练语音信息。其中，所述训练语音信息包括预设关键词。例如，电子设备可以在显示屏上显示预设关键词，例如“小欧小欧”等，并引导用户多次朗读所述预设关键词或包含所述预设关键词的语句。在用户朗读所述预设关键词或包含所述预设关键词的语句时，电子设备采集用户的语音信息。此时用户的语音信息即为训练语音信息。

随后，电子设备提取所述训练语音信息中的特征参数，并对所述训练语音信息中提取到的特征参数进行训练，以得到第一语音识别模型。其中，所述特征参数可以包括线性预测系数、美尔倒谱系数。

在一些实施例中，如图4所示，步骤130、多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果之前，还可以包括以下步骤：

171，提取每一所述第一语音信息中的特征参数，所述特征参数包括线性预测系数、美尔倒谱系数；

172，对所述第一语音信息中提取到的特征参数进行训练，以得到第二语音识别模型。

电子设备在多次采集用户的第一语音信息后，可以提取每一所述第一语音信息中的特征参数，所述特征参数包括线性预测系数、美尔倒谱系数。

随后，电子设备对所述第一语音信息中提取到的特征参数进行训练，以得到第二语音识别模型。从而，电子设备中的第二语音识别模型是根据用户使用电子设备的过程中的第一语音信息训练得到的。

因此，电子设备根据第一语音识别模型、第二语音识别模型来生成最终语音识别模型时，可以在用户的使用过程中对最终语音识别模型进行定期或不定期的更新。

需要说明的是，在实际应用中，上述步骤171、172之间可以间隔较长的时间。例如，电子设备每采集到一次所述第一语音信息时，即可提取所述第一语音信息中的特征参数，并将提取到的特征参数进行缓存。当需要训练得到第二语音识别模型时，可以从电子设备中调取缓存的特征参数来进行训练，以得到第二语音识别模型。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的语音识别模型生成方法，包括：多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；根据多个所述第一识别结果生成第一模型参数；多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；根据多个所述第二识别结果生成第二模型参数；根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。所述语音识别模型生成方法中，电子设备可以根据所述第一模型参数、第二模型参数从所述第一语音识别模型和第二语音识别模型中选择最优的语音识别模型作为最终语音识别模型，可以提高电子设备进行语音识别时的准确率或者识别速度，可以减少识别错误的次数或者减少识别时耗费的时长，从而可以提高语音识别时的效率。

本申请实施例还提供一种语音识别模型生成装置，所述语音识别模型生成装置可以集成在电子设备中。

如图5所示，语音识别模型生成装置200可以包括：语音识别模块201、模型参数生成模块202、语音识别模型生成模块203。

语音识别模块201，用于多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果。

当电子设备开启语音识别功能后，语音识别模块201可以采集用户的第一语音信息。例如，电子设备中可以设置有麦克风，语音识别模块201通过麦克风采集用户的第一语音信息。

随后，语音识别模块201根据第一语音识别模型对所述第一语音信息进行识别，以得到第一识别结果。其中，所述第一语音识别模型为存储在电子设备中的语音识别模型。所述识别结果可以包括识别成功还是识别失败，若为识别成功，则所述第一识别结果还可以包括成功识别出所述第一语音信息所耗费的时间。

在实际应用中，语音识别模块201可以在一段时期内持续进行上述语音识别操作，例如在一个月的时间内持续进行上述语音识别操作。从而，语音识别模块201在所述时期内多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果。

模型参数生成模块202，用于根据多个所述第一识别结果生成第一模型参数。

语音识别模块201得到多个第一识别结果后，模型参数生成模块202可以根据多个所述第一识别结果生成第一模型参数。由于所述第一识别结果中包括识别成功还是识别失败，以及成功识别出第一语音信息所耗费的时间，因此所述第一模型参数可以与语音识别模块201对每一个所述第一语音信息识别成功与否、成功识别出每一个所述第一语音信息所耗费的时间相关。从而，所述第一模型参数可以代表所述第一语音识别模型在语音识别模块201进行语音识别过程中的优劣程度。

语音识别模块201，还用于多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果。

随后，在另一段时期内，例如在一个月内，语音识别模块201可以多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果。

其中，语音识别模块201采集第二语音信息并对第二语音信息进行识别的过程可以与采集所述第一语音信息并对第一语音信息进行识别的过程类似。

模型参数生成模块202，还用于根据多个所述第二识别结果生成第二模型参数。

语音识别模块201得到多个第二识别结果后，模型参数生成模块202可以根据多个所述第二识别结果生成第二模型参数。所述第二模型参数可以与语音识别模块201对每一个所述第二语音信息识别成功与否、成功识别出每一个所述第二语音信息所耗费的时间相关。从而，所述第二模型参数可以代表所述第二语音识别模型在语音识别模块201进行语音识别过程中的优劣程度。

语音识别模型生成模块203，用于根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。

模型参数生成模块202生成第一模型参数、第二模型参数后，语音识别模型生成模块203即可根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。

其中，所述最终语音识别模型是综合考虑所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数所生成的。因此，语音识别模型生成模块203生成的最终语音识别模型可以为当前电子设备中最佳的语音识别模型。

在一些实施例中，根据多个所述第一识别结果生成第一模型参数时，模型参数生成模块202用于执行以下步骤：

对多个所述第一识别结果进行聚类分析，以得到第一识别成功率和第一识别速度；

获取所述第一识别成功率对应的第一预设权重值和所述第一识别速度对应的第二预设权重值；

根据所述第一识别成功率、第一预设权重值、第一识别速度、第二预设权重值计算第一模型参数。

其中，语音识别模块201得到多个第一识别结果后，模型参数生成模块202可以对多个所述第一识别结果进行聚类分析，以得到第一识别成功率和第一识别速度。

模型参数生成模块202可以分析出识别成功的次数占所有识别次数的比例。所述比例即为所述第一识别成功率。例如，识别总次数为100次，识别成功的次数为80次，识别失败的次数为20次，则第一识别成功率为80％。其中，第一识别成功率越高，表示所述第一语音识别模型的优劣程度越好。

模型参数生成模块202还可以分析出所有识别成功的次数耗费的平均时长。例如，识别总次数为100次，识别成功的次数为80次，所述80次的总耗费时长为4800ms(毫秒)，则所述80次成功识别所耗费的平均时长为60ms。所述平均时长越长，表示所述第一语音识别模型的优劣程度越差。

模型参数生成模块202可以对所述平均时长进行求倒数处理，以得到第一识别速度。例如，可以计算所述平均时长的倒数与预设数值(预设数值的单位与平均时长的单位相同)的乘积，以所述乘积表示所述第一识别速度。从而，所述第一识别速度越大，表示所述第一语音识别模型的优劣程度越好。

电子设备中可以预先设置第一预设权重值、第二预设权重值。其中，第一预设权重值与语音识别模块201进行语音识别时的识别成功率对应，第二预设权重值与识别速度对应。其中，所述第一预设权重值、第二预设权重值均为数值。例如，第一预设权重值为0.8，第二预设权重值为0.2。在一些实施例中，所述第一预设权重值、第二预设权重值的和为1。

模型参数生成模块202通过聚类分析得到所述第一识别成功率和第一识别速度后，可以获取所述第一识别成功率对应的第一预设权重值和所述第一识别速度对应的第二预设权重值。随后，根据所述第一识别成功率、第一预设权重值、第一识别速度、第二预设权重值计算第一模型参数。

在一些实施例中，模型参数生成模块202根据以下公式计算所述第一模型参数：

K₁＝M₁×P₁+N₁×P₂

在一些实施例中，根据多个所述第二识别结果生成第二模型参数时，模型参数生成模块202用于执行以下步骤：

对多个所述第二识别结果进行聚类分析，以得到第二识别成功率和第二识别速度；

获取所述第二识别成功率对应的第一预设权重值和所述第二识别速度对应的第二预设权重值；

根据所述第二识别成功率、第一预设权重值、第二识别速度、第二预设权重值计算第二模型参数。

其中，语音识别模块201得到多个第二识别结果后，模型参数生成模块202可以对多个所述第二识别结果进行聚类分析，以得到第二识别成功率和第二识别速度。

模型参数生成模块202通过聚类分析得到第二识别成功率的方法与上述通过聚类分析得到第一识别成功率的方法类似，通过聚类分析得到第二识别速度的方法与上述通过聚类分析得到第二识别速度的方法类似，在此不予赘述。

随后，模型参数生成模块202可以获取所述第二识别成功率对应的第一预设权重值和所述第二识别速度对应的第二预设权重值，并根据所述第二识别成功率、第一预设权重值、第二识别速度、第二预设权重值计算第二模型参数。

在一些实施例中，模型参数生成模块202根据以下公式计算所述第二模型参数：

K₂＝M₂×P₁+N₂×P₂

在一些实施例中，根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型时，语音识别模型生成模块203用于执行以下步骤：

判断所述第二模型参数是否大于所述第一模型参数；

若所述第二模型参数大于所述第一模型参数，则将所述第二语音识别模型设置为最终语音识别模型；

若所述第二模型参数不大于所述第一模型参数，则将所述第一语音识别模型设置为最终语音识别模型。

其中，模型参数生成模块202生成第一模型参数、第二模型参数后，语音识别模型生成模块203可以将所述第二模型参数与所述第一模型参数进行比较，以判断所述第二模型参数是否大于所述第一模型参数。

若所述第二模型参数大于所述第一模型参数，则表示第二语音识别模型优于第一语音识别模型，此时语音识别模型生成模块203将所述第二语音识别模型设置为最终语音识别模型。

若所述第二模型参数不大于所述第一模型参数，则表示第一语音识别模型优于第二语音识别模型，此时语音识别模型生成模块203将所述第一语音识别模型设置为最终语音识别模型。

例如，第一模型参数为1.04，第二模型参数为1.22，第二模型参数大于第一模型参数。此时，表示第二语音识别模型优于第一语音识别模型，则语音识别模型生成模块203将第二语音识别模型设置为最终语音识别模型。

从而，语音识别模型生成模块203可以根据所述第一模型参数、第二模型参数从所述第一语音识别模型和第二语音识别模型中选择最优的语音识别模型作为最终语音识别模型，可以提高电子设备进行语音识别时的准确率或者识别速度，可以减少识别错误的次数或者减少识别时耗费的时长，从而可以提高语音识别时的效率。

在实际应用中，语音识别模型生成装置200可以定期执行上述实施例中描述的语音识别模型生成方法，例如每两个月执行一次。从而，电子设备中的语音识别模型可以持续不断地进行更新，以不断地提高电子设备进行语音识别时的效率。

在一些实施例中，如图6所示，语音识别模型生成装置200还包括训练模块204，所述训练模块204用于：

采集用户的训练语音信息，所述训练语音信息包括预设关键词；

提取所述训练语音信息中的特征参数，所述特征参数包括线性预测系数、美尔倒谱系数；

对所述训练语音信息中提取到的特征参数进行训练，以得到第一语音识别模型。

其中，训练模块204可以在用户首次开启或重新设置语音识别功能时，采集用户的训练语音信息。其中，所述训练语音信息包括预设关键词。例如，电子设备可以在显示屏上显示预设关键词，例如“小欧小欧”等，并引导用户多次朗读所述预设关键词或包含所述预设关键词的语句。在用户朗读所述预设关键词或包含所述预设关键词的语句时，训练模块204采集用户的语音信息。此时用户的语音信息即为训练语音信息。

随后，训练模块204提取所述训练语音信息中的特征参数，并对所述训练语音信息中提取到的特征参数进行训练，以得到第一语音识别模型。其中，所述特征参数可以包括线性预测系数、美尔倒谱系数。

在一些实施例中，训练模块204还用于执行以下步骤：

提取每一所述第一语音信息中的特征参数，所述特征参数包括线性预测系数、美尔倒谱系数；

对所述第一语音信息中提取到的特征参数进行训练，以得到第二语音识别模型。

语音识别模块201多次采集用户的第一语音信息后，训练模块204可以提取每一所述第一语音信息中的特征参数，所述特征参数包括线性预测系数、美尔倒谱系数。

随后，训练模块204对所述第一语音信息中提取到的特征参数进行训练，以得到第二语音识别模型。从而，电子设备中的第二语音识别模型是根据用户使用电子设备的过程中的第一语音信息训练得到的。

因此，语音识别模型生成模块203根据第一语音识别模型、第二语音识别模型来生成最终语音识别模型时，可以在用户的使用过程中对最终语音识别模型进行定期或不定期的更新。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现。

由上可知，本申请实施例提供的语音识别模型生成装置200，通过语音识别模块201多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；模型参数生成模块202根据多个所述第一识别结果生成第一模型参数；语音识别模块201多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；模型参数生成模块202根据多个所述第二识别结果生成第二模型参数；语音识别模型生成模块203根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。所述语音识别模型生成装置可以根据所述第一模型参数、第二模型参数从所述第一语音识别模型和第二语音识别模型中选择最优的语音识别模型作为最终语音识别模型，可以提高电子设备进行语音识别时的准确率或者识别速度，可以减少识别错误的次数或者减少识别时耗费的时长，从而可以提高语音识别时的效率。

本申请实施例还提供一种电子设备。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

如图7所示，电子设备300包括处理器301和存储器302。其中，处理器301与存储器302电性连接。

处理器301是电子设备300的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或调用存储在存储器302内的计算机程序，以及调用存储在存储器302内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备300中的处理器301会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的计算机程序，从而实现各种功能：

根据多个所述第一识别结果生成第一模型参数；

根据多个所述第二识别结果生成第二模型参数；

在一些实施例中，根据多个所述第一识别结果生成第一模型参数时，处理器301执行以下步骤：

在一些实施例中，处理器301根据以下公式计算所述第一模型参数：

K₁＝M₁×P₁+N₁×P₂

在一些实施例中，根据多个所述第二识别结果生成第二模型参数时，处理器301执行以下步骤：

在一些实施例中，处理器301根据以下公式计算所述第二模型参数：

K₂＝M₂×P₁+N₂×P₂

在一些实施例中，根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型时，处理器301执行以下步骤：

判断所述第二模型参数是否大于所述第一模型参数；

在一些实施例中，多次采集用户的第一语音信息之前，处理器301还执行以下步骤：

在一些实施例中，多次采集用户的第二语音信息之前，处理器301还执行以下步骤：

存储器302可用于存储计算机程序和数据。存储器302存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器301通过调用存储在存储器302的计算机程序，从而执行各种功能应用以及数据处理。

在一些实施例中，如图8所示，电子设备300还包括：麦克风303、音频电路304以及电源305。其中，处理器301分别与麦克风303、音频电路304以及电源305电性连接。

麦克风303用于采集用户的语音信息。在本申请实施例中，所述麦克风303用于多次采集用户的第一语音信息，以及用于多次采集用户的第二语音信息。

音频电路304可以通过麦克风、扬声器、传声器等提供用户与电子设备之间的音频接口。

电源305用于给电子设备300的各个部件供电。在一些实施例中，电源305可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图8中未示出，电子设备300还可以包括显示屏、摄像头、射频电路、蓝牙模块等，在此不再赘述。

由上可知，本申请实施例提供了一种电子设备，所述电子设备执行以下步骤：多次采集用户的第一语音信息，并根据第一语音识别模型对每一所述第一语音信息进行识别，以得到多个第一识别结果；根据多个所述第一识别结果生成第一模型参数；多次采集用户的第二语音信息，并根据第二语音识别模型对每一所述第二语音信息进行识别，以得到多个第二识别结果；根据多个所述第二识别结果生成第二模型参数；根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型。所述电子设备可以根据所述第一模型参数、第二模型参数从所述第一语音识别模型和第二语音识别模型中选择最优的语音识别模型作为最终语音识别模型，可以提高电子设备进行语音识别时的准确率或者识别速度，可以减少识别错误的次数或者减少识别时耗费的时长，从而可以提高语音识别时的效率。

本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的语音识别模型生成方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上对本申请实施例所提供的语音识别模型生成方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别模型生成方法，其特征在于，包括：

根据多个所述第一识别结果生成第一模型参数；

根据多个所述第二识别结果生成第二模型参数；

根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型；其中

所述第一语音识别模型为根据训练语音信息中的特征参数进行训练得到的语音识别模型，所述第二语音识别模型为根据多个所述第一语音信息中的特征参数进行训练得到的语音识别模型，所述训练语音信息的采集早于所述多个第一语音信息的采集。

2.根据权利要求1所述的语音识别模型生成方法，其特征在于，所述根据多个所述第一识别结果生成第一模型参数的步骤包括：

3.根据权利要求2所述的语音识别模型生成方法，其特征在于，根据以下公式计算所述第一模型参数：

K₁＝M₁×P₁+N₁×P₂

4.根据权利要求1所述的语音识别模型生成方法，其特征在于，所述根据多个所述第二识别结果生成第二模型参数的步骤包括：

5.根据权利要求4所述的语音识别模型生成方法，其特征在于，根据以下公式计算所述第二模型参数：

K₂＝M₂×P₁+N₂×P₂

6.根据权利要求1至5任一项所述的语音识别模型生成方法，其特征在于，所述根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型的步骤包括：

判断所述第二模型参数是否大于所述第一模型参数；

7.根据权利要求1至5任一项所述的语音识别模型生成方法，其特征在于，所述多次采集用户的第一语音信息的步骤前，还包括：

8.根据权利要求1至5任一项所述的语音识别模型生成方法，其特征在于，所述多次采集用户的第二语音信息的步骤前，还包括：

9.一种语音识别模型生成装置，其特征在于，包括：

语音识别模型生成模块，用于根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型；其中

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至8任一项所述的语音识别模型生成方法。

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1至8任一项所述的语音识别模型生成方法。

12.一种电子设备，其特征在于，包括麦克风和处理器，所述麦克风与所述处理器电性连接，其中：

所述麦克风用于多次采集用户的第一语音信息；

所述麦克风还用于多次采集用户的第二语音信息；

所述处理器还用于根据所述第一语音识别模型、所述第一模型参数、所述第二语音识别模型、所述第二模型参数生成最终语音识别模型；其中