CN112259097A

CN112259097A - 一种语音识别的控制方法和计算机设备

Info

Publication number: CN112259097A
Application number: CN202011164807.0A
Authority: CN
Inventors: 黄建庆
Original assignee: Shenzhen Konka Electronic Technology Co Ltd
Current assignee: Shenzhen Konka Electronic Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-22

Abstract

本发明提供了一种语音识别的控制方法和计算机设备，语音识别的控制方法包括：获取至少一个包括关键词的语音信息，并将获取的至少一个语音信息输入已训练的语音识别模型，通过语音识别模型确定至少一个语音信息各自分别对应的目标声纹数据；根据确定的所有目标声纹数据和预设的标准声纹数据集确定目标相似度；根据目标相似度确定至少一个语音信息对应的响应操作，并执行响应操作。本发明中，标准声纹数据是预设的用户对应的声纹数据，目标相似度对应的目标声纹数据最接近标准声纹数据，这样，可以在多个语音信息中，识别出预设的用户发出的语音信息，提高了嘈杂环境的识别语音信息的准确度。

Description

一种语音识别的控制方法和计算机设备

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别的控制方法和计算机设备。

背景技术

语音识别可以用于控制机器，机器对语音信息进行识别，以得到语音信息对应的指令，并执行该指令。例如，通过语音控制电视时，电视可以识别语音信息，以接收语音信息对应的指令，并响应该指令。

目前的语音识别，通常是对语音信息中的关键词进行识别，对关键词进行识别需要在安静的环境，并且需要被识别的语音信息分贝较高，才能准确识别到语音信息对应的指令。现有技术中，若环境比较嘈杂，机器不能准确识别语音信息，从而导致执行错误的指令。也就是说，现有的语音识别，对识别语音的环境要求较高，在比较嘈杂的环境使用语音识别的准确率低。

因此，现有技术有待进一步改进。

发明内容

本发明提供了一种语音识别的控制方法和计算机设备，本发明中的通过语音识别模型确定同时获取的至少一个包括关键词的语音信息各自分别对应的目标声纹数据，确定目标相似度，进而在同时获取的多个包括关键词的语音信息中，响应目标相似度对应的语音信息，提高了嘈杂环境的识别语音信息的准确度。

第一方面，本发明实施例提供了一种语音识别的控制方法，包括：

获取至少一个包括关键词的语音信息，并将获取的至少一个语音信息输入语音识别模型，通过所述语音识别模型确定所述至少一个语音信息各自分别对应的目标声纹数据；

根据确定的所有目标声纹数据和预设的标准声纹数据集确定目标相似度；

根据所述目标相似度确定所述至少一个语音信息对应的响应操作，并执行所述响应操作。

在进一步的实现方式中，所述标准声纹数据集中包括若干个标准声纹数据；所述根据确定的所有目标声纹数据和预设的标准声纹数据集确定目标相似度，具体包括：

对于每个目标声纹数据，分别计算该目标声纹数据与每个标准声纹数据之间的参考相似度；

将计算得到的所有参考相似度中最高的参考相似度作为目标相似度。

在进一步的实现方式中，所述根据所述目标相似度确定所述至少一个语音信息对应的响应操作，并执行所述响应操作，具体包括：

当所述目标相似度满足预设条件时，获取该目标相似度对应的语音信息中的目标关键词；

根据所述目标关键词确定目标指令，并执行所述目标指令对应的响应操作。

当所述目标相似度不满足预设条件时，获取距离上一次执行响应操作的时间间隔；

若所述时间间隔小于预设时长，则不响应所述语音信息。

在进一步的实现方式中，所述当所述目标相似度不满足预设条件时，获取距离上一次执行响应操作的时间间隔之后，还包括：

若所述时间间隔大于所述预设时长，则获取所述目标相似度对应的语音信息中的目标关键词，根据所述目标关键词确定目标指令，并执行所述目标指令对应的响应操作。

在进一步的实现方式中，所述预设条件为：所述目标相似度大于或等于预设阈值。

在进一步的实现方式中，所述已训练的语音识别模型是基于预设的训练语音集对预设网络模型进行训练得到的，其中，所述训练语音集中包括多个训练语音，以及每个训练语音对应的分类标签。

在进一步的实现方式中，所述语音识别模型的训练过程具体包括：

将所述训练语音集中的训练语音输入预设网络模型，通过所述预设网络模型确定所述训练语音对应的预测标签，所述训练语音集包括多个训练语音，以及每个训练语音对应的分类标签；

根据所述训练语音对应的分类标签和所述训练语音对应的预测标签修改所述预设网络模型的模型参数，并继续执行所述将所述训练语音集中的训练语音输入预设网络模型的步骤，直至满足所述预设网络模型的预设训练条件，得到语音识别模型。

第二方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

与现有技术相比，本发明实施例具有以下优点：

在本发明实施例中，获取至少一个包括关键词的语音信息，并将获取的至少一个语音信息输入已训练的语音识别模型，通过所述语音识别模型确定所述至少一个语音信息各自分别对应的目标声纹数据；根据提取到的所有的目标声纹数据和预设的标准声纹数据集确定目标相似度；根据所述目标相似度确定所述至少一个语音信息对应的响应操作，并执行所述响应操作。本发明中，标准声纹数据是预设的用户对应的声纹数据，通过每个语音信息各自分别对应的目标声纹数据确定目标相似度，目标相似度对应的目标声纹数据最接近标准声纹数据，这样，可以在多个语音信息中，识别出预设的用户发出的语音信息，进而实现执行预设的用户发出的语音信息所对应的响应操作。本发明在同时获取的多个包括关键词的语音信息中，响应目标相似度对应的语音信息，提高了嘈杂环境的识别语音信息的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种语音识别的控制方法的流程示意图；

图2为本发明实施例中具体实施时，一种语音识别的控制方法的流程示意图；

图3为本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

发明人经过研究发现，目前的语音识别，通常是对语音信息中的关键词进行识别，对关键词进行识别需要在安静的环境，并且需要被识别的语音信息分贝较高，才能准确识别到语音信息对应的指令。现有技术中，若环境比较嘈杂，机器不能准确识别语音信息，从而导致执行错误的指令。也就是说，现有的语音识别，对识别语音的环境要求较高，在比较嘈杂的环境使用语音识别的准确率低。

为了解决上述问题，在本发明实施例中，获取至少一个包括关键词的语音信息，并将获取的至少一个语音信息输入已训练的语音识别模型，通过所述语音识别模型确定所述至少一个语音信息各自分别对应的目标声纹数据；根据提取到的所有的目标声纹数据和预设的标准声纹数据集确定目标相似度；根据所述目标相似度确定所述至少一个语音信息对应的响应操作，并执行所述响应操作。本发明中，标准声纹数据是预设的用户对应的声纹数据，通过每个语音信息各自分别对应的目标声纹数据确定目标相似度，目标相似度对应的目标声纹数据最接近标准声纹数据，这样，可以在多个语音信息中，识别出预设的用户发出的语音信息，进而实现执行预设的用户发出的语音信息所对应的响应操作。本发明在同时获取的多个包括关键词的语音信息中，响应目标相似度对应的语音信息，提高了嘈杂环境的识别语音信息的准确度。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

参阅图1，本实施例提供了一种语音识别的控制方法，包括：

S1、获取至少一个包括关键词的语音信息，并将获取的至少一个语音信息输入已训练的语音识别模型，通过所述语音识别模型确定所述至少一个语音信息各自分别对应的目标声纹数据。

在本发明实施例中，获取至少一个语音信息，每个语音信息均包括关键词。获取至少一个包括关键词的语音信息的方式可以是：获取语音数据，识别语音数据，以得到至少一个关键词，进而确定至少一个包括关键词的语音信息。语音数据中的关键词的数量与包括关键词的语音信息的数量相同。所述语音数据可以通过麦克风采集，采集语音数据的麦克风与终端通讯连接，或者所述终端上设置有麦克风。

在本发明实施例中，可设置每隔一固定时长获取语音数据，在获取的语音数据中确定关键词，进而确定至少一个包括关键词的语音信息。例如，语音数据中包括3个关键词，则获取3个包括关键词的语音信息。

在本发明实施例中，所述语音识别模型是基于预设的训练语音集对预设网络模型进行训练得到的，其中，所述训练语音集中包括多个训练语音，以及每个训练语音对应的分类标签。在后文会详细介绍语音识别模型的训练过程。

S2、根据确定的所有目标声纹数据和预设的标准声纹数据集确定目标相似度。

在本发明实施例中，所述标准声纹数据集中包括若干个标准声纹数据，所述标准声纹数据可以是预设的若干用户各自分别对应的标准声纹数据。例如，某个终端，可以预先确定两个用户各自分别对应的标准声纹数据，具体的，将两个用户的声音录入终端，通过语音识别模型得到两个用户各自分别对应的标准声纹数据，以得到标准声纹数据集。在实际使用时，可以提示用户说出一段指定文字，以采集预设的用户对应的标准声纹数据。

在本发明实施例中，当获取到包括关键词的语音信息后，确定每个语音信息各自分别对应的目标声纹数据，计算每个目标声纹数据和标准声纹数据之间的参考相似度，进而确定目标相似度。

具体的，步骤S2包括：

S21、对于每个目标声纹数据，分别计算该目标声纹数据与每个标准声纹数据之间的参考相似度。

在本发明实施例中，目标声纹数据和标准声纹数据均为向量形式，可以计算目标声纹数据和标准声纹数据之间的参考相似度，参考相似度为数值形式。

例如，目标声纹数据有两个，分别为m1和m2，标准声纹数据集中包括三个标准声纹数据，分别为b1、b2和b3；计算m1和b1之间的参考相似度c11，计算m1和b2之间的参考相似度c12，计算m1和b3之间的参考相似度c13，计算m2和b1之间的参考相似度c21，计算m2和b2之间的参考相似度c22，计算m2和b3之间的参考相似度c23。

S22、将计算得到的所有参考相似度中最高的参考相似度作为目标相似度。

在本发明实施例中，参考相似度为数值形式，进而，参考相似度对应的数值越大，则参考相似度越大。将所有参考相似度中最高的参考相似度作为目标相似度。

当最高的参考相似度有多个时，对于并列最高的多个参考相似度，可以在多个参考相似度中选择任意一个参考相似度作为目标相似度，或者，获取多个参考相似度各自分别对应的优先级(优先级为预设的用户的优先级)，将多个参考相似度中优先级最高的参考相似度作为目标相似度。

S3、根据所述目标相似度确定所述至少一个语音信息对应的响应操作，并执行所述响应操作。

在本发明实施例中，目标相似度只有一个，在所述至少一个语音信息中，确定目标相似度对应的语音信息为目标语音信息，该目标语音信息中包括的关键词为目标关键词。

具体的，步骤S3包括：

S31A、当所述目标相似度满足预设条件时，获取该目标相似度对应的语音信息中的目标关键词。

在本发明实施例中，所述预设条件为：所述目标相似度大于或等于预设阈值，所述预设阈值可以设定为0.8。当目标相似度满足预设条件时，在所述至少一个语音信息中，确定目标相似度对应的语音信息为目标语音信息，该目标语音信息中包括的关键词为目标关键词。

S32A、根据所述目标关键词确定目标指令，并执行所述目标指令对应的响应操作。

在本发明实施例中，所述目标关键词与目标指令具有对应关系，在确定目标关键词后，可以根据获取目标关键词对应的目标指令，进而执行目标指令对应的响应操作。例如，目标关键词是“播放音乐”，则目标指令是用于播放音乐的指令，终端根据目标指令开始播放音乐，即执行了目标指令对应的响应操作。

在一个示例中，步骤S3包括：

S31B、当所述目标相似度不满足预设条件时，获取距离上一次执行响应操作的时间间隔。

S32B、若所述时间间隔小于预设时长，则不响应所述语音信息。

在本发明实施例中，当目标相似度小于预设条件，是指目标相似度小于预设阈值，也就是说，目标相似度对应的目标声纹数据与标准声纹数据的相似度不高，可以理解为，至少一个语音信息不是预设的用户发出的。

在本发明实施例中，所谓时间间隔是指当前(获取至少一个包括关键词的语音信息)距离上一次执行响应操作之间的时长。所述预设时长可以设定为2秒，或者5秒。当时间间隔小于预设时长时，不响应语音信息。

S33B、若所述时间间隔大于所述预设时长，则获取所述目标相似度对应的语音信息中的目标关键词，根据所述目标关键词确定目标指令，并执行所述目标指令对应的响应操作。

在本发明实施例中，若时间间隔大于预设时长，尽管目标相似度对应的语音信息不是预设的用户发出的，也可以响应。

接下来介绍语音识别模型的训练过程。

所述语音识别模型是基于预设的训练语音集对预设网络模型进行训练得到的，其中，所述训练语音集中包括多个训练语音，以及每个训练语音对应的分类标签。

语音识别模型的训练过程包括：

将所述训练语音集中的训练语音输入预设网络模型，通过所述预设网络模型确定所述训练语音对应的预测标签，所述训练语音集包括多个训练语音，以及每个训练语音对应的分类标签；根据所述训练语音对应的分类标签和所述训练语音对应的预测标签修改所述预设网络模型的模型参数，并继续执行所述将所述训练语音集中的训练语音输入预设网络模型的步骤，直至满足所述预设网络模型的预设训练条件，得到语音识别模型。

通过声纹数据可以确定说话人，可以通过声音判别说话人身份。在本发明实施例中，预设网络模型首先对训练语音做时频分析，例如，短时傅里叶变化，得到训练语音对应的训练时频图，通过预设网络模型提取训练时频图的特征，并对提取的特征进行分类，得到预测标签。

在本发明实施例中，所述训练语音有对应的真实分类标签，所述真实分类标签用于反映训练语音对应的真实说话人，分类标签通过向量形式表示，向量中说话人对应的元素为1，其余元素为0。预测标签通过向量形式表示，预测标签中的每个元素用于反映预设网络模型预测的训练语音对应训练语音集中每个分类对的概率。

例如，在训练语音集中包括：分类1对应的训练语音1，分类2对应的训练语音2，以及分类3对应的训练语音3；也就是说，训练语音2对应的分类标签为分类2，分类标签通过向量形式表示，向量中分类对应的元素为1，其余元素为0，训练语音2对应的分类标签可以是(0,1,0)。其中，分类1实际是反映一个说话人，分类2对应的说话人和分类1对应的说话人不同。预测标签可以是(0.6,0.2，0.2)，表示预设网络模型认为输入的训练语音对应的分类是分类1的概率最大。在此例子中，为了便于解释，只简单给出了三个训练语音，在实际训练时，训练语音集中的训练语音可以有上千、上万个。

在本发明实施例中，根据预测标签和分类标签计算损失函数值，基于计算的到的损失函数值修改所述预设模型的模型参数，并继续执行将所述训练语音集中的训练语音输入预设网络模型的步骤，直至满足预设训练条件，以得到语音识别模型。可以选择交叉熵作为损失函数。

在发明实施例中，所述预设训练条件包括损失函数值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据语音识别模型的精度来确定，这里不做详细说明，所述预设次数可以为预设网络模型的最大训练次数，例如，4000次等。由此，在计算得到损失函数值后，判断所述损失函数值是否满足预设要求；若损失函数值满足预设要求，则结束训练；若损失函数值不满足预设要求，则判断所述预设网络模型的训练次数是否达到预测次数，若未达到预设次数，则根据所述损失函数值对所述预设网络模型的网络参数进行修正；若达到预设次数，则结束训练。这样通过损失函数值和训练次数来判断预设网络模型训练是否结束，可以避免因损失函数值无法达到预设要求而造成预设网络模型的训练进入死循环。

进一步，由于对预设网络模型的网络参数进行修改是在预设网络模型的训练情况未满足预设训练条件，从而在根据损失函数值对所述预设网络模型的网络参数进行修正后，需要继续对预设网络模型进行训练，即继续执行将所述训练语音集中的训练语音输入预设网络模型的步骤。其中，继续执行将继续执行将所述训练语音集中的训练语音输入预设网络模型中的训练语音可以是从未作为输入项输入预设网络模型的训练语音。例如，训练数据中的所有训练语音具有唯一标识(例如，编号)，第一次训练输入预设网络模型的训练语音的标识与第二次训练输入预设网络模型的训练语音的标识不同。当然，在实际应用中，由于训练语音集中的训练语音的数量有限，为了提高语音识别模型的训练效果，可以依次将训练语音集中的训练语音输入至预设网络模型以对预设网络模型进行训练，当训练语音集中的所有训练语音均输入预设网络模型后，可以继续执行将所述训练语音集中的训练语音输入预设网络模型的操作。在本实施例中，不对“继续执行将所述训练语音集中的训练语音输入预设网络模型的步骤”的具体实现方式进行限定。

在本发明实施例中，在满足预设训练条件后，得到语音识别模型，可以将语音识别模型的参数固定，将语音识别模型用在终端上；或者，在满足预设训练条件后，得到语音识别模型，不固定语音识别模型的参数，并且在使用过程中继续对语音识别模型进行训练。

具体的，终端获取包括关键词的语音信息，通过语音识别模型对语音信息进行识别，进而得到语音识别结果，可以显示语音识别结果，语音识别结果可以是：用户为A，由用户选择真实的用户，根据真实的用户和语音识别结果继续对语音识别模型的模型参数进行调整，可以在使用过程中不断地对语音识别模型的模型参数进行优化调整，以得到分类准确率更好的语音识别模型。例如，用户A发出指令，语音识别模型的识别结果为用户B，终端弹出一提示框，提示框中给出选项，以用于用户A选择真实说话人，用户A选择提示框中的选项“用户A”，则根据语音识别模型预测的“用户B”和真实的说话人“用户A”计算损失函数值，继续对语音识别模型的模型参数进行修改。

在具体实施时，参见图2，一种语音识别的控制方法包括以下过程。

获取包括关键词的语音信息时，将包括关键词的语音信息输入语音识别模型，得到目标声纹数据，当包括关键词的语音信息有多个时，通过语音识别模型可以得到多个语音信息各自分别对应的目标声纹数据。基于标准声纹数据集和得到的所有目标声纹数据可以确定目标相似度。当目标相似度满足预设条件时，可以认为目标相似度对应的目标关键词是预设的用户发出的，则直接响应目标相似度对应的目标关键词；当目标相似度不满足预设条件时，说明目标相似度对应的目标关键词不是预设的用户发出的，则获取距离上一次执行响应操作的时间间隔，若时间间隔大于预设时长，则响应目标关键词，也就是说，在短时间内没有预设的用户发出指令的情况下，终端也可以响应非用户给出的目标关键词。

在一个实施例中，本发明提供了一种计算机设备，该设备可以是终端，内部结构如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络模型接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络模型接口用于与外部的终端通过网络模型连接通信。该计算机程序被处理器执行时以实现了一种语音识别的控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3所示的仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别的控制方法，其特征在于，包括：

2.根据权利要求1所述的语音识别的控制方法，其特征在于，所述标准声纹数据集中包括若干个标准声纹数据；所述根据确定的所有目标声纹数据和预设的标准声纹数据集确定目标相似度，具体包括：

3.根据权利要求1所述的语音识别的控制方法，其特征在于，所述根据所述目标相似度确定所述至少一个语音信息对应的响应操作，并执行所述响应操作，具体包括：

4.根据权利要求1所述的语音识别的控制方法，其特征在于，所述根据所述目标相似度确定所述至少一个语音信息对应的响应操作，并执行所述响应操作，具体包括：

若所述时间间隔小于预设时长，则不响应所述语音信息。

5.根据权利要求4所述的语音识别的控制方法，其特征在于，所述当所述目标相似度不满足预设条件时，获取距离上一次执行响应操作的时间间隔之后，还包括：

6.根据权利要求3-5中任意一项所述的语音识别的控制方法，其特征在于，所述预设条件为：所述目标相似度大于或等于预设阈值。

7.根据权利要求1所述的语音识别的控制方法，其特征在于，所述已训练的语音识别模型是基于预设的训练语音集对预设网络模型进行训练得到的，其中，所述训练语音集中包括多个训练语音，以及每个训练语音对应的分类标签。

8.根据权利要求7所述的语音识别的控制方法，其特征在于，所述语音识别模型的训练过程具体包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任意一项所述的语音识别的控制方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任意一项所述的语音识别的控制方法中的步骤。