CN115985320A

CN115985320A - 智能设备控制方法、装置、电子设备及存储介质

Info

Publication number: CN115985320A
Application number: CN202211659553.9A
Authority: CN
Inventors: 许德玲; 钟悦; 王楠; 雷琴辉; 刘俊峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-04-18

Abstract

本发明提供一种智能设备控制方法、装置、电子设备及存储介质，该方法包括：获取待识别语音；待识别语音包括用于控制智能设备的语音；根据待识别语音，确定输入信息，将输入信息输入至拼音序列预测模型中，得到拼音序列预测模型输出的待识别语音的拼音序列；根据拼音序列，获取待识别语音在目标语言类型下的目标文字序列；根据目标文字序列，对智能设备进行控制；其中，拼音序列预测模型是基于样本语音和样本语音的样本标签，对多任务模型进行训练得到的；样本标签包括拼音序列标签、音调序列标签、合音标签和词汇标签。本发明实现通过语音交互实现智能设备控制，避免直接接触智能设备按钮，能够有效抑制细菌的传播，保障用户健康。

Description

智能设备控制方法、装置、电子设备及存储介质

技术领域

本发明涉及智能控制技术领域，尤其涉及一种智能设备控制方法、装置、电子设备及存储介质。

背景技术

目前，智能设备广泛用于日常生活，如电梯，其不仅体现在载人上，在载货上也有着极其重要的作用。

现有技术中，乘客通过点击电梯按钮来控制电梯。而在电梯这种使用频率极高，以及使用人群复杂且人口密度较高的场景下，多名乘客均通过直接接触电梯按钮来控制电梯，导致电梯按钮上的细菌较多，严重影响乘客健康。

因此，如何提供一种智能设备控制技术，以避免直接接触智能设备按钮，高效安全地对智能设备进行控制是目标目前业界亟待解决的重要课题。

发明内容

本发明提供一种智能设备控制方法、装置、电子设备及存储介质，用以解决现有技术中乘客直接接触智能设备按钮来控制智能设备，严重影响乘客健康的缺陷。

本发明提供一种智能设备控制方法，包括：

获取待识别语音；所述待识别语音包括用于控制智能设备的语音；

根据所述待识别语音，确定输入信息，将所述输入信息输入至拼音序列预测模型中，得到所述拼音序列预测模型输出的所述待识别语音的拼音序列；

根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列；

根据所述目标文字序列，对所述智能设备进行控制；其中，所述拼音序列预测模型是基于样本语音和所述样本语音的样本标签，对多任务模型进行训练得到的；所述样本标签包括拼音序列标签、音调序列标签、合音标签和词汇标签。

根据本发明提供的一种智能设备控制方法，所述多任务模型包括共享特征提取模块和预测模块，所述预测模块包括拼音序列预测分支模块、音调序列预测分支模块和合音词汇预测分支模块；

所述拼音序列预测模型是基于如下步骤训练得到的：

根据所述样本语音，确定样本输入信息，将所述样本输入信息输入至所述共享特征提取模块中，得到所述共享特征提取模块输出的所述样本语音的样本特征；

将所述样本特征输入至所述预测模块中，得到所述拼音序列预测分支模块输出的所述样本语音的样本拼音序列、所述音调序列预测分支模块输出的所述样本语音的样本音调序列，以及所述合音词汇预测分支模块输出的所述样本语音的样本合音预测结果和样本词汇预测结果；

根据所述拼音序列标签、所述音调序列标签、所述合音标签、所述词汇标签，以及所述样本拼音序列、所述样本音调序列、所述样本合音预测结果和所述样本词汇预测结果，对所述多任务模型的参数进行迭代训练；

根据训练后的多任务模型中的共享特征提取模块和拼音序列预测分支模块，构建所述拼音序列预测模型。

根据本发明提供的一种智能设备控制方法，所述根据所述拼音序列标签、所述音调序列标签、所述合音标签、所述词汇标签，以及所述样本拼音序列、所述样本音调序列、所述样本合音预测结果和所述样本词汇预测结果，对所述多任务模型的参数进行迭代训练，包括：

根据所述拼音序列标签和所述样本拼音序列，获取第一损失函数；

根据所述音调序列标签和所述样本音调序列，获取第二损失函数；

根据所述合音标签、所述词汇标签，以及所述样本合音预测结果和所述样本词汇预测结果，获取第三损失函数；

根据所述第一损失函数、所述第二损失函数和所述第三损失函数，对所述多任务模型的参数进行迭代训练。

根据本发明提供的一种智能设备控制方法，所述根据所述目标文字序列，对所述智能设备进行控制，包括：

在确定所述目标文字序列中包含命令文字的情况下，对所述目标文字序列进行关键词提取，得到关键词集合；

对所述关键词集合进行合法性验证；

在所述关键词集合通过合法性验证的情况下，根据所述关键词集合，生成智能设备控制指令；

根据所述智能设备控制指令，对所述智能设备进行控制。

根据本发明提供的一种智能设备控制方法，所述方法还包括：

根据所述关键词集合，确定所述待识别语音对应的响应信息；

将所述响应信息按照所述待识别语音对应的语言类型，进行播报。

根据本发明提供的一种智能设备控制方法，所述根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列，包括：

根据第一词典库，生成所述拼音序列对应的文字序列候选集合；

根据多元语言模型，计算所述文字序列候选集合中每一候选文字序列的得分；

根据最高得分对应的候选文字序列，获取所述目标文字序列。

根据本发明提供的一种智能设备控制方法，所述根据最高得分对应的候选文字序列，获取所述目标文字序列，包括：

对所述最高得分对应的候选文字序列进行分词，得到多个词语；

根据第二词典库，将所述多个词语对应的语言类型转换为所述目标语言类型；

根据转换结果，获取所述目标文字序列。

根据本发明提供的一种智能设备控制方法，所述根据所述待识别语音，确定输入信息，包括：

对所述待识别语音进行预处理，所述预处理包括降噪处理和/或梅尔频率倒谱系数的特征提取处理；

根据预处理后的待识别语音，确定所述输入信息。

本发明还提供一种智能设备控制装置，包括：

语音采集单元，用于获取待识别语音；所述待识别语音包括用于控制智能设备的语音；

第一识别单元，用于根据所述待识别语音，确定输入信息，将所述输入信息输入至拼音序列预测模型中，得到所述拼音序列预测模型输出的所述待识别语音的拼音序列；

第二识别单元，用于根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列；

设备控制单元，用于根据所述目标文字序列，对所述智能设备进行控制；

其中，所述拼音序列预测模型是基于样本语音和所述样本语音的样本标签，对多任务模型进行训练得到的；所述样本标签包括拼音序列标签、音调序列标签、合音标签和词汇标签。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述智能设备控制方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述智能设备控制方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述智能设备控制方法。

本发明提供的智能设备控制方法、装置、电子设备及存储介质，通过对用于控制智能设备的待识别语音进行拼音序列预测，并将带有音调的拼音序列转换为通用语言类型下的目标文字序列，以根据目标文字序列对智能设备进行自动、高效、安全地控制，避免直接接触智能设备按钮，能够有效抑制细菌的传播，保障用户健康。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的智能设备控制方法的流程示意图之一；

图2是本发明提供的智能设备控制方法的流程示意图之二；

图3是本发明提供的智能设备控制方法中多任务模型的结构示意图；

图4是本发明提供的智能设备控制方法中卷积层的结构示意图；

图5是本发明提供的智能设备控制方法的流程示意图之三；

图6是本发明提供的智能设备控制方法的流程示意图之四；

图7是本发明提供的智能设备控制方法的流程示意图之五；

图8是本发明提供的智能设备控制方法的流程示意图之六；

图9是本发明提供的智能设备控制装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，对于智能设备，如电梯这种使用频率极高、使用人群复杂且人口密度较高的场景下，主要通过乘客手动点击电梯按钮来控制电梯，导致电梯按钮上残留有各种细菌，严重影响乘客的健康，且控制效率低下。

而通过语音交互的方式来控制智能设备，相比于传统的点击电梯按钮来控制电梯的方式而言，避免了乘客直接接触电梯按钮而被病毒感染的风险，具有卫生、安全且高效等优势。因此，如何基于语音控制智能设备已经成为本领域的研究热点。

针对上述问题，本发明实施例提供一种智能设备控制方法。图1是本发明提供的智能设备控制方法的流程示意图，如图1所示，该方法包括：

步骤101，获取待识别语音；所述待识别语音包括用于控制智能设备的语音；需要说明的是，智能设备可以是电梯、智能门禁和智能空调等，也可以是其他任意可用于语音交互控制的设备，本实施例对此不做具体地限定。

可选地，待识别语音包括需要进行语音识别的语音，如电梯内乘客发出的包括需要对电梯进行控制的语音；待识别语音的语言类型可以是方言或普通话，本实施例对此不作具体地限定。

待识别语音可以通过语音采集器得到，此处语音采集器可以是包含语音采集功能的智能手机、平板电脑，还可以是智能电器，如电视和空调等，语音采集器在经过麦克风阵列采集得到待识别语音后，还可以对待识别语音进行放大和/或降噪等，具体可以根据实际应用场景继续适应性地选择。

步骤102，根据所述待识别语音，确定输入信息，将所述输入信息输入至拼音序列预测模型中，得到所述拼音序列预测模型输出的所述待识别语音的拼音序列；其中，所述拼音序列预测模型是基于样本语音，以及所述样本语音的样本标签对多任务模型进行训练得到的，所述样本标签包括拼音序列标签、音调序列标签、合音标签和词汇标签；

其中，拼音序列预测模型可以是基于一种或多种神经网络模型构建生成，如卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent NeuralNetwork，RNN)和全连接网络中一种或多种，本实施例对此不作具体限定。

拼音序列预测模型用于对输入信息进行特征提取和预测，以自动输出带音调的拼音序列。

其中，多任务模型的任务数量与样本标签数量相适应。在样本标签包括但不限于拼音序列标签、音调序列标签、合音标签和词汇标签的情况下，多任务模型包括主任务和附加任务，其中，主任务为拼音序列预测任务；附加任务，包括但不限于音调序列预测任务，以及合音固有词汇预测任务。多任务模型中多任务之间通过浅层参数的共享，使得多任务之间互相补充、互相学习、互相分享，互相促进训练得到拼音序列预测模型，进而使得拼音序列预测模型具有更好的泛化效果的同时，具有更好的预测准确类。

可选地，在执行步骤102之前，可以预先训练拼音序列预测模型，具体步骤包括：

首先创建多任务模型，此处的多任务模型可以包含共享特征提取模块和预测模块，预测模块包括拼音序列预测分支模块、音调序列预测分支模块和合音词汇预测分支模块。

其中，共享特征提取模块可以是参数初始化后预备用于特征提取的模块，也可以是预先训练好的具备特征提取功能的模块；同样地，预测模块中的各模块可以是参数初始化后预备用于预测的模块，也可以是预先训练好的具备预测功能的预测模型，本发明实施例对此不作具体限定。

此外，还需要构建样本语料库，以从样本语料库中获取样本语音，以及对样本语音进行人工标注、复核等，获取样本语音的样本标签，包括但不限于拼音序列标签、音调序列标签、合音标签和词汇标签。

需要说明的是，不同语言类型的语言特点不同。在对样本语音的标签进行标注时，需要分析样本语音对应的语言类型的语言特点，包括但不限于声母和韵母特点、声调特点、合音特点，以及固有词汇特点，以根据语言特点为样本语音标注相应的拼音序列标签、音调序列标签、合音标签和词汇标签。

以河南方言为例，河南方言比普通话多三个声母，多两个韵母；在音调方面和普通话一致，分别为阴平、阳平、上声、去声四个音调，而这四个音调的调值分别为：阴平为24、阳平为42、上声为55、去声为31；在合音方面，河南方言里的一些双音词会合读成单音词，例如里头这个词在合音前是[li tou]，在合音后是[liu]，类似的合音需要进行大量的语料收集；在固有词汇方面，比如“中”，发音为“zhong”，可同译为“好”、“行”，“可以”，类似的固有词汇需要大量的语料收集。

在获取到样本语音和样本语音的样本标签之后，可以对多任务模型进行迭代训练；例如，对多任务模型进行两级迭代训练，包括内部迭代训练和外部迭代训练；对于每一次内部迭代，对于多任务模型中任一任务，根据该任务对应的样本语音以及该任务对应的样本标签，对该任务对应的预测分支模块以及共享特征提取模块进行迭代训练，在此次训练的共享特征提取模块的基础上，继续对其他任务对应的预测分支模块以及共享特征提取模块进行迭代训练，直到所有任务对应的预测分支模型均训练完成，以完成一次内部迭代训练；然后，迭代执行上述内部迭代训练，直到多任务模型在主任务下收敛，以完成外部迭代训练。

又如，对多任务模型进行整体迭代训练；具体根据样本语音确定多任务模型的样本输入，由共享特征提取模块对样本语音进行特征提取，得到样本语音的样本特征，再由各任务对应的预测分支模型预测输出各任务下的样本语音的预测结果，在得到各任务下的样本语音的预测结果之后，即可基于各任务下的样本语音的预测结果以及各任务下的样本标签，计算损失函数，基于损失函数对多任务模型进行整体训练。

由此得到训练后的多任务模型，以将训练后的多任务模型中的共享特征提取模块和拼音序列预测分支模块，构建形成拼音序列预测模型。

在获取到拼音序列预测模型之后，可以根据待识别语音，确定拼音序列预测模型的输入信息，具体方式可以是直接将待识别语音作为输入信息；或者，对待识别语音进行预处理之后，如降噪处理以及多维特征提取等，然后根据预处理后的待识别语音，确定输入信息等，本实施例对此不作具体地限定。

然后，基于拼音序列预测模型，对输入信息进行拼音序列预测，由此自动输出带有音调的拼音序列。

步骤103，根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列；

其中，目标语音类型为通用语言类型，如普通话。

可选地，在获取到拼音序列之后，可以直接将拼音序列映射形成目标语言类型下的目标文字序列；也可以是先判断待识别语音的语言类型是否与目标语言类型一致，在一致的情况下，直接将拼音序列转换为目标文字序列；在不一致的情况下，先将拼音序列转换为待识别语音的语言类型对应的初始文本序列，再将初始文本序列映射形成目标语言类型下的目标文字序列，本实施例对目标文字序列的获取方式不作具体地限定。

步骤104，根据所述目标文字序列，对所述智能设备进行控制。

可选地，在获取到目标文字序列后，可以从目标文字序列中提取与智能设备控制参数相关的文字，以将智能设备控制参数相关的文字转换为智能设备控制指令，以根据智能设备控制指令对智能设备进行控制。

可以理解的是，相比于现有技术中采用人工点击智能设备按钮来控制智能设备的方式，本实施例中采用语音交互的方式自动控制智能设备，避免了接触智能设备按钮而产生细菌的风险，具有卫生、安全且高效的优势；且支持各种语言类型，可以适用于多种场景，对于一些不太习惯普通话的老年用户群体在智能设备中支持方言功能，便于用户精准实现智能设备控制，如电梯的楼层选择，可有效提升用户体验感。

本实施例提供的智能设备控制方法，通过对用于控制智能设备的待识别语音进行拼音序列预测，并将带有音调的拼音序列转换为通用语言类型下的目标文字序列，以根据目标文字序列对智能设备进行自动、高效、安全地控制，避免直接接触智能设备按钮，能够有效抑制细菌的传播，保障用户健康。

在一些实施例中，所述多任务模型包括共享特征提取模块和预测模块，所述预测模块包括拼音序列预测分支模块、音调序列预测分支模块和合音词汇预测分支模块；

如图2所示，为拼音序列预测模型的训练流程示意图，具体包括：

步骤201，根据所述样本语音，确定样本输入信息，将所述样本输入信息输入至所述共享特征提取模块中，得到所述共享特征提取模块输出的所述样本语音的样本特征；

步骤202，将所述样本特征输入至所述预测模块中，得到所述拼音序列预测分支模块输出的所述样本语音的样本拼音序列、所述音调序列预测分支模块输出的所述样本语音的样本音调序列，以及所述合音词汇预测分支模块输出的所述样本语音的样本合音预测结果和样本词汇预测结果；

步骤203，根据所述拼音序列标签、所述音调序列标签、所述合音标签、所述词汇标签，以及所述样本拼音序列、所述样本音调序列、所述样本合音预测结果和所述样本词汇预测结果，对所述多任务模型的参数进行迭代训练；

步骤204，根据训练后的多任务模型中的共享特征提取模块和拼音序列预测分支模块，构建所述拼音序列预测模型。

如图3所示，为多任务模型的结构示意图；多任务模型包括共享特征提取模块和拼音序列预测分支模块、音调序列预测分支模块和合音词汇预测分支模块。

其中，特征提取模块基于多层CNN层和多层RNN层构建生成，具体数量可以根据实际需求进行设置。示例性地，基于两层CNN层和两层RNN层堆叠形成。特征提取模块是多任务模型中多个预测任务的共享层，使多个任务之间能够互相补充、互相学习、互相分享，互相促进，从而提升主任务(即拼音序列预测任务)的预测准确率。

如图4所示，为每一CNN层的结构示意图，具体包括卷积子层、批量标准化子层、激活函数子层以及池化子层。其中，池化子层可以是最大池化。

对于拼音序列预测分支模块、音调序列预测分支模块和合音词汇预测分支模块的每一预测分支模块，其可以是基于多层全连接层以及损失函数层构建生成，全连接层的具体数量可以根据实际需求进行设置。示例性地，拼音序列预测分支模块基于两层全连接层以及CTC(Connectionist Temporal Classification，连接时序分类)损失函数层堆叠形成。其中，CTC可以直接将样本语音在时间上的帧序列和相应的转录文字序列在模型训练过程中自动对齐，从而得到带音调的拼音序列。

作为优选，在确定多任务模型的初始结构以及样本语音和样本标签之后，即可针对多任务模型展开训练。具体可对样本语音进行降噪处理和/或梅尔频率倒谱系数的特征提取处理，以根据预处理后的样本语音，确定多任务模型的样本输入信息。然后，由多任务模型中的共享特征提取模块对样本输入信息经过两层CNN层卷积操作之后，再经过两层RNN层处理，得到样本语音的样本特征；再将样本特征输入至预测模块中，由预测模型中的拼音序列预测分支模块对样本特征经过两层全连接层的处理，再经过激活函数的处理，预测输出样本拼音序列；由预测模型中的音调序列预测分支模块对样本特征经过两层全连接层的处理，再经过激活函数的处理，预测输出样本音调序列；以及由预测模型中的合音词汇预测分支模块对样本特征经过两层全连接层的处理，再经过激活函数的处理，预测输出样本合音预测结果和样本词汇预测结果。

然后，再由各预测分支模块的损失函数层，基于各自预测输出的预测结果以及对应的样本标签，计算获取多任务模型的损失函数，并根据损失函数，进行反向传播训练，以更新多任务模型的参数，直到主任务对应的预测分支模块(即拼音序列预测分支模块)的模型满足训练终止条件；训练终止条件包括达到最大训练次数或者模型性能满足最佳性能要求，本实施例对此不作具体地限定。

其中，获取损失函数的方式，可以是分别计算每一任务下的损失函数，然后将多个任务下的损失函数直接相加或加权相加后，得到多任务模型的损失函数。

在获取到训练后的多任务模型后，可以基于训练后的多任务模型中的共享特征提取模块和拼音序列预测分支模块，构建形成拼音序列预测模型。

本实施例中，在拼音序列预测模型过程中，联合音调序列预测任务以及合音词汇预测任务作为辅助任务，将拼音序列预测任务主任务，通过多个任务之间的相互学习、相互促进、相互补充、相互分享进行协同训练，使得训练得到拼音序列预测模型的模型性能更优，具备更强的语义合理性，进一步提高智能设备控制的精准性。

在一些实施例中，步骤203中对多任务模型的参数进行迭代训练的步骤进一步包括：

可选地，在获取到样本拼音序列、样本音调序列、样本合音预测结果和样本词汇预测结果之后，可以根据拼音序列标签和样本拼音序列之间的差异，计算得到第一损失函数；

根据音调序列标签和样本音调序列之间的差异，计算得到第二损失函数；

根据合音标签与样本合音预测结果之间的差异，以及词汇标签与样本词汇预测结果之间的差异，计算得到第三损失函数，如将两者之间的差异进行加权融合，得到第三损失函数。

最后，将第一损失函数、第二损失函数和第三损失函数进行融合，以得到多任务模型的损失函数，进而根据多任务模型的损失函数对多任务模型的参数进行整体迭代更新，以得到可精准预测拼音序列的多任务模型。

本实施例中，通过联合多个任务对应的损失函数，对多任务模型进行协同训练，可快速精准地获取具有良好预测性能的拼音序列预测模型，进而提高智能设备控制的精准性和用户体验感。

在一些实施例中，所述根据所述目标文字序列，对所述智能设备进行控制，包括：

对所述关键词集合进行合法性验证；

根据所述智能设备控制指令，对所述智能设备进行控制。

如图5所示，以下以智能设备为电梯为例，步骤104中对智能设备进行控制的步骤进一步包括：

步骤1041，获取目标文字序列；

步骤1042，判断目标文本序列中是否包含命令文字；在确定目标文本序列中包含命令文字的情况下，执行步骤1043，否则，执行步骤1046；

步骤1043，对目标文字序列进行关键词提取，得到关键词集合。

其中，关键词集合包括控制类参数和/或数字类参数；控制类参数为用于对智能设备进行控制的参数，如电梯对应的控制类参数包括“去”、“上”、“下”等关键词；数字类参数为表征用户所需到达的数据效果，如电梯对应的数字类参数包括楼层数“10”和“12”等关键词。

步骤1044，在关键词集合提取成功的情况下，进一步判断关键词集合中各参数的合法性，在通过合法性验证的情况下，执行步骤1045，否则执行步骤1046；

步骤1045，根据关键词集合，生成电梯控制指令，根据电梯控制指令，对电梯进行控制；

步骤1046，退出电梯控制。

本实施例中，可自动对用于对智能设备进行控制的待识别语音进行识别，以根据识别得到的目标文字序列自动进行合法性验证以及智能设备控制指令的生成，实现对智能设备的无接触控制，避免细菌传播，不仅可以有效保障用户的健康，还可以提高智能设备的安全性，智能设备控制的高效性和便捷性。

在一些实施例中，智能设备控制方法还包括：

其中，响应信息根据关键词集合中参数类型的不同，分为第一响应信息或第二响应信息。

可选地，在以下以智能设备为电梯为例，对电梯控制过程中，若关键词集合中包含数字类参数，则在根据电梯控制指令触发了电梯相应楼层控制操作的情况下，将关键词集合中的数字类参数配置在提示语资源库中的提示模板中，以生成待识别语音对应的第一响应信息，并将第一响应信息以待识别语音对应的语言类型进行播报。第一响应信息用于提示楼层控制操作已触发。例如，数字类参数为10，且基于电梯控制指令触发了10楼的控制操作，则用待识别语音对应的语言类型(如方言)播报“已按下10楼的电梯”的响应信息。需要说明的是，提示语资源库中提前配置有提示模板，且提示语资源库支持多种语言类型。

在关键词集合中不包含数字类参数的情况下，则生成第二响信息，并将第二响应信息以待识别语音对应的语言类型进行播报。第一响应信息用于提示乘客选择楼层。例如，用待识别语音对应的语言类型(如方言)播报“请说出您想去的楼层”的响应信息。

本实施例中，可以根据关键词集合，以待识别语音对应的语言类型适应性地对用户发出的待识别语音做出响应，以实现良好的语音交互，进一步提高用户体验感。

在一些实施例中，所述根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列，包括：

其中，第一词典库为包含拼音和文字之间映射关系的词典(即拼音-汉字词典库)，该词典中的拼音和文字的语言类型为同一语言类型。

可选地，在得到带音调的拼音序列之后，可将带音调的拼音序列输入至语言模型中，由语言模型对带音调的拼音序列进行映射，得到目标语言类型下的目标文字序列。其中，语言模型是基于统计多元语言模型构建生成，如N元语言模型。该语言模型用于分析语料库，以及词典库，从统计学的角度分析计算出属于拼音序列的概率最高的候选文字序列，即与拼音序列匹配度最高的文字序列，以获取目标文字序列。

如图6所示，步骤103获取目标文字序列的步骤包括：

步骤1031，将所述目标文字序列输入至语言模型中，由语言模型加载第一词典库，得到带音调的拼音序列对应的所有合法的候选文字序列，形成文字序列候选集合。

步骤1032，根据N元语言模型的语料库，计算文字序列候选集合中每一候选文字序列的得分，即每一候选文字序列在N元语言模型中的输出概率。

步骤1033，从文字序列候选集合中，选择最高得分对应的候选文字序列作为输出，以最高得分对应的候选文字序列，获取得到目标文字序列。

其中，N元语言模型是基于多种语言类型的文字序列数据库训练得到的。

N元语言模型的理论依据为，假设候选文字序列S，其由一连串的字w₁,w₂,…,w_T构成(T为文字序列的长度)，那么文本S成立的可能性，即其概率P(S)为第一个字出现的概率乘上第二个字在第一个字出现的条件下出现的概率，再乘上第三个字在前两个字出现的条件下出现的概率，一直到最后一个字。每一个字的出现的概率，都与前面所有词有关；

那么可以得到候选文字序列S的概率P(S)如下公式：

P(S)＝P(w₁,w₂,…,w_n)＝

P(w₁)*P(w₂|w₁)*P(w₃|w₂)…P(w_n|w_n-1)；

本实施例中，通过基于N元语言模型和词典库，可高效精准地获取目标文字序列，以实现通过语音交互实现智能设备的无接触式精准控制。

在一些实施例中，步骤1033中根据最高得分对应的候选文字序列，获取所述目标文字序列的步骤进一步包括：

根据转换结果，获取所述目标文字序列。

其中，第二词典库为包含待识别语音所属语言类型(如方言)和目标语言类型(如普通话)之间映射关系的词典，如方言-普通话词典库。

可选地，对最高得分对应的候选文字序列进行分词，以得到最高得分对应的候选文字序列的多个词语。

并通过加载第二词典库，以根据第二词典库中待识别语音所属语言类型和目标语言类型之间的映射关系，将多个词语对应的语言类型转换为目标语言类型，以将最高得分对应的候选文字序列转化为目标语言类型下的目标文字序列，以根据目标文字序列自动精准地进行智能设备控制。

在一些实施例中，所述根据所述待识别语音，确定输入信息，包括：

根据预处理后的待识别语音，确定所述输入信息。

可选地，由于在语音采集过程中，语音采集器因受环境影响导致采集的待识别语音中包含大量的噪声信号，严重影响语音识别精度。由此，本实施例在将待识别语音输入至拼音序列预测模型之前，先采用语音降噪算法，对待识别语音进行降噪处理，以消除待识别语音中的噪声信号。其中，语音降噪算法包括滤波降噪、以及基于各种神经网络模型构建的降噪算法等，本实施例对此不作具体地限定。

此外，还可以对待识别语音中的音频信息进行梅尔频率倒谱系数的特征提取，通过在音频信息中，对非线性梅尔刻度的对数能量频谱，进行线性变换得到能够更准确表征语音的相关特征，以使得输入拼音序列预测模型中的输入信息能够更加精准表征语音信息，从而有助于后续的语音识别过程，提高语音识别精度，进而提高智能设备控制精度。

如图7所示，为梅尔频率倒谱系数的特征提取的流程示意图，主要包括如下步骤：

步骤701，对待识别语音进行分帧、预加重和加窗；

由于待识别语音可以是以原始音频文件存储在硬盘中，而其为非定长语音序列，因此首先需要将其按一定方法切分为固定长度的多个小片段，即分帧操作。接着需要预加重处理，目的是加强语音信号的每一帧中高频部分的信号，从而提高其高频信号的分辨率。最后进行加窗操作，目的是消除每个帧的短时信号在其两端边缘处出现的信号不连续性问题。

其中，对于分帧操作，需要根据待识别语音变化迅速的特性，设置每一帧音频的时间长度，如设置为10到30毫秒，以保证每一帧内有足够多的周期，且变化不会过于剧烈，以更适合这种适用于分析平稳信号的傅里叶变换。另外，由于数字音频的采样率不同，分帧所得的每一帧向量的维度也不同。为了避免时间窗的边界导致信息遗漏的问题，因此，在对从信号中取每一帧的时间窗进行偏移的时候，相邻帧之间需要有一部分的重叠区域。通常，时间窗的偏移量一般取为帧长的一半，为避免了帧与帧之间的特性变化过大，需要适应地选取时间窗长度和时间窗的偏移量，如选取时间窗长度为25毫秒，时间窗的偏移量为10毫秒。

对于预加重操作，预加重的主要功能是提高信号能量低的部分，提高后的语音信号可以在各个频段分布均匀。一般情况下，采集到的待识别语音在高频段的能量比低频段弱，因此，需要加强高频段能量。针对高频段能量的加重，采用数字滤波器来提高频谱，计算公式如下：

H(z)＝1-αz^-1；

其中，α为预加重系数，取值范围可以根据实际需求进行设置，如0.9到1.0之间；H(z)为数字滤波器的传递函数，z为数字滤波器的参数，为自变量；

为预加重后的第n帧音频信号，S(n)为预加重处理前的第n帧音频信号，N为待识别语音的总帧数。

对于加窗操作，在对语音信号进行分帧处理时，分布在零点左右的频带会变宽，引起部分能量丢失，因此，引入窗函数，对语音信号进行截取，但是在这个过程中会造成截断效应产生的频谱泄漏，通过增加汉明窗可以消除每个帧的短时信号在其两端边缘处出现的信号不连续性问题。其中,汉明窗的表达式为：

(0≤n≤N,n＝0,1,2,…,N；

其中，W(n)为第n帧音频信号的窗信号。

第n帧音频信号的窗信号与第n帧音频信号相乘，即可获取加窗后的第n帧音频信号。

步骤702，傅里叶变换，在经过上述的一系列的处理过程之后，得到的各帧音频信号仍然是时域信号，而时域信息中可直接获取的语音信息量较少。因此进行进一步的特征提取时，还需要通过快速傅里叶变换将每一帧音频信号的时域信号对应转换得到每一帧音频信号的频域信号。

其中，P(n)为第n帧音频信号的频域信号，S(n)为第n帧音频信号，k为第n帧音频信号中的第k个取样点；L为采样点总个数。

步骤703，梅尔频谱滤波，使用一组三角带通滤波器对傅里叶变换后的待识别语音进行滤波处理，具体计算公式如下：

其中，H_m[k]为第m个梅尔线性频率滤波器的频率响应函数，f_m-1为第m个梅尔线性频率滤波器的频率。

接着计算H_m[k]的对数能量E_m公式为：

步骤704，离散余弦变换；经过上述处理之后得到的N维特征向量值，由于不同阶数信号值之间具有一定的相关性，为了去掉这种相关性，将信号再映射到低维的空间中，需要进行一次离散余弦变换，计算公式如下：

其中，C_i为第i阶梅尔线性频率滤波器的参数。

步骤705，计算动态特征；上述描述的梅尔频率倒谱系数算法只能得到静态特征，而其动态特征还需要使用静态特征的差分来表示。通过动态的特征和静态特征相结合，可以有效的提高语音识别的性能。差分参数的计算公式如下：

其中，d_t是第t帧音频信号的一阶差分值，C_t是第t个倒谱系数值，Q是倒谱系数的最大阶数，K是参与一阶差分的帧音频信号之间的时间差。

本实施例中，通过对待识别语音进行降噪处理和梅尔频率倒谱系数的特征提取处理，使得输入拼音序列预测模型中的输入信息能够更加精准表征语音信息，从而有助于提高语音识别精度以及提高智能设备控制精度。

如图8所示，为本实施例提供的智能设备控制方法的完整流程示意，具体包括如下步骤：

步骤801，构建样本语料库，从样本语料库中获取样本语音，并对样本语音进行人工标注，得到样本语音的样本标签；

步骤802，对样本语音进行降噪处理和梅尔频率倒谱系数的特征提取，得到样本特征，基于样本特征以及样本标签，对多任务模型进行训练得到拼音序列预测模型；

步骤803，采集待识别语音；

步骤804，对待识别语音进行降噪处理和梅尔频率倒谱系数的特征提取，得到拼音序列预测模型的输入信息；

步骤805，将输入信息输入至步骤802训练得到拼音序列预测模型，得到待识别语音的带音调的拼音序列；

步骤806，将带音调的拼音序列输入至语言模型中；

步骤807，由语言模型加载第一字典库和第二字典库以及N元语言模型，对带音调的拼音序列映射，得到待识别语音在目标语言类型下的目标文字序列；

步骤808，基于目标文字序列对智能设备进行控制；

步骤809，对待识别语音的响应信息进行语音播报。

综上，本实施例提供一种智能设备控制方法，具有如下优势：

其一，可支持多种语言类型，包括各种方言和普通话，提高智能设备控制的准确性、灵活性和适用性；

其二，在拼音序列预测模型的训练过程引入多任务学习技术，针对方言较普通话特有的音调、合音词、固有词汇创建多个学习任务，多个任务通过共享浅层的方式可以互相补充、互相学习、互相分享，互相促进，从而拼音序列预测模型的预测性能，进一步提高智能设备控制的准确性；

其三，优化了数据处理流程，将待识别语音依次经过语音特征提取得到多维特征数据，再经过拼音序列预测模型得到拼音序列，再经过语言模型得到文本序列，从而提升该场景的语音识别准确率，进一步提高智能设备控制的准确性；

其四，支持各种语言的语言交互，如方言，有效提高用户体验感。

下面对本发明提供的智能设备控制装置进行描述，下文描述的智能设备控制装置与上文描述的智能设备控制方法可相互对应参照。

如图9所示，本实施例提供一种智能设备控制装置，该装置包括：

语音采集单元901用于获取待识别语音；所述待识别语音包括用于控制智能设备的语音；

第一识别单元902用于根据所述待识别语音，确定输入信息，将所述输入信息输入至拼音序列预测模型中，得到所述拼音序列预测模型输出的所述待识别语音的拼音序列；

第二识别单元903用于根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列；

设备控制单元904用于根据所述目标文字序列，对所述智能设备进行控制；

本实施例提供的智能设备控制装置，通过对用于控制智能设备的待识别语音进行拼音序列预测，并将带有音调的拼音序列转换为通用语言类型下的目标文字序列，以根据目标文字序列对智能设备进行自动、高效、安全地控制，避免直接接触智能设备按钮，能够有效抑制细菌的传播，保障用户健康。

该装置还包括训练单元，用于：

在一些实施例中，训练单元还用于：

在一些实施例中，设备控制单元904具体用于：

对所述关键词集合进行合法性验证；

根据所述智能设备控制指令，对所述智能设备进行控制。

在一些实施例中，该装置还包括语音播报单元，具体用于：

在一些实施例中，第二识别单元903具体用于：

在一些实施例中，第二识别单元903还用于：

根据转换结果，获取所述目标文字序列。

在一些实施例中，第一识别单元902具体用于：

根据预处理后的待识别语音，确定所述输入信息。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令，以执行智能设备控制方法，该方法包括：获取待识别语音；所述待识别语音包括用于控制智能设备的语音；根据所述待识别语音，确定输入信息，将所述输入信息输入至拼音序列预测模型中，得到所述拼音序列预测模型输出的所述待识别语音的拼音序列；根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列；根据所述目标文字序列，对所述智能设备进行控制；其中，所述拼音序列预测模型是基于样本语音和所述样本语音的样本标签，对多任务模型进行训练得到的；所述样本标签包括拼音序列标签、音调序列标签、合音标签和词汇标签。

此外，上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的智能设备控制方法，该方法包括：获取待识别语音；所述待识别语音包括用于控制智能设备的语音；根据所述待识别语音，确定输入信息，将所述输入信息输入至拼音序列预测模型中，得到所述拼音序列预测模型输出的所述待识别语音的拼音序列；根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列；根据所述目标文字序列，对所述智能设备进行控制；其中，所述拼音序列预测模型是基于样本语音和所述样本语音的样本标签，对多任务模型进行训练得到的；所述样本标签包括拼音序列标签、音调序列标签、合音标签和词汇标签。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的智能设备控制方法，该方法包括：获取待识别语音；所述待识别语音包括用于控制智能设备的语音；根据所述待识别语音，确定输入信息，将所述输入信息输入至拼音序列预测模型中，得到所述拼音序列预测模型输出的所述待识别语音的拼音序列；根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列；根据所述目标文字序列，对所述智能设备进行控制；其中，所述拼音序列预测模型是基于样本语音和所述样本语音的样本标签，对多任务模型进行训练得到的；所述样本标签包括拼音序列标签、音调序列标签、合音标签和词汇标签。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能设备控制方法，其特征在于，包括：

2.根据权利要求1所述的智能设备控制方法，其特征在于，所述多任务模型包括共享特征提取模块和预测模块，所述预测模块包括拼音序列预测分支模块、音调序列预测分支模块和合音词汇预测分支模块；

所述拼音序列预测模型是基于如下步骤训练得到的：

3.根据权利要求2所述的智能设备控制方法，其特征在于，所述根据所述拼音序列标签、所述音调序列标签、所述合音标签、所述词汇标签，以及所述样本拼音序列、所述样本音调序列、所述样本合音预测结果和所述样本词汇预测结果，对所述多任务模型的参数进行迭代训练，包括：

4.根据权利要求1-3任一所述的智能设备控制方法，其特征在于，所述根据所述目标文字序列，对所述智能设备进行控制，包括：

对所述关键词集合进行合法性验证；

根据所述智能设备控制指令，对所述智能设备进行控制。

5.根据权利要求4所述的智能设备控制方法，其特征在于，所述方法还包括：

6.根据权利要求1-3任一所述的智能设备控制方法，其特征在于，所述根据所述拼音序列，获取所述待识别语音在目标语言类型下的目标文字序列，包括：

7.根据权利要求6所述的智能设备控制方法，其特征在于，所述根据最高得分对应的候选文字序列，获取所述目标文字序列，包括：

根据转换结果，获取所述目标文字序列。

8.根据权利要求1-3任一所述的智能设备控制方法，其特征在于，所述根据所述待识别语音，确定输入信息，包括：

根据预处理后的待识别语音，确定所述输入信息。

9.一种智能设备控制装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述智能设备控制方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述智能设备控制方法。