CN113314119A

CN113314119A - 语音识别智能家居控制方法及装置

Info

Publication number: CN113314119A
Application number: CN202110852245.7A
Authority: CN
Inventors: 刘静
Original assignee: Shenzhen Baiyuda Technology Co ltd
Current assignee: Shenzhen Baiyuda Technology Co ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-08-27
Anticipated expiration: 2041-07-27
Also published as: CN113314119B

Abstract

本申请实施例公开了语音识别智能家居控制方法及装置，该方法包括：第一设备接收来自第二设备的待识别语音，第二设备为支持采集用户语音的设备；对待识别语音进行识别，得到目标文本，目标文本为待识别语音中目标说话人的语音对应的文本；根据目标文本确定目标设备和目标操作指令；向目标设备发送目标操作指令。本申请通过由第一设备对第二设备采集的待识别语音进行语音识别，可以提高语音识别的精确度，并且通过第一设备将识别出的目标操作指令发送给目标设备，从而能够在远端实现对不具有语音识别模块的智能家居进行语音控制。

Description

语音识别智能家居控制方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及一种语音识别智能家居控制方法及装置。

背景技术

随着科技的不断进步，使智能化的发展不断进步，其中智能家居系统与人们的生活有着密切的关系，为人们提供着一个更舒适、更便利、更安全的生活环境，因此得到了人们广泛的关注。智能家居是以住宅为平台，利用综合布线技术、网络通信技术、智能家居-系统设计方案安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成，构建高效的住宅设施与家庭日程事务的管理系统，提升家居安全性、便利性、舒适性、艺术性，并实现环保节能的居住环境；

随着智能家居的发展，现有对智能家居系统的控制一般是通过语音的方式进行，但是其需要用户在智能家居的语音接收范围内对其进行语音控制，并且需要在每个智能家居中都设置有语音识别模块。而当用户处于移动中或用户不在智能家居接收范围内时，智能家居可能无法正确接收或识别出用户的语音，从而影响用户体验。

发明内容

本申请实施例提供了一种语音识别智能家居控制方法及装置，能够在远端实现对不具有语音识别模块的智能家居进行语音控制，提高语音识别的精确度。

第一方面，本申请实施例提供一种语音识别智能家居控制方法，应用于第一设备，所述方法包括：

接收来自第二设备的待识别语音，所述第二设备为支持采集用户语音的设备；

对所述待识别语音进行识别，得到目标文本，所述目标文本为所述待识别语音中目标说话人的语音对应的文本；

根据所述目标文本确定目标设备和目标操作指令；

向所述目标设备发送所述目标操作指令。

第二方面，本申请实施例提供的一种语音识别智能家居控制装置，应用于第一设备，所述装置包括：

收发单元，用于接收来自第二设备的待识别语音，所述第二设备为支持采集用户语音的设备；

处理单元，用于对所述待识别语音进行识别，得到目标文本，所述目标文本为所述待识别语音中目标说话人的语音对应的文本；

所述处理单元，还用于根据所述目标文本确定目标设备和目标操作指令；

所述收发单元，还用于向所述目标设备发送所述目标操作指令。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行上述第一方面所述的方法中所描述的部分或全部步骤的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行上述第一方面所述的方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行上述第一方面所述的方法。

本申请提供的技术方案，第一设备接收来自第二设备的待识别语音，第二设备为支持采集用户语音的设备；对待识别语音进行识别，得到目标文本，目标文本为待识别语音中目标说话人的语音对应的文本；根据目标文本确定目标设备和目标操作指令；向目标设备发送目标操作指令。本申请通过由第一设备对第二设备采集的待识别语音进行语音识别，可以提高语音识别的精确度，并且通过第一设备将识别出的目标操作指令发送给目标设备，从而能够在远端实现对不具有语音识别模块的智能家居进行语音控制。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音识别智能家居控制方法的系统架构示意图；

图2是本申请实施例提供的一种目标人语音识别原理示意图；

图3是本申请实施例提供的一种语音识别智能家居控制方法的流程示意图；

图4是本申请实施例提供的一种音频特征与声学特征拼接的示意图；

图5是本申请实施例提供的一种目标人语音识别模型结构的示意图；

图6是本申请实施例提供的一种语音识别智能家居控制装置的功能单元组成框图;

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述；

应理解，本申请实施例中涉及的“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

以及，除非有相反的说明，本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分，不用于限定多个对象的顺序、时序、优先级或者重要程度。例如，第一信息和第二信息，只是为了区分不同的信息，而并不是表示这两种信息的内容、优先级、发送顺序或者重要程度等的不同。

请参阅图1，图1是本申请实施例提供的一种语音识别智能家居控制方法所适用的系统架构，该系统架构可以为智慧家居系统，该智慧家居系统可包括第一设备100、第二设备200和第三设备600。

其中，所述第二设备200可以为采集用户的语音各种智能终端，如智能手机、智能音箱、电脑等，第二设备200采集到用户的语音后可将其发送给第一设备100，以进行语音识别。所述第三设备600可以是执行用户操作的各种智能终端，如智能冰箱、智能电视、智能热水器、智能洗衣机等。所述第一设备100可以为进行语音识别和生成操作指令的各种终端设备，该第一设备100中包含语音识别功能的系统或程序中，具体的语音识别功能可以是以一种程序的形式在第一设备100中运行，也可以作为第一设备100中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

进一步地，第一设备100可以是服务器或终端设备，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

应理解的是，在实际场景中可以有更多或更少种类的第二设备200和第三设备600参与到智能家居的控制过程中，具体数量和种类因实际场景而定，此处不做限定。

请参阅图2，图2为本申请实施例提供的一种目标人语音识别原理示意图。语音识别(Automatic Speech Recognition，ASR)所要解决的问题是让计算机能够"听懂"人类的语音，将语音转化成文本。如图2所示，第一设备可以为能够进行数据逻辑处理的服务器或智能终端的处理器。用户可以将预先训练好目标人语音识别模型存储到服务器中。其中，所述目标人语音识别模型包括说话人识别模型和语音识别模型，该说话人语音识别模型用于识别待识别语音的说话人是谁，该语音识别模型用于识别待识别语音的文本内容。

在具体实现过程中，第一设备在接收到语音之后，对接收到的语音进行分帧处理，然后进行特征提取直至检测到语音段的终点，将提取到的声学特征输入到声纹模型后进行声纹匹配，得到说话人身份，将提取到的音频特征输入到声学模型、语音模型进行解码，得到文本内容。在一种可能的实现方式中，解码是将声学模型、词典以及语言模型编译成一个网络。解码就是在这个动态网络空间中，基于最大后验概率，选择一条或多条最优路径作为识别结果(最优的输出字符序列)。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图3，图3为本申请实施例提供的一种语音识别智能家居控制方法流程示意图，应用于如图1所示的系统架构。如图3所示，该方法包括如下步骤；

S310、第一设备接收来自第二设备的待识别语音，所述第二设备为支持采集用户语音的设备。

其中，所述目标说话人为用户设置的可控制智能家居设备的说话人。所述第一设备中可预先存储所有目标说话人的声纹信息，通过将待识别语音的声纹信息与目标说话人的声纹信息进行比较，可确定待识别语音的说话人身份。

其中，在用户需要对目标设备进行操作时，用户可通过语音输入的方式说出其想执行的操作，在被第二设备采集到后便可生成相应的语音数据。换言之，所述的语音数据可认为是经第而设备采集后所生成的音频数据。需要说明的是，第二设备对语音采集的过程中，对语音输入进行滤波、降噪等处理所得到的模拟信号、经过模数转换后所得到的数字信号等，均可认为是本申请中语音数据所涵盖的范围。

可以理解，在实际操作时，上述的语音数据将发送给第一设备用以进行语音识别。故在本申请实施例中，上述的语音数据就是需要进行语音识别处理的，也即，待识别语音数据。

示例的，在所述第一设备中包括可用于采集语音数据的模块（如麦克风阵列）时，该第一设备可直接采集用户输入的语音信号（待识别语音），并对其进行目标人语音识别。也就是说，在第一设备上安装有麦克风阵列等语音采集装置时，该第二设备就是该第一设备。

S320、对所述待识别语音进行识别，得到目标文本，所述目标文本为所述待识别语音中目标说话人的语音对应的文本。

具体的，可以通过语音识别功能对用户输入的语音进行识别，得到识别结果，并在语音识别过程中对输入的语音进行说话人识别，以判定输入的语音是否为有效的语音数据，为智能家居系统提供安全保障，并防止其他人对智能家居的误操作，如小孩、邻居等。

例如，用户A输入的语音为“打开空调”，语音识别功能可以进行识别，识别出的文本内容为“打开空调”，若用户B输入的语音为“打开电视机”，但用户B不是目标说话人时，第一设备识别出的文本内容可以为空。

可选的，所述对所述待识别语音进行识别，得到目标文本，包括：提取所述待识别语音的目标声学特征向量和目标音频特征向量；将所述目标音频特征向量和所述目标声学特征向量输入目标人语音识别模型，得到所述待识别语音的目标文本。

其中，在获取到待识别语音后，第一设备可提取待识别语音的目标音频特征。对于常规的语音识别任务来说，只需要提取音频的频域特征，如梅尔倒谱系数（Mel-frequencyCepstral Coefficient，MFCC）和滤波器组特征（Filter Bank）等。但由于需要识别待识别语音的说话人信息，因此还需要提取待识别语音的目标声学特征，如i-vector特征或者d-vector特征等。目标声学特征的提取可以采用滑动窗的方式来保证实时性，也可以直接取一整条语音片段来进行提取。进一步地，可以采用基于网络时延神经网络(Time DelayNeural Network，TDNN)结构的实时声纹提取模型提取每一待检测音频帧的声学特征。

示例性地，提取各待检测音频帧的声学特征时，可以采用线性预测编码（LinearPredictive Coding，LPC）特征，MFCC特征，感知线性预测(Perceptual LinearPredictive，PLP)特征等，本申请实施例对声学特征的类型不进行限制，声学特征的提取即是将各待检测的音频帧转换为一个多维向量的过程。

具体地，在提取出目标声学特征和目标音频特征后，可将目标声学特征和目标音频特征输入到目标人语音识别模型中进行识别，以得到待识别语音的目标文本和说话人身份信息。

在本申请实施例中，如图4所示，所述目标人语音识别模型包括共享层、第一任务层和第二任务层，所述共享层包括多个神经网络模型。

可选的，所述将所述目标音频特征向量和所述目标声学特征向量输入目标人语音识别模型，得到所述待识别语音的目标文本，包括：将所述目标音频特征向量和所述目标声学特征向量进行拼接，得到目标拼接特征向量；将所述目标拼接特征向量输入所述共享层，得到第一概率，所述第一概率为所述待识别语音中每一帧音频包括说话人的概率；将所述第一概率输入所述第一任务层，得到第二概率，所述第二概率为每一帧音频包括所述目标说话人的概率；将所述目标音频特征向量和所述第二概率输入所述第二任务层，得到所述目标文本。

其中，在提取了待检测语音数据的音频特征和声学特征后，需要构建对应的特征向量。可将从待检测语音数据中提取的目标声学特征向量和提取的目标音频特征拼接起来，构建新的多维目标拼接特征向量。

进一步地，声学特征向量的维数一般较高，例如ivector特征维数为几百或上千，而音频特征向量维数较低，例如Filter Bank特征维数一般只有75维左右。因此，为了使目标音频特征和目标声学特征进行更好的拼接，可以在拼接前先对声学特征向量进行主成分分析（Principal Component Analysis，PCA），以将声学特征向量的有效维度降低在100维左右，从再将目标音频特征向量与降维后的目标声学特征向量进行首尾拼接，如图5所示，从而加快识别速度。

其中，第一任务层和第二任务层分别与目标人语音识别模型的共享层相连接，第一任务层输入共享层输出的第一概率后，输出对应的检测结果，第一任务层对共享层输出的后验概率进行声纹匹配，输出第二概率，根据第二概率的值可以确定对应帧中是否为目标说话人的音频数据。然后将第二概率和目标音频特征向量输入第二任务层对目标说话人的语音数据进行语音识别，得到目标文本。

进一步地，在训练阶段，所述目标人语音识别模型还包括第一梯度、第二梯度和模型梯度，所述第一梯度连接所述第一任务层，用于计算所述第一任务层的梯度值；所述第二梯度连接所述第二任务层，用于计算所述第二任务层的梯度值；所述模型梯度分别连接所述第一梯度和所述第二梯度，用于根据所述第一梯度和所述第二梯度反向更新所述目标人语音识别模型的权重。所述梯度loss的计算公式为：

，其中

为每帧对应的标注信息，

表示当前输入音频

计算得到的结果。因此根据梯度loss值的计算公式可分别计算出第一梯度

和第二梯度

。再将第一梯度

和第二梯度

分别乘以各自的梯度更新权重

和

形成最终的梯度

，即

。根据最终的梯度

对待训练的目标人语音识别模型的参数进行更新，直到最终的梯度

收敛，即根据待训练的目标人语音识别模型输出的第二后验概率和目标文本与标注信息的差别很小。从而得到训练后的目标人语音识别模型。

可选的，所述将所述目标音频特征向量和所述目标声学特征向量输入目标人语音识别模型，得到所述待识别语音的目标文本，包括：将所述目标音频特征向量和所述目标声学特征向量进行拼接，得到目标拼接特征向量；将所述目标拼接特征向量输入语音端点检测模型，得到所述待检测语音数据的至少一个语音片段和N个转折点，所述N为整数；基于所述至少一个语音片段和所述N个转折点，将待检测语音数据分割成至少一个音频段；将所述至少一个音频段输入说话人识别模型，得到所述目标说话人的音频段；将所述目标说话人的音频段输入语音识别模型，得到所述文本内容。

在实际应用场景中，用户输入语音中可能还会包括其他人的语音，第一设备可先将待识别语音分成不同说话人的语音段后，在对每个语音段进行识别，以得到有效的语音。具体为：将目标拼接特征向量输入预先训练好的语音端点检测模型中，该语音端点检测模型根据目标拼接特征向量中的目标音频特征向量将该待识别语音进行切割成至少一个语音片段，每个语音片段包括有效语音数据。然后根据目标拼接特征向量中的目标音频特征向量识别出每个语音片段中的每个说话人语音片段，得到每个语音片段中的说话人转折点。

在一可能的示例中，所述对所述待识别语音进行识别，得到目标文本，包括：

获取所述待识别语音对应的目标发音频率；按照预设的发音频率与说话人信息之间的映射关系，确定所述目标发音频率对应的目标说话人；在所述目标说话人满足预设要求时，将所述待识别语音进行模数转换，得到目标数字信号；确定所述目标数字信号对应的目标平均能量值；确定所述目标数字信号的峰值和谷值，得到多个峰值和多个谷值；依据所述多个峰值和所述多个谷值进行均方差运算，得到目标均方差；按照预设的平均能量值与第一情绪评估值之间的映射关系，确定所述目标平均能量值对应的目标第一情绪评估值；按照预设的均方差与第二情绪评估值之间的映射关系，确定所述目标均方差对应的目标第二情绪评估值；获取所述第一情绪评估值对应的第一权重值、所述第二情绪评估值对应的第二权重值；依据所述第一权重值、所述第二权重值、所述目标第一情绪评估值和所述目标第二情绪评估值进行加权运算，得到目标情绪评估值；按照预设的情绪评估值与情绪类型之间的映射关系，确定所述目标情绪评估值对应的目标情绪类型；按照预设的情绪类型与语义解析算法之间的映射关系，确定所述目标情绪类型对应的目标语义解析算法；依据所述目标语义解析算法将所述目标语音信号进行语义解析，得到所述目标文本。

其中，具体实现中，第一设备中可以预先存储预设的发音频率与说话人之间的映射关系。上述预设要求可以为：目标说话人为用户设置的说话人列表中的说话人，或者目标说话人不是用户设备的黑名单中的说话人。另外，第一设备中还可以预先存储预设的平均能量值与第一情绪评估值之间的映射关系以及预设的均方差与第二情绪评估值之间的映射关系。本申请实施例中，情绪类型可以为以下至少一种：非常高兴、高兴、一般、焦虑（急躁）、郁闷、悲哀、极度悲哀等等，在此不做限定。

具体实现中，不同的人，其发音频率不一样，因此，第一设备可以获取待识别语音对应的目标发音频率，进而，可以按照预设的发音频率与说话人之间的映射关系，确定目标发音频率对应的目标说话人，在目标说话人满足预设要求时，则可以将目标语音信息进行模数转换，得到目标数字信号。

进一步地，第一设备可以确定目标数字信号对应的目标平均能量值，进而，可以确定目标数字信号的峰值和谷值，得到多个峰值和多个谷值，依据多个峰值和多个谷值进行均方差运算，得到目标均方差，平均能量值和均方差在一定程度上，反映了用户的情绪变化，可以按照预设的平均能量值与第一情绪评估值之间的映射关系，确定目标平均能量值对应的目标第一情绪评估值，以及按照预设的均方差与第二情绪评估值之间的映射关系，确定目标均方差对应的目标第二情绪评估值，获取所述第一情绪评估值对应的第一权重值、所述第二情绪评估值对应的第二权重值，该第一权重值与第二权重值之和为1，第一权重值和第二权重值可以为经验值。

进一步地，依据第一权重值、第二权重值、目标第一情绪评估值和目标第二情绪评估值进行加权运算，得到目标情绪评估值，即：

目标情绪评估值=目标第一情绪评估值*第一权重值+目标第二情绪评估值*第二权重值；

另外，第一设备中还可以预先存储预设的情绪评估值与情绪类型之间的映射关系，进而，可以按照预设的情绪评估值与情绪类型之间的映射关系，确定目标情绪评估值对应的目标情绪类型，不同的情绪则可以采用不同的语义解析算法，这样有助于提升解析精准度，第一设备中可以预先存储预设的情绪类型与语义解析算法之间的映射关系，进而，可以按照预设的情绪类型与语义解析算法之间的映射关系，确定目标情绪类型对应的目标语义解析算法，依据目标语义解析算法将目标语音信号进行语义解析，得到目标文本。如此，一方面可以精准识别用户身份，另一方面，可以识别用户情绪，达到精准实现语义解析。

S330、根据所述目标文本确定目标设备和目标操作指令。

在本申请实施例中，在得到待识别语音中目标说话人的文本内容后，第一设备可以从该文本内容中提取出用户需要执行的操作和执行该操作的终端设备。然后根据执行操作生成操作指令，以控制终端设备执行该操作。

可选的，所述根据所述目标文本信息确定目标设备和目标操作指令，包括：将所述目标文本进行拆分，得到至少一个关键字；若所述至少一个关键字包括目标操作，根据所述目标操作生成所述目标操作指令；获取目标设备列表，所述目标设备列表包括多个第三设备，所述第三设备为与所述第一设备连接的设备；若所述目标文本中包括设备名称，则将所述设备名称分别与所述目标设备列表中的第三设备的设备名称进行匹配；若匹配成功，则将与设备名称匹配成功的第三设备确定为所述目标设备；否则，从所述多个第三设备中确定一个或多个候选设备，所述候选设备为支持所述目标操作的设备；从所述一个或多个候选设备中确定所述目标设备。

具体地，第一设备可以根据词性和词义对目标文本进行拆分，例如在目标文本为“打开电视机”时，可根据词性将目标文本拆分为动词“打开”和名词“电视机”两个关键字。然后将该至少一个关键字与预先存储的操作进行匹配。若匹配上，则将匹配的关键字作为目标操作，进而根据目标操作生成控制目标设备执行该操作的目标操作指令。然后第一设备获取当前与第一设备处于连接状态的所有第三设备，将该至少一个关键字与所有第三设备的设备名称进行匹配，若匹配成功，则将与设备名称匹配成功的第三设备确定为所述目标设备，否则第一设备根据该至少一个关键字从所有第三设备中确定可执行目标操作的候选设备。

例如，在目标文本为“打开空调”时，拆分可得到“打开”“空调”两个关键字，通过将关键字与预先存储的操作进行匹配，以及将关键字与所有第三设备的设备名称进行匹配，可将“打开”确定为目标操作，将“空调”确定为目标设备。

又例如，在目标文本为播放音乐时，拆分可得到“播放”和“音乐”这两个关键字，通过与预先存储的操作进行匹配，可将“播放音乐”确定为目标操作，从目标设备列表中可将能够执行“播放音乐”的手机、电脑、智能电视等确定为候选设备，然后从候选设备中选择出执行目标设备的目标设备。

示例的，所述根据所述目标文本信息确定目标设备和目标操作指令，包括：将所述目标文本进行拆分，得到至少一个关键字；获取目标设备列表，所述目标设备列表包括多个第三设备，所述第三设备为与所述第一设备连接的设备；将所述至少一个关键字分别与所述目标设备列表中的第三设备的设备名称进行匹配；若匹配成功，则将匹配成功的设备名称对应的第三设备确定为目标设备，将所述至少一个关键字中除了匹配成功所对应的关键字之外的所有关键字确定为目标操作；若匹配失败，则从所述多个第三设备中确定一个或多个候选设备，所述候选设备为支持所述目标操作的设备，并将所述至少一个关键字确定为目标操作。

例如，在目标文本为“将空调温度调到26度”时，拆分可得到“将”“空调”“温度”“调到”“26度”关键字，通过将关键字与所有第三设备的设备名称进行匹配，可将“空调”确定为目标设备，然后将“将温度调到26度”确定为目标操作。

可选的，所述从所述一个或多个候选设备中确定所述目标设备，包括：获取历史信息，所述历史信息包括每个第三设备的至少一个第一时间和所述每个第三设备的操作次数，所述第一时间为在第一时长内所述第三设备执行所述目标操作的时间，所述操作次数为在所述第一时间内所述第三设备执行所述目标操作的次数；根据时间与权值之间的反比例关系，确定所述每个第三设备的所述至少一个第一时间分别对应的至少一个目标权重；根据所述至少一个目标权重和所述操作次数，计算所述每个第三设备的优先等级；将所述一个或多个候选设备中优先等级最大的所述候选设备确定为所述目标设备。

其中，第一设备可预先存储该第一时间以及时间与权值的反比例关系。

具体地，若所述候选设备为一个，则直接将该候选设备确定为目标设备；若候选设备有多个，则从多个候选设备中挑选出符合用户兴趣和习惯的设备作为目标设备。具体为：第一设备获取在预设时间内所有执行目标操作的第三设备以及每个第三设备执行的次数，然后根据时间与权值之间的反比例关系，即第三设备执行目标操作的时间距离当前时间越长，其权重越小，距离当前时间越短，其权重越大，上一次执行目标操作的第三设备的权重最大。然后分别计算每个第三设备的优先等级，该优先等级

，所述n为操作次数，为每次执行目标操作的时间所对应的权重。最后将优先等级最高的第三设备确定为目标设备。

示例的，若用户设置了执行该目标操作的默认设备，则在目标文本中未包括目标设备时，直接将设置的默认设备确定为目标设备；或者若用户设置从多个候选设备中选择目标设备的选择规则时，可直接根据该选取规则确定目标设备，例如在选择规则为将上次执行目标操作的第三设备确定为目标设备。

S340、向所述目标设备发送所述目标操作指令。

在本申请实施例中，在确定了目标设备和目标操作指令后，第一设备可向目标设备发送目标操作指令以执行用户操作。

可选的，所述方法还包括：若所述第一设备与所述目标设备未连接，向所述目标设备发送连接请求，所述连接请求用于建立与所述目标设备的连接。

其中，若根据目标文本确定的目标设备与第一设备处于未连接状态时，第一设备可向该目标设备发送连接请求，以建立与所述目标设备的连接，从而执行目标操作。

可选的，所述方法还包括：在第二时长后，获取第一操作和第一次数，所述第一操作为所述目标设备上一次执行的操作，所述第一次数为所述目标设备在所述第一时长内执行所述第一操作的次数；若所述第一次数大于或等于预设次数，将所述第一操作确定为预测操作；若所述第一次数小于预设次数，将所述第二操作确定为预测操作，所述第二操作为所述目标设备在所述第一时长内执行次数最多的操作；根据所述预测操作生成预测操作指令，并向所述目标设备发送所述预测操作指令。

在实际应用中，若用户输入的语音中的目标操作为开启目标设备，且在第二时长内未进一步输入语音时，第一设备可根据待识别语音的目标操作和目标设备预测用户可能会输入的操作，并发送给目标设备进行执行。

具体地，第一设备获取目标设备上一次执行的操作和在第一时长内执行所述该操作的次数，若该次数大于或等于预设次数，将上一次执行的操作确定为预测操作，否则将第一时长内执行次数最多的操作确定为预测操作。

可以看出，本申请提出了一种语音识别智能家居控制方法，第一设备接收来自第二设备的待识别语音，第二设备为支持采集用户语音的设备；对待识别语音进行识别，得到目标文本，目标文本为待识别语音中目标说话人的语音对应的文本；根据目标文本确定目标设备和目标操作指令；向目标设备发送目标操作指令。本申请通过由第一设备对第二设备采集的待识别语音进行语音识别，可以提高语音识别的精确度，并且通过第一设备将识别出的目标操作指令发送给目标设备，从而能够在远端实现对不具有语音识别模块的智能家居进行语音控制。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，网络设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

请参阅图6，图6是本申请实施例提供的一种语音识别智能家居控制装置600的功能单元组成框图，该装置600应用于终端设备，所述装置600包括：收发单元610和处理单元620，其中，

所述收发单元610，用于接收来自第二设备的待识别语音，所述第二设备为支持采集用户语音的设备；

所述处理单元620，用于对所述待识别语音进行识别，得到目标文本，所述目标文本为所述待识别语音中目标说话人的语音对应的文本；

所述处理单元620，还用于根据所述目标文本确定目标设备和目标操作指令；

所述收发单元610，还用于向所述目标设备发送所述目标操作指令。

可选的，在对所述待识别语音进行识别，得到目标文本方面，所述处理单元620具体用于：提取所述待识别语音的目标声学特征向量和目标音频特征向量；将所述目标音频特征向量和所述目标声学特征向量输入目标人语音识别模型，得到所述待识别语音的目标文本。

可选的，所述目标人语音识别模型包括共享层、第一任务层和第二任务层，所述共享层包括多个神经网络模型；

在将所述目标音频特征向量和所述目标声学特征向量输入目标人语音识别模型，得到所述待识别语音的目标文本方面，所述处理单元620具体用于：将所述目标音频特征向量和所述目标声学特征向量进行拼接，得到目标拼接特征向量；将所述目标拼接特征向量输入所述共享层，得到第一概率，所述第一概率为所述待识别语音中每一帧音频包括说话人的概率；将所述第一概率输入所述第一任务层，得到第二概率，所述第二概率为每一帧音频包括所述目标说话人的概率；将所述目标音频特征向量和所述第二概率输入所述第二任务层，得到所述目标文本。

可选的，在根据所述目标文本信息确定目标设备和目标操作指令方面，所述处理单元620具体用于：将所述目标文本进行拆分，得到至少一个关键字；若所述至少一个关键字包括目标操作，根据所述目标操作生成所述目标操作指令；获取目标设备列表，所述目标设备列表包括多个第三设备，所述第三设备为与所述第一设备连接的设备；若所述目标文本中包括设备名称，则将所述设备名称分别与所述目标设备列表中的第三设备的设备名称进行匹配；若匹配成功，则将与设备名称匹配成功的第三设备确定为所述目标设备；否则，从所述多个第三设备中确定一个或多个候选设备，所述候选设备为支持所述目标操作的设备；从所述一个或多个候选设备中确定所述目标设备。

可选的，在从所述一个或多个候选设备中确定所述目标设备方面，所述处理单元620具体用于：获取历史信息，所述历史信息包括每个第三设备的至少一个第一时间和所述每个第三设备的操作次数，所述第一时间为在第一时长内所述第三设备执行所述目标操作的时间，所述操作次数为在所述第一时间内所述第三设备执行所述目标操作的次数；根据时间与权值之间的反比例关系，确定所述每个第三设备的所述至少一个第一时间分别对应的至少一个目标权重；根据所述至少一个目标权重和所述操作次数，计算所述每个第三设备的优先等级；将所述一个或多个候选设备中优先等级最大的所述候选设备确定为所述目标设备。

可选的，所述处理单元620，还用于：在第二时长后，获取第一操作和第一次数，所述第一操作为所述目标设备上一次执行的操作，所述第一次数为所述目标设备在所述第一时长内执行所述第一操作的次数；若所述第一次数大于或等于预设次数，将所述第一操作确定为预测操作；若所述第一次数小于预设次数，将所述第二操作确定为预测操作，所述第二操作为所述目标设备在所述第一时长内执行次数最多的操作；根据所述预测操作生成预测操作指令；

所述收发单元610，还用于：向所述目标设备发送所述预测操作指令。

可选的，在对所述待识别语音进行识别，得到目标文本方面，所述处理单元620具体用于：获取所述待识别语音对应的目标发音频率；按照预设的发音频率与说话人信息之间的映射关系，确定所述目标发音频率对应的目标说话人；在所述目标说话人满足预设要求时，将所述待识别语音进行模数转换，得到目标数字信号；确定所述目标数字信号对应的目标平均能量值和目标均方差；根据所述目标平均能量值和所述目标均方差计算目标情绪评估值；按照预设的情绪评估值与语义解析算法之间的映射关系，确定所述目标情绪类型对应的目标语义解析算法；依据所述目标语义解析算法将所述目标语音信号进行语义解析，得到所述目标文本。

应理解，这里的装置600以功能单元的形式体现。这里的术语“单元”可以指应用特有集成电路（application specific integrated circuit，ASIC）、电子电路、用于执行一个或多个软件或固件程序的处理器（例如共享处理器、专有处理器或组处理器等）和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，装置600可以具体为上述实施例中的终端设备，装置600可以用于执行上述方法实施例中与终端设备对应的各个流程和/或步骤，为避免重复，在此不再赘述。

上述各个方案的装置600具有实现上述方法中终端设备执行的相应步骤的功能；所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块；例如收发单元610可以由发送机替代、处理单元620可以由处理器代替，分别执行各个方法实施例中的收发操作以及相关的处理操作。

在本申请的实施例，装置600也可以是芯片或者芯片系统，例如：片上系统（systemon chip，SoC）。对应的，检测单元可以是该芯片的检测电路，在此不做限定。

请参阅图7，图7是本申请实施例提供的一种终端设备的结构示意图，该终端设备包括：一个或多个处理器、一个或多个存储器、一个或多个通信接口，以及一个或多个程序；所述一个或多个程序被存储在所述存储器中，并且被配置由所述一个或多个处理器执行。

上述程序包括用于执行以下步骤的指令：

根据所述目标文本确定目标设备和目标操作指令；

向所述目标设备发送所述目标操作指令。

其中，上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

应理解，上述存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

在本申请实施例中，上述装置的处理器可以是中央处理单元（CentralProcessing Unit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器执行存储器中的指令，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。

本申请实施例还提供一种包含指令的计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行上述任一实施例所述的方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者TRP等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别智能家居控制方法，其特征在于，应用于第一设备，所述方法包括：

根据所述目标文本确定目标设备和目标操作指令；

向所述目标设备发送所述目标操作指令。

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别语音进行识别，得到目标文本，包括：

提取所述待识别语音的目标声学特征向量和目标音频特征向量；

将所述目标音频特征向量和所述目标声学特征向量输入目标人语音识别模型，得到所述待识别语音的目标文本。

3.根据权利要求2所述的方法，其特征在于，所述目标人语音识别模型包括共享层、第一任务层和第二任务层，所述共享层包括多个神经网络模型；

将所述目标音频特征向量和所述目标声学特征向量输入目标人语音识别模型，得到所述待识别语音的目标文本，包括：

将所述目标音频特征向量和所述目标声学特征向量进行拼接，得到目标拼接特征向量；

将所述目标拼接特征向量输入所述共享层，得到第一概率，所述第一概率为所述待识别语音中每一帧音频中包括说话人的概率；

将所述第一概率输入所述第一任务层，得到第二概率，所述第二概率为每一帧音频包括所述目标说话人的概率；

将所述目标音频特征向量和所述第二概率输入所述第二任务层，得到所述目标文本。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述目标文本信息确定目标设备和目标操作指令，包括：

将所述目标文本进行拆分，得到至少一个关键字；

若所述至少一个关键字包括目标操作，根据所述目标操作生成所述目标操作指令；

获取目标设备列表，所述目标设备列表包括多个第三设备，所述第三设备为与所述第一设备连接的设备；

若所述目标文本中包括设备名称，则将所述设备名称分别与所述目标设备列表中的第三设备的设备名称进行匹配；

若匹配成功，则将与设备名称匹配成功的第三设备确定为所述目标设备；否则，从所述多个第三设备中确定一个或多个候选设备，所述候选设备为支持所述目标操作的设备；

从所述一个或多个候选设备中确定所述目标设备。

5.根据权利要求4所述的方法，其特征在于，所述从所述一个或多个候选设备中确定所述目标设备，包括：

获取历史信息，所述历史信息包括每个第三设备的至少一个第一时间和所述每个第三设备的操作次数，所述第一时间为在第一时长内所述第三设备执行所述目标操作的时间，所述操作次数为在所述第一时间内所述第三设备执行所述目标操作的次数；

根据时间与权值之间的反比例关系，确定所述每个第三设备的所述至少一个第一时间分别对应的至少一个目标权重；

根据所述至少一个目标权重和所述操作次数，计算所述每个第三设备的优先等级；

将所述一个或多个候选设备中优先等级最大的所述候选设备确定为所述目标设备。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在第二时长后，获取第一操作和第一次数，所述第一操作为所述目标设备上一次执行的操作，所述第一次数为所述目标设备在所述第一时长内执行所述第一操作的次数；

若所述第一次数大于或等于预设次数，将所述第一操作确定为预测操作；

若所述第一次数小于预设次数，将第二操作确定为预测操作，所述第二操作为所述目标设备在所述第一时长内执行次数最多的操作；

根据所述预测操作生成预测操作指令，并向所述目标设备发送所述预测操作指令。

7.根据权利要求1所述的方法，其特征在于，所述对所述待识别语音进行识别，得到目标文本，包括：

获取所述待识别语音对应的目标发音频率；

按照预设的发音频率与说话人信息之间的映射关系，确定所述目标发音频率对应的目标说话人；

在所述目标说话人满足预设要求时，将所述待识别语音进行模数转换，得到目标数字信号；

确定所述目标数字信号对应的目标平均能量值和目标均方差；

根据所述目标平均能量值和所述目标均方差计算目标情绪评估值；

按照预设的情绪评估值与语义解析算法之间的映射关系，确定所述目标情绪类型对应的目标语义解析算法；

依据所述目标语义解析算法将所述目标语音信号进行语义解析，得到所述目标文本。

8.一种语音识别智能家居控制装置，其特征在于，应用于第一设备，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法的步骤。